CN1411586A

CN1411586A - 包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法

Info

Publication number: CN1411586A
Application number: CN01806111A
Authority: CN
Inventors: 蒂莫西·安德森; 弗雷德里克·泽恩特; 罗伯特·威尔; 迈克尔·里默; 迈克尔·贝利; 布雷特·米勒; 德里克·罗利
Original assignee: iArchives Inc
Current assignee: iArchives Inc
Priority date: 2000-03-06
Filing date: 2001-03-06
Publication date: 2003-04-16
Also published as: CA2400345C; WO2001067378A1; EP1269399A4; AU2001249096A1; EP1269399A1; US20050060273A1; US7240062B2; CA2400345A1

Abstract

多台识别机(110)对扫描文档指定位置处的字产生不同的译码(116)。将与每个特别的译码对应的字节点存储在字索引(102)中，每个字节点与前一个及后一个识别字的字节点连接。

Description

包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法

相关申请

本申请与2000年3月6日提交的美国临时申请60/187362相关并要求其优先权，该申请的名称为“将归档数据转换为搜索文本的系统和方法”，发明者是G.Bret Millar、Timothy L.Andersen和E.DerekRowley。该申请的全文在此作为参考文献。

技术领域

本发明一般涉及光学字符识别(OCR)领域。更具体地，本发明涉及一种包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法。

技术背景

在光学字符识别(OCR)领域，模拟文档(如纸、缩微文件等)被数字扫描、分割并转换成可以用计算机阅读、搜索和编辑的文本。为了快速搜索，每个识别的字通常存储在与在扫描文档中发现的字的位置(如页码和页面坐标)对应的搜索字索引中。

在某些传统OCR系统中，使用多台识别机识别文档中的每个字。一般地，使用多台识别机能增大总的识别准确率，因为识别机通常使用不同的OCR技术，每种技术都有不同的优缺点。

当识别机对扫描文档中的字的同一图像产生不同的译码时，通常选择一个译码作为“正确”译码。OCR系统常常依赖于“选举”策略(获胜者拥有一切)，即占多数的译码将被选作正确译码。作为选择，或另外地，可以使用置信度。例如，假设两台识别机正确识别字“may”的置信度分别为80％和70％，而另一台识别机将同一输入数据识别为“way”的置信度为90％，另外还有一台识别机将输入数据识别为“uuav”的置信度为60％。在这个例子中，综合选举与置信度将导致选择“may”作为优选译码。

不幸的是，通过选择单独的译码并放弃其它译码，客观上正确的译码也常被放弃。图像噪音和其它影响常常干扰多数识别机，而仅有少数识别机得出正确译码。在上述例子中，正确译码也可能是“way”，但在标准方法中就被放弃了。因此，不管使用多少台识别机，传统OCR系统根本不能达到完全准确。

因此所需要的是一种包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法。另外一种包括通过有选择地去除在字典或其它字表中没有发现的译码以减小索引大小从而创建搜索字索引的系统和方法，也是需要的。另外，也需要一种用于搜索字索引的系统和方法，这种方法允许重新缩放扫描文档而不必修改字索引中的位置数据。

附图的简要描述

下面参考附图描述本发明的实施例，这些实施例不是本发明的全部实施例。在附图中：

图1是传统系统建立扫描文档的搜索字索引的框图；

图2是系统建立扫描文档的搜索字索引的框图，其中包括对文档中指定位置处字的多个译码；

图3是关联字节点的框图；

图4是系统建立搜索字索引的框图，其中包括与字典通讯的字过滤器；

图5是计算机系统建立扫描文档的搜索字索引的实际框图，其中包括对文档中指定位置处字的多个译码；和

图6是建立扫描文档搜索字索引的方法的流程图，其中包括对文档中指定位置处字的多个译码。

具体实施方式

在整个说明书中，“一个实施例”是指至少在一个本发明实施例中包括所描述的实施例中的特殊特征、结构或特性。因此，在说明书中不同地方出现的字语“在一个实施例中”并不一定是指同一个实施例。

并且，所描述的特征、结构或特性可以以适当方式出现在一个或多个实施例中。在下面的描述中提供了很多具体的细节，例如程序实例、用户选项、网络协议、数据库询问、数据库结构等等，以便彻底理解本发明的实施例。但是，相关领域技术人员将认识到，本发明在缺少一个或多个具体细节或者使用其它方法、元件、材料等的情况下也能实施。在其它情况下，对公知的结构、材料或操作不作详细的图示或描述，以避免掩盖本发明的特征。

现在参看图1，其中表示了传统光学字符识别(OCR)系统100从模拟文档104(如纸或缩微文件)中产生搜索字索引102。最初，用数字扫描仪106扫描模拟文档104。数字扫描仪106在本领域中是公知的，例如惠普9100C^数字发送器，它是高速、多页面、网络扫描设备。为达到准确识别，数字扫描仪106的分辨率一般超过300dpi(点每英寸)。

数字扫描仪106的输出是扫描文档108，这里也称为文档图像。扫描文档108通常包括一个或多个双层位图，每个位图对应模拟文档104的一页。

在图示的实施例中，OCR系统100包括多个识别机110。标准识别机110的例子包括加利福尼亚州Fremont的Abbyy USA公司的Finereader^和麻萨诸塞州Peabody的Scansoft公司的Omnipage^。如上所述，使用多个识别机110一般增大总的识别准确率，因为识别机110通常使用不同的OCR技术，每种技术都有不同的优缺点。例如，一台识别机110使用基于神经网络的OCR技术，而另一台识别机110使用模板匹配技术。

得到扫描文档108后，分割模块(未示出)将文档108分割成与单个字(或其它目标)对应的图像段。每个图像段用一个边界框112标记。通常，边界框用一对表示像素(例如，x像素向下，y像素横向)的坐标114定义。在某些情况下，每台识别机110可包括单独的分割模块，产生同一文档108的不同片段。

文档108分割后，选择一个用边界框112标记的特别图像片段进行识别。此后，每台识别机110开始识别选定图像片段中包含的字并产生它自己的译码116。

在某些情况下，译码116后面可带有一个置信度。例如，置信度90％可表示识别机110对其译码的正确性有90％的把握。很多因素都影响置信度，这不在本发明的讨论范围内，但对于本领域熟知人员是公知的。

在传统OCR系统100中，将每个译码116，包括任何一个置信度，提供给冲突分辨模块118，它选择一个单独的优选译码120存储在字索引102中。可以使用不同技术选择优选译码120。通常使用选举技术，其中多数识别机110同意优选译码120。在其它情况下，置信度有较大的权重用于衡量特殊识别机110的“选举”。

通常，放弃未被选择的译码116，而将优选译码120插入字索引102中。字索引102通常将优选译码120与其对应的字(如边界框112表示的字)在扫描文档108中的位置关联在一起。如果扫描文档108包括多页，则页码也包括在位置数据中。

字索引102的实施细节在不同系统中是不同的。例如，字索引102可在关系数据库的上下文中实施。在另外的实施例中，可以使用散列技术。字索引102的精确结构和组织对于本发明并不重要。

将扫描文档108的每个字识别并输入字索引102后，搜索机(未示出)可以使用字索引102在扫描文档108中快速定位一个指定的字。例如，用户输入字“maximum”后，搜索机返回第3页的位置，以边界框“(150，125)(190，140)”表示。

如前所述，传统OCR系统100的一个缺点是多数识别机110有时会出错。这样，选择单独的优选译码120并放弃其它译码，客观正确的译码也常被放弃。因此，不管使用多少台识别机110，传统OCR系统100根本不能达到完全准确。

现在参看图2，其中表示了产生扫描文档108的搜索字索引102的系统200，其中包括对文档108中指定位置处字的多个译码。如上所述，多台识别机110对边界框112中的字产生独立的译码116。在一个实施例中，识别机110可使用多线程操作系统并行工作。另外，识别110也可以在相同的输入数据上串行工作。

但是，与传统OCR系统不同，每个单独的译码116存储在字索引102中，指示对应字的位置(如边界框112)。例如，如果三台识别机110将字译作“may”，而一台识别机110将同一字译作“way”，则“may”和“way”都加入字索引102中。这样，系统200不依靠冲突分辨模块118选择单独的优选译码120。

并且，与传统方法不同，在一个实施例中，边界框112的坐标114表示为扫描文档108长度或宽度的百分数。这可以简化文档108的再次缩放，而不必修改字索引102中的位置数据。

这里所用的，字的译码116与其位置的关系称为“字节点”202。这样，对于每个译码116，将字节点202插入字索引102中。字节点202可以是任何适合的数据结构或数据结构的结合。

与传统方法相比，上述方法对于关键字搜索准确率有重大影响。假设识别机110之间的OCR错误是不相关的，字被至少一台识别机110识别成正确译码116的概率(从而使用者返回搜索该字)为：

1-((1-A₁)·(1-A₂)·…·(1-A_n)) 式1

其中：A_i是识别机i的字准确率；

n是应用于扫描文档108的识别机110的数量。

随着识别机100数量的增多，这个概率逐渐接近100％。例如，如果有两台识别机110，每台识别正确字的概率仅为60％，则它们中至少一台能正确辨认字的概率为

1-(1-0.60)²＝84％

如果加入第三台准确率60％的识别机110，则此概率变为

1-(1-0.60)³＝93.4％

相比之下，如果仅选择一台识别机110的输出，则正确识别字并返回在短语搜索中文档中的字的概率为60％。

在一个实施例中，如图3所示，每个字节点202与扫描文档108中前、后字的每个译码116对应的字节点202连接起来。例如，“cost”对应的字节点202e与“maximum”、“maximal”和“maxwzm”对应的节点202b-d之间是双向联接。同样，字节点202b-d与“The”对应的字节点202a之间也是双向联接。在另外的实施例中也可以使用单向联接。联接的实现可以使用任何适合的技术，例如指针、关键字域等等，这些可以嵌在或不嵌在字节点202中。

在一个实施例中，采用双向联接以便于进行短语搜索。如图3所示，插入一个字的不同译码116的多个字节点202产生多个短语路径，这在短语搜索中增大了准确率。例如，在传统方法中当错误译码116插入字索引102时，如“maximal”而不是“maximum”，则“the maximumcost”的短语搜索将搜索不到结果。相比之下，使用本发明的字索引102，“the maximum cost”的短语搜索是成功的。

图4表示本发明系统400的另一个实施例，其中字过滤器402去除了一个或多个识别机110产生的译码116。与标准方法不同，同一字的不同译码116的多个字节点202仍插入字索引102中。但是，在一个实施例中，对于在字典404或其它字表中没有发现的特殊译码116，其字节点202不插入字索引102中。

一般地，字典404中没有发现译码116，则译码116正确的概率相对很低。通过去除不可能的译码116，减小了字索引102的大小并增大了响应时间。但是，准确率没有下降，因为用户搜索一个字典404中没有的字是不大可能的。

当然，尽管在字典404中没有被发现，但某些译码116仍被索引了。例如，首字母缩写词、专有名词和技术词，无论是否在字典或其它字表中发现它们，仍被插入到字索引102中。

在一个实施例中，含有不可能的字符三元组译码116也被去除。一种不可能的字符三元组是字典404中不存在的连续的三个字符。例如，图4中第三识别机100产生的译码116，即“maxwzm”，含有不可能的字符三元组“xwz”。

图5是图2和图4的系统200和400的硬件结构的示意性框图。在一个实施例中，中央处理器(CPU)502执行存储在存储器504中的指令，例如随机存取存储器(RAM)和/或只读存储器(ROM)。

CPU502可以与一个或多人输入设备506进行电子通讯，例如鼠标和/或键盘。CPU502可以与输入设备506也可以与其它图示的元件之间通过总线503连接。

同样，CPU502可以与一个或多人输出设备508进行电子通讯，例如显示器和/或打印机。在不同实施例中，CPU502也可以与一个或多个端口510连接，如RS-232、打印机和/或USB端口。相似地，CPU502与网络接口512连接，如以太网适配器。

在一个实施例中，CPU502与存储设备514进行电子通讯，如硬盘驱动器、CD-ROM和/或DVD-ROM。存储设备514可用于存储字典404、字索引102以及在系统200和400工作时装入存储器504中的各种软件模块。

在一个实施例中，存储器504存储多个识别机110。另外，存储器504存储索引创建模块516，它接收识别机110的译码116并使用图2所示的技术将对应的字节点202存储在字索引102中。在另外的实施例中，索引创建模块516结合在一台或多台识别机110中。

存储器504也存储连接模块518，它将每个字节点202连接到与扫描文档108中前、后字的每个译码116对应的字节点202，如参考图3所作的描述。在某些实施例中，连接模块518也与索引创建模块516集成在一起。

存储器504也存储操作系统(OS)520，例如Windows2000^或Linux^，它们为上述软件模块管理并提供资源。在另外的实施例中，存储器504中的软件模块可以用硬件或固件实现。

当然，在不偏离本发明精神和范围时，图5所示的硬件结构能以不同的结构实施。另外，图中没有示出那些本领域熟知人员公知的一些标准元件，以避免掩盖本发明的特征。

参看图6，表示创建扫描文档108搜索字索引102的方法600的流程图，其中包括对文档中指定位置处字的多个译码。方法600开始时将数字扫描仪106产生的扫描文档108分割602。可以使用任何传统的分割方法，将扫描文档108分割成由边界框112标记的多个图像片段。此后，选择下一个边界框112用于识别604。

在一个实施例中，所选边界框112内的字的第一译码116由第一识别机110产生606。此后，字的第二译码116由第二识别机110产生608。可以使用任何数量的额外的识别机110产生额外的译码116。

接着，将第一字节点202存储在字索引102中610。在一个实施例中，第一字节点202将字的第一译码116与扫描文档108中字的位置(如边界框112)关联。同样地，将第二字节点202存储在字索引102中612。在一个实施例中，第二字节点202将字的第二译码116与扫描文档108中字的位置(如边界框112)关联。

在某些实施例中，方法600继续将第一和第二字节点202与扫描文档108中先前识别字的译码116对应的一个或多个字节点202连接614。如上所述，连接是双向的并用于简化短语搜索。

接着进行判断616，是否需要识别扫描文档108中另外的边界框112。如果是，方法600返回到步骤604，选择下一个边界框112。否则，方法600结束。

按照上述描述，本发明提供了很多传统方法中没有的优点。通过存储与所有的字的特别译码116对应的字节点202，关键词搜索的准确率明显提高。另外，通过去除字典404中没有发现的译码116，索引大小和搜索时间减小，但不影响准确率。并且，通过使用基于百分数的坐标114定义边界框112，可以简单地缩放扫描文档108，而不必修改索引102中的位置。

虽然图解和描述了本发明的具体实施例和应用，但应该理解的是本发明并不受这里所述的精确结构和组成的限制。在不偏离本发明精神和范围时，对这里所述的本发明方法和系统的配置、操作和细节做出的各种修改、变化和更改，对于本领域熟知人员是显而易见的。

Claims

1.一种在计算机系统中用于创建扫描文档搜索字索引的方法，所述方法包括：

使用第一识别机产生扫描文档中指定位置处的字的第一译码；

使用第二识别机产生字的第二译码，其中，第二译码与第一译码不同；

在搜索字索引中存储与字的第一译码和扫描文档中字的位置相关联的第一字节点；和

在搜索字索引中存储与字的第二译码和扫描文档中字的位置相关联的第二字节点。

2.如权利要求1所述的方法，其特征在于第一和第二识别机使用不同的光学字符识别(OCR)技术。

3.如权利要求1所述的方法，其特征在于字的位置由边界框定义。

4.如权利要求3所述的方法，其特征在于边界框至少由两个坐标定义，每个坐标包括扫描文档宽度和高度的百分数。

5.如权利要求1所述的方法，其特征在于还包括：

将第一和第二字节点连接到扫描文档中前一个识别字的至少一个字节点。

6.如权利要求1所述的方法，其特征在于还包括：

将第一和第二字节点连接到扫描文档中后一个识别字的至少一个字节点。

7.如权利要求1所述的方法，其特征在于还包括：

使用第三识别机产生字的第三译码；

确定字的第三译码是否包含在字表中；和

当字的第三译码包含在字典中时，将第三字节点存储在搜索字索引中，第三字节点与字的第三译码和扫描文档中字的位置相关联。

8.如权利要求7所述的方法，其特征在于字表包括字典。

9.如权利要求1所述的方法，其特征在于还包括：

使用第三识别机产生字的第三译码；

确定字的第三译码是否包含不可能的字符三元组；

当字的第三译码不包含不可能的字符三元组时，将第三字节点存储在搜索字索引中，第三字节点与字的第三译码和扫描文档中字的位置相关联。

10.如权利要求9所述的方法，其特征在于不可能的字符三元组包括在字典的字中没有发现的三个连续字符。

11.一种用于创建扫描文档中搜索字索引的系统，所述系统包括：

产生扫描文档中指定位置处的字的第一译码的第一识别机；

产生字的第二译码的第二识别机，其中，第二译码与第一译码不同；

将第一和第二字节点存储在搜索字索引中的索引创建元件，第一字节点与字的第一译码和扫描文档中字的位置相关联，第二字节点与字的第二译码和扫描文档中字的位置相关联。

12.如权利要求11所述的系统，其特征在于第一和第二识别机使用不同的光学字符识别(OCR)技术。

13.如权利要求11所述的系统，其特征在于字的位置由边界框定义。

14.如权利要求13所述的系统，其特征在于边界框至少由两个坐标定义，每个坐标包括扫描文档宽度和高度的百分数。

15.如权利要求11所述的系统，其特征在于还包括：

用于将第一和第二字节点连接到扫描文档中前一个识别字的字节点的连接元件。

16.如权利要求11所述的系统，其特征在于还包括：

用于将第一和第二字节点连接到扫描文档中后一个识别字的字节点的连接元件。

17.如权利要求11所述的系统，其特征在于还包括：

产生字的第三译码的第三识别机；

确定字的第三译码是否包含在字表中的字过滤器；

其中，还具有当字的第三译码包含在字典中时将第三字节点存储在搜索字索引中的索引创建元件，其中第三字节点与字的第三译码和扫描文档中字的位置相关联。

18.如权利要求17所述的系统，其特征在于字表包括字典。

19.如权利要求11所述的系统，其特征在于还包括：

产生字的第三译码的第三识别机；

确定字的第三译码是否包含不可能的字符三元组的字过滤器；

其中，还具有当字的第三译码不包含不可能的字符三元组时将第三字节点存储在搜索字索引中的索引创建元件，第三字节点与字的第三译码和扫描文档中字的位置相关联。

20.如权利要求19所述的系统，其特征在于不可能的字符三元组包括在字典的字中没有发现的三个连续字符。

21.一种在计算机可读介质上的、用于创建扫描文档的搜索字索引的计算机程序产品，所述计算机程序产品包括：

使用第一识别机产生扫描文档中指定位置处的字的第一译码的程序码；

使用第二识别机产生字的第二译码的程序码，其中，第二译码与第一译码不同；

在搜索字索引中存储与字的第一译码和扫描文档中字的位置相关联的第一字节点的程序码；和

在搜索字索引中存储与字的第二译码和扫描文档中字的位置相关联的第二字节点的程序码。

22.如权利要求21所述的计算机程序产品，其特征在于第一和第二识别机使用不同的光学字符识别(OCR)技术。

23.如权利要求21所述的计算机程序产品，其特征在于字的位置由边界框定义。

24.如权利要求23所述的计算机程序产品，其特征在于边界框至少由两个坐标定义，每个坐标包括扫描文档宽度和高度的百分数。

25.如权利要求21所述的计算机程序产品，其特征在于还包括：

将第一和第二字节点连接到扫描文档中前一个识别字的至少一个字节点的程序码。

26.如权利要求21所述的计算机程序产品，其特征在于还包括：

将第一和第二字节点连接到扫描文档中后一个识别字的至少一个字节点的程序码。

27.如权利要求21所述的计算机程序产品，其特征在于还包括：

使用第三识别机产生字的第三译码的程序码；

确定字的第三译码是否包含在字表中的程序码；和

当字的第三译码包含在字典中时将第三字节点存储在搜索字索引中的程序码，其中第三字节点与字的第三译码和扫描文档中字的位置相关联。

28.如权利要求7所述的计算机程序产品，其特征在于字表包括字典。

29.如权利要求21所述的计算机程序产品，其特征在于还包括：

使用第三识别机产生字的第三译码的程序码；

确定字的第三译码是否包含不可能的字符三元组的程序码；和

当字的第三译码不包含不可能的字符三元组时将第三字节点存储在搜索字索引中的程序码，其中第三字节点与字的第三译码和扫描文档中字的位置相关联。

30.如权利要求9所述的计算机程序产品，其特征在于不可能的字符三元组包括在字典的字中没有发现的三个连续字符。