CN1411586A - 包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法 - Google Patents

包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法 Download PDF

Info

Publication number
CN1411586A
CN1411586A CN01806111A CN01806111A CN1411586A CN 1411586 A CN1411586 A CN 1411586A CN 01806111 A CN01806111 A CN 01806111A CN 01806111 A CN01806111 A CN 01806111A CN 1411586 A CN1411586 A CN 1411586A
Authority
CN
China
Prior art keywords
word
decoding
scanned document
point
cognitron
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN01806111A
Other languages
English (en)
Inventor
蒂莫西·安德森
弗雷德里克·泽恩特
罗伯特·威尔
迈克尔·里默
迈克尔·贝利
布雷特·米勒
德里克·罗利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iArchives Inc
Original Assignee
iArchives Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iArchives Inc filed Critical iArchives Inc
Publication of CN1411586A publication Critical patent/CN1411586A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

多台识别机(110)对扫描文档指定位置处的字产生不同的译码(116)。将与每个特别的译码对应的字节点存储在字索引(102)中,每个字节点与前一个及后一个识别字的字节点连接。

Description

包括指定文档位置处字的多个译码的用于创建扫描文档 搜索字索引的系统和方法
相关申请
本申请与2000年3月6日提交的美国临时申请60/187362相关并要求其优先权,该申请的名称为“将归档数据转换为搜索文本的系统和方法”,发明者是G.Bret Millar、Timothy L.Andersen和E.DerekRowley。该申请的全文在此作为参考文献。
技术领域
本发明一般涉及光学字符识别(OCR)领域。更具体地,本发明涉及一种包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法。
技术背景
在光学字符识别(OCR)领域,模拟文档(如纸、缩微文件等)被数字扫描、分割并转换成可以用计算机阅读、搜索和编辑的文本。为了快速搜索,每个识别的字通常存储在与在扫描文档中发现的字的位置(如页码和页面坐标)对应的搜索字索引中。
在某些传统OCR系统中,使用多台识别机识别文档中的每个字。一般地,使用多台识别机能增大总的识别准确率,因为识别机通常使用不同的OCR技术,每种技术都有不同的优缺点。
当识别机对扫描文档中的字的同一图像产生不同的译码时,通常选择一个译码作为“正确”译码。OCR系统常常依赖于“选举”策略(获胜者拥有一切),即占多数的译码将被选作正确译码。作为选择,或另外地,可以使用置信度。例如,假设两台识别机正确识别字“may”的置信度分别为80%和70%,而另一台识别机将同一输入数据识别为“way”的置信度为90%,另外还有一台识别机将输入数据识别为“uuav”的置信度为60%。在这个例子中,综合选举与置信度将导致选择“may”作为优选译码。
不幸的是,通过选择单独的译码并放弃其它译码,客观上正确的译码也常被放弃。图像噪音和其它影响常常干扰多数识别机,而仅有少数识别机得出正确译码。在上述例子中,正确译码也可能是“way”,但在标准方法中就被放弃了。因此,不管使用多少台识别机,传统OCR系统根本不能达到完全准确。
因此所需要的是一种包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法。另外一种包括通过有选择地去除在字典或其它字表中没有发现的译码以减小索引大小从而创建搜索字索引的系统和方法,也是需要的。另外,也需要一种用于搜索字索引的系统和方法,这种方法允许重新缩放扫描文档而不必修改字索引中的位置数据。
附图的简要描述
下面参考附图描述本发明的实施例,这些实施例不是本发明的全部实施例。在附图中:
图1是传统系统建立扫描文档的搜索字索引的框图;
图2是系统建立扫描文档的搜索字索引的框图,其中包括对文档中指定位置处字的多个译码;
图3是关联字节点的框图;
图4是系统建立搜索字索引的框图,其中包括与字典通讯的字过滤器;
图5是计算机系统建立扫描文档的搜索字索引的实际框图,其中包括对文档中指定位置处字的多个译码;和
图6是建立扫描文档搜索字索引的方法的流程图,其中包括对文档中指定位置处字的多个译码。
具体实施方式
在整个说明书中,“一个实施例”是指至少在一个本发明实施例中包括所描述的实施例中的特殊特征、结构或特性。因此,在说明书中不同地方出现的字语“在一个实施例中”并不一定是指同一个实施例。
并且,所描述的特征、结构或特性可以以适当方式出现在一个或多个实施例中。在下面的描述中提供了很多具体的细节,例如程序实例、用户选项、网络协议、数据库询问、数据库结构等等,以便彻底理解本发明的实施例。但是,相关领域技术人员将认识到,本发明在缺少一个或多个具体细节或者使用其它方法、元件、材料等的情况下也能实施。在其它情况下,对公知的结构、材料或操作不作详细的图示或描述,以避免掩盖本发明的特征。
现在参看图1,其中表示了传统光学字符识别(OCR)系统100从模拟文档104(如纸或缩微文件)中产生搜索字索引102。最初,用数字扫描仪106扫描模拟文档104。数字扫描仪106在本领域中是公知的,例如惠普9100C数字发送器,它是高速、多页面、网络扫描设备。为达到准确识别,数字扫描仪106的分辨率一般超过300dpi(点每英寸)。
数字扫描仪106的输出是扫描文档108,这里也称为文档图像。扫描文档108通常包括一个或多个双层位图,每个位图对应模拟文档104的一页。
在图示的实施例中,OCR系统100包括多个识别机110。标准识别机110的例子包括加利福尼亚州Fremont的Abbyy USA公司的Finereader和麻萨诸塞州Peabody的Scansoft公司的Omnipage。如上所述,使用多个识别机110一般增大总的识别准确率,因为识别机110通常使用不同的OCR技术,每种技术都有不同的优缺点。例如,一台识别机110使用基于神经网络的OCR技术,而另一台识别机110使用模板匹配技术。
得到扫描文档108后,分割模块(未示出)将文档108分割成与单个字(或其它目标)对应的图像段。每个图像段用一个边界框112标记。通常,边界框用一对表示像素(例如,x像素向下,y像素横向)的坐标114定义。在某些情况下,每台识别机110可包括单独的分割模块,产生同一文档108的不同片段。
文档108分割后,选择一个用边界框112标记的特别图像片段进行识别。此后,每台识别机110开始识别选定图像片段中包含的字并产生它自己的译码116。
在某些情况下,译码116后面可带有一个置信度。例如,置信度90%可表示识别机110对其译码的正确性有90%的把握。很多因素都影响置信度,这不在本发明的讨论范围内,但对于本领域熟知人员是公知的。
在传统OCR系统100中,将每个译码116,包括任何一个置信度,提供给冲突分辨模块118,它选择一个单独的优选译码120存储在字索引102中。可以使用不同技术选择优选译码120。通常使用选举技术,其中多数识别机110同意优选译码120。在其它情况下,置信度有较大的权重用于衡量特殊识别机110的“选举”。
通常,放弃未被选择的译码116,而将优选译码120插入字索引102中。字索引102通常将优选译码120与其对应的字(如边界框112表示的字)在扫描文档108中的位置关联在一起。如果扫描文档108包括多页,则页码也包括在位置数据中。
字索引102的实施细节在不同系统中是不同的。例如,字索引102可在关系数据库的上下文中实施。在另外的实施例中,可以使用散列技术。字索引102的精确结构和组织对于本发明并不重要。
将扫描文档108的每个字识别并输入字索引102后,搜索机(未示出)可以使用字索引102在扫描文档108中快速定位一个指定的字。例如,用户输入字“maximum”后,搜索机返回第3页的位置,以边界框“(150,125)(190,140)”表示。
如前所述,传统OCR系统100的一个缺点是多数识别机110有时会出错。这样,选择单独的优选译码120并放弃其它译码,客观正确的译码也常被放弃。因此,不管使用多少台识别机110,传统OCR系统100根本不能达到完全准确。
现在参看图2,其中表示了产生扫描文档108的搜索字索引102的系统200,其中包括对文档108中指定位置处字的多个译码。如上所述,多台识别机110对边界框112中的字产生独立的译码116。在一个实施例中,识别机110可使用多线程操作系统并行工作。另外,识别110也可以在相同的输入数据上串行工作。
但是,与传统OCR系统不同,每个单独的译码116存储在字索引102中,指示对应字的位置(如边界框112)。例如,如果三台识别机110将字译作“may”,而一台识别机110将同一字译作“way”,则“may”和“way”都加入字索引102中。这样,系统200不依靠冲突分辨模块118选择单独的优选译码120。
并且,与传统方法不同,在一个实施例中,边界框112的坐标114表示为扫描文档108长度或宽度的百分数。这可以简化文档108的再次缩放,而不必修改字索引102中的位置数据。
这里所用的,字的译码116与其位置的关系称为“字节点”202。这样,对于每个译码116,将字节点202插入字索引102中。字节点202可以是任何适合的数据结构或数据结构的结合。
与传统方法相比,上述方法对于关键字搜索准确率有重大影响。假设识别机110之间的OCR错误是不相关的,字被至少一台识别机110识别成正确译码116的概率(从而使用者返回搜索该字)为:
1-((1-A1)·(1-A2)·…·(1-An))       式1
其中:Ai是识别机i的字准确率;
n是应用于扫描文档108的识别机110的数量。
随着识别机100数量的增多,这个概率逐渐接近100%。例如,如果有两台识别机110,每台识别正确字的概率仅为60%,则它们中至少一台能正确辨认字的概率为
1-(1-0.60)2=84%
如果加入第三台准确率60%的识别机110,则此概率变为
1-(1-0.60)3=93.4%
相比之下,如果仅选择一台识别机110的输出,则正确识别字并返回在短语搜索中文档中的字的概率为60%。
在一个实施例中,如图3所示,每个字节点202与扫描文档108中前、后字的每个译码116对应的字节点202连接起来。例如,“cost”对应的字节点202e与“maximum”、“maximal”和“maxwzm”对应的节点202b-d之间是双向联接。同样,字节点202b-d与“The”对应的字节点202a之间也是双向联接。在另外的实施例中也可以使用单向联接。联接的实现可以使用任何适合的技术,例如指针、关键字域等等,这些可以嵌在或不嵌在字节点202中。
在一个实施例中,采用双向联接以便于进行短语搜索。如图3所示,插入一个字的不同译码116的多个字节点202产生多个短语路径,这在短语搜索中增大了准确率。例如,在传统方法中当错误译码116插入字索引102时,如“maximal”而不是“maximum”,则“the maximumcost”的短语搜索将搜索不到结果。相比之下,使用本发明的字索引102,“the maximum cost”的短语搜索是成功的。
图4表示本发明系统400的另一个实施例,其中字过滤器402去除了一个或多个识别机110产生的译码116。与标准方法不同,同一字的不同译码116的多个字节点202仍插入字索引102中。但是,在一个实施例中,对于在字典404或其它字表中没有发现的特殊译码116,其字节点202不插入字索引102中。
一般地,字典404中没有发现译码116,则译码116正确的概率相对很低。通过去除不可能的译码116,减小了字索引102的大小并增大了响应时间。但是,准确率没有下降,因为用户搜索一个字典404中没有的字是不大可能的。
当然,尽管在字典404中没有被发现,但某些译码116仍被索引了。例如,首字母缩写词、专有名词和技术词,无论是否在字典或其它字表中发现它们,仍被插入到字索引102中。
在一个实施例中,含有不可能的字符三元组译码116也被去除。一种不可能的字符三元组是字典404中不存在的连续的三个字符。例如,图4中第三识别机100产生的译码116,即“maxwzm”,含有不可能的字符三元组“xwz”。
图5是图2和图4的系统200和400的硬件结构的示意性框图。在一个实施例中,中央处理器(CPU)502执行存储在存储器504中的指令,例如随机存取存储器(RAM)和/或只读存储器(ROM)。
CPU502可以与一个或多人输入设备506进行电子通讯,例如鼠标和/或键盘。CPU502可以与输入设备506也可以与其它图示的元件之间通过总线503连接。
同样,CPU502可以与一个或多人输出设备508进行电子通讯,例如显示器和/或打印机。在不同实施例中,CPU502也可以与一个或多个端口510连接,如RS-232、打印机和/或USB端口。相似地,CPU502与网络接口512连接,如以太网适配器。
在一个实施例中,CPU502与存储设备514进行电子通讯,如硬盘驱动器、CD-ROM和/或DVD-ROM。存储设备514可用于存储字典404、字索引102以及在系统200和400工作时装入存储器504中的各种软件模块。
在一个实施例中,存储器504存储多个识别机110。另外,存储器504存储索引创建模块516,它接收识别机110的译码116并使用图2所示的技术将对应的字节点202存储在字索引102中。在另外的实施例中,索引创建模块516结合在一台或多台识别机110中。
存储器504也存储连接模块518,它将每个字节点202连接到与扫描文档108中前、后字的每个译码116对应的字节点202,如参考图3所作的描述。在某些实施例中,连接模块518也与索引创建模块516集成在一起。
存储器504也存储操作系统(OS)520,例如Windows2000或Linux,它们为上述软件模块管理并提供资源。在另外的实施例中,存储器504中的软件模块可以用硬件或固件实现。
当然,在不偏离本发明精神和范围时,图5所示的硬件结构能以不同的结构实施。另外,图中没有示出那些本领域熟知人员公知的一些标准元件,以避免掩盖本发明的特征。
参看图6,表示创建扫描文档108搜索字索引102的方法600的流程图,其中包括对文档中指定位置处字的多个译码。方法600开始时将数字扫描仪106产生的扫描文档108分割602。可以使用任何传统的分割方法,将扫描文档108分割成由边界框112标记的多个图像片段。此后,选择下一个边界框112用于识别604。
在一个实施例中,所选边界框112内的字的第一译码116由第一识别机110产生606。此后,字的第二译码116由第二识别机110产生608。可以使用任何数量的额外的识别机110产生额外的译码116。
接着,将第一字节点202存储在字索引102中610。在一个实施例中,第一字节点202将字的第一译码116与扫描文档108中字的位置(如边界框112)关联。同样地,将第二字节点202存储在字索引102中612。在一个实施例中,第二字节点202将字的第二译码116与扫描文档108中字的位置(如边界框112)关联。
在某些实施例中,方法600继续将第一和第二字节点202与扫描文档108中先前识别字的译码116对应的一个或多个字节点202连接614。如上所述,连接是双向的并用于简化短语搜索。
接着进行判断616,是否需要识别扫描文档108中另外的边界框112。如果是,方法600返回到步骤604,选择下一个边界框112。否则,方法600结束。
按照上述描述,本发明提供了很多传统方法中没有的优点。通过存储与所有的字的特别译码116对应的字节点202,关键词搜索的准确率明显提高。另外,通过去除字典404中没有发现的译码116,索引大小和搜索时间减小,但不影响准确率。并且,通过使用基于百分数的坐标114定义边界框112,可以简单地缩放扫描文档108,而不必修改索引102中的位置。
虽然图解和描述了本发明的具体实施例和应用,但应该理解的是本发明并不受这里所述的精确结构和组成的限制。在不偏离本发明精神和范围时,对这里所述的本发明方法和系统的配置、操作和细节做出的各种修改、变化和更改,对于本领域熟知人员是显而易见的。

Claims (30)

1.一种在计算机系统中用于创建扫描文档搜索字索引的方法,所述方法包括:
使用第一识别机产生扫描文档中指定位置处的字的第一译码;
使用第二识别机产生字的第二译码,其中,第二译码与第一译码不同;
在搜索字索引中存储与字的第一译码和扫描文档中字的位置相关联的第一字节点;和
在搜索字索引中存储与字的第二译码和扫描文档中字的位置相关联的第二字节点。
2.如权利要求1所述的方法,其特征在于第一和第二识别机使用不同的光学字符识别(OCR)技术。
3.如权利要求1所述的方法,其特征在于字的位置由边界框定义。
4.如权利要求3所述的方法,其特征在于边界框至少由两个坐标定义,每个坐标包括扫描文档宽度和高度的百分数。
5.如权利要求1所述的方法,其特征在于还包括:
将第一和第二字节点连接到扫描文档中前一个识别字的至少一个字节点。
6.如权利要求1所述的方法,其特征在于还包括:
将第一和第二字节点连接到扫描文档中后一个识别字的至少一个字节点。
7.如权利要求1所述的方法,其特征在于还包括:
使用第三识别机产生字的第三译码;
确定字的第三译码是否包含在字表中;和
当字的第三译码包含在字典中时,将第三字节点存储在搜索字索引中,第三字节点与字的第三译码和扫描文档中字的位置相关联。
8.如权利要求7所述的方法,其特征在于字表包括字典。
9.如权利要求1所述的方法,其特征在于还包括:
使用第三识别机产生字的第三译码;
确定字的第三译码是否包含不可能的字符三元组;
当字的第三译码不包含不可能的字符三元组时,将第三字节点存储在搜索字索引中,第三字节点与字的第三译码和扫描文档中字的位置相关联。
10.如权利要求9所述的方法,其特征在于不可能的字符三元组包括在字典的字中没有发现的三个连续字符。
11.一种用于创建扫描文档中搜索字索引的系统,所述系统包括:
产生扫描文档中指定位置处的字的第一译码的第一识别机;
产生字的第二译码的第二识别机,其中,第二译码与第一译码不同;
将第一和第二字节点存储在搜索字索引中的索引创建元件,第一字节点与字的第一译码和扫描文档中字的位置相关联,第二字节点与字的第二译码和扫描文档中字的位置相关联。
12.如权利要求11所述的系统,其特征在于第一和第二识别机使用不同的光学字符识别(OCR)技术。
13.如权利要求11所述的系统,其特征在于字的位置由边界框定义。
14.如权利要求13所述的系统,其特征在于边界框至少由两个坐标定义,每个坐标包括扫描文档宽度和高度的百分数。
15.如权利要求11所述的系统,其特征在于还包括:
用于将第一和第二字节点连接到扫描文档中前一个识别字的字节点的连接元件。
16.如权利要求11所述的系统,其特征在于还包括:
用于将第一和第二字节点连接到扫描文档中后一个识别字的字节点的连接元件。
17.如权利要求11所述的系统,其特征在于还包括:
产生字的第三译码的第三识别机;
确定字的第三译码是否包含在字表中的字过滤器;
其中,还具有当字的第三译码包含在字典中时将第三字节点存储在搜索字索引中的索引创建元件,其中第三字节点与字的第三译码和扫描文档中字的位置相关联。
18.如权利要求17所述的系统,其特征在于字表包括字典。
19.如权利要求11所述的系统,其特征在于还包括:
产生字的第三译码的第三识别机;
确定字的第三译码是否包含不可能的字符三元组的字过滤器;
其中,还具有当字的第三译码不包含不可能的字符三元组时将第三字节点存储在搜索字索引中的索引创建元件,第三字节点与字的第三译码和扫描文档中字的位置相关联。
20.如权利要求19所述的系统,其特征在于不可能的字符三元组包括在字典的字中没有发现的三个连续字符。
21.一种在计算机可读介质上的、用于创建扫描文档的搜索字索引的计算机程序产品,所述计算机程序产品包括:
使用第一识别机产生扫描文档中指定位置处的字的第一译码的程序码;
使用第二识别机产生字的第二译码的程序码,其中,第二译码与第一译码不同;
在搜索字索引中存储与字的第一译码和扫描文档中字的位置相关联的第一字节点的程序码;和
在搜索字索引中存储与字的第二译码和扫描文档中字的位置相关联的第二字节点的程序码。
22.如权利要求21所述的计算机程序产品,其特征在于第一和第二识别机使用不同的光学字符识别(OCR)技术。
23.如权利要求21所述的计算机程序产品,其特征在于字的位置由边界框定义。
24.如权利要求23所述的计算机程序产品,其特征在于边界框至少由两个坐标定义,每个坐标包括扫描文档宽度和高度的百分数。
25.如权利要求21所述的计算机程序产品,其特征在于还包括:
将第一和第二字节点连接到扫描文档中前一个识别字的至少一个字节点的程序码。
26.如权利要求21所述的计算机程序产品,其特征在于还包括:
将第一和第二字节点连接到扫描文档中后一个识别字的至少一个字节点的程序码。
27.如权利要求21所述的计算机程序产品,其特征在于还包括:
使用第三识别机产生字的第三译码的程序码;
确定字的第三译码是否包含在字表中的程序码;和
当字的第三译码包含在字典中时将第三字节点存储在搜索字索引中的程序码,其中第三字节点与字的第三译码和扫描文档中字的位置相关联。
28.如权利要求7所述的计算机程序产品,其特征在于字表包括字典。
29.如权利要求21所述的计算机程序产品,其特征在于还包括:
使用第三识别机产生字的第三译码的程序码;
确定字的第三译码是否包含不可能的字符三元组的程序码;和
当字的第三译码不包含不可能的字符三元组时将第三字节点存储在搜索字索引中的程序码,其中第三字节点与字的第三译码和扫描文档中字的位置相关联。
30.如权利要求9所述的计算机程序产品,其特征在于不可能的字符三元组包括在字典的字中没有发现的三个连续字符。
CN01806111A 2000-03-06 2001-03-06 包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法 Pending CN1411586A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US18736200P 2000-03-06 2000-03-06
US60/187,362 2000-03-06
US27222801P 2001-02-28 2001-02-28
US60/272,228 2001-02-28

Publications (1)

Publication Number Publication Date
CN1411586A true CN1411586A (zh) 2003-04-16

Family

ID=26882955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01806111A Pending CN1411586A (zh) 2000-03-06 2001-03-06 包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法

Country Status (6)

Country Link
US (1) US7240062B2 (zh)
EP (1) EP1269399A4 (zh)
CN (1) CN1411586A (zh)
AU (1) AU2001249096A1 (zh)
CA (1) CA2400345C (zh)
WO (1) WO2001067378A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124537B (zh) * 2004-11-12 2011-01-26 马克森斯公司 采用术语构建知识关联的知识发现技术

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963869B2 (en) * 2002-01-07 2005-11-08 Hewlett-Packard Development Company, L.P. System and method for search, index, parsing document database including subject document having nested fields associated start and end meta words where each meta word identify location and nesting level
US20030154208A1 (en) * 2002-02-14 2003-08-14 Meddak Ltd Medical data storage system and method
NZ518744A (en) * 2002-05-03 2004-08-27 Hyperbolex Ltd Electronic document indexing using word use nodes, node objects and link objects
EP1634135B1 (en) * 2003-02-28 2011-09-14 Gannon Technologies Group Systems and methods for source language word pattern matching
US7406201B2 (en) * 2003-12-04 2008-07-29 International Business Machines Corporation Correcting segmentation errors in OCR
US7461056B2 (en) * 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
US7742642B2 (en) * 2006-05-30 2010-06-22 Expedata, Llc System and method for automated reading of handwriting
US7480411B1 (en) * 2008-03-03 2009-01-20 International Business Machines Corporation Adaptive OCR for books
CN101266520B (zh) * 2008-04-18 2013-03-27 上海触乐信息科技有限公司 一种可实现灵活键盘布局的系统
US8452108B2 (en) * 2008-06-25 2013-05-28 Gannon Technologies Group Llc Systems and methods for image recognition using graph-based pattern matching
US20100189316A1 (en) * 2009-01-27 2010-07-29 Gannon Technologies Group, Llc Systems and methods for graph-based pattern recognition technology applied to the automated identification of fingerprints
US20100306203A1 (en) * 2009-06-02 2010-12-02 Index Logic, Llc Systematic presentation of the contents of one or more documents
DE102009031872A1 (de) * 2009-07-06 2011-01-13 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher
EP2320390A1 (en) * 2009-11-10 2011-05-11 Icar Vision Systems, SL Method and system for reading and validation of identity documents
US8452099B2 (en) 2010-11-27 2013-05-28 Hewlett-Packard Development Company, L.P. Optical character recognition (OCR) engines having confidence values for text types
JP2012138009A (ja) * 2010-12-27 2012-07-19 Kawai Musical Instr Mfg Co Ltd 楽譜認識装置、及びコンピュータプログラム
US8798366B1 (en) * 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9846688B1 (en) 2010-12-28 2017-12-19 Amazon Technologies, Inc. Book version mapping
US9069767B1 (en) 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
US8548280B2 (en) * 2011-02-14 2013-10-01 Hewlett-Packard Development Company, L.P. Systems and methods for replacing non-image text
US9881009B1 (en) 2011-03-15 2018-01-30 Amazon Technologies, Inc. Identifying book title sets
US20130007004A1 (en) * 2011-06-30 2013-01-03 Landon Ip, Inc. Method and apparatus for creating a search index for a composite document and searching same
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
CN102779176A (zh) * 2012-06-27 2012-11-14 北京奇虎科技有限公司 关键词过滤系统及方法
US9147275B1 (en) 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
US9043349B1 (en) * 2012-11-29 2015-05-26 A9.Com, Inc. Image-based character recognition
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events
US9430766B1 (en) 2014-12-09 2016-08-30 A9.Com, Inc. Gift card recognition using a camera
CN105988704B (zh) * 2015-03-03 2020-10-02 上海触乐信息科技有限公司 高效的触摸屏文本输入系统及方法
US10572577B2 (en) * 2017-10-02 2020-02-25 Xerox Corporation Systems and methods for managing documents containing one or more hyper texts and related information
US10394344B2 (en) * 2017-11-07 2019-08-27 International Business Machines Corporation Character input error correction
JP7147208B2 (ja) * 2018-03-20 2022-10-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3988715A (en) * 1975-10-24 1976-10-26 International Business Machines Corporation Multi-channel recognition discriminator
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US5029223A (en) * 1990-02-02 1991-07-02 International Business Machines Corporation Constraint driven-on line recognition of handwritten characters and symbols
US5875263A (en) * 1991-10-28 1999-02-23 Froessl; Horst Non-edit multiple image font processing of records
JP3272842B2 (ja) * 1992-12-17 2002-04-08 ゼロックス・コーポレーション プロセッサベースの判定方法
US5454046A (en) * 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5519786A (en) * 1994-08-09 1996-05-21 Trw Inc. Method and apparatus for implementing a weighted voting scheme for multiple optical character recognition systems
US5805747A (en) * 1994-10-04 1998-09-08 Science Applications International Corporation Apparatus and method for OCR character and confidence determination using multiple OCR devices
US5617488A (en) * 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US5619649A (en) * 1995-06-12 1997-04-08 Xerox Corporation Network printing system for programming a print job by selecting a job ticket identifier associated with remotely stored predefined document processing control instructions
US6098034A (en) * 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US5832499A (en) * 1996-07-10 1998-11-03 Survivors Of The Shoah Visual History Foundation Digital library system
US5953451A (en) * 1997-06-19 1999-09-14 Xerox Corporation Method of indexing words in handwritten document images using image hash tables
US6269188B1 (en) * 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6608930B1 (en) * 1999-08-09 2003-08-19 Koninklijke Philips Electronics N.V. Method and system for analyzing video content using detected text in video frames

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124537B (zh) * 2004-11-12 2011-01-26 马克森斯公司 采用术语构建知识关联的知识发现技术

Also Published As

Publication number Publication date
CA2400345C (en) 2007-06-05
WO2001067378A1 (en) 2001-09-13
EP1269399A4 (en) 2006-01-18
AU2001249096A1 (en) 2001-09-17
EP1269399A1 (en) 2003-01-02
US20050060273A1 (en) 2005-03-17
US7240062B2 (en) 2007-07-03
CA2400345A1 (en) 2001-09-13

Similar Documents

Publication Publication Date Title
CN1411586A (zh) 包括指定文档位置处字的多个译码的用于创建扫描文档搜索字索引的系统和方法
JP3077765B2 (ja) 語彙辞書の検索範囲を削減するシステム及び方法
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
US8391614B2 (en) Determining near duplicate “noisy” data objects
JP3889762B2 (ja) データ圧縮方法、プログラム及び装置
KR100451978B1 (ko) 정보 검색 방법과 정보 검색 장치
EP0277356B1 (en) Spelling error correcting system
US6178417B1 (en) Method and means of matching documents based on text genre
JPH0139154B2 (zh)
CN1008016B (zh) 输入处理系统
US20070208733A1 (en) Query Correction Using Indexed Content on a Desktop Indexer Program
CN1916941A (zh) 一种字符识别的后处理方法
CN114021543B (zh) 基于表格结构解析的文档比对分析方法及系统
CN115630343B (zh) 一种电子文档信息的处理方法、装置及设备
CN1345426A (zh) 用于提取索引关键字数据字段的系统和方法
JP2001175661A (ja) 全文検索装置及び全文検索方法
CN1955979A (zh) 文章标题及关联信息的自动抽取装置、抽取方法及抽取程序
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
CN113221886A (zh) 一种基于图文识别后的文字学习校对系统
JP2000305935A (ja) 文書ファイリング装置
CN1084503C (zh) 文书辨识的切字错误自动更正方法及装置
CN1808349A (zh) 中文短语笔画以及语音化文字输入的使用者界面和数据库结构
WO2014145999A2 (en) System and method for searching through text transcribed from an image processed by optical character recognition
CN115114238A (zh) 一种基于纠错的基因组测序数据无损压缩方法及相关设备
JP2001060197A (ja) リレーショナルデータベースにおける検索方法及びそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned