CN1139884C

CN1139884C - 信息处理方法和装置

Info

Publication number: CN1139884C
Application number: CNB961085835A
Authority: CN
Inventors: ɽ��¡��; 椎山弘隆
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1995-07-03
Filing date: 1996-07-03
Publication date: 2004-02-25
Anticipated expiration: 2016-07-03
Also published as: CN1149737A; DE69637025D1; JP3689455B2; JPH0916619A; EP0752673B1; EP0752673A1; US6310971B1; DE69637025T2

Abstract

当从对一幅输入图像的字符识别中获得的结果被用作搜索操作的文本数据时，一种适当的搜索操作可被执行，即使在字符识别处理中由于字符抽取错误，一个不同于实际字符图像的字符被存储为文本数据。一种信息处理装置包括：一个输入图像信息的图像扫描仪；识别输入图像的OCR软件；存储识别结果的文本信息存储部分；以及假设在一个指字的搜索字中添加额外字符的文档搜索软件。

Description

信息处理方法和装置

本发明的领域

本发明涉及一种信息处理方法和装置，它能搜索图像或包含一个指定搜索字的文本信息。

背景技术

能够搜索一幅图像，并用由OCR或类似装置识别的输入图像创建一个数据库的装置是常规可以获得的。

在这种用于搜索图像并创建数据库的装置中，让用户确认识别结果的步骤传统上是在登记之前，以克服在用OCR识别图像的处理过程中由于误识别引起的搜索不完整。在该确认步骤中，包括一串字符、直到与识别结果具有较低的相似性为止的候选字符提供给用户。用户选取一个正确的字符，或者在没有正确字符包含在候选字符中时输入一个正确字符。因此，一段由用户登记的文本就被用户手工修正了，然后修正过的文本被登记。

取代用户手工进行这种修正操作，一种使用字典或知识库、机械地修正文本的技术可以获得。

在需要用户手工修正操作的现有技术中，用户的负担很重，在每个登记操作中都需要一段长时间的麻烦的操作。这种修正操作干扰了全自动修正。

在用字典或知识库机械修正文本的技术中，若不使用具有高计算能力的计算机，就无法实现全自动修正的实际应用。另外，自动修正的可靠性仍然是个问题。

在限制对应一个输入字符图像的识别结果为一个字符的修正步骤中若发生误修正，则被修正的字符无法恢复成输入字符图象。

本发明的概述

本发明的目标是，提供一种信息处理方法，它包括确定一个指定的字符队列是否包含在文本信息中的步骤，步骤如下：

·形成一个模式，其中至少一个字符被从指定的字符队列中删除，以及

·用形成的模式执行确定步骤。

根据本发明，提供了一种信息处理方法，用于确定一个指定的字符队列是否被包括在文本信息中，所述方法包括以下步骤：

形成一个模式，该模式包括一个第一数目的字符，在该第一数目的字符中至少一个字符被从该指定的字符队列中删除；

把该模式分成多个测试字符队列，这些测试字符队列每一个都包括一个预定的第二数目的该模式的字符而没有其他的字符，该第二数目小于所述第一数目；

执行判定该测试字符队列是否被包括在该文本信息中的一个第一判定；

执行判定该第一数目的字符是否被包括在已经被所述第一判定判定为包括了所述测试字符队列的文本信息中的一个第二判定；

控制已经被所述第二判定判定为包括所述第一数目的字符的文本信息的输出，该输出被作为一个检索操作的结果。

根据本发明，提供了一种信息处理设备，包括：

一个文本信息存储器，作于存储文本信息；

一个第一判定单元，用于判定一个指定的字符队列是否被包括在该文本信息中，其中所述第一判定单元判定所述测试字符队列是否被包括在该文本信息中；

一个模式形成单元，用于形成包括一个第一数目的字符的一个模式，在该第一数目的字符中至少一个字符被从所述指定的字符队列删除；

一个第二判定单元，用于判定该第一数目的字符是否被包括在已经被所述第一判定单元判定为包括了所述测试字符队列的文本信息中；

一个控制器，用于作为一个检索操作的结果而输出已经被所述第二判定单元判定为包括所述第一数目的字符的文本信息。

附图的简述

图1为说明OCR处理的流程图。

图2为说明形成一个增加到图像信息的搜索索引的处理的流程图。

图3为说明用一个搜索索引搜索文档处理的流程图。

图4为一个框图，说明按照一种实施方式的信息处理装置的安排。

图5由图5A到图5C组成，它是说明对一个完整文档第一次搜索处理的流程图。

图6由图6A到图6C组成，它是说明对一个完整文档第二次搜索处理的流程图。

图7是说明第一次删除字符处理的流程图。

图8是说明第二次删除字符处理的流程图。

图9是说明第三次删除字符处理的流程图。

图10为说明存储本发明的控制程序的存储介质的视图。

对优选实施例的描述

实施本发明的信息处理装置的排列如图4所示，将在下面加以描述。

参照图4，一个图象扫描仪1被直接或通过一种通信手段连接到计算机10。图像扫描仪1扫描一幅文档(原始)图像并光学地读取图像。OCR(光学字符阅读器)处理软件2安装在计算机10上，识别从图像扫描仪1或类似装置输入的图像信息的字符的获得文本信息。文档搜索软件3被安装在计算机10上，从OCR处理中获得的文本信息形成一个搜索文件以处理从图像扫描仪1或类似装置输入的图像，文档搜索软件3也执行搜索处理。

依据存储在计算机10内存中的控制程序，OCR处理软件2和文档搜索软件3在计算机10的CPU的控制下执行。由流程图表示的处理操作(后面将加以描述)也将依据存储在计算机10内存中的控制程序，在计算机10的CPU控制下被执行。

外部存储装装置4具有存储从图像扫描仪1或类似装置输入图像的存储部分4-1，文本信息存储部分4-2，以及搜索文件存储部分4-3。搜索文件存储部分4-3存储索引、文档管理信息(DB)等。键盘5输入一个搜索字或搜索条件。显示装置6显示对搜索字和搜索条件的提示，也显示图像信息等。如上所述，计算机10包括存储控制程序以执行本实施方式中描述的各种处理操作的存储器，以及根据控制程序执行处理的CPU，等等。

在图4所示的图像处理装置中的累积处理包括步骤：把从图像扫描仪1输入的图像信息存储在外部存储装置4中；用OCR处理软件2把存储在外部存储装置4中的图像信息转换成文本信息，并把文本信息存储在外部存储装置4中；把由文本搜索软件3从文本信息形成的搜索文件存储在外部存储装置4中。

搜索处理包括步骤：比较从键盘5输入的搜索字与由文档搜索软件3形成的搜索文件，以搜索一个匹配搜索条件的文档；从该文档抽取文档地址信息；在显示装置6上显示该文档的图像数据。

在由上述累积处理和搜索处理实现的搜索系统中，一种防止由OCR识别的误识别造成搜索遗漏的主要方法将在下面描述。

避免搜索遗漏的方法主要有三种。

1.假设一幅字符图像被成功地抽取，使用一组候选字符的识别似然的一组候选字符和搜索索引被形成，使用这组候选字符和搜索索引进行搜索。

2.考虑在抽取的字符图像中是否包含一个错误，或者在相应于一幅字符输入图像的一组候选字符中是否包含一个正解。与指定的搜索字和搜索文件相对照，允许增加一个另外字符到指定搜索字的搜索被执行。

3.考虑在抽取的字符图像中是否包含一个错误，或者在对应一幅字符输入图像的一组候选字符中是否包括一个正解。通过从一个指定搜索字中删除一个或几个字符获得一个字符队列模式组，允许增加一个另外字符到该字符队列模式组的搜索被执行。

方法1将参照图2中一个流程图加以详细描述；方法2和3将参照图3、图5和图7中的流程图加以详细描述。在这些流程图描述之前，在登记一幅图像中执行的OCR处理将参照图1用流程图描述。

(OCR处理)

要登记的图像信息从图像扫描仪1(S101)输入。输入图像信息存储在外部存储装置4的图像信息存储部分4-1中。尽管图像信息从图像扫描仪1直接输入，但它也可以从另一台计算机或一个FAX系统通过通信手段输入。

输入图像信息被分析以确定是否具有字符数据(S102)，如果在步骤S102为“否”，那么流程并不进到OCR处理，而是执行正常的图像信息登记处理。

如果步骤S102为“是”，则一个字符图像数据被抽取(S103)，且这个被抽取的字符被识别(S104)。基于识别结果(包括识别似然信息)决定作为文本信息存储在步骤S105到S111的字符信息形式的处理被执行。

决定存储为文本信息的字符信息形式的处理执行如下：当一个候选识别字符具有一个确定的识别似然值(S105)，它达到一个预先确定的有效似然确定门限Th1，则候选字符输出为识别结果(S106)。但是，当识别目标字符所确定的识别似然值(S105)达不到有效的似然确定门限Th1时，则一个表示一组候选字符起始位置用以识别这组候选字符的定界符被输出(S107)。通过相应地(S108)候选识别字符组的每个字符的识别似然值，流程分支成情况a(S109)和情况b(S110)。

a.每个具有一个或多个预定的低识别似然确定门限Th2(Th1＞Th2)的候选字符及这种字符的数量被输出。

b.从具有最高似然值的候选字符开始的预定的N_max个候选识别字符，及这些字符的数目被输出。

在步骤S107到S111中的结果输出形式被定义为“@〔候选字符的数目〕〔候选字符1〕〔候选字符2〕〔候选字符3〕……@”。

在步骤108中确定分枝时，若候选识别字符组的所有识别似然值为Th2或小于Th2，且几乎彼此相等，则流程进到步骤S110；否则进到步骤S109。

在这些处理操作中用到的参数Th1是一个门限，用来确定识别结果是否最可能以及候选字符是否局限于一个字符。参数Th2是一个门限，用来确定一个具有小于Th2的识别似然值的候选字符是否具有不可能的识别结果。参数Th1和Th2以及候选识别字符的最大数目N_max预先存储在计算机10的存储器中。

当候选字符在步骤S109或S110中被输出时，表示一组候选字符结束位置的定界符被输出(S111)。

当一个字符的识别结果被完全输出时，流程返回步骤S102，对下一个字符的识别处理被执行。步骤S102到S111的处理重复执行，直到在步骤S102确定已经没有待识别的字符为止。

图1所示的OCR处理在将在下述情况中被详细描述，此时字“parent”将给出原始形状。

在步骤S103，“P”的字符图像被抽取。假设作为步骤S104的识别结果，第一个候选字符“P”被获得，具有等于或大于Th1的识别假然值，在此情况下，识别结果“P”在步骤S106被输出。

与上述处理相同的方式，“a”被输出。

在步骤S103，“r”的字符图像被抽取，假设作为步骤S104的识别结果该字符的所有识别结果的值小于Th1(S105)，且所有的候选识别字符几乎具有相等的似然值，它小于Th2(S108)，则一个定界符在步骤S107被输出。在步骤S110，从一个具有最高似然值的字符开始的N_max个候选字符被输出，然后在步骤S111输出一个定界符。

假定步骤S110输出的候选字符是3个候选字符，即：“t”，“i”和“f”，定界符是，例如，“@”。在这种情况下，步骤S107到S111的处理输出结果被给出为“@3tif@”。

识别继续进行，“e”的字符图像在步骤S103被抽取。作为步骤S104的识别结果，“e”的第一个候选字符被获得，其识别似然值等于或大于Th1。在这种情况下，步骤S106输出识别结果“e”。

在步骤S103，“n”的字符图像被抽取。作为步骤S104的识别结果，“n”的第一个候选字符被获得，其识别似然值等于或大于Th1。在这种情况下，步骤S106输出识别结果“n”。

另外，“t”被输出。

上述处理的输出结果为“Pa@3tif@ent”，并存储在文本信息存储部分4-2中。

识别结果的输出形式是用定界符分隔字符键，这只是一个例子。另一种方法，它以在文本信息存储部分从一幅字幅输入图像获得的候选字符为单位区分存储位置，以管理一幅字符输入图像的存储地址；如果这种方法能分隔字符键，它就可能被使用。

在图1的流程图所示的OCR处理所形成的文本信息的基础上增加一个搜索索引，它的形成处理将在图2的流程图中详细描述。(搜索索引的形成)

指定一个索引的字符键类形的信息从键盘5输入(S201)，然后，从一个相应于指字符键类形的字符形成一个索引。

存储在文本信息存储部分4-2中，并作为一个索引信息目标对应图像信息的文本信息被装载(S202)。

从装载的文本信息中，相应于步骤201输入的键类型的一个字符被读取(S204)。然后确定读取字符是否为定界符(S205)。如果读取字符不是定界符，那么该字符被加到正在形成的索引的末端(S206)。但是，如果读取字符被确定为一个定界符，则在该定界符和下一个定界符之间的候选字符被加到正在形成的索引的末端，由此形成一组索引(S207)。

根据在步骤S206或S207形成的索引的字符数确定索引是否完成(S208)。如果S208为“是”，则完成的索引被存储在搜索文件存储部分4-3；如果步骤S208为否，则流程返回步骤S204，下一个字符被读取以继续形成一个索引。

一个表示字符的数目，在步骤S208中用作确定索引是否完成的指标的参数预先存储在计算机的存储器中。

当索引的形成被完成时，流程返回步骤S203。如果剩余字符数据被给出，则索引被继续形成。

在上述处理中，候选识别字符与从OCR处理的文本信息中前置或后置字符结合，字符队列按照指定的字符键类形形成，由此形成能使搜索遗漏极小的索引。

当按照图1的流程图处理，从图1所述的文本信息“Pa@3tif@ent”形成索引时，总共9个键，即“Pa”，“at”，“ai”，“af”，“te”，“ie”，“fe”，“en”和“nt”被形成，并反映在索引中。这些键被存储在搜索文件存储部分4-3中。

用在图2的流程图处理中形成的搜索索引进行的文档搜索处理将在图3的流程图中详细描述。

(使用索引的文档搜索)

要搜索的字从键盘5输入，搜索执行被指定(S301)。根据搜索级别或在指定搜索执行中的特定集确定具有修正在OCR处理中的字符抽取错误动作的搜索处理是否被指定(S302)。如果步骤S302为NO，则在步骤S301输入的字被划分成搜索键。搜索键与存储在搜索文件存储部分的索引比较(S304)。在该比较处理中被确定为匹配文档的文档地址作为搜索结果被输出(S307)。

如果在步骤S302中确定字符抽取错误修正被指定，那么从步骤301输入的字中删除字符以形成模式，而模式，即字的剩余部分则被划分成搜索键(S305)。这些搜索与存储在搜索文件存储部分的索引相比较(S306)。相应于所形成模式的搜索键的索引信息块从搜索文件中抽取。相应于搜索键的索引信息块被以模式为单位进行逻辑“与”，然后逻辑“与”(AND)结果对所有的模式被逻辑“或”。这种字符抽取错误修正被执行，虽然或多或少地迭加噪声，具有字符抽取错误的图像信息仍可被搜索。

在这个比较处理中，确定为匹配文档的文档地址被作为搜索结果输出(S307)。

在步骤S303和S305中被划分的每个搜索键都具有与索引相同数目的字符。搜索键被用与图2的流程图所描述的索引形成相同的方法所划分。

按照步骤S307中输出的每个文档地址，文档图像信息从图像信息存储部分4-1中读出，并在显示6上显示。在这种情况下，如果一组文档要被显示，那么被搜索文档的题目清单可能被显示，图像可以按照后面的显示文档信息的指导进行显示。

下面将描述一个文档搜索操作，它使用一个来自在步骤S301中从键盘5输入的搜索字“temple”的索引。

步骤S301中输入的搜索字“temple”在步骤S303被划分成搜索键“te”，“em”，“mp”，“pl”和“le”。在步骤S304，所有这些搜索键都与存储在搜索文件存储部分的索引相比较。加有所有索引“te”、“em”、“mp”，“pl”和“le”的文档被搜索并在步骤S307中输出。

假设，例如，在登记图像中执行的OCR处理中，在字符“m”发生一个字符图像抽取错误，“m”被抽取为两个模式，从字符队列“temple”获得识别结果“te@zrm@ple”，该结果存储为文本信息。从该识别结果，只能形成索引“te”、“er”、“en”、“rp”、“np”、“pe”和“le”。因此，该文档无法从在步骤S303中形成的搜索键“te”，“em”，“mp”，“pe”和“le”搜索到。

能够搜索在图像中包括“temple”的文档的搜索处理被执行(S305和S306)，以实现字符抽取错误修正。

在步骤S305，通过从“temple”中删除一个字符获得6种模式，“emple”，“tmple”，“teple”，“tmple”，“teple”，“temle”以及“tempe”。这6种模式被划分成搜索键。

最后，搜索键从上述6种模式获得：

“em”，“mp”，“pl”，“le”

“tm”，“mp”，“pl”，“le”

“te”，“ep”，“pl”，“le”

“te”，“em”，“ml”，“le”

“te”，“em”，“mp”，“pe”

“te”，“em”，“mp”，“pl”

这些搜索键与存储在搜索文件存储部分(4-3)中的索引相比较。

当考虑一个字符抽取错误的搜索操作从用图3的流程图的索引进行文档搜索处理中的应用软件中被指定时，字符删除处理在步骤S305，用图7到图9的流程图所示的方法执行。图7到图9的流程图所示的处理表示一种考虑各种字符抽取错误的删除方法，将在下面加以描述。

在图7的流程图所示的处理中，要删除的字符数由操作员指定(S701)，所有可能的模式按照指定的待删除字符数制造(S702)。

在图8的流程图所示的处理中，要删除的字符数据根据步骤S801中指定的搜索字长度来确定(S802)，所有可能的模式按照确定的待删除字符数来制造(S803)。根据指定搜索字的字符数，用一个预存储的计算公式来确定要删除的字符数。该计算公式被存储在计算机10的内存中。

在图9的流程图所示的处理中，在步骤S901确定在步骤S901指字的搜索字是否包括一个或多个可能被OCR不恰当识别的字符(S902)。如果步骤S902为YES，则这样的字符被删除(S903)；如果步骤S902为NO，则不执行从搜索字中删除字符的处理，指定搜索字的字符队列被定义为一个搜索模式。可能被OCR不恰当识别的字符被以，例如，表的形式存储。这些字符与一个搜索字比较以在步骤S902执行确定动作。由于要删除的字符受限，所以可以减少被删除的模式数。例如，在上述详细例子中，搜索字“parent”中的“r”产生一个抽取错误。当该字符被登记为一个可能产生抽取错误的候选字符时，搜索操作被限于模式“paent”，“r”被从中删除。因此，搜索处理可以有效地执行。

在步骤S902和S903的处理中，可能被OCR不恰当识别的字符不必删除。相反，可能被OCR恰当识别的字符可以在计算机10的内存中以表的形式存储，未包括在这些字符中的字符可以删除。

在该处理中，可能被不恰当识别的字符不必删除。在图7和图8的流程图所示的处理中，可能被不恰当识别的字符被定义为最高优先级的要删除字符，由此有效地执行搜索处理。

在图7到图9的流程图的处理中，对于过量数目的产生模式，可以形成一个产生模式数的极限值。

在图7到图9的流程图所示的处理之后，搜索字在步骤S305被划分成搜索键。这些搜索键在步骤S306与搜索文件相比较，由此在考虑字符抽取错误时，用最小的搜索遗漏进行搜索。

对于完整文档的搜索处理将在下面讨论。

这种处理可以去除包括搜索键但不包括搜索字本身的文档，这与用图3中的流程图的索引进行的文档搜索处理相反，在那里搜索字被划分成搜索键，这些搜索键用来搜索文档极小化搜索遗漏，虽然文档不包括指定搜索字的字符队列，但它也包括在被搜索文档之列。

为了执行搜索一个完整文档的处理，需要执行一个在搜索字和完整文档之间的匹配。在这种情况下，在考虑OCR处理中的字符抽取错误的状态下执行处理。详细情况将在图5A到图5C的流程图中描述。

该处理可能对所有存储在文本信息存储部分4-2中的文本信息执行，但只对对应于被图3的搜索处理限制的文本的文本信息执行，由此提高处理效率。(对完整文档的搜索处理)

在该处理中，为了考虑一个OCR处理中的字符抽取错误，搜索处理对整个文档执行，以使一个冗余字符队列包含在通过从搜索字中删除一个字符所形成的候选搜索字中。

搜索字和字符的额外数X被输入。搜索字由用户从键盘5输入。字符的额外数X是增加到每个搜索字的字符的数目。根据搜索字的字符数，这个值由一个预存储的计算公式确定。这个计算公式存储在计算机10的内存中。另外，一个恢复级别可以由用户指定，被确定的级别反映在获取X的计算中，搜索处理可以在用户期望的级别上执行。

当搜索字和字符的额外数X输入时，按照确定的级别来确定级别是否用字符删除处理指字(S502)。如果步骤S502为YES，则一个或多个字符被从步骤S501输入的搜索字中删除，且字符在搜索字中的删除位置被存储(S503)。由字符删除所形成的字符队列被称为候选搜索字。如果步骤S502为NO，则在步骤S502中输入的搜索字用用一个候选搜索字。

在候选搜索字的第一个位置设置一个比较字符队列，在比较字符队列的第一个字符设置一个比较字符，且计数器C被设为零。比较字符队列被定义为在此时与文本信息比较的搜索字。比较字符队列在候选搜索字中相继地更新目标(S520)。比较字符被定义为在比较字符队列中的一个字符，它用作此时的比较目标并在比较字符队列中更新一个目标(S515)。计数器C是用来管理超过X个的额外字符队列的计数器。每当一个字符队列被确定为一个额外字符队列时，计数器C都被增加(S517)。

在步骤S505，一段将与搜索字比较的完整文本被从文本信息存储部分4-2中加载。在步骤S507，一个要被比较的字符从加载的文本中读取。在步骤S508，确定读取字符是否为定界符。如果步骤S508为NO，那么读取字符与比较字符相比交(S509)。但是，如果在步骤S508中读取的字符被确定为定界符，则从该定界符到下定界符的字符在步骤S505被从加载的文本中读取。读取的字符与比较字符相比较(S510)。作为步骤S509或S510的比较结果，如果两个字符彼此相等(S511)，则计数器C被复位为零(S512)。如果比较字符在比较字符队列的最后(S513)，则一个匹配比较字符队列的字符队列被确定为在步骤S505中所装载的文本中给出。该文本在图像信息存储部分4-1中的文档地址被输出(S514)。

当在步骤S513中确定比较字符不在比较字符队列的最后时，流程进到步骤S515，以把比较字符移动到下一字符。然后流程前进到步骤S523的处理。

如果在步骤S511中确定在步骤S509或S510中比较的两个字符彼此不同，则可以确定比较字符的位置是否在字符删除的位置，该位置在步骤S503中被存储，同时条件C≤(x-1)被建立(S516)。如果在步骤S516得到确定的回答，则计数器C被增加(S517)，流程前进到步骤S523的处理。然而，如果在步骤S516得到否定的回答，则比较字符被设置在比较字符队列的首部，计数器C被设为零(C518)，然后，流程前进到步骤S523的处理。

在步骤S506，当步骤S505装载的文本中没有字符剩下时，则确另一个候选搜索字是否剩下(S519)。如果步骤S519为NO，则确定文档没有任何字符队列匹配搜索字，文档比较处理已经完成(S522)。但是，如果在步骤S519确认还有另一候选搜索字，那么下一候选搜索字被设进比较字符队列，且计数器C被设成零(S520)。在步骤S521，字符数据的读取位置被设在步骤S505读取的文本信息的首部。流程前进到步骤S523的处理。

在步骤S523，一个字符被读取，接着，在步骤S524确定所读数据是否为空字符。如果步骤S524确定所读数据是否为空字符。如果步骤S524为NO，则流程返回到步骤S506继续比较。如果确定在步骤S524读取的数据是一个空字符，则比较字符在步骤S525被设在比较字符队列的首部，计数器C被设成零。然后，一个字符被读取，流程返回步骤S506继续比较处理。

文本信息和搜索字间的比较已在图5A到图5C的流程图中进行了描述。但是，一组文本信息块在步骤S505被相继地装载，步骤S505到S522的处理被重复。因此，本发明能够将一组文档作为比较目标处理。

在考虑OCR处理中产生字符抽取错误的情况下，应该与指定的搜索字匹配的字符队列在整个文档中被搜索。即使在字符删除位置给出另一字符队列，也能够确定与搜索字匹配的字符队列。象上述例子一样，即使在从搜索字“temple”形成的模式“teple”的字符“m”被删除的位置上，由于字符抽取错误，字符队列“rn”被错误地识别，也能够确定文本“termple”中的一个字符队列匹配搜索字。因此，即使发生了字符抽取错误，也能够执行精确的搜索操作。

在对完整文档的搜索处理中，如图5A到图5C的流程图所示，允许地向搜索字添加字符队列的处理被执行。字符串被添加的位置局限于字符删除位置。

字符半添加的位置不局限于字删除的位置，在额外字符被增加到相应的搜索字的字符之间时，整个文档也可能受到搜索，因此会执行模糊的搜索处理。这个处理在图6A到6C的流程图中进行说明。

与图5A到5C的流程图中的处理的相同步骤符号在图6A到6C中表示相同的步骤，其详细描述将被省略。

图6A到6C的特色处理步骤为步骤S603，其中字符删除位置未被存储；以及步骤S616，其中只给出条件C≤(x-1)。因此，额外字符可以插入到任意位置。

如上所述，一个指定的搜索字被展开成一组模式，搜索操作使用这组模式进行，或者在额外字符被添加字符删除位置或另一位置的情况下执行搜索操作。其中未给出所要的搜索字符队列的文档也可能被搜索。但是，这提供一个重要的效果，即在搜索处理中没有搜索遗漏。例如，当按照本发明的方法搜索“pray”时，包括诸如“play”这种容易于“pray”混淆的字符队列的文档也可以被搜索，因此允许模糊搜索处理。

日本用户容易混淆“r”，“s”，“v”和“l”，“c”，“b”。即使在这种情况下，也可以获得没有搜索遗漏的效果。

用与上述实施方式中所述处理中的相同方式，可以形成一组记录，搜索处理可以用最少的搜索遗漏对数据库执行。

在本实施方式中，文档关键字、页关键字或类似东西可以用OCR抽取。

用与上述技术相同的方式，本实施方式也能够用于这样的情况：用OMR或光学条码阅读器获取的信息具有低的识别似然性。

在本实施方式中，双重的2字符键被用作搜索文件的索引。但是，索引也可能用一个字键形成。

在本实施方式中，对应于被搜索的文本信息的图像信息被输出。但是，取代图像信息。文本信息也可能从文本信息存储部分4-2中读出，可能作出搜索结果输出。

在本实施方式中，定界符(@)用作字符键之间的分隔。如果字符键可以彼此分离，那么可以在不失去本发明效果的情况下使用用另外字符键分隔手段的算法。

本实施方式用字符键作为范例，但也可以用字键取代字符键。

如上所述，可以提供给系统或装置一个存储介质(图10)，它存储了实现上述实施方式的功能的软件程序，理所当然，该系统或装置的计算机(CPU或MPU)可以读出存储在存储介质中的程序以达到本发明的目标。

在这种情况下，从存储介质读出和程序代码本身实现本发明的一个新功能，存储该程序代码的存储介质构成本发明。

提供程序代码的存储介质的例子是：软磁盘，硬磁盘，光盘，光磁盘，CD-ROM，CD-R，磁带，内存卡，以及ROM。

上述实施方式的功能的实现并不受计算机读出的程序代码的执行的限制。计算机上的OS(操作系统)或类似东西在程序代码指令的基础上执行部分或所有的实际处理，由该处理对上述实施方式的功能的实现也包括在本发明中。

从存储介质读出的程序代码被写在插入计算机的一块功能扩展板或连接到计算机的一个功能扩展设备的内存中。装在功能扩展板或设备上的CPU或类似东西，基于程序代码的指令执行部分或所有的实际处理。由该处理对上述实施方式的功能的实现也包括在本发明中。

如上面描述的那样，根据本发明，当键具有低的OCR识别似然性且不太可能被识别时，候选字符数不止一个。用上述方法，对应于识别似然性的一组最优的识别候选字符被选择，有效的识别候选信息未被丢弃，而是被积累和利用。因此，字符识别中的有效信息将不会丢弃。

如上面描述的那样，根据本发明，可以去除手工修正操作，并布置自动执行操作的系统，这些操作范围从图像输入到通过OCR处理的图像数据/文本积累。同时，能够实现一个相对廉价的系统，其中的计算机不会过载，可以消除处理速度的衰减。

如上面所述的那样，根据本发明，当键具有低的OCR识别似然性且不太可能被识别时，候选字符数不止一个。相应于识别似然性的一组最优识别候选被选择，有效的识别候选信息未丢弃，而是被积累和利用。因此，可以去除手工修正操作，计算机不会过载，处理速度可以增加。

如上面所述的那样，根据本发明，一个从指定的字符队列中删除的字符被定义为对应于一个预定字符的字符，由皮有效地形成一个模式。

如上面所述的那样，根据本发明，一个从指定的字符队列中删除的字符被定义为一个不对应一个预定字符的字符，由此有效地形成一个模式。

如上面所述的那样，根据本发明，一个从指定字符队列中删除的字符根据一个预存储的表被确定，可以有效地高速形成一个模式。

Claims

1.一种信息处理方法，用于确定一个指定的字符队列是否被包括在文本信息中，所述方法包括以下步骤：

2.根据权利要求1的方法，其中

所述形成步骤包括形成多种类型的模式，从而对于该多种类型的模式中的每一种模式都从所述指定的字符队列删除一个字符，且

所述执行第一判定的步骤包括利用该多种类型的模式进行一个判定。

3.根据权利要求1的方法，其中从该指定的字符队列删除的该字符被定义为与一个预定的字符相应的一个字符。

4.根据权利要求1的方法，其中从所述指定的字符队列删除的所述字符被定义为不与一个预定字符相应的一个字符。

5.根据权利要求1的方法，其中从所述指定的字符队列删除的所述字符是借助一个预先存储的表而被确定的。

6.根据权利要求1的方法，其中所述文本信息是输入的图象信息的字符识别的一个结果。

7.根据权利要求1的方法，其中所述第二判定步骤使得其数目少于一个预定数目的任意字符能够在这样一个位置被相加-即所述至少一个字符被从该位置删除。

8.根据权利要求1的方法，其中该第一判定是通过判定各个测试字符队列的各个字符是否与文本信息的各个字符相同而得到执行的。

9.根据权利要求1的方法，进一步包括输出被判定为包括该指定的字符队列的文本信息的步骤。

10.根据权利要求6的方法，进一步包括输出与被判定为包括所述指定的字符队列的文本信息相应的图象信息的步骤。

11.根据权利要求1的方法，其中该第二判定步骤使得其数目少于一个预定数目的任意字符能够在任何位置被相加，而不用参照所述至少一个字符被从其删除的一个位置。

12.根据权利要求1的方法，其中所述第一判定是在一种假定下进行的，该假定即另一字符被插入该形成的模式中的一个字符删除位置。

13.根据权利要求12的方法，其中该文本信息是输入的图象信息的字符识别的结果。

14.根据权利要求12的方法，其中从所述指定的字符队列删除的该字符被定义为与一个预定的字符相应的一个字符。

15.根据权利要求12的方法，其中从所述指定的字符队列删除的该字符被定义为不与一个预定的字符相应的一个字符。

16.根据权利要求12的方法，其中从所述指定的字符队列删除的该字符被一个预先存储的表所确定。

17.根据权利要求12的方法，其中进行所述第一判定的所述步骤包括判定该形成的模式的每一个字符是否与所述文本信息的每一个字符相同。

18.根据权利要求12的方法，进一步包括输出被判定为包括所述指定的字符队列的文本信息的步骤。

19.根据权利要求13的方法，进一步包括输出与被判定为包括所述指定的字符队列的文本信息相应的图象信息的步骤。

20.一种信息处理设备，包括：

一个文本信息存储器，用于存储文本信息；

21.根据权利要求20的设备，其中

所述模式形成单元形成多种类型的模式，从而对于该多种类型的模式中的每一种模式都从所述指定的字符队列删除一个字符，且

所述第一判定单元利用所述多种类型的模式进行判定。

22.根据权利要求20的设备，其中被所述模式形成单元从所述指定的字符队列删除的该字符被定义为与一个预定的字符相应的一个字符。

23.根据权利要求20的设备，其中被所述模式形成单元从所述指定的字符队列删除的该字符被定义为不与一个预定的字符相应的一个字符。

24.根据权利要求20的设备，其中被所述模式形成单元从所述指定的字符队列删除的该字符由一个预先存储的表来确定。

25.根据权利要求20的设备，其中所述文本信息是输入的图象信息的字符识别的一个结果。

26.根据权利要求20的设备，进一步包括用于把该模式分成各包括一个预定数目的字符的多个字符队列的一个模式分割器，其中所述第一判定单元根据所述文本信息中是否包括该被分割的字符队列而进行判定。

27.根据权利要求20的设备，其中所述第一判定单元判定所述字符队列的各个字符是否与文本信息的各个字符相同。

28.根据权利要求20的设备，进一步包括一个文本信息输出单元，该文本信息输出单元用于输出被所述第一判定单元判定为包括所述指定的字符队列的文本信息。

29.根据权利要求25的设备，进一步包括一个图象信息输出单元，该图象信息输出单元用于输出与被所述第一判定单元判定为包括所述指定的字符队列的文本信息相应的图象信息。

30.根据权利要求20的设备，其中所述第二判定单元使得数目少于一个预定数目的任意字符能够在所述至少一个字符被删除的位置得到相加。

31.根据权利要求24的设备，其中所述第二判定单元使得其数目少于一个预定数目的任意字符能够在任何位置被相加，而不用参照所述至少一个字符被从其删除的一个位置。