CN1158627C - 用于字符识别的方法和装置 - Google Patents

用于字符识别的方法和装置 Download PDF

Info

Publication number
CN1158627C
CN1158627C CNB971231672A CN97123167A CN1158627C CN 1158627 C CN1158627 C CN 1158627C CN B971231672 A CNB971231672 A CN B971231672A CN 97123167 A CN97123167 A CN 97123167A CN 1158627 C CN1158627 C CN 1158627C
Authority
CN
China
Prior art keywords
character
search
data
string
conversion candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB971231672A
Other languages
English (en)
Other versions
CN1186287A (zh
Inventor
���鰲��
白崎安代
田边智子
����һ
菊池忠一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1186287A publication Critical patent/CN1186287A/zh
Application granted granted Critical
Publication of CN1158627C publication Critical patent/CN1158627C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

字符识别装置具有后处理单元,它形成包括分别由字符识别单元形成的多个转换候选者的字符串,而全文本搜索单元在多个已被转换成文本数据的文档中对于字符串进行全文本搜索,从而后处理单元在搜索结果的基础上确定正确字符以校正误识别。

Description

用于字符识别的方法和装置
技术领域
本发明涉及用于字符识别的方法和装置,当将诸如打印文档、手写文档等的没有被转换成文本数据的文档转换成文本数据时,用到所述方法和装置。
背景技术
存在某种用于将打印文档或手写文档转换成文本数据的字符识别装置,其中如果装置不能准确地识别在文档中的字符,那么引入后处理以推荐多个候选字符,从而在多个候选字符中确定正确的字符,因此提高识别速度。
图45是示出通用字符识别装置的方框图。现在,参照图45描述通用字符识别装置。图象输入单元10获取论文文档(paper document),而且以位映射形式将它转换成图象数据。区域划分单元31将图象数据划分成字符区域和除字符区域外的图片、图形等区域。
字符提取单元32从被划分的字符区域提取一个字符,并将它提供给字符识别单元33。字符识别单元33识别字符并将它转换成字符数据,而且形成多个转换候选字符。当完成在字符区域中识别所有字符的过程时,后处理单元34形态上分析用转换候选字符的组合构成的句子。
即,后处理单元34要求字典搜索单元20搜索字作为搜索条件。字典搜索单元20在单字字典40中搜索给定字,而且关于在单字字典40中是否存在该字作出回答。如果在单字字典40中存在该字,那么后处理单元34将该字作为正确字输出。
字符识别装置运用上述字典,校正由字符识别单元33不适当识别的字符。
然而,由于运用字典进行形态分析来作为后处理,所以具有上述结构的上述字符识别装置要求大量的劳力和时间来形成诸如单字字典的字典,并进行它的维护。
此外,形态处理要求复杂的过程,大量的时间来构成并操作它的系统,而且如果在文档中存在未识别字,那么它趋于造成许多错误。
关于上述问题,本发明的目的在于提供用于字符识别的方法和装置,它可以精确地校正误识别,而且可以在短时期内容易地构成它的系统。
发明内容
依照本发明的一个方面,提供了一种字符识别方法。该方法包括以下步骤:
从包含单个待识别字符的一个字符图像中,识别有关该字符的一个或多个转换候选字符,每个转换候选字符都由文本数据组成,并且反复重新提供所述字符图像,使得为每个字符图像都获得所述一个或多个转换候选字符;
根据所述一个或多个转换候选字符,建立多个搜索字符串;
运用全文本搜索技术,对参考文本数据搜索所述多个搜索字符串的每个搜索字符串,以提供所述参考文本数据中所述每个搜索字符串的出现频率;
利用每个搜索字符串的出现频率,确定最适合所述字符图像的正确字符。
依照本发明的另一方面,提供了一种字符识别设备。该设备包括:
识别装置,用于从包含单个待识别字符的一个字符图像中,识别有关该字符的一个或多个转换候选字符,每个转换候选字符都由文本数据组成,并且反复重新提供所述字符图像,使得为每个字符图像都获得所述一个或多个转换候选字符;
建立装置,用于根据所述一个或多个转换候选字符,建立多个搜索字符串;
搜索装置,它运用全文本搜索技术,对参考文本数据搜索所述多个搜索字符串中的每个搜索字符串,以提供所述参考文本数据中所述每个搜索字符串的出现频率;
确定装置,它利用每个搜索字符串的出现频率,确定最适合所述字符图像的正确字符。
因此,根据本发明,可以校正误识别而不用诸如单字字典等的字典和诸如形态分析等复杂过程。
根据本发明,用候选字符代替难以识别的字符以形成搜索字符串,而且在已被转换成文本数据的多个文档中寻找该搜索字符串以确定正确字符。因此,可以在短时间内容易地构成该装置,而不必形成诸如单字字典等的字典,所述单字字典要求大量劳力和时间来形成并进行它的维护,而且由于形态分析需要复杂过程,所以形态分析要求大量时间来构成它的系统和操作它(虽然还有造成许多错误的倾向)。此外,可以在短时间内正确地校正误识别。
根据本发明,可以实现具有简单结构的免维护字符识别装置,它可以正确地校正误识别。
在根据本发明的上述字符识别装置中,全文本搜索单元可以在文档(它是从字符识别单元输出的字符识别的对象)中进行搜索,后处理单元可以在文档(它是字符识别的对象)中搜索的结果的基础上确定由图象数据指定的字符,从而可以校正反映文档(它是字符识别的对象)特性的误识别。
在根据本发明的上述字符识别装置中,如果搜索所有候选字符的结果都低于预定值,那么当后处理单元确在搜索结果的基础上确定由图象数据在候选者中指定的字符时,所述后处理单元可以命令字符提取单元再一次提取图象数据。
因此,可以不用字典等,就能校正由从图象数据中不适当地提取字符的图象数据引起的误识别。
根据本发明的字符识别装置可能还包括区域划分单元和区域耦合单元。其中,区域划分单元用于将图象数据划分成具有不同属性的区域,以将字符区域分成多个区域,而且将分开的字符区域输出到字符提取单元;区域耦合单元用于耦合从后处理单元输出的多个分开的字符区域的图象数据;其中,区域耦合单元在对于任意字符串(每个字符半延伸跨越了不同字符区域)进行的全文本搜索结果的基础上,耦合分开的多个字符区域。
因此,可以不费力地将分成多个区域的句子转换成每个文档的文本数据。
根据本发明的上述字符识别装置还包括属性获取单元、后处理单元、和全文本搜索单元。其中,属性获取单元用于从输入的图象数据(它是字符识别的对象)中获取字符数据的区域属性;后处理单元可以指定属性并引起全文本搜索单元进行搜索;而全文本搜索单元可以只在具有指定属性的文本数据中搜索,从而后处理单元在搜索结果的基础上确定由图象数据指定的字符。
从而,由于减少了作为搜索对象的数据量,所以可以缩短搜索时间,而且可以校正反映了文档(它是字符识别的对象)特性的误识别。
根据本发明的上述字符识别装置,还包括用于记录误识别数据的误识别存储单元。所述误识别数据是由包括当后处理单元校正误识别时要求将其作为搜索条件搜索的误识别的字符串和包括通过在全文本搜索单元中校正互相对应的误识别获得的正确字符的字符串构成。而且误识别存储单元存储误识别数据,其中全文本搜索单元在误识别数据中进行搜索,而后处理单元在误识别数据中搜索的结果的基础上确定由图象数据指定的字符。
因此,可以运用过去获得的误识别数据存储单元来校正反映图象输入单元特性的误识别。
根据本发明的上述字符识别装置还包括区域位置存储单元、图形数据存储单元、和字符字体存储单元。其中,区域位置存储单元用于存储由区域划分单元划分的图象数据的每个区域的位置信息;图形数据存储单元用于存储除字符数据之外的照片、图象等数据;而字符字体存储单元用于存储字符数据的位置和字体;其中,文本数据输出单元显示已转换成文本数据的文档的数据,当输出该文档数据时其布局看来就象输入到图象识别装置的图象数据。
于是,就可能以看起来与输入到字符识别器的图象数据类似的布局输出文本数据,使得用户可以编辑该文档,因为数据是文本数据且容易形成布局与某个论文文档相似的不同文档,这与图像数据仅供显示不同。
在根据本发明的上述字符识别装置中,如果以诸如英语或Hunkul(Hungul)(其中字符串由空格等隔开)的语言写成的文档(它是字符识别的对象),那么等后处理单元校正误识别时,它可以要求全文本搜索单元搜索插入空格等的字符串作为搜索条件。
因而,可以减少对于无意义字符串(诸如,只是由空格等隔开的一部分字符串(例如,单字))的搜索,从而可以根据语言或文档的特性校正误识别。
附图说明
图1是示出根据本发明的第一实施例的字符识别装置的结构方框图;
图2是示出由根据第一实施例的字符识别装置的执行的整个处理过程的流程图;
图3示出在第一实施例中用到的图象数据;
图4示出根据第一实施例的提取字符的过程;
图5示出根据第一实施例的字符识别结果的数据结构;
图6示出根据第一实施例的字符识别结果的例子;
图7示出根据第一实施例的误识别字符确定过程的结果的例子;
图8示出根据第一实施例的全文本搜索结果的例子;
图9是示出根据第一实施例的确定误识别字符串的过程的流程图;
图10是示出根据第一实施例的校正误识别字符过程的流程图;
图11是示出由根据第一实施例的字符识别装置的全文本搜索单元执行的记录过程的流程图;
图12是示出根据第一实施例的字符识别装置的结构方框图;
图13是示出由根据第二实施例的字符识别装置的执行的整个过程的流程图;
图14是示出根据第二实施例的校正误识别字符过程的流程图;
图15是示出根据第二实施例的全文本搜索结果;
图16是示出根据本发明的第三实施例的字符识别装置的结构方框图;
图17是示出由根据第三实施例的字符识别装置的执行的整个过程的流程图;
图18是示出根据第三实施例的校正误识别字符的过程的流程图;
图19示出根据第三实施例的字符的位置信息的数据结构;
图20是示出根据本发明的第四实施例的字符识别装置的结构方框图;
图21是示出由根据第四实施例的字符识别装置执行的整个过程的流程图;
图22示出在第四实施例中用到的文档的图象数据的例子;
图23A至23C示出根据第四实施例的文档的图象数据的耦合区域的过程;
图24是示出根据本发明的字符识别装置的结构方框图;
图25是示出由根据第五实施例的字符识别装置执行的整个过程的流程图;
图26示出根据第五实施例的字符识别过程的结果的数据结构;
图27示出根据第五实施例的字符识别过程的结果的例子;
图28A至图28C示出根据第五实施例的全文本搜索结果的例子;
图29是示出根据第六实施例的字符识别装置的结构方框图;
图30是示出由根据第六实施例的字符识别装置执行的整个过程的流程图;
图31示出在根据第六实施例的字符识别装置中文本存储单元中的数据的数据结构;
图32是示出根据本发明的第六实施例的字符识别装置的结构方框图;
图33是示出由根据第六实施例的字符识别装置执行的整个过程的流程图;
图34是示出根据第六实施例的校正误识别字符的过程的流程图;
图35示出根据第六实施例的误识别数据的数据结构;
图36是示出根据本发明的第八实施例的字符识别装置的结构方框图;
图37是示出由根据第八实施例的字符识别装置执行的整个过程的流程图;
图38示出在第八实施例中用到的图象数据的例子;
图39示出根据第八实施例的关于区域的位置信息的数据结构;
图40示出根据第八实施例的字符的位置信息和根信息的数据结构;
图41是示出根据本发明的第九实施例的字符识别装置的结构方框图;
图42是示出由根据第九实施例的字符识别装置的执行的整个过程的流程图;
图43示出在第九实施例中用到的打印文档的例子;
图44示出根据第九实施例的形成搜索条件的例子;和
图45示出通用字符识别装置的结构方框图。
具体实施方式
下面,参照附图描述本发明的实施例,其中在几个附图中相同的参考字符指定相同或相应的部分。
(a)第一实施例的描述
现在,参照图1至图11描述本发明的第一实施例。
图1是示出根据本发明的第一实施例的字符识别装置的方框图;
在图1中,标号110表示诸如扫描器、传真机等的图象输入单元110、图形数据存储单元120、终端170、文本数据转换单元130、全文本搜索单元140、和索引文档存储单元150、文本数据存储单元180、和文本数据输出单元160。其中,图象输入单元110用于输入打印文档或手写文档作为图象数据;图形数据存储单元120用于以位映象形式存储由图象输入单元110读取的图象数据;字符识别装置的用户从终端170输入必须的信息、或该装置通过终端170而输出信息;文本数据转换单元130用于将存储在图形数据存储单元120中的图象数据转换成文本数据;全文本搜索单元140搜索单元和记录单元,其中搜索单元响应于来自文本数据转换单元130在记录数据的全文本中搜索给定的字符串作为搜索条件,并送回搜索条件在整个数据中出现的次数,而记录单元从已转换成文本数据的文档数据形成索引文件,并以文件形式存储文档数据;索引文件存储单元150用于存储由全文本搜索单元140形成的索引文件;文本数据存储单元180用于以文件形式存储记录在全文本搜索单元140中的文档数据;而文本数据输出单元用于输出已被转换成文本数据的文档数据。
文本数据转换单元130包括区域划分单元131、字符提取单元132、字符识别单元133、后处理单元134、和识别结果存储单元135。其中,区域划分单元131用于将图象数据划分成具有不同符号的区域(字符区域、图形区域、图片区域,等等);字符提取单元132用于从由区域划分单元131划分的区域中的字符区域中的图象数据,逐个提取图象数据的字符;字符识别单元133用于将提取的图象数据转换为上述字符,和表示该图象数据确定程度的数值;后处理单元134用于校正包括误识别的文本数据的误识别,由字符识别单元133将所述文本数据转换成字符数据;而识别结果存储单元135用于存储由字符识别单元133获得的识别结果。
接着,参照图2至11描述具有上述结构的字符识别装置的操作。图2是示出在用到打印文档的情况下,由根据本实施例的字符识别装置执行的整个过程的流程图。
这里假设,打印文档的尺寸可由图象输入单元110在一个操作中读取,另外,不分隔在打印文档中的字符区域,如图3所示。
通过图象输入单元110,输入打印文档作为图象数据。此后,赋予输入的图象数据一个唯一的名字并以文件形式将它存储在图形数据存储单元120中。这里,赋予该文件一个文档名,例如,bunshol.bmp(步骤A1)。
接着,用户从终端170选择图象数据文件bunsyol.bmp,并给出指令以将图象数据转换成文本数据。响应于它,文本数据转换单元130将指定的图象数据转换成文本数据。
文本数据转换单元130获得由用户从图形数据存储单元120指定的图象数据文件(bushol.bmp)。然后,区域划分单元131将图象数据划分成不同的区域,诸如,图片区域、图形区域、字符区域,等等(步骤A2),并将字符区域的位置信息送到字符提取单元132。
例如,字符提取单元132从一个字符的前面和后面的空格确定该字符的区域,而且从字符区域的开始部分逐个地提取字符,而且向字符识别单元133提供关于每个字符的位置信息。例如,字符提取单元132提取“ば”的字符区域,如图4所示,而且向字符识别单元133提供它的位置(步骤A3)。
字符识别单元133识别从由字符提取单元132提供的位置信息获得的字符,而且将字符转换成字符数据。字符识别单元133生成多个候选字符作为识别结果,以形成转换候选字符。字符识别单元133用数值(称为评价值)表示每个转换候选字符的确定程度、获得所有转换候选字符的评价值,并以评价值的顺序生成转换候选者。将转换候选字符和它们各自的评价值以如图5所示的形式存储在识别结果存储单元135中(步骤A4)。顺便说说,在附图中,M表示在字符区域中的字符数,而N表示转换候选字符的最大数目。例如。可以用与基准模式相类似的程度来计算评价值。例如。直到这个过程,如图4所示的字符串的确定结果如图6所示。
以相似的方法,字符提取单元132进行关于下一个字符的相似处理过程。重复由字符提取单元132和字符识别单元133执行的过程,直到在字符区域中的最后一个字符(步骤A5)。
后处理单元134确定第一个字符的转换候选者1是否被误识别,而且对已存储在识别结果存储单元135中的文本数据中所有字符重复这个过程。
图9是示出确定误识别过程的流程图。顺便说说,在附图中,i表示转换候选字符的计数,j表示在字符区域中的字符计数。如下确定误识别。第一,将转换候选者1的评价值与转换候选者2的评价值相比较,然后将转换候选者2的评价值与转换候选者3的评价值相比较。如果的转换候选者1的评价值和转换候选者2的评价值之间的差d低于门限值,那么确定转换候选者2与转换候选者1十分相似,而且由于候选字符2具有高的候选字符2是正确的概率,所以将转换候选者2指定为上部转换候选字符。
此时,将具有上部转换候选字符的转换候选者1判断为误识别字符。根据这种方法,如果在如图6所示的例子中将门限值设定为0.4,那么将在圆圈内的字符确定为上部转换候选字符,而将在三角形内的字符确定为误识别字符,如图7所示。
本发明没有具体说明运用误识别字符和上部转换候选字符来判断候选字符的方法。因此,另一方面,如果存在多个转换候选字符(其评价值超过一定的门限值),那么可以将所有的转换候选字符指定为上部转换候选字符(步骤A6)。
图10是示出校正误识别字符过程的流程图。后处理单元134要求全文本搜索单元140搜索包括三个字符的字符串作为搜索条件,所述三个字符包括被指定为误识别字符串的字符和在该字符的前面和后面的字符。此外,后处理单元140用在字符串中的误识别字符串的上部转换候选字符代替它,而且要求全文本搜索单元140进行搜索。如果上部转换候选字符是多个的,那么后处理单元140要求全文本搜索单元140对包括各自上部转换候选字符的每个搜索条件作搜索。
全文本搜索单元140运用存储在索引文件存储单元150中的索引文件,对存储在文本数据搜索单元180中的记录数据中进行全文本搜索,而且将搜索条件字符串在所有记录数据中出现的次数作为搜索结果送回到后处理单元134。这里假设,将已被全文本搜索单元140转换成文本数据的多个文档数据记录在文本数据存储单元180中。
后处理单元134把作为全文本搜索结果获得的包括三个字符的字符串的出现次数互相比较,以确定最频繁出现的字符串具有该字符为正确的最大概率,从而校正误识别字符,同时假设分配在搜索条件字符串中的转换候选字符是正确的。
形成用于全文本搜索的搜索条件的方法的例子如图8所示。在图8中,当“最近の”[在第一搜索(转换候选者1)中的搜索字符串]与“届近の”[在第二搜索(转换候选者2)中的搜索字符串]相比较时,“最近の”具有搜索结果的较大值(400),因而确定“最近の”是正确的(步骤A7)。
作为设定全文本搜索的搜索条件的方法,可以根据文档(它是字符识别的对象)的特性,设定各种各样的搜索条件。例如,可以改变包括在搜索条件中的字符数,可以将插在两个标点符号中的字符串设定为搜索条件,可以将在不同类型字符出现处划分的字符串(其中出现不同的字符,例如,日本平假名、日本片假名、汉字,等等)指定为搜索条件。
后处理单元134形成用于每个误识别字符的搜索字符串,以校正误识别字符,如上所述。如果运用上述全文本搜索单元,那么作为记录数据,多个字符(可以是一个单字)的链状信息将被存储,从而构造一个知识数据库。
给予其中完成误识别字符校正的文本数据一个唯一的名字(例如,bunshol.txt),并将它记录在全文本搜索单元140中。此时,如果把由图象输入单元110给出的扩展名.bmp改为.txt,那么可以使图象数据对应于文本数据。把文本数据bunshol.txt送到文本数据存储单元160。
文本数据搜索单元140把文本数据bunshol.txt存储在文本数据存储单元180中,另外,从bunshol.txt形成索引文件。图11示出记录过程的流程图。将索引文件存储在索引文件存储单元150中,而且由后处理单元134在下一个数据处理中将它用作知识数据库(把A8)。
文本数据输出单元160把文本数据bunshol.txt输出到显示器、传真机,等等(步骤A9)。
根据本实施例的字符识别装置用每个转换候选字符代替难以识别的字符,以形成搜索字符串、在已被转换成文本数据的多个文档中进行全文本搜索,以在转换候选字符中找出正确字符。因此,不必形成诸如单字字典的字典,所述单字字典要求大量劳力和时间来构成它并进行它的维护,而且形态分析也要求大量时间来构成或操作用于它的系统,以进行复杂的处理过程(虽然,它趋于形成许多错误)。结果,可以容易地构造系统,并在短时间内校正误识别字符。
此外,运用全文本搜索单元140逐个地形成已被转换成文本数据的文档的索引文件,而且将它存储在索引文件存储单元150中,从而即使没有维护,也可自动地丰富知识数据库。
特别是,多数最近的文档已被转换成文本数据。如果想要将过去的书面文档转换成文本数据,那么将已被保持的文本数据记录在文本数据搜索单元140中,再回到对过去文档进行字符识别,据此可避免由于未记录字的出现而误识别字符。
由于本实施例的字符识别装置进行全文本搜索(而不是关键字搜索),所以搜索字符串的分割并不局限于字、句、子句等的概念,于是可以自由地设定搜索字符串。因此,可以根据需要理想地设定后处理的速度或准确度。
根据本实施例,从用作全文本搜索对象的被转换的文本数据形成索引文件,从而可以同时管理文档。
同时,全文本搜索并不局限于谁运用索引文件。
此外,通过运用存在的全文本搜索装置,可以在短时间内容易地构成系统。
(b)第二实施例的描述
参照图12至15描述本发明的第二实施例。图12是示出根据第二实施例的字符识别装置的的结构方框图。字符识别装置具有图象输入单元110、图象数据存储单元120、文本数据转换单元230、终端170、全文本搜索单元240、文本搜索存储单元180、索引文件存储单元250和文本数据输出单元160,其中文本数据转换单元230包括区域划分单元131、字符提取单元132、字符识别单元133、后处理单元231和字符结果存储单元135,它们与根据如图1所示的第一实施例的字符识别装置的结构相似。然而,第二实施例与第一实施例的不同之处在于,当由后处理单元231校正误识别字符时,在后处理之前从文本数据形成索引,而且不仅将记录数据还将文档(它是字符识别的对象)用作知识数据。
根据本实施例,如果相同的字符串重复出现的话,那么还将文档(它本身是字符识别的对象)指定为搜索的目的,而且虽然在诸如手写文档的文档中误识别一些字符,但还能够准确识别大多数字符,从而以更高速度和更高准确度校正误差。
下面,参照图13描述第二实施例的字符识别装置的操作。图13示出由装置执行的整个过程的流程图,其中步骤B1至B5与根据如图2所示的第一实施例的步骤A1至A5相似。在图13中的步骤B6处,后处理装置231从字符结果存储单元135获得识别结果。
后处理单元231将从识别结果存储单元135获得的文本数据送到全文本搜索单元240。下面,由于文本数据是一个文档,该文档是字符识别的对象,所以将文本数据称为“自文档”。
全文本搜索单元240从接收到的文本数据形成仅由转换候选者1构成的索引文件,并将索引文件存储在索引文件存储单元250中,与被记录的索引分开。
然后,后处理单元231确定在文本数据中的误识别字符。确定误识别字符的过程与根据第一实施例的过程相似。此后,后处理单元231校正误识别字符。
图14示出校正误识别字符过程的流程图。第一,后处理单元231形成三个字符的字符串(它包括被确定为误识别字符的字符和在该字符的前面和后面的字符),然后,要求全文本搜索单元240在上述搜索条件下在它的自文档中进行全文本搜索。全文本搜索单元240运用存储在索引文件存储单元250中的索引文件,在它的自文档中进行整个文本搜索,并将搜索条件字符串在它们自文档中出现的次数作为搜索结果送到后处理单元231。后处理单元231保持结果作为结果1。
接着,后处理单元231要求全文本搜索单元在记录数据中按相同的搜索条件搜索。全文本搜索单元240运用存储在索引文件存储单元250中的索引文件,在存储在文本数据存储单元180中的记录数据中进行全文本搜索,而且将搜索条件字符串在所有的记录数据中出现的次数作为搜索结果送回到后处理单元231。
这里假设,把由全文本搜索单元240将其转换成文本数据的多个文档数据记录在文本数据存储单元180中。
后处理单元231保持结果作为结果2。后处理单元231用上部转换候选字符代替在搜索条件字符串中的误识别字符串,而且要求全文本搜索单元240以类似的方法,在上述两种文本中寻找搜索条件字符串。当上部转换候选字符为多个时,寻找包括每个上部转换候选字符的每个搜索条件字符串。
后处理单元231使通过搜索获得的结果2互相比较。最频繁出现的字符串具有为正确的最高概率,从而把分配在出现最频繁的搜索条件字符串中的转换候选字符假设是正确字符,从而校正误识别字符。
当其中运用转换候选者1的搜索字符串的出现次数和另一个搜索字符串的出现次数之间的差低于一定的门限值时,引用搜索这些字符串的结果1,而且假设最频繁出现的字符串是正确的。
例如,当以上述方法搜索包括如图7所示的转换候选字符的搜索字符串时,搜索结果如图15所示。如图15所示,如果出现次数之间的差的门限值为10时,通过只引用结果2,是不可能确定正确搜索字符串。更准确地说,当比较搜索结果2时,转换候选者1的结果2(98)与转换候选者2的结果2(89)之间的差小于门限值(10),而且转换候选者1的结果2(98)与转换候选者3的结果2(107)之间的差小于门限值(10),从而在确定搜索字符串1、2和3之间哪个是正确字符串时,结果2不是很有用。为此,通过只引用结果1,发现转换候选搜索字符串“とばの”在它的自文档中出现最频繁,从而假设“とばの”是正确的。以下过程与根据第一实施例的过程相似。
根据本实施例,还将文法一致的文档(即,相同的字频繁出现,或重复使用相同的文理或相同的表达)用作知识数据库,从而成为在文档中搜索的对象。相应地,在校正误识别字符的同时,可以反映文档的倾向(诸如,在文档中用到的字、语法等等)。此外,由于这种未记录字非常可能出现在它的自文档中,可以对未记录字搜索,从而提高识别速度。
在该实施例中,搜索条件字符串包括三个字符。然而,另一方面,可以设定任何数量的字符作为搜索条件字符串,而不局限于三个字符。
(c)第三实施例的描述
现在,参照图16至19描述第三实施例。第三实施例与第一实施例的不同之处在于,当用于校正误识别字符的转换候选字符串的出现次数(它是由全文本搜索单元进行的全文本搜索结果)用于校正误识别字符时一律偏小时,后处理单元确定图象数据的字符提取位置是不适当的,而且命令字符提取单元再一次提取字符。
图16是示出根据本发明的第三实施例的字符识别装置的结构方框图。如图16所示,根据第三实施例的字符识别装置具有图象输入单元110、图象数据存储单元120、文本数据转换单元330、终端170、全文本搜索单元140、文本数据存储单元180、索引文档存储单元150和文本数据输出单元160,其中文本数据转换单元330还包括区域划分单元131、字符提取单元331、字符识别单元332、后处理单元333和识别结果存储单元135,它们与根据如图1所示的字符识别装置的结构相似,除了文本数据转换单元330另外还有用于当提取字符时以文件形式存储提取字符的位置信息的字符位置存储单元334,以及后处理单元333命令字符提取单元331再一次提取字符。
下面,描述根据第三实施例的字符识别装置的操作。图17示出由根据第三实施例的字符识别装置的执行的整个过程的流程图,其中如图17所示的步骤C1和C2与根据如图2所示的第一实施例的步骤A1和A2相似。在步骤C3处,当提取字符时,字符提取单元331以文件形式存储被提取字符的位置信息。此时,赋予文件一个文档名,例如bunshol.loc。作为位置信息,获得(以纸的左上角为原点(0,0))从原点到字符左端的水平距离X1、从原点到字符右端的水平距离X2、
从原点到字符顶端的竖直距离Y1、和从原点到字符低端的竖直距离Y2(例如,以cm为单位或以点的数量为单位表示),如图19所示。
图17中的步骤C4至C6的过程与图2中的步骤A4至A6相似。
在图17中的步骤C7处,校正误识别字符。校正误识别字符过程的流程图如图18所示。形成搜索条件的方法和要求全文本搜索的方法与根据第一实施例的方法相似。然而,当按某个字符的搜索条件而搜索的结果都低于预定门限值时,后处理单元333确定由字符提取单元331在不适当的位置处提取了该字符,而且把从开头字符开始计数的字符数送到字符提取单元331以命令它在通过比较搜索结果确定正确字符之前再一次提取字符。
字符提取单元331从字符位置存储单元334获得具有接收到字符数的字符位置信息、沿着水平和竖直方向适当地移动位置,而且再将新获得的位置信息存储在字符位置存储单元334中,另外将位置信息送到字符识别单元332。
字符识别单元332识别在接收到字符位置中的字符,而且将识别结果送到后处理单元333。
后处理单元333在由字符识别单元332提供的字符识别结果的基础上判断误识别字符。如果结果仍然是误识别字符,那么后处理单元333再运用全文本搜索单元140确定正确字符。如果结果是正确的,那么后处理单元333处理下一个字符。
当完成校正所有误识别字符的过程时,与第一实施例的过程相似地进行以下过程。
根据本发明的第三实施例,当校正误识别字符时字符识别装置的后处理单元333检测由提取图象数据的字符的位置不适当引起的误识别,并命令再提取字符,从而提高识别速度。
在该实施例中,搜索条件字符串包括三个字符。然而,另一方面,可以在形成搜索条件字符串中设定任何数量的字符,而不局限于三个字符。
(d)第四实施例的描述
现在,参照图20至23描述本发明的第四实施例。第四实施例的特性在于,当划分图象数据的同时生成多个字符区域时,区域耦合单元运用全文本搜索耦合被划分的多个字符区域。
图20是示出根据本发明的第四实施例的字符识别装置的结构方框图。如图20所示的字符识别装置包括图象输入装置110、图象数据存储单元120、文本数据转换单元430、终端170、全文本搜索单元140、文本数据存储单元180、索引文件存储单元150和文本数据输出单元160,其中文本数据转换单元430还包括区域划分单元131、字符提取单元132、字符识别单元133、后处理单元134和识别结果存储单元135,它们与根据如图1所示的第一实施例的字符识别装置的结构相似,除了文本数据转换单元430另外还包括区域耦合单元431,它运用全文本搜索单元140耦合由区域划分单元131划分的多个区域。
接着,描述根据第四实施例的具有上述结构的字符识别装置的操作。图21是示出由本发明的字符识别装置执行的整个过程的流程图,其尺寸可由图象输入单元110在一个操作中读取。这里假设,在该实施例中运用打印文档,其尺寸可由图象输入单元110在一个操作中读取,而且其中由图片区域分开字符区域,如图22所示。
在步骤D1至D3的过程与根据如图2所示的第一实施例的步骤A1至A3相似。在步骤D4处,用与第一实施例相似的方法识别字符。当将识别结果存储在识别结果存储单元135中时,赋予各个字符区域不同的名字(例如,bunshol_l.moj、bunshol_2moj、…、),并将结果与各个名字一起存储在识别结果存储单元135中。
接着,后处理单元134从识别结果存储单元135逐个获得字符区域文件,以判断误识别并用与第一实施例相似的方法在所有的区域中校正它。
当对于在所有字符区域中的误识别完成上述判断和校正时,后处理单元134把上述处理过程的结果送到区域耦合单元431。
区域耦合单元431确定哪个区域跟着哪个区域,而且耦合这些区域以形成文件。如果存在三个被划分区域1、2和3,那么区域耦合单元431要求全文本搜索单元140去搜索一字符串,该字符串由通过耦合在区域1中的末字符和在区域2中的头字符作为搜索条件。
此外,区域耦合单元431将在区域1中的末字符连到在区域3中的头字符,将在区域2中的末字符连到在区域3中的头字符,而且将在区域2中的末字符连到在区域1中的头字符,以形成每个搜索条件,并要求全文本搜索单元140寻找每个搜索条件字符串。
全文本搜索单元140在记录数据中寻找每个所需的搜索条件,而且将搜索条件字符串在记录数据中的出现次数作为结果送回。区域耦合单元431比较从全文本搜索单元140接收到的搜索结果,确定最频繁出现的字符串是文法上正确地用来耦合区域的字符串。
在如图23A至23C所示的例子中,从搜索结果可看出区域顺序为区域1、区域2和区域3。更准确地说,如图23B所示,当比较寻找搜索条件“こと”和“こ杂”的结果时,“こと”具有比“こ杂”大的结果。相应地,区域2紧跟着区域1。当比较寻找搜索条件“复杂”和“复最”的结果时,“复杂”具有比“复最”大的结果,从而区域3紧跟着该区域。类似地,当比较搜索条件“。最”和“。と”的结果时,“。最”具有较大的结果,从而认为区域1紧跟着区域3。然而,区域3在标点符号“。”处结束,从而以1、2和3的顺序耦合区域,如图23C所示。顺便说说,一般这样形成文档,使得读者从顶部开始朝着底部阅读。相应地,另一方面,由于在文档中,在较低位置上的区域紧跟着在较高位置上的区域,所以可以将当划分区域时获得的区域位置信息用作判断值。
耦合区域以形成一个文件,而且给出唯一的名字(如上所述的bunshol.txt)。此后,在全文本搜索单元140中记录文件,并将它送到文本数据输出单元160。该过程与根据第一实施例的过程相似。
当将文档划分成多个区域时,根据第四实施例的字符识别装置自动耦合区域,并确定区域的顺序。因此可以不费力地有效地识别字符。
在该实施例中,运用其尺寸可由图象输入单元110在一个操作中读取的文档。然而,另一方面,可以一部分一部分地(而不是按序地)分别阅读一个文档,而且以正确顺序耦合分别阅读的文档的多组图象数据的识别结果。
在该实施例中,搜索条件字符串包括两个字符。然而,另一方面,搜索条件字符串可以包括任何数目的字符,而不局限于两个字符。
通过例子已对本实施例作了描述,该例中图象数据被转换成文本数据。然而,经受校正误识别过程的数据可以是在话音识别等中被模仿的数据。
(e)第五实施例的描述
现在,参照图24至28描述本发明第五实施例。图24是示出根据本发明的第五实施例的字符识别装置的结构方框图。在图24中,字符识别装置具有图象输入单元110、图象数据存储单元120、文本数据转换单元530、终端170、整个文本检索单元140文本数据存储单元180、索引文件存储单元150和文本数据输出单元160,其中文本数据转换单元530包括区域划分单元131、字符提取单元132、字符识别单元533、后处理单元534和识别结果存储单元535,它们与根据如图1所示的第一实施例的字符识别装置的结构相似。然而,根据第五实施例的字符识别装置与根据第一实施例的字符识别装置的不同之处在于,由字符识别单元533将作为字符提取的图象数据转换成至少一个不带有评价值的字符数据。
下面,描述第五实施例的字符识别装置的操作。图25是示出由该装置执行的整个过程的流程图。图25中的步骤E1至E3与根据如图2所示的第一实施例的步骤A1至A3相似。在图25中的步骤E4处,字符识别单元533识别从由字符提取单元132提供的位置信息获得的一个字符、将该字符转换成一个字符数据,并把转换结果以如图26所示的形式存储在字符结果存储单元535中。下面,由字符识别单元530转换的字符数据称为“转换候选字符”。例如,直到这个字符识别过程,如图4所示的字符串导致结果如图27所示。在图25中的步骤E5与在图2中的步骤A5相似。
在图25中的步骤E6处,后处理单元534从存储在识别结果存储单元535中的至少一个转换候选字符,确定正确的识别结果。
后处理单元534把第一字符的转换候选字符1与存储在识别结果存储单元535中的第二字符的转换候选字符1相结合,以形成搜索条件,而且要求全文本搜索单元140寻找搜索条件。接着,后处理单元534把第一字符的转换候选字符2与第二字符的转换候选字符1相结合以形成搜索条件,而且要求全文本搜索单元140搜索它。类似地,后处理单元534形成第一和第二字符的转换候选字符3、4、5、…的每个组合,以形成搜索条件,而且要求全文本搜索单元140寻找每个搜索条件。后处理单元534通过比较搜索结果,除去从不出现或极少出现的搜索条件。
然后,后处理单元534把第三字符的转换候选字符1连到剩下的两个字符的字符串的末尾以形成搜索条件,而且要求全文本搜索单元140寻找它。类似地,后处理单元534把第三字符的每个转换候选字符加到两个字符的字符串以形成搜索条件,而且要求全文本搜索单元140搜索它。后处理单元534比较搜索结果,而且确定包括在出现最频繁的搜索条件中的转换候选字符为正确字符。
接着,后处理单元534把第四字符的每个转换候选字符加到包括被确定为正确的第二字符和第三字符的字符串上,以形成每个搜索条件,而且要求全文本搜索单元140搜索检索条件。后处理单元534比较检索结果以确定包括在最频繁出现的搜索条件中的转换候选字符为正确字符。以类似的方法,后处理单元534确定以下正确字符。图28A至28C示出形成用于全文本搜索的搜索条件的例子。如图28A所示,当比较搜索结果时,可见第一次得到的数值“400”在它们中间是最大的,从而把搜索字符串“最近”与第三字符相结合。关于第三字符,如图28B所示形成搜索条件。当比较图28B所示的搜索条件时,可见第一次得到的数值“230”比第二次得到的数值“2”大,从而选择搜索字符串“最近の”为正确的。关于第四字符,如图28C所示形成搜索条件。当比较如图28C所示的搜索结果时,可见第一次得到的数值“46”在它们中间是最大的,从而确定“近のこ”是正确的。
以下过程与第一实施例的过程相似。
在这个实施例中,搜索条件字符串包括三个字符,但是形成搜索条件字符串的方法并不局限于此。
根据这个实施例,即使字符识别装置不提供(不能提供)评价值,也不必构成诸如单字字典之类的字典,此类字典要求大量劳力和时间来形成并进行它的维护,这与第一实施例的相似。也不必进行形态分析,由于所述形态分析要求复杂的处理过程,所以它要求大量时间来构成并操作它的系统(虽然,它趋于形成大量错误)。因此,可以在短时间内容易地构成系统,并在短时间内校正误识别。
(f)第六实施例的描述
参照图29描述本发明的第六实施例。图29是示出根据第六实施例的字符识别装置的结构方框图。在图29中,根据第六实施例的字符识别装置包括图象输入单元110、图象数据存储单元120、文本数据转换单元630、终端670、整个文本检索单元640、文本数据存储单元680、索引文件存储单元650和文本数据输出单元160,其中文本数据转换单元630还包括区域划分单元131、字符提取单元132、字符识别单元133、后处理单元634和识别结果存储单元135,它们与根据如图1所示的第一实施例的字符识别装置的结构相似,除了文本数据转换单元630另外还包括用于获取关于由区域划分单元131划分的区域属性的属性获取单元636,而且当请求搜索以校正误识别时后处理单元634指定已被赋予属性的记录数据的属性。
下面,描述第六实施例的字符识别装置的操作。图30是示出由装置执行的整个过程的流程图。在图30中,把F1和F2与根据如图2搜索的第一实施例的步骤A1和A2相似。在图30中的步骤K3,属性获取单元636获得在步骤K2处划分的字符区域中的文档属性。这里,用户通过终端670输入四个文档属性(例如,作者名、日期、模式(手写或打印)和种类(报告或论文)),
图30中的步骤E4至E6与图2中的步骤A3至A5相似。
在步骤E7处,当后处理单元634要求全文本搜索单元640搜索时,它指定文档属性,而且相应于该要求,全文本搜索单元640在具有由后处理单元634指定的属性的文本数据中搜索,这与图2中的步骤A6处的处理过程不同。其他处理类似于根据第一实施例的过程。
图31示出存储在文本数据存储单元680中的文本数据的数据结构例子。文本数据存储单元680存储文档的文本数据,每个文档具有关于日期、作者名、模式和文档类型的四个属性。索引文件存储单元650存储索引文件,每个索引文件由存储在文本数据存储单元680中的文本数据形成。
在如图31所示的例子中,如果经历误识别校正的文档写于1992、文档的作者名是TaroMatsushita、文档模式是打印而文档类型是质纸的,那么当后处理单元634要求全文本搜索单元640搜索时,它指定文档的属性,即,1992、TaroMatsushita、打印和论文。全文本搜索单元640只在具有指定属性的文档(即,具有图31所示的记录号4和6的文档)中进行全文本搜索。以后,后处理单元634以相似于第一实施例的方式确定正确的字符作为指定属性的方法,当写文档时,可以在日期前后指定几年,或者,例如,只是作者,这取决于作为字符识别对象的文档的特性。
把其中已校正误识别字符的文档和它的属性记录在全文本搜索单元640中。以下过程与根据第一实施例的过程相似。
根据这个实施例,由于字符识别装置在具有与文档(它是字符识别的对象)类似的字符的文档中进行全文本搜索,所以即使混合各种文档(其日期将多年互相分开,而且由多个作者撰写)作为数据库,也可以校正反映文档(它是字符识别的对象)字符的误识别。
由于可以获得正确字符,而不必搜索大量的文本数据,所以可以在短时间内校正误识别。
即使存储大量文档作为知识数据库,也不必根据文档的特性来划分知识数据库。因此,可以构造字符识别装置,而不必知道文档字符,从而可以在短时间内容易地构造系统。
在这个实施例中,用户将文档(它是字符识别的对象)的属性输入到属性获取单元636。然而,另一方面,例如,可以从字符区域的位置信息自动地获得属性。获取属性的方法并不局限于此。
(g)第七实施例的描述
现在,参照图32至35描述本发明的第七实施例。第七实施例与第一实施例的不同之处在于,要求搜索的包括误识别的字符串和由全文本搜索获得的包括正确字符的字符串互相对应,以形成误识别数据存储单元,而且在校正误识别之后将误识别数据存储单元记录在全文本搜索单元中,从而在这之后,还将它用于校正另一个误识别。
图32是示出根据本发明的第七实施例的字符识别装置的方框图。如图32所示的字符识别装置包括图象输入单元110、图象数据存储单元120、文本数据转换单元730、终端170、整个文本检索单元740、文本数据存储单元180、索引文件存储单元150和文本数据输出单元160,其中文本数据转换单元730还包括区域划分单元131、字符提取单元132、字符识别单元133、后处理单元734和识别结果存储单元135,它们与根据如图2所示的第一实施例的结构相似。如图32所示的字符识别装置另外还包括在文本数据转换单元730中的误识别存储单元736、误识别数据存储单元780、和误识别索引文档存储单元750。其中误识别存储单元736用于记录记录误识别数据,所述误识别数据是由当后处理单元734校正误识别字符时被用作搜索字符串的包括误识别字符的字符串(下面称为误识别字符串)和在全文本搜索单元740中包括正确字符的字符串(下面称为正确字符串)构成的;误识别数据存储单元780用于以文件形式存储记录在全文本搜索单元740中的误识别数据;而误识别索引文件存储单元750用于存储由全文本搜索单元740从误识别数据形成的索引文件。
下面,描述根据第七实施例的具有上述结构的字符识别装置的操作。图33示出由该装置撰写的整个过程的流程图。图33中的步骤G1至G5的过程与根据如图2所述的第一实施例的步骤A1至A5的过程相似。
图34详细示出图33中步骤G6的过程。第一,确定误识别字符并形成搜索条件,这与第一实施例类似。后处理单元734要求全文本搜索单元740在误识别数据中寻找搜索条件。
全文本搜索单元740通过运用存储在误识别索引文件存储单元750中的索引文件,在存储在误识别数据存储单元780中的被记录误识别数据的误识别字符串中寻找搜索条件,而且如果存在相关数据,那么全文本搜索单元740把它记录的正确字符串作为搜索结果送回到后处理单元734。如果不存在相关数据,那么全文本搜索单元740回答后处理单元734,不存在相关数据。
图35示出存储在误识别数据存储单元780中的误识别数据的数据结构。全文本搜索单元740以与当根据第一实施例记录文档数据时相类似的方法,从误识别数据存储单元的误识别字符串形成索引文件。
当接收来自全文本搜索单元740的正确字符串时,后处理单元734确定字符串是正确的。当接收到关于不存在相关数据的回答时,后处理单元734要求全文本搜索单元740在文本数据中搜索。当从在误识别数据中搜索的结果不能获得正确字符时,后处理单元734要求全文本搜索单元740在上述两种数据中搜索所有的检索条件,而且与第一实施例类似地比较搜索结果以确定正确字符。当以任何方法确定正确字符时,后处理单元734把用作搜索条件以确定正确字符的误识别字符串和在如图35所示的数据结构中的正确字符存储在误识别存储单元736中。
误识别存储单元736把从后处理单元734接收到的误识别数据记录在全文本搜索单元740中。以下过程与第一实施例的过程相似。
根据这个实施例,每当校正误识别字符串,就存储误识别字符和相应的正确字符的数据,而且还将过去的误识别数据存储单元用作知识数据库,从而可以校正反映图象输入单元110特性的误识别。
也可以通过在误识别数据中搜索(而不在大量文本数据中搜索)获得正确字符,从而可以在短时间内校正误识别。
顺便说说,另一方面,当搜索误识别数据时可以把属性赋予文档,如第六实施例中所述,而且通过指定属性在误识别数据中搜索。
(h)第八实施例的描述
现在,参考图36至40描述本发明的第八实施例。第八实施例与第一实施例的不同之处在于,当输出文档数据时,已被转换成文本数据的文档数据被显示的布局看起来就象输入图象数据的布局。
图36是输出根据本发明的第八实施例的结构方框图。如图36所示的字符识别装置包括图象输入单元110、图象数据存储单元120、图象数据转换单元830、终端170、全文本搜索单元140、文本数据存储单元180、索引文件存储单元150和文本数据输出单元860,其中文本数据转换单元830包括区域划分单元831、字符提取单元832、字符识别单元133、后处理单元134和识别结果存储单元135,它们与根据如图1所示的第一实施例的字符识别装置的结构相似。然而,如图36所示的字符识别装置另外还包括在文本数据转换单元830中的区域位置存储单元836、图形数据存储单元838、和字符根存储单元837。其中当由区域划分单元831划分区域时区域位置存储单元836存储每个区域的位置信息;图形数据存储单元838用于存储除字符数据外的,例如,图画、图片等数据;而字符字体存储单元837用于存储由字符提取单元832获得的字符的位置信息。
下面,描述根据第八实施例的字符识别装置的操作。图37输出由该装置执行的整个过程的流程图。这里,用到打印文档、其尺寸可由图象输入单元110在一个操作中读取,而且在所述打印文档中将字符区域与图形区域分开,如图38所示。
图37中的步骤H1和H2与根据如图2所示的第一实施例的步骤A1和A2相似。
在图37中的步骤H3处,将在步骤H2处划分的每个区域存储在区域位置存储单元836中。更具体地说,获得从位于纸张左上角的原点到区域左上角的水平距离X1和竖直距离Y1,及从原点到区域右下角的水平距离X2和竖直距离Y2(以cm为单位表示)。如果区域包括字符数据,那么将所获得的位置信息标注为NULL,反之如果区域包括图形数据,那么将图形数据的文件名赋予所获得的位置信息,并将它存储在区域位置存储单元836中。例如,将文档名zul.bmp赋予除字符数据以外的图片、照片等数据,它们以文件形式存储在图片数据存储单元838。
在步骤H4处,字符提取单元832在字符区域中提取字符(这与图2中的步骤A3相似),而且将位置信息存储在字符根存储单元837中,如图40所示。其中位置信息包括从位于纸张左上角的原点到字符左上角的水平距离X1和竖直距离Y1,及从单元到字符右下角的水平距离X2和竖直距离Y2(以cm为单位表示)。在步骤H5至H7处进行的过程与在如图2所示的步骤A4至A7进行的过程相似。
在图37中的步骤H9处,当文本数据输出单元860输出已被转换成文本数据的文档数据时,它从区域位置存储单元836获得区域位置信息、从图形数据存储单元838获得图形数据而从字符根存储单元837获得字符字体信息,因而在所获取的信息的基础上如此安排图形数据和文档数据,使得输出数据显示时看起来就像输入数据,而且运用其尺寸和字体与输入数据字符相类似的字符输出图片数据和文档。
根据这个实施例,可以看似输入图象数据的布局来显示输出数据,从而用户可以容易地看到数据。此外,输出数据不仅仅是供显示的图象数据,而是文本数据,用户可以编辑文档以容易地以看似论文文档的布局形成不同的文档。
(I)第九实施例的描述
现在,参照图41至44描述本发明的第九实施例。图41是示出根据第九实施例的字符识别装置的结构方框图。如图41所示的字符识别装置包括图象输入单元110、图像数据存储单元120、文本数据转换单元930、终端170、全文本搜索单元140、文本数据存储单元180、索引文件存储单元150和文本数据输出单元160,其中文本数据转换单元930还包括区域划分单元131、字符提取单元132、字符识别单元133、后处理单元934和识别结果存储单元135,除了在文本数据转换单元930中的后处理单元934的操作之外,它们与根据如图1所示的字符识别装置的结构相似。
第九实施例的特性在于,当后处理单元934校正以除日语以外的诸如英语、Hankul(Hangul)等语言写的文档的误识别,其中字符串是由空格等隔开写的,将由空格隔开的字符串(即,在空格之间插入的字符串)用作搜索字符串。
下面,描述根据第九实施例的具有上述结构的字符识别装置的操作。图42是示出由该装置执行的整个操作的流程图。这里用到其中由空格隔开字的打印文档,正如在英语或Hunkul(Hngul)中的一样。以例子的方法描述这个实施例,其中用到以英语书写的文档,如图43所示。
在图41中的步骤I1到I6的处理过程与根据如图2所示的第一实施例的步骤A1到A6的过程相似。在步骤I7中,后处理单元934将在步骤I6处确定的误识别字符与在该误识别字符的前面和后面的字符结合起来以形成搜索条件,如图44所示。此时,后处理单元934将包括插入空格的误识别字符作为搜索条件,并要求全文本搜索单元140搜索它。此外,后处理单元934用上部转换候选字符代替误识别字符以形成搜索条件,而且要求全文本搜索单元140搜索它。当上部转换候选字母是多个时,后处理单元934要求全文本搜索单元140搜索包括各个上部转换候选字母的每个搜索条件。后面的过程与第一实施例的相似。
在该实施例中,空格用来区分字符串。然而,另一方面,可以用句点、特殊字符、控制码或符号来代替空格。本发明并不局限于上述例子。
在本实施例中,将插入空格的字符串用作搜索条件。然而,另一方面,可以耦合多个字符串以将它用作搜索条件。
根据这个实施例,当在以诸如英语或Hunkul(Hangul)(其中,字是由空格隔开写的)的语言写的文档中发生误识别时,本实施例的字符识别装置搜索插入空格的字符串作为搜索条件。相应地,通过避免无意义的字符串(它是字的一部分,诸如在字“character”中的“harac”),根据语言或文档的特性可以校正误识别,从而根据语言或文档的特性可以校正误识别。

Claims (36)

1.一种字符识别方法,其特征在于,包括以下步骤:
从包含单个待识别字符的一个字符图像中,识别有关该字符的一个或多个转换候选字符,每个转换候选字符都由文本数据组成,并且反复重新提供所述字符图像,使得为每个字符图像都获得所述一个或多个转换候选字符;
根据所述一个或多个转换候选字符,建立多个搜索字符串;
运用全文本搜索技术,对参考文本数据搜索所述多个搜索字符串的每个搜索字符串,以提供所述参考文本数据中所述每个搜索字符串的出现频率;
利用每个搜索字符串的出现频率,确定最适合所述字符图像的正确字符。
2.如权利要求1所述的字符识别方法,其特征在于,提供参考文本数据的索引文件,并且
所述搜索步骤是根据参考文本数据的索引文本,运用所述全文本搜索技术,对所述参考文本数据搜索每个搜索字符串,以提供所述参考文本数据中所述每个搜索字符串的出现频率。
3.如权利要求2所述的字符识别方法,其特征在于,所述建立步骤包括第一建立步骤和第二建立步骤,其中
第一建立步骤是将作为待识别字符的第一字符的一个转换候选字符与作为待识别字符的第二字符的一个转换候选字符合并,建立多个搜索字符串;
第二建立步骤响应于在第一建立步骤中建立的所述搜索字符串,接收在所述搜索步骤中获得的出现频率,去除出现频率低于一预定数值的那些搜索字符串,并且将作为待识别字符的第三字符的一个转换候选字符与所述搜索字符串中剩余的搜索字符串相加,再次建立多个搜索字符串。
4.如权利要求3所述的字符识别方法,其特征在于,所述搜索步骤包括第一搜索步骤和第二搜索步骤,其中
第一搜索步骤是对所述参考文本数据搜索在第一建立步骤中建立的搜索字符串,为第二建立步骤提供有关出现频率的信息;
第二搜索步骤是对所述参考文本数据搜索在第二建立步骤中建立的搜索字符串。
5.如权利要求1所述的字符识别方法,其特征在于,所述识别步骤包括计算一评价值,表示每个转换候选字符的确定程度。
6.如权利要求5所述的字符识别方法,其特征在于,所述建立步骤是利用所述评价值及为其设置的阈值,根据所述一个或多个转换候选字符,建立所述多个搜索字符串,以便将误识别字符与所述一个或多个转换候选字符区分开。
7.如权利要求5所述的字符识别方法,其特征在于,所述建立步骤包括以下步骤:
利用所述评价值及为其设置的阈值,确定所述一个或多个转换候选字符中具有最高出现频率的转换候选字符是否与其它转换候选字符类似;和
将被确定在一个或多个转换候选字符中具有一个转换候选字符类似于其它转换候选字符的字符指定为一个误识别字符。
8.如权利要求6所述的字符识别方法,其特征在于,用于确定所述正确字符的所述步骤包括以下步骤:
相互比较每个搜索字符串的出现频率;
从所述多个搜索字符串中,选择具有最高出现频率的搜索字符串;并且
从所述具有最高出现频率的搜索字符串中,获得所述正确字符。
9.如权利要求8所述的字符识别方法,其特征在于,还包括下述步骤:用所述正确字符校正所述误识别字符。
10.如权利要求5所述的字符识别方法,其特征在于,所述多个搜索字符串由固定数量的字符组成。
11.如权利要求5所述的字符识别方法,其特征在于,所述多个搜索字符串的字符数量和字符类型中的至少一种是可变的。
12.如权利要求1所述的字符识别方法,其特征在于,所述参考文本数据由构成一个单词的字符的链状信息组成,并作为知识数据库进行工作。
13.如权利要求1所述的字符识别方法,其特征在于,还包括以下步骤:
提供一个包含字符区的文档,所述字符区包含所述待识别的字符图像;
从所述文档中,分出所述字符区;
从所述字符区中,提取每个字符的字符图像,并将被提取的一个字符提供给所述识别步骤。
14.如权利要求13所述的字符识别方法,其特征在于,所述搜索步骤包括以下步骤:命令执行所述提取步骤,以便再次从所述字符区中一个接一个地提取所述字符。
15.如权利要求13所述的字符识别方法,其特征在于,还包括以下步骤:搜索将一个区一端处的正确字符与另一区一端处的正确字符相连的字符串,重新合并多个字符区的正确字符。
16.如权利要求1所述的字符识别方法,其特征在于,所述搜索步骤对误识别数据进行全文本搜索,其中所述误识别数据由彼此对应的二个字符串构成,一个字符串包括当所述确定步骤校正所述误识别时已在所述搜索步骤请求搜索的误识别,另一个字符串包括通过校正所述误识别而获得的一个正确字符,并且所述确定步骤是根据对所述误识别数据的搜索结果,确定最适合所述字符图像的正确字符。
17.如权利要求1所述的字符识别方法,其特征在于,还包括:
将包括所述字符图像的一个文档的图像数据划分成不同的区域;
存储在区域划分步骤中划分得到的每个图像数据区域的位置信息;
存储非字符数据的数据;和
存储关于字符数据的位置和字体的信息;
其中,所述字符识别方法是将已转换成文本数据的文档数据显示成与输入文档的图象数据的布局相同。
18.如权利要求1所述的字符识别方法,其特征在于,如果所述字符识别方法识别以由空格隔开字符串的语言写成的文档,那么所述建立步骤将在空格之间插入的字符串用作一搜索字符串,而且所述搜索步骤搜索作为搜索字符串在空格之间插入的所述字符串,以校正误识别。
19.一种字符识别设备,其特征在于,包括:
识别装置,用于从包含单个待识别字符的一个字符图像中,识别有关该字符的一个或多个转换候选字符,每个转换候选字符都由文本数据组成,并且反复重新提供所述字符图像,使得为每个字符图像都获得所述一个或多个转换候选字符;
建立装置,用于根据所述一个或多个转换候选字符,建立多个搜索字符串;
搜索装置,它运用全文本搜索技术,对参考文本数据搜索所述多个搜索字符串中的每个搜索字符串,以提供所述参考文本数据中所述每个搜索字符串的出现频率;
确定装置,它利用每个搜索字符串的出现频率,确定最适合所述字符图像的正确字符。
20.如权利要求19所述的字符识别设备,其特征在于,  提供参考文本数据的索引文件,并且
所述搜索装置包括根据参考文本数据的索引文本,运用所述全文本搜索技术,对所述参考文本数据搜索每个搜索字符串以提供所述参考文本数据中所述每个搜索字符串的出现频率的装置。
21.如权利要求20所述的字符识别设备,其特征在于,所述建立装置包括第一建立装置和第二建立装置,其中
第一建立装置包括通过将作为待识别字符的第一字符的一个转换候选字符与作为待识别字符的第二字符的一个转换候选字符合并以建立所述多个搜索字符串的装置;
第二建立装置包括用于响应第一建立装置建立的所述搜索字符串,接收所述搜索装置获得的出现频率的装置,用于去除出现频率低于一预定数值的那些搜索字符串的装置,以及用于将作为待识别字符的第三字符的一个转换候选字符与所述搜索字符串中剩余的搜索字符串相加,以再次建立多个搜索字符串的装置。
22.如权利要求21所述的字符识别设备,其特征在于,所述搜索装置包括第一搜索装置和第二搜索装置,其中
第一搜索装置包括用于对所述参考文本数据搜索由第一建立装置建立的搜索字符串的装置,所述第一搜索装置为第二建立装置提供有关出现频率的信息;
第二搜索装置包括用于对所述参考文本数据搜索由第二建立装置建立的搜索字符串的装置。
23.如权利要求19所述的字符识别设备,其特征在于,所述识别装置包括用于计算一评价值,以表示每个转换候选字符的确定程度的计算装置。
24.如权利要求23所述的字符识别设备,其特征在于,所述建立装置包括利用所述评价值及为其设置的阈值,根据所述一个或多个转换候选字符,建立所述多个搜索字符串,以便将误识别字符与所述一个或多个转换候选字符区分开的装置。
25.如权利要求23所述的字符识别设备,其特征在于,所述建立装置包括:
利用所述评价值及为其设置的阈值,确定所述一个或多个转换候选字符中具有最高出现频率的转换候选字符是否与其它转换候选字符类似的装置;和
指定装置,用于将被确定在一个或多个转换候选字符中具有一个转换候选字符类似于其它转换候选字符的字符指定为一个误识别字符。
26.如权利要求24所述的字符识别设备,其特征在于,用于确定所述正确字符的确定装置包括:
比较装置,用于相互比较每个搜索字符串的出现频率;
选择装置,用于从所述多个搜索字符串中,选择具有最高出现频率的搜索字符串;以及
获得装置,用于从所述具有最高出现频率的搜索字符串中,获得所述正确字符。
27.如权利要求26所述的字符识别设备,其特征在于,还包括:用所述正确字符校正所述误识别字符的装置。
28.如权利要求23所述的字符识别设备,其特征在于,所述多个搜索字符串由固定数量的字符组成。
29.如权利要求23所述的字符识别设备,其特征在于,所述多个搜索字符串的字符数量和字符类型中的至少一种是可变的。
30.如权利要求19所述的字符识别设备,其特征在于,所述参考文本数据由构成一个单词的字符的链状信息组成,并作为知识数据库进行工作。
31.如权利要求19所述的字符识别设备,其特征在于,还包括:
提供装置,用于提供一个包含字符区的文档,所述字符区包含所述待识别的字符图像;
分离装置,用于从所述文档中,分出所述字符区;
提取装置,用于从所述字符区中,提取每个字符的字符图像,并将被提取的一个字符提供给所述识别装置。
32.如权利要求31所述的字符识别设备,其特征在于,所述搜索装置包括用于命令执行所述提取装置,以便再次从所述字符区中一个接一个地提取所述字符的装置。
33.如权利要求31所述的字符识别设备,其特征在于,还包括重新合并装置,用于搜索将一个区一端处的正确字符与另一区一端处的正确字符相连的字符串以便重新合并多个字符区的正确字符。
34.如权利要求19所述的字符识别设备,其特征在于,所述搜索装置对误识别数据进行全文本搜索,其中所述误识别数据由彼此对应的二个字符串构成,一个字符串包括当所述确定装置校正所述误识别时所述搜索装置已请求搜索的误识别,另一个字符串包括通过校正所述误识别而获得的一个正确字符,并且所述确定装置根据对所述误识别数据的搜索结果,确定最适合所述字符图像的正确字符。
35.如权利要求19所述的字符识别设备,其特征在于,还包括:
区域划分装置,用于将包含所述字符图像的一个文档的图像数据划分成不同的区域;
区域位置存储装置,用于存储由所述区域划分装置划分得到的每个图像数据区域的位置信息;
图形数据存储装置,用于存储非字符数据的数据;和
字符字体存储装置,用于存储关于字符数据的位置和字体的信息;
其中,所述字符识别设备将已转换成文本数据的文档数据显示成与输入文档的图象数据的布局相同。
36.如权利要求19所述的字符识别设备,其特征在于,如果所述字符识别设备识别以由空格隔开字符串的语言写成的文档,那么所述建立装置将在空格之间插入的字符串用作一搜索字符串,并请求所述搜索装置搜索作为搜索字符串在空格之间插入的所述字符串,以校正误识别。
CNB971231672A 1996-11-20 1997-11-20 用于字符识别的方法和装置 Expired - Fee Related CN1158627C (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP308961/1996 1996-11-20
JP308961/96 1996-11-20
JP30896196 1996-11-20
JP24503997A JP3427692B2 (ja) 1996-11-20 1997-09-10 文字認識方法および文字認識装置
JP245039/97 1997-09-10
JP245039/1997 1997-09-10

Publications (2)

Publication Number Publication Date
CN1186287A CN1186287A (zh) 1998-07-01
CN1158627C true CN1158627C (zh) 2004-07-21

Family

ID=26537019

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB971231672A Expired - Fee Related CN1158627C (zh) 1996-11-20 1997-11-20 用于字符识别的方法和装置

Country Status (6)

Country Link
US (1) US6341176B1 (zh)
EP (1) EP0844583B1 (zh)
JP (1) JP3427692B2 (zh)
KR (1) KR100292098B1 (zh)
CN (1) CN1158627C (zh)
DE (1) DE69730930T2 (zh)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181927A (ja) * 1998-12-15 2000-06-30 Toshiba Corp 電子ファイリングシステム及び同システムに適用するファイル検索方法
JP3467437B2 (ja) * 1999-09-16 2003-11-17 富士通株式会社 文字認識装置及びその方法とプログラム記録媒体
JP2001125894A (ja) * 1999-10-29 2001-05-11 Sony Corp 文書編集処理装置及び文書編集処理方法およびプログラム提供媒体
AU1390501A (en) * 1999-11-04 2001-05-14 Telefonaktiebolaget Lm Ericsson (Publ) System and method of increasing the recognition rate of speech-input instructions in remote communication terminals
US6845369B1 (en) * 2000-01-14 2005-01-18 Relevant Software Inc. System, apparatus and method for using and managing digital information
JP4613397B2 (ja) * 2000-06-28 2011-01-19 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP5033277B2 (ja) * 2000-09-12 2012-09-26 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体
JP4421134B2 (ja) 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
US20020176628A1 (en) 2001-05-22 2002-11-28 Starkweather Gary K. Document imaging and indexing system
US7340092B2 (en) * 2001-12-21 2008-03-04 Minolta Co., Ltd. Image processing device, image processing method, program for executing image processing, and computer readable recording medium on which the program is stored
US6768816B2 (en) 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
US20030202683A1 (en) * 2002-04-30 2003-10-30 Yue Ma Vehicle navigation system that automatically translates roadside signs and objects
US20040019735A1 (en) * 2002-07-29 2004-01-29 Peng-Cheng Huang Method for capturing characters of a file without need to recognize the file format
US7715640B2 (en) * 2002-11-05 2010-05-11 Konica Minolta Business Technologies, Inc. Image processing device, image processing method, image processing program and computer-readable recording medium on which the program is recorded
JP2004178490A (ja) * 2002-11-29 2004-06-24 Oki Electric Ind Co Ltd 数値情報検索装置
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
KR100747879B1 (ko) * 2004-06-10 2007-08-08 캐논 가부시끼가이샤 화상 처리 장치, 제어 방법 및 기록 매체
WO2005124599A2 (en) * 2004-06-12 2005-12-29 Getty Images, Inc. Content search in complex language, such as japanese
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法
JP2006072744A (ja) 2004-09-02 2006-03-16 Canon Inc 文書処理装置、その制御方法、プログラム、及び記憶媒体
US7787158B2 (en) * 2005-02-01 2010-08-31 Canon Kabushiki Kaisha Data processing apparatus, image processing apparatus, data processing method, image processing method, and programs for implementing the methods
CN100356392C (zh) * 2005-08-18 2007-12-19 北大方正集团有限公司 一种字符识别的后处理方法
JP4977368B2 (ja) * 2005-12-28 2012-07-18 富士通株式会社 媒体処理装置,媒体処理方法,媒体処理システム,及び媒体処理プログラムを記録したコンピュータ読取可能な記録媒体
WO2007086059A2 (en) * 2006-01-25 2007-08-02 Equivio Ltd. Determining near duplicate 'noisy' data objects
JP5109274B2 (ja) * 2006-03-27 2012-12-26 富士通株式会社 文字表示装置、文字表示方法およびそのためのプログラム
KR101266267B1 (ko) 2006-10-05 2013-05-23 스플렁크 인코퍼레이티드 시계열 검색 엔진
JP4461167B2 (ja) * 2007-10-25 2010-05-12 シャープ株式会社 画像形成装置
US20090323134A1 (en) * 2008-06-30 2009-12-31 Kabushiki Kaisha Toshiba Apparatus and method for generating segmentation data of a scanned image
KR101035744B1 (ko) * 2008-12-08 2011-05-20 삼성전자주식회사 카메라를 이용한 문자 인식 장치 및 방법
JP2010157107A (ja) * 2008-12-26 2010-07-15 Hitachi Software Eng Co Ltd 業務文書処理装置
WO2011024282A1 (ja) * 2009-08-27 2011-03-03 株式会社 東芝 情報検索装置
KR20110091296A (ko) * 2010-02-05 2011-08-11 삼성전자주식회사 문서 작성 장치 및 방법
JP5488077B2 (ja) * 2010-03-15 2014-05-14 オムロン株式会社 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
CN102043766B (zh) * 2010-12-30 2012-05-30 方正国际软件有限公司 一种扫描文档编改的方法与系统
US8983211B2 (en) * 2012-05-14 2015-03-17 Xerox Corporation Method for processing optical character recognizer output
US9323726B1 (en) * 2012-06-27 2016-04-26 Amazon Technologies, Inc. Optimizing a glyph-based file
JP2014078168A (ja) * 2012-10-11 2014-05-01 Fuji Xerox Co Ltd 文字認識装置及びプログラム
US9008425B2 (en) * 2013-01-29 2015-04-14 Xerox Corporation Detection of numbered captions
FR3005175B1 (fr) 2013-04-24 2018-07-27 Myscript Systeme de synchronisation permanente pour la saisie manuscrite
US10225136B2 (en) 2013-04-30 2019-03-05 Splunk Inc. Processing of log data and performance data obtained via an application programming interface (API)
US10019496B2 (en) 2013-04-30 2018-07-10 Splunk Inc. Processing of performance data and log data from an information technology environment by using diverse data stores
US10997191B2 (en) 2013-04-30 2021-05-04 Splunk Inc. Query-triggered processing of performance data and log data from an information technology environment
US10318541B2 (en) 2013-04-30 2019-06-11 Splunk Inc. Correlating log data with performance measurements having a specified relationship to a threshold value
US10614132B2 (en) 2013-04-30 2020-04-07 Splunk Inc. GUI-triggered processing of performance data and log data from an information technology environment
US10346357B2 (en) 2013-04-30 2019-07-09 Splunk Inc. Processing of performance data and structure data from an information technology environment
US10353957B2 (en) 2013-04-30 2019-07-16 Splunk Inc. Processing of performance data and raw log data from an information technology environment
JP6046088B2 (ja) * 2014-07-30 2016-12-14 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理方法
US9747273B2 (en) * 2014-08-19 2017-08-29 International Business Machines Corporation String comparison results for character strings using frequency data
KR101626500B1 (ko) * 2015-02-09 2016-06-01 동의대학교 산학협력단 광학 문자 인식을 기반으로 한 단어 정리 시스템 및 방법
US10416868B2 (en) 2016-02-29 2019-09-17 Myscript Method and system for character insertion in a character string
US10248635B2 (en) * 2016-02-29 2019-04-02 Myscript Method for inserting characters in a character string and the corresponding digital service
JP6593303B2 (ja) * 2016-10-31 2019-10-23 京セラドキュメントソリューションズ株式会社 問題作成装置、問題作成方法、及び画像形成装置
RU2661760C1 (ru) * 2017-08-25 2018-07-19 Общество с ограниченной ответственностью "Аби Продакшн" Использование нескольких камер для выполнения оптического распознавания символов
JP7139669B2 (ja) * 2018-04-17 2022-09-21 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7263721B2 (ja) * 2018-09-25 2023-04-25 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
KR102605451B1 (ko) * 2018-11-14 2023-11-24 삼성전자주식회사 이미지 내에 포함된 복수의 외부 객체들 각각에 대응하는 복수의 서비스들을 제공하는 전자 장치 및 방법
KR102196110B1 (ko) * 2018-12-31 2020-12-29 주식회사 포스코아이씨티 광학 문자 판독 장치를 포함하는 로봇 프로세스 자동화 시스템
WO2020166569A1 (ja) * 2019-02-14 2020-08-20 昭和電工株式会社 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法
JP7243409B2 (ja) * 2019-04-17 2023-03-22 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN111582282B (zh) * 2020-05-13 2024-04-12 科大讯飞股份有限公司 一种文本识别方法、装置、设备及存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4589142A (en) * 1983-12-28 1986-05-13 International Business Machines Corp. (Ibm) Method and apparatus for character recognition based upon the frequency of occurrence of said characters
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
US5133023A (en) * 1985-10-15 1992-07-21 The Palantir Corporation Means for resolving ambiguities in text based upon character context
ES2030819T3 (es) * 1987-10-16 1992-11-16 Computer Gesellschaft Konstanz Mbh Procedimiento para el reconocimiento automatico de caracteres.
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US5757983A (en) * 1990-08-09 1998-05-26 Hitachi, Ltd. Document retrieval method and system
US5448692A (en) * 1991-03-27 1995-09-05 Ricoh Company, Ltd. Digital image processing device involving processing of areas of image, based on respective contour line traces
US5875263A (en) * 1991-10-28 1999-02-23 Froessl; Horst Non-edit multiple image font processing of records
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
US5369714A (en) * 1991-11-19 1994-11-29 Xerox Corporation Method and apparatus for determining the frequency of phrases in a document without document image decoding
US5359673A (en) * 1991-12-27 1994-10-25 Xerox Corporation Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
JPH06274680A (ja) * 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
US5377280A (en) * 1993-04-19 1994-12-27 Xerox Corporation Method and apparatus for automatic language determination of European script documents
US5438628A (en) * 1993-04-19 1995-08-01 Xerox Corporation Method for matching text images and documents using character shape codes
JP3491962B2 (ja) * 1993-05-07 2004-02-03 キヤノン株式会社 文書検索方法及びシステム
US5860075A (en) * 1993-06-30 1999-01-12 Matsushita Electric Industrial Co., Ltd. Document data filing apparatus for generating visual attribute values of document data to be filed
US5524066A (en) * 1994-03-31 1996-06-04 Xerox Corporation Text recognition by predictive composed shapes
JP3986098B2 (ja) * 1994-08-16 2007-10-03 富士通株式会社 文字列検索方法及び文字列検索装置
JP3647518B2 (ja) * 1994-10-06 2005-05-11 ゼロックス コーポレイション コード化したワードトークンを使用して文書画像をハイライトで強調する装置
US5642435A (en) * 1995-01-25 1997-06-24 Xerox Corporation Structured document processing with lexical classes as context
US5745602A (en) * 1995-05-01 1998-04-28 Xerox Corporation Automatic method of selecting multi-word key phrases from a document
US5764799A (en) * 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US5850480A (en) * 1996-05-30 1998-12-15 Scan-Optics, Inc. OCR error correction methods and apparatus utilizing contextual comparison

Also Published As

Publication number Publication date
CN1186287A (zh) 1998-07-01
DE69730930T2 (de) 2005-12-22
KR19980042782A (ko) 1998-08-17
KR100292098B1 (ko) 2001-06-01
DE69730930D1 (de) 2004-11-04
JPH10207988A (ja) 1998-08-07
EP0844583B1 (en) 2004-09-29
JP3427692B2 (ja) 2003-07-22
EP0844583A3 (en) 1998-07-01
US6341176B1 (en) 2002-01-22
EP0844583A2 (en) 1998-05-27

Similar Documents

Publication Publication Date Title
CN1158627C (zh) 用于字符识别的方法和装置
CN1171162C (zh) 基于字符分类检索字符串的装置和方法
CN1139884C (zh) 信息处理方法和装置
US8139870B2 (en) Image processing apparatus, recording medium, computer data signal, and image processing method
CN1248138C (zh) 图像处理方法与图像处理系统
CN1209725C (zh) 文件编辑处理方法和文件编辑处理设备
CN1174332C (zh) 转换表达方式的方法和装置
CN1215433C (zh) 联机文字识别装置及方法
CN1161687C (zh) 手写体匹配技术
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
CN1306441C (zh) 数据处理方法与装置
CN1489089A (zh) 文件检索系统和问题回答系统
CN1542655A (zh) 信息处理装置和信息处理方法、以及存储媒体、程序
CN1571980A (zh) 字符串识别
CN1117160A (zh) 产生未知字母之字模的方法与系统
CN1215457C (zh) 语句识别装置和方法
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1281191A (zh) 信息检索方法和信息检索装置
CN1689023A (zh) 电子墨水处理
CN1945599A (zh) 图像处理装置,图像处理方法和计算机程序产品
CN1041773C (zh) 由字符图象直方图0-1图形表示识别字符的方法和装置
CN1251130C (zh) 多字体多字号印刷体藏文字符识别方法
JP2014182477A (ja) プログラム及び帳票処理装置
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee