CN100474331C - 字符串识别装置 - Google Patents

字符串识别装置 Download PDF

Info

Publication number
CN100474331C
CN100474331C CNB021023530A CN02102353A CN100474331C CN 100474331 C CN100474331 C CN 100474331C CN B021023530 A CNB021023530 A CN B021023530A CN 02102353 A CN02102353 A CN 02102353A CN 100474331 C CN100474331 C CN 100474331C
Authority
CN
China
Prior art keywords
word
keyword
character string
speech
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB021023530A
Other languages
English (en)
Other versions
CN1367460A (zh
Inventor
堀田悦伸
藤本克仁
直井聪
諏访美佐子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1367460A publication Critical patent/CN1367460A/zh
Application granted granted Critical
Publication of CN100474331C publication Critical patent/CN100474331C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

首先自动地从要识别的字符串组中提取关键词并送入该关键词。然后,通过分段单个字从要识别的字符串图像中识别出字,并提取出对应于所提取/送入的关键词的字符串。然后,从字符串图像中提取出由关键词定界的词区域,并识别出词。再有,对词识别结果进行校验并输出最终字符串识别结果。

Description

字符串识别装置
技术领域
本发明涉及与字符识别装置OCR和软件OCR相关联的字符识别装置中的字符串识别装置,而字符识别装置OCR和软件OCR是近来人们越来越需要的一种文件输入工具。
背景技术
作为通过把手写字符串分解成若干个部分字符串来识别一个词的方法,已有一种建议用于识别一个区域中的词,该区域由由被检测出作为定界符的那些字(关键字)包围,例如手写地址中的都(首都)、道、府、县(省)、市(市)、区(区)、郡(县)等(例如,日本专利出版物11-161740号、日本专利出版物11-328315号)。
然而,上面提到的方法是用于手写地址的,尚未开发出用于一般手写字符串而不仅仅是地址的字符串识别方法。在一个地址中,每个关键字可用作字符串的定界符,尚没有使用多个字作为关键字,即作为关键词。
在用于识别手写地址的传统的关键字提取系统中,关键字限于都(首都)、道(省)、府(省)、县(省)、市(市)、区(区)、郡(县)、町(镇)、村(村)。然而,当目标字符串不是一个地址时,就必须在每次进行字符串识别过程时重新设置关键字。
再有,由于在传统方法中要从一个字符串中提取的关键字个数是1,所以如果按原样应用传统方法的话,便不能成功地提取含有两个或更多字符的关键词,这是由于例如关键词中的毗邻字造成的。
此外,在传统的词识别方法中,尚不能进行高精确性拒绝处理,一个词可能作为完全错误的词被误识别,从而使用户失望。
发明内容
已开发出本发明以解决上述传统技术中存在的问题,其目的在于提供一种字符串识别装置,它能从字符串中自动提取关键词,即使关键词中包括多个字符也能以高精确性提取该关键词,而且能防止一个要识别的词被误认为是一个完全不同的词。
根据本发明构成的字符串识别装置包括一个识别目标字符串组存储单元,用于存储要识别的一类中的字符串列表;以及一个关键词确定单元,用于对每个字检索(search)识别目标字符串组存储单元以得到每个字的发生次数,确定发生次数多的字作为关键字,并确定发生次数多的字符串作为关键词。
由于能根据要识别的类别自动确定关键字和关键词,所以操作员等人不必依次设置关键字和关键词。
再有,根据本发明构成的字符串识别装置还包括一个关键字/词存储单元,用于存储被确定的关键字或关键词;以及一个关键字/词提取单元,用于如果当从要识别的字符串中提取出一个存储在关键字/词存储单元中存储的关键字或关键词时,该关键词中的一部分字符串被提取出来的话,提取一个字符串作为关键词。
这样,当从要识别的字符串中提取关键词时,即使由于字彼此接触等原因不能识别出该关键词中的各字,也能提取出该关键词。
再有,根据本发明构成的字符串识别装置还包括一个词识别单元用于识别词,以及一个校验单元用于检验词识别单元的识别结果是否正确。
例如,上述校验单元根据线密度或周边分布来校验识别结果。
这样,通过校验词识别结果并且如果该词被误识别的话则拒绝该词识别结果,从而能向用户提供高精确性识别结果。
附图说明
图1显示本发明示意图;
图2显示根据本发明一个实施例的字符串识别装置总体构成的示意图;
图3显示自动关键字代码提取过程和关键字/关键词提取过程的实施例;
图4A、4B和4C显示要识别的字符组以及提取出的字和字符串的示例;
图5是单个字分段过程以及字识别和关键词提取过程的流程图;
图6显示分段为单个字的一个字被识别为一个词的情况;
图7显示通过线密度周边分布进行校验的过程;
图8是通过线密度/周边分布进行校验的过程的解释图;
图9显示一个信息处理装置的硬件配置;以及
图10显示存储介质一个示例。
具体实施方式
根据本发明要处理的手写字符串可以是按正常排列书写的各种字符串,如地址、名字、大学的名称、银行的名字等。在本发明中,不是从一字符串的起点开始逐个地识别字,而是把一个字符串分成多个部分字符串,并综合识别每个部分字符串中包含的词。这样,字彼此接触和字被分离等手写字符串的问题能被正确地处理。根据本发明构成的字符识别装置不仅能应用于上述手写字识别装置,而且能应用于通用的字符识别装置,如印刷字符识别装置、便携信息终端中使用的字符识别装置等。
图1显示本发明的示意图。
为解决上述问题,如图1中所示,根据本发明,关键字代码提取单元1从要识别的字符串组(代码)中自动提取关键字(关键词),并送入该关键字。这样,如图1所示(下文中将参考图4详细描述),除了在地址识别中的关键字,如县(省)、市(市)、区(区)、町(镇)等之外,还送入了例如信用组合(信用社)、支店(分社)、农业协同组合(农业合作社)、支所(分社)等关键词。此外,通过提取一组相关字符串,还提取出以高概率一起出现的一组关键词,如信用组合(信用社)和支店(分社)、农业协同组合(农业合作社)和支所(分社)等。
然后,关键词提取单元2把单个字从字符串图像中分割出来用于字符识别,并结合语言过程高精确性地提取与关键字代码提取单元1提取和送入的关键词所对应的字符串。然后,从字符串图像中提取由关键词分段的一个词区域,并由词识别单元3识别一个词。再有,校验单元4校验词识别结果并输出字符串识别最终结果。
图2显示根据本发明一个实施例的字符串识别装置的整个配置的示意图。
在图2中,在自动关键字代码提取过程11中,从要识别的字符串组(字符代码组)中自动提取关键字代码和关键字符串(词)代码(下文中字符代码和字符串代码二者都可称作字符代码)。假定已指定(例如由用户设定)了一个要识别的字符串组,例如地址、名字、大学名称、金融机构名称等。
在自动关键字代码提取过程11中,对一个目标字符串组检验所出现的字符代码,并把发生次数多的字以及一个字符串单元中发生次数多的字和字符串作为关键字代码送入。
再有,检验各字之间的相关性。相关性是指例如当字符代码A出现时字符代码B发生的概率,当字符代码C出现时字符代码D和E同时发生的概率等。这样,带有相关性而出现的一组字符代码也作为关键字代码送入。
在上述过程中,{县(省)、市(市)、区(区)、町(镇)}或{县(省)、郡(县)、町(镇)}或{都(首都)、区(区)、町(镇)}能被自动地作为关键字从地址中提取出来。从金融机构名中能自动提取出{银行(银行)、支店(分社)}{信用组合(信用社)、营业部(营业部)}{农业协同组合(家业合作社)、支所(分社)}作为关键字。例如,在一个地址中,可以使用不为地址描述定界符的字作为关键字。按上述提取出的字符代码可作为字符代码送入。
在关键字/关键词提取过程12中,按照上述把一个单个字从一个手写字符串(图像数据)中分离出来,对每个分离出来的字进行识别,对应于由自动关键字代码提取过程11提取出来的关键字代码的关键字和关键词被提取出来并送入。由于关键字的类型个数少,所以关键字的处理时间比一般字的处理时间短(例如约4,000种字的类型被比较),而且关键字表现出比一般字要高的识别精确性。
在词区域提取过程13中,从手写字符串(图像)中提取由关键字定界的词区域和关键词。例如,如果手写字符串是‘东京信用组合千驮木支店’(东京信用社千驮木分社),则作为词区域提取出‘东京’(东京)和‘千驮木’(千驮木),它们是由‘信用组合’(信用社)和‘支店’(分社)定界。
在词识别过程14中,提取出的词区域的字符图像被归一化并从中提取出特征,该特征与词物征字典等的特征数据进行比较,用以识别词。词识别方法可以是例如前述日本专利出版物No.11-161740以及No.11-328315中公开的方法,以及先前由本发明的申请者提出的日本专利申请2000-304758所公开的方法。
如前文所述,对于由关键词封闭的词区域进行词识别,而词识别结果按下述进行校验。
(i)在字符分段/字符识别过程15中,单个字被分段,并进行词识别过程。如果在识别出的词中的字符处于前n个最高次序(order)字符识别结果之内的比率高于一个阈值的话,则输出由词识别单元14得到的词识别结果。否则,该结果被拒绝。例如,如果以‘神奈川’(神奈川)作为一个词的例子,每个字‘神’、‘奈,和‘川’被识别,对每个字得到前n个较高次序可能识别结果。如果在一个词中作为词识别结果的每个字不是以预先确定的比率(例如3个字中的两个或更多个字)或高于预先确定的比率包含在可能的识别结果中,则该结果被拒绝。这样,在词识别中能减少明显的误识别。
上述值n可在事先由例如操作员设定。
(ii)再有,如图2中的虚线指出的那样,可通过在字数估计过程17中比较字数来校验词识别结果。
就是说,当综合识别出词区域时,将识别出的词中的字数与从词图像中估计出的字数作比较。如果字数之差等于或大于一个阈值,则词识别结果被拒绝。例如,作为估计字数的一种方法,根据词图像的边界矩形的高度和宽度之比来计算字数(在图2所示例子中高度h与宽度w之经是w/h)。否则,例如得到一个词图像周边分布(黑象素投影直方图),并可以使用由周边分布的定界符所在位置得到的数。
(iii)在通过线密度/周边分布进行校验的过程16中,如果通过组合字特征产生词特征,则如下文描述的那样,反过来计算字特征的组合位置,将词图像按每个位置分割,并将每个分割区所计算出的线密度和周边分布与识别出的词的每个字的预先确定的线密度和周边分布进行比较。如果它们不同,则词识别结果被拒绝,由此验证了词识别结果。众所周知,线密度是指沿垂直或水平方向(y或x方向)扫描一个目标字符时测量出的线数。
下面将描述自动关键字代码提取(确定)过程、关键字/关键词提取过程以及由线密度/周边分布进行校验的校验过程。
(1)自动关键字代码提取过程和关键字/关键词提取过程
图3显示自动关键字代码提取过程和关键字/关键词提取过程的一个实施例。
首先,在自动关键字代码提取过程11中的过程11a中,从要识别的字符串的代码中提取出发生次数多的字以及在一个字符串单元中发生次数多的字和字符串,以此作为关键字代码。再有,在过程11b中,提取出带有相关性出现的一组字符代码,并送入一组字作为关键字代码。
上述的在字符串单元中出现次数多的字可以是县(省)(如图4A中所示),因为它在‘爱各县海部郡美和町3-3-3’(爱知省海部县美和镇3-3-3)、‘长野县信用组合松本支店’(长野信用社松本分社)等多个字符串中出现。县(省)在要识别的整个字符串组20中频繁出现。这样,它可以是在这两组中频繁出现的字。
图4A至4C显示要识别的字符串组示例以及从中提取的关键字代码。
图4A显示要识别的字符串组列表20的一个示例。图4A显示一个字符串,但实际使用的是该字符串组中每个字的代码。
要识别的字符串组列表20含有字符串作为要识别的那类(例如前述的地址、名字、大学名称、金融机构名称等)中的识别结果。
例如,在图4A所示例子中,一个客户/银行业者等在实际使用中把金融机构名(银行名及其分行名)和它的地址写在预先确定的表格上,然后字符识别装置读取/识别它们。在这一使用中,列出了要识别的实际金融机构名(银行名及其分行名)。就是说,客户等在一表格上送入图4A所示列表中的一个,例如‘东京信用组合千驮木支店东京都文京区千驮木1-1-1’(东京信用社千驮木分社,首都东京文京区千驮木1-1-1)。所以,基于本实施例进行的下述过程,能预先产生这些列表。
首先,使用上述要识别的字符串组列表,检验该列表中每个字(字符代码)出现的次数。然后,提取出发生次数多的字符代码(例如,达到前m个最高次序代码;m值是预先由操作员等设定的)作为关键字代码。然而,一个关键字不仅是作为一个字提取出来,而且还作为两个字提取出来(下文中可能被称作关键字符串)。当连续出现发生次数多的字时,它们被作为一个关键字符串提取。例如,在图4A所示列表中,提取出发生次数多的字、如‘县’、‘市’、‘支’、‘店’、‘所’等。‘县’和‘市’在其前面和后面没有连续出现其他发生次数多的字。所以它们每个字单独提取出来作为关键字。另一方面,由于‘支’、‘店’和‘所’作为‘支店’、‘支所’等连续出现,所以它作为关键字符串提取出来。类似地,例如‘信用组合’、‘农业组合,等都是作为关键字符串提取的。
例如,假定从图4A所示要识别的字符串组中提取出发生次数多的字符代码,则例如如图4B中所示,除了在识别由县、都等表示的地址中出现的那些字之外,还提取出金融机构名、农业合作社名等关键字代码,如‘信用组合’、‘商工信用组合,等。再有,如果由县等字符指出的字符串,例如‘...县信用组合’、‘...县农业协同组合’等,其发生次数大的话,那么它也作为关键字代码提取出来。当检验字符出现的相关性时,表明有高相关性的一组字符代码也提取出来,如图4C中所示。
检验相关性的方法(实际处理方法)可以是,例如,对要识别的字符串中所包含的每个字符代码,计算其他字符代码的个数并累积其计数值,提取出具有最大累积值或是累积值大于一预定阈值(预先由操作员等设定)的字符。例如,以关键字‘都’为例,第一个‘都’出现在图4A中所示列表中要识别的字符串‘东京都文京区千驮木1-1-1’中。所以,对‘都,所关联的其他字符代码‘东’、‘京’、‘区’、‘千’、‘驮,和‘木’进行计数(数字/符号如1-1-1等未计数)。如果对图4A中所示全部要识别的字符串进行这一过程,则对于‘都’而言,‘区’的计数值(累积值)最大。所以‘都’-‘区’被提取出来作为一组具有高相关性的字符代码。当不仅对每个字符代码而且还对每个字符串进行这一过程时,例如‘信用组合’-‘支店’、‘农业组合’-‘支所’等便被提取出来作为具有高相关性的一组字符串。
上述过程可对所有字符和字符串进行,但对已经提取出来的关键字或关键字符串进行这一过程则效率更高。
在字符识别中很少被认错的字被预先送入并提取出其关键字代码,于是在从字图像中提取关键词的过程中能更正确地提取出关键词。
在关键字/关键词提取过程12中的单个字符分段过程12a中,单个地从手写字符串(图像数据)中分离出字符,按上述方法识别每个字符,并且提取出由自动关键字代码提取过程11提取的关键字代码所对应的关键字和关键词。
下面描述提取多个关键字,即关键词的过程。例如,在使用金融机构名时,提取出“○○信用组合△△支店”、‘○○农业协同’等作为关键词。在下述关键字/关键词提取过程中,诸如县、市、区、町等关键字能作为关键词被提取出来。
下面描述提取一般关键词的过程。在字符识别和关键字/词提取过程12b中,识别分离出的单个字,并对每个字检验前n个可能的较高次序识别结果的距离值。如果在预先送入的关键词中的一个字符属于可能的识别结果,而这些结果的距离值等于或小于阈值TH1,那么字符是一个目标字符的可能的关键字。
当在一个关键词中有多个相关联的字时,则展现出多个可能的关键字。该过程是对所有字符进行的。当在一个可能的关键字序列中含有同一字符串作为关键词时,该字符串被作为关键词提取出来。
图5是上述单个字符分段和关键字/关键词提取过程的流程图。
在步骤S1中分离出单个字,并在步骤S2中识别这个分离出的字。该字是通过下述步骤提取出来的:提取被分离的字的特征,通过把特征数据与存储的字典进行比较来提取可能的字,并得到分离出的字与可能的字之间的距离值。
在步骤S3中,提取出来按上述方法得到的字符识别结果的前n个可能的较高次序字。在步骤S4中,检验一个可能字的距离值是否小于阈值TH1。如果可能字的距离值小于阈值TH1,则在步骤5中检验该可能字是否包含在自动关键字代码提取过程11中送入的关键词中。如果是,则在步骤S6送入该字作为关键字。
重复上述过程直至对所有字都进行了该过程。当对所有字都进行了该过程时,控制从步骤S7进到步骤S8,于是提取出一个可能关键字序列(字符组合)作为关键词,该序列中含有与自动关键字代码提取过程11中送入的关键词相同的字符串。
例如,假定在一个要识别的字符串图像中含有字符串‘○△’(未知字符),在步骤S4至S6中对字符‘○’送入‘银’和‘钱’作为可能的关键字,对字符‘△’送入‘行’和‘桁’作为可能的关键字。假定在可能的关键字组合中(‘钱桁’、‘银桁’、‘钱行’、‘银行’)(‘钱’和‘桁’被认为是用于所送入的完全不同的关键词中),自动关键字代码提取过程11中只送入了‘银行’(银行)作为关键词,则字符串‘○△’被识别为关键词‘银行’。
另一方面,当进行上述字符识别时,在词识别/关键词提取过程12C中对分离为单个字的字符进行词识别过程。
例如,当写得小的字彼此接触时,例如图6中所示‘支店’(分社),当字符分段时这些接触的字可能被误认为是一个字。
在这种情况中,在词识别/关键词提取过程12C中,对按照词特征以及字特征分离为一个字的区域进行比较过程。当在词特征比较中满足距离条件,则提取出该词作为关键词。
当在上述关键字/关键词提取过程中提取出预先送入的关键字中的一部分字时,进行下述过程:
(i)使用多级阈值进行2步骤提取
当从一字符串中只提取出一个关键词的一部分时,对前/后关键字提取过程12d中的前/后字识别结果,放宽其关键词提取的距离值条件。并再次进行提取过程。
就是说,如果在从一字符中得到字符识别结果之后,在具有等于或大于TH1的距离值的可能识别结果中含有一个关键字,虽然在此时提取出一个可能的关键字,但对于提取出的关键字的前/后字,从距离值等于或大于TH2(TH2>TH1)的可能识别结果中提取出一个关键字。这样,即使一个关键词的一部分字表现出相当大的变形,这些字也能作为该关键词的一部分被识别出来。
根据例如过去的试验结果,可把操作员等认为适当的值设置为TH1和TH2之值。
(ii)由两端识别的关键字提取过程
在含有若干接触字的字符串中,往往难于对属于关键词的所有单个字进行分段和识别。
例如,在关键词图像‘农业协同组合’中,‘业协’两字彼此复杂地接触而且在字符分段过程中不能成功地分离。于是,进行由两端识别的关键字提取过程12e。
在关键字提取过程12e中,对含有N或更多个字的关键词提取出一个字符串的开头和末尾字,当提取全部字中P%或更多个字时,便假定已提取出一个关键词。上述N和P是在试验中得到的值。例如P=60。
例如,在“农业协同组合”中,当提取出可能的关键字“农业00组合”和“农00同组合”时,该字符串被定义为“农业协同组合”。(在这个例子中假定没有其他类似的词(“农林协同组合”等)存在。)
(iii)利用部分识别的关键词提取过程
当关键词的领头字与前面的字接触时,不能正确地提取出该关键词,而且不能成功地应用上述两端识别系统。所以,进行利用部分识别的关键词提取过程12f。
在利用部分识别的关键词提取过程12f中,当对于每个含有M或更多个字的关键词识别出字符串的第一和第二部分中的一部分字时,对部分字符串的两端进行利用两端识别的关键字提取过程(上述(ii)),而当满足条件时(当提取出P%或更多字时)提取出部分字符串作为部分关键词。
例如,在“农业协同组合”中,当识别出“000农△△组合”时,在该字符串中包含的关键词被估计为“农业协同组合”。然而,由于“农”的位置不确定(即在这种情况中由于存在“农”接触任何前面的字的可能性,所以不能清楚地识别出接触字的哪部分属于“农”),在“农”之后的部分被确定为“业协同组合”。
如上所述,如果按上述过程提取一个关键词,在利用词识别的关键词校验过程12g中对提取出的词进行校验。
在利用词识别的关键词校验过程12g中,当提取关键词时产生该关键词的词特征。然后,对关键词提取过程中提取的关键词区域进行词识别过程,而且只把满足距离条件的区域提取出来作为关键词。
再有,在结合关键词以外的其他词进行词特征比较时,一些词图像很容易被错认。
于是,这些易错认的词图像被作为类似词特征加入到词特征字典中,以用于由正确的词特征进行识别,从而改善关键词提取精确性。
(2)利用线密度/周边分布的校验过程
如前文参考图2描述的那样,提取由关键词定界的词区域,识别由关键词定界的词区域中的词,利用字符识别进行字分段和校验,通过假定字数来校验词识别结果,以及利用线密度/周边分布对词识别结果进行校验过程。
下面参考图7和图8描述利用线密度/周边分布进行的校验过程。在这个例子中,在词识别过程14中的词识别过程中,利用由字特特征组合产生的词特征进行词识别,并把这词特征与提取出的词区域中的词图像特征进行比较。
由于“线密度”和“周边分布”是众所周知的,故这里略去其详细解释。
当利用词识别过程14得到词识别结果时,在词特征组合位置计算过程16a中反过来计算字符的组合位置。就是说,当在利用产生词特征来识别词的系统中比较一个词时,反过来由所用的词模板来计算字特征的组合位置。
例如,如图8中所示,当作为词图像“富士”(富士)的比较结果得到“七十七”(77)时,由该词模板反过来计算组合位置,于是得到“七十七”的每个字的组合位置。
由于组合位置是该词规一化图像中的位置,该位置被转换成词图像中的位置,并在词区域分割过程16b中把该词图像中的词区域按每个转换后的位置进行分割。例如,如图8中所示,“七十七”的每个字的组合位置被转换成词图像上的位置,于是词图像“富士”被分割。
在线密度和周边分布计算过程16c中,对每个分割后的区域计算线密度或周边分布。例如,在图8所示例子中,计算词图像“富士”的每个被分割区域的线密度。
另一方面,在线密度和周边分布计算过程16d中,通过参考线密度字典31、周边分布字典32等来对词识别结果的每个字计算每个字的线密度或周边分布。例如,在图8所示例子中,提取出词“七十七”的每个字的线密度。
然后,在比较过程16e中,把对每个分割区域计算出的线密度或周边分布与识别出的词的每个字的线密度或周边分布进行比较。如果它们不匹配,则该词识别结果被拒绝。
用于拒绝的差异程度(阈值)由操作员等根据试验结果等预先设定。
在图8所示例子中,由于分割词图像“富士”所得到的每个区域中的线密度明显地不同于词“七十七”的每个字的线密度,所以词识别结果“七十七”被拒绝。
图9显示为实现根据本发明的一个实施例的字符串识别装置所构成的信息处理装置的硬件配置。
如上所述,根据本发明的一个实施例的字符串识别装置可由通常的计算机系统实现。(该装置不限于这一系统。就是说,它能由便携式信息处理装置等实现,如PDA/手持PC等)。
图9中所示信息处理装置40包含CPU41、存储器42、输入装置43、输出装置44、外部存储装置45、介质驱动装置46、网络连接装置47等,它们通过总线48互连。再有,光学读出器50等与总线48相连。图9所示配置是一个示例,该装置不限于这一配置。
例如,光学读出器50是一个扫描仪、数字相机等,用于把通过光学读出纸上的字符等所得到的数字图像数据传送到信息处理装置40。(这是指上述“字符串图像”和“手写字符串(图像)”)。
CPU41是中央处理单元,用于控制整个信息处理装置40。
存储器42可以是RAM等,用于当执行程序和更新数据等时暂时存储存在外部存储器装置45(或便携存储介质49)中的程序或数据。CPU41利用读到存储器42中的程序/数据,执行上述各种过程。
输入装置43是例如键盘、鼠标等,当操作员等设置上述各种设定值(前m个较高次序值、前n个较高次序值等)时被使用。
输出装置44可以是显示器等,用于显示一个设置屏幕供操作员设置上述设定值之用以及显示字符串识别结果等。
外部存储装置45可以是例如磁盘装置、光盘装置、磁—光盘装置等,存储用于实现上述字符串识别装置各种功能所用的程序/数据等。
介质驱动装置46读取便携存储介质49中存储的程序/数据等。便携存储介质49可以是例如FD(软盘)、CD-ROM、DVD、磁—光盘等。
网络连接装置47连到一个网络,向外部信息处理装置发送或从中接收程序/数据。
图10显示存储介质一个示例。
如图10中所示,程序/数据能存储在便携存储介质49中,加载到信息处理装置中,存储在存储器42中,然后被执行。程序/数据能通过由网络连接装置47连接的网络(因特网等)从外部信息提供装置51的存储装置52下载。
本发明能被配置成一个存储程序/数据的存储介质(便携存储介质49等)、一个程序、一个用于传输该程序/数据的网络(传输介质)、以及当程序/数据下载时作为通过传输介质传输的一个传输信号。
在上述的本发明中,能得到如下效果:
(1)从要识别的并表示为字代码的一类字符串中自动提取出关键词的代码串,该关键词是一个字符串的节点。由关键字代码提取单元提取的关键词或它的一部分是从字符串图像中提取的。由所提取的关键词确定的部分区域中的字符串是被综合地识别的。综合识别的结果被校验。这样,能从字符串中自动提取出关键词并且能以高精确性提取出关键词,尽管该关键词是由多个字构成的。再有,由于对词识别结果进行校验过程,故能减少把一个词误识别为完全不同的词的情况。
(2)当只提取出构成关键词的一部分字时,对其前面和后面的字作为关键字的提取条件被放宽,并再次提取字,从而以高精确性提取关键词,尽管在该关键词中一部分字被是严重变形了的。
(3)当提取出一关键词的字中的为首字和末尾字并提取出构成该关键词的字中起过预定比例数的字时,该部分字符串被认为是关键词,从而以高精确性提取关键词,尽管该关键词的字彼此接触。
(4)当在构成关键词的字中提取出两个或更多个分开的字时,而且当由提取的字封闭的区域中有多于预定比率的字时,该部分字符串被作为该关键词的部分字符串提取出来。从而以高精确性提取关键词,尽管末尾字与周围字之一接触。
(5)对提取出的关键词或部分关键词进行综合识别,并校验其作为一个词的概率,从而以高精确性提取关键词,尽管该字的识别精度低。
(6)在字特征和词特征方面对分割为一个字的区域进行比较,并提取构成关键词一部分或该关键词的字符串,从而以高精确性提取关键词,尽管在这个只含有少量字的关键词中那些字彼此接触。
(7)通过参考字典增强了词识别中的识别精确性,在该字典中送入了易误认为是关键词的词作为类似词,从而以高精确性提取关键词。
(8)当提取一个关键词的代码串时,在要识别的整个字符串中发生次数多的字、在一个字符串单元中发生次数多的字、和/或一组紧密关联的字被作为关键词提取出来,从而从要识别的字符串(代码)中自动提取出关键词。
(9)预先送入不易误认的字,并在从一类字符串中提取一个关键词(它是字符串节点)的代码串时,把该字提取出来作为关键字,从而更正确地提取关键词。
(10)当综合识别出由关键字/词定界的词区域时,进行一个词识别过程,对该区域分离出一个字,并识别该字,从而当词识别结果中包含的一个字作为前n个较高次序被包含而且在该字符识别结果中发生的次数等于或大于一个阈值时,能确定该词识别结果,从而能减少明然的误识别。
(11)当根据由组合字特征产生的词特征综合识别出一个词区域时,由匹配模板计算出词图像中每个字的分割位置,并把在每个分割位置处得到的词图像线密度或周边分布与所识别的词的每个字具有的线密度或周边分布进行比较,当线密度之和、周边分布之和或对比(collation)比率之差大于阈值时该词识别结果被拒绝,从而减少词识别中的误识别。
(12)当根据由组合字特性产生的词特征综合识别出一个词区域时,把所识别的词中的字数与由词图像估计的字数作比较,当字数之差大于一阈值时,该词识别结果被拒绝,从而减少词识别中的误识别。

Claims (19)

1.一种字符串识别装置,包含:
关键字代码提取单元,自动地从要识别并表示为字代码的一类字符串中提取一个关键词的代码串,该关键词是一个字符串的节点;
关键词提取单元,将字符串图像分割为各单个字图像,识别所述各单个字图像,并且提取对应于所述关键词的代码串的字符串作为关键词的字;
部分区域提取单元,从所述字符串图像提取落入所提取出的关键词的字之间的部分区域;以及
识别单元,整体识别这样提取的部分区域中的字符串。
2.根据权利要求1的装置,还包含:
校验单元,校验由所述识别单元整体识别的识别结果。
3.根据权利要求1的装置,其中在进行从一字符串图像中提取关键词的字的过程中,当通过对字的距离值与用于确定提取精度的第一阈值进行比较来评价所述字,并且作为所述比较的结果仅部分地提取出构成关键词的字时,通过比较被部分提取的字的前、后字的距离值与大于第一阈值的第二阈值来评价所述部分提取的字的前、后字,以便重新提取关键词的字,所述距离值是关于字的特征来计算的距离值。
4.根据权利要求1的装置,其中
在进行从一个字符串图像中提取关键词的字的过程中,当从该字符串图像的部分字符串中提取出该关键词的字中的首字和末尾字并提取出构成该关键词的字中超过预定比例数的字时,所述关键词提取单元认为该部分字符串是一个关键词。
5.根据权利要求1的装置,其中
在进行从一个字符串图像中提取关键词的字的过程中,当提取出构成关键词的字中的两个或更多个分开的字时,而且当对应于所述分开的字的字符串图像的部分字符串的两端与该关键词中对应于所提取的字的部分的首字和尾字相符,并且所述部分字符串中的多于预定比率的字与该关键词中对应于所提取的字的部分中的字相符时,所述关键词提取单元提取该部分字符串作为该关键词的部分字符串。
6.根据权利要求1的装置,其中
在进行从一个字符串图像中提取关键词的字的过程中,所述关键词提取单元对所提取的关键词的字或部分关键词的字进行整体识别过程,并校验作为一个词的可能性。
7.根据权利要求1的装置,其中
在进行从一个字符串图像中提取关键词的字的过程中,所述关键词提取单元在字特征和词特征方面对分割为一个字的区域进行比较,并提取构成关键词的一部分或关键词的字符串。
8.根据权利要求1的装置,其中
当使用关键词的词特征从一个字符串图像中提取一个词时,所述关键词提取单元通过参考字典增强了词识别中的识别精确性,在该字典中送入了易误认为是关键词的词作为类似词。
9.根据权利要求1的装置,其中
当从一类字符串中提取作为字符串节点的关键词的代码串时,所述关键词代码提取单元提取在要识别的整个字符串中发生次数多的字、在一个字符串单元中发生次数多的字、和/或一组紧密关联的字作为关键词。
10.根据权利要求1的装置,其中
预先送入不易误认的字,并在从一类字符串中提取一个作为字符串节点的关键词的代码串时,所述关键字代码提取单元提取所送入的字作为关键词的字。
11.根据权利要求1的装置,其中当整体识别出一个词区域时,所述识别单元进行词识别过程,对该区域分离出一个字,并识别该字,从而当词识别结果中包含的一个字作为前n个较高次序的结果被包含而且在该字符识别结果中发生的次数等于或大于一个阈值时,能确定该词识别结果,其中所述前n个较高次序的结果是基于将关于用于确定精度的字的特征的距离值和阈值进行比较而获得的。
12.根据权利要求2的装置,其中:
所述识别单元根据由组合字特征产生的词特征整体识别出一个词区域;
所述校验单元由匹配模板计算出词图像中每个字的分割位置,并把在每个分割位置处得到的词图像线密度与所识别的词的每个字具有的线密度进行比较,当线密度之和或对比比率之差大于阈值时拒绝该词识别结果。
13.根据权利要求2的装置,其中:
所述识别单元根据由组合字特征产生的词特征整体识别出一个词区域;
所述校验单元由匹配模板计算出词图像中每个字的分割位置,并把在每个分割位置处得到的词图像周边分布与所识别的词的每个字具有的周边分布进行比较,当周边分布之和或对比比率之差大于域值时拒绝该词识别结果。
14.根据权利要求2的装置,其中:
所述识别单元根据由组合字特征产生的词特征整体识别出一个词区域;
所述校验单元把所识别的词中的字数与由词图像估计的字数作比较,当字数之差大于一阈值时,拒绝该词识别结果。
15.一种字符串识别装置,包含:
关键字代码提取装置,用于自动从要识别并表示为字代码的一类字符串中提取一个关键词的代码串,该关键词是一个字符串的节点;
关键词提取装置,用于从一字符串图像中提取被所述关键字代码提取装置提取的关键词的字,或者提取该关键词的字的一部分;以及
识别装置,用于整体识别由提取出的关键词的字确定的部分区域中的字符串。
16.一种字符串识别装置,包含:
识别目标字符串组存储单元,存储要识别的一类中的字符串列表;以及
关键词确定单元,对每个字检索所述识别目标字符串组存储单元以得到每个字的发生次数,把发生次数多的字定义为关键字,把发生次数多的字符串定义为关键词。
17.一种字符串识别装置,包含:
关键字/词存储单元,存储被确定的关键字和关键词;以及
关键字/词提取单元,当从要识别的字符串中提取出由所述关键字/词存储单元存储的关键字或关键词时,如果提取出了一个关键词中字符串的一部分,则该关键字/词提取单元提取该字符串作为关键词。
18.一种字符串识别装置,包含:
识别词的词识别单元;以及
校验单元,检验所述词识别单元的识别结果是否正确。
19.根据权利要求18的装置,其中
所述校验单元根据线密度或周边分布校验识别结果。
CNB021023530A 2001-01-24 2002-01-23 字符串识别装置 Expired - Fee Related CN100474331C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP015349/2001 2001-01-24
JP2001015349A JP4136316B2 (ja) 2001-01-24 2001-01-24 文字列認識装置

Publications (2)

Publication Number Publication Date
CN1367460A CN1367460A (zh) 2002-09-04
CN100474331C true CN100474331C (zh) 2009-04-01

Family

ID=18881913

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021023530A Expired - Fee Related CN100474331C (zh) 2001-01-24 2002-01-23 字符串识别装置

Country Status (3)

Country Link
US (1) US7136526B2 (zh)
JP (1) JP4136316B2 (zh)
CN (1) CN100474331C (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR824601A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and system (npw004)
AUPR824501A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw003)
CN101276327B (zh) * 2007-03-27 2010-06-23 富士通株式会社 地址识别装置
US8245130B1 (en) * 2007-05-31 2012-08-14 Google Inc. Performing an estimation on content to be presented
US20080310721A1 (en) * 2007-06-14 2008-12-18 John Jinhwan Yang Method And Apparatus For Recognizing Characters In A Document Image
JP4898615B2 (ja) * 2007-09-20 2012-03-21 キヤノン株式会社 情報処理装置および符号化方法
CN101571921B (zh) * 2008-04-28 2012-07-25 富士通株式会社 关键字识别方法和装置
CN101430680B (zh) 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
JP5588213B2 (ja) * 2010-04-13 2014-09-10 富士通フロンテック株式会社 帳票認識プログラム、帳票認識装置、および帳票認識方法
CN102402692B (zh) * 2010-09-13 2014-06-04 中国科学院遥感应用研究所 一种特征字符串识别方法及系统
TWI478074B (zh) * 2010-12-01 2015-03-21 Inst Information Industry 文字辨識方法、裝置以及儲存其之電腦可讀取紀錄媒體
US8843493B1 (en) * 2012-09-18 2014-09-23 Narus, Inc. Document fingerprint
EP2984554A1 (en) * 2013-04-10 2016-02-17 Hewlett-Packard Indigo B.V. Data transfer system, method of transferring data, and system
JP6194781B2 (ja) * 2013-12-11 2017-09-13 富士ゼロックス株式会社 画像処理装置及びプログラム
US9984401B2 (en) * 2014-02-25 2018-05-29 Truecar, Inc. Mobile price check systems, methods and computer program products
JP6707825B2 (ja) * 2015-09-14 2020-06-10 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7234495B2 (ja) * 2018-01-25 2023-03-08 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム
CN113127637A (zh) * 2019-12-31 2021-07-16 中兴通讯股份有限公司 一种字符的还原方法及装置、存储介质、电子装置
CN113837129B (zh) * 2021-09-29 2023-10-03 平安科技(深圳)有限公司 手写签名错别字识别方法、装置、设备及存储介质
CN117312624B (zh) * 2023-11-30 2024-02-20 北京睿企信息科技有限公司 一种获取目标数据列表的数据处理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158465A (zh) * 1995-12-13 1997-09-03 株式会社日立制作所 读取字符的方法和读取邮政地址的方法
CN1225484A (zh) * 1998-01-22 1999-08-11 富士通株式会社 地址识别设备和方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6338148B1 (en) * 1993-11-10 2002-01-08 Compaq Computer Corporation Real-time test controller
JP3440793B2 (ja) 1997-12-01 2003-08-25 富士通株式会社 単語認識装置
US6269188B1 (en) * 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
JP3522106B2 (ja) 1998-05-11 2004-04-26 富士通株式会社 文字認識装置
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
US6249605B1 (en) * 1998-09-14 2001-06-19 International Business Machines Corporation Key character extraction and lexicon reduction for cursive text recognition
US6539118B1 (en) * 1998-12-31 2003-03-25 International Business Machines Corporation System and method for evaluating character sets of a message containing a plurality of character sets
JP2000353215A (ja) * 1999-06-11 2000-12-19 Nec Corp 文字認識装置および文字認識プログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1158465A (zh) * 1995-12-13 1997-09-03 株式会社日立制作所 读取字符的方法和读取邮政地址的方法
CN1225484A (zh) * 1998-01-22 1999-08-11 富士通株式会社 地址识别设备和方法

Also Published As

Publication number Publication date
JP4136316B2 (ja) 2008-08-20
US7136526B2 (en) 2006-11-14
CN1367460A (zh) 2002-09-04
JP2002216076A (ja) 2002-08-02
US20020114515A1 (en) 2002-08-22

Similar Documents

Publication Publication Date Title
CN100474331C (zh) 字符串识别装置
US11734938B2 (en) Methods for mobile image capture of vehicle identification numbers in a non-document
US6886136B1 (en) Automatic template and field definition in form processing
US8005300B2 (en) Image search system, image search method, and storage medium
US8300942B2 (en) Area extraction program, character recognition program, and character recognition device
CN101615251B (zh) 字符识别设备中用于识别字符的方法和设备
US20090067729A1 (en) Automatic document classification using lexical and physical features
US20080159589A1 (en) Method of optically recognizing postal articles using a plurality of images
CN102144236A (zh) 用于图像和视频ocr的文本定位
US20120070073A1 (en) Searching document images
CN114626024A (zh) 一种基于区块链的互联网侵权视频低耗检测方法及系统
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
Sivagopal et al. Vehicle insurance verification system using modified otsu’s binarization technique in image processing
JP3360030B2 (ja) 文字認識装置および文字認識方法および文字認識方法をプログラムの形で記録した記録媒体
JP3188154B2 (ja) 文字認識処理方法
JP3209197B2 (ja) 文字認識装置及び文字認識プログラムを記録した記録媒体
JP3207566B2 (ja) 文字認識方法
CN116703307A (zh) 一种小作坊证照资质自动审核方法
CN115439128A (zh) 一种面向第三方支付平台的欺诈识别方法及装置
CN114155586A (zh) 一种智能审讯控制系统及其控制方法
CN115797943A (zh) 一种基于多模态的视频文本内容提取方法、系统及存储介质
CN116597453A (zh) 一种形近字单字识别方法
CN114117112A (zh) 通用的文本图片查重方法、存储介质及处理设备
JPH1011541A (ja) 文字認識装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090401

Termination date: 20170123