CN1254903A - 文书识别装置和信件分检机 - Google Patents

文书识别装置和信件分检机 Download PDF

Info

Publication number
CN1254903A
CN1254903A CN99123532A CN99123532A CN1254903A CN 1254903 A CN1254903 A CN 1254903A CN 99123532 A CN99123532 A CN 99123532A CN 99123532 A CN99123532 A CN 99123532A CN 1254903 A CN1254903 A CN 1254903A
Authority
CN
China
Prior art keywords
mentioned
literal
towns
cities
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99123532A
Other languages
English (en)
Other versions
CN1124562C (zh
Inventor
绪方日佐男
藤泽浩道
古川直广
洒匂裕
寺本正人
渡边成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Omron Financial System Co Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN1254903A publication Critical patent/CN1254903A/zh
Application granted granted Critical
Publication of CN1124562C publication Critical patent/CN1124562C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Sorting Of Articles (AREA)

Abstract

本发明提供在地址名标记中存在意义的解释有不确定性的文字间的空白信息或换行信息时高精度地识别解释地址信息的装置。经文字识别处理输出各文字图形的候补文字网格。几何分离信息抽出单元抽出地址文字串中的分离信息假说,并与候补文字网格关联地输出。通过通配符网格生成处理生成用表示任意的英文数字的通配符符号表现的网格。标记网形对照单元标记图形词典与通配符网格进行对照。

Description

文书识别装置和信件分检机
本发明涉及使用文字识别技术读取并解释记载在纸面上的文字信息的文书识别装置和使用该文书识别装置的信件分检机。
以往,在使用文字识别技术读取用文字串表示的纸面上的文字信息时,是按照从左到右(从上到下)的顺序一个字一个字地读取该文字串的。并且,根据该读取结果,在比方说表示地址信息时就依次给出(日本的场合)县名、市镇村名、街道号码、门牌号码、房间号码等解释。其中,为了对街道号码、门牌号码、房间号码给出解释,使用与它们相关的标记的知识是很有效的,如日本专利公报“住所读取装置和方法”(特开平8-234505)所公开的那样。这里,简单地描述一下它的内容。作为街道号码的例子,虽然“1-2”、“1番2号”、“一番二号”是不同的标记,但是,却全部表示相同的住所。只要能判别纸面上的地址信息与哪种标记对应,就可以提高读取精度,这是很容易想象的。因此,为了使用这些标记知识,预先将表示标记图形的文字串保持在词典中,将该标记图形与一个字一个字地读取的结果进行对照,从而给出对街道号码和房间号码的解释。与上述“1-2”、“1番2号”、“一番二号”对应的标记图形为“N-N”、“N番N号”、“K番K号”。这里,“N”是表示数字的通配符符号,“K”是表示汉字数字的通配符符号。“-”、“番”、“号”是将英文数字串分开的分离符号。
作为应用这样的文书识别装置的领域之一,有采用信件分检机进行邮件分拣的业务。在该业务中,除了地址中的镇域名外,为了确定街道号码、门牌号码、房间号码等住所,必须全部读取所需要的文字信息,重新排列为邮件的投递人进行投递的顺序。以往,该业务全部是由人手进行的,随着使用信件分检机的机械化,可以压缩人工费和解决人手不足的问题。
另一方面,由于分检机不能读取的邮件还得由人手进行分检,所以,这部分工作将增加人工费用。因此,提高信件分检机的地址信息的读取率,对降低投递成本是非常重要的。特别是10万件邮件的1%就是1000件,提高读取精度所带来的降低成本的效果是非常高的。因此,街道号码、门牌号码、房间号码的高识别率在信件分检机的领域具有非常重要的意义。
但是,在信件的地址名中,存在下列影响高精度的识别率的标记上的问题。
(1)文字图形间的空白
在信件地址中,如图1(1)所示的那样,为了表现街道号码与房间号码的分界,使文字图形间的间隔比周围的文字分得开,存在在该处存在空白的标记。在打字时,文字多数是按等间距书写的,所以,该空白信息的检测很容易。但是,如(2)所示的那样用手写时,文字图形的间距及大小的变化很大,所以,在文字图形间是否存在空白的信息就不一定明确。因此,在检测到存在空白时,判断数字之间是否分离并读取正确的地址信息是非常困难的。
(2)换行
在信件地址名中,如图1(3)所示的那样,为了表现街道号码与房间号码的分界,有时也使用换行标记。另一方面,如(4)的例子所示的那样,在无意分界的地方同样也存在被强制地换行的情形。这样的例子,在直接邮寄的信件中是常见的标记,在1行的文字数超过一定值时,就强制地换行来打印住所。因此,在地址标记中存在换行的信息时,根据换行来判断数字之间是否分离并读取正确的地址信息是非常困难的。
因此,本发明的目的旨在高精度地读取街道号码、门牌号码、房间号码,解决以下2个问题:
(1)在识别装置根据文字图形间的空白信息的解释和使用该信息的地址的高精度识别文字图形间的间距及文字大小检测到在该处存在空白的信息时,必须判断该信息是否可以解释为就是用于分离街道号码、门牌号码、房间号码的分离信息。
本发明的目的在于,在解释中存在不确定性时,就建立是分离信息和不是分离信息两方面的假说,并在以后的处理中进行验证,从而实现高精度的识别方式。
(2)换行信息的解释和使用该信息对地址的高精度识别
识别装置根据文字图形间的相对位置关系检测到在该处存在行信息时,必须判断该信息是否可以解释为就是用于分离街道号码、门牌号码、房间号码的分离信息。本发明的目的在于,在解释中存在不确定性时,就建立是分离信息和不是分离信息两方面的假说,并在以后的处理阶段进行验证,从而实现高精度的识别的方式。
为了解决上述问题,本发明提供了一种将记录在纸张上的地址信息变换为数字图像数据并使用该数字图像数据根据关于地址信息的知识数据库进行地址信息的识别的文书识别装置,
其特征在于:具有输入上述数字图像数据并从输入的图像中分割出文字行信息进而分割出文字信息进行识别并对分割出的各文字图形输出识别候补文字群的文字识别单元;通过将从文字识别单元输出的识别候补文字群与存储城镇域名信息的街道域名词典进行对照来识别城镇域名同时检测在分割出的文字行中估计是书写了街道号码、门牌号码、房间号码的区域的开头或末尾的城镇域名识别单元;从上述街道号码估计区域的开头或末尾根据未处理的各文字图形间的相对的几何关系生成用于将文字串之间分离的分离信息假说的几何分离信息假说生成单元;从上述街道号码估计区域的开头或末尾将与未处理的各文字图形对应的候补文字群中的英文数字变换为用表示任意的英文数字的通配符符号置换后的候补文字群的通配符变换单元;输入通配符变换单元的输出和上述几何分离信息假说生成由上述通配符符号表现的街道号码、门牌号码、房间号码的标记图形时生成将几何分离信息假说作为表示图形中的分离信息使用的标记图形假说和不作为分离信息使用的标记图形假说的标记图形羁生成单元;将从上述标记图形假说生成单元输出的标记图形假说与从文字识别单元输出的候补文字群进行对照并将标记图形中的通配符符号复原为原来的候补文字从而输出街道号码、门牌号码、房间号码的文字串候补的文字串候补生成单元;和将从上述城镇域名识别单元输出的识别结果与从上述文字串复原单元输出的街道号码、门牌号码、房间号码组合生成表示住所的文字串和表示与其对应的住所的住所代码以及判断该住所代码在地址号码词典中是否存在并输出存在的候补的地址号码对照单元。
另外,本发明的特征还在于:标记图形假说生成单元具有使用自动装置将把用上述通配符符号表现的街道号码、门牌号码、房间号码等各种标记图形作为单词文字串保持的标记图形单词词典与通配符变换单元的输出结果和标记图形单词词典存储的单词进行对照并输出多个标记图形单词假说的标记图形单词对照单元和在文字串中存在上述几何分离信息假说的位置将从上述标记单词对照单元输出的标记图形单词假说之间连接生成街道号码、门牌号码、房间号码标记图形假说时分别生成对连接的单词假说间赋予分离信息的属性的标记图形假说和不赋予分离信息的属性的标记图形假说的标记图形单词综合单元。
另外,本发明的特征在于:在识别记录在邮件上的地址信息并根据识别结果按不同地址进行分检的信件分检机中,作为用于识别上述地址信息的装置具有上述结构的文书识别装置。
图1是表示街道号码、门牌号码、房间号码标记的示例图。
图2是表示文书识别装置的基本功能结构图。
图3是表示地址名文字信息的示例图。
图4是表示文字行分割结果的示例图。
图5是表示文字分割假说网络的示意图。
图6是表示城镇域名识别数据流的示意图。
图7是表示与所选择的路径对应的文字候补网格图。
图8是表示城镇域名知识的示例图。
图9是表示使用有限自动装置的单词对照的示意图。
图10是表示单词候补网格的形式的例子的示意图。
图11是表示街道号码、门牌号码、房间号码识别处理流程图。
图12是表示几何分离信息抽出结果的示例图。
图13是表示带几何分离信息属性的网格的示例图。
图14是表示通配符变换规则的示意图。
图15是表示通配符网格的示意图。
图16是表示街道号码、门牌号码、房间号码的标记图形知识的示例图。
图17是表示使用有限自动装置的表示图形的单词对照的示意图。
图18是表示单词候补网格的形式的示例图。
图19是表示标记图形候补生成结果的示意图。
图20是表示英文数字复原候补的示意图。
图21是表示地址号码词典的结构例的示意图。
图22表示了一个分类符号串候补树的例子。
图23是表示包括文书识别装置的信件分检机的结构图。
首先,简单地说明一下本发明的原理。
作为地址名标记的例子,先考虑图1(3)的情况。图中,在“1-2”与“1-201”之间存在换行信息。但是,仅根据图像信息不能判断该信息是表示将文字串分开的分离信息还是表示非分离信息。因此,使用换行这样的文字图形间的几何信息、文字图形的识别结果以及街道号码的标记的知识生成假定换行不表示分离信息的街道号码假说“1-21-201”和假定换行表示分离信息的假说“1-2-1-201”这样2个假说。然后,将存储实际存在的住所代码的地址号码词典与上面各个街道号码假说进行对照,并认为登录在词典上的一方是正确的解释,并输出该假说。
这样,在换行及空白这样的解释中有存在不确定的信息时,本发明的基本出发点就是建立多个假说并在后级的处理中验证哪个假说是正确的多重假说检验方式。
下面,详细说明本实施例。
图2是文书识别装置的基本功能结构。读取对象的纸张301上有(比方说)图3所示的记载。该纸张经过图像读入处理201,通过扫描器输入图像,然后变换成数字图像数据。文书识别装置对该图像数据进行文字区域的分割202、文字分割假说的生成203、城镇域名识别204和街道号码识别205的处理,并输出识别结果208。
文书识别的第1个处理,就是文字区域的分割202。从纸张301的图像中检测记载区域302,然后进而对各文字行如图4所示的那样分割出图像区域401、402。
其次的处理就是文字分割假说的生成处理203。这里,所述的“假说”和“候补”意义相同。
然后,处理逐行分割出的文字行图像401、402,如图5所示的那样,生成文字分割假说,作为网络进行表示(图中只表示出了图4的文字行的一部分)。
通过称为“标记”的处理,抽出构成图像的像素的值为1(表示黑)的连续的区域。将抽出的连结的黑像素的块(图形)称为黑连结成分。将相邻的黑连结成分(1个或多个)视为构成1个文字的最小部分(基本成分),由它们构成图5所示的网络的基干部。其次,汇总有可能构成1个文字和不能构成1个文字的几个相邻的基本成分,附加在图案的旁边。通过对对全体进行该处理,便可作成图5所示的文字分割假说网络。
文字的分割很难,在文字识别之前不能唯一地决定。因此,如图5所示,在假说的形式中保留有可能存在的分割方式,并以这些多个假说为对象进行以下各个识别处理。
这里,图5只表示出了图4的文字行401的前半部分。即,与“1-2”以后的文字串对应的部分虽然也有数据存在,但是,在图5中为了简化图示而没有示出。
该网络将分割出的文字(或该部分)的图像和它们的组合(也有1个的情况)图像附属于弧线(图中线上面的梯形),将各个不同的分割方式表现在1个图案(网络)中。图5是用图示表示它们,但是,也可以作为计算机内部的数据来表现。图中,弧线3表示与“都”的左偏旁部分对应的部分图像,弧线4表示与“都”的右偏旁部分对应的部分图像。另外,弧线16是将这2部分图像组合的图像,表示另一种分割假说。
城镇域名识别204是在输入上述分割假说网络206后使用事前知识进行文字识别和知识处理,并输出在城镇域名候补和分割假说网络中到何处为止进行了识别对照的指示信息207。
下面,使用图6说明城镇域名识别处理的详细情况。文字识别601是在参照文字识别词典604对附属于上述文字分割假说网络的弧线部分图像进行处理后根据该信息决定弧线的组合,并输出图7所示的文字候补网格。
作为文字识别方式,也可以使用先有技术。作为识别印刷汉字和手写汉字的方式,已知的有抽出文字笔划的方向性的“方向性图形整合法”。这里,虽然省略了详细说明,但是,用图形整合法可以将未知图形的图像(或特征矢量)与另外有限存储在文字识别词典中的参照图形(图像或特征矢量)的类似性作为称为类似度的0到1的数值(实数)进行计量。
图7所示的识别结果,是按类似度大的顺序将文字分类及其类似度进行排列的结果,称为文字候补网格。图中,第2行的标识符就是在图6中选择的弧线号码,是将文字识别结果的类似度高的图形的组合罗列的结果。
这里的意图在于:在图5中,如弧线1、2那样,如果部分图像或它们的组合图像是实际可以存在的图形,它就与登录在图形词典中的参照图形类似,所以,可以推测其类似度大。相反,如弧线4、7那样,如果部分图像是实际不存在的图形,则在图形词典中也不存在与其对应的参照图形,所以,其类似度就小。这样,通过使用文字识别作成类似度大的部分图像的组合,来执行文字识别和分割。
实际上,有时最佳路径也是错误的,所以,不仅要选择类似度的总和最大的路径而且还要选择第2位、第3位等多个路径,向后级的处理传送。
因此,只作成该数量的文字候补网格。以后的处理,就以这些文字候补网格为对象。在图5和图7中,只表示出了一部分,但是,这些处理是对图4所示的全部文字行进行的。
其次,城镇域名对照处理部分602是对根据所有的文字行作成的多个文字候补网格进行的。该处理部分参照以表格数据的形式保持图8所示的城镇域名知识的城镇域名对照词典进行处理。该词典具有出现在都道府县名、市镇村名、街区名中的单词知识(图8(a)、(b)、(c))。此外,在该单词知识中也包括哪个单词可以与哪个单词接续的信息。
例如,在图8(b)中,如果市标识符为C0517的“千代田区”的主标识符为K31,就进行存储,看一下图8(a)的都道府县名表,它存储的是“东京都”。即,表示在单词“东京都”之后可以接续单词“千代田区”。同样,对于“千代田区”,根据图8(c)的街区名表“千代田区”,存储的是接续“神田骏河台”等。
城镇域名对照处理,是使用这些单词知识和它们的组合知识从文字候补网格中识别单词串(句)例如“东京都·千代田区·神田骏河台”的处理,这有已知的方式。下面,为了帮助理解本发明,说明该方式。
为此,先根据文字候补网格构成图9所示的有限自动装置,通过将单词(文字串)输入该自动装置,可以判断该单词是否为可以根据该文字候补集合再构成的单词即是否可以将该单词作为识别结果。该处理就是单词对照的处理。
具体而言,作成比网格的行数多1的状态(图9中的圆圈符号),用从某一状态向下一状态的迁移链(箭头)表示1个文字候补。例如,作成第1文字的第1位候补“东”为从状态0至状态1的第1迁移链、第1文字的第2位候补“果”为从状态0至状态1的迁移链、第2文字的第1位候补“宗”为从状态1至状态2的迁移链…这样的自动装置。利用众所周知的方法,在软件方面使用状态迁移表可以很容易地作成有限自动装置。
某一单词是否可以根据文字候补集合再构成,可以根据构成该单词的文字串的各文字通过该有限自动装置的哪个迁移链进行判断。
例如,为了看出单词“东京都”是否位于最初的3个文字,先看文字“东”从状态0通过哪个链迁移到状态1。使用状态迁移表的自动装置,就可以高速地实现该检索。图9的情况,可知第1个链就是“东”。其次,同样检索文字“京”从状态1通过哪个链向状态2迁移。这时,可知是第2个链。
同样,可知文字“都”是通过第2个链从状态2向状态3迁移的。这时,单词“东京都”的存在的确信度可以用各个文字候补的类似度总和表示。
或者,也有使用通过哪个链来计算恶化度的方法。这时,通过第1链时恶化度为0、通过第2链时恶化度为1、通过第3链时恶化度为2。本例的情况,“东京都”的恶化度为0+1+1=2。
在该检索处理中,如果对某一文字不存在对应的迁移链时,就假定通过图9的“其他”的迁移链。与“其他”的链对应的类似度或恶化度,事前补充作为一个参量的常数。
该处理在逻辑上对具有可能性的所有的单词都从所有的状态开始进行。其结果可以用图10的单词候补网格的形式进行表示。例如,图10表示从状态0(第1文字)中将单词“东京都”和“XXX”作为候补、从状态1(第2文字)中将单词“京都”作为候补、从状态2(第3文字)中将将单词“YYY”作为候补。最后的候补是从状态6(第7文字)开始的单词“SSS”和“神田骏河台”。这样,单词候补网格就是以在哪个位置可以有什么样的单词这样的确信度或恶化度进行表示的。到作成该单词候补网格为止,是城镇域名对照处理部分602的前半部分的处理。
城镇域名对照处理部分602的后半部分的处理,是从单词候补中选出只满足组合规则的单词。这就是从单词候补网格的末端(右端)的单词候补开始,参照图8所示的城镇域名知识中的单词接续信息顺序检验可以与左边接续的单词在单词候补网格中是否存在。
结果如图10所示,“神田骏河台”可以接续“千代田区”,但是,由图可知,可以与单词“SSS”接续的单词候补不存在。
最后,可以将“东京都·千代田区·神田骏河台”作为句子的候补。
根据情况不同,有时存在多个句子成为候补,这时,可以使用综合确信度或综合恶化度选择顺位好的一个句子。
或者,也可以将多个候补并列地传送给后级的处理,在后级进行最终的判断。
在候补采用判断部分603中,进行从城镇域名对照处理部602输出的城镇域名候补是否为妥当的对照结果的判断。例如,参考城镇域名候补的确信度的值进行阈值处理。
按照上述方式进行城镇域名识别处理204,结果,就是识别出了例如文字串“东京都千代田区神田骏河台”,并将该文字串和表示该文字串的街区标识符“T2121”作为数据207向后级的处理部分传送。
但是,该数据中不仅包含所谓的识别结果“东京都千代田区神田骏河台”,而且也包含表示与文字候补网格中的哪一部分对应的数据。这样,后级的处理例如街道号码识别处理205就可以知道自己下一个要处理的部分是何处。
更具体而言,就是包含表示间从图4的文字行、第1行的“东京都...”开始到“...骏河台”的识别对照处理的指示信息。这样,就可以知道下一个应处理的部分是“1-2”以后的文字串。这时,指针信息可以用图7的文字候补网格中的标识符号码的形式表示。
下面,使用图11说明街道号码识别205。在街道号码识别中,进行尚未进行处理的处理对象“1-2”以后的文字串的识别对照处理。
在文字识别处理1101中输入文字分割假说203和城镇域名识别结果207后,使用文字识别词典1108利用和城镇域名识别204中的文字识别601相同的方式进行文字识别,并输出候补文字网格1111。
几何信息抽出处理1102是在输入文字分割假说203和候补文字网格1111后,输出与文字间的空白或换行这样的几何分离信息假说属性相关联的带几何分离信息属性的网格1112。该处理可以使用已知的方式实现。下面,使用图12说明本处理的详细情况。
为了抽出空白信息,首先根据文字分割假说附带的几何信息求出与行方向对应的各个分割的文字图像的重心,并测定相邻的重心间的距离。1201表示其结果。1202的部分具有相邻的重心间的距离的2倍的距离。并且,如果该重心间的距离相对于行的高度大于某一一定的阈值,就认为该处存在空白,使之与分割出的图像相关联,赋予该属性。1204表示空白信息的候补存在于该文字图形之后。对于换行属性,也判定文字图形间的相对的位置关系,并赋予同样的属性。1203是它们的处理结果,几何分离信息的假说以符号串的形式来表现。最后,几何分离信息假说如图13那样对于文字候补网格与对应的位置关联地作为带几何分离信息属性的网格1112而输出。
通配符网格生成处理1103接收带几何分离信息属性的网格1112,参照图14所示的通配符变换规则,将网格中的候补文字变换为通配符符号。例如,如图13中的记载文字号码13那样,对于记载文字“1”,考虑候补“1”、“7”上升到网格中的情况。这些候补文字分别变换为符号“N”、“N”,这时,由于成为相同的符号,所以,合并为1个。对于记载文字号码14的记载文字“-”,候补“丿(之)”、“-”上升到网格中,所以,分别变换为符号“丿”、“-”。以后,反复进行同样的处理。变换后的通配符网格示于图15。在该网格中,几何分离信息属性与通配符文字网格相关联地存储。并且,为了后级的处理而输出该通配符网格1113。
标记图形对照处理1104接收通配符网格1113,查找标记图形词典1109进行对照处理。该词典在内部以表形式的数据保持图16所示的街道号码、门牌号码、房间号码以及它们的标记知识。具体而言,对于街道号码标记、门牌号码标记、房间号码标记(例如,“1-2”的部分的标记),是存储可以具有什么样的形式的表。图中,符号“N”表示阿拉伯数字、符号“NN”表示2位的阿拉伯数字、符号“NNN”表示3位的阿拉伯数字、“A”表示字母、“の”、“丿”、“-”表示分离符号(定界符)。图中虽然未示出,但是,在街区标记图形表中,预先也登录了与上述“1番2号”或竖写时的“一の二”等标记方法对应的图形。
首先,根据通配符网格1113作成图17所示的有限自动装置,向该处输入与P001、P002、P003、P004对应的标记图形(“N-N”等),在各状态间迁移,累计与通过的路径对应的成本。
该处理使用和城镇域名对照处理602相同的方法执行。通过控制自动装置中对照的开始位置,在任意的位置进行单词对照。但是,在该自动装置中,街道号码位于开头,所以,只从状态1开始进行单词对照。单词对照的结果作为图18所示的单词网格而输出。
进行单词对照后,将街道号码、门牌号码、房间号码以及它们的标记图形单词连接,生成将街道号码、门牌号码、房间号码并列的一连串的标记。这里,根据文字候补网格附带的空白属性或换行属性控制各单词的连接。即,连接对象标记图形单词的连接部分为数字时,在连接的部分存在空白或换行的属性时,就将分离信息的属性附加到该处进行连接。相反,在与空白或换行不一致时,如果连接,将生成重复的标记图形假说,所以,不进行连接。
例如,在图18中,用箭头所示的单词间连接的情况下,在连接位置存在空白或换行的属性,所以,是判定为可以连接的标记图形候补。假定不存在空白属性1804时,若着眼于单词1801、1802、1803,将1801与1803连接时,将重复生成与1802相同的假说。这样,将数字之间连接生成标记假说时,如果在该处不存在分离信息的属性,就生成与其他的标记图形单词相同的假说。因此,不进行标记图形单词的连接。
按照上述规则连接的结果,在被视为重复的标记时,就删除重复的标记。例如,将“N”与“N-”连接的标记和“N-N”相同,所以,将其中之一删除。
此外,多数情况是街道号码、门牌号码、房间号码的标记的末尾与空白或行末一致。因此,末尾与空白或换行不一致的候补,就视为不适当的假说的可能性高,从而增加恶化度。
这些标记图形对照的结果是输出图19所示的标记图形的候补1114。图中,“=”表示几何分离信息插入到该处。
在文字串候补生成处理1105中,输入上升到高位的标记图形候补1114和带几何分离信息属性的网格1112后,将标记图形中的英文数字部分与对应的网格的候补文字进行比较,输出复原为原来的文字的文字串候补1115。图20(1)~(4)分别是与图19的(1)~(4)对应的候补。
在地址号码对照1106中,参照地址号码词典1110对照在文字串候补生成处理1105中得到的候补实际上是否存在。图21表示地址号码词典的结构例。如图所示,将实际存在的住所按层次保存在词典中,判断在登录到该词典中的住所中是否存在在英文数字复原处理1105中得到的候补。如果判定存在,就向后级输出候补,如果判定不存在,就排除该候补。在图20的候补中,选择(1)作为地址号码对照候补1116而输出。
在候补采用判断1107中,和城镇域名识别204的候补采用判断603一样进行在前级的对照中得到的候补是否妥当的判断。
在本实施例中,作为几何分离信息,采用的是文字间的空白或换行,但是,并不限于此,也可以使用颜色信息、有无下划线、字体形状、文字的大小或行宽的不同等其他信息。
此外,使用几何分离信息的标记图形假说的生成方式不限于本实施例。在本实施例中,是通过在标记图形单词连接的控制中使用分离信息来实现插入几何分离信息的标记图形假说和不插入的标记图形假说的各假说生成的。例如,如以下所述,也可以通过其他方式来实现。
首先,作为第1方式,和本实施例一样,输入几何分离信息属性网格,与标记图形单词进行对照。然后,在标记图形单词连接的库中不使用分离信息而将单词之间连接。结果,对于上升到高位的标记图形候补,执行以下的处理。着眼于存在确定的几何分离信息的位置,假定在该处存在分离信息,追加生成将分离信息插入到标记图形单词中的标记图形假说。例如,在图19(2)的例中,根据“N-NN-NNN”的标记图形单词生成“N-N=N-NNN”及“N-N=N-NN=N”。这里,“=”表示根据几何信息生成的分离信息。
作为第2方式,将空白插入到标记图形单词中的单词和不插入的单词都登录到词典中后,着眼于存在确定的几何分离信息的位置时,分别生成将例如空白的文字代码插入到候补文字网格的相应的位置的网格和不插入的网格,通过与上述各候补文字网格进行对照便可生成。即,第2方式是生成以文字代码的形式表示几何分离信息的多个候补文字网格并对它们分别进行标记图形对照的方式。
作为第3方式,标记图形的信息不是作为存储在词典中的文字串的信息来表现的,例如,对于在日本专利公报特开平6-124366中所示的方式,也可以生成使用同样的空白或换行的信息的标记图形假说。在本发明中,考虑位置关系的制约,将文字分割的候补以树结构的形式来表现,此外,将与其节点对应的识别结果根据字种附加上标号,检验该标号的排列,生成标记图形的假说。这里,在检验排列的规则中预先追加将空白及换行作为分离信息使用的排列的规则。此外,在将空白或换行这样的几何分离信息的属性赋予各节点、检验排列并生成标记图形假说时,分别生成插入空白或换行的分离信息的标记图形假说和不插入的标记图形假说。
作为第4方式,如特开平8-180142中所示的那样,对于将满足预先决定的标记规则的分类符号串候补用树结构表现标记图形的方式,也可以生成使用同样的空白或换行的信息的标记图形假说。在本发明中,对与文字分割的候补对应的识别结果根据字种进行分类。然后,根据文字分割候补的位置关系的制约和分类符号间的连接关系的制约,用树结构的形式表现分类符号串候补。根据该树结构再次展开作为各分类符号的发生源的文字,并作成文字串候补后,应用街道号码范围规则来选择文字串候补。这里,在预先将在文字分割的候补间可以存在的空白或换行这样的几何分离信息的属性赋予文字分割的候补、检验分类的排列并生成树结构时,分别生成插入空白或换行的分离信息的标记假说和不插入的标记假说。图22表示所生成的候补树的例子。用虚线包围的部分是由本发明追加的。图中,“N”是表示数字的分类符号、“Sh”是表示“-”的分类符号、“Si”是表示几何分离信息的分类符号。图23是表示搭载文书识别装置的信件分检机的概略结构图。
2000是信件分检机的总体体系(机构部分),由将多张纸页顺序供给扫描器的供给机构2001、扫描器2002、将扫描过的纸页向分检机构传送的传送机构2003、从中央控制计算机2006接收决定纸页的传送前往地的分检信息进行纸页的分检的分检机构2004构成。此外,机构部2000具有多个控制用的计算机,这些计算机在中央控制计算机2006的指示下控制机构部分2000全体。
2007是文书识别装置,由输入从扫描器2002读取了记载在纸张上的地址信息的图像数据并向中央处理装置(CPU)输出的输入接口2008、输入图像数据并进行地址信息识别的中央处理装置(CPU)2009及2010、存储用于进行地址信息处理的程序及供识别对照使用的事前知识的存储器2013、存储装载在存储器2013中的程序及事前知识的2次存储装置2014和将由中央处理装置(CPU)识别的识别结果数据向中央控制计算机2006输出的通信接口2016构成。
在图22中,中央处理装置(CPU)示出了2台,但是,在处理能力不足时,可以实际装配2台以上。或者,将文书识别装置2007并列地设置所需要的台数。这些文书识别装置分担处理高速读取的图像数据2015。
中央控制计算机2006从通信接口2011解释在通信数据2016中包含的识别结果数据,按照预先编程的逻辑作成分检信息并向分检机构输出。
在本实施例中,说明了用扫描器作为图像信息读取写在纸面上的文字信息从而进行文字识别的方法,但是,最近,也有很多情况是电子的图像信息已存储到了计算机系统中,不言而喻,本发明也可以适用于识别和解释这样的图像信息。
如上所述,按照本发明,在着眼于存在用于将文字串分开的几何分离信息假说的确定的位置时,生成假定该处存在分离信息的标记和假定不存在的标记的各标记图形假说。
然后,根据这些标记图形假说和文字识别结果生成住所代码,通过将实际的住所与存储的地址名词典进行对照,来确定正确地解释的标记从而识别住所。通过这些处理,便可正确地识别使用空白或换行等几何分离信息标记的地址信息。
另外,如图1的(3)、(4)所示,开始可以由本发明正确地解释换行的信息并读取地址的标记,大多都是大量地作成邮购广告单那样的相同种类的邮件时的地址。在邮电局,这种相同种类的邮件多数是集中地放到信件分检机上进行分检的。这里,信件分检机具有读取邮件上的地址信息并按各投递地址分检邮件的功能。因此,在上述那样的信件分检机的运用方法中,提高读取邮件的地址进行分检的分检效率的效果特别大。

Claims (10)

1.一种文书识别装置,包括:将记载在纸页上的地址信息作为数字图像数据进行读取的图像读取单元;
从上述数字图像数据中分割并输出包含上述地址信息的文字行的文字行分割单元;
具有文字识别词典的输入该分割出的上述文字行并分割出文字信息、参照上述文字识别词典进行文字识别并输出多个文字识别候补的文字识别单元;
具有城镇域名对照词典的输入上述多个文字识别候补、参照上述城镇域名对照词典对上述多个文字识别候补对照城镇域名并输出该城镇域名候补的城镇域名对照单元;
输入上述城镇域名候补并判断是否将上述城镇域名候补作为城镇域名识别结果采用,在判定采用时将上述城镇域名候补作为城镇域名识别结果而输出的第1候补采用判断单元;
输入上述多个文字识别候补和上述城镇域名识别结果、具有保持包含用符号或数字表示的街道号码、门牌号码、房间号码中的某一个的地址号码的标记图形的标记图形词典和保持与包含城镇域名、街道号码、门牌号码、房间号码中的某一个的地址号码的对应关系的地址号码词典的将上述多个文字识别候补中包含的一个或多个文字与上述标记图形词典进行对照并输出该标记图形的对照结果、参照该标记图形的对照结果和上述城镇域名识别结果以及上述地址号码词典将上述多个文字识别候补与包含街道号码、门牌号码、房间号码中的某一个的地址号码进行对照并输出上述地址号码的地址号码对照对应;
输入上述地址号码候补、判断是否将上述地址号码候补作为地址号码识别结果采用、在判定采用时就将上述地址号码候补作为地址号码识别结果而输出的第2候补采用判断单元,
其特征在于:上述地址号码对照单元包含检测在上述多个文字识别候补中包含的一个或多个文字的几何配置关系、生成将上述多个文字识别候补中包含的文字串之间分离的第1分离信息假说和不将上述多个文字识别候补中包含的文字串之间分离的第2分离信息假说的几何分离信息假说生成单元,参照上述第1上述分离信息假说和上述第2上述分离信息假说,对照地址号码。
2.如权利要求1所述的文书识别装置,其特征在于:上述地址号码对照单元对照地址号码的上述多个文字识别候补是从上述文字识别单元输出的上述多个文字识别候补中排除了由上述城镇域名对照单元对照过的上述多个文字识别候补的多个文字识别候补。
3.如权利要求1所述的文书识别装置,其特征在于:上述几何配置关系是在上述多个文字识别候补中包含的2个文字间的空白或在上述多个文字识别候补中包含的换行。
4.如权利要求1所述的文书识别装置,其特征在于:上述几何分离信息假说生成单元通过求在上述多个文字识别候补中包含的文字的文字图像的重心、测定相邻的文字间的距离来检测上述2个文字间的空白。
5.如权利要求1所述的文书识别装置,其特征在于:上述地址号码对照单元将在上述多个文字识别候补中包含的1个或多个文字置换为符号或数字,与上述标记图形词典进行对照。
6.一种信件分捡机,包括:将记载在纸页上的地址信息作为数字图像数据进行读取的图像读取单元;
从上述数字图像数据中分割并输出包含上述地址信息的文字行的文字行分割单元;
具有文字识别词典的输入该分割出的上述文字行并分割出文字信息、参照上述文字识别词典进行文字识别并输出多个文字识别候补的文字识别单元;
具有城镇域名对照词典的输入上述多个文字识别候补、参照上述城镇域名对照词典对上述多个文字识别候补对照城镇域名并输出该城镇域名候补的城镇域名对照单元;
输入上述城镇域名候补并判断是否将上述城镇域名候补作为城镇域名识别结果采用,在判定采用时将上述城镇域名候补作为城镇域名识别结果而输出的第1候补采用判断单元;
输入上述多个文字识别候补和上述城镇域名识别结果、具有保持包含用符号或数字表示的街道号码、门牌号码、房间号码中的某一个的地址号码的标记图形的标记图形词典和保持与包含城镇域名、街道号码、门牌号码、房间号码中的某一个的地址号码的对应关系的地址号码词典的将上述多个文字识别候补中包含的一个或多个文字与上述标记图形词典进行对照并输出该标记图形的对照结果、参照该标记图形的对照结果和上述城镇域名识别结果以及上述地址号码词典将上述多个文字识别候补与包含街道号码、门牌号码、房间号码中的某一个的地址号码进行对照并输出上述地址号码的地址号码对照对应;
输入上述地址号码候补、判断是否将上述地址号码候补作为地址号码识别结果采用、在判定采用时就将上述地址号码候补作为地址号码识别结果而输出的第2候补采用判断单元,
其特征在于:上述地址号码对照单元包含检测在上述多个文字识别候补中包含的一个或多个文字的几何配置关系、生成将上述多个文字识别候补中包含的文字串之间分离的第1分离信息假说和不将上述多个文字识别候补中包含的文字串之间分离的第2分离信息假说的几何分离信息假说生成单元,参照上述第1上述分离信息假说和上述第2上述分离信息假说,对照地址号码。
7.如权利要求6所述的信件分检机,其特征在于:上述地址号码对照单元对照地址号码的上述多个文字识别候补是从上述文字识别单元输出的上述多个文字识别候补中排除了由上述城镇域名对照单元对照过的上述多个文字识别候补的多个文字识别候补。
8.如权利要求6所述的信件分检机,其特征在于:上述几何配置关系是在上述多个文字识别候补中包含的2个文字间的空白或在上述多个文字识别候补中包含的换行。
9.如权利要求6所述的信件分检机,其特征在于:上述几何分离信息假说生成单元通过求在上述多个文字识别候补中包含的文字的文字图像的重心、测定相邻的文字间的距离来检测上述2个文字间的空白。
10.如权利要求6所述的信件分检机,其特征在于:上述地址号码对照单元将在上述多个文字识别候补中包含的1个或多个文字置换为符号或数字,与上述标记图形词典进行对照。
CN99123532A 1998-11-10 1999-11-10 文书识别装置和信件分检机 Expired - Fee Related CN1124562C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP10318693A JP2000148906A (ja) 1998-11-10 1998-11-10 文書認識装置および郵便区分機
JP318693/1998 1998-11-10

Publications (2)

Publication Number Publication Date
CN1254903A true CN1254903A (zh) 2000-05-31
CN1124562C CN1124562C (zh) 2003-10-15

Family

ID=18101967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99123532A Expired - Fee Related CN1124562C (zh) 1998-11-10 1999-11-10 文书识别装置和信件分检机

Country Status (3)

Country Link
JP (1) JP2000148906A (zh)
KR (1) KR100571080B1 (zh)
CN (1) CN1124562C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1445711B (zh) * 2002-03-20 2010-12-08 富士施乐株式会社 图像读取器和复印机
CN102402682A (zh) * 2010-09-16 2012-04-04 株式会社东芝 文字识别装置、区分装置、区分控制装置,以及文字识别方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100442014B1 (ko) * 2001-12-07 2004-07-30 주식회사 한틀시스템 자동개표 시스템에서의 투표용지 인식 방법
JP6334209B2 (ja) * 2014-03-06 2018-05-30 株式会社東芝 認識装置、認識方法およびプログラム
CN107533651B (zh) 2015-05-11 2021-05-04 株式会社东芝 识别装置、识别方法及计算机可读取的记录介质
CN109784308B (zh) * 2019-02-01 2020-09-29 腾讯科技(深圳)有限公司 一种地址纠错方法、装置及存储介质
JP7566520B2 (ja) 2020-07-17 2024-10-15 キヤノン株式会社 画像処理装置、方法、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1445711B (zh) * 2002-03-20 2010-12-08 富士施乐株式会社 图像读取器和复印机
CN102402682A (zh) * 2010-09-16 2012-04-04 株式会社东芝 文字识别装置、区分装置、区分控制装置,以及文字识别方法

Also Published As

Publication number Publication date
KR20000035325A (ko) 2000-06-26
KR100571080B1 (ko) 2006-04-14
CN1124562C (zh) 2003-10-15
JP2000148906A (ja) 2000-05-30

Similar Documents

Publication Publication Date Title
CN1207664C (zh) 对语音识别结果中的错误进行校正的方法和语音识别系统
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
Pechwitz et al. IFN/ENIT-database of handwritten Arabic words
CN112287920B (zh) 基于知识蒸馏的缅甸语ocr方法
CN103154974B (zh) 字符识别装置、字符识别方法以及字符识别系统
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN101354727B (zh) 一种建立数字文档目录与正文之间链接的方法及装置
US20170124435A1 (en) Method for Text Recognition and Computer Program Product
CN102236800A (zh) 经历ocr过程的文本的单词识别
CN114818721B (zh) 一种结合序列标注的事件联合抽取模型与方法
CN1916941A (zh) 一种字符识别的后处理方法
CN1472695A (zh) 字符识别装置及方法
CN105045888A (zh) 一种用于hmm的分词训练语料标注方法
Sinha et al. Visual text recognition through contextual processing
CN1124562C (zh) 文书识别装置和信件分检机
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
JP5078321B2 (ja) 文書の画像に対し光学文字認識を実行する方法
Nawaz et al. Optical character recognition system for urdu (naskh font) using pattern matching technique
CN118134422A (zh) 文件内容审核的方法、装置、设备、存储介质及产品
CN102467664A (zh) 辅助光学字符识别的方法和装置
JP2020102207A (ja) 受取人アドレスを認識する装置及び方法
Tomaschek Evaluation of off-the-shelf OCR technologies
Kumar et al. Survey paper of script identification of Telugu language using OCR
CN1955979A (zh) 文章标题及关联信息的自动抽取装置、抽取方法及抽取程序
Mariner Optical Character Recognition (OCR)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: HITACHI OMRON FINANCIAL SYSTEMS LTD.

Free format text: FORMER OWNER: HITACHI CO., LTD.

Effective date: 20060512

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20060512

Address after: Tokyo, Japan

Patentee after: Hitachi Omron Financial System Co., Ltd.

Address before: Tokyo, Japan

Patentee before: Hitachi Ltd.

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20031015

Termination date: 20131110