CN102096828A - 文字辨识装置及文字辨识方法 - Google Patents

文字辨识装置及文字辨识方法 Download PDF

Info

Publication number
CN102096828A
CN102096828A CN 201010286687 CN201010286687A CN102096828A CN 102096828 A CN102096828 A CN 102096828A CN 201010286687 CN201010286687 CN 201010286687 CN 201010286687 A CN201010286687 A CN 201010286687A CN 102096828 A CN102096828 A CN 102096828A
Authority
CN
China
Prior art keywords
word
literal
characters
rare
radicals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010286687
Other languages
English (en)
Other versions
CN102096828B (zh
Inventor
大石勇
村松千织
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN102096828A publication Critical patent/CN102096828A/zh
Application granted granted Critical
Publication of CN102096828B publication Critical patent/CN102096828B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供文字辨识装置及文字辨识方法,其能够高精度地得到辨识的候选文字。OCR识别部(111)根据稀用字的点图形和文字的点图形,提取辨识处理对象稀用字的第1候选文字。显示用候选文字列表生成部(113)根据存储在字形要素字典(14)中的文字的部首的字形要素信息、和存储在稀用字字形要素存储文件(3)中的稀用字的部首的字形要素信息,提取辨识处理对象稀用字的第2候选文字,并根据存储在字形要素字典(14)中的文字的部分的字形要素信息、和存储在稀用字字形要素存储文件(3)中的稀用字的部分的字形要素信息,提取辨识处理对象稀用字的第3候选文字。

Description

文字辨识装置及文字辨识方法
技术领域
本发明涉及文字辨识装置及文字辨识方法。
背景技术
例如,在伴随市镇村合并等的计算机系统统合中,需要在新的计算机系统中统一处理多个计算机系统分别处理的文字。此时,在新的计算机系统的设计阶段,需要进行将不同的多个文字统合成1个文字的辨识作业。所谓辨识作业,是指操作员通过目视确认多个文字,判断是否可以将该多个文字当作同一文字的作业。
例如,需要进行针对JIS中没有定义的文字(换言之,稀用字)的辨识作业。此外,需要进行针对稀用字和JIS中定义的文字的辨识作业。这种稀用字大多用于例如人名或地名。
这种辨识作业例如通过打印作为辨识作业对象的文字的一览,一边目视确认所有文字,一边搜索辨识的文字来进行。此时,使用通过OCR识别该打印的文字的铅字OCR技术,提高辨识的效率。
此外,关于光学文字读取装置,提出了以下的技术:将文字图像分割为n×n的块以后,提取各块的特征矢量,将该特征块与字典进行对照,检索候选文字组,判定候选文字能否分割为部首,在判定为候选文字能够分割为部首的情况下,将所述文字图像分割为多个部首部分,并对与各部首对应的图像部分进行处理,由此检索各部首部分的候选文字,并检索部首中具有各部首的候选文字的汉字组。
此外,关于文字识别系统,提出了以下的技术:在对识别结果中的舍弃文字或误认文字进行校正时,通过对舍弃文字或误认文字的图形特征量、和识别字典内的与该舍弃文字或误认文字的正确文字对应的特征量进行合成生成新的特征量,将该新的特征量与识别字典内的特征量替换,或追加到识别字典中。
专利文献1:日本特开平4-205078号公报
专利文献2:日本特开平2-186484号公报
在目视确认所打印的文字一览的情况下,在作为辨识作业对象的稀用字存在几千个文字时,作业非常繁杂。同样地,在待统合的计算机系统有2个以上时,作业极其繁杂且困难。
此外,即使在使用铅字OCR技术的情况下,由于通过文字整体的识别来提取候选文字,因此候选文字的精度较低,只是能得到在某种程度上进行参考的资料。换言之,在不能得到适当的文字候选的情况下,结果还必须同时由操作者对文字一览进行目视确认,并且,这种情况的比例比较大。
发明内容
本发明的目的在于提供一种能够高精度地得到辨识的候选文字的文字辨识装置。
所公开的文字辨识装置具有文字识别存储部、字形要素存储部、稀用字存储部、稀用字字形要素存储部、候选文字列表生成部以及OCR识别部。文字识别存储部对文字的点图形进行存储。字形要素存储部针对存储在文字识别存储部中的文字,存储表示部首配置的配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码的部分字形要素信息,部分文字代码表示除部首以外的部分。稀用字存储部对稀用字的点图形进行存储,所述稀用字是不包含在由表示预定文字的文字代码表示的标准化文字中的文字。稀用字字形要素存储部针对存储在稀用字存储部中的稀用字,存储表示部首配置的配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码的部分字形要素信息,部分文字代码表示除部首以外的部分。OCR识别部针对从稀用字存储部选择的处理对象稀用字,根据存储在稀用字存储部中的稀用字的点图形和存储在文字识别存储部中的文字的点图形,从存储在文字识别存储部的文字中,提取辨识处理对象稀用字的第1候选文字。候选文字列表生成部针对处理对象稀用字,根据存储在字形要素存储部中的文字的部首字形要素信息、和存储在稀用字字形要素存储部中的稀用字的部首字形要素信息,从存储在字形要素存储部的文字中,提取辨识处理对象稀用字的第2候选文字,针对处理对象稀用字,根据存储在字形要素存储部中的文字的部分字形要素信息、和存储在稀用字字形要素存储部中的稀用字的部分字形要素信息,从存储在字形要素存储部的文字中,提取辨识处理对象稀用字的第3候选文字。
根据所公开的文字辨识装置,即使在存在多个作为辨识作业的对象的稀用字的情况下,也能够以较高精度得到辨识的候选文字,能够减轻进行辨识的操作员的负担,并缩短构建统合了多个计算机系统的新计算机系统的时间。
附图说明
图1是示出文字辨识装置的结构的一例的图。
图2是示出稀用字文件及稀用字字形要素存储文件的一例的图。
图3是示出文字识别字典及字形要素字典的一例的图。
图4是示出文字辨识的一例的图。
图5是示出文字辨识的一例的图。
图6是示出文字辨识的一例的图。
图7是示出文字辨识的一例的图。
图8是示出文字辨识的一例的图。
图9是示出文字辨识的一例的图。
图10是示出文字辨识的处理流程的图。
图11是示出1个文字辨识的处理流程的图。
图12是示出1个文字辨识的处理流程的图。
图13是示出候选文字列表生成的处理流程的图。
图14是示出候选文字学习的处理流程的图。
符号说明
1:文字辨识装置;2:稀用字文件;3:稀用字字形要素存储文件;4:文字代码转换定义列表;5:显示部;6:键盘;11:辨识处理部;12:文字识别字典;13:OCR候选文字列表;14:字形要素字典;15:部首候选文字列表;16:部分候选文字列表;17:显示用候选文字列表;18:辨识源/辨识目标文字对应关系列表;111:OCR识别部;112:候选文字列表生成部;113:显示用候选文字列表生成部;114:文字信息学习部。
具体实施方式
图1是示出文字辨识装置1的结构的一例的图。
文字辨识装置1具有稀用字文件2、稀用字字形要素存储文件3、文字代码转换定义列表4、显示部5以及键盘6。此外,文字辨识装置1具有辨识处理部11、文字识别字典12、OCR候选文字列表13、字形要素字典14、部首候选文字列表15、部分候选文字列表16、显示用候选文字列表17以及辨识源/辨识目标文字对应关系列表18。辨识处理部11具有OCR识别部111、候选文字列表生成部112、显示用候选文字列表生成部113以及文字信息学习部114。
在文字辨识装置1中,稀用字文件2和稀用字字形要素存储文件3是对处理对象稀用字(汉字)的数据进行存储的稀用字数据集。处理对象文字也可以是稀用字以外的文字。预先准备稀用字文件2和稀用字字形要素存储文件3。如后所述,稀用字文件2和稀用字字形要素存储文件3存储相互对应的数据。
稀用字文件2针对每个稀用字存储稀用字的点图形。稀用字是不包含在通过文字代码表示的标准化文字中的文字,所述文字代码表示预定的文字。文字代码是为了用计算机处理文字或记号,针对每个文字或记号唯一地分配的固有数字。文字代码为例如JIS代码。稀用字是不能通过例如JIS代码表示的文字。点图形是针对文字显示区域中的每个像素赋予白(=0)或黑(=1)的值,由此通过黑色图形表现该文字的数据。
稀用字字形要素存储文件3针对存储在稀用字文件2中的稀用字,存储配置模式、部首的字形要素信息、和部首以外部分的字形要素信息。配置模式表示部首的配置。部首的字形要素信息包含表示部首的部首文字代码。部首以外部分的字形要素信息包含表示部首以外的部分的部分文字代码。
此处,文字的字形要素是指部首、以及部首以外的构成部分(以下简称作“部分”)。字形是指文字整体的形状、部首的形状以及部首以外的构成部分的形状。部首将作为构成文字(换言之,汉字)的字形要素之一的偏旁确定为分类汉字时的基准的产物。偏旁是构成汉字字体的要素之一,是能够分解为左右上下内外的部分的要素。部首是作为汉字排列基准的、汉字的各部的共同部分,具有例如“偏”(字的左边)、“旁”(字的右边)和字头等。部分是部首以外的文字的构成要素,是从文字去除该文字的部首后的部分。部首通过部首文字代码唯一地确定。部分通过部分文字代码唯一地确定。
此外,配置模式表示部首的配置位置。根据配置位置,例如如下对偏旁(换言之,部首)分配了表示配置模式的识别编号。
配置模式“1”表示“偏”。“偏”位于左右分的汉字的左侧。配置模式“2”表示“旁”。“旁”位于左右分的汉字的右侧。配置模式“3”表示“字头”。“字头”位于上下分的汉字的上侧。配置模式“4”表示“字底”。“字底”位于上下分的汉字的下侧。配置模式“5”表示“广字头或病字头”。“广字头或病字头”位于从上垂下到左下侧的形状上。配置模式“6”表示“建之旁或走之底或走字旁”。“建之旁或走之底或走字旁”位于从左到下侧结合了“偏”和“字底”那样的形状上。配置模式“7”表示“字框”。“字框”位于包围外侧的位置上。
在文字辨识装置1中,文字识别字典12和字形要素字典14是对辨识处理对象稀用字的文字(汉字)数据进行存储的文字数据集。预先准备文字识别字典12和字形要素字典14。如后所述,字形要素字典14通过学习处理而得以更新。如后所述,文字识别字典12和字形要素字典14存储相互对应的数据。
文字识别字典12存储文字的点图形。存储在文字识别字典12中的文字为标准化文字,换言之,为用JIS代码表示的文字。此外,存储在文字识别字典12中文字也可以包含标准化文字及稀用字。
字形要素字典14针对存储在文字识别字典12中的文字,存储配置模式、部首字形要素信息和部分字形要素信息。配置模式如前所述,表示部首的配置。部首字形要素信息如前所述,包含表示部首的部首文字代码。部分字形要素信息如前所述,包含表示部首以外部分的部分文字代码。
OCR识别部111从稀用字文件2读出稀用字,设为处理对象。OCR识别部111针对从稀用字文件2选择的处理对象稀用字,提取辨识处理对象稀用字的第1候选文字。第1候选文字是根据存储在稀用字文件2中的稀用字的点图形和存储在文字识别字典12中的文字的点图形,从存储在文字识别字典12中的文字中提取的。
具体而言,OCR识别部111针对处理对象稀用字的点图形、和存储在文字识别字典12中文字的点图形,进行OCR处理。由此,OCR识别部111从存储在文字识别字典12中的文字的点图形中,提取作为文字整体与处理对象稀用字的点图形相似的点图形。
OCR识别部111将所提取的点图形的文字设为辨识处理对象稀用字的第1候选文字。提取1个或多个第1候选文字。OCR识别部111将第1候选文字存储在OCR候选文字列表13中。由此,针对处理对象稀用字,生成OCR候选文字列表13。OCR识别部111将OCR候选文字列表13的生成通知给显示用候选文字列表生成部113。
OCR识别部111将处理对象稀用字通知给候选文字列表生成部112。据此,候选文字列表生成部112参照稀用字字形要素存储文件3,针对处理对象稀用字,读出存储在稀用字字形要素存储文件3中的、关于该稀用字的部首字形要素信息和部分字形要素信息。
候选文字列表生成部112针对处理对象稀用字,提取辨识处理对象稀用字的第2候选文字。第2候选文字是根据存储在字形要素字典14中的关于文字的部首字形要素信息和存储在稀用字字形要素存储文件3中的关于稀用字的部首字形要素信息,从存储在字形要素字典14中的文字中提取的。
具体而言,候选文字列表生成部112将关于处理对象稀用字的部首字形要素信息中的部首文字代码、与存储在字形要素字典14中的关于文字的部首字形要素信息中的部首文字代码进行比较。由此,候选文字列表生成部112从存储在字形要素字典14中的文字中,提取具有与处理对象稀用字的部首文字代码相同的部首文字代码的文字。
候选文字列表生成部112将所提取的文字设为辨识处理对象稀用字的第2候选文字。提取1个或多个第2候选文字。候选文字列表生成部112将第2候选文字存储在部首候选文字列表15中。由此,针对处理对象稀用字,生成部首候选文字列表15。候选文字列表生成部112将部首候选文字列表15的生成通知给显示用候选文字列表生成部113。
此外,候选文字列表生成部112针对处理对象稀用字,提取辨识处理对象稀用字的第3候选文字。第3候选文字是根据存储在字形要素字典14中的关于文字的部分字形要素信息以及存储在稀用字字形要素存储文件3中的关于稀用字的部分字形要素信息,从存储在字形要素字典14中的文字中提取的。
具体而言,候选文字列表生成部112将关于处理对象稀用字的部分字形要素信息中的部分文字代码、与存储在字形要素字典14中的关于文字的部分字形要素信息中的部分文字代码进行比较。由此,候选文字列表生成部112从存储在字形要素字典14中的文字中,提取具有与处理对象稀用字的部分文字代码相同的部分文字代码的文字。
候选文字列表生成部112将所提取的文字设为辨识处理对象稀用字的第3候选文字。提取1个或多个第3候选文字。候选文字列表生成部112将第3候选文字存储在部分候选文字列表16中。由此,针对处理对象稀用字,生成部分候选文字列表16。候选文字列表生成部112将部分候选文字列表16的生成通知给显示用候选文字列表生成部113。
显示用候选文字列表生成部113在被通知了OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16的生成后,参照这些列表。根据该参照结果,显示用候选文字列表生成部113在第1候选文字至第3候选文字中分别存在共同文字时,将其通知给文字信息学习部114。
在第1候选文字至第3候选文字的各个中不存在共同文字时,显示用候选文字列表生成部113根据OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16,生成显示用候选文字列表17。显示用候选文字列表17是通过合并OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16而生成的。显示用候选文字列表生成部113将显示用候选文字列表17显示在显示部5上。显示部5显示第1候选文字至第3候选文字。也可以替换显示部5,只要是能够输出显示用候选文字列表17的输出部即可。
此处,显示用候选文字列表生成部113在第1候选文字至第3候选文字中,根据候选文字被重复包含的程度,确定优先顺序。例如,将在OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16的任意两个中重复存在的文字设为比其它文字高的优先顺序。其它文字是指仅在OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16的任意一个中存在的文字。优先顺序的不同通过例如显示颜色的不同、显示文字的粗细等来表示。
由此,观察到显示在显示部5上的显示用候选文字列表17的操作员能够容易地选择辨识处理对象文字的文字。例如,根据操作员的输入,作为输入装置的键盘6向文字信息学习部114输入指定显示在显示部5上的候选文字的选择输入。
此外,即使在第1候选文字至第3候选文字的各个中存在共同文字时,也可以生成显示用候选文字列表17并进行显示。此时,将共同文字的优先顺序设为最高。
文字信息学习部114从第1候选文字至第3候选文字中,确定辨识处理对象稀用字的文字即辨识目标文字。因此,处理对象稀用字是要认同为其它文字,换言之,是被辨识为其它文字的辨识源文字。第1候选文字至第3候选文字是具有被辨识为其它文字的可能性的文字,换言之,是可能成为辨识目标文字的文字。
具体而言,文字信息学习部114如前所述,根据来自显示用候选文字列表生成部113的通知,在第1候选文字至第3候选文字的各个中存在共同文字时,将该共同文字确定为辨识目标文字。此外,文字信息学习部114根据从键盘6输入的指定显示在显示部5上的候选文字的选择输入,确定辨识目标文字。这是在第1候选文字至第3候选文字的各个中不存在共同文字的情况。
文字信息学习部114将处理对象稀用字作为辨识源文字,生成将辨识源文字和辨识目标文字对应起来的文字对应关系列表18,并将其作为文字代码转换定义列表4而输出。文字对应关系列表18或文字代码转换定义列表4是例如将作为辨识源文字的稀用字或稀用字代码、和作为辨识目标文字的文字或JIS代码对应起来的列表。
此外,文字信息学习部114将处理对象稀用字设为辨识源文字,将关于辨识源文字的部首字形要素信息或部分字形要素信息作为关于辨识目标文字的学习要素信息,追加到关于辨识目标文字的部首字形要素信息或部分字形要素信息中。其结果是,候选文字列表生成部112根据所追加的部首学习要素信息及部分学习要素信息,提取第2候选文字和第3候选文字。由此,在针对暂且辨识为辨识目标文字的辨识源文字再次进行辨识处理时,暂且辨识为辨识目标文字的辨识源文字实际上被识别为候选文字。
图2是示出稀用字文件2及稀用字字形要素存储文件3的一例的图。
稀用字文件2包含文字数据21、和与文字数据21对应的点图形22。针对包含在稀用字文件2中的各个稀用字来设置文字数据21和点图形22。
文字数据21包含辨识源文字、和辨识源文字的存储目标地址。辨识源文字是被辨识为某个文字的文字,为例如稀用字。辨识源文字例如也可以通过唯一地确定作为辨识源文字的稀用字的识别信息(稀用字代码)来表示。存储目标地址是存储了辨识源文字的点图形22的地址。点图形22是用点的集合表示辨识源文字的图形。
此外,文字“鉱”本来是用JIS代码进行了标准化的文字而不是稀用字,但是在本说明书中,为了说明,将其用作标准化文字的一例及稀用字的一例。换言之,“鉱”被用作标准化文字“鉱”或稀用字“鉱”。
稀用字字形要素存储文件3包含多个稀用字字形要素信息31A~31D。针对包含在稀用字文件2中的各个稀用字来设置稀用字字形要素信息31A~31D。稀用字字形要素信息31A~31D包含:辨识源文字、表示辨识源文字的部首配置的配置模式、包含表示辨识源文字的部首的部首文字代码的部首字形要素信息、以及包含表示辨识源文字的部分的部分文字代码的部分字形要素信息。辨识源文字例如也可以通过唯一地确定作为辨识源文字的稀用字的识别信息(稀用字代码)来表示。稀用字文件2和稀用字字形要素存储文件3通过包含相同的辨识源文字而对应起来。此外,在图2中,将配置模式表示为“配置”,将部首文字代码表示为“部首”,将部分文字代码表示为“部分”。
例如,稀用字字形要素信息31A针对辨识源文字“鉱”,存储配置模式“1”、部首文字代码“金”和部分文字代码“広”。此外,在本说明书中,例如将部首“金”的部首文字代码表示为“金”,将部分“広”的部分文字代码表示为“広”。
图3是示出文字识别字典12及字形要素字典14的一例的图。
文字识别字典12包含文字数据121、和与文字数据121对应的点图形122。针对包含在文字识别字典12中的各个文字来设置文字数据121和点图形122。包含在文字识别字典12中的文字是希望将其它文字辨识为该文字的文字(辨识目标文字),由此,如后所述,成为辨识目标文字的候选文字。包含在文字识别字典12中的文字是通过表示预定文字的文字代码(例如,JIS代码)表示的文字,换言之,是标准化的文字。
此外,包含在文字识别字典12中的文字也可以为不是标准化文字的文字,换言之,也可以为稀用字。因此,包含在文字识别字典12中的文字也可以至少包含标准化文字,除此以外还包含稀用字。
文字数据121包含辨识目标文字、和辨识目标文字的存储目标地址。辨识目标文字是将其它文字辨识为该文字的文字,是例如标准化的文字。辨识目标文字例如也可以通过唯一地确定辨识目标文字的识别信息(文字代码)来表示。存储目标地址是存储了辨识目标文字的点图形122的地址。点图形122是通过点的集合表示辨识目标文字的图形。
字形要素字典14包含多个字形要素结构体141。针对包含在文字识别字典12中的各个文字来设置字形要素结构体141。字形要素结构体141包含:辨识目标文字、学习文字数、表示辨识目标文字的部首配置的配置模式、部首字形要素信息(其包含表示辨识目标文字的部首的部首文字代码)、以及部分字形要素信息(其包含表示辨识目标文字的部分的部分文字代码)。辨识目标文字例如也可以通过唯一地确定辨识目标文字的识别信息(文字代码)来表示。文字识别字典12和字形要素字典14通过包含相同的辨识目标文字而对应起来。此外,在图3中,将配置模式表示为“配置”,将部首文字代码表示为“部首”,将部分文字代码表示为“部分”。
实际上,如图3所示,字形要素结构体141包含部首的行、和部分的行。部首的行包含关于部首的学习文字数、配置模式和多个部首文字代码。关于部首的学习文字数是包含在部首的行中的部首文字代码的数量。部分的行包含关于部分的学习文字数、配置模式和多个部分文字代码。关于部分的学习文字数是包含在部分的行中的部分文字代码的数量。在同一字形要素结构体141中,配置模式全部设为相同的值。
关于多个部首文字代码及配置模式,在部首的行中,在作为学习要素数组的数组[0]、数组[1]…中从最前面开始依次存储。没有存储多个部首文字代码及配置模式的数组被设为“NULL(空)”。关于部分文字代码及配置模式,在部分的行中,在作为学习要素数组的数组[0]、数组[1]…中从最前面开始依次存储。没有存储部分文字代码及配置模式的数组被设为“NULL(空)”。
例如,字形要素结构体141针对辨识目标文字“鉱”的部首“金”,存储学习文字数“1”,在数组[0]中存储配置模式“1”及部首文字代码“金”。此外,字形要素结构体141针对辨识目标文字“鉱”的部分“広”,存储学习文字数“1”,在数组[0]中存储配置模式“1”及部分文字代码“広”。
此处,存储在数组[0]中的配置模式及部首文字代码表示存储在字形要素结构体141中的辨识目标文字的本来的(默认的)部首的配置模式及部首文字代码。此外,存储在数组[0]中的配置模式及部分文字代码表示存储在字形要素结构体141中的辨识目标文字的本来的(默认的)部分的配置模式及部分文字代码。换言之,存储在数组[0]中的配置模式、部首文字代码及部分文字代码是存储在字形要素结构体141中的辨识目标文字的默认值,被预先存储。
与此相对,存储在数组[1]以后的配置模式及部首文字代码是通过基于文字辨识处理的学习处理而获得的。此外,存储在数组[1]以后的配置模式及部分文字代码是通过基于文字辨识处理的学习处理而获得的。换言之,存储在数组[1]以后的配置模式、部首文字代码及部分文字代码是表示辨识为存储在字形要素结构体141中的辨识目标文字的辨识源文字的值,是作为学习处理的结果而补充存储的。
图4是示出文字辨识的一例的图。
在图4所示的例子中,如前所述,文字“鉱”为通过JIS代码标准化的文字,且还为稀用字。此时,将作为第1辨识文字的稀用字“鉱”设为通过JIS代码标准化的文字“鉱”的异字体。所谓异字体,是指拼写相同,但是字体(点图形)不同的字。此外,第2~第4辨识源文字不是通过JIS代码标准化的文字,而是稀用字。使用图4的例子,针对以下的图5~图9进行说明。
例如,第1辨识源文字(稀用字“鉱”)是由部首“金”和部分“広”构成的稀用字。此时,由于“点图形”相似,因此将文字“鉱”提取为第1候选文字,包含到OCR候选文字列表13中。关于“点图形”的相似将后面叙述。此外,由于“部首”一致,因此将文字“鉱”提取为第2候选文字,包含到部首候选文字列表15中。此外,由于“部分”一致,因此将文字“鉱”提取为第3候选文字,包含到部分候选文字列表16中。其结果,文字“鉱”共同包含在第1候选文字~第3候选文字中,因此将第1辨识源文字辨识为辨识目标文字“鉱”。
第2辨识源文字是由部首“金”和部分“廣”构成的稀用字。此时,“点图形”不相似,因此不将文字“鉱”提取为第1候选文字,不包含到OCR候选文字列表13中。此外,“部首”一致,因此将文字“鉱”提取为第2候选文字,包含到部首候选文字列表15中。另一方面,“部分”不一致,因此不将文字“鉱”提取为第3候选文字,不包含到部分候选文字列表16中。其结果,文字“鉱”包含在第2候选文字中,因此依照对文字信息学习部114的选择输入,将第2辨识源文字辨识为辨识目标文字“鉱”。
第3辨识源文字是由部首“石”和部分“広”构成的稀用字。此时,“点图形”不相似,因此不将文字“鉱”提取为第1候选文字,不包含到OCR候选文字列表13中。此外,“部首”不一致,因此不将文字“鉱”提取为第2候选文字,不包含到部首候选文字列表15中。但是,“部分”一致,因此将文字“鉱”提取为第3候选文字,包含到部分候选文字列表16中。其结果,文字“鉱”包含在第3候选文字中,因此依照对文字信息学习部114的选择输入,将第3辨识源文字辨识为辨识目标文字“鉱”。
第4辨识源文字是由部首“石”和部分“廣”构成的稀用字。此时,“点图形”不相似,因此不将文字“鉱”提取为第1候选文字,不包含到OCR候选文字列表13中。此外,“部首”不一致,因此不将文字“鉱”提取为第2候选文字,不包含到部首候选文字列表15中。此外,“部分”不一致,因此不将文字“鉱”提取为第3候选文字,不包含到部分候选文字列表16中。
由此,关于第4辨识源文字,在最初(换言之,在学习处理前)不能将文字“鉱”提取为第1至第3候选文字,因此与辨识目标文字“鉱”不一致。但是,参照图8如后所述,学习处理的结果是文字“鉱”包含在第2至第3候选文字中,因此依照对文字信息学习部114的选择输入,将第4辨识源文字辨识为辨识目标文字“鉱”。
图5~图9是示出文字辨识的一例的图。尤其是,图5~图8示出按照前述的第1辨识源文字~第4辨识源文字的顺序对它们进行辨识的情况。图9示出在辨识了前述的第1辨识源文字~第4辨识源文字后,再次辨识第4辨识源文字的情况。
图5示出针对由部首“金”和部分“広”构成的第1辨识源文字(稀用字“鉱”)的辨识处理。
如前所述,文字“鉱”是通过JIS代码进行了标准化的文字,如图3所示,被存储在字形要素字典14的字形要素结构体141中。另一方面,作为文字“鉱”的异字体的稀用字“鉱”没有被辨识为任意一个文字。由此,如图2所示,作为文字“鉱”的异字体的稀用字“鉱”作为辨识处理对象的稀用字,被存储到稀用字字形要素存储文件3的稀用字字形要素信息31A中。
稀用字文件2针对作为稀用字的第1辨识源文字,存储点图形。稀用字字形要素存储文件3针对存储在稀用字文件2中的第1辨识源文字,存储稀用字字形要素信息31A。此时,稀用字字形要素信息31A针对第1辨识源文字,存储配置模式“1”、包含表示部首“金”的部首文字代码的部首字形要素信息、以及包含表示部分“広”的部分文字代码的部分字形要素信息。
例如,OCR识别部111针对由部首“金”和部分“広”构成的第1辨识源文字,使用文字识别字典12,进行文字识别处理。由此,OCR识别部111提取“点图形”相似的多个文字,作为第1辨识源文字的第1候选文字,并存储到OCR候选文字列表13中。在根据“点图形”的相似提取的文字中,包含文字“鉱”。
此外,“点图形”的相似包括以下情况:在作为比较对象的两个点图形中,例如预定比例以上的像素值一致。所述比例可以根据经验确定,设为比较小的值。此外,在“点图形”的相似中,也可以包括部首一致或相似的情况、部分一致或相似的情况等。由此,如图5~图9所示,能够提取比较多的文字作为相似文字。通过JIS代码标准化的文字“鉱”和稀用字“鉱”的点图形相互不同,但是为异字体,因此相似。
此外,候选文字列表生成部112针对第1辨识源文字,尤其针对第1辨识源文字的部首“金”,使用字形要素字典14,进行字形要素的比较。由此,候选文字列表生成部112提取“部首”一致的多个文字,作为针对第1辨识源文字的第2候选文字而存储到部首候选文字列表15中。在根据“部首”的一致提取的文字中,包含文字“鉱”。
此时,在字形要素字典14中的、作为辨识目标文字“鉱”的学习数据的字形要素结构体141中,在数组[0]中存储了第1辨识源文字的部首“金”。因此,此时候选文字列表生成部112在部首候选文字列表15中,不将文字“鉱”存储到“学习候选”栏中,而存储到“候选文字”栏中。
此外,候选文字列表生成部112针对第1辨识源文字,尤其针对第1辨识源文字的部分“広”,使用字形要素字典14,进行字形要素的比较。由此,候选文字列表生成部112提取“部分”一致的多个文字,作为针对第1辨识源文字的第3候选文字,存储到部分候选文字列表16中。在根据“部分”一致提取的文字中,包含文字“鉱”(以上为处理#51)。
此时,在字形要素字典14中的作为辨识目标文字“鉱”的学习数据的字形要素结构体141中,在数组[0]中存储了第1辨识源文字的部分“広”。由此,此时候选文字列表生成部112在部首候选文字列表15中,不将文字“鉱”存储到“学习候选”栏中,而存储到“候选文字”栏中。
此后,由于在OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16的各个中共同包含同一文字“鉱”,因此显示用候选文字列表生成部113确定文字“鉱”作为辨识目标文字(处理#52)。由此,确定了作为稀用字的辨识源文字“鉱”的辨识目标文字“鉱”。
由此,文字信息学习部114在OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16的各个中包含同一文字“鉱”的情况下,不进行将第1辨识源文字作为所确定的辨识目标文字“鉱”的学习数据进行学习的学习处理(处理#53)。换言之,不生成显示用候选文字列表17,不显示在显示部5上。
具体而言,此时,辨识源文字“鉱”的部首文字代码“金”与存储在字形要素结构体141的数组[0]中的部首文字代码“金”相同。由此,不将辨识源文字“鉱”的部首文字代码“金”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。此外,辨识源文字“鉱”的部分文字代码“広”与存储在字形要素结构体141的数组[0]中的部分文字代码“広”相同。由此,不将辨识源文字“鉱”的部分文字代码“広”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。
如上所述,此时,不将第1辨识源文字作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。由此,辨识目标文字“鉱”的字形要素结构体141与第1辨识源文字的辨识前同样地,在数组[0]中存储配置模式、辨识目标文字“鉱”的部首“金”以及辨识目标文字“鉱”的部分“広”。
图6示出针对由部首“金”和部分“廣”构成的第2辨识源文字的辨识处理。如前所述,第2辨识源文字不是通过JIS代码进行了标准化的文字,而是稀用字。
此时,稀用字字形要素信息31B针对第2辨识源文字,存储配置模式“1”、包含表示部首“金”的部首文字代码的部首字形要素信息、以及包含表示部分“廣”的部分文字代码的部分字形要素信息。
例如,OCR识别部111针对第2辨识源文字,使用文字识别字典12,进行文字识别处理。由此,提取“点图形”相似的多个文字,作为针对第2辨识源文字的第1候选文字,存储到OCR候选文字列表13中。此外,候选文字列表生成部112针对第2辨识源文字的部首“金”,使用字形要素字典14,进行字形要素的比较,由此提取“部首”一致的多个文字,作为针对第2辨识源文字的第2候选文字,存储到部首候选文字列表15中。此外,候选文字列表生成部112针对第2辨识源文字的部分“廣”,使用字形要素字典14,进行字形要素的比较,由此提取“部分”一致的多个文字,作为针对第2辨识源文字的第3候选文字,存储到部分候选文字列表16中(处理#61)。
此时,在字形要素字典14中的作为辨识目标文字“鉱”的学习数据的字形要素结构体141中,在数组[0]中存储了第2辨识源文字的部首“金”。由此,此时候选文字列表生成部112在部首候选文字列表15中,不将文字“鉱”存储到“学习候选”栏中,而存储到“候选文字”栏中。
此后,由于在OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16的各个中没有共同包含同一文字,因此显示用候选文字列表生成部113进行确定辨识目标文字的处理。具体而言,显示用候选文字列表生成部113根据OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16,生成显示用候选文字列表17并显示在显示部5上。
观察到显示用候选文字列表17的操作员从键盘6输入例如文字“鉱”作为选择辨识目标文字的指示。此外,也可以通过从显示用候选文字列表17中的与部首候选文字列表15对应的部分中显示的文字中进行选择,来输入文字“鉱”。在图8~图9中也同样。文字信息学习部114根据该指示,确定文字“鉱”作为辨识目标文字(处理#62)。由此,确定第2辨识源文字的辨识目标文字“鉱”。
此后,文字信息学习部114进行将第2辨识源文字作为所确定的辨识目标文字“鉱”的学习数据进行学习的学习处理(处理#63)。由此,文字信息学习部114在存储在字形要素字典14中的、所确定的辨识目标文字“鉱”的字形要素结构体141中追加学习要素的数组。
此时,第2辨识源文字的部首文字代码“金”与存储在字形要素结构体141的数组[0]中的部首文字代码“金”相同。因此,不将第2辨识源文字的部首文字代码“金”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。另一方面,第2辨识源文字的部分文字代码“廣”与存储在字形要素结构体141的数组[0]中的部分文字代码“広”不同。因此,将第2辨识源文字的部分文字代码“廣”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。
如上所述,此时,辨识目标文字“鉱”的字形要素结构体141通过第2辨识源文字的学习,在数组[1]的“部分”的存储栏中,存储配置模式“1”、和第2辨识源文字的部分“廣”。此外,在数组[1]的“部分”的存储栏中新存储了1个部分文字代码等,因此将针对“部分”的学习文字数设为“2”。此时,数组[1]的“部首”的存储栏不存在待存储的部首文字代码等,因此设为“NULL(空)”。此外,在数组[1]的“部首”的存储栏中没有存储新的部首文字代码等,因此将针对“部首”的学习文字数也保持为“1”。
该学习处理的结果是,通过将字形要素“廣”作为辨识目标文字“鉱”的字形要素进行学习,将第2辨识源文字识别为文字“鉱”的候选文字。由此,将具有字形要素“廣”的文字设为文字“鉱”的候选文字。
图7示出针对由部首“石”和部分“広”构成的第3辨识源文字的辨识处理。如前所述,第3辨识源文字不是通过JIS代码进行了标准化的文字,而是稀用字。
此时,稀用字字形要素信息31C针对第3辨识源文字,存储配置模式“1”、包含表示部首“石”的部首文字代码的部首字形要素信息、以及包含表示部分“広”的部分文字代码的部分字形要素信息。
例如,OCR识别部111针对第3辨识源文字,使用文字识别字典12,进行文字识别处理,由此提取“点图形”相似的多个文字,作为针对第3辨识源文字的第1候选文字,存储到OCR候选文字列表13中。此外,候选文字列表生成部112针对第3辨识源文字的部首“石”,使用字形要素字典14,进行字形要素的比较,由此提取“部首”一致的多个文字,作为针对第3辨识源文字的第2候选文字,存储到部首候选文字列表15中。此外,候选文字列表生成部112针对第3辨识源文字的部分“広”,使用字形要素字典14,进行字形要素的比较,由此提取“部分”一致的多个文字,作为针对第3辨识源文字的第3候选文字,存储到部分候选文字列表16中(处理#71)。
此时,在字形要素字典14中的、作为辨识目标文字“鉱”的学习数据的字形要素结构体141中,在数组[0]中存储了第3辨识源文字的部分“広”。因此,此时候选文字列表生成部112在部分候选文字列表16中,不将文字“鉱”存储到“学习候选”栏中,而存储到“候选文字”栏中。
此后,由于在OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16的各个中没有共同包含相同的文字,因此显示用候选文字列表生成部113进行确定辨识目标文字的处理。具体而言,显示用候选文字列表生成部113根据OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16,生成显示用候选文字列表17并显示在显示部5上。
观察到显示用候选文字列表17的操作员从键盘6输入例如文字“鉱”作为选择辨识目标文字的指示。文字信息学习部114根据该指示,确定文字“鉱”作为辨识目标文字(处理#72)。由此,确定针对第3辨识源文字的辨识目标文字“鉱”。
此后,文字信息学习部114进行将第3辨识源文字作为所确定的辨识目标文字“鉱”的学习数据进行学习的学习处理(处理#73)。由此,文字信息学习部114在存储在字形要素字典14中的、所确定的辨识目标文字“鉱”的字形要素结构体141中追加学习要素的数组。
此时,第3辨识源文字的部首文字代码“石”与存储在字形要素结构体141的数组[0]中的部首文字代码“金”不同。因此,将第3辨识源文字的部首文字代码“石”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。另一方面,第3辨识源文字的部分文字代码“広”与存储在字形要素结构体141的数组[0]中的部分文字代码“広”相同。因此,不将第3辨识源文字的部分文字代码“広”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。
如上所述,此时,辨识目标文字“鉱”的字形要素结构体141通过第3辨识源文字的学习,在数组[1]的“部首”的存储栏中,存储配置模式“1”、和第3辨识源文字的部首“石”。此外,在数组[1]的“部首”的存储栏中新存储了1个部首文字代码等,因此将针对“部首”的学习文字数设为“2”。此外,在数组[1]的“部分”的存储栏中没有存储新的部分文字代码等,因此将针对“部分”的学习文字数也保留为“2”。
该学习处理的结果是,通过将字形要素“石”作为辨识目标文字“鉱”的字形要素进行学习,将第3辨识源文字识别为文字“鉱”的候选文字。因此,将具有字形要素“石”的文字设为文字“鉱”的候选文字。
图8示出针对由部首“石”和部分“廣”构成的第4辨识源文字的辨识处理。如前所述,第4辨识源文字不是通过JIS代码进行了标准化的文字,而是稀用字。
此时,稀用字字形要素信息31D针对第4辨识源文字,存储配置模式“1”、包含表示部首“石”的部首文字代码的部首字形要素信息、以及包含表示部分“廣”的部分文字代码的部分字形要素信息。
例如,OCR识别部111针对第4辨识源文字,使用文字识别字典12,进行文字识别处理,由此提取“点图形”相似的多个文字,作为针对第4辨识源文字的第1候选文字,存储到OCR候选文字列表13中。此外,候选文字列表生成部112针对第4辨识源文字的部首“石”,使用字形要素字典14,进行字形要素的比较,由此提取“部首”一致的多个文字,作为针对第4辨识源文字的第2候选文字,存储到部首候选文字列表15中。此外,候选文字列表生成部112针对第4辨识源文字的部分“廣”,使用字形要素字典14,进行字形要素的比较,由此提取“部分”一致的多个文字,作为针对第4辨识源文字的第3候选文字,存储到部分候选文字列表16中(处理#81)。
此时,在字形要素字典14中的、作为辨识目标文字“鉱”的学习数据的字形要素结构体141中,在数组[1]中存储了第4辨识源文字的部首“石”。因此,此时候选文字列表生成部112在部首候选文字列表15中,不将文字“鉱”存储到“候选文字”栏中,而存储到“学习候选”栏中。
此外,在字形要素字典14中的、作为辨识目标文字“鉱”的学习数据的字形要素结构体141中,在数组[1]中存储了第4辨识源文字的部分“廣”。此时,候选文字列表生成部112在部分候选文字列表16中,不将文字“鉱”存储到“候选文字”栏中,而存储到“学习候选”栏中。
此后,由于在OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16的各个中没有共同包含相同的文字,因此显示用候选文字列表生成部113进行确定辨识目标文字的处理。具体而言,显示用候选文字列表生成部113根据OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16,生成显示用候选文字列表17并显示在显示部5上。
此时,在部首候选文字列表15和部分候选文字列表16的双方中共同包含文字“鉱”。因此,文字“鉱”是优先顺序高的候选文字,因此例如用与优先顺序低的候选文字不同的颜色来显示。
观察到显示用候选文字列表17的操作员从键盘6输入例如文字“鉱”作为选择辨识目标文字的指示。文字信息学习部114根据该指示,确定文字“鉱”作为辨识目标文字(处理#82)。由此,确定第4辨识源文字的辨识目标文字“鉱”。
此后,文字信息学习部114进行将第4辨识源文字作为所确定的辨识目标文字“鉱”的学习数据进行学习的学习处理(处理#83)。由此,文字信息学习部114在存储在字形要素字典14中的、所确定的辨识目标文字“鉱”的字形要素结构体141中追加学习要素的数组。
此时,第4辨识源文字的部首文字代码“石”与存储在字形要素结构体141的数组[1]中的部首文字代码“石”相同。因此,不将第4辨识源文字的部首文字代码“石”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。此外,第4辨识源文字的部分文字代码“廣”与存储在字形要素结构体141的数组[1]中的部分文字代码“廣”相同。因此,不将第4辨识源文字的部分文字代码“廣”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。
如上所述,此时,执行第4辨识源文字的学习处理,但是在辨识目标文字“鉱”的字形要素结构体141的任意一个存储栏中,都没有存储新的部首文字代码和部分文字代码等,因此将针对“部首”和“部分”的学习文字数也保留为“2”。
该学习处理的结果是,通过将字形要素“石”作为辨识目标文字“鉱”的字形要素进行学习,将第4辨识源文字识别为文字“鉱”的候选文字。
图9示出针对由部首“金”和部分“廣”构成的新辨识源文字的辨识处理。新辨识源文字不是通过JIS代码进行了标准化的文字,而是稀用字。将新辨识源文字设为由前述的部首“金”和部分“廣”构成的第2辨识源文字的异字体。
此时,稀用字字形要素信息31E针对新辨识源文字,存储配置模式“1”、包含表示部首“金”的部首文字代码的部首字形要素信息、以及包含表示部分“廣”的部分文字代码的部分字形要素信息。
例如,OCR识别部111针对新辨识源文字,使用文字识别字典12,进行文字识别处理,由此提取“点图形”相似的多个文字,作为针对新辨识源文字的第1候选文字,存储到OCR候选文字列表13中。此外,候选文字列表生成部112针对新辨识源文字的部首“金”,使用字形要素字典14,进行字形要素的比较,由此提取“部首”一致的多个文字,作为针对新辨识源文字的第2候选文字,存储到部首候选文字列表15中。此外,候选文字列表生成部112针对新辨识源文字的部分“廣”,使用字形要素字典14,进行字形要素的比较,由此提取“部分”一致的多个文字,作为针对新辨识源文字的第3候选文字,存储到部分候选文字列表16中(处理#91)。
此时,在字形要素字典14中的、作为辨识目标文字“鉱”的学习数据的字形要素结构体141中,在数组[0]中存储了第4辨识源文字的部首“金”。因此,此时,候选文字列表生成部112在部首候选文字列表15中,不将文字“鉱”存储到“学习候选”栏中,而存储到“候选文字”栏中。
此外,在字形要素字典14中的、作为辨识目标文字“鉱”的学习数据的字形要素结构体141中,在数组[1]中存储了第4辨识源文字的部分“廣”。此时,候选文字列表生成部112在部分候选文字列表16中,不将文字“鉱”存储到“候选文字”栏中,而存储到“学习候选”栏中。
此后,由于在OCR候选文字列表13、部首候选文字列表15以及部分候选文字列表16的各个中共同包含相同的文字“鉱”,因此显示用候选文字列表生成部113确定文字“鉱”作为辨识目标文字(处理#92)。由此,确定针对作为稀用字的辨识源文字“鉱”的辨识目标文字“鉱”。
此后,文字信息学习部114不进行将新辨识源文字作为所确定的辨识目标文字“鉱”的学习数据进行学习的学习处理(处理#93),不生成显示用候选文字列表17,不显示在显示部5上。
具体而言,此时,辨识源文字的部首文字代码“金”与存储在字形要素结构体141的数组[0]中的部首文字代码“金”相同。因此,不将辨识源文字“鉱”的部首文字代码“金”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。此外,辨识源文字的部分文字代码“廣”与存储在字形要素结构体141的数组[1]中的部分文字代码“廣”相同。因此,不将辨识源文字的部分文字代码“廣”作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。如上所述,此时,不将新辨识源文字作为辨识目标文字“鉱”的学习数据追加到字形要素结构体141中。
图10是文字的辨识处理流程。
例如,操作员针对存储在稀用字文件2中的文字,进行字形要素的生成(步骤S1)。由此,能够得到与稀用字文件2对应的稀用字字形要素存储文件3。此后,辨识处理部11调查是否针对存储在稀用字文件2中的所有文字(稀用字)结束了辨识处理(步骤S2)。
在没有针对所有文字(稀用字)结束辨识处理的情况下(步骤S2否),辨识处理部11从稀用字文件2选择并读出1个文字的文字图形,作为处理对象文字,并针对处理对象文字,从稀用字字形要素存储文件3读出部首字形要素信息和部分字形要素信息(步骤S3)。
辨识处理部11针对处理对象文字,进行辨识处理(步骤S4),并执行步骤S2。
在步骤S2中,在针对所有文字(稀用字)结束了辨识处理的情况下(步骤S2是),辨识处理部11根据辨识源的稀用字文件2的文字与辨识目标文字之间的对应关系,生成文字代码转换定义列表4(步骤S5)。
图11和图12是示出针对1个文字的辨识处理流程。
OCR识别部111针对处理对象文字,使用文字识别字典12进行文字识别处理(步骤S11),生成作为文字识别结果的OCR候选文字列表13(步骤S12)。
候选文字列表生成部112调查是否不存在部首(步骤S13)。在存在部首时(步骤S13否),候选文字列表生成部112使用字形要素,生成部首候选文字列表15和部分候选文字列表16(步骤S14)。在不存在部首时(步骤S13是),省略步骤S14。
此后,显示用候选文字列表生成部113生成显示用候选文字列表(步骤S15)。此时,将在任意一个候选文字列表中都存在的文字作为精度高的候选,将其优先顺序设得较高。
此后,显示用候选文字列表生成部113调查是否具有在任意一个候选文字列表中都存在的文字(步骤S16)。在不具有在任意一个候选文字列表中都共同存在的文字时(步骤S16否),显示用候选文字列表生成部113将候选文字列表显示在显示部5上(步骤S17)。文字信息学习部114根据观察到该列表的操作员的选择输入,确定辨识目标文字(步骤S18),并使辨识目标文字的字形要素字典14学习辨识源文字的字形要素信息(步骤S19)。
在步骤S16中,在具有在任意一个候选文字列表中都共同存在的文字时(步骤S16是),省略步骤S17~S19,将该共同存在的文字确定为辨识目标文字。
图13是候选文字列表生成的处理流程。
候选文字列表生成部112调查是否全部处理了辨识目标文字集的文字(步骤S21)。在没有全部处理辨识目标文字集的文字时(步骤S21否),候选文字列表生成部112使用字形要素字典14,在配置模式和部首文字代码一致的情况下,将该部首追加到部首候选文字列表15中(步骤S22),在配置模式和部分文字代码一致的情况下,将该部分追加到部分候选文字列表16中(步骤S23),此后,执行步骤S21。
在步骤S21中,在全部处理了辨识目标文字集的文字时(步骤S21是),结束处理。
图14是候选文字学习的处理流程。
文字信息学习部114在字形要素字典14中,在辨识目标文字的部首的学习列表中,追加配置模式和辨识源文字的部首文字代码,并增加学习文字数(步骤S31)。
此外,文字信息学习部114在字形要素字典14中,在辨识目标文字的部分的学习列表中,追加配置模式和辨识源文字的部分文字代码,并增加学习文字数(步骤S32)。
此后,文字信息学习部114在文字识别字典12中登记辨识源文字的文字图形数据,并以辨识目标文字成为候选文字的方式进行学习(步骤S33)。

Claims (10)

1.一种文字辨识装置,其特征在于,具有:
文字识别存储部,其对文字的点图形进行存储;
字形要素存储部,其针对存储在所述文字识别存储部中的所述文字,存储表示部首配置的配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码的部分字形要素信息,所述部分文字代码表示除所述部首以外的部分;
稀用字存储部,其对稀用字的点图形进行存储,所述稀用字是不包含在由表示预定文字的文字代码表示的标准化文字中的文字;
稀用字字形要素存储部,其针对存储在所述稀用字存储部中的所述稀用字,存储表示部首配置的配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码的部分字形要素信息,所述部分文字代码表示除所述部首以外的部分;
OCR识别部,其针对从所述稀用字存储部选择的处理对象稀用字,根据存储在所述稀用字存储部中的所述稀用字的点图形和存储在所述文字识别存储部中的文字的点图形,从存储在所述文字识别存储部的文字中,提取辨识所述处理对象稀用字的第1候选文字;以及
候选文字列表生成部,其针对所述处理对象稀用字,根据存储在所述字形要素存储部中的文字的所述部首字形要素信息、和存储在所述稀用字字形要素存储部中的所述稀用字的所述部首字形要素信息,从存储在所述字形要素存储部的文字中,提取辨识所述处理对象稀用字的第2候选文字,针对所述处理对象稀用字,根据存储在所述字形要素存储部中的文字的所述部分字形要素信息、和存储在所述稀用字字形要素存储部中的所述稀用字的所述部分字形要素信息,从存储在所述字形要素存储部的文字中,提取辨识所述处理对象稀用字的第3候选文字。
2.根据权利要求1所述的文字辨识装置,其特征在于,
存储在所述文字识别存储部中的文字包含所述标准化文字、或所述标准化文字及所述稀用字。
3.根据权利要求1所述的文字辨识装置,其特征在于,
所述文字辨识装置还具有显示用候选文字列表生成部,所述显示用候选文字列表生成部在所述第1候选文字至第3候选文字中,根据重复包含所述候选文字的程度,赋予优先顺序。
4.根据权利要求1所述的文字辨识装置,其特征在于,
所述文字辨识装置具有文字信息学习部,所述文字信息学习部从所述第1候选文字至第3候选文字中,确定辨识目标文字,该辨识目标文字是辨识所述处理对象稀用字的文字。
5.根据权利要求4所述的文字辨识装置,其特征在于,
所述文字信息学习部在所述第1候选文字至第3候选文字中的各个中存在共同文字的情况下,将该共同文字确定为所述辨识目标文字。
6.根据权利要求4所述的文字辨识装置,其特征在于,
所述文字辨识装置还具有输出部,所述输出部对所述第1候选文字至第3候选文字进行输出,
所述文字信息学习部根据选择输入确定所述辨识目标文字,所述选择输入指定所述输出部所输出的所述候选文字。
7.根据权利要求4所述的文字辨识装置,其特征在于,
所述文字信息学习部将所述处理对象稀用字作为辨识源文字,生成将所述辨识源文字和所述辨识目标文字对应起来的文字对应关系列表。
8.根据权利要求4所述的文字辨识装置,其特征在于,
所述文字信息学习部将所述处理对象稀用字设为辨识源文字,将所述辨识源文字的所述部首字形要素信息或所述部分字形要素信息作为所述辨识目标文字的学习要素信息,追加到所述辨识目标文字的所述部首字形要素信息或所述部分字形要素信息中。
9.根据权利要求8所述的文字辨识装置,其特征在于,
所述候选文字列表生成部根据所述追加的所述部首的学习要素信息及所述部分的学习要素信息,提取所述第2候选文字和所述第3候选文字。
10.一种文字辨识方法,其特征在于,使计算机执行以下处理:
针对文字,将表示部首配置的配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码的部分字形要素信息存储到字形要素存储部,所述部分文字代码表示除所述部首以外的部分;
将存储在所述字形要素存储部的所述文字的点图形存储到文字识别存储部中;
将稀用字的点图形存储到稀用字存储部中,所述稀用字是不包含在由表示预定文字的文字代码表示的标准化文字中的文字;
针对存储在所述稀用字存储部中的所述稀用字,将表示部首配置的配置模式、包含表示部首的部首文字代码的部首字形要素信息、以及包含部分文字代码的部分字形要素信息存储到稀用字字形要素存储部中,所述部分文字代码表示除所述部首以外的部分;
针对从所述稀用字存储部选择的处理对象稀用字,根据存储在所述稀用字存储部中的所述稀用字的点图形和存储在所述文字识别存储部中的文字的点图形,从存储在所述字形要素存储部的文字中,提取辨识所述处理对象稀用字的第1候选文字;以及
针对所述处理对象稀用字,根据存储在所述字形要素存储部中的文字的所述部首字形要素信息、和存储在所述稀用字字形要素存储部中的所述稀用字的所述部首字形要素信息,从存储在所述字形要素存储部的文字中,提取辨识所述处理对象稀用字的第2候选文字,针对所述处理对象稀用字,根据存储在所述字形要素存储部中的文字的所述部分字形要素信息、和存储在所述稀用字字形要素存储部中的所述稀用字的所述部分字形要素信息,从存储在所述字形要素存储部的文字中,提取辨识所述处理对象稀用字的第3候选文字。
CN 201010286687 2009-12-15 2010-09-17 文字辨识装置及文字辨识方法 Expired - Fee Related CN102096828B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-283960 2009-12-15
JP2009283960A JP5387378B2 (ja) 2009-12-15 2009-12-15 文字同定装置及び文字同定方法

Publications (2)

Publication Number Publication Date
CN102096828A true CN102096828A (zh) 2011-06-15
CN102096828B CN102096828B (zh) 2013-03-13

Family

ID=44129916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010286687 Expired - Fee Related CN102096828B (zh) 2009-12-15 2010-09-17 文字辨识装置及文字辨识方法

Country Status (2)

Country Link
JP (1) JP5387378B2 (zh)
CN (1) CN102096828B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250354A (zh) * 2015-06-09 2016-12-21 富士通株式会社 处理文书的信息处理装置、信息处理方法以及程序
CN114332871A (zh) * 2021-12-31 2022-04-12 科大讯飞股份有限公司 一种字符识别方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6533395B2 (ja) * 2015-02-26 2019-06-19 株式会社日立システムズ 文字検索方法およびシステム
JP6542546B2 (ja) * 2015-02-27 2019-07-10 株式会社日立システムズ 文書データ処理方法およびシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1227374A (zh) * 1998-02-27 1999-09-01 三菱电机株式会社 文字识别装置
US20080040660A1 (en) * 2000-02-23 2008-02-14 Alexander Georke Method And Apparatus For Processing Electronic Documents
CN101533476A (zh) * 2008-03-14 2009-09-16 欧姆龙株式会社 字符识别电子元件、装置、方法、程序及数据结构

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2682389B2 (ja) * 1993-07-22 1997-11-26 日本電気株式会社 外字登録・検索方式
JPH0916721A (ja) * 1995-06-29 1997-01-17 Nec Corp 文字認識候補選択装置
JP2004309754A (ja) * 2003-04-07 2004-11-04 Hitachi Koukiyou Syst Eng Kk 文字同定支援サービスシステム
JP2005031942A (ja) * 2003-07-11 2005-02-03 Konica Minolta Photo Imaging Inc 文字同定支援システム、文字同定支援装置及び情報処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1227374A (zh) * 1998-02-27 1999-09-01 三菱电机株式会社 文字识别装置
US20080040660A1 (en) * 2000-02-23 2008-02-14 Alexander Georke Method And Apparatus For Processing Electronic Documents
CN101533476A (zh) * 2008-03-14 2009-09-16 欧姆龙株式会社 字符识别电子元件、装置、方法、程序及数据结构

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250354A (zh) * 2015-06-09 2016-12-21 富士通株式会社 处理文书的信息处理装置、信息处理方法以及程序
CN106250354B (zh) * 2015-06-09 2020-09-18 富士通株式会社 处理文书的信息处理装置、信息处理方法以及程序
CN114332871A (zh) * 2021-12-31 2022-04-12 科大讯飞股份有限公司 一种字符识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP5387378B2 (ja) 2014-01-15
JP2011128688A (ja) 2011-06-30
CN102096828B (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
KR0163178B1 (ko) 중국문자를 부호화하고 해독하는 장치 및 방법
CN100416591C (zh) 字符识别电子设备和字符识别方法
JP4996940B2 (ja) 帳票認識装置およびそのプログラム
CN1195799A (zh) 具有坐标检测图形输入板的手写数据输入设备
US20030099398A1 (en) Character recognition apparatus and character recognition method
JP2007004584A (ja) 情報処理装置
CN110210470A (zh) 商品信息图像识别系统
US5329598A (en) Method and apparatus for analyzing character strings
CN102096828B (zh) 文字辨识装置及文字辨识方法
CN102024150A (zh) 图形识别方法及图形识别装置
CN1307513C (zh) 汉字输入方法及装置
CN104836931B (zh) 图像处理装置、图像读取装置和图像处理方法
JP6845911B1 (ja) 文字処理システム及びプログラム
JP6784273B2 (ja) 画像処理装置、画像処理方法およびプログラム
Amrouch et al. Printed amazigh character recognition by a hybrid approach based on Hidden Markov Models and the Hough transform
JP7111143B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP6325218B2 (ja) 文字認識結果検証装置及び文字読取システム
US20090060339A1 (en) Method of organizing chinese characters
CN114283438A (zh) 核电厂图纸信息识别与提取方法及系统
JP4632893B2 (ja) 点字翻訳装置、点字翻訳方法、点字翻訳プログラムおよびこれを記録したコンピュータ読取り可能な記録媒体
US20140111438A1 (en) System, method and apparatus for the transcription of data using human optical character matching (hocm)
KR101061007B1 (ko) 문자행의 목록 출력 방법
JP4442136B2 (ja) 文字認識方法および装置
JPH09185673A (ja) 文字認識結果出力方法
JPS63184861A (ja) 文書作成編集装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130313

Termination date: 20140917

EXPY Termination of patent right or utility model