CN103154974A

CN103154974A - 字符识别装置、字符识别方法、字符识别系统以及字符识别程序

Info

Publication number: CN103154974A
Application number: CN201280003349XA
Authority: CN
Inventors: 山添隆文; 荣藤稔; 吉村健; 辻野孝辅
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2011-03-07
Filing date: 2012-02-24
Publication date: 2013-06-12
Anticipated expiration: 2032-02-24
Also published as: JP2012185722A; KR20130029430A; US20130108160A1; JP5647919B2; EP2685405A1; CN103154974B; EP2685405A4; US8965126B2; WO2012121033A1; KR101463499B1

Abstract

字符识别装置（1）具有：图像读入部（101），其输入图像；字符区域检测部（103），其检测图像的字符区域；字符区域分割部（104），其以单个字符为单位分割字符区域；字符识别部（105），其对存在于分割区域中的字符进行每个单个字符的字符识别，对单个字符输出1个以上的字符识别处理结果的候选；第1字符串转移数据生成部（106），其被输入所述候选，计算针对向候选的转移的权重值，生成基于候选和权重值的组的第1字符串转移数据；以及WFST处理部（109），其根据第1字符串转移数据依次进行状态转移，将各状态转移中的权重值累计并计算每个状态转移的累计权重值，根据累计权重值输出一个以上的状态转移的结果。

Description

字符识别装置、字符识别方法、字符识别系统以及字符识别程序

技术领域

本发明涉及字符识别装置、字符识别方法、字符识别系统以及字符识别程序。

背景技术

以往，如下述专利文献1～2、非专利文献1～3中例示的那样，公知有从情景图像中识别存在于广告牌等三维空间中的字符的技术。在这些技术中，为了对应明暗变动或字符失真等情景图像特有的问题，使用单词知识或摄影场所的位置信息等外部数据而提高了识别精度。

例如，在专利文献1中，将从图像中的广告牌等中提取的字符串与电话簿数据库进行对照，通过判定与电话簿数据库中包含的广告主数据或电话号码数据的一致度，判定提取的字符串是否与广告主关联。

此外，在专利文献2中，使用在字符识别装置中装备的位置信息取得单元以及方位信息取得单元，确定摄影的位置和方向，使用确定的位置、方位与地图数据库进行对照，使用符合的店铺名或地名信息作为单词知识，由此提高了识别精度。

此外，使用加权有限状态转换器（Weighted Finite State Transducer，以下称作“WFST”。）作为语音识别或语言处理领域中的高速且具有较高的通用性和扩展性的方法，该加权有限状态转换器将符号串转换与权重的集合表现为状态转移。与该WFST关联地，在字符识别的领域中，如非专利文献1、非专利文献2例示的那样，提出了以取得英语那样分隔书写的以词汇为单位的字符串为前提，取得字符识别的结果的方法。此外，在非专利文献3中，提出了在日语中在输出字符识别结果后，使用WFST进行纠错的方法。

现有技术文献

专利文献

专利文献1：日本专利第3360030号公报

专利文献2：日本专利第4591353号公报

非专利文献

非专利文献1：”A Weighted Finite-State Framework for Correcting Errors inNaturalScene OCR”，ICDAR2007Vol.2，pp.889-893

非专利文献2：”The image Text Recognition Graph(iTRG)”，ICME2009，pp.266-269

非专利文献3：重み付き有限状態トランスヂューサを用いた文字誤り訂正、言語処理学会年次大会発表論文集C2-5，pp.332-335，2009

发明内容

发明要解决的问题

然而，在专利文献1中记载的方法中，需要与电话簿数据库等中包含的大量的单词知识进行对照，可能无法充分地实现字符识别处理的高速化。此外，在专利文献2中记载的方法中，另外需要位置信息取得单元或方位信息取得单元，装置结构有可能复杂化。

此外，在非专利文献1和非专利文献2中，以在词汇之间存在分隔的分隔书写的语言为前提。即，以WFST处理涉及的词汇已经预先切出为前提。此外，在非专利文献2中，在字符识别的以字符为单位的切出中，利用重复的切出位置进行字符识别，利用WFST来表现，但是在字符识别的结果中出现了误识别的情况下可能无法进行应对。

此外，在非专利文献1和非专利文献3中，通过字符的融合/分离来应对因重复的切出位置引起的误识别的问题，但是日语的字符种类较多，并且在实际环境中存在各种各样的字符设计，因此需要网罗庞大的组合。此外，在非专利文献3中，暂且使用了进行字符识别的结果，前提为在一定程度上高精度地得到字符识别结果。因此，在原本的字符识别中进行了较多的基于语言处理的修正的情况下，进行基于字符形状的修正可能变得困难。此外，可能无法应对原本的字符识别中的字符区域的检测遗漏的修正。

因此，本发明正是鉴于上述问题而完成的，其目的在于，提供一种能够不使用外部的电话簿等数据库而使用被简单化的装置结构，高精度且高速地从情景图像进行字符识别的字符识别装置、字符识别方法、字符识别系统以及字符识别程序。

用于解决问题的手段

为了解决上述课题，本发明的字符识别装置的特征在于，具有：图像输入单元，其输入包含识别对象的字符的图像；字符区域检测单元，其检测所述图像中的、所述字符存在的区域即字符区域；字符区域分割单元，其以单个字符为单位分割所述字符区域；字符识别单元，其对存在于所述字符区域分割单元所分割的分割区域中的所述字符进行每个单个字符的字符识别处理，对单个字符输出1个以上的字符识别处理结果的候选；第1字符串转移数据生成单元，其被输入所述候选，计算针对向所述候选的转移的权重值，生成基于所述候选与所述权重值的组的字符串转移数据即第1字符串转移数据；以及有限状态转换单元，其根据所述第1字符串转移数据依次进行状态转移，将各状态转移中的权重值累计而计算每个状态转移的累计权重值，根据所述累计权重值输出一个以上的所述状态转移的结果。

此外，本发明的字符识别方法的特征在于，具有：图像输入步骤，图像输入单元输入包含识别对象的字符的图像；字符区域检测步骤，字符区域检测单元检测所述图像中的、所述字符存在的区域即字符区域；字符区域分割步骤，字符区域分割单元以单个字符为单位分割所述字符区域；字符识别步骤，字符识别单元对存在于所述字符区域分割单元所分割的分割区域中的所述字符进行每个单个字符的字符识别处理，对单个字符输出1个以上的字符识别处理结果的候选；第1字符串转移数据生成步骤，第1字符串转移数据生成单元输入所述候选，计算针对向所述候选的转移的权重值，生成基于所述候选与所述权重值的组的字符串转移数据即第1字符串转移数据；以及有限状态转换步骤，有限状态转换单元根据所述第1字符串转移数据依次进行状态转移，将各状态转移中的权重值累计而计算每个状态转移的累计权重值，根据所述累计权重值输出一个以上的所述状态转移的结果。

此外，本发明的字符识别系统包含终端和服务器，该字符识别系统的特征在于，所述终端具有：图像输入单元，其输入包含识别对象的字符的图像；字符区域检测单元，其检测所述图像中的、所述字符存在的区域即字符区域；字符区域分割单元，其以单个字符为单位分割所述字符区域；字符识别单元，其对存在于所述字符区域分割单元所分割的分割区域中的所述字符进行每个单个字符的字符识别处理，对单个字符输出1个以上的字符识别处理结果的候选，所述服务器具有：第1字符串转移数据生成单元，其被输入所述候选，计算针对向所述候选的转移的权重值，生成基于所述候选与所述权重值的组的字符串转移数据即第1字符串转移数据；以及有限状态转换单元，其根据所述第1字符串转移数据依次进行状态转移，将各状态转移中的权重值累计而计算每个状态转移的累计权重值，根据所述累计权重值输出一个以上的所述状态转移的结果。

此外，本发明的字符识别程序，其特征在于，使计算机作为以下单元进行动作：图像输入单元，其输入包含识别对象的字符的图像；字符区域检测单元，其检测所述图像中的、所述字符存在的区域即字符区域；字符区域分割单元，其以单个字符为单位分割所述字符区域；字符识别单元，其对存在于所述字符区域分割单元所分割的分割区域中的所述字符进行每个单个字符的字符识别处理，对单个字符输出1个以上的字符识别处理结果的候选；第1字符串转移数据生成单元，其输入所述候选，计算针对向所述候选的转移的权重值，生成基于所述候选与所述权重值的组的字符串转移数据即第1字符串转移数据；以及有限状态转换单元，其根据所述第1字符串转移数据依次进行状态转移，将各状态转移中的权重值累计而计算每个状态转移的累计权重值，根据所述累计权重值输出一个以上的所述状态转移的结果。

根据这样的本发明的字符识别装置、字符识别方法、字符识别系统以及字符识别程序，由于不使用外部的电话簿等数据库，因此不需要与该电话簿数据库等中包含的大量的单词知识进行对照，能够实现字符识别处理的高速化。此外，由于不需要位置信息取得单元或方位信息取得单元等，因此能够使装置结构简单化。使用这样的装置结构，可以高精度且高速地从情景图像进行字符识别。

此外，也可以是，在本发明中，所述字符识别装置还具有第2字符串转移数据生成单元，从用户输入关键字，该第2字符串转移数据生成单元生成所述关键字的字符串转移数据即第2字符串转移数据，所述有限状态转换单元对所述第1字符串转移数据和所述第2字符串转移数据进行合成运算，由此判定在所述图像中是否存在所述关键字。

根据本发明，能够利用字符识别候选组的第1字符串转移数据本身作为对图像的检索用表，将本发明的字符识别装置有效地应用为判定在图像中是否存在用户输入关键字的装置。

此外，也可以是，在本发明中，所述字符识别装置还具有第3字符串转移数据生成单元，该第3字符串转移数据生成单元生成在词汇数据库中存在的各词汇的字符串转移数据即第3字符串转移数据，所述有限状态转换单元对所述第1字符串转移数据和所述第3字符串转移数据进行合成运算，由此检测在所述图像中存在的词汇。

根据本发明，通过对字符识别候选组的第1字符串转移数据和词汇数据库中的第3字符串转移数据进行合成运算，能够有效地将本发明的字符识别装置应用为词汇检测装置。

此外，也可以是，在本发明中，所述字符识别单元对多个所述候选分别赋予优先次序并进行输出，所述第1字符串转移数据生成单元根据所述优先次序计算所述权重值。

根据本发明，可以提供用于第1字符串转移数据生成单元计算权重值的具体的方法。

此外，也可以是，在本发明中，所述字符识别单元使用至少两种以上不同的识别方式进行所述字符识别处理，所述第1字符串转移数据生成单元根据所述不同的识别方式中的所述候选的输出数量和所述优先次序来计算所述权重值。

此外，也可以是，在本发明中，所述第1字符串转移数据生成单元考虑在语言数据库中登记的单词的字符串转移来计算所述权重值。

根据本发明，可以提供用于第1字符串转移数据生成单元计算权重值的具体的手法。

此外，也可以是，在本发明中，所述第1字符串转移数据生成单元根据所述候选在所述图像内的位置、或者所述候选的字符大小来修正所述权重值。

根据本发明，可以提供用于第1字符串转移数据生成单元修正权重值的具体的方法。此外，通过权重值的修正能够提高词汇的检测精度。

此外，也可以是，在本发明中，在所述字符区域分割单元使用多个分割模式来分割所述字符区域，生成了多种所述分割区域的情况下，所述字符识别单元对所述多种分割区域分别进行所述字符识别处理，所述第1字符串转移数据生成单元对所述多种分割区域各自的所述候选生成所述第1字符串转移数据，所述有限状态转换单元输出在所述多种分割区域全部中所述累计权重值为上位的状态转移的结果作为所述结果。

根据本发明，即便在字符区域分割单元进行了过分割（Over segmentation）的情况下也可以适当地应对。

此外，也可以是，在本发明中，所述第1字符串转移数据生成单元将从字符串转移的初始状态向所述候选的空转移即第1空转移、从所述候选向字符串转移的最终状态的空转移即第2空转移、用于以单个字符为单位跳过所述候选的空转移即第3空转移包含在内而生成所述第1字符串转移数据。

根据本发明，使第1字符串转移数据包含第1空转移、第2空转移以及第3空转移，由此能够提高第1字符串转移数据与第2字符串转移数据或第3字符串转移数据的合成运算的精度。

此外，也可以是，在本发明中，所述字符识别单元在输出所述字符识别处理结果的所述候选时，一并输出表示单词间的分隔的识别信息，所述第1字符串转移数据生成单元附加所述识别信息来生成所述第1字符串转移数据，所述有限状态转换单元在进行所述状态转移时，以被两个所述识别信息分隔的部分为单位来进行所述状态转移。

根据本发明，通过使用表示分隔的识别信息，对分隔书写的语言也能够高精度地进行字符识别。

此外，也可以是，在本发明中，所述字符识别单元在输出所述字符识别处理结果的所述候选时，一并输出该候选在所述图像内的位置信息，所述第1字符串转移数据生成单元附加所述位置信息来生成所述第1字符串转移数据，所述有限状态转换单元附加所述位置信息来输出所述结果。

根据本发明，通过使用位置信息，能够确定字符识别的结果位于图像内的哪个位置。

此外，也可以是，在本发明中，所述词汇数据库具有对词汇的分类信息，所述第2字符串转移数据生成单元或者所述第3字符串转移数据生成单元附加所述分类信息来生成所述第2字符串转移数据或者所述第3字符串转移数据，所述有限状态转换单元附加所述分类信息来输出所述结果。

根据本发明，通过使用分类信息，能够确定字符识别的结果属于哪个类别。

此外，也可以是，在本发明中，所述字符识别装置具有词汇分类关联性矢量存储单元，该词汇分类关联性矢量存储单元存储表示词汇与所述分类信息的关联性的词汇分类关联性矢量，所述第1字符串转移数据生成单元将所述第1字符串转移数据中的所述候选以及所述权重值与所述词汇分类关联性矢量的值相加，将值最大的分类信息作为与所述候选对应的分类信息，基于该分类信息修正对于该候选的所述权重值。

发明的效果

根据本发明，能够提供一种能够不使用外部的电话簿等数据库而使用被简单化的装置结构，高精度且高速地从情景图像进行字符识别的字符识别装置、字符识别方法、字符识别系统以及字符识别程序。

附图说明

图1是示出字符识别装置1的功能性的结构要素的结构概要图。

图2是字符识别装置1的硬件结构图。

图3是示出本实施方式的全体处理流程的流程图。

图4是用于说明字符区域分割部104的动作的图。

图5是示出第1字符串转移数据生成部106生成的第1WFST数据的一例的图。

图6是示出字符区域分割部104进行了过分割的情况下的处理的图。

图7是用于说明第1字符串转移数据生成部106根据字符的大小/位置等调整权重值的图。

图8是示出WFST运算处理的流程图。

图9是示出WFST合成运算的映像的图。

图10示出WFST合成运算的变形1中的处理的一例。

图11示出WFST合成运算的变形1中的处理的一例。

图12示出WFST合成运算的变形1中的处理的一例。

图13是示出WFST合成运算的变形2中的字符识别装置1的功能性的结构要素的结构概要图。

图14示出WFST合成运算的变形2中的处理的一例。

图15示出WFST合成运算的变形2中的处理的一例。

图16示出WFST合成运算的变形3中的处理的一例。

图17示出WFST合成运算的变形4中的处理的一例。

图18示出WFST合成运算的变形4中的处理的一例。

图19是示出字符识别系统100的功能性的结构要素的结构概要图。

具体实施方式

以下，参照附图详细地说明本发明的字符识别装置、字符识别方法、字符识别系统以及字符识别程序的优选实施方式。另外，在附图的说明中，对相同的要素标注相同的标号，省略重复的说明。

（字符识别装置1的整体结构）

本发明的实施方式的字符识别装置1用于从情景图像检测字符区域，并进行字符识别（例如，关键字检测，检索用表生成等）。图1是示出字符识别装置1的功能性的结构要素的结构概要图，图2是字符识别装置1的硬件结构图。如图2所示，字符识别装置1构成为通常的计算机系统，该计算机系统在物理上除包含CPU11、ROM12和RAM13等主存储装置、键盘、鼠标外，还包含照相机等作为用于读入图像的装置或者用于从外部装置读入数据的装置的输入设备14、显示器等输出设备15、用于与其他装置之间进行数据的发送接收的网卡等通信模块16、硬盘等辅助存储装置17等。输入设备14进行的图像的读入可以是由自装置摄影的图像，或者也可以是由其他装置摄影的图像。通过在CPU11、ROM12、RAM13等硬件上读入预定的计算机软件，在CPU11的控制下使输入设备14、输出设备15、通信模块16动作，并且，进行主存储装置12、13或辅助存储装置17中的数据的读出和写入，由此实现后述的字符识别装置1的各功能。

如图1所示，字符识别装置1具有以下部分作为功能性的结构要素：图像读入部101（相当于权利要求书中的“图像输入单元”）、图像二值化部102、字符区域检测部103（相当于权利要求书中的“字符区域检测单元”）、字符区域分割部104（相当于权利要求书中的“字符区域分割单元”）、字符识别部105（相当于权利要求书中的“字符识别单元”）、第1字符串转移数据生成部106（相当于权利要求书中的“第1字符串转移数据生成单元”）、第2字符串转移数据生成部107（相当于权利要求书中的“第2字符串转移数据生成单元”）、第3字符串转移数据生成部108（相当于权利要求书中的“第3字符串转移数据生成单元”）、WFST处理部109（相当于权利要求书中的“有限状态转换单元”）、字符串检测部110（相当于权利要求书中的“字符串检测单元”）以及词汇DB111（相当于权利要求书中的“词汇数据库”）。以下，参照图3的流程图对字符识别装置1的各结构要素的动作进行说明。

（1）图像的读入

图像读入部101输入包含识别对象的字符的图像（步骤S1，相当于权利要求书中的“图像输入步骤”）。关于通过扫描仪取入印刷文件那样的文档图像已经有技术，可以高速/高精度地进行识别，因此通过既有的文档OCR引擎进行作为文档图像的字符识别（步骤S2）。然后，第1字符串转移数据生成部106根据识别结果的候选组生成由WFST表示的数据（以下称作“第1WFST数据”。相当于权利要求书中的“第1字符串转移数据”）（步骤S3，权利要求书中的“相当于第1字符串转移数据生成步骤”）。另外，在通过既有的文档OCR引擎得到的识别结果的字符数为规定数以上且识别精度为规定值以上的情况下，判定为文档，不进行步骤S10的WFST运算处理。对于分辨率过小或过大的图像，调整尺寸以成为适合字符识别的大小。

（2）图像二值化

在步骤S1中输入的图像不是文档图像的情况下，图像二值化部102进行图像二值化（步骤S4）。图像二值化根据局部的明暗来进行，也可以应对低对比度的状况。在白底上进行黑色字符的检测，也可以反转原图像的明暗，在黑底上进行白色字符的检测。此外，对于明显的字符以外的区域，通过膨胀收缩等遮挡处理进行噪声除去。

（3）字符区域检测

字符区域检测部103检测字符区域（步骤S5，相当于权利要求书中的“字符区域检测步骤”）。“字符区域”是指在步骤S1中输入的图像中，识别对象的字符存在的区域，或者存在该可能性的区域。关于该字符区域的检测，公知有如下述的参考文献1那样，通过统计地学习形状的特征而进行检测的方法。在本装置中，通过进行标记处理对每个区域附加标记，根据各区域的形状特征（圆形度、孔数、构成的区域数、外周矩形大小/纵横比、标记区域与非标记区域的面积比等）判定是否是字符区域而进行检测。

<参考文献1>“A learning-based method to detect andsegment text from sceneimages”，JOURNAL OF ZHEJIANG UNIVERSITY-SCIENCE A Volume8，Number4，pp.568-574

在本实施方式中，为了通过后述的WFST处理进行过滤，相比于从开始就不检测非字符的噪声区域，优先使用预先尽可能多地检测可能是字符的区域的方法，以便不产生遗漏。因此，将通过膨胀收缩处理连接了接近区域的方式、分解了连接区域的方式、除去了字符周围的噪声的方式也作为检测字符区域的方式。此外，关于该检测方式，能够追加各种方法（利用边缘或色调的方法、高度的字符区域连接处理等）。

（4）字符串候选检测，以单个字符为单位的切出

字符区域分割部104检测字符区域内的字符串候选，以单个字符为单位进行分割字符区域（以下称作“切出”。）（步骤S6，相当于权利要求书中的“字符区域分割步骤”）。具体而言，字符区域分割部104首先检测字符行。假定字符行由3个字符以上构成，根据字符区域的区域大小/间隔/角度的推移进行检测。对检测到的每个字符行进行标记处理，根据赋予了标记的每个区域的角度的中央值、平均值、最频值等来缩减字符行。图4是用于说明字符区域分割部104的动作的图。如图4所示，按照每个字符行L通过进行基于字符行的角度的搜索进行水平方向/垂直方向的剪切变形，并且，对字符的剪切/旋转双方的变形失真进行校正。在图4中，图像A1示出写有旋转后的字符串的校正前的图像，图像A2示出通过将字符行在垂直方向上剪切变形而校正了字符串方向的倾斜后的图像。

字符区域分割部104从校正了失真后的图像A2中除去噪声，然后，求出字符行方向的字符间隔，以单个字符为单位进行切出。以单个字符为单位的切出是利用将相对于字符串方向为垂直方向的像素相加而得到的直方图，求出成为字符之间的候选，以在字符行检测时求出的区域大小的中央值、平均值、最频值等为基准，决定多个重叠的切出位置来进行的。在图4中示出对校正后的图像A2中的字符串M一边一点一点地改变角度一边进行水平方向的剪切变形，由此生成多个字符串M1、M2、M3，并对这些字符串M1、M2、M3以单个字符为单位进行了切出的情况。字符串Y2示出对字符串M2进行了以单个字符为单位的切出后得到的字符串，该情况下的空白区域数是4。“空白区域”是指字符之间的区域，在图4中由标号K示出。此外，标号Y3示出对字符串M3进行了以单个字符为单位的切出后得到的字符串，该情况下的空白区域数是7。在本实施方式中，字符区域分割部104采用空白区域的数量和面积最大的情况作为字符区域分割的结果。在图4的例中，字符串Y3是最终选择的字符区域分割后的字符串。此外，通过既有的OCR引擎进行单个字符行的字符识别等基于多个方法/参数的字符位置检测/字符识别处理，在每个可能是字符的切出位置进行单个字符为单位的切出，求出容许位置重复那样的成为过分割的状态转移。

（5）字符识别

字符识别部105对存在于字符区域分割部104在步骤S6中分割后的分割区域（图4中由标号D显示）中的各字符进行每个字符的字符识别处理，对每个字符输出1个以上的字符识别处理结果的候选（以下，称作“字符识别候选组”，或者仅称作“候选”。）（步骤S7，相当于权利要求书中的“字符识别步骤”）。以通过多个引擎取得字符识别结果的方式进行单个字符为单位的字符识别。

（6）WFST数据生成

第1字符串转移数据生成部106从在步骤S7中得到的识别结果的候选组中汇总重复候选，生成WFST数据（以下也称作“第1WFST数据”。相当于权利要求书中的“第1字符串转移数据”）（步骤S8，相当于权利要求书中的“第1字符串转移数据生成步骤”）。即，第1字符串转移数据生成部106从字符识别部105输入字符识别处理结果的候选（每个字符1个以上的候选），计算对于向该候选的转移的权重值，生成基于这些候选和权重值的组的第1WFST数据。

在字符识别部105对多个字符识别处理结果的候选分别赋予优先次序并输出的情况下，第1字符串转移数据生成部106基于该优先次序计算上述权重值。此外，在字符识别部105使用至少两种以上不同的识别方式进行了字符识别处理的情况下，第1字符串转移数据生成部106根据该不同的识别方式下的字符识别处理结果的候选的输出数量和上述优先次序来计算上述权重值。在此，通过积/和来合成重复候选的权重值，由此在各字符识别结果中同一候选出现次数越多，权重值就越小。即，在本实施方式中，可以说权重值越小，越是接近实际正确结果的候选。此外，第1字符串转移数据生成部106也可以考虑在语言数据库中登记的单词的字符串转移来计算上述权重值。

图5示出第1字符串转移数据生成部106生成的第1WFST数据的一例。如图5所示，第1WFST数据为被赋予了多个候选及其权重值的状态转移。在存在多个字符识别结果的情况下，具有相同的初始状态的状态转移成为并列排列的形式。图5的例中，示出例如字符识别处理的实际的正确结果是“ドコモ”的情况下，字符识别处理中的多个候选是例如“ド”、“ト”、“人”、“コ”、“二”、“口”、“モ”、“毛”、“t”等、并且各自的权重值是“0.2”、“0.4”、“0.6”、“0.2”、“0.5”、“0.6”、“0.2”、“0.4”、“0.5”的情况。

为了检测文章中间的关键字，在根据字符识别候选组生成的第1WFST数据中包含从字符串转移的初始状态向各字符候选的ε转移（不具有输入输出的空转移，相当于权利要求书中的“第1空转移”）、从各字符候选向字符串转移的最终状态的ε转移（相当于权利要求书中的“第2空转移”）、为了避免将噪声捕捉为字符而赋予权重值并且以单个字符为单位跳过各字符候选的ε转移（相当于权利要求书中的“第3空转移”）。在图5中，第1空转移由标号E1示出，第2空转移由标号E2示出，第3空转移由标号E3示出，第3空转移的权重值例如示出为“2.0”。另外，为了能够以最适合的处理大小进行运算，将第1WFST数据设为能够在分割为多行单位或一定字符数单位的基础上进行运算，并组合其结果来进行利用。

在此，在步骤S6中成为了过分割的情况下，如图6所示，按照每个重复位置进行以单个字符为单位的字符识别，将重复的字符切出位置的转移表现为一个第1WFST数据。换言之，在字符区域分割部104使用多个分割模式来分割字符区域，生成了多种分割区域的情况下（即在过分割的情况下），字符识别部105分别对该多种分割区域进行字符识别处理，第1字符串转移数据生成部106对该多种分割区域各自中的字符候选生成第1WFST数据。

图6的例子示出字符识别处理的实际的正确结果是例如“Forum”的情况下（图6的（A）），通过多个方法、切出参数决定分割位置，并且在多个分割位置进行了单个字符识别处理的结果（图6的（B）和（C））。在图6的（B）所示的结果中得出“fbnim”的识别结果，在图6的（C）所示的结果中得出“石rurn”的识别结果。另外，在图6的（B）的结果中的“b”的部分中，由于噪声，第一候选是“b”，第二候选是“o”。认为噪声是由于在切出时“F”的右上的一部分进入而产生的。对于这样的两个结果，第1字符串转移数据生成部106生成图6的（D）所示那样的一个第1WFST数据。另外，在图6的例子中，省略了从初始状态向中间状态的ε转移、从中间状态向最终状态的ε转移、用于跳过字符的加权ε转移。此外，将所生成的一个第1WFST数据在之后用于与词汇数据的WFST合成运算（参照图6的（E）和（F）），WFST处理部109输出在多种分割区域的全体中累计权重值为上位的（在图6的例中，与词汇数据匹配的“forum”）作为结果，这将在后面记述。

此外，为了进一步提高从情景图像等中检测有意义的词汇的精度，第1字符串转移数据生成部106根据字符识别结果的候选在图像内的位置或者字符识别结果的候选的字符大小等来修正权重值。在图7的例子中，图7的（A）示出有字符进入的图像A3。图7的（B）示出第1字符串转移数据生成部106最初计算出的权重值。对于字符候选“この先”计算出权重值“0.13”。同样地，对于“株式会社”、“10km”、“清水寺”、“旅館”分别计算出权重值“0.15”、“0.15”、“0.20”、“0.21”。

在此，第1字符串转移数据生成部106使用由图7的（C）和（D）示出的信息来调整最初计算出的权重值。图7的（C）是示出作为关键字的价值的统计性的空间分布的信息。在该例中，图像的中央、左上、右下等是作为关键字的价值较高的部分，在图7的（C）中，用颜色深浅来显示作为关键字的价值。在颜色显示为较深的部分中，由于作为关键字的价值较高，因此分配“1”作为权重系数。在颜色显示较浅的部分，由于作为关键字的价值较低，因此分配“2.5”作为权重系数。图7的（D）示出与字符大小对应的权重系数表。大小为“24”的字符由于大小较大而假定作为关键字的价值较高，分配“1”作为权重系数。大小为“8”的字符由于大小较小而假定作为关键字的价值较低，分配“2.2”作为权重系数。

图7的（E）示出第1字符串转移数据生成部106使用由图7的（C）和（D）示出的信息，调整最初计算出的权重值后得到的结果。通过将最初计算出的权重值与图7的（C）和（D）的权重系数相乘来进行加权，以提高位于较大的字符区域或者作为词汇位于价值较高的位置处的词汇的优先次序。例如，对于词汇“清水寺”，将最初计算出的权重值“0.20”与图7的（C）的空间分布权重值“1.5”和字符大小权重值“1.0”相乘，被赋予“0.3”作为调整后的权重值。通过以上的处理，在权重值调整前，例如词汇“この先”具有比词汇“清水寺”小的权重值，但通过权重值调整，词汇“この先”的权重值大于词汇“清水寺”的权重值。即，可以说通过权重值调整，实际上具有作为关键字的价值的词汇被调整成为具有较小的权重值。

（7）WFST运算处理

（WFST运算处理全体的流程）

WFST处理部109和字符串检测部110将在步骤S3和S8中生成的第1WFST数据汇总成一个第1WFST数据（步骤S9），然后进行WFST运算处理（步骤S10，相当于权利要求书中的“有限状态转换步骤”）。WFST处理部109和字符串检测部110进行的“WFST运算处理”，包含WFST合成运算（相当于权利要求书中的“合成运算”），并且包含以下一系列处理：WFST处理部109根据WFST数据依次进行状态转移，将各状态转移中的权重值累计来计算每个状态转移的累计权重值，当根据累计权重值将一个以上的状态转移的结果输出到字符串检测部110时，字符串检测部110根据该累计权重值检测出1个以上的字符串作为字符串识别结果。图8是示出WFST运算处理的流程图。根据字符识别候选组生成的第1WFST数据除了用于与词汇DB111（图1参照）的WFST运算处理的词汇检测外，还能够利用字符识别候选组的第1WFST数据本身作为对图像的检索用表。

在图8中，由步骤S10-1、S10-2、S10-3以及S10-4构成的处理流程是利用字符识别候选组的第1WFST数据本身作为对图像的检索用表，判定在图像中是否存在用户输入关键字的情况的处理流程。该情况下，WFST处理部109对通过步骤S1～S9的一系列处理生成的第1WFST数据以及针对用户输入的关键字的WFST数据（相当于权利要求书中的“第2字符串转移数据”，以下称作“第2WFST数据”。）进行WFST运算处理，由此判定在图像中是否存在关键字。

具体而言，首先，从用户输入关键字，第2字符串转移数据生成部107生成对该关键字的第2WFST数据（步骤S10-1）。在图8的（A）中将对用户输入的关键字（检索词汇）生成的第2WFST数据映像。接着，WFST处理部109使用在步骤S10-1中生成的第2WFST数据和通过步骤S1～S9的一系列的处理生成的第1WFST数据进行WFST合成运算（步骤S10-2）。接着，WFST处理部109根据在步骤S10-2中的WFST合成运算的结果进行求出最佳路径的运算（步骤S10-3）。最后，字符串检测部110根据最佳路径的运算结果输出有无用户输入关键字的判定结果，或者该判定结果中的权重（步骤S10-4）。

此外，在图8中，由步骤S10-5、S10-6、S10-7、S10-8以及S10-9构成的处理流程是与词汇DB111的WFST运算处理的词汇检测的情况下的处理流程。该情况下，WFST处理部109对通过步骤S1～S9的一系列处理生成的第1WFST数据和在词汇DB111中存在的各词汇的WFST数据（相当于权利要求书中的“第3字符串转移数据”，以下称作“第3WFST数据”。）进行WFST运算处理，由此检测在图像中存在的词汇。

具体而言，首先，第3字符串转移数据生成部108生成在词汇DB111中存在的各词汇的第3WFST数据（步骤S10-5）。接着，WFST处理部109使用在步骤S10-5中生成的第3WFST数据和通过步骤S1～S9的一系列处理生成的第1WFST数据进行WFST合成运算（步骤S10-6）。接着，WFST处理部109根据在步骤S10-6中的WFST合成运算的结果，进行求出最佳路径的运算（步骤S10-7）。最后，字符串检测部110按照最佳路径中的权重值顺序输出词汇（步骤S10-8）。并且，在辞典处于分类别的情况下，或者存在分类信息辞典的情况下，输出分类信息（步骤S10-9）。

（WFST合成运算）

图9中示出WFST合成运算（图8的步骤S10-2和10-6）映像。WFST合成运算是对由两个WFST数据表现的状态转移进行比较，并取出以共同的单个字符为单位的词汇的转移的运算。至于WFST合成运算的结果，根据合成的两个转移的权重值重新计算各转移具有的权重值，WFST合成运算的结果为根据状态转移的权重值计算出最佳路径（权重小的转移）上位而得到的结果。另外，在过分割的情况下，WFST处理部109输出在多种分割区域的全体中累计权重值为上位的状态转移的结果，作为WFST合成运算的结果。

在词汇检测（由步骤S10-5～S10-9构成的处理流程）中，进行图9的（A）中示出那样的字符识别候选组的第1WFST数据（与图5所示的相同）与图9的（B）中示出那样的词汇DB111中的词汇数据的第3WFST数据的WFST合成运算，取出转移的权重为上位的词汇（即仅取出与词汇数据匹配的路径），由此按照权重值的顺序检测词汇。图9的（C）示出取得了“ドコモ”、“人毛”、“人口”作为WFST合成运算的结果，各自的权重值分别是“0.2+0.2+0.2=0.6”、“0.6+2.0+0.4=2.8”、“0.6+0.6=1.2”的情况。因此，检测到权重值最小的“ドコモ”作为最佳路径，字符串检测部110输出“ドコモ”作为词汇检测的结果。此外，由于存在用于跳过字符的ε转移，还能够进行将“天ぷらおむすび”检测为“天むす”等的略称检测。此外，在词汇DB111为大规模的结构的情况下，存在即便没有完全一致的词汇也可以取出词汇的一部分作为正确结果词汇的情况。

在检索用表的情况下（由步骤S10-1～S10-4构成的处理流程），通过第2WFST数据来表现想要在图像中查找的检索关键字，进行与字符识别候选组的第1WFST数据的WFST合成运算。判定在该WFST合成运算中，是否通过合成的两个WFST数据的转移得到从初始状态向最终状态的转移。由此，能够判定字符识别候选组中是否存在检索关键字，即在图像中是否存在用户输入的关键字。此外，还能够根据转移的权重值对多个图像赋予次序。在图9的例中，当用户输入的关键字例如是“ドコモ”，“人毛”，“人口”中的任意一个时，能够通过合成的两个WFST数据的转移得到从初始状态向最终状态的转移，因此判定为该用户输入的关键字存在于图像中。但是，“ドコモ”、“人毛”、“人口”的权重值分别是“0.2+0.2+0.2=0.6”、“0.6+2.0+0.4=2.8”、“0.6+0.6=1.2”，因此检测出权重值最小的“ドコモ”作为最佳路径。在用户输入的关键字是“ドコモ”的情况下，字符串检测部110输出最小的权重值作为词汇检索的结果。

如图9的（C）所示，通过将初始状态设为相同的逐个字符的词汇的转移来表示图9的（B）中例示的词汇数据。此外，也可以利用由另行统计处理等得到的频度信息、利用者输入的学习信息或者词汇的字符串长度等来赋予权重。此外，作为比较的对象的第1WFST数据与第2WFST数据以及第1WFST数据与第3WFST数据并不需要分别一定是相同形式的数据，只要是表示字符的状态转移的数据，并且是可以进行比较的程度的数据形式即可。

（WFST合成运算，变形1）

在本实施方式中，在WFST合成运算中假定了各种变形，以下，对变形1进行说明。在变形1中，词汇DB111具有对词汇的分类信息，第2字符串转移数据生成部107或者第3字符串转移数据生成部108附加该分类信息而生成第2WFST数据或者第3WFST数据，WFST处理部109附加该分类信息而进行WFST合成运算，并输出其结果。即，在变形1中，作为词汇DB111，通过将输入作为词汇、将输出作为分类信息的WFST数据与附加了分类信息的词汇DB111的WFST数据的合成运算，能够在检测关键字的同时取得用于分类的信息或者对关键字附加分类信息。该情况下，为了能够使同一词汇具有多个分类信息，在词汇DB111的最终状态的输入中附加分类信息的连续编号，在输出中附加分类信息（即分类信息的内容）。此外，在根据字符识别生成的第1WFST数据的最终状态中，附加向在词汇DB111上的同一词汇中使用的分类信息的最大数量个连续编号的转移。

图10示出变形1中的处理的一例。图10的（A）示出附加了分类信息的词汇数据的一例。在检索用表的情况下，图10的（A）示出第2字符串转移数据生成部107生成的带分类信息的第2WFST数据。在词汇检测的情况下，则图10的（A）示出第3字符串转移数据生成部108生成的带分类信息的第3WFST数据。分类信息是用于识别同一词汇的多个类别的信息。例如，对词汇“つばめ”附加了连续编号为“0000”和“0001”这两个分类信息即“新干线”和“鸟类”。另外，图10的（A）中的“<eps>”是示出WFST运算处理中的空的转移的标号，是各字符（例如“つ”、“ば”、“め”等）是输入的情况下的输出。图10的（B）示出对字符识别的结果附加分类信息的连续编号并转换为第1WFST数据的情况。例如，在字符识别的结果“つばめ”中，在其WFST数据的最终状态中，附加了向词汇DB111中在词汇“つばめ”中使用的分类信息的最大数量个连续编号（在图10的例中为连续编号“0000”和“0001”这两个编号）的转移。进行图10的（A）所示的第2WFST数据或者第3WFST数据与图10的（B）所示的第1WFST数据的合成运算，图10的（C）示出合成运算的结果。在比较了两个WFST数据之后，仅取出了两个匹配的路径，但是，通过<eps>空转移，作为图10的（C）的结果仅示出了分类信息。

图11示出与图10的情况同样的情况，但不同之处在于字符识别的结果是“すずめ”。图11的（C）中示出了合成运算的结果，在比较了两个WFST数据之后，仅取出了一个匹配的路径，但是，与图10的（C）同样，通过<eps>空转移，作为结果仅示出分类信息。

图12示出与图10的情况同样的情况，但不同之处在于没有<eps>转移。图12的（C）中示出了合成运算的结果，在比较了两个WFST数据之后，仅取出了两个匹配的路径，但是，由于没有<eps>转移，因此作为结果示出了词汇和分类信息双方。

（WFST合成运算，变形2）

接着，对变形2进行说明。在变形2中，如图13所示，字符识别装置1还具有词汇分类关联性矢量存储部112（相当于权利要求书中的“词汇分类关联性矢量存储单元”）。词汇分类关联性矢量存储部112用于存储示出词汇与分类信息的关联性的词汇分类关联性矢量。第1字符串转移数据生成部106将自身生成的第1WFST数据中的字符识别处理结果的候选和该候选的权重值与词汇分类关联性矢量的值相加。接着，第1字符串转移数据生成部106将值最大的分类信息作为与该候选对应的分类信息，基于该分类信息修正对于该候选的权重值。然后，WFST处理部109根据该修正后的权重值进行WFST合成运算。

即，在变形2中，利用同义关系数据库预先将分类信息与词汇的关联性作为表进行准备，由此能够变更分类信息的优先级。例如，如图14那样，如果具有食物菜单作为词汇，具有以矢量表示食物类别的关系性的排列（图14的（B），词汇分类关联性矢量）作为分类信息，则将检测词汇的矢量相加，能够检测出矢量最大的食物类别作为检测词汇的食物类别。相反，通过根据取得的类别的顺序或矢量值重新决定词汇的权重，还能够变更所检测到的食物菜单的优先级。

图14的（A）示出在字符识别中检测到的词汇（“餃子”，“スープ”等，各食物菜单），图14的（B）示出各食物菜单与食物类别的对应表（词汇分类关联性矢量）。图14的（C）示出参照图14的（B）的对应表，计算与图14的（A）的各食物菜单对应的矢量值的例子。在该例中，由于对“中餐”计算出最高的矢量值，因此将图14的（A）所示的词汇的类别判断为“中餐”。最后，图14的（D）示出反映了图14的（C）中判断出的类别“中餐”，并修正了对图14的（A）的各食物菜单的权重值后的情况。

图15是示出图14的（D）所示的修正权重值的计算过程的图。通过图15的（A）～（D）的步骤，计算图14的（D）所示的修正权重值。图15的（A）示出检测到的类别权重值的和，相当于图14的（B）和（C）。图15的（B）示出取图14的（A）所示的词汇权重值的倒数，即取（1/词汇权重值），并乘以各词汇的类别权重值的情况。例如，对于“餃子”，取图14的（A）所示的词汇权重值即“0.3”的倒数，即取“1/0.3”，并分别与图15的（A）所示的类别权重值“0，1.0，0”相乘，由此得到“0，3.33，0”的计算结果。同样地，对于“スープ”，取图14的（A）所示的词汇权重值即“0.45”的倒数，即“1/0.45”，并分别乘以图15的（A）所示的类别权重值“0，0.3，0.7”，由此得到“0，0.67，1.56”的计算结果。

图15的（C）示出将图15的（B）的结果与图15的（A）的和相乘的情况。例如，对于“餃子”，将图15的（B）的结果即“0，3.33，0”分别与图15的（A）的和即“0.5，2.8，0.7”相乘，由此得到“0，9.33，0”的计算结果。同样地，对于“スープ”，将图15的（B）的结果即“0，0.67，1.56”分别与图15的（A）的和即“0.5，2.8，0.7”相乘，由此得到“0，1.87，1.09”的计算结果。

最后，图15的（D）示出对各词汇按照每个类别分别将图15的（C）的计算结果相加，并将相加得到的值的倒数作为修正权重值的情况。例如，对于“餃子”，对图15的（C）的结果即“0，9.33，0”将每个类别的数值全部相加得到“9.33”的计算结果。然后，取其倒数而得到修正权重值“0.11”的计算结果。同样地，对于“スープ”，对图15的（C）的结果即“0，1.87，1.09”将每个类别的数值全部相加得到“2.96”的计算结果。然后，取其倒数而得到修正权重值“0.34”的计算结果。

（WFST合成运算，变形3）

接着，对变形3进行说明。在变形3中，在WFST数据中附加“位置信息”。即，当输出字符识别处理结果的候选时，字符识别部105一并输出该候选在图像内的位置信息。可以设置用于取得图像内的位置信息的另外的单元，也可以由字符识别部105进行该取得。而且，第1字符串转移数据生成部106附加该位置信息而生成第1WFST数据，WFST处理部109和字符串检测部110附加该位置信息而进行WFST合成运算，并输出其结果。在变形3中，由于通过WFST合成运算本身无法确定到检测词汇的位置，因此另外准备表（参照下述的图16的（C））来存储原来的位置信息，并将该表编号附加到状态转移中。这样，所检测到的结果中也带有该表编号，因此能够确定原来的位置信息（参照图16的（D）和（E））。

图16是用于示出变形3中的各功能要素的动作的图。图16的（C）示出字符识别部105输出的位置信息。位置信息作为位置信息表被输出，通过x1和y1示出各字符的左上的坐标，通过x2和y2示出各字符的右下的坐标。此外，各位置信息通过“0000”、“0001”等连续编号来识别。当输出字符识别处理结果的候选时，字符识别部105一并输出图16的（C）所示那样的连续编号。图16的（B）示出第1字符串转移数据生成部106生成的带位置信息的第1WFST数据。与图5的第1WFST数据相比，不同点在于附加了位置信息的连续编号。另外，省略了用于跳过字符的加权ε转移。

图16的（A）示出附加了位置信息（更准确地讲是位置信息的连续编号）的词汇数据的一例。在检索用表的情况下，图16的（A）示出第2字符串转移数据生成部107生成的带位置信息的第2WFST数据。在词汇检测的情况下，图16的（A）示出第3字符串转移数据生成部108生成的带位置信息的第3WFST数据。如图16的（A）所示，在转移的最初和最后附加有位置信息的连续编号，所附加的连续编号的数量与图16的（C）所示的位置信息的数量的最大数相同。在该例中，位置信息的数量的最大数是从“0000”到“9999”的1万个。

图16的（D）示出进行了图16的（A）的第2WFST数据或者第3WFST数据与图16的（B）的第1WFST数据的合成运算的结果。在合成运算的结果中附加了位置信息的连续编号。而且，如图16的（E）所示，通过对照在合成运算的结果中附加的连续编号与图16的（C）的位置信息表，能够确定“ライン”、“スソ”等字符识别的结果位于图像内的哪个位置。

在仅利用一个重复位置的词汇的情况下，另外生成已经检测出字符位置的判定用排列，将从最佳路径上位起与检测词汇的字符位置对应的排列位置设为已经检测。在已经检测出排列的情况下，判定为词汇重叠，仅利用从同一位置检测到的关键字的优先次序高的词汇。这样，以填补间隙的方式配置词汇，由此可以利用优先次序高的词汇来进行字符识别结果的校正。

（WFST合成运算，变形4）

接着，对变形4进行说明。在以分隔书写为前提的语言的情况下，与日语相比，构成的字符的变形较少，因此在利用图5那样的字符识别候选组的WFST数据的情况下，可能会像例如从“pencil”的一部分中仅检测到“pen”那样，仅检测出单词的一部分。因此，在变形4中，在WFST数据中附加“分隔识别信息（相当于权利要求书中的“识别信息”）”。

即，当输出字符识别处理结果的候选时，字符识别部105一并输出表示单词间的分隔的分隔识别信息。在字符识别中，在识别为是分隔的字符的情况下，即识别出的字符是例如空格、句号、括号等符号的情况下，输出分隔识别信息。然后，第1字符串转移数据生成部106附加该分隔识别信息而生成带分隔识别信息的第1WFST数据。此外，第2字符串转移数据生成部107和第3字符串转移数据生成部108也附加分隔识别信息而分别生成带分隔识别信息的第2WFST数据和第3WFST数据。除了在上述空格、句号、括号等符号的情况下附加分隔识别信息外，还在单词的最初和最后附加。然后，当进行用于WFST处理的状态转移时，WFST处理部109以被两个分隔识别信息而分隔的部分为单位进行该状态转移。

图17是用于示出变形4中的各功能要素的动作的图。图17的（B）示出图像中的字符串是“{two pens}”的情况下，第1字符串转移数据生成部106生成的带分隔识别信息的第1WFST数据。识别出符号“{”的字符识别部105输出该字符识别处理结果，并输出分隔识别信息。第1字符串转移数据生成部106取得这些信息后，生成以符号“{”为输入、分隔识别信息“<sp>”为输出的带识别信息的第1WFST数据。关于符号“}”也是同样的。关于“two”与“pens”之间的空格，当字符识别部105将字符识别的结果是空格的情况输出后，第1字符串转移数据生成部106生成对该空格分配了分隔识别信息后的带分隔识别信息的第1WFST数据。另外，在图17中，省略了从初始状态向中间状态的ε转移、从中间状态向最终状态的ε转移、以及用于跳过字符的加权ε转移。

图17的（A）示出附加了分隔识别信息的分隔书写用的词汇数据的一例。在检索用表的的情况下，图17的（A）示出第2字符串转移数据生成部107生成的带分隔识别信息的第2WFST数据。在词汇检测的的情况下，图17的（A）示出第3字符串转移数据生成部108生成的带分隔识别信息的第3WFST数据。如图17的（A）中所示，在单词的最初和最后附加了分隔识别信息“<sp>”。此外，对于在英语中表示复数形式的“s”，使输出为“<esp>”。由此，能够使复数形式的“s”在合成运算的结果中不产生影响。

图17的（C）中示出进行了图17的（B）所示的第1WFST数据与图17的（A）所示的第2WFST数据或者第3WFST数据的合成运算的结果。WFST处理部109在进行状态转移时，以被两个分隔识别信息分隔的部分为单位进行该状态转移，即以图17的（B）所示的“two”或“pens”为单位进行该状态转移，进行与图17的（A）的第1WFST数据的合成运算，因此输出“pen”作为结果。

与此相对，图17的（D）示出在图像中的字符串是“pencil．”的情况下，第1字符串转移数据生成部106生成的带分隔识别信息的第1WFST数据。字符识别部105识别出符号“．”后输出该字符识别处理结果，并输出分隔识别信息。第1字符串转移数据生成部106收到这些信息后，生成以符号“．”为输入、分隔识别信息“<sp>”为输出的带识别信息的第1WFST数据。在图17的（E）中示出进行了图17的（D）所示的第1WFST数据与图17的（A）所示的第2WFST数据或者第3WFST数据的合成运算的结果。WFST处理部109在进行状态转移时，以被两个分隔识别信息分隔的部分为单位进行该状态转移，即以图17的（D）所示的“pencil”为单位进行该状态转移，进行与图17的（A）的第1WFST数据的合成运算，因此未检测到匹配的词汇。由此，能够防止从“pencil”的一部分中仅检测出“pen”等仅检测出单词的部分拼写的情况。

图18是用于示出对于组合了分隔书写的语言的词汇与非分隔书写的语言的词汇的情况下的、变形4中的各功能要素的动作的图。在以下说明的方法中，在字母与字母以外的字符之间的转移中附加分隔的识别信息的转移和ε转移。由此，即便字母与字母以外的字符没有分隔地存在的情况下，也能够同时进行由字母构成的词汇的检测，以及组合了字母和字母以外的字符的词汇的检测。

图18的（A）示出第1字符串转移数据生成部106最初生成的带分隔识别信息的第1WFST数据。以与图17相同的要领生成第1WFST数据，在单词的最初和最后附加分隔识别信息“<sp>”。图18的（B）示出第1字符串转移数据生成部106修正图18的（A）而生成的带分隔识别信息的第1WFST数据。在字母与字母以外的字符之间的转移中，即在分隔书写的语言的词汇与非分隔书写的语言的词汇之间的转移中，附加了分隔识别信息。

此外，与分隔识别信息一起附加ε转移“<eps>”，由此还能够对应组合了字母和字母以外的字符的词汇。即，考虑由字母构成的转移和由字母以外的字符构成的转移并列地排列，在字符间的转移中附加如图18的（C）所示那样的状态转移。由此，成为在字母与字母以外的字符之间的转移中附加分隔识别信息“<sp>”的转移的结构。另外，在图18中，省略了从初始状态向中间状态的ε转移、从中间状态向最终状态的ε转移以及用于跳过字符的加权ε转移。

（作为字符识别系统100的结构例）

接着，对本实施方式的其他结构例进行说明。以上，对本发明构成为字符识别装置1的情况进行了说明，但不限于此，如图19所示，本发明也可以构成为具有终端200和服务器300的字符识别系统100。图19是该情况下的结构概要图，终端200和服务器300能够通过通信网络以彼此能够通信的方式连接。

终端200具有以下部分作为功能性的结构要素：图像读入部101（相当于权利要求书中的“图像输入单元”）、图像二值化部102、字符区域检测部103（相当于权利要求书中的“字符区域检测单元”）、字符区域分割部104（相当于权利要求书中的“字符区域分割单元”）、字符识别部105（相当于权利要求书中的“字符识别单元”）、第1字符串转移数据生成部106（相当于权利要求书中的“第1字符串转移数据生成单元”）以及第2字符串转移数据生成部107（相当于权利要求书中的“第2字符串转移数据生成单元”）。

服务器300具有以下部分作为功能性的结构要素：第3字符串转移数据生成部108（相当于权利要求书中的“第3字符串转移数据生成单元”）、WFST处理部109（相当于权利要求书中的“有限状态转换单元”）、字符串检测部110（相当于权利要求书中的“字符串检测单元”）以及词汇DB111（相当于权利要求书中的“词汇数据库”）。

关于终端200和服务器300具有的功能性的结构要素各自的说明，与字符识别装置1中说明的内容重复，因而此处省略说明。另外，在本实施方式中，举出了第1字符串转移数据生成部106和第2字符串转移数据生成部107存在于终端200内、第3字符串转移数据生成部108存在于服务器300内的结构例，但不限于此，第1字符串转移数据生成部106、第2字符串转移数据生成部107以及第3字符串转移数据生成部108可以存在于终端200、服务器300中的任意一方中。

能够将图2作为终端200的硬件结构图来参照。如图2所示，终端200构成为通常的计算机系统，该计算机系统在物理上除包含CPU21、ROM22和RAM23等主存储装置、键盘、鼠标外，还包含照相机等用于读入图像的装置或者用于从外部装置读入数据的装置即输入设备24、显示器等输出设备25、用于在与其他装置之间进行数据的发送接收的网卡等通信模块26、以及硬盘等辅助存储装置27等。输入设备24进行的图像的读入可以是由自装置摄影的图像，或者也可以是由其他装置摄影的图像。通过在CPU21、ROM22、RAM23等硬件上读入预定的计算机软件，在CPU21的控制下使输入设备24、输出设备25、通信模块26进行动作，并且进行主存储装置22、23或辅助存储装置27中的数据的读出和写入，由此实现上述终端200的各功能。

能够将图2作为服务器300的硬件结构图来参照。如图2所示，服务器300构成为通常的计算机系统，该计算机系统在物理上除包含CPU31、ROM32和RAM33等主存储装置、键盘、鼠标外，还包含从外部装置读入数据的装置即输入设备34、显示器等输出设备35、用于在与其他装置之间进行数据的发送接收的网卡等通信模块36、以及硬盘等辅助存储装置37等。通过在CPU31、ROM32、RAM33等硬件上读入预定的计算机软件，在CPU31的控制下使输入设备34、输出设备35、通信模块36进行动作，并且进行主存储装置32、33或辅助存储装置37中的数据的读出和写入，由此实现上述的服务器300的各功能。

（作为字符识别程序的结构例）

本发明还能够构成为字符识别程序，能够将关于以上的字符识别装置1的说明理解为关于使计算机作为字符识别装置1进行动作的字符识别程序的说明。虽然省略重复的说明，但字符识别程序使计算机作为以上说明的图像读入部101、图像二值化部102、字符区域检测部103、字符区域分割部104、字符识别部105、第1字符串转移数据生成部106、第2字符串转移数据生成部107、第3字符串转移数据生成部108、WFST处理部109以及字符串检测部110发挥作用。例如将字符识别程序存储在记录介质中来提供。另外，作为记录介质，可例示软盘、CD、DVD等记录介质、ROM等记录介质、或者半导体存储器等。

（本实施方式的作用和效果）

接着，对本实施方式的字符识别装置1的作用和效果进行说明。根据本实施方式的字符识别装置1，由于不利用外部的电话簿等数据库，因此不需要与在该电话簿数据库等中包含的大量的单词知识进行对照，能够实现字符识别处理的高速化。即，根据本实施方式，不是根据字符识别结果来检测单词而进行与外部的单词数据库的对照，而是利用有限状态转换器（WFST）来表现在字符识别装置1内存在的单词/分类信息数据库与字符识别候选组，并进行WFST的合成运算，由此可以高速地进行单词提取/分类信息提取/字符位置提取处理。此外，由于也不需要位置信息取得单元或方位信息取得单元等，因此能够使装置结构简单化。即，可以不使用位置信息取得装置或方位信息取得装置，而仅使用字符识别装置1内的信息进行字符识别。使用这样的装置结构，可以高精度且高速地从情景图像进行字符识别。

此外，在本实施方式中，即便以在图像中会出现噪声的形式来提取字符区域，也可以施加基于WFST运算处理的高度的语言的制约。由此，除了能够除去该噪声外，还能够降低优先次序。因此，即便在明暗的变动或字符的失真等具有情景图像特有的问题的情况下，也能够提高识别精度。

此外，通过在既有方法得到的字符识别结果中应用由本实施方式检测到的词汇，由此能够利用本实施方式的字符识别装置1等作为用于对既有方法的字符识别结果进行纠错的装置。

此外，根据本实施方式，能够利用字符识别候选组的第1WFST数据本身作为对图像的检索用表，将本实施方式的字符识别装置1等有效地利用为判定在图像中是否存在用户输入关键字的装置等。

此外，根据本实施方式，对字符识别候选组的第1WFST数据和词汇DB111中的第3WFST数据进行合成运算，由此能够有效地将本实施方式的字符识别装置1等应用为词汇检测装置等。

此外，根据本实施方式，提供用于第1字符串转移数据生成部106计算权重值的具体的方法。

此外，根据本实施方式，提供用于第1字符串转移数据生成部106修正权重值的具体的方法。此外，通过权重值的修正能够提高词汇的检测精度。

此外，根据本实施方式，即便在字符区域分割部104进行了过分割的情况下也可以适当地应对。

此外，根据本实施方式，使第1WFST数据中包含第1空转移、第2空转移以及第3空转移，由此能够提高第1WFST数据与第2WFST数据或者第3WFST数据的合成运算的精度。

此外，根据本实施方式，通过使用表示分隔的识别信息，对于分隔书写的语言也能够高精度地进行字符识别。此外，对于英语那样的分隔书写的语言和日语那样的非分隔书写的语言的辞典，能够对词汇进行共同的处理。

此外，根据本实施方式，通过使用位置信息，能够确定字符识别的结果位于图像内的哪个位置。

此外，根据本实施方式，通过使用分类信息，能够确定字符识别的结果属于哪个类别。

标号说明

1…字符识别装置，100…字符识别系统，101…图像读入部，102…图像二值化部，103…字符区域检测部，104…字符区域分割部，105…字符识别部，106…第1字符串转移数据生成部，107…第2字符串转移数据生成部，108…第3字符串转移数据生成部，109…处理部，110…字符串检测部，111…词汇DB，200…终端，300…服务器。

产业上的可用性

本发明提供一种能够不使用外部的电话簿等数据库而使用被简单化的装置结构，高精度且高速地进行字符识别的字符识别装置、字符识别方法、字符识别系统以及字符识别程序。

Claims

1.一种字符识别装置，其特征在于，具有：

图像输入单元，其输入包含识别对象字符的图像；

字符区域检测单元，其检测所述图像中的、所述字符存在的区域即字符区域；

字符区域分割单元，其以单个字符为单位分割所述字符区域；

字符识别单元，其对存在于所述字符区域分割单元所分割的分割区域中的所述字符进行每个单个字符的字符识别处理，对单个字符输出1个以上的字符识别处理结果的候选；

第1字符串转移数据生成单元，其输入所述候选，计算针对向所述候选的转移的权重值，生成基于所述候选与所述权重值的组的字符串转移数据即第1字符串转移数据；以及

有限状态转换单元，其根据所述第1字符串转移数据依次进行状态转移，将各状态转移中的权重值累计而计算每个状态转移的累计权重值，根据所述累计权重值输出一个以上的所述状态转移的结果。

2.根据权利要求1所述的字符识别装置，其特征在于，

所述字符识别装置还具有第2字符串转移数据生成单元，该第2字符串转移数据生成单元从用户输入关键字，生成所述关键字的字符串转移数据即第2字符串转移数据，

所述有限状态转换单元对所述第1字符串转移数据与所述第2字符串转移数据进行合成运算，由此判定在所述图像中是否存在所述关键字。

3.根据权利要求1所述的字符识别装置，其特征在于，

所述字符识别装置还具有第3字符串转移数据生成单元，该第3字符串转移数据生成单元生成在词汇数据库中存在的各词汇的字符串转移数据即第3字符串转移数据，

所述有限状态转换单元对所述第1字符串转移数据与所述第3字符串转移数据进行合成运算，由此检测在所述图像中存在的词汇。

4.根据权利要求1～3中的任意一项所述的字符识别装置，其特征在于，

所述字符识别单元对多个所述候选分别赋予优先次序并进行输出，

所述第1字符串转移数据生成单元根据所述优先次序计算所述权重值。

5.根据权利要求4所述的字符识别装置，其特征在于，

所述字符识别单元使用至少两种以上不同的识别方式进行所述字符识别处理，

所述第1字符串转移数据生成单元根据所述不同的识别方式中的所述候选的输出数量和所述优先次序来计算所述权重值。

6.根据权利要求1～5中的任意一项所述的字符识别装置，其特征在于，

所述第1字符串转移数据生成单元考虑在语言数据库中登记的单词的字符串转移来计算所述权重值。

7.根据权利要求1～6中的任意一项所述的字符识别装置，其特征在于，

所述第1字符串转移数据生成单元根据所述候选在所述图像内的位置、或者所述候选的字符大小来修正所述权重值。

8.根据权利要求1～7中的任意一项所述的字符识别装置，其特征在于，

在所述字符区域分割单元使用多个分割模式来分割所述字符区域，生成了多种所述分割区域的情况下，

所述字符识别单元对所述多种分割区域分别进行所述字符识别处理，

所述第1字符串转移数据生成单元对所述多种分割区域各自的所述候选生成所述第1字符串转移数据，

所述有限状态转换单元输出在所述多种分割区域全部中所述累计权重值为上位的状态转移结果作为所述结果。

9.根据权利要求1～8中的任意一项所述的字符识别装置，其特征在于，

所述第1字符串转移数据生成单元将从字符串转移的初始状态向所述候选的空转移即第1空转移、从所述候选向字符串转移的最终状态的空转移即第2空转移、用于以单个字符为单位跳过所述候选的空转移即第3空转移包含在内而生成所述第1字符串转移数据。

10.根据权利要求1～9中的任意一项所述的字符识别装置，其特征在于，

所述字符识别单元在输出所述字符识别处理结果的所述候选时，一并输出表示单词间的分隔的识别信息，

所述第1字符串转移数据生成单元附加所述识别信息来生成所述第1字符串转移数据，

所述有限状态转换单元在进行所述状态转移时，以被两个所述识别信息分隔的部分为单位来进行所述状态转移。

11.根据权利要求1～10中的任意一项所述的字符识别装置，其特征在于，

所述字符识别单元在输出所述字符识别处理结果的所述候选时，一并输出该候选在所述图像内的位置信息，

所述第1字符串转移数据生成单元附加所述位置信息来生成所述第1字符串转移数据，

所述有限状态转换单元附加所述位置信息来输出所述结果。

12.根据权利要求2～11中的任意一项所述的字符识别装置，其特征在于，

所述词汇数据库具有对词汇的分类信息，

所述第2字符串转移数据生成单元或者所述第3字符串转移数据生成单元附加所述分类信息来生成所述第2字符串转移数据或者所述第3字符串转移数据，

所述有限状态转换单元附加所述分类信息来输出所述结果。

13.根据权利要求12所述的字符识别装置，其特征在于，

所述字符识别装置具有词汇分类关联性矢量存储单元，该词汇分类关联性矢量存储单元存储表示词汇与所述分类信息的关联性的词汇分类关联性矢量，

所述第1字符串转移数据生成单元将所述第1字符串转移数据中的所述候选以及所述权重值与所述词汇分类关联性矢量的值相加，将值最大的分类信息作为与所述候选对应的分类信息，基于该分类信息修正对于该候选的所述权重值。

14.一种字符识别方法，其特征在于，具有：

图像输入步骤，图像输入单元输入包含识别对象字符的图像；

字符区域检测步骤，字符区域检测单元检测所述图像中的、所述字符存在的区域即字符区域；

字符区域分割步骤，字符区域分割单元以单个字符为单位分割所述字符区域；

字符识别步骤，字符识别单元对存在于所述字符区域分割单元所分割的分割区域中的所述字符进行每个单个字符的字符识别处理，对单个字符输出1个以上的字符识别处理结果的候选；

第1字符串转移数据生成步骤，第1字符串转移数据生成单元输入所述候选，计算针对向所述候选的转移的权重值，生成基于所述候选与所述权重值的组的字符串转移数据即第1字符串转移数据；以及

有限状态转换步骤，有限状态转换单元根据所述第1字符串转移数据依次进行状态转移，将各状态转移中的权重值累计而计算每个状态转移的累计权重值，根据所述累计权重值输出一个以上的所述状态转移的结果。

15.一种字符识别系统，其包含终端和服务器，该字符识别系统的特征在于，

所述终端具有：

图像输入单元，其输入包含作为识别对象的字符的图像；

字符识别单元，其对存在于所述字符区域分割单元所分割的分割区域中的所述字符进行每个单个字符的字符识别处理，对单个字符输出1个以上的字符识别处理结果的候选；以及

第1字符串转移数据生成单元，其输入所述候选，计算针对向所述候选的转移的权重值，生成基于所述候选与所述权重值的组的字符串转移数据即第1字符串转移数据，

所述服务器具有：

16.一种字符识别程序，其特征在于，使计算机作为以下单元进行动作：

图像输入单元，其输入包含作为识别对象的字符的图像；