CN103714332B

CN103714332B - 字符识别设备和字符识别方法

Info

Publication number: CN103714332B
Application number: CN201310286604.2A
Authority: CN
Inventors: 织田英人
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2012-10-01
Filing date: 2013-07-09
Publication date: 2018-09-07
Anticipated expiration: 2033-07-09
Also published as: US9135525B2; CN103714332A; JP6003492B2; JP2014071813A; US20140093161A1

Abstract

公开了字符识别设备和字符识别方法。一种字符识别设备，包括估计值输出单元、生成单元、学习单元以及确定单元。估计值输出单元针对每个互不相同的字符识别程序输出多个估计值。每个估计值均指示字符图案与每个字符码的对应程度。生成单元生成关于字符图案的特征信息。特征信息包括由估计值输出单元输出的估计值作为元素。基于字符图案的特征信息，学习单元学习以逐个字符码为基础对特征信息的多种分类。确定单元基于如下条件来确定未知字符图案的字符码，所述条件是在所学习的以逐个字符码为基础对特征信息的多种分类当中的哪一种分类包括了由生成单元生成的关于该未知字符图案的特征信息。未知字符图案是字符码未知的字符图案。

Description

字符识别设备和字符识别方法

技术领域

本发明涉及字符识别设备和字符识别方法。

背景技术

一些字符识别程序用于识别由人绘制的手写字符的字符码。在日本未审查专利申请公开第8-96082号中，描述了目的在于通过相互比较从多个字符识别程序获得的各输出结果来改进字符识别的准确度的发明。

对于一些字符，字符识别程序可能以高准确度输出结果，而对于另一些字符，该字符识别程序可能以低准确度输出结果。当仅以简单方式比较来自字符识别程序的各输出结果时，很难考虑这样的情况。

发明内容

本发明的目的在于提供一种字符识别设备和字符识别方法，其通过使用将不同的字符识别方法相互结合的统计的机器学习来以高准确度获得字符识别结果。

根据本发明的第一方面，提供一种字符识别设备，其包括估计值输出单元、生成单元、学习单元、以及确定单元。估计值输出单元针对每个互不相同的字符识别程序输出多个估计值。每个估计值都指示已被输入的字符图案与将使用字符识别程序识别的每个字符码的对应程度。生成单元生成关于已被输入的字符图案的特征信息。特征信息包括通过估计值输出单元输出的估计值作为元素。基于由生成单元生成的关于预先指定了字符码的字符图案的特征信息，学习单元学习以逐个字符码为基础对特征信息的多种分类。确定单元基于如下条件来确定未知字符图案的字符码，其中所述条件是在所学习的以逐个字符码为基础对特征信息的多种分类当中的哪一种分类包括了由生成单元生成的关于该未知字符图案的特征信息。未知字符图案是字符码未知的字符图案。

根据本发明的第二方面，在根据第一方面的字符识别设备中，字符识别程序包括第一字符识别程序和第二字符识别程序。将由第一字符识别程序识别的至少一些字符码与将由第二字符识别程序识别的至少一些字符码匹配。

根据本发明的第三方面，根据第一或第二方面的字符识别设备还包括指定单元和添加单元。对于预先指定了字符码的每个字符图案，指定单元将针对字符图案由确定单元确定的字符码与针对字符图案指定的字符码进行比较，并且基于通过比较获得的结果来指定准确率等于或小于阈值的字符码。添加单元将用于对指定单元所指定的字符码进行识别的字符识别程序添加到估计值输出单元。

根据本发明的第四方面，提供一种字符识别方法，包括以下步骤：针对每个互不相同的字符识别程序输出估计值，每个估计值均指示已被输入的字符图案与将使用字符识别程序来识别的每个字符码的对应程度；生成关于已被输入的字符图案的特征信息，特征信息包括估计值作为元素；基于所生成的关于预先指定了字符码的字符图案的特征信息，学习以逐个字符码为基础对特征信息的多种分类；以及基于如下条件来确定未知字符图案的字符码，其中所述条件是在所学习的以逐个字符码为基础对特征信息的多种分类当中的哪一种分类包括了所生成的关于该未知字符图案的特征信息，未知字符图案是字符码未知的字符图案。

根据第一和第四方面，与不使用本发明的配置的情况相比，通过使用相互结合不同的字符识别方法的统计的机器学习，获得了具有高准确度的字符识别结果。

根据本发明的第二方面，与不使用通过不同字符识别方法所获得的针对相同字符码的多个结果来执行估计的情况相比，获得了具有高准确度的字符识别结果。

根据本发明的第三方面，通过添加被配置成用于对其他字符识别方法输出了具有低准确度的结果的字符码进行识别的字符识别方法，获得了具有高准确度的字符识别结果。

附图说明

将基于附图详细地描述本发明的示例性实施例，其中：

图1是根据示例性实施例的字符识别设备的功能框图；

图2是用于描述生成特征矢量的处理的示图；

图3是学习处理的流程图；

图4是字符识别处理的流程图；以及

图5是设置字符识别引擎的处理的流程图。

具体实施方式

以下将参考附图描述用于实现本发明的示例性实施例（此后称为示例性实施例）。

功能块

图1示出根据示例性实施例的字符识别设备1的功能框图。如图1中所示，字符识别设备1包括培训数据获取单元11、字符图案输入单元12、字符识别引擎管理单元13、特征矢量生成单元14、鉴别器培训单元15、鉴别器数据保持单元16、未知图案获取单元17、字符辨识单元18、以及辨识结果输出单元19。

包括在字符识别设备1中的上述单元的功能可以以计算机读取并随后执行存储在计算机可读信息存储介质中的程序的方式实现，所述计算机包括诸如中央处理单元（CPU）之类的控制单元、诸如存储器之类的存储单元、以及从外部装置接收数据/将数据发送到外部装置的输入/输出单元。可以经由诸如光盘、磁盘、磁带、磁光盘、或闪存之类的信息存储介质来将程序提供给作为计算机的字符识别设备1。可替换地，可以经由诸如互联网之类的数据通信网络来提供程序。

培训数据获取单元11获取用于对识别字符的鉴别器（辨识模型）进行培训的培训数据。例如，当培训数据是离线字符图案时，培训数据可以包括关于字符图案的信息和由该字符图案指示的字符码。当培训数据是在线字符图案时，培训数据可以包括关于字符图案的信息、该字符图案的笔划顺序数据（笔划数据）、以及由该字符图案指示的字符码。

字符图案输入单元12将通过以下描述的培训数据获取单元11和未知图案获取单元17所获取的字符图案输入到字符识别引擎管理单元13中。对于离线字符图案，字符图案输入单元12将字符图案（字符图像）输入到字符识别引擎管理单元13中，而对于在线字符图案，字符图案输入单元12将字符图案（字符图像）及其笔划顺序数据输入到字符识别引擎管理单元13中。

字符识别引擎管理单元13包括多个字符识别引擎，即，字符识别程序，并且对将信息输入到字符识别引擎和将信息从字符识别引擎输出进行管理。

字符识别引擎管理单元13包括互不相同的字符识别引擎E₁至E_N（其中，N是等于或大于2的整数）。字符识别引擎E₁至E_N可以是用于离线字符识别的引擎，或者可以是用于在线字符识别的引擎。字符识别引擎E_i（其中，i是从1到N中的任何整数）被配置成识别数量为M_i的字符码，而且生成并随后输出M_i维估计矢量W_i，该矢量的元素是与相应M_i个字符码相对应的关于已从字符图案输入单元12输入的字符图案的估计值（诸如，可能性、相似性、或距离）。将由字符识别引擎E_i识别的字符码可能不同于将由其它字符识别引擎识别的字符码。可替换地，将由字符识别引擎E_i识别的至少一些字符码可能与将由其它字符识别引擎识别的至少一些字符码匹配。

特征矢量生成单元14根据各估计矢量来生成针对已由字符图案输入单元12输入到字符识别引擎管理单元13的字符图案的特征矢量，其中各估计矢量中的每个估计矢量是按照字符图案从包括在字符识别引擎管理单元13中的字符识别引擎E₁至E_N中的相应一个输出的。

图2是用于描述生成特征矢量的处理的示图。如图2中所示，特征矢量生成单元14顺序地将从各个字符识别引擎E₁至E_N输出的估计矢量W₁至W_N连接起来，以生成（M₁+M₂+...+M_N）维特征矢量W。在图2中，S_i(x,c_j)表示正确度，诸如，可能性、距离、或相似性，其指示字符图案X有多大可能对应于字符识别引擎E_i中的第j个字符码（其中，j是编号）。

鉴别器培训单元15基于由特征矢量生成单元14生成的特征矢量和针对字符图案确定的字符码来使得鉴别器学习由培训数据获取单元11获取的培训数据中的字符图案。特别是，诸如AdaBoost或支持矢量机器之类的机器学习模型可以用作鉴别器。鉴别器培训单元15可以基于以逐个字符码为基础的特征矢量组来生成用于识别字符码的参数。

鉴别器数据保持单元16保持由鉴别器培训单元15生成的参数。

未知图案获取单元17获取将被识别的字符图案。例如，未知图案获取单元17可以获取被输入到连接至字符识别设备1的输入设备（诸如，触摸板）中的手写字符来作为未知图案。

字符图案输入单元12将由未知图案获取单元17获取的未知图案输入到字符识别引擎管理单元13中。然后，每个字符识别引擎E₁至E_N生成针对该未知图案的估计矢量。特征矢量生成单元14基于由字符识别引擎E₁至E_N生成的估计矢量来生成针对未知图案的特征矢量。针对未知图案生成特征矢量的处理类似于针对包括在培训数据中的字符图案生成特征矢量的处理。

字符辨识单元18基于由特征矢量生成单元14生成的针对未知图案的特征矢量和保持在鉴别器数据保持单元16中的并且是通过学习对字符码的辨识而获得的参数，来辨识对应于未知图案的字符码。

辨识结果输出单元19输出由字符辨识单元18辨识的字符码。例如，辨识结果输出单元19生成用于输出由字符辨识单元18辨识的字符码的输出信息，并且可以将输出信息输出到例如连接到字符识别设备1的显示器或打印机。

流程图

以下将参考图3至图5中的流程图来详细描述在字符识别设备1中执行的处理。

学习处理

图3是在字符识别设备1中执行的学习处理的流程图。学习处理是使得鉴别器基于培训数据（指导数据）来学习对字符码的辨识的处理。

如图3中所示，字符识别设备1将变量l（其中，1是从1到L中的任何整数）设置为1作为初始值（在步骤S101中），并且选择培训数据D₁（在步骤S102中）。

然后，字符识别设备1将变量i（其中，i是从1到N中的任何整数）设置为1作为初始值（在步骤S103中），并且选择字符识别引擎E_i（在步骤S104中）。

然后，字符识别设备1将变量j（其中，j是从1到Mi中的任何整数，并且M_i指示了字符识别引擎E_i能够辨识的字符的数量）设置为1作为初始值（在步骤S105中），计算指示了培训数据D_l有多大可能对应于字符识别引擎E_i中的第j个字符的得分w_j（在步骤S106中），并且添加所计算的得分w_j作为特征矢量W_l的元素（在步骤S107中）。

如果第j个字符不是字符识别引擎E_i中的最后一个字符，即，不满足表达式j=M_i（在步骤S108中为否），则字符识别设备1使j增加1（在步骤S109中），并且处理返回到步骤S106。如果第j个字符是字符识别引擎E_i中的最后一个字符，即，满足表达式j=M_i（在步骤S108中为是），则字符识别设备1确定变量i是否达到N，即，培训数据D_l是否已被最后一个字符识别引擎处理（在步骤S110中）。

如果变量i未达到N（在步骤S110中为否），则字符识别设备1使i增加1（在步骤S111中），并且处理返回到步骤S104。如果变量i达到N（在步骤S110中为是），则字符识别设备1确定变量l是否到达L，即，最后一个培训数据是否已被处理（在步骤S112中）。

如果变量l未达到L（在步骤S112中为否），则字符识别设备1使l增加1（在步骤S113中），并且处理返回到步骤S102。如果变量l达到L（在步骤S112中为是），则字符识别设备1基于针对各段培训数据D₁至D_L生成的特征矢量W₁至W_L通过学习对在鉴别器中的字符码的辨识来计算学习参数（在步骤S114中），存储所计算的学习参数（在步骤S115），并且结束处理。

字符识别处理

以下将描述识别未知字符图案并且由已学习了对字符码的辨识的鉴别器所执行的处理（字符识别处理）。

图4是在字符识别设备1中执行的字符识别处理的流程图。如图4中所示，字符识别设备1获取未知字符图案P（在步骤S201中）。

然后，字符识别设备1将变量i（其中，i是从1到N中的任何整数）设置为1作为初始值（在步骤S202中），并且选择字符识别引擎E_i（在步骤S203中）。

然后，字符识别设备1将变量j（其中，j是从1到M_i中的任何整数，并且M_i指示了字符识别引擎E_i能够辨识的字符的数量）设置为1作为初始值（在步骤S204中），计算指示了字符图案P有多大可能对应于字符识别引擎E_i中的第j个字符的得分w_j（在步骤S205中），并且添加所计算的得分w_j作为特征矢量W_P的元素（在步骤S206中）。

如果第j个字符不是字符识别引擎E_i中的最后一个字符，即，不满足表达式j=M_i（在步骤207中为否），则字符识别设备1使j增加1（在步骤S208中），并且处理返回到步骤S205。如果第j个字符是字符识别引擎E_i中的最后一个字符，即，满足表达式j=M_i（在步骤S207中为是），则字符识别设备1确定变量i是否达到N，即，字符图案P是否已被最后一个字符识别引擎处理（在步骤S209中）。

如果变量i未达到N（在步骤209中为否），则字符识别设备1使i增加1（在步骤S210中），并且处理返回到步骤S203。如果变量i达到N（在步骤S209中为是），则字符识别设备1基于针对未知字符图案P生成的特征矢量W_P和已通过由鉴别器执行的学习获得的学习参数来辨识对应于字符图案P的字符（在步骤S211中），输出辨识结果（在步骤S212中），并且结束处理。

设置字符识别引擎的处理

以下将描述在学习处理之后执行的设置字符识别引擎的处理。

图5是设置字符识别引擎的处理的流程图。设置字符识别引擎的处理是这样的处理：当学习了对字符码的辨识的鉴别器具有针对字符码不足的辨识率时，添加字符识别引擎以补充对辨识率不足的字符码的辨识。

如图5中所示，字符识别设备1将变量k（其中，k是从1到K中的任何整数）设置为1作为初始值（在步骤S301中），并且选择测试数据T_k（在步骤S302中）。测试数据可以是包括字符图案和字符图案的字符码的信息，其类似于培训数据。

然后，字符识别设备1将变量i（其中，i是从1到N中的任何整数）设置为1作为初始值（在步骤S303中），并且选择字符识别引擎E_i（在步骤S304中）。

然后，字符识别设备1将变量j（其中，j是从1到M_i中的任何整数，并且M_i指示字符识别引擎E_i能够辨识的字符的数量）设置为1作为初始值（在步骤S305中），计算指示了测试数据T_k有多大可能对应于字符识别引擎E_i中的第j个字符的得分w_j（在步骤S306中），并且添加所计算的得分w_j作为特征矢量W_k的元素（在步骤S307中）。

如果第j个字符不是字符识别引擎E_i中的最后一个字符，即，不满足表达式j=M_i（在步骤S308中为否），则字符识别设备1使j增加1（在步骤S309中），并且处理返回到步骤S306。如果第j个字符是字符识别引擎E_i中的最后一个字符，即，满足表达式j=M_i（在步骤S308为是），则字符识别设备1确定变量i是否达到N，即，测试数据T_k是否已被最后一个字符识别引擎处理（在步骤S310中）。

如果变量i未达到N（在步骤S310中为否），则字符识别设备1使i增加1（在步骤S311中），并且处理返回到步骤S304。如果变量i达到N（在步骤S310中为是），则字符识别设备1基于针对测试数据T_k计算出的特征矢量W_k和通过由鉴别器执行的学习所获得的学习参数来辨识与测试数据T_k的字符图案相对应的字符码（在步骤S312中）。然后，字符识别设备1记录指示了在步骤S312中辨识的字符码是否与针对测试数据T_k的字符图案所确定的字符码相匹配的匹配信息（在步骤S313中）。

然后，字符识别设备1确定变量k是否达到K，即，最后一个测试数据是否已被处理（在步骤S314中）。如果变量k未达到K（在步骤S314中为否），则字符识别设备1使k增加1（在步骤S315中），并且处理返回到步骤S302。如果变量k达到K（在步骤S314中为是），则字符识别设备1基于在步骤S313中记录的针对每个字符码的匹配信息来确定是否存在准确率等于或小于阈值的字符码（在步骤S316中）。

如果不存在准确率等于或小于阈值的字符码（在步骤S316中为否），则字符识别设备1结束处理。如果存在准确率等于或小于阈值的字符码（在步骤S316中为是），则字符识别设备1把将对准确率等于或小于阈值的字符码进行识别所用到的新字符识别引擎添加至字符识别引擎E₁至E_N（在步骤S317中），并且结束设置字符识别引擎的处理。

在设置字符识别引擎的处理完成之后，可以再次执行图3中所示的学习处理。可以重复执行图3中所示的学习处理和图5中所示的设置字符识别引擎的处理，直到在图5的流程图中的步骤S316中确定不存在准确率等于或小于阈值的字符码为止。

在上述字符识别设备1中，即使在单个字符识别引擎以高准确度识别出一些字符而以低准确度识别出一些字符时，使用通过结合多个字符识别引擎的字符识别结果而获得的特征矢量，以通过利用经由机器学习预先获得的字符码分类结果来辨识字符图案的字符码。与输出结果是从单个字符识别引擎获得的或者是通过对从各个字符识别引擎获得的各个结果进行比较而获得的情况相比，字符识别设备1实现了高准确度的字符识别。

本发明不限于上述示例性实施例。在上述流程图中，处理的是离线字符图案。不必说，本发明可以以类似方式应用至在线字符图案。

提供本发明的示例性实施例的以上说明，用于说明和描述的目的。其不是排他性的或者将本发明限于所披露的准确形式。明显地，多种修改和改变对于本领域技术人员来说是显而易见的。选择和描述上述实施例是为了最好地解释本发明的原理及其实际应用，由此使本领域技术人员能够理解用于多个实施例的发明，并且多种修改适于所预期的特定使用。本发明的范围由所附权利要求及其等价物限定。

Claims

1.一种字符识别设备，包括：

估计值输出单元，其针对互不相同的多个字符识别程序的每一个输出多个估计值，所述多个估计值中的每一个均指示已被输入的字符图案与将使用所述字符识别程序来识别的多个字符码中的每一个的对应程度；

生成单元，其生成关于已被输入的所述字符图案的特征信息，所述特征信息包括由所述估计值输出单元输出的所述多个估计值作为元素；

学习单元，其基于由所述生成单元生成的关于预先指定了字符码的字符图案的特征信息来学习以逐个字符码为基础对特征信息的多种分类；

确定单元，其基于如下条件来确定未知字符图案的字符码，其中所述条件是在所学习的以逐个字符码为基础对特征信息的多种分类当中的哪一种分类包括了由所述生成单元生成的关于所述未知字符图案的特征信息，所述未知字符图案是字符码未知的字符图案；

指定单元，对于预先指定了字符码的多个字符图案中的每个，所述指定单元将针对字符图案由所述确定单元确定的字符码与针对所述字符图案指定的字符码进行比较，并且基于通过所述比较获得的结果来指定准确率等于或小于阈值的字符码；以及

添加单元，其将用于对所述指定单元所指定的所述字符码进行识别的字符识别程序添加至所述估计值输出单元。

2.根据权利要求1所述的字符识别设备，

其中，所述多个字符识别程序包括第一字符识别程序和第二字符识别程序，并且

其中，将由所述第一字符识别程序识别的多个字符码中的至少一些与将由所述第二字符识别程序识别的多个字符码中的至少一些匹配。

3.一种字符识别方法，包括：

针对互不相同的多个字符识别程序的每一个输出多个估计值，所述多个估计值中的每一个均指示已被输入的字符图案与将使用所述字符识别程序来识别的多个字符码中的每一个的对应程度；

生成关于已被输入的所述字符图案的特征信息，所述特征信息包括所述多个估计值作为元素；

基于所生成的关于预先指定了字符码的字符图案的特征信息，来学习以逐个字符码为基础对特征信息的多种分类；

基于如下条件来确定未知字符图案的字符码，其中所述条件是在所学习的以逐个特征码为基础对特征信息的多种分类当中的哪一种分类包括了所生成的关于所述未知字符图案的特征信息，所述未知字符图案是字符码未知的字符图案；

对于预先指定了字符码的多个字符图案中的每个，将针对字符图案确定的字符码与针对所述字符图案指定的字符码进行比较，并且基于通过所述比较获得的结果来指定准确率等于或小于阈值的字符码；以及

添加用于对所指定的所述字符码进行识别的字符识别程序。