CN101901355A

CN101901355A - 一种基于最大熵的文字识别方法和识别装置

Info

Publication number: CN101901355A
Application number: CN 201010221901
Authority: CN
Inventors: 李健; 张连毅; 武卫东
Original assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Current assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd; Beijing Sinovoice Technology Co Ltd
Priority date: 2010-06-29
Filing date: 2010-06-29
Publication date: 2010-12-01

Abstract

本发明提供了一种基于最大熵的文字识别方法和识别装置，所述方法包括：将训练样本输入到各个识别引擎中进行特征提取，获得特性信息；针对用户输入的手写轨迹，逐个选取单一识别引擎进行识别，将识别得到的特征信息输入到最大熵训练模型中，由最大熵训练模型输出判定结果；其中，当单一识别引擎对应的判定结果满足预置判定值时，停止下一识别引擎的识别，将当前识别引擎对应的识别结果输出；当单个识别引擎对应的判定结果均不满足预置判定值时，对多个识别引擎的识别结果共同决策进行输出。通过本发明，在保证识别结果正确的前提下，提高了识别效率。

Description

一种基于最大熵的文字识别方法和识别装置

技术领域

本发明涉及手写识别技术领域，特别是涉及一种基于最大熵的文字识别方法和识别装置。

背景技术

手写识别(Handwriting Recognize)，是指将在手写设备上书写时产生的轨迹信息转化为汉字内码的过程，实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程，是人机交互最自然、最方便的手段之一。随着智能手机、掌上电脑等移动信息工具的普及，手写识别技术也进入了规模应用时代。手写识别能够使用户按照最自然、最方便的输入方式进行文字输入，易学易用，可取代键盘或者鼠标。

在手写识别中，需要处理不同人不同的书写笔顺和连笔书写的问题。每个识别引擎在识别时的侧重点不同，有的识别引擎对连笔书写(笔顺正确)的字符能有很高识别率，但对笔顺错误的字符就不能正确识别；有的识别引擎对字符笔顺不敏感，笔顺是否错误并不影响识别正确率，但对是否正楷书写比较敏感，连笔书写字符的识别效果会差一些，在笔顺错误时反而能够给出较好的结果。

现有技术对手写字符的识别中，一般采用多个识别引擎共同决策，根据各个识别结果进行综合考虑、综合判断，最终给出识别结果。由于用户在汉字输入时多数情况下是笔顺正确的，此方法存在两个缺点：多数情况下，一个识别引擎能给出正确结果，而当多个识别引擎共同决策时，识别结果反而不正确；并且，多个识别引擎进行识别，加大了工作量，降低了计算效率。在具体应用时，例如，输入一个笔顺正确、非常潦草的“建”字，连笔引擎识别结果正确，但无笔顺引擎识别错误，两者综合考虑，最终识别结果可能会错误。再例如，输入一个正楷书写但笔顺错误的“讯”字，无笔顺引擎识别正确，但连笔引擎识别结果错误，两者综合考虑，最终识别结果也可能会错误。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够提供一种基于最大熵的文字识别技术方案，在保证更高识别结果正确的前提下，提高识别效率。

发明内容

本发明所要解决的技术问题是提供一种基于最大熵的文字识别方法和识别装置，在保证识别结果正确的同时，能够提高识别效率。

为了解决上述问题，本发明公开了一种基于最大熵的文字识别方法，包括：

A1，将训练样本输入到各个识别引擎中进行特征提取，获得特性信息；

A2，依据所述特征信息构建最大熵训练模型；

A3，针对用户输入的手写轨迹，逐个选取单一识别引擎进行识别，将识别得到的特征信息输入到最大熵训练模型中，由最大熵训练模型输出判定结果；

其中，当单一识别引擎对应的判定结果满足预置判定值时，停止下一识别引擎的识别，将当前识别引擎对应的识别结果输出；当单个识别引擎对应的判定结果均不满足预置判定值时，对多个识别引擎的识别结果共同决策进行输出。

进一步，所述特征信息为：第一候选字的编码、识别距离、第一候选字是否正确的判定。

进一步，所述判定结果代表了在该识别引擎中，与特征信息相对应的第一候选字正确的概率大小。

优选的，所述识别引擎包括：无笔顺识别引擎和连笔识别引擎。

优选的，所述步骤A3包括：

针对用户输入的手写轨迹，选取无笔顺识别引擎进行识别，并将识别得到的特征信息输入到最大熵训练模型中，由最大熵训练模型输出判定结果；

判断无笔顺识别引擎对应的判定结果是否满足预置判定值；若是，则停止识别，将无笔顺识别引擎对应的识别结果输出；若否，则选取连笔识别引擎进行识别，并将识别得到的特征信息输入到最大熵训练模型中，由最大熵训练模型输出判定结果；

判断连笔识别引擎对应的判定结果是否满足预置判定值；若是，则停止识别，将连笔识别引擎对应的识别结果输出；若否，则由无笔顺识别引擎和连笔识别引擎的识别结果共同决策进行输出。

此外，本发明还公开了一种基于最大熵的文字识别装置，包括：

特征提取单元，用于将训练样本输入到各个识别引擎中进行特征提取，获得特性信息；

模型训练单元，用于依据所述特征信息构建最大熵训练模型；

多个识别引擎，用于针对用户输入的手写轨迹进行识别；

引擎控制单元，用于逐个选择触发单一识别引擎进行识别操作，以及将识别引擎识别到的特征信息输入到模型训练单元中，由最大熵训练模型输出判定结果；其中，当单一识别引擎对应的判定结果满足预置判定值时，停止触发下一识别引擎，并触发识别输出单元将当前识别引擎对应的识别结果输出；当单个识别引擎对应的判定结果均不满足预置判定值时，触发识别输出单元对多个识别引擎的识别结果共同决策进行输出；

识别输出单元，用于输出识别结果。

进一步，所述判定结果代表了在当前识别引擎中，与特征信息相对应的第一候选字正确的概率大小。

优选的，所述引擎控制单元包括：

选择子单元，用于针对用户输入的手写轨迹，逐个选择触发无笔顺识别引擎和连笔识别引擎进行识别操作；

训练子单元，用于将识别得到的特征信息输入到最大熵训练模型中，由最大熵训练模型输出判定结果；

判断子单元，用于判断无笔顺识别引擎对应的判定结果是否满足预置判定值，若是，则停止选择子单元，触发识别输出单元将无笔顺识别引擎对应的识别结果输出；若否，则判断连笔识别引擎对应的判定结果是否满足预置判定值，若是，则触发识别输出单元将连笔识别引擎对应的识别结果输出，若否，则触发识别输出单元对无笔顺识别引擎和连笔识别引擎的识别结果共同决策进行输出。

与现有技术相比，本发明具有以下优点：

本发明通过从训练样本中提取出特征信息构建最大熵训练模型，则在手写识别应用时，逐个选取单一识别引擎对用户输入的手写轨迹进行识别，并将手写轨迹的特征信息作为最大熵训练模型的输入特征，由最大熵训练模型输出判定结果，在单一识别引擎对应的判定结果满足预置判定值时，停止识别，将当前识别结果输出。本发明利用最大熵训练模型，设定了单个引擎的识别条件，以及多个引擎同时识别的条件，通过采用单一引擎识别，在保证识别结果正确的同时，减少了多个引擎的识别计算量，提高识别效率。并且，能够避免多个引擎同时识别决策时，产生的识别错误。

附图说明

图1是本发明一种基于最大熵的文字识别方法实施例一的流程图；

图2是本发明一种基于最大熵的文字识别方法实施例二的流程图；

图3是本发明一种基于最大熵的文字识别装置实施例的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的核心构思之一在于：首先从训练样本中提取出特征信息，并针对特征信息构建最大熵训练模型，当用户输入字符时，将手写轨迹的特征信息作为最大熵训练模型的输入特征，根据最大熵训练模型输出判定结果，判断该轨迹的识别是由单个识别引擎做出最终判断，还是由多个识别引擎共同决策，从而保证识别结果正确的同时，减少了工作量，提高识别效率。

参照图1，示出了本发明一种基于最大熵的文字识别方法实施例一的流程图，该方法包括：

步骤101，将训练样本输入到各个识别引擎中进行特征提取，获得特性信息；

所述训练样本为预先采集的各种手写输入轨迹，例如，可以选用GBK等各种字符集作为训练样本采集的范围。本步骤从训练样本中提取特征，对于每一个训练样本，输入每一个识别引擎后，即可提取到相应的特征信息。

进一步，所述特征信息为：第一候选字的编码、识别距离、以及第一候选字是否正确的判定。汉字识别系统处理汉字信息的前提条件是对每个汉字进行编码，这些编码统称为汉字编码。汉字信息在系统内传送的过程就是汉字编码转换的过程，通常汉字编码又称为内码。所述识别距离是与该汉字编码相应的识别类似度或识别概率。例如，将一个训练样本输入某一识别引擎后，提取到的特征信息为：第一候选字的编码及其识别距离、第二候选字的编码及其识别距离、第三候选字的编码及其识别距离......第N候选字的编码及其识别距离，并且，还可以获知第一候选字是否正确，需要说明的是，本发明只关注第一候选字的编码及其识别距离。

步骤102，依据所述特征信息构建最大熵训练模型；

最大熵原理(the maximum entropy principle)的主要思想是，在只掌握关于未知分布的部分信息时，应该选取符合这些信息但熵值最大的概率分布。因为在这种情况下，符合已知信息的概率分布可能不止一个。熵定义的实际上是一个随机变量的不确定性，熵最大的时候，说明随机变量最不确定，换句话说，也就是随机变量最随机，对其行为做准确预测最困难。从这个意义上讲，那么最大熵原理的实质就是，在已知部分信息的前提下，关于未知分布最合理的推断就是符合已知信息最不确定或最随机的推断，这是可以作出的唯一不偏不倚的选择，任何其它的选择都意味着增加了其它的约束和假设，这些约束和假设根据已掌握的信息无法作出。

最大熵模型是将熵理论应用于分类(对应于第一候选字、第二候选字等等)问题中，在满足限定条件下，使熵值最大的原则。本步骤可以利用开源的最大熵训练工具，得到最大熵训练模型。

步骤103，针对用户输入的手写轨迹，逐个选取单一识别引擎进行识别，将识别得到的特征信息输入到最大熵训练模型中，由最大熵训练模型输出判定结果；

根据步骤102得到的最大熵训练模型，实现手写轨迹的识别操作。在具体的应用中，用户输入一个汉字的手写轨迹，先由单个识别引擎进行识别，得到的特征信息为：第一候选字的编码、识别距离、以及第一候选字是否正确的判定。将特征信息作为最大熵训练模型的输入特征，则从最大熵模型输出与该特征信息相对应的判定结果。进一步，所述判定结果代表了在当前识别引擎中，与特征信息相对应的第一候选字正确的概率大小，也就是说，判定结果代表了每个特征出现时，第一候选正确的可能性的大小，针对第一候选字正确的概率的不同大小赋予不同的判定结果。

例如，根据第一候选字正确的概率大小，将判定结果分为两种：1和0，当判定结果为1时，为置信的判定结果，代表了第一候选字正确的概率高；当判定结果为0时，为不置信的判定结果，代表了第一候选字正确的概率低。又如，还可以将判定结果分为三种：0(对应置信的判定结果，代表了第一候选字正确的概率高)、0.5(对应较置信的判定结果，代表了第一候选字正确的概率较高)、1(对应不置信的判定结果，代表了第一候选字正确的概率低)。可以理解的是，判定结果不限于上述种类，还可以根据不同的识别需求，按照第一候选字正确的概率的不同大小进行多种划分。

步骤104，当单一识别引擎对应的判定结果满足预置判定值时，停止下一识别引擎的识别，将当前识别引擎对应的识别结果输出；

根据判定结果的种类，所述预置判定值可以为单一值或者多个离散值。例如，当判定结果有0和1两种情况时，预置判定值设为1；当判定结果包括0、0.5、1这三种情况时，预置判定值设为1或0.5(满足其中任意一值即可)；当判定结果包括0、0.25、0.5、0.75、1这五种情况时，预置判定值设为1或0.75。则当单一识别引擎对应的判定结果满足预置判定值时，则认为第一候选结果正确，将对应的第一候选字输出，不再进行其他引擎的识别。

具体的，先由第一识别引擎进行识别，当第一识别引擎对应的判定结果满足预置判定值时，则认为第一识别引擎对应的第一候选结果正确；当第一识别引擎对应的判定结果不满足预置判定值时，则认为第一识别引擎对应的第一候选结果不正确，由第二识别引擎进行识别。

当第二识别引擎对应的判定结果满足预置判定值时，则认为第二识别引擎对应的第一候选结果正确；当第二识别引擎对应的判定结果不满足预置判定值时，则认为第二识别引擎对应的第一候选结果不正确，由第三识别引擎进行识别。以此类推，直到某一识别引擎对应的第一候选字正确的概率大于预置阈值。

可以理解的是，针对各个识别引擎可以设置相同的预置判定值，如均设置为1；此外，还可以针对每个识别引擎设置不同的预置阈值，例如，针对第一识别引擎，预置判定值为1或0.75，针对第二识别引擎，预置判定值为1，本发明在此不作限制。

步骤105，当单个识别引擎对应的判定结果均不满足预置判定值时，由多个识别引擎的识别结果共同决策进行输出。

如果单个识别引擎都无法决定结果是否正确，也就是说，每一个引擎对应的第一候选字正确的概率均对应不自信的判定结果，则按照多个引擎识别的方式，由每个识别引擎的识别结果共同决策，得出所识别的字符进行输出。

通过本发明的方法实施例一，根据单个引擎的识别结果，结合最大熵训练模型，判断是否进行对引擎的识别，可以利用单一识别引擎的识别结果作为识别输出，在保证识别结果正确的前提下，减少了其他引擎识别的计算量，提高了识别效率。

参照图2，示出了本发明一种基于最大熵的文字识别方法实施例二的流程图，在本发明方法实施例二中，所述识别引擎包括：连笔识别引擎和无笔顺识别引擎；需要说明的是，在具体实施例，还可以采用更多的识别引擎进行识别，例如，还包括相似字识别引擎等，本发明在此不做限定，此处仅为一种实例。

本发明实施例二所述方法包括如下步骤：

步骤201，将训练样本输入到各个识别引擎中进行特征提取，获得特性信息；

步骤202，依据所述特征信息构建最大熵训练模型；

步骤203，针对用户输入的手写轨迹，选取无笔顺识别引擎进行识别，并将识别得到的特征信息输入到最大熵训练模型中，由最大熵训练模型输出判定结果；

通常，无笔顺识别引擎较之连笔识别引擎的识别效率高，因此，本发明实施例首先选用无笔顺识别引擎。

步骤204，判断无笔顺识别引擎对应的判定结果是否满足预置判定值；若是，则执行步骤205；若否，则执行步骤206；

步骤205，停止识别，将无笔顺识别引擎识别的第一候选字输出；

步骤206，选取连笔识别引擎进行识别，并将识别得到的特征信息输入到最大熵训练模型中，由最大熵训练模型输出判定结果，并执行步骤207；

步骤207，判断连笔识别引擎对应的判定结果是否满足预置判定值；若是，则执行步骤208；若否，则执行步骤209；

步骤208，停止识别，将连笔识别引擎识别的第一候选字输出；

步骤209，由无笔顺识别引擎和连笔识别引擎的识别结果共同决策进行输出。

例如，本发明根据第一候选字正确的概率大小设定两种判定结果1和0。具体的，结合最大熵训练模型，先由无笔顺识别引擎进行识别，将对应特征信息输入到最大熵训练模型中，当输出判定结果1时，则判断第一候选字识别结果正确，将该第一候选项作为识别输出；当输出判定结果0时，则判断第一候选字结果不正确，采用连笔识别引擎进行识别，当连笔识别引擎对应的输出的判定结果也为0时，由无笔顺识别引擎和连笔识别引擎共同决策得到最终识别结果。

下面，举一个具体的例子进行详细说明，如“建”字，有的人习惯先写左边，有的人习惯先写右边。当用户先写左边时，笔顺不正确，按照现有技术的方法，由多个识别引擎共同识别，无笔顺识别引擎能识别正确，而其他有笔顺识别引擎(连笔识别引擎)识别错误，最终综合考虑，最终的识别结果可能为错误。

按照本发明实施例二所述，针对用户先输入左边、后输入右边的字符“建”的轨迹，首先采用无笔顺识别引擎进行识别，识别得到的特征信息输入到最大熵训练模型中，输出判定结果为1，则识别结果是正确的，能够判定出无笔顺识别引擎对该字的识别结果是值得信赖的，不用再通过其他识别引擎识别，从而把无笔顺识别引擎的识别结果作为正确结果直接给出。

又如，对于一个笔顺正确，书写潦草的字符“建”的轨迹，先采用无笔顺识别引擎进行识别，识别得到的特征信息输入到最大熵训练模型中，由于书写潦草，输出判定结果为0，则识别结果错误，再采用连笔识别引擎进行识别，输出判定结果为1，则识别结果是正确的，能够判定出连笔识别引擎对该字的识别结果是值得信赖的，从而把连笔识别引擎的识别结果做为正确结果直接给出。较之现有技术中，有多个引擎共同识别，提高了识别的正确率和计算效率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。例如，针对本发明方法实施例二，对于用户再次输入的手写轨迹，由于已经构建了最大熵训练模型，则不再执行步骤201至202。

参照图3，示出了本发明一种基于最大熵的文字识别装置实施例的结构图，包括：

特征提取单元301，用于将训练样本输入到各个识别引擎中进行特征提取，获得特性信息；

模型训练单元302，用于依据所述特征信息构建最大熵训练模型；

多个识别引擎303，用于针对用户输入的手写轨迹进行识别；

引擎控制单元304，用于逐个选择触发单一识别引擎进行识别操作，以及将识别引擎识别到的特征信息输入到模型训练单元中，由最大熵训练模型输出判定结果；其中，当单一识别引擎对应的判定结果满足预置判定值时，停止触发下一识别引擎，并触发识别输出单元将当前识别引擎对应的识别结果输出；当单个识别引擎对应的判定结果均不满足预置判定值时，触发识别输出单元对多个识别引擎的识别结果共同决策进行输出；

识别输出单元，用于输出识别结果。

优选的，所述特征信息为第一候选字的编码、识别距离、第一候选字是否正确的判定。

在本发明的一个优选实施例中，所述识别引擎包括：无笔顺识别引擎和连笔识别引擎；

进一步，所述引擎控制单元包括：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种基于最大熵的文字识别方法和识别装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于最大熵的文字识别方法，其特征在于，包括：

A2，依据所述特征信息构建最大熵训练模型；

2.如权利要求1所述的方法，其特征在于，

所述特征信息为：第一候选字的编码、识别距离、第一候选字是否正确的判定。

3.如权利要求1所述的方法，其特征在于，

所述判定结果代表了在该识别引擎中，与特征信息相对应的第一候选字正确的概率大小。

4.如权利要求1所述的方法，其特征在于，

所述识别引擎包括：无笔顺识别引擎和连笔识别引擎。

5.如权利要求4所述的方法，其特征在于，所述步骤A3包括：

6.一种基于最大熵的文字识别装置，其特征在于，包括：

多个识别引擎，用于针对用户输入的手写轨迹进行识别；

识别输出单元，用于输出识别结果。

7.如权利要求6所述的装置，其特征在于，

8.如权利要求6所述的装置，其特征在于，

所述判定结果代表了在当前识别引擎中，与特征信息相对应的第一候选字正确的概率大小。

9.如权利要求6所述的装置，其特征在于，

所述识别引擎包括：无笔顺识别引擎和连笔识别引擎。

10.如权利要求9所述的装置，其特征在于，所述引擎控制单元包括：