CN110059705B

CN110059705B - 一种基于建模的ocr识别结果判决方法和设备

Info

Publication number: CN110059705B
Application number: CN201910323742.0A
Authority: CN
Inventors: 郝占龙; 庄国金; 陈文传; 杜保发; 林玉玲; 吴建杭; 方恒凯
Original assignee: Xiamen Shangji Network Technology Co ltd
Current assignee: Xiamen Shangji Network Technology Co ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2021-11-09
Anticipated expiration: 2039-04-22
Also published as: CN110059705A

Abstract

本发明涉及一种基于建模的OCR识别结果判决方法，包括如下步骤：建立字符图像的特征提取模型；将确认无误的各字符图像输入所述特征提取模型，得到各个字符对应的标准特征矩阵，建立包含所述标准特征矩阵的标准字符特征库；通过OCR识别引擎识别文本，得到OCR识别图像；通过所述特征提取模型获得OCR识别图像中各字符的单字符特征矩阵；逐一将字符的单字符特征矩阵与该字符对应的标准字符特矩阵进行比较，判定OCR识别结果的正确性。本发明的优点：建立字符图像的特征提取模型并利用该模型将图像转换为特征矩阵，比较识别结果图像中各字符图像的特征矩阵与对应标准特征矩阵，从而判定识别结果的正确性，使识别结果精确率高于99.95%，且提高工作效率。

Description

一种基于建模的OCR识别结果判决方法和设备

技术领域

本发明涉及一种基于建模的OCR识别结果判决方法，属于模型应用领域。

背景技术

现有的文本、图像一般通过自动识别录入计算机。由于OCR识别算法的识别准确率可达99％，因此，一般通过OCR识别实现自动录入。但在金融税务等领域，99％的识别准确率仍无法满足其要求，因此，还必须使用人工进行二次、甚至三次的识别结果核对工作，找出识别错误的位置，这样浪费了大量人力资源，提高了录入成本。

公布号为CN106650715A的发明专利《一种根据允许集对字符串OCR识别结果检错与纠错的方法》公开的技术方案是：通过对允许集和OCR识别结果集作差，可以获得识别错误的字符串；利用字符串的允许集，可以纠正不可存在字符串。该技术方案必须事先确定其允许集合，随着识别文本的变化，必须同步更新允许集，操作复杂且使用范围受限，不能同时对各种文本的OCR识别结果进行检错、纠错。

发明内容

为了解决上述技术问题，本发明提供一种基于建模的判决方法，其能够自对自动识别结果进行核验，判断识别结果的正确性，且能够大幅提高OCR识别结果的精确率。

本发明的技术方案如下：

一种基于建模的OCR识别结果判决方法，包括如下步骤：

建立字符图像的特征提取模型；将标准的各字符图像输入所述特征提取模型，得到各个字符对应的标准特征矩阵，建立包含所述标准特征矩阵的标准字符特征库；通过OCR识别引擎识别文本，得到OCR识别图像；通过所述特征提取模型获得OCR识别图像中各字符的单字符特征矩阵；逐一将字符的单字符特征矩阵与该字符对应的标准字符特矩阵进行比较，判断二者之间的相似度，判定OCR识别结果的正确性。

更优地，特征提取模型获得所述单字符特征矩阵的步骤为：将OCR识别图像进行单字符切割，生成单字符图像，将各单字符图像逐个输入所述特征提取模型得到单字符特征矩阵。

更优地，所述OCR识别图像进行单字符切割，生成单字符图像的同时，还生成单字符图像在OCR识别图像中的坐标信息；判定字符识别错误时，根据该单字符图像的坐标信息在OCR识别图像中定位出错位置并提示用户。

更优地，所述特征提取模型为Lenet、AlexNet、VggNet、ResNet、GoogLeNet其中一种卷积神经网络。

更优地，所述特征提取模型采用softmax损失函数，使用单字符样本训练所述特征提取模型，所述softmax损失函数的值不再减少，完成模型收敛。

更优地，所述将单字符特征矩阵与该单字符对应的标准字符特矩阵进行比较的步骤为：通过欧氏距离，余弦距离或马氏距离计算单字符特征矩阵与该单字符对应的标准字符特矩阵的相似度，当相似度值小于预设的阈值时，判定该字符识别正确。

更优地，所述将单字符特征矩阵与该单字符对应的标准字符特矩阵进行比较是采用软阈值模型进行判决，所述软阈值模型为：y＝f(S,P)，其中，y为判决结果，函数为非线性函数或线性函数，S表示标准特征矩阵，P表示单字符特征矩阵。

更优地，所述软阈值模型y＝f(S,P)，通过样本训练软阈值模型得到，具体地：创建样本集合，所述样本集合中包含多组样本，每组样本包含两个字符的特征向量，当该组样本中的两个字符相同时，设置y＝1，当样本组中的两个字符不相同时，设置y＝0，求得函数。

更优地，所述样本训练过程通过softmax损失函数完成软阈值模型收敛。

本发明还提供一种基于建模的OCR识别结果判决设备。

一种基于建模的OCR识别结果判决设备，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行如下步骤：建立字符图像的特征提取模型；将确认无误的各字符图像输入所述特征提取模型，得到各个字符对应的标准特征矩阵，建立包含所述标准特征矩阵的标准字符特征库；通过OCR识别引擎识别文本，得到OCR识别图像；通过所述特征提取模型获得OCR识别图像中各字符的单字符特征矩阵；逐一将字符的单字符特征矩阵与该字符对应的标准字符特矩阵进行比较，判定OCR识别结果的正确性。

本发明具有如下有益效果：

1、本发明一种基于建模的OCR识别结果判决方法及设备，建立字符图像的特征提取模型并利用该模型将图像转换为特征矩阵，比较识别结果图像中各字符图像的特征矩阵与对应标准特征矩阵，从而判定识别结果的正确性，使识别结果精确率高于99.95％，有效减少人工干预工作量，提高工作效率。

2、本发明一种基于建模的OCR识别结果判决方法及设备，采用单字符切割方式，逐字判断识别正确性，提高识别准确率。

3、本发明一种基于建模的OCR识别结果判决方法及设备，在切割字符的同时生成该字符的坐标信息，实现错误字符的准确定位。

4、本发明一种基于建模的OCR识别结果判决方法及设备，采用卷积神经网络提取图像特征，特征数量更多，鲁棒性好，可靠性更高。

5、本发明一种基于建模的OCR识别结果判决方法及设备，利用softmax损失函数，训练特征提取模型，优化模型参数，使特征提取模型达到最佳状态。

6、本发明一种基于建模的OCR识别结果判决方法及设备，采用相似度阈值判断字符识别正确性，判决方法简单且有效提高识别准确率。

7、本发明一种基于建模的OCR识别结果判决方法及设备，采用软阈值模型判断字符识别正确性，其灵活性高，识别准确率高。

附图说明

图1为本发明一种基于建模的判决方法的流程示意图；

图2为本发明一种基于建模的判决方法确认识别结果正确性的示意图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

请参阅图1，一种基于建模的判决方法，包括如下步骤：建立字符图像的特征提取模型；将标准的各字符图像输入所述特征提取模型，得到各个字符对应的标准特征矩阵，建立包含所述标准特征矩阵的标准字符特征库；通过OCR识别引擎识别文本，得到OCR识别图像；通过所述特征提取模型获得OCR识别图像中各字符的单字符特征矩阵；逐一将字符的单字符特征矩阵与该字符对应的标准字符特矩阵进行比较，判断二者之间的相似度，判定OCR识别结果的正确性。

所述标准的字符是指通过人工筛选将清晰且准确无误的字符作为标准字符。

请参阅图2，OCR识别图像中第四个字为“箱”，通过特征提取模型得到由包含“箱”字的单字符图像转换得到的单字符特征矩阵，则从标准字符特征库中提取“箱”字的标准特征矩阵，将单字符特征矩阵和标准特征矩阵进行比较时，就会发现两特征矩阵的差别，从而判定为该字符识别错误。

本实施例中，采用特征提取模型将图像转换为特征矩阵，比较OCR识别图像中各字符的单字符特征矩阵与其对应的标准特征矩阵，判定该字符是否识别正确，逐字遍历整个OCR识别图像，就可以准确判定OCR识别图像中识别错误的字符，人工对错误位置核对修订后，使得OCR识别结果精确率高于99.95％，有效减少人工干预的工作量，提高工作效率。

所述特征提取模型获取OCR识别结果中各字符的特征矩阵的步骤为：所述OCR识别结果为图像，将该图像进行单字符切割，生成单字符图像和单字符图像在所述OCR识别图像上的坐标信息，将各单字符图像逐个输入所述特征提取模型得到各字符的单字符特征矩阵。判定字符识别错误时，根据该单字符图像的坐标信息在OCR识别图像中定位出错位置并提示用户。

所述特征提取模型可为Lenet、AlexNet、VggNet、ResNet、GoogLeNet其中一种卷积神经网络，但不限于此。所述特征提取模型采用softmax损失函数，使用单字符样本训练所述特征提取模型，所述softmax损失函数的值不再减少，完成模型收敛，得到最佳的模型参数。选取所述特征提取模型中softmax损失函数的倒数第N层作为所述特征提取模型的输出结果，N一般不选用最后一层。

将不同类别的图像输入所述特征提取模型，通过softmax损失函数使得同类影像间距尽可能小，异类影像间距尽可能大(图像中的单字符属于同类影像，非单字符属于异类影像)，所述softmax损失函数公式：

其中，m是每批次处理样本的总数量，

是W^T的第yi列，

是W^T的第j列，b_yi是第yi列的偏置，b_j是第j列的偏置，

是第i个属于类别y_i的样本的深度特征，d是特征维度，

是最后全连接层权重W的第j列，n是类别数量，T表示矩阵的转置。本发明中，为了让softmax损失函数更加明确的减少同类特征距离、增大异类特征距离，引入余弦距离和角度距离，所述深度学习模型的损失函数公式为：

其中，m是每批次处理样本的总数量，s是x_i的二范数，即s＝||x_i||，

是第i个属于类别y_i的样本的深度特征，d是特征维度，θ_yi代表y_i类别样本的角向量，θ_j代表j类别样本的角向量，n是类别数量。

所述将单字符特征矩阵与该单字符对应的标准字符特矩阵进行比较的步骤为：通过欧氏距离，余弦距离或马氏距离计算单字符特征矩阵与该单字符对应的标准字符特矩阵的相似度，当相似度值小于预设的阈值时，判定该字符识别正确。逐个计算所述单字符特征矩阵与对应的标准特征矩阵的相似度，若计算结果在设定的相似度阈值范围内，则认为该字符识别正确，若计算结果不在设定的相似度阈值范围内，则认为该字符识别错误，并根据该单字符图像的坐标信息定位其在所述OCR识别图像中的位置。所述标准字符特征库中包括了各汉字的标准特征矩阵、各阿拉伯数字的标准特征矩阵、各字母的标准特征矩阵以及符号的特征矩阵，且可根据实际核验需求进行扩充。使用欧式距离计算相似度时，通过公式

求得相似度值y，其中E_i为所述OCR识别图像中i字的单字符特征矩阵，N_i为OCR识别图像中i字的标准特征矩阵，所述标准特征矩阵是通过人工标注确认无误的i字通过特征提取模型得到的特征矩阵；工程上，为了简化计算提高效率，上述公式可简化为y＝abs(E_i-N_i)，其中abs代表取绝对值。和公式

唯一不同的是需要变更y的相似度阈值范围。目前生产使用情况为，对于y值小于1.0的即可认定所述OCR识别图像的E_i与对比的N_i特征一致，即所识别的内容正确。所述相似度阈值的获得方法为：通过K折交叉验证获得较优的分辩阈值。K折交叉验证的主要流程为：1、将全部训练集S分成k个不相交的子集，假设S中的训练样例个数为m，那么每一个子集有m/k个训练样例，相应的子集称作{S₁,S₂...S_k}；2、每次从模型集合M中拿出来一个M_i，然后在训练子集中选择出k-1个{S₁,S₂...S_j-1,S_j+1...S_k}(也就是每次只留下一个S_j)，使用这k-1个子集训练M_i后，得到假设函数h_ij。最后使用剩下的一份S_j作测试，得到经验错误。3、由于每次留下一个S_j(j从1到k)，因此会得到k个经验错误，那么对于一个M_i，它的经验错误是这k个经验错误的平均。4、选出平均经验错误率最小的M_i，然后使用全部的S再做一次训练，得到最后的h_i。所述h_i为较优的相似度阈值。

所述将单字符特征矩阵与该单字符对应的标准字符特矩阵进行比较是采用软阈值模型进行判决，所述软阈值模型为：y＝f(S,P)，其中，y为判决结果，函数f可为非线性函数或线性函数，S表示标准特征矩阵，P表示单字符特征矩阵。一般地，设置y＝1，表示该字符OCR识别正确，设置y＝0，表示该字符OCR识别错误。

所述软阈值模型y＝f(S,P)，其中函数关系f通过样本训练软阈值模型得到，具体地：创建样本集合，所述样本集合中包含多组样本，每组样本包含两个字符的特征向量，该特征向量通过所述特征提取模型获得，当该组样本中的两个字符相同时，设置y＝1，当样本组中的两个字符不相同时，设置y＝0，求得函数f。所述样本训练过程通过softmax损失函数完成软阈值模型收敛。通过软阈值模型y＝f(S,P)求出标准特征矩阵S和单字符特征矩阵P之间的关系。

采用固定相似度阈值是针对所有字采用同一个值，对于特殊字符需要选择特定阈值才能实现较好的判定效果，灵活性差。软阈值模型在函数f(即变换函数)的作用下，实现了线性和非线性变化，相当于一次性可以得到所有字符的阈值。采用软阈值模型判断字符识别正确性相比于固定相似度阈值，其灵活性更高，能够更好地判断出特定字符(例如一些相似字符)的识别正确性，提高判决的可靠性和准确性。

实施例二

本实施例局具体步骤可参见实施例一的相关说明部分。

本发明一种基于建模的OCR识别结果判决设备，建立字符图像的特征提取模型并利用该模型将图像转换为特征矩阵，比较识别结果图像中各字符图像的特征矩阵与对应标准特征矩阵，从而判定识别结果的正确性，使识别结果精确率高于99.95％，有效减少人工干预工作量，提高工作效率。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于建模的OCR识别结果判决方法，其特征在于，包括如下步骤：

建立字符图像的特征提取模型；所述特征提取模型为Lenet、AlexNet、VggNet、ResNet、GoogLeNet其中一种卷积神经网络；使用单字符样本训练所述特征提取模型；

将标准的各字符图像输入所述特征提取模型，得到各个字符对应的标准特征矩阵，建立包含所述标准特征矩阵的标准字符特征库；

通过OCR识别引擎识别文本，得到OCR识别图像；

通过所述特征提取模型获得OCR识别图像中各字符的单字符特征矩阵；

逐一将字符的单字符特征矩阵与该字符对应的标准字符特矩阵进行比较，判断二者之间的相似度，从而判定OCR识别结果的正确性；

特征提取模型获得所述单字符特征矩阵的步骤为：将OCR识别图像进行单字符切割，生成单字符图像，将各单字符图像逐个输入所述特征提取模型得到单字符特征矩阵；

所述单字符特征矩阵与该单字符对应的标准字符特矩阵进行比较是采用软阈值模型进行判决，所述软阈值模型为：

，其中，y为判决结果，函数

为非线性函数或线性函数，S表示标准特征矩阵，P表示单字符特征矩阵；

所述软阈值模型

，通过样本训练软阈值模型得到，具体地：创建样本集合，所述样本集合中包含多组样本，每组样本包含两个字符的特征向量，当该组样本中的两个字符相同时，设置y=1，当样本组中的两个字符不相同时，设置y=0，求得函数

；

软阈值模型在函数

的作用下，一次性得到所有字符的阈值；

所述样本训练过程通过softmax损失函数完成软阈值模型收敛。

2.根据权利要求1所述的一种基于建模的OCR识别结果判决方法，其特征在于：所述OCR识别图像进行单字符切割，生成单字符图像的同时，还生成单字符图像在OCR识别图像中的坐标信息；判定字符识别错误时，根据该单字符图像的坐标信息在OCR识别图像中定位出错位置并提示用户。

3.根据权利要求1所述的一种基于建模的OCR识别结果判决方法，其特征在于：所述特征提取模型采用softmax损失函数，使用单字符样本训练所述特征提取模型，所述softmax损失函数的值不再减少，完成模型收敛。

4.一种基于建模的OCR识别结果判决设备，其特征在于：包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行如权利要求1至3任意项所述的基于建模的OCR识别结果判决方法。