CN109919076B

CN109919076B - 基于深度学习的确认ocr识别结果可靠性的方法及介质

Info

Publication number: CN109919076B
Application number: CN201910160850.0A
Authority: CN
Inventors: 郝占龙; 林玉玲; 陈文传; 杜保发
Original assignee: Xiamen Shangji Network Technology Co ltd
Current assignee: Xiamen Shangji Network Technology Co ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2022-01-04
Anticipated expiration: 2039-03-04
Also published as: CN109919076A

Abstract

本发明涉及一种基于深度学习的确认OCR识别结果可靠性的方法，包括如下步骤：将OCR识别得到的票据影像按设定的字段进行分割，生成多个字段碎片图像和各字段碎片图像在所述票据影像上的坐标信息；对各字段碎片图像进行单字分割，生成单字图像和单字图像在所述票据影像上的坐标信息；对所述单字图像进行特征提取，得到单字的第一特征矩阵；根据所述单字图像的坐标信息从标准库提取OCR识别结果中该坐标位置对应的单字的标准特征矩阵，逐个计算所述单字的第一特征矩阵与对应的标准特征矩阵的相似度，若计算结果在设定的相似度阈值范围内，则认为该单字识别正确。本发明优点：核验OCR识别结果，大幅提高识别结果的精准度，减少人工工作量。

Description

基于深度学习的确认OCR识别结果可靠性的方法及介质

技术领域

本发明涉及一种基于深度学习的确认OCR识别结果可靠性的方法及介质，属于光学字符识别领域。

背景技术

随着科学技术的发展，以及电子化的需求，越来越多的光学图像需要进行文本识别录入计算机中。在财税、经济侦查等领域，工作人员需要花费大量时间仔细录入票据信息，并且繁琐重复的录入工作极易出现错误，为了减少工作人员的繁琐录入工作和错误的发生，基于OCR识别的录入算法变得越来越重要。

虽然目前很多OCR识别的准确率很高，甚至准确率可达99％，但是在税务金融等领域1％的识别错误率仍是不可接受的，且错误发生点的不确定，使得OCR无法预先得知会在什么位置识别错误，识别完成后并不知道所识别的结果是否是真实值。为了达到高于99.95％的精度要求，不得不使用人工进行二次、甚至三次的信息录入核对工作，现有的OCR识别结合人工审核的流程如图1所示，这样浪费了大量人力资源，大大的提高了录入成本。为了减少人工干预的工作量，研发一种可以确定OCR识别结果中错误点的方法具有极其重要的意义。

发明内容

为了解决上述技术问题，本发明提供一种基于深度学习的确认OCR识别结果可靠性的方法，能够核验OCR识别结果的正确性，从而大幅提高OCR识别结果的精确率，并能够定位出错位置。

本发明的技术方案一如下：

一种基于深度学习的确认OCR识别结果可靠性的方法，包括如下步骤：

将OCR识别得到的票据影像按设定的字段进行分割，生成多个字段碎片图像，同时生成各所述字段碎片图像在所述票据影像上的坐标信息；对各所述字段碎片图像进行单字分割，生成单字图像和单字图像在所述票据影像上的坐标信息；对所述单字图像进行特征提取，得到单字的第一特征矩阵；根据所述单字图像的坐标信息从标准库提取OCR识别结果中该坐标位置对应的单字的标准特征矩阵，逐个计算所述单字的第一特征矩阵与对应的标准特征矩阵的相似度，若计算结果在设定的相似度阈值范围内，则认为该单字识别正确，否则认为该单字识别错误。

更优地，所述字段碎片图像的单字分割，生成单字图像的步骤具体为：所述字段碎片图像通过深度学习模型进行特征提取，转换为字段碎片图像的特征矩阵，通过窗口截取字段碎片图像特征矩阵，得到单字的第二特征矩阵，根据该第二特征矩阵在字段碎片图像特征矩阵中的位置，确定该第二特征矩阵对应的单字坐标信息，根据该单字坐标信息从所述字段碎片图像中分割出单字图像。

更优地，采用不同尺度且宽高比例为1:1的窗口分别遍历截取字段碎片图像的特征矩阵，和/或采用不同尺度且宽高比例为1:2的窗口分别遍历截取字段碎片图像的特征矩阵。

更优地，将所述窗口截取到的特征矩阵输入所述深度学习模型进行判断，所述深度学习模型通过预设的置信度阈值进行筛选，输出目标特征矩阵。

更优地，所述目标特征矩阵通过非极大值抑制合并重复的区域，得到单字的第二特征矩阵，同时根据该第二特征矩阵在字段碎片图像特征矩阵中的位置，确定该第二特征矩阵对应的单字坐标信息，根据该单字坐标信息从所述字段碎片图像中分割出单字图像。

更优地，核验出该单字识别错误，根据该单字图像的坐标信息定位该单字图像在所述票据影像中的位置，并提示用户。

更优地，所述相似度计算的方式包括欧氏距离，余弦距离或马氏距离。

更优地，所述深度学习模型的损失函数引入余弦距离和角度距离，其公式为：

其中，m是每批次处理样本的总数量，s是x_i的二范数，即s＝||x_i||，x_i∈i^d是第i个属于类别y_i的样本的深度特征，d是特征维度，θ_yi代表y_i类别样本的角向量，θ_j代表j类别样本的角向量，n是类别数量。

更优地，所述深度学习模型的损失函数公式为：

其中，m是每批次处理样本的总数量，

是W^T的第yi列，

是W^T的第j列，b_yi是第yi列的偏置，b_j是第j列的偏置，x_i∈i^d是第i个属于类别y_i的样本的深度特征，d是特征维度，W_j∈i^d是最后全连接层权重W的第j列，n是类别数量，T表示矩阵的转置。

本发明还提供一种计算机可读存储介质。

本发明技术方案二如下：

一种计算机可读存储介质，其上存储有指令，该指令被处理器加载时执行如下步骤：将OCR识别得到的票据影像按设定的字段进行分割，生成多个字段碎片图像，同时生成各所述字段碎片图像在所述票据影像上的坐标信息；对各所述字段碎片图像进行单字分割，生成单字图像和单字图像在所述票据影像上的坐标信息；通过深度学习模型对所述单字图像进行特征提取，将单字图像转换为单字的第一特征矩阵；根据所述单字图像的坐标信息从标准库中提取OCR识别结果中该坐标位置对应的单字的标准特征矩阵，逐个计算所述单字的第一特征矩阵与对应的标准特征矩阵的相似度，若计算结果在设定的相似度阈值范围内，则认为该单字识别正确，否则认为该单字识别错误。

本发明具有如下有益效果：

1、本发明基于深度学习的确认OCR识别结果可靠性的方法，通过特征矩阵求相似度的方法核验OCR识别结果是否正确，使核验后的OCR识别结果的精确率高于99.95％；

2、本发明基于深度学习的确认OCR识别结果可靠性的方法，将票据影像中的字段转换为特征矩阵，通过深度学习模型识别出单字的第二特征矩阵，能够准确定位单字所在位置；

3、本发明基于深度学习的确认OCR识别结果可靠性的方法，通过不同窗口比例及尺度多次遍历字段碎片图像的特征矩阵，防止漏字或误判，提高提取单字第二特征矩阵的准确性；

4、本发明基于深度学习的确认OCR识别结果可靠性的方法，通过深度学习模型进行筛选，进一步提高提取单字第二特征矩阵的准确性，且减少后续处理的工作量；

5、本发明基于深度学习的确认OCR识别结果可靠性的方法，通过非极大值抑制合并同一目标的重复区域，获取准确的单字第二特征矩阵；

6、本发明基于深度学习的确认OCR识别结果可靠性的方法，能够定位核验出错误位置，有效减少人工干预工作量，提高工作效率；

7、本发明基于深度学习的确认OCR识别结果可靠性的方法，深度学习模型中将余弦距离和角度距离引入softmax损失函数，使得同类影像间距离尽可能小，异类影像间距离尽可能大，特征提取结果更精准。

附图说明

图1为现有技术中将OCR应用于文本识别的工作流程；

图2为本发明确认OCR识别结果可靠性的方法流程示意图；

图3为本发明中票据影像分割字段碎片图像的示意图；

图4为本发明中字段碎片图像示意图；

图5为本发明中字段碎片图像单字分割的流程示意图；

图6为本发明中字段碎片图像中单字经过影像预处理后的效果示意图；.

图7为本发明中两种窗口比例的示意图；

图8为本发明中以“标”为例说明多个窗口的截取示意图；

图9为本发明中单字分割后的效果图；

图10为本发明的确认OCR识别结果可靠性收益示意图；

图11为本发明应用于OCR文本识别的工作流程图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一：

请参阅图2，一种基于深度学习的确认OCR识别结果可靠性的方法，包括如下步骤：

将OCR识别得到的票据影像按设定的字段进行分割，生成多个字段碎片图像，同时生成各所述字段碎片图像在所述票据影像上的坐标信息；所述设定的字段是根据票据类型需要从票据上提取的需要核验的关键信息，可以是一个词和/或一个栏目对应的内容，请参阅图3，根据票据类型分析确定矩形框中的字段为该票据中需要核验的关键信息，矩形框中字段被分割成字段碎片图像，请参阅图4，以该票据抬头为例，图中“江苏增值税普通发票”的字段碎片图像在所述票据影像中的坐标为(870，59，1434，124)，其中(870，59)为左上角坐标，(1434，124)为右下角坐标。

对各所述字段碎片图像进行单字分割，生成单字图像和单字图像的坐标信息，建立每个单字图像与所述票据影像的映射关系，得到各单字图像在所述票据影像上的位置。所述单字包括单个汉字、单个字母、单个数字以及单个符号。请再参阅图4，抬头“江苏增值税普通发票”在票据上的坐标为(a,b,c,d)，其中(a，b)为矩形框的左上角坐标，(c，d)为矩形框的右下角坐标，“江”在字段碎片图像上的坐标为(e,f,g,h)，其中(e，f)为江字的左上角坐标，(g，h)江字的右下角坐标，建立江字与票据影像的映射关系后，得到“江”在票据上的坐标为(a+e,b+f,a+g,b+h)。

请参与图5，具体地，首先，通过深度学习模型对各字段碎片图像进行特征提取，所述深度学习模型可使用ZF网络，VggNet，ResNet等卷积神经网络模型，选择最后一层网络的输出作为字段碎片图像的特征矩阵，所述特征矩阵的为维数可以是一维，则输出该字段碎片图像的特征向量；请参阅图6，为了提高字段碎片图像的质量，对各字段碎片图像执行影像预处理，所述影像预处理包括去噪和/或尺度变换，所述去噪包括双边滤波、高斯滤波、中值滤波等。

本发明中，将不同类别的图像输入所述深度学习模型，通过softmax损失函数使得同类影像间距尽可能小，异类影像间距尽可能大(图像中的单字属于同类影像，非单字属于异类影像)，所述深度学习模型采用标准softmax损失函数公式：

其中，m是每批次处理样本的总数量，

是W^T的第yi列，

是W^T的第j列，b_yi是第yi列的偏置，b_j是第j列的偏置，x_i∈i^d是第i个属于类别y_i的样本的深度特征，d是特征维度，W_j∈i^d是最后全连接层权重W的第j列，n是类别数量，T表示矩阵的转置。本发明中，为了让softmax损失函数更加明确的减少同类特征距离、增大异类特征距离，引入余弦距离和角度距离，所述深度学习模型的损失函数公式为：

其次，设定窗口的宽高比，利用该窗口遍历截取字段碎片图像的特征矩阵，且窗口采用不同尺度，例如：窗口可以采用1，2，4，8，16几种单位尺度，多次重复遍历截取字段碎片图像的特征矩阵，将截取到的特征矩阵输入深度学习模型进行判断，所述深度学习模型通过预设的置信度阈值进行筛选，输出目标特征矩阵。考虑到汉字和数字英文字符的宽高比，请参阅图7，一般可采用1：1和1：2两种窗口比例，例如，先以1：1且宽度值为a的窗口，遍历字段碎片图像的特征矩阵，其中a＝(a₁,a₂,a₃....a_n)，再选用同比例不同宽度值的窗口对该字段碎片图像的特征矩阵进行遍历截取，还可以再以1：2且宽度值为b的窗口，遍历字段碎片图像的特征矩阵，其中b＝(b₁,b₂,b₃....b_n)。所述目标特征矩阵是指包含字符的特征矩阵，所述字符可能是一个汉字的一部分，或者是数字，或者是完整的字符。将字段碎片图像转换为计算机可以识别的特征矩阵，特征矩阵和字段碎片图像是对应的，因此，请参阅图8，以“标”字为例，图中的各窗口分别对应一目标特征矩阵，经过深度学习模型学习，“标”字上仍存在多种截取框，因此，还需要通过非极大值抑制合并具有重合的区域，生成单字特征矩阵。

最后，将目标特征矩阵通过非极大值抑制合并重复的区域，得到各单字的第二特征矩阵，同时根据该第二特征矩阵在字段碎片图像特征矩阵中的位置，确定该第二特征矩阵对应的单字坐标信息，根据该单字坐标信息从所述字段碎片图像中分割出单字图像，如图9所示。更优地，对单字特征矩阵的四个点的坐标通过线性回归网络进行矫正，得到更为准确的单字坐标信息。

通过所述深度学习模型对所述单字图像进行特征提取，得到单字的第一特征矩阵。

根据所述单字图像的坐标信息从标准库中提取OCR识别结果中该坐标位置的单字的标准特征矩阵，逐个计算所述第一特征矩阵与对应的标准特征矩阵的相似度，若计算结果在设定的相似度阈值范围内，则认为该单字识别正确，若计算结果不在设定的相似度阈值范围内，则认为该单字识别错误，并根据该单字图像的坐标信息定位其在所述票据影像中的位置。所述标准库中包括了各汉字的标准特征矩阵、各阿拉伯数字的标准特征矩阵、各字母的标准特征矩阵以及符号的特征矩阵，且可根据实际核验需求进行扩充。各所述标准特征矩阵是通过人工标注确认单字通过所述深度学习模型计算得出的特征矩阵。现有的特征矩阵的相似度计算方法可用欧氏距离，余弦距离，马氏距离等。使用欧式距离计算相似度时，通过公式

求得相似度值y，其中E_i为所述票据影像中i字的第一特征矩阵，N_i为OCR识别结果中i字的标准特征矩阵，所述标准特征矩阵是通过人工标注确认无误的i字通过特征提取得到的特征矩阵；工程上，为了简化计算提高效率，上述公式可简化为y＝abs(E_i-N_i)，其中abs代表取绝对值。和公式

唯一不同的是需要变更y的相似度阈值范围。目前生产使用情况为，对于y值小于1.0的即可认定所述票据影像的E_i与对比的N_i特征一致，即所识别的内容正确。所述相似度阈值的获得方法为：通过K折交叉验证获得较优的分辩阈值。K折交叉验证的主要流程为：1、将全部训练集S分成k个不相交的子集，假设S中的训练样例个数为m，那么每一个子集有m/k个训练样例，相应的子集称作{S₁,S₂...S_k}；2、每次从模型集合M中拿出来一个M_i，然后在训练子集中选择出k-1个{S₁,S₂...S_j-1,S_j+1...S_k}(也就是每次只留下一个S_j)，使用这k-1个子集训练M_i后，得到假设函数h_ij。最后使用剩下的一份S_j作测试，得到经验错误。3、由于我们每次留下一个S_j(j从1到k)，因此会得到k个经验错误，那么对于一个M_i，它的经验错误是这k个经验错误的平均。4、选出平均经验错误率最小的M_i，然后使用全部的S再做一次训练，得到最后的h_i。所述h_i为较优的相似度阈值。

请参阅图10，所述字段碎片图像“苏州市相城区高新机械电器设备厂”通过单字分割后，得到各单字图像对应的第一特征矩阵，当进行“相”字相似度计算时，根据“相”字的坐标信息确定OCR识别结果中该坐标信息对应的单字“箱”，提取该“箱”字的标准特征矩阵，计算从票据影像中分割出来的“相”字的单字图像对应第一特征矩阵与“箱”字的标准特征矩阵的相似度，则可核验出该字存在OCR识别错误。

本发明基于深度学习的确认OCR识别结果可靠性的方法能够定位出核验结果中与OCR识别结果存在差异的文字，然后由人工核验，请参阅图11，其识别流程为：OCR执行文本识别后，将OCR识别结果通过本发明提供的方法进行OCR识别记过核验，若成功，则不需要人工核验，若不成功，仅需对定位出的可能识别有误的文字进行核验，大大减少了工作量和人工耗时。

实施例二：

实施例二的具体步骤可参见方法实施例的相关说明部分。

本发明基于深度学习的确认OCR识别结果可靠性的方法，通过深度学习网络将图像转换为特征矩阵，通过票据影像中单字图像的特征矩阵与OCR识别结果中单字的标准特征矩阵的比对，最终核验OCR识别结果的正确性，且能够定位错误位置，大大减少人工干预的工作量，提高工作效率。

通过生产实践验证，通过本发明基于深度学习的确认OCR识别结果可靠性的方法，实现核验后OCR识别结果的精确率高于99.95％，因此，能够高质量地有效降低录入工作量。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习的确认OCR识别结果可靠性的方法，其特征在于：包括如下步骤：

将OCR识别得到的票据影像按设定的字段进行分割，生成多个字段碎片图像，同时生成各所述字段碎片图像在所述票据影像上的坐标信息；所述设定的字段是根据票据类型需要从票据上提取的需要核验的关键信息；

对各所述字段碎片图像进行单字分割，生成单字图像和单字图像在所述票据影像上的坐标信息；建立每个单字图像与所述票据影像的映射关系；

通过深度学习模型对所述单字图像进行特征提取，将单字图像转换为单字的第一特征矩阵；

根据所述单字图像的坐标信息从标准库中提取OCR识别结果中该坐标位置对应的单字的标准特征矩阵，逐个计算所述单字的第一特征矩阵与对应的标准特征矩阵的相似度，若计算结果在设定的相似度阈值范围内，则认为该单字识别正确，否则认为该单字识别错误；

所述字段碎片图像的单字分割，生成单字图像的步骤具体为：将所述字段碎片图像通过深度学习模型进行特征提取，转换为字段碎片图像的特征矩阵，通过窗口截取字段碎片图像特征矩阵，得到单字的第二特征矩阵，根据该第二特征矩阵在字段碎片图像特征矩阵中的位置，确定该第二特征矩阵对应的单字坐标信息，根据该单字坐标信息从所述字段碎片图像中分割出单字图像。

2.根据权利要求1所述的一种基于深度学习的确认OCR识别结果可靠性的方法，其特征在于：采用不同尺度且宽高比例为1:1的窗口分别遍历截取字段碎片图像的特征矩阵，和/或采用不同尺度且宽高比例为1:2的窗口分别遍历截取字段碎片图像的特征矩阵。

3.根据权利要求2所述的一种基于深度学习的确认OCR识别结果可靠性的方法，其特征在于：将所述窗口截取到的特征矩阵输入所述深度学习模型进行判断，所述深度学习模型通过预设的置信度阈值进行筛选，输出目标特征矩阵。

4.根据权利要求3所述的一种基于深度学习的确认OCR识别结果可靠性的方法，其特征在于：所述目标特征矩阵通过非极大值抑制合并重复的区域，得到单字的第二特征矩阵，同时根据该第二特征矩阵在字段碎片图像特征矩阵中的位置，确定该第二特征矩阵对应的单字坐标信息，根据该单字坐标信息从所述字段碎片图像中分割出单字图像。

5.根据权利要求1所述的一种基于深度学习的确认OCR识别结果可靠性的方法，其特征在于，核验出该单字识别错误，根据该单字图像的坐标信息定位该单字图像在所述票据影像中的位置，并提示用户。

6.根据权利要求1所述的一种基于深度学习的确认OCR识别结果可靠性的方法，其特征在于，所述相似度计算的方式包括欧氏距离，余弦距离或马氏距离。

7.根据权利要求1所述的一种基于深度学习的确认OCR识别结果可靠性的方法，其特征在于，所述深度学习模型的损失函数引入余弦距离和角度距离，其公式为：