CN109871847B

CN109871847B - 一种ocr识别方法及终端

Info

Publication number: CN109871847B
Application number: CN201910189723.3A
Authority: CN
Inventors: 郝占龙; 庄国金; 陈文传; 杜保发; 林玉玲
Original assignee: Xiamen Shangji Network Technology Co ltd
Current assignee: Xiamen Shangji Network Technology Co ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2022-09-30
Anticipated expiration: 2039-03-13
Also published as: CN109871847A

Abstract

本发明涉及一种OCR识别方法及终端，属于数据处理领域。本发明通过根据预设的第一字符图像训练样本集训练OCR深度学习模型；获取与所述OCR深度学习模型对应的第一相似度阈值；所述第一相似度阈值用于区分不同的字符；从预设的字符库中获取用所述第一相似度阈值无法区分的字符，得到相似字符集合；根据所述相似字符集合训练所述OCR深度学习模型；调用所述OCR深度学习模型识别字符图像。实现提高OCR识别的准确度。

Description

一种OCR识别方法及终端

技术领域

本发明涉及一种OCR识别方法及终端，属于数据处理领域。

背景技术

随着科学技术的发展，以及数字化的需求，越来越多的光学图像需要进行图像文本识别并录入计算机中使用。在财务、银行、行政、经济数据统计加工等领域，工作人员需要花费大量时间仔细录入和校对票据信息。一些繁琐重复的录入工作场景容易出现录入、校对错误。为了减少工作人员的繁琐录入工作和错误的发生，基于OCR识别的录入算法变得越来越重要。

虽然目前很多OCR识别准确率很高，甚至准确率可达99%，但是在税务等领域，对识别精准度的容错率要求非常严格。为了达到更高的高于99.95%的精度要求，不得不使用人工进行二次、甚至三次的信息录入核对工作，不仅浪费了大量人力资源，大大的提高了录入成本，也浪费机器识别录入资源。

发明内容

本发明所要解决的技术问题是：如何在满足识别速度的要求下，提高OCR识别的准确度。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种OCR识别方法，包括：

根据预设的第一字符图像训练样本集训练OCR深度学习模型；

获取与所述OCR深度学习模型对应的第一相似度阈值；所述第一相似度阈值用于区分不同的字符；

从预设的字符库中获取用所述第一相似度阈值无法区分的字符，得到相似字符集合；

根据所述相似字符集合训练所述OCR深度学习模型；

调用所述OCR深度学习模型识别字符图像。

优选地，调用所述OCR深度学习模型识别字符图像，具体为：

获取与所述相似字符集合对应的第二相似度阈值；所述第二相似度阈值用于区分所述相似字符集合中的不同字符；所述第二相似度阈值小于所述第一相似度阈值；

若根据所述第一相似度阈值得到的第一OCR识别结果为所述相似字符集合中的一字符，则：

根据所述第二相似度阈值从所述相似字符集合中获取一字符，得到第二OCR识别结果。

优选地，获取与所述相似字符集合对应的第二相似度阈值，具体为：

计算所述相似字符集合中任意两个字符之间的相似度，得到相似度集合；

设置所述第二相似度阈值为所述相似度集合中的最小值。

优选地，从预设的字符库中获取用所述第一相似度阈值无法区分的字符，得到相似字符集合，具体为：

S1、从所述预设的字符库中获取一字符，得到第一字符；

S2、从所述预设的字符库中获取除所述第一字符之外的一字符，得到第二字符；

S3、若所述第一字符与所述第二字符的相似度小于所述第一相似度阈值，则添加所述第一字符和所述第二字符至所述相似字符集合；

S4、重复执行所述步骤S2至S3，直至所述预设的字符库中除所述第一字符之外的其它字符均被遍历；

S5、重复执行所述步骤S1至所述步骤S4，直至所述预设的字符库被遍历。

优选地，根据所述相似字符集合训练所述OCR深度学习模型，具体为：

根据所述相似字符集合生成第二字符图像训练样本集；与所述相似字符集合对应的字符图像样本占所述第二字符图像训练样本集的比例，大于与所述相似字符集合对应的字符图像样本占所述第一字符图像训练样本集的比例；

根据所述第二字符图像训练样本集训练所述OCR深度学习模型。

本发明还提供一种OCR识别终端，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

根据预设的第一字符图像训练样本集训练OCR深度学习模型；

根据所述相似字符集合训练所述OCR深度学习模型；

调用所述OCR深度学习模型识别字符图像。

优选地，调用所述OCR深度学习模型识别字符图像，具体为：

设置所述第二相似度阈值为所述相似度集合中的最小值。

S1、从所述预设的字符库中获取一字符，得到第一字符；

本发明具有如下有益效果：

1、本发明提供一种OCR识别方法及终端，OCR深度学习模型的数据处理流程主要为：（1）提取字符图像的特征向量；（2）计算字符图像的特征向量与字符库中字符的特征向量的相似度；计算相似度的方法可采用欧式距离或余弦距离等，计算得到的相似度值越小说明二者相似程度越高；（3）若字符图像的特征向量与字符库中一字符的特征向量的相似度小于所述第一相似度阈值，则说明二者相似程度高，将所述字符库中的一字符作为所述字符图像的OCR识别结果。其中，第一相似度阈值是根据现有技术不断训练OCR深度学习模型能够得到的最优值，可使得OCR识别达到99%的准确度。由上述描述可知，第一相似度阈值能够将绝大多数的字符区分开，剩余1%的字符无法使用第一相似度阈值区分，无法区分的字符相似度极高。本发明利用第一相似度阈值这一特性，根据第一相似度阈值找出相似字符，并使用相似字符对OCR深度学习模型加强训练，调整模型参数，使得OCR深度学习模型对相似字符也能够有足够的敏感度，提高OCR识别的准确度，使得OCR识别的准确度能够大于99%，从而减少财税等对准确度要求极高的领域的人工录入核对工作量。

2、进一步地，在OCR深度学习模型识别字符图像的过程中，使用本发明提供的第二相似度阈值能够准确区分出相似字符集合中的相似字。本发明提供的OCR深度学习模型在识别字符图像的过程中，只有当初步识别结果为相似字符集合中的字符时，才使用第二相似度阈值进行进一步识别。一方面，对于非相似字符集合中的字符，使用第一相似度阈值进行字符区分就能够达到很高的准确度，若使用精确度更高的第二相似度阈值，由于字符图像中的字符并非都是标准的字符，反而会造成字符图像中的字符无法与字符库中的字符完美匹配的错误识别结果；另一方面，对于相似字符集合中的字符，使用第一相似度阈值不能准确将相似字区分开，需要使用精确度更高的第二相似度阈值进行精准匹配，从而提高OCR识别相似字符的准确度。

3、进一步地，本发明使用相似字集合中任意两个字符之间的相似度的最小值作为第二相似度阈值，保证第二相似度阈值能够准确区分相似字符集合中的每一个相似字符，从而提高OCR识别相似字符的准确度。

4、进一步地，通过全量分析，准确地、毫无遗漏地识别出字符库中的所有相似字符，有利于后续根据相似字符集合调整的参数能够有效提高OCR识别相似字符的准确度。

5、进一步地，与现有技术相比，本发明增加相似字符作为训练样本训练OCR深度学习模型的比例，使得本发明提供的深度学习模型能够对相似字符具有更高的敏感度，有利于提高OCR深度学习模型识别相似字符的准确度。

附图说明

图1为本发明提供的一种OCR识别方法的具体实施方式的流程框图；

图2为相似字符集合示意图；

图3为本发明提供的一种OCR识别终端的具体实施方式的结构框图；

标号说明：

1、处理器； 2、存储器。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

请参照图1至图3，

本发明的实施例一为：

如图1所示，本实施例提供一种OCR识别方法，包括：

S1、根据预设的第一字符图像训练样本集训练OCR深度学习模型。

其中，第一字符图像训练样本集中的字符图像训练样本与预设的字符库中的字符对应。例如，字符库中包含一字符“成”，则第一字符图像可以为不同字体的“成”字图像。

优选地，在训练OCR深度学习模型之前，对第一字符图像训练样本集中的字符图像样本进行影像预处理。

其中，影像预处理主要包括对影像的增强，加噪，去噪，尺度变换，样本清洗，并将字符切割成单字等。将单字图像输入到OCR深度学习模型进行特征提取，通过不断最大化类间距离，最小化类内距离优化模型，最终得到稳健的特征提取模型。

S2、获取与所述OCR深度学习模型对应的第一相似度阈值；所述第一相似度阈值用于区分不同的字符。

优选地，通过k折交叉验证，搜索最优的第一相似度阈值，使得后续判断小于第一相似度阈值的两张影像判断为同一影像。

其中，OCR深度学习模型的数据处理流程主要为：（1）提取字符图像的特征向量；计算字符图像的特征向量与字符库中字符的特征向量的相似度；计算相似度的方法可采用欧式距离或余弦距离等，计算得到的相似度值越小说明二者相似程度越高；若字符图像的特征向量与字符库中一字符的特征向量的相似度小于所述第一相似度阈值，则说明二者相似程度高，将所述字符库中的一字符作为所述字符图像的OCR识别结果。第一相似度阈值是根据K折交叉验证法不断训练OCR深度学习模型能够得到的最优值，可使得OCR识别达到99.8%的准确度。

例如，使用现有的方法训练一OCR深度学习模型。使用训练好的OCR深度学习模型识别一字符图像，OCR深度学习模型先提取该字符图像的特征向量，再将该特征向量依次与预设字符库中的各个字符进行相似度比对，得到若干个相似度值。在训练OCR深度学习模型过程中，OCR深度学习模型学习到一个相似度经验值，当该特征向量与字符库中一字符（“成”）的相似度值大于该相似度经验值时，则认为被识别的字符图像中的字符与字符库中的“成”字符的相似度极高，字符图像的识别结果即为“成”字符。所述相似度经验值即为本申请提供的相似度阈值。因此，本申请涉及的第一相似度阈值和第二相似度阈值均可直接从对应的OCR深度学习模型中获得。

S3、从预设的字符库中获取用所述第一相似度阈值无法区分的字符，得到相似字符集合。具体为：

S31、从所述预设的字符库中获取一字符，得到第一字符；

S32、从所述预设的字符库中获取除所述第一字符之外的一字符，得到第二字符；

S33、若所述第一字符与所述第二字符的相似度小于所述第一相似度阈值，则添加所述第一字符和所述第二字符至所述相似字符集合；

S34、重复执行所述步骤S32至S33，直至所述预设的字符库中除所述第一字符之外的其它字符均被遍历；

S35、重复执行所述步骤S31至所述步骤S34，直至所述预设的字符库被遍历。

例如，字符库中有10个字符“今天天气是阴天加阵雨”，本实施例采用全量筛选的方式，即其中的每个字符都和其它的字符进行相似度计算。其中， “今”和“加”的相似度小于第一相似度阈值，则认为“今”和“加”是相似字，将“今”和“加”添加至相似字符集合。相似字符集合示例如图2所示。

优选地，当且仅当所述相似字符集合中不存在一字符时，才将所述一字符添加至相似字符集合。

例如，相似字符集合中已存在“今”和“加”，若“今”与“天”也是相似字，则只需将“天”添加至相似字符集合，以避免重复添加，减少后续计算量。

其中，第一相似度阈值能够将绝大多数的字符区分开，剩余1%的字符无法使用第一相似度阈值区分，无法区分的字符相似度极高。本实施例利用第一相似度阈值这一特性，根据第一相似度阈值对字符库进行全量分析，准确地、毫无遗漏地识别出字符库中的所有相似字符，有利于后续根据相似字符集合调整的参数能够有效提高OCR识别相似字符的准确度。

S4、根据所述相似字符集合训练所述OCR深度学习模型。

其中，可根据现有的深度学习模型训练方法，以所述相似字符集合为训练样本对所述深度学习模型进行加强训练。

优选地，所述S4具体为：

S41、根据所述相似字符集合生成第二字符图像训练样本集；与所述相似字符集合对应的字符图像样本占所述第二字符图像训练样本集的比例，大于与所述相似字符集合对应的字符图像样本占所述第一字符图像训练样本集的比例。

S42、根据所述第二字符图像训练样本集训练所述OCR深度学习模型。

例如，第一字符图像训练样本集是由迭代器随机选取字符图像样本得到的。在执行步骤S4的过程中，迭代器按比例选取相似字符集合和非相似字符集合中的字符作为训练样本，以保证相似字符集合中的字符作为训练样本的数量。

其中，实施例增加相似字符作为训练样本训练OCR深度学习模型的比例，调整OCR深度学习模型的参数，使得OCR深度学习模型对相似字符也能够有足够的敏感度，提高OCR识别的准确度，使得OCR识别的准确度能够大于99%，从而减少财税等对准确度要求极高的领域的人工录入核对工作量。

S5、调用所述OCR深度学习模型识别字符图像。具体为：

S51、获取与所述相似字符集合对应的第二相似度阈值。具体为：

S511、计算所述相似字符集合中任意两个字符之间的相似度，得到相似度集合。

S512、设置所述第二相似度阈值为所述相似度集合中的最小值；所述第二相似度阈值用于区分所述相似字符集合中的不同字符；所述第二相似度阈值小于所述第一相似度阈值。

其中，实施例使用相似字集合中任意两个字符之间的相似度的最小值作为第二相似度阈值，保证第二相似度阈值能够准确区分相似字符集合中的任意两个字符，从而提高OCR识别相似字符的准确度。本实施例使用余弦距离或欧式距离计算两个字符之间的相似度，由于计算得到的相似度值约小说明二者越相似，因此，用于区分相似字符的第二相似度阈值必然小于用于区分非相似字符的第一相似度阈值才能够达到进一步提高识别准确度的目的。

S53、若根据所述第一相似度阈值得到的第一OCR识别结果为所述相似字符集合中的一字符，则：

例如，OCR深度学习模型识别一字符图像，得到的初步识别结果（第一OCR识别结果）是“末”。由于“末”存在于图2所示的相似字符集合中，则该字符图像对应的正确字符存在相似字。为了提高OCR识别准确度，使用能够区分相似字符集合中任意两个字符的第二相似度阈值对该字符图像进行更精准的识别，得到第二OCR识别结果“未”。则，该字符图像的最终OCR识别结果为“未”。

其中，在OCR深度学习模型识别字符图像的过程中，使用实施例提供的第二相似度阈值能够准确区分出相似字符集合中的相似字。实施例提供的OCR深度学习模型在识别字符图像的过程中，只有当初步识别结果为相似字符集合中的字符时，才使用第二相似度阈值进行进一步识别。一方面，对于非相似字符集合中的字符，使用第一相似度阈值进行字符区分就能够达到很高的准确度，若使用精确度更高的第二相似度阈值，由于字符图像中的字符并非都是标准的字符，反而会造成字符图像中的字符无法与字符库中的字符完美匹配的错误识别结果；另一方面，对于相似字符集合中的字符，使用第一相似度阈值不能准确将相似字区分开，需要使用精确度更高的第二相似度阈值进行精准匹配，从而提高OCR识别相似字符的准确度。

本发明的实施例二为：

如图2所示，本实施例提供一种OCR识别终端，包括一个或多个处理器1及存储器2，所述存储器2存储有程序，并且被配置成由所述一个或多个处理器1执行以下步骤：

S31、从所述预设的字符库中获取一字符，得到第一字符；

S4、根据所述相似字符集合训练所述OCR深度学习模型。具体为：

S5、调用所述OCR深度学习模型识别字符图像。具体为：

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种OCR识别方法，其特征在于，包括：

根据预设的第一字符图像训练样本集训练OCR深度学习模型；第一字符图像训练样本集中的字符图像训练样本与预设的字符库中的字符对应；

在训练OCR深度学习模型之前，对第一字符图像训练样本集中的字符图像样本进行影像预处理；

获取与所述OCR深度学习模型对应的第一相似度阈值，所述第一相似度阈值用于区分不同的字符，具体为：根据K折交叉验证法不断训练OCR深度学习模型得到最优值，将最优值确定为第一相似度阈值；

从预设的字符库中获取用所述第一相似度阈值无法区分的字符，得到相似字符集合；根据所述相似字符集合训练所述OCR深度学习模型；

调用所述OCR深度学习模型识别字符图像，具体为：

2.根据权利要求1所述的OCR识别方法，其特征在于，获取与所述相似字符集合对应的第二相似度阈值，具体为：

计算所述相似字符集合中任意两个字符之间的相似度值，得到相似度值集合；

设置所述第二相似度阈值为所述相似度值集合中的最小值。

3.根据权利要求1所述的OCR识别方法，其特征在于，从预设的字符库中获取用所述第一相似度阈值无法区分的字符，得到相似字符集合，具体为：

S1、从所述预设的字符库中获取一字符，得到第一字符；

S3、若所述第一字符与所述第二字符的相似度值小于所述第一相似度阈值，则添加所述第一字符和所述第二字符至所述相似字符集合；

4.根据权利要求1所述的OCR识别方法，其特征在于，根据所述相似字符集合训练所述OCR深度学习模型，具体为：

5.一种OCR识别终端，其特征在于，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

根据所述相似字符集合训练所述OCR深度学习模型；

调用所述OCR深度学习模型识别字符图像；

调用所述OCR深度学习模型识别字符图像，具体为：

6.根据权利要求5所述的OCR识别终端，其特征在于，获取与所述相似字符集合对应的第二相似度阈值，具体为：

设置所述第二相似度阈值为所述相似度值集合中的最小值。

7.根据权利要求5所述的OCR识别终端，其特征在于，从预设的字符库中获取用所述第一相似度阈值无法区分的字符，得到相似字符集合，具体为：

S1、从所述预设的字符库中获取一字符，得到第一字符；

8.根据权利要求5所述的OCR识别终端，其特征在于，根据所述相似字符集合训练所述OCR深度学习模型，具体为：