CN114973275A

CN114973275A - 一种基于深度学习技术的图文乱码识别方法

Info

Publication number: CN114973275A
Application number: CN202210708633.2A
Authority: CN
Inventors: 兰勇; 王治国; 王超; 段盛睛; 贾丽娜
Original assignee: Xinhuaxin Technology Co ltd
Current assignee: Xinhuaxin Technology Co ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-08-30

Abstract

本发明公开了一种基于深度学习技术的图文乱码识别方法，包括以下步骤：步骤S1：获取待乱码识别的文件图像信息；步骤S1.1：将待乱码识别的文件固定在稳光环境中；步骤S1.2：通过扫描仪扫描或相机拍摄生成待处理的标签图像信息；步骤S2：将待处理的图像信息送入到OCR识别模块中进行数据预处理、文本区域检测及文字内容识别；步骤S2.1：OCR识别模块中涵盖数据预处理、文本区域检测及文字内容识别三部分功能；步骤S3：将OCR识别模块的输出结果送入到乱码判别模块中。本发明的有益效果是，通过深度学习算法训练图文检测与识别模型，结合设定阈值与语义分析技术进行生产图文乱码信息的存在性判定。

Description

一种基于深度学习技术的图文乱码识别方法

技术领域

本发明涉及图文检测与识别领域，特别是一种基于深度学习技术的图文乱码识别方法。

背景技术

全球制造业随着数字经济的到来，正遭遇前所未有的挑战。继机械化、电气化、自动化的工业革命之后，制造业正在进入新一轮的由数字化和智能化引发的新工业革命，开始向数字化和智能化转型升级。为应对新工业革命下日趋激烈的市场竞争，许多国家都将智能制造作为制造业未来的发展方向。当前，新一代信息技术风起云涌，互联网、大数据、人工智能等技术加速融入经济社会发展的各领域全过程，正对生产生活产生诸多影响，尤其是给制造业变革带来了新动能。全面推动制造业智能化改造、数字化转型，加速构筑产业发展新优势、提升产业核心竞争力也逐渐成为新时代制造业企业的发展目标。

对于制造业进行数字化转型大多数会从打造智慧工厂开始。大多数制造业为了获取更好的客户评价，在日常生产过程中会对其生产的电气产品的产品标签及包装标签的内容进行校验工作，即标签序列号的一致性、标签乱码的存在性。对于一个产品来说既有产品标签，又有包装标签，两种标签上都会印有与产品对应的一系列重要信息。在产品打包阶段会校验该产品的产品标签与包装标签上的各种信息，来查验是否有产品装错箱，如果出现不一致的情况则及时给出警报信息。而在现在很多技术都是机器完成的情况下，在终端设备中的文字处理等领域，经常会出现文本文档乱码的现象，乱码指的是终端设备不能显示正确的字符，而显示其他无意义的字符或空白，使得工人无法理解文本区域所描述的内容，从而限制分拣操作及下一步的操作。

传统的产线环节中，多采用人工查看和对比检查，工作量大，工人也会因长时间的工作或其它环境因素，导致工作效率低下。且当出现少量个别乱码掺杂其中时，也会出现难以发现的情况，这些都给现场的人工工作带来了很大的不便，降低了工作效率和质量，导致标签内容校验结果不稳定。而目前，很少有公开的识别标签中乱码的技术，近似的技术有文字提取中结合OCR技术以提高识别文字的准确性，但OCR技术实现过程中会根据自身的识别字符库进行文字的识别，因此即使标签中存在乱码也会识别为字符库中的某个字符，并不能实现标签中乱码情况的识别。因此如何在特定的制造业找到适合该领域、且准确率较高、普适性较强、实现速度较快的乱码识别方法是一个非常重要的待解决课题。

发明内容

本发明的目的是为了解决上述问题，设计了一种基于深度学习技术的图文乱码识别方法。

实现上述目的本发明的技术方案为，一种基于深度学习技术的图文乱码识别方法，包括以下步骤：

步骤S1：获取待乱码识别的文件图像信息；

步骤S1.1：将待乱码识别的文件固定在稳光环境中；

步骤S1.2：通过扫描仪扫描或相机拍摄生成待处理的图像信息；

步骤S2：将待处理的图像信息送入到OCR识别模块中进行数据预处理、文本区域检测及文字内容识别；

步骤S2.1：OCR识别模块中涵盖数据预处理、文本区域检测及文字内容识别三部分功能；

步骤S3：将OCR识别模块的输出结果送入到乱码判别模块中，集成针对于生产制造领域的不同乱码识别方法进行乱码识别并输出识别结果。

所述步骤S2中的数据预处理：首先调节待识别图像的亮度和对比度、然后对待识别图像进行缩放，对缩放后的图像进行预处理，所述的预处理为二值化、矫正倾斜、降噪处理，最后使图像处于水平竖直且文字较清晰的状态。

所述步骤S2中的文本区域检测：将预处理后的待识别图像送入文本区域检测模型中，得到图像的多个文本区域；

在所述文本区域检测模型进行文本位置信息检测之前，还包括：

OCR深度学习文本检测模型训练：采集不同样式的图片数据，并对图片进行二值化、降噪及倾斜校正处理；标注图片数据，所需标注信息为可以表现文本位置的矩形框及可以表现文本位置矩形框的类别标签；将标注后的数据划分为训练集、验证集和测试集；利用所划分的训练集和验证集训练文本检测模型，将所述待检测图片测试集输入到所述文本检测模型中得到多个文本位置信息进行模型评估及调优，最终得到OCR深度学习文本检测模型。

所述步骤S2中的文字内容识别：将文本检测模型输出的多个文本区域送入到文字内容识别模型中，得到可编辑的文本信息；

在所述文字内容识别模型进行文字内容信息识别之前，还包括：

OCR深度学习文字识别模型训练：采集不同样式的图片数据，并对图片进行二值化、降噪及倾斜校正处理；标注图片数据，所需标注信息为文本框对应的文字信息，得到多个包含单行文本信息的图片；将标注得到的单行文本框图片数据划分为训练集、验证集和测试集；利用所划分的训练集和验证集训练文字内容识别模型，将所述待识别的单行文本框图片输入到所述文字内容识别模型中得到文字内容识别结果进行模型评估及调优，最终得到OCR深度学习文字内容识别模型。

所述步骤S3：乱码判别模块中涵盖字符识别阈值、分词处理及语义分析三种判别文本是否存在乱码的方法。

所述步骤S3中的字符识别阈值：设定阈值为字符识别结果的判定条件；对OCR识别模块最终输出的可编辑的文本信息进行后处理，即比较字符识别得分与设定阈值之间的大小关系；当字符的识别得分大于设定阈值时，字符被判定为正常字符，当字符的识别得分小于等于设定阈值时，字符被判定为乱码字符；当文本中的字符均为正常字符时，则返回该文本无乱码结果，当文本中有一个及以上乱码字符时，则返回该文本有乱码结果。

所述步骤S3中的分词处理：将OCR识别模块最终输出的可编辑的文本信息进行分词处理，基于该制造领域数据的特性，对分词后的字符形式进行乱码判别；当文本中字符存在有语义词组时，返回该文本无乱码结果，当文本中字符均为单一字符时，则返回该文本有乱码结果。

所述步骤S3中的语义分析：将文字识别模型输出的可编辑的文本信息送入到语义分析模型中构建依存结构树，具有正常逻辑与语义的文本可以产出一个完整且具体的结构树，而存在乱码的文本则无法产出一个完整且具体的结构树。因此当文本无法通过语义分析模型产出一个完整且具体的依存结构树时，确定该文本中存在乱码信息，返回该文本有乱码结果，否则返回该文本无乱码结果。

所述步骤S3中三种方法判定文本中是否存在乱码，综合考虑三种方法返回的信息，当三种方法中的任意一种方法返回有乱码结果时，则最终判定待乱码识别的文件存在乱码，否则最终判定待乱码识别的文件为正常可用文件。

利用本发明的技术方案制作的一种基于深度学习技术的图文乱码识别方法，本发明主要采用小样本学习方法，通过深度学习算法训练图文检测与识别模型，结合设定阈值与语义分析技术进行图文乱码信息的存在性判定；采用机器识别方法进一步排除了人工校验的不稳定性，从而保证了生产质量的稳定。通过上述方法的集成解决了该特定领域及现有实现技术中存在的问题。

附图说明

图1是本发明所述一种基于深度学习技术的图文乱码识别方法的框图。

具体实施方式

下面结合附图对本发明进行具体描述，如图1所示，一种基于深度学习技术的图文乱码识别方法，

步骤S1：获取待乱码识别的文件；

步骤S1.1：将待乱码识别的文件固定在稳光环境中；

需要说明的是：待乱码识别的文件文件可为文本、产品标签、屏幕截图；

步骤S2中的数据预处理：首先调节待识别产品标签图像的亮度和对比度、然后对待识别产品标签图像进行缩放，对缩放后的图像进行预处理，所述的预处理为二值化、矫正倾斜、降噪处理，最后使图像处于水平竖直且文字较清晰的状态；

步骤S2中的文本区域检测：将预处理后的待识别产品标签图像送入文本区域检测模型中，得到图像的多个文本区域；

进一步地，在所述文本区域检测模型进行文本位置信息检测之前，所述方法还包括：

OCR深度学习文本检测模型训练：采集不同样式的图片数据，并对图片进行二值化、降噪及倾斜校正处理；标注产品标签图片数据，所需标注信息为可以表现文本位置的矩形框及可以表现文本位置矩形框的类别标签；将标注后的数据划分为训练集、验证集和测试集；利用所划分的训练集和验证集训练文本检测模型，将所述待检测图片测试集输入到所述文本检测模型中得到多个文本位置信息进行模型评估及调优，最终得到OCR深度学习文本检测模型；

步骤S2中的文字内容识别：将文本检测模型输出的多个文本区域送入到文字内容识别模型中，得到可编辑的文本信息；

进一步地，在所述文字内容识别模型进行文字内容信息识别之前，所述方法还包括：

OCR深度学习文字识别模型训练：采集不同样式的图片数据，并对图片进行二值化、降噪及倾斜校正处理；标注产品标签图片数据，所需标注信息为文本框对应的文字信息，得到多个包含单行文本信息的图片；将标注得到的单行文本框图片数据划分为训练集、验证集和测试集；利用所划分的训练集和验证集训练文字内容识别模型，将所述待识别的单行文本框图片输入到所述文字内容识别模型中得到文字内容识别结果进行模型评估及调优，最终得到OCR深度学习文字内容识别模型；

步骤S3：将OCR识别模块的输出结果送入到乱码判别模块中，集成针对于生产制造领域的不同乱码识别方法进行乱码识别并输出识别结果；

步骤S3中的乱码判别模块中涵盖字符识别阈值、分词处理及语义分析三种判别文本是否存在乱码的方法；

步骤S3中的字符识别阈值：设定阈值为字符识别结果的判定条件；对OCR识别模块最终输出的可编辑的文本信息进行后处理，即比较字符识别得分与设定阈值之间的大小关系；当字符的识别得分大于设定阈值时，字符被判定为正常字符，当字符的识别得分小于等于设定阈值时，字符被判定为乱码字符；当文本中的字符均为正常字符时，则返回该文本无乱码结果，当文本中有一个及以上乱码字符时，则返回该文本有乱码结果；

步骤S3中的分词处理：将OCR识别模块最终输出的可编辑的文本信息进行分词处理，基于该制造领域数据的特性，对分词后的字符形式进行乱码判别；当文本中字符存在有语义词组时，返回该文本无乱码结果，当文本中字符均为单一字符时，则返回该文本有乱码结果；

步骤S3中的语义分析：将文字识别模型输出的可编辑的文本信息送入到语义分析模型中构建依存结构树，具有正常逻辑与语义的文本可以产出一个完整且具体的结构树，而存在乱码的文本则无法产出一个完整且具体的结构树。因此当文本无法通过语义分析模型产出一个完整且具体的依存结构树时，确定该文本中存在乱码信息，返回该文本有乱码结果，否则返回该文本无乱码结果；

步骤S3中三种方法判定文本中是否存在乱码，综合考虑三种方法返回的信息，当三种方法中的任意一种方法返回有乱码结果时，则最终判定该待乱码识别的文件存在乱码，否则最终判定待乱码识别的文件为正常可用文件。

上述技术方案仅体现了本发明技术方案的优选技术方案，本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理，属于本发明的保护范围之内。

Claims

1.一种基于深度学习技术的图文乱码识别方法，其特征在于，包括以下步骤：

步骤S1：获取待乱码识别的文件图像信息；

步骤S1.1：将待乱码识别的文件固定在稳光环境中；

2.根据权利要求1所述的一种基于深度学习技术的图文乱码识别方法，其特征在于，所述步骤S2中的数据预处理：首先调节待识别图像的亮度和对比度、然后对待识别图像进行缩放，对缩放后的图像进行预处理，所述的预处理为二值化、矫正倾斜、降噪处理，最后使图像处于水平竖直且文字较清晰的状态。

3.根据权利要求1所述的一种基于深度学习技术的图文乱码识别方法，其特征在于，所述步骤S2中的文本区域检测：将预处理后的待识别图像送入文本区域检测模型中，得到图像的多个文本区域；

4.根据权利要求1所述的一种基于深度学习技术的图文乱码识别方法，其特征在于，所述步骤S2中的文字内容识别：将文本检测模型输出的多个文本区域送入到文字内容识别模型中，得到可编辑的文本信息；

5.根据权利要求1所述的一种基于深度学习技术的图文乱码识别方法，其特征在于，所述步骤S3：乱码判别模块中涵盖字符识别阈值、分词处理及语义分析三种判别文本是否存在乱码的方法。

6.根据权利要求5所述的一种基于深度学习技术的图文乱码识别方法，其特征在于，所述步骤S3中的字符识别阈值：设定阈值为字符识别结果的判定条件；对OCR识别模块最终输出的可编辑的文本信息进行后处理，即比较字符识别得分与设定阈值之间的大小关系；当字符的识别得分大于设定阈值时，字符被判定为正常字符，当字符的识别得分小于等于设定阈值时，字符被判定为乱码字符；当文本中的字符均为正常字符时，则返回该文本无乱码结果，当文本中有一个及以上乱码字符时，则返回该文本有乱码结果。

7.根据权利要求5所述的一种基于深度学习技术的图文乱码识别方法，其特征在于，所述步骤S3中的分词处理：将OCR识别模块最终输出的可编辑的文本信息进行分词处理，基于该制造领域数据的特性，对分词后的字符形式进行乱码判别；当文本中字符存在有语义词组时，返回该文本无乱码结果，当文本中字符均为单一字符时，则返回该文本有乱码结果。

8.根据权利要求5所述的一种基于深度学习技术的图文乱码识别方法，其特征在于，所述步骤S3中的语义分析：将文字识别模型输出的可编辑的文本信息送入到语义分析模型中构建依存结构树，具有正常逻辑与语义的文本可以产出一个完整且具体的结构树，而存在乱码的文本则无法产出一个完整且具体的结构树；因此当文本无法通过语义分析模型产出一个完整且具体的依存结构树时，确定该文本中存在乱码信息，返回该文本有乱码结果，否则返回该文本无乱码结果。

9.根据权利要求5所述的一种基于深度学习技术的图文乱码识别方法，其特征在于，所述步骤S3中三种方法判定文本中是否存在乱码，综合考虑三种方法返回的信息，当三种方法中的任意一种方法返回有乱码结果时，则最终判定该待乱码识别的文件存在乱码，否则最终判定待乱码识别的文件为正常可用文件。