CN114005127A

CN114005127A - 一种基于深度学习的图像光学文字识别方法，存储装置及服务器

Info

Publication number: CN114005127A
Application number: CN202111346096.3A
Authority: CN
Inventors: 孙德亮
Original assignee: China Re Cloud Technology Co ltd
Current assignee: China Re Cloud Technology Co ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-01

Abstract

本发明提供一种基于深度学习的图像光学文字识别方法，首先将所有的图片都会被缩放到640x640的尺寸，然后训练时对图片进行数据增强，包括随机扰动、翻转、裁剪等，除此之外，增加了尺度变换，随机将图片尺度变换到一定范围的尺度，增强文本在图像中的的尺度变化，增加训练样本在不同尺度上的多样性，改变训练样本的分布，重点关注较小的文本。然后经过第三神经网络，得到7个特征图。将第一区域经过并查集操作，得到实例分割的结果，将每个文本区域都单独分割出来。然后得到文本区域的骨架线。再结合预测的半径，得到最终的文本检测的文本。本发明提供的方法，可以适应于各种形状的文本。本发明在电子称重设备、地磅计重设备、电子联单等具有良好的识别效果。

Description

一种基于深度学习的图像光学文字识别方法，存储装置及服务器

技术领域

本发明属于深度学习领域，具体涉及一种基于深度学习的图像光学文字识别方法。

背景技术

OCR的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy，1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。OCR的应用场景包括但不限于电子称重设备、地磅计重设备、打印机、电子联单等文字识别。

光学文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是光学文字识别最重要的课题，智能字符识别的名词也因此而产生。衡量一个光学文字识别系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

目前文本检测有以下几种机制：基于轴对齐方式的矩形框，只对水平和竖直的文本奏效，对于倾斜，弯折，曲面的文本，会引入好多背景无关区域。基于旋转的矩形框，也就是在基于轴对齐方式的基础上加入了角度信息。可以适应于倾斜的文本，但是对于弯折，曲面的文本还是回引入背景无关区域。基于凸四边形的方法，依然对曲面，弯折的文本无法适应。

发明内容

本发明的发明目的是，提供一种对不规则文本图像可以准确识别的光学文字识别方法。

本发明提供一种基于深度学习的图像光学文字识别方法，包括以下步骤，S1将图片缩放到640x640尺寸；

S2对图片进行数据增强，包括随机扰动、翻转、裁剪，增加了尺度变换，随机将图片尺度变换到预设范围的尺度；

S3改变训练样本的分布，经过第三神经网络，得到7个特征图，所述7个特征图包括2个文本区域，2个文本中心线，1个圆环的半径，一个角度的余弦值cosθ，一个角度的正弦值sinθ，所述第三神经网络由第一神经网络和第二神经网络构成，其中θ表示切线角度；

S4由文本区域和文本中心线相乘得到第一区域，将第一区域经过并查集操作，得到实例分割的结果，将每个文本区域都单独分割出来，然后经过第一算法，得到文本区域的骨架线，再结合预测的半径，得到最终的文本检测的文本。

进一步的，所述第一神经网络对图像进行像素级的分类，第一神经网络接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸，对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。

进一步的，所述第二神经网络第构建包括以下步骤：

第一步，将第一神经网络的输出作为第二神经网络的输入，构建自下而上网络；

第二步构建对应的自上而下网络，进行上采样操作，先用1x1的卷积对倒数第二层进行降维处理，然后将倒数第二层和倒数第一层逐元素相加，最后进行3x3的卷积操作；

第三步重复第二步，依次倒序操，建立第二神经网络结构，选择网络输出分支，连接对应的分类层和回归层。

本发明提供一种存储装置，其中存储有多条指令，所述指令适于由处理器加载并执行：

S1将图片缩放到640x640尺寸；

S3改变训练样本的分布，经过第三神经网络，得到7个特征图，所述7个特征图包括2个文本区域，2个文本中心线，1个圆环的半径，一个角度的余弦值cosθ，一个角度的正弦值sinθ，所述第三神经网络由第一神经网络和第二神经网络构成，，其中θ表示切线角度；

进一步的，所述第二神经网络第构建包括以下步骤：

本发明提供一种服务器，包括

处理器，适于实现各指令；以及

存储装置，适于存储多条指令，所述指令适于由处理器加载并执行：

S1将图片缩放到640x640尺寸；

进一步的，所述第二神经网络第构建包括以下步骤：

本发明的有益效果是，本发明提供的方法，可以适应于各种形状的文本。具有良好的识别效果。

附图说明

图1光学文字识别流程。

图2光学文字识别模型。

图3光学文字训练和推理流程。

具体实施方式

由于扫描仪的普及与广泛应用，OCR软件只需提供与扫描仪的接口，利用扫描仪驱动软件即可。因此，OCR软件主要是由下面几个部分组成。

图像输入、预处理：

图像输入：对于不同的图像格式，有着不同的存储格式，不同的压缩方式，目前有OpenCV，CxImage等开源项目。预处理：主要包括二值化，噪声去除，倾斜较正等

二值化：对摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，对于图片的内容，我们可以简单的分为前景与背景，为了让计算机更快的，更好的识别文字，我们需要先对彩色图进行处理，使图片只前景信息与背景信息，可以简单的定义前景信息为黑色，背景信息为白色，这就是二值化图了。

噪声去除：对于不同的文档，我们对噪声的定义可以不同，根据噪声的特征进行去噪，就叫做噪声去除

倾斜较正：由于一般用户，在拍照文档时，都比较随意，因此拍照出来的图片不可避免的产生倾斜，这就需要文字识别软件进行较正。

版面分析：将文档图片分段落，分行的过程就叫做版面分析，由于实际文档的多样性，复杂性，因此，目前还没有一个固定的，最优的切割模型。

字符切割：由于拍照条件的限制，经常造成字符粘连，断笔，因此极大限制了识别系统的性能，这就需要文字识别软件有字符切割功能。

字符识别：较早有模板匹配，后来以特征提取为主，由于文字的位移，笔画的粗细，断笔，粘连，旋转等因素的影响，极大影响特征的提取的难度。

版面恢复：人们希望识别后的文字，仍然像原文档图片那样排列着，段落不变，位置不变，顺序不变地输出到word文档、pdf文档等，这一过程就叫做版面恢复。

后处理、校对：根据特定的语言上下文的关系，对识别结果进行较正，就是后处理。

本发明提供了一种基于深度学习的图像文字识别方法。该方法通过神经网络提取图片特征信息，实现文本识别，本发明在应对不规则文本时表现良好。发明所用的深度学习模型如图2。

在本发明中，对于输入的一张图片，首先将所有的图片都会被缩放到640x640的尺寸，然后训练时对图片进行数据增强，包括随机扰动、翻转、裁剪等，除此之外，增加了尺度变换，随机将图片尺度变换到一定范围的尺度，大大增强图文在图像中的的尺度变化，增加训练样本在不同尺度上的多样性，改变训练样本的分布，重点关注较小的文本。然后经过第三神经网络，得到7个特征图。包括2个文本区域，2个文本中心线，1个圆环的半径，一个角度的余弦值cosθ，一个角度的正弦值sinθ。

第一区域由文本区域和文本中心线相乘得到，表示在文本区域区域上提取的文本中心线。将第一区域经过并查集操作，可以得到实例分割的结果，将每个文本区域都单独分割出来。然后经过第一算法，可以得到文本区域的骨架线。再结合预测的半径，得到最终的文本检测的文本。

以下为本发明中关键技术的具体说明：

第一神经网络：本发明主干网络，用来提取图片逐像素特征的基础网络。

第一神经网络对图像进行像素级的分类，从而解决了语义级别的图像分割问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类(全联接层+softmax输出)不同，第一神经网络可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征地图进行上采样,使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。

第二神经网络为本发明主干网络，用来提取图片特征的基础网络。

在本发明中，光学文本识别的工作流程如图1，具体流程说明如下：

1.将所有的图片都会被缩放到指定尺寸，训练时对图片进行数据增强，包括随机扰动、翻转、裁剪等，除此之外，增加了尺度变换，随机将图片尺度变换到一定范围的尺度，大大增强图文在图像中的的尺度变化，增加训练样本在不同尺度上的多样性，改变训练样本的分布，重点关注较小的文本。

2.经过第三神经网络，得到7个特征图。包括2个文本区域文本区域，2个文本中心线文本中心线，1个圆环的半径一个角度的余弦值cosθ，一个角度的正弦值sinθ；

3.第一区域由文本区域和文本中心线相乘得到，表示在文本区域上提取的文本中心线；

4.将第一区域经过并查集操作，可以得到实例分割的结果，将每个文本区域都单独分割出来；

5.然后经过第一算法，可以得到文本区域的骨架线；

6.再结合预测的半径，得到最终的文本检测的文本。

在本发明中，光学文本识别的工作流程如图3，具体流程说明如下：

1.首先通过摄像头采集视频图像信息；

2.标注数据，其格式为x、y、w、h、label，每个字母表示的信息依次为标注框的横坐标、纵坐标、框宽、框高和框标签；

3.按8:2拆分数据集为训练集和验证集；

4.数据增强和归一化训练集

5.计算训练集的RGB平均值和方差；

6.训练和验证模型；

7.导出模型；

8.使用模型进行实时在线图像光学文字识别。

在本发明中采用第一指标描述的是图片中文本的数据量，用于衡量神经网络输出质量，第一指标采用以下公式计算：

其中,|y|表示样本类别总数，p_k表示第k类样本所占的比例，k表示样本的序号，有0≤pk≤1,

n表示样本总数。

本发明采用第二指标描述特征的重要性，在本发明中，通过DiYi(D)获取第一指标，然后计算DiEr(A)，得到第二指标。

对于数据集D和属性子集A，根据A取值将D分为了V个子集

{D¹,D²,...,D^V}，

在属性子集A中，任意选择一个属性a，遍历其所有可能取值，根据下式找出属性a最优划分点v^*：

其中，R₁(a,v)＝{x|x∈D^a≤v},R₂(a,v)＝{x|x∈D^a>v},c₁,c₂分别为集合R₁(a,v)和R₂(a,v)中样本x_i对应输出值y_i的均值，v表示子集的序号，i表示样本的序号和以及对应输出值的序号，即

在本发明中用于神经网络中的上采样，分两个步骤计算，ave表示求平均函数。

1.计算原图坐标：

srcX＝dstX×(srcW/dstW)

srcY＝dstY×(srcH/dstH)

其中srcX、srcY、srcH、srcW依次为原始图像像素的横坐标、像素的纵坐标、图高、图宽，dstX、dstY、dstH、dstW依次为目标图像像素的横坐标、像素的纵坐标、图高、图宽

坐标向左取整数，获取原始图像中像素的坐标x，y：

x＝math.floor(scrx)

y＝math.floor(scry)

2.计算偏移量u、v：

u＝scrx-x

v＝scry-y

计算上采样中(i，j)位置的结果，其中i∈[0,dstW)，j∈[0,dstH)：dst[i，j]＝(1-u)×(1-v)×sre[x，y]+u×(1-v)×sre[x+1，y]+(1-u)×v×sre[x，y+1]+u×v×sre[x+1，y+1]，其中sre[x，y]为原图中第x行，第y列像素，dst[i，j]为目标图中第i行，第j列像素。

本发明采用第一算法，获取文本区域的骨架线：

将给定的点重新定位到中轴；

随机选择文本中心线上的一个点，画出切线和法线，通过法线与文本中心线区域交点的中点获得中点。

向下一个搜索点迈出一大步，分别朝向文本实例的两个末端方向搜索；

前向位移计算方式为：

后向位移计算方式为：

θ表示切线角度，r表示圆圈半径

如果下一步是在文本中心线区域之外，则逐渐减少步幅，直到它在区域内，或到达末端。

在中轴线上迭代并沿中轴线绘制圆圈，圆的半径是r。圆圈所涵盖的区域表示预测的文本实例。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的图像光学文字识别方法，其特征在于，包括以下步骤，

S1将图片缩放到640x640尺寸；

2.如权利要求1所述的一种基于深度学习的图像光学文字识别方法，其特征在于，

所述第一神经网络对图像进行像素级的分类，第一神经网络接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸，对每个像素都产生一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。

3.如权利要求1所述的一种基于深度学习的图像光学文字识别方法，其特征在于，

所述第二神经网络第构建包括以下步骤：

4.一种存储装置，其特征在于，其中存储有多条指令，所述指令适于由处理器加载并执行：

S1将图片缩放到640x640尺寸；

5.如权利要求4所述的一种存储装置，其特征在于，

所述第一神经网络对图像进行像素级的分类，第一神经网络接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征地图进行上采样,使输出图像恢复到输入图像相同的尺寸，对每个像素都产生了一个预测,同时保留原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。

6.如权利要求4所述的一种存储装置，其特征在于，

所述第二神经网络第构建包括以下步骤：

7.一种服务器，其特征在于，包括

处理器，适于实现各指令；以及

S1将图片缩放到640x640尺寸；

8.如权利要求7所述的一种服务器，其特征在于，

9.如权利要求7所述的一种服务器，其特征在于，

所述第二神经网络第构建包括以下步骤：