CN110766017A

CN110766017A - 基于深度学习的移动终端文字识别方法及系统

Info

Publication number: CN110766017A
Application number: CN201911008598.8A
Authority: CN
Inventors: 朱帕尔·努尔兰; 文云; 黎红; 杨柳; 马倩; 杨丽娜; 王晓玉; 王巧莉; 薛高倩; 贾俊强; 李坤源; 苟亮; 王平; 迪力尼亚·迪力夏提; 马占军
Original assignee: National Network Xinjiang Electric Power Co Ltd Information And Communication Co; State Grid Corp of China SGCC
Current assignee: National Network Xinjiang Electric Power Co Ltd Information And Communication Co; State Grid Corp of China SGCC
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-07
Anticipated expiration: 2039-10-22
Also published as: CN110766017B

Abstract

本发明涉及一种文字识别技术领域，是一种基于深度学习的移动终端文字识别方法及系统。前者包括以下步骤：对图片中的文本进行文字分割，分割为若干个文字图片；将所有文字图片再次定位分割，分割形成单个字符的字符图片，并按分割顺序形成字符图片数组；将字符图片数组中的字符图片依序进行识别，并按识别顺序形成文字数组；根据字符图片数组索引读出文字文本，完成文字识别。本发明将图片中的每个字符进行分割，形成单独字符的字符图片，避免了连笔字识别不出的问题，提高了字符识别率。本发明能广泛的应用于电力行业对，工作人员只需对需要录入的内容拍摄图片，即可对需要录入的内容进行识别，减轻了工作人员的工作量、提高了录入处理效率。

Description

基于深度学习的移动终端文字识别方法及系统

技术领域

本发明涉及一种文字识别技术领域，是一种基于深度学习的移动终端文字识别方法及系统。

背景技术

电力行业中各类电网设备都要经历安装调试、运行维护阶段等阶段，每个阶段产生的数据需录入内网系统，传统的录入方式是运维人员前往现场对电网设备的各类运行参数进行测试，手工抄录后回到办公室后再录入内网系统。上述二次录入的过程不仅增加了基层人员的工作量，还容易出现错漏，因此需要通过文字识别技术自动录入。

目前常通过OCR技术(光学字符识别)进行文字识别，实现文字录入，OCR技术(光学字符识别)是指对文本资料进行扫描后对图像文件进行分析处理，获取文字及版面信息的过程。但是OCR处理必须通过光学仪器，如影像扫描仪，传真机或任何摄影器材，因此该技术受到硬件、环境的限制。

发明内容

本发明提供了一种基于深度学习的移动终端文字识别方法及系统，克服了上述现有技术之不足，其能有效解决现有电力行业信息录入方式存在的效率低、过于依赖于硬件的问题。

本发明的技术方案之一是通过以下措施来实现的：一种基于深度学习的移动终端文字识别方法，包括以下步骤：

对图片中的文本进行文字分割，分割为若干个文字图片，并将文字图片按分割顺序形成文字图片数组；

将所有文字图片再次定位分割，分割形成单个字符的字符图片，并按分割顺序形成字符图片数组；

将字符图片数组中的字符图片依序进行识别，并按识别顺序形成文字数组；

根据字符图片数组索引读出文字文本，完成文字识别。

下面是对上述发明技术方案的进一步优化或/和改进：

上述上述将所有文字图片再次定位分割，包括：

对每一个文字图片进行预处理，预处理包括大小调整、灰度转换、滤波、全局阈值二值化和剪裁；

通过CNN+Bi-RNN字符分割模型对每一个文字图片中的单个字符进行定位，确定字符分割线位置，根据分隔线位置分割每一个字符，形成字符图片；

按分割顺序对每个字符图片赋予地址，并形成字符图片数组。

上述将字符图片数组中的字符图片依序进行识别，包括：

对每个字符图片进行预处理，预处理过程包括全局阈值二值化、调整像素；

通过CNN字符识别算法模型对字符图片数组中的字符图片依序进行识别，并按识别顺序形成文字数组。

上述根据字符图片数组索引读出文字文本，包括：

对字符图片数组中的字符图片进行排序；

根据排序后的字符图片索引对应的读出文字文本。

上述对图片中的文本进行文字分割，分割为若干个文字图片，包括：

对原图片进行预处理，删除原图片中的多余背景，获取文本图片；

对每个文本图片中文字进行分割，获取若干个文字图片；

按分割顺序对每个文字图片赋予地址，并形成文字图片数组。

上述获取文本图片，包括：

通过轮廓检测获取整体文本图片；

通过轮廓检测对整体文本图片中的每行进行分割，获取多个文本图片，按分割顺序形成文本图片数组。

本发明的技术方案之二是通过以下措施来实现的：一种基于深度学习的移动终端文字识别系统，包括文字图片分割单元、字符图片分割单元、字符图片识别单元和识别输出单元；

文字图片分割单元，对图片中的文本进行文字分割，分割为若干个文字图片，并将文字图片按分割顺序形成文字图片数组；

字符图片分割单元，将所有文字图片再次定位分割，分割形成单个字符的字符图片，并按分割顺序形成字符图片数组；

字符图片识别单元，将字符图片数组中的字符图片依序进行识别，并按识别顺序形成文字数组；

识别输出单元，根据字符图片数组索引读出文字文本，完成文字识别。

下面是对上述发明技术方案的进一步优化或/和改进：

上述文字图片分割单元包括原图片预处理模块和分割模块；

原图片预处理模块，对原图片进行预处理，删除原图片中的多余背景，获取文本图片；

分割模块，对每个文本图片中文字进行分割，获取若干个文字图片；按分割顺序对每个文字图片赋予地址，并形成文字图片数组。

本发明将图片中的每个字符进行分割，形成单独字符的字符图片，避免了连笔字识别不出的问题，提高了字符识别率。对中文、英文都可识别，能广泛的应用于电力行业对，工作人员只需对需要录入的内容拍摄图片，即可对需要录入的内容进行识别，减轻了工作人员的工作量、提高了录入处理效率。

附图说明

附图1为本发明实施例1的流程图。

附图2为本发明实施例1中对文字图片再次定位分割的流程图。

附图3为本发明实施例1中对字符图片依序进行识别的流程图。

附图4为本发明实施例1中根据字符图片数组索引读出文字文本的流程图。

附图5为本发明实施例1中对图片中的文本进行文字分割的流程图。

附图6为本发明实施例2中的结构框图。

具体实施方式

本发明不受下述实施例的限制，可根据本发明的技术方案与实际情况来确定具体的实施方式。

下面结合实施例及附图对本发明作进一步描述：

实施例1：如附图1所示，该基于深度学习的移动终端文字识别方法，包括以下步骤：

S1，对图片中的文本进行文字分割，分割为若干个文字图片，并将文字图片按分割顺序形成文字图片数组；

S2，将所有文字图片再次定位分割，分割形成单个字符的字符图片，并按分割顺序形成字符图片数组；

S3，将字符图片数组中的字符图片依序进行识别，并按识别顺序形成文字数组；

S4，根据字符图片数组索引读出文字文本，完成文字识别。

上述S1中，对图片中的文本进行文字分割，分割为若干个文字图片，文字图片中的字符个数不定，对中文文本进行分割时，若相邻字之间没有连笔，则每个将每个字分割为单独的文字图片，若有连笔，则连笔在一起的字分割成一个文字图片；对图片分割时由于字符识别神经网络的数据中不包含符号图片，即无法对符号进行识别，因此本发明中图片进行文字分割时，不对符号进行分割。S2中将所有文字图片再次定位分割，使得将含有多个字符的文字图片中的单个字符分割开，从而便于文字识别。S4中由于字符图片数组和识别后的文字数组顺序一致，因此本发明将字符图片排序后，根据字符图片顺序索引读出文字文本。

本发明将图片中的每个字符进行分割，形成单独字符的字符图片，避免了连笔字识别不出的问题，提高了字符识别率。同时本发明对中文、英文都可识别，能广泛的应用于电力行业对，工作人员只需对需要录入的内容拍摄图片，即可对需要录入的内容进行识别，减轻了工作人员的工作量、提高了录入处理效率，并且识别过程不受环境的影响。

下面是对上述发明技术方案的进一步优化或/和改进：

如附图1、2所示，所述将所有文字图片再次定位分割，包括：

S21，对每一个文字图片进行预处理，预处理包括大小调整、灰度转换、滤波、全局阈值二值化和剪裁。

大小调整，对每一个文字图片调整大小，其将高度设定为规定值，该规定值为对文字图片再次定位分割时所要求的高度；灰度转换，对每一个文字图片进行灰度转换；滤波，对灰度转换后的文字图片急性双边滤波，通过双边滤波可以有效去除噪声，同时保持清晰的边界；全局阈值二值化，由于文字图片经处理后得到是灰度图片，因此需进行全局阈值二值化；剪裁，对文字图片进行角度检测后，根据检测到的角度倾斜文字图片，最后裁剪并将边框添加到图片中。

S22，通过CNN+Bi-RNN字符分割模型对每一个文字图片中的单个字符进行定位，确定字符分割线位置，根据分隔线位置分割每一个字符，形成字符图片。

上述加载CNN+Bi-RNN字符分割模型，运行模型中的分类器对文字图片中的每个字符进行定位，然后从原始预测中确定分隔线位置，如果是文字图片中只有单个字符就直接添加最终分隔线，然后返回分隔字符间隙的位置阵列即可。这里通过CNN+Bi-RNN字符分割模型能将两个或多个连接在一起的字符分离开，形成单独字符图片，从而增加识别率。

上述CNN+Bi-RNN字符分割模型中CNN神经元具有局部感知特征，每个特征向量对应于原始图像的特定区域，并且CNN神经元是部分连接的网络，随着层数的增加，越高层的神经元具有越大的视野域。

CNN+Bi-RNN字符分割模型中构造有两个卷积层和两个最大池化层。每一个卷积层包含2个卷积核，其卷积核尺寸为5x5，初始为卷积时对输入的1个通道，相应的输出2个通道，然后使用conv2d进行卷积操作，将其输出结果加上偏置输入到ReLU激活函数中进行非线性处理，接着再利用最大池化函数对卷积的输出结果进行池化操作。第二层圈卷积层也是同样的操作，只不过卷积层包含4个卷积核，其卷积核尺寸为5x5，初始为卷积时对输入的2个通道，相应的输出4个通道。每个图片是60x60像素大小的灰度图片，在通过两层最大池化层后图片降维到大小为15x15的图片。从而得到CNN部分的特征提取，并把CNN处理的图片输入时Bi-RNN的接口中，Tensorflow中给出简单双向RNN网络的接入接口，因此只要将生成cell_fw,cell_bw类对象，并将它们连接起来构成Bi-RNN网络就好，Tensorflow中有构建好的Bi-RNN网络模式，是一个封装好的函数，只要调用即可。因此结合CNN网络的局部提取特征和Bi-RNN网络的上下文提取特征识别分隔线位置，从而实现了字符定位。

S23，按分割顺序对每个字符图片赋予地址，并形成字符图片数组。这里地址能对字符图片进行排序，用于确定字符图片的分割顺序，便于识别后的文本输出。

例如，若将一个文字图片分割为3个字符图片，其中文字图片的地址为1-2，则3个字符图片可分别为1-2-1、1-2-2、1-2-3；若将一个文字图片只分割了1个字符图片，其中文字图片的地址为2-1，则该字符图片可为2-1-1。

如附图1、3所示，所述将字符图片数组中的字符图片依序进行识别，包括：

S31，对每个字符图片进行处理，处理过程包括全局阈值二值化、调整像素。

上述全局阈值二值化，为了裁剪并将边框添加到字母分割的文字图像中。调整像素，将大小调整到固定像素(例如64x64像素)。

S32，通过CNN字符识别算法模型对字符图片数组中的字符图片依序进行识别，并按识别顺序形成文字数组。

上述加载CNN字符识别算法模型，运行分类器来进行字符识别，根据字符图片数组，依序识别字符，并将识别出的文字依序存入文字数组中。

本发明中CNN字符识别算法模型引入了三个部分：卷积、最大池化和非线性激活函数。在构造神经网络时，将输入3万多张像素为64x64的图片，输出定为63维的向量，包括26个小写字母，26个大写字母，10个数字和1个无法识别字符。接下来就是定义第一个卷积层，第一个卷积层会直接接受图像像素级的输入，每一个卷积操作只处理一小块图像。因此定义第一个卷积层，首先进行参数初始化，卷积层卷积核的数量设置4，其卷积核尺寸为16x16。初始为卷积时对输入的1个通道，相应的输出4个通道，然后使用conv2d进行卷积操作和降采样，将其输出结果加上偏置输入到ReLU激活函数中，因为使用ReLU激活函数进行非线性处理，所以给偏置增加一些小的正值(0.1)用来避免死亡节点，接着再使用最大池化函数对卷积的输出结果进行池化操作。在经历了一次降采样和池化操作后，图片尺寸将从原来的64x64降维到大小为16x16像素。

可以把封装好的Inception作为一个卷积单位，因此用Inception1和Inception2进行操作类似于多通道卷积技术，而多通道卷积的变化是，单个卷积层中加入若干个不同尺寸的过滤器，这样得到的特征具有多样。将pool1最大池化的输出作为参数输入到Inception1的结构中，初始化为输入4个通道，每个卷积层将输出12个通道，因此1x1输出12个通道，3x3输出12个通道，5x5输出12个通道，最大池化输出4个通道，所以Inception1卷积单位共输出40个通道。Inception1结构是将1x1，3x3，5x5的卷积核对应的卷积操作和3x3的滤波器对应的池化操作的结果连接在一起再使用ReLU激活函数进行非线性处理。及Inception2也是同样的原理，只不过初始化输入的通道为40，每一个卷积操作后输出20通道，因此Inception2结构最后就输出100个通道。接着对Inception2的输出进行pool3最大池化操作，而最大池化操作过后。图片尺寸由16x16降维到大小为8x8。从而得到图片大小8x8的图片，因此通过tf.reshape函数将重塑过滤器，并变换为8x8x100的平面矩阵，并将其输入到Dropout层，Dropout层是为了减少训练时的过拟合状况，因此在训练期间暂时丢弃一些节点的数据以解决过度拟合的问题，但是所有数据都在预测期间保留以便确保更好的预测性能。

最后使用Softmax Regression的算法训练手写体字符识别的分类模型。Softmax算法思路就是如果判断输入属于某一类的概率大于属于其他类的概率时，那么这个类对应的值就逼近1，其他类的值就逼近0，相当于对每一种类别估算一个概率，最后取概率最大的那个字符作为模型的输出结果。因此将Dropout层的输出结果连接一个Softmax层，得到最后的概率输出。

如附图1、4所示，所述根据字符图片数组索引读出文字文本，包括：

S41，对字符图片数组中的字符图片进行排序；

S42，根据排序后的字符图片索引对应的读出文字文本。

由于对字符数组中的字符文本进行识别后，得到文字数组，字符数组和文字数组的顺序是对应的。因此先将字符图片进行排序，即将字符图片按纵坐标(上坐标与下坐标的平均值)从上到下排序，逐个扫描。扫描过程中首先判断字符图片是否是一行内容。而判断一个字符是否属于当前行而不属于下一行的条件为：这个字符的纵坐标(上坐标与下坐标的平均值)与当前行最下面的纵坐标之差不超过阈值mid，并且当前行内的所有字符横坐标区间不重合，即一行之内的字符轮廓矩形横坐标不能重合，因为一行的内的位置信息不同。然后再对行内按左边的横坐标排序。最后根据排序后的字符图片索引对应的文字，从而输出完整的文本。

如附图1、5所示，所述对图片中的文本进行文字分割，分割为若干个文字图片，包括：

S11，对原图片进行预处理，删除原图片中的多余背景，获取文本图片。

预处理包括：

A、将原图片进行灰度转换；

B、在进行双边滤波，双边滤波可以有效去除噪声，同时保持清晰的边界。双边滤波会同时使用空间高斯权重和灰度值相似性高斯权重，其中空间高斯函数确保只有相邻区域的像素对中心点有影响，灰度值相似性高斯函数确保只有与中心像素灰度值相近的才会被用来做模糊运算，所以双边滤波将确保边界不会模糊。

C、自适应阈值二值化，当同一幅图像上不同部分具有不同亮度时，需要使用自适应阈值。此时的阈值根据图片上的每个小区域及其相应的阈值来计算。因此，在同一图像的不同区域使用不同的阈值，使得在不同的亮度下获得更好的结果。

D、中值模糊，就是用与卷积框对应像素的中值来替代中心像素的值。这个滤波器经常用来去除椒盐噪声。

E、添加黑色边框，检测边框触摸页面，设置边框自动填充边界。

F、Canny边缘检测，图片边缘检测必须满足两个条件，首先可以有效抑制噪音，其次必须尽可能准确地确定边缘的位置。因此使用Canny边缘检测算法，Canny边缘检测算法可以使用高斯滤波器对图像进行平滑处理并滤除噪声。

G、闭运算，关闭边缘之间的空白，即先膨胀再腐蚀图片，用来填充前景物体中的小洞，到此预处理部分就完成。

轮廓检测

在查找轮廓中使用的轮廓检测模式为建立一个等级树结构的轮廓，轮廓的近似方法为将轮廓上的冗余点都去掉，压缩轮廓，因此轮廓查找返回值其一是4个点的列表，其中存储这图像中的4个点的轮廓，每一个轮廓都是一个Numpy数组，包含对象边界点(x，y)的坐标。但是有可能因其他因素干扰图像的轮廓检测，从而得不到一个完美的矩形。因此为了解决这个问题，调用函数得到从原始轮廓到近似轮廓的最大距离。它是一个准确度参数。并通过这个准确度参数得到更好的轮廓近似值。如果图片的页面有4个角并且是凸面的，且轮廓边界在图片边界内，就可以通过轮廓近似值得到合格轮廓面积，然后再对4个角落进行排序，并根据轮廓检测的角落偏移图片轮廓。从而得到一幅去除多余背景的图片，同时将其大小调整到原图片的大小。即获得文本图片。

变换视角

由于查找轮廓的函数会修改原始图像。因此不能用查找轮廓后的图片，而是将其通过透视变换是将图片投影到原图。从而实现对图片页面的检测和背景的删除。

S12，对每个文本图片中文字进行分割，获取若干个文字图片。

具体过程包括：

A、预处理

使用高斯滤波器来实现图像模糊。这样做的意义在于去除图像中的高频成分，即噪声，边界等。

通过Sobel算子极性边缘检测。Sobel算子具有两个方向的卷积核，一个用于检测水平边缘，另一个用于检测垂直边缘。此检测方法对像素位置的影响是加权的，从而可以减少边缘模糊的程度，因此效果更好。由于Sobel算子是用于提取边缘的滤波算子的一种形式，因此可以使用快速卷积函数。本发明用它来检测和分割文字以进行边缘检测。

全局阈值二值化，当像素值高于阈值时，像素被赋予新的值,这个新的值可能是白色也可能是黑色，并且为了进一步缩小边缘之间的间隙，图像是首先膨胀然后被侵蚀。这么做事用于填充前景对象中的小孔。

B、对文本图片进行分割

本发明对文本图片中所有文字的轮廓进行检测，根据轮廓信息完成文字分割。

轮廓检测的过程为：轮廓检测中轮廓检索模式为两个等级的轮廓，上面的一层为外边界，里面的一层为内孔的边界信息，轮廓近似方法为轮廓上的冗余点都去掉，压缩轮廓，因此轮廓查找函数其中一个返回值是Python列表，该列表存储此图像中的所有轮廓。每个轮廓都是包含对象边界点(x，y)的坐标的Numpy数组。根据这些点的轮廓可以绘画每一个文字的直边界矩形，而且根据绘制的轮廓计算文字的曲线轮廓上像素个数占轮廓矩形的比例，从而进行对检测到的矩形框进行过滤。然后为了客观的显示文字轮廓信息先将图片颜色空间转换为彩色，而这么做的原因是为了显示图片上的矩形轮廓，因此将矩形轮廓设置为绿色，从而可以在图片看到每一文字的轮廓图片。最后将是将矩形框的格式由(x,y，宽度，高度)改为(x,y,right,bottom),然后将缩小图片的矩形框放大为原图的轮廓矩形，最后就得到了图片中所有文字的轮廓信息。

S13，按分割顺序对每个文字图片赋予地址，并形成文字图片数组。

如附图1、5所示，所述获取文本图片，包括：

通过轮廓检测获取整体文本图片；该文本图片包括原图片中的所有文字。

通过轮廓检测对整体文本图片中的每行进行分割，获取多个文本图片，按分割顺序形成文本图片数组。这里通过轮廓检测对整体文本图片中的每行进行分割，若文本图片中包括3行，则按行分割成为3个文本图片。

实施例2：如附图6所示，该基于深度学习的移动终端文字识别系统，包括文字图片分割单元、字符图片分割单元、字符图片识别单元和识别输出单元；

下面是对上述发明技术方案的进一步优化或/和改进：

如附图6所示，所述文字图片分割单元包括原图片预处理模块和分割模块；

以上技术特征构成了本发明的最佳实施例，其具有较强的适应性和最佳实施效果，可根据实际需要增减非必要的技术特征，来满足不同情况的需求。

Claims

1.一种基于深度学习的移动终端文字识别方法，其特征在于，包括以下步骤：

根据字符图片数组索引读出文字文本，完成文字识别。

2.根据权利要求1所述的基于深度学习的移动终端文字识别方法，其特征在于，所述将所有文字图片再次定位分割，包括：

3.根据权利要求1所述的基于深度学习的移动终端文字识别方法，其特征在于，所述将字符图片数组中的字符图片依序进行识别，包括：

4.根据权利要求1所述的基于深度学习的移动终端文字识别方法，其特征在于，所述根据字符图片数组索引读出文字文本，包括：

对字符图片数组中的字符图片进行排序；

根据排序后的字符图片索引对应的读出文字文本。

5.根据权利要求1或2或3或4所述的基于深度学习的移动终端文字识别方法，其特征在于，所述对图片中的文本进行文字分割，分割为若干个文字图片，包括：

对每个文本图片中文字进行分割，获取若干个文字图片；

6.根据权利要求5所述的基于深度学习的移动终端文字识别方法，其特征在于，所述获取文本图片，包括：

通过轮廓检测获取整体文本图片；

7.一种根据权利要求1至6中任意一项所述的基于深度学习的移动终端文字识别系统，其特征在于，包括文字图片分割单元、字符图片分割单元、字符图片识别单元和识别输出单元；

8.根据权利要求7所述的基于深度学习的移动终端文字识别方法，其特征在于，所述文字图片分割单元包括原图片预处理模块和分割模块；