CN112132151A

CN112132151A - 基于循环神经网络识别算法的图像文字识别系统及方法

Info

Publication number: CN112132151A
Application number: CN202010990708.1A
Authority: CN
Inventors: 娄忠富
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-19
Filing date: 2020-09-19
Publication date: 2020-12-25

Abstract

本发明涉及图像文字识别技术领域，具体地说，涉及一种基于循环神经网络识别算法的图像文字识别系统及方法。其包括图像文字获取单元、图像文字预处理单元、特征提取单元和分类判决单元；图像文字获取单元用于将图像文字信息转化为电信息，并将电信息传输给图像文字预处理单元；分类判决单元用于训练确定判决规则，通过判决规则对图像文字进行分类。本发明中图像识别系统识别更为精准，算法也比较匹配，从而达到快速简单的对图像信息进行分类的目的。

Description

基于循环神经网络识别算法的图像文字识别系统及方法

技术领域

本发明涉及图像文字识别技术领域，具体地说，一种涉及基于循环神经网络识别算法的图像文字识别系统及方法。

背景技术

随着，计算机以及网络技术水平的提高，在图像文字识别技术中也运用到了计算机以及网络技术，利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种实践应用，但很多图像文字识别设备在使用过程中无法对识别的图像文字信息进行分类判别，抑或判别精度不够准确，又或者整体系统设置紊乱不合理，导致计算机收集到的信息非常混乱，不便于信息的整理。

发明内容

本发明的目的在于提供基于循环神经网络识别算法的图像文字识别系统及方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明目的之一在于，提供了基于循环神经网络识别算法的图像文字识别系统，包括图像文字获取单元、图像文字预处理单元、特征提取单元和分类判决单元；所述图像文字获取单元用于将图像文字信息转化为电信息，并将电信息传输给所述图像文字预处理单元；所述图像文字预处理单元用于将每一个图像文字分检出来交给所述特征提取单元；所述特征提取单元用于接收图像文字对图像文字信息进行提取，并决定每个图像文字的点是否属于一个图像文字特征；所述分类判决单元用于训练确定判决规则，通过判决规则对图像文字进行分类；

所述图像文字获取单元包括扫描模块和翻译模块；所述扫描模块用于将图像文字反射的光点进行收集，依次记录光点的数值并产生一个彩色数字拷贝；所述翻译模块用于将图像文字翻译成一系列数字，并存储在电子介质内；

所述图像文字预处理单元包括校正模块、切分模块、边缘检测模块、图像文字平滑模块和图像文字锐化模块；所述校正模块用于将颠倒以及倾斜的图像文字进行自动校正，并将校正后的图像文字信息传递给所述切分模块；所述切分模块用于将校正后的图像文字从整个图像文字中分割出来；所述边缘检测模块用于将图像文字的目标区域和背景区域分开；所述图像文字平滑模块用于改善图像质量，使图像亮度平缓渐变以及减小突变的梯度；所述图像文字锐化模块用于补偿图像的轮廓,增强图像的边缘及灰度跳变的部分；

所述特征提取单元包括识别模块和提取模块；所述识别模块用于对图像文字中的有效信息进行判定，并将判定结果传递给所述提取模块；所述提取模块接收判定结果，将判定结果中的有效信息提取；

所述分类判决单元包括分类模块和判决模块；所述分类模块用于对所述特征提取单元提取的信息进行分类；所述判决模块对分类的信息进行判别，并输出判别结果。

作为本技术方案的进一步改进，所述缘检测模块采用Roberts边缘算子对边缘进行计算，所述Roberts边缘算子的计算公式如下：

其中，f(x,y)是具有整数像素坐标的输入图像。

作为本技术方案的进一步改进，所述识别模块采用循环神经网络对图像文字特征进行提取，所述循环神经网络是一类以序列数据为输入，在序列的演进方向进行递归且所有循环单元按链式连接的递归神经网络。

作为本技术方案的进一步改进，所述循环单元的表示公式如下：

h^(t)＝f(s^(t-1)，s^(t)，θ)；

其中，h为系统状态；s为内部状态；t为时间步；θ为权重系数；f()为激励函数。

作为本技术方案的进一步改进，所述循环神经网络采用卷积神经网络，所述卷积神经网络包括输入层、隐含层和输出层。

其中，输入层可以处理多维数据，一维卷积神经网络的输入层接收一维或二维数组，一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。

作为本技术方案的进一步改进，所述隐含层内含有卷积核、激励函数和池化层。

作为本技术方案的进一步改进，所述卷积核的功能是对输入数据进行特征提取，组成卷积核的每个元素都对应一个权重系数和一个偏差量，偏差量计算公式如下：

其中，b为偏差量；Z^l为卷积输入；Z^l+1为卷积输出；L_l+1为Z_l：1的尺寸；Z(i，j)为特征图的像素；K为特征图的通道数；f为卷积核大小；s₀为卷积步长；p为填充层数。

作为本技术方案的进一步改进，所述激励函数的函数公式如下：

所述池化层函数公式如下：

其中，s₀为步长；(i，j)为像素；p为预指定参数。

本发明目的之二在于，提供了基于循环神经网络识别算法的图像文字识别方法，包括上述中任意一项所述的基于循环神经网络识别算法的图像文字识别系统，包括如下方法步骤：

步骤一、图文提取处理阶段：

S1、将扫描模块的OCR软件与扫描仪的接口连接，利用扫描仪驱动软件对图像文字进行扫描，扫描后的图文信息数据传输给翻译模块；

S2、翻译模块接收图文信息数据，将其翻译成一系列数字，并存储在电子介质内；

S3、预处理单元将电子介质内的数字数据提取，依次通过校正模块、切分模块、边缘检测模块、图像文字平滑模块和图像文字锐化模块对图像文字进行优化处理；

步骤二、神经网络学习阶段：

S4、特征提取单元将优化处理后的图像文字数据接收；

S5、识别模块对特征提取单元接收的图像文字数据进行分析，并对训练中的样本文字进行选择；

S6、选择后将图像文字信息传输给循环神经网络，循环神经网络将图像文字进行特征提取，并与训练样本库进行匹配学习；

S7、匹配学习后通过分类模块和判决模块对图文信息进行判别，并输出判别结果。

与现有技术相比，本发明的有益效果：该基于循环神经网络识别算法的图像文字识别系统及方法中，分类模块和判决模块结合，并且分类模块采用贝叶斯定理进行分类，贝叶斯定理在分类过程中能处理多分类任务，从而适合增量式训练，尤其是数据量超出内存时，可以一批批的去增量训练，而且对缺失数据不太敏感，算法也比较简单，从而达到快速简单的对图像信息进行分类的目的；各单元紧密协作，由图像文字获取单元-图像文字预处理-特征提取-分类判别，由此保证图像文字识别的精度；将特征提取单元划分为设别模块和提取模块，通过增设的识别模块先行判定再由提取模块在判定的基础上进行有效信息的提取，同时，对识别模块进行进一步改进，由此提高了识别的精度，避免了干扰的存在。

附图说明

图1为实施例1的整体结模块图；

图2为实施例1的图像文字获取单元模块图；

图3为实施例1的图像文字预处理单元模块图；

图4为实施例1的特征提取单元模块图；

图5为实施例1的分类判决单元模块图。

图中各个标号意义为：

100、图像文字获取单元；110、扫描模块；120、翻译模块；

200、图像文字预处理单元；210、校正模块；220、切分模块；230、边缘检测模块；240、图像文字平滑模块；250、图像文字锐化模块；

300、特征提取单元；310、识别模块；320、提取模块；

400、分类判决单元；410、分类模块；420、判决模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1-图5所示，本实施例目的之一在于，提供了基于循环神经网络识别算法的图像文字识别系统，包括图像文字获取单元100、图像文字预处理单元200、特征提取单元300和分类判决单元400；图像文字获取单元100用于将图像文字信息转化为电信息，并将电信息传输给图像文字预处理单元200；图像文字预处理单元200用于将每一个图像文字分检出来交给特征提取单元300；特征提取单元300用于接收图像文字对图像文字信息进行提取，并决定每个图像文字的点是否属于一个图像文字特征；分类判决单元400用于训练确定判决规则，通过判决规则对图像文字进行分类；

图像文字获取单元100包括扫描模块110和翻译模块120；扫描模块110用于将图像文字反射的光点进行收集，依次记录光点的数值并产生一个彩色数字拷贝，扫描模块110采用OCR识别技术，OCR软件只需提供与扫描仪的接口，利用扫描仪驱动软件即可，通过OCR技术对文本资料进行扫描，然后对图像文件进行分析处理，获取图文信息；翻译模块120用于将图像文字翻译成一系列数字，并存储在电子介质内；

图像文字预处理单元200包括校正模块210、切分模块220、边缘检测模块230、图像文字平滑模块240和图像文字锐化模块250；校正模块210用于将颠倒以及倾斜的图像文字进行自动校正，倾斜角小于5度的情况下，对文字的识别影响较小，若倾斜角过大，会影响图像文字识别的准确性，并将校正后的图像文字信息传递给切分模块220；切分模块220用于将校正后的图像文字从整个图像文字中分割出来；当图像文字经过二值处理成为黑白图像文字后，文字图像文字就变成了一些二值数字信号，它是一个整体；

其中，二值处理采用局部阈值法，其工作原理为，将图像文字灰度化后，根据图像文字的像素的灰度值和该像素邻域像素的灰度特性，计算得到该像素的阈值；局部阈值首先将图像文字整体划分成若千个子区域，然后使用全局阈值方法计算每个区域的阈值，将得到的阈值结果构成该图像文字的阈值，接着，使图像文字的灰度级小于该阈值的像素点取为黑像素点，大于该阈值的像素点取为白像素点，形成二值数字信号；

边缘检测模块230用于将图像文字的目标区域和背景区域分开；边缘通常表明一个特征区域的终结和另一个特征区域的开始，边缘的检测是利用物体和背景在灰度、颜色或纹理特征等特性上的差异来实现的，实际就是检测图像特性发生变化的位置；图像文字平滑模块240用于改善图像质量，使图像亮度平缓渐变以及减小突变的梯度；图像文字锐化模块250用于补偿图像的轮廓,增强图像的边缘及灰度跳变的部分；使图像变得清晰，得到适合人眼观察和识别的图像，分为空域处理和频域处理两类，且图像锐化主要是对图像中的低频部分进行处理；

特征提取单元300包括识别模块310和提取模块320；识别模块310用于识别图像文字中的有效信息并对图像文字中的有效信息进行判定，并将判定结果传递给提取模块320；提取模块320接收判定结果，将判定结果中的有效信息提取；识别有效信息时，首先将二值化图像以六个方向再次进行扫描，然后计算图像的扫描线和字符笔画的交叠次数，并把此相交作为构造密度特征函数的数据，而六个方向分别为30°、60°、水平、120°、15°和垂直方向，对二值图像计算这六个方向的密度。最后，处理所有方向的扫描数据，获得特征指在0～1范围的特征向量。

分类判决单元400包括分类模块410和判决模块420；分类模块410用于对特征提取单元300提取的信息进行分类；判决模块420对分类的信息进行判别，并输出判别结果；

本实施例中，缘检测模块230采用Roberts边缘算子对边缘进行计算。

进一步的，Roberts边缘算子的计算公式如下：

其中，f(x,y)是具有整数像素坐标的输入图像。平方根的运算使该处理类似于在人类视觉中发生的过程，该算子对水平和垂直方向较好。

具体的，识别模块310采用的是循环神经网络对上述图像文字特征进行提取，循环神经网络是一类以序列数据为输入，在序列的演进方向进行递归且所有循环单元按链式连接的递归神经网络。

此外，循环单元的表示公式如下：

h^(t)＝f(s^(t-1)，s^(t)，θ)；

除此之外，循环神经网络采用卷积神经网络，卷积神经网络仿造生物的视知觉机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征，卷积神经网络包括输入层、隐含层和输出层；

其中，输入层可以处理多维数据，一维卷积神经网络的输入层接收一维或二维数组，一维数组通常为时间或频谱采样；二维数组包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。

进一步的，隐含层内含有卷积核、激励函数和池化层；

其中，卷积核的功能是对输入数据进行特征提取，组成卷积核的每个元素都对应一个权重系数和一个偏差量，偏差量计算公式如下：

其中，b为偏差量；Z^l为卷积输入；Z^l+1为卷积输出；L_l+1为Z_l-1的尺寸；Z(i，j)为特征图的像素；K为特征图的通道数；f为卷积核大小；s₀为卷积步长；p为填充层数。

具体的，激励函数的函数公式如下：

池化层函数公式如下：

其中，s₀为步长；(i，j)为像素；p为预指定参数。

本实施例目的之二在于，提供了基于循环神经网络识别算法的图像文字识别方法，包括上述中任意一项的基于循环神经网络识别算法的图像文字识别系统，包括如下方法步骤：

(一)、图文提取处理阶段：

S1、将扫描模块110的OCR软件与扫描仪的接口连接，利用扫描仪驱动软件对图像文字进行扫描，扫描后的图文信息数据传输给翻译模块120；

S2、翻译模块120接收图文信息数据，将其翻译成一系列数字，并存储在电子介质内；

S3、预处理单元200将电子介质内的数字数据提取，依次通过校正模块210、切分模块220、边缘检测模块230、图像文字平滑模块240和图像文字锐化模块250对图像文字进行优化处理；

(二)、神经网络学习阶段：

S4、特征提取单元300将优化处理后的图像文字数据接收；

S5、识别模块310对特征提取单元300接收的图像文字数据进行分析，并对训练中的样本文字进行选择；

S7、匹配学习后通过分类模块410和判决模块420对图文信息进行判别，并输出判别结果。

实施例2

实施例1中二值处理采用局部阙值法，但局部阙值法的处理范围局限性较大，因此为了避免因图像文字品质较差，局部阙值法无法处理，而且为了过滤掉部分噪音，防止噪音干扰识别结果，本实施例采用动态阈值法替换局部阙值法，动态阈值法根据图像中像素的位置、该像素及其周围像素的阈值，来确定阈值；当亮度不均匀、有突发噪声，或者图像灰度变化较大时，动态阈值法会根据像素的坐标位置关系自动确定不同的阈值，会动态的自适应的对图像进行二值化处理，降低噪声，提高识别的准确度，而且动态二值化能够处理品质较差的图像，动态阈值法的操作步骤如下：

A1、将第1个阙值的运算将目标区域与背景区城进行大致的分离，使图像中只呈现出两种不同的颜色，即黑和白；

A2、再用第2个阈值对已经分离出来的目标区域进行再处理，由于第一个阈值在对图像处理的过程中，会将部分背景区域误认为是目标区域，导致分割的不准确；因此，第二个值的目的是将已知的目标区域中的背景区域分割出来，使目标区城进一步被分割；

A3、在A2的基础上使用第3个阈值对已经经过再处理的目标区域进行第3次分割；

A4、使用二值化修正箅法对得到的圍像进行修正，使其此时达到身份证二值化所要求的水平；

基于灰度的数学期望的二值化方法是一种十分有价值的方法，在其基础上进行进一步的处理是非常有效和便利的，因此取整幅图像的灰度期望值，即

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于循环神经网络识别算法的图像文字识别系统，其特征在于：包括图像文字获取单元(100)、图像文字预处理单元(200)、特征提取单元(300)和分类判决单元(400)；所述图像文字获取单元(100)用于将图像文字信息转化为电信息，并将电信息传输给所述图像文字预处理单元(200)；所述图像文字预处理单元(200)用于将每一个图像文字分检出来交给所述特征提取单元(300)；所述特征提取单元(300)用于接收图像文字对图像文字信息进行提取，并决定每个图像文字的点是否属于一个图像文字特征；所述分类判决单元(400)用于训练确定判决规则，通过判决规则对图像文字进行分类；

所述图像文字获取单元(100)包括扫描模块(110)和翻译模块(120)；所述扫描模块(110)用于将图像文字反射的光点进行收集；所述翻译模块(120)用于将图像文字翻译，并存储在电子介质内；

所述图像文字预处理单元(200)包括校正模块(210)、切分模块(220)、边缘检测模块(230)、图像文字平滑模块(240)和图像文字锐化模块(250)；所述校正模块(210)用于将颠倒以及倾斜的图像文字进行自动校正，并将校正后的图像文字信息传递给所述切分模块(220)；所述切分模块(220)用于将校正后的图像文字从整个图像文字中分割出来；所述边缘检测模块(230)用于将图像文字的目标区域和背景区域分开；所述图像文字平滑模块(240)用于改善图像质量，使图像亮度平缓渐变以及减小突变的梯度；所述图像文字锐化模块(250)用于补偿图像的轮廓,增强图像的边缘及灰度跳变的部分；

所述特征提取单元(300)包括识别模块(310)和提取模块(320)；所述识别模块(310)用于识别图像文字中的有效信息并对图像文字中的有效信息进行判定，并将判定结果传递给提取模块(320)；提取模块(320)接收判定结果，将判定结果中的有效信息提取；识别有效信息时，首先将二值化图像以六个方向再次进行扫描，然后计算图像的扫描线和字符笔画的交叠次数，并把此相交作为构造密度特征函数的数据，而六个方向分别为30°、60°、水平、120°、15°和垂直方向，对二值图像计算这六个方向的密度，最后，处理所有方向的扫描数据，获得特征值在0～1范围的特征向量；

所述分类判决单元(400)包括分类模块(410)和判决模块(420)；所述分类模块(410)用于对所述特征提取单元(300)提取的信息进行分类；所述判决模块(420)对分类的信息进行判别，并输出判别结果。

2.根据权利要求1所述的基于循环神经网络识别算法的图像文字识别系统，其特征在于：所述缘检测模块(230)采用Roberts边缘算子对边缘进行计算。

3.根据权利要求2所述的基于循环神经网络识别算法的图像文字识别系统，其特征在于：所述Roberts边缘算子的计算公式如下：