CN110348449B

CN110348449B - 一种基于神经网络的身份证文字识别方法

Info

Publication number: CN110348449B
Application number: CN201910621555.0A
Authority: CN
Inventors: 郑泽忠; 李慕杰; 向浩然; 牟范; 侯安锴; 江邵斌
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2023-04-18
Anticipated expiration: 2039-07-10
Also published as: CN110348449A

Abstract

本发明提供一种基于神经网络的身份证文字识别方法，包括以下步骤：S1：进行色彩空间转换，将图像由RGB空间转换为HSV空间，并设置一定的(h，s，v)取值范围，提取出白色的证件区域；S2：将图像进行二值化处理，使用形态学开运算将文本行连通为类矩形区域，寻找外接矩形后提取出文本行；S3：将单个字符切割而出；S4：将单个文字图像逐个输入训练好的神经网络中进行识别，提高相似字的识别率。

Description

一种基于神经网络的身份证文字识别方法

技术领域

本发明涉及文字识别技术领域，具体涉及一种基于神经网络的身份证文字识别方法及方法。

背景技术

随着网络通讯技术不断地更新创新，我国在信息化方面不断取得突破，网络空间对于人们工作生活的重要性日益增长。然而在网络技术不断普及的过程中，相对缺乏管理的网络空间滋生了许多违法犯罪行为。例如网络暴力、人身攻击和诈骗犯罪等恶劣事件不断出现，网民的网络安全环境受到严重破坏。为了净化网络空间，保护网民的网络安全，网络实名制开始确立。随着实名认证的范围越来越大，很多场合需要人们使用证件图像完成身份认证。而身份证作为所有证件中最重要同时也是使用频率最高的证件，对其进行文字识别的需求也随之产生。

自文字识别技术诞生以来，其适用范围已经从数字和英文字母发展到各国语言文字，但是对中文字符图像进行识别依旧存在一些困难，主要表现在：汉字中某些字符的相似性极强，比如“已”-“己”，“口”-“囗”，“汩”-“汨”等，算法在识别这类字符时面临较大困难。

发明内容

本发明的目的在于克服现有技术中的缺点，提供一种基于神经网络的身份证文字识别方法，提高相似字的识别率。

本发明的目的是通过以下技术方案来实现的：一种基于神经网络的身份证文字识别方法，包括以下步骤：

S1：进行色彩空间转换，将图像由RGB空间转换为HSV空间，并设置一定的(h，s，v)取值范围，提取出白色的证件区域，执行S2；

S2：将图像进行二值化处理，使用形态学开运算将文本行连通为类矩形区域，寻找外接矩形后提取出文本行，执行S3；

S3：将单个字符切割而出，执行S4；

S4：将单个文字图像逐个输入训练好的神经网络中进行识别。

优选的，HSV空间中，白色的H取值区间为(0，180)，白色的S取值区间为(0，30)，白色的V取值区间为(221，255)。

优选的，所述神经网络为基于残差网络思想的卷积神经网络。

优选的，所述神经网络采用的残差块主要有Identity块和ResCovolution块，其中Identity 块的输入和输出维度相同，所述ResCovolution的输入和输出维度不同，所述Identity块的输出维度和所述ResCovolution块的输出维度相同。

优选的，所述神经网络的数据集包括文字的字体和大小。

优选的，所述神经网络的优化算法为RMSProp函数。

优选的，所述S1还包括以下步骤：

S11：使用形态学闭运算将白色证件区域与背景分离，寻找证件的外接矩形，最后将证件

裁剪而出。

优选的，所述S3为基于投影的方法将单个字符切割而出。

优选的，所述S3包括以下步骤：

S31：将图像每列灰度值求和，通过对比文字所在区域和空白区域的灰度总值，将字符分割。

优选的，所述形态学开运算分为腐蚀和膨胀两个过程，先腐蚀后膨胀，经过腐蚀和膨胀两个过程使文本行连通为一个类矩形区。

本发明的有益效果是：

1.本发明所述的形态学开运算分为腐蚀和膨胀两个过程，先腐蚀后膨胀，经过腐蚀和膨胀两个过程使文本行连通为一个类似矩形区，腐蚀使得图像信息区域范围减小，而膨胀则使得图像信息区域扩大，在腐蚀过程中，一些细小的区域会被填补而消失，通过腐蚀过程可以去除离散的细小噪点，对于身份证图像，腐蚀的过程在去除纹理部分有十分显著的效果；

2.本发明将图片的色彩空间转换，将图像由RGB空间转换为HSV空间，并设置一定的(h， s，v)取值范围，提取出白色的证件区域，由于身份证背景色几乎为白色，只需设置合理范围的(h，s，v)取值，则可将背景图和文字信息分离，操作简单，适用性强。

附图说明

图1为本发明一个实施例原理图；

图2为本发明在HSV空间中设置参数取值范围后筛选出的证件区域图像；

图3为本发明闭运算后的证件图像；

图4为本发明二值化的结果；

图5为本发明形态学开运算的结果；

图6为文发明本行提取结果；

图7为本发明字符分割结果；

图8为本发明残差卷积块Identity结构图；

图9为本发明残差卷积块ResCovolution结构图；

图10为本发明神经网络整体结构图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下。

实施例1

一种基于神经网络的身份证文字识别方法，包括以下步骤：

S1:进行色彩空间转换，将图像由RGB空间转换为HSV空间，并设置一定的(h，s，v)取值范围，提取出白色的证件区域，执行S2；

采用基于颜色的目标区域提取方法，其具体计算过程如式(2-1)所示，

v＝max

其中(r,g,b)代表颜色在RGB空间中的取值，(h,s,v)代表HSV空间中颜色的取值。

由于证件颜色几乎为纯白色，通过设定(h,s,v)的取值范围，可以筛选出图像中目标区域的范围，进而使用仿射变换提取出目标区域，如图2所示为设置参数取值范围后筛选出的证件区域图像。

S2:将图像进行二值化处理，二值化处理后的图像如图4所示，使用形态学开运算将文本行连通为类矩形区域如图5所示，寻找外接矩形后提取出文本行，如图6所示，执行S3；

S3：将单个字符切割而出，执行S4；

HSV空间中，白色的H取值区间为(0，180)，白色的S取值区间为(0，30)，白色的V 取值区间为(221，255)。HSV每种颜色的参数设置如表1所示。

表1

卷积神经网络为基于残差网络思想的卷积神经网络。神经网络采用的残差块主要有 Identity块和ResCovolution块，其中Identity块的输入和输出维度相同，ResCovolution 的输入和输出维度不同，Identity块的输出维度和ResCovolution块的输出维度相同。构建的网络为基于残差网络思想的卷积神经网络。在Identity块中的卷积层设置Padding＝Same，即通过0填充来使得卷积层的输入输出尺寸不变，同时，输入输出的维度相同，因此分流的两组数据可以直接进行融合，Identity块的结构如图8所示。ResConvolution块中的卷积层也同样设置了Padding＝Same，但是，输入输出维度不同，因此在Shortcut中添加了卷积核为1×1大小的卷积层，保证了两个分流输出的维度相同，从而可以融合，ResConvolution 块的结构如图9所示。整体网络结构如图10所示。输出层采用了Softmax函数，网络中的损失函数使用了交叉熵损失函数。

神经网络的数据集包括文字的字体和大小。字体可选择黑体，华文细黑和OCR-B10BT 三种字体等。神经网络的优化算法为RMSProp函数。RMSProp算法对梯度计算了微分平方加权平均数，计算公式(2-2)为：

s_dw＝βs_dw+(1-β)dW²

s_dw＝βs_dw+(1-β)db²

其中，s_dw和s_db分别是损失函数在前t-1轮迭代过程中累积的梯度动量，β是梯度累积的一个指数，这种做法有利于消除了摆动幅度大的方向，用来修正摆动幅度，使得各个维度的摆动幅度都较小，另一方面也使得网络函数收敛更快，为了防止分母为零，使用了一个很小的数值ε来进行平滑，一般取值为10^-8。

S1还包括以下步骤：

S11：使用形态学闭运算将白色证件区域与背景分离，寻找证件的外接矩形，最后将证件裁剪而出，闭运算后的图像如图3所示。

S3为基于投影的方法将单个字符切割而出，切割结果如图7所示。S3包括以下步骤：

S31：将图像每列灰度值求和，通过对比文字所在区域和空白区域的灰度总值，将字符分割，由于文字所在区域和空白区域的灰度总值差别较大，因此可以较准确地把字符分割开来。

形态学开运算分为腐蚀和膨胀两个过程，经过腐蚀和膨胀两个过程使文本行连通为一个类似矩形区。

以结构元B和图像A为例，具体腐蚀的过程如下：

(1)确定结构元B形状及原点位置。

(2)结构元B在图像上以一定顺序移动，当结构元B的原点位于A上某一点时，若结构元B在此局部范围内被A完全包含，则输出图像对应位置像元被赋值为1，否则值为0。

具体的膨胀操作过程如下：

(1)确定结构元B形状及原点位置。

(2)结构元B在图像上以一定顺序移动，在结构元B的原点位于A上某一点时，若结构元B与图像A在此局部区域上存在某个坐标上共同取非零值，则将输出图像在B的原点对应位置像元赋值为1，否则赋值为0。

腐蚀使得图像信息区域范围减小，而膨胀则使得图像信息区域扩大。在腐蚀过程中，一些细小的区域会被填补而消失，通过腐蚀过程可以去除离散的细小噪点，对于身份证图像，腐蚀的过程在去除纹理部分有十分显著的效果。在膨胀过程中，通过改变膨胀结构元的结构和大小，可以使文本行连通为一个类似矩形区域。通过寻找外接矩形并设置矩形尺寸和位置条件，可以筛选出文本行所在区域。

本发明的实施原理：如图1所示，首先将图片输入到目标区域进行色彩空间转换和闭运算处理，随后将图片进行二值化处理，再通过形态学开运算去噪，进行去噪后的图像即可提取文本行，提取文本行后再基于投影的方法对图像进行字符分割，将分割后的字符输入到已经训练好的卷积网络，卷积网络的输出端得出识别结果。

以上仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于神经网络的身份证文字识别方法，其特征在于，包括以下步骤：

S1: 进行色彩空间转换，将图像由RGB空间转换为HSV空间，并设置一定的（h，s，v）取值范围，提取出白色的证件区域，执行S2；

S2: 将图像进行二值化处理，使用形态学开运算将文本行连通为类矩形区域，寻找外接矩形后提取出文本行，执行S3；

S3：将单个字符切割而出，执行S4；

S4：将单个文字图像逐个输入训练好的神经网络中进行识别；

所述HSV空间中，白色的H取值区间为（0，180），白色的S取值区间为（0，30），白色的V取值区间为（221，255）；

所述神经网络为基于残差网络思想的卷积神经网络；

所述神经网络采用的残差块主要有Identity块和ResCovolution块，其中Identity块的输入和输出维度相同，所述ResCovolution的输入和输出维度不同，所述Identity块的输出维度和所述ResCovolution块的输出维度相同；

所述神经网络的数据集包括文字的字体和大小；

所述神经网络的优化算法为RMSProp函数；

所述 S1还包括以下步骤：

裁剪而出；

所述S3为基于投影的方法将单个字符切割而出；

所述S3包括以下步骤：

S31：将图像每列灰度值求和，通过对比文字所在区域和空白区域的灰度总值，将字符分割；

所述形态学开运算分为腐蚀和膨胀两个过程，先腐蚀后膨胀，经过腐蚀和膨胀两个过程使文本行连通为一个类矩形区；

具体腐蚀的过程如下：

（1）确定结构元B形状及原点位置；

（2）结构元B在图像上以一定顺序移动，当结构元B的原点位于A上某一点时，若结构元B在此局部范围内被A完全包含，则输出图像对应位置像元被赋值为1，否则值为0；

具体的膨胀操作过程如下：

（1）确定结构元B形状及原点位置；

（2）结构元B在图像上以一定顺序移动，在结构元B的原点位于A上某一点时，若结构元B与图像 A在此局部区域上存在某个坐标上共同取非零值，则将输出图像在B的原点对应位置像元赋值为1，否则赋值为0。