CN110532855B

CN110532855B - 基于深度学习的自然场景证件图像文字识别方法

Info

Publication number: CN110532855B
Application number: CN201910630252.5A
Authority: CN
Inventors: 王晓甜; 吴嘉诚; 林亚静; 石光明; 齐飞; 林杰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-03-18
Anticipated expiration: 2039-07-12
Also published as: CN110532855A

Abstract

本发明公开了一种基于深度学习的自然场景证件图像文字识别方法，实现的步骤为：(1)构建图像特征提取模块；(2)构建文字前景预测模块；(3)构建文字区域定位模块；(4)组成文字定位网络；(5)构建字符特征提取模块；(6)组成文字识别网络；(7)构建文字定位数据集；(8)构建文字识别数据集；(9)训练文字定位网络；(10)训练文字识别网络；(11)识别证件图像中的文字。本发明克服了现有证件图像文字识别技术对拍摄环境要求苛刻，在复杂场景中识别准确率低的问题，使得本发明能够在任意自然场景下都能精准的识别证件图像中的文字。

Description

基于深度学习的自然场景证件图像文字识别方法

技术领域

本发明属于图像文字处理技术领域，更进一步涉及图像文字识别技术领域中的一种基于深度学习的自然场景证件图像中的文字识别方法。本发明可用于对自然场景下(例如室内办公环境、街景下)拍摄的证件(例如身份证，营业执照，驾驶证，行驶证)识别其中的文字。

背景技术

识别证件图像中的文字在许多场景下都十分普遍重要，如在金融场景下的远程开户、线上借贷、支付验证等场景下，我们需要识别用户身份证的姓名，地址，身份证号码等信息，以查验是否人证合一；工商部门执法，往往需要识别营业执照的企业名称、法人代表、统一社会信用代码，看企业的企业名称，法人代表，统一社会信用代码等重要信息是否与工商部门系统里数据库的记录一致。以确保该企业的合法性。在交通执法、车辆管理所等场景往往也需要识别驾驶证、行驶证中的证号、有效期、车辆代码等信息。

广州恒巨信息科技有限公司在其申请的专利文献“一种身份证识别方法”(专利申请号201610008974.3，公开号105701488A)中公开了一种基于图像处理的身份证识别方法。该方法包括以下步骤：(1)采集身份证图像，(2)将采集的身份证图像进行预处理，(3)对预处理后的图像进行定位分割，(4)对定位分割后的图像进行识别。该方法存在的不足之处是：由于该方法在将采集的身份证图像进行预处理和对预处理后的图像进行定位分割时需要用二值化算法将原图像变成二值化图像，然而二值化算法对图片质量、成像环境要求非常严格，对噪声十分敏感，证件图像背景又包含纹理，每次利用证件图像文字识别算法时必须先拍摄图片，再对拍摄图片进行预处理，若拍摄环境苛刻，则预处理效果较差，导致无法识别。

福州大学在其申请的专利文献“复杂场景下基于内特征和文本域布局的驾驶证检测识别方法”(专利申请号201810218038.4，公开号108427946A)中公开了一种基于内特征和文本域布局的驾驶证检测识别方法。该方法包括以下步骤，(1)用归一化和SSR增强等技术预处理图像,(2)用形态学操作和线段修补对证件中的车型框边框进行修补,通过轮廓检测与过滤得到车型框轮廓,(3)求拟合直线的交点得到车型框顶点,结合标准驾驶证布局得到驾驶证区域图像，(4)然后分析积分投影信息对车型文本区域位置进行精细定位,从它开始,每次找临近的未定位区域进行粗定位和精细定位得到文本区域图像,并在地址栏以上区域进行倾斜校正，(5)最后融合多种方法对文本区域二值化,用专训的文字识别引擎识别文字。该方法不足之处是：由于该方法先要用形态学操作和线段修补对证件中的车型框边框进行修补,通过轮廓检测与过滤得到车型框轮廓,然后求拟合直线的交点得到车型框顶点,根据标准驾驶证中的车型框轮廓区域占整张驾驶证的比例大小来确定驾驶证区域图像的位置，如此得到的驾驶证区域图像十分依赖驾驶证中的车型框轮廓区域的定位以及驾驶证整体布局必须十分标准，由于每个人拍摄出来的驾驶证图片是存在差异的，导致驾驶证中的车型框轮廓区域占整张驾驶证的比例大小是无法确定的，驾驶证区域图像的位置就无法准确定位，导致后面的文本区域无法精细定位，进而影响文本区域内的文字识别，使得该方法识别场景较为单一，在复杂场景下识别准确率较低。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于深度学习的自然场景证件图像文字识别方法，解决现有证件图像文字识别方法对拍摄环境要求苛刻，识别场景单一，在复杂场景中识别准确率低的问题。

实现本发明目的的技术思路是，构建了证件图像数据集，避免了图像预处理这一步受环境因素影响较大的操作，利用证件图像数据集训练了一个文字定位网络和一个文字识别网络，把证件图像输入到文字定位网络，得到每一行文字区域的坐标，利用坐标值把文字区域从图片中切割出来，再把切割出来的每一行文字输入到文字识别网络，得到字符类别，整个过程无需对图像进行预处理，使得网络能够精确识别自然场景下各类证件图像中的文字。

本发明的实现的具体步骤如下：

(1)构建图像特征提取模块：

(1a)搭建一个24层特征提取模块，其结构依次为：第一卷积层→第一池化层→第二卷积层→第三卷积层→第四卷积层→跳跃连接层→第五卷积层→第六卷积层→第七卷积层→跳跃连接层→第二池化层→第八卷积层→第九卷积层→第十卷积层→跳跃连接层→第十一卷积层→第十二卷积层→第十三卷积层→跳跃连接层→第三池化层→第十四卷积层→第十五卷积层→第十六卷积层→跳跃连接层；

(1b)将第四卷积层、第七卷积层、第十卷积层、第十三卷积层、第十六卷积层中卷积核的个数均设置为256，卷积核的大小均设置为3x3，卷积步长均设置为1，将其余的卷积层中卷积核的个数均设置为64，除了将第一卷积层的卷积核大小设置为7x7，卷积步长设置为2外，其余卷积层的卷积核的大小均设置为1x1，卷积步长均设置为1，第一至第三池化层均采用最大池化的方式，池化区域核的大小均设置为2x2，步长均设置为2；

(2)构建文字前景预测模块：

(2a)搭建由三个卷积层组成的文本前景预测模块，其结构依次为：第十七卷积层→第十八卷积层→第十九卷积层；所述第十八卷积和第十九卷积层并联后与第十七卷积层串联；

(2b)将第十七、第十八、第十九卷积层的卷积核的大小分别设置为3x3、1x1、1x1，卷积核的个数分别设置为256、18、36，步长均设置为1；

(3)构建文字区域定位模块：

(3a)搭建文字区域定位模块，其结构依次为：第四池化层→第一全连接层→第二全连接层→第三全连接层；所述第二全连接层与第三全连接层并联后与第一全连接层串联；

(3b)将第四池化层设置为全局平均池化方式，池化区域核的大小设置为7x7，步长设置为1，第一、第二、第三全连接层的神经元个数分别设置为4096、2、4；

(4)将图像特征提取模块、文字前景预测模块、文字区域定位模块依次连接组成文字定位网络；

(5)构建字符特征提取模块：

(5a)搭建一个11层的字符特征提取模块，其结构依次为：第二十卷积层→第二十一卷积层→第五池化层→第二十二卷积层→第二十三卷积层→第六池化层→第二十四卷积层→第二十五卷积层→第七池化层→第二十六卷积层→第二十七卷积层；

(5b)将第二十至第二十七卷积层中卷积核的大小均设置为3x3，卷积步长均设置为1，其中将第二十、第二十一卷积层中卷积核的个数均设置为64，将第二十二、第二十三卷积层中卷积核的个数均设置为128，将第二十四、第二十七卷积层中卷积核的个数均设置为256，第一至第三池化层均采用最大池化的方式，池化区域核的大小均设置为2x2；

(6)组成文字识别网络：

在字符特征提取模块后面连接一个含有6250个神经元数的全连接层组成文字识别网络；

(7)构建文字定位数据集：

(7a)随机获取至少3000张含有文字的网络图片和至少1000张证件图片组成图片数据集，将图片数据集中所有的图片的大小缩放为720x1080；

(7b)在每张图片中标注文字区域顶点的坐标，将每张图片标注后的所有文字区域顶点坐标值组成图片标签数据集；

(7c)将图片数据集和图片标签数据集组成文字定位数据集；

(8)构建文字识别数据集：

(8a)随机获取至少三百万张图片，每张图片含有一行文字10个字符，将所有的图片组成文本数据集；将文本数据集中所有的图片的大小缩放为32x280；

(8b)对每张图片中的10个字符分别标注字符类别，将每张图片标注后的字符类别对应的值，组成字符标签数据集；

(8c)将文本数据集和字符标签数据集组成文字识别数据集；

(9)训练文字定位网络：

(9a)将文字定位数据集按9：1的比例随机分为文字定位训练集和文字定位测试集；

(9b)将文字定位训练集输入到文字定位网络中，用梯度下降法，更新文字定位网络的权值10000至50000次，得到训练好的文字定位网络；

(10)训练文字识别网络：

(10a)将文字识别数据集按99：1的比例随机分为文字识别训练集和文字识别测试集；

(10b)将文字识别训练集输入到文字识别网络中，用梯度下降法，更新文字识别网络的权值100000至300000次，得到训练好的文字识别网络；

(11)识别证件图像中的文字：

(11a)将文字定位测试集中的证件图片依次输入到训练好的文字定位网络中，输出证件图片中文字区域的顶点坐标值；

(11b)根据文本区域的顶点坐标值，将文本区域从证件图像中切割出来；

(11c)将切割好的文本区域图片输入到训练好的文字识别网络中，输出文本区域的每一个字符类别。

与现有技术相比，本发明具有以下优点：

第一，由于本发明构建文字定位数据集和文字识别数据集，克服了现有技术存在的证件图像数据集缺失，每次利用证件图像文字识别算法时必须先拍摄图片，再对拍摄图片进行预处理，若拍摄环境苛刻，则预处理效果较差，导致无法识别的问题，使得本发明在任意自然场景下都能识别证件图像中的文字。

第二，由于本发明构建并训练文字定位网络和文字识别网络，克服了现有证件图片文字识别算法只能识别单一简单场景下的证件图片，若场景发生变化，现有方法识别准确率就会较低，使得本发明能较大的提高复杂场景下的证件图像文字识别准确率。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图1对本发明的实现步骤做进一步的描述。

步骤1，构建图像特征提取模块。

搭建一个24层特征提取模块，其结构依次为：第一卷积层→第一池化层→第二卷积层→第三卷积层→第四卷积层→跳跃连接层→第五卷积层→第六卷积层→第七卷积层→跳跃连接层→第二池化层→第八卷积层→第九卷积层→第十卷积层→跳跃连接层→第十一卷积层→第十二卷积层→第十三卷积层→跳跃连接层→第三池化层→第十四卷积层→第十五卷积层→第十六卷积层→跳跃连接层。

将第四卷积层、第七卷积层、第十卷积层、第十三卷积层、第十六卷积层中卷积核的个数均设置为256，卷积核的大小均设置为3x3，卷积步长均设置为1，将其余的卷积层中卷积核的个数均设置为64，卷积核大小除了把第一层卷积层设置为7x7，卷积步长设置为2外，其余卷积核的大小均设置为1x1，卷积步长均设置为1，第一至第三池化层均采用最大池化的方式，池化区域核的大小均设置为2x2，步长均设置为2。加入跳跃连接层的目的是为了防止训练网络时梯度消失，导致后续的每次用梯度下降法更新权值时由于梯度较小难以更新权值。

步骤2，构建文字前景预测模块。

搭建由三个卷积层组成的文本前景预测模块，其结构依次为：第十七卷积层→第十八卷积层→第十九卷积层；所述第十八卷积和第十九卷积层并联后与第十七卷积层串联。

将第十七、第十八、第十九卷积层的卷积核的大小分别设置为3x3、1x1、1x1，卷积核的个数分别设置为256、18、36，步长均设置为1；

步骤3，构建文字区域定位模块。

搭建文字区域定位模块，其结构依次为：第四池化层→第一全连接层→第二全连接层→第三全连接层；所述第二全连接层与第三全连接层并联后与第一全连接层串联。

将第四池化层设置为全局平均池化方式，池化区域核的大小设置为7x7，步长设置为1，第一、第二、第三全连接层的神经元个数分别设置为4096、2、4。其中第一层全连接层的4096个神经元目的是为了把图像特征提取模块提取到的特征融合到一起，第二层全连接层的2个神经元分别表示文本区域和非文本区域的概率值，第三层全连接层的4个神经元表示文本区域两个顶点的坐标值。

步骤4，将图像特征提取模块、文字前景预测模块、文字区域定位模块依次连接组成文字定位网络。

步骤5，构建字符特征提取模块。

搭建一个11层的字符特征提取模块，其结构依次为：第二十卷积层→第二十一卷积层→第五池化层→第二十二卷积层→第二十三卷积层→第六池化层→第二十四卷积层→第二十五卷积层→第七池化层→第二十六卷积层→第二十七卷积层。

将第二十至第二十七卷积层中卷积核的大小均设置为3x3，卷积步长均设置为1，其中将第二十、第二十一卷积层中卷积核的个数均设置为64，将第二十二、第二十三卷积层中卷积核的个数均设置为128，将第二十四、第二十七卷积层中卷积核的个数均设置为256，第一至第三池化层均采用最大池化的方式，池化区域核的大小均设置为2x2。

步骤6，组成文字识别网络。

在字符特征提取模块后面连接一个含有6250个神经元数的全连接层组成文字识别网络。其中6250这个参数代表字符类别数目，如果想要识别更多类别的字符，相应的调整这个参数即可。

步骤7，构建文字定位数据集。

随机获取至少3000张含有文字的网络图片和至少1000张证件图片组成图片数据集，将图片数据集中所有的图片的大小缩放为720x1080。

在每张图片中标注文字区域顶点的坐标，将每张图片标注后的所有文字区域顶点坐标值组成图片标签数据集。

将图片数据集和图片标签数据集组成文字定位数据集。

步骤8，构建文字识别数据集。

随机获取至少三百万张图片，每张图片含有一行文字10个字符，将所有的图片组成文本数据集；将文本数据集中所有的图片的大小缩放为32x280。

对每张图片中的10个字符分别标注字符类别，将每张图片标注后的字符类别对应的值组成字符标签数据集。

将文本数据集和字符标签数据集组成文字识别数据集。

步骤9，训练文字定位网络。

将文字定位数据集按9：1的比例随机分为文字定位训练集和文字定位测试集。

将文字定位训练集输入到文字定位网络中，用梯度下降法更新文字定位网络的权值10000至50000次，得到训练好的文字定位网络。

所述的梯度下降法的步骤如下：

第1步，将文字定位网络的学习率设置为0.002。

第2步，将文字定位网络的输出值与文字区域顶点坐标值的差值作为文字定位网络的梯度值。

第3步，利用下式，更新一次文字定位网络的权值：

其中，

表示更新后的文字定位网络的权值，←表示赋值操作，θ表示文字定位网络自身随机生成的服从高斯分布的权值，

表示文字定位网络的梯度值。

步骤10，训练文字识别网络。

将文字识别数据集按99：1的比例随机分为文字识别训练集和文字识别测试集。

将文字识别训练集输入到文字识别网络中，用梯度下降法更新文字识别网络的权值100000至300000次，得到训练好的文字识别网络。

所述的梯度下降法的步骤如下：

第1步，将文字识别网络的学习率设置为0.0005。

第2步，将文字识别网络的输出值与字符类别值的差值作为文字识别网络的梯度值。

第3步，利用下式，更新一次文字识别网络的权值：

其中，

表示更新后的文字识别网络的权值，←表示赋值操作，θ表示文字识别网络自身随机生成的服从高斯分布的权值，

表示文字识别网络的梯度值。

步骤11，识别证件图像中的文字。

将文字定位测试集中的证件图片依次输入到训练好的文字定位网络中，输出证件图片中文字区域的顶点坐标值。

根据文本区域的顶点坐标值，把文本区域从证件图像中切割出来。

将切割好的文本区域图片输入到训练好的文字识别网络中，输出文本区域的每一个字符类别。