CN110909809A

CN110909809A - 基于深度学习的卡证图像识别方法

Info

Publication number: CN110909809A
Application number: CN201911184481.5A
Authority: CN
Inventors: 崔淼
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-03-24
Anticipated expiration: 2039-11-27
Also published as: CN110909809B

Abstract

本发明提供一种基于深度学习的卡证图像识别方法，包括：获取待处理的卡证图像；采用深度学习的分类网络对所述卡证图像进行分类处理，获取所述卡证图像中的目标区域；对所述目标区域进行特征提取处理，获取所述目标区域的特征数据；对所述特征数据进行识别处理，获取识别信息。由于增加了分类处理，使得后续的特征提取处理以及识别处理仅是针对目标区域，无需对整个卡证图像上的信息进行识别，从而既可以减少识别所用的时间，提高识别速度，即提高识别效率；又可以免受背景花纹的干扰影响，减少漏识别和错识别，即提高识别准确率，最终大大提高识别效果。

Description

基于深度学习的卡证图像识别方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度学习的卡证图像识别方法。

背景技术

近几年来我国互联网金融飞速发展，网上资金交易逐渐成为日常生活中的主流消费方式。随着移动互联的发展，商业移动应用越来越多，移动支付成为最主流的支付方式之一，这些商业移动应用很多涉及到个人银行卡账户，身份证的绑定，而实际不论客户办理业务还是工作人员录入客户信息业务都需要手动号码、身份证号码、验证码，手机号码。这种方式速度慢，易出错，用户体验非常差。

目前，基于计算机视觉的光学字符识别(Optical Character Recognition，OCR)，已经被广泛应用于商业领域，如常见的身份证、银行卡、发票、工作证、学生证、护照、驾驶证识别等。现有技术中，OCR包括预处理、检测处理与识别处理三个步骤，其中：预处理主要包括二值化、图像降噪、倾斜矫正、平滑、锐化等，其作用主要是消除图像中冗余的信息，恢复有用的真是信息，增强有关信息的可检测性和最大限度地简化数据，从而改进后续处理的可靠性；检测处理一般采用VGG或残差网络，其会对图像中所有文字进行检测；识别处理一般采用双向LSTM(Long Short-Term Memory，长短期记忆网络)模型和CTC(Connectionist Temporal Classification，连接时序分类)模型，其通过对检测到的信息进行识别，最终得到识别结果，即身份证号、银行卡号、发票号、驾驶证号等信息。

但是目前应用上述方式得到的卡证信息的准确率不高同时识别结果容易受到背景、光照等因素干扰，且识别所用的时间也比较长，因此如何同时提高卡证信息的准确率以及减少识别所用的时间就成为本领域技术人员亟待解决的问题之一。

发明内容

本发明解决的问题是提供一种基于深度学习的卡证图像识别方法，既可以提高识别效率，又可以提高识别准确率，最终提高用户体验效果。

为解决上述问题，本发明实施例提供一种基于深度学习的卡证图像识别方法，包括以下步骤：

获取待处理的卡证图像；

采用深度学习的分类网络对所述卡证图像进行分类处理，获取所述卡证图像中的目标区域；

对所述目标区域进行特征提取处理，获取所述目标区域的特征数据；

对所述特征数据进行识别处理，获取识别信息。

可选地，所述待处理的卡证图像是身份证图像、银行卡图像、发票图像、工作证图像、学生证图像、护照图像或驾驶证图像。

可选地，所述分类处理采用的网络包括五层卷积，所述目标区域为待识别的卡证号码区域。

可选地，所述特征提取处理依次包括：深度可分离卷积处理、具有线性瓶颈的倒残差结构的深度学习模型、基于squeeze and excitation结构的轻量级注意力深度学习模型。

可选地，所述方法还包括：在进行特征提取处理的过程中进行特征融合处理，所述特征融合处理采用空洞卷积方式实现。

可选地，所述识别处理依次包括以下三个处理：

密集连接的卷积网络(Densely Connected Convolutional Networks，简称DenseNet)；

单向长短期记忆网络(单向LSTM)、双向长短期记忆网络(双向LSTM)、门控循环神经网络(Gated Recurrent Neural Network，简称GRU)或循环神经网络(Recurrent NeuralNetwork，简称RNN)；

二维自注意力方法(2D Self-Attentinon)。

可选地，所述方法还包括：在进行特征提取处理之前，对所述图像进行 2～6次卷积采样。

可选地，所述方法还包括：

预设卡证辅助信息与识别信息的映射关系；

根据所述映射关系获取所述识别信息对应的卡证辅助信息。

为解决上述技术问题，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于深度学习的卡证图像识别方法。

为解决上述技术问题，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于深度学习的卡证图像识别方法。

与现有技术相比，本发明的技术方案具有以下优点：

在获取待处理的卡证图像后，先采用深度学习的分类网络对所述卡证图像进行分类处理，获取所述卡证图像中的目标区域；再对目标区域进行特征提取处理以及识别处理。由于增加了分类处理，使得后续的特征提取处理以及识别处理仅是针对目标区域，无需对整个银行卡上的信息进行识别，从而既可以减少识别所用的时间，提高识别速度，即提高识别效率；又可以免受背景花纹的干扰影响，减少漏识别和错识别，即提高识别准确率，最终大大提高识别效果。此外，本发明技术方案无需对待处理的卡证图像进行预处理，进一步使得识别正确率及效率实现跨越式提升，同时能够识别倾斜、模糊以及背景干扰的卡类图像数字。

进一步地，所述识别处理依次包括以下三个处理：DenseNet；单向LSTM、双向LSTM、GRU或RNN；二维自注意力方法，该组合而成的识别模型具有高鲁棒性，不需要对输入图像校正和去除背景干扰也可以准确对卡证图像进行识别。

附图说明

图1是本发明实施例提供的基于深度学习的卡证图像识别方法的流程示意图；

图2(a)是采用现有技术对银行卡图像识别的示意图；

图2(b)是采用现有技术对身份证图像识别的示意图；

图3(a)是采用本发明实施例方法对银行卡图像识别的示意图；

图3(b)是采用本发明实施例方法对身份证图像识别的示意图。

具体实施方式

正如背景技术所述，现有技术中在进行检测处理之前需要先进行预处理，再对卡证上的所有信息进行检测和识别，因此导致识别所有的时间很长，识别效率比较低；由于需要对卡证上所有信息进行检测和识别，导致卡证类数字会受到背景花纹干扰影响，从而往往出现漏识别和错识别的结果，最终导致识别的准确率很低。

此外，目前OCR识别模型由于图像倾斜、字体模糊、光照干扰会造成严重影响数字识别的效果，图1(a)和图1(b)示出了使用经典OCR识别模型 CRNN(ConvolutionalRecurrent Neural Network，卷积循环神经网络)结构的识别结果，从中可以发现：当卡号字体受到背景干扰时，容易引起识别的误差，如图1(a)中卡号最后几位“6”和“7”均被识别为了“1”；而图1(b)中，当图像倾斜太大容易把“8”和“0”进行混淆，如“8006”被识别为“8086”。

针对上述技术问题，发明人经过创造性劳动发现：采用上述方式检测得到的信息中有很多都是叠加的，例如银行卡识别，其实只需要检测得到银行卡号信息，通过识别卡号信息就可以自动识别出银行名字、银行卡类型(借记卡或储蓄卡)等卡证辅助信息，因此，无需对整个银行卡上的信息进行识别，而仅是对卡号区域进行识别，从而去掉背景干扰框，同时更加精细定位卡号数字区域。这样既可以减少识别所用的时间，提高识别速度，从而提高识别效率；又可以免受背景花纹的干扰影响，从而减少漏识别和错识别，从而提高识别准确率，最终大大提高识别效果。

针对上述问题，本发明首先提供了一种基于深度学习的卡证图像识别方法，包括以下步骤：获取待处理的卡证图像；采用深度学习的分类网络对所述卡证图像进行分类处理，获取所述卡证图像中的目标区域；对所述目标区域进行特征提取处理，获取所述目标区域的特征数据；对所述目标区域特征数据进行识别处理，获取识别信息。由于增加了分类处理，后续仅对卡证号码所在区域进行检测和识别，从而通过识别卡号信息就可以自动识别出银行名字、银行卡类型等，因此，无需对整个银行卡上的信息进行识别，而仅是对卡号区域进行识别，这样既可以减少识别所用的时间，提高识别速度，从而提高识别效率；又可以免受背景花纹的干扰影响，从而减少漏识别和错识别，从而提高识别准确率，最终大大提高识别效果，提高了用户的体验效果。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参考图2所示，本实施例提供了一种基于深度学习的卡证图像识别方法，包括以下步骤：

步骤S100，获取待处理的卡证图像；

步骤S200，采用深度学习的分类网络对所述卡证图像进行分类处理，获取所述卡证图像中的目标区域；

步骤S300，对所述目标区域进行特征提取处理，获取所述目标区域的特征数据；

步骤S400，对所述特征数据进行识别处理，获取识别信息。

本实施例提出了结合图像形态学和深度学习技术实现卡证图像的识别，可以有效提高卡证图像的卡号检测与识别的准确性和效率。

首先执行步骤S100，获取待处理的卡证图像。

本实施例中所述待处理的卡证图像是银行卡图像，还可以是身份证图像、银行卡图像、发票图像、工作证图像、学生证图像、护照图像或驾驶证图像等其它的卡证图像。

所述待处理的卡证图像中包括需识别的卡证号码，该卡证号码可以包括文字、数字和字母中的一种或多种任意组合，通过识别卡证号码就可以获取对应的卡证上的基本信息。

接着执行步骤S200，采用深度学习的分类网络对所述卡证图像进行分类处理，获取所述卡证图像中的目标区域。

本实施例通过卡证类图像标注目标区域和背景区域训练分类模型，通过该模型处理将所述卡证图像分为背景区域和目标区域，其中待识别的卡证号码所在区域就是目标区域，其它是背景区域。

具体地，所述分类处理采用的网络可以由五层卷积组成，该网络结构主要用于获得目标区域的检测框和边界框的回归向量，并用该边界框做回归校准，然后通过非极大值抑制(NMS)来合并高度重叠的检测框去除部分多余背景框。

此外，本实施例在进行分类处理之前，还可以对所述待处理的卡证图像进行6～10次卷积采样，如：6次、7次、8次、9次和10次，其作用在于提取目标域特征和背景区域特征进行分类。发明人经过创造性劳动发现：当卷积采样的次数太少时，目标域特征信息丢失；当卷积采样的次数太多时，在训练过程中损失函数浮动比较大，严重时会出现过拟合现象。

需要说明的是，此处的卷积采样并不同于现有技术中对待处理图像的预处理，本实施例在整个处理过程中无需对待处理的卡证图像进行预处理，就能够识别倾斜、模糊以及背景干扰的卡证图像。

接着执行步骤S300，对所述目标区域进行特征提取处理，获取所述目标区域的特征数据。

本实施例中所述特征提取处理具体包括以下内容：

首先执行步骤S310，对所述目标区域进行深度可分离卷积处理(DepthwiseSeparable Convolution)。

所述深度可分离卷积将传统卷积的两步进行分离开来，分别是深度(depthwise，DW)卷积和逐点(pointwise，PW)卷积：首先按照通道进行计算按位相乘的计算，此时通道数不改变；然后依然得到将第一步的结果，使用1*1的卷积核进行传统的卷积运算，此时通道数可以进行改变。使用了深度可分离卷积，其计算量为DK*DK*M*DF*DF+1*1*M*N*DF*DF。其中： DF为特征图尺寸，DK为卷积核尺寸，M为输入通道数，N为输出通道数。通过深度可分离卷积，计算量将会下降1/N+1/D²K，当DK＝3时，深度可分离卷积比传统卷积少8到9倍的计算量。

本实施例深度可分离卷积处理中卷积的层数范围可以为10～20层，如： 10层、12层、15层、17层或20层等。发明人经过创造性劳动发现：当选择的层数太少时，目标区域的文字或者数字、字母等信息提取特征不明显；当选择的层数太多时，在训练时增加权重参数会影响检测速度。

接着执行步骤S320，基于具有线性瓶颈(Linear Bottlenecks)的倒残差(Inverted Residuals)结构的深度学习模型对深度可分离卷积处理后的目标区域继续进行处理。

本实施例中具有线性瓶颈的倒残差结构的深度学习模型中网络的层数范围可以为7～15层，如：7层、9层、10层、12层或15等。发明人经过创造性劳动发现：当选择的层数太少时，倒残差网络结构从深度可分离卷积输出特征中进一步提取图像特征信息会有大量的损失；当选择的层数太多时，损失函数出现NaN导致梯度值过大，容易产生梯度爆炸。

接着执行步骤S330，基于squeeze and excitation结构的轻量级注意力深度学习模型(SE)对步骤S320输出区域继续进行处理为了保留了更多的目标域图像特征，通过学习模型(SE)对步骤S320生成背景区域进行进一步选择和调整，从而达到高精度过滤背景区域并保留目标区域优化的效果。

此外，本实施例在进行特征提取处理的过程中还可以进行特征融合处理，其中上采样采用空洞卷积方式实现特征融合，其作用在于增加卷积网络感受野，且上采样以后卷积进行特征金字塔操作以能够提取各维卡证图像的卡证特征信息。

具体地，所述特征融合处理中针对卷积采样可以任选1层，针对深度可分离卷积处理中可以任选2层。

依次经过上述的处理，就获取了目标区域的特征数据，即完成了检测的过程。

本实施例中步骤S300仅使用了1200张训练数据集就完成了目标区域的检测，并且可以准确检测输入的任意倾斜图像。而现有技术中VGG或残差网络实现的检测，需要上百万的训练数据集才能检测到特征区域，这些训练数据集标注起来会浪费大量的人力、财力和物力等。

接着执行步骤S400，对所述提取特征数据进行识别处理，获取识别信息。

本实施例中所述识别处理具体可以包括以下内容：

步骤S410，基于DenseNet(密集卷积网络)模型对所述步骤S400提取特征信息数据进行处理。

DenseNet模型改变了传统网络反向传递时的梯度传播方式，由线性变成树状反向，这样的好处就在于减少了梯度消失的可能，并且加速训练，有利于更深层网络的训练。密集的网络结构有类似正则功能，在小数据集合上能更好地避免过拟合，每个层的输入input包括之前所有层的信息，通过将前面N多个层的特征组合起来，形成对特征更丰富的描述和判别。

步骤S420，基于双向LSTM对步骤S410的处理结果进行处理。

需要说明的是，在其它实施例中还可以采用单向LSTM、GRU或RNN 对步骤S410的处理结果进行处理。

步骤S430，基于二维自注意力方法(2D Self-Attention)对步骤S420的处理结果继续进行处理。

本实施例中步骤S400根据检测得到的目标区域把对应的待识别区域剪切出来进行文字识别。由于剪切可以是任意方向，为了提高倾斜的目标区域识别效果，具体可以基于DenseNet模型、双向LSTM、2D Self-Attention组合形成识别模型。该识别模型高鲁棒性，不需要对输入图像校正和去除背景干扰也可以准确对目标区域的文本进行识别。

与现有技术中由双向LSTM和CTC组成的识别模型相比，传统识别模型针对任意倾斜图像识别效率低，一般研究人员需要进行一些角度矫正的预处理进行识别，但是本实施例中识别模型不需要对进行图像校正也能提高识别率。

当需要获取的信息仅为目标区域对应的卡证号码信息时，则整个卡证图像识别过程结束，后续就是对识别的信息进行具体的应用。

但是当需要获取的信息还包括目标区域之外的其它卡证辅助信息时，所述方法还可以包括：

预设卡证辅助信息与识别信息的映射关系；

根据所述映射关系获取所述识别信息对应的卡证辅助信息。

所述卡证辅助信息是指根据识别出的卡证信息能够推导出的信息，而映射关系就是推导依据。如：当待处理的卡证图像为银行卡图像时，卡证辅助信息可以包括银行名字、银行卡类型等；当待处理的卡证图像为身份证图像时，卡证辅助信息可以包括持证人的发证机关、籍贯地、性别、出生年月日等信息。

所述映射关系则是在设置卡证号码时遵循的编排规则。以第二代身份证为例，其共18位，其中前面6位数字为地址码(如：河北省正定县为130123)，据此能获知住址信息；紧接着的8位数字为出生日期码，据此能获知出生年月日；紧接着的3位数字为顺序码，顺序码的奇数为男性，偶数为女性，据此能获知性别；校验码是根据前面17位数字码，按照ISO7064:1983.MOD 11-2 校验码计算出来的校验码。

不同卡证对应的映射关系可以完全不同，从而即使识别出的卡证号码相同也可以得出不同的卡证辅助信息。

本实施例在获取待处理的卡证图像后，先采用深度学习的分类网络对所述卡证图像进行分类处理，获取所述卡证图像中的目标区域；再对目标区域进行特征提取处理以及识别处理。由于增加了分类处理，使得后续的特征提取处理以及识别处理仅是针对目标区域，无需对整个银行卡上的信息进行识别，从而既可以减少识别所用的时间，提高识别速度，即提高识别效率；又可以免受背景花纹的干扰影响，减少漏识别和错识别，即提高识别准确率，最终大大提高识别效果。此外，本发明技术方案无需对待处理的卡证图像进行预处理，进一步使得识别正确率及效率实现跨越式提升，同时能够识别倾斜、模糊以及背景干扰的卡类图像数字。

由于卡证类背景干扰比较大以及用户输入图像可能是任意形状，影响卡证类数字区域的识别，所述识别处理依次包括以下三个处理：DenseNet；单向LSTM、双向LSTM、GRU或RNN；二维自注意力方法，该组合而成的识别模型具有高鲁棒性，不需要对输入图像校正和去除背景干扰也可以准确对卡证图像进行识别。颠覆了当前传统OCR识别方法，使卡证类数字识别正确率、识别效率、识别效果得到提高。

图3(a)和图3(b)是采用本发明实施例方法得到的识别结果示意图，其中图3(a)中背景干扰非常大，图3(b)中图像不仅背景花纹大且倾斜非常严重，但这两种情况下才有本实施例方法均能完全准确识别卡证号码。

经统计分析发现：采用传统OCR识别算法识别单个1024*1024图像时间平均为0.4s左右，识别的准确率约82％；而采用本实施例方法通过运用深度学习分类和更新后的识别方法结合，单个1024*1024图像识别时间平均在0.1s 左右，识别的准确率达到92％，识别过程受外界环境的影响程度大大降低。

相应地，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于深度学习的卡证图像识别方法的步骤，具体请参见上面方法部分，在此不再赘述。

存储器作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于深度学习的卡证图像识别方法对应的程序指令/模块。处理器通过运行存储在存储器中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于深度学习的卡证图像识别方法。

存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

相应地，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于深度学习的卡证图像识别方法的步骤，具体请参见上面方法部分，在此不再赘述。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于深度学习的卡证图像识别方法，其特征在于，包括以下步骤：

获取待处理的卡证图像；

对所述特征数据进行识别处理，获取识别信息。

2.如权利要求1所述的方法，其特征在于，所述待处理的卡证图像是身份证图像、银行卡图像、发票图像、工作证图像、学生证图像、护照图像或驾驶证图像。

3.如权利要求1所述的方法，其特征在于，所述分类处理采用的网络包括五层卷积，所述目标区域为待识别的卡证号码区域。

4.如权利要求1所述的方法，其特征在于，所述特征提取处理依次包括：深度可分离卷积处理、具有线性瓶颈的倒残差结构的深度学习模型、基于squeeze and excitation结构的轻量级注意力深度学习模型。

5.如权利要求1所述的方法，其特征在于，还包括：在进行特征提取处理的过程中进行特征融合处理，所述特征融合处理采用空洞卷积方式实现。

6.如权利要求1所述的方法，其特征在于，所述识别处理依次包括以下三个处理：

密集连接的卷积网络；

单向长短期记忆网络、双向长短期记忆网络、门控循环神经网络或循环神经网络；

二维自注意力方法。

7.如权利要求1所述的方法，其特征在于，还包括：在进行特征提取处理之前，对所述图像进行2～6次卷积采样。

8.如权利要求1所述的方法，其特征在于，还包括：

预设卡证辅助信息与识别信息的映射关系；

根据所述映射关系获取所述识别信息对应的卡证辅助信息。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一项所述的基于深度学习的卡证图像识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的基于深度学习的卡证图像识别方法。