CN112861847A

CN112861847A - 一种ocr图像识别装置

Info

Publication number: CN112861847A
Application number: CN201911182616.4A
Authority: CN
Inventors: 崔淼
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2021-05-28

Abstract

本发明提供一种OCR图像识别装置，用于基于深度学习对卡证图像进行识别，包括：输入模块，用于获取待处理的卡证图像；分类模块，用于采用深度学习的分类网络对所述卡证图像进行分类处理，以获取所述卡证图像中的目标区域；检测模块，用于对所述目标区域进行特征提取处理，获取所述目标区域的特征数据；识别模块，用于对所述特征数据进行识别处理。由于增加了分类模块，使得后续的特征提取处理以及识别处理仅是针对目标区域，无需对整个银行卡上的信息进行识别，从而既可以减少识别所用的时间，提高识别速度，即提高识别效率；又可以免受背景花纹的干扰影响，减少漏识别和错识别，即提高识别准确率，最终大大提高识别效果。

Description

一种OCR图像识别装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种OCR图像识别装置。

背景技术

近几年来我国互联网金融飞速发展，网上资金交易逐渐成为日常生活中的主流消费方式。随着移动互联的发展，商业移动应用越来越多，移动支付成为最主流的支付方式之一，这些商业移动应用很多涉及到个人银行卡账户，身份证的绑定，而实际不论客户办理业务还是工作人员录入客户信息业务都需要手动号码、身份证号码、验证码，手机号码。这种方式速度慢，易出错，用户体验非常差。

目前，基于计算机视觉的光学字符识别(Optical Character Recognition，OCR)，已经被广泛应用于商业领域，如常见的身份证、银行卡、发票、工作证、学生证、护照、驾驶证识别等。现有技术中，OCR装置一般包括预处理模块、检测模块与识别模块三个模块，其中：预处理模块主要包括二值化、图像降噪、倾斜矫正、平滑、锐化等，其作用主要是消除图像中冗余的信息，恢复有用的真是信息，增强有关信息的可检测性和最大限度地简化数据，从而改进后续处理的可靠性；检测模块一般采用VGG或残差网络，其会对图像中所有文字进行检测；识别模块一般采用双向LSTM(Long Short-Term Memory，长短期记忆网络)模型和CTC(Connectionist Temporal Classification，连接时序分类)模型，其通过对检测到的信息进行识别，最终得到识别结果，即身份证号、银行卡号、发票号、驾驶证号等信息。

但是目前应用上述方式得到的卡证信息的准确率不高同时识别结果容易受到背景、光照等因素干扰，且识别所用的时间也比较长，因此如何同时提高卡证信息的准确率以及减少识别所用的时间就成为本领域技术人员亟待解决的问题之一。

发明内容

本发明解决的问题是提供一种OCR图像识别装置，既可以提高识别效率，又可以提高识别准确率，最终提高用户体验效果。

为解决上述问题，本发明实施例提供一种OCR图像识别装置，用于基于深度学习对卡证图像进行识别，包括：

输入模块，用于获取待处理的卡证图像；

分类模块，用于采用深度学习的分类网络对所述卡证图像进行分类处理，以获取所述卡证图像中的目标区域；

检测模块，用于对所述目标区域进行特征提取处理，获取所述目标区域的特征数据；

识别模块，用于对所述特征数据进行识别处理，获取识别信息。

可选地，所述待处理的卡证图像是身份证图像、银行卡图像、发票图像、工作证图像、学生证图像、护照图像或驾驶证图像。

可选地，所述分类模块采用的网络包括五层卷积，所述目标区域为待识别的卡证号码区域。

可选地，所述检测模块依次包括：深度可分离卷积处理单元、具有线性瓶颈的倒残差结构的深度学习单元、基于squeeze and excitation结构的轻量级注意力深度学习单元。

可选地，所述检测模块还用于在进行特征提取处理的过程中进行特征融合处理，所述特征融合处理采用空洞卷积方式实现。

可选地，所述识别模块依次包括：

密集连接的卷积网络单元；

单向长短期记忆网络单元、双向长短期记忆网络单元、门控循环神经网络单元或循环神经网络单元；

二维自注意力单元。

可选地，所述装置还包括：卷积采样模块，用于在进行特征提取处理之前，对所述图像进行2～6次卷积采样。

可选地，所述装置还包括：

存储模块，用于预设卡证辅助信息与识别信息的映射关系；

推导模块，用于根据所述映射关系获取所述识别信息对应的卡证辅助信息。

为了解决上述问题，本发明实施例还提供了一种电子设备，包括：

图像采集装置，用于采集待处理的卡证图像；

上述的OCR图像识别装置，用于识别所述卡证图像的信息。

为了解决上述问题，本发明实施例还提供了一种自动业务办理系统，包括：

接收装置，用于接收用户输入的信息；

语义理解装置，用于对所述用户输入的信息进行自然语言理解处理；

知识库，用于存储多个知识点，每个知识点包括多个问题和一个答案；

上述的OCR图像识别装置，用于识别待处理的卡证图像的信息；

处理装置，用于根据语义理解装置以及图像识别装置获取的信息，从所述知识库中匹配语义相似度最高的问题，并将所述问题对应的答案作为目标答案；

输出装置，用于将所述目标答案输出给所述用户。

与现有技术相比，本发明的技术方案具有以下优点：

在获取待处理的卡证图像后，先采用深度学习的分类网络对所述卡证图像进行分类处理，获取所述卡证图像中的目标区域；再对目标区域进行特征提取处理以及识别处理。由于增加了分类处理，使得后续的特征提取处理以及识别处理仅是针对目标区域，无需对整个银行卡上的信息进行识别，从而既可以减少识别所用的时间，提高识别速度，即提高识别效率；又可以免受背景花纹的干扰影响，减少漏识别和错识别，即提高识别准确率，最终大大提高识别效果。此外，本发明技术方案无需对待处理的卡证图像进行预处理，进一步使得识别正确率及效率实现跨越式提升，同时能够识别倾斜、模糊以及背景干扰的卡类图像数字。

进一步地，所述识别模块依次包括：密集连接的卷积网络单元；单向长短期记忆网络单元、双向长短期记忆网络单元、门控循环神经网络单元或循环神经网络单元；二维自注意力单元，该组合而成的识别模型具有高鲁棒性，不需要对输入图像校正和去除背景干扰也可以准确对卡证图像进行识别。

附图说明

图1(a)是采用现有技术对银行卡图像识别的示意图；

图1(b)是采用现有技术对身份证图像识别的示意图；

图2是本发明实施例提供的一种OCR图像识别装置的结构示意图；

图3(a)是采用本发明实施例装置对银行卡图像识别的示意图；

图3(b)是采用本发明实施例装置对身份证图像识别的示意图。

具体实施方式

正如背景技术所述，现有技术中在进行检测处理之前需要先进行预处理，再对卡证上的所有信息进行检测和识别，因此导致识别所有的时间很长，识别效率比较低；由于需要对卡证上所有信息进行检测和识别，导致卡证类数字会受到背景花纹干扰影响，从而往往出现漏识别和错识别的结果，最终导致识别的准确率很低。

此外，目前OCR识别模型由于图像倾斜、字体模糊、光照干扰会造成严重影响数字识别的效果，图1(a)和图1(b)示出了使用经典OCR识别模型CRNN(ConvolutionalRecurrent Neural Network，卷积循环神经网络)结构的识别结果，从中可以发现：当卡号字体受到背景干扰时，容易引起识别的误差，如图1(a)中卡号最后几位“6”和“7”均被识别为了“1”；而图1(b)中，当图像倾斜太大容易把“8”和“0”进行混淆，如“8006”被识别为“8086”。

针对上述技术问题，发明人经过创造性劳动发现：采用上述方式检测得到的信息中有很多都是叠加的，例如银行卡识别，其实只需要检测得到银行卡号信息，通过识别卡号信息就可以自动识别出银行名字、银行卡类型(借记卡或储蓄卡)等卡证辅助信息，因此，无需对整个银行卡上的信息进行识别，而仅是对卡号区域进行识别，从而去掉背景干扰框，同时更加精细定位卡号数字区域。这样既可以减少识别所用的时间，提高识别速度，从而提高识别效率；又可以免受背景花纹的干扰影响，从而减少漏识别和错识别，从而提高识别准确率，最终大大提高识别效果。

针对上述问题，本发明首先提供了一种OCR图像识别装置，用于基于深度学习对卡证图像进行识别，包括：输入模块，用于获取待处理的卡证图像；分类模块，用于采用深度学习的分类网络对所述卡证图像进行分类处理，以获取所述卡证图像中的目标区域；检测模块，用于对所述目标区域进行特征提取处理，获取所述目标区域的特征数据；识别模块，用于对所述特征数据进行识别处理。由于增加了分类模块，后续仅对卡证号码所在区域进行检测和识别，从而通过识别卡号信息就可以自动识别出银行名字、银行卡类型等，因此，无需对整个银行卡上的信息进行识别，而仅是对卡号区域进行识别，这样既可以减少识别所用的时间，提高识别速度，从而提高识别效率；又可以免受背景花纹的干扰影响，从而减少漏识别和错识别，从而提高识别准确率，最终大大提高识别效果，提高了用户的体验效果。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参考图2所示，本实施例提供了一种OCR图像识别装置，用于基于深度学习对卡证图像进行识别，包括：

输入模块100，用于获取待处理的卡证图像；

分类模块200，用于采用深度学习的分类网络对所述卡证图像进行分类处理，以获取所述卡证图像中的目标区域；

检测模块300，用于对所述目标区域进行特征提取处理，获取所述目标区域的特征数据；

识别模块400，用于对所述特征数据进行识别处理，获取识别信息。

本实施例提出了结合图像形态学和深度学习技术实现卡证图像的识别，可以有效提高卡证图像的卡号检测与识别的准确性和效率。

本实施例中所述待处理的卡证图像是银行卡图像，还可以是身份证图像、银行卡图像、发票图像、工作证图像、学生证图像、护照图像或驾驶证图像等其它的卡证图像。

所述待处理的卡证图像中包括需识别的卡证号码，该卡证号码可以包括文字、数字和字母中的一种或多种任意组合，通过识别卡证号码就可以获取对应的卡证上的基本信息。

本实施例所述分类模块通过卡证类图像标注目标区域和背景区域训练分类模型，通过该模型处理将所述卡证图像分为背景区域和目标区域，其中待识别的卡证号码所在区域就是目标区域，其它是背景区域。

具体地，所述分类模块采用的网络可以由五层卷积组成，该网络结构主要用于获得目标区域的检测框和边界框的回归向量，并用该边界框做回归校准，然后通过非极大值抑制(NMS)来合并高度重叠的检测框去除部分多余背景框。

此外，所述装置还可以包括：卷积采样模块，用于在进行特征提取处理之前，对所述图像进行2～6次卷积采样。即：本实施例在进行分类处理之前，还可以对所述待处理的卡证图像进行6～10次卷积采样，如：6次、7次、8次、9次和10次，其作用在于提取目标域特征和背景区域特征进行分类。发明人经过创造性劳动发现：当卷积采样的次数太少时，目标域特征信息丢失；当卷积采样的次数太多时，在训练过程中损失函数浮动比较大，严重时会出现过拟合现象。

需要说明的是，此处的卷积采样并不同于现有技术中对待处理图像的预处理，本实施例在整个处理过程中无需对待处理的卡证图像进行预处理，就能够识别倾斜、模糊以及背景干扰的卡证图像。

本实施例中所述检测模块依次可以包括：

深度可分离卷积处理单元；

具有线性瓶颈的倒残差结构的深度学习单元；

基于squeeze and excitation结构的轻量级注意力深度学习单元。

所述深度可分离卷积处理单元对所述目标区域进行深度可分离卷积处理(Depthwise Separable Convolution)。

所述深度可分离卷积将传统卷积的两步进行分离开来，分别是深度(depthwise，DW)卷积和逐点(pointwise，PW)卷积：首先按照通道进行计算按位相乘的计算，此时通道数不改变；然后依然得到将第一步的结果，使用1*1的卷积核进行传统的卷积运算，此时通道数可以进行改变。使用了深度可分离卷积，其计算量为DK*DK*M*DF*DF+1*1*M*N*DF*DF。其中：DF为特征图尺寸，DK为卷积核尺寸，M为输入通道数，N为输出通道数。通过深度可分离卷积，计算量将会下降1/N+1/D²K，当DK＝3时，深度可分离卷积比传统卷积少8到9倍的计算量。

本实施例深度可分离卷积处理中卷积的层数范围可以为10～20层，如：10层、12层、15层、17层或20层等。发明人经过创造性劳动发现：当选择的层数太少时，目标区域的文字或者数字、字母等信息提取特征不明显；当选择的层数太多时，在训练时增加权重参数会影响检测速度。

所述具有线性瓶颈的倒残差结构的深度学习单元对深度可分离卷积处理后的目标区域继续进行处理。

本实施例中具有线性瓶颈的倒残差结构的深度学习模型中网络的层数范围可以为7～15层，如：7层、9层、10层、12层或15等。发明人经过创造性劳动发现：当选择的层数太少时，倒残差网络结构从深度可分离卷积输出特征中进一步提取图像特征信息会有大量的损失；当选择的层数太多时，损失函数出现NaN导致梯度值过大，容易产生梯度爆炸。

所述基于squeeze and excitation(SE)结构的轻量级注意力深度学习单元对具有线性瓶颈的倒残差结构的深度学习单元输出区域继续进行处理为了保留了更多的目标域图像特征，通过学习模型(SE)对具有线性瓶颈的倒残差结构的深度学习单元生成背景区域进行进一步选择和调整，从而达到高精度过滤背景区域并保留目标区域优化的效果。

此外，所述检测模块还用于在进行特征提取处理的过程中进行特征融合处理，所述特征融合处理采用空洞卷积方式实现。即：本实施例在进行特征提取处理的过程中还可以进行特征融合处理，其中上采样采用空洞卷积方式实现特征融合，其作用在于增加卷积网络感受野，且上采样以后卷积进行特征金字塔操作以能够提取各维卡证图像的卡证特征信息。

具体地，所述特征融合处理中针对卷积采样可以任选1层，针对深度可分离卷积处理中可以任选2层。

依次经过上述的处理，就获取了目标区域的特征数据，即完成了检测的过程。

本实施例中检测模块仅使用了1200张训练数据集就完成了目标区域的检测，并且可以准确检测输入的任意倾斜图像。而现有技术中VGG或残差网络实现的检测，需要上百万的训练数据集才能检测到特征区域，这些训练数据集标注起来会浪费大量的人力、财力和物力等。

具体地，所述识别模块依次包括：

密集连接的卷积网络单元；

二维自注意力单元。

其中，所述密集连接的卷积网络单元基于DenseNet(密集卷积网络)模型对提取的特征信息数据进行处理。

DenseNet模型改变了传统网络反向传递时的梯度传播方式，由线性变成树状反向，这样的好处就在于减少了梯度消失的可能，并且加速训练，有利于更深层网络的训练。密集的网络结构有类似正则功能，在小数据集合上能更好地避免过拟合，每个层的输入input包括之前所有层的信息，通过将前面N多个层的特征组合起来，形成对特征更丰富的描述和判别。

本实施例中可以选择双向长短期记忆网络单元(双向LSTM)对所述密集连接的卷积网络单元的处理结果继续进行处理。

需要说明的是，在其它实施例中还可以采用单向长短期记忆网络单元(单向LSTM)、门控循环神经网络单元(GRU)或循环神经网络单元(RNN)对所述密集连接的卷积网络单元的处理结果继续进行处理。

然后，继续采用二维自注意力单元(2D Self-Attention)对双向LSTM单元的处理结果继续进行处理。

本实施例中检测模块根据检测得到的目标区域把对应的待识别区域剪切出来进行文字识别。由于剪切可以是任意方向，为了提高倾斜的目标区域识别效果，具体可以基于DenseNet模型、双向LSTM、2D Self-Attention组合形成识别模型。该识别模型高鲁棒性，不需要对输入图像校正和去除背景干扰也可以准确对目标区域的文本进行识别。

与现有技术中由双向LSTM和CTC组成的识别模型相比，传统识别模型针对任意倾斜图像识别效率低，一般研究人员需要进行一些角度矫正的预处理进行识别，但是本实施例中识别模型不需要对进行图像校正也能提高识别率。

当需要获取的信息仅为目标区域对应的卡证号码信息时，则整个卡证图像识别过程结束，后续就是对识别的信息进行具体的应用。

但是当需要获取的信息还包括目标区域之外的其它卡证辅助信息时，所述装置还可以包括：

存储模块，用于预设卡证辅助信息与识别信息的映射关系；

所述卡证辅助信息是指根据识别出的卡证信息能够推导出的信息，而映射关系就是推导依据。如：当待处理的卡证图像为银行卡图像时，卡证辅助信息可以包括银行名字、银行卡类型等；当待处理的卡证图像为身份证图像时，卡证辅助信息可以包括持证人的发证机关、籍贯地、性别、出生年月日等信息。

所述映射关系则是在设置卡证号码时遵循的编排规则。以第二代身份证为例，其共18位，其中前面6位数字为地址码(如：河北省正定县为130123)，据此能获知住址信息；紧接着的8位数字为出生日期码，据此能获知出生年月日；紧接着的3位数字为顺序码，顺序码的奇数为男性，偶数为女性，据此能获知性别；校验码是根据前面17位数字码，按照ISO7064:1983.MOD 11-2校验码计算出来的校验码。

不同卡证对应的映射关系可以完全不同，从而即使识别出的卡证号码相同也可以得出不同的卡证辅助信息。

本实施例在获取待处理的卡证图像后，先采用深度学习的分类网络对所述卡证图像进行分类处理，获取所述卡证图像中的目标区域；再对目标区域进行特征提取处理以及识别处理。由于增加了分类处理，使得后续的特征提取处理以及识别处理仅是针对目标区域，无需对整个银行卡上的信息进行识别，从而既可以减少识别所用的时间，提高识别速度，即提高识别效率；又可以免受背景花纹的干扰影响，减少漏识别和错识别，即提高识别准确率，最终大大提高识别效果。此外，本发明技术方案无需对待处理的卡证图像进行预处理，进一步使得识别正确率及效率实现跨越式提升，同时能够识别倾斜、模糊以及背景干扰的卡类图像数字。

由于卡证类背景干扰比较大以及用户输入图像可能是任意形状，影响卡证类数字区域的识别，识别模块依次包括：密集连接的卷积网络单元；单向长短期记忆网络单元、双向长短期记忆网络单元、门控循环神经网络单元或循环神经网络单元；二维自注意力单元，该组合而成的识别模型具有高鲁棒性，不需要对输入图像校正和去除背景干扰也可以准确对卡证图像进行识别。颠覆了当前传统OCR识别装置，使卡证类数字识别正确率、识别效率、识别效果得到提高。

图3(a)和图3(b)是采用本发明实施例装置得到的识别结果示意图，其中图3(a)中背景干扰非常大，图3(b)中图像不仅背景花纹大且倾斜非常严重，但这两种情况下才有本实施例装置均能完全准确识别卡证号码。

经统计分析发现：采用传统OCR识别算法识别单个1024*1024图像时间平均为0.4s左右，识别的准确率约82％；而采用本实施例装置通过运用深度学习分类和更新后的识别技术结合，单个1024*1024图像识别时间平均在0.1s左右，识别的准确率达到92％，识别过程受外界环境的影响程度大大降低。

相应地，本发明实施例还提供了一种电子设备，包括：

图像采集装置，用于采集待处理的卡证图像；

上述的OCR图像识别装置，用于识别所述卡证图像的信息。

具体地，所述图像采集装置可以为摄像头，也可以为其它可以采集卡证图像的装置。

所述OCR图像识别装置的结构、工作过程及有益效果请参考前述方法的实施例，在此不再赘述。

该电子设备既可以提高采集的图像识别效率，又可以提高识别准确率，最终提高用户体验效果。

相应地，本发明实施例还提供了一种自动业务办理系统，包括：

接收装置，用于接收用户输入的信息；

输出装置，用于将所述目标答案输出给所述用户。

其中，所述接收装置可以为语音信息接收设备、文本信息接收设备、手势信息接收设备和触摸信息接收设备中的一种或多种组合，从而用于接收用户输入的语音信息、文本信息、手势信息或触摸信息等。

需要说明的是，当用户输入的是文本之外其它类型的信息时，还需要将其他类型的信息，如：语音、手势或触摸等类型的信息转换为文本信息。

其中，所述语义理解装置可以采用现有任意方式对用户输入的文本信息进行NLU(Natural Language Understanding，自然语言理解)处理。

其中，知识库中存储多个知识点，每个知识点包括一个标准问、多个扩展问和一个答案，所述标准问和所述扩展问均可以采用语义表达式的形式，也可以采用正常语句的形式，其与现有技术相同，在此不再赘述。

需要强调的是，所述答案既可以是文本信息，也可以是音频信息，还可以是视频信息，还可以是其它任意的执行信息(即答案可以对应一个动作)。

其中，所述OCR图像识别装置的结构、工作过程及有益效果请参考前述方法的实施例，在此不再赘述。

其中，所述处理装置则对语义理解装置以及图像识别装置获取的信息进行分析处理，通过语义相似度计算从所述知识库中匹配语义相似度最高的问题，并将所述问题对应的答案作为目标答案。

其中，所述输出装置可以包括文本显示设备、语音输出设备、视频输出设备、打印设备等的一种或多种组合，以完成用户输入的业务自动办理。

本系统既可以提高采集的图像识别效率，又可以提高识别准确率，最终实现业务的自动办理。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种OCR图像识别装置，用于基于深度学习对卡证图像进行识别，其特征在于，包括：

输入模块，用于获取待处理的卡证图像；

2.如权利要求1所述的装置，其特征在于，所述待处理的卡证图像是身份证图像、银行卡图像、发票图像、工作证图像、学生证图像、护照图像或驾驶证图像。

3.如权利要求1所述的装置，其特征在于，所述分类模块采用的网络包括五层卷积，所述目标区域为待识别的卡证号码区域。

4.如权利要求1所述的装置，其特征在于，所述检测模块依次包括：深度可分离卷积处理单元、具有线性瓶颈的倒残差结构的深度学习单元、基于squeeze and excitation结构的轻量级注意力深度学习单元。

5.如权利要求1所述的装置，其特征在于，所述检测模块还用于在进行特征提取处理的过程中进行特征融合处理，所述特征融合处理采用空洞卷积方式实现。

6.如权利要求1所述的装置，其特征在于，所述识别模块依次包括：密集连接的卷积网络单元；

二维自注意力单元。

7.如权利要求1所述的装置，其特征在于，还包括：卷积采样模块，用于在进行特征提取处理之前，对所述图像进行2～6次卷积采样。

8.如权利要求1所述的装置，其特征在于，还包括：

存储模块，用于预设卡证辅助信息与识别信息的映射关系；

9.一种电子设备，其特征在于，包括：

图像采集装置，用于采集待处理的卡证图像；

如权利要求1-8中任一项所述的OCR图像识别装置，用于识别所述卡证图像的信息。

10.一种自动业务办理系统，其特征在于，包括：

接收装置，用于接收用户输入的信息；

如权利要求1-8中任一项所述的OCR图像识别装置，用于识别待处理的卡证图像的信息；

输出装置，用于将所述目标答案输出给所述用户。