CN112329779A

CN112329779A - 一种基于mask提高证件识别准确率的方法和相关装置

Info

Publication number: CN112329779A
Application number: CN202011203299.2A
Authority: CN
Inventors: 张懿; 姜禹; 张国辉; 宋晨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-05
Anticipated expiration: 2040-11-02
Also published as: CN112329779B

Abstract

本发明公开了一种基于mask提高证件识别准确率的方法和相关装置。方法包括：将待识别文本图像输入至训练好的证件文本识别模型中，获取与该待识别文本图像的每列图像特征分别对应的对数概率logits值分布向量；获取与该待识别文本图像对应的字符集，该字符集中包括若干个目标字符，对该对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理；然后利用softmax函数对其进行转换，得到字符类别概率分布向量，其中，掩膜处理过的logits值经过softmax函数转换后得到的字符类别概率趋近于0；最后基于各个字符类别概率分布向量确定该待识别文本图像的文本信息。通过上述方式，避免将待识别文本中不可能涉及的非目标字符识别出来，能够显著提升证件文本识别模型的识别精度。

Description

一种基于mask提高证件识别准确率的方法和相关装置

技术领域

本发明涉及图像识别技术领域，特别是涉及一种基于mask提高证件识别准确率的方法和相关装置。

背景技术

在采用OCR(光学字符识别)技术识别海外身份证项目中，因为数据安全问题，可以用来训练的海外身份证样本非常有限，无法完全覆盖真实场景下的海外身份证识别。为了解决该问题，现有技术采用样本增强技术进行补充训练，由于通过数据增强技术生成的样本相比较于真实样本过于清晰，图像信号质量也过好，使得依然无法有效提升模型的鲁棒性。这导致在某些场景下，比如模糊或者光斑时，模型无法准确区分大写字母O和数字0，大写字母Z和数字2等，即对形状相近字符的识别准确率较低。

发明内容

基于此，本发明提供了一种基于mask提高证件识别准确率的方法和相关装置，以解决现有OCR识别技术在某些场景下无法准确识别形状相近字符的问题。

一种基于mask提高证件识别准确率的方法，所述方法包括：

构建证件文本识别模型，并对所述证件文本识别模型进行训练，其中，所述证件文本识别模型包括卷积神经网络和长短时记忆神经网络；

将待识别文本图像输入至训练后的卷积神经网络中进行特征提取，得到所述待识别文本图像的图像特征序列；

将所述图像特征序列输入至训练后的长短时记忆神经网络中进行预测，得到与所述图像特征序列中每列图像特征分别对应的对数概率logits值分布向量；

获取与所述待识别文本图像对应的字符集，所述字符集中包括若干个目标字符，对所述对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理；

利用softmax函数对掩膜处理后的对数概率logits值分布向量进行转换，得到与所述图像特征序列中每列图像特征分别对应的字符类别概率分布向量，其中，掩膜处理过的logits值经过所述softmax函数转换后得到的字符类别概率趋近于0；

基于各个所述字符类别概率分布向量确定所述待识别文本图像的文本信息。

在其中一个实施例中，所述对所述对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理，包括：

将所述对数概率logits值分布向量中非目标字符对应的logits值替换为无穷小值。

在其中一个实施例中，所述对所述证件文本识别模型进行训练，包括：

获取待训练证件图像，对所述待训练证件图像进行文本定位，获取待训练文本的位置信息；

根据所述待训练文本的位置信息从所述待训练证件图像中截取所述待训练文本所在区域作为待训练文本图像；

将所述待训练文本图像输入至卷积神经网络中进行特征提取，获取待训练图像特征序列；

将所述待训练图像特征序列输入至长短时记忆神经网络中进行训练，获取长短时记忆神经网络的输出值；

根据所述长短时记忆神经网络的输出值，采用时序分类算法和模型优化算法更新卷积神经网络-长短时记忆神经网络的网络参数。

在其中一个实施例中，所述方法还包括：获取所述待识别文本图像；

所述获取所述待识别文本图像，包括：

获取原始证件图像，所述原始证件图像对应一证件类型；

对所述原始证件图像进行预处理，获取待识别证件图像；

对所述待识别证件图像进行文本定位，获取待识别文本的位置信息；

基于所述待识别文本的位置信息从所述待识别证件图像中截取所述待识别文本所在区域作为所述待识别文本图像。

在其中一个实施例中，所述获取与所述待识别文本图像对应的字符集，包括：

根据所述待识别文本的位置信息，从与所述证件类型对应的证件图像模板中确定所述待识别文本图像的项目属性；

根据所述项目属性确定与所述待识别文本图像中的待识别文本对应的字符类别；

基于所述字符类别生成与所述待识别文本图像对应的字符集。

在其中一个实施例中，所述对所述原始证件图像进行预处理，获取待识别证件图像，包括：

对所述原始证件图像进行灰度化处理，获取灰度图像；

对所述灰度图像进行透视变换处理，获取矫正图像；

对所述矫正图像进行锐化处理，获取锐化图像；

对所述锐化图像进行二值化处理，获取待识别证件图像。

在其中一个实施例中，所述基于各个所述字符类别概率分布向量确定所述待识别文本图像的文本信息，包括：

将所述字符类别概率分布向量中最大字符类别概率所对应的字符类别作为对应图像特征的识别结果；

基于各个识别结果生成所述待识别文本图像的文本信息。

一种基于mask提高证件识别准确率的装置，所述装置包括：

模型获取模块，用于构建证件文本识别模型，并对所述证件文本识别模型进行训练，其中，所述证件文本识别模型包括卷积神经网络和长短时记忆神经网络；

特征提取模块，用于将待识别文本图像输入至训练后的卷积神经网络中进行特征提取，得到所述待识别文本图像的图像特征序列；

预测模块，用于将所述图像特征序列输入至训练后的长短时记忆神经网络中进行预测，得到与所述图像特征序列中每列图像特征分别对应的对数概率logits值分布向量；

字符集获取模块，用于获取与所述待识别文本图像对应的字符集，所述字符集中包括若干个目标字符；

掩膜处理模块，用于对所述对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理；

softmax模块，用于利用softmax函数对掩膜处理后的对数概率logits值分布向量进行转换，得到与所述图像特征序列中每列图像特征分别对应的字符类别概率分布向量，其中，掩膜处理过的logits值经过所述softmax函数转换后得到的字符类别概率趋近于0；

确定模块，用于基于各个所述字符类别概率分布向量确定所述待识别文本图像的文本信息。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述基于mask提高证件识别准确率的方法的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述基于mask提高证件识别准确率的方法的步骤。

与现有技术相比，本发明的基于mask提高证件识别准确率的方法和相关装置，通过构建证件文本识别模型，并对所述证件文本识别模型进行训练，其中，所述证件文本识别模型包括卷积神经网络和长短时记忆神经网络；将待识别文本图像输入至训练后的卷积神经网络中进行特征提取，得到所述待识别文本图像的图像特征序列；将所述图像特征序列输入至训练后的长短时记忆神经网络中进行预测，得到与所述图像特征序列中每列图像特征分别对应的对数概率logits值分布向量；获取与所述待识别文本图像对应的字符集，所述字符集中包括若干个目标字符，对所述对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理；利用softmax函数对掩膜处理后的对数概率logits值分布向量进行转换，得到与所述图像特征序列中每列图像特征分别对应的字符类别概率分布向量，其中，掩膜处理过的logits值经过所述softmax函数转换后得到的字符类别概率趋近于0；基于各个所述字符类别概率分布向量确定所述待识别文本图像的文本信息。通过在softmax函数之前，先对对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理，使得经掩膜处理后的logits值再经过softmax函数转换后得到的字符类别概率趋近于0，从而避免将待识别文本中不可能涉及的非目标字符识别出来，因此可以显著提升证件文本识别模型的识别精度，尤其适用于对证件中形状相近字符进行识别。此外，该方法可以与模型的训练过程分离开，因此不影响模型的训练过程，亦不影响模型的广泛通用性，具有较强的推广性。

附图说明

图1是本发明一个实施例基于mask提高证件识别准确率的方法的流程示意图；

图2是图1所示实施例中对证件文本识别模型进行训练的一种方法流程示意图；

图3是图1所示实施例中对原始证件图像进行预处理的一种方法流程示意图；

图4是本发明一个实施例基于mask提高证件识别准确率的方法的结构原理图；

图5是本发明一个实施例基于mask提高证件识别准确率的装置的结构示意图；

图6是本发明一个实施例计算机设备的结构示意图；

图7是本发明一个实施例存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了解决现有OCR识别技术在某些场景下无法准确识别形状相近字符的问题，本发明实施例提供了一种基于mask(掩膜技术)提高证件识别准确率的方法和相关装置。该方法和相关装置可应用在银行、证券、保险等金融机构或者其他机构配置的计算机设备上，用于智能识别证件(如身份证)图像，获取证件文本信息，提高业务办理效率和证件识别准确率。其中，计算机设备通过网络与服务器进行通信。计算机设备可以包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

请参阅图1所示，图1是本发明一个实施例基于mask提高证件识别准确率的方法的流程示意图，以该方法应用在服务器为例进行说明，包括如下步骤：

步骤S101：构建证件文本识别模型，并对该证件文本识别模型进行训练，其中，该证件文本识别模型包括卷积神经网络和长短时记忆神经网络。

在步骤S101中，先构建证件文本识别模型，该证件文本识别模型包括但不限于卷积神经网络和长短时记忆神经网络，其中，卷积神经网络用于提取图像特征，长短时记忆神经网络用于文本序列预测。构建好证件文本识别模型后，利用待训练证件图像对该证件文本识别模型进行训练。

可选的，请参阅图2所示，对该证件文本识别模型进行训练的操作包括如下步骤：

步骤S201：获取待训练证件图像，并采用文本定位模型对该待训练证件图像进行文本定位，获取待训练文本的位置信息。

在步骤S201中，待训练证件图像是根据预先制作好的训练数据生成工具生成的待训练证件图像。训练数据生成工具是预先制作的用于自动生成待训练证件图像，无需人工收集和标注，提高训练效率。可理解，待训练证件图像中的文字是训练数据生成工具按照文字顺序标注好的。

由于后续模型识别时需要对图像中含有文本的区域进行识别，以排除非文本区域的干扰，因此需要先确定待识别文本在待训练证件图像中的位置，如坐标等。可选的，文本定位模型包括但不限于ctpn模型(Connectionist Text Proposal Network，文本检测网络)。ctpn模型是用于进行图像文本定位的常用网络模型，能够准确定位文本在图像中的位置，提高后续模型识别的准确率。具体的，服务器采用文本定位模型对待训练证件图像进行文本定位，以获取N个矩形框以及每一矩形框各顶点位置坐标(即N个矩形框对应的待训练文本位置)。

步骤S202：根据该待训练文本的位置信息从待训练证件图像中截取该待训练文本所在区域作为待训练文本图像。

可选的，在步骤S202中，服务器将待训练文本的位置信息中包括的左上角位置坐标和右下角位置坐标作为定位坐标，并基于定位坐标确定矩形框的长度和宽度，再根据定位坐标、矩形框的长度和宽度对待训练证件图像进行裁剪，将待训练文本所在区域截取出来作为待训练文本图像。

步骤S203：将该待训练文本图像输入至卷积神经网络中进行特征提取，获取待训练图像特征序列。

其中，卷积神经网络(Convolutional Neural Network，CNN)是局部连接网络，相对于全连接网络其最大的特点就是局部连接性和极值共享性。对于一副图像中的某个像素p来说，离像素p越近的像素对其影响也就越大，即局部连接性越大。另外，根据自然图像的统计特性，某个区域的权值也可以用于另一个区域，即权值共享性。权值共享可以理解为卷积核共享，在卷积神经网络(CNN)中，将一个卷积核对给定的图像做卷积运算就可以提取一种待训练图像特征序列，不同的卷积核可以提取不同的待训练图像特征序列。由于卷积神经网络的局部连接性，使得模型的复杂度降低，提高模型训练的效率；并且，由于卷积神经网络的权值共享性，因此卷积神经网络可以并行学习，进一步提高模型训练效率。

待训练图像特征序列是采用卷积神经网络对待训练文本图像进行特征提取所获取到的待训练文本图像对应的图像特征序列或矩阵。卷积神经网络模型包括卷积层和池化层。将待训练文本图像输入卷积神经网络模型中进行训练，通过每一层卷积层的计算，获取每一层的卷积层的输出，卷积层的输出可以通过公式

计算，其中，a_m ^l表示第l层卷积层的第m个顺序标签的输出，即待训练图像特征，z_m ^l表示未采用激活函数处理前的第m个顺序标签(待训练证件图像中预先标注好的)的输出，a_m ^l-1表示l-1层的第m个顺序标签的输出(即第m个顺序标签所对应的待训练证件图像的待训练图像特征)，σ表示激活函数，对于卷积层采用的激活函数σ为ReLu(Rectified Linear Unit，线性整流函数)，相比其他激活函数的效果会更好，*表示卷积运算，W^l表示第l层的卷积核(权值)，b^l表示第l层的偏置。若第l层是池化层，则在池化层采用最大池化的下样采样对卷积层的输出进行降维处理，具体降维公式为

其中，pool是指下采样计算，该下采样计算可以选择最大池化的方法，最大池化实际上就是在m*m的样本中取最大值。

步骤S204：将该待训练图像特征序列输入至长短时记忆神经网络中进行训练，获取长短时记忆神经网络的输出值。

其中，长短时记忆神经(long-short term memory，简称LSTM)网络是一种时间递归神经网络，适合于处理和预测具有时间序列，且时间序列间隔和延迟相对较长的重要事件。长短时记忆神经网络具有输入层、隐藏层和输出层这三层网络结构。其中，输入层是长短时记忆神经网络的第一层，用于接收外界信号，即负责接收原始证件图像。输出层是长短时记忆神经网络的最后一层，用于向外界输出信号，即负责输出长短时记忆神经网络的计算结果。隐藏层是长短时记忆神经网络中除输入层和输出层之外的各层，用于对卷积神经网络提取的待训练图像特征序列进行处理，获取长短时记忆神经网络的计算结果，即长短时记忆神经网络的输出值。可以理解地，采用长短时记忆神经网络进行模型训练增加了待训练证件图像的时序性，以便根据上下文对待训练证件图像进行训练，从而提高了证件文本识别模型的准确率。

步骤S205：根据该长短时记忆神经网络的输出值，采用时序分类算法和模型优化算法更新卷积神经网络-长短时记忆神经网络的网络参数。

其中，卷积神经网络-长短时记忆神经网络的网络参数即为卷积神经网络和长短时记忆神经网络的网络中的权值和偏置。时序分类算法(Connectionist temporalclassificaiotn，简称CTC)，用于解决输入特征和输出标签之间对齐关系不确定的时间序列问题，是一种可以端到端同时优化模型参数和对齐切分的边界的算法。模型优化算法是用于对训练模型进行优化的算法。本实施例中，模型优化算法包括但不限于采用Adam优化算法对训练模型进行优化。Adam(Adaptive Moment Estimation)是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络的网络参数。

具体地，根据长短时记忆神经网络地输出值，先采用时序分类算法的公式构建损失函数Eloss。最后，在获取损失函数Eloss后，通过对Eloss求偏导，获取网络参数的梯度。其中，求偏导的公式为

θ_t为t时刻的网络参数，具体为卷积神经网络和长短时记忆神经网络的网络中的权值和偏置。Δ_t为t时刻网络参数的梯度。然后，基于网络参数的梯度，采用Adam优化算法对卷积神经网络-长短时记忆神经网络的网络参数进行更新，获取证件文本识别模型。其中，Adam优化算法公式为

其中，

m_t和v_t分别是网络参数梯度的一阶矩估计和二阶矩估计；g_t为t时刻的网络参数的梯度；β₁为一阶矩估计指数衰减率，β₁的默认值为0.9；β₂为二阶矩估计指数衰减率，β₂的默认值为0.999；ε为平滑项，ε的默认为10^-8；α为学习率，α的默认值为0.0001。

当证件文本识别模型训练完成后，即可用于识别待识别文本图像中的文本信息。

步骤S102：将待识别文本图像输入至训练后的卷积神经网络中进行特征提取，得到该待识别文本图像的图像特征序列。

在步骤S102中，利用训练后的卷积神经网络对待识别文本图像进行特征提取，获取图像特征序列的过程与前述步骤S203中介绍的过程相似，为简约起见，在此不再赘述。

其中，待识别文本图像通过如下方法获得：先获取原始证件图像，该原始证件图像对应一证件类型；然后对该原始证件图像进行预处理，获取待识别证件图像；再采用文本定位模型对该待识别证件图像进行文本定位，获取待识别文本的位置信息；最后基于该待识别文本的位置信息从待识别证件图像中截取该待识别文本所在区域作为待识别文本图像。

其中，原始证件图像是由计算机设备上的图像采集模块采集到的未经处理的包含证件的图像。证件类型包括但不限于香港身份证、以及以英文字符和数字字符为主的海外身份证。在本实施例中，该原始证件图像具体为香港身份证图像或海外身份证图像。具体的，用户可在计算机设备上的图像采集模型中上传香港身份证图像或海外身份证图像，并从服务器弹出的证件类型列表中选择证件类型，以使服务器获取原始证件图像和证件类型。证件类型列表中包括但不限于香港身份证、A身份证、B身份证、C身份证等(需要说明的是，这里的A、B、C分别指具体的海外国家名称)。本实施例中，图像采集模块包括但不限于相机拍摄或本地上传。

在本实施例中，请参阅图3所示，对原始证件图像进行预处理，获取待识别证件图像，具体包括如下步骤：

S301：对原始证件图像进行灰度化处理，获取灰度图像。

由于原始证件图像中可能包含多种颜色，而颜色本身非常容易受到光照等因素的影响(如反光)，同类的物体颜色有很多变化，所以颜色本身难以提供关键信息，因此需要对原始证件图像进行灰度化处理，获取灰度图像，以排除干扰，减少灰度图像的复杂度和信息处理量。具体地，原始证件图像进行灰度化处理在于，原始证件图像中的每个像素的颜色都是通过R(红)、G(绿)和B(蓝)三个分量决定的，而每个分量有0-255这256种值可取(0最暗标示黑色，255最亮表示白色)。而灰度图像是R、G和B三个分量相同的一种特殊的彩色图像。本实施例种，服务器可直接采用imread函数读取原始证件图像，即可获取灰度图像，可有效降低原始证件图像中包含反光等干扰因素的影响，提供后续模型识别对应的准确率。

S302：对灰度图像进行透视变换处理，获取矫正图像。

由于原始证件图像可能会存在不同程度的倾斜，影响模型识别结果，因此，需对灰度图像进行透视变换(矫正)，该透视变换处理的过程是将原始证件图像投影到一个新的视平面的过程，获取矫正后的矫正图像，可有效降低原始证件图像由于拍摄角度倾斜等干扰因素的影响，提高后续模型识别的准确率。

具体地，透视变换地处理方法包括但不限于采用OpenCv中地perspectiveTransform()函数进行透视变换处理。OpenCv是一个包含大量开源API(接口)的跨平台计算机视觉库，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。

S303：对矫正图像进行锐化处理，获取锐化图像。

为了使图像的边缘、轮廓线以及图像的细节变得清晰，需先对透视后的图像进行锐化处理，获取锐化图像，以去除背景纹路，提高识别准确率。其中，锐化处理的方法包括但不限于采用目前现有技术中常用的拉普拉斯算子、sobel(加权平均差分)算子和Prewitt(平均差分)算子中的任意一种，以sobel算子方法为例，可采用如下公式对透视后的图像对应的像素矩阵M(i,j)进行变换：

A＝|(M(i-1,j-1)+2M(i-1,j)+M(i-1,j-1))-(M(i+1,j-1)+2M(i+1,j)+M(i+1,j+1))|

B＝|(M(i-1,j-1)+2M(i,j-1)+M(i+1,j-1))-(M(i-1,j+1)+2M(i,j+1)+M(i+1,j+1))|

S(i,j)＝A+B

其中，M(i,j)表示矫正图像对应的像素矩阵。i和j代表矩阵的行和列。S(i,j)表示锐化图像对应的像素矩阵，A表示水平方向的卷积后的像素矩阵，B表示垂直方向的卷积后的像素矩阵。

S304：对锐化图像进行二值化处理，获取待识别证件图像。

为了进一步去除图像背景的干扰，需对锐化图像进行二值化处理，获取待识别证件图像。服务器获取锐化图像后，基于锐化图像的采样像素值和预先选取的阈值进行比较，将采样像素值大于或等于该阈值的像素值设为1，小于该阈值的像素值设为0。采样像素值是锐化图像中每一像素点对应的像素值。阈值的大小会影响锐化图像二值化处理的效果，阈值选取合适时，对锐化图像进行二值化处理的效果较好；阈值选取不合适时，会影响锐化图像二值化处理的效果。为了方便操作，简化计算过程，本实施例中的阈值是由开发人员根据经验确定。

在该实施例中，为降低图像复杂度，提高后续模型识别准确率，需对原始证件图像进行灰度化处理，获取灰度图像，减少图像的复杂度和信息处理量。然后，对灰度图像进行透视变换处理，获取矫正图像，可有效降低原始证件图像因拍摄角度倾斜等干扰因素的影响，提高模型识别的准确率。接着，对矫正图像进行锐化处理，获取锐化图像，以去除背景纹路，提高识别准确率。最后，对锐化图像进行二值化处理，获取待识别证件图像，进一步去除图像背景的干扰，提高模型识别的准确率。

其中，“采用文本定位模型对该待识别证件图像进行文本定位，获取待识别文本的位置信息；并基于该待识别文本的位置信息从待识别证件图像中截取该待识别文本所在区域作为待识别文本图像”的操作与前述的待训练文本图像的获取方法相似，为简约起见，在此不再赘述。

结合图4所示，对步骤S102中提取图像特征序列的过程进行举例说明，如图4中所示，将待识别文本图像41输入至训练后的卷积神经网络进行特征提取，得到图像特征序列42，该图像特征序列42中包含若干列图像特征421。

步骤S103：将该图像特征序列输入至训练后的长短时记忆神经网络中进行预测，得到与该图像特征序列中每列图像特征分别对应的对数概率logits值分布向量。

在步骤S103中，利用训练后的长短时记忆神经网络对图像特征序列进行预测，得到与该图像特征序列中每列图像特征分别对应的对数概率logits值分布向量的过程与前述的步骤S204类似，为简约起见，在此不再赘述。

继续结合图4所示，将图像特征序列42输入至训练好的长短时记忆神经网络43中，对于每列图像特征421，经过长短时记忆神经网络43后，均会对应输出与之相对应的对数概率logits值分布向量441，各个对数概率logits值分布向量441共同组成对数概率logits值分布序列44。

需要说明的是，每个对数概率logits值分布向量441中均包含N个logits值。其中，N为训练证件文本识别模型时设置的字符库中的字符总个数。举例说明，某证件类型对应的身份证文本中仅包含数字字符、英文字符、标点符号以及空格，则在训练用于识别该身份证文本的证件文本识别模型时，构建的字符库中包括数字0-9、大写英文字母A-Z、小写英文字母a-z、标点符号、空格，这些字符加起来的总数值即为N值。因此，各个logits值又分别表示为对应列的图像特征被识别为该logits值对应的字符类别的能量值大小，且能量值的设置范围均为-∞～+∞。

步骤S104：获取与该待识别文本图像对应的字符集，该字符集中包括若干个目标字符。

待识别文本图像是从待识别证件图像中截取出来的，其待识别文本中所涉及的字符类别应少于或等于待识别证件图像中所涉及的字符类别。而对于待识别文本图像而言，如果直接对步骤S103中获得的结果进行softmax转换处理，就会存在将不可能出现在该待识别文本中的字符类别识别出来。比如，待识别文本为英文名称时，人在肉眼识别该类型待识别文本时，就会知道该待识别文本中不应该出现数字字符，但是模型在识别时并没有被告知该先验知识，因此，有可能会得到识别结果中包括数字，比如将字母Z或z识别为数字2，导致识别精度降低。

因此，在该步骤S104中，将待识别文本图像对应的字符集确定下来，然后再将步骤S103中获得的结果中不包含在该字符集中的字符类别所对应的logits值进行掩膜处理(mask)，使其经过softmax函数转换后得到的概率值趋近于0，从而实现避免将不可能出现在该待识别文本中的字符类别识别出来的目的。继续假设待识别文本为英文名称时，其所涉及的字符类别仅包含英文字符和空格，则构建的关于该待识别文本图像的字符集中应包括大写英文字母A-Z、小写英文字母a-z和空格。那么，对于步骤S103获得的结果中，像数字字符0-9以及标点符号对应的logits值就需要进行掩膜处理，使其经过softmax函数转换后得到的概率值趋近于0。

可选的，在步骤S104中，获取与该待识别文本图像对应的字符集的方法具体包括：先根据待识别文本的位置信息，从与证件类型对应的证件图像模板中确定该待识别文本图像的项目属性；然后根据项目属性确定与待识别文本图像中的待识别文本对应的字符类别；最后基于字符类别生成与该待识别文本图像对应的字符集。

其中，证件图像模板是预先采集香港身份证或者海外身份证图像，并对香港身份证图像或海外身份证图像中每一行文本区域对应的项目属性进行标注(即标注所包含字符类别)所创建的模板。例如香港身份证图像中第一行文本区域对应的项目属性为证件中文名称(香港永久性居民身份证)、第二行文本区域对应的项目属性为证件中文名称(HONGKONG PERMANENT IDENTITY CARD)、第三行文本区域对应的项目属性为中文姓名、……。项目属性是指香港身份证图像中每一行文本区域对应的字段(如中文姓名、出生日期以及证件号码等)。

其中，项目属性的获取方法可通过先获取待识别文本图像在待识别证件图像中的行标识信息(即第几行)，然后再根据行标识信息从证件图像模板中确定其项目属性。可选的，行标识信息可以通过对比坐标方式获得，如获取到的两个矩形框，假设以其中一个矩形框的左上角为原点，则该矩形框的左下角的坐标为(0，-3)，则另一矩形框的左下角坐标为(0，-4)，则可认定(0，-4)对应的矩形框为第二行，而(0，-3)对应的矩形框为第一行。本实施例中，采用对比坐标方式确定待识别文本图像对应的行标识，计算简单且计算量少，有利于提升识别速率。

当确定项目属性后，即可获知与该项目属性对应的字符类别。例如，当证件类型为香港身份证，项目属性为出生日期时，则其对应的字符类别包括数字字符0-9、空格、标点符号“-”。最后再基于这些字符类别生成对应的字符集。

本实施例中，为了与训练证件识别模型时构建的字库库中的字符类别进行区别，将步骤S104中获取的字符集中所保护的各个字符类别均标记为目标字符。

步骤S105：对各个对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理。

softmax函数为归一化函数，其公式为

其中，y_i和y_j为logits值，N为每个对数概率logits值分布向量中的logits值总个数，i和j均介于1到N之间(包括1和N)。从公式中可以看出，经过softmax函数转换后，会将各个logits值的范围从(-∞～+∞)转换为(0～1)。为了能够使非目标字符对应的logits值经softmax函数转换后趋近于0，可选的，在本实施例中，将各个对数概率logits值分布向量中非目标字符对应的logits值替换为无穷小值，如e^-9，替换后再经过softmax函数转换，就会得到趋近于0的概率值，从而实现了避免将非目标字符识别出来的效果。

此外，由于本实施例提供的提高证件识别准确率的方法是在证件文本识别模型预测结果后进行的改进，没有影响到模型的训练过程，即无需对模型训练代码进行修改调整，因此，具有较强的推广性。

步骤S106：利用softmax函数对掩膜处理后的对数概率logits值分布向量进行转换，得到与图像特征序列中每列图像特征分别对应的字符类别概率分布向量，其中，掩膜处理过的logits值经过softmax函数转换后得到的字符类别概率趋近于0。

承接步骤S103中的举例说明，经过softmax函数转换后，得到与图像特征序列中每列图像特征421分别对应的字符类别概率分布向量451，各个字符类别概率分布向量451共同组成字符类别概率分布序列45。

经过步骤S105中的陈述可知，在该字符类别概率分布序列45中，非目标字符所对应的概率值均趋近于0。

步骤S107：基于各个字符类别概率分布向量确定待识别文本图像的文本信息。

在步骤S107中，将每个字符类别概率分布向量中最大字符类别概率所对应的字符类别作为对应图像特征的识别结果；然后基于各个识别结果生成最终的待识别文本图像的文本信息。

其中，基于各个识别结果生成最终的待识别文本图像的文本信息的过程可以使用本领域中任何合适的方法实现。

需要说明的是，在本实施例中，仅以一个待识别文本图像为例，依次介绍了特征提取、序列预测、掩膜处理以及softmax转换等操作，以实现提高证件识别准确率的目的。在本发明的其他实施例中，从待识别证件图像中可同时截取多个待识别文本图像，并同时对该多个待识别文本图像进行特征提取、序列预测、掩膜处理以及softmax转换等操作，最终生成该待识别证件图像的证件文本信息。以使业务人员在使用业务系统为用户办理业务时，无需手动输入用户身份信息，提高业务办理效率且有效避免人工操作失误的问题。

图1所示实施例的基于mask提高证件识别准确率的方法通过构建证件文本识别模型，并对该证件文本识别模型进行训练，其中，该证件文本识别模型包括卷积神经网络和长短时记忆神经网络；将待识别文本图像输入至训练后的卷积神经网络中进行特征提取，得到该待识别文本图像的图像特征序列；将该图像特征序列输入至训练后的长短时记忆神经网络中进行预测，得到与该图像特征序列中每列图像特征分别对应的对数概率logits值分布向量；获取与该待识别文本图像对应的字符集，该字符集中包括若干个目标字符；对各个对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理；利用softmax函数对掩膜处理后的对数概率logits值分布向量进行转换，得到与图像特征序列中每列图像特征分别对应的字符类别概率分布向量，其中，掩膜处理过的logits值经过softmax函数转换后得到的字符类别概率趋近于0；基于各个字符类别概率分布向量确定待识别文本图像的文本信息。通过在softmax函数之前，先对对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理，使得经掩膜处理后的logits值再经过softmax函数转换后得到的字符类别概率趋近于0，从而避免将待识别文本中不可能涉及的非目标字符识别出来，因此可以显著提升证件文本识别模型的识别精度，尤其适用于对证件中形状相近字符进行识别。此外，该方法可以与模型的训练过程分离开，因此不影响模型的训练过程，亦不影响模型的广泛通用性，具有较强的推广性。

图5是本发明一个实施例基于mask提高证件识别准确率的装置的结构示意图。如图5所示，该装置50包括模型获取模块51、特征提取模块52、预测模块53、字符集获取模块54、掩膜处理模块55、softmax模块56以及确定模块57。

其中，模型获取模块51用于构建证件文本识别模型，并对证件文本识别模型进行训练，其中，证件文本识别模型包括卷积神经网络和长短时记忆神经网络。

特征提取模块52与模型获取模块51耦接，用于将待识别文本图像输入至训练后的卷积神经网络中进行特征提取，得到待识别文本图像的图像特征序列。

预测模块53与特征提取模块52以及模型获取模块51均耦接，用于将图像特征序列输入至训练后的长短时记忆神经网络中进行预测，得到与图像特征序列中每列图像特征分别对应的对数概率logits值分布向量。

字符集获取模块54，用于获取与待识别文本图像对应的字符集，该字符集中包括若干个目标字符。

掩膜处理模块55与字符集获取模块54以及预测模块53耦接，用于对各个对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理。

softmax模块56与掩膜处理模块55耦接，用于利用softmax函数对掩膜处理后的对数概率logits值分布向量进行转换，得到与图像特征序列中每列图像特征分别对应的字符类别概率分布向量，其中，掩膜处理过的logits值经过softmax函数转换后得到的字符类别概率趋近于0。

确定模块57与softmax模块56耦接，用于基于各个字符类别概率分布向量确定该待识别文本图像的文本信息。

可选的，掩膜处理模块55对各个对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理的操作可以为：将各个对数概率logits值分布向量中非目标字符对应的logits值替换为无穷小值。

可选的，模型获取模块51对证件文本识别模型进行训练的操作可以为：获取待训练证件图像，对所述待训练证件图像进行文本定位，获取待训练文本的位置信息；根据所述待训练文本的位置信息从所述待训练证件图像中截取所述待训练文本所在区域作为待训练文本图像；将所述待训练文本图像输入至卷积神经网络中进行特征提取，获取待训练图像特征序列；将所述待训练图像特征序列输入至长短时记忆神经网络中进行训练，获取长短时记忆神经网络的输出值；根据所述长短时记忆神经网络的输出值，采用时序分类算法和模型优化算法更新卷积神经网络-长短时记忆神经网络的网络参数。

可选的，该装置50还包括图像获取模块，用于获取待识别文本图像。

可选的，该图像获取模块获取待识别文本图像的操作可以为：获取原始证件图像，所述原始证件图像对应一证件类型；对所述原始证件图像进行预处理，获取待识别证件图像；对所述待识别证件图像进行文本定位，获取待识别文本的位置信息；基于所述待识别文本的位置信息从所述待识别证件图像中截取所述待识别文本所在区域作为所述待识别文本图像。

可选的，图像获取模块对原始证件图像进行预处理，获取待识别证件图像的操作可以为：对所述原始证件图像进行灰度化处理，获取灰度图像；对所述灰度图像进行透视变换处理，获取矫正图像；对所述矫正图像进行锐化处理，获取锐化图像；对所述锐化图像进行二值化处理，获取待识别证件图像。

可选的，字符集获取模块54获取与待识别文本图像对应的字符集的操作可以为：根据所述待识别文本的位置信息，从与所述证件类型对应的证件图像模板中确定所述待识别文本图像的项目属性；根据所述项目属性确定与所述待识别文本图像中的待识别文本对应的字符类别；基于所述字符类别生成与所述待识别文本图像对应的字符集。

可选的，确定模块57基于各个字符类别概率分布向量确定该待识别文本图像的文本信息的操作可以包括：将所述字符类别概率分布向量中最大字符类别概率所对应的字符类别作为对应图像特征的识别结果；基于各个识别结果生成所述待识别文本图像的文本信息。

请参阅图6，图6为本发明一个实施例计算机设备的结构示意图。如图6所示，该计算机设备60包括处理器61及和处理器61耦接的存储器62。存储器62中存储有计算机可读指令，该计算机可读指令被处理器61执行时，使得处理器61执行上述的基于mask提高证件识别准确率的方法的步骤。

其中，处理器61还可以称为CPU(Central Processing Unit，中央处理单元)。处理器61可能是一种集成电路芯片，具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图7，图7为本发明一个实施例的存储介质的结构示意图。该存储介质70中存储有计算机可读指令71，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述的基于mask提高证件识别准确率的方法的步骤。其中，该计算机可读指令71可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质70包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于mask提高证件识别准确率的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述对数概率logits值分布向量中非目标字符对应的logits值进行掩膜处理，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述证件文本识别模型进行训练，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述待识别文本图像；

所述获取所述待识别文本图像，包括：

获取原始证件图像，所述原始证件图像对应一证件类型；

对所述原始证件图像进行预处理，获取待识别证件图像；

5.根据权利要求4所述的方法，其特征在于，所述获取与所述待识别文本图像对应的字符集，包括：

6.根据权利要求4所述的方法，其特征在于，所述对所述原始证件图像进行预处理，获取待识别证件图像，包括：

对所述原始证件图像进行灰度化处理，获取灰度图像；

对所述灰度图像进行透视变换处理，获取矫正图像；

对所述矫正图像进行锐化处理，获取锐化图像；

对所述锐化图像进行二值化处理，获取待识别证件图像。

7.根据权利要求1所述的方法，其特征在于，所述基于各个所述字符类别概率分布向量确定所述待识别文本图像的文本信息，包括：

基于各个识别结果生成所述待识别文本图像的文本信息。

8.一种基于mask提高证件识别准确率的装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述的基于mask提高证件识别准确率的方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述的基于mask提高证件识别准确率的方法的步骤。