CN113111882B

CN113111882B - 一种卡证识别方法、装置、电子设备及存储介质

Info

Publication number: CN113111882B
Application number: CN202110210167.0A
Authority: CN
Inventors: 张霞; 梁宇海; 颜鑫; 王闫若显; 任多
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-12-20
Anticipated expiration: 2041-02-24
Also published as: CN113111882A

Abstract

本发明提供一种卡证识别方法、装置、电子设备及存储介质，该方法包括：对卡证图片进行光学字符识别分析，得到卡证短文本数据；将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息；其中，所述训练好的卡证识别模型是根据携带卡证类别标签的卡证短文本样本数据训练得到的。本申请使用OCR技术，对上传的卡证图片集进行文字及其坐标提取，把提取到的文字进行拼接，形成短文本数据集，并通过训练好的卡证识别模型进行推理，取概率值最大的类别作为该卡证图片的识别类别。该方法高效、准确，有效地补充了该领域的实现方案。

Description

一种卡证识别方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种卡证识别方法、装置、电子设备及存储介质。

背景技术

随着无纸化办公的发展，人们通过拍照上传卡片证件进行办理业务越来越普及。这要求处理多种业务的复杂系统必须具备识别分类卡证图片的能力。

在现有的技术中，通常直接对卡证图片进行分类，由于图片容易受明暗、角度、噪声、色彩等等因素的影响，识别困难。而且准确率高的深度学习模型往往因计算复杂度高导致推理低效。

因此如何更好的实现卡证类别的识别，已经成为业界亟待解决的问题。

发明内容

本发明提供及一种卡证识别方法、装置、电子设备及存储介质，用以解决现有技术中无法很好的实现卡证类别的识别的问题。

本发明提供一种卡证识别方法，包括：

对卡证图片进行光学字符识别分析，得到卡证短文本数据；

将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息；

其中，所述训练好的卡证识别模型是根据携带卡证类别标签的卡证短文本样本数据训练得到的。

根据本发明提供的一种卡证识别方法，对卡证图片进行光学字符识别分析，得到卡证短文本数据的步骤，具体包括：

对所述卡证图片进行字符检测，得到各个字符的区域坐标信息；

根据所述区域坐标信息进行字符的区域特征提取，得到各个字符的区域特征向量；

根据字符识别算法对所述各个字符的区域特征向量进行分类识别，得到各个字符信息；

根据各个所述字符信息及其对应区域坐标信息，得到卡证短文本数据。

根据本发明提供的一种卡证识别方法，在将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息的步骤之前，所述方法还包括：

获取各个卡证短文本样本数据和各个卡证短文本样本数据对应的卡证类别标签；

将每个卡证短文本样本数据进行文本向量化处理，得到文本样本词矩阵；

将每个卡证短文本样本数据对应的文本样本词矩阵和卡证类别标签作为一个训练样本；

获取多个训练样本，利用多个训练样本对预设神经网络进行训练。

根据本发明提供的一种卡证识别方法，所述利用多个训练样本对预设神经网络进行训练的步骤，具体包括：

对于任意一个训练样本，将所述训练样本输入预设神经网络，输出所述训练样本对应的分类概率；

利用预设损失函数根据所述训练样本对应的分类概率和所述训练样本中的卡证类别标签计算损失值；

若所述损失值小于预设阈值，则停止训练，得到训练好的卡证识别模型。

根据本发明提供的一种卡证识别方法，根据各个所述字符信息及其对应区域坐标信息，得到卡证短文本数据的步骤，具体包括：

将所述字符信息按照从左到右、从上到下的坐标顺序拼接，得到卡证短文本数据。

根据本发明提供的一种卡证识别方法，在所述对所述卡证图片进行字符检测的步骤之前，所述方法还包括：

获取原始卡证图片；

对所述原始卡证图片进行图像二值化处理、图像噪声去除和图像倾斜校正处理，得到预处理后的卡证图片。

本发明还提供一种卡证识别装置，包括：

分析模块，用于对卡证图片进行光学字符识别分析，得到卡证短文本数据；

识别模块，用于将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息；

所述分析模块，具体用于：

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述卡证识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述卡证识别方法的步骤。

本发明提供的一种卡证识别方法、装置、电子设备及存储介质，使用OCR技术，对上传的卡证图片集进行文字及其坐标提取，把提取到的文字进行拼接，形成短文本数据集，并通过训练好的卡证识别模型进行推理，取概率值最大的类别作为该卡证图片的识别类别。该方法高效、准确，有效地补充了该领域的实现方案。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的卡证识别方法的流程示意图；

图2为本发明实施例中所描述的卡证识别模型结构示意图；

图3为本发明实施例提供的短文本拼接示例图；

图4为本发明实施例提供的OCR坐标文字提取流程图；

图5为本发明提供的卡证识别装置示意图；

图6为本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的卡证识别方法的流程示意图，如图1所示，包括：

步骤S1，对卡证图片进行光学字符识别分析，得到卡证短文本数据；

具体的，本发明实施例中所描述的卡证图片具体可以是指卡片证件的图片，例如身份证图片、居民社保卡图片或者医保卡图片等等，也就是说本申请中的卡证图片可能会归于多种不同的卡证类型。

本申请中对卡证图片进行光学字符识别分析是为了有效识别出卡证图片中的文字信息，进而根据其文字信息来对其进一步判断其卡证类别。

本申请中在进行光学字符识别分析的过程中，不仅仅识别文本，同时还记录每个文本的位置坐标。

本发明实施例中所描述的卡证短文本数据可以是指根据文本的位置坐标和文本信息构建的文件向量矩阵。

步骤S2，将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息；

本发明实施例中所描述的卡证类别标签是指用于标记其卡证类别的标签信息。

本申请中所描述的每个卡证短文本原本训练数据都会存在一个对应的卡证类别标签。

本申请中所描述的训练好的卡证识别模型是基于TextCNN模型训练得到的。

本申请中训练好的卡证识别模型，可以根据输入的卡证短文本数据，输出其对应的卡证类别信息，从而实现卡证识别。

本发明实施例使用光学字符识别(Optical Character Recognition；OCR)技术，对上传的卡证图片集进行文字及其坐标提取，把提取到的文字进行拼接，形成短文本数据集，并通过训练好的卡证识别模型进行推理，取概率值最大的类别作为该卡证图片的识别类别。该方法高效、准确，有效地补充了该领域的实现方案。

基于上述任一实施例，对卡证图片进行光学字符识别分析，得到卡证短文本数据的步骤，具体包括：

本申请中所描述的对卡证图片进行字符检测，得到有字符的区域坐标，根据该坐标，对检测到的字符区域进行特征提取，使用字符识别算法对当前字符提取的特征向量进行分类，识别出字符，得到各个字符信息。

本申请中在识别得到各个字符信息后，在结合各个字符对应的区域坐标信息，生成卡证短文本数据，将其整理输出为XML文档。

本发明中通过对于卡证图片的字符检测，从而有效获取卡证图片对应的卡证短文本数据，可以有利于后续对于卡证类别的判断。

基于上述任一实施例，在将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息的步骤之前，所述方法还包括：

图2为本发明实施例中所描述的卡证识别模型结构示意图，如图2所示，本发明中所描述将每个卡证短文本样本数据进行文本向量化处理，得到文本样本词矩阵，具体可以是利用预训练好的word2vec模型对短文本text＝{word1,word2,word3,…}进行向量化，得到文本词向量矩阵[v1,v2,v3,…]；

将每个卡证短文本样本数据对应的文本样本词矩阵和卡证类别标签作为一个训练样本，获取多个训练样本。

所述利用多个训练样本对预设神经网络进行训练的步骤，具体包括：

文本词向量矩阵[v1,v2,v3,…]输入到神经网络模型中，对文本词向量矩阵进行卷积操作，采用网络设定卷积核数量为1024，卷积核感受野高度为[2,3,4]，各种卷积核卷积后得到尺寸为[32,99,1024]、[32,98,1024]、[32,97,1024]的张量；

在得到卷积结果后，利用1-max-pooling进行池化操作，得到3个尺寸为[32,1024]的矩阵向量；

对3个矩阵向量进行横向拼接，得到一个尺寸大小为[32,3072]的矩阵向量，再输入到全连接层，进行dropout，并对最终结果进行softmax函数处理，得到一个概率分布矩阵，代表该卡证图片在各个类别上的概率大小。

该模型中每个训练样本中损失函数为交叉熵损失，定义如下所示：

其中，x_i代表了输出属于该类别的概率值，

代表该类别的真实概率值。

将训练好的TextCNN模型进行保存，最终得到训练好的卡证识别模型。

本申请实施例通过训练样本对于预设神经网络进行训练，从而得到能够有效实现卡证识别的训练好的卡证识别模型。

基于上述任一实施例，根据各个所述字符信息及其对应区域坐标信息，得到卡证短文本数据的步骤，具体包括：

具体的，图3为本发明实施例提供的短文本拼接示例图，如图3所示，本发明实施例中把识别出的字符信息，以“&”符号分隔，按照从左到右、从上到下的坐标顺序拼接，形成短文本。

本发明中将识别出来的字符按照预定规则排列成短文本，可以有利于后续的卡证识别。

基于上述任一实施例，在所述对所述卡证图片进行字符检测的步骤之前，所述方法还包括：

获取原始卡证图片；

具体的，本发明中所描述的原始卡证图片，具体可以是指获取的原始卡证图片，该卡证图片的图片质量可能不佳，会影响卡证识别的准确度，因此本申请中预先对原始卡证图片进行图像预处理，提高卡证图像的图片质量。

本发明中的图像预处理步骤，具体可以包括每一张图片进行图像二值化，噪声去除，倾斜矫正的预处理，从而提升图像质量。

本发明实施例中通过图像预处理，提高卡证图片的质量，有效保证后续卡证识别的准确度。

图4为本发明实施例提供的OCR坐标文字提取流程图，如图4所示，对卡证图片集合{P}内的每一张图片进行图像二值化，噪声去除，倾斜矫正的预处理；对预处理后的卡证图片进行字符检测，得到有字符的区域坐标；根据坐标，对检测到的字符区域进行特征提取；使用字符识别算法对当前字符提取的特征向量进行分类，识别出字符；根据识别出的字符及其坐标，整理输出成xml文档。

图5为本发明提供的卡证识别装置示意图，如图5所示，包括：分析模块510和识别模块520；其中，分析模块510用于对卡证图片进行光学字符识别分析，得到卡证短文本数据；其中，识别模块520用于将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息；其中，所述训练好的卡证识别模型是根据携带卡证类别标签的卡证短文本样本数据训练得到的。

所述分析模块，具体用于：

本发明实施例通过使用OCR技术，对上传的卡证图片集进行文字及其坐标提取，把提取到的文字进行拼接，形成短文本数据集，并通过训练好的卡证识别模型进行推理，取概率值最大的类别作为该卡证图片的识别类别。该方法高效、准确，有效地补充了该领域的实现方案。

图6为本发明提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行卡证识别方法，该方法包括：对卡证图片进行光学字符识别分析，得到卡证短文本数据；将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息；其中，所述训练好的卡证识别模型是根据携带卡证类别标签的卡证短文本样本数据训练得到的。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的卡证识别方法，该方法包括：对卡证图片进行光学字符识别分析，得到卡证短文本数据；将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息；其中，所述训练好的卡证识别模型是根据携带卡证类别标签的卡证短文本样本数据训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的卡证识别方法，该方法包括：对卡证图片进行光学字符识别分析，得到卡证短文本数据；将所述卡证短文本数据输入训练好的卡证识别模型，得到卡证类别信息；其中，所述训练好的卡证识别模型是根据携带卡证类别标签的卡证短文本样本数据训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种卡证识别方法，其特征在于，包括：

对卡证图片进行光学字符识别分析，得到卡证短文本数据；

其中，所述训练好的卡证识别模型是根据携带卡证类别标签的卡证短文本样本数据训练得到的；

其中，对卡证图片进行光学字符识别分析，得到卡证短文本数据的步骤，具体包括：

根据各个所述字符信息及其对应区域坐标信息，得到卡证短文本数据；

其中，所述训练好的卡证识别模型的训练方法具体如下：

利用预训练好的word2vec模型对短文本进行向量化处理，得到文本词向量矩阵；

将每个卡证短文本样本数据对应的文本样本词矩阵和卡证类别标签作为一个训练样本，获取多个训练样本；

将所述文本词向量矩阵输入到神经网络模型中，对文本词向量矩阵进行卷积操作，采用网络设定卷积核数量为1024，卷积核感受野高度为[2,3,4]，各种卷积核卷积后得到尺寸为[32,99,1024]、[32,98,1024]、[32,97,1024]的张量;

对3个矩阵向量进行横向拼接，得到一个尺寸大小为[32,3072]的矩阵向量，再输入到全连接层，进行dropout，并对最终结果进行softmax函数处理，得到一个概率分布矩阵，其中，所述概率分布矩阵代表该卡证图片在各个类别上的概率大小；

利用预设损失函数根据所述概率分布矩阵和所述训练样本中的卡证类别标签计算损失值；

若所述损失值小于预设阈值，则停止训练，得到训练好的卡证识别模型；

2.根据权利要求1所述卡证识别方法，其特征在于，根据各个所述字符信息及其对应区域坐标信息，得到卡证短文本数据的步骤，具体包括：

3.根据权利要求1所述卡证识别方法，其特征在于，在所述对所述卡证图片进行字符检测的步骤之前，所述方法还包括：

获取原始卡证图片；

4.一种卡证识别装置，其特征在于，包括：

其中，所述分析模块，具体用于：

其中，所述训练好的卡证识别模型的训练方法具体如下：

5.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述卡证识别方法的步骤。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述卡证识别方法的步骤。