CN110222695B

CN110222695B - 一种证件图片处理方法及装置、介质、电子设备

Info

Publication number: CN110222695B
Application number: CN201910533126.8A
Authority: CN
Inventors: 孟冬伟; 王佳军
Original assignee: Lazas Network Technology Shanghai Co Ltd
Current assignee: Lazas Network Technology Shanghai Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2021-11-02
Anticipated expiration: 2039-06-19
Also published as: CN110222695A

Abstract

本发明实施例公开了一种证件图片处理方法及装置、介质、电子设备，所述证件图片处理方法包括：确定证件图片中的文本框；对所述文本框的内容进行文字识别，得到文本串；对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别。本发明实施例中的技术方案可以提升对证件图片的信息识别的准确性。

Description

一种证件图片处理方法及装置、介质、电子设备

技术领域

本发明涉及信息处理技术领域，尤其涉及一种证件图片处理方法及装置、介质、电子设备。

背景技术

在信息智能化处理的大背景下，证件图片处理的应用十分广泛。证件图片处理，包括对证件图片中的信息识别，以使得基于证件图片的后续智能化信息处理成为可能。

现有的证件图片处理方法中，对信息识别的准确性有待提升。

发明内容

本发明解决的问题是提升对证件图片处理的信息识别的准确性。

为解决上述问题，本发明实施例公开了A1，一种证件图片处理方法，包括：确定证件图片中的文本框；对所述文本框的内容进行文字识别，得到文本串；对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别。

A2，如A1所述的方法中，所述证件图片处理方法还包括：获取所述条目类别中全部或部分的验证信息；根据所述验证信息对所述文本串进行验证。

A3，如A1所述的方法中，所述确定证件图片中的文本框包括：确定所述证件图片中的文字像素以及非文字像素的分割结果；采用并查集的方式，基于所述分割结果得到连通的文字区域；以所述文字区域长边的像素距离作为所述文字区域的长度，得到封闭矩形；基于所述封闭矩形得到所述文本框。

A4，如A3所述的方法中，确定所述证件图片中的文字像素以及非文字像素的分割结果包括：对所述证件图片进行特征提取，得到特征图谱；基于所述特征图谱进行特征融合；基于特征融合的结果进行特征预测；根据预测特征对每一个像素进行文本和非文本的分割，得到所述分割结果。

A5，如A1所述的方法中，对所述文本框的内容进行文字识别，得到文本串包括：输入所述文本框的内容至卷积神经网络，获取所述文本框的内容的图像空间特征以及初步的语义特征；输入所述图像空间特征以及所述初步的语义特征至递归神经网络，得到输出结果，输出结果包含处理后的语义特征以及空间序列信息；通过分类器对所述递归神经网络的输出结果进行分类处理，得到所述文本串。

A6，如A1所述的方法中，对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别包括：采用分词模型对所述文本串进行分词；采用编码器对分词的结果进行编码；采用多层递归神经网络提取所述编码的语义信息；采用分类器对所述语义信息进行分类，得到所述条目类别。

本发明实施例还公开了B1，一种证件图片处理装置，包括：文本框确定模块，用于确定证件图片中的文本框；文字识别模块，用于对所述文本框的内容进行文字识别，得到文本串；语义识别与关联模块，用于对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别。

本发明实施例还公开了C1，一种电子设备，包括至少一个存储器和至少一个处理器；所述存储器存储程序，所述处理器调用所述程序，所述程序用于：确定证件图片中的文本框；对所述文本框的内容进行文字识别，得到文本串；对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别。

C2，如C1所述的设备中，所述程序还用于：获取所述条目类别中全部或部分的验证信息；根据所述验证信息对所述文本串进行验证。

本发明实施例还公开了D1，一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现A1至A6任一项所述证件图片处理方法的步骤。

与现有技术相比，本发明的技术方案具有以下有益效果：

本发明实施例中，确定证件图片中的文本框，对文本框中的内容进行文字识别，得到文本串，对文本串进行语义识别，关联文本串至证件中的条目类别。通过对文本串进行语义识别的方式，将文本串与证件中的条目类别进行关联，可以避免对证件图片中文本串的条目类别识别的准确性较差的问题。

附图说明

图1是一种证件图片；

图2是本发明实施例中一种证件图片处理方法的流程图；

图3是本发明实施例中一种确定证件图片中的文本框的方法的流程图；

图4是本发明实施例中一种证件图片分割的方法的流程图；

图5是本发明实施例中对图1所示证件图片进行文字区域划分后的结构示意图；

图6是本发明实施例中一种通过文字识别得到文本串的方法的流程图；

图7是本发明实施例中一种得到条目类别的方法的流程图；

图8是本发明实施例中另一种证件图片处理方法的部分流程图；

图9是本发明实施例中一种验证系统的结构示意图；

图10是本发明实施例中一种证件图片处理装置的结构示意图；

图11是本发明实施例中一种文本框确认模块的结构示意图；

图12是本发明实施例中一种分割结果确定子模块的结构示意图；

图13是本发明实施例中一种文字识别模块的结构示意图；

图14是本发明实施例中一种语义识别与关联模块的结构示意图；

图15是本发明实施例中一种电子设备的结构示意图。

具体实施方式

在电子商务快速发展的环境下，线上商铺的经营活动需要有关部门的许可，即需要获取政府工作部门的相关证明文件，如商铺资质证明文件或者许可证明文件等，这些文件可以是以图片的形式上传电子商务平台，例如，图1所示。电子商务平台通过对上传的证件图片进行识别，以线上商铺的资质进行审核。

对于电子商务平台，线上的商铺遍布全国各地，用于进行资质审核的证明文件多种多样，颁发部门不尽相同，这大大增加了电子商务平台对线上商铺的证件的审核工作量。在其他的应用场景中，例如，线上售房等，面临同样的问题，即需要对用户的房产证等进行查验审核。

在一种证件图片处理方法中，通过对证件图片中固定位置进行文字识别，基于识别结果获取所述固定位置关联的条目类型，得到进行文字识别结果。

在该方法中，对于证件图片中文字内容较长的区域，例如图1中“法定代表人(负责人或业主)”，或者“地址”后详细的地址等，不能很好的对较长的文字内容区域的两端的文字进行识别，容易出现缺字的现象，并且，对于全国各地，出示的证件的排版可能多样，每一条目类型在图片中的位置可以不一致，或者由于在图片拍摄时，拍摄角度等问题，使得到的文字内容不准确，从而可能导致无法准确的对用于验证的证件进行查验审核。

由此，现有的证件图片处理方法中，如何提升对信息识别的准确性成为亟待解决的问题。

基于此，本发明实施例公开了一种证件图片处理方法及装置、介质、电子设备，以提升对证件图片的信息识别的准确性。

为使本发明的目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明具体实施例做进一步的说明。

图2示出了一种证件图片处理方法的流程图，在本发明实施例中，证件图片处理方法可以包括如下流程：

步骤S21，确定证件图片中的文本框；

步骤S22，对所述文本框的内容进行文字识别，得到文本串；

步骤S23，对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别。

其中，文本框可以是用于表征文字区域的图形框，参考图1，在具体实施中，文本框可以是图中用于确定个不同文字区域的矩形框。本领域技术人员可以理解的，同一证件图片，可以有多个文本框，不同类型的证件识别出的文本框数量可以是不同的。

文本串可以是由对文字内容进行识别后，得到的文字串，例如图1中所示的“单位名称”“有效日期”等文字串。在具体实施中，一个文本串可以包括单个文字或者是多个文字，对此不做限制。本领域技术人员可以理解的是，此处所述“文字”包括汉字、数字、英文字符等，也可以是其他的文字，对此不做限制。

在具体实施中，条目类别可以与证件的类型相关联，例如，对应于图1所示的餐饮服务许可证，条目类型可以包括“单位名称”“法定代表人(负责人或业主)”“地址”“备注”“有效期限”等。

本领域技术人员可以理解的是，此处仅为举例说明，在具体实施中，对应不同的证件类型，条目类型可以不同，例如对应房产证，条目类别可以是“房屋所有人”“房屋坐落”“产别”等。

在本发明实施例中，通过确定证件图片中的文本框，对所述文本框的内容进行文字识别，得到文本串，对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别。相比通过对证件图片中固定位置进行文字识别，基于识别结果获取所述固定位置关联的条目类型，得到进行文字识别结果，本发明通过对文本串进行语义识别的方式，将文本串与证件中的条目类别进行关联，可以避免对证件图片中文本串的条目类别识别的准确性较差的问题。

图3示出了本发明实施例中一种确定证明图片中的文本框的方法的流程图，在具体实施中，所述确定证件图片中的文本框可以包括：

步骤S31，确定所述证件图片中的文字像素以及非文字像素的分割结果；

步骤S32，采用并查集的方式，基于所述分割结果得到连通的文字区域；

步骤S33，以所述文字区域长边的像素距离作为所述文字区域的长度，得到封闭矩形；

步骤S34，基于所述封闭矩形得到所述文本框。

其中，并查集用于处理一些不相交集合的合并及查询问题。例如，在一些有N个元素的集合应用问题中，让每个元素构成一个单元素的集合，然后按一定顺序将属于同一组的元素所在的集合合并。采用并查集的方式，基于所述分割结果得到连通的文字区域的具体实现方式，可以参见后文详述。

在具体实施中，可以通过将证件图片作为卷积神经网络的输入，通过卷积神经网络，对证件图片中文字像素和非文字像素进行二分类，并进行分割，以得到证件图片中的文字像素以及非文字像素的分割结果。对确定证件图片中的文本框的具体方式，后文会进行进一步详述。

参考图4，在具体实施中，所述确定所述证件图片中的文字像素以及非文字像素的分割结果可以通过如下步骤实现：

步骤S41，对所述证件图片进行特征提取，得到特征图谱；

步骤S42，基于所述特征图谱进行特征融合；

步骤S43，基于特征融合的结果进行特征预测；

步骤S44，根据预测特征对每一个像素进行文本和非文本的分割，得到所述分割结果。

在本发明一种具体实现中，可以将证件图片缩放至一定的尺寸大小，例如，512*512,使用残差卷积神经网络对缩放后的图片进行特征提取，以得到残差卷积神经网络输出层的特征图谱。在具体实施中，残差卷积神经网络可以是resnet、vggnet等类型的卷积神经网络，也可以是其他类型的卷积神经网络，对此不做限制。本领域技术人员可以理解的是，在具体实施中，证件图片的缩放尺寸可以根据所使用的卷积神经网络确定，可以与所选用的卷积神经网络的类型相关联。

在具体实施中，以残差卷积神经网络resnet18为例，得到的特征图谱可以是残差卷积神经网络resnet18的stage1、stage2、stage3和stage4的输出层的特征图谱，可以记为特征图谱output1、特征图谱output2、特征图谱output3、特征图谱output4，其特征图谱空间的大小可以分别是128*128、64*64、32*32以及16*16。

在具体实施中，在对证件图片进行特征提取，得到特征图谱output1、特征图谱output2、特征图谱output3以及特征图谱output4后，可以从特征图谱空间最小的特征图谱output4开始，对特征图谱进行特征融合。具体的，延用前例，可以是对16*16的特征图谱output4做2*2的上采样，得到32*32的特征图谱output4，将上采样后得到的32*32的特征图谱output4与32*32的特征图谱output3进行串接，使用卷积神经网络对串接后的特征图谱进行特征融合，以得到特征融合后的特征图谱，记为特征图谱merge3。

在具体实施中，进行特征融合的卷积神经网络可以是具有注意力机制的卷积神经网络。

进一步，可以对特征图谱merge3进行2*2的上采样，得到64*64的特征图谱merge3，然后对64*64的特征图谱merge3与64*64的特征图谱output2进行串接以及特征融合，得到特征融合后的特征图谱merge2。同理，基于生成的特征图谱merge2以及特征图谱output1，得到128*128的特征图谱merge1，并以128*128的特征图谱merge1作为预测特征。

在具体实施中，通过使用卷积神经网络对预测特征的每一个像素做文字像素和非文字像素的分割，得到文字像素以及非文字像素的分割结果，并通过卷积神经网络进行文本框的预测，例如，可以包括对文本框的边界的预测以及文本框的倾斜角度的预测等。

本领域技术人员可以理解的是，此处所述对文本框的边界的预测可以是对证件图片中文字区域的预测，例如，参考图5，可以是对文字区域51的短边边界H进行预测。

对于文字区域的长边边界，例如，图5中文字区域51的长边边界W，可以通过并查集的方式确定。例如，当确定某一像素为文字像素后，可以对该文字像素周围的像素是否为文字像素进行判定，如果为文字像素，则划分到同一个连通区域，如果为非文字像素，则确定已达到文字区域的边界，完成对文字区域的长边的确定。

通过并查集的方式，对证件图片中的每一像素进行文字像素以及非文字像素进行连通区域的划分，可以准确的对证件图片中的每一个像素进行划分，从而可以准确的确定文字区域的长边边界，以获取准确的划分结果，进而可以提升图片处理的准确性。

在具体实施中，可以基于并查集的方式得到的文字区域的长边，以及预测得到的文字区域的短边，得到的对应文字区域的封闭矩形。进一步，可以基于预测得到的文本框的倾斜角度，对得到的封闭矩形进行旋转，得到最终的文本框。

在具体实施中，确定证件图片中的文本框后，根据得到的文本框对证件图片进行裁剪，并基于裁剪后的内容进行文字识别，以得到对应的文本串。具体的，参考图6，基于所述文本框的内容进行文字识别，得到文本串可以包括如下流程步骤：

步骤S61，输入所述文本框的内容至卷积神经网络，获取所述文本框的内容的图像空间特征以及初步的语义特征；

步骤S62，输入所述图像空间特征以及所述初步的语义特征至递归神经网络，得到输出结果，输出结果包含处理后的语义特征以及空间序列信息；

步骤S63，通过分类器对所述递归神经网络的输出结果进行分类处理，得到所述文本串。

在具体实施中，可以是通过多层卷积神经网络依次对文本框中的文字内容进行特征提取，以获取文字特征，即所述图像空间特征，例如，可以包括文字的边缘特征、笔画特征、以及结构特征等。

进一步，在输入文本框的内容至所述多层卷积神经网络后，还可以输出对应所述文本框的文字内容的初步的语义特征。其中，语义特征为单个文字的特征，与所述文本框内的文字内容的一一对应。

在具体实施中，基于递归神经网络输出的处理后的语义特征，可以是相比于初步的语义特征，语义表达更清楚的特征；空间序列信息可以包含能够指示文本框中文字内容的文字顺序的信息，例如，若文本框的文字内容为“南京西路”，文字顺序为“南”先于“京”先于“西”先于“路”。

空间序列信息还可以包含文本框内文字内容的空间分布信息、词语的贡献性、以及每一个文字的文字贡献率等信息。其中，文字贡献率可以对于多个文字组成的文本串的语义作出贡献的概率，例如，当识别出文字内容“南京西”后，可以通过“南京西”组成的文字串的空间序列信息预测出下一个文字为“路”。

本领域技术人员可以理解的是，以上仅为举例说明，在具体实施中，空间序列信息可以包括的内容以及形式可以是多样的，对此不做限定。

本领域技术人员可以理解的是，此处所述“多层卷积神经网络”以及“递归神经网络”仅为举例说明，在其他实施例中，也可以是以其他的网络结构或者是其他的方式进行特征提取以及空间序列信息的获取，对此不做限制。

在具体实施中，在得到所述递归神经网络的输出结果后，可以通过分类器对所述输出结果进行分类。其中，分类器可以根据应用场景的训练数据进行训练，训练后的分类器能够识别的字符可以称作字符集合表。

在具体实施中，可以基于所述分类器以及所述字符集合表，得到所述文本框的内容的每一个文字，并得到文本串。

参照前文所述，对文本框的内容进行文字识别，得到文本串后，还可以对文本串进行语义识别，以关联文本串至证件中的条目类型。在具体实施中，参考图7，对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别可以包括：

步骤S71，采用分词模型对所述文本串进行分词；

步骤S72，采用编码器对分词的结果进行编码；

步骤S73，采用多层递归神经网络提取所述编码的语义信息；

步骤S74，采用分类器对所述语义信息进行分类，得到所述条目类别。

在具体实施中，所述分词模型可以是以已有文本串为训练数据，并训练得到的分词模型，以进行本发明实施例中文本串的分词。在其他实施例中，也可以是获取已有的分词模型，对所述文本串进行分词。

类在具体实施中，本发明实施例中的分类器，可以是基于应用场景的训练数据进行训练的分类器。例如，继续以图1所示证件为例，训练数据中可以包括“单位名称”“地址”“有效期限”等条目类别以及对应的内容。从而，训练数后的分类器，可以对经过分词、编码后的语义信息进行识别，得到对应各文本串的条目类型，例如前述的“单位名称”“地址”“有效期限”等。

本领域技术人员可以理解的是，在本发明实施例中，所述“多层递归神经网络”以及前文所述的“多层卷积神经网络”“具有注意力机制的卷积神经网络”等均可以是根据功能的不同，预先对卷积神经网络进行训练，使得训练的卷积神经网络具有不同的功能。

在具体实施中，在得到证件图片中各文本串以及对应的条目类型后，还可以通过对各文本串进行验证，以对证件图片的真伪进行校验。图8示出了本发明实施例中另一种证件图片处理方法的部分流程图，在具体实施中，所述证件图片处理方法还可以包括：

步骤S81，获取所述条目类别中全部或部分的验证信息；

步骤S82，根据所述验证信息对所述文本串进行验证。

其中，条目类别的验证信息可以通过网络从官方网站获取。本领域技术人员可以理解的是，此处仅为举例说明，在其他实施例中，也可以以其他途径获取所述验证信息，对此不做限制。

参考图9所示本发明实施例中一种验证系统的结构示意图，可以包括验证方服务器91、网络92、以及官方服务器93，官方网站可以运行与所述验证方服务器91。

在具体实施中，验证方服务器91可以根据上传的证件照片，确定证件的证件编号，通过网络92，根据证件的证件编号，从相关官方网站的官方服务器93中获取证件编号对应的证件信息，例如，可以是以爬取的方式从官方服务器93爬取证件编号对应的证件信息。

在具体实施中，若在官方服务器93中，证件编号对应的证件信息不存在，则可以确定所述证件图片中证件为伪造证件，若证件编号对应的证件信息存在，则进行证件的验证。

在具体实施中，验证方服务器91可以通过对从官方服务器93爬取的证件信息的每一条文本串与通过验证方服务器91识别出的每一条文本串进行比对，若两者存在不同，则可以确定证件图片为伪造图片，若二者完全相同，则可以确定证件图片为真实图片，以此完成对证件照片真伪的判定。

本发明实施例还提供了一种证件图片处理装置，参考图10，所述证件图片处理装置可以包括：

文本框确定模块101，用于确定证件图片中的文本框；

文字识别模块102，用于对所述文本框的内容进行文字识别，得到文本串；

语义识别与关联模块103，用于对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别。

在本本发明一具体实现中，所述证件图片处理装置还可以包括：

验证信息获取模块104，用于获取所述条目类别中全部或部分的验证信息；

验证模块105，用于根据所述验证信息对所述文本串进行验证。

在具体实施中，所述获取所述条目类别中全部或部分的验证信息可以是通过网络从官方网站获取。

进一步，参考图11，所述文本框确定模块101可以包括：

分割结果确定子模块111，用于确定所述证件图片中的文字像素以及非文字像素的分割结果；

连通区域获取子模块112，用于采用并查集的方式，基于所述分割结果得到连通的文字区域；

封闭矩形生成做模块113，用于以所述文字区域长边的像素距离作为所述文字区域的长度，得到封闭矩形；

文本框生成子模块114，用于基于所述封闭矩形得到所述文本框。

参考图12，在本发明一具体实现中，所述分割结果确定子模块111可以包括：

特征提取单元121，用于对所述证件图片进行特征提取，得到特征图谱；

特征融合单元122，用于基于所述特征图谱进行特征融合；

特征预测单元123，用于基于特征融合的结果进行特征预测；

分隔单元124，用于根据预测特征对每一个像素进行文本和非文本的分割，得到所述分割结果。

参考图13，在具体实施中，所述文字识别模块102可以包括：

图像空间特征以及语义特征获取子模块131，用于输入所述文本框的内容至卷积神经网络，获取所述文本框的内容的图像空间特征以及初步的语义特征；

输出结果生成子模块132，用于输入所述图像空间特征以及所述初步的语义特征至递归神经网络，得到输出结果，输出结果包含处理后的语义特征以及空间序列信息；

文本串分类及获取子模块133，用于通过分类器对所述递归神经网络的输出结果进行分类处理，得到所述文本串。

参考图14，在具体实施中，所述语义识别与关联模块103可以包括：

分词子模块141，用于采用分词模型对所述文本串进行分词；

编码子模块142，用于采用编码器对分词的结果进行编码；

语义信息提取子模块143，用于采用多层递归神经网络提取所述编码的语义信息；

语义信息分类子模块144，用于采用分类器对所述语义信息进行分类，得到所述条目类别。

本发明实施例中的证件图片处理装置的具体实现方式和有益效果，可以参见本发明实施例中的证件图片处理方法，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现所述证件图片处理方法的步骤。

其中，所述计算机可读存储介质可以是光盘、机械硬盘、固态硬盘等。

本发明实施例还提供一种电子设备，该电子设备可通过程序形式装载上述所述的证件图片处理装置；可选的，该电子设备的硬件结构可如图15所示，包括：至少一个处理器151，至少一个通信接口152，至少一个存储器153和至少一个通信总线154；

在本发明实施例中，处理器151、通信接口152、存储器153、通信总线154的数量为至少一个，且处理器151、通信接口152、存储器153通过通信总线154完成相互间的通信；

可选的，通信接口152可以为通信模块的接口，如GSM模块的接口。

处理器151可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器153可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

在本发明实施例中，存储器153可存储有程序，处理器151可调用存储器153所存储的程序，以执行本发明实施例提供的证件图片处理方法。

所述程序的具体实现和扩展实现可参照前文相应部分描述。

在一种示例中，本发明实施例所提供的电子设备可以是服务器，例如单台服务器或者多条服务器组成的服务器群组，在另一种示例中，本发明实施例所提供的电子设备也可以是终端设备。

综上，本发明实施例公开了如下技术方案：

C3，如C1所述的设备中，所述确定证件图片中的文本框包括：确定所述证件图片中的文字像素以及非文字像素的分割结果；采用并查集的方式，基于所述分割结果得到连通的文字区域；以所述文字区域长边的像素距离作为所述文字区域的长度，得到封闭矩形；基于所述封闭矩形得到所述文本框。

C4，如C3所述的设备中，确定所述证件图片中的文字像素以及非文字像素的分割结果包括：对所述证件图片进行特征提取，得到特征图谱；基于所述特征图谱进行特征融合；基于特征融合的结果进行特征预测；根据预测特征对每一个像素进行文本和非文本的分割，得到所述分割结果。

C5，如C1所述的设备中，对所述文本框的内容进行文字识别，得到文本串包括：输入所述文本框的内容至卷积神经网络，获取所述文本框的内容的图像空间特征以及初步的语义特征；输入所述图像空间特征以及所述初步的语义特征至递归神经网络，得到输出结果，输出结果包含处理后的语义特征以及空间序列信息；通过分类器对所述递归神经网络的输出结果进行分类处理，得到所述文本串。

C6，如C1所述的设备中，对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别包括：采用分词模型对所述文本串进行分词；采用编码器对分词的结果进行编码；采用多层递归神经网络提取所述编码的语义信息；采用分类器对所述语义信息进行分类，得到所述条目类别。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种证件图片处理方法，其特征在于，包括：确定证件图片中的文本框；对所述文本框的内容进行文字识别，基于所述内容的语义特征以及空间序列信息得到文本串；对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别；所述方法还包括：根据所述证件图片，获得所述证件图片的证件编号；根据所述证件编号确定证件信息；若所述证件信息不存在，则判断所述证件图片为伪造证件图片；若所述证件信息存在，则将所述证件信息的每一条文本串与识别出的所述文本串进行比对；若比对结果完全一致，则判断所述证件图片为真实证件图片；若比对结果不完全一致，则判断所述证件图片为伪造证件图片。

2.根据权利要求1所述的证件图片处理方法，其特征在于，所述确定证件图片中的文本框包括：确定所述证件图片中的文字像素以及非文字像素的分割结果；采用并查集的方式，基于所述分割结果得到连通的文字区域；以所述文字区域长边的像素距离作为所述文字区域的长度，得到封闭矩形；基于所述封闭矩形得到所述文本框。

3.根据权利要求2所述的证件图片处理方法，其特征在于，确定所述证件图片中的文字像素以及非文字像素的分割结果包括：对所述证件图片进行特征提取，得到特征图谱；基于所述特征图谱进行特征融合；基于特征融合的结果进行特征预测；根据预测特征对每一个像素进行文本和非文本的分割，得到所述分割结果。

4.根据权利要求1所述的证件图片处理方法，其特征在于，对所述文本框的内容进行文字识别，得到文本串包括：输入所述文本框的内容至卷积神经网络，获取所述文本框的内容的图像空间特征以及初步的语义特征；输入所述图像空间特征以及所述初步的语义特征至递归神经网络，得到输出结果，输出结果包含处理后的语义特征以及空间序列信息；通过分类器对所述递归神经网络的输出结果进行分类处理，得到所述文本串。

5.根据权利要求1所述的证件图片处理方法，其特征在于，对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别包括：采用分词模型对所述文本串进行分词；采用编码器对分词的结果进行编码；采用多层递归神经网络提取所述编码的语义信息；采用分类器对所述语义信息进行分类，得到所述条目类别。

6.一种证件图片处理装置，其特征在于，包括：文本框确定模块，用于确定证件图片中的文本框；文字识别模块，用于对所述文本框的内容进行文字识别，基于所述内容的语义特征以及空间序列信息得到文本串；语义识别与关联模块，用于对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别；所述装置还用于：根据所述证件图片，获得所述证件图片的证件编号；根据所述证件编号确定证件信息；若所述证件信息不存在，则判断所述证件图片为伪造证件图片；若所述证件信息存在，则将所述证件信息的每一条文本串与识别出的所述文本串进行比对；若比对结果完全一致，则判断所述证件图片为真实证件图片；若比对结果不完全一致，则判断所述证件图片为伪造证件图片。

7.一种电子设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储程序，所述处理器调用所述程序，所述程序用于：确定证件图片中的文本框；对所述文本框的内容进行文字识别，基于所述内容的语义特征以及空间序列信息得到文本串；对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别；所述程序还用于：根据所述证件图片，获得所述证件图片的证件编号；根据所述证件编号确定证件信息；若所述证件信息不存在，则判断所述证件图片为伪造证件图片；若所述证件信息存在，则将所述证件信息的每一条文本串与识别出的所述文本串进行比对；若比对结果完全一致，则判断所述证件图片为真实证件图片；若比对结果不完全一致，则判断所述证件图片为伪造证件图片。

8.根据权利要求7所述的电子设备，其特征在于，所述确定证件图片中的文本框包括：确定所述证件图片中的文字像素以及非文字像素的分割结果；采用并查集的方式，基于所述分割结果得到连通的文字区域；以所述文字区域长边的像素距离作为所述文字区域的长度，得到封闭矩形；基于所述封闭矩形得到所述文本框。

9.根据权利要求7所述的电子设备，其特征在于，确定所述证件图片中的文字像素以及非文字像素的分割结果包括：对所述证件图片进行特征提取，得到特征图谱；基于所述特征图谱进行特征融合；基于特征融合的结果进行特征预测；根据预测特征对每一个像素进行文本和非文本的分割，得到所述分割结果。

10.根据权利要求7所述的电子设备，其特征在于，对所述文本框的内容进行文字识别，得到文本串包括：输入所述文本框的内容至卷积神经网络，获取所述文本框的内容的图像空间特征以及初步的语义特征；输入所述图像空间特征以及所述初步的语义特征至递归神经网络，得到输出结果，输出结果包含处理后的语义特征以及空间序列信息；通过分类器对所述递归神经网络的输出结果进行分类处理，得到所述文本串。

11.根据权利要求7所述的电子设备，其特征在于，对所述文本串进行语义识别，关联所述文本串至所述证件中的条目类别包括：采用分词模型对所述文本串进行分词；采用编码器对分词的结果进行编码；采用多层递归神经网络提取所述编码的语义信息；采用分类器对所述语义信息进行分类，得到所述条目类别。

12.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至5任一项所述证件图片处理方法的步骤。