CN116912871A

CN116912871A - 身份证信息抽取方法、系统、存储介质及电子设备

Info

Publication number: CN116912871A
Application number: CN202311154037.5A
Authority: CN
Inventors: 刘玉龙; 孔欧
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mido Technology Co ltd; Tianjin Midu Wenxiu Intelligent Technology Co ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-10-20
Anticipated expiration: 2043-09-08
Also published as: CN116912871B

Abstract

本发明提供一种身份证信息抽取方法、系统、存储介质及电子设备，所述方法包括以下步骤：获取身份证图像；抽取所述身份证图像的图像模态嵌入特征；识别所述身份证图像中的文本内容和文本边框位置；基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征；对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合，获取融合嵌入特征；基于注意力机制对所述融合嵌入特征进行处理，获取融合特征；识别所述融合特征中的关键字和键值，获取关键字和键值的键值对。本发明的身份证信息抽取方法、系统、存储介质及电子设备能够基于图像文本多模态信息，实现身份证信息的准确抽取。

Description

身份证信息抽取方法、系统、存储介质及电子设备

技术领域

本发明属于信息抽取的技术领域，特别是涉及一种身份证信息抽取方法、系统、存储介质及电子设备。

背景技术

身份证是用于证明持有人身份的证件，多数由各国或地区政府发行予公民，它将作为每个人独一无二的公民身份的证明工具。通常，身份证包含有生物辨识信息，如相片、姓名、住址、出生日期、民族等等。

现有技术中，通常对身份证图像进行信息抽取，从而获取相关信息。然而，现有的身份证抽取方法通常具有以下不足。

（1）图像嵌入特征抽取方法单一。

（2）文本嵌入特征抽取方法单一。

（3）仅利用图像和文本信息，导致抽取信息的正确率不高。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种身份证信息抽取方法、系统、存储介质及电子设备，能够基于图像文本多模态信息，实现身份证信息的准确抽取。提高身份证信息抽取的正确率。

第一方面，本发明提供一种身份证信息抽取方法，所述方法包括以下步骤：获取身份证图像；识别所述身份证图像中的文本内容和文本边框位置；抽取所述身份证图像的图像模态嵌入特征；基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征；对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合，获取融合嵌入特征；基于注意力机制对所述融合嵌入特征进行处理，获取融合特征；识别所述融合特征中的关键字和键值，获取关键字和键值的键值对。

在第一方面的一种实现方式中，抽取所述身份证图像的图像模态嵌入特征包括以下步骤：

基于ResNet网络和多层感知器获取所述身份证图像的特征图；

基于flatten函数和多层感知器对所述特征图进行处理，获取图像特征；

基于所述特征图获取一维位置信息和二维位置信息，所述一维位置信息和所述二维位置信息分别经过多层感知器后分别获取一维位置特征和二维位置特征；

基于多层感知器获取所述身份证图像的类别特征；

对所述图像特征、所述一维位置特征、所述二维位置特征和所述类别特征进行求和，获取所述图像模态嵌入特征。

在第一方面的一种实现方式中，基于所述特征图获取一维位置信息和二维位置信息包括以下步骤：

将所述特征图看作（7，7）的矩阵A 针对所述矩阵中的每个元素设置一个二维序号来表明所述元素所述矩阵中的行列位置；将所述矩阵A拆分成2个矩阵，形状均为（7，7），第一个矩阵B的元素值为A的列序号，第二个矩阵C的元素值为A的行序号，所述矩阵B和所述矩阵C即为所述二维位置信息；

将所述特征图的一维序号构成的矩阵D的元素按照从左到右、从上到下的顺序依次升序设置，所述矩阵D即为所述一维位置信息。

在第一方面的一种实现方式中，基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征包括以下步骤：

将所述文本信息固定为预设字符长度；

对于所述文本信息中的每个字，基于onehot编码和多层感知器获取文本特征；

将所述文本信息中每个字的序号经过onehot编码和多层感知器，获取词元特征；

基于多层感知器获取所述文本信息的类别特征；

对所述文本边框位置进行归一化，获取归一化文本边框位置；

所述归一化文本边框位置经过多层感知器获取四个子二维边框特征；

将所述四个子二维边框特征连接起来，获取二维边框特征；

对所述文本特征、所述词元特征、所述类别特征和所述二维边框特征求和，获取所述文本模态嵌入特征。

在第一方面的一种实现方式中，对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合，获取融合嵌入特征包括：

基于concat函数将所述图像模态嵌入特征和所述文本模态嵌入特征连接起来，获取所述融合嵌入特征。

在第一方面的一种实现方式中，基于注意力机制对所述融合嵌入特征进行处理，获取融合特征包括以下步骤：

对所述融合嵌入特征进行注意力机制处理；其中所述注意力机制处理包括将所述融合嵌入特征分别过3个多层感知器，获取Q、K和V，将Q和K进行矩阵乘法，获取注意力权重；根据所述融合嵌入特征的第一维度，设置行列均为所述第一维度的矩阵，矩阵中的每一个元素表示为列数减去行数的绝对值，所述矩阵经过onehot 编码和多层感知器获取注意力权重偏差，将所述注意力权重与所述注意力权重偏差之和作为更新后的注意力权重；对V与所述注意力进行矩阵乘法，再进行softmax操作，获取融合特征；

对所述融合特征迭代进行预设次数的注意力机制处理，以获取最后更新的融合特征；

将更新后的融合特征依次经过多层感知器、instance norm，并截断truncat到预设尺寸，以得到最终的融合特征。

在第一方面的一种实现方式中，识别所述融合特征中的关键字和键值，获取关键字和键值的键值对包括以下步骤：

将所述融合特征经过多层感知器和sigmod函数，识别所述融合特征中的关键字和键值；

将所述关键字和所述键值依次经过onehot编码、多层感知器和sigmod函数，获取所述关键字和键值的键值对。

第二方面，本发明提供一种身份证信息抽取系统，所述系统包括获取模块、识别模块、第一抽取模块、第二抽取模块、融合模块、注意力处理模块和匹配模块；

所述获取模块用于获取身份证图像；

所述识别模块用于识别所述身份证图像中的文本内容和文本边框位置；

所述第一抽取模块用于抽取所述身份证图像的图像模态嵌入特征；

所述第二抽取模块用于基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征；

所述融合模块用于对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合，获取融合嵌入特征；

所述注意力处理模块用于基于注意力机制对所述融合嵌入特征进行处理，获取融合特征；

所述匹配模块用于识别所述融合特征中的关键字和键值，获取关键字和键值的键值对。

第三方面，本发明提供一种电子设备，所述电子设备包括：处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的身份证信息抽取方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现上述的身份证信息抽取方法。

如上所述，本发明所述的身份证信息抽取方法、系统、存储介质及电子设备，具有以下有益效果。

（1）能够基于图像文本多模态信息，实现身份证信息的准确抽取。提高身份证信息抽取的正确率。

（2）根据模态特性，设计图像嵌入层和文本嵌入层来抽取各自模态的嵌入特征。

（3）结合先验知识，来融合图像模态与文本模态的嵌入特征，实现多模态特征融合。

附图说明

图1显示为本发明的电子设备于一实施例中的场景示意图。

图2显示为本发明的身份证信息抽取方法于一实施例中的流程图。

图3显示为本发明的抽取身份证图像的图像模态嵌入特征于一实施例中的流程图。

图4显示为本发明的身份证信息抽取系统于一实施例中的结构示意图。

图5显示为本发明的电子设备于一实施例中的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明以下实施例提供了身份证信息抽取方法，其可应用于如图1所示的电子设备。本发明中所述电子设备可以包括具备无线充电功能的手机11、平板电脑12、笔记本电脑13、可穿戴设备、车载设备、增强现实(Augmented Reality，AR)/虚拟现实(VirtualReality，VR)设备、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal Digital Assistant，PDA)等，本发明实施例对电子设备的具体类型不作任何限制。

例如，所述电子设备可以是具备无线充电功能的 WLAN 中的站点(STAION，ST)，可以是具备无线充电功能的蜂窝电话、无绳电话、会话启动协议(SessionInitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具备无线充电功能的手持设备、计算设备或其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G 网络中的移动终端、未来演进的公共陆地移动网络(PublicLand Mobile Network，PLMN)中的移动终端或者未来演进的非地面网络（Non-terrestrial Network，NTN）中的移动终端等。

例如，所述电子设备可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobilecommunication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)、BT，GNSS，WLAN，NFC，FM，和/或 IR 技术等。所述 GNSS可以包括全球卫星定位系统 (Global Positioning System，GPS)，全球导航卫星系统(Global Navigation Satellite System，GLONASS)，北斗卫星导航系统(BeiDounavigation Satellite System，BDS)，准天顶卫星系统(Quasi-Zenith SatelliteSystem，QZSS)和/或星基增强系统(Satellite Based Augmentation Systems，SBAS)。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细描述。

如图2所示，于一实施例中，本发明的身份证信息抽取方法包括步骤S1-步骤S7。

步骤S1、获取身份证图像。

具体地，基于图像采集设备获取身份证图像，所述身份证图像中包含姓名、出生日期、民族、住址等信息。

步骤S2、抽取所述身份证图像的图像模态嵌入特征。

具体地，如图3所示，抽取所述身份证图像的图像模态嵌入特征包括以下步骤。

21）基于ResNet网络和多层感知器（Multilayer Perceptron，MLP）获取所述身份证图像的特征图。

其中，所述特征图形状为（7，7，2048）。

22）基于flatten函数和多层感知器对所述特征图进行处理，获取图像特征。

其中，基于flatten函数对所述特征图进行平铺操作，获取形状为（49，2048）的序列特征，将所述序列特征经过多层感知器，得到形状为（49*768）的图像特征。

23）基于所述特征图获取一维位置信息和二维位置信息，所述一维位置信息和所述二维位置信息分别经过多层感知器后分别获取一维位置特征和二维位置特征。

其中，忽略2048这个维度，仅将所述特征图看作（7，7）的矩阵A 。其中，将特征图看作7x7的矩阵，输入的原始图片会缩放（resize）到固定尺寸，故抽取到的特征图只能是7x7的矩阵。针对所述矩阵中的每个元素设置一个二维序号来表明所述元素所述矩阵中的行列位置。例如，第一行第一列的元素就是0-0，第一行第二列的元素就是0-1，其他元素的二维序号同理。将所述矩阵A拆分成2个矩阵，形状均为（7，7），第一个矩阵B的元素值为A的列序号，第二个矩阵C的元素值为A的行序号，所述矩阵B和所述矩阵C即为所述二维位置信息。将所述二维位置信息输入多层感知器，即可得到所述二维位置特征，形状为（49 * 768）。

将所述特征图的一维序号构成的矩阵D的元素按照从左到右、从上到下的顺序依次升序设置，所述矩阵D即为所述一维位置信息。将所述一维位置特征输入多层感知器，即可得到所述一维位置特征，形状为（49 * 768）。

24）基于多层感知器获取所述身份证图像的类别特征。

其中，将图像模态的类别class设置为0，根据图像特征的形状，则有一个含49个元素的向量，每个值均为0。该向量经过多层感知器，即可获取类别特征，形状为（49 * 768）。

25对所述图像特征、所述一维位置特征、所述二维位置特征和所述类别特征进行求和，获取所述图像模态嵌入特征。

其中，求和采用sum函数。

步骤S3、识别所述身份证图像中的文本内容和文本边框位置。

具体地，基于OCR（Optical Character Recognition，光学字符识别）技术识别所述身份证图像中的文本内容和文本边框位置。所述文本边框位置是指对应的文本内容的边框位置，采用（x_left，x_right，y_top，y_bottom）表示，其中（x_left，y_top）表示文本边框的左上角坐标，（x_right，y_bottom）表示文本边框的右下角坐标。

步骤S4、基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征。

具体地，基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征包括以下步骤。

41）将所述文本信息固定为预设字符长度。

其中，将文本固定到512个字符长度，不够的用<blank>字符填充。

42）对于所述文本信息中的每个字，基于onehot编码和多层感知器获取文本特征。

其中，将所述文本信息中的每个字作为一个基本单位char token，经过onehot编码和多层感知器获取文本特征，形状为（512，768）。

43）将所述文本信息中每个字的序号经过onehot编码和多层感知器，获取词元特征。

其中，将char token的序号（如第一个字为0，第二字为1，第三个字为2）作为tokenid，经过onehot编码和多层感知器，获取词元特征token feature，形状为（512，768）。

44）基于多层感知器获取所述文本信息的类别特征。

其中，将文本模态的类别class设置为1，根据文本的长度512，则有一个含512个元素的向量，每个值均为1。将所述向量经过多层感知器，即可得到类别特征class feature，形状为（512，768）。

45）对所述文本边框位置进行归一化，获取归一化文本边框位置。

其中，根据公式x_left _norm= 1000 X (x_left / w)，x_right _norm = 1000 X(x_right / w)，y_top _norm = 1000 X (y_top / h)，y_bottom _norm = 1000 X (y_bottom / h)，其中的h代表图像的高度，w代表图像的宽度，从而公将所述文本边框位置归一化在0～1000之间。

46）所述归一化文本边框位置经过多层感知器获取四个子二维边框特征。

其中，将归一化的x_left_norm、x_right _norm、y_top _norm和y_bottom _norm分别输入到多层感知器，获取到4个（512 * 192）的子二维边框特征。

47）将所述四个子二维边框特征连接起来，获取二维边框特征。

其在，将所述四个子二维边框特征通过concat函数连接为（512，768）形状的二维边框特征。

48）对所述文本特征、所述词元特征、所述类别特征和所述二维边框特征求和，获取所述文本模态嵌入特征。

其中，求和采用sum函数。

步骤S5、对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合，获取融合嵌入特征。

其中，将所述图像模态嵌入特征和所述文本模态嵌入特征通过concat函数进行连接，获取融合嵌入特征，形状为（561，768）。

步骤S6、基于注意力机制对所述融合嵌入特征进行处理，获取融合特征。

具体地，基于注意力机制对所述融合嵌入特征进行处理，获取融合特征包括以下步骤。

61）将所述融合嵌入特征分别过3个多层感知器，获取Q、K和V，将Q和K进行矩阵乘法，获取注意力权重。

其中，所述注意力权重形状为（561，561）。

62）根据所述融合嵌入特征的第一维度，设置行列均为所述第一维度的矩阵，矩阵中的每一个元素表示为列数减去行数的绝对值，所述矩阵经过onehot 编码和多层感知器获取注意力权重偏差，将所述注意力权重与所述注意力权重偏差之和作为更新后的注意力权重。

其中，根据所述融合嵌入特征第一个维度561，设置一个矩阵（561，561），i表示行数，j表示列数，那么i的取值是0到560，j的取值是0到560。矩阵中的每一个元素用j - i的绝对值计算得到，经过onehot 编码和多层感知器得到注意力权重偏差，形状为（561，561）。

63）对V与所述注意力进行矩阵乘法，再进行softmax操作，获取融合特征，形状为（561，768）。

64）对所述融合特征迭代进行预设次数的注意力机制处理，以获取更新的融合特征。

其中，针对所送融合特征，迭代执行步骤61）-步骤64）预设次数，获取更新后的融合特征。

65）将更新后的融合特征依次经过多层感知器、instance norm，并截断truncat到预设尺寸，以得到最终的融合特征。

步骤S7、识别所述融合特征中的关键字和键值，获取关键字和键值的键值对。

其中，将所述融合特征经过多层感知器和sigmod函数，识别所述融合特征中的关键字key和键值value。例如，识别出的关键字包括姓名、住址、出生日期等；识别出的键值包括实际姓名、实际住址、实际出生日期等。

将所述关键字key和所述键值value依次经过onehot编码、多层感知器和sigmod函数，获取所述关键字和键值的key-value键值对，从而体现key与value的对应关系；每一个key只对应一个value，如姓名（key1）对应实际姓名（value1），住址（key2）对应实际住址（value2），出生日期（key3）对应实际出生日期（value3）。

本发明实施例所述的身份证信息抽取方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本发明实施例还提供一种身份证信息抽取系统，所述身份证信息抽取系统可以实现本发明所述的身份证信息抽取方法，但本发明所述的身份证信息抽取系统的实现装置包括但不限于本实施例列举的身份证信息抽取系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

如图4所示，于一实施例中，本发明的身份证信息抽取系统包括获取模块41、第一抽取模块42、识别模块43、第二抽取模块44、融合模块45、注意力处理模块46和匹配模块47。

所述获取模块41用于获取身份证图像。

所述第一抽取模块42与所述获取模块41相连，用于抽取所述身份证图像的图像模态嵌入特征。

所述识别模块43与所述获取模块41相连，用于识别所述身份证图像中的文本内容和文本边框位置。

所述第二抽取模块44与所述识别模块43相连，用于基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征。

所述融合模块45与所述第一抽取模块42和所述第二抽取模块44相连，用于对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合，获取融合嵌入特征。

所述注意力处理模块46与所述融合模块45相连，用于基于注意力机制对所述融合嵌入特征进行处理，获取融合特征。

所述匹配模块47与所述注意力处理模块46相连，用于识别所述融合特征中的关键字和键值，获取关键字和键值的键值对。

其中，获取模块41、第一抽取模块42、识别模块43、第二抽取模块44、融合模块45、注意力处理模块46和匹配模块47的结构和原理与上述身份证信息抽取方法中的步骤一一对应，故在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本发明实施例的目的。例如，在本发明各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本发明实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性（non-transitory）介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带（magnetictape），软盘（floppy disk），光盘（optical disc）及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本发明实施例还提供了一种电子设备。所述电子设备包括处理器和存储器。

所述存储器用于存储计算机程序。

所述存储器包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的身份证信息抽取方法。

优选地，所述处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如图5所示，本发明的电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：一个或者多个处理器或者处理单元51，存储器52，连接不同系统组件（包括存储器52和处理单元51）的总线53。

总线53表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器52可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）521和/或高速缓存存储器522。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统523可以用于读写不可移动的、非易失性磁介质（图5未显示，通常称为“硬盘驱动器”）。尽管图5中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM ，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线53相连。存储器52可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块5241的程序/实用工具524，可以存储在例如存储器52中，这样的程序模块5241包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5241通常执行本发明所描述的实施例中的功能和/或方法。

电子设备也可以与一个或多个外部设备（例如键盘、指向设备、显示器等）通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口54进行。并且，电子设备还可以通过网络适配器55与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图5所示，网络适配器55通过总线53与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种身份证信息抽取方法，其特征在于，所述方法包括以下步骤：

获取身份证图像；

抽取所述身份证图像的图像模态嵌入特征；

识别所述身份证图像中的文本内容和文本边框位置；

基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征；

对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合，获取融合嵌入特征；

基于注意力机制对所述融合嵌入特征进行处理，获取融合特征；

识别所述融合特征中的关键字和键值，获取关键字和键值的键值对。

2.根据权利要求1所述的身份证信息抽取方法，其特征在于：抽取所述身份证图像的图像模态嵌入特征包括以下步骤：

基于ResNet网络和多层感知器获取所述身份证图像的特征图；

基于多层感知器获取所述身份证图像的类别特征；

3.根据权利要求2所述的身份证信息抽取方法，其特征在于：基于所述特征图获取一维位置信息和二维位置信息包括以下步骤：

将所述特征图看作（7，7）的矩阵A，针对所述矩阵中的每个元素设置一个二维序号来表明所述元素所述矩阵中的行列位置；将所述矩阵A拆分成2个矩阵，形状均为（7，7），第一个矩阵B的元素值为A的列序号，第二个矩阵C的元素值为A的行序号，所述矩阵B和所述矩阵C即为所述二维位置信息；

4.根据权利要求1所述的身份证信息抽取方法，其特征在于：基于所述文本内容和所述文本边框位置抽取所述身份证图像的文本模态嵌入特征包括以下步骤：

将所述文本信息固定为预设字符长度；

基于多层感知器获取所述文本信息的类别特征；

将所述四个子二维边框特征连接起来，获取二维边框特征；

5.根据权利要求1所述的身份证信息抽取方法，其特征在于：对所述图像模态嵌入特征和所述文本模态嵌入特征进行融合，获取融合嵌入特征包括：

6.根据权利要求1所述的身份证信息抽取方法，其特征在于：基于注意力机制对所述融合嵌入特征进行处理，获取融合特征包括以下步骤：

对所述融合特征迭代进行预设次数的注意力机制处理，以获取更新的融合特征；

7.根据权利要求1所述的身份证信息抽取方法，其特征在于：识别所述融合特征中的关键字和键值，获取关键字和键值的键值对包括以下步骤：

8.一种身份证信息抽取系统，其特征在于，所述系统包括获取模块、识别模块、第一抽取模块、第二抽取模块、融合模块、注意力处理模块和匹配模块；

所述获取模块用于获取身份证图像；

9.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行权利要求1至7中任一项所述的身份证信息抽取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现权利要求1至7中任一项所述的身份证信息抽取方法。