CN113569839A

CN113569839A - 证件识别方法、系统、设备及介质

Info

Publication number: CN113569839A
Application number: CN202111014554.3A
Authority: CN
Inventors: 李�杰
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-10-29
Anticipated expiration: 2041-08-31
Also published as: CN113569839B

Abstract

本发明提供一种证件识别方法、系统、设备及介质，该方法通过获取待识别证件的证件图像，进行文本识别，以得到识别结果集，并将其分别与预设辨别词、预设校正词进行比对，以确定待识别证件的可选证件类型，实现对于待识别证件的类型识别，通过该方法，使得证件类型分类不再受证件图像背景的影响，方案易行，可操作性强。

Description

证件识别方法、系统、设备及介质

技术领域

本发明涉及图像识别技术领域，特别是涉及一种证件识别方法、系统、设备及介质。

背景技术

光学字符识别，简称OCR(Optical Character Recognition)，是一种对图像进行电子扫描以从该图像中提取文字的技术手段，该技术广泛应用于包括证件识别在内的各种领域。

采用包括OCR识别技术在内等多种技术对于各种证件图像进行文本识别提取的应用越来越广泛，不同类别的证件所包含的信息存在一定差异。在进行信息采集时，针对于每种类别的证件的信息采集重点有所不同，此时，对于证件的证件类别的判断就较为重要。相关技术中，对于证件类别的识别往往是通过证件图像的图像特征经预先训练好的分类器进行分类，但由于证件图像中有时存在较为繁杂的背景环境，使得证件很容易融入到背景环境中，造成证件类型分类不准确，使得证件分类时对于证件图像的背景要求较高，证件类型分类难度大。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种证件识别方法、系统、设备及介质，用于解决对于证件分类时对于证件图像的背景要求较高，证件类型分类难度大的技术问题。

针对于上述问题，本发明提供了一种证件识别方法，所述方法包括：

获取待识别证件的证件图像，进行文本识别，得到包括若干个文本识别结果的识别结果集；

将所述识别结果集分别与预设辨别词、预设校正词进行比对，以确定所述待识别证件的可选证件类型，实现对所述待识别证件的识别。

可选的，所述方法还包括：

根据所述识别结果集分别与预设辨别词、预设校正词的比对结果确定证件辨别词和证件校正词；

获取证件校正位置关系和各所述可选证件类型对应的预设校正位置关系，从所述可选证件类型中确定所述待识别证件的识别证件类型；

其中，所述证件校正位置关系包括至少两个证件文本词所在图像区域之间的相对位置关系，所述证件文本词包括证件辨别词和/或证件校正词，所述预设校正位置关系包括两个至少预设文本词之间的预设位置关系，所述预设文本词为与所述证件文本词对应的预设辨别词和/或预设校正词。

可选的，所述方法还包括：

获取所述识别证件类型的预设关键词；

若所述识别结果集不包括所述预设关键词，获取关联关键词，所述关联关键词与所述预设关键词的关键位置关系符合预设关键位置关系；

若所述识别结果集包括所述关联关键词，根据所述关联关键词和关键位置关系确定所述预设关键词所对应的疑似关键信息。

可选的，所述方法还包括：

获取所述疑似关键信息的验证信息，所述验证信息包括所述疑似关键信息的字符长度，疑似区域与关联区域的距离中至少之一，所述疑似区域为所述疑似关键信息在所述证件图像的区域，所述关联区域为所述关联关键词在所述证件图像的区域；

若所述验证信息满足预设验证条件，将所述疑似关键信息作为证件关键信息。

可选的，所述方法还包括：

若所述识别结果集包括所述预设关键词，则获取所述预设关键词所对应的证件关键信息。

可选的，所述获取待识别证件的证件图像，进行文本识别，得到包括若干个文本识别结果的识别结果集之后，所述方法还包括：

将所述若干个文本识别结果整合为文本识别总结果；

以所述文本识别总结果更新所述识别结果集。

可选的，所述获取证件校正位置关系和各所述可选证件类型对应的预设校正位置关系之前，所述方法还包括将所述证件图像输入到预设文本检测模型，获取两个证件文本词的证件位置关系；

其中，所述预设文本检测模型的构建方式包括：

获取样本证件的样本图像，并对所述样本图像中样本文本词的位置进行标注，得到样本位置；

将所述样本图像和样本位置输入预先构建的深度网络学习模型中，对所述深度网络学习模型进行训练，得到训练后的预设文本检测模型，所述深度网络学习模型的损失函数包括Dice损失函数、交叉熵损失函数和L₁损失函数中至少之一。

可选的，所述损失函数为Dice损失函数、交叉熵损失函数和L₁损失函数之和，所述损失函数包括：

其中，l_det为损失函数，λ₁为Dice损失函数系数，λ₂为交叉熵损失函数系数，λ₃为L₁损失函数系数，y为真实值，y^p为网络预测值。

本发明还提供了一种证件识别系统，所述系统包括：

文本识别模块，用于获取待识别证件的证件图像，进行文本识别，得到包括若干个文本识别结果的识别结果集；

可选证件类型确定模块，用于将所述识别结果集分别与预设辨别词、预设校正词进行比对，以确定所述待识别证件的可选证件类型，实现对所述待识别证件的识别。

本发明还提供了一种电子设备，包括处理器、存储器和通信总线；

所述通信总线用于将所述处理器和存储器连接；

所述处理器用于执行所述存储器中存储的计算机程序，以实现如上述实施例中任一项所述的方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于使所述计算机执行如上述实施例中任一项所述的方法。

如上所述，本发明提供的一种证件识别方法、系统、设备及介质，具有以下有益效果：

通过获取待识别证件的证件图像，进行文本识别，以得到识别结果集，并将其分别与预设辨别词、预设校正词进行比对，以确定待识别证件的可选证件类型，实现对于待识别证件的类型识别，通过该方法，使得证件类型分类不再受证件图像背景的影响，简单快速，方案易行，可操作性强。

附图说明

图1为本发明实施例一提供的证件识别方法的一种流程示意图。

图2为本发明实施例一提供的证件识别方法的一种具体流程示意图。

图3为本发明实施例二提供的证件识别系统的一种结构示意图；

图4为一实施例提供的终端的一种结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例一

请参阅图1，本发明实施例提供的证件识别方法，包括：

S101：获取待识别证件的证件图像，进行文本识别，得到包括若干个文本识别结果的识别结果集。

其中，证件图像的获取方式在此不做限定，可以由本领域技术人员所知晓的方式实现，如获取用户所上传的设备已有图片、临时拍摄待识别证件的图像等。

本实施例中的证件类型的判断基于某证件类型具有统一的规格(至少包括一部分相同的原始文本词，以及该相同部分的原始文本词之间的证件位置关系固定)的基础上实现，若某一证件的规格随意变化，则将不适用该方法。

本实施例中的证件图像为在经过证件所有人同意的前提下所采集的图像，其中待识别证件可以包括但不限于身份证、港澳通行证、护照、社保卡、工牌、工作证等。

对证件图像进行文本识别的方式包括但不限于OCR识别。由于OCR识别时往往是一行一行进行识别，通过对若干个文本框内文字图像进行文本识别，可得到若干个文本识别结果，根据各文本识别结果形成识别结果集。

在一些实施例中，在对证件图像进行识别前，该方法还包括：

根据文字分布确定若干个文本框；

在证件图像中文本框的对应位置处扣取文本图像；

将文本图像按照等比例缩放的方式调整到预设尺寸，以便进行文本识别。

通过上述方式，可以先将证件图像中的文字信息加以提取，以便后续操作处理。

在一些实施例中，在获取待识别证件的证件图像，进行文本识别，得到包括若干个文本识别结果的识别结果集之后，该方法还包括：

将若干个文本识别结果整合为文本识别总结果；

以文本识别总结果更新识别结果集。

在一些实施例中，上述文本识别的方式可以是借助于预先训练好的文本识别模型实现，可选的，文本识别模型使用CTC损失函数。

对于文本识别模型的训练也可以采用本领域技术人员所知晓的方式实现。

通常在进行文本识别时，可能在同一个证件图像上存在多个文本识别框，对每一个文本识别框内的文字进行识别，得到若干个文本识别结果，由于多个单独的文本识别结果的存在，若在后续处理如进行预设辨别词、预设校正词的比对时，往往需要每一个文本识别结果进行分别比对，计算量较大，通过预先将多个文本识别结果整合成为一个文本识别总结果后，可以直接一(文本识别总结果)对预设辨别词、预设校正词进行比对，节约了资源占用。

S102：将识别结果集分别与预设辨别词、预设校正词进行比对，以确定待识别证件的可选证件类型，实现对待识别证件的识别。

其中，预设辨别词、预设校正词可以由本领域技术人员从预先采集到若干种证件的文本中提取若干个词语形成。由于每一种证件均可能存在与其他证件不相同的词语存在，故可以将此类词语作为预设辨别词，将其他的至少一部分词语作为预设校正词。可选的，上述预设辨别词、预设校正词为该证件的通用词语，如姓名、性别、年龄等，并不包括与该通用词语对应的张三、女、26等描述信息。

可选的，预设辨别词可以通过如下方式确定：

获取各类型证件的通用词语，形成通用词语集合；

确定通用词语出现频率，该通用词语出现频率根据该通用词语出现在不同类型证件的次数及总的证件类型的数量确定；

若通用词语出现频率小于预设出现频率，则将该通用词语作为其所出现在不同类型的证件的预设辨别词。

可选的，上述的通用词语出现频率也可以替换为通用词语出现频次，此时，若通用词语出现频次小于预设出现频次，也可以将该通用词语作为预设辨别词。

在一些实施例中，将识别结果集分别与预设辨别词、预设校正词进行比对，得到证件辨别词和证件校正词可以通过文本相似度比对等方式在识别结果集中查找是否存在一个或多个预设辨别词，以及一个或多个预设校正词。例如，将与预设辨别词的相似度高于预设相似度阈值的证件文本，或将与预设辨别词相同的证件文本作为证件辨别词。相似的方式可以得到证件校正词。

若某一识别结果集并不能识别到证件辨别词或证件校正词，则终止流程，该证件图像可能并没有包括全部的证件信息或该证件图像为新的证件类型，此时提示重新获取证件图像，还可以将该证件图像发送给相关人员，由相关人员进行判断，若需要，则对该证件图像进行预设辨别词、预设校正词以及预设校正位置关系的获取，以便后续实现对该类型的证件进行识别。

在一些实施例中，预先设定各证件类型与预设辨别词之间的第一映射关系，以及各预设辨别词在各证件类型下与各预设校正词之间的第二映射关系，可选证件类型的确定方式包括但不限于如下方式：

获取证件辨别词所对应的疑似证件类型，该疑似证件类型为与证件辨别词对应的预设辨别词所关联的证件类型；

根据该疑似证件类型确定与该证件辨别词所对应的预设校正词；

若识别结果集包括预设校正词，将该预设校正词作为证件校正词；

根据该证件校正词从疑似证件类型中确定可选证件类型。

例如，第一映射关系包括，预设辨别词A对应有证件类型1、证件类型2、证件类型3，第二映射关系包括，预设辨别词在证件类型1中所对应的预设校正词分别为预设校正词1、预设校正词2、预设校正词3，预设辨别词在证件类型2中所对应的预设校正词分别为预设校正词1、预设校正词4、预设校正词5，预设辨别词在证件类型3中所对应的预设校正词分别为预设校正词4、预设校正词6、预设校正词7。若待识别证件的证件图像通过识别后的识别结果集中原始文本词M与预设辨别词A比对成功，得到证件辨别词M(相同或相似度高于预设相似度阈值)，根据第一映射关系可以得到该待识别证件可能对应的疑似证件类型1、证件类型2、证件类型3。此时，该证件辨别词M所对应的预设校正词包括预设校正词1、预设校正词2、预设校正词3、预设校正词4、预设校正词5、预设校正词6、预设校正词7，继续通过识别结果集与各预设校正词进行比对，若某一个原始文本词N与预设校正词4比对成功，此时将该原始文本词N作为证件校正词，此时由第二映射关系可知，可选证件类型为证件类型2和证件类型3。

通过上述方式，可以基于成熟的文本识别技术，通过对证件图像进行文本识别所得到的识别结果集中的原始文本词依次分别与预设辨别词进行比对得到证件辨别词，进而根据证件辨别词确定预设校正词，再将原始文本词依次与预设校正词进行比对，得到证件校正词，若某一证件类型既包括证件校正词又包括证件辨别词，则该证件类型为可选证件类型。这样，对于证件类型的初步确定不再依靠于图像特征的提取，对证件图像的背景是否繁杂要求度不高，更加简单易行，适用于多种场景。

可选的，对于证件校正位置关系也可以是在对证件图像进行文本识别时，先通过文本检测模型对其进行检测，得到若干个文本框，进而根据证件文本词所在文本框的位置关系得到证件校正位置关系。

在一些实施例中，该方法还包括：

根据识别结果集分别与预设辨别词、预设校正词的比对结果确定证件辨别词和证件校正词；

获取证件校正位置关系和各可选证件类型对应的预设校正位置关系，从可选证件类型中确定待识别证件的识别证件类型。

其中，证件校正位置关系包括至少两个证件文本词所在图像区域之间的相对位置关系，证件文本词包括证件辨别词和/或证件校正词，预设校正位置关系包括至少两个预设文本词之间的预设位置关系，预设文本词为与证件文本词对应的预设辨别词和/或预设校正词。证件辨别词和证件校正词的确定方式可以见上述实施例的描述。

预设位置关系可以是在规范的某一种证件类型下，至少两个预设文本词之间的相互位置关系。

由于不同种类的证件的排版往往有一定差异，比如身份证中，姓名的下方是性别信息，而港澳通行证中姓名的下方是出生日期，这样，就可以根据证件校正位置关系和预设校正位置关系来确定该待识别证件具体为哪一种识别证件类型。

可选的，上述证件校正位置关系包括两个证件文本词的相对位置如上下左右等，该证件校正位置关系还可以包括将证件文本词的位置还原到真实场景坐标系下，两者之间的距离以及方向。

对于证件校正位置关系可以是一个证件辨别词与一个证件校正词之间的位置关系，也可以是两个证件辨别词或两个证件校正词之间的位置关系，在此不做限定。

对于证件校正位置关系的获取可以是将前述所获取的每一个证件校正词分别与各证件辨别词、其他证件校正词之间的证件位置关系，以及每一个证件辨别词与其他证件辨别词之间的证件位置关系，通过上述方式得到若干个证件校正位置关系后，再找到各证件类型中与其对应的预设校正位置关系一一对比，进而确定识别证件类型。

在一些实施例中，为提升识别证件类型的确定效率，可以对预设校正位置关系预先进行筛选，其筛选方式包括但不限于如下方式：

分别获取各可选证件类型中任意两个原始文本词之间的相对位置关系作为预设位置关系；

将各可选证件类型中相同的预设位置关系信息筛除。

可选的，为进一步提升识别证件类型的确定频率该方法还包括：

分别获取筛除后的各预设位置关系的位置关系出现频次；

根据该位置关系频次确定该预设位置关系的对比优先级，位置关系频次越低对比优先级越高。

在一些实施例中，获取证件校正位置关系和各可选证件类型对应的预设校正位置关系包括：

根据证件辨别词和证件校正词确定若干个预设校正位置关系，该预设校正位置关系是根据与证件文本词所对应的预设文本词所确定的；

获取各预设位置关系的对比优先级，并根据该对比优先级的顺序依次获取与该预设位置关系对应的证件校正位置关系。

其中，预设位置关系与证件校正位置关系的对应关系是由预设文本词语证件文本词的对应关系所决定的。

在一些实施例中，从可选证件类型中确定待识别证件的识别证件类型包括：

按照对比优先级的顺序依次对预设位置关系和证件校正位置关系进行比对，得到比对结果；

按照对比优先级的顺序进行比对后，若得到某一比对结果中存在比对成功，则获取该对比优先级所对应的预设位置关系所对应的当前证件类型，若该当前证件类型数量为1个，则直接将该当前证件类型作为识别证件类型；

若该当前证件类型数量多于1个，此时，可以将后续等待比对的预设位置关系中，非当前证件类型对应的预设位置关系筛除后，继续按照对比优先级的顺序进行进一步比对，直到所得到的当前证件类型的数量仅为1个，将该当前证件类型作为识别证件类型。

可选的，若从可选证件类型中没有确定到识别证件类型，比如，存在至少一个证件校正位置关系与各个可选证件类型对应的预设校正位置关系均不一致，则识别失败，停止流程。

在一些实施例中，获取证件校正位置关系和各可选证件类型对应的预设校正位置关系之前，该方法还包括将证件图像输入到预设文本检测模型，获取两个证件文本词的证件位置关系。

其中，预设文本检测模型的构建方式包括：

获取样本证件的样本图像，并对样本图像中样本文本词的位置进行标注，得到样本位置；

将样本图像和样本位置输入预先构建的深度网络学习模型中，对深度网络学习模型进行训练，得到训练后的预设文本检测模型，深度网络学习模型的损失函数包括Dice损失函数、交叉熵损失函数和L1损失函数中至少之一。

应当知晓的是，预设文本检测模型也可以通过本领域技术人员所知晓的其他方式进行训练。

可选的，损失函数为Dice损失函数、交叉熵损失函数和L1损失函数之和，该损失函数包括：

可选的，真实值可以理解为样本图像中对样本文本词A和样本文本词B预先标注好的样本位置，网络预测值可以理解为将该样本图像输入到预设文本检测模型后根据样本文本词A和样本文本词B所得到的模型位置。通过真实值判断网络预测值的预测准确度，当预测准确度达到预设准确度后，完成深度网络学习模型的损失函数的拟合。

在一些实施例中，该方法还包括：

获取识别证件类型的预设关键词；

若识别结果集不包括预设关键词，获取关联关键词，关联关键词与预设关键词的关键位置关系符合预设关键位置关系；

若识别结果集包括关联关键词，根据关联关键词和关键位置关系确定预设关键词所对应的疑似关键信息。

由于对于不同证件类型所对应的证件信息存在一定的差异，对于不同证件类型所要提取的信息也可能存在一定的差异，此时可以将某一证件类型所要提取的信息名称作为预设关键词，进而通过判断识别结果集中是否存在预设关键词，实现对应信息的提取。预设关键词可以是如姓名、身份证号码等词语。证件关键信息可以是该预设关键词所对应的相关个体信息，如对于营业执照来说，当预设关键词为名称，其所对应的证件关键信息为XXX公司。

其中，预设关键词可以是预先根据各证件类型所设定的一个或多个预设关键词。将证件类型与预设关键词形成关键词映射，进而当得到识别证件类型后，根据关键词映射可以得到该识别证件类型所对应的预设关键词。

当识别结果集不包括预设关键词时，可能是由于对于证件图像的文本识别存在一定的失误，导致没有能识别到该预设关键词，或者是由于证件图像在拍摄时刚好没有采集到预设关键词或预设关键词中的一个或多个字，导致在识别结果集中查找不到预设关键词。但由于该预设关键词所对应的证件关键信息有可能是存在与证件图像中的，此时可以通过查找位于该预设关键词周围的其他关联关键词是否存在，进而定位到证件关键信息的可能位置，对证件关键信息直接进行提取，以实现在预设关键词在没有被证件图像所包括或没有被准确识别时，只要证件关键信息被证件图像所包括且被准确识别时，就能被精确提取。

可选的，关联关键词为在证件中位于预设关键词周围位置的原始文本词，如在预设关键词上方、下方、左方或右方的原始文本词。

其中，预设关键位置关系包括所述预设关键词周围位置，如上方、下方、左方、右方、左上方、左下方、右上方、右下方等。

当确定到关联关键词存在时，由于已知该关联关键词与预设关键词之间的位置关系，可以直接根据该关联关键词定位到预设关键词可能的所在位置，以及该证件关键信息可能的所在位置，直接对证件关键信息所在位置的原始文本词作为疑似关键信息，进行提取。

可选的，由于疑似关键信息可能并不是原本需要提取的证件关键信息，或者疑似关键信息与证件关键信息相比并不完整，此时可以通过对疑似关键信息进行验证，进一步提升疑似关键信息的可信度。

可选的，若疑似关键信息包括有预设关键词中的一个或多个字，此时可以通过预先将疑似关键信息与预设关键词进行比对，以避免由于预设关键词识别不完整导致的疑似关键信息的判断失误。

在一些实施例中，该方法还包括：

获取疑似关键信息的验证信息；

若验证信息满足预设验证条件，将疑似关键信息作为证件关键信息。

其中，验证信息包括疑似关键信息的字符长度，疑似区域与关联区域的距离中至少之一，疑似区域为疑似关键信息在证件图像的区域，关联区域为关联关键词在证件图像的区域。

以证件关键信息为某一个证件中的姓名所对应的信息，由于通常来说姓名的字数往往在2-4字之间，若此时疑似关键信息的字符长度少于两个汉字的字符长度或者多于四个汉字字符的字符长度，则该验证信息不满足预设验证条件，否则，可以将该疑似关键信息直接作为证件关键信息。

可选的，预设验证条件可以根据疑似关键信息所对应的预设关键词来选取。

当证件图像调整值预设尺寸时，疑似区域与关联区域的距离包括疑似关键信息的起始字符与关联关键词的起始字符在预设坐标系下的距离，由于证件的排版往往是固定的，故将证件图像转化为预设尺寸预设坐标系下时，疑似关键信息的起始字符与关联关键词的起始字符之间的距离往往是固定的某一数值，若疑似区域与关联区域的距离与预设距离值差异过大，则说明该疑似关键信息可能是错误的或者不完整，此时停止证件关键信息的提取。需要说明的是，若证件图像存在一定的角度差异，则可以通过图像变换使其角度达到预设角度后，再进行距离的确定。

在一些实施例中，该方法还包括：

若识别结果集包括预设关键词，则获取预设关键词所对应的证件关键信息。

由于文字识别往往是一行一行进行识别的，若预设关键词存在于识别结果集中，一般来说证件关键信息也存在于识别结果集中，此时可以直接对证件关键信息进行提取。

当前，在提取到证件关键信息后，还可以对证件关键信息进行合法性校验，如证件关键信息为身份证号码，则可以采用预设规则实现对身份证号码的合法性校验，以进一步保证证件关键信息的提取更加准确。

可选的，对于识别结果集是否包括预设关键词的判断，可以先提取预设关键词的首字符，查找该识别结果集中是否存在该首字符，若存在，提取包括首字符的原始文本词，与预设关键词进行比对，这样可以迅速的将识别结果集不存在预设关键词的情形及时发现，节约时间和算力。

本实施例提供了一种证件识别方法，该方法通过获取待识别证件的证件图像，进行文本识别，以得到识别结果集，并将其分别与预设辨别词、预设校正词进行比对，得到证件辨别词和证件校正词以确定可选证件类型，获取证件校正位置关系和各可选证件类型对应的预设校正位置关系，并从可选证件类型中确定待识别证件的识别证件类型，通过该方法，使得证件类型分类不再受证件图像背景的影响，方案易行，可操作性强。

下面通过一个具体的示例，进一步的对本实施例中的证件识别方法进行示例性说明。

参见图2，该具体的证件识别方法包括：

S201：获取证件图像，并进行文本识别，得到若干个文本识别结果。

在获取证件图像之前，该方法还包括预先训练好能够实现文本识别的文本识别网络和能够检测证件校正位置关系的文本检测模型。

可选的，文本识别网络和文本检测模型均基于OCR技术实现。

可选的，文本检测模型的训练方式包括：

获取样本图像及其样本位置，该样本图像包括若干种证件类别的证件图像，该样本位置包括各样本图像中样本文本词的位置；

将N张样本图像及其样本位置关系组成一个batch(批次)输入到卷积神经网络；

通过Dice损失、交叉熵损失和L1损失训练卷积神经网络；

训练后的卷积神经网络作为文本检测模型。

在训练卷积神经网络的过程中，可以采用小范围随机变换(crop)，随机变换包括但不限于随机对样本图像进行增加噪声、色彩增强、色调变换、对比度变化、随机模型等方式，以实现对样本图像数据进行数据增强，提升模型的泛化能力。

当神经卷积网络训练完毕并获取初步不错的效果后固定卷积层，卷积层参数不再更新。

通过Dice损失、交叉熵损失和L1损失训练卷积神经网络中，卷积神经网络的损失函数为：

可选的，文本识别网络的训练方式包括：

获取训练图像及其文本识别结果，该训练图像包括若干种证件类别的证件图像，该文本识别结果包括该训练图像中的文字；

将N张训练图像及其文本识别结果组成一个batch(批次)输入到卷积神经网络；

通过CTC损失训练卷积神经网络；

训练后的卷积神经网络作为文本识别网络。

在训练卷积神经网络的过程中，可以采用小范围随机变换(crop)，随机变换包括但不限于随机对训练图像进行增加噪声、色彩增强、色调变换、对比度变化、随机模型等方式，以实现对训练图像数据进行数据增强，提升模型的泛化能力。

其中，训练图像与样本图像可以相同也可以不同，在此不做限定。

证件图像的获取方式在此不做限定。

在一些实施例中，对证件图像进行文本识别，得到文本识别结果的方式包括：

将证件图像缩放到检测预设尺寸，该检测预设尺寸为能够匹配文本检测模型的识别尺寸；

将缩放后的证件图像输入到文本检测网络中，得到证件图像中若干个文本框位置的文本框位置信息；

将文本框的四个顶点根据投射变换在证件图像上扣取文本小图，根据等比例缩放方式将文本小图缩放到识别预设尺寸，该识别预设尺寸为能够匹配文本识别网络的识别尺寸；

通过文本识别网络对文本小图进行识别，以得到文本识别结果。

S202：将多个文本识别结果整合为文本识别总结果。

也即，将多个分散的文本识别结果进行拼接整合，形成一个文本识别总结果。这样可以在后续进行比对等流程时，只针对文本识别总结果这一项进行比对，不需要对多个文本识别结果进行分别比对。

S203：判断文本识别总结果中是否包括预设辨别词，若存在，执行步骤S204，若不存在，执行步骤S217。

以证件类型为身份证为例，其预设辨别词可以为“身份号码”等。以证件类型为驾驶证为例，其预设辨别词可以为“驾驶证”等。以证件类型为港澳通行证为例，其预设辨别词可以为“港澳”等。

S204：判断文本识别总结果中是否包括预设校正词，若存在，执行步骤S205，若不存在，执行步骤S217。

可选的，为保证证件类别的确定更加准确，也可以限定识别总结果所包括的预设校正词的数量，如需要至少包括2个预设校正词，才可以执行步骤S205，否则则执行步骤S217。

以证件类型为身份证为例，其预设辨别词可以为“姓名”、“性别”、“民族”等。以证件类型为驾驶证为例，其预设辨别词可以为“姓名”、“性别”、“国籍”等。

S205：将文本识别总结果中的预设辨别词作为证件辨别词，将文本识别总结果中的预设校正词作为证件校正词。

S206：获取证件校正位置关系和各所述可选证件类型对应的预设校正位置关系。

S207：判断各证件校正位置关系是否与预设校正位置关系一致，若一致，则执行步骤S208，否则，执行步骤S216。

S208：确定识别证件类型。

S209：判断文本识别总结果中是否包括预设关键词，若存在，执行步骤S210，若不存在，执行步骤S211。

其中，预设关键词可以根据识别证件类型来确定，也可以由本领域技术人员根据需要设定。

S210：获取预设关键词所对应的证件关键信息。

以预设关键词为公民身份证号码为例，此时可以直接获取公民身份证号码123456，也可以获取包括预设关键词在内的公民身份证号码123456。

S211：获取关联关键词。

该关联关键词可以为预设关键词在证件图像中周围的证件文本词，以证件类型为身份证为例，当预设关键词为姓名时，若此时文本识别总结果中不包括“姓名”，则可以将“性别”、“民族”等中至少之一作为关联关键词。

S212：判断文本识别总结果中是否存在至少一个关联关键词，若存在，执行步骤S213，否则执行步骤S217。

S213：根据关联关键词和关键位置关系确定预设关键词对应的疑似关键信息。

继续以证件类型为身份证为例，当预设关键词为姓名时，若此时文本识别总结果中不包括“姓名”，则可以将“性别”、“民族”等中至少之一作为关联关键词，若此时包括关联关键词“性别”，由于其关键位置关系为位于预设关键词下方，此时可以获取“性别”上方的位置L所对应的文本做为“姓名”，将位置L旁边的(右侧)的文本作为疑似关键信息。

可选的，可以通过紧邻搜索法以及关键位置关系来寻找满足距离较近、相对位置关系正确、字符长度满足条件的文本作为疑似关键信息。

S214：获取疑似关键信息的验证信息。

其中，验证信息包括但不限于字符长度、疑似区域与关联区域的距离中至少之一。

S215：判断验证信息是否满足预设验证条件，若满足，执行步骤S216，否则，执行步骤S217。

S216：将疑似关键信息作为证件关键信息。

继续以证件类型为身份证为例，上述提到获取“性别”上方的位置L所对应的文本做为“姓名”，将位置L旁边的(右侧)的文本作为疑似关键信息，若此时疑似关键信息为空文本，也即并没有获取到文字信息，或此时疑似关键信息为单字符，由于姓名往往至少存在两个汉字，故可以认为该疑似关键信息不满足预设验证条件。若此时疑似关键信息为三个汉字，则可以认为该疑似关键信息应当是准确的，将该疑似关键信息作为证件关键信息，完成证件关键信息的提取。

若证件关键信息需要包括“姓名”这一预设关键词，此时可以自动添加“姓名”在疑似关键信息之前。

现有证件类别的判断往往通过证件类别分类器进行分类，但证件很容易融入到背景环境中，增加了证件类型分类的难度，本实施例提出了一种证件识别方法，通过先识别证件图像中所有OCR文本信息，通过判断证件图像中作为类别判断性文本的预设判别词与作为辅助校验性文本的预设校正词是否同时存在于OCR识别结果中，且满足预设校正位置关系来判断证件类别。既不需要借助于证件类别分类器来实现类型分类，也不受证件图像的背景的影响，降低了证件类型分类的难度。

可选的，由于证件样式的相对唯一性，提出了一种证件关键信息提取的近邻搜索法方法，通过前述步骤所得到的识别证件类别，进而确定其所对应的预设关键词，进而实现证件关键信息的提取。做到了有的放矢，信息提取更加有针对性。

可选的，即便预设关键词并没有存在于识别总结果中，也可以通过确定关联关键词，进而找到疑似关键信息，通过对疑似关键信息的验证，实现证件关键信息的提取。

实施例二

请参阅图3，本实施例提供了一种证件识别系统300，该系统包括：

文本识别模块301，用于获取待识别证件的证件图像，进行文本识别，得到包括若干个文本识别结果的识别结果集；

可选证件类型确定模块302，用于将识别结果集分别与预设辨别词、预设校正词进行比对，以确定待识别证件的可选证件类型，实现对待识别证件的识别。

可选的，该系统还包括识别证件类型确定模块，用于：

获取证件校正位置关系和各可选证件类型对应的预设校正位置关系，从可选证件类型中确定待识别证件的识别证件类型；

其中，证件校正位置关系包括至少两个证件文本词所在图像区域之间的相对位置关系，证件文本词包括证件辨别词和/或证件校正词，预设校正位置关系包括至少两个预设文本词之间的预设位置关系，预设文本词为与证件文本词对应的预设辨别词和/或预设校正词。

在本实施例中，该系统实质上是设置了多个模块用以执行上述任一实施例中的方法，具体功能和技术效果参照上述实施例一即可，此处不再赘述。

参见图4，本发明实施例还提供了一种电子设备1300，包括处理器1301、存储器1302和通信总线1303；

通信总线1303用于将处理器1301和存储器连接1302；

处理器1301用于执行存储器1302中存储的计算机程序，以实现如上述实施例一中的一个或多个所述的方法。

本发明实施例还提供了一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

计算机程序用于使计算机执行如上述实施例一中的任一项所述的方法。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的实施例一所包含步骤的指令(instructions)。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种证件识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的证件识别方法，其特征在于，所述方法还包括：

其中，所述证件校正位置关系包括至少两个证件文本词所在图像区域之间的相对位置关系，所述证件文本词包括证件辨别词和/或证件校正词，所述预设校正位置关系包括至少两个预设文本词之间的预设位置关系，所述预设文本词为与所述证件文本词对应的预设辨别词和/或预设校正词。

3.如权利要求1所述的证件识别方法，其特征在于，所述方法还包括：

获取所述识别证件类型的预设关键词；

4.如权利要求3所述的证件识别方法，其特征在于，所述方法还包括：

5.如权利要求3所述的证件识别方法，其特征在于，所述方法还包括：

6.如权利要求1-5任一项所述的证件识别方法，其特征在于，所述获取待识别证件的证件图像，进行文本识别，得到包括若干个文本识别结果的识别结果集之后，所述方法还包括：

将所述若干个文本识别结果整合为文本识别总结果；

以所述文本识别总结果更新所述识别结果集。

7.如权利要求1-5任一项所述的证件识别方法，其特征在于，所述获取证件校正位置关系和各所述可选证件类型对应的预设校正位置关系之前，所述方法还包括将所述证件图像输入到预设文本检测模型，获取两个证件文本词的证件位置关系；

其中，所述预设文本检测模型的构建方式包括：

8.如权利要求7所述的证件识别方法，其特征在于，所述损失函数为Dice损失函数、交叉熵损失函数和L₁损失函数之和，所述损失函数包括：

9.一种证件识别系统，其特征在于，所述系统包括：

10.一种电子设备，其特征在于，包括处理器、存储器和通信总线；

所述通信总线用于将所述处理器和存储器连接；

所述处理器用于执行所述存储器中存储的计算机程序，以实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序用于使所述计算机执行如权利要求1-8中任一项所述的方法。