CN110378328B

CN110378328B - 一种证件图像处理方法及装置

Info

Publication number: CN110378328B
Application number: CN201910868248.2A
Authority: CN
Inventors: 岑曙生
Original assignee: Atlas Future (nanjing) Artificial Intelligence Research Institute Co Ltd
Current assignee: Atlas Future (nanjing) Artificial Intelligence Research Institute Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2019-12-13
Anticipated expiration: 2039-09-16
Also published as: CN110378328A

Abstract

本申请提供一种证件图像处理方法及装置，用于改善边缘检测在复杂背景下会失效导致很难截取出目标字段内容图像的问题。该方法包括：从获得的证件图像中提取多个可识别的第一字符和每个第一字符的可识别位置；从多个可识别的第一字符中筛选出多个与第二字符相同的字符，获得多个第三字符，第二字符为多个证件模板中的第一证件模板中的字段名称字符，证件模板包括：多个字段名称字符、多个字段名称位置和多个字段内容边框，字段名称位置为字段名称字符对应的位置；根据多个第三字符的可识别位置和多个第三字符的字段名称位置将证件图像转换为标准图像；从标准图像截取出多个与第一证件模板的字段内容边框对应的字段内容图像。

Description

一种证件图像处理方法及装置

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种证件图像处理方法及装置。

背景技术

在证件图像中，证件图像的可识别内容包括：字段名称和字段内容，字段名称是指证件图像中某字段的名称，字段内容是指证件图像中某字段的具体内容，例如：身份证上的字段名称为“性别”，字段内容则可以为“男”，字段内容也可以为“女”；再例如：身份证上的字段名称为“民族”，字段内容则可以为“汉”。证件字段内容图像则是指证件图像中某字段的具体内容的区域图像，以上面的例子说明，该区域图像是指包括“男”或“女”其中一个字符的区域图像，或者包括“汉”这个字符的区域图像。

目前，从证件图像中提取字段内容图像可以是基于传统图像处理的方法，该方法的步骤是：图像预处理、边缘检测、矫正图像、版面分析、行切分等。其中，版面分析和行切分主要依赖直方图统计和匹配算法，也就是统计像素点的分布，然后与预设分布数据进行对比，以判断是否属于目标字段内容图像；若是，则截取出目标字段内容图像。然而，这种方法中的边缘检测在复杂背景下会失效导致很难截取出目标字段内容图像。

发明内容

本申请的目的在于提供一种证件图像处理方法及装置，用于改善边缘检测在复杂背景下会失效导致很难截取出目标字段内容图像的问题。

本申请提供了一种证件图像处理方法，包括：从获得的证件图像中提取多个可识别的第一字符和每个所述第一字符的可识别位置；从所述多个可识别的第一字符中筛选出多个与第二字符相同的字符，获得多个第三字符，所述第二字符为多个证件模板中的第一证件模板中的字段名称字符，所述证件模板包括：多个字段名称字符、多个字段名称位置和多个字段内容边框，所述字段名称位置为所述字段名称字符对应的位置，所述字段内容边框为所述字段名称字符对应的字段内容图像的外接边框；根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像；从所述标准图像截取出多个与所述第一证件模板的字段内容边框对应的所述字段内容图像。在上述的实现过程中，通过获得证件模板的多个字段名称字符和证件图像中的多个可识别字符中的相同字符，获得相同字符对应的可识别位置和相同字符对应的字段名称位置，根据上述匹配的不同位置将证件图像转换为标准图像后，再从标准图像截取出字段内容图像，也就是说，根据相同字符确定出不同的位置有效地提高了图像矫正的正确率，从而有效地避免了在复杂背景下会失效导致很难截取出目标字段内容图像的问题。

可选地，所述证件模板还包括多个与所述字段内容边框对应的字段名称，在所述从所述标准图像截取出多个与所述第一证件模板的字段内容边框对应的所述字段内容图像之后，还包括：使用预先训练的卷积神经网络模型从多个所述字段内容图像中提取内容字符，并将内容字符连接成内容字符串，获得多个字段内容和所述字段内容对应的字段名称，所述字段名称为多个所述字段名称字符连接的字符串。在上述的实现过程中，从多个字段内容图像中提取多个字段内容和该字段内容对应的字段名称，有效地增加了字段内容和字段名称匹配率和正确率。

可选地，在所述根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像之前，还包括：判断所述第三字符的个数是否大于预设阈值；若是，则执行所述根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像。在上述的实现过程中，通过根据相同字符的可识别位置和该相同字符的字段名称位置将证件图像转换为标准图像，通过字符匹配从而获得匹配位置，以增加图像矫正的正确率。

可选地，在所述判断所述第三字符的个数是否大于预设阈值之后，还包括：若所述第三字符的个数小于或等于预设阈值，则将所述多个证件模板中的第二证件模板中的字段名称字符确定为第四字符，并从所述多个可识别的第一字符中筛选出多个与所述第四字符相同的字符，获得多个第五字符，并根据所述多个第五字符的可识别位置和所述多个第五字符的字段名称位置将所述证件图像转换为标准图像，从所述标准图像截取出多个与所述第二证件模板的字段内容边框对应的所述字段内容图像。在上述的实现过程中，通过根据相同字符的个数小于或等于预设阈值，则更换证件模板重新进行匹配操作，可以增加图像矫正的正确率。

可选地，所述根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像，包括：将所述多个第三字符的可识别位置和所述多个字段名称位置代入透视变换方程计算，获得透视变换矩阵；将所述证件图像的多个像素的坐标值乘以所述透视变换矩阵，获得所述标准图像。在上述的实现过程中，通过将多个第三字符的可识别位置和多个字段名称位置代入透视变换方程计算，获得透视变换矩阵后，再根据证件图像和透视变换矩阵获得标准图像，可以增加图像矫正的正确率。

可选地，所述将所述多个第三字符的可识别位置和所述多个字段名称位置代入预设方程计算，获得透视变换矩阵，包括：使用随机抽样一致算法将所述多个第三字符的可识别位置和所述多个字段名称位置代入计算，获得所述透视变换矩阵；其中，H为所述透视变换矩阵，和分别为所述第三字符的多个可识别位置中的第i个可识别位置的横坐标和纵坐标，和分别为所述多个字段名称位置中的第j个字段名称位置的横坐标和纵坐标。在上述的实现过程中，通过将多个第三字符的可识别位置和多个字段名称位置代入透视变换方程计算，获得透视变换矩阵后，再根据证件图像和透视变换矩阵获得标准图像，可以增加图像矫正的正确率。

可选地，所述从获得的证件图像中提取多个可识别的第一字符和每个所述第一字符的可识别位置，包括：使用预先训练的第一神经网络模型从所述证件图像中提取多个所述第一字符的区域图像和每个所述第一字符的可识别位置；使用预先训练的第二神经网络模型识别多个所述区域图像的每个区域图像的字符，获得所述多个可识别的第一字符。在上述的实现过程中，通过使用预先训练的神经网络模型从证件图像中识别多个可识别的第一字符，可以增加第一字符识别的正确率。

本申请还提供了一种证件图像处理装置，包括：第一提取模块，用于从获得的证件图像中提取多个可识别的第一字符和每个所述第一字符的可识别位置；第一获得模块，用于从所述多个可识别的第一字符中筛选出多个与第二字符相同的字符，获得多个第三字符，所述第二字符为多个证件模板中的第一证件模板中的字段名称字符，所述证件模板包括：多个字段名称字符、多个字段名称位置和多个字段内容边框，所述字段名称位置为所述字段名称字符对应的位置，所述字段内容边框为所述字段名称字符对应的字段内容图像的外接边框；第一转换模块，用于根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像；第一截取模块，用于从所述标准图像截取出多个与所述第一证件模板的字段内容边框对应的所述字段内容图像。在上述的实现过程中，通过获得证件模板的多个字段名称字符和证件图像中的多个可识别字符中的相同字符，获得相同字符对应的可识别位置和相同字符对应的字段名称位置，根据上述匹配的不同位置将证件图像转换为标准图像后，再从标准图像截取出字段内容图像，也就是说，根据相同字符确定出不同的位置有效地提高了图像矫正的正确率，从而有效地避免了在复杂背景下会失效导致很难截取出目标字段内容图像的问题。

可选地，还包括：第二获得模块，用于使用预先训练的卷积神经网络模型从多个所述字段内容图像中提取内容字符，并将内容字符连接成内容字符串，获得多个字段内容和所述字段内容对应的字段名称，所述字段名称为多个所述字段名称字符连接的字符串。

可选地，该装置还包括：第一判断模块，用于判断所述第三字符的个数是否大于预设阈值；第二转换模块，用于若所述第三字符的个数大于预设阈值，则根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像。

可选地，还包括：第三转换模块，用于若所述第三字符的个数小于或等于预设阈值，则将所述多个证件模板中的第二证件模板中的字段名称字符确定为第四字符，并从所述多个可识别的第一字符中筛选出多个与所述第四字符相同的字符，获得多个第五字符，并根据所述多个第五字符的可识别位置和所述多个第五字符的字段名称位置将所述证件图像转换为标准图像，从所述标准图像截取出多个与所述第二证件模板的字段内容边框对应的所述字段内容图像。

可选地，还包括：第三获得模块，用于将所述多个第三字符的可识别位置和所述多个字段名称位置代入透视变换方程计算，获得透视变换矩阵；第四获得模块，用于将所述证件图像的多个像素的坐标值乘以所述透视变换矩阵，获得所述标准图像。

可选地，所述第三获得模块包括：第五获得模块，用于使用随机抽样一致算法将所述多个第三字符的可识别位置和所述多个字段名称位置代入计算，获得所述透视变换矩阵；其中，H为所述透视变换矩阵，和分别为所述第三字符的多个可识别位置中的第i个可识别位置的横坐标和纵坐标，和分别为所述多个字段名称位置中的第j个字段名称位置的横坐标和纵坐标。

可选地，所述第一提取模块包括：位置提取模块，用于使用预先训练的第一神经网络模型从所述证件图像中提取多个所述第一字符的区域图像和每个所述第一字符的可识别位置；字符识别模块，用于使用预先训练的第二神经网络模型识别多个所述区域图像的每个区域图像的字符，获得所述多个可识别的第一字符。

本申请还提供了一种电子设备，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如上所述的方法。

本申请还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的电子设备的结构示意图；

图2示出了本申请实施例提供的证件图像处理方法流程示意图；

图3示出了本申请实施例提供的字符位置检测模型示意图；

图4示出了本申请实施例提供的字符分类神经网络模型示意图；

图5示出了本申请实施例提供的第一证件模板的示意图；

图6示出了本申请实施例提供的证件图像处理装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

请参见图1，图1示出了本申请实施例提供的电子设备的结构示意图；本申请实施例提供的一种电子设备101，包括：处理器102和存储器103，存储器103存储有处理器102可执行的机器可读指令，机器可读指令被处理器102执行时执行如下的方法。

请参见图1，本申请实施例还提供了一种存储介质104，该存储介质104上存储有计算机程序，该计算机程序被处理器102运行时执行如下的方法。

其中，存储介质104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory,简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory,简称EPROM），可编程只读存储器（Programmable Red-Only Memory,简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

现有的边缘检测方法在复杂背景下会失效导致很难截取出目标字段内容图像，例如：背景颜色和证件图像的边缘颜色相近，或者背景颜色和证件图像的边缘颜色一致时，就存在难以确定证件图像的边缘的情况，导致很难找到透射变换需要的正确匹配位置，从而很难截取出目标字段内容图像。

第一实施例

请参见图2，图2示出了本申请实施例提供的证件图像处理方法流程示意图；该方法可以由图像采集装置执行，该图像采集装置例如：红外热像仪、监控摄像机、照相机或带摄像头的终端等，带摄像头的终端例如：手机、平板电脑或笔记本等。该方法也可以在图像采集装置将采集的证件图像传输给具有执行计算机程序功能的终端（后面称为设备终端）后，由设备终端执行这里的方法，设备终端例如：个人电脑、网络交换机、网络路由器或台式主机等。该方法也可以是图像采集装置或设备终端将证件图像传输给服务器后，由服务器执行这里的方法，服务器是指通过网络提供计算服务的设备，服务器例如：非x86服务器包括：大型机、小型机和UNIX服务器，以及x86服务器。

当然，在具体的实施过程中，图像采集装置和设备终端可以是通过高速传输线路连接，这里的高速传输线路可以快速的传输证件图像，这里的高速传输线路包括但不限于：光纤、串口、并行总线或通用串行总线等。设备终端和服务器可以是通过有线网络或者无线网络的方式进行连接，可以理解的是，图像采集装置和服务器也可以是通过有线网络或者无线网络的方式进行连接，其连接方式包括但不限于光纤、无线局域网或广域网。

本申请实施例提供了一种证件图像处理方法，该方法一共包括三个阶段：字符文字识别、图像矫正和特定区域图像识别，在这里的图像矫正和特定区域图像识别将在后面进行介绍，因此，这里首先介绍字符文字识别的方法，该方法可以包括如下步骤：

步骤S100：从获得的证件图像中提取多个可识别的第一字符和每个第一字符的可识别位置。

证件图像，是指包括多个可识别字符的证件图像，这里的证件可以用于证明某人、某物或某事，这里的证件例如：身份证、行驶证、驾驶证、出生证明、营业执照等标准证件。这里的证件图像可以是上述的图像采集装置采集的，可以由上述的图像采集装置执行该方法进行处理，也可以由上述的设备终端或者服务器执行该方法进行处理。

第一字符，是指上述证件图像中的可以识别的字符，例如：若身份证上的字段名称为“性别”，字段内容为“男”，那么这里的“性”、“别”和“男”均是可识别的第一字符。

第一字符的可识别位置，是指上述的第一字符的某个特定的位置，例如第一字符的中心位置、左下角、右下角、左上角或右上角的位置。在本申请实施例中，为了便于说明以第一字符的中心位置为例，当然在具体的实施过程中，也可以是第一字符的其它位置，这里的可识别位置的具体位置不应理解为对本申请实施例的限制。

上述方法步骤中的具体实施方式，可以采用基于神经网络的单字符检测模型，当然在具体实施过程中有很多种神经网络可以选择，下面将对基于神经网络的单字符检测模型的具体实施方式进行详细的介绍。在本申请实施例中，步骤S100的其中一种实施方式可以包括如下步骤：

步骤S110：使用预先训练的第一神经网络模型从证件图像中提取多个第一字符的区域图像和每个第一字符的可识别位置。

第一字符的区域图像，是指仅从证件图像中截取包括第一字符的区域部分的图像，从仅该图像中仅能够识别出第一字符的区域图像，例如：从身份证中裁剪的单字图像，该单字图像具体地例如：包括“姓”字的图像，或者包括“名”字的图像。

第一神经网络模型，是指用于检测第一字符的区域图像位置的神经网络模型，在具体的实施过程中，可以采用卷积神经网络模型提取第一字符的区域图像位置。当然卷积神经网络模型也有很多种，常见的例如：AlexNet、ZFNet、VGGNet、GoogLeNet和ResNet等等，为了便于说明，下面仅列举采用一种具体的神经网络模型的实施方式，下面将对单点多盒检测模型（Single Shot Multibox Detector，SSD）作为字符位置检测模型进行说明。

请参见图3，图3示出了本申请实施例提供的字符位置检测模型示意图；上述的SSD模型是基于前馈卷积网络，针对前面的卷积层中的目标类别实例，产生一个固定大小的边界框的集合和分数，紧接着一个非最大抑制（non-maximum suppression）步骤产生最后的字符位置检测。在具体的实施过程中发现，使用上述的SSD模型可以有效地提取多个第一字符的区域图像，可以理解的是，每个第一字符的区域图像的中心位置可以作为第一字符的可识别位置。

步骤S120：使用预先训练的第二神经网络模型识别多个区域图像的每个区域图像的字符，获得多个可识别的第一字符。

请参见图4，图4示出了本申请实施例提供的字符分类神经网络模型示意图；第二神经网络模型，是指识别区域图像的字符分类神经网络模型，该分类神经网络模型可以是深度卷积神经网络，该分类神经网络模型用于将每个区域图像进行字符分类，获得每个区域图像对应的字符，可以理解的是在，这里的区域图像是指包括单个字符的区域图像。如上描述的，深度卷积神经网络模型也有很多种，为了便于说明，这里以用于字符分类的ResNet-18 网络模型进行说明，ResNet-18网络模型包括一个32通道的卷积层、四个卷积块、平均池化层、全连接层和Softmax层，其中，四个卷积块中的每个卷积块均包括多个卷积层。当然，在具体的实施过程中，可以采用其它的字符分类模型，例如：ResNet-50模型、VGG-16模型和LeNet模型等，因此，这里的第二神经网络模型的具体实现方式不应理解为对本申请实施例的限制。

为了便于理解，将上面获得的多个可识别的第一字符和每个第一字符的可识别位置称之为集合P，该集合P中的每个元素表示为（c，x，y），其中，c表示可识别的第一字符，x和y表示第一字符的可识别位置，具体的例如：当证件图像正面朝上且较宽的一边水平放置时，以该证件图像的左上角为原点建立坐标系，以证件图像较宽的一边作为横坐标，以证件图像较窄的一边作为纵坐标，此时，x代表该坐标系中横坐标的值，y代表该坐标系中纵坐标的值，因此，x和y就可以表示第一字符的可识别位置，P集合例如：{(姓, 10, 20)，(名, 20,20)，(性, 10, 40)，(别, 20, 40)，…}。

步骤S200：从多个可识别的第一字符中筛选出多个与第二字符相同的字符，获得多个第三字符。

其中，第二字符为多个证件模板中的第一证件模板中的字段名称字符，证件模板包括：多个字段名称字符、多个字段名称位置和多个字段内容边框，字段名称位置为字段名称字符对应的位置，字段内容边框为字段名称字符对应的字段内容图像的外接边框。

请参见图5，图5示出了本申请实施例提供的第一证件模板的示意图；为了便于理解，下面对证件模板进行说明，在具体的实施过程中，多个证件模板例如：第一证件模板为身份证模板、第二证件模板为行驶证模板和第三证件模板为驾驶证模板等等。其中，以第一证件模板为例继续说明，第一证件模板包括：多个字段名称字符、多个字段名称位置和多个字段内容边框。下面将对这个第一证件模板包括的内容进行详细的说明如下：

可以将这里的多个字段名称字符和多个字段名称位置称为集合A，该集合A就是包括证件图像上字段名称的字符信息，继续以上面描述的坐标系进行说明，该集合A例如：集合A中的每个元素可以表示为(c, x, y)，c表示字段名称字符，x和y表示字段名称位置，这里的字段名称字符例如：若身份证上的字段名称为“性别”，那么字段名称字符则为“性”和“别”，字段名称位置则是“性”和“别”的中心位置，结合图中的集合A可以表示为集合A:{(姓, 10, 20)，(名, 20, 20)，(性, 10, 40)，(别, 20, 40)，…}。

可以将这里的字段内容边框称为集合B，该集合B中的每个元素可以表示为(s, x,y, w, h)，s表示字段的名称，x、y、w和h表示字段内容的矩形框，其中，x和y是指字段内容图形的某个特定的位置，字段内容图形就可以理解为在图中的虚线矩形框，这里的某个特定的位置例如字段内容图形的中心位置、左下角、右下角、左上角或右上角的位置；而w和h则分别表示字段内容图形的宽和高，即可以理解为图中的虚线矩形框的宽和高。因此，结合图中的集合B可以表示为集合B:{(姓名, 20,20,50,10)，(民族, 50,60,20,10)，…}。

第三字符为多个第一字符和多个第二字符相同的字符，以上面的例子进行说明，即集合P中字符c与集合A中字符c相同的多个相同字符，多个第三字符例如:{姓，名，性，别}等字段名称字符。

步骤S300：根据多个第三字符的可识别位置和多个第三字符的字段名称位置将证件图像转换为标准图像。

在具体实施过程中，图像采集装置采集的图像可能不是标准图像，例如：照相机获取的图像是倾斜的图像，此时，需要将倾斜的图像转换为标准图像，因此，需要根据相同字符的不同位置对作为转换的依据，这里的不同位置是指多个第三字符的可识别位置和多个第三字符的字段名称位置，其中可识别位置和对应的字段名称位置被称为一个配对，即可获得多个配对，下面的图像矫正即可根据这里的多个配对进行计算。多个第三字符的可识别位置，即可以理解为上述中集合P中多个相同字符的x和y。多个第三字符的字段名称位置，即可以理解为上述中集合A中多个相同字符的x和y。

如上面描述的，该方法一共包括三个阶段：字符文字识别、图像矫正和特定区域图像识别，上面介绍了字符文字识别的方法，下面介绍图像矫正的方法，可以理解的是，图像矫正在具体实施过程中有很多种方法，这里以透视变换方法为例进行说明，在步骤S300之前，可以对判断第三字符的个数是否大于预设阈值，根据判断结果可以执行两个分支的步骤，其中，判断结果为是的分支可以执行步骤S310，判断结果为否的分支可以执行步骤S320，下面对步骤S310和步骤S320进行详细地说明：

步骤S310：若第三字符的个数大于预设阈值，则根据多个第三字符的可识别位置和多个第三字符的字段名称位置将证件图像转换为标准图像。

其中，预设阈值可以为5，也可以为7，也可以为10，为了便于说明，在本申请实施例中将以预设阈值为10进行描述，根据多个第三字符的可识别位置和多个第三字符的字段名称位置将证件图像转换为标准图像的具体实施方式，可以包括如下步骤：

步骤S311：将多个第三字符的可识别位置和多个字段名称位置代入透视变换方程计算，获得透视变换矩阵。

该方法步骤的其中一种实施方式可以为，使用随机抽样一致（RANSAC）算法将多个第三字符的可识别位置和多个字段名称位置代入计算，获得透视变换矩阵；

其中，H为透视变换矩阵，和分别为第三字符的多个可识别位置中的第i个可识别位置的横坐标和纵坐标，和分别为多个字段名称位置中的第j个字段名称位置的横坐标和纵坐标。

步骤S312：将证件图像的多个像素的坐标值乘以透视变换矩阵，获得标准图像。

在具体的实施过程中，透视变换是指对像素位置的变换，因此，需要将证件图像的多个像素的坐标值乘以透视变换矩阵，其中，透视变换矩阵可以表示为如下：

；

那么，透视变换的方程可以表示为如下方程：

；

其中，H为透视变换矩阵，h₀₀、h₀₁、h₀₂、h₁₀、h₁₁、h₁₂、h₂₀、h₂₁和h₂₂均为透视变换矩阵的待求的系数，和分别为上述集合A中多个相同字符中一个相同字符的x和y的值，和分别为上述集合P中多个相同字符中一个相同字符的x和y的值。

在上述的实现过程中，通过根据相同字符的可识别位置和该相同字符的字段名称位置将证件图像转换为标准图像，通过字符匹配从而获得匹配位置，以增加图像矫正的正确率。

步骤S400：从标准图像截取出多个与第一证件模板的字段内容边框对应的字段内容图像。

可以理解的是，从标准图像截取出多个与字段内容边框对应的字段内容图像，如上面描述的，字段内容边框可以称为集合B，因此，从获得的标准图像根据集合B中的x、y、w和h就可以截取对应的字段内容图像，即图5中虚线框中的包括“张三”和“汉”图像。

在上述的实现过程中，通过获得证件模板的多个字段名称字符和证件图像中的多个可识别字符中的相同字符，获得相同字符对应的可识别位置和相同字符对应的字段名称位置，根据上述匹配的不同位置将证件图像转换为标准图像后，再从标准图像截取出字段内容图像，也就是说，根据相同字符确定出不同的位置有效地提高了图像矫正的正确率，从而有效地避免了在复杂背景下会失效导致很难截取出目标字段内容图像的问题。

如上面描述的，该方法一共包括三个阶段：字符文字识别、图像矫正和特定区域图像识别，上面介绍了图像矫正的方法，下面介绍特定区域图像识别的方法。在本申请实施例中，证件模板还包括多个与字段内容边框对应的字段名称，在步骤S400之后，还可以包括如下步骤：

步骤S500：使用预先训练的卷积神经网络模型从多个字段内容图像中提取内容字符，并将内容字符连接成内容字符串，获得多个字段内容和字段内容对应的字段名称。

其中，这里的卷积神经网络模型可以采用图4中的字符分类神经网络模型，具体提取内容字符的方法可以参见步骤S120中的提取第一字符方法，因此这里提取内容字符的方法便不再赘述。获得的内容字符例如“汉”、“张”和“三”，这里的字段名称为多个字段名称字符连接的字符串，多个字段名称字符连接的字符串例如“张三”。

可选的，上面描述了第三字符的个数大于预设阈值的情况，下面将介绍第三字符的个数小于或等于预设阈值的情况，即相同字符的个数不大于预设阈值的处理方法可以包括如下步骤：

步骤S600：若第三字符的个数小于或等于预设阈值，则将多个证件模板中的第二证件模板中的字段名称字符确定为第四字符，并从多个可识别的第一字符中筛选出多个与第四字符相同的字符，获得多个第五字符，并根据多个第五字符的可识别位置和多个第五字符的字段名称位置将证件图像转换为标准图像，从标准图像截取出多个与字段内容边框对应的字段内容图像。

可以理解的是，若第三字符的个数小于或等于预设阈值，即若集合P与第一证件模板中的集合A中相同字符的个数小于或等于预设阈值，则更换第一证件模板为第二证件模板，继续比较集合P与第二证件模板中的集合A中相同字符，将多个证件模板中的第二证件模板中的字段名称字符确定为第四字符，并从多个可识别的第一字符中筛选出多个与第四字符相同的字符，获得多个第五字符，并根据多个第五字符的可识别位置和多个第五字符的字段名称位置将证件图像转换为标准图像，从标准图像截取出多个与字段内容边框对应的字段内容图像。这里的方法步骤与上述的步骤S200和步骤S400类似，因此，这里的不再赘述，不清楚的地方可以参照上述的步骤S200至步骤S400的描述。

需要说明的是，在具体的实施过程中，更换第一证件模板为第二证件模板后，将多个证件模板中的第二证件模板中的字段名称字符确定为第四字符，这里仍然需要判断第四字符的个数是否大于预设阈值，若第四字符的个数仍然小于或等于预设阈值，则需要将第二证件模板为第三证件模板后继续判断相同字符个数是否大于预设阈值，以此类推，若相同字符个数仍然小于或等于预设阈值，则继续更换证件模板并判断相同字符个数是否大于预设阈值，直到多个证件模板中的字段名称字符都被对比过。

当然，在具体的实施过程中，除了上述的先匹配证件模板，若证件模板不合适则更换证件模板的方式之外，还可以在执行匹配证件模板方法之前，先从多个待确定模板中查找匹配的证件模板，然后再将匹配的证件模板作为上述方法的第一证件模板，来执行本申请实施例中的方法。从多个待确定模板中查找匹配的证件模板的方法可以包括如下具体步骤：

步骤S610：计算多个待确定模板中的每个待确定模板的多个第二字符和多个可识别的第一字符的相同字符数，获得多个待确定模板的相同字符数。

可以理解的是，在获得多个相同字符数之前，首先需要获得多个待确定模板中的每个待确定模板的多个第二字符和多个可识别的第一字符的相同字符，这里的获得多个待确定模板的每个待确定模板的相同字符与上述步骤S200中获得多个第三字符的原理类似，因此，这里不再赘述，不清楚的部分可以参照上述步骤S200中的描述。在获得每个待确定模板的多个相同字符后，将每个待确定模板的多个相同字符相加，便获得每个待确定模板的相同字符数，即获得多个待确定模板的相同字符数。

步骤S620：将多个待确定模板的相同字符数中数值最大的相同字符数对应的待确定模板确定为第一证件模板。

需要说明的是，在具体的实施方式中，也可以不选择多个待确定模板的相同字符数中数值最大的相同字符数对应的待确定模板确定为第一证件模板，只要待确定模板的相同字符数大于预设阈值即可。这里将多个待确定模板的相同字符数中数值最大的相同字符数对应的待确定模板确定为第一证件模板，是为了提高准确率并达到更好的效果。

在上述的实现过程中，从多个字段内容图像中提取多个字段内容和该字段内容对应的字段名称，有效地增加了字段内容和字段名称匹配率和正确率。

第二实施例

请参见图6，图6示出了本申请实施例提供的证件图像处理装置结构示意图。本申请实施例还提供了该图示出的证件图像处理装置100，该证件图像处理装置100包括：

第一提取模块110，用于从获得的证件图像中提取多个可识别的第一字符和每个第一字符的可识别位置。

第一获得模块120，用于从多个可识别的第一字符中筛选出多个与第二字符相同的字符，获得多个第三字符，第二字符为多个证件模板中的第一证件模板中的字段名称字符，证件模板包括：多个字段名称字符、多个字段名称位置和多个字段内容边框，字段名称位置为字段名称字符对应的位置，字段内容边框为字段名称字符对应的字段内容图像的外接边框。

第一转换模块130，用于根据多个第三字符的可识别位置和多个第三字符的字段名称位置将证件图像转换为标准图像。

第一截取模块140，用于从标准图像截取出多个与第一证件模板的字段内容边框对应的字段内容图像。

可选地，在本申请实施例中，该装置还包括：

第二获得模块，用于使用预先训练的卷积神经网络模型从多个字段内容图像中提取内容字符，并将内容字符连接成内容字符串，获得多个字段内容和字段内容对应的字段名称，字段名称为多个字段名称字符连接的字符串。

可选地，在本申请实施例中，该证件图像处理装置还可以包括：

第一判断模块，用于判断第三字符的个数是否大于预设阈值；

第二转换模块，用于若第三字符的个数大于预设阈值，则执行根据多个第三字符的可识别位置和多个第三字符的字段名称位置将证件图像转换为标准图像。

可选地，在本申请实施例中，还包括：

第三转换模块，用于若第三字符的个数小于或等于预设阈值，则将多个证件模板中的第二证件模板中的字段名称字符确定为第四字符，并从多个可识别的第一字符中筛选出多个与第四字符相同的字符，获得多个第五字符，并根据多个第五字符的可识别位置和多个第五字符的字段名称位置将证件图像转换为标准图像，从标准图像截取出多个与第二证件模板的字段内容边框对应的字段内容图像。

可选地，在本申请实施例中，该装置还可以包括：

第三获得模块，用于将多个第三字符的可识别位置和多个字段名称位置代入透视变换方程计算，获得透视变换矩阵。

第四获得模块，用于将证件图像的多个像素的坐标值乘以透视变换矩阵，获得标准图像。

可选地，在本申请实施例中，第三获得模块包括：

第五获得模块，用于使用随机抽样一致算法将多个第三字符的可识别位置和多个字段名称位置代入计算，获得透视变换矩阵；其中，H为透视变换矩阵，和分别为第三字符的多个可识别位置中的第i个可识别位置的横坐标和纵坐标，和分别为多个字段名称位置中的第j个字段名称位置的横坐标和纵坐标。

可选地，在本申请实施例中，第一提取模块包括：

位置提取模块，用于使用预先训练的第一神经网络模型从证件图像中提取多个第一字符的区域图像和每个第一字符的可识别位置。

字符识别模块，用于使用预先训练的第二神经网络模型识别多个区域图像的每个区域图像的字符，获得多个可识别的第一字符。

应理解的是，该装置与上述的方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件（firmware）的形式存储于存储器中或固化在装置的操作系统（operating system，OS）中的软件功能模块。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可能以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可能以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得计算机设备执行本申请实施例各个实施例方法的全部或部分步骤。前述的计算机设备包括：个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备，前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种证件图像处理方法，其特征在于，包括：

从获得的证件图像中提取多个可识别的第一字符和每个所述第一字符的可识别位置；

从所述多个可识别的第一字符中筛选出多个与第二字符相同的字符，获得多个第三字符，所述第二字符为多个证件模板中的第一证件模板中的字段名称字符，所述证件模板包括：多个字段名称字符、多个字段名称位置和多个字段内容边框，所述字段名称位置为所述字段名称字符对应的位置，所述字段内容边框为所述字段名称字符对应的字段内容图像的外接边框；

根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像；其中，所述根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像，包括：将所述多个第三字符的可识别位置和所述多个字段名称位置代入透视变换方程计算，获得透视变换矩阵；将所述证件图像的多个像素的坐标值乘以所述透视变换矩阵，获得所述标准图像；

从所述标准图像截取出多个与所述第一证件模板的字段内容边框对应的所述字段内容图像。

2.根据权利要求1所述的方法，其特征在于，所述证件模板还包括多个与所述字段内容边框对应的字段名称，在所述从所述标准图像截取出多个与所述第一证件模板的字段内容边框对应的所述字段内容图像之后，还包括：

使用预先训练的卷积神经网络模型从多个所述字段内容图像中提取内容字符，并将内容字符连接成内容字符串，获得多个字段内容和所述字段内容对应的字段名称，所述字段名称为多个所述字段名称字符连接的字符串。

3.根据权利要求1所述的方法，其特征在于，在所述根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像之前，还包括：

判断所述第三字符的个数是否大于预设阈值；

若是，则执行所述根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像。

4.根据权利要求3所述的方法，其特征在于，在所述判断所述第三字符的个数是否大于预设阈值之后，还包括：

若所述第三字符的个数小于或等于预设阈值，则将所述多个证件模板中的第二证件模板中的字段名称字符确定为第四字符，并从所述多个可识别的第一字符中筛选出多个与所述第四字符相同的字符，获得多个第五字符，并根据所述多个第五字符的可识别位置和所述多个第五字符的字段名称位置将所述证件图像转换为标准图像，从所述标准图像截取出多个与所述第二证件模板的字段内容边框对应的所述字段内容图像。

5.根据权利要求1所述的方法，其特征在于，所述将所述多个第三字符的可识别位置和所述多个字段名称位置代入透视变换方程计算，获得透视变换矩阵，包括：

使用随机抽样一致算法将所述多个第三字符的可识别位置和所述多个字段名称位置代入计算，获得所述透视变换矩阵；其中，H为所述透视变换矩阵，和分别为所述第三字符的多个可识别位置中的第i个可识别位置的横坐标和纵坐标，和分别为所述多个字段名称位置中的第j个字段名称位置的横坐标和纵坐标。

6.根据权利要求1所述的方法，其特征在于，所述从获得的证件图像中提取多个可识别的第一字符和每个所述第一字符的可识别位置，包括：

使用预先训练的第一神经网络模型从所述证件图像中提取多个所述第一字符的区域图像和每个所述第一字符的可识别位置；

使用预先训练的第二神经网络模型识别多个所述区域图像的每个区域图像的字符，获得所述多个可识别的第一字符。

7.一种证件图像处理装置，其特征在于，包括：

第一提取模块，用于从获得的证件图像中提取多个可识别的第一字符和每个所述第一字符的可识别位置；

第一获得模块，用于从所述多个可识别的第一字符中筛选出多个与第二字符相同的字符，获得多个第三字符，所述第二字符为多个证件模板中的第一证件模板中的字段名称字符，所述证件模板包括：多个字段名称字符、多个字段名称位置和多个字段内容边框，所述字段名称位置为所述字段名称字符对应的位置，所述字段内容边框为所述字段名称字符对应的字段内容图像的外接边框；

第一转换模块，用于根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像；其中，所述根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像，包括：将所述多个第三字符的可识别位置和所述多个字段名称位置代入透视变换方程计算，获得透视变换矩阵；将所述证件图像的多个像素的坐标值乘以所述透视变换矩阵，获得所述标准图像；

第一截取模块，用于从所述标准图像截取出多个与所述第一证件模板的字段内容边框对应的所述字段内容图像。

8.根据权利要求7所述的装置，其特征在于，还包括：

第二获得模块，用于使用预先训练的卷积神经网络模型从多个所述字段内容图像中提取内容字符，并将内容字符连接成内容字符串，获得多个字段内容和所述字段内容对应的字段名称，所述字段名称为多个所述字段名称字符连接的字符串。

9.根据权利要求7所述的装置，其特征在于，还包括：

第一判断模块，用于判断所述第三字符的个数是否大于预设阈值；

第二转换模块，用于若所述第三字符的个数大于预设阈值，则执行所述根据所述多个第三字符的可识别位置和所述多个第三字符的字段名称位置将所述证件图像转换为标准图像。