CN111191652A

CN111191652A - 一种证件图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN111191652A
Application number: CN201911321128.7A
Authority: CN
Inventors: 胡雅伦; 熊博颖
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-22

Abstract

本申请提供了一种证件图像的识别方法，包括获取所述证件图像，基于文字定位模型对所述证件图像中文字所在的区域切片获得行切片图像和行切片图像的位置信息；根据所述位置信息对所述行切片图像分组；根据所述证件图像中的字段关键词按行出现的顺序，依次与行切片图像分组按顺序对应；基于文字识别模型对分组的所述行切片图像进行文字识别，获得每一组所述行切片图像中的文字；根据所述位置信息、字段关键词和字段关键词与所述分组的行切片图像对应关系输出所述证件图像的结构化文字信息。使用本方法获得的证件图像识别的结构化文字信息结果更加准确，可减少证件图像识别应用中的后期人工操作，提升工作效率。

Description

一种证件图像识别方法、装置、电子设备及存储介质

技术领域

本申请涉及知识图谱技术领域，具体而言，本申请涉及一种证件图像识别方法、装置、电子设备及存储介质。

背景技术

目前基于深度学习的文字识别技术已经十分成熟，而将这种文字识别技术运用到身份证复印件识别的场景中时，识别结果是非结构化的字符串，该技术无法直接把结果结构化对应到相应的识别字段，导致后期还需要人工分辨识别结果，效率较低。

需要开发一种深度学习的文字识别结果结构化，更准确地将结果一一对应到识别字段，来减少身份证复印件识别应用中的后期人工操作，提升工作效率。

发明内容

本申请提供了一种证件图像识别方法、装置、电子设备及计算机可读存储介质，用于提升证件图像识别的准确性、可靠性，本申请采用的技术方案如下：

第一方面，提供了一种证件图像的识别方法，包括：

获取所述证件图像，

基于文字定位模型对所述证件图像中文字所在的区域切片获得行切片图像和行切片图像的位置信息；

根据所述位置信息对所述行切片图像分组；

根据所述证件图像中的字段关键词按行出现的顺序，依次与分组的行切片图像按顺序对应；

基于文字识别模型对分组的所述行切片图像进行文字识别，获得每一组所述行切片图像中的文字；

根据所述位置信息、字段关键词和字段关键词与所述分组的行切片图像对应关系输出所述证件图像的结构化文字信息。

具体的，根据所述位置信息对所述行切片图像分组包括，将同属于一行的行切片图像分配在一个组中。

其中，如果其中一行切片图像中识别出的文字中不包含字段关键词，则将该行切片图像分配到有字段关键词的前一行切片图像所在的组中。

具体的，根据所述位置信息对所述行切片图像分组包括，所述位置信息包括行切片图像的坐标值，将所述坐标值中的纵坐标值相同的所述行切片图像分为一组。

进一步的，在根据所述位置信息、字段关键词和字段关键词与所述分组的行切片图像对应关系输出所述证件图像的结构化文字信息前，还包括；

对每一行切片图像中识别出的文字按照顺序依次头尾相连，形成一个单独的字符串，对所述独立字符串依次查找字段关键字，根据字段关键词对所述独立的字符串进行分割，将所述分割的字符串与所述字段关键词一一对应。

进一步的，对所述证件图像的结构化文字信息基于纠错模型纠错后输出。

本申请的第二方面提供一种证件图像识别装置，包括，

证件图像获取模块，用于获取所述证件图像，

文字定位模块，用于基于文字定位模型对所述证件图像中文字所在的区域切片获得行切片图像和行切片图像的位置信息；

分组模块，用于根据所述位置信息对所述行切片图像分组；

匹配模块，用于根据所述证件图像中的字段关键词按行出现的顺序，依次与分组的行切片图像按顺序对应；

文字识别模块，用于基于文字识别模型对分组的所述行切片图像进行文字识别，获得每一组所述行切片图像中的文字；

输出模块，用于根据所述位置信息、字段关键词和字段关键词与所述分组的行切片图像对应关系输出所述证件图像的结构化文字信息。

具体的，所述分组模块用于根据所述位置信息对所述行切片图像分组包括，将每一行切片图像分配在一个组中；和/或所述分组模块用于根据所述位置信息对所述行切片图像分组包括，所述位置信息包括行切片图像的坐标值，将所述坐标值中的纵坐标值相同的所述行切片图像分为一组。

本申请得第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行第一方面所示的证件图像识别方法。

第四方面，提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行第一方面所示的证件图像识别方法。

本申请提供了一种证件图像的识别方法、装置、电子设备和计算机可读存储介质，包括：获取所述证件图像，然后基于文字定位模型对所述证件图像中文字所在的区域切片获得行切片图像和行切片图像的位置信息；根据所述位置信息对所述行切片图像分组；根据所述证件图像中的字段关键词按行出现的顺序，依次与分组的行切片图像按顺序对应；接着基于文字识别模型对分组的所述行切片图像进行文字识别，获得每一组所述行切片图像中的文字；根据所述位置信息、字段关键词和字段关键词与所述分组的行切片图像对应关系输出所述证件图像的结构化文字信息。本申请一方面根据位置信息对行切片图像分组，同时该分组属性可以对应到识别出的文字上面，提升了结构化识别结果方法的稳定性；另一方面，通过结合行切片图像的坐标特性找到每一组字符串与字段关键词的对应关系，并对识别结果进行后处理纠错，提高了证件图像识别的容错率。使用本方法获得的证件图像识别的结构化文字信息结果更加准确，可减少证件图像识别应用中的后期人工操作，提升工作效率。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的一种证件图像识别方法的流程示意图；

图2为本申请实施例的一种身份证件和行切片图像示意图；

图3为本申请实施例的身份证件中一个行切片图像的示意图；

图4为本申请实施例的身份证件字段关键词对应的坐标数组示意图。

图5为本申请实施例的身份证件跨行切片时行切片图像示意图

图6为本申请实施例的证件图像识别装置结构示意图

图7为本申请实施例的证件图像识别的电子设备结构示意图

具体实施方式

下面详细描述本申请的实施例，各实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种证件图像的识别方法，如图1所示包括：

步骤S101，获取所述证件图像，

具体的，证件图像可以是证件原件的照片图像、复印件图像，扫描件图像等等，证件可以是居民身份证、职业身份证件、银行卡等，例如警官证，教师证等类。对于其他用于证明特定关系，或者记载特定权益义务或者信息的卡片，例如银行卡、会员卡、名片等均属于本实施中的证件范围，并不限定于公权力机构颁发的证件。本实施例中证件图像获取方法的执行主体为终端，终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑、高拍仪等文件拍摄设备。获取方式可以时通过OCR技术提取证件图像，也可以是从已经提取图像的证件数据库中或者服务中获得证件图像信息。

步骤S102，基于文字定位模型对所述证件图像中文字所在的区域切片获得行切片图像和行切片图像的位置信息；

具体的，文字定位模型可预先训练完成，用于对证件图像中的文字所在的区域进行切片形成行切片图像(如图2所示)并且对行切片图像的位置信息进行记录，其中位置信息在实施例中为行切片图像在证件图像图中坐标信息。为便于说明技术方案本实施例以常见的身份证件图像为例进行说明。如图3所示，对身份证件中第一行切片图像的位置采用该图像切片的对角顶点的坐标表示，例如采用左上角和右下角的顶点坐标表征第一行切片图像的位置信息，该行切片图像的位置信息的坐标按如下方式表示[x1,y1,x2,y2]，其中x1、y1为表示该行切片图像左上角的横、纵坐标，x2、y2为该行切片图像右下角的横、纵坐标。也可以采用右上角和左下角的顶点坐标来表征，本实施例不做具体限定。

步骤S103，根据所述位置信息对所述行切片图像分组；

具体的，首先根据所有行切片图像坐标信息排序，按其中纵坐标的大小进行排序。为了便于计算，本实施例以行切片图像的中心点的纵坐标进行比较。将中心点纵坐标接近的行切片图像分到一组。具体比较过程如下：计算出每个行切片图像的中心点坐标，然后依次检查每个行切片图像的中心点坐标，判断当前行切片图像的中心点纵坐标是否与已经检查过的行切片图像的中心点纵坐标接近，若接近则分到一组，若新的行切片图像没有与当前行切片图像中心点纵坐标y接近，则它作为一个新的组。当所有行切片图像的纵坐标都比较完毕后，所有行切片图像按行完成分组。

例如，经过文字定位模型获得的各文字区域的坐标信息分别如下：[[100,100,300,200],[100,250,250,350],[280,250,400,350],[100,400,400,500],[100,550,500,650],[100,800,700,900]]

先按纵坐标的大小对各行切片图像的坐标数组进行从从小到大的排序，得到

[[100,100,300,200],[100,250,250,350],[280,250,400,350],[100,400,400,500],[100,550,500,650],[100,800,700,900]]

循环遍历各行切片图像的坐标数组中每个坐标，检查每个行切片图像的中心点坐标，判断行切片图像的中心点纵坐标是否与已经检查过的行切片图像的中心点纵坐标接近，若接近则分到一组，若没有与当前行切片图像中心点纵坐标接近的行切片图像，则它作为一个新的组。例如：

循环开始：

第一步，以坐标数组为[100,100,300,200]的第一行切片图像为当前行切片图像，其中心点纵坐标记为y₁:(100+200)/2＝150，由于该第一行切片图像是首次对比，没有与其他行切片图像的中心点纵坐标y_n对比，所以将该行切片图像的坐标数组作为一个新的组，编号为0，记为L₀：

[

[[100,100,300,200]]

]

第二步，将坐标数组为[100,250,250,350]的第二行切片图像的中心点纵坐标y₂与第一行切片图像中心点纵坐标y₁对比，首先计算第二行切片图像的中心点纵坐标y₂，y₂＝(250+350)/2＝300，判断是否满足|y₁-y₂|＜α，α为预设值，若满足则说明两个中心点的纵坐标接近。由于证件的文字行本身可能存在没有对齐的情况下，虽然处于同一行，但坐标的差值绝对值可能不为零，为了能够兼容这种误差，可以将该预设值α设定在0-50之间。经过上述比较|y₁-y₂|＝150，远远大于预设值α，说明第一行图像切片的中心点纵坐标y₁与第二行切片的图像中心点的纵坐标y₂不接近，所以将该第二行切片的图像坐标数据作为一个新的组，编号为1，记为L₁：

[

[[100,100,300,200]],

[[100,250,250,350]]

]

第三步，将坐标数组为[280,250,400,350]的第三行切片图像的中心点纵坐标y₃分别与第一行切片图像中心点纵坐标y₁和第二行切片图像中心点纵坐标y₂比较，由于第三行切片图像的中心点纵坐标y₃为(250+350)/2＝300，与第二行切片图像中心点纵坐标y₂接近，说明三行切片图像与第一行切片图像位于同一行，所以第三行切片图像的坐标数据分到编号为1的组L₁中，记为L₁：

[

[[100,100,300,200]],

[[100,250,250,350],[280,250,400,350]]

]

第四步：将坐标数据为[100,400,400,500]的第四行切片图像的中心点纵坐标y₄分别与第一行切片图像中心点纵坐标y₁、第二行切片图像中心点纵坐标y₂和第三行切片图像的中心点纵坐标y₃比较，第四行切片图像的中心点纵坐标y₄为(400+500)/2＝450，与上述三个中心点纵坐标的值(y₁＝150,y₂＝300，y₃＝300)进行比较，由于其差值的绝对值远远大于预设值α，说明第四行图像切片的中心点纵坐标y₄与上述三个中心点的纵坐标都不接近，所以将该第四行切片的图像坐标数据作为一个新的组，编号为2，记为L₂：

[

[[100,100,300,200]],

[[100,250,250,350],[280,250,400,350]],

[[100,400,400,500]]

]

第五步，将坐标数据为[100,550,500,650]的第五行切片图像的中心点纵坐标y₅分别与第一行切片图像中心点纵坐标y₁、第二行切片图像中心点纵坐标y₂、第三行切片图像的中心点纵坐标y₃、第四行切片图像的中心点纵坐标y₄比较，第五行切片图像的中心点纵坐标y₅为(550+650)/2＝600，与上述四个中心点纵坐标的值(y₁＝150,y₂＝300，y₃＝300，y₄＝450)进行比较，由于其差值的绝对值都远远大于预设值α，说明第五行图像切片的中心点纵坐标y₅与上述四个中心点的纵坐标都不接近，所以将该第五行切片的图像坐标数据作为一个新的组，编号为3，记为L₃：

[

[[100,100,300,200]],

[[100,250,250,350],[280,250,400,350]],

[[100,400,400,500]],

[[100,550,500,650]]

]

第六步，将坐标数据为[100,800,700,900]的第6六行切片图像的中心点纵坐标y₆分别与第一行切片图像中心点纵坐标y₁、第二行切片图像中心点纵坐标y₂、第三行切片图像的中心点纵坐标y₃、第四行切片图像的中心点纵坐标y₄和第五行切片图像中心点纵坐标y₂、相比较，第六行切片图像的中心点纵坐标y₆为(800+900)/2＝850，与上述五个中心点纵坐标的值(y₁＝150,y₂＝300，y₃＝300，y₄＝450，y₅＝600，)进行比较，由于其差值的绝对值都远远大于预设值α，说明第六行图像切片的中心点纵坐标y₆与上述五个中心点的纵坐标都不接近，所以将该第六行切片的图像坐标数据作为一个新的组，编号为4，记为L₄：

[

[[100,100,300,200]],

[[100,250,250,350],[280,250,400,350]],

[[100,400,400,500]],

[[100,550,500,650]],

[100,800,700,900]

]

通过上述排序比较分组后，将上述各行切片图像的坐标数组按行输出如下：

[

[[100,100,300,200]],

[[100,250,250,350],[280,250,400,350]],

[[100,400,400,500]],

[[100,550,500,650]],

[100,800,700,900]

]

步骤S104，根据所述证件图像中的字段关键词按行出现的顺序，依次与分组的行切片图像按顺序对应；

具体的，按照证件图像中字段关键词出现的顺序建立各字段关键词的对应的坐标，如图4所示，各字段关键词对应的坐标数组如下：

[

[[100,100,300,200]],

[[100,250,250,350],[280,250,400,350]],

[[100,400,400,500]],

[[100,550,500,650]],

[[200,680,500,780]],

[100,800,700,900]

]

将坐标数组相同的行切片图像与相应的字段关键词按照顺序一一对应。

步骤S105，基于文字识别模型对分组的所述行切片图像进行文字识别，获得每一组所述行切片图像中的文字；

具体的，文字识别模型可预先完成训练，对经过文字定位模型输出的每一行文字所在区域的行切片图像进行识别，提取每一个行切片图像中的文字，由于行切片图像是将处于一行的部分或者全部文字所在区域进行切片，因此对行切片图像识别的文字也同属于一个识别行。同时，由于行切片图形和从行切片图像中识别出的文字存在对应关系，因此识别的出文字所在的行的坐标与行切片图像的坐标对应。例如，第一行的行切片图像如图3所示，其坐标为[x1,y1,x2,y2]，从该行切片图像识别出的文字“张三”，其坐标对应的为[x1,y1,x2,y2]。

其中根据本实施例中身份证件的信息，文字模型识别出的结果如下：

[

['姓名张三']，

['性别男'，'民族汉'],

['出生2000年01月01日']，

['住址XX省XX市XX区XX路XX号']，

['公民身份号码XXXXXXXXXXXXXXXXXXXXXXXX']

]

步骤S106，根据所述位置信息、字段关键词和字段关键词与所述分组的行切片图像对应关系输出所述证件图像的结构化文字信息。

具体根据上述步骤中获得为行切片图像的坐标数组，字段关键词的坐标数组，输出结构化的文字信息，其中利用字段关键词将坐标信息与行切片图像中识别出的文字一一对应，再利用各字段关键词对识别结果中的字段关键词的具体内容进行分割，然后去掉字段关键词，输出行切片图像中利用文字模型识别的去掉字段关键词的文字内容，例如，编号为0的组其字段关键词为“姓名”，则在该行切片图像中识别出的文字结果中查找“姓名”字符串，分割后为“姓名”，“张三”，去掉字段关键词“姓名”，得到“张三”；编号为1的组其字段关键词为“性别”，“民族”，则在该行切片图像中识别出的文字结果中查找“性别”，“民族”字符串，分割后为“性别”，“男”，“民族”，“汉”，去掉关键字“性别”，“民族”，得到“男”，“汉”；以此类推得到以下结构化文字信息输出结果：

[

['张三']，

['男'，'汉'],

['2008年01月01日']，

['XX省XX市XX区XX路XX号']，

['XXXXXXXXXXXXXXXXXXXXXXXX']，

]

本实施例提供一种可能的实现方式，如果其中一行切片图像中识别出的文字中不包含字段关键词，则将该行切片图像中识别出的文字分配到有字段关键词的前一行切片图像中识别出的文字所在的组中。

以身份证件为例，当其地址信息较长，存在换行继续展示的地址的情况，此时文件定位模型会将换行显示的地址信息作为一个新的行切片图像并在分组时会作为一个新的分组，导致该分组没有字段关键词存在，为此本实施例提供将该新的行切片图像在进行文字识别后判断是否存在字段关键词，如果识别的文字中不包括字段关键词则将文字与前一行切片图像识别出的文字作为一组对待。

对于住址有多行，例如上述地址存在两行的情况，其各行切片图像定位识别的坐标数据结果如下：

[

[[100,100,300,200]],

[[100,250,250,350],[280,250,400,350]],

[[100,400,400,500]],

[[100,550,500,650]],

[[200,680,500,780]],

[100,800,700,900]

]

对应的其字段关键词的坐标数组相对应如下：

[

['姓名']，

['性别'，'民族'],

['出生']，

['住址']，

['公民身份号码']

]

本实施方式提供一种可能的实现方式，获取每一行切片图像中识别出的文字中的字段关键词，将每一字段关键词后的文字归属于该字段关键词包括；

对每一行切片图像中识别出的文字按照顺序依次头尾相连，形成一个单独的字符串，对所述独立字符串依次查找字段关键词，根据字段关键词对所述独立的字符串进行分割，将所述字段关键词后的文字与所述字段关键词一一对应。

具体的，由于定位模型的误差在对文字区域进行图像切片时，可能将处于同一行的两个字段内容识别跨字段切片，导致将后一个字段的部分文字切分到前一个字段中，如图5所示，在身份证件的第二行进行切片时，将“民族：汉”的部分文字“民族”切分到前一字段“性别：男”中，此种情况将会导致“性别：男”和“民族：汉”的两个文字区域的文字图像进行切片时切分错误的情况。利用文字识别模型对上述行切片图像进行文字识别时其识别结果如下：

[

['姓名‘，’张三']，

['性别男民族'，'汉'],

['出生2000年01月01日']，

['住址‘，’XX省XX市XX区XX路XX号']，

['公民身份号码XXXXXXXXXXXXXXXXXXXXXXXX']

]

明显的上述识别结果也是错误的，为此本实施为了解决上述问题，将同一行的行切片图像中识别出的文字收尾依次相接，形成一个独立的字符串，例如将['性别男民族'，'汉']字符首尾相接，形成的独立字符串为“'性别男民族汉'”然后利用字段关键词对该独立字符串进行切分，在识别结果中去掉字段关键词，再按坐标数组一一对应到各自的字段关键词，例如：例如，编号为1的组其字段关键词为“性别”，“民族”，则在该行切片图像中识别出的文字结果中查找“性别”，“民族”字符串，分割后为“性别”，“男”，“民族”，“汉”，去掉关键字“性别”，“民族”，得到“男”，“汉”；然后输出行切片图像中利用文字模型识别的文字内容。

本实施中将同一行的行切片图像中识别出的文字收尾相接，然后利用关键字分割，输出字段关键词对应的具体内容，可以兼容因定位模型存在存在误差对处于同一行的两个字段关键词切分错误的情况，可以提高识别结果结构化输出的准确性。

具体的，对于出生日期，使用身份证号码识别结果进行验证：取“出生”识别结果中的数字(本例中为20000101)，与身份证号的第7位至第14位进行比对，若不相同，则用身份证号中的相应位数的结果进行替换，例如假如身份证号识别结果的第7位至第14位为“20080101”，则将出生的识别结果替换为“20080101”；

对于性别，使用身份证号码识别结果进行验证：取出“性别”识别结果(本例中为“男”)，与身份证号的第17位进行比对(奇数为男，偶数为女)，若“性别”识别结果不正确，则进行纠正，比如识别成“舅”，则纠正为“男”；

对于民族，取出“民族”识别结果(本例中为“汉”)，检查识别结果是否为56个民族全称中的一种，若定位或识别导致漏掉了字，可以进行名称补全，例如识别结果为“蒙”，则补全为“蒙古”。

本申请提供了一种证件图像的识别方法包括：获取所述证件图像，然后基于文字定位模型对所述证件图像中文字所在的区域切片获得行切片图像和行切片图像的位置信息；根据所述位置信息对所述行切片图像分组；根据所述证件图像中的字段关键词按行出现的顺序，依次与分组的行切片图像按顺序对应；接着基于文字识别模型对分组的所述行切片图像进行文字识别，获得每一组所述行切片图像中的文字；根据所述位置信息、字段关键词和字段关键词与所述分组的行切片图像对应关系输出所述证件图像的结构化文字信息。本申请一方面根据位置信息对行切片图像分组，同时该分组属性可以对应到识别出的文字上面，提升了结构化识别结果方法的稳定性；另一方面，通过结合行切片图像的坐标特性找到每一组字符串与字段关键词的对应关系，并对识别结果进行后处理纠错，提高了证件图像识别的容错率。使用本方法获得的证件图像识别的结构化文字信息结果更加准确，可减少证件图像识别应用中的后期人工操作，提升工作效率。

本申请的第二方面提供一种证件图像识别装置，如图6所示，包括，证件图像获取模块1、证件图像文件定位模块2，分组模块3，匹配模块4，文字识别模块5和输出模块6。

其中证件图像获取模块1，用于获取所述证件图像；

具体的，证件图像可以是证件原件的照片图像、复印件图像，扫描件图像等等，证件可以是居民身份证、职业身份证件、银行卡等，例如警官证，教师证等类。对于其他用于证明特定关系，或者记载特定权益义务或者信息的卡片，例如银行卡、会员卡、名片等均属于本实施中的证件范围，并不限定于公权力机构颁发的证件。本实施例中证件图像获取模块包括但不限于智能手机、平板电脑、可穿戴设备等移动终端的图像采集装置，还可以是台式电脑、高拍仪等文件拍摄设备。获取方式可以时通过OCR技术提取证件图像，也可以是从已经提取图像的证件数据库中或者服务中获得证件图像信息。

证件图像文件定位模块2，用于基于文字定位模型对所述证件图像中文字所在的区域切片获得行切片图像和行切片图像的位置信息；

具体的，文字定位模型可预先训练完成，用于对证件图像中的文字所在的区域进行切片形成行切片图像并且对行切片图像的位置信息进行记录，其中位置信息在实施例中为行切片图像在证件图像图中坐标信息。为便于说明技术方案本实施例以常见的身份证件图像为例进行说明。如图3所示，对身份证件中第一行切片图像的位置采用该图像切片的对角顶点的坐标表示，例如采用左上角和右下角的顶点坐标表征第一行切片图像的位置信息，该行切片图像的位置信息的坐标按如下方式表示[x1,y1,x2,y2]，其中x1、y1为表示该行切片图像左上角的横、纵坐标，x2、y2为该行切片图像右下角的横、纵坐标。也可以采用右上角和左下角的顶点坐标来表征，本实施例不做具体限定。

分组模块3，用于根据所述位置信息对所述行切片图像分组；

匹配模块4，用于根据所述证件图像中的字段关键词按行出现的顺序，依次与分组的行切片图像按顺序对应；

文字识别模块5，用于基于文字识别模型对分组的所述行切片图像进行文字识别，获得每一组所述行切片图像中的文字；

具体的，文字识别模型可预先完成训练，对经过文字定位模型输出的每一行文字所在区域的行切片图像进行识别，提取每一个行切片图像中的文字，由于行切片图像是将处于一行的部分或者全文文字所在区域进行切片，因此对行切片图像识别的文字也同属于一个识别行。同时，由于行切片图形和从行切片图像中识别出的文字存在对应关系，因此识别的出文字所在的行的坐标与行切片图像的坐标对应。例如，第一行的行切片图像如图3所示，其坐标为[x1,y1,x2,y2]，从该行切片图像识别出的文字“张三”，其坐标对应的为[x1,y1,x2,y2]。

[

['姓名张三']，

['性别男'，'民族汉'],

['出生2000年01月01日']，

['住址XX省XX市XX区XX路XX号']，

['公民身份号码XXXXXXXXXXXXXXXXXXXXXXXX']

]

输出模块6，用于根据所述位置信息、字段关键词和字段关键词与所述分组的行切片图像对应关系输出所述证件图像的结构化文字信息。

具体根据上述步骤中获得为行切片图像的坐标数组，字段关键词的坐标数组，输出结构化的文字信息，其中利用字段关键词将坐标信息与行切片图像中识别出的文字一一对应，再利用各字段关键词对识别结果中的字段关键词的具体内容进行分割，然后去掉字段关键词，输出行切片图像中利用文字模型识别的去掉字段关键词的文字内容，例如，编号为0的组其字段关键词为“姓名”，则在该行切片图像中识别出的文字结果中查找“姓名”字符串，分割后为“姓名”，“张三”，去掉字段关键词“姓名”，得到“张三”；编号为1的组其字段关键词为“性别”，“民族”，则在该行切片图像中识别出的文字结果中查找“性别”，“民族”字符串，分割后为“性别”，“男”，“民族”，“汉”，去掉关键字“性别”，“民族”，得到“男”，“汉”；以此类推得到以下输出结果：

[

['张三']，

['男'，'汉'],

['2008年01月01日']，

['XX省XX市XX区XX路XX号']，

['XXXXXXXXXXXXXXXXXXXXXXXX']，

]

具体的，所述分组模块3用于根据所述位置信息对所述行切片图像中识别出的文字分组包括，将每一行切片图像中识别出的文字分配在一个组中；和/或所述分组模块用于根据所述位置信息对所述行切片图像中识别出的文字分组包括，所述位置信息包括行切片图像的坐标值，将所述坐标值中的纵坐标值相同的所述行切片图像中识别出的文字分为一组。

本申请提供了一种证件图像的识别装置一方面根据位置信息对行切片图像分组，同时该分组属性可以对应到识别出的文字上面，提升了结构化识别结果方法的稳定性；另一方面，通过结合行切片图像的坐标特性找到每一组字符串与字段关键词的对应关系，并对识别结果进行后处理纠错，提高了证件图像识别的容错率。使用本方法获得的证件图像识别的结构化文字信息结果更加准确，可减少证件图像识别应用中的后期人工操作，提升工作效率。

本申请实施例提供了一种证件图像识别装置，适用于上述实施例所示的方法，在此不再赘述。

本申请实施例提供了一种电子设备70，如图7所示，包括：处理器701和存储器703。其中，处理器701和存储器703相连，如通过总线702相连。进一步地，电子设备70还可以包括收发器704。需要说明的是，实际应用中收发器704不限于一个，该电子设备70的结构并不构成对本申请实施例的限定。其中，处理器701应用于本申请实施例中，用于实现证件图像获取模块、文字定位模块、文字定位模块、分组模块、匹配模块、文字识别模块、输出模块的功能。收发器704包括接收机和发射机。

处理器701可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器701也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线702可包括一通路，在上述组件之间传送信息。总线702可以是PCI总线或EISA总线等。总线702可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器703可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器703用于存储执行本申请方案的应用程序代码，并由处理器701来控制执行。处理器701用于执行存储器703中存储的应用程序代码，以实现图6所示实施例提供的证件图像识别装置的功能。

本申请提供了一种证件图像的识别电子设备一方面根据位置信息对行切片图像分组，同时该分组属性可以对应到识别出的文字上面，提升了结构化识别结果方法的稳定性；另一方面，通过结合行切片图像的坐标特性找到每一组字符串与字段关键词的对应关系，并对识别结果进行后处理纠错，提高了证件图像识别的容错率。使用本方法获得的证件图像识别的结构化文字信息结果更加准确，可减少证件图像识别应用中的后期人工操作，提升工作效率。

本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例中所示的方法。

本申请提供的一种计算机可读存储介质，该介质中存储有实现证件图像识别的方法程序，包括：获取所述证件图像，然后基于文字定位模型对所述证件图像中文字所在的区域切片获得行切片图像和行切片图像的位置信息；根据所述位置信息对所述行切片图像分组；根据所述证件图像中的字段关键词按行出现的顺序，依次与分组的行切片图像按顺序对应；接着基于文字识别模型对分组的所述行切片图像进行文字识别，获得每一组所述行切片图像中的文字；根据所述位置信息、字段关键词和字段关键词与所述行切片图像分组对应关系输出所述证件图像的结构化文字信息。本申请一方面根据位置信息对行切片图像分组，同时该分组属性可以对应到识别出的文字上面，提升了结构化识别结果方法的稳定性；另一方面，通过结合行切片图像的坐标特性找到每一组字符串与字段关键词的对应关系，并对识别结果进行后处理纠错，提高了证件图像识别的容错率。使用本方法获得的证件图像识别的结构化文字信息结果更加准确，可减少证件图像识别应用中的后期人工操作，提升工作效率。本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种证件图像的识别方法，其特征在于包括：

获取所述证件图像，

根据所述位置信息对所述行切片图像分组；

2.根据权利要求1所述的证件图像识别方法，其特征在于，根据所述位置信息对所述行切片图像分组包括，将同属于一行的行切片图像分配在一个组中。

3.根据权利要求2所述的证件图像识别方法，其特征在于，如果其中一行切片图像中识别出的文字中不包含字段关键词，则将该行切片图像分配到有字段关键词的前一行切片图像所在的组中。

4.根据权利要求1所述的证件图像识别方法，其特征在于，根据所述位置信息对所述行切片图像分组包括，所述位置信息包括行切片图像的坐标值，将所述坐标值中的纵坐标值相同的所述行切片图像分为一组。

5.根据权利要求1所述的证件图像识别方法，其特征在于，在根据所述位置信息、字段关键词和字段关键词与所述分组的行切片图像对应关系输出所述证件图像的结构化文字信息前，还包括；

6.根据权利要求1至5任一项所述的证件图像识别方法，其特征在于，对所述证件图像的结构化文字信息基于纠错模型纠错后输出。

7.一种证件图像识别装置，其特征在于包括，

证件图像获取模块，用于获取所述证件图像，

分组模块，用于根据所述位置信息对所述行切片图像分组；

8.根据权利要求7所述的证件图像识别装置，其特征在于，所述分组模块用于根据所述位置信息对所述行切片图像分组包括，将每一行切片图像分配在一个组中；和/或所述分组模块用于根据所述位置信息对所述行切片图像分组包括，所述位置信息包括行切片图像的坐标值，将所述坐标值中的纵坐标值相同的所述行切片图像分为一组。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至6任一项所述的证件图像识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1至6中任一项所述的证件图像识别方法。