CN110738238B

CN110738238B - 一种证件信息的分类定位方法及装置

Info

Publication number: CN110738238B
Application number: CN201910880737.XA
Authority: CN
Inventors: 黄泽浩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2023-05-26
Anticipated expiration: 2039-09-18
Also published as: CN110738238A; WO2021051553A1

Abstract

本发明实施例公开了一种证件信息的分类定位方法及装置，其中，所述方法包括：服务器利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测，提取A个检测框，并获取上述A个检测框的第一边框信息和上述A个检测框的第一次分类标签，第一目标图像包含第一证件，A为大于0的正整数；服务器根据第一证件的结构化信息特征调整上述A个检测框的边框信息和上述A个检测框的分类标签，生成上述A个检测框的第二边框信息和上述A个检测框的第二次分类标签。本发明实施例所提方法能够扩大适用范围，提升检测速度。

Description

一种证件信息的分类定位方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种证件信息的分类定位方法及装置。

背景技术

身份证、银行卡等证件的卡面信息的分类定位，通常使用文本行的固定位置提取或者通用文本检测方法。前者适用范围受限，过度依赖证件的轮廓提取以及图像矫正，后者检测速度慢，同时对提取文本还需按照内容进行分类，进一步降低了准确性。

综上所述，现有的证件信息的分类定位方法在实际应用场景下，适用范围受限，检测速度慢。

发明内容

本发明实施例提供了一种证件信息的分类定位方法及装置，能够扩大适用范围，提升检测速度。

第一方面，本发明实施例提供了一种证件信息的分类定位方法，该方法包括以下步骤：服务器利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测，提取A个检测框，并获取上述A个检测框的第一边框信息和上述A个检测框的第一次分类标签，第一目标图像包含第一证件，A为大于0的正整数；服务器根据第一证件的结构化信息特征调整上述A个检测框的边框信息和上述A个检测框的分类标签，生成上述A个检测框的第二边框信息和上述A个检测框的第二次分类标签。

可选的，上述A个检测框包括N个文本行检测框和M个非文本行检测框，服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取A个检测框，包括：服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取N个文本行检测框；服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取M个非文本行检测框。

可选的，上述服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取N个文本行检测框，包括：服务器利用分类定位模型从第一目标图像中提取n个文本头检测框和n个文本尾检测框，上述n个文本头检测框中的第一文本头检测框中包括第一目标图像中的第一文本行的前B个字符，第一文本行的前B个字符的长度为L1，文本头检测框还包括上述B个字符之前的长度为t*L1的非文本图像区域，上述n个文本尾检测框中的第一文本尾检测框包括第一文本行的后C个字符，第一文本行的后C个字符的长度为L2，文本尾检测框还包括上述C个字符之后的长度为t*L2的非文本图像区域，B和C为正整数，t大于零小于等于1；服务器基于文本行的斜率一致性和就近原则将上述n个文本头检测框和上述n个文本尾检测框进行匹配，获得上述n个文本行检测框；服务器对上述n个文本行检测框进行修正，去除文本行检测框中的非文本图像区域，获得n个预测框；服务器利用非极大值抑制算法对上述n个预测框进行过滤，获得上述N个文本行检测框、上述N个文本行检测框的目标检测分数和上述N个文本行检测框的第一次分类标签。

可选的，上述服务器利用分类定位模型对第一目标图像中的特征信息进行检测，提取M个非文本行检测框，包括：服务器利用分类定位模型对第一目标图像进行特征提取，获得m张a*a尺寸大小的特征图，特征图为包含非文本行信息的图像；服务器对上述m张特征图中的非文本行信息进行中心坐标预测，基于中心坐标采用K-means聚类算法获取m个预测框的长和宽、上述m个预测框包含非文本行特征信息的置信度和上述m个预测框内非文本行特征信息所属类别的置信度；服务器利用非极大值抑制算法对上述m个预测框进行过滤，获得上述M个非文本行检测框、上述M个非文本行检测框的目标检测分数和上述M个非文本行检测框的第一次分类标签。

可选的，上述服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取A个检测框之前，方法还包括：对YOLO网络进行预训练；上述对YOLO网络进行预训练，包括：建立样本数据库，样本数据库包含用于训练YOLO网络的图像样本；初始化YOLO网络的训练参数；从样本数据库中随机选择图像样本作为训练样本；将训练样本作为输入向量输入YOLO网络；获取YOLO网络输出向量，即训练样本的特征图；根据输出向量优化训练参数，建立图像样本和图像样本的特征图之间的残差网络。

第二方面，本发明实施例还提供了一种证件信息的分类定位的装置，该装置能实现上述第一方面所描述的证件信息的分类定位方法所具备的有益效果。其中，该装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括至少一个与上述功能相对应的模块。

可选的，该装置包括第一提取单元和调整单元。

第一提取单元，用于利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测，提取A个检测框，并获取上述A个检测框的第一边框信息和上述A个检测框的第一次分类标签，第一目标图像包含第一证件，A为大于0的正整数；

调整单元，用于根据第一证件的结构化信息特征调整上述A个检测框的边框信息和上述A个检测框的分类标签，生成上述A个检测框的第二边框信息和上述A个检测框的第二次分类标签。

可选的，上述A个检测框包括N个文本行检测框和M个非文本行检测框；第一提取单元包括：文本提取单元，用于利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取N个文本行检测框；非文本提取单元，用于利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取M个非文本行检测框。

可选的，上述文本提取单元，包括：检测框提取单元、匹配单元、修正单元和过滤单元。

检测框提取单元，用于利用利用分类定位模型从第一目标图像中提取n个文本头检测框和n个文本尾检测框，上述n个文本头检测框中的第一文本头检测框中包括第一目标图像中的第一文本行的前B个字符，第一文本行的前B个字符的长度为L1，文本头检测框还包括上述B个字符之前的长度为t*L1的非文本图像区域，上述n个文本尾检测框中的第一文本尾检测框包括第一文本行的后C个字符，第一文本行的后C个字符的长度为L2，文本尾检测框还包括上述C个字符之后的长度为t*L2的非文本图像区域，B和C为正整数，t大于零小于等于1。

匹配单元，用于基于文本行的斜率一致性和就近原则将上述n个文本头检测框和上述n个文本尾检测框进行匹配，获得上述n个文本行检测框。

修正单元，用于对上述n个文本行检测框进行修正，去除文本行检测框中的非文本图像区域，获得n个预测框。

过滤单元，利用非极大值抑制算法对上述n个预测框进行过滤，获得上述N个文本行检测框、上述N个文本行检测框的目标检测分数和上述N个文本行检测框的第一次分类标签。

可选的，上述非文本提取单元，包括：第一获取单元，用于利用分类定位模型对第一目标图像进行特征提取，获得m张a*a尺寸大小的特征图，特征图为包含非文本行信息的图像；第二获取单元，用于对上述m张特征图中的非文本行信息进行中心坐标预测，基于中心坐标采用K-means聚类算法获取m个预测框的长和宽、上述m个预测框包含非文本行特征信息的置信度和上述m个预测框内非文本行特征信息所属类别的置信度；过滤单元，用于利用非极大值抑制算法对上述m个预测框进行过滤，获得上述M个非文本行检测框、上述M个非文本行检测框的目标检测分数和上述M个非文本行检测框的第一次分类标签。

上述提取单元利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取A个检测框之前，上述装置还包括：预训练单元。预训练单元用于对YOLO网络进行预训练。

上述预训练单元，包括：建立单元，用于建立样本数据库，样本数据库包含用于训练YOLO网络的图像样本；初始化单元，用于初始化YOLO网络的训练参数；选择单元，用于从样本数据库中随机选择图像样本作为训练样本；输入单元，用于将训练样本作为输入向量输入YOLO网络；获取单元，用于获取YOLO网络输出向量，即训练样本的特征图；处理单元，用于根据输出向量优化训练参数，建立图像样本和图像样本的特征图之间的残差网络。

第三方面，本发明实施例还提供了一种网络设备，该网络设备能实现上述第一方面所描述的证件信息的分类定位方法所具备的有益效果。其中，该网络设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括至少一个与上述功能相对应的模块。该网络设备包括存储器、处理器和收发器，存储器用于存储支持网络设备执行上述方法的计算机程序，所述计算机程序包括程序指令，处理器用于根据程序指令对网络设备的动作进行控制管理，收发器用于支持网络设备与其它通信设备的通信。

第四方面，本发明实施例提供一种计算机可读存储介质，可读存储介质上存储有指令，当其在处理器上运行时，使得处理器执行上述第一方面描述的证件信息的分类定位方法。

本发明实施例中，服务器利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测，提取A个检测框，并获取上述A个检测框的第一边框信息和上述A个检测框的第一次分类标签，第一目标图像包含第一证件，A为大于0的正整数；服务器根据第一证件的结构化信息特征调整上述A个检测框的边框信息和上述A个检测框的分类标签，生成上述A个检测框的第二边框信息和上述A个检测框的第二次分类标签。本发明实施例所提方案，不依赖证件的轮廓提取以及图像矫正，能够扩大适用范围，本发明实施例采用基于YOLO网络的分类定位模型，有效提升了证件信息的分类定位的检测速度。

附图说明

下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种服务器的结构示意图；

图2是本发明实施例提供的一种证件信息的分类定位方法的流程示意图；

图3是本发明实施例提供的一种证件信息的分类定位装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

需要说明的是，在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

需要说明的是，本申请实施例中的服务器可以是能够承担服务并保障服务能力的常规服务器，也可以是具有处理器、硬盘、内存和系统总线结构的能够承担服务并保障服务能力的终端设备。本申请实施例不作具体限定。

YOLO网络是深度残差网络，深度残差网络相对于一般深度网络的优势在于使用高速网络解决层数较高的深度网络中的梯度消失问题。在深度神经网络中，如果层数较高，其较深的某些层很可能需要模拟一个恒等映射，而这个恒等映射对于某一层是较难学习的。因此，深度残差网络利用捷径连接把原本的恒等映射F(x)＝x设计为F(x)＝g(x)+x，也即g(x)＝F(x)-x，只要学习使残差g(x)＝0，就能学习到一个恒等映射，降低了学习恒等映射的难度。利用深度残差网络，可以有效解决在深度网络层数较多时产生的梯度消失问题，使得在层数较大时深度网络的误差也不会增大，提高训练效率。

请参见图1，图1为本发明实施例提供的一种服务器100的硬件结构示意图，服务器100包括：存储器101、收发器102及与所述存储器101和收发器102耦合的处理器103。存储器101用于存储计算机程序，所述计算机程序包括程序指令，处理器103用于执行存储器101存储的程序指令，收发器102用于在处理器103的控制下与其他设备进行通信。当处理器103在执行指令时可根据程序指令执行证件信息的分类定位方法。

其中，处理器103可以是中央处理器(英文：central processing unit，简称：CPU)，通用处理器，数字信号处理器(英文：digital signal processor，简称：DSP)，专用集成电路(英文：application-specific integrated circuit，简称：ASIC)，现场可编程门阵列(英文：field programmable gate array，简称：FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。收发器102可以是通信接口、收发电路等，其中，通信接口是统称，可以包括一个或多个接口，例如服务器与终端之间的接口。

可选地，服务器100还可以包括总线104。其中，存储器101、收发器102以及处理器103可以通过总线104相互连接；总线104可以是外设部件互连标准(英文：peripheralcomponent interconnect，简称：PCI)总线或扩展工业标准结构(英文：extended industrystandard architecture，简称：EISA)总线等。总线104可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

除了图1所示的存储器101、收发器102、处理器103以及上述总线104之外，实施例中服务器100通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

在上述运行环境下，本发明实施例提供了如图2所示的证件信息的分类定位方法。请参阅图2，所述证件信息的分类定位方法包括：

S201、服务器利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测，提取A个检测框，获取上述A个检测框的第一边框信息和上述A个检测框的第一次分类标签，第一目标图像包含第一证件，A为大于0的正整数。

可选的，上述服务器利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测之前，上述方法还包括：对第二目标图像进行二值化处理，获取第二目标图像的二值化图像，即第一目标图像。

举例来说，身份证的正面包括8个特征信息，分别是姓名、性别、民族、地址、出生年月日、住址、身份证号和身份证的证件照。上述身份证正面的8个特征信息中包含一个非文本行信息和7个文本行信息。护照内页的个人资料页包括12个特征信息，分别是类型/Type、国家码/Country Code、护照号/Passport No、姓/Surname、名/Given names、性别/Sex、出生地点/Place of birth、出生日期/Date of birth、签发地点/Place of issue、签发日期/Date of issue、签发机关/Authority和护照的证件照。上述护照内页的8个特征信息中包含一个非文本行信息和11文本行信息。

本发明实施例中，上述文本行可以为不包含断句标点符号的连续p个符号，上述断句标点符号包括逗号、句号和感叹号等。上述文本行中任意两个字符的间距不超过第一距离阈值，上述第一距离阈值由实际应用情况决定，本发明实施例对此不做具体限定。上述文本行中的符号可以包括汉字、英文字母、数字和非断句标点符号等，上述非断句标点符号包括加号、减号和分号等。P为大于等于0的正整数。

可选的，上述服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取N个文本行检测框，包括：

S1、服务器利用分类定位模型从第一目标图像中提取n个文本头检测框和n个文本尾检测框，上述n个文本头检测框中的第一文本头检测框中包括第一目标图像中的第一文本行的前B个字符，第一文本行的前B个字符的长度为L1，上述文本头检测框还包括上述B个字符之前的长度为t*L1的非文本图像区域，上述n个文本尾检测框中的第一文本尾检测框包括第一文本行的后C个字符，第一文本行的后C个字符的长度为L2，文本尾检测框还包括上述C个字符之后的长度为t*L2的非文本图像区域。B和C为正整数，t大于零小于等于1。

S2、服务器基于文本行的斜率一致性和就近原则将上述n个文本头检测框和上述n个文本尾检测框进行匹配，获得上述n个文本行的初始检测框。

S3、服务器对上述n个文本行的初始检测框进行修正，去除文本行检测框中的非文本图像区，获得n个预测框。

S4、服务器采用K-means聚类算法获取上述n个预测框包含文本行特征信息的置信度和上述n个预测框内文本行特征信息所属类别的置信度。

S5、服务器利用非极大值抑制算法对上述n个预测框进行过滤，获得上述N个文本行检测框、上述N个文本行检测框的目标检查分数和上述N个文本行检测框的第一次分类标签。

需要说明的是，证件中的文本行息多满足文本行斜率一致性，即一个文本行中的任意两个字符的连接斜率相同，和/或任意两个文本行的斜率均相同。例如身份证、银行卡和社保卡等。

可选的，服务器基于文本行的斜率一致性和就近原则将上述N个文本头检测框和上述N个文本尾检测框进行匹配，获得上述N个文本行的初始检测框，包括：基于适当的参考水平线，服务器分别计算N个文本头检测框的斜率、N个文本尾检测框的斜率，以及N个文本头检测框中的第i个文本头检测框和N个文本尾检测框中的第j个文本尾检测框的连接斜率。然后在满足斜率一致性条件的情况下，基于就近原则将和顺序一致性将上述N个文本头检测框和上述N个文本尾检测框进行一一匹配。顺序一致性指的是第一目标图像中所有文本行的文本头检测框均在该文本行的文本尾检测框的左边(右边)。

可选的，上述第i个文本头检测框和上述第j个文本尾检测框的连接斜率指的是：上述第i个文本头检测框的中心坐标与上述第j个文本尾检测框的中心坐标的连线的斜率。

可选的，N个文本头检测框中的第i个文本头检测框和N个文本尾检测框中的第g个文本尾检测框的连接斜率为第二斜率，上述第i个文本头检测框和上述第g个文本尾检测框满足斜率一致性条件指的是：上述第g个文本尾检测框的斜率与第一斜率的差值小于第一预设阈值，且上述第二斜率与第一斜率的差值小于第二预设阈值。上述第一斜率可以是上述第i个文本头检测框的斜率，也可以是N个文本头检测框和N个文本头检测框的斜率平均值。

需要说明的是，第一预设阈值和第二预设阈值的设定与上述斜率平均值相关，依据实际情况而定，本发明实施例对不作具体限定。

可以理解的是，每个文本行的初始检测框的文本头包含长度为t*L1非文本图像区域，每个文本行的初始检测框的文本尾包含长度为t*L2非文本图像区域，因此服务器对需要对文本行的初始检测框进行修正，以去除文本行检测框中的非文本图像区，获得上述N个文本行检测框。

可选的，上述服务器利用分类定位模型对第一目标图像中的特征信息进行检测，提取M个非文本行检测框，包括：

S4、服务器利用分类定位模型对第一目标图像进行特征提取，获得m张a*a尺寸大小的特征图，特征图为包含非文本行特征信息的图像；

S5、服务器将m张特征图中的每张特征图分为a*a个网络单元格，对上述m张特征图中的非文本行特征信息进行中心坐标预测，基于中心坐标采用K-means聚类算法获取m个预测框的长和宽、上述m个预测框包含非文本行特征信息的置信度和上述m个预测框内非文本行特征信息所属类别的置信度；

S6、服务器利用非极大值抑制算法对上述m个预测框进行过滤，获得上述M个非文本行检测框、上述M个非文本行检测框的目标检测分数和上述M个非文本行检测框的第一次分类标签。

可选的，利用sigmoid函数进行非文本行特征信息的中心坐标预测。

可选的，上述服务器利用非极大值抑制算法对上述m个预测框进行过滤，获得上述M个非文本行检测框，包括：利用非极大值抑制算法生成上述m个预测框的目标检测分数，将上述m个预测框的得分进行排序，选中最高分及其对应的预测框。遍历其余的预测框，如果存在预测框和当前最高分的预测框的重叠面积大于第三阈值，便将该预测框框删除。从未处理的预测框中继续选一个得分最高的，重复上述过程，直到选出M个预测框作为M个非文本行检测框。

可以理解，非极大值抑制算法基于目标检测分数产生检测框，分数最高的预测框被选中，其他与被选中预测框有明显重叠的预测框被抑制。该过程被不断递归的应用于其余预测框。

本发明实施例中，上述A个检测框的边框信息的边框信息包括检测框的中心坐标、检测框的长和检测框的宽。

S202、服务器根据第一证件的结构化信息特征调整上述A个检测框的边框信息和上述A个检测框的分类标签，生成上述A个检测框的第二边框信息和上述A个检测框的第二次分类标签。

本发明实施例中，上述第一证件的结构化信息特征指的是第一证件的A个特征信息中的任意两个特征信息的相对位置关系和相对比例。

可选的，服务器根据第一证件的结构化信息特征调整上述A个检测框的边框信息和上述A个检测框的分类标签，生成上述A个检测框的第二边框信息和上述A个检测框的第二次分类标签，包括步骤S7至S14。不限于上述步骤，本发明实施例中还可以包括其他步骤。

S7、i＝0，从A-i个检测框中选择目标检测分数最高的第一检测框，第一检测框的第一次分类标签为第一特征信息。

S8、以第一检测框为参考，根据第一特征信息与剩余A-1个特征信息的相对位置关系和相对比例，获取剩余A-1个特征信息对应的参考预测框、参考预测框对应的边框信息。

S9、j＝1，从剩余A-1个检测框中选择与A-1个参考预测框中的第j个参考预测框的重叠面积最大的检测框。若该检测框与上述第j个参考预测框的重叠面积大于第三预设阈值，且该检测框对应的第一次分类标签与第j个参考预测框对应的特征信息相同，则将该检测框对应的目标检测分数增加Δt；若该检测框对应的第一次分类标签与第j个参考预测框对应的特征信息不相同，则将该检测框对应的目标检测分数降低Δt。

S9、j＝j+1，且j小于等于A-1。

重复步骤S9和S10。

S10、i＝i+1，且i小于等于A-1。

重复步骤S7至S10直至遍历上述A个检测框。

S11、从遍历后的A个检测框中选择目标检测分数最高的第三检测框，第三检测框的第一次分类标签为第三特征信息。

S12、以第三检测框为参考，根据第三特征信息剩余与A-1个特征信息的相对位置关系和相对比例，获取剩余A-1个特征信息对应的参考预测框、参考预测框对应的边框信息。

S13、j＝1，从剩余A-1个检测框中选择与A-1个参考预测框中的第j个参考预测框的重叠面积最大的检测框。若该检测框与上述第j个参考预测框的重叠面积大于第四预设阈值，则令该检测框对应的第二次分类标签与第j个参考预测框对应的特征信息相同。并根据上述第j个参考预测框的边框信息，将该检测框第一边框信息调整为第二边框信息。

S14、j＝j+1，且j小于等于A-1。

重复步骤S13和S14。直到生成上述A个检测框的第二边框信息和上述A个检测框的第二次分类标签。

可选的，根据上述第j个参考预测框的边框信息，将该检测框第一边框信息调整为第二边框信息，包括：

该检测框的中心坐标为(x1，y1)，该检测框与上述第j个参考预测框的中心坐标的差值为(x2，y2)，则调整检测框的中心坐标为(x1+a*x2，y1+a*y2)。该检测框的长为L1，该检测框与上述第j个参考预测框的长的差值为L2，则调整检测框的长为L1+b*L2。该检测框的宽为K1，该检测框与上述第j个参考预测框的宽的差值为K2，则调整检测框的宽为K1+c*K2。a、b和c均大于等于零小于等于1。例如a、b和c取值均为0.5。

可选的，采用迁移学习策略，将ImageNet数据集训练好的网络参数作为YOLO网络的训练参数。

本发明实施例中，通过利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测，提取A个检测框，并获取上述A个检测框的第一边框信息和上述A个检测框的第一次分类标签，第一目标图像包含第一证件，A为大于0的正整数；服务器根据第一证件的结构化信息特征调整上述A个检测框的边框信息和上述A个检测框的分类标签，生成上述A个检测框的第二边框信息和上述A个检测框的第二次分类标签。本发明实施例所提方案，不依赖证件的轮廓提取以及图像矫正，能够扩大适用范围，本发明实施例采用基于YOLO网络的分类定位模型，并利用了文本行的斜率一致性，有效提升了证件信息的分类定位的检测速度。

本发明实施例还提供了一种证件信息的分类定位装置，该装置能上述证件信息的分类定位方法所具备的有益效果。其中，该装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括至少一个与上述功能相对应的模块。

请参阅图3，图3是本发明实施例提供的一种证件信息的分类定位装置300的结构框图，所述装置包括：第一提取单元301和调整单元302。

第一提取单元301，用于利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测，提取A个检测框，并获取上述A个检测框的第一边框信息和上述A个检测框的第一次分类标签，第一目标图像包含第一证件，A为大于0的正整数；

调整单元302，用于根据第一证件的结构化信息特征调整上述A个检测框的边框信息和上述A个检测框的分类标签，生成上述A个检测框的第二边框信息和上述A个检测框的第二次分类标签。

可选的，上述A个检测框包括N个文本行检测框和M个非文本行检测框；第一提取单元301包括：文本提取单元，用于利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取N个文本行检测框；非文本提取单元，用于利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取M个非文本行检测框。

可选的，上述文本提取单元包括：检测框提取单元、匹配单元、修正单元和过滤单元。

结合本发明实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(英文：random access memory，简称：RAM)、闪存、只读存储器(英文：read only memory，简称：ROM)、可擦除可编程只读存储器(英文：erasable programmable rom，简称：EPROM)、电可擦可编程只读存储器(英文：electrically eprom，简称：EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于网络设备中。当然，处理器和存储介质也可以作为分立组件存在于网络设备中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明实施例的保护范围，凡在本发明实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明实施例的保护范围之内。

Claims

1.一种证件信息的分类定位的训练方法，其特征在于，所述方法包括：

服务器利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测，提取A个检测框，并获取所述A个检测框的第一边框信息和所述A个检测框的第一次分类标签，所述第一目标图像包含第一证件，A为大于0的正整数；

所述服务器根据所述第一证件的结构化信息特征调整所述A个检测框的边框信息和所述A个检测框的分类标签，生成所述A个检测框的第二边框信息和所述A个检测框的第二次分类标签；

所述A个检测框包括N个文本行检测框和M个非文本行检测框，所述服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取A个检测框，包括：

所述服务器利用基于YOLO网络的所述分类定位模型对所述第一目标图像中的特征信息进行检测，提取N个文本行检测框；

所述服务器利用基于YOLO网络的所述分类定位模型对所述第一目标图像中的特征信息进行检测，提取M个非文本行检测框；

所述服务器利用基于YOLO网络的所述分类定位模型对第一目标图像中的特征信息进行检测，提取N个文本行检测框，包括：

所述服务器利用所述分类定位模型从所述第一目标图像中提取n个文本头检测框和n个文本尾检测框，所述n个文本头检测框中的第一文本头检测框中包括所述第一目标图像中的第一文本行的前B个字符，所述第一文本行的前B个字符的长度为L1，所述文本头检测框还包括所述B个字符之前的长度为t*L1的非文本图像区域，所述n个文本尾检测框中的第一文本尾检测框包括所述第一文本行的后C个字符，所述第一文本行的后C个字符的长度为L2，所述文本尾检测框还包括所述C个字符之后的长度为t*L2的非文本图像区域，B和C为正整数，t大于零小于等于1；

所述服务器基于文本行的斜率一致性和就近原则将所述n个文本头检测框和所述n个文本尾检测框进行匹配，获得所述n个文本行检测框；

所述服务器对所述n个文本行检测框进行修正，去除所述文本行检测框中的非文本图像区域，获得n个预测框；

所述服务器利用非极大值抑制算法对所述n个预测框进行过滤，获得所述N个文本行检测框、所述N个文本行检测框的目标检测分数和所述N个文本行检测框的第一次分类标签。

2.根据权利要求1所述的方法，其特征在于，所述服务器利用所述分类定位模型对第一目标图像中的特征信息进行检测，提取M个非文本行检测框，包括：

所述服务器利用所述分类定位模型对所述第一目标图像进行特征提取，获得m张a*a尺寸大小的特征图，所述特征图为包含非文本行信息的图像；

所述服务器对所述m张特征图中的非文本行信息进行中心坐标预测，基于所述中心坐标采用K-means聚类算法获取m个预测框的长和宽、所述m个预测框包含非文本行特征信息的置信度和所述m个预测框内非文本行特征信息所属类别的置信度；

所述服务器利用非极大值抑制算法对所述m个预测框进行过滤，获得所述M个非文本行检测框、所述M个非文本行检测框的目标检测分数和所述M个非文本行检测框的第一次分类标签。

3.根据权利要求1或2所述的方法，其特征在于，所述服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测，提取A个检测框之前，所述方法还包括：对所述YOLO网络进行预训练；

所述对所述YOLO网络进行预训练，包括：

建立样本数据库，所述样本数据库包含用于训练所述YOLO网络的图像样本；

初始化所述YOLO网络的训练参数；

从所述样本数据库中随机选择图像样本作为训练样本；

将所述训练样本作为输入向量输入所述YOLO网络；

获取所述YOLO网络输出向量，即所述训练样本的特征图；

根据所述输出向量优化所述训练参数，建立所述图像样本和所述图像样本的特征图之间的残差网络。

4.一种证件信息的分类定位训练的装置，其特征在于，所述装置包括：

第一提取单元，用于利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测，提取A个检测框，并获取所述A个检测框的第一边框信息和所述A个检测框的第一次分类标签，所述第一目标图像包含第一证件，A为大于0的正整数；

调整单元，用于根据所述第一证件的结构化信息特征调整所述A个检测框的边框信息和所述A个检测框的分类标签，生成所述A个检测框的第二边框信息和所述A个检测框的第二次分类标签；

所述A个检测框包括N个文本行检测框和M个非文本行检测框；所述提取单元，包括文本提取单元和非文本提取单元；

所述文本提取单元，用于利用基于YOLO网络的所述分类定位模型对所述第一目标图像中的特征信息进行检测，提取N个文本行检测框；

所述非文本提取单元，用于利用基于YOLO网络的所述分类定位模型对所述第一目标图像中的特征信息进行检测，提取M个非文本行检测框；

所述文本提取单元，包括检测框提取单元、匹配单元、修正单元和过滤单元；

所述检测框提取单元，用于利用所述分类定位模型从所述第一目标图像中提取n个文本头检测框和n个文本尾检测框，所述n个文本头检测框中的第一文本头检测框中包括所述第一目标图像中的第一文本行的前B个字符，所述第一文本行的前B个字符的长度为L1，所述文本头检测框还包括所述B个字符之前的长度为t*L1的非文本图像区域，所述n个文本尾检测框中的第一文本尾检测框包括所述第一文本行的后C个字符，所述第一文本行的后C个字符的长度为L2，所述文本尾检测框还包括所述C个字符之后的长度为t*L2的非文本图像区域，B和C为正整数，t大于零小于等于1；

所述匹配单元，用于基于文本行的斜率一致性和就近原则将所述n个文本头检测框和所述n个文本尾检测框进行匹配，获得所述n个文本行检测框；

所述修正单元，用于对所述n个文本行检测框进行修正，去除所述文本行检测框中的非文本图像区域，获得n个预测框；

所述过滤单元，用于利用非极大值抑制算法对所述n个预测框进行过滤，获得所述N个文本行检测框、所述N个文本行检测框的目标检测分数和所述N个文本行检测框的第一次分类标签。

5.一种服务器，其特征在于，包括处理器、通信设备和存储器，所述处理器、通信设备和存储器相互连接，其中，所述存储器用于存储应用程序代码，所述处理器被配置用于调用所述应用程序代码，执行如权利要求1至3任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至3任意一项所述的方法。