CN113343990A

CN113343990A - 一种证件类图片的关键文本检测、分类训练方法

Info

Publication number: CN113343990A
Application number: CN202110853791.2A
Authority: CN
Inventors: 黎嘉朗; 张翊; 吴名朝
Original assignee: Whale Cloud Technology Co Ltd
Current assignee: Whale Cloud Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-09-03
Anticipated expiration: 2041-07-28
Also published as: CN113343990B

Abstract

本发明公开了一种证件类图片的关键文本检测、分类训练方法，该方法包括以下步骤：S1、构建证件模板，并基于证件模板生成训练样本；S2、构建文字检测及分类一体算法模型，并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果；S3、将训练样本导入文字检测及分类一体算法模型进行训练，并在训练过程中分别对分类特征图、检测预测特征图进行两类负采样；S4、依次计算分类特征图中的分类特征图损失值和检测预测特征图中的检测预测特征图损失值，并融合分类特征图损失值和检测预测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型。有益效果：收集少量样本即可支撑深度神经网络的训练。

Description

一种证件类图片的关键文本检测、分类训练方法

技术领域

本发明涉及文字检测技术领域，具体来说，涉及一种证件类图片的关键文本检测、分类训练方法。

背景技术

证件类图片的文字识别场景需要从图片中提取感兴趣区域的文字内容并对其进行分类划分到对应的字段上，通常的做法有两种：1、

结合通用文字检测、通用文字识别得到图片中所有文字的位置及内容后，基于不同字段的内容规则将识别结果划分到对应的内容字段上；2、基于模板参考位置提取感兴趣区域，先在模板上标定多个参考位置，在实际运行时先找出图片中的参考位置后，再进行文字检测，结合文字检测得到的坐标信息和参考位置判断各个文本框属于哪一个字段。

前者的主要问题是在字段划分阶段涉及大量文本规则的编写、部分字段的文字内容无明显规则、实际场景中存在大量噪声导致整体的关键文本检测、分类的结果不可靠；后者则对参考位置的依赖性大，当存在参考位置缺失、图片存在形变等情况时，字段分类结果不可靠。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种证件类图片的关键文本检测、分类训练方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种证件类图片的关键文本检测、分类训练方法，该方法包括以下步骤：

S1、构建证件模板，并基于证件模板生成训练样本；

S2、在基于图像分割方式的文本检测神经网络模型基础上引入分类分支，构建文字检测及分类一体算法模型，并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果；

S3、将训练样本导入文字检测及分类一体算法模型进行训练，并在训练过程中分别对分类特征图、检测特征图进行两类负采样；

S4、依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值，并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型。

进一步的，所述构建证件模板，并基于证件模板生成训练样本还包括以下步骤：

S11、使用图片标注工具对图像中需要检测的文字区域进行标注，并标注文本区域中对应的字段名称，得到模板图片的标注文件；

S12、使用图片编辑工具、对抗生成网络方法擦除模板图片的文字内容，得到待填充内容的模板图片；

S13、各个字段定制不同的文本内容生成规则，采用文本内容生成规则将不同的字体、字号、颜色填充到对应字段的位置区域上的随机位置上，对生成的图片进行全局性的图像增强，并生成其对应的标注文件。

进一步的，所述使用图片标注工具对图像中需要检测的文字区域进行标注，并标注文本区域中对应的字段名称，得到模板图片的标注文件还包括以下步骤：

S111、基于图像标注工具，对图像中需要检测的文字区域进行逐行标注；

S112、标注文本区域对应的字段名称，得到图像中所有待检测区域的位置并对标注的字段标识对应分类。

进一步的，所述文本内容生成规则还包括以下步骤：指定各个字段中文本规则，依据文本规则填充到标准生成模板，再对证件图片进行全局的填充。

进一步的，所述在基于图像分割方式的文本检测神经网络模型基础上引入分类分支，构建文字检测及分类一体算法模型，并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果还包括以下步骤：

S21、改造文本检测神经网络的结构：设待检测模板存在数类分类字段，文本检测网络根据结构分为骨干层和检测层，保持骨干层结构不变并进行改造；

S22、基于检测特征图和分类特征图输出文本区域及其分类结果：设网络输出分类特征图与检测特征图，基于检测特征图通过轮廓提取、生成最小包围盒的方法得到多个文本区域包围盒及其对应的置信度，并通过非极大值抑制过滤得到检测框集合，检测框集合可对应于所有分类特征图的对应位置；

S23、设定第i个检测结果的输出模型为检测框集合；

S24、设立分类置信度阈值。

进一步的，所述设定第i个检测结果的输出模型为检测框集合的计算方法如下：

；

其中，

为第n个分类特征图中第x行、第y列的值，argmax输出分类结果为Cls_i为分类结果，

为分类得分，num_classes为类别数，position(X)为计算X各个位置坐标的函数，mean(X)为均值函数。

进一步的，所述设立分类置信度阈值还包括以下步骤：

S241、当满足得分≥分类置信度阈值时，则保留检测结果；

S242、当满足得分＜分类置信度阈值时，则丢弃检测结果。

进一步的，所述将训练样本导入文字检测及分类一体算法模型进行训练，并在训练过程中分别对分类特征图、检测特征图进行两类负采样还包括以下步骤：

S31、设第n类的分类目标特征图为分类特征图，分类目标特征图减去网络输出分类特征图倒序排序后选取负样本点作为第一类负样本集合；

S32、设第n类的检测目标特征图为检测特征图，对于第n类分类检测特征图提取以下的样本点作为第二类负样本集合；

其中，所述第一类负样本集合计算公式为：

；

其中，Neg_n1为第一类负样本集合，Top(S,k)表示在集合S中选择最大的k个元素，m×m为特征图大小，δ为采样率，δ∙m∙m为负样本点；

所述第二类负样本集合计算公式为：

；

其中，Neg_n2为第二类负样本集合，sample为基于检测目标特征图Det_GT和第n类分类特征图Cls_GT_n的差所选取的负样本。

进一步的，所述依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值，并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型还包括以下步骤：

S41、采用预设检测特征图损失值计算公式计算检测特征图损失值；

S42、采用预设分类特征图损失值计算公式计算分类特征图损失值；

S43、采用预设融合公式将检测特征图损失值与分类特征图损失值进行融合；

其中，所述检测特征图损失值计算公式为：

；

其中，DiceLoss为Dice损失函数、SmoothL1Loss为平滑的L1损失函数，Loss_det为检测特征图损失值，Det_GT为检测目标特征图，Det_Pred为检测特征图，

、

为权值系数；

所述分类特征图损失值计算公式：

；

其中，DiceLoss为Dice损失函数、SmoothL1Loss为平滑的L1损失函数，Loss_cls为分类特征图损失值，，

、

为权值系数；

所述融合公式为：

；

其中，Loss_det为检测特征图损失值，Loss_cls为分类特征图损失值，ɑ、β为对应损失项的权值系数，no_gard（*）表示内部数值不进行反向传播。

进一步的，所述步骤S41、S42中均采用步骤S3的采样方法选取负样本点。

本发明的有益效果为：

1、本发明采用了样本生成方法生成训练样本，对于具有一定固定格式的证件类图片，可以通过收集少量图片后，通过样本生成方法极大地扩充训练样本规模，本发明只需收集少量样本即可支撑深度神经网络的训练。

2、本发明基于文本检测模型进行改造，提出了文本检测、分类一体的深度神经网络结构，基于一个算法模型，完成文本的检测及所属字段的划分，摆脱了传统基于文字识别结果通过正则规则确定所属字段、通过参考点位置距离确定所属字段的方法，能为多种证件类图片的结构化识别提供快速支撑。

3、本发明在模型训练策略上，提供了两种负样本采样方法，从困难样本方面，选取了TopN个负样本点，也针对性对分类特征的关键位置的进行负采样，在保证了检测区域分类结果的可靠性。

4、本发明基于改造后的文本检测模型，改进了对应的损失函数，引入了分类特征的损失函数计算方法，在混合检测损失和分类损失时，通过动态调整检测损失的权重，解决了分类损失过高影响模型检测效果的问题。

5、基于两种负样本采样方法，平衡了正样本和负样本之间的数量，可以在训练过程中有效地选取与目标值差异大的点作为负样本的同时，选取其他类别的文本区域作为负样本，保证了输出的特征图在非本文区域的低响应并降低区域文本分类错误的概率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种证件类图片的关键文本检测、分类训练方法的流程图；

图2是根据本发明实施例的一种证件类图片的关键文本检测、分类训练方法的原理示意图；

图3是根据本发明实施例的一种证件类图片的关键文本检测、分类训练方法中训练样本的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种证件类图片的关键文本检测、分类训练方法。

现结合附图和具体实施方式对本发明进一步说明，如图1与图2所示，根据本发明实施例的证件类图片的关键文本检测、分类训练方法，该方法包括以下步骤：

S1、构建证件模板，并基于证件模板生成训练样本；

在一个实施例中，所述构建证件模板，并基于证件模板生成训练样本还包括以下步骤：

S12、使用图片编辑工具、对抗生成网络（GAN）方法擦除模板图片的文字内容，得到待填充内容的模板图片；

S13、基于证件模型的训练策略：使用标准生成模板，并基于规则配置方式，指定各个字段文本内容规则（如日期、地址等）、字体、长度、行数、颜色等规则，依据此规则填充到标准生成模板上，再对图片进行全局进行增强，最终得到内容、形态各异的训练样本；

在具体应用时，重复上述步骤，可以基于少量的图片生成海量的训练样本；

在一个实施例中，所述使用图片标注工具对图像中需要检测的文字区域进行标注，并标注文本区域中对应的字段名称，得到模板图片的标注文件还包括以下步骤：

S111、基于图像标注工具（如labelimg、labelme等），对图像中需要检测的文字区域进行逐行标注；

S112、标注文本区域对应的字段名称（如标注的文本区域为姓名文本，则给予文本区域的字段名称为“姓名”），得到图像中所有待检测区域的位置并对标注的字段标识对应分类（基于步骤S11的标注结果，擦除标注区域的文字内容，可使用图片编辑工具、对抗生成网络（GAN）等方法擦除，得到待填充内容的模板图片）；

在一个实施例中，所述文本内容生成规则还包括以下步骤：指定各个字段中文本规则，依据文本规则填充到标准生成模板，再对证件图片进行全局的填充。

在一个实施例中，所述在基于图像分割方式的文本检测神经网络模型基础上引入分类分支，构建文字检测及分类一体算法模型，并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果还包括以下步骤：

S21、改造文本检测神经网络的结构：设待检测模板存在数类（num_classes）分类字段，文本检测网络根据结构分为骨干层和检测层，保持骨干层结构不变并进行改造；

在具体应用时，改造基于图像分割方式的文本检测神经网络结构的具体方法为：设待检测模板存在num_classes（数类）个分类字段，文本检测网络根据结构分为骨干层和检测层，保持骨干层结构不变，存在两种改造方法：1.在骨干层后添加分类分支，分类最终输出num_classes个特征图，2.改造检测层，从原来的输出1个特征图修改为输出1+num_classes个特征。两种改造方法均要求检测特征图和分类特征图的大小保持一致；

S23、设定第i个检测结果的输出模型为检测框集合；

S24、设立分类置信度阈值；

在一个实施例中，所述设定第i个检测结果的输出模型为检测框集合的计算方法如下：

；

其中，

在一个实施例中，所述设立分类置信度阈值还包括以下步骤：

S241、当满足得分≥分类置信度阈值时，则保留检测结果；

S242、当满足得分＜分类置信度阈值时，则丢弃检测结果。

如图3所示，在具体应用时，所述的模型训练策略，在生成目标特征图时生成(1+num_classes)张特征图，包括1张检测特征图和num_classes张分类特征图，在训练过程中加入专注困难样本的损失函数，并调正负样本采样策略训练；

在一个实施例中，所述将训练样本导入文字检测及分类一体算法模型进行训练，并在训练过程中分别对分类特征图、检测特征图进行两类负采样还包括以下步骤：

其中，所述第一类负样本集合计算公式为：

；

所述第二类负样本集合计算公式为：

；

S4、依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值，并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型；

在一个实施例中，所述依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值，并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型还包括以下步骤：

其中，所述检测特征图损失值计算公式为：

；

、

为权值系数；

所述分类特征图损失值计算公式：

；

其中，DiceLoss为Dice损失函数、SmoothL1Loss为平滑的L1损失函数，Loss_cls为分类特征图损失值，

、

为权值系数；

所述融合公式为：

；

其中，Loss_det为检测特征图损失值，Loss_cls为分类特征图损失值，ɑ、β为对应损失项的权值系数，no_gard（*）表示内部数值不进行反向传播；

再具体应用时，

；

；

DiceLoss和SmoothL1Loss均为图像语义分割任务中常用的损失函数；

在一个实施例中，所述步骤S41、S42中均采用步骤S3的采样方法选取负样本点。

综上所述，借助于本发明的上述技术方案，本发明采用了样本生成方法生成训练样本，对于具有一定固定格式的证件类图片，可以通过收集少量图片后，通过样本生成方法极大地扩充训练样本规模，本发明只需收集少量样本即可支撑深度神经网络的训练；本发明基于文本检测模型进行改造，提出了文本检测、分类一体的深度神经网络结构，基于一个算法模型，完成文本的检测及所属字段的划分，摆脱了传统基于文字识别结果通过正则规则确定所属字段、通过参考点位置距离确定所属字段的方法，能为多种证件类图片的结构化识别提供快速支撑；本发明在模型训练策略上，提供了两种负样本采样方法，从困难样本方面，选取了TopN个负样本点，也针对性对分类特征的关键位置的进行负采样，在保证了检测区域分类结果的可靠性；本发明基于改造后的文本检测模型，改进了对应的损失函数，引入了分类特征的损失函数计算方法，在混合检测损失和分类损失时，通过动态调整检测损失的权重，解决了分类损失过高影响模型检测效果的问题；基于两种负样本采样方法，平衡了正样本和负样本之间的数量，可以在训练过程中有效地选取与目标值差异大的点作为负样本的同时，选取其他类别的文本区域作为负样本，保证了输出的特征图在非本文区域的低响应并降低区域文本分类错误的概率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。