CN113343990A - 一种证件类图片的关键文本检测、分类训练方法 - Google Patents

一种证件类图片的关键文本检测、分类训练方法 Download PDF

Info

Publication number
CN113343990A
CN113343990A CN202110853791.2A CN202110853791A CN113343990A CN 113343990 A CN113343990 A CN 113343990A CN 202110853791 A CN202110853791 A CN 202110853791A CN 113343990 A CN113343990 A CN 113343990A
Authority
CN
China
Prior art keywords
classification
detection
training
text
characteristic diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110853791.2A
Other languages
English (en)
Other versions
CN113343990B (zh
Inventor
黎嘉朗
张翊
吴名朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Whale Cloud Technology Co Ltd
Original Assignee
Whale Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Whale Cloud Technology Co Ltd filed Critical Whale Cloud Technology Co Ltd
Priority to CN202110853791.2A priority Critical patent/CN113343990B/zh
Publication of CN113343990A publication Critical patent/CN113343990A/zh
Application granted granted Critical
Publication of CN113343990B publication Critical patent/CN113343990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种证件类图片的关键文本检测、分类训练方法,该方法包括以下步骤:S1、构建证件模板,并基于证件模板生成训练样本;S2、构建文字检测及分类一体算法模型,并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果;S3、将训练样本导入文字检测及分类一体算法模型进行训练,并在训练过程中分别对分类特征图、检测预测特征图进行两类负采样;S4、依次计算分类特征图中的分类特征图损失值和检测预测特征图中的检测预测特征图损失值,并融合分类特征图损失值和检测预测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型。有益效果:收集少量样本即可支撑深度神经网络的训练。

Description

一种证件类图片的关键文本检测、分类训练方法
技术领域
本发明涉及文字检测技术领域,具体来说,涉及一种证件类图片的关键文本检测、分类训练方法。
背景技术
证件类图片的文字识别场景需要从图片中提取感兴趣区域的文字内容并对其进行分类划分到对应的字段上,通常的做法有两种:1、
结合通用文字检测、通用文字识别得到图片中所有文字的位置及内容后,基于不同字段的内容规则将识别结果划分到对应的内容字段上;2、基于模板参考位置提取感兴趣区域,先在模板上标定多个参考位置,在实际运行时先找出图片中的参考位置后,再进行文字检测,结合文字检测得到的坐标信息和参考位置判断各个文本框属于哪一个字段。
前者的主要问题是在字段划分阶段涉及大量文本规则的编写、部分字段的文字内容无明显规则、实际场景中存在大量噪声导致整体的关键文本检测、分类的结果不可靠;后者则对参考位置的依赖性大,当存在参考位置缺失、图片存在形变等情况时,字段分类结果不可靠。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种证件类图片的关键文本检测、分类训练方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种证件类图片的关键文本检测、分类训练方法,该方法包括以下步骤:
S1、构建证件模板,并基于证件模板生成训练样本;
S2、在基于图像分割方式的文本检测神经网络模型基础上引入分类分支,构建文字检测及分类一体算法模型,并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果;
S3、将训练样本导入文字检测及分类一体算法模型进行训练,并在训练过程中分别对分类特征图、检测特征图进行两类负采样;
S4、依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值,并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型。
进一步的,所述构建证件模板,并基于证件模板生成训练样本还包括以下步骤:
S11、使用图片标注工具对图像中需要检测的文字区域进行标注,并标注文本区域中对应的字段名称,得到模板图片的标注文件;
S12、使用图片编辑工具、对抗生成网络方法擦除模板图片的文字内容,得到待填充内容的模板图片;
S13、各个字段定制不同的文本内容生成规则,采用文本内容生成规则将不同的字体、字号、颜色填充到对应字段的位置区域上的随机位置上,对生成的图片进行全局性的图像增强,并生成其对应的标注文件。
进一步的,所述使用图片标注工具对图像中需要检测的文字区域进行标注,并标注文本区域中对应的字段名称,得到模板图片的标注文件还包括以下步骤:
S111、基于图像标注工具,对图像中需要检测的文字区域进行逐行标注;
S112、标注文本区域对应的字段名称,得到图像中所有待检测区域的位置并对标注的字段标识对应分类。
进一步的,所述文本内容生成规则还包括以下步骤:指定各个字段中文本规则,依据文本规则填充到标准生成模板,再对证件图片进行全局的填充。
进一步的,所述在基于图像分割方式的文本检测神经网络模型基础上引入分类分支,构建文字检测及分类一体算法模型,并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果还包括以下步骤:
S21、改造文本检测神经网络的结构:设待检测模板存在数类分类字段,文本检测网络根据结构分为骨干层和检测层,保持骨干层结构不变并进行改造;
S22、基于检测特征图和分类特征图输出文本区域及其分类结果:设网络输出分类特征图与检测特征图,基于检测特征图通过轮廓提取、生成最小包围盒的方法得到多个文本区域包围盒及其对应的置信度,并通过非极大值抑制过滤得到检测框集合,检测框集合可对应于所有分类特征图的对应位置;
S23、设定第i个检测结果的输出模型为检测框集合;
S24、设立分类置信度阈值。
进一步的,所述设定第i个检测结果的输出模型为检测框集合的计算方法如下:
Figure 291455DEST_PATH_IMAGE001
其中,
Figure 20377DEST_PATH_IMAGE002
为第n个分类特征图中第x行、第y列的值,argmax输出分类结果为Clsi为分类结果,
Figure 99191DEST_PATH_IMAGE003
为分类得分,num_classes为类别数,position(X)为计算X各个位置坐标的函数,mean(X)为均值函数。
进一步的,所述设立分类置信度阈值还包括以下步骤:
S241、当满足得分≥分类置信度阈值时,则保留检测结果;
S242、当满足得分<分类置信度阈值时,则丢弃检测结果。
进一步的,所述将训练样本导入文字检测及分类一体算法模型进行训练,并在训练过程中分别对分类特征图、检测特征图进行两类负采样还包括以下步骤:
S31、设第n类的分类目标特征图为分类特征图,分类目标特征图减去网络输出分类特征图倒序排序后选取负样本点作为第一类负样本集合;
S32、设第n类的检测目标特征图为检测特征图,对于第n类分类检测特征图提取以下的样本点作为第二类负样本集合;
其中,所述第一类负样本集合计算公式为:
Figure 597168DEST_PATH_IMAGE004
其中,Negn1为第一类负样本集合,Top(S,k)表示在集合S中选择最大的k个元素,m×m为特征图大小,δ为采样率,δ∙m∙m为负样本点;
所述第二类负样本集合计算公式为:
Figure 916285DEST_PATH_IMAGE005
其中,Negn2为第二类负样本集合,sample为基于检测目标特征图Det_GT和第n类分类特征图Cls_GTn的差所选取的负样本。
进一步的,所述依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值,并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型还包括以下步骤:
S41、采用预设检测特征图损失值计算公式计算检测特征图损失值;
S42、采用预设分类特征图损失值计算公式计算分类特征图损失值;
S43、采用预设融合公式将检测特征图损失值与分类特征图损失值进行融合;
其中,所述检测特征图损失值计算公式为:
Figure 132503DEST_PATH_IMAGE006
其中,DiceLoss为Dice损失函数、SmoothL1Loss为平滑的L1损失函数,Lossdet为检测特征图损失值,Det_GT为检测目标特征图,Det_Pred为检测特征图,
Figure 15008DEST_PATH_IMAGE007
Figure 367492DEST_PATH_IMAGE008
为权值系数;
所述分类特征图损失值计算公式:
Figure 372357DEST_PATH_IMAGE009
其中,DiceLoss为Dice损失函数、SmoothL1Loss为平滑的L1损失函数,Losscls为分类特征图损失值,,
Figure 810292DEST_PATH_IMAGE010
Figure 230909DEST_PATH_IMAGE011
为权值系数;
所述融合公式为:
Figure 703479DEST_PATH_IMAGE012
其中,Lossdet为检测特征图损失值,Losscls为分类特征图损失值,ɑ、β为对应损失项的权值系数,no_gard(*)表示内部数值不进行反向传播。
进一步的,所述步骤S41、S42中均采用步骤S3的采样方法选取负样本点。
本发明的有益效果为:
1、本发明采用了样本生成方法生成训练样本,对于具有一定固定格式的证件类图片,可以通过收集少量图片后,通过样本生成方法极大地扩充训练样本规模,本发明只需收集少量样本即可支撑深度神经网络的训练。
2、本发明基于文本检测模型进行改造,提出了文本检测、分类一体的深度神经网络结构,基于一个算法模型,完成文本的检测及所属字段的划分,摆脱了传统基于文字识别结果通过正则规则确定所属字段、通过参考点位置距离确定所属字段的方法,能为多种证件类图片的结构化识别提供快速支撑。
3、本发明在模型训练策略上,提供了两种负样本采样方法,从困难样本方面,选取了TopN个负样本点,也针对性对分类特征的关键位置的进行负采样,在保证了检测区域分类结果的可靠性。
4、本发明基于改造后的文本检测模型,改进了对应的损失函数,引入了分类特征的损失函数计算方法,在混合检测损失和分类损失时,通过动态调整检测损失的权重,解决了分类损失过高影响模型检测效果的问题。
5、基于两种负样本采样方法,平衡了正样本和负样本之间的数量,可以在训练过程中有效地选取与目标值差异大的点作为负样本的同时,选取其他类别的文本区域作为负样本,保证了输出的特征图在非本文区域的低响应并降低区域文本分类错误的概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种证件类图片的关键文本检测、分类训练方法的流程图;
图2是根据本发明实施例的一种证件类图片的关键文本检测、分类训练方法的原理示意图;
图3是根据本发明实施例的一种证件类图片的关键文本检测、分类训练方法中训练样本的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种证件类图片的关键文本检测、分类训练方法。
现结合附图和具体实施方式对本发明进一步说明,如图1与图2所示,根据本发明实施例的证件类图片的关键文本检测、分类训练方法,该方法包括以下步骤:
S1、构建证件模板,并基于证件模板生成训练样本;
在一个实施例中,所述构建证件模板,并基于证件模板生成训练样本还包括以下步骤:
S11、使用图片标注工具对图像中需要检测的文字区域进行标注,并标注文本区域中对应的字段名称,得到模板图片的标注文件;
S12、使用图片编辑工具、对抗生成网络(GAN)方法擦除模板图片的文字内容,得到待填充内容的模板图片;
S13、基于证件模型的训练策略:使用标准生成模板,并基于规则配置方式,指定各个字段文本内容规则(如日期、地址等)、字体、长度、行数、颜色等规则,依据此规则填充到标准生成模板上,再对图片进行全局进行增强,最终得到内容、形态各异的训练样本;
在具体应用时,重复上述步骤,可以基于少量的图片生成海量的训练样本;
在一个实施例中,所述使用图片标注工具对图像中需要检测的文字区域进行标注,并标注文本区域中对应的字段名称,得到模板图片的标注文件还包括以下步骤:
S111、基于图像标注工具(如labelimg、labelme等),对图像中需要检测的文字区域进行逐行标注;
S112、标注文本区域对应的字段名称(如标注的文本区域为姓名文本,则给予文本区域的字段名称为“姓名”),得到图像中所有待检测区域的位置并对标注的字段标识对应分类(基于步骤S11的标注结果,擦除标注区域的文字内容,可使用图片编辑工具、对抗生成网络(GAN)等方法擦除,得到待填充内容的模板图片);
在一个实施例中,所述文本内容生成规则还包括以下步骤:指定各个字段中文本规则,依据文本规则填充到标准生成模板,再对证件图片进行全局的填充。
S2、在基于图像分割方式的文本检测神经网络模型基础上引入分类分支,构建文字检测及分类一体算法模型,并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果;
在一个实施例中,所述在基于图像分割方式的文本检测神经网络模型基础上引入分类分支,构建文字检测及分类一体算法模型,并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果还包括以下步骤:
S21、改造文本检测神经网络的结构:设待检测模板存在数类(num_classes)分类字段,文本检测网络根据结构分为骨干层和检测层,保持骨干层结构不变并进行改造;
在具体应用时,改造基于图像分割方式的文本检测神经网络结构的具体方法为:设待检测模板存在num_classes(数类)个分类字段,文本检测网络根据结构分为骨干层和检测层,保持骨干层结构不变,存在两种改造方法:1.在骨干层后添加分类分支,分类最终输出num_classes个特征图,2.改造检测层,从原来的输出1个特征图修改为输出1+num_classes个特征。两种改造方法均要求检测特征图和分类特征图的大小保持一致;
S22、基于检测特征图和分类特征图输出文本区域及其分类结果:设网络输出分类特征图与检测特征图,基于检测特征图通过轮廓提取、生成最小包围盒的方法得到多个文本区域包围盒及其对应的置信度,并通过非极大值抑制过滤得到检测框集合,检测框集合可对应于所有分类特征图的对应位置;
S23、设定第i个检测结果的输出模型为检测框集合;
S24、设立分类置信度阈值;
在一个实施例中,所述设定第i个检测结果的输出模型为检测框集合的计算方法如下:
Figure 361469DEST_PATH_IMAGE013
其中,
Figure 286699DEST_PATH_IMAGE002
为第n个分类特征图中第x行、第y列的值,argmax输出分类结果为Clsi为分类结果,
Figure 511007DEST_PATH_IMAGE003
为分类得分,num_classes为类别数,position(X)为计算X各个位置坐标的函数,mean(X)为均值函数。
在一个实施例中,所述设立分类置信度阈值还包括以下步骤:
S241、当满足得分≥分类置信度阈值时,则保留检测结果;
S242、当满足得分<分类置信度阈值时,则丢弃检测结果。
S3、将训练样本导入文字检测及分类一体算法模型进行训练,并在训练过程中分别对分类特征图、检测特征图进行两类负采样;
如图3所示,在具体应用时,所述的模型训练策略,在生成目标特征图时生成(1+num_classes)张特征图,包括1张检测特征图和num_classes张分类特征图,在训练过程中加入专注困难样本的损失函数,并调正负样本采样策略训练;
在一个实施例中,所述将训练样本导入文字检测及分类一体算法模型进行训练,并在训练过程中分别对分类特征图、检测特征图进行两类负采样还包括以下步骤:
S31、设第n类的分类目标特征图为分类特征图,分类目标特征图减去网络输出分类特征图倒序排序后选取负样本点作为第一类负样本集合;
S32、设第n类的检测目标特征图为检测特征图,对于第n类分类检测特征图提取以下的样本点作为第二类负样本集合;
其中,所述第一类负样本集合计算公式为:
Figure 900400DEST_PATH_IMAGE004
其中,Negn1为第一类负样本集合,Top(S,k)表示在集合S中选择最大的k个元素,m×m为特征图大小,δ为采样率,δ∙m∙m为负样本点;
所述第二类负样本集合计算公式为:
Figure 510435DEST_PATH_IMAGE005
其中,Negn2为第二类负样本集合,sample为基于检测目标特征图Det_GT和第n类分类特征图Cls_GTn的差所选取的负样本。
S4、依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值,并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型;
在一个实施例中,所述依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值,并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型还包括以下步骤:
S41、采用预设检测特征图损失值计算公式计算检测特征图损失值;
S42、采用预设分类特征图损失值计算公式计算分类特征图损失值;
S43、采用预设融合公式将检测特征图损失值与分类特征图损失值进行融合;
其中,所述检测特征图损失值计算公式为:
Figure 922962DEST_PATH_IMAGE006
其中,DiceLoss为Dice损失函数、SmoothL1Loss为平滑的L1损失函数,Lossdet为检测特征图损失值,Det_GT为检测目标特征图,Det_Pred为检测特征图,
Figure 685381DEST_PATH_IMAGE007
Figure 680013DEST_PATH_IMAGE008
为权值系数;
所述分类特征图损失值计算公式:
Figure 135265DEST_PATH_IMAGE009
其中,DiceLoss为Dice损失函数、SmoothL1Loss为平滑的L1损失函数,Losscls为分类特征图损失值,
Figure 35088DEST_PATH_IMAGE010
Figure 601199DEST_PATH_IMAGE011
为权值系数;
所述融合公式为:
Figure 699605DEST_PATH_IMAGE012
其中,Lossdet为检测特征图损失值,Losscls为分类特征图损失值,ɑ、β为对应损失项的权值系数,no_gard(*)表示内部数值不进行反向传播;
再具体应用时,
Figure 325758DEST_PATH_IMAGE014
Figure 398363DEST_PATH_IMAGE015
DiceLoss和SmoothL1Loss均为图像语义分割任务中常用的损失函数;
在一个实施例中,所述步骤S41、S42中均采用步骤S3的采样方法选取负样本点。
综上所述,借助于本发明的上述技术方案,本发明采用了样本生成方法生成训练样本,对于具有一定固定格式的证件类图片,可以通过收集少量图片后,通过样本生成方法极大地扩充训练样本规模,本发明只需收集少量样本即可支撑深度神经网络的训练;本发明基于文本检测模型进行改造,提出了文本检测、分类一体的深度神经网络结构,基于一个算法模型,完成文本的检测及所属字段的划分,摆脱了传统基于文字识别结果通过正则规则确定所属字段、通过参考点位置距离确定所属字段的方法,能为多种证件类图片的结构化识别提供快速支撑;本发明在模型训练策略上,提供了两种负样本采样方法,从困难样本方面,选取了TopN个负样本点,也针对性对分类特征的关键位置的进行负采样,在保证了检测区域分类结果的可靠性;本发明基于改造后的文本检测模型,改进了对应的损失函数,引入了分类特征的损失函数计算方法,在混合检测损失和分类损失时,通过动态调整检测损失的权重,解决了分类损失过高影响模型检测效果的问题;基于两种负样本采样方法,平衡了正样本和负样本之间的数量,可以在训练过程中有效地选取与目标值差异大的点作为负样本的同时,选取其他类别的文本区域作为负样本,保证了输出的特征图在非本文区域的低响应并降低区域文本分类错误的概率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种证件类图片的关键文本检测、分类训练方法,其特征在于,该方法包括以下步骤:
S1、构建证件模板,并基于证件模板生成训练样本;
S2、在基于图像分割方式的文本检测神经网络模型基础上引入分类分支,构建文字检测及分类一体算法模型,并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果;
S3、将训练样本导入文字检测及分类一体算法模型进行训练,并在训练过程中分别对分类特征图、检测特征图进行两类负采样;
S4、依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值,并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型。
2.根据权利要求1所述的一种证件类图片的关键文本检测、分类训练方法,其特征在于,所述构建证件模板,并基于证件模板生成训练样本还包括以下步骤:
S11、使用图片标注工具对图像中需要检测的文字区域进行标注,并标注文本区域中对应的字段名称,得到模板图片的标注文件;
S12、使用图片编辑工具、对抗生成网络方法擦除模板图片的文字内容,得到待填充内容的模板图片;
S13、各个字段定制不同的文本内容生成规则,采用文本内容生成规则将不同的字体、字号、颜色填充到对应字段的位置区域上的随机位置上,对生成的图片进行全局性的图像增强,并生成其对应的标注文件。
3.根据权利要求2所述的一种证件类图片的关键文本检测、分类训练方法,其特征在于,所述使用图片标注工具对图像中需要检测的文字区域进行标注,并标注文本区域中对应的字段名称,得到模板图片的标注文件还包括以下步骤:
S111、基于图像标注工具,对图像中需要检测的文字区域进行逐行标注;
S112、标注文本区域对应的字段名称,得到图像中所有待检测区域的位置并对标注的字段标识对应分类。
4.根据权利要求2所述的一种证件类图片的关键文本检测、分类训练方法,其特征在于,所述文本内容生成规则还包括以下步骤:指定各个字段中文本规则,依据文本规则填充到标准生成模板,再对证件图片进行全局的填充。
5.根据权利要求1所述的一种证件类图片的关键文本检测、分类训练方法,其特征在于,所述在基于图像分割方式的文本检测神经网络模型基础上引入分类分支,构建文字检测及分类一体算法模型,并基于网络输出的检测特征图和分类特征图输出文本区域及其分类结果还包括以下步骤:
S21、改造文本检测神经网络的结构:设待检测模板存在数类分类字段,文本检测网络根据结构分为骨干层和检测层,保持骨干层结构不变并进行改造;
S22、基于检测特征图和分类特征图输出文本区域及其分类结果:设网络输出分类特征图与检测特征图,基于检测特征图通过轮廓提取、生成最小包围盒的方法得到多个文本区域包围盒及其对应的置信度,并通过非极大值抑制过滤得到检测框集合,检测框集合可对应于所有分类特征图的对应位置;
S23、设定第i个检测结果的输出模型为检测框集合;
S24、设立分类置信度阈值。
6.根据权利要求5所述的一种证件类图片的关键文本检测、分类训练方法,其特征在于,所述设定第i个检测结果的输出模型为检测框集合的计算方法如下:
Figure 111388DEST_PATH_IMAGE001
其中,
Figure 310288DEST_PATH_IMAGE002
为第n个分类特征图中第x行、第y列的值,argmax输出分类结果为Clsi和分类得分,为得分,num_class为类别数,position(X)为计算X各个位置坐标的函数,mean(X)为均值函数,Clsi为公共语言规范。
7.根据权利要求5所述的一种证件类图片的关键文本检测、分类训练方法,其特征在于,所述设立分类置信度阈值还包括以下步骤:
S241、当满足得分≥分类置信度阈值时,则保留检测结果;
S242、当满足得分<分类置信度阈值时,则丢弃检测结果。
8.根据权利要求1所述的一种证件类图片的关键文本检测、分类训练方法,其特征在于,所述将训练样本导入文字检测及分类一体算法模型进行训练,并在训练过程中分别对分类特征图、检测特征图进行两类负采样还包括以下步骤:
S31、设第n类的分类目标特征图为分类特征图,分类目标特征图减去网络输出分类特征图倒序排序后选取负样本点作为第一类负样本集合;
S32、设第n类的检测目标特征图为检测特征图,对于第n类分类检测特征图提取以下的样本点作为第二类负样本集合;
其中,所述第一类负样本集合计算公式为:
Figure 775904DEST_PATH_IMAGE003
其中,Negn1为第一类负样本集合,Top(S,k)表示在集合S中选择最大的k个元素,m×m为特征图大小,δ为采样率,δ∙m∙m为负样本点;
所述第二类负样本集合计算公式为:
Figure 34847DEST_PATH_IMAGE004
其中,Negn2为第二类负样本集合,sample为基于检测目标特征图Det_GT和第n类分类特征图Cls_GTn的差所选取的负样本。
9.根据权利要求8所述的一种证件类图片的关键文本检测、分类训练方法,其特征在于,所述依次计算分类特征图中的分类特征图损失值和检测特征图中的检测特征图损失值,并融合分类特征图损失值和检测特征图损失值进行反向传播优化训练文字检测及分类一体算法模型还包括以下步骤:
S41、采用预设检测特征图损失值计算公式计算检测特征图损失值;
S42、采用预设分类特征图损失值计算公式计算分类特征图损失值;
S43、采用预设融合公式将检测特征图损失值与分类特征图损失值进行融合;
其中,所述检测特征图损失值计算公式为:
Figure 789177DEST_PATH_IMAGE005
其中,DiceLoss为Dice损失函数、SmoothL1Loss为平滑的L1损失函数,Lossdet为检测特征图损失值,Det_GT为检测目标特征图,Det_Pred为检测特征图,
Figure 526189DEST_PATH_IMAGE006
Figure 862623DEST_PATH_IMAGE007
为权值系数;
所述分类特征图损失值计算公式:
Figure 292467DEST_PATH_IMAGE008
其中, DiceLoss为Dice损失函数、SmoothL1Loss为平滑的L1损失函数,Losscls为分类特征图损失值,
Figure 268514DEST_PATH_IMAGE009
Figure 809216DEST_PATH_IMAGE010
为权值系数;
所述融合公式为:
Figure 515004DEST_PATH_IMAGE011
其中,Lossdet为检测特征图损失值,Losscls为分类特征图损失值,ɑ、β为对应损失项的权值系数,no_gard(*)表示内部数值不进行反向传播。
10.根据权利要求9所述的一种证件类图片的关键文本检测、分类训练方法,其特征在于,所述步骤S41、S42中均采用步骤S3的采样方法选取负样本。
CN202110853791.2A 2021-07-28 2021-07-28 一种证件类图片的关键文本检测、分类训练方法 Active CN113343990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110853791.2A CN113343990B (zh) 2021-07-28 2021-07-28 一种证件类图片的关键文本检测、分类训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110853791.2A CN113343990B (zh) 2021-07-28 2021-07-28 一种证件类图片的关键文本检测、分类训练方法

Publications (2)

Publication Number Publication Date
CN113343990A true CN113343990A (zh) 2021-09-03
CN113343990B CN113343990B (zh) 2021-12-03

Family

ID=77480425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110853791.2A Active CN113343990B (zh) 2021-07-28 2021-07-28 一种证件类图片的关键文本检测、分类训练方法

Country Status (1)

Country Link
CN (1) CN113343990B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463821A (zh) * 2022-02-15 2022-05-10 平安科技(深圳)有限公司 证件数据生成方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN111709406A (zh) * 2020-08-18 2020-09-25 成都数联铭品科技有限公司 文本行识别方法及装置、可读存储介质、电子设备
CN113076900A (zh) * 2021-04-12 2021-07-06 华南理工大学 基于深度学习的试卷卷头学生信息自动检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN111275688A (zh) * 2020-01-19 2020-06-12 合肥工业大学 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN111709406A (zh) * 2020-08-18 2020-09-25 成都数联铭品科技有限公司 文本行识别方法及装置、可读存储介质、电子设备
CN113076900A (zh) * 2021-04-12 2021-07-06 华南理工大学 基于深度学习的试卷卷头学生信息自动检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463821A (zh) * 2022-02-15 2022-05-10 平安科技(深圳)有限公司 证件数据生成方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113343990B (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
CN112131920B (zh) 用于扫描图像中的表格信息的数据结构生成
CN112528963A (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN111046784A (zh) 文档版面分析识别方法、装置、电子设备和存储介质
CN112508975A (zh) 一种图像识别方法、装置、设备及存储介质
CN112597773B (zh) 文档结构化方法、系统、终端及介质
CN111291759A (zh) 文字检测方法、装置、电子设备及存储介质
CN112699234A (zh) 一种通用文档识别方法、系统、终端及存储介质
CN114596566B (zh) 文本识别方法及相关装置
CN104778470A (zh) 基于组件树和霍夫森林的文字检测和识别方法
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN109983473A (zh) 灵活的集成识别和语义处理
CN109685061A (zh) 适用于结构化的数学公式的识别方法
CN113343990B (zh) 一种证件类图片的关键文本检测、分类训练方法
CN112766246A (zh) 基于深度学习的文档标题识别方法、系统、终端及介质
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN114519819A (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN116385374A (zh) 基于卷积神经网络的细胞计数方法
CN113989822B (zh) 基于计算机视觉和自然语言处理的图片表格内容提取方法
CN113642320A (zh) 文档目录结构的提取方法、装置、设备和介质
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
CN111898608B (zh) 一种基于边界预测的自然场景多语言文字检测方法
CN112418207A (zh) 一种基于自注意力蒸馏的弱监督文字检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant