CN117423116A - 一种文本检测模型的训练方法、文本检测方法及装置 - Google Patents
一种文本检测模型的训练方法、文本检测方法及装置 Download PDFInfo
- Publication number
- CN117423116A CN117423116A CN202311735371.XA CN202311735371A CN117423116A CN 117423116 A CN117423116 A CN 117423116A CN 202311735371 A CN202311735371 A CN 202311735371A CN 117423116 A CN117423116 A CN 117423116A
- Authority
- CN
- China
- Prior art keywords
- prediction
- text
- feature map
- network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 237
- 238000001514 detection method Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 claims description 50
- 238000010586 diagram Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
本申请提出一种文本检测模型的训练方法、文本检测方法及装置,将文本检测模型的训练划分为了两个核心阶段:“预训练阶段”与“联合训练阶段”,其中利用“预训练阶段”对文档中边框的识别结果进行优化,避免文本框检测出现混淆与粘连等情况,进而将“预训练阶段”中的关键单元“文本区域预测分支网络”参与到“联合训练阶段”,从而在降低整体训练资源的同时,实现参数共享,提高“联合训练阶段”模型的收敛速度,使得本申请所示的文本检测模型具备更好的泛化能力。
Description
技术领域
本申请涉及深度学习,具体而言,涉及一种文本检测模型的训练方法、文本检测方法及装置。
背景技术
现有技术中,文本检测是指定位图像中的文字区域,并用边界框的形式将单词或文本行标记出来的过程。作为光学字符识别(Optical Character Recognition,OCR)中的重要任务分支,文本检测涉及到的场景十分多样。
然而,在金融领域,待识别的图像往往是不可编辑的PDF或图片类型,其中包含大量的文字段落与不同类型的表格。现有技术通常使用深度学习构建对于上述场景的文本检测方案,其往往需要利用检测文本框对文本进行识别。其识别过程模型需要利用多个候选文本框对文本进行筛选。
其计算过程较为复杂,并且当待识别文本,例如金融文档,具有较为密集的文字内容时,往往会因为上述文本框的混淆与粘连降低识别效果。
发明内容
本申请的目的在于提供一种文本检测模型的训练方法、文本检测方法及装置,其用于在降低整体训练资源的同时,实现参数共享,提高“联合训练阶段”模型的收敛速度,使得本申请所示的文本检测模型具备更好的泛化能力。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种文本检测模型的训练方法,所述方法应用模型训练系统,所述模型训练系统包括文本检测模型,所述文本检测模型包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络以及第一预测网络,所述方法,包括:
将样本数据输入所述文本区域预测分支网络获得待学习特征图;所述文本区域预测分支网络为通过表征所述样本数据的边框损失与文本区域损失的预测损失信息迭代训练获得的;
将所述样本数据输入所述第一特征处理网络获得第一已还原特征图;
通过所述置信度加权网络分别为所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
将所述已学习特征图输入所述第一预测网络获得待验证预测结果;
根据文本区域掩膜信息、所述待验证预测结果、所述待学习特征图以及所述第一已还原特征图确定总熵损失信息;所述文本区域掩膜信息表征所述样本数据的真实值;所述总熵损失信息表征当前联合训练周期所述文本检测模型的预测结果与真实值的差异;
根据每个联合训练周期对应的总交叉熵损失信息对所述文本检测模型中各个网络的参数进行更新,直至第N个联合训练周期对应的待验证预测结果满足第一训练条件,且所述第N个联合训练周期对应的总交叉熵损失信息满足收敛状态,则将所述第N个联合训练周期对应的文本检测模型作为成熟的文本检测模型。
可选地,所述根据文本区域掩膜信息、所述待验证预测结果、所述待学习特征图以及所述第一已还原特征图确定总熵损失信息的步骤,包括:
根据所述文本区域掩膜信息与所述待学习特征图获得第一加权熵损失信息;
根据所述文本区域掩膜信息与所述第一已还原特征图获得第二加权熵损失信息;
根据所述文本区域掩膜信息与所述待验证预测结果获得交叉熵损失信息;
根据所述第一加权熵损失信息、所述第二加权熵损失信息以及所述交叉熵损失信息,确定所述总熵损失信息。
可选地,所述模型训练系统还包括预训练模型;所述预训练模型包括:第二特征处理网络与第二预测网络;所述第二预测网络包括:待训练文本边框预测分支网络与待训练文本区域预测分支网络;在所述将样本数据输入所述文本区域预测分支网络获得待学习特征图的步骤之前,还包括:
将所述样本数据输入所述第二特征处理网络,获得所述样本数据对应的第二已还原特征图;
将所述第二已还原特征图输入所述待训练文本边框预测分支网络,获得所述样本数据对应的文本边框预测特征图;
将所述第二已还原特征图输入所述待训练文本区域预测分支网络,获得所述样本数据对应的文本区域预测特征图;
根据所述文本边框预测特征图、所述文本区域预测特征图、边框区域掩膜信息以及所述文本区域掩膜信息,确定所述预测损失信息;所述边框区域掩膜信息由所述文本区域掩膜信息获得;所述预测损失信息表征当前预训练周期所述预训练模型的训练结果与真实值的差异;
根据每个预训练周期对应的预测损失信息对所述预训练模型中各个网络的参数进行更新,直至第M个预训练周期对应的总预测特征图满足第二训练条件,且所述第M个预训练周期对应的预测损失信息满足收敛状态,则将所述第M个预训练周期对应的待训练文本区域预测分支网络作为所述文本区域预测分支网络。
可选地,所述根据所述文本边框预测特征图、所述文本区域预测特征图、边框区域掩膜信息以及所述文本区域掩膜信息,确定所述预测损失信息的步骤,包括:
根据所述文本边框预测特征图与边框区域掩膜信息获得边框损失信息;
根据所述文本区域预测特征图与所述文本区域掩膜信息获得区域损失信息;
对所述文本边框预测特征图与所述文本区域预测特征图进行归一化计算,获得总预测特征图;
根据所述总预测特征图与所述文本区域掩膜信息获得总预测区域损失信息;
根据所述边框损失信息、所述区域损失信息以及总预测区域损失信息获得所述预测损失信息。
可选地,所述根据所述文本边框预测特征图与边框区域掩膜信息获得边框损失信息的步骤,包括:
根据所述文本区域掩膜信息提取对应边框的信息作为真实值,生成所述边框区域掩膜信息;
对所述文本边框预测特征图进行收缩,获得收缩预测特征图;
计算所述收缩预测特征图中边框与所述边框区域掩膜信息的距离均值,将所述距离均值作为所述边框损失信息。
可选地,在所述将所述样本数据与所述文本区域掩膜信息输入所述第二特征处理网络,获得所述样本数据对应的第二已还原特征图的步骤之前,还包括:
根据具备文本框标注的样本数据,获得所述文本区域掩膜信息。
可选地,所述第一特征处理网络包括:卷积特征提取网络和第一FPN特征还原网络,所述将所述样本数据输入所述第一特征处理网络获得第一已还原特征图的步骤,包括:
将所述样本数据输入所述卷积特征提取网络,获得第一待还原特征图;
将所述第一待还原特征图输入所述第一FPN特征还原网络,获得所述第一已还原特征图。
可选地,所述第二特征处理网络包括:残差特征提取网络和第二FPN特征还原网络,所述将所述样本数据输入所述第二特征处理网络,获得所述样本数据对应的第二已还原特征图的步骤,包括:
将所述样本数据输入所述残差特征提取网络,获得第二待还原特征图;
将所述第二待还原特征图输入所述第二FPN特征还原网络,获得所述第二已还原特征图。
第二方面,本申请实施例提供一种文本检测方法,所述方法应用于文本检测模型,所述文本检测模型包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络以及第一预测网络,所述方法,包括:
将待检测数据输入所述文本区域预测分支网络获得待学习特征图;
将所述待检测数据输入所述第一特征处理网络获得第一已还原特征图;
通过所述置信度加权网络分别为所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
将所述已学习特征图输入所述第一预测网络获得检测结果。
第三方面,本申请实施例提供一种文本检测模型训练装置,所述装置包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络、第一预测网络以及迭代模块;
所述文本区域预测分支网络,用于根据样本数据获得待学习特征图;所述文本区域预测分支网络为通过表征所述样本数据的边框损失与文本区域损失的预测损失信息迭代训练获得的;
所述第一特征处理网络,用于根据所述样本数据获得第一已还原特征图;
所述置信度加权网络,用于对所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
所述第一预测网络,用于根据所述已学习特征图获得待验证预测结果;
所述迭代模块,用于根据文本区域掩膜信息、所述待验证预测结果、所述待学习特征图以及所述第一已还原特征图确定总熵损失信息;所述文本区域掩膜信息表征所述样本数据的真实值;所述总熵损失信息表征当前联合训练周期所述文本检测模型的预测结果与真实值的差异;根据每个联合训练周期对应的总交叉熵损失信息对所述文本检测模型中各个网络的参数进行更新,直至第N个联合训练周期对应的待验证预测结果满足第一训练条件,且所述第N个联合训练周期对应的总交叉熵损失信息满足收敛状态,则将所述第N个联合训练周期对应的文本检测模型作为成熟的文本检测模型。
可选地,所述装置,还包括:第二特征处理网络与第二预测网络;所述第二预测网络包括:待训练文本边框预测分支网络与待训练文本区域预测分支网络;
所述第二特征处理网络,用于根据所述样本数据确定第二已还原特征图;
所述待训练文本边框预测分支网络,用于根据所述第二已还原特征图确定文本边框预测特征图;
所述待训练文本区域预测分支网络,用于根据所述第二已还原特征图确定文本区域预测特征图;
所述迭代模块,还用于根据所述文本边框预测特征图、所述文本区域预测特征图、边框区域掩膜信息以及所述文本区域掩膜信息,确定所述预测损失信息;所述边框区域掩膜信息由所述文本区域掩膜信息获得;所述预测损失信息表征当前预训练周期所述预训练模型的训练结果与真实值的差异;根据每个预训练周期对应的预测损失信息对所述预训练模型中各个网络的参数进行更新,直至第M个预训练周期对应的总预测特征图满足第二训练条件,且所述第M个预训练周期对应的预测损失信息满足收敛状态,则将所述第M个预训练周期对应的待训练文本区域预测分支网络作为所述文本区域预测分支网络。
第四方面,本申请实施例提供一种文本检测装置,所述装置包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络以及第一预测网络;
所述文本区域预测分支网络,用于根据待检测数据确定待学习特征图;
所述第一特征处理网络,用于根据所述待检测数据获得第一已还原特征图;
所述置信度加权网络,用于分别为所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
所述第一预测网络,用于根据已学习特征图获得检测结果。
第五方面,本申请实施例提供一种电子设备,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如上述第一个方面中任一项所述的方法;和/或,上述第二个方面所述的方法。
第溜方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上述第一个方面中任一项所述的方法;和/或,上述第二个方面所述的方法。
相对于现有技术,本申请实施例所提供的文本检测模型的训练方法、文本检测方法及装置,将文本检测模型的训练划分为了两个核心阶段:“预训练阶段”与“联合训练阶段”,其中利用“预训练阶段”对文档中边框的识别结果进行优化,避免文本框检测出现混淆与粘连等情况,进而将“预训练阶段”中的关键单元“文本区域预测分支网络”参与到“联合训练阶段”,从而在降低整体训练资源的同时,实现参数共享,提高“联合训练阶段”模型的收敛速度,使得本申请所示的文本检测模型具备更好的泛化能力。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本发明实施例提供的联合训练阶段的模型示意图;
图2为本发明实施例提供的一种文本检测模型的训练方法的流程示意图;
图3为本发明实施例提供的预训练阶段的模型示意图;
图4为本发明实施例提供的另一种文本检测模型的训练方法的流程示意图;
图5为本发明实施例提供的另一种文本检测模型的训练方法的流程示意图;
图6为本发明实施例提供的一种预训练阶段与联合训练阶段的模型示意图;
图7为本发明实施例提供的另一种预训练阶段与联合训练阶段的模型示意图;
图8为本发明实施例提供的一种文本检测方法的流程示意图;
图9为本发明实施例提供的一种文本检测的模型示意图;
图10A为本发明实施例提供的一种待检测数据的示意图;
图10B为本发明实施例提供的一种待检测结果的示意图;
图10C为本发明实施例提供的一种待检测结果的还原示意图;
图11为本发明实施例提供的一种文本检测模型训练装置的示意图;
图12为本发明实施例提供的另一种文本检测模型训练装置的示意图;
图13为本发明实施例提供的一种文本检测装置的示意图;
图14为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
现有技术中,对于利用深度学习进行文档的文本检测时,其主要方式如下:
1)采用基于回归的文本检测,对Faster-RCNN、SSD、RFCN等通用目标检测方法进行改进,使网络架构更适应文本特征。这类方法首先从多个候选文本框中筛选出部分文本的检测结果,然后将同一个文本框的小文本框合并,从而组成一个完整的文本行。
2)采用基于分割的文本检测,主要对图像的像素进行二分类,直接得到属于文本部分的二值图,然后通过后处理部分得到文本框。
然而,采用现有技术进行检测时,模型以多个候选框作为中间产物再进行筛选,计算过程较为复杂,且回归结果为水平矩形或者多方向的任意形状多边形,对于一些变形文本检测效果不佳。
基于分割的检测对文本区域的掩码图进行预测,虽然对变形文本具有一定的适应能力,但是对于密集型文本做容易发生重叠,不容易将不同文本实例分开,检测能力有限。
文字检测的应用场景存在多样性,在不同场景下同一模型检测效果并不相同。金融文档中的文字较为密集,分辨率较低,文本框容易出现混淆与粘连的情况,因此对模型精度也有一定要求。
为了解决上述问题,本申请核心改进在于将文本检测模型的训练划分为了两个核心阶段:“预训练阶段”与“联合训练阶段”,其中利用“预训练阶段”对文档中边框的识别结果进行优化,避免文本框检测出现混淆与粘连等情况,进而将“预训练阶段”中的关键单元“文本区域预测分支网络”参与到“联合训练阶段”,从而在降低整体训练资源的同时,实现参数共享,提高“联合训练阶段”模型的收敛速度,使得本申请所示的文本检测模型具备更好的泛化能力。
下面为了更好的说明文本检测模型的训练过程,将以完成了“预训练阶段”的文本区域预测分支网络为例,对“联合训练阶段”进行说明。具体的,图1为本发明实施例提供的联合训练阶段的模型示意图,参见图1,该训练方法应用于模型训练系统10,该模型训练系统10包括文本检测模型20,具体的,该文本检测模型20包括:文本区域预测分支网络200、第一特征处理网络201、置信度加权网络202以及第一预测网络203;进一步的,图2为本发明实施例提供的一种文本检测模型的训练方法的流程示意图,结合图1与图2,该方法包括:
步骤107、将样本数据输入文本区域预测分支网络获得待学习特征图。
其中,文本区域预测分支网络为通过表征样本数据的边框损失与文本区域损失的预测损失信息迭代训练获得的,即此处的“文本区域预测分支网络”以完成了“预训练阶段”的训练。该样本数据为具备标签的样本数据,可选的,该标签可以为文本框标注。
步骤108、将样本数据输入第一特征处理网络获得第一已还原特征图;
步骤109、通过置信度加权网络分别为待学习特征图与第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
可选的,其中权重参数可以通过网络自主学习以实现自适应地调整,有利于模型的鲁棒性。
步骤110、将已学习特征图输入第一预测网络获得待验证预测结果;
步骤111、根据文本区域掩膜信息、待验证预测结果、待学习特征图以及第一已还原特征图确定总熵损失信息;
其中,文本区域掩膜信息表征样本数据的真实值;总熵损失信息表征当前联合训练周期文本检测模型的预测结果与真实值的差异;
步骤112、判断待验证预测结果是否满足第一训练条件,且总交叉熵损失信息是否满足收敛状态;若是则执行步骤114;若否返回执行步骤113;
步骤113、根据每个联合训练周期对应的总熵损失信息对文本检测模型中各个网络的参数进行更新;
参见图1,对于该“联合训练阶段”,文本检测模型可以经历多个联合训练周期迭代,即每个联合训练周期均可以通过上述步骤107-步骤111获得对应周期的总熵损失信息;进而利用该“总熵损失信息”对文本检测模型中的各个网络的参数进行更新。
具体的,当执行完113后,返回执行步骤107-步骤111,开始新一个联合训练周期的训练。
步骤114、将第N个联合训练周期对应的文本检测模型作为成熟的文本检测模型。
可选的,N为大于等于1的自然数。
具体的,对于每个联合训练周期,可以根据对应的总交叉熵损失信息对文本检测模型中各个网络的参数进行更新,直至第N个联合训练周期对应的待验证预测结果满足第一训练条件,且第N个联合训练周期对应的总熵损失信息满足收敛状态,则将第N个联合训练周期对应的文本检测模型作为成熟的文本检测模型。
其中,本申请所示M与N均为大于零的正整数。
可选地,对于该第一训练条件,在一种可能的实现方式中,可以考虑将该待验证预测结果,即预测特征图的精度P、召回率R计算得到F1分值,若该F1分支达到峰值,则认为其满足第一训练条件。
本发明实施例提供的文本检测模型的训练方法,将文本区域预测分支网络的训练与文本检测模型的训练分开。并且由于文本区域预测分支网络的训练涵盖边框损失与文本区域损失的迭代,使得训练成熟的文本区域预测分支网络对于文本框的识别更加精准。同时,仅将成熟的文本区域预测分支网络引入联合训练,与第一特征处理网络、置信度加权网络以及第一预测网络完成联合训练,加快模型收敛速度,节约资源的同时实现参数共享,使本申请实施例中的模型相比其他模型拥有更好的泛化能力。
可选地,对于步骤111,可以将样本数据的文本区域掩膜信息作为真实值分别于待学习特征图、第一已还原特征图以及待验证预测结果计算加权交叉损失(BCEWithLogitsLoss),具体的,下面提供一种可能的实现方式:
1)根据文本区域掩膜信息与待学习特征图获得第一加权熵损失信息;
2)根据文本区域掩膜信息与第一已还原特征图获得第二加权熵损失信息;
3)根据文本区域掩膜信息与待验证预测结果获得交叉熵损失信息;
4)根据第一加权熵损失信息、第二加权熵损失信息以及交叉熵损失信息,确定总熵损失信息。
可选地,该总熵损失信息的计算公式如下:
可选地,参见图1与图2,对于步骤109、其中加权学习的表达式可以为:
其中,为卷积组融合,/>为待学习特征图,/>为上述第一已还原特征图,权重参数/>、/>可以通过网络自主学习得到,权重参数可以自适应地调整,有利于模型的鲁棒性。
进一步的,在进行上述“联合训练阶段”之前,首先需要对文本区域预测分支网络进行训练,即“预训练阶段”。下面对“预训练阶段”进行说明。具体的,图3为本发明实施例提供的预训练阶段的模型示意图,参见图3,该模型训练系统10还包括预训练模型30,具体的,该预训练模型30包括:第二特征处理网络300与第二预测网络310;第二预测网络310包括:待训练文本边框预测分支网络311与待训练文本区域预测分支网络312;进一步的,在图2的基础上,图4为本发明实施例提供的另一种文本检测模型的训练方法的流程示意图,参见图3与图4,在步骤107之前,还包括:
步骤101、将样本数据输入第二特征处理网络,获得样本数据对应的第二已还原特征图;
步骤102、将第二已还原特征图输入待训练文本边框预测分支网络,获得样本数据对应的文本边框预测特征图;
步骤103、将第二已还原特征图输入待训练文本区域预测分支网络,获得样本数据对应的文本区域预测特征图;
步骤104、根据文本边框预测特征图、文本区域预测特征图、边框区域掩膜信息以及文本区域掩膜信息,确定预测损失信息;
其中,边框区域掩膜信息由文本区域掩膜信息/>获得;预测损失信息/>表征当前预训练周期预训练模型的训练结果与真实值的差异;
步骤105、判断总预测特征图是否满足第二训练条件,且预测损失信息是否满足收敛状态;若否则执行106;若是,则将第M个预训练周期对应的待训练文本区域预测分支网络作为文本区域预测分支网络,执行图1所示步骤107;
具体的,对于每个预训练周期,均执行步骤101-步骤105的步骤,以获得对应预训练周期的预测损失信息,以便利用预测损失信息对预训练模型中各个网络的参数进行更新。直至第M个预训练周期对应的总预测特征图满足第二训练条件,且第M个预训练周期对应的预测损失信息满足收敛状态,则将第M个预训练周期对应的待训练文本区域预测分支网络作为文本区域预测分支网络。
需要说明的是,由于该预测损失信息涵盖了边框区域掩膜信息与文本边框预测特征图的信息,从而通过该预测损失信息对文本区域预测分支网络的参数进行更新后,实现了“参数共享”,从而提高了对于文本框识别的精度。
可选地,对于该第二训练条件,在一种可能的实现方式中,可以考虑将该总预测特征图的精度P、召回率R计算得到F1分值,若该F1分支达到峰值,则认为其满足第二训练条件。
步骤106、根据每个预训练周期对应的预测损失信息对预训练模型中各个网络的参数进行更新;进而返回执行步骤101,进入下一个预训练周期。
本发明实施例提供的文本检测模型的训练方法,其在预训练阶段,采用两个像素分割网络并行的方式预测文本框,即待训练文本边框预测分支网络与待训练文本区域预测分支网络。由于两个预测分支网络能够更好地适应文字的变形,监督文本区域的划分。进而当待训练文本区域预测分支网络训练成熟时,将其作为文本区域预测分支网络进入联合训练阶段时,能够实现参数共享。
下面提供一种预测损失信息可行的计算实现方式,具体的,在图4的基础上,图5为本发明实施例提供的另一种文本检测模型的训练方法的流程示意图,参见图5,具体的,对于上述步骤104,包括:
步骤104-1、根据文本边框预测特征图与边框区域掩膜信息获得边框损失信息;
可选地,可以利用边缘监督算法计算该边框损失信息。
具体的,对利用边缘监督算法计算边框损失信息,下面给出一种可能的实现方式:
1)根据文本区域掩膜信息提取对应边框的信息作为真实值,生成边框区域掩膜信息/>;
2)对文本边框预测特征图进行收缩,获得收缩预测特征图;
具体的,收缩像素量为:。其中,S为特征图中预测的文本框面积,L为文本框周长,R为收缩系数。
3)计算收缩预测特征图中边框与边框区域掩膜信息的距离均值,将距离均值作为边框损失信息。
具体的,计算收缩后特征图每条边上的点到真实边框的L1距离均值,作为待训练文本边框预测分支网络的边框损失信息。
预训练阶段步骤中的预测分支网络通过上述边缘监督,进一步优化像素分类预测的边框,使预测结果更加清晰平滑,防止文本区域像素的重叠。
继续参见图5,步骤104-2、根据文本区域预测特征图与文本区域掩膜信息获得区域损失信息;
步骤104-3、对文本边框预测特征图与文本区域预测特征图进行归一化计算,获得总预测特征图;
具体的,将文本边框预测特征图与文本区域预测特征图进行逐像素相加并进行归一化计算(Sigmoid),得到总预测特征图。
步骤104-4、根据总预测特征图与文本区域掩膜信息获得总预测区域损失信息;
步骤104-5、根据边框损失信息、区域损失信息以及总预测区域损失信息获得预测损失信息。
具体的,预测损失信息的表达式可以为:
可选地,对于上文所述文本区域掩膜信息,可以在执行上述各个步骤之前,通过具备文本框标注的样本数据获得。
进一步的,为了更好的说明本申请提供的“预训练阶段”与“联合训练阶段”,在图1与图3的基础上,图6为本发明实施例提供的一种预训练阶段与联合训练阶段的模型示意图,参见图6,其展示了模型训练系统11的预训练模型30在完成预训练周期的迭代训练之后,获得满足第二训练条件的“待训练文本区域预测分支网络312”,继而将训练成熟的“待训练文本区域预测分支网络312”作为文本区域预测分支网络200,进入联合训练阶段,在完成联合训练周期的迭代训练之后,获得满足第一训练条件的“文本检测模型20”。
可选地,下面给出一种基于图6所示包含两个训练阶段的模型可能的实现方式,具体的,在图6的基础上,图7为本发明实施例提供的另一种预训练阶段与联合训练阶段的模型示意图,参见图7,首先进行样本数据的预处理,即根据具备文本框标注的样本数据,获得文本区域掩膜信息。例如,将作为训练的样本表格图像进行预处理,通过样本表格图像的文本框标注,获得样本表格图像的文本区域掩膜信息/>。进而将该样本表格图像与对应的文本区域掩膜信息/>作为后续预训练阶段与联合训练阶段的输入。
继续参见图7,第二特征处理网络300包括:残差特征提取网络和第二特征金字塔(Feature Pyramid Networks,简称:FPN)特征还原网络,将样本数据输入第二特征处理网络;步骤101,其具体的实现方式可以为:
将样本数据输入残差特征提取网络,获得第二待还原特征图;
将第二待还原特征图输入第二FPN特征还原网络,获得第二已还原特征图。
具体的,使用残差特征提取网络获得第二待还原特征图,可以利用第二FPN特征还原网络进行将尺寸还原到原输入的1/4,可选地,对于第二FPN特征还原网络还可以利用通道拼接进行通道的拼接(conact)。
进而,在待训练文本边框预测分支网络311与待训练文本区域预测分支网络312均可以采用卷积组与上采样的方式,将各自的原输入进行还原获得尺寸一致的文本边框预测特征图与文本区域预测特征图/>,以便进行归一化计算,获得总预测特征图;
进而,利用与边框区域掩膜信息/>计算边框损失信息/>;利用/>与文本区域掩膜信息/>计算区域损失信息/>;进而通过总预测特征图与文本区域掩膜信息获得总预测区域损失信息/>;以便基于/>、/>、/>获得预测损失信息。从而利用该预测损失信息/>对预训练模型30进行参数更新。
继续参见图7对于文本检测模型20,其第一特征处理网络201,包含卷积特征提取网络和第一FPN特征还原网络;
进而对于上述示例的步骤108,其具体的实现方式可以为:
将样本数据输入卷积特征提取网络,获得第一待还原特征图;
将第一待还原特征图输入第一FPN特征还原网络,获得第一已还原特征图。
具体的,通过该入第一FPN特征还原网络具体可以为FPN上采样模块。
进而对于置信度加权网络202,其将文本区域预测分支网络200(图7中为了简化未示出,可以理解为训练成熟的待训练文本区域预测分支网络312)输出的待学习特征图与第一FPN特征还原网络输出的第一已还原特征图/>分别赋予权重参数,进而完成卷积组融合。
进一步的,置信度加权网络202输出的已学习特征图输入第一预测网络203获得待验证预测结果。
具体的,参见图7该第一预测网络203可以为分割头二分类预测网络203。
进一步的,利用文本区域掩膜信息与待学习特征图获得第一加权熵损失信息;利用文本区域掩膜信息/>与第一已还原特征图获得第二加权熵损失信息/>;利用文本区域掩膜信息/>与待验证预测结果获得交叉熵损失信息/>;
最终,根据、/>以及/>,计算总熵损失信息/>。
从而利用总熵损失信息对文本检测模型30进行参数更新。
在完成了上述“预训练阶段”与“联合训练阶段”后,即获得一个成熟的文本检测模型,如图1所示。具体的,图8为本发明实施例提供的一种文本检测方法的流程示意图,参见图8,该方法包括:
步骤200、将待检测数据输入文本区域预测分支网络获得待学习特征图;
步骤201、将待检测数据输入第一特征处理网络获得第一已还原特征图;
步骤202、通过置信度加权网络分别为待学习特征图与第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
步骤203、将已学习特征图输入第一预测网络获得检测结果。
本实施例提供的文本检测方法,通过采用完成预训练与联合训练后的文本检测模型,由于文本区域预测分支网络通过边框损失与文本区域损失的迭代,使得训练成熟的文本区域预测分支网络对于文本框的识别更加精准。当面对密集型文本时,能够有效的将不同文本实例分开,提高检测能力,避免文本框出现混淆与粘连的情况。
具体的,图9为本发明实施例提供的一种文本检测的模型示意图,参见图9,待检测数据输入经由前文示例所述通过“预训练阶段”与“联合训练阶段”的文本检测模型20。
可选地,图10A为本发明实施例提供的一种待检测数据的示意图,参见图10A,该待检测数据可以为金融文档的图片数据,该图片数据可能具有较为复杂的表格与文本结构。结合图9,该图片数据输入文本区域预测分支网络200以及第一特征处理网络201,进而通过置信度加权网络202,最终通过第一预测网络203获得检测结果,参见上文图7所示示例,若该第一预测网络203采用分割头二分类预测网络,则其输出的检测结果形式如图10B所示,具体的,图10B为本发明实施例提供的一种待检测结果的示意图,即通过该第一预测网络203获得该文档中各个文本的区域信息。进而如图10C所示,图10C为本发明实施例提供的一种待检测结果的还原示意图,可以利用区域信息的像素位置信息确定对应的文本框,并将文本框与图10A中的原文档进行结合,获得还原结果。
对于本申请实施例提供的文本检测模型的训练方法以及该文本检测模型的检测方法,其检测效果与现有的经典文本检测模型DBNet比较如下表1:
表1
其中,场景数据集采用icdar2015,文档数据集采用pubtabnet,虽然DBNet在场景文本的检测效果较好,但对于文档这类密集且尺寸较小的文字,例如金融领域的数据检测能力不足。但是申请实施例所示的文本检测模型可以弥补这一缺陷。此外,申请实施例所示的文本检测模型在相关分割指标上,准确率达到0.9643,平均交并比达到0.9171,dice评分达到0.9369。
基于上述示例,下面提供一种用于模型训练的装置,其可以用于部署上述示例所示的模型训练系统,以及用于文本检测的装置。具体的,图11为本发明实施例提供的一种文本检测模型训练装置的示意图,参见图11,该装置包括:文本区域预测分支网络300、第一特征处理网络301、置信度加权网络302、第一预测网络303以及迭代模块304;
文本区域预测分支网络300,用于根据样本数据获得待学习特征图;文本区域预测分支网络300为通过表征样本数据的边框损失与文本区域损失的预测损失信息迭代训练获得的;
第一特征处理网络301,用于根据样本数据获得第一已还原特征图;
置信度加权网络302,用于对待学习特征图与第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
第一预测网络303,用于根据已学习特征图获得待验证预测结果;
迭代模块304,用于根据文本区域掩膜信息、待验证预测结果、待学习特征图以及第一已还原特征图确定总熵损失信息;根据每个联合训练周期对应的总交叉熵损失信息对文本检测模型中各个网络的参数进行更新,直至第N个联合训练周期对应的待验证预测结果满足第一训练条件,且第N个联合训练周期对应的总交叉熵损失信息满足收敛状态,则将第N个联合训练周期对应的文本检测模型作为成熟的文本检测模型。
该装置可以用于执行上文图2及相关示例的各个步骤,即前文所述“预训练阶段”,以实现对应的技术效果。
可选地,该设备还能用于执行前文图4、图5及相关示例的各个步骤,即前文所述“联合训练阶段”以实现对应的技术效果。因此,在图11的基础上,图12为本发明实施例提供的另一种文本检测模型训练装置的示意图,参见图12,该装置,还包括:第二特征处理网络与第二预测网络303;第二预测网络303包括:待训练文本边框预测分支网络与待训练文本区域预测分支网络300;
第二特征处理网络,用于根据样本数据确定第二已还原特征图;
待训练文本边框预测分支网络,用于根据第二已还原特征图确定文本边框预测特征图;
待训练文本区域预测分支网络300,用于根据第二已还原特征图确定文本区域预测特征图;
迭代模块304,还用于根据文本边框预测特征图、文本区域预测特征图、边框区域掩膜信息以及文本区域掩膜信息,确定预测损失信息;根据每个预训练周期对应的预测损失信息对预训练模型中各个网络的参数进行更新,直至第M个预训练周期对应的总预测特征图满足第二训练条件,且第M个预训练周期对应的预测损失信息满足收敛状态,则将第M个预训练周期对应的待训练文本区域预测分支网络300作为文本区域预测分支网络300。
进一步的,在图11及图12所示的文本检测模型训练装置完成训练的基础上,本申请还提供一种文本检测装置,用于执行前文图8所示的示例中各个步骤以及对应的技术效果,以实现对应待检测数据的识别。具体的,图13为本发明实施例提供的一种文本检测装置的示意图,参见图13,该装置40,包括:文本区域预测分支网络400、第一特征处理网络401、置信度加权网络402以及第一预测网络403;
文本区域预测分支网络400,用于根据待检测数据确定待学习特征图;
第一特征处理网络401,用于根据待检测数据获得第一已还原特征图;
置信度加权网络402,用于分别为待学习特征图与第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
第一预测网络403,用于根据已学习特征图获得检测结果。
可选地,本发明实施例还提供一种电子设备,其可以具备相关模型学习、训练及使用的设备,可选地,该电子设备可以仅被用于训练、测试或使用,也可以在同一个电子设备上执行本发明实施例上述全部示例的步骤,以实现对应的技术效果。具体的,图14为本发明实施例提供的一种电子设备的结构示意图,参见图14,该电子设备50,包括:存储器501、处理器500;
存储器501,用于存储一个或多个程序;
处理器500;
当一个或多个程序被处理器执行时,当该电子设备50用于上述示例模型的训练及测试时,其可以实现如图2、图4、图5所示的各个步骤及对应技术效果。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (14)
1.一种文本检测模型的训练方法,其特征在于,所述方法应用模型训练系统,所述模型训练系统包括文本检测模型,所述文本检测模型包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络以及第一预测网络,所述方法,包括:
将样本数据输入所述文本区域预测分支网络获得待学习特征图;所述文本区域预测分支网络为通过表征所述样本数据的边框损失与文本区域损失的预测损失信息迭代训练获得的;
将所述样本数据输入所述第一特征处理网络获得第一已还原特征图;
通过所述置信度加权网络分别为所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
将所述已学习特征图输入所述第一预测网络获得待验证预测结果;
根据文本区域掩膜信息、所述待验证预测结果、所述待学习特征图以及所述第一已还原特征图确定总熵损失信息;所述文本区域掩膜信息表征所述样本数据的真实值;所述总熵损失信息表征当前联合训练周期所述文本检测模型的预测结果与真实值的差异;
根据每个联合训练周期对应的总交叉熵损失信息对所述文本检测模型中各个网络的参数进行更新,直至第N个联合训练周期对应的待验证预测结果满足第一训练条件,且所述第N个联合训练周期对应的总交叉熵损失信息满足收敛状态,则将所述第N个联合训练周期对应的文本检测模型作为成熟的文本检测模型。
2.如权利要求1所述的方法,其特征在于,所述根据文本区域掩膜信息、所述待验证预测结果、所述待学习特征图以及所述第一已还原特征图确定总熵损失信息的步骤,包括:
根据所述文本区域掩膜信息与所述待学习特征图获得第一加权熵损失信息;
根据所述文本区域掩膜信息与所述第一已还原特征图获得第二加权熵损失信息;
根据所述文本区域掩膜信息与所述待验证预测结果获得交叉熵损失信息;
根据所述第一加权熵损失信息、所述第二加权熵损失信息以及所述交叉熵损失信息,确定所述总熵损失信息。
3.如权利要求1所述的方法,其特征在于,所述模型训练系统还包括预训练模型;所述预训练模型包括:第二特征处理网络与第二预测网络;所述第二预测网络包括:待训练文本边框预测分支网络与待训练文本区域预测分支网络;在所述将样本数据输入所述文本区域预测分支网络获得待学习特征图的步骤之前,还包括:
将所述样本数据输入所述第二特征处理网络,获得所述样本数据对应的第二已还原特征图;
将所述第二已还原特征图输入所述待训练文本边框预测分支网络,获得所述样本数据对应的文本边框预测特征图;
将所述第二已还原特征图输入所述待训练文本区域预测分支网络,获得所述样本数据对应的文本区域预测特征图;
根据所述文本边框预测特征图、所述文本区域预测特征图、边框区域掩膜信息以及所述文本区域掩膜信息,确定所述预测损失信息;所述边框区域掩膜信息由所述文本区域掩膜信息获得;所述预测损失信息表征当前预训练周期所述预训练模型的训练结果与真实值的差异;
根据每个预训练周期对应的预测损失信息对所述预训练模型中各个网络的参数进行更新,直至第M个预训练周期对应的总预测特征图满足第二训练条件,且所述第M个预训练周期对应的预测损失信息满足收敛状态,则将所述第M个预训练周期对应的待训练文本区域预测分支网络作为所述文本区域预测分支网络。
4.如权利要求3所述的方法,其特征在于,所述根据所述文本边框预测特征图、所述文本区域预测特征图、边框区域掩膜信息以及所述文本区域掩膜信息,确定所述预测损失信息的步骤,包括:
根据所述文本边框预测特征图与边框区域掩膜信息获得边框损失信息;
根据所述文本区域预测特征图与所述文本区域掩膜信息获得区域损失信息;
对所述文本边框预测特征图与所述文本区域预测特征图进行归一化计算,获得总预测特征图;
根据所述总预测特征图与所述文本区域掩膜信息获得总预测区域损失信息;
根据所述边框损失信息、所述区域损失信息以及总预测区域损失信息获得所述预测损失信息。
5.如权利要求3或4所述的方法,其特征在于,所述根据所述文本边框预测特征图与边框区域掩膜信息获得边框损失信息的步骤,包括:
根据所述文本区域掩膜信息提取对应边框的信息作为真实值,生成所述边框区域掩膜信息;
对所述文本边框预测特征图进行收缩,获得收缩预测特征图;
计算所述收缩预测特征图中边框与所述边框区域掩膜信息的距离均值,将所述距离均值作为所述边框损失信息。
6.如权利要求3或4所述的方法,其特征在于,在所述将所述样本数据与所述文本区域掩膜信息输入所述第二特征处理网络,获得所述样本数据对应的第二已还原特征图的步骤之前,还包括:
根据具备文本框标注的样本数据,获得所述文本区域掩膜信息。
7.如权利要求1所述的方法,其特征在于,所述第一特征处理网络包括:卷积特征提取网络和第一FPN特征还原网络,所述将所述样本数据输入所述第一特征处理网络获得第一已还原特征图的步骤,包括:
将所述样本数据输入所述卷积特征提取网络,获得第一待还原特征图;
将所述第一待还原特征图输入所述第一FPN特征还原网络,获得所述第一已还原特征图。
8.如权利要求3或4所述的方法,其特征在于,所述第二特征处理网络包括:残差特征提取网络和第二FPN特征还原网络,所述将所述样本数据输入所述第二特征处理网络,获得所述样本数据对应的第二已还原特征图的步骤,包括:
将所述样本数据输入所述残差特征提取网络,获得第二待还原特征图;
将所述第二待还原特征图输入所述第二FPN特征还原网络,获得所述第二已还原特征图。
9.一种文本检测方法,其特征在于,所述方法应用于文本检测模型,所述文本检测模型包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络以及第一预测网络,所述方法,包括:
将待检测数据输入所述文本区域预测分支网络获得待学习特征图;
将所述待检测数据输入所述第一特征处理网络获得第一已还原特征图;
通过所述置信度加权网络分别为所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
将所述已学习特征图输入所述第一预测网络获得检测结果。
10.一种文本检测模型训练装置,其特征在于,所述装置包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络、第一预测网络以及迭代模块;
所述文本区域预测分支网络,用于根据样本数据获得待学习特征图;所述文本区域预测分支网络为通过表征所述样本数据的边框损失与文本区域损失的预测损失信息迭代训练获得的;
所述第一特征处理网络,用于根据所述样本数据获得第一已还原特征图;
所述置信度加权网络,用于对所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
所述第一预测网络,用于根据所述已学习特征图获得待验证预测结果;
所述迭代模块,用于根据文本区域掩膜信息、所述待验证预测结果、所述待学习特征图以及所述第一已还原特征图确定总熵损失信息;所述文本区域掩膜信息表征所述样本数据的真实值;所述总熵损失信息表征当前联合训练周期所述文本检测模型的预测结果与真实值的差异;根据每个联合训练周期对应的总交叉熵损失信息对所述文本检测模型中各个网络的参数进行更新,直至第N个联合训练周期对应的待验证预测结果满足第一训练条件,且所述第N个联合训练周期对应的总交叉熵损失信息满足收敛状态,则将所述第N个联合训练周期对应的文本检测模型作为成熟的文本检测模型。
11.如权利要求10所述的装置,其特征在于,所述装置,还包括:第二特征处理网络与第二预测网络;所述第二预测网络包括:待训练文本边框预测分支网络与待训练文本区域预测分支网络;
所述第二特征处理网络,用于根据所述样本数据确定第二已还原特征图;
所述待训练文本边框预测分支网络,用于根据所述第二已还原特征图确定文本边框预测特征图;
所述待训练文本区域预测分支网络,用于根据所述第二已还原特征图确定文本区域预测特征图;
所述迭代模块,还用于根据所述文本边框预测特征图、所述文本区域预测特征图、边框区域掩膜信息以及所述文本区域掩膜信息,确定所述预测损失信息;所述边框区域掩膜信息由所述文本区域掩膜信息获得;所述预测损失信息表征当前预训练周期所述预训练模型的训练结果与真实值的差异;根据每个预训练周期对应的预测损失信息对所述预训练模型中各个网络的参数进行更新,直至第M个预训练周期对应的总预测特征图满足第二训练条件,且所述第M个预训练周期对应的预测损失信息满足收敛状态,则将所述第M个预训练周期对应的待训练文本区域预测分支网络作为所述文本区域预测分支网络。
12.一种文本检测装置,其特征在于,所述装置包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络以及第一预测网络;
所述文本区域预测分支网络,用于根据待检测数据确定待学习特征图;
所述第一特征处理网络,用于根据所述待检测数据获得第一已还原特征图;
所述置信度加权网络,用于分别为所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;
所述第一预测网络,用于根据已学习特征图获得检测结果。
13.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-8中任一项和/或如权利要求9所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-8中任一项和/或如权利要求9所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311735371.XA CN117423116B (zh) | 2023-12-18 | 2023-12-18 | 一种文本检测模型的训练方法、文本检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311735371.XA CN117423116B (zh) | 2023-12-18 | 2023-12-18 | 一种文本检测模型的训练方法、文本检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117423116A true CN117423116A (zh) | 2024-01-19 |
CN117423116B CN117423116B (zh) | 2024-03-22 |
Family
ID=89532793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311735371.XA Active CN117423116B (zh) | 2023-12-18 | 2023-12-18 | 一种文本检测模型的训练方法、文本检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117423116B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN112686218A (zh) * | 2021-03-09 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 文本检测模型的训练方法、装置、可读存储介质及设备 |
CN113239925A (zh) * | 2021-05-24 | 2021-08-10 | 北京有竹居网络技术有限公司 | 一种文本检测模型训练方法、文本检测方法及装置、设备 |
WO2021174962A1 (zh) * | 2020-03-02 | 2021-09-10 | 北京三快在线科技有限公司 | 文档图像方向识别及模型的训练 |
CN113642583A (zh) * | 2021-08-13 | 2021-11-12 | 北京百度网讯科技有限公司 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
CN114153978A (zh) * | 2022-02-07 | 2022-03-08 | 杭州恒生聚源信息技术有限公司 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
CN114462489A (zh) * | 2021-12-29 | 2022-05-10 | 浙江大华技术股份有限公司 | 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质 |
-
2023
- 2023-12-18 CN CN202311735371.XA patent/CN117423116B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
WO2021174962A1 (zh) * | 2020-03-02 | 2021-09-10 | 北京三快在线科技有限公司 | 文档图像方向识别及模型的训练 |
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN112686218A (zh) * | 2021-03-09 | 2021-04-20 | 北京世纪好未来教育科技有限公司 | 文本检测模型的训练方法、装置、可读存储介质及设备 |
CN113239925A (zh) * | 2021-05-24 | 2021-08-10 | 北京有竹居网络技术有限公司 | 一种文本检测模型训练方法、文本检测方法及装置、设备 |
CN113642583A (zh) * | 2021-08-13 | 2021-11-12 | 北京百度网讯科技有限公司 | 用于文本检测的深度学习模型训练方法及文本检测方法 |
CN114462489A (zh) * | 2021-12-29 | 2022-05-10 | 浙江大华技术股份有限公司 | 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质 |
CN114153978A (zh) * | 2022-02-07 | 2022-03-08 | 杭州恒生聚源信息技术有限公司 | 模型训练方法、信息抽取方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
PIERRE-YVES GENEST ET AL: "French translation of a dialogue dataset and text-based emotion detection", 《DATA & KNOWLEDGE ENGINEERING》, 18 October 2022 (2022-10-18), pages 1 - 18 * |
王紫霄等: "层级语义融合的场景文本检测", 《中国图象图形学报》, vol. 28, no. 8, 31 August 2023 (2023-08-31), pages 2343 - 2355 * |
Also Published As
Publication number | Publication date |
---|---|
CN117423116B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN109117848B (zh) | 一种文本行字符识别方法、装置、介质和电子设备 | |
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
WO2019089578A1 (en) | Font identification from imagery | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN109948533B (zh) | 一种文本检测方法、装置、设备及可读存储介质 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN111723841A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN114049280A (zh) | 图像消除修复方法及其装置、设备、介质、产品 | |
CN112070037B (zh) | 基于遥感影像的道路提取方法、装置、介质及设备 | |
Arya et al. | Object detection using deep learning: a review | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN111368634A (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN116982089A (zh) | 用于图像语义增强的方法和系统 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN111178363B (zh) | 文字识别方法、装置、电子设备以及可读存储介质 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN117423116B (zh) | 一种文本检测模型的训练方法、文本检测方法及装置 | |
CN111539435A (zh) | 语义分割模型构建方法及图像分割方法、设备、存储介质 | |
Soni et al. | Image copy-move forgery detection using deep convolutional neural networks | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |