CN113673338A - 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 - Google Patents
自然场景文本图像字符像素弱监督自动标注方法、系统及介质 Download PDFInfo
- Publication number
- CN113673338A CN113673338A CN202110806669.XA CN202110806669A CN113673338A CN 113673338 A CN113673338 A CN 113673338A CN 202110806669 A CN202110806669 A CN 202110806669A CN 113673338 A CN113673338 A CN 113673338A
- Authority
- CN
- China
- Prior art keywords
- character
- weak supervision
- training
- label
- segmentation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 156
- 230000011218 segmentation Effects 0.000 claims abstract description 144
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000009877 rendering Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 claims description 6
- 101150064138 MAP1 gene Proteins 0.000 claims description 6
- 239000002131 composite material Substances 0.000 claims description 6
- 239000003960 organic solvent Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种自然场景文本图像字符像素弱监督自动标注方法、系统及介质,该方法包括收集训练样本;生成合成数据;构建并利用训练样本及合成数据训练弱监督实例分割模型;生成伪标注;利用带伪标注数据继续训练;利用已完成训练的弱监督实例分割模型对待标注自然场景文本行图像进行像素级自动标注。本发明能够利用仅带有文本行字符串内容标注的自然场景文本行图像,自动而准确地生成其中每个字符的字符像素标注,从而能够大大解放人力,并可以辅助提升文本行识别器的性能及为场景文本编辑、擦除模型提供细粒度标注信息。此外,本发明鲁棒性强,能够完成各种真实场景环境下复杂结构中英文字符的自动标注。
Description
技术领域
本发明属于人工智能及计算机视觉的技术领域,具体涉及一种自然场景文本图像字符像素弱监督自动标注方法、系统及介质。
背景技术
近年来,基于深度学习的人工智能技术飞速发展,对于自然场景文本的研究是人工智能的一个重要子领域之一。自然场景文本识别因字符字体变化多样、背景多样干扰强、图片亮度角度变化幅度大而颇具挑战性。而字符级和像素级标注信息能够帮助人们训练出一个鲁棒性更强,识别效果更好的场景文本识别器。同时,字符级和像素级标注能够为自然场景文本的擦除、替换模型提供更细致的前景信息,从而辅助这些模型获得更好的性能和擦除、替换效果。
但是,直接通过合成数据训练的模型在自然场景文本行图像上的表现很差,而通过人工标注的方法获取图像的字符级和像素级标注信息则远比获取其文本行内容标注费时费力,因此需要一种方法能够在直接基于原始的仅带有文本行内容标注的自然场景文本行图像弱监督地标注出文本行中每个字符的位置和其像素级前景掩码。从而自动而准确地生成自然场景文本像素级标注而解放人工,同时利用这些像素级标注辅助场景文本识别、擦除、替换等下游任务的提升。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种自然场景文本图像字符像素弱监督自动标注方法、系统及介质。
为了达到上述目的,本发明采用以下技术方案:
本发明的一个方面,提供了一种自然场景文本图像字符像素弱监督自动标注方法,包括下述步骤:
S1、收集自然场景文本行图像并进行预处理,得到训练样本;
S2、生成文本行图像的合成数据;
S3、构建弱监督实例分割模型;
S4、利用训练样本和合成数据训练弱监督实例分割模型;
S5、利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注;
S6、利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型;
S7、将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注。
作为优选的技术方案,
所述收集自然场景文本行图像并进行预处理具体为:收集自然场景文本行图像及其相应的文本行字符串内容标注,保持图像长宽比不变,利用双线性插值法将短边固定到设定大小hs进行缩放;
所述生成文本行图像的合成数据具体包括以下步骤:
收集合成数据的素材,包括若干种不同的中英文ttf字体、若干不含文字的互联网图片以及合成数据的字典;所述合成数据的字典为根据训练样本中的内容标注获得训练数据中的全部字符类别;
进行合成数据的图片渲染:从所述若干不含文字的互联网图片中剪切一块随机大小的区域,并利用双线性插值法缩放到固定尺寸,作为合成数据的背景图片;从所述若干种不同的中英文ttf字体中随机抽取一种,并从所述合成数据的字典中随机抽取一个字符;将抽取到的字符采用抽取到的字体、随机颜色和随机大小渲染到合成数据的背景图片上;同时采用同样大小的字体,以黑色作为渲染颜色将该字符渲染到与合成数据的背景图片同样尺寸的全白色灰度图片的同样位置上,作为该合成数据字符的像素级掩码;取该像素级掩码的最小外接矩形作为该合成数据字符的检测框;按照阅读顺序的方向改变这一次在背景图片上渲染字符的位置,并重新抽选字体、字符进行字符渲染,使得这两次在背景图片上渲染的字符没有重叠;不断重复该过程直至完成渲染,最终得到一张合成数据图片,以及与该图片上的每个字符相对应的像素级掩码图片和字符框位置信息;
对合成数据进行多样化增广,包括对合成数据图片及其中所有字符得到的掩码图片进行随机仿射变换、随机模糊、加入随机遮挡;
重复上述步骤,直至得到目标数量的合成数据图片。
作为优选的技术方案,所述构建弱监督实例分割模型具体包括以下步骤:
构建ResNet101-FPN结构;
在ResNet101-FPN结构的第0级输出特征图上构建弱监督区域提议网络;
在弱监督区域提议网络上构建基于解耦注意力机制的文本行识别器;
在ResNet101-FPN结构的第0级输出特征图上构建Mask R-CNN第二阶段的分类头、回归头、分割头。
作为优选的技术方案,所述利用训练样本和合成数据训练弱监督实例分割模型,具体包括以下步骤:
将合成数据与训练样本按照随机批次顺序输入到弱监督实例分割模型中训练。
对于输入的合成数据,利用其标注全监督地训练弱监督实例分割模型;
对于输入的训练样本,利用文本行字符串内容标注弱监督地训练弱监督实例分割模型,包括下述步骤:
取出弱监督实例分割模型的弱监督区域提议网络中心点的预测输出结果,遍历其前T个通道,分别取出其输出值最高若干点的位置P,取出弱监督区域提议网络在位置P的回归框预测结果作为标签字符C的建议区域,其中标签字符C是文本行字符串标注中与该通道同索引的字符,T是输入图片的文本行内容标注中的字符个数;
将所有得到的建议区域送入分类头,根据该建议区域的字符类别标注和弱监督实例分割模型的预测结果计算交叉熵分类损失Lcls2;
将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上,将结果作为弱监督区域提议网络文本行识别器的输入,利用输入图像的文本行字符串内容标注和模型弱监督区域提议网络输出的文本行识别结果计算交叉熵分类损失Lce2;
将各损失结果加权加求和最为最终的损失结果,并将该结果反向传播以训练弱监督实例分割模型。
作为优选的技术方案,所述对于输入的合成数据,利用其标注全监督地训练弱监督实例分割模型,具体包括以下步骤:
利用合成数据的字符框生成高斯热图1和高斯热图2,如下式:
其中,x0和y0是字符框中心点坐标,x和y是图像上某一点的坐标,K(x,y)是高斯热图在该点的值的大小;在高斯热图1中取值为0.09w,取值为0.09h,在高斯热图2中取值为0.36w,取值为0.36h,w和h分别是字符框的宽、高尺寸;
利用生成的高斯热图1和弱监督实例分割模型的弱监督区域提议网络输出的中心点预测结果计算加权二值交叉熵损失Lhm1;
利用生成的高斯热图2和弱监督区域提议网络输出的注意力热图预测结果计算二值交叉熵损失Lattn并为Lattn乘以权重(1-Pc),其中Pc是弱监督实例分割模型的基于解耦注意力机制的文本行识别器能够对输入图像正确识别为各标签字符的概率;
加权二值交叉熵损失的计算公式为:
其中yn是生成的高斯热图上第n个像素点的值,xn是第n个像素点的预测值,wn是将生成的高斯热图在通道维度上加和得到的单通道图片第n个像素点对应位置的值,n是生成的高斯热图上像素点的个数;
利用合成数据的回归框标注和弱监督区域提议网络输出的回归框预测结果计算DIOU损失LDIOU,如下式:
其中b代表预测框,bgt代表标注框,ρ2(b,bgt)代表标注框和预测框中点的欧式距离,d2代表包含标注框和预测框的最小矩形的对角线长度的平方,IOU代表标注框和预测框之间的交并比,即:
其中Area1代表预测框的面积,Area2代表标注框的面积,Area3代表预测框与标注框重叠部分的面积;
将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上,将结果作为弱监督区域提议网络中基于解耦注意力机制的文本行识别器的输入,利用合成数据的文本行字符串内容标注和文本行识别器输出的文本行识别结果计算交叉熵分类损失Lce1;
根据弱监督区域提议网络输出的建议区域与合成数据的字符框标注信息,采用与训练Mask R-CNN完全相同的方法获得分类头的交叉熵分类损失Lcls1、回归头的Smooth L1回归损失Lreg1和分割头的二值交叉熵分割损失Lseg1;
将弱监督实例分割模型预测的分割结果使用Sobel算子处理得到预测边缘图,将相应的掩码标签使用同样的Sobel算子处理得到掩码边缘图,计算预测边缘图与掩码边缘图的均方差损失Lmse1;
将各损失结果加权加求和最为最终的损失结果,将损失结果反向传播以训练弱监督实例分割模型。
作为优选的技术方案,所述利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注具体包括以下步骤:
将所有训练样本依次输入到弱监督实例分割模型中,对于弱监督区域提议网络的中心点预测结果中的各通道中最大输出值>0.1的通道,分别取出这些通道中每个通道上具有最大输出值的坐标点,并分别找到弱监督区域提议网络在这些坐标点上的字符框预测结果,作为建议区域;
将建议区域输入到弱监督实例分割模型的分类头、回归头、分割头中,取出并采用非极大值抑制方法处理输出结果;
计算处理后的输出结果保存下来的字符框中每个字符框的中心点与图像左上角的距离,根据该距离从小到大的顺序排列每个字符框预测的字符,得到字符串S1;
计算字符串S1与该训练样本的标签字符串S2的Levenshtein距离,得到从S1用最少的变化改变到S2时,对字符串S1中每个字符所要做的插入、删除、替换、保留操作;若S1中任意两个标记为保留的操作字符Char1和Char2之间存在字符被标记为替换操作且不存在字符被标记为插入和删除操作,则将Char1和Char2之间标记为替换操作的字符替换为S2中相应字符,并将弱监督实例分割模型的回归头、分割头中被替换字符对应的字符框预测结果和分割结果更新为替换后的字符同索引通道中的字符框预测结果和分割结果;
弱监督实例分割模型按上述步骤对输入训练样本中各字符得到的字符框预测结果和分割结果即作为对该训练样本中各字符生成的伪标注。
作为优选的技术方案,所述利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型具体包括以下步骤:
将合成数据与带有伪标注的训练样本按照随机批次顺序输入到模型中训练;
对于输入的合成数据,利用其标注全监督地训练弱监督实例分割模型;
对于输入的带有伪标注的训练样本,若其中全部字符都获得了伪标注信息,则将其视为带有全标注的合成数据,利用这些伪标注信息全监督地进行训练;若其中全部字符都没有获得伪标注信息,则利用原文本行字符串内容标注弱监督地进行训练;若其中同时存在获得了伪标注信息的字符和未获得伪标注信息的字符,则利用已经获得伪标注信息的字符伪监督地进行训练,并利用未获得伪标注信息的字符方法通过弱监督进行训练,即先将输入的带有伪标注的训练样本视为带有全标注的合成数据,利用这些伪标注信息全监督地进行训练,但在反向传播损失时只反向传播已标注字符所产生的损失,后利用原文本行字符串内容标注弱监督地进行训练,但在反向传播损失时只反向传播未标注字符所产生的损失;
每完成一轮次训练,重新利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注,并通过比较两次伪标注内容各个字符的预测置信度来用重新生成的伪标注内容补充原伪标注内容,即对重新生成的伪标注中的字符,若其预测置信度高于原伪标注内容中相应字符的预测置信度,或原伪标注内容无此字符的伪标注信息,则用重新生成的伪标注中该字符的伪标注信息更新原伪标注相应字符的伪标注信息;
重复上述步骤直至完成全部训练量。
作为优选的技术方案,所述将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型得到像素级自动标注具体包括以下步骤:
对于待标注自然场景文本行图像,保持图像长宽比不变,利用双线性插值法将短边固定到设定大小hs进行缩放,并输入至弱监督实例分割模型中;
按照与所述利用文本行字符串内容标注弱监督地训练弱监督实例分割模型完全一致的方法获取弱监督实例分割模型对输入图像的预测结果;
将待标注自然场景文本行图像及得到各字符的像素级预测结果,利用双线性插值的方法缩放回原始大小,同时将得到各字符的字符框预测结果乘以该缩放倍数,即得到对该图像的字符级和像素级自动标注结果。
本发明的另一个方面,提供了一种自然场景文本图像字符像素弱监督自动标注系统,应用于上述的自然场景文本图像字符像素弱监督自动标注方法,包括预处理模块、模型构建模块、第一训练模块、伪标注生成模块、第二训练模块以及自动标注模块;
所述预处理模块用于收集自然场景文本行图像并进行预处理,得到训练样本,并生成文本行图像的合成数据;
所述模型构建模块用于构建弱监督实例分割模型;
所述第一训练模块用于利用训练样本和合成数据训练弱监督实例分割模型;
所述伪标注生成模块用于利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注;
所述第二训练模块用于利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型;
所述自动标注模块用于将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注。
本发明的另一个方面,提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的自然场景文本图像字符像素弱监督自动标注方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明能够利用仅带有文本行字符串内容标注的自然场景文本行图像,自动而准确地生成其中每个字符的字符像素标注,从而能够大大解放人力。
(2)本发明得到的标注结果清晰准确且实用性强,可以辅助提升文本行识别器的性能及为场景文本编辑、擦除模型提供细粒度标注信息。
(3)本发明鲁棒性强,能够完成各种真实场景环境下复杂结构中英文字符的自动标注。
附图说明
图1是本发明实施例自然场景文本图像字符像素弱监督自动标注方法的流程图;
图2是本发明实施例弱监督实例分割模型的整体结构示意图;
图3是本发明实施例ResNet101-FPN结构示意图;
图4是本发明实施例弱监督区域提议网络的结构示意图;
图5是本发明实施例基于解耦注意力机制的文本行识别器的结构示意图;
图6是本发明实施例Mask R-CNN第二阶段的分类头、回归头、分割头的结构示意图;
图7是本发明实施例自然场景文本图像字符像素弱监督自动标注方法的效果展示图;
图8是本发明实施例自然场景文本图像字符像素弱监督自动标注系统的结构示意图;
图9是本发明实施例的存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本实施例以ReCTS 2019数据集的场景文本行图像字符像素自动标注为例,公开了一种场景文本行图像字符像素自动标注方法,包括以下步骤:
S1、收集自然场景文本行图像并进行预处理,得到训练样本,具体为:
收集自然场景文本行图像及其相应的文本行字符串内容标注,保持图像长宽比不变,利用双线性插值法将短边固定到设定大小hs进行缩放;其中hs是该自然场景文本行图像缩放后的短边长度;在本实施例中采用ReCTS 2019文本行识别数据集,hs设置为64。
S2、生成文本行图像的合成数据,包括以下步骤:
S2.1、收集合成数据的素材,包括以下步骤:
S2.1.1、收集若干种不同的中英文ttf字体,并在互联网上随机收集若干不含文字的图片;在本实施中收集了55种不同的中英文ttf字体和3000张不含文字的图片;
S2.1.2、根据自然场景文本行图像训练样本中的内容标注,获得训练数据中的全部字符类别作为合成数据的字典;
S2.2、进行合成数据的图片渲染,包括以下步骤:
S2.2.1、从步骤S2.1.1中收集到的图片中剪切一块随机大小的区域,并使用双线性插值法缩放到固定尺寸,作为合成数据的背景图片;在本实施例中所述固定尺寸取高为64且宽为256,或高为256且宽为64;
S2.2.2、从步骤S2.1.1中收集到的字体中随机抽取一种,并从合成数据的字典中随机抽取一个字符,将抽取到的字符采用抽取到的字体、随机颜色和随机大小渲染到步骤2.2.1中得到的合成数据的背景图片上,同时使用同样的字体和大小,采用黑色作为渲染颜色将该字符渲染到和背景图片同样尺寸的全白色灰度图片的同样的位置上,作为该合成数据字符的像素级掩码,取该像素级掩码的最小外接矩形作为该合成数据字符的检测框;
S2.2.3、按照阅读顺序的方向改变这一次在背景图片上渲染字符的位置,重新按照步骤S2.2.2在背景图片上进行字符渲染,使得这两次在背景图片上渲染的字符没有重叠,不断重复该过程直至完成渲染,最终得到一张合成数据图片,以及与该图片上的每个字符相对应的像素级掩码图片和字符框位置信息;
S2.3、进行合成数据的多样化增广,包括以下步骤:
S2.3.1、对步骤S2.2中得到的合成数据图片和其中所有字符得到的掩码图片采用同样的随机仿射变换,如下式:
即仿射变换后图像上某一像素点位置(x′,y′)的像素值为原图上像素点位置(x,y)的像素值通过以上公式计算的结果;在本实施例中:
(1)当图片尺寸为高为64且宽为256时,仿射变换矩阵参数a、b、c、d、e、f取值为:a在[0.8,1.2]的均匀分布中随机取值,b在[-0.4,0.4]的均匀分布中随机取值,c取0,d在[-0.02,0.02]的均匀分布中随机取值,e在[0.8,1.2]的均匀分布中随机取值,f取0;
(2)当图片尺寸为高为256且宽为64时,仿射变换矩阵参数取值为:a在[0.8,1.2]的均匀分布中随机取值,b在[-0.02,0.02]的均匀分布中随机取值,c取0,d在[-0.4,0.4]的均匀分布中随机取值,e取1,f取0;
S2.3.2、对步骤S2.3.1中得到的合成数据图片采用随机模糊,包括随机采用高斯模糊或缩放模糊;
采用高斯模糊时,高斯核半径随机从3、5、7、9、11中选择;
采用缩放模糊时,随机将图像使用最近邻插值法保持长宽比不变缩放到原大小的Tpry倍,后再使用最近邻插值法保持长宽比不变缩放回原大小;在本实施例中Tpry随机从[0.5,0.8]的均匀分布中取值;
S2.3.3、对步骤S2.3.2中得到的合成数据图片加入随机遮挡:即随机在合成数据图片边界上任意选择两个点在图像上画上一条灰度图直线,该直线的宽度随机从[8,56]的均匀分布中取值,该直线的灰度随机从[20,80]的均匀分布中取值
S2.4、依次循环步骤S2.2和S2.3直至生成目标数量的合成数据图片;在本实施例中共生成了550k张合成数据图片。
S3、构建弱监督实例分割模型,其结构如图2所示,包括以下步骤:
S3.1、构建ResNet101-FPN结构,用以将图像的深层特征和浅层特征融合起来得到融合语义特征的特征图;ResNet101-FPN结构如图3所示;
S3.2、在ResNet101-FPN结构的第0级输出特征图上构建弱监督区域提议网络,用以弱监督地从自然场景文本行图像的融合语义特征的特征图中获取提议区域及与其匹配的字符标注;弱监督区域提议网络结构如图4所示;
S3.3、在弱监督区域提议网络上构建基于解耦注意力机制的文本行识别器,用以通过文本行识别辅助模型进一步提取合成数据与自然场景文本行图像的共同特征;基于解耦注意力机制的文本行识别器结构如图5所示;
S3.4、在ResNet101-FPN结构的第0级输出特征图上构建Mask R-CNN第二阶段的分类头、回归头、分割头,分别用以获取建议区域的字符类别、回归框位置及建议区域的像素级分割结果;Mask R-CNN第二阶段的分类头、回归头、分割头结构图如图6所示。
弱监督实例分割模型的具体参数配置如表1所示。
表1.弱监督实例分割模型的具体参数配置表
在表1中,C代表输出通道数,K代表卷积核的尺寸,S代表步长,默认S=1;每个卷积层后面均连接有批归一化层,每个以中括号包围的模块后面均连接有ReLU激活函数层,每个全连接层前面均连接有丢弃概率为0.3的Dropout层;Conv11、Conv13、Conv14_x后接有Sigmoid激活函数层,Fc_1x以及Fc3后接有Softmax激活函数层。
S4、利用训练样本和合成数据训练弱监督实例分割模型,包括以下步骤:
S4.1、将合成数据与训练样本按照随机批次顺序输入到弱监督实例分割模型中训练。
S4.2、对于输入的合成数据,利用其标注全监督地训练弱监督实例分割模型,包括以下步骤:
S4.2.1、利用合成数据的字符框生成高斯热图1和高斯热图2,如下式:
其中,x0和y0是字符框中心点坐标,x和y是图像上某一点的坐标,K(x,y)是高斯热图在该点的值的大小;在高斯热图1中取值为0.09w,取值为0.09h,在高斯热图2中取值为0.36w,取值为0.36h,w和h分别是字符框的宽、高尺寸;
利用生成的高斯热图1和弱监督实例分割模型的弱监督区域提议网络输出的中心点预测结果计算加权二值交叉熵损失Lhm1;
利用生成的高斯热图2和弱监督区域提议网络输出的注意力热图预测结果计算二值交叉熵损失Lattn并为Lattn乘以权重(1-Pc),其中Pc是弱监督实例分割模型的基于解耦注意力机制的文本行识别器能够对输入图像正确识别为各标签字符的概率;
加权二值交叉熵损失的计算公式为:
其中yn是生成的高斯热图上第n个像素点的值,xn是第n个像素点的预测值,wn是将生成的高斯热图在通道维度上加和得到的单通道图片第n个像素点对应位置的值;n是生成的高斯热图上像素点的个数;
S4.2.2、利用合成数据的回归框标注和弱监督区域提议网络输出的回归框预测结果计算DIOU损失LDIOU,如下式:
其中b代表预测框,bgt代表标注框,ρ2(b,bgt)代表标注框和预测框中点的欧式距离,d2代表包含标注框和预测框的最小矩形的对角线长度的平方,IOU代表标注框和预测框之间的交并比,即:
其中Area1代表预测框的面积,Area2代表标注框的面积,Area3代表预测框与标注框重叠部分的面积;
S4.2.3、将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上,将结果作为弱监督区域提议网络中基于解耦注意力机制的文本行识别器的输入,利用合成数据的文本行字符串内容标注和文本行识别器输出的文本行识别结果计算交叉熵分类损失Lce1;
S4.2.4、根据弱监督区域提议网络输出的建议区域与合成数据的字符框标注信息,采用与训练Mask R-CNN完全相同的方法获得分类头的交叉熵分类损失Lcls1、回归头的Smooth L1回归损失Lreg1和分割头的二值交叉熵分割损失Lseg1;
将弱监督实例分割模型预测的分割结果使用Sobel算子处理得到预测边缘图,将相应的掩码标签使用同样的Sobel算子处理得到掩码边缘图,计算预测边缘图与掩码边缘图的均方差损失Lmse1;
S4.2.5、将各损失结果加权加求和最为最终的损失结果,如下式:
L1=w11×Lhm1+w12×Lattn+w13×Lwh1+w14×Lce1+w15×Lcls1+w16×Lreg1+w17×Lseg1+w18×Lmse1;其中w11、w12、w13、w15、w16、w17、w18为加权权重,均取1.0,w14为加权权重,取1/16。
将损失结果反向传播以训练弱监督实例分割模型。
S4.3、对于输入的训练样本,利用文本行字符串内容标注弱监督地训练弱监督实例分割模型,包括下述步骤:
S4.3.1、取出弱监督实例分割模型的弱监督区域提议网络中心点的预测输出结果,遍历其前T个通道,分别取出其输出值最高若干点的位置P,取出弱监督区域提议网络在位置P的回归框预测结果作为标签字符C的建议区域,其中标签字符C是文本行字符串标注中与该通道同索引的字符,T是输入图片的文本行内容标注中的字符个数;在本实施例中取出其输出值最高15个点的位置P;
S4.3.2、将所有得到的建议区域送入分类头,根据该建议区域的字符类别标注和弱监督实例分割模型的预测结果计算交叉熵分类损失Lcls2;
S4.3.3、将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上,将结果作为弱监督区域提议网络文本行识别器的输入,利用输入图像的文本行字符串内容标注和模型弱监督区域提议网络输出的文本行识别结果计算交叉熵分类损失Lce2;
S4.3.4、将各损失结果加权加求和最为最终的损失结果,如下式:
L2=w21×Lce2+w22×Lcls2;
其中w21与w22为加权权重,在本实施例中w21取0.25,w22取1.0;
将该结果反向传播以训练弱监督实例分割模型。
S5、利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注,包括以下步骤:
S5.1、将所有训练样本依次输入到弱监督实例分割模型中,对于弱监督区域提议网络的中心点预测结果中的各通道中最大输出值>0.1的通道,分别取出这些通道中每个通道上具有最大输出值的坐标点,并分别找到弱监督区域提议网络在这些坐标点上的字符框预测结果,作为建议区域;
S5.2、将建议区域输入到弱监督实例分割模型的分类头、回归头、分割头中,取出并采用非极大值抑制方法处理输出结果;在本实施例中非极大值抑制方法的交并比阈值取0.3;
S5.3、计算处理后的输出结果保存下来的字符框中每个字符框的中心点与图像左上角的距离,根据该距离从小到大的顺序排列每个字符框预测的字符,得到字符串S1;
S5.4、计算字符串S1与该训练样本的标签字符串S2的Levenshtein距离,得到从S1用最少的变化改变到S2时,对字符串S1中每个字符所要做的插入、删除、替换、保留操作;若S1中任意两个标记为保留的操作字符Char1和Char2之间存在字符被标记为替换操作且不存在字符被标记为插入和删除操作,则将Char1和Char2之间标记为替换操作的字符替换为S2中相应字符,并将弱监督实例分割模型的回归头、分割头中被替换字符对应的字符框预测结果和分割结果更新为替换后的字符同索引通道中的字符框预测结果和分割结果。
S5.5、弱监督实例分割模型按上述步骤对输入训练样本中各字符得到的字符框预测结果和分割结果即作为对该训练样本中各字符生成的伪标注。
S6、利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型,包括以下步骤:
S6.1、将合成数据与带有伪标注的训练样本按照随机批次顺序输入到模型中训练:
对于输入的合成数据,如步骤S4.2所述利用其标注全监督地训练弱监督实例分割模型;
对于输入的带有伪标注的训练样本,若其中全部字符都获得了伪标注信息,则将其视为带有全标注的合成数据,如步骤S4.2所述利用这些伪标注信息全监督地进行训练;若其中全部字符都没有获得伪标注信息,则如步骤S4.3所述利用原文本行字符串内容标注弱监督地进行训练;若其中同时存在获得了伪标注信息的字符和未获得伪标注信息的字符,则利用已经获得伪标注信息的字符伪监督地进行训练,并利用未获得伪标注信息的字符方法通过弱监督进行训练,即先将输入的带有伪标注的训练样本视为带有全标注的合成数据,如步骤S4.2所述利用这些伪标注信息全监督地进行训练,但在反向传播损失时只反向传播已标注字符所产生的损失,后如步骤S4.3所述利用原文本行字符串内容标注弱监督地进行训练,但在反向传播损失时只反向传播未标注字符所产生的损失;
S6.2、每完成一轮次训练,重新利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注,并通过比较两次伪标注内容各个字符的预测置信度来用重新生成的伪标注内容补充原伪标注内容,即对重新生成的伪标注中的字符,若其预测置信度高于原伪标注内容中相应字符的预测置信度,或原伪标注内容无此字符的伪标注信息,则用重新生成的伪标注中该字符的伪标注信息更新原伪标注相应字符的伪标注信息;
S6.3、重复步骤S6.1以及S6.2直至完成全部训练量。在本实施例中全部训练量设置为对自然场景文本图像训练数据进行20轮次训练。
S7、将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注,包括以下步骤:
S7.1、对于待标注自然场景文本行图像,保持图像长宽比不变,利用双线性插值法将短边固定到设定大小hs进行缩放,并输入至弱监督实例分割模型中;在本实施例中hs设置为64;
S7.2、按照和步骤S4.3完全一致的方法获取弱监督实例分割模型对输入图像的预测结果。
S7.3、将待标注自然场景文本行图像及得到各字符的像素级预测结果,利用双线性插值的方法缩放回原始大小,同时将得到各字符的字符框预测结果乘以该缩放倍数,即得到对该图像的字符级和像素级自动标注结果。
本发明的自然场景文本图像字符像素弱监督自动标注方法的效果如图7所示。
如图8所示,在本申请的另一个实施例中,提供了一种自然场景文本图像字符像素弱监督自动标注系统,该系统包括预处理模块、模型构建模块、第一训练模块、伪标注生成模块、第二训练模块以及自动标注模块;
所述预处理模块用于收集自然场景文本行图像并进行预处理,得到训练样本,并生成文本行图像的合成数据;
所述模型构建模块用于构建弱监督实例分割模型;
所述第一训练模块用于利用训练样本和合成数据训练弱监督实例分割模型;
所述伪标注生成模块用于利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注;
所述第二训练模块用于利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型;
所述自动标注模块用于将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注。
在此需要说明的是,上述实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,该系统是应用于上述实施例的自然场景文本图像字符像素弱监督自动标注方法。
如图9所示,在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现自然场景文本图像字符像素弱监督自动标注方法,具体为:
S1、收集自然场景文本行图像并进行预处理,得到训练样本;
S2、生成文本行图像的合成数据;
S3、构建弱监督实例分割模型;
S4、利用训练样本和合成数据训练弱监督实例分割模型;
S5、利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注;
S6、利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型;
S7、将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.自然场景文本图像字符像素弱监督自动标注方法,其特征在于,包括下述步骤:
收集自然场景文本行图像并进行预处理,得到训练样本;
生成文本行图像的合成数据;
构建弱监督实例分割模型;
利用训练样本和合成数据训练弱监督实例分割模型;
利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注;
利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型;
将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注。
2.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法,其特征在于,
所述收集自然场景文本行图像并进行预处理具体为:收集自然场景文本行图像及其相应的文本行字符串内容标注,保持图像长宽比不变,利用双线性插值法将短边固定到设定大小hs进行缩放;
所述生成文本行图像的合成数据具体包括以下步骤:
收集合成数据的素材,包括若干种不同的中英文ttf字体、若干不含文字的互联网图片以及合成数据的字典;所述合成数据的字典为根据训练样本中的内容标注获得训练数据中的全部字符类别;
进行合成数据的图片渲染:从所述若干不含文字的互联网图片中剪切一块随机大小的区域,并利用双线性插值法缩放到固定尺寸,作为合成数据的背景图片;从所述若干种不同的中英文ttf字体中随机抽取一种,并从所述合成数据的字典中随机抽取一个字符;将抽取到的字符采用抽取到的字体、随机颜色和随机大小渲染到合成数据的背景图片上;同时采用同样大小的字体,以黑色作为渲染颜色将该字符渲染到与合成数据的背景图片同样尺寸的全白色灰度图片的同样位置上,作为该合成数据字符的像素级掩码;取该像素级掩码的最小外接矩形作为该合成数据字符的检测框;按照阅读顺序的方向改变这一次在背景图片上渲染字符的位置,并重新抽选字体、字符进行字符渲染,使得这两次在背景图片上渲染的字符没有重叠;不断重复该过程直至完成渲染,最终得到一张合成数据图片,以及与该图片上的每个字符相对应的像素级掩码图片和字符框位置信息;
对合成数据进行多样化增广,包括对合成数据图片及其中所有字符得到的掩码图片进行随机仿射变换、随机模糊、加入随机遮挡;
重复上述步骤,直至得到目标数量的合成数据图片。
3.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法,其特征在于,所述构建弱监督实例分割模型具体包括以下步骤:
构建ResNet101-FPN结构;
在ResNet101-FPN结构的第0级输出特征图上构建弱监督区域提议网络;
在弱监督区域提议网络上构建基于解耦注意力机制的文本行识别器;
在ResNet101-FPN结构的第0级输出特征图上构建Mask R-CNN第二阶段的分类头、回归头、分割头。
4.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法,其特征在于,所述利用训练样本和合成数据训练弱监督实例分割模型,具体包括以下步骤:
将合成数据与训练样本按照随机批次顺序输入到弱监督实例分割模型中训练。
对于输入的合成数据,利用其标注全监督地训练弱监督实例分割模型;
对于输入的训练样本,利用文本行字符串内容标注弱监督地训练弱监督实例分割模型,包括下述步骤:
取出弱监督实例分割模型的弱监督区域提议网络中心点的预测输出结果,遍历其前T个通道,分别取出其输出值最高若干点的位置P,取出弱监督区域提议网络在位置P的回归框预测结果作为标签字符C的建议区域,其中标签字符C是文本行字符串标注中与该通道同索引的字符,T是输入图片的文本行内容标注中的字符个数;
将所有得到的建议区域送入分类头,根据该建议区域的字符类别标注和弱监督实例分割模型的预测结果计算交叉熵分类损失Lcls2;
将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上,将结果作为弱监督区域提议网络文本行识别器的输入,利用输入图像的文本行字符串内容标注和模型弱监督区域提议网络输出的文本行识别结果计算交叉熵分类损失Lce2;
将各损失结果加权加求和最为最终的损失结果,并将该结果反向传播以训练弱监督实例分割模型。
5.根据权利要求4所述自然场景文本图像字符像素弱监督自动标注方法,其特征在于,所述对于输入的合成数据,利用其标注全监督地训练弱监督实例分割模型,具体包括以下步骤:
利用合成数据的字符框生成高斯热图1和高斯热图2,如下式:
其中,x0和y0是字符框中心点坐标,x和y是图像上某一点的坐标,K(x,y)是高斯热图在该点的值的大小;在高斯热图1中取值为0.09w,取值为0.09h,在高斯热图2中取值为0.36w,取值为0.36h,w和h分别是字符框的宽、高尺寸;
利用生成的高斯热图1和弱监督实例分割模型的弱监督区域提议网络输出的中心点预测结果计算加权二值交叉熵损失Lhm1;
利用生成的高斯热图2和弱监督区域提议网络输出的注意力热图预测结果计算二值交叉熵损失Lattn并为Lattn乘以权重(1-Pc),其中Pc是弱监督实例分割模型的基于解耦注意力机制的文本行识别器能够对输入图像正确识别为各标签字符的概率;
加权二值交叉熵损失的计算公式为:
其中yn是生成的高斯热图上第n个像素点的值,xn是第n个像素点的预测值,wn是将生成的高斯热图在通道维度上加和得到的单通道图片第n个像素点对应位置的值,n是生成的高斯热图上像素点的个数;
利用合成数据的回归框标注和弱监督区域提议网络输出的回归框预测结果计算DIOU损失LDIOU,如下式:
其中b代表预测框,bgt代表标注框,ρ2(b,bgt)代表标注框和预测框中点的欧式距离,d2代表包含标注框和预测框的最小矩形的对角线长度的平方,IOU代表标注框和预测框之间的交并比,即:
其中Area1代表预测框的面积,Area2代表标注框的面积,Area3代表预测框与标注框重叠部分的面积;
将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上,将结果作为弱监督区域提议网络中基于解耦注意力机制的文本行识别器的输入,利用合成数据的文本行字符串内容标注和文本行识别器输出的文本行识别结果计算交叉熵分类损失Lce1;
根据弱监督区域提议网络输出的建议区域与合成数据的字符框标注信息,采用与训练Mask R-CNN完全相同的方法获得分类头的交叉熵分类损失Lcls1、回归头的Smooth L1回归损失Lreg1和分割头的二值交叉熵分割损失Lseg1;
将弱监督实例分割模型预测的分割结果使用Sobe1算子处理得到预测边缘图,将相应的掩码标签使用同样的Sobe1算子处理得到掩码边缘图,计算预测边缘图与掩码边缘图的均方差损失Lmse1;
将各损失结果加权加求和最为最终的损失结果,将损失结果反向传播以训练弱监督实例分割模型。
6.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法,其特征在于,所述利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注具体包括以下步骤:
将所有训练样本依次输入到弱监督实例分割模型中,对于弱监督区域提议网络的中心点预测结果中的各通道中最大输出值>0.1的通道,分别取出这些通道中每个通道上具有最大输出值的坐标点,并分别找到弱监督区域提议网络在这些坐标点上的字符框预测结果,作为建议区域;
将建议区域输入到弱监督实例分割模型的分类头、回归头、分割头中,取出并采用非极大值抑制方法处理输出结果;
计算处理后的输出结果保存下来的字符框中每个字符框的中心点与图像左上角的距离,根据该距离从小到大的顺序排列每个字符框预测的字符,得到字符串S1;
计算字符串S1与该训练样本的标签字符串S2的Levenshtein距离,得到从S1用最少的变化改变到S2时,对字符串S1中每个字符所要做的插入、删除、替换、保留操作;若S1中任意两个标记为保留的操作字符Char1和Char2之间存在字符被标记为替换操作且不存在字符被标记为插入和删除操作,则将Char1和Char2之间标记为替换操作的字符替换为S2中相应字符,并将弱监督实例分割模型的回归头、分割头中被替换字符对应的字符框预测结果和分割结果更新为替换后的字符同索引通道中的字符框预测结果和分割结果;
弱监督实例分割模型按上述步骤对输入训练样本中各字符得到的字符框预测结果和分割结果即作为对该训练样本中各字符生成的伪标注。
7.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法,其特征在于,所述利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型具体包括以下步骤:
将合成数据与带有伪标注的训练样本按照随机批次顺序输入到模型中训练;
对于输入的合成数据,利用其标注全监督地训练弱监督实例分割模型;
对于输入的带有伪标注的训练样本,若其中全部字符都获得了伪标注信息,则将其视为带有全标注的合成数据,利用这些伪标注信息全监督地进行训练;若其中全部字符都没有获得伪标注信息,则利用原文本行字符串内容标注弱监督地进行训练;若其中同时存在获得了伪标注信息的字符和未获得伪标注信息的字符,则利用已经获得伪标注信息的字符伪监督地进行训练,并利用未获得伪标注信息的字符方法通过弱监督进行训练,即先将输入的带有伪标注的训练样本视为带有全标注的合成数据,利用这些伪标注信息全监督地进行训练,但在反向传播损失时只反向传播已标注字符所产生的损失,后利用原文本行字符串内容标注弱监督地进行训练,但在反向传播损失时只反向传播未标注字符所产生的损失;
每完成一轮次训练,重新利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注,并通过比较两次伪标注内容各个字符的预测置信度来用重新生成的伪标注内容补充原伪标注内容,即对重新生成的伪标注中的字符,若其预测置信度高于原伪标注内容中相应字符的预测置信度,或原伪标注内容无此字符的伪标注信息,则用重新生成的伪标注中该字符的伪标注信息更新原伪标注相应字符的伪标注信息;
重复上述步骤直至完成全部训练量。
8.根据权利要求4所述自然场景文本图像字符像素弱监督自动标注方法,其特征在于,所述将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型得到像素级自动标注具体包括以下步骤:
对于待标注自然场景文本行图像,保持图像长宽比不变,利用双线性插值法将短边固定到设定大小hs进行缩放,并输入至弱监督实例分割模型中;
按照与所述利用文本行字符串内容标注弱监督地训练弱监督实例分割模型完全一致的方法获取弱监督实例分割模型对输入图像的预测结果;
将待标注自然场景文本行图像及得到各字符的像素级预测结果,利用双线性插值的方法缩放回原始大小,同时将得到各字符的字符框预测结果乘以该缩放倍数,即得到对该图像的字符级和像素级自动标注结果。
9.自然场景文本图像字符像素弱监督自动标注系统,其特征在于,应用于权利要求1-8中任一项所述的自然场景文本图像字符像素弱监督自动标注方法,包括预处理模块、模型构建模块、第一训练模块、伪标注生成模块、第二训练模块以及自动标注模块;
所述预处理模块用于收集自然场景文本行图像并进行预处理,得到训练样本,并生成文本行图像的合成数据;
所述模型构建模块用于构建弱监督实例分割模型;
所述第一训练模块用于利用训练样本和合成数据训练弱监督实例分割模型;
所述伪标注生成模块用于利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注;
所述第二训练模块用于利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型;
所述自动标注模块用于将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注。
10.一种存储介质,存储有程序,其特征在于:所述程序被处理器执行时,实现权利要求1-8任一项所述的自然场景文本图像字符像素弱监督自动标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110806669.XA CN113673338B (zh) | 2021-07-16 | 2021-07-16 | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110806669.XA CN113673338B (zh) | 2021-07-16 | 2021-07-16 | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673338A true CN113673338A (zh) | 2021-11-19 |
CN113673338B CN113673338B (zh) | 2023-09-26 |
Family
ID=78539392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110806669.XA Active CN113673338B (zh) | 2021-07-16 | 2021-07-16 | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673338B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612744A (zh) * | 2022-03-10 | 2022-06-10 | 平安科技(深圳)有限公司 | 一种检测模型训练方法、车辆损伤检测方法及终端设备 |
CN114743170A (zh) * | 2022-04-24 | 2022-07-12 | 重庆长安汽车股份有限公司 | 一种基于ai算法的自动驾驶场景标注方法 |
CN114882485A (zh) * | 2022-04-25 | 2022-08-09 | 华南理工大学 | 一种面向细长文本的自然场景文字检测方法、系统及介质 |
CN115080749A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 一种基于自监督训练的弱监督文本分类方法、系统和装置 |
CN115661535A (zh) * | 2022-10-31 | 2023-01-31 | 中国矿业大学 | 一种目标去除背景恢复方法、装置和电子设备 |
CN116051686A (zh) * | 2023-01-13 | 2023-05-02 | 中国科学技术大学 | 图上文字擦除方法、系统、设备及存储介质 |
CN116385466A (zh) * | 2023-05-05 | 2023-07-04 | 北京信息科技大学 | 一种基于边界框弱标注的图像中目标分割方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN111553346A (zh) * | 2020-04-26 | 2020-08-18 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于字符区域感知的场景文本检测方法 |
CN111798480A (zh) * | 2020-07-23 | 2020-10-20 | 北京思图场景数据科技服务有限公司 | 基于单字符及文字间连接关系预测的文字检测方法及装置 |
CN111813928A (zh) * | 2019-04-10 | 2020-10-23 | 国际商业机器公司 | 评估由文本分类模型预测的文本分类异常 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN111860348A (zh) * | 2020-07-21 | 2020-10-30 | 国网山东省电力公司青岛供电公司 | 基于深度学习的弱监督电力图纸ocr识别方法 |
CN112418207A (zh) * | 2020-11-23 | 2021-02-26 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN112966684A (zh) * | 2021-03-15 | 2021-06-15 | 北湾科技(武汉)有限公司 | 一种注意力机制下的协同学习文字识别方法 |
-
2021
- 2021-07-16 CN CN202110806669.XA patent/CN113673338B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813928A (zh) * | 2019-04-10 | 2020-10-23 | 国际商业机器公司 | 评估由文本分类模型预测的文本分类异常 |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN111553346A (zh) * | 2020-04-26 | 2020-08-18 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于字符区域感知的场景文本检测方法 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN111860348A (zh) * | 2020-07-21 | 2020-10-30 | 国网山东省电力公司青岛供电公司 | 基于深度学习的弱监督电力图纸ocr识别方法 |
CN111798480A (zh) * | 2020-07-23 | 2020-10-20 | 北京思图场景数据科技服务有限公司 | 基于单字符及文字间连接关系预测的文字检测方法及装置 |
CN112418207A (zh) * | 2020-11-23 | 2021-02-26 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN112966684A (zh) * | 2021-03-15 | 2021-06-15 | 北湾科技(武汉)有限公司 | 一种注意力机制下的协同学习文字识别方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612744A (zh) * | 2022-03-10 | 2022-06-10 | 平安科技(深圳)有限公司 | 一种检测模型训练方法、车辆损伤检测方法及终端设备 |
CN114743170A (zh) * | 2022-04-24 | 2022-07-12 | 重庆长安汽车股份有限公司 | 一种基于ai算法的自动驾驶场景标注方法 |
CN114882485A (zh) * | 2022-04-25 | 2022-08-09 | 华南理工大学 | 一种面向细长文本的自然场景文字检测方法、系统及介质 |
CN114882485B (zh) * | 2022-04-25 | 2024-05-24 | 华南理工大学 | 一种面向细长文本的自然场景文字检测方法、系统及介质 |
CN115080749A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 一种基于自监督训练的弱监督文本分类方法、系统和装置 |
CN115080749B (zh) * | 2022-08-16 | 2022-11-08 | 之江实验室 | 一种基于自监督训练的弱监督文本分类方法、系统和装置 |
CN115661535A (zh) * | 2022-10-31 | 2023-01-31 | 中国矿业大学 | 一种目标去除背景恢复方法、装置和电子设备 |
CN115661535B (zh) * | 2022-10-31 | 2023-11-03 | 中国矿业大学 | 一种目标去除背景恢复方法、装置和电子设备 |
CN116051686A (zh) * | 2023-01-13 | 2023-05-02 | 中国科学技术大学 | 图上文字擦除方法、系统、设备及存储介质 |
CN116051686B (zh) * | 2023-01-13 | 2023-08-01 | 中国科学技术大学 | 图上文字擦除方法、系统、设备及存储介质 |
CN116385466A (zh) * | 2023-05-05 | 2023-07-04 | 北京信息科技大学 | 一种基于边界框弱标注的图像中目标分割方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113673338B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN113673338B (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
Jiang et al. | Scfont: Structure-guided chinese font generation via deep stacked networks | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN108376244B (zh) | 一种自然场景图片中的文本字体的识别方法 | |
CN110969129B (zh) | 一种端到端税务票据文本检测与识别方法 | |
CN113609896B (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN111414906A (zh) | 纸质票据图片的数据合成与文本识别方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN111914698B (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN111126127B (zh) | 一种多级空间上下文特征指导的高分辨率遥感影像分类方法 | |
CN110502655B (zh) | 一种嵌入场景文字信息的图像自然描述语句生成方法 | |
CN113158977B (zh) | 改进FANnet生成网络的图像字符编辑方法 | |
CN112418216A (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN112016512A (zh) | 基于反馈式多尺度训练的遥感图像小目标检测方法 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN113139969A (zh) | 一种基于注意力机制的弱监督图像语义分割方法及系统 | |
Chen et al. | A review of image and video colorization: From analogies to deep learning | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN114330234A (zh) | 版面结构分析方法、装置、电子设备和存储介质 | |
CN113963232A (zh) | 一种基于注意力学习的网络图数据提取方法 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN114155540B (zh) | 基于深度学习的文字识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |