CN113673338B

CN113673338B - 自然场景文本图像字符像素弱监督自动标注方法、系统及介质

Info

Publication number: CN113673338B
Application number: CN202110806669.XA
Authority: CN
Inventors: 曲晨帆; 金连文; 任峪瑾; 李腾; 廖文辉; 蒋擎
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-09-26
Anticipated expiration: 2041-07-16
Also published as: CN113673338A

Abstract

本发明公开了一种自然场景文本图像字符像素弱监督自动标注方法、系统及介质，该方法包括收集训练样本；生成合成数据；构建并利用训练样本及合成数据训练弱监督实例分割模型；生成伪标注；利用带伪标注数据继续训练；利用已完成训练的弱监督实例分割模型对待标注自然场景文本行图像进行像素级自动标注。本发明能够利用仅带有文本行字符串内容标注的自然场景文本行图像，自动而准确地生成其中每个字符的字符像素标注，从而能够大大解放人力，并可以辅助提升文本行识别器的性能及为场景文本编辑、擦除模型提供细粒度标注信息。此外，本发明鲁棒性强，能够完成各种真实场景环境下复杂结构中英文字符的自动标注。

Description

自然场景文本图像字符像素弱监督自动标注方法、系统及介质

技术领域

本发明属于人工智能及计算机视觉的技术领域，具体涉及一种自然场景文本图像字符像素弱监督自动标注方法、系统及介质。

背景技术

近年来，基于深度学习的人工智能技术飞速发展，对于自然场景文本的研究是人工智能的一个重要子领域之一。自然场景文本识别因字符字体变化多样、背景多样干扰强、图片亮度角度变化幅度大而颇具挑战性。而字符级和像素级标注信息能够帮助人们训练出一个鲁棒性更强，识别效果更好的场景文本识别器。同时，字符级和像素级标注能够为自然场景文本的擦除、替换模型提供更细致的前景信息，从而辅助这些模型获得更好的性能和擦除、替换效果。

但是，直接通过合成数据训练的模型在自然场景文本行图像上的表现很差，而通过人工标注的方法获取图像的字符级和像素级标注信息则远比获取其文本行内容标注费时费力，因此需要一种方法能够在直接基于原始的仅带有文本行内容标注的自然场景文本行图像弱监督地标注出文本行中每个字符的位置和其像素级前景掩码。从而自动而准确地生成自然场景文本像素级标注而解放人工，同时利用这些像素级标注辅助场景文本识别、擦除、替换等下游任务的提升。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种自然场景文本图像字符像素弱监督自动标注方法、系统及介质。

为了达到上述目的，本发明采用以下技术方案：

本发明的一个方面，提供了一种自然场景文本图像字符像素弱监督自动标注方法，包括下述步骤：

S1、收集自然场景文本行图像并进行预处理，得到训练样本；

S2、生成文本行图像的合成数据；

S3、构建弱监督实例分割模型；

S4、利用训练样本和合成数据训练弱监督实例分割模型；

S5、利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注；

S6、利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型；

S7、将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注。

作为优选的技术方案，

所述收集自然场景文本行图像并进行预处理具体为：收集自然场景文本行图像及其相应的文本行字符串内容标注，保持图像长宽比不变，利用双线性插值法将短边固定到设定大小hs进行缩放；

所述生成文本行图像的合成数据具体包括以下步骤：

收集合成数据的素材，包括若干种不同的中英文ttf字体、若干不含文字的互联网图片以及合成数据的字典；所述合成数据的字典为根据训练样本中的内容标注获得训练数据中的全部字符类别；

进行合成数据的图片渲染：从所述若干不含文字的互联网图片中剪切一块随机大小的区域，并利用双线性插值法缩放到固定尺寸，作为合成数据的背景图片；从所述若干种不同的中英文ttf字体中随机抽取一种，并从所述合成数据的字典中随机抽取一个字符；将抽取到的字符采用抽取到的字体、随机颜色和随机大小渲染到合成数据的背景图片上；同时采用同样大小的字体，以黑色作为渲染颜色将该字符渲染到与合成数据的背景图片同样尺寸的全白色灰度图片的同样位置上，作为该合成数据字符的像素级掩码；取该像素级掩码的最小外接矩形作为该合成数据字符的检测框；按照阅读顺序的方向改变这一次在背景图片上渲染字符的位置，并重新抽选字体、字符进行字符渲染，使得这两次在背景图片上渲染的字符没有重叠；不断重复该过程直至完成渲染，最终得到一张合成数据图片，以及与该图片上的每个字符相对应的像素级掩码图片和字符框位置信息；

对合成数据进行多样化增广，包括对合成数据图片及其中所有字符得到的掩码图片进行随机仿射变换、随机模糊、加入随机遮挡；

重复上述步骤，直至得到目标数量的合成数据图片。

作为优选的技术方案，所述构建弱监督实例分割模型具体包括以下步骤：

构建ResNet101-FPN结构；

在ResNet101-FPN结构的第0级输出特征图上构建弱监督区域提议网络；

在弱监督区域提议网络上构建基于解耦注意力机制的文本行识别器；

在ResNet101-FPN结构的第0级输出特征图上构建Mask R-CNN第二阶段的分类头、回归头、分割头。

作为优选的技术方案，所述利用训练样本和合成数据训练弱监督实例分割模型，具体包括以下步骤：

将合成数据与训练样本按照随机批次顺序输入到弱监督实例分割模型中训练。

对于输入的合成数据，利用其标注全监督地训练弱监督实例分割模型；

对于输入的训练样本，利用文本行字符串内容标注弱监督地训练弱监督实例分割模型，包括下述步骤：

取出弱监督实例分割模型的弱监督区域提议网络中心点的预测输出结果，遍历其前T个通道，分别取出其输出值最高若干点的位置P，取出弱监督区域提议网络在位置P的回归框预测结果作为标签字符C的建议区域，其中标签字符C是文本行字符串标注中与该通道同索引的字符，T是输入图片的文本行内容标注中的字符个数；

将所有得到的建议区域送入分类头，根据该建议区域的字符类别标注和弱监督实例分割模型的预测结果计算交叉熵分类损失Lcls2；

将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上，将结果作为弱监督区域提议网络文本行识别器的输入，利用输入图像的文本行字符串内容标注和模型弱监督区域提议网络输出的文本行识别结果计算交叉熵分类损失Lce2；

将各损失结果加权加求和最为最终的损失结果，并将该结果反向传播以训练弱监督实例分割模型。

作为优选的技术方案，所述对于输入的合成数据，利用其标注全监督地训练弱监督实例分割模型，具体包括以下步骤：

利用合成数据的字符框生成高斯热图1和高斯热图2，如下式：

其中，x₀和y₀是字符框中心点坐标，x和y是图像上某一点的坐标，K(x,y)是高斯热图在该点的值的大小；在高斯热图1中取值为0.09w，/>取值为0.09h，在高斯热图2中/>取值为0.36w，/>取值为0.36h，w和h分别是字符框的宽、高尺寸；

利用生成的高斯热图1和弱监督实例分割模型的弱监督区域提议网络输出的中心点预测结果计算加权二值交叉熵损失Lhm1；

利用生成的高斯热图2和弱监督区域提议网络输出的注意力热图预测结果计算二值交叉熵损失Lattn并为Lattn乘以权重(1-Pc)，其中Pc是弱监督实例分割模型的基于解耦注意力机制的文本行识别器能够对输入图像正确识别为各标签字符的概率；

加权二值交叉熵损失的计算公式为：

其中y_n是生成的高斯热图上第n个像素点的值，x_n是第n个像素点的预测值，w_n是将生成的高斯热图在通道维度上加和得到的单通道图片第n个像素点对应位置的值，n是生成的高斯热图上像素点的个数；

利用合成数据的回归框标注和弱监督区域提议网络输出的回归框预测结果计算DIOU损失L_DIOU，如下式：

其中b代表预测框，b^gt代表标注框，ρ²(b,b^gt)代表标注框和预测框中点的欧式距离，d²代表包含标注框和预测框的最小矩形的对角线长度的平方，IOU代表标注框和预测框之间的交并比，即：

其中Area1代表预测框的面积，Area2代表标注框的面积，Area3代表预测框与标注框重叠部分的面积；

将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上，将结果作为弱监督区域提议网络中基于解耦注意力机制的文本行识别器的输入，利用合成数据的文本行字符串内容标注和文本行识别器输出的文本行识别结果计算交叉熵分类损失Lce1；

根据弱监督区域提议网络输出的建议区域与合成数据的字符框标注信息，采用与训练Mask R-CNN完全相同的方法获得分类头的交叉熵分类损失Lcls1、回归头的Smooth L1回归损失Lreg1和分割头的二值交叉熵分割损失Lseg1；

将弱监督实例分割模型预测的分割结果使用Sobel算子处理得到预测边缘图，将相应的掩码标签使用同样的Sobel算子处理得到掩码边缘图，计算预测边缘图与掩码边缘图的均方差损失Lmse1；

将各损失结果加权加求和最为最终的损失结果，将损失结果反向传播以训练弱监督实例分割模型。

作为优选的技术方案，所述利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注具体包括以下步骤：

将所有训练样本依次输入到弱监督实例分割模型中，对于弱监督区域提议网络的中心点预测结果中的各通道中最大输出值>0.1的通道，分别取出这些通道中每个通道上具有最大输出值的坐标点，并分别找到弱监督区域提议网络在这些坐标点上的字符框预测结果，作为建议区域；

将建议区域输入到弱监督实例分割模型的分类头、回归头、分割头中，取出并采用非极大值抑制方法处理输出结果；

计算处理后的输出结果保存下来的字符框中每个字符框的中心点与图像左上角的距离，根据该距离从小到大的顺序排列每个字符框预测的字符，得到字符串S1；

计算字符串S1与该训练样本的标签字符串S2的Levenshtein距离，得到从S1用最少的变化改变到S2时，对字符串S1中每个字符所要做的插入、删除、替换、保留操作；若S1中任意两个标记为保留的操作字符Char1和Char2之间存在字符被标记为替换操作且不存在字符被标记为插入和删除操作，则将Char1和Char2之间标记为替换操作的字符替换为S2中相应字符，并将弱监督实例分割模型的回归头、分割头中被替换字符对应的字符框预测结果和分割结果更新为替换后的字符同索引通道中的字符框预测结果和分割结果；

弱监督实例分割模型按上述步骤对输入训练样本中各字符得到的字符框预测结果和分割结果即作为对该训练样本中各字符生成的伪标注。

作为优选的技术方案，所述利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型具体包括以下步骤：

将合成数据与带有伪标注的训练样本按照随机批次顺序输入到模型中训练；

对于输入的带有伪标注的训练样本，若其中全部字符都获得了伪标注信息，则将其视为带有全标注的合成数据，利用这些伪标注信息全监督地进行训练；若其中全部字符都没有获得伪标注信息，则利用原文本行字符串内容标注弱监督地进行训练；若其中同时存在获得了伪标注信息的字符和未获得伪标注信息的字符，则利用已经获得伪标注信息的字符伪监督地进行训练，并利用未获得伪标注信息的字符方法通过弱监督进行训练，即先将输入的带有伪标注的训练样本视为带有全标注的合成数据，利用这些伪标注信息全监督地进行训练，但在反向传播损失时只反向传播已标注字符所产生的损失，后利用原文本行字符串内容标注弱监督地进行训练，但在反向传播损失时只反向传播未标注字符所产生的损失；

每完成一轮次训练，重新利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注，并通过比较两次伪标注内容各个字符的预测置信度来用重新生成的伪标注内容补充原伪标注内容，即对重新生成的伪标注中的字符，若其预测置信度高于原伪标注内容中相应字符的预测置信度，或原伪标注内容无此字符的伪标注信息，则用重新生成的伪标注中该字符的伪标注信息更新原伪标注相应字符的伪标注信息；

重复上述步骤直至完成全部训练量。

作为优选的技术方案，所述将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型得到像素级自动标注具体包括以下步骤：

对于待标注自然场景文本行图像，保持图像长宽比不变，利用双线性插值法将短边固定到设定大小hs进行缩放，并输入至弱监督实例分割模型中；

按照与所述利用文本行字符串内容标注弱监督地训练弱监督实例分割模型完全一致的方法获取弱监督实例分割模型对输入图像的预测结果；

将待标注自然场景文本行图像及得到各字符的像素级预测结果，利用双线性插值的方法缩放回原始大小，同时将得到各字符的字符框预测结果乘以该缩放倍数，即得到对该图像的字符级和像素级自动标注结果。

本发明的另一个方面，提供了一种自然场景文本图像字符像素弱监督自动标注系统，应用于上述的自然场景文本图像字符像素弱监督自动标注方法，包括预处理模块、模型构建模块、第一训练模块、伪标注生成模块、第二训练模块以及自动标注模块；

所述预处理模块用于收集自然场景文本行图像并进行预处理，得到训练样本，并生成文本行图像的合成数据；

所述模型构建模块用于构建弱监督实例分割模型；

所述第一训练模块用于利用训练样本和合成数据训练弱监督实例分割模型；

所述伪标注生成模块用于利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注；

所述第二训练模块用于利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型；

所述自动标注模块用于将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注。

本发明的另一个方面，提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的自然场景文本图像字符像素弱监督自动标注方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明能够利用仅带有文本行字符串内容标注的自然场景文本行图像，自动而准确地生成其中每个字符的字符像素标注，从而能够大大解放人力。

(2)本发明得到的标注结果清晰准确且实用性强，可以辅助提升文本行识别器的性能及为场景文本编辑、擦除模型提供细粒度标注信息。

(3)本发明鲁棒性强，能够完成各种真实场景环境下复杂结构中英文字符的自动标注。

附图说明

图1是本发明实施例自然场景文本图像字符像素弱监督自动标注方法的流程图；

图2是本发明实施例弱监督实例分割模型的整体结构示意图；

图3是本发明实施例ResNet101-FPN结构示意图；

图4是本发明实施例弱监督区域提议网络的结构示意图；

图5是本发明实施例基于解耦注意力机制的文本行识别器的结构示意图；

图6是本发明实施例Mask R-CNN第二阶段的分类头、回归头、分割头的结构示意图；

图7是本发明实施例自然场景文本图像字符像素弱监督自动标注方法的效果展示图；

图8是本发明实施例自然场景文本图像字符像素弱监督自动标注系统的结构示意图；

图9是本发明实施例的存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1所示，本实施例以ReCTS 2019数据集的场景文本行图像字符像素自动标注为例，公开了一种场景文本行图像字符像素自动标注方法，包括以下步骤：

S1、收集自然场景文本行图像并进行预处理，得到训练样本，具体为：

收集自然场景文本行图像及其相应的文本行字符串内容标注，保持图像长宽比不变，利用双线性插值法将短边固定到设定大小hs进行缩放；其中hs是该自然场景文本行图像缩放后的短边长度；在本实施例中采用ReCTS 2019文本行识别数据集，hs设置为64。

S2、生成文本行图像的合成数据，包括以下步骤：

S2.1、收集合成数据的素材，包括以下步骤：

S2.1.1、收集若干种不同的中英文ttf字体，并在互联网上随机收集若干不含文字的图片；在本实施中收集了55种不同的中英文ttf字体和3000张不含文字的图片；

S2.1.2、根据自然场景文本行图像训练样本中的内容标注，获得训练数据中的全部字符类别作为合成数据的字典；

S2.2、进行合成数据的图片渲染，包括以下步骤：

S2.2.1、从步骤S2.1.1中收集到的图片中剪切一块随机大小的区域，并使用双线性插值法缩放到固定尺寸，作为合成数据的背景图片；在本实施例中所述固定尺寸取高为64且宽为256，或高为256且宽为64；

S2.2.2、从步骤S2.1.1中收集到的字体中随机抽取一种，并从合成数据的字典中随机抽取一个字符，将抽取到的字符采用抽取到的字体、随机颜色和随机大小渲染到步骤2.2.1中得到的合成数据的背景图片上，同时使用同样的字体和大小，采用黑色作为渲染颜色将该字符渲染到和背景图片同样尺寸的全白色灰度图片的同样的位置上，作为该合成数据字符的像素级掩码，取该像素级掩码的最小外接矩形作为该合成数据字符的检测框；

S2.2.3、按照阅读顺序的方向改变这一次在背景图片上渲染字符的位置，重新按照步骤S2.2.2在背景图片上进行字符渲染，使得这两次在背景图片上渲染的字符没有重叠，不断重复该过程直至完成渲染，最终得到一张合成数据图片，以及与该图片上的每个字符相对应的像素级掩码图片和字符框位置信息；

S2.3、进行合成数据的多样化增广，包括以下步骤：

S2.3.1、对步骤S2.2中得到的合成数据图片和其中所有字符得到的掩码图片采用同样的随机仿射变换，如下式：

即仿射变换后图像上某一像素点位置(x′,y′)的像素值为原图上像素点位置(x,y)的像素值通过以上公式计算的结果；在本实施例中：

(1)当图片尺寸为高为64且宽为256时，仿射变换矩阵参数a、b、c、d、e、f取值为：a在[0.8,1.2]的均匀分布中随机取值，b在[-0.4,0.4]的均匀分布中随机取值，c取0，d在[-0.02,0.02]的均匀分布中随机取值，e在[0.8,1.2]的均匀分布中随机取值，f取0；

(2)当图片尺寸为高为256且宽为64时，仿射变换矩阵参数取值为：a在[0.8,1.2]的均匀分布中随机取值，b在[-0.02,0.02]的均匀分布中随机取值，c取0，d在[-0.4,0.4]的均匀分布中随机取值，e取1，f取0；

S2.3.2、对步骤S2.3.1中得到的合成数据图片采用随机模糊，包括随机采用高斯模糊或缩放模糊；

采用高斯模糊时，高斯核半径随机从3、5、7、9、11中选择；

采用缩放模糊时，随机将图像使用最近邻插值法保持长宽比不变缩放到原大小的Tpry倍，后再使用最近邻插值法保持长宽比不变缩放回原大小；在本实施例中Tpry随机从[0.5,0.8]的均匀分布中取值；

S2.3.3、对步骤S2.3.2中得到的合成数据图片加入随机遮挡：即随机在合成数据图片边界上任意选择两个点在图像上画上一条灰度图直线，该直线的宽度随机从[8,56]的均匀分布中取值，该直线的灰度随机从[20,80]的均匀分布中取值

S2.4、依次循环步骤S2.2和S2.3直至生成目标数量的合成数据图片；在本实施例中共生成了550k张合成数据图片。

S3、构建弱监督实例分割模型，其结构如图2所示，包括以下步骤：

S3.1、构建ResNet101-FPN结构，用以将图像的深层特征和浅层特征融合起来得到融合语义特征的特征图；ResNet101-FPN结构如图3所示；

S3.2、在ResNet101-FPN结构的第0级输出特征图上构建弱监督区域提议网络，用以弱监督地从自然场景文本行图像的融合语义特征的特征图中获取提议区域及与其匹配的字符标注；弱监督区域提议网络结构如图4所示；

S3.3、在弱监督区域提议网络上构建基于解耦注意力机制的文本行识别器，用以通过文本行识别辅助模型进一步提取合成数据与自然场景文本行图像的共同特征；基于解耦注意力机制的文本行识别器结构如图5所示；

S3.4、在ResNet101-FPN结构的第0级输出特征图上构建Mask R-CNN第二阶段的分类头、回归头、分割头，分别用以获取建议区域的字符类别、回归框位置及建议区域的像素级分割结果；Mask R-CNN第二阶段的分类头、回归头、分割头结构图如图6所示。

弱监督实例分割模型的具体参数配置如表1所示。

表1.弱监督实例分割模型的具体参数配置表

在表1中，C代表输出通道数，K代表卷积核的尺寸，S代表步长，默认S＝1；每个卷积层后面均连接有批归一化层，每个以中括号包围的模块后面均连接有ReLU激活函数层，每个全连接层前面均连接有丢弃概率为0.3的Dropout层；Conv11、Conv13、Conv14_x后接有Sigmoid激活函数层，Fc_1x以及Fc3后接有Softmax激活函数层。

S4、利用训练样本和合成数据训练弱监督实例分割模型，包括以下步骤：

S4.1、将合成数据与训练样本按照随机批次顺序输入到弱监督实例分割模型中训练。

S4.2、对于输入的合成数据，利用其标注全监督地训练弱监督实例分割模型，包括以下步骤：

S4.2.1、利用合成数据的字符框生成高斯热图1和高斯热图2，如下式：

加权二值交叉熵损失的计算公式为：

其中y_n是生成的高斯热图上第n个像素点的值，x_n是第n个像素点的预测值，w_n是将生成的高斯热图在通道维度上加和得到的单通道图片第n个像素点对应位置的值；n是生成的高斯热图上像素点的个数；

S4.2.2、利用合成数据的回归框标注和弱监督区域提议网络输出的回归框预测结果计算DIOU损失L_DIOU，如下式：

S4.2.3、将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上，将结果作为弱监督区域提议网络中基于解耦注意力机制的文本行识别器的输入，利用合成数据的文本行字符串内容标注和文本行识别器输出的文本行识别结果计算交叉熵分类损失Lce1；

S4.2.4、根据弱监督区域提议网络输出的建议区域与合成数据的字符框标注信息，采用与训练Mask R-CNN完全相同的方法获得分类头的交叉熵分类损失Lcls1、回归头的Smooth L1回归损失Lreg1和分割头的二值交叉熵分割损失Lseg1；

S4.2.5、将各损失结果加权加求和最为最终的损失结果，如下式：

L1＝w11×Lhm1+w12×Lattn+w13×Lwh1+w14×Lce1+w15×Lcls1+w16×Lreg1+w17×Lseg1+w18×Lmse1；其中w11、w12、w13、w15、w16、w17、w18为加权权重，均取1.0，w14为加权权重，取1/16。

将损失结果反向传播以训练弱监督实例分割模型。

S4.3、对于输入的训练样本，利用文本行字符串内容标注弱监督地训练弱监督实例分割模型，包括下述步骤：

S4.3.1、取出弱监督实例分割模型的弱监督区域提议网络中心点的预测输出结果，遍历其前T个通道，分别取出其输出值最高若干点的位置P，取出弱监督区域提议网络在位置P的回归框预测结果作为标签字符C的建议区域，其中标签字符C是文本行字符串标注中与该通道同索引的字符，T是输入图片的文本行内容标注中的字符个数；在本实施例中取出其输出值最高15个点的位置P；

S4.3.2、将所有得到的建议区域送入分类头，根据该建议区域的字符类别标注和弱监督实例分割模型的预测结果计算交叉熵分类损失Lcls2；

S4.3.3、将弱监督区域提议网络输出的注意力热图作为权重加权到特征图6上，将结果作为弱监督区域提议网络文本行识别器的输入，利用输入图像的文本行字符串内容标注和模型弱监督区域提议网络输出的文本行识别结果计算交叉熵分类损失Lce2；

S4.3.4、将各损失结果加权加求和最为最终的损失结果，如下式：

L2＝w21×Lce2+w22×Lcls2；

其中w21与w22为加权权重，在本实施例中w21取0.25，w22取1.0；

将该结果反向传播以训练弱监督实例分割模型。

S5、利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注，包括以下步骤：

S5.1、将所有训练样本依次输入到弱监督实例分割模型中，对于弱监督区域提议网络的中心点预测结果中的各通道中最大输出值>0.1的通道，分别取出这些通道中每个通道上具有最大输出值的坐标点，并分别找到弱监督区域提议网络在这些坐标点上的字符框预测结果，作为建议区域；

S5.2、将建议区域输入到弱监督实例分割模型的分类头、回归头、分割头中，取出并采用非极大值抑制方法处理输出结果；在本实施例中非极大值抑制方法的交并比阈值取0.3；

S5.3、计算处理后的输出结果保存下来的字符框中每个字符框的中心点与图像左上角的距离，根据该距离从小到大的顺序排列每个字符框预测的字符，得到字符串S1；

S5.4、计算字符串S1与该训练样本的标签字符串S2的Levenshtein距离，得到从S1用最少的变化改变到S2时，对字符串S1中每个字符所要做的插入、删除、替换、保留操作；若S1中任意两个标记为保留的操作字符Char1和Char2之间存在字符被标记为替换操作且不存在字符被标记为插入和删除操作，则将Char1和Char2之间标记为替换操作的字符替换为S2中相应字符，并将弱监督实例分割模型的回归头、分割头中被替换字符对应的字符框预测结果和分割结果更新为替换后的字符同索引通道中的字符框预测结果和分割结果。

S5.5、弱监督实例分割模型按上述步骤对输入训练样本中各字符得到的字符框预测结果和分割结果即作为对该训练样本中各字符生成的伪标注。

S6、利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型，包括以下步骤：

S6.1、将合成数据与带有伪标注的训练样本按照随机批次顺序输入到模型中训练：

对于输入的合成数据，如步骤S4.2所述利用其标注全监督地训练弱监督实例分割模型；

对于输入的带有伪标注的训练样本，若其中全部字符都获得了伪标注信息，则将其视为带有全标注的合成数据，如步骤S4.2所述利用这些伪标注信息全监督地进行训练；若其中全部字符都没有获得伪标注信息，则如步骤S4.3所述利用原文本行字符串内容标注弱监督地进行训练；若其中同时存在获得了伪标注信息的字符和未获得伪标注信息的字符，则利用已经获得伪标注信息的字符伪监督地进行训练，并利用未获得伪标注信息的字符方法通过弱监督进行训练，即先将输入的带有伪标注的训练样本视为带有全标注的合成数据，如步骤S4.2所述利用这些伪标注信息全监督地进行训练，但在反向传播损失时只反向传播已标注字符所产生的损失，后如步骤S4.3所述利用原文本行字符串内容标注弱监督地进行训练，但在反向传播损失时只反向传播未标注字符所产生的损失；

S6.2、每完成一轮次训练，重新利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注，并通过比较两次伪标注内容各个字符的预测置信度来用重新生成的伪标注内容补充原伪标注内容，即对重新生成的伪标注中的字符，若其预测置信度高于原伪标注内容中相应字符的预测置信度，或原伪标注内容无此字符的伪标注信息，则用重新生成的伪标注中该字符的伪标注信息更新原伪标注相应字符的伪标注信息；

S6.3、重复步骤S6.1以及S6.2直至完成全部训练量。在本实施例中全部训练量设置为对自然场景文本图像训练数据进行20轮次训练。

S7、将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注，包括以下步骤：

S7.1、对于待标注自然场景文本行图像，保持图像长宽比不变，利用双线性插值法将短边固定到设定大小hs进行缩放，并输入至弱监督实例分割模型中；在本实施例中hs设置为64；

S7.2、按照和步骤S4.3完全一致的方法获取弱监督实例分割模型对输入图像的预测结果。

S7.3、将待标注自然场景文本行图像及得到各字符的像素级预测结果，利用双线性插值的方法缩放回原始大小，同时将得到各字符的字符框预测结果乘以该缩放倍数，即得到对该图像的字符级和像素级自动标注结果。

本发明的自然场景文本图像字符像素弱监督自动标注方法的效果如图7所示。

如图8所示，在本申请的另一个实施例中，提供了一种自然场景文本图像字符像素弱监督自动标注系统，该系统包括预处理模块、模型构建模块、第一训练模块、伪标注生成模块、第二训练模块以及自动标注模块；

所述模型构建模块用于构建弱监督实例分割模型；

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，该系统是应用于上述实施例的自然场景文本图像字符像素弱监督自动标注方法。

如图9所示，在本申请的另一个实施例中，还提供了一种存储介质，存储有程序，所述程序被处理器执行时，实现自然场景文本图像字符像素弱监督自动标注方法，具体为：

S2、生成文本行图像的合成数据；

S3、构建弱监督实例分割模型；

S4、利用训练样本和合成数据训练弱监督实例分割模型；

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.自然场景文本图像字符像素弱监督自动标注方法，其特征在于，包括下述步骤：

收集自然场景文本行图像并进行预处理，得到训练样本；

生成文本行图像的合成数据；

构建弱监督实例分割模型；

利用训练样本和合成数据训练弱监督实例分割模型，具体包括以下步骤：

将合成数据与训练样本按照随机批次顺序输入到弱监督实例分割模型中训练；

对于输入的合成数据，利用其标注全监督地训练弱监督实例分割模型，包括以下步骤：

其中，x₀和y₀是字符框中心点坐标，x和y是图像上某一点的坐标，K(x,y)是高斯热图在该点的值的大小；在高斯热图1中取值为0.09，/>取值为0.09，在高斯热图2中/>取值为0.36，/>取值为0.36，w和h分别是字符框的宽、高尺寸；

利用生成的高斯热图2和弱监督区域提议网络输出的注意力热图预测结果计算二值交叉熵损失Lattn并为Lattn乘以权重(1c)，其中Pc是弱监督实例分割模型的基于解耦注意力机制的文本行识别器能够对输入图像正确识别为各标签字符的概率；

加权二值交叉熵损失的计算公式为：

将各损失结果加权加求和最为最终的损失结果，将损失结果反向传播以训练弱监督实例分割模型；

将各损失结果加权加求和最为最终的损失结果，并将该结果反向传播以训练弱监督实例分割模型；

利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注；

利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型；

将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型中得到像素级自动标注。

2.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法，其特征在于，

所述生成文本行图像的合成数据具体包括以下步骤：

重复上述步骤，直至得到目标数量的合成数据图片。

3.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法，其特征在于，所述构建弱监督实例分割模型具体包括以下步骤：

构建ResNet101-FPN结构；

4.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法，其特征在于，所述利用已完成训练的弱监督实例分割模型在训练样本上生成伪标注具体包括以下步骤：

5.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法，其特征在于，所述利用带有伪标注的训练样本和合成数据继续训练弱监督实例分割模型具体包括以下步骤：

重复上述步骤直至完成全部训练量。

6.根据权利要求1所述自然场景文本图像字符像素弱监督自动标注方法，其特征在于，所述将待标注自然场景文本行图像输入到已完成训练的弱监督实例分割模型得到像素级自动标注具体包括以下步骤：

7.自然场景文本图像字符像素弱监督自动标注系统，其特征在于，应用于权利要求1-6中任一项所述的自然场景文本图像字符像素弱监督自动标注方法，包括预处理模块、模型构建模块、第一训练模块、伪标注生成模块、第二训练模块以及自动标注模块；

所述模型构建模块用于构建弱监督实例分割模型；

8.一种存储介质，存储有程序，其特征在于：所述程序被处理器执行时，实现权利要求1-6任一项所述的自然场景文本图像字符像素弱监督自动标注方法。