CN113591719B

CN113591719B - 一种自然场景任意形状文本检测方法、装置和训练方法

Info

Publication number: CN113591719B
Application number: CN202110879151.9A
Authority: CN
Inventors: 路通; 宋小鸽; 王永攀; 杨志博
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2024-05-28
Anticipated expiration: 2041-08-02
Also published as: CN113591719A

Abstract

本文明公开了一种自然场景任意形状文本检测方法、装置和训练方法，所述检测方法包括如下步骤：获取含任意形状文本区域的自然场景图像并进行预处理；对预处理后图像提取多尺度特征图，并进行多尺度特征融合得到多尺度融合特征图，通过多尺度融合特征图卷积得到候选文本边界框，根据候选文本边界框得到文本实例分割图；对所述文本实例分割图做阈值筛选和连通域分析，得到文本边界框作为最终检测结果。本发明方法提高了自然场景任意形状文本检测的鲁棒性和准确性。

Description

一种自然场景任意形状文本检测方法、装置和训练方法

技术领域

本发明涉及计算机视觉领域、深度学习技术领域，尤其涉及一种自然场景任意性症状文本检测方法、装置和训练方法。

背景技术

自然场景文本检测应用范围广泛，是很多计算机视觉任务如图像理解、机器人操控、图像检索及其他实际应用的重要前置步骤。自然场景任意形状文本检测的主要目的是定位文本行或字符再自然场景图像中的位置，随着深度学习的兴起，出现了大量专用于多角度文本检测的方法，但是针对弯曲形变文本或大间隔文本应用场景，以及文本较为密集而背景较为复杂的应用场景，如街景中弯曲的招牌、艺术字等，因文本行之间拥有变化较多的形状，且间距小，此时容易将多个邻近的文本实例检测为同一文本框，或无法完整检测出弯曲文本，从而生成对文本边缘贴合不紧密的边界框，降低了文本检测的准确率。

发明内容

针对现有技术的不足，本发明首先提供了一种基于二阶段实例分割的自然场景任意形状文本检测方法，其特征在于，包括如下步骤：

步骤1，获取含任意形状文本区域的自然场景图像并进行预处理；

步骤2、对预处理后图像提取多尺度特征图，并对多尺度特征图进行多尺度特征融合得到多尺度融合特征图，通过多尺度融合特征图卷积得到候选文本边界框，根据候选文本边界框的位置和大小分别在多尺度融合特征图上对应位置抠取局部特征，然后将多尺度融合特征图上抠取的局部特征逐像素相加进行融合增强得到增强局部特征图，再对增强局部特征图做卷积和双线性插值上采样操作得到文本实例分割图；

步骤3、对所述文本实例分割图做阈值筛选和连通域分析，得到文本边界框作为最终检测结果。

其次，本发明还提供了一种基于二阶段实例分割的自然场景任意形状文本检测装置，其特征在于包括：

图像预处理模块，用于获取含任意形状文本区域的自然场景图像并进行预处理；

任意形状文本实例分割网络，用于对预处理后图像提取多尺度特征图，并对多尺度特征图进行多尺度特征融合得到多尺度融合特征图，通过多尺度融合特征图卷积得到候选文本边界框，根据候选文本边界框的位置和大小分别在多尺度融合特征图上对应位置抠取局部特征，然后将多尺度融合特征图上抠取的局部特征逐像素相加进行融合增强得到增强局部特征图，再对增强局部特征图做卷积和双线性插值上采样操作得到文本实例分割图；

后处理模块，用于对所述文本实例分割图做阈值筛选和连通域分析，得到文本边界框作为最终检测结果。

最后，本发明还提供了一种基于半监督学习的自然场景任意形状文本检测装置训练方法，其特征在于包括如下步骤：

获取监督训练数据，所述监督训练数据包括有标签样本图像和标签数据，所述有标签样本图像包含文本区域的自然场景图像且其文本区域标签为人工标定的所述标签数据，所述标签数据包括所述样本图像中各个文本实例的文本边界框标签和实例分割掩膜标签；

获取待训练任意形状文本实例分割网络；

将所述监督训练数据分割为训练集和验证集，利用所述训练集训练所述待训练任意形状文本实例分割网络，使用验证集确定所述后处理模块中阈值筛选所使用的最佳阈值，得到包含图像预处理模块、初始任意形状文本实例分割网络及初始后处理模块的初始自然场景任意形状文本检测装置；

获取无标签样本图像，所述无标签样本图像即自然场景任意形状文本图像且其文本区域未经人工标定文本边界框和实例分割掩膜标签；

利用初始自然场景任意形状文本检测装置对所述无标签样本图像进行文本检测，获取所述无标签样本图像的软标签数据；

获取增广训练数据，利用所述增广训练数据再次训练所述初始任意形状文本实例分割网络，并使用验证集得到所述后处理模块中阈值筛选所使用的最佳阈值，得到最终的后处理模块，获得包含图像预处理模块、最终的任意形状文本实例分割网路及最终的后处理模块所构成的最终的自然场景任意形状文本检测装置。

由于采用以上技术方案，本发明具有以下优点：

1、本发明提出一种基于二阶段实例分割的自然场景任意形状文本检测方法，通过实例分割实现的像素级别分类，能够为任意形状(包括多方向、弯曲、弧形)文本生成贴合其自然边缘的分割结果，提高检测精度，与以往单纯基于目标检测的文本检测方法相比，更容易方便检测任意形状文本，所获得的检测结果也能够减少背景因素的干扰；其次，我们的检测方法能够通过候选文本边界框设置很好地区分相邻文本实例，与其他基于语义分割的方法相比较，得到的检测结果鲁棒性更高；

2、本发明提出一种基于二阶段实例分割的自然场景任意形状文本检测装置，它包含依次连接的多尺度特征提取网络、多尺度特征融合增强模块和实例分割模块。其中多尺度特征提取网络与多尺度特征融合增强模块共同作用，将多尺度特征图融合增强得到多尺度融合特征图，使网络能够充分利用高级语义特征和底层特征细节，提高网络预测的鲁棒性，增强网络的表达能力；实例分割模块中根据候选文本边界框的位置和大小在多尺度融合特征图上抠取对应特征，并增强这些特征，结合卷积操作和全连接层操作得到文本实例分割图，实验证明我们的这种融合增强策略能够稳定提升装置的检测精度，在验证实验中较基线结果平均提升0.5F1-measure及以上。

3、本发明还提出了一种基于半监督学习的自然场景任意形状文本检测装置训练方法，该训练方法首先在监督训练数据上训练所述任意形状文本检测装置得到初始任意形状文本检测装置，再使用初始任意形状文本检测装置通过所述自然场景任意形状文本检测方法在无标签样本图像上完成检测，得到无标签样本图像的软标签数据，利用无标签样本图像、软标签数据在不需要人工额外标注的前提下增广训练数据，并利用增广训练数据再次训练所述初始任意形状文本检测装置得到最终的任意形状文本检测装置。这种增广训练数据丰富了训练数据的多样性，能够可以弥补因有标签图像数据较少造成的检测装置泛用性不足问题，提升检测装置对各种复杂自然场景的鲁棒性，同时这种增广训练数据的方法能够显著降低标注训练数据的人工成本。

附图说明

此处的附图并入说明书并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理和技术方案。为了使本发明的目的、技术方案和有益效果更加清楚，下面将对实施例中所需要使用的附图作简单地介绍：

图1为本发明实施例的一种基于二阶段实例分割的自然场景任意形状文本检测方法流程图；

图2为本发明实施例的一种基于二阶段实例分割的自然场景任意形状文本检测装置结构图；

图3为本发明实施例的多尺度特征融合增强模块结构示意图；

图4为本发明实施例的实例分割模块结构示意图；

图5为本发明实施例的一种基于半监督学习的自然场景任意形状文本检测装置训练方法的流程图。

具体实施方式

为了能够更清楚地解释本发明的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本发明，本发明还可以采用其他不同于此描述的方式来实施；显然，说明书中所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。

图1为本发明提供的一种基于二阶段实例分割的自然场景任意形状文本检测方法流程图，如图所示，所述方法包括如下步骤：

步骤1：获取含任意形状文本区域的自然场景图像，利用图像预处理模块对所述图像做缩放、归一化等操作，得到预处理后图像；

首先，获取含任意形状文本区域的自然场景图像，这里的图像可以是监督训练数据中的有标签样本图像，也可以是无标签样本图像；

在一些实施例中，可以根据有标签样本图像及其对应的文本边界框标签生成对应的实例分割掩膜标签。本实施例所使用的实例分割掩膜标签生成方法是按照有标签样本图像的文本边界框标签，将由文本边界框包围的区域像素值置为1，其他区域像素值置为0，所得到的与所述有标签样本图像大小一致的二值化图像即为实例分割掩膜标签；

随后，对所述含任意形状文本区域的自然场景图像，做缩放、归一化等操作。当所述图像为监督训练数据中的有标签样本图像，则所述缩放、归一化等操作按操作顺序为按比例随机缩放，其中缩放比例为0.8、0.9、1.0、1.1，1.2五个数值中随机选取；有随机裁剪，其中裁剪比例为0.8，裁剪后统一缩放到640x640尺度；有随机水平翻转，其中翻转概率为0.5；有归一化操作，归一化操作指将所述图像各像素点值减去均值后除以标准差，此处均值及标准差均为ImageNet数据集的均值和标准差。当所述图像为无标签样本图像时，仅归一化操作与有标签样本图像相同，缩放操作为将图像缩放至短边800，长边按比例缩放的尺度；

步骤2：用多尺度特征提取网络及多尺度特征融合增强模块，处理步骤1所得到的图像得到多尺度融合特征图，进一步卷积得到候选文本边界框，根据候选文本边界框获得增强局部特征图并输出文本实例分割图。

首先，将经步骤1处理后的图像输入多尺度特征提取网络，获得多尺度特征图P₂，P₃,P₄，P₅；将多尺度特征图输入多尺度特征融合增强模块，所述多尺度特征融合增强模块包含金字塔特征增强模块和轻量级自底向上特征融合模块，得到多尺度融合特征图P″′₂，P″′₃，P″′₄，P″′₅，P″′₆和P″′₇；

其次，将多尺度融合特征图输入实例分割模块，先通过共享的3x3卷积操作得到候选文本边界框，随后根据候选文本边界框的位置和大小分别在多尺度融合特征图P″′₂，P″′₃，P″′₄，P″′₅，P″′₆和P″′₇上抠取其所对应的局部特征，并将局部特征双线性插值缩放到14x14固定尺寸做逐像素取最大值融合得到增强局部特征图；在增强局部特征图上做4组1x1卷积，且取第三个1x1卷积后得到的特征图做全局最大值池化操作，并使用全连接层得到新的特征向量，将这一特征向量做维度扩充与第三个1x1卷积后得到的特征图做逐像素相加融合，融合后的特征图最后经一个1x1卷积和一个双线性插值上采样操作得到通道数为2的实例分割图。

步骤3：通过后处理模块，对步骤2得到的文本实例分割图做阈值筛选及连通域分析等后处理，得到文本边界框。

步骤2所得到的文本实例分割图为0-1之间的概率图，阈值筛选指选取某个概率值为阈值将概率图二值化，如取默认阈值为0.5，则将概率图上概率值大于等于0.5的像素认为是文本实例的像素，置为1，将概率值小于0.5的像素认为是背景像素，置为0；随后做连通域分析，获得各文本实例在其候选文本边界框范围内的文本像素最大连通域结果，取最大连通域的最小四边形包围框或提取其边缘上的边缘点，构成文本边界框。

图2为本发明实施例的一种基于二阶段实例分割的自然场景任意形状文本检测装置结构图，如图所示，所述检测装置包含如下结构：

结构1：图像预处理模块，该模块用于对输入的自然场景任意形状文本图像做预处理；

具体而言，图像预处理模块包含随机缩放、随机裁剪、随机水平翻转、按比例缩放和归一化模块。当输入图像为监督训练数据中的有标签样本图像时，依次执行随机缩放、随机裁剪、随机水平翻转和归一化操作；当输入图像为无标签样本图像时，依次执行按比例缩放和归一化操作。

结构2：任意形状文本实例分割网络，该网络包含依次连接的多尺度特征提取网络、多尺度特征融合增强模块和实例分割模块，用于接收经结构1处理得到的图像并输出文本实例分割图。

任意形状文本实例分割网络包含三个依次连接的子模块，分别是多尺度特征提取网络、多尺度特征融合增强模块和实例分割模块。多尺度特征提取网络接受经结构1处理得到的图像作为输入，并输出对应的多尺度特征图；多尺度特征融合增强模块包括金字塔增强模块和轻量级自底向上多尺度特征融合模块，金字塔增强模块接收多尺度特征图作为输入，通过线性插值上采样和卷积操作得到多尺度中间结果特征图，轻量级自底向上多尺度特征融合模块接收多尺度中间结果特征图作为输入，通过下采样和卷积操作得到多尺度融合特征图。实例分割模块接收多尺度融合特征图作为输入，首先通过卷积操作得到候选文本边界框，随后根据候选文本边界框提供的大小和位置信息，在多尺度融合特征图上获取增强局部特征图，再通过卷积操作在增强局部特征图上得到文本实例分图。

结构3：后处理模块，后处理模块包含阈值筛选和连通域分析两个依次相连的子模块，阈值分析用于对结构2输出的文本实例分割图做二值化，得到取值为1的文本像素和取值为0的背景像素；连通域分析用于获取文本实例区域，并通过取文本实例区域的最小四边形边界框或边缘点得到文本边界框。

图3为本发明的多尺度特征融合增强模块结构示意图，如图所示，多尺度特征融合增强模块包括：

结构3-1：特征金字塔增强模块，特征金字塔增强模块包含一组3x3优化卷积、一组3x3融合卷积和一组双线性插值操作。对于多尺度特征提取网络输出的多尺度特征图P₂，P₃,P₄，P₅，金字塔特征增强模块首先对P₂，P₃,P₄，P₅分别做一次卷积操作平滑，得到平滑后的特征图P′₂,P′₃,P′₄，P′5，而后自顶向下使用双线性插值扩展上一层平滑后的特征图并与当前层平滑后的特征图逐像素相加融合，得到多尺度中间结果特征图P″₂，P″₃，P″₄，P″₅，对P″₅做下采样得到尺度为输入图像1/64的P″₆及尺度为输入图像1/128的P″₇；

结构3-2：轻量级自底向上多尺度特征融合模块，该模块包含下采样和自底向上特征金字塔。对多尺度中间结果特征图，先通过卷积操作对P″₂，P″₃，P″₄，P″₅和P″₆做下采样，再将下采样结果和多尺度中间结果特征图进行逐像素相加融合后做卷积操作平滑，获取多尺度融合特征图P″′₂，P″′₃，P″′₄，P″′₅，P″′₆和P″′₇，其中需特别注意的是，P″′₂是多尺度中间结果特征图P″₂经过一个3x3卷积得到，P″′₃，P″′₄，P″′₅，P″′₆,P″′₇为多尺度中间结果特征图P″₂，P″₃，P″₄，P″₅，P″₆做下采样后与P″₃，P″₄，P″₅和P″₆，P″₇逐像素相加融合后再经过一个3x3卷积得到的结果。

图4为本发明的实例分割模块结构示意图，如图所示，实例分割模块包含：

结构4-1：在多尺度融合特征图上共享滑动的3x3卷积，用于回归得到正矩形的候选文本边界框，其输出包括候选文本边界框的置信度和偏移；

结构4-2：获取增强局部特征图。对候选文本边界框做非极大值抑制，根据候选文本边界框位置和大小，分别在多尺度融合特征图P″′₂，P″′₃，P″′₄，P″′₅，P″′₆和P″′₇上抠取其所对应的局部特征，并将局部特征缩放到14x14固定尺寸做逐像素取最大值融合得到增强局部特征图；

结构4-3：用于生成实例分割图的全连接层、4组1x1卷积和双线性插值上采样。在增强局部特征图上做4组1x1卷积，且取第三个1x1卷积后得到的特征图做全局最大值池化操作，并使用全连接层得到新的特征向量，将这一特征向量做维度扩充与第三个1x1卷积后得到的特征图做逐像素相加融合，融合后的特征图最后经一个1x1卷积和一个双线性插值上采样操作得到通道数为2的实例分割图。

图5为本发明的实施例中一种基于半监督学习的自然场景任意形状文本检测装置训练方法的流程图，如图所示，其训练流程具体说明如下：

流程1：获取监督训练数据，并划分训练集和验证集。监督训练数据包括有标签样本图像、文本边界框标签与文本实例掩膜标签，其中所述有标签样本图像为包含任意形状文本区域的自然场景图像，且其中文本区域均有对应的文本边界框标签和文本实例掩膜标签。

流程2：训练获取初始自然场景任意形状文本检测装置；根据所述训练集，将训练集中的有标签样本图像输入至待训练任意形状文本实例分割网络，获取所述有标签样本图像的多个所述候选文本边界框和所述文本实例分割图；根据文本边界框标签、实例分割掩膜标签、候选文本边界框及文本实例分割图计算所述回归损失和分割损失，反向传播回归损失和分割损失，迭代至模型收敛，得到初始任意形状文本实例分割网络与初始任意形状文本检测装置；

其中，所述装置中的图像预处理模块依次执行随机缩放、随机裁剪、随机水平翻转和归一化操作。

回归损失使用的是Smooth L1 Loss损失，其计算方式可参考Mask R-CNN中所使用的回归损失；分割损失使用的是Dice Loss，其详细计算方式可参考VNet中的介绍。

模型收敛后得到初始任意形状文本实例分割网络，在验证集上确定所述后处理模块中阈值分析的最佳阈值得到初始后处理模块，结合初始任意形状文本实例分割网络和初始后处理模块得到初始自然场景任意形状文本检测装置。

流程3：获取无标签样本图像，并利用流程2得到的初始自然场景任意形状文本检测装置为其生成软标签数据。

其中，所述装置中的图像预处理模块仅使用按比例缩放和归一化操作；后处理模块中的阈值筛选使用流程2中的方式得到最佳阈值。

流程4：获取增广训练数据，所述增广训练数据为所述无标签样本图像与其对应所述软标签数据和监督训练数据中的训练集按1：2混合得到。

流程5：根据所述增广训练数据，再次训练所述初始任意形状文本实例分割网络，得到最终的任意形状文本实例分割网络。

其中，训练过程与流程2所描述一致。模型收敛后，在验证集上验证模型的性能，并取性能最好的阈值作为后处理模块中阈值分析的缺省值，得到最终的后处理模块，结合图像预处理模块、最终的任意形状文本实例分割网络和最终的后处理模块，得到最终的自然场景任意形状文本检测装置。

综上所述，本发明公开的一种基于二阶段实例分割的自然场景任意形状文本检测方法、装置和训练方法中，方法通过获取文本实例分割图并在此基础上获取其最小四边形包围框或边缘点得到任意形状文本的文本边界框，能够支持任意形状文本的检测。同时，本发明提出一种基于二阶段实例分割的自然场景任意形状文本检测装置，其中多尺度特征提取网络与多尺度特征融合增强模块共同作用，使网络能够充分利用高级语义特征和底层特征细节，提高网络预测的鲁棒性，增强网络的表达能力。而本发明提出的一种基于半监督学习的自然场景任意形状文本检测装置训练方法，该训练方法能够生成增广训练数据，丰富训练数据的多样性，可以弥补因有标签图像数据较少造成的检测装置泛用性不足问题，提升检测装置对各种复杂自然场景的鲁棒性，同时这种增广训练数据的方法能够显著降低标注训练数据的人工成本。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机电子设备(可以是个人计算机，服务器，或者网络电子设备等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够"、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供一种基于二阶段实例分割的自然场景任意形状文本检测方法、装置和训练方法的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种基于半监督学习的自然场景任意形状文本检测装置的训练方法，所述自然场景任意形状文本检测装置包括：

任意形状文本实例分割网络，用于对预处理后图像提取多尺度特征图，并进行多尺度特征融合得到多尺度融合特征图，通过多尺度融合特征图卷积得到候选文本边界框，根据候选文本边界框的位置和大小分别在多尺度融合特征图上对应位置抠取局部特征，然后将多尺度融合特征图上抠取的局部特征逐像素相加进行融合增强得到增强局部特征图，再对增强局部特征图做卷积和双线性插值上采样操作得到文本实例分割图；

后处理模块，用于对所述文本实例分割图做阈值筛选和连通域分析，得到文本边界框作为最终检测结果；

其特征在于，所述训练方法包括如下步骤：

获取待训练任意形状文本实例分割网络；

将所述监督训练数据分割为训练集和验证集，利用所述训练集训练所述待训练任意形状文本实例分割网络，并使用验证集确定所述后处理模块的阈值，得到初始任意形状文本实例分割网络及初始后处理模块，结合所述图像预处理模块、所述初始任意形状文本实例分割网络及所述初始后处理模块得到初始自然场景任意形状文本检测装置；

获取增广训练数据，利用所述增广训练数据再次训练所述初始任意形状文本实例分割网络，并使用验证集重新确定所述后处理模块的阈值，得到最终的任意形状文本实例分割网络与最终的后处理模块，结合图像预处理模块、最终的任意形状文本实例分割网络及最终的后处理模块得到最终的自然场景任意形状文本检测装置。

2.根据权利要求1所述的训练方法，其特征在于，所述标签数据包括所述样本图像中各个文本实例的文本边界框标签和实例分割掩膜标签，

所述文本边界框标签为矩形框标签，或多方向四边形标签，或14边缘点任意形状标签，或任意个数边缘点构成的不自相交形状标签；

所述实例分割掩膜标签为一组与所述有标签样本图像相同尺度的二值化分割图，其中每张二值化分割图仅与所述有标签样本图像中的一个文本实例相对应，二值化分割图中所述文本实例区域像素取值为1，其余区域像素取值为0；

所述实例分割掩膜标签为根据所述文本边界框标签自动生成，所述文本实例区域为文本实例对应的以所述文本边界框标签为边缘的连通域范围。

3.根据权利要求1所述的训练方法，其特征在于，利用所述训练集训练所述待训练任意形状文本实例分割网络，并使用验证集确定所述后处理模块的阈值，得到初始任意形状文本实例分割网络及初始后处理模块，结合所述图像预处理模块、所述初始任意形状文本实例分割网络及所述初始后处理模块得到初始自然场景任意形状文本检测装置，包括：

将所述监督训练数据按1：3分割成验证集和训练集；

利用所述图像预处理模块对所述训练集中的有标签样本图像进行预处理；

根据所述待训练任意形状文本实例分割网络，对经图像预处理模块处理后的所述有标签样本图像生成对应的所述文本边界框和所述文本实例分割图；

根据所述文本边界框标签和实例分割掩膜标签，分别对所述候选文本边界框计算回归损失和分割损失，回归损失函数包括分类损失和Smooth L1损失，文本分割损失为DiceLoss损失，根据所述回归损失和分割损失加权求和得到总损失函数，根据所述总损失函数的反向传播训练所述待训练任意形状文本实例分割网络得到初始任意形状文本实例分割网络；

根据验证集和F1-Measure验证所述初始任意形状文本实例分割网络的性能，根据所述F1-Measure中的最高分确定后处理模块的阈值筛选得到初始后处理模块；

根据所述图像预处理模块、所述初始任意形状文本实例分割网络和所述初始后处理模块构成所述初始自然场景任意形状文本检测装置。

4.根据权利要求1所述的训练方法，其特征还在于，利用初始自然场景任意形状文本检测装置对所述无标签样本图像进行文本检测，获取所述无标签样本图像的软标签数据，包括：

获取无标签样本图像的文本边界框，并根据所述文本边界框获得对应的实例分割掩膜标签，所述文本边界框与所述实例分割掩膜标签即为所述软标签数据。

5.根据权利要求1所述的训练方法，其特征还在于，获取增广训练数据，利用所述增广训练数据再次训练所述初始任意形状文本实例分割网络，并使用验证集重新确定所述后处理模块的阈值，得到最终的任意形状文本实例分割网络与最终的后处理模块，结合图像预处理模块、最终的任意形状文本实例分割网络及最终的后处理模块得到最终的自然场景任意形状文本检测装置，包括：

利用所述图像预处理模块对所述增广训练数据中混合的有标签样本图像和无标签样本图像进行预处理；

利用所述增广训练数据再次训练所述初始任意形状文本实例分割网络，计算回归损失和分割损失得到总损失函数，通过反向传播总损失函数训练所述初始任意形状文本实例分割网络得到最终的任意形状文本实例分割网络；

根据有标签训练数据中的验证集重新确定所述初始后处理模块阈值筛选所用参数，得到最终的后处理模块；

根据所述图像预处理模块、所述最终的任意形状文本实例分割网络和所述最终的后处理模块，构成最终的自然场景任意形状文本检测装置。