CN113361521B

CN113361521B - 场景图像的检测方法及其装置

Info

Publication number: CN113361521B
Application number: CN202110649746.5A
Authority: CN
Inventors: 陶大程; 叶健
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2024-04-09
Anticipated expiration: 2041-06-10
Also published as: CN113361521A

Abstract

本申请提出了一种场景图像的检测方法及其装置，涉及图像处理领域。该方法包括获取携带至少一个文本实例的场景图像，并从场景图像中获取文本实例的文本区域特征；对每个文本区域特征进行文本间特征融合处理，获取每个文本区域特征对应的增强文本区域特征；基于增强文本区域特征进行掩模预测，获取增强文本区域特征对应的文本实例的文本轮廓。本申请提取了文本实例的完整文本区域特征，可以解决文本内部空隙造成的断裂而存在检测不准确的问题，并且文本区域特征进行文本间进行特征融合，提取到文本实例之间的相互依赖关系，从而生成鲁棒性更好的文本特征表示，以实现复杂背景下可靠的高精度文本检测。

Description

场景图像的检测方法及其装置

技术领域

本申请涉及图像处理领域，尤其涉及一种场景图像的检测方法及其装置。

背景技术

对于给定的自然场景图像，对其进行文本区域的检测定位，可以帮助我们有效提取包含丰富语言信息的文本用于下游任务。相关技术中，当文本内部的字符存在大面积的空隙或极端的错位时，文本检测模型可能生成断裂的文本框。通过现有的端到端检测模型来检测图像中的所有文本实例，将每个文本视为单独的实例，没有建模实例之间存在的上下文依赖关系，会导致文本检测结果不准确。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种场景图像的检测方法。

本申请的第二个目的在于提出一种场景图像的检测装置。

本申请的第三个目的在于提出一种电子设备。

本申请的第四个目的在于提出一种非瞬时计算机可读存储介质。

本申请的第五个目的在于提出一种计算机程序产品。

为达上述目的，本申请第一方面实施例提出了一种场景图像的检测方法，包括：获取携带至少一个文本实例的场景图像，并从所述场景图像中获取所述文本实例的文本区域特征；对每个所述文本区域特征进行文本间特征融合处理，获取每个所述文本区域特征对应的增强文本区域特征；基于所述增强文本区域特征进行掩模预测，获取所述增强文本区域特征对应的所述文本实例的文本轮廓。

本申请中从场景图像中可以提取文本实例的文本区域特征，能够使得从场景图像上提取的特征中不仅包括字符的语义特征，还包括空隙的语义特征，即可以提取到文本实例的完整文本框，不再因为空隙的语义特征的缺失而出现文本框断裂的问题。进一步地，由于文本实例之间在背景、颜色、字体或者尺寸等方面存在依赖关系，本申请中通过文本实例的文本区域特征进行文本间的特征融合，能够提取到包括不同文本实例之间的相互依赖关系的增强文本区域特征，使其成为具有鲁棒性更好的文本特征表示，进而可以实现复杂不同复杂背景下可靠的高精度文本检测。

根据本申请的一个实施例，所述从所述场景图像中获取所述文本实例的文本区域特征，包括：对所述场景图像进行特征提取，获取所述场景图像的语义特征图；根据所述语义特征图，获取所述文本区域特征。

根据本申请的一个实施例，所述对所述场景图像进行特征提取，获取所述场景图像的语义特征图，包括：对所述场景图像进行多个尺度上的特征提取，获取尺度不同的多个所述语义特征图。

根据本申请的一个实施例，所述根据所述语义特征图，获取所述文本区域特征，包括：对所述语义特征图进行卷积处理，获取所述语义特征图对应的优化特征图；从所述优化特征图中提取所述文本实例的文本区域特征。

根据本申请的一个实施例，所述对所述语义特征图进行卷积处理，获取所述语义特征图对应的优化特征图，包括：将所述语义特征图输入对应的文本内协同学习网络中的卷积单元中进行卷积处理，以输出所述语义特征图对应的所述优化特征图，其中，所述卷积单元包括多个级联的卷积模块，每个所述卷积模块包括一个水平卷积层、竖直卷积层和标准卷积层。

根据本申请的一个实施例，所述文本内协同学习模型还包括残差单元，所述方法还包括：将所述语义特征图经过所述残差单元后，再与所述卷积单元输出的特征图进行相加，生成所述优化特征图。

根据本申请的一个实施例，所述对每个所述文本区域特征进行文本间特征融合处理，获取所述文本区域特征对应的增强文本区域特征，包括：生成每个所述文本区域特征对应的第一特征向量，由所有的所述第一特征向量生成一个第一文本特征序列，基于所述第一文本特征序列，获取所述文本区域特征对应的增强文本区域特征。

根据本申请的一个实施例，所述生成每个所述文本区域特征对应的第一特征向量，由所有的所述第一特征向量生成一个第一特征序列，基于所述第一文本特征序列，获取每个所述文本区域特征对应的增强文本区域特征，包括：将所述文本区域特征输入分割检测模型中；由所述分割检测模型中的文本间协同学习网络中的降维单元，对所述文本特征进行降维处理生成降维文本区域特征，并对所述降维文本区域特征中的每个通道上的特征进行拼接，生成所述文本区域特征对应的第一特征向量；基于每个所述第一特征向量，生成所述第一特征序列，并将每个所述第一特征序列输入所述文本间协同学习网络中的第一自注意力编码器单元中，由所述第一自注意力编码器单元输出待增强文本区域特征；将所述待增强文本区域特征输入所述文本间协同学习模型中的特征结构重构单元中，由所述特征结构重构单元进行特征结构恢复，输出所述增强文本区域特征。

根据本申请的一个实施例，所述由所述分割检测模型中的文本间协同学习网络中的降维单元，对所述文本特征进行降维处理生成降维文本区域特征，包括：通过所述降维单元中的第一卷积层对每个所述文本区域特征进行卷积特征通道维度上的降维处理，获取所述文本区域特征对应的降维中间文本区域特征；通过所述降维单元中的池化层对所述降维中间文本区域特征进行分辨率维度上的降维处理，获取所述降维文本区域特征。

根据本申请的一个实施例，所述将所述待增强文本区域特征输出所述文本间协同学习网络中的特征结构重构单元中，由所述特征结构重构单元进行特征结构恢复，输出所述增强文本区域特征，包括：通过所述特征结构重构单元中的重塑层对所述待增强文本区域特征进行分辨率维度上的重构，生成重构文本区域特征；通过所述特征结构重构单元中的采样层和第二卷积层对所述重构文本区域特征进行卷积特征通道维度上的重构，生成所述增强文本区域特征。

根据本申请的一个实施例，所述基于每个所述增强文本区域特征进行掩模预测，获取所述增强文本区域特征对应的所述文本实例的文本轮廓包括：获取所述场景图像的全局上下文特征；对所述全局上下文特征、所述文本区域特征和所述增强文本区域特征进行融合，生成融合文本区域特征；对所述融合文本区域特征进行掩模预测，获取所述融合文本区域特征对应所述文本轮廓。

根据本申请的一个实施例，所述获取所述场景图像的全局上下文特征，包括：对所述场景图像的语义特征图进行上采样或下采样处理，生成采样特征图，对每个所述采样特征图进行融合，生成所述场景图像的全局特征；将所述全局特征中每个通道上的特征进行拼接，生成所述全局特征对应的第二特征向量；将所述第二特征向量输入第二自注意力编码器单元中，输出全局上下文特征。

根据本申请的一个实施例，所述从每个所述优化特征图中提取所述文本实例的文本区域特征，包括：获取所述文本实例的候选文本框；从所述优化特性图中，提取所述候选文本框所指示位置上的特征，并根据提取的所述特征，生成所述候选文本框对应的所述文本实例的文本区域特征。

根据本申请的一个实施例，所述获取所述文本实例的候选文本框，包括：将所述优化特性图输入区域候选网络RPN模型中，以提取所述文本实例的候选文本框。

根据本申请的一个实施例，所述场景图像的检测方法，还包括：训练过程中，每次训练结束时，获取所述RPN模型的第一损失函数、文本框检测模型的第二损失函数，以及分割检测模型的第三损失函数，其中，所述分割检测模型用于基于样本场景图像的增强文本区域特征进行掩模预测，所述文本框检测模型用于基于所述样本场景图像的文本区域特征进行候选文本框预测；基于所述第一损失函数、所述第二损失函数和所述第三损失函数，生成总损失函数，并基于所述总体损失函数对所述RPN模型、所述文本框检测网络和所述分割检测模型进行模型参数调整。

为达上述目的，本申请第二方面实施例提出了一种场景图像的检测装置，包括：区域特征获取模块，用于获取携带至少一个文本实例的场景图像，并从所述场景图像中获取所述文本实例的文本区域特征；特征融合模块，用于对每个所述文本区域特征进行文本间特征融合处理，获取每个所述文本区域特征对应的增强文本区域特征；文本轮廓获取模块，用于基于所述增强文本区域特征进行掩模预测，获取所述增强文本区域特征对应的所述文本实例的文本轮廓。

根据本申请的一个实施例，所述区域特征获取模块，还用于：对所述场景图像进行特征提取，获取所述场景图像的语义特征图；根据所述语义特征图，获取所述文本区域特征。

根据本申请的一个实施例，所述区域特征获取模块，还用于：对所述场景图像进行多个尺度上的特征提取，获取尺度不同的多个所述语义特征图。

根据本申请的一个实施例，所述区域特征获取模块，还用于：对所述语义特征图进行卷积处理，获取所述语义特征图对应的优化特征图；从所述优化特征图中提取所述文本实例的文本区域特征。

根据本申请的一个实施例，所述区域特征获取模块，还用于：将所述语义特征图输入对应的文本内协同学习网络中的卷积单元中进行卷积处理，以输出所述语义特征图对应的所述优化特征图，其中，所述卷积单元包括多个级联的卷积模块，每个所述卷积模块包括一个水平卷积层、竖直卷积层和标准卷积层。

根据本申请的一个实施例，所述区域特征获取模块，还用于：将所述语义特征图经过所述残差单元后，再与所述卷积单元输出的特征图进行相加，生成所述优化特征图。

根据本申请的一个实施例，所述特征融合模块，还用于：生成每个所述文本区域特征对应的第一特征向量，由所有的所述第一特征向量生成一个第一文本特征序列，基于所述第一文本特征序列，获取所述文本区域特征对应的增强文本区域特征。

根据本申请的一个实施例，所述特征融合模块，还用于：将所述文本区域特征输入分割检测模型中；由所述分割检测模型中的文本间协同学习网络中的降维单元，对所述文本特征进行降维处理生成降维文本区域特征，并对所述降维文本区域特征中的每个通道上的特征进行拼接，生成所述文本区域特征对应的第一特征向量；基于每个所述第一特征向量，生成所述第一特征序列，并将每个所述第一特征序列输入所述文本间协同学习网络中的第一自注意力编码器单元中，由所述第一自注意力编码器单元输出待增强文本区域特征；将所述待增强文本区域特征输入所述文本间协同学习模型中的特征结构重构单元中，由所述特征结构重构单元进行特征结构恢复，输出所述增强文本区域特征。

根据本申请的一个实施例，所述特征融合模块，还用于：通过所述降维单元中的第一卷积层对每个所述文本区域特征进行卷积特征通道维度上的降维处理，获取所述文本区域特征对应的降维中间文本区域特征；通过所述降维单元中的池化层对所述降维中间文本区域特征进行分辨率维度上的降维处理，获取所述降维文本区域特征。

根据本申请的一个实施例，所述特征融合模块，还用于：通过所述特征结构重构单元中的重塑层对所述待增强文本区域特征进行分辨率维度上的重构，生成重构文本区域特征；通过所述特征结构重构单元中的采样层和第二卷积层对所述重构文本区域特征进行卷积特征通道维度上的重构，生成所述增强文本区域特征。

根据本申请的一个实施例，所述文本轮廓获取模块，还用于：获取所述场景图像的全局上下文特征；对所述全局上下文特征、所述文本区域特征和所述增强文本区域特征进行融合，生成融合文本区域特征；对所述融合文本区域特征进行掩模预测，获取所述融合文本区域特征对应所述文本轮廓。

根据本申请的一个实施例，所述文本轮廓获取模块，还用于：对所述场景图像的语义特征图进行上采样或下采样处理，生成采样特征图，对每个所述采样特征图进行融合，生成所述场景图像的全局特征；将所述全局特征中每个通道上的特征进行拼接，生成所述全局特征对应的第二特征向量；将所述第二特征向量输入第二自注意力编码器单元中，输出全局上下文特征。

根据本申请的一个实施例，所述区域特征获取模块，还用于：获取所述文本实例的候选文本框；从所述优化特性图中，提取所述候选文本框所指示位置上的特征，并根据提取的所述特征，生成所述候选文本框对应的所述文本实例的文本区域特征。

根据本申请的一个实施例，所述区域特征获取模块，还用于：将所述优化特性图输入区域候选网络RPN模型中，以提取所述文本实例的候选文本框。

根据本申请的一个实施例，所述区域特征获取模块，还用于：训练过程中，每次训练结束时，获取所述RPN模型的第一损失函数、文本框检测模型的第二损失函数，以及分割检测模型的第三损失函数，其中，所述分割检测模型用于基于样本场景图像的增强文本区域特征进行掩模预测，所述文本框检测模型用于基于所述样本场景图像的文本区域特征进行候选文本框预测；基于所述第一损失函数、所述第二损失函数和所述第三损失函数，生成总损失函数，并基于所述总体损失函数对所述RPN模型、所述文本框检测网络和所述分割检测模型进行模型参数调整。

为达上述目的，本申请第三方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以实现如本申请第一方面实施例所述的场景图像的检测方法。

为达上述目的，本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于实现如本申请第一方面实施例所述的场景图像的检测方法。

为达上述目的，本申请第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本申请第一方面实施例所述的场景图像的检测方法。

附图说明

图1是本申请一个实施例的一种场景图像的检测方法的示意图；

图2是本申请另一个实施例的一种文本区域的示意图；

图3是本申请另一个实施例的一种场景图像的检测方法的示意图；

图4是本申请另一个实施例的一种场景图像的检测方法的示意图；

图5是本申请另一个实施例的一种文本内协同学习网络的结构示意图；

图6是本申请另一个实施例的一种场景图像的检测方法的示意图；

图7是本申请另一个实施例的一种场景图像的检测方法的示意图；

图8是本申请另一个实施例的一种分割检测模型的结构示意图；

图9是本申请另一个实施例的一种场景图像的示意图；

图10是本申请另一个实施例的一种文本间协同学习网络的结构示意图；

图11是本申请另一个实施例的一种场景图像的检测方法的示意图；

图12是本申请另一个实施例的一种场景图像的检测方法的示意图；

图13是本申请另一个实施例的一种场景图像的检测方法的示意图；

图14是本申请一个实施例的一种场景图像的检测系统的结构示意图；

图15是本申请另一个实施例的一种场景图像的检测方法的示意图；

图16是本申请一个实施例的一种场景图像的检测装置的示意图；

图17是本申请一个实施例的一种电子设备的示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

图1是根据本申请实施例一种场景图像的检测方法的示意图，如图1所示，该场景图像的检测方法，包括以下步骤：

S101，获取携带至少一个文本实例的场景图像，并从场景图像中获取文本实例的文本区域特征。

高精度文本检测对于自动驾驶、场景解析、工业自动化生产等领域有着重要的推动作用，作为文本识别的前驱步骤，定位指定自然场景图片的文字区域，可以帮助我们有效地提取包含丰富语言信息的文本。可选地，文本实例的场景图像应包含至少一个，该文本实例的场景图像由实施者所要检测文字的图像确定，比如说，文本实例的场景图像可以为交通指示牌、身份证件、试卷等。

其中，如图2所示，文本区域包括文本字符和字符间隙，为了解决文本内部因字符间隙造成的断裂检测的问题，需要提取到文本实例的整个文本区域的特征。本申请实施例中，对场景图像进行特征提取，获取场景图像的语义特征图，基于该语义特征图获取场景图像中文本实例的文本区域特征，其中，文本区域特征可以包括文本字符的语义特征和文本字符间隙的语义特征。

S102，对每个文本区域特征进行文本间特征融合处理，获取每个文本区域特征对应的增强文本区域特征。

一般情况下，在一个场景图像中文本实例之间往往在背景、颜色、字体或者尺寸等方面存在依赖关系，例如，背景相同、字符的颜色和字体相似等。为了提高文本检测的准确性，本申请实施例中，可以综合考虑文本实例间的上述依赖关系，即对文本区域特征通过特征融合的方式，以获取到增强文本区域特征，例如，当有多个文本区域特征时，可以对多个文本区域特征进行卷积或者全连接等操作，以生成各自的增强文本区域特征。本申请实施例中增强文本区特征可以携带文本实例之间的相互依赖关系，从而可以使其成为具有鲁棒性更好的文本特征表示，进而可以实现复杂不同复杂背景下可靠的高精度文本检测。S103，基于每个增强文本区域特征进行掩模预测，获取增强文本区域特征对应的文本实例的文本轮廓。

在获取到增强文本区域后，可以基于掩模(mask)预测模型，对文本实体进行分割，以检测出文本实体对应的文本区域的文本轮廓，具体实现方法为对mask进行像素级二分类，确定文本区域，然后将mask采样为图像大小(文本区域)，最后生成文本轮廓坐标点。

本申请实施例提出了一种场景图像的检测方法，通过获取携带至少一个文本实例的场景图像，并从场景图像中获取文本实例的文本区域特征；对每个文本区域特征进行文本间特征融合处理，获取每个文本区域特征对应的增强文本区域特征；基于增强文本区域特征进行掩模预测，获取增强文本区域特征对应的文本实例的文本轮廓。

本申请中从场景图像中可以提取文本实例的文本区域特征，该文本区域特征包括字符和字符间隙的语义特征，从而解决文本内部空隙造成的断裂检测的问题，进一步地，由于文本实例之间在背景、颜色、字体或者尺寸等方面存在依赖关系，本申请中通过文本实例的文本区域特征进行文本间的特征融合，能够提取到包括不同文本实例之间的相互依赖关系的增强文本区域特征，使其成为具有鲁棒性更好的文本特征表示，进而可以实现复杂不同复杂背景下可靠的高精度文本检测。

图3是根据本申请实施例一种场景图像的检测方法的示意图，如图3所示，从场景图像中获取文本实例的文本区域特征，包括：

S301，对场景图像进行特征提取，获取场景图像的语义特征图。

本申请实施例中，对需要获取文本的实例的场景图像进行多尺度特征提取，获取尺度不同的多个语义特征图。

作为一种可能的实现方式，在对需要获取文本的实例的场景图像进行多尺度特征提取时，可设置有特征提取层，可选地，各层特征图相对于原图的下采样倍数可分别为{4,8,16,32}，进而提取到的特征图也是尺寸不同的，特征提取层可分别表示为{P₂,P₃,P₄,P₅}。

可选地，多尺度特征提取的算法可以为特征金字塔算法(Feature PyramidNetworks，FPN)，所获取的多个语义特征图可以呈金字塔形状，其中，FPN可以较好的处理目标检测中的尺度变化问题，对于小目标检测具有很强的鲁棒性。

S302，根据语义特征图，获取文本实例的文本区域特征。

为了提取更精确的文本区域语义特征，获取文本实例的候选文本框，从语义特征图中，提取候选文本框所指示位置上的特征，并根据提取的特征，生成候选文本框对应的文本实例的文本区域特征，从而将文本实例的文本区域特征提取出来。

作为一种可能的实现方式，可以先对语义特征图进行卷积处理，获取语义特征图对应的优化特征图。现有的文本检测方法致力于学习文本内部字符区域的特征表示，但对于字符之间的空隙区域缺少关注，这样容易造成检测断裂。本申请实施例中，将每个文本实例由字符和字符间空隙组成，通过包含不同感受野的特征提取方式，可以采样包括文本实例中字符区域和空隙区域的语义特征图。进一步地，文本区域中字符和间隙之间存在上下文依赖关系，本申请实施例中，通过对多尺度特征提取后的每个语义特征图进行卷积处理，获取该语义特征图对应的包括文本实例的文本区域特征的优化特征图。其中，如图2所示，文本区域特征可包括文本字符的语义特征和文本字符间的空隙的语义特征。

通过卷积处理，本步骤实现了对文本内的协同学习，提取文本区域中字符和间隙之间的长期依赖关系，从而可以有效缓解由于文本实例中的间隙而导致的断裂检测问题。

进一步地，从优化特征图中提取文本实例的文本区域特征。为了提取更精确的文本区域语义特征，获取文本实例的候选文本框，从优化特征图中，提取候选文本框所指示位置上的特征，并根据提取的特征，生成候选文本框对应的文本实例的文本区域特征，从而将文本实例的文本区域特征提取出来。图4是根据本申请实施例一种场景图像的检测方法的示意图，如图4所示，对语义特征图进行卷积处理，获取语义特征图对应的优化特征图，包括以下步骤：

S401，将语义特征图输入对应的文本内协同学习网络中的卷积单元中进行卷积处理，以输出语义特征图对应的特征图。

如图2所示，不同于背景区域，字符由空隙隔开，空隙两侧被字符包围，这表明字符之间、空隙之间以及字符和空隙之间存在长范围依赖关系。根据这种依赖关系，学习文本内字符和间隙需要统一特征表示，本申请实施例提出由三个具有多种感受野的卷积单元级联而成的文本内协同学习网络。如图5所示，文本内协同学习网络由三个卷积单元级联而成，其中，卷积单元包括多个并行的卷积模块，每个卷积模块包括一个水平卷积层、竖直卷积层和标准卷积层。其中，水平卷积层大小可以为k×1、竖直卷积层大小可以为1×k，标准卷积层大小可以为k×k，将经多尺度特征提取后得到的语义特征图输入对应的文本内协同学习网络中的卷积单元中，输出语义特征图对应的特征图。

可选地，由于模块需要先学习字符和间隙之间的长程依赖关系，然后逐渐聚焦于字符或间隙的中心区域，以学习更完善的文本区域特征表示，本申请在第一个卷积子模块使用一个较大的卷积核，在随后的子模块中使用较小的卷积核。比如，图5是以水平卷积层、竖直卷积层和标准卷积层的k值的大小分别设置为7、5、3为例的文本内协同学习网络的示意图。

S402，将语义特征图经过残差单元后，再与卷积单元输出的特征图进行相加，生成优化特征图。

在文本内协同学习网络的标准卷积层后加入一个残差单元，将语义特征图输入残差单元中，再与卷积单元输出的特征图进行相加，将相加后的图像作为优化特征图。在本申请实施例中可以通过模型加入残差单元使得集成的模型变得更精确，有利于加快模型收敛。

本申请实施例可以利用文本区域中字符和间隙之间的长期依赖关系，隐式地学习字符和间隙的统一特征表示，因此，有效地缓解了由于文本实例中的间隙而导致的断裂检测问题。

图6是根据本申请实施例一种场景图像的检测方法的示意图，如图6所示，对每个文本区域特征进行文本间特征融合处理，获取文本区域特征对应的增强文本区域特征，包括以下步骤：

S601，生成每个文本区域特征对应的第一特征向量。一般上述获得的文本区域特征为特征矩阵，可以对特征矩阵进行处理，并且对特征矩阵中特征进行展开，生成每个文本区域特征对应的特征向量，作为第一特征向量

S602，由所有的第一特征向量生成一个第一文本特征序列。

S603，基于第一文本特征序列，获取文本区域特征对应的增强文本区域特征。

进一步地，将所有的第一特征向量进行拼接，生成一个文本特征序列，作为第一文本特征序列，基于第一文本特征序列，获取每个文本区域特征对应的增强文本区域特征。其中，由于第一文本特征序列包括了每个文本实体的文本区域特征，因此在该步骤中实现了文本间的协调学习，生成了增强文本区域特征，以便于后续目标检测。

本申请中通过文本实例的文本区域特征进行文本间的特征融合，能够提取到包括不同文本实例之间的相互依赖关系的增强文本区域特征，使其成为具有鲁棒性更好的文本特征表示，进而可以实现复杂不同复杂背景下可靠的高精度文本检测。

图7是根据本申请实施例一种场景图像的检测方法的示意图，如图7所示，生成每个文本区域特征对应的第一特征向量，并由所有的第一特征向量生成一个第一特征序列，基于第一文本特征序列，获取每个文本区域特征对应的增强文本区域特征，包括以下步骤：

S701，将文本区域特征输入分割检测模型中。

如图8所示，分割检测模型80中包括文本间协同学习网络810、掩模预测网络820、全局上下文提取网络830、区域特征提取网络840和原语义特征图融合模块850。如图9所示，由于一张图片上的不同文本实例存在一定的相互联系，如共享同一背景，具有相似的颜色、尺度、字体等。相比于单个文本的个体学习，协同学习文本实例之间的相互联系有利于降低识别目标的学习难度，提取到文本和背景之间的一致性差异。本申请实施例中，将文本区域特征输入预先设置的分割检测模型中。可选地，文本区域特征可包括文本字符特征和文本字符间的空隙特征。

S702，由分割检测模型中的文本间协同学习网络中的降维单元，对文本特征进行降维处理生成降维文本区域特征，并对降维文本区域特征中的每个通道上的特征进行拼接，生成文本区域特征对应的第一特征向量。

如图10所示，上述分割检测模型中的文本间协同学习网络820包括降维单元821、第一自注意力Transformer编码器单元822和特征结构重构单元823。其中，降维单元821包括第一卷积层和池化层，第一自注意力Transformer编码器单元822包括多个Transformer编码器，特征结构重构单元823包括重塑层、采样层和第二卷积层。可选地，由该降维单元对文本特征进行降维处理，生成降维文本区域特征，如图11所示，包括以下步骤：

S111，通过降维单元中的第一卷积层对每个文本区域特征进行卷积特征通道维度上的降维处理，获取文本区域特征对应的降维中间文本区域特征。

将上述每个文本区域特征输入第一卷积层中，第一卷积层对每个文本区域特征进行卷积特征通道维度上的降维处理，获取文本区域特征对应的降维中间文本区域特征。其中，第一卷积层的卷积核可设置为1×1，可将卷积特征通道维度从预设值C降低到C₀。可选地，卷积特征通道维度C可设置为256，卷积特征通道维度C₀可设置为64。

S112，通过降维单元中的池化层对降维中间文本区域特征进行分辨率维度上的降维处理，获取降维文本区域特征。

将上述获得的降维中间文本区域特征输入池化层中，池化层对降维中间文本区域特征进行分辨率维度上的降维处理，获取降维文本区域特征。可选地，可采用最大池化技术，将特征的分辨率从H×W降低到h×w，以方便对文本区域特征进行进一步的处理，使实现不同复杂背景下可靠的高精度文本检测，从而更好地应用于现实生活场景。可选地，H×W可设置为14，h×w可设置为3。

对降维文本区域特征中的每个通道上的特征进行拼接，得到M个尺寸为1×(h×w×C₀)的向量，将拼接后的到的向量作为文本区域特征对应的第一特征向量。本申请实施例，通过对文本区域特征进行降维处理，可以减少模型运算量和参数数量。

S703，基于每个第一特征向量，生成第一特征序列，并将每个第一特征序列输入文本间协同学习网络中的第一自注意力编码器单元中，由第一自注意力编码器单元输出待增强文本区域特征。

根据上述获得的M个尺寸为1×(h×w×C₀)的第一特征向量，生成一个大小为M×(h×w×C₀)的文本特征序列，将该文本特征序列作为第一特征序列，记为q。文本间协同学习网络包括的第一自注意力Transformer编码器单元，该编码器单元包含3个标准的Transformer编码器，每个编码器含有4个自注意力模块，将上述获得的每个第一特征序列q输入文本间协同学习网络中的第一自注意力Transformer编码器单元中，由第一自注意力Transformer编码器单元输出待增强文本区域特征。其中，上述由第一自注意力编码器单元输出待增强文本区域特征的公式为：

q＝Reshape(AdaptiveMaxpool(Conv_1×1(f)))，

q^TE＝TransformerEncoder(q)

式中，f代表M个文本特征,q^TE代表经过Transformer编码器的第一自注意力编码器单元输出的待增强文本区域特征。

自注意力模块有助于解释特征之间的相关性，例如同一背景上的不同文本实体之间的强相关性，不同背景上的文本实体或不同尺度的文本实体之间的弱相关性，这种基于自注意力模块的协同学习方法可以增强模型的可解释性。

S704，将待增强文本区域特征输入文本间协同学习网络中的特征结构重构单元中，由特征结构重构单元进行特征结构恢复，输出增强文本区域特征。

其中，特征结构重构单元823包括重塑层、采样层和第二卷积层，其中，如图12所示，将待增强文本区域特征输出文本间协同学习网络中的特征结构重构单元中，由特征结构重构单元进行特征结构重构，输出增强文本区域特征，包括以下步骤：

S121，通过特征结构重构单元中的重塑层对待增强文本区域特征进行分辨率维度上的重构，生成重构文本区域特征。

将上述获得的待增强文本区域特征输入特征结构重构单元的重塑层，通过重塑层对待增强文本区域特征进行分辨率维度上的重构，将得到的文本区域特征作为重构文本区域特征，即将分辨率h×w重构至H×W。

S122，通过特征结构重构单元中的采样层和第二卷积层对重构文本区域特征进行卷积特征通道维度上的恢复，生成增强文本区域特征。

将重构文本区域特征输入特征结构重构单元的采样层，通过采样层对重构文本区域特征进行上采样，将得到的上采样后的文本区域特征输入第二卷积层进行卷积处理，以对上采样后的重构文本区域特征进行卷积特征通道维度上的重构，生成增强文本区域特征，即将文本区域特征的卷积特征通道维度从C₀重构为256。可选地，采样层可采用双线性插值采样器。

可选地，第二卷积层的卷积核可设置为1×1。

其中，上述生成增强文本区域特征的公式为：

q^*＝Conv_1×1(BilinearInterpolation(Reshape(q^TE)))

式中，q^*代表增强文本区域特征，q^TE代表经过Transformer编码器的第一自注意力编码器单元输出的待增强文本区域特征。

本申请实施例，通过自适应地关注具有相似背景上下文或字体外观的特定文本实例来捕获不同文本实例之间的依赖关系，通过这种协作学习方式，可以提高文本特征的表示能力。

图13是根据本申请实施例一种场景图像的检测方法的示意图，如图13所示，基于每个增强文本区域特征进行掩模预测，获取增强文本区域特征对应的文本实例的文本轮廓，包括以下步骤：

S131，获取场景图像的全局上下文特征。

一般情况下，通常根据局部的感兴趣区域特征来检测文本，这种特征缺少对全局上下文信息的利用，可能产生不准确的检测结果。为了提取全局上下文来增强文本间协同学习模块提取到的特征表示，本申请实施例根据上述获得的尺度不同的多个语义特征图，获取场景图像的全局上下文特征，其中，全局上下文特征由特征向量表示。

对上述获得的每个语义特征图进行上采样或下采样处理，生成采样特征图。实现中，可以基于语义特征图的尺度，确定该语义特征图的采样方式，即上采样方式或下采样方式。进一步地，将每个采样特征图进行融合，生成场景图像的全局特征，并将全局特征表示展平为一维序列，其中序列中每个标记是特征映射上特定像素位置的特征向量。

通过第二Transformer编码器单元建模不同像素之间的长范围依赖关系来提取全局上下文，对全局特征中每个通道上的特征进行拼接，生成全局特征对应的向量，作为第二特征向量。

全局上下文网络中包括Transformer编码器，该编码器包含3个标准的Transformer编码器，每个编码器含有4个自注意力模块，将第二特征向量输入第二自注意力编码器单元中，输出全局上下文特征。由此通过根据尺度不同的多个语义特征图，获取场景图像的全局上下文特征，增加了对全局上下文信息的利用，有利于产生更加准确的检测结果。

上述全局上下文特征可以由图8中的全局上下文提取网络830提取，作为一种可能的实现方式，图8中全局上下文提取网络830包括：池化层、重塑层和第二Transformer编码器单元。可选地，池化层用于对每个语义特征图进行上采样或下采样，第二Transformer编码器单元，用于提取全局上下文，对全局特征中每个通道上的特征进行拼接。

S132，对全局上下文特征、文本区域特征和增强文本区域特征进行融合，生成融合文本区域特征。

根据上述获得的尺度不同的多个语义特征图、文本区域特征和增强文本区域特征，对三者对应的同一像素点进行逐像素相加，生成每个像素点的融合特征，从而所有像素点的融合特征，构成了融合网文本区域特征。

S133，对融合文本区域特征进行掩模预测，获取融合文本区域特征对应文本轮廓。

在获取到融合文本区域特征后，可以基于掩模(mask)预测模型，对文本实体进行分割，以检测出文本实体对应的文本区域的文本轮廓，其中，文本轮廓中包括属于文本区域的像素点的坐标，对像素点进行打标签，然后基于标签，确定出属于文本的像素点，然后生成文本轮廓，也就是说，该文本轮廓为一组像素点的坐标。

本申请实施例基于每个增强文本区域特征进行掩模预测，获取增强文本区域特征对应的文本实例的文本轮廓，增加了对全局上下文信息的利用，有利于产生更加准确的检测结果。

在上述实施例的基础之上，从每个优化特征图中提取文本实例的文本区域特征，作为一种可能的实现方式，文本间协同学习网络与区域候选网络(RegionProposalNetwork，RPN)RPN连接，将文本间协同学习网络输出的多尺度语义特征图的优化特征图，输入到区域候选网络RPN模型中，由该RPN模型提取文本实例的候选文本框。

进一步地，在获取到候选文本框后，从优化特性图中，提取候选文本框所指示位置上的特征，并根据提取的特征，生成候选文本框对应的文本实例的文本区域特征。可选地，可以基于区域特征聚集算法，从候选文本框中提取文本区域特征，例如区域特征聚集算法可以为ROIAlign。实现中可以在RPN模型后接一个ROIAlign层，该ROIAlign层实现从候选文本框中提取文本区域特征。

在该实现方式中，通过RPN模型和文本框检测模型的联合识别，可以识别出候选文本框更加精准，从而有利于文本区域特征的提取。

本申请实施例从每个优化特征图中提取文本实例的文本区域特征，降低其他信息的干扰，以方便后续对提升文本检测性能。

图14为本申请实施例提供的一个场景图像的检测系统的应用示意图。该检测系统包括：FPN网络800、文本间协同学习网络810、掩模预测网络820、全局上下文提取网络830、区域特征提取网络840、原语义特征图融合模块850和文本框检测模块860。其中M代表池化层(Maxpool)，用于对输入的特征图进行上采样或下采样，对应图8中的文本间协同学习网络810或全局上下文提取网络830；R代表一种矩阵变换函数(Reshape)，用于对输入的特征图进行特征变换，对应图8中的文本间协同学习网络810或全局上下文提取网络830；S代表双线性采样(Bilinear sampler)，用于对输入的特征图进行上采样或下采样处理，对应图8中的文本间协同学习网络810；Intra-CL代表文本内协同学习网络(Intra-InstanceCollaborative Learning)，用于对学习文本内字符和间隙进行统一特征表示；Inter-CL代表文本间协同学习网络(Inter-Instance Collaborative Learning)，用于挖掘文本之间的相互依赖关系；RolAlign用于从每个优化特征图中提取文本实例的文本区域特征，对应图8中的区域特征提取网络840。

参见图14的系统结构图，图15是根据本申请实施例一种场景图像的检测方法的示意图，如图15所示，该场景图像的检测方法，包括以下步骤：

S151，对携带至少一个文本实体的场景图像进行多个尺度上的特征提取，获取尺度不同的多个语义特征图。

S152，将语义特征图输入对应的文本内协同学习网络中的卷积单元中。

S153，将语义特征图经过残差单元后，再与卷积单元输出的特征图进行相加，生成优化特征图。

关于步骤S152～S153，上述实施例已做具体介绍，在此不再进行赘述。

S154，获取文本实例的候选文本框。

S155，从优化特性图中，提取候选文本框所指示位置上的特征，并根据提取的特征，生成候选文本框对应的文本实例的文本特征。

S156，将文本区域特征输入分割检测模型中。

S157，由分割检测模型中的文本间协同学习网络中的降维单元，对文本特征进行降维处理生成降维文本区域特征，并对降维文本区域特征中的每个通道上的特征进行拼接，生成文本区域特征对应的第一特征向量。

S158，基于每个第一特征向量，生成第一特征序列，并将每个第一特征序列输入文本间协同学习网络中的第一自注意力编码器单元中，由第一自注意力编码器单元输出待增强文本区域特征。

S159，将待增强文本区域特征输入文本间协同学习模型中的特征结构重构单元中，由特征结构重构单元进行特征结构恢复，输出增强文本区域特征。

关于步骤S156～S159，上述实施例已做具体介绍，在此不再进行赘述。

S1510，根据尺度不同的多个语义特征图，获取场景图像的全局上下文特征。

S1511，对全局上下文特征、文本区域特征和增强文本区域特征进行融合，生成融合文本区域特征。

S1512，对融合文本区域特征进行掩模预测，获取融合文本区域特征对应文本轮廓。

关于步骤S1510～S1512，上述实施例已做具体介绍，在此不再进行赘述。

本申请实施例提出了一种场景图像的检测方法，通过对携带文本实体的场景图像进行多尺度特征提取，获取尺度不同的多个语义特征图；对每个语义特征图进行卷积处理，获取每个语义特征图对应的包括文本实例的文本区域特征的优化特征图，其中，文本区域特征中包括字符和字符间的空隙的语义特征；从每个优化特征图中提取文本实例的文本区域特征；生成每个文本区域特征对应的第一特征向量，由所有的第一特征向量生成一个第一文本特征序列，基于第一文本特征序列，获取每个文本区域特征对应的增强文本区域特征；基于每个增强文本区域特征进行掩模预测，获取增强文本区域特征对应的文本实例的文本轮廓。本申请对文本内进行协同学习，在提取文本区域特征时同时采样字符和间隙区域的语义特征从而解决文本内部空隙造成的断裂而存在检测不准确的问题，进一步地，还对文本间进行了协同学习，提取不同文本实例之间的上下文依赖关系，从而可以生成鲁棒性更好的文本特征表示，以实现复杂背景下可靠的高精度文本检测。

参见图14，在场景图像的检测系统使用之前，需要对场景图像的检查系统包括的各个网络和模型进行训练，下面对训练过程进行解释说明。

由FPN网络提取样本场景图像的多尺度特征金字塔样本语义特征，并输入文本内协同学习网络中，预测样本场景图像的优化特征图。进一步地，将该优化特征图输入RPN模型中，获取样本场景图像的候选文本框，再由RolAlign模型基于候选文本框提取文本区域特征，分别输入到文本框检测模块和文本间协同学习网络中。其中，该文本检测模块可以输出样本场景图像的文本框，进一步地，基于该文本检测模型的输出的候选检测框进行模型调整。进一步地，文本间协同学习网络的输出与原语义特征图融合模块和全局上下文提取网络输出的特征融合，输出样本场景图像的增强文本区域特征，将该增强文本区域特征输入掩模预测网络中。

训练过程中，每次训练结束时，分别获取RPN模型、文本框检测模型、分割检测模型的损失函数，将RPN模型对应的损失函数作为第一损失函数，记为L_rpn，将文本框检测模型对应的损失函数作为第二损失函数，记为L_box，以及将分割检测模型对应的损失函数作为第三损失函数，记为L_mask。其中，分割检测模型用于基于增强文本区域特征进行掩模预测，输出样本场景图像的增强文本区域特征对应的文本实例的文本轮廓

根据上述获得的第一损失函数、第二损失函数和第三损失函数，可以获得总损失函数，根据总体损失函数可以对RPN模型、文本框检测网络和分割检测模型进行模型参数调整。

其中，根据第一损失函数、第二损失函数和第三损失函数，生成总损失函数的公式如下：

L＝L_rpn+L_box+L_mask

式中，L为总损失函数，L_rpn为第一损失函数，L_box为第二损失函数，L_mask为第三损失函数。

本申请实施例用于在训练模型时根据损失函数对RPN模型、文本框检测网络和分割检测模型进行模型参数调整，以生成更加精确的场景图像的检测模型。

图16是根据本申请实施例一种场景图像的检测装置的示意图，如图16所示，该场景图像的检测装置1600包括：区域特征获取模块161、特征融合模块162和文本轮廓获取模块163，其中：

区域特征获取模块161，用于获取携带至少一个文本实例的场景图像，并从场景图像中获取文本实例的文本区域特征；

特征融合模块162，用于对每个文本区域特征进行文本间特征融合处理，获取每个文本区域特征对应的增强文本区域特征；

文本轮廓获取模块163，用于基于增强文本区域特征进行掩模预测，获取增强文本区域特征对应的文本实例的文本轮廓。

进一步地，区域特征获取模块161，还用于：对场景图像进行特征提取，获取场景图像的语义特征图；根据语义特征图，获取文本区域特征。

进一步地，区域特征获取模块161，还用于：对场景图像进行多个尺度上的特征提取，获取尺度不同的多个语义特征图。

进一步地，区域特征获取模块161，还用于：对语义特征图进行卷积处理，获取语义特征图对应的优化特征图；从优化特征图中提取文本实例的文本区域特征。

进一步地，区域特征获取模块161，还用于：将语义特征图输入对应的文本内协同学习网络中的卷积单元中进行卷积处理，以输出语义特征图对应的优化特征图，其中，卷积单元包括多个级联的卷积模块，每个卷积模块包括一个水平卷积层、竖直卷积层和标准卷积层。

进一步地，区域特征获取模块161，还用于：将语义特征图经过残差单元后，再与卷积单元输出的特征图进行相加，生成优化特征图。

进一步地，特征融合模块162，还用于：生成每个文本区域特征对应的第一特征向量，由所有的第一特征向量生成一个第一文本特征序列，基于第一文本特征序列，获取文本区域特征对应的增强文本区域特征。

进一步地，特征融合模块162，还用于：将文本区域特征输入分割检测模型中；由分割检测模型中的文本间协同学习网络中的降维单元，对文本特征进行降维处理生成降维文本区域特征，并对降维文本区域特征中的每个通道上的特征进行拼接，生成文本区域特征对应的第一特征向量；基于每个第一特征向量，生成第一特征序列，并将每个第一特征序列输入文本间协同学习网络中的第一自注意力编码器单元中，由第一自注意力编码器单元输出待增强文本区域特征；将待增强文本区域特征输入文本间协同学习模型中的特征结构重构单元中，由特征结构重构单元进行特征结构恢复，输出增强文本区域特征。

进一步地，特征融合模块162，还用于：通过降维单元中的第一卷积层对每个文本区域特征进行卷积特征通道维度上的降维处理，获取文本区域特征对应的降维中间文本区域特征；通过降维单元中的池化层对降维中间文本区域特征进行分辨率维度上的降维处理，获取降维文本区域特征。

进一步地，特征融合模块162，还用于：通过特征结构重构单元中的重塑层对待增强文本区域特征进行分辨率维度上的重构，生成重构文本区域特征；通过特征结构重构单元中的采样层和第二卷积层对重构文本区域特征进行卷积特征通道维度上的重构，生成增强文本区域特征。

进一步地，文本轮廓获取模块163，还用于：获取场景图像的全局上下文特征；对全局上下文特征、文本区域特征和增强文本区域特征进行融合，生成融合文本区域特征；对融合文本区域特征进行掩模预测，获取融合文本区域特征对应文本轮廓。

进一步地，文本轮廓获取模块163，还用于：对场景图像的语义特征图进行上采样或下采样处理，生成采样特征图，对每个采样特征图进行融合，生成场景图像的全局特征；将全局特征中每个通道上的特征进行拼接，生成全局特征对应的第二特征向量；将第二特征向量输入第二自注意力编码器单元中，输出全局上下文特征。

进一步地，区域特征获取模块161，还用于：获取文本实例的候选文本框；从优化特性图中，提取候选文本框所指示位置上的特征，并根据提取的特征，生成候选文本框对应的文本实例的文本区域特征。

进一步地，区域特征获取模块161，还用于：将优化特性图输入区域候选网络RPN模型中，以提取文本实例的候选文本框。

进一步地，区域特征获取模块161，还用于：训练过程中，每次训练结束时，获取RPN模型的第一损失函数、文本框检测模型的第二损失函数，以及分割检测模型的第三损失函数，其中，分割检测模型用于基于样本场景图像的增强文本区域特征进行掩模预测，文本框检测模型用于基于样本场景图像的文本区域特征进行候选文本框预测；基于第一损失函数、第二损失函数和第三损失函数，生成总损失函数，并基于总体损失函数对RPN模型、文本框检测网络和分割检测模型进行模型参数调整。

为了实现上述实施例，本申请实施例还提出一种电子设备1700，如图17所示，该电子设备1700包括：处理器171和处理器通信连接的存储器172，存储器172存储有可被至少一个处理器执行的指令，指令被至少一个处理器171执行，以实现如上述实施例所示的场景图像的检测方法。

为了实现上述实施例，本申请实施例还提出一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机实现如上述实施例所示的场景图像的检测方法。

为了实现上述实施例，本申请实施例还提出一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上述实施例所示的场景图像的检测方法。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种场景图像的检测方法，其特征在于，包括：

获取携带至少一个文本实例的场景图像；

对所述场景图像进行特征提取，获取所述场景图像的语义特征图；

将所述语义特征图输入对应的文本内协同学习网络中的卷积单元中进行卷积处理，以输出所述语义特征图对应的优化特征图，其中，所述卷积单元包括多个级联的卷积模块，每个所述卷积模块包括一个水平卷积层、竖直卷积层和标准卷积层；所述文本内协同学习网络用于对学习文本内字符和间隙进行统一特征表示；

从所述优化特征图中提取所述文本实例的文本区域特征；

对每个所述文本区域特征进行文本间特征融合处理，获取每个所述文本区域特征对应的增强文本区域特征；

基于所述增强文本区域特征进行掩模预测，获取所述增强文本区域特征对应的所述文本实例的文本轮廓。

2.根据权利要求1所述的方法，其特征在于，所述对所述场景图像进行特征提取，获取所述场景图像的语义特征图，包括：

对所述场景图像进行多个尺度上的特征提取，获取尺度不同的多个所述语义特征图。

3.根据权利要求1所述的方法，其特征在于，所述文本内协同学习网络还包括残差单元，所述方法还包括：

将所述语义特征图经过所述残差单元后，再与所述卷积单元输出的特征图进行相加，生成所述优化特征图。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述对每个所述文本区域特征进行文本间特征融合处理，获取所述文本区域特征对应的增强文本区域特征，包括：

生成每个所述文本区域特征对应的第一特征向量，由所有的所述第一特征向量生成一个第一文本特征序列，基于所述第一文本特征序列，获取所述文本区域特征对应的增强文本区域特征。

5.根据权利要求4所述的方法，其特征在于，所述生成每个所述文本区域特征对应的第一特征向量，由所有的所述第一特征向量生成一个第一特征序列，基于所述第一文本特征序列，获取每个所述文本区域特征对应的增强文本区域特征，包括：

将所述文本区域特征输入分割检测模型中；

由所述分割检测模型中的文本间协同学习网络中的降维单元，对所述文本特征进行降维处理生成降维文本区域特征，并对所述降维文本区域特征中的每个通道上的特征进行拼接，生成所述文本区域特征对应的第一特征向量；所述文本间协同学习网络用于挖掘文本之间的相互依赖关系；

基于每个所述第一特征向量，生成所述第一特征序列，并将每个所述第一特征序列输入所述文本间协同学习网络中的第一自注意力编码器单元中，由所述第一自注意力编码器单元输出待增强文本区域特征；

将所述待增强文本区域特征输入所述文本间协同学习模型中的特征结构重构单元中，由所述特征结构重构单元进行特征结构恢复，输出所述增强文本区域特征。

6.根据权利要求5所述的方法，其特征在于所述由所述分割检测模型中的文本间协同学习网络中的降维单元，对所述文本特征进行降维处理生成降维文本区域特征，包括：

通过所述降维单元中的第一卷积层对每个所述文本区域特征进行卷积特征通道维度上的降维处理，获取所述文本区域特征对应的降维中间文本区域特征；

通过所述降维单元中的池化层对所述降维中间文本区域特征进行分辨率维度上的降维处理，获取所述降维文本区域特征。

7.根据权利要求5所述的方法，其特征在于，所述将所述待增强文本区域特征输出所述文本间协同学习网络中的特征结构重构单元中，由所述特征结构重构单元进行特征结构恢复，输出所述增强文本区域特征，包括：

通过所述特征结构重构单元中的重塑层对所述待增强文本区域特征进行分辨率维度上的重构，生成重构文本区域特征；

通过所述特征结构重构单元中的采样层和第二卷积层对所述重构文本区域特征进行卷积特征通道维度上的重构，生成所述增强文本区域特征。

8.根据权利要求1-3任一项所述的方法，其特征在于，所述基于每个所述增强文本区域特征进行掩模预测，获取所述增强文本区域特征对应的所述文本实例的文本轮廓包括：

获取所述场景图像的全局上下文特征；

对所述全局上下文特征、所述文本区域特征和所述增强文本区域特征进行融合，生成融合文本区域特征；

对所述融合文本区域特征进行掩模预测，获取所述融合文本区域特征对应所述文本轮廓。

9.根据权利要求8所述的方法，其特征在于，所述获取所述场景图像的全局上下文特征，包括：

对所述场景图像的语义特征图进行上采样或下采样处理，生成采样特征图，对每个所述采样特征图进行融合，生成所述场景图像的全局特征；

将所述全局特征中每个通道上的特征进行拼接，生成所述全局特征对应的第二特征向量；

将所述第二特征向量输入第二自注意力编码器单元中，输出全局上下文特征。

10.根据权利要求1所述的方法，其特征在于，所述从所述优化特征图中提取所述文本实例的文本区域特征，包括：

获取所述文本实例的候选文本框；

从所述优化特征图中，提取所述候选文本框所指示位置上的特征，并根据提取的所述特征，生成所述候选文本框对应的所述文本实例的文本区域特征。

11.根据权利要求10所述的方法，其特征在于，所述获取所述文本实例的候选文本框，包括：

将所述优化特征图输入区域候选网络RPN模型中，以提取所述文本实例的候选文本框。

12.根据权利要求11所述的方法，其特征在于，还包括：

训练过程中，每次训练结束时，获取所述RPN模型的第一损失函数、文本框检测模型的第二损失函数，以及分割检测模型的第三损失函数，其中，所述分割检测模型用于基于样本场景图像的增强文本区域特征进行掩模预测，所述文本框检测模型用于基于所述样本场景图像的文本区域特征进行候选文本框预测；

基于所述第一损失函数、所述第二损失函数和所述第三损失函数，生成总损失函数，并基于所述总损失函数对所述RPN模型、所述文本框检测网络和所述分割检测模型进行模型参数调整。

13.一种场景图像的检测装置，其特征在于，包括：

区域特征获取模块，用于获取携带至少一个文本实例的场景图像，对所述场景图像进行特征提取，获取所述场景图像的语义特征图；将所述语义特征图输入对应的文本内协同学习网络中的卷积单元中进行卷积处理，以输出所述语义特征图对应的优化特征图，其中，所述卷积单元包括多个级联的卷积模块，每个所述卷积模块包括一个水平卷积层、竖直卷积层和标准卷积层；所述文本内协同学习网络用于对学习文本内字符和间隙进行统一特征表示；从所述优化特征图中提取所述文本实例的文本区域特征；

特征融合模块，用于对每个所述文本区域特征进行文本间特征融合处理，获取每个所述文本区域特征对应的增强文本区域特征；

文本轮廓获取模块，用于基于所述增强文本区域特征进行掩模预测，获取所述增强文本区域特征对应的所述文本实例的文本轮廓。

14.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。