CN115393868A

CN115393868A - 文本检测方法、装置、电子设备和存储介质

Info

Publication number: CN115393868A
Application number: CN202210994030.3A
Authority: CN
Inventors: 牛太阳; 王佩雅
Original assignee: Sinochem Agriculture Holdings
Current assignee: Sinochem Agriculture Holdings
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-25
Anticipated expiration: 2042-08-18
Also published as: CN115393868B

Abstract

本发明涉及计算机视觉技术领域，提供一种文本检测方法、装置、电子设备和存储介质，方法包括：将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图；将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果；其中，所述注意力层用于对所述第一特征图的多个通道特征进行加权融合。本发明对待检测图像的第一特征图进行多通道特征提取，并将多个通道特征进行加权融合，以对不同通道的通道特征赋予不同的权重，以分别关注所需重点关注的信息，从而使得到的第二特征图更为准确，进而使基于第二特征图进行文本检测得到的文本检测结果更为准确，最终提高文本检测的准确性。

Description

文本检测方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种文本检测方法、装置、电子设备和存储介质。

背景技术

文本检测是计算机视觉的重要应用领域，文件检测是进行文本识别的关键，为确保文本识别的准确性，需要确保文本检测的准确性。

目前，通过目标检测、图像分割等方法进行文本检测，然而，当前的文本检测方法并不能确保文本检测的准确性。因此，如何提高文件检测的准确性是目前亟需解决的问题。

发明内容

本发明提供一种文本检测方法、装置、电子设备和存储介质，用以解决现有技术中文本检测准确性低的缺陷，实现高准确的文本检测。

本发明提供一种文本检测方法，包括：

将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图；

将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果；

其中，所述注意力层用于对所述第一特征图的多个通道特征进行加权融合。

根据本发明提供的一种文本检测方法，所述将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图，包括：

将所述第一特征图输入至所述注意力层的多通道特征提取层，得到所述多通道特征提取层输出的至少两个通道特征；

将所述至少两个通道特征输入至所述注意力层的特征加权层，得到所述特征加权层输出的至少两个加权特征；

将所述至少两个加权特征输入至所述注意力层的第一特征融合层，得到所述第一特征融合层输出的第二特征图。

根据本发明提供的一种文本检测方法，所述至少两个通道特征包括第一通道特征、第二通道特征、第三通道特征和第四通道特征，所述将所述至少两个通道特征输入至所述注意力层的特征加权层，得到所述特征加权层输出的至少两个加权特征，包括：

将所述第一通道特征输入至所述特征加权层的第一加权层，得到所述第一加权层输出的第一加权特征；

将所述第二通道特征输入至所述特征加权层的第二加权层，得到所述第二加权层输出的第二加权特征；

将所述第三通道特征与所述第二加权特征输入至所述特征加权层的第一加权融合层，得到所述第一加权融合层输出的第三加权特征；

将所述第四通道特征与所述第三加权特征输入至所述特征加权层的第二加权融合层，得到所述第二加权融合层输出的第四加权特征。

根据本发明提供的一种文本检测方法，所述将所述至少两个加权特征输入至所述注意力层的第一特征融合层，得到所述第一特征融合层输出的第二特征图，包括：

将所述至少两个加权特征输入至所述第一特征融合层的融合层，得到所述融合层输出的融合特征图；

将所述融合特征图输入至所述第一特征融合层的加权层，对所述融合特征图进行通道注意力加权处理和空间注意力加权处理，得到所述加权层输出的第二特征图。

根据本发明提供的一种文本检测方法，所述第二特征图包括多个不同尺度大小的特征图，所述将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果，包括：

将所述第二特征图的各特征图输入至所述文本检测层的特征金字塔增强层，得到所述特征金字塔增强层输出的各增强特征图；

将所述各增强特征图输入至所述文本检测层的第二特征融合层，得到所述第二特征融合层输出的融合特征；

将所述融合特征输入至所述文本检测层的检测层，得到所述检测层输出的文本检测结果。

根据本发明提供的一种文本检测方法，所述特征金字塔增强层包括多个残差层，所述多个残差层用于对所述第二特征图的各特征图分别进行特征提取；

所述残差层基于如下方式进行特征提取：

将所述第二特征图的任一特征图输入至所述残差层的第一卷积层和第二卷积层，得到所述第一卷积层输出的第一子特征图和所述第二卷积层输出的第二子特征图；

将所述第一子特征图、所述第二子特征图和所述第二特征图输入至所述残差层的第三特征融合层，得到所述第三特征融合层输出的特征图。

根据本发明提供的一种文本检测方法，所述特征金字塔增强层的数量为至少两个，至少两个所述特征金字塔增强层是级联的。

本发明还提供一种文本检测装置，包括：

输入模块，用于将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图；

检测模块，用于将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本检测方法。

本发明提供的文本检测方法、装置、电子设备和存储介质，将待检测图像的第一特征图输入至文本检测模型的注意力层，得到注意力层输出的第二特征图；将第二特征图输入至文本检测模型的文本检测层，得到文本检测层输出的文本检测结果；其中，注意力层用于对第一特征图的多个通道特征进行加权融合。通过上述方式，对待检测图像的第一特征图进行多通道特征提取，并将多个通道特征进行加权融合，以对不同通道的通道特征赋予不同的权重，以分别关注所需重点关注的信息，从而使得到的第二特征图更为准确，进而使基于第二特征图进行文本检测得到的文本检测结果更为准确，最终提高文本检测的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的文本检测方法的流程示意图之一；

图2为本发明提供的文本检测方法的流程示意图之二；

图3为本发明提供的文本检测方法的流程示意图之三；

图4为本发明提供的特征金字塔增强层的结构示意图之一；

图5为本发明提供的特征金字塔增强层的结构示意图之二；

图6为本发明提供的文本检测装置的结构示意图；

图7为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出以下各实施例。图1为本发明提供的文本检测方法的流程示意图之一，如图1所示，该文本检测方法包括：

步骤110，将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图。

此处，待检测图像为需要进行文本检测的图像。该待检测图像为带有文本的图像。该待检测图像可以为对任何场景进行采集得到的图像，例如，待检测图像可以为街景图、图书图、票据图或证件图等等。

在一具体实施例中，通过图像采集设备拍摄不同类型文本的图像，将拍摄得到的图像确定为待检测图像。该待检测图像可以由图像采集设备发送至本发明实施例提供的方法的执行主体。例如，获取手持设备拍摄的待检测图像。

此处，第一特征图是对待检测图像进行特征提取得到的。具体地，将待检测图像输入至文本检测模型的特征提取层，得到特征提取层输出的第一特征图。

在一些实施例中，第一特征图可以包括多个不同尺度大小的特征图。

在一实施例中，将待检测图像输入至特征提取层的残差层，得到残差层输出的第一特征图，从而得到多个不同尺度大小的特征图。其中，残差层可以包括多个残差块，每一残差块可以包括多个卷积层。

在另一实施例，对待检测图像进行特征提取的特征提取层可以包括不同卷积核大小或不同卷积步长大小的卷积层，从而通过多个不同卷积核大小或不同卷积步长大小的卷积层，对待检测图像进行特征提取得到多个不同尺度大小的特征图。

此处，文本检测模型用于对待检测图像进行文本检测，得到文本检测结果。即将待检测图像输入至文本检测模型，得到文本检测模型输出的文本检测结果。

该文本检测模型是基于样本图像及样本图像对应的标注标签训练得到的。该样本图像是通过收集有文本的图像获取得到的，例如，收集街景图、图书图、票据图或证件图等等。该标注标签是对样本图像进行针对文件检测结果标注的标签。

在一实施例中，可以对标注后的样本图像进行数据增强，以丰富训练数据，从而提高模型的训练效果，进而提高文本检测模型的文本检测准确性。其中，数据增强可以包括但不限于以下至少一种：平移、改变亮度、增加噪点等等。

此处，注意力层用于对第一特征图进行通道维度的注意力处理和/或空间维度的注意力处理。

此处，第一特征图的多个通道特征是基于多通道特征提取层，进行多通道特征提取后得到的。

具体地，加权融合处理的步骤如下：对每个通道的通道特征赋予一个权重，以使每个通道的通道特征进行加权处理，得到多个加权特征，然后，将多个加权特征进行特征融合。其中，每个通道对应的权重可以包括但不限于通道注意力权重、空间注意力权重等。该通道注意力权重和空间注意力权重可以在模型训练中学习得到。将多个加权特征进行特征融合的方式可以为平均运算处理，也可以为相加、拼接等特征融合方式。

在一实施例中，对第一特征图的多个通道特征进行加权的方式可以为通道注意力加权方式、空间注意力加权方式、CBAM(Convolutional Block Attention Module，卷积注意力机制模块)方式等。

需要说明的是，若第一特征图包括多个不同尺度大小的特征图，则注意力层的数量与第一特征图的特征图数量一致，第二特征图也包括多个不同尺度大小的特征图。

在一具体实施例中，将待检测图像输入至Res2Net17的图像特征提取层，进行图像特征提取得到第二特征图。该图像特征提取层包括得到第一特征图的特征提取层和该注意力层。

在一实施例中，对第二特征图进行降维，以得到轻量级的第二特征图。例如，将第二特征图输入至1*1的卷积层，得到1*1的卷积层输出的128维的第二特征图。

步骤120，将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果。

此处，文本检测结果可以包括但不限于：文字区域、文本框、文本框相似度等。

在一实施例中，文本检测层包括语义分割层，以基于语义分割层进行文本检测得到文本检测结果。进一步地，语义分割层可以为像素聚合网络，以进行像素级语义分割。

本发明实施例提供的文本检测方法，将待检测图像的第一特征图输入至文本检测模型的注意力层，得到注意力层输出的第二特征图；将第二特征图输入至文本检测模型的文本检测层，得到文本检测层输出的文本检测结果；其中，注意力层用于对第一特征图的多个通道特征进行加权融合。通过上述方式，对待检测图像的第一特征图进行多通道特征提取，并将多个通道特征进行加权融合，以对不同通道的通道特征赋予不同的权重，以分别关注所需重点关注的信息，从而使得到的第二特征图更为准确，进而使基于第二特征图进行文本检测得到的文本检测结果更为准确，最终提高文本检测的准确性。

基于上述实施例，图2为本发明提供的文本检测方法的流程示意图之二，如图2所示，上述步骤110包括：

步骤111，将所述第一特征图输入至所述注意力层的多通道特征提取层，得到所述多通道特征提取层输出的至少两个通道特征。

具体地，基于多通道特征提取层，将第一特征图拆分成多个通道特征。

在一实施例中，多通道特征提取层为卷积核为1的卷积层。在另一实施例中，多通道特征提取层为FCN(Fully Convolutional Networks，全卷积网络层)层。

在一实施例中，至少两个通道特征包括第一通道特征、第二通道特征、第三通道特征和第四通道特征。

步骤112，将所述至少两个通道特征输入至所述注意力层的特征加权层，得到所述特征加权层输出的至少两个加权特征。

此处，至少两个加权特征的数量与至少两个通道特征的数量一致。该加权特征为在通道特征的基础上进行加权处理后得到的特征。

此处，特征加权层用于对通道特征进行加权处理，该加权处理的方式可以包括但不限于：通道注意力加权方式、空间注意力加权方式、CBAM方式等。

在一实施例中，特征加权层用于对至少两个通道特征进行交叉加权融合，以进一步提高加权特征的表征能力，从而提高文本检测的准确性。例如，至少两个通道特征包括第一通道特征、第二通道特征、第三通道特征和第四通道特征，则对第一通道特征、第二通道特征进行加权处理，得到第一通道特征的加权特征以及第二通道特征的加权特征，然后，将第二通道特征的加权特征与第三通道特征进行加权聚合处理，得到第三通道特征的加权特征，之后，将第三通道特征的加权特征与第四通道特征进行加权聚合处理，得到第四通道的加权特征。

步骤113，将所述至少两个加权特征输入至所述注意力层的第一特征融合层，得到所述第一特征融合层输出的第二特征图。

此处，第一特征融合层包括融合层，该融合层用于对至少两个加权特征进行特征融合，该融合层的特征融合方式可以包括但不限于：拼接、平均运算处理、相加等特征融合方式。

在一实施例中，将至少两个加权特征输入至第一特征融合层的融合层，得到融合层输出的第二特征图。

在另一实施例中，将至少两个加权特征输入至第一特征融合层的融合层，得到融合层输出的融合特征图；将融合特征图输入至第一特征融合层的卷积层，得到卷积层输出的第二特征图。

在另一实施例中，将至少两个加权特征输入至第一特征融合层的融合层，得到融合层输出的融合特征图；将融合特征图输入至第一特征融合层的加权层，对所述融合特征图进行加权处理，得到加权层输出的第二特征图。

可以理解的是，在第一特征融合层中添加一个加权层，从而基于加权层，对融合特征图进行加权处理，以分别关注所需重点关注的信息，从而使得到的第二特征图更为准确，进而使基于第二特征图进行文本检测得到的文本检测结果更为准确，最终进一步提高文本检测的准确性。

本发明实施例提供的文本检测方法，注意力层包括多通道特征提取层、特征加权层和第一特征融合层，从而对待检测图像的第一特征图进行多通道特征提取，并将多个通道特征进行加权处理，再对加权处理后的加权特征进行特征融合，以对不同通道的通道特征赋予不同的权重，以分别关注所需重点关注的信息，从而使得到的第二特征图更为准确，进而使基于第二特征图进行文本检测得到的文本检测结果更为准确，最终提高文本检测的准确性。

基于上述任一实施例，该方法中，所述至少两个通道特征包括第一通道特征、第二通道特征、第三通道特征和第四通道特征，上述步骤112包括：

在一实施例中，第一加权层的加权权重为1，即可以直接将第一通道特征作为第一加权特征。

在另一实施例中，第一加权层用于对第一通道特征进行通道维度的注意力处理和/或空间维度的注意力处理。即对第一通道特征进行加权的方式可以为通道注意力加权方式、空间注意力加权方式、CBAM方式等。

在一实施例中，第二加权层用于对第二通道特征进行通道维度的注意力处理和/或空间维度的注意力处理。即对第二通道特征进行加权的方式可以为通道注意力加权方式、空间注意力加权方式、CBAM方式等。

在另一实施例中，第二加权层的加权权重为1，即可以直接将第二通道特征作为第二加权特征。

此处，第一加权融合层包括加权层和融合层。该加权层用于对第三通道特征和第二加权特征进行通道维度的注意力处理和/或空间维度的注意力处理。即对第三通道特征和第二加权特征进行加权的方式可以为通道注意力加权方式、空间注意力加权方式、CBAM方式等。该融合层的特征融合方式可以包括但不限于：拼接、平均运算处理、相加等等。

具体地，将第三通道特征与第二加权特征输入至第一加权融合层的加权层，得到加权层输出的第一子加权特征和第二子加权特征；将第一子加权特征和第二子加权特征输入至第一加权融合层的融合层，得到融合层输出的第三加权特征。

此处，第二加权融合层包括加权层和融合层。该加权层用于对第四通道特征和第三加权特征进行通道维度的注意力处理和/或空间维度的注意力处理。即对第四通道特征和第三加权特征进行加权的方式可以为通道注意力加权方式、空间注意力加权方式、CBAM方式等。该融合层的特征融合方式可以包括但不限于：拼接、平均运算处理、相加等等。

具体地，将第四通道特征与第三加权特征输入至第二加权融合层的加权层，得到加权层输出的第三子加权特征和第四子加权特征；将第三子加权特征和第四子加权特征输入至第二加权融合层的融合层，得到融合层输出的第四加权特征。

本发明实施例提供的文本检测方法，通过上述方式，对四个通道特征进行交叉加权融合，以进一步提高加权特征的表征能力，从而提高第二特征图的表征能力，进而进一步提高文本检测的准确性。

基于上述任一实施例，该方法中，上述步骤113包括：

此处，第一特征融合层的融合层用于对至少两个加权特征进行特征融合，该融合层的特征融合方式可以包括但不限于：拼接、平均运算处理、相加等等。

例如，至少两个加权特征包括第一加权特征、第二加权特征、第三加权特征、第四加权特征，则对第一加权特征、第二加权特征、第三加权特征、第四加权特征进行特征融合，得到融合特征图。

此处，第一特征融合层的加权层用于对融合特征图进行通道维度的注意力处理和空间维度的注意力处理。即对融合特征图进行加权的方式可以为CBAM方式。

本发明实施例提供的文本检测方法，通过上述方式，对融合特征图进一步进行加权处理，以分别关注所需重点关注的信息，从而进一步提高第二特征图的准确性，进而进一步提高文本检测的准确性；同时，通道信息通常表征图像不同的特征信息，因此通过通道注意力加权处理，可以对通道进行选择，以使网络更能注意到图像中对任务有用的信息，从而进一步提高文本检测的准确性；考虑到文字方向识别中主要是针对文字，而一张图像中可能文字所占比例不是很大，因此对于那些所要识别的文字仅仅占图像的一小部分的任务而言，通过空间注意力加权处理，能够减少背景对于任务的干扰，从而进一步提高文本检测的准确性。

基于上述任一实施例，图3为本发明提供的文本检测方法的流程示意图之三，如图3所示，所述第二特征图包括多个不同尺度大小的特征图，上述步骤120包括：

步骤121，将所述第二特征图的各特征图输入至所述文本检测层的特征金字塔增强层，得到所述特征金字塔增强层输出的各增强特征图。

此处，特征金字塔增强层用于对不同尺度大小的特征图进行特征增强。第二特征图的特征图数量与特征金字塔增强层输出的增强特征数量一致。

需要说明的是，输入特征金字塔增强层的特征图的尺度大小，与特征金字塔增强层输出的增强特征图的尺度大小相同。

为便于理解特征金字塔增强层，此处以一具体实施例进行说明。如图4所示，第二特征图包括4个特征图，分别设定为第一尺度特征图、第二尺度特征图、第三尺度特征图、第四尺度特征图。首先，依次上采样：将第四尺度特征图与第三尺度特征图进行聚合处理，得到第五尺度特征图，该第五尺度特征图的尺度大小与第三尺度特征图的尺度大小一致；将第五尺度特征图与第二尺度特征图进行聚合处理，得到第六尺度特征图，该第六尺度特征图的尺度大小与第二尺度特征图的尺度大小一致；将第六尺度特征图与第一尺度特征图进行聚合处理，得到第七尺度特征图，该第七尺度特征图的尺度大小与第一尺度特征图的尺度大小一致。其次，依次下采样：将第七尺度特征图与第六尺度特征图进行聚合处理，得到第八尺度特征图，该第八尺度特征图的尺度大小与第二尺度特征图的尺度大小一致；将第八尺度特征图与第五尺度特征图进行聚合处理，得到第九尺度特征图，该第九尺度特征图的尺度大小与第三尺度特征图的尺度大小一致；将第九尺度特征图与第四尺度特征图进行聚合处理，得到第十尺度特征图，该第十尺度特征图的尺度大小与第四尺度特征图的尺度大小一致。也就是说，将第一尺度特征图、第二尺度特征图、第三尺度特征图、第四尺度特征图输入至特征金字塔增强层，得到特征金字塔增强层输出的第七尺度特征图、第八尺度特征图、第九尺度特征图、第十尺度特征图(各增强特征图)。

在一实施例中，聚合处理

包括2倍上采样处理、相加处理、3*3Dwconv处理、1*1卷积处理、BN(Batch Normalization，批量归一化)处理、Relu(线性整流函数)处理等。例如，对于依次上采样过程，将第四尺度特征图进行2倍上采样处理得到上采样特征图，将上采样特征图与第三尺度特征图进行相加处理得到相加特征图，将相加特征图进行3*3Dwconv处理得到卷积特征图，将卷积特征图依次进行1*1卷积处理、BN处理、Relu处理，得到第五尺度特征图；对于依次下采样过程，将第六尺度特征图进行2倍上采样处理得到上采样特征图，将上采样特征图与第七尺度特征图进行相加处理得到相加特征图，将相加特征图进行3*3Dwconv处理得到卷积特征图，将卷积特征图依次进行1*1卷积处理、BN处理、Relu处理，得到第八尺度特征图。

步骤122，将所述各增强特征图输入至所述文本检测层的第二特征融合层，得到所述第二特征融合层输出的融合特征。

此处，第二特征融合层用于将不同尺度大小的增强特征图进行特征融合。

在一实施例中，若特征金字塔增强层的数量为多个，且多个特征金字塔增强层是级联的，则基于第二特征融合层，先将多个特征金字塔增强层输出的各增强特征图中的相同尺度特征图进行相加，然后，将相加得到的各特征图处理成统一尺度大小的特征图，再将同一尺度大小的各特征图进行特征融合，此处特征融合的方式可以包括但不限于：合并、拼接、平均运算处理、相加等特征融合方式。例如，特征金字塔增强层的数量为2个，则第一个特征金字塔增强层输出特征图t1、特征图t2、特征图t3、特征图t4，第二个特征金字塔增强层输出特征图t5、特征图t6、特征图t7、特征图t8，首先，将相同尺度的特征图t1和特征图t5相加得到特征图t9，将相同尺度的特征图t2和特征图t6相加得到特征图t10，将相同尺度的特征图t3和特征图t7相加得到特征图t11，将相同尺度的特征图t4和特征图t8相加得到特征图t12，然后，对特征图t10、特征图t11、特征图t12分别进行上采样，得到与特征图t9相同尺度大小的特征图t13、特征图t14、特征图t15，最后，将特征图t9、特征图t13、特征图t14、特征图t15进行合并，得到融合特征。

在另一实施例中，若特征金字塔增强层的数量为1个，则将各增强特征图处理成统一尺度大小的特征图，再将同一尺度大小的各特征图进行特征融合，此处特征融合的方式可以包括但不限于：合并、拼接、平均运算处理、相加等特征融合方式。例如，特征金字塔增强层的数量为1个，特征金字塔增强层输出特征图t1、特征图t2、特征图t3、特征图t4，首先，对特征图t2、特征图t3、特征图t4分别进行上采样，得到与特征图t1相同尺度大小的特征图t5、特征图t6、特征图t7，最后，将特征图t1、特征图t5、特征图t6、特征图t7进行合并，得到融合特征。

在一实施例中，对融合特征进行1*1卷积处理，以增强网络深度。

步骤123，将所述融合特征输入至所述文本检测层的检测层，得到所述检测层输出的文本检测结果。

在一实施例中，文本检测层的检测层为语义分割层，以基于语义分割层进行文本检测得到文本检测结果。进一步地，语义分割层可以为像素聚合网络，以进行像素级语义分割。

本发明实施例提供的文本检测方法，通过上述方式，通过特征金字塔增强层，对不同尺度大小的第二特征图进行特征增强，并通过第二特征融合层，将各增强特征处理成尺度大小相同的特征图，并将尺度大小相同的特征图进行融合得到融合特征，从而提高融合特征的表征能力，例如增强对图像中不同尺寸文字的识别率，从而进一步提高文本检测的准确性。

基于上述任一实施例，该方法中，特征金字塔增强层包括多个残差层，多个残差层用于对第二特征图的各特征图分别进行特征提取；所述残差层基于如下方式进行特征提取：

此处，第一卷积层和第二卷积层分别用于进行卷积处理。第三特征融合层用于进行特征融合，该第三特征融合层的特征融合方式可以包括但不限于：拼接、平均运算处理、相加等等。

在一实施例中，第一卷积层为3*3卷积层，第二卷积层为1*1卷积层，使用1*1卷积层可以在确保特征提取能力的基础上，提高模型检测效率。

具体地，将输入的特征图进行多分支特征提取，即将输入特征图分为直接向下传导，经过第一卷积层向下传导和经过第二卷积层向下传导，然后，将三个分支的特征图进行特征融合操作。

进一步地，在特征金字塔增强层的依次下采样过程中，在对各特征图进行聚合处理前，先通过残差层进行残差处理。

进一步地，在特征金字塔增强层的依次下采样过程中，通过残差层，对特征金字塔增强层输出的特征图进行残差处理。

为便于理解，此处以一具体实施例为例进行说明，参照图5，第二特征图包括4个特征图，分别设定为第一尺度特征图、第二尺度特征图、第三尺度特征图、第四尺度特征图，Rep表示经过残差层的残差处理。首先，依次上采样：将第四尺度特征图与经过残差处理的第三尺度特征图进行聚合处理，得到第五尺度特征图，该第五尺度特征图的尺度大小与第三尺度特征图的尺度大小一致；将第五尺度特征图与经过残差处理的第二尺度特征图进行聚合处理，得到第六尺度特征图，该第六尺度特征图的尺度大小与第二尺度特征图的尺度大小一致；将第六尺度特征图与经过残差处理的第一尺度特征图进行聚合处理，得到第七尺度特征图，该第七尺度特征图的尺度大小与第一尺度特征图的尺度大小一致。其次，依次下采样：将第七尺度特征图与经过残差处理的第六尺度特征图进行聚合处理，得到第八尺度特征图，该第八尺度特征图的尺度大小与第二尺度特征图的尺度大小一致；将第八尺度特征图与经过残差处理的第五尺度特征图进行聚合处理，得到第九尺度特征图，该第九尺度特征图的尺度大小与第三尺度特征图的尺度大小一致；将第九尺度特征图与经过残差处理的第四尺度特征图进行聚合处理，得到第十尺度特征图，该第十尺度特征图的尺度大小与第四尺度特征图的尺度大小一致。也就是说，将第一尺度特征图、第二尺度特征图、第三尺度特征图、第四尺度特征图输入至特征金字塔增强层，得到特征金字塔增强层输出的经过残差处理的第七尺度特征图、经过残差处理的第八尺度特征图、经过残差处理的第九尺度特征图、第十尺度特征图(各增强特征图)。

本发明实施例提供的文本检测方法，通过上述方式，通过该特定的残差层结构，不仅能够在深层提取得到更好的第二特征图，还能够解决深层的梯度消失问题，从而提高第二特征图的表征能力，进而进一步提高文本检测的准确性。

基于上述任一实施例，该方法中，所述特征金字塔增强层的数量为至少两个，至少两个所述特征金字塔增强层是级联的。

具体地，基于第二特征融合层，先将至少两个特征金字塔增强层输出的各增强特征图中的相同尺度特征图进行相加，然后，将相加得到的各特征图处理成统一尺度大小的特征图，再将同一尺度大小的各特征图进行特征融合，此处特征融合的方式可以包括但不限于：合并、拼接、平均运算处理、相加等特征融合方式。

例如，特征金字塔增强层的数量为2个，则第一个特征金字塔增强层输出特征图t1、特征图t2、特征图t3、特征图t4，第二个特征金字塔增强层输出特征图t5、特征图t6、特征图t7、特征图t8，首先，将相同尺度的特征图t1和特征图t5相加得到特征图t9，将相同尺度的特征图t2和特征图t6相加得到特征图t10，将相同尺度的特征图t3和特征图t7相加得到特征图t11，将相同尺度的特征图t4和特征图t8相加得到特征图t12，然后，对特征图t10、特征图t11、特征图t12分别进行上采样，得到与特征图t9相同尺度大小的特征图t13、特征图t14、特征图t15，最后，将特征图t9、特征图t13、特征图t14、特征图t15进行合并，得到融合特征。

本发明实施例提供的文本检测方法，通过上述方式，通过级联的特征金字塔增强层，对不同尺度大小的第二特征图进行特征增强，并通过第二特征融合层，将各增强特征处理成尺度大小相同的特征图，并将尺度大小相同的特征图进行融合得到融合特征，从而进一步提高融合特征的表征能力，例如增强对图像中不同尺寸文字的识别率，从而进一步提高文本检测的准确性。

下面对本发明提供的文本检测装置进行描述，下文描述的文本检测装置与上文描述的文本检测方法可相互对应参照。

图6为本发明提供的文本检测装置的结构示意图，如图6所示，该文本检测装置，包括：

输入模块610，用于将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图；

检测模块620，用于将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果；

本发明实施例提供的文本检测装置，将待检测图像的第一特征图输入至文本检测模型的注意力层，得到注意力层输出的第二特征图；将第二特征图输入至文本检测模型的文本检测层，得到文本检测层输出的文本检测结果；其中，注意力层用于对第一特征图的多个通道特征进行加权融合。通过上述方式，对待检测图像的第一特征图进行多通道特征提取，并将多个通道特征进行加权融合，以对不同通道的通道特征赋予不同的权重，以分别关注所需重点关注的信息，从而使得到的第二特征图更为准确，进而使基于第二特征图进行文本检测得到的文本检测结果更为准确，最终提高文本检测的准确性。

基于上述任一实施例，该输入模块610包括：

多通道特征提取单元，用于将所述第一特征图输入至所述注意力层的多通道特征提取层，得到所述多通道特征提取层输出的至少两个通道特征；

特征加权单元，用于将所述至少两个通道特征输入至所述注意力层的特征加权层，得到所述特征加权层输出的至少两个加权特征；

第一特征融合单元，用于将所述至少两个加权特征输入至所述注意力层的第一特征融合层，得到所述第一特征融合层输出的第二特征图。

基于上述任一实施例，所述至少两个通道特征包括第一通道特征、第二通道特征、第三通道特征和第四通道特征，该特征加权单元还用于：

基于上述任一实施例，第一特征融合单元还用于：

基于上述任一实施例，所述第二特征图包括多个不同尺度大小的特征图，该检测模块620包括：

特征增强单元，用于将所述第二特征图的各特征图输入至所述文本检测层的特征金字塔增强层，得到所述特征金字塔增强层输出的各增强特征图；

第二特征融合单元，用于将所述各增强特征图输入至所述文本检测层的第二特征融合层，得到所述第二特征融合层输出的融合特征；

文本检测单元，用于将所述融合特征输入至所述文本检测层的检测层，得到所述检测层输出的文本检测结果。

基于上述任一实施例，所述特征金字塔增强层包括多个残差层，所述多个残差层用于对所述第二特征图的各特征图分别进行特征提取；该装置还包括残差提取模块，该残差提取模块包括：

卷积单元，用于将所述第二特征图的任一特征图输入至所述残差层的第一卷积层和第二卷积层，得到所述第一卷积层输出的第一子特征图和所述第二卷积层输出的第二子特征图；

第三特征融合单元，用于将所述第一子特征图、所述第二子特征图和所述第二特征图输入至所述残差层的第三特征融合层，得到所述第三特征融合层输出的特征图。

基于上述任一实施例，所述特征金字塔增强层的数量为至少两个，至少两个所述特征金字塔增强层是级联的。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行文本检测方法，该方法包括：将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图；将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果；其中，所述注意力层用于对所述第一特征图的多个通道特征进行加权融合。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的文本检测方法，该方法包括：将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图；将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果；其中，所述注意力层用于对所述第一特征图的多个通道特征进行加权融合。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的文本检测方法，该方法包括：将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图；将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果；其中，所述注意力层用于对所述第一特征图的多个通道特征进行加权融合。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本检测方法，其特征在于，包括：

2.根据权利要求1所述的文本检测方法，其特征在于，所述将待检测图像的第一特征图输入至文本检测模型的注意力层，得到所述注意力层输出的第二特征图，包括：

3.根据权利要求2所述的文本检测方法，其特征在于，所述至少两个通道特征包括第一通道特征、第二通道特征、第三通道特征和第四通道特征，所述将所述至少两个通道特征输入至所述注意力层的特征加权层，得到所述特征加权层输出的至少两个加权特征，包括：

4.根据权利要求2所述的文本检测方法，其特征在于，所述将所述至少两个加权特征输入至所述注意力层的第一特征融合层，得到所述第一特征融合层输出的第二特征图，包括：

5.根据权利要求1所述的文本检测方法，其特征在于，所述第二特征图包括多个不同尺度大小的特征图，所述将所述第二特征图输入至所述文本检测模型的文本检测层，得到所述文本检测层输出的文本检测结果，包括：

6.根据权利要求5所述的文本检测方法，其特征在于，所述特征金字塔增强层包括多个残差层，所述多个残差层用于对所述第二特征图的各特征图分别进行特征提取；

所述残差层基于如下方式进行特征提取：

7.根据权利要求5所述的文本检测方法，其特征在于，所述特征金字塔增强层的数量为至少两个，至少两个所述特征金字塔增强层是级联的。

8.一种文本检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述文本检测方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本检测方法。