CN110580462B

CN110580462B - 一种基于非局部网络的自然场景文本检测方法和系统

Info

Publication number: CN110580462B
Application number: CN201910811411.1A
Authority: CN
Inventors: 姜军; 解猛; 周作禹; 胡忠冰; 曾雄梅; 胡若澜
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-02-15
Anticipated expiration: 2039-08-29
Also published as: CN110580462A

Abstract

本发明公开了一种基于非局部网络的自然场景文本检测方法和系统，属于图像处理技术领域，方法包括：提取图片的多尺度特征，并使用非局部网络重构各个尺度特征，得到重构后的特征；利用重构后的特征产生文本的候选区域；根据候选区域提取感兴趣区域，并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整，最终得到图像中的文本目标。本发明通过使用非局部网络重构各个尺度特征，能够有效地抑制文本检测结果中伪正样本的发生，由此解决现有技术存在将背景区域误判为文本目标的技术问题。

Description

一种基于非局部网络的自然场景文本检测方法和系统

技术领域

本发明属于图像处理技术领域，更具体地，涉及一种基于非局部网络的自然场景文本检测方法和系统。

背景技术

作为文字的一种表现形式，自然场景中的文本有着丰富且精确的高级语义信息，这些语义信息对于其周围场景的理解起到了十分重要的作用。正因为此，自然场景中文本信息的自动获取，在自动驾驶、即时翻译、机器人导航、工业自动化等领域具有广泛的应用前景。如何准确、高效地提取自然场景中的文本信息已成为当前计算机视觉的热点问题之一，此任务包含文本检测和文本识别两个子任务，前者是实现后者的前提。

现有的基于两阶段的自然场景文本检测算法，在得到文本目标的候选区域后，需要进一步通过候选区域提取感兴趣区域，并对感兴趣区域进行文本和分文本的分类以及位置和尺寸的调整，最终得到图像中的文本目标。由于感兴趣区域仅仅包含候选区域内部的局部信息，当一个背景区域和文本有着相近的特征时，分类器常常将其误判为文本目标。

由此可见，现有技术存在将背景区域误判为文本目标的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于非局部网络的自然场景文本检测方法和系统，由此解决现有技术存在将背景区域误判为文本目标的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于非局部网络的自然场景文本检测方法，包括如下步骤：

(1)提取图片的多尺度特征，并使用非局部网络重构各个尺度特征，得到重构后的特征；

(2)利用重构后的特征产生文本的候选区域；

(3)根据候选区域提取感兴趣区域，并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整，最终得到图像中的文本目标。

进一步地，步骤(1)中重构前，提取图片的多尺度特征，构成多尺度特征图，通过卷积和池化操作将多尺度特征图的尺寸调整到图片大小的1/M。

进一步地，M≥2。

进一步地，步骤(1)中重构时，通过非局部网络对池化操作后的多尺度特征图中的每个像素加入全局信息。

进一步地，重构包括如下步骤：

(11)多尺度特征分别通过3组1*1的卷积，分别形成Query特征、Key特征和Value特征，Query特征、Key特征、Value特征的尺寸大小分别为(C/N)*H*W、(C/N)*H*W、C*H*W；其中，C表示通道数，H表示高，W表示宽，N≥2；

(12)对Query特征、Key特征、Value特征进行变形或转置操作，变形或转置后的Query特征、Key特征、Value特征的尺寸为HW*(C/N)、(C/N)*HW、C*HW；

(13)对Query特征和Key特征进行矩阵相乘，并对相乘得到的结果按行进行softmax归一化操作，得到尺寸为HW*HW的权重矩阵；

(14)将步骤(13)中的权重矩阵与Value特征进行矩阵相乘后通过变形操作将尺寸调整至C*H*W；

(15)对步骤(13)中的权重矩阵按列计算标准差后通过变形操作将尺寸调整至H*W，对Value特征按列计算均值后通过变形操作将尺寸调整至H*W，两个H*W的特征通过1*1的卷积，输出1*H*W的权重矩阵；

(16)将步骤(14)中的C*H*W的特征中的每一个通道，与步骤(15)中的1*H*W的权重矩阵按元素相乘，得到重构后的特征。

按照本发明的另一方面，提供了一种基于非局部网络的自然场景文本检测系统，包括：

特征重构模块，用于提取图片的多尺度特征，并使用非局部网络重构各个尺度特征，得到重构后的特征；

候选区域提取模块，用于利用重构后的特征产生文本的候选区域；

文本分类和回归模块，用于根据候选区域提取感兴趣区域，并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整，最终得到图像中的文本目标。

进一步地，特征重构模块中重构前，提取图片的多尺度特征，构成多尺度特征图，通过卷积和池化操作将多尺度特征图的尺寸调整到图片大小的1/M。

进一步地，M≥2。

进一步地，特征重构模块中重构时，通过非局部网络对池化操作后的多尺度特征图中的每个像素加入全局信息。

进一步地，重构包括：

第一模块，用于将多尺度特征分别通过3组1*1的卷积，分别形成Query特征、Key特征和Value特征，Query特征、Key特征、Value特征的尺寸大小分别为(C/N)*H*W、(C/N)*H*W、C*H*W；其中，C表示通道数，H表示高，W表示宽，N≥2；

第二模块，用于对Query特征、Key特征、Value特征进行变形或转置操作，变形或转置后的Query特征、Key特征、Value特征的尺寸为HW*(C/N)、(C/N)*HW、C*HW；

第三模块，用于对Query特征和Key特征进行矩阵相乘，并对相乘得到的结果按行进行softmax归一化操作，得到尺寸为HW*HW的权重矩阵；

第四模块，用于将第三模块中的权重矩阵与Value特征进行矩阵相乘后通过变形操作将尺寸调整至C*H*W；

第五模块，用于对第三模块中的权重矩阵按列计算标准差后通过变形操作将尺寸调整至H*W，对Value特征按列计算均值后通过变形操作将尺寸调整至H*W，两个H*W的特征通过1*1的卷积，输出1*H*W的权重矩阵；

第六模块，用于将第四模块中的C*H*W的特征中的每一个通道，与第五模块中的1*H*W的权重矩阵按元素相乘，得到重构后的特征。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供的基于非局部网络自然场景文本检测的方法，通过使用非局部网络重构各个尺度特征，能够有效地抑制文本检测结果中伪正样本的发生，由此解决现有技术存在将背景区域误判为文本目标的技术问题。

(2)本发明提供的基于非局部网络自然场景文本检测的方法，无需引入额外的可学习参数，由于在特征重构时加入了全局信息，使得后续提取的感兴趣区域具有全局上下文信息，加强了文本与文本目标之间的联系，提高了文本检测的精确率。

(3)本发明提供的基于非局部网络自然场景文本检测的方法，由于文本检测精确率的提高，使得自然场景文本检测系统的F1性能得到提升，同等实验条件下，本发明方法优于其他自然场景文本检测算法。

(4)本发明中Query特征、Key特征、Value特征均来自同一特征集合，能够在集合内部元素与元素之间建立联系，并且不受空间距离的影响。同时，本发明进一步利用了文本和背景的分布规律，使这种联系得到了加强。为了进一步降低显存的消耗和增加计算效率，本发明对Query特征、Key特征的通道数量和特征图分辨率进行缩减。

附图说明

图1是本发明实施例提供的基于自适应区域建议网络的自然场景文本检测方法的流程示意图；

图2是本发明实施例提供的详细流程示意图；

图3是本发明实施例提供的检测框架整体的网络结构图；

图4是本发明实施例提供的非局部网络的网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种基于非局部网络的自然场景文本检测方法，其目的在于通过构建非局部网络，在特征提取阶段向感兴趣区域中加入图片的全局信息，减少伪正样本的产生。

如图1所示，一种基于非局部网络的自然场景文本检测方法，包括如下步骤：

(2)利用重构后的特征产生文本的候选区域；

进一步地，M≥2。

进一步地，重构包括如下步骤：

如图2所示，具体地：

一种基于非局部网络的自然场景文本检测方法，包括如下步骤：

(1)通过ResNet-50和FPN网络提取图片的多尺度特征，并使用非局部网络重构各个尺度特征，得到重构后的特征；

(2)将重构后的特征输入到RPN网络，产生文本的候选区域；

(3)对候选区域进行ROI Align，提取感兴趣区域，并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整，最终得到图像中的文本目标。

如图3所示，从左至右，第一个虚线框内为特征提取的基础网络ResNet-50，第二个虚线框内为特征金字塔网络(FPN)，从ResNet-50中获得多分辨率的特征并形成特征金字塔。第三个虚线框内为本发明所提出的基于自注意力机制的文本上下文捕获网络(TextContext Capture Network，TCCN)。TCCN从p2、p3、p4获取基础特征，并分别对p2进行4倍降采样(步长为2的3*3卷积+最大池化)，p3进行2倍降采样(步长为2的3*3卷积)，分别得到p2′、p3′，使得降采样后的特征图大小和p4尺寸相同。p4经过3*3卷积得到p4′。然后，将p2′，p3′，p4′分别送入非局部网络进行重构，将重构后的特征输入到RPN网络，产生文本的候选区域；对候选区域进行ROI Align，提取感兴趣区域，并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整，最终得到图像中的文本目标的类别和位置。角点回归网络回归包围目标四边形的四个角点，共8坐标值。分类网络中2表示两种类别，分类和回归网络为2组1024*1*1的卷积。

如图4所示，非局部网络包括：尺寸大小为CxHxW的特征图送入到3组1*1，并分为3个支路。其中，第一个支路首先经过1*1的卷积，将通道数降为C/8，再经过变形和转置操作，形成尺寸为HW*(C/8)的Query特征；同样，第二个支路通过1*1的卷积降低通道数为C/8，再经过变形得到尺寸为(C/8)*HW的Key特征；第三个支路经过1*1的卷积，保持通道数量不变，经过变形操作得到C*HW的Value特征。然后将Query和Key进行矩阵相乘，并使用Softmax对结果进行归一化，得到尺寸大小为(HW)*(HW)的权重矩阵。权重矩阵记录了Query中的每一个位置和Key中所有位置的依赖关系，并以权重的方式表现出来。最后再将Value与权重矩阵进行矩阵相乘并将尺寸变形为C*H*W。

具体地，重构包括如下步骤：

(11)多尺度特征分别通过3组1*1的卷积，分别形成Query特征、Key特征和Value特征，Query特征、Key特征、Value特征的尺寸大小分别为(C/8)*H*W、(C/8)*H*W、C*H*W；其中，C表示通道数，H表示高，W表示宽；

(12)对Query特征、Key特征、Value特征进行变形或转置操作，变形或转置后的Query特征、Key特征、Value特征的尺寸为HW*(C/8)、(C/8)*HW、C*HW；

本发明提供的基于非局部网络自然场景文本检测的方法，通过使用非局部网络重构各个尺度特征，能够有效地抑制文本检测结果中伪正样本的发生，由此解决现有技术存在将背景区域误判为文本目标的技术问题。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非局部网络的自然场景文本检测方法，其特征在于，包括如下步骤：

(2)利用重构后的特征产生文本的候选区域；

(3)根据候选区域提取感兴趣区域，并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整，最终得到图像中的文本目标；

所述重构包括如下步骤：

2.如权利要求1所述的一种基于非局部网络的自然场景文本检测方法，其特征在于，所述步骤(1)中重构前，提取图片的多尺度特征，构成多尺度特征图，通过卷积和池化操作将多尺度特征图的尺寸调整到图片大小的1/M。

3.如权利要求2所述的一种基于非局部网络的自然场景文本检测方法，其特征在于，所述M≥2。

4.如权利要求2所述的一种基于非局部网络的自然场景文本检测方法，其特征在于，所述步骤(1)中重构时，通过非局部网络对池化操作后的多尺度特征图中的每个像素加入全局信息。

5.一种基于非局部网络的自然场景文本检测系统，其特征在于，包括：

文本分类和回归模块，用于根据候选区域提取感兴趣区域，并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整，最终得到图像中的文本目标；

所述重构包括：

6.如权利要求5所述的一种基于非局部网络的自然场景文本检测系统，其特征在于，所述特征重构模块中重构前，提取图片的多尺度特征，构成多尺度特征图，通过卷积和池化操作将多尺度特征图的尺寸调整到图片大小的1/M。

7.如权利要求6所述的一种基于非局部网络的自然场景文本检测系统，其特征在于，所述M≥2。

8.如权利要求6所述的一种基于非局部网络的自然场景文本检测系统，其特征在于，所述特征重构模块中重构时，通过非局部网络对池化操作后的多尺度特征图中的每个像素加入全局信息。