CN108427924B

CN108427924B - 一种基于旋转敏感特征的文本回归检测方法

Info

Publication number: CN108427924B
Application number: CN201810195630.7A
Authority: CN
Inventors: 白翔; 廖明辉; 朱臻; 石葆光; 许永超; 杨洋; 徐培
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2020-06-23
Anticipated expiration: 2038-03-09
Also published as: CN108427924A

Abstract

本发明公开了一种基于旋转敏感特征的文本回归检测方法，通过方向响应卷积网络得到旋转敏感特征，用于包围盒的回归任务，得到包围盒的位置信息；然后，通过方向响应池化，将旋转敏感特征转化为旋转不变特征，用于包围盒的分类任务，得到包围盒是否属于文本的类别信息；最后，仅需简单后处理即可得到检测结果。该方法对于分类和回归区分设计的特征能适应自然场景图片里任意变化角度的文本，并且可以端到端训练，这种将分类和回归不共享特征的方法也可以应用到一般物体检测的框架中。本发明提出的检测方法相对于现有技术思路新颖，在准确度和通用性这些方面都取得了卓越的效果，有很强的实际应用价值。

Description

一种基于旋转敏感特征的文本回归检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于旋转敏感特征的文本回归检测方法。

背景技术

在计算机视觉领域中，读取自然图片中的文本是一个非常活跃的、具有挑战性的研究方向，很多现实生活中的应用都和它息息相关，例如车牌号码识别、交通指示牌识别、基于图片的地理定位、商品图像检索等。读取自然图片中的文本通常分为2个步骤：第一步是检测自然图片中的文字区域，第二步是对文字区域进行识别，获取文字内容。其中第一步文字检测是非常重要的环节，它直接影响着第二步的识别结果。

由于近年来一般物体检测技术已经取得了巨大的成功，一些研究人员将一般物体检测技术应用于自然场景文字检测中，使得自然场景文字检测取得了较大的进步。但是相对于一般物体检测，由于文字出现方向任意、长宽比变化范围大、尺度变化范围大、背景复杂，自然场景文字仍然具有较大的挑战性。

通常一般物体检测包含物体类别预测(即分类)和物体包围盒回归2个任务，这2个任务共享卷积神经网络提取到的旋转不变特征，最近的自然场景文字检测技术也采用了相同的框架。容易知道，旋转不变特征有助于提高分类任务的性能，但是不利于回归多方向的包围盒，因此在分类任务和包围盒回归任务中使用共享的旋转不变特征是冲突的。在物体长宽比变化不大时这一冲突点并不明显，但是对于长宽比变化范围较大的自然场景文字，尤其是多方向的细条形非拉丁文字行，使用旋转不变特征会影响回归多方向的包围盒。

发明内容

本发明的目的在于提供一种基于旋转敏感特征的文本回归检测方法，该检测方法使用旋转不变特征处理分类任务，使用旋转敏感特征处理多方向包围盒回归任务，准确率高可以嵌入到通用的多方向物体检测框架中，并且适合拉丁和非拉丁文本。

为实现上述目的，本发明从一个全新的视角来解决场景文字检测问题，提供了一种基于旋转敏感特征的文本回归检测方法，包括下述步骤：

(1)训练基于旋转敏感特征的文本回归检测网络模型，包括如下子步骤：

(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注，标签为单词级别的文本包围盒的四个顶点坐标，顶点为顺时针标注，其中文本包围盒为四边形，得到带标注的标准训练数据集；

(1.2)定义基于旋转敏感特征的文本回归检测网络模型，所述检测网络模型由特征提取模块、回归分支和分类分支组成，根据(1.1)带标注的标准训练数据集，计算训练标签，设计损失函数，利用反向传导方法训练该文本回归检测网络，得到文本回归检测网络模型；具体包括如下子步骤：

(1.2.1)构建基于旋转敏感特征的文本回归检测网络模型：所述检测网络模型如图2和图3所示，由特征提取模块、回归分支和分类分支组成；特征提取模块由方向响应卷积网络组成，它以VGG16为基本网络，将常规卷积滤波器变换为主动卷积滤波器(ARF)，其中，传统的卷积(conv)变换为方向响应卷积(ORconv)，包括13层(ORconv1_1,ORconv1_2,pool1,ORconv2_1,ORconv2_2,pool2,ORconv3_1,ORconv3_3,ORconv3_3,pool3,ORconv4_1,ORconv4_2,ORconv4_3)，用于提取低层特征用于检测；后面为5个额外添加的卷积单元，包括10层(ORconv6,ORconv7,ORconv8_1,ORconv8_2,ORconv9_1,ORconv9_2,ORconv10_1,ORconv10_2,ORconv11_1,ORconv11_2)，用于提取高层深度特征进行检测，其中ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2为6个待提取特征层；待提取特征层之后分别接入了回归分支模块和分类分支模块，其中回归分支包含感知块(InceptionBlock)，它由m×m、m×n、n×m这三种尺度的卷积核组合而成，有利于适应多方向长文本的尺度和长宽比变化，三种卷积核输出的特征进行组合用于预测位置偏移量，其中m＝3，对于待提取特征层ORconv4_3、ORconv6，n＝9，对于待提取特征层ORconv8_2、ORconv9_2，n＝7，对于待提取特征层ORconv10_2、ORconv11_2，n＝5；分类分支模块包含池化层和感知块，感知块结构和回归分支相同，用于预测文本和非文本类别；

(1.2.2)根据特征图在原图上产生水平初始包围盒，计算训练标签，包括位置偏移量和类别：对于标准训练数据集Itr的第k张图片Itr_k，将图片Itr_k的宽度和高度分别缩放到预设宽度W和预设高度H；一般地，默认取值为384和384，对Itr_k上任一标注的文本四边形包围盒G_q＝(v₁,v₂,v₃,v₄)，其中v_i＝(x_i,y_i)为四边形第i个顶点横、纵坐标，下标i＝1,2,3,4，G_b＝(b₁,b₂,b₃,b₄)为包围G_q的最小水平矩形；首先，根据设计的初始点算法(First-Point，简称FP)，对标注包围盒G_q四个顶点的顺序进行矫正，对于G_q四个顶点中的每一个点，计算该点与矩形G_b四个顶点之间的欧氏距离，距离之和最小的顶点被确定为G_q的初始顶点v′₁，依旧按照顺时针顺序形成新的四边形标注包围盒G_q＝(v₁′,v′₂,v′₃,v′₄)，公式如下：

其中，d_E表示矩形顶点b_i和四边形顶点v_{(i+j-2)％4+1}之间的欧氏距离，j为下标，

表示欧式距离之和最小对应的下标j，v′₁表示新的初始顶点，v′₂、v′₃、v′₄分别为新的第二顶点、第三顶点、第四顶点；以6个待提取特征图中的每张特征图上的每个像素对应到原图，产生许多初始包围盒，计算初始包围盒Q₀相对于新的四边形标注包围盒G_q的位置偏移量和类别，当所有的标注包围盒G_q与初始包围盒Q₀的Jaccard系数均小于0.5，那么，初始包围盒Q₀被标记为负类非文本，类别标签c取值为0；否则，即至少存在一个标注包围盒G_q与Q₀的Jaccard系数不小于0.5，Q₀被标记为正类文本，类别标签c取值为1，并相对于Jaccard系数最大的标注盒来计算位置偏移量，公式如下：

其中，

分别为初始包围盒Q₀的第i个顶点的横坐标、纵坐标，w₀、h₀分别为初始包围盒Q₀的宽度和高度，Δx_i、Δy_i分别为Q₀的第i个顶点相对于G_q的第i个顶点的横、纵坐标位置偏移量，gt＝(Δx₁,Δy₁,Δx₂,Δy₂,Δx₃,Δy₃,Δx₄,Δy₄,c)构成最终的训练标签；

(1.2.3)以标准训练数据集Itr作为检测网络模型的输入，利用特征提取模块提取旋转敏感特征：对模型初始化网络权重和偏置，以标准训练数据集Itr作为步骤(1.2.1)中检测网络模型特征提取模块的输入，对于图片Itr_k，方向响应网络的主动旋转滤波器(ARF)对Itr_k进行方向响应卷积(ORconv)操作，主动旋转滤波器包含一个传统的卷积滤波器和由它每旋转θ角度得到的滤波器组合而成，这种旋转的卷积操作构成方向响应卷积，本发明中θ取值为45°，主动旋转滤波器由旋转0°、45°、90°、135°、180°、225°、270°、315°的8个卷积滤波器组成，第g层中间特征图每经过一次主动旋转滤波器卷积之后，生成旋转敏感特征图Ftr_g＝[Ftr_g1,Ftr_g2,Ftr_g3,Ftr_g4,Ftr_g5,Ftr_g6,Ftr_g7,Ftr_g8]，记w_l、h_l分别为Ftr_g的宽度和高度，则Ftr_g上的任一坐标(x_l,y_l)对应上输入图片Itr_k上以(x_a,y_a)为中心点坐标的网格Q₀，(x_a,y_a)的计算公式如下：

整数ii∈[0,w_l]

整数jj∈[0,h_l]

在每个网格内，长宽比a_r的取值范围为[1,2,3,5,1/2,1/3,1/5]；以网格中心点为中心，按照a_r所有可能的取值产多种长宽比的水平初始包围盒Q₀，长宽比为a_r的初始包围盒的宽度w_il和高度h_il满足下列公式：

其中，S_min和S_max分别表示最小的特征图和最大的特征图上的初始包围盒尺度，S_l表示第l层特征图对应的初始包围盒尺度；选取6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2的输出特征图[Ftr₁,Ftr₂,Ftr₃,Ftr₄,Ftr₅,Ftr₆]，作为用于后续回归分支和分类分支的旋转敏感特征；

(1.2.4)将旋转敏感特征输入分类分支，通过响应池化操作得到旋转不变特征，利用旋转不变特征预测初始包围盒的分类得分：对于图片Itr_k经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr₁,Ftr₂,Ftr₃,Ftr₄,Ftr₅,Ftr₆]，记第p个特征提取层输出的旋转敏感特征图为Ftr_p，下标p＝1,2,3,4,5,6，对Ftr_p进行方向响应池化操作得到旋转不变特征Ftr_p,pooling，公式如下：

其中N指的是方向通道数(即卷积滤波器个数，本发明中N为8)，通过方向响应池化操作在Ftr_p的方向通道维度上取最大值，消除了方向信息。在旋转不变特征图Ftr_p,pooling，然后通过感知块进行卷积操作之后，得到分类得分图Ftr_cls，Ftr_cls上坐标(x_l,y_l)处的分类得分取值c，作为(x_l,y_l)对应到输入图像Itr_k上以(x_a,y_a)为中心点的初始包围盒Q₀被预测为正类文本的得分，c为取值在[0,1]之间的小数；

(1.2.5)将旋转敏感特征输入回归分支，利用旋转敏感特征预测初始包围盒的位置偏移量：对于图片Itr_k经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr₁,Ftr₂,Ftr₃,Ftr₄,Ftr₅,Ftr₆]，在旋转敏感特征图Ftr_p上坐标(x_l,y_l)处，对应了输入图像Itr_k上以(x_a,y_a)为中心点的初始包围盒Q₀，对每个初始包围盒Q₀，然后通过感知块进行卷积操作之后，得到回归图Ftr_res，回归分支会输出由8个[0,1]之间的小数组成的预测回归偏移量

作为Q₀被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒G_q四个顶点横坐标、纵坐标的预测位置偏移量，与步骤(1.2.4)中的分类得分一起构成预测标签

(1.2.6)以训练标签gt为网络期望输出，以预测标签

为网络预测输出，针对构建的网络模型，设计期望输出和预测输出之间的目标损失函数：以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出，以步骤(1.2.4)和(1.2.5)中的预测标签

为网络预测输出，针对(1.2.1)构建的网络模型，设计期望输出和预测输出之间的目标损失函数，整体目标损失函数由分类分支的分类损失函数和回归分支的回归损失函数共同组成，整体目标损失函数表达式如下：

其中L、L_cls、L_reg分别表示整体目标损失函数、分类分支的分类损失函数、回归分支的回归损失函数。x为训练图片Itr_k上初始包围盒和标注包围盒之间的匹配矩阵，当x＝1时，说明初始包围盒初始包围盒和标注包围盒相交且匹配成功，当x＝0时，说明它们之间不匹配；N为训练图片Itr_k上初始包围盒与标注包围盒相交且匹配的数目(即x中1的个数)；L_cls为预测的初始包围盒分类得分C和初始包围盒类别的softmax损失。L_reg为网络预测的正类包围盒位置偏移量和正类包围盒期望偏移量标签之间的平滑L₁回归损失；α是回归损失的权重系数，实际中设置为0.2，便于网络模型快速收敛。

根据设计的整体目标损失函数，利用反向传播算法对模型进行迭代训练，最小化分类损失和回归损失组成的整体目标损失函数，实现最优网络模型。针对场景文字检测任务，在训练过程中首先使用合成文本数据集(SynthText)上迭代训练3万次，得到初始的网络参数；然后在真实数据集上进行训练，微调网络参数。

(2)利用上述训练好的模型对待检测文本图片进行文字检测，包括如下子步骤：

(2.1)对待检测图片进行分类预测和回归预测：对于待检测数据集I_tst里的第k张图片Itst_k，将其输入到步骤(1.2)训练好的模型中，经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2得到6个旋转敏感特征图[Ftst₁,Ftst₂,Ftst₃,Ftst₄,Ftst₅,Ftst₆]，记第p个特征提取层输出的旋转敏感特征图为Ftst_p，下标p＝1,2,3,4,5,6，在旋转敏感特征图Ftst_p上(x_l,y_l)处，坐标对应了输入图像Itst_k上以(x_a,y_a)为中心点的初始包围盒Q₀，对每个初始包围盒Q₀；对每个初始包围盒Q₀，分类分支会输出由分类得分预测值c，作为初始包围盒Q₀被预测为正类文本的得分；回归分支会输出由8个小数组成的预测回归偏移量

作为Q₀被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒G_q四个顶点横坐标、纵坐标的位置偏移量，根据位置偏移量可以计算网络预测到的四边形文本包围盒位置。

(2.2)对预测的文本包围盒进行非最大值抑制操作进行过滤，得到输出结果：在步骤(2.1)中，网络模型对旋转敏感特征图Ftst_p上每个预测为正类文本的初始包围盒都会回归出四边形位置，同一张测试图片Itst_k上6个旋转敏感特征图上回归出的正类文本四边形通常会出现彼此重叠的情况，这时就要对所有正类文本四边形位置做非最大值抑制操作，具体步骤是：1)对(2.1)预测到的的文本包围盒，当且仅当文本分类得分c≥0.5时，该检测文本框才被保留；2)对上一步保留的文本框，按照Jaccard系数0.2进行非最大值抑制操作，得到最后保留的正类文本四边形包围盒。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)准确度高：该发明针对任务特性区分进行特征设计，创新性地提出使用旋转不变特征处理分类任务，使用旋转敏感特征处理多方向包围盒回归任务，能更精确地回归出多方向的长条形物体坐标，提高检测精度；

(2)通用性强：本发明中对自然场景文字区分进行分类与回归的检测算法，可以轻松地应用到通用的多方向物体检测框架中提高检测精度，适用范围广；

(3)鲁棒性强：本发明可以克服文本尺度和角度的变化，能同时检测拉丁文本和非拉丁文本。

附图说明

图1是本发明基于旋转敏感特征的文本回归检测方法的流程图，其中，实线箭头表示训练，虚线箭头表示测试；

图2是本发明提取旋转敏感特征的基础网络图；

图3是本发明旋转敏感特征用于分类分支模块和回归分支模块的输出组成示意图；

图4是本发明一实施例中利用训练好的基于旋转敏感特征的文本回归检测网络模型对待检测文本图像进行检测的可视化结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

VGG16：2014年ILSVRC的亚军是VGGNet，包含16个CONV/FC层，具有非常均匀的架构，从开始到结束只执行3x3卷积和2x2池化层，成为经典的卷积神经网络模型。他们的预训练模型可用于Caffe开发框架下的即插即用，通常被现有的多数计算机视觉任务采用为网络模型的基本结构。

方向响应卷积网络(ORN)：缺乏处理大图像旋转的能力限制了DCNN在许多视觉任务中的性能，如多方向目标检测、图像分类等，最直接提升性能的方法是基于旋转学习；方向响应卷积网络(ORN)是一种用于图像分类和方向估计的网络，基于旋转学习提出了主动旋转滤波器(ARF)，它利用方向响应卷积(ORConv)生成特征图，其方向通道明确编码判别模式的位置和方向信息。与常规卷积滤波器相比，ARF具有定义方向结构的额外维度。在卷积的过程中，每个ARF旋转并产生特征图，可以从多个方向捕获感受野的响应。

感知块(Inception Block)：它是由Google在GoogleNet中提出的一种组合卷积单元模块，利用不同大小的卷积核分别对特征图进行卷积操作后，再将特征组合在一起，一方面可以增加网络的宽度，另一方面可以改善感受野，增加网络对尺度变化的适应能力。

非最大值抑制(NMS)：非最大值抑制是一种在计算机视觉检测领域中被广泛应用的后处理算法，它按照设定的阈值，通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤，去掉冗余的检测框，得到最终的检测结果。

如图1所示，本发明基于旋转敏感特征的文本回归检测网络方法包括以下步骤：

(1.2.2)根据特征图在原图上产生水平初始包围盒，计算训练标签，包括位置偏移量和类别：对于标准训练数据集Itr的第k张图片Itr_k，将图片Itr_k的宽度和高度分别缩放到预设宽度W和预设高度H；一般地，默认取值为384和384，对Itr_k上任一标注的文本四边形包围盒G_q＝(v₁,v₂,v₃,v₄)，其中v_i＝(x_i,y_i)为四边形第i个顶点横、纵坐标，下标i＝1,2,3,4，G_b＝(b₁,b₂,b₃,b₄)为包围G_q的最小水平矩形；首先，根据设计的初始点算法(First-Point，简称FP)，对标注包围盒G_q四个顶点的顺序进行矫正，对于G_q四个顶点中的每一个点，计算该点与矩形G_b四个顶点之间的欧氏距离，距离之和最小的顶点被确定为G_q的初始顶点v′₁，依旧按照顺时针顺序形成新的四边形标注包围盒G_q＝(v′₁,v′₂,v′₃,v′₄)，公式如下：

其中，

整数ii∈[0,w_l]

整数jj∈[0,h_l]

(1.2.6)以训练标签gt为网络期望输出，以预测标签

(2.2)对预测的文本包围盒进行非最大值抑制操作进行过滤，得到输出结果：在步骤(2.1)中，网络模型对旋转敏感特征图Ftst_p上每个预测为正类文本的初始包围盒都会回归出四边形位置，同一张测试图片Itst_k上6个旋转敏感特征图上回归出的正类文本四边形通常会出现彼此重叠的情况，这时就要对所有正类文本四边形位置做非最大值抑制操作，具体步骤是：1)对(2.1)预测到的的文本包围盒，当且仅当文本分类得分c≥0.5时，该检测文本框才被保留；2)对上一步保留的文本框，按照Jaccard系数0.2进行非最大值抑制操作，得到最后保留的正类文本四边形包围盒。图4为本发明中一实例最终检测到的包围盒结果图。

Claims

1.一种基于旋转敏感特征的文本回归检测方法，其特征在于，所述方法包括下述步骤：

(1.2)定义基于旋转敏感特征的文本回归检测网络模型，根据(1.1)带标注的标准训练数据集，计算训练标签，并设计损失函数，利用反向传导方法训练该文本回归检测网络，得到文本回归检测网络模型；包括：

(1.2.1)构建基于旋转敏感特征的文本回归检测网络模型，所述检测网络模型由特征提取模块、回归分支和分类分支组成；具体地，特征提取模块由方向响应卷积网络组成，它以VGG16为基本网络，将常规卷积滤波器变换为主动卷积滤波器，其中，传统的卷积conv变换为方向响应卷积ORconv，包括13层：ORconv1_1、ORconv1_2、pool1、ORconv2_1、ORconv2_2、pool2、ORconv3_1、ORconv3_2，ORconv3_3、pool3、ORconv4_1、ORconv4_2、ORconv4_3，用于提取低层特征用于检测；后面为5个额外添加的卷积单元，包括10层：ORconv6、ORconv7、ORconv8_1、ORconv8_2、ORconv9_1、ORconv9_2、ORconv10_1、ORconv10_2、ORconv11_1、ORconv11_2，用于提取高层深度特征进行检测，其中ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2为6个待提取特征层；待提取特征层之后分别接入了回归分支模块和分类分支模块，其中回归分支包含感知块，它由m×m、m×n、n×m这三种尺度的卷积核组合而成，有利于适应多方向长文本的尺度和长宽比变化，三种卷积核输出的特征进行组合用于预测位置偏移量；分类分支模块包含池化层和感知块，感知块结构和回归分支相同，用于预测文本和非文本类别；

(1.2.2)根据特征图在原图上产生水平初始包围盒，计算训练标签，包括位置偏移量和类别；

(1.2.3)以带标注的标准训练数据集Itr作为检测网络模型的输入，利用特征提取模块提取旋转敏感特征；

(1.2.4)将旋转敏感特征输入分类分支，通过池化操作得到旋转不变特征，利用旋转不变特征预测初始包围盒的分类得分；

(1.2.5)将旋转敏感特征输入回归分支，利用旋转敏感特征预测初始包围盒的位置偏移量；

(1.2.6)以训练标签gt为网络期望输出，以预测标签

为网络预测输出，针对构建的网络模型，设计期望输出和预测输出之间的目标损失函数；

(2.1)对待检测图片进行分类预测和回归预测；

(2.2)对预测的文本包围盒进行非最大值抑制操作以实现过滤，得到输出结果。

2.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法，其特征在于，所述步骤(1.2.2)具体为：

对于标准训练数据集Itr的第k张图片Itr_k，将图片Itr_k的宽度和高度分别缩放到预设宽度W和预设高度H；对Itr_k上任一标注的文本四边形包围盒G_q＝(v₁,v₂,v₃,v₄)，其中v_i＝(x_i,y_i)为四边形第i个顶点横、纵坐标，下标i＝1,2,3,4，G_b＝(b₁,b₂,b₃,b₄)为包围G_q的最小水平矩形；首先对标注包围盒G_q四个顶点的顺序进行矫正，对于G_q四个顶点中的每一个点，计算该点与矩形G_b四个顶点之间的欧氏距离，距离之和最小的顶点被确定为G_q的初始顶点v′₁，依旧按照顺时针顺序形成新的四边形标注包围盒G_q＝(v′₁,v′₂,v′₃,v′₄)，公式如下：

其中，

分别为初始包围盒Q₀的第i个顶点的横坐标、纵坐标，w₀、h₀分别为初始包围盒Q₀的宽度和高度，Δx_i、Δy_i分别为Q₀的第i个顶点相对于G_q的第i个顶点的横、纵坐标位置偏移量，gt＝(Δx₁,Δy₁,Δx₂,Δy₂,Δx₃,Δy₃,Δx₄,Δy₄,c)构成最终的训练标签。

3.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法，其特征在于，所述步骤(1.2.3)具体为：

对检测网络模型初始化网络权重和偏置，以标准训练数据集Itr作为步骤(1.2.1)中检测网络模型特征提取模块的输入，对于Itr的第k张图片Itr_k，方向响应网络的主动旋转滤波器对Itr_k进行方向响应卷积操作，主动旋转滤波器包含一个传统的卷积滤波器和由它每旋转θ角度得到的滤波器组合而成，这种旋转的卷积操作构成方向响应卷积，第g层中间特征图每经过一次主动旋转滤波器卷积之后，生成旋转敏感特征图Ftr_g＝[Ftr_g1,Ftr_g2,Ftr_g3,Ftr_g4,Ftr_g5,Ftr_g6,Ftr_g7,Ftr_g8]，记w_l、h_l分别为Ftr_g的宽度和高度，则Ftr_g上的任一坐标(x_l,y_l)对应上输入图片Itr_k上以(x_a,y_a)为中心点坐标的网格Q₀，(x_a,y_a)的计算公式如下：

整数ii∈[0,w_l]

整数jj∈[0,h_l]

在每个网格内，长宽比a_r的取值范围为[1,2,3,5,1/2,1/3,1/5]；以网格中心点为中心，按照a_r所有可能的取值产生多种长宽比的水平初始包围盒Q₀，长宽比为a_r的初始包围盒的宽度w_il和高度h_il满足下列公式：

其中，S_min和S_max分别表示最小的特征图和最大的特征图上的初始包围盒尺度，S_l表示第l层特征图对应的初始包围盒尺度；选取6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、conv10_2、ORconv11_2的输出特征图[Ftr₁,Ftr₂,Ftr₃,Ftr₄,Ftr₅,Ftr₆]，作为用于后续回归分支和分类分支的旋转敏感特征。

4.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法，其特征在于，所述步骤(1.2.4)具体为：

对于图片Itr_k经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr₁,Ftr₂,Ftr₃,Ftr₄,Ftr₅,Ftr₆]，记第p个特征提取层输出的旋转敏感特征图为Ftr_p，下标p＝1,2,3,4,5,6，对Ftr_p进行方向响应池化操作得到旋转不变特征Ftr_p,pooling，公式如下：

其中N指的是方向通道数，通过方向响应池化操作在Ftr_p的方向通道维度上取最大值，消除了方向信息；在旋转不变特征图Ftr_p,pooling通过感知块进行卷积操作之后，得到分类得分图Ftr_cls，Ftr_cls上坐标(x_l,y_l)处的分类得分取值c，作为(x_l,y_l)对应到输入图像Itr_k上以(x_a,y_a)为中心点的初始包围盒Q₀被预测为正类文本的得分，c为取值在[0,1]之间的小数。

5.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法，其特征在于，所述步骤(1.2.5)具体为：

对于图片Itr_k经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2输出的6个旋转敏感特征图[Ftr₁,Ftr₂,Ftr₃,Ftr₄,Ftr₅,Ftr₆]，在旋转敏感特征图Ftr_p上坐标(x_l,y_l)处，对应了输入图像Itr_k上以(x_a,y_a)为中心点的初始包围盒Q₀，对每个初始包围盒Q₀，然后通过感知块进行卷积操作之后，得到回归图Ftr_res，回归分支会输出由8个[0,1]之间的小数组成的预测回归偏移量

作为Q₀被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒G_q四个顶点横坐标、纵坐标的预测位置偏移量，与步骤(1.2.4)中的分类得分构成预测标签

6.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法，其特征在于，所述步骤(1.2.6)具体为：

以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出，以步骤(1.2.4)和(1.2.5)中的预测标签

为网络预测输出，针对步骤(1.2.1)构建的网络模型，设计期望输出和预测输出之间的目标损失函数，整体目标损失函数由分类分支的分类损失函数和回归分支的回归损失函数共同组成，整体目标损失函数表达式如下：

其中L、L_cls、L_reg分别表示整体目标损失函数、分类分支的分类损失函数、回归分支的回归损失函数，x为训练图片Itr_k上初始包围盒和标注包围盒之间的匹配矩阵，当x＝1时，说明初始包围盒和标注包围盒相交且匹配成功，当x＝0时，说明它们之间不匹配；N为训练图片Itr_k上初始包围盒与标注包围盒相交且匹配的数目；L_cls为预测的初始包围盒分类得分C和初始包围盒类别的softmax损失，L_reg为网络预测的正类包围盒位置偏移量和正类包围盒期望偏移量标签之间的平滑L₁回归损失；α是回归损失的权重系数；根据设计的整体目标损失函数，利用反向传导方法对模型进行迭代训练，最小化分类损失和回归损失组成的整体目标损失函数，实现最优网络模型。

7.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法，其特征在于，所述步骤(2.1)具体为：

对于待检测数据集I_tst里的第k张图片Itst_k，将其输入到步骤(1.2)训练好的模型中，经过6个待提取特征层ORconv4_3、ORconv7、ORconv8_2、ORconv9_2、ORconv10_2、ORconv11_2得到6个旋转敏感特征图[Ftst₁,Ftst₂,Ftst₃,Ftst₄,Ftst₅,Ftst₆]，记第p个特征提取层输出的旋转敏感特征图为Ftst_p，下标p＝1,2,3,4,5,6，在旋转敏感特征图Ftst_p上(x_l,y_l)处，坐标对应了输入图像Itst_k上以(x_a,y_a)为中心点的初始包围盒Q₀，对每个初始包围盒Q₀，分类分支会输出分类得分预测值c，作为初始包围盒Q₀被预测为正类文本的得分；回归分支会输出由8个小数组成的预测回归偏移量

作为Q₀被预测为正类文本框时四个顶点横坐标、纵坐标相对于标注包围盒G_q四个顶点横坐标、纵坐标的位置偏移量，根据位置偏移量计算网络预测到的四边形文本包围盒位置。

8.根据权利要求1所述的基于旋转敏感特征的文本回归检测方法，其特征在于，所述步骤(2.2)具体为：

在步骤(2.1)中，网络模型对旋转敏感特征图Ftst_p上每个预测为正类文本的初始包围盒都会回归出四边形位置，同一张测试图片Itst_k上6个旋转敏感特征图上回归出的正类文本四边形通常会出现彼此重叠的情况，这时就要对所有正类文本四边形位置做非最大值抑制操作，具体步骤是：1)对(2.1)预测到的文本包围盒，当且仅当文本分类得分c≥0.5时，该检测文本框才被保留；2)对上一步保留的文本框，按照Jaccard系数0.2进行非最大值抑制操作，得到最后保留的正类文本四边形包围盒。