CN107977620A

CN107977620A - 一种基于全卷积网络的多方向场景文本单次检测方法

Info

Publication number: CN107977620A
Application number: CN201711225391.7A
Authority: CN
Inventors: 白翔; 廖明辉; 石葆光; 许永超; 徐培
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-05-01
Anticipated expiration: 2037-11-29
Also published as: CN107977620B

Abstract

本发明公开了一种基于全卷积网络的多方向场景文本单次检测方法，通过构建全卷积的单次检测网络模型，无须多步处理步骤、仅用单个网络就可以进行端到端训练，以多种尺度的特征提取层结合文本框预测层可以检测到不同尺寸、长宽比、分辨率的多方向自然场景文字，并且能以多边形包围盒贴合文字从而更少地引入背景干扰，最后仅需简单的非最大值抑制操作便可获得最终的文本检测结果。本发明提出的检测方法相对于现有技术结构简单有效，在准确度、检测速度和鲁棒性这些方面都取得了卓越的效果，有很强的实际应用价值。

Description

一种基于全卷积网络的多方向场景文本单次检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于全卷积网络的多方向场景文本单次检测方法。

背景技术

在自然场景中，场景文字是最常见的视觉物体之一，比如路牌、车牌、产品包装袋上的文字等。读取场景文字具有十分有用的应用价值，比如基于图片的地理定位、商品图像检索、交通监控系统等。由于背景变化大、前景文字方向任意、长宽比不定、光照条件不可控，读取自然场景中的文字仍然具有较大的挑战性。

传统的文本检测方法通常涉及多级处理步骤，比如：字符或单词候选框的产生、候选框的过滤、候选框的组合连接。这些方法需要费力地调整参数和设计人工规则，来使每个模块相连接之后效果均衡正常预测，这样同时也导致了速度的下降。另外，目前的多方向场景文字检测算法都是以水平或者倾斜的矩形包围盒来贴合文字，而自然场景里的文字通常存在透视、变形等，矩形包围盒会引入过多的背景干扰，不利于检测性能的提升。

因此需要设计一种无须多步处理步骤、仅用单个网络就可以进行端到端训练的多方向场景文本单次检测器，并且能以多边形来贴合文本，同时提升速度和精度。

发明内容

本发明的目的在于提供一种基于全卷积网络的多方向场景文本单次检测方法，该单次检测器结构简单有效，无须多级处理步骤，准确率高，速度快，且鲁棒性强，能克服复杂的图片背景，适应文本长宽比和角度的变化。

为实现上述目的，本发明从一个全新的视角来解决场景文字检测问题，提供了一种基于全卷积网络的多方向场景文本单次检测方法，包括下述步骤：

(1)训练基于全卷积网络的多方向场景文本单次检测网络模型，包括如下子步骤：

(1.1)对原始数据集中所有图片进行文本标注并进行数据扩增，得到带标注的标准训练数据集：以单词级别标记原始训练数据集中所有文本图像的文本内容，标签为包含单词的规则或不规则四边形包围盒的四个顶点坐标，得到带标注的标准训练数据集Itr；

(1.2)定义用于根据单词标签可以预测输出四个顶点坐标的单次检测网络模型，所述单次检测网络模型由全卷积神经网络和卷积预测器组成，根据上述带标注的标准训练数据集计算得到四个顶点坐标相对于初始包围盒的几何偏移量和类别，设计损失函数，结合在线扩增和在线负样本难例挖掘方法，利用反向传导方法训练该单次检测网络，得到单次检测网络模型；具体包括如下子步骤：

(1.2.1)搭建基于全卷积网络的多方向场景文本单次检测网络模型：该单次检测网络有29层，主要包括特征提取单元和卷积预测单元；具体地，特征提取单元包括两部分：前面一部分为来自VGG-16网络的4个卷积单元，包括13层(conv1_1,conv1_2,pool1,conv2_1,conv2_2,pool2,conv3_1,conv3_3,conv3_3,pool3,conv4_1,conv4_2,conv4_3)，用于提取低层特征用于检测；后面一部分为5个额外添加的卷积单元，包括10层(conv6,conv7,conv8_1,conv8_2,conv9_1,conv9_2,conv10_1,conv10_2,conv11_1,conv11_2)，用于提取更高层的深度特征进行检测；卷积预测单元包括：分别连接在6个特征待提取卷积层(conv4_3,conv6,conv7,conv8_2,conv9_2,conv10_2,conv11_2)之后的6个文本框预测层，实质为3×5卷积核，用于预测几何偏移量和类别；

(1.2.2)根据多种尺度的特征图在原图上进行网格划分，产生多种尺度、多种长宽比的水平初始包围盒：对于训练数据集Itr的第i张图片Itr_i，将图片Itr_i的宽度和高度分别缩放到预设宽度W和预设高度H；一般地，默认取值为384和384，四边形标注包围盒集合为Q_i＝[Q_i1,…,Q_im]，根据矩形包围盒的多边形包围盒标注生成最小水平矩形包围盒(x,y,w，h)，其中(x，y)为最小水平矩形包围盒的中心点坐标，w、h分别为它的宽度和高度；对于标注包围盒Q_ip，其中p为下标，p＝[1，…，m]，m表示该图片上标注包围盒的数目；

以Itr_i作为单次检测网络模型的输入，在记后6层特征待提取卷积层分别输出的特征图构成集合Ftr_i＝[Ftr_i1，Ftr_i2，Ftr_i3，Ftr_i4，Ftr_i5，Ftr_i6]，其中Ftr_il为后6层特征待提取卷积层中第l层的输出特征图，l＝[1，…，6]，w_l、h_l分别为该特征图的宽度和高度，它们的像素取值均为[38，19，10，5，3，1]，等同于将输入图片Itr_i分别均匀划分成38×38、19×19、10×10、5×5、3×3、1×1的网格；特征图Ftr_il上的任一坐标(x_l,y_l)对应上输入图片Itr_i上以(x_a,y_a)为中心点坐标的网格G_ila，(x_a,y_a)的计算公式如下：

整数ii∈[0,w_l]

整数jj∈[0,h_l]

在每个网格内，长宽比a_r的取值范围为[1,2,3,5,1/2,1/3,1/5]；以网格中心点为中心，按照a_r所有可能的取值产生第一部分多种长宽比的水平初始包围盒，此外，为了保证在竖直方向上密集覆盖，以网格中心沿竖直方向每移动1/2网格产生另一部分初始包围盒，这两部分组成特征图Ftr_il对应的初始包围盒集合D_il＝[D_il1,…,D_iln]，其中n表示初始包围盒的数目，长宽比为a_r的初始包围盒的宽度w_il和高度h_il满足下列公式：

特殊地，当长宽比a_r＝1时，初始包围盒尺度

其中，S_min＝0.2，S_max＝0.9，分别表示在最小的特征图和最大的特征图上的初始包围盒尺度，S_l表示特征图Ftr_il对应的初始包围盒尺度；

(1.2.3)计算所有初始包围盒的标签，包括几何偏移量和类别：对于Ftr_il对应的初始包围盒集合D_il，考虑D_il集合中的第q个初始包围盒D_ilq，其中q为下标，q＝[1,…,n]，当初始包围盒D_ilq与所有的标注包围盒Q_ip的Jaccard系数均小于0.5，，那么，初始包围盒D_ilq被标记为负类，标签取值为0；否则，即至少存在一个标注包围盒Q_ip与D_ilq的Jaccard系数不小于0.5，D_ilq被标记为正类，标签取值为1，并相对于Jaccard系数最大的标注盒来计算几何偏移量；Q_ip用(x,y,w，h)和来表示，D_ilq用(x₀，y₀，w₀，h₀)来表示，(x₀，y₀)为D_ilq的中心点横、纵坐标，也是网格的中心或网格边界的中点，w₀和h₀分别为D_ilq的宽度、高度，首先得到D_ilq的四个顶点表达形式转换公式如下：

然后根据下列关系式和所有已知量，得到D_ilq的偏移量标签其中额外增加的标签(Δx，Δy，Δw,Δh)被用于多任务训练和预测，有利于提高精度。

x＝x₀+w₀Δx

y＝y₀+h₀Δy

w＝w₀exp(Δw)

h＝h₀exp(Δh)

n＝1，2,3,4

其中，Δx、Δy分别为D_ilq中心点相对于Q_ip中心点的横坐标和纵坐标偏移量，Δw、Δh分别为D_ilq相对于Q_ip的宽度和高度的偏移量；分别为D_ilq相对于Q_ip的四个顶点横坐标和纵坐标的偏移量，exp为指数运算；

(1.2.4)以带标注的标准训练数据集Itr作为多方向场景文本单次检测网络模型的输入，得到预测的输出：对模型初始化网络权重和偏置，先以公开的SynthText合成数据集为输入，按照预设的训练次数和第一学习率进行预训练迭代计算，例如进行6万次预训练迭代计算，学习率设置为10^-4；之后以带标注的标准训练数据集Itr为输入，以预设的第二学习率进行微调训练，例如学习率设置为10^-4，进行微调训练；对于后6个特征待提取卷积层，在第l层输出特征图Ftr_il上的坐标(x_l,y_l)处，(x_ly_l)对应到输入图像Itr_i上以(x₀,y₀)为中心点坐标、以S_l为尺寸、以a_r为长宽比的初始包围盒D_ilq，6个文本框预测层会输出由2个预测值组成的分类得分c＝(c⁺,c^-)，c⁺、c^-分别作为初始包围盒D_ilq被预测为正类文本、负类非文本的得分，均为取值范围在[0,1]之间的小数；同时也输出由13个值组成的预测回归偏移量作为D_ilq被预测为正类文本时相对于标注包围盒的几何偏移量，其中分别为预测为正类的初始包围盒D_ilq中心点横坐标、纵坐标、宽度、高度的预测偏移量，分别为预测为正类的初始包围盒D_ilq四个顶点横坐标、纵坐标的预测偏移量；

(1.2.5)设计目标损失函数，利用反向传播法进行模型训练：以步骤(1.2.3)中初始包围盒的类别和几何偏移量标签为标准输出，以步骤(1.2.4)中预测的初始包围盒分类得分和几何偏移量为预测输出，针对所述单次检测网络模型，设计标准输出和预测输出之间的目标损失函数，目标损失函数是分类损失和回归损失的加权和，表达式如下：

其中，L、L_conf、L_loc分别为目标损失总和、预测的初始包围盒分类的softmax损失、预测的正类包围盒几何偏移量和正类包围盒偏移量标签g之间的平滑L₁回归损失；x为匹配矩阵，当x_i′j′＝1时，说明初始包围盒集合里的第i′个初始包围盒和输入图片Itr_i上第j′个标注包围盒相交且匹配，否则，当x_i′j′＝0时，说明它们之间不匹配；N为与Itr_i上的标注包围盒相交且匹配的初始包围盒总数目；α为回归损失的权重系数，实际中为了快速收敛设置为0.2；

利用反向传播法对模型进行迭代训练，最小化分类损失和回归损失组成的目标损失函数，实现最优模型；

(1.2.6)对带标注的标准训练数据集Itr进行在线扩增，并对在线负样本进行难例挖掘，进行多尺度训练：在(1.2.5)中，由于尺寸小的文本比尺寸较大的文本对应的正类初始包围盒数目少太多，小尺寸样本训练不足，通过随机裁剪和缩放的方法对图像上文本图像块进行数据扩增从而增加小尺寸样本，步骤包括：1)在图像Itr_i上随机选取图像块Ptr_i，与标注包围盒Q_ip包围的文本图像块计算相交系数C，公式如下：

其中，B为随机图像块Ptr_i的面积，G为标注包围盒Q_ip的面积，B∩G为随机图像块Ptr_i与标注包围盒Q_ip相交的面积；2)每个样本的相交阈值t从0、0.1、0.3、0.5、0.7和0.9中随机选取，当C<t，Ptr_i为包含文本信息过少的负类图像块，不参与扩增；当C≥t，Ptr_i为包含较多文本信息的正类图像块，对它进行裁剪并缩放至与输入图像Itr_i相同大小即384×384像素，进行步骤(1.2.5)中的训练；

同时，由于负类初始包围盒数目远远大于正类初始包围盒数目，正类样本训练不足，采用在线负样本难例挖掘策略来平衡正样本和负样本，在训练前阶段控制负样本与正样本之间的比例不超过3:1，后阶段比例不超过6:1；为了加强模型学习到小尺寸和模糊文字的能力，在步骤(1.2.5)中以输入图片缩放尺寸为384×384像素训练的模型效果达到稳定之后，再次将输入图片缩放到768×768像素，重复步骤(1.2.5)进行进一步的微调训练。

(2)利用上述训练好的多方向场景文本单次检测器模型对待检测文本图像进行文字检测，包括如下子步骤：

(2.1)对待检测文本图像进行单尺度快速文本检测：对于待检测文本图像I_tst里的第i张图片Itst_i，将其输入到步骤(1.2)训练好的模型中，像素缩放到预设宽度W和预设高度H(例如384×384像素)，由6个不同的特征待提取卷积层和与之相连的文本框预测层可以检测出不同尺度的文本包围盒，输出的特征图为Ftst_i＝[Ftst_i1,Ftst_i2,Ftst_i3，Ftst_i4,Ftst_i5,Ftst_i6]，其中特征图Ftst_il为第l层特征待提取卷积层的输出特征图，在输出特征图Ftst_il上的坐标(x_l,y_l)处，文本框预测层都会预测出(x_l，y_l)对应的初始包围盒D_ilq被预测为正类文本、负类非文本的得分c＝(c⁺,c^-)，同时也会预测出13个数字作为D_ilq被预测为正类文本时的几何偏移量；

(2.2)对待检测文本图像进行多尺度精准文本检测：对于文字多尺度、文字多角度、多种分辨率的待检测文本图像I_tst里的第i张图片Itst_i，再次分别缩放到其他预设大小(例如384×768、768×384、1000×768、768×1000像素)，依次输入到步骤(1.2)训练好的模型中进行多尺度测试，有利于捕捉到多尺度、多角度、多种长宽比、多种分辨率的文字，测试步骤重复(2.1)，根据预测的几何偏移量，且已知D_ilq的水平中心点表达形式(x₀,x₀，w₀，h₀)和四个顶点初始表达形式按照如下公式，计算预测的文本框四个顶点坐标

n＝1，2，3，4

(2.3)对多尺度检测结果进行非最大值抑制，实现对检测文本框的过滤，得到最终输出：由于多边形的非最大值抑制按照传统算法计算时间明显高于水平矩形，因此设计两级过滤规则：1)对初步检测出的文本框按照正类分类得分c⁺进行过滤，当c⁺<0.5，该检测文本框会被筛选过滤掉，保留c⁺≥0.5的检测文本框；2)对保留的检测文本框按照Jaccard系数0.2进行非最大值抑制操作，得到最终保留的多边形检测文本框。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

(1)结构简单有效：本发明方法与以往的区域提取、过滤、连接的多级方法相比，网络结构简单，无须多级处理步骤和人为设置过滤法则；

(2)准确度高：自然场景图片里的文字经常存在透视、变形等情况，本发明方法与以往大多数预测水平或倾斜矩形包围盒方法不同，预测的是文字包围盒四个顶点坐标，这种多边形包围盒可以不必引入多余的背景干扰，更贴合自然场景文字，同时设计的在线扩增方式和多尺度训练测试可以捕捉到不同尺寸的文字，准确度很高；

(3)鲁棒性强：本发明方法采用的是单个整体的卷积神经网络结构，没有中间步骤需要调整，所以不需要人工设置过滤规则和中间处理步骤，并且对多种尺度和分辨率的文字都有针对性的算法设计，这种单个卷积神经网络结构可以做到更少地依赖人工，实现其他数据的单次预测；

(4)效率高：本发明方法的多方向场景文本单次检测器是端到端进行训练的，每秒能够处理约11.6张大小为1024x1024图像，文本检测仅需通过在基于全卷积网络的单次检测器进行一次正向传播即可获得，计算时间消耗小。

附图说明

图1是本发明基于全卷积网络的多方向场景文本单次检测方法的流程图；

图2是本发明多方向场景文本单次检测器模型网络连接图；

图3是本发明特征图进行网格划分和产生初始包围盒的示意图；

图4是本发明随机裁剪进行数据扩增的示意图，其中图4(a)和图4(b)分别表示一个包围盒及其扩增数据，图4(c)和图4(d)分别表示另一个包围盒及其扩增数据；

图5是本发明一实施例中利用训练好的基于全卷积网络的对待检测文本图像进行文字检测输出包围盒的结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

VGG-16：VGG-16是2014年ILSVRC提出的一种成熟的卷积神经网络结构，包含16个卷积层和全连接层，架构均匀稳定，从开始到结束只执行3x3卷积和2x2池化层，成为经典的卷积神经网络模型。他们的预训练模型可用于Caffe开发框架下的即插即用，通常被现有的多数计算机视觉任务采用为网络模型的基本结构。

SynthText合成数据集：Zisserman在CVPR 2016提出了一种用于生成文本合成图像的新方法，将文本和现有自然场景自然的融合在一起，使用深度学习和分割技术将文本与背景图像的几何结构对齐，并且遵守场景边界，并公开了他们自己合成的数据集SynthText以供其他学者等使用，数据集共包含80万合成的英文文本图片。

Jaccard系数：Jaccard系数用于比较有限样本集之间的相似性与差异性，在文本检测领域，Jaccard系数被默认为等同于IOU，即两个框的相交面积/合并面积，描述模型产生的预测文本框和原来标注文本框的交叠率，IOU越大，重叠度越高，检测越准确。

非最大值抑制：非最大值抑制(NMS)是一种在计算机视觉检测领域中被广泛应用的算法，它按照设定的阈值，通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤，去掉冗余的检测框，得到最终的检测结果。

如图1所示，本发明基于全卷积网络的多方向场景文本单次检测方法包括以下步骤：

(1.1)对原始数据集中所有图片进行文本标注并进行数据扩增，得到标准训练数据集：以单词级别标记训练数据集中所有文本图像的文本内容，标签为包含单词的规则或不规则四边形包围盒的四个顶点坐标得到带标注的标准训练数据集Itr；

(1.2)定义用于根据单词标签可以预测输出四个顶点坐标的单次检测网络模型，所述单次检测网络模型由全卷积神经网络和卷积预测器组成，根据上述训练数据集计算得到四个顶点坐标相对于初始包围盒的几何偏移量和类别，设计损失函数，结合在线扩增和在线负样本难例挖掘方法，利用反向传导方法训练该单次检测网络，得到单次检测网络模型；具体包括如下子步骤：

(1.2.1)搭建基于全卷积网络的多方向场景文本单次检测方法网络模型：该模型网络有29层，主要包括特征提取单元和卷积预测单元；具体地，特征提取单元包括两部分：前面一部分为来自VGG-16网络的4个卷积单元，包括13层(conv1_1,conv1_2,pool1,conv2_1,conv2_2,pool2,conv3_1,conv3_3,conv3_3,pool3,conv4_1,conv4_2,conv4_3)，用于提取低层特征用于检测；后面一部分为5个额外添加的卷积单元，包括10层(conv6,conv7,conv8_1,conv8_2,conv9_1,conv9_2,conv10_1,conv10_2,conv11_1,conv11_2)，用于提取更高层的深度特征进行检测；卷积预测单元包括：分别连接在6个特征待提取卷积层(conv4_3,conv6,conv7,conv8_2,conv9_2,conv10_2,conv11_2)之后的6个文本框预测层，实质为3×5卷积核，用于预测几何偏移量和类别；网络结构如图2所示；

(1.2.2)根据多种尺度的特征图在原图上进行网格划分，产生多种尺度、多种长宽比的水平初始包围盒：对于训练数据集Itr的第i张图片Itr_i，将图片Itr_i的宽度和高度分别缩放到预设宽度W和预设高度H(默认取值为384和384)；，四边形标注包围盒集合为Q_i＝[Q_i1，…，Q_im]，根据矩形包围盒的多边形包围盒标注生成最小水平矩形包围盒(x，y，w，h)，其中(x，y)为最小水平矩形包围盒的中心点坐标，w、h分别为它的宽度和高度；对于标注包围盒Q_ip，其中p为下标，m表示该图片上标注包围盒的数目；

以Itr_i作为单次检测网络模型的输入，在记后6层特征待提取卷积层分别输出的特征图构成集合Ftr_i＝[Ftr_i1，Ftr_i2，Ftr_i3，Ftr_i4，Ftr_i5，Ftr_i6]，其中Ftr_il为后6层特征待提取卷积层中第l层输出的特征图，l＝[1,…,6]，w_l、h_l分别为该特征图的宽度和高度，它们的像素取值均为[38,19,10,5,3,1]，等同于将输入图片Itr_i分别均匀划分成38×38、19×19、10×10、5×5、3×3、1×1的网格；特征图Ftr_il上的任一坐标(x_l,y_l)对应上输入图片Itr_i上以(x_a,y_a)为中心点坐标的网格G_ila，(x_a,y_a)的计算公式如下：

整数ii∈[0,w_l]

整数jj∈[0,h_l]

在每个网格内，长宽比a_r的取值范围为[1,2,3,5,1/2,1/3,1/5]；以网格中心点为中心，按照a_r所有可能的取值产生第一部分多种长宽比的水平初始包围盒，此外，为了保证在竖直方向上密集覆盖，以网格中心沿竖直方向每移动1/2网格产生另一部分初始包围盒，如图3所示意，这两部分组成特征图Ftr_il对应的初始包围盒集合D_il＝[D_il1,…,D_iln]，其中n表示初始包围盒的数目，长宽比为a_r的初始包围盒的宽度w_il和高度h_il满足下列公式：

特殊地，当长宽比a_r＝1时，初始包围盒尺度

(1.2.3)计算所有初始包围盒的标签，包括几何偏移量和类别：对于Ftr_il对应的初始包围盒集合D_il，考虑D_il集合中的第q个初始包围盒D_ilq，其中q为下标，q＝[1,…,n]，当初始包围盒D_ilq与所有的标注包围盒Q_ip的Jaccard系数均小于0.5，，那么，初始包围盒D_ilq被标记为负类，标签取值为0；否则，即至少存在一个标注包围盒Q_ip与D_ilq的Jaccard系数不小于0.5，D_ilq被标记为正类，标签取值为1，并相对于Jaccard系数最大的标注盒来计算几何偏移量；Q_ip用(x,y,w,h)和来表示，D_ilq用(x₀,y₀,w₀,h₀)来表示，(x₀,y₀)为D_ilq的中心点横、纵坐标，也是网格的中心或网格边界的中点，w₀和h₀分别为D_ilq的宽度、高度，首先得到D_ilq的四个顶点表达形式转换公式如下：

然后根据下列关系式和所有已知量，得到D_ilq的偏移量标签其中额外增加的标签(Δx,Δy,Δw,Δh)被用于多任务训练和预测，有利于提高精度。

x＝x₀+w₀Δx

y＝y₀+h₀Δy

w＝w₀exp(Δw)

h＝h₀exp(Δh)

n＝1,2,3,4

(1.2.4)以训练数据集Itr作为多方向场景文本单次检测网络模型的输入，得到预测的输出：对模型初始化网络权重和偏置，先以公开的SynthText合成数据集为输入，进行6万次预训练迭代计算，学习率设置为10^-4；之后以训练数据集Itr为输入，学习率设置为10^-4，进行微调训练；对于后6个特征待提取卷积层，在第l层输出特征图Ftr_il上的坐标(x_l,y_l)处，(x_l,y_l)对应到输入图像Itr_i上以(x₀,y₀)为中心点坐标、以S_l为尺寸、以a_r为长宽比的初始包围盒D_ilq，6个文本框预测层会输出由2个预测值组成的分类得分c＝(c⁺,c^-)，c⁺、c^-分别作为初始包围盒D_ilq被预测为正类文本、负类非文本的得分，均为取值范围在[0,1]之间的小数；同时也输出由13个值组成的预测回归偏移量作为D_ilq被预测为正类文本时相对于标注包围盒的几何偏移量，其中分别为预测为正类的初始包围盒D_ilq中心点横坐标、纵坐标、宽度、高度的预测偏移量，分别为预测为正类的初始包围盒D_ilq四个顶点横坐标、纵坐标的预测偏移量；

(1.2.6)对训练数据集Itr进行在线扩增，并对在线负样本进行难例挖掘，进行多尺度训练：在(1.2.5)中，由于尺寸小的文本比尺寸较大的文本对应的正类初始包围盒数目少太多，小尺寸样本训练不足，通过随机裁剪和缩放的方法对图像上文本图像块进行数据扩增从而增加小尺寸样本，如图4所示，，其中图4(a)和图4(b)分别表示一个包围盒及其扩增数据，图4(c)和图4(d)分别表示另一个包围盒及其扩增数据。步骤包括：1)在图像Itr_i上随机选取图像块Ptr_i，与标注包围盒Q_ip包围的文本图像块计算相交系数C，公式如下：

(2.1)对待检测文本图像进行单尺度快速文本检测：对于待检测文本图像I_tst里的第i张图片Itst_i，像素缩放到预设宽度W和预设高度H，将其输入到步骤(1.2)训练好的模型中，像素缩放到384×384像素，由6个不同的特征待提取卷积层和与之相连的文本框预测层可以检测出不同尺度的文本包围盒，输出的特征图为Ftst_i＝[Ftst_i1,Ftst_i2,Ftst_i3,Ftst_i4,Ftst_i5,Ftst_i6]，其中特征图Ftst_il为第l层特征待提取层卷积层的输出特征图，在输出特征图Ftst_il上的坐标(x_l,y_l)处，文本框预测层都会预测出(x_l,y_l)对应的初始包围盒D_ilq被预测为正类文本、负类非文本的得分c＝(c⁺,c^-)，同时也会预测出13个数字作为D_ilq被预测为正类文本时的几何偏移量；

(2.2)对待检测文本图像进行多尺度精准文本检测：对于文字多尺度、文字多角度、多种分辨率的待检测文本图像I_tst里的第i张图片Itst_i，再次分别缩放到384×768、768×384、1000×768、768×1000像素，依次输入到步骤(1.2)训练好的模型中进行多尺度测试，有利于捕捉到多尺度、多角度、多种长宽比、多种分辨率的文字，测试步骤重复(2.1)，根据预测的几何偏移量，且已知D_ilq的水平中心点表达形式(x₀,y₀,w₀,h₀)和四个顶点初始表达形式按照如下公式，计算预测的文本框四个顶点坐标

n＝1,2,3,4

(2.3)对多尺度检测结果进行非最大值抑制，实现对检测文本框的过滤，得到最终输出：由于多边形的非最大值抑制按照传统算法计算时间明显高于水平矩形，因此设计两级过滤规则：1)对初步检测出的文本框按照正类分类得分c⁺进行过滤，当c⁺<0.5，该检测文本框会被筛选过滤掉，保留c⁺≥0.5的检测文本框；2)对保留的检测文本框按照Jaccard系数0.2进行非最大值抑制操作，得到最终保留的多边形检测文本框。如图5所示，为本发明实施例中利用训练好的基于全卷积网络的对待检测文本图像进行文字检测输出包围盒的结果图。

Claims

1.一种基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述方法包括下述步骤：

(1.1)对原始数据集中所有图片进行文本标注并进行数据扩增，得到带标注的标准训练数据集：以单词级别标记原始训练数据集中所有文本图像的文本内容，标签为包含单词的规则或不规则四边形包围盒的四个顶点坐标，得到带标注的标准训练数据集；

(1.2.1)搭建基于全卷积网络的多方向场景文本单次检测网络模型；

(1.2.2)根据多种尺度的特征图在原图上进行网格划分，产生多种尺度、多种长宽比的水平初始包围盒；

(1.2.3)计算所有初始包围盒的标签，包括几何偏移量和类别；

(1.2.4)以带标注的标准训练数据集作为多方向场景文本单次检测网络模型的输入，得到预测的输出；

(1.2.5)设计目标损失函数，利用反向传播法进行模型训练；

(1.2.6)对带标注的标准训练数据集进行在线扩增，并对在线负样本进行难例挖掘，进行多尺度训练；

(2.1)对待检测文本图像进行单尺度快速文本检测；

(2.2)对待检测文本图像进行多尺度精准文本检测；

(2.3)对多尺度检测结果进行非最大值抑制，实现对检测文本框的过滤，得到最终输出。

2.根据权利要求1所述的基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述步骤(1.2.1)具体为：

该单次检测网络有29层，包括特征提取单元和卷积预测单元；其中，特征提取单元包括两部分：前面一部分为来自VGG-16网络的4个卷积单元，包括13层(conv1_1,conv1_2,pool1,conv2_1,conv2_2,pool2,conv3_1,conv3_3,conv3_3,pool3,conv4_1,conv4_2,conv4_3)，用于提取低层特征用于检测；后面一部分为5个额外添加的卷积单元，包括10层(conv6,conv7,conv8_1,conv8_2,conv9_1,conv9_2,conv10_1,conv10_2,conv11_1,conv11_2)，用于提取更高层的深度特征进行检测；卷积预测单元包括：分别连接在6个特征待提取卷积层(conv4_3,conv6,conv7,conv8_2,conv9_2,conv10_2,conv11_2)之后的6个文本框预测层，用于预测几何偏移量和类别。

3.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述步骤(1.2.2)具体为：

对于带标注的标准训练数据集Itr的第i张图片Itr_i，将图片Itr_i的宽度和高度分别缩放到预设宽度W和预设高度H，四边形标注包围盒集合为Q_i＝[Q_i1,…,Q_im]，根据矩形包围盒的多边形包围盒标注生成最小水平矩形包围盒(x,y,w，h)，其中(x，y)为最小水平矩形包围盒的中心点坐标，w、h分别为它的宽度和高度；对于标注包围盒Q_ip，其中p为下标，p＝[1，…，m]，m表示该图片上标注包围盒的数目，；

以Itr_i作为单次检测网络模型的输入，记后6层特征待提取卷积层分别输出的特征图构成集合Ftr_i＝[Ftr_i1，Ftr_i2，Ftr_i3，Ftr_i4，Ftr_i5，Ftr_i6]，其中Ftr_il为后6层特征待提取卷积层中第l层输出的特征图，l＝[1，…，6]，w_l、h_l分别为该特征图的宽度和高度，它们的像素取值均为[38，19，10，5，3,1]；特征图Ftr_il上的任一坐标(x_l,y_l)对应上输入图片Itr_i上以(x_a,y_a)为中心点坐标的网格G_ila，(x_a,y_a)的计算公式如下：

整数ii∈[0,w_l]

整数jj∈[0,h_l]

在每个网格内，长宽比a_r的取值范围为[1,2,3，5，1/2，1/3，1/5]；以网格中心点为中心，按照a_r所有可能的取值产生第一部分多种长宽比的水平初始包围盒，并以网格中心沿竖直方向每移动1/2网格产生另一部分初始包围盒，这两部分组成特征图Ftr_il对应的初始包围盒集合D_il＝[D_il1，…，D_iln]，其中n表示初始包围盒的数目，长宽比为a_r的初始包围盒的宽度w_il和高度h_il满足下列公式：

其中，S_min和S_max分别表示在最小的特征图和最大的特征图上的初始包围盒尺度，S_l表示特征图Ftr_il对应的初始包围盒尺度。

4.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述步骤(1.2.3)具体为：

对于Ftr_il对应的初始包围盒集合D_il，考虑D_il集合中的第q个初始包围盒D_ilq，其中q为下标，q＝[1，…，n]，当初始包围盒D_ilq与所有的标注包围盒Q_ip的Jaccard系数均小于0.5，那么，初始包围盒D_ilq被标记为负类，标签取值为0；否则，即至少存在一个标注包围盒Q_ip与D_ilq的Jaccard系数不小于0.5，D_ilq被标记为正类，标签取值为1，并相对于Jaccard系数最大的标注盒来计算几何偏移量；Q_ip用(x，y，w，h)和来表示，D_ilq用(x₀，y₀，w₀，h₀)来表示，(x₀，y₀)为D_ilq的中心点横、纵坐标，也是网格的中心或网格边界的中点，w₀和h₀分别为D_ilq的宽度、高度，首先得到D_ilq的四个顶点表达形式转换公式如下：

然后根据下列关系式和所有已知量，得到D_ilq的偏移量标签

x＝x₀+w₀Δx

y＝y₀+h₀Δy

w＝w₀exp(Δw)

h＝h₀exp(Δh)

<mrow> <msubsup> <mi>x</mi> <mi>n</mi> <mi>q</mi> </msubsup> <mo>=</mo> <msubsup> <mi>x</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> <mi>q</mi> </msubsup> <mo>+</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <msubsup> <mi>&Delta;x</mi> <mi>n</mi> <mi>q</mi> </msubsup> </mrow>

<mrow> <msubsup> <mi>y</mi> <mi>n</mi> <mi>q</mi> </msubsup> <mo>=</mo> <msubsup> <mi>y</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> <mi>q</mi> </msubsup> <mo>+</mo> <msub> <mi>h</mi> <mn>0</mn> </msub> <msubsup> <mi>&Delta;y</mi> <mi>n</mi> <mi>q</mi> </msubsup> </mrow>

n＝1，2，3,4

其中，Δx、Δy分别为D_ilq中心点相对于Q_ip中心点的横坐标和纵坐标偏移量，Δw、Δh分别为D_ilq相对于Q_ip的宽度和高度的偏移量；分别为D_ilq相对于Q_ip的四个顶点横坐标和纵坐标的偏移量，exp为指数运算。

5.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述步骤(1.2.4)具体为：

对模型初始化网络权重和偏置，先以公开的SynthText合成数据集为输入，按照预设的训练次数和第一学习率进行预训练迭代计算；之后以训练数据集Itr为输入，以预设的第二学习率进行微调训练；对于后6个特征待提取卷积层，在第l层输出特征图Ftr_il上的坐标(x_l,y_l)处，(x_l,y_l)对应到输入图像Itr_i上以(x₀,y₀)为中心点坐标、以S_l为尺寸、以a_r为长宽比的初始包围盒D_ilq，6个文本框预测层会输出由2个预测值组成的分类得分c＝(c⁺,c^-)，c⁺、c^-分别作为初始包围盒D_ilq被预测为正类文本、负类非文本的得分，均为取值范围在[0,1]之间的小数；同时也输出由13个值组成的预测回归偏移量作为D_ilq被预测为正类文本时相对于标注包围盒的几何偏移量，其中分别为预测为正类的初始包围盒D_ilq中心点横坐标、纵坐标、宽度、高度的预测偏移量，分别为预测为正类的初始包围盒D_ilq四个顶点横坐标、纵坐标的预测偏移量。

6.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述步骤(1.2.5)具体为：

以步骤(1.2.3)中初始包围盒的类别和几何偏移量标签为标准输出，以步骤(1.2.4)中预测的初始包围盒分类得分和几何偏移量为预测输出，针对所述单次检测网络模型，设计标准输出和预测输出之间的目标损失函数，目标损失函数是分类损失和回归损失的加权和，表达式如下：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>c</mi> <mo>,</mo> <mi>l</mi> <mo>,</mo> <mi>g</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> </mrow> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>c</mi> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>&alpha;L</mi> <mrow> <mi>l</mi> <mi>o</mi> <mi>c</mi> </mrow> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mover> <mi>g</mi> <mo>^</mo> </mover> <mo>,</mo> <mi>g</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中，L、L_conf、L_loc分别为目标损失总和、预测的初始包围盒分类的softmax损失、预测的正类包围盒几何偏移量和正类包围盒偏移量标签g之间的平滑L₁回归损失；x为匹配矩阵，当x_i′j′＝1时，说明初始包围盒集合里的第i′个初始包围盒和输入图片Itr_i上第j′个标注包围盒相交且匹配，否则，当x_i′j′＝0时，说明它们之间不匹配；N为与Itr_i上的标注包围盒相交且匹配的初始包围盒总数目；α为回归损失的权重系数；利用反向传播法对模型进行迭代训练，最小化分类损失和回归损失组成的目标损失函数，实现最优网络模型。

7.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述步骤(1.2.6)具体为：

通过随机裁剪和缩放的方法对图像上文本图像块进行数据扩增从而增加小尺寸样本，步骤包括：1)在图像Itr_i上随机选取图像块Ptr_i，与标注包围盒Q_ip包围的文本图像块计算相交系数C，公式如下：其中，B为随机图像块Ptr_i的面积，G为标注包围盒Q_ip的面积，B∩G为随机图像块Ptr_i与标注包围盒Q_ip相交的面积；2)每个样本的相交阈值t从0、0.1、0.3、0.5、0.7和0.9中随机选取，当C<t，Ptr_i为包含文本信息过少的负类图像块，不参与扩增；当C≥t，Ptr_i为包含较多文本信息的正类图像块，对它进行裁剪并缩放至与输入图像Itr_i相同大小，进行步骤(1.2.5)中的训练；

同时，由于负类初始包围盒数目远远大于正类初始包围盒数目，正类样本训练不足，采用在线负样本难例挖掘策略来平衡正样本和负样本，在训练前阶段控制负样本与正样本之间的比例不超过3:1，后阶段比例不超过6:1。

8.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述步骤(2.1)具体为：

对于待检测文本图像I_tst里的第i张图片Itst_i，将其输入到步骤(1.2)训练好的模型中，像素缩放到预设宽度W和预设高度H，由6个不同的特征待提取卷积层和与之相连的文本框预测层可以检测出不同尺度的文本包围盒，输出的特征图为Ftst_i＝[Ftst_i1,Ftst_i2,Ftst_i3,Ftst_i4,Ftst_i5,Ftst_i6]，其中特征图Ftst_il为第l层特征待提取卷积层的输出特征图，在输出特征图Ftst_il上的坐标(x_l,y_l)处，文本框预测层都会预测出(x_l,y_l)对应的初始包围盒D_ilq被预测为正类文本、负类非文本的得分c＝(c⁺,c^-)，同时也会预测出13个数字作为D_ilq被预测为正类文本时的几何偏移量。

9.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述步骤(2.2)具体为：

对于文字多尺度、文字多角度、多种分辨率的待检测文本图像I_tst里的第i张图片Itst_i，再次分别缩放到其他预设大小，依次输入到步骤(1.2)训练好的模型中进行多尺度测试，有利于捕捉到多尺度、多角度、多种长宽比、多种分辨率的文字，测试步骤重复(2.1)，根据预测的几何偏移量，且已知D_ilq的水平中心点表达形式(x₀,y₀,w₀,h₀)和四个顶点初始表达形式按照如下公式，计算预测的文本框四个顶点坐标

<mrow> <msubsup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>n</mi> <mi>q</mi> </msubsup> <mo>=</mo> <msubsup> <mi>x</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> <mi>q</mi> </msubsup> <mo>+</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mi>&Delta;</mi> <msubsup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>n</mi> <mi>q</mi> </msubsup> </mrow>

<mrow> <msubsup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>n</mi> <mi>q</mi> </msubsup> <mo>=</mo> <msubsup> <mi>y</mi> <mrow> <mn>0</mn> <mi>n</mi> </mrow> <mi>q</mi> </msubsup> <mo>+</mo> <msub> <mi>h</mi> <mn>0</mn> </msub> <mi>&Delta;</mi> <msubsup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>n</mi> <mi>q</mi> </msubsup> </mrow>

n＝1,2,3,4。

10.根据权利要求1或2所述的基于全卷积网络的多方向场景文本单次检测方法，其特征在于，所述步骤(2.3)具体为：

设计两级过滤规则：1)对初步检测出的文本框按照正类分类得分c⁺进行过滤，当c⁺<0.5，该检测文本框会被筛选过滤掉，保留c⁺≥0.5的检测文本框；2)对保留的检测文本框按照Jaccard系数0.2进行非最大值抑制操作，得到最终保留的多边形检测文本框。