CN111898608B

CN111898608B - 一种基于边界预测的自然场景多语言文字检测方法

Info

Publication number: CN111898608B
Application number: CN202010636379.0A
Authority: CN
Inventors: 冯晓毅; 宋真东; 蒋晓悦; 夏召强; 李会方; 谢红梅; 何贵青; 彭进业; 王西汉
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-07-04
Filing date: 2020-07-04
Publication date: 2022-04-26
Anticipated expiration: 2040-07-04
Also published as: CN111898608A

Abstract

本发明公开了一种基于边界预测的自然场景多语言文字检测方法，首先构建了一个多语言文字检测网络模型，该模型包括特征提取主干网络、残差卷积模块(RCM)、残差池化模块(RPM)和特征融合层，对输入图像逐像素预测文字区域与其外接边界，并将其转化为置信图输出，通过广度优先搜索算法将边界相连的文字区域分离进而得到最终的检测结果。本方法能够检测任意方向、形状的多语言文字区域，降低了算法复杂度，节省计算时间，显著提升了检测精度。

Description

一种基于边界预测的自然场景多语言文字检测方法

技术领域

本发明涉及计算机视觉领域，具体涉及自然场景中多语言文字检测方法。

背景技术

受到全球化加速的影响，不同国家的人们生活在同一个城市中，彼此间文化交流越来越密切，这种趋势带来的最直接的改变是人们生活环境中经常会看到来自不同国家的文字。对基于自然场景内容理解的众多应用而言，如无人驾驶系统、盲人辅助系统、旅行翻译、自动机器人等，以往针对单一或者混合语言而开发的文字检测方法已然无法满足当今多元化的语言环境。而为每一种语言分别开发其对应检测器的策略并不能受到人们的认可。因此，需要克服多语言文字检测中所面临的特有挑战，设计鲁棒的自然场景中多语言文字检测方法。

近年来，卷积神经网络(Convolutional Neural Network，CNN)发展迅速，CNN网络能够自动学习图像视觉特征的能力十分适合用于自然场景中文字检测。多数基于卷积神经网络研发的文字检测算法仅针对一到两种语言设计，无法满足多语言文字检测的需求。并且其方法大多使用四边形目标框定位文字区域，难以适应曲线或不规则文字区域。同时，与拉丁语文字采用空格分隔单词不同，许多非拉丁语文字(如汉语、日语等)因单个字符包含更高的语义信息而不用通过空格分隔单词，因此这类语言通常会具有极大长宽比的文字行，导致了检测算法精度下降。

利用卷积神经网络对文字区域进行像素级的预测能够有效地检测任意形状的多语言文字。然而，当小的文字区域相互靠近时，这种预测方式无法准确分离文字区域，因此直接应用于文字检测时性能有限。

发明内容

为了克服现有技术的不足，本发明提供了一种基于边界预测的自然场景多语言文字检测方法，首先构建了一个多语言文字检测网络模型，该模型包括特征提取主干网络、残差卷积模块(RCM)、残差池化模块(RPM)和特征融合层，对输入图像逐像素预测文字区域与其外接边界，并将其转化为置信图输出，通过广度优先搜索算法将边界相连的文字区域分离进而得到最终的检测结果。

为达到上述目的，本发明提供了一种基于边界预测的自然场景多语言文字检测方法，主要包含以下几个步骤：

步骤1：构建多语言文字检测网络模型

步骤1-1：首先采用若干卷积层对输入图像进行卷积操作，输出图像的特征层通道数变为64，分辨率降低至原始图像的1/4，输出特征层记为[W/4,H/4,64]，其中W和H分别表示输入图像的宽和高；

步骤1-2：步骤1-1输出图像输入到RCM，输出图像的特征层通道数增加到256同时分辨率保持不变，记为[W/4,H/4,256]；

步骤1-3：步骤1-2的输出图像产生两个分支，一个分支通过卷积模块降低特征层通道数但保持分辨率不变，输出特征层记为[W/4,H/4,32]；另一个分支经过降维卷积模块产生一个降低分辨率的特征层，记为[W/8,H/8,64]；

步骤1-4：步骤1-3输出的两个特征层再次分别经过RCM后进入特征融合阶段用以同时提高特征细节与语义信息，融合后的两个特征层分别为([W/4,H/4,32]，[W/8,H/8,64])；融合后的两个特征层中分辨率较低者再通过降维卷积操作产生更低分辨率的特征层，记为[W/16,H/16,128]；

步骤1-5：将步骤1-4产生的三个特征层再分别输入RCM并进行特征融合，融合后的特征层分别为([W/4,H/4,32]，[W/8,H/8,64]，[W/16,H/16,128])；三个特征层中分辨率最低的特征层进一步通过降维卷积模块产生一个更低分辨率的特征层，记为[W/32,H/32,256]；

步骤1-6：步骤1-5输出的四个特征层分别接入四个RCM后输出四个特征层，记为([W/4,H/4,32]₁，[W/8,H/8,64]₁，[W/16,H/16,128]₁，[W/32,H/32,256]₁)；

步骤1-7：再将步骤1-6输出的四个特征层分别依次进入四个RPM和四个RCM，用以进一步捕捉上下文信息，并保持输出通道数为256；

步骤1-8：步骤1-7输出的四个特征层分别经过一个1×1卷积层将通道数降低为3，并进行上采样操作保证分辨率与标签图像一致，经过特征拼接层后再接入一个1×1卷积层输出最终提取特征；

步骤2：设计训练标签

将标签图像中的对象分为三类，多语言文字区域归为一类，非文字背景区域归为一类，多语言文字区域与非文字背景区域的边界曲线归为一类；

对于标注多语言文字区域的选取框的短边长度α，计算偏移量d＝r×α，其中r为偏移参数；对于短边小于A个像素的小文字区域，当d<A*r时，将d设置为A*r；按照偏移量调整标注多语言文字区域的选取框位置，选取框的四个新顶点坐标被定义为{([x₁+d]，[y₁+d])，([x₂-d]，[y₂+d])，([x₃-d]，[y₃-d])，([x₄+d]，[y₄-d])}，其中，{(x₁，y₁)，(x₂，y₂)，(x₃，y₃)，(x₄，y₄)}表示选取框的四个原始顶点坐标；

最后将多语言文字区域内的像素标注为“1”，边界曲线上的像素标注为“2”，非文字背景区域标注为“0”；

步骤3：设计代价函数

多语言文字检测网络的代价函数采用Softmax函数，定义为：

式中，T＝3表示图像中的对象类别数，a表示图像中每一个像素在特征层的输出向量，a_j表示向量a第j个节点的值，a_m表示向量a第m个节点的值；

步骤4：训练多语言文字检测网络模型

针对训练样本，使用具有动量的随机梯度下降算法对多语言文字检测网络进行训练，当代价函数最小时，此时网络模型参数即为最终参数；

步骤5：文字提取

将待检测图像输入训练完成的多语言文字检测网络模型，先得到预测图，在预测图中待检测图像中每个像素被预测为文字、边界、非文字三类；再对预测图采用基于广度优先搜索算法将边界像素与文字区域像素融合，最终得到提取的文字区域。

进一步地，所述RCM模块包含两个3×3卷积层和两个ReLU层以及两个批量归一化层，通过残差连接的方式将卷积前的输入特征与卷积后的输出特征进行融合。

进一步地，所述RPM模块由一个ReLU激活函数层和两个串联的5×5最大池化层组成，每个池化层后面连接一个3×3的卷积层为后续融合提供加权信息，通过最大池化操作捕捉窗口的背景信息并用残差连接的方式与输入特征进行融合。

进一步地，所述特征融合用于融合不同分辨率特征，给定输入特征层为X₁,X₂,…,X_n，融合后输出特征层为Y₁,Y₂,…,Y_n,n表示特征层总数，同一特征层的输入与输出保持相同的分辨率和通道数，特征融合后的输出为：

其中i表示特征层序号，k表示融合后输出的特征层序号，k＝1,2,...,n,DownSample(X_i)和UpSample(X_i)分别为对特征进行下采样和上采样；上采样采用最近邻插值法，下采样根据特征层分辨率相差的倍数使用|i-k|次步长为2的3×3卷积操作。

进一步地，步骤2中的r设置为0.1，A设置为20。

本发明的有益效果是：由于采用了本发明的一种基于边界预测的多语言文字检测方法，相比直接对像素进行文字与非文字预测，能够准确的区分相近的小文字区域；基于像素的预测方式能够检测任意方向、形状的多语言文字区域，降低了算法复杂度，节省计算时间，显著提升了检测精度。

附图说明

图1是本发明的多语言文字检测流程图。

图2为本发明多语言文字检测网络框架图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1和图2所示，本发明提供了一种基于边界预测的自然场景多语言文字检测方法，主要包含以下几个步骤：

步骤1：构建多语言文字检测网络模型

步骤2：设计训练标签

步骤3：设计代价函数

多语言文字检测网络的代价函数采用Softmax函数，定义为：

步骤4：训练多语言文字检测网络模型

步骤5：文字提取

进一步地，步骤2中的r设置为0.1，A设置为20。

实施例：

根据步骤1构建多语言文字检测网络模型，在训练模型时，针对训练样本，使用具有动量的随机梯度下降算法(SGD)对网络进行训练，该算法具有较快的训练速度。在训练中，所有训练数据被迭代100次，初始的学习率和动量分别设置为1×10^-3和0.99并在最后的40次将学习率设置为1×10^-4。

在数据增广方面，图像和对应生成的训练标签按照短边被缩放至512、1024、2048三个尺度并保持长宽比不变，之后图像和标签进行随机的翻转和在[-10°,10°]之间旋转。一个512×512的窗口用以随机裁剪。

经过上述过程，使代价函数最小化；当代价函数最小时，此时网络模型参数即为最终参数。

将待检测图像输入训练完成的多语言文字检测网络模型，先得到预测图，在预测图中待检测图像中每个像素被预测为文字、边界、非文字三类；再对预测图采用基于广度优先搜索算法将边界像素与文字区域像素融合，融合算法如下：

首先对文字区域像素进行连通区域分析，初始化文字区域像素集合T、边界区域像素R和队列Q。其次将所有文字区域像素与其索引送入T中，像素进入队列Q并将边界像素送入R中。接下来从Q中出队一像素，判断其临近像素是否属于边界，如果是则加入T，入队Q并从R中删除，循环判断直到Q为空。最后得到T即属于各自文字区域的像素集合，采用最小外接包围框可得到检测结果，最终得到提取的文字区域。

Claims

1.一种基于边界预测的自然场景多语言文字检测方法，其特征在于，包括以下步骤：

步骤1：构建多语言文字检测网络模型

步骤1-2：步骤1-1输出图像输入到RCM，输出图像的特征层通道数增加到256同时分辨率保持不变，记为[W/4,H/4,256]；所述RCM包含两个3×3卷积层和两个ReLU层以及两个批量归一化层，通过残差连接的方式将卷积前的输入特征与卷积后的输出特征进行融合；

步骤1-7：再将步骤1-6输出的四个特征层分别依次进入四个RPM和四个RCM，用以进一步捕捉上下文信息，并保持输出通道数为256；所述RPM模块由一个ReLU激活函数层和两个串联的5×5最大池化层组成，每个池化层后面连接一个3×3的卷积层为后续融合提供加权信息，通过最大池化操作捕捉窗口的背景信息并用残差连接的方式与输入特征进行融合；

步骤2：设计训练标签

步骤3：设计代价函数

多语言文字检测网络的代价函数采用Softmax函数，定义为：

步骤4：训练多语言文字检测网络模型

步骤5：文字提取

2.如权利要求1所述的一种基于边界预测的自然场景多语言文字检测方法，其特征在于，所述特征融合用于融合不同分辨率特征，给定输入特征层为X₁,X₂,…,X_n，融合后输出特征层为Y₁,Y₂,…,Y_n,n表示特征层总数，同一特征层的输入与输出保持相同的分辨率和通道数，特征融合后的输出为：

3.如权利要求1所述的一种基于边界预测的自然场景多语言文字检测方法，其特征在于，步骤2中的r设置为0.1，A设置为20。