CN106980858A

CN106980858A - 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法

Info

Publication number: CN106980858A
Application number: CN201710112377.XA
Authority: CN
Inventors: 谢洪涛; 方山城; 谭建龙
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2017-07-25
Anticipated expiration: 2037-02-28
Also published as: CN106980858B

Abstract

本发明提供一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法，该系统包括：一特征提取网络，用于从待检测图像中提取底层的CNN特征，得到若干不同的特征图；至少三个区域建议网络，用于分别对上述不同的特征图进行二分类以及边界框回归，然后根据包含文本的特征图产生文本候选区域；一过渡区域，用于连接多个上述文本候选区域，并根据上述包含文本的特征图及文本候选区域产生区域卷积特征图；一文本检测网络，用于根据上述区域卷积特征图产生文本区域边界框偏置信息，并对上述偏置信息进行非极大值抑制以及非合理区域过滤操作，产生图像坐标空间的预测文本区域边界框坐标信息。

Description

一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法

技术领域

本发明涉及图像检测信息领域，尤其涉及一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法。

背景技术

图像中的语言文本往往包含有价值的信息，并且该信息在很多基于内容的图片和图像应用中被开发，像基于内容的网络图片查找，图像信息检索和自动文本分析和识别。传统的复杂背景语言文本定位方法大致可以分为三类：基于滑动窗的方法，基于连通成分的方法，混合方法。

典型的方法如使用MSERs(最大稳定极值区域)的基于连通成分的方法，该方法使用多阶段的方法定位语言文本信息：首先提取图像R、G和B三个通道的MSERs区域；然后训练分类器去掉重复的MSERs区域和非文本的MSERs区域，得到候选MSERs区域；之后候选文本区域连接成文本条；最后对得到的文本条进行去重处理。该方法虽然能检测与定位语言文本区域，但是过程较为繁琐，分为多个阶段进行。其检测效果依赖于MSERs产生的候选区域质量，同时受影响于人工设计的特征提取方式，如HOG(方向梯度直方图)等。此外，该方法的检测与定位的效率过低，一张图像大概需要60s左右。

本发明使用的技术不同于传统的语言文本检测与定位技术，而是使用深度学习技术。与本发明相关的深度学习为Ross Girshick等提出的基于区域的通用目标检测框架RCNN，以及其改进的Faster RCNN相关框架。该类方法的主要特点是通过一定方法，如Selective Search(选择搜索)、RPN(区域建议网络)等，产生物体候选区域，然后使用深度神经网络对该区域进行分类以及回归。此类方法在通用物体检测领域有较好的效果，但是由于语言文本形态复杂多变，在图像中常常处于较小且较长的位置，因而很难直接应用该类方法做语言文本检测。

发明内容

本发明的目的是提供一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法，该方法能够从给定的复杂背景图像中检测是否存在语言文本，如果存在，则返回该文本区域在图像中的精确坐标位置。本发明应对的图像是任意可能包含各种语言文本信息的背景图像，而不局限于文档图像等。

图像文本检测对发展信息自动化技术至关重要。本发明方法基于人工神经网络的方式，旨在从复杂背景图像中检测与定位语言文本信息。该方法使用基于区域的全卷积神经网络对包含各种类型语言的文本进行文本行级别的检测，其基于区域的全卷积神经网络的整体结构示意图如图1所示。该网络输入为一张完整的图像，输出为检测出的可能包含文本区域在图像上的坐标信息，不需要额外的处理方法再对网络进行后处理。

为达上述目的，本发明所采用的技术方案为：

一种语言文本检测与定位系统，为一种基于区域的全卷积神经网络，该系统包括；

一特征提取网络(FEN)，包括若干卷积层和相应池化层，用于从待检测图像中提取底层的CNN特征，得到若干不同的特征图；

至少三个区域建议网络(RPN)，用于分别对上述不同的特征图进行二分类以及边界框(Bounding Box)回归，然后根据包含文本的特征图产生文本候选区域；

一过渡区域，用于连接多个上述文本候选区域，并根据上述包含文本的特征图及文本候选区域产生区域卷积特征图；

一文本检测网络(TDN)，用于根据上述区域卷积特征图产生文本区域边界框偏置信息，并对上述偏置信息进行非极大值抑制(NMS)以及非合理区域过滤操作，产生图像坐标空间的预测文本区域边界框坐标信息。

进一步地，所述特征提取网络作为分类网络在ImageNet数据集上进行预训练，得到特征提取网络模型，所述特征提取网络模型与所述区域建议网络及所述文本检测网络进行端到端的训练。

更进一步地，所述端到端的训练使用多任务损失协同训练网络，并采用随机梯度下降(Stochastic Gradient Descent,简称SGD)方法。

更进一步地，所述特征提取网络模型是指特征提取网络在ImageNet数据集上进行分类训练后，移除其分类层保留参数层而得到的参数作为特征提取网络端到端训练的初始化参数值。

一种应用上述系统的语言文本检测与定位方法，其步骤包括：

1)从待检测图像中提取底层的CNN特征，得到若干不同的特征图；

2)对上述不同的特征图进行二分类以及边界框回归，根据包含文本的特征图产生文本候选区域；

3)根据上述包含文本的特征图以及上述文本候选区域提取区域卷积特征图；

4)根据上述区域卷积特征图产生文本区域边界框偏置信息；

5)对上述偏置信息进行非极大值抑制以及非合理区域过滤操作，产生图像坐标空间的预测文本区域边界框坐标信息。

进一步地，步骤2)中所述文本候选区域由三个区域建议网络分别根据所述特征提取网络的不同卷积层提取的特征图产生；且所述文本候选区域为文本行区域。

进一步地，步骤3)中所述区域卷积特征图由ROIPooling层提取；且对任意给定文本候选区域，ROIPooling层产生固定大小的区域卷积特征图。

进一步地，步骤4)中使用全局均值池化层(Global Average Pooling)对上述区域卷积特征图进行投票，得到文本区域边界框偏置信息。

进一步地，步骤5)中所述图像坐标空间的预测文本区域边界框坐标信息由文本检测网络的输出层Output输出。

进一步地，所述语言文本为维吾尔语文本。

本发明的有益效果在于：本发明提供一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法，该系统为一种基于区域的全卷积神经网络，且该网络的三个子网络通过有效协作的方式整合在一起，使用端到端的方式训练及检测。并且应用该系统的一种语言文本检测与定位方法对复杂背景图像中语言文本检测与定位能够达到很高的识别精度和很快的速度。其具体表现为：

1)精度方面：例如在维吾尔语文本检测数据集UICBI正确率达0.91，召回率达0.81，F值达0.86，其中F值为综合正确率与召回率在数值上评测的结果。

2)速度方面：例如在Nvidia TeslaK20c GPU下每张图像0.30s左右，在NvidiaTitan X下每张图像0.18s左右。

附图说明

图1为本发明一种语言文本检测与定位系统的结构示意图。

图2为本发明基于区域的全卷积神经网络模型的各个网络层的详细参数配置示意图。

图3为本发明ROIPooling层工作模式示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明提供一种语言文本检测与定位系统，为一种基于区域的全卷积神经网络，如图1所示，该系统包括一特征提取网络、至少三个区域建议网络、一过渡区域和一文本检测网络；

所述特征提取网络包括若干卷积层和相应池化层，用于从待检测图像中提取底层的CNN特征，得到若干不同的特征图；

所述至少三个区域建议网络用于分别对上述不同的特征图做是否包含文本的二分类以及边界框回归，然后根据包含文本的特征图产生文本候选区域；

所述过渡区域包括一Concat层和一ROIPooling层，所述Concat层用于连接上述至少三个区域建议网络的输出结果，即多个文本候选区域；所述ROIPooling层用于根据上述包含文本的特征图及文本候选区域产生区域卷积特征图；

所述文本检测网络用于根据上述区域卷积特征图产生文本区域边界框偏置信息以及相应文本区域的预测评分(Score)信息，并对上述偏置信息及预测评分信息进行非极大值抑制以及非合理区域过滤操作，产生图像坐标空间的预测文本区域边界框坐标信息及相应文本区域的评分信息。

所述特征提取网络作为分类网络在ImageNet数据集上进行预训练，得到特征提取网络模型，所述特征提取网络模型与所述区域建议网络及所述文本检测网络进行端到端的训练。所述端到端的训练使用多任务损失协同训练网络，并采用随机梯度下降方法。

所述特征提取网络模型是指特征提取网络在ImageNet数据集上进行分类训练后，移除其分类层保留参数层而得到的参数作为特征提取网络端到端训练的初始化参数值。

本发明还提供一种应用上述系统的语言文本检测与定位方法，其步骤为：首先，特征提取网络FEN从待检测图像中提取底层的CNN特征，所述底层的CNN特征是指提取的特征图并将在RPN与TDN中被利用；紧接着，三个区域建议网络RPN对上述不同的特征图做是否包含文本的二分类边界框回归，根据包含文本的特征图产生文本候选区域；随后，Concat层连接上述三个区域建议网络RPN输出的多个文本候选区域；ROIPooling层综合上述FEN的包含文本的特征图以及上述RPN产生的文本候选区域提取区域卷积特征图，并将该图输入至文本检测网络TDN。之后，TDN产生文本区域边界框偏置信息以及相应文本区域的预测评分信息。最后，文本检测网络的输出层Output综合上述偏置信息及预测评分信息，进行非极大值抑制以及非合理区域过滤等操作，产生图像坐标空间的预测文本区域边界框坐标信息及相应文本区域的评分信息。所述评分信息为特征提取网络模型对该区域是否属于文本的置信度。

本发明基于区域的全卷积神经网络结构按照全卷积思路进行定义，即所有的三个子网络FEN，RPN，TDN均使用卷积层作为参数层。图2为本发明基于区域的卷积神经网络模型各个网络层的详细参数配置示意图，除最后层(即bbox层、score层、rpn_bbox层、rpn_score层)外的所有参数层均后接修正线性单元(Rectified Linear Units,简称ReLU)网络层。图2中除了给出各网络层的具体配置外，还给出了各参数层的参数规模(Params)以及乘加(multiply-adds)计算操作数。乘加计算操作数为假定检测阶段处理的图像大小为600*1000(实际检测中预设的网络处理最大图像尺寸)。

请继续参考图2，所述特征提取网络FEN可以包含16个网络层，其中12个网络层为参数层(卷积层)，4个为Max Pooling层(池化层)。所有的卷积层卷积核大小为3*3；Stride为1，即以步长为1的方式进行卷积；卷积层为保证不改变输入图像的尺寸大小，因而在周边填充1单位像素。12个卷积层的图像通道数依次为：64、128、128、256、256、256、512、512、512、512、512、512。池化层均为Max Pooling层，进行stride＝2且卷积核为2*2的下采样操作。该网络总共有约一千四百万个参数。

由于该子网络不包含全连接层，因而能够处理任意尺寸大小图片，其输出的图像大小随输入的图像大小的变化而变化，在实际应用中，本发明限制最大的检测图像为600*1000像素。在大小为600*1000的图像情况下，输出的图像大小为38*63。各网络层在该图像大小下的计算规模如图2所示。

请继续参考图2，所述区域建议网络RPN等效于使用一个3*3的滑动窗口在FEN产生的特征图上进行滑动，实际上为使用一个卷积核大小为3*3的卷积层进行卷积计算。随后对每一个滑动窗口的位置做是否包含文本的二分类以及边界框回归，实际上为分别使用一个卷积核为1*1的卷积层(即rpn_score层和rpn_bbox层)。对任意一滑动窗口位置，共进行尺度为4；8；20；36以及长宽比为0:2；0:5；1:1；1:5的先验边界框(Anchor)的预测，即对每一滑动窗口位置，预测4*4＝16个区域。第一个输出层(即rpn_score层)为是否包含文本的二分类输出，因而该网络层共有16*2＝32个输出。第二个输出层(即rpn_bbox层)为预测边界框相对先验边界框的四个坐标的偏置，因而该网络层共有16*4＝64个输出。

整体上，共有三个RPN同时协作产生文本候选区域，分别从三个不同的FEN网络层提取特征，即使用conv5_3,conv5_1,conv4_3三个卷积层产生的图像。使用多个RPN作用于不同的卷积层的目的为：不同的卷积层的感受野大小不同(在该三个网络层基础上感受野分别为194*194,130*130,90*90)，且提取的特征抽象层次不同，因而融合多个网络层的信息有助于产生更加准确的文本候选区域。此外，RPN产生的文本区域为文本行区域，这样能强制CNN学习语言文本的基线信息，并避免额外的字符及文本行连接过程。

请继续参考图2，ROIPooling层首先截取RPN产生的文本候选区域在conv5_3对应的特征图区域，然后对该区域进行Max Pooling。对任意给定候选区域，其尺寸大小是不确定的，ROIPooling层产生固定的输出特征图大小。所述ROIPooling层工作模式如图3所示，灰色小格为原始图像在conv5_3上的特征图每一“像素”位置，白色背景网格为RPN产生的候选区域位置，ROIPooling层将该白色背景网格区域进行固定输出6*6的Max Pooling。注意由于输出大小是固定的，Pooling核的大小随着输入图像的大小变化而变化。

在ROIPooling层之后为所述文本检测网络TDN的两层卷积核大小为3*3的卷积层来进一步抽象特征，该两层卷积层类似于FEN中的卷积层。之后分别使用全局均值池化层对尺寸为6*6的区域卷积特征图进行投票，投票结果为文本区域边界框坐标偏置信息及相应文本区域的预测评分信息。以上计算结果由最后一功能层Output层输出，该网络层通过非极大值抑制及非合理边界框过滤等方式产生图像坐标空间的预测文本区域边界框坐标信息及相应文本区域的评分信息。

在训练过程中，所述特征提取网络FEN首先作为分类网络在ImageNet数据集上预训练。预训练的FEN网络模型与RPN及TDN进行端到端的训练。训练方法为随机梯度下降方法。该网络模型使用单一的Nvidia Tesla K20c GPU，基于Caffe框架进行训练。下面为训练时的各个超参数配置情况：

所有的参数层均以均值为0，标准差为0.01的高斯分布进行初始化，偏置以0进行初始化。全局学习率为0.001，以每20k轮迭代后除以10的策略进行递减。权重的局部学习率为1，偏置的局部学习率为2。momentum为0.9，weight decay为0.0005。

在每一训练迭代过程中，均匀地随机采样一张图像作为训练样本。该图像通过缩放归一化尺度为最小边为scales的尺寸，其中scales＝600,500,400。在训练RPN的时候，使用与ground-truth交除并值(Intersection-over-Union,简称IoU)大于0.7的Anchor作为训练正样本，小于0.1的作为负样本。当训练TDN时，IoU的正样本阈值为0.5，负样本阈值为0.3。由于负样本个数占了训练样本的绝大部分，因而在训练的时候限制正负样本的比例。例如，如果负样本与正样本的比例超过1.5，则进一步随机采样正样本使得比例达到1.5。正负样本的训练样本数最多限制在128个以内。

为达到所述特征提取网络与所述区域建议网络及所述文本检测网络进行的端到端训练的目的，本发明使用多任务损失协同训练网络，其总体目标损失函数定义如下：

其中i为TDN训练mini-batch(分批处理)的样本索引，即三个RPN产生的所有候选区域索引。s_i为第i个候选区域预测为文本的评分，且为分类层(score_prob层)产生的输出。t_i为最后的回归层(bbox_pool层)产生的边界框偏置向量。j为RPN训练mini-batch中的样本索引，k为三个RPN的索引。s′_kj为第k个rpn_prob层产生的输出，t′_kj为第k个rpnbbox层产生的输出。L_tdn以及L_rpn的定义如下：

L_tdn(s_i,t_i)＝L_cls(s_i,p_i)+λp_iL_reg(t_i,u_i) (2)

其中p_i以及q_kj为训练样本ground-truth标签。若该样本为文本，则p_i＝q_kj＝1，否则值为0。注意若为非文本，则该样本不贡献损失。L_cls为二分类(文本，非文本)的log损失，L_reg为对异常值不敏感的L₁损失(L₁为L₁范数损失函数)。训练样本数量N作为归一化项平衡损失，此外参数λ用来控制L_cls与L_reg，默认λ＝1。

上述损失函数中定义的t_i＝(t_x,t_y,t_w,t_h)以及u_i＝(u_x,u_y,u_w,u_h)为TDN训练阶段候选区域P′＝(P′_x,P′_y,P′_w,P′_h)预测的边界框与ground-truth偏置，其中给定ground-truthG＝(G_x,G_y,G_w,G_h)后，u_i按公式(4)计算：

且预测的边界框P＝(P_x,P_y,P_w,P_h)按公式(5)计算：

此外，t′_kj以及v_kj为RPN中的坐标偏置(与TDN中的t_i和u_i对应)，其计算方式与(4)(5)相同。但是，此时P′为先验边界框的固定坐标而非候选区域，P为预测的候选区域。所有的u_i以及v_kj均通过计算样本均值与方差的方式归一化到均值为0方差为1的数据分布。

下面为一具体检测流程来解释说明本发明方法：

对输入的图像进行缩放，使得该图像最短边为600像素。该图像经FEN及三个RPN处理后(同训练阶段)大约产生160k候选区域，其中60％的候选区域具有较小的边及面积，因此对此部分区域进行过滤，此外，也过滤那些在图像外区域的预测。随后，以IoU阈值为0.7进行非极大值抑制，最高的50×3＝150得分对应的区域(如果NMS后候选区域还足够的话)被输入进TDN。TDN产生最终预测的边界框，经过相同的方式后得到预测结果，此时的NMS阈值为0.2。以评分大于0.8的预测结果作为最终的预测结果，评分阈值取值越大，正确率越高，召回率则越低，反之亦然。此外，若文本行在水平方面交叉，则进行文本行连接。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种语言文本检测与定位系统，为一种基于区域的全卷积神经网络，该系统包括；

一特征提取网络，包括若干卷积层和相应池化层，用于从待检测图像中提取底层的CNN特征，得到若干不同的特征图；

至少三个区域建议网络，用于分别对上述不同的特征图进行二分类以及边界框回归，然后根据包含文本的特征图产生文本候选区域；

一文本检测网络，用于根据上述区域卷积特征图产生文本区域边界框偏置信息，并对上述偏置信息进行非极大值抑制以及非合理区域过滤操作，产生图像坐标空间的预测文本区域边界框坐标信息。

2.如权利要求1所述的系统，其特征在于，所述特征提取网络作为分类网络在ImageNet数据集上进行预训练，得到特征提取网络模型，所述特征提取网络模型与所述区域建议网络及所述文本检测网络进行端到端的训练。

3.如权利要求2所述的系统，其特征在于，所述特征提取网络模型是指特征提取网络在ImageNet数据集上进行分类训练后，移除其分类层保留参数层而得到的参数作为特征提取网络端到端训练的初始化参数值。

4.如权利要求2所述的系统，其特征在于，所述端到端的训练使用多任务损失协同训练网络，并采用随机梯度下降方法。

5.一种采用权利要求1所述系统的语言文本检测与定位方法，其步骤包括：

4)根据上述区域卷积特征图产生文本区域边界框偏置信息；

6.如权利要求5所述的方法，其特征在于，步骤2)中所述文本候选区域由三个区域建议网络分别根据所述特征提取网络的不同卷积层提取的特征图产生；且所述文本候选区域为文本行区域。

7.如权利要求5所述的方法，其特征在于，步骤3)中所述区域卷积特征图由ROIPooling层提取；且对任意给定文本候选区域，ROIPooling层产生固定大小的区域卷积特征图。

8.如权利要求5所述的方法，其特征在于，步骤4)中使用全局均值池化层对上述区域卷积特征图进行投票，得到文本区域边界框偏置信息。

9.如权利要求5所述的方法，其特征在于，步骤5)中所述图像坐标空间的预测文本区域边界框坐标信息由文本检测网络的输出层Output输出。

10.如权利要求5所述的方法，其特征在于，所述语言文本为维吾尔语文本。