CN112101385A

CN112101385A - 一种弱监督文本检测方法

Info

Publication number: CN112101385A
Application number: CN202010993027.0A
Authority: CN
Inventors: 李莉; 朱世宇; 陈善雄; 许枭飞; 帅鹏举
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-12-18
Anticipated expiration: 2040-09-21
Also published as: CN112101385B

Abstract

本发明提出一种弱监督文本检测方法，包括：构建感受野生成器，将待检测图像输入所述感受野生成器，获取一个或多个感受野；根据所述一个或多个感受野感知文本区域；构建感受野判别器，将所述文本区域输入所述感受野判别器，根据文本在所述文本区域的分布，获取识别结果；将所述识别结果反馈给所述感受野生成器，对所述一个或多个感受野进行校正，通过校正后的所述感受野生成器输出文本特征图，本发明基于感受野，再不需要标注图像中文本坐标的情况下，完成文本检测，极大地降低了标注数据集的依赖性，提高自然场景的适应性。

Description

一种弱监督文本检测方法

技术领域

本发明涉及图像识别领域，尤其涉及一种弱监督文本检测方法。

背景技术

文字承载了丰富和准确的高级语义信息，人们可以通过文字传达思想和情感，它代表着人类文明的发展，是人与人交流的载体。文字检测是多项计算机智能任务的前置步骤，其目标是从给定的图像中，尽可能定位出文字所在区域。场景文本检测是以自然场景为背景进行文字定位，在即时视觉翻译、图像检索、场景解析、自动阅卷、地理位置和无人驾驶等众多应用中，有着至关重要的作用。

场景文字检测，其难度远大于检测扫描文档图像中的文字位置，其文字表达方式更为丰富多变，如：

·允许多种语言文本混合，字符可以有不同的大小、字体、颜色、亮度、对比度等。

·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样，相比于常规物体，文字行长度、长宽比例变化范围很大。

·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。

·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上；文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理，比如沙地、草丛、栅栏、砖墙等。

针对上述问题根因，涌现出许多基于深度学习的场景文本检测有监督学习方法。它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)等角度对常规物体检测方法进行改造，极大提升了自然场景图像中文本检测的准确率。但由于有监督学习方法严重依赖标注信息，在没有标注信息的数据集时，模型无法泛化。

此外，自然场景图文标注成本很高、相关公开数据集稀少，需要具有相关领域专业知识或者经过训练的人进行标注，并且标注种类繁多：图像级类别标签、对象级位置信息、部件级位置信息。斯坦福大学研究人员指出构造具有200万标注的细粒度数据集需要耗费30万美元。因为包含文字的自然场景区域广泛，文本内容和形式多样，已公开的标注有文本区域信息的数据集有限，且区域标注成本高昂，所以有监督方法很难普及。

发明内容

鉴于以上现有技术存在的问题，本发明提出一种弱监督文本检测方法，主要解决现有文本检测方法对自然应用场景适应性差的问题。

为了实现上述目的及其他目的，本发明采用的技术方案如下。

一种弱监督文本检测方法，包括：

构建感受野生成器，将待检测图像输入所述感受野生成器，获取一个或多个感受野；

根据所述一个或多个感受野感知文本区域；

构建感受野判别器，将所述文本区域输入所述感受野判别器，根据文本在所述文本区域的分布，获取识别结果；

将所述识别结果反馈给所述感受野生成器，对所述一个或多个感受野进行校正，通过校正后的所述感受野生成器输出文本特征图。

可选地，可将所述文本特征图输入一个或多个文本识别模型，获取所述文本特征图中的文本信息。

可选地，采用U型全卷积网络构建所述感受野生成器。

可选地，所述感受野判别器包括卷积层、循环层和转录层，通过所述卷积层进行特征提取，获取所述文本区域的特征序列；

通过所述循环层对所述特征序列进行分类，判断所述文本区域内是否包含文本，若是，则获取所述文本在所述文本区域的分布；

所述转录层对所述文本在所述文本区域的分布进行回归处理，获取所述识别结果。

可选地，所述卷积层采用卷积神经网络，所述循环层采用循环神经网络，所述转录层采用CTC网络。

可选地，还包括预先对构建的所述感受野判别器进行训练，将经过文本标注的图像数据集作为构建的所述感受野判别器的输入，获取训练后的所述感受野判别器。

可选地，根据所述的一个或多个感受野感知文本区域，包括：

将所述感受野与所述待检测图像进行叠加，提取出叠加后的图像区域作为所述文本区域。

可选地，分别为所述循环层和所述转录层构建分类损失函数和回归损失函数，通过所述分类损失函数和所述回归损失函数计算损失值，将所述损失值作为所述识别结果反馈给所述感受野生成器。

如上所述，本发明一种弱监督文本检测方法，具有以下有益效果。

通过感受野获取文本区域，不受文本位置及排布方式的约束，可提高模型对于自然应用场景的适应性。

附图说明

图1为本发明一实施例中弱监督文本检测方法的流程图。

图2为本发明一实施例中感受野生成器的网络结构示意图。

图3为本发明一实施例中感受野判别器的网络结构示意图。

图4为本发明一实施例中残差模块结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，本发明提供一种弱监督文本检测方法，包括步骤S01-S03。

在步骤S01中，构建感受野生成器，将待检测图像输入感受野生成器，获取一个或多个感受野，并根据一个或多个感受野感知文本区域：

在一实施例中，感受野生成器可采用U型全卷积网络(UNetworks，U-Net 网络)。具体网络结构请参阅图2。U-Net网络可看作由两部分组成，一部分为压缩路径，另一部分为扩展路径，压缩路径和扩展路径形成对称U形结构。压缩路径有4个块(block)组成，每个block采用三个卷积和最大池化(Max Pooling) 降采样。可采用2*2的最大池化进行池化，每次降采样后特征图(Feature Map) 的个数乘以2，因此，如图2所示，输入一张64X 144的图像，经过一次降采样后特征图尺寸变为32X 72；经过整个压缩路径后，特征图尺寸为4X 9。扩展路径同样采用4个block，扩展路径的block仍采用3个卷积层，区别在于，扩展路径的block三个卷积层之前设置反卷积层进行上采样，反卷积操作可采用2*2的卷积核，每次经过上采样后特征图的尺寸乘以2，同时特征通道数(即特征图个数)减半。然后将压缩路径各block得到的特征图复制到U型结构对应的扩展路径block，进行特征图合并。扩展路径的最后一个block连接一个卷积层，通过该卷积层获取的一个或多个特征图作为感受野热力图，该一个或多个感受野热力图对应的特征图在待检测图像对应的区域即为感受野。可选地，block中的卷积可采用3*3的卷积核进行无填充卷积，激活函数可采用ReLU函数。可选地，待检测图像的尺寸可根据实际需求进行灵活调整。

在一实施例中，将获取的一个或多个感受野与待检测图像进行叠加，提取出叠加后的图像区域作为感知的文本区域。

在步骤S02中，构建感受野判别器，将文本区域输入感受野判别器，根据文本在文本区域的分布，获取识别结果；

在一实施例中，可采用Resnet网络作为主干网络构建感受野判别器，感受野判别器包括三个网络层结构，分别为卷积层、循环层、转录层。可通过Resnet 网络的多个残差模块构建卷积层用于提取输入图像的特征序列，残差块的结构示意图请参阅图4，通过使用1x1的卷积来表示权重映射，从而使得最终输入与输出的通道达到一致，1x1、3x3、1x1三个卷积网络串接在一起，并将输入直接恒等映射到输出作为残差模块，两个1x1卷积网络分别起降维的作用，保证3x3的卷积以相对较低的维度进行运算，可提高运算效率，多个残差模块依次串接组成感受野判别器的卷积层。图中仅示例性的给出输入输出为256维的情况，可根据实际应用需求调整输入输出维度。可通过循环神经网络(RNN)构建循环层，通过循环层对接卷积层，对特征序列进行分类，获取文本分布，其中，循环层的循环神经网络可采用Bi-GUR网络。可通过CTC(Connectionist Temporal Classification) 网络构建转录层，CTC网络为较为成熟的语义识别网络，具体结构这里不再赘述，转录层根据循环层获取的文本分布，进行去重、整合等操作得到识别结果。三个网络层结构的网络层数可根据实际应用需求进行灵活调整，这里不作限制。在一实施例中，可收集包含文字的图像构建样本集，用于预先训练感受野判别器。

具体地，感受野判别器的网络结构示意图请参阅图3，可将样本集拆分为训练样本集和测试样本集，拆分比例可设置为9:1，具体比例可根据实际需求进行设置。进一步地，对训练样本集中的文字区域进行标注，将经过标注的训练样本图像输入构建的初始网络模型中，进行模型训练。

可根据卷积层输出的特征序列为文字的概率设置该分类损失函数，具体地可采用交叉熵作为分类损失函数，表示为：

loss＝max(∑log(d(x,θ)))

其中，θ表示模型参数，x表示特征序列，d(x,θ)表示特征序列为文字的概率。

首先通过卷积层提取特征序列，将每个通道的特征序列输入到循环层中，通过循环层的分类损失函数输出特征序列为文字的概率。

CTC网络根据循环层输出对应真实文本的映射关系构建CTC的回归损失函数。回归损失函数可表示为：

loss_p＝argmaxp(Y|X)

其中，X表示转录层的输入(即循环层的输出序列)，Y表示转录层的输出， p(Y|X)表示输出相对于输入的条件概率。

转录层对接循环层，本质上是通过转录层的梯度

调整循环层的参数ω，使得循环层输入样本为字符时，p(Y|X)达到最大。

通过转录层计算得到损失值，将损失值作为感受野判别器的识别结果。

经过多次迭代，采用梯度下降更新模型参数，直到模型达到稳定状态，完成模型训练。完成模型训练后，通过Dropout算子选择性的舍弃网络结构中部分神经元，简化网络结构的同时防止过拟合。采用测试样本集对经过Dropout处理的模型进行验证，以保证模型的准确率。

将步骤S01中获取的待检测图像文本区域输入经过预训练的感受野判别器，获取损失值。若损失值达到预设值，则说明输入感受野判别器的文本区域可以识别出清楚完整的文本信息，感受野生成器产生的感受野区域为期望获取的区域；若损失值未达到预设值，则说明输入感受野判别器的文本区域不包含文本信息或文本信息不完整。

在步骤S03中，将识别结果反馈给所述感受野生成器，对一个或多个感受野进行校正，通过校正后的感受野生成器输出文本特征图。

在一实施例中，设置损失阈值，当感受野判别器计算得到损失值后，通过损失值采用梯度下降反向传播，优化感受野生成器，感受野生成器优化后，再次给出感受野，将感受野与待检测图像叠加得到新的文本区域送入感受野判别器，循环往复，直到损失值达到损失阈值。将达到损失值阈的感受野对应的特征图作为输出文本特征图。

在一实施例中，可将感受野生成器的输出与一个或多个文本识别模型对接，通过文本识别模型获取文本特征图中的文本信息。文本识别模型可包括现有的任何可实现文本图像识别的模型，如可采用深度学习神经网络训练识别模型，用于堆积感受野生成器，模型及训练方法为现有技术，这里不再赘述。

综上所述，本发明一种弱监督文本检测方法，解决数据集缺乏文本框标注的问题，现有深度学习模型需要在数据集中对文本进行坐标标注，利用标注信息完成模型优化，但已完成标注的数据集过少，且进行坐标标注耗时耗力，所以，本发明针对该问题，设计弱监督学习模型，在不需要标注坐标信息的情况下，完成模型学习；很多场景下文本的形状并非矩形排列，可能是竖状、圆形、环状等或者文本的分布散乱无章，现有深度学习模型会受到极大干扰，检测效果欠佳；本发明基于感受野的方式，可以有效解决该问题，适配文字的任何形状和任何位置。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种弱监督文本检测方法，其特征在于，包括：

构建感受野生成器，将待检测图像输入所述感受野生成器，获取一个或多个感受野，并根据所述一个或多个感受野感知文本区域；

2.根据权利要求1所述的弱监督文本检测方法，其特征在于，可将所述文本特征图输入一个或多个文本识别模型，获取所述文本特征图中的文本信息。

3.根据权利要求1所述的弱监督文本检测方法，其特征在于，采用U型全卷积网络构建所述感受野生成器。

4.根据权利要求1所述的弱监督文本检测方法，其特征在于，所述感受野判别器包括卷积层、循环层和转录层，通过所述卷积层进行特征提取，获取所述文本区域的特征序列；

5.根据权利要求4所述的弱监督文本检测方法，其特征在于，所述卷积层采用卷积神经网络，所述循环层采用循环神经网络，所述转录层采用CTC网络。

6.根据权利要求4所述的弱监督文本检测方法，其特征在于，还包括预先对构建的所述感受野判别器进行训练，将经过文本标注的图像数据集作为构建的所述感受野判别器的输入，获取训练后的所述感受野判别器。

7.根据权利要求1所述的弱监督文本检测方法，其特征在于，根据所述的一个或多个感受野感知文本区域，包括：

8.根据权利要求4所述的弱监督文本检测方法，其特征在于，分别为所述循环层和所述转录层构建分类损失函数和回归损失函数，通过所述分类损失函数和所述回归损失函数计算损失值，将所述损失值作为所述识别结果反馈给所述感受野生成器。