CN112801092B

CN112801092B - 一种自然场景图像中字符元素检测方法

Info

Publication number: CN112801092B
Application number: CN202110123632.7A
Authority: CN
Inventors: 钱鹰; 史旭鹏; 刘歆; 姜美兰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-07-15
Anticipated expiration: 2041-01-29
Also published as: CN112801092A

Abstract

本发明涉及一种自然场景图像中字符元素检测方法，属于计算机领域。该方法首先使用最大池化操作对目标进行非极大抑制，随后通过特征提取网络进行特征提取，最后通过特征融合整合顶层与底层的特征，提高特征的表示能力并结合预测网络对输出字符目标的准确位置。本发明方法通过设计新型的神经网络结构，能够整合自然场景图像中字符顶层与底层的特征，实现在复杂背景下，水平排列、倾斜排列、弯曲排列的字符位置的准确检测。

Description

一种自然场景图像中字符元素检测方法

技术领域

本发明属于计算机领域，涉及一种自然场景图像中字符元素检测方法。

背景技术

随着计算机视觉技术的进步，文本识别技术迅速兴起并蓬勃发展，其应用已遍及国民经济与社会生活的各个角落，正在对人类的生产方式、工作方式乃至生活方式带来巨大的变革。随着应用的不断深入，市场对场景更为复杂的自然场景下的文本检测方法要求越来越高。

文本检测是后续文本识别等操作的前奏，其检测效果直接影响后续识别等操作的效果。自然场景下文本通常含有大量的背景干扰，图像光照影响等问题，并且不同语言文字的长宽比变化较为剧烈。传统检测方法往往无法应对背景干扰等诸多问题，深度学习类方法能取得更好的检测结果，但是深度学习方法依赖大数据集训练，现有的自然场景下文本检测的单字符数据集由于标注成本较大，因此数据集较少，对算法开发以及效果检验等方面产生一定负面影响。此外现有文字检测任务中，数学公式检测，商标文字检测等等特殊场景下的文字检测要求算法能够实现单字符级别的检测，因此，成本小，准确性高的字符检测算法是后续文字识别等工作的重要前提。

发明内容

有鉴于此，本发明的目的在于提供一种自然场景图像中字符元素检测方法。

为达到上述目的，本发明提供如下技术方案：

一种自然场景图像中字符元素检测方法，所述方法包括以下步骤：

S1：首先图像通过最大池化操作进行目标的非极大抑制，随后通过特征提取网络对非极大抑制后的特征图进行进一步特征提取；

S2：特征整合网络，对特征提取网络中的顶层特征与底层特征进行整合输出；

S3：推测网络，以特征整合网络输出的特征图为基础进行推断，输出目标的目标位置框左上角坐标点推测值和类别判断、坐标点偏移推测值和目标长宽的推测值；通过整合推测值生成字符检测结果，并且根据每一类推测值的特点设计损失函数对网络进行训练。

可选的，所述S1具体为：

原始图像首先通过卷积层、BatchNormalization层、激活层和最大池化层组合成的非极大抑制模块以实现目标的非极大抑制；

根据原始图像的尺寸设计特征提取网络，特征提取网络基本结构由卷积层、BatchNormalization层和激活层组成的特征提取块，特征提取网络输入为经过非极大抑制的特征图，每经过一层特征提取块的处理，输出的特征图尺寸较输入时都会下降，特征提取网络中包含的特征提取块数量由原始图像尺寸决定。

可选的，所述S2具体为：

特征整合网络由特征组合单元组成，组合单元包括：上采样层，用于将特征图尺寸放大；卷积层，对上采样输出特征图进行维度调整；组合层，将输入的一组特征图与经卷积层处理的特征图进行组合并输出；BatchNormalization层加快训练速度并且使网络更加稳定；BatchNormalization层输出的特征图经过卷积层进行处理，进行信息提取与维度调整，卷积层输出的特征图输入到激活层进行激活，最后输出整合结果；

根据原图像的尺寸设置特征融合次数的阈值，确保特征整合网络的输出具有高分辨率；在对图像进行特征提取的过程中，每经过一组特征提取块的特征提取后，首先将处理结果输出至下一组特征提取块进行特征提取，其次保存该处理结果用于后续特征融合；

最后一层特征提取块输出结果后，将该结果与上一层特征提取块的特征图通过特征组合单元进行特征组合，记为整合一次；整合的结果再与上一层特征提取块的输出进行下一次整合，直至达到设定的阈值。

可选的，所述S3具体为：

将特征整合网络的最终输出结果经过两层卷积进行最终的特征提取和整合，输出网络预测结果；预测结果包括：1通道特征图用于字符目标位置框左上角坐标点预测与类别判定、2通道特征图用于字符的目标位置框左上角坐标点偏移值计算、2通道特征图用于字符目标的长与宽；

损失函数包含三个部分：字符目标位置框左上角坐标点预测与类别判定的损失函数；目标位置框左上角坐标点预测偏移值的预测损失函数；目标位置框宽高值预测损失函数；

第一部分，字符目标位置框左上角坐标点预测与类别判定损失计算过程中，以推测网络输出的字符目标位置框左上角坐标点预测与类别判定特征图为基础，特征图每一个像素对应原图的一个区域，如果预测结果显示文字目标位置框左上角坐标点在该区域中，特征图上的该点预测值为1，这个特征点附近的其它特征点中该种类对应的值按照高斯分布不断下降；损失计算以二分类交叉熵损失为基础，为保证正负样本不均衡时损失函数的有效性，当真实样本为正时，损失函数乘以

当真实样本为负样本时损失函数乘以

损失函数乘以其中N为目标总数

为预测值，Y_xyc为训练集生成的真实值，aβ为经验值；

第二部分，目标位置框左上角坐标点偏移值预测损失计算过程中，以推测网络输出的目标位置框左上角坐标点偏移值预测结果特征图为基础，由于目标位置框左上角坐标点预测的特征图上判定的目标位置框左上角坐标点实际上对应原图的一块区域，具体的目标位置框左上角坐标点位置还需要有一个偏置值来进行计算，偏置值预测的损失计算公式为

其中N代表目标总数，R代表原图到特征图下采样倍数，而

代表实际的偏差值，

代表预测的偏差值；

第三部分，目标宽高值预测损失记为L_size，以推测网络输出的目标长宽值预测特征图为基础，特征图中的值为当前特征点对应目标的宽高的预测值，损失值计算公式预测值与实际值差值的平方和除以检测目标总数得到的值；

最后总的损失表达式为L_dst＝L_k+λ_sizeL_size+λ_offsetL_offset，与λ_size，λ_offset为权重。

本发明的有益效果在于：

1、本发明采用了一种U型骨干网络的深度学习检测框架作为基础模型，和传统的检测方法比较，检测效果更好，处理更方便，之前的检测方法，多数要在后面加一个支持向量机进行分类。之前对于训练检测框主要是采用滑动窗口的方式进行图像的裁剪，增加了大量的难度和成本，本网络不需要设置anchorbox，并且不需要复杂的NMS后处理，在处理中文文本的过程中，防止复杂的偏旁部首组成使得检测失效，极大地提高了检测精度；此外本发明设计的新型U型骨干网络能够更好地整合图片的顶层和底层特征，对小目标，横纵比变化剧烈的目标有较好的检测效果。

2、现有单字符标注数据集较少，不足以支持文本检测模型的训练，本发明采用半监督训练的方式，采用计算机合成的T数据集，并且通过网络和轻量级模型结果处理无标签的S数据集使其带上标签，从而获取完整的训练集，无需人工标注，训练成本更小。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本方法流程图；

图2为半监督训练方法流程图；

图3为本方法一种典型网络结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1～图3所示，一种自然场景图像中字符元素检测方法，包括：

1.对图像通过最大池化操作进行目标的非极大抑制，随后通过特征提取网络对非极大抑制后的特征图进行进一步特征提取，包括：

原始图像首先通过卷积层，BatchNormalization层，激活层以及最大池化层组合成的非极大抑制模块以实现目标的非极大抑制；

根据原始图像的尺寸设计特征提取网络，特征提取网络基本结构是由卷积层，BatchNormalization层以及激活层组成的特征提取块，特征提取网络输入为经过非极大抑制的特征图，每经过一层特征提取块的处理，输出的特征图尺寸较输入时都会下降，特征提取网络中包含的特征提取块数量根据原始图像尺寸决定。

2.一种自然场景图像中字符元素检测方法，其特征在于，通过特征整合网络，对特征提取网络中的高层特征与底层特征进行整合输出，包括：

特征整合网络由特征组合单元组成，组合单元包括：上采样层，用于将特征图尺寸放大；卷积层，对上采样输出特征图进行维度调整；组合层，将输入的一组特征图与经卷积层处理的特征图进行组合并输出；BatchNormalization层加快训练速度并且使网络更加稳定；BatchNormalization层输出的特征图经过卷积层进行处理，进行信息提取与维度调整，卷积层输出的特征图输入到激活层进行激活，最后输出整合结果。

根据原图像的尺寸设置特征融合次数的阈值，确保特征整合网络的输出具有高分辨率。在对图像进行特征提取的过程中，每经过一次特征提取块，在将特征图输出至下一层的同时，保存该特征图。最后一层特征提取块输出结果后，将该结果与上一层特征提取块的特征图通过特征组合单元进行特征组合，记为整合一次。整合的结果再与上一层特征提取块的输出进行下一次整合，直至达到设定的阈值。

3.一种自然场景图像中字符元素检测方法，其特征在于，通过推测网络，以特征整合网络输出的特征图为基础进行推断，输出目标的目标位置框左上角坐标点推测值以及类别判断，坐标点偏移推测值，目标长宽的推测值。通过整合推测值生成字符检测结果并且根据每一类推测值的特点设计损失函数对网络进行训练，包括：

将特征整合网络的最终输出结果经过两层卷积进行最终的特征提取和整合，输出网络预测结果。预测结果包括：1通道特征图用于字符目标位置框左上角坐标点预测与类别判定、2通道特征图用于字符的目标位置框左上角坐标点偏移值计算、2通道特征图用于字符目标的长与宽。

损失函数包含三个部分：字符目标位置框左上角坐标点预测与类别判定的损失，目标位置框左上角坐标点预测偏移值的预测损失与目标宽高值预测损失。

第一部分，字符目标位置框左上角坐标点预测与类别判定损失计算过程中，以推测网络输出的字符目标位置框左上角坐标点预测与类别判定特征图为基础，特征图每一个像素对应原图的一个区域，如果预测结果显示文字目标位置框左上角坐标点在该区域中，特征图上的该点预测值为1，这个特征点附近的其它特征点中该种类对应的值按照高斯分布不断下降。损失计算以二分类交叉熵损失为基础，为保证正负样本不均衡时损失函数的有效性，当真实样本为正时，损失函数乘以

当真实样本为负样本时损失函数乘以

损失函数乘以其中N为目标总数

为预测值，Y_xyc为训练集生成的真实值，aβ取值为1。

其中N代表目标总数，R代表原图到特征图下采样倍数，而

代表实际的偏差值，

代表预测的偏差值，。

第三部分，目标宽高值预测损失记为L_size，以推测网络输出的目标长宽值预测特征图为基础，特征图中的值为当前特征点对应目标的宽高的预测值，损失值计算公式预测值与实际值差值的平方和除以检测目标总数得到的值。

最后总的损失表达式为L_det＝L_k+λ_sizeL_size+λ_offsetL_offset，与λ_size，λ_offset为权重取值分别为0.01与1。

4、构建用于网络训练的有准确标注的合成的T数据集、用于网络训练的无标注的针对文本检测任务实际采集的S数据集、用于测试算法效果的t数据集三类数据集，其中T数据集与S数据集的图片数量比值为10∶1；S2、数据增强与数据预处理使数据适配构建好的网络N，数据增强过程包括随机增加噪声，随机旋转与随机裁剪；S3、使用合成的T数据集训练N网络，训练后的网络为N1；S4、使用N1网络直接对无标注的实际图像数据集S进行测试，将检测的结果与无标注数据集结合成代标注的数据集S1；S5、将teacher数据集与新的S1数据集合并，用于重新训练N1网络，训练后的网络为N2；S6、重复S4，S5步骤，不断更新N1网络，直至达到训练次数阈值，最后一轮中的网络即为最终模型结果N_f；

5.固定训练好的网络模型，整个测试过程中不更新网络，不使用损失函数；把测试数据集合t数据集的每一张图像依次输入网络模型中，每一张图像都会得到相应的预测文本框，达到单字符文本检测的目的，再用生成的文本框和真实的文本框进行相应的计算，得到测试的评估结果。

下面使用自然场景下文本数据集ICDAR2017为例，划分5000张训练图像为S测试集，1000张测试图像为t数据集，通过计算机算法合成50000带标签数据集作为T数据集。

使用合成的T数据集训练N网络，训练后的网络为N1；使用N1网络直接对无标注的实际图像数据集S进行测试，将检测的结果与无标注数据集结合成代标注的数据集S1；将teacher数据集与新的S1数据集合并，用于重新训练N1网络，训练后的网络为N2；重复训练步骤，不断更新网络，直至达到训练次数阈值，最后一轮中的网络即为最终模型结果N_f；。检测结果表现出很好的效果，达到单字符文本检测目标，少量图像可以带来巨大的提升。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种自然场景图像中字符元素检测方法，其特征在于：所述方法包括以下步骤：

S3：推测网络，以特征整合网络输出的特征图为基础进行推断，输出目标的目标位置框左上角坐标点推测值和类别判断、坐标点偏移推测值和目标长宽的推测值；通过整合推测值生成字符检测结果，并且根据每一类推测值的特点设计损失函数对网络进行训练；

所述S2具体为：

最后一层特征提取块输出结果后，将该结果与上一层特征提取块的特征图通过特征组合单元进行特征组合，记为整合一次；整合的结果再与上一层特征提取块的输出进行下一次整合，直至达到设定的阈值；

所述S3具体为：

将特征整合网络的最终输出结果经过两层卷积进行最终的特征提取和整合，输出网络预测结果；预测结果包括：通道特征图用于字符目标位置框左上角坐标点预测与类别判定、通道特征图用于字符的目标位置框左上角坐标点偏移值计算、通道特征图用于字符目标的长与宽；

损失函数包含三个部分：字符目标位置框左上角坐标点预测与类别判定的损失函数；目标位置框左上角坐标点预测偏移值的预测损失函数；目标位置框长宽值预测损失函数；

当真实样本为负样本时损失函数乘以

损失函数乘以其中

为预测值，Y_xyc为训练集生成的真实值，αβ为经验值；

其中N代表目标总数，R代表原图到特征图下采样倍数，而

代表实际的偏差值，

代表预测的偏差值；

第三部分，目标长宽值预测损失记为L_size，以推测网络输出的目标长宽值预测特征图为基础,特征图中的值为当前特征点对应目标的长宽的预测值，损失值计算公式预测值与实际值差值的平方和除以检测目标总数得到的值；

最后总的损失表达式为L_det＝L_k+λ_sizeL_size+λ_sizeL_offset，与λ_size，λ_offset为权重。

2.根据权利要求1所述的一种自然场景图像中字符元素检测方法，其特征在于：所述S1具体为：