CN110751232A

CN110751232A - 一种中文复杂场景文本检测与识别方法

Info

Publication number: CN110751232A
Application number: CN201911063953.1A
Authority: CN
Inventors: 刘杰; 朱旋; 田明
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-02-04

Abstract

该发明公开了一种中文复杂场景文本检测与识别方法，涉及计算机视觉领域，本发明实现了复杂场景下中文文本的快速检测与识别；包括以下步骤，S0：获取中文复杂场景样本数据，以8:2的比例划分为训练集和测试集的样本图像；S1：对训练集样本进行图像预处理操作，使其作为训练模型的输入；S2：将训练集样本通过改进的darknet‑19网络进行文字区域特征向量的提取；S3：将训练样本输入到预设的YOLOv2模型中进行训练，得到文本检测与识别的模型；S4：将测试样本输入到训练好的模型中进行测试，得到最终识别的检测框以及字符实例的分类结果。该方法将检测和识别任务整合到统一的网络框架中，具有较高的文本检测与识别性能，适用于中文复杂场景下文本检测与识别。

Description

一种中文复杂场景文本检测与识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种中文复杂场景文本检测与识别方法。

背景技术

一直以来，文本都在人们生活中发挥着重要的作用。文本中包含丰富而精确的信息对基于视觉的应用来说非常重要，比如：图像检索、目标定位、人机交互、机器人导航以及工业自动化等等。自动的文本检测提供了一种获取、利用图片与视频中文本信息的方法，因而成为计算机视觉和文档分析领域的热门研究课题。

自然场景文本检测是一项既重要又极其富有挑战的任务。由于自然场景文本检测通常是在开放场景下对场景中的文本进行识别，因此光照、角度和畸变等因素对文本检测造成很大的干扰，严重影响文本检测的准确性。传统的文本检测普遍使用基于连通部件的技术，但是该技术只能提取较为明显的文本区域，难以将图像中全局信息考虑在内，因此该技术性能较为有限。目前基于深度学习的自然场景文本检测由于大多采用了基于候选框的技术，其性能相比传统方法有较大提升。

基于深度学习的通用目标检测方法可以分为两大类：基于区域的方法和基于回归的方法。前者比如：Fast-RCNN、Faster-RCNN和R-FCN，这些方法能够获得很高的准确率，但运行速度较慢。后者比如：SSD和YOLO，这些方法追求算法的实时性也能获得较好的检测结果。在这些方法中，YOLO因其速度快、精度高而成为一种广泛应用的高效算法。

发明内容

本发明提供了一种中文复杂场景文本检测与识别方法，实现了基于深度学习的中文复杂场景文本检测与识别，具有较高的文本检测与识别性能。

本发明技术方案为一种中文复杂场景文本检测与识别方法，该方法以下步骤：

S0：获取中文复杂场景样本数据，将其以8:2的比例划分为训练集和测试集的样本图像；

S1：对训练集样本进行图像预处理操作，使其作为训练模型的输入；

S2：将训练集样本通过改进的darknet-19网络进行文字区域特征向量的提取；

S3：将训练样本输入到预设的YOLOv2网络模型中进行训练，得到文本检测与识别的模型；

S4：将测试样本输入到训练好的模型中进行测试，得到最终识别的检测框以及字符实例的分类结果。

所述步骤S0的操作过程如下：

S00：获取自然场景文本检测与识别的图像数据；

S01：将其以8:2的比例划分为训练集和测试集；

S02：对获取的图像数据样本进行类别标注，将待检测的目标种类分为1001个类别，即前1000类频繁观察到的字符种类和“其他”类别；

S03：对获取的图像数据样本进行位置标注，记录目标字符的位置坐标；

S04：将上述的类别标注和相应的位置标注信息转换为XML的文件格式。

所述步骤S1的操作过程如下：

S10：对所获得的自然场景文本检测与识别的图像数据样本进行角度旋转、放大、缩小、裁剪、调整饱和度和亮度等操作增大样本容量。

所述步骤S2的操作过程如下：

S20：将特征提取网络分为27层，包括22个卷积层和5个池化层，具体网络结构及设置如下：

（1）第1、3、5、6、7、9、10、11、13、14、15、16、17、19、20、21、22、23、24、25、26、27层为卷积层，第2、4、8、12、18层为池化层；

（2）卷积层中第1、3、5、7、9、11、13、15、17、19、21、23、24、25、26层卷积核的大小设置为3×3，卷积核深度设置分别为32、64、128、128、256、256、512、512、512、1024、1024、1024、1024、1024、1024，第6、10、14、16、20、22、27层卷积核的大小设置为1×1，卷积核深度设置分别为64、128、256、256、512、256、5030；

（3）池化层中第2、4、8、12、18层进行池化操作的方式为最大池化方式，卷积核的大小设置为2×2，步长设置为2；

S21：使用上述特征提取网络在1000分类的ImageNet图片数据集进行200轮训练，将模型的网络输入设置416×416，采用梯度下降算法，将decay设置为0.0005，momentum设置为0.9，learning rate设置为0.001；

S22：再使用自然场景文本图像数据样本集，对特征提取网络继续进行微调，训练15轮，此时将learning rate设置为0.0001，进而生成特征提取网络的预训练模型。

所述步骤S3的操作过程如下：

S30：使用672×672×3大小的样本图像作为模型的输入；

S31：获得步骤S20中特征提取网络第7层输出的168×168×128维特征图；

S32：将步骤S31中输出的168×168×128维特征图经卷积核大小为3×3，深度为128和卷积核大小为1×1，深度为16两个卷积层，并进行Reorg/8的下采样，输出21×21×1024维特征图；

S33：获得步骤S20中特征提取网络第11层输出的84×84×256维特征图；

S34：将步骤S33中输出的84×84×256维特征图经卷积核大小为3×3，深度为256和卷积核大小为1×1，深度为32两个卷积层，并进行Reorg/4的下采样，输出21×21×512维特征图；

S35：获得步骤S20中特征提取网络第17层输出的42×42×512维特征图；

S36：将步骤S35中输出的42×42×512维特征图经卷积核大小为3×3，深度为512和卷积核大小为1×1，深度为64两个卷积层，并进行Reorg/2的下采样，输出21×21×256维特征图；

S37：获得步骤S20中特征提取网络第25层输出的21×21×1024维特征图；

S38：将步骤S32、S34、S36、S37中所得到的特征图进行拼接整合最终得到21×21×2816维特征图；

S39：将步骤S38中输出的21×21×2816维特征图经卷积核大小为3×3，深度为1024和卷积核大小为1×1，深度为5030两个卷积层，输出21×21×5030维特征图。

所述步骤S4的操作过程如下：

S41：将目标图像划分为S×S个网格，对每个网格划分为B个先验框；每个先验框包含有4个参数，分别为该框的中心点坐标、高、宽以及置信度；

S42：对每个先验框中心点坐标、高和宽进行归一化处理；

S43：计算每个先验框的置信度得分，根据预先设置的分数阈值，删除低于阈值的先验框；

S44：根据非极大值抑制操作保留置信度得分最大的先验框，即得到最终识别的检测框以及检测框内字符实例的分类结果。

与现有技术相比，本发明提供的技术方案的有益效果是：

1.本发明实现了端到端的复杂场景的文本检测与识别，相较于传统的方法，具有更强的准确性和鲁棒性，能够一次识别图像样本中的多个字符实例目标；

2.针对小字符识别效果不理想的问题，本发明将不同深度网络得到的特征图进行拼接，在不损失大字符检测性能的情况下，提高了小字符检测性能；

3. 针对yolov2网络初始的先验框参数不适用于文本图像检测的问题，本发明采用了K-means++聚类方法对复杂场景图像中的文本标签重新进行聚类分析，解决了K-Means算法对初始簇心比较敏感的问题。

附图说明

图1为本发明的方法流程图。

图2为本发明的网络结构图。

图3为本发明的检测结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1。

本发明示例提供了一种中文复杂场景文本检测与识别方法，该方法包括以下步骤：

所述步骤S0的操作过程如下：

S00：获取自然场景文本检测与识别的图像数据；

S01：将其以8:2的比例划分为训练集和测试集；

所述步骤S1的操作过程如下：

所述步骤S2的操作过程如下：

所述步骤S3的操作过程如下：

S30：使用672×672×3大小的样本图像作为模型的输入；

所述步骤S4的操作过程如下：

S42：对每个先验框中心点坐标、高和宽进行归一化处理；

综上所述，本实施例的一种中文复杂场景文本检测与识别方法，采用改进的YOLOv2算法，能够实现端到端的复杂场景的文本检测与识别，较好地解决了小字符检测性能差以及初始的先验框参数不适用于文本图像检测的问题，提高了检测与识别的准确率和鲁棒性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种中文复杂场景文本检测与识别方法，其特征在于，所述的方法包括以下步骤：

S0：获取中文复杂场景样本数据，将其以8:2的比例划分为训练集和测试集的样本图像；S1：对训练集样本进行图像预处理操作，使其作为训练模型的输入；

2.根据权利要求1所述的一种中文复杂场景文本检测与识别方法，其特征在于，所述步骤S0的操作过程如下：

S00：获取自然场景文本检测与识别的图像数据；

S01：将其以8:2的比例划分为训练集和测试集；

3.根据权利要求1所述的一种中文复杂场景文本检测与识别方法，其特征在于，所述步骤S1的操作过程如下：

4.根据权利要求1所述的一种中文复杂场景文本检测与识别方法，其特征在于，所述步骤S2的操作过程如下：

(1)第1、3、5、6、7、9、10、11、13、14、15、16、17、19、20、21、22、23、24、25、26、27层为卷积层，第2、4、8、12、18层为池化层；

(2)卷积层中第1、3、5、7、9、11、13、15、17、19、21、23、24、25、26层卷积核的大小设置为3×3，卷积核深度设置分别为32、64、128、128、256、256、512、512、512、1024、1024、1024、1024、1024、1024，第6、10、14、16、20、22、27层卷积核的大小设置为1×1，卷积核深度设置分别为64、128、256、256、512、256、5030；

(3)池化层中第2、4、8、12、18层进行池化操作的方式为最大池化方式，卷积核的大小设置为2×2，步长设置为2；

S21：使用上述特征提取网络在1000分类的ImageNet图片数据集进行200轮训练，将模型的网络输入设置416×416，采用梯度下降算法，将decay设置为0.0005，momentum设置为0.9，learningrate设置为0.001；

S22：再使用自然场景文本图像数据样本集，对特征提取网络继续进行微调，训练15轮，此时将learningrate设置为0.0001，进而生成特征提取网络的预训练模型。

5.根据权利要求1所述的一种中文复杂场景文本检测与识别方法，其特征在于，所述步骤S3的操作过程如下：

S30：使用672×672×3大小的样本图像作为模型的输入；

6.根据权利要求1所述的一种中文复杂场景文本检测与识别方法，其特征在于，所述步骤S4的操作过程如下：

S42：对每个先验框中心点坐标、高和宽进行归一化处理；

7.根据权利要求1所述的一种中文复杂场景文本检测与识别方法，其特征在于，为了提高文本检测与识别的精度，采用K-means++聚类方法对复杂场景图像中的文本标签重新进行聚类分析，使用复杂场景图像标签的样本框与先验框的交并比为目标函数：

式中，box为复杂场景图像标签的样本框，cen为聚类中心，n为样本的总数，k为类别数，IOU为目标框之间的交并比。

8.根据权利要求1所述的一种中文复杂场景文本检测与识别方法，其特征在于，步骤S39得到的通道数为5030维特征图，共5×(1001+5)＝5030个参数，即聚类得到先验框的个数×(目标检测类别+每个先验框的中心点坐标、宽、高、置信度)＝5030。