CN114049625B

CN114049625B - 基于新型图像收缩方法的多方向文本检测方法

Info

Publication number: CN114049625B
Application number: CN202111369003.9A
Authority: CN
Inventors: 王�琦; 韩旭; 袁媛
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2024-02-27
Anticipated expiration: 2041-11-11
Also published as: CN114049625A

Abstract

本发明提供了一种基于新型图像收缩方法的多方向文本检测方法。首先，对数据集中的训练集图像进行增强和归一化预处理；然后，采用收缩处理得到图像的文本核心区域标签；接着，构建文本检测网络并进行网络训练，通过特征提取、特征融合、二值化和区域处理，预测得到文本区域和文本核心区域；最后，将测试集图像输入训练好的网络，得到文本检测结果。本发明通过采用新型的文本核收缩方式，在分离相邻文本实例的前提下，能够大大提高自然场景下多方向文本检测的能力。

Description

基于新型图像收缩方法的多方向文本检测方法

技术领域

本发明属计算机视觉、图形处理技术领域，具体涉及一种基于新型图像收缩方法的多方向文本检测方法。

背景技术

自然场景下的文本检测是自然场景下文本识别的重要步骤，虽然传统的OCR光学识别技术已经日渐成熟，但对于自然场景下的文本检测与识别任务来说，仍存在着很多难题。复杂多变的自然场景背景，对文本检测与识别带来了很大的困扰，例如建筑物的标志和花纹，与文本很类似，容易造成错误识别，而且很多拍摄的图片存在光照不同、物体遮挡等问题，为文本检测与识别增加了难度。

Zhou X等在文献“Zhou,X.,Yao,C.,Wen,H.,Wang,Y.,Zhou,S.,He,W.,&Liang,J.(2017).East:an efficient and accurate scene text detector.In Proceedings ofthe IEEE conference on Computer Vision and Pattern Recognition(pp.5551-5560).”中提出采用U-net的方法进行特征合，并根据不同文本形状输出水平矩形和多方向矩形以及其分数，利用Locality-Aware NMS对结果进行过滤，这种网络结构对多层次的特征融合效果并不好，在数据集上的表现也不好。Liao M等在文献“Liao M,Shi B,Bai X,etal.Textboxes:A fast text detector with a single deep neural network[C]//Proceedings of the AAAI conference on artificial intelligence.2017,31(1).”中提出了通过修改默认框以及卷积核来有效捕捉文本的Textboxes方法，具体基于全连接的神经网络，直接输出文本框的坐标，同时预测文本存在以及文本框偏移，最后是一个非最大化抑制处理。但是对于一些长宽比特别大的文本检测效果不好。Wang W等在文献“Wang W,Xie E,Li X,et al.Shape robust text detection with progressive scale expansionnetwork[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:9336-9345.”中提出了一种先收缩再扩张的分割方法，采用根据面积与周长比来进行文本收缩的方法，通过求得文本的七个层次的核心区域，层层扩张，称为PSE(progressive scale expansion)方法，用来解决传统分割相邻实例边缘粘连问题，但还是有同一文本实例因字符相距太远而被预测为多个文本实例的问题。

发明内容

为了克服现有技术的不足，本发明提供一种基于新型图像收缩方法的多方向文本检测方法。首先，对数据集中的训练集图像进行增强和归一化预处理；然后，采用收缩处理得到图像的文本核心区域标签；接着，构建文本检测网络并进行网络训练，通过特征提取、特征融合、二值化和区域处理，预测得到文本区域和文本核心区域；最后，将测试集图像输入训练好的网络，得到文本检测结果。本发明通过采用新型的文本核收缩方式，在分离相邻文本实例的前提下，能够大大提高自然场景下多方向文本检测的能力。

一种基于新型图像收缩方法的多方向文本检测方法，其特征在于步骤如下：

步骤1：对文本图像数据集ICDAR2015的训练集中的每一幅图像进行增强处理，再进行归一化处理，得到训练用数据；所述的增强处理包括随机旋转和随机裁剪；

步骤2：对于训练用数据中每一幅图像，按以下过程完成文本核心区域标签：

首先，按下式计算得到文本实例向内收缩像素值d：

d＝min(x₃-x₀,x₂-x₁,y₁-y₀,y₂-y₃)*T (1)

其中，(x₀,y₀)、(x₁,y₁)、(x₂,y₂)、(x₃,y₃)是标记文本区域的四个端点的横纵坐标值；

然后，将原文本区域的四个端点均向内收缩d个像素，以收缩后的四个端点作为文本核心区域的四个端点，完成文本核心区域标记；

步骤3：将训练用数据中的图像输入到文本检测网络，对网络进行训练，迭代16K次，得到训练好的网络；

所述的文本检测网络的具体处理过程为：将图像输入到特征提取网络，提取得到不同尺度特征图，将不同尺度特征图输入特征融合网络，得到融合后的特征图像；将融合后的特征图像分别输入到文本区域检测头和文本核心区域检测头网络，检测得到文本区域预测图像和文本核心区域预测图像；对文本核心区域预测图像进行二值化处理，再采用cv2.connectedComponents函数进行处理，得到连通域，去除面积小于5像素的连通域，得到预测的文本核心区域；使用广搜BFS算法对预测的文本核心区域进行扩张，再进行填充，将面积小于800像素的实例去除，得到预测的文本区域；分别采用dice loss损失函计算预测的文本区域标签损失和文本核心区域标签损失；

步骤4：将测试集图像输入到步骤3训练好的文本检测网络，预测得到的文本区域即为最终的文本检测结果。

进一步地，所述的特征提取网络采用resnet-50网络，提取得到4个不同尺度依次减小的特征图，分别记为C2、C3、C4、C5；

所述的特征融合网络的具体处理过程为：将C4特征图、卷积网络上采样的C5特征图、卷积网络下采样的C2特征图、卷积网络下采样的C3特征图相加得到特征图S4，将C3特征图、卷积网络上采样的C5特征图、S4特征图、卷积网络下采样的C2特征图相加得到特征图S3，将C2特征图、卷积网络上采样的C5特征图、S4特征图、S3特征图相加得到特征图S2，将C5特征图、S4特征图、S3特征图分别进行卷积网络上采样，使其与特征图S2大小相同，最后将S2特征图、上采样的S3特征图、上采样的S4特征图、上采样的C5特征图相加得到特征图像。

所述的文本区域检测头网络和文本核心区域检测头网络均采用2层卷积神经网络，包括1个3*3卷积核和1个1*1卷积核。

本发明的有益效果是：由于采用了新型的文本收缩方法，能较为准确的表示文本核心区域，使得网络能够更好地学习到文本核心区域的特征；由于采用了新的特征融合网络，使特征图能够更好地表达文本区域，得到更好的检测结果。本发明相较于现有方法能够获得更高文本检测查准率和查全率。

附图说明

图1是本发明基于新型图像收缩方法的多方向文本检测方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于新型图像收缩方法的多方向文本检测方法，其具体实现过程如下：

步骤1：输入ICDAR2015数据集，它是仿文本检测领域比较著名的多方向公开数据集，共包含1000张训练图像以及500张测试图像。对ICDAR2015的所有训练集图像进行增强处理，再进行归一化处理，得到训练用数据，即增强归一化后图像以及其文本区域和文本区域标签。所述的增强处理包括随机旋转和随机裁剪。

步骤2：输入步骤一获得的文本图像数据集，根据图像的文本区域标签，按下式计算得到文本实例向内收缩像素值d：

d＝min(x₃-x₀,x₂-x₁,y₁-y₀,y₂-y₃)*T (2)

其中，(x₀,y₀)、(x₁,y₁)、(x₂,y₂)、(x₃,y₃)是文本区域标签的四个端点的横纵坐标值；

然后，原来的文本区域通过向内收缩d个像素，得到文本核心区域标签的四个端点，这种收缩方式可以更好地表达文本核心区域。

步骤3：将训练用数据中的图像输入到文本检测网络，对网络进行训练，迭代16K次，得到训练好的网络。

文本检测网络的具体处理过程为：

(1)将图像输入到特征提取网络，提取得到C2、C3、C4、C5四种尺度的特征图(尺度依次减小)，再经特征融合网络，得到融合后的特征图像。本发明中特征提取网络采用resnet-50网络，特征融合网络采用FF模块，具体是指：将C4特征图、卷积网络上采样的C5特征图、卷积网络下采样的C2特征图、卷积网络下采样的C3特征图相加得到特征图S4，将C3特征图、卷积网络上采样的C5特征图、S4特征图、卷积网络下采样的C2特征图相加得到特征图S3，将C2特征图、卷积网络上采样的C5特征图、S4特征图、S3特征图相加得到特征图S2，将C5特征图、S4特征图、S3特征图分别进行卷积网络上采样，使其与特征图S2大小相同，最后将S2特征图、上采样的S3特征图、上采样的S4特征图、上采样的C5特征图相加得到特征图像。

(2)将融合后的特征图像分别输入到文本区域检测头和文本核心区域检测头网络，分别检测得到文本区域预测图像和文本核心区域预测图像；所述的文本区域检测头网络采用3*3卷积核和1*1卷积核，文本核心区域检测头网络也采用3*3卷积核和1*1卷积核。

(3)对文本区域预测图和文本核心预测图处理分别进行二值化处理，得到粗略文本区域和文本核心区域，再通过OPENCV中的cv2.connectedComponents函数对文本核心区域进行处理，得到连通域，去除面积小于5像素的连通域，避免一些小区域像素被误检，得到预测的文本核心区域。

(4)使用广搜BFS算法对预测的文本核心区域进行扩张，再进行填充，借以区分相邻文本实例，然后，将面积小于800像素的实例去除，得到预测的文本区域。

(5)对文本区域与文本核心区域标签分别计算损失，损失函数均采用dice_loss。进行网络的训练。

步骤4：将测试集图像输入训练好的文本检测网络，预测得到的文本区域框为最终检测结果。

为验证本发明方法的有效性，在中央处理器为Intel(R)Core(TM)i7-6800K CPU@3.40GHz、内存为64G、操作系统为Linux、GPU为1080Ti*2、深度学习框架为Pytorch下进行仿真实验。

分别选择EAST方法、SSTD方法、PSE方法作为对比方法，其中，EAST方法记载在文献“Zhou,X.,Yao,C.,Wen,H.,Wang,Y.,Zhou,S.,He,W.,&Liang,J.(2017).East:anefficient and accurate scene text detector.In Proceedings of the IEEEconference on Computer Vision and Pattern Recognition(pp.5551-5560).”中；SSTD方法记载在文献“He,P.,Huang,W.,He,T.,Zhu,Q.,Qiao,Y.,&Li,X.(2017).Single shottext detector with regional attention.In Proceedings of the IEEEinternational conference on computer vision(pp.3047-3055).”中；PSE方法记载在文献“Wang W,Xie E,Li X,et al.Shape robust text detection with progressive scaleexpansion network[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019:9336-9345.”中。分别计算不同方法在ICDAR2015数据集上进行文本检测后的查准率Precision、查全率Recall及二者的调和平均数F1-measure，计算结果如表1所示。可以看出，本发明的三个指标均高于其他方法，本发明考虑到四边形图像本身可收缩性的一个特点来进行文本核的收缩，再通过文本核扩张到文本区域能有效避免相邻文本实例之间的粘连问题，能够获得更好的文本检效果。

表1

Claims

1.一种基于新型图像收缩方法的多方向文本检测方法，其特征在于步骤如下：

首先，按下式计算得到文本实例向内收缩像素值d：

d＝min(x₃-x₀，x₂-x₁，y₁-y₀，y₂-y₃)*T (1)

其中，(x₀，y₀)、(x₁，y₁)、(x₂，y₂)、(x₃，y₃)是标记文本区域的四个端点的横纵坐标值；

所述的文本检测网络的具体处理过程为：将图像输入到特征提取网络，提取得到不同尺度特征图，将不同尺度特征图输入特征融合网络，得到融合后的特征图像；将融合后的特征图像分别输入到文本区域检测头和文本核心区域检测头网络，检测得到文本区域预测图像和文本核心区域预测图像；对文本核心区域预测图像进行二值化处理，再采用cv2.connectedComponents函数进行处理，得到连通域，去除面积小于5像素的连通域，得到预测的文本核心区域；使用广搜BFS算法对预测的文本核心区域进行扩张，再进行填充，将面积小于800像素的实例去除，得到预测的文本区域；分别采用diceloss损失函计算预测的文本区域标签损失和文本核心区域标签损失；

2.如权利要求1所述的一种基于新型图像收缩方法的多方向文本检测方法，其特征在于：所述的特征提取网络采用resnet-50网络，提取得到4个不同尺度依次减小的特征图，分别记为C2、C3、C4、C5；

3.如权利要求1或2所述的一种基于新型图像收缩方法的多方向文本检测方法，其特征在于：所述的文本区域检测头网络和文本核心区域检测头网络均采用2层卷积神经网络，包括1个3*3卷积核和1个1*1卷积核。