CN112926581B

CN112926581B - 一种基于轮廓建模的文本检测方法

Info

Publication number: CN112926581B
Application number: CN202110335246.4A
Authority: CN
Inventors: 汪增福; 吴仕莲
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-11-08
Anticipated expiration: 2041-03-29
Also published as: CN112926581A

Abstract

本发明公开了一种基于轮廓建模的文本检测方法，其步骤包括：首先收集包含文字的图片并进行人工标注，建立用于文本检测的图片数据集；接着构建基于轮廓建模的文本检测模型；然后运行基于轮廓建模的文本检测模型，得到文本轮廓预测结果与文本坐标偏移预测结果；最后进行后处理，得到每一个文本的外接多边形。本发明能够检测任意形状的文本，具有鲁棒性高，速度快的优点。

Description

一种基于轮廓建模的文本检测方法

技术领域

本发明涉及涉及文字检测领域的相关问题，具体涉及一种基于轮廓建模的文本检测方法。

背景技术

文字检测领域中，目前最常用的算法都是基于深度学习的方法：主要有两种方法，一种是基于分割的方法，一种是基于检测的方法；前者可以检测任意形状文本，但相邻的文本难以区分，且后处理复杂；后者流程简单，但不能检测任意形状，且受到感受野的限制，对于长文本效果不佳。

发明内容

本发明克服了现有技术的不足之处，提供一种基于轮廓建模的文本检测方法，以期通过轮廓预测来确定文本实例，从而提升文字检测的准确率与鲁棒性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于轮廓建模的文本检测方法的特点在于，包括以下步骤：

步骤1：收集包含文字的图片并进行人工标注，从而建立用于文本检测的图片数据集；

步骤2：构建基于轮廓建模的文本检测模型，包括：特征提取模块Backbone，特征融合模块FFM，文本轮廓预测模块CM，文本坐标偏移预测模块OM；

所述特征提取模块Backbone，包含：4组BasicBlock层、一个卷积层与5个最大池化层；每组BasicBlock层由3M个卷积组成；

所述特征融合模块FFM，包含8个卷积层，4个上采样层；

所述文本轮廓检测模块CM，包含N+1个卷积层；

所述文本坐标偏移预测模块OM，包含N+1个卷积层；

步骤3：运行基于轮廓建模的文本检测模型；

步骤3.1：将所述图片数据集的一张图片X送入所述特征提取模块Backbone中，先经过一个卷积层及最大池化层处理后，再输入4组BasicBlock层中，且每经过1组BasicBlock层的3M个卷积层处理后，再经过一个最大池化层的下采样处理，从而在经过4个BasicBlock层以及4个最大池化层处理后，得到四个特征图F₁、F₂、F₃、F₄，其尺寸分别为

其中，H和W是背景图片X的高与宽；

其中，利用式(1)得到第一个最大池化层的下采样后的输出Out₁：

Out₁＝MaxPool(Conv₁(X)) (1)

式(1)中，Conv₁(·)表示第一卷积操作，其卷积核的输出通道数为C；MaxPool(·)表示步长为2的最大池化层；

利用式(2)得到第1组BasicBlock层的输出F₁：

F₁＝MaxPool(ConvBlock₁(Out₁)) (2)

式(2)中，ConvBlock₁(·)表示第1组BasicBlock层的3M个卷积操作，其卷积核的输出通道数为C；

利用式(3)得到第2组BasicBlock层的输出F₂：

F₂＝MaxPool(ConvBlock₂(F₁)) (3)

式(3)中，ConvBlock₂(·)表示第2组BasicBlock层的3M个卷积操作，其卷积核的输出通道数为2C；

利用式(4)得到第3组BasicBlock层的输出F₃：

F₃＝MaxPool(ConvBlock₃(F₂)) (4)

式(4)中，ConvBlock₃(·)表示第3组BasicBlock层的3M个卷积操作，其卷积核的输出通道数为4C；

利用式(5)得到第4组BasicBlock层的输出F₄：

F₄＝MaxPool(ConvBlock₄(F₃)) (5)

式(5)中，ConvBlock₄(·)表示第4组BasicBlock层的3M个卷积操作，其卷积核的输出通道数为8C；

步骤3.2：将四个特征图F₁、F₂、F₃、F₄送入特征融合模块FFM中，从而利用式(6)- 式(14)进行特征融合：

In₄＝Conv_in4(F₄) (6)

P₄＝Conv_out4(In₄) (7)

式(6)-式(7)中，Conv_in4(·)表示卷积核输入通道数为8C，输出通道数为A的卷积操作，用于平滑输入特征，In₄表示对第4个特征图F₄平滑后的特征；Conv_out4(·)表示输出通道数为B的卷积操作，用于得到下采样为32倍尺度的输出特征P₄；

In₃＝Conv_in3(F₃) (8)

P₃＝Conv_out3(UP(In₄)+In₃) (9)

式(8)-式(9)中，Conv_in3(·)表示卷积核输入通道数为4C，输出通道数为A的卷积操作，用于平滑输入特征，In₃表示对第3个特征图F₃平滑后的特征；UP(·)表示上采样操作；Conv_out3(·)表示输出通道数为B的卷积操作，用于得到下采样为16倍尺度的输出特征P₃；

In₂＝Conv_in2(F₂) (10)

P₂＝Conv_out2(UP(In₃)+In₂) (11)

式(10)-式(11)中，Conv_in2(·)表示卷积核输入通道数为2C，输出通道数为A的卷积操作，用于平滑输入特征，In₂表示对第2个特征图F₂平滑后的特征；Conv_out2(·)表示输出通道数为B的卷积操作，用于得到下采样为8倍尺度的输出特征P₂；

In₁＝Conv_in1(F₁) (12)

P₁＝Conv_out1(UP(In₂)+In₁) (13)

式(12)-式(13)中，Conv_in1(·)表示卷积核输入通道数为C，输出通道数为A的卷积操作，用于平滑输入特征，In₁表示对第1个特征图F₁平滑后的特征；Conv_out1(·)表示输出通道数为B的卷积操作，用于得到下采样为4倍尺度的输出特征P₁；

P_fuse＝UP₈(P₄)+UP₄(P₃)+UP₂(P₂)+P1 (14)

式(14)中，UP₈(·)、UP₄(·)、UP₂(·)分别表示8倍上采样操作、4倍上采样操作、2倍上采样操作，P_fuse表示多种尺度信息的融合特征；

步骤3.3：将步骤3.2得到的融合特征P_fuse分别送入文本轮廓检测模块CM与文本坐标偏移预测模块OM，从而利用式(15)和式(16)得到文本轮廓预测结果Cls_X与文本坐标偏移预测结果Offset_X：

Cls_X＝Conv_cls(Conv_Ncls(P_fuse)) (15)

Offset_X＝Conv_offset(Conv_Noffset(P_fuse)) (16)

式(15)-式(16)中，Conv_Ncls(·)表示用于轮廓检测的N次卷积操作，Conv_cls(·)表示一个卷积核输出通道数为1的卷积操作；Conv_Noffset(·)表示为了用于坐标偏移预测的N次卷积操作，Conv_offset(·)表示一个卷积核输出通道数为8的卷积操作；

步骤4：对步骤3的结果进行后处理，得到最终文本检测结果；

步骤4.1：确定文本实例：

对文本轮廓预测结果Cls_X作二值化处理，然后查找到其包含的所有轮廓，并用最小外接旋转矩形来拟合每一个查找到的轮廓；且每一个轮廓对应一个文本实例；

步骤4.2：确定文本实例的外接多边形：

首先遍历查找到的每一个轮廓，再遍历每一个轮廓上的所有点，并在文本坐标偏移预测结果Offset_X上选择对应轮廓点的预测结果，将每个轮廓点的预测结果与相应轮廓点的坐标进行加法处理，从而得到文本实例的边界点坐标集合；最后用多边形拟合算法对边界点坐标集合进行拟合，从而得到最终的外接多边形作为图片X的文本检测结果。

与现有技术相比，本发明的有益效果在于：

1、本发明利用分割的方法来检测文本的轮廓，以确定文本实例，再回归坐标偏移，从而结合了分割方法与检测方法的优点，提高了长文本检测的效果。

2、本发明利用回归坐标偏移的方法来确定文本的外接多边形，具有后处理简单，可以检测任意形状文本的优点。

3、本发明通过预测轮廓来对文本的外接多边形进行建模，具有后处理简单，速度快的优点。

附图说明

图1是本发明基于轮廓建模的文本检测方法的使用流程图；

图2是本发明基于轮廓建模的文本检测方法的网络结构图。

具体实施方式

本实施例中，如图1所示，一种基于轮廓建模的文本检测方法，其特征在于，包括以下步骤：

所述特征融合模块FFM，包含8个卷积层，4个上采样层；

所述文本轮廓检测模块CM，包含N+1个卷积层；

所述文本坐标偏移预测模块OM，包含N+1个卷积层；

步骤3：运行基于轮廓建模的文本检测模型；

其中，H和W是背景图片X的高与宽；

Out₁＝MaxPool(Conv₁(X)) (1)

利用式(2)得到第1组BasicBlock层的输出F₁：

F₁＝MaxPool(ConvBlock₁(Out₁)) (2)

利用式(3)得到第2组BasicBlock层的输出F₂：

F₂＝MaxPool(ConvBlock₂(F₁)) (3)

利用式(4)得到第3组BasicBlock层的输出F₃：

F₃＝MaxPool(ConvBlock₃(F₂)) (4)

利用式(5)得到第4组BasicBlock层的输出F₄：

F₄＝MaxPool(ConvBlock₄(F₃)) (5)

In₄＝Conv_in4(F₄) (6)

P₄＝Conv_out4(In₄) (7)

In₃＝Conv_in3(F₃) (8)

P₃＝Conv_out3(UP(In₄)+In₃) (9)

In₂＝Conv_in2(F₂) (10)

P₂＝Conv_out2(UP(In₃)+In₂) (11)

In₁＝Conv_in1(F₁) (12)

P₁＝Conv_out1(UP(In₂)+In₁) (13)

P_fuse＝UP₈(P₄)+UP₄(P₃)+UP₂(P₂)+P1 (14)

步骤3.3：将步骤3.2得到的融合特征送入文本轮廓检测模块CM与文本坐标偏移预测模块OM，得到文本轮廓预测结果Cls_X与文本坐标偏移预测结果Offset_X:

Cls_X＝Conv_cls(Conv_Ncls(P_fuse)) (15)

Offset_X＝Conv_offset(Conv_Noffset(P_fuse)) (16)

式(15)-式(16)中，Conv_Ncls(·)表示为了得到益于轮廓检测的图像特征的N次卷积操作， Conv_cls(·)表示一个卷积核输出通道数为1的卷积操作；Conv_Noffset(·)表示为了得到益于坐标偏移预测的图像特征的N次卷积操作，Conv_offset(·)表示一个卷积核输出通道数为8的卷积操作，表示对4个点的x坐标与y坐标的偏移；

步骤4.1：确定文本实例：

对文本轮廓预测结果Cls_X作二值化处理：设置一个阈值，将Cls_X上大于阈值的点的值设为1，小于阈值的点的值设为0；然后查找到其包含的所有轮廓，并用最小外接旋转矩形来拟合每一个查找到的轮廓，设置一个最小宽度与高度，只保留外接旋转矩形的宽高大于设置的最小宽高的轮廓；每一个轮廓就确定了一个文本实例；

步骤4.2：确定文本实例的外接多边形：

首先遍历查找到的每一个轮廓，接着遍历每一个轮廓上的所有点，在文本坐标偏移预测结果Offset_X上选择对应点的预测结果，与对应轮廓点的坐标进行加法处理，以此可以得到4个边界点坐标；此边界点坐标含义如下：用一个经过当前点的水平线去切文本的外接矩形，可以得到左右2个边界点；再用一个经过当前点的竖直线去切文本的外接矩形，可以得到上下2个边界点；设一个轮廓上有T个点，处理后可以得到4T个边界点坐标集合；最后用多边形拟合算法对边界点坐标集合进行拟合，得到最终的外接多边形结果。

Claims

1.一种基于轮廓建模的文本检测方法，其特征在于，包括以下步骤：

所述特征融合模块FFM，包含8个卷积层，4个上采样层；

所述文本轮廓检测模块CM，包含N+1个卷积层；

所述文本坐标偏移预测模块OM，包含N+1个卷积层；

步骤3：运行基于轮廓建模的文本检测模型；

其中，H和W是背景图片X的高与宽；

Out₁＝MaxPool(Conv₁(X)) (1)

利用式(2)得到第1组BasicBlock层的输出F₁：

F₁＝MaxPool(ConvBlock₁(Out₁)) (2)

利用式(3)得到第2组BasicBlock层的输出F₂：

F₂＝MaxPool(ConvBlock₂(F₁)) (3)

利用式(4)得到第3组BasicBlock层的输出F₃：

F₃＝MaxPool(ConvBlock₃(F₂)) (4)

利用式(5)得到第4组BasicBlock层的输出F₄：

F₄＝MaxPool(ConvBlock₄(F₃)) (5)

步骤3.2：将四个特征图F₁、F₂、F₃、F₄送入特征融合模块FFM中，从而利用式(6)-式(14)进行特征融合：

In₄＝Conv_in4(F₄) (6)

P₄＝Conv_out4(In₄) (7)

In₃＝Conv_in3(F₃) (8)

P₃＝Conv_out3(UP(In₄)+In₃) (9)

In₂＝Conv_in2(F₂) (10)

P₂＝Conv_out2(UP(In₃)+In₂) (11)

In₁＝Conv_in1(F₁) (12)

P₁＝Conv_out1(UP(In₂)+In₁) (13)

P_fuse＝UP₈(P₄)+UP₄(P₃)+UP₂(P₂)+P₁ (14)

Cls_X＝Conv_cls(Conv_Ncls(P_fuse)) (15)

Offset_X＝Conv_offset(Conv_Noffset(P_fuse)) (16)

步骤4.1：确定文本实例：

步骤4.2：确定文本实例的外接多边形：