CN110399882A

CN110399882A - 一种基于可变形卷积神经网络的文字检测方法

Info

Publication number: CN110399882A
Application number: CN201910459144.6A
Authority: CN
Inventors: 黄国恒; 杨帆; 黄和锟
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-11-01

Abstract

本发明公开了一种基于可变形卷积神经网络的文字检测方法，通过接收输入的包含文字信息的图像，然后构建包括可变形卷积结构的卷积神经网络并对图像进行特征提取，得到多张特征映射；使用滑动窗口提取所述特征映射上的特征向量，根据所述特征向量对多个候选框进行预测；将所述特征向量输入到BiGRU网络中，将BiGRU网络的输出结果输入到一个全连接层；将从所述全连接层得到的特征向量结果进行分类和回归，基于分类和回归的结果通过文本构造算法得到图像中的文字检测结果。由于本发明卷积的区域覆盖任意形状的物体附近并使用多层进行检测，从而有效地对图像中过大或过小的字体进行检测解决了现有技术对于图像中大小不一的文字检测准确率低的问题。

Description

一种基于可变形卷积神经网络的文字检测方法

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种基于可变形卷积神经网络的文字检测方法。

背景技术

近年来随着深度学习的发展，文字检测技术有了很大的提高，自然场景下文字检测与识别技术的应用十分广泛，各种应用系统开始推出，如名片识别系统、身份证银行卡识别系统、车牌识别系统、银行票据识别系统、增值税发票识别认证系统等。其中自然场景下文字检测与识别包括两个任务，分别是文字检测和文字识别，由于文字检测的正确率直接决定了后续文字识别的正确率，文字检测占有十分重要的地位。

然而由于自然场景下文字的多方向性和多形态性，现有基于卷积神经网络的文字检测方法有时难以提取有用的特征，对于图像中过大过小的字体无法检测，影响了文字检测的准确率。

发明内容

本发明为解决现有技术对于图像中大小不一的文字检测准确率低的问题，提供了一种基于可变形卷积神经网络的文字检测方法。

为实现以上发明目的，而采用的技术手段是：

一种基于可变形卷积神经网络的文字检测方法，包括以下步骤：

S1.接收输入的图像，所述图像中包括待检测的文字信息；

S2.构建卷积神经网络，所述卷积神经网络中包括可变形卷积结构；

S3.通过所述卷积神经网络对图像进行特征提取，得到多张特征映射；

S4.使用滑动窗口提取所述特征映射上的特征向量，根据所述特征向量对多个候选框进行预测；

S5.将所述特征向量输入到BiGRU网络中，将BiGRU网络的输出结果输入到一个全连接层；

S6.将从所述全连接层得到的特征向量结果进行分类和回归，基于分类和回归的结果通过文本构造算法得到图像中的文字检测结果。

上述方案中，通过对标准的卷积神经网络进行改进，在其中设置了可变形卷积结构来对图像进行特征提取，从而有效地对图像中过大或过小的字体进行检测；同时将特征向量输入到BiGRU网络中进行学习和检测，可以减少矩阵乘法，提高检测效率，最后将BiGRU网络的输出结果输入到一个全连接层并进行分类和回归得到图像中的文字检测结果。

优选的，步骤S2中所述的卷积神经网络以VGG19网络为基础网络架构，所述可变形卷积结构具体为：将原始VGG19网络中的Conv2D层替换为可变形卷积层，将原始VGG19网络中的MaxPooling2D层替换为可变形池化层。在本优选方案中，通过对VGG19网络进行改进，在其中设置了多层可变形卷积层和可变形池化层来提取多层的图像特征，可以使卷积的区域覆盖任意形状的物体附近并使用多层进行检测，从而有效地对图像中过大或过小的字体进行检测。

优选的，所述可变形卷积结构定义为：

其中对于每个输出y(P₀)，都要从x上采样9个位置，所述9个位置由中心点位置P₀向四周扩散得到；所述可变形卷积层的扩散量参数即偏移量ΔP_n；w(P_n)为输入的图像；P_n为9个位置，使用3*3卷积；

进行双线性插值操作：

x(p)＝∑_qG(Q,P)*x(q)

其中G(q,p)＝g(q_x,p_x)*g(q_y,p_y)g(a,b)＝max(0,1-|a-b|)，若a-b＞1，g即为0；x(p)为进行双线性插值之后的值，x(q)是进行双线性插值之前的值；

进行可变形池化，i,j为像素数：

y(i,j)＝∑_p∈bin(i,j)x(p₀+p+Δp_ij)/n_ij

p₀是左上方的角落块，n_ij是角落块内的像素值，ΔP_ij为偏移量；

其中，梯度偏移量ΔP_n：

其中，梯度偏移量ΔP_ij：

优选的，所述滑动窗口的大小是3×3×C，所述特征映射的大小为W×H×C。

优选的，所述BiGRU网络包括两个单向的GRU网络，两个所述GRU网络的方向相反。

优选的，所述GRU网络的前向传播公式为：

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

y_t＝σ(W₀·h_t)

其中r_t表示t时刻的重置门，z_t表示t时刻的更新门，h_t表示t时刻的候选激活状态，h_t表示t时刻的激活状态，h_t-1表示t-1时刻的隐藏门状态，x_t为本次输入的特征向量数据。

优选的，所述步骤S6具体为：

将从所述全连接层得到的特征向量结果进行分类和回归，得到的分类和回归的结果为2k个纵向坐标y，2k个分数，k个的水平偏移量x，k个参数角；通过文本构造算法将所述结果合并成文本框，并将所述文本框映射到所述图像上，得到图像中的文字检测结果；

其中2k个纵向坐标y表示所述候选框的高度和中心的y轴的坐标，2k个分数表示k个候选框的类别信息，说明其是否为字符；k个的水平偏移量x表示的是候选框的水平偏移量，k个参数角为最终输出的候选框与水平线之间的角度。

与现有技术相比，本发明技术方案的有益效果是：

通过对用于提取图像特征的卷积神经网络进行改进，在其中设置了多层可变形卷积层和可变形池化层来提取多层的图像特征，可以使卷积的区域覆盖任意形状的物体附近并使用多层进行检测，从而有效地对图像中过大或过小的字体进行检测，提高了对于图像中大小不一的文字检测准确率；同时设置了BiGRU网络，将特征输入到BiGRU网络中进行学习和检测，可以减少矩阵乘法，进一步提高了文字检测的效率。

附图说明

图1为本发明方法的流程图。

图2为本实施例中某图像得到分类和回归的结果的效果图。

图3为本实施例中某图像根据到分类和回归结果合并成文本框的效果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

一种基于可变形卷积神经网络的文字检测方法，如图1所示，包括以下步骤：

S1.接收输入的图像，所述图像中包括待检测的文字信息；

其中卷积神经网络以VGG19网络为基础网络架构，所述可变形卷积结构具体为：将原始VGG19网络中的Conv2D层替换为可变形卷积层，将原始VGG19网络中的MaxPooling2D层替换为可变形池化层。

可变形卷积结构定义为：

进行双线性插值操作：

x(p)＝∑_qG(Q,P)*x(q)

进行可变形池化，i,j为像素数：

y(i,j)＝∑_p∈bin(i,j)x(p₀+p+Δp_ij)/n_ij

其中，梯度偏移量ΔP_n：

其中，梯度偏移量ΔP_ij：

S4.使用滑动窗口提取所述特征映射上的特征向量，根据所述特征向量对多个候选框进行预测；其中所述滑动窗口的大小是3×3×C，所述特征映射的大小为W×H×C。

S5.将所述特征向量输入到BiGRU网络中，将BiGRU网络的输出结果输入到一个全连接层；其中所述BiGRU网络包括两个单向的GRU网络，两个所述GRU网络的方向相反；

GRU网络的前向传播公式为：

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

y_t＝σ(W₀·h_t)

S6.将从所述全连接层得到的特征向量结果进行分类和回归，得到的分类和回归的结果为2k个纵向坐标y，2k个分数，k个的水平偏移量x，k个参数角，本实施例中某图像的具体效果如图2所示；通过文本构造算法将所述结果合并成文本框，效果如图3所示，并将所述文本框映射到所述图像上，得到图像中的文字检测结果；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于可变形卷积神经网络的文字检测方法，其特征在于，包括以下步骤：

S1.接收输入的图像，所述图像中包括待检测的文字信息；

2.根据权利要求1所述的文字检测方法，其特征在于，步骤S2中所述的卷积神经网络以VGG19网络为基础网络架构，所述可变形卷积结构具体为：将原始VGG19网络中的Conv2D层替换为可变形卷积层，将原始VGG19网络中的MaxPooling2D层替换为可变形池化层。

3.根据权利要求2所述的文字检测方法，其特征在于，所述可变形卷积结构定义为：

进行双线性插值操作：

x(p)＝∑_qG(Q,P)*x(q)

进行可变形池化，i,j为像素数：

y(i,j)＝∑_p∈bin(i,j)x(p₀+p+Δp_ij)/n_ij

其中，梯度偏移量ΔP_n：

其中，梯度偏移量ΔP_ij：

4.根据权利要求1所述的文字检测方法，其特征在于，所述滑动窗口的大小是3×3×C，所述特征映射的大小为W×H×C。

5.根据权利要求1所述的文字检测方法，其特征在于，所述BiGRU网络包括两个单向的GRU网络，两个所述GRU网络的方向相反。

6.根据权利要求5所述的文字检测方法，其特征在于，所述GRU网络的前向传播公式为：

r_t＝σ(W_r·[h_t-1,x_t])

z_t＝σ(W_z·[h_t-1,x_t])

y_t＝σ(W₀·h_t)

7.根据权利要求1所述的文字检测方法，其特征在于，所述步骤S6具体为：