CN110321893A

CN110321893A - 一种聚焦增强的场景文本识别网络

Info

Publication number: CN110321893A
Application number: CN201910569994.1A
Authority: CN
Inventors: 解梅; 易鑫; 公衍翔; 秦国义
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-11

Abstract

本发明提供一种聚焦增强的场景文本识别网络，包括卷积层、循环层与转录层，所述卷积层包括若干标准卷积层以及可变形卷积层；可变形卷积层进行的二维卷积的偏移量，使得卷积核采样点扩散成非gird形状。本发明用与自然场景下的文本识别，针对倾斜、弯曲、形变的不规则文本的的提取特征过程中使用非gird形状的卷积核能使得到的特征更加有效，通过改变神经网络的焦点，提升神经网络在文本区域的注意力，以提高神经网络对自然场景下的不规则文本的识别效率。

Description

一种聚焦增强的场景文本识别网络

技术领域

本发明涉及计算机图像处理与自然场景文本识别技术。

背景技术

图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。

随着多媒体以及互联网技术的快速发展,人们获取自然场景图片的方式越来越多,怎样从丰富的图片中摘取自己需要的信息就变得越来越重要。而随着人工智能和深度学习技术的发展,高效读取自然场景中文本的应用需求也急剧增加,自然场景文本定位和识别的应用场景也越来越多,如视频或图像自动索引、智能交通系统、盲人导航系统、机器人导航系统、地理位置信息自动服务、工业生产自动化等等。

自然场景文本识别算法CRNN将卷积神经网络CNN和递归神经网络RNN结合起来用于场景文本识别。CRNN得益于不需要分割就能进行序列标记的RNN，实现了端到端识别。CRNN主要由卷积层(convolutional layers)、循环层(recurrent layers)和转录层(transcription layer)三个模块组成。其框架如图1所示。

卷积层由卷积和最大池化max pooling组成，卷积网络通过一个3*3的矩形卷积核在图像上滑动，以此提取文本特征。

然而，自然场景中的文字与文档中的文字有所差异，其不仅呈现出从左到右的水平排列，在自然场景中，同时存在着倾斜、弯曲、形变等不规则的文本。传统的方法只针对从左至右水平排列的文本有着很好的识别效果，但对于场景中的不规则文本的识别率则大打折扣。

发明内容

本发明所要解决的技术问题是，提供一种提高对场景中不规则文本的识别效果的网络。

本发明为解决上述技术问题说采用的技术方案是，一种聚焦增强的场景文本识别网络，包括卷积层、循环层与转录层，其特征在于，所述卷积层包括若干标准卷积层以及可变形卷积层；

标准卷积层进行的二维卷积y为：

其中，p₀为输入图像中像素点位置，w为，即层与层之间的权值矩阵，x为输入图像像素值，p_n为卷积核采样点位置，R为接受域，即卷积核采样点的集合，接受域为以像素点位置p₀为中心并向四周扩散方格grid形状上的9个位置；

可变形卷积层进行的二维卷积y^*为：

其中，Δp_n为偏移量，使得卷积核采样点扩散成非gird形状。

本发明用与自然场景下的文本识别，针对倾斜、弯曲、形变的不规则文本的的提取特征过程中使用非gird形状的卷积核能使得到的特征更加有效。

本发明的有益效果是，通过改变神经网络的焦点，提升神经网络在文本区域的注意力，以提高神经网络对自然场景下的不规则文本的识别效率。

附图说明

图1为CRNN模型框架。

图2为3*3的可变形卷基础层。

图3为可变形3*3的卷积核偏移量示意图；浅色的点表示标准卷积核的位置，箭头表示偏移量，深色的点表示可变形卷积核的位置。

图4为本发明的流程图。

图5为本发明网络卷积层的体系结构；“Conv”表示标准卷积层，“AptPooling”表示自适应最大池层，“DfConv”表示可变形卷积层，“Bn”表示批量归一化操作。连接器“-”表示一些连续的层。对可变形卷积层前后的特征图进行了可视化处理。

图6现有CRNN模型识别结果与本发明聚焦增强CRNN模型识别结果的对比图。

具体实施方式

为了聚焦增强，本发明在现有CRNN模型框架的基础上，对传统卷积层进行了改造。

聚焦增强理论思想：

在卷积神经网络中，对于每个输出y(p₀)，都要从输入的原图像上采样9个位置，这9个位置都在中心位置向四周扩散得到的方格gird形状上，(-1,-1)代表中心位置的左上角，(1,1)代表中心位置的右下角，其他类似。图像中每个位置p₀的二维卷积可用如下公式表示：

其中，p₀为输入图像中像素点位置，w为卷积核，x为输入图像像素值，p_n为卷积核采样点位置，R为接受域，即卷积核采样点的集合，R为接受域，即卷积核采样点的集合，以像素点位置p₀为中心并向四周扩散方格grid形状上的9个位置。

在卷积运算中，神经网络的各个卷积层可以学习在卷积核的文本位置上添加偏移量，本发明通过在卷积核的文本位置上添加偏移量，并将其集成在CRNN的模型之中，以达到聚焦增强的目的。添加偏移量后的卷积层被称为可变形卷积层。此时，在可变形卷积层中，同样对于每个输出y^*(p₀)，都要从输入的原图像上采样9个位置，这9个位置是中心位置p₀向四周扩散得到的，但是多了一个新的参数Δp_n，允许采样点扩散成非gird形状，图像中每个位置p₀的二维卷积可用如下公式表示，其中R被偏移量增广{Δp_n|n＝1,…,N}。其中，N为卷积核的采样点数(在我们的算法中N＝3*3)，p₀、p_n、Δp_n都是二维坐标。

偏移量Δp_n来自偏移量卷积网络输出，该网络输入同一般的CNN，输出的是基于正规grid的偏移量。可变形卷积(deformable convolution)示意图如图2所示：

卷积操作offset network：通过一个与输入特征图的高h、宽w相同的逐点偏移映射offset field，从输入特征图(input feature map)抽取点值，从而得到输出特征图output feature map。由于正规点加偏移得到的位置不一定都是整数，因而需要借助双线性插值来实现样本点的提取。在得到输出特征图后，后续可以接普通的CNN处理流程。

为了方便理解，我们可以简单地可以将可变形卷积概括为位移加卷积，位移由另一个CNN网络和双线性插值构成。

在训练阶段，神经网络可以自动学习采样点的偏移量。可变形卷积的过程如图3所示。

可变形卷积的接受域的形状可以更高地聚焦于文本区域，这使得我们的网络对不规则文本的适应能力增强。

具体模型及做法：

对于经典的从图像中提取CNN特征的VGG网络，我们使用可形变卷积层来替换普通卷积层，但对于神经网络中的普通卷积层的替换不是任意的。由于偏移量在图像中需要一定的空间，在本文提出的算法框架中只有第二和第三卷积层被可形变卷积层所替代，因为之后的卷积层的输入尺寸太小。此外，由于可变形卷积层在图像中需要一定的空间进行偏移，我们需要保持图像的空间分辨率，因此输入图像的尺寸要求为200*64而不是CRNN模型中使用的100*32。识文本识别算法的流程如图4所示，输入的200*64图像经过卷积层(convolutional layers)、循环层(recurrent layers)和转录层(transcription layer)后得到得到识别出的文本字符。

我们提出卷积神经网络模型之后沿用了CRNN中的循环层以及转录层，对卷积层进行改造。卷积层的结构如图5所示，卷积层包括顺次串连的卷积层1、池化层1、可变形卷积层2、池化层2、可变形卷积层3、归一化模块3、卷积层4、池化层4、4个残差块、卷积层5、归一化模块5、卷积层6、池化层6、卷积层7、池化层7、卷积层8、归一化模块8。

由于对卷积网络进行改造，使得卷积网络的深度加深，容易出现梯度下降问题。针对梯度下降的问题，在第四个卷积层之后添加了四个残差块(residual blocks)。为了更好的工程实现，我们的网络采用了自适应最大池层。这些层能够根据输出特性映射的所需大小自动获得内核大小。

实验结果

如图6所示，将现有CRNN模型识别结果与本发明聚焦增强CRNN模型识别结果进行对比，图6中第1行与第4行的图片为输入图像，第2、5行字符为现有CRNN模型识别结果，第3、6行字符为本发明聚焦增强CRNN模型识别结果。可以看出，通过使用本文提出网络进行端到端的训练，训练出的识别模型对自然场景下不规则文本的识别效率得到了提升，。在Total、ICDAR2013、ICDAR2015等测试集中都有4个百分点左右的提升。

Claims

1.一种聚焦增强的场景文本识别网络，包括卷积层、循环层与转录层，其特征在于，所述卷积层包括若干标准卷积层以及可变形卷积层；

标准卷积层进行的二维卷积y为：

其中，p₀为输入图像中像素点位置，w为层与层之间的权值矩阵，x为输入图像像素值，p_n为卷积核采样点位置，R为接受域，即卷积核采样点的集合，接受域为以像素点位置p₀为中心并向四周扩散方格grid形状上的9个位置；

可变形卷积层进行的二维卷积y^*为：

其中，Δp_n为偏移量，使得卷积核采样点扩散成非gird形状。

2.如权利要求1所述场景文本识别网络，其特征在于，卷积层包括顺次串连的标准卷积层1、池化层1、可变形卷积层2、池化层2、可变形卷积层3、归一化模块3、标准卷积层4、池化层4、4个残差块、标准卷积层5、归一化模块5、标准卷积层6、池化层6、标准卷积层7、池化层7、标准卷积层8、归一化模块8。