CN113221874A

CN113221874A - 基于Gabor卷积和线性稀疏注意力的文字识别系统

Info

Publication number: CN113221874A
Application number: CN202110642032.1A
Authority: CN
Inventors: 徐源; 黄征; 陈凯; 周异
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-08-06

Abstract

一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统，包括：空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块，空间矫正模块对输入的场景文字图像进行矫正，Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征，经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别。本发明能够有效捕获场景文字图像各字符对象的方向和纹理变化特征，在提取目标的局部空间和频率域信息方面具有良好的特性。采用自注意力机制替代循环神经网络结构，由此具备了良好的并行计算的能力，加快了训练和推理速度。同时在自注意力机制中引入稀疏注意力的思想，解决了模型随着长度的增加，注意力部分所占用的内存和计算呈平方比增加的问题，同时有助于将引起注意的部分被保留下来，而忽视其他无关的信息。并且在稀疏注意力中加入线性关系约束，一定程度上可以缓解注意力偏移的问题，使得文字识别更加精准。

Description

基于Gabor卷积和线性稀疏注意力的文字识别系统

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统。

背景技术

现有基于深度学习的场景文字识别系统包括：基于单个字符的识别方法、基于单词分类的识别方法和基于文本序列的识别方法。最常用的基于文本序列的识别方法主要采用了两类技术，即连接主义时间分类(CTC)和注意力机制。

基于CTC的方法首先将包含场景文本的图像输入到特征提取网络中，将2D图像降维成1D特征序列。然后将特征序列串行输入到循环神经网络，从而获取上下文信息。最终又将包括：上下文信息的特征序列，通过CTC进行“软对齐”，同时通过计算损失函数来进行网络参数的更新。这种方法的不足之处是不同位置的特征序列在预测时赋予了同样的权重，而实际情况是在预测后面的字符序列时，需要对当前位置的特征序列给予较大的注意力，而对其他位置并不应该赋予同样大小的注意力。

基于注意力机制的方法首先将2D特征图降维处理成1D特征序列后，输入到特征循环注意力网络中，对每个位置都额外学习一个注意力参数，方便对提取的当前位置的特征序列加权。该类方法在规则场景文本识别问题上表现良好，然而针对不规则场景下的文本识别问题，该类方法鲁棒性和有效性有所欠缺，其根本的原因在于把2D特征图降维成1D特征序列这个过程中不可避免损失了空间信息。这种情况下，针对识别不规则场景文本的问题时，就很难通过注意力机制来给对应位置较大的权值。针对此算法的后续改进，更多集中于前面特征提取部分，通过替换成更加强有力的特征提取器来提升算法性能，而非整体算法设计上的创新。另外循环注意力机制当前时刻的计算值依赖于上一时刻的计算结果，这样的串行计算模式极其消耗运算资源，也降低了运算效率，导致硬件的更新换代对该类算法运行速度的改进并不明显。

发明内容

本发明针对现有的文字识别算法弯曲文本识别不精确、无法并行计算等问题，提出一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统，采用Gabor滤波器和卷积神经网络相融合的方式，能够有效捕获场景文字图像各字符对象的方向和纹理变化特征，在提取目标的局部空间和频率域信息方面具有良好的特性。采用自注意力机制替代循环神经网络结构，由此具备了良好的并行计算的能力，加快了训练和推理速度。同时在自注意力机制中引入稀疏注意力的思想，解决了模型随着长度的增加，注意力部分所占用的内存和计算呈平方比增加的问题，同时有助于保留局部紧密相关和远程稀疏相关的关联特性。并且在稀疏注意力中加入线性关系约束，一定程度上可以缓解注意力偏移的问题，使得文字识别更加精准。

本发明是通过以下技术方案实现的：

本发明涉及一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统，包括：空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块，其中：空间矫正模块对输入的场景文字图像进行矫正，Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征，经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别。

所述的空间矫正模块包括：定位网络、网格生成器和采样器，其中：定位网络根据输入图计算得到图像的仿射变换参数，网格生成器根据输出图的坐标点和定位网络所得的变换参数，计算得到输入图的坐标点，采样器根据双线性插值等填充规则来填充图像，完成图像的矫正。

所述的Gabor特征提取模块包括：卷积自动编码网络、Gabor卷积网络和融合单元，其中：卷积自动编码网络根据文字图像进行卷积运算，得到文字图像中的非线性深度特征，即卷积特征，Gabor滤波器与文字图像进行卷积运算，融合单元将卷积特征和卷积特征相加融合并输出代表场景文字图像，即矫正后文字图像的特征向量，该Gabor滤波器的方向和尺度均能够动态调整以捕获文字图像中不同走向的纹理特征和边缘信息和提取文字图像中不同尺度的最优局部特征。

所述的Gabor滤波器的方向和尺度均可以动态调整以获取更好的文字特征，调整Gabor滤波器方向参数有助于捕获文字图像中不同走向的纹理特征和边缘信息；调整Gabor滤波器尺度参数有助于提取文字图像中不同尺度的最优局部特征；由于二维Gabor滤波器的滤波特性与哺乳动物感受野的良好近似，以及它在空间域中良好的方向选择性和频域中良好的频率选择性，因此能够很好地提取出方向鲁棒的文字特征。

所述的线性稀疏注意力模块包括：编码器、解码器和识别单元，其中：编码器对添加位置编码信息的文字图像特征向量进行自注意力运算，得到中间向量；解码器根据编码器的输出结果和当前字符的词嵌入向量进行带稀疏和线性思想的自注意力运算，得到最终的预测向量；识别单元将解码器输出的预测向量通过Linear层以及Softmax层，得到预测字符的概率分布，随即得到当前的预测字符，该预测字符经过词嵌入生成的当前字符向量会作为下一轮的输入向量输入到解码器直至识别出终止符并经拼接处理得到场景文字图像的文字识别结果。

所述的位置编码

其中：p是当前字符的位置(即是当前字符串的第几个字符)，i是从1到d的维度值，位置编码变换的维度和文字图像的特征向量的维度一致。

所述的编码器包括：稀疏注意力层、位置前馈层，其中：稀疏注意力层在多头注意力的基础上引入稀疏思想，即将同一个输入分别输入到n个自注意力

中，得到n个加权后的特征矩阵，将这n个输出矩阵直接拼成一个大的特征矩阵，最后再通过一层全连接层后得到输出Z。

所述的稀疏思想是指：稀疏注意力机制来减少关联性的计算，综合空洞自注意力和局部自注意力的特性来只保留小区域内的注意力而强制让大部分注意力为零，其中：空洞自注意力对注意力相关性进行了约束，强行要求每个元素只跟它相对距离为k,2k,3k,…的元素关联，其中k是预先设定的超参数并且大于1。局部自注意力同样对注意力相关性进行约束，强行要求每个元素只与前后k个元素以及自身有关联，即在具体计算自注意力的时候，只关心有限特殊位置的注意力运算，从而在减少计算量节省显存的同时保留了局部紧密相关和远程稀疏相关的全局关联特性。

所述的解码器包括：掩码稀注意力疏层、线性稀疏注意力层、位置前馈层，其中：掩码稀疏注意力层在稀疏注意力层的基础上引入了掩码从而在序列进行运算的时候屏蔽后面字符对当前字符推理过程的影响，线性稀疏注意力层利用文字图像的注意力的线性关系对生成注意力加以约束。

所述的掩码稀疏注意力层的计算过程也类似于稀疏注意力层，只是掩码稀疏注意力层的自注意力的矩阵Q来自解码器，而矩阵K和V来自于编码器，这一层起到连接编码器和解码器的目的，并且在单个解码器块中是唯一的一层连接。

所述的编码器的和解码器的位置前馈层均包括两层卷积层，其中：第一层的激活函数是ReLU，第二层是一个线性激活函数，具体为：FFL(Z)＝max(0，ZW₁+b₁)W₂+b₂，其中：W₁和W₂为特征矩阵，b₁和b₂为对应的偏置。

所述的线性注意力是指解码器输出得到注意力后，通过位置编码表示的位置依赖关系逆向计算得到和图像特征图对应的高×宽(H×W)的二维激活图，在每一列上取最大值的坐标位置标志此区域的注意力中心，W个中心理论上应该呈现良好的线性关系，对这W个点做线性回归后计算均方误差，此均方误差和注意力模块的交叉熵损失共同组成模型的损失函数，具体为：Loss＝CrossEntropy(predict)+α*MSE(h_i-h_i′)，其中：CrossEntropy(predict)为预测阶段的交叉熵损失，hi为第i个中心点的纵坐标，hi’为中心点线性回归后的纵坐标，α为一个常量参数。

所述的识别单元是指将解码器输出的预测向量通过Linear层以及Softmax层，得到预测字符的概率分布，随即得到当前的预测字符。与此同时该字符经过词嵌入生成的当前字符向量会作为下一轮的输入向量输入到解码器，重复此过程直到识别出终止符，标志识别行为的结束。识别出来的全部字符经过拼接处理即为场景文字图像的文字识别结果。

技术效果

本发明整体解决了现有场景文字识别技术弯曲文本识别不精确、无法并行计算等问题；

与现有技术相比，本发明在特征提取阶段采用Gabor滤波器和卷积神经网络相融合的方式，能够有效捕获场景文字图像各字符对象的方向和纹理变化特征；在编解码阶段采用自注意力机制替代循环神经网络结构，由此具备了良好的并行计算的能力，加快了训练和推理速度。同时在自注意力机制中引入稀疏注意力的思想，解决了模型随着长度的增加，注意力部分所占用的内存和计算呈平方比增加的问题，同时有助于将引起注意的部分被保留下来，而忽视其他无关的信息。并且在稀疏注意力中加入线性关系约束，一定程度上可以缓解注意力偏移的问题。

附图说明

图1为本发明系统示意图；

图2为本发明的空间矫正模块示意图；

图3为本发明的Gabor特征提取模块示意图；

图4为本发明的线性稀疏注意力模块示意图。

具体实施方式

如图1所示，为本实施例涉及一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统，包括：空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块，其中：空间矫正模块对输入的场景文字图像进行矫正，Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征，经融合后输入至线性稀疏注意力模块进行编解码从而实现文字识别。

本系统以RGB三通道的彩色图片为输入，输出为文字识别的文本结果，其Gabor特征提取模块具备强特征提取能力，线性稀疏注意力模块具备注意力约束能力，所以对于场景文字图像尤其是不规则的场景文字图像具有良好的识别效果。

如图2所示，所述的空间矫正模块包括：定位网络、网格生成器、采样器。在本系统的具体实施过程中，使用包含affine_grid和grid_sample模块的PyTorch框架来实现空间矫正模块。

所述的定位网络是指：定位网络是一个常规卷积网络通过提取图像的特征来预测变换矩阵θ，用来描述逆变换。这种空间转换不是从数据集显式学习到的,而是自动化学习以增强全局的预测准确率。两层卷积主要参数设置为：卷积层1输入通道数为3，输出通道数为8，卷积核大小为7，采用步长为2的最大池化函数和ReLU激活函数；卷积层2输入通道数为8，输出通道数为10，卷积核大小为5，采用步长为2的最大池化函数和ReLU激活函数。

卷积层后采用全连接层回归出仿射变换参数θ。两层全连接主要参数设置为：全连接层1输入样本大小为840，输出样本大小为32；全连接层2输入样本大小为32，输出样本大小为6。两层全连接由ReLU激活函数连接。

所述的网格生成器是指：网格生成器根据输出图的坐标点和定位网络所得的变化参数，计算得到输入图的坐标点。网格生成器利用定位网络回归出来的θ参数对输入图片到输出图片之间像素位置进行变换，具体为：grid＝F.affine_grid(theta，x.size())，其中F为torch.nn.functional，theta为全连接层得到的θ参数，x为输入图像的像素表示。

所述的采样器是指：对于上述网格生成的情况，如果像素位置变换产生小数，采样器根据双线性插值等填充规则来填充图像，完成图像的矫正，具体为：x＝F.grid_sample(x，grid)，其中F为torch.nn.functional，x为输入图像的像素表示，grid为网格生成器得到的映射后坐标。

如图3所示，所述的Gabor特征提取模块包括：卷积自动编码网络、Gabor卷积网络、融合单元。

所述的卷积自动编码网络是指：三个卷积层和上采样层串联而成的简单卷积神经网络，主要参数设置为：卷积核大小均为3，最大池化步长为2，上采样的scale_factor为2，最终的输出尺寸为32×100。

所述的Gabor卷积网络是指：引入Gabor方位滤波器的卷积神经网络。Gabor方位滤波器是由Gabor滤波器组对可训练的卷积滤波器调制而成，参数更新也发生在反向传播阶段。主要参数设置为：-channel特征图的数量为1，方向通道的数量为4，Gabor滤波器数量为4，滤波器核大小为3，最终的输出尺寸为32×100。

所述的融合单元是指：将卷积自动编码网络的输出结果和Gabor卷积网络的输出结果相加得到矫正后场景文字图像的特征向量，具体为：

其中F为矫正后图像，G为通过对应方向的Gabor滤波器对可训练的卷积滤波器调制得到的一组含有不同方向的方位滤波器。

如图4所示，所述的线性稀疏注意力模块包括：编码器、解码器、识别单元。本系统基于谷歌开源的Transformer修改实现线性稀疏注意力模块。

文字图像的特征向量结合其位置编码(Positional Encoding)结果共同输入到编码器，具体为：

其中p是当前字符的位置(即是当前字符串的第几个字符)，i是从1到d的维度值，位置编码变换的维度和文字图像的特征向量的维度一致。

所述的编码器包括：稀疏注意力层、位置前馈层。

所述的稀疏注意力层是指：稀疏注意力层在多头注意力的基础上引入稀疏思想，即将同一个输入分别输入到n个自注意力

中，得到n个加权后的特征矩阵，将这n个输出矩阵直接拼成一个大的特征矩阵，最后再通过一层全连接层后得到输出Z。稀疏注意力层的主要参数设置为：多头注意力数目为8，多头注意力输出大小d_model为512，dropout为0.1，稀疏参数k为4。

所述的位置前馈层是指：位置前馈层有两层线性变换以及它们之间的ReLU激活组成，具体为：FFL(Z)＝max(0，ZW₁+b₁)W₂+b₂，其中W₁和W₂为特征矩阵，b₁和b₂为对应的偏置。主要参数设置为：位置前馈层的输入和输出大小均为512，中间隐单元的个数为2048，dropout为0.1。

所述的解码器包括：掩码稀疏注意力层、线性稀疏注意力层、位置前馈层。

所述的掩码稀疏注意力层是指：掩码稀疏注意力层在稀疏注意力层的基础上引入了掩码，原因是为了在序列进行运算的时候屏蔽后面字符对当前字符推理过程的影响。掩码稀疏注意力层的计算过程也类似于稀疏注意力层，只是掩码稀疏注意力层的自注意力的矩阵Q来自解码器，而矩阵K和V来自于编码器，这一层起到连接编码器和解码器的目的，并且在单个解码器块中是唯一的一层连接。主要参数设置为：掩码矩阵大小为512×512。

所述的线性稀疏注意力层是指：在稀疏注意力层的生成结果上添加注意力线性约束关系，具体做法为：通过位置编码表示的位置依赖关系逆向计算得到和图像特征图对应的高×宽(H×W)的二维激活图，在每一列上取最大值的坐标位置标志此时此区域的注意力中心，W个中心理论上应该呈现良好的线性关系，对这W个点做线性回归后计算均方误差，此均方误差和注意力模块的交叉熵损失共同组成模型的损失函数：Loss＝CrossEntropy(predict)+α×MSE(h_i-h_i′)，其中CrossEntropy(predict)为预测阶段的交叉熵损失，h_i为第i个中心点的纵坐标，h_i’为中心点线性回归后的纵坐标，α为一个常量参数。

所述的位置前馈层和编码器的位置前馈层完全一致。

所述的识别单元是指：将解码器输出的预测向量通过Linear层以及Softmax层，得到预测字符的概率分布，随即得到当前的预测字符。与此同时该字符经过词嵌入生成的当前字符向量会作为下一轮的输入向量输入到解码器，重复此过程直到识别出终止符，标志识别行为的结束。识别出来的全部字符经过拼接和后处理即为场景文字图像的文字识别结果。主要参数设置为：Linear层输入样本大小为512，输出样本大小为65。65是指字符表大小，包括十个数字，52个大小写字母，以及三个标点符号，分别是：“,”和“.”以及终止符EOS。

在具体实施过程中，本系统要求输入为RGB三通道的彩色图片，输出为文字识别的文本结果。本系统Gabor特征提取模块具备强特征提取能力，线性稀疏注意力模块具备注意力约束能力，所以对于场景文字图像尤其是不规则的场景文字图像具有良好的识别效果。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征在于，包括：空间矫正模块、Gabor特征提取模块和线性稀疏注意力模块，其中：空间矫正模块对输入的场景文字图像进行矫正，Gabor特征提取模块从矫正图像中提取出Gabor特征和卷积特征，经融合后输出至线性稀疏注意力模块进行编解码从而实现文字识别；

2.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征是，所述的空间矫正模块包括：定位网络、网格生成器和采样器，其中：定位网络根据输入图计算得到图像的仿射变换参数，网格生成器根据输出图的坐标点和定位网络所得的变换参数，计算得到输入图的坐标点，采样器根据双线性插值等填充规则来填充图像，完成图像的矫正。

3.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征是，所述的Gabor特征提取模块包括：卷积自动编码网络、Gabor卷积网络和融合单元，其中：卷积自动编码网络根据文字图像进行卷积运算，得到文字图像中的非线性深度特征，即卷积特征，Gabor滤波器与文字图像进行卷积运算，融合单元将卷积特征和卷积特征相加融合并输出代表场景文字图像，即矫正后文字图像的特征向量；

所述的Gabor滤波器的方向和尺度均能够动态调整以捕获文字图像中不同走向的纹理特征和边缘信息和提取文字图像中不同尺度的最优局部特征。

4.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征是，所述的位置编码

其中：p是当前字符的位置，i是从1到d的维度值，位置编码变换的维度和文字图像的特征向量的维度一致。

5.根据权利要求1所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征是，所述的编码器包括：稀疏注意力层、位置前馈层，其中：稀疏注意力层在多头注意力的基础上引入稀疏思想，即将同一个输入分别输入到n个自注意力

6.根据权利要求5所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征是，所述的稀疏思想是指：稀疏注意力机制来减少关联性的计算，综合空洞自注意力和局部自注意力的特性来只保留小区域内的注意力而强制让大部分注意力为零，其中：空洞自注意力对注意力相关性进行了约束，强行要求每个元素只跟它相对距离为k,2k,3k,…的元素关联，k是预先设定的超参数并且大于1；局部自注意力同样对注意力相关性进行约束，强行要求每个元素只与前后k个元素以及自身有关联，即在具体计算自注意力的时候，只关心有限特殊位置的注意力运算，从而在减少计算量节省显存的同时保留了局部紧密相关和远程稀疏相关的全局关联特性。

7.根据权利要求5所述的基于Gabor卷积和线性稀疏注意力的场景文字识别系统，其特征是，所述的解码器包括：掩码稀疏注意力层、线性稀疏注意力层、位置前馈层，其中：掩码稀疏注意力层在稀疏注意力层的基础上引入了掩码从而在序列进行运算的时候屏蔽后面字符对当前字符推理过程的影响；线性稀疏注意力层利用文字图像的注意力的线性关系，通过位置编码表示的位置依赖关系逆向计算得到和图像特征图对应的高×宽(H×W)的二维激活图，在每一列上取最大值的坐标位置标志此区域的注意力中心，即W个中心理论上应该呈现良好的线性关系，对这W个点做线性回归后计算均方误差，此均方误差和注意力模块的交叉熵损失共同组成模型的损失函数，具体为Loss＝CrossEntropy(predict)+α×MSE(hi-h_i′)，其中：CrossEntropy(predict)为预测阶段的交叉熵损失，hi为第i个中心点的纵坐标，hi’为中心点线性回归后的纵坐标，α为一个常量参数。