CN115439857B

CN115439857B - 一种基于复杂背景图像的倾斜字符识别方法

Info

Publication number: CN115439857B
Application number: CN202211367911.9A
Authority: CN
Inventors: 刘逢刚
Original assignee: Wuchang University of Technology
Current assignee: Wuchang University of Technology
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-03-24
Anticipated expiration: 2042-11-03
Also published as: CN115439857A

Abstract

本发明公开了一种基于复杂背景图像的倾斜字符识别方法，涉及深度学习及图像识别技术领域，本方法包括如下步骤：（1）获取待识别的图像。（2）采用预处理模块过滤掉图片背景冗余信息。（3）通过字符检测模块精确的定位到字符区域。（4）通过字符矫正模块对字符区域进行矫正，得到矫正后的字符图像。（5）通过字符识别模块对矫正后的字符图像进行字符预测。解决了现有技术中对于复杂背景图像的倾斜字符往往识别效果较差或者无法识别的问题，提升了基于复杂背景图像的倾斜字符识别的准确率。

Description

一种基于复杂背景图像的倾斜字符识别方法

技术领域

本发明属于深度学习及图像识别领域，主要涉及一种基于复杂背景图像的倾斜字符识别方法。

背景技术

当今社会随着科技的进步，以及互联网和社交网络的兴起，使得手机、平板等数字图像捕获设备几乎普及到每个人手中。人们在生活学习和物质生产中产生了海量的图像数据，如聊天记录、影视剧、街景图像、网页截图、清单明细等，生活学习和物质生产也对自然场景中的文字检测技术表达出强烈的需求。

由于应用前景广泛，自然场景文字识别任务吸引了许多科研机构和技术公司的目光。近年来，借着计算机视觉理论和技术发展的东风，研究人员在自然场景文字识别问题上不断取得突破，计算机识别自然场景图片中文字的能力也不断提高，但在自然场景中的文字往往呈现为不规则的分布状态，包括图片背景的复杂性，文字本身的多样性，图片质量的不确定性，这些因素对文字识别模型提出了很高的挑战容易出现误判率较高的识别结果，现有的检测与识别技术对于自然场景图像识别率低，识别速度慢都没有得到有效的解决，因此还不足以满足人们的需求，亟需一种新的技术去迭代当前技术，对文字识别任务而言，寻找高效的文字识别模型和文字不规则分布是亟待解决的难题。

公开号为CN104978576A的中国专利公开了“一种文字识别方法及装置”通过对图像进行二值化处理，确定由前景像素点构成的连通域，并根据各连通域的宽度，对各连通域进行形态学滤波，得到滤波图像，根据滤波图像中的前景像素点进行文字识别，但该方法需要依赖文字内部的颜色具有高度的趋同性才能保持良好的检测结果。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于复杂背景图像的倾斜字符识别方法，其目的在于提升基于复杂背景图像的倾斜字符识别的准确率，更好的满足人们对于文字识别的需求。

为实现上述目的，按照本发明的一个方面，提供了一种基于复杂背景图像的倾斜字符识别方法，包括如下步骤：

（1）获取待识别的图像；

（2）采用预处理模块过滤掉图片背景冗余信息；

（3）通过字符检测模块精确的定位到字符区域；

（4）通过字符矫正模块对字符区域进行矫正，得到矫正后的字符图像；

（5）通过字符识别模块对矫正后的字符图像进行字符预测。

进一步的，所述步骤（2）包括：

首先对图像进行预处理，预处理分为两步，首先通过脉冲检测器实现噪声检测，然后根据检测结果通过标准中值滤波器和中心加权中值滤波器进行滤波操作以去除噪声；然后将预处理的图像进行小波分解得到4个与原图尺寸大小一样并且频率为f1、f2、f3、f4的子带图，而后将这四个子带图分别保存下来送入到卷积神经网络中完成各自的训练，以此得到4个卷积神经网络模型，实现在频率为f1、f2、f3、f4的子带图上对各自含有的噪声成分进行剔除；最后再通过小波逆变换重构将四部分子带图重新合成得到最终的去噪结果。

进一步的，所述卷积神经网络引入了空洞卷积，在不增加参数量的前提下扩展卷积核的感受野，引入残差模块缓解网络退化和梯度消失问题；首先通过多尺度特征提取模块对图像进行浅层特征提取，多尺度特征提取模块分为四个分支，第一个分支由1×1卷积和Prelu层构成，第二个分支由3×3卷积和Prelu层构成，第三个分支由3×3且扩张率为2的空洞卷积和Prelu层构成，第四个分支由3×3且扩张率为3的空洞卷积和Prelu层构成，最后将4条支路进行拼接输出；然后通过5个卷积残差模块进行深度残差学习，卷积残差模块分为残差部分和跳跃连接，残差部分包括两个3×3的卷积层，卷积层后使用批归一化层和PReLU 层，跳跃连接采用恒等映射，输入跳过两层卷积层将信息传递到输出处，卷积残差模块采用恒等映射的方式进行局部跳跃连接；最后使用一个卷积层用于特征图重建，得到图像的噪声，然后从噪声图像中移除噪声得到干净图像。

进一步的，步骤（3）中的字符检测模块是为了更加精确的定位到字符区域，输入为待矫正图像，字符检测模块分为三个阶段，在第一个阶段中，输入为待矫正的图片，首先对图像进行1次卷积和最大池化操作，再经过五个多深度融合残差块操作，其中多深度融合残差块分为三条支路，左边路径由1×1卷积和BN层构成，中间路径由1×1卷积、LN层、3×3卷积、GELU层、1×1卷积所构成，右边路径由两个3×3卷积、LN层、3×3卷积、GELU层和一个1×1卷积构成，最后将三条支路进行联合输出，并将输出的特征图转换为特征序列；在第二阶段中，输入为特征序列，首先通过双层双向LSTM用来捕获特征序列之间的长期依赖关系从而得到序列来预测控制点，最后利用全连接层得到参数，输出为所有字符的控制点的预测，并将参数转换为文字区域矫正过程所需的变换矩阵A_β。

进一步的，字符检测模块所使用的损失函数如下：

其中，a表示预测点与真实点之间的差值，S为控制点个数，

为预测控制点的坐标，q_i为真实的坐标。

进一步的，步骤（4）中的字符矫正模块包含网格生成器和差分图像采样，网格生成器是利用输出变换矩阵A_β将输入图和输出图坐标相对应，可视为将图像进行空间矩阵变换处理的坐标系；差分图像采样是将空间矩阵变换后的输出图进行整流采样处理，结合图像输入图进行插值计算,通过特征映射判断输入图中的文字/非文字区域，非文字区域直接采取置0处理，得到特征图像，然后计算得出倾斜文字的矫正结果。

进一步的，网格生成器首先通过变换矩阵A_β生成一个网格，网格上任意一个位置都有两个值，表示其对应输入图的坐标，利用该网格在输入图上进行采样获得输出图，要获取输出图某一个位置上的值，首先通过网格找到原图对应的坐标，再通过差分图像采样得到原图对应坐标的值，最后填充到输出图上，对输出图的每个位置进行如上操作则可得到完整的输出图。

进一步的，步骤（5）中的字符识别模块由基于稠密卷积和混合注意力的编码器和由基于多重注意力机制的解码器所构成，用于输出预测的字符序列，最后使用损失函数对参数进行优化；

其中编码器首先通过7×7的卷积层，然后采用三个稠密卷积模块，稠密卷积模块由1×1和3×3的卷积堆叠而成，稠密卷积模块每一层的输出都会作为接下来任何一层的输入，每一层的输入也会是前面所有层的输出的总和；稠密卷积模块通过过渡层连接，过渡层的意义在于保证每个稠密块之间通道数达到一致，过渡层由批量标准化层、1×1卷积层和2×2平均池化层组成；然后采用通道注意力模块，使字符识别模块能更加准确地关注到图片中关键特征的类型,完成特征的自适应学习，该通道注意力模块首先进行平均池化和最大池化，再利用共享的全连接层对两个结果分别进行处理，将处理的结果进行相加，最后通过sigmoid函数计算相应的权重系数并与原特征图相乘得到第一目标特征图；最后采用空间注意力模块，使字符识别模块更多的关注到主要特征在图片中的位置,该空间注意力模块首先在通道上进行平均池化和最大池化，并把结果叠加起来，再利用一个卷积层调整通道数，最后通过sigmoid函数得到相应的权重系数并与第一目标特征图相乘得到第二目标特征图，并在第二目标特征图进行位置编码输入到解码器；

其中解码器为自循环结构，首先是将输入的字符转化为字符向量矩阵，并使用位置编码让输入数据携带位置信息；然后通过三个子模块，包括用于输出字符的掩码多头注意力模块、用于链接输入图片与输出字符的多头注意力模块和用于加深模型的前馈网络，三个子模块后均连接一个Add&Norm层，Add表示残差连接用于防止网络退化，Norm表示Layer Normalization，用于对每一层的激活值进行归一化，最后通过一个线性层和Softmax 层进行字符的预测。

进一步的，前馈网络包含两个全连接层，并在第一层全连接层之后连接一个ReLU激活函数。

进一步的，损失函数为每个字符类别保留一个深度的动态特征中心并在训练过程中不断调整，使得每个样本与中心之间的距离尽可能小，着重学习分类困难样本的特征，从而降低错检率，损失函数的公式为：

式中β表示超参数，超参数通过实验获得，M表示每个样本子集的大小，x_i表示前馈网络中全连接层之前的特征，c_yi表示第y_i个类别的特征中心。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）提出了一种有效的字符识别模块，字符识别模块由编码器和解码器构成，其中编码器由稠密卷积和混合注意力机制构成，能得出更丰富全面的语义信息以及帮助模型从空间轴和通道轴上关注到关键特征；其中基于自注意力机制的解码器块可以学习更多的长期依赖关系和全局上下文信息，提升模型效果。

（2）在计算损失函数时，字符检测模块所使用的损失函数更能抗干扰，容易收敛，字符识别模块所使用的损失函数为每个类保留一个深度的动态特征中心并在训练过程中不断调整，使得每个样本与中心之间的距离尽可能小以获得具有高度判别性的特征。

（3）本发明首先通过预处理模块过滤掉图片背景冗余信息，然后通过字符分布关键点信息，计算字符倾斜信息，得到矫正后的字符图像，最后使用基于稠密卷积和混合注意力的编码器和基于多重注意力机制的解码器输出预测的字符序列，该模型能够降低复杂背景下的字符倾斜分布对识别结果的影响，具有更佳的文字识别性能。

附图说明

图1为本发明实施例提供的一种基于复杂背景图像的倾斜字符识别方法的流程示意图；

图2为本发明实施例提供的一种基于复杂背景图像的倾斜字符识别方法的字符识别模块的网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，是实施例提供的一种基于复杂背景图像的倾斜字符识别方法的流程示意图；实施例提供的一种基于复杂背景图像的倾斜字符识别方法包括如下步骤：

（1）获取待识别的图像；

（2）采用预处理模块过滤掉图片背景冗余信息；

首先对图像进行预处理，预处理主要分为两步，首先通过脉冲检测器实现噪声检测，然后根据之前的检测结果通过标准中值滤波器和中心加权中值滤波器进行滤波操作以去除噪声；然后将预处理的图像进行小波分解得到4个与原图尺寸大小一样并且频率为f1、f2、f3、f4的子带图，而后将这四个子带图分别保存下来送入到卷积神经网络中完成各自的训练，以此得到4个卷积神经网络模型，实现在频率为f1、f2、f3、f4的子带图上对各自含有的噪声成分进行剔除；最后再通过小波逆变换重构将四部分子带图重新合成得到最终的去噪结果。

其中卷积神经网络引入了空洞卷积可以在不增加参数量的前提下扩展卷积核的感受野，引入了残差模块缓解网络退化和梯度消失等问题。首先通过多尺度特征提取模块对图像进行浅层特征提取，多尺度特征提取模块分为四个分支，第一个分支由1×1卷积和Prelu层构成，第二个分支由3×3卷积和Prelu层构成，第三个分支由3×3且扩张率为2的空洞卷积和Prelu层构成，第四个分支由3×3且扩张率为3的空洞卷积和Prelu层构成，最后将4条支路进行拼接输出；然后通过5个卷积残差模块进行深度残差学习，卷积残差模块分为残差部分和跳跃连接，残差部分包括两个3×3的卷积层，卷积层后使用批归一化层和PReLU 层，跳跃连接采用恒等映射，输入跳过两层卷积层将信息传递到输出处，卷积残差模块采用恒等映射的方式进行局部跳跃连接；最后使用一个卷积层用于特征图重建，得到图像的噪声，然后从噪声图像中移除噪声得到干净图像。

（3）通过字符检测模块精确的定位到字符区域

其中字符检测模块不是为了获得更加精确的文本行检测结果，而是为了更加精确的定位到字符区域，网络输入为待矫正图像，字符检测模块分为三个阶段，在第一个阶段中，输入为待矫正的图片，首先对图像进行1次卷积和最大池化操作，再经过五个多深度融合残差块操作，其中多深度融合残差块分为三条支路，左边路径由1×1卷积和BN层构成，中间路径由1×1卷积、LN层、3×3卷积、GELU层、1×1卷积所构成，右边路径由两个3×3卷积、LN层、3×3卷积、GELU层和一个1×1卷积构成，最后将三条支路进行联合输出，并将输出的特征图转换为特征序列。在第二阶段中，输入为特征序列，首先通过双层双向LSTM用来捕获特征序列之间的长期依赖关系从而得到序列来预测控制点，最后利用全连接层得到参数，网络输出为所有字符的控制点的预测，并将参数转换为文字区域矫正过程所需的变换矩阵A_β。

其中字符检测模块所使用的损失函数更能抗干扰，容易收敛，损失函数如下：

其中，a表示预测点与真实点之间的差值，S为控制点个数，

为预测控制点的坐标，q_i为真实的坐标。

（4）通过字符矫正模块对字符区域进行矫正，得到矫正后的字符图像。

其中字符矫正模块包含网格生成器和差分图像采样。网格生成器是利用输出变换矩阵A_β将输入图和输出图坐标相对应，可视为将图像进行空间矩阵变换处理的坐标系。差分图像采样是将空间矩阵变换后的输出图进行整流采样处理，结合图像输入图进行插值计算,通过特征映射判断输入图中的文字/非文字区域,非文字区域直接采取置0处理，得到特征图像，然后计算得出倾斜文字的矫正结果。

其中网格生成器首先通过变换矩阵A_β生成一个网格，网格上任意一个位置都有两个值，表示其对应输入图的坐标，利用该网格在输入图上进行采样获得输出图，要获取输出图某一个位置上的值，首先通过网格找到原图对应的坐标，再通过差分图像采样得到原图对应坐标的值，最后填充到输出图上，对输出图的每个位置进行如上操作则可得到完整的输出图。

（5）通过字符识别模块对矫正后的字符图像进行字符预测。

如图2所示，其中字符识别模块由基于稠密卷积和混合注意力的编码器和基于多重注意力机制的解码器所构成，用于输出预测的字符序列，每个字符对应一个动态特征中心，最后使用损失函数对动态特征中心进行优化。

其中编码器首先通过7×7的卷积层，然后采用三个稠密卷积模块，稠密卷积模块由1×1和3×3的卷积堆叠而成，稠密卷积模块每一层的输出都会作为接下来任何一层的输入，每一层的输入也会是前面所有层的输出的总和，这样每一层都可以学习到前面所学习的特征图，就不需要再去重新学习多余的特征图了，带来的卷积网络参数相对以前也会变的更少，稠密卷积模块通过过渡层连接，过渡层的意义在于保证每个稠密块之间通道数达到一致，过渡层由批量标准化层、1×1卷积层和2×2平均池化层组成；然后采用通道注意力模块，使模型能更加准确地关注到图片中关键特征的类型,完成特征的自适应学习，该通道注意力模块首先进行平均池化和最大池化，再利用共享的全连接层对两个结果分别进行处理，将处理的结果进行相加，最后通过sigmoid函数计算相应的权重系数并与原特征图相乘得到第一目标特征图；最后采用空间注意力模块，使模型更多的关注到主要特征在图片中的位置,该空间注意力模块首先在通道上进行平均池化和最大池化，并把结果叠加起来，再利用一个卷积层调整通道数，最后通过sigmoid函数得到相应的权重系数并与第一目标特征图相乘得到第二目标特征图，并在第二目标特征图进行位置编码输入到解码器。

其中解码器为自循环结构，首先是输入和输入嵌入，解码器输入<start>表示开始预测，之后把解码器的输出作为解码器的输入，输入嵌入是将输入的字符转化为字符向量矩阵，最后使用位置编码能让输入数据携带位置信息；然后通过三个子模块，包括用于输出字符的掩码多头注意力模块、用于链接输入图片与输出字符的多头注意力模块和用于加深模型的前馈网络。其中掩码多头注意力可以防止网络在进行训练时提前知道后面字符的信息；其中多头注意力是一种以自注意力为基础的机制,它将输入序列的不同位置联系起来并学习其相关性，多头注意力的输入由解码器的输出和掩码多头注意力的输出组成，前馈网络包含两个全连接层，并在第一层之后连接一个ReLU激活函数。在三个子模块后均连接一个Add&Norm层，Add表示残差连接用于防止网络退化，Norm表示 Layer Normalization，用于对每一层的激活值进行归一化，最后通过一个线性层和Softmax 层进行字符的预测。

其中损失函数能为每个字符类别保留一个深度的动态特征中心并在训练过程中不断调整，使得每个样本与中心之间的距离尽可能小，着重学习分类困难样本的特征，从而降低错检率。损失函数的公式为：

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于复杂背景图像的倾斜字符识别方法，其特征在于，包括如下步骤：

（1）获取待识别的图像；

（2）采用预处理模块过滤掉图片背景冗余信息；

（3）通过字符检测模块精确的定位到字符区域；

（5）通过字符识别模块对矫正后的字符图像进行字符预测；

步骤（5）中的字符识别模块由基于稠密卷积和混合注意力的编码器和由基于多重注意力机制的解码器所构成，用于输出预测的字符序列，最后使用损失函数对参数进行优化；

其中解码器为自循环结构，首先是将输入的字符转化为字符向量矩阵，并使用位置编码让输入数据携带位置信息；然后通过三个子模块，包括用于输出字符的掩码多头注意力模块、用于链接输入图片与输出字符的多头注意力模块和用于加深模型的前馈网络，三个子模块后均连接一个Add&Norm层，Add表示残差连接用于防止网络退化，Norm表示 LayerNormalization，用于对每一层的激活值进行归一化，最后通过一个线性层和Softmax 层进行字符的预测。

2.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于，所述步骤（2）包括：

3.根据权利要求2所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：所述卷积神经网络引入了空洞卷积，在不增加参数量的前提下扩展卷积核的感受野，引入残差模块缓解网络退化和梯度消失问题；首先通过多尺度特征提取模块对图像进行浅层特征提取，多尺度特征提取模块分为四个分支，第一个分支由1×1卷积和Prelu层构成，第二个分支由3×3卷积和Prelu层构成，第三个分支由3×3且扩张率为2的空洞卷积和Prelu层构成，第四个分支由3×3且扩张率为3的空洞卷积和Prelu层构成，最后将4条支路进行拼接输出；然后通过5个卷积残差模块进行深度残差学习，卷积残差模块分为残差部分和跳跃连接，残差部分包括两个3×3的卷积层，卷积层后使用批归一化层和 PReLU 层，跳跃连接采用恒等映射，输入跳过两层卷积层将信息传递到输出处，卷积残差模块采用恒等映射的方式进行局部跳跃连接；最后使用一个卷积层用于特征图重建，得到图像的噪声，然后从噪声图像中移除噪声得到干净图像。

4.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：步骤（3）中的字符检测模块是为了更加精确的定位到字符区域，输入为待矫正图像，字符检测模块分为三个阶段，在第一个阶段中，输入为待矫正的图片，首先对图像进行1次卷积和最大池化操作，再经过五个多深度融合残差块操作，其中多深度融合残差块分为三条支路，左边路径由1×1卷积和BN层构成，中间路径由1×1卷积、LN层、3×3卷积、GELU层、1×1卷积所构成，右边路径由两个3×3卷积、LN层、3×3卷积、GELU层和一个1×1卷积构成，最后将三条支路进行联合输出，并将输出的特征图转换为特征序列；在第二阶段中，输入为特征序列，首先通过双层双向LSTM用来捕获特征序列之间的长期依赖关系从而得到序列来预测控制点，最后利用全连接层得到参数，输出为所有字符的控制点的预测，并将参数转换为文字区域矫正过程所需的变换矩阵A_β。

5.根据权利要求4所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：字符检测模块所使用的损失函数如下：

其中，a表示预测点与真实点之间的差值，S为控制点个数，

为预测控制点的坐标，q_i为真实的坐标。

6.根据权利要求4所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：步骤（4）中的字符矫正模块包含网格生成器和差分图像采样，网格生成器是利用输出变换矩阵A_β将输入图和输出图坐标相对应，可视为将图像进行空间矩阵变换处理的坐标系；差分图像采样是将空间矩阵变换后的输出图进行整流采样处理，结合图像输入图进行插值计算,通过特征映射判断输入图中的文字/非文字区域，非文字区域直接采取置0处理，得到特征图像，然后计算得出倾斜文字的矫正结果。

7.根据权利要求6所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：网格生成器首先通过变换矩阵A_β生成一个网格，网格上任意一个位置都有两个值，表示其对应输入图的坐标，利用该网格在输入图上进行采样获得输出图，要获取输出图某一个位置上的值，首先通过网格找到原图对应的坐标，再通过差分图像采样得到原图对应坐标的值，最后填充到输出图上，对输出图的每个位置进行如上操作则可得到完整的输出图。

8.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：前馈网络包含两个全连接层，并在第一层全连接层之后连接一个ReLU激活函数。

9.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：

损失函数为每个字符类别保留一个深度的动态特征中心并在训练过程中不断调整，使得每个样本与中心之间的距离尽可能小，着重学习分类困难样本的特征，从而降低错检率，损失函数的公式为：