CN116503880A

CN116503880A - 一种倾斜字体的英文字符识别方法和系统

Info

Publication number: CN116503880A
Application number: CN202310784129.5A
Authority: CN
Inventors: 廖春燕; 谭燕保; 刘雅婷
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-07-28
Anticipated expiration: 2043-06-29
Also published as: CN116503880B

Abstract

本发明公开了一种倾斜字体的英文字符识别方法和系统，所述倾斜字体的英文字符识别方法包含如下步骤：首先获取待识别倾斜英文图像，使用双分支英文字符识别模型，得到最终字符预测序列，根据最终字符预测序列得到字符串识别结果。本发明通过改进网络结构，设计数据集增强方式和相互作用注意机制，实现对倾斜英文字符的高准确性智能识别，解决的倾斜英文字符识别需要人工的问题，提供了高准确性的倾斜英文字符识别方法。

Description

一种倾斜字体的英文字符识别方法和系统

技术领域

本发明涉及字符识别领域，并且更具体地，涉及一种倾斜字体的英文字符识别方法和系统。

背景技术

当今社会越来越多的信息以文本的形式存储在书本，物品包装，浏览网页等载体上，这些信息有的时候是很有用的，可以辅助完成一些工作，所以字符识别技术应运而生，在信息处理，文档书写等领域发挥着重要作用。

随着深度学习技术的不断发展,基于深度学习的文本识别技术取得了很好的效果,目前大多数的文本识别技术都改投到深度学习的怀抱。而目前的基于深度学习的文字识别方法,使用一个大型的卷积神经网络,依靠卷积层和池化层来自动生成特征,与传统特征提取方法不同,卷积神经网络通过卷积核提取特征,每一个神经元和前一层的局部感受区域相连，通过卷积核计算局部特征。以卷积窗口的移动生成特征平面,每一个特征平面共享一个卷积核,做到权值共享,降低了权值的数量的优点，最终实现结果显示出了良好的稳定性,较高的正确率。但是仅通过卷积神经网络对字符的理解是不够的，需要结合循环神经网络，对信息进一步的学习，文本识别的准确性才能得到更大的突破。

发明内容

针对现有技术的以上缺陷或者改进需求，本发明提供了一种倾斜字体的英文字符识别方法，其目的在于实现对英文字符的智能识别，提升倾斜字符识别的准确性。

为实验上述目的，按照本发明的一个方面，提供了一种倾斜字体的英文字符识别方法，包括以下步骤：

步骤1：获取待识别的倾斜英文字符图像；

步骤2：对图像进行频域预处理，使字符特征更加明显；

步骤3：使用双分支英文字符识别模型对图像特征进行编解码，得到最终英语字符序列预测；

所述的双分支英文字符识别模型的网络结构由双分支英文字符特征提取模块，相互作用注意机制模块与字符预测输出模块构成；

步骤4：根据英语字符预测序列得到最终识别的英语字符串。

进一步的，步骤2中对图像频域预处理的方法是将图像进行傅里叶变换得到图像在频域中的信息，然后通过频域信息生成图像的相位图信息，相位图反应图像的边缘信息，将相位图采用高斯去噪只保留显著的轮廓信息，然后分别对相位图进行最大池化和平均池化操作将得到的两个通道数为1的特征图，把特征图进行拼接，然后使用一个1×1卷积将通道数降为1使用特征图相加的方式赋权到未进行傅里叶变换之前的特征图上，这些边缘信息赋权到特征图有助于网络学习轮廓特征明显区域的特征，可以提升字符识别精度。

进一步的，步骤3中的双分支英文字符识别模型在训练过程中对训练使用的数据集进行如下操作：为了使训练后的模型能够更好的胜任倾斜字体英文字符识别，对使用的数据集进行弯曲度的图像增强，变换之前像素点a的位置是(w_i,h_i)，w_i表示像素点在特征图宽方向上的位置，h_i表示像素点在特征图高方向上的位置；这里的w_i∈[γ,W-γ], h_i∈[γ,H-γ]，其中W表示图像的宽，H代表图像的高，γ为超参数用来控制不形变的区域大小，而形变区域像素位置变换公式如下

公式中的表示形变后像素点a在图像中的横坐标，/>表示形变后像素点a在图像中的纵坐标，其中α∈[0，/>]，每一次对像素点进行变形是α都进行一次随机取值，α取值范围是[0，/>]，而ω取值为/>和/>中的最大值，这里的ε是形变因子用来控制形变的比例一般取值大于1，通过α和ω控制了图像字符向图像左侧和图像上方进行形变。

进一步的，步骤3中的双分支英文字符特征提取模块：双分支英文字符特征提取模块的两条分支的结构是相同的，都是由一个7×7卷积层和6层字符特征编码层构成，但是两条分支输入是不同的，第一条分支的输入是未经频域预处理的图像数据，而第二条分支的输入是频域预处理后的图像数据。字符特征编码层具体由1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层和5×5卷积层，其中5×5卷积层后面都跟一个批量归一化层和一个Tanh激活函数层。这里的7×7卷积层，第2层字符特征编码层的第一个1×1卷积层，第4层字符特征编码层的第一个1×1卷积层和第6层字符特征编码层的第一个1×1卷积层用来调整特征图大小和升维特征图通道数。

进一步的，步骤3中的相互作用注意机制模块中的相互注意机制，的计算公式如下：

公式中的是双分支英文字符特征提取模块的第一条分支输出的特征图，/>是双分支英文字符特征提取模块的第二条分支输出的特征图，Conv_1×1是代表1×1卷积操作，Tanh是代表Tanh激活函数操作，符号/>代表特征图点乘,公式Attention_相互中的Conv_1×1将特征图通道数调整为最终需要分类的字符个数，通常分类数设置为128。

进一步的，所述步骤3中的字符预测输出模块具体由4层Transformer层和1层全连接层组成。其中Transformer层的输入是相互作用注意机制模块的输出。

进一步的，第一个Transformer层的输入是相互作用注意机制模块的输出，而其维度是B×C×H×W其中B是特征图批次，C是特征图通道数，H是特征图的高，W是特征图的宽，需要进行维度合并成B×C×(H×W)，此时C也代表最终需要分类的字符个数。最后一个Transformer层的输出的维度是B×C×(H×W)，需要输入全连接层需要再进行维度合并(B×C)×(H×W)，全连接层处理完后再将维度变回B×C×(H×W)实现英文字符串的预测输出。

本发明还提供一种倾斜字体的英文字符识别系统，包括以下模块：

图像模块模块，获取待识别的倾斜英文字符图像；

频域预处理模块，用于对图像进行频域预处理，使字符特征更加明显；

图像编解码模块，用于使用双分支英文字符识别模型对图像特征进行编解码，得到最终英语字符序列预测；

字符串输出模块，用于根据英语字符预测序列得到最终识别的英语字符串。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）设计了一种字符特征增强模块，通过频域信息增强字符区域的轮廓使后续英文字符识别更加准确。

（2）通过设计一种数据集增强方法，是网络可以很好的适用于识别倾斜的英文字符图像。

（3）通过加深网络结构并融合注意机制，提高了网络特征提取的能力，得到了识别准确率更高的模型。

附图说明

图1 本发明实施例提供的技术方案流程图。

图2本发明实施例提供的双分支英文字符识别模型网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的一种倾斜字体的英文字符识别方法的技术方案，请参见附图1，具体包含如下步骤：

（1）获取待识别的倾斜英文字符图像；

（2）对图像进行频域预处理，使字符特征更加明显；

优选的，图像频域预处理的方法是将图像进行傅里叶变换得到图像在频域中的信息，然后通过频域信息生成图像的相位图信息，相位图反应图像的边缘信息，将相位图采用高斯去噪只保留显著的轮廓信息，然后分别对去噪后的相位图进行最大池化和平均池化操作，得到的两个通道数为1的特征图，将特征图进行拼接，然后使用一个1×1卷积将通道数降为1，使用特征图相加的方式赋权到未进行傅里叶变换之前的特征图上，这些边缘信息赋权到特征图有助于网络学习轮廓特征明显区域的特征，可以提升字符识别精度。

（3）使用双分支英文字符识别模型对图像特征进行编码，请参见附图2，图2是实施用例提供的一种倾斜字体的英文字符识别方法的双分支英文字符识别模型网络结构图，得到最终英语字符序列预测；

优选的，双分支英文字符识别模型在训练过程中对使用的数据集进行了如下操作：为了使训练后的模型能够更好的胜任倾斜字体英文字符识别，本专利对使用的数据集进行弯曲度的图像增强，变换之前像素点a的位置是(w_i,h_i)，w_i表示像素点在特征图宽方向上的位置，h_i表示像素点在特征图高方向上的位置；这里的w_i∈[γ,W-γ], h_i∈[γ,H-γ]，其中W表示图像的宽，H代表图像的高，γ为超参数用来控制不形变的区域大小，而形变区域像素位置变换公式如下：

另外，训练双分支英文字符识别模型时使用常规的交叉熵损失。

优选的，双分支英文字符特征提取模块包括两条分支，其中的双分支英文字符特征提取模块的两条分支的结构是相同的，都是由一个7×7卷积层和6层字符特征编码层构成，但是两条分支输入是不同的，第一条分支的输入是未经频域预处理的图像数据，而第二条分支的输入是频域预处理后的图像数据。字符特征编码层具体由1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层和5×5卷积层，其中5×5卷积层后面都跟一个批量归一化层和一个Tanh激活函数层。这里的7×7卷积层，第2层字符特征编码层的第一个1×1卷积层，第4层字符特征编码层的第一个1×1卷积层和第6层字符特征编码层的第一个1×1卷积层用来调整特征图大小和升维特征图通道数。

优选的，相互作用注意机制模块中的相互注意机制的计算公式如下：

公式中的是双分支英文字符特征提取模块的第一条分支输出的特征图，/>是双分支英文字符特征提取模块的第二条分支输出的特征图，Conv_1×1是代表1×1卷积操作，Tanh是代表Tanh激活函数操作，符号/>代表特征图点乘,公式Attention_相互中的Conv_1×1将特征图通道数调整为最终需要分类的字符个数。

优选的，字符预测输出模块具体由4层Transformer层和1层全连接层组成。其中Transformer层的输入是相互作用注意机制模块的输出。

优选的，所述Transformer层的输入,输出和全连接的输入，输出：第一个Transformer层的输入是相互作用注意机制模块的输出，而其维度是B×C×H×W，其中B是特征图批次，C是特征图通道数，H是特征图的高，W是特征图的宽，需要进行维度合并成B×C×(H×W)，此时C也代表最终需要分类的字符个数。最后一个Transformer层的输出的维度是B×C×(H×W)，输入全连接层需要再进行维度合并为(B×C)×(H×W)，全连接层处理完后再将维度变回B×C×(H×W)，实现英文字符串的预测输出。

（4）根据英语字符预测序列得到最终识别的英语字符串。

本发明提供一种倾斜字体的英文字符识别方法，通过改进网络结构，设计数据集增强方式和相互作用注意机制，实现对倾斜英文字符的高准确性智能识别，解决的倾斜英文字符识别需要人工的问题，提供了高准确性的倾斜英文字符识别方法。本专利的实验均在CA-IC13数据集上进行并对数据集进行了扩展，且相对于现有的先进方法在识别准确度上提升了1.03个百分点，本专利提供了一种可以有效提高识别倾斜英文字符的方法。

图像模块模块，获取待识别的倾斜英文字符图像；

各模块的具体实现方式与各步骤相同，本发明不予撰述。

本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种倾斜字体的英文字符识别方法，其特征在于，包括以下步骤：

步骤1，获取待识别的倾斜英文字符图像；

步骤2，对图像进行频域预处理，使字符特征更加明显；

步骤3，使用双分支英文字符识别模型对图像特征进行编解码，得到最终英语字符序列预测；

步骤4，根据英语字符预测序列得到最终识别的英语字符串。

2.如权利要求1所述的一种倾斜字体的英文字符识别方法，其特征在于：步骤2中对图像频域预处理的方法是，将图像进行傅里叶变换得到图像在频域中的信息，然后通过频域信息生成图像的相位图信息，对相位图采用高斯去噪只保留显著的轮廓信息，然后分别对去噪后的相位图进行最大池化和平均池化操作将得到的两个通道数为1的特征图，把特征图进行拼接，然后使用一个1×1卷积将通道数降为1使用特征图相加的方式赋权到未进行傅里叶变换之前的特征图上。

3.如权利要求1所述的一种倾斜字体的英文字符识别方法，其特征在于：步骤3中，首先对训练使用的数据集进行弯曲度的图像增强，变换之前像素点a的位置是(w_i,h_i)，w_i表示像素点在特征图宽方向上的位置，h_i表示像素点在特征图高方向上的位置；这里的w_i∈[γ,W-γ], h_i∈[γ,H-γ]，其中W表示图像的宽，H代表图像的高，γ为超参数用来控制不形变的区域大小，而形变区域像素位置变换公式如下：

；

公式中的表示形变后像素点a在图像中的横坐标，/>表示形变后像素点a在图像中的纵坐标，其中α∈[0，/>]，每一次对像素点进行变形是α都进行一次随机取值，α取值范围是[0，/>]，而ω取值为/>和/>中的最大值，这里的ε是形变因子用来控制形变的比例，取值大于1，通过α和ω控制了图像字符向图像左侧和图像上方进行形变。

4.如权利要求1所述的一种倾斜字体的英文字符识别方法，其特征在于：步骤3中的双分支英文字符特征提取模块包括两条结构相同的分支，都是由一个7×7卷积层和6层字符特征编码层构成，但是两条分支输入是不同的，第一条分支的输入是未经频域频域预处理的图像数据，而第二条分支的输入是频域频域预处理后的图像数据；字符特征编码层具体由1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层、5×5卷积层、1×1卷积层和5×5卷积层，其中5×5卷积层后面都跟一个批量归一化层和一个Tanh激活函数层；这里的7×7卷积层，第2层字符特征编码层的第一个1×1卷积层，第4层字符特征编码层的第一个1×1卷积层和第6层字符特征编码层的第一个1×1卷积层用来调整特征图大小和升维特征图通道数。

5.如权利要求1所述的一种倾斜字体的英文字符识别方法，其特征在于：步骤3中的相互作用注意机制模块中的相互注意机制的计算公式如下：

；/>；

公式中的是双分支英文字符特征提取模块的第一条分支输出的特征图，/>是双分支英文字符特征提取模块的第二条分支输出的特征图，Conv_1×1是代表1×1卷积操作，Tanh是代表Tanh激活函数操作，符号/>代表特征图点乘，/>表示中间特征图，公式Attention_相互中的Conv_1×1将特征图通道数调整为最终需要分类的字符个数。

6.如权利要求1所述的一种倾斜字体的英文字符识别方法，其特征在于：步骤3中的字符预测输出模块具体由4层Transformer层和1层全连接层组成，其中Transformer层的输入是相互作用注意机制模块的输出。

7.如权利要求6所述的一种倾斜字体的英文字符识别方法，其特征在于：第一个Transformer层的输入是相互作用注意机制模块的输出，而其维度是B×C×H×W，其中B是特征图批次，C是特征图通道数，H是特征图的高，W是特征图的宽，需要进行维度合并成B×C×(H×W)，此时C也代表最终需要分类的字符个数；最后一个Transformer层的输出的维度是B×C×(H×W)，需要输入全连接层需要再进行维度合并(B×C)×(H×W)，全连接层处理完后再将维度变回B×C×(H×W)实现英文字符串的预测输出。

8.一种倾斜字体的英文字符识别系统，其特征在于，包括以下模块：

图像模块模块，获取待识别的倾斜英文字符图像；