CN112784831B

CN112784831B - 融合多层特征增强注意力机制的文字识别方法

Info

Publication number: CN112784831B
Application number: CN202110144038.6A
Authority: CN
Inventors: 徐行; 赖逸; 沈复民; 邵杰; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-06-28
Anticipated expiration: 2041-02-02
Also published as: CN112784831A

Abstract

本发明涉及计算机视觉中的光学字符识别技术领域，提供一种融合多层特征增强注意力机制的文字识别方法，该方法包括：选取训练图片；提取图片特征；构建特征融合矩阵并融合多层特征；利用关联特征进行特征融合，增强特征表现能力；对融合后的特征进行序列建模；对序列建模后的特征进行概率预测；在训练阶段，采用反向传播对网络模型的参数权重进行更新，得到可用于文字识别的标准网络模型；在测试阶段，将待识别的图片输入到训练好的网络模型中，模型识别并输出图片中的文字。本发明通过将神经网络的各个层级提取到的特征进行相互映射，以此来提升特征的表达能力，从而提高了文字识别的准确率。

Description

融合多层特征增强注意力机制的文字识别方法

技术领域

本发明涉及计算机视觉中的光学字符识别技术领域，具体涉及一种融合多层特征增强注意力机制的文字识别方法。

背景技术

在移动互联网是时代，每天都能够收发大量的图片数据，其中许多图片不乏包含文字信息，而能够对图片中的文字信息进行准确地提取就变得尤为重要了。人们可能需要将手机拍摄的稿件转换为电子版，也可能需要将平时看到的图片中的文字保存下来，等等。随着图片的增多，图片中的文字也随之增加，能够对图片中的文字进行准确地识别逐渐成为新的趋势。文字识别主要是对图片中有文字区域的部分进行处理，将图片中的色彩信息转换为字符信息并存储在计算机中。

现有的文字识别方法主要分为两种：

(1)以传统的方法对图片进行处理，并采用分类的方法对文字进行识别。主要的步骤为对图像进行灰度变换，二值化等处理获取图片中的文字所在区域；再根据文字区域将对应部分进行裁剪；最后送入到分类器进行分类得到识别结果。这种方法的优点在于处理速度快，同时操作简单；但由于依赖于文字区域的裁剪效果，导致识别准确率不高。

(2)以深度学习为基础的识别方法。主要步骤为首先构建一个神经网络，将输入的图片进行处理提取图片的特征，再对提取到的特征进行预测得到识别结果。这种方法的优点在于识别准确率高；但由于其复杂的网络结构导致识别速度较慢。

虽然随着深度学习的发展，文字识别在神经网络的作用下准确率越来越高，但是由于识别的效果与网络的结构有着十分紧密的联系，不同的网络结构对同一张图片提取到的特征大不相同，因此得到的结果也不同。尤其是在网络结构特别复杂、网络层数较深的情况下，由于提取到的特征过于抽象，导致最后的预测结果准确率反而比其他方法更低。

发明内容

本发明的目的是提供一种融合多层特征增强注意力机制的文字识别方法，通过将神经网络的各个层级提取到的特征进行相互映射，以此来提升特征的表达能力，从而提高文字识别的准确率。

本发明解决其技术问题，采用的技术方案是：

本发明提出一种融合多层特征增强注意力机制的文字识别方法，包括如下步骤：

步骤1.选取训练图片；

步骤2.提取图片特征；

步骤3.构建特征融合矩阵并融合多层特征；

步骤4.利用关联特征进行特征融合，增强特征表现能力；

步骤5.对融合后的特征进行序列建模；

步骤6.对序列建模后的特征进行概率预测；

步骤7.在训练阶段，采用反向传播对网络模型的参数权重进行更新，得到可用于文字识别的标准网络模型；

步骤8.在测试阶段，将待识别的图片输入到训练好的网络模型中，模型识别并输出图片中的文字。

进一步的是，步骤1具体包括：

步骤101.从现有的训练数据集中选择一张带有文字的图片，将图片作为网络的输入，原始图片记为X；

步骤102.将输入图片尺寸缩放到长宽分别为32*100，记缩放后的图片为X＇。

进一步的是，步骤2具体包括：

步骤201.使用经过修改的残差网络，残差块为BasicBlock，共有4个残差块，每个残差块的层数分别为1、2、5、3；

步骤202.将缩放后的图片X′输入到网络模型中，模型分别将第三个残差块的第一层、第三个残差块、第四个残差块的输出作为提取的图像的特征，分别记为L^C1×H×W、M^C1×H×W、H^C2×H×W，分别表示低层级，中层级及高层级的特征，其中C、H、W分别表示各个特征的通道数、高度和宽度；

步骤203.分别将三个层级的特征进行reshape操作，记新的特征为L^N×C1、M^N×C1、H^N ^×C2，其中N为H×W。

进一步的是，步骤3具体包括：

步骤301.分别将三个层级的特征分别进行一次自注意力操作，即分别输入到一个1x1的卷积层中生成只有一个通道的掩码，记三个层级的特征掩码分别为M_L、M_M、M_H，再将掩码与原特征进行逐元素相乘；

L₁ ^N×C1＝M_L×L^N×C1

M₁ ^N×C1＝M_M×M^N×C1

H₁ ^N×C2＝M_H×H^N×C2

步骤302.关联特征矩阵的生成由于有两组相邻层级的特征(L₁ ^N×C1、M₁ ^N×C1)与(M₁ ^N ^×C1、H₁ ^N×C2)，因此需要有两组关联特征；

步骤303.对于第一组关联特征，首先需要两个映射矩阵分别将两个特征的通道数映射到统一通道数，记映射矩阵为U₁ ^C1×C3、V₁ ^C1×C3，映射完成后通过一个双线性池化向量P₁ ¹ ^×C3来生成关联特征，记第一组关联特征为C_lm ^N×N，计算公式为：

C_lm ^N×N＝((I^N×1·P₁ ^1×C3)×σ(L₁ ^N×C1·U₁ ^C1×C3))·σ((V₁ ^C1×C3)^T·(M₁ ^N×C1)^T)

其中I^N×1表示元素全为1的矩阵，σ(·)表示激活函数，·表示矩阵乘法，×表示逐元素相乘，(·)^T表示矩阵转置；

步骤304.对于第二组关联特征，也需要两个映射矩阵U₂ ^C1×C3、V₂ ^C2×C3，及一个双线性池化向量P₂ ^1×C3，记生成的关联特征为C_mh ^N×N，计算公式为：

C_mh ^N×N＝((I^N×1·P₂ ^1×C3)×σ(M₁ ^N×C1·U₂ ^C1×C3))·σ((V₂ ^C2×C3)^T·(H₁ ^N×C2)^T)。

进一步的是，步骤4具体包括：

步骤401.对第一组层级特征，将得到的关联特征C_lm ^N×N用于提升低层级L₁ ^N×C1与中层级M₁ ^N×C1的表现能力，首先需要定义两个通道映射矩阵，U₃ ^C1×C4、V₃ ^C1×C4将低层级与中层级的进行统一，之后定义两个特征映射矩阵Q₁ ^C4×C5和Q₂ ^C4×C5分别将统一了通道的层级特征增强；记增强后的低层级特征和中层级特征为L_a ^N×C5、M_a1 ^N×C5，计算公式为：

步骤402.对第二组层级特征进行，使用的关联特征为C_mh ^N×N，定义四个矩阵U₄ ^C1×C4与V₄ ^C2×C4、Q₃ ^C4×C5与Q₄ ^C4×C5，记增强后的中层级特征和高层级特征为M_a2 ^N×C5、H_a1 ^N×C5，计算公式为：

M_a2 ^N×C5＝((σ(M₁ ^N×C1·U₄ ^C1×C4)^T)×(σ(H₁ ^N×C2·V₄ ^C2×C4)^T·(C_mh ^N×N)^T))^T·Q₃ ^C4×C5

H_a1 ^N×C5＝((σ(M₁ ^N×C1·U₄ ^C1×C4)^T·C_mh ^N×N)×(σ(H₁ ^N×C2·V₄ ^C2×C4)^T))^T·Q₄ ^C4×C5

步骤403.由于中层级特征在两组操作中都进行了增强，因此将两个增强后的中层级特征相加作为完整的中层级特征，记为M_a3 ^N×C5：

M_a3 ^N×C5＝M_a1 ^N×C5+M_a2 ^N×C5

步骤404.为了将增强后的三个层级的特征进行特征表现，首先将L_a ^N×C5进行reshape操作，将维度恢复为C₆×H×W，记为L_a ^C6×H×W再作为输入重新输入到网络模型的第三个残差块；

步骤405.将M_a3 ^N×C5进行reshape操作，将维度恢复为C₅×H×W，并与步骤404的输出结果相加，将相加的结果作为最终的中层级特征，记为M_a ^C5×H×W，再作为输入重新输入到网络模型的第四个残差块；

步骤406.将H_a1^N×C5进行reshape操作，将维度恢复为C₅×H×W，并与步骤405的输出结果相加，将相加的结果作为最终的高层级的特征，记为H_a ^C5×H×W。

进一步的是，步骤5具体包括：

步骤501.以对低层级的最终特征L_a ^C6×H×W进行序列建模为例，首先将L_a ^C6×H×W的第二个维度H进行平均池化将维度降为1，后进行reshape操作将维度转换为C6×W，再输入到LSTM中，记输出为L^C×W；

步骤502.对中层级和高层级的特征也先进行平均池化，再进行reshape操作，最后将结果输入到LSTM中，分别记输出为M^C×W、H^C×W。

进一步的是，步骤6中，在网络模型训练阶段，分别对三个层级的序列特征进行概率预测，在测试阶段仅需要对高层级的序列特征进行概率预测即可；

在训练阶段，分别将三个层级的序列特征经过全连接层，其中全连接层的输出维度为T，即所有的字符数，记输出为L^W×T、M^W×T、H^W×T。

进一步的是，步骤7具体包括：

步骤701.根据步骤6的输出利用CTCLoss来构建损失函数；

对于低层级特征损失函数Loss₁：

Loss₁＝CTCLoss(L^W×T，gt)

其中，gt表示图片中的文字对应的编码；

对于中层级和高层级特征构建损失函数Loss₂、Loss₃：

Loss₂＝CTCLoss(M^W×T，gt)

Loss₃＝CTCLoss(H^W×T，gt)；

步骤702.总的损失函数Loss＝αLoss₁+βLoss₂+γLoss₃，其中α、β、γ为平衡因子，可根据不同的数据进行修改；

步骤703.用总损失函数Loss进行梯度求解，再采用反向传播算法对网络模型中的参数权重进行更新，然后选取下一张图片，以更新后的参数权重继续训练网络模型，当模型预测准确率不再提升时完成训练，从而得标准网络模型。

进一步的是，步骤8具体包括：

步骤801.在测试阶段，只使用高层级的特征进行预测，首先将待识别的图片输入到训练好的网络模型中，模型提取得到图片的高层级特征，并经过全连接层输出大小为W×T的矩阵，其中，T表示总的字符数，记为H^W×T；

步骤802.对H^W×T在第二个维度进行softmax操作得到每个字符的置信度；

步骤803.对步骤802的输出的第二个维度求取最大置信度所在的序号，记结果为H^W×1：

H^W×1＝argmax(softmax(H^W×T，dim＝1)，dim＝1)

则H^W×1为长度为W的向量，向量的值表示预测得到的字符编号；

步骤804.将H^W×1中的字符编号转换为对应的字符，作为网络模型对该图片中的文字的识别结果。

本发明的有益效果是，通过上述融合多层特征增强注意力机制的文字识别方法，通过对图片提取不同层级的特征，利用相邻两个层级的特征来映射生成关联特征；同时，以关联特征为基础，分别将两个相邻的层级特征进行融合，即将利用关联特征，将较高层级的特征融合到较低层级的特征中，同时将较低层级的特征融合到较高层级的特征中，从而达到提升识别准确率的目的。

具体的，本发明融合多层特征增强注意力机制的文字识别方法具有以下有益效果：

(1)、利用特征提取网络对原始图像提取不同层级的特征，利用映射矩阵将相邻两个层级的特征进行映射生成关联特征。融合关联特征能有效地学习到相邻两个层级特征之间的关系；关联特征能有效的将不同层级之间的特征进行相互映射，实现特征之间的相互融合；

(2)、基于关联特征，可以将相邻两个层级的特征进行相互映射与融合，即将较低层级的特征融合到较高层级的特征中，这样做能有效的增加较高层级特征与较低层级特征之间的关联性，防止随着网络的加深提取的特征过于抽象，从而较小过拟合的风险；同时，利用关联特征，也可以将较高层级的特征融合到较低层级的特征中，这样做能增加较低层级特征的表现能力，使得网络提取的特征能更加注重图中的文字区域；

(3)、在网络模型的训练步骤中，对每个层级的特征都进行预测并采用有监督学习来优化模型权重，从而对中间层级的构建增加额外的约束条件；同时，在网络模型训练完成后进行测试阶段，仅需要对最终的高层特征进行预测而不需要对所有测中间层级进行预测，因此不会影响最终的运行速度。

附图说明

图1是本发明实施例中融合多层特征增强注意力机制的文字识别方法的流程图；

图2是本发明实施例中融合多层特征增强注意力机制的文字识别方法框架图；

图3是本发明实施例中对层级特征进行自注意力操作的结构图；

图4是本发明实施例中利用相邻层级特征生成关联特征的结构图；

图5是本发明实施例中对相邻层级特征进行相互融合的结构图。

具体实施方式

下面结合附图及实施例，详细描述本发明的技术方案。

实施例

为了方便描述，先对本实施例中出现的相关专业术语进行说明：

reshape：将矩阵的形状重新转换为新的形状；

LSTM(Long short-term memory)：长短期记忆，一种特殊的循环神经网络

CTCLoss(Connectionist Temporal Classification loss)：一种文字识别中将输出进行对齐的损失函数；

argmax：一种对函数求参数(集合)的函数；

softmax：映射函数，将多个多个神经元的输出映射到(0-1)之间；

synthtext：一种用于文字识别的合成数据集；

mjsynth：一种用于文字识别的合成数据集；

ICDAR2013：一种公开的真实场景文字识别数据集；

ICDAR2015：一种公开的真实场景文字识别数据集；

IIIT：一种公开的真实场景文字识别数据集；

SVT：一种公开的真实场景文字识别数据集。

参见图1-2，本实施例提出的融合多层特征增强注意力机制的文字识别方法，包括如下步骤：

S1、选取训练图片；

S1.1、从现有的训练数据集中选择一张带有文字的图片，将图片作为网络的输入；

S1.2、为了保证训练能批次训练，首先需要将输入图片尺寸缩放到长宽分别为32*100。

S2、提取图片特征；

S2.1、如图2所示，网络提取了图片三个层级的特征，分别为低层级、中层级和高层级特征，分别记为L^C1×H×W、M^C1×H×W、H^C2×H×W；

S2.2、分别将三个层级的特征进行reshape操作，记新的特征为L^N×C1、M^N×C1、H^N×C2，其中N为H×W。

S3、构建特征融合矩阵并融合多层特征；

在本实施例中，需要生成两个关联特征，每个关联特征的生成如图4所示；

S3.1、首先需要分别将三个层级的特征分别进行一次自注意力操作，如图3所示，即分别输入到一个1x1的卷积层中生成只有一个通道的掩码，记三个层级的特征掩码分别为M_L、M_M、M_H；再将掩码与原特征进行逐元素相乘；

L₁ ^N×C1＝M_L×L^N×C1

M₁ ^N×C1＝M_M×M^N×C1

H₁ ^N×C2＝M_H×H^N×C2

S3.2、关联特征矩阵的生成由于有两组相邻层级的特征(L₁ ^N×C1、M₁ ^N×C1)与(M₁ ^N×C1、H₁ ^N×C2)，因此需要有两组关联特征；以第一组为例，首先需要两个映射矩阵分别将两个特征的通道数映射到统一通道数，记映射矩阵为U₁ ^C1×C3、V₁ ^C1×C3；映射完成后通过一个双线性池化向量P₂ ^1×C3来生成关联特征；记第一组关联特征为C_mh ^N×N，计算公式为：

C_mh ^N×N＝((I^N×1·P₂ ^1×C3)×σ(M₁ ^N×C1·U₂ ^C1×C3))·σ((V₂ ^C2×C3)^T·(H₁ ^N×C2)^T)

S3.3、同理，第二组关联特征也可以按照图4所示方式生成，需要两个映射矩阵U₂ ^C1 ^×C3、V₂ ^C2×C3，及一个双线性池化向量P₂ ^1×C3，记生成的关联特征为C_mh ^N×N，计算公式为：

S4、利用关联特征进行特征融合，增强特征表现能力；

在本实施例中，有两个相邻层级的特征需要进行融合，具体的融合流程如图5所示；

S4.1、以低层级和中层级特征融合为例，将关联特征C_lm ^N×N用于提升低层级L₁ ^N×C1与中层级M₁ ^N×C1的表现能力，首先需要定义两个通道映射矩阵，U₃ ^C1×C4、V₃ ^C1×C4将低层级与中层级的进行统一；之后需要定义两个特征映射矩阵Q₁ ^C4×C5和Q₂ ^C4×C5分别将统一了通道的层级特征增强，提升表现能力；记增强后的低层级特征和中层级特征为L_a ^N×C5、M_a1 ^N×C5，计算公式为：

S4.2、同理，继续按照图5所示流程，将中层级特征和高层级特征进行融合，使用的关联特征为C_mh ^N×N，定义四个矩阵U₄ ^C1×C4与V₄ ^C2×C4、Q₃ ^C4×C5与Q₄ ^C4×C5；记增强后的中层级特征和高层级特征为M_a2 ^N×C5、H_a1 ^N×C5，计算公式为：

S4.3、由于中层级特征在两组操作中都进行了增强，因此需要将两个增强后的中层级特征相加作为完整的中层级特征，记为M_a3 ^N×C5：

M_a3 ^N×C5＝M_a1 ^N×C5+M_a2 ^N×C5

S4.4、为了将增强后的三个层级的特征进行特征表现，首先将L_a ^N×C6进行reshape操作，将维度恢复为C₆×H×W，记为L_a ^C6×H×W再作为输入重新输入到网络模型的第三个残差块；

S4.5、将M_a3 ^N×C5进行reshape操作，将维度恢复为C₅×H×W，并与S4.4的输出结果相加，将相加的结果作为最终的中层级特征，记为M_a ^C5×H×W，再作为输入重新输入到网络模型的第四个残差块；

S4.6、将H_a1 ^N×C5进行reshape操作，将维度恢复为C₅×H×W，并与S4.5的输出结果相加，将相加的结果作为最终的高层级的特征，记为H_a ^C5×H×W。

S5、对融合后的特征进行序列建模；

由于文字识别是从左往右或从右往左的序列识别，因此可以使用LSTM来对提取到的特征进行序列建模，以增强特征前后之间的连续性，在本实施例中使用的建模模型为两层的双向LSTM；

S5.1、以对低层级的最终特征L_a ^C6×H×W进行序列建模为例，首先将L_a ^C6×H×W的第二个维度H进行平均池化将维度降为1，后进行reshape操作将维度转换为C6×W，再输入到两层的双向LSTM中，记输出为L^C×W；

S5.2、同理，对中层级和高层级的特征也先进行平均池化，再进行reshape操作，最后将结果输入到两层的双向LSTM中，分别记输出为M^C×W、H^C×W。

S6、对序列建模后的特征进行概率预测；

在网络模型训练阶段，分别对三个层级的序列特征进行概率预测；而在测试阶段仅需要对高层级的序列特征进行概率预测即可；

S6.1、以训练阶段为例，分别将三个层级的序列特征经过全连接层，其中全连接层的输出维度为T，即所有的字符数；记输出为L^W×T、M^W×T、H^W×T。

S7、在训练阶段，采用反向传播对网络模型的参数权重进行更新，得到可用于文字识别的标准网络模型；

S7.1、根据S6.1的输出利用CTCLoss来构建损失函数，如图2所示，在本实施例中使用的是三个层级的损失的权值之和；以低层级特征损失函数Loss₁为例：

Loss₁＝CTCLoss(L^W×T，gt)

其中gt表示图片中的文字对应的编码；

S7.2、同理，对中层级和高层级特征构建损失函数Loss₂、Loss₃：

Loss₂＝CTCLoss(M^W×T，gt)

Loss₃＝CTCLoss(H^W×T，gt)

S7.3、总的损失函数Loss＝αLoss₁+βLoss₂+γLoss₃，其中α、β、γ为平衡因子，可根据不同的数据进行修改；

S7.4、首先用总损失函数Loss进行梯度求解，再采用反向传播算法对网络模型中的参数权重进行更新，然后选取下一张图片，以更新后的参数权重继续训练网络模型，当模型预测准确率不再提升时完成训练，从而得标准网络模型。

S8、在测试阶段，将待识别的图片输入到训练好的网络模型中，模型识别并输出图片中的文字；

S8.1、在测试阶段，只使用高层级的特征进行预测，首先将待识别的图片输入到训练好的网络模型中，模型提取得到图片的高层级特征，并经过全连接层输出大小为W×T的矩阵，其中，T表示总的字符数，记为H^W×T；

S8.2、对H^W×T在第二个维度进行softmax操作得到每个字符的置信度

S8.3、对S8.2的输出的第二个维度求取最大置信度所在的序号，记结果为H^W×1；

H^W×1＝argmax(softmax(H^W×T，dim＝1)，dim＝1)则H^W×1为长度为W的向量，向量的值表示预测得到的字符编号；

S8.4、将H^W×1中的字符编号转换为对应的字符，作为网络模型对该图片中的文字的识别结果；

在本实施例中，采用识别准确率来评估网络模型，准确率的计算方式为：识别正确的图片数量÷总的图片数量×100％。

在本实施例中，模型训练时使用的数据集为两个大型的合成数据集synthtext、mjsynth；在训练阶段每个批次的数据一半选自synthtext，另一半选自mjsynth；而在验证时使用的是公开数据集的训练集部分，包含的公开数据集包括ICDAR2013、ICDAR2015、IIIT、SVT。

具体的，我们在相同的训练数据，相同的训练次数的条件下，将试验分为三个部分，分别为：不使用特征融合机制、仅融合中层和高层特征、融合低层中层和高层特征；模型在测试数据上的准确率如下表1所示：

表1不同融合方式结果准确率

从表1中可以看出，在使用了两个层级的特征进行融合后，网络模型的识别准确率在不使用融合方式的条件下有0.658％的提升；同时，在使用了三个层级的特征进行融合后，网络模型的准确率在不使用融合方式的条件下有2.316％。可以看出，在加入了特征融合机制后，能够显著提升网络模型的识别准确率，同时，随着参与融合的特征层数测增加，准确率也有显著的提升。说明了本发明对于提升网络模型识别准确率有很好的效果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.融合多层特征增强注意力机制的文字识别方法，其特征在于，包括如下步骤：

步骤1.选取训练图片；

步骤2.提取图片特征；

步骤3.构建特征融合矩阵并融合多层特征；

步骤4.利用关联特征进行特征融合，增强特征表现能力；

步骤5.对融合后的特征进行序列建模；

步骤6.对序列建模后的特征进行概率预测；

步骤8.在测试阶段，将待识别的图片输入到训练好的网络模型中，模型识别并输出图片中的文字；

步骤2具体包括：

步骤202.将缩放后的图片X′输入到网络模型中，模型分别将第三个残差块的第一层、第三个残差块、第四个残差块的输出作为提取的图像的特征，分别记为L^C1×H×W、M^C1×H×W、H^C2 ^×H×W，分别表示低层级，中层级及高层级的特征，其中C、H、W分别表示各个特征的通道数、高度和宽度；

步骤203.分别将三个层级的特征进行reshape操作，记新的特征为L^N×C1、M^N×C1、H^N×C2，其中N为H×W；

步骤3具体包括：

步骤301.分别将三个层级的特征分别进行一次自注意力操作，即分别输入到一个1×1的卷积层中生成只有一个通道的掩码，记三个层级的特征掩码分别为M_L、M_M、M_H，再将掩码与原特征进行逐元素相乘；

L₁ ^N×C1＝M_L×L^N×C1

M₁ ^N×C1＝M_M×M^N×C1

H₁ ^N×C2＝M_H×H^N×C2

步骤302.关联特征矩阵的生成由于有两组相邻层级的特征(L₁ ^N×C1、M₁ ^N×C1)与(M₁ ^N×C1、H₁ ^N ^×C2)，因此需要有两组关联特征；

步骤303.对于第一组关联特征，首先需要两个映射矩阵分别将两个特征的通道数映射到统一通道数，记映射矩阵为U₁ ^C1×C3、V₁ ^C1×C3，映射完成后通过一个双线性池化向量P₁ ^1×C3来生成关联特征，记第一组关联特征为C_lm ^N×N，计算公式为：

C_mh ^N×N＝((I^N×1·P₂ ^1×C3)×σ(M₁ ^N×C1·U₂ ^C1×C3))·σ((V₂ ^C2×C3)^T·(H₁ ^N×C2)^T)；

步骤4具体包括：

步骤402.对第二组层级特征进行，使用的关联特征为C_mh ^N×N，定义四个矩阵U₄ ^C1×C4与V₄ ^C2 ^×C4、Q₃ ^C4×C5与Q₄ ^C4×C5，记增强后的中层级特征和高层级特征为M_a2 ^N×C5、H_a1 ^N×C5，计算公式为：

M_a3 ^N×C5＝M_a1 ^N×C5+M_a2 ^N×C5

步骤406.将H_a1 ^N×C5进行reshape操作，将维度恢复为C₅×H×W，并与步骤405的输出结果相加，将相加的结果作为最终的高层级的特征，记为H_a ^C5×H×W；

步骤5具体包括：

步骤502.对中层级和高层级的特征也先进行平均池化，再进行reshape操作，最后将结果输入到LSTM中，分别记输出为M^C×W、H^C×W；

步骤6中，在网络模型训练阶段，分别对三个层级的序列特征进行概率预测，在测试阶段仅需要对高层级的序列特征进行概率预测即可；

在训练阶段，分别将三个层级的序列特征经过全连接层，其中全连接层的输出维度为T，即所有的字符数，记输出为L^W×T、M^W×T、H^W×T；

步骤7具体包括：

步骤701.根据步骤6的输出利用CTCLoss来构建损失函数；

对于低层级特征损失函数Loss₁：

Loss₁＝CTCLoss(L^W×T，gt)

其中，gt表示图片中的文字对应的编码；

对于中层级和高层级特征构建损失函数Loss₂、Loss₃：

Loss₂＝CTCLoss(M^W×T，gt)

Loss₃＝CTCLoss(H^W×T，gt)；

步骤703.用总损失函数Loss进行梯度求解，再采用反向传播算法对网络模型中的参数权重进行更新，然后选取下一张图片，以更新后的参数权重继续训练网络模型，当模型预测准确率不再提升时完成训练，从而得标准网络模型；

步骤8具体包括：

H^W×1＝argmax(softmax(H^W×T，dim＝1)，dim＝1)

2.根据权利要求1所述的融合多层特征增强注意力机制的文字识别方法，其特征在于，步骤1具体包括：

步骤102.将输入图片尺寸缩放到长宽分别为32*100，记缩放后的图片为X′。