CN112712079A

CN112712079A - 基于渐进式编码的文字识别方法、装置、电子设备

Info

Publication number: CN112712079A
Application number: CN202110019931.6A
Authority: CN
Inventors: 宋祺; 姜仟艺; 张睿
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-04-27

Abstract

本申请公开了一种基于渐进式编码的文字识别方法，属于计算机技术领域，有助于提升图像中文字识别的准确率。所述文字识别方法包括：预先训练包括：级联的至少三个编码模块，以及，与每个所述编码模块对应的一个解码模块的编码‑解码网络模型，并在预测阶段，依次执行所述至少三个编码模块，对目标图像进行渐进深度的特征编码，分别得到每个所述编码模块的编码输出；分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果；对各所述解码模块对所述目标图像的文本识别结果进行融合处理，确定所述编码‑解码网络模型对所述目标图像的文字识别结果，提升了图像中的文字进行识别的准确率。

Description

基于渐进式编码的文字识别方法、装置、电子设备

技术领域

本申请实施例涉及计算机技术领域，特别是涉及一种基于渐进式编码的文字识别方法、装置、电子设备及计算机可读存储介质。

背景技术

文字识别作为机器视觉中的一种常用技术，被广泛应用于文档分析、证照识别、街景识别、信息自动录入等应用场景中。现有技术中，文字识别的主流方法都是由编码-解码结构构成。其中，编码过程是将输入的图像信息转化成一个表征向量；解码过程则是将编码过程生成的表征向量再转化成输出目标序列。现有技术中，编码过程通常采用卷积神经网络，或者，采用卷积神经网络+递归神经网络的网络结构实现，相应的，解码过程采用序列连接分类解码技术或者采用基于注意力机制的序列到序列的解码对上下文语意进行识别的解码技术实现。

现有技术中的文字识别方法至少存在以下缺陷：1、卷积神经网络+序列连接分类解码技术的编码-解码过程方法，仅考虑的图像的视觉特征，如果图像中某个字符被污染(如遮挡)，则识别准确率将大大降低；2、卷积神经网络+递归神经网络的网络+自注意力机制的编码-解码过程方法，过于依赖上下文信息，例如，如果训练样本中某一个词语或句子的出现频率过高，则会到其和该词语相似的词语被识别度为导致其对训练的数据分布过于敏感，也会降低识别准确率识别为该出现频率过高的词语或句子。

综上所述，现有技术中的文字识别方法还需要改进。

发明内容

本申请实施例提供一种基于渐进式编码的文字识别方法，有助于提升图像中文字识别的准确率。

第一方面，本申请实施例提供了一种基于渐进式编码的文字识别方法，预先训练的编码-解码网络模型包括：级联的至少三个编码模块，以及，与每个所述编码模块对应的一个解码模块，所述方法包括：

依次执行所述至少三个编码模块，对目标图像进行渐进深度的特征编码，分别得到每个所述编码模块的编码输出；

分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果；

对各所述解码模块对所述目标图像的文本识别结果进行融合处理，确定所述编码-解码网络模型对所述目标图像的文字识别结果。

第二方面，本申请实施例提供了一种基于渐进式编码的文字识别装置，其中，预先训练的编码-解码网络模型包括：级联的至少三个编码模块，以及，与每个所述编码模块对应的一个解码模块，所述装置包括：

编码控制单元，用于依次执行所述至少三个编码模块，对目标图像进行渐进深度的特征编码，分别得到每个所述编码模块的编码输出；

解码控制单元，用于分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果；

融合识别单元，用于对各所述解码模块对所述目标图像的文本识别结果进行融合处理，确定所述编码-解码网络模型对所述目标图像的文字识别结果。

第三方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的基于渐进式编码的文字识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的基于渐进式编码的文字识别方法的步骤。

本申请实施例公开的基于渐进式编码的文字识别方法，通过预先训练包括：级联的至少三个编码模块，以及，与每个所述编码模块对应的一个解码模块的编码-解码网络模型，并在预测阶段，依次执行所述至少三个编码模块，对目标图像进行渐进深度的特征编码，分别得到每个所述编码模块的编码输出；分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果；对各所述解码模块对所述目标图像的文本识别结果进行融合处理，确定所述编码-解码网络模型对所述目标图像的文字识别结果，有助于提升对图像中的文字进行识别的准确率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例一的基于渐进式编码的文字识别方法流程图；

图2是本申请实施例一中的编码-解码网络模型结构示意图；

图3是本申请实施例一的训练样本图像示意图；

图4是本申请实施例一的第二编码网络结构示意图；

图5是本申请实施例二的基于渐进式编码的文字识别装置结构示意图；

图6示意性地示出了用于执行根据本申请的方法的电子设备的框图；以及

图7示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本申请实施例公开的一种基于渐进式编码的文字识别方法，如图1所示，所述方法包括：步骤110至步骤130。

本申请实施例中所述的基于渐进式编码的文字识别方法，通过执行预先训练的编码-解码网络模型实现，所述预先训练的编码-解码网络模型的编码网络包括：级联的至少三个编码模块，以及，与每个所述编码模块对应的一个解码模块。以图2所示的编码-解码网络模型为例，所述编码-解码网络模型包括：编码模块组210、解码模块组220，以及融合识别模块230。其中，所述编码模块组210进一步包括三个级联的编码模块，分别为：第一编码模块2101、第二编码模块2102和第三编码模块2103；所述解码模块组220进一步包括并行的三个解码模块，分别为：与所述第一编码模块2101对应的第一解码模块2201、与所述第二编码模块2102对应的第二解码模块2202、与所述第三编码模块2103对应的第三解码模块2203。相互对应的一组编码模块和解码模块构成所述编码-解码网络模型的一个编码-解码网络分支，用于对输入至所述编码-解码网络模型的图像进行不同深度的特征编码、解码处理；所述融合识别模块230用于对所有所述编码-解码网络分支的输出结果进行融合处理，得到输入至所述编码-解码网络模型的图像的文字识别结果或文字预测结果。

本申请的一些实施例中，所述编码-解码网络模型通过以下方法训练：对于每个训练样本图像，分别执行以下编码和解码操作：依次执行所述至少三个编码模块，对所述训练样本图像进行渐进深度的特征编码，分别得到每个所述编码模块对所述训练样本图像的编码输出；分别执行每个所述解码模块，对相应所述编码模块对所述训练样本图像的所述编码输出进行解码，得到各所述解码模块对所述训练样本图像的文字预测结果；对于每个所述训练样本图像，根据各所述解码模块对所述训练样本图像的文字预测结果与所述训练样本图像对应的文字真实值的差值，计算所述训练样本图像的预测误差，并根据所有所述训练样本图像的所述预测误差，确定所述编码-解码网络模型的损失值；通过优化所述编码-解码网络模型的模型参数，对所述编码-解码网络模型进行迭代训练，以优化所述损失值。

本申请实施例中所述的训练样本图像为标注有文字真实值的文字图像，所述文字真实值可以作为所述训练样本图像的样本标签。

在训练所述编码-解码网络模型的过程中，所述编码-解码网络模型通过对所有所述训练样本图像进行编码和解码，学习各所述训练样本图像与该训练样本图像对应的文字真实值之间的编码映射关系，从而学习到所述编码-解码网络模型中各编码模块和解码模块的最优网络参数，用于后续的在线图像文字识别应用中。所述编码-解码网络模型对每一个训练样本图像分别进行编码和解码操作，得到各训练样本图像对应的文本预测结果，之后，根据所有训练样本图像的文本预测结果和作为样本标签的文本真实值之间的误差，计算所述编码-解码网络模型的损失值；然后，通过调整所述编码-解码网络模型的各个编码模块和解码模块中的网络模型参数，迭代训练所述编码-解码网络模型，优化所述编码-解码网络模型的损失值，直至所述损失值手链到预设值，或者满足预设的迭代训练终止条件，结束所述编码-解码网络模型的训练过程，并将所述编码-解码网络模型应用于线上图像的文字识别任务中。

所述编码-解码网络模型的参数调整和迭代训练的过程可以参见现有技术，本申请实施例中不再赘述。

本申请的一些实施例中，所述编码-解码网络模型的损失值可以根据所述编码-解码网络模型中所有编码-解码网络分支的损失值进行融合计算得到。例如，对于如图2所示的编码-解码网络模型，所述编码-解码网络模型的损失值可以根据由第一编码模块和第一解码模块组成的第一网络分支的损失值、由第二编码模块和第二解码模块组成的第二网络分支的损失值，以及，由第三编码模块和第三解码模块组成的第三网络分支的损失值的加权和得到。其中，第一编码模块和第一解码模块组成的第一网络分支的损失值，根据第一解码模块对所述编码-解码网络模型的当前训练样本图像的解码结果(即当前训练样本图像得文字预测结果)和所述当前训练样本图像的样本标签(即所述当前训练样本图像的文字真实值)的误差计算得到；第二编码模块和第二解码模块组成的第二网络分支的损失值，根据第二解码模块对所述编码-解码网络模型的当前训练样本图像的解码结果(即当前训练样本图像得文字预测结果)和所述当前训练样本图像的样本标签(即所述当前训练样本图像的文字真实值)的误差计算得到；第三编码模块和第三解码模块组成的第三网络分支的损失值，根据第三解码模块对所述编码-解码网络模型的当前训练样本图像的解码结果(即当前训练样本图像得文字预测结果)和所述当前训练样本图像的样本标签(即所述当前训练样本图像的文字真实值)的误差计算得到。

本申请的一些实施例中，可以以文字真实值和文字预测结果之间的相似度的倒数，作为各网络分支的损失值。本申请另一些实施例中，还可以采用其他方式，根据文字真实值和文字预测结果计算网络分支的损失值，本申请对计算各网络分支的损失值的具体实施方式不做限定。

对与前述每个网络分支，其编码操作和解码操作是相关联且对应的，下面分别从编码操作和解码操作两个操作过程，结合各编码模块和解码模块的结构，阐述各网络分支得到文字预测结果的具体方案。

本申请的一些实施例中，所述依次执行所述至少三个编码模块，对所述训练样本图像进行渐进深度的特征编码，分别得到每个所述编码模块对所述训练样本图像的编码输出，包括：编码步骤S1至编码步骤S3，其中，所述编码步骤S1至编码步骤S3逐渐加深对所述训练样本图像的特征提取层次深度。

编码步骤S1，执行所述第一编码模块，对所述训练样本图像中的视觉特征进行编码，输出所述训练样本图像对应的第一特征向量。

所述第一编码模块用于提取输入图像中的视觉特征，得到所述编码-解码网络模型的当前输入图像的第一特征向量，所述第一特征向量表征了所述当前输入图像的视觉特征，即图像特征。例如，在模型训练阶段，通过执行所述第一编码模块的程序代码，提取输入至所述编码-解码网络模型的训练样本图像中的视觉特征；在测试阶段，通过执行所述第一编码模块的程序代码，提取输入至所述编码-解码网络模型的目标图像中的视觉特征。所述视觉特征例如可以包括所述当前输入图像中的文字轮廓等关键图像信息。

本申请的一些实施例中，所述第一编码模块基于卷积神经网络构建。所述第一编码模块包括：卷积层、池化层、全连接层。其中，池化层的步长一般改造为[2,1]，用来保持水平方向更高的分辨率。其中，所述第一编码模块可以采用以下任意一种典型的卷积神经网络结构：VGG(牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络)，ResNet(残差网络)或InceptionNet(一种经典卷积神经网络)等。本申请的一些实施例中，所述卷积神经网络中可以加入注意力模块，例如CBAM(Convolutional Block Attention Module，表示卷积模块的注意力机制模块，是一种结合了空间和通道的注意力机制模块)，BAM(Bottleneck Attention Module，瓶颈注意模块)或SE block(Sequeze and Excitation block，一种常用的注意力模块)，来增强卷积神经网络特征提取能力。

编码步骤S2,执行所述第二编码模块，对所述训练样本图像对应的所述第一特征向量进行特征对齐处理，输出所述训练样本图像对应的第二特征向量。

所述第二编码模块的输入与所述第一编码模块的输出连接，用于对所述第一编码模块输出的视觉特征进行对齐处理。以图3所示的训练样本图像为例，通常训练样本图像中包括文本图像，还包括背景图像(例如，文字之间的间隙或者文字上下边缘于图像边缘之间的间隙)，为了减少背景图像引入的噪声对模型训练的干扰，本申请的一些实施例中，通过第二编码模块对所述第一编码模块提取的训练样本的高层图像特征进行对齐处理。

本申请的一些实施例中，所述第二编码模块2102进一步包括：删除残差链接的自注意力模块，如图4所示，删除残差链接的自注意力模块进一步包括依次连接的：多头注意力网络21021、归一化层21022、删除残差链接的前馈网络21023和归一化层21024，所述执行所述第二编码模块，对所述训练样本图像对应的所述第一特征向量进行特征对齐处理，输出所述训练样本图像对应的第二特征向量，包括：通过所述第二编码模块对当前输入图像对应的第一特征向量中表征所述当前输入图像中文本区域视觉特征的向量、非文本区域视觉特征的向量进行对齐处理，输出所述当前输入图像的对齐处理后的所述第二特征向量。其中，所述当前输入图像为所述训练样本图像；所述前馈网络21023为现有技术中典型的前馈网络(feed-forward network)删除残差链接后的结构，所述归一化层21022和21024采用现有技术中典型的归一化网络结构，而多头注意力网络21021采用的是删除了残差链接的注意力网络。所述多头注意力网络21021通过在训练阶段学习的注意力权重矩阵将所述第一特征向量转换成对齐形式的特征向量，即第二特征向量。经过对齐处理得到的第二特征向量中，表征所述训练样本图像中文本区域(如文字块图像)视觉特征的向量对齐在指定维度范围内，便于后续在解码阶段进行文本的视觉特征提取，也便于在解码阶段过滤掉第二特征向量中的噪声。

删除残差链接的自注意力模块可以避免低层的背景信息传入到高层特征中，有效减少甚至去除图像中背景部分在训练过程中引入的噪声，可以进一步提升图像中的文字识别准确率。

编码步骤S3，执行所述第三编码模块，对所述训练样本图像对应的所述第二特征向量进行语义特征提取，输出所述训练样本图像对应的第三特征向量。

本申请的一些实施例中，所述第三编码模块基于自注意力网络实现。自注意力机制一般会采用多头编码方式，即多头自注意编码。将自注意过程重复多次并联合在一起，通过给出注意力层的多个“表示子空间”(representation subspaces)，将特征信息的编码表示进一步加深。本申请的一些实施例中，通过采用多个注意力头的网络，即通过多个查询/键/值权重矩阵集合，学习输入至所述第三编码模块的特征序列中各文字之间的语义关联。所述查询/键/值权重矩阵集合中的每一个权重是随机初始化的，经过训练之后，每个集合都被投影到不同的表示子空间中。当模型在对当前文字图像(如训练样本图像)进行编码或解码时，自注意力机制可以帮助模型查看输入序列中的其他位置，寻找相关的线索，来达到更好的编码效果。通过采用自注意力网络，使得在对当前文字图像进行编码时，可以融入其他相关文字的信息，以提升解码结果的准确性。

对于每个训练样本图像，在编码操作过程中，分别通过第一编码模块、第二编码模块、第三编码模块进行编码之后，得到不同层次深度的第一特征向量、第二特征向量和第三特征向量；之后，在解码操作过程中，并行执行第一解码模块、第二解码模块和第三解码模块的程序代码，执行各层次的特征向量的解码操作。

本申请实施例中所述的每个解码模块对应一个编码模块。例如：第一解码模块对应第一编码模块、第二解码模块对应第二编码模块、第三解码模块对应第三编码模块。解码模块通过采用与对应的编码模块匹配的网络结构，实现对相应编码模块进行编码后得到的特征向量进行解码，得到每组编码模块和解码模块构成的编码-解码网络分支对所述编码-解码网络模型的当前输入图像(如训练样本图像)的文字预测结果。

本申请实施例中所述的解码模块，可以同时对某一训练样本图像的不同层次深度的编码结果进行解码处理，也可以在相应编码模块输出编码结果后，即开始对编码结果执行解码操作。本申请的一些实施例中，所述分别执行每个所述解码模块，对相应所述编码模块对所述训练样本图像的所述编码输出进行解码，得到各所述解码模块对所述训练样本图像的文字预测结果，包括：解码步骤S4至解码步骤6,每个解码步骤在相应的编码步骤执行之后即可执行。

解码步骤S4,执行所述第一解码模块，对所述训练样本图像对应的所述第一特征向量进行解码，得到第一文字预测结果。

所述第一解码模块用于对卷积神经网络对图像进行编码后得到的高层图像特征进行解码。本申请的一些实施例中，所述第一解码模块基于序列连接分类(ConnectionistTemporal Classification)模型构建，例如所述第一解码模块可以采用全连接层+softmax分类网络+CTC序列连接分类模型的结构。本申请的另一些实施例中，所述第一解码模块还可以采用其他方法实现，本申请实施例对所述第一解码模块的具体结构不做限定。

由于没有引入语义及自注意力，该解码操作仅考虑图像纹理特征表达，第一解码模块主要依赖字符的本身特征进行解码，最终输出输入图像的文字序列识别结果，即每个字符类别和对应概率。

解码步骤S5,执行所述第二解码模块，对所述训练样本图像对应的所述第二特征向量进行解码，得到第二文字预测结果。

所述第二解码模块用于根据所述训练样本图像的文字真实值的长度做掩码，提取有效编码信息，用于只在有效长度之内计算模型的损失值。本申请的一些实施例中，所述第二解码模块基于掩膜交叉熵(Mask cross entropy)实现。所述第二解码模块对所述第二编码模块进行自注意力编码输出的对齐处理后的第二特征向量，进行全连接处理和分类映射，并在分类结果基础上，根据所述训练样本图像的文字真实值的长度做掩码，提取所述第二特征向量中有效编码信息，使预测结果实现自动左对齐的效果。在计算编码-解码网络模型的损失值(例如，前述第二网络分支的损失值)时，只在所述文字真实值的长度之内计算文字预测结果的误差。

解码步骤S6，执行所述第三解码模块，对所述训练样本图像对应的所述第三特征向量进行解码，得到第三文字预测结果。

所述第三解码模块用于对语义特征进行解码。如前所述的第一编码模块和第二编码模块，以及，第三编码模块的结构，由于输入至所述第三解码模块的第三特征向量是经过两次多头自注意力编码后得到的更深层次的特征，因此需要采用与自注意力相对称的解码器结构。本申请的一些实施例中，所述第三解码模块可以采用Transformer解码器结构实现。

本申请的一些实施例中，为了提升模型训练结果的准确率，在解码过程中，第三解码模块中引入了位置信息，用于将输入文字序列的绝对或相对位置信息利用起来。例如，基于位置编码模块+Transformer解码器的结构实现第三解码模块。期中，所述位置信息进一步包括：文本编码和文本位置编码。相应的，执行所述第三解码模块，对所述训练样本图像对应的所述第三特征向量进行解码，得到第三文字预测结果，包括：确定所述训练样本图像对应的所述文字真实值的文本编码和所述文字真实值对应的文本位置编码；以所述文本编码和所述文本位置编码的融合编码作为所述第三解码模块的第一输入，以所述第三特征向量作为所述第三解码模块的第二输入，通过所述第三解码模块对所述第一输入和所述第二输入进行解码处理，得到第三文字预测结果。即通过文本向量编码子模块获取当前输入的训练样本图像的文本真实值(即样本标签)中当前文字的文本编码，通过所述当前文字的文本位置编码，之后，将所述文本编码和所述文本位置编码拼接为融合编码，作为Transformer解码器的查询输入，同时将第三编码模块输出的第三特征向量作为Transformer解码器的另一个输入，执行解码操作。

本申请的一些实施例中，所述第三解码模块基于注意力机制网络构建，所述以所述文本向量编码和所述位置编码的融合编码作为所述第三解码模块的第一输入，以所述第三特征向量作为所述第三解码模块的第二输入，通过所述第三解码模块对所述第一输入和所述第二输入进行解码处理，得到第三文字预测结果，包括：以所述融合编码作为所述第三解码模块的查询(Q)，以所述第三特征向量作为所述第三解码模块的键(K)和值(V)，通过所述注意力机制网络对所述第一输入和所述第二输入进行解码处理，得到第三文字预测结果。

本申请的一些实施例中，所述第三解码模块还可以采用与所述第三编码模块对应的其他网络结构实现，本申请实施例中不再一一例举。

在按照上述方法完成编码-解码网络模型的训练之后，即可应用所述编码-解码网络模型进行在线文字识别。

下面具体描述基于渐进式编码的文字识别方法各步骤的技术方案。

步骤110，依次执行所述至少三个编码模块，对目标图像进行渐进深度的特征编码，分别得到每个所述编码模块的编码输出。

如图2所示，本申请实施例中所述的编码-解码网络模型包括的各编码模块采用渐进深度对输入的图像进行编码。本申请的一些实施例中，以所述编码-解码网络模型包括三个编码模块和对应的三个解码模块为例，所述依次执行所述至少三个编码模块，对目标图像进行渐进深度的特征编码，分别得到每个所述编码模块的编码输出，包括：执行所述第一编码模块，对所述目标图像中的视觉特征进行编码，输出第一特征向量；执行所述第二编码模块，对所述第一特征向量进行特征对齐处理，输出第二特征向量；执行所述第三编码模块，对所述第二特征向量进行语义特征编码，输出第三特征向量。

执行所述第一编码模块，对所述目标图像中的视觉特征进行编码，输出第一特征向量的具体实施方式参见模型训练阶段，对训练样本图像中的视觉特征进行编码，输出所述训练样本图像对应的第一特征向量的具体实施方式，此处不再赘述。

本申请的一些实施例中，如前所述，所述第二编码模块进一步包括：删除残差链接的自注意力模块，所述删除残差链接的自注意力模块进一步包括依次连接的：删除残差链接的多头注意力网络、归一化层、删除残差链接的前馈网络和归一化层，所述执行所述第二编码模块，对所述第一特征向量进行特征对齐处理，输出第二特征向量，包括：通过所述第二编码模块，对所述第一特征向量中表征所述编码-解码网络模型的当前输入图像中文本区域视觉特征的向量、非文本区域视觉特征的向量进行分别对齐处理，输出对齐处理后的所述第二特征向量。其中，所述当前输入图像为所述目标图像；所述删除残差链接的自注意力模块可以避免低层的背景区域信息传入到高层特征中。

通过所述第二编码模块，对所述第一特征向量中表征所述编码-解码网络模型的当前输入图像中文本区域视觉特征的向量、非文本区域视觉特征的向量进行分别对齐处理，输出对齐处理后的所述第二特征向量的具体实施方式参见模型训练阶段，对训练样本图像对应的第一特征向量进行特征对齐处理，输出所述训练样本图像对应的第二特征向量的具体实施方式，此处不再赘述。

执行所述第三编码模块，对所述第二特征向量进行语义特征编码，输出第三特征向量的具体实施方式参见模型训练阶段，对训练样本图像对应的第二特征向量进行语义特征编码，输出所述训练样本图像对应的第三特征向量的具体实施方式，此处不再赘述。

步骤120，分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果。

在依次执行上述第一编码模块、第二编码模块和第三编码模块对目标图像进行逐层加深的特征编码之后，依次得到了第一编码模块输出的第一特征向量、第二编码模块输出的第二特征向量、第三编码模块输出的第三特征向量。本申请的一些实施例中，在得到某个编码模块输出的特征向量之后，即可执行该编码模块对应的解码模块，对该编码模块数据的特征向量执行解码操作。例如：在执行所述第一编码模块，对所述目标图像中的视觉特征进行编码，输出第一特征向量的步骤之后，所述分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果，包括：执行所述第一解码模块对所述第一特征向量进行解码，得到第一文字识别结果；在执行所述第二编码模块，对所述第一特征向量进行特征对齐处理，输出第二特征向量的步骤之后，所述分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果，包括：执行所述第二解码模块对所述第二特征向量进行解码，得到第二文字识别结果；在执行所述第三编码模块，对所述第二特征向量进行语义特征编码，输出第三特征向量的步骤之后，所述分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果，包括：执行所述第三解码模块对所述第三特征向量进行解码，得到第三文字识别结果。

本申请的一些实施例中，还可以在上述编码模块全部执行完成之后，并行启动各解码模块，对相应编码模块的编码输出进行解码处理。例如，所述分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果，包括:执行所述第一解码模块，对所述第一特征向量进行解码，得到第一文字识别结果；执行所述第二解码模块，对所述第二特征向量进行解码，得到第二文字识别结果；以及，执行所述第三解码模块对所述第三特征向量进行解码，得到第三文字识别结果。

由于各解码模块并行设置，互不干扰，因此，可以采用并行处理器进行解码处理，有助于提升文字识别的效率。

执行所述第一解码模块对所述第一特征向量进行解码，得到第一文字识别结果的具体实施方式，参见编码-解码网络模型训练阶段执行所述第一解码模块对训练样本图像对应的所述第一特征向量进行解码，得到第一文字预测结果的具体实施方式，此处不再赘述。

执行所述第二解码模块，对所述第二特征向量进行解码，得到第二文字识别结果的具体实施方式，参见编码-解码网络模型训练阶段执行所述第二解码模块对训练样本图像对应的所述第二特征向量进行解码，得到第二文字预测结果的具体实施方式，此处不再赘述。

执行所述第三解码模块对所述第三特征向量进行解码，得到第三文字识别结果的具体实施方式，参见编码-解码网络模型训练阶段执行所述第三解码模块对训练样本图像对应的所述第三特征向量进行解码，得到第三文字预测结果的具体实施方式，此处不再赘述。

步骤130，对各所述解码模块对所述目标图像的文本识别结果进行融合处理，确定所述编码-解码网络模型对所述目标图像的文字识别结果。

在得到上述所有解码模块输出的文字识别结果之后，通过进一步对所有所述解码模块输出的所述文本识别结果进行融合处理，根据融合处理得到的结果，确定所述编码-解码网络模型对所述目标图像的文字识别结果。仍以所述编码-解码网络模型包括：第一解码模块、第二解码模块和第三解码模块，三个解码模块为例，可以根据三个解码模块输出的文字识别结果的概率，确定概率最大的文字识别结果作为所述目标图像的文字识别结果。

本申请的另一些实施例中，还可以采用其他方式对各所述解码模块输出的所述文本识别结果进行融合处理，确定所述编码-解码网络模型对所述目标图像的文字识别结果，本申请实施例中不再一一例举。

本申请实施例公开的基于渐进式编码的文字识别方法，通过预先训练级联的，分别提取不同层次图像特征的多个编码模块，对输入图像在视觉特征、语义特征等多个层次深度进行特征提取，并分别进行后续的特征编码和解码，从而得到基于不同层次特征的文字识别结果；进一步的，通过对基于不同层次特征的文字识别结果进行融合，得到输入图像的最终文字识别结果，有效提升了图像中的文字识别准确率。

进一步的，通过采用改进的自注意力网络对视觉特征进行特征对齐处理，可以有效减少甚至去除图像中背景部分在训练过程和识别过程中引入的噪声，可以进一步提升图像中的文字识别准确率。

实施例二

本申请实施例公开的一种基于渐进式编码的文字识别装置，如图2所示，所述装置执行的预先训练的编码-解码网络模型包括：级联的至少三个编码模块，以及，与每个所述编码模块对应的一个解码模块。如图5所示，所述装置包括：

编码控制单元510，用于依次执行所述至少三个编码模块，对目标图像进行渐进深度的特征编码，分别得到每个所述编码模块的编码输出；

解码控制单元520，用于分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果；

融合识别单元530，用于对各所述解码模块对所述目标图像的文本识别结果进行融合处理，确定所述编码-解码网络模型对所述目标图像的文字识别结果。

本申请的一些实施例中，所述至少三个编码模块包括：第一编码模块、第二编码模块和第三编码模块，所述解码模块包括：与所述第一编码模块对应的第一解码模块、与所述第二编码模块对应的第二解码模块、与所述第三编码模块对应的第三解码模块；所述编码控制单元510，进一步用于：

执行所述第一编码模块，对所述目标图像中的视觉特征进行编码，输出第一特征向量；

执行所述第二编码模块，对所述第一特征向量进行特征对齐处理，输出第二特征向量；

执行所述第三编码模块，对所述第二特征向量进行语义特征编码，输出第三特征向量。

本申请的一些实施例中，所述编码-解码网络模型通过以下方法训练：

对于每个训练样本图像，分别执行以下编码和解码操作：

依次执行所述至少三个编码模块，对所述训练样本图像进行渐进深度的特征编码，分别得到每个所述编码模块对所述训练样本图像的编码输出；

分别执行每个所述解码模块，对相应所述编码模块对所述训练样本图像的所述编码输出进行解码，得到各所述解码模块对所述训练样本图像的文字预测结果；

对于每个所述训练样本图像，根据各所述解码模块对所述训练样本图像的文字预测结果与所述训练样本图像对应的文字真实值的差值，计算所述训练样本图像的预测误差，并根据所有所述训练样本图像的所述预测误差，确定所述编码-解码网络模型的损失值；

通过优化所述编码-解码网络模型的模型参数，对所述编码-解码网络模型进行迭代训练，以优化所述损失值。

本申请的一些实施例中，所述依次执行所述至少三个编码模块，对所述训练样本图像进行渐进深度的特征编码，分别得到每个所述编码模块对所述训练样本图像的编码输出，包括：

执行所述第一编码模块，对所述训练样本图像中的视觉特征进行编码，输出所述训练样本图像对应的第一特征向量；

所述分别执行每个所述解码模块，对相应所述编码模块对所述训练样本图像的所述编码输出进行解码，得到各所述解码模块对所述训练样本图像的文字预测结果，包括：

执行所述第一解码模块，对所述训练样本图像对应的所述第一特征向量进行解码，得到第一文字预测结果。

本申请的一些实施例中，所述依次执行所述至少三个编码模块，对所述训练样本图像进行渐进深度的特征编码，分别得到每个所述编码模块对所述训练样本图像的编码输出，还包括：

执行所述第二编码模块，对所述训练样本图像对应的所述第一特征向量进行特征对齐处理，输出所述训练样本图像对应的第二特征向量；

所述分别执行每个所述解码模块，对相应所述编码模块对所述训练样本图像的所述编码输出进行解码，得到各所述解码模块对所述训练样本图像的文字预测结果的步骤，包括：

执行所述第二解码模块，对所述训练样本图像对应的所述第二特征向量进行解码，得到第二文字预测结果。

执行所述第三编码模块，对所述训练样本图像对应的所述第二特征向量进行语义特征提取，输出所述训练样本图像对应的第三特征向量；

执行所述第三解码模块，对所述训练样本图像对应的所述第三特征向量进行解码，得到第三文字预测结果。

本申请的一些实施例中，所述第二编码模块进一步包括：删除残差链接的自注意力模块，所述执行所述第二编码模块，对所述第一特征向量进行特征对齐处理，输出第二特征向量，包括：

通过所述第二编码模块，对所述第一特征向量中表征所述编码-解码网络模型的当前输入图像中文本区域视觉特征的向量、非文本区域视觉特征的向量进行分别对齐处理，输出对齐处理后的所述第二特征向量。

其中，所述当前输入图像为所述目标图像。

本申请实施例公开的基于渐进式编码的文字识别装置，用于实现本申请实施例一中所述的基于渐进式编码的文字识别方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的基于渐进式编码的文字识别装置，通过预先训练包括：级联的至少三个编码模块，以及，与每个所述编码模块对应的一个解码模块的编码-解码网络模型，并在预测阶段，依次执行所述至少三个编码模块，对目标图像进行渐进深度的特征编码，分别得到每个所述编码模块的编码输出；分别执行每个所述解码模块，对相应所述编码模块的所述编码输出进行解码，得到各所述解码模块对所述目标图像的文字识别结果；对各所述解码模块对所述目标图像的文本识别结果进行融合处理，确定所述编码-解码网络模型对所述目标图像的文字识别结果，有助于提升对图像中的文字进行识别的准确率。

本申请实施例公开的基于渐进式编码的文字识别装置，通过预先训练级联的，且分别提取不同层次图像特征的多个编码模块，对输入图像在视觉特征、语义特征等多个层次深度进行特征提取，并分别进行后续的特征编码和解码，从而得到基于不同层次特征的文字识别结果；进一步的，再通过对基于不同层次特征的文字识别结果进行融合，得到输入图像的最终文字识别结果，有效提升了图像中的文字识别准确率。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种基于渐进式编码的文字识别方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图6示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器610和存储器620及存储在所述存储器620上并可在处理器610上运行的程序代码630，所述处理器610执行所述程序代码630时实现上述实施例中所述的方法。所述存储器620可以为计算机程序产品或者计算机可读介质。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码630的存储空间6201。例如，用于程序代码630的存储空间6201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码630为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码，当所述计算机可读代码在电子设备上运行时，导致所述电子设备执行根据上述实施例的方法。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例一所述的基于渐进式编码的文字识别方法的步骤。

这样的计算机程序产品可以为计算机可读存储介质，该计算机可读存储介质可以具有与图6所示的电子设备中的存储器620类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图7所述的便携式或者固定存储单元。通常，存储单元包括计算机可读代码630’，所述计算机可读代码630’为由处理器读取的代码，这些代码被处理器执行时，实现上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于渐进式编码的文字识别方法，其特征在于，预先训练的编码-解码网络模型包括：级联的至少三个编码模块，以及，与每个所述编码模块对应的一个解码模块，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述至少三个编码模块包括：第一编码模块、第二编码模块和第三编码模块，所述解码模块包括：与所述第一编码模块对应的第一解码模块、与所述第二编码模块对应的第二解码模块、与所述第三编码模块对应的第三解码模块；所述依次执行所述至少三个编码模块，对目标图像进行渐进深度的特征编码，分别得到每个所述编码模块的编码输出的步骤，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述编码-解码网络模型通过以下方法训练：

对于每个训练样本图像，分别执行以下编码和解码操作：

4.根据权利要求3所述的方法，其特征在于，所述依次执行所述至少三个编码模块，对所述训练样本图像进行渐进深度的特征编码，分别得到每个所述编码模块对所述训练样本图像的编码输出的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，所述依次执行所述至少三个编码模块，对所述训练样本图像进行渐进深度的特征编码，分别得到每个所述编码模块对所述训练样本图像的编码输出的步骤，还包括：

6.根据权利要求5所述的方法，其特征在于，所述依次执行所述至少三个编码模块，对所述训练样本图像进行渐进深度的特征编码，分别得到每个所述编码模块对所述训练样本图像的编码输出的步骤，还包括：

7.根据权利要求2至6任一项所述的方法，其特征在于，所述第二编码模块进一步包括：删除残差链接的自注意力模块，所述执行所述第二编码模块，对所述第一特征向量进行特征对齐处理，输出第二特征向量的步骤，包括：

8.一种基于渐进式编码的文字识别装置，其特征在于，预先训练的编码-解码网络模型包括：级联的至少三个编码模块，以及，与每个所述编码模块对应的一个解码模块，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述至少三个编码模块包括：第一编码模块、第二编码模块和第三编码模块，所述解码模块包括：与所述第一编码模块对应的第一解码模块、与所述第二编码模块对应的第二解码模块、与所述第三编码模块对应的第三解码模块；所述编码控制单元，进一步用于：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至7任意一项所述的基于渐进式编码的文字识别方法。

11.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至7任意一项所述的基于渐进式编码的文字识别方法的步骤。