CN113011202A

CN113011202A - 基于多任务训练的端到端图像文本翻译方法、系统、装置

Info

Publication number: CN113011202A
Application number: CN202110306816.7A
Authority: CN
Inventors: 赵阳; 马聪; 张亚萍; 周玉
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-06-22
Anticipated expiration: 2041-03-23
Also published as: CN113011202B

Abstract

本发明属于自然语言处理技术领域，具体涉及一种基于多任务训练的端到端图像文本翻译方法，旨在解决现有的图像文本翻译模型因缺乏训练数据、模型结构设计，导致翻译性能较差的问题。本发明方法包括：获取待翻译的数据，作为输入数据；对输入数据进行预处理，预处理后，输入预构建的图像文本翻译模型，得到所述输入数据对应的翻译结果；图像文本翻译模型包括特征提取器、编码器‑解码器。本发明提高了图像文本翻译性能。

Description

基于多任务训练的端到端图像文本翻译方法、系统、装置

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于多任务训练的端到端图像文本翻译方法、系统、装置。

背景技术

图像文本翻译是利用计算机系统自动地将图片或视频中包含的源语言翻译为目标语言。图像文本翻译技术能够快速、有效地帮助人们翻译和理解图片、视频中的文本内容。该技术可以将图像、视频中的一种语言的文本快速地翻译到不同语言，来促进使用不同语言的人们的理解。

目前常用的图像文本翻译的架构是将图像文本识别系统同机器翻译系统进行系统级联来实现对图片中的源端语言进行翻译。然而系统级联的两个子任务在各自的训练数据集上进行独立训练，导致子任务的训练领域不一致。同时，系统级联在系统部署时，需要部署两个分立的模型，增加了部署的复杂度，且模型存储空间复杂度高，模型解码时间复杂度高。端到端图像文本翻译系统虽然模型空间复杂度小，但是由于没有专门针对端到端图像文本翻译模型结构设计以及缺乏训练数据等问题，现阶段的端到端图像文本翻译模型的性能依然较差。针对上述问题，本发明提出了一种基于多任务训练的端到端图像文本翻译方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有的图像文本翻译模型因缺乏训练数据、模型结构设计，导致翻译性能较差的问题，本发明提出了一种基于多任务训练的端到端图像文本翻译方法，该方法包括：

步骤S10，获取待翻译的数据，作为输入数据；所述输入数据包括图像、视频、文本；

步骤S20，对所述输入数据进行预处理，预处理后，输入预构建的图像文本翻译模型，得到所述输入数据对应的翻译结果；

所述图像文本翻译模型包括特征提取器、编码器-解码器；所述图像文本翻译模型其训练方法为：

A10，获取训练样本数据及其对应的翻译结果真值标签；所述训练样本数据包括图像、视频、文本；

A20，对所述训练样本数据进行预处理，得到预处理数据；并提取所述预处理数据的特征；

A30，将提取的特征输入编码器-解码器中，得到训练样本数据对应的翻译预测结果；

A40，计算翻译预测结果、翻译结果真值标签的损失值，并将图像、视频、文本不同类别的训练样本数据对应的损失值进行加权求和，作为总损失；基于所述总损失更新图像文本翻译模型的模型参数。

在一些优选的实施方式中，若所述输入数据为文本，预处理包括：标点符号标准化、分词以及将低频词替换为特殊标记；所述低频词为未出现在词表中的词汇；

若所述输入数据为图像，预处理包括：图像尺寸变换、图像文本检测、分割、矫正；

若所述输入数据为视频，预处理过程为：将视频分帧，并提取视频的帧图像；将帧图像按照图像预处理方法进行预处理。

在一些优选的实施方式中，步骤A20中“提取所述预处理数据的特征”，其方法为：

若所述输入数据为图像/视频，提取过程为：通过基于残差连接的卷积神经网络构建的特征提取器提取预处理数据的特征；

若所述输入数据为文本，提取过程为：通过词嵌入模型对所述预处理数据进行向量化表示。

在一些优选的实施方式中，所述编码器基于双向循环神经网络构建；所述解码器基于注意力机制的循环神经网络构建。

在一些优选的实施方式中，所述编码器-解码器为基于自注意力机制的编码器-解码器。

在一些优选的实施方式中，步骤A40之后还包括对图像文本翻译模型的强化训练，其方法为：结合训练好的图像文本识别模型和文本机器翻译模型，通过预设的多教师分部知识蒸馏方法对图像文本翻译模型进行强化训练学习；所述图像文本识别模型均基于特征提取器、编码器、解码器构建；

通过预设的多教师分部知识蒸馏方法对图像文本翻译模型进行强化训练学习，具体包括：

将图像文本识别模型作为教师模型：通过图像文本识别模型对输入的包含文本的图像进行解码输出，用输出的句子或每一时刻在源端词表上对各个词语的预测分布作为监督信息，对所述图像文本翻译模型的特征提取器、编码器进行监督学习；

将文本机器翻译模型作为教师模型：通过文本机器翻译模型对输入的源端文本进行解码输出，用输出的目标端文本或每一时刻在目标端词表上对各个词语的预测分布作为监督信息，对所述图像文本翻译模型的解码器进行监督学习。

在一些优选的实施方式中，通过预设的多教师分部知识蒸馏方法对图像文本翻译模型进行强化训练学习时的损失函数

为：

其中，

表示图像文本翻译的损失函数，

表示图像文本识别模型知识蒸馏的损失函数，

表示文本机器翻译模型知识蒸馏的损失函数，I表示图像，x表示源端文本，y表示目标端文本，θ表示对应模型的参数，其中

表示图像文本翻译模型的特征提取器，θ_ε表示图像文本翻译模型的编码器，

图像文本翻译模型的解码器，

表示学生模型中的识别解码器，学生模型为以端到端图像文本翻译模型为主体，并替换图像文本识别模型的解码器或文本机器翻译模型的特征提取器后构建的模型，

表示学生模型中的文本特征提取器，

表示图像文本识别模型作为教师模型的参数，

表示文本机器翻译模型作为教师模型的参数，v表示对应词的索引，|V_src|表示源端词表大小，|V_tgt|表示目标端词表大小，α、β表示基于分部蒸馏算法的多任务权重，

表示真值函数，当函数的输入为真时，输出为1，否则为0；s表示源端语言的解码时刻，S表示源端语言的最大长度,t表示目标端语言的解码时刻,T表示目标端语言的最大长度。

本发明的第二方面，提出了一种基于多任务训练的端到端图像文本翻译系统，该系统包括：数据获取模块、翻译模块；

所述数据获取模块，配置为获取待翻译的数据，作为输入数据；所述输入数据包括图像、视频、文本；

所述翻译模块，配置为对所述输入数据进行预处理，预处理后，输入预构建的图像文本翻译模型，得到所述输入数据对应的翻译结果；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并执行以实现上述的基于多任务训练的端到端图像文本翻译方法。

本发明的第四方面，提出了一种处理装置，包括处理器和存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于多任务训练的端到端图像文本翻译方法。

本发明的有益效果：

本发明提高了图像文本翻译性能。本发明在训练过程中为多个任务同时训练，可以同时利用不同任务的训练数据，且不同任务之间存在共享信息以及共享部分模型参数，提高了模型的训练效果；在测试和部署过程中，只需要部署端到端图像文本翻译任务，所需的模型存储空间复杂度小，且在测试阶段，模型直接由包含源语言的图像翻译到目标语言，所需的模型解码时间少，可以有效的从质量和效率上提升现阶段基于级联系统的图像文本翻译架构。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于多任务训练的端到端图像文本翻译方法的流程示意图；

图2为本发明一种实施例的基于多任务训练的端到端图像文本翻译系统的框架示意图；

图3是本发明一种实施例的图像文本翻译模型的训练过程的详细流程示意图；

图4是本发明一种实施例的图像文本翻译模型的训练过程的框架示意图；

图5是本发明一种实施例的使用循环神经网络作为编解码器的单任务端到端图像文本翻译模型架构图；

图6是本发明一种实施例的使用基于自注意力机制编解码器的单任务端到端图像文本翻译模型架构图；

图7是本发明一种实施例的图像文本翻译任务组合文本机器翻译任务的模型架构图；

图8是本发明一种实施例的图像文本翻译任务组合图像文本识别任务的模型架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明第一实施例的一种基于多任务训练的端到端图像文本翻译方法，如图1所示，该方法包括以下步骤：

为了更清晰地对本发明基于多任务训练的端到端图像文本翻译方法进行说明，下面对本发明方法一种实施例中各步骤进行展开详述。

在下文实施例中，先对图像文本翻译模型的训练过程进行描述，如图3所示，具体在下文中描述，再对基于多任务训练的端到端图像文本翻译方法获取检测结果进行详述。

1、图像文本翻译模型的训练过程，如图3、4所示

在本实施例中，获取训练样本数据，本发明中训练样本数据包括图像、文本、视频；并获取训练样本数据对应的翻译结果真值标签。

在本实施例中，先判断当前任务的输入的数据模态，即判断训练样本数据的类别。若训练样本数据为文本，则对文本进行预处理操作。文本的预处理操作包括：标点符号标准化、分词、低频词(低频词为未出现在词表中的词汇)替换为特殊标记(如[UNK])即预设的标记符号。文本预处理的输出为将文本中的每一句话表示为一个处理后的字符串(字符串长度为按照相应分词单元切分的句子长度Len_sent)。

若训练样本数据为图像，预处理操作包括：图像尺寸变换、图像文本检测、分割、矫正等模块。具体的，图像尺寸变化是利用插值算法将图像放大(或缩小)到预定义的图像大小(img_W×img_H，img_W为图像宽度，img_H为图像高度)；图像文本检测是检测出一个图像中文本所在的位置；分割是将包含文本的图像区域分割出来得到一个子图像；矫正是将分割得到的子图像中的文本按照水平方式进行重新呈现。图像预处理模块的输出为：每一张图片表示为一个矩阵(img_W×img_H)。

若训练样本数据为视频，预处理操作为：将视频分帧后，提取视频的帧图像，并按照图像预处理操作方法对帧图像进行预处理。

预处理后，通过特征提取预处理数据的特征，具体如下：

若训练样本数据为图像或视频时，通过基于残差连接的卷积神经网络，即残差网络，例如ResNet等，提取预处理数据的特征。其中，基于残差连接的卷积神经网络通过卷积、池化、残差连接和激活的复用得到图像的特征表达。双向循环神经网络则是对图像文本特征进行初步的序列化建模。输出为：每一张图像表示为一个矩阵(Len_img×D_img，Len_img为图像特征序列长度，D_img为图像特征隐层维度)。

若训练样本数据为文本，通过词嵌入模型对文本中每一个分词单元(如字符单元、亚词单元、词单元)进行向量化表示。输出为：每一个句子表示为一个矩阵(Len_sent×D_emb，Len_sent为按照相应分词单元切分的句子长度，D_emb为文本嵌入维度)。

在本实施例中，编码器-解码器的结构包括两种，一种：编码器基于双向循环神经网络构建；解码器基于注意力机制的循环神经网络构建；另一种：编码器-解码器为基于自注意力机制的编码器-解码器。

另外，在进行特征编码器时，可以设置当前任务编码器是否共享模型参数(即图像编码器、视频编码器、文本编码器是否共享模型参数)。若共享模型参数，则根据共享设置，将相应任务的编码器模型参数进行共享；否则对不同的任务使用不同的编码器模型参数；编码后的特征输出为：每一个特征输入编码为一个矩阵(Len_Enc×D_Enc，Len_Enc为编码器的特征编码长度，D_Enc为编码器的隐层特征维度)。

在对编码后的特征进行解码时，也可以设置当前任务解码器是否共享模型参数，若共享模型参数，则根据共享设置，将相应任务的解码器模型参数进行共享；否则对不同的任务使用不同的解码器模型参数。解码后的特征输出为：每一个编码器输入解码为一个矩阵(Len_Dec×D_Dec，Len_Dec为解码器的特征编码长度，D_Dec为解码器的隐层特征维度)，即翻译预测结果。

在本实施例中，对每一任务的特征解码结果，即翻译预测结果和相应的真值标签计算损失，每一个任务的训练损失为一个实数值。并根据预定义的任务权重，对不同任务的训练损失进行加权求和，作为总损失。

基于总损失，使用梯度下降优化算法更新图像文本翻译模型的模型参数。循环执行步骤A10-A40，直至模型收敛或达到设定的训练次数，得到训练好的图像文本翻译模型。

为了进一步提升图像文本翻译模型的性能，本发明在步骤A40之后，结合训练好的图像文本识别模型和文本机器翻译模型，通过多教师分部知识蒸馏方法对图像文本翻译模型进行强化训练学习。

一般的知识蒸馏方法常用于大模型简化、相同或相似任务的模型的知识迁移，而在本发明提出的方法中，是进行跨模态、跨任务的知识蒸馏。

端到端图像文本翻译模型与图像文本识别模型和文本机器翻译模型(在本发明中图像文本识别模型和文本机器翻译模型均基于特征提取器、编码器、解码器构建，其中图像文本识别模型的为识别解码器(即输出的预测单词为源端语言单词)，文本机器翻译模型的特征提取器为文本特征提取器)在一定程度上具有相似性。端到端图像文本翻译的输入同图像文本识别模型的输入模态相同，均为含有图像文本的图片或视频帧；端到端图像文本翻译的输出同文本机器翻译模型的输出模态相同，均为目标语言的文本。图像文本识别模型和文本机器翻译模型都具有大规模的训练数据，且这两个任务都有大量的研究进行特定的模型设计。基于已经训练完成的具有较好性能的图像文本识别模型和文本机器翻译模型，可以利用我们改进的跨模态，跨任务的分部蒸馏方法来提升端到端图像文本翻译模型的性能，且分部蒸馏方法可以非常容易的引入到我们提出的多任务的端到端图像文本翻译的框架中。具体的，在图像文本识别模型为教师模型时，使用端到端图像文本翻译的特征提取器、编码器，并引入学生识别解码器(即图像文本识别模型的解码器，输出的预测单词为源端语言单词)来进行训练。训练过程的监督信号可以分为两种类型，一种是将输入的图片直接由图像文本识别教师模型进行解码输出，得到的句子为伪标签，并让学生模型来进行监督学习；另一种是将输入的图片由图像文本识别教师模型解码的每一个时刻的预测的分布作为监督信息让学生模型来进行监督学习。该过程为将图像文本识别模型的知识蒸馏到端到端图像文本翻译的图像特征提取器和编码器中。

利用图像文本识别模型作为教师模型进行分部蒸馏的方法具体如下：

1)首先构建学生模型的识别解码器，其输入为来自端到端图像文本翻译编码器输出的特征编码矩阵(Len_Enc×D_Enc，Len_Enc为编码器的特征编码长度，D_Enc为编码器的隐层特征维度)。经过识别解码器解码运算后得到特征解码矩阵H_D(Len_Dec×|V_src|，Len_Dec为解码器的特征解码长度，|V_src|为源端词表大小),该特征解码矩阵表示模型各个时刻在源端词表上对各个词语的预测分布；

2)给定图像输入，使用步骤A20的图像预处理方法。图像文本识别模型对输入的图像进行处理，得到输出的教师模型的特征解码矩阵

(Len_Dec×|V_src|，Len_Dec为解码器的特征解码长度，|V_src|为源端词表大小),即教师模型在解码的各个时刻在源端词表上对各个词语的预测分布。根据柱搜索算法可以得到每个时刻教师模型的预测词语的输出；

3)给定相同的图像输入，使用步骤A20的图像预处理方法。使用端到端图像文本翻译模型的特征提取器、编码器和学生模型识别解码器，得到教师模型的特征解码矩阵

(Len_Dec×|V_src|，Len_Dec为解码器的特征解码长度，|V_src|为源端词表大小)。类似的，根据柱搜索算法，可以得到每个时刻学生模型的预测词语的输出；

4)以教师模型的输出作为训练标签对学生模型进行参数优化。在训练过程中，教师模型的参数不进行更新。

在文本机器翻译模型作为教师模型时，添加学生模块文本特征提取器(即将端到端图像文本翻译模型的特征提取器替换为文本机器翻译模型的特征提取器)，结合端到端图像文本翻译的编码器和解码器来进行训练。训练过程的监督信号类似的分为两种，一种是将输入的源端语言经过文本翻译模型的到目标端语言句子，作为伪标签来让学生模型进行监督学习；另一种是将文本翻译模型解码的每一个时刻的预测的目标语言的分布作为监督信息让学生模型来进行监督学习。该过程为将文本机器翻译模型的知识蒸馏到端到端图像文本翻译的解码器中。

利用文本机器翻译模型作为教师模型进行分部蒸馏的方法具体如下：

1)首先构建学生模型的文本特征提取器，其输入为经过词嵌入的源端语言句子。其特征编码输出将由端到端图像文本翻译模型的编码器、解码器进一步计算后得到最终的特征解码矩阵H_D(Len_Dec×|V_tgt|，Len_Dec为解码器的特征解码长度，|V_tgt|为目标端词表大小),该特征解码矩阵表示模型各个时刻在目标端词表上对各个词语的预测分布；

2)给定源端语言句子输入，文本机器翻译教师模型对源端语言句子进行处理，得到输出的教师模型的特征解码矩阵

(Len_Dec×|V_tgt|，Len_Dec为解码器的特征解码长度，|V_tgt|为目标端词表大小),即教师模型在解码的各个时刻在目标端词表上对各个词语的预测分布。根据柱搜索算法可以得到每个时刻教师模型的预测词语的输出；

3)给定源端语言句子输入，使用学生模型的文本特征提取器，端到端图像文本翻译的编码器和解码器，得到教师模型的特征解码矩阵

(Len_Dec×|V_tgt|，Len_Dec为解码器的特征解码长度，|V_tgt|为目标端词表大小)。类似的，根据柱搜索算法，可以得到每个时刻学生模型的预测词语的输出；

4)以教师模型的输出作为训练标签对学生模型进行参数优化。在分部知识蒸馏训练过程中，教室模型的参数不进行更新。

通过多教师分部知识蒸馏方法对图像文本翻译模型进行强化训练学习时的损失函数

为：

其中，

表示图像文本翻译的损失函数，

表示图像文本识别模型知识蒸馏的损失函数，

图像文本翻译模型的解码器，

表示学生模型中的文本特征提取器，

表示图像文本识别模型作为教师模型的参数，

表示真值函数，当函数的输入为真时，输出为1，否则为0；s表示源端语言的解码时刻，S表示源端语言的最大长度，t表示目标端语言的解码时刻,T表示目标端语言的最大长度。

通过上述方法，虽然引入了额外的学生模块(文本特征提取器，识别解码器)，但是可以在不改变多任务学习的框架下，进一步强化训练端到端图像文本翻译模型的特征提取器、编码器和解码器，以得到更好的翻译效果。需要注意的是，如果没有已经训练好的图像文本识别模型和文本机器翻译模型，也可以将多任务学习中引入的识别模型和文本翻译模型作为教师模型进行知识蒸馏的训练，这样可以将简单任务的模型(图像文本识别、文本机器翻译)学习到的知识更好的蒸馏到困难任务(端到端图像文本翻译)模型上。

另外，本发明使用了一个视频字幕的图像文本翻译测试集验证基于不同任务组合的训练效果。为了验证本发明的方法，我们采用了多种任务组合的方式进行多任务图像文本翻译模型训练。具体如下：

任务组合1：单任务训练端到端图像文本翻译。图像文本预处理模块使用残差网络(ResNet)、双向循环神经网络等；编码器模块使用双向循环神经网络；解码器模块使用基于注意力机制的循环神经网络解码器。模型架构图如图5所示。

任务组合2:单任务训练端到端图像文本翻译。图像文本预处理模块使用残差网络(ResNet)、双向循环神经网络等；编码器模块使用基于自注意力机制的编码器；解码器模块使用基于自注意力机制的解码器。模型架构图如图6所示。

任务组合3:图像文本翻译任务+文本机器翻译任务。对于图像文本翻译任务，图像文本预处理模块使用残差网络(ResNet)、双向循环神经网络等；编码器模块使用基于自注意力机制的编码器；解码器模块使用基于自注意力机制的解码器。对于文本机器翻译任务，文本预处理模块使用标点标准化、分词、低频词替换及可训练的词嵌入；编码器模块使用基于自注意力机制的编码器；解码器模块使用基于自注意力机制的解码器。两个任务共享解码器模块。模型架构图如图7所示。

图像文本翻译模型联合文本机器翻译模型(Machine Translation,MT)的损失函数为：

任务组合4:图像文本翻译任务+图像文本识别任务(即图像文本翻译和图像文本识别两个任务共享了图像的特征提取模块，这两个任务联合训练可以更好的提升图像特征提取模型的训练效果，以得到更好的图像特征提取，在进行翻译的时候，得到更好的翻译结果)。对于图像文本翻译任务，图像文本预处理模块使用残差网络(ResNet)、双向循环神经网络等；编码器模块使用基于自注意力机制的编码器；解码器模块使用基于自注意力机制的解码器。对于图像文本识别翻译任务，图像文本预处理模块使用残差网络(ResNet)、双向循环神经网络等；编码器模块使用基于自注意力机制的编码器；解码器模块使用基于自注意力机制的解码器。两个任务共享编码器模块。模型架构图如图8所示。

图像文本翻译模型联合图像文本识别模型训练时的损失函数

为：

其中，I表示图像，x表示源端语言文本，y表示目标端语言文本，θ表示对应模型的参数，v表示对应词的索引，|V|表示词表大小，λ表示多任务学习中预设权重，

表示真值函数，当函数的输入为真时，输出为1，否则为0，s表示源端语言的解码时刻，S表示源端语言的最大长度，t表示目标端语言的解码时刻，T表示目标端语言的最大长度。

可见任务组合1、任务组合2为单任务图像文本翻译模型训练；任务组合3、任务组合4为双任务组合的图像文本翻译模型训练。在解码器的粒度选择上，我们同时进行了使用字符和亚词作为解码单元的实验。

表1

表1给出了本发明的实验结果，其指标是计算机器翻译的译文和标准译文之间的BLEU值(该指标数值越大越好)。可见(1)任务组合2较任务组合1有一定的性能提升，说明使用基于自注意力的编解码器有利于图像文本翻译的特征编码及解码输入；(2)任务组合3、任务组合4较任务组合2有一定的性能提升，说明双任务联合训练有利于提升端到端图像文本翻译的性能；(3)任务组合3较任务组合4有一定的性能提升，说明图像文本翻译任务+文本翻译任务比图像文本翻译任务+图像文本识别任务更有利于提升端到端图像文本翻译任务的训练；(4)解码粒度，字符级别的解码粒度对于英中翻译效果较好，亚词级别的解码粒度对于中英翻译效果较好。

2、基于多任务训练的端到端图像文本翻译方法

在本实施例中，先获取待翻译的数据，作为输入数据。

步骤S20，对所述输入数据进行预处理，预处理后，输入预构建的图像文本翻译模型，得到所述输入数据对应的翻译结果。

在本实施例中，对所述输入数据进行预处理，得到预处理数据。将预处理数据输入上述训练好的图像文本翻译模型，得到翻译结果，具体过程可参考上述A20-A30。

本发明第二实施例的一种基于多任务训练的端到端图像文本翻译系统，如图2所示，包括：数据获取模块100、翻译模块200；

所述数据获取模块100，配置为获取待翻译的数据，作为输入数据；所述输入数据包括图像、视频、文本；

所述翻译模块200，配置为对所述输入数据进行预处理，预处理后，输入预构建的图像文本翻译模型，得到所述输入数据对应的翻译结果；

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于多任务训练的端到端图像文本翻译系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于多任务训练的端到端图像文本翻译方法。

本发明第四实施例的一种处理装置，包括处理器和存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于多任务训练的端到端图像文本翻译方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多任务训练的端到端图像文本翻译方法，其特征在于，该方法包括：

2.根据权利要求1所述的基于多任务训练的端到端图像文本翻译方法，其特征在于，

若所述输入数据为文本，预处理包括：标点符号标准化、分词以及将低频词替换为特殊标记；所述低频词为未出现在词表中的词汇；

3.根据权利要求1所述的基于多任务训练的端到端图像文本翻译方法，其特征在于，步骤A20中“提取所述预处理数据的特征”，其方法为：

若所述输入数据为图像/视频，提取过程为：通过基于残差连接的卷积神经网络构建的特征提取器提取预处理数据的特征；并利用双向循环神经网络对图像特征进行初步的序列建模；

4.根据权利要求1所述的基于多任务训练的端到端图像文本翻译方法，其特征在于，所述编码器基于双向循环神经网络构建；所述解码器基于注意力机制的循环神经网络构建。

5.根据权利要求1所述的基于多任务训练的端到端图像文本翻译方法，其特征在于，所述编码器-解码器为基于自注意力机制的编码器-解码器。

6.根据权利要求1所述的基于多任务训练的端到端图像文本翻译方法，其特征在于，步骤A40之后还包括对图像文本翻译模型的强化训练，其方法为：结合训练好的图像文本识别模型和文本机器翻译模型，通过预设的多教师分部知识蒸馏方法对图像文本翻译模型进行强化训练学习；所述图像文本识别模型均基于特征提取器、编码器、解码器构建；

7.根据权利要求6所述的基于多任务训练的端到端图像文本翻译方法，其特征在于，通过预设的多教师分部知识蒸馏方法对图像文本翻译模型进行强化训练学习时的损失函数