CN116168401A

CN116168401A - 基于多模态码本的文本图像翻译模型的训练方法

Info

Publication number: CN116168401A
Application number: CN202310158612.2A
Authority: CN
Inventors: 苏劲松; 蓝志彬; 余嘉炜
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-05-26

Abstract

本申请提出了一种基于多模态码本的文本图像翻译模型的训练方法，包括采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练；采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练；采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练；采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调，以得到训练好的文本图像翻译模型；由此，利用输入的图像联想相关文本，从而为翻译过程提供有效的补充信息，以便得到更好的翻译效果。

Description

基于多模态码本的文本图像翻译模型的训练方法

技术领域

本申请涉及自然语言处理技术领域，特别涉及一种基于多模态码本的文本图像翻译模型的训练方法和一种计算机设备。

背景技术

相关技术中，文本图像翻译旨在将嵌入在图像中的源文本翻译成目标译文；当前的文本图像翻译模型主要采用级联的方式进行翻译，即先使用光学字符识别模型对图像中的文本进行识别，然后将识别出的文本输入到翻译模型进行翻译；然而，这种级联的方式会存在错误传播的问题，其中，识别的文本可能会包含错误，导致后续的翻译错误；此外，文本图像翻译任务的数据量较少，导致模型的性能受限。

发明内容

本申请旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本申请的一个目的在于提出一种基于多模态码本的文本图像翻译模型的训练方法，该模型包括多模态码本，利用输入的图像联想相关文本，从而为翻译过程提供有效的补充信息，以便得到更好的翻译效果。

本申请的第二个目的在于提出一种计算机设备。

为达到上述目的，本申请第一方面实施例提出了一种基于多模态码本的文本图像翻译模型的训练方法，该方法包括以下步骤：获取训练样本集，其中，所述训练样本集包括多个训练样本对，所述每个训练样本对包括图像、图像对应的语言文本、光学字符识别文本和目标语言文本；构建文本图像翻译模型，其中，所述文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器；采用所述训练样本集对所述文本图像翻译模型进行训练，以得到训练好的文本图像翻译模型。

根据本申请实施例的基于多模态码本的文本图像翻译模型的训练方法，首先，获取训练样本集，其中，训练样本集包括多个训练样本对，每个训练样本对包括图像、图像对应的语言文本、光学字符识别文本和目标语言文本；构建文本图像翻译模型，其中，文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器；采用训练样本集对文本图像翻译模型进行训练，以得到训练好的文本图像翻译模型；由此，利用输入的图像联想相关文本，从而为翻译过程提供有效的补充信息，以便得到更好的翻译效果。

另外，根据本申请上述实施例提出的基于多模态码本的文本图像翻译模型的训练方法还可以具有如下附加的技术特征：

可选地，采用所述训练样本集对所述文本图像翻译模型进行训练，以得到训练好的文本图像翻译模型，包括：采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练；采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练；采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练；采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调，以得到训练好的文本图像翻译模型。

可选地，所述文本编码器基于Transformer编码器进行构建，堆叠了L_e个相同层，每个层包括一个自注意力子层和一个前馈网络子层；所述图像编码器采用ViT构建，包括L_v个堆叠层，每个堆叠层包括一个自注意力子层和一个前馈网络子层，并在顶层增加了一个线性变换子层和交叉注意力子层以将视觉特征序列维度转换到与所述文本编码器隐状态序列维度一致；所述多模态码本包括K个码元，对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化；所述文本解码器基于Transformer解码器进行构建，具有L_d个相同层，包括自注意力子层、前馈网络子层和交叉注意力子层，以便根据所述文本编码器输出的隐状态序列和所述多模态码本输出的码元生成最终的目标语言文本。

可选地，采用如下公式对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化：

其中，e_k表示第k个码元，

表示文本编码器第L_e层输出的隐状态序列中的第i个隐状态，

表示图像编码器第L_v层输出的视觉特征序列中的第j个特征，e_k′表示

映射到了多模态码本中第k′个码元的嵌入表示，e_k″表示

映射到了多模态码本中第k″个码元的嵌入表示。

可选地，所述文本解码器在第t个解码时间步，生成下一个词元的概率分布定义如下：

其中，

表示第L_d层文本解码器输出的隐状态序列，v为输入的图像，

为输入的光学字符识别文本，y为目标语言文本，表示整个文本图像翻译模型参数，W_o和b_o为可训练的模型参数。

可选地，采用以下训练目标对所述文本编码器和所述文本解码器进行训练：

其中，x为图像对应的语言文本，θ_te为文本编码器的参数，θ_td为文本解码器的参数。

可选地，在采用所述图像和所述图像对应的语言文本对所述图像编码器和多模态码本进行训练时，采用指数移动平均法更新多模态码本，衰减因子决定过去值影响当前平均值的程度。

可选地，采用以下训练目标对所述图像编码器和所述多模态码本进行训练：

其中，sg表示梯度截断操作，θ_ie是图像编码器中除了ViT模块的参数，

表示第L_v层图像编码器输出的视觉特征序列，

表示第L_e层文本编码器输出的隐状态序列，

的计算方式为

的计算方式为

分别表示图像和文本的语义信息，通过

损失项，能够将图像和文本表示尽可能量化为相同的码元，使用承诺损失

确保文本编码器输出的隐状态和图像编码器输出的视觉特征与所选的码元嵌入表示保持接近，防止映射时从一个码元到另一个码元之间频繁波动，α是控制

损失效果的超参数。

可选地，如权利要求8所述的基于多模态码本的文本图像翻译模型的训练方法，其特征在于，采用以下训练目标优化整个文本图像翻译模型：

其中，

为文本编码器设计的承诺损失，β是量化其效果的超参数，

为文本图像翻译损失。

为达到上述目的，本申请第三方面实施例提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述的基于多模态码本的文本图像翻译模型的训练方法。

根据本申请实施例的计算机设备，通过存储器存储基于多模态码本的文本图像翻译模型的训练程序，这样基于多模态码本的文本图像翻译模型的训练程序被处理器执行时实现上述的基于多模态码本的文本图像翻译模型的训练方法，由此，文本图像翻译模型在生成翻译时，能够利用图像获取有效的补充信息，提高翻译质量。

附图说明

图1为根据本申请实施例的基于多模态码本的文本图像翻译模型的训练方法的流程示意图；

图2为根据本申请实施例的文本图像翻译模型的总体网络结构示意图；

图3为根据本申请实施例的总体训练框架示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

图1为根据本申请实施例的基于多模态码本的文本图像翻译模型的训练方法的流程示意图，如图1所示，本申请实施例的基于多模态码本的文本图像翻译模型的训练方法包括以下步骤：

S101，获取训练样本集，其中，训练样本集包括多个训练样本对，每个训练样本对包括图像、图像对应的语言文本、光学字符识别文本和目标语言文本。

需要说明的是，图像上包括有待翻译语言文字，图像对应的语言文本即图像上的文字构成的文本，光学字符识别文本是采用OCR识别对图像上的文字进行识别后得到的文本，目标语言文本为根据图像对应的语言文本进行翻译后的文本。

S102，构建文本图像翻译模型，其中，文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器。

也就是说，如图2所示，构建的文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器四个模块。

作为一个实施例，文本编码器基于Transformer编码器进行构建，堆叠了L_e个相同层，每个层包括一个自注意力子层和一个前馈网络子层；使用

表示第l层文本编码器输出的隐状态序列，其中N_e为隐状态序列的长度。

作为一个具体实施例，本申请采用6层的文本编码器结构。

作为一个实施例，图像编码器采用ViT构建，与Transformer编码器类似，ViT包括L_v个堆叠层，每个堆叠层包括一个自注意力子层和一个前馈网络子层，Transformer编码器和ViT之间的一个关键区别是层归一化的放置，其中，在ViT中采用了预归一化的方法；使用

表示第l层图像编码器输出的视觉特征序列，其中，N_v为视觉特征序列的长度。

作为一个具体实施例，本申请采用12层的图像编码器结构，并在顶层增加了一个线性变换子层和交叉注意力子层以将视觉特征序列维度转换到与文本编码器隐状态序列维度一致。

作为一个实施例，多模态码本包括K个码元，通过多模态码本能够对文本编码器的隐状态序列和图像编码器的视觉特征序列进行量化。

作为一个具体实施例，采用如下公式对文本编码器的隐状态序列和图像编码器的视觉特征序列进行量化：

其中，e_k表示第k个码元，

表示文本编码器第L_e层输出的隐状态序列中的第i个隐状态，

映射到了多模态码本中第k^′个码元的嵌入表示，e_k″表示

映射到了多模态码本中第k″个码元的嵌入表示。

需要说明的是，通过上述方式文本和图像表示都被映射码元的共享语义空间中。

作为一个实施例，文本解码器基于Transformer解码器进行构建，具有L_d个相同层，包括自注意力子层、前馈网络子层和交叉注意力子层，以便根据文本编码器输出的隐状态序列和多模态码本输出的码元生成最终的目标语言文本。

作为一个具体实施例，使用

表示第l层文本解码器输出的隐状态序列，其中N_d为该隐状态序列的长度；在第t个解码时间步，生成下一个词元的概率分布定义如下：

其中，

表示在第t个解码时间步第L_d层文本解码器输出的隐状态序列，v为输入的图像，

终上所述，本申请的文本图像翻译模型包括：(1)文本编码器，其将输入文本转换为状态序列；(2)图像编码器，其使用预训练模型进行初始化，将输入图像编码为视觉向量序列；(3)多模态码本，其用于输入图像表示，然后输出包含正确文本或相关文本信息的码元；(4)文本解码器，其利用文本编码器输出的隐藏状态和多模态码本输出的码元生成最终翻译；本申请的文本图像翻译模型可以利用输入图像通多模态码本预测与输入文本相关的码元，为后续翻译提供补充信息，缓解错误传播问题。

S103，采用训练样本集对文本图像翻译模型进行训练，以得到训练好的文本图像翻译模型。

作为一个实施例，采用训练样本集对所述文本图像翻译模型进行训练，以得到训练好的文本图像翻译模型，包括：采用训练样本集中的图像对应的语言文本和目标语言文本对文本编码器和文本解码器进行训练；采用训练样本集中的图像对应的语言文本对多模态码本进行训练；采用图像和图像对应的语言文本对图像编码器和多模态码本进行训练；采用图像、图像对应的语言文本、光学字符识别文本和目标语言文本对文本图像翻译模型进行微调，以得到训练好的文本图像翻译模型。

也就是说，如图3所示，文本图像翻译模型在训练过程中包括四个阶段。

其中，如图3(a)显示了本申请的第一个阶段，在该阶段以普通翻译的方式在大规模双语语料库上预训练文本编码器和文本解码器。形式上，对于每个平行句对(,y)，本申请为这个阶段定义以下训练目标：

另外，如图3(b)显示了本申请的第二个阶段，在该阶段利用单语数据预训练多模态码本，其中，单语数据采用第一阶段双语数据中源语言部分的数据；通过这一阶段的训练能为多模态码本的每个m码元学习聚类表示；以及用指数移动平均方法更新多模态码本，其中，衰减因子决定过去值影响当前平均值的程度。形式上，第k个码元的嵌入表示更新如下：

n_k←γn_k+(1-)c_k,

其中，

是指示函数，γ是设置为0.99的衰减因子；c_k计算聚类到第k个码元中的文本编码器隐状态的数量，h_k表示这些隐状态的加和，n_k表示过去值和当前值c_k的指数加权平均值。

另外，如图3(c)中虚线框部分显示了本申请的第三个阶段，在该阶段引入了一个涉及额外光学字符识别数据和图像文本对齐任务，以进一步训练图像编码器和多模态码本；通过这一阶段的训练，赋予多模态码本初步的利用图像关联相关文本的能力；给定一个图像文本训练实例(,x)，将这一阶段的训练目标定义为：

表示第L_v层图像编码器输出的视觉特征序列，

表示第L_e层文本编码器输出的隐状态序列，

的计算方式为

的计算方式为

分别表示图像和文本的语义信息，通过

损失效果的超参数；在这个阶段，通用采用和第二阶段一样的方式继续更新多模态码本。

另外，如图3(c)显示了本方法第四阶段的训练过程，在这个阶段

损失项仍然参与其中，它保持了训练的一致性并使微调更加平滑；给定一个文本图像翻译训练实例

通过以下目标优化整个模型：

其中，

为文本编码器设计的承诺损失，β是量化其效果的超参数，

为文本图像翻译损失。

需要注意的是，

只是作为

的输入，以保证模型训练和推理的一致性，而x用作图像文本对齐任务的输入，以训练多模态码本将输入图像与正确文本相关联的能力；此外，仍然使用指数移动平均方法更新多模态码本；通过这一阶段的训练，获得最终的基于多模态码本的文本图像翻译模型，其可用于模型测试及实际使用。

也就是说，本申请的文本图像翻译模型的训练过程包括：(1)使用大规模双语语料库通过普通的文本翻译任务来预训练文本编码器和文本解码器；(2)使用大规模双语语料库中的单语数据通过指数平均更新方法预训练新添加的多模态码本；(3)使用额外的光学字符识别数据集通过图像文本对齐任务预训练图像编码器和多模态码本，以增强多模态码本将图像与相关文关联的能力；(4)；在文本图像翻译数据集上微调所有模块，获得最终的文本图像翻译模型。该文本图像翻译模型在训练完成后，通过输入图像和识别的光学字符识别文本后即可翻译出目标语言文本。

终上所述，根据本申请提出的基于多模态码本的文本图像翻译模型的训练方法，该模型包含多模态码本模块，以利用输入的图像联想相关文本，从而为翻译过程提供有效的补充信息；多模态码本包括固定数量的码元，每一个码元都是一种聚类表示；模型在训练时将图像和对应的正确文本映射到相同码元的语义空间上，在推理时模型通过多模态码本将图像映射为包含相关文本信息的码元，以此为翻译提供补充信息，获得更好的翻译结果。

另外，本申请实施例还提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述的基于多模态码本的文本图像翻译模型的训练方法。

根据本申请实施例的计算机设备，通过存储器存储基于多模态码本的文本图像翻译模型的训练程序，这样基于多模态码本的文本图像翻译模型的训练被处理器执行时实现上述的基于多模态码本的文本图像翻译模型的训练方法，由此，文本图像翻译模型在生成翻译时，能够利用图像获取有效的补充信息，提高翻译质量。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本申请中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多模态码本的文本图像翻译模型的训练方法，其特征在于，包括以下步骤：

获取训练样本集，其中，所述训练样本集包括多个训练样本对，所述每个训练样本对包括图像、图像对应的语言文本、光学字符识别文本和目标语言文本；

构建文本图像翻译模型，其中，所述文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器；

采用所述训练样本集对所述文本图像翻译模型进行训练，以得到训练好的文本图像翻译模型。

2.如权利要求1所述的基于多模态码本的文本图像翻译模型的训练方法，其特征在于，采用所述训练样本集对所述文本图像翻译模型进行训练，以得到训练好的文本图像翻译模型，包括：

采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练；

采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练；

采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练；

采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调，以得到训练好的文本图像翻译模型。

3.如权利要求2所述的基于多模态码本的文本图像翻译模型的训练方法，其特征在于，所述文本编码器基于Transformer编码器进行构建，堆叠了L_e个相同层，每个层包括一个自注意力子层和一个前馈网络子层；所述图像编码器采用ViT构建，包括L_v个堆叠层，每个堆叠层包括一个自注意力子层和一个前馈网络子层，并在顶层增加了一个线性变换子层和交叉注意力子层以将视觉特征序列维度转换到与所述文本编码器隐状态序列维度一致；所述多模态码本包括K个码元，对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化；所述文本解码器基于Transformer解码器进行构建，具有L_d个相同层，包括自注意力子层、前馈网络子层和交叉注意力子层，以便根据所述文本编码器输出的隐状态序列和所述多模态码本输出的码元生成最终的目标语言文本。

4.如权利要求3所述的基于多模态码本的文本图像翻译模型的训练方法，其特征在于，采用如下公式对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化：