CN117034965B

CN117034965B - 基于视觉语言预训练的图像文本翻译方法及装置

Info

Publication number: CN117034965B
Application number: CN202310996132.3A
Authority: CN
Inventors: 张亚萍; 向露; 刘宇宸; 周玉; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2024-03-22
Anticipated expiration: 2043-08-08
Also published as: CN117034965A

Abstract

本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置，方法包括：确定源语言图像；将源语言图像输入至图像文本翻译模型，得到图像文本翻译模型输出的源语言图像对应的目标语言文本；其中，图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与样本目标语言标签之间的差异确定。本发明的图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时，样本图像特征向量能够补充提供相应的视觉信息，对文本识别错误进行校正，以增强图像文本翻译，准确得到样本预测目标语言文本，进而提高图像文本翻译模型的图像文本翻译精度。

Description

基于视觉语言预训练的图像文本翻译方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于视觉语言预训练的图像文本翻译方法及装置。

背景技术

图像文本翻译旨在将嵌入图像中的源语言文本翻译成目标语言文本，具有广泛的实际应用场景：如旅游时对海报、路牌、店铺门面和广告牌等的拍照翻译导航等。目前图像文本翻译多使用图像文本识别和机器翻译级联模型实现。图像文本识别模型用于将嵌入在图像中的源语言文本提取转录为可编辑文本，机器翻译模型用于将可编辑文本翻译成目标语言文本。

然而，由于级联模型相互独立，未能考虑模型之间的互补信息增强，存在误差累积，导致图像文本翻译精度较低。例如，输入图像中“beer”文字风格复杂，图像文本识别模型错误地将“beer”识别成“13ee2”，而在机器翻译阶段，机器翻译模型依赖于文字识别模型提取的文本信息，将输入图片“beer”翻译成了“13ee2”，导致了错误累计。

发明内容

本发明提供一种基于视觉语言预训练的图像文本翻译方法及装置，用以解决现有技术中图像文本翻译精度较低的缺陷。

本发明提供一种基于视觉语言预训练的图像文本翻译方法，包括：

确定源语言图像；

将所述源语言图像输入至图像文本翻译模型，得到所述图像文本翻译模型输出的所述源语言图像对应的目标语言文本；

其中，所述图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与所述样本目标语言标签之间的差异确定，所述样本预测源语言文本是所述图像文本翻译模型对所述样本源语言图像进行文字识别得到的，所述样本预测目标语言文本是所述图像文本翻译模型基于所述样本源语言图像对应的样本图像特征向量，以及所述样本预测源语言文本对所述样本源语言图像进行图像文本翻译得到的，所述图像文本翻译模型是基于视觉语言预训练模型初始化后得到的。

根据本发明提供的一种基于视觉语言预训练的图像文本翻译方法，所述图像文本翻译模型的损失值基于如下步骤确定：

将所述样本源语言图像输入至初始图像文本翻译模型的图像编码层，得到所述图像编码层输出的样本图像特征向量；

将所述样本图像特征向量输入至所述初始图像文本翻译模型的文字识别解码层，得到所述文字识别解码层输出的所述样本预测源语言文本；

将所述样本图像特征向量以及所述样本预测源语言文本输入至所述初始图像文本翻译模型的图像文本翻译层，得到所述图像文本翻译层输出的所述样本预测目标语言文本；

基于所述样本预测源语言文本与所述样本源语言标签之间的差异，以及所述样本预测目标语言文本与所述样本目标语言标签之间的差异，确定所述图像文本翻译模型的损失值。

根据本发明提供的一种基于视觉语言预训练的图像文本翻译方法，所述将所述样本图像特征向量输入至所述初始图像文本翻译模型的文字识别解码层，得到所述文字识别解码层输出的所述样本预测源语言文本，包括：

将所述样本源语言图像的位置向量以及所述样本图像特征向量输入至所述文字识别解码层，由所述文字识别解码层基于所述位置向量进行位置注意力计算，以及基于所述样本图像特征向量进行上下文注意力计算，得到所述文字识别解码层输出的所述样本预测源语言文本。

根据本发明提供的一种基于视觉语言预训练的图像文本翻译方法，所述将所述样本图像特征向量以及所述样本预测源语言文本输入至所述初始图像文本翻译模型的图像文本翻译层，得到所述图像文本翻译层输出的所述样本预测目标语言文本，包括：

将所述样本预测源语言文本输入至所述图像文本翻译层的文本编码层，得到所述文本编码层输出的样本文本特征向量；

将所述样本图像特征向量以及所述样本文本特征向量输入至所述图像文本翻译层的跨语言解码层，得到所述跨语言解码层输出的所述样本预测目标语言文本。

根据本发明提供的一种基于视觉语言预训练的图像文本翻译方法，所述将所述样本预测源语言文本输入至所述图像文本翻译层的文本编码层，得到所述文本编码层输出的样本文本特征向量，包括：

将所述样本预测源语言文本输入至所述文本编码层，由所述文本编码层对所述样本预测源语言文本中各分词进行归一化处理后，线性投影到联合图像文本嵌入空间，得到所述文本编码层输出的样本文本特征向量。

根据本发明提供的一种基于视觉语言预训练的图像文本翻译方法，所述将所述样本图像特征向量以及所述样本文本特征向量输入至所述图像文本翻译层的跨语言解码层，得到所述跨语言解码层输出的所述样本预测目标语言文本，包括：

将所述样本图像特征向量以及所述样本文本特征向量输入至所述跨语言解码层的向量组合层，得到所述向量组合层输出的跨模态向量；

将所述跨模态向量输入至所述跨语言解码层的跨模态解码层，得到所述跨模态解码输出的所述样本预测目标语言文本。

根据本发明提供的一种基于视觉语言预训练的图像文本翻译方法，所述基于所述样本预测源语言文本与所述样本源语言标签之间的差异，以及所述样本预测目标语言文本与所述样本目标语言标签之间的差异，确定所述图像文本翻译模型的损失值，包括：

基于所述样本预测源语言文本与所述样本源语言标签之间的差异，确定文字识别解码损失值；

基于所述样本预测目标语言文本与所述样本目标语言标签之间的差异，确定跨语言解码损失值；

基于所述文字识别解码损失值，以及所述跨语言解码损失值，确定所述图像文本翻译模型的损失值。

本发明还提供一种基于视觉语言预训练的图像文本翻译装置，包括：

确定单元，用于确定源语言图像；

翻译单元，用于将所述源语言图像输入至图像文本翻译模型，得到所述图像文本翻译模型输出的所述源语言图像对应的目标语言文本；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述基于视觉语言预训练的图像文本翻译方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于视觉语言预训练的图像文本翻译方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于视觉语言预训练的图像文本翻译方法。

本发明提供的基于视觉语言预训练的图像文本翻译方法及装置，由于样本源语言图像对应的样本图像特征向量关联有视觉信息，从而在图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时，样本图像特征向量能够补充提供相应的视觉信息，对文本识别错误进行校正，以增强图像文本翻译，准确得到样本预测目标语言文本，进而提高图像文本翻译模型的图像文本翻译精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于视觉语言预训练的图像文本翻译方法的流程示意图；

图2是本发明提供的文字识别解码层的结构示意图；

图3是本发明提供的跨语言解码层的结构示意图；

图4是本发明提供的图像文本翻译模型训练方法的流程示意图；

图5是本发明提供的基于视觉语言预训练的图像文本翻译装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前图像文本翻译多使用图像文本识别和机器翻译级联模型实现。图像文本识别模型用于将嵌入在图像中的源语言文本提取转录为可编辑文本，机器翻译模型用于将可编辑文本翻译成目标语言文本。

对此，本发明提供一种基于视觉语言预训练的图像文本翻译方法。图1是本发明提供的基于视觉语言预训练的图像文本翻译方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定源语言图像。

此处，源语言图像指包含有源语言文本的图像，源语言图像可以是手机、相机等图像采集设备采集得到的图像，也可以是通过爬虫技术从互联网上爬取得到的图像，本发明实施例对此不作具体限定。

步骤120、将源语言图像输入至图像文本翻译模型，得到图像文本翻译模型输出的源语言图像对应的目标语言文本；

其中，图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与样本目标语言标签之间的差异确定，样本预测源语言文本是图像文本翻译模型对样本源语言图像进行文字识别得到的，样本预测目标语言文本是图像文本翻译模型基于样本源语言图像对应的样本图像特征向量，以及样本预测源语言文本对样本源语言图像进行图像文本翻译得到的，图像文本翻译模型是基于视觉语言预训练模型初始化后得到的。

具体地，图像文本翻译模型用于将源语言图像中的源语言文本翻译为目标语言文本。例如，源语言图像中的源语言文本为英文文本，则图像文本翻译模型用于将该英文文本翻译为中文文本(即目标语言文本)。

其中，图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与样本目标语言标签之间的差异确定。样本预测源语言文本是图像文本翻译模型对样本源语言图像进行文字识别得到的，即样本预测源语言文本是考虑了样本源语言图像的图像信息后得到的，也可以理解为样本预测源语言文本关联有视觉信息。样本预测目标语言文本是图像文本翻译模型基于样本源语言图像对应的样本图像特征向量，以及样本预测源语言文本对样本源语言图像进行图像文本翻译得到的，由于样本源语言图像对应的样本图像特征向量关联有视觉信息，从而在对样本源语言图像进行图像文本翻译时，能够补充提供相应的视觉信息，以增强图像文本翻译，准确得到样本预测目标语言文本。此外，图像文本翻译模型是基于视觉语言预训练模型初始化后得到的，由于视觉语言预训练模型包含有丰富的视觉和语言知识，从而可以通过视觉语言预训练模型统一视觉和文本的语义特征表达空间，使得图像文本翻译模型同时融合视觉信息和文本信息，提高图像文本翻译精度。

此外，样本源语言标签指样本源语言图像中源语言文本对应的源语言标签，样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异用于表征样本预测源语言文本与样本源语言标签之间的相似度，相似度越高，两者之间的差异越小，对应损失值也越小，图像文本翻译模型学习到的视觉信息也越多。样本目标语言标签指样本源语言图像中源语言文本对应的目标语言标签，样本预测目标语言文本与样本目标语言标签之间的差异用于表征样本预测目标语言文本与样本目标语言标签之间的相似度，相似度越高，两者之间的差异越小，对应损失值也越小。

可以理解的是，在将源语言图像输入至图像文本翻译模型之前，还可以预先训练得到图像文本翻译模型，具体可以通过执行如下步骤实现：首先，收集大量样本源语言图像，通过人工标注确定其对应的样本源语言标签以及样本目标语言标签。随即，基于样本源语言图像、样本源语言标签以及样本目标语言标签对初始图像文本翻译模型进行训练，从而得到图像文本翻译模型。

本发明实施例提供的基于视觉语言预训练的图像文本翻译方法，由于样本源语言图像对应的样本图像特征向量关联有视觉信息，从而在图像文本翻译模型基于样本图像特征向量以及样本预测源语言文本对样本源语言图像进行图像文本翻译时，样本图像特征向量能够补充提供相应的视觉信息，对文本识别错误进行校正，以增强图像文本翻译，准确得到样本预测目标语言文本，进而提高图像文本翻译模型的图像文本翻译精度。

基于上述实施例，图像文本翻译模型的损失值基于如下步骤确定：

将样本源语言图像输入至初始图像文本翻译模型的图像编码层，得到图像编码层输出的样本图像特征向量；

将样本图像特征向量输入至初始图像文本翻译模型的文字识别解码层，得到文字识别解码层输出的样本预测源语言文本；

将样本图像特征向量以及样本预测源语言文本输入至初始图像文本翻译模型的图像文本翻译层，得到图像文本翻译层输出的样本预测目标语言文本；

基于样本预测源语言文本与样本源语言标签之间的差异，以及样本预测目标语言文本与样本目标语言标签之间的差异，确定图像文本翻译模型的损失值。

具体地，初始图像文本翻译模型指参数随机化的模型，其可以为视觉语言预训练模型CLIP(Contrastive Language-Image Pre-training)。初始图像文本翻译模型包括图像编码层、文字识别解码层以及图像文本翻译层。图像编码层可以基于图像编码器(ImageEncoder,IE)构建得到，如可以基于ViT图像编码器构建得到，文字识别解码层可以基于文字识别解码器构建得到。

图像编码层用于对样本源语言图像进行图像编码，得到样本图像特征向量，文字识别解码层用于将样本图像特征向量解码成源语言文本序列，进而得到样本预测源语言文本。

其中，图像编码层可以基于图像编码器(Image Encoder,IE)构建得到，如可以基于ViT图像编码器构建得到，文字识别解码层可以基于文字识别解码器构建得到。

在一些具体实施方式中，对于样本源语言图像可以按照固定大小P×P的正方形网格进行切片，得到切片的二维网格图，二维网格图保留了样本源语言图像中的原始结构关系。进一步地，可以将二维网格图按照空间顺序重构成/>其中L_i＝HW/P²。接着，对重构后的各子图进行线性向量映射，获取映射后的样本图像特征向量其中D表示映射后的特征维度。

此外，图像文本翻译层用于基于样本图像特征向量以及样本预测源语言文本，进行图像文本翻译，得到样本预测目标语言文本。在确定样本预测源语言文本以及样本预测目标语言文本之后，基于样本预测源语言文本与样本源语言标签之间的差异，以及样本预测目标语言文本与样本目标语言标签之间的差异，可以确定图像文本翻译模型的损失值。

基于上述任一实施例，将样本图像特征向量输入至初始图像文本翻译模型的文字识别解码层，得到文字识别解码层输出的样本预测源语言文本，包括：

将样本源语言图像的位置向量以及样本图像特征向量输入至文字识别解码层，由文字识别解码层基于位置向量进行位置注意力计算，以及基于样本图像特征向量进行上下文注意力计算，得到文字识别解码层输出的样本预测源语言文本。

具体地，样本源语言图像可以被切分为多个子图(如可以切分为二维网格图)，位置向量用于表征各子图的位置信息。文字识别解码层基于位置向量进行位置注意力计算，以及基于样本图像特征向量进行上下文注意力计算，得到文字识别解码层输出的样本预测源语言文本。

如图2所示，文字识别解码层可以包括2个多头注意力单元MHA，一个多层感知器MLP，各MHA和MLP均连接有层归一化LN，p表示位置向量，c表示输入的上下文信息，M表示注意力掩码，F_i表示样本图像特征向量，表示样本预测源语言文本。其中，左边第一个MHA用于基于位置向量进行位置注意力计算，第二个MHA用于基于样本图像特征向量进行上下文注意力计算，最后通过MLP输出/>

基于上述任一实施例，将样本图像特征向量以及样本预测源语言文本输入至初始图像文本翻译模型的图像文本翻译层，得到图像文本翻译层输出的样本预测目标语言文本，包括：

将样本预测源语言文本输入至图像文本翻译层的文本编码层，得到文本编码层输出的样本文本特征向量；

将样本图像特征向量以及样本文本特征向量输入至图像文本翻译层的跨语言解码层，得到跨语言解码层输出的样本预测目标语言文本。

具体地，图像文本翻译层包括文本编码层以及跨语言解码层。文本编码层用于对样本预测源语言文本进行文本编码，得到样本文本特征向量，跨语言解码层用于基于样本图像特征向量以及样本文本特征向量，即融合样本图像特征向量的视觉信息以及样本文本特征向量的文本信息，预测得到样本预测目标语言文本，增强了跨语言解码层的翻译性能。

其中，文本编码层可以基于Transformer中的文本编码器(Text Encoder,TE)构建得到，跨语言解码层可以基于解码器构建得到。

如图3所示，跨语言解码层可以包括2个多头注意力单元MHA，一个多层感知器MLP，各MHA和MLP均连接有层归一化LN，p表示样本源语言图像的位置向量，c表示输入的上下文信息，M表示注意力掩码，F_i表示样本图像特征向量，F_t表示样本文本特征向量，表示样本预测目标语言文本。其中，左边第一个MHA用于基于位置向量进行位置注意力计算，第二个MHA用于基于样本图像特征向量以及样本文本特征向量进行上下文注意力计算，最后通过MLP输出/>

基于上述任一实施例，将样本预测源语言文本输入至图像文本翻译层的文本编码层，得到文本编码层输出的样本文本特征向量，包括：

将样本预测源语言文本输入至文本编码层，由文本编码层对样本预测源语言文本中各分词进行归一化处理后，线性投影到联合图像文本嵌入空间，得到文本编码层输出的样本文本特征向量。

具体地，文本编码层可以对样本预测源语言文本进行分词，并对各分词进行归一化处理后，线性投影到联合图像文本嵌入空间，得到映射后的样本文本特征向量F_t：

其中，L_t表示分词后的文本序列长度，D表示嵌入样本文本特征向量的维度。

基于上述任一实施例，将样本图像特征向量以及样本文本特征向量输入至图像文本翻译层的跨语言解码层，得到跨语言解码层输出的样本预测目标语言文本，包括：

将样本图像特征向量以及样本文本特征向量输入至跨语言解码层的向量组合层，得到向量组合层输出的跨模态向量；

将跨模态向量输入至跨语言解码层的跨模态解码层，得到跨模态解码输出的样本预测目标语言文本。

具体地，跨语言解码层包括向量组合层和跨模态解码，向量组合层用于基于样本图像特征向量以及样本文本特征向量，得到跨模态向量。跨模态解码用于对跨模态向量进行解码，得到样本预测目标语言文本。

其中，跨模态向量F_c可以表示为：

其中，L_c＝L_i+L_t，D表示样本图像特征向量和样本文本特征向量的维度。

基于上述任一实施例，基于样本预测源语言文本与样本源语言标签之间的差异，以及样本预测目标语言文本与样本目标语言标签之间的差异，确定图像文本翻译模型的损失值，包括：

基于样本预测源语言文本与样本源语言标签之间的差异，确定文字识别解码损失值；

基于样本预测目标语言文本与样本目标语言标签之间的差异，确定跨语言解码损失值；

基于文字识别解码损失值，以及跨语言解码损失值，确定图像文本翻译模型的损失值。

在一些具体实施方式中，在确定样本预测源语言文本以及样本预测目标语言文本之后，基于样本预测源语言文本与样本源语言标签之间的差异，可以确定文字识别解码损失值以及基于样本预测目标语言文本与样本目标语言标签之间的差异，可以确定跨语言解码损失值/>将/>与/>之和作为图像文本翻译模型的损失值，利用AdamW优化器更新权值，直至初始图像文本翻译模型收敛，得到图像文本翻译模型。其中，可以将样本预测源语言文本输出概率的负对数似然作为/>将样本预测目标语言文本输出概率的负对数似然作为/>

基于上述任一实施例，本发明还提供一种图像文本翻译模型的训练方法，如图4所示，图像文本翻译模型的图像编码层基于图像编码器构建，文字识别解码层基于文字识别解码器构建，图像文本翻译层基于文本编码器以及视觉增强的跨语言解码器构建。其中，图像编码层采用视觉语言预训练模型的图像编码器，即图像编码层的图像编码器继承视觉语言预训练模型的权重并冻结该权重；文字识别解码层采用视觉语言预训练模型的文本编码器，即文字识别解码层的文本编码器继承视觉语言预训练模型的权重并冻结该权重。现结合图像文本翻译模型说明基于视觉语言预训练的图像文本翻译方法的流程：

首先，将样本源语言图像x输入至图像文本翻译模型的图像编码器，由图像编码器进行图像编码，得到样本图像特征向量F_i。接着，将样本图像特征向量F_i输入至图像文本翻译模型的文字识别解码器，由文字识别解码器进行文字解码，得到样本预测源语言文本

将样本预测源语言文本输入至图像文本翻译模型的文本编码器，由文本编码器进行文本编码，得到样本文本特征向量F_t。将样本图像特征向量F_i以及样本文本特征向量F_t输入至视觉增强的跨语言解码器，由视觉增强的跨语言解码器进行解码，得到样本预测目标语言文本/>

基于样本预测源语言文本与样本源语言标签之间的差异，可以确定文字识别解码损失值/>以及基于样本预测目标语言文本/>与样本目标语言标签之间的差异，可以确定跨语言解码损失值/>将/>与/>之和作为图像文本翻译模型的损失值，利用AdamW优化器更新权值，直至初始图像文本翻译模型收敛，得到图像文本翻译模型。

下面对本发明提供的基于视觉语言预训练的图像文本翻译装置进行描述，下文描述的基于视觉语言预训练的图像文本翻译装置与上文描述的基于视觉语言预训练的图像文本翻译方法可相互对应参照。

基于上述任一实施例，本发明还提供一种基于视觉语言预训练的图像文本翻译装置，如图5所示，该装置包括：

确定单元510，用于确定源语言图像；

翻译单元520，用于将所述源语言图像输入至图像文本翻译模型，得到所述图像文本翻译模型输出的所述源语言图像对应的目标语言文本；

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、存储器(memory)620、通信接口(Communications Interface)630和通信总线640，其中，处理器610，存储器620，通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令，以执行基于视觉语言预训练的图像文本翻译方法，该方法包括：确定源语言图像；将所述源语言图像输入至图像文本翻译模型，得到所述图像文本翻译模型输出的所述源语言图像对应的目标语言文本；其中，所述图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与所述样本目标语言标签之间的差异确定，所述样本预测源语言文本是所述图像文本翻译模型对所述样本源语言图像进行文字识别得到的，所述样本预测目标语言文本是所述图像文本翻译模型基于所述样本源语言图像对应的样本图像特征向量，以及所述样本预测源语言文本对所述样本源语言图像进行图像文本翻译得到的，所述图像文本翻译模型是基于视觉语言预训练模型初始化后得到的。

此外，上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于视觉语言预训练的图像文本翻译方法，该方法包括：确定源语言图像；将所述源语言图像输入至图像文本翻译模型，得到所述图像文本翻译模型输出的所述源语言图像对应的目标语言文本；其中，所述图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与所述样本目标语言标签之间的差异确定，所述样本预测源语言文本是所述图像文本翻译模型对所述样本源语言图像进行文字识别得到的，所述样本预测目标语言文本是所述图像文本翻译模型基于所述样本源语言图像对应的样本图像特征向量，以及所述样本预测源语言文本对所述样本源语言图像进行图像文本翻译得到的，所述图像文本翻译模型是基于视觉语言预训练模型初始化后得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于视觉语言预训练的图像文本翻译方法，该方法包括：确定源语言图像；将所述源语言图像输入至图像文本翻译模型，得到所述图像文本翻译模型输出的所述源语言图像对应的目标语言文本；其中，所述图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与所述样本目标语言标签之间的差异确定，所述样本预测源语言文本是所述图像文本翻译模型对所述样本源语言图像进行文字识别得到的，所述样本预测目标语言文本是所述图像文本翻译模型基于所述样本源语言图像对应的样本图像特征向量，以及所述样本预测源语言文本对所述样本源语言图像进行图像文本翻译得到的，所述图像文本翻译模型是基于视觉语言预训练模型初始化后得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视觉语言预训练的图像文本翻译方法，其特征在于，包括：

确定源语言图像；

其中，所述图像文本翻译模型的损失值基于样本预测源语言文本与样本源语言图像对应的样本源语言标签之间的差异，以及样本预测目标语言文本与所述样本目标语言标签之间的差异确定，所述样本预测源语言文本是所述图像文本翻译模型对所述样本源语言图像进行文字识别得到的，所述样本预测目标语言文本是所述图像文本翻译模型基于所述样本源语言图像对应的样本图像特征向量，以及所述样本预测源语言文本对所述样本源语言图像进行图像文本翻译得到的，所述图像文本翻译模型是基于视觉语言预训练模型初始化后得到的；

所述图像文本翻译模型的损失值基于如下步骤确定：

2.根据权利要求1所述的基于视觉语言预训练的图像文本翻译方法，其特征在于，所述将所述样本图像特征向量输入至所述初始图像文本翻译模型的文字识别解码层，得到所述文字识别解码层输出的所述样本预测源语言文本，包括：

3.根据权利要求1所述的基于视觉语言预训练的图像文本翻译方法，其特征在于，所述将所述样本图像特征向量以及所述样本预测源语言文本输入至所述初始图像文本翻译模型的图像文本翻译层，得到所述图像文本翻译层输出的所述样本预测目标语言文本，包括：

4.根据权利要求3所述的基于视觉语言预训练的图像文本翻译方法，其特征在于，所述将所述样本预测源语言文本输入至所述图像文本翻译层的文本编码层，得到所述文本编码层输出的样本文本特征向量，包括：

5.根据权利要求3所述的基于视觉语言预训练的图像文本翻译方法，其特征在于，所述将所述样本图像特征向量以及所述样本文本特征向量输入至所述图像文本翻译层的跨语言解码层，得到所述跨语言解码层输出的所述样本预测目标语言文本，包括：

6.根据权利要求1所述的基于视觉语言预训练的图像文本翻译方法，其特征在于，所述基于所述样本预测源语言文本与所述样本源语言标签之间的差异，以及所述样本预测目标语言文本与所述样本目标语言标签之间的差异，确定所述图像文本翻译模型的损失值，包括：

7.一种基于视觉语言预训练的图像文本翻译装置，其特征在于，包括：

确定单元，用于确定源语言图像；

所述图像文本翻译模型的损失值基于如下步骤确定：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于视觉语言预训练的图像文本翻译方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于视觉语言预训练的图像文本翻译方法。