CN115640520A - 跨语言跨模态模型的预训练方法、设备和存储介质 - Google Patents

跨语言跨模态模型的预训练方法、设备和存储介质 Download PDF

Info

Publication number
CN115640520A
CN115640520A CN202211384569.3A CN202211384569A CN115640520A CN 115640520 A CN115640520 A CN 115640520A CN 202211384569 A CN202211384569 A CN 202211384569A CN 115640520 A CN115640520 A CN 115640520A
Authority
CN
China
Prior art keywords
text
cross
language
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211384569.3A
Other languages
English (en)
Other versions
CN115640520B (zh
Inventor
单斌
韩雅倩
尹维冲
王硕寰
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211384569.3A priority Critical patent/CN115640520B/zh
Publication of CN115640520A publication Critical patent/CN115640520A/zh
Application granted granted Critical
Publication of CN115640520B publication Critical patent/CN115640520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本公开提供了跨语言跨模态模型的预训练方法、设备和存储介质,涉及深度学习、自然语言处理、计算机视觉等人工智能技术领域,可应用于智慧城市场景。具体实现方案为:在结合训练数据对跨语言跨模态模型进行预训练的过程中,根据图文配对数据和图文非配对数据,对跨语言跨模态模型进行预训练,并根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练,由此,提出了一种对跨语言跨模态模型进行预训练的新方式,从而可使得所预训练出的跨语言跨模态模型可以满足跨语言跨模态场景的需求。

Description

跨语言跨模态模型的预训练方法、设备和存储介质
技术领域
本公开涉及计算机技术领域,具体涉及深度学习、自然语言处理、计算机视觉等人工智能技术领域,可应用于智慧城市场景,尤其涉及跨语言跨模态模型的预训练方法、设备和存储介质。
背景技术
大规模的预训练模型由于其强大的泛化能力和对规模数据的高效利用而得到了广泛关注。相关技术中的预训练方法大多仅用于单模态场景,然而,对于面向多语言以及多模态的场景中,如何得到一个可面向多语言的多模态模型是目前亟需的技术问题。
发明内容
本公开提供了一种用于跨语言跨模态模型的预训练方法、设备和存储介质。
根据本公开的一方面,提供了一种跨语言跨模态模型的预训练方法,包括:获取训练数据,其中,所述训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,所述文本配对数据中两个文本的语义相同,而语言类型是不同的,所述文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的;根据所述图文配对数据和所述图文非配对数据,对跨语言跨模态模型进行预训练;根据所述文本配对数据和所述文本非配对数据,对所述跨语言跨模态模型进行预训练。
根据本公开的另一方面,提供了一种跨语言跨模态模型的预训练装置,包括:获取模块,用于获取训练数据,其中,所述训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,所述文本配对数据中两个文本的语义相同,而语言类型是不同的,所述文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的;第一预训练模块,用于根据所述图文配对数据和所述图文非配对数据,对跨语言跨模态模型进行预训练;第二预训练模块,用于根据所述文本配对数据和所述文本非配对数据,对所述跨语言跨模态模型进行预训练。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的跨语言跨模态模型的预训练方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的跨语言跨模态模型的预训练方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本公开的跨语言跨模态模型的预训练方法。
上述申请中的一个实施例具有如下优点或有益效果:
在结合训练数据对跨语言跨模态模型进行预训练的过程中,根据图文配对数据和图文非配对数据,对跨语言跨模态模型进行预训练,并根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练,由此,提出了一种对跨语言跨模态模型进行预训练的新方式,从而可使得所预训练出的跨语言跨模态模型可以满足跨语言跨模态场景的需求。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第一实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是根据本公开第七实施例的示意图;
图8是根据本公开第八实施例的示意图;
图9是根据本公开第九实施例的示意图;
图10是根据本公开第十实施例的示意图;
图11是跨语言跨模态模型的内部结构示例图;
图12是基于CLCL任务和CMCL任务对对图像编码器和跨语言编码器进行预训练的示例图;
图13是基于ITM任务和MLM任务对跨语言跨模态编码器进行预训练的示例图;
图14是基于PLM任务、vPLM任务、mMMT任务和MT任务对图像编码器、跨语言编码器、跨语言跨模态编码器和跨语言跨模态解码器进行预训练的示例图。
图15是根据本公开第是第十一实施例的示意图;
图16是根据本公开第是第十二实施例的示意图;
图17是用来实现本公开实施例的跨语言跨模态模型的预训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的跨语言跨模态模型的预训练方法、设备和存储介质。
图1是根据本公开第一实施例的示意图。
如图1所示,该跨语言跨模态模型的预训练方法可以包括:
步骤101,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
其中,需要说明的是,上述跨语言跨模态模型的预训练方法的执行主体为跨语言跨模态模型的预训练装置,该跨语言跨模态模型的预训练装置可以由软件和/或硬件的方式实现,该实施例中的跨语言跨模态模型的预训练装置可以配置在电子设备中.
其中,本示例实施例中电子设备可以包括终端设备和服务器等设备,该实施例对电子设备不作限定。
作为一种示例,图文配对数据中的文本是对图文配对数据中的图像进行描述的,也就是说,图文配对数据中的文本是图文配对数据中图像对应的图像描述文本。即,图文非配对数据中的图像与文本是匹配的。其中,可以理解的是,本示例中的图文配对数据可以是多个。多个图文配对数据中文本的语言类型可以为任意语言类型,比如,英文,中文等。
其中,图文非配对数据中的文本并不是对图文非配对数据中的图像进行描述。也就是说,图文非配对数据中的文本不是图文非配对数据中图像对应的图像描述文本。即,图文非配对数据中的图像与文本是不匹配的。其中,可以理解的是,本示例中的图文非配对数据可以是多个。多个图文非配对数据中文本的语言类型可以为任意语言类型,比如,英文,中文等。
其中,图文非配对数据中的文本和图文配对数据中的文本的语言类型可以是相同的,也可以是不同的。例如,图文配对数据中的文本和图文配对数据中的文本的语言类型可以均为第一语言(例如,中文);例如,图文配对数据中的文本和图文配对数据中的文本的语言类型可以均为第而语言(例如,英文);例如,图文配对数据中的文本的语言类型可以为第一语言(例如,中文),图文非配对数据中的文本的语言类型可以为第二语言(例如,英文)。
可以理解的是,图文配对数据中的图像和图文非配对数据中的图像可以是相同的一个图像,也可以是不同的图像,该实施例对此不作具体限定。
其中,文本配对数据中的一个文本的语言类型可以为第一语言,文本配对数据中另一个文本的语言类型可以为第二语言,第一语言和第二语言的语言类型不同,例如,第一语言可以为中文,第二语言可以为英文。
其中,文本非配对数据中的一个文本的语言类型可以为第一语言,文本非配对数据中另一个文本的语言类型可以为第二语言,第一语言和第二语言的语言类型不同,例如,第一语言可以为中文,第二语言可以为英文。
其中,需要说明的是,本示例中均以第一语言为中文,第二语言为英文为例进行示例性描述。
步骤102,根据图文配对数据和图文非配对数据,对跨语言跨模态模型进行预训练。
在一些示例性的实施方式中,可基于跨模态对比学习的方式,基于根据图文配对数据和图文非配对数据,对跨语言跨模态模型进行预训练。
作为一种示例性的实施方式中,可利用跨语言跨模态模型分别确定出图文配对数据中图像的图像特征和文本的文本特征,以及图文非配对数据中图像的图像特征和文本的文本特征,然后,基于图文配对数据中图像的图像特征和文本的文本特征,确定出图文配对数据中图像和文本之间的第一距离,并根据图文非配对数据中图像的图像特征和文本的文本特征,确定出图文非配对数据中图像和文本之间的第二距离,并基于第一距离和第二距离对跨语言跨模态模型进行预训练。
具体地,基于第一距离和第二距离,确定出跨模态对比损失值,并基于跨模态对比损失值对跨语言跨模态模型进行预训练。
作为一种示例,可根据第一距离和第二距离的比值,确定出跨模态对比损失值。
其中,对跨语言跨模态模型进行预训练的训练目标是:最大化图文非配对数据中图像和文本之间的第二距离,最小化图文配对数据中图像和文本之间的第一距离。
其中,本示例中的第一距离和第二距离可以均为汉明距离,可以理解的是,距离越小表示对应两者之间越接近,距离越大表示对应两者之间的差异越大。
步骤103,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
在一些示例性的实施方式中,可基于跨语言对比学习的方式,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
作为一种示例性的实施方式中,可利用跨语言跨模态模型分别确定出文本配对数据中两个文本各自对应的文本特征,以及文本非配对数据中两个文本各自对应的文本特征,然后,基于文本配对数据中两个文本各自对应的文本特征,确定出文本配对数据中两个文本之间的第三距离,并根据文本非配对数据中两个文本各自对应的文本特征,确定出文本非配对数据中两个文本之间的第四距离,并基于第三距离和第四距离对跨语言跨模态模型进行预训练。
具体地,基于第三距离和第四距离,确定出跨模态对比损失值,并基于跨模态对比损失值对跨语言跨模态模型进行预训练。
作为一种示例,可根据第三距离和第四距离的比值,确定出跨模态对比损失值。
其中,对跨语言跨模态模型进行预训练的训练目标是:最大化文本非配对数据两个文本之间的第四距离,最小化文本配对数据中两个文本之间的第三距离。
其中,需要说明的是,步骤103和步骤104的执行不分先后顺序,该实施例对此不作具体限定。
本公开实施例的跨语言跨模态模型的预训练方法,在结合训练数据对跨语言跨模态模型进行预训练的过程中,根据图文配对数据和图文非配对数据,对跨语言跨模态模型进行预训练,并根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练,由此,提出了一种对跨语言跨模态模型进行预训练的新方式,从而可使得所预训练出的跨语言跨模态模型可以满足跨语言跨模态场景的需求。
图2是根据本公开第二实施例的示意图。该实施例对图1所实施例的进一步细化或者优化。其中,本示例中的跨语言跨模态模型可以包括跨语言编码器和图像编码器,其中,图像编码器用于对输入的图像进行编码,以得到对应图像的图像特征。其中,跨语言编码器可以输入的各种语言类型的文本进行编码,以得到对应文本的文本特征。
如图2所示,该跨语言跨模态模型的预训练方法可以包括:
步骤201,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
其中,关于步骤201的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
步骤202,将图文配对数据中的文本输入到跨语言编码器中,以得到图文配对数据中的文本的第一文本特征,并将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中的图像的第一图像特征。
步骤203,将图文非配对数据中的文本输入到跨语言编码器中,以得到图文非配对数据中文本的第二文本特征,并将图文非配对数据中的图像输入到图像编码器,以得到图文非配对数据中图像的第二图像特征。
步骤204,根据第一图像特征和第一文本特征确定图文配对数据中图像和文本之间的第一距离,并根据第二图像特征和第二文本特征确定图文非配对数据中图像和文本之间的第二距离。
步骤205,根据第一距离和第二距离,对跨语言跨模态模型进行预训练。
在一些示例性的实施方式中,可根据第一距离和第二距离,确定跨语言跨模态模型的跨模态对比损失值;根据跨模态对比损失值,对跨语言跨模态模型进行预训练。
在一些示例性的实施方式中,根据跨模态对比损失值,对跨语言跨模态模型的模型参数进行调整,直至跨模态对比损失值满足预设条件。
其中,预设条件即为跨语言跨模态模型训练结束的条件。预设条件可以根据实际需求进行相应的配置。例如,跨模态对比损失值满足预设条件可以是跨模态对比损失值小于对应的预设损失值,也可以是跨模态对比损失值的变化趋近于平稳,即相邻两次或多次训练对应的跨模态对比损失值的差值小于对应的设定值,也就是跨模态对比损失值基本不再变化。
步骤206,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
其中,需要说明的是,关于步骤206的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
在本示例中,通过跨模态对比学习的方式,对跨语言跨模态模型进行预训练,从而使得所训练出的跨语言跨模态模型能够对跨模态的任务进行处理,提高了所训练出的跨语言跨模态模型处理任务的泛化能力。
图3是根据本公开第三实施例的示意图。其中,本示例中的跨语言跨模态模型可以包括跨语言编码器和图像编码器,其中,图像编码器用于对输入的图像进行编码,以得到对应图像的图像特征。其中,跨语言编码器可以输入的各种语言类型的文本进行编码,以得到对应文本的文本特征。
如图3所示,该跨语言跨模态模型的预训练方法可以包括:
步骤301,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
其中,需要说明的是,关于步骤301的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
步骤302,根据图文配对数据和图文非配对数据,对跨语言跨模态模型进行预训练。
其中,需要说明的是,关于步骤302的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
步骤303,将文本配对数据输入到跨语言编码器中,以得到文本配对数据中两个文本各自对应的文本特征。
步骤304,将文本非配对数据输入到跨语言编码器中,以得到文本非配对数据中两个文本各自对应的文本特征。
步骤305,根据文本配对数据中两个文本各自对应的文本特征,确定所文本配对数据中两个文本之间的第三距离,并根据文本非配对数据中两个文本各自对应的文本特征,确定所文本非配对数据中两个文本之间的第四距离。
步骤306,根据第三距离和第四距离,对跨语言跨模态模型进行预训练。
在一些示例性的实施方式中,根据第三距离和第四距离,确定跨语言跨模态模型的跨语言对比损失值;根据跨语言对比损失值,对跨语言跨模态模型进行预训练。
在一些示例性的实施方式中,根据跨语言对比损失值,对跨语言跨模态模型的模型参数进行调整,直至跨语言对比损失值满足预设条件。
其中,预设条件即为跨语言跨模态模型训练结束的条件。预设条件可以根据实际需求进行相应的配置。例如,跨语言对比损失值满足预设条件可以是跨语言对比损失值小于对应的预设损失值,也可以是跨语言对比损失值的变化趋近于平稳,即相邻两次或多次训练对应的跨语言对比损失值的差值小于对应的设定值,也就是跨语言对比损失值基本不再变化。
也就是说,在本示例中,通过跨语言对比学习的方式,对跨语言跨模态模型进行预训练,从而使得训练出的跨语言跨模态模型可对跨语言的任务进行处理,提高了跨语言跨模态模型的任务处理性能。
基于上述任意一个实施例的基础上,为了使得跨语言跨模态模型能够处理面向多种语言的图文匹配任务,在一些示例性的实施方式中,本示例中的跨语言跨模态模型除了包括跨语言编码器和图像编码器之外,还可以包括跨语言跨模态编码器,对应地,可基于图文匹配任务对跨语言跨模态编码器进行预训练,下面结合图4对该过程进行示例性描述。
图4是根据本公开第四实施例的示意图。
如图4所示,该跨语言跨模态模型的预训练方法可以包括:
步骤401,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
其中,本示例中的训练数据还包括:图文配对数据对应的第一实际标签,第一实际标签用于表示图文配对数据中的图像和文本是配对的。
步骤402,将图文配对数据中的文本输入到跨语言编码器中,以得到图文配对数据中的文本的第一文本特征,并将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中的图像的第一图像特征。
步骤403,将图文非配对数据中的文本输入到跨语言编码器中,以得到图文非配对数据中文本的第二文本特征,并将图文非配对数据中的图像输入到图像编码器,以得到图文非配对数据中图像的第二图像特征。
步骤404,根据第一图像特征和第一文本特征确定图文配对数据中图像和文本之间的第一距离,并根据第二图像特征和第二文本特征确定图文非配对数据中图像和文本之间的第二距离。
步骤405,根据第一距离和第二距离,对跨语言跨模态模型进行预训练。
步骤406,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
步骤407,将第一图像特征和第一文本特征输入到跨语言跨模态编码器中,以得到图文配对数据的第一融合特征。
步骤408,根据第一融合特征,确定图文配对数据的第一预测标签。
在一些示例性的实施方式中,可根据第一融合特征,对图文配对数据进行标签分类,以得到图文配对数据的第一预测标签。
步骤409,根据第一预测标签和第一实际标签,对跨语言跨模态编码器进行预训练。
在一些示例性的实施方式中,为了可以准确对跨语言跨模态编码器进行预训练,根据第一预测标签和第一实际标签,对跨语言跨模态编码器进行预训练的一种可能实现方式为:采用交叉熵损失函数,确定第一预测标签和第一实际标签的第一损失值;根据第一损失值和第一损失值阈值之间的大小比较结果,对跨语言跨模态编码器进行预训练。
在一些示例中,在第一损失值和第一损失值阈值之间的大小比较结果为:第一损失值大于或者等于第一损失值阈值的情况下,对跨语言跨模态编码器的参数进行调整;在第一损失值和第一损失值阈值之间的大小比较结果为:第一损失值小于第一损失值阈值的情况下,则停止对跨语言跨模态编码器的参数进行调整,即,得到了满足结束条件的跨语言跨模态编码器。
其中,第一损失值阈值是在跨语言跨模态模型的预训练装置中预先设置的,在实际应用中,可根据实际需求设置该第一损失值阈值的大小,该实施例对此不作具体限定。
在本示例中,在基于跨语言对比学习以及跨模态对比学习的方式,对跨语言跨模态编码器进行预训练后,还可以图文匹配任务对跨语言跨模态模型进行预训练,从而使得所训练出的跨语言跨模态模型能够处理图文匹配任务,提高所训练出的跨语言跨模态模型的泛化能力,能更好的支持多样的下游任务的训练。
基于上述任意一个实施例的基础上,为了使得跨语言跨模态模型能够处理面向多种语言的图文匹配任务,在一些示例性的实施方式中,本示例中的跨语言跨模态模型除了包括跨语言编码器和图像编码器之外,还可以包括跨语言跨模态编码器;其中,跨语言跨模态编码器用于对跨语言编码器的输出结果和图像编码器的输出结果进行融合,以得到融合特征。对应地,可基于图文匹配任务对跨语言跨模态编码器进行预训练,下面结合图5对该过程进行示例性描述。
图5是根据本公开第五实施例的示意图。
如图5所示,该跨语言跨模态模型的预训练方法可以包括:
步骤501,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
其中,本示例中的训练数据还包括:图文非配对数据对应的第二实际标签,第二实际标签用于表示图文非配对数据中的图像和文本是非配对的。
步骤502,将图文配对数据中的文本输入到跨语言编码器中,以得到图文配对数据中的文本的第一文本特征,并将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中的图像的第一图像特征。
步骤503,将图文非配对数据中的文本输入到跨语言编码器中,以得到图文非配对数据中文本的第二文本特征,并将图文非配对数据中的图像输入到图像编码器,以得到图文非配对数据中图像的第二图像特征。
步骤504,根据第一图像特征和第一文本特征确定图文配对数据中图像和文本之间的第一距离,并根据第二图像特征和第二文本特征确定图文非配对数据中图像和文本之间的第二距离。
步骤505,根据第一距离和第二距离,对跨语言跨模态模型进行预训练。
步骤506,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
步骤507,将第二图像特征和第二文本特征输入到跨语言跨模态编码器中,以得到图文配对数据的第二融合特征。
步骤508,根据第二融合特征,确定图文非配对数据的第二预测标签。
在一些示例性的实施方式中,可根据第二融合特征对图文非配对数据进行标签分类,以得到图文非配对数据的第二预测标签。
步骤509,根据第二预测标签和第二实际标签,对跨语言跨模态模型进行预训练。
在一些示例性的实施方式中,可根据第二预测标签和第二实际标签,确定对应的损失值,并根据损失值对跨语言跨模态模型进行预训练,直至损满足预设条件。
其中,预设条件即为跨语言跨模态模型训练结束的条件。预设条件可以根据实际需求进行相应的配置。例如,损失值满足预设条件可以是损失值小于对应的预设损失值,也可以是损失值的变化趋近于平稳,即相邻两次或多次训练对应的损失值的差值小于对应的设定值,也就是损失值基本不再变化。
在另一些示例性的实施方式中,为了可以准确对跨语言跨模态模型进行预训练,根据第二预测标签和第二实际标签,对跨语言跨模态模型进行预训练的一种可能实现方式为:采用交叉熵损失函数,确定第二预测标签和第二实际标签的第二损失值;根据第二损失值和第二损失值阈值之间的大小比较结果,对跨语言跨模态编码器进行预训练。
在一些示例中,在第二损失值和第二损失值阈值之间的大小比较结果为:第二损失值大于或者等于第二损失值阈值的情况下,对跨语言跨模态编码器的参数进行调整;在第二损失值和第二损失值阈值之间的大小比较结果为:第二损失值小于第二损失值阈值的情况下,则停止对跨语言跨模态编码器的参数进行调整,即,得到了满足结束条件的跨语言跨模态编码器。
其中,第二损失值阈值是在跨语言跨模态模型的预训练装置中预先设置的,在实际应用中,可根据实际需求设置该第二损失值阈值的大小,该实施例对此不作具体限定。
在本示例中,在基于跨语言对比学习以及跨模态对比学习的方式,对跨语言跨模态编码器进行预训练后,还可以根据图文非配对数据对跨语言跨模态模型进行预训练,从而使得所训练出的跨语言跨模态模型能够更加准确对图文是否匹配进行判断,进一步提高了跨语言跨模态模型的性能。
基于上述任意一个实施例的基础上,为了进一步提升跨语言跨模态模型的泛化能力,能更好的支持多样的下游任务的训练,还可以基于掩码语言建模任务对跨语言跨模态模型进行预训练,为此本公开还提出了一种跨语言跨模态模型的预训练方法,下面结合图6对该实施例的跨语言跨模态模型的预训练方法进行示例性描述。其中,本示例中的跨语言跨模态模型可以包括跨语言跨编码器,图像编码器和跨语言跨模态编码器,其中,跨语言跨模态编码器分别与跨语言跨编码器,图像编码器。
图6是根据本公开第六实施例的示意图。
如图6所示,该跨语言跨模态模型的预训练方法可以包括:
步骤601,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
其中,本示例中的训练数据还包括:图文非配对数据对应的第二实际标签,第二实际标签用于表示图文非配对数据中的图像和文本是非配对的。
步骤602,将图文配对数据中的文本输入到跨语言编码器中,以得到图文配对数据中的文本的第一文本特征,并将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中的图像的第一图像特征。
步骤603,将图文非配对数据中的文本输入到跨语言编码器中,以得到图文非配对数据中文本的第二文本特征,并将图文非配对数据中的图像输入到图像编码器,以得到图文非配对数据中图像的第二图像特征。
步骤604,根据第一图像特征和第一文本特征确定图文配对数据中图像和文本之间的第一距离,并根据第二图像特征和第二文本特征确定图文非配对数据中图像和文本之间的第二距离。
步骤605,根据第一距离和第二距离,对跨语言跨模态模型进行预训练。
步骤606,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
步骤607,对图文配对数据中文本的待掩码字符进行掩码处理,以得到掩码文本。
步骤608,将掩码文本输入到跨语言编码器中,以得到掩码文本的第三文本特征。
步骤609,将第一图像特征和第三文本特征输入到跨语言跨模态编码器中,以得到第三融合特征。
步骤610,获取第三融合特征所确定出的预测掩码字符。
步骤611,根据预测掩码字符和待掩码字符,对跨语言跨模态模型进行预训练。
其中,可以理解的是,通过掩码语言建模任务对跨语言跨模态模型进行预训练的具体过程如步骤607至步骤611。
在本示例中,通过掩码语言建模任务对跨语言跨模态模型进行预训练,从而使得预训练出的跨语言跨模态模型可以对能够处理掩码语言建模任务,进一步提升了跨语言跨模态模型的泛化能力,能更好的支持多样的下游任务的训练。
基于上述任意一个实施例的基础上,在一些示例性的实施方式中,本示例中的跨语言跨模态模型可以包括跨语言编码器、图像编码器、跨语言跨模态编码器和跨语言跨模态解码器,为了进一步提高跨语言跨模态模型的泛化能力,还可以结合视觉前缀语言建模任务对跨语言跨模态模型进行预训练,下面结合图7对视觉前缀语言建模任务对跨语言跨模态模型进行预训练的过程进行示例性描述。
图7是根据本公开第七实施例的示意图。
如图7所示,该跨语言跨模态模型的预训练方法可以包括:
步骤701,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
步骤702,将图文配对数据中的文本输入到跨语言编码器中,以得到图文配对数据中的文本的第一文本特征,并将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中的图像的第一图像特征。
步骤703,将图文非配对数据中的文本输入到跨语言编码器中,以得到图文非配对数据中文本的第二文本特征,并将图文非配对数据中的图像输入到图像编码器,以得到图文非配对数据中图像的第二图像特征。
步骤704,根据第一图像特征和第一文本特征确定图文配对数据中图像和文本之间的第一距离,并根据第二图像特征和第二文本特征确定图文非配对数据中图像和文本之间的第二距离。
步骤705,根据第一距离和第二距离,对跨语言跨模态模型进行预训练。
步骤706,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
步骤707,从图文配对数据的文本中获取前N个字符作为前缀文本片段,并将图文配对数据的文本中第N+1个字符开始的剩余字符作为后缀文本片段,其中,N为大于1,并且小于M的整数,其中,M为图文配对数据的文本中字符的总数。
步骤708,将前缀文本片段输入到跨语言编码器,以得到前缀文本片段的第四文本特征,并将第四文本特征和第一图像特征输入到跨语言跨模态编码器中,以得到第四融合特征。
步骤709,将第四融合特征输入到跨语言跨模态解码器中,以得到第一预测文本。
步骤710,将第一预测文本和后缀文本片段,对跨语言跨模态模型进行预训练。
在本示例中,通过步骤707至步骤710,基于图文配对数据中文本的前缀文本以及后缀文本,对跨语言跨模态模型进行了视觉前缀语言建模任务的预训练,从而进一步提高了所预训练出的跨语言跨模态模型的泛化能力,能更好的支持多样的下游任务的训练。
基于上述任意一个实施例的基础上,在一些示例性的实施方式中,本示例中的跨语言跨模态模型可以包括跨语言编码器、图像编码器、跨语言跨模态编码器和跨语言跨模态解码器,为了进一步提高跨语言跨模态模型的泛化能力,还可以结合前缀语言建模任务对跨语言跨模态模型进行预训练,下面结合图8对前缀语言建模任务对跨语言跨模态模型进行预训练的过程进行示例性描述。
图8是根据本公开第八实施例的示意图。
如图8所示,该跨语言跨模态模型的预训练方法可以包括:
步骤801,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
步骤802,将图文配对数据中的文本输入到跨语言编码器中,以得到图文配对数据中的文本的第一文本特征,并将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中的图像的第一图像特征。
步骤803,将图文非配对数据中的文本输入到跨语言编码器中,以得到图文非配对数据中文本的第二文本特征,并将图文非配对数据中的图像输入到图像编码器,以得到图文非配对数据中图像的第二图像特征。
步骤804,根据第一图像特征和第一文本特征确定图文配对数据中图像和文本之间的第一距离,并根据第二图像特征和第二文本特征确定图文非配对数据中图像和文本之间的第二距离。
步骤805,根据第一距离和第二距离,对跨语言跨模态模型进行预训练。
步骤806,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
步骤807,从图文配对数据的文本中获取前N个字符作为前缀文本片段,并将图文配对数据的文本中第N+1个字符开始的剩余字符作为后缀文本片段,其中,N为大于1,并且小于M的整数,其中,M为图文配对数据的文本中字符的总数。
步骤808,将前缀文本片段输入到跨语言编码器,以得到前缀文本片段的第五文本特征。
步骤809,将第五文本特征输入到跨语言跨模态编码器中,以得到第六文本特征。
步骤810,将第六文本特征输入到跨语言跨模态解码器中,以得到第二预测文本。
步骤811,将第二预测文本和后缀文本片段,对跨语言跨模态模型进行预训练。
在本示例中,通过步骤807至步骤811,基于图文配对数据中文本的前缀文本、后缀文本以及图文配对数据中的图像,对跨语言跨模态模型进行了前缀语言建模任务的预训练,从而进一步提高了所预训练出的跨语言跨模态模型的泛化能力,能更好的支持多样的下游任务的训练。
基于上述任意一个实施例的基础上,在一些示例性的实施方式中,本示例中的跨语言跨模态模型可以包括跨语言编码器、图像编码器、跨语言跨模态编码器和跨语言跨模态解码器,为了进一步提高跨语言跨模态模型的泛化能力,还可以采用多模态机器翻译任务,基于图文配对数据以及对应样本文本,对跨语言跨模态模型进行预训练,其中,样本文本是指与该图文配对数据中的文本语义相同但语言类型的不同的文本。下面结合图9对图文配对数据以及对应样本文本,对跨语言跨模态模型进行预训练对跨语言跨模态模型进行预训练的过程进行示例性描述。
图9是根据本公开第九实施例的示意图。
如图9所示,该跨语言跨模态模型的预训练方法可以包括:
步骤901,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
其中,本示例中的训练数据还包括:与图文配对数据对应的样本文本,其中,样本文本和图文配对数据中的文本均是对图文配对数据中的图像进行描述,而样本文本和图文配对数据中的文本的语言类型不同。
步骤902,将图文配对数据中的文本输入到跨语言编码器中,以得到图文配对数据中的文本的第一文本特征,并将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中的图像的第一图像特征。
步骤903,将图文非配对数据中的文本输入到跨语言编码器中,以得到图文非配对数据中文本的第二文本特征,并将图文非配对数据中的图像输入到图像编码器,以得到图文非配对数据中图像的第二图像特征。
步骤904,根据第一图像特征和第一文本特征确定图文配对数据中图像和文本之间的第一距离,并根据第二图像特征和第二文本特征确定图文非配对数据中图像和文本之间的第二距离。
步骤905,根据第一距离和第二距离,对跨语言跨模态模型进行预训练。
步骤906,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
步骤907,对图文配对数据中文本的至少一个词进行掩码处理,以得到掩码文本。
步骤908,将掩码文本输入到跨语言编码器中,以得到掩码文本的第七文本特征。
步骤909,将第一图像特征和第七文本特征输入到跨语言跨模态编码器中,以得到第五融合特征。
步骤910,将第五融合特征输入到跨语言跨模态解码器中,以得到第三预测文本,其中,第三预测文本和图文配对数据中的文本的语义相同,第三预测文本和样本文本的语言类型相同。
步骤911,根据第三预测文本和样本文本,对跨语言跨模态模型进行预训练。
在本示例中,通过步骤907至步骤911,基于图文配对数据以及对应样本文本,对跨语言跨模态模型进行了多模态机器翻译任务的预训练,进一步提高了跨语言跨模态模型的泛化能力。
在一些示例性的实施方式中,跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,训练数据还包括:与图文配对数据对应的样本文本,其中,样本文本和图文配对数据中的文本均是对图文配对数据中的图像进行描述,而样本文本和图文配对数据中的文本的语言类型不同。为了进一步提高跨语言跨模态模型的泛化能力,还可以采用多模态机器翻译任务,基于图文配对数据以及对应样本文本,对跨语言跨模态模型进行预训练。其中,示例性过程为:将第一文本特征和第一图像特征输入到跨语言跨模态编码器中,以得到第六融合特征;将第六融合特征输入到跨语言跨模态解码器中,以得到第五预测文本,其中,第五预测文本和图文配对数据中的文本的语义相同,第五预测文本和样本文本的语言类型相同;根据第五预测文本和样本文本,对跨语言跨模态模型进行预训练。
也就是说,在一些示例中,结合图文配对数据以及对应样本文本,对跨语言跨模态模型进行预训练的另一种可能实现方式为:将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中图像的图像特征,并将图文配对数据中的文本输入到文本编码器中,以得到图文配对数据中文本的文本特征,并将文本特征和图像特征输入到跨语言跨模态编码器中,以得到对应的融合特征,并将融合特征输入到跨语言跨模态解码器中,以得到对应的预测文本,并基于预测文本和样本文本,对跨语言跨模态模型进行预训练。
基于上述任意一个实施例的基础上,在一些示例性的实施方式中,本示例中的跨语言跨模态模型可以包括跨语言编码器、图像编码器、跨语言跨模态编码器和跨语言跨模态解码器,为了进一步提高跨语言跨模态模型的泛化能力,还可以采用机器翻译任务,基于文本配对数据,对跨语言跨模态模型进行预训练。下面结合图10采用机器翻译任务,基于文本配对数据,对跨语言跨模态模型进行预训练的过程进行示例性描述。
图10是根据本公开第十实施例的示意图。
如图10所示,该跨语言跨模态模型的预训练方法可以包括:
步骤1001,获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
步骤1002,将图文配对数据中的文本输入到跨语言编码器中,以得到图文配对数据中的文本的第一文本特征,并将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中的图像的第一图像特征。
步骤1003,将图文非配对数据中的文本输入到跨语言编码器中,以得到图文非配对数据中文本的第二文本特征,并将图文非配对数据中的图像输入到图像编码器,以得到图文非配对数据中图像的第二图像特征。
步骤1004,根据第一图像特征和第一文本特征确定图文配对数据中图像和文本之间的第一距离,并根据第二图像特征和第二文本特征确定图文非配对数据中图像和文本之间的第二距离。
步骤1005,根据第一距离和第二距离,对跨语言跨模态模型进行预训练。
步骤1006,根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
步骤1007,将文本配对数据中的一个文本输入到跨语言编码器中,以得到第八文本特征。
步骤1008,将第八文本特征输入到跨语言跨模态编码器中,以得到第九文本特征。
步骤1009,将第九文本特征输入到跨语言跨模态解码器中,以得到第四预测文本。
其中,第四预测文本和文本配对数据中的另一个文本的语言类型是相同的。
步骤1010,根据第四预测文本和文本配对数据中的另一个文本,对跨语言跨模态模型进行预训练。
在本示例中,将文本配对数据中的一个文本作为跨语言跨模态模型的输入,并获取跨语言跨模态模型输出的预测文本,并基于预测文本和文本配对数据中的另一个文本,对跨语言跨模态模型进行预训练,从而基于机器翻译任务实现了对跨语言跨模态模型进行预先训练,进一步提高跨语言跨模态模型的泛化能力。
为了可以清楚理解本公开,下面结合图11、图12、图13和图14对该实施例的跨语言跨模态模型的预训练方法进行示例性描述。
其中,图11是本示例中跨语言跨模态模型的内部结构示例图,通过图11可以看出,本示例中跨语言跨模态模型可以包括图像编码器、跨语言编码器、跨语言跨模态编码器和跨语言跨模态解码器,其中,跨语言跨模态编码器分别与图像编码器和跨语言编码器连接,也就是说,图像编码器和跨语言编码器的输出是跨语言跨模态编码器的输入。对应地,跨语言跨模态编码器的输出是跨语言跨模态解码器的输入。
在本示例中,结合跨语言对比学习(Cross-Lingual Contrastive Leaning,CLCL)任务和跨模态对比学习(Cross-modal Contrastive Leaning,CMCL)任务对图像编码器和跨语言编码器进行预训练的示例图,如图12所示,其中,图12中,以第一语言为中文,第二语言为英文,并且,以第一语言的文本A为“一个人骑着一匹棕色的马”,以第二语言的文本B为:“A manrides a brown horse”为例进行示例。
其中,关于基于跨语言对比学习(Cross-Lingual Contrastive Leaning,CLCL)任务对跨语言编码器进行预训练的过程,可参见本公开实施例的相关描述,此处不再赘述。
在本示例中,可基于图文匹配(Image Text Matching,ITM)任务和掩码建模(Masked Language Modelling,MLM)任务对跨语言跨模态编码器进行预训练。其中,基于ITM任务和MLM任务对跨语言跨模态编码器进行预训练的示例图,如图13所示。在图13中,对于ITM任务,假设向跨语言跨模态模型输入的图文对是匹配的,并且,跨语言跨模态模型输出的预测结果也是图文对是匹配的。图文对中的图像是图像A以及对应的描述文本为“Aman rides a brown horse”。对于MLM任务而言,图文对中的图像是图像A以及对应的掩码文本为“A man rides a brown[mask]”,对应基于跨语言跨模态编码器所输出的结果预测出的文本“horse”。
其中,基于图文匹配(Image Text Matching,ITM)任务对跨语言跨模态编码器进行预训练的示例性过程为:从训练数据集合中随机一个图文对,这个图文对,并将该图文对输入到跨语言跨模态模型中,对应的,跨语言跨模态模型中的图像编码器对图文对中的图像进行编码,以得到对应图像特征,对应的,跨语言跨模态模型中的跨语言编码器对图文对中的文本进行编码,以得到对应文本特征,对应地,跨语言跨模态模型中的跨语言跨模态编码器对图像特征和文本特征进行融合,以得到融合特征,对应地,基于融合特征确定出该图文对的预测标签,并基于预测标签和图文对对应的实际标签,对跨语言跨模态编码器进行预训练,直至预测标签和实际标签一致。其中,该图文对对应的实际标签用于表示图文对中的图像和文本匹配,或者不匹配。其中,可以理解的是,图文对中的图像和文本匹配表示图文对的文本是对图文对中的图像进行描述的文本;图文对中的图像和文本不匹配表示图文对的文本不是对图文对中的图像进行描述的文本。
在本示例中,还可以基于前缀语言建模(Prefix Language Modeling,PLM)任务、可视化前缀语言建模(visual Prefix Language Modeling,vPLM)任务、多模态机器翻译(Multimodal Machine Translation,mMMT)任务和机器翻译(Machine translation,MT)任务,对图像编码器、跨语言编码器、跨语言跨模态编码器和跨语言跨模态解码器进行预训练。其中,基于PLM任务、vPLM任务、mMMT任务和MT任务对图像编码器、跨语言编码器、跨语言跨模态编码器和跨语言跨模态解码器进行预训练的示例图,如图14所示,在图14中,对于MT任务而言,向跨语言跨模态模型输入的文本为“A man rides a brown horse”,跨语言跨模态模型的输出文本为“一个人骑着一匹棕色的马”为例进行示例。对于mMMT任务而言,向跨语言跨模态模型输入的是图像A和图像A对应的描述文本“A man rides a[mask]horse”对应地,跨语言跨模态模型输出的是“一个人骑着一匹棕色的马”。对于PLM任务而言,向跨语言跨模态模型输入的是“A man rides”,跨语言跨模态模型输出的是“a brown horse”;对于vPLM任务而言,向跨语言跨模态模型输入的是图像A和图像A对应的描述文本的前缀文本“A man rides”,对应地跨语言跨模态模型输出的是“a brown horse”。
其中,需要说明的是,本示例中的上述PLM任务、vPLM任务、mMMT任务和MT任务分别是对独立的,可采用并行、串行或者交替的方式基于上述PLM任务、vPLM任务、mMMT任务和MT任务对图像编码器、跨语言编码器、跨语言跨模态编码器和跨语言跨模态解码器进行预训练,该实施例对此不作具体限定。
其中,可以理解的是,可基于本示例中所提出的所有任务,可采用并行、串行或者交替的方式对跨语言跨模态模型进行预训练,也可以基于本示例中所提出的部分任务,采用并行、串行或者交替的方式对跨语言跨模态模型进行预训练,该实施例对此不作具体限定。
为了实现上述实施例,本公开实施例还提供一种跨语言跨模态模型的预训练装置。
图15是根据本公开第是第十一实施例的示意图。
如图15所示,该跨语言跨模态模型的预训练装置150可以包括:获取模块1501、第一预训练模块1502和第二预训练模块1503,其中:
获取模块1501,用于获取训练数据,其中,训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,文本配对数据中两个文本的语义相同,而语言类型是不同的,文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的。
第一预训练模块1502,用于根据图文配对数据和图文非配对数据,对跨语言跨模态模型进行预训练。
第二预训练模块1503,用于根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练。
其中,需要说明的是,前述对跨语言跨模态模型的预训练方法实施例的解释说明也适用于本实施例,本实施对此不再赘述。
本公开实施例的跨语言跨模态模型的预训练装置,在结合训练数据对跨语言跨模态模型进行预训练的过程中,根据图文配对数据和图文非配对数据,对跨语言跨模态模型进行预训练,并根据文本配对数据和文本非配对数据,对跨语言跨模态模型进行预训练,由此,提出了一种对跨语言跨模态模型进行预训练的新方式,从而可使得所预训练出的跨语言跨模态模型可以满足跨语言跨模态场景的需求。
在本公开的一个实施例中,如图16所示,该跨语言跨模态模型的预训练装置可以包括:获取模块1601、第一预训练模块1602、第二预训练模块1603、第三预训练模块1604、第四预训练模块1605、第五预训练模块1606、第六预训练模块1607、第七预训练模块1608、第八预训练模块1609、第九预训练模块1610和第十预训练模块1611,其中:
其中,关于获取模块1601的详细描述请参考图15所示实施例中获取模块1501的说明,此处不再进行描述。
在本公开的一个实施例中,跨语言跨模态模型包括跨语言编码器和图像编码器,第一预训练模块1602,具体用于:将图文配对数据中的文本输入到跨语言编码器中,以得到图文配对数据中的文本的第一文本特征,并将图文配对数据中的图像输入到图像编码器中,以得到图文配对数据中的图像的第一图像特征;将图文非配对数据中的文本输入到跨语言编码器中,以得到图文非配对数据中文本的第二文本特征,并将图文非配对数据中的图像输入到图像编码器,以得到图文非配对数据中图像的第二图像特征;根据第一图像特征和第一文本特征确定图文配对数据中图像和文本之间的第一距离,并根据第二图像特征和第二文本特征确定图文非配对数据中图像和文本之间的第二距离;根据第一距离和第二距离,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,第二预训练模块1603,具体用于:将文本配对数据输入到跨语言编码器中,以得到文本配对数据中两个文本各自对应的文本特征;将文本非配对数据输入到跨语言编码器中,以得到文本非配对数据中两个文本各自对应的文本特征;根据文本配对数据中两个文本各自对应的文本特征,确定所文本配对数据中两个文本之间的第三距离,并根据文本非配对数据中两个文本各自对应的文本特征,确定所文本非配对数据中两个文本之间的第四距离;根据第三距离和第四距离,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,跨语言跨模态模型还包括跨语言跨模态编码器,训练数据还包括:图文配对数据对应的第一实际标签,第一实际标签用于表示图文配对数据中的图像和文本是配对的,装置还包括:
第三预训练模块1604,用于:
将第一图像特征和第一文本特征输入到跨语言跨模态编码器中,以得到图文配对数据的第一融合特征;
根据第一融合特征,确定图文配对数据的第一预测标签;
根据第一预测标签和第一实际标签,对跨语言跨模态编码器进行预训练。
在本公开的一个实施例中,跨语言跨模态模型还包括跨语言跨模态编码器,训练数据还包括:图文非配对数据对应的第二实际标签,第二实际标签用于表示图文非配对数据中的图像和文本是非配对的,装置还包括:
第四预训练模块1605,用于:
将第二图像特征和第二文本特征输入到跨语言跨模态编码器中,以得到图文配对数据的第二融合特征;
根据第二融合特征,确定图文非配对数据的第二预测标签;
根据第二预测标签和第二实际标签,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,跨语言跨模态模型还包括跨语言跨模态编码器,装置还包括:
第五预训练模块1606,用于:
对图文配对数据中文本的待掩码字符进行掩码处理,以得到掩码文本;
将掩码文本输入到跨语言编码器中,以得到掩码文本的第三文本特征;
将第一图像特征和第三文本特征输入到跨语言跨模态编码器中,以得到第三融合特征;
获取第三融合特征所确定出的预测掩码字符;
根据预测掩码字符和待掩码字符,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,装置还包括:
第六预训练模块1607,用于:
从图文配对数据的文本中获取前N个字符作为前缀文本片段,并将图文配对数据的文本中第N+1个字符开始的剩余字符作为后缀文本片段,其中,N为大于1,并且小于M的整数,其中,M为图文配对数据的文本中字符的总数;
将前缀文本片段输入到跨语言编码器,以得到前缀文本片段的第四文本特征,并将第四文本特征和第一图像特征输入到跨语言跨模态编码器中,以得到第四融合特征;
将第四融合特征输入到跨语言跨模态解码器中,以得到第一预测文本;
将第一预测文本和后缀文本片段,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,装置还包括:
第七预训练模块1608,用于:
从图文配对数据的文本中获取前N个字符作为前缀文本片段,并将图文配对数据的文本中第N+1个字符开始的剩余字符作为后缀文本片段,其中,N为大于1,并且小于M的整数,其中,M为图文配对数据的文本中字符的总数;
将前缀文本片段输入到跨语言编码器,以得到前缀文本片段的第五文本特征;
将第五文本特征输入到跨语言跨模态编码器中,以得到第六文本特征;
将第六文本特征输入到跨语言跨模态解码器中,以得到第二预测文本;
将第二预测文本和后缀文本片段,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,训练数据还包括:与图文配对数据对应的样本文本,其中,样本文本和图文配对数据中的文本均是对图文配对数据中的图像进行描述,而样本文本和图文配对数据中的文本的语言类型不同,装置还包括:
第八预训练模块1609,用于:
对图文配对数据中文本的至少一个词进行掩码处理,以得到掩码文本;
将掩码文本输入到跨语言编码器中,以得到掩码文本的第七文本特征;
将第一图像特征和第七文本特征输入到跨语言跨模态编码器中,以得到第五融合特征;
将第五融合特征输入到跨语言跨模态解码器中,以得到第三预测文本,其中,第三预测文本和图文配对数据中的文本的语义相同,第三预测文本和样本文本的语言类型相同;
根据第三预测文本和样本文本,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,装置还包括:
第九预训练模块1610,用于:
将文本配对数据中的一个文本输入到跨语言编码器中,以得到第八文本特征;
将第八文本特征输入到跨语言跨模态编码器中,以得到第九文本特征;
将第九文本特征输入到跨语言跨模态解码器中,以得到第四预测文本,其中,第四预测文本和文本配对数据中的另一个文本的语言类型是相同的;
根据第四预测文本和文本配对数据中的另一个文本,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,第一预训练模块1602根据第一距离和第二距离,对跨语言跨模态模型进行预训练的具体过程为:根据第一距离和第二距离,确定跨语言跨模态模型的跨模态对比损失值;根据跨模态对比损失值,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,第二预训练模块1603根据第三距离和第四距离,对跨语言跨模态模型进行预训练的具体过程为:根据第三距离和第四距离,确定跨语言跨模态模型的跨语言对比损失值;根据跨语言对比损失值,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,训练数据还包括:与图文配对数据对应的样本文本,其中,样本文本和图文配对数据中的文本均是对图文配对数据中的图像进行描述,而样本文本和图文配对数据中的文本的语言类型不同,装置还包括:
第十预训练模块1611,用于:
将第一文本特征和第一图像特征输入到跨语言跨模态编码器中,以得到第六融合特征;
将第六融合特征输入到跨语言跨模态解码器中,以得到第五预测文本,其中,第五预测文本和图文配对数据中的文本的语义相同,第五预测文本和样本文本的语言类型相同;
根据第五预测文本和样本文本,对跨语言跨模态模型进行预训练。
在本公开的一个实施例中,第三预训练模块1604根据第一预测标签和第一实际标签,对跨语言跨模态编码器进行预训练的具体过程为:采用交叉熵损失函数,确定第一预测标签和第一实际标签的第一损失值;根据第一损失值和第一损失值阈值之间的大小比较结果,对跨语言跨模态编码器进行预训练。
在本公开的一个实施例中,第四预训练模块1605根据第二预测标签和第二实际标签,对跨语言跨模态模型进行预训练的具体过程为:采用交叉熵损失函数,确定第二预测标签和第二实际标签的第二损失值;根据第二损失值和第二损失值阈值之间的大小比较结果,对跨语言跨模态编码器进行预训练。
其中,需要说明的是,前述对跨语言跨模态模型的预训练方法实施例的解释说明也适用于本实施例中的跨语言跨模态模型的预训练装置,此处不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
图17示出了可以用来实施本公开的实施例的示例电子设备1700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图17所示,该电子设备1700可以包括计算单元1701,其可以根据存储在只读存储器(ROM)1702中的计算机程序或者从存储单元1708加载到随机访问存储器(RAM)1703中的计算机程序,来执行各种适当的动作和处理。在RAM 1703中,还可存储设备1700操作所需的各种程序和数据。计算单元1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。
设备1700中的多个部件连接至I/O接口1705,包括:输入单元1706,例如键盘、鼠标等;输出单元1707,例如各种类型的显示器、扬声器等;存储单元1708,例如磁盘、光盘等;以及通信单元1709,例如网卡、调制解调器、无线通信收发机等。通信单元1709允许设备1700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1701执行上文所描述的各个方法和处理,例如跨语言跨模态模型的预训练方法。例如,在一些实施例中,跨语言跨模态模型的预训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1702和/或通信单元1709而被载入和/或安装到设备1700上。当计算机程序加载到RAM 1703并由计算单元1701执行时,可以执行上文描述的跨语言跨模态模型的预训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行跨语言跨模态模型的预训练方法。
本文中以上描述的装置和技术的各种实施方式可以在数字电子电路装置、集成电路装置、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上装置的装置(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程装置上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储装置、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储装置、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行装置、装置或设备使用或与指令执行装置、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体装置、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的装置和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的装置和技术实施在包括后台部件的计算装置(例如,作为数据服务器)、或者包括中间件部件的计算装置(例如,应用服务器)、或者包括前端部件的计算装置(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的装置和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算装置中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将装置的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机装置可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器可以是云服务器,也可以为分布式装置的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (33)

1.一种跨语言跨模态模型的预训练方法,包括:
获取训练数据,其中,所述训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,所述文本配对数据中两个文本的语义相同,而语言类型是不同的,所述文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的;
根据所述图文配对数据和所述图文非配对数据,对跨语言跨模态模型进行预训练;
根据所述文本配对数据和所述文本非配对数据,对所述跨语言跨模态模型进行预训练。
2.根据权利要求1所述的方法,其中,所述跨语言跨模态模型包括跨语言编码器和图像编码器,所述根据所述文本配对数据和所述图文非配对数据,对跨语言跨模态模型进行预训练,包括:
将所述图文配对数据中的文本输入到所述跨语言编码器中,以得到所述图文配对数据中的文本的第一文本特征,并将所述图文配对数据中的图像输入到所述图像编码器中,以得到所述图文配对数据中的图像的第一图像特征;
将所述图文非配对数据中的文本输入到所述跨语言编码器中,以得到所述图文非配对数据中文本的第二文本特征,并将所述图文非配对数据中的图像输入到所述图像编码器,以得到所述图文非配对数据中图像的第二图像特征;
根据所述第一图像特征和所述第一文本特征确定所述图文配对数据中图像和文本之间的第一距离,并根据所述第二图像特征和所述第二文本特征确定所述图文非配对数据中图像和文本之间的第二距离;
根据所述第一距离和所述第二距离,对所述跨语言跨模态模型进行预训练。
3.根据权利要求2所述的方法,其中,所述根据所述文本配对数据和所述文本非配对数据,对所述跨语言跨模态模型进行预训练,包括:
将所述文本配对数据输入到所述跨语言编码器中,以得到所述文本配对数据中两个文本各自对应的文本特征;
将所述文本非配对数据输入到所述跨语言编码器中,以得到所述文本非配对数据中两个文本各自对应的文本特征;
根据所述文本配对数据中两个文本各自对应的文本特征,确定所文本配对数据中两个文本之间的第三距离,并根据所述文本非配对数据中两个文本各自对应的文本特征,确定所文本非配对数据中两个文本之间的第四距离;
根据所述第三距离和所述第四距离,对所述跨语言跨模态模型进行预训练。
4.根据权利要求2所述的方法,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器,所述训练数据还包括:所述图文配对数据对应的第一实际标签,所述第一实际标签用于表示所述图文配对数据中的图像和文本是配对的,所述方法还包括:
将所述第一图像特征和所述第一文本特征输入到所述跨语言跨模态编码器中,以得到所述图文配对数据的第一融合特征;
根据所述第一融合特征,确定所述图文配对数据的第一预测标签;
根据所述第一预测标签和所述第一实际标签,对所述跨语言跨模态编码器进行预训练。
5.根据权利要求2所述的方法,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器,所述训练数据还包括:所述图文非配对数据对应的第二实际标签,所述第二实际标签用于表示所述图文非配对数据中的图像和文本是非配对的,所述方法还包括:
将所述第二图像特征和所述第二文本特征输入到所述跨语言跨模态编码器中,以得到所述图文配对数据的第二融合特征;
根据所述第二融合特征,确定所述图文非配对数据的第二预测标签;
根据所述第二预测标签和所述第二实际标签,对所述跨语言跨模态模型进行预训练。
6.根据权利要求2所述的方法,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器,所述方法还包括:
对所述图文配对数据中文本的待掩码字符进行掩码处理,以得到掩码文本;
将所述掩码文本输入到所述跨语言编码器中,以得到所述掩码文本的第三文本特征;
将所述第一图像特征和所述第三文本特征输入到所述跨语言跨模态编码器中,以得到第三融合特征;
获取所述第三融合特征所确定出的预测掩码字符;
根据所述预测掩码字符和所述待掩码字符,对所述跨语言跨模态模型进行预训练。
7.根据权利要求2所述的方法,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述方法还包括:
从所述图文配对数据的文本中获取前N个字符作为前缀文本片段,并将所述图文配对数据的文本中第N+1个字符开始的剩余字符作为后缀文本片段,其中,N为大于1,并且小于M的整数,其中,M为所述图文配对数据的文本中字符的总数;
将所述前缀文本片段输入到所述跨语言编码器,以得到所述前缀文本片段的第四文本特征,并将所述第四文本特征和所述第一图像特征输入到所述跨语言跨模态编码器中,以得到第四融合特征;
将所述第四融合特征输入到所述跨语言跨模态解码器中,以得到第一预测文本;
将所述第一预测文本和所述后缀文本片段,对所述跨语言跨模态模型进行预训练。
8.根据权利要求2所述的方法,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述方法还包括:
从所述图文配对数据的文本中获取前N个字符作为前缀文本片段,并将所述图文配对数据的文本中第N+1个字符开始的剩余字符作为后缀文本片段,其中,N为大于1,并且小于M的整数,其中,M为所述图文配对数据的文本中字符的总数;
将所述前缀文本片段输入到所述跨语言编码器,以得到所述前缀文本片段的第五文本特征;
将所述第五文本特征输入到所述跨语言跨模态编码器中,以得到第六文本特征;
将所述第六文本特征输入到所述跨语言跨模态解码器中,以得到第二预测文本;
将所述第二预测文本和所述后缀文本片段,对所述跨语言跨模态模型进行预训练。
9.根据权利要求2所述的方法,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述训练数据还包括:与所述图文配对数据对应的样本文本,其中,所述样本文本和所述图文配对数据中的文本均是对所述图文配对数据中的图像进行描述,而所述样本文本和所述图文配对数据中的文本的语言类型不同,所述方法还包括:
对所述图文配对数据中文本的至少一个词进行掩码处理,以得到掩码文本;
将所述掩码文本输入到所述跨语言编码器中,以得到所述掩码文本的第七文本特征;
将所述第一图像特征和所述第七文本特征输入到所述跨语言跨模态编码器中,以得到第五融合特征;
将所述第五融合特征输入到所述跨语言跨模态解码器中,以得到第三预测文本,其中,所述第三预测文本和所述图文配对数据中的文本的语义相同,所述第三预测文本和所述样本文本的语言类型相同;
根据所述第三预测文本和所述样本文本,对所述跨语言跨模态模型进行预训练。
10.根据权利要求2所述的方法,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述方法还包括:
将所述文本配对数据中的一个文本输入到所述跨语言编码器中,以得到第八文本特征;
将所述第八文本特征输入到所述跨语言跨模态编码器中,以得到第九文本特征;
将所述第九文本特征输入到所述跨语言跨模态解码器中,以得到第四预测文本,其中,所述第四预测文本和所述文本配对数据中的另一个文本的语言类型是相同的;
根据所述第四预测文本和所述文本配对数据中的另一个文本,对所述跨语言跨模态模型进行预训练。
11.根据权利要求2所述的方法,其中,所述根据所述第一距离和所述第二距离,对所述跨语言跨模态模型进行预训练,包括:
根据所述第一距离和所述第二距离,确定所述跨语言跨模态模型的跨模态对比损失值;
根据所述跨模态对比损失值,对所述跨语言跨模态模型进行预训练。
12.根据权利要求3所述的方法,其中,所述根据所述第三距离和所述第四距离,对所述跨语言跨模态模型进行预训练,包括:
根据所述第三距离和所述第四距离,确定所述跨语言跨模态模型的跨语言对比损失值;
根据所述跨语言对比损失值,对所述跨语言跨模态模型进行预训练。
13.根据权利要求2所述的方法,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述训练数据还包括:与所述图文配对数据对应的样本文本,其中,所述样本文本和所述图文配对数据中的文本均是对所述图文配对数据中的图像进行描述,而所述样本文本和所述图文配对数据中的文本的语言类型不同,所述方法还包括:
将所述第一文本特征和所述第一图像特征输入到所述跨语言跨模态编码器中,以得到第六融合特征;
将所述第六融合特征输入到所述跨语言跨模态解码器中,以得到第五预测文本,其中,所述第五预测文本和所述图文配对数据中的文本的语义相同,所述第五预测文本和所述样本文本的语言类型相同;
根据所述第五预测文本和所述样本文本,对所述跨语言跨模态模型进行预训练。
14.根据权利要求4所述的方法,其中,所述根据所述第一预测标签和所述第一实际标签,对所述跨语言跨模态编码器进行预训练,包括:
采用交叉熵损失函数,确定所述第一预测标签和所述第一实际标签的第一损失值;
根据所述第一损失值和第一损失值阈值之间的大小比较结果,对所述跨语言跨模态编码器进行预训练。
15.根据权利要求5所述的方法,其中,所述根据所述第二预测标签和所述第二实际标签,对所述跨语言跨模态模型进行预训练,包括:
采用交叉熵损失函数,确定所述第二预测标签和所述第二实际标签的第二损失值;
根据所述第二损失值和第二损失值阈值之间的大小比较结果,对所述跨语言跨模态编码器进行预训练。
16.一种跨语言跨模态模型的预训练装置,包括:
获取模块,用于获取训练数据,其中,所述训练数据包括:图文配对数据、图文非配对数据、文本配对数据和文本非配对数据,其中,所述文本配对数据中两个文本的语义相同,而语言类型是不同的,所述文本非配对数据中的两个文本的语义不同,并且语言类型也是不同的;
第一预训练模块,用于根据所述图文配对数据和所述图文非配对数据,对跨语言跨模态模型进行预训练;
第二预训练模块,用于根据所述文本配对数据和所述文本非配对数据,对所述跨语言跨模态模型进行预训练。
17.根据权利要求16所述的装置,其中,所述跨语言跨模态模型包括跨语言编码器和图像编码器,所述第一预训练模块,具体用于:
将所述图文配对数据中的文本输入到所述跨语言编码器中,以得到所述图文配对数据中的文本的第一文本特征,并将所述图文配对数据中的图像输入到所述图像编码器中,以得到所述图文配对数据中的图像的第一图像特征;
将所述图文非配对数据中的文本输入到所述跨语言编码器中,以得到所述图文非配对数据中文本的第二文本特征,并将所述图文非配对数据中的图像输入到所述图像编码器,以得到所述图文非配对数据中图像的第二图像特征;
根据所述第一图像特征和所述第一文本特征确定所述图文配对数据中图像和文本之间的第一距离,并根据所述第二图像特征和所述第二文本特征确定所述图文非配对数据中图像和文本之间的第二距离;
根据所述第一距离和所述第二距离,对所述跨语言跨模态模型进行预训练。
18.根据权利要求17所述的装置,其中,所述第二预训练模块,具体用于:
将所述文本配对数据输入到所述跨语言编码器中,以得到所述文本配对数据中两个文本各自对应的文本特征;
将所述文本非配对数据输入到所述跨语言编码器中,以得到所述文本非配对数据中两个文本各自对应的文本特征;
根据所述文本配对数据中两个文本各自对应的文本特征,确定所文本配对数据中两个文本之间的第三距离,并根据所述文本非配对数据中两个文本各自对应的文本特征,确定所文本非配对数据中两个文本之间的第四距离;
根据所述第三距离和所述第四距离,对所述跨语言跨模态模型进行预训练。
19.根据权利要求17所述的装置,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器,所述训练数据还包括:所述图文配对数据对应的第一实际标签,所述第一实际标签用于表示所述图文配对数据中的图像和文本是配对的,所述装置还包括:
第三预训练模块,用于:
将所述第一图像特征和所述第一文本特征输入到所述跨语言跨模态编码器中,以得到所述图文配对数据的第一融合特征;
根据所述第一融合特征,确定所述图文配对数据的第一预测标签;
根据所述第一预测标签和所述第一实际标签,对所述跨语言跨模态编码器进行预训练。
20.根据权利要求17所述的装置,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器,所述训练数据还包括:所述图文非配对数据对应的第二实际标签,所述第二实际标签用于表示所述图文非配对数据中的图像和文本是非配对的,所述装置还包括:
第四预训练模块,用于:
将所述第二图像特征和所述第二文本特征输入到所述跨语言跨模态编码器中,以得到所述图文配对数据的第二融合特征;
根据所述第二融合特征,确定所述图文非配对数据的第二预测标签;
根据所述第二预测标签和所述第二实际标签,对所述跨语言跨模态模型进行预训练。
21.根据权利要求17所述的装置,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器,所述装置还包括:
第五预训练模块,用于:
对所述图文配对数据中文本的待掩码字符进行掩码处理,以得到掩码文本;
将所述掩码文本输入到所述跨语言编码器中,以得到所述掩码文本的第三文本特征;
将所述第一图像特征和所述第三文本特征输入到所述跨语言跨模态编码器中,以得到第三融合特征;
获取所述第三融合特征所确定出的预测掩码字符;
根据所述预测掩码字符和所述待掩码字符,对所述跨语言跨模态模型进行预训练。
22.根据权利要求17所述的装置,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述装置还包括:
第六预训练模块,用于:
从所述图文配对数据的文本中获取前N个字符作为前缀文本片段,并将所述图文配对数据的文本中第N+1个字符开始的剩余字符作为后缀文本片段,其中,N为大于1,并且小于M的整数,其中,M为所述图文配对数据的文本中字符的总数;
将所述前缀文本片段输入到所述跨语言编码器,以得到所述前缀文本片段的第四文本特征,并将所述第四文本特征和所述第一图像特征输入到所述跨语言跨模态编码器中,以得到第四融合特征;
将所述第四融合特征输入到所述跨语言跨模态解码器中,以得到第一预测文本;
将所述第一预测文本和所述后缀文本片段,对所述跨语言跨模态模型进行预训练。
23.根据权利要求17所述的装置,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述装置还包括:
第七预训练模块,用于:
从所述图文配对数据的文本中获取前N个字符作为前缀文本片段,并将所述图文配对数据的文本中第N+1个字符开始的剩余字符作为后缀文本片段,其中,N为大于1,并且小于M的整数,其中,M为所述图文配对数据的文本中字符的总数;
将所述前缀文本片段输入到所述跨语言编码器,以得到所述前缀文本片段的第五文本特征;
将所述第五文本特征输入到所述跨语言跨模态编码器中,以得到第六文本特征;
将所述第六文本特征输入到所述跨语言跨模态解码器中,以得到第二预测文本;
将所述第二预测文本和所述后缀文本片段,对所述跨语言跨模态模型进行预训练。
24.根据权利要求17所述的装置,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述训练数据还包括:与所述图文配对数据对应的样本文本,其中,所述样本文本和所述图文配对数据中的文本均是对所述图文配对数据中的图像进行描述,而所述样本文本和所述图文配对数据中的文本的语言类型不同,所述装置还包括:
第八预训练模块,用于:
对所述图文配对数据中文本的至少一个词进行掩码处理,以得到掩码文本;
将所述掩码文本输入到所述跨语言编码器中,以得到所述掩码文本的第七文本特征;
将所述第一图像特征和所述第七文本特征输入到所述跨语言跨模态编码器中,以得到第五融合特征;
将所述第五融合特征输入到所述跨语言跨模态解码器中,以得到第三预测文本,其中,所述第三预测文本和所述图文配对数据中的文本的语义相同,所述第三预测文本和所述样本文本的语言类型相同;
根据所述第三预测文本和所述样本文本,对所述跨语言跨模态模型进行预训练。
25.根据权利要求17所述的装置,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述装置还包括:
第九预训练模块,用于:
将所述文本配对数据中的一个文本输入到所述跨语言编码器中,以得到第八文本特征;
将所述第八文本特征输入到所述跨语言跨模态编码器中,以得到第九文本特征;
将所述第九文本特征输入到所述跨语言跨模态解码器中,以得到第四预测文本,其中,所述第四预测文本和所述文本配对数据中的另一个文本的语言类型是相同的;
根据所述第四预测文本和所述文本配对数据中的另一个文本,对所述跨语言跨模态模型进行预训练。
26.根据权利要求17所述的装置,其中,所述第一预训练模块根据所述第一距离和所述第二距离,对所述跨语言跨模态模型进行预训练的具体过程为:
根据所述第一距离和所述第二距离,确定所述跨语言跨模态模型的跨模态对比损失值;
根据所述跨模态对比损失值,对所述跨语言跨模态模型进行预训练。
27.根据权利要求18所述的装置,其中,所述第二预训练模块根据所述第三距离和所述第四距离,对所述跨语言跨模态模型进行预训练的具体过程为:
根据所述第三距离和所述第四距离,确定所述跨语言跨模态模型的跨语言对比损失值;
根据所述跨语言对比损失值,对所述跨语言跨模态模型进行预训练。
28.根据权利要求17所述的装置,其中,所述跨语言跨模态模型还包括跨语言跨模态编码器和跨语言跨模态解码器,所述训练数据还包括:与所述图文配对数据对应的样本文本,其中,所述样本文本和所述图文配对数据中的文本均是对所述图文配对数据中的图像进行描述,而所述样本文本和所述图文配对数据中的文本的语言类型不同,所述装置还包括:
第十预训练模块,用于:
将所述第一文本特征和所述第一图像特征输入到所述跨语言跨模态编码器中,以得到第六融合特征;
将所述第六融合特征输入到所述跨语言跨模态解码器中,以得到第五预测文本,其中,所述第五预测文本和所述图文配对数据中的文本的语义相同,所述第五预测文本和所述样本文本的语言类型相同;
根据所述第五预测文本和所述样本文本,对所述跨语言跨模态模型进行预训练。
29.根据权利要求19所述的装置,其中,所述第三预训练模块根据所述第一预测标签和所述第一实际标签,对所述跨语言跨模态编码器进行预训练的具体过程为:
采用交叉熵损失函数,确定所述第一预测标签和所述第一实际标签的第一损失值;
根据所述第一损失值和第一损失值阈值之间的大小比较结果,对所述跨语言跨模态编码器进行预训练。
30.根据权利要求20所述的装置,其中,所述第四预训练模块根据所述第二预测标签和所述第二实际标签,对所述跨语言跨模态模型进行预训练的具体过程为:
采用交叉熵损失函数,确定所述第二预测标签和所述第二实际标签的第二损失值;
根据所述第二损失值和第二损失值阈值之间的大小比较结果,对所述跨语言跨模态编码器进行预训练。
31.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。
32.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-15中任一项所述的方法。
33.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-15中任一项所述方法的步骤。
CN202211384569.3A 2022-11-07 2022-11-07 跨语言跨模态模型的预训练方法、设备和存储介质 Active CN115640520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211384569.3A CN115640520B (zh) 2022-11-07 2022-11-07 跨语言跨模态模型的预训练方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211384569.3A CN115640520B (zh) 2022-11-07 2022-11-07 跨语言跨模态模型的预训练方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN115640520A true CN115640520A (zh) 2023-01-24
CN115640520B CN115640520B (zh) 2023-07-14

Family

ID=84948430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211384569.3A Active CN115640520B (zh) 2022-11-07 2022-11-07 跨语言跨模态模型的预训练方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN115640520B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034965A (zh) * 2023-08-08 2023-11-10 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117112829A (zh) * 2023-10-24 2023-11-24 吉林大学 医疗数据跨模态检索方法、装置和相关设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016332A (zh) * 2020-08-26 2020-12-01 华东师范大学 基于变分推理和多任务学习的多模态机器翻译方法
CN112257465A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法
CN112699216A (zh) * 2020-12-28 2021-04-23 平安科技(深圳)有限公司 端到端的语言模型预训练方法、系统、设备及存储介质
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN113239214A (zh) * 2021-05-19 2021-08-10 中国科学院自动化研究所 基于有监督对比的跨模态检索方法、系统及设备
WO2021216004A1 (en) * 2020-04-22 2021-10-28 Yumcha Studios Pte Ltd Multi-modal learning platform
CN113705187A (zh) * 2021-08-13 2021-11-26 北京百度网讯科技有限公司 预训练语言模型的生成方法、装置、电子设备和存储介质
CN113792113A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言模型获得及任务处理方法、装置、设备及介质
CN113987209A (zh) * 2021-11-04 2022-01-28 浙江大学 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
US20220121702A1 (en) * 2020-10-20 2022-04-21 Adobe Inc. Generating embeddings in a multimodal embedding space for cross-lingual digital image retrieval
CN114840734A (zh) * 2022-04-29 2022-08-02 北京百度网讯科技有限公司 多模态表示模型的训练方法、跨模态检索方法及装置
CN114970721A (zh) * 2022-05-26 2022-08-30 北京有竹居网络技术有限公司 多语言多模态预训练模型的训练方法、装置及电子设备
CN115017884A (zh) * 2022-01-20 2022-09-06 昆明理工大学 基于图文多模态门控增强的文本平行句对抽取方法
US20220319493A1 (en) * 2021-03-31 2022-10-06 Nippon Telegraph And Telephone Corporation Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021216004A1 (en) * 2020-04-22 2021-10-28 Yumcha Studios Pte Ltd Multi-modal learning platform
CN113792113A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言模型获得及任务处理方法、装置、设备及介质
CN112016332A (zh) * 2020-08-26 2020-12-01 华东师范大学 基于变分推理和多任务学习的多模态机器翻译方法
US20220121702A1 (en) * 2020-10-20 2022-04-21 Adobe Inc. Generating embeddings in a multimodal embedding space for cross-lingual digital image retrieval
CN112257465A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 一种基于图像描述生成的多模态机器翻译数据增强方法
CN112699216A (zh) * 2020-12-28 2021-04-23 平安科技(深圳)有限公司 端到端的语言模型预训练方法、系统、设备及存储介质
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
US20220319493A1 (en) * 2021-03-31 2022-10-06 Nippon Telegraph And Telephone Corporation Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program
CN113239214A (zh) * 2021-05-19 2021-08-10 中国科学院自动化研究所 基于有监督对比的跨模态检索方法、系统及设备
CN113705187A (zh) * 2021-08-13 2021-11-26 北京百度网讯科技有限公司 预训练语言模型的生成方法、装置、电子设备和存储介质
CN113987209A (zh) * 2021-11-04 2022-01-28 浙江大学 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
CN115017884A (zh) * 2022-01-20 2022-09-06 昆明理工大学 基于图文多模态门控增强的文本平行句对抽取方法
CN114840734A (zh) * 2022-04-29 2022-08-02 北京百度网讯科技有限公司 多模态表示模型的训练方法、跨模态检索方法及装置
CN114970721A (zh) * 2022-05-26 2022-08-30 北京有竹居网络技术有限公司 多语言多模态预训练模型的训练方法、装置及电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BIN SHAN 等: "ERNIE-VIL 2.0: MULTI-VIEW CONTRASTIVE LEARNING FOR IMAGE-TEXT PRE-TRAINING", 《ARXIV》, pages 1 - 14 *
MINGYANG ZHOU 等: "UC 2 : Universal Cross-lingual Cross-modal Vision-and-Language Pre-training", 《CVPR 2021》, pages 4155 - 4165 *
YAN ZENG 等: "Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training", 《ARXIV》, pages 1 - 19 *
岳增营 等: "基于语言模型的预训练技术研究综述", 《中文信息学报》, vol. 35, no. 9, pages 15 - 29 *
张浩宇 等: "视觉语言多模态预训练综述", 《中国图象图形学报》, vol. 27, no. 09, pages 2652 - 2682 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034965A (zh) * 2023-08-08 2023-11-10 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117034965B (zh) * 2023-08-08 2024-03-22 中国科学院自动化研究所 基于视觉语言预训练的图像文本翻译方法及装置
CN117112829A (zh) * 2023-10-24 2023-11-24 吉林大学 医疗数据跨模态检索方法、装置和相关设备
CN117112829B (zh) * 2023-10-24 2024-02-02 吉林大学 医疗数据跨模态检索方法、装置和相关设备

Also Published As

Publication number Publication date
CN115640520B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN112668671B (zh) 预训练模型的获取方法和装置
CN111143561B (zh) 意图识别模型训练方法、装置及电子设备
CN113553864B (zh) 翻译模型的训练方法、装置、电子设备及存储介质
CN112560496A (zh) 语义分析模型的训练方法、装置、电子设备及存储介质
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN115640520B (zh) 跨语言跨模态模型的预训练方法、设备和存储介质
CN112507706B (zh) 知识预训练模型的训练方法、装置和电子设备
CN111144507A (zh) 情感分析模型预训练方法、装置及电子设备
CN113407698B (zh) 意图识别模型的训练与意图识别的方法、装置
CN112989970A (zh) 文档版面分析方法、装置、电子设备及可读存储介质
CN114863437B (zh) 文本识别方法、装置、电子设备和存储介质
CN112559885A (zh) 地图兴趣点的训练模型确定方法、装置及电子设备
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN115358243A (zh) 多轮对话识别模型的训练方法、装置、设备及存储介质
CN114861758A (zh) 多模态数据处理方法、装置、电子设备及可读存储介质
CN110909136A (zh) 满意度预估模型的训练方法、装置、电子设备及存储介质
CN112232089B (zh) 语义表示模型的预训练方法、设备和存储介质
CN113468857A (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN112507705A (zh) 一种位置编码的生成方法、装置及电子设备
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN115510860A (zh) 一种文本情感分析方法、装置、电子设备及存储介质
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN113204616B (zh) 文本抽取模型的训练与文本抽取的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant