CN113590852B

CN113590852B - 多模态识别模型的训练方法、多模态识别方法及装置

Info

Publication number: CN113590852B
Application number: CN202110733467.7A
Authority: CN
Inventors: 薛学通; 杨敏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-07-08
Anticipated expiration: 2041-06-30
Also published as: CN113590852A

Abstract

本公开提供了一种多模态识别模型的训练方法、多模态识别方法及装置，涉及计算机技术领域，尤其涉及深度学习和数据识别技术领域。多模态识别模型的训练方法的具体实现方案为：获取样本数据，所述样本数据包括第一图片数据和第一文本数据中的至少一项对所述样本数据进行识别，得到目标数据；基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练；其中，所述目标数据包括如下至少一项：与所述第一图片数据对应的第二图片数据；与所述第一文本数据对应的第二文本数据。

Description

多模态识别模型的训练方法、多模态识别方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及深度学习和数据识别技术领域，具体涉及一种多模态识别模型的训练方法、多模态识别方法及装置。

背景技术

目前，跨模态检索已经成为检索领域中一种较为常见的检索方式。例如，通过输入文本来检索对应的图片或者视频，或者通过输入图片来检索对应的文本等。为实现跨模态检索，也就需要应用到多模态识别模型，以能够实现对文本、图片、视频等不同模态的失败。

发明内容

本公开提供了一种多模态识别模型的训练方法、多模态识别方法及装置。

根据本公开的第一方面，提供了一种多模态识别模型的训练方法，包括：

获取样本数据，所述样本数据包括第一图片数据和第一文本数据中的至少一项；

对所述样本数据进行识别，得到目标数据；

基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练；

其中，所述目标数据包括如下至少一项：

与所述第一图片数据对应的第二图片数据；

与所述第一文本数据对应的第二文本数据。

根据本公开的第二方面，提供了一种多模态识别模型的训练装置，包括：

获取模块，用于获取样本数据，所述样本数据包括第一图片数据和第一文本数据中的至少一项；

识别模块，用于对所述样本数据进行识别，得到目标数据；

训练模块，用于基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练；

其中，所述目标数据包括如下至少一项：

与所述第一图片数据对应的第二图片数据；

与所述第一文本数据对应的第二文本数据。

根据本公开的第三方面，提供了一种多模态识别方法，包括：

获取待识别对象，所述待识别对象的表征形式为第一模态；

基于多模态识别模型对所述待识别对象进行识别，并获取所述多模态识别模型输出的识别结果，所述识别结果的表征形式为第二模态；

其中，所述多模态识别模型为根据第一方面所述的方法训练后的多模态识别模型，所述第一模态为图片或文本，所述第二模态为文本或图片，且所述第一模态不同于所述第二模态。

根据本公开的第四方面，提供了一种多模态识别装置，包括：

第二获取模块，用于获取待识别对象，所述待识别对象的表征形式为第一模态；

第三获取模块，用于基于多模态识别模型对所述待识别对象进行识别，并获取所述多模态识别模型输出的识别结果，所述识别结果的表征形式为第二模态；

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面中所述的方法，或者执行第三方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面中所述的方法，或者执行根据第三方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面中所述的方法，或者实现根据第三方面所述的方法。

本公开提供的多模态识别模型的训练方法，可以仅通过获取图片数据或文本数据，图片数据和文本数据之间可以是毫无关联，就能够实现对多模态识别模型的训练，相比于现有的需要获取对应或者匹配的文本和图片数据，本公开无需获取对应或者匹配的文本和图片数据，这样也就使得对于样本数据的获取更加简单、便捷。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例提供的一种多模态识别模型的训练方法的流程图；

图2是根据本公开另一实施例提供的另一种多模态识别模型的训练方法的流程图；

图3是根据本公开一实施例提供的一种多模态识别模型的训练装置的结构图；

图4是根据本公开一实施例提供的一种多模态识别方法的流程图；

图5是根据本公开一实施例提供的一种多模态识别装置的结构图；

图6是用来实现本公开实施例的多模态识别模型的训练方法或多模态识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种多模态识别模型的训练方法。

请参照图1，图1是本公开一实施例提供的一种多模态识别模型的训练方法的流程图。如图1所示，所述方法包括以下步骤：

步骤S101、获取样本数据，所述样本数据包括第一图片数据和第一文本数据中的至少一项。

其中，所述第一图片数据和第一文本数据没有关联性，也即第一图片数据和第一文本数据并不需要是匹配或者说对应的数据，二者可以是毫无关联。

需要说明地，本公开实施例所提供的多模态识别模型的训练方法可以是应用于如手机、平板电脑、笔记本计算机、台式计算机等电子设备，所述电子设备包括多模态识别模型。所述多模态识别模型是指能够对不同模态的数据进行识别的模型，所述模态可以是包括文本、图片、视频、音频等。例如，所述多模态识别模型能够对文本数据、图片数据及视频数据均进行识别。

可选地，电子设备可以是基于用户的输入操作来获取样本数据，例如所述样本数据可以是电子设备预先存储的数据，或者也可以是用户当前输入的数据，或者也可以是电子设备从网络下载的数据，等。

步骤S102、对所述样本数据进行识别，得到目标数据。

本公开实施例中，所述样本数据包括第一图片数据和第一文本数据中的至少一项，进而电子设备通过所述多模态识别模型对样本数据进行识别，以得到目标数据。其中，所述目标数据包括如下至少一项：与所述第一图片数据对应的第二图片数据、与所述第一文本数据对应的第二文本数据。

例如，若所述样本数据为第一图片数据，则多模态识别模型对第一图片数据进行识别，得到第二图片数据；若所述样本数据为第一文本数据，则多模态识别模型对所述第一文本数据进行识别，以得到第二文本数据；若所述样本数据包括第一图片数据和第一文本数据，则多模态识别模型分别对所述第一图片数据和第一文本数据进行识别，以得到第二图片数据和第二文本数据。

可选地，所述多模态识别模型可以是包括文本识别模型和图片识别模型，所述文本识别模型用于对文本数据进行识别，以得到与所述文本数据对应的图片数据；所述图片识别模型用于对图片数据进行识别，以得到与所述图片数据对应的文本数据。

例如，以所述样本数据包括第一图片数据为例，在获取到所述第一图片数据后，多模态识别模型可以是基于所包括图片识别模型对所述第一图片数据进行识别，以得到对应的第三文本数据，然后再基于文本识别模型对所述第三文本数据进行识别，以得到第二图片数据。这样，多模态识别模型也就能够分别通过图片识别模型和文本识别模型来对图片数据和文本数据进行识别，对于输入的第一图片数据，分别经过图片识别和文本识别，最终得到输出的第二图片数据。

或者，若样本数据包括第一文本数据，多模态识别模型同样能够对输入的第一文本数据，分别经过文本识别和图片识别，最终得到输出的第二文本数据。

其中，所述图片识别模型可以是通过对图片数据进行图像特征提取，基于图像特征来得到用于描述所述图像特征的文本数据，进而以输出所述文本数据，也即所述图片识别模型能够对输入的图片数据，以文本数据的方式输出。所述文本识别模型可以是通过对文本数据进行关键词提取，基于关键词来生成对应的图像特征，对所述图像特征进行整合以得到图片数据，进而以输出所述图片数据，也即所述文本识别模型能够对输入的文本数据，以图片数据的方式输出。需要说明地，所述图片识别模型和文本识别模型的识别原理和训练方式可以是参照相关技术，本公开对此不做赘述。

步骤S103、基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练。

例如，若所述目标数据包括第一图片数据，样本数据为与第一图片数据对应的第二图片数据，此时希望第二图片数据与第一图片数据尽可能接近，则可以是计算所述第一图片数据和第二图片数据之间的相似度，通过相似度来对所述多模态识别模型进行训练，以使得训练后的多模态识别模型输出的图片数据与输入的图片数据之间的相似度尽可能高，例如可以是相似度达到预设值则停止训练。

或者，若所述目标数据包括第一文本数据，样本数据为与所述第一文本数据对应的第二文本数据，此时希望第二文本数据与第一文本数据尽可能接近，则可以是计算第一文本数据和第二文本数据之间的相似度，通过相似度来对所述多模态识别模型进行训练，以使得训练后的多模态识别模型输出的文本数据与输入的文本数据之间的相似度尽可能高。

本公开实施例提供的多模态识别模型的训练方法，通过获取第一图片数据和第一文本数据中的至少一项，对所述第一图片数据和/或所述第一文本数据进行识别，以得到与第一图片数据对应的第二图片数据和/或与所述第一文本数据对应的第二文本数据，基于第一图片数据与第二图片数据之间的相似度，和/或，第一文本数据与第二文本数据之间的相似度，以对多模态识别模型进行训练。相比于现有的需要获取对应或者匹配的文本和图片数据，本公开提供的方法可以仅通过获取图片数据或文本数据，图片数据和文本数据之间可以是毫无关联，就能够实现对多模态识别模型的训练，无需获取对应或者匹配的文本和图片数据，这样也就使得对于样本数据的获取更加简单、便捷，也无需对文本数据和图片数据进行标注，能够有效节省训练时间，提升模型训练的效率。

需要说明地，基于相似度对模型进行训练的原理和过程可以是参照相关技术，本实施例对此不做赘述。

可选地，在一种实施方式中，所述多模态识别模型包括文本识别模型和图片识别模型，所述步骤S102可以包括：

在所述样本数据包括第一图片数据的情况下，基于所述图片识别模型对所述第一图片数据进行识别，得到第三文本数据；

基于所述文本识别模型对所述第三文本数据进行识别，得到所述第二图片数据；

这种情况下，所述步骤S103包括：

基于所述第二图片数据与所述第一图片数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

该实施方式中，在获取到第一图片数据的情况下，先通过图片识别模型对所述第一图片数据进行识别，以得到对第一图片数据进行文本描述的第三文本数据，进一步通过文本识别模型对所述第三文本数据进行识别，以得到与所述第三文本数据对应的第二图片数据。可以理解地，此时是希望第二图片数据与第一图片数据尽可能相似，但第二图片数据是第一图片数据经过图片识别、文本识别后转换得到，其识别和转换过程中必然会有损失，则计算第二图片数据与第一图片数据之间的相似度，得到第一图片数据和第二图片数据之间的损失函数，以对文本识别模型和图片识别模型进行训练。可选地，所述文本识别模型和图片识别模型为对抗生成网络模型。

其中，第二图片数据为第一图片数据先经过图片识别模型转换成文本后，再经过文本识别模型对转换得到的文本进行识别得到，进而在这两次转换过程中都会有一定的损失，第一图片数据和第二图片数据之间的相似度，也就包括图片识别模型和文本识别模型在转换过程中的损失，进而通过计算第一图片数据和第二图片数据之间的相似度，也就能够实现对图片识别模型和文本识别模型的训练。这样，本公开可以在样本数据仅包括图片数据的情况下，就能够实现对文本识别模型和图片识别模型的训练，使得训练后的多模态识别模型能够应用于跨模态检索，无需再通过关联的文本和图片数据来实现对多模态识别模型的训练，使得多模态识别模型的训练方式更为简单、高效。

需要说明地，在基于图片识别模型对第一图片数据进行识别，得到第三文本数据的情况下，可以是将第一图片数据与第三文本数据作为关联的图片和文本数据，进而能够将关联的第一图片数据和第三文本数据作为多模态识别模型训练的样本数据，以对多模态识别模型进行自监督训练。例如，第一图片数据的数量为100个，进而也就能够得到输出的100个文本数据，将这100个第一图片数据与100个文本数据一一关联，进而也就能够得到100组关联的图片-文本数据。同样地，若样本数据为第一文本数据，假设第一文本数据的数量为100个，也就能够得到输出的100个图片数据，将这100个第一文本数据与100个图片数据一一关联，也就能够得到100组关联的文本-图片数据。这样，也就能够有效扩充多模态识别模型训练的样本数据，无需用户在训练前期通过对图片和文本进行标注以得到关联的图片-文本数据或文本-图片数据，有效节省用户工作量，也能够提高模型训练的效率。

进一步地，该实施方式中，在对对所述文本识别模型和所述图片识别模型进行训练之后，所述方法还可以包括以下步骤：

基于所述图片识别模型对所述第二图片数据进行识别，得到第四文本数据；

基于所述文本识别模型对所述第四文本数据进行识别，得到第四图片数据；

基于所述第四图片数据与所述第二图片数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

具体地，在基于文本识别模型对第三文本数据进行识别，得到第二图片数据后，可以是将第二图片数据作为样本数据，再重复一次如上所述的识别过程，以得到对应的目标数据。也即，基于图片识别模型对第二图片数据进行识别，得到第四文本数据，进一步基于文本识别模型对第四文本数据进行识别，得到第四图片数据，第四图片数据也即目标数据，通过计算第四图片数据与第二图片数据之间的相似度，以对文本识别模型和图片识别模型进行训练。

本实施方式中，第一图片数据在依次经过图片识别模型和文本识别模型的转换得到第二图片数据后，将第二图片数据作为样本数据来对文本识别模型和图片识别模型进行训练，这样也就扩充了多模态识别模型的样本数据，使得对于样本数据的获取更为便捷，也使得文本识别模型和图片识别模型能够基于文本数据和图片数据进行滚动训练，以提升模型的训练效率。

可选地，在另一种实施方式中，在所述多模态识别模型包括文本识别模型和图片识别模型的情况下，所述步骤S102还可以包括：

在所述样本数据包括第一文本数据的情况下，基于所述文本识别模型对所述第一文本数据进行识别，得到第三图片数据；

基于所述图片识别模型对所述第三图片数据进行识别，得到所述第二文本数据；

这种情况下，所述步骤S103可以包括：

基于所述第二文本数据与所述第一文本数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

该实施方式中，在获取到第一文本数据的情况下，先通过文本识别模型对所述第一文本数据进行识别，以得到与第一文本数据对应的第三图片数据，进一步通过图片识别模型对所述第三图片数据进行识别，以得到对所述第三图片数据进行文本描述的第二文本数据。可以理解地，此时是希望第二文本数据与第一文本数据尽可能相似，但第二文本数据是第一文本数据经过文本识别、图片识别后转换得到，其识别和转换过程中必然会有损失，则计算第二文本数据与第一文本数据之间的相似度，得到第一文本数据和第二文本数据之间的损失函数，以对文本识别模型和图片识别模型进行训练。

其中，第二文本数据为第一文本数据先经过文本识别模型转换成图片后，再经过图片识别模型对转换得到的图片进行识别得到，进而在这两次转换过程中都会有一定的损失；第一文本数据和第二文本数据之间的相似度，也就包括图片识别模型和文本识别模型在转换过程中的损失，进而通过计算第一文本数据和第二文本数据之间的相似度，也就能够实现对图片识别模型和文本识别模型的训练。这样，本公开可以在样本数据仅包括文本数据的情况下，就能够实现对文本识别模型和图片识别模型的训练，使得训练后的多模态识别模型能够应用于跨模态检索，无需再通过关联的文本和图片数据来实现对多模态识别模型的训练，使得多模态识别模型的训练方式更为简单、高效。

需要说明地，在基于文本识别模型对第一文本数据进行识别，得到第三图片数据的情况下，可以是将第一文本数据与第三图片数据作为关联的图片和文本数据，进而能够将关联的第一文本数据和第三图片数据作为多模态识别模型训练的样本数据，以对多模态识别模型进行训练。

进一步地，在对所述文本识别模型和所述图片识别模型进行训练之后，所述方法还包括：

基于所述文本识别模型对所述第二文本数据进行识别，得到第五图片数据；

基于所述图片识别模型对所述第五图片数据进行识别，得到第五文本数据；

基于所述第五文本数据和所述第二文本数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

具体地，在基于图片识别模型对第三图片数据进行识别，得到第二文本数据后，可以是将第二文本数据作为样本数据，再重复一次本实施方式中如上所述的识别过程，以得到对应的目标数据。也即，基于文本识别模型对第二文本数据进行识别，得到第五图片数据，进一步基于图片识别模型对第五图片数据进行识别，得到第五文本数据，第五文本数据也即目标数据，通过计算第五文本数据与第二文本数据之间的相似度，以对文本识别模型和图片识别模型进行训练。

本实施方式中，第一文本数据在依次经过文本识别模型和图片识别模型的转换得到第二文本数据后，将第二文本数据作为样本数据来对文本识别模型和图片识别模型进行训练，这样也就扩充了多模态识别模型的样本数据，使得对于样本数据的获取更为便捷，也使得文本识别模型和图片识别模型能够基于文本数据和图片数据进行滚动训练，以提升模型的训练效率。

请参照图2，图2是本公开另一实施例提供的另一种多模态识别模型的训练方法的流程图。如图2中a所示，若样本数据为图片数据，输入图片数据，该图片数据经图片识别模型识别后，转换得到输出的文本数据，文本数据进一步经文本识别模型识别后，转换得到输出的图片数据，将该输出的图片数据与输入的图片数据进行相似度比较，进而以对图片识别模型和文本识别模型进行训练；其中，输出的图片数据同样可以作为输入数据(如图2中a中虚线所示)，经过图片识别模型进行识别，得到输出的文本数据，该文本数据再经过文本识别模型识别，输出图片数据，计算该图片数据与前一次输出的图片数据之间的相似度，以对图片识别模型和文本识别模型进行训练，这样也就扩充了模型训练的样本数据，使得对于样本数据的获取更为便捷，且能够实现对图片识别模型和文本识别模型的滚动训练，以提升模型训练的效率。

或者如图2中b所示，若样本数据为文本数据，输入文本数据，该文本数据经文本识别模型识别后，转换得到输出的图片数据，图片数据进一步经图片识别模型识别后，转换得到输出的文本数据，将该输出的文本数据与输入的文本数据进行相似度比较，进而以对图片识别模型和文本识别模型进行训练；其中，输出的文本数据同样可以作为输入数据(如图2中b中虚线所示)，经过文本识别模型进行识别，得到输出的图片数据，该图片数据再经过图片识别模型识别，输出文本数据，计算该文本数据与前一次输出的文本数据之间的相似度，以对图片识别模型和文本识别模型进行训练，这样也就扩充了模型训练的样本数据，且能够实现对图片识别模型和文本识别模型的滚动训练，以提升模型训练的效率。

需要说明地，本实施例中的模型训练方式可以是参照上述图1所述实施例中的具体描述，此处不再赘述。

本公开还提供了一种多模态识别模型的训练装置。

请参照图3，图3是本公开一实施例提供的一种多模态识别模型的训练装置的结构图。如图3所示，所述多模态识别模型的训练装置300包括：

第一获取模块301，用于获取样本数据，所述样本数据包括第一图片数据和第一文本数据中的至少一项；

识别模块302，用于对所述样本数据进行识别，得到目标数据；

训练模块303，用于基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练；

其中，所述目标数据包括如下至少一项：

与所述第一图片数据对应的第二图片数据；

与所述第一文本数据对应的第二文本数据。

可选地，所述多模态识别模型包括文本识别模型和图片识别模型，所述识别模块302还用于：

所述训练模块303还用于：

可选地，所述识别模块302还用于：

所述训练模块303还用于：基于所述第四图片数据与所述第二图片数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

所述训练模块303还用于：

可选地，所述识别模块302还用于：

所述训练模块还用于：基于所述第五文本数据和所述第二文本数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

需要说明地，本实施例提供的多模态识别模型的训练装置300能够实现上述多模态识别模型的训练方法实施例的全部技术方案，因此至少能够实现上述全部技术效果，此处不再赘述。

本公开实施例还提供了一种多模态识别方法。

请参照图4，图4是本公开一实施例提供的一种多模态识别方法的流程图。如图4所示，所述多模态识别方法包括以下步骤：

步骤S401、获取待识别对象，所述待识别对象的表征形式为第一模态；

步骤S402、基于多模态识别模型对所述待识别对象进行识别，并获取所述多模态识别模型输出的识别结果，所述识别结果的表征形式为第二模态；

其中，所述多模态识别模型为根据上述图1所述的方法训练后的多模态识别模型，所述第一模态为图片或文本，所述第二模态为文本或图片，且所述第一模态不同于所述第二模态。

需要说明地，本公开实施例提供的多模态识别方法可以是应用于电子设备，所述电子设备安装有根据上述图1所述的方法训练后的多模态识别模型，该电子设备也就能够基于训练后的多模态识别模型来对待识别对象进行识别。其中，所述多模态识别模型的训练方法可以具体上述图1所述方法实施例中的描述，本实施例不再赘述。

本公开实施例中，电子设备对获取到的待识别对象，通过训练后的多模态识别模型对其进行识别，以得到多模态识别模型输出的识别结果，且输出的识别结果与输入的待识别对象属于不同的模态。例如，第一模态为文本，第二模态为图片，也即在获取到待识别对象为文本的情况下，多模态识别模型对该文本进行识别，例如可以是对该文本进行关键词提取，基于提取的关键词来识别出与关键词匹配的图片，进而以输出与该文本匹配的图片；或者，第一模态为图片，也即在获取到待识别对象为图片的情况下，多模态识别模型对该图片进行识别，例如可以是对图片进行特征提取，基于提取的特征来识别出匹配的文本，进而以输出与该图片对应的文本。这样，也就能够实现跨模态识别，以提升对象识别的应用范围。可选地，该多模态识别方法可以是应用于搜索领域，也就能够实现跨模态检索，提升检索适用范围。本公开实施例还提供了一种多模态识别装置。

请参照图5，图5是本公开一实施例提供的一种多模态识别装置的结构图。如图5所示，所述多模态识别装置500包括：

第二获取模块501，用于获取待识别对象，所述待识别对象的表征形式为第一模态；

第三获取模块502，用于基于多模态识别模型对所述待识别对象进行识别，并获取所述多模态识别模型输出的识别结果，所述识别结果的表征形式为第二模态；

需要说明地，本实施例提供的多模态识别装置500能够实现上述多模态识别方法实施例的全部技术方案，因此至少能够实现上述全部技术效果，此处不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如多模态识别模型的训练方法，或多模态识别方法。例如，在一些实施例中，多模态识别模型的训练方法或多模态识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行上文描述的多模态识别模型的训练方法的一个或多个步骤，或执行上文描述的多模态识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多模态识别模型的训练方法或执行多模态识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种多模态识别模型的训练方法，包括：

对所述样本数据进行识别，得到目标数据；

其中，所述目标数据包括如下至少一项：

与所述第一图片数据对应的第二图片数据；

与所述第一文本数据对应的第二文本数据；

所述多模态识别模型包括文本识别模型和图片识别模型，所述对所述样本数据进行识别，生成目标数据，包括：

所述基于所述目标数据与所述样本数据之间的相似度，对所述多模态识别模型进行训练，包括：

2.根据权利要求1所述的方法，其中，所述对所述文本识别模型和所述图片识别模型进行训练之后，所述方法还包括：

3.根据权利要求1所述的方法，其中，所述对所述样本数据进行识别，生成目标数据，包括：

4.根据权利要求3所述的方法，其中，所述对所述文本识别模型和所述图片识别模型进行训练之后，所述方法还包括：

5.一种多模态识别方法，包括：

获取待识别对象，所述待识别对象的表征形式为第一模态；

其中，所述多模态识别模型为根据权利要求1-4中任一项所述的方法训练后的多模态识别模型，所述第一模态为图片或文本，所述第二模态为文本或图片，且所述第一模态不同于所述第二模态。

6.一种多模态识别模型的训练装置，包括：

第一获取模块，用于获取样本数据，所述样本数据包括第一图片数据和第一文本数据中的至少一项；

识别模块，用于对所述样本数据进行识别，得到目标数据；

其中，所述目标数据包括如下至少一项：

与所述第一图片数据对应的第二图片数据；

与所述第一文本数据对应的第二文本数据；

所述多模态识别模型包括文本识别模型和图片识别模型，所述识别模块还用于：

所述训练模块还用于：

7.根据权利要求6所述的装置，其中，所述识别模块还用于：

所述训练模块还用于：基于所述第四图片数据与所述第二图片数据之间的相似度，对所述文本识别模型和所述图片识别模型进行训练。

8.根据权利要求6所述的装置，其中，所述识别模块还用于：

所述训练模块还用于：

9.根据权利要求8所述的装置，其中，所述识别模块还用于：

10.一种多模态识别装置，包括：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法，或者执行权利要求5所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4中任一项所述的方法，或者执行根据权利要求5所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的方法，或者实现根据权利要求5所述的方法。