CN113033622B

CN113033622B - 跨模态检索模型的训练方法、装置、设备和存储介质

Info

Publication number: CN113033622B
Application number: CN202110244645.XA
Authority: CN
Inventors: 贺峰; 汪琦; 冯知凡; 杨虎; 柴春光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2023-02-03
Anticipated expiration: 2041-03-05
Also published as: JP7331975B2; JP2022135991A; CN113033622A; EP4053751A1; US20220284246A1; KR20220125673A

Abstract

本公开公开了一种跨模态检索模型的训练方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及知识图谱、计算机视觉、深度学习等人工智能技术领域。跨模态检索模型的训练方法包括：根据跨模态样本对，确定所述计算跨模态样本对的相似度，所述跨模态样本对包括：第一模态的样本和第二模态的样本，所述第一模态与所述第二模态不同；基于所述相似度确定软间隔，并基于所述软间隔确定软间隔损失函数；基于所述软间隔损失函数，确定总损失函数，并根据所述总损失函数，训练跨模态检索模型。本公开可以提高跨模态检索模型的检索效果。

Description

跨模态检索模型的训练方法、装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及知识图谱、计算机视觉、深度学习等人工智能技术领域，尤其涉及一种跨模态检索模型的训练方法、装置、设备和存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

随着互联网技术的发展，网络上的数据种类越来越多，比如，文本、图像、视频等，每种数据可以看作一种模态。跨模态检索是指采用一种模态的数据检索另一种模态的数据，比如，采用文本检索视频。跨模态检索可以采用跨模态检索模型，将一种模态的数据输入到跨模态检索模型中，以输出另一种模态的数据。训练跨模态检索模型时，可以采用对比损失函数(contrastive loss)，对比损失函数的一个参数为间隔(margin)。

相关技术中，训练跨模态检索模型时，采用的对比损失函数中的间隔为固定值。

发明内容

本公开提供了一种视频分类方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种跨模态检索模型的训练方法，包括：根据跨模态样本对，确定所述跨模态样本对的相似度，所述跨模态样本对包括：第一模态的样本和第二模态的样本，所述第一模态与所述第二模态不同；基于所述相似度确定软间隔，并基于所述软间隔确定软间隔损失函数；基于所述软间隔损失函数，确定总损失函数，并根据所述总损失函数，训练跨模态检索模型。

根据本公开的另一方面，提供了一种跨模态检索模型的训练装置，包括：第一计算模块，用于根据跨模态样本对，确定所述跨模态样本对的相似度，所述跨模态样本对包括：第一模态的样本和第二模态的样本，所述第一模态与所述第二模态不同；第二计算模块，用于基于所述相似度确定软间隔，并基于所述软间隔确定软间隔损失函数；训练模块，用于基于所述软间隔损失函数，确定总损失函数，并根据所述总损失函数，训练跨模态检索模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，可以提高跨模态检索模型的训练模型的检索效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是根据本公开第七实施例的示意图；

图8是根据本公开第八实施例的示意图；

图9是根据本公开第九实施例的示意图；

图10是根据本公开第十实施例的示意图；

图11是用来实现本公开实施例的跨模态检索模型的训练方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开第一实施例的示意图。本实施例提供一种跨模态检索模型的训练方法，该方法包括：

101、根据跨模态样本对，确定所述跨模态样本对的相似度，所述跨模态样本对包括：第一模态的样本和第二模态的样本，所述第一模态与所述第二模态不同。

102、基于所述相似度确定软间隔，并基于所述软间隔确定软间隔损失函数。

103、基于所述软间隔损失函数，确定总损失函数，并根据所述总损失函数，训练跨模态检索模型。

参见图2，用户在跨模态检索时，以采用文本检索视频为例，跨模态检索系统接收用户输入的文本，如“汽车”，跨模态检索系统可以利用跨模态检索模型，找对与该文本匹配的视频，如“汽车”相关的视频，再将匹配的视频反馈给用户。跨模态检索模型可以包括：文本编码模型(text encoder)201和视频编码模型，文本编码模型将用户输入的文本转换为文本表示(text representation)，视频编码模型将视频库中的视频转换为视频表示(video representation)。进一步地，视频编码模型可以包括视频特征提取模型(videofeature extractor)202和视频特征融合模型(video feature aggregator)203，视频特征提取模型用于提取视频特征，视频特征融合模块用于对视频特征进行融合。文本编码模型、视频特征提取模型的骨干结构均可以采用相关技术中的对应的语义表示提取模型，比如，文本编码模型为双向Transformer的Encoder(Bidirectional Encoder Representationsfrom Transformers，BERT)模型，视频特征提取模型为卷积神经网络(ConvolutionalNeural Network，CNN)模型，如resnet。视频特征融合模型也可以采用相关技术中的特征融合方式，比如，一般视频特征提取模型提取出多模态的视频特征，视频特征融合模块可以对各模态的视频特征进行加权求和得到融合后的视频特征，即视频表示。经过文本编码模型和视频编码模型，可以得到对应的语义表示，即文本表示和视频表示，之后可以通过语义特征匹配模块204，获取与文本表示最匹配的视频表示，并将对应的视频作为与用户输入的文本匹配的视频。语义特征匹配也可以采用各种相关技术实现，比如采用近似最近邻(Approximate Nearest Neighbor，ANN)算法进行匹配。

如上描述，在跨模态检索时可以采用跨模态检索模型进行，本实施例提供一种跨模态模型的训练方法，以提供效果更好的模型，进而提高跨模态检索效果。

本实施例的执行主体可以为单一设备主体，比如为服务器。

第一模态和第二模态是两种不同的模态，本公开实施例中，以第一模态为文本(text)、第二模态为视频(video)，进行说明。

为了与对比损失函数中通常采用的间隔(margin)进行区分，通常采用的间隔是固定值，可以称为硬间隔(hard margin)，本公开实施例中，会基于上述的相似度确定间隔，该间隔不是固定值，可以称为软间隔(soft margin)。相应地，与硬间隔对应的损失函数可以称为硬间隔损失函数，与软间隔对应的损失函数可以称为软间隔损失函数。

通常的基于固定值的硬间隔计算损失函数时，总损失函数仅基于硬间隔损失函数计算。本公开实施例中，引入了软间隔以及软间隔损失函数，因此，总损失函数不仅基于硬间隔损失函数，还基于软间隔损失函数计算。

本实施例中，通过基于跨模态样本对的相似度确定软间隔，并基于软间隔计算软间隔损失函数，基于软间隔损失函数计算总损失函数，可以依据不同的跨模态样本对选择不同的间隔，避免固定的间隔引起的问题，提高跨模态检索模型的检索效果。

一些实施例中，对比损失函数可以为三元对比损失函数(triplet contrastiveloss)。在三元对比损失函数中，软间隔基于相似度距离确定，相似度距离是指正样本对的相似度与负样本对的相似度之间的距离。

即，所述跨模态样本对为至少一对，所述至少一对的跨模态样本对包括：正样本对和负样本对，所述正样本对包括：锚样本和正样本，所述负样本对包括：所述锚样本和负样本，所述锚样本为第一模态，所述正样本和所述负样本均为第二模态；所述基于所述相似度确定软间隔，包括：计算所述正样本对的相似度与所述负样本对的相似度之间的距离，以得到相似度距离；基于所述相似度距离，确定软间隔。

对应三元对比损失函数，样本可以分为：锚样本(anchor sample)、正样本(positive sample)、负样本(negative sample)。假设锚样本、正样本和负样本分别用A、P、N表示，锚样本和正样本组成的样本对<A,P>可以称为正样本对，锚样本和负样本组成的样本对<A,N>可以称为负样本对。锚样本比如为在样本集中的一个文本；正样本是指样本集中与该文本相关的视频；负样本是样本集中随机选择的视频，该视频可以与该文本相关或者不相关。

如图3所示，假设锚样本为文本“汽车”，正样本用P表示，是与“汽车”相关的视频，负样本用N表示，是随机选择的视频(图中视频用视频帧表示)，可以与“汽车”相关或不相关，在图3中，负样本包括了一个与“汽车”相关的视频(N1)，以及，一个与“汽车”不相关的视频(N2)。相关技术中，如图3左侧所示，间隔(margin)是固定值，用硬间隔表示，而在本公开实施例中，如图3右侧所示，间隔不是固定值，用软间隔表示，具体地，如果一个负样本与锚样本相关，则该相关的负样本对应的间隔应该小于不相关的负样本对应的间隔。

由于负样本可能与锚样本相关或不相关，如果采用固定的间隔，则可能会造成错误的学习方向，降低跨模态检索模型的效果。

本实施例中，可以基于正样本对的相似度与负样本对的相似度之间的相似度距离，确定软间隔，可以适用于三元对比损失函数的场景。

图4是根据本公开第四实施例的示意图，本实施例提供一种跨模态检索模型的训练方法，如图4所示，该方法包括：

401、基于跨模态数据集，构造至少一组对比样本组。

跨模态数据集由多个跨模态匹配样本对组成，每个跨模态匹配样本对包括两个不同模态的相互匹配的样本，假设两个不同模态分别为文本和视频，则一个跨模态匹配样本对可以表示为(v,t)，其中，v表示视频，t表示文本。

以三元对比为例，各组对比样本组包括：锚样本、正样本和负样本，锚样本是跨模态匹配样本对中的一个样本，正样本是锚样本所在的跨模态匹配样本对中的另一个样本，负样本是随机选择的非锚样本所在的跨模态匹配样本对中，与锚样本具有不同模态的样本。比如，两个跨模态匹配样本对分别为<vⁱ,tⁱ>和<v^j,t^j>，假设选择的锚样本为tⁱ，则正样本为vⁱ，负样本为v^j，因此，一组对比样本组可以为：(tⁱ，vⁱ，v^j)。

一般来讲，跨模态检索对应的对比样本组可以选为两组，即，除了上述的一组对比样本组(tⁱ，vⁱ，v^j)之外，还可以选择另一组对比样本对为：(vⁱ，tⁱ，t^j)。

402、基于各对比样本组，计算对应的损失函数，以得到对应样本组的损失函数。

基于各对比样本组计算对应的损失函数的过程是类似的，具体可以参见后续描述。

403、基于所述至少一组对比样本组的各对应样本组的损失函数，计算总损失函数。

比如，各对应样本组的损失函数，将相加后的函数作为总损失函数。

比如，参见图5，假设两组对比样本组分别称为第一对比样本组和第二对比样本组，相应的损失函数可以称为第一损失函数和第二损失函数，如图5所示，可以将第一损失函数和第二损失函数相加，将相加后的函数作为总损失函数。

用公式表示为：

其中，L^full是总损失函数，

分别是第一损失函数和第二损失函数，即，

是基于(tⁱ，vⁱ，v^j)计算的损失函数，

是基于(vⁱ，tⁱ，t^j)计算的损失函数。

在得到总损失函数后，可以采用总损失函数训练跨模态检索模型，即，调整文本编码模型的参数和视频编码模型的参数，直至总损失函数收敛。

本实施例中，基于各对应样本组的损失函数计算总损失函数，可以考虑不同的负样本对的组成情况，提高总损失函数的准确度，进而提高跨模态检索模型的效果。

上述描述了基于各对比样本组计算损失函数，以便基于各对比样本组的损失函数计算总损失函数，并基于总损失函数训练跨模态检索模型。下面描述各对比样本组的损失函数的计算过程。各对比样本组的损失函数的计算过程类似，下面以一个对比样本组的计算过程为例，参见图6，该方法包括：

601、基于对比样本组，构造跨模态样本对，所述跨模态样本对包括：正样本对和负样本对，所述正样本对包括：锚样本和正样本，所述负样本对包括：所述锚样本和负样本，所述锚样本为第一模态，所述正样本和所述负样本均为第二模态。

以对比样本组为(tⁱ，vⁱ，v^j)为例，则构造的正样本对为<vⁱ,tⁱ>，负样本对为<v^j,tⁱ>。

602、计算所述跨模态样本对的预测相似度距离。

预测相似度距离是指第一预测相似度与第二预测相似度之间的距离，所述第一预测相似度为所述正样本对的预测相似度，所述第二预测相似度为所述负样本对的预测相似度。

如图7所示，锚样本为文本“显示了一辆汽车(a car is shown)”，正样本用P表示、负样本用N表示，图7中正样本和负样本均为与汽车相关的视频。

以锚样本为文本为例，锚样本可以称为锚文本、正样本和负样本可以分别称为正视频和负视频。在获取到对比样本组(锚文本、正视频和负视频)后，可以将其输入到跨模态检索模型中，文本编码模型对锚文本进行编码，以得到预测文本表示，视频编码模型(视频特征提取模型和视频特征融合模块)分别对正视频和负视频进行编码，以得到第一预测视频表示和第二预测视频表示；之后，计算预测文本表示与第一预测视频表示的相似度，作为第一预测相似度，计算预测文本表示与第二预测视频表示的相似度，作为第二预测相似度；再计算第二预测相似度与第一预测相似度的差作为预测相似度距离。

603、基于所述对比样本组对应的样本对，获取软间隔，以及，基于所述软间隔和所述预测相似度距离计算软间隔损失函数。

软间隔和软间隔损失函数的计算过程可以参见后续描述。

604、基于硬间隔和所述预测相似度距离计算硬间隔损失函数，以及，基于所述硬间隔损失函数和所述软间隔损失函数，计算对比样本组的损失函数。

硬间隔损失函数是指基于固定的间隔计算的对比损失函数，可以采用相关技术实现。

在得到软间隔损失函数和硬间隔损失函数后，可以对其进行相加运算，基于相加后的损失函数得到对比样本组的损失函数。

进一步地，软间隔损失函数可以包括至少一个状态的软间隔损失函数，相应地，可以对各状态的软间隔损失函数进行加权求和，再与硬间隔损失函数进行相加，再基于相加后的损失函数计算对比样本组的损失函数。如图7所示，至少一个状态的软间隔损失函数可以包括：静态软间隔损失函数和动态软间隔损失函数。

用公式表示为：

其中，B是锚样本的数量，i是锚样本的索引，j是负样本的索引；

是硬间隔损失函数，m是硬间隔；

是动态软间隔损失函数，(Ω_d,Γ_d)是动态软间隔；

是静态软间隔损失函数，(Ω_s,Γ_s)是静态软间隔；λ是加权系数，其中，不同对比样本组对应的加权系数可以相同或不同，上述公式中以均表示为λ为例。

硬间隔损失函数可以为三元对比损失函数，计算公式为：

其中，

是正样本对相似度，

分别是一个负样本对相似度，[*]₊表示取正运算，即

是模态为v，索引为i的样本的语义表示，其余语义表示

类似，其中，模态是文本t，则对应的语义表示为文本表示，模态是视频v，则对应的语义表示为视频表示。文本表示

可以通过文本编码模型得到，视频表示

可以通过视频编码模型得到。

上面描述了基于软间隔损失函数和硬间隔损失函数计算对比样本组的损失函数，下面描述软间隔损失函数的计算过程。

参见图7，软间隔损失函数可以包括：动态软间隔损失函数和静态软间隔损失函数，动态软间隔损失函数和静态软间隔损失函数的计算过程类似。以动态软间隔损失函数

为例，(Ω_d,Γ_d)分别对应视频和文本，本实施例的主要思想是将跨模态的损失函数转换为两个单一模态下的损失函数的求和运算。

如图8所示，软间隔损失函数的计算方法可以包括：

801、获取所述跨模态样本对，对应的第一模态下的样本对和第二模态下的样本对。

可以基于对比样本组对应的样本对获取，对比样本组对应的样本对包括：正样本对应的样本对，以及，负样本对应的样本对，正样本对应的样本对包括：正样本，以及正样本的另一模态的样本，负样本对应的样本对包括：负样本，以及负样本的另一模态的样本。以正样本和负样本均为视频，另一模态为文本为例，正样本和负样本可以分别称为正视频和负视频，正样本的另一模态的样本可以称为正文本、负样本的另一模态的样本可以称为负文本，则正样本对应的样本对包括：正视频和正文本，负样本对应的样本对包括负视频和负文本。如图7所示，正样本对应的样本对包括：正视频P，以及正文本“显示了一辆汽车(a caris shown)”，负样本对应的样本对包括：负视频N，以及负文本“正在展示的汽车(a car isbeing displayed)”。

如图9所示，跨模态域中的对比样本组包括：锚文本、正视频和负视频，正视频对应正文本、负视频对应负文本，锚文本在视频模态域对应内容称为锚视频，锚视频与正视频相同。

第一模态下的样本对包括：<锚文本，正文本>，<锚文本，负文本>；第二模态下的样本对包括：<锚视频，正视频>，<锚视频，负视频>。

802、采用第一模态下的语义表示模型，对所述第一模态下的样本对进行处理，以得到所述第一模态下的样本对的相似度距离，以及，采用第二模态下的语义表示模型，对所述第二模态下的样本对进行处理，以得到所述第二模态下的样本对的相似度距离。

参见图7，对应不同的状态(动态、静态)以及不同的模态(文本、视频)，语义表示模型还可以称为对应状态和模态的监督专家，比如，动态文本监督专家等。

以静态监督专家组为例，采用静态文本监督专家处理第一模态下的样本对，即<锚文本，正文本>，<锚文本，负文本>；采用静态视频监督专家处理第二模态下的样本对，即<锚视频，正视频>，<锚视频，负视频>。

静态文本监督专家可以得到第一模态下的两个样本对(<锚文本，正文本>和<锚文本，负文本>)的相似度距离。类似地，静态视频监督专家可以得到第二模态下的两个样本对(<锚视频，正视频>，<锚视频，负视频>)的相似度距离。

以第一模态为例，静态文本监督专家可以分别得到锚文本的文本表示和负文本的文本表示，再基于这两个文本表示计算出第一模态下的样本对的相似度距离。用公式表示为：

其中，Γ_s(t_i,t_i)-Γ_s(t_i,t_j)是第一模态下的样本对的相似度距离，bert(t_i)是锚文本t_i的文本表示，bert(t_j)是负文本t_j的文本表示，此处以静态文本监督专家为bert-sentence模型为例。＜*＞是内积运算，||*||是范数运算。

类似地，基于静态视频监督专家可以得到第二模态下的样本对的相似度距离。用公式表示为：

其中，Ω_s(v_i,v_i)-Ω_s(v_i,v_j)是第二模态下的样本对的相似度距离，ψ(v_i)是锚视频v_i的视频表示，ψ(v_j)是负视频v_j的视频表示，静态视频监督专家比如为CNN，具体可以为resnet-152。与文本不同的是，由于视频是针对视频帧处理的，所以可以对CNN提取的特征进行池化(pooling)操作，以将视频表示从矩阵形式转换为向量形式。

上述示出了静态监督专家组的处理流程，动态监督专家组的处理流程也是类似的，不同的是，静态监督专家组采用的是已有的预训练模型，比如，上述的BERT模型或者resnet-152模型，而动态监督专家组采用的是跨模态检索模型自身，即，跨模态检索模型的参数是不断调整的，对于当前时刻，可以用当前时刻已经存在的当前参数，对各个模态下的样本对进行处理。比如，用已有的文本编码模型的参数处理第一模态下的样本对，用已有的视频编码模型的参数处理第二模态下的样本对。

经过上述处理，可以得到四个相似度距离，可以分别称为静态文本相似度距离Γ_s(i,j)、静态视频相似度距离Ω_s(i,j)、动态文本相似度距离Γ_d(i,j)和动态视频相似度距离Ω_d(i,j)。静态文本相似度距离和静态视频相似度距离可以统称为静态相似度距离，动态文本相似度距离和动态视频相似度距离可以统称为动态相似度距离。

本实施例中，通过采用单一模态下的语义表示模型，可以计算得到对应的单一模态下的相似度距离。

803、对所述第一模态下的样本对的相似度距离进行处理，以得到第一模态下的软间隔，以及，对所述第二模态下的样本对的相似度距离进行处理，以得到第二模态下的软间隔。

如图7所示，可以对相似度距离进行归一化处理，以得到对应的软间隔。用公式表示为：

其中，Γ(i,j)是第一模态下的相似度距离，比如，对应静态，Γ(i,j)具体为Γ_s(i,j)，Γ_s(i,j)＝Γ_s(t_i,t_i)-Γ_s(t_i,t_j)，F(Γ(i,j)；α,β)是归一化后的相似度距离，即对应的软间隔，比如，F(Γ_s(i,j)；α,β)是静态文本软间隔。α,β是超参数，σ(β)是β对应的方差，var[*]是方差运算，E[*]是期望运算。

其余软间隔的计算方式类似，不再详述，经过归一化处理，可以得到静态文本软间隔、静态视频软间隔、动态文本软间隔、动态视频软间隔。

通过对相似度距离进行归一化，可以均衡不同模态下的相似度距离，使得不同模态下的相似度距离具有可比性。

804、基于所述第一模态下的软间隔和所述预测相似度距离，计算第一模态下的对比损失函数，以及，基于所述第二模态下的软间隔和所述预测相似度距离，计算第二模态下的对比损失函数。

805、根据所述第一模态下的对比损失函数和所述第二模态下的对比损失函数，计算软间隔损失函数。

可以将第一模态下的对比损失函数和第二模态下的对比损失函数相加，将相加后得到的函数作为软间隔损失函数。用公式表示为：

其中，

是分别对应两组对比样本组的软间隔损失函数，

是第一模态下的对比损失函数，

是第二模态下的对比损失函数。具体地，在计算静态软间隔损失函数时，上述的Γ(i,j),Ω(i,j)分别为Γ_s(i,j),Ω_s(i,j)；在计算动态软间隔损失函数时，上述的Γ(i,j),Ω(i,j)分别为Γ_d(i,j),Ω_d(i,j)。第一模态下的对比损失函数和第二模态下的对比损失函数均可以采用上述的硬间隔损失函数的计算原理计算，不同点在于，硬间隔损失函数的间隔为固定值m，两个模态下的对比损失函数的间隔为对应的软间隔F(Ω(i,j)；α,β)。

本实施例中，通过将软间隔损失函数的计算过程转换为第一模态下的对比损失函数与第二模态下的对比损失函数之和，可以将跨模态的损失函数的计算转换为单一模态下的损失函数计算，可以提高软间隔损失函数的计算效率。通过软间隔损失函数包括动态软间隔损失函数和静态软间隔损失函数，可以使得软间隔损失函数包括其他模型的知识，以及自身模型的知识，提高跨模态检索模型的效果。通过采用预训练模型获取静态相似度距离，可以利用已有的模型，实现对已有模型的知识的引入，通过利用跨模态检索模型的当前参数，实现对自身模型的知识的引入。

图10是本公开第十实施例的示意图，本实施例提供一种跨模态检索模型的训练装置，该装置1000包括：第一计算模块1001、第二计算模块1002和训练模块1003。

第一计算模块1001用于根据跨模态样本对，确定所述跨模态样本对的相似度，所述跨模态样本对包括：第一模态的样本和第二模态的样本，所述第一模态与所述第二模态不同；第二计算模块1002用于基于所述相似度确定软间隔，并基于所述软间隔确定软间隔损失函数；训练模块1003用于基于所述软间隔损失函数，确定总损失函数，并根据所述总损失函数，训练跨模态检索模型。

一些实施例中，所述跨模态样本对为至少一对，所述至少一对的跨模态样本对包括：正样本对和负样本对，所述正样本对包括：锚样本和正样本，所述负样本对包括：所述锚样本和负样本，所述锚样本为第一模态，所述正样本和所述负样本均为第二模态；所述第二计算模块1002具体用于：计算所述正样本对的相似度与所述负样本对的相似度之间的距离，以得到相似度距离；基于所述相似度距离，确定软间隔。

一些实施例中，所述第二计算模块1002进一步具体用于：对所述相似度距离进行归一化处理，以得到归一化的相似度距离，将所述归一化的相似度距离，确定为软间隔。

一些实施例中，所述相似度距离包括：第一模态下的相似度距离和第二模态下的相似度距离；所述第二计算模块1002进一步具体用于：基于所述第一模态下的相似度距离确定第一模态下的软间隔，并基于所述第一模态下的软间隔，计算第一模态下的对比损失函数；基于所述第二模态下的相似度距离确定第二模态下的软间隔，并基于所述第一模态下的软间隔，计算第二模态下的对比损失函数；根据所述第一模态下的对比损失函数和所述第二模态下的对比损失函数，计算软间隔损失函数。

一些实施例中，所述第一计算模块1001具体用于：获取所述跨模态样本对，对应的第一模态下的样本对和第二模态下的样本对；采用第一模态下的语义表示模型，对所述第一模态下的样本对进行处理，以得到所述第一模态下的相似度距离，以及，采用第二模态下的语义表示模型，对所述第二模态下的样本对进行处理，以得到所述第二模态下的相似度距离。

一些实施例中，所述跨模态样本对，对应至少一组对比样本组，所述训练模块1003具体用于：基于所述软间隔损失函数，计算对应的对比样本组的损失函数；基于所述至少一组对比样本组的各对应样本组的损失函数，计算总损失函数。

一些实施例中，所述软间隔损失函数包括：至少一个状态的软间隔损失函数，所述训练模块1003进一步具体用于：对所述至少一个状态的软间隔损失函数进行加权求和，以得到加权求和函数；将所述加权求和函数和硬间隔损失函数相加，并基于相加后的函数计算对应的对比样本组的损失函数。

一些实施例中，所述相似度距离包括静态相似度距离和动态相似度距离，所述软间隔损失函数包括：静态软间隔损失函数和动态软间隔损失函数，所述静态软间隔损失函数基于所述静态相似度距离计算，所述动态软间隔损失函数基于所述动态相似度距离计算，所述第二计算模块1002具体用于：采用预训练模型，计算所述正样本对的相似度与所述负样本对的相似度之间的距离，以得到所述静态相似度距离；和/或，采用所述跨模态检索模型的当前参数，计算所述正样本对的相似度与所述负样本对的相似度之间的距离，以得到所述动态相似度距离。

可以理解的是，本公开实施例中，不同实施例中的相同或相似内容可以相互参考。

可以理解的是，本公开实施例中的“第一”、“第二”等只是用于区分，不表示重要程度高低、时序先后等。

本公开实施例中，通过基于跨模态样本对的相似度确定软间隔，并基于软间隔计算软间隔损失函数，基于软间隔损失函数计算总损失函数，可以依据不同的跨模态样本对选择不同的间隔，避免固定的间隔引起的问题，提高跨模态检索模型的检索效果。可以基于正样本对的相似度与负样本对的相似度之间的相似度距离，确定软间隔，可以适用于三元对比损失函数的场景。基于各对应样本组的损失函数计算总损失函数，可以考虑不同的负样本对的组成情况，提高总损失函数的准确度，进而提高跨模态检索模型的效果。通过采用单一模态下的语义表示模型，可以计算得到对应的单一模态下的相似度距离。基于各对应样本组的损失函数计算总损失函数，可以考虑不同的负样本对的组成情况，提高总损失函数的准确度，进而提高跨模态检索模型的效果。通过将软间隔损失函数的计算过程转换为第一模态下的对比损失函数与第二模态下的对比损失函数之和，可以将跨模态的损失函数的计算转换为单一模态下的损失函数计算，可以提高软间隔损失函数的计算效率。通过软间隔损失函数包括动态软间隔损失函数和静态软间隔损失函数，可以使得软间隔损失函数包括其他模型的知识，以及自身模型的知识，提高跨模态检索模型的效果。通过采用预训练模型获取静态相似度距离，可以利用已有的模型，实现对已有模型的知识的引入，通过利用跨模态检索模型的当前参数，实现对自身模型的知识的引入。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如跨模态检索模型的训练方法。例如，在一些实施例中，视频分类模型的生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的跨模态检索模型的训练的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行跨模态检索模型的训练。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种跨模态检索模型的训练方法，包括：

根据跨模态样本对，确定所述跨模态样本对的相似度，所述跨模态样本对包括：第一模态的样本和第二模态的样本，所述第一模态与所述第二模态不同；其中，所述跨模态样本对包括：正样本对和负样本对，所述正样本对包括：锚样本和正样本，所述负样本对包括：所述锚样本和负样本，所述锚样本为第一模态，所述正样本和所述负样本均为第二模态；

基于所述相似度确定软间隔，并基于所述软间隔确定软间隔损失函数；其中，所述软间隔是非固定值；

基于所述软间隔损失函数，确定总损失函数，并根据所述总损失函数，训练跨模态检索模型；

其中，所述基于所述相似度确定软间隔，包括：

计算所述正样本对的相似度与所述负样本对的相似度之间的距离，以得到相似度距离；

对所述相似度距离进行归一化处理，以得到归一化的相似度距离，将所述归一化的相似度距离，确定为软间隔；

所述相似度距离包括：第一模态下的相似度距离和第二模态下的相似度距离；

所述基于所述相似度确定软间隔，并基于所述软间隔确定软间隔损失函数，包括：

基于所述第一模态下的相似度距离确定第一模态下的软间隔，并基于所述第一模态下的软间隔，计算第一模态下的对比损失函数；

基于所述第二模态下的相似度距离确定第二模态下的软间隔，并基于所述第一模态下的软间隔，计算第二模态下的对比损失函数；

根据所述第一模态下的对比损失函数和所述第二模态下的对比损失函数，计算软间隔损失函数。

2.根据权利要求1所述的方法，其中，所述根据跨模态样本对，确定所述跨模态样本对的相似度，包括：

获取所述跨模态样本对，对应的第一模态下的样本对和第二模态下的样本对；

采用第一模态下的语义表示模型，对所述第一模态下的样本对进行处理，以得到所述第一模态下的相似度距离，以及，采用第二模态下的语义表示模型，对所述第二模态下的样本对进行处理，以得到所述第二模态下的相似度距离。

3.根据权利要求1-2任一项所述的方法，其中，所述跨模态样本对，对应至少一组对比样本组，所述基于所述软间隔损失函数，确定总损失函数，包括：

基于所述软间隔损失函数，计算对应的对比样本组的损失函数；

基于所述至少一组对比样本组的各对应样本组的损失函数，计算总损失函数。

4.根据权利要求3所述的方法，其中，所述软间隔损失函数包括：至少一个状态的软间隔损失函数，所述基于所述软间隔损失函数，计算对应的对比样本组的损失函数，包括：

对所述至少一个状态的软间隔损失函数进行加权求和，以得到加权求和函数；

将所述加权求和函数和硬间隔损失函数相加，并基于相加后的函数计算对应的对比样本组的损失函数。

5.根据权利要求1-2任一项所述的方法，其中，所述相似度距离包括静态相似度距离和动态相似度距离，所述软间隔损失函数包括：静态软间隔损失函数和动态软间隔损失函数，所述静态软间隔损失函数基于所述静态相似度距离计算，所述动态软间隔损失函数基于所述动态相似度距离计算，所述计算所述正样本对的相似度与所述负样本对的相似度之间的距离，以得到相似度距离，包括：

采用预训练模型，计算所述正样本对的相似度与所述负样本对的相似度之间的距离，以得到所述静态相似度距离；和/或，

采用所述跨模态检索模型的当前参数，计算所述正样本对的相似度与所述负样本对的相似度之间的距离，以得到所述动态相似度距离。

6.一种跨模态检索模型的训练装置，包括：

第一计算模块，用于根据跨模态样本对，确定所述跨模态样本对的相似度，所述跨模态样本对包括：第一模态的样本和第二模态的样本，所述第一模态与所述第二模态不同；其中，所述跨模态样本对包括：正样本对和负样本对，所述正样本对包括：锚样本和正样本，所述负样本对包括：所述锚样本和负样本，所述锚样本为第一模态，所述正样本和所述负样本均为第二模态；

第二计算模块，用于基于所述相似度确定软间隔，并基于所述软间隔确定软间隔损失函数；其中，所述软间隔是非固定值；

训练模块，用于基于所述软间隔损失函数，确定总损失函数，并根据所述总损失函数，训练跨模态检索模型；

其中，所述第二计算模块具体用于：

所述第二计算模块进一步具体用于：

7.根据权利要求6所述的装置，其中，所述第一计算模块具体用于：

8.根据权利要求6-7任一项所述的装置，其中，所述跨模态样本对，对应至少一组对比样本组，所述训练模块具体用于：

9.根据权利要求8所述的装置，其中，所述软间隔损失函数包括：至少一个状态的软间隔损失函数，所述训练模块进一步具体用于：

10.根据权利要求6-7任一项所述的装置，其中，所述相似度距离包括静态相似度距离和动态相似度距离，所述软间隔损失函数包括：静态软间隔损失函数和动态软间隔损失函数，所述静态软间隔损失函数基于所述静态相似度距离计算，所述动态软间隔损失函数基于所述动态相似度距离计算，所述第二计算模块具体用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。