CN112434744B

CN112434744B - 一种多模态特征融合模型的训练方法及装置

Info

Publication number: CN112434744B
Application number: CN202011360882.4A
Authority: CN
Inventors: 赵翔
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2023-05-26
Anticipated expiration: 2040-11-27
Also published as: CN112434744A

Abstract

本发明实施例提供了一种多模态特征融合模型的训练方法及装置，该方法包括：获取多个样本对象的多项特征信息；根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量；将融合特征向量进行特征还原，得到每一个样本对象的还原特征向量；计算融合特征向量与还原特征向量之间的第一损失值；根据第一损失值，修改第一目标参数的取值，直到满足第一预设条件时，停止修改第一目标参数的取值。因此，本发明的方案，在一定程度上解决了现有的特征融合方法在融合过程中可能会丢失部分信息，从而使得最终得到的融合特征不准确的问题。

Description

一种多模态特征融合模型的训练方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种多模态特征融合模型的训练方法及装置。

背景技术

特征融合是将提取的不同特征通过某种方法生成新的特征，使新特征对分类更有效。例如在视频分析中，视频可以分解为音频、图像、字幕等多模态信息。对多模态特征进行特征融合的主要目的在于通过不同特征集的互补融合，联合学习各模态数据的潜在共享信息，进而提升数据任务的有效性。

然而，现有的特征融合方法在融合过程中可能会丢失部分信息，从而使得最终得到的融合特征不准确。

发明内容

本发明实施例的目的在于提供一种多模态特征融合模型的训练方法及装置，以在一定程度上解决现有的特征融合方法在融合过程中可能会丢失部分信息，从而使得最终得到的融合特征不准确的问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种多模态特征融合模型的训练方法，所述方法包括：

获取多个样本对象的多项特征信息；

根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量；

将所述融合特征向量进行特征还原，得到每一个样本对象的还原特征向量；

计算所述融合特征向量与所述还原特征向量之间的第一损失值；

根据所述第一损失值，修改所述第一目标参数的取值，直到满足第一预设条件时，停止修改所述第一目标参数的取值；

从满足所述第一预设条件之前修改的所述第一目标参数的取值中，选择满足第二预设条件时所述第一目标参数的目标取值，并将所述第一目标参数为所述目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。

在本发明实施的第二方面，还提供了一种多模态特征融合模型的训练装置，所述装置包括：

特征获取模块，用于获取多个样本对象的多项特征信息；

特征融合模块，用于根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量；

特征还原模块，用于将所述融合特征向量进行特征还原，得到每一个样本对象的还原特征向量；

第一计算模块，用于计算所述融合特征向量与所述还原特征向量之间的第一损失值；

修改模块，用于根据所述第一损失值，修改所述第一目标参数的取值，直到满足第一预设条件时，停止修改所述第一目标参数的取值；

确定模块，用于从满足所述第一预设条件之前修改的所述第一目标参数的取值中，选择满足第二预设条件时所述第一目标参数的目标取值，并将所述第一目标参数为所述目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述所述的多模态特征融合模型的训练方法的步骤。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的多模态特征融合模型的训练方法。

在本发明实施的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的多模态特征融合模型的训练方法。

本发明实施例提供的多模态特征融合模型的训练方法，能够获取多个样本对象的多项特征信息，并根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量，从而将融合特征向量进行特征还原，得到每一个样本对象的还原特征向量，进而计算融合特征向量与还原特征向量之间的第一损失值，并根据第一损失值修改第一目标参数，直到满足第一预设条件时，停止修改第一目标参数，并从满足第一预设条件之前修改的第一目标参数的取值中，选择满足第二预设条件时第一目标参数的目标取值，进而将第一目标参数为该目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。

由此可见，本发明的实施例，在获得每一个样本对象的融合特征向量之后，还会对融合特征向量进行特征还原，从而计算融合特征向量与还原特征向量之间的第一损失值，并根据第一损失值修改第一目标参数，即根据第一损失值对多模态特征融合模型进行训练，从而使得多模态特征融合模型的第一目标参数可以取合适值，以在一定程度上减少特征融合过程中丢失的信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种多模态特征融合模型的训练方法的步骤流程图；

图2为本发明实施例提供的另一种多模态特征融合模型的训练方法的步骤流程图；

图3为本发明实施例提供的多模态特征融合模型的训练方法的具体实施方式的流程示意图；

图4为本发明实施例提供的一种多模态特征融合模型的训练装置的框图；

图5为本发明实施例提供的另一种多模态特征融合模型的训练装置的框图；

图6为本发明实施例提供的电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

图1是本发明实施例提供的一种多模态特征融合模型的训练方法的步骤流程图，如图1所示，该方法可以包括：

步骤101：获取多个样本对象的多项特征信息。

本发明的实施例中，需要采集每一个样本对象的多项特征信息，例如样本对象为视频样本对象时，可以采集视频样本对象的视频封面、视频标题、视频内容这三项特征信息。其中，可以理解的是，本发明的实施例中的样本对象并不局限于视频样本对象，例如还可为图片、音频等。

步骤102：根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量。

其中，每一个样本对象均存在多项特征信息，则本发明的实施例中，需要针对每一个样本对象，将步骤101中获取的属于同一样本对象的所有特征信息进行特征融合。

另外，特征融合是将提取的不同特征通过某种方法生成新的特征，使新特征对分类更有效，本发明的实施例中，对样本对象的多项特征信息进行特征融合，从而使得进行特征融合后获得的融合特征向量能够更加准备的表示样本对象，进而更加有利于对样本对象的分类。

步骤103：将所述融合特征向量进行特征还原，得到每一个样本对象的还原特征向量。

其中，在对样本对象的多项特征信息进行特征融合的过程中，可能会丢失部分信息，例如某个样本对象包括五项特征信息，而在对这五项特性信息进行特征融合的过程中可能丢失了一项特征信息，则对该样本对象的融合特征向量进行特征还原后，得到的还原特征向量只能表示四项特征信息。因此，通过步骤103对融合特征向量进行特征还原后，可以了解到在特征融合过程中丢失了哪些信息。

步骤104：计算所述融合特征向量与所述还原特征向量之间的第一损失值。

其中，一个样本对象对应一个融合特征向量和一个还原特征向量，而本发的实施例中，存在多个样本对象，则存在多个融合特征向量和多个还原特征向量，则步骤104中是根据这些融合特征向量和这些还原特征向量，计算的得到一个第一损失值。

另外，第一损失值表示根据预先确定的第一目标参数进行特征融合的过程丢失信息的程度。

步骤105：根据所述第一损失值，修改所述第一目标参数的取值，直到满足第一预设条件时，停止修改所述第一目标参数的取值。

其中，根据第一损失值，修改第一目标参数，以减小特征融合过程中对信息的丢失。

另外，本发明的实施例中，每修改一次第一目标参数的取值，则根据修改后的第一目标参数的取值，对属于同一个样本对象的特征信息进行特征融合，从而获得每一个样本对象的融合特征向量，进而再对获得的融合特征向量进行特征还原，得到还原特征向量，并计算融合特征向量和还原特征向量之间的第一损失值，进而再次根据本次得到的第一损失值修改第一目标参数的取值，直到满足第一预设条件时，停止修改第一目标参数。

步骤106：从满足所述第一预设条件之前修改的所述第一目标参数的取值中，选择满足第二预设条件时所述第一目标参数的目标取值，并将所述第一目标参数为所述目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。

本发明的实施例中，在停止修改第一目标参数后，需要从前面修改后的第一目标参数的取值中，选择满足第二预设条件时的第一目标参数的目标取值，从而将第一目标参数为目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。即后续在需要对某个对象进行特征融合时，按照第一目标参数为目标取值时对应的特征融合处理过程，对该对象的多项特征信息进行处理。

由上述可知，本发明实施例提供的多模态特征融合模型的训练方法，能够获取多个样本对象的多项特征信息，并根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量，从而将融合特征向量进行特征还原，得到每一个样本对象的还原特征向量，进而计算融合特征向量与还原特征向量之间的第一损失值，并根据第一损失值修改第一目标参数，直到满足第一预设条件时，停止修改第一目标参数，并从满足第一预设条件之前修改的第一目标参数的取值中，选择满足第二预设条件时第一目标参数的目标取值，进而将第一目标参数为该目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。

图2是本发明实施例提供的另一种多模态特征融合模型的训练方法的步骤流程图，如图2所示，该方法可以包括：

步骤201：获取多个样本对象的多项特征信息。

可选的，所述样本对象包括视频样本对象，所述多项特征信息包括视频特征信息。其中，视频特征信息包括视频封面、视频标题和视频内容中的至少一项。其中，可以理解的是，本发明的实施例中的样本对象并不局限于视频样本对象，例如还可为图片、音频等。

步骤202：根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量。

其中，每一个样本对象均存在多项特征信息，则本发明的实施例中，需要针对每一个样本对象，将步骤201中获取的属于同一样本对象的所有特征信息进行特征融合。

可选的，所述根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量，包括：

根据预先确定的第一目标参数，采用机器学习中的注意力机制，对属于同一个样本对象的特征信息进行多次特征融合；

将同一个样本对象经过所述多次特征融合后获得的结果，进行平均池化处理，获得每一个样本对象的融合特征向量。

其中，在样本对象的特征比较复杂时，往往采用机器学习中的注意力机制处理一次，不足以捕捉样本对象的特征，因此，本发明的实施例中，采用机器学习中的注意力机制进行多次处理(即进行多次attention)，然后将多次attention后获得的结果进行平均池化处理，从而将最终池化处理后获得的结果作为样本对象的融合特征向量。

可选的，所述根据预先确定的第一目标参数，采用机器学习中的注意力机制，对属于同一个样本对象的特征信息进行多次特征融合，包括：

根据所述第一目标参数，采用机器学习中的掩模注意力机制，对属于同一个样本对象的特征信息进行多次特征融合。

其中，掩模注意力机制即为mask attention机制。即对attention机制中加mask，可以防止缺失特征对特征融合过程的干扰。

可选的，根据所述第一目标参数，采用机器学习中的掩模注意力机制，对属于同一个样本对象的特征信息进行一次特征融合的过程，包括：

获取多个第一向量，其中，一个第一向量表示一个样本对象的一项特征信息；

采用多层感知机将所述第一向量转换为第二向量；

在j取1～M中的每一个整数时，执行如下过程：

根据预先确定的第一目标参数，获取第j个样本对象的目标数组，其中，所述第j个样本对象的目标数组包括M个数值，第i个数值表示所述第j个样本对象的第i项特征信息的权重，i为1～N的整数，N表示所述第j个样本对象的特征信息的项数；

建立第j个样本对象的掩膜，其中，第j个样本对象的掩膜中包括与第j个样本对象的特征信息一一对应的数值；

将第j个样本对象的目标数组中小于第一预设值的数值所属的特征信息，在第j个样本对象的掩膜中对应位置上的数值设置为第二预设值，并将第j个样本对象的目标数组中大于或等于所述第一预设值的数值所属的特征信息，在第j个样本对象的掩膜中对应位置上的数值设置为第三预设值；

在i取1～N中的每一个整数时，计算用于表示第j个样本对象的第i项特征信息的第二向量、第j个样本对象的掩膜中与第i项特征信息对应的数值、第j个样本对象的目标数组中的第i项特征信息的权重的乘积，以作为第j个样本对象的第i个第三向量；

将第j个样本对象的第1至第N个第三向量之和，确定对第j个样本对象的特征信息进行一次特征融合后获得的结果。

例如存在100个样本对象，则在样本对象为视频样本对象，且样本对象的特征信息包括视频封面、视频标题和视频内容这三项特征信息时，首先，采用卷积神经网络算法，针对每一个视频，分别对视频封面、视频标题和视频内容进行处理，以将视频封面、视频标题和视频内容分别映射为一个多维向量，例如为H维向量；然后，根据预先确定的第一目标参数，获取每一个样本对象的三项特征信息的权重，并将一个样本对象的三项特征信息的权重作为一个目标数组；再次，为每一个样本对象建立一个掩膜(mask)，并根据样本对象的三项特征信息的权重，设置其mask中各个位置上的取值，例如可以将权重值小于第一预设值的特征信息在mask中的位置置零，将权重值大于或等于第一预设值的特征信息在mask中的位置置一；最后，针对每一个样本对象，计算表示视频封面的向量与视频封面的权重以及mask中视频封面的位置上的数值的乘积，计算表示视频标题的向量与视频标题的权重以及mask中视频标题的位置上的数值的乘积，计算表示视频内容的向量与视频内容的权重以及mask中视频内容的位置上的数值的乘积，从而将得到的每一个乘积作为样本对象的一个第三向量；最后，针对每一个样本对象，将其所有的第三向量相加，则获得每一个样本对象进行一次特征融合后获得的结果。

其中，在采集样本对象的多项特征信息时，某些样本对象可能缺少某项特征信息，现有技术中针对此种情况，在进行特征融合时所采用的常规做法是设置为默认值(例如取平均值)，但是此种方法会使得设置的默认值影响特征融合过程，从而影响特征融合结果。而这种缺失的特征信息，其权重值往往小于一定阈值，因而本发明的实施例中，引入了样本对象的mask，其维度与特征信息的项数相同，并根据样本对象的各项特征信息的权重值，将mask中对应位置上的数字置零或置一，即将权重值小于第一预设值对应的特征信息在mask中的位置置零，将权重值大于或等于第一预设值对应的特征信息在mask中的位置置一，以免缺失的特征影响后续的特征融合过程。

可选的，所述获取多个第一向量，包括：

针对每一个样本对象，采用卷积神经网络算法，将样本对象的每一项特征信息处理为一个多维向量，以作为第一向量。

其中，一项特征信息通过CNN算法映射为一个第一向量，则每一个样本对象存在几项特征信息，则对应存在几个第一向量。

另外，可以理解的是，对于将特征信息映射为向量的具体算法，并不局限于卷积神经网络(CNN)算法。

可选的，所述第一目标参数包括全连接参数；

所述根据预先确定的第一目标参数，获取第j个样本对象的目标数组，包括：

将属于第j个样本对象的第二向量拼接为第四向量；

采用所述全连接参数，将所述第四向量经过全连接层处理为第五向量；

采用逻辑回归算法，对所述第五向量进行处理，获得第j个样本对象的目标数组。

其中，逻辑回归(softmax)算法在多分类的场景中使用广泛。该算法可以把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1，因此，本发明的实施例中，通过softmax算法对第五向量进行处理后得到的目标数组中包括的各个数值，可以表示样本对象的各项特征信息的权重。

另外，例如样本对象为视频，且其特征信息包括视频封面、视频标题和视频内容时，该样本对象存在用于表示视频封面的第一向量，用于表示视频标题的第一向量，用于表示视频内容的第一向量，例如第一向量为H维向量，则将该样本对象的这三个H维的第一向量拼接后，得到H*3的第四向量，然后该第四向量经过全连接层处理之后，则被处理为3维的第五向量，进而通过逻辑回归算法对第五向量进行处理，可以得到包括视频封面的权重、视频标题的权重和视频内容的权重的目标数组。

步骤203：将所述融合特征向量进行特征还原，得到每一个样本对象的还原特征向量。

其中，在对样本对象的多项特征信息进行特征融合的过程中，可能会丢失部分信息，例如某个样本对象包括五项特征信息，而在对这五项特性信息进行特征融合的过程中可能丢失了一项特征信息，则对该样本对象的融合特征向量进行特征还原后，得到的还原特征向量只能表示四项特征信息。因此，通过步骤203对融合特征向量进行特征还原后，可以了解到在特征融合过程中丢失了哪些信息。

可选的，所述将所述融合特征向量进行特征还原，得到每一个样本对象的还原特征向量，包括：

采用自编码器算法，将所述融合特征向量进行特征还原，得到每一个样本对象的还原特征向量。

由此可知，本发明的实施例中，可以根据融合特征信息采用自编码算法，构建用于将融合特征向量进行特征还原的解码器，从而利用该解码器对每一个样本对象的融合特征进行特征还原，以得到每一个样本对象的还原特征向量。

步骤204：计算所述融合特征向量与所述还原特征向量之间的第一损失值。

其中，一个样本对象对应一个融合特征向量和一个还原特征向量，而本发的实施例中，存在多个样本对象，则存在多个融合特征向量和多个还原特征向量，则步骤204中是根据这些融合特征向量和这些还原特征向量，计算的得到一个第一损失值。

可选的，所述计算所述融合特征向量与所述还原特征向量之间的第一损失值，包括：

采用L1范数损失函数(即L1 loss)，计算所述融合特征向量与所述还原特征向量之间的第一损失值。

其中，L1范数损失函数，也被称为最小绝对值偏差(LAD)，最小绝对值误差(LAE)。总的说来，它是把目标值与估计值的绝对差值的总和最小化。因而，本发明的实施例中，在采用L1范数损失函数，计算融合特征向量与还原特征向量之间的第一损失值时，首先计算同一个样本对象的融合特征向量与还原特征向量之差的绝对值，以作为样本对象的第一参数，然后将所有样本对象的第一参数求和，从而得到第一损失值。

步骤205：根据所述多个样本对象的融合特征向量，采用三元组损失算法，获得第二损失值。

其中，三元组损失(Triplet Loss)，其中的三元也就是Anchor、Negative、Positive，通过Triplet Loss的学习使得Positive和Anchor之间的距离最小，而和Negative之间距离最大。其中，Anchor为训练数据集中随机选取的一个样本，Positive为和Anchor属于同一类的样本，而Negative则为和Anchor不同类的样本。

具体的，本发明的实施例中，在根据所述多个样本对象的融合特征向量，采用三元组损失算法，获得第二损失值时，首先计算每两个样本对象的融合特征向量之间的欧氏距离，然后根据欧式距离确定出哪些样本对象属于正样本，哪些样本对象属于负样本，进而从正样本中随机选出一个样本对象作为Anchor，并将其余正样本作为Positive，将负样本作为Negative；再次，将Positive与Anchor之间的欧氏距离，Negative与Anchor之间的欧氏距离，代入至Triplet Loss的目标函数中，即可获得上述第二损失值。

步骤206：根据预设公式S＝k1*S1+k2*S2，计算第二目标参数S。

其中，k1为预先确定的第一权重值，k2为预先确定的第二权重值，S1为所述第一损失值，S2为第二损失值。

其中，第一损失值是从整体方面描述特征融合过程对信息的损失情况，第二损失值则是从各个特征方向(即从细节方向)描述特征融合过程对信息的损失情况，而本发明的实施例，预先为第一损失值和第二损失值分配对应的权重值，从而根据第一损失值与其权重值的乘积与第二损失值与其权重值的乘积之和(即第二目标参数)，来修改第一目标参数，以使得最终获得的多模态特征融合模型可以在泛化和细节之间保持平衡。

步骤207：在本次得到的第二目标参数小于上一次得到的第二目标参数的情况下，修改所述第一目标参数。

步骤208：在本次得到的第二目标参数大于或等于上一次得到的第二目标参数的情况下，确定满足所述第一预设条件，停止修改所述第一目标参数的取值。

由上述步骤207和步骤208可知，每一次修改第一目标参数之后，都会计算得到一个第二目标参数。其中，随着对第一目标参数的修改次数的增加，第二目标参数呈下降趋向，直到第二目标参数不再下降时，停止修改第一目标参数。

步骤209：从满足所述第一预设条件之前修改的所述第一目标参数的取值中，选择满足第二预设条件时所述第一目标参数的目标取值，并将所述第一目标参数为所述目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。

可选的，所述多个样本对象包括至少部分正样本对和至少部分负样本，其中，同一个用户在预设时间内连续观看的样本对象中相邻的两个样本组成一个正样本对，所述负样本是采用难例挖掘的方法在至少一批样本对象中选择的，一批样本对象包括属于多个用户的正样本对；

所述根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量之后，所述方法还包括：

计算所述多个样本对象中的每两个样本对象的融合特征向量之间的欧氏距离；

在所述第二预设条件包括第一比值最大的情况下，根据所述欧氏距离确定所述多个样本对象中属于正样本的样本对象的第一数量，并计算所述第一数量与所述多个样本对象的总数量的比值，以作为所述第一比值；

在所述第二预设条件包括第二比值最大的情况下，根据所述欧氏距离，确定所述多个样本对象中属于负样本的样本对象的第二数量，并计算所述第二数量与所述多个样本对象的总数量的第二比值，以作为所述第二比值。

例如用户A在一个小时内连续观看了10个短视频，则这10个短视频中，每相邻的两个短视频组成一个正样本对，即获得5个正样本对，其中，这10个短视频即为正样本。例如256个属于不同用户的正样本对组成一批样本对象，则可以采用难例挖掘的方法，从至少一批样本对象中获得的负样本，例如共获得5个负样本，则可以利用上述10个正样本和5个负样本训练多模态特征融合模型。其中，正样本是指属于某一类别的样本，反样本是指不属于某一类别的样本，因而属于正样本的样本对象的融合特征向量之间的欧氏距离较小，而属于负样本的样本对象的融合特征向量，与属于正样本的样本对象的融合特征向量之间的欧氏距离较远，因此，本发明的实施例，可以根据上述多个样本对象之间的欧氏距离，确定出哪些样本对象属于正样本，哪些样本对象属于负样本。

另外，第一比值为上述多个样本对象中属于正样本的样本对象的第一数量与上述多个样本对象的总数量的比值，因此，第一比值即为正样本的识别率。同理，第二比值为上述多个样本对象中属于负样本的样本对象的第二数量与上述多个样本对象的总数量的比值，因此，第二比值即为负样本的识别率。

由此可知，本发明的实施例中，在停止修改第一目标参数后，选取正样本识别率最大或者负样本识别率最大时第一目标参数的取值对应的特征融合处理过程，作为多模态特征融合模型包括的处理过程。

综上所述，本发明实施例的多模态特征融合模型的训练方法的具体实施方式可如图3所示，具体如下所述。

第一步，采集多个正样本视频和多个负样本视频，以作为样本视频，其中，正样本视频包括同一个用户在预设时间段内连续观看的多个视频，负样本是采用难例挖掘的方法从至少一批视频中选择的，一批视频包括属于多个用户的正样本对，一个样本对包括同一个用户连续观看的两个视频；

第二步，提取每一个样本视频的多模态特征，例如视频封面、视频标题和视频内容，并采用CNN算法，将每一个样本视频的每一项特征处理为一个多维的第一向量，即一个样本视频的一项特征被映射为一个多维的第一向量；

第三步，由于不同特征表示的模态不同，特征空间存在较大差异，因此，可以预先经过多层感知机(MLP)进行预处理。即通过多层感知机将表示视频封面的第一向量、表示视频标题的第一向量、表示视频内容的第一向量映射到同一个特征空间，从而得到多个第二向量；

第四步，不同特征在表达视频特征权重是不同的，为了学习这个权重，可以加入attention机制，即：首先将同一个样本视频的第二向量特征进行拼接(concattact)，然后根据预先确定的全连接参数，经过全连接层处理，再利用softmax算法进行处理，从而得到一个跟特征数量相同的目标数组，该目标数组中每个数组代表了相应特征的权重；

第五步，某些样本视频可能会缺少某项特征，例如某个样本视频不存在视频标题或者视频封面，则为了解决特征缺失问题，可以分别为每一个样本视频设置一个mask，其维度与特征数量一致，即为3维，然后根据样本视频的目标数组中的权重，设置mask中的取值，即对于一个样本视频而言，其目标数组中权重值小于第一预设值的特征在该样本视频的mask中的相应位置的数值为0，其目标数组中权重值大于或等于第一预设值的特征在该样本视频的mask中的相应位置的数值为1；

第六步，每一个样本视频对应存在三个第二向量，一个目标数组和一个mask，则针对每一个样本视频按照特征对应的方式，将第二向量与目标数组中的权重、mask中的数值相乘，即将表示视频封面的第二向量与视频封面的权重、mask中与视频封面对应的位置上的数值相乘，将表示视频标题的第二向量与视频标题的权重、mask中与视频标题对应的位置上的数值相乘，将表示视频内容的第二向量与视频内容的权重、mask中与视频内容对应的位置上的数值相乘，进而再将前面得到的三个乘积相加，即得到每一个样本视频进行一次特征融合处理后获得的结果；

第七步，视频特征比较复杂，一次attention不足以捕捉视频特征，所以可以加入多次attention，即本发明的实施例可以重复多次执行前面的第四步至第七步，以对每一个样本视频进行多次特征融合处理，进而再将同一个样本视频进行多次特征融合处理后获得的结果进行平均池化处理，以得到每一个样本视频的融合特征向量；

第八步，计算每两个样本视频的融合特征向量的欧氏距离，从而根据欧氏距离识别出哪些样本视频属于正样本，进而计算出正样本的识别率(即正样本的数量与样本视频的总数量的比值)，并记录正样本的识别率，或者识别出哪些样本视频属于负样本，进而计算出负样本的识别率(即负样本的数量与样本视频的总数量的比值)，并记录负样本的识别率；

第九步，根据样本视频的融合特征向量，采用triplet loss算法，计算得到第一损失值；

第十步，利用预先根据融合特征信息，采用Auto Encoder机制创建的解码器，将每一个样本视频的融合特征向量进行特征还原，以得到每一个样本视频的还原特征向量，进而采用L1 loss算法，计算融合特征向量与还原特征向量之间的第二损失值；即用户观看行为数据存在大量噪声，容易使得训练丢失多模态细节信息。为了保留这些特征，本发明的实施例，加入了Auto Encoder机制，分别构建了各个输入特征的解码器，将每一个样本视频的融合特征向量输入解码器以进行特征还原，再跟原始特征比对计算L1 loss。

第十一步，根据预设公式S＝k1*S1+k2*S2，计算第二目标参数S，其中，k1为预先确定的第一权重值，k2为预先确定的第二权重值，S1为所述第一损失值，S2为第二损失值；

第十二步，若本次计算得到的第二目标参数小于上一次得到的第二目标参数，则修改上述全连接参数，并重新执行上述第四步至第十一步；若本次计算得到的第二目标参数大于或等于上一次得到的第二目标参数，则停止修改上述全连接参数，并选出正样本识别率最大或者负样本识别率最大时全连接参数的取值，以作为目标取值，然后将前述第一步至第三步所述的过程、第四步中的全连接参数为该目标取值时的过程、第五步至第七步所述的过程，作为多模态特征融合模型包括的处理过程。其中，在需要对某个视频进行特征融合处理时，则可以采用上述过程得到的多模态特征融合模型进行处理。

另外，上述过程中得到的多模态特征融合模型，可以用于视频理解推荐或搜索系统中用到的各类嵌入(embedding)。

由上述可知，本发明实施例的多模态特征融合模型的训练方法，首先用多层感知机对输入多模态特征分别进行预处理，然后基于Mask Attention Cluster多特征进行多次融合，最后经过平均池化处理输出特征编码。其中，模型训练的过程中，监督信号采用了用户观看行为数据构建的triplet loss(三元组损失)和自编码器loss。

此外，本发明的实施例，对attention机制中加入mask，防止了缺失特征对特征融合过程的干扰；通过多次attention机制，可以捕获样本对象的多种注意力特征；通过对融合特征向量进行特征还原，并计算融合特征向量和还原特征向量之间的损失值，可以保留样本对象更多细节特征。

图4是本发明实施例提供的一种多模态特征融合模型的训练装置的框图，如图4所示，该多模态特征融合模型的训练装置40可以包括：

特征获取模块401，用于获取多个样本对象的多项特征信息；

特征融合模块402，用于根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量；

特征还原模块403，用于将所述融合特征向量进行特征还原，得到每一个样本对象的还原特征向量；

第一计算模块404，用于计算所述融合特征向量与所述还原特征向量之间的第一损失值；

修改模块405，用于根据所述第一损失值，修改所述第一目标参数的取值，直到满足第一预设条件时，停止修改所述第一目标参数的取值；

确定模块406，用于从满足所述第一预设条件之前修改的所述第一目标参数的取值中，选择满足第二预设条件时所述第一目标参数的目标取值，并将所述第一目标参数为所述目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。

由上述可知，本发明实施例提供的多模态特征融合模型的训练装置，能够获取多个样本对象的多项特征信息，并根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量，从而将融合特征向量进行特征还原，得到每一个样本对象的还原特征向量，进而计算融合特征向量与还原特征向量之间的第一损失值，并根据第一损失值修改第一目标参数，直到满足第一预设条件时，停止修改第一目标参数，并从满足第一预设条件之前修改的第一目标参数的取值中，选择满足第二预设条件时第一目标参数的目标取值，进而将第一目标参数为该目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。

图5是本发明实施例提供的一种应用消息的推送装置的框图，如图5所示，该多模态特征融合模型的训练装置50可以包括：

特征获取模块501，用于获取多个样本对象的多项特征信息；

特征融合模块502，用于根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量；

特征还原模块503，用于将所述融合特征向量进行特征还原，得到每一个样本对象的还原特征向量；

第一计算模块504，用于计算所述融合特征向量与所述还原特征向量之间的第一损失值；

修改模块505，用于根据所述第一损失值，修改所述第一目标参数的取值，直到满足第一预设条件时，停止修改所述第一目标参数的取值；

确定模块506，用于从满足所述第一预设条件之前修改的所述第一目标参数的取值中，选择满足第二预设条件时所述第一目标参数的目标取值，并将所述第一目标参数为所述目标取值时对应的特征融合处理过程，确定为多模态特征融合模型包括的处理过程。

可选的，所述特征融合模块502包括：

特征融合子模块5021，用于根据预先确定的第一目标参数，采用机器学习中的注意力机制，对属于同一个样本对象的特征信息进行多次特征融合；

平均池化处理子模块5022，用于将同一个样本对象经过所述多次特征融合后获得的结果，进行平均池化处理，获得每一个样本对象的融合特征向量。

可选的，特征融合子模块5021在根据预先确定的第一目标参数，采用机器学习中的注意力机制，对属于同一个样本对象的特征信息进行多次特征融合时，具体用于：根据所述第一目标参数，采用机器学习中的掩模注意力机制，对属于同一个样本对象的特征信息进行多次特征融合。

可选的，所述特征融合子模块5021在根据所述第一目标参数，采用机器学习中的掩模注意力机制，对属于同一个样本对象的特征信息进行一次特征融合时，具体用于：

采用多层感知机将所述第一向量转换为第二向量；

在j取1～M中的每一个整数时，执行如下过程：

可选的，所述特征融合子模块5021在获取多个第一向量时，具体用于：

可选的，所述第一目标参数包括全连接参数；

所述特征融合子模块5021在根据预先确定的第一目标参数，获取第j个样本对象的目标数组时，具体用于：

将属于第j个样本对象的第二向量拼接为第四向量；

可选的，所述特征还原模块503具体用于：

可选的，所述第一计算模块504具体用于：

采用L1范数损失函数，计算所述融合特征向量与所述还原特征向量之间的第一损失值。

可选的，所述装置还包括：

第二计算模块507，用于根据所述多个样本对象的融合特征向量，采用三元组损失算法，获得第二损失值；

所述修改模块505具体用于：

根据预设公式S＝k1*S1+k2*S2，计算第二目标参数S，其中，k1为预先确定的第一权重值，k2为预先确定的第二权重值，S1为所述第一损失值，S2为第二损失值；

在本次得到的第二目标参数小于上一次得到的第二目标参数的情况下，修改所述第一目标参数；

在本次得到的第二目标参数大于或等于上一次得到的第二目标参数的情况下，确定满足所述第一预设条件，停止修改所述第一目标参数的取值

所述装置还包括：

第三计算模块508，用于计算所述多个样本对象中的每两个样本对象的融合特征向量之间的欧氏距离；

第四计算模块509，用于在所述第二预设条件包括第一比值最大的情况下，根据所述欧氏距离确定所述多个样本对象中属于正样本的样本对象的第一数量，并计算所述第一数量与所述多个样本对象的总数量的比值，以作为所述第一比值；

第五计算模块510，用于在所述第二预设条件包括第二比值最大的情况下，根据所述欧氏距离，确定所述多个样本对象中属于负样本的样本对象的第二数量，并计算所述第二数量与所述多个样本对象的总数量的第二比值，以作为所述第二比值。

可选的，所述样本对象包括视频样本对象，所述多项特征信息包括视频特征信息。其中，视频特征信息包括视频封面、视频标题和视频内容中的至少一项。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信，

存储器63，用于存放计算机程序；

处理器61，用于执行存储器63上所存放的程序时，实现如下步骤：

获取多个样本对象的多项特征信息；

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的多模态特征融合模型的训练方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的多模态特征融合模型的训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种多模态特征融合模型的训练方法，其特征在于，所述方法包括：

获取多个样本对象的多项特征信息，其中，所述样本对象为视频样本对象，所述特征信息包括视频封面、视频标题和视频内容；

根据所述多个样本对象的融合特征向量，采用三元组损失算法，获得第二损失值；

根据所述第一损失值和所述第二损失值，修改所述第一目标参数的取值，直到满足第一预设条件时，停止修改所述第一目标参数的取值；

2.根据权利要求1所述的多模态特征融合模型的训练方法，其特征在于，所述根据预先确定的第一目标参数，对属于同一个样本对象的特征信息进行特征融合，获得每一个样本对象的融合特征向量，包括：

3.根据权利要求2所述的多模态特征融合模型的训练方法，其特征在于，所述根据预先确定的第一目标参数，采用机器学习中的注意力机制，对属于同一个样本对象的特征信息进行多次特征融合，包括：

4.根据权利要求3所述的多模态特征融合模型的训练方法，其特征在于，根据所述第一目标参数，采用机器学习中的掩模注意力机制，对属于同一个样本对象的特征信息进行一次特征融合的过程，包括：

采用多层感知机将所述第一向量转换为第二向量；

在j取1～M中的每一个整数时，执行如下过程：

5.根据权利要求1所述的多模态特征融合模型的训练方法，其特征在于，所述将所述融合特征向量进行特征还原，得到每一个样本对象的还原特征向量，包括：

6.根据权利要求1所述的多模态特征融合模型的训练方法，其特征在于，所述计算所述融合特征向量与所述还原特征向量之间的第一损失值，包括：

7.根据权利要求1所述的多模态特征融合模型的训练方法，其特征在于，所述根据所述第一损失值和所述第二损失值，修改所述第一目标参数的取值，直到满足第一预设条件时，停止修改所述第一目标参数的取值，包括：

在本次得到的第二目标参数大于或等于上一次得到的第二目标参数的情况下，确定满足所述第一预设条件，停止修改所述第一目标参数的取值。

8.根据权利要求1所述的多模态特征融合模型的训练方法，其特征在于，所述多个样本对象包括至少部分正样本对和至少部分负样本，其中，同一个用户在预设时间内连续观看的样本对象中相邻的两个样本组成一个正样本对，所述负样本是采用难例挖掘的方法在至少一批样本对象中选择的，一批样本对象包括属于多个用户的正样本对；

9.一种多模态特征融合模型的训练装置，其特征在于，所述装置包括：

特征获取模块，用于获取多个样本对象的多项特征信息，其中，所述样本对象为视频样本对象，所述特征信息包括视频封面、视频标题和视频内容；

第二计算模块，用于根据所述多个样本对象的融合特征向量，采用三元组损失算法，获得第二损失值；

修改模块，用于根据所述第一损失值和所述第二损失值，修改所述第一目标参数的取值，直到满足第一预设条件时，停止修改所述第一目标参数的取值；

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的多模态特征融合模型的训练方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的多模态特征融合模型的训练方法。