CN112418302A

CN112418302A - 一种任务预测方法及装置

Info

Publication number: CN112418302A
Application number: CN202011307325.6A
Authority: CN
Inventors: 黄文炳; 王一凯; 徐挺洋; 荣钰
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26

Abstract

本申请公开一种任务预测方法及装置；本申请与人工智能的机器学习领域相关，可以获取预设任务的至少两个模态的样本数据、以及至少两个模态的样本数据的样本标签；通过多模态网络对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量；通过多模态网络基于特征向量，确定预设任务的任务预测结果；获取预设任务的至少两个模态的相似度；基于相似度、任务预测结果以及样本标签，对多模态网络进行训练，以通过训练后的多模态网络进行任务预测；本申请可以提升多模态任务预测的准确率。

Description

一种任务预测方法及装置

技术领域

本申请涉及人工智能领域，具体涉及一种任务预测方法及装置。

背景技术

在人工智能领域，为了通过网络模型更全面地进行任务预测，可以通过任务的多个模态的数据进行网络模型训练，任务的不同模态的数据之间天然的存在异质性差异，可以通过多模态融合的方式减弱这种异质性差异，比如，可以通过聚合融合的方式，先通过网络模型的子网络分别对不同模态的数据进行学习，然后在网络模型的某一位置将学习到的不同模态的数据信息进行特征融合。

在对现有技术的研究和实践过程中，本申请的发明人发现，在网络模型的某一位置将数据信息进行特征融合会对网络模型的训练过程产生不利影响，进而导致，基于聚合融合方式的训练后网络模型在进行多模态任务预测时准确率较低。

发明内容

本申请实施例提供一种任务预测方法及装置，可以提升多模态任务预测的准确率。

本申请实施例提供一种任务预测方法，包括：

获取预设任务的至少两个模态的样本数据、以及所述至少两个模态的样本数据的样本标签；

通过多模态网络对所述样本数据进行特征提取，得到每个模态的样本数据对应的特征向量；

通过所述多模态网络基于所述特征向量，确定所述预设任务的任务预测结果；

获取所述预设任务的至少两个模态的相似度；

基于所述相似度、所述任务预测结果以及所述样本标签，对所述多模态网络进行训练，以通过训练后的多模态网络进行任务预测。

相应地，本申请提供一种任务预测装置，包括：

样本获取模块，用于获取预设任务的至少两个模态的样本数据、以及所述至少两个模态的样本数据的样本标签；

特征提取模块，用于通过多模态网络对所述样本数据进行特征提取，得到每个模态的样本数据对应的特征向量；

预测模块，用于通过所述多模态网络基于所述特征向量，确定所述预设任务的任务预测结果；

相似度模块，用于获取所述预设任务的至少两个模态的相似度；

训练模块，用于基于所述相似度、所述任务预测结果以及所述样本标签，对所述多模态网络进行训练，以通过训练后的多模态网络进行任务预测。

在一些实施例中，获取模块可以包括确定子模块，其中，

确定子模块，用于基于每个模态的样本数据对应的特征向量，确定所述预设任务的至少两个模态的相似度。

在一些实施例中，预设任务的至少两个模态包括第一模态和第二模态，确定子模块可以包括确定单元和计算单元，其中，

确定单元，用于确定目标样本数据对应的目标样本标签，所述目标样本数据包括第一模态目标样本和第二模态目标样本；

计算单元，用于计算第一特征向量和第二特征向量之间的相似度，以确定所述预设任务的第一模态和第二模态之间的相似度，所述第一特征向量为所述第一模态目标样本的特征向量，所述第二特征向量为所述第二模态目标样本的特征向量。

在一些实施例中，目标样本标签包括第一目标样本标签和第二目标样本标签，计算单元具体用于：

计算第一特征向量和第二特征向量之间的相似度，得到所述第一目标样本标签的第一标签相似度；

获取所述第二目标样本标签的第二标签相似度；

融合所述第一标签相似度和所述第二标签相似度，以确定所述预设任务的第一模态和第二模态之间的相似度。

在一些实施例中，预设任务的至少两个模态包括第一模态和第二模态，确定子模块具体用于：

确定用于计算相似度的目标映射函数；

根据所述目标映射函数、第一模态的样本数据对应的特征向量、以及第二模态的样本数据对应的特征向量，计算所述预设任务的第一模态和第二模态之间的相似度。

在一些实施例中，多模态网络包括与至少两个模态子网络，所述至少两个模态子网络与所述至少两个模态一一对应，特征提取模块具体用于：

通过至少两个模态子网络分别对至少两个模态的样本数据进行特征提取，得到每个模态的样本数据对应的特征向量；

预测模块包括预测子模块和融合子模块，其中，

预测子模块，用于根据每个模态的样本数据对应的特征向量、以及至少两个模态子网络，确定每个模态的样本数据对应的预测子结果；

融合子模块，用于融合每个模态的预测子结果，得到所述预设任务的任务预测结果。

在一些实施例中，融合子模块具体用于：

获取每个模态的预测结果权重信息；

基于每个模态的预测结果权重信息和预测子结果，计算所述预设任务的任务预测结果。

在一些实施例中，训练模块具体用于：

基于所述相似度、所述任务预测结果以及所述样本标签，计算所述多模态网络的损失值；

根据所述损失值，对所述多模态网络进行训练，得到训练后的多模态网络。

在一些实施例中，相似度模块具体用于：

基于每个模态的样本数据或预测子结果，确定所述预设任务的至少两个模态的相似度。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序适于处理器进行加载，以执行本申请实施例提供的任一种任务预测方法。

相应的，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现本申请实施例提供的任一种任务预测方法。

本申请可以获取预设任务的至少两个模态的样本数据、以及至少两个模态的样本数据的样本标签，然后通过多模态网络对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量，再通过多模态网络基于特征向量，确定预设任务的任务预测结果，获取预设任务的至少两个模态的相似度，最后基于相似度、任务预测结果以及样本标签，对多模态网络进行训练，以通过训练后的多模态网络进行任务预测。

本申请通过在模型训练过程中引入相似度，并基于该相似度进行网络模型训练的方式来实现多模态融合，而非现有技术中直接在网络模型的某一位置将不同模态的数据信息进行特征融合，使得在通过训练后的多模态网络进行任务预测时，可以显著任务预测准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的任务预测系统的场景示意图；

图2是本申请实施例提供的任务预测方法的流程示意图；

图3是本申请实施例提供的任务预测方法的另一流程示意图；

图4是本申请实施例提供的任务预测方法的样本图像示例图；

图5是本申请实施例提供的任务预测装置的结构示意图；

图6是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，本申请所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例中的多模态网络涉及人工智能的多个领域，比如机器学习领域，具体地，本申请中训练多模态网络、通过训练后的多模态网络进行任务预测等涉及人工智能的相关技术，具体将通过下述实施例进行详细说明。

本申请实施例提供一种任务预测方法及装置。具体地，本申请实施例可以集成在任务预测系统中。

任务预测系统可以集成在计算机设备中，该计算机设备可以包括终端或服务器等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

参见图1，任务预测系统可以集成在终端或服务器等计算机设备上，计算机设备可以获取预设任务的至少两个模态的样本数据、以及至少两个模态的样本数据的样本标签；通过多模态网络对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量；通过多模态网络基于特征向量，确定预设任务的任务预测结果；获取预设任务的至少两个模态的相似度；基于相似度、任务预测结果以及样本标签，对多模态网络进行训练，以通过训练后的多模态网络进行任务预测。

需要说明的是，图1所示的任务预测系统的场景示意图仅仅是一个示例，本申请实施例描述的任务预测系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着任务预测装置的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。在本实施例中，将对任务预测方法进行详细描述，该任务预测方法可以集成在计算机设备上，如图2所示，图2是本申请实施例提供的任务预测方法的流程示意图。该任务预测方法可以包括：

101、获取预设任务的至少两个模态的样本数据、以及至少两个模态的样本数据的样本标签。

本申请中的预设任务可以包括计算机视觉(Computer Vision)、语音技术(SpeechTechnology)、自然语言处理(NLP，Nature Language Processing)以及自动驾驶等领域的相关任务。比如，预设任务可以为自动驾驶领域的速度感知、精确定位、路况识别等，又比如，预设任务可以为跨模态的问题理解、机器翻译、视频分类、情感分析等任务。

其中，模态可以包括数据的属性，不同模态的数据可以包括属性不同的数据，比如，音频数据和文本数据可以为不同模态的数据；深度图像、灰度图像以及彩色图像可以为不同模态的数据，等等。

本申请的预设任务可以包括通过至少两个模态的数据开展的任务，比如，预设任务可以为通过用户的面部图像和语音预测用户说的话、预测用户的心情、用语音回应用户、衡量用户的焦虑水平等等，又比如，预设任务可以为通过采集到的空间中的深度图像和彩色图像预测对空间内的物体进行识别等。

其中，样本数据可以包括对多模态模型训练所需的数据，样本数据可以基于预设任务而定，比如，若预设任务为通过视频画面、视频标题、以及视频音频在内三个模态数据对视频进行分类，则样本数据可以包括图像样本数据、文本样本数据以及语音样本数据等。又比如，若预设任务为通过采集到的彩色图像和深度图像对空间中的物体进行定位，则样本数据可以包括彩色样本图像数据以及深度样本图像数据等。

样本标签可以包括预先确定的样本数据在预设任务中的标准答案，比如，预设任务为情绪分析时，样本标签可以为人对其对应的样本数据所表达的情绪的判断(即预先给出的标准答案)，比如样本标签可以包括正向情绪、负向情绪、或中性情绪等。

在本申请中，一个样本数据可以包括至少两个模态的数据，此样本数据对应一个样本标签，即包括至少两个模态的样本数据对应一个样本标签，比如，样本数据包括音频数据1和图像数据1，该样本数据对应样本标签1，即音频数据1对应样本标签1，图像数据对应样本标签1。

具体地，可以从本地计算机设备获取样本数据以及样本标签，也可以向其他计算机设备(如服务器或终端)发送数据请求，接收其他计算机设备基于该数据请求返回的样本数据和样本标签，等，具体的可以根据实际情况灵活选择和设置，在此不再赘述。

比如，预设任务为短视频分类，可以接收服务器发送的多组样本数据、以及样本数据对应的样本标签，一组样本数据包括短视频标题文本、短视频图像帧、和短视频音频。

102、通过多模态网络对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量。

其中，多模态网络可以包括完成预设任务的神经网络模型，多模态网络的构建可以根据预设任务的性质和特点进行而定，多模态网络可以包括输入层、卷积层以及全连接层等网络层，每一个网络层处于多模态网络中的特定位置，携带特定的位置信息，在网络中发挥不同的作用。

具体地，对样本数据进行特征提取可以包括多模态网络的前若干个网络层对样本数据进行处理，比如，多模态网络A包含10个网络层，则对样本数据进行特征提取可以理解为，将样本数据输入多模态网络的前5个网络层进行处理、或将样本数据输入多模态网络的前9个网络层进行处理，等。

因此，特征向量可以包括将样本数据输入多模态网络的前若干个网络层得到的向量，输入的网络层的数量可以根据预设任务、样本数据等的差异确定、也可以参考多模态网络的历史训练过程等内容确定。比如，特征向量可以为多模态网络对样本图像进行初步提取后得到的向量，特征向量也可以为多模态网络中用于输入全连接层的向量，等等。

比如，通过多模态网络S对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量。

103、通过多模态网络基于特征向量，确定预设任务的任务预测结果。

其中，任务预测结果可以包括多模态网络对样本数据在预设任务中的结果的预测，任务预测结果的形式可以有多种，任务预测结果可以为从预设类别集中确定的目标类别，比如目标类别为杯子；任务预测结果也可以为分值，比如，预设任务为确定两个人的外貌相似度，任务预测结果可以为外貌相似度为80，等等。

具体地，可以将特征向量输入多模态网络的部分网络层，得到任务预测结果。此外，确定任务预测结果也可以直接将样本数据输入多模态网络，即可得到预设任务的任务预测结果。

比如，通过特征向量和多模态网络S，得到样本数据的短视频分类结果。

在一些实施例中，多模态网络包括与至少两个模态子网络，至少两个模态子网络与至少两个模态一一对应，步骤“通过多模态网络对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量”可以包括：

此实施例中，步骤“通过多模态网络基于特征向量，确定预设任务的任务预测结果”可以包括：

根据每个模态的样本数据对应的特征向量、以及至少两个模态子网络，确定每个模态的样本数据对应的预测子结果；融合每个模态的预测子结果，得到预设任务的任务预测结果。

本申请中多模态网络可以包括模态子网络，一个模态子网络对应预设任务一个模态的数据，对样本数据进行特征提取的过程可以通过模态子网络进行，将模态的样本数据输入该模态对应的模态子网络的前若干个网络层中，即可得到该模态的样本数据对应的特征向量。

然后，可以将该模态的特征向量输入该模态的模态子网络，得到该模态的样本数据的预测子结果，其中，预测子结果可以包括某一模态的样本数据在预设任务中的预测结果，通过每个模态的模态子网络得到每一模态的预测子结果，然后，可以将预设任务的多个预测子结果融合，最终得到预设任务的任务预测结果，具体地，融合的方式可以有多种，比如，可以求平均、或基于预设公式求解等。

比如，多模态网络S包含三个模态子网络，分别为图像帧子网络、音频子网络和标题子网络，可以通过三个模态子网络分别得到三个模态的预测子结果，分别为图像帧子结果、音频子结果和标题子结果，然后，基于预设融合公式，将三个模态的预测子结果融合起来，得到样本数据在短视频分类任务中的预测类别。

在一些实施例中，步骤“融合每个模态的预测子结果，得到预设任务的任务预测结果”，包括：

获取每个模态的预测结果权重信息；基于每个模态的预测结果权重信息和预测子结果，计算预设任务的任务预测结果。

在一些实施例中，不同模态的数据对于预测任务的任务预测结果的重要程度可以不同，因此，在融合预测子结果得到任务预测结果的过程中，可以通过加权的方式，为重要程度更高的模态的预测子结果配置更大的权重，使其对预设任务的任务预测结果的影响更大。

具体地，模态的预测结果权重信息可以有多种获取方式，比如，预测结果权重信息可以为预先设定，预设结果权重信息属于多模态网络的参数之一，存储在多模态网络的参数文件中；又比如，预测结果权重信息可以由多模态网络确定，多模态网络可以基于每一模态的预测子结果等因素，确定每一模态的预测结果权重信息，等等。

通过每个模态的预测子结果和预测结果权重信息，可以计算得到预设任务的任务预测结果，比如，任务预测结果的计算公式可以为：

其中，t为预测任务的任务预测结果，m为模态，α_m为模态的权重，f_m为模态子网络，

为模态子网络的输入数据。

104、获取预设任务的至少两个模态的相似度。

其中，相似度可以包括预设任务的不同模态之间的相似度，通过相似度可以融合预设任务中的不同模态，相似度可以预先设置并保存在计算机设备中，则获取相似度可以从计算机设备中获取；相似度也可以根据不同模态的相关数据计算得到，计算相似度所使用的算法或公式可以有多种，比如最大均值差异(Maximum Mean Discrepancy,MMD)、弗罗贝尼乌斯范数(Frobenius norm)等。

比如，从计算机设备获取短视频分类任务的三个模态的相似度X。

在一些实施例中，步骤“获取预设任务的至少两个模态的相似度”可以包括：

基于每个模态的样本数据对应的特征向量，确定预设任务的至少两个模态的相似度。

相似度的计算可以通过特征向量进行，特征向量可以包括多模态网络或模态子网络的前若干个网络层输出的向量，因此，选取的网络层数量不同，得到的特征向量会不同，进而计算得到的相似度也不同。此外，相似度计算算法或公式选取的差异，得到的相似度也会有存在差异，具体地，可以根据预设任务的特点，灵活选择特征向量计算的网络层数量、或相似度计算算法或公式等内容。

比如，可以通过多模态网络S对包括短视频标题文本、短视频图像帧、和短视频音频在内的三个模态的样本数据进行特征提取，得到文本特征向量、图像帧特征向量以及音频特征向量，然后，基于文本特征向量、图像帧特征向量以及音频特征向量计算得到短视频分类任务的三个模态的相似度1。

在一些实施例中，预设任务的至少两个模态包括第一模态和第二模态，步骤“基于每个模态的样本数据对应的特征向量，确定预设任务的至少两个模态的相似度”可以包括：

确定目标样本数据对应的目标样本标签，目标样本数据包括第一模态目标样本和第二模态目标样本；

计算第一特征向量和第二特征向量之间的相似度，以确定预设任务的第一模态和第二模态之间的相似度，第一特征向量为第一模态目标样本的特征向量，第二特征向量为第二模态目标样本的特征向量。

在通过特征向量计算相似度的过程中，可以以样本标签为标准，对样本数据的特征向量进行细化，并根据细化后的特征向量进行计算，从而取得更准确地相似度计算结果。

其中，目标样本数据及其目标样本标签为预设任务的所有样本数据中选中的样本数据，选中的方式可以为随机选取等，预设任务可以包括两个模态，则目标样本数据可以包括第一模态目标样本和第二模态目标样本，可以通过多模态网络或多模态子网络分别得到第一模态目标样本对应的第一特征向量、以及第二模态目标样本对应的第二特征向量，接着，可以计算第一特征向量和第二特征向量之间的相似度，在预设任务的样本数据中，一个样本标签可以对应大量样本数据，因此，上述目标样本数据、第一模态目标样本、第二模态目标样本、第一特征向量以及第二特征向量等的数量均为多个，

具体地，可以通过MMD计算第一特征向量和第二特征向量之间的相似度，计算公式可以是：

其中，X可以为包括m个第一特征向量的第一向量集，x_i,x_j为第一向量集中任意两个第一特征向量，Y可以为包括n个第二特征向量的第二向量集，y_i,y_j为第二向量集中任意两个第二特征向量，k(.,.)为将原特征向量映射到高维空间的映射关系，

为映射函数集。

在一些实施例中，目标样本标签包括第一目标样本标签和第二目标样本标签，步骤“计算第一特征向量和第二特征向量之间的相似度，以确定预设任务的第一模态和第二模态之间的相似度”可以包括：

计算第一特征向量和第二特征向量之间的相似度，得到第一目标样本标签的第一标签相似度；获取第二目标样本标签的第二标签相似度；融合第一标签相似度和第二标签相似度，以确定预设任务的第一模态和第二模态之间的相似度。

具体地，通过计算目标样本标签的不同模态之间的特征向量的相似度，得到预设任务的模态之间的相似度时，由于预设任务的样本数据通常包括至少两种样本标签，比如，预设任务的样本标签可以包括两个，即可计算通过每一样本标签对应的所有特征向量，得到每一样本标签下不同模态的特征向量之间的相似度，再融合所有相似度，得到预设任务的模态之间的相似度。

其中，第一目标样本标签和第二目标样本标签可以对应预设任务的两个样本标签，第一目标样本标签对应的第一目标样本数据包括第一模态目标样本和第二模态目标样本，计算第一模态目标样本对应的第一特征向量和第二模态目标样本对应的第二特征向量之间的相似度，得到第一标签相似度，通过上述方法，计算得到第二目标样本标签的第二标签相似度，最后融合第一标签相似度和第二标签相似度，即可得到第一模态和第二模态之间的相似度，融合的方式可以包括多种，如求和，求平均等，具体地可以在实际应用时根据预设任务的性质灵活设定。

比如，短视频分类任务的所有样本数据对应样本标签1和样本标签2，样本标签1对应图像帧模态的标签1图像帧向量集、音频模态的标签1音频向量集以及标题模态的标签1标题向量集，可以通过MMD分别计算标签1图像帧向量集和标签1音频向量集的子相似度1，标签1图像帧向量集和标签1标题向量集的子相似度2，标签1音频向量集和标签1标题向量集的子相似度3。

并对子相似度1、子相似度2和子相似度3求平均，得到样本标签1的标签1相似度，并以同样的方式得到样本标签2的标签2相似度，最后通过求和的方式融合标签1相似度和标签2相似度，最终得到短视频分类任务的三个模态的相似度。

确定用于计算相似度的目标映射函数；根据目标映射函数、第一模态的样本数据对应的特征向量、以及第二模态的样本数据对应的特征向量，计算预设任务的第一模态和第二模态之间的相似度。

其中，目标映射函数可以包括计算相似度的公式，如弗罗贝尼乌斯范数等，在此不再赘述，然后，具体可以基于每一模态的样本数据对应的特征向量集，计算预设任务的模态的相似度。

比如，短视频分类任务的图像帧模态、音频模态和标题模态，图像帧模态下所有短视频图像帧对应的图像帧向量集合为图像向量集，类似地还有音频向量集和标题向量集，可以通过MMD分别图像帧向量集和音频向量集的子相似度1，图像帧向量集和标题向量集的子相似度2，音频向量集和标题向量集的子相似度3，并对子相似度1、子相似度2和子相似度3求平均，得到短视频分类任务的三个模态之间的相似度。

基于每个模态的样本数据或预测子结果，确定预设任务的至少两个模态的相似度。

预设任务的应用场景多样，不同的预设任务会有不同的特性，因此，预设任务的至少两个模态的相似度的计算，也可以通过每一模态的样本数据、或每个模态的预测子结果进行，相似度计算公式或算法的选择可以在实际应用时灵活选择，在此不再赘述。

105、基于相似度、任务预测结果以及样本标签，对多模态网络进行训练，以通过训练后的多模态网络进行任务预测。

对多模态网络的网络参数进行调整即为对多模态网络进行训练的，训练完成后，可通过训练后的多模态网络进行任务预测。

比如，基于三个模态之间的相似度、短视频分类结果以及样本标签，对多模态网络S进行训练，以通过训练后的多模态网络S进行短视频分类。

在一些实施例中，步骤“基于相似度、任务预测结果以及样本标签，对多模态网络进行训练”可以包括：

基于相似度、任务预测结果以及样本标签，计算多模态网络的损失值；根据损失值，对多模态网络进行训练，得到训练后的多模态网络。

其中，计算损失值所参照的损失函数可以包括多种，如对数损失函数、softmax函数(一种损失函数)、交叉熵损失函数(Cross Entropy Error Function)等。

具体地，本方案的损失函数可以为：

其中，Alig_f1:Mx(⁽ⁱ⁾)为模态之间的相似度，y⁽ⁱ⁾为样本标签，m为模态，α_m为模态的权重，f_m为模态子网络，

为模态子网络的输入数据，N为样本数据的总数量，L为损失函数，i为样本。

对多模态网络进行训练即通过损失值对多模态网络的网络参数进行调整，具体地，调整网络参数所参照的算法可以包括多种，如随机梯度下降(SGD，StochasticGradient Descent)、使用动量的随机梯度下降(Momentum SGD)、自适应梯度(AdaGrad，Adaptive Gradient)等。

本申请可以获取预设任务的至少两个模态的相似度，并基于该相似度、任务预测结果以及样本标签，对多模态网络进行训练，通过在模型训练过程中引入相似度，而非现有技术对数据信息进行特征融合，可以避免现有技术的不利影响，同时通过不同模态的相似度实现多模态融合，使得通过训练后的多模态网络进行任务预测可以显著任务预测准确率。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本申请将以集成在计算机设备的任务预测系统为例，对任务预测方法进行介绍，如图3所示，图3是本申请实施例提供的任务预测方法的流程示意图。该任务预测方法可以包括：

201、计算机设备获取预设任务的两个模态的样本数据、以及样本数据对应的样本标签。

比如，预设任务可以为物体边界识别，预设任务可以包括灰度模态和深度模态的样本图像，以及灰度模态和深度模态的样本图像对应的样本标签(即样本图像物体的真实边界)。

202、计算机设备通过多模态网络对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量。

比如，多模态网络可以为边界识别网络，边界识别网络可以灰度识别子网络和深度识别子网络，通过灰度识别子网络对灰度样本图像进行特征提取，得到灰度特征向量，通过深度识别子网络对深度样本图像进行特征识别，得到深度特征向量。

203、计算机设备通过多模态网络基于特征向量，确定预设任务的任务预测结果。

比如，通过灰度识别子网络基于灰度特征向量，得到灰度模态的识别结果，通过深度识别子网络基于深度特征向量，得到深度模态的识别结果，通过基于灰度模态的识别结果和深度模态的识别结果，通过加权平均的方式，得到图像的物体边界识别结果。

204、计算机设备确定第一目标样本数据对应的第一目标样本标签，第一目标样本数据包括第一模态目标样本和第二模态目标样本。

比如，从所有样本图像中，确定目标样本标签为标签X，标签X对应目标样本数据，目标样本数据包括灰度X图像数据和深度X图像数据。

205、计算机设备计算第一特征向量和第二特征向量之间的相似度，得到第一目标样本标签的第一标签相似度，第一特征向量为第一模态目标样本的特征向量，第二特征向量为第二模态目标样本的特征向量。

比如，计算灰度X图像数据对应的特征向量和深度X图像数据对应的特征向量之间的相似度，即标签X相似度。

206、计算机设备获取第二目标样本标签的第二标签相似度。

比如，获取标签Y的标签Y相似度，所有样本图像的样本标签为标签X和标签Y组成。

207、计算机设备融合第一标签相似度和第二标签相似度，以确定预设任务的第一模态和第二模态之间的相似度。

比如，融合标签X相似度和标签Y相似度，得到物体边界识别任务的灰度模态和深度模态之间的相似度1。

208、计算机设备基于相似度、任务预测结果以及样本标签，对多模态网络进行训练，以通过训练后的多模态网络进行任务预测。

如图4中，图像01和图像02分别为灰度图像和深度图像，图像03为该灰度样本图像和深度样本图像的真实边界(即图像01和图像02中物体的真实边界)

基于相似度1、物体边界识别结果和样本标签，对边界识别网络进行训练，得到训练后的边界识别网络，训练后的边界识别网络可以对图像1和图像2进行物体便捷识别，识别结果为图像04，对比图像04和图像03，可见训练后的边界识别网络额可以取得较高的识别准确率。

为便于更好的实施本申请实施例提供的任务预测方法，本申请实施例还提供一种基于上述任务预测方法的装置。其中名词的含义与上述任务预测方法中相同，具体实现细节可以参考方法实施例中的说明。

如图5所示，图5本申请一实施例提供的任务预测装置的结构示意图，其中该任务预测装置可以包括样本获取模块301、特征提取模块302、预测模块303、相似度模块304以及训练模块305，其中，

样本获取模块301，用于获取预设任务的至少两个模态的样本数据、以及至少两个模态的样本数据的样本标签；

特征提取模块302，用于通过多模态网络对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量；

预测模块303，用于通过多模态网络基于特征向量，确定预设任务的任务预测结果；

相似度模块304，用于获取预设任务的至少两个模态的相似度；

训练模块305，用于基于相似度、任务预测结果以及样本标签，对多模态网络进行训练，以通过训练后的多模态网络进行任务预测。

在一些实施例中，获取模块可以包括确定子模块，其中，

确定子模块，用于基于每个模态的样本数据对应的特征向量，确定预设任务的至少两个模态的相似度。

确定单元，用于确定目标样本数据对应的目标样本标签，目标样本数据包括第一模态目标样本和第二模态目标样本；

计算单元，用于计算第一特征向量和第二特征向量之间的相似度，以确定预设任务的第一模态和第二模态之间的相似度，第一特征向量为第一模态目标样本的特征向量，第二特征向量为第二模态目标样本的特征向量。

计算第一特征向量和第二特征向量之间的相似度，得到第一目标样本标签的第一标签相似度；

获取第二目标样本标签的第二标签相似度；

融合第一标签相似度和第二标签相似度，以确定预设任务的第一模态和第二模态之间的相似度。

确定用于计算相似度的目标映射函数；

根据目标映射函数、第一模态的样本数据对应的特征向量、以及第二模态的样本数据对应的特征向量，计算预设任务的第一模态和第二模态之间的相似度。

在一些实施例中，多模态网络包括与至少两个模态子网络，至少两个模态子网络与至少两个模态一一对应，特征提取模块具体用于：

预测模块包括预测子模块和融合子模块，其中，

融合子模块，用于融合每个模态的预测子结果，得到预设任务的任务预测结果。

在一些实施例中，融合子模块具体用于：

获取每个模态的预测结果权重信息；

基于每个模态的预测结果权重信息和预测子结果，计算预设任务的任务预测结果。

在一些实施例中，训练模块具体用于：

基于相似度、任务预测结果以及样本标签，计算多模态网络的损失值；

根据损失值，对多模态网络进行训练，得到训练后的多模态网络。

在一些实施例中，相似度模块具体用于：

本申请中，样本获取模块301获取预设任务的至少两个模态的样本数据、以及至少两个模态的样本数据的样本标签；特征提取模块302通过多模态网络对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量；预测模块303通过多模态网络基于特征向量，确定预设任务的任务预测结果；相似度模块304获取预设任务的至少两个模态的相似度；训练模块305基于相似度、任务预测结果以及样本标签，对多模态网络进行训练，以通过训练后的多模态网络进行任务预测。

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图6所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取预设任务的至少两个模态的样本数据、以及至少两个模态的样本数据的样本标签；通过多模态网络对样本数据进行特征提取，得到每个模态的样本数据对应的特征向量；通过多模态网络基于特征向量，确定预设任务的任务预测结果；获取预设任务的至少两个模态的相似度；基于相似度、任务预测结果以及样本标签，对多模态网络进行训练，以通过训练后的多模态网络进行任务预测。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种任务预测方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种任务预测方法中的步骤，因此，可以实现本申请实施例所提供的任一种任务预测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种任务预测方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种任务预测方法，其特征在于，包括：

获取所述预设任务的至少两个模态的相似度；

2.根据权利要求1所述的方法，其特征在于，所述获取所述预设任务的至少两个模态的相似度，包括：

基于每个模态的样本数据对应的特征向量，确定所述预设任务的至少两个模态的相似度。

3.根据权利要求2所述的方法，其特征在于，所述预设任务的至少两个模态包括第一模态和第二模态，所述基于每个模态的样本数据对应的特征向量，确定所述预设任务的至少两个模态的相似度，包括：

确定目标样本数据对应的目标样本标签，所述目标样本数据包括第一模态目标样本和第二模态目标样本；

计算第一特征向量和第二特征向量之间的相似度，以确定所述预设任务的第一模态和第二模态之间的相似度，所述第一特征向量为所述第一模态目标样本的特征向量，所述第二特征向量为所述第二模态目标样本的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述目标样本标签包括第一目标样本标签和第二目标样本标签，所述计算第一特征向量和第二特征向量之间的相似度，以确定所述预设任务的第一模态和第二模态之间的相似度，包括：

获取所述第二目标样本标签的第二标签相似度；

5.根据权利要求2所述的方法，其特征在于，所述预设任务的至少两个模态包括第一模态和第二模态，所述基于每个模态的样本数据对应的特征向量，确定所述预设任务的至少两个模态的相似度，包括：

确定用于计算相似度的目标映射函数；

6.根据权利要求1所述的方法，其特征在于，所述多模态网络包括与至少两个模态子网络，所述至少两个模态子网络与所述至少两个模态一一对应，

所述通过多模态网络对所述样本数据进行特征提取，得到每个模态的样本数据对应的特征向量，包括：

所述通过所述多模态网络基于所述特征向量，确定所述预设任务的任务预测结果，包括：

根据每个模态的样本数据对应的特征向量、以及至少两个模态子网络，确定每个模态的样本数据对应的预测子结果；

融合每个模态的预测子结果，得到所述预设任务的任务预测结果。

7.根据权利要求6所述的方法，其特征在于，所述融合每个模态的预测子结果，得到所述预设任务的任务预测结果，包括：

获取每个模态的预测结果权重信息；

8.根据权利要求7所述的方法，其特征在于，所述基于所述相似度、所述任务预测结果以及所述样本标签，对所述多模态网络进行训练，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述获取所述预设任务的至少两个模态的相似度，包括：

10.一种任务预测装置，其特征在于，包括：