CN115186062A

CN115186062A - 多模态预测方法、装置、设备及存储介质

Info

Publication number: CN115186062A
Application number: CN202210822341.1A
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-10-14

Abstract

本申请涉及人工智能技术领域，揭示了一种多模态预测方法、装置、设备及存储介质，其中方法包括：将待预测数据输入预设的多模态预测模型进行预测，得到待预测数据对应的目标预测结果，多模态预测模型的训练方法包括：采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件；将达到模型训练结束条件的初始模型的第一模态编码器、第二模态编码器、多模态融合模块及下游任务模块作为多模态预测模型，其中，第一模态编码器的输出和第二模态编码器的输出作为多模态融合模块的输入，多模态融合模块的输出作为下游任务模块的输入。通过增加互信息的损失来提升模型的鲁棒性，提高了确定的目标预测结果的准确性。

Description

多模态预测方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种多模态预测方法、装置、设备及存储介质。

背景技术

目前的多模态预测模型在训练时，只使用下游任务(分类任务、回归任务等)的损失值来更新模型的网络参数，这就导致了模型对输入的强依赖，导致模型的鲁棒性不高，比如训练时候输入包含了文本和图像两个模态，那么在使用模型进行推理的时候就必须输入两个模态，不支持一个模态的输入。

发明内容

本申请的主要目的为提供一种多模态预测方法、装置、设备及存储介质，旨在解决目前的多模态预测模型在训练时，只使用下游任务的损失值来更新模型的网络参数，这就导致了模型对输入的强依赖，导致模型的鲁棒性不高的技术问题。

为了实现上述发明目的，本申请提出一种多模态预测方法，所述方法包括：

获取待预测数据；

将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果，其中，所述多模态预测模型的训练方法包括：

采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件；

将达到所述模型训练结束条件的所述初始模型的第一模态编码器、第二模态编码器、多模态融合模块及下游任务模块作为所述多模态预测模型，其中，所述第一模态编码器的输出和所述第二模态编码器的输出作为所述多模态融合模块的输入，所述多模态融合模块的输出作为所述下游任务模块的输入。

进一步的，所述将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果的步骤，包括：

将所述待预测数据中的类型为第一模态的数据输入所述多模态预测模型中的所述第一模态编码器进行特征提取，得到第一特征向量；

将所述待预测数据中的类型为第二模态的数据输入所述多模态预测模型中的所述第二模态编码器进行特征提取，得到第二特征向量；

将所述第一特征向量和所述第二特征向量输入所述多模态预测模型中的所述多模态融合模块进行向量拼接及特征融合，得到目标融合特征向量；

将所述目标融合特征向量输入所述多模态预测模型中的所述下游任务模块进行预测，得到所述待预测数据对应的所述目标预测结果。

进一步的，所述采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件的步骤，还包括：

获取目标正样本集、目标负样本集和所述初始模型，其中，所述初始模型包括：所述第一模态编码器、所述第二模态编码器、所述多模态融合模块、统计神经模块和所述下游任务模块，所述多模态融合模块的输出作为所述统计神经模块的输入，所述目标负样本集包括：多个第一负样本、多个第二负样本和多个第三负样本，每个所述第二负样本中的两个数据样本中的任一个为空值，每个所述第三负样本中的两个数据样本中的任一个为0；

采用基于互信息的损失函数、所述目标正样本集和所述目标负样本集，对所述初始模型进行训练，直至达到所述模型训练结束条件。

进一步的，所述采用基于互信息的损失函数、所述目标正样本集和所述目标负样本集，对所述初始模型进行训练，直至达到所述模型训练结束条件的步骤，包括：

采用预设的批次数量，从所述目标正样本集中获取正样本，得到单批次正样本集；

采用所述批次数量，从所述目标负样本集中获取负样本，得到单批次负样本集；

将所述单批次正样本集中的任一个所述正样本作为待分析正样本；

将所述待分析正样本中的类型为第一模态的数据样本输入所述初始模型中的所述第一模态编码器进行特征提取，得到第一正特征向量；

将所述待分析正样本中的类型为第二模态的数据样本输入所述初始模型中的所述第二模态编码器进行特征提取，得到第二正特征向量；

将所述第一正特征向量及所述第二正特征向量输入所述初始模型中的所述多模态融合模块进行向量拼接及特征融合，得到第一融合特征向量；

将各个所述第一融合特征向量输入所述初始模型中的所述统计神经模块进行高维度特征的映射及数据真实分布的拟合，得到第一拟合结果；

将每个所述第一融合特征向量输入所述初始模型中的所述下游任务模块进行预测，得到下游任务预测结果；

将所述单批次负样本集中的任一个所述负样本作为待分析负样本；

将所述待分析负样本中的类型为第一模态的数据样本输入所述初始模型中的所述第一模态编码器进行特征提取，得到第一负特征向量；

将所述待分析负样本中的类型为第二模态的数据样本输入所述初始模型中的所述第二模态编码器进行特征提取，得到第二负特征向量；

将所述第一负特征向量及所述第二负特征向量输入所述初始模型中的所述多模态融合模块进行向量拼接及特征融合，得到第二融合特征向量；

将各个所述第二融合特征向量输入所述初始模型中的所述统计神经模块进行高维度特征的映射及数据真实分布的拟合，得到第二拟合结果；

根据所述第一拟合结果、所述第二拟合结果、各个所述下游任务预测结果、所述单批次正样本集中的各个预测标签和基于互信息的损失函数进行损失值计算，得到目标损失值；

根据所述目标损失值更新所述初始模型的网络参数；

重复执行所述采用预设的批次数量，从所述目标正样本集中获取正样本，得到单批次正样本集的步骤，直至达到所述模型训练结束条件。

进一步的，所述统计神经模块依次包括：第一特征综合层、第二特征综合层、第三特征综合层、第四特征综合层和输出层，并且所述第一特征综合层的输入作为所述第三特征综合层的输入；

所述第一特征综合层、所述第二特征综合层、所述第三特征综合层和所述第四特征综合层均是采用Relu激活函数的全连接层；

所述输出层是采用sigmoid激活函数的全连接层。

进一步的，所述根据所述第一拟合结果、所述第二拟合结果、各个所述下游任务预测结果、所述单批次正样本集中的各个预测标签和基于互信息的损失函数进行损失值计算，得到目标损失值的步骤，包括：

根据所述第一拟合结果和所述第二拟合结果进行互信息依存值计算；

根据所述单批次正样本集中的每个所述正样本对应的所述下游任务预测结果及所述预测标签进行交叉熵损失计算，得到单正样本初始损失；

将每个所述单正样本初始损失乘以预设的损失权重，得到单正样本调整损失；

将所述互信息依存值减去所述单正样本调整损失，得到单正样本目标损失；

对各个所述单正样本目标损失进行融合计算，得到所述目标损失值。

进一步的，所述根据所述第一拟合结果和所述第二拟合结果进行互信息依存值计算的步骤，包括：

根据所述第一拟合结果和所述第二拟合结果进行相对熵损失计算；

根据所述第一拟合结果和所述第二拟合结果进行互信息值计算；

根据所述第一拟合结果和所述第二拟合结果进行分布距离依存值计算；

将所述相对熵损失、所述互信息值和所述分布距离依存值进行平均值计算，得到所述互信息依存值。

本申请还提出了一种多模态预测装置，所述装置包括：

数据获取模块，用于获取待预测数据；

目标预测结果确定模块，用于将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果；

模型训练模块，用于采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件，将达到所述模型训练结束条件的所述初始模型的第一模态编码器、第二模态编码器、多模态融合模块及下游任务模块作为所述多模态预测模型，其中，所述第一模态编码器的输出和所述第二模态编码器的输出作为所述多模态融合模块的输入，所述多模态融合模块的输出作为所述下游任务模块的输入。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的多模态预测方法、装置、设备及存储介质，其中方法将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果，其中，所述多模态预测模型的训练方法包括：采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件；将达到所述模型训练结束条件的所述初始模型的第一模态编码器、第二模态编码器、多模态融合模块及下游任务模块作为所述多模态预测模型，其中，所述第一模态编码器的输出和所述第二模态编码器的输出作为所述多模态融合模块的输入，所述多模态融合模块的输出作为所述下游任务模块的输入。从而通过增加互信息的损失来提升模型的鲁棒性，提高了确定的目标预测结果的准确性。

附图说明

图1为本申请一实施例的多模态预测方法的流程示意图；

图2为本申请一实施例的多模态预测装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种多模态预测方法，所述方法包括：

S1：获取待预测数据；

S2：将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果，其中，所述多模态预测模型的训练方法包括，采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件，将达到所述模型训练结束条件的所述初始模型的第一模态编码器、第二模态编码器、多模态融合模块及下游任务模块作为所述多模态预测模型，其中，所述第一模态编码器的输出和所述第二模态编码器的输出作为所述多模态融合模块的输入，所述多模态融合模块的输出作为所述下游任务模块的输入。

本实施例通过增加互信息的损失来提升模型的鲁棒性，提高了确定的目标预测结果的准确性。

对于S1，可以获取用户输入的待预测数据，也可以从数据库中获取待预测数据，还可以从第三方应用中获取待预测数据。

待预测数据包括：图像和文本中的至少一种。

对于S2，将所述待预测数据输入预设的多模态预测模型进行预测，将预测得到的数据作为所述待预测数据对应的目标预测结果。

其中，所述初始模型包括：所述第一模态编码器、所述第二模态编码器、所述多模态融合模块、统计神经模块和所述下游任务模块，所述第一模态编码器的输出和所述第二模态编码器的输出作为所述多模态融合模块的输入，所述多模态融合模块的输出作为所述统计神经模块及所述下游任务模块的输入。

在训练所述初始模型时，采用基于互信息的损失函数，从而实现增加互信息的损失来提升模型的鲁棒性。

互信息，英文名称为Mutual Information，是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

所述第一模态编码器是对第一模态的数据进行编码的编码器。所述第二模态编码器是对第二模态的数据进行编码的编码器。第一模态和第二模态是不同的模态，比如，第一模态是文本和第二模态是图像。

所述多模态融合模块是基于LSTM(长短期记忆人工神经网络)的模型。

统计神经模块，用于根据所述多模态融合模块的输出计算互信息依存值。互信息依存值是根据相对熵损失、互信息值和分布距离依存值计算得到的损失值。统计神经模块是基于多个采用Relu激活函数(分段线性函数)的全连接层和一个采用sigmoid激活函数(S型函数)的全连接层的模型。

所述下游任务模块可以是分类任务的网络模型，也可以是回归任务的网络模型，在此不做限定。

因统计神经模块只用于模型训练阶段，因此，将达到所述模型训练结束条件的所述初始模型的第一模态编码器、第二模态编码器、多模态融合模块及下游任务模块作为所述多模态预测模型。

可选的，所述模型训练结束条件为所述初始模型的损失值收敛于预设数值。

所述目标预测结果，是下游任务模块输出的数据。比如，若下游任务模块的作用是分类，则所述目标预测结果是一个向量，所述目标预测结果中的每个向量元素对应一个分类类别，所述目标预测结果中的每个向量元素的值是概率值。

在一个实施例中，上述将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果的步骤，包括：

S21：将所述待预测数据中的类型为第一模态的数据输入所述多模态预测模型中的所述第一模态编码器进行特征提取，得到第一特征向量；

S22：将所述待预测数据中的类型为第二模态的数据输入所述多模态预测模型中的所述第二模态编码器进行特征提取，得到第二特征向量；

S23：将所述第一特征向量和所述第二特征向量输入所述多模态预测模型中的所述多模态融合模块进行向量拼接及特征融合，得到目标融合特征向量；

S24：将所述目标融合特征向量输入所述多模态预测模型中的所述下游任务模块进行预测，得到所述待预测数据对应的所述目标预测结果。

本实施例本实施例通过对应模态的编码器进行特征提取，然后对两个编码器提取的特征进行向量拼接及特征融合，最后基于特征融合的结果进行预测，因多模态预测模型是基于互信息的损失函数训练得到的模型，从而具有较好的鲁棒性，提高了确定的目标预测结果的准确性。

对于S21，将所述待预测数据中的类型为第一模态的数据输入所述多模态预测模型中的所述第一模态编码器进行特征提取，将提取得到的数据作为第一特征向量。

对于S22，将所述待预测数据中的类型为第二模态的数据输入所述多模态预测模型中的所述第二模态编码器进行特征提取，将提取得到的数据作为第二特征向量。

对于S23，将所述第一特征向量和所述第二特征向量输入所述多模态预测模型中的所述多模态融合模块进行向量拼接，然后将拼接得到的向量进行特征融合，将特征融合得到的数据作为目标融合特征向量，其中，所述多模态融合模块是采用LSTM，对拼接得到的向量进行特征融合。

对于S24，将所述目标融合特征向量输入所述多模态预测模型中的所述下游任务模块进行预测，将预测得到的数据作为所述待预测数据对应的所述目标预测结果。

在一个实施例中，上述采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件的步骤，还包括：

S31：获取目标正样本集、目标负样本集和所述初始模型，其中，所述初始模型包括：所述第一模态编码器、所述第二模态编码器、所述多模态融合模块、统计神经模块和所述下游任务模块，所述多模态融合模块的输出作为所述统计神经模块的输入，所述目标负样本集包括：多个第一负样本、多个第二负样本和多个第三负样本，每个所述第二负样本中的两个数据样本中的任一个为空值，每个所述第三负样本中的两个数据样本中的任一个为0；

S32：采用基于互信息的损失函数、所述目标正样本集和所述目标负样本集，对所述初始模型进行训练，直至达到所述模型训练结束条件。

本实施例通过在目标负样本集中设置包含空值或0的负样本，从而使达到所述模型训练结束条件的所述初始模型将允许某个模态的数据缺失；通过将所述第一模态编码器、所述第二模态编码器、所述多模态融合模块、统计神经模块和所述下游任务模块，以及采用基于互信息的损失函数，从而实现了通过增加互信息的损失来提升模型的鲁棒性。

对于S31，可以获取用户输入的目标正样本集、目标负样本集和所述初始模型，也可以从数据库中获取目标正样本集、目标负样本集和所述初始模型，还可以从第三方应用中获取目标正样本集、目标负样本集和所述初始模型。

目标正样本集中包括多个正样本。正样本中包括：第一模态的数据样本、第二模态的数据样本和预测标签，其中，第一模态的数据样本和第二模态的数据样本表述的含义相同，预测标签的值为1。当预测标签的值为1时，意味着第一模态的数据样本和第二模态的数据样本表述的含义相同。

目标负样本集中包括多个负样本。负样本是多个第一负样本、多个第二负样本和多个第三负样本中的任一个，每个负样本中包括：第一模态的数据样本、第二模态的数据样本和预测标签，其中，第一模态的数据样本和第二模态的数据样本表述的含义不相同，预测标签的值为0。当预测标签的值为0时，意味着第一模态的数据样本和第二模态的数据样本表述的含义不相同。

所述第一负样本包括：第一模态的数据样本和第二模态的数据样本，其中，第一模态的数据样本不是空值，也不是0，第二模态的数据样本不是空值，也不是0。

对于S32，采用所述目标正样本集和所述目标负样本集，对所述初始模型进行训练，在计算所述初始模型的损失值时，采用基于互信息的损失函数。

达到所述模型训练结束条件，也就是所述初始模型的性能达到预期要求。

在一个实施例中，上述采用基于互信息的损失函数、所述目标正样本集和所述目标负样本集，对所述初始模型进行训练，直至达到所述模型训练结束条件的步骤，包括：

S321：采用预设的批次数量，从所述目标正样本集中获取正样本，得到单批次正样本集；

S322：采用所述批次数量，从所述目标负样本集中获取负样本，得到单批次负样本集；

S323：将所述单批次正样本集中的任一个所述正样本作为待分析正样本；

S324：将所述待分析正样本中的类型为第一模态的数据样本输入所述初始模型中的所述第一模态编码器进行特征提取，得到第一正特征向量；

S325：将所述待分析正样本中的类型为第二模态的数据样本输入所述初始模型中的所述第二模态编码器进行特征提取，得到第二正特征向量；

S326：将所述第一正特征向量及所述第二正特征向量输入所述初始模型中的所述多模态融合模块进行向量拼接及特征融合，得到第一融合特征向量；

S327：将各个所述第一融合特征向量输入所述初始模型中的所述统计神经模块进行高维度特征的映射及数据真实分布的拟合，得到第一拟合结果；

S328：将每个所述第一融合特征向量输入所述初始模型中的所述下游任务模块进行预测，得到下游任务预测结果；

S329：将所述单批次负样本集中的任一个所述负样本作为待分析负样本；

S3210：将所述待分析负样本中的类型为第一模态的数据样本输入所述初始模型中的所述第一模态编码器进行特征提取，得到第一负特征向量；

S3211：将所述待分析负样本中的类型为第二模态的数据样本输入所述初始模型中的所述第二模态编码器进行特征提取，得到第二负特征向量；

S3212：将所述第一负特征向量及所述第二负特征向量输入所述初始模型中的所述多模态融合模块进行向量拼接及特征融合，得到第二融合特征向量；

S3213：将各个所述第二融合特征向量输入所述初始模型中的所述统计神经模块进行高维度特征的映射及数据真实分布的拟合，得到第二拟合结果；

S3214：根据所述第一拟合结果、所述第二拟合结果、各个所述下游任务预测结果、所述单批次正样本集中的各个预测标签和基于互信息的损失函数进行损失值计算，得到目标损失值；

S3215：根据所述目标损失值更新所述初始模型的网络参数；

S3216：重复执行所述采用预设的批次数量，从所述目标正样本集中获取正样本，得到单批次正样本集的步骤，直至达到所述模型训练结束条件。

本实施例首先通过统计神经模块进行高维度特征的映射及数据真实分布的拟合，然后根据所述第一拟合结果、所述第二拟合结果、各个所述下游任务预测结果、所述单批次正样本集中的各个预测标签和基于互信息的损失函数进行损失值计算，从而实现了增加互信息的损失来提升模型的鲁棒性，提高了模型预测的准确性。

对于S321，批次数量，是一个具体数值。

其中，从所述目标正样本集中随机获取所述批次数量的正样本，将获取的各个批次数量作为单批次正样本集。也就是说，单批次正样本集中的正样本的数量与所述批次数量相同。

对于S322，从所述目标负样本集中随机获取所述批次数量的负样本，将获取的各个批次数量作为单批次负样本集。也就是说，单批次负样本集中的负样本的数量与所述批次数量相同。

对于S324，将所述待分析正样本中的类型为第一模态的数据样本输入所述初始模型中的所述第一模态编码器进行特征提取，将提取得到的数据作为第一正特征向量。

对于S325，将所述待分析正样本中的类型为第二模态的数据样本输入所述初始模型中的所述第二模态编码器进行特征提取，将提取得到的数据作为第二正特征向量。

对于S326，将所述第一正特征向量及所述第二正特征向量输入所述初始模型中的所述多模态融合模块进行向量拼接，然后将拼接得到的向量进行特征融合，将特征融合得到的数据作为第一融合特征向量。

对于S327，将各个所述第一融合特征向量输入所述初始模型中的所述统计神经模块进行高维度特征的映射及数据真实分布的拟合，将拟合得到的数据作为第一拟合结果。

第一拟合结果中的向量元素与所述单批次正样本集中的正样本一一对应。

对于S328，将每个所述第一融合特征向量输入所述初始模型中的所述下游任务模块进行预测，将预测得到的数据作为下游任务预测结果，为计算下游任务预测的损失提供了基础。

对于S3210，将所述待分析负样本中的类型为第一模态的数据样本输入所述初始模型中的所述第一模态编码器进行特征提取，将提取得到的数据作为第一负特征向量。

对于S3211，将所述待分析负样本中的类型为第二模态的数据样本输入所述初始模型中的所述第二模态编码器进行特征提取，将提取得到的数据作为第二负特征向量。

对于S3212，将所述第一负特征向量及所述第二负特征向量输入所述初始模型中的所述多模态融合模块进行向量拼接，然后将拼接得到的向量进行特征融合，将特征融合得到的数据作为第二融合特征向量。

对于S3213，将各个所述第二融合特征向量输入所述初始模型中的所述统计神经模块进行高维度特征的映射及数据真实分布的拟合，将拟合得到的数据作为第二拟合结果。

第二拟合结果中的向量元素与所述单批次负样本集中的负样本一一对应。

对于S3214，根据所述第一拟合结果和所述第二拟合结果进行互信息依存值计算，根据各个所述下游任务预测结果、所述单批次正样本集中的各个预测标签进行下游任务预测的损失计算，将互信息依存值和下游任务预测的损失进行融合，将融合得到的数据作为目标损失值，从而实现了基于互信息的损失函数计算所述初始模型的损失值。

对于S3215，根据所述目标损失值更新所述初始模型的网络参数，将更新后的所述初始模型用于下一次计算所述第一拟合结果、所述第二拟合结果、各个所述下游任务预测结果。

可以理解的是，根据所述目标损失值更新所述初始模型的网络参数的方法步骤在此不做赘述。

对于S3216，重复执行所述采用预设的批次数量，从所述目标正样本集中获取正样本，得到单批次正样本集的步骤，也就是重复执行步骤S321至步骤S3216，直至达到所述模型训练结束条件。

在一个实施例中，上述统计神经模块依次包括：第一特征综合层、第二特征综合层、第三特征综合层、第四特征综合层和输出层，并且所述第一特征综合层的输入作为所述第三特征综合层的输入；

所述输出层是采用sigmoid激活函数的全连接层。

本实施例通过第一特征综合层、第二特征综合层、第三特征综合层、第四特征综合层和输出层，实现高维度特征的映射及数据真实分布的拟合，为基于互信息的损失函数计算所述初始模型的损失值提供了基础。

其中，第一特征综合层的输出作为第二特征综合层的输入，第二特征综合层的输出作为第三特征综合层的输入，第三特征综合层的输出作为第四特征综合层的输入，第四特征综合层的输出作为输出层的输入，输出层的输出作为统计神经模块的输出，所述第一特征综合层的输入作为所述第三特征综合层的输入以实现残差连接。

在一个实施例中，上述根据所述第一拟合结果、所述第二拟合结果、各个所述下游任务预测结果、所述单批次正样本集中的各个预测标签和基于互信息的损失函数进行损失值计算，得到目标损失值的步骤，包括：

S32141：根据所述第一拟合结果和所述第二拟合结果进行互信息依存值计算；

S32142：根据所述单批次正样本集中的每个所述正样本对应的所述下游任务预测结果及所述预测标签进行交叉熵损失计算，得到单正样本初始损失；

S32143：将每个所述单正样本初始损失乘以预设的损失权重，得到单正样本调整损失；

S32144：将所述互信息依存值减去所述单正样本调整损失，得到单正样本目标损失；

S32145：对各个所述单正样本目标损失进行融合计算，得到所述目标损失值。

本实施例根据所述第一拟合结果和所述第二拟合结果进行互信息依存值计算，然后将互信息依存值和每个正样本的损失进行融合，从而实现了基于互信息的损失函数计算所述初始模型的损失值。

对于S32141，根据所述第一拟合结果和所述第二拟合结果分别计算相对熵损失、互信息值和分布距离依存值，根据计算的相对熵损失、互信息值和分布距离依存值的计算所述互信息依存值。

对于S32142，根据所述单批次正样本集中的所述正样本对应的所述下游任务预测结果及该所述正样本对应的所述预测标签进行交叉熵损失计算，将计算得到的每个交叉熵损失作为一个单正样本初始损失。

对于S32143，将每个所述单正样本初始损失乘以预设的损失权重，将计算得到的数据作为单正样本调整损失。

对于S32144，将所述互信息依存值减去所述单正样本调整损失，将计算得到的数据作为单正样本目标损失。

对于S32145，对各个所述单正样本目标损失进行平均值计算，将计算得到的数据作为所述目标损失值。

在一个实施例中，上述根据所述第一拟合结果和所述第二拟合结果进行互信息依存值计算的步骤，包括：

S321411：根据所述第一拟合结果和所述第二拟合结果进行相对熵损失计算；

S321412：根据所述第一拟合结果和所述第二拟合结果进行互信息值计算；

S321413：根据所述第一拟合结果和所述第二拟合结果进行分布距离依存值计算；

S321414：将所述相对熵损失、所述互信息值和所述分布距离依存值进行平均值计算，得到所述互信息依存值。

本实施例先根据所述第一拟合结果和所述第二拟合结果分别计算所述相对熵损失、所述互信息值和所述分布距离依存值，然后将所述相对熵损失、所述互信息值和所述分布距离依存值进行平均值计算，从而实现了计算互信息的损失，为基于互信息的损失函数计算所述初始模型的损失值提供了基础。

对于S321411，根据所述第一拟合结果和所述第二拟合结果进行相对熵损失计算，也就是对所述第一拟合结果中的各个向量元素的值进行平均值计算，得到第一数值，将所述第二拟合结果中的各个向量元素的值进行指数e(自然常数)计算，然后对指数e计算得到的数据进行log(对数函数)计算，将计算得到的数据作为第二数值，将第一数值减去第二数值，得到所述相对熵损失，其中，所述相对熵损失的计算公式I_kl为：

是恒等于，sup是上确界，θ是所述初始模型的网络参数，E是数学期望，log是对数函数，pX_vX_l是第一模态和第二模态的联合概率，T1_θ是所述第一拟合结果，T2_θ是所述第二拟合结果，∏pX_j是对pX_j进行求积计算，pX_j是输入是第一模态的数据或第二模态的数据的概率，X是输入所述初始模型的数据样本，e是自然常数，v是图像模态，l是文本模态。

对于S321412，根据所述第一拟合结果和所述第二拟合结果进行互信息值计算，也就是对所述第一拟合结果中的各个向量元素的值进行平均值计算，得到第三数值，将所述第二拟合结果中的各个向量元素的值进行指数e减去1计算，将计算得到的数据作为第四数值，将第三数值减去第四数值，得到所述互信息值，其中，所述互信息值的计算公式I_f为：

是恒等于，sup是上确界，θ是所述初始模型的网络参数，E是数学期望，pX_vX_l是第一模态和第二模态的联合概率，T1_θ是所述第一拟合结果，T2_θ是所述第二拟合结果，∏pX_j是对pX_j进行求积计算，pX_j是输入是第一模态的数据或第二模态的数据的概率，X是输入所述初始模型的数据样本，e是自然常数，v是图像模态，l是文本模态。

对于S321413，分布距离依存值，又称为基于Wasserstei距离依存的数值。Wasserstei距离，又称为推土机距离，用来表示两个分布的相似程度。

根据所述第一拟合结果和所述第二拟合结果进行分布距离依存值计算，也就是对所述第一拟合结果中的各个向量元素的值进行平均值计算，得到第五数值，将所述第二拟合结果中的各个向量元素的值进行平均值计算，对计算的平均值进行log计算，将计算得到的数据作为第六数值，将第五数值减去第六数值，得到所述分布距离依存值，其中，所述分布距离依存值的计算公式I_w为：

是恒等于，sup是上确界，θ是所述初始模型的网络参数，E是数学期望，log是对数函数，pX_vX_l是第一模态和第二模态的联合概率，T1_θ是所述第一拟合结果，T2_θ是所述第二拟合结果，∏pX_j是对pX_j进行求积计算，pX_j是输入是第一模态的数据或第二模态的数据的概率，X是输入所述初始模型的数据样本，e是自然常数，v是图像模态，l是文本模态，L是所述批次数量。

对于S321414，将所述相对熵损失、所述互信息值和所述分布距离依存值进行平均值计算，将计算得到的数据作为所述互信息依存值。

参照图2，本申请还提出了一种多模态预测装置，所述装置包括：

数据获取模块100，用于获取待预测数据；

目标预测结果确定模块200，用于将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果；

模型训练模块300，用于采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件，将达到所述模型训练结束条件的所述初始模型的第一模态编码器、第二模态编码器、多模态融合模块及下游任务模块作为所述多模态预测模型，其中，所述第一模态编码器的输出和所述第二模态编码器的输出作为所述多模态融合模块的输入，所述多模态融合模块的输出作为所述下游任务模块的输入。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存多模态预测方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态预测方法。所述多模态预测方法，包括：获取待预测数据；将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果，其中，所述多模态预测模型的训练方法包括：采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件；将达到所述模型训练结束条件的所述初始模型的第一模态编码器、第二模态编码器、多模态融合模块及下游任务模块作为所述多模态预测模型，其中，所述第一模态编码器的输出和所述第二模态编码器的输出作为所述多模态融合模块的输入，所述多模态融合模块的输出作为所述下游任务模块的输入。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种多模态预测方法，包括步骤：获取待预测数据；将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果，其中，所述多模态预测模型的训练方法包括：采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件；将达到所述模型训练结束条件的所述初始模型的第一模态编码器、第二模态编码器、多模态融合模块及下游任务模块作为所述多模态预测模型，其中，所述第一模态编码器的输出和所述第二模态编码器的输出作为所述多模态融合模块的输入，所述多模态融合模块的输出作为所述下游任务模块的输入。

上述执行的多模态预测方法，通过增加互信息的损失来提升模型的鲁棒性，提高了确定的目标预测结果的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种多模态预测方法，其特征在于，所述方法包括：

获取待预测数据；

2.根据权利要求1所述的多模态预测方法，其特征在于，所述将所述待预测数据输入预设的多模态预测模型进行预测，得到所述待预测数据对应的目标预测结果的步骤，包括：

3.根据权利要求1所述的多模态预测方法，其特征在于，所述采用基于互信息的损失函数，对预设的初始模型进行训练，直至达到预设的模型训练结束条件的步骤，还包括：

4.根据权利要求3所述的多模态预测方法，其特征在于，所述采用基于互信息的损失函数、所述目标正样本集和所述目标负样本集，对所述初始模型进行训练，直至达到所述模型训练结束条件的步骤，包括：

根据所述目标损失值更新所述初始模型的网络参数；

5.根据权利要求3所述的多模态预测方法，其特征在于，所述统计神经模块依次包括：第一特征综合层、第二特征综合层、第三特征综合层、第四特征综合层和输出层，并且所述第一特征综合层的输入作为所述第三特征综合层的输入；

所述输出层是采用sigmoid激活函数的全连接层。

6.根据权利要求4所述的多模态预测方法，其特征在于，所述根据所述第一拟合结果、所述第二拟合结果、各个所述下游任务预测结果、所述单批次正样本集中的各个预测标签和基于互信息的损失函数进行损失值计算，得到目标损失值的步骤，包括：

7.根据权利要求6所述的多模态预测方法，其特征在于，所述根据所述第一拟合结果和所述第二拟合结果进行互信息依存值计算的步骤，包括：

8.一种多模态预测装置，其特征在于，所述装置包括：

数据获取模块，用于获取待预测数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。