CN117975342B

CN117975342B - 半监督多模态情感分析方法、系统、存储介质及计算机

Info

Publication number: CN117975342B
Application number: CN202410363113.1A
Authority: CN
Inventors: 彭澎; 徐华; 王进勇
Original assignee: Jiangxi Shangtong Technology Development Co ltd
Current assignee: Jiangxi Shangtong Technology Development Co ltd
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2024-06-11
Anticipated expiration: 2044-03-28
Also published as: CN117975342A

Abstract

本发明提供一种半监督多模态情感分析方法、系统、存储介质及计算机，该方法包括以下步骤：获取样本数据的音频模态特征、视频模态特征及字幕模态特征；对各特征进行拼接融合得到跨模态特征及跨模态情感预测值；将跨模态特征进行拼接融合得到多模态特征，以得到第一多模态情感值；基于相似性约束损失函数，获取包含特异性与关联性的多模态特征表示，以得到预测情感值。通过采用多模态特征表示方法，有助于捕获蕴含异性与关联性的特征表示，无需复杂的网络设计，极大的降低了模型的训练成本，同时能够学习互联网或现实场景海量的无标注的多模态样本进一步提升情感分析性能；并通过半监督方法学习无监督多模态数据，进一步提升预测情感值的精度。

Description

半监督多模态情感分析方法、系统、存储介质及计算机

技术领域

本发明涉及情感分析技术领域，特别涉及一种半监督多模态情感分析方法、系统、存储介质及计算机。

背景技术

多模态情感分析是实现人机交互的基础，机器人需要对用户情感做出准确的判断，才能与用户进行正确的交互。多模态情感特征表示是多模态情感分析的一项重要内容。良好的多模态特征表示不但要有效的表示独立模态所蕴含的信息，而且要有效的描述异构模态之间的关联。

现有技术当中，早期的研究人员采用不同的子神经网络，来提取音频、视频、字幕三种模态数据的单模态特征表示。对于音频模态和视频模态，主流的方法是通过工具提取高维的声学特征向量和面部特征向量，由于高维空间向量的稀疏性，不能表示音视频序列的联系，故使用循环神经网络将音视频高维序列向量映射成低维空间的稠密向量；对于字幕模态，主流的方法是通过预训练语言模型提取文本的特征。预训练语言模型在大规模语料上通过无监督方法进行预训练，能够捕获词语不同上下文信息。三种单模态特征表示，通过拼接融合，得到最终的多模态特征表示。

上述方法仅提取了蕴含模态特异性的低级特征表示，未能捕获异构模态之间的关联信息，这样无法充分利用多模态数据得到远优于单模态的特征信息。

发明内容

针对现有技术的不足，本发明的目的在于提供一种半监督多模态情感分析方法、系统、存储介质及计算机，旨在解决现有技术中，无法获得高质量的多模态特征表示的技术问题。

为了实现上述目的，第一方面，本申请提出了一种半监督多模态情感分析方法，包括以下步骤：

获取样本数据的音视频模态特征，对所述音视频模态特征进行特征提取，以得到音频模态特征、视频模态特征及字幕模态特征；

对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到样本的跨模态情感预测值，其中，所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征，及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征；

将所述跨模态特征进行拼接融合得到多模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到所述样本数据对应的第一多模态情感值；

基于相似性约束损失函数，逼近所述跨模态情感预测值及所述第一多模态情感值，以获取包含特异性与关联性的多模态特征表示，从而基于所述多模态特征表示得到预测情感值：

；

式中，表示所述相似性约束损失函数，/>表示第i个样本的第一多模态情感值，表示第i个样本的跨模态情感预测值，/>表示所述跨模态特征的权重，/>表示所述第一跨模态特征，/>表示所述第二跨模态特征，/>表示所述第三跨模态特征，/>表示有监督数据的样本数量。

根据上述技术方案的一方面，所述样本数据包括有监督数据样本及无监督数据样本，所述得到样本的多模态情感值的步骤具体包括：

将所述跨模态特征进行拼接融合得到多模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到与所述有监督数据样本的第二多模态情感值；

基于以下有监督损失函数对所述有监督数据样本对应的第二多模态情感值进行优化，以得到所述第一多模态情感值：

；

式中，表示所述第二多模态情感值，/>表示所述有监督损失函数。

根据上述技术方案的一方面，所述样本数据包括有监督数据样本及无监督数据样本，得到样本对应的第一多模态情感值的步骤具体包括：

基于均值教师架构，构建教师模型及学生模型，将所述无监督数据样本分别输入所述教师模型及学生模型中，得到无监督跨模态特征与无监督多模态特征，从而得到无监督跨模态情感值及无监督多模态情感值；

量化所述无监督跨模态情感值及无监督多模态情感值之间的差异，并判断差异值是否小于预设阈值；

若所述差异值小于预设阈值，则基于与所述教师模型对应的无监督多模态情感值对应生成的伪标签，以基于所述伪标签指导所述学生模型基于无监督数据进行优化，以得到所述第一多模态情感值。

根据上述技术方案的一方面，所述伪标签对应的无监督损失函数如下：

；

式中，表示学生模型对第i个样本的预测结果，/>表示教师模型生成的伪标签，/>表示无监督数据，/>表示教师网络参数，/>表示学生网络参数，/>为第i个样本的所述差异值，/>为所述预设阈值，/>为所述伪标签对应的无监督损失函数。

根据上述技术方案的一方面，基于所述多模态特征表示得到预测情感值的步骤具体包括：

基于以下计算公式得到与所述多模态特征表示对应的预测情感值：

；

式中，表示第i个样本的预测情感值，/>表示第i个样本的多模态特征表示，表示学生模型的神经网络线性层。

根据上述技术方案的一方面，所述教师网络参数按以下函数进行更新：

；

式中，为衰减率，s为训练步骤。

根据上述技术方案的一方面，对所述音视频模态特征进行特征提取，以得到音频模态特征、视频模态特征及字幕模态特征的步骤具体包括：

基于循环神经网络捕获所述音视频模态特征中的时序信息，并基于以下计算式将音视频高维序列向量映射成低维空间的稠密向量，所述稠密向量包括与视频模态特征对应的第一稠密向量，及与音频模态特征对应的第二稠密向量：

；

式中，表示视频模态，/>表示音频模态，/>表示所述第一稠密向量，/>表示所述第二稠密向量，/>表示音频序列长度，/>表示视频序列长度，/>表示音频特征的维度，/>表示视频特征的维度；

通过用户语音转换的文本模态，并基于BERT预训练语言模型得到与字幕模态特征对应的文本特征：

；

式中，表示文本模态，/>表示文本特征的维度。

第二方面，本申请提出了一种半监督多模态情感分析系统，包括：

提取模块，用于获取样本数据的音视频模态特征，对所述音视频模态特征进行特征提取，以得到音频模态特征、视频模态特征及字幕模态特征；

跨模态模块，用于对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到样本的跨模态情感预测值，其中，所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征，及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征；

多模态模块，用于将所述跨模态特征进行拼接融合得到多模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到所述样本数据对应的第一多模态情感值；

优化模块，用于基于相似性约束损失函数，逼近所述跨模态情感预测值及所述第一多模态情感值，以获取包含特异性与关联性的多模态特征表示，从而基于所述多模态特征表示得到预测情感值：

；

根据上述技术方案的一方面，所述多模态模块具体用于：

；

根据上述技术方案的一方面，所述多模态模块还用于：

根据上述技术方案的一方面，所述优化模块具体用于：基于以下计算公式得到与所述多模态特征表示对应的预测情感值：

；

根据上述技术方案的一方面，所述提取模块具体用于：

；

式中，表示文本模态，/>表示文本特征的维度。

与现有技术相比，本发明的有益效果在于：通过采用多模态特征表示方法，有助于捕获蕴含异性与关联性的特征表示，无需复杂的网络设计，极大的降低了模型的训练成本，保证智能服务机器人能够准确识别出用户的情感，作为后续交互的基础，提升服务质量，同时能够学习互联网或现实场景海量的无标注的多模态样本进一步提升情感分析性能；通过神经网络与激活函数预测情感值，并通过半监督方法学习无监督多模态数据，进一步提升预测情感值的精度。

附图说明

图1为本发明第一实施例中半监督多模态情感分析方法的流程图；

图2为本发明第一实施例中半监督模型与普通模型的实验比对示意图；

图3为本发明第二实施例中半监督多模态情感分析系统的结构框图；

图4是本申请第三实施例中计算机的硬件结构示意图；

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明第一实施例中的半监督多模态情感分析方法的流程图，如图所示，该方法包括以下步骤：

步骤S100，获取样本数据的音视频模态特征，对所述音视频模态特征进行特征提取，以得到音频模态特征、视频模态特征及字幕模态特征。

具体来说，在本实施例中，上述步骤S100中，对所述音视频模态特征进行特征提取，以得到音频模态特征、视频模态特征及字幕模态特征的步骤具体包括：

步骤S110，基于循环神经网络捕获所述音视频模态特征中的时序信息，并基于以下计算式将音视频高维序列向量映射成低维空间的稠密向量，所述稠密向量包括与视频模态特征对应的第一稠密向量，及与音频模态特征对应的第二稠密向量：

；

式中，表示视频模态，/>表示音频模态，/>表示所述第一稠密向量，/>表示所述第二稠密向量，/>表示音频序列长度，/>表示视频序列长度，/>表示音频特征的维度，/>表示视频特征的维度。

步骤S120，通过用户语音转换的文本模态，并基于BERT预训练语言模型得到与字幕模态特征对应的文本特征：

；

式中，表示文本模态，/>表示文本特征的维度。

步骤S200，对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到样本的跨模态情感预测值，其中，所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征，及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征。

具体来说，在本实施例中，三种模态特征经过神经网络线性层与激活函数映射后进行两两拼接融合，得到三种跨模态特征，通过线性层Linear与sigmod激活函数映射得到三种跨模态情感值/>：

；

这一步得到三种跨模态情感预测值，分别是av：音频模态+视频模态、ta：文本模态+音频模态、tv：文本模态+视频模态。

步骤S300，将所述跨模态特征进行拼接融合得到多模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到所述样本数据对应的第一多模态情感值。上述多模态特征表示为：/>。

步骤S400，基于相似性约束损失函数，逼近所述跨模态情感预测值及所述第一多模态情感值，以获取包含特异性与关联性的多模态特征表示，从而基于所述多模态特征表示得到预测情感值：

；

本方案为了捕获蕴含模态间关联性的特征表示，在低级特征的基础上构建特征抽取网络并设计模态交互损失函数使模型学习模态间的共性信息，并通过跨模态与多模态的情感相似性损失函数来学习模态间的一致性情感，得到蕴含丰富情感信息的多模态特征表示，从而提升模型的情感分析性能。

需要说明地，在本实施例中，本方案支持半监督场景，所述样本数据包括有监督数据样本及无监督数据样本，即包括针对有监督对应的有标记样本，和无监督对应的未标记样本。

在本实施例的一些应用场景中，

针对有监督数据，上述步骤S300中，得到所述样本数据对应的第一多模态情感值的步骤具体包括：

步骤S310，将所述跨模态特征进行拼接融合得到多模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到与所述有监督数据样本的第二多模态情感值；

步骤S320，基于以下有监督损失函数对所述有监督数据样本对应的第二多模态情感值进行优化，以得到所述第一多模态情感值：

；

便于理解地，传统的半监督多模态情感分析方法依赖大量带有标注的数据，在标注数据有限的情况下，模型往往会过拟合与训练集，导致性能显著下降，而获取标注数据需要成本，因此如何借助互联网上海量无监督数据打破有限标注数据带来的局限性是本问题的核心与难点。

为了实现更精准的多模态情感分析这一目标，需要利用互联网上海量的无监督数据打破有限的监督数据带来的局限性，解决该问题的难题主要有：1）如何筛选高质量的无监督数据，以减少低质量无监督数据带来的扰动。2）如何有效的利用高质量的无监督数据，提升模型的性能。针对上述问题，本发明采用伪标签，均值教师等半监督方法解决。

在本实施例的一些应用场景中，

针对无监督数据，上述步骤S300中，得到样本对应的第一多模态情感值的步骤具体包括：

步骤S330，基于均值教师架构，构建教师模型及学生模型，将所述无监督数据样本分别输入所述教师模型及学生模型中，得到无监督跨模态特征与无监督多模态特征，从而得到无监督跨模态情感值及无监督多模态情感值。

需要说明地，我们通过跨模态与多模态的情感相似性损失函数来学习模态间的一致性情感，得到蕴含丰富情感信息的多模态特征表示，从而提升模型的情感分析性能。但是上述方法依赖多模态情感标签，性能局限于训练集数量，为了进一步提升性能，我们利用无监督数据进行半监督学习。因此，我们引入均值教师架构用于结合一致性正则化方法与伪标签方法。

均值教师的核心思想是将模型分为教师模型与学生模型，教师模型指导学生模型，学生模型将学习到的知识通过参数更新传递给教师模型。具体算法如下：

我们复制原始模型，得到教师模型，符号表示为，并将原始模型定义为学生模型，符号表示为/>。我们将无监督样本数据分别输入到教师与学生模型中，得到跨模态与多模态情感特征表示：

；

其中，表示无监督多模态数据，/>表示特征抽取网络，表示教师网络与学生网络抽取的多模态与跨模态特征表示，通过线性层与sigmod激活函数映射得到跨模态情感值/>与多模态情感值/>。教师模型的预测的情感值将作为伪标签指导学生模型学习。

然而，当多模态样本的不同模态所表达的情感差异显著时，融合后得到的跨模态和多模态情感同样会表现出显著差异，模型难以捕获模态之间的关联信息。这导致教师模型在面对这些样本时容易出现错误预测，从而误导学生模型，导致性能下降。

步骤S340，量化所述无监督跨模态情感值及无监督多模态情感值之间的差异，并判断差异值是否小于预设阈值。具体来说，我们为了过滤掉了由教师模型生成的不可信的虚假伪标签，量化了跨模态和多模态情感之间的差异：

。

步骤S350，若所述差异值小于预设阈值，则基于与所述教师模型对应的无监督多模态情感值对应生成的伪标签，以基于所述伪标签指导所述学生模型基于无监督数据进行优化，以得到所述第一多模态情感值。

具体来说，通过设定阈值threshold，说明教师网络生成的伪标签是可信的，用于指导学生网络学习无监督数据。

更进一步地，所述伪标签对应的无监督损失函数如下：

；

优选地，在本实施例中，所述教师网络参数按以下函数进行更新：

；

式中，为衰减率，s为训练步骤。具体来说，教师网络的参数ϑ是学生网络参数θ的指数移动平均值，衰减率/>。为了让教师模型提供了更准确和鲁棒的预测，在每个训练步骤s，教师网络不是通过梯度下降优化，而是按照如下方式更新：

。

因此，针对有监督样本数据的损失函数优化可以表示为：

；

针对无监督样本数据的的损失函数优化可以表示为：

。

通过优化上述最终损失函数，使模型学习到良好的多模态特征表示。

更进一步地，在本实施例中，上述步骤S400中，基于所述多模态特征表示得到预测情感值的步骤具体包括：

；

在本实施例的一些应用场景中，为了分析上述情感分析方法的分析性能，我们对数据集随机划分出5%作为有监督数据用于有监督训练，剩下作为无监督数据用于无监督训练，最终测试5%标注数据与95%无标注数据，这样的半监督场景下模型的多模态情感分析性能。

同时为了与本方案的模型进行比较，我们利用两个公开标准数据集进行实验，分别是英文多模态情感分析数据集MOSEI和中文多模态情感分析数据集CH-SIMSv2.0。

如图2所示，模型的评价指标包括分类指标与回归指标，分类指标使用是Acc2与F1分数，回归指标使用MAE，其中Acc2与F1分数越大精度越高，MAE越小精度越高。我们将数据集分为独立的训练集、验证集和测试集。由于MOSEI数据集不存在无标注数据，为了测试我们发明在半监督场景的性能，我们将训练集随机划分出部分数据作为有标注数据，剩下的训练集数据隐藏标注，作为无监督数据。具体来说对数据集划分出 5%的监督数据，剩下的为无监督数据，以此来验证我们模型能面对不同半监督场景。我们对不同的模块进行消融，其中表示去掉伪标签损失函数，/>表示去掉情感差异阈值，0urs表示结合利用情感差异阈值过滤伪标签来学习无监督数据。

参见图2，实验结果表明，本发明提出的半监督多模态情感分析方法与普通模型和半监督模型相比，在不同监督数据比例不同的情况下均能显著提升分类与回归性能，有较好的鲁棒性，在不同场景的数据集中均保持着稳定性能。

综上，本发明上述实施例当中的半监督多模态情感分析方法，采用的多模态特征表示方法，有助于捕获蕴含异性与关联性的特征表示，无需复杂的网络设计，极大的降低了模型的训练成本，保证智能服务机器人能够准确识别出用户的情感，作为后续交互的基础，提升服务质量，同时能够学习互联网或现实场景海量的无标注的多模态样本进一步提升情感分析性能。充分利用已有的实验数据，基于目前先进的深度学习方法和技术，结合已有多模态实验数据训练，获得高质量的多模态特征表示；通过神经网络与激活函数预测情感值；通过半监督方法学习无监督多模态数据，进一步提升预测情感值的精度；通过情感值判断用户当前情绪，再对其提供相应的服务。

实施例二

本申请的第二实施例还提供了一种半监督多模态情感分析系统，该系统用于实现所述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

如图3所示，该系统包括：提取模块100、跨模态模块200、多模态模块300及优化模块400；

上述提取模块100用于获取样本数据的音视频模态特征，对所述音视频模态特征进行特征提取，以得到音频模态特征、视频模态特征及字幕模态特征；

上述跨模态模块200用于对所述音频模态特征、视频模态特征及字幕模态特征进行拼接融合得到跨模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到样本的跨模态情感预测值，其中，所述跨模态特征包括与所述音频模态特征及所述视频模态特征对应的第一跨模态特征、与所述音频模态特征及所述字幕模态特征对应的第二跨模态特征，及与所述视频模态特征及所述字幕模态特征对应的第三跨模态特征；

上述多模态模块300用于将所述跨模态特征进行拼接融合得到多模态特征，并经过神经网络线性层和sigmod激活函数，将所述跨模态特征映射为回归值，以得到所述样本数据对应的第一多模态情感值；

上述优化模块400用于基于相似性约束损失函数，逼近所述跨模态情感预测值及所述第一多模态情感值，以获取包含特异性与关联性的多模态特征表示，从而基于所述多模态特征表示得到预测情感值：

；

优选地，在本实施例中，所述多模态模块300具体用于：

；

优选地，在本实施例中，所述多模态模块300还用于：

根据上述技术方案的一方面，所述优化模块400具体用于：基于以下计算公式得到与所述多模态特征表示对应的预测情感值：

；

优选地，在本实施例中，所述提取模块100具体用于：

；

式中，表示文本模态，/>表示文本特征的维度。

需要说明的是，所述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，所述各个模块可以位于同一处理器中；或者所述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

可以理解地，本实施例中的半监督多模态情感分析系统中提及的原理与本申请第一实施例中的半监督多模态情感分析方法相对应，未见描述的相关原理详见可对应参照第一实施例，在此不多赘述。

实施例三

本申请的第三实施例提供了一种计算机，该计算机可以包括处理器81以及存储有计算机程序命令的存储器82。存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序命令。

处理器81通过读取并执行存储器82中存储的计算机程序命令，以实现上述实施例中的任意一种半监督多模态情感分析方法。

具体地，上述处理器81可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或命令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（SolidState Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（Universal SerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性（Non-Volatile）存储器。在特定实施例中，存储器82包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（RandomAccess Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（Erasable ProgrammableRead-Only Memory，简称为EPROM）、电可擦除PROM（Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM）、电可改写ROM（Electrically Alterable Read-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-Access Memory，简称为SRAM）或动态随机存取存储器（Dynamic Random Access Memory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器（Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

在其中一些实施例中，计算机还可包括通信接口83和总线80。其中，如图4所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线（Data Bus）、地址总线（Address Bus）、控制总线（ControlBus）、扩展总线（Expansion Bus）、局部总线（Local Bus）。举例来说而非限制，总线80可包括图形加速接口（Accelerated Graphics Port，简称为AGP）或其他图形总线、增强工业标准架构（Extended Industry Standard Architecture，简称为EISA）总线、前端总线（FrontSide Bus，简称为FSB）、超传输（Hyper Transport，简称为HT）互连、工业标准架构（Industry Standard Architecture，简称为ISA）总线、无线带宽（InfiniBand）互连、低引脚数（Low Pin Count，简称为LPC）总线、存储器总线、微信道架构（Micro ChannelArchitecture，简称为MCA）总线、外围组件互连（Peripheral Component Interconnect，简称为PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（Serial AdvancedTechnology Attachment，简称为SATA）总线、视频电子标准协会局部（Video ElectronicsStandards Association Local Bus，简称为VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

实施例四

结合上述实施例中的半监督多模态情感分析方法，本申请的第四实施例提供了一种可读存储介质。该可读存储介质上存储有计算机程序命令；该计算机程序命令被处理器执行时实现上述实施例中的任意一种半监督多模态情感分析方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对所述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种半监督多模态情感分析方法，其特征在于，包括以下步骤：

；

式中，表示所述相似性约束损失函数，/>表示第i个样本的第一多模态情感值，/>表示第i个样本的跨模态情感预测值，/>表示所述跨模态特征的权重，/>表示所述第一跨模态特征，/>表示所述第二跨模态特征，/>表示所述第三跨模态特征，/>表示有监督数据的样本数量；

所述样本数据包括有监督数据样本及无监督数据样本，得到所述样本数据对应的第一多模态情感值的步骤具体包括：

；

式中，表示所述第二多模态情感值，/>表示所述有监督损失函数；

得到样本对应的第一多模态情感值的步骤具体包括：

若所述差异值小于预设阈值，则基于与所述教师模型对应的无监督多模态情感值对应生成的伪标签，以基于所述伪标签指导所述学生模型基于无监督数据进行优化，以得到所述第一多模态情感值；

所述伪标签对应的无监督损失函数如下：

；

式中，表示学生模型对第i个样本的预测结果，/>表示教师模型生成的伪标签，表示无监督数据，/>表示教师网络参数，/>表示学生网络参数，/>为第i个样本的所述差异值，/>为所述预设阈值，/>为所述伪标签对应的无监督损失函数；

基于所述多模态特征表示得到预测情感值的步骤具体包括：

；

式中，表示第i个样本的预测情感值，/>表示第i个样本的多模态特征表示，表示学生模型的神经网络线性层；

所述教师网络参数按以下函数进行更新：

；

式中，为衰减率，s为训练步骤。

2.根据权利要求1所述的半监督多模态情感分析方法，其特征在于，对所述音视频模态特征进行特征提取，以得到音频模态特征、视频模态特征及字幕模态特征的步骤具体包括：

；

式中，表示文本模态，/>表示文本特征的维度。

3.一种半监督多模态情感分析系统，其特征在于，包括：

；

所述样本数据包括有监督数据样本及无监督数据样本，所述多模态模块具体用于：

；

所述多模态模块还用于：

所述伪标签对应的无监督损失函数如下：

；

所述优化模块具体用于：

；

所述教师网络参数按以下函数进行更新：

；

式中，为衰减率，s为训练步骤。

4.一种存储介质，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1-2中任一项所述的半监督多模态情感分析方法。

5.一种计算机，其上存储有计算机程序，该程序被处理器执行时实现上述权利要求1-2中任一项所述的半监督多模态情感分析方法。