CN116070169A

CN116070169A - 模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN116070169A
Application number: CN202310042999.5A
Authority: CN
Inventors: 陈晨; 吴晓东; 赵昕; 胡永凯; 黄靖; 李文彬; 胡佳婷
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2023-01-28
Filing date: 2023-01-28
Publication date: 2023-05-05

Abstract

本申请提供了一种模型训练方法、装置、电子设备及存储介质。包括：获取多模态模型训练样本；将多模态模型训练样本输入至待训练多模态情感分析模型；调用向量表征网络层对文本模态特征、语音模态特征和视频模态特征进行处理，得到文本表征向量、语音表征向量和视频表征向量；调用多模态融合网络层对文本表征向量、语音表征向量和视频表征向量进行多模态融合处理，得到多模态融合特征向量；调用情感分类网络层对多模态融合特征向量进行处理，得到多模态模型训练样本隶属情感类别的分类概率；基于分类概率，计算得到待训练多模态情感分析模型的损失值；在损失值处于预设范围内的情况下，将训练后的待训练多模态情感分析模型作为多模态情感分析模型。

Description

模型训练方法、装置、电子设备及存储介质

技术领域

本申请的实施例涉及模型训练技术领域，尤其涉及一种模型训练方法、装置、电子设备及存储介质。

背景技术

情感分析是情感计算领域的主要角色，该任务主要是利用计算机来检测、分析和评估人类对不同事件、问题等兴趣产物的认知，它的应用场景在我们的生活中可以说是无处不在，在商品零售、社会舆论、金融交易等领域均能够发挥巨大的作用。

传统的情感分析大多数只是基于单一模态特征来进行推理，然而在我们周围的世界中，往往包含着多种多样的模态信息，比如，在身处于一个对话场景中时，除了面对面看到对方的面部表情外，还能够听见对方说话时语气的变化，理解对方所说的语言内容等等。因此，单一模态特征进行情感分析的方式存在情感分析识别率低的问题。

发明内容

本申请的实施例提供一种模型训练方法、装置、电子设备及存储介质，用以生成多模态情感分析网络模型，以利用多模态信息(语音、视频和文本)可以更加准确地捕获所需要表达的情感并获得更好的情感类别识别效果。

根据本申请的实施例的第一方面，提供了一种模型训练方法，包括：

获取多模态模型训练样本，所述多模态模型训练样本包括：文本模态特征、语音模态特征和视频模态特征；

将所述多模态模型训练样本输入至待训练多模态情感分析模型；所述待训练多模态情感分析模型包括：向量表征网络层、多模态融合网络层和情感分类网络层；

调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理，得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量和所述视频模态特征的视频表征向量；

调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理，得到多模态融合特征向量；

调用所述情感分类网络层对所述多模态融合特征向量进行处理，得到所述多模态模型训练样本隶属情感类别的分类概率；

基于所述分类概率，计算得到所述待训练多模态情感分析模型的损失值；

在所述损失值处于预设范围内的情况下，将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。

可选地，所述向量表征网络层包括：第一双向LSTM网络、第二双向LSTM网络和GCN语音网络，

所述调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理，得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量和所述视频模态特征的视频表征向量，包括：

调用所述第一双向LSTM网络对所述文本模态特征进行处理，得到所述文本模态特征的所述文本表征向量；

调用所述第二双向LSTM网络对所述视频模态特征进行处理，得到所述视频模态特征的所述视频表征向量；

调用所述GCN语音网络对所述语音模态特征进行处理的，得到所述语音模态特征的所述语音表征向量。

可选地，所述第一双向LSTM网络包括：第一编码层和第一注意力机制层，

所述调用所述第一双向LSTM网络对所述文本模态特征进行处理，得到所述文本模态特征的所述文本表征向量，包括：

调用所述第一编码层对所述文本模态特征中的每句会话文本进行编码处理，生成每句会话文本的文本编码特征向量；

调用所述第一注意力机制层对所述文本编码特征向量进行会话交互学习，得到文本注意力特征向量；

对所述文本注意力特征向量进行拼接处理，生成所述文本表征向量。

可选地，所述第二双向LSTM网络包括：第二编码层和第二注意力机制层，

所述调用所述第二双向LSTM网络对所述视频模态特征进行处理，得到所述视频模态特征的所述视频表征向量，包括：

对所述视频模态特征中的音频进行文本转换处理，得到所述视频模态特征对应的转换文本特征；

调用所述第二编码层对所述转换文本特征进行编码处理，得到转换文本特征向量；

调用所述第二注意力机制层对所述转换文本特征向量进行会话交互学习，得到转换文本注意力特征向量；

对所述转换文本注意力特征向量进行拼接处理，生成所述视频表征向量。

可选地，所述GCN语音网络包括：拓扑图构建层、图卷积层和注意力机制层，

所述调用所述GCN语音网络对所述语音模态特征进行处理的，得到所述语音模态特征的所述语音表征向量，包括：

调用所述拓扑图构建层对所述语音模态特征进行处理，构建拓扑图，并根据所述拓扑图获取节点特征向量；

调用所述图卷积层对所述节点特征向量进行转换处理，得到与所述语音模态特征对应的用户关联的上下文特征向量；

调用所述注意力机制层对所述节点特征向量和所述上下文特征向量拼接得到的向量进行注意力学习，得到语音注意力特征向量；

对所述语音注意力特征向量进行拼接处理，得到所述语音表征向量。

可选地，所述多模态融合网络层包括：基于联合注意力的跨模态特征融合层和生成对抗算法，

所述调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理，得到多模态融合特征向量，包括：

调用所述多模态融合网络层对目标模态对应的表征向量与其它两种辅助模态对应的表征向量进行一一交互计算，得到三种模态的融合特征向量；

调用所述生成对抗算法计算所述目标模态与所述辅助模态之间的相关性差异，得到所述多模态融合特征向量。

可选地，所述调用所述情感分类网络层对所述多模态融合特征向量进行处理，得到所述多模态模型训练样本隶属情感类别的分类概率，包括：

对所述多模态融合特征向量进行拼接处理，得到拼接特征向量；

对所述拼接特征向量进行处理，得到所述多模态模型训练样本在多个情感类别的概率分布；

根据所述概率分布，从所述多个情感类别中筛选出概率值最大的情感类别作为预测情感类别，并将该概率值最大的情感类别对应的概率值作为所述分类概率。

可选地，在所述将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型之后，还包括：

获取待分类的多模态数据；所述多模态数据包括：语音数据、文本数据和视频数据；

将所述多模态数据输入至所述多模态情感分析模型；

调用所述多模态情感分析模型对所述多模态数据进行处理，得到所述多模态数据在多个情感类别下的概率分布；

根据所述概率分布，确定所述多模态数据对应的目标情感类别。

根据本申请的实施例的第二方面，提供了一种模型训练装置，包括：

模型训练样本获取模块，用于获取多模态模型训练样本，所述多模态模型训练样本包括：文本模态特征、语音模态特征和视频模态特征；

模型训练样本输入模块，用于将所述多模态模型训练样本输入至待训练多模态情感分析模型；所述待训练多模态情感分析模型包括：向量表征网络层、多模态融合网络层和情感分类网络层；

多模态表征向量获取模块，用于调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理，得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量和所述视频模态特征的视频表征向量；

多模态融合向量获取模块，用于调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理，得到多模态融合特征向量；

分类概率获取模块，用于调用所述情感分类网络层对所述多模态融合特征向量进行处理，得到所述多模态模型训练样本隶属情感类别的分类概率；

损失值计算模块，用于基于所述分类概率，计算得到所述待训练多模态情感分析模型的损失值；

情感分析模型获取模块，用于在所述损失值处于预设范围内的情况下，将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。

所述多模态表征向量获取模块包括：

文本表征向量获取单元，用于调用所述第一双向LSTM网络对所述文本模态特征进行处理，得到所述文本模态特征的所述文本表征向量；

视频表征向量获取单元，用于调用所述第二双向LSTM网络对所述视频模态特征进行处理，得到所述视频模态特征的所述视频表征向量；

语音表征向量获取单元，用于调用所述GCN语音网络对所述语音模态特征进行处理的，得到所述语音模态特征的所述语音表征向量。

所述文本表征向量获取单元包括：

文本编码向量生成子单元，用于调用所述第一编码层对所述文本模态特征中的每句会话文本进行编码处理，生成每句会话文本的文本编码特征向量；

文本特征向量获取子单元，用于调用所述第一注意力机制层对所述文本编码特征向量进行会话交互学习，得到文本注意力特征向量；

文本表征向量生成子单元，用于对所述文本注意力特征向量进行拼接处理，生成所述文本表征向量。

所述视频表征向量获取单元包括：

转换文本特征获取子单元，用于对所述视频模态特征中的音频进行文本转换处理，得到所述视频模态特征对应的转换文本特征；

转换特征向量获取子单元，用于调用所述第二编码层对所述转换文本特征进行编码处理，得到转换文本特征向量；

注意力向量获取子单元，用于调用所述第二注意力机制层对所述转换文本特征向量进行会话交互学习，得到转换文本注意力特征向量；

视频表征向量生成子单元，用于对所述转换文本注意力特征向量进行拼接处理，生成所述视频表征向量。

所述语音表征向量获取单元包括：

节点特征向量获取子单元，用于调用所述拓扑图构建层对所述语音模态特征进行处理，构建拓扑图，并根据所述拓扑图获取节点特征向量；

上下文特征向量获取子单元，用于调用所述图卷积层对所述节点特征向量进行转换处理，得到与所述语音模态特征对应的用户关联的上下文特征向量；

语音特征向量获取子单元，用于调用所述注意力机制层对所述节点特征向量和所述上下文特征向量拼接得到的向量进行注意力学习，得到语音注意力特征向量；

语音表征向量获取子单元，用于对所述语音注意力特征向量进行拼接处理，得到所述语音表征向量。

所述多模态融合向量获取模块包括：

融合特征向量获取单元，用于调用所述多模态融合网络层对目标模态对应的表征向量与其它两种辅助模态对应的表征向量进行一一交互计算，得到三种模态的融合特征向量；

多模态融合向量获取单元，用于调用所述生成对抗算法计算所述目标模态与所述辅助模态之间的相关性差异，得到所述多模态融合特征向量。

可选地，所述分类概率获取模块包括：

拼接特征向量获取单元，用于对所述多模态融合特征向量进行拼接处理，得到拼接特征向量；

概率分布获取单元，用于对所述拼接特征向量进行处理，得到所述多模态模型训练样本在多个情感类别的概率分布；

分类概率获取单元，用于根据所述概率分布，从所述多个情感类别中筛选出概率值最大的情感类别作为预测情感类别，并将该概率值最大的情感类别对应的概率值作为所述分类概率。

可选地，所述装置还包括：

多模态数据获取模块，用于获取待分类的多模态数据；所述多模态数据包括：语音数据、文本数据和视频数据；

多模态数据输入模块，用于将所述多模态数据输入至所述多模态情感分析模型；

概率分布获取模块，用于调用所述多模态情感分析模型对所述多模态数据进行处理，得到所述多模态数据在多个情感类别下的概率分布；

目标情感类别确定模块，用于根据所述概率分布，确定所述多模态数据对应的目标情感类别。

根据本申请的实施例的第三方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的模型训练方法。

根据本申请的实施例的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一项所述的模型训练方法。

在本申请的实施例中，通过获取多模态模型训练样本，多模态模型训练样本包括：文本模态特征、语音模态特征和视频模态特征。将多模态模型训练样本输入至待训练多模态情感分析模型，待训练多模态情感分析模型包括：向量表征网络层、多模态融合网络层和情感分类网络层。调用向量表征网络层对文本模态特征、语音模态特征和视频模态特征进行处理，得到文本模态特征的文本表征向量、语音模态特征的语音表征向量和视频模态特征的视频表征向量。调用多模态融合网络层对文本表征向量、语音表征向量和视频表征向量进行多模态融合处理，得到多模态融合特征向量。调用情感分类网络层对多模态融合特征向量进行处理，得到多模态模型训练样本隶属情感类别的分类概率。基于分类概率，计算得到待训练多模态情感分析模型的损失值。在损失值处于预设范围内的情况下，将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。本申请实施例通过引入了基于联合注意力的跨模态特征融合网络以训练多模态情感分析网络模型，以利用多模态信息（语音、视频和文本）可以更加准确地捕获所需要表达的情感并获得更好的情感类别识别效果。

附图说明

为了更清楚地说明本申请的实施例的技术方案，下面将对本申请的实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的步骤流程图；

图2为本申请实施例提供的一种表征向量获取方法的步骤流程图；

图3为本申请实施例提供的一种文本表征向量生成方法的步骤流程图；

图4为本申请实施例提供的一种视频表征向量生成方法的步骤流程图；

图5为本申请实施例提供的一种语音表征向量获取方法的步骤流程图；

图6为本申请实施例提供的一种多模态融合特征向量获取方法的步骤流程图；

图7为本申请实施例提供的一种分类概率获取方法的步骤流程图；

图8为本申请实施例提供的一种目标情感类别确定方法的步骤流程图；

图9为本申请实施例提供的一种多模态情感分析网络模型的示意图；

图10为本申请实施例提供的一种基于LSTM的特征学习网络的示意图；

图11为本申请实施例提供的一种基于GCN的特征学习网络的示意图；

图12为本申请实施例提供的一种基于联合注意力的跨模态特征融合网络的示意图；

图13为本申请实施例提供的一种基于典型相关分析的生成对抗算法的示意图；

图14为本申请实施例提供的一种模型训练装置的结构示意图。

具体实施方式

下面将结合本申请的实施例中的附图，对本申请的实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的实施例一部分实施例，而不是全部的实施例。基于本申请的实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请的实施例保护的范围。

实施例一

参照图1，示出了本申请实施例提供的一种模型训练方法的步骤流程图，如图1所示，该模型训练方法可以包括：步骤101、步骤102、步骤103、步骤104、步骤105、步骤106和步骤107。

步骤101：获取多模态模型训练样本，所述多模态模型训练样本包括：文本模态特征、语音模态特征和视频模态特征。

本申请实施例可以应用于结合多模态（即语音模态、文本模态和视频模态）样本训练得到用于分析用户情感类别的多模态情感分析模型的场景中。

多模态模型训练样本可以包括：文本模态特征、语音模态特征和视频模态特征。其中，文本模态特征可以是通过开源的语音识别API实时从音频数据中生成的，语音模态特征可以是采用麦克风采集得到的，视频模态特征可以是采用摄像头采集得到的。

在训练多模态情感分析模型时，可以获取多模态模型训练样本。

在获取到多模态模型训练样本之后，执行步骤102。

步骤102：将所述多模态模型训练样本输入至待训练多模态情感分析模型；所述待训练多模态情感分析模型包括：向量表征网络层、多模态融合网络层和情感分类网络层。

待训练多模态情感分析模型是指预先搭建的还未进行训练的多模态情感分析模型，在本示例中，待训练多模态情感分析模型可以包括：向量表征网络层、多模态融合网络层和情感分类网络层。其中，向量表征网络层可以用于获取多模态训练样本中每种模态特征的表征向量。多模态融合网络层可以用于对多模态特征的表征向量进行融合得到融合特征向量。情感分类网络层可以用于根据融合特征向量识别多模态模型训练样本对应的情感类别的概率。如图9所示，待训练多模态情感分析模型可以包括：特征学习网络（即本示例中的向量表征网络层）、基于联合注意力的跨模态特征融合网络（即本示例中的多模态融合网络层）和情感分类网络（即本示例中的情感分类网络层）。

在获取到多模态模型训练样本之后，可以将多模态模型训练样本输入至待训练多模态情感分析模型中。

在将多模态模型训练样本输入至待训练多模态情感分析模型之后，执行步骤103。

步骤103：调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理，得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量和所述视频模态特征的视频表征向量。

在将多模态模型训练样本输入至待训练多模态情感分析模型之后，可以调用向量表征网络层对文本模态特征、语音模态特征和视频模态特征进行处理，得到文本模态特征的文本表征向量、语音模态特征的语音表征向量和视频模态特征的视频表征向量。对于该实现过程可以结合图2进行如下详细描述。

参照图2，示出了本申请实施例提供的一种表征向量获取方法的步骤流程图，如图2所示，该表征向量获取方法可以包括：步骤201、步骤202和步骤203。

步骤201：调用所述第一双向LSTM网络对所述文本模态特征进行处理，得到所述文本模态特征的所述文本表征向量。

在本实施例中，向量表征网络层可以包括三个并行的网络结构，分别为：第一双向LSTM网络、第二双向LSTM网络和GCN语音网络。其中，第一双向LSTM网络和第二双向LSTM网络可以为两个相同网络结构的网络，第一双向LSTM网络可以用于处理文本模态特征，第二双向LSTM网络可以用于处理视频模态特征，为了区分两个双向LSTM网络，加上“第一”“第二”的限定。

在将多模态模型训练样本输入至待训练情感分析模型之后，可以调用第一双向LSTM网络对文本模态特征进行处理，以得到文本模态特征的文本表征向量。在本实施例中，第一双向LSTM网络可以包括：编码层和注意力机制层，其中，编码层可以对文本模态特征进行编码，得到编码特征向量，注意力机制层可以对编码特征向量进行会话交互学习，以得到注意力特征向量，拼接所有的注意力特征向量，即可得到文本表征向量。对于该实现过程可以结合图3进行如下详细描述。

参照图3，示出了本申请实施例提供的一种文本表征向量生成方法的步骤流程图，如图3所示，该文本表征向量生成方法可以包括：步骤301、步骤302和步骤303。

步骤301：调用所述第一编码层对所述文本模态特征中的每句会话文本进行编码处理，生成每句会话文本的文本编码特征向量。

在本实施例中，第一双向LSTM网络可以包括：第一编码层和第一注意力机制层。

在将多模态模型训练样本输入至待训练多模态情感分析模型之后，则可以调用第一双向LSTM网络对文本模态特征进行处理。首先，可以调用第一编码层对文本模态特征中的每句会话文本进行编码处理，生成每句会话文本的文本编码特征向量。

在具体实现中，文本特征是本质上是顺序的，那么上下文信息就会沿着这个顺序流动，LSTM是一种专门用于处理序列数据的神经网络，因为其特殊的遗忘门、记忆门机制很好地解决了长序列训练过程中的梯度消失和梯度爆炸问题，在本示例中，可以选择将会话输入双向LSTM单元来捕获上下文信息，其过程可以如下述公式（1）所示：

（1）

上述公式（1）中，表示基于顺序上下文感知话语的文本特征表示，表示上下文无关的原始文本特征表示。

通过上述方式可以得到文本模态特征中每句会话的上下文编码特征，即每句会话文本的文本编码特征向量。

在调用第一编码层对文本模态特征中的每句会话文本进行编码处理，生成每句会话文本的文本编码特征向量之后，执行步骤302。

步骤302：调用所述第一注意力机制层对所述文本编码特征向量进行会话交互学习，得到文本注意力特征向量。

在调用第一编码层对文本模态特征中的每句会话文本进行编码处理，生成每句会话文本的文本编码特征向量之后，可以调用第一注意力机制层对文本编码特征向量进行会话交互学习，得到文本注意力特征向量。

在具体实现中，文本编码特征向量是与说话者不相关的，为了进一步引入说话人信息，本实施例中，在第一双向LSTM网络中接入了一个注意力机制以实现说话人状态的交互，具体算法可以下述公式（2）和（3）所示：

（2）

（3）

上述公式中，表示可训练参数，表示计算出来的权重参数，表示得到的第句话语的文本注意力特征向量。

在注意力机制层中，通过引入一个可学习参数W来生成一个当前状态向量的权重，而最终得到的文本注意力特征向量即为该权重与当前状态向量的乘积。

在调用第一注意力机制层对文本编码特征向量进行会话交互学习得到文本注意力特征向量之后，执行步骤303。

步骤303：对所述文本注意力特征向量进行拼接处理，生成所述文本表征向量。

在调用第一注意力机制层对文本编码特征向量进行会话交互学习得到文本注意力特征向量之后，可以对文本注意力特征向量进行拼接处理，以上横撑文本表征向量。具体地，在得到所有话语的文本注意力特征向量之后，可以将所有话语的文本注意力特征向量拼接起来就得到最终的文本情感特征向量，计算公式可以如下述公式（4）所示：

（4）

上述公式（4）中，表示拼接操作。

步骤202：调用所述第二双向LSTM网络对所述视频模态特征进行处理，得到所述视频模态特征的所述视频表征向量。

第二双向LSTM网络可以包括：第二编码层和第二注意力机制层。

在将多模态模型训练样本输入至待训练多模态情感分析模型之后，则可以调用第二双向LSTM网络对视频模态特征进行处理。首先，可以对视频模态特征中的音频进行文本转换处理得到转换文本特征，然后，调用第二编码层对转换的文本进行编码得到转换文本特征向量，最后，调用第二注意力机制层对转换文本特征向量进行会话交互学习，得到注意力特征向量，并进行拼接得到视频表征向量。对于该实现过程可以结合图4进行如下详细描述。

参照图4，示出了本申请实施例提供的一种视频表征向量生成方法的步骤流程图，如图4所示，该视频表征向量生成方法可以包括：步骤401、步骤402、步骤403和步骤404。

步骤401：对所述视频模态特征中的音频进行文本转换处理，得到所述视频模态特征对应的转换文本特征。

在本实施例中，在得到视频模态特征之后，可以对视频模态特征中的音频进行文本转换处理，得到视频模态特征对应的转换文本特征。

在具体实现中，可以通过开源语音识别API（如Google语音识别API等）对视频模态特征中的音频进行处理，以得到对应的转换文本特征等。

在对视频模态特征中的音频进行文本转换处理得到视频模态特征对应的转换文本特征之后，执行步骤402。

步骤402：调用所述第二编码层对所述转换文本特征进行编码处理，得到转换文本特征向量。

在对视频模态特征中的音频进行文本转换处理得到视频模态特征对应的转换文本特征之后，可以调用第二编码层对转换文本特征进行编码处理，得到转换文本特征向量。

在调用第二编码层对转换文本特征进行编码处理得到转换文本特征向量之后，执行步骤403。

步骤403：调用所述第二注意力机制层对所述转换文本特征向量进行会话交互学习，得到转换文本注意力特征向量。

在调用第二编码层对转换文本特征进行编码处理得到转换文本特征向量之后，可以调用第二注意力机制层对转换文本特征向量进行会话交互学习，得到转换文本注意力特征向量。

可以理解地，第二编码层和第二注意力机制层的处理过程与第一编码层和第一注意力机制层的处理过程是相似的，本实施例在此不再加以详细赘述。

在调用第二注意力机制层对转换文本特征向量进行会话交互学习得到转换文本注意力特征向量之后，执行步骤404。

步骤404：对所述转换文本注意力特征向量进行拼接处理，生成所述视频表征向量。

在调用第二注意力机制层对转换文本特征向量进行会话交互学习得到转换文本注意力特征向量之后，则可以对转换文本注意力特征向量进行拼接处理，以生成视频模态特征对应的视频表征向量。

对于第一双向LSTM网络和第二双向LSTM网络的网络结构可以图10所示，在初始模态特征（即视频模态特征和文本模态特征）输入至双向LSTM网络之后，可以得到初始模态特征的上下文特征，然后调用LSTMs对各上下文特征进行处理，再通过注意力机制层和非线性前馈网络，最终可以输出初始模态特征对应的表征向量。

步骤203：调用所述GCN语音网络对所述语音模态特征进行处理的，得到所述语音模态特征的所述语音表征向量。

GCN语音网络可以包括：拓扑图构建层、图卷积层和注意力机制层。

在具体实现中，语音特征是时域无关的，那么就需要重点关注对话系统中的说话人信息，建模说话人之间的依赖关系有利于使模型更好地理解一个说话人是如何在其他说话人的影响下控制自己的情感变化，相似地，建模说话者人的自我依赖关系则可以帮助模型理解单个说话者如何控制自身情感的变化而不受外部影响。另一方面，既然语音特征缺少时间性那么空间性就显得尤为重要了，考虑到目标话语和语境话语的相对位置会决定过去的话语如何影响未来的话语，反之亦然。虽然过去的话语影响未来的话语是自然的，但相反的话语可能有助于模型填写一些相关的缺失信息，这是说话人背景知识的一部分，但在未来的对话中却明确出现。

基于上述分析，本实施例提出了一种基于GCN的语音特征学习网络，GCN中的Graph是指数学（图论）中的用顶点和边建立相应关系的拓扑图，而GCN的本质目的就是用来提取拓扑图的空间特征，它的一般计算过程如下：

（5）

上述公式（5）中，，是单位矩阵；是的度矩阵，公式为；

是每一层的输入特征；是非线性激活函数；是可训练参数。

在将多模态模型训练样本输入至待训练多模态情感分析模型之后，则可以调用GCN语音网络对语音模态特征进行处理。首先，可以调用拓扑图构建层对语音模态特征进行处理构建拓扑图，并得到节点特征向量。其次，调用卷积层对节点特征向量进行转换得到上下文特征向量。然后，调用注意力机制层对节点特征向量和上下文特征向量拼接得到的向量进行注意力学习得到语音注意力特征向量。最后，再将所有的语音注意力特征向量拼接即可得到语音表征向量。对于该实现过程可以结合图5进行如下详细描述。

参照图5，示出了本申请实施例提供的一种语音表征向量获取方法的步骤流程图，如图5所示，该语音表征向量获取方法可以包括：步骤501、步骤502、步骤503和步骤504。

步骤501：调用所述拓扑图构建层对所述语音模态特征进行处理，构建拓扑图，并根据所述拓扑图获取节点特征向量。

在本实施例中，在将语音模态特征输入至待训练情感分析模型之后，可以调用拓扑图构建层对语音模态特征进行处理，构建拓扑图，并根据拓扑图获取节点特征向量。

在具体实现中，在构建拓扑图时，可以将具有段话语的会话表示为有向图，其中表示图的节点，表示图中的带标记的边，表示节点与之间的边的关系类型，表示带标记的边的权重且。

具体而言，图是从以下几个方面构造的：

对话中的每句话语都被表示成图中的节点，用对应话语的单模态语音特征初始化，可以将这个向量表示成节点特征。当基于相邻节点的转换过程被应用于编码说话人级别的上下文时，节点特征便会在下游发生变化。

边的构建取决于需要建模的上下文信息。例如，假设每句话语（节点）在上下文中依赖于会话中的所有其他话语，这就构建出了一个全连接图，即每个节点都与其他所有节点连接有一个边，但是这样会导致边的数量为对于一个拥有大量节点的图来说这会消耗巨大的计算资源。在本示例中，可以通过定义一个基于过去上下文的窗口和基于未来上下文的窗口，来表示图中的每个节点仅与过去的个节点和未来的个节点有边相连，此处，通常将和的大小均定义为10。因为图是一个有向图，所以两个节点可以在两个相反方向上有不同关系的边。

本实施例可以使用基于相似性的注意力机制来定义每条边的权重。对于每个节点来说，与之相连的所有边的权重之和为1，考虑到基于过去上下文的窗口和基于未来上下文的窗口，权重计算公式如下：

关于每条边的关系类型的定义主要取决于两个方面：说话人依赖和时间依赖。说话人依赖指的是每个节点对应的说话人之间的依赖关系，即（节点对应的说话人）和（节点对应的说话人）；时间依赖指的是节点和的相对位置，即会话中话语是在话语之前发出的还是之后发出的。对话中的每个说话人都受到彼此说话人的独特影响，因此可以认为在图中明确声明这种关系边将有助于捕捉说话人之间的相互依赖和自我依赖，这将有助于说话人级别的上下文编码。根据以上两个方面，在一个双人对话系统中，最多可以出现8种不同的关系类型，具体如下表1所示：

表1：

在调用拓扑图构建层对语音模态特征进行处理构建拓扑图，并根据拓扑图获取节点特征向量之后，执行步骤502。

步骤502：调用所述图卷积层对所述节点特征向量进行转换处理，得到与所述语音模态特征对应的用户关联的上下文特征向量。

在调用拓扑图构建层对语音模态特征进行处理构建拓扑图，并根据拓扑图获取节点特征向量之后，可以调用图卷积层对节点特征向量进行转换处理，得到与语音模态特征对应的用户关联的上下文特征向量。

在上述步骤501中已经描述了使用图模型来建模单模态语音特征的方法，接下来介绍特征转换方法。节点特征向量（）最初是独立于说话人的，然后可以使用两层图卷积操作将转换为与说话人相关的特征向量。

第一层图卷积使用特定关系转换来聚合本地邻域信息，计算公式可以如下述公式（5）所示：

（5）

上述公式（5）中，表示关系类型下节点的相邻节点指数；是一个基于特定问题的归一化常数，它可以预先设置（例如），也可以在基于梯度的学习设置被自动学习；是激活函数（如ReLU）；和是转换的可学习参数。

第二层图卷积使用了另一个基于局部邻域信息的转换，计算公式可以如下述公式（6）所示：

（6）

上述公式（6）中，和均为可学习参数，为激活函数。

在调用图卷积层对节点特征向量进行转换处理，得到与语音模态特征对应的用户关联的上下文特征向量之后，执行步骤503。

步骤503：调用所述注意力机制层对所述节点特征向量和所述上下文特征向量拼接得到的向量进行注意力学习，得到语音注意力特征向量。

在调用图卷积层对节点特征向量进行转换处理，得到与语音模态特征对应的用户关联的上下文特征向量之后，可以调用注意力机制层对节点特征向量和上下文特征向量拼接得到的向量进行注意力学习，得到语音注意力特征向量。

在具体实现中，在得到上下文特征向量之后，可以将初始语音特征向量和计算得出的上下文特征拼接起来，再应用基于相似性的注意力机制获得语音注意力特征向量，计算公式可以下述公式（7）（8）（9）所示：

（7）

（8）

（9）

上述公式中，表示可训练参数，表示计算出来的权重参数，表示得到的第句话语的语音注意力特征向量。

在调用注意力机制层对节点特征向量和上下文特征向量拼接得到的向量进行注意力学习得到语音注意力特征向量之后，执行步骤504。

步骤504：对所述语音注意力特征向量进行拼接处理，得到所述语音表征向量。

在调用注意力机制层对节点特征向量和上下文特征向量拼接得到的向量进行注意力学习得到语音注意力特征向量之后，可以对语音注意力特征向量进行拼接处理，以得到语音模态特征对应的语音表征向量。具体地，可以将所有话语的语音注意力特征向量拼接起来就得到最终的语音情感特征向量，计算公式可以如下述公式（10）所示：

（10）

对于GCN语音网络可以如图11所示，可以将初始模态特征（即语音模态特征）输入至GCN语音网络，并构建对应的拓扑图，通过构建的拓扑图可以得到节点特征向量，并将获取到的节点特征向量和初始模态特征对应的上下文特征向量进行拼接，通过注意力机制层和非线性前馈网络，最终输出语音模态特征的情感特征向量，即语音表征向量。

本申请实施例提出了基于不同模态输入特征的分布式特征学习网络。由于语音、视频和文本数据自身存在着模态间的异构性差异，如果采用同一种模型同时对三种模态特征进行建模，那么就难以突出不同模态内部的特点从而难以实现各个模态间的信息互补，所以需要根据不同模态的特点来设计相应的特征学习网络。具体地，考虑到文本和视频数据在时域上具有极强的关联性，本实施例采用双向LSTM网络作为基本结构；而语音数据大多采用频谱特征，其时间特性不够明显，对话与对话间的关系更多的反映为拓扑图上的一个个节点，本实施例采用图卷积（GraphConvolutional Network，GCN）网络作为基本结构。

在通过上述步骤得到文本表征向量、视频表征向量和语音表征向量之后，执行步骤104。

步骤104：调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理，得到多模态融合特征向量。

多模态融合是多模态情感分析的主要关键技术。在多模态研究领域，多模态融合可以提供三个主要优点：首先，同时利用观察到相同现象的多种模态，可以使预测结果更稳定；第二，接触多种模态也许能获取额外的补充信息，这种信息在单模态的情形下通常是难以被发掘的；第三，当一种模态的信息缺失时，多模态系统仍然可以从其他模态中获取到足够的信息从而正常运行，例如当一个人不说话时，仍然能够从视觉和听觉信号中识别出情感。

因此，可以发现多模态融合的最大意义就是实现各个模态间的信息互补，那么不可避免要解决的问题就是如何实现各个模态之间的信息交互，实验对照方法采用的是在输入端将语音、视频和文本预训练特征直接进行拼接融合，上述过程中已经从各个模态的性质角度分析了该方法的缺陷，将就多模态的融合方式对该方法提出了两点不足：

由于各个模态之间的内在差异是很大的，模态与模态之间往往不具有相似性，如果简单地对不同模态数据采取拼接融合的方式，那么很可能会受到模态内部的冗余信息的干扰。例如，对于一句话“It’shuge sort of spectacle movie”，很显然“spectacle”这个单词就已经代表了这句话的情感，而其余单词在对这句进行情感分析的过程中就成了冗余的噪声信息，如果没有任何倾向地对一句话中的每一个单词都“一视同仁”，那么很有可能会因为丢失主要信息而出现判断失误。

各个模态的数据不仅在细粒度层面存在较大差异，在语义层面往往也各不相同。比如，当一个人强颜欢笑掩饰自己内心的悲伤时，假如，仅仅通过视觉信息来猜测那么很可能会得出“高兴”的结论，而这却与真实情感大相径庭，而这时候根据这个人说话的语气、声调等信息则很容易发现他此时是“失落”的。由此可以发现在实际情况中三模态特征可能会指向各自不同的情感类别，而简单拼接显然是无法解决这种语义层面的差异性，因此如何拉近各个模态在语义空间上的距离就成了一个改进的方向。

针对第一个问题，本实施例引入了基于联合注意力的跨模态特征融合网络，该网络采用了三模态共同融合的联合注意力机制，使每个单模态信息在进行前向传播时能够同时参照另外两个模态的信息，同时在模型内部设置了自适应加权融合算法，能够自适应地学习各个模态内部的任务相关信息，摈弃冗余信息，优化跨模态特征的表达能力。

针对第二个问题，本实施例提出了基于典型相关分析的生成对抗算法，该算法借鉴了GAN网络的生成对抗特性，以一个信息量最稳定的模态作为标的并采用典型相关分析的方式来计算另外两个模态与该模态在语义空间上的相关性，并计算出两个loss用于反向传播，同时继续由生成器从另外两个模态中提取出关联信息。

对于该实现过程可以结合下述实现过程进行详细描述。

在得到文本表征向量、视频表征向量和语音表征向量之后，可以调用多模态融合网络层对文本表征向量、语音表征向量和视频表征向量进行多模态融合处理，得到多模态融合特征向量。在本示例中，多模态融合网络层包括：基于联合注意力的跨模态特征融合层和生成对抗算法，其中，基于联合注意力的跨模态特征融合层可以对多模态特征的表征向量进行一一交互计算，生成对抗算法可以计算目标模态与辅助模态之间的相关性差异，以得到最终的多模态融合特征向量。对于该实现过程可以结合图6进行如下详细描述。

参照图6，示出了本申请实施例提供的一种多模态融合特征向量获取方法的步骤流程图，如图6所示，该多模态融合特征向量获取方法可以包括：步骤601和步骤602。

步骤601：调用所述多模态融合网络层对目标模态对应的表征向量与其它两种辅助模态对应的表征向量进行一一交互计算，得到三种模态的融合特征向量。

在本实施例中，在得到文本表征向量、语音表征向量和视频表征向量之后，可以调用模态融合网络层对目标模态对应的表征向量与其它两种辅助模态对应的表征向量进行一一交互计算，得到三种模态的融合特征向量。

在具体实现中，在基于联合注意力的跨模态特征融合网络中，语音、视频、文本三种类型的数据都会作为一次目标模态去和其他两种模态进行两两交互计算。

在进行多模态融合时，第一步就是要确立目标模态和辅助模态，对应的模态功能不同，相应的处理方法也会存在差别。对于目标模态，因为一开始并无法得知模态中的哪些特征片段是任务相关的有用信息，所以对目标模态的要求是尽可能多地保留自身的原始信息，以便于将自身作为参照进行后续比对。对于辅助模态，需要将该模态中的信息作为补充增强到目标模态中，那么就要求辅助模态最大程度地减少任务无关的冗余信息以免对目标模态产生干扰，因此，就有必要对辅助模态的原始信息进行初步处理，之后再用精简后的模态特征与目标模态进行融合。

现如今Transformer在多种任务中都取得了优异的成绩，而Transformer的编码器结构对于原始模态特征的处理来说无疑是一个很好的选择，其主要过程分为两部分：首先输入特征通过自注意力机制进行点积加权求和，得到注意力特征（AttentiveFeature，简称为AF），这一部分没有引入激活函数，计算得到的注意力特征与原始特征线性相关，因而最大程度地保留了原始信息；然后在经过一个非线性前馈网络后得到最终的编码特征（EncodedFeature，简称为EF），引入非线性变换是为了提升特征拟合复杂场景的能力，在网络不断学习的过程中，非线性变化层的参数会逐渐优化，编码特征包含的信息更加具备任务相关性。

受到Transformer中自注意力机制的启发，既然自注意力机制能够通过权重计算的形式对自身信息中的任务相关部分的增强影响，那么对于跨模态融合来说这种方法也同样适用于目标模态对辅助模态中重要信息的捕捉。传统的自注意力机制中的查询向量、键向量、值向量均来自输入数据本身，而在跨模态注意力机制中，查询向量来自目标模态，键向量和值向量则来自辅助模态，可以分别使用两个跨模态注意力机制让目标模态分别与两个辅助模态融合分别得到两组融合特征（FusionFeature，简称为FF），并且将跨模态注意力机制中涉及到目标模态的所有需要更新的参数进行共享，这种方式使得两组跨模态注意力机制在模型训练过程中不是相互独立的，增强了三个模态之间的相关性。最后，分别将两组融合特征通过自适应加权融合进行进一步更新优化得到最终的多模态融合特征。

基于上述内容，本实施例提出了一种如图12所示的基于联合注意力的跨模态特征融合网络结构，以文本作为目标模态而语音、视频作为辅助模态的情况为例，从而可以得到一种多模态融合特征。

在调用多模态融合网络层对目标模态对应的表征向量与其它两种辅助模态对应的表征向量进行一一交互计算得到三种模态的融合特征向量之后，执行步骤602。

步骤602：调用所述生成对抗算法计算所述目标模态与所述辅助模态之间的相关性差异，得到所述多模态融合特征向量。

在得到三种模态的融合特征向量之后，可以调用生成对抗算法计算目标模态与辅助模态之间的相关性差异，以得到多模态融合特征向量。

在具体实现中，采用基于联合注意力的跨模态特征融合网络来实现不同模态之间的交互，经过之前的计算得到的是三组融合特征，虽然每组融合特征内部都已经实现了模态之间的交互，但是由于目标模态的不同，每组融合特征所关注的信息也会存在着较大差异，这就导致了不同融合特征之间在语义空间上难以接近，这在一定程度上会误导最终的情感判断，因此本章的重点就是设计出一种算法来缩小特征与特征之间的语义差距，在更高层次的语义空间实现多模态融合。

对于语义级别的理解，对于不同模态特征往往不需要太关注细粒度层面，一般来说有两种方法：一种是设计一个度量方式来约束不同模态特征间的距离，另一种则是将不同模态特征映射到同一个公共子空间。

对于第一种方法当前应用较为广泛的是双塔型模型结构，该模型的特点在于分隔开了两个不同模态的特征，各个模态特征独自流动，只在模型顶层通过一个可解释的距离函数（例如计算cosine距离）来衡量距离以达到约束的效果。

双塔结构的优点在于两种模态特征计算互不干扰，但是也因为模态与模态之间缺少交互，这就导致了不同模态特征之间对于语义空间的交流较少。而对于不同模态特征间距离的度量，通常只有在同一个公共子空间中去比较两个向量数据，才更加准确也更加具有可解释性。

基于上述考虑，也就引出了第二种方法，即先将不同模态特征同时映射到一个公共子空间中再在这个子空间中对每个特征向量进行计算。现存在一种深度神经网络结合典型相关分析的方法（DCCA）,因为深度学习对复杂的大数据有着优异的拟合能力，该方法使用多层非线性变换来转换两种模态的表示，并在高维空间中通过计算二者之间的相关系数来衡量不同模态之间的距离。

DCCA相比于双塔结构增加了一个特征映射的过程，并且典型关联分析技术相比于计算cosine距离显然也更具有合理性，所以DCCA无疑具有更大的优越性。

但是对于本实施例中提出的三模态情况而言，DCCA似乎也存在着局限性。DCCA本身是采用双路输入的形式，适用于双模态情形，对于三模态来说只能采用两两组合的形式使用三次DCCA，而这不仅增大了计算的复杂度，而且对于与任务关联性较小的模态特征，如果使用DCCA可能会进一步放大其中的无关信息，比如在一个多模态情感分析场景下，对情感分析帮助最大的通常是文本模态数据，因为语言是最能反映出一个人的当下心理状态的，这时可以通过两两组合DCCA来拉近语音和视频模态数据的相关性然后再添加到最后的结果中，这就会导致语音与视频数据中的干扰信息通过相关性计算进一步放大进而影响到最终分类的准确性。

基于以上分析，可以在DCCA的基础上设计了一个三路输入的网络结构，增添了一个目标模态，并以目标模态为示范同时计算其与另外两个模态之间的相关性。这种模式借鉴了GAN网络中生成对抗的思想，用两路生成器来将另外两个模态生成到目标模态的语义空间中，并在公共语义空间中同时计算与目标模态之间的相关性差异，并返回两个Loss用于反向传播来减少模态与模态之间的语义鸿沟，本实施例中，称之为基于典型相关分析的生成对抗算法，该生成对抗算法的结构可以如图13所示。

本申请实施例提出了基于典型相关分析的生成对抗算法。该模块基于前面已经得到的三个模态的跨模态融合特征，为了缩小不同模态之间在语义层面的差异，本实施例以其中一种情感特征作为基准，采用多任务学习的方式，利用典型相关分析的计算方法对其余两种情感特征进行空间约束，优化得到最终的全局共享情感特征。

在调用多模态融合网络层对文本表征向量、语音表征向量和视频表征向量进行多模态融合处理得到多模态融合特征向量之后，执行步骤105。

本实施例引入了基于联合注意力的跨模态特征融合网络。不同模态数据在经过相应的特征学习网络学习后得到三种单模态情感特征向量，为了实现不同模态之间的信息互补和信息共享，本实施例采用联合注意力机制实现三个模态的同步融合，并得到三个模态的跨模态融合特征。

步骤105：调用所述情感分类网络层对所述多模态融合特征向量进行处理，得到所述多模态模型训练样本隶属情感类别的分类概率。

在调用多模态融合网络层对文本表征向量、语音表征向量和视频表征向量进行多模态融合处理得到多模态融合特征向量之后，可以调用情感分类网络层对多模态融合特征向量进行处理，以得到多模态模型训练样本隶属情感类别的分类概率。对于该实现过程可以结合图7进行如下详细描述。

参照图7，示出了本申请实施例提供的一种分类概率获取方法的步骤流程图，如图7所示，该分类概率获取方法可以包括：步骤701、步骤702和步骤703。

步骤701：对所述多模态融合特征向量进行拼接处理，得到拼接特征向量。

在本实施例中，在得到多模态融合特征向量之后，可以对多模态融合特征向量进行拼接处理以得到拼接特征向量。

在对多模态融合特征向量进行拼接处理得到拼接特征向量之后，执行步骤702。

步骤702：对所述拼接特征向量进行处理，得到所述多模态模型训练样本在多个情感类别的概率分布。

在对多模态融合特征向量进行拼接处理得到拼接特征向量之后，可以对拼接特征向量进行处理，以得到多模态模型训练样本在多个情感类别的概率分布。

在对拼接特征向量进行处理得到多模态模型训练样本在多个情感类别的概率分布之后，执行步骤703。

步骤703：根据所述概率分布，从所述多个情感类别中筛选出概率值最大的情感类别作为预测情感类别，并将该概率值最大的情感类别对应的概率值作为所述分类概率。

在对拼接特征向量进行处理得到多模态模型训练样本在多个情感类别的概率分布之后，可以根据概率分布从多个情感类别中筛选出概率值最大的情感类别作为预测情感类别，并将该概率值最大的情感类别对应的概率值作为分类概率。

在具体实现中，在得到多模态融合特征向量：、和之后，可以将输入、和至情感分类网络中进行情感识别。首先，可以将、和三组向量拼接起来，然后通过一层非线性前馈网络，最后通过一层得到每个情感类别的概率分布，其中概率值最大的那一类便是预测得到的情感标签。指的是基于联合注意力的跨模态特征融合网络的输出，即文本情感融合特征。和指的是基于联合注意力的跨模态特征融合网络的输出，即语音情感融合特征和视频情感融合特征，再分别经过生成器得到的最终语音向量和视频向量。

具体过程可以如下述公式所示：

（11）

（12）

（13）

（14）

上述公式中，和表示层的可学习参数，表示情感类别的数量。

在调用情感分类网络层对多模态融合特征向量进行处理，得到多模态模型训练样本隶属情感类别的分类概率之后，执行步骤106。

步骤106：基于所述分类概率，计算得到所述待训练多模态情感分析模型的损失值。

在调用情感分类网络层对多模态融合特征向量进行处理，得到多模态模型训练样本隶属情感类别的分类概率之后，可以基于分类概率计算得到待训练多模态情感分析模型的损失值。

在本实施例中，可以采用分类交叉熵和L2正则化来作为情感分类的Loss函数，公式如下：

（15）

上述公式（15）中，表示全部对话（样本）的数量；表示样本中话语的数量；表示对话中的话语所对应的情感标签的概率分布；表示对话中的话语的期望情感类别；是L2正则化权重；是所有可训练参数的集合。

最终得到的完整Loss如下述公式（16）所示：

（16）

在基于分类概率计算得到待训练多模态情感分析模型的损失值之后，执行步骤107。

步骤107：在所述损失值处于预设范围内的情况下，将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。

在基于分类概率计算得到待训练多模态情感分析模型的损失值之后，可以判断该损失值是否处于预设范围内。

若该损失值处于预设范围内，则表示模型已收敛，此时，可以将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。

对于本实施例的方案可以结合下述示例进行详细描述。

在本实施例中，图9示出了本申请实施例提供的一种多模态情感分析模型结构的示意图。

针对语音数据，可以采用OpenSMILE工具将对话音频信号转换成对应的MFCC特征后作为模型的输入数据。针对文本数据，可以采用GloVe词嵌入方式对文本进行处理后作为模型的输入数据，文本的特征学习网络采用的是基于双向LSTM的文本视频特征学习网络。针对视频数据，可以利用3D-CNN对视频数据处理后作为模型的输入数据。

视频的特征学习网络采用的是基于双向LSTM的文本视频特征学习网络。三条支路通过基于联合注意力的跨模态特征融合网络后分别得到文本、视频、语音情感融合特征。三条支路特征通过基于典型相关分析的生成对抗算法得到两个loss记为和。三条支路特征拼接起来过一个分类网络计算交叉熵损失，记为class_loss，三个loss相加向传播，即为本实施例的整体流程。

在三模态原始数据经过分布式特征学习网络学习后得到了分别基于三个模态的情感特征向量、和，本实施例可以文本情感特征向量作为目标模态而语音情感特征向量和视频情感特征向量作为辅助模态来讲解算法的实时过程，具体可以包括以下四部分：

第一部分：

为后续的跨模态融合做准备工作，即提取出目标模态的注意力特征用于本模块内部的跨模态融合以及提取出目标模态的编码特征作为其他模态的辅助模态特征。所以，可以先将文本情感特征向量通过一个自注意力机制运算再经过残差结构和层归一化处理便可得到文本情感注意力特征，计算过程如下：

其中LN表示层归一化处理（LayerNormalization，简称为LN），ATT表示Transformer中的自注意力机制。

之后再将文本情感注意力特征经过非线性前馈网络、残差网络、层归一化处理，就可得到文本情感编码特征，计算过程如下：

其中为非线性前馈网络，详细描述如下：

其中、为可训练参数，、为偏置项。

第二部分：跨模态交互

可以采用两路跨模态注意力机制的方式同时对目标模态和两个辅助模态分别进行交互，即利用跨模态注意力机制将文本和语音、视频两个模态分别在两个注意力运算中进行融合分别得到基于视频的文本跨模态情感融合特征和基于语音的文本跨模态情感融合特征。

在跨模态注意力机制中，其计算方式与自注意力机制相似，只是对输入数据形式做出了改变，其中查询向量取自目标模态特征，这里是文本情感注意力特征，键向量和值向量取自辅助模态特征，这里是语音情感编码特征和视频情感编码特征。在经过了跨模态注意力机制运算后，再通过一个残差网络和层归一化处理便可得到情感融合特征，具体计算方式如下：

其中为非线性前馈网络。

第三部分：跨模态融合

对于两组情感融合特征，其中仍然存在着大量情感无关信息，不同特征之间所包含的情感相关信息也不尽相同，因此可以在最后设置自适应加权融合机制给两组不同的情感融合特征分配相应的权重参数用以体现特征之间不同的依赖关系，同时摒弃掉情感融合特征内部的冗余信息，尽可能多地保留情感相关信息。

对于自适应加权融合机制，期望能够通过对两组情感融合特征进行比对，分别得到两组权重，进而决定和的重要性。基于这种想法，本实施例使用特征级的加权融合算法，这种算法通过线性映射直接在特征层面上对两组序列进行对比，同时赋予两组特征不同的权重。

具体地，首先，可以分别对两组情感融合特征和进行线性映射，进而得到与这两组特征相关的线性表示，然后再将这两个线性表示送入一个非线性前馈网络进行特征比对，学习得到两组情感融合特征的权重参数，最后进行加权求和得到最终的文本情感融合特征，计算过程如下：

其中为网络；、分别为和的线性映射参数，可以在网络中学习；为偏置项；是一个常数，计算可知，因此，可以采用函数作为该网络的非线性激活函数。

上述步骤同样适用于将视频和语音作为目标模态的场景，这样经过相同的计算过程就可以得到视频情感融合特征和语音情感融合特征。

然后，可以基于联合注意力的跨模态特征融合网络得到了三个融合特征、、，此时，第一个任务就是选择目标模态，通过实验可以发现选择文本融合特征（后续计算过程也以此为例）作为目标模态时效果最佳，而通常情况下一般也是文本模态对情感分析任务的贡献最大。

在选择好目标模态后，需要用生成器对另外两种模态特征进行特征映射，此时可以选择使用多层非线性前馈神经网络作为生成器，计算过程如下：

其中，和分别为非线性前馈神经网络和的网络参数。

目标是要联合学习神经网络和，找到合适的参数和使得和的值尽可能大，公式如下：

可以利用深度学习的特点以反向传播的形式来更新上述两个网络的网络参数，那么就需要计算出两个相关性Loss用于约束梯度的更新方向。本实施例定义中心数据矩阵为：

其中表示训练数据的大小。

通过上述方法可以由、和计算出三个中心数据矩阵、和，然后再定义如下算法：

其中、均为正则化常数。

由上述计算过程，就能分别计算出两组相关性Loss，分别记为和，将这两组Loss共同保存下来之后再添加到后面的情感分类Loss（交叉熵损失）上就是最终用于反向传播的损失函数。

通过以上方式，可以在模型前向传播的过程中增添了一个生成对抗的任务，以一个多任务学习的方法来实现不同模态之间的语义映射，在语义空间上缩小了彼此之间的距离。

在本实施例中，在训练得到多模态情感分析模型之后，即可以采用多模态情感分析模型进行情感类别的预测场景中，对于模型推理过程可以结合图8进行如下详细描述。

参照图8，示出了本申请实施例提供的一种目标情感类别确定方法的步骤流程图，如图8所示，该目标情感类别确定方法可以包括：步骤801、步骤802、步骤803和步骤804。

步骤801：获取待分类的多模态数据；所述多模态数据包括：语音数据、文本数据和视频数据。

在本实施例中，待分类的多模态数据可以为商品零售领域、社会舆情领域、公共服务领域等领域的多模态数据。

其中，针对商品零售领域，用户的评价不论对于零售商还是生产商都是非常重要的反馈信息，通过收集海量的用户评价并对其进行情感分析，就可以合理地量化出用户对产品及其竞品的褒贬程度，这样不仅能够充分了解用户对于产品的诉求还可以获知自己产品与竞品的对比优劣情况。

针对社会舆情领域，如今越来来越多的人会选择用视频作为交流和记录生活的媒介，而对于视频中用户情感状态的分析无疑将能够更好地提升用户的体验。当下一些视频分享和直播平台已经成为人们日常生活的一部分，分析平台用户的情感状态及其变化（如用户的情感监测、舆论分析等）对于平台的健康发展是非常有必要的，同时通过分析大众对于社会热点事件的点评也可以更有效的掌握舆论的走向从而精准掌握客户的流向。

针对公共服务领域，如银行、医院、政务服务行业、餐饮行业的服务机器人以及远程教育、远程医疗等领域的机器人等会越来越多的出现在人们的日常生活中，在多模态智能人机交互的研究中，智能机器人可以具备更精准的情感识别、理解、表达能力，以便更好地在各个领域服务人类。

除上述领域外，在企业舆情方面，利用情感分析技术可以迅速了解社会对企业的评价，从而为企业的战略规划提供决策依据，提升企业在市场中的竞争力；在金融交易领域，分析交易者对于股票及其他金融衍生品的态度，可以为行情交易提供辅助依据等等。

在本示例中，多模态数据可以包括：语音数据、文本数据和视频数据，视频数据和音频数据分别由摄像头和麦克风采集得到，文本数据则是通过开源的语音识别API实时从音频数据中得到的。

在获取到待分类的多模态数据之后，执行步骤802。

步骤802：将所述多模态数据输入至所述多模态情感分析模型。

在获取到待分类的多模态数据之后，可以将多模态数据输入至多模态情感分析模型。

在将多模态数据输入至多模态情感分析模型之后，执行步骤803。

步骤803：调用所述多模态情感分析模型对所述多模态数据进行处理，得到所述多模态数据在多个情感类别下的概率分布。

在将多模态数据输入至多模态情感分析模型之后，可以调用多模态情感分析模型对多模态数据进行处理，得到多模态数据在多个情感类别下的概率分布。具体地，可以调用多模态情感分析模型的向量表征网络层、多模态融合网络层和情感分类网络层对多模态数据进行处理，从而可以得到多模态数据在多个情感类别下的概率分布，即多模态数据隶属于多个情感类别中每个情感类别的概率。

可以理解地，对于多模态情感分析模型对多模态数据的处理过程与模型训练过程中的描述部分类似，本实施例在此不再加以赘述。

在调用多模态情感分析模型对多模态数据进行处理得到多模态数据在多个情感类别下的概率分布之后，执行步骤804。

步骤804：根据所述概率分布，确定所述多模态数据对应的目标情感类别。

在调用多模态情感分析模型对多模态数据进行处理得到多模态数据在多个情感类别下的概率分布之后，可以根据该概率分布确定出多模态数据对应的目标情感类别。具体地，可以将多个情感类别对应的概率值从中筛选出概率值最大的情感类别作为目标情感类别。

本申请实施例提供的模型训练方法，通过获取多模态模型训练样本，多模态模型训练样本包括：文本模态特征、语音模态特征和视频模态特征。将多模态模型训练样本输入至待训练多模态情感分析模型，待训练多模态情感分析模型包括：向量表征网络层、多模态融合网络层和情感分类网络层。调用向量表征网络层对文本模态特征、语音模态特征和视频模态特征进行处理，得到文本模态特征的文本表征向量、语音模态特征的语音表征向量和视频模态特征的视频表征向量。调用多模态融合网络层对文本表征向量、语音表征向量和视频表征向量进行多模态融合处理，得到多模态融合特征向量。调用情感分类网络层对多模态融合特征向量进行处理，得到多模态模型训练样本隶属情感类别的分类概率。基于分类概率，计算得到待训练多模态情感分析模型的损失值。在损失值处于预设范围内的情况下，将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。本申请实施例通过引入了基于联合注意力的跨模态特征融合网络以训练多模态情感分析网络模型，以利用多模态信息(语音、视频和文本)可以更加准确地捕获所需要表达的情感并获得更好的情感类别识别效果。

实施例二

参照图14，示出了本申请实施例提供的一种模型训练装置的结构示意图，如图14所示，该模型训练装置1400可以包括以下模块：

模型训练样本获取模块1410，用于获取多模态模型训练样本，所述多模态模型训练样本包括：文本模态特征、语音模态特征和视频模态特征；

模型训练样本输入模块1420，用于将所述多模态模型训练样本输入至待训练多模态情感分析模型；所述待训练多模态情感分析模型包括：向量表征网络层、多模态融合网络层和情感分类网络层；

多模态表征向量获取模块1430，用于调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理，得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量和所述视频模态特征的视频表征向量；

多模态融合向量获取模块1440，用于调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理，得到多模态融合特征向量；

分类概率获取模块1450，用于调用所述情感分类网络层对所述多模态融合特征向量进行处理，得到所述多模态模型训练样本隶属情感类别的分类概率；

损失值计算模块1460，用于基于所述分类概率，计算得到所述待训练多模态情感分析模型的损失值；

情感分析模型获取模块1470，用于在所述损失值处于预设范围内的情况下，将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。

所述多模态表征向量获取模块包括：

所述文本表征向量获取单元包括：

所述视频表征向量获取单元包括：

所述语音表征向量获取单元包括：

所述多模态融合向量获取模块包括：

可选地，所述分类概率获取模块包括：

可选地，所述装置还包括：

本申请实施例提供的模型训练装置，通过获取多模态模型训练样本，多模态模型训练样本包括：文本模态特征、语音模态特征和视频模态特征。将多模态模型训练样本输入至待训练多模态情感分析模型，待训练多模态情感分析模型包括：向量表征网络层、多模态融合网络层和情感分类网络层。调用向量表征网络层对文本模态特征、语音模态特征和视频模态特征进行处理，得到文本模态特征的文本表征向量、语音模态特征的语音表征向量和视频模态特征的视频表征向量。调用多模态融合网络层对文本表征向量、语音表征向量和视频表征向量进行多模态融合处理，得到多模态融合特征向量。调用情感分类网络层对多模态融合特征向量进行处理，得到多模态模型训练样本隶属情感类别的分类概率。基于分类概率，计算得到待训练多模态情感分析模型的损失值。在损失值处于预设范围内的情况下，将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。本申请实施例通过引入了基于联合注意力的跨模态特征融合网络以训练多模态情感分析网络模型，以利用多模态信息(语音、视频和文本)可以更加准确地捕获所需要表达的情感并获得更好的情感类别识别效果。

另外地，本申请的实施例还提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施例的模型训练方法。

本申请的实施例还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的模型训练方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本申请的实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的实施例的内容，并且上面对特定语言所做的描述是为了披露本申请的实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请的实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的实施例的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

本申请的实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本申请的实施例的动态图片的生成设备中的一些或者全部部件的一些或者全部功能。本申请的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本申请的实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请的实施例进行说明而不是对本申请的实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请的实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本申请的实施例的较佳实施例而已，并不用以限制本申请的实施例，凡在本申请的实施例的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的实施例的保护范围之内。

以上所述，仅为本申请的实施例的具体实施方式，但本申请的实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请的实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的实施例的保护范围之内。因此，本申请的实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述向量表征网络层包括：第一双向LSTM网络、第二双向LSTM网络和GCN语音网络，

3.根据权利要求2所述的方法，其特征在于，所述第一双向LSTM网络包括：第一编码层和第一注意力机制层，

4.根据权利要求2所述的方法，其特征在于，所述第二双向LSTM网络包括：第二编码层和第二注意力机制层，

5.根据权利要求2所述的方法，其特征在于，所述GCN语音网络包括：拓扑图构建层、图卷积层和注意力机制层，

6.根据权利要求1所述的方法，其特征在于，所述多模态融合网络层包括：基于联合注意力的跨模态特征融合层和生成对抗算法，

7.根据权利要求1所述的方法，其特征在于，所述调用所述情感分类网络层对所述多模态融合特征向量进行处理，得到所述多模态模型训练样本隶属情感类别的分类概率，包括：

8.根据权利要求1所述的方法，其特征在于，在所述将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型之后，还包括：

将所述多模态数据输入至所述多模态情感分析模型；

9.一种模型训练装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述向量表征网络层包括：第一双向LSTM网络、第二双向LSTM网络和GCN语音网络，

所述多模态表征向量获取模块包括：

11.根据权利要求10所述的装置，其特征在于，所述第一双向LSTM网络包括：第一编码层和第一注意力机制层，

所述文本表征向量获取单元包括：

12.根据权利要求10所述的装置，其特征在于，所述第二双向LSTM网络包括：第二编码层和第二注意力机制层，

所述视频表征向量获取单元包括：

13.根据权利要求10所述的装置，其特征在于，所述GCN语音网络包括：拓扑图构建层、图卷积层和注意力机制层，

所述语音表征向量获取单元包括：

14.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至8中任一项所述的模型训练方法。

15.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1至8中任一项所述的模型训练方法。