CN113592001A

CN113592001A - 一种基于深度典型相关性分析的多模态情感识别方法

Info

Publication number: CN113592001A
Application number: CN202110888040.4A
Authority: CN
Inventors: 张科; 李苑青; 王靖宇; 李浩宇; 苏雨; 谭明虎; 张烨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-11-02
Anticipated expiration: 2041-08-03
Also published as: CN113592001B

Abstract

本发明涉及一种或基于深度典型相关性分析的多模态情感识别方法，针对多模态情感识别方法需要同时提取单模态特征和跨模态特征的特点，通过循环神经网络和典型相关性分析相结合，设计了新的模型、损失函数和网络结构，同时对单模态特征和跨模态特征进行提取、融合和分析，最后在分类阶段采用K聚类方法，提升识别效率和精度。

Description

一种基于深度典型相关性分析的多模态情感识别方法

技术领域

本发明属于用户情感倾向分析技术领域，特别涉及一种基于深度典型相关性分析的多模态情感识别方法。

背景技术

用户多模态情感倾向分析是近年来十分热门的一个研究领域，具有广泛的发展潜力和应用前景，例如：自动驾驶系统司机疲劳驾驶监测，机场对于人群中危险分子安全保障监控，医疗领域的自闭症陪护和监测，智能家居领域中独居老人小孩的陪护、报警和监测等。现有多模态情感分析技术中，用于分析的模态根据不同的研究方向而多种多样，其中主要有以下四种：视觉信号，声音信号，文字信息和脑电信号。其中，脑电信号具有相对最高的准确率，但必须配套相应的专用信号采集传感器设备，因此在日常生活领域难以方便地大范围普及。因此，视觉、声音和文字是最常见的多模态用户情感分析研究的输入模态。使用这三种模态的现有相关技术中，对于这三种模态的特征提取方法主要分为两种，一种为单模态内部有效特征提取，即各个模态信息分别提取，不考虑模态信息之间的相关性；另一种将三模态信息作为一个整体，按一定顺序分析单个特征对整体信息的有效性，即一次只计算有一类特征对于情感识别的有效性。前一种技术在单模态信息下具有很好的识别率，但在多模态信息混合后并不能保持这样的准确度，后一种方法虽然将多模态信息作为一个整体进行分析，但每次只计算一种特征有效性的做法显然计算速度慢且忽略了特征之间的相关性。

循环神经网络是近年来人工智能机器学习领域中非常热门的研究方向，非常适合于处理具有顺序特征的高维复杂信号，例如具有时序标的的声音信号、文字信号等，具有计算速度较快，收敛效果好和设计简洁等优点，因此在多模态情感分析领域得到了广泛的应用。典型相关分析具有非常广泛的用途，在实际分析问题中，当面临两组多变量数据，并希望研究两组变量之间的关系时，就要用到典型相关分析。典型相关性分析是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。通过典型相关分析和深度循环神经网络的结合，就可以在提取与情感有关的特征时，更多地关注到模态之间的相互关系，从而提取到更多的跨模态特征。

林敏鸿,蒙祖强(《基于注意力神经网络的多模态情感分析》.计算机科学,2020,47(S2):508-514+548.)为了解决多模态情感分类任务中的信息冗余的问题, 提出了一种基于注意力神经网络的多模态情感分析方法。该方法构造了基于注意力神经网络的文本特征提取模型和图像特征提取模型,突出了图像情感信息关键区域和包含情感信息的单词,将各模态的张量积作为多模态数据的联合特征表达,采用主成分分析法剔除联合特征的冗余信息,进而使用支持向量机获取多模态数据的情感类别。该算法在公共数据集上取得了很好识别准确率，并大大提升了训练速度。但该多模态情感识别方法在多模态特征提取上侧重单模态内部的有效特征提取，忽略了跨模态特征的相互关系。

发明内容

本发明解决的技术问题是：现有的多模态情感识别方法在选取与情感有关的特征时，大多侧重于单模态内部的有效特征选择，忽略了跨模态特征的选择，不符合多模态情感识别问题的需要和实际应用情况。本发明针对多模态情感识别方法需要同时提取单模态特征和跨模态特征的特点，通过循环神经网络和典型相关性分析相结合，设计了新的模型、损失函数和网络结构，同时对单模态特征和跨模态特征进行提取、融合和分析，最后在分类阶段采用K聚类方法，提升识别效率和精度。

本发明的技术方案是：一种基于深度典型相关性分析的多模态情感识别方法，包括以下步骤：

步骤1：构建基于循环神经网络的算法模型并对该模型进行训练，包括以下子步骤：

步骤1.1：建立循环神经网络的算法模型，且该模型的输入信息为：

M＝[V,T,A]

M为当前待识别信息，V为图像信息，T为文字信息，A为语音信息。

步骤1.2：对模型进行训练：

H_VT＝F_VT(V,T,W_VT)

H_AT＝F_AT(A,T,W_AT)

Classification＝F(V,T,A,W_VTA)

其中F为依照图1构建基于循环神经网络的强化学习算法模型，W_VT,W_AT和W_VTA分别为模型中涉及到的参数变量，H_VT为图像与文字双模态融合信息经过全连接层线性变换后的二维综合变量，H_AT为语音与文字双模态融合信息经过全连接层线性变换后的二维综合变量，Classification为模型的输出结果；

步骤1.3：计算损失函数：

loss＝loss_CCA+loss_class

通过反向传播损失函数loss，完成对模型的训练

步骤2：采用数据集中未被训练过的数据作为测试实例，使用基于循环神经网络和相关典型性分析的多模态情感识别模型进行识别，得到最后的分类结果，包括以下子步骤：

步骤2.1：通过基于循环神经网络和相关典型性分析的多模态情感识别模型进行输出结果计算；

步骤2.2：计算输出结果与六种基本情感类型各自的聚类中心的欧氏距离大小，距离最近的聚类中心所代表的情感类型作为最终的识别结果。

本发明进一步的技术方案是：所述步骤1.1中，循环神经网络的算法模型共12 层，其中，1层输出层，1层输入层，10层为隐含层，包括2层循环神经网络层，1 层归一化层，1层激活层，1层注意力层和5层全连接层。

本发明进一步的技术方案是：所述循环神经网络的算法模型输入为当前对话采样段内的图像、文字和语音三模态信息，首先分别进行单模态的特征处理。图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层和一层循环神经网络层，之后文字与语音，文字与图像分别通过一层注意力层进行双模态信息的融合。两组双模态信息分别通过相互独立的三层全连接层进行线性变换，输出维度均为2，之后再分别通过两层全连接层重构两组融合的双模态信息，输出维度与第一层注意力层相同。两组信息通过一层循环神经网络层和一层激活层进行特征融合，最后经过一层全连阶层输出。输出结果采用K聚类方法进行分类，以数据的真实标签数据作为K 聚类的聚类中心点，计算输出值与聚类中心点的欧氏距离，以距离最小的聚类中心点作为分类识别结果。

本发明进一步的技术方案是：所述步骤1.3中，损失函数包含两个部分：

一部分为对综合变量H_VT和H_AT进行典型相关性分析，

corr＝arg max CCA(H_VT,H_AT)

loss_CCA＝-corr

其中，corr为计算出的相关性大小，CCA为典型相关性分析计算过程，为了通过反向传播使得corr最大化，跨模态特征损失函数loss_CCA取corr负值；

另一部分损失函数loss_class为模型输出结果Classification与正确标签所代表的聚类中心Label的欧式距离：

loss_class＝Eu(Classification,Label)

其中，Eu为欧氏距离计算。

因此，损失函数loss为：

loss＝loss_CCA+loss_class。

发明效果

本发明的技术效果在于：与已有的多模态情感识别模型相比，本发明的模型中，通过注意力机制的循环神经网络和典型相关性分析，实现单模态情感特征和跨模态情感特征的提取并重，并一起构成最终的损失函数，从而进行反向传播、训练和优化，从而实现有效的多模态情感识别。采用本发明的方法有益效果主要包括：

(1)本发明中的循环神经网络和相关典型性分析相结合的新型多模态情感识别模型能够实现同时有效提取单模态特征和跨模态特征，相较于传统的特征提取方法来说，能够更加充分的挖掘多模态信息和模态间隐含的相互关系，提升识别准确率。

(2)本发明在多模态情感分析公开数据集CMU-MOSI上进行了有效性验证。测试结果，文字、图像及语音信息输入模型前分布如图3中左边小图所示，经过多模态特征提取和融合，完成分类的结果如图3中右边小图所示，F1-score为80.6％，分类准确度81.2％，证明了本发明所述方法的有效性。

附图说明

图1是基于深度典型相关性分析的多模态情感识别方法结构图

图2是方法流程图

图3是测试结果图

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参加图1-图3，为了实现更加合理有效的多模态情感识别，本发明提出了一种循环神经网络与深度典型相关性分析相结合的新型多模态情感识别模型，采用循环神经网络对单模态特征进行提取，经过注意力机制对模态两两融合后，通过深度典型相关性分析最大化与跨模态相关的特征，最后，以真实分类标签为六种基本情感类型的中心点，采取K聚类方法完成分类的训练和优化。

在多模态情感识别中，对话中的多模态对话信息(图像，文字和语音)分别作为三种单模态信息通过循环神经网络对各自模态进行特征提取，之后，通过注意力机制分别对文字与声音信息，文字与图像信息进行双模态间的初步融合。融合后对这两组信息通过相互独立的两组全连接层进行线性变换，分别提取有代表性的两个综合变量用于表达两组信息之间的相互关系，并记录这两组综合变量。之后再通过对称的两组独立的全连接层重建两组融合的双模态信息，这两组信息通过一个循环神经网络完成三模态信息融合。最后，以数据的真实标签数据作为K聚类的聚类中心点，通过计算融合后的信息与聚类中心点的欧氏距离完成分类。其中，训练过程中，损失函数共包含两个部分，一个对两组综合变量进行典型性分析，对两组综合变量的相关行进行计算，对计算值取负数作为跨模态特征计算部分的损失函数值，以期通过反向传播最大化两组综合变量之间的相关性；另一部分为最后的分类结果与真实标签所代表的聚类中心的欧氏距离作为损失函数，以期通过反向传播最小化此距离，从而得到正确的分类结果。

请参见图1，本发明中，基于循环神经网络强化学习算法结构共12层，其中，1 层输出层，1层输入层，10层为隐含层，包括2层循环神经网络层，1层归一化层，1 层激活层，1层注意力层和5层全连接层。归一化层输入为当前待识别信息的图像、文字和语音三模态信息，首先分别进行单模态的特征处理。图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层和一层循环神经网络层，之后文字与语音，文字与图像分别通过一层注意力层进行双模态信息的融合。两组双模态信息分别通过相互独立的三层全连接层进行线性变换，输出维度均为2，之后再分别通过两层全连接层重构两组融合的双模态信息，输出维度与第一层注意力层相同。两组信息通过一层循环神经网络层和一层激活层进行特征融合，最后经过一层全连阶层输出。输出结果采用K聚类方法进行分类，以数据的真实标签数据作为K聚类的聚类中心点，计算输出值与聚类中心点的欧氏距离，以距离最小的聚类中心点作为分类识别结果。

现结合附图对本发明做进一步描述。

为了实现多模态情感识别，本发明提出了一种基于深度典型相关性分析的多模态情感识别模型，采用循环神经网络为网络模型，深度典型相关性分析最大化与跨模态相关的特征，以真实分类标签为六种基本情感类型(快乐，兴奋，沮丧，悲伤，愤怒和中性)的中心点，采取K聚类方法完成分类的训练和优化。

参见图1，本发明中，基于循环神经网络强化学习算法结构共12层，其中，1层输出层，1层输入层，10层为隐含层，包括2层循环神经网络层，1层归一化层，1 层激活层，1层注意力层和5层全连接层。神经网络输入为当前对话采样段内的图像、文字和语音三模态信息，首先分别进行单模态的特征处理。图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层和一层循环神经网络层，之后文字与语音，文字与图像分别通过一层注意力层进行双模态信息的融合。两组双模态信息分别通过相互独立的三层全连接层进行线性变换，输出维度均为2，之后再分别通过两层全连接层重构两组融合的双模态信息，输出维度与第一层注意力层相同。两组信息通过一层循环神经网络层和一层激活层进行特征融合，最后经过一层全连阶层输出。输出结果采用K聚类方法进行分类，以数据的真实标签数据作为K聚类的聚类中心点，计算输出值与聚类中心点的欧氏距离，以距离最小的聚类中心点作为分类识别结果。

参见图2，本发明一种基于深度典型相关性分析的多模态情感识别方法，具体实施方式包括以下步骤：

步骤一、搭建基于循环神经网络的算法模型，并采用梯度下降和反向传播算法训练该模型，具体过程如下：

依照图1构建基于循环神经网络的算法模型，用随机数初始化所有的参数及权重。将输入多模态信息表示为：

M＝[V,T,A]

在多模态对话信息数据库上对模型进行训练，对于待识别信息所包含的图像、文字和语音模态信息，分别计算其经过归一化层，循环神经网络层和全连接层后得到的两组双模态融合综合变量和最终输出的用于K聚类的六维向量，公式为：

H_VT＝F_VT(V,T,W_VT)

H_AT＝F_AT(A,T,W_AT)

Classification＝F(V,T,A,W_VTA)

其中F为依照图1构建基于循环神经网络的强化学习算法模型，W_VT,W_AT和W_VTA分别为模型中涉及到的参数变量，H_VT为图像与文字双模态融合信息经过全连接层线性变换后的二维综合变量，H_AT为语音与文字双模态融合信息经过全连接层线性变换后的二维综合变量，Classification为模型的输出结果。

接下来进行损失函数计算，损失函数包含两个部分，一部分为对综合变量H_VT和H_AT进行典型相关性分析，

corr＝arg max CCA(H_VT,H_AT)

loss_CCA＝-corr

其中，corr为计算出的相关性大小，CCA为典型相关性分析计算过程，为了通过反向传播使得corr最大化，因此跨模态特征损失函数loss_CCA取corr负值。另一部分损失函数loss_class为模型输出结果Classification与正确标签所代表的聚类中心Label的欧式距离。

loss_class＝Eu(Classification,Label)

其中，Eu为欧氏距离计算。

最终，损失函数loss为：

loss＝loss_CCA+loss_class

通过反向传播损失函数loss，完成对模型的训练。

步骤二、采用数据集中未被训练过的数据作为测试实例，使用基于循环神经网络和相关典型性分析的多模态情感识别模型进行识别，得到最后的分类结果。具体过程如下：

通过基于循环神经网络和相关典型性分析的多模态情感识别模型进行输出结果计算；

计算输出结果与六种基本情感类型各自的聚类中心的欧氏距离大小，距离最近的聚类中心所代表的情感类型作为最终的识别结果。

本实施例中，CMU-MOSI数据集中训练集包含1616条样本，训练集包含583条样本，符合3：1的训练测试比，每条样本均包含文字、图像及语音信息，标签分为两类，分别是正向情感及负向情感，评估指标为F-score，并通过T测试进行显著性检验，显著性水平为0.05。所建立模型循环神经网络层隐藏节点数为512，五层全连接层的隐藏节点数分别为512，256，2，256和512，学习率为0.0015。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度典型相关性分析的多模态情感识别方法，其特征在于，包括以下步骤：

M＝[V,T,A]

步骤1.2：对模型进行训练：

H_VT＝F_VT(V,T,W_VT)

H_AT＝F_AT(A,T,W_AT)

Classification＝F(V,T,A,W_VTA)

步骤1.3：计算损失函数：

loss＝loss_CCA+loss_class

通过反向传播损失函数loss，完成对模型的训练

2.如权利要求1所述的一种基于深度典型相关性分析的多模态情感识别方法，其特征在于，所述步骤1.1中，循环神经网络的算法模型共12层，其中，1层输出层，1层输入层，10层为隐含层，包括2层循环神经网络层，1层归一化层，1层激活层，1层注意力层和5层全连接层。

3.如权利要求2所述的一种基于深度典型相关性分析的多模态情感识别方法，其特征在于，所述循环神经网络的算法模型输入为当前对话采样段内的图像、文字和语音三模态信息，首先分别进行单模态的特征处理。图像特征处理层、文字特征处理层和语音特征处理层均各自包含一层归一化层和一层循环神经网络层，之后文字与语音，文字与图像分别通过一层注意力层进行双模态信息的融合。两组双模态信息分别通过相互独立的三层全连接层进行线性变换，输出维度均为2，之后再分别通过两层全连接层重构两组融合的双模态信息，输出维度与第一层注意力层相同。两组信息通过一层循环神经网络层和一层激活层进行特征融合，最后经过一层全连阶层输出。输出结果采用K聚类方法进行分类，以数据的真实标签数据作为K聚类的聚类中心点，计算输出值与聚类中心点的欧氏距离，以距离最小的聚类中心点作为分类识别结果。

4.如权利要求1所述的一种基于深度典型相关性分析的多模态情感识别方法，其特征在于，所述步骤1.3中，损失函数包含两个部分：

一部分为对综合变量H_VT和H_AT进行典型相关性分析，

corr＝argmaxCCA(H_VT,H_AT)

loss_CCA＝-corr

loss_class＝Eu(Classification,Label)

其中，Eu为欧氏距离计算。

因此，损失函数loss为：

loss＝loss_CCA+loss_class。