CN114118165A

CN114118165A - 基于脑电的多模态情绪数据预测方法、装置及相关介质

Info

Publication number: CN114118165A
Application number: CN202111465384.0A
Authority: CN
Inventors: 张锡豪; 周如双; 梁臻; 李琳玲; 黄淦; 张力; 张治国
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-01

Abstract

本发明公开了基于脑电数据的多模态情绪数据预测方法、装置及相关介质，该方法包括：基于域自适应神经网络对脑电数据进行预测投票，得到个体情绪预测标签数据；通过深度卷积网络模型对预设的视听内容提取深度视觉特征和深度听觉特征，并将所述深度视觉特征和深度听觉特征融合为深度视听融合特征；基于所述深度视觉特征、深度听觉特征和深度视听融合特征构建超图，并通过超图分割得到所述深度视觉特征、深度听觉特征和深度视听融合特征对应的潜藏情绪预测标签数据；对个体情绪预测标签数据和潜藏情绪预测标签数据赋予权重并融合，将融合后的结果作为情绪数据预测结果。本发明结合脑电数据和视听特征，进行多模态预测，从而提高情绪预测的准确性。

Description

基于脑电的多模态情绪数据预测方法、装置及相关介质

技术领域

本发明涉及计算机软件技术领域，特别涉及基于脑电的多模态情绪数据预测方法、装置及相关介质。

背景技术

脑电为记录人体大脑活动提供了一种更加自然的方式，同时，也被广泛应用于情感智能研究。现有的文献表明，深度神经网络学习方法为从脑电信号中提取深度特征信息提供了有效的方法，并在基于脑电的情绪预测中实现了较好的结果。然而，由于个体差异性的问题，基于脑电的情绪预测模型的稳定性和泛化性是很大挑战。具体地，脑电是非常弱的信号，很容易受到外界噪声的干扰和影响，使得从噪声中辨别个体特性的和有意义的脑电特征变得困难。

视觉内容和听觉内容是诱发情绪的主要因素，向个体传递相同的客观内容，诱导不同的个体产生不同的情绪。因此，基于个体的生理信号的情绪预测模型存在信息缺失和个体差异的问题，不能对情绪实现精确的建模。与单模态的情绪预测模型相比，多模态融合的方法可以为情绪预测提供更多单模态下缺失的互补信息，能够实现更加精确的建模。现有的提取视听特征的方法都是基于传统视听特征的，由于“语义鸿沟”(或“情绪鸿沟”)的存在，传统的视听特征并不能充分地表达与情绪相关的具有判别性的特征。

发明内容

本发明实施例提供了一种基于脑电数据的多模态情绪数据预测方法、装置及相关介质，旨在提高情绪预测的准确性。

第一方面，本发明实施例提供了一种基于脑电数据的多模态情绪数据预测方法，包括：

在不同分辨率下，对不同子频带提取用于训练的脑电数据的微分熵特征，并基于所述微分熵特征构建域自适应神经网络；

基于所述域自适应神经网络对目标用户的脑电数据进行预测投票，得到个体情绪预测标签数据；

通过深度卷积网络模型对预设的视听内容提取深度视觉特征和深度听觉特征，并将所述深度视觉特征和深度听觉特征融合为深度视听融合特征；

基于所述深度视觉特征、深度听觉特征和深度视听融合特征构建超图，并通过超图分割得到所述深度视觉特征、深度听觉特征和深度视听融合特征对应的潜藏情绪预测标签数据；

对所述个体情绪预测标签数据和潜藏情绪预测标签数据赋予权重并融合，将融合后的结果作为情绪数据预测结果。

第二方面，本发明实施例提供了一种基于脑电数据的多模态情绪数据预测装置，包括：

网络构建单元，用于在不同分辨率下，对不同子频带提取用于训练的脑电数据的微分熵特征，并基于所述微分熵特征构建域自适应神经网络；

第一预测单元，用于基于所述域自适应神经网络对目标用户的脑电数据进行预测投票，得到个体情绪预测标签数据；

特征提取单元，用于通过深度卷积网络模型对预设的视听内容提取深度视觉特征和深度听觉特征，并将所述深度视觉特征和深度听觉特征融合为深度视听融合特征；

第二预测单元，用于基于所述深度视觉特征、深度听觉特征和深度视听融合特征构建超图，并通过超图分割得到所述深度视觉特征、深度听觉特征和深度视听融合特征对应的潜藏情绪预测标签数据；

标签融合单元，用于对所述个体情绪预测标签数据和潜藏情绪预测标签数据赋予权重并融合，将融合后的结果作为情绪数据预测结果。

第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的基于脑电数据的多模态情绪数据预测方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于脑电数据的多模态情绪数据预测方法。

本发明实施例提供了一种基于脑电数据的多模态情绪数据预测方法、装置及相关介质，该方法包括：在不同分辨率下，对不同子频带提取用于训练的脑电数据的微分熵特征，并基于所述微分熵特征构建域自适应神经网络；基于所述域自适应神经网络对目标用户的脑电数据进行预测投票，得到个体情绪预测标签数据；通过深度卷积网络模型对预设的视听内容提取深度视觉特征和深度听觉特征，并将所述深度视觉特征和深度听觉特征融合为深度视听融合特征；基于所述深度视觉特征、深度听觉特征和深度视听融合特征构建超图，并通过超图分割得到所述深度视觉特征、深度听觉特征和深度视听融合特征对应的潜藏情绪预测标签数据；对所述个体情绪预测标签数据和潜藏情绪预测标签数据赋予权重并融合，将融合后的结果作为情绪数据预测结果。本发明实施例结合脑电数据和视听特征，进行多模态预测，可以提高情绪预测的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测方法的流程示意图；

图2为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测方法的子流程示意图；

图3为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测方法的另一子流程示意图；

图4为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测方法的整体网络结构示意图；

图5为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测方法中的域自适应神经网络的网络结构示意图；

图6为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测装置的示意性框图；

图7为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测装置的子示意性框图；

图8为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测装置的另一子示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测方法的流程示意图，具体包括：步骤S101～S105。

S101、在不同分辨率下，对不同子频带提取用于训练的脑电数据的微分熵特征，并基于所述微分熵特征构建域自适应神经网络；

S102、基于所述域自适应神经网络对目标用户的脑电数据进行预测投票，得到个体情绪预测标签数据；

S103、通过深度卷积网络模型对预设的视听内容提取深度视觉特征和深度听觉特征，并将所述深度视觉特征和深度听觉特征融合为深度视听融合特征；

S104、基于所述深度视觉特征、深度听觉特征和深度视听融合特征构建超图，并通过超图分割得到所述深度视觉特征、深度听觉特征和深度视听融合特征对应的潜藏情绪预测标签数据；

S105、对所述个体情绪预测标签数据和潜藏情绪预测标签数据赋予权重并融合，将融合后的结果作为情绪数据预测结果。

本实施例中，首先基于域对抗神经网络构建一个多分辨域对抗神经网络，即所述域自适应神经网络(Multi-scale Domain Adversarial Neural Network，MsDANN)，用于增强跨个体脑电特征表征的泛化能力和模型个体化预测的性能。为了减少脑电信号个体差异带来的影响，本实施例利用视听特征来预测其中的潜藏的情绪信息，作为情绪预测中的互补信息。由于传统特征与情绪之间存在“语义鸿沟”，传统特征并不能充分地表达情绪相关的判别性信息。因此，本实施例拟提出一种基于深度视听特征的超图聚类方法(DeepAudio-Visual Feature based Hypergraph Clustering Method,DAVFHC)用于提取具有判别性的高级视听特征。最终的情绪预测结果由决策层融合模型决定，主要是通过赋予脑电的个体化情绪预测标签数据和视听特征的潜藏情绪预测标签数据相同的权重实现融合，从而将不同模态的互补信息用于情绪预测。

本实施例结合脑电数据和视听特征，进行多模态预测，为情绪预测提供更多单模态下缺失的互补信息，能够实现更加精确的建模。同时还可以充分地表达与情绪相关的具有判别性的特征，从而提高情绪预测的准确性。

结合图4所示，本实施例共包含基于脑电的个体化情绪预测模块、基于视听特征的潜藏情绪预测模块和多模态融合模块，在基于脑电的个体化情绪预测模块中，首先提取脑电信号的多分辨率表征，然后利用域自适应神经网络(即多分辨率域对抗神经网络)中特征提取器网络提取特征，然后通过任务分类器网络和判别器网络对提取的特征进行分类判别，从而得到个体化情绪对应的个体情绪预测标签数据。在基于视听特征的潜藏情绪预测模块中，分别在视觉层面和听觉层面提取基于片段的视觉特征和基于片段的听觉特征，然后通过超图聚类得到潜藏情绪对应的潜藏情绪预测标签数据。通过多模态融合模块对个体情绪预测标签数据和潜藏情绪预测标签数据进行融合，从而得到最终的情绪数据预测结果。

在一实施例中，如图2所示，所述步骤S101包括：步骤S201～S205。

S201、获取训练集中带情绪标签的脑电数据，并设置为源域；以及获取测试集中无情绪标签的脑电数据，并设置为目标域；

S202、分别获取所述源域和目标域的源域特征表征和目标域特征表征；

S203、将所述源域特征表征和目标域特征表征输入至生成器中，依次通过生成器中的第一全连接层、第一ELU层、第二全连接层、第二ELU层、第三全连接层、第三ELU层后对应得到训练特征和测试特征；

S204、将所述训练特征和对应的训练标签输入至分类器中，通过所述分类器中的第四全连接层进行分类预测；

S205、将所述训练特征和测试特征输入至判别器中，依次通过所述判别器中的第五全连接层、RELU层和第六全连接层进行判别预测。

本实施例中，首先从不同的子频带中在不同分辨率(例如1Hz、0.5Hz和0.25Hz等)下提取脑电数据的微分熵(Differential Entropy,DE)特征。然后，利用这些微分熵特征分别构建基于迁移学习的域自适应神经网络-MsDANN，并以域对抗的方法训练所述域自适应神经网络，从而解决基于脑电的情绪预测过程中个体差异的问题。具体地，不同个体的脑电数据被看作成不同的域，源域是指现存的个体的信息，而目标域是指新增的个体的信息。基于不同分辨率的输入特征，特征提取器网络、任务分类网络和判别器分别被设计用于提取源域和目标域具有判别性和域不变性的特征，并使得源域和目标域的特征分布相似或接近，使源域和目标域能在同一个预测模型上进行预测。

结合图5，所述域自适应神经网络(MsDANN)的网络结构主要包含三个部分：生成器(特征提取器网络)用于提取深度特征、分类器(任务分类网络)用于情绪标签预测和判别器(判别器)用于识别真假数据。生成器和分类器可以看成是标准的前向性结构，生成器和判别器是通过逆向梯度层的方法训练的，以确保两个域的特征分布是尽可能难以区分的。本实施例将带情绪标签的脑电数据看作为源域，用于训练生成器、分类器和判别器；而无情绪标签的脑电数据看作目标域，用于训练生成器和判别器。通过这个多分辨率的深度框架，与情感信息相关的一系列可迁移的特征被提取出来，使得跨域差异性可以互通；同时，源域和目标域的分类性能可以得到有效的提升。在这里，由于数据样本可能来自源域或目标域，因此判别器的作用便是判断数据样本究竟是属于源域还是目标域。

在一实施例中，所述步骤S102包括：

分别提取目标用户的脑电数据的高分辨率特征表征、中分辨率特征表征和低分辨率特征表征；

将所述高分辨率特征表征依次输入至第一生成器和第一分类器中，得到高分辨率标签；将所述中分辨率特征表征依次输入至第二生成器和第二分类器中，得到中分辨率标签；将所述低分辨率特征表征依次输入至第三生成器和第三分类器中，得到低分辨率标签；

对所述高分辨率标签、中分辨率标签和低分辨率标签进行投票，并将投票结果作为个体情绪预测标签数据。

本实施例中，结合图5，在利用所述域自适应神经网络对脑电数据进行分类预测时，首先从脑电数据中提取高分辨率特征表征、中分辨率特征表征和低分辨率特征表征，然后依次利用生成器和分类器对所述高分辨率特征表征、中分辨率特征表征和低分辨率特征表征分别进行分类，并得到对应的高分辨率标签、中分辨率标签和低分辨率标签，随后对得到的分辨率标签进行投票，从而得到最终的个体情绪预测标签数据。

在一实施例中，所述基于脑电数据的多模态情绪数据预测方法还包括：

按照下式构建所述域自适应神经网络的域对抗训练目标函数E：

式中，

和

分别表示源域和目标域，x^l为带情绪标签的脑电数据，z^l为

中无标签的脑电数据，θ、σ和μ均为参数；

按照下式构建所述判别器的二值化跨熵损失函数：

式中，r_θ和d_μ分别表示生成器和判别器；

按照下式构建分类器的损失函数：

式中，

是源域的分类损失。

本实施例中，为了学习源域和目标域共有的特征空间，以及确保学习得特征包含足够的信息用于揭露情绪状态，损失目标函数的设计如下文。假设源域和目标域分别以

和

表示。在域学习中，

中带情绪标签的EEG数据为x^l＝

和

而

是EEG输入数据以第l频域分辨率表示的特征，y_i是

对应的情绪标签。

是x^l的样本量。在另一方面，

中无标签的EEG数据以

表示，

是EEG输入数据以第l频域分辨率表示的特征，

是z^l的样本量。本实施例以带参数θ、σ和μ的方式，用r_θ、c_σ和d_μ分别表示生成器、分类器和判别器。为了确保r_θ从源域或目标域学习得的特征是不可区分的，域对抗训练目标函数如下：

在此，

是判别器的二值化跨熵损失，判别器用于训练区分

和

定义如下：

在此，

是指示函数。对于分类器部分，本实施例基于上述公式增加另外一个新的损失函数

作为分类器的损失函数，如下：

在此，

是源域的分类损失，由

决定，λ是学习进程中的平衡参数，定义如下：

在此，γ和p分别是算法每次遍历中的常数和因子。

其中，所述分类器的损失函数即是MsDANN模型训练的最终目标函数。

在一实施例中，如图3所示，所述步骤S103包括：步骤S301～S306。

S301、对预设的视听内容提取所有帧视觉信息，将每一所述帧视觉信息输入至VGG16网络中；

S302、利用所述VGG16网络中的每一卷积层提取每一所述帧视觉信息的特征图，在每一卷积层的特征图下计算对应的平均特征图；

S303、基于每一卷积层的平均特征图，利用自适应方法提取各个卷积层的关键帧特征；

S304、将最后两层卷积层对应的关键帧特征拼接为所述深度视觉特征；

S305、将预设的视听内容中的听觉信息无重叠分割为多个听觉片段，利用VGGish网络中的每一卷积层计算每一所述听觉片段对应的平均特征图，并将最后两层卷积层对应的平均特征图拼接为所述深度听觉特征；

S306、将所述深度视觉特征深度听觉特征融合为所述深度视听融合特征。

本实施例中，深度视觉特征和深度听觉特征分别通过已预训练的VGG16网络和VGGish网络提取。

VGG16网络结构包含13个卷积层和3个全连接层，各个卷积层的卷积核数量分别为64、64、128、128、256、256、256、512、512、512、512、512、512，卷积核的大小为3×3。

提取所述深度视觉特征一共有四个步骤：

①提取帧视觉特征，视频的每一帧内容被输入至VGG16网络中，提取出每一帧在各个卷积层对应的特征图。对于每个卷积层，计算其对应的平均特征图作为该层的特征向量。

②提取片段的视觉特征，本实施例利用自适应方法提取每个视听片段中的关键帧来代表这个视频片段。具体的，视频按照1秒时长无重叠分割，假设每个片段包含k帧，用

ι＝1,…N，表示第ι卷积层，每帧都经过VGG16网络提取到特征。关键帧提取的步骤如下：

将B^ι的所有帧用聚类的方法聚成一类；

求取聚类的中心点c^ι；

计算每帧

和聚类中心点c^ι的距离，表示为

选取与中心点距离最小的帧作为该片段的关键帧，记作

对应的关键帧特征被看作该视频片段的特征。

③视频片段的视觉特征融合，本实施例将最后两个卷积层(ι＝12,13)的视觉特征以拼接的方式融合，作为以DAVFHC方法得到的深度视觉特征Ψ_V。

对于提取深度听觉特征，本实施例利用已预训练的卷积神经网络模型VGGish进行提取，该网络结构有6个卷积层，卷积核的数量分别为64、128、256、256、512和512，卷积核大小为3×3。首先将视频内容中的的听觉信息按照1秒时长无重叠分割成干个音频片段，然后利用已预训练的VGGish网络提取每一个音频片段的各个卷积层的卷积特征，再将最后两个卷积层(ι＝5,6)的听觉特征以拼接的方式融合，作为以DAVFHC方法得到的深度听觉特征Ψ_A。

将深度视觉特征Ψ_V和对应的深度听觉特征Ψ_A融合得到深度视听融合特征，有深度视听融合特征Ψ_M＝[Ψ_V Ψ_A]。

在一实施例中，所述步骤S104包括：

将所述深度视觉特征、深度听觉特征和深度视听融合特征对应的视听内容片段设置为超图的顶点，并按照下式计算任意两个顶点之间相似性，然后以此构建超图：

式中，

和

为任意两个顶点，N_M为特征维度；

通过谱超图分割方法将所述超图分割为若干个与情绪状态相对应的聚类；

对所述聚类进行归一化处理，通过实值优化方法对归一化处理后的聚类进行最优分割，并将最优分割结果作为所述潜藏情绪预测标签数据。

本实施例中，利用深度视觉特征、深度听觉特征和深度视听融合特征基于超图分割(Hypergraph Partition)原理在Valence和Arousal维度构建超图，对每个片段的潜藏情绪进行无监督预测。通过超图构建各个视频片段的复杂关系，被看作成一个描述复杂隐藏数据关系方法。在传统的图(Graph)中，只能连接两个配对的顶点，这样会导致信息泄漏。而在超图中，一个边(在超图中别称作超边)可以连接超过两个顶点，顶点之间的关系可以得到很好的描述。在实施例中，假设超图为G＝{V,E}，E＝{e₁,e₂,e₃,…,e_|E|}为超边的集合，V＝{v₁,v₂,v₃,…,v_|V|}为顶点的集合。属于超边e_k∈E的顶点集合记为

为了定义顶点和超边之间的关系，任意两个顶点(情绪诱发视频片段)

和

(N_M为特征维度)之间的相似性定义为：

而

是指两个顶点之间的距离，由以下公式计算：

基于计算所得的相似性矩阵

(N是样本量)，关联矩阵可计算得H∈|V|×|E|，顶点V和超边E的关系如下表示：

超图的权重矩阵W是对角矩阵，代表着在超图G中的所有超边E的权重。超边e_k∈E权重w(e_k)是基于同属超边e_k的顶点之间的相似性矩阵计算得来的，计算如下：

是顶点v_i和v_j的相似性的值。τ是连接到超边e_k的顶点的数量。w(e_k)是同属一个超边的所有顶点之间相似性关系的度量，更大的w(e_k)值表示同属一个超边的具有相似属性的顶点之间具有更强的连接关系，而小的w(e_k)值表示同属一个超边的顶点之间具有弱的连接关系，这表明这些顶点具有更少的相似属性。换言之，超图结构可以很好地描述视听片段之间属性关系。顶点的阶矩阵(D_v)是对角矩阵，代表在超图G中的所有顶点的阶。一个顶点v_k∈V的阶是该顶点所属的所有超边的权重之和，定义如下：

超边的阶矩阵(D_e)同样也是对角矩阵，表示在超图G中所有超边的阶。一个超边e_k∈E的阶是指所有的连接到该超边的所有的顶点的阶之和，计算公式如下：

超图的问题可以通过谱超图分割方法实现对构建的超图分割成若干个与情绪状态(高或低)相对应的聚类。因此，这是一个双边的超图分割问题，可以通过以下公式表示：

在此，S和

分别是顶点V的分割集。对于双边的分割，

是S的补集。θS是分割的边界，定义为

d(e)是超边的阶。为了防止不平衡的分割，

被归一化为：

vol(S)和

分别是S和

的体积，分别计算为vol(S)＝∑_v∈S d(v)和

分割的规则是寻找使S和

之间连接最弱、各个分集内部连接紧密(超边权重值大)的超边。寻找两个分割集之间最弱连接是一个可以通过实值优化方法解决的NP-complete问题，最优的分割由以下公式计算：

在此，Θ为：

I是与W具有相同行列数的单位矩阵。超图的拉普拉斯剧矩阵定义为：

Δ＝I-Θ。

这个问题得最优解被转化成寻找Δ的最小特征值的特征向量。换言之，最优的超图分割结果是寻找Δ最小非零特征值对应的向量形成一个新的特征空间，并将这个特征空间用于后续基于K-means的聚类。通过这个方法，所有的顶点被聚类成两个类，每个类对应的情绪状态由类内部多数的顶点所属的情绪状态决定。如果类内多数顶点的情绪状态属于高情绪水平的，那么该类就被指定为高情绪水平，如果类内多数顶点的情绪状态属于低情绪水平的，那么该类就被指定为低情绪水平。在实际中，为了防止信息泄漏，类内的情绪状态仅由训练样本决定。

在一实施例中，所述步骤S105包括：

按照下式对所述个体情绪预测标签数据和潜藏情绪预测标签数据赋予权重并融合：

式中，

为个体情绪预测标签数据，

为潜藏情绪预测标签数据，w^EEG和w^MUL分别是个体情绪预测标签数据和潜藏情绪预测标签数据在融合过程的权重，

为最终的多模态融合的情绪预测结果。

本实施例中，基于前述步骤，利用深度视觉特征、深度听觉特征和深度视听融合特征的预测标签(即所述潜藏情绪预测标签数据)和对应的脑电特征个体化预测标签(即所述个体情绪预测标签数据)，开展决策层融合，计算每个片段的最终预测标签。也就是说，主要是通过分别赋予相同的权重融合脑电数据和视听信息。

在一实施例中，按照下式对情绪数据预测结果进行评价：

式中，Accuracy(准确率)和F1-score均为评价指标，n_TN和n_TP是正确预测的样本，n_FN和n_FP是错误预测的样本，P_pre和P_sen分别是精确度和灵敏度。

基于个体的真实标签是指每个被试观看视频时在Valence和Arousal维度分别打的不同标签，基于跨个体的真实标签是指所有被试在观看相同的视频时，情绪标签是相同的。准确率是衡量整体预测性能的指标，而F1-score则是精确度和灵敏度的调和均值，不易受不均衡分类问题的影响。

在一实施例中，基于个体和跨个体的真实标签在Valence和Arousal维度分别进行评估，结果如下表1和表2。

表1

表1中，EEG表示脑电信号在MsDANN网络的预测标签；Fusion表示深度视听融合特征在超图分割方法上的预测标签；Visual表示深度视觉特征在超图分割方法上的预测标签；Audio表示深度听觉特征在超图分割方法上的预测标签。

表2

表2中，EEG表示脑电信号在MsDANN网络的预测标签；Fusion表示深度视听融合特征在超图分割方法上的预测标签；Visual表示深度视觉特征在超图分割方法上的预测标签；Audio表示深度听觉特征在超图分割方法上的预测标签。

表1和表2中的数值越高，表明预测性能越好。同时，这说明在Valence和Arousal两个维度，利用本发明实施例提供的方法融合脑电、视觉特征和听觉特征的情绪预测准确率优于脑电与视觉特征或听觉特征的情绪预测准确率。

基于个体和跨个体的真实标签在Valence和Arousal维度分别评估了域对抗网络模型的有效性，结果如下表3和表4。

表3

表3中，EEG表示脑电信号在MsDANN/MsNN网络的预测标签；Fusion表示深度视听融合特征在超图分割方法上的预测标签；Visual表示深度视觉特征在超图分割方法上的预测标签；Audio表示深度听觉特征在超图分割方法上的预测标签。

表4

表4中，EEG表示脑电信号在MsDANN或MsNN网络的预测标签；Fusion表示深度视听融合特征在超图分割方法上的预测标签；Visual表示深度视觉特征在超图分割方法上的预测标签；Audio表示深度听觉特征在超图分割方法上的预测标签。

表3和表4的数据是MsDANN和MsNN(Multi-scale Neural Network，无深度域自适应的多分辨率神经网络)两个网络模型产生的标签分别与视频内容深度特征的标签决策融合的结果对比。首先，在Valence和Arousal维度，MsDANN网络模型产生的脑电预测标签分别与深度视听融合特征标签、深度视觉特征标签和深度听觉特征标签的决策融合结果，均优于MsNN网络模型产生的脑电预测标签分别与深度视听融合特征标签、深度视觉特征标签和深度听觉特征标签的决策融合结果，这表明，MsDANN网络的域对抗训练方法能有效地降低脑电数据中的个体差异，有利于基于脑电数据情绪预测建模，进而提高情绪预测性能。其次，在Valence和Arousal维度，MsDANN和MsNN两个网络模型产生的脑电预测标签和深度视听融合特征标签的决策融合结果均优于脑电预测标签和深度视觉特征或深度听觉特征标签的决策融合结果，充分说明多模态的决策融合可以为情绪预测提供更多的具有判别性的信息，进而提高情绪预测准确率。

图6为本发明实施例提供的一种基于脑电数据的多模态情绪数据预测装置600的示意性框图，该装置600包括：

网络构建单元601，用于在不同分辨率下，对不同子频带提取用于训练的脑电数据的微分熵特征，并基于所述微分熵特征构建域自适应神经网络；

第一预测单元602，用于基于所述域自适应神经网络对目标用户的脑电数据进行预测投票，得到个体情绪预测标签数据；

特征提取单元603，用于通过深度卷积网络模型对预设的视听内容提取深度视觉特征和深度听觉特征，并将所述深度视觉特征和深度听觉特征融合为深度视听融合特征；

第二预测单元604，用于基于所述深度视觉特征、深度听觉特征和深度视听融合特征构建超图，并通过超图分割得到所述深度视觉特征、深度听觉特征和深度视听融合特征对应的潜藏情绪预测标签数据；

标签融合单元605，用于对所述个体情绪预测标签数据和潜藏情绪预测标签数据赋予权重并融合，将融合后的结果作为情绪数据预测结果。

在一实施例中，如图7所示，所述网络构建单元601包括：

域设置单元701，用于获取训练集中带情绪标签的脑电数据，并设置为源域；以及获取测试集中无情绪标签的脑电数据，并设置为目标域；

表征获取单元702，用于分别获取所述源域和目标域的源域特征表征和目标域特征表征；

特征输出单元703，用于将所述源域特征表征和目标域特征表征输入至生成器中，依次通过生成器中的第一全连接层、第一ELU层、第二全连接层、第二ELU层、第三全连接层、第三ELU层后对应得到训练特征和测试特征；

分类预测单元704，用于将所述训练特征和对应的训练标签输入至分类器中，通过所述分类器中的第四全连接层进行分类预测；

判别预测单元705，用于将所述训练特征和测试特征输入至判别器中，依次通过所述判别器中的第五全连接层、RELU层和第六全连接层进行判别预测。

在一实施例中，所述第一预测单元602包括：

表征提取单元，用于分别提取目标用户的脑电数据的高分辨率特征表征、中分辨率特征表征和低分辨率特征表征；

表征输入单元，用于将所述高分辨率特征表征依次输入至第一生成器和第一分类器中，得到高分辨率标签；将所述中分辨率特征表征依次输入至第二生成器和第二分类器中，得到中分辨率标签；将所述低分辨率特征表征依次输入至第三生成器和第三分类器中，得到低分辨率标签；

投票预测单元，用于对所述高分辨率标签、中分辨率标签和低分辨率标签进行投票，并将投票结果作为个体情绪预测标签数据。

在一实施例中，所述基于脑电数据的多模态情绪数据预测装置600还包括：

第一函数构建单元，用于按照下式构建所述域自适应神经网络的域对抗训练目标函数E：

式中，

和

分别表示源域和目标域，x^l为带情绪标签的脑电数据，z^l为

中无标签的脑电数据，θ、σ和μ均为参数；

第二函数构建单元，用于按照下式构建所述判别器的二值化跨熵损失函数：

式中，r_θ和d_μ分别表示生成器和判别器；

第三函数构建单元，用于按照下式构建分类器的损失函数：

式中，

是源域的分类损失。

在一实施例中，如图8所示，所述特征提取单元603包括：

帧视觉提取单元801，用于对预设的视听内容提取所有帧视觉信息，将每一所述帧视觉信息输入至VGG16网络中；

特征图提取单元802，用于利用所述VGG16网络中的每一卷积层提取每一所述帧视觉信息的特征图，在每一卷积层的特征图下计算对应的平均特征图；

关键帧提取单元803，用于基于每一卷积层的平均特征图，利用自适应方法提取各个卷积层的关键帧特征；

第一拼接单元804，用于将最后两层卷积层对应的关键帧特征拼接为所述深度视觉特征；

第二拼接单元805，用于将预设的视听内容中的听觉信息无重叠分割为多个听觉片段，利用VGGish网络中的每一卷积层计算每一所述听觉片段对应的平均特征图，并将最后两层卷积层对应的平均特征图拼接为所述深度听觉特征；

特征融合单元806，用于将所述深度视觉特征深度听觉特征融合为所述深度视听融合特征。

在一实施例中，所述第二预测单元604包括：

超图构建单元，用于将所述深度视觉特征、深度听觉特征和深度视听融合特征对应的视听内容片段设置为超图的顶点，并按照下式计算任意两个顶点之间相似性，然后以此构建超图：

式中，

和

为任意两个顶点，N_M为特征维度；

聚类分割单元，用于通过谱超图分割方法将所述超图分割为若干个与情绪状态相对应的聚类；

最优分割单元，用于对所述聚类进行归一化处理，通过实值优化方法对归一化处理后的聚类进行最优分割，并将最优分割结果作为所述潜藏情绪预测标签数据。

在一实施例中，所述标签融合单元605包括：

权重赋予及融合单元，用于按照下式对所述个体情绪预测标签数据和潜藏情绪预测标签数据赋予权重并融合：

式中，

为个体情绪预测标签数据，

为最终的多模态融合的情绪预测结果。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于脑电数据的多模态情绪数据预测方法，其特征在于，包括：

2.根据权利要求1所述的基于脑电数据的多模态情绪数据预测方法，其特征在于，所述在不同分辨率下，对不同子频带提取用于训练的脑电数据的微分熵特征，并基于所述微分熵特征构建域自适应神经网络，包括：

获取训练集中带情绪标签的脑电数据，并设置为源域；以及获取测试集中无情绪标签的脑电数据，并设置为目标域；

分别获取所述源域和目标域的源域特征表征和目标域特征表征；

将所述源域特征表征和目标域特征表征输入至生成器中，依次通过生成器中的第一全连接层、第一ELU层、第二全连接层、第二ELU层、第三全连接层、第三ELU层后对应得到训练特征和测试特征；

将所述训练特征和对应的训练标签输入至分类器中，通过所述分类器中的第四全连接层进行分类预测；

将所述训练特征和测试特征输入至判别器中，依次通过所述判别器中的第五全连接层、RELU层和第六全连接层进行判别预测。

3.根据权利要求1所述的基于脑电数据的多模态情绪数据预测方法，其特征在于，所述基于所述域自适应神经网络对目标用户的脑电数据进行预测投票，得到个体情绪预测标签数据，包括：

4.根据权利要求2所述的基于脑电数据的多模态情绪数据预测方法，其特征在于，还包括：

式中，

和

分别表示源域和目标域，x^l为带情绪标签的脑电数据，z^l为

中无标签的脑电数据，θ、σ和μ均为参数；

按照下式构建所述判别器的二值化跨熵损失函数：

式中，r_θ和d_μ分别表示生成器和判别器；

按照下式构建分类器的损失函数：

式中，

是源域的分类损失。

5.根据权利要求1所述的基于脑电数据的多模态情绪数据预测方法，其特征在于，所述通过深度卷积网络模型对预设的视听内容提取深度视觉特征和深度听觉特征，并将所述深度视觉特征和深度听觉特征融合为深度视听融合特征，包括：

对预设的视听内容提取所有帧视觉信息，将每一所述帧视觉信息输入至VGG16网络中；

利用所述VGG16网络中的每一卷积层提取每一所述帧视觉信息的特征图，在每一卷积层的特征图下计算对应的平均特征图；

基于每一卷积层的平均特征图，利用自适应方法提取各个卷积层的关键帧特征；

将最后两层卷积层对应的关键帧特征拼接为所述深度视觉特征；

将预设的视听内容中的听觉信息无重叠分割为多个听觉片段，利用VGGish网络中的每一卷积层计算每一所述听觉片段对应的平均特征图，并将最后两层卷积层对应的平均特征图拼接为所述深度听觉特征；

将所述深度视觉特征深度听觉特征融合为所述深度视听融合特征。

6.根据权利要求1所述的基于脑电数据的多模态情绪数据预测方法，其特征在于，所述基于所述深度视觉特征、深度听觉特征和深度视听融合特征构建超图，并通过超图分割得到所述深度视觉特征、深度听觉特征和深度视听融合特征对应的潜藏情绪预测标签数据，包括：

式中，

和

为任意两个顶点，N_M为特征维度；

7.根据权利要求1所述的基于脑电数据的多模态情绪数据预测方法，其特征在于，所述对所述个体情绪预测标签数据和潜藏情绪预测标签数据赋予权重并融合，将融合后的结果作为情绪预测结果，包括：

式中，

为个体情绪预测标签数据，

为最终的多模态融合的情绪预测结果。

8.一种基于脑电数据的多模态情绪数据预测装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于脑电数据的多模态情绪数据预测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于脑电数据的多模态情绪数据预测方法。