CN117290730A

CN117290730A - 一种个体情绪识别模型的优化方法

Info

Publication number: CN117290730A
Application number: CN202311340539.7A
Authority: CN
Inventors: 柯善军; 何邦胜; 聂成洋; 王钰苗
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-12-26

Abstract

本发明提供一种个体情绪识别模型的优化方法，S1、通过分析公共情绪数据集数据与驾驶员个体无标签情绪数据之间的差异，建立面向驾驶员个体的跨域识别模型，并预测、标注驾驶员个体情绪数据的伪标签；S2、对采集到的驾驶员个体情绪数据进行基于信息熵的加权聚类，获取情绪数据的聚类标签，并与跨域识别模型标注的伪标签进行比对，提升伪标签的置信度；所述的伪标签认为是预测结果；S3、通过带伪标签的驾驶员个体情绪数据去训练面向驾驶员个体的多模态融合情绪识别通用模型，最终建立驾驶员个体跨域情绪识别模型。通过本发明提供的方法训练与提升通用情绪识别模型的情绪识别精度，同时降低驾驶员个体的数据采集与标注成本。

Description

一种个体情绪识别模型的优化方法

技术领域

本发明提供一种个体情绪识别模型的优化方法，属于情绪识别技术领域。

背景技术

现有的情绪识别模型采用大型数据集进行训练，但由于个体情绪表达差异大，通过大型数据集训练的模型泛化能力差，模型的跨域识别精度低；另一方面，针对个体的情绪识别，则存在因为个体数据标注成本高，而使得模型训练难度大的问题。此外，在复杂多变的驾驶环境条件下，容易出现驾驶员情绪模态数据丢失的现象，而现有的情绪识别模型基于实验环境条件采集的数据进行训练，很难适应驾驶环境的鲁棒性要求。

发明内容

针对上述技术问题，本发明提供一种个体情绪识别模型的优化方法，采集驾驶员个体无标签情绪数据，训练针对驾驶员个体的情绪识别模型，解决驾驶员个体情绪数据标准成本高、情绪识别精度低的问题。持续采集驾驶员驾驶环境下的无标签情绪数据，持续优化模型针对各种情绪数据模态丢失情况下的识别能力，提升模型在复杂多变驾驶环境中的情绪识别精度。

具体技术方案为：

一种个体情绪识别模型的优化方法，包括以下步骤：

S1、通过分析公共情绪数据集数据与驾驶员个体无标签情绪数据之间的差异，建立面向驾驶员个体跨域识别模型，并预测、标注驾驶员个体情绪数据的伪标签；所述的跨域是指识别公共数据集外的驾驶员的情绪状态；

S2、对采集到的驾驶员个体情绪数据进行基于信息熵的加权聚类，获取情绪数据的聚类标签，并与跨域识别模型标注的伪标签进行比对，提升伪标签的置信度；所述的伪标签认为是预测结果；

S3、通过带伪标签的驾驶员个体情绪数据去训练面向驾驶员个体的多模态融合情绪识别通用模型，最终建立驾驶员个体跨域情绪识别模型。

其中，驾驶员个体跨域情绪识别模型的构建具体步骤如下：

第一步：采集驾驶员的无标签数据

采集驾驶员个体的脑电信号、心电信号以及面部表情，把这些采集的驾驶员无标签数据以此作为目标域，同时把公共数据集数据和之前采集并已经用于训练个性化识别模型的数据作为源域。

脑电与心电数据的采集设备使用Openbci设备，在数据采集方面Openbci设备拥有16个数据采集通道，可同时采集脑电数据、心电数据。

在脑电信号的采集时使用脑电湿电极去接触脑部对应的位置区域去获取电信号，在确定头部电极位置时将脑电帽佩戴上，根据国际标准的64通道脑电点位图将其中八个通道的脑电电极位置固定在脑电帽上以保证脑电位置采集的准确。

采集心电信号时使用心电贴片进行数据采集，将其贴于特定胸口位置处，并将采集到的信号通过串口通讯的方式输出到电脑中保存。

采集面部表情时，设备采用最高支持1080P、60帧的高清摄像头，将摄像头放置于驾驶员的前上方，在不影响驾驶员视角以及驾驶的情况下正对着驾驶员。

第二步：领域自适应方法的建立

在此处的跨域是指不同数据集的数据分布不一致(不同数据集是指公共的情绪数据集例如MAHNOB-HCI数据集，与其他数据集)，不能直接通过不同数据集中的数据对驾驶员个体的情绪直接进行预测，所以用自动编码机提取两者之间公共特征即在高维特征上将数据进行对齐，然后通过带公共特征的有标签数据训练分类器，再通过二者的公共特征预测无标签数据的标签，最终给无标签数据打上伪标签；

当训练出基于公共数据集的情绪识别模型后，使用领域自适应方法，通过对源域和目标域数据的特征进行调整或变换，将二者映射到能够降低它们之间分布差异的更高层特征空间，使得它们在特征空间中更加接近或对齐，以便模型能够更好地泛化到目标域，其中的源域数据采用的是MAHNOB-HCI数据集中脑电和心电数据，以及后续以训练的伪标签数据，目标域的数据则是采集到的驾驶员个体无标签的数据；

使用深度神经网络学习源域与目标域特征之间分布不变的特征来减小两者数据集之间的分布差异；通过训练源域和目标域之间其分布差异不变的深度特征来实现领域自适应，其中深度神经网络学习通过使用堆栈式自动编码机SAE进行学习，其中堆栈式自动编码机的作用是：通过增加网络层的深度来提高非线性变换，目的是抽取更高层的深度特征，使用多层结构对数据特征进行分组来提高不变特征的权重，经使用堆栈式自动编码机SAE训练后提取出源域更高层的不变特征来训练分类器直接用于预测目标域提取出的高层不变特征；与此同时，为了限制抽取后特征之间的分布差异，在堆栈式自动编码及中加入最大均值差异MMD来限制源域与目标域样本抽取出来的特征差异；

通过核函数将不同概率分布的样本特征映射到RKHS空间，用MMD来度量两种样本域之间的距离：

其中Zsi表示ns个源域样本中第i个样本在堆栈式自动编码机最后一层编码层的输出结果，Zti表示nt个目标域样本中第i个样本在堆栈式自动编码机最后一层编码层的输出结果。

第三步：跨域集成学习方法的建立

在跨领域的基础上通过基于Bagging集成学习方法来提高预测标签的置信度。

在使用集成学习方法是从特征提取的阶段着手，将源域与目标域数据同时输入三组堆栈式自动编码机中，编码机在学习两组数据后输出使得源域与目标域样本数据分布更为相近的希尔伯特空间特征，对目标域数据进行加权聚类，三组编码器分别输入源域与聚类标签数据后进行训练并使用支持向量机分类器训练源域经过编码机编码层输出的特征，训练后的分类器用于预测目标域经过编码机编码层输出的特征。最终三组分类器通过投票选举法决策出最终的标签。最终对采集到的驾驶员个体情绪数据进行伪标签标注即预测；

第四步：构建跨域集成学习与个体数据加权聚类联合标注的半监督学习方法

对采集到的驾驶员情绪数据进行加权聚类分析后的数据分布差异提出了跨域集成学习与个体数据加权聚类联合标注的半监督学习方法。

先通过对无标签数据即目标域数据进行加权聚类，对聚类后输出的数据组结合跨域集成学习进行伪标签标注。加权聚类数据的聚类标签与标注的伪标签形成混淆矩阵。最终的数据以聚类标签为主，筛选出该聚类标签数据组中伪标签情绪占比最大的数据样本，将每个簇中占比低的其他两种数据样本全部舍去，筛选出该聚类标签数据组中伪标签情绪占比最大的样本作为高置信度样本数据。

跨域集成学习与加权聚类的联合标注具体步骤如下：

步骤一：对无标签数据进行加权聚类，输出聚类标签数据组。

步骤二：将聚类标签数据组通过跨域集成学习进行伪标签标注。

步骤三：筛选聚类标签数据组中伪标签情绪数据占比最大的样本。

其中的加权聚类是基于信息熵进行加权聚类，具体情况是：1、在表达情绪的数据特征中，通过信息熵来衡量对于当前驾驶员不同特征在情绪表达的差异，并利用特征的差异构建权重矩阵，数据在进行聚类之前先通过权重矩阵进行加权。利用信息熵进行加权聚类的流程是：输入：数据集X，聚类数目K1、对数据集X，计算每个特征的信息熵；2、根据不同特征的信息熵计算权重并构建权重矩阵；3、将数据集与权重矩阵进行加权后归一化；4、将归一化后的数据进行聚类；输出：最终的结果Cluster。

其中的源域数据采用的是MAHNOB-HCI数据集中脑电和心电数据，目标域的数据则是采集到的驾驶员个体无标签的数据。模型的构建使用Python语言，其中机器学习分类器以及聚类算法使用Sklearn库，数据的输入和处理使用pandas及numpy库来编写相应的函数。自动编码机的构建使用Pytorch库，Pytorch库是和Tensorflow库一样用于深度学习的库。第五步：构建驾驶员半监督学习情绪识别框架

通过以上四步构建针对驾驶员个体情绪识别模型的半监督学习框架，从而建立其驾驶员个体的情绪识别模型。

其中，多模态融合情绪识别通用模型，建立具体步骤如下：

第一步：构建基于支持向量机的手工特征基分类器

首先对MAHNOB-HCI情绪公共数据集的脑电与心电模态数据进行特征提取，接着进行特征融合，特征融合是先将各模态的特征提取出来，并通过一定的规则将这些特征进行融合。最后运用支持向量机算法对融合后的特征进行情绪分类训练，建立基于多模态生理数据手工特征融合的基分类器。其中，脑电生理数据的特征向量如下：

心电生理数据的线性特征向量如下：

将上述三种模态线性特征向量进行线性融合后的线性特征向量如下：

通过筛选融合后的特征，来达到以下目的：降低特征维度，解决可能的维度灾难问题；去除和任务不相关的特征，降低模型训练难度，提升模型训练效率。使用的特征选择方法是SVM-RFE算法，通过SVM模型训练数据并对数据中的每一个特征进行评分排序，去除评分较低的特征。重复上述最后根据标准筛选出特征。最终通过以上流程建立基于支持向量机的手工特征基分类器。

第二步：脑电与心电信号深度神经网络构建

采集的脑电信号数据为八通道的数据，使用EEGNET卷积神经网络来对脑电信号进行情绪识别；

第三步：面部表情深度学习神经网络构建

采用数据集是fer2013数据集。再使用迁移学习方法，通过冻结卷积层来保证模型提取深度特征的性能；最后修改全连接层，在MAHNOB-HCI数据集进行面部表情情绪识别模型的训练。对于使用fer2013数据集进行表情识别的深度学习模型中，使用VGG16模型进行迁移学习，将全连接层中神经单元个数由4096个降低为1024个，并在每层全连接层后面添加Dropout层；

第四步：构建基于公共情感数据集的多模态融合情绪识别通用模型

在决策层以加权方式，对支持向量机的手工特征分类器，脑电与心电深度学习神经网络，以及面部表情深度学习神经网络这四个分类模型进行融合，具体步骤如下：决策级融合属于最高层次的融合，通过并行联合多个弱分类器对同一个任务的预测，对结果进行预测，采用加权融合的方式对4个弱分类器进行并行联合，当中权重的大小根据其弱分类器在任务中相应的准确率进行权重分配，四组弱分类器在该任务上的准确率分别为p₁到p₄，分别计算p₁到p₄在这四种准确率的上重要程度占比为w₁到w₄后构建如下的权重矩阵：

构建权重矩阵W如下:

最终根据构建的权重矩阵，对每个分类器的输出结果进行加权，输出加权后预测概率最大值对应的情绪类别，从而对情绪进行识别。

通过本发明提供的方法训练与提升通用情绪识别模型的情绪识别精度，同时降低驾驶员个体的数据采集与标注成本，并且为一些借助大型情绪数据集的情绪识别模型提供一种情绪识别跨数据集的识别迁移方法，即提高依靠大型数据集训练的情绪识别模型的泛化能力的一种有益方法。

附图说明

图1是本发明的EEGNET网络结构；

图2是本发明的ECGNET网络结构图；

图3是本发明的VGG16模型修改；

图4是本发明的决策级加权融合结构图；

图5是本发明的驾驶员个体跨域情绪识别模型结构；

图6是本发明的SAE领域自适应流程框架；

图7是本发明的结合MMD的SAE；

图8是本发明的跨域集成方法结构；

图9是本发明的联合标注形成的混淆矩阵；

图10是本发明的驾驶员个体跨域情绪识别模型结构。

具体实施方式

结合附图说明本发明的具体技术方案。

本实施例所运用的驾驶员个体情绪识别模型的优化方法存在两个前置条件，一是MAHNOB-HCI公共情绪数据集，二是根据脑电、心电以及面部表情特征构建的多模态情绪识别通用模型，下面先详细介绍这两个前置条件。

前置条件一：

MAHNOB-HCI情绪数据集是日内瓦大学采集的用于进行与情绪相关研究的数据集，与其他情绪数据集不同点在于该数据集采集了包括脑电、心电、皮电以及呼吸等多种和情绪相关的生理信号数据和面部表情数据。实验过程中共有六个摄像机记录实验人员的面部表情。

整个数据集共征集了30名不同文化和教育背景的年轻健康成人志愿者，包括17名女性和13名男性，年龄从19岁到40岁不等。教育背景从本科生到博士不等。在数据采集方面除去面部表情数据以外，生理信号数据包括了32个通道的脑电信号、心电信号、呼吸幅度以及皮肤温度等。全部的数据均使用BDF格式进行保存，整个BDF文件共计47个频道数据。

其中前32个通道为脑电信号通道，33到47通道包含其他心电信号、皮电信号以及呼吸幅度等信号数据。实验过程中实验人员通过观看视频进行情绪的引导，通过实验人员主动进行按键来评估自身的情绪状态，包括感受到的情感、对于该情感的唤醒度，并将该数据保存在session.xml文件中。

通过向该数据集机构申请并签署EULA协议后得到进入数据库的资格后下载相关的数据集，并对该数据集进行以下的处理：

1)筛选数据：每组bdf文件中包含了47个通道的数据，需要从中筛选出Fp1,Fp2,Fc5,AF4,T7,F8,T8,01这八个通道的脑电数据以及一个通道的心电数据。根据相关文件确定好的这些数据保存在BDF文件对应的通道位置后使用Python进行数据的提取，并将提取出的数据分别按照脑电信号与心电信号以CSV格式进行保存。

2)数据处理：对筛选后的数据分别进行数据的裁剪、重采样、去噪后总共获得7236组样本。其中消极情绪样本数量为2559组，中性情绪样本量为2665组，积极情绪样本量为2012组。

3)手工特征提取：对每组样本中的脑电信号和心电信号分别提取相关的手工特征，其中八个脑电信号通道每个通道提取十个特征，共计八十个特征，心电信号提取十个特征，每组样本脑电和心电数据总计手工特征数量为九十。

前置条件二：

首先将提取的公共数据集中的脑电和心电模态数据的手工特征进行特征融合，构建基于支持向量机的手工特征基分类器。进一步根据各种类型深度神经网络的特点，分别构建基于公共数据集的脑电、心电和面部表情三个模态的情绪识别深度学习模型。最后在决策层以加权方式，对以上四个分类模型进行融合，构建基于公共情感数据集的多模态融合情绪识别通用模型。具体步骤如下：

第一步：构建基于支持向量机的手工特征基分类器

首先需要对MAHNOB-HCI情绪公共数据集的脑电与心电模态数据进行特征提取，接着进行特征融合，特征融合是先将各模态的特征提取出来，并通过一定的规则将这些特征进行融合。最后运用支持向量机算法对融合后的特征进行情绪分类训练，建立基于多模态生理数据手工特征融合的基分类器。其中，脑电生理数据的特征向量如下：

心电生理数据的线性特征向量如下：

考虑到多个模态生理数据的特征融合可能存在特征冗余的情况，通过筛选融合后的特征，来达到以下目的：降低特征维度，解决可能的维度灾难问题；去除和任务不相关的特征，降低模型训练难度，提升模型训练效率。特征筛选要保证包含主要信息的特征不被剔除以避免模型因缺失重要特征而性能下降，还需要必要的特征冗余以帮助模型训练。所以本次使用的特征选择方法是SVM-RFE算法，其优点在于针对特征数目较多的数据样本能够有效的降低过拟合风险。通过SVM模型训练数据并对数据中的每一个特征进行评分排序，去除评分较低的特征。重复上述最后根据标准筛选出特征。最终通过以上流程建立基于支持向量机的手工特征基分类器。

第二步：脑电与心电信号深度神经网络构建

本方法采集的脑电信号数据为八通道的数据，因此使用EEGNET卷积神经网络来对脑电信号进行情绪识别，EEGNET是专为一般的脑电识别任务而设计的一种通用且紧凑的卷积神经网络。该网络能够处理多种与脑电信号有关的任务，并在P300、ERN和MRCP等数据集上有不错的性能表现。EEGNET网络采用普通2D卷积、深度卷积、深度可分离卷积神经网络组合的方式提取脑电的深度特征，最后通过softmax分类器来实现对脑电情绪的分类。EEGNET结构图如图1所示。

本方法采集的心电信号为单通道信号，其中每个样本时间长度为5秒钟，数据段为640个采样点的一维数据，目前关于心电图相关的分类任务主要方法在于将原始心电图作为输入，并使用1DCNN对心电数据进行分类。原因在于心电信号数据虽然是一维数据，但其中的特征满足局部连接和权值共享的条件，所以本文采用一维卷积神经网络来提取其深度特征，构建ECGNET卷积神经网络来对其进行模型训练。在该卷积神经网络上，使用四层卷积以及两层全连接层，分类器同样为softmax分类器。神经网络结构如图2所示。

第三步：面部表情深度学习神经网络构建

目前对于面部表情识别数据量较大的数据集是fer2013数据集。fer2013人脸表情数据集由35866张人脸表情图片组成，数据量可以保证深度学习模型能在该数据集上训练获得较好的性能；再使用迁移学习方法，通过冻结卷积层来保证模型提取深度特征的性能；最后修改全连接层，在MAHNOB-HCI数据集进行面部表情情绪识别模型的训练。对于使用fer2013数据集进行表情识别的深度学习模型中，使用VGG16模型进行迁移学习。进一步考虑MAHNOB-HCI数据集数据量少，存在过拟合风险，在VGG16模型基础上，本方法将全连接层中神经单元个数由4096个降低为1024个，并在每层全连接层后面添加Dropout层，降低过拟合风险的同时也降低了模型的复杂度，提升了模型训练的效率。最终的模型网络结构如图3所示。

在决策层以加权方式，对支持向量机的手工特征分类器，脑电与心电深度学习神经网络，以及面部表情深度学习神经网络这四个分类模型进行融合，具体步骤如下：决策级融合属于最高层次的融合，它通过并行联合多个弱分类器对同一个任务的预测，对结果进行预测，但是不同分类器在相同的任务上也存在性能上的差距，如果仅采用投票表决的方式，可能无法体现各个弱分类器的性能特色，从而导致最终分类型模型的性能下降，基于此，本方法采用加权融合的方式对4个弱分类器进行并行联合，当中权重的大小根据其弱分类器在任务中相应的准确率进行权重分配，如四组弱分类器在该任务上的准确率分别为p₁到p₄，分别计算p₁到p₄在这四种准确率的上重要程度占比为w₁到w₄后构建如下的权重矩阵：

构建权重矩阵W如下:

最后本方法构建基于公共情感数据集的多模态融合情绪识别通用模型如图4。

在完成以上两个前置条件的准备后，开始建立驾驶员个体情绪识别模型的优化方法，具体如下：

在情绪识别方面，由于情绪表达的个体差异性，使得通用识别模型对数据集外的个体的识别精度较低，并且在数据采集方面，由于驾驶安全方面的需求，对驾驶员采集带情绪标签的数据是困难的，基于以上的出发点，提出一种基于驾驶员无标签数据的情绪识别模型训练与优化方法，也是基于半监督学习的驾驶员个体跨域情绪识别。

其流程如下：

①通过分析公共情绪数据集数据与驾驶员个体无标签情绪数据之间的差异，建立面向驾驶员个体的跨域识别模型，并预测、标注驾驶员个体情绪数据的伪标签；(此处的跨域是指识别公共数据集外的驾驶员的情绪状态，下同)

②对采集到的驾驶员个体情绪数据进行基于信息熵的加权聚类，获取情绪数据的聚类标签，并与跨域识别模型标注的伪标签进行比对，提升伪标签的置信度；(此处的伪标签可以认为是预测结果，下同)

③通过带伪标签的驾驶员个体情绪数据去训练面向驾驶员个体的多模态融合情绪识别通用模型(这里的通用模型就是前置条件2)，最终建立驾驶员个体跨域情绪识别模型；

具体结构如图5所示。

驾驶员个体跨域情绪识别模型构的建具体步骤如下：

第一步：采集驾驶员的无标签数据

主要是采集驾驶员个体的脑电信号、心电信号以及面部表情，把这些采集的驾驶员无标签数据以此作为目标域，同时把公共数据集数据和之前采集并已经用于训练个性化识别模型的数据作为源域。

具体操作是：脑电与心电数据的采集设备使用Openbci设备，在数据采集方面Openbci设备拥有16个数据采集通道，可同时采集脑电数据、心电数据等。

在脑电信号的采集时需要使用脑电湿电极去接触脑部对应的位置区域去获取电信号，在确定头部电极位置时将脑电帽佩戴上，根据国际标准的64通道脑电点位图将其中八个通道的脑电电极位置固定在脑电帽上以保证脑电位置采集的准确。

采集心电信号时需要使用心电贴片进行数据采集，将其贴于特定胸口位置处，并将采集到的信号通过串口通讯的方式输出到电脑中保存。

采集面部表情时，设备采用最高支持1080P、60帧的高清摄像头，将摄像头放置于驾驶员的前上方，在不影响驾驶员视角以及驾驶的情况下尽可能正对着驾驶员。

第二步：领域自适应方法的建立

跨域是指不同数据集的数据分布不一致(不同数据集是指公共的情绪数据集例如MAHNOB-HCI数据集，与其他数据集)，不能对驾驶员情绪进行直接预测了，所以需要用自动编码机提取两者之间公共特征(在高维特征上将数据进行对齐)，然后通过带公共特征的有标签数据训练分类器，再通过二者的公共特征预测无标签数据的标签，最终给无标签数据打上伪标签。(伪标签可以理解为情绪的预测结果)

当训练出基于公共数据集的情绪识别模型后，若将其直接应用到不同于数据集的个体情绪识别，由于源域和目标域特征分布的不同可能导致模型性能下降。为了解决这个问题，使得模型在目标域上的性能提升到与源域相当或接近的水平，而避免在目标领域进行大量标注，需要使用领域自适应方法。其中特征自适应是领域自适应中最常见的方法之一，通过对源域和目标域数据的特征进行调整或变换，将二者映射到能够降低它们之间分布差异的更高层特征空间，使得它们在特征空间中更加接近或对齐，以便模型能够更好地泛化到目标域。

由于脑电和心电信号特征融合后其特征维度相对较大，其中特征的非线性关系更为复杂。同时随着深度神经网络技术的应用广泛，对于非线性特征具有更加有效的拟合。所以使用深度神经网络学习源域与目标域特征之间分布不变的特征来减小两者数据集之间的分布差异更加合适。深度神经网络在该方面主要是通过训练源域和目标域之间其分布差异不变的深度特征来实现领域自适应，其中深度神经网络学习就是通过使用堆栈式自动编码机(SAE)进行学习，具体结构如图6所示；其中堆栈式自动编码机的作用是：通过增加网络层的深度来提高非线性变换，目的是抽取更高层的深度特征，使用多层结构对数据特征进行分组来提高不变特征的权重，经使用堆栈式自动编码机(SAE)训练后提取出源域更高层的不变特征来训练分类器可以直接用于预测目标域提取出的高层不变特征；与此同时，为了限制抽取后特征之间的分布差异，需要在堆栈式自动编码及中加入最大均值差异(MMD)来限制源域与目标域样本抽取出来的特征差异，得它们的特征表示更加相似具体结构如图7所示。

以上是结合了MMD算法的SAE的领域自适应方法的建立。

第三步：跨域集成学习方法的建立

在领域自适应方法的基础上，通过堆栈式自动编码机将源域和目标域样本数据映射到更高层的希尔伯特空间下的特征后能在一定程度的将两者之间的分布关系拉近，但是由于自动编码机在训练时参数初始化的问题并不能保证每次在训练的过程中都能够学习到足够好的特征。所以提出了在跨领域的基础上通过基于Bagging集成学习方法来提高预测标签的置信度。(在传统集成学习中，Bagging方法通过对原始数据集进行有放回抽样，产生多个不同的子数据集。然后，针对每个子数据集训练一个弱分类器，再将所有的弱分类器进行决策层融合，形成一个强分类器，以提高整体预测性能。)

具体操作是：在使用集成学习方法是从特征提取的阶段着手，将源域与目标域数据同时输入三组堆栈式自动编码机中，编码机在学习两组数据后输出使得源域与目标域样本数据分布更为相近的希尔伯特空间特征，对目标域数据进行加权聚类，三组编码器分别输入源域与聚类标签数据后进行训练并使用支持向量机分类器训练源域经过编码机编码层输出的特征，训练后的分类器用于预测目标域经过编码机编码层输出的特征。最终三组分类器通过投票选举法决策出最终的标签。最终对采集到的驾驶员个体情绪数据进行伪标签标注(预测)。具体结构如图8所示。(图8的三个分类器是通过对目标域和源域抽取公共特征后，训练出三个支持向量机分类器并进行集成学习来构建的跨域情绪识别模型对其进行预测的。)

半监督学习算法是通过学习有标签数据，然后对无标签数据进行标注。再利用标注后的数据进行模型的训练来提高模型的性能。但对无标签数据进行标注后的数据是否能够有助于模型性能的提高依赖于该数据标注的置信程度。为了进一步对跨域集成学习对无标签数据进行伪标签标注后的数据进行筛选以降低训练集中错误标签数据的误差率，并且以此提高数据标注的置信程度，本方法是对采集到的驾驶员情绪数据进行加权聚类分析后的数据分布差异提出了跨域集成学习与个体数据加权聚类联合标注的半监督学习方法。

具体操作是：先通过对无标签数据(目标域数据)进行加权聚类，对聚类后输出的数据组结合跨域集成学习进行伪标签标注。加权聚类数据的聚类标签与标注的伪标签形成混淆矩阵。最终的数据以聚类标签为主，筛选出该聚类标签数据组中伪标签情绪占比最大的数据样本，将每个簇中占比低的其他两种数据样本全部舍去，筛选出该聚类标签数据组中伪标签情绪占比最大的样本作为高置信度样本数据。具体结构如图9所示。

跨域集成学习与加权聚类的联合标注具体步骤如下：

其中的加权聚类是基于信息熵进行加权聚类，具体情况是：在表达情绪的数据特征中，通过信息熵来衡量对于当前驾驶员不同特征在情绪表达的差异，并利用特征的差异构建权重矩阵，数据在进行聚类之前先通过权重矩阵进行加权。利用信息熵进行加权聚类的流程是：输入：数据集X，聚类数目K1、对数据集X，计算每个特征的信息熵；2、根据不同特征的信息熵计算权重并构建权重矩阵；3、将数据集与权重矩阵进行加权后归一化；4、将归一化后的数据进行聚类；输出：最终的结果Cluster。

其中的源域数据采用的是MAHNOB-HCI数据集中脑电和心电数据，目标域的数据则是采集到的驾驶员个体无标签的数据。模型的构建使用Python语言，其中机器学习分类器以及聚类算法使用Sklearn库，数据的输入和处理使用pandas及numpy库来编写相应的函数。自动编码机的构建使用Pytorch库，Pytorch库是和Tensorflow库一样用于深度学习的库。

第五步：构建驾驶员半监督学习情绪识别框架

通过以上四步构建针对驾驶员个体情绪识别模型的半监督学习框架，从而建立其驾驶员个体的情绪识别模型，除对公共数据集内的驾驶员个体可以进行情绪识别，也可以以较高的精度对公共数据集外的驾驶员个体进行情绪识别。具体框架如图10所示。

Claims

1.一种个体情绪识别模型的优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种个体情绪识别模型的优化方法，其特征在于，所述的驾驶员个体跨域情绪识别模型的构建具体步骤如下：

第一步：采集驾驶员的无标签数据

采集驾驶员个体的脑电信号、心电信号以及面部表情，把这些采集的驾驶员无标签数据以此作为目标域，同时把公共数据集数据和之前采集并已经用于训练个性化识别模型的数据作为源域；

脑电与心电数据的采集设备使用Openbci设备，在数据采集方面Openbci设备拥有16个数据采集通道，可同时采集脑电数据、心电数据；

在脑电信号的采集时使用脑电湿电极去接触脑部对应的位置区域去获取电信号，在确定头部电极位置时将脑电帽佩戴上，根据国际标准的64通道脑电点位图将其中八个通道的脑电电极位置固定在脑电帽上以保证脑电位置采集的准确；

采集心电信号时使用心电贴片进行数据采集，将其贴于特定胸口位置处，并将采集到的信号通过串口通讯的方式输出到电脑中保存；

采集面部表情时，设备采用最高支持1080P、60帧的高清摄像头，将摄像头放置于驾驶员的前上方，在不影响驾驶员视角以及驾驶的情况下正对着驾驶员；

第二步：领域自适应方法的建立

其中Zsi表示ns个源域样本中第i个样本在堆栈式自动编码机最后一层编码层的输出结果，Zti表示nt个目标域样本中第i个样本在堆栈式自动编码机最后一层编码层的输出结果；

第三步：跨域集成学习方法的建立

在跨领域的基础上通过基于Bagging集成学习方法来提高预测标签的置信度；

在使用集成学习方法是从特征提取的阶段着手，将源域与目标域数据同时输入三组堆栈式自动编码机中，编码机在学习两组数据后输出使得源域与目标域样本数据分布更为相近的希尔伯特空间特征，对目标域数据进行加权聚类，三组编码器分别输入源域与聚类标签数据后进行训练并使用支持向量机分类器训练源域经过编码机编码层输出的特征，训练后的分类器用于预测目标域经过编码机编码层输出的特征；最终三组分类器通过投票选举法决策出最终的标签；最终对采集到的驾驶员个体情绪数据进行伪标签标注即预测；

对采集到的驾驶员情绪数据进行加权聚类分析后的数据分布差异提出了跨域集成学习与个体数据加权聚类联合标注的半监督学习方法；

先通过对无标签数据即目标域数据进行加权聚类，对聚类后输出的数据组结合跨域集成学习进行伪标签标注；加权聚类数据的聚类标签与标注的伪标签形成混淆矩阵；最终的数据以聚类标签为主，筛选出该聚类标签数据组中伪标签情绪占比最大的数据样本，将每个簇中占比低的其他两种数据样本全部舍去，筛选出该聚类标签数据组中伪标签情绪占比最大的样本作为高置信度样本数据；

第五步：构建驾驶员半监督学习情绪识别框架

3.根据权利要求2所述的一种个体情绪识别模型的优化方法，其特征在于，所述的第四步中，跨域集成学习与加权聚类的联合标注具体步骤如下：

步骤一：对无标签数据进行加权聚类，输出聚类标签数据组；

步骤二：将聚类标签数据组通过跨域集成学习进行伪标签标注；

步骤三：筛选聚类标签数据组中伪标签情绪数据占比最大的样本；

其中的加权聚类是基于信息熵进行加权聚类，具体情况是：1、在表达情绪的数据特征中，通过信息熵来衡量对于当前驾驶员不同特征在情绪表达的差异，并利用特征的差异构建权重矩阵，数据在进行聚类之前先通过权重矩阵进行加权；利用信息熵进行加权聚类的流程是：输入：数据集X，聚类数目K1、对数据集X，计算每个特征的信息熵；2、根据不同特征的信息熵计算权重并构建权重矩阵；3、将数据集与权重矩阵进行加权后归一化；4、将归一化后的数据进行聚类；输出：最终的结果Cluster；

其中的源域数据采用的是MAHNOB-HCI数据集中脑电和心电数据，目标域的数据则是采集到的驾驶员个体无标签的数据；模型的构建使用Python语言，其中机器学习分类器以及聚类算法使用Sklearn库，数据的输入和处理使用pandas及numpy库来编写相应的函数；自动编码机的构建使用Pytorch库，Pytorch库是和Tensorflow库一样用于深度学习的库。

4.根据权利要求1所述的一种个体情绪识别模型的优化方法，其特征在于，S3中多模态融合情绪识别通用模型，建立具体步骤如下：

第一步：构建基于支持向量机的手工特征基分类器

首先对MAHNOB-HCI情绪公共数据集的脑电与心电模态数据进行特征提取，接着进行特征融合，特征融合是先将各模态的特征提取出来，并通过一定的规则将这些特征进行融合；最后运用支持向量机算法对融合后的特征进行情绪分类训练，建立基于多模态生理数据手工特征融合的基分类器；其中，脑电生理数据的特征向量如下：

心电生理数据的线性特征向量如下：

通过筛选融合后的特征，来达到以下目的：降低特征维度，解决可能的维度灾难问题；去除和任务不相关的特征，降低模型训练难度，提升模型训练效率；使用的特征选择方法是SVM-RFE算法，通过SVM模型训练数据并对数据中的每一个特征进行评分排序，去除评分较低的特征；重复上述最后根据标准筛选出特征；最终通过以上流程建立基于支持向量机的手工特征基分类器；

第二步：脑电与心电信号深度神经网络构建

第三步：面部表情深度学习神经网络构建

采用数据集是fer2013数据集；再使用迁移学习方法，通过冻结卷积层来保证模型提取深度特征的性能；最后修改全连接层，在MAHNOB-HCI数据集进行面部表情情绪识别模型的训练；对于使用fer2013数据集进行表情识别的深度学习模型中，使用VGG16模型进行迁移学习，将全连接层中神经单元个数由4096个降低为1024个，并在每层全连接层后面添加Dropout层；

构建权重矩阵W如下: