CN115205930A

CN115205930A - 一种基于决策融合的多模态情感分类方法

Info

Publication number: CN115205930A
Application number: CN202210724880.1A
Authority: CN
Inventors: 刘博�; 季新婵; 王慧娜; 李金梦; 朱念
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-10-18

Abstract

一种基于决策融合的多模态情感分类方法属于情感分类技术领域。本发明通过对不同模态数据的特征提取和基于统计分析的特征筛选方式来建立单模态数据的特征集，然后将其输入分类模型并获得最优子分类器，然后在决策级别进行多个子分类器的融合。本发明综合考虑了所有子分类器，并根据各个分类器的性能来进行权重更新，在权重更新方式上，本发明通过计算各个分类器的累计损失来考量子分类器性能，对性能优越的分类器给予奖励，并对错分的分类器给予惩罚，实现一种综合子分类器的历史表现和当前迭代的表现来进行权重更新的方式，对各个分类器的权重赋值更加科学合理。本发明实现了更准确的多模态分类方法，综合多模态数据使模型更具解释性。

Description

一种基于决策融合的多模态情感分类方法

技术领域：

本发明属于情感分类技术领域，尤其涉及一种基于获取有效的多模态数据特征和在决策级别进行权重自学习融合的情感分类方法。

背景技术：

情感分类是智能理解的重要问题之一，在多媒体、社交平台以及医疗领域都要重要的应用价值。现有情感分类方法多数集中于使用单模态特征进行分类，例如文本、语音等，纳入的特征过于单一，难以获得全面的视图。但随着互联网的发展，大量多源、异构数据使情感分类问题有了更丰富的信息来源，使用多模态特征进行分类成为新的方向。但目前基于多模态数据的分类方法大多直接进行特征级别的融合，由于多模态特征的差异性，融合过程不可避免地会产生信息的损失。以上问题最终都会导致情感分类的准确性较差，难以进行有价值的应用。

特征融合领域包括早期融合和后期融合，其中后期融合也叫决策融合，决策融合不是在特征融合后训练单个模型，而是对各类特征分别训练得到后的子分类器结果进行融合。本发明将决策融合应用到多模态数据，每个子分类器只用单模态特征进行模型训练，这一定程度上保留了完整的单模态信息，单个模型更具解释性；之后再进行决策层面的融合，综合多模态信息的分类结果得到最终模型，获得更高精准度。进行决策融合时，综合多个子分类器结果的传统方式包括均值法、最大值法和多数投票法等。这些方法或者不能全面考虑所有子分类器，丧失融合的意义；或者在融合时不能考虑到各个子分类器的性能来决定最终结果，分类性能有待提高。

发明内容

本发明要解决的技术问题是，提供一种基于决策融合的多模态情感分类方法。该方法的核心技术包括从多模态数据中获取有意义的重要特征并分别训练子分类器，然后在所有样本中进行迭代，基于一种对每个子分类器的性能度量来训练每一个子分类器的权重。

一种基于决策融合的多模态情感分类方法包括以下步骤：

步骤1、获取数据集。获取一组多模态数据和对应标签数据，多模态数据可包括音频、图像以及文本类型，且各模态数据之间互相对应。

步骤2、多模态数据特征提取。对原始各模态数据，根据数据类型选择不同的方式进行特征提取。

步骤3、构建多模态数据特征集。提取到多模态特征后，采用基于统计学的方法对其从单变量分析与多变量分析两个方面进行特征筛选，从而获取各个单模态数据中有意义的特征。

步骤4、将步骤3得到的各单模态特征集与标签输入支持向量机SVM、决策树、随机森林、逻辑回归模型进行训练，得到分类准确率最高的子分类器并保存。

步骤5、对获取的各子分类器进行决策级别的融合，将各子分类器的当前准确率与历史累计损失均纳入考虑，来综合比较各个子分类器的性能与稳定性，采用一种权重自学习的方式训练各个子分类器的权重。

作为优选，步骤2具体包含以下步骤：

步骤2.1、对于获取的原始音频数据，对其进行特征提取。使用协同语音分析库COVAREP，从音频中提取梅尔倒谱系数MFCCs、音高跟踪和浊音/清音分割特征、声门源参数、峰值斜率参数和最大色散商特征。

步骤2.2、对于获取的原始图像数据，对其进行特征提取。使用面部动作编码系统FACS来进行面部表情的特征提取，包括面部标记、面部动作单元、头部姿势和视线轨迹。

步骤2.3、对于获取的原始文本数据，对其使用基于Transformer的双向编码器表征BERT来进行特征提取。

作为备选，模态数据中若包含视频数据，也可对其从音频、图像、文本三个方面按以上步骤2.1-2.3来进行特征提取。

作为优选，步骤3具体包含以下步骤：

步骤3.1、对于特征值均为数值的模态数据，对其进行标准化处理，将其中的每一个特征结合患者类别信息，使用一种基于信噪比的指标来对每一个特征进行度量，认为信噪比值越大，则该特征越重要。信噪比计算公式为：

式中

代表第n个特征的信噪比值，m表示类别数，μ_i(f_n)和μ_j(f_n)表示特征f_n在第i类和第j类的平均值，δ_i(f_n)和δ_i(f_n)分别表示特征f_n在第i类和第j类的标准差，式

代表比较总次数。

根据得到的每个特征的SNR，选SNR>0.6的特征进行特征间的相关性分析。对于相关性高于0.6的两个特征，选择其中方差更小的一个删除。

步骤3.2、对于特征值为等级或类别等非数值类型的特征，对其实行基于分类类别的卡方分析和费希尔fisher检验，选择在两种统计分析结果中在不同类别均有显著性差异、p值均小于0.05的特征作为最终特征。

步骤3.3、对各模态数据进行整合，并对非数值类型的特征进行one-hot独热编码。

作为优选，步骤5具体包含以下步骤：

步骤5.1、对各个子分类器的权重进行初始化，设置为w_i＝1/k，w_i代表第i个子分类器的权重，k为子分类器个数；对损失进行初始化，loss_i＝0，loss_i代表第i个子分类器的累计损失。

步骤5.2、对于有n个样本的集合X＝{x₁,x₂,...,x_n}，每次取x_j∈X，将x_j的k类特征分别输入k个子分类器，得出每个子分类器在每一个类别上的概率分数。

表示第i个子分类器在类别q上的预测分数，计算样本x_j在k个子分类器的属于类别q的加权预测分数，并获取各类别加权分数集合：

WS＝{WS₁,WS₂,...WS_m}

其中，WS_q为样本x_j在k个子分类器上预测结果属于类别q的加权分数，w_i代表第i个子分类器的当前权重。WS为样本x_j在k个子分类器上属于各个类别的加权分数集合，其中，m表示类别数。

获得最大预测分数所属类别，即加权融合后的模型的预测结果：

y＝argmax{WS}

其中，argmax()函数实现获取集合中最大值的索引，此处即可获得最大预测分数所属类别。

步骤5.3、判断得到的类别标签是否与真实标签一致，如果一致，则分类正确，继续下面的步骤；否则分类错误，舍弃当前样本，返回步骤5.2进行下一个样本的迭代。

步骤5.4、对于上述分类结果错误的l个分类器，进行权重更新，给予惩罚：

其中，n为训练的总样本数，l为错分的子分类器数。

对于上述分类结果正确的子分类器，更新累计损失：

其中，

表示第i个子分类器在预测类别y上的预测分数。

之后根据累计损失从小到大排序，对前l个分类器，进行权重更新，给予奖励：

其中，n为训练的总样本数，l为错分的子分类器数。

步骤5.5、返回步骤5.2，开始对下一个样本进行上述操作，直至遍历完成所有样本，得到最终各个子分类器的最终权重并保存。

作为优选，所述步骤1中获取多模态数据时，可下载公共数据集进行实验，也可从其他渠道收集获取，实施者也可在本发明基础上增加或替换其它类型的单模态数据。本发明具有一定灵活性，后续步骤中特征和子分类器的选择可根据所收集数据进行调整。

本发明实现了一种多模态情感分类方法，将多模态数据集成，并实现基于权重自学习的决策级融合模型。本发明通过对不同模态数据的特征提取和基于统计分析的特征筛选方式来建立单模态数据的特征集，然后将其输入分类模型并获得最优子分类器，然后在决策级别进行多个子分类器的融合。与以往技术不同，本发明在已有决策融合方法基础上，综合考虑了所有子分类器，并根据各个分类器的性能来进行权重更新，在权重更新方式上，本发明通过计算各个分类器的累计损失来考量子分类器性能，对性能优越的分类器给予奖励，并对错分的分类器给予惩罚，实现一种综合子分类器的历史表现和当前迭代的表现来进行权重更新的方式，对各个分类器的权重赋值更加科学合理。本发明实现了更准确的多模态分类方法，综合多模态数据使模型更具解释性。

附图说明：

图1为本发明所提出的一种基于决策融合的多模态情感分类方法的总流程图；

图2为本发明所涉及决策融合权重更新示意图；

图3为本发明所得融合模型的预测示意图。

具体实施方式：

以下结合具体实例并参照附图，对本发明的技术方案进行详细叙述。

如图1所示，一种基于决策融合的多模态情感分类方法，具体按以下步骤实施：

所述多模态数据均为从开源平台获取的公共数据集。

步骤2、多模态数据特征提取。对原始各模态数据，根据数据类型，选择不同的方式进行特征提取。

所述模态数据中若包含视频数据，也可对其从音频、图像、文本三个方面按以上步骤2.1-2.3来进行特征提取。

步骤3、构建多模态数据特征集。提取到多模态特征后，考虑到特征的冗余性，采用基于统计学的方法对其从单变量分析与多变量分析两个方面进行特征筛选，从而获取各个单模态数据中有意义的特征。

式中

代表比较总次数。

根据得到的每个特征的SNR，选SNR>0.6的特征进行多变量特征筛选，此处是为了消除由于特征间相关性较大对模型产生的过拟合影响。首先计算两两特征之间的相关性，之后计算每个特征的方差，对于两个特征之间相关性大于0.6的，选择其中方差更小的一个删除，最终保留的即为最终的特征。相关性分析公式如下：

其中ρ_xy表示变量x,y之间的相关性，

为变量x，y在所有患者上的表达均值。

步骤3.3、对各模态数据进行整合，并对非数值类型的特征进行one-hot独热编码。最终获得包括音频特征、图像特征、文本特征的各单模态特征集。

步骤4.1、将步骤3所得视频特征分别输入支持向量机SVM、决策树、随机森林、逻辑回归模型进行训练，获取分类准确率最高的模型并保存；

步骤4.2、将步骤3所得音频特征分别输入支持向量机SVM、决策树、随机森林、逻辑回归模型进行训练，获取分类准确率最高的模型并保存；

步骤4.3、将步骤3所得图像特征分别输入支持向量机SVM、决策树、随机森林、逻辑回归模型进行训练，获取分类准确率最高的模型并保存；

步骤5、对获取的各子分类器进行决策级别的融合，将各子分类器的历史累计损失纳入考虑，采用一种权重自学习的方式训练各个子分类器的权重。权重训练过程如图2所示。

WS＝{WS₁,WS₂,...WS_m}

y＝argmax{WS}

其中，n为训练的总样本数，l为错分的子分类器数。

对于上述分类结果正确的子分类器，更新累计损失：

其中，

表示第i个子分类器在预测类别y上的预测分数。

其中，n为训练的总样本数，l为错分的子分类器数。

使用保存的模型对一个样本进行预测的过程如图3所示。

通过以上实施例，本领域技术人员即可清晰理解并实施，也可以根据实际的需要选择其中的部分或者全部模块来实现本实施方案的目的。

需要说明的是，以上所述仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于决策融合的多模态情感分类方法，其特征在于，包括以下步骤：

步骤1、获取数据集；获取一组多模态数据和对应标签数据，多模态数据包括音频、图像或/和文本类型，且各模态数据之间互相对应；

步骤2、多模态数据特征提取；对原始各模态数据，根据数据类型选择不同的方式进行特征提取；

步骤3、构建多模态数据特征集；提取到多模态特征后，采用基于统计学的方法对其从单变量分析与多变量分析两个方面进行特征筛选，从而获取各个单模态数据中有意义的特征；

步骤4、将步骤3得到的各单模态特征集与标签输入支持向量机SVM、决策树、随机森林、逻辑回归模型进行训练，得到分类准确率最高的子分类器并保存；

2.根据权利要求1所述的方法，其特征在于，步骤2具体包含以下步骤：

步骤2.1、对于获取的原始音频数据，对其进行特征提取；使用协同语音分析库COVAREP，从音频中提取梅尔倒谱系数MFCCs、音高跟踪和浊音/清音分割特征、声门源参数、峰值斜率参数和最大色散商特征；

步骤2.2、对于获取的原始图像数据，对其进行特征提取；使用面部动作编码系统FACS来进行面部表情的特征提取，包括面部标记、面部动作单元、头部姿势和视线轨迹；

步骤2.3、对于获取的原始文本数据，对其使用基于Transformer的双向编码器表征BERT来进行特征提取；

作为备选，模态数据中若包含视频数据，对其从音频、图像、文本三个方面按以上步骤2.1-2.3来进行特征提取。

3.根据权利要求1所述的方法，其特征在于，，步骤3具体包含以下步骤：

步骤3.1、对于特征值均为数值的模态数据，对其进行标准化处理，将其中的每一个特征结合患者类别信息，使用一种基于信噪比的指标来对每一个特征进行度量，认为信噪比值越大，则该特征越重要；信噪比计算公式为：

式中

代表比较总次数；

根据得到的每个特征的SNR，选SNR>0.6的特征进行特征间的相关性分析；对于相关性高于0.6的两个特征，选择其中方差更小的一个删除；

步骤3.2、对于特征值为等级或类别等非数值类型的特征，对其实行基于分类类别的卡方分析和费希尔fisher检验，选择在两种统计分析结果中在不同类别均有显著性差异、p值均小于0.05的特征作为最终特征；

4.根据权利要求1所述的方法，其特征在于，，步骤5具体包含以下步骤：

步骤5.1、对各个子分类器的权重进行初始化，设置为w_i＝1/k，w_i代表第i个子分类器的权重，k为子分类器个数；对损失进行初始化，loss_i＝0，loss_i代表第i个子分类器的累计损失；

步骤5.2、对于有n个样本的集合X＝{x₁,x₂,...,x_n}，每次取x_j∈X，将x_j的k类特征分别输入k个子分类器，得出每个子分类器在每一个类别上的概率分数；

WS＝{WS₁,WS₂,...WS_m}

其中，WS_q为样本x_j在k个子分类器上预测结果属于类别q的加权分数，w_i代表第i个子分类器的当前权重；WS为样本x_j在k个子分类器上属于各个类别的加权分数集合，其中，m表示类别数；

y＝argmax{WS}

其中，argmax()函数实现获取集合中最大值的索引，此处即可获得最大预测分数所属类别；

步骤5.3、判断得到的类别标签是否与真实标签一致，如果一致，则分类正确，继续下面的步骤；否则分类错误，舍弃当前样本，返回步骤5.2进行下一个样本的迭代；

其中，n为训练的总样本数，l为错分的子分类器数；

对于上述分类结果正确的子分类器，更新累计损失：

其中，

表示第i个子分类器在预测类别y上的预测分数；

其中，n为训练的总样本数，l为错分的子分类器数；