CN116895287A

CN116895287A - 一种基于shap值的抑郁症语音表型分析方法

Info

Publication number: CN116895287A
Application number: CN202310975909.8A
Authority: CN
Inventors: 张丽; 刘景瑞; 井明; 张广委; 刘涛; 禹继国
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-10-17

Abstract

本发明涉及语音信号处理领域，具体涉及一种基于SHAP值的抑郁症语音表型分析方法，对采集的数据集中的音频进行预处理；对预处理后的音频进行分帧加窗处理；采用分段特征统计的方式，对每个音频文件进行中期特征提取，获得特征向量矩阵D；将获得的特征向量矩阵D与抑郁症的疾病标识标签作为输入特征矩阵，训练SVM分类器，生成SVM模型；计算出各个特征值的SHAP值，获得抑郁分类中的语音特征标记物，根据语音特征标记物对应的语音表型，最终确定抑郁分类语音表型。该方法提取具有临床诊断、预测、病情评估、疗效评价意义声音特征数字表型，构建抑郁障碍精神疾病数字表型新型特征标记物。

Description

一种基于SHAP值的抑郁症语音表型分析方法

技术领域

本发明涉及语音信号处理领域，具体涉及一种基于SHAP值的抑郁症语音表型分析方法。

背景技术

抑郁症是一种心理疾病，及时、有效地干预和治疗抑郁症有助于减少抑郁症的发生，减轻社会负担、减轻患者痛苦、减轻家庭负担。

语音包含可以被机器学习模型识别的声学和语言特征，以衡量说话人的行为健康状况。此外，用于语音数据收集对于患者来说相对简单、吸引人，而且相对便宜、方便，只需要一个麦克风、一个安静的地方和一个采集音频样本的设备。因此，基于语音的生物标记物可以对疾病进行预先筛查，监测病情进展和对治疗的反应，并在知情同意的情况下成为临床研究的有用替代标记物。

特征选择方法已被用于抑郁症建模研究，目的是提高抑郁症诊断的准确性。然而，这些研究没有报告选定的特征集，这将提高对他们的发现的普遍性的理解，也没有报告稳定性措施和增加它的程序。此外，这些研究中有些使用了特征转换方法，而这些方法无法识别有助于建模的实际特征。

相应地，本领域需要一种新的抑郁症表型分析方法来解决上述问题。

发明内容

基于上述情况，本发明提供了一种基于SHAP值的抑郁症语音表型分析方法，该方法提取具有临床诊断、预测、病情评估、疗效评价意义声音特征数字表型，构建抑郁障碍精神疾病数字表型新型特征标记物。

本发明提供如下技术方案：一种基于SHAP值的抑郁症语音表型分析方法，包括如下步骤：

S1、对采集的数据集中的音频进行预处理；

S2、对预处理后的音频进行分帧加窗处理；

S3、采用分段特征统计的方式，对每个音频文件进行中期特征提取，获得特征向量矩阵D；解决了每个音频文件持续时间不同与中期特征的提取的问题；

S4、将获得的特征向量矩阵D与抑郁症的疾病标识标签作为输入特征矩阵，训练SVM分类器，生成SVM模型；

S5、将训练好的SVM模型的预测函数f(x)与提取的特征向量矩阵D作为SHAP值计算的输入参数，计算出各个特征值的SHAP值；

S6、通过SHAP值对特征进行重要性分析，将每个模型的重要性排名前二十个特征进行统计平均，最后将每个特征按照平均SHAP值进行排序，根据排序结果筛选出排名在前的特征作为该数据集在抑郁分类中的语音特征标记物，根据语音特征标记物对应的语音表型，最终确定抑郁分类语音表型。

步骤S1中，预处理时，删除静音音频、小于1秒的音频、每段录音开始和结束时的静音片段，消除背景噪声。

步骤S2中，音频短时特征提取的帧大小为50ms，为了减轻频谱泄露，将原始音频信号乘以窗函数，窗函数设置为汉明窗，计算公式如下：

其中W(n)是样本索引n处的窗口系数，N是窗口中的样本总数。

步骤S3中，设置中期窗口为1s，对于每一个音频文件，在每一个短期帧上提取34个短期特征序列，组合为34维短期特征矩阵矩阵称为A，34维短期特征矩阵矩阵A相应的增量特征矩阵ΔA，

ΔA＝χ₁-χ₀

其中χ₁代表A中对应的当前短时帧的特征值，χ₀代表前一个短时帧的特征值，用当前特征值减去前一个短时帧的特征值即可得到ΔA当前短时帧的增量特征值；

将A与ΔA组合为矩阵X，矩阵X的维度为68，在每个中期窗口提取X的平均值和标准差，得到新的特征向量矩阵B与C作为中期片段特征统计；

下列两个公式分别为求取平均值与标准差的公式，式中x代表每一个短期特征的特征向量，n为特征向量的个数即为短期帧的个数，每个特征值相加除以帧数得到特征品均值式中/>N为短期帧的个数，得到标准差σ(r)；

将每个中期窗口的B，C特征向量矩阵取平均值并组合为该音频文件的长期特征向量矩阵D，该矩阵的维度为136。

f(x)作为SVM的预测函数，其输入为一条音频的138维音频向量，输出为抑郁与非抑郁的概率值。SHAP的目标就是通过计算x中每一个特征对prediction的贡献,来对模型判断结果的解释.该方法将Shapley Value和LIME两种方法的观点结合起来了。

步骤S5中，计算SHAP值时，包括如下步骤：

S51、特征矩阵D的维度为k，取k个值为0或1的指示向量,组成向量z'；

S52、定义转换函数函数h_x()，用于对于输入的音频特征向量矩阵D按照指示向量将1的位置保留原特征值，0的位置替换为随机抽取样本的特征值；

S53、把指示向量z'通过h_x()转化为特征向量x'；

S54、计算特征向量x'对应的预测值f(h_x(z′))，生成的样本预测值与样本组成了用于训练线性解释模型g()的数据集；

S55、对z'计算对应的权重，M为所有特征的个数，|z'|是z'中1的个数；

S56、通过下式拟合线性模型g(x)，线性模型拟合出来的L(f,g,π_x′)就是SHAP值，

通过上述描述可以看出，本方案通过获得的音频，构建抑郁障碍精神疾病数字表型新型特征标记物，只需要一个麦克风、一个安静的地方和一个采集音频样本的设备就可以获得音频，有助于预先筛查；本发明提出了一种提取具有临床诊断、预测、病情评估、疗效评价意义的声音特征数字表型，构建抑郁障碍精神疾病数字表型新型特征标记物的方法。

附图说明

图1为本发明具体实施方式的流程图。

图2为训练后的SVM模型结果图。

图3为以最大训练集训练得到的SVM模型的特征SHAP值排序结果图。

图4为特征与SHAP值的关系图。

具体实施方式

下面将结合本发明具体实施方式中的附图，对本发明具体实施方式中的技术方案进行清楚、完整地描述，显然，所描述的具体实施方式仅仅是本发明一种具体实施方式，而不是全部的具体实施方式。基于本发明中的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

通过附图可以看出，本方案1、一种基于SHAP值的抑郁症语音表型分析方法，其特征在于包括如下步骤：

S1、对采集的数据集中的音频进行预处理；

预处理时，删除静音音频、小于1秒的音频、每段录音开始和结束时的静音片段，消除背景噪声。

S2、对预处理后的音频进行分帧加窗处理；

音频短时特征提取的帧大小为50ms，为了减轻频谱泄露，将原始音频信号乘以窗函数，窗函数设置为汉明窗，计算公式如下：

其中W(n)是样本索引n处的窗口系数，N是窗口中的样本总数。

S3、采用分段特征统计的方式，对每个音频文件进行中期特征提取，获得特征向量矩阵D；

ΔA＝χ₁-χ₀

计算SHAP值时，包括如下步骤：

S53、把指示向量z'通过h_x()转化为特征向量x'；

进行具体分析时，数据集采用EATD数据集，该数据集由162名志愿者访谈的音频和文本文本摘录而成。EATD-Corpus中有30名抑郁志愿者和132名非抑郁志愿者。数据集中响应音频的总持续时间约为2.26小时。由于实验的目的不是为了追求更高的分类准确率，而是要分析在抑郁分类过程中的特征重要性，采用了相对平衡的样本选择，最终在该数据集中选择了所有的抑郁音频，并相应的随机抽取了同等数量的非抑郁音频作为实验的数据集。

对数据集中的音频进行预处理操作。首先，删除静音音频，小于1秒的音频，以及每段录音开始和结束时的静音片段，消除背景噪声。

音频短时特征提取的帧大小为50ms，为了解决每个音频文件持续时间不同，我们采用分段特征统计，根据我们的假设，抑郁症的严重程度在一段时间内保持不变，而不是在每一时刻都发生变化。因此，我们设置中期窗口长度为1s，获取短期音频特征的平均值和标准差，每个中期窗口获得一个特征统计向量，最后对整段音频进行长期平均。

在短期帧上提取34个常用的短期特征与相应的增量特征，在这种情况下，为每个短期帧提取的特征总数为68，然后在中期窗口提取每个短期特征序列的平均值和标准差，最终我们提取的特征向量一共136个值。34个短期特征如表1所示。

表1 34个短期特征

用音频提取的特征矩阵与相应标签组合作为输入，训练SVM分类器，选择高斯核作为SVM的核函数。

为了消除小样本数据训练中分类模型敏感性的问题，使得机器学习模型能够在有限的数据中更好的学习到抑郁分类的规则，从而使计算出的SHAP值与抑郁分类的联系更加密切，将机器学习模型的训练集合根据规模划分为七个训练子集类进行训练，得到相应的模型结果，在这些模型上进行特征重要性分析。

模型评估部分，选用用于分类的常用评价指标，包括F1分数，召回率，精确率。

将训练数据分为七个数量规模的训练子集对SVM进行训练。从每个音频样本中提取168个语音特征。

以最大数量规模训练子集作为输入训练后的SVM模型结果如图2所示。在最大规模训练子集训练下得到的分类准确率对训练数据79.3％，在其他六个规模的训练子集训练得到的模型分类准确率的平均值为78.5％。

Kernel SHAP是一种使用特殊的加权线性回归来计算每个特征的重要性的方法。计算的重要性值是来自博弈论的沙普利值以及来自局部线性回归的系数。基本思想是计算一个特征加入到模型时的边际贡献，然后考虑到该特征在所有的特征序列的情况下不同的边际贡献，取均值，即某该特征的SHAP值(SHAP value)。

SVM的预测函数P(x)，其输入为一条音频的138维音频向量，输出为抑郁与非抑郁的概率值。

将训练好的SVM模型的P(x)函数与提取的特征向量矩阵作为SHAP解释器的输入参数，计算出特征值的SHAP value，然后通过总结平均值来计算出输入特征的重要性。

对于不同数据规模下训练得到的SVM模型，利用SHAP值分析进行特征重要性分析。以最大训练集训练得到的SVM模型的特征SHAP值排序结果为例，如图3所示，

在本次示例中所采用的数据集的背景下，我们通过对七个SVM模型进行SHAP值计算，并进行平均计算，最后发现排名前11名的特征的重要程度明显高于其余特征，最后得出与抑郁症分类密切相关的11个特征作为上述数据集抑郁障碍精神疾病特征标记物，如表2所示，其中第十二维差分色度标准差特征在不同模型中都展示出了遥遥领先的重要性。

表2与抑郁症分类密切相关的11个特征

对于这11个特征，进行特征模型依赖性分析，x轴为特征的值，y轴为相应特征的SHAP值，我们以特征序列为134的特征为例进行绘制，结果如图4所示。

通过特征模型依赖性分析我们发现其中只有五维色度系数平均值与MFCC五维系数平均值与抑郁趋向呈正相关，其余与抑郁趋向呈负相关。通过观察发现，上述11个特征都属于色度系数与MFCC在不同维度的系数,经过差分或者求平均值与标准差得到的。

人类发出的声音是通过声道的形状(包括舌头、牙齿等)过滤的。这种形状决定了发出的声音。如果我们能够准确地确定形状，这应该可以准确地表示所产生的音素。声道的形状体现在短时功率谱的包络中，而MFCC的工作就是准确地表示该包络。

首先，从MFCC计算过程中进行分析，语音在短时帧上经过傅里叶变换，通过梅尔滤波器，然后进行对数运算，最后进行离散余弦变换变换得到，通过这些操作我们可以将频谱图中的包络与其他细节进行分离，我们取前十三维作为输入特征，其中一维系数反应的是该帧的能量大小，其他特征组合在一起描述了频谱的总体轮廓。表2中的MFCC系数标准差有着语音能量波动大小的意义，而五维七维与十三维MFCC则反应出共振峰与频谱包络形状对于抑郁分类也有重要的影响。

色度向量通常是一个12元素特征向量，指示信号中存在每个音级{C、C#、D、D#、E、F、F#、G、G#、A、A#、B}的能量，他的计算过程与MFCC类似，通过短时傅里叶变换获取语音的频率成分，进行频率过滤与峰值检测，然后相对于440hz进行参考频率计算，使用具有余弦函数的加权方案进行音级映射，通过最大值除以逐帧标准化特征以消除对全局响度的依赖。然后我们就可以得到一个结果HPCP序列。表2中八维与十二维的色度系数的差分标准差与标准差以及一维和九维色度系数的差分标准差都可以表示语音在特定频率范围的波动性，表2中的五维色度系数平均值代表着在色度E对应的音级集合频率对应的能量。从而可以反应出语音在一定时间内的音调变化与能量的频率分布与抑郁分类的紧密联系。

综上所述，我们总结上述提取的11个特征反映出语音的共振峰、频谱包络、能量波动、音调变化、能量在频率上的分布与抑郁症的分类模型密切相关，结合特征提取过程，我们推测这说明语音的语气变化以及能量变化的丰富程度对于抑郁分类具有重要的作用。并将该表型作为该数据下的抑郁分类语音表型。

在本具体实施方式中，将数据提前分解为训练集和测试集。对训练集中的语音数据进行处理，得到165个语音声学特征。用不同数量的数据训练SVM分类器来减轻小样本的个性化差异，然后，利用加权线性回归对不同的模型结果进行特征的SHAP值计算，最终经过统计分析得到11个与抑郁分类密切相关的特征，我们将这些特征作为该数据集上抑郁分类的语音生物标记物，再通过对这些特征进行模型依赖分析，总结了这些特征对于抑郁分类的相关性，最后通过特征的提取过程与实际意义，发现语音频谱包络以及语音的能量变化，音调的变化与抑郁分类有着密切的联系，分析得出患者在语音表达过程中的音量以及语气的变化丰富程度可以作为该数据上的抑郁分类语音表型。

通过附图可以看出，本发明尽管已经示出和描述了本发明的具体实施方式，对于本领域的普通技术人员而言，可以理解在不脱离发明的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于SHAP值的抑郁症语音表型分析方法，其特征在于包括如下步骤：

S1、对采集的数据集中的音频进行预处理；

S2、对预处理后的音频进行分帧加窗处理；

2.根据权利要求1所述的基于SHAP值的抑郁症语音表型分析方法，其特征在于，

3.根据权利要求1或2所述的基于SHAP值的抑郁症语音表型分析方法，其特征在于，

其中W(n)是样本索引n处的窗口系数，N是窗口中的样本总数。

4.根据权利要求3所述的基于SHAP值的抑郁症语音表型分析方法，其特征在于，

ΔA＝χ₁-χ₀

5.根据权利要求4所述的基于SHAP值的抑郁症语音表型分析方法，其特征在于，

计算SHAP值时，包括如下步骤：

S53、把指示向量z'通过h_x()转化为特征向量x'；