CN114219005A

CN114219005A - 一种基于高阶谱语音特征的抑郁症分类方法

Info

Publication number: CN114219005A
Application number: CN202111362261.4A
Authority: CN
Inventors: 程忱; 苗潇琳; 李瑶; 王春燕; 黄晓妍; 董昊; 杜子尧; 张屿佳
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-03-22
Anticipated expiration: 2041-11-17
Also published as: CN114219005B

Abstract

本发明公开一种基于高阶谱语音特征的抑郁症分类方法，包括以下步骤：步骤S1：语音数据文件预处理，并对预处理后的语音数据文件进行样本裁剪，得到语音样本文件；步骤S2：计算语音样本文件三阶积累函数的二级傅里叶变换，得到高阶谱语音特征的双谱；然后将双谱进行归一化计算，得到高阶谱语音特征的双相干；与传统语音特征对抑郁症的分类方法相比，本发明所述的基于高阶谱语音特征的抑郁症分类方法通过利用三维二分卷积神经网络分类模型，实现了抑郁症分类识别，由此大幅提高了分类准确率，从而使得应用价值更高。

Description

一种基于高阶谱语音特征的抑郁症分类方法

技术领域

本发明属于语音处理技术领域，尤其涉及一种基于高阶谱语音特征的抑郁症分类方法。

背景技术

作为高阶谱语音特征分析技术与抑郁症辅助诊断的结合，语音特征分类方法当前已经成为精神疾病诊断的热点之一。其广泛应用在各类研究中，特别是抑郁症的研究，并取得许多令人惊喜的成果。

抑郁症在科学上被称为重性抑郁障碍，是一种精神障碍，比身体疾病更难发现。在抑郁症的临床访谈中，临床医生已经开发出结构化的问卷，并结合结构化问卷和评估患者语言、非语言的指标进行抑郁症的诊断，其中非语言指标包括降低的发音速度、音调、较低的讲话量等语音特征。然而，在临床诊断过程中充满了一定程度的主观性，而且这需要精神病医生花费大量的时间来诊断疾病。

传统的语音特征主要包括韵律特征、频谱特征、声门特征、声源等。其中韵律特征如基频、停顿时间和反应延迟增加语音能量；频谱特征如共振峰、共振峰频率和梅尔倒谱系数；其他特征如语音质量特征中的抖动。然而，不同的人在不同的语音相关特征方面有独特的特点，找到并选取抑郁症患者与非抑郁症患者区别较大的语音特征进行实验，才能获得较高的识别率。总之，语音特征目前在抑郁症的识别领域应用十分广泛，但目前相关研究结果表明，尚未找到有效的语音特征用于抑郁症分类识别实验。

发明内容

本发明提供一种基于高阶谱语音特征的抑郁症分类方法，旨在解决传统语音特征在抑郁症分类方法存在的上述问题。

本发明是这样实现的，一种基于高阶谱语音特征的抑郁症分类方法，包括以下步骤：

步骤S1：语音数据文件预处理，并对预处理后的语音数据文件进行样本裁剪，得到语音样本文件；

步骤S2：计算语音样本文件三阶积累函数的二级傅里叶变换，得到高阶谱语音特征的双谱；然后将双谱进行归一化计算，得到高阶谱语音特征的双相干；

步骤S3：根据双谱，获取5个双谱特征，并得到每个双谱特征对应的对数谱图；

步骤S4：根据双相干，获取5个双相干特征，并得到每个双相干特征对应的对数谱图；

步骤S5：构建三维二分卷积神经网络，采用三维二分卷积神经网络算法，选择双谱特征的对数谱图、双相干特征的对数谱图作为分类特征，构建分类器，然后采用自适应优化方法对分类器进行检验，具体包括：

S51：将M*M维度的对数谱图输入到三维二分卷积神经网络中，其中M表示对数谱图的大小；

S52：三维二分卷积神经网络的第一层表示三维二分卷积神经网络的卷积层，其滤波器的大小为M₀*M₀*3，覆盖频率空间M₀和3个卷积核，M₀具体表示如下：

其中，M₀表示M第一次二分法向上取整的值；

S53：三维二分卷积神经网络的第二层表示三维二分卷积神经网络的最大池化层，它沿着时间轴移动窗口内核，并保存最大值以表示整个窗口，从而减少其输入维度的数量；移动的步长为S＝1，使用填充P＝0来保持输入层的极端，输出矩阵的大小N₁如下：

N₁＝(M-M₀+2P)/S+1

S54：三维二分卷积神经网络的第三层表示三维二分卷积神经网络的二层卷积，将步骤S53输出的结果作为本步骤的输入，其滤波器的大小为M₁*M₁*3，M₁公式具体表示如下：

其中，M₁表示N₁第一次二分法向上取整的值；

S55：三维二分卷积神经网络的第四层表示三维二分卷积神经网络的最大池化层，将N₁作为输入进行最大池化层，输出结果矩阵，输出矩阵的大小N₂：

N₂＝(N₁-M₁+2P)/S+1

S56：三维二分卷积神经网络的第五层表示三维二分卷积神经网络的全连接层，最大池输出被平坦化，并用作两个输入层和一个输出层的全连接神经网络的输入。

进一步的，在步骤S1中，语音数据文件预处理，具体包括：移除语音数据文件中计算机生成的虚拟语音，以及移除语音数据文件中的静默部分。

进一步的，在步骤S2中，双谱的计算公式如下：

bis(f₁,f₂)＝E[F(f₁)F(f₂)F*(f₁+f₂)]。

其中，f₁和f₂表示语音频率变量，(f₁,f₂)表示双频，bis(f₁,f₂)表示双频(f₁,f₂)的双谱，F(f)表示给定信号的傅里叶变换，F*表示复共轭，E[.]表示期望；由于信号中存在非线性，频率为f₁+f₂的相位全部或部分生成；

双相干的计算公式如下：

其中，|bis(f₁,f₂)|表示双谱bis(f₁,f₂)的绝对值，P(f₁)和P(f₂)表示语音频率变量f₁和f₂的功率谱，bic(f₁f₂)表示双谱的双相干值；由于信号中存在非线性，频率为f₁+f₂的相位全部或部分生成。

进一步的，在步骤S3中，所述双谱特征包括：双谱绝对平均幅度mAv、双谱绝对对数幅度和L₁、双谱对角元素绝对对数幅度和L₂、双谱加权矩阵值wm_i和双谱加权矩阵值wm_j。

进一步的，在步骤S3中：

双谱绝对平均幅度mAv的计算公式如下：

其中，Ω表示语音文件的非冗余区域，n表示区域内的点数；

双谱绝对对数幅度和L₁的计算公式如下：

双谱对角元素绝对对数幅度和L₂的计算公式如下：

其中，f_d表示(f₁,f₂)的对角元素，|bis(f_d,f_d)|表示对角元素双谱的绝对值；

双谱加权矩阵值wm_i和双谱加权矩阵值wm_j的计算公式如下：

其中，i和j表示非冗余区域Ω中的索引。

进一步的，在步骤S4中，所述双相干特征包括：双相干绝对平均幅度mAvbic、双相干绝对对数幅度和Lbic₁、双相干对角元素绝对对数幅度和Lbic₂、双相干加权矩阵值wmbic_i和双相干加权矩阵值wmbic_j。

进一步的，在步骤S4中：

双相干绝对平均幅度mAvbic的计算公式如下：

其中，|bic(f₁,f₂)|表示双相干bic(f₁,f₂)的绝对值，Ω表示语音文件的非冗余区域，n表示区域内的点数；

双相干绝对对数幅度和Lbic₁的计算公式如下：

双相干对角元素绝对对数幅度和Lbic₂的计算公式如下：

其中，f_d表示(f₁,f₂)的对角元素，|bic(f_d,f_d)|表示双相干bic(f_d,f_d)的绝对值；

双相干加权矩阵值wmbic_i和双相干加权矩阵值wmbic_j的计算公式如下：

其中，i和j表示非冗余区域Ω中的索引。

与现有技术相比，本发明的有益效果是：与传统语音特征对抑郁症的分类方法相比，本发明所述的基于高阶谱语音特征的抑郁症分类方法通过利用三维二分卷积神经网络分类模型，实现了抑郁症分类识别，由此大幅提高了分类准确率，从而使得应用价值更高。本发明有效选取在抑郁症识别分类方法中分类效果较优语音特征的问题，适用于抑郁症的分类。

附图说明

图1为本发明语音特征分类准确率效果图；

图2为本发明非抑郁症患者的双谱图；

图3为本发明抑郁症患者的双谱图；

图4为本发明非抑郁症患者的双相干图；

图5为本发明抑郁症患者的双相干图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的分类准确率明显高于传统语音特征分类方法的分类准确率。

本实施例以AVEC 2016和AVEC 2017采用苦恼分析访谈语料库-绿野仙踪(DAIC-WOZ)数据集中的数据为例进行说明，该数据集包含189个临床访谈片段，旨在支持抑郁症等疾病的诊断。记录的临床访谈分为训练集(107段)、验证集(35段)和测试集(47段)。

本发明所述的基于高阶谱语音特征的抑郁症分类方法通过利用三维二分卷积神经网络分类模型，实现了抑郁症分类识别，由此大幅提高了分类准确率。

步骤S1：对语音数据文件进行预处理，移除计算机及静默部分的语音；并对预处理后的语音文件进行样本裁剪；

步骤S2：计算语音样本文件的三阶积累函数的二级傅里叶变换，由此得到双谱；然后将双谱进行归一化计算，由此得到双相干；

步骤S3：计算高阶谱语音特征中双谱的局部属性；所述局部属性包括：双谱的绝对平均幅度、绝对对数幅度和、对角元素绝对对数幅度和、加权矩阵值，由此得到5个双谱特征，并得到对应双谱特征的对数谱图；

步骤S4：计算高阶谱语音特征中双相干的局部属性；所述局部属性包括：双相干的绝对平均幅度、绝对对数幅度和、对角元素绝对对数幅度和、加权矩阵值，由此得到5个双相干特征，并得到对应双相干特征的对数谱图；

步骤S5：采用三维二分卷积神经网络算法，选择语音文件高阶谱的局部属性双谱特征的对数谱图、双相干特征的对数谱图作为分类特征，由此进行分类器的构建，然后采用自适应优化方法对构建的分类器进行检验。

步骤S1中，对语音数据进行预处理，步骤具体包括：消除虚拟采访者Ellie的声音，因为它是计算机生成的，在所有的采访中都没有感情。并且长时间的静默部分也被移除了；样本裁剪一方面是为了分类算法的所有输入都具有相同的大小；另一方面生成了大量的样本来训练模型，本实验中选取S＝0.3334s进行裁剪。

步骤S2中，双谱的计算公式如下：

bis(f₁,f₂)＝E[F(f₁)F(f₂)F*(f₁+f₂)]。

双相干的计算公式如下：

在步骤S3中，所述双谱特征包括：双谱绝对平均幅度mAv、双谱绝对对数幅度和L₁、双谱对角元素绝对对数幅度和L₂、双谱加权矩阵值wmi和双谱加权矩阵值wm_j。

双谱绝对平均幅度mAv的计算公式如下：

其中，Ω表示语音文件的非冗余区域，n表示区域内的点数；

双谱绝对对数幅度和L₁的计算公式如下：

双谱对角元素绝对对数幅度和L₂的计算公式如下：

双谱加权矩阵值wm_i和双谱加权矩阵值wm_j的计算公式如下：

其中，i和j表示非冗余区域Ω中的索引。

使用DAIC-WOZ数据库获得一位非抑郁症患者的双谱图如图2所示，获得一位抑郁症患者的双谱图如图3所示。

在步骤S4中，所述双相干特征包括：双相干绝对平均幅度mAvbic、双相干绝对对数幅度和Lbic₁、双相干对角元素绝对对数幅度和Lbic₂、双相干加权矩阵值wmbic_i和双相干加权矩阵值wmbic_j。

双相干绝对平均幅度mAvbic的计算公式如下：

双相干绝对对数幅度和Lbic₁的计算公式如下：

双相干对角元素绝对对数幅度和Lbic₂的计算公式如下：

其中，i和j表示非冗余区域Ω中的索引。

使用DAIC-WOZ数据库获得一位非抑郁症患者的双相干图如图4所示，获得一位抑郁症患者的双相干图如图5所示。

在步骤S5中，构建三维二分卷积神经网络的步骤具体包括：

步骤S51：步骤S3中的图2、图3分别显示了非抑郁症患者和抑郁症患者的双谱对数谱图，步骤S4中的图4、图5分别显示了非抑郁症患者和抑郁症患者的双相干对数谱图，神经网络模型使用它作为输入。考虑到音频文件的采样频率是16千赫，每个裁剪的持续时间是S＝4秒，每个对数频谱图被表示为维度F0×T0的矩阵，其中频率F0和时间T0维度分别是125和125。将其表示为M*M维度的矩阵输入到网络中，其中M＝125；

其中，M₀表示M第一次二分法向上取整的值；

N₁＝(M-M₀+2P)/S+1

其中，M₁表示N₁第一次二分法向上取整的值；

N₂＝(N₁-M₁+2P)/S+1

本方法采用自适应优化方法计算滤波器的大小，重复卷积层和最大池化层的步骤，当输出大小小于5*5时，自适应优化方法结束。本实验进行五层卷积的最大池化层后，输出的大小为4*4小于5*5，不再进行卷积；

检验步骤具体包括：从样本集中选择训练集(107段)作为训练样本，测试集(47段)的样本作为测试样本，由此进行分类测试并得到分类准确率；将重复进行100次分类测试后得到的分类准确率进行算术平均，然后将算术平均值作为分类器的分类准确率。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。