CN107133481A

CN107133481A - 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法

Info

Publication number: CN107133481A
Application number: CN201710363943.4A
Authority: CN
Inventors: 杨乐; 蒋冬梅; 夏小涵; 裴二成; 何浪; 赵勇
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2017-09-05

Abstract

本发明涉及一种基于DCNN‑DNN和PV‑SVM的多模态抑郁症估计和分类方法，利用位移范围直方图和Opensmile工具对音视频特征进行预处理，利用深度卷积神经网络提取中音、视频统计特征的隐层抽象特征，利用深度神经网络DNN进行抑郁症估计，利用段向量PV方法进行文本信息的高维特征映射，将得到的高维特征表示输入SVM中进行二分类，将抑郁症估计与二分类结果串接后输入随机森林Random Forests模型进行训练，用训练好的随机森林Random Forests模型实现最终抑郁症的分类任务，即抑郁或非抑郁。由于采用DCNN模型对初级音视频提取了隐层抽象特征，这样使原来高维特征变得更加紧凑，包含的信息更加丰富，从而使模型更加有效，避免了由于特征维度过高导致的过拟合现象。

Description

基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法

技术领域

本发明属于计算机和医学结合领域，采用深度卷积神经网络(DCNN)、深度神经网络(DNN)、段落向量(PV)以及支持向量机(SVM)模型，涉及一种从听觉、视觉和文本信息中对抑郁症进行分类的方法。

背景技术

近年来，人工智能领域已经借助机器学习方法，从音频、视频出发建立了多种多样的抑郁症检测系统，来帮助心理学家进行临床抑郁症的检测预防和治疗。在过去的几年中，通过音视频信息来进行抑郁症的检测领域已经取得了许多重要的成果。文献“DecisionTree Based Depression Classification from Audio Video and LanguageInformation,2016 6th AVEC,pp 89-96”公开了一种基于音频、视频的多模态抑郁症估计，之后结合文本信息手动建立决策树对抑郁症进行分类。此方法分为抑郁症估计和抑郁症分类两部分。在抑郁症估计阶段，采用音视频单模态对抑郁症进行初步估计，之后又将音视频的单模态估计结果相结合，进行最终的多模态抑郁症估计。但是，这种方法在抑郁症估计阶段，受到样本数量，特征种类多、针对性差以及模型性能的局限，导致对抑郁症的估计准确度低，泛化性差，无法达到精度要求；在抑郁症分类阶段，此方法采用人工分析文本信息的方法，结合抑郁症估计阶段的估计值，通过人工建立决策树，实现抑郁症的分类。这一阶段由于需要人工分析文本信息，因此主观性大，工作量大，因此此方法具有局限性且难以推广。

目前研究学者借助机器学习方法来判断抑郁症已经取得了一定的成果，然而由于抑郁症的复杂性以及个体的差异性，抑郁症的研究仍然面临以下挑战：

1)“多对一”问题。而在抑郁症研究中，往往是一个样本(许多帧)对应一个抑郁程度。这种多对一的问题导致大量有用的时序信息被丢弃，造成信息浪费。为了弥补信息丢失的缺点，学者设计了多种统计方法，这样产生非常高的特征维度，容易导致过拟合现象。

2)大量有用的信息未被挖掘。目前，较多研究的是通过音视频来检测抑郁症。这种通过音视频来研究抑郁症的方法，通常是“内容无关”的方法。而通过文本信息来研究抑郁症的方法现在还不是很成熟。通常，文本信息中反映了患者的睡眠、生活状态等信息，这种“内容相关”的方法目前还没有被大量挖掘。

综上所述，现有的抑郁症检测方法易受特征维度影响，大量信息未被全面研究，容易造成抑郁症估计精确度低，抑郁症检测分类正确率低。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明设计了一种基于深度卷积神经网络(DCNN)、深度神经网络(DNN)、段落向量(PV)以及支持向量机(SVM)的多模态抑郁症估计和分类方法。

技术方案

1.一种基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法，其特征在于

步骤如下：

步骤1：利用位移范围直方图和Opensmile工具对音视频特征进行预处理：将视频Landmarks特征输入位移范围直方图统计方法中，得到视频Landmarks特征的全局特征；将音频LLD特征输入Opensmile工具提取音频全局统计信息；

所述的位移范围直方图统计方法步骤如下：

首先定义时间间隔M:＝{M₁,M₂,M₃,...,M_x}，范围R:＝{R₁,R₂,R₃,...,R_z}，视频Landmarks特征作为位移范围直方图统计方法的输入，x和z分别代表时间间隔和范围的个数；

然后，对于每一个时间间隔M_x，计算Landmarks特征每一个维度中，第i+M_x帧与第i帧之间的差值，得到差值矩阵；

最后，统计差值矩阵中每个维度在每个范围R_z中的分布个数；将得到的分布个数除以原始Landmarks特征的总帧数，得到归一化后的视频Landmarks全局特征；

步骤2：利用深度卷积神经网络提取步骤1中音、视频统计特征的隐层抽象特征：

式(1)中，代表输入的音、视频特征，f_x,i代表卷积模板，n代表卷积模板中元素个数，代表卷积后的抽象特征，表示为对得到的抽象特征进行pooling；式(2)中，H(·)函数代表一种函数变换，F(·)函数代表ReLU激活函数，如公式(3)所示，代表权重信息；(1)式和(2)式中和分别为偏置，j和k代表位置块信息；

σ(z)＝max(0,z) (3)

以患者真实的PHQ-8得分为DCNN模型的监督信息，通过重复(1)式和(2)式过程，进行DCNN模型的训练；将音频和视频特征输入训练好的DCNN模型中进行一次前向过程，并将倒数第二层隐层数据取出，作为初级音频视频特征的隐层抽象特征；

步骤3：利用深度神经网络DNN进行抑郁症估计：将步骤2中得到音频、视频的隐层抽象特征作为DNN网络的输入，以标准PHQ-8得分为监督信息，进行单模态DNN模型的训练，用训练好的单模态DNN模型进行新样本的PHQ-8得分估计，从而得到音频和视频的单模态抑郁症PHQ-8得分估计，然后采用决策融合的方法将音频和视频的单模态PHQ-8得分输入另一个DNN模型中，再次以标准PHQ-8得分为监督信息，进行多模态DNN模型的训练，最终利用这个多模态DNN模型进行新样本的PHQ-8得分估计；其中单模态和多模态中的两个DNN网络中每层的激活函数都采用ReLU函数；

步骤4：利用段向量PV方法进行文本信息的高维特征映射：段向量框架共包含两个步骤：训练字典中的词向量W以及段向量D；

在第一个阶段中，从日常交流用语中提取词序列w₁,w₂,w₃,...,w_n以及段落序列p₁,p₂,p₃,...,p_m，n和m分别表示字典中词的个数和段落的个数；每个单词被表示为一个向量每个段落被表示为得到段落向量模型的目标是最大化式(4)的似然概率：

其中，k是1到n中的某个数，概率p通过一个softmax函数得到：

上式中y_i是关于W和D的函数，计算方法如下：

y＝b+Uh(w_t-k,...,w_t+k；W,D) (6)

其中，U和b是softmax参数；

在第二阶段，将W,U,b固定，在D中加入反映患者生活状态的文本的id信息，同时使用梯度下降法进行这些新加入的文本的推理过程；最终得到段落向量D'，即反映患者生活状态的文本的高维特征表示；

步骤5：将步骤4中得到的高维特征表示输入SVM中进行SVM训练，用训练好的SVM模型进行二分类：更趋向抑郁症的特征表现将被划分为1，否则将被划为0类；

步骤6：将步骤3中得到的多模态PHQ-8得分与步骤5中得到的0、1分类结果串接后输入随机森林Random Forests模型进行训练，用训练好的随机森林Random Forests模型实现最终抑郁症的分类任务，即抑郁或非抑郁。

有益效果

本发明提出的一种基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法，由于采用DCNN模型对初级音视频提取了隐层抽象特征，这样使原来高维特征变得更加紧凑，包含的信息更加丰富，从而使模型更加有效，避免了由于特征维度过高导致的过拟合现象。同时，该发明提供了一种利用文本信息的新思路，挖掘了更多的信息。这种高层特征与低层抽象特征相结合的方法，提高了抑郁症的检测准确度。

1)提出一种基于DCNN-DNN的多模态抑郁症估计模型。这种模型将深度卷积神经网络可以提取抽象特征的方法和深度神经网络挖掘特征隐含联系的能力相结合，能够有效的提高抑郁症的识别精度。

2)提出一种基于PV-SVM的抑郁症文本分析方法。这种方法通过将涉及患者生活的文本信息输入到段落向量PV模型中，实现将文本信息映射到要给高维特征空间，进而通过支持向量机SVM自动实现患者生活状态的分类目标。

3)本发明将DCNN-DNN模型和PV-SVM模型相结合，通过将音视频低层特征预测得到的抑郁症程度与通过文本信息得到的生活状态的分类结果相结合，最终实现抑郁症的分类任务。

4)本发明提出一种特征统计方法“位移范围直方图”，这种方法有效的反映了患者的运动信息和速度信息。

具体实施方式

本发明的具体步骤如下：

步骤一、利用位移范围直方图和Opensmile工具对音视频特征进行预处理。此步骤分为两部分：(1)将视频Landmarks特征输入位移范围直方图统计方法中，得到视频Landmarks特征的全局特征；(2)将音频LLD特征输入Opensmile工具提取音频全局统计信息。

所述的位移范围直方图统计方法步骤如下：

首先定义时间间隔M:＝{M₁,M₂,M₃,...,M_x}，范围R:＝{R₁,R₂,R₃,...,R_z}，视频Landmarks特征作为位移范围直方图统计方法的输入，x和z分别代表时间间隔和范围的个数。

然后，对于每一个时间间隔M_x，计算Landmarks特征每一个维度中，第i+M_x帧与第i帧之间的差值，得到差值矩阵。

最后，统计差值矩阵中每个维度在每个范围R_z中的分布个数。将得到的分布个数除以原始Landmarks特征的总帧数，得到归一化后的视频Landmarks全局特征。

步骤二、利用深度卷积神经网络提取步骤一中音、视频统计特征的隐层抽象特征。

式(1)中，代表输入的音、视频特征，f_x,i代表卷积模板，n代表卷积模板中元素个数，代表卷积后的抽象特征，表示为对得到的抽象特征进行pooling。式(2)中，H(·)函数代表一种函数变换，如求一个块信息中的最大值或者均值，F(·)函数代表ReLU激活函数(公式三所示)，代表权重信息。(1)式和(2)式中和分别为偏置，j和k代表位置块信息。

σ(z)＝max(0,z) (3)

以患者真实的PHQ-8得分为DCNN模型的监督信息，通过重复(1)式和(2)式过程，进行DCNN模型的训练。本发明中，将音频和视频特征输入训练好的DCNN模型中进行一次前向过程，并将倒数第二层隐层数据取出，作为初级音频视频特征的隐层抽象特征。

步骤三、利用深度神经网络DNN进行抑郁症估计。DNN网络的全连接结构具有挖掘数据之间隐含联系的能力，本发明中，将步骤二中得到的抽象特征作为DNN网络的输入，以标准PHQ-8得分为监督信息，进行DNN模型的训练，用训练好的DNN模型最终进行新样本的PHQ-8得分估计。在本发明中，DNN网络中每层的激活函数采用ReLU函数，由于ReLU的单侧抑制特性，从一定程度上缓解了梯度消失现象。

步骤四、利用段向量PV方法进行文本信息的高维特征映射。段向量通过无监督学习方式可以将文本信息映射到一个特征向量空间中，这种方法可以将不同长度的文本映射到相同维度的空间中，同时能兼顾文本的顺序信息。段向量框架共包含两个步骤：训练字典中的词向量W以及段向量D。在第一个阶段中，我们定义：给定一个词序列w₁,w₂,w₃,...,w_n以及一个段落序列p₁,p₂,p₃,...,p_m，n和m分别表示字典中词的个数和段落的个数。每个单词被表示为一个向量每个段落被表示为我们得到段落向量模型的目标是最大化式(4)的似然概率：

其中，k是1到n中的某个数，概率p通过一个softmax函数得到：

(5)中y_i是关于W和D的函数，计算方法如下：

y＝b+Uh(w_t-k,...,w_t+k；W,D) (6)

U和b是softmax参数。在第二阶段，将W,U,b固定，在D中加入新段的id信息，同时使用梯度下降法进行新样本的推理过程。最终得到段落向量D'，将文本信息映射到高维空间。本方法中使用40多万句从网络上获取的日常对话进行PV模型的训练，然后将新样本的文本信息输入PV模型，得到文本的高维特征表示。

步骤五、将步骤四中得到的高维特征表示输入SVM中进行SVM训练，用训练好的SVM模型进行二分类。我们定义：更趋向抑郁症的特征表现将被划分为1类(如睡眠差，心情糟糕等)，否则将被划为0类。

步骤六、将步骤三中得到的PHQ-8得分与步骤五中得到的0、1分类结果串接后输入随机森林Random Forests模型进行训练，用训练好的随机森林Random Forests模型实现最终抑郁症的分类任务，即抑郁或非抑郁。

现结合实施例对本发明作进一步描述：

1、音视频特征提取。

本发明音频采用openSMILE开源工具包提取了238维底层描述符特征，同时在此基础上，对每一维度的底层描述特征统计了29维functional特征，因此，共产生238*29＝6902维音频特征。提取的音频特征如表1和表2所示。

表1 openSMILE提取的底层描述符特征*(238)

(*△和△△分别代表了一阶和二阶导数)

表2 openSMILE提取的functional特征(29)

本发明中视频采用人脸面部68个特征点的二维坐标值，其中包括17个脸部轮廓点，10个眉毛周围点，12个眼眶周围点，9个鼻子周围点以及20个嘴部周围点。每一个坐标点由X和Y坐标值组成，因此68个点一共产生136维特征。

同时，为了统计视频全局特征，本发明提出了一种全局特征统计方法“位移范围直方图”，该方法能有效的反映了特征点的运动信息和速度信息。本发明中，采用性别独立的抑郁症研究，针对男性，我们提取出2710维位移范围直方图特征，针对女性，我们提取出4080维位移范围直方图特征。表3是该算法的详细过程：

表3位移范围直方图算法流程

2、基于DCNN-DNN的抑郁症估计。

a)基于DCNN的隐层抽象特征提取

通过将式(1)和式(2)多次组合，可以构建深度卷积神经网络。通过将音视频全局特征作为DCNN网络输入，标签作为DCNN监督信息，以最小化均方误差为目标函数，对DCNN网络进行训练。当网络训练结束后，再次将音视频全局特征作为网络的输入，进行一次前向过程，并取出DCNN网络倒数第二层特征，作为基于DCNN的隐层抽象特征。本发明中女性音频和视频隐层抽象特征均为30维，男性音频隐层抽象特征为25维，视频隐层抽象特征为20维。

b)基于DCNN-DNN的单模态抑郁症估计

将a)中得到的隐层特征作为DNN模型的输入，最终进行单模态的抑郁症估计。在DNN网络中，我们采用σ(z)＝max(0,z)作为每一层网络的激活函数。

c)基于DCNN-DNN的多模态抑郁症估计

通过b)，我们得到音视频单模态抑郁症估计。本发明中采用决策融合的方法，将音频和视频单模态估计值输入另一个DNN模型中，进行最终多模态抑郁症估计。

3、基于段落向量PV和SVM的文本信息分类。

a)段落向量模型的训练

段向量通过无监督学习方式可以将文本信息映射到一个特征向量空间中，这种方法可以将不同长度的文本映射到相同维度的空间中，同时能兼顾文本的顺序信息。段向量框架共包含两个步骤：训练字典中的词向量W以及段向量D。在第一个阶段中，我们定义：给定一个词序列w₁,w₂,w₃,...,w_n以及一个段落序列p₁,p₂,p₃,...,p_m，n和m分别表示字典中词的个数和段落的个数。每个单词被表示为一个向量每个段落被表示为V_pi。我们得到段落向量模型的目标是最大化式(4)的似然概率：

其中，概率p通过一个softmax函数得到：

(4)中y_i是关于W和D的函数，计算方法如下：

y＝b+Uh(w_t-k,...,w_t+k；W,D) (6)

U和b是softmax参数。在第二阶段，将W,U,b固定，在D中加入新段的id信息，同时使用梯度下降法进行新样本的推理过程。最终得到段落向量D'，将文本信息映射到高维空间。在本发明中，使用了400000句日常交流用语(电视剧台词)用于训练PV模型。设置窗长为5，向量长度为100。

b)提取文本信息特征

本发明中提取可以反映患者生活状态的文本信息，总结如下五点：(1)反映患者睡眠状态的文本信息；(2)反映患者最近一段时间内的感觉好坏的文本信息；(3)反映患者性格特点的文本信息；(4)反映患者是否之前被诊断过抑郁症的文本信息；(5)反映患者是否之前被诊断过创伤后应激障碍的文本信息。将涉及到以上信息的文本输入段落向量模型中，将会得到高维特征输出，本发明中每句话将映射到100维向量空间中。

c)文本特征分类

我们定义，趋于抑郁症的文本特征为1类(如睡眠不好，最近心情不好)，而趋于非抑郁症的特征为0类(如睡眠好，心情好)。将b)中得到的特征向量作为SVM的输入，然后对该输入进行0类和1类的二分类。

4、基于DCNN-DNN和PV-SVM的抑郁症分类。

由2和3中我们分别得到抑郁症的多模态估计值，以及患者的文本信息分类结果。然后将多模态估计值和分类结果作为随机森林的输入，进行最终的抑郁症分类。

本发明利用DCNN-DNN模型实现了抑郁症抑郁程度的估计，利用PV-SVM模型对文本信息进行了分析，最后实现了一个抑郁症分类框架。经过对本发明进行的实验检验，抑郁症分类的F1值可达到0.822。

Claims

1.一种基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法，其特征在于步骤如下：

所述的位移范围直方图统计方法步骤如下：

<mrow> <msubsup> <mi>C</mi> <mi>x</mi> <mi>j</mi> </msubsup> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>&times;</mo> <msubsup> <mi>Input</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>b</mi> <mi>x</mi> <mi>j</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>S</mi> <mrow> <mi>x</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>=</mo> <mi>F</mi> <mrow> <mo>(</mo> <mi>H</mi> <mo>(</mo> <msub> <mi>C</mi> <mi>x</mi> </msub> <mo>)</mo> <mo>&times;</mo> <msubsup> <mi>w</mi> <mrow> <mi>x</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mrow> <mi>x</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

σ(z)＝max(0,z) (3)

<mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mi>k</mi> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mi>k</mi> </mrow> </munderover> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mo>+</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中，k是1到n中的某个数，概率p通过一个softmax函数得到：

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mo>+</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msub> <mi>y</mi> <msub> <mi>w</mi> <mi>t</mi> </msub> </msub> </msup> <mrow> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <msup> <mi>e</mi> <msub> <mi>y</mi> <mi>i</mi> </msub> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

上式中y_i是关于W和D的函数，计算方法如下：

y＝b+Uh(w_t-k,...,w_t+k；W,D) (6)

其中，U和b是softmax参数；