CN107133481A - 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法 - Google Patents
基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法 Download PDFInfo
- Publication number
- CN107133481A CN107133481A CN201710363943.4A CN201710363943A CN107133481A CN 107133481 A CN107133481 A CN 107133481A CN 201710363943 A CN201710363943 A CN 201710363943A CN 107133481 A CN107133481 A CN 107133481A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- depression
- features
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000006073 displacement reaction Methods 0.000 claims abstract description 18
- 238000007637 random forest analysis Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000007619 statistical method Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 7
- 230000000994 depressogenic effect Effects 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 20
- 238000012706 support-vector machine Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 206010027940 Mood altered Diseases 0.000 description 2
- 206010062519 Poor quality sleep Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 208000020401 Depressive disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 210000004279 orbit Anatomy 0.000 description 1
- 208000028173 post-traumatic stress disease Diseases 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于DCNN‑DNN和PV‑SVM的多模态抑郁症估计和分类方法,利用位移范围直方图和Opensmile工具对音视频特征进行预处理,利用深度卷积神经网络提取中音、视频统计特征的隐层抽象特征,利用深度神经网络DNN进行抑郁症估计,利用段向量PV方法进行文本信息的高维特征映射,将得到的高维特征表示输入SVM中进行二分类,将抑郁症估计与二分类结果串接后输入随机森林Random Forests模型进行训练,用训练好的随机森林Random Forests模型实现最终抑郁症的分类任务,即抑郁或非抑郁。由于采用DCNN模型对初级音视频提取了隐层抽象特征,这样使原来高维特征变得更加紧凑,包含的信息更加丰富,从而使模型更加有效,避免了由于特征维度过高导致的过拟合现象。
Description
技术领域
本发明属于计算机和医学结合领域,采用深度卷积神经网络(DCNN)、深度神经网络(DNN)、段落向量(PV)以及支持向量机(SVM)模型,涉及一种从听觉、视觉和文本信息中对抑郁症进行分类的方法。
背景技术
近年来,人工智能领域已经借助机器学习方法,从音频、视频出发建立了多种多样的抑郁症检测系统,来帮助心理学家进行临床抑郁症的检测预防和治疗。在过去的几年中,通过音视频信息来进行抑郁症的检测领域已经取得了许多重要的成果。文献“DecisionTree Based Depression Classification from Audio Video and LanguageInformation,2016 6th AVEC,pp 89-96”公开了一种基于音频、视频的多模态抑郁症估计,之后结合文本信息手动建立决策树对抑郁症进行分类。此方法分为抑郁症估计和抑郁症分类两部分。在抑郁症估计阶段,采用音视频单模态对抑郁症进行初步估计,之后又将音视频的单模态估计结果相结合,进行最终的多模态抑郁症估计。但是,这种方法在抑郁症估计阶段,受到样本数量,特征种类多、针对性差以及模型性能的局限,导致对抑郁症的估计准确度低,泛化性差,无法达到精度要求;在抑郁症分类阶段,此方法采用人工分析文本信息的方法,结合抑郁症估计阶段的估计值,通过人工建立决策树,实现抑郁症的分类。这一阶段由于需要人工分析文本信息,因此主观性大,工作量大,因此此方法具有局限性且难以推广。
目前研究学者借助机器学习方法来判断抑郁症已经取得了一定的成果,然而由于抑郁症的复杂性以及个体的差异性,抑郁症的研究仍然面临以下挑战:
1)“多对一”问题。而在抑郁症研究中,往往是一个样本(许多帧)对应一个抑郁程度。这种多对一的问题导致大量有用的时序信息被丢弃,造成信息浪费。为了弥补信息丢失的缺点,学者设计了多种统计方法,这样产生非常高的特征维度,容易导致过拟合现象。
2)大量有用的信息未被挖掘。目前,较多研究的是通过音视频来检测抑郁症。这种通过音视频来研究抑郁症的方法,通常是“内容无关”的方法。而通过文本信息来研究抑郁症的方法现在还不是很成熟。通常,文本信息中反映了患者的睡眠、生活状态等信息,这种“内容相关”的方法目前还没有被大量挖掘。
综上所述,现有的抑郁症检测方法易受特征维度影响,大量信息未被全面研究,容易造成抑郁症估计精确度低,抑郁症检测分类正确率低。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明设计了一种基于深度卷积神经网络(DCNN)、深度神经网络(DNN)、段落向量(PV)以及支持向量机(SVM)的多模态抑郁症估计和分类方法。
技术方案
1.一种基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法,其特征在于
步骤如下:
步骤1:利用位移范围直方图和Opensmile工具对音视频特征进行预处理:将视频Landmarks特征输入位移范围直方图统计方法中,得到视频Landmarks特征的全局特征;将音频LLD特征输入Opensmile工具提取音频全局统计信息;
所述的位移范围直方图统计方法步骤如下:
首先定义时间间隔M:={M1,M2,M3,...,Mx},范围R:={R1,R2,R3,...,Rz},视频Landmarks特征作为位移范围直方图统计方法的输入,x和z分别代表时间间隔和范围的个数;
然后,对于每一个时间间隔Mx,计算Landmarks特征每一个维度中,第i+Mx帧与第i帧之间的差值,得到差值矩阵;
最后,统计差值矩阵中每个维度在每个范围Rz中的分布个数;将得到的分布个数除以原始Landmarks特征的总帧数,得到归一化后的视频Landmarks全局特征;
步骤2:利用深度卷积神经网络提取步骤1中音、视频统计特征的隐层抽象特征:
式(1)中,代表输入的音、视频特征,fx,i代表卷积模板,n代表卷积模板中元素个数,代表卷积后的抽象特征,表示为对得到的抽象特征进行pooling;式(2)中,H(·)函数代表一种函数变换,F(·)函数代表ReLU激活函数,如公式(3)所示,代表权重信息;(1)式和(2)式中和分别为偏置,j和k代表位置块信息;
σ(z)=max(0,z) (3)
以患者真实的PHQ-8得分为DCNN模型的监督信息,通过重复(1)式和(2)式过程,进行DCNN模型的训练;将音频和视频特征输入训练好的DCNN模型中进行一次前向过程,并将倒数第二层隐层数据取出,作为初级音频视频特征的隐层抽象特征;
步骤3:利用深度神经网络DNN进行抑郁症估计:将步骤2中得到音频、视频的隐层抽象特征作为DNN网络的输入,以标准PHQ-8得分为监督信息,进行单模态DNN模型的训练,用训练好的单模态DNN模型进行新样本的PHQ-8得分估计,从而得到音频和视频的单模态抑郁症PHQ-8得分估计,然后采用决策融合的方法将音频和视频的单模态PHQ-8得分输入另一个DNN模型中,再次以标准PHQ-8得分为监督信息,进行多模态DNN模型的训练,最终利用这个多模态DNN模型进行新样本的PHQ-8得分估计;其中单模态和多模态中的两个DNN网络中每层的激活函数都采用ReLU函数;
步骤4:利用段向量PV方法进行文本信息的高维特征映射:段向量框架共包含两个步骤:训练字典中的词向量W以及段向量D;
在第一个阶段中,从日常交流用语中提取词序列w1,w2,w3,...,wn以及段落序列p1,p2,p3,...,pm,n和m分别表示字典中词的个数和段落的个数;每个单词被表示为一个向量每个段落被表示为得到段落向量模型的目标是最大化式(4)的似然概率:
其中,k是1到n中的某个数,概率p通过一个softmax函数得到:
上式中yi是关于W和D的函数,计算方法如下:
y=b+Uh(wt-k,...,wt+k;W,D) (6)
其中,U和b是softmax参数;
在第二阶段,将W,U,b固定,在D中加入反映患者生活状态的文本的id信息,同时使用梯度下降法进行这些新加入的文本的推理过程;最终得到段落向量D',即反映患者生活状态的文本的高维特征表示;
步骤5:将步骤4中得到的高维特征表示输入SVM中进行SVM训练,用训练好的SVM模型进行二分类:更趋向抑郁症的特征表现将被划分为1,否则将被划为0类;
步骤6:将步骤3中得到的多模态PHQ-8得分与步骤5中得到的0、1分类结果串接后输入随机森林Random Forests模型进行训练,用训练好的随机森林Random Forests模型实现最终抑郁症的分类任务,即抑郁或非抑郁。
有益效果
本发明提出的一种基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法,由于采用DCNN模型对初级音视频提取了隐层抽象特征,这样使原来高维特征变得更加紧凑,包含的信息更加丰富,从而使模型更加有效,避免了由于特征维度过高导致的过拟合现象。同时,该发明提供了一种利用文本信息的新思路,挖掘了更多的信息。这种高层特征与低层抽象特征相结合的方法,提高了抑郁症的检测准确度。
1)提出一种基于DCNN-DNN的多模态抑郁症估计模型。这种模型将深度卷积神经网络可以提取抽象特征的方法和深度神经网络挖掘特征隐含联系的能力相结合,能够有效的提高抑郁症的识别精度。
2)提出一种基于PV-SVM的抑郁症文本分析方法。这种方法通过将涉及患者生活的文本信息输入到段落向量PV模型中,实现将文本信息映射到要给高维特征空间,进而通过支持向量机SVM自动实现患者生活状态的分类目标。
3)本发明将DCNN-DNN模型和PV-SVM模型相结合,通过将音视频低层特征预测得到的抑郁症程度与通过文本信息得到的生活状态的分类结果相结合,最终实现抑郁症的分类任务。
4)本发明提出一种特征统计方法“位移范围直方图”,这种方法有效的反映了患者的运动信息和速度信息。
具体实施方式
本发明的具体步骤如下:
步骤一、利用位移范围直方图和Opensmile工具对音视频特征进行预处理。此步骤分为两部分:(1)将视频Landmarks特征输入位移范围直方图统计方法中,得到视频Landmarks特征的全局特征;(2)将音频LLD特征输入Opensmile工具提取音频全局统计信息。
所述的位移范围直方图统计方法步骤如下:
首先定义时间间隔M:={M1,M2,M3,...,Mx},范围R:={R1,R2,R3,...,Rz},视频Landmarks特征作为位移范围直方图统计方法的输入,x和z分别代表时间间隔和范围的个数。
然后,对于每一个时间间隔Mx,计算Landmarks特征每一个维度中,第i+Mx帧与第i帧之间的差值,得到差值矩阵。
最后,统计差值矩阵中每个维度在每个范围Rz中的分布个数。将得到的分布个数除以原始Landmarks特征的总帧数,得到归一化后的视频Landmarks全局特征。
步骤二、利用深度卷积神经网络提取步骤一中音、视频统计特征的隐层抽象特征。
式(1)中,代表输入的音、视频特征,fx,i代表卷积模板,n代表卷积模板中元素个数,代表卷积后的抽象特征,表示为对得到的抽象特征进行pooling。式(2)中,H(·)函数代表一种函数变换,如求一个块信息中的最大值或者均值,F(·)函数代表ReLU激活函数(公式三所示),代表权重信息。(1)式和(2)式中和分别为偏置,j和k代表位置块信息。
σ(z)=max(0,z) (3)
以患者真实的PHQ-8得分为DCNN模型的监督信息,通过重复(1)式和(2)式过程,进行DCNN模型的训练。本发明中,将音频和视频特征输入训练好的DCNN模型中进行一次前向过程,并将倒数第二层隐层数据取出,作为初级音频视频特征的隐层抽象特征。
步骤三、利用深度神经网络DNN进行抑郁症估计。DNN网络的全连接结构具有挖掘数据之间隐含联系的能力,本发明中,将步骤二中得到的抽象特征作为DNN网络的输入,以标准PHQ-8得分为监督信息,进行DNN模型的训练,用训练好的DNN模型最终进行新样本的PHQ-8得分估计。在本发明中,DNN网络中每层的激活函数采用ReLU函数,由于ReLU的单侧抑制特性,从一定程度上缓解了梯度消失现象。
步骤四、利用段向量PV方法进行文本信息的高维特征映射。段向量通过无监督学习方式可以将文本信息映射到一个特征向量空间中,这种方法可以将不同长度的文本映射到相同维度的空间中,同时能兼顾文本的顺序信息。段向量框架共包含两个步骤:训练字典中的词向量W以及段向量D。在第一个阶段中,我们定义:给定一个词序列w1,w2,w3,...,wn以及一个段落序列p1,p2,p3,...,pm,n和m分别表示字典中词的个数和段落的个数。每个单词被表示为一个向量每个段落被表示为我们得到段落向量模型的目标是最大化式(4)的似然概率:
其中,k是1到n中的某个数,概率p通过一个softmax函数得到:
(5)中yi是关于W和D的函数,计算方法如下:
y=b+Uh(wt-k,...,wt+k;W,D) (6)
U和b是softmax参数。在第二阶段,将W,U,b固定,在D中加入新段的id信息,同时使用梯度下降法进行新样本的推理过程。最终得到段落向量D',将文本信息映射到高维空间。本方法中使用40多万句从网络上获取的日常对话进行PV模型的训练,然后将新样本的文本信息输入PV模型,得到文本的高维特征表示。
步骤五、将步骤四中得到的高维特征表示输入SVM中进行SVM训练,用训练好的SVM模型进行二分类。我们定义:更趋向抑郁症的特征表现将被划分为1类(如睡眠差,心情糟糕等),否则将被划为0类。
步骤六、将步骤三中得到的PHQ-8得分与步骤五中得到的0、1分类结果串接后输入随机森林Random Forests模型进行训练,用训练好的随机森林Random Forests模型实现最终抑郁症的分类任务,即抑郁或非抑郁。
现结合实施例对本发明作进一步描述:
1、音视频特征提取。
本发明音频采用openSMILE开源工具包提取了238维底层描述符特征,同时在此基础上,对每一维度的底层描述特征统计了29维functional特征,因此,共产生238*29=6902维音频特征。提取的音频特征如表1和表2所示。
表1 openSMILE提取的底层描述符特征*(238)
(*△和△△分别代表了一阶和二阶导数)
表2 openSMILE提取的functional特征(29)
本发明中视频采用人脸面部68个特征点的二维坐标值,其中包括17个脸部轮廓点,10个眉毛周围点,12个眼眶周围点,9个鼻子周围点以及20个嘴部周围点。每一个坐标点由X和Y坐标值组成,因此68个点一共产生136维特征。
同时,为了统计视频全局特征,本发明提出了一种全局特征统计方法“位移范围直方图”,该方法能有效的反映了特征点的运动信息和速度信息。本发明中,采用性别独立的抑郁症研究,针对男性,我们提取出2710维位移范围直方图特征,针对女性,我们提取出4080维位移范围直方图特征。表3是该算法的详细过程:
表3位移范围直方图算法流程
2、基于DCNN-DNN的抑郁症估计。
a)基于DCNN的隐层抽象特征提取
通过将式(1)和式(2)多次组合,可以构建深度卷积神经网络。通过将音视频全局特征作为DCNN网络输入,标签作为DCNN监督信息,以最小化均方误差为目标函数,对DCNN网络进行训练。当网络训练结束后,再次将音视频全局特征作为网络的输入,进行一次前向过程,并取出DCNN网络倒数第二层特征,作为基于DCNN的隐层抽象特征。本发明中女性音频和视频隐层抽象特征均为30维,男性音频隐层抽象特征为25维,视频隐层抽象特征为20维。
b)基于DCNN-DNN的单模态抑郁症估计
将a)中得到的隐层特征作为DNN模型的输入,最终进行单模态的抑郁症估计。在DNN网络中,我们采用σ(z)=max(0,z)作为每一层网络的激活函数。
c)基于DCNN-DNN的多模态抑郁症估计
通过b),我们得到音视频单模态抑郁症估计。本发明中采用决策融合的方法,将音频和视频单模态估计值输入另一个DNN模型中,进行最终多模态抑郁症估计。
3、基于段落向量PV和SVM的文本信息分类。
a)段落向量模型的训练
段向量通过无监督学习方式可以将文本信息映射到一个特征向量空间中,这种方法可以将不同长度的文本映射到相同维度的空间中,同时能兼顾文本的顺序信息。段向量框架共包含两个步骤:训练字典中的词向量W以及段向量D。在第一个阶段中,我们定义:给定一个词序列w1,w2,w3,...,wn以及一个段落序列p1,p2,p3,...,pm,n和m分别表示字典中词的个数和段落的个数。每个单词被表示为一个向量每个段落被表示为Vpi。我们得到段落向量模型的目标是最大化式(4)的似然概率:
其中,概率p通过一个softmax函数得到:
(4)中yi是关于W和D的函数,计算方法如下:
y=b+Uh(wt-k,...,wt+k;W,D) (6)
U和b是softmax参数。在第二阶段,将W,U,b固定,在D中加入新段的id信息,同时使用梯度下降法进行新样本的推理过程。最终得到段落向量D',将文本信息映射到高维空间。在本发明中,使用了400000句日常交流用语(电视剧台词)用于训练PV模型。设置窗长为5,向量长度为100。
b)提取文本信息特征
本发明中提取可以反映患者生活状态的文本信息,总结如下五点:(1)反映患者睡眠状态的文本信息;(2)反映患者最近一段时间内的感觉好坏的文本信息;(3)反映患者性格特点的文本信息;(4)反映患者是否之前被诊断过抑郁症的文本信息;(5)反映患者是否之前被诊断过创伤后应激障碍的文本信息。将涉及到以上信息的文本输入段落向量模型中,将会得到高维特征输出,本发明中每句话将映射到100维向量空间中。
c)文本特征分类
我们定义,趋于抑郁症的文本特征为1类(如睡眠不好,最近心情不好),而趋于非抑郁症的特征为0类(如睡眠好,心情好)。将b)中得到的特征向量作为SVM的输入,然后对该输入进行0类和1类的二分类。
4、基于DCNN-DNN和PV-SVM的抑郁症分类。
由2和3中我们分别得到抑郁症的多模态估计值,以及患者的文本信息分类结果。然后将多模态估计值和分类结果作为随机森林的输入,进行最终的抑郁症分类。
本发明利用DCNN-DNN模型实现了抑郁症抑郁程度的估计,利用PV-SVM模型对文本信息进行了分析,最后实现了一个抑郁症分类框架。经过对本发明进行的实验检验,抑郁症分类的F1值可达到0.822。
Claims (1)
1.一种基于DCNN-DNN和PV-SVM的多模态抑郁症估计和分类方法,其特征在于步骤如下:
步骤1:利用位移范围直方图和Opensmile工具对音视频特征进行预处理:将视频Landmarks特征输入位移范围直方图统计方法中,得到视频Landmarks特征的全局特征;将音频LLD特征输入Opensmile工具提取音频全局统计信息;
所述的位移范围直方图统计方法步骤如下:
首先定义时间间隔M:={M1,M2,M3,...,Mx},范围R:={R1,R2,R3,...,Rz},视频Landmarks特征作为位移范围直方图统计方法的输入,x和z分别代表时间间隔和范围的个数;
然后,对于每一个时间间隔Mx,计算Landmarks特征每一个维度中,第i+Mx帧与第i帧之间的差值,得到差值矩阵;
最后,统计差值矩阵中每个维度在每个范围Rz中的分布个数;将得到的分布个数除以原始Landmarks特征的总帧数,得到归一化后的视频Landmarks全局特征;
步骤2:利用深度卷积神经网络提取步骤1中音、视频统计特征的隐层抽象特征:
<mrow>
<msubsup>
<mi>C</mi>
<mi>x</mi>
<mi>j</mi>
</msubsup>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>i</mi>
</mrow>
</msub>
<mo>&times;</mo>
<msubsup>
<mi>Input</mi>
<mi>i</mi>
<mi>j</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>b</mi>
<mi>x</mi>
<mi>j</mi>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>S</mi>
<mrow>
<mi>x</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<mo>=</mo>
<mi>F</mi>
<mrow>
<mo>(</mo>
<mi>H</mi>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>x</mi>
</msub>
<mo>)</mo>
<mo>&times;</mo>
<msubsup>
<mi>w</mi>
<mrow>
<mi>x</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<mo>+</mo>
<msubsup>
<mi>b</mi>
<mrow>
<mi>x</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
式(1)中,代表输入的音、视频特征,fx,i代表卷积模板,n代表卷积模板中元素个数,代表卷积后的抽象特征,表示为对得到的抽象特征进行pooling;式(2)中,H(·)函数代表一种函数变换,F(·)函数代表ReLU激活函数,如公式(3)所示,代表权重信息;(1)式和(2)式中和分别为偏置,j和k代表位置块信息;
σ(z)=max(0,z) (3)
以患者真实的PHQ-8得分为DCNN模型的监督信息,通过重复(1)式和(2)式过程,进行DCNN模型的训练;将音频和视频特征输入训练好的DCNN模型中进行一次前向过程,并将倒数第二层隐层数据取出,作为初级音频视频特征的隐层抽象特征;
步骤3:利用深度神经网络DNN进行抑郁症估计:将步骤2中得到音频、视频的隐层抽象特征作为DNN网络的输入,以标准PHQ-8得分为监督信息,进行单模态DNN模型的训练,用训练好的单模态DNN模型进行新样本的PHQ-8得分估计,从而得到音频和视频的单模态抑郁症PHQ-8得分估计,然后采用决策融合的方法将音频和视频的单模态PHQ-8得分输入另一个DNN模型中,再次以标准PHQ-8得分为监督信息,进行多模态DNN模型的训练,最终利用这个多模态DNN模型进行新样本的PHQ-8得分估计;其中单模态和多模态中的两个DNN网络中每层的激活函数都采用ReLU函数;
步骤4:利用段向量PV方法进行文本信息的高维特征映射:段向量框架共包含两个步骤:训练字典中的词向量W以及段向量D;
在第一个阶段中,从日常交流用语中提取词序列w1,w2,w3,...,wn以及段落序列p1,p2,p3,...,pm,n和m分别表示字典中词的个数和段落的个数;每个单词被表示为一个向量每个段落被表示为得到段落向量模型的目标是最大化式(4)的似然概率:
<mrow>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mi>k</mi>
</mrow>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</munderover>
<mi>log</mi>
<mi> </mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msub>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mi>k</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,k是1到n中的某个数,概率p通过一个softmax函数得到:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mi>k</mi>
</mrow>
</msub>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mi>k</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<msup>
<mi>e</mi>
<msub>
<mi>y</mi>
<msub>
<mi>w</mi>
<mi>t</mi>
</msub>
</msub>
</msup>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mi>i</mi>
</msub>
<msup>
<mi>e</mi>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
上式中yi是关于W和D的函数,计算方法如下:
y=b+Uh(wt-k,...,wt+k;W,D) (6)
其中,U和b是softmax参数;
在第二阶段,将W,U,b固定,在D中加入反映患者生活状态的文本的id信息,同时使用梯度下降法进行这些新加入的文本的推理过程;最终得到段落向量D',即反映患者生活状态的文本的高维特征表示;
步骤5:将步骤4中得到的高维特征表示输入SVM中进行SVM训练,用训练好的SVM模型进行二分类:更趋向抑郁症的特征表现将被划分为1,否则将被划为0类;
步骤6:将步骤3中得到的多模态PHQ-8得分与步骤5中得到的0、1分类结果串接后输入随机森林Random Forests模型进行训练,用训练好的随机森林Random Forests模型实现最终抑郁症的分类任务,即抑郁或非抑郁。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710363943.4A CN107133481A (zh) | 2017-05-22 | 2017-05-22 | 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710363943.4A CN107133481A (zh) | 2017-05-22 | 2017-05-22 | 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107133481A true CN107133481A (zh) | 2017-09-05 |
Family
ID=59732523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710363943.4A Pending CN107133481A (zh) | 2017-05-22 | 2017-05-22 | 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107133481A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107802273A (zh) * | 2017-11-21 | 2018-03-16 | 重庆邮电大学 | 一种抑郁状态监测装置、系统及预测方法 |
CN108038413A (zh) * | 2017-11-02 | 2018-05-15 | 平安科技(深圳)有限公司 | 欺诈可能性分析方法、装置及存储介质 |
CN108335749A (zh) * | 2018-01-26 | 2018-07-27 | 首都师范大学 | 抑郁症数据分析方法及装置 |
CN109171769A (zh) * | 2018-07-12 | 2019-01-11 | 西北师范大学 | 一种应用于抑郁症检测的语音、面部特征提取方法及系统 |
CN109767788A (zh) * | 2019-02-25 | 2019-05-17 | 南京信息工程大学 | 一种基于lld和dss融合特征的语音情感识别方法 |
CN110222827A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 基于文本的抑郁判定网络模型的训练方法 |
CN110236572A (zh) * | 2019-05-07 | 2019-09-17 | 平安科技(深圳)有限公司 | 基于体温信息的抑郁症预测系统 |
CN110363129A (zh) * | 2019-07-05 | 2019-10-22 | 昆山杜克大学 | 基于微笑范式和音视频行为分析的孤独症早期筛查系统 |
CN110706786A (zh) * | 2019-09-23 | 2020-01-17 | 湖南检信智能科技有限公司 | 非接触式心理参数智能分析与评测系统 |
CN112331337A (zh) * | 2021-01-04 | 2021-02-05 | 中国科学院自动化研究所 | 自动抑郁检测方法、装置、设备 |
CN112446326A (zh) * | 2020-11-26 | 2021-03-05 | 中国核动力研究设计院 | 基于深度复卷积网络的屏蔽泵故障模式识别方法及系统 |
CN112470143A (zh) * | 2018-09-12 | 2021-03-09 | 株式会社Fronteo | 痴呆症预测装置、预测模型生成装置及痴呆症预测用程序 |
US10971255B2 (en) | 2018-09-14 | 2021-04-06 | Zasti Inc. | Multimodal learning framework for analysis of clinical trials |
CN112768070A (zh) * | 2021-01-06 | 2021-05-07 | 万佳安智慧生活技术(深圳)有限公司 | 一种基于对话交流的精神健康评测方法和系统 |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
US11101043B2 (en) | 2018-09-24 | 2021-08-24 | Zasti Inc. | Hybrid analysis framework for prediction of outcomes in clinical trials |
CN114822776A (zh) * | 2022-04-22 | 2022-07-29 | 北京聆心智能科技有限公司 | 一种基于多维信息的病种识别方法、装置及设备 |
CN115064246A (zh) * | 2022-08-18 | 2022-09-16 | 山东第一医科大学附属省立医院(山东省立医院) | 一种基于多模态信息融合的抑郁症评估系统及设备 |
-
2017
- 2017-05-22 CN CN201710363943.4A patent/CN107133481A/zh active Pending
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038413A (zh) * | 2017-11-02 | 2018-05-15 | 平安科技(深圳)有限公司 | 欺诈可能性分析方法、装置及存储介质 |
CN107802273A (zh) * | 2017-11-21 | 2018-03-16 | 重庆邮电大学 | 一种抑郁状态监测装置、系统及预测方法 |
CN108335749A (zh) * | 2018-01-26 | 2018-07-27 | 首都师范大学 | 抑郁症数据分析方法及装置 |
CN109171769A (zh) * | 2018-07-12 | 2019-01-11 | 西北师范大学 | 一种应用于抑郁症检测的语音、面部特征提取方法及系统 |
CN112470143A (zh) * | 2018-09-12 | 2021-03-09 | 株式会社Fronteo | 痴呆症预测装置、预测模型生成装置及痴呆症预测用程序 |
US10971255B2 (en) | 2018-09-14 | 2021-04-06 | Zasti Inc. | Multimodal learning framework for analysis of clinical trials |
US11101043B2 (en) | 2018-09-24 | 2021-08-24 | Zasti Inc. | Hybrid analysis framework for prediction of outcomes in clinical trials |
CN109767788A (zh) * | 2019-02-25 | 2019-05-17 | 南京信息工程大学 | 一种基于lld和dss融合特征的语音情感识别方法 |
CN110236572A (zh) * | 2019-05-07 | 2019-09-17 | 平安科技(深圳)有限公司 | 基于体温信息的抑郁症预测系统 |
CN110222827A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 基于文本的抑郁判定网络模型的训练方法 |
CN110363129B (zh) * | 2019-07-05 | 2022-05-27 | 昆山杜克大学 | 基于微笑范式和音视频行为分析的孤独症早期筛查系统 |
CN110363129A (zh) * | 2019-07-05 | 2019-10-22 | 昆山杜克大学 | 基于微笑范式和音视频行为分析的孤独症早期筛查系统 |
CN110706786B (zh) * | 2019-09-23 | 2023-09-22 | 湖南检信智能科技有限公司 | 非接触式心理参数智能分析与评测系统 |
CN110706786A (zh) * | 2019-09-23 | 2020-01-17 | 湖南检信智能科技有限公司 | 非接触式心理参数智能分析与评测系统 |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN112446326A (zh) * | 2020-11-26 | 2021-03-05 | 中国核动力研究设计院 | 基于深度复卷积网络的屏蔽泵故障模式识别方法及系统 |
CN112331337B (zh) * | 2021-01-04 | 2021-04-16 | 中国科学院自动化研究所 | 自动抑郁检测方法、装置、设备 |
US11266338B1 (en) | 2021-01-04 | 2022-03-08 | Institute Of Automation, Chinese Academy Of Sciences | Automatic depression detection method and device, and equipment |
CN112331337A (zh) * | 2021-01-04 | 2021-02-05 | 中国科学院自动化研究所 | 自动抑郁检测方法、装置、设备 |
CN112768070A (zh) * | 2021-01-06 | 2021-05-07 | 万佳安智慧生活技术(深圳)有限公司 | 一种基于对话交流的精神健康评测方法和系统 |
CN114822776A (zh) * | 2022-04-22 | 2022-07-29 | 北京聆心智能科技有限公司 | 一种基于多维信息的病种识别方法、装置及设备 |
CN115064246A (zh) * | 2022-08-18 | 2022-09-16 | 山东第一医科大学附属省立医院(山东省立医院) | 一种基于多模态信息融合的抑郁症评估系统及设备 |
CN115064246B (zh) * | 2022-08-18 | 2022-12-20 | 山东第一医科大学附属省立医院(山东省立医院) | 一种基于多模态信息融合的抑郁症评估系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133481A (zh) | 基于dcnn‑dnn和pv‑svm的多模态抑郁症估计和分类方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
US11393206B2 (en) | Image recognition method and apparatus, terminal, and storage medium | |
Yang et al. | Multimodal measurement of depression using deep learning models | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
Huang et al. | Speech emotion recognition from variable-length inputs with triplet loss function. | |
CN109492101B (zh) | 基于标签信息与文本特征的文本分类方法、系统及介质 | |
CN104992191B (zh) | 基于深度学习的特征和最大置信路径的图像分类方法 | |
CN116416441A (zh) | 基于多层次变分自动编码器的高光谱图像特征提取方法 | |
CN111522956A (zh) | 基于双通道和层次化注意力网络的文本情感分类方法 | |
CN111583964A (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
CN105469784A (zh) | 概率线性鉴别分析模型生成方法和说话人聚类方法及系统 | |
CN112465054B (zh) | 一种基于fcn的多变量时间序列数据分类方法 | |
CN115578248B (zh) | 一种基于风格引导的泛化增强图像分类算法 | |
CN111611375B (zh) | 一种基于深度学习和转折关系的文本情感分类方法 | |
CN111460142B (zh) | 一种基于自注意力卷积神经网络的短文本分类方法及系统 | |
CN113868374A (zh) | 基于多头注意力机制的图卷积网络生物医学信息提取方法 | |
CN110414483A (zh) | 一种基于深度神经网络和随机森林的人脸识别方法及系统 | |
CN112580362A (zh) | 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质 | |
CN107944398A (zh) | 基于深度特征联合表示图像集人脸识别方法、装置和介质 | |
CN113392918A (zh) | 一种基于多源信息融合的抑郁障碍相关因素识别方法 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN113095201B (zh) | 基于人脸不同区域间自注意力和不确定性加权多任务学习的au程度估计模型建立方法 | |
CN116798093A (zh) | 一种基于课程学习和标签平滑的两阶段面部表情识别方法 | |
CN114416969A (zh) | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170905 |
|
RJ01 | Rejection of invention patent application after publication |