CN112164459A - 一种抑郁症状的信息评估方法 - Google Patents
一种抑郁症状的信息评估方法 Download PDFInfo
- Publication number
- CN112164459A CN112164459A CN202010972386.8A CN202010972386A CN112164459A CN 112164459 A CN112164459 A CN 112164459A CN 202010972386 A CN202010972386 A CN 202010972386A CN 112164459 A CN112164459 A CN 112164459A
- Authority
- CN
- China
- Prior art keywords
- text
- embedding
- depression
- audio
- visitor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 25
- 208000024891 symptom Diseases 0.000 title claims abstract description 19
- 238000013519 translation Methods 0.000 claims abstract description 13
- 230000014616 translation Effects 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000003340 mental effect Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000000994 depressogenic effect Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 30
- 238000003745 diagnosis Methods 0.000 description 5
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010010144 Completed suicide Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 208000011977 language disease Diseases 0.000 description 1
- 208000024714 major depressive disease Diseases 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011422 pharmacological therapy Methods 0.000 description 1
- 208000028173 post-traumatic stress disease Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003860 sleep quality Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Pathology (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Heart & Thoracic Surgery (AREA)
- Educational Technology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Developmental Disabilities (AREA)
- Veterinary Medicine (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
Abstract
本发明公开了一种抑郁症状的信息评估方法,分析来访者与心理医生的面谈内容,并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合,对来访者对应的抑郁症相关心理量表评分,提高在不限制面谈内容的情况下评估的准确度。本发明能够为心理医生提供客观的抑郁症辅助评估方法以及快速、有效和经济的抑郁症状自我评估。
Description
技术领域
本发明属于信息分析处理领域,涉及多模态融合技术,尤其是通过语音与文本融合可用于抑郁症状评估的方法。
背景技术
抑郁症是一种全球性的精神疾病,其主要特征包括情绪体验、交流和自我调节的中断。世界上有2.64亿人患有抑郁症。在最糟糕的情况下,抑郁可能导致自残甚至自杀。根据世界卫生组织(WHO)的报告,每年约有80万人因重度抑郁症而死亡。有研究表明,在抑郁症的早期发展进行干预对阻止抑郁症进一步发展至关重要。然而,在某些情况下,对抑郁症的早期干预可能很困难。
首先,传统的抑郁症治疗方法,如心理治疗或药物治疗疗程较长,费用昂贵,且治疗效果不一定理想,上述因素会使得经济情况窘迫的病人不愿就医。其次,心理医生通常根据临床访谈、评分量表和自我评估来评估抑郁症的严重程度。然而,由于担心诊断结果会给带来歧视或其他负面后果,患者有时会故意向心理医生隐瞒自己的真实情况。负面后果包括对抑郁症患者的偏见、成见和歧视行为,这是阻止抑郁症患者向专业医生寻求帮助的主要因素。因此。基于上述两点,心理学家甚至无法正确评估抑郁症的严重程度,更不用说采取有效的干预措施了。有鉴于此,一个高效的抑郁症自动检测系统就成为一种必要,它可以帮助潜在的患者私下评估自己的病情,并提高他们对向心理医生寻求帮助的意愿。此外,当病人有意误导时,一个有效的抑郁症自动检测系统也能够在诊断过程中为心理学家提供客观的检测手段,提供辅助参考。
综上所述,抑郁症的早期干预可以通过向专业心理医生和真正的病人提供客观的抑郁检测系统来实现。研究结果表明,抑郁症对非语言行为和语言行为都有影响,包括面部表情、声调、语法、语义等。在这些理论和研究的推动下,抑郁症自动检测系统倾向于模拟临床诊断,分析患者的语言表现、面部表情和声音特征。目前,抑郁症的自动检测方法通常利用多源信息,如音频、视频和面谈的文字译本。
抑郁症自动检测过程包括两个步骤。第一步,收集来访者说话的音频或视频,这些来访者会回答心理医生精心设计的问题。文本内容也会从这些音频和视频中提取出来,以提高诊断的准确性。第二步,根据采集到的语音特征、回答内容等信息,利用算法自动分析和评估抑郁程度。
虽然研究人员在提高抑郁症检测准确率方面取得了一些进展,但在实践中仍存在很大的困难。首先,由于隐私问题,临床面谈的视频可能无法获取。其次,患者可能会无意识或有意地错误地报告自己的精神状态,从而误导诊断。第三,如何从不同源数据提取和融合具有代表性的特征需要进一步的研究。因此,抑郁症的自动检测对该领域的研究者来说仍然是一项具有挑战性的任务。
发明内容
本发明的目的在于提供一种抑郁症状的信息评估方法,通过客观和定量的衡量方法对来访者对应的抑郁症相关心理量表评分。。
为达到上述目的,本发明的解决方案是:
一种抑郁症状的信息评估方法,分析来访者与心理医生的面谈内容,并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合,对来访者对应的抑郁症相关心理量表评分,提高在不限制面谈内容的情况下评估的准确度。
进一步,包括以下步骤:
(1)从来访者面谈的音频中提取梅尔频谱特征,作为语音特征;使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征;
(2)使用一维卷积神经网络(1D-CNN)将语音特征转换为语音嵌入xaudio;一维卷积神经网络的权重为ωaudio;
(3)使用带注意力层的双向长短时记忆网络(BiLSTM with an Attention Layer)将文本特征转换为文本嵌入xtext;该网络的权重为ωtext;
(4)将语音嵌入和文本嵌入连接后输入两层全连接网络得到最终的二分类标签(是否抑郁症)或回归结果(抑郁量表分数),该融合网络使用的损失函数为:
其中xm为语音嵌入或文本嵌入;ωm为网络权重;y为二分类标签;在二分类情况下,l为交叉熵;在回归情况下,l为Huber损失函数。
对于本发明,共需要训练3个神经网络。第一个神经网络为一维卷积神经网络,第二个神经网络为带注意力层的双向长短时记忆网络,第三个神经网络为两层全连接网络,其作用为融合语音嵌入xaudio和文本嵌入xtext,并输出最终的检测结果。第三个神经网络,融合了一维卷积神经网络和带注意力层的双向长短时记忆网络;在训练第三个神经网络时,前两个网络的参数被冻结,不在后向传播中改变,唯一改变的参数只有两层全连接网络的参数。
所述步骤(1)中,从来访者面谈的音频中提取梅尔频谱特征,作为语音特征,包括以下步骤:(1-1)
将来访者面谈音频在去除静音后切割成长度为15s的音频片段,使用80个梅尔滤波器将其转换为梅尔频谱;若去除静音后的音频片段不足15s,则用0.0001填补剩余音频片段后再将其转换为梅尔频谱;每个来访者的面谈音频会被转换成一个梅尔频谱图。梅尔频谱图是通过将短时傅里叶变换幅度系数与相应的梅尔滤波器相乘计算得到,可以被认为是声谱图的非线性变换。其保持了声音的高层次细节,同时也提供了具有较好识别能力的低水平描述子。频谱图和梅尔频谱图的关系为:
所述步骤(1)中,使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征,包括以下步骤:(1-2)
将文字译本中对属于同一个问题的回答连接成一个长句,将其编码成ELMo三层嵌入的平均值;ELMo对上下文中单词的不同类型的句法和语义信息进行编码;每个问题的回答长句会转换成一个句向量;每个来访者对于不同的10个问题的回答会被转换成句向量矩阵,该矩阵行数为10。
所述步骤(2)中,使用一维卷积神经网络(1D-CNN)将语音特征转换为语音嵌入xtext,一维卷积神经网络由两个卷积层和两个池化层构成;在检测来访者是否患有抑郁症时,两个卷积层的卷积核大小为(1,7),步长为1;在检测来访者的抑郁心理量表分数时,两个卷积层的卷积核大小为(1,7),第一个卷积层的步长为1,第二个卷积层的步长为2。
所述步骤(3)中,使用带注意力层的双向长短时记忆网络(BiLSTM with anAttention Layer) 将文本特征转换为文本嵌入xtext,双向长短时记忆网络隐藏层数为2,隐藏层维数为128,随机丢弃神经元概率为0.5。
所述步骤(3)中,使用带注意力层的双向长短时记忆网络(BiLSTM with anAttention Layer) 将文本特征转换为文本嵌入xtext,其注意力层定义为:
ct=w·tanh(ot)
yh=c·oh
其中,X为来访者的句向量矩阵;H是双向长短时记忆网络(BiLSTM)的隐藏状态;和分别是BiLSTM的前向输出和后向输出;O的大小为时间步*隐藏层维数;ot为O的第t个时间步;w为隐藏状态H的权重;ct为加权上下文c处于时间t的值;oh为O的第h维;yh为输出的第h维;该输出即为生成的文本嵌入。
所述步骤(4)中,将语音嵌入和文本嵌入连接,连接方式为:
a=BiLSTM(xtext)
b=CNN1D(xaudio)
xfuse=[a1,a2,a3,…,b1,b2,b3…]
所述步骤(4)中,融合网络使用的损失函数为:
其中xm为语音嵌入或文本嵌入;ωm为网络权重;y为二分类标签;在二分类情况下,l为交叉熵;在回归情况下,l为Huber损失函数。
由于采用上述方案,本发明的有益效果是:
抑郁症的自动检测对支持临床医生的诊断和自我抑郁诊断具有重要的现实意义。然而,现有的方法都有其缺点,如需要额外的专业知识或不够准确。本发明提出了一种新的抑郁症检测方法,它分析了临床面谈的音频和文字译本,对抑郁症进行诊断。该方法对临床面谈中心理医生所问问题无限制,具有较强泛化性能,且检测结果稳定准确。
具体分析如下:多数抑郁症检测算法设计或选择一组能够更好地揭示患者的病情的问题 (如与睡眠质量、创伤后应激障碍等相关的问题),这些问题与心理学家的专业知识密切相关,而这些专业知识并不容易获得。如果在临床面谈中没有提及任何一个选定的问题/主题,这些算法将不适用,因为它们无法构建完整的特征集。对于不选定问题/注意的抑郁症检测算法,其性能无法与选定主题/问题的算法相比,即检测结果不够准确。本发明使用的一维卷积神经网络与二维卷积神经网络相比,更适合用于抑郁症检测问题中梅尔频谱图的处理。对于频率的一维卷积使得模型能够捕获短期时间相关性的声音特性。BiLSTM模型不仅可以从过去的时间步中学习,还可以从未来的时间步中学习;BiLSTM还采用了一个注意力层来获取哪一个词在抑郁检测问题中贡献最大。此外,多模态的信息输入会补足单模态中信息不足的部分,即多模态能够提供更多信息。实验证明,本发明中语音信息与文本信息的融合提升了抑郁症评估的性能。
附图说明
图1为本发明基于语音特征与文本特征融合的抑郁症检测算法的工作流程示意图。
具体实施方式
以下结合附图所示实施例对本发明作进一步的说明。
针对目前抑郁症检测算法需要额外的专业知识或不够准确的缺点,本发明分析来访者与心理医生的面谈内容,并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合,预测结果包括来访者是否患有抑郁症以及其对应的抑郁症相关心理量表评分。本算法能够为心理医生提供客观的抑郁症辅助评估方法以及快速、有效和经济的抑郁症自我评估。其具体工作流程如图1所示:
(1)从来访者面谈的音频中提取梅尔频谱特征,作为语音特征;使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征;
(1-1)将来访者面谈音频在去除静音后切割成长度为15s的音频片段,使用80个梅尔滤波器将其转换为梅尔频谱;若去除静音后的音频片段不足15s,则用0.0001填补剩余音频片段后再将其转换为梅尔频谱;每个来访者的面谈音频会被转换成一个梅尔频谱图。梅尔频谱图是通过将短时傅里叶变换幅度系数与相应的梅尔滤波器相乘计算得到,可以被认为是声谱图的非线性变换。其保持了声音的高层次细节,同时也提供了具有较好识别能力的低水平描述子。频谱图和梅尔频谱图的关系为:
(1-2)将文字译本中对属于同一个问题的回答连接成一个长句,将其编码成ELMo三层嵌入的平均值;ELMo对上下文中单词的不同类型的句法和语义信息进行编码;每个问题的回答长句会转换成一个句向量;每个来访者对于不同的10个问题的回答会被转换成句向量矩阵,该矩阵行数为10。
(2)使用一维卷积神经网络(1D-CNN)将语音特征转换为语音嵌入xaudio;
一维卷积神经网络由两个卷积层和两个池化层构成;在检测来访者是否患有抑郁症时,两个卷积层的卷积核大小为(1,7),步长为1;在检测来访者的抑郁心理量表分数时,两个卷积层的卷积核大小为(1,7),第一个卷积层的步长为1,第二个卷积层的步长为2。
(3)将使用带注意力层的双向长短时记忆网络(BiLSTM with an AttentionLayer)将文本特征转换为文本嵌入xtext;
双向长短时记忆网络隐藏层数为2,隐藏层维数为128,随机丢弃神经元概率为0.5;其注意力层定义为:
ct=w·tanh(ot)
yh=c·oh
其中,X为来访者的句向量矩阵;H是双向长短时记忆网络(BiLSTM)的隐藏状态;和分别是BiLSTM的前向输出和后向输出;O的大小为 timestep(时间步)×hidden_dim(隐藏层维度);ot为O的第t个时间步;w为隐藏状态H 的权重;ct为加权上下文c处于时间t的值;oh为O的第h维;yh为输出的第h维;该输出即为生成的文本嵌入。
(4)将将语音嵌入和文本嵌入连接后输入两层全连接网络得到最终的二分类标签(是否抑郁症)或回归结果(抑郁量表分数):
语音嵌入和文本嵌入连接方式为:
a=BiLSTM(xtext)
b=CNN1D(xaudio)
xfuse=[a1,a2,a3,…,b1,b2,b3…]
融合网络使用的损失函数为:
其中xm为语音嵌入或文本嵌入;ωm为网络权重;y为二分类标签;在二分类情况下,l为- 交叉熵:
在回归情况下,l为Huber损失函数:
该两层全连接网络为特征融合网络,其作用为融合语音嵌入xaudio和文本嵌入xtext,并输出最终的检测结果。该全连接网络包含了一维卷积神经网络和带注意力层的双向长短时记忆网络;在训练该网络时,1D-CNN和BiLSTM的参数被冻结,不在后向传播中改变,唯一改变的参数只有两层全连接网络的参数。
以下结合具体实验数据对本发明所示的基于语音特征与文本特征融合的抑郁症检测方法进一步说明。
实验条件与评分标准:
本发明所使用数据库是两个公开的抑郁症数据集,也是唯二的公开抑郁症数据。第一个数据集(DAIC)中包含142名志愿者与虚拟人物Ellie对话的音频、视频与文字译本,其中35名志愿者的PHQ8心理量表分数表明其有抑郁倾向。第二个数据集(AViD)中包含84名志愿者回答问题或朗诵诗歌的音频和视频,该数据集标签为84名志愿者的BDI-II心理量表分数。
在本发明中,抑郁症检测的准确率是关键指标。对于检测抑郁症的存在与否(二分类),本发明采用以下评价指标:
对于检测抑郁相关心理量表分数(回归),本发明采用以下评价指标:
实验结果:
表1中的数据为本发明与其他方法在DAIC数据集上的性能进行的比较。由于不同的抑郁症检测方法采用了不同的特征类型,本发明将1D-CNN模型与其他六种只接受音频特征的抑郁症检测方法进行了比较。同样,本发明将提出的BiLSTM模型与六种只接受文本特征的抑郁症检测方法进行了比较。最后,本发明将融合网络与其他两种同时接受音频和文本特征的融合方法进行了性能比较。从表1可以看出,对于只使用一种模态特征的方法,基于文本特征的检测方法在抑郁症分类任务和抑郁严重程度评估任务中的性能都优于基于音频特征的方法。与仅采用音频特征的方法相比,所提出的1D-CNN模型的F1分数为0.81,MAE为4.25。输入为文本特征的带注意层BiLSTM模型的F1值为0.83,MAE值为3.88。与其他只采用文本特征的检测方法相比,本发明提出的BiLSTM模型取得了第三好的性能,仅比最优方法的 F1分数差0.04,MAE/RMSE值差0.58/0.98。本发明所提出的多模态融合方法在分类和回归任务(F1值为0.85,MAE为3.75)中均取得了较好的结果,这也表明了信息量越大,预测效果越好。与其他两种融合方法相比,本发明的融合特征方法在F1成绩上仅差0.02,达到了次优。然而,本发明的方法在召回指标上的得分最高,为0.92,远远高于其他方法。这表明,本发明提出的抑郁症检测方法可以找到更多的抑郁症患者并且具有相对较高的准确性。
表1.本发明提出方法与其他方法在DAIC数据集上实验结果
表2中的数据为本发明与AViD数据集的基线结果进行的比较。从表2中可以看出,与AViD测试集的基线性能相比,本发明提出的方法显著提高了评估精度,MAE和RMSE分别为9.30和11.55。需要注意的是,AViD数据集中使用的语言是德语,而DAIC-数据集中的语言是英语。这充分说明,在语言障碍的情况下,本发明提出的基于梅尔频谱图特征的1D-CNN 模型在抑郁症筛查领域具有良好的泛化能力。
表2.本发明提出方法在AViD数据集上试验结果与其基线结果
需要说明的是,本发明虽然与抑郁症有关,但本发明本质上是一种信息处理方法,文中所提及的“检测”也不同于“诊断”,只是一种便于本领域技术人员理解的表述方式。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。
Claims (12)
1.一种抑郁症状的信息评估方法,其特征在于:分析来访者与心理医生的面谈内容,并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合,对来访者对应的抑郁症相关心理量表评分,提高在不限制面谈内容的情况下评估的准确度。
2.根据权利要求1所述的抑郁症状的信息评估方法,其特征在于,包括以下步骤:
(1)从来访者面谈的音频中提取梅尔频谱特征,作为语音特征;使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征;
(2)使用一维卷积神经网络将语音特征转换为语音嵌入xaudio;一维卷积神经网络的权重为ωaudio;
(3)使用带注意力层的双向长短时记忆网络将文本特征转换为文本嵌入xtext;该网络的权重为ωtext;
(4)将语音嵌入和文本嵌入连接后输入两层全连接网络得到最终的二分类标签或回归结果,该融合网络使用的损失函数为:
其中xm为语音嵌入或文本嵌入;ωm为网络权重;y为二分类标签;在二分类情况下,l为交叉熵;在回归情况下,l为Huber损失函数。
3.根据权利要求2所述的抑郁症状的信息评估方法,其特征在于:所述步骤(1)中,从来访者面谈的音频中提取梅尔频谱特征,作为语音特征,包括以下步骤:(1-1)
将来访者面谈音频在去除静音后切割成长度为15s的音频片段,使用80个梅尔滤波器将其转换为梅尔频谱;若去除静音后的音频片段不足15s,则用0.0001填补剩余音频片段后再将其转换为梅尔频谱;每个来访者的面谈音频会被转换成一个梅尔频谱图。
4.根据权利要求2所述的抑郁症状的信息评估方法,其特征在于:所述步骤(1)中,使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征,包括以下步骤:(1-2)将文字译本中对属于同一个问题的回答连接成一个长句,将其编码成ELMo三层嵌入的平均值;每个问题的回答长句会转换成一个句向量;每个来访者对于不同的10个问题的回答会被转换成句向量矩阵,该矩阵行数为10。
5.根据权利要求2所述的抑郁症状的信息评估方法,其特征在于:所述步骤(2)中,使用一维卷积神经网络将语音特征转换为语音嵌入xtext,一维卷积神经网络由两个卷积层和两个池化层构成;在检测来访者是否患有抑郁症时,两个卷积层的卷积核大小为(1,7),步长为1;在检测来访者的抑郁心理量表分数时,两个卷积层的卷积核大小为(1,7),第一个卷积层的步长为1,第二个卷积层的步长为2。
6.根据权利要求2所述的抑郁症状的信息评估方法,其特征在于:所述步骤(2)中,使用带注意力层的双向长短时记忆网络将文本特征转换为文本嵌入xtext。
7.根据权利要求6所述的抑郁症状的信息评估方法,其特征在于:所述双向长短时记忆网络隐藏层数为2,隐藏层维数为128,随机丢弃神经元概率为0.5。
9.根据权利要求2所述的可用于抑郁症症状评估的方法,其特征在于:所述步骤(4)中,将语音嵌入和文本嵌入连接,连接方式为:
a=BiLSTM(xtext)
b=CNN1D(xaudio)
xfuse=[a1,a2,a3,…,b1,b2,b3…]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010972386.8A CN112164459A (zh) | 2020-09-16 | 2020-09-16 | 一种抑郁症状的信息评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010972386.8A CN112164459A (zh) | 2020-09-16 | 2020-09-16 | 一种抑郁症状的信息评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112164459A true CN112164459A (zh) | 2021-01-01 |
Family
ID=73858036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010972386.8A Pending CN112164459A (zh) | 2020-09-16 | 2020-09-16 | 一种抑郁症状的信息评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112164459A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768070A (zh) * | 2021-01-06 | 2021-05-07 | 万佳安智慧生活技术(深圳)有限公司 | 一种基于对话交流的精神健康评测方法和系统 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
CN113012720A (zh) * | 2021-02-10 | 2021-06-22 | 杭州医典智能科技有限公司 | 谱减法降噪下多语音特征融合的抑郁症检测方法 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113903358A (zh) * | 2021-10-15 | 2022-01-07 | 北京房江湖科技有限公司 | 语音质检方法、可读存储介质及计算机程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599129A (zh) * | 2018-11-13 | 2019-04-09 | 杭州电子科技大学 | 基于注意力机制和卷积神经网络的语音抑郁症识别方法 |
CN110532387A (zh) * | 2019-08-14 | 2019-12-03 | 成都中科云集信息技术有限公司 | 一种基于开放性问答文本的抑郁症辅助检测方法 |
US20200075040A1 (en) * | 2018-08-31 | 2020-03-05 | The Regents Of The University Of Michigan | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment |
CN111329494A (zh) * | 2020-02-28 | 2020-06-26 | 首都医科大学 | 基于语音关键词检索和语音情绪识别的抑郁症检测方法 |
-
2020
- 2020-09-16 CN CN202010972386.8A patent/CN112164459A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200075040A1 (en) * | 2018-08-31 | 2020-03-05 | The Regents Of The University Of Michigan | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment |
CN109599129A (zh) * | 2018-11-13 | 2019-04-09 | 杭州电子科技大学 | 基于注意力机制和卷积神经网络的语音抑郁症识别方法 |
CN110532387A (zh) * | 2019-08-14 | 2019-12-03 | 成都中科云集信息技术有限公司 | 一种基于开放性问答文本的抑郁症辅助检测方法 |
CN111329494A (zh) * | 2020-02-28 | 2020-06-26 | 首都医科大学 | 基于语音关键词检索和语音情绪识别的抑郁症检测方法 |
Non-Patent Citations (2)
Title |
---|
周娇: "基于深度学习与 MRI 图像的阿尔兹海默病分类", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 * |
宋绪靖: "基于文本、语音和视频的多模态情感识别的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112768070A (zh) * | 2021-01-06 | 2021-05-07 | 万佳安智慧生活技术(深圳)有限公司 | 一种基于对话交流的精神健康评测方法和系统 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
CN113012720A (zh) * | 2021-02-10 | 2021-06-22 | 杭州医典智能科技有限公司 | 谱减法降噪下多语音特征融合的抑郁症检测方法 |
CN113012720B (zh) * | 2021-02-10 | 2023-06-16 | 杭州医典智能科技有限公司 | 谱减法降噪下多语音特征融合的抑郁症检测方法 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113903358A (zh) * | 2021-10-15 | 2022-01-07 | 北京房江湖科技有限公司 | 语音质检方法、可读存储介质及计算机程序产品 |
CN113903358B (zh) * | 2021-10-15 | 2022-11-04 | 贝壳找房(北京)科技有限公司 | 语音质检方法、可读存储介质及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11545173B2 (en) | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment | |
Mirheidari et al. | Detecting Signs of Dementia Using Word Vector Representations. | |
CN112164459A (zh) | 一种抑郁症状的信息评估方法 | |
Schuller et al. | A review on five recent and near-future developments in computational processing of emotion in the human voice | |
US9737255B2 (en) | Measuring cognitive load | |
KR102216768B1 (ko) | 심리상담 데이터를 이용한 텍스트 내 감정분석을 위한 시스템 및 방법 | |
Lanzi et al. | DementiaBank: Theoretical rationale, protocol, and illustrative analyses | |
Kumar et al. | A deep learning approaches and fastai text classification to predict 25 medical diseases from medical speech utterances, transcription and intent | |
US20200046285A1 (en) | Detection of a sign of cognitive decline focusing on change in topic similarity over conversations | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
Khan | Improved multi-lingual sentiment analysis and recognition using deep learning | |
Lu et al. | Speech depression recognition based on attentional residual network | |
Farzana et al. | Modeling dialogue in conversational cognitive health screening interviews | |
Diaz-Asper et al. | Acceptability of collecting speech samples from the elderly via the telephone | |
Chakravarthula et al. | Automatic prediction of suicidal risk in military couples using multimodal interaction cues from couples conversations | |
Kang | Biometric imaginaries: Formatting voice, body, identity to data | |
Castro et al. | Using network science and psycholinguistic megastudies to examine the dimensions of phonological similarity | |
Yang et al. | Attention guided learnable time-domain filterbanks for speech depression detection | |
Shi et al. | Speech and language processing with deep learning for dementia diagnosis: A systematic review | |
Lacson et al. | Automatic analysis of medical dialogue in the home hemodialysis domain: structure induction and summarization | |
Kuo et al. | Machine-learning-based prediction of client distress from session recordings | |
MacWhinney et al. | Fostering human rights through TalkBank | |
Li et al. | Bidirectional lstm and attention for depression detection on clinical interview transcripts | |
Mirheidari | Detecting early signs of dementia in conversation | |
Schoonvelde et al. | Text as Data in Political Psychology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210101 |