CN112164459A - 一种抑郁症状的信息评估方法 - Google Patents

一种抑郁症状的信息评估方法 Download PDF

Info

Publication number
CN112164459A
CN112164459A CN202010972386.8A CN202010972386A CN112164459A CN 112164459 A CN112164459 A CN 112164459A CN 202010972386 A CN202010972386 A CN 202010972386A CN 112164459 A CN112164459 A CN 112164459A
Authority
CN
China
Prior art keywords
text
embedding
depression
audio
visitor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010972386.8A
Other languages
English (en)
Inventor
沈莹
林琳
程诗丹
张�林
赵生捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010972386.8A priority Critical patent/CN112164459A/zh
Publication of CN112164459A publication Critical patent/CN112164459A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Social Psychology (AREA)
  • Psychology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Educational Technology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Developmental Disabilities (AREA)
  • Veterinary Medicine (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)

Abstract

本发明公开了一种抑郁症状的信息评估方法,分析来访者与心理医生的面谈内容,并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合,对来访者对应的抑郁症相关心理量表评分,提高在不限制面谈内容的情况下评估的准确度。本发明能够为心理医生提供客观的抑郁症辅助评估方法以及快速、有效和经济的抑郁症状自我评估。

Description

一种抑郁症状的信息评估方法
技术领域
本发明属于信息分析处理领域,涉及多模态融合技术,尤其是通过语音与文本融合可用于抑郁症状评估的方法。
背景技术
抑郁症是一种全球性的精神疾病,其主要特征包括情绪体验、交流和自我调节的中断。世界上有2.64亿人患有抑郁症。在最糟糕的情况下,抑郁可能导致自残甚至自杀。根据世界卫生组织(WHO)的报告,每年约有80万人因重度抑郁症而死亡。有研究表明,在抑郁症的早期发展进行干预对阻止抑郁症进一步发展至关重要。然而,在某些情况下,对抑郁症的早期干预可能很困难。
首先,传统的抑郁症治疗方法,如心理治疗或药物治疗疗程较长,费用昂贵,且治疗效果不一定理想,上述因素会使得经济情况窘迫的病人不愿就医。其次,心理医生通常根据临床访谈、评分量表和自我评估来评估抑郁症的严重程度。然而,由于担心诊断结果会给带来歧视或其他负面后果,患者有时会故意向心理医生隐瞒自己的真实情况。负面后果包括对抑郁症患者的偏见、成见和歧视行为,这是阻止抑郁症患者向专业医生寻求帮助的主要因素。因此。基于上述两点,心理学家甚至无法正确评估抑郁症的严重程度,更不用说采取有效的干预措施了。有鉴于此,一个高效的抑郁症自动检测系统就成为一种必要,它可以帮助潜在的患者私下评估自己的病情,并提高他们对向心理医生寻求帮助的意愿。此外,当病人有意误导时,一个有效的抑郁症自动检测系统也能够在诊断过程中为心理学家提供客观的检测手段,提供辅助参考。
综上所述,抑郁症的早期干预可以通过向专业心理医生和真正的病人提供客观的抑郁检测系统来实现。研究结果表明,抑郁症对非语言行为和语言行为都有影响,包括面部表情、声调、语法、语义等。在这些理论和研究的推动下,抑郁症自动检测系统倾向于模拟临床诊断,分析患者的语言表现、面部表情和声音特征。目前,抑郁症的自动检测方法通常利用多源信息,如音频、视频和面谈的文字译本。
抑郁症自动检测过程包括两个步骤。第一步,收集来访者说话的音频或视频,这些来访者会回答心理医生精心设计的问题。文本内容也会从这些音频和视频中提取出来,以提高诊断的准确性。第二步,根据采集到的语音特征、回答内容等信息,利用算法自动分析和评估抑郁程度。
虽然研究人员在提高抑郁症检测准确率方面取得了一些进展,但在实践中仍存在很大的困难。首先,由于隐私问题,临床面谈的视频可能无法获取。其次,患者可能会无意识或有意地错误地报告自己的精神状态,从而误导诊断。第三,如何从不同源数据提取和融合具有代表性的特征需要进一步的研究。因此,抑郁症的自动检测对该领域的研究者来说仍然是一项具有挑战性的任务。
发明内容
本发明的目的在于提供一种抑郁症状的信息评估方法,通过客观和定量的衡量方法对来访者对应的抑郁症相关心理量表评分。。
为达到上述目的,本发明的解决方案是:
一种抑郁症状的信息评估方法,分析来访者与心理医生的面谈内容,并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合,对来访者对应的抑郁症相关心理量表评分,提高在不限制面谈内容的情况下评估的准确度。
进一步,包括以下步骤:
(1)从来访者面谈的音频中提取梅尔频谱特征,作为语音特征;使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征;
(2)使用一维卷积神经网络(1D-CNN)将语音特征转换为语音嵌入xaudio;一维卷积神经网络的权重为ωaudio
(3)使用带注意力层的双向长短时记忆网络(BiLSTM with an Attention Layer)将文本特征转换为文本嵌入xtext;该网络的权重为ωtext
(4)将语音嵌入和文本嵌入连接后输入两层全连接网络得到最终的二分类标签(是否抑郁症)或回归结果(抑郁量表分数),该融合网络使用的损失函数为:
Figure BDA0002684556830000021
其中xm为语音嵌入或文本嵌入;ωm为网络权重;y为二分类标签;在二分类情况下,l为交叉熵;在回归情况下,l为Huber损失函数。
对于本发明,共需要训练3个神经网络。第一个神经网络为一维卷积神经网络,第二个神经网络为带注意力层的双向长短时记忆网络,第三个神经网络为两层全连接网络,其作用为融合语音嵌入xaudio和文本嵌入xtext,并输出最终的检测结果。第三个神经网络,融合了一维卷积神经网络和带注意力层的双向长短时记忆网络;在训练第三个神经网络时,前两个网络的参数被冻结,不在后向传播中改变,唯一改变的参数只有两层全连接网络的参数。
所述步骤(1)中,从来访者面谈的音频中提取梅尔频谱特征,作为语音特征,包括以下步骤:(1-1)
将来访者面谈音频在去除静音后切割成长度为15s的音频片段,使用80个梅尔滤波器将其转换为梅尔频谱;若去除静音后的音频片段不足15s,则用0.0001填补剩余音频片段后再将其转换为梅尔频谱;每个来访者的面谈音频会被转换成一个梅尔频谱图。梅尔频谱图是通过将短时傅里叶变换幅度系数与相应的梅尔滤波器相乘计算得到,可以被认为是声谱图的非线性变换。其保持了声音的高层次细节,同时也提供了具有较好识别能力的低水平描述子。频谱图和梅尔频谱图的关系为:
Figure BDA0002684556830000031
所述步骤(1)中,使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征,包括以下步骤:(1-2)
将文字译本中对属于同一个问题的回答连接成一个长句,将其编码成ELMo三层嵌入的平均值;ELMo对上下文中单词的不同类型的句法和语义信息进行编码;每个问题的回答长句会转换成一个句向量;每个来访者对于不同的10个问题的回答会被转换成句向量矩阵,该矩阵行数为10。
所述步骤(2)中,使用一维卷积神经网络(1D-CNN)将语音特征转换为语音嵌入xtext,一维卷积神经网络由两个卷积层和两个池化层构成;在检测来访者是否患有抑郁症时,两个卷积层的卷积核大小为(1,7),步长为1;在检测来访者的抑郁心理量表分数时,两个卷积层的卷积核大小为(1,7),第一个卷积层的步长为1,第二个卷积层的步长为2。
所述步骤(3)中,使用带注意力层的双向长短时记忆网络(BiLSTM with anAttention Layer) 将文本特征转换为文本嵌入xtext,双向长短时记忆网络隐藏层数为2,隐藏层维数为128,随机丢弃神经元概率为0.5。
所述步骤(3)中,使用带注意力层的双向长短时记忆网络(BiLSTM with anAttention Layer) 将文本特征转换为文本嵌入xtext,其注意力层定义为:
Figure BDA0002684556830000032
Figure BDA0002684556830000033
ct=w·tanh(ot)
yh=c·oh
其中,X为来访者的句向量矩阵;H是双向长短时记忆网络(BiLSTM)的隐藏状态;
Figure BDA0002684556830000034
Figure BDA0002684556830000035
分别是BiLSTM的前向输出和后向输出;O的大小为时间步*隐藏层维数;ot为O的第t个时间步;w为隐藏状态H的权重;ct为加权上下文c处于时间t的值;oh为O的第h维;yh为输出的第h维;该输出即为生成的文本嵌入。
所述步骤(4)中,将语音嵌入和文本嵌入连接,连接方式为:
a=BiLSTM(xtext)
b=CNN1D(xaudio)
xfuse=[a1,a2,a3,…,b1,b2,b3…]
所述步骤(4)中,融合网络使用的损失函数为:
Figure BDA0002684556830000041
其中xm为语音嵌入或文本嵌入;ωm为网络权重;y为二分类标签;在二分类情况下,l为交叉熵;在回归情况下,l为Huber损失函数。
由于采用上述方案,本发明的有益效果是:
抑郁症的自动检测对支持临床医生的诊断和自我抑郁诊断具有重要的现实意义。然而,现有的方法都有其缺点,如需要额外的专业知识或不够准确。本发明提出了一种新的抑郁症检测方法,它分析了临床面谈的音频和文字译本,对抑郁症进行诊断。该方法对临床面谈中心理医生所问问题无限制,具有较强泛化性能,且检测结果稳定准确。
具体分析如下:多数抑郁症检测算法设计或选择一组能够更好地揭示患者的病情的问题 (如与睡眠质量、创伤后应激障碍等相关的问题),这些问题与心理学家的专业知识密切相关,而这些专业知识并不容易获得。如果在临床面谈中没有提及任何一个选定的问题/主题,这些算法将不适用,因为它们无法构建完整的特征集。对于不选定问题/注意的抑郁症检测算法,其性能无法与选定主题/问题的算法相比,即检测结果不够准确。本发明使用的一维卷积神经网络与二维卷积神经网络相比,更适合用于抑郁症检测问题中梅尔频谱图的处理。对于频率的一维卷积使得模型能够捕获短期时间相关性的声音特性。BiLSTM模型不仅可以从过去的时间步中学习,还可以从未来的时间步中学习;BiLSTM还采用了一个注意力层来获取哪一个词在抑郁检测问题中贡献最大。此外,多模态的信息输入会补足单模态中信息不足的部分,即多模态能够提供更多信息。实验证明,本发明中语音信息与文本信息的融合提升了抑郁症评估的性能。
附图说明
图1为本发明基于语音特征与文本特征融合的抑郁症检测算法的工作流程示意图。
具体实施方式
以下结合附图所示实施例对本发明作进一步的说明。
针对目前抑郁症检测算法需要额外的专业知识或不够准确的缺点,本发明分析来访者与心理医生的面谈内容,并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合,预测结果包括来访者是否患有抑郁症以及其对应的抑郁症相关心理量表评分。本算法能够为心理医生提供客观的抑郁症辅助评估方法以及快速、有效和经济的抑郁症自我评估。其具体工作流程如图1所示:
(1)从来访者面谈的音频中提取梅尔频谱特征,作为语音特征;使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征;
(1-1)将来访者面谈音频在去除静音后切割成长度为15s的音频片段,使用80个梅尔滤波器将其转换为梅尔频谱;若去除静音后的音频片段不足15s,则用0.0001填补剩余音频片段后再将其转换为梅尔频谱;每个来访者的面谈音频会被转换成一个梅尔频谱图。梅尔频谱图是通过将短时傅里叶变换幅度系数与相应的梅尔滤波器相乘计算得到,可以被认为是声谱图的非线性变换。其保持了声音的高层次细节,同时也提供了具有较好识别能力的低水平描述子。频谱图和梅尔频谱图的关系为:
Figure BDA0002684556830000051
(1-2)将文字译本中对属于同一个问题的回答连接成一个长句,将其编码成ELMo三层嵌入的平均值;ELMo对上下文中单词的不同类型的句法和语义信息进行编码;每个问题的回答长句会转换成一个句向量;每个来访者对于不同的10个问题的回答会被转换成句向量矩阵,该矩阵行数为10。
(2)使用一维卷积神经网络(1D-CNN)将语音特征转换为语音嵌入xaudio
一维卷积神经网络由两个卷积层和两个池化层构成;在检测来访者是否患有抑郁症时,两个卷积层的卷积核大小为(1,7),步长为1;在检测来访者的抑郁心理量表分数时,两个卷积层的卷积核大小为(1,7),第一个卷积层的步长为1,第二个卷积层的步长为2。
(3)将使用带注意力层的双向长短时记忆网络(BiLSTM with an AttentionLayer)将文本特征转换为文本嵌入xtext
双向长短时记忆网络隐藏层数为2,隐藏层维数为128,随机丢弃神经元概率为0.5;其注意力层定义为:
Figure BDA0002684556830000052
Figure BDA0002684556830000053
ct=w·tanh(ot)
yh=c·oh
其中,X为来访者的句向量矩阵;H是双向长短时记忆网络(BiLSTM)的隐藏状态;
Figure BDA0002684556830000061
Figure BDA0002684556830000062
分别是BiLSTM的前向输出和后向输出;O的大小为 timestep(时间步)×hidden_dim(隐藏层维度);ot为O的第t个时间步;w为隐藏状态H 的权重;ct为加权上下文c处于时间t的值;oh为O的第h维;yh为输出的第h维;该输出即为生成的文本嵌入。
(4)将将语音嵌入和文本嵌入连接后输入两层全连接网络得到最终的二分类标签(是否抑郁症)或回归结果(抑郁量表分数):
语音嵌入和文本嵌入连接方式为:
a=BiLSTM(xtext)
b=CNN1D(xaudio)
xfuse=[a1,a2,a3,…,b1,b2,b3…]
融合网络使用的损失函数为:
Figure BDA0002684556830000063
其中xm为语音嵌入或文本嵌入;ωm为网络权重;y为二分类标签;在二分类情况下,l为- 交叉熵:
Figure BDA0002684556830000064
在回归情况下,l为Huber损失函数:
Figure BDA0002684556830000065
该两层全连接网络为特征融合网络,其作用为融合语音嵌入xaudio和文本嵌入xtext,并输出最终的检测结果。该全连接网络包含了一维卷积神经网络和带注意力层的双向长短时记忆网络;在训练该网络时,1D-CNN和BiLSTM的参数被冻结,不在后向传播中改变,唯一改变的参数只有两层全连接网络的参数。
以下结合具体实验数据对本发明所示的基于语音特征与文本特征融合的抑郁症检测方法进一步说明。
实验条件与评分标准:
本发明所使用数据库是两个公开的抑郁症数据集,也是唯二的公开抑郁症数据。第一个数据集(DAIC)中包含142名志愿者与虚拟人物Ellie对话的音频、视频与文字译本,其中35名志愿者的PHQ8心理量表分数表明其有抑郁倾向。第二个数据集(AViD)中包含84名志愿者回答问题或朗诵诗歌的音频和视频,该数据集标签为84名志愿者的BDI-II心理量表分数。
在本发明中,抑郁症检测的准确率是关键指标。对于检测抑郁症的存在与否(二分类),本发明采用以下评价指标:
Figure BDA0002684556830000071
Figure BDA0002684556830000072
Figure BDA0002684556830000073
对于检测抑郁相关心理量表分数(回归),本发明采用以下评价指标:
Figure BDA0002684556830000074
Figure BDA0002684556830000075
实验结果:
表1中的数据为本发明与其他方法在DAIC数据集上的性能进行的比较。由于不同的抑郁症检测方法采用了不同的特征类型,本发明将1D-CNN模型与其他六种只接受音频特征的抑郁症检测方法进行了比较。同样,本发明将提出的BiLSTM模型与六种只接受文本特征的抑郁症检测方法进行了比较。最后,本发明将融合网络与其他两种同时接受音频和文本特征的融合方法进行了性能比较。从表1可以看出,对于只使用一种模态特征的方法,基于文本特征的检测方法在抑郁症分类任务和抑郁严重程度评估任务中的性能都优于基于音频特征的方法。与仅采用音频特征的方法相比,所提出的1D-CNN模型的F1分数为0.81,MAE为4.25。输入为文本特征的带注意层BiLSTM模型的F1值为0.83,MAE值为3.88。与其他只采用文本特征的检测方法相比,本发明提出的BiLSTM模型取得了第三好的性能,仅比最优方法的 F1分数差0.04,MAE/RMSE值差0.58/0.98。本发明所提出的多模态融合方法在分类和回归任务(F1值为0.85,MAE为3.75)中均取得了较好的结果,这也表明了信息量越大,预测效果越好。与其他两种融合方法相比,本发明的融合特征方法在F1成绩上仅差0.02,达到了次优。然而,本发明的方法在召回指标上的得分最高,为0.92,远远高于其他方法。这表明,本发明提出的抑郁症检测方法可以找到更多的抑郁症患者并且具有相对较高的准确性。
Figure BDA0002684556830000081
Figure BDA0002684556830000091
表1.本发明提出方法与其他方法在DAIC数据集上实验结果
表2中的数据为本发明与AViD数据集的基线结果进行的比较。从表2中可以看出,与AViD测试集的基线性能相比,本发明提出的方法显著提高了评估精度,MAE和RMSE分别为9.30和11.55。需要注意的是,AViD数据集中使用的语言是德语,而DAIC-数据集中的语言是英语。这充分说明,在语言障碍的情况下,本发明提出的基于梅尔频谱图特征的1D-CNN 模型在抑郁症筛查领域具有良好的泛化能力。
Figure BDA0002684556830000092
表2.本发明提出方法在AViD数据集上试验结果与其基线结果
需要说明的是,本发明虽然与抑郁症有关,但本发明本质上是一种信息处理方法,文中所提及的“检测”也不同于“诊断”,只是一种便于本领域技术人员理解的表述方式。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims (12)

1.一种抑郁症状的信息评估方法,其特征在于:分析来访者与心理医生的面谈内容,并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合,对来访者对应的抑郁症相关心理量表评分,提高在不限制面谈内容的情况下评估的准确度。
2.根据权利要求1所述的抑郁症状的信息评估方法,其特征在于,包括以下步骤:
(1)从来访者面谈的音频中提取梅尔频谱特征,作为语音特征;使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征;
(2)使用一维卷积神经网络将语音特征转换为语音嵌入xaudio;一维卷积神经网络的权重为ωaudio
(3)使用带注意力层的双向长短时记忆网络将文本特征转换为文本嵌入xtext;该网络的权重为ωtext
(4)将语音嵌入和文本嵌入连接后输入两层全连接网络得到最终的二分类标签或回归结果,该融合网络使用的损失函数为:
Figure FDA0002684556820000011
其中xm为语音嵌入或文本嵌入;ωm为网络权重;y为二分类标签;在二分类情况下,l为交叉熵;在回归情况下,l为Huber损失函数。
3.根据权利要求2所述的抑郁症状的信息评估方法,其特征在于:所述步骤(1)中,从来访者面谈的音频中提取梅尔频谱特征,作为语音特征,包括以下步骤:(1-1)
将来访者面谈音频在去除静音后切割成长度为15s的音频片段,使用80个梅尔滤波器将其转换为梅尔频谱;若去除静音后的音频片段不足15s,则用0.0001填补剩余音频片段后再将其转换为梅尔频谱;每个来访者的面谈音频会被转换成一个梅尔频谱图。
4.根据权利要求2所述的抑郁症状的信息评估方法,其特征在于:所述步骤(1)中,使用ELMo将来访者面谈的文字译本转换为句子嵌入,作为文本特征,包括以下步骤:(1-2)将文字译本中对属于同一个问题的回答连接成一个长句,将其编码成ELMo三层嵌入的平均值;每个问题的回答长句会转换成一个句向量;每个来访者对于不同的10个问题的回答会被转换成句向量矩阵,该矩阵行数为10。
5.根据权利要求2所述的抑郁症状的信息评估方法,其特征在于:所述步骤(2)中,使用一维卷积神经网络将语音特征转换为语音嵌入xtext,一维卷积神经网络由两个卷积层和两个池化层构成;在检测来访者是否患有抑郁症时,两个卷积层的卷积核大小为(1,7),步长为1;在检测来访者的抑郁心理量表分数时,两个卷积层的卷积核大小为(1,7),第一个卷积层的步长为1,第二个卷积层的步长为2。
6.根据权利要求2所述的抑郁症状的信息评估方法,其特征在于:所述步骤(2)中,使用带注意力层的双向长短时记忆网络将文本特征转换为文本嵌入xtext
7.根据权利要求6所述的抑郁症状的信息评估方法,其特征在于:所述双向长短时记忆网络隐藏层数为2,隐藏层维数为128,随机丢弃神经元概率为0.5。
8.根据权利要求2所述的抑郁症状的信息评估方法,其特征在于:所述步骤(2)中,使用带注意力层的双向长短时记忆网络将文本特征转换为文本嵌入xtext,其注意力层定义为:
Figure FDA0002684556820000021
Figure FDA0002684556820000022
ct=w·tanh(ot)
yh=c·oh
其中,X为来访者的句向量矩阵;H是双向长短时记忆网络(BiLSTM)的隐藏状态;
Figure FDA0002684556820000023
Figure FDA0002684556820000024
分别是BiLSTM的前向输出和后向输出;O的大小为时间步*隐藏层维数;ot为O的第t个时间步;w为隐藏状态H的权重;ct为加权上下文c处于时间t的值;oh为O的第h维;yh为输出的第h维;该输出即为生成的文本嵌入。
9.根据权利要求2所述的可用于抑郁症症状评估的方法,其特征在于:所述步骤(4)中,将语音嵌入和文本嵌入连接,连接方式为:
a=BiLSTM(xtext)
b=CNN1D(xaudio)
xfuse=[a1,a2,a3,…,b1,b2,b3…]。
10.根据权利要求2所述的可用于抑郁症症状评估的方法,其特征在于:所述步骤(4)中,融合网络使用的损失函数为:
Figure FDA0002684556820000025
其中xm为语音嵌入或文本嵌入;ωm为网络权重;y为二分类标签;在二分类情况下,l为交叉熵;在回归情况下,l为Huber损失函数。
11.根据权利要求10所述的抑郁症状的信息评估方法,其特征在于:所述融合网络使用的损失函数,在二分类情况下,l为交叉熵:
Figure FDA0002684556820000026
12.根据权利要求10所述的抑郁症状的信息评估方法,其特征在于:所述融合网络使用的损失函数,在回归情况下,l为Huber损失函数:
Figure FDA0002684556820000031
CN202010972386.8A 2020-09-16 2020-09-16 一种抑郁症状的信息评估方法 Pending CN112164459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010972386.8A CN112164459A (zh) 2020-09-16 2020-09-16 一种抑郁症状的信息评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010972386.8A CN112164459A (zh) 2020-09-16 2020-09-16 一种抑郁症状的信息评估方法

Publications (1)

Publication Number Publication Date
CN112164459A true CN112164459A (zh) 2021-01-01

Family

ID=73858036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010972386.8A Pending CN112164459A (zh) 2020-09-16 2020-09-16 一种抑郁症状的信息评估方法

Country Status (1)

Country Link
CN (1) CN112164459A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和系统
CN112818892A (zh) * 2021-02-10 2021-05-18 杭州医典智能科技有限公司 基于时间卷积神经网络的多模态抑郁症检测方法及系统
CN113012720A (zh) * 2021-02-10 2021-06-22 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113903358A (zh) * 2021-10-15 2022-01-07 北京房江湖科技有限公司 语音质检方法、可读存储介质及计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110532387A (zh) * 2019-08-14 2019-12-03 成都中科云集信息技术有限公司 一种基于开放性问答文本的抑郁症辅助检测方法
US20200075040A1 (en) * 2018-08-31 2020-03-05 The Regents Of The University Of Michigan Automatic speech-based longitudinal emotion and mood recognition for mental health treatment
CN111329494A (zh) * 2020-02-28 2020-06-26 首都医科大学 基于语音关键词检索和语音情绪识别的抑郁症检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200075040A1 (en) * 2018-08-31 2020-03-05 The Regents Of The University Of Michigan Automatic speech-based longitudinal emotion and mood recognition for mental health treatment
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110532387A (zh) * 2019-08-14 2019-12-03 成都中科云集信息技术有限公司 一种基于开放性问答文本的抑郁症辅助检测方法
CN111329494A (zh) * 2020-02-28 2020-06-26 首都医科大学 基于语音关键词检索和语音情绪识别的抑郁症检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周娇: "基于深度学习与 MRI 图像的阿尔兹海默病分类", 《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》 *
宋绪靖: "基于文本、语音和视频的多模态情感识别的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和系统
CN112818892A (zh) * 2021-02-10 2021-05-18 杭州医典智能科技有限公司 基于时间卷积神经网络的多模态抑郁症检测方法及系统
CN113012720A (zh) * 2021-02-10 2021-06-22 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法
CN113012720B (zh) * 2021-02-10 2023-06-16 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113903358A (zh) * 2021-10-15 2022-01-07 北京房江湖科技有限公司 语音质检方法、可读存储介质及计算机程序产品
CN113903358B (zh) * 2021-10-15 2022-11-04 贝壳找房(北京)科技有限公司 语音质检方法、可读存储介质及计算机程序产品

Similar Documents

Publication Publication Date Title
US11545173B2 (en) Automatic speech-based longitudinal emotion and mood recognition for mental health treatment
Mirheidari et al. Detecting Signs of Dementia Using Word Vector Representations.
CN112164459A (zh) 一种抑郁症状的信息评估方法
Schuller et al. A review on five recent and near-future developments in computational processing of emotion in the human voice
US9737255B2 (en) Measuring cognitive load
KR102216768B1 (ko) 심리상담 데이터를 이용한 텍스트 내 감정분석을 위한 시스템 및 방법
Lanzi et al. DementiaBank: Theoretical rationale, protocol, and illustrative analyses
Kumar et al. A deep learning approaches and fastai text classification to predict 25 medical diseases from medical speech utterances, transcription and intent
US20200046285A1 (en) Detection of a sign of cognitive decline focusing on change in topic similarity over conversations
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
Khan Improved multi-lingual sentiment analysis and recognition using deep learning
Lu et al. Speech depression recognition based on attentional residual network
Farzana et al. Modeling dialogue in conversational cognitive health screening interviews
Diaz-Asper et al. Acceptability of collecting speech samples from the elderly via the telephone
Chakravarthula et al. Automatic prediction of suicidal risk in military couples using multimodal interaction cues from couples conversations
Kang Biometric imaginaries: Formatting voice, body, identity to data
Castro et al. Using network science and psycholinguistic megastudies to examine the dimensions of phonological similarity
Yang et al. Attention guided learnable time-domain filterbanks for speech depression detection
Shi et al. Speech and language processing with deep learning for dementia diagnosis: A systematic review
Lacson et al. Automatic analysis of medical dialogue in the home hemodialysis domain: structure induction and summarization
Kuo et al. Machine-learning-based prediction of client distress from session recordings
MacWhinney et al. Fostering human rights through TalkBank
Li et al. Bidirectional lstm and attention for depression detection on clinical interview transcripts
Mirheidari Detecting early signs of dementia in conversation
Schoonvelde et al. Text as Data in Political Psychology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210101