CN114898861A - 基于全注意力机制的多模态抑郁症检测方法和系统 - Google Patents

基于全注意力机制的多模态抑郁症检测方法和系统 Download PDF

Info

Publication number
CN114898861A
CN114898861A CN202210282672.0A CN202210282672A CN114898861A CN 114898861 A CN114898861 A CN 114898861A CN 202210282672 A CN202210282672 A CN 202210282672A CN 114898861 A CN114898861 A CN 114898861A
Authority
CN
China
Prior art keywords
text
features
feature
video
depression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210282672.0A
Other languages
English (en)
Inventor
孙晓
张梓洋
江月琪
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210282672.0A priority Critical patent/CN114898861A/zh
Publication of CN114898861A publication Critical patent/CN114898861A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/725Details of waveform analysis using specific filters therefor, e.g. Kalman or adaptive filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Veterinary Medicine (AREA)
  • Physiology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Primary Health Care (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Epidemiology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Social Psychology (AREA)
  • Ophthalmology & Optometry (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Mathematical Physics (AREA)

Abstract

本发明提供一种基于全注意力机制的多模态抑郁症检测方法、系统、存储介质和电子设备,涉及抑郁症检测技术领域。本发明中,采集用户的就诊视频,就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;根据就诊视频,获取视觉特征;从就诊视频提取音频数据,获取语音特征;将音频数据进行转录标注获取文本数据,取文本特征;根据视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。数据采集结合了具有良好应用信度的汉密顿抑郁量表,全面采集了视频模态、音频模态、文本模态的数据,以及考虑了跨模态特征信息,补充了不同模态之间的潜在联系,用于对用户抑郁症状进行刻画评估,诊断结果更准确。

Description

基于全注意力机制的多模态抑郁症检测方法和系统
技术领域
本发明涉及抑郁症检测技术领域,具体涉及一种基于全注意力机制的多模态抑郁症检测方法、系统、存储介质和电子设备。
背景技术
抑郁症是现在最常见的一种心理疾病,以连续且长期的心情低落为主要的临床特征,是现代人心理疾病最重要的类型。
目前,抑郁症检测现主要通过两种技术:第一,基于单模态(采用文本、语音、视觉中的一个信息源),例如通过对视频中用户的个体步态进行分析,采集关键数据并提取特征,用自己搭建的模型进行抑郁症检测。第二,基于多模态(采用文本、语音、视觉中的多个信息源),例如采集用户语音、文本等多种信息,进行特征提取和融合,用自己搭建的模型进行抑郁症检测。
虽然上述基于多模态方式相对于基于单模态式方式,较为全面地反映了患者的抑郁状况,但是其使用数据集部分仅为模拟数据,数据来源的真实性和数据质量无法得到保证,进而影响了最终检测结果的准确性。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于全注意力机制的多模态抑郁症检测方法、系统、存储介质和电子设备,解决了检测结果不准确的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于全注意力机制的多模态抑郁症检测方法,包括:
采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;
根据所述就诊视频,获取视觉特征;
从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;
将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;
根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。
优选的,所述视觉特征包括视频帧序列、人脸关键点二值图、复杂情绪序列、肢体活跃度序列以及注视角热力图中的一种或者几种任意组合;获取过程包括:
采用Openface工具包对所述就诊视频进行抽帧,获取所述视频帧序列;
并对每一帧中的的用户进行人脸检测和人脸对齐,提取出2D人脸关键点和对齐后的人脸图片,将人脸关键点绘制在纯黑色背景上获取所述人脸关键点二值图;
将对齐后的人脸图片输入emonet模型,对用户的效价和唤醒二维情绪进行预测,得到基础情绪,再通过预设的VA环形模型将基础情绪映射为复杂情绪向量,获取所述复杂情绪序列;
采用飞桨框架的实时关键点检测模型提取用户的身体关键点,将身体关键点坐标转化为向量,分别计算鼻子、四肢向量的变化模长,组成所述肢体活跃度序列;
采用Openface工具包提取用户的视线、头部姿态特征,将提取出的特征转换成眼睛凝视序列,并根据眼睛凝视序列得到热力图的边界和中心点,去除遍历中心点最远的部分点后,使用八邻域法将眼睛凝视序列转换成所述注视角热力图。
优选的,所述根据所述音频数据,获取语音特征,包括:
首先对所述音频数据进行了文本转录,标注了音频中每一句话的说话角色、起止时间、持续时间、文本内容;再根据标注的起止时间将录音中用户回答医生的语音数据切分出来;最终采用开源工具openSMILE提取所述语音特征。
优选的,所述根据所述文本数据,取文本特征,包括:
预先根据回答信息的有效性构建停止词典;
根据所述停止词典清洗了数据,获取包含有效信息的文本内容;
采用Chinese-roBerta模型将文本内容转换为文本特征。
优选的,所述根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果,包括:
S51、根据起始时间和终止时间截取相应的视觉特征,完成所述视觉特征、语音特征和文本特征在时间维度上的对齐;
S52、将所述视频帧序列、人脸关键点二值图以及注视角热力图划分为三维视觉特征;将所述复杂情绪序列、肢体活跃度序列以及语音特征划分为一维时序特征;
S53、根据所述三维视觉特征、一维时序特征和文本特征,引入可学习矩阵,获取各自对应且维度相同的初始语义特征;
S54、将所述三维视觉特征、一维时序特征和文本特征对应的初始语义特征,结合位置编码信息,获取各自对应的高级语义特征;包括:
z0=[x0WP;x1WP;...;xNWP]+epos
其中,x0,x1…,xN依次表示某类特征的各个patch;WP表示可学习矩阵;ePOS表示位置编码;
随后将z0输入由L个Transformer Encoder模块堆叠而成的模型中进行高级语义特征提取,
z′l=MHA(LN(zl-1))+zl-1,l=1...L
zl=MLP(LN(z′l))+z′l,l=1...L
zout=LN(zL)
其中,MHA代表Multi-Head-Attention;MLP代表多层感知机;LN代表LayerNormaliztion;L代表Transformer Encoder的总个数,l代表第l块Transformer Encoder;z′l表示对上一层的输出zl-1执行LN和MHA后再加上上一层的输出zl-1所得到的结果;zl表示对z′l执行LN和MLP后再加上z′l所得到的结果,zout表示对zl做LN所得到的结果;
S55、融合所述三维视觉特征、一维时序特征和文本特征对应的高级语义特征;包括:
将视觉特征和音频特征的模型输出
Figure BDA0003558500090000041
投影到文本特征空间得到zv→t、za→t
Figure BDA0003558500090000051
Figure BDA0003558500090000052
Figure BDA0003558500090000053
投影到语音特征空间得到zt→a、zv→a
Figure BDA0003558500090000054
Figure BDA0003558500090000055
Figure BDA0003558500090000056
投影到视觉特征空间得到zt→v、za→v
Figure BDA0003558500090000057
Figure BDA0003558500090000058
其中,
Figure BDA0003558500090000059
Figure BDA00035585000900000510
Figure BDA00035585000900000511
Figure BDA00035585000900000512
Figure BDA00035585000900000513
Figure BDA00035585000900000514
其中,
Figure BDA00035585000900000515
Wk为可学习的矩阵,d为
Figure BDA00035585000900000516
特征的长度,k=1,2,3时分别代表video、audio、text;
将同一特征空间中的信息进行拼接得到Yt、Ta、Yv,过程如下:
Yt=[zv→t,za→t]
Ta=[zt→a,zv→a]
Yv=[zt→v,Za→v]
将Yt、Ya、Yv分别送入Transformer编码块中得到各自的输出Y′t、Y′a、Y′v
S56、拼接所述Y′t、Y′a、Y′v得到Y′=[Y′t、Y′a、Y′v],最后将Y′通过全连接层输出该用户的抑郁程度的预测结果。
优选的,所述S52具体包括:
S521、将各个三维视觉特征video切分为若干三维patch:
Figure BDA0003558500090000061
其中,
Figure BDA0003558500090000062
i=1,2,3时分别表示所述视频帧序列、人脸关键点二值图、注视角热力图;T、H、W分别代表一个三维视觉特征的图像帧长、帧高和帧宽,t、h、w分别代表一个三维视觉特征Patch的图像帧长、高度和宽度;3代表每一帧图片的RGB三通道;3DPatchPartition表示将videoclip通过3D卷积切分为若干videopatch
引入可学习的矩阵Wvp∈Rt·h·w·3×d,投影得到每个patch的d维特征xvideo
xvideo=Flatten(videopatch)*Wvp
其中,Flatten表示合并videopatch的前三个维度;
S522、将各个一维时序特征audio进行分段,其中一维时序特征长度为1×T′;每个片段
Figure BDA0003558500090000063
长度是,j=1,2,3时分别表示所述肢体活跃度时序、复杂情绪时序、语音特征;
引入可学习的矩阵Wap∈Rt′×d,投影得到每个片段的d维特征xaudio
xaudio=audioseg*Wap
S523、将文本特征text的每一单词,根据预设的词汇表映射成词向量;
引入可学习的矩阵Wtp∈Rv×d,投影得到每个词向量的d维特征xtext
xtext=wordvec*Wtp
其中,wordvec表示one-hot词向量。
优选的,所述S56中将Y′通过一层大小为17的全连接层,对汉密顿抑郁量表的17项分数进行预测;然后将17个神经元输出输入大小为4的全连接层,对抑郁程度做4分类任务,获取该用户的抑郁程度的预测结果。
一种基于全注意力机制的多模态抑郁症检测系统,包括:
采集模块,用于采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;
第一获取模块,用于根据所述就诊视频,获取视觉特征;
第二获取模块,用于从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;
第三获取模块,用于将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;
预测模块,用于根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。
一种存储介质,其存储有用于基于跨模态transformer的多模态抑郁症检测的计算机程序,其中,所述计算机程序使得计算机执行如上所述的多模态抑郁症检测方法。
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的多模态抑郁症检测方法。
(三)有益效果
本发明提供了一种基于跨模态transformer的多模态抑郁症检测方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
本发明中,采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;根据所述就诊视频,获取视觉特征;从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。数据采集结合了具有良好应用信度的汉密顿抑郁量表,全面采集了视频模态、音频模态、文本模态的数据,以及考虑了跨模态特征信息,补充了不同模态之间的潜在联系,用于对用户抑郁症状进行刻画评估,诊断结果更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于跨模态transformer的多模态抑郁症检测方法的流程示意图
图2本发明实施例提供的一种VA环形映射模型示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于跨模态transformer的多模态抑郁症检测方法、系统、存储介质和电子设备,解决了检测结果不准确的技术问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例中,采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;根据所述就诊视频,获取视觉特征;从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。数据采集结合了具有良好应用信度的汉密顿抑郁量表,全面采集了视频模态、音频模态、文本模态的数据,以及考虑了跨模态特征信息,补充了不同模态之间的潜在联系,用于对用户抑郁症状进行刻画评估,诊断结果更准确。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例:
如图1所示,本发明实施例提供了一种基于全注意力机制的多模态抑郁症检测方法,包括:
S1、采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;
S2、根据所述就诊视频,获取视觉特征;
S3、从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;
S4、将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;
S5、根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。
本发明实施例中数据采集结合了具有良好应用信度的汉密顿抑郁量表,全面采集了视频模态、音频模态、文本模态的数据,以及考虑了跨模态特征信息,补充了不同模态之间的潜在联系,用于对用户抑郁症状进行刻画评估,诊断结果更准确。
下面将详细介绍上述技术方案的各个步骤:
首先需要说明的是,本发明实施例采用汉密顿抑郁量表总分作为抑郁症鉴别指标。汉密顿抑郁量表共17项,根据总分将抑郁症状划分为五类:7分以下为正常、7~14分可能有抑郁症、14~21分肯定有抑郁症、21分~29分有明显抑郁,29分以上可能为严重抑郁。
汉密顿抑郁量表的总分能够很好的反映用户的抑郁程度,在临床上有良好的应用信度。本发明实施例采集了医生就汉密顿抑郁量表对就诊者进行提问的视频、录音数据,由专业的心理医生对就诊者的回答状况进行打分,由此得到每一个就诊者用户的汉密顿抑郁量表分数和抑郁程度,并将该汉密顿抑郁量表分数和抑郁程度用于训练跨模态transformer的标签。
S1、采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制。
S2、根据所述就诊视频,获取视觉特征。
抑郁症患者常常表现出心情低落、自卑、思维迟缓、行动消沉等现象,在视觉上异于常人。所以本申请想到,可以捕捉以上现象所反应出的多种视觉特征,丰富多模态特征,以此提高抑郁症检测的准确度。
因此,上述视觉特征包括视频帧序列、人脸关键点二值图、复杂情绪序列、肢体活跃度序列以及注视角热力图中的一种或者几种任意组合。
获取过程包括:
采用Openface工具包对所述就诊视频进行抽帧,获取所述视频帧序列;
并对每一帧中的的用户进行人脸检测和人脸对齐,提取出2D人脸关键点和对齐后的人脸图片,将人脸关键点绘制在纯黑色背景上获取所述人脸关键点二值图;
将对齐后的人脸图片输入emonet模型,对用户的效价和唤醒二维情绪进行预测,得到基础情绪,再通过如图2所示,预设的VA环形模型将基础情绪映射为复杂情绪向量,获取所述复杂情绪序列;
采用飞桨框架的实时关键点检测模型提取用户的身体关键点,将身体关键点坐标转化为向量,分别计算鼻子、四肢向量的变化模长,组成所述肢体活跃度序列;
采用Openface工具包提取用户的视线、头部姿态特征,将提取出的特征转换成眼睛凝视序列,并根据眼睛凝视序列得到热力图的边界和中心点,去除遍历中心点最远的部分点后,使用八邻域法将眼睛凝视序列转换成所述注视角热力图。
S3、从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征。
抑郁症患者表现出的心情低落、反应迟缓等现象除了有视觉特征之外,还会通过声音(语调、语速等)表现出来。我们认为采集到的语音数据同时包含有效信息。
所述S3具体包括:
首先对所述音频数据进行了文本转录,标注了音频中每一句话的说话角色、起止时间、持续时间、文本内容;再根据标注的起止时间将录音中用户回答医生的语音数据切分出来;最终采用开源工具openSMILE提取所述语音特征。
S4、将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;包括:
S41、预先根据回答信息的有效性构建停止词典,具体包括:
停止词典的设定标准为:文本含义是否提供足够有效信息以帮助判断,例如:当医生提问用户是否失眠时,若用户回答仅为:“嗯”或“是”时,这句回答在无上下文的情况下就未提供足够信息,但是,若用户的回答详细描述了自己的失眠情况或未失眠情况时,即使没有上下文,也可以了解到用户的睡眠情况,此时,用户的回答是包含有效信息的。根据此条标准,整理出一个停止词典,其中包含“嗯。”、“是。”、“有。”、“没有。”等回答。当用户的回答出现在停止词典中时,将这句回答剔除,例如,当用户的回答仅为:“嗯。”时,则将这句回答剔除。
S42、根据所述停止词典清洗了数据,获取包含有效信息的文本内容;
S43、采用Chinese-roBerta模型将文本内容转换为文本特征。
S5、根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。
本发明实施例采用深度学习技术,以跨模态transformer为核心结构,结合上述标签数据,具体采用有监督式学习方式构建所述跨模态transformer模型。
所述S5具体包括:
S51、根据起始时间和终止时间截取相应的视觉特征,完成所述视觉特征、语音特征和文本特征在时间维度上的对齐;
S52、将所述视频帧序列、人脸关键点二值图以及注视角热力图划分为三维视觉特征;将所述复杂情绪序列、肢体活跃度序列以及语音特征划分为一维时序特征;具体包括:
所述S52具体包括:
S521、将各个三维视觉特征video切分为若干三维patch:
Figure BDA0003558500090000141
其中,
Figure BDA0003558500090000142
i=1,2,3时分别表示所述视频帧序列、人脸关键点二值图、注视角热力图;T、H、W分别代表一个三维视觉特征的图像帧长、帧高和帧宽,t、h、w分别代表一个三维视觉特征Patch的图像帧长、高度和宽度;3代表每一帧图片的RGB三通道;3DPatchPartition表示将videoclip通过3D卷积切分为若干videopatch
引入可学习的矩阵Wvp∈Rt·h·w·3×d,投影得到每个patch的d维特征xvideo
xvideo=Flatten(videopatch)*Wvp
其中,Flatten表示合并videopatch的前三个维度;
S522、将各个一维时序特征audio进行分段,其中一维时序特征长度为1×T′;每个片段
Figure BDA0003558500090000143
长度是,j=1,2,3时分别表示所述肢体活跃度时序、复杂情绪时序、语音特征;
引入可学习的矩阵Wap∈Rt′×d,投影得到每个片段的d维特征xaudio
xaudio=audioseg*Wap
S523、将文本特征text的每一单词,根据预设的词汇表映射成词向量;
引入可学习的矩阵Wtp∈Rv×d,投影得到每个词向量的d维特征xtext
xtext=wordvec*Wtp
其中,wordvec表示one-hot词向量。
S53、根据所述三维视觉特征、一维时序特征和文本特征,引入可学习矩阵,获取各自对应且维度相同的初始语义特征;
S54、将所述三维视觉特征、一维时序特征和文本特征对应的初始语义特征,结合位置编码信息,获取各自对应的高级语义特征;包括:
z0=[x0WP;x1WP;...;xNWP]+ePOS
其中,x0,x1…,xN依次表示某类特征的各个patch;WP表示可学习矩阵;ePOS表示位置编码;
随后将z0输入由L个Transformer Encoder模块堆叠而成的模型中进行高级语义特征提取,
z′l=MHA(LN(zl-1))+zl-1,l=1...L
zl=MLP(LN(z′l))+z′l,l=1...L
zout=LN(zL)
其中,MHA代表Multi-Head-Attention;MLP代表多层感知机;LN代表LayerNormaliztion;L代表Transformer Encoder的总个数,l代表第l块Transformer Encoder;z′l表示对上一层的输出zl-1执行LN和MHA后再加上上一层的输出zl-1所得到的结果;zl表示对z′l执行LN和MLP后再加上z′l所得到的结果,zout表示对zl做LN所得到的结果;
S55、融合所述三维视觉特征、一维时序特征和文本特征对应的高级语义特征;包括:
将视觉特征和音频特征的模型输出
Figure BDA0003558500090000161
投影到文本特征空间得到zv→t、za→t
Figure BDA0003558500090000162
Figure BDA0003558500090000163
Figure BDA0003558500090000164
投影到语音特征空间得到zt→a、zv→a
Figure BDA0003558500090000165
Figure BDA0003558500090000166
Figure BDA0003558500090000167
投影到视觉特征空间得到zt→v、za→v
Figure BDA0003558500090000168
Figure BDA0003558500090000169
其中,
Figure BDA00035585000900001610
Figure BDA00035585000900001611
Figure BDA00035585000900001612
Figure BDA00035585000900001613
Figure BDA00035585000900001614
Figure BDA0003558500090000171
其中,
Figure BDA0003558500090000172
Wk为可学习的矩阵,d为
Figure BDA0003558500090000173
特征的长度,k=1,2,3时分别代表video、audio、text;
将同一特征空间中的信息进行拼接得到Yt、Ta、Yv,过程如下:
Yt=[zv→t,za→t]
Ta=[zt→a,zv→a]
Yv=[zt→v,za→v]
将Yt、Ta、Yv分别送入Transformer编码块中得到各自的输出Y′t、Y′a、Y′v
S56、拼接所述Y′t、Y′a、Y′v得到Y′=[Y′t、Y′a、Y′v],最后将Y′通过全连接层输出该用户的抑郁程度的预测结果。
该步骤中具体将Y′通过一层大小为17的全连接层,对汉密顿抑郁量表的17项分数进行预测;然后将17个神经元输出输入大小为4的全连接层,对抑郁程度做4分类任务,获取该用户的抑郁程度的预测结果。
本发明实施例与抑郁量表结合,不仅采用了传统多模态抑郁症检测方法中的特征,还提取了与抑郁症患者状态更加贴合的特征,能够提供更加全面的诊断结果。
应用过程中,本发明实施例还将模型输出的多模态高级语义特征进行深层次特征融合,更好的完善了不同模态之间的潜在联系,能够提供更加准确的诊断结果。
本发明实施例提供了一种基于全注意力机制的多模态抑郁症检测系统,包括:
采集模块,用于采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;
第一获取模块,用于根据所述就诊视频,获取视觉特征;
第二获取模块,用于从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;
第三获取模块,用于将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;
预测模块,用于根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。
本发明实施例提供了一种存储介质,其存储有用于基于跨模态transformer的多模态抑郁症检测的计算机程序,其中,所述计算机程序使得计算机执行如上所述的多模态抑郁症检测方法。
本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的多模态抑郁症检测方法。
可理解的是,本发明实施例提供的基于跨模态transformer的多模态抑郁症检测系统、存储介质和电子设备与本发明实施例提供的基于跨模态transformer的多模态抑郁症检测方法相对应,其有关内容的解释、举例和有益效果等部分可以参考多模态抑郁症检测方法中的相应部分,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例中数据采集结合了具有良好应用信度的汉密顿抑郁量表,全面采集了视频模态、音频模态、文本模态的数据,以及考虑了跨模态特征信息,补充了不同模态之间的潜在联系,用于对用户抑郁症状进行刻画评估,诊断结果更准确。
2、本发明实施例与抑郁量表结合,不仅采用了传统多模态抑郁症检测方法中的特征,还提取了与抑郁症患者状态更加贴合的特征,能够提供更加全面的诊断结果。
3、应用过程中,本发明实施例还将模型输出的多模态高级语义特征进行深层次特征融合,更好的完善了不同模态之间的潜在联系,能够提供更加准确的诊断结果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于全注意力机制的多模态抑郁症检测方法,其特征在于,包括:
采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;
根据所述就诊视频,获取视觉特征;
从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;
将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;
根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。
2.如权利要求1所述的多模态抑郁症检测方法,其特征在于,所述视觉特征包括视频帧序列、人脸关键点二值图、复杂情绪序列、肢体活跃度序列以及注视角热力图中的一种或者几种任意组合;获取过程包括:
采用Openface工具包对所述就诊视频进行抽帧,获取所述视频帧序列;
并对每一帧中的的用户进行人脸检测和人脸对齐,提取出2D人脸关键点和对齐后的人脸图片,将人脸关键点绘制在纯黑色背景上获取所述人脸关键点二值图;
将对齐后的人脸图片输入emonet模型,对用户的效价和唤醒二维情绪进行预测,得到基础情绪,再通过预设的VA环形模型将基础情绪映射为复杂情绪向量,获取所述复杂情绪序列;
采用飞桨框架的实时关键点检测模型提取用户的身体关键点,将身体关键点坐标转化为向量,分别计算鼻子、四肢向量的变化模长,组成所述肢体活跃度序列;
采用Openface工具包提取用户的视线、头部姿态特征,将提取出的特征转换成眼睛凝视序列,并根据眼睛凝视序列得到热力图的边界和中心点,去除遍历中心点最远的部分点后,使用八邻域法将眼睛凝视序列转换成所述注视角热力图。
3.如权利要求2所述的多模态抑郁症检测方法,其特征在于,所述根据所述音频数据,获取语音特征,包括:
首先对所述音频数据进行了文本转录,标注了音频中每一句话的说话角色、起止时间、持续时间、文本内容;再根据标注的起止时间将录音中用户回答医生的语音数据切分出来;最终采用开源工具openSMILE提取所述语音特征。
4.如权利要求3所述的多模态抑郁症检测方法,其特征在于,所述根据所述文本数据,取文本特征,包括:
预先根据回答信息的有效性构建停止词典;
根据所述停止词典清洗了数据,获取包含有效信息的文本内容;
采用Chinese-roBerta模型将文本内容转换为文本特征。
5.如权利要求4所述的多模态抑郁症检测方法,其特征在于,所述根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果,包括:
S51、根据起始时间和终止时间截取相应的视觉特征,完成所述视觉特征、语音特征和文本特征在时间维度上的对齐;
S52、将所述视频帧序列、人脸关键点二值图以及注视角热力图划分为三维视觉特征;将所述复杂情绪序列、肢体活跃度序列以及语音特征划分为一维时序特征;
S53、根据所述三维视觉特征、一维时序特征和文本特征,引入可学习矩阵,获取各自对应且维度相同的初始语义特征;
S54、将所述三维视觉特征、一维时序特征和文本特征对应的初始语义特征,结合位置编码信息,获取各自对应的高级语义特征;包括:
z0=[x0WP;x1WP;...;xNWP]+ePOS
其中,x0,x1…,xN依次表示某类特征的各个patch;WP表示可学习矩阵;ePOS表示位置编码;
随后将z0输入由L个Transformer Encoder模块堆叠而成的模型中进行高级语义特征提取,
z′l=MHA(LN(zl-1))+zl-1,l=1...L
zl=MLP(LN(z′l))+z′l,l=1...L
zout=LN(zL)
其中,MHA代表Multi-Head-Attention;MLP代表多层感知机;LN代表LayerNormaliztion;L代表Transformer Encoder的总个数,l代表第l块Transformer Encoder;z′l表示对上一层的输出zl-1执行LN和MHA后再加上上一层的输出zl-1所得到的结果;zl表示对z′l执行LN和MLP后再加上z′l所得到的结果,zout表示对zl做LN所得到的结果;
S55、融合所述三维视觉特征、一维时序特征和文本特征对应的高级语义特征;包括:
将视觉特征和音频特征的模型输出
Figure FDA0003558500080000041
投影到文本特征空间得到zv→t、za→t
Figure FDA0003558500080000042
Figure FDA0003558500080000043
Figure FDA0003558500080000044
投影到语音特征空间得到zt→a、zv→a
Figure FDA0003558500080000045
Figure FDA0003558500080000046
Figure FDA0003558500080000047
投影到视觉特征空间得到zt→v、za→v
Figure FDA0003558500080000048
Figure FDA0003558500080000049
其中,
Figure FDA00035585000800000410
Figure FDA00035585000800000411
Figure FDA00035585000800000412
Figure FDA00035585000800000416
Figure FDA00035585000800000413
Figure FDA00035585000800000414
其中,
Figure FDA00035585000800000417
Wk为可学习的矩阵,d为
Figure FDA00035585000800000415
特征的长度,k=1,2,3时分别代表video、audio、text;
将同一特征空间中的信息进行拼接得到Yt、Ya、Yv,过程如下:
Yt=[zv→t,za→t]
Ya=[zt→a,zv→a]
Yv=[zt→v,za→v]
将Yt、Ya、Yv分别送入Transformer编码块中得到各自的输出Y′t、Y′a、Y′v
S56、拼接所述Y′t、Y′a、Y′v得到Y′=[Y′t、Y′a、Y′v],最后将Y′通过全连接层输出该用户的抑郁程度的预测结果。
6.如权利要求5所述的多模态抑郁症检测方法,其特征在于,所述S52具体包括:
S521、将各个三维视觉特征video切分为若干三维patch:
Figure FDA0003558500080000051
其中,
Figure FDA0003558500080000052
i=1,2,3时分别表示所述视频帧序列、人脸关键点二值图、注视角热力图;T、H、W分别代表一个三维视觉特征的图像帧长、帧高和帧宽,t、h、w分别代表一个三维视觉特征Patch的图像帧长、高度和宽度;3代表每一帧图片的RGB三通道;3DPatchPartition表示将videoclip通过3D卷积切分为若干videopatch
引入可学习的矩阵Wvp∈Rt·h·w·3×d,投影得到每个patch的d维特征xvideo
xvideo=Flatten(videopatch)*Wvp
其中,Flatten表示合并videopatch的前三个维度;
S522、将各个一维时序特征audio进行分段,其中一维时序特征长度为1×T′;每个片段
Figure FDA0003558500080000061
长度是,j=1,2,3时分别表示所述肢体活跃度时序、复杂情绪时序、语音特征;
引入可学习的矩阵Wap∈Rt′×d,投影得到每个片段的d维特征xaudio
xaudio=audioseg*Wap
S523、将文本特征text的每一单词,根据预设的词汇表映射成词向量;
引入可学习的矩阵Wtp∈Rv×d,投影得到每个词向量的d维特征xtext
xtext=wordvec*Wtp
其中,wordvec表示one-hot词向量。
7.如权利要求5或者6所述的多模态抑郁症检测方法,其特征在于,所述S56中将Y′通过一层大小为17的全连接层,对汉密顿抑郁量表的17项分数进行预测;然后将17个神经元输出输入大小为4的全连接层,对抑郁程度做4分类任务,获取该用户的抑郁程度的预测结果。
8.一种基于全注意力机制的多模态抑郁症检测系统,其特征在于,包括:
采集模块,用于采集用户的就诊视频,所述就诊视频由医生就汉密顿抑郁量表对用户进行提问时录制;
第一获取模块,用于根据所述就诊视频,获取视觉特征;
第二获取模块,用于从所述就诊视频提取音频数据,根据所述音频数据,获取语音特征;
第三获取模块,用于将所述音频数据进行转录标注获取文本数据,根据所述文本数据,取文本特征;
预测模块,用于根据所述视觉特征、语音特征、文本特征,采用预先构建的跨模态transformer模型预测该用户的抑郁程度结果。
9.一种存储介质,其特征在于,其存储有用于基于跨模态transformer的多模态抑郁症检测的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~7任一项所述的多模态抑郁症检测方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~7任一项所述的多模态抑郁症检测方法。
CN202210282672.0A 2022-03-22 2022-03-22 基于全注意力机制的多模态抑郁症检测方法和系统 Pending CN114898861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210282672.0A CN114898861A (zh) 2022-03-22 2022-03-22 基于全注意力机制的多模态抑郁症检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210282672.0A CN114898861A (zh) 2022-03-22 2022-03-22 基于全注意力机制的多模态抑郁症检测方法和系统

Publications (1)

Publication Number Publication Date
CN114898861A true CN114898861A (zh) 2022-08-12

Family

ID=82715174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210282672.0A Pending CN114898861A (zh) 2022-03-22 2022-03-22 基于全注意力机制的多模态抑郁症检测方法和系统

Country Status (1)

Country Link
CN (1) CN114898861A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064246A (zh) * 2022-08-18 2022-09-16 山东第一医科大学附属省立医院(山东省立医院) 一种基于多模态信息融合的抑郁症评估系统及设备
CN115631772A (zh) * 2022-10-27 2023-01-20 四川大学华西医院 自伤自杀危险性评估方法、装置、电子设备及存储介质
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN116130089A (zh) * 2023-02-02 2023-05-16 湖南工商大学 基于超图神经网络的多模态抑郁症检测系统、装置及介质
CN116340778A (zh) * 2023-05-25 2023-06-27 智慧眼科技股份有限公司 基于多模态的医疗大模型构建方法及其相关设备
CN116543918A (zh) * 2023-07-04 2023-08-04 武汉大学人民医院(湖北省人民医院) 多模态疾病特征的提取方法及装置
CN116631629A (zh) * 2023-07-21 2023-08-22 北京中科心研科技有限公司 一种识别抑郁情绪障碍的方法、装置及可穿戴设备
CN116665845A (zh) * 2023-05-17 2023-08-29 北京邮电大学 一种基于多模态数据用户情绪自测系统
CN117219265A (zh) * 2023-10-07 2023-12-12 东北大学秦皇岛分校 多模态数据分析方法、装置、存储介质和设备
US12086716B1 (en) 2023-05-25 2024-09-10 AthenaEyes CO., LTD. Method for constructing multimodality-based medical large model, and related device thereof

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064246A (zh) * 2022-08-18 2022-09-16 山东第一医科大学附属省立医院(山东省立医院) 一种基于多模态信息融合的抑郁症评估系统及设备
CN115631772A (zh) * 2022-10-27 2023-01-20 四川大学华西医院 自伤自杀危险性评估方法、装置、电子设备及存储介质
CN115831352B (zh) * 2022-12-05 2023-08-08 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN116130089A (zh) * 2023-02-02 2023-05-16 湖南工商大学 基于超图神经网络的多模态抑郁症检测系统、装置及介质
CN116130089B (zh) * 2023-02-02 2024-01-02 湖南工商大学 基于超图神经网络的多模态抑郁症检测系统、装置及介质
CN116665845A (zh) * 2023-05-17 2023-08-29 北京邮电大学 一种基于多模态数据用户情绪自测系统
CN116340778A (zh) * 2023-05-25 2023-06-27 智慧眼科技股份有限公司 基于多模态的医疗大模型构建方法及其相关设备
CN116340778B (zh) * 2023-05-25 2023-10-03 智慧眼科技股份有限公司 基于多模态的医疗大模型构建方法及其相关设备
US12086716B1 (en) 2023-05-25 2024-09-10 AthenaEyes CO., LTD. Method for constructing multimodality-based medical large model, and related device thereof
CN116543918A (zh) * 2023-07-04 2023-08-04 武汉大学人民医院(湖北省人民医院) 多模态疾病特征的提取方法及装置
CN116543918B (zh) * 2023-07-04 2023-09-22 武汉大学人民医院(湖北省人民医院) 多模态疾病特征的提取方法及装置
CN116631629A (zh) * 2023-07-21 2023-08-22 北京中科心研科技有限公司 一种识别抑郁情绪障碍的方法、装置及可穿戴设备
CN117219265A (zh) * 2023-10-07 2023-12-12 东北大学秦皇岛分校 多模态数据分析方法、装置、存储介质和设备

Similar Documents

Publication Publication Date Title
CN114898861A (zh) 基于全注意力机制的多模态抑郁症检测方法和系统
Narayanan et al. Behavioral signal processing: Deriving human behavioral informatics from speech and language
CN110556129B (zh) 双模态情感识别模型训练方法及双模态情感识别方法
CN109874029B (zh) 视频描述生成方法、装置、设备及存储介质
CN103996155A (zh) 智能交互及心理慰藉机器人服务系统
CN110675951A (zh) 智能化的疾病诊断方法及装置、计算机设备与可读介质
CN111461176A (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
Bogach et al. Speech processing for language learning: A practical approach to computer-assisted pronunciation teaching
CN114898860A (zh) 基于跨模态transformer的多模态焦虑症检测方法和系统
GB2581943A (en) Interactive systems and methods
Xia et al. Audiovisual speech recognition: A review and forecast
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
CN112768070A (zh) 一种基于对话交流的精神健康评测方法和系统
Wagner et al. Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora
Alsharid et al. Gaze-assisted automatic captioning of fetal ultrasound videos using three-way multi-modal deep neural networks
CN115188074A (zh) 一种互动式体育训练测评方法、装置、系统及计算机设备
Li et al. Improvement on speech depression recognition based on deep networks
Dweik et al. Read my lips: Artificial intelligence word-level arabic lipreading system
Zhang et al. Multimodal Sensing for Depression Risk Detection: Integrating Audio, Video, and Text Data
CN117877660A (zh) 基于语音识别的医学报告获取方法及系统
Hong et al. When hearing the voice, who will come to your mind
Gu et al. Language-based process phase detection in the trauma resuscitation
Alishahi et al. ZR-2021VG: Zero-resource speech challenge, visually-grounded language modelling track
McTear et al. Affective conversational interfaces
Zhu et al. MEDIC: A multimodal empathy dataset in counseling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination