CN116110565A - 一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法 - Google Patents

一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法 Download PDF

Info

Publication number
CN116110565A
CN116110565A CN202211002632.2A CN202211002632A CN116110565A CN 116110565 A CN116110565 A CN 116110565A CN 202211002632 A CN202211002632 A CN 202211002632A CN 116110565 A CN116110565 A CN 116110565A
Authority
CN
China
Prior art keywords
text
depression
neural network
input
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211002632.2A
Other languages
English (en)
Inventor
杨长春
王彭
曹苗苗
张力维
孟天霜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN202211002632.2A priority Critical patent/CN116110565A/zh
Publication of CN116110565A publication Critical patent/CN116110565A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机自然语言处理情感分析领域,提出了一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法。首先采集读取音频、文本和视频模态数据;通过三条分支网络对三种模态数据提取高维特征,音频模态使用Wav2vec2.0对音频数据编码,特征提取模块网络提取音频高维特征;文本模态使用Bert对文本数据编码,双向长短时间记忆网络提取文本高维特征;从视频模态获取面部、头部关键点坐标信息,通过时间分布卷积神网络提取视频高维特征;通过搭建自注意力模块,充分融合三种高维特征以提高对抑郁状态检测的准确率;通过利用加权的交叉熵损失函数,抑制干扰噪声对于网络学习能力的影响,从而进行准确的抑郁状态预测。

Description

一种基于多模态深度神经网络对人群抑郁状态辅助检测的 方法
技术领域
本发明涉及计算机自然语言处理情感分析领域,特别涉及一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法。
背景技术
抑郁症是一种常见的精神疾病,几十年来一直影响着全世界数百万人。Instituteof Health Metrics and Evaluation.Global Health Data Exchange(GHDx).Available:http://ghdx.healthdata.org/gbd-results-tool?params=gbd-api-2019-permalin k/d780dffbe8a381b25e1416884959e88b(Cited 2021,October 3).中显示随着COVID-19在世界各地的爆发,抑郁症的严重性进一步恶化,全球死亡人数从2018年的2.64亿上升到2021年的2.8亿。抑郁症的患病人数占全球人口的3.76%,占成年人口的5.02%。由于经济成本、隐私问题和精神病医生的严重短缺,导致抑郁症的诊断和治疗在全球许多地方都是遥不可及的,并且这种缺少诊断治疗的现象在低收入国家更加严重,这些国家或地区的精神病医生相对总人口的比率比经济较好的国家低210倍。因此,多达三分之二的抑郁症病例无法得到诊断和治疗。抑郁症会导致睡眠、注意力和幸福感的缺失,从而严重破坏生活质量,在极端的情况下,抑郁症甚至会导致自杀,全球每年有70万人因此丧生。此外,抑郁症也是导致残疾的主要原因。从社会经济学的角度来看,与健康人相比,抑郁症患者每周会多损失4个小时的工作时间,这可能会对个人的生活和总体经济生产造成一定的影响,据估计,全球每年要在抑郁症上花费至少2105亿美元。
因此,能够提取诊断出抑郁症来减轻对社会和个人产生这些不良的后果,是十分有必要的。在闵宝权,周爱红,梁丰,等.病人健康问卷抑郁自评量表(PHQ-9)的临床应用[J].神经疾病与精神卫生,2013(006):569-572.、Kurt Kroenke,Tara W.Strine,RobertL.Spitzer,Janet B.W.Williams,Joyce T.Berry,Ali H.Mokdad,The PHQ-8as a measureof current depression in the general population,Journal of AffectiveDisorders,Volume 114,Issues 1–3,2009,Pages 163-173以及Bernd
Figure SMS_1
KurtKroenke,Kerstin
Figure SMS_2
Detecting and monitoring depression with a two-itemquestionnaire(PHQ-2),Journal of Psychosomatic Research,Volume 58,Issue 2,2005,Pages 163-171都提及目前的抑郁症诊断方法包括通过与精神病医生面谈进行临床诊断,以及PHQ-2、PHQ-8和PHQ-9等问卷调查。虽然由精神科医生进行诊断可以检测到更精确的疾病表现和症状,但由于受到精神科医生数量的限制,让医生当面访谈诊断受到限制,使得这个方法缺乏广泛性。与临床诊断方法相比,患者健康问卷的敏感性和特异性较低,在诊断抑郁症时不太实用。以PHQ-8问卷为例,其敏感性为77%,特异性为62%,明显低于结构化临床访谈的敏感性95%,特异性84%。而且抑郁症的发病机理还在研究中,尤其在临床早期,通过医生也难以进行诊断和治疗。随着人工智能的快速发展,了解抑郁症和日常行为之间的关系有助于早期对抑郁症的诊断,可以有效的减少劳动力成本、临床误诊以及医生的经验判断,此外,心理健康检测和基于云的远程诊断可以通过自动化抑郁诊断系统实现,这为应用自动语音识别技术诊断抑郁症提供了机会,这种方法不仅减少了对人力资源的依赖,而且比亲自筛选更具可扩展性。在过去的十年中,已经开发了许多技术来检测各种精神障碍,包括焦虑、PTSD和阿尔茨海默病。
与普通人相比,抑郁症患者通常有不同的面部表情和日常交流情况,如表情呆滞、头部动作异常、说话音调较低、文本语义相对消极等一些特征,由于这些不同模态所体现出的特征,使得多模态结合针对抑郁状态的检测要比相对于单一模态的检测准确率高。
发明内容
本发明目的在于提出一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法。通过对检测对象的语音、转录文本及视频动作等容易采集的日常行为提取高维特征来检测其抑郁状态有着较高的准确率,既保护了被测对象的隐私又辅助检测出症状。
本发明的技术方案为:
一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法,包括步骤如下;
步骤1):基于音频模态使用特征提取模块提取抑郁状态的高维特征;
特征提取模块由多头自注意力网络(SSA)组成,主要由多头自注意力机制结构和前馈神经网络堆叠组成;前馈神经网络包括两层全连接层,第一层全连接层的激活函数是ReLU,第二层全连接层的激活函数是一个线性激活函数;
步骤2):基于文本模态使用双向长短时间记忆网络框架模型提取抑郁状态的高维特征;
双向长短时间记忆网络为双向LSTM组合的BiLSTM网络,BiLSTM网络使用双层的LSTM layer;用LSTM模型可以很好的捕捉到较长距离的依赖关系,因为LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息。在传统的递归神经网络模型和LSTM模型,信息只能向前传播,所以时间t的状态只取决于时间t之前的文本信息,为了使每一刻都更完整地包含上下文信息,由LSTM神经元和双向递归神经网络(BiRNN)模型组成的BiLSTM模可以用于捕获上下文信息,BiLSTM是LSTM模型的扩展。
步骤3):基于视频模态使用时间分布卷积神经网络模型提取抑郁状态的高维特征;
时间分布卷积神经网络模型为两个并行的分支,T-CNN分支为多层结构,包括五个扩张卷积块和四个最大池化层;扩张卷积块用于获取不同感知范围内的信息;最大池化层用于缩小特征分辨率,提取出高维特征;
步骤4):融合三种模态中提取的抑郁状态的高维特征,通过自注意力模块输出二进制标签,对人群的抑郁状态检测;
通过学习三个模态的特征,对抑郁症的有无进行分类,预测结果只有两种情况,预测的概率分别为p和1-p;使用交叉熵损失函数,定义如下:
Figure SMS_3
lce=-[y·log(p)+(1-y)·log(1-p)] (1)
式中m是采用的模态通道,lce是定义的交叉熵损失函数,xm是三通道拼接的多模态特征向量,ωm是自注意力网络中相对xm学习到的权重,y表示样本的标签,有抑郁症为1,无抑郁症为0,p表示样本预测为有抑郁症的概率。
所述步骤1)中,具体步骤包括:
步骤1.1):音频序列编码
使用预训练的Wav2vec2.0模型作为Wav2vec2.0音频编码模块,用于提取音频片段;Bidirectional Encoder Representations from Transformers(BERT)是google提出的自然语言处理中的一个预训练方法,是多个Transformer的双向叠加,在大型文本语料库上训练通用的‘语言理解’模型,然后将该模型应用在各种下游任务中。
通过视频录音记录被测人的音频片段,经过降噪、除杂和去静音的预处理操作后,输入到Wav2vec2.0音频编码模块,输出的特征维度为512×帧数;Wav2vec2.0音频编码模块包括vq-wav2vec的量化模块和Transformer结构;
步骤1.2):特征提取模块进行特征提取
将Wav2vec2.0音频编码模块输出的特征
Figure SMS_4
输入到特征提取模块中,其中T和dm分别是输入的长度和维度;特征提取模块对x进行三次投影,得到查询向量Q、键向量K和价值向量V,再将Q、K和V拆分为h个部分,产生dh个维度特征,其中
Figure SMS_5
h为正数,每个部分的特征都经过一个多头自注意力机制结构后输出Q′;同时输入的x在经过另一个多头自注意力机制结构后输入到前馈神经网络中,得到一个加权的特征向量并映射为K′和V′,Q′、K′和V′输入至下一个多头自注意力结构,输出至最后一层前馈神经网络,得到每个部分的输出特征,将h个维度的输出串联后形成最终输出;特征提取模块映射公式如下:
Figure SMS_6
K′,V′=max(0,Q′W1+b1)W2+b2 (3)
Figure SMS_7
其中W1,W2为可学习权重,b1,b2为偏置。
所述步骤2)中,具体步骤包括:
2.1):文本序列编码
将被测人的音频进行转录,获得文本数据,再经过文本清洗后,输入到Bert文本编码模块;Bert文本编码模块为经过预训练的Bert模型,输入为每个样本的转录文本,输出为1×768的一维特征向量;
2.2):双向长短时间记忆网络提取文本的高维特征
步骤2.1)得到的一维特征向量输入至双向长短时间记忆网络,一维特征向量首先输入至前层LSTM layer中,然后将反向的时间序列输入至后层LSTM layer中。
所述步骤3)中,具体步骤包括:
3.1)通过佩戴传感器采集被测人在受访时间内的头部动作的三维坐标信息,通过录像视频采集被测人在受访时间内的面部关键点的三维坐标信息;
将所获得的头部动作和关键点的三维坐标信息读取后获得
Figure SMS_8
Figure SMS_9
的特征向量,其中T是时间步长,D为特征维数;
3.2)以面部关键点的三维坐标特征向量序列和头部动作三维坐标特征向量序列作为输入,使用时间分布卷积神经网络提取视觉的高维特征;
输入面部关键点三维坐标特征向量序列和头部动作三维坐标特征向量序列至两个并行的T-CNN分支进行学习特征;
输入
Figure SMS_10
T-CNN分支的卷积运算表示为:
Figure SMS_11
其中d为扩张因子,k为卷积核大小,b为偏置;采用零填充,保持T-CNN输入输出形状相同。所述扩张因子的倍数是2,用于获取路径上不同时间跨度的时间信息,两条并行的路径通过激活函数连接。
所述步骤4)中,具体步骤包括;
4.1):整合从三个分支模型中提取的高维特征,得到向量I,并输入至自注意力模块,在处理这些高维特征向量序列时,各个向量之间并不是独立的,由于是从不同模态中所提取的关于抑郁的特征,不同模态向量之间的相关性也不同,需要建立非局部依赖关系,自注意力模块将学习到的特征进行融合,将权重分配给不同的特征通道;得到表示三种模态不同特征重要性的权重矩阵;
输入向量I时,自注意力机制的计算过程为:
计算融合后向量I的三个向量矩阵即QF,KF,VF矩阵:
QF=WqI (2)
KF=WkI (3)
VF=WvI (4)
计算注意力分数矩阵A′
A=KTQF (5)
A′=softmax(A) (6)
计算输出矩阵O
O=VFA′ (7)
其中Wq,Wk,Wv是可学习参数。
所述步骤2.1)中,输入文本至Bert文本编码模块时,先将其编码为模型计算机语言能识别的编码;首先将文本根据词典编码为数字,为token embedding;当输入的文本是两句话时,用[SEP]标志分隔,得到segment embedding,前一句对应元素的编码为0,后一句编码为1;当输入的文本元素是位置信息时,为position embedding;三个embedding组合后输入至Bert文本编码模块。
本发明的有益效果:
1)利用三种不同的分支网络针对音频、文本、视频模态提取抑郁高维特征,进行深度融合后进行抑郁状态的检测;
2)针对获取抽象的视频模态特征构建多尺度时间分布卷积神经网络提高模态中的高维抑郁状态特征;
3)提出基于深度神经网络的三通道多模态网络框架,从不同模态中多角度提取抑郁特征,提高抑郁症检测的准确率;
4)将音频特征提取模块、文本双向长短时间记忆网络框架模型及视频时间分布卷积神经网络模型进行结合,通过构建融合网络检测人群抑郁状态。
附图说明
图1是本发明一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法流程图;
图2是本发明中提出的音频模态特征提取模块示意图;
图3是本发明中提出的文本模态双向长短时间记忆网络框架模型示意图;
图4是本发明中提出的视频模态时间分布卷积神经网络模型示意图;
图5是本发明中提出的融合三种模态的高维特征示意图。
具体实施方式
下面将结合附图对本发明作进一步的说明,但本发明的保护范围并不限于此。
与抑郁症相关的日常行为有语音、文本和视频动作等模态,对于音频模式,使用预训练的Wav2vec2.0编码器对音频序列编码后,并使用特征提取模块(Transformer)提取高维特征;对于文本模式,使用预训练的Bert编码器对文本序列编码后,使用双向长短时间记忆网络(BiLSTM)模型提取高维特征;对于视频模态,由于抑郁并不是一个即时的行为状态,在短时间内无法区分,需要一个相对较长的观察时间才能给出结论,所以视觉模态需要考虑数据的动态特征,即时间信息,单纯的LSTM或CNN由于缺少时间信息线而存在一定的局限性,一方面也不适合处理较长的序列。由于涉及到隐私保护,采用传感器采集动作坐标,包括脸部关键点坐标、头部运动坐标、眼神凝视坐标等,获得数据后使用时间分布卷积神经网络模型(T-CNN)提取高维特征,最后将三种不同模态的特征经过融合网络后输出二进制检测结果。
图1给出了基于多模态深度神经网络对人群抑郁状态辅助检测的方法的流程图,本发明提出一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法,考虑到抑郁症患者和健康人在日常行为上有着一定的区别,因此从与日常行为联系紧密的音频、文本和视频三种模态中提取与抑郁相关的高维特征,考虑到抑郁并非一时的状态,需要长时间的观察才能做出判断,因此需要从视频模态中提取长时间的动态特征,使用T-CNN网络处理含时间维度的序列特征,故本发明采用多模态融合的方法提取不同模态中的特征,然后进行自注意力模块融合后输出二进制标签。
本发明的具体操作步骤:
图2给出了音频模态特征提取模块示意图
1)读取原始音频数据后,经过预处理输入到Wav2vec2.0音频编码模块提取音频特征,特征提取模块提取编码后音频的高维特征。本发明提出的Wav2vec2.0音频编码模块使用经过预训练的Wav2vec2.0模型提取音频片段。
本发明提出的特征提取模块由多头自注意力网络组成,主要由多头自注意力机制结构和前馈神经网络堆叠组成;前馈神经网络包括两层全连接层,对于输入特征序列
Figure SMS_12
其中T和dm分别为输入的长度和维度数,特征提取模块首先对x进行三次投影,得到查询向量Q、键向量K和价值向量V,再将三者分成h部分,产生dh个维度特征,其中
Figure SMS_13
h为正数,每个部分的特征都经过一个多头自注意力机制结构后输出Q′至下一个多头自注意力机制结构;同时输入的x在经过另一个多头自注意力机制结构后输入到前馈神经网络中,得到一个加权的特征向量并映射为K′和V′,再输入至下一个多头自注意力结构;下一个多头自注意力结构的输入为Q′、K′和V′,其输出送至最后一层前馈神经网络,得到每个部分的输出特征,将h个维度的输出串联后形成最终输出。模型映射公式如下:
Figure SMS_14
K′,V′=max(0,Q′W1+b1)W2+b2
Figure SMS_15
图3给出了文本模态双向长短时间记忆网络框架模型示意图
2)将原始音频进行转录为文本后,进行数据整理,清理转录的乱码、符号等,读取后输入到Bert文本编码模块将原始文本编码为一维特征向量;
非数值型的文本数据是不能直接输入到模型中的,需要经过编码转化为数值型数据才可用于模型训练和预测,传统的主流文本编码有词袋模型和词向量模型,词袋模型使用独热编码、频数编码或TF-IDF统计得到单词的向量表示,然后用句中单词向量之和表示句子。词袋模型文本表示实现简单、表示结果可解释性好,但是它无法表示单词的含义、无法计算词句之间的语义相似度(文本相似度),且编码向量非常稀疏;词向量模型根据单词与上下文的搭配关系,通过模型训练出单词的向量表示。
Bert模型也是依赖于双向Transformer叠加的模型,其优于以前的方法,因为它是用于预训练NLP的第一个无监督、深度双向系统、应用更深的模型,以及海量的语料,得到的embedding表示,来做下游任务时的准确率是要比其他方法高不少的,在各类下游任务中,可以采用多任务方式可选择性地微调Bert。
将经过Bert编码后得到的embedding向量输送到双向长短时间记忆网络提取高维特征。通过BiLSTM可以更好的捕捉双向的语义依赖,LSTM模型是由t时刻的输入词Xt,细胞状态Ct,临时细胞状态
Figure SMS_16
隐藏状态ht,遗忘门ft,记忆门it,输出门ot组成,其计算过程可以概况为,通过对细胞状态中信息遗忘和记忆更新对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态ht,其中遗忘、记忆与输出由通过上个时刻的隐层状态ht-1和当前输入Xt计算出来的遗忘ft,记忆门it和输出门ot来控制,最终得到与句子相同的隐层状态序列。各变量公式如下所示:
ft=σ(Wf·[ht-1,xt]+bf) (8)
it=σ(Wi·[ht-1,xt]+bi) (9)
Figure SMS_17
Figure SMS_18
ot=σ(Wo·[ht-1,xt]+bo) (12)
ht=ot×tanh(Ct) (13)
本发明提出的文本模态网络在经过Bert编码后得到(1,768)的特征向量,经过BiLSTM的两层网络后输出为(1,256)的高维特征向量,为了避免过拟合,在BiLSTM模块中每层网络之后增加一个Dropout层。
图4给出了视频模态网络示意图
3)通过佩戴传感器采集被测人在受访时间内的头部动作的三维坐标信息,通过录像视频采集被测人在受访时间内的面部68个关键点的三维坐标信息
将所获得的关键点信息读取后获得
Figure SMS_19
的特征向量,其中T是时间步长,D为特征维数。
以三维面部关键点坐标序列和头部姿态动作坐标序列作为输入,使用时间分布卷积神经网络提取高维特征;对于输入的面部坐标点信息和头部姿态动作信息,使用两个并行的T-CNN分支来学习特征,后采用自注意力模块将学习到的特征进行融合,将权重分配给不同的特征通道。提出的T-CNN是一种多层结构,由五个扩张卷积块和四个最大池化层组成。一方面使用卷积块来探索不同感知范围内的重要信息,另一方面,最大池化层不断缩小特征分辨率,逐渐提取出重要的高维特征,因此T-CNN可以被看做一个特征学习模块,从多个尺度提取抑郁症的特定信息。给定一个输入
Figure SMS_20
T-CNN的卷积运算可以表示为:
Figure SMS_21
其中d为扩张因子,k为卷积核大小,b为偏置。采用零填充,保持其输入输出形状相同。在网络中,扩张因子的倍数是2,目的是获取路径上不同时间跨度的时间信息,两条并行的路径选用ELU激活函数连接
Figure SMS_22
为了保持各个模块之间张量尺寸相同,在每个扩张卷积块中添加一个1×1卷积层,在扩张卷积块末端采用批归一化来加速训练过程,其中批归一化也能缓解梯度消失问题,但为了保留不同特性的分布,在最后一个扩张卷积块中没有使用批归一化
在前四个个扩张卷积块之后添加一个最大池化层,通过最大池化层使其输出的张量获得最大的感受野,能够从长序列中逐渐聚合重要的信息,此外最大池化层也能够减少序列长度,保留最重要的部分,降低了模型的复杂度。
每个扩张卷积块在给定输入
Figure SMS_23
模型的输出为
Figure SMS_24
输出与输入尺寸相同,因此在输入的序列很长的任务中,输出的尺寸可能也会很大,为了扩大感受野,加深网络规模,会使得扩张系数过大,计算成本增加等副作用,因此在网络中增加多个不同的扩张因子d=(1,2,4),其次最大池化层为了缩小特征长度,自然扩大相邻的扩张卷积块的接收域,使其输入大小减少到T/2M(M=2n-1,n=1,2,3,4,5),在给定输入原始坐标数据后,得到输出为(1,256)的高维特征向量。
图5给出了融合三种模态的高维特征示意图;
4)从三个处理不同模态的分支网络获得三个高维特征,将所获得的特征在第一维度上拼接得到1×768的特征向量,在输入到自注意力模块和全连接层后经过分类得到一组代表抑郁状态的二进制标签。
通过自注意力模块后的输出为(1,768)。本发明中采用3个全连接层(FC),即FC1(512个神经元),FC2(512个神经元)和FC3(2个神经元)前2个FC层后紧接着ReLU激活层,FC3之后连接sofrmax激活层,表示输入音频的抑郁状态。估计抑郁状态与其真实值之间的损失,记为L。
以上所述对本发明进行了简单说明,并不受上述工作范围限值,只要采取本发明思路和工作方法进行简单修改运用到其他设备,或在不改变本发明主要构思原理下做出改进和润饰等行为,均在本发明的保护范围之内。

Claims (7)

1.一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法,其特征在于,包括步骤如下;
步骤1):基于音频模态使用特征提取模块提取抑郁状态的高维特征;
特征提取模块由多头自注意力网络组成,主要由多头自注意力机制结构和前馈神经网络堆叠组成;前馈神经网络包括两层全连接层,第一层全连接层的激活函数是ReLU,第二层全连接层的激活函数是一个线性激活函数;
步骤2):基于文本模态使用双向长短时间记忆网络框架模型提取抑郁状态的高维特征;
双向长短时间记忆网络为双向LSTM组合的BiLSTM网络,BiLSTM网络使用双层的LSTMlayer;
步骤3):基于视频模态使用时间分布卷积神经网络模型提取抑郁状态的高维特征;
时间分布卷积神经网络模型包括两个并行的T-CNN分支,T-CNN分支为多层结构,包括五个扩张卷积块和四个最大池化层;扩张卷积块用于获取不同感知范围内的信息;最大池化层用于缩小特征分辨率,提取出高维特征;
步骤4):融合三种模态中提取的抑郁状态的高维特征,通过自注意力模块输出二进制标签,对人群的抑郁状态检测;
通过学习三个模态的特征,对抑郁症的有无进行分类,预测结果只有两种情况,预测的概率分别为p和1-p;使用交叉熵损失函数,定义如下:
Figure FDA0003806251120000011
lce=-[y·log(p)+(1-y)·log(1-p)] (1)
式中:其中L为加权交叉熵损失函数,m是采用的模态通道,lce是交叉熵损失函数,xm是三通道拼接的多模态特征向量,ωm是自注意力网络中相对xm学习到的权重,y表示样本的标签,有抑郁症为1,无抑郁症为0;p表示样本预测为有抑郁症的概率。
2.根据权利要求1所述的基于多模态深度神经网络对人群抑郁状态辅助检测的方法,其特征在于,所述步骤1)中,具体步骤包括:
步骤1.1):音频序列编码
使用预训练的Wav2vec2.0模型作为Wav2vec2.0音频编码模块,用于提取音频片段;
通过视频录音记录被测人的音频片段,经过降噪、除杂和去静音的预处理操作后,输入到Wav2vec2.0音频编码模块,输出的特征维度为512×帧数;Wav2vec2.0音频编码模块包括vq-wav2vec的量化模块和Transformer结构;
步骤1.2):特征提取模块进行特征提取
将Wav2vec2.0音频编码模块输出的特征
Figure FDA0003806251120000021
输入到特征提取模块中,其中T和dm分别是输入的长度和维度;特征提取模块对特征x进行三次投影,得到查询向量Q、键向量K和价值向量V,再将Q、K和V都拆分为h个部分,产生dh个维度特征,其中
Figure FDA0003806251120000022
h为正数,每个部分的特征都经过一个多头自注意力机制结构后输出为Q′;同时将输入的特征x在经过另一个多头自注意力机制结构后,再输入到前馈神经网络中,得到一个加权的特征向量并映射为K′和V′,;Q′、K′和V′输入至下一个多头自注意力结构,输出送至最后一层前馈神经网络,得到每个部分的输出特征,将h个维度的输出串联后形成最终输出;特征提取模块映射公式如下:
Figure FDA0003806251120000023
K′,V′=max(0,Q′W1+b1)W2+b2 (3)
Figure FDA0003806251120000024
其中W1,W2为可学习权重,b1,b2为偏置。
3.根据权利要求1所述的基于多模态深度神经网络对人群抑郁状态辅助检测的方法,其特征在于,所述步骤2)中,具体步骤包括:
2.1):文本序列编码
将被测人的音频进行转录,获得文本数据,再经过文本清洗后,输入到Bert文本编码模块;Bert文本编码模块为经过预训练的Bert模型,输入为每个样本的转录文本,输出为1×768的一维特征向量;
2.2):双向长短时间记忆网络提取文本的高维特征
步骤2.1)得到的一维特征向量输入至双向长短时间记忆网络,一维特征向量首先输入至前层LSTM layer中,然后将反向的时间序列输入至后层LSTM layer中。
4.根据权利要求1所述的基于多模态深度神经网络对人群抑郁状态辅助检测的方法,其特征在于,所述步骤3)中,具体步骤包括:
3.1)通过佩戴传感器采集被测人在受访时间内的头部动作的三维坐标信息,通过录像视频采集被测人在受访时间内的面部关键点的三维坐标信息;
将所获得的头部动作和关键点的三维坐标信息读取后获得
Figure FDA0003806251120000031
的特征向量,其中T是时间步长,D为特征维数;
3.2)以面部关键点的三维坐标特征向量序列和头部动作三维坐标特征向量序列作为输入,使用时间分布卷积神经网络提取视觉的高维特征;
输入面部关键点三维坐标特征向量序列和头部动作三维坐标特征向量序列至两个并行的T-CNN分支进行学习特征;
输入
Figure FDA0003806251120000032
T-CNN分支的卷积运算表示为:
Figure FDA0003806251120000033
其中d为扩张因子,k为卷积核大小,b为偏置;采用零填充,保持T-CNN输入输出形状相同。
5.根据权利要求1所述的基于多模态深度神经网络对人群抑郁状态辅助检测的方法,其特征在于,所述步骤4)中,具体步骤包括;
4.1):整合从三个分支模型中提取的高维特征,得到向量I,并输入至自注意力模块,自注意力模块将学习到的特征进行融合,将权重分配给不同的特征通道;得到表示三种模态不同特征重要性的权重矩阵;
输入向量I时,自注意力机制的计算过程为:
计算融合后向量I的三个向量矩阵即QF,KF,VF矩阵:
QF=WqI (6)
KF=WkI (7)
VF=WvI (8)
计算注意力分数矩阵A′
A=KTQF (9)
A′=softmax(A) (10)
计算输出矩阵O
O=VFA′ (11)
其中Wq,Wk,Wv是可学习参数。
6.根据权利要求3所述的基于多模态深度神经网络对人群抑郁状态辅助检测的方法,其特征在于,所述步骤2.1)中,输入文本至Bert文本编码模块时,先将其编码为模型计算机语言能识别的编码;首先将文本根据词典编码为数字,为token embedding;当输入的文本是两句话时,用[SEP]标志分隔,得到segment embedding,前一句对应元素的编码为0,后一句编码为1;当输入的文本元素是位置信息时,为position embedding;三个embedding组合后输入至Bert文本编码模块。
7.根据权利要求4所述的基于多模态深度神经网络对人群抑郁状态辅助检测的方法,其特征在于,所述步骤3.2)中,所述扩张因子的倍数是2,用于获取路径上不同时间跨度的时间信息,两条并行的路径通过激活函数连接。
CN202211002632.2A 2022-08-19 2022-08-19 一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法 Pending CN116110565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211002632.2A CN116110565A (zh) 2022-08-19 2022-08-19 一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211002632.2A CN116110565A (zh) 2022-08-19 2022-08-19 一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法

Publications (1)

Publication Number Publication Date
CN116110565A true CN116110565A (zh) 2023-05-12

Family

ID=86260379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211002632.2A Pending CN116110565A (zh) 2022-08-19 2022-08-19 一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法

Country Status (1)

Country Link
CN (1) CN116110565A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079669A (zh) * 2023-10-17 2023-11-17 博上(山东)网络科技有限公司 一种针对低嵌入率lsb音频隐写的特征向量提取方法
CN117171712A (zh) * 2023-11-03 2023-12-05 中关村科学城城市大脑股份有限公司 辅助信息生成方法、装置、电子设备和计算机可读介质
CN117796810A (zh) * 2024-02-07 2024-04-02 合肥工业大学 一种基于多模态融合的多维心理状态评估方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079669A (zh) * 2023-10-17 2023-11-17 博上(山东)网络科技有限公司 一种针对低嵌入率lsb音频隐写的特征向量提取方法
CN117171712A (zh) * 2023-11-03 2023-12-05 中关村科学城城市大脑股份有限公司 辅助信息生成方法、装置、电子设备和计算机可读介质
CN117171712B (zh) * 2023-11-03 2024-02-02 中关村科学城城市大脑股份有限公司 辅助信息生成方法、装置、电子设备和计算机可读介质
CN117796810A (zh) * 2024-02-07 2024-04-02 合肥工业大学 一种基于多模态融合的多维心理状态评估方法
CN117796810B (zh) * 2024-02-07 2024-09-06 合肥工业大学 一种基于多模态融合的多维心理状态评估方法

Similar Documents

Publication Publication Date Title
Feng et al. EEG-based emotion recognition using spatial-temporal graph convolutional LSTM with attention mechanism
CN111652066B (zh) 基于多自注意力机制深度学习的医疗行为识别方法
CN112508077B (zh) 一种基于多模态特征融合的社交媒体情感分析方法及系统
Altuwairqi et al. Student behavior analysis to measure engagement levels in online learning environments
CN116110565A (zh) 一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法
Areeb et al. Helping hearing-impaired in emergency situations: A deep learning-based approach
Uddin et al. Deep multi-modal network based automated depression severity estimation
Xu et al. Intelligent emotion detection method based on deep learning in medical and health data
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
Gladys et al. Survey on multimodal approaches to emotion recognition
CN117764084A (zh) 基于多头注意力机制与多模型融合的短文本情感分析方法
Dweik et al. Read my lips: Artificial intelligence word-level arabic lipreading system
Li et al. MMFN: Emotion recognition by fusing touch gesture and facial expression information
CN116913459B (zh) 基于深度卷积网络控制门模型的用药推荐方法及系统
Indrasiri et al. Image Encoded Time Series Classification of Small Datasets: An Innovative Architecture Using Deep Learning Ensembles
Ying et al. A Multimodal Driver Emotion Recognition Algorithm Based on the Audio and Video Signals in Internet of Vehicles Platform
Li et al. Acoustic-articulatory emotion recognition using multiple features and parameter-optimized cascaded deep learning network
Deshpande et al. Hand gesture recognition using mediapipe and cnn for indian sign language and conversion to speech format for indian regional languages
Bai et al. Low-rank multimodal fusion algorithm based on context modeling
Chandra et al. Deep learning for multimodal emotion recognition-attentive residual disconnected RNN
CN113705328A (zh) 基于面部特征点与面部运动单元的抑郁检测方法和系统
Huang et al. Indexing Biosignal for integrated health social networks
He et al. LMVD: A Large-Scale Multimodal Vlog Dataset for Depression Detection in the Wild
Dey et al. Recognition of Wh-Question Sign Gestures in Video Streams using an Attention Driven C3D-BiLSTM Network
Nagaraja et al. Multimodal Personality Prediction Using Deep Learning Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination