CN115831352B - 一种基于动态纹理特征和时间分片权重网络的检测方法 - Google Patents

一种基于动态纹理特征和时间分片权重网络的检测方法 Download PDF

Info

Publication number
CN115831352B
CN115831352B CN202211547658.5A CN202211547658A CN115831352B CN 115831352 B CN115831352 B CN 115831352B CN 202211547658 A CN202211547658 A CN 202211547658A CN 115831352 B CN115831352 B CN 115831352B
Authority
CN
China
Prior art keywords
dynamic texture
image block
depression
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211547658.5A
Other languages
English (en)
Other versions
CN115831352A (zh
Inventor
石彪
符静
杨俊丰
王月
刘利枚
曹文治
梁伟
张震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202211547658.5A priority Critical patent/CN115831352B/zh
Publication of CN115831352A publication Critical patent/CN115831352A/zh
Application granted granted Critical
Publication of CN115831352B publication Critical patent/CN115831352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于动态纹理特征和时间分片权重网络的检测方法,包括以下步骤:获取视频数据、音频数据、文本数据,对文本数据进行预处理,获得文本句向量;基于音频数据、视频数据,获得对应的音频特征、人脸动态纹理特征;对文本句向量、音频特征、人脸动态纹理特征进行归一处理,获得目标文本句向量、目标音频特征、目标人脸动态纹理特征;对目标文本句向量、目标音频特征、目标人脸动态纹理特征进行融合处理,获得融合特征;将融合特征输入到全连接层进行线性回归,获得单位分片的抑郁分数、权重;基于单位分片的抑郁分数、权重,进行抑郁检测。本发明能有效去除非显性抑郁特征,有效地提高了抑郁症的检测精度。

Description

一种基于动态纹理特征和时间分片权重网络的检测方法
技术领域
本发明属于抑郁症检测领域,特别是涉及一种基于动态纹理特征和时间分片权重网络的检测方法。
背景技术
传统上,抑郁症的诊断是通过访谈式评估或症状问卷调查来判定的,这使得诊断在很大程度上依赖于医生的经验。然而,由于抑郁症的发病机制仍在研究中,医生很难诊断和治疗,尤其是在临床早期。因此,使用机器学习或深度学习方法作为辅助来帮助医生检测抑郁症逐渐引起了研究人员的关注。
研究表明,非言语行为和言语行为都会受到抑郁症的影响,包括面部表情、韵律、句法和语义。在这些理论和研究的推动下,现有的抑郁症检测方法模拟了临床诊断,分析了语言表征、面部表情和声音特征。目前,现有的抑郁症检测方法通常利用来自多个来源的信息,如音频、视频和从回答中提取的文本。尽管这些方法在提高诊断准确性方面取得了一些进展,但仍存在一定的局限性。首先,很多方法没有考虑音频、视频和文本等不同模态数据之间以及它们与抑郁症诊断之间的时序依赖关系。其次,并非所有的数据片段都包含与抑郁症相关的特征,如何从不同来源中提取和融合具有代表性的特征需要更多的研究。
发明内容
本发明的目的是提供一种基于动态纹理特征和时间分片权重网络的检测方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于动态纹理特征和时间分片权重网络的检测方法,包括以下步骤:
获取视频数据、音频数据、文本数据,对文本数据进行预处理,获得文本句向量;
基于所述音频数据、视频数据,获得对应的音频特征、人脸动态纹理特征;
对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理,获得目标文本句向量、目标音频特征、目标人脸动态纹理特征;
基于双向长短期记忆网络对所述目标文本句向量、目标音频特征、目标人脸动态纹理特征进行融合处理,获得融合特征;
将所述融合特征输入到全连接层进行线性回归,获得单位分片的抑郁分数、权重;
基于所述单位分片的抑郁分数、权重,获得最终抑郁分数。
优选地,对文本数据进行预处理的过程包括:对所述文本数据进行句嵌入处理,获得文本句向量。
优选地,获取人脸动态纹理特征的过程包括:
预设视频数据中的子动态纹理,所述子动态纹理包括第一图像块、第二图像块、第三图像块;所述第一图像块、第二图像块、第三图像块的空间位置相同、时间位置不同;
基于所述第一图像块、第二图像块、第三图像块,获得对应的图像像素、中心像素;
基于所述图像像素、中心像素获得像素集合,所述像素集合即为预设的子动态纹理;
获取所述第一图像块、第二图像块、第三图像块的中间图像块;基于所述中间图像块的中心像素,对所述子动态纹理中的像素进行二值化处理,获得人脸动态纹理特征。
优选地,对所述子动态纹理中的像素进行二值化处理的过程包括:
对所述子动态纹理中的像素与所述中间图像块的中心像素的灰度值进行做差处理,获得像素差值信息;
对所述像素差值信息、所述像素差值信息的绝对值、所述中间图像块的中心像素分别进行二值化计数编码,获得对应的编码结果;
基于所述对应的编码结果,获得三维联合直方图;
基于所述三维联合直方图,获得动态纹理特征。
优选地,对所述像素差值信息的绝对值进行二值化计数编码的过程包括:
基于所述像素差值信息的绝对值、视频帧的宽度、视频帧的高度、视频的帧数、圆形采样半径、采样的图像像素数目、图像块间隔帧数,获得所述绝对值的平均值;基于所述绝对值的平均值对所述绝对值进行二值化计数编码。
优选地,对所述中间图像块的中心像素进行二值化计数编码的过程包括:
获取视频数据中的所有像素的平均值,基于所述平均值对每个子动态纹理中的中间图像块的中心像素进行二值化计数编码。
优选地,对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理的过程包括:获取所述文本句向量的最大句向量个数,基于所述最大句向量个数,对所述文本句向量进行补零填充,获得目标文本句向量;基于所述目标文本句向量,对对应的音频特征、人脸动态纹理特征进行补零填充,获得目标音频特征、目标人脸动态纹理特征。
优选地,将所述融合特征输入到全连接层进行线性回归的过程还包括:
基于预测抑郁分数、真实抑郁分数间的映射关系,获得损失函数;基于所述损失函数,获得最终抑郁分数。
本发明的技术效果为:
本发明通过提取文本特征、音频特征、人脸特征的相互关系来对抑郁患者进行检测,结合设计的分片权重网络,能有效去除非显性抑郁特征,有效地提高了抑郁症的检测精度。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的基于动态纹理特征和时间分片权重网络的检测方法的流程示意图;
图2为本发明实施例中的双向长短期记忆网络的结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本实施例提供了一种基于动态纹理特征和时间分片权重网络的检测方法,该方法包括以下步骤:
步骤1:从DAIC-WOZ数据集中获取所需的数据,包括访谈视频、转录文本和录音文件以及与样本对应标签的PHQ-8评分值。其中,录音和转录文本分别是虚拟测试者与被测试者在整个临床访谈过程中所讲内容的声音记录和笔录。PHQ-8评分值用于表示抑郁的严重程度,总分值为0-24分,将抑郁程度分为5个等级:0-4分,代表无抑郁;5-9分,代表轻度抑郁;10-14分,代表中度抑郁;15-19分,代表中重度抑郁;20-24分,代表重度抑郁。PHQ-8总分≥10分者,认为有抑郁症状。
步骤2:将样本集合分成训练集和测试集。其中,训练集包括107名被测试者,测试集包括35名被测试者。
步骤3:对转录文本进行预处理,分离出被测试者和虚拟测试者的文本记录,并去除虚拟测试者的文本记录,只保留被测试者的文本记录。
步骤4:根据被测试者的文本记录,对访谈视频和录音进行预处理,分离并保留被测试者说话时对应的视频片段和录音片段,且以一句话为时间分片单位对它们进行分片处理。
步骤5:考虑到词嵌入捕获的是一个狭窄的时间上下文,通常最多几百毫秒,无法捕获长距离依赖,因此,本发明使用Doc2vec对被测试者每一句话的文本记录进行句嵌入,将所有文本记录转成300维的句向量fsentence
步骤6:基于COVAREP算法,以0.3334秒为一个时间戳,从录音片段中提取音频特征,并将它们记录在每个时间戳下。音频特征主要包括:基频(F0)、浊音/静默(VUV)、归一化幅度商(NAQ)、准开放商(QOQ)、差分声门源频谱的前两个谐波的幅度差(H1,H2)、抛物线频谱参数(PSP)、最大色散商(MDQ)、峰值斜率参数(peakSlope)、Mel-Cepstral系数(MCEP_0-24)、相位失真平均值(HMPDM_0-24)和偏差(HMPDD_0-12)。
步骤7:基于VLBC算法,以0.3334秒为一个时间戳,从视频片段中提取人脸特征,并将它们记录在每个时间戳下。详细的特征提取过程可描述为:
1)利用人脸检测(Vioola-Jones)算法检测出每一个视频帧中人脸的位置,然后根据检测到的坐标截取每一个视频帧中的人脸区域并将其尺寸缩放到100×130;
2)定义一个子动态纹理V——由视频帧序列中的三个图像块组成,这三个图像块的空间位置相同、时间位置不同(相邻图像块可以间隔一帧或多帧),并从每个图像块中采样P个像素。再加上各个图像块的中心像素,V可以表示为一个包含3P+3个像素集合:
其中,和/>分别为第一个、第二个和第三个图像块的中心像素值,相邻图像块的间隔为L(L≥1)帧;gt,p(t=tc-L,tc,tc+L;p=0,…,P-1)表示在对应图像块上采样的P个像素。
3)采样之后,再用中间图像块的中心像素作为阈值来二值化V中的像素。将V中的每一个像素值减去/>的灰度值得到像素差值信息:
其中,的值为0,因而将其省略,余下V′中的3P+2项。然后,进行VLBC_S编码,如下式所示:
其中,q为V′中每一个元素组合的编号;函数s(x)用于返回参数x的符号。
4)提取像素差值的绝对值并单独将其进行二值计数编码。在对像素差值的绝对值进行编码之前,先计算像素差值的绝对值
其中,为3P+2个像素(不包含第二个图像块的中心像素)中的p个。然后,给定一个动态纹理,计算所有的子动态纹理V的/>的平均值AVGAM作为二值化的阈值:
其中,W、H分别为视频帧的宽度和高度,T为视频的帧数;R、P、L分别为圆形采样半径、采样数目和图像块间隔帧数。与VLBC_S编码过程中的二值化类似,AVGAM将用于的二值化。编码方式为:
5)对中心像素进行二值计数编码。首先计算一个动态纹理视频中的所有像素的平均值AVGCP:
其中,px,y,t为第t帧中坐标为(x,y)的像素。然后,利用AVGCP对每个子动态纹理的中心像素(即有效区域内的每个像素)进行二值化,并通过编码得到VLBC_C:
6)VLBC_S、VLBC_M和VLBC_C三种编码分别包含了动态纹理中的不同信息。通过对这三种编码建立一个三维联合直方图,得到动态纹理特征H(s,m,c):
其中,p表示中心像素;s∈{0,1,…,3P+2}、m∈{0,1,…,3P+2}、和c∈{0,1}是三维联合直方图中的位置;VLBCS(p)、VLBCM(p)和VLBCC(p)分别是以p像素为中心像素的子动态纹理的VLBC_S编码、VLBC_M编码和VLBC_C编码;函数O(VLBC(p),s,m,c)的定义为:
7)鉴于不同的动态纹理视频可能具有不同的尺寸(帧的大小或帧的数目),因此,对H(s,m,c)(维度2(3P+3)2)进行归一化以得到一致的、可度量的人脸特征:
步骤8:对文本句向量、音频特征和人脸特征进行归一化处理。对于句向量,若所有被测试者的句向量{fs1,fs2,fs3,...,fsn}中最大的句向量个数为400,则以400为长度基准,对个数不足400的句向量进行补零填充,以使所有被测试者的句向量个数一致。以此类推,对所有被测试者的音频特征{fa1,fa2,fa3,...,fan}和人脸特征{ff1,ff2,ff3,...,ffn}进行补零填充,使得所有被测试者的每一句向量所对应的音频特征的个数一致,每一句向量所对应的人脸特征的个数一致。
步骤9:Bi-LSTM由前向传播和后向传播的长短时记忆网络(LSTM)网络组成。该网络结合了递归神经网络(RNN)和LSTM的优点,既克服了RNN衰退的问题,又能够利用LSTM的优势,通过前向推算和后向推算,有效地结合前后事件对当前事件的影响。因此,本发明采用Bi-LSTM从句向量fsentence、音频特征fvideo和人脸特征fface中提取融合特征fdepression,以学习句向量fsentence、音频特征fvideo和人脸特征fface三者之间的时序依赖关系。所述Bi-LSTM的结构如图2所示。
步骤10:将融合特征fdepression作为全连接层输入进行线性回归,得到每一个分片的抑郁分数S和权重W。具体而言,通过两个全连接层得到每一个分片的权重W,两个全连接层得到每一个分片的抑郁分数S。此外,为防止过度拟合,对所有全连接层应用比例为0.5的丢弃正则化。并采用平均绝对误差(MAE)作为线性回归的损失函数,以衡量一组预测分数中的平均误差大小。根据预测和真实抑郁分数之间的映射关系,损失函数可以定义为:
其中,n为句向量的个数,yi表示第i个分片的估计抑郁分数,yp表示一个被测试者的真实抑郁分数。
步骤11:基于每一个分片的抑郁分数S和每一个分片的权重W得到一个被测试者的抑郁分数,计算公式如下:
其中,Si表示第i个分片的抑郁分数,Wi表示第i个分片的权重。
步骤12:基于训练得到的抑郁症预测模型,使用测试集对模型预测的准确性进行评估,具体步骤如下:
1)将测试集数据作为抑郁症预测模型的输入;
2)提取抑郁症评估相关特征;
3)输出PHQ-8得分;
4)计算MAE,评估抑郁症预测模型的可信度。
有益效果:本发明通过分析被测试者的访谈视频,提取对话(文本特征)、语音(音频特征)和脸部表情(人脸特征),设计基于动态纹理特征和时间分片权重网络的抑郁症检测方法来预测被测试者的抑郁分数。该方法通过提取文本特征、音频特征、人脸特征的相互关系来对抑郁患者进行检测,结合设计的分片权重网络,能有效去除非显性抑郁特征,有效地提高了抑郁症的检测精度。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,包括以下步骤:
获取视频数据、音频数据、文本数据,对文本数据进行预处理,获得文本句向量;
基于所述音频数据、视频数据,获得对应的音频特征、人脸动态纹理特征;
对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理,获得目标文本句向量、目标音频特征、目标人脸动态纹理特征;
基于双向长短期记忆网络对所述目标文本句向量、目标音频特征、目标人脸动态纹理特征进行融合处理,获得融合特征;
将所述融合特征输入到全连接层进行线性回归,获得单位分片的抑郁分数、权重;
基于所述单位分片的抑郁分数、权重,获得最终抑郁分数;
获取人脸动态纹理特征的过程包括:
预设视频数据中的子动态纹理,所述子动态纹理包括第一图像块、第二图像块、第三图像块;所述第一图像块、第二图像块、第三图像块的空间位置相同、时间位置不同;
基于所述第一图像块、第二图像块、第三图像块,获得对应的图像像素、中心像素;
基于所述图像像素、中心像素获得像素集合,所述像素集合即为预设的子动态纹理;
获取所述第一图像块、第二图像块、第三图像块的中间图像块;基于所述中间图像块的中心像素,对所述子动态纹理中的像素进行二值化处理,获得人脸动态纹理特征;
对所述子动态纹理中的像素进行二值化处理的过程包括:
对所述子动态纹理中的像素与所述中间图像块的中心像素的灰度值进行做差处理,获得像素差值信息;
对所述像素差值信息、所述像素差值信息的绝对值、所述中间图像块的中心像素分别进行二值化计数编码,获得对应的编码结果;
基于所述对应的编码结果,获得三维联合直方图;
基于所述三维联合直方图,获得动态纹理特征;
对所述像素差值信息的绝对值进行二值化计数编码的过程包括:
基于所述像素差值信息的绝对值、视频帧的宽度、视频帧的高度、视频的帧数、圆形采样半径、采样的图像像素数目、图像块间隔帧数,获得所述绝对值的平均值;基于所述绝对值的平均值对所述绝对值进行二值化计数编码;
对所述中间图像块的中心像素进行二值化计数编码的过程包括:
获取视频数据中的所有像素的平均值,基于所述平均值对每个子动态纹理中的中间图像块的中心像素进行二值化计数编码。
2.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
对文本数据进行预处理的过程包括:对所述文本数据进行句嵌入处理,获得文本句向量。
3.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理的过程包括:获取所述文本句向量的最大句向量个数,基于所述最大句向量个数,对所述文本句向量进行补零填充,获得目标文本句向量;基于所述目标文本句向量,对对应的音频特征、人脸动态纹理特征进行补零填充,获得目标音频特征、目标人脸动态纹理特征。
4.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
将所述融合特征输入到全连接层进行线性回归的过程还包括:
基于预测抑郁分数、真实抑郁分数间的映射关系,获得损失函数;基于所述损失函数,获得最终抑郁分数。
CN202211547658.5A 2022-12-05 2022-12-05 一种基于动态纹理特征和时间分片权重网络的检测方法 Active CN115831352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211547658.5A CN115831352B (zh) 2022-12-05 2022-12-05 一种基于动态纹理特征和时间分片权重网络的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211547658.5A CN115831352B (zh) 2022-12-05 2022-12-05 一种基于动态纹理特征和时间分片权重网络的检测方法

Publications (2)

Publication Number Publication Date
CN115831352A CN115831352A (zh) 2023-03-21
CN115831352B true CN115831352B (zh) 2023-08-08

Family

ID=85543976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211547658.5A Active CN115831352B (zh) 2022-12-05 2022-12-05 一种基于动态纹理特征和时间分片权重网络的检测方法

Country Status (1)

Country Link
CN (1) CN115831352B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521639B (zh) * 2024-01-05 2024-04-02 湖南工商大学 一种结合学术文本结构的文本检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548149A (zh) * 2016-10-26 2017-03-29 河北工业大学 监控视频序列中人脸微表情图像序列的识别方法
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和系统
KR20210066697A (ko) * 2019-11-28 2021-06-07 경희대학교 산학협력단 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법
CN113111151A (zh) * 2021-04-16 2021-07-13 北京爱抑暖舟科技有限责任公司 一种基于智能语音问答的跨模态抑郁症检测方法
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113674767A (zh) * 2021-10-09 2021-11-19 复旦大学 一种基于多模态融合的抑郁状态识别方法
CN113782190A (zh) * 2021-09-22 2021-12-10 河北工业大学 基于多级时空特征和混合注意力网络的抑郁症诊断方法
CN114898861A (zh) * 2022-03-22 2022-08-12 合肥工业大学 基于全注意力机制的多模态抑郁症检测方法和系统
CN115171878A (zh) * 2022-06-29 2022-10-11 南通大学 基于BiGRU和BiLSTM的抑郁症检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8848068B2 (en) * 2012-05-08 2014-09-30 Oulun Yliopisto Automated recognition algorithm for detecting facial expressions

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548149A (zh) * 2016-10-26 2017-03-29 河北工业大学 监控视频序列中人脸微表情图像序列的识别方法
CN109522818A (zh) * 2018-10-29 2019-03-26 中国科学院深圳先进技术研究院 一种表情识别的方法、装置、终端设备及存储介质
KR20210066697A (ko) * 2019-11-28 2021-06-07 경희대학교 산학협력단 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법
CN112768070A (zh) * 2021-01-06 2021-05-07 万佳安智慧生活技术(深圳)有限公司 一种基于对话交流的精神健康评测方法和系统
CN113111151A (zh) * 2021-04-16 2021-07-13 北京爱抑暖舟科技有限责任公司 一种基于智能语音问答的跨模态抑郁症检测方法
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113782190A (zh) * 2021-09-22 2021-12-10 河北工业大学 基于多级时空特征和混合注意力网络的抑郁症诊断方法
CN113674767A (zh) * 2021-10-09 2021-11-19 复旦大学 一种基于多模态融合的抑郁状态识别方法
CN114898861A (zh) * 2022-03-22 2022-08-12 合肥工业大学 基于全注意力机制的多模态抑郁症检测方法和系统
CN115171878A (zh) * 2022-06-29 2022-10-11 南通大学 基于BiGRU和BiLSTM的抑郁症检测方法

Also Published As

Publication number Publication date
CN115831352A (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN106725532B (zh) 基于语音特征与机器学习的抑郁症自动评估系统和方法
CN108648748B (zh) 医院噪声环境下的声学事件检测方法
Gideon et al. Mood state prediction from speech of varying acoustic quality for individuals with bipolar disorder
CN111461176A (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
Wei et al. A real-time robot-based auxiliary system for risk evaluation of COVID-19 infection
EP3899938B1 (en) Automatic detection of neurocognitive impairment based on a speech sample
CN115831352B (zh) 一种基于动态纹理特征和时间分片权重网络的检测方法
CN112768070A (zh) 一种基于对话交流的精神健康评测方法和系统
CN114462554A (zh) 一种基于多模态宽度学习的潜在抑郁评估系统
Lu et al. Speech depression recognition based on attentional residual network
Mandal et al. Glottal closure instants detection from pathological acoustic speech signal using deep learning
Karan et al. An investigation about the relationship between dysarthria level of speech and the neurological state of Parkinson’s patients
Bonela et al. Audio-based deep learning algorithm to identify alcohol inebriation (ADLAIA)
CN113080907A (zh) 脉搏波信号处理方法及装置
CN111081374B (zh) 基于共同注意力范式的孤独症辅助诊断装置
Benba et al. Using RASTA-PLP for discriminating between different neurological diseases
CN116127350A (zh) 一种基于Transformer网络的学习专注度监测方法
Patel et al. Multi Feature fusion for COPD Classification using Deep learning algorithms
CA3164369A1 (en) Diagnosing respiratory maladies from subject sounds
Nandan et al. A comparative study of deep learning and machine learning approaches in speech emotion and gender recognition system
Wang et al. MFCC-based deep convolutional neural network for audio depression recognition
He et al. TFA-CLSTMNN: Novel convolutional network for sound-based diagnosis of COVID-19
KR102683005B1 (ko) 음성 데이터를 이용한 ai 기반 난청 진단 방법
Lindsay et al. Generating Synthetic Clinical Speech Data Through Simulated ASR Deletion Error
CN115429272B (zh) 基于多模态生理信号的心理健康状态评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant