CN115831352A - 一种基于动态纹理特征和时间分片权重网络的检测方法 - Google Patents
一种基于动态纹理特征和时间分片权重网络的检测方法 Download PDFInfo
- Publication number
- CN115831352A CN115831352A CN202211547658.5A CN202211547658A CN115831352A CN 115831352 A CN115831352 A CN 115831352A CN 202211547658 A CN202211547658 A CN 202211547658A CN 115831352 A CN115831352 A CN 115831352A
- Authority
- CN
- China
- Prior art keywords
- dynamic texture
- image block
- features
- target
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012417 linear regression Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 208000020401 Depressive disease Diseases 0.000 abstract description 3
- 230000003001 depressive effect Effects 0.000 abstract 1
- 238000007499 fusion processing Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 5
- 230000000994 depressogenic effect Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- OSXPVFSMSBQPBU-UHFFFAOYSA-N 2-(2-carboxyethoxycarbonyl)benzoic acid Chemical compound OC(=O)CCOC(=O)C1=CC=CC=C1C(O)=O OSXPVFSMSBQPBU-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 208000024714 major depressive disease Diseases 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态纹理特征和时间分片权重网络的检测方法,包括以下步骤:获取视频数据、音频数据、文本数据,对文本数据进行预处理,获得文本句向量;基于音频数据、视频数据,获得对应的音频特征、人脸动态纹理特征;对文本句向量、音频特征、人脸动态纹理特征进行归一处理,获得目标文本句向量、目标音频特征、目标人脸动态纹理特征;对目标文本句向量、目标音频特征、目标人脸动态纹理特征进行融合处理,获得融合特征;将融合特征输入到全连接层进行线性回归,获得单位分片的抑郁分数、权重;基于单位分片的抑郁分数、权重,进行抑郁检测。本发明能有效去除非显性抑郁特征,有效地提高了抑郁症的检测精度。
Description
技术领域
本发明属于抑郁症检测领域,特别是涉及一种基于动态纹理特征和时间分片权重网络的检测方法。
背景技术
传统上,抑郁症的诊断是通过访谈式评估或症状问卷调查来判定的,这使得诊断在很大程度上依赖于医生的经验。然而,由于抑郁症的发病机制仍在研究中,医生很难诊断和治疗,尤其是在临床早期。因此,使用机器学习或深度学习方法作为辅助来帮助医生检测抑郁症逐渐引起了研究人员的关注。
研究表明,非言语行为和言语行为都会受到抑郁症的影响,包括面部表情、韵律、句法和语义。在这些理论和研究的推动下,现有的抑郁症检测方法模拟了临床诊断,分析了语言表征、面部表情和声音特征。目前,现有的抑郁症检测方法通常利用来自多个来源的信息,如音频、视频和从回答中提取的文本。尽管这些方法在提高诊断准确性方面取得了一些进展,但仍存在一定的局限性。首先,很多方法没有考虑音频、视频和文本等不同模态数据之间以及它们与抑郁症诊断之间的时序依赖关系。其次,并非所有的数据片段都包含与抑郁症相关的特征,如何从不同来源中提取和融合具有代表性的特征需要更多的研究。
发明内容
本发明的目的是提供一种基于动态纹理特征和时间分片权重网络的检测方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于动态纹理特征和时间分片权重网络的检测方法,包括以下步骤:
获取视频数据、音频数据、文本数据,对文本数据进行预处理,获得文本句向量;
基于所述音频数据、视频数据,获得对应的音频特征、人脸动态纹理特征;
对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理,获得目标文本句向量、目标音频特征、目标人脸动态纹理特征;
基于双向长短期记忆网络对所述目标文本句向量、目标音频特征、目标人脸动态纹理特征进行融合处理,获得融合特征;
将所述融合特征输入到全连接层进行线性回归,获得单位分片的抑郁分数、权重;
基于所述单位分片的抑郁分数、权重,获得最终抑郁分数。
优选地,对文本数据进行预处理的过程包括:对所述文本数据进行句嵌入处理,获得文本句向量。
优选地,获取人脸动态纹理特征的过程包括:
预设视频数据中的子动态纹理,所述子动态纹理包括第一图像块、第二图像块、第三图像块;所述第一图像块、第二图像块、第三图像块的空间位置相同、时间位置不同;
基于所述第一图像块、第二图像块、第三图像块,获得对应的图像像素、中心像素;
基于所述图像像素、中心像素获得像素集合,所述像素集合即为预设的子动态纹理;
获取所述第一图像块、第二图像块、第三图像块的中间图像块;基于所述中间图像块的中心像素,对所述子动态纹理中的像素进行二值化处理,获得人脸动态纹理特征。
优选地,对所述子动态纹理中的像素进行二值化处理的过程包括:
对所述子动态纹理中的像素与所述中间图像块的中心像素的灰度值进行做差处理,获得像素差值信息;
对所述像素差值信息、所述像素差值信息的绝对值、所述中间图像块的中心像素分别进行二值化计数编码,获得对应的编码结果;
基于所述对应的编码结果,获得三维联合直方图;
基于所述三维联合直方图,获得动态纹理特征。
优选地,对所述像素差值信息的绝对值进行二值化计数编码的过程包括:
基于所述像素差值信息的绝对值、视频帧的宽度、视频帧的高度、视频的帧数、圆形采样半径、采样的图像像素数目、图像块间隔帧数,获得所述绝对值的平均值;基于所述绝对值的平均值对所述绝对值进行二值化计数编码。
优选地,对所述中间图像块的中心像素进行二值化计数编码的过程包括:
获取视频数据中的所有像素的平均值,基于所述平均值对每个子动态纹理中的中间图像块的中心像素进行二值化计数编码。
优选地,对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理的过程包括:获取所述文本句向量的最大句向量个数,基于所述最大句向量个数,对所述文本句向量进行补零填充,获得目标文本句向量;基于所述目标文本句向量,对对应的音频特征、人脸动态纹理特征进行补零填充,获得目标音频特征、目标人脸动态纹理特征。
优选地,将所述融合特征输入到全连接层进行线性回归的过程还包括:
基于预测抑郁分数、真实抑郁分数间的映射关系,获得损失函数;基于所述损失函数,获得最终抑郁分数。
本发明的技术效果为:
本发明通过提取文本特征、音频特征、人脸特征的相互关系来对抑郁患者进行检测,结合设计的分片权重网络,能有效去除非显性抑郁特征,有效地提高了抑郁症的检测精度。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的基于动态纹理特征和时间分片权重网络的检测方法的流程示意图;
图2为本发明实施例中的双向长短期记忆网络的结构图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本实施例提供了一种基于动态纹理特征和时间分片权重网络的检测方法,该方法包括以下步骤:
步骤1:从DAIC-WOZ数据集中获取所需的数据,包括访谈视频、转录文本和录音文件以及与样本对应标签的PHQ-8评分值。其中,录音和转录文本分别是虚拟测试者与被测试者在整个临床访谈过程中所讲内容的声音记录和笔录。PHQ-8评分值用于表示抑郁的严重程度,总分值为0-24分,将抑郁程度分为5个等级:0-4分,代表无抑郁;5-9分,代表轻度抑郁;10-14分,代表中度抑郁;15-19分,代表中重度抑郁;20-24分,代表重度抑郁。PHQ-8总分≥10分者,认为有抑郁症状。
步骤2:将样本集合分成训练集和测试集。其中,训练集包括107名被测试者,测试集包括35名被测试者。
步骤3:对转录文本进行预处理,分离出被测试者和虚拟测试者的文本记录,并去除虚拟测试者的文本记录,只保留被测试者的文本记录。
步骤4:根据被测试者的文本记录,对访谈视频和录音进行预处理,分离并保留被测试者说话时对应的视频片段和录音片段,且以一句话为时间分片单位对它们进行分片处理。
步骤5:考虑到词嵌入捕获的是一个狭窄的时间上下文,通常最多几百毫秒,无法捕获长距离依赖,因此,本发明使用Doc2vec对被测试者每一句话的文本记录进行句嵌入,将所有文本记录转成300维的句向量fsentence;
步骤6:基于COVAREP算法,以0.3334秒为一个时间戳,从录音片段中提取音频特征,并将它们记录在每个时间戳下。音频特征主要包括:基频(F0)、浊音/静默(VUV)、归一化幅度商(NAQ)、准开放商(QOQ)、差分声门源频谱的前两个谐波的幅度差(H1,H2)、抛物线频谱参数(PSP)、最大色散商(MDQ)、峰值斜率参数(peakSlope)、Mel-Cepstral系数(MCEP_0-24)、相位失真平均值(HMPDM_0-24)和偏差(HMPDD_0-12)。
步骤7:基于VLBC算法,以0.3334秒为一个时间戳,从视频片段中提取人脸特征,并将它们记录在每个时间戳下。详细的特征提取过程可描述为:
1)利用人脸检测(Vioola-Jones)算法检测出每一个视频帧中人脸的位置,然后根据检测到的坐标截取每一个视频帧中的人脸区域并将其尺寸缩放到100×130;
2)定义一个子动态纹理V——由视频帧序列中的三个图像块组成,这三个图像块的空间位置相同、时间位置不同(相邻图像块可以间隔一帧或多帧),并从每个图像块中采样P个像素。再加上各个图像块的中心像素,V可以表示为一个包含3P+3个像素集合:
其中,q为V′中每一个元素组合的编号;函数s(x)用于返回参数x的符号。
其中,px,y,t为第t帧中坐标为(x,y)的像素。然后,利用AVGCP对每个子动态纹理的中心像素(即有效区域内的每个像素)进行二值化,并通过编码得到VLBC_C:
6)VLBC_S、VLBC_M和VLBC_C三种编码分别包含了动态纹理中的不同信息。通过对这三种编码建立一个三维联合直方图,得到动态纹理特征H(s,m,c):
其中,p表示中心像素;s∈{0,1,…,3P+2}、m∈{0,1,…,3P+2}、和c∈{0,1}是三维联合直方图中的位置;VLBCS(p)、VLBCM(p)和VLBCC(p)分别是以p像素为中心像素的子动态纹理的VLBC_S编码、VLBC_M编码和VLBC_C编码;函数O(VLBC(p),s,m,c)的定义为:
7)鉴于不同的动态纹理视频可能具有不同的尺寸(帧的大小或帧的数目),因此,对H(s,m,c)(维度2(3P+3)2)进行归一化以得到一致的、可度量的人脸特征:
步骤8:对文本句向量、音频特征和人脸特征进行归一化处理。对于句向量,若所有被测试者的句向量{fs1,fs2,fs3,...,fsn}中最大的句向量个数为400,则以400为长度基准,对个数不足400的句向量进行补零填充,以使所有被测试者的句向量个数一致。以此类推,对所有被测试者的音频特征{fa1,fa2,fa3,...,fan}和人脸特征{ff1,ff2,ff3,...,ffn}进行补零填充,使得所有被测试者的每一句向量所对应的音频特征的个数一致,每一句向量所对应的人脸特征的个数一致。
步骤9:Bi-LSTM由前向传播和后向传播的长短时记忆网络(LSTM)网络组成。该网络结合了递归神经网络(RNN)和LSTM的优点,既克服了RNN衰退的问题,又能够利用LSTM的优势,通过前向推算和后向推算,有效地结合前后事件对当前事件的影响。因此,本发明采用Bi-LSTM从句向量fsentence、音频特征fvideo和人脸特征fface中提取融合特征fdepression,以学习句向量fsentence、音频特征fvideo和人脸特征fface三者之间的时序依赖关系。所述Bi-LSTM的结构如图2所示。
步骤10:将融合特征fdepression作为全连接层输入进行线性回归,得到每一个分片的抑郁分数S和权重W。具体而言,通过两个全连接层得到每一个分片的权重W,两个全连接层得到每一个分片的抑郁分数S。此外,为防止过度拟合,对所有全连接层应用比例为0.5的丢弃正则化。并采用平均绝对误差(MAE)作为线性回归的损失函数,以衡量一组预测分数中的平均误差大小。根据预测和真实抑郁分数之间的映射关系,损失函数可以定义为:
其中,n为句向量的个数,yi表示第i个分片的估计抑郁分数,yp表示一个被测试者的真实抑郁分数。
步骤11:基于每一个分片的抑郁分数S和每一个分片的权重W得到一个被测试者的抑郁分数,计算公式如下:
其中,Si表示第i个分片的抑郁分数,Wi表示第i个分片的权重。
步骤12:基于训练得到的抑郁症预测模型,使用测试集对模型预测的准确性进行评估,具体步骤如下:
1)将测试集数据作为抑郁症预测模型的输入;
2)提取抑郁症评估相关特征;
3)输出PHQ-8得分;
4)计算MAE,评估抑郁症预测模型的可信度。
有益效果:本发明通过分析被测试者的访谈视频,提取对话(文本特征)、语音(音频特征)和脸部表情(人脸特征),设计基于动态纹理特征和时间分片权重网络的抑郁症检测方法来预测被测试者的抑郁分数。该方法通过提取文本特征、音频特征、人脸特征的相互关系来对抑郁患者进行检测,结合设计的分片权重网络,能有效去除非显性抑郁特征,有效地提高了抑郁症的检测精度。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,包括以下步骤:
获取视频数据、音频数据、文本数据,对文本数据进行预处理,获得文本句向量;
基于所述音频数据、视频数据,获得对应的音频特征、人脸动态纹理特征;
对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理,获得目标文本句向量、目标音频特征、目标人脸动态纹理特征;
基于双向长短期记忆网络对所述目标文本句向量、目标音频特征、目标人脸动态纹理特征进行融合处理,获得融合特征;
将所述融合特征输入到全连接层进行线性回归,获得单位分片的抑郁分数、权重;
基于所述单位分片的抑郁分数、权重,获得最终抑郁分数。
2.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
对文本数据进行预处理的过程包括:对所述文本数据进行句嵌入处理,获得文本句向量。
3.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
获取人脸动态纹理特征的过程包括:
预设视频数据中的子动态纹理,所述子动态纹理包括第一图像块、第二图像块、第三图像块;所述第一图像块、第二图像块、第三图像块的空间位置相同、时间位置不同;
基于所述第一图像块、第二图像块、第三图像块,获得对应的图像像素、中心像素;
基于所述图像像素、中心像素获得像素集合,所述像素集合即为预设的子动态纹理;
获取所述第一图像块、第二图像块、第三图像块的中间图像块;基于所述中间图像块的中心像素,对所述子动态纹理中的像素进行二值化处理,获得人脸动态纹理特征。
4.根据权利要求3所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
对所述子动态纹理中的像素进行二值化处理的过程包括:
对所述子动态纹理中的像素与所述中间图像块的中心像素的灰度值进行做差处理,获得像素差值信息;
对所述像素差值信息、所述像素差值信息的绝对值、所述中间图像块的中心像素分别进行二值化计数编码,获得对应的编码结果;
基于所述对应的编码结果,获得三维联合直方图;
基于所述三维联合直方图,获得动态纹理特征。
5.根据权利要求4所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
对所述像素差值信息的绝对值进行二值化计数编码的过程包括:
基于所述像素差值信息的绝对值、视频帧的宽度、视频帧的高度、视频的帧数、圆形采样半径、采样的图像像素数目、图像块间隔帧数,获得所述绝对值的平均值;基于所述绝对值的平均值对所述绝对值进行二值化计数编码。
6.根据权利要求4所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
对所述中间图像块的中心像素进行二值化计数编码的过程包括:
获取视频数据中的所有像素的平均值,基于所述平均值对每个子动态纹理中的中间图像块的中心像素进行二值化计数编码。
7.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
对所述文本句向量、音频特征、人脸动态纹理特征进行归一处理的过程包括:获取所述文本句向量的最大句向量个数,基于所述最大句向量个数,对所述文本句向量进行补零填充,获得目标文本句向量;基于所述目标文本句向量,对对应的音频特征、人脸动态纹理特征进行补零填充,获得目标音频特征、目标人脸动态纹理特征。
8.根据权利要求1所述的基于动态纹理特征和时间分片权重网络的检测方法,其特征在于,
将所述融合特征输入到全连接层进行线性回归的过程还包括:
基于预测抑郁分数、真实抑郁分数间的映射关系,获得损失函数;基于所述损失函数,获得最终抑郁分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211547658.5A CN115831352B (zh) | 2022-12-05 | 2022-12-05 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211547658.5A CN115831352B (zh) | 2022-12-05 | 2022-12-05 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115831352A true CN115831352A (zh) | 2023-03-21 |
CN115831352B CN115831352B (zh) | 2023-08-08 |
Family
ID=85543976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211547658.5A Active CN115831352B (zh) | 2022-12-05 | 2022-12-05 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115831352B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521639A (zh) * | 2024-01-05 | 2024-02-06 | 湖南工商大学 | 一种结合学术文本结构的文本检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130300900A1 (en) * | 2012-05-08 | 2013-11-14 | Tomas Pfister | Automated Recognition Algorithm For Detecting Facial Expressions |
CN106548149A (zh) * | 2016-10-26 | 2017-03-29 | 河北工业大学 | 监控视频序列中人脸微表情图像序列的识别方法 |
CN109522818A (zh) * | 2018-10-29 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种表情识别的方法、装置、终端设备及存储介质 |
CN112768070A (zh) * | 2021-01-06 | 2021-05-07 | 万佳安智慧生活技术(深圳)有限公司 | 一种基于对话交流的精神健康评测方法和系统 |
KR20210066697A (ko) * | 2019-11-28 | 2021-06-07 | 경희대학교 산학협력단 | 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법 |
CN113111151A (zh) * | 2021-04-16 | 2021-07-13 | 北京爱抑暖舟科技有限责任公司 | 一种基于智能语音问答的跨模态抑郁症检测方法 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
CN113782190A (zh) * | 2021-09-22 | 2021-12-10 | 河北工业大学 | 基于多级时空特征和混合注意力网络的抑郁症诊断方法 |
CN114898861A (zh) * | 2022-03-22 | 2022-08-12 | 合肥工业大学 | 基于全注意力机制的多模态抑郁症检测方法和系统 |
CN115171878A (zh) * | 2022-06-29 | 2022-10-11 | 南通大学 | 基于BiGRU和BiLSTM的抑郁症检测方法 |
-
2022
- 2022-12-05 CN CN202211547658.5A patent/CN115831352B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130300900A1 (en) * | 2012-05-08 | 2013-11-14 | Tomas Pfister | Automated Recognition Algorithm For Detecting Facial Expressions |
CN106548149A (zh) * | 2016-10-26 | 2017-03-29 | 河北工业大学 | 监控视频序列中人脸微表情图像序列的识别方法 |
CN109522818A (zh) * | 2018-10-29 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种表情识别的方法、装置、终端设备及存储介质 |
KR20210066697A (ko) * | 2019-11-28 | 2021-06-07 | 경희대학교 산학협력단 | 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법 |
CN112768070A (zh) * | 2021-01-06 | 2021-05-07 | 万佳安智慧生活技术(深圳)有限公司 | 一种基于对话交流的精神健康评测方法和系统 |
CN113111151A (zh) * | 2021-04-16 | 2021-07-13 | 北京爱抑暖舟科技有限责任公司 | 一种基于智能语音问答的跨模态抑郁症检测方法 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113782190A (zh) * | 2021-09-22 | 2021-12-10 | 河北工业大学 | 基于多级时空特征和混合注意力网络的抑郁症诊断方法 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
CN114898861A (zh) * | 2022-03-22 | 2022-08-12 | 合肥工业大学 | 基于全注意力机制的多模态抑郁症检测方法和系统 |
CN115171878A (zh) * | 2022-06-29 | 2022-10-11 | 南通大学 | 基于BiGRU和BiLSTM的抑郁症检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521639A (zh) * | 2024-01-05 | 2024-02-06 | 湖南工商大学 | 一种结合学术文本结构的文本检测方法 |
CN117521639B (zh) * | 2024-01-05 | 2024-04-02 | 湖南工商大学 | 一种结合学术文本结构的文本检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115831352B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liong et al. | Less is more: Micro-expression recognition from video using apex frame | |
Gideon et al. | Mood state prediction from speech of varying acoustic quality for individuals with bipolar disorder | |
CN113077434B (zh) | 基于多模态信息的肺癌识别方法、装置及存储介质 | |
KR20170061222A (ko) | 건강데이터 패턴의 일반화를 통한 건강수치 예측 방법 및 그 장치 | |
EP3899938B1 (en) | Automatic detection of neurocognitive impairment based on a speech sample | |
CN112768070A (zh) | 一种基于对话交流的精神健康评测方法和系统 | |
CN114462554A (zh) | 一种基于多模态宽度学习的潜在抑郁评估系统 | |
CN117557941A (zh) | 基于多模态数据融合的视频智能分析系统及方法 | |
Lu et al. | Speech depression recognition based on attentional residual network | |
CN112232276A (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN115831352B (zh) | 一种基于动态纹理特征和时间分片权重网络的检测方法 | |
Mandal et al. | Glottal closure instants detection from pathological acoustic speech signal using deep learning | |
WO2022061111A1 (en) | Systems and methods for assisting with stroke and other neurological condition diagnosis using multimodal deep learning | |
KR20230054286A (ko) | 딥 러닝을 이용한 이미지 분석 기반의 피부 진단 시스템 및 방법 | |
CN116110578A (zh) | 一种计算机辅助抑郁症状诊断的筛查装置 | |
Karan et al. | An investigation about the relationship between dysarthria level of speech and the neurological state of Parkinson’s patients | |
Rahman et al. | Video minor stroke extraction using learning vector quantization | |
CN113080907B (zh) | 脉搏波信号处理方法及装置 | |
CA3164369A1 (en) | Diagnosing respiratory maladies from subject sounds | |
US20230386504A1 (en) | System and method for pathological voice recognition and computer-readable storage medium | |
Stassi et al. | Vocal fold activity detection from speech related biomedical signals: a preliminary study | |
Raj et al. | Voice pathology detection based on deep neural network approach | |
CN115429272B (zh) | 基于多模态生理信号的心理健康状态评估方法及系统 | |
KR102683005B1 (ko) | 음성 데이터를 이용한 ai 기반 난청 진단 방법 | |
Pranav et al. | Early Alzheimer Detection Through Speech Analysis and Vision Transformer Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |