CN113111151A - 一种基于智能语音问答的跨模态抑郁症检测方法 - Google Patents
一种基于智能语音问答的跨模态抑郁症检测方法 Download PDFInfo
- Publication number
- CN113111151A CN113111151A CN202110408462.7A CN202110408462A CN113111151A CN 113111151 A CN113111151 A CN 113111151A CN 202110408462 A CN202110408462 A CN 202110408462A CN 113111151 A CN113111151 A CN 113111151A
- Authority
- CN
- China
- Prior art keywords
- audio
- text
- representation
- modal
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 10
- 230000008451 emotion Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 238000005311 autocorrelation function Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000020401 Depressive disease Diseases 0.000 description 1
- 206010042458 Suicidal ideation Diseases 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002610 neuroimaging Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/70—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Developmental Disabilities (AREA)
- Psychiatry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Child & Adolescent Psychology (AREA)
- Human Computer Interaction (AREA)
- Hospice & Palliative Care (AREA)
- Acoustics & Sound (AREA)
- Psychology (AREA)
- Social Psychology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于智能语音问答的跨模态抑郁症检测方法,涉及心理学、语音处理和自然语言处理技术领域,该方法首先对用户回答的语音进行预处理和语音识别,得到预处理好的回答音频和回答问题的文本,对语音抽取音频局部和全局特征,建模音频语调和韵律特性,对音频特征应用卷积神经网络,得到用户回答的音频的上下文表示,对于文本应用语言模型,获取回答文本的上下文表示,对音频和文本表示进行音频到文本跨模态交互建模,获得跨模态音频和文本表示,对跨模态音频和文本表示进行池化得到用户的表示,对用户表示解码获取抑郁症检测分类概率。本发明,有效地提升了抑郁症检测的性能,可以很好地帮助用户进行抑郁症的早期筛查。
Description
技术领域
本发明涉及心理学、语音处理和自然语言处理技术领域,尤其涉及一种基于智能语音问答的跨模态抑郁症检测方法。
背景技术
根据世界卫生组织的数据表明,全球约有3.5亿抑郁患者,我国的抑郁患者高达9500万人,当前抑郁症已经成为世界第二大疾病,抑郁症对社会的危害性巨大,每年给我国造成的经济损失高达78亿美元。抑郁症的及时治疗对于康复十分重要,而抑郁症的检测是治愈抑郁症的第一步。
现有的抑郁症检测方法主要包括基于问卷量表的方法、基于社交媒体的方法以及基于眼动仪或者脑成像等设备的检测方法,例如,Kohrt等人探究了基于PHQ-9抑郁症诊断标准的问卷量表对于检测抑郁症的效果;Islam等人从用户在社交媒体上发表的文本提取了词典特征,并使用决策树模型进行抑郁症检测;Ay等人提出使用长短期记忆网络(LSTM)和卷积神经网络(CNN)来处理脑电波数据,用于抑郁症检测。然而,基于问卷量表的抑郁症检测方法往往存在反馈信息较少,结果不够客观准确的问题。基于社交媒体的抑郁症检测方法要求用户在社交媒体上需要有足够的发布内容和行为,无法处理新用户和行为稀疏的用户。基于眼动仪和脑电波的方法设备成本高昂,导致检测成本较高。同时,这些方法涉及的模态较为单一,抑郁症检测的准确率不够令人满意。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于智能语音问答的跨模态抑郁症检测方法。
为了实现上述目的,本发明采用了如下技术方案:一种基于智能语音问答的跨模态抑郁症检测方法,包括以下步骤:
先让用户对语音问题进行语音答复或文本式答复,再对用户回答的语音进行预处理和语音识别,得到预处理好的回答音频和回答问题的文本,在对回答音频和回答问题文本进行整合;
对步骤1)中音频语调和韵律特性进行建模,对音频语调和韵律中含有的独特语调和韵律进行单独整合。
对整合好的音频特征应用到卷积神经网络,得到用户回答音频的上下文表示;
对步骤1)语音识别完毕的回答文本应用语言模型,获取回答文本的上下文表示;
对音频和文本的表示进行跨模态处理,获得跨模态音频和文本表示;
对跨模态音频和文本表示进行池化得到用户的表示;
基于用户的表示进行解码,得到预测的抑郁检测分类概率分数,并利用softmax函数对分类概率归一化;
根据标签得到抑郁检测分类损失函数,得到最终的抑郁检测结果。
优选的,对于步骤1)将预处理完毕的音频抽取音频的局部和全局特征,并对局部音频和全局音频进行分类整合,再导入步骤2)。
优选的,对于步骤5)将音频表示和文本表示进行音频到文本跨模态交互建模再导入步骤6)。
优选的,对于步骤8)对抑郁检测的损失函数进行优化,再得到最终抑郁症检测结果。
与现有技术相比,本发明的优点和积极效果在于,从每帧中提取诸如音调和能量之类的局部特征,和从一句话中提取的所有语音特征的统计结果的全局特征。
正常人与抑郁症患者在语音特性上有明显区别。正常人说话时,情感较为丰富,音调也随着情绪变化起伏,听起来抑扬顿挫的感觉清晰而明显;抑郁症患者说话时,情感比较平淡,以负面情绪居多,语气听起来模糊而平淡,体现出患者的无力感与虚无感。这些语言行为可通过多种语音特征表示,如韵律特征、频谱特征、声音质量特征。
本发明实施中提取的局部特征包括帧长、响度、能量、过零率等韵律特征,基频、LPC、LSP、MFCC等频谱特征,频率微扰、振幅微扰、共振峰及其频带等声音质量特征。其中,短时特征以帧长20ms,帧移10ms对音频信号分帧,再通过汉明窗,接着通过FFT变换得到频域值,然后通过自相关函数(ACF)得到基音周期等30维短时特征。由于每个人针对每个问题的回答时长不同,因此每句话的帧数不同,所有话的帧数在300帧到1400帧之间。MFCC的提取是将音频文件分帧后,对语音高频部分进行预加重,增加语音的高频分辨率,再依次进行加窗、FFT变换和梅尔倒谱分析,即可得到13个梅尔倒谱系数。LPC的提取需要经过线性预测编码得到,同时从每帧中提取出LSP。对短时特征MFCC、LPC和LSP进行平滑处理和一阶导数运算,得到29个短时Delta特征。对MFCC进行二次求导运算,得到13个短时特征。因此,关于MFCC、LPC和LSP,共有71维短时特征。从音频模态,共提取了101维短时特征。
将提取出的局部特征值经过7个统计函数可得到全局特征,即通过最大值函数、最小值函数、平均值函数、峰度函数、偏度函数、中位数函数、标准差函数。此时,可从每个音频文件中提取出707维全局特征。
在本发明的一个实施例中,步骤3)包括:使用一个二维多层卷积神经网络,学习音频特征的隐含表示。
具体而言,如图2所示,在这一步骤中,一个二维多层的卷积神经网络(CNN)用于从原始语音特征中提取抽象的隐含语音规律。该CNN的架构从下而上,包括2层具有16个3*3的卷积核,每个卷积核步长为1的卷积层;2个具有3*3区域的最大池化层;2个批归一化层。最终输出的隐含表示矩阵记为其中N是CNN特征矩阵的向量个数。
具体而言,如图2所示,在这一步骤中,本发明的一个实施例使用一个音频-文本跨模态注意力网络,对音频特征和文本特征的关联进行建模。首先,音频特征作为输入的查询,文本特征作为键和值,输出基于音频增强的文本表示。在每一个注意力头中,输出的表示计算方法如下:
其中为模型参数,d为输入向量的维度。最终输出的基于音频增强的文本表示是多个注意力头输出表示的拼接,即其中T是注意力头数。接下来,文本特征作为输入的查询,音频特征作为键和值,输出基于文本增强的音频表示。在每一个注意力头中,输出的表示计算方法如下:
进一步地,在本发明的一个实施例中,步骤6)包括:对音频表示进行池化,对文本表示进行池化,对模态表示进行池化。
具体而言,如图2所示,在这一步骤中,本发明实施例首先使用一个注意力网络对音频模态进行池化,得到音频模态表示ra,其计算公式如下:
ra=Rasoftmax(Raqa),
其中qa是可学习参数。接下来,本发明实施例使用另一个注意力网络对文本模态进行池化,得到文本模态表示rt,其计算公式如下:
rt=Rtsoftmax(Rtqt),
其中qt是可学习参数。最后,本发明实施例使用一个门控函数池化模态表示,得到最终的用户表示r,其计算公式如下:
α=σ(wT[ra;rt]+b),
r=αra+(1-α)rt,
其中w是参数。
具体而言,如图2所示,在这一步骤中,分类的概率计算如下:
其中W和b是参数。
具体而言,如图2所示,在这一步骤中,损失函数计算为:
附图说明
图1为本发明提出一种基于智能语音问答的跨模态抑郁症检测方法的整体流程图;
图2为本发明提出一种基于智能语音问答的跨模态抑郁症检测方法的工作原理图;
图3为本发明提出一种基于智能语音问答的跨模态抑郁症检测方法图2的部分翻译示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例对本发明做进一步说明。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。
实施例1,如图1-2所示,本发明提供了一种基于智能语音问答的跨模态抑郁症检测方法,
1)用户通过语音作答与兴趣、情绪、自杀倾向等抑郁症相关的18个问题。对用户回答的语音进行预处理包括编码和降噪和语音识别,得到预处理好的回答音频和回答问题的文本;
2)对步骤1)预处理完毕的音频抽取音频局部和全局特征,建模音频语调和韵律特性;
进一步地,在本发明的一个实施例中,步骤2)包括:从每帧中提取诸如音调和能量之类的局部特征,和从一句话中提取的所有语音特征的统计结果的全局特征。
正常人与抑郁症患者在语音特性上有明显区别。正常人说话时,情感较为丰富,音调也随着情绪变化起伏,听起来抑扬顿挫的感觉清晰而明显;抑郁症患者说话时,情感比较平淡,以负面情绪居多,语气听起来模糊而平淡,体现出患者的无力感与虚无感。这些语言行为可通过多种语音特征表示,如韵律特征、频谱特征、声音质量特征。
本发明实施中提取的局部特征包括帧长、响度、能量、过零率等韵律特征,基频、LPC、LSP、MFCC等频谱特征,频率微扰、振幅微扰、共振峰及其频带等声音质量特征。其中,短时特征以帧长20ms,帧移10ms对音频信号分帧,再通过汉明窗,接着通过FFT变换得到频域值,然后通过自相关函数(ACF)得到基音周期等30维短时特征。由于每个人针对每个问题的回答时长不同,因此每句话的帧数不同,所有话的帧数在300帧到1400帧之间。MFCC的提取是将音频文件分帧后,对语音高频部分进行预加重,增加语音的高频分辨率,再依次进行加窗、FFT变换和梅尔倒谱分析,即可得到13个梅尔倒谱系数。LPC的提取需要经过线性预测编码得到,同时从每帧中提取出LSP。对短时特征MFCC、LPC和LSP进行平滑处理和一阶导数运算,得到29个短时Delta特征。对MFCC进行二次求导运算,得到13个短时特征。因此,关于MFCC、LPC和LSP,共有71维短时特征。从音频模态,共提取了101维短时特征。
将提取出的局部特征值经过7个统计函数可得到全局特征,即通过最大值函数、最小值函数、平均值函数、峰度函数、偏度函数、中位数函数、标准差函数。此时,可从每个音频文件中提取出707维全局特征。
3)对音频特征应用卷积神经网络,得到用户回答的音频的上下文表示;
进一步地,在本发明的一个实施例中,步骤3)包括:使用一个二维多层卷积神经网络,学习音频特征的隐含表示。
具体而言,如图2所示,在这一步骤中,一个二维多层的卷积神经网络(CNN)用于从原始语音特征中提取抽象的隐含语音规律。该CNN的架构从下而上,包括2层具有16个3*3的卷积核,每个卷积核步长为1的卷积层;2个具有3*3区域的最大池化层;2个批归一化层。最终输出的隐含表示矩阵记为其中N是CNN特征矩阵的向量个数。
4)对步骤1)语音识别完毕的回答文本应用语言模型,获取回答文本的上下文表示;
5)对音频和文本表示进行音频-文本跨模态交互建模,获得跨模态音频和文本表示;
具体而言,如图2所示,在这一步骤中,本发明的一个实施例使用一个音频-文本跨模态注意力网络,对音频特征和文本特征的关联进行建模。首先,音频特征作为输入的查询,文本特征作为键和值,输出基于音频增强的文本表示。在每一个注意力头中,输出的表示计算方法如下:
其中为模型参数,d为输入向量的维度。最终输出的基于音频增强的文本表示是多个注意力头输出表示的拼接,即其中T是注意力头数。接下来,文本特征作为输入的查询,音频特征作为键和值,输出基于文本增强的音频表示。在每一个注意力头中,输出的表示计算方法如下:
6)对跨模态音频和文本表示进行池化得到用户的表示;
进一步地,在本发明的一个实施例中,步骤6)包括:对音频表示进行池化,对文本表示进行池化,对模态表示进行池化。
具体而言,如图2所示,在这一步骤中,本发明实施例首先使用一个注意力网络对音频模态进行池化,得到音频模态表示ra,其计算公式如下:
ra=Rasoftmax(Raqa),
其中qa是可学习参数。接下来,本发明实施例使用另一个注意力网络对文本模态进行池化,得到文本模态表示rt,其计算公式如下:
rt=Rtsoftmax(Rtqt),
其中qt是可学习参数。最后,本发明实施例使用一个门控函数池化模态表示,得到最终的用户表示r,其计算公式如下:
α=σ(wT[ra;rt]+b),
r=αra+(1-a)rt,
其中w是参数。
7)基于用户的表示进行解码,得到预测的抑郁检测分类概率分数,并利用softmax函数对分类概率归一化;
具体而言,如图2所示,在这一步骤中,分类的概率计算如下:
其中W和b是参数。
8)根据标签得到抑郁检测分类损失函数,对抑郁检测的损失函数进行优化,得到最终的抑郁检测结果。
具体而言,如图2所示,在这一步骤中,损失函数计算为:
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (4)
1.一种基于智能语音问答的跨模态抑郁症检测方法,其特征在于:包括以下步骤:
1)先让用户对语音问题进行语音答复或文本式答复,再对用户回答的语音进行预处理和语音识别,得到预处理好的回答音频和回答问题的文本,在对回答音频和回答问题文本进行整合;
2)对步骤1)中音频语调和韵律特性进行建模,对音频语调和韵律中含有的独特语调和韵律进行单独整合。
3)对整合好的音频特征应用到卷积神经网络,得到用户回答音频的上下文表示;
4)对步骤1)语音识别完毕的回答文本应用语言模型,获取回答文本的上下文表示;
5)对音频和文本的表示进行跨模态处理,获得跨模态音频和文本表示;
6)对跨模态音频和文本表示进行池化得到用户的表示;
7)基于用户的表示进行解码,得到预测的抑郁检测分类概率分数,并利用softmax函数对分类概率归一化;
8)根据标签得到抑郁检测分类损失函数,得到最终的抑郁检测结果。
2.根据权利要求1所述的一种基于智能语音问答的跨模态抑郁症检测方法,其特征在于:对于步骤1)将预处理完毕的音频抽取音频的局部和全局特征,并对局部音频和全局音频进行分类整合,再导入步骤2)。
3.根据权利要求1所述的一种基于智能语音问答的跨模态抑郁症检测方法,其特征在于:对于步骤5)将音频表示和文本表示进行音频到文本跨模态交互建模再导入步骤6)。
4.根据权利要求1所述的一种基于智能语音问答的跨模态抑郁症检测方法,其特征在于:对于步骤8)对抑郁检测的损失函数进行优化,再得到最终抑郁症检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408462.7A CN113111151A (zh) | 2021-04-16 | 2021-04-16 | 一种基于智能语音问答的跨模态抑郁症检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408462.7A CN113111151A (zh) | 2021-04-16 | 2021-04-16 | 一种基于智能语音问答的跨模态抑郁症检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113111151A true CN113111151A (zh) | 2021-07-13 |
Family
ID=76717560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110408462.7A Pending CN113111151A (zh) | 2021-04-16 | 2021-04-16 | 一种基于智能语音问答的跨模态抑郁症检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111151A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114496221A (zh) * | 2022-01-17 | 2022-05-13 | 天津大学 | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
CN115831352A (zh) * | 2022-12-05 | 2023-03-21 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN116978409A (zh) * | 2023-09-22 | 2023-10-31 | 苏州复变医疗科技有限公司 | 基于语音信号的抑郁状态评估方法、装置、终端及介质 |
-
2021
- 2021-04-16 CN CN202110408462.7A patent/CN113111151A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114496221A (zh) * | 2022-01-17 | 2022-05-13 | 天津大学 | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
CN114496221B (zh) * | 2022-01-17 | 2024-05-14 | 天津大学 | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
CN115831352A (zh) * | 2022-12-05 | 2023-03-21 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN115831352B (zh) * | 2022-12-05 | 2023-08-08 | 湖南工商大学 | 一种基于动态纹理特征和时间分片权重网络的检测方法 |
CN116978409A (zh) * | 2023-09-22 | 2023-10-31 | 苏州复变医疗科技有限公司 | 基于语音信号的抑郁状态评估方法、装置、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN104732977B (zh) | 一种在线口语发音质量评价方法和系统 | |
CN112006697B (zh) | 一种基于语音信号的梯度提升决策树抑郁程度识别系统 | |
CN113111151A (zh) | 一种基于智能语音问答的跨模态抑郁症检测方法 | |
CN115641543B (zh) | 一种多模态抑郁情绪识别方法及装置 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
Joshy et al. | Dysarthria severity classification using multi-head attention and multi-task learning | |
CN111326170A (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
CN117672268A (zh) | 基于相对熵对齐融合的多模态语音情感识别方法 | |
Kandali et al. | Vocal emotion recognition in five native languages of Assam using new wavelet features | |
Zheng et al. | An improved speech emotion recognition algorithm based on deep belief network | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Usman | On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
Zhou et al. | Hierarchical multifeature fusion via audio-response-level modeling for depression detection | |
Jin | RETRACTED ARTICLE: Research on pronunciation accuracy detection of English Chinese consecutive interpretation in English intelligent speech translation terminal | |
Kaur et al. | Impact of feature extraction and feature selection algorithms on Punjabi speech emotion recognition using convolutional neural network | |
Qasim et al. | DESCU: Dyadic emotional speech corpus and recognition system for Urdu language | |
CN116013371A (zh) | 一种神经退行性疾病监测方法、系统、装置及存储介质 | |
Williams | Learning disentangled speech representations | |
Kurian et al. | Connected digit speech recognition system for Malayalam language | |
Yousfi et al. | Isolated Iqlab checking rules based on speech recognition system | |
Sahoo et al. | Detection of speech-based physical load using transfer learning approach | |
Jin et al. | Speech emotion recognition based on hyper-prosodic features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211019 Address after: 400050 floor 3, No. 6-8, Xiyuan North Street, Xiyong street, high tech Zone, Shapingba District, Chongqing Applicant after: Chongqing xinnuanzhou Technology Co.,Ltd. Address before: 100084 no.cb102-090, ground floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing Applicant before: Beijing Aiyi warm boat Technology Co.,Ltd. |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210713 |