CN111329494A - 基于语音关键词检索和语音情绪识别的抑郁症检测方法 - Google Patents
基于语音关键词检索和语音情绪识别的抑郁症检测方法 Download PDFInfo
- Publication number
- CN111329494A CN111329494A CN202010130347.3A CN202010130347A CN111329494A CN 111329494 A CN111329494 A CN 111329494A CN 202010130347 A CN202010130347 A CN 202010130347A CN 111329494 A CN111329494 A CN 111329494A
- Authority
- CN
- China
- Prior art keywords
- voice
- information
- depression
- speech
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 53
- 238000003745 diagnosis Methods 0.000 claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000008451 emotion Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 17
- 230000002996 emotional effect Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000013526 transfer learning Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 9
- 230000033764 rhythmic process Effects 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 description 9
- 238000013145 classification model Methods 0.000 description 6
- 230000000750 progressive effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 206010003805 Autism Diseases 0.000 description 3
- 208000020706 Autistic disease Diseases 0.000 description 3
- 206010022998 Irritability Diseases 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 208000024172 Cardiovascular disease Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 206010022437 insomnia Diseases 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010010144 Completed suicide Diseases 0.000 description 1
- 206010026749 Mania Diseases 0.000 description 1
- 206010029412 Nightmare Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Educational Technology (AREA)
- Developmental Disabilities (AREA)
- Signal Processing (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于语音关键词检索和语音情绪识别的抑郁症检测方法,方法,包括:采集待测人员的语音信息;对语音信息进行处理以获取语音特征和语音文本;对语音特征进行计算得到第一诊断结果,对语音文本进行计算得到第二诊断结果,并将第一诊断结果与第二诊断结果进行融合计算以获得识别结果;根据识别结果判断所述待测人员是否为抑郁症患者。由此,通过采集待测人员的语音信息,可以利用从语音信息中提取到的语音特征和语音文本,对待测人员的抑郁情况进行自动识别。该识别方法成本低,易推广,能够大量、高效、迅速地识别待测人员的抑郁状况,可以作为医生对于抑郁症诊断的一种有效辅助手段。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于语音关键词检索和语音情绪识别的抑郁症检测方法。
背景技术
抑郁症(Major Depressive Disorder,MDD)全球患病率高达5%-12%,目前已经成为世界第四大疾病,仅次于心血管疾病、癌症、糖尿病,预计2020年后,它会超过癌症,成为仅次于心血管疾病的第二大疾病。抑郁症患者如果不能得到及时的治疗,病情就会持续继续恶化,引发严重的精神问题,甚至会出现自杀等危及生命的行为。抑郁症已经成为一个重大的公共卫生问题,具有迫切的临床研究需求。
目前,我国大部分的抑郁症患者会选择综合医院而非精神专科医院就诊,由于缺乏专科培训,特别是没有可操作性较强的、适合临床使用的规范化诊疗手段,导致我国的抑郁症的识别率的较低。我国的抑郁症识别率仅为21%,远低于世界平均的55.65%,接受干预和治疗者不足5%。
随着人工智能技术的广泛应用,科研人员试图开展抑郁症的人工智能检测方法研究,以辅助医疗人员。特别希望在精神科专科医生人力有限的医院,通过人工智能技术进行抑郁症的诊断辅助,提高抑郁症识别率,使抑郁症患者尽早接受干预治疗。目前,许多学者开展了一些基于语音、视频等的抑郁症检测研究,但面向真实环境下抑郁症检测准确率仍待提高。
发明内容
本发明要解决的技术问题是如何提高抑郁症患者检测的准确性,本发明提供了一种基于语音关键词检索和语音情绪识别的抑郁症检测方法。
根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法,包括:
采集待测人员的语音信息;
对所述语音信息进行处理以获取语音特征和语音文本;
对所述语音特征进行计算得到第一诊断结果,对所述语音文本进行计算得到第二诊断结果,并将所述第一诊断结果与所述第二诊断结果进行融合计算以获得识别结果;
根据所述识别结果判断所述待测人员是否为抑郁症患者。
根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法,通过采集待测人员的语音信息,可以利用从语音信息中提取到的语音特征和语音文本,对待测人员的抑郁情况进行自动识别。该识别方法成本低,易推广,能够大量、高效、迅速地识别待测人员的抑郁状况,可以作为医生对于抑郁症诊断的一种有效辅助手段。
根据本发明的一些实施例,在采集所述语音信息时,对采集的所述语音信息进行多层标注,以记录所述待测人员的个人信息、噪音干扰信息、情绪信息以及韵律信息。
在本发明的一些实施例中,对所述语音信息进行处理,包括:
对采集的所述语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。
根据本发明的一些实施例,对所述语音特征进行计算,包括:
采用迁移学习算法训练特征提取器,并利用所述特征提取器提取所述语音信息的情感特征、韵律特征、频谱特征和文本特征;
将所述情感特征、所述韵律特征、所述频谱特征和所述文本特征进行特征拼接以获得融合特征;
对所述融合特征进行分析计算得到所述第一诊断结果。
在本发明的一些实施例中,对所述语音文本进行计算,包括
构建关键词词表;
基于所述关键词词表,在所述语音文本中进行关键词查找,获取匹配关键词;
对所述匹配关键词进行加权计算,得到所述第二计算结果。
根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测装置,包括:
采集模块,用于采集待测人员的语音信息;
处理模块,用于对所述语音信息进行处理以获取语音特征和语音文本;
计算模块,用于对所述语音特征进行计算得到第一诊断结果,对所述语音文本进行计算得到第二诊断结果,并将所述第一诊断结果与所述第二诊断结果进行融合计算以获得识别结果;
识别模块,用于根据所述识别结果判断所述待测人员是否为抑郁症患者。
根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测装置,通过采集模块可以采集待测人员的语音信息,可以利用处理模块从语音信息中提取到的语音特征和语音文本,并通过计算模块和识别模块对待测人员的抑郁情况进行自动识别。该识别装置成本低,易推广,能够大量、高效、迅速地识别待测人员的抑郁状况,可以作为医生对于抑郁症诊断的一种有效辅助工具。
根据本发明的一些实施例,所述采集模块在用于采集所述语音信息时,对采集的所述语音信息进行多层标注,所述多层标注包括:
全局层,用于标注所述待测人员的个人信息;
干扰层,用于标注所述语音信息中的噪音、干扰信息;
情绪层,用于标注所述语音信息的情绪、韵律信息。
在本发明的一些实施例中,所述处理模块包括:
预处理模块,用于对采集的所述语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。
根据本发明的一些实施例,所述计算模块包括语音特征计算模块,所述语音特征计算模块包括:
特征提取模块,用于采用迁移学习算法训练特征提取器,并利用所述特征提取器提取所述语音信息的情感特征、韵律特征、频谱特征和文本特征;
融合模块,用于将所述情感特征、所述韵律特征、所述频谱特征和所述文本特征进行特征拼接以获得融合特征;
第一计算模块,用于对所述融合特征进行分析计算得到所述第一诊断结果。
在本发明的一些实施例中,所述计算模块包括语音文本计算模块,所述语音文本计算模块包括:
创建模块,用于构建关键词词表;
查找模块,用于基于所述关键词词表,在所述语音文本中进行关键词查找,获取匹配关键词;
第二计算模块,用于对所述匹配关键词进行加权计算,得到所述第二计算结果。
附图说明
图1为根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法流程图;
图2为根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法示意图;
图3为根据本发明实施例的语音特征计算方法流程图;
图4为根据本发明实施例的基于语音特征识别抑郁症患者的流程图;
图5为根据本发明实施例的语音文本计算方法流程如;
图6为根据本发明实施例的基于语音文本识别抑郁症患者的流程图;
图7为根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测装置的结构示意图;
图8为根据本发明实施例的语音特征计算模块的结构示意图;
图9为根据本发明实施例的语音文本计算模块的结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
如图1和图2所示,根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法,包括:
S101:采集待测人员的语音信息;
S102:对语音信息进行处理以获取语音特征和语音文本;
S103:对语音特征进行计算得到第一诊断结果,对语音文本进行计算得到第二诊断结果,并将第一诊断结果与第二诊断结果进行融合计算以获得识别结果;
S104:根据识别结果判断待测人员是否为抑郁症患者。
根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法,通过采集待测人员的语音信息,可以利用从语音信息中提取到的语音特征和语音文本,对待测人员的抑郁情况进行自动识别。该识别方法成本低,易推广,能够大量、高效、迅速地识别待测人员的抑郁状况,可以作为医生对于抑郁症诊断的一种有效辅助手段。
根据本发明的一些实施例,在采集语音信息时,对采集的语音信息进行多层标注,以记录待测人员的个人信息、噪音干扰信息、情绪信息以及韵律信息。
需要说明的是,在对待测人员进行语音信息采集时,可以利用语音采集软件对诊断场景中待测人员的语音进行录制,获取16kHZ、16bit采样的语音文件。对采集的语音可以使用第三方标注工具praat标注。标注规范方面,可以采用多层标注,全局层可以用于记录整个语音文件的全局信息,如患者个人信息(性别、年龄、口音)、症状信息等。文本层可以用于转录语音对应的文本,要求文本内容应与语音内容严格对应,同时可以标注真实诊断场景中存在的噪音、说话人干扰等信息。另外,可以增加情绪、韵律信息的标注。
在本发明的一些实施例中,对语音信息进行处理,包括:对采集的语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。
需要说明的是,端点检测可以去掉声学信号的静音部分;预加重可以用预加重因子对声信号进行预加重处理,以加强声学信号的高频分量;语音增强可以将真实环境下的噪音转换为干净语音。
其中,在进行语音增强操作时,可以采用对抗学习算法进行复杂环境下的声学特征提取,通过生成网络将带噪数据映射为干净数据,使用鉴别网络来判定生成器生成结果的好坏,在数次博弈训练之后使得生成器的分布更趋向于干净数据的分布。在训练的过程中加入分类模型进行联合训练使得生成器的优化方向和分类模型的优化方向一致。具体实现如下:
首先,将分类模型的部分层当作对抗网络的生成器,其目的是实现带噪数据到干净数据的特征映射。生成器的优化目标是尽可能的使得干净数据和降噪后数据的分布趋于一致。然后将该生成器的输出和干净数据送入鉴别网络。鉴别网络的优化目标是判定输入是来自于干净数据还是经过特征映射的数据。最后,通过生成器和鉴别器的对抗训练,从而完成分类模型的自适应过程。为了进一步的加强生成网络的建模能力,将生成器生成的特征送入另一个生成器完成生成数据到带噪数据领域的逆映射,然后将逆生成的特征和带噪数据送入另外一个鉴别器进行对抗博弈训练。通过两个生成器形成干净数据到带噪数据,再由带噪数据到干净数据的循环对抗学习,从而增强分类模型的自适应能力。在上述循环对抗网络训练的过程中,利用多任务学习技术加入分类模型进行联合优化,从而在模型领域实现带噪特征到干净特征的自适应。
其次,为了减少其他说话人语音对目标说话人(待检测人员)的干扰,采用一种针对目标说话人的语音提取方法,即使用神经网络将多说话人混合语音特征映射成目标说话人语音的特征。为了更有针对性的提取出目标语音,可以给神经网络提供目标说话人特征的先验信息,作为神经网络的注意力提取点,神经网络根据输入的混合语音和目标说话人的特征信息来估计干净的目标说话人语音。由于目标说话人特征的准确和鲁棒性会对提取效果产生重要的影响,采用锚语音来获取说话人的特征信息,锚语音可以从已有的目标说话人的干净语音中选取。在此基础上,通过多角度说话人特征融合的方式来改善目标语音提取的准确性,一方面利用传统的i-vector特征、基频特征、性别特征,另一方面结合近几年提出的通过瓶颈神经网络统计累积方式提取的嵌入说话人特征,探究不同特征对提取效果的影响,将他们进行结合从而进一步提升系统性能。
此外,进行说话人鉴别性自适应训练,在原有的提取任务的基础上增加说话人分类任务。可以隐式的增强模型对于说话人的鉴别能力,从而促进对于目标说话提取的针对性和准确性。
根据本发明的一些实施例,如图3所示,对语音特征进行计算,包括:
A101:采用迁移学习算法训练特征提取器,并利用特征提取器提取语音信息的情感特征、韵律特征、频谱特征和文本特征;
A102:将情感特征、韵律特征、频谱特征和文本特征进行特征拼接以获得融合特征;
A103:对融合特征进行分析计算得到第一诊断结果。
需要说明的是,由于说话人语音中包含说话人精神状态、声音特征以及语音对应文本的语言内容等多种信息,仅仅使用单一特征直接用于抑郁症分类可能导致模型过于片面,无法有效利用语音的多种特性。因此,采用多特征融合的方法进行抑郁症预测,即先训练各个特征提取器以更准确的提取与抑郁症相关的各个特征,再将各特征融合以学习各特征与抑郁症关系。使用的特征有情感特征、韵律特征、频谱特征和语言相关文本特征四种,具体模型结构如图4所示。
针对情感特征和韵律特征,可以采用迁移学习的方法,利用已有的相关数据训练对应的特征提取器。基于迁移学习的语音抑郁症检测技术的主要思想是使用已有的通用情感和韵律数据进行模型的预训练,然后利用抑郁症数据进行模型的自适应训练,帮助提取抑郁症患者语音中的相关情感和韵律特征,快速构建识别精度较高的抑郁症检测模型。例如,可以使用进步网络的方法,将情感和韵律的数据资源通过模型参数共享的方式迁移到抑郁症检测场景上。需要说明的是,进步网络是一种结构化的网络模型,其主体结构由两个子网络构成,分别用于公共知识存储(情感或韵律特征提取)和领域知识优化(抑郁症预测)。两个子网络之间存在单向连接,将信息由公共知识网络向领域知识网络输送。
进步网络的训练分为两个阶段:第一阶段是公共知识积累阶段,这一阶段采用数据量较大的公共知识(情感与韵律预测数据)训练情感和韵律模型。第二阶段是领域优化阶段,这一阶段会加入少量的领域知识(抑郁症相关数据),但在数量上难以满足训练完整网络的需求。在这种条件下,进步网络通过对公共知识子网络参数加以固定,为网络整体提供一部分公共知识基础,减少领域优化阶段需要训练的参数量,从而使模型能够利用少量数据有效收敛,在特定领域上达到较好的效果。
其中,进步网络的具体模型训练流程如下:
首先,利用现有标注良好的大数据量的情感和韵律数据分别训练一个多层深度神经网络模型,以这两个模型作为公共知识模型。同时使用抑郁症数据训练一个基于通用频谱特征的模型。
随后,在上述公共知识模型的基础上,去掉输出层的连接,分别加入一个相同结构的随机初始化领域知识网络,分别作为对于抑郁症检测任务的情感或韵律特征提取器。同时将基于通用频谱特征的网络同样去掉输入层加入领域知识网络。领域知识网络的输出层节点与抑郁症预测任务结果相对应。公共知识网络的模型参数固定不变,使用抑郁症数据重训练调整通用频谱特征及抑郁症预测网络参数。
整个模型的数据流传递方向是,输入待检测数据分三路送入三个特征提取器,三种特征进行拼接后送入后端抑郁症预测网络,最终的到抑郁症预测结果。
进步网络通过固定公共知识网络模型的参数达到了保持公共知识网络性能的目的;领域知识网络使用随机初始化,同时在抑郁症预测数据上使用随机梯度更新的方式进行参数更新,从而实现模型在抑郁症预测场景上的优化。
在本发明的一些实施例中,如图5所示,对语音文本进行计算,包括
B101:构建关键词词表;
B102:基于关键词词表,在语音文本中进行关键词查找,获取匹配关键词;
B103:对匹配关键词进行加权计算,得到第二计算结果。
如下表所示,构建抑郁症关键词词表:
抑郁症关键词主要分为四类:第一类为与抑郁症相关性很高的关键词,例如不想活、不如死了、活着没意思、活着没劲、活着没希望、想自杀等与抑郁症高度相关的关键词。第二类为与睡眠相关的关键词,例如睡不着、很难入睡、很难入睡、睡眠困难、经常失眠、恶梦等。第三类为通常抑郁症患者的表现,如感觉沮丧、感觉无助、焦虑、没兴趣等。第四类主要为易怒、孤独,这一类相关性比较小的,因为正常人也会出现狂躁、易怒、感到孤独等现象,只是抑郁症患者出现频率较高的,这样的关键词例如感觉孤独、易怒、情绪不稳定等。
如图6所示,在构建的抑郁症关键词词表的基础上,采用常规的关键词检索算法,即采用语音识别软件将语音转换成文本,然后从文本里面提取网格信息构建索引网络,然后在索引网络中查找抑郁症关键词表中的词,然后使用网络中的后验概率来表示关键词匹配的分值,并经过置信度评价,输出分值大于阈值的匹配结果,最后对检索出的关键词进行加权,计算得到总得分,根据获得的总得分和设置的阈值,判断是否是抑郁症。值得强调的是,在对关键词进行加权时,不同类别的关键词的权重系数可以不同。
综上所述,本申请将语音特征的第一计算结果与基于语音文本的第二计算结果进行决策级融合,即将基于迁移学习的多特征融合的判断结果赋一个权重,同时将基于关键词检索的判断结果赋一个权重,并将两个赋值权重的判断结果进行相加,最终可以根据相加后的得分判断是否是抑郁症。
如图7所示,根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测装置,包括:采集模块、处理模块、计算模块和识别模块。
其中,采集模块可以用于采集待测人员的语音信息;
处理模块可以用于对语音信息进行处理以获取语音特征和语音文本;
计算模块可以用于对语音特征进行计算得到第一诊断结果,以及对语音文本进行计算得到第二诊断结果,并用于将第一诊断结果与第二诊断结果进行融合计算以获得识别结果;
识别模块可以用于根据识别结果判断待测人员是否为抑郁症患者。
根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测装置,通过采集模块可以采集待测人员的语音信息,可以利用处理模块从语音信息中提取到的语音特征和语音文本,并通过计算模块和识别模块对待测人员的抑郁情况进行自动识别。该识别装置成本低,易推广,能够大量、高效、迅速地识别待测人员的抑郁状况,可以作为医生对于抑郁症诊断的一种有效辅助工具。
根据本发明的一些实施例,采集模块在用于采集语音信息时,对采集的语音信息进行多层标注,多层标注包括:全局层、干扰层和情绪层。
其中,全局层用于标注待测人员的个人信息,干扰层用于标注语音信息中的噪音、干扰信息,情绪层用于标注语音信息的情绪、韵律信息。
在本发明的一些实施例中,处理模块包括:预处理模块,预处理模块可以用于对采集的语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。
根据本发明的一些实施例,计算模块包括语音特征计算模块,如图8所示,语音特征计算模块包括:特征提取模块,融合模块和第一计算模块。
其中,特征提取模块可以用于采用迁移学习算法训练特征提取器,并利用特征提取器提取语音信息的情感特征、韵律特征、频谱特征和文本特征。
融合模块可以用于将情感特征、韵律特征、频谱特征和文本特征进行特征拼接以获得融合特征。
第一计算模块可以用于对融合特征进行分析计算得到第一诊断结果。
在本发明的一些实施例中,计算模块包括语音文本计算模块,如图9所示,语音文本计算模块包括:创建模块、查找模块和第二计算模块。
其中,创建模块可以用于构建关键词词表;查找模块可以用于基于关键词词表,在语音文本中进行关键词查找,获取匹配关键词;第二计算模块可以用于对匹配关键词进行加权计算,得到第二计算结果。
综上所述,在对待测人员进行抑郁症的识别时,首先,可以通过采集模块采集待测人员的语音信息,通过预处理模块可以对采集的语音信息进行预处理,随后处理模块可以对预处理后的语音信号进行特征提取,计算模块可以采用基于迁移学习的多特征融合方法实现对抑郁症的检测。同时,计算模块采用成熟的语音识别软件将预处理后的语音转换成文本,然后采用基于关键词检索的方法实现对抑郁症的检测。最后计算模块将基于迁移学习的多特征融合的抑郁症检测结果和基于关键词检索的抑郁症检测结果进行决策级别的融合,识别模块根据计算结果得到抑郁症识别的最终结果。
本发明的基于语音关键词检索和语音情绪识别的抑郁症检测方法和装置,通过麦克风装置直接采集待检测人员的语音信息,利用从语音信息中提取到的信息建模,对待测人员的抑郁情况自动识别,不需要人工设计特征,模型可以自动学习特征并进行识别,减少人为设计特征造成的不完备性。而且,成本低,易推广,能够大量、高效、迅速地识别病人的抑郁状况,可以作为医生对于抑郁症诊断的一种有效辅助手段
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。
Claims (10)
1.一种基于语音关键词检索和语音情绪识别的抑郁症检测方法,其特征在于,包括:
采集待测人员的语音信息;
对所述语音信息进行处理以获取语音特征和语音文本;
对所述语音特征进行计算得到第一诊断结果,对所述语音文本进行计算得到第二诊断结果,并将所述第一诊断结果与所述第二诊断结果进行融合计算以获得识别结果;
根据所述识别结果判断所述待测人员是否为抑郁症患者。
2.根据权利要求1所述的基于语音关键词检索和语音情绪识别的抑郁症检测方法,其特征在于,在采集所述语音信息时,对采集的所述语音信息进行多层标注,以记录所述待测人员的个人信息、噪音干扰信息、情绪信息以及韵律信息。
3.根据权利要求1所述的基于语音关键词检索和语音情绪识别的抑郁症检测方法,其特征在于,对所述语音信息进行处理,包括:
对采集的所述语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。
4.根据权利要求1所述的基于语音关键词检索和语音情绪识别的抑郁症检测方法,其特征在于,对所述语音特征进行计算,包括:
采用迁移学习算法训练特征提取器,并利用所述特征提取器提取所述语音信息的情感特征、韵律特征、频谱特征和文本特征;
将所述情感特征、所述韵律特征、所述频谱特征和所述文本特征进行特征拼接以获得融合特征;
对所述融合特征进行分析计算得到所述第一诊断结果。
5.根据权利要求1所述的基于语音关键词检索和语音情绪识别的抑郁症检测方法,其特征在于,对所述语音文本进行计算,包括
构建关键词词表;
基于所述关键词词表,在所述语音文本中进行关键词查找,获取匹配关键词;
对所述匹配关键词进行加权计算,得到所述第二计算结果。
6.一种基于语音关键词检索和语音情绪识别的抑郁症检测装置,其特征在于,包括:
采集模块,用于采集待测人员的语音信息;
处理模块,用于对所述语音信息进行处理以获取语音特征和语音文本;
计算模块,用于对所述语音特征进行计算得到第一诊断结果,对所述语音文本进行计算得到第二诊断结果,并将所述第一诊断结果与所述第二诊断结果进行融合计算以获得识别结果;
识别模块,用于根据所述识别结果判断所述待测人员是否为抑郁症患者。
7.根据权利要求6所述的基于语音关键词检索和语音情绪识别的抑郁症检测装置,其特征在于,所述采集模块在用于采集所述语音信息时,对采集的所述语音信息进行多层标注,所述多层标注包括:
全局层,用于标注所述待测人员的个人信息;
干扰层,用于标注所述语音信息中的噪音、干扰信息;
情绪层,用于标注所述语音信息的情绪、韵律信息。
8.根据权利要求6所述的基于语音关键词检索和语音情绪识别的抑郁症检测装置,其特征在于,所述处理模块包括:
预处理模块,用于对采集的所述语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。
9.根据权利要求6所述的基于语音关键词检索和语音情绪识别的抑郁症检测装置,其特征在于,所述计算模块包括语音特征计算模块,所述语音特征计算模块包括:
特征提取模块,用于采用迁移学习算法训练特征提取器,并利用所述特征提取器提取所述语音信息的情感特征、韵律特征、频谱特征和文本特征;
融合模块,用于将所述情感特征、所述韵律特征、所述频谱特征和所述文本特征进行特征拼接以获得融合特征;
第一计算模块,用于对所述融合特征进行分析计算得到所述第一诊断结果。
10.根据权利要求6所述的基于语音关键词检索和语音情绪识别的抑郁症检测装置,其特征在于,所述计算模块包括语音文本计算模块,所述语音文本计算模块包括:
创建模块,用于构建关键词词表;
查找模块,用于基于所述关键词词表,在所述语音文本中进行关键词查找,获取匹配关键词;
第二计算模块,用于对所述匹配关键词进行加权计算,得到所述第二计算结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010130347.3A CN111329494B (zh) | 2020-02-28 | 2020-02-28 | 抑郁症参考数据的获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010130347.3A CN111329494B (zh) | 2020-02-28 | 2020-02-28 | 抑郁症参考数据的获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111329494A true CN111329494A (zh) | 2020-06-26 |
CN111329494B CN111329494B (zh) | 2022-10-28 |
Family
ID=71173959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010130347.3A Active CN111329494B (zh) | 2020-02-28 | 2020-02-28 | 抑郁症参考数据的获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111329494B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164459A (zh) * | 2020-09-16 | 2021-01-01 | 同济大学 | 一种抑郁症状的信息评估方法 |
CN112614584A (zh) * | 2020-12-14 | 2021-04-06 | 首都医科大学 | 语音及文本转录的抑郁症辅助诊断方法、系统及介质 |
CN113012720A (zh) * | 2021-02-10 | 2021-06-22 | 杭州医典智能科技有限公司 | 谱减法降噪下多语音特征融合的抑郁症检测方法 |
CN113228164A (zh) * | 2021-04-02 | 2021-08-06 | 深圳市锐明技术股份有限公司 | 一种基于语音识别的安全预警方法、装置及终端设备 |
CN115064246A (zh) * | 2022-08-18 | 2022-09-16 | 山东第一医科大学附属省立医院(山东省立医院) | 一种基于多模态信息融合的抑郁症评估系统及设备 |
CN115631772A (zh) * | 2022-10-27 | 2023-01-20 | 四川大学华西医院 | 自伤自杀危险性评估方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130166291A1 (en) * | 2010-07-06 | 2013-06-27 | Rmit University | Emotional and/or psychiatric state detection |
CN106725532A (zh) * | 2016-12-13 | 2017-05-31 | 兰州大学 | 基于语音特征与机器学习的抑郁症自动评估系统和方法 |
CN107657964A (zh) * | 2017-08-15 | 2018-02-02 | 西北大学 | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
-
2020
- 2020-02-28 CN CN202010130347.3A patent/CN111329494B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130166291A1 (en) * | 2010-07-06 | 2013-06-27 | Rmit University | Emotional and/or psychiatric state detection |
CN106725532A (zh) * | 2016-12-13 | 2017-05-31 | 兰州大学 | 基于语音特征与机器学习的抑郁症自动评估系统和方法 |
CN107657964A (zh) * | 2017-08-15 | 2018-02-02 | 西北大学 | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112164459A (zh) * | 2020-09-16 | 2021-01-01 | 同济大学 | 一种抑郁症状的信息评估方法 |
CN112614584A (zh) * | 2020-12-14 | 2021-04-06 | 首都医科大学 | 语音及文本转录的抑郁症辅助诊断方法、系统及介质 |
CN113012720A (zh) * | 2021-02-10 | 2021-06-22 | 杭州医典智能科技有限公司 | 谱减法降噪下多语音特征融合的抑郁症检测方法 |
CN113012720B (zh) * | 2021-02-10 | 2023-06-16 | 杭州医典智能科技有限公司 | 谱减法降噪下多语音特征融合的抑郁症检测方法 |
CN113228164A (zh) * | 2021-04-02 | 2021-08-06 | 深圳市锐明技术股份有限公司 | 一种基于语音识别的安全预警方法、装置及终端设备 |
CN115064246A (zh) * | 2022-08-18 | 2022-09-16 | 山东第一医科大学附属省立医院(山东省立医院) | 一种基于多模态信息融合的抑郁症评估系统及设备 |
CN115064246B (zh) * | 2022-08-18 | 2022-12-20 | 山东第一医科大学附属省立医院(山东省立医院) | 一种基于多模态信息融合的抑郁症评估系统及设备 |
CN115631772A (zh) * | 2022-10-27 | 2023-01-20 | 四川大学华西医院 | 自伤自杀危险性评估方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111329494B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111329494B (zh) | 抑郁症参考数据的获取方法及装置 | |
CN112818892B (zh) | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 | |
CN110728997B (zh) | 一种基于情景感知的多模态抑郁症检测系统 | |
CN110097894B (zh) | 一种端到端的语音情感识别的方法和系统 | |
CN111461176B (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
Pfister et al. | Real-time recognition of affective states from nonverbal features of speech and its application for public speaking skill analysis | |
CN105551485B (zh) | 语音文件检索方法及系统 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
WO2021147363A1 (zh) | 一种基于文本的抑郁症识别方法 | |
CN112750465A (zh) | 一种云端语言能力评测系统及可穿戴录音终端 | |
CN109841231B (zh) | 一种针对汉语普通话的早期ad言语辅助筛查系统 | |
CN111951824A (zh) | 一种基于声音判别抑郁症的检测方法 | |
CN111681779A (zh) | 一种医疗诊断系统 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN112768070A (zh) | 一种基于对话交流的精神健康评测方法和系统 | |
Baird et al. | Emotion recognition in public speaking scenarios utilising an lstm-rnn approach with attention | |
Qin et al. | Automatic speech assessment for aphasic patients based on syllable-level embedding and supra-segmental duration features | |
CN113111151A (zh) | 一种基于智能语音问答的跨模态抑郁症检测方法 | |
Li et al. | Improvement on speech depression recognition based on deep networks | |
CN112464022A (zh) | 一种个性化音乐播放方法、系统和计算机可读存储介质 | |
Ding et al. | Automatic recognition of student emotions based on deep neural network and its application in depression detection | |
Tian | Multi-note intelligent fusion method of music based on artificial neural network | |
CN112069897A (zh) | 基于知识图谱的语音和微表情识别自杀情绪感知方法 | |
Fathan et al. | An Ensemble Approach for the Diagnosis of COVID-19 from Speech and Cough Sounds | |
Wang et al. | Learning Optimal Time-Frequency Representations for Heart Sound: A Comparative Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |