CN111329494A

CN111329494A - 基于语音关键词检索和语音情绪识别的抑郁症检测方法

Info

Publication number: CN111329494A
Application number: CN202010130347.3A
Authority: CN
Inventors: 王迎雪; 刘弋锋; 邹博超; 谢海永; 丰雷; 王刚
Original assignee: Capital Medical University; Beijing Anding Hospital; Electronic Science Research Institute of CTEC
Current assignee: Capital Medical University; Beijing Anding Hospital; Electronic Science Research Institute of CTEC
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-26
Anticipated expiration: 2040-02-28
Also published as: CN111329494B

Abstract

本发明提出了一种基于语音关键词检索和语音情绪识别的抑郁症检测方法，方法，包括：采集待测人员的语音信息；对语音信息进行处理以获取语音特征和语音文本；对语音特征进行计算得到第一诊断结果，对语音文本进行计算得到第二诊断结果，并将第一诊断结果与第二诊断结果进行融合计算以获得识别结果；根据识别结果判断所述待测人员是否为抑郁症患者。由此，通过采集待测人员的语音信息，可以利用从语音信息中提取到的语音特征和语音文本，对待测人员的抑郁情况进行自动识别。该识别方法成本低，易推广，能够大量、高效、迅速地识别待测人员的抑郁状况，可以作为医生对于抑郁症诊断的一种有效辅助手段。

Description

基于语音关键词检索和语音情绪识别的抑郁症检测方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于语音关键词检索和语音情绪识别的抑郁症检测方法。

背景技术

抑郁症(Major Depressive Disorder,MDD)全球患病率高达5％-12％，目前已经成为世界第四大疾病，仅次于心血管疾病、癌症、糖尿病，预计2020年后，它会超过癌症，成为仅次于心血管疾病的第二大疾病。抑郁症患者如果不能得到及时的治疗，病情就会持续继续恶化，引发严重的精神问题，甚至会出现自杀等危及生命的行为。抑郁症已经成为一个重大的公共卫生问题，具有迫切的临床研究需求。

目前，我国大部分的抑郁症患者会选择综合医院而非精神专科医院就诊，由于缺乏专科培训，特别是没有可操作性较强的、适合临床使用的规范化诊疗手段，导致我国的抑郁症的识别率的较低。我国的抑郁症识别率仅为21％，远低于世界平均的55.65％，接受干预和治疗者不足5％。

随着人工智能技术的广泛应用，科研人员试图开展抑郁症的人工智能检测方法研究，以辅助医疗人员。特别希望在精神科专科医生人力有限的医院，通过人工智能技术进行抑郁症的诊断辅助，提高抑郁症识别率，使抑郁症患者尽早接受干预治疗。目前，许多学者开展了一些基于语音、视频等的抑郁症检测研究，但面向真实环境下抑郁症检测准确率仍待提高。

发明内容

本发明要解决的技术问题是如何提高抑郁症患者检测的准确性，本发明提供了一种基于语音关键词检索和语音情绪识别的抑郁症检测方法。

根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法，包括：

采集待测人员的语音信息；

对所述语音信息进行处理以获取语音特征和语音文本；

对所述语音特征进行计算得到第一诊断结果，对所述语音文本进行计算得到第二诊断结果，并将所述第一诊断结果与所述第二诊断结果进行融合计算以获得识别结果；

根据所述识别结果判断所述待测人员是否为抑郁症患者。

根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法，通过采集待测人员的语音信息，可以利用从语音信息中提取到的语音特征和语音文本，对待测人员的抑郁情况进行自动识别。该识别方法成本低，易推广，能够大量、高效、迅速地识别待测人员的抑郁状况，可以作为医生对于抑郁症诊断的一种有效辅助手段。

根据本发明的一些实施例，在采集所述语音信息时，对采集的所述语音信息进行多层标注，以记录所述待测人员的个人信息、噪音干扰信息、情绪信息以及韵律信息。

在本发明的一些实施例中，对所述语音信息进行处理，包括：

对采集的所述语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。

根据本发明的一些实施例，对所述语音特征进行计算，包括：

采用迁移学习算法训练特征提取器，并利用所述特征提取器提取所述语音信息的情感特征、韵律特征、频谱特征和文本特征；

将所述情感特征、所述韵律特征、所述频谱特征和所述文本特征进行特征拼接以获得融合特征；

对所述融合特征进行分析计算得到所述第一诊断结果。

在本发明的一些实施例中，对所述语音文本进行计算，包括

构建关键词词表；

基于所述关键词词表，在所述语音文本中进行关键词查找，获取匹配关键词；

对所述匹配关键词进行加权计算，得到所述第二计算结果。

根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测装置，包括：

采集模块，用于采集待测人员的语音信息；

处理模块，用于对所述语音信息进行处理以获取语音特征和语音文本；

计算模块，用于对所述语音特征进行计算得到第一诊断结果，对所述语音文本进行计算得到第二诊断结果，并将所述第一诊断结果与所述第二诊断结果进行融合计算以获得识别结果；

识别模块，用于根据所述识别结果判断所述待测人员是否为抑郁症患者。

根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测装置，通过采集模块可以采集待测人员的语音信息，可以利用处理模块从语音信息中提取到的语音特征和语音文本，并通过计算模块和识别模块对待测人员的抑郁情况进行自动识别。该识别装置成本低，易推广，能够大量、高效、迅速地识别待测人员的抑郁状况，可以作为医生对于抑郁症诊断的一种有效辅助工具。

根据本发明的一些实施例，所述采集模块在用于采集所述语音信息时，对采集的所述语音信息进行多层标注，所述多层标注包括：

全局层，用于标注所述待测人员的个人信息；

干扰层，用于标注所述语音信息中的噪音、干扰信息；

情绪层，用于标注所述语音信息的情绪、韵律信息。

在本发明的一些实施例中，所述处理模块包括：

预处理模块，用于对采集的所述语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。

根据本发明的一些实施例，所述计算模块包括语音特征计算模块，所述语音特征计算模块包括：

特征提取模块，用于采用迁移学习算法训练特征提取器，并利用所述特征提取器提取所述语音信息的情感特征、韵律特征、频谱特征和文本特征；

融合模块，用于将所述情感特征、所述韵律特征、所述频谱特征和所述文本特征进行特征拼接以获得融合特征；

第一计算模块，用于对所述融合特征进行分析计算得到所述第一诊断结果。

在本发明的一些实施例中，所述计算模块包括语音文本计算模块，所述语音文本计算模块包括：

创建模块，用于构建关键词词表；

查找模块，用于基于所述关键词词表，在所述语音文本中进行关键词查找，获取匹配关键词；

第二计算模块，用于对所述匹配关键词进行加权计算，得到所述第二计算结果。

附图说明

图1为根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法流程图；

图2为根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法示意图；

图3为根据本发明实施例的语音特征计算方法流程图；

图4为根据本发明实施例的基于语音特征识别抑郁症患者的流程图；

图5为根据本发明实施例的语音文本计算方法流程如；

图6为根据本发明实施例的基于语音文本识别抑郁症患者的流程图；

图7为根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测装置的结构示意图；

图8为根据本发明实施例的语音特征计算模块的结构示意图；

图9为根据本发明实施例的语音文本计算模块的结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

如图1和图2所示，根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测方法，包括：

S101：采集待测人员的语音信息；

S102：对语音信息进行处理以获取语音特征和语音文本；

S103：对语音特征进行计算得到第一诊断结果，对语音文本进行计算得到第二诊断结果，并将第一诊断结果与第二诊断结果进行融合计算以获得识别结果；

S104：根据识别结果判断待测人员是否为抑郁症患者。

根据本发明的一些实施例，在采集语音信息时，对采集的语音信息进行多层标注，以记录待测人员的个人信息、噪音干扰信息、情绪信息以及韵律信息。

需要说明的是，在对待测人员进行语音信息采集时，可以利用语音采集软件对诊断场景中待测人员的语音进行录制，获取16kHZ、16bit采样的语音文件。对采集的语音可以使用第三方标注工具praat标注。标注规范方面，可以采用多层标注，全局层可以用于记录整个语音文件的全局信息，如患者个人信息(性别、年龄、口音)、症状信息等。文本层可以用于转录语音对应的文本，要求文本内容应与语音内容严格对应，同时可以标注真实诊断场景中存在的噪音、说话人干扰等信息。另外，可以增加情绪、韵律信息的标注。

在本发明的一些实施例中，对语音信息进行处理，包括：对采集的语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。

需要说明的是，端点检测可以去掉声学信号的静音部分；预加重可以用预加重因子对声信号进行预加重处理，以加强声学信号的高频分量；语音增强可以将真实环境下的噪音转换为干净语音。

其中，在进行语音增强操作时，可以采用对抗学习算法进行复杂环境下的声学特征提取，通过生成网络将带噪数据映射为干净数据，使用鉴别网络来判定生成器生成结果的好坏，在数次博弈训练之后使得生成器的分布更趋向于干净数据的分布。在训练的过程中加入分类模型进行联合训练使得生成器的优化方向和分类模型的优化方向一致。具体实现如下：

首先，将分类模型的部分层当作对抗网络的生成器，其目的是实现带噪数据到干净数据的特征映射。生成器的优化目标是尽可能的使得干净数据和降噪后数据的分布趋于一致。然后将该生成器的输出和干净数据送入鉴别网络。鉴别网络的优化目标是判定输入是来自于干净数据还是经过特征映射的数据。最后，通过生成器和鉴别器的对抗训练，从而完成分类模型的自适应过程。为了进一步的加强生成网络的建模能力，将生成器生成的特征送入另一个生成器完成生成数据到带噪数据领域的逆映射，然后将逆生成的特征和带噪数据送入另外一个鉴别器进行对抗博弈训练。通过两个生成器形成干净数据到带噪数据，再由带噪数据到干净数据的循环对抗学习，从而增强分类模型的自适应能力。在上述循环对抗网络训练的过程中，利用多任务学习技术加入分类模型进行联合优化，从而在模型领域实现带噪特征到干净特征的自适应。

其次，为了减少其他说话人语音对目标说话人(待检测人员)的干扰，采用一种针对目标说话人的语音提取方法，即使用神经网络将多说话人混合语音特征映射成目标说话人语音的特征。为了更有针对性的提取出目标语音，可以给神经网络提供目标说话人特征的先验信息，作为神经网络的注意力提取点，神经网络根据输入的混合语音和目标说话人的特征信息来估计干净的目标说话人语音。由于目标说话人特征的准确和鲁棒性会对提取效果产生重要的影响，采用锚语音来获取说话人的特征信息，锚语音可以从已有的目标说话人的干净语音中选取。在此基础上，通过多角度说话人特征融合的方式来改善目标语音提取的准确性，一方面利用传统的i-vector特征、基频特征、性别特征，另一方面结合近几年提出的通过瓶颈神经网络统计累积方式提取的嵌入说话人特征，探究不同特征对提取效果的影响，将他们进行结合从而进一步提升系统性能。

此外，进行说话人鉴别性自适应训练，在原有的提取任务的基础上增加说话人分类任务。可以隐式的增强模型对于说话人的鉴别能力，从而促进对于目标说话提取的针对性和准确性。

根据本发明的一些实施例，如图3所示，对语音特征进行计算，包括：

A101：采用迁移学习算法训练特征提取器，并利用特征提取器提取语音信息的情感特征、韵律特征、频谱特征和文本特征；

A102：将情感特征、韵律特征、频谱特征和文本特征进行特征拼接以获得融合特征；

A103：对融合特征进行分析计算得到第一诊断结果。

需要说明的是，由于说话人语音中包含说话人精神状态、声音特征以及语音对应文本的语言内容等多种信息，仅仅使用单一特征直接用于抑郁症分类可能导致模型过于片面，无法有效利用语音的多种特性。因此，采用多特征融合的方法进行抑郁症预测，即先训练各个特征提取器以更准确的提取与抑郁症相关的各个特征，再将各特征融合以学习各特征与抑郁症关系。使用的特征有情感特征、韵律特征、频谱特征和语言相关文本特征四种，具体模型结构如图4所示。

针对情感特征和韵律特征，可以采用迁移学习的方法，利用已有的相关数据训练对应的特征提取器。基于迁移学习的语音抑郁症检测技术的主要思想是使用已有的通用情感和韵律数据进行模型的预训练，然后利用抑郁症数据进行模型的自适应训练，帮助提取抑郁症患者语音中的相关情感和韵律特征，快速构建识别精度较高的抑郁症检测模型。例如，可以使用进步网络的方法，将情感和韵律的数据资源通过模型参数共享的方式迁移到抑郁症检测场景上。需要说明的是，进步网络是一种结构化的网络模型，其主体结构由两个子网络构成，分别用于公共知识存储(情感或韵律特征提取)和领域知识优化(抑郁症预测)。两个子网络之间存在单向连接，将信息由公共知识网络向领域知识网络输送。

进步网络的训练分为两个阶段：第一阶段是公共知识积累阶段，这一阶段采用数据量较大的公共知识(情感与韵律预测数据)训练情感和韵律模型。第二阶段是领域优化阶段，这一阶段会加入少量的领域知识(抑郁症相关数据)，但在数量上难以满足训练完整网络的需求。在这种条件下，进步网络通过对公共知识子网络参数加以固定，为网络整体提供一部分公共知识基础，减少领域优化阶段需要训练的参数量，从而使模型能够利用少量数据有效收敛，在特定领域上达到较好的效果。

其中，进步网络的具体模型训练流程如下：

首先，利用现有标注良好的大数据量的情感和韵律数据分别训练一个多层深度神经网络模型，以这两个模型作为公共知识模型。同时使用抑郁症数据训练一个基于通用频谱特征的模型。

随后，在上述公共知识模型的基础上，去掉输出层的连接，分别加入一个相同结构的随机初始化领域知识网络，分别作为对于抑郁症检测任务的情感或韵律特征提取器。同时将基于通用频谱特征的网络同样去掉输入层加入领域知识网络。领域知识网络的输出层节点与抑郁症预测任务结果相对应。公共知识网络的模型参数固定不变，使用抑郁症数据重训练调整通用频谱特征及抑郁症预测网络参数。

整个模型的数据流传递方向是，输入待检测数据分三路送入三个特征提取器，三种特征进行拼接后送入后端抑郁症预测网络，最终的到抑郁症预测结果。

进步网络通过固定公共知识网络模型的参数达到了保持公共知识网络性能的目的；领域知识网络使用随机初始化，同时在抑郁症预测数据上使用随机梯度更新的方式进行参数更新，从而实现模型在抑郁症预测场景上的优化。

在本发明的一些实施例中，如图5所示，对语音文本进行计算，包括

B101：构建关键词词表；

B102：基于关键词词表，在语音文本中进行关键词查找，获取匹配关键词；

B103：对匹配关键词进行加权计算，得到第二计算结果。

如下表所示，构建抑郁症关键词词表：

抑郁症关键词主要分为四类：第一类为与抑郁症相关性很高的关键词，例如不想活、不如死了、活着没意思、活着没劲、活着没希望、想自杀等与抑郁症高度相关的关键词。第二类为与睡眠相关的关键词，例如睡不着、很难入睡、很难入睡、睡眠困难、经常失眠、恶梦等。第三类为通常抑郁症患者的表现，如感觉沮丧、感觉无助、焦虑、没兴趣等。第四类主要为易怒、孤独，这一类相关性比较小的，因为正常人也会出现狂躁、易怒、感到孤独等现象，只是抑郁症患者出现频率较高的，这样的关键词例如感觉孤独、易怒、情绪不稳定等。

如图6所示，在构建的抑郁症关键词词表的基础上，采用常规的关键词检索算法，即采用语音识别软件将语音转换成文本，然后从文本里面提取网格信息构建索引网络，然后在索引网络中查找抑郁症关键词表中的词，然后使用网络中的后验概率来表示关键词匹配的分值，并经过置信度评价，输出分值大于阈值的匹配结果，最后对检索出的关键词进行加权，计算得到总得分，根据获得的总得分和设置的阈值，判断是否是抑郁症。值得强调的是，在对关键词进行加权时，不同类别的关键词的权重系数可以不同。

综上所述，本申请将语音特征的第一计算结果与基于语音文本的第二计算结果进行决策级融合，即将基于迁移学习的多特征融合的判断结果赋一个权重，同时将基于关键词检索的判断结果赋一个权重，并将两个赋值权重的判断结果进行相加，最终可以根据相加后的得分判断是否是抑郁症。

如图7所示，根据本发明实施例的基于语音关键词检索和语音情绪识别的抑郁症检测装置，包括：采集模块、处理模块、计算模块和识别模块。

其中，采集模块可以用于采集待测人员的语音信息；

处理模块可以用于对语音信息进行处理以获取语音特征和语音文本；

计算模块可以用于对语音特征进行计算得到第一诊断结果，以及对语音文本进行计算得到第二诊断结果，并用于将第一诊断结果与第二诊断结果进行融合计算以获得识别结果；

识别模块可以用于根据识别结果判断待测人员是否为抑郁症患者。

根据本发明的一些实施例，采集模块在用于采集语音信息时，对采集的语音信息进行多层标注，多层标注包括：全局层、干扰层和情绪层。

其中，全局层用于标注待测人员的个人信息，干扰层用于标注语音信息中的噪音、干扰信息，情绪层用于标注语音信息的情绪、韵律信息。

在本发明的一些实施例中，处理模块包括：预处理模块，预处理模块可以用于对采集的语音信息进行端点检测、预加重、加窗分帧和语音增强的预处理操作。

根据本发明的一些实施例，计算模块包括语音特征计算模块，如图8所示，语音特征计算模块包括：特征提取模块，融合模块和第一计算模块。

其中，特征提取模块可以用于采用迁移学习算法训练特征提取器，并利用特征提取器提取语音信息的情感特征、韵律特征、频谱特征和文本特征。

融合模块可以用于将情感特征、韵律特征、频谱特征和文本特征进行特征拼接以获得融合特征。

第一计算模块可以用于对融合特征进行分析计算得到第一诊断结果。

在本发明的一些实施例中，计算模块包括语音文本计算模块，如图9所示，语音文本计算模块包括：创建模块、查找模块和第二计算模块。

其中，创建模块可以用于构建关键词词表；查找模块可以用于基于关键词词表，在语音文本中进行关键词查找，获取匹配关键词；第二计算模块可以用于对匹配关键词进行加权计算，得到第二计算结果。

综上所述，在对待测人员进行抑郁症的识别时，首先，可以通过采集模块采集待测人员的语音信息，通过预处理模块可以对采集的语音信息进行预处理，随后处理模块可以对预处理后的语音信号进行特征提取，计算模块可以采用基于迁移学习的多特征融合方法实现对抑郁症的检测。同时，计算模块采用成熟的语音识别软件将预处理后的语音转换成文本，然后采用基于关键词检索的方法实现对抑郁症的检测。最后计算模块将基于迁移学习的多特征融合的抑郁症检测结果和基于关键词检索的抑郁症检测结果进行决策级别的融合，识别模块根据计算结果得到抑郁症识别的最终结果。

本发明的基于语音关键词检索和语音情绪识别的抑郁症检测方法和装置，通过麦克风装置直接采集待检测人员的语音信息，利用从语音信息中提取到的信息建模，对待测人员的抑郁情况自动识别，不需要人工设计特征，模型可以自动学习特征并进行识别，减少人为设计特征造成的不完备性。而且，成本低，易推广，能够大量、高效、迅速地识别病人的抑郁状况，可以作为医生对于抑郁症诊断的一种有效辅助手段

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种基于语音关键词检索和语音情绪识别的抑郁症检测方法，其特征在于，包括：

采集待测人员的语音信息；

对所述语音信息进行处理以获取语音特征和语音文本；

根据所述识别结果判断所述待测人员是否为抑郁症患者。

2.根据权利要求1所述的基于语音关键词检索和语音情绪识别的抑郁症检测方法，其特征在于，在采集所述语音信息时，对采集的所述语音信息进行多层标注，以记录所述待测人员的个人信息、噪音干扰信息、情绪信息以及韵律信息。

3.根据权利要求1所述的基于语音关键词检索和语音情绪识别的抑郁症检测方法，其特征在于，对所述语音信息进行处理，包括：

4.根据权利要求1所述的基于语音关键词检索和语音情绪识别的抑郁症检测方法，其特征在于，对所述语音特征进行计算，包括：

对所述融合特征进行分析计算得到所述第一诊断结果。

5.根据权利要求1所述的基于语音关键词检索和语音情绪识别的抑郁症检测方法，其特征在于，对所述语音文本进行计算，包括

构建关键词词表；

对所述匹配关键词进行加权计算，得到所述第二计算结果。

6.一种基于语音关键词检索和语音情绪识别的抑郁症检测装置，其特征在于，包括：

采集模块，用于采集待测人员的语音信息；

7.根据权利要求6所述的基于语音关键词检索和语音情绪识别的抑郁症检测装置，其特征在于，所述采集模块在用于采集所述语音信息时，对采集的所述语音信息进行多层标注，所述多层标注包括：

全局层，用于标注所述待测人员的个人信息；

干扰层，用于标注所述语音信息中的噪音、干扰信息；

情绪层，用于标注所述语音信息的情绪、韵律信息。

8.根据权利要求6所述的基于语音关键词检索和语音情绪识别的抑郁症检测装置，其特征在于，所述处理模块包括：

9.根据权利要求6所述的基于语音关键词检索和语音情绪识别的抑郁症检测装置，其特征在于，所述计算模块包括语音特征计算模块，所述语音特征计算模块包括：

10.根据权利要求6所述的基于语音关键词检索和语音情绪识别的抑郁症检测装置，其特征在于，所述计算模块包括语音文本计算模块，所述语音文本计算模块包括：

创建模块，用于构建关键词词表；