CN106725532A

CN106725532A - 基于语音特征与机器学习的抑郁症自动评估系统和方法

Info

Publication number: CN106725532A
Application number: CN201611147549.9A
Authority: CN
Inventors: 胡斌; 刘振宇; 康环宇
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2017-05-31
Anticipated expiration: 2036-12-13
Also published as: CN106725532B

Abstract

本发明提供一种基于语音特征与机器学习的抑郁症自动评估系统和方法，基于语音处理、特征提取、机器学习技术，寻找语音特征与抑郁症之间的联系，为抑郁症的临床诊断提供客观参考依据。本发明的系统包括(a)语音采集录音模块，用于记录被试者在不同情绪语料刺激下的语音信息；(b)语音特征计算模块，用于计算语音的声学特征；(c)语音数据库模块，包含用于语音特征有效性分析、分类器训练优化、系统分类率的相关数据；(d)机器学习模块，用于确定有效特征的提取方式，并训练用于自动评估的分类器；(e)自动评估模块，依据机器学习模块确定的有效特征提取方式以及训练的分类器分类模式，将被试者有效语音特征进行抑郁程度分类。

Description

基于语音特征与机器学习的抑郁症自动评估系统和方法

技术领域

本发明涉及计算机辅助医疗诊断技术领域，特别是涉及一种基于语音特征与机器学习的抑郁症自动评估系统和方法。

背景技术

抑郁症是一种普遍的心理疾病，影响着全世界约3.5亿人,世界卫生组织(WorldHealth Organization,WHO)预测到2020年抑郁症将成为全球第二大主要病因，因此找到一种有效的评估抑郁症的方法很有必要。目前,抑郁症的诊断和疗效评估缺少客观的测量方法和工具，主要依靠家属供史、患者自述以及临床量表等主观评估方法，从而造成早期情感障碍识别困难，患者常常因此失去最佳治疗时机。

随着语音信号分析与处理技术的发展，尤其是线性预测技术在语音处理中的应用，基音频率、共振峰、线性预测系数、线性预测倒谱系数、Mel频率倒谱系数等语音特征参数被证实与情感(尤其是抑郁症状)密切相关，因此，可以通过对用户语音信号特征的分析，为抑郁症的临床诊断提供一种基于被试实际表现的客观参考。

发明内容

本发明提供一种基于语音特征与机器学习的抑郁症自动评估系统和方法，基于语音处理、特征提取、机器学习技术，通过寻找语音特征与抑郁症之间的联系，从而实现以非侵入式的方式客观评估被试是否抑郁的目的。

本发明的技术方案是：

1.一种基于语音特征与机器学习的抑郁症自动评估系统，其特征在于，包括(a)语音采集录音模块，用于对被试者施以不同的情绪语料刺激的同时，记录被试者的语音信息；(b)语音特征计算模块，用于对采集的语音信号进行预处理后，计算语音的声学特征；(c)语音数据库模块，包含用于语音特征有效性分析、分类器训练优化、系统分类率的相关数据；(d)机器学习模块，用语音数据库的数据进行语音特征与抑郁症的相关性分析，以确定有效特征的提取方式，并训练用于自动评估的分类器；(e)自动评估模块，提取被试者有效语音特征并进行抑郁程度分类，实现依据输入的语音样本自动评估被试者的抑郁程度。

2.所述语音采集录音模块包括录音设备，采集设备有电脑控制端、噪声计、监听耳机、音箱、麦克风、声卡、防喷罩、话筒支架；所述监听耳机、音箱、麦克风、声卡均连接至电脑；录音设备采用NEUMANN TLM102麦克风和采样率为44.1kHz、数据长度为24位的RMEFIREFACE UCX声卡；采集的录音数据以.WAV格式保存。

3.所述语音特征计算模块包含预处理模块，所述预处理模块包括依次连接的预加重、降噪、滤波模块，对采集的语音信号依次进行预加重、降噪和滤波处理；所述预加重模块采用k值为0.97的预加重滤波器，所述滤波模块采用通带频率为60～4500Hz的滤波器。

4.所述机器学习模块包括分类器，使用的分类器模型为支持向量机(SupportVector Machine，SVM)；SVM使用LIBSVM来实现，选取的核函数为RBF(Radial BasisFunction)。

5.所述语音数据库模块运行在本系统的计算机上，用Microsoft SQL Server实现；包含的数据为：语音文件的语音特征、人工诊断标签、分类器分类标签，该数据库只保存经过医生诊断的被试数据。

6.一种基于语音特征与机器学习的抑郁症自动评估方法，其特征在于，包括以下步骤：

1)语音信息采集录音获取语音样本：通过对被试者施以不同的情绪语料刺激的同时，使用录音设备记录被试者的语音信息；

2)语音特征计算获取语音特征集：语音样本通过预处理后，计算语音的声学特征；将经过医生诊断的语音声学特征，包含诊断结果一起存入语音数据库；没有经过医生诊断的被试语音样本则进入步骤4)；

3)依据存入语音数据库的语音声学特征进行机器学习，确定语音有效特征提取方式，训练用于自动评估的分类器；

4)提取有效特征并进行分类得出评估结论：提取出被试语音样本在评估抑郁症过程中最有效的语音特征，即有效特征；并通过训练好的分类器对提取的有效特征进行分类，实现依据输入的语音样本自动评估被试者的抑郁程度。

7.所述步骤1)中，包括以下步骤：首先测量现场噪音，排除噪声源，在噪声符合要求之后，开始语音采集；语音采集过程中分别施以不同的情绪语料刺激，包括“语音问答”、“文本朗读”、“图片描述”三个不同的实验情境。

8.所述步骤2)中，包括语音声学特征计算的步骤：第一步，将语音切分为帧，在单个语音帧中计算出局部声学特征；第二步，在多个语音帧之间，计算出统计学特征；第三步，若是已经过医生诊断的被试，将该被试的所有语音特征和人工诊断结果存入语音数据库；所述的特征提取算法包括但不限于：共振峰计算、有声段检测、MFCC、TEO、HNR、SNR、PPQ、APQ。

9.所述步骤3)中，包括特征有效性分析与分类器训练的步骤：第一步，使用语音样本库中的已有人工诊断结论的数据，先采用最小冗余最大相关的方式，去掉明显不相关的特征，从语音声学特征计算出的特征集中初步筛选出一个特征的子集，作为待选特征集；第二步，在待选特征集中，排除一个特征后，用剩余特征训练分类器，若分类率明显降低，则说明该特征有效，并重复第二步；多次循环，对待选特征集进行至少一次的遍历之后，保留下来的特征，即构成有效特征集；有效特征集包含的特征即为有效特征；通过所述步骤最终训练出的分类器，即为用于自动评估时使用的分类器。

10.所述步骤4)中，包括自动诊断的步骤：第一步，将没有人工诊断结果的被试语音样本，按照步骤3)确定的有效特征提取方式，计算出有效特征；第二步，将有效特征输入由步骤3)训练好的分类器，由分类器进行抑郁程度的分类；所述分类是指以两种标签：正常、抑郁进行分类。

本发明的技术效果：

本发明提供的一种基于语音特征与机器学习的抑郁症自动评估系统和方法，是结合了语音信号处理、特征计算与提取、模式识别的，具有一定学习能力的抑郁症自动筛查系统和方法。基于语音处理、特征提取、机器学习等技术，通过对用户语音信号特征的分析，通过语音采集、特征计算，并结合医生的诊断结论，抑郁症量表评分之后，能够通过寻找语音特征与抑郁症之间的联系，通过非侵入的方式，实现自动评估抑郁症的功能，可以为临床诊断提供基于客观标准的参考。

附图说明

图1是本发明的系统总体框架示意图。

图2是本发明的方法流程示意图。

图3是语音采集流程示意图。

图4是语音预处理流程示意图。

图5是语音声学特征计算和特征提取流程示意图。

图6是特征有效性分析与分类器训练流程示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细说明。

图1是本发明的系统总体框架示意图。一种基于语音特征与机器学习的抑郁症自动评估系统，包括(a)语音采集录音模块，用于对被试者施以不同的情绪语料刺激的同时，记录被试者的语音信息；(b)语音特征计算模块，用于对采集的语音信号进行预处理后，计算语音的声学特征；(c)语音数据库模块，包含用于语音特征有效性分析、分类器训练优化、系统分类率的相关数据；(d)机器学习模块，用语音数据库的数据进行语音特征与抑郁症的相关性分析，以确定有效特征的提取方式，并训练用于自动评估的分类器；(e)自动评估模块，提取被试者有效语音特征并进行抑郁程度分类，实现依据输入的语音样本自动评估被试者的抑郁程度。

其中，语音特征计算模块包含预处理模块，预处理模块包括依次连接的预加重、降噪、滤波模块，对采集的语音信号依次进行预加重、降噪和滤波处理；所述预加重模块采用k值为0.97的预加重滤波器，所述滤波模块采用通带频率为60～4500Hz的滤波器。语音采集录音模块的硬件部分包括录音设备，采集设备有电脑控制端、噪声计、监听耳机、音箱、麦克风、声卡、防喷罩、话筒支架；所述监听耳机、音箱、麦克风、声卡均连接至电脑；录音设备采用NEUMANN TLM102麦克风和采样率为44.1kHz、数据长度为24位的RME FIREFACE UCX声卡；采集的录音数据以.WAV格式保存。机器学习模块包含一个分类器，该分类器在本系统中的作用为，通过分类正确率对样本有效性做出检验，以及在自动评估模块中，对抑郁症做出诊断。本系统中采用了一种已被广泛应用的分类器：支持向量机(Support Vector Machine，SVM)，使用LIBSVM来实现，选取的核函数为RBF(Radial Basis Function)。训练和使用方式在下面说明，此处不再赘述。语音数据库模块运行在本系统的计算机上，用Microsoft SQLServer实现；包含的数据为：语音文件的语音特征、人工诊断标签、分类器分类标签，该数据库只保存经过医生诊断的被试数据。

图2是本发明的方法流程示意图。一种基于语音特征与机器学习的抑郁症自动评估方法，包括以下步骤：

3)依据语音数据库的语音声学特征进行机器学习，确定语音有效特征提取方式，训练用于自动评估的分类器；

4)提取有效特征并进行分类得出评估结论：提取出被试语音样本在评估抑郁症过程中最有效的语音特征，即有效特征；并通过训练好的分类器对提取的有效特征进行抑郁程度分类，实现依据输入的语音样本自动评估被试者的抑郁程度。

图3是语音采集流程示意图。该部分作用在于：为实验采集初始数据，收集用于后续算法需要的语音文件。在获取算法训练所需数据，以及对待诊断患者进行诊断时，该部分的硬件构成、操作步骤应尽量保持一致。

首先由主持测试的人员测量现场噪音，若现场噪音在60dB以下，则须排除噪声源，或等待噪声降低至55dB以下之后，再开始语音采集。

语音采集过程分为“语音问答”、“文本朗读”、“图片描述”三个模块，分别对应不同的实验情境，实验采集时按照被试的编号规则显现情绪材料。问题的语音播放完，“叮”声后自动开始录音。被试回答完毕，点击“结束回答”按钮停止录音。此时按钮变为“继续”，点击“继续”按钮进入保存界面。如此反复，直到语音文件全部录制完成。

本过程中各模块的内容为：

语音问答：包含9个问题，其中包含正向、中性、负向三种情绪的问题各3个。由主试提出问题之后，对被试的回答进行录音。

文本朗读：包含3段文字，分别带有正向、中性、负向三种情绪。主试发出开始提示后，被试朗读文本。

图片描述：包含6张图片，其中包含正向、中性、负向三种情绪的图片各2张，主试发出开始提示后，由被试描述图片内容。

语音样本保存：每一位被试的所有录音文件将保存在与被试编号相同的文件夹下。保存过程中不带有个人信息，仅保留用以区分的编号以及诊断结论(正常、抑郁或未经诊断)。其中带有诊断结论的语音样本经特征提取后，存入语音数据库。

对采集的语音信息进行语音特征提取与选择，是实现抑郁诊断的重要环节，在这之前，首先需要对采集的语音信息进行预处理。

图4是语音预处理流程示意图。预处理是本系统中算法的第一部分，对采集的语音信号依次进行预加重、降噪和滤波。该部分的作用在于：提高信号的信噪比，增强某些频段的信号以便提取特征，提高后续特征计算部分的稳定性与准确性等。该部分中包含的操作：

预加重：语音信号存在低频信号能量高于高频信号能量的特点，为更好地对语音信号进行分析，须适当加强高频部分的能量。本系统中采用了k值为0.97的预加重滤波器。

降噪：因现场存在的噪音不可能完全消除，以及录音设备本身电路中可能存在噪音等原因，必须对采集的音频信号进行滤波降噪后，再进行处理。该操作能够提高后续的特征提取等算法的稳定性与准确性，在本系统中采用的降噪方式为：将录音中无声段作为噪声样本，并以此为依据来去除录音中的背景噪声。

滤波：通常认为，人类语音的能量集中在200Hz～4000Hz的频段中。因此需要设计一个带通滤波器，用以保留有效信息。本系统中采用了通带频率为60～4500Hz的滤波器来完成这一处理。

对采集的语音信息预处理后，进行特征提取还包括进行语音声学特征计算的步骤。图5是语音声学特征计算和特征提取流程示意图。

由于语音原始信号数据量庞大，不可能直接输入分类器进行训练、分类等操作，必须对语音信号进行特征提取，在保留语音样本主要信息的同时降低数据量，才能进行后续处理。语音的特征可以分为声学特征和语义特征，但本系统在设计时，希望能通过语音提取出与语言无关的、能有效区分抑郁的普适性特征，故本系统只对声学特征进行了提取，而没有进行语义分析的工作。同样的，声学特征也可以分为两个大类：局部特征(Low-levelDescriptor，LLD)与统计学特征。在计算局部特征时，通常采用将语音切分为帧的方式，对单个语音帧进行计算。而统计学特征通常是在多个语音帧之间进行计算。

切分帧：为尽量保证特征计算的精度与时间分辨率，本系统采用的切分方式为，以10毫秒为切分步长，每次切分出一段时间长度为25毫秒的语音片段作为语音帧。切分采用的窗函数为hamming窗。

特征计算：本部分中，计算出总计1753个局部特征和统计学特征，采用的特征计算方法包含但不限于：共振峰计算、有声段检测、MFCC、TEO、HNR、SNR、PPQ、APQ等。由于采用的特征提取算法及特征数目太多，此处不再详述。

考虑到某些语音特征与抑郁症并无明显相关性，而这些特征的存在可能会干扰到最终对于抑郁症的诊断，因此，在提取了语音信号的大量特征后，还应根据语音样本所对应的诊断结果，对每个特征与抑郁症诊断结果之间进行相关性分析，以保证最终保留下来的特征对于抑郁症的诊断是最有效的。这一步骤的作用在于：去除不相关的、冗余或无用的特征；减少数据量，提高系统运行效率。同时，筛选出与抑郁症相关的有效特征，对抑郁症的相关研究工作也有一定的促进作用。

步骤3)中，包括特征有效性分析与分类器训练的步骤，图6是机器学习模块中的特征有效性分析与分类器训练流程示意图。有效特征提取工作分为两步：第一步，先采用最小冗余最大相关(minimal-redundancy-maximal-relevance，mRMR)的方式，去掉明显不相关的特征，从语音数据库中保存的语音特征中初步筛选出一个特征的子集，作为待选特征集。第二步，在待选特征集中，排除一个特征后，用特征子集去训练一个分类器，计算出该特征子集的分类率。若分类率明显降低，则说明该特征有效，应作为有效特征；若分类率不改变或升高，说明该特征为无效特征。多次重复第二步操作，对待选特征集进行至少一次的遍历之后，保留下来的特征，即构成有效特征集。

预筛选：采用mRMR方法，来初步提取出一个特征子集，作为有效特征集的待选集合。该方法具有速度快的优点，面对大量特征，能够很快筛选出与分类标签相关性较高且冗余度较小的有效特征。因此，将该方法作为特征提取的前置步骤。

精确筛选：图6中除去预筛选之外的所有部分均为精确筛选的步骤。该步骤采取的是序列前向浮动选择(Sequential Forward Floating Selection，SFFS)，即根据特征集与对应标签，训练一个分类器，并采用交叉排除验证(Leave-One-Out Cross-Validation，LOOCV)策略来验证每个特征与分类率之间的相关性。其实现方式为：使用待选特征集中的特征，训练一个分类器，并验证该分类器的分类率。然后，从待选特征集中排除一个特征，若分类率下降，则说明该特征是有效的特征，应将其作为一个有效特征，予以保留；若分类率上升或不改变，说明该特征为无效或冗余特征，将其从待选特征集中排除。最后，循环上述实现方式，直到满足下列两个条件：从待选特征集中排除任何一个特征，都会导致分类率下降；向待选特征集中添加任何一个特征，分类率都不会有明显提升。此时的待选特征集，即可视为最终筛选出的有效特征集。有效特征集中包含的特征，即为有效特征。在本系统用于抑郁症的诊断时，只需提取有效特征即可。而用于诊断时的分类器，也是本过程最后所训练得到的分类器。

最后，步骤4)中的自动诊断的步骤具体包括：第一步，将没有人工诊断结果的被试语音样本，按照步骤3)确定的有效特征提取方式，计算出有效特征；第二步，将有效特征输入由步骤3)训练好的分类器，由分类器进行抑郁程度的分类；具体分类是以两种标签：正常、抑郁进行了分类。

本文虽然已经给出了本发明的一些实施例，但是本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

2.根据权利要求1所述的系统，其特征在于，所述语音采集录音模块包括录音设备，采集设备有电脑控制端、噪声计、监听耳机、音箱、麦克风、声卡、防喷罩、话筒支架；所述监听耳机、音箱、麦克风、声卡均连接至电脑；录音设备采用NEUMANN TLM102麦克风和采样率为44.1kHz、数据长度为24位的RME FIREFACE UCX声卡；采集的录音数据以.WAV格式保存。

3.根据权利要求1所述的系统，其特征在于，所述语音特征计算模块包含预处理模块，所述预处理模块包括依次连接的预加重、降噪、滤波模块，对采集的语音信号依次进行预加重、降噪和滤波处理；所述预加重模块采用k值为0.97的预加重滤波器，所述滤波模块采用通带频率为60～4500Hz的滤波器。

4.根据权利要求1所述的系统，其特征在于，所述机器学习模块包括分类器，使用的分类器模型为支持向量机(Support Vector Machine，SVM)；SVM使用LIBSVM来实现，选取的核函数为RBF(Radial Basis Function)。

5.根据权利要求1所述的系统，其特征在于，所述语音数据库模块运行在本系统的计算机上，用Microsoft SQL Server实现；包含的数据为：语音文件的语音特征、人工诊断标签、分类器分类标签，该数据库只保存经过医生诊断的被试数据。

7.根据权利要求7所述的方法，其特征在于，所述步骤1)中，包括以下步骤：首先测量现场噪音，排除噪声源，在噪声符合要求之后，开始语音采集；语音采集过程中分别施以不同的情绪语料刺激，包括“语音问答”、“文本朗读”、“图片描述”三个不同的实验情境。

8.根据权利要求6或7所述的方法，其特征在于，所述步骤2)中，包括语音声学特征计算的步骤：第一步，将语音切分为帧，在单个语音帧中计算出局部声学特征；第二步，在多个语音帧之间，计算出统计学特征；第三步，若是已经过医生诊断的被试，将该被试的所有语音特征和人工诊断结果存入语音数据库；所述的特征提取算法包括但不限于：共振峰计算、有声段检测、MFCC、TEO、HNR、SNR、PPQ、APQ。

9.根据权利要求8所述的方法，其特征在于，所述步骤3)中，包括特征有效性分析与分类器训练的步骤：第一步，使用语音样本库中的已有人工诊断结论的数据，先采用最小冗余最大相关的方式，去掉明显不相关的特征，从语音声学特征计算出的特征集中初步筛选出一个特征的子集，作为待选特征集；第二步，在待选特征集中，排除一个特征后，用剩余特征训练分类器，若分类率明显降低，则说明该特征有效，并重复第二步；多次循环，对待选特征集进行至少一次的遍历之后，保留下来的特征，即构成有效特征集；有效特征集包含的特征即为有效特征；通过所述步骤最终训练出的分类器，即为用于自动评估时使用的分类器。

10.根据权利要求9所述的方法，其特征在于，所述步骤4)中，包括自动诊断的步骤：第一步，将没有人工诊断结果的被试语音样本，按照步骤3)确定的有效特征提取方式，计算出有效特征；第二步，将有效特征输入由步骤3)训练好的分类器，由分类器进行抑郁程度的分类；所述分类是指以两种标签：正常、抑郁进行分类。