CN112927722B

CN112927722B - 基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统

Info

Publication number: CN112927722B
Application number: CN202110100118.1A
Authority: CN
Inventors: 朱廷劭; 刘晓倩; 汪晓阳; 狄雅政
Original assignee: Institute of Psychology of CAS
Current assignee: Institute of Psychology of CAS
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2022-11-25
Anticipated expiration: 2041-01-25
Also published as: CN112927722A

Abstract

本发明公开了一种基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统，采集多位个体的自我介绍语音数据和抑郁指标量表得分，使用opensmile开源库，对所采集的语音数据进行语音特征提取，保存用于提取语音特征的可执行文件；将所提取的语音特征标准化为正态分布，保存数据预处理模型；在数据预处理模型中选择用于识别抑郁指标的关键语音特征，保存特征选择模型；将选择后的关键语音特征和抑郁指标量表得分输入回归模型中，得到语音识别模型，保存语音识别模型；将可执行文件、数据预处理模型、特征选择模型和语音识别模型进行封装，形成基于个体语音分析的抑郁感知系统。本发明避免社会赞许性和个体掩饰等影响，规避问卷法进行抑郁水平测量的缺陷。

Description

基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统

技术领域

本发明涉及情绪感知技术领域，具体涉及一种基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统。

背景技术

抑郁对个体的生活和工作有很大影响，在求职、入学或心理疾病的诊断等应用场景下会存在对抑郁评估的需求。问卷是目前测量个体抑郁水平的主要方式之一，在学术研究或实际应用中都有较为广泛的使用，在个体抑郁水平的测量上表现了很好的有效性和稳定性。然而问卷测量也有一些不可忽视的缺陷，第一，由于问卷依赖自我报告，在某些场景下，个体可能会因为社会赞许性或希望获得更多机会等原因掩饰真实想法，而选择更贴近提供问卷者需求的答案。第二，问卷具有时效性，通常可以测量被试特定时间段内的心理状态，如果需要跟踪个体较长时间内的心理状态变化，需要多次填写问卷，但是多次填写问卷可能导致个体对问卷的熟悉性，产生练习效应而影响对被试抑郁水平变化的识别。

发明内容

为了解决基于心理测量的问卷方法受社会赞许性影响、耗时耗力和问卷的练习效应等问题，实现对人们心理情绪状况的准确预测，为此，本发明提供了一种基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统，由于语音识别个体抑郁水平可以避免社会赞许性和个体掩饰的影响，也会减少练习效应的影响，可以较好地规避问卷法进行抑郁水平测量的缺陷。

本发明采用如下技术方案：

一方面，本发明提供了一种基于个体语音分析的抑郁感知系统建立方法，所述建立方法如下：

步骤1，分别采集多位个体的自我介绍语音数据和对应的抑郁指标量表得分；

步骤2，使用opensmile开源库，对所采集到的语音数据进行语音特征提取，保存用于提取语音特征的可执行文件；

步骤3，将步骤2中所提取的语音特征标准化为正态分布，保存数据预处理模型；

步骤4，在数据预处理模型中选择用于识别抑郁指标的关键语音特征，保存特征选择模型；

步骤5，将选择后的关键语音特征和抑郁指标量表得分输入回归模型中，得到语音识别模型，保存语音识别模型；

步骤6，将上述步骤中所保存的可执行文件、数据预处理模型、特征选择模型和语音识别模型进行封装，形成基于个体语音分析的抑郁感知系统。

所述步骤1中采用抑郁自评量表(PHQ-9)对每名被试进行测评，再由每名被试录制一段自我介绍，截取每名被试60s音频片段，得到每名被试时长为60s的自我介绍音频和对应的量表评分。

所述步骤1中要求被试进行3分钟自我介绍，采用录音装置进行录制，保存为32位的wav波文件，并从波文件中截取时长为60s的连续音频片段作为语音数据。

所述步骤2中采用eGeMAPS特征集对所采集到的语音数据进行特征提取，得到包含8个频率相关特征、3个能量特征和14个谱特征的共计25个语音特征，经对所提取的25个语音特征进行统计计算，得到88维特征。

所述步骤4中，使用标准化的特征数据和量表得分有监督地选择特征和量表得分之间F值最大的30维特征，作为用于识别抑郁指标的关键语音特征，其中F值的计算公式如下：

X为特征值列表，Y为量表得分列表；n为特征值的自由度，m为量表得分的自由度。

所述步骤5中，将每名被试的识别抑郁指标的30维关键语音特征数据和量表得分输入lasso回归中，使用网格搜索方法进行调参，以保存5折交叉验证得到的预测值和量表得分的皮尔逊相关系数的平均值最大的语音识别模型。

另一方面，本发明还提供了一种基于个体语音分析的抑郁感知系统，包括录音装置和数据处理装置，所述数据处理装置中包括数据输入模块、预测模型和输出模块；所述预测模型中内置有可执行文件、数据预处理模型、特征选择模型和语音识别模型，所述输入模块用于接收所述录音装置录制的音频片段，所述可执行文件用于提取音频片段中的语音特征；所述数据预处理模型用于将所提取的语音特征标准化为正态分布，并通过特征选择模型选出关键语音特征，所述语音识别模型识别出对应关键语音特征所对应的抑郁指标得分，并通过所述输出模块输出。

所述录音装置为录音笔、MP3、ipad，手机或计算机。

本发明技术方案具有如下优点：

本发明通过录制多位被试个体自我介绍音频，建立与抑郁指标量表相对应的预测模型，通过音频数据中语音特征进行提取和预处理，选择出对抑郁心理指标最为关键的语音特征，通过对多位被试选择出的语音特征和对应量表得分进行回归计算，得到语音识别模型并封存到系统中，在系统中输入语音数据即可输出抑郁指标得分，根据得分对被试抑郁感知能力进行评估。相比于传统的问卷测量，本发明可以避免社会赞许性和练习效应的影响，且较为省时省力，可以广泛应用于入职、入学、学术研究、心理健康监测和其他需要测量被试抑郁水平及抑郁水平变化的心理测量场景。

附图说明

为了更清楚地说明本发明具体实施方式，下面将对具体实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于个体语音分析的抑郁感知系统建立方法流程图；

图2为本发明所提供的抑郁感知系统结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于个体语音分析的抑郁感知系统建立方法，包括如下步骤：

【S1】分别采集多位个体的自我介绍语音数据和对应的抑郁指标量表得分。

通过招募被试，控制男性女性数据大致均衡。被试签署知情同意书后，请被试填写心理测量量表。数据采集过程中使用的量表为抑郁自评量表(PHQ-9)。填写量表后，被试根据要求进行3分钟自我介绍，自我介绍的内容包括但不限于：1)请介绍一下你自己，并详细的介绍一下你的家乡。2)请详细介绍你的专业，你在读书期间的研究工作。3)请介绍一下你对未来的规划，想从事什么样的工作。在自我介绍的过程中使用录音装置，比如录音笔进行录制，保存为32位的wav波文件，波文件优选截取中间音频段1:00-2:00共60s音频片段作为语音数据。最终每名被试得到一段时长为60s的自我介绍音频和抑郁指标量表的评分，当然还可以截取超过1分钟或低于1分钟的音频片段。

【S2】使用opensmile开源库，对所采集到的语音数据进行语音特征提取，保存用于提取语音特征的可执行文件。

使用opensmile开源库对被试的语音数据进行特征提取，使用的特征集为eGeMAPS特征集，包括8个频率相关特征(基音F0的对数值、单个连续基音周期内的偏差、前三个共振峰的中心频率和前三个共振峰的带宽)、3个能量特征(相邻基音周期间振幅峰值之差、从频谱中得到的声音强度的估计和信噪比)和14个谱特征(Alpha Ratio(50-1000Hz的能量和除以1-5kHz的能量和)、Hammarberg Index(0-2kHz的最强能量峰除以2-5kHz的最强能量峰)、Spectral Slope 0-500Hz and 500-1500Hz(对线性功率谱的两个区域0-500Hz和500-1500Hz做线性回归得到的两个斜率)、Formant 1,2,and 3relative energy(前三个共振峰的中心频率除以基音的谱峰能量)、Harmonic difference H1-H2(第一个基音谐波H1的能量除以第二个基音谐波的能量)、Harmonic difference H1-A3(第一个基音谐波H1的能量除以第三个共振峰范围内的最高谐波能量)、梅尔频率倒谱系数第1-4个和Spectral flux(两个相邻帧的频谱差异))共25个特征。分别对这25个特征求如下的统计学特征：

(1)对【基音F0的对数值，从频谱中得到的声音强度的估计】2个特征在浊音区计算算术平均、变异系数、20百分位数、50百分位数、80百分位数、20百分位数和80百分位数之间的差值、上升信号斜率的均值和标准差和下降信号斜率的均值和标准差共20个统计学特征；

(2)对【Alpha Ratio，Hammarberg Index，Spectral Slope 0-500Hz and500-1500Hz】4个特征在浊音区计算算术平均和变异系数，在清音区计算算数平均，共得到12个统计学特征；

(3)对【梅尔频率倒谱系数第1-4个】4个特征求全音区和浊音区上的算术平均值和变异系数；对【armonic difference H1-H2】2个特征求浊音区上的算术平均和变异系数；对【Spectral flux】求全音区上的算术平均和变异系数，浊音区上的算术平均和变异系数，以及清音区上的算术平均；共25个统计学特征；

(4)对剩余12个特征求浊音区上的算术平均和变异系数，共24个统计学特征。

(5)另外求每秒共振峰个数、连续浊音区的平均长度和标准差、连续清音区的平均长度和标准差、每秒浊音区个数和等效声级共7个统计学特征。

最终25个特征共得到88维统计学特征，保存特征提取的可执行文件。

【S3】将【S2】中所提取的语音特征标准化为正态分布，保存数据预处理模型。对每名被试的语音数据提取的88维特征进行标准化，使转换后的特征数据符合标准正态分布，这里优选88维特征，当然还可以采用提取其它维数语音数据进行的标准化。

【S4】在数据预处理模型中选择用于识别抑郁指标的关键语音特征，保存特征选择模型。使用标准化的特征数据和量表的得分有监督地选择特征和量表得分之间F值最大的30维特征，作为识别抑郁指标的“关键特征”，并保存特征选择模型，当然，这里不限于30维特征。

其中F值的计算公式如下：

【S5】将选择后的关键语音特征和抑郁指标量表得分输入回归模型中，得到语音识别模型，保存语音识别模型。

将每个心理指标的30维特征数据和对应量表得分输入lasso回归模型中，使用网格搜索的方法进行调参，并保存5折交叉验证得到的预测值和量表得分的皮尔逊相关系数的平均值最大的模型。这里的lasso回归模型和网格搜索方法均为现有技术，这里不再对其原理进一步描述。

【S6】将上述步骤中所保存的可执行文件、数据预处理模型、特征选择模型和语音识别模型进行封装，形成基于个体语音分析的抑郁感知系统。实现输入个体语音数据，输出抑郁指标的得分。

应用例：

在一次实验中，本发明的提出者招募了238名被试，其中男性：女性＝46：53。在实验过程中，被试先填写个人信息问卷和PHQ-9量表，然后在一个安静的屋子中进行约1分半的自我介绍。在自我介绍的过程中，主试使用录音笔录制被试的自我介绍音频。得到被试自我介绍音频和量表得分后，本发明的提出者对音频进行数据预处理和音频特征提取，得到被试的音频特征文件。然后将音频特征输入本发明的回归模型，得到被试的预测分数。最后计算模型预测分数与量表得分之间的相关系数，得到相关系数约0.4，能够达到了中等以上相关。

如图2所示，本发明还提供了一种基于个体语音分析的抑郁感知系统，包括录音装置和数据处理装置，数据处理装置中包括数据输入模块、预测模型和输出模块；预测模型中内置有可执行文件、数据预处理模型、特征选择模型和语音识别模型，输入模块用于接收所述录音装置录制的音频片段，可执行文件用于提取音频片段中的语音特征；数据预处理模型用于将所提取的语音特征标准化为正态分布，并通过特征选择模型选出关键语音特征，语音识别模型识别出对应关键语音特征所对应的抑郁指标得分，并通过输出模块输出，这里的输出模块可以为显示屏等触控屏体结构。数据处理装置为具有一定数据运算功能的计算机等，录音装置为录音笔、MP3、ipad，手机或计算机等，这里优选录音笔。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种基于个体语音分析的抑郁感知系统建立方法，其特征在于，所述方法包括如下步骤：

步骤2，使用opensmile开源库，采用eGeMAPS特征集对所采集到的语音数据进行语音特征提取，得到包含8个频率相关特征、3个能量特征和14个谱特征的共计25个语音特征，经对所提取的25个语音特征进行统计计算，得到88维特征，保存用于提取语音特征的可执行文件；

步骤4，在数据预处理模型中选择用于识别抑郁指标的关键语音特征，保存特征选择模型；使用标准化的特征数据和量表得分有监督地选择特征和量表得分之间F值最大的30维特征，作为用于识别抑郁指标的关键语音特征，其中F值的计算公式如下：

X为特征值列表，Y为量表得分列表；n为特征值的自由度，m为量表得分的自由度；

2.根据权利要求1所述的基于个体语音分析的抑郁感知系统建立方法，其特征在于，所述步骤1中采用抑郁自评量表PHQ-9对每名被试进行测评，再由每名被试录制一段自我介绍，截取每名被试60s音频片段，得到每名被试时长为60s的自我介绍音频和对应的量表评分。

3.根据权利要求2所述的基于个体语音分析的抑郁感知系统建立方法，其特征在于，所述步骤1中要求被试进行3分钟自我介绍，采用录音装置进行录制，保存为32位的wav波文件，并从波文件中截取时长为60s的连续音频片段作为语音数据。

4.根据权利要求1所述的基于个体语音分析的抑郁感知系统建立方法，其特征在于，所述步骤5中，将每名被试的识别抑郁指标的30维关键语音特征数据和量表得分输入lasso回归中，使用网格搜索方法进行调参，以保存5折交叉验证得到的预测值和量表得分的皮尔逊相关系数的平均值最大的语音识别模型。

5.一种利用权利要求1所述基于个体语音分析的抑郁感知系统建立方法建立的抑郁感知系统，其特征在于，包括录音装置和数据处理装置，所述数据处理装置中包括数据输入模块、预测模型和输出模块；所述预测模型中内置有可执行文件、数据预处理模型、特征选择模型和语音识别模型；

所述数据输入模块，用于接收所述录音装置录制的音频片段；

所述可执行文件，用于提取音频片段中的语音特征；

所述数据预处理模型，用于将所提取的语音特征标准化为正态分布

并通过特征选择模型选出关键语音特征，所述语音识别模型识别出对应关键语音特征所对应的抑郁指标得分，并通过所述输出模块输出。

6.根据权利要求5所述的抑郁感知系统，其特征在于，所述录音装置为录音笔、MP3、ipad，手机或计算机。