CN111667848A

CN111667848A - 一种用于监测躁狂发作的语音特征提取方法

Info

Publication number: CN111667848A
Application number: CN201910170519.7A
Authority: CN
Inventors: 崔东红; 杜礼钊; 林奥
Original assignee: Shanghai Integrated Medical Research Institute Co ltd
Current assignee: Shanghai Integrated Medical Research Institute Co ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2020-09-15
Anticipated expiration: 2039-03-07
Also published as: CN111667848B

Abstract

本发明公开了一种用于监测躁狂发作的语音特征提取方法，属于语音处理技术领域。它包括以下步骤：(1)使用谱熵法对语音信号进行端点检测；(2)使用倒谱法进行语音信号基音pitch提取；(3)使用平均能量进行有音段识别；(4)监测躁狂发作结果。能够通过对语音信号的特征提取，得到语音信号中基音“pitch”和停顿时间“PT”，根据pitch和PT能够反映人是否“情绪高涨”和“健谈”的关系，以及情绪、健谈与躁狂症状的内在联系，与正常状态的pitch和PT进行比较，作为判断躁狂是否发作的两项监测指标。

Description

一种用于监测躁狂发作的语音特征提取方法

技术领域

本发明涉及一种用于监测躁狂发作的语音特征提取方法，属于语音处理技术领域。

背景技术

双相情感障碍是一种以躁狂症和抑郁症发作为特征的复杂情绪障碍。根据世界卫生组织的世界心理健康调查，全球超过1％的人口患有双相情感障碍，其对患者的生活影响居第二位。双相情感障碍患者的死亡率和自杀率都比一般人群高得多：其中自杀率甚至高出20倍。与双相情感障碍的另一极——抑郁发作相比，躁狂患者疾病发作时往往不计后果，更容易做一些冒险的事情：例如随意投资、鲁莽驾驶等。这些冲动的行为轻则导致不良的家庭、社会关系，重则可能引起各种事故甚至对他人生命直接造成威胁。躁狂患者发作时的极大破坏性使其成为公共卫生的健康和安全中的一个重点问题。然而，因为其发病机制不明确且缺乏生物标志物，躁狂症(双相情感障碍)的诊断准确性、治疗效果和预后都不尽人意。因此，基于其高发、难诊断、难治愈易复发的特点及目前的研究现状，检测躁狂发作的客观指标是迫切需要的。然而，当前试图寻找发现或预测躁狂症状发作的研究相对来说很少。主要方法是通过问卷分析，或者和患者及其直系亲属访谈。这两种方法都是必须依靠采访者或者访谈者的先验知识进行主观判断的方法，无法脱离专业人员的系统理论和实践所得的知识，更不能实现实时分析，这就意味着这些方法即便在临床和研究上有一定的意义，但是在具体应用中是不可行的。而在此两种方法之外，还有一种方法值得尝试——躁狂患者的语音分析。

语音信号是与情绪波动相关的主要客观生物标志物之一，而情绪的波动正是双相情感障碍的主要特征。根据国际疾病分类标准(International Classification ofDiseases),在双相情感障碍的所有症状中，最基本的就是情绪的变化或影响，通常是抑郁(伴有或不伴有焦虑)或兴奋。因此，语音信号处理(SSP)是一种有效、客观的诊断躁狂症状的方法。

基于SSP的研究多采用机器学习的方法进行躁狂状态检测。这类方法一般是先提取足够的语音特征，再使用支持向量机和高斯混合模型等分类器对患者的躁狂状态进行识别判断。然而，由于机器学习的结果往往是根据最大概率进行判断，即在“是”与“否”之间直接进行选择，结果的可靠性可能会是个问题。除此之外，机器学习的结果是所有选取的特征进行分类之后得到的一个概率，特征之间的重要性无法有效衡量。而在临床上，医生更希望能够看到像血压一样特定的特征指标随时间变化的情况。这是因为这样的特征是有效的，直观的，针对性的。在精神疾病诊断与统计手册第五版中，躁狂发作“被定义为一个持续至少1周，且几乎每天都发生的情绪高涨、健谈或易怒，目标导向的活动或精力异常持续增加的明显异常的时期”。对应的，语音信号处理中的两个基本参数，语音信号基音“pitch”和停顿时间“PT”一般能够反映“情绪高涨”和“健谈”。pitch是SSP中最重要的特征之一，与情绪表达密切相关。它是“声音的基本频率的一个基本属性，由其声波波形的时间规律性和平均重复率决定”。这里的PT指的是整个对话中所有停顿部分(没有语音信号或者说语音信号近乎为0)的时间的比例。因此，当病人更健谈时，PT应该比正常时小。

相比于正常状态，躁狂状态的患者应该有更大的pitch和PT。因此,本技术方案主要是提取语音信号中基音“pitch”和停顿时间“PT”，并与正常状态做比较，达到监测躁狂症发作的目的。

发明内容

本发明所要解决的技术问题在于：提供一种用于监测躁狂发作的语音特征提取方法，它解决了基于语音特征提取来监测躁狂发作的问题。

本发明所要解决的技术问题采取以下技术方案来实现：

一种用于监测躁狂发作的语音特征提取方法，它包括以下步骤：

(1)使用谱熵法对语音信号进行端点检测

设语音信号时域波形为x(i)，加窗分帧处理后得到的第n帧语音信号为x_n(m)，其傅里叶变换(FFT)表示为x_n(k)，其中下标n表示为第n帧，而k表示为第k条谱线，该语音帧在频域中的短时能量为：

公式(1)中，N为FFT的长度，只取正频率部分；

而对于某一谱线k的能量谱为

则每个频率分量的归一化谱概率密度函数定义为：

该语音帧的短时谱熵定义为：

设置判别门限值，将语音中的各帧的谱熵值与门限值进行比较，即可得到端点信息；

(2)使用倒谱法进行语音信号基音pitch提取

pitch是语音信号中最基本的指标之一，基于语音x(i)是由声门脉冲激励u(i)经声道响应v(i)滤波而来的原理，有：

x(i)＝u(i)+v(i) (4)

分别对x(i)、u(i)和v(i)进行倒谱变换，可得：

在倒谱中

和

相对分离，可以在倒谱中分离出

然后再恢复出u(i)，进而求得pitch，在计算出倒谱后，在倒频率中寻找倒谱函数最大值，其对应的样本点数就是当前帧语音信号的pitch；

(3)使用平均能量进行有音段识别

储存的语音信号为振幅随时间变化的函数，对所有样本点进行求能量之后求和，再除以数据样本数，即可得到平均能量，再将此平均能量与试验测试标记出的有音段和无音段的平均能量进行比较，大于阈值的记为有音段，否则为无音段，PT等于无音段时间与该段对话总时间之比；

(4)监测躁狂发作结果

将提取的语音信号中基音pitch，与正常状态的基音pitch对比，画出随时间变化图，当两者明显分离时，作为躁狂发作的一个指标，当停顿时间PT小于正常状态PT设定值，则作为躁狂发作的另一个指标。而对于停顿时间，以及正常状态PT设定值，则必须统计所有人的数据并进行T检验。

本发明的有益效果是：能够通过对语音信号的特征提取，得到语音信号中基音“pitch”和停顿时间“PT”，根据pitch和PT能够反映人是否“情绪高涨”和“健谈”的关系，以及情绪、健谈与躁狂症状的内在联系，与正常状态的pitch和PT进行比较，作为判断躁狂是否发作的两项监测指标。

附图说明

图1为本发明实施例1躁狂状态和正常状态的pitch值随时间变化图；

图2为本发明实施例2躁狂状态和正常状态的pitch值随时间变化图；

图3为本发明实施例3躁狂状态和正常状态的pitch值随时间变化图。

具体实施方式

为了对本发明的技术手段、创作特征、达成目的与功效易于明白了解，下面进一步阐述本发明。

(1)使用谱熵法对语音信号进行端点检测

公式(1)中，N为FFT的长度，只取正频率部分；

而对于某一谱线k的能量谱为

则每个频率分量的归一化谱概率密度函数定义为：

该语音帧的短时谱熵定义为：

(2)使用倒谱法进行语音信号基音pitch提取

x(i)＝u(i)+v(i) (4)

分别对x(i)、u(i)和v(i)进行倒谱变换，可得：

在倒谱中

和

相对分离，可以在倒谱中分离出

(3)使用平均能量进行有音段识别

(4)监测躁狂发作结果

如图1-图3所示，实施例1-3的图中上方为躁狂状态的pitch值，下方为正常状态的pitch值，从图中能够看到躁狂状态的pitch值与正常状态的pitch值出现明显分离现象，能够作为判断躁狂是否发作的一个指标。

可以发现pitch能够将患者的躁狂状态和正常状态区分开。值得注意的是，语音信号必须要有足够的长度才能够检测到这个特点，躁狂状态和正常状态的pitch在一开始可能处于相同或者相似的水平，但随着时间的增加其差异逐渐表现出来，pitch就能够检测出此差异。

下表为两种状态下停顿时间对比及相应的P值：

状态	正常	躁狂	P值
				停顿/总长	0.4987±0.1161	0.3638±0.0966	0.00028685

在上表中，患者在躁狂状态下的停顿时间所占比例为0.3638(0.0966)，明显低于正常状态下的0.4987(0.1161)。P值是用来判定假设检验结果的一个参数，也可以根据不同的分布使用分布的拒绝域进行比较。P值越小，表明结果越显著。

本技术方案能够通过对语音信号的特征提取，得到语音信号中基音“pitch”和停顿时间“PT”，根据pitch和PT能够反映人是否“情绪高涨”和“健谈”的关系，以及情绪、健谈与躁狂症状的内在联系，与正常状态的pitch和PT进行比较，作为判断躁狂是否发作的两项监测指标。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入本发明要求保护的范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于监测躁狂发作的语音特征提取方法，其特征在于，它包括以下步骤：

(1)使用谱熵法对语音信号进行端点检测

公式(1)中，N为FFT的长度，只取正频率部分；

而对于某一谱线k的能量谱为

则每个频率分量的归一化谱概率密度函数定义为：

该语音帧的短时谱熵定义为：

(2)使用倒谱法进行语音信号基音pitch提取

x(i)＝u(i)+v(i)(4)

分别对x(i)、u(i)和v(i)进行倒谱变换，可得：

在倒谱中

和

相对分离，可以在倒谱中分离出

(3)使用平均能量进行有音段识别

(4)监测躁狂发作结果

将提取的语音信号中基音pitch，与正常状态的基音pitch对比，画出随时间变化图，当两者明显分离时，作为躁狂发作的一个指标，当停顿时间PT小于正常状态PT设定值，则作为躁狂发作的另一个指标。