CN103730130A

CN103730130A - 一种病理嗓音的检测方法和系统

Info

Publication number: CN103730130A
Application number: CN201310713471.2A
Authority: CN
Inventors: 刘珊珊; 燕楠; 王岚; 王知践
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2014-04-16
Anticipated expiration: 2033-12-20
Also published as: CN103730130B

Abstract

本发明适用于嗓音检测技术领域，提供了一种病理嗓音的检测方法，包括以下步骤：采集待检测病人的语音；将采集到的语音信号进行特征参数的提取和选择；将优化的参数进入构建好的分类器模型进行障碍等级评估；输出检测到的嗓音障碍分级结果。本发明使用计算机以及科学的评断标准，采用专业的语音处理算法，能够部分或者完全代替医生对患者进行诊断，其结果作为医生的诊断参考，最大程度的降低了诊断过程的偶然性。另外，本发明操作简单，使用方便，诊断正确率高，一般的医务人员通过简单培训均可掌握，一定程度上弥补了偏远地区及小城市医疗资源的不足，使患者可以就近确诊疾病，尽早治疗。再者，本发明为嗓音障碍提供了一种明确的、量化的分级方式，在病人治疗过程中的每个阶段都有相应的数据记载，医生通过这些数据可以完全跟踪了解病情，最大程度保障患者治疗过程。

Description

一种病理嗓音的检测方法和系统

技术领域

本发明属于嗓音检测技术领域，尤其涉及一种病理嗓音的检测方法、系统及计算机。

背景技术

语言是人类交往必不可少的工具，与人类的生活密切相关。嗓音的损害将直接影响一个人的表达能力，甚至影响到人与人之间的交流。据报道，随着社会交往日益频繁，嗓音疾病的发病率也逐年增高，约占耳鼻喉科疾病的5%-10%，其中约30%的人存在不健康用嗓问题，这也引起了人们对嗓音障碍的重视。早期发现嗓音病变可以将病人的痛苦以及经济负担降到最低。

目前对嗓音的检测，应用最为广泛的是依靠医生主观评判的嗓音听感知评估。但是由于在评估的过程中受评委之间的差异、评委对声音的感知、把握能力以及评委的经验等多个主观因素的影响，使得这种方式非常适用于区分正常嗓音和重度嘶哑嗓音，并不特别适用于对嗓音障碍的等级进行细分。目前国际上常用的嗓音障碍等级的细分方法包括GRBAS、布法罗嗓音测验图(the BuffaloVoice Profile,BVP)和嗓音测验分析略图(Vocal Profile Analysis scheme,VPA)三种主观分类方法，其中以日本言语语音学会提出的GRBAS法应用最为广泛。由于病理嗓音的描述是一个非常复杂的过程，上诉几种评估方法虽然非常有效，但仍存在很大的主观成分，缺少一种客观的评价方法。

另外，在医生诊断过程中，由于患者的自身条件不同、诊断环境的影响以及医生业务水平及状态的不同，致使诊断过程存在很大的偶然性。一旦误诊，会给病人及其家庭带来身体和经济上的双重痛苦。

再者，优质的医疗资源往往分布在沿海及省会等发达城市，偏远地区以及一些小城市由于专业医生以及医疗资源缺乏甚至不具备嗓音疾病的诊疗手段，即使患者想确诊疾病也必须花费更多的精力和金钱到大城市才能进行。

又，传统的嗓音障碍临床记载均是一些模糊的文字描述，一旦病人转院，就有可能造成病人信息的不准确传递甚至曲解。

发明内容

本发明的目的在于提供一种病理嗓音的检测方法、系统及计算机，旨在解决现有技术中存在的依靠医生主观评判嗓音容易造成误诊，给病人及其家庭带来身体和经济上的双重痛苦的问题。

本发明是这样实现的，一种病理嗓音的检测方法，所述方法包括以下步骤：

采集待检测病人的语音；

将采集到的语音信号进行特征参数的提取和选择；

将优化的参数进入构建好的分类器模型进行障碍等级评估；

输出检测到的嗓音障碍分级结果。

本发明的另一目的在于提供一种病理嗓音的检测系统，所述系统包括：

采集模块，用于采集待检测病人的语音；

提取和选择模块，用于将采集到的语音信号进行特征参数的提取和选择；

分类器模块，用于将优化的参数进入构建好的分类器模型进行障碍等级评估；

输出模块，用于输出检测到的嗓音障碍分级结果。

本发明的另一目的在于提供一种包括上面所述的病理嗓音的检测系统的计算机。

在本发明中，本发明在经典的特征提取参数的基础上，采用了能更加描述病理嗓音的不规律性的方法，在量化信噪比方面增加了新的参数，并采用了非线性参数对经典参数进行补充，还可以根据不同的需求选择不同的特征参数构建训练模型。而且，本发明还利用倒谱技术，提取了倒谱类参数。对提取的参数进行优化选择，建立回归分析模型，把评估结果数据化，从而更好的自动检测病理语音，达到在早期发现听觉不能感知的病理嗓音的目的。此外还可以用来评价治疗嗓音障碍患者手术的治疗效果以及区分不同治疗方法的好坏。本发明使用计算机以及科学的评断标准，采用专业的语音处理算法，能够部分或者完全代替医生对患者进行诊断，其结果作为医生的诊断参考，最大程度的降低了诊断过程的偶然性。另外，本发明操作简单，使用方便，诊断正确率高，一般的医务人员通过简单培训均可掌握，一定程度上弥补了偏远地区及小城市医疗资源的不足，使患者可以就近确诊疾病，尽早治疗。再者，本发明为嗓音障碍提供了一种明确的、量化的分级方式，在病人治疗过程中的每个阶段都有相应的数据记载，医生通过这些数据可以完全跟踪了解病情，最大程度保障患者治疗过程。

附图说明

图1是本发明实施例提供的病理嗓音的检测方法的实现流程示意图。

图2是本发明实施例提供的病理嗓音的检测系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，采用了能更加描述病理嗓音的不规律性的方法，在量化信噪比方面增加了新的参数，并采用了非线性参数对经典参数进行补充，还可以根据不同的需求选择不同的特征参数构建训练模型。而且，本发明实施例还利用倒谱技术，提取了倒谱类参数。对提取的参数进行优化选择，建立回归分析模型，把评估结果数据化，从而更好的自动检测病理嗓音，达到在早期发现听觉不能感知的病理嗓音的目的。此外还可以用来评价治疗嗓音障碍患者手术的治疗效果以及区分不同治疗方法的好坏。

请参阅图1，为本发明实施例提供的病理嗓音的检测方法的实现流程，其包括以下步骤：

在步骤S101中，采集待检测病人的语音；

在本发明实施例中，采集所要评估对象的原始语音信号，用采集合理的语音所提取出来的参数可以更好的反映被评估者的语音质量。用一致的长持续稳态元音作为测试语料进行分析。

在步骤S102中，将采集到的语音信号进行特征参数的提取和选择；

在本发明实施例中，利用逆滤波算法，利用倒谱分析算法，以及非线性参数分析算法来对采集到的语音信号进行分析，便可得到反映病理嗓音患者特征的参数。

在本发明实施例中，采用Least Absolute Shrinkage and SelectionOperator(LASSO)，Minimum Redundancy Maximum Relevance(mRAR)和RELIEF算法对特征参数提取出来的特征参数进行优化，选择出最能体现病理嗓音特征、信息量最大的参数。

在步骤S103中，将优化的参数进入构建好的分类器模型进行障碍等级评估；

在步骤S104中，输出检测到的嗓音障碍分级结果。

在本发明实施例中，将检测到的嗓音障碍分级结果以界面的形式输出。

在本发明实施例中，构建分类器模型的步骤，具体为：

在步骤S201中，建立病理样本嗓音数据库；

在本发明实施例中，构音障碍患者发音时其声带振动的规律性和闭合程度要低于正常发音者，此外，由于患者在发音时的抖动等因素，其语音中噪声部分比重较大。研究发现，元音在发音时能很好的反映出声带振动情况，因此用元音作为测试材料可以很好的评估患者的障碍严重程度。声音样本的采集要采用统一的录制设备和测量方法。本发明实施例采用采样频率为48kHz、精度16bit的设备进行录音，采集患者以正常音调和音强下发出持续的稳态元音[a:]，选出被试者在频率和振幅上最稳定的语音作为分析的语音材料。

在步骤S202中，对建立的病理样本嗓音数据库进行特征参数的提取和选择；

在本发明实施例中，在经典的特征提取方法基础上，利用逆滤波方法，使用更多能量化嗓音能量的参数，利用倒谱分析方法来提取特征参数，此外，还提取了非线性参数对传统的特征参数进行补充。

在本发明实施例中，用特征选择的方法对提取的特征参数进行筛选，选择出信息量较大、更有意义的参数集。

在步骤S203中，根据特征选择出来的参数和病理嗓音严重程度等级的关系进行多元回归分析，构建分类器模型。

在本发明实施例中，特征参数的提取具体为：

传统的描述语音质量的参数有：基音频率（F0），用来表示每秒钟声带振动的次数；频率微扰（Jitter），反映声波相邻周期间频率的变化；振幅微扰(Shimmer)，反映声波相邻周期间振幅的变化。频率微扰和振幅微扰是反映声带振动的稳定性的两个参数。传统的用来量化语音信号的能量噪声比重的参数有谐噪比（Harmonics to Noise Ratio，HNR）和噪谐比（Noise to Harmonics Ratio，NHR）等。

下面重点介绍在传统的提取特征参数的基础上使用的新的特征参数：

第一类是量化能量噪声比的参数：

Empirical Mode Decomposition Excitations Ratios（EMD-ER）:使复杂信号分解为有限个本征模函数（Intrinsic Mode Function，简称IMF），所分解出来的各IMF分量包含了原信号的不同时间尺度的局部特征信号。把前几个高频的IMF作为噪声信号，后面的IMF成分作为信号成分。利用能量算子对每个频率段进行计算，最后计算出各个算子的信噪比和噪信比。

Vocal Fold Excitation Ratios(VFER)：是用来量化语音信号中由声带振荡激发的语音能量和由混乱噪声激发的语音能量的比重。

Glottal-to-Noise Excitation Ratio(GNE):类似于VFER，也用来量化语音信号中能量和噪声的比重。

其中，EMD-ER是利用希尔伯特变换把原始信号分解成多个不同频道段的信号成分，而GNE和VFER是把整个语音信号的整个频率段以带宽为500HZ进行划分，把低于2.5kHZ的作为能量信号，高于2.5kHZ的作为噪声信号，从而计算出信噪比。由于嗓音障碍患者在发音过程中其噪声比重与正常发音者相比要高很多，所以这些量化噪音能量比重的参数的研究就显得十分有意义。

第二类是有关非线性的参数：

循环周期密度熵(Recurrence Period Density Entropy，RPDE）:是用熵的概念来评估声带振动中的不确定性，声带振动的周期性越好其值越小。

消除趋势波动分析(Detrended Fluctuation Analysis，DFA)：用来分析语音信号的长程相关性。

样本熵(Sample Entropy):用来评估声带振动中的周期性和可预测性，声带振动的周期性越好其值越小。

关联维数(Correlation Dimension):用来评估声带振动中的非线性程度,声带振动的周期性越好其值越小。

第三类是关于倒谱系数的参数：

梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients，MFCC）：是Mel标度频率域提取出来的倒谱参数，在语音识别中有很好的性能，还被用来检测发音器官（嘴唇、舌头）等在运动中微小的变化。

第四类是有关声门的参数：

声门熵（Glottis Quotient，GQ):找出声门瞬时闭合点和开启点，由采样频率，求出一段声带振动周期内声门张开时间和闭合时间，然后分别计算声门张开时间向量的标准差、声门闭合时间向量的标准差，就可以得到声门熵的两个参数。

通过以上算法，对采集到的原始语音数据进行分析，便可以得到大量反映病理嗓音患者特征的参数。

此外，不同类型的病理嗓音其特征参数会有明显差异，因此可以根据不同的需求选择不同的特征参数构建训练模型。第一类是普通嗓音疾病（如喉炎）与声带病变（如声带小结、声带息肉、声带肿囊等）等喉良性病变，由于声带病变使声带负荷增加，主要体现为声带振动规律性不强，声门闭合程度下降。第二类是由于神经异常引起的肌肉功能障碍，如喉麻痹、痉挛性发声障碍、帕金森病等，这类声门充分闭合功能不好，主要体现为嗓音中气息声、噪声比重较大。第三类是喉部肿瘤以及喉部切除等。可以根据这些不同类型的嗓音疾病按类别进行特征参数提取，然后有针对性的对其进行模型训练，构建专门针对此类嗓音疾病的分类器模型。

在本发明实施例中，特征参数的选择具体为：

由于特征提取出的参数数量很大，直接用来构建分类器模型效率很低，需要选择一些相关性较大、更能表现出嗓音患者特征的参数。常用的特征参数选择的方法有很多，本发明实施例采用的特征选择算法主要有Least AbsoluteShrinkage and Selection Operator(LASSO)，Minimum Redundancy MaximumRelevance(mRAR)和RELIEF。其中Lasso的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下，使残差平方和最小化，从而能够产生某些严格等于0的回归系数，得到解释力较强的模型。mRMR是基于互信息（MutualInformation）的特征选择方法，它根据最大统计依赖性准则来选择特征。

下面对RELIEF进行介绍：假设间隔是指为在保持样本分类不变的情况下决策面能够移动的最大距离，可表示为θ＝0.5(Px-M(x)P-Px-H(x)P)，其中H(x)、M(x)分别为与x同类和非同类最近邻点。假设间隔能对各维度上的特征分类能力进行评价，通过对训练样本的假设间隔大小计算，可以近似地对特征进行关于对分类价值的评价。Relief算法正是利用这一特点给特征集合中每一特征赋予一定的权重，从而对特征进行选择。

用上述算法可以对特征提取出来的大量的特征参数进行优化，选择出最能体现病理嗓音特征、信息量最大的一些参数，进而提高建立分类器模型的效率。

在本发明实施例中，多元回归分析具体为：

在进行特征向量优化之后，便可对病理嗓音的分类器模型进行构建。分类器模型的思想是：通过构建一个函数关系f(X)＝y，把优化后的高维特征向量X＝(x₁,x₂,...,x_m)通过这个关系式找到对应的y（正常或病态）。支持向量机（SVM）算法在解决小样本、非线性以及高维模式识别问题中有很多优势，本发明实施例使用SVM对其进行分类。当高维特征向量是线性可分的，SVM的目的是在原始空间中寻求一个最优的超平面，来对特征向量进行分类划分。对于非线性可分的特征向量，可以根据非线性映射，把其映射到一个高维特征空间集，在构造的高维特征空间内寻找最优的超平面。

二分类器模型构建：SVM是针对典型的二类模式识别问题的，下面简述二分类器构建过程：首先对选择的特征参数进行归一化处理，使选择的参数的范围在[-1,1]之间。归一化可以将特征向量的参数变得规范，有效提高分类器的分类准确率，而且参数的寻优范围缩小，进而缩短训练周期。其次是确定SVM中最合适的支持向量机惩罚参数C和核函数的参数，核函数参数的确定直接关系到分类器识别率的高低，这里使用网格搜索法（Grid Search）来寻找最优参数。网格搜索法是讲要搜索的参数在可行空间划分成一系列的网格，通过遍历网格中的所有参数点寻找最优的参数。然后通过SVM方法进行分类器训练，建立正常嗓音和病理嗓音样本的训练模型，就可以根据训练模型对未知嗓音样本进行二分类，进而实现正常嗓音和病理嗓音的分类。

在二分类器的基础上，可以根据病理嗓音感知评价标准进行客观多分类。在传统的主观评估方法中，嗓音嘶哑评估GRBAS分级标准包括：总嘶哑度G（grade）:对异常嗓音的整体主观感知分级；粗糙度R(roughness):发音不规则程度；气息度B(breathiness):气息声程度；无力度A（asthenia）:发音弱或无力程度；紧张度S(strain):发音过度紧张或亢进程度。五个参数的评估分为4个等级：0级为正常，1级为轻度异常，2级为中度异常，3级为重度异常。首先由听评委对采集的嗓音样本按照评估指标进行分级评估，评委的分级结果作为自动评级的参考标准。

四分类器构建：可以通过组合多个二分类器来实现多分类器的构造，常见的方法有一对多法（OVR SVMs）和一对一法。一对多法是训练时依次把某个类别的样本归为一类，其他剩余的样本归为另一类，这样k个类别的样本就构造出了k个SVM。分类时将未知样本分类为具有最大分类函数值的那类。一对一的做法是在任意两类样本之间设计一个SVM，因此k个类别的样本就需要设计k(k-1)/2个SVM。当对一个未知样本进行分类时，最后得票最多的类别即为该未知样本的类别。这里采用一对一法进行构建。

构建四分类器：首先对提取的特征参数进行归一化处理，用网格搜索法确定SVM中最合适的支持向量机惩罚参数C和核函数的参数，其次按照病理嗓音二分类器的构建过程建立6个二分类器，然后按照一对一的多分类器构建方法构造四分类器。这样就可以结合GRBAS分级标准进模型训练，构建四类分类器达到自动检测嗓音障碍级别的目的。

最后，在分类器模型构建之后，用交叉验证（Cross Validation）来验证病理嗓音样本类型的准确度。常用的交叉验证形式有Holdout验证和K折交叉验证等，这里使用10折交叉验证进行测试。将样本语音数据分割成10个子样本，其中一个子样本被作为验证模型的数据，其他9个样本用来训练。交叉验证重复100次，每次验证之前打乱所有数据重新分割10个样本进行训练，平均100次的结果，最终得到一个单一估测。这个方法的可以同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，这样就可验证建立的分类模型的准确率。

请参阅图2，为本发明实施例提供的病理嗓音的检测系统的结构，为了便于说明，仅示出了与本发明实施例相关的部分。所述病理嗓音的检测系统包括：采集模块101、提取和选择模块102、分类器模块103、以及输出模块104。所述病理嗓音的检测系统可以是内置于计算机中的软件单元、硬件单元或者是软硬件结合的单元。

采集模块101，用于采集待检测病人的语音；

提取和选择模块102，用于将采集到的语音信号进行特征参数的提取和选择；

分类器模块103，用于将优化的参数进入构建好的分类器模型进行障碍等级评估；

输出模块104，用于输出检测到的嗓音障碍分级结果。

在本发明实施例中，所述系统还包括：建立模块、特征参数提取和选择模块、构建模块。

建立模块，用于建立病理样本嗓音数据库；

特征参数提取和选择模块，用于对建立的病理样本嗓音数据库进行特征参数的提取和选择；

构建模块，用于根据特征选择出来的参数和病理嗓音严重程度等级的关系进行多元回归分析，构建分类器模型。

作为本发明一优选实施例，所述系统还包括：验证模块。

验证模块，用于在分类器模型构建之后，用交叉验证来验证病理嗓音样本类型的准确度。

综上所述，本发明实施例在经典的特征提取参数的基础上，采用了能更加描述病理嗓音的不规律性的方法，在量化信噪比方面增加了新的参数，并采用了非线性参数对经典参数进行补充，还可以根据不同的需求选择不同的特征参数构建训练模型。而且，本发明还利用倒谱技术，提取了倒谱类参数。对提取的参数进行优化选择，建立回归分析模型，把评估结果数据化，从而更好的自动检测病理语音，达到在早期发现听觉不能感知的病理嗓音的目的。此外还可以用来评价治疗嗓音障碍患者手术的治疗效果以及区分不同治疗方法的好坏。本方案使用计算机以及科学的评断标准，采用专业的语音处理算法，能够部分或者完全代替医生对患者进行诊断，其结果作为医生的诊断参考，最大程度的降低了诊断过程的偶然性。另外，本方案操作简单，使用方便，诊断正确率高，一般的医务人员通过简单培训均可掌握，一定程度上弥补了偏远地区及小城市医疗资源的不足，使患者可以就近确诊疾病，尽早治疗。再者，本方案为嗓音障碍提供了一种明确的、量化的分级方式，在病人治疗过程中的每个阶段都有相应的数据记载，医生通过这些数据可以完全跟踪了解病情，最大程度保障患者治疗过程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种病理嗓音的检测方法，其特征在于，所述方法包括以下步骤：

采集待检测病人的语音；

将采集到的语音信号进行特征参数的提取和选择；

将优化的参数进入构建好的分类器模型进行障碍等级评估；

输出检测到的嗓音障碍分级结果。

2.如权利要求1所述的方法，其特征在于，构建分类器模型的步骤，具体为：

建立病理样本嗓音数据库；

对建立的病理样本嗓音数据库进行特征参数的提取和选择；

根据特征选择出来的参数和病理嗓音严重程度等级的关系进行多元回归分析，构建分类器模型。

3.如权利要求2所述的方法，其特征在于，在所述构建分类器模型的步骤之后，还包括：

在分类器模型构建之后，用交叉验证来验证病理嗓音样本类型的准确度。

4.如权利要求2所述的方法，其特征在于，可以根据不同的需求选择不同的特征参数构建分类器模型。

5.一种病理嗓音的检测系统，其特征在于，所述系统包括：

采集模块，用于采集待检测病人的语音；

输出模块，用于输出检测到的嗓音障碍分级结果。

6.如权利要求5所述的系统，其特征在于，所述系统还包括：

建立模块，用于建立病理样本嗓音数据库；

7.如权利要求6所述的系统，其特征在于，所述系统还包括：

8.如权利要求6所述的方法，其特征在于，可以根据不同的需求选择不同的特征参数构建分类器模型。

9.一种包括权利要求5至8任一项所述的病理嗓音的检测系统的计算机。