CN108766462B

CN108766462B - 一种基于梅尔频谱一阶导数的语音信号特征学习方法

Info

Publication number: CN108766462B
Application number: CN201810640541.9A
Authority: CN
Inventors: 朱成华; 卢光明; 武克斌; 张大鹏; 钟德才
Original assignee: Zhejiang Zhongdian Artificial Intelligence Technology Co ltd
Current assignee: Zhejiang Zhongdian Artificial Intelligence Technology Co ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2021-06-08
Anticipated expiration: 2038-06-21
Also published as: CN108766462A

Abstract

本发明提出了一种基于梅尔频谱一阶导数的语音信号特征学习方法，该方法包括，以数据驱动为基础，输入疾病语音样本和健康语音样本，对所有的样本进行分针，提取梅尔频谱对时间的一阶导数，利用交叉验证方法分别对疾病样本和健康样本划分其训练集和测试集，采用聚类算法为健康嗓音与病态嗓音分别训练字典，分别对两类的训练集和测试集中每一样本的DMS进行线性编码并采用最小值池化方法进行池化从而获得最终特征。该有监督方法充分利用标签信息，所学习到的特征具有更好的鉴别力。

Description

一种基于梅尔频谱一阶导数的语音信号特征学习方法

技术领域

本发明涉及人工智能语音识别领域，尤其涉及基于梅尔频谱一阶导数的语音信号特征学习方法。

背景技术

通过声音来诊断疾病的方法，近年来因为其有简单、方便、快捷且无需损伤受诊人机体和无需侵入式检查的的优势受到了广泛关注。研究表明语音信号中包括丰富的生物医学信息，比如可以从说话语音变得很轻，并最终发展为单调，无起伏的声音，判断个人可能患有帕金森症。当个体有甲状腺疾病时，会导致激素分泌失调，甚至会导致声带瘫痪或麻痹，从而会使声音变得低沉，有时甚至会像耳语。通过对语音中携带的生物信息特征进行提取与分析，可以有效的分析个人隐藏的疾病。中医中也有通过病人的声音和呼吸、嗳气和咳嗽等生理现象来诊断疾病的方法。但是这种诊断依赖于医师个人的感官和长期行医过程中积累的宝贵经验，而这种经验是不可复制的。同时，人对声音的理解和接收存在心理和生理的双重影响，不同人的个体差异、不同人的年龄差异和长时间诊病带来的疲累等因素，都使得以人为诊断主体的声音诊断，带有不可忽视的主观色彩。

随着计算机技术和电子科技的发展，可以实现对语音信号的数字化和标准化采集，同时利用信号处理技术和人工智能技术对标准化的语音信号进行建模和分析，最终实现对语音信号病态特征的提取，并挖掘和量化语音信号中的病理信息。

发明内容

为了解决通过声音来诊断疾病的技术问题，本发明提出的是一种基于梅尔频谱一阶导数的语音信号特征学习方法，该方法可用于语音信号特征学习、疾病检测等应用，同时亦可将本方法应用于其他相似信号的分析中。

一种基于梅尔频谱一阶导数的语音信号特征学习方法，包括如下步骤：

步骤一、输入疾病类语音样本和健康类语音样本；

步骤二、对所有的样本进行分帧，语音端点检测,提取梅尔频谱对时间的一阶导数DMS,并对每个样本用矩阵A_i表示；

步骤三、利用交叉验证方法分别对疾病类样本和健康类样本划分其训练集和测试集；

步骤四、将疾病类训练集索引对应的所有DMS矩阵A_i按列堆积为矩阵P，并对该矩阵进行球面Kmeans聚类，聚类中心组成的字典记为D_p ,

将健康类训练集索引对应的所有DMS矩阵A_i按列堆积为矩阵H，并对该矩阵进行球面Kmeans聚类，聚类中心组成的字典记为D_h;

步骤五、分别对两类的训练集和测试集中每一样本的DMS进行线性编码并采用最小值池化方法进行池化，并将疾病类的训练集和测试集分别记为X_tr ^p’和X_te ^p，将健康类的训练集和测试集分别记为X_tr ^h和X_te ^h；

步骤六、将X_tr ^p’作为ADASYN算法的输入获得合成虚拟样本X_sy ^p；

步骤七、将合成虚拟样本X_sy ^p加入至X_tr ^p’，

形成疾病类的训练集矩阵X_tr ^p=[X_tr ^p’,X_sy ^p];

步骤八、将X_tr ^p和X_tr ^h合并形成最终的训练集X_tr=[X_tr ^p，X_tr ^h]，并构建该训练集的标签向量y^tr，X_te ^p 和X_te ^h合并形成最终的测试集X_te=[X_te ^p,X_te ^h]；

步骤九、将X_tr，X_te以及y^tr作为传统分类器的输入，预测测试集所属类别y^te；

步骤十、输出测试样本的预测标签y^te。

根据本发明的优选方式，所述的语音端点检测包括去除语音中的无声段。

本发明采用一种基于梅尔频谱一阶导数的语音信号特征学习方法，该方法具备如下优点和有益效果：

1. 提出了一种基于梅尔频谱对时间的一阶导数的特征学习方法，使用梅尔频谱对时间的一阶导数来表征梅尔频谱随时间的扰动情况。该导数可降低说话人之间的个体差异对病态语音分析的影响，进而突出语音中的医学信息；

2. 提出了一种基于球面Kmeans聚类算法的训练字典方法，球面Kmeans聚类获得的聚类中心是对聚类数据的稀疏投影，基于球面Kmeans聚类的特征学习具有较快的速度和可扩展性；

3. 提出了一种用于病态嗓音分析的基于球面Kmeans字典的特征学习方法，与深度学习方法相比，该方法不仅可用于小样本数据集，还具有较少的训练时间；

4. 以数据驱动为基础，采用聚类算法为健康嗓音与病态嗓音分别训练字典，并按此字典对样本进行编码池化从而获得最终特征。该有监督方法充分利用标签信息，所学习到的特征具有更好的鉴别力。

附图说明

图1为本发明的语音信号提取预处理流程示意图。

图2为本发明的语音信号特征学习方法处理流程示意图。

具体实施方式

下面结合附图对本申请作进一步详细描述，有必要在此指出的是，以下具体实施方式只用于对本申请进行进一步的说明，不能理解为对本申请保护范围的限制，该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。

结合图1、图2所示，本发明的基于梅尔频谱一阶导数的语音信号特征学习方法，包括如下步骤：

步骤一、输入疾病类语音样本和健康类语音样本；

步骤二、对所有的样本进行分帧，语音端点检测,提取梅尔频谱MFCC对时间的一阶导数DMS（first Derivative of Mel-Spectrogram）, 并对每个样本用矩阵A_i表示；

MFCC的分析基于人耳的听觉原理，具有较高的识别率和较好的鲁棒性。MEL频率表达了一种常用的从语音频率到感知频率的对应关系，实际应用中，通常对MEL频率作如下近似：对1khz以下的语音信号采用现行频率，对1khz以上的语音信号采用对数频率。其转换关系如下：

F_Mel(f)=2595log₁₀(1+f/700)

其中，频率f的单位是Hz，梅尔频率Fmel的单位是Mel。

在语音端点检测中，包括去除语音信号中的无声段。

步骤七、将合成虚拟样本X_sy ^p加入至X_tr ^p’，

形成疾病类的训练集矩阵X_tr ^p=[X_tr ^p’,X_sy ^p];

步骤十、输出测试样本的预测标签y^te。

梅尔频谱对其时间的一阶导数可降低说话人之间的个体差异对语音检测疾病分析的影响，进而突出语音中的医学信息。目前，多数通过语音信号分析疾病的特征均为基于经验的手工设计特征，使用基于数据驱动的特征学习方法的研究比较少。本发明使用一种基于梅尔频谱一阶导数的语音信号特征学习方法有三个优势：1）特征学习可获得特定于任务和数据集的特征。与之相比，采用手工设计特征时，一种特征常用于多种任务中，例如MFCC（Mel-Frequency Cepstral Coefficients）等用于语音识别中的特征也用于语音疾病分析，然而该特征不一定对所有任务均为最优选择；2）特征学习所获得的特征往往对不相关因素有较强的鲁棒性。3）基于数据驱动的特征学习往往比传统手工设计特征具有更好的性能。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于梅尔频谱一阶导数的语音信号特征学习方法，其特征在于，该方法用于语音信号特征学习，该方法包括如下步骤：

步骤一、输入疾病类语音样本和健康类语音样本；

步骤四、将疾病类训练集索引对应的所有DMS矩阵A_i按列堆积为矩阵P，并对该矩阵进行球面Kmeans聚类，聚类中心组成的字典记为D_p,

将健康类训练集索引对应的所有DMS矩阵A_i按列堆积为矩阵H，并对该矩阵进行球面Kmeans聚类，聚类中心组成的字典记为D_h；

步骤七、将合成虚拟样本X_sy ^p加入至X_tr ^p’，

形成疾病类的训练集矩阵X_tr ^p＝[X_tr ^p’,X_sy ^p]；

步骤八、将X_tr ^p和X_tr ^h合并形成最终的训练集X_tr＝[X_tr ^p，X_tr ^h]，并构建该训练集的标签向量y^tr，X_te ^p和X_te ^h合并形成最终的测试集X_te＝[X_te ^p,X_te ^h]；

步骤十、输出测试样本的预测标签y^te。

2.根据权利要求1所述的基于梅尔频谱一阶导数的语音信号特征学习方法，其特征在于，所述的语音端点检测包括去除语音中的无声段。