CN108766462B - 一种基于梅尔频谱一阶导数的语音信号特征学习方法 - Google Patents

一种基于梅尔频谱一阶导数的语音信号特征学习方法 Download PDF

Info

Publication number
CN108766462B
CN108766462B CN201810640541.9A CN201810640541A CN108766462B CN 108766462 B CN108766462 B CN 108766462B CN 201810640541 A CN201810640541 A CN 201810640541A CN 108766462 B CN108766462 B CN 108766462B
Authority
CN
China
Prior art keywords
sample
voice
training set
disease
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810640541.9A
Other languages
English (en)
Other versions
CN108766462A (zh
Inventor
朱成华
卢光明
武克斌
张大鹏
钟德才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zhongdian Artificial Intelligence Technology Co ltd
Original Assignee
Zhejiang Zhongdian Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Zhongdian Artificial Intelligence Technology Co ltd filed Critical Zhejiang Zhongdian Artificial Intelligence Technology Co ltd
Priority to CN201810640541.9A priority Critical patent/CN108766462B/zh
Publication of CN108766462A publication Critical patent/CN108766462A/zh
Application granted granted Critical
Publication of CN108766462B publication Critical patent/CN108766462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提出了一种基于梅尔频谱一阶导数的语音信号特征学习方法,该方法包括,以数据驱动为基础,输入疾病语音样本和健康语音样本,对所有的样本进行分针,提取梅尔频谱对时间的一阶导数,利用交叉验证方法分别对疾病样本和健康样本划分其训练集和测试集,采用聚类算法为健康嗓音与病态嗓音分别训练字典,分别对两类的训练集和测试集中每一样本的DMS进行线性编码并采用最小值池化方法进行池化从而获得最终特征。该有监督方法充分利用标签信息,所学习到的特征具有更好的鉴别力。

Description

一种基于梅尔频谱一阶导数的语音信号特征学习方法
技术领域
本发明涉及人工智能语音识别领域,尤其涉及基于梅尔频谱一阶导数的语音信号特征学习方法。
背景技术
通过声音来诊断疾病的方法,近年来因为其有简单、方便、快捷且无需损伤受诊人机体和无需侵入式检查的的优势受到了广泛关注。研究表明语音信号中包括丰富的生物医学信息,比如可以从说话语音变得很轻,并最终发展为单调,无起伏的声音,判断个人可能患有帕金森症。当个体有甲状腺疾病时,会导致激素分泌失调,甚至会导致声带瘫痪或麻痹,从而会使声音变得低沉,有时甚至会像耳语。通过对语音中携带的生物信息特征进行提取与分析,可以有效的分析个人隐藏的疾病。中医中也有通过病人的声音和呼吸、嗳气和咳嗽等生理现象来诊断疾病的方法。但是这种诊断依赖于医师个人的感官和长期行医过程中积累的宝贵经验,而这种经验是不可复制的。同时,人对声音的理解和接收存在心理和生理的双重影响,不同人的个体差异、不同人的年龄差异和长时间诊病带来的疲累等因素,都使得以人为诊断主体的声音诊断,带有不可忽视的主观色彩。
随着计算机技术和电子科技的发展,可以实现对语音信号的数字化和标准化采集,同时利用信号处理技术和人工智能技术对标准化的语音信号进行建模和分析,最终实现对语音信号病态特征的提取,并挖掘和量化语音信号中的病理信息。
发明内容
为了解决通过声音来诊断疾病的技术问题,本发明提出的是一种基于梅尔频谱一阶导数的语音信号特征学习方法,该方法可用于语音信号特征学习、疾病检测等应用,同时亦可将本方法应用于其他相似信号的分析中。
一种基于梅尔频谱一阶导数的语音信号特征学习方法,包括如下步骤:
步骤一、输入疾病类语音样本和健康类语音样本;
步骤二、对所有的样本进行分帧,语音端点检测,提取梅尔频谱对时间的一阶导数DMS,并对每个样本用矩阵Ai表示;
步骤三、利用交叉验证方法分别对疾病类样本和健康类样本划分其训练集和测试集;
步骤四、将疾病类训练集索引对应的所有DMS矩阵Ai按列堆积为矩阵P,并对该矩阵进行球面Kmeans聚类,聚类中心组成的字典记为Dp ,
将健康类训练集索引对应的所有DMS矩阵Ai按列堆积为矩阵H,并对该矩阵进行球面Kmeans聚类,聚类中心组成的字典记为Dh;
步骤五、分别对两类的训练集和测试集中每一样本的DMS进行线性编码并采用最小值池化方法进行池化,并将疾病类的训练集和测试集分别记为Xtr p’和Xte p,将健康类的训练集和测试集分别记为Xtr h和Xte h
步骤六、将Xtr p’作为ADASYN算法的输入获得合成虚拟样本Xsy p
步骤七、将合成虚拟样本Xsy p加入至Xtr p’
形成疾病类的训练集矩阵Xtr p=[Xtr p’,Xsy p];
步骤八、将Xtr p和Xtr h合并形成最终的训练集Xtr=[Xtr p,Xtr h],并构建该训练集的标签向量ytr,Xte p 和Xte h合并形成最终的测试集Xte=[Xte p,Xte h];
步骤九、将Xtr,Xte以及ytr作为传统分类器的输入,预测测试集所属类别yte
步骤十、输出测试样本的预测标签yte
根据本发明的优选方式,所述的语音端点检测包括去除语音中的无声段。
本发明采用一种基于梅尔频谱一阶导数的语音信号特征学习方法,该方法具备如下优点和有益效果:
1. 提出了一种基于梅尔频谱对时间的一阶导数的特征学习方法,使用梅尔频谱对时间的一阶导数来表征梅尔频谱随时间的扰动情况。该导数可降低说话人之间的个体差异对病态语音分析的影响,进而突出语音中的医学信息;
2. 提出了一种基于球面Kmeans聚类算法的训练字典方法,球面Kmeans聚类获得的聚类中心是对聚类数据的稀疏投影,基于球面Kmeans聚类的特征学习具有较快的速度和可扩展性;
3. 提出了一种用于病态嗓音分析的基于球面Kmeans字典的特征学习方法,与深度学习方法相比,该方法不仅可用于小样本数据集,还具有较少的训练时间;
4. 以数据驱动为基础,采用聚类算法为健康嗓音与病态嗓音分别训练字典,并按此字典对样本进行编码池化从而获得最终特征。该有监督方法充分利用标签信息,所学习到的特征具有更好的鉴别力。
附图说明
图1为本发明的语音信号提取预处理流程示意图。
图2为本发明的语音信号特征学习方法处理流程示意图。
具体实施方式
下面结合附图对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。
结合图1、图2所示,本发明的基于梅尔频谱一阶导数的语音信号特征学习方法,包括如下步骤:
步骤一、输入疾病类语音样本和健康类语音样本;
步骤二、对所有的样本进行分帧,语音端点检测,提取梅尔频谱MFCC对时间的一阶导数DMS(first Derivative of Mel-Spectrogram), 并对每个样本用矩阵Ai表示;
MFCC的分析基于人耳的听觉原理,具有较高的识别率和较好的鲁棒性。MEL频率表达了一种常用的从语音频率到感知频率的对应关系,实际应用中,通常对MEL频率作如下近似:对1khz以下的语音信号采用现行频率,对1khz以上的语音信号采用对数频率。其转换关系如下:
FMel(f)=2595log10(1+f/700)
其中,频率f的单位是Hz,梅尔频率Fmel的单位是Mel。
在语音端点检测中,包括去除语音信号中的无声段。
步骤三、利用交叉验证方法分别对疾病类样本和健康类样本划分其训练集和测试集;
步骤四、将疾病类训练集索引对应的所有DMS矩阵Ai按列堆积为矩阵P,并对该矩阵进行球面Kmeans聚类,聚类中心组成的字典记为Dp ,
将健康类训练集索引对应的所有DMS矩阵Ai按列堆积为矩阵H,并对该矩阵进行球面Kmeans聚类,聚类中心组成的字典记为Dh;
步骤五、分别对两类的训练集和测试集中每一样本的DMS进行线性编码并采用最小值池化方法进行池化,并将疾病类的训练集和测试集分别记为Xtr p’和Xte p,将健康类的训练集和测试集分别记为Xtr h和Xte h
步骤六、将Xtr p’作为ADASYN算法的输入获得合成虚拟样本Xsy p
步骤七、将合成虚拟样本Xsy p加入至Xtr p’
形成疾病类的训练集矩阵Xtr p=[Xtr p’,Xsy p];
步骤八、将Xtr p和Xtr h合并形成最终的训练集Xtr=[Xtr p,Xtr h],并构建该训练集的标签向量ytr,Xte p 和Xte h合并形成最终的测试集Xte=[Xte p,Xte h];
步骤九、将Xtr,Xte以及ytr作为传统分类器的输入,预测测试集所属类别yte
步骤十、输出测试样本的预测标签yte
梅尔频谱对其时间的一阶导数可降低说话人之间的个体差异对语音检测疾病分析的影响,进而突出语音中的医学信息。目前,多数通过语音信号分析疾病的特征均为基于经验的手工设计特征,使用基于数据驱动的特征学习方法的研究比较少。本发明使用一种基于梅尔频谱一阶导数的语音信号特征学习方法有三个优势:1)特征学习可获得特定于任务和数据集的特征。与之相比,采用手工设计特征时,一种特征常用于多种任务中,例如MFCC(Mel-Frequency Cepstral Coefficients)等用于语音识别中的特征也用于语音疾病分析,然而该特征不一定对所有任务均为最优选择;2)特征学习所获得的特征往往对不相关因素有较强的鲁棒性。3)基于数据驱动的特征学习往往比传统手工设计特征具有更好的性能。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (2)

1.一种基于梅尔频谱一阶导数的语音信号特征学习方法,其特征在于,该方法用于语音信号特征学习,该方法包括如下步骤:
步骤一、输入疾病类语音样本和健康类语音样本;
步骤二、对所有的样本进行分帧,语音端点检测,提取梅尔频谱对时间的一阶导数DMS,并对每个样本用矩阵Ai表示;
步骤三、利用交叉验证方法分别对疾病类样本和健康类样本划分其训练集和测试集;
步骤四、将疾病类训练集索引对应的所有DMS矩阵Ai按列堆积为矩阵P,并对该矩阵进行球面Kmeans聚类,聚类中心组成的字典记为Dp,
将健康类训练集索引对应的所有DMS矩阵Ai按列堆积为矩阵H,并对该矩阵进行球面Kmeans聚类,聚类中心组成的字典记为Dh
步骤五、分别对两类的训练集和测试集中每一样本的DMS进行线性编码并采用最小值池化方法进行池化,并将疾病类的训练集和测试集分别记为Xtr p’和Xte p,将健康类的训练集和测试集分别记为Xtr h和Xte h
步骤六、将Xtr p’作为ADASYN算法的输入获得合成虚拟样本Xsy p
步骤七、将合成虚拟样本Xsy p加入至Xtr p’
形成疾病类的训练集矩阵Xtr p=[Xtr p’,Xsy p];
步骤八、将Xtr p和Xtr h合并形成最终的训练集Xtr=[Xtr p,Xtr h],并构建该训练集的标签向量ytr,Xte p和Xte h合并形成最终的测试集Xte=[Xte p,Xte h];
步骤九、将Xtr,Xte以及ytr作为传统分类器的输入,预测测试集所属类别yte
步骤十、输出测试样本的预测标签yte
2.根据权利要求1所述的基于梅尔频谱一阶导数的语音信号特征学习方法,其特征在于,所述的语音端点检测包括去除语音中的无声段。
CN201810640541.9A 2018-06-21 2018-06-21 一种基于梅尔频谱一阶导数的语音信号特征学习方法 Active CN108766462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810640541.9A CN108766462B (zh) 2018-06-21 2018-06-21 一种基于梅尔频谱一阶导数的语音信号特征学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810640541.9A CN108766462B (zh) 2018-06-21 2018-06-21 一种基于梅尔频谱一阶导数的语音信号特征学习方法

Publications (2)

Publication Number Publication Date
CN108766462A CN108766462A (zh) 2018-11-06
CN108766462B true CN108766462B (zh) 2021-06-08

Family

ID=63979396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810640541.9A Active CN108766462B (zh) 2018-06-21 2018-06-21 一种基于梅尔频谱一阶导数的语音信号特征学习方法

Country Status (1)

Country Link
CN (1) CN108766462B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021127811A1 (zh) * 2019-12-23 2021-07-01 深圳市优必选科技股份有限公司 一种语音合成方法、装置、智能终端及可读介质
CN113420166A (zh) * 2021-03-26 2021-09-21 阿里巴巴新加坡控股有限公司 商品挂载、检索、推荐、训练处理方法、装置及电子设备
CN115240713B (zh) * 2022-07-14 2024-04-16 中国人民解放军国防科技大学 基于多模态特征和对比学习的语音情感识别方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5097509A (en) * 1990-03-28 1992-03-17 Northern Telecom Limited Rejection method for speech recognition
CN101217034A (zh) * 2007-12-28 2008-07-09 无敌科技(西安)有限公司 一种语音辨识定点化处理方法
CN101785669A (zh) * 2010-02-03 2010-07-28 深圳先进技术研究院 心电信号检测方法及装置
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
US20130254287A1 (en) * 2011-11-05 2013-09-26 Abhishek Biswas Online Social Interaction, Education, and Health Care by Analysing Affect and Cognitive Features
CN103956171A (zh) * 2014-04-01 2014-07-30 中国科学院软件研究所 一种多通道简易精神状态检测系统
CN104900229A (zh) * 2015-05-25 2015-09-09 桂林电子科技大学信息科技学院 一种语音信号混合特征参数的提取方法
US20150351663A1 (en) * 2013-01-24 2015-12-10 B.G. Negev Technologies And Applications Ltd. Determining apnea-hypopnia index ahi from speech
CN106898354A (zh) * 2017-03-03 2017-06-27 清华大学 基于dnn模型和支持向量机模型的说话人个数估计方法
CN107280674A (zh) * 2017-06-02 2017-10-24 南京理工大学 基于音频录取设备的呼吸模式判决方法
CN108135485A (zh) * 2015-10-08 2018-06-08 康迪欧医疗有限公司 通过语音分析评估肺部病症

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5097509A (en) * 1990-03-28 1992-03-17 Northern Telecom Limited Rejection method for speech recognition
CN101217034A (zh) * 2007-12-28 2008-07-09 无敌科技(西安)有限公司 一种语音辨识定点化处理方法
CN101785669A (zh) * 2010-02-03 2010-07-28 深圳先进技术研究院 心电信号检测方法及装置
US20130254287A1 (en) * 2011-11-05 2013-09-26 Abhishek Biswas Online Social Interaction, Education, and Health Care by Analysing Affect and Cognitive Features
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
US20150351663A1 (en) * 2013-01-24 2015-12-10 B.G. Negev Technologies And Applications Ltd. Determining apnea-hypopnia index ahi from speech
CN103956171A (zh) * 2014-04-01 2014-07-30 中国科学院软件研究所 一种多通道简易精神状态检测系统
CN104900229A (zh) * 2015-05-25 2015-09-09 桂林电子科技大学信息科技学院 一种语音信号混合特征参数的提取方法
CN108135485A (zh) * 2015-10-08 2018-06-08 康迪欧医疗有限公司 通过语音分析评估肺部病症
CN106898354A (zh) * 2017-03-03 2017-06-27 清华大学 基于dnn模型和支持向量机模型的说话人个数估计方法
CN107280674A (zh) * 2017-06-02 2017-10-24 南京理工大学 基于音频录取设备的呼吸模式判决方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ADASYN: Adaptive synthetic sampling approach for imbalanced learning;Haibo He et al.;《2008 IEEE International Joint Conference on Neural Networks》;20081231;第1322-1328页 *
AUTOMATIC TAGGING USING DEEP CONVOLUTIONAL NEURAL NETWORKS;Keunwoo Choi et al.;《Computer Science》;20160601;全文 *
心音信号特征分析与识别方法研究;周克良 等;《广西师范大学学报》;20150930;第33卷(第3期);第34-44页 *

Also Published As

Publication number Publication date
CN108766462A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN110556129B (zh) 双模态情感识别模型训练方法及双模态情感识别方法
Vásquez-Correa et al. Multimodal assessment of Parkinson's disease: a deep learning approach
CN107622797B (zh) 一种基于声音的身体状况确定系统及方法
CN110516696B (zh) 一种基于语音和表情的自适应权重双模态融合情感识别方法
Ghassemi et al. Learning to detect vocal hyperfunction from ambulatory neck-surface acceleration features: Initial results for vocal fold nodules
CN103996155A (zh) 智能交互及心理慰藉机器人服务系统
CN108766462B (zh) 一种基于梅尔频谱一阶导数的语音信号特征学习方法
CN112006697A (zh) 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN109727608A (zh) 一种基于中文语音的病态嗓音评估方法
WO2023139559A1 (en) Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation
CN110717410A (zh) 语音情感和面部表情双模态识别系统
Li et al. Improvement on speech depression recognition based on deep networks
Kaushik et al. SLINet: Dysphasia detection in children using deep neural network
Motin et al. Parkinson’s disease detection using smartphone recorded phonemes in real world conditions
US20240057936A1 (en) Speech-analysis based automated physiological and pathological assessment
Deepa et al. Speech technology in healthcare
US20230172526A1 (en) Automated assessment of cognitive and speech motor impairment
Tripathi et al. CNN based Parkinson's Disease Assessment using Empirical Mode Decomposition.
CN110827980A (zh) 一种基于声学指标的构音障碍分级评估方法
Degila et al. The UCD system for the 2018 FEMH voice data challenge
Shabber et al. A review and classification of amyotrophic lateral sclerosis with speech as a biomarker
Kodali et al. Automatic classification of the severity level of Parkinson’s disease: A comparison of speaking tasks, features, and classifiers
CN117763446A (zh) 一种多模态情感识别方法及装置
Aluru et al. Parkinson’s Disease Detection Using Machine Learning Techniques
Mijić et al. Classification of cognitive load using voice features: a preliminary investigation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant