CN110070888A - 一种基于卷积神经网络的帕金森语音识别方法 - Google Patents

一种基于卷积神经网络的帕金森语音识别方法 Download PDF

Info

Publication number
CN110070888A
CN110070888A CN201910377225.1A CN201910377225A CN110070888A CN 110070888 A CN110070888 A CN 110070888A CN 201910377225 A CN201910377225 A CN 201910377225A CN 110070888 A CN110070888 A CN 110070888A
Authority
CN
China
Prior art keywords
model
sound
parkinson
sound bite
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910377225.1A
Other languages
English (en)
Inventor
张艳晖
石涵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yibao Medical Science And Technology (shanghai) Co Ltd
Original Assignee
Yibao Medical Science And Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yibao Medical Science And Technology (shanghai) Co Ltd filed Critical Yibao Medical Science And Technology (shanghai) Co Ltd
Priority to CN201910377225.1A priority Critical patent/CN110070888A/zh
Publication of CN110070888A publication Critical patent/CN110070888A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明为一种基于卷积神经网络的帕金森语音识别方法,包括语音型号的采集:在安静的环境中,由使用者发元音,录入一定时长的声音;语音的预处理:将采样得到的语音片段统一采样到频率fs,并且去除语音片段中无声音部分,每段语音片段取同一时长ts;训练模型:采用一维神经网络对语音片段进行训练,建立算法模型,得到精确率和召回率都符合要求的模型;采用模型进行预测:把需要预测的语音片段输入到模型中,得到模型预测的UPDRS评分。本发明建立可以接受原始声音数据的算法模型,不需要人为提取声音特征。利用卷积神经网络对声音进行分析,使用梯度下降法自动更新算法参数,充分利用卷积网络的空间不变性,使算法更具有鲁棒性。

Description

一种基于卷积神经网络的帕金森语音识别方法
技术领域
本发明涉及一种语音识别方法,特别是涉及一种基于卷积神经网络的帕金森语音识别方法。
背景技术
帕金森是一种非常严重的疾病,病情难以逆转。所以早期发现疾病并对其进行控制是非常重要的。目前,帕金森病的诊断主要依靠病史、临床症状及体征进行判断。帕金森的诊断对医院设备配备及医生水平要求相对较高。这就导致发现疾病时,都处于疾病的中晚期,对患者的生存质量造成了比较大的影响。
传统的机器学习方法可以通过提取语音的多种系数进而对语音进行分析。但是这种方法有两个很重要的缺点。第一是人工难以确定其具体需要提取的参数。目前主流的参数提取包括声音的基频,振幅微扰,频率微扰,信噪比特征,倒谱系数以及一些非线性特征。这些特征均试图反映声音的特征,并不能表征声音的全貌,因此增加了分类方法的检测难度。第二是这些特征均不够稳定。同一个人发出的声音提取的系数可能相差非常大,这使得算法模型的稳定性很差。此外,外界干扰噪声也会对算法造成很大的影响,所以难以用于实际。
发明内容
本发明的目的就是提供一种基于卷积神经网络的帕金森语音识别方法,能完全解决上述现有技术的不足之处。
本发明的目的通过下述技术方案来实现:
一种基于卷积神经网络的帕金森语音识别方法,包括如下方法:
1).语音型号的采集:在安静的环境中,由使用者发元音,录入一定时长的声音;
2).语音的预处理:将采样得到的语音片段统一采样到频率fs,并且去除语音片段中无声音部分,每段语音片段取同一时长ts;
3).训练模型:采用一维神经网络对语音片段进行训练,建立算法模型,得到精确率和召回率都符合要求的模型;
4).采用模型进行预测:把需要预测的语音片段输入到模型中,得到模型预测的UPDRS评分。
进一步,方法3)中通过不断调整网络的超参数,来得到符合要求的模型。
进一步,方法4)中的一维神经网络为输入频率为fs,时长为ts的一维向量。
进一步,一维神经网络的构件包括一维卷积层、池化层以及全连接层。
与现有技术相比,本发明的有益效果在于:本发明不需要人为计算提取语音参数,可以通过神经网络的优势,由网络根据数据自行对语音特征进行分析,并得到最终的模型。这样的模型相比与传统的机器学习,大大减小了人工工作量,充分利用了数据本身的特点,鲁棒性更强,算法稳定性更好。同时,在数据增强时,可以增加背景噪声,以此来降低背景噪音对模型的干扰,使得模型在由噪声的情况下也可以运行良好。由于现在手机等移动设备的普及以及硬件的升级,使得在移动端也可以很方便地部署神经网络,可以将模型部署在手机端,方便数据采集以及人们使用。
附图说明
图1是基于帕金森语音建立算法模型的流程图;
图2是由算法模型预测输入语音结果的流程图;
图3是模型训练流程图。
具体实施方式
下面结合具体实施例和附图对本发明作进一步的说明。
如图1至图3所示,本发明创造涉及深度学习,人工智能,语音诊断分析,具体的说,是基于神经网络对语音进行分类并且判定严重程度的一种检测方法。本发明所要解决的主要技术问题是传统机器学习需要对语音提取相关参数,参数不能反映语音全貌,导致建立的算法模型鲁棒性不强,难以用于实际的问题。为了解决上述问题,本发明提出一种采用一维神经网络的方法,对是否患有帕金森疾病及其严重程度进行诊断的方法。主要包括建立可以接受原始声音数据的算法模型,不需要人为提取声音特征;利用卷积神经网络对声音进行分析,使用梯度下降法自动更新算法参数,充分利用卷积网络的空间不变性,使算法更具有鲁棒性。
方法具体包括以下步骤:
1.语音型号的采集
考虑到存在语种不同,有无方言,有无口音以及发音习惯的因素,本发明采用元音的输入方式,减小样本受干扰因素。对于建立模型时的训练样本,需要录入样本是否患有帕金森及帕金森评分。采样需要在相对安静的环境中进行。由使用者发元音,录入一定时长的声音。
2.语音的预处理
将采样得到的语音片段统一采样到频率fs,并且去除语音片段中无声音部分。每段语音片段取同一时长ts。
3.一维卷积神经网络模型的构造
根据数据的采样频率和时长,根据预处理处理得到等长度输入数据,长度48000的一维向量,经过5次一维卷积层操作,每次卷积的卷积核大小均为64,步长为16,数量为256,后面紧跟ReLu激活函数,卷积后紧跟着两层带有Dropout的全连接层,全连接层输出512个神经元,Dropout的概率为0.2,采用ReLu激活函数,最后采用Sigmoid输出两个类别,输出1表示阳性,0表示阴性。
4.模型训练
将采集到的数据分为训练集和测试集,其中训练集样本数量占80%,测试集样本数量占20%。采用一维神经网络对语音片段进行训练,建立算法模型。不断调整网络的超参数,得到精确率和召回率都符合要求的模型,训练结束。
其中超参数包括卷积中卷积层层数,卷积核大小,激活函数选择等。例如,在训练时发现无论迭代多少次,训练集的准确率都无法到达100%,表示此时模型表达能力不够,则可以添加卷积层,以此增加模型的表达能力(此处公开的模型能够满足在迭代足够多次时训练集准确率能达到100%,但是随着数据集样本量的增加,可能需要增加卷积层)。微调卷积核和步长可以提高网络的准确率,经过训练发现卷积核为64步长为16时准确率较高。
精确率和召回率的计算:
例如,此时采用算法对100个人是否有帕金森进行预测,得到结果如下表所示。
精确率(precision)的公式是P = True positive /( True positive + Falsepositive),它计算的是所有"患有帕金森的样本数"占所有"实际被检索预测患有帕金森"的比例。召回率(recall)的公式是R = True positive /( True positive + Falsenegative),它计算的是所有"患有帕金森的样本数"占所有"应该检索到的患有帕金森"的比例。在医学领域中,漏诊的后果比误诊的后果更为严重,所以在训练模型中需要在保证准确率的情况下提高召回率,最终模型训练结果是精确率为90%,召回率为97%。
其中,一维神经网络的输入为频率为fs,时长为ts的一维向量。神经网络的主要构件包括神经网络的基本构件,如一维卷积层,池化层以及全连接层。最终输出为一个具体实数,该实数为模型对实验者语音的UPDRS估计。如果实验者为正常人,真实值的UPDRS为0。模型的损失为预测值与真实值的欧拉距离。训练优化器采用随机梯度下降或其衍生算法,最小化模型的损失值。此处采用Adam算法。
4.采用模型进行预测
把需要预测的语音片段输入到模型中,得到模型预测的UPDRS评分。
本发明不需要人为计算提取语音参数,可以通过神经网络的优势,由网络根据数据自行对语音特征进行分析,并得到最终的模型。这样的模型相比与传统的机器学习,大大减小了人工工作量,充分利用了数据本身的特点,鲁棒性更强,算法稳定性更好。同时,在数据增强时,可以增加背景噪声,以此来降低背景噪音对模型的干扰,使得模型在由噪声的情况下也可以运行良好。由于现在手机等移动设备的普及以及硬件的升级,使得在移动端也可以很方便地部署神经网络,可以将模型部署在手机端,方便数据采集以及人们使用。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于卷积神经网络的帕金森语音识别方法,其特征在于,包括如下方法:
1).语音型号的采集:在安静的环境中,由使用者发元音,录入一定时长的声音;
2).语音的预处理:将采样得到的语音片段统一采样到频率fs,并且去除语音片段中无声音部分,每段语音片段取同一时长ts;
3).训练模型:采用一维神经网络对语音片段进行训练,建立算法模型,得到精确率和召回率都符合要求的模型;
4).采用模型进行预测:把需要预测的语音片段输入到模型中,得到模型预测的UPDRS评分。
2.根据权利要求1所述的基于卷积神经网络的帕金森语音识别方法,其特征在于,方法3)中通过不断调整网络的超参数,来得到符合要求的模型。
3.根据权利要求2所述的基于卷积神经网络的帕金森语音识别方法,其特征在于,方法4)中的一维神经网络为输入频率为fs,时长为ts的一维向量。
4.根据权利要求3所述的基于卷积神经网络的帕金森语音识别方法,其特征在于,一维神经网络的构件包括一维卷积层、池化层以及全连接层。
CN201910377225.1A 2019-05-07 2019-05-07 一种基于卷积神经网络的帕金森语音识别方法 Pending CN110070888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910377225.1A CN110070888A (zh) 2019-05-07 2019-05-07 一种基于卷积神经网络的帕金森语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910377225.1A CN110070888A (zh) 2019-05-07 2019-05-07 一种基于卷积神经网络的帕金森语音识别方法

Publications (1)

Publication Number Publication Date
CN110070888A true CN110070888A (zh) 2019-07-30

Family

ID=67370454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910377225.1A Pending CN110070888A (zh) 2019-05-07 2019-05-07 一种基于卷积神经网络的帕金森语音识别方法

Country Status (1)

Country Link
CN (1) CN110070888A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110971763A (zh) * 2019-12-10 2020-04-07 Oppo(重庆)智能科技有限公司 到站提醒方法、装置、存储介质及电子设备
CN111160438A (zh) * 2019-12-24 2020-05-15 浙江大学 一种采用一维卷积神经网络的声学垃圾分类方法
CN111354338A (zh) * 2020-02-26 2020-06-30 重庆大学 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统
CN112233785A (zh) * 2020-07-08 2021-01-15 华南理工大学 一种帕金森症的智能识别方法
CN112750468A (zh) * 2020-12-28 2021-05-04 厦门嘉艾医疗科技有限公司 一种帕金森病筛查方法、装置、设备及存储介质
WO2022167243A1 (en) * 2021-02-05 2022-08-11 Novoic Ltd. Speech processing method for identifying data representations for use in monitoring or diagnosis of a health condition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140307878A1 (en) * 2011-06-10 2014-10-16 X-System Limited Method and system for analysing sound
CN105448291A (zh) * 2015-12-02 2016-03-30 南京邮电大学 基于语音的帕金森症检测方法及检测系统
CN108461092A (zh) * 2018-03-07 2018-08-28 燕山大学 一种对帕金森病语音分析的方法
CN109473120A (zh) * 2018-11-14 2019-03-15 辽宁工程技术大学 一种基于卷积神经网络的异常声音信号识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140307878A1 (en) * 2011-06-10 2014-10-16 X-System Limited Method and system for analysing sound
CN105448291A (zh) * 2015-12-02 2016-03-30 南京邮电大学 基于语音的帕金森症检测方法及检测系统
CN108461092A (zh) * 2018-03-07 2018-08-28 燕山大学 一种对帕金森病语音分析的方法
CN109473120A (zh) * 2018-11-14 2019-03-15 辽宁工程技术大学 一种基于卷积神经网络的异常声音信号识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
师浩斌: "基于卷积神经网络的帕金森病语音障碍诊断研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *
黎巎: "《旅游大数据研究》", 31 July 2018, 中国经济出版社 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110971763A (zh) * 2019-12-10 2020-04-07 Oppo(重庆)智能科技有限公司 到站提醒方法、装置、存储介质及电子设备
CN110971763B (zh) * 2019-12-10 2021-01-26 Oppo广东移动通信有限公司 到站提醒方法、装置、存储介质及电子设备
CN111160438A (zh) * 2019-12-24 2020-05-15 浙江大学 一种采用一维卷积神经网络的声学垃圾分类方法
CN111354338A (zh) * 2020-02-26 2020-06-30 重庆大学 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统
CN111354338B (zh) * 2020-02-26 2022-03-15 重庆大学 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统
CN112233785A (zh) * 2020-07-08 2021-01-15 华南理工大学 一种帕金森症的智能识别方法
CN112233785B (zh) * 2020-07-08 2022-04-22 华南理工大学 一种帕金森症的智能识别方法
CN112750468A (zh) * 2020-12-28 2021-05-04 厦门嘉艾医疗科技有限公司 一种帕金森病筛查方法、装置、设备及存储介质
WO2022167243A1 (en) * 2021-02-05 2022-08-11 Novoic Ltd. Speech processing method for identifying data representations for use in monitoring or diagnosis of a health condition

Similar Documents

Publication Publication Date Title
Hassan et al. COVID-19 detection system using recurrent neural networks
CN110070888A (zh) 一种基于卷积神经网络的帕金森语音识别方法
US10010288B2 (en) Screening for neurological disease using speech articulation characteristics
Dash et al. Detection of COVID-19 from speech signal using bio-inspired based cepstral features
CN107657964B (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
Benba et al. Discriminating between patients with Parkinson’s and neurological diseases using cepstral analysis
US8712760B2 (en) Method and mobile device for awareness of language ability
WO2019134247A1 (zh) 基于声纹识别模型的声纹注册方法、终端装置及存储介质
US20120232899A1 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization
Gillespie et al. Cross-Database Models for the Classification of Dysarthria Presence.
CN106683666B (zh) 一种基于深度神经网络的领域自适应方法
Kalluri et al. Automatic speaker profiling from short duration speech data
CN107919137A (zh) 远程审批方法、装置、设备及可读存储介质
Hahm et al. Parkinson's condition estimation using speech acoustic and inversely mapped articulatory data
CN112006697A (zh) 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN110459242A (zh) 变声检测方法、终端及计算机可读存储介质
US20120078625A1 (en) Waveform analysis of speech
CN108269574A (zh) 语音信号处理方法及装置、存储介质、电子设备
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
Liu et al. AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning
Veetil et al. Robust language independent voice data driven Parkinson’s disease detection
CN116723793A (zh) 基于语音分析的自动生理和病理评定
Aharonson et al. A real-time phoneme counting algorithm and application for speech rate monitoring
CN108766462A (zh) 一种基于梅尔频谱一阶导数的语音信号特征学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730

RJ01 Rejection of invention patent application after publication