CN108198576A - 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 - Google Patents
一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 Download PDFInfo
- Publication number
- CN108198576A CN108198576A CN201810140213.2A CN201810140213A CN108198576A CN 108198576 A CN108198576 A CN 108198576A CN 201810140213 A CN201810140213 A CN 201810140213A CN 108198576 A CN108198576 A CN 108198576A
- Authority
- CN
- China
- Prior art keywords
- frame
- voice
- alzheimer
- disease
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 55
- 208000024827 Alzheimer disease Diseases 0.000 title claims abstract description 40
- 238000012706 support-vector machine Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 210000004704 glottis Anatomy 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 13
- 208000011293 voice disease Diseases 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 19
- 238000005311 autocorrelation function Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 238000012952 Resampling Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000005855 radiation Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004064 recycling Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 23
- 238000011156 evaluation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010012289 Dementia Diseases 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 210000003254 palate Anatomy 0.000 description 1
- 230000036301 sexual development Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,包括以下步骤:从阿尔茨海默症患者和正常人的语音样本中提取声学特征,包括基频、能量、谐噪比、共振峰、声门波、线性预测系数、常Q倒谱系数,并将上述特征拼接成一个特征矩阵;采用非负矩阵分解算法对上述特征矩阵进行分解,得到降维后的特征矩阵;将上述降维后的特征矩阵作为输入,训练支持向量机分类器;将测试语音样本的降维后的特征矩阵输入训练好的支持向量机分类器,判决测试语音是正常人语音还是阿尔茨海默症患者语音。本发明采用非负矩阵分解对高维输入声学特征进行降维变换处理,降维后的特征矩阵具有更好的区分性,在阿尔茨海默症初筛中可以获得更加优异的效果。
Description
技术领域
本发明涉及音频信号处理和机器学习技术领域,具体涉及一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法。
背景技术
阿尔茨海默症是一种起病隐匿的进行性发展的神经系统退行性疾病。由于大脑皮层及皮层下语言网络结构及其联络纤维广泛受损,导致阿尔茨海默症患者出现言语障碍,并有其特殊的模式及演变过程,涉及口语表达、复述、理解、命名、阅读及书写等各个方面。阿尔茨海默症的言语障碍与痴呆严重程度呈正相关,影响正常的言语交流。
随着阿尔茨海默症病情的恶化,患者言语功能康复训练所需的时间和金钱成本也将提高。因此,及早发现患者是否出现言语功能障碍问题对于患者的康复有着重要意义。目前,国内对于言语功能障碍的评估方法主要有描记法、音标法、标准化测验法等,需要专业人员进行主观评估。我国在该领域的专业人员不足,相当一部分言语功能障碍患者得不到及时治疗。此外,主观评估方法偏差大,不同专家的诊断评估结果可能差异较大。现有的仪器评测方法,例如光纤维腭咽喉内镜检查、电视荧光放射照相术检查、喉动态描记法、舌压力传感器等。虽然评价比较客观,但是上述仪器比较昂贵,且一些诊断方法具有入侵性,给患者带来不适,阿尔茨海默症患者不乐意配合诊断。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法。该方法利用非负矩阵分解算法对高维语音特征矩阵进行降维处理,得到变换后的低维基矩阵,再采用支持向量机分类器进行判决,从而判断测试语音是正常人语音或者阿尔茨海默症患者语音。
本发明的目的可以通过采取如下技术方案达到:
一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,包括如下步骤:
S1、提取声学特征:对语音样本进行预处理,接着提取基频、能量、谐噪比、共振峰、声门波、线性预测系数、常Q倒谱系数等声学特征,并对各个特征取绝对值,得到相应的特征矩阵V=[基频,能量,谐噪比,共振峰,声门波,线性预测系数,常Q倒谱系数];
S2、语音特征非负矩阵分解:将语音样本的特征矩阵V作为输入,采用非负矩阵分解算法对特征矩阵V进行降维分解,得到降维后的基矩阵W和系数矩阵H,使得V=W×H;
S3、训练支持向量机分类器:将训练语音样本的基矩阵W作为输入,采用径向基函数作为核函数,分别训练代表正常人语音和阿尔茨海默症患者语音的支持向量机分类器;
S4、阿尔茨海默症判决:将步骤S1和步骤S2提取的测试语音样本的基矩阵W输入训练好的支持向量机分类器,判断输入语音是正常人语音还是阿尔茨海默症患者语音,得到阿尔茨海默症初筛结果。
进一步地,所述的步骤S1中提取声学特征包括以下步骤:
S1.1、预加重:利用数字滤波器对输入语音进行滤波,该滤波器的传递函数为:
H(z)=1-kz-1,
其中k的取值为0.96;
S1.2、分帧:将预加重后的语音数据按帧长L切分成帧,帧移为S;
S1.3、加窗:汉明窗作为窗函数,并与各帧语音相乘实现加窗处理,加窗后的第t帧语音表示为yt'(n),其中窗函数ω(n):
S1.4、利用自相关法提取各语音帧的基频F0,过程如下:
S1.4.1、对语音帧yt'(n)进行中心削波,得到yt(n):
其中CL为中心削波系数,取值为语音帧最大幅度的0.67倍;
S1.4.2、计算yt(n)的自相关函数:
其中N是每帧语音的采样点数;
S1.4.3、检测Ry(i)的峰值点,并根据峰值点集合PV计算平均基音周期:
其中I是峰值点的个数,T0是基频F0的倒数;
S1.5、计算各帧的能量,第t帧的帧能量Et为:
S1.6、提取各帧语音的谐噪比HNR;
S1.7、采用求根法计算第t帧语音共振峰频率Fi(t),假设为第一个根,3dB带宽为Bi(t),通过i次迭代得到:
其中,Ts为采样周期;
S1.8、采用逆滤波法计算声门波,设声道模型为全极点模型:
其中βk是系数,M为极点个数,唇辐射模型采用一阶微分器:
L(z)=1-μz-1,
其中μ取0.98,则第t帧语音的声门波:
其中Yt(z)为加窗后每个语音帧yt'(n)的Z变换;
S1.9、提取线性预测系数,过程如下:
S1.9.1、计算中心削波后的第t帧语音yt(n)的自相关函数Ry(j):
线性预测器用下式表示:
其中,p为线性预测系数的阶数,ai为线性预测系数;
S1.9.2、采用Levinson-Dubin法求解上述线性方程组:
当i=0时,有
在第i次递归运算时,有
递归求解上述公式,可解得p阶线性预测系数1≤j≤p;
S1.10、提取常Q倒谱系数CQCC;
S1.11、对每个语音帧重复步骤S1.4到S1.10,将依次得到的语音帧的声学特征取绝对值,并按帧的顺序拼接成为特征矩阵V。
进一步地,所述的步骤S1.6、提取各帧语音的谐噪比HNR过程如下:
S1.6.1、计算yt(n)的自相关函数:
其中N是每帧语音的采样点数;
S1.6.2、设RH(i)与RN(i)分别表示语音的谐波相关性和噪声相关性。由于谐波与噪声互不相关,且噪声没有相关性,故可得:
当i=0时,Rn(0)=RH(0)+RN(0);
当i=T0时,Rn(T0)=RH(T0)=RH(0);
即可得到谐噪比为:
进一步地,所述的步骤S1.10、提取常Q倒谱系数CQCC过程如下:
S1.10.1、对第t帧语音xt(n)做短时傅里叶变换,得到相应的线性谱:
其中,W(n)为窗函数;
S1.10.2、采用汉明窗作为窗函数:
则上述语音帧线性谱可表示为:
其中,fs为采样频率,fk为中心频率,Q为品质因数,N为窗长;
S1.10.3、将上述语音帧的线性谱转换为对数谱:
S1.10.4对频率进行归一化重新采样:
其中,f1是最小的中心频率,d为常数;
S1.10.5、将重采样后的对数谱进行离散余弦变换,得到第t个语音帧的CQCC:
进一步地,所述的步骤S2中采用基于欧氏距离的非负矩阵分解算法对语音特征非负矩阵进行分解,过程如下:
S2.1、随机初始化非负的基矩阵W和系数矩阵H;
S2.2、特征矩阵非负分解的目标函数定义为:
其中,V∈Rm×n是步骤S1中得到的基本声学特征矩阵,W∈Rm×k和H∈Rk×n则是其降维矩阵,k称为特征维数,且(m+n)×k<<m×n;
S2.3、利用梯度下降法,得加法迭代规则如下:
其中,Wik表示W中第i行第k列的元素,Hkj表示H中第k行第j列的元素,μik和ηkj为迭代算子,且有:
S2.4、将上述加法迭代规则变为乘法迭代规则,令:
固定W(a),计算H(a+1),再利用H(a+1)计算出下一个W(a+1),如此循环即可得:
S2.5、归一化W:
S2.6、不断迭代更新得到新的基矩阵W和系数矩阵H,与设定的迭代终止条件阈值比较,如果符合条件就停止迭代,并输出分解后的基矩阵W和系数矩阵H;否则返回到步骤S2.3,继续迭代运算。
进一步地,所述的步骤S3、训练支持向量机分类器具体包括以下步骤:
S3.1、将经由步骤S2得到的基矩阵W作为输入特征矩阵X:
{(x1,y1),...(xi,yi)}∈(X,Y)
其中,xi∈X为特征矢量,yi∈Y{-1,1}为类标签;
S3.2、采用径向基函数作为支持向量机的核函数κ(·),即:
其中,σ=1.98;
S3.3、引入核函数后,优化问题为:
s.t.0≤αi≤C,i=1,...,l
其中,α为拉格朗日乘子,C为惩罚因子,采用序列最小优化算法求得最优解
S3.4、从α*中选取一个分量满足其中,σ为样本方差;
S3.5、构造决策函数:
f(x)即为训练完毕的支持向量机分类器。
进一步地,所述的步骤S4、阿尔茨海默症判决的过程如下:对测试语音样本依次进行步骤S1、S2的处理,得到测试语音降维后的基矩阵W,并输入训练好的支持向量机分类器,根据输出结果进行判决:输出为1则测试语音为正常人语音;输出为-1,则测试语音为阿尔茨海默症患者语音。
本发明相对于现有技术具有如下的优点及效果:
1、本发明采用非负矩阵分解的方法变换得到测试语音各种声学特征的降维变换特征,相较于常规的声学特征能够更加有效地刻画正常人语音与阿尔茨海默症患者语音的特性差异,在阿尔茨海默症初筛中可以获得更加有效的结果。
2、本发明方法可以在一定程度上减轻国内医疗机构的就诊压力,为患者提供一种更乐于接受的阿尔茨海默症初筛方法。
附图说明
图1是本发明公开的基于语音特征非负矩阵分解的阿尔茨海默症初筛方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1是本发明公开的基于语音特征非负矩阵分解的阿尔茨海默症初筛方法的一个实施例的流程图,具体步骤操作如下:
S1、提取声学特征:对语音样本进行预处理,接着提取基频、能量、谐噪比、共振峰、声门波、线性预测系数、常Q倒谱系数等声学特征,并对各个特征取绝对值,得到相应的特征矩阵V=[基频,能量,谐噪比,共振峰,声门波,线性预测系数,常Q倒谱系数];
详细步骤如下:
S1.1、预加重:利用数字滤波器对输入语音进行滤波,该滤波器的传递函数为:
H(z)=1-kz-1,
其中k的取值为0.96;
S1.2、分帧:将预加重后的语音数据按帧长L切分成帧,帧移为S;
S1.3、加窗:汉明窗作为窗函数,并与各帧语音相乘实现加窗处理,加窗后的第t帧语音表示为yt'(n),其中窗函数ω(n):
S1.4、利用自相关法提取各语音帧的基频F0,详细方法如下:
S1.4.1、对语音帧yt'(n)进行中心削波,得到yt(n):
其中CL为中心削波系数,取值为语音帧最大幅度的0.67倍;
S1.4.2、计算yt(n)的自相关函数:
其中N是每帧语音的采样点数;
S1.4.3、检测Ry(i)的峰值点,并根据峰值点集合PV计算平均基音周期:
其中I是峰值点的个数,T0是基频F0的倒数;
S1.5、计算各帧的能量,第t帧的帧能量Et为:
S1.6、提取各帧语音的谐噪比HNR,详细方法如下:
S1.6.1、计算yt(n)的自相关函数:
其中N是每帧语音的采样点数;
S1.6.2、设RH(i)与RN(i)分别表示语音的谐波相关性和噪声相关性。由于谐波与噪声互不相关,且噪声没有相关性,故可得:
当i=0时,Rn(0)=RH(0)+RN(0);
当i=T0时,Rn(T0)=RH(T0)=RH(0);
即可得到谐噪比为:
S1.7、采用求根法计算第t帧语音共振峰频率Fi(t),假设为第一个根,3dB带宽为Bi(t),可通过i次迭代得到:
其中,Ts为采样周期;
S1.8、采用逆滤波法计算声门波,设声道模型为全极点模型:
其中βk是系数,M为极点个数,唇辐射模型采用一阶微分器:
L(z)=1-μz-1,
其中μ一般取0.98,则第t帧语音的声门波:
其中Yt(z)为加窗后每个语音帧yt'(n)的Z变换;
S1.9、提取线性预测系数,详细方法如下:
S1.9.1、计算中心削波后的第t帧语音yt(n)的自相关函数Ry(j):
线性预测器可用下式表示:
其中,p为线性预测系数的阶数,ai为线性预测系数;
S1.9.2、采用Levinson-Dubin法求解上述线性方程组:
当i=0时,有
在第i次递归运算时,有
递归求解上述公式,可解得p阶线性预测系数1≤j≤p;
S1.10、提取常Q倒谱系数CQCC,详细做法如下:
S1.10.1、对第t帧语音xt(n)做短时傅里叶变换,得到相应的线性谱:
其中,W(n)为窗函数;
S1.10.2、采用汉明窗作为窗函数:
则上述语音帧线性谱可表示为:
其中,fs为采样频率,fk为中心频率,Q为品质因数,N为窗长;
S1.10.3、将上述语音帧的线性谱转换为对数谱:
S1.10.4对频率进行归一化重新采样:
其中,f1是最小的中心频率,d为常数;
S1.10.5、将重采样后的对数谱进行离散余弦变换,得到第t个语音帧的CQCC:
S1.11、对每个语音帧重复步骤S1.4到S1.10,将依次得到的语音帧的声学特征取绝对值,并按帧的顺序拼接成为特征矩阵V。
S2、语音特征非负矩阵分解:将语音样本的特征矩阵V作为输入,采用非负矩阵分解算法对特征矩阵V进行降维分解,得到降维后的基矩阵W和系数矩阵H,使得V=W×H;详细步骤如下:
采用基于欧氏距离的非负矩阵分解算法对语音特征非负矩阵进行分解,详细做法如下:
S2.1、随机初始化非负的基矩阵W和系数矩阵H。
S2.2、特征矩阵非负分解的目标函数定义为:
其中,V∈Rm×n是步骤S1中得到的基本声学特征矩阵,W∈Rm×k和H∈Rk×n则是其降维矩阵,k称为特征维数,且(m+n)×k<<m×n;
S2.3、利用梯度下降法,可得加法迭代规则如下:
其中,Wik表示W中第i行第k列的元素,Hkj表示H中第k行第j列的元素,μik和ηkj为迭代算子,且有:
S2.4、将上述加法迭代规则变为乘法迭代规则,令:
固定W(a),计算H(a+1),再利用H(a+1)计算出下一个W(a+1),如此循环即可得:
S2.5、归一化W:
S2.6、不断迭代更新得到新的基矩阵W和系数矩阵H,与设定的迭代终止条件阈值比较,如果符合条件就停止迭代,并输出分解后的基矩阵W和系数矩阵H;否则返回到步骤S2.3,继续迭代运算。
S3、训练支持向量机分类器:将训练语音样本的基矩阵W作为输入,采用径向基函数作为核函数,分别训练代表正常人语音和阿尔茨海默症患者语音的支持向量机分类器;详细步骤如下:
S3.1、将经由步骤S2得到的基矩阵W作为输入特征矩阵X:
{(x1,y1),...(xi,yi)}∈(X,Y)
其中,xi∈X为特征矢量,yi∈Y{-1,1}为类标签;
S3.2、采用径向基函数作为支持向量机的核函数κ(·),即:
其中,σ=1.98;
S3.3、引入核函数后,优化问题为:
s.t.0≤αi≤C,i=1,...,l
其中,α为拉格朗日乘子,C为惩罚因子,可以采用序列最小优化算法求得最优解
S3.4、从α*中选取一个分量满足其中,σ为样本方差;
S3.5、构造决策函数:
f(x)即为训练完毕的支持向量机分类器。
S4、阿尔茨海默症判决:对测试语音样本依次进行步骤S1、S2的处理,得到测试语音降维后的基矩阵W,并输入训练好的支持向量机分类器,根据输出结果进行判决:输出为1则测试语音为正常人语音;输出为-1,则测试语音为阿尔茨海默症患者语音。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,其特征在于,包括如下步骤:
S1、提取声学特征:对语音样本进行预处理,接着提取基频、能量、谐噪比、共振峰、声门波、线性预测系数、常Q倒谱系数等声学特征,并对各个特征取绝对值,得到相应的特征矩阵V=[基频,能量,谐噪比,共振峰,声门波,线性预测系数,常Q倒谱系数];
S2、语音特征非负矩阵分解:将语音样本的特征矩阵V作为输入,采用非负矩阵分解算法对特征矩阵V进行降维分解,得到降维后的基矩阵W和系数矩阵H,使得V=W×H;
S3、训练支持向量机分类器:将训练语音样本的基矩阵W作为输入,采用径向基函数作为核函数,分别训练代表正常人语音和阿尔茨海默症患者语音的支持向量机分类器;
S4、阿尔茨海默症判决:将步骤S1和步骤S2提取的测试语音样本的基矩阵W输入训练好的支持向量机分类器,判断输入语音是正常人语音还是阿尔茨海默症患者语音,得到阿尔茨海默症初筛结果。
2.根据权利要求1所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,其特征在于,所述的步骤S1中提取声学特征包括以下步骤:
S1.1、预加重:利用数字滤波器对输入语音进行滤波,该滤波器的传递函数为:
H(z)=1-kz-1,
其中k的取值为0.96;
S1.2、分帧:将预加重后的语音数据按帧长L切分成帧,帧移为S;
S1.3、加窗:汉明窗作为窗函数,并与各帧语音相乘实现加窗处理,加窗后的第t帧语音表示为y′t(n),其中窗函数ω(n):
S1.4、利用自相关法提取各语音帧的基频F0,过程如下:
S1.4.1、对语音帧y′t(n)进行中心削波,得到yt(n):
其中CL为中心削波系数,取值为语音帧最大幅度的0.67倍;
S1.4.2、计算yt(n)的自相关函数:
其中N是每帧语音的采样点数;
S1.4.3、检测Ry(i)的峰值点,并根据峰值点集合PV计算平均基音周期:
其中I是峰值点的个数,T0是基频F0的倒数;
S1.5、计算各帧的能量,第t帧的帧能量Et为:
S1.6、提取各帧语音的谐噪比HNR;
S1.7、采用求根法计算第t帧语音共振峰频率Fi(t),假设为第一个根,3dB带宽为Bi(t),通过i次迭代得到:
其中,Ts为采样周期;
S1.8、采用逆滤波法计算声门波,设声道模型为全极点模型:
其中βk是系数,M为极点个数,唇辐射模型采用一阶微分器:
L(z)=1-μz-1,
其中μ取0.98,则第t帧语音的声门波:
其中Yt(z)为加窗后每个语音帧y′t(n)的Z变换;
S1.9、提取线性预测系数,过程如下:
S1.9.1、计算中心削波后的第t帧语音yt(n)的自相关函数Ry(j):
线性预测器用下式表示:
其中,p为线性预测系数的阶数,ai为线性预测系数;
S1.9.2、采用Levinson-Dubin法求解上述线性方程组:
当i=0时,有
在第i次递归运算时,有
递归求解上述公式,可解得p阶线性预测系数
S1.10、提取常Q倒谱系数CQCC;
S1.11、对每个语音帧重复步骤S1.4到S1.10,将依次得到的语音帧的声学特征取绝对值,并按帧的顺序拼接成为特征矩阵V。
3.根据权利要求2所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,其特征在于,所述的步骤S1.6、提取各帧语音的谐噪比HNR过程如下:
S1.6.1、计算yt(n)的自相关函数:
其中N是每帧语音的采样点数;
S1.6.2、设RH(i)与RN(i)分别表示语音的谐波相关性和噪声相关性。由于谐波与噪声互不相关,且噪声没有相关性,故可得:
当i=0时,Rn(0)=RH(0)+RN(0);
当i=T0时,Rn(T0)=RH(T0)=RH(0);
即可得到谐噪比为:
4.根据权利要求2所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,其特征在于,所述的步骤S1.10、提取常Q倒谱系数CQCC过程如下:
S1.10.1、对第t帧语音xt(n)做短时傅里叶变换,得到相应的线性谱:
其中,W(n)为窗函数;
S1.10.2、采用汉明窗作为窗函数:
则上述语音帧线性谱可表示为:
其中,fs为采样频率,fk为中心频率,Q为品质因数,N为窗长;
S1.10.3、将上述语音帧的线性谱转换为对数谱:
S1.10.4对频率进行归一化重新采样:
其中,f1是最小的中心频率,d为常数;
S1.10.5、将重采样后的对数谱进行离散余弦变换,得到第t个语音帧的CQCC:
5.根据权利要求1所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,其特征在于,所述的步骤S2中采用基于欧氏距离的非负矩阵分解算法对语音特征非负矩阵进行分解,过程如下:
S2.1、随机初始化非负的基矩阵W和系数矩阵H;
S2.2、特征矩阵非负分解的目标函数定义为:
其中,V∈Rm×n是步骤S1中得到的基本声学特征矩阵,W∈Rm×k和H∈Rk×n则是其降维矩阵,k称为特征维数,且(m+n)×k<<m×n;
S2.3、利用梯度下降法,得加法迭代规则如下:
其中,Wik表示W中第i行第k列的元素,Hkj表示H中第k行第j列的元素,μik和ηkj为迭代算子,且有:
S2.4、将上述加法迭代规则变为乘法迭代规则,令:
固定W(a),计算H(a+1),再利用H(a+1)计算出下一个W(a+1),如此循环即可得:
S2.5、归一化W:
S2.6、不断迭代更新得到新的基矩阵W和系数矩阵H,与设定的迭代终止条件阈值比较,如果符合条件就停止迭代,并输出分解后的基矩阵W和系数矩阵H;否则返回到步骤S2.3,继续迭代运算。
6.根据权利要求1所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,其特征在于,所述的步骤S3、训练支持向量机分类器具体包括以下步骤:
S3.1、将经由步骤S2得到的基矩阵W作为输入特征矩阵X:
{(x1,y1),...(xi,yi)}∈(X,Y)
其中,xi∈X为特征矢量,yi∈Y{-1,1}为类标签;
S3.2、采用径向基函数作为支持向量机的核函数κ(·),即:
其中,σ=1.98;
S3.3、引入核函数后,优化问题为:
s.t.0≤αi≤C,i=1,...,l
其中,α为拉格朗日乘子,C为惩罚因子,采用序列最小优化算法求得最优解
S3.4、从α*中选取一个分量满足其中,σ为样本方差;
S3.5、构造决策函数:
f(x)即为训练完毕的支持向量机分类器。
7.根据权利要求1所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法,其特征在于,所述的步骤S4、阿尔茨海默症判决的过程如下:对测试语音样本依次进行步骤S1、S2的处理,得到测试语音降维后的基矩阵W,并输入训练好的支持向量机分类器,根据输出结果进行判决:输出为1则测试语音为正常人语音;输出为-1,则测试语音为阿尔茨海默症患者语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810140213.2A CN108198576A (zh) | 2018-02-11 | 2018-02-11 | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810140213.2A CN108198576A (zh) | 2018-02-11 | 2018-02-11 | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108198576A true CN108198576A (zh) | 2018-06-22 |
Family
ID=62593122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810140213.2A Pending CN108198576A (zh) | 2018-02-11 | 2018-02-11 | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108198576A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036469A (zh) * | 2018-07-17 | 2018-12-18 | 西安交通大学 | 一种基于声音特征的自主神经功能参数获取方法 |
CN109584861A (zh) * | 2018-12-03 | 2019-04-05 | 江苏师范大学 | 基于深度学习的阿尔茨海默症语音信号的筛查方法 |
CN109754822A (zh) * | 2019-01-22 | 2019-05-14 | 平安科技(深圳)有限公司 | 建立阿兹海默症检测模型的方法和装置 |
CN109841231A (zh) * | 2018-12-29 | 2019-06-04 | 深圳先进技术研究院 | 一种针对汉语普通话的早期ad言语辅助筛查系统 |
CN110633368A (zh) * | 2019-09-12 | 2019-12-31 | 淮阴工学院 | 早期结直肠癌非结构化数据的深度学习分类方法 |
CN111415652A (zh) * | 2020-03-31 | 2020-07-14 | 汕头大学 | 一种用于失语症患者康复训练专用的语音识别方法 |
WO2020215697A1 (zh) * | 2019-08-09 | 2020-10-29 | 平安科技(深圳)有限公司 | 舌头图像提取方法、装置及计算机可读存储介质 |
CN113823291A (zh) * | 2021-09-07 | 2021-12-21 | 广西电网有限责任公司贺州供电局 | 一种应用于电力作业中的声纹识别的方法及系统 |
CN114446326A (zh) * | 2022-01-27 | 2022-05-06 | 四川大学华西医院 | 基于时频分辨率的吞咽障碍患者识别方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2696344A1 (fr) * | 2012-08-10 | 2014-02-12 | Thales | Procede et systeme pour detecter des evenements sonores dans un environnement donne |
CN106941005A (zh) * | 2017-02-24 | 2017-07-11 | 华南理工大学 | 一种基于语音声学特征的声带异常检测方法 |
-
2018
- 2018-02-11 CN CN201810140213.2A patent/CN108198576A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2696344A1 (fr) * | 2012-08-10 | 2014-02-12 | Thales | Procede et systeme pour detecter des evenements sonores dans un environnement donne |
CN106941005A (zh) * | 2017-02-24 | 2017-07-11 | 华南理工大学 | 一种基于语音声学特征的声带异常检测方法 |
Non-Patent Citations (3)
Title |
---|
何俊,李艳雄,贺前华,李威: "变异特征加权的异常语音说话人识别算法", 《华南理工大学学报(自然科学版)》 * |
李宁: "《博士学位论文》", 15 October 2013, 华东师范大学 * |
贺前华,何俊,李艳雄,王志峰: "基于相关维数的病变连续语音检测算法", 《华南理工大学学报(自然科学版)》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036469A (zh) * | 2018-07-17 | 2018-12-18 | 西安交通大学 | 一种基于声音特征的自主神经功能参数获取方法 |
CN109584861A (zh) * | 2018-12-03 | 2019-04-05 | 江苏师范大学 | 基于深度学习的阿尔茨海默症语音信号的筛查方法 |
CN109841231A (zh) * | 2018-12-29 | 2019-06-04 | 深圳先进技术研究院 | 一种针对汉语普通话的早期ad言语辅助筛查系统 |
WO2020134647A1 (zh) * | 2018-12-29 | 2020-07-02 | 深圳先进技术研究院 | 一种针对汉语普通话的早期ad言语辅助筛查系统 |
CN109754822A (zh) * | 2019-01-22 | 2019-05-14 | 平安科技(深圳)有限公司 | 建立阿兹海默症检测模型的方法和装置 |
WO2020215697A1 (zh) * | 2019-08-09 | 2020-10-29 | 平安科技(深圳)有限公司 | 舌头图像提取方法、装置及计算机可读存储介质 |
CN110633368A (zh) * | 2019-09-12 | 2019-12-31 | 淮阴工学院 | 早期结直肠癌非结构化数据的深度学习分类方法 |
CN111415652A (zh) * | 2020-03-31 | 2020-07-14 | 汕头大学 | 一种用于失语症患者康复训练专用的语音识别方法 |
CN111415652B (zh) * | 2020-03-31 | 2022-06-14 | 汕头大学 | 一种用于失语症患者康复训练专用的语音识别方法 |
CN113823291A (zh) * | 2021-09-07 | 2021-12-21 | 广西电网有限责任公司贺州供电局 | 一种应用于电力作业中的声纹识别的方法及系统 |
WO2023036016A1 (zh) * | 2021-09-07 | 2023-03-16 | 广西电网有限责任公司贺州供电局 | 一种应用于电力作业中的声纹识别的方法及系统 |
CN114446326A (zh) * | 2022-01-27 | 2022-05-06 | 四川大学华西医院 | 基于时频分辨率的吞咽障碍患者识别方法及设备 |
CN114446326B (zh) * | 2022-01-27 | 2023-07-04 | 四川大学华西医院 | 基于时频分辨率的吞咽障碍患者识别方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198576A (zh) | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 | |
Panek et al. | Acoustic analysis assessment in speech pathology detection | |
CN106941005A (zh) | 一种基于语音声学特征的声带异常检测方法 | |
CN111048071B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
Guido | A tutorial on signal energy and its applications | |
Salhi et al. | Voice disorders identification using multilayer neural network | |
CN111798874A (zh) | 一种语音情绪识别方法及系统 | |
Fujimura et al. | Classification of voice disorders using a one-dimensional convolutional neural network | |
CN113405825B (zh) | 一种基于声音信号的带式输送机故障诊断方法 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN108615533A (zh) | 一种基于深度学习的高性能语音增强方法 | |
Sáenz-Lechón et al. | Automatic assessment of voice quality according to the GRBAS scale | |
Pravena et al. | Pathological voice recognition for vocal fold disease | |
Chaurasiya | Time-frequency representations: Spectrogram, cochleogram and correlogram | |
CN113111151A (zh) | 一种基于智能语音问答的跨模态抑郁症检测方法 | |
Salhi et al. | Voice disorders identification using hybrid approach: Wavelet analysis and multilayer neural networks | |
Dubey et al. | Sinusoidal model-based hypernasality detection in cleft palate speech using CVCV sequence | |
Alimuradov et al. | A method to determine cepstral markers of speech signals under psychogenic disorders | |
Yu et al. | Multidimensional acoustic analysis for voice quality assessment based on the GRBAS scale | |
Francis et al. | A scale invariant technique for detection of voice disorders using Modified Mellin Transform | |
CN116570284A (zh) | 一种基于语音表征的抑郁症识别方法、系统 | |
CN116013371A (zh) | 一种神经退行性疾病监测方法、系统、装置及存储介质 | |
Dubey et al. | Hypernasality Severity Detection Using Constant Q Cepstral Coefficients. | |
CN115116475A (zh) | 一种基于时延神经网络的语音抑郁症自动检测方法和装置 | |
Cai et al. | The best input feature when using convolutional neural network for cough recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180622 |
|
WD01 | Invention patent application deemed withdrawn after publication |