CN107767859B - 噪声环境下人工耳蜗信号的说话人可懂性检测方法 - Google Patents

噪声环境下人工耳蜗信号的说话人可懂性检测方法 Download PDF

Info

Publication number
CN107767859B
CN107767859B CN201711111307.9A CN201711111307A CN107767859B CN 107767859 B CN107767859 B CN 107767859B CN 201711111307 A CN201711111307 A CN 201711111307A CN 107767859 B CN107767859 B CN 107767859B
Authority
CN
China
Prior art keywords
voice
signal
time
speaker
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711111307.9A
Other languages
English (en)
Other versions
CN107767859A (zh
Inventor
林琳
孙晓颖
陈建
杨鹏
王程
王秀成
赵静仪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201711111307.9A priority Critical patent/CN107767859B/zh
Publication of CN107767859A publication Critical patent/CN107767859A/zh
Application granted granted Critical
Publication of CN107767859B publication Critical patent/CN107767859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明涉及一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,属于语音信号处理领域。纯净参考语音信号首先经过人工耳蜗处理算法并进行波形重构,得到经人工耳蜗处理后的纯净语音。再经过特征提取后,建立特定说话人的语音模型;识别阶段,纯净识别语音加噪声后,形成带噪识别语音,进行特征提取后,与说话可懂性模型进行匹配,得到最终的检测结果。优点在于:为提高人工耳蜗用户的语音感知力提供了一个重要的理论依据,减少噪声在匹配过程中的影响,提高检测的准确性,采用基于动态Gammachirp滤波器组的组合特征参数,进一步提高检测方法的噪声鲁棒性。

Description

噪声环境下人工耳蜗信号的说话人可懂性检测方法
技术领域
本发明涉及语音信号处理领域,特别是对经过人工耳蜗处理后的语音信号,在噪声环境下对不同说话人语音可懂度的检测方法。
背景技术
目前,人工耳蜗的研究主要集中在人工耳蜗对声音处理的方法、人工耳蜗用户对不同语音的可懂度,以及对人工耳蜗装置或系统的开发及改进等,如专利CN103892939A、CN101716108A、CN101953722A等是从人工耳蜗对声音的处理方法进行了研究;专利CN101770549A公开了一种基于“虚拟处理器”的言语处理策略自动检测方法及检测系统,对人工耳蜗处理算法实现的正确性进行检测等。目前大多数研究更关注不同处理算法的改进,以提高人工耳蜗用户对语音的可懂度,其焦点更加关注对每一个语音的识别,而不考虑说话人的因素。
不同说话人语音的可懂性差别很大,有些说话人的语音更容易让人听懂。这些差别很大程度上来自他们的语音特性,比如人说话时的平均语速、平均基音频率、谱均衡等。对于正常听力的听者,在安静的环境下,不同说话人的这些差异对听者听到的内容和进行语音交流的影响几乎很小。然而,与正常听力的听者不同,使用人工耳蜗的听者,即使在安静的环境下,对连续的对话语音的内容有时都很难听懂。说话人的语速越快,人工耳蜗使用者对语音的理解度就越差。实际噪声的存在使得人工耳蜗使用者对语音的理解度急剧下降。因此,如何提高噪声环境下人工耳蜗用户对说话人语音的可懂度,是当前人工耳蜗领域研究的一个热点问题。
发明内容
本发明提供一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,以噪声环境下人工耳蜗处理后的汉语语音信号为研究对象,建立其对不同说话人语音可懂度的模型,从而实现人工耳蜗用户的说话人语音可懂度的检测。
本发明采取的技术方案是,包括下列步骤:
(一)人工耳蜗处理过程如下:
(1)、语音信号的预处理
语音信号的预处理包括端点检测、均方根归一化、将输入信号采样率调整为Fs、预加重、分帧和加窗,得到预处理后N个帧长为L的短时帧信号;
(2)、对预处理后的语音信号进行FFT带通滤波器组滤波,包括以下步骤:
1)对加窗的短时帧信号进行FFT变换,计算每个短时帧频谱S(l,i);其中i=1,…,N表示第i个短时帧,l表示每个短时帧第l个频率点取值,l=0,1,2,…,L-1;
2)利用Nc个通道带通滤波器组对每个短时帧频谱进行滤波,保留落入相应通道频率范围的频率分量,其余频率分量滤除;
(3)、各通道包络提取
采用希尔伯特变换的方式,提取每个短时帧信号频谱中的包络,令j表示第j个通道的带通滤波器,其中j=1,…,Nc;q表示第j个带通滤波器通带内对应频率节点的个数,则经过FFT带通滤波器组后得到的每个通道的包络F(j,i);
Figure GDA0002628436680000021
式中,
Figure GDA0002628436680000022
Fs为信号的采样率,ck为通道增益系数,k=1,2,…,Nc,满足
Figure GDA0002628436680000023
其中|G(0)|表示汉宁窗经傅里叶变换后得到直流分量的幅度值,|G(0.5)|是将汉宁窗补零至原来长度的两倍后,进行傅里叶变换得到的第二个谐波分量的幅度值,根据不同通道内包含的频率分量个数q的大小,由上式选择对应的通道增益系数,以便均衡各通道的包络能量;
(4)、峰值选择
从Nc个通道的包络中选择n个幅值最大的包络值来表示产生电刺激的电极点,并利用Id来记录n个幅值最大通道的通道号,Amc表示n个幅值最大通道对应的包络;
(5)、幅度压缩
对于被选中作为产生电刺激的电极通道而言,需要计算各通道电极的刺激脉冲时间,并对其振幅信号Amc进行幅值压缩处理,以满足电刺激的动态范围,最终得到刺激电极上交叉脉冲刺激序列的电流幅度Im,m=1,2,…,n,这里,电极是由底至顶的顺序产生刺激信号;
(6)、语音波形重构
(1)输入幅度压缩后的刺激电极上交叉脉冲刺激序列的电流幅度信号Im
(2)使用截止频率为Ls的低通滤波器估计每个通道的包络AL
(3)利用人工耳蜗处理算法过程中的FFT滤波器,对随机白噪声信号进行频域滤波;
(4)用白噪声信号频域滤波后的信号对幅度压缩后各通道的包络进行调制;
(5)将每个通道的信号转变为时域函数,然后重叠相加所有通道的信号,最终得到经过人工耳蜗处理后的语音信号;
(二)特定说话人的语音建模方法
包括下列步骤:
(1)、输入纯净训练语音信号,经过上述步骤(一)人工耳蜗处理,得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI;
(2)、提取步骤(1)产生的语音信号CleanCI的短时谱参数,得到CleanCI语音信号的短时谱参数FCleanCI
(3)、特征提取算法步骤:首先将语音信号通过动态Gammachirp滤波器组,在每个频率通道中计算包络,然后以100Hz的采样率采样,利用对数log函数进行压缩,取其离散余弦变换,最终得到短时谱参数FCleanCI
(4)、计算短时谱参数FCleanCI一阶动态参数△FCleanCI,并形成组合特征参数FDCleanCI=[FCleanCI△FCleanCI];
(5)、利用所有参考说话人的特征参数FDclean训练与说话人无关的隐马尔科夫语音模型,作为说话人独立的背景模型SI;
(6)、利用背景模型SI和每个参考说话人特征参数FDclean_w,其中w=1,2,...,Nw,这里Nw是参考说话人个数,采用Baum-Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型(hidden Markov models,HMMs)λwb,其中b表示关键词序号,b=1,2,..Nb在每个词的HMMs模型λwb中,每个音素使用两个状态表示,不同关键词模型λwb中状态的个数直接由关键词包含的音素个数决定,每个状态有两个转移特性,自转移和到边界状态的转移,每个状态由Mh个混合度的高斯混合模型构成,高斯混合模型的协方差矩阵采用对角阵,所有的模型状态都由一个单高斯模型初始化,然后混合度自适应变成2、3、4、5个,直到最后得到Mh个混合度的高斯混合模型GMM;
(三)说话人可懂度检测方法
(1)、输入纯净识别语音,加入噪声信号,按照信噪比SNR的要求,得到不同信噪比条件下的带噪识别语音;
(2)、分别将纯净识别语音和带噪识别语音进行人工耳蜗处理算法处理,得到纯净识别语音经人工耳蜗处理后的重构语音RCleanCI和加入噪声后的人工耳蜗语音信号RNoisyCI;
(3)、分别提取前一步骤(2)产生的语音信号RNoisyCI和RCleanCI的短时谱参数RFNoisyCI和RFCleanCI
(4)、可靠小区域块检测
1)分别短时谱参数RFNoisyCI和RFCleanCI计算每个时频单元的局部信噪比,分别得到SNR(t,f),这里t表示时间,f表示频率;
Figure GDA0002628436680000041
2)计算掩码IRM(t,f)
Figure GDA0002628436680000042
这里,β是一个衡量掩码的可调参数;
3)确定时频单元中可靠的时频单元点;
设置相应的阈值T,比较每个时频单元掩码与阈值T之间的大小,如果对应时频单元点的值大于阈值T,则认为该时频单元点为可靠的,用“1”进行标注,否则标记“0”;
Figure GDA0002628436680000043
4)确定可靠的小区域块;
如果某个区域块中包含的可靠时频单元点数大于设定的M点,则认为该区域就是可靠的小区域块,否则该区域为掩蔽区域,利用这个原则,对标注的时频单元Mask(t,f)进行分析,得到经过CI处理后带噪语音时频单元中可靠的小区域块Gc,c=1,2,…,C,其中C表示可靠小区域的个数;
(5)、利用短时谱参数RFNoisyCI计算其一阶动态参数△RFNoisyCI,并形成组合参数RFDNoisyCI=[FNoisyCI△FNoisyCI];
(6)、对于每一个参考说话人的识别语音,根据上述确定的可靠小区域块以及掩蔽区域,采用基于缺失数据特征的识别方法进行识别;
Figure GDA0002628436680000051
其中iw∈[1,Nw],ib∈[1,Nb];
根据公式(6)得到的识别结果,统计每一个说话人每句话关键词识别的识别率,作为每个说话人可懂度的检测结果;
Figure GDA0002628436680000052
(7)、在实际的听力测试中,对每一条识别语音,听力测试者需要记录对应的语音是哪个说话人的第几个关键词,然后按照公式(7)的标准进行统计计算,得到每个说话人可懂度的检测结果,与理论检测结果比对,验证计算有效性。
本发明所述步骤(三)说话人可懂度检测方法中(6)、采用基于缺失数据特征的识别方法进行识别的方法是:采用边缘化算法,完全忽略不可靠的组合参数,用可靠的组合参数RFDNoisyCI_r进行识别,则利用Viterbi算法估计后验概率f(RFDNoisyCIwb)=f(RFDNoisyCI_rwb),找到最大后验概率对应的关键词模型作为识别结果,iw和ib分别指的是识别语音被识别为说话人iw的第ib个关键词。
本发明的优点在于:
1、本发明提供了一种噪声环境下人工耳蜗处理信号的说话人可懂性的检测方法,其研究的重点在于不同说话人对人工耳蜗用户语音感知的影响,为提高人工耳蜗用户的语音感知力提供了一个重要的理论依据。
2、本发明采用可靠小区域检测技术,在不同噪声环境中对人工耳蜗语音中噪声和语音的区域进行可靠的标记,从而减少噪声在匹配过程中的影响,提高检测的准确性。
3、本发明采用基于动态Gammachirp滤波器组的组合特征参数,进一步提高检测方法的噪声鲁棒性。
附图说明
图1是本发明的人工耳蜗处理算法流程图;
图2是本发明的预处理算法流程图;
图3是本发明的语音重构流程图;
图4是本发明的特定说话人语音建模算法流程图;
图5是本发明的特征参数提取算法框图;
图6是本发明的说话人语音可懂性的检测算法流程图。
具体实施方式
包括下列步骤:
(一)人工耳蜗处理过程如下,如图1所示;
(1)、语音信号的预处理
语音信号的预处理流程如图2所示,该流程包括:输入语音信号、端点检测、均方根归一化、将输入信号采样率调整为Fs、预加重、分帧和加窗。这里,采用能量检测法进行端点检测;均方根归一化后使得输入信号的均方根值为1;Fs取16000Hz,如果信号的采样率不等于Fs,则需要将信号重新采样至Fs;采用截止频率为1200Hz的高通滤波器滤波进行预加重;采用汉明窗分帧,其中每帧帧长8ms(L=128点),预处理后得到N个帧长为L的短时帧信号;
(2)、对预处理后的语音信号进行FFT带通滤波器组滤波,包括以下步骤:
1)对加窗的短时帧信号进行FFT变换,计算每个短时帧频谱S(l,i);其中i=1,…,N表示第i个短时帧,l表示每个短时帧第l个频率点取值,l=0,1,2,…,L-1;
2)利用Nc个通道带通滤波器组对每个短时帧频谱进行滤波,按照表1滤波器组频率节点的设置情况,保留落入相应通道频率范围的频率分量,其余频率分量滤除。其中,Nc取22;
表1 FFT带通滤波器组频率节点的设置
Figure GDA0002628436680000071
(3)、各通道包络提取
采用希尔伯特变换的方式,提取频谱中的包络。令j表示第j个通道的带通滤波器,其中j=1,…,Nc,这里Nc取22;q表示第j个带通滤波器通带内对应频率节点的个数(见表1),则经过FFT带通滤波器组后得到的每个通道的包络F(j,i);
Figure GDA0002628436680000072
式中,
Figure GDA0002628436680000073
Fs为信号的采样率,Fs=16000,ck为通道增益系数,k=1,2,…,Nc,满足
Figure GDA0002628436680000081
其中|G(0)|表示汉宁窗经傅里叶变换后得到直流分量的幅度值,|G(0.5)|是将汉宁窗补零至原来长度的两倍后,进行傅里叶变换得到的第二个谐波分量的幅度值,根据不同通道内包含的频率分量个数q的大小,由式(2)选择对应的通道增益系数,以便均衡各通道的包络能量;
(4)、峰值选择
从Nc个通道的包络中选择n个幅值最大的包络值来表示产生电刺激的电极点,这里取Nc=22,n=8,并利用Id来记录n个幅值最大通道的通道号,Amc表示n个幅值最大通道对应的包络;
(5)、幅度压缩
对于被选中作为产生电刺激的电极通道而言,需要计算各通道电极的刺激脉冲时间,并对其振幅信号Amc进行幅值压缩处理,以满足电刺激的动态范围,最终得到刺激电极上交叉脉冲刺激序列的电流幅度Im,m=1,2,…,n,这里,电极是由底至顶的顺序产生刺激信号;Amc幅度压缩公式:
Figure GDA0002628436680000082
cl=Round[Tl+(Cml-Tl)×Cm]
其中基准值B=0.0156,饱和等级M=0.5859,陡度控制函数αc=415.96,电流阈值Tl=100,舒适度值Cml=200;
(6)、语音波形重构,如图3所示;
(1)输入幅度压缩后的刺激电极上交叉脉冲刺激序列的电流幅度信号Im
(2)使用截止频率为Ls=400Hz的低通滤波器估计每个通道的包络AL
(3)利用人工耳蜗处理算法过程中的FFT滤波器,对随机白噪声信号进行频域滤波;
(4)用白噪声信号频域滤波后的信号对幅度压缩后各通道的包络进行调制;
(5)将每个通道的信号转变为时域函数,然后重叠相加所有通道的信号,最终得到经过人工耳蜗处理后的语音信号;
(二)特定说话人的语音建模方法,其流程图如图4所示;
包括下列步骤:
(1)、输入纯净训练语音信号,经过图1所示步骤(一)人工耳蜗处理,得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI;
(2)、提取步骤(1)产生的语音信号CleanCI的短时谱参数,得到CleanCI语音信号的短时谱参数FCleanCI,特征提取方法的框图如图5所示;
(3)、特征提取方法步骤:首先将语音信号通过一个64通道的动态Gammachirp滤波器组,取该滤波器组的中心频率范围为60Hz~8000Hz,在每个频率通道中,利用Hilbert变换计算包络,然后以100Hz的采样率采样,利用对数log函数进行压缩,取其离散余弦变换,最终得到24维的短时谱参数FCleanCI
(4)、对由上一步计算得到的24维短时谱参数FCleanCI,计算其24维一阶动态参数△FCleanCI,并形成48维组合特征参数FDCleanCI=[FCleanCI△FCleanCI];
(5)、利用所有参考说话人的特征参数FDclean训练与说话人无关的隐马尔科夫语音模型,作为说话人独立的背景模型SI;
(6)、利用背景模型SI和每个参考说话人特征参数FDclean_w,其中w=1,2,...,Nw,这里Nw是参考说话人个数,可取20,采用Baum-Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型(hidden Markov models,HMMs)λwb,其中b表示关键词序号,b=1,2,..Nb,如果对每个参考说话人进行3个关键词的识别,则Nb取3,在每个词的HMMs模型λwb中,每个音素使用两个状态表示,不同关键词模型λwb中状态的个数直接由关键词包含的音素个数决定,每个状态有两个转移特性,自转移和到边界状态的转移,每个状态由Mh个混合度的高斯混合模型构成,高斯混合模型的协方差矩阵采用对角阵,所有的模型状态都由一个单高斯模型初始化,然后混合度自适应变成2、3、4、5个,直到最后得到Mh个混合度的高斯混合模型GMM,这里Mh取7;
(三)说话人可懂度检测方法
(1)、输入纯净识别语音,加入噪声信号,按照信噪比SNR的要求,得到不同信噪比条件下的带噪识别语音;
(2)、分别将纯净识别语音和带噪识别语音进行人工耳蜗处理算法处理,得到纯净识别语音经人工耳蜗处理后的重构语音RCleanCI和加入噪声后的人工耳蜗语音信号RNoisyCI;
(3)、分别提取前一步骤(2)产生的语音信号RNoisyCI和RCleanCI的短时谱参数,具体流程如图6所示,具体步骤见训练过程步骤(2),采用上面的方法,分别可以计算得到RNoisyCI和RCleanCI语音信号的24维短时谱参数RFNoisyCI和RFCleanCI
(4)、可靠小区域块检测
1)分别短时谱参数RFNoisyCI和RFCleanCI计算每个时频单元的局部信噪比,分别得到SNR(t,f),这里t表示时间,f表示频率;
Figure GDA0002628436680000101
2)计算掩码IRM(t,f)
Figure GDA0002628436680000102
这里,β是一个衡量掩码的可调参数,取β=0.5;
3)确定时频单元中可靠的时频单元点;
设置相应的阈值T,比较每个时频单元掩码与阈值T之间的大小,如果对应时频单元点的值大于阈值T,则认为该时频单元点为可靠的,用“1”进行标注,否则标记“0”;这里T取0.6;
Figure GDA0002628436680000103
4)确定可靠的小区域块;
如果某个区域块中包含的可靠时频单元点数大于设定的M点(这里M取25),则认为该区域就是可靠的小区域块,否则该区域为掩蔽区域,利用这个原则,对标注的时频单元Mask(t,f)进行分析,得到经过CI处理后带噪语音时频单元中可靠的小区域块Gc,c=1,2,…,C,其中C表示可靠小区域的个数;
(5)、利用24维短时谱参数RFNoisyCI计算其24维一阶动态参数△RFNoisyCI,并形成组合参数RFDNoisyCI=[FNoisyCI△FNoisyCI];
(6)、对于每一个参考说话人的识别语音,根据上述确定的可靠小区域块以及掩蔽区域,采用基于缺失数据特征的识别方法进行识别,
这里采用边缘化算法,完全忽略不可靠的组合参数,用可靠的组合参数RFDNoisyCI_r进行识别,则利用Viterbi算法估计后验概率f(RFDNoisyCIwb)=f(RFDNoisyCI_rwb),找到最大后验概率对应的关键词模型作为识别结果,iw和ib分别指的是识别语音被识别为说话人iw的第ib个关键词;
Figure GDA0002628436680000111
其中iw∈[1,Nw],ib∈[1,Nb];
根据公式(6)得到的识别结果,统计每一个说话人每句话关键词识别的识别率,作为每个说话人可懂度的检测结果;
Figure GDA0002628436680000112
(7)、在实际的听力测试中,对每一条识别语音,听力测试者需要记录对应的语音是哪个说话人的第几个关键词,然后按照公式(7)的标准进行统计计算,得到每个说话人可懂度的检测结果,与理论检测结果比对,验证计算有效性。

Claims (2)

1.一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,其特征在于,包括下列步骤:
(一)人工耳蜗处理过程如下:
(1)、语音信号的预处理
语音信号的预处理包括端点检测、均方根归一化、将输入信号采样率调整为Fs、预加重、分帧和加窗,得到预处理后N个帧长为L的短时帧信号;
(2)、对预处理后的语音信号进行FFT带通滤波器组滤波,包括以下步骤:
1)对加窗的短时帧信号进行FFT变换,计算每个短时帧频谱S(l,i);其中i=1,…,N表示第i个短时帧,l表示每个短时帧第l个频率点取值,l=0,1,2,…,L-1;
2)利用Nc个通道带通滤波器组对每个短时帧频谱进行滤波,保留落入相应通道频率范围的频率分量,其余频率分量滤除;
(3)、各通道包络提取
采用希尔伯特变换的方式,提取每个短时帧信号频谱中的包络,令j表示第j个通道的带通滤波器,其中j=1,…,Nc;q表示第j个带通滤波器通带内对应频率节点的个数,则经过FFT带通滤波器组后得到的每个通道的包络F(j,i);
Figure FDA0002628436670000011
式中,
Figure FDA0002628436670000012
Fs为信号的采样率,ck为通道增益系数,k=1,2,…,Nc,满足
Figure FDA0002628436670000013
其中|G(0)|表示汉宁窗经傅里叶变换后得到直流分量的幅度值,|G(0.5)|是将汉宁窗补零至原来长度的两倍后,进行傅里叶变换得到的第二个谐波分量的幅度值,根据不同通道内包含的频率分量个数q的大小,由上式选择对应的通道增益系数,以便均衡各通道的包络能量;
(4)、峰值选择
从Nc个通道的包络中选择n个幅值最大的包络值来表示产生电刺激的电极点,并利用Id来记录n个幅值最大通道的通道号,Amc表示n个幅值最大通道对应的包络;
(5)、幅度压缩
对于被选中作为产生电刺激的电极通道而言,需要计算各通道电极的刺激脉冲时间,并对其振幅信号Amc进行幅值压缩处理,以满足电刺激的动态范围,最终得到刺激电极上交叉脉冲刺激序列的电流幅度Im,m=1,2,…,n,这里,电极是由底至顶的顺序产生刺激信号;
(6)、语音波形重构
(1)输入幅度压缩后的刺激电极上交叉脉冲刺激序列的电流幅度信号Im
(2)使用截止频率为Ls的低通滤波器估计每个通道的包络AL
(3)利用人工耳蜗处理算法过程中的FFT滤波器,对随机白噪声信号进行频域滤波;
(4)用白噪声信号频域滤波后的信号对幅度压缩后各通道的包络进行调制;
(5)将每个通道的信号转变为时域函数,然后重叠相加所有通道的信号,最终得到经过人工耳蜗处理后的语音信号;
(二)特定说话人的语音建模方法
包括下列步骤:
(1)、输入纯净训练语音信号,经过上述步骤(一)人工耳蜗处理,得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI;
(2)、提取步骤(1)产生的语音信号CleanCI的短时谱参数,得到CleanCI语音信号的短时谱参数FCleanCI
(3)、特征提取算法步骤:首先将语音信号通过动态Gammachirp滤波器组,在每个频率通道中计算包络,然后以100Hz的采样率采样,利用对数log函数进行压缩,取其离散余弦变换,最终得到短时谱参数FCleanCI
(4)、计算短时谱参数FCleanCI一阶动态参数△FCleanCI,并形成组合特征参数FDCleanCI=[FCleanCI△FCleanCI];
(5)、利用所有参考说话人的特征参数FDclean训练与说话人无关的隐马尔科夫语音模型,作为说话人独立的背景模型SI;
(6)、利用背景模型SI和每个参考说话人特征参数FDclean_w,其中w=1,2,...,Nw,这里Nw是参考说话人个数,采用Baum-Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型(hidden Markov models,HMMs)λwb,其中b表示关键词序号,b=1,2,..Nb在每个词的HMMs模型λwb中,每个音素使用两个状态表示,不同关键词模型λwb中状态的个数直接由关键词包含的音素个数决定,每个状态有两个转移特性,自转移和到边界状态的转移,每个状态由Mh个混合度的高斯混合模型构成,高斯混合模型的协方差矩阵采用对角阵,所有的模型状态都由一个单高斯模型初始化,然后混合度自适应变成2、3、4、5个,直到最后得到Mh个混合度的高斯混合模型GMM;
(三)说话人可懂度检测方法
(1)、输入纯净识别语音,加入噪声信号,按照信噪比SNR的要求,得到不同信噪比条件下的带噪识别语音;
(2)、分别将纯净识别语音和带噪识别语音进行人工耳蜗处理算法处理,得到纯净识别语音经人工耳蜗处理后的重构语音RCleanCI和加入噪声后的人工耳蜗语音信号RNoisyCI;
(3)、分别提取前一步骤(2)产生的语音信号RNoisyCI和RCleanCI的短时谱参数RFNoisyCI和RFCleanCI
(4)、可靠小区域块检测
1)分别短时谱参数RFNoisyCI和RFCleanCI计算每个时频单元的局部信噪比,分别得到SNR(t,f),这里t表示时间,f表示频率;
Figure FDA0002628436670000031
2)计算掩码IRM(t,f)
Figure FDA0002628436670000032
这里,β是一个衡量掩码的可调参数;
3)确定时频单元中可靠的时频单元点;
设置相应的阈值T,比较每个时频单元掩码与阈值T之间的大小,如果对应时频单元点的值大于阈值T,则认为该时频单元点为可靠的,用“1”进行标注,否则标记“0”;
Figure FDA0002628436670000041
4)确定可靠的小区域块;
如果某个区域块中包含的可靠时频单元点数大于设定的M点,则认为该区域就是可靠的小区域块,否则该区域为掩蔽区域,利用这个原则,对标注的时频单元Mask(t,f)进行分析,得到经过CI处理后带噪语音时频单元中可靠的小区域块Gc,c=1,2,…,C,其中C表示可靠小区域的个数;
(5)、利用短时谱参数RFNoisyCI计算其一阶动态参数△RFNoisyCI,并形成组合参数RFDNoisyCI=[FNoisyCI△FNoisyCI];
(6)、对于每一个参考说话人的识别语音,根据上述确定的可靠小区域块以及掩蔽区域,采用基于缺失数据特征的识别方法进行识别;
Figure FDA0002628436670000042
其中iw∈[1,Nw],ib∈[1,Nb];
根据公式(6)得到的识别结果,统计每一个说话人每句话关键词识别的识别率,作为每个说话人可懂度的检测结果;
Figure FDA0002628436670000043
(7)、在实际的听力测试中,对每一条识别语音,听力测试者需要记录对应的语音是哪个说话人的第几个关键词,然后按照公式(7)的标准进行统计计算,得到每个说话人可懂度的检测结果,与理论检测结果比对,验证计算有效性。
2.根据权利要求1所述的一种噪声环境下人工耳蜗信号的说话人可懂性检测方法,其特征在于:步骤(三)说话人可懂度检测方法中(6)、采用基于缺失数据特征的识别方法进行识别的方法是:采用边缘化算法,完全忽略不可靠的组合参数,用可靠的组合参数RFDNoisyCI_r进行识别,则利用Viterbi算法估计后验概率f(RFDNoisyCIwb)=f(RFDNoisyCI_rwb),找到最大后验概率对应的关键词模型作为识别结果,iw和ib分别指的是识别语音被识别为说话人iw的第ib个关键词。
CN201711111307.9A 2017-11-10 2017-11-10 噪声环境下人工耳蜗信号的说话人可懂性检测方法 Active CN107767859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711111307.9A CN107767859B (zh) 2017-11-10 2017-11-10 噪声环境下人工耳蜗信号的说话人可懂性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711111307.9A CN107767859B (zh) 2017-11-10 2017-11-10 噪声环境下人工耳蜗信号的说话人可懂性检测方法

Publications (2)

Publication Number Publication Date
CN107767859A CN107767859A (zh) 2018-03-06
CN107767859B true CN107767859B (zh) 2020-10-20

Family

ID=61273784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711111307.9A Active CN107767859B (zh) 2017-11-10 2017-11-10 噪声环境下人工耳蜗信号的说话人可懂性检测方法

Country Status (1)

Country Link
CN (1) CN107767859B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615535B (zh) * 2018-05-07 2020-08-11 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
CN108717155B (zh) * 2018-06-29 2020-04-24 国网北京市电力公司 配置噪声阈值和带宽的方法及装置
CN109256127B (zh) * 2018-11-15 2021-02-19 江南大学 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN111524505B (zh) * 2019-02-03 2024-06-14 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
TWI693926B (zh) * 2019-03-27 2020-05-21 美律實業股份有限公司 聽力測試系統的設定方法以及聽力測試系統
CN110111769B (zh) * 2019-04-28 2021-10-15 深圳信息职业技术学院 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN110223689A (zh) * 2019-06-10 2019-09-10 秒针信息技术有限公司 语音信息的优化能力的确定方法及装置、存储介质
CN110681051B (zh) * 2019-10-21 2023-06-13 深圳大学 一种人工耳蜗信号处理方法、装置及计算机可读存储介质
WO2021077247A1 (zh) * 2019-10-21 2021-04-29 深圳大学 一种人工耳蜗信号处理方法、装置及计算机可读存储介质
CN111508500B (zh) * 2020-04-17 2023-08-29 五邑大学 一种语音情绪识别方法、系统、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
CN106098077A (zh) * 2016-07-28 2016-11-09 浙江诺尔康神经电子科技股份有限公司 一种带降噪的人工耳蜗言语处理系统及方法
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589580B2 (en) * 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
CN106098077A (zh) * 2016-07-28 2016-11-09 浙江诺尔康神经电子科技股份有限公司 一种带降噪的人工耳蜗言语处理系统及方法
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于噪声估计的二值掩蔽语音增强算法;曹龙涛,李如玮,鲍长春,吴水才;《计算机工程与应用》;20151230;第51卷(第17期);222-227 *
基于鲁棒听觉特征的说话人识别;林琳,陈虹,陈建;《电子学报》;20130330;第41卷(第3期);619-624 *

Also Published As

Publication number Publication date
CN107767859A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107767859B (zh) 噪声环境下人工耳蜗信号的说话人可懂性检测方法
US11961533B2 (en) Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Stern et al. Hearing is believing: Biologically inspired methods for robust automatic speech recognition
CN103440869B (zh) 一种音频混响的抑制装置及其抑制方法
CN109410976A (zh) 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
Kleijn et al. Optimizing speech intelligibility in a noisy environment: A unified view
CN109328380A (zh) 具有噪声模型适配的递归噪声功率估计
Hazrati et al. Reverberation suppression in cochlear implants using a blind channel-selection strategy
Gajic et al. Robust speech recognition using features based on zero crossings with peak amplitudes
CN111816208B (zh) 一种语音分离质量评估方法、装置及计算机存储介质
Gandhiraj et al. Auditory-based wavelet packet filterbank for speech recognition using neural network
CN111091847A (zh) 基于并改进的深度聚类语音分离方法
RU2606566C2 (ru) Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа
Nogueira et al. Development of a sound coding strategy based on a deep recurrent neural network for monaural source separation in cochlear implants
CN116453547A (zh) 基于听损分类的助听器语音质量自评价方法
US20240055013A1 (en) Method and apparatus for determining a measure of speech intelligibility
Dubey et al. Lyon's auditory features and MRAM features comparison for non-intrusive speech quality assessment in narrowband speech
TW202143215A (zh) 應用深度學習的語音增強系統
Mirzahasanloo et al. Real-time dual-microphone noise classification for environment-adaptive pipelines of cochlear implants
Bonifaco et al. Comparative analysis of filipino-based rhinolalia aperta speech using mel frequency cepstral analysis and Perceptual Linear Prediction
Nehe et al. Isolated word recognition using normalized teager energy cepstral features
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
Dubey et al. Multiple time-scale estimates of Lyon's auditory features for non-intrusive speech quality assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant