CN107767859B

CN107767859B - 噪声环境下人工耳蜗信号的说话人可懂性检测方法

Info

Publication number: CN107767859B
Application number: CN201711111307.9A
Authority: CN
Inventors: 林琳; 孙晓颖; 陈建; 杨鹏; 王程; 王秀成; 赵静仪
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2020-10-20
Anticipated expiration: 2037-11-10
Also published as: CN107767859A

Abstract

本发明涉及一种噪声环境下人工耳蜗信号的说话人可懂性检测方法，属于语音信号处理领域。纯净参考语音信号首先经过人工耳蜗处理算法并进行波形重构，得到经人工耳蜗处理后的纯净语音。再经过特征提取后，建立特定说话人的语音模型；识别阶段，纯净识别语音加噪声后，形成带噪识别语音，进行特征提取后，与说话可懂性模型进行匹配，得到最终的检测结果。优点在于：为提高人工耳蜗用户的语音感知力提供了一个重要的理论依据，减少噪声在匹配过程中的影响，提高检测的准确性，采用基于动态Gammachirp滤波器组的组合特征参数，进一步提高检测方法的噪声鲁棒性。

Description

噪声环境下人工耳蜗信号的说话人可懂性检测方法

技术领域

本发明涉及语音信号处理领域，特别是对经过人工耳蜗处理后的语音信号，在噪声环境下对不同说话人语音可懂度的检测方法。

背景技术

目前，人工耳蜗的研究主要集中在人工耳蜗对声音处理的方法、人工耳蜗用户对不同语音的可懂度，以及对人工耳蜗装置或系统的开发及改进等，如专利CN103892939A、CN101716108A、CN101953722A等是从人工耳蜗对声音的处理方法进行了研究；专利CN101770549A公开了一种基于“虚拟处理器”的言语处理策略自动检测方法及检测系统，对人工耳蜗处理算法实现的正确性进行检测等。目前大多数研究更关注不同处理算法的改进，以提高人工耳蜗用户对语音的可懂度，其焦点更加关注对每一个语音的识别，而不考虑说话人的因素。

不同说话人语音的可懂性差别很大，有些说话人的语音更容易让人听懂。这些差别很大程度上来自他们的语音特性，比如人说话时的平均语速、平均基音频率、谱均衡等。对于正常听力的听者，在安静的环境下，不同说话人的这些差异对听者听到的内容和进行语音交流的影响几乎很小。然而，与正常听力的听者不同，使用人工耳蜗的听者，即使在安静的环境下，对连续的对话语音的内容有时都很难听懂。说话人的语速越快，人工耳蜗使用者对语音的理解度就越差。实际噪声的存在使得人工耳蜗使用者对语音的理解度急剧下降。因此，如何提高噪声环境下人工耳蜗用户对说话人语音的可懂度，是当前人工耳蜗领域研究的一个热点问题。

发明内容

本发明提供一种噪声环境下人工耳蜗信号的说话人可懂性检测方法，以噪声环境下人工耳蜗处理后的汉语语音信号为研究对象，建立其对不同说话人语音可懂度的模型，从而实现人工耳蜗用户的说话人语音可懂度的检测。

本发明采取的技术方案是，包括下列步骤：

(一)人工耳蜗处理过程如下：

(1)、语音信号的预处理

语音信号的预处理包括端点检测、均方根归一化、将输入信号采样率调整为Fs、预加重、分帧和加窗，得到预处理后N个帧长为L的短时帧信号；

(2)、对预处理后的语音信号进行FFT带通滤波器组滤波，包括以下步骤：

1)对加窗的短时帧信号进行FFT变换，计算每个短时帧频谱S(l,i)；其中i＝1，…，N表示第i个短时帧，l表示每个短时帧第l个频率点取值，l＝0,1,2,…,L-1；

2)利用Nc个通道带通滤波器组对每个短时帧频谱进行滤波，保留落入相应通道频率范围的频率分量，其余频率分量滤除；

(3)、各通道包络提取

采用希尔伯特变换的方式，提取每个短时帧信号频谱中的包络，令j表示第j个通道的带通滤波器，其中j＝1，…，Nc；q表示第j个带通滤波器通带内对应频率节点的个数，则经过FFT带通滤波器组后得到的每个通道的包络F(j,i)；

式中，

F_s为信号的采样率，c_k为通道增益系数，k＝1,2,…,Nc，满足

其中|G(0)|表示汉宁窗经傅里叶变换后得到直流分量的幅度值，|G(0.5)|是将汉宁窗补零至原来长度的两倍后，进行傅里叶变换得到的第二个谐波分量的幅度值，根据不同通道内包含的频率分量个数q的大小，由上式选择对应的通道增益系数，以便均衡各通道的包络能量；

(4)、峰值选择

从N_c个通道的包络中选择n个幅值最大的包络值来表示产生电刺激的电极点，并利用Id来记录n个幅值最大通道的通道号，A_mc表示n个幅值最大通道对应的包络；

(5)、幅度压缩

对于被选中作为产生电刺激的电极通道而言，需要计算各通道电极的刺激脉冲时间，并对其振幅信号A_mc进行幅值压缩处理，以满足电刺激的动态范围，最终得到刺激电极上交叉脉冲刺激序列的电流幅度I_m，m＝1,2,…,n，这里，电极是由底至顶的顺序产生刺激信号；

(6)、语音波形重构

(1)输入幅度压缩后的刺激电极上交叉脉冲刺激序列的电流幅度信号I_m；

(2)使用截止频率为L_s的低通滤波器估计每个通道的包络A_L；

(3)利用人工耳蜗处理算法过程中的FFT滤波器，对随机白噪声信号进行频域滤波；

(4)用白噪声信号频域滤波后的信号对幅度压缩后各通道的包络进行调制；

(5)将每个通道的信号转变为时域函数，然后重叠相加所有通道的信号，最终得到经过人工耳蜗处理后的语音信号；

(二)特定说话人的语音建模方法

包括下列步骤：

(1)、输入纯净训练语音信号，经过上述步骤(一)人工耳蜗处理，得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI；

(2)、提取步骤(1)产生的语音信号CleanCI的短时谱参数，得到CleanCI语音信号的短时谱参数F_CleanCI，

(3)、特征提取算法步骤：首先将语音信号通过动态Gammachirp滤波器组，在每个频率通道中计算包络，然后以100Hz的采样率采样，利用对数log函数进行压缩，取其离散余弦变换，最终得到短时谱参数F_CleanCI；

(4)、计算短时谱参数F_CleanCI一阶动态参数△F_CleanCI，并形成组合特征参数FD_CleanCI＝[F_CleanCI△F_CleanCI]；

(5)、利用所有参考说话人的特征参数FD_clean训练与说话人无关的隐马尔科夫语音模型，作为说话人独立的背景模型SI；

(6)、利用背景模型SI和每个参考说话人特征参数FD_{clean_w},其中w＝1,2,...,N_w,这里N_w是参考说话人个数，采用Baum-Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型(hidden Markov models，HMMs)λ_wb，其中b表示关键词序号，b＝1,2,..N_b在每个词的HMMs模型λ_wb中，每个音素使用两个状态表示，不同关键词模型λ_wb中状态的个数直接由关键词包含的音素个数决定，每个状态有两个转移特性，自转移和到边界状态的转移，每个状态由M_h个混合度的高斯混合模型构成，高斯混合模型的协方差矩阵采用对角阵，所有的模型状态都由一个单高斯模型初始化，然后混合度自适应变成2、3、4、5个，直到最后得到M_h个混合度的高斯混合模型GMM；

(三)说话人可懂度检测方法

(1)、输入纯净识别语音，加入噪声信号，按照信噪比SNR的要求，得到不同信噪比条件下的带噪识别语音；

(2)、分别将纯净识别语音和带噪识别语音进行人工耳蜗处理算法处理，得到纯净识别语音经人工耳蜗处理后的重构语音RCleanCI和加入噪声后的人工耳蜗语音信号RNoisyCI；

(3)、分别提取前一步骤(2)产生的语音信号RNoisyCI和RCleanCI的短时谱参数RF_NoisyCI和RF_CleanCI；

(4)、可靠小区域块检测

1)分别短时谱参数RF_NoisyCI和RF_CleanCI计算每个时频单元的局部信噪比，分别得到SNR(t,f)，这里t表示时间，f表示频率；

2)计算掩码IRM(t,f)

这里，β是一个衡量掩码的可调参数；

3)确定时频单元中可靠的时频单元点；

设置相应的阈值T，比较每个时频单元掩码与阈值T之间的大小，如果对应时频单元点的值大于阈值T，则认为该时频单元点为可靠的，用“1”进行标注，否则标记“0”；

4)确定可靠的小区域块；

如果某个区域块中包含的可靠时频单元点数大于设定的M点，则认为该区域就是可靠的小区域块，否则该区域为掩蔽区域，利用这个原则，对标注的时频单元Mask(t,f)进行分析，得到经过CI处理后带噪语音时频单元中可靠的小区域块G_c，c＝1,2,…,C，其中C表示可靠小区域的个数；

(5)、利用短时谱参数RF_NoisyCI计算其一阶动态参数△RF_NoisyCI，并形成组合参数RFD_NoisyCI＝[F_NoisyCI△F_NoisyCI]；

(6)、对于每一个参考说话人的识别语音，根据上述确定的可靠小区域块以及掩蔽区域，采用基于缺失数据特征的识别方法进行识别；

其中iw∈[1,N_w],ib∈[1,N_b]；

根据公式(6)得到的识别结果，统计每一个说话人每句话关键词识别的识别率，作为每个说话人可懂度的检测结果；

(7)、在实际的听力测试中，对每一条识别语音，听力测试者需要记录对应的语音是哪个说话人的第几个关键词，然后按照公式(7)的标准进行统计计算，得到每个说话人可懂度的检测结果，与理论检测结果比对，验证计算有效性。

本发明所述步骤(三)说话人可懂度检测方法中(6)、采用基于缺失数据特征的识别方法进行识别的方法是：采用边缘化算法，完全忽略不可靠的组合参数，用可靠的组合参数RFD_{NoisyCI_r}进行识别，则利用Viterbi算法估计后验概率f(RFD_NoisyCI|λ_wb)＝f(RFD_{NoisyCI_r}|λ_wb)，找到最大后验概率对应的关键词模型作为识别结果，iw和ib分别指的是识别语音被识别为说话人iw的第ib个关键词。

本发明的优点在于：

1、本发明提供了一种噪声环境下人工耳蜗处理信号的说话人可懂性的检测方法，其研究的重点在于不同说话人对人工耳蜗用户语音感知的影响，为提高人工耳蜗用户的语音感知力提供了一个重要的理论依据。

2、本发明采用可靠小区域检测技术，在不同噪声环境中对人工耳蜗语音中噪声和语音的区域进行可靠的标记，从而减少噪声在匹配过程中的影响，提高检测的准确性。

3、本发明采用基于动态Gammachirp滤波器组的组合特征参数，进一步提高检测方法的噪声鲁棒性。

附图说明

图1是本发明的人工耳蜗处理算法流程图；

图2是本发明的预处理算法流程图；

图3是本发明的语音重构流程图；

图4是本发明的特定说话人语音建模算法流程图；

图5是本发明的特征参数提取算法框图；

图6是本发明的说话人语音可懂性的检测算法流程图。

具体实施方式

包括下列步骤：

(一)人工耳蜗处理过程如下，如图1所示；

(1)、语音信号的预处理

语音信号的预处理流程如图2所示，该流程包括：输入语音信号、端点检测、均方根归一化、将输入信号采样率调整为F_s、预加重、分帧和加窗。这里，采用能量检测法进行端点检测；均方根归一化后使得输入信号的均方根值为1；F_s取16000Hz，如果信号的采样率不等于F_s，则需要将信号重新采样至F_s；采用截止频率为1200Hz的高通滤波器滤波进行预加重；采用汉明窗分帧，其中每帧帧长8ms(L＝128点)，预处理后得到N个帧长为L的短时帧信号；

2)利用N_c个通道带通滤波器组对每个短时帧频谱进行滤波，按照表1滤波器组频率节点的设置情况，保留落入相应通道频率范围的频率分量，其余频率分量滤除。其中，N_c取22；

表1 FFT带通滤波器组频率节点的设置

(3)、各通道包络提取

采用希尔伯特变换的方式，提取频谱中的包络。令j表示第j个通道的带通滤波器，其中j＝1，…，N_c，这里N_c取22；q表示第j个带通滤波器通带内对应频率节点的个数(见表1)，则经过FFT带通滤波器组后得到的每个通道的包络F(j,i)；

式中，

F_s为信号的采样率，F_s＝16000，c_k为通道增益系数，k＝1,2,…,Nc，满足

其中|G(0)|表示汉宁窗经傅里叶变换后得到直流分量的幅度值，|G(0.5)|是将汉宁窗补零至原来长度的两倍后，进行傅里叶变换得到的第二个谐波分量的幅度值，根据不同通道内包含的频率分量个数q的大小，由式(2)选择对应的通道增益系数，以便均衡各通道的包络能量；

(4)、峰值选择

从N_c个通道的包络中选择n个幅值最大的包络值来表示产生电刺激的电极点，这里取N_c＝22，n＝8，并利用Id来记录n个幅值最大通道的通道号，A_mc表示n个幅值最大通道对应的包络；

(5)、幅度压缩

对于被选中作为产生电刺激的电极通道而言，需要计算各通道电极的刺激脉冲时间，并对其振幅信号A_mc进行幅值压缩处理，以满足电刺激的动态范围，最终得到刺激电极上交叉脉冲刺激序列的电流幅度I_m，m＝1,2,…,n，这里，电极是由底至顶的顺序产生刺激信号；A_mc幅度压缩公式：

cl＝Round[T_l+(Cm_l-T_l)×Cm]

其中基准值B＝0.0156，饱和等级M＝0.5859，陡度控制函数α_c＝415.96，电流阈值T_l＝100，舒适度值Cm_l＝200；

(6)、语音波形重构，如图3所示；

(2)使用截止频率为L_s＝400Hz的低通滤波器估计每个通道的包络A_L；

(二)特定说话人的语音建模方法，其流程图如图4所示；

包括下列步骤：

(1)、输入纯净训练语音信号，经过图1所示步骤(一)人工耳蜗处理，得到纯净训练语音经人工耳蜗处理后的重构语音CleanCI；

(2)、提取步骤(1)产生的语音信号CleanCI的短时谱参数，得到CleanCI语音信号的短时谱参数F_CleanCI，特征提取方法的框图如图5所示；

(3)、特征提取方法步骤：首先将语音信号通过一个64通道的动态Gammachirp滤波器组，取该滤波器组的中心频率范围为60Hz～8000Hz，在每个频率通道中，利用Hilbert变换计算包络，然后以100Hz的采样率采样，利用对数log函数进行压缩，取其离散余弦变换，最终得到24维的短时谱参数F_CleanCI；

(4)、对由上一步计算得到的24维短时谱参数F_CleanCI，计算其24维一阶动态参数△F_CleanCI，并形成48维组合特征参数FD_CleanCI＝[F_CleanCI△F_CleanCI]；

(6)、利用背景模型SI和每个参考说话人特征参数FD_{clean_w},其中w＝1,2,...,N_w,这里N_w是参考说话人个数，可取20，采用Baum-Welch算法对每一个参考说话人的每个关键词建立隐马尔科夫模型(hidden Markov models，HMMs)λ_wb，其中b表示关键词序号，b＝1,2,..N_b，如果对每个参考说话人进行3个关键词的识别，则N_b取3，在每个词的HMMs模型λ_wb中，每个音素使用两个状态表示，不同关键词模型λ_wb中状态的个数直接由关键词包含的音素个数决定，每个状态有两个转移特性，自转移和到边界状态的转移，每个状态由M_h个混合度的高斯混合模型构成，高斯混合模型的协方差矩阵采用对角阵，所有的模型状态都由一个单高斯模型初始化，然后混合度自适应变成2、3、4、5个，直到最后得到M_h个混合度的高斯混合模型GMM，这里M_h取7；

(三)说话人可懂度检测方法

(3)、分别提取前一步骤(2)产生的语音信号RNoisyCI和RCleanCI的短时谱参数，具体流程如图6所示，具体步骤见训练过程步骤(2)，采用上面的方法，分别可以计算得到RNoisyCI和RCleanCI语音信号的24维短时谱参数RF_NoisyCI和RF_CleanCI；

(4)、可靠小区域块检测

2)计算掩码IRM(t,f)

这里，β是一个衡量掩码的可调参数，取β＝0.5；

3)确定时频单元中可靠的时频单元点；

设置相应的阈值T，比较每个时频单元掩码与阈值T之间的大小，如果对应时频单元点的值大于阈值T，则认为该时频单元点为可靠的，用“1”进行标注，否则标记“0”；这里T取0.6；

4)确定可靠的小区域块；

如果某个区域块中包含的可靠时频单元点数大于设定的M点(这里M取25)，则认为该区域就是可靠的小区域块，否则该区域为掩蔽区域，利用这个原则，对标注的时频单元Mask(t,f)进行分析，得到经过CI处理后带噪语音时频单元中可靠的小区域块G_c，c＝1,2,…,C，其中C表示可靠小区域的个数；

(5)、利用24维短时谱参数RF_NoisyCI计算其24维一阶动态参数△RF_NoisyCI，并形成组合参数RFD_NoisyCI＝[F_NoisyCI△F_NoisyCI]；

(6)、对于每一个参考说话人的识别语音，根据上述确定的可靠小区域块以及掩蔽区域，采用基于缺失数据特征的识别方法进行识别，

这里采用边缘化算法，完全忽略不可靠的组合参数，用可靠的组合参数RFD_{NoisyCI_r}进行识别，则利用Viterbi算法估计后验概率f(RFD_NoisyCI|λ_wb)＝f(RFD_{NoisyCI_r}|λ_wb)，找到最大后验概率对应的关键词模型作为识别结果，iw和ib分别指的是识别语音被识别为说话人iw的第ib个关键词；

其中iw∈[1,N_w],ib∈[1,N_b]；

Claims

1.一种噪声环境下人工耳蜗信号的说话人可懂性检测方法，其特征在于，包括下列步骤：

(一)人工耳蜗处理过程如下：

(1)、语音信号的预处理

(3)、各通道包络提取

式中，

F_s为信号的采样率，c_k为通道增益系数，k＝1,2,…,Nc，满足

(4)、峰值选择

(5)、幅度压缩

(6)、语音波形重构

(2)使用截止频率为L_s的低通滤波器估计每个通道的包络A_L；

(二)特定说话人的语音建模方法

包括下列步骤：

(2)、提取步骤(1)产生的语音信号CleanCI的短时谱参数，得到CleanCI语音信号的短时谱参数F_CleanCI；

(三)说话人可懂度检测方法

(4)、可靠小区域块检测

2)计算掩码IRM(t,f)

这里，β是一个衡量掩码的可调参数；

3)确定时频单元中可靠的时频单元点；

4)确定可靠的小区域块；

其中iw∈[1,N_w],ib∈[1,N_b]；

2.根据权利要求1所述的一种噪声环境下人工耳蜗信号的说话人可懂性检测方法，其特征在于：步骤(三)说话人可懂度检测方法中(6)、采用基于缺失数据特征的识别方法进行识别的方法是：采用边缘化算法，完全忽略不可靠的组合参数，用可靠的组合参数RFD_{NoisyCI_r}进行识别，则利用Viterbi算法估计后验概率f(RFD_NoisyCI|λ_wb)＝f(RFD_{NoisyCI_r}|λ_wb)，找到最大后验概率对应的关键词模型作为识别结果，iw和ib分别指的是识别语音被识别为说话人iw的第ib个关键词。