CN106297817A

CN106297817A - 一种基于双耳信息的语音增强方法

Info

Publication number: CN106297817A
Application number: CN201510312683.9A
Authority: CN
Inventors: 冯海泓; 方义; 陈友元; 刘畅
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2015-06-09
Filing date: 2015-06-09
Publication date: 2017-01-04
Anticipated expiration: 2035-06-09
Also published as: CN106297817B

Abstract

本发明涉及一种基于双耳信息的语音增强方法，包括：将左右耳麦克风信号从时域变换到频域，然后做频带分解，根据频带分解的结果划分低频区域和高频区域；根据左右耳麦克风信号的能量比值，将能量高的一侧作为干扰噪声源所在的一侧；在低频区域利用双耳时间差估计语音功率谱，在高频区域利用双耳声级差估计语音功率谱以及语音的相干函数；将语音功率谱和相干函数联合起来计算干扰噪声的冲击响应比值；根据冲击响应比值、语音功率谱以及两个麦克风的能量差计算维纳滤波器的两个增益，所述维纳滤波器的两个增益分别对应左耳麦克风与右耳麦克风；利用维纳滤波器的两个增益分别对左耳麦克风信号与右耳麦克风信号进行处理，得到增强后的语音信号。

Description

一种基于双耳信息的语音增强方法

技术领域

本发明涉及一种语音信号处理方法，特别是涉及一种基于双耳信息的语音增强方法。

背景技术

在实际生活中，语音信号总是受到各种噪声源的干扰，助听器、人工耳蜗佩戴者对噪声的容忍程度比正常听力人更低。现有的单耳助听器广泛采用双麦克风，目的是双麦克风能够抑制方向性干扰噪声，使得助听器、人工耳蜗佩戴者能够更好的专注于前方声音，即面对面交流场景。但是，很多听力患者都有双耳听力损失情况的出现，如果长期单耳佩戴，会使另外一只耳朵听力损失越来越严重，而且，传统的单耳佩戴不能获得声音的立体信号，听力患者没有声源定位能力，这在一定程度上降低了语音的可懂度。

随着无线连接技术的快速发展，双耳助听器、人工耳蜗得以实现，利用先进的无线连接技术，左右耳的两个麦克风可以互相通信。这为基于双耳信息的语音增强方法的实现提供了现实可行性。现有技术中具有语音增强方法，如在参考文献1“Klasen T,Doclo S,den Bogaert T.V.Binaural multi-channel winer filtering for hearingaids:preserving interaural time and level differences.In:IEEE International Conference onAcoustics,speech and signal processing(ICASSP),2006:145-148”中所披露的多通道维纳滤波法，在参考文献2“Roohollah A,Ahmad A,Mohsen R.Two-microphone binarymask speech enhancement application to diffuse and dorectionl noise fields.IEEE.ETRIjournal,2014；36(5):772-781”中所披露的二值掩码法，在参考文献3“Li J,SakamotoS,Hongo S,Akagi M,Suzuki Y.Two-stage binaural speech enhancement with Wienerfilter based on equalization-cancellation model.In:IEEE Workshop on Applications ofSignal Processing to Audio and Acoustics(WASPAA),2009:133–136”中所披露的基于均衡抵消模型算法等。现有技术中的语音增强方法各自存在一定的缺陷，如多通道维纳滤波法对非平稳噪声抑制效果差；二值掩码法容易产生音乐噪声；基于均衡抵消模型算法要求预先准确知道目标语音方位信息，存在一定局限性。

发明内容

本发明的目的在于克服已有技术中的语音增强方法所存在的缺陷，从而提供一种有效滤除非平稳噪声，并保持目标语音未失真的语音增强方法。

为了实现上述目的，本发明提供了一种基于双耳信息的语音增强方法，包括：

步骤1)、将左右耳麦克风信号从时域变换到频域，然后做频带分解，根据频带分解的结果划分低频区域和高频区域；

步骤2)、根据左右耳麦克风信号的能量比值，将能量高的一侧作为干扰噪声源所在的一侧；

步骤3)、在低频区域利用双耳时间差估计语音功率谱，在高频区域利用双耳声级差估计语音功率谱以及语音的相干函数；

步骤4)、将步骤3)计算得到的语音功率谱和相干函数联合起来计算干扰噪声的冲击响应比值；

步骤5)、根据步骤4)计算得到的冲击响应比值、步骤3)得到的语音功率谱以及两个麦克风的能量差计算维纳滤波器的两个增益，所述维纳滤波器的两个增益分别对应左耳麦克风与右耳麦克风；

步骤6)、利用步骤5)所得到的维纳滤波器的两个增益分别对左耳麦克风信号与右耳麦克风信号进行处理，得到增强后的语音信号。

上述技术方案中，所述步骤3)进一步包括：

步骤3-1)、在高频区域，利用双耳声级差估计语音功率谱以及语音的相干函数；假设干扰噪声来自于左右两侧中的某一侧，则对高频区域的每个频率点执行如下步骤：

步骤3-1-1)、计算双耳声级差，如果双耳声级差Δ_PLD＜Φ_min，则能量差很小，表明该频率点位于语音段，由此更新语音功率谱以及语音的相干函数；其中，

双耳声级差的计算公式为：

Δ_{PLD} = \frac{P X_{1} X_{1} - P X_{2} X_{2}}{P X_{1} X_{1} + P X_{2} X_{2}};

其中，PX₁X₁代表干扰噪声所在一侧的信号自功率谱，PX₂X₂代表与干扰噪声所在一侧相反的另一侧的信号自功率谱；

语音功率谱的计算公式为：

PS(λ,μ)＝α₁*PS(λ-1,μ)+(1-α₁)*|X₁(λ,μ)|²

其中，λ和μ分别表示所在的帧和该帧的频率点；α₁为平滑因子，X₁为干扰噪声所在一侧的麦克风信号；

语音的相干函数的计算公式为：

Γ_S(λ,μ)＝α_Γ*Γ_S(λ-1,μ)+(1-α_Γ)*Γx(λ,μ)；

α_Γ为平滑因子；Γ_s、Γ_x分别表示语音的相干函数以及混合信号的相干函数；

步骤3-1-2)、如果双耳声级差Δ_PLD＞Φ_max，此时表明能量差很大，频率点位于干扰噪声段，此时不更新语音功率谱与语音的相干函数，即：

PS(λ,μ)＝PS(λ-1,μ)，

Γ_S(λ,μ)＝Γ_S(λ-1,μ)；

步骤3-1-3)、如果Φ_min＜Δ_PLD＜Φ_max，即此时能量差介于不大不小之间，则此时的语音功率谱用信噪比高的那一端的信号来估计，语音的相干函数不更新，即：

PS(λ,μ)＝α₂*PS(λ-1,μ)+(1-α₂)*|X₂(λ,μ)|²；

Γ_S(λ,μ)＝Γ_S(λ-1,μ)；

其中，α₂为平滑因子；

步骤3-2)、在低频区域，首先将语音的相干函数设为1，然后利用双耳时间差估计语音功率谱，假设干扰噪声来自于左右两侧中的某一侧，则对低频区域的每个频率点执行如下步骤：

步骤3-2-1)、计算双耳时间差，如果双耳时间差ITD(λ,k)<T_min，则表明该频率点无时延差，此时位于语音段，更新语音功率谱；其中，

计算双耳时间差的公式为：

ITD (λ, μ) = | \frac{1}{w_{k}} &angle; (P X_{1} X_{2} (λ, μ)) |;

其中，∠代表两个通道信号的相位差，w_k代表角频率，PX₁X₂代表两个通道的互功率谱，λ和μ分别表示所在的帧和该帧的频率点；

语音功率谱的计算公式为：

PS(λ,μ)＝α₁*PS(λ-1,μ)+(1-α₁)*|X₁(λ,μ)|²

步骤3-2-2)、如果双耳时间差ITD(λ,k)>T_max,则表明该频率点位于干扰噪声段，此时不更新语音功率谱，即：

PS(λ,μ)＝PS(λ-1,μ)；

步骤3-2-3)、如果T_min<ITD(λ,k)<T_max，即此时能量差介于不大不小之间，则利用信噪比高的一端的麦克风信号进行语音功率谱的更新，即：

PS(λ,μ)＝α₂*PS(λ-1,μ)+(1-α₂)*|X₂(λ,μ)|²

上述技术方案中，所述Φ_min在0.1-0.3之间，所述Φ_max在0.7-0.9之间；所述T_min在100us-200us之间，所述T_max在300us-400us之间。

上述技术方案中，在步骤4)中，干扰噪声的冲击响应比值的计算公式为：

H_{12} = \frac{P X_{1} X_{2} - P S_{1} S_{2}}{P X_{1} - P S_{1}},

其中，H₁₂为干扰噪声的冲击响应比值；PS₁S₂＝Γ_S*PS，PS为步骤3)得到的语音功率谱，Γ_S为步骤3)得到的语音的相干函数；PX₁X₂代表两个通道的互功率谱，PX₁表示干扰噪声所在一侧的麦克风信号在频域的表达式，PS₁表示干扰噪声所在一侧的麦克风所接收的语音在频域的表达式。

上述技术方案中，在步骤5)中，将对应左耳麦克风的维纳滤波器的增益记为G_X1，将对应右耳麦克风的维纳滤波器的增益记为G_X2，这两种增益的计算公式如下：

如果干扰噪声来自左侧，则：

\begin{matrix} G_{X 1} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + ΔPX} & G_{X 2} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + H_{12} * ΔPX} \end{matrix}

如果干扰噪声来自右侧，则：

\begin{matrix} G_{X 1} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + H_{12} * ΔPX} & G_{X 2} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + ΔPX} \end{matrix}

其中，ΔPX＝|PX₁X₁-PX₂X₂|为左右两个通道的能量差；PS为语音功率谱；H₁₂为干扰噪声的冲击响应比值；

上述技术方案中，所述步骤6)包括：在频域中，将左耳麦克风信号乘以对应左耳麦克风的维纳滤波器的增益G_X1，将右耳麦克风信号乘以对应右耳麦克风的维纳滤波器的增益G_X2，最后对所得到的乘积结果进行傅里叶逆变换，得到增强后的语音。

本发明的优点在于

本发明克服了现有技术中的语音增强方法的缺点，有效滤除非平稳噪声，同时保证了目标语音未失真。

附图说明

图1是一个语音场景的示意图；

图2是本发明的双耳语音增强方法的原理示意图。

具体实施方式

现结合附图对本发明作进一步的描述。

本发明的双耳语音增强方法利用侧边过来的干扰声在左右耳之间形成的声级差(ILD)与时间差(ITD)来构造一个维纳滤波器，从而达到增强正前方语音，抑制侧边语音的目的。本发明方法适用于佩戴有双耳助听器、人工耳蜗、降噪耳机等听力设备的听力患者，本发明方法应用的前提在于左右两个麦克风数据能够无线连接。

图1为一个语音场景的示意图，在该图中，听众的左耳佩戴有左麦克风、听众的右耳佩戴有右麦克风。目标语音位于听众的正前方、干扰噪声则位于听众的侧边。在这一场景下，参考图2，本发明的方法包括以下步骤：

步骤1)、获取左右耳两个麦克风的信号，将左耳麦克风的信号记为X₁，将右耳麦克风的信号记为X₂；所述左耳麦克风与右耳麦克风信号的具体表达式如下：

X₁＝S₁+N₁

X₂＝S₂+H₁₂*N₁，其中S₁、S₂代表左耳麦克风与右耳麦克风分别接收到的语音信号，N₁代表干扰噪声信号，H₁₂代表干扰噪声在左右耳冲击响应函数的比值。

步骤2)、将步骤1)所得到的左耳麦克风信号X₁与右耳麦克风信号X₂从时域变换到频域，然后再对左耳麦克风信号X₁与右耳麦克风信号X₂进行频带分解，接着根据频带分解的结果划分一个低频区域和高频区域；其中，在一个实施例中，所述麦克风信号采用256点为一帧，128个点为帧移，采样率为16KHZ，然后通过短时傅里叶变换将麦克风信号从时域变换到频域，对麦克风信号做频带分解时，每一个点即为一个频带。

左耳麦克风信号与右耳麦克风信号变换到频域后的表达式为：

PX₁＝PS₁+PN₁

PX₂＝PS₂+|H₁₂|²*PN₁，其中P表示功率谱，||表示绝对值。

在一个实施例中，高于1khz为高频区域，低于1khz为低频区域。

步骤3)、通过比较两侧麦克风信号的能量比值(即PX₁与PX₂之间的比值)，判断干扰噪声源来自于哪一侧，能量高的一侧就是干扰噪声源所在的一侧；

步骤4)、在低频区域利用双耳时间差(ITD)估计语音功率谱，在高频区域利用双耳声级差(ILD)估计语音功率谱以及语音的相干函数；其中，

所述双耳声级差的计算公式为：

所述双耳时间差的计算公式为：

ITD (λ, μ) = | \frac{1}{w_{k}} &angle; (P X_{1} X_{2} (λ, μ)) |;

上述公式中，PX₁X₁代表左耳信号自功率谱，PX₂X₂代表右耳信号自功率谱，∠代表两个通道信号的相位差，w_k代表角频率，PX₁X₂代表两个通道的互功率谱，λ和μ分别表示所在的帧和该帧的频率点。这些值的计算为本领域技术人员的公知常识，因此不在此处重复。

所述步骤4)进一步包括：

步骤4-1)、在高频区域，利用双耳声级差估计语音功率谱以及语音的相干函数；假设干扰噪声来自于左侧(如果干扰噪声来自右侧，则互换以下公式中的X₁和X₂)，则对高频区域的每个频率点执行如下步骤：

步骤4-1-1)、如果双耳声级差Δ_PLD＜Φ_min，则能量差很小，表明该频率点位于语音段，由此更新语音功率谱以及语音的相干函数的公式，相关公式的表达式如下：

PS(λ,μ)＝α₁*PS(λ-1,μ)+(1-α₁)*|X₁(λ,μ)|²

Γ_S(λ,μ)＝α_Γ*Γ_S(λ-1,μ)+(1-α_Γ)*Γx(λ,μ)

其中，λ和μ分别表示所在的帧和该帧的频率点；α₁、α_Γ为平滑因子，它们的取值范围为0.7-0.9。Γ_s、Γ_x分别表示语音的相干函数以及混合信号的相干函数。语音功率谱与语音相干函数的初始值(即λ＝1时)为初始帧的数值。

本步骤中，Φ_min为一判断阈值，其取值范围在0.1-0.3之间。

步骤4-1-2)、如果Δ_PLD＞Φ_max，此时表明能量差很大，该频率点位于干扰噪声段，此时不更新语音功率谱与语音的相干函数，即：

PS(λ,μ)＝PS(λ-1,μ)，

Γ_S(λ,μ)＝Γ_S(λ-1,μ)；

本步骤中，Φ_max为一判断阈值，其取值范围在0.7-0.9之间。

步骤4-1-3)、如果Φ_min＜Δ_PLD＜Φ_max，即此时能量差介于不大不小之间，则此时的语音功率谱用信噪比高的那一端的信号来估计，语音的相干函数不更新，即：

PS(λ,μ)＝α₂*PS(λ-1,μ)+(1-α₂)*|X₂(λ,μ)|²；

Γ_S(λ,μ)＝Γ_S(λ-1,μ)；

其中，α₂为平滑因子，其取值范围为0.7-0.9。

步骤4-2)、在低频区域，首先将相干函数设为1；然后利用双耳时间差估计语音功率谱，假设干扰噪声来自于左侧(如果干扰噪声来自右侧，则互换以下公式中的X₁和X₂)，则对低频区域的每个频率点执行如下步骤：

步骤4-2-1)、如果双耳时间差ITD(λ,k)<T_min，则表明该频率点无时延差，此时位于语音段，由此更新语音功率谱，即：

PS(λ,μ)＝α₁*PS(λ-1,μ)+(1-α₁)*|X₁(λ,μ)|²

本步骤中，T_min为一判断阈值，其范围在100us-200us之间。

步骤4-2-2)、如果ITD(λ,k)>T_max,则表明该频率点位于干扰噪声段，此时不更新语音功率谱，即：

PS(λ,μ)＝PS(λ-1,μ)

步骤4-2-3)、如果T_min<ITD(λ,k)<T_max，即此时能量差介于不大不小之间，则利用信噪比高的一端的麦克风信号进行语音功率谱的更新：

PS(λ,μ)＝α₂*PS(λ-1,μ)+(1-α₂)*|X₂(λ,μ)|²

本步骤中，T_max为一判断阈值，其范围在300us-400us之间。

步骤5)、将步骤4)计算得到的语音功率谱和相干函数联合起来计算干扰噪声的冲击响应比值H₁₂；其计算公式为：

其中，PS₁S₂＝Γ_S*PS，PS为步骤4)得到的语音功率谱，Γ_S为步骤4)得到的语音的相干函数。

步骤6)、根据步骤5)计算得到的冲击响应比值H₁₂、步骤4)得到的语音功率谱以及两个麦克风的能量差联合计算维纳滤波器增益G_X1和G_X2；具体的说，

如果干扰噪声来自左侧，则：

\begin{matrix} G_{X 1} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + ΔPX} & G_{X 2} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + H_{12} * ΔPX} \end{matrix}

如果干扰噪声来自右侧，则：

\begin{matrix} G_{X 1} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + H_{12} * ΔPX} & G_{X 2} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + ΔPX} \end{matrix}

其中，ΔPX＝|PX₁X₁-PX₂X₂|为左右两个通道的能量差。

步骤7)、在频域中，将左耳麦克风信号乘以G_X1，将右耳麦克风信号乘以G_X2，最后进行傅里叶逆变换，得到增强后的语音。

本发明充分利用干扰声在左右耳形成的声级差(ILD)与时间差(ITD),来构造维纳滤波器滤除侧边的干扰噪声，保留了前方的目标语音的方位信息，算法思路清晰，且简单有效。便于在双耳听力设备中真正实现。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于双耳信息的语音增强方法，包括：

2.根据权利要求1所述的基于双耳信息的语音增强方法，其特征在于，所述步骤3)进一步包括：

双耳声级差的计算公式为：

Δ_{PLD} = \frac{{PX}_{1} X_{1} - {PX}_{2} X_{2}}{{PX}_{1} X_{1} + {PX}_{2} X_{2}};

语音功率谱的计算公式为：

PS(λ，μ)＝α₁*PS(λ-1，μ)+(1-α₁)*|X₁(λ，μ)|；

语音的相干函数的计算公式为：

Γ_S(λ,μ)＝α_Γ*Γ_S(λ-1,μ)+(1-α_Γ)*Γx(λ,μ)；

PS(λ,μ)＝PS(λ-1,μ)，

Γ_S(λ,μ)＝Γ_S(λ-1,μ)；

PS(λ,μ)＝α₂*PS(λ-1,μ)+(1-α₂)*|X₂(λ,μ)|²；

Γ_S(λ,μ)＝Γ_S(λ-1,μ)；

其中，α₂为平滑因子；

计算双耳时间差的公式为：

ITD (λ, μ) = | \frac{1}{W_{k}} &angle; ({PX}_{1} X_{2} (λ, μ)) |;

语音功率谱的计算公式为：

PS(λ,μ)＝α₁*PS(λ-1,μ)+(1-α₁)*|X₁(λ,μ)|²；

PS(λ,μ)＝PS(λ-1,μ)；

PS(λ,μ)＝α₂*PS(λ-1,μ)+(1-α₂)*|X₂(λ,μ)|²。

3.根据权利要求2所述的基于双耳信息的语音增强方法，其特征在于，所述Φ_min在0.1-0.3之间，所述Φ_max在0.7-0.9之间；所述T_min在100us-200us之间，所述T_max在300us-400us之间。

4.根据权利要求1所述的基于双耳信息的语音增强方法，其特征在于，在步骤4)中，干扰噪声的冲击响应比值的计算公式为：

H_{12} = \frac{{PX}_{1} X_{2} - {PS}_{1} S_{2}}{{PX}_{1} - {PS}_{1}},

5.根据权利要求1所述的基于双耳信息的语音增强方法，其特征在于，在步骤5)中，将对应左耳麦克风的维纳滤波器的增益记为G_X1，将对应右耳麦克风的维纳滤波器的增益记为G_X2，这两种增益的计算公式如下：

如果干扰噪声来自左侧，则：

G_{X 1} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + ΔPX}

G_{X 2} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + H_{12} * ΔPX}

如果干扰噪声来自右侧，则：

G_{X 1} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + H_{12} * ΔPX}

G_{X 2} = \frac{PS * (1 - {| H_{12} |}^{2})}{PS * (1 - {| H_{12} |}^{2}) + ΔPX}

其中，ΔPX＝|PX₁X₁-PX₂X₂|为左右两个通道的能量差；PS为语音功率谱；H₁₂为干扰噪声的冲击响应比值。

6.根据权利要求1所述的基于双耳信息的语音增强方法，其特征在于，所述步骤6)包括：在频域中，将左耳麦克风信号乘以对应左耳麦克风的维纳滤波器的增益G_X1，将右耳麦克风信号乘以对应右耳麦克风的维纳滤波器的增益G_X2，最后对所得到的乘积结果进行傅里叶逆变换，得到增强后的语音。