CN108269583A

CN108269583A - 一种基于时间延迟直方图的语音分离方法

Info

Publication number: CN108269583A
Application number: CN201710001937.4A
Authority: CN
Inventors: 应冬文; 黄兆琼; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2017-01-03
Filing date: 2017-01-03
Publication date: 2018-07-10
Anticipated expiration: 2037-01-03
Also published as: CN108269583B

Abstract

本发明涉及一种基于时间延迟直方图的语音分离方法，包括：将声源信号转换成数字声音信号；提取数字声音信号的频谱；利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图，抽取显著峰值作为时间延迟的估计值；利用时间延迟的估计值来计算每个语音源的波达方向估计值；利用每个语音源的波达方向估计值对混合语音的频谱进行分类，得到每个语音源的掩摸，进而根据该掩摸以及数字声音信号的频谱计算频域上的分离信号；在每个掩摸上对频域的分离信号进行傅里叶逆变换，得到分离的语音。

Description

一种基于时间延迟直方图的语音分离方法

技术领域

本发明涉及语音分离方法，特别涉及一种基于时间延迟直方图的语音分离方法。

背景技术

语音分离包括单通道语音分离和多通道语音分离，语音分离技术可减小噪声和混响的影响，或将多个语音源分离开，为后续的信息处理提供较干净的语音。

由于时间延迟直方图具有高空间分辨力和抗混叠的优点，时间延迟直方图被广泛应用于线性阵列进行语音分离。然而，传统的方法很少将时间延迟直方图用于平面阵列来进行语音分离。同时，传统的语音分离方法往往需要预知语音源的个数才能进行分离，另外，传统的盲源分离方法都有排序模糊性的问题。

发明内容

本发明的目的在于克服现有技术中的语音分离方法中需要预知声源个数和排序模糊性的缺陷，从而利用时间延迟直方图提出一种鲁棒而高效的语音分离方法。

为了实现上述目的，本发明提供了一种基于时间延迟直方图的语音分离方法，包括：

步骤1)、将声源信号转换成数字声音信号；

步骤2)、提取步骤1)所得到的数字声音信号的频谱；

步骤3)、利用声源信号中所有时频点上的时间延迟来构建时间延迟直方图，抽取显著峰值作为时间延迟的估计值；

步骤4)、利用步骤3)得到的时间延迟的估计值来计算每个语音源的波达方向估计值；

步骤5)、利用步骤4)得到的每个语音源的波达方向估计值对混合语音的频谱进行分类，得到每个语音源的掩摸，进而根据该掩摸以及步骤2)得到的数字声音信号的频谱计算频域上的分离信号；

步骤6)、在每个掩摸上对步骤5)得到的频域的分离信号进行傅里叶逆变换，得到分离的语音。

上述技术方案中，所述步骤2)还包括：在提取步骤1)所得到的数字声音信号的频谱之前，对所述数字声音信号进行预处理，所述预处理包括：

对每一帧的数字声音信号先补零到N点，N＝2ⁱ，i为整数，且i≥8；然后，对每一帧的数字声音信号进行加窗或预加重处理，加窗函数采用汉明窗或哈宁窗。

上述技术方案中，所述步骤3)包括：

步骤3-1)、计算声音源中任意两个麦克风所组成的麦克风对的时间延迟；

步骤3-2)、由麦克风对的距离约束以及步骤3-1)得到的麦克风对的时间延迟，得到时间延迟集合；

步骤3-3)、基于步骤3-2)所得到的时间延迟集合构建时间延迟直方图，抽取显著峰值作为时间延迟的估计值。

上述技术方案中，所述步骤4)包括：

步骤4-1)、利用步骤3)得到的来自不同麦克风对的时间延迟估计值两两配对估计出波达方向候选值；

步骤4-2)、由步骤4-1)所得到的波达方向候选值估计方向角候选值，利用所有的方向角候选值组成的集合中的所有元素构建方向角直方图；

步骤4-3)、抽取方向角直方图中的显著峰值作为每个语音源的方向角估计值，通过数峰值的数目得到语音源数目的估计值；

步骤4-4)、由步骤4-3)得到的语音源的方向角估计值计算仰角初始值；

步骤4-5)、由步骤4-3)得到的语音源的方向角估计值以及步骤4-4)得到的仰角初始值重新计算每个语音源的波达方向估计值。

上述技术方案中，所述步骤5)包括：

步骤5-1)、利用步骤4)得到的每个语音源的波达方向估计值，计算每一个频点到某一语音源的距离；

步骤5-2)、根据步骤5-1)计算得到的频点到某一语音源的距离为混合语音的频谱中的各个频点进行分类；

步骤5-3)、结合步骤5-2)所得到的频点的分类结果，得到所述某一声源在每个频点上的掩摸；

步骤5-4)、根据步骤5-3)得到的所述某一声源在一频点上的掩摸以及步骤2)得到的数字声音信号的离散频谱计算频域上的分离信号。

本发明的优点在于：

1、本发明的方法利用了时间延迟直方图，避免了空间混叠；

2、本发明提出的基于时间延迟直方图的语音分离方法利用每个语音源的DOA作为构建mask的监督信息，从而实现了鲁棒的语音分离方法。

附图说明

图1是本发明的基于时间延迟直方图的语音分离方法的流程图；

图2是本发明的基于时间延迟直方图的语音分离方法中计算每个语音源波达方向步骤的流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

参考图1，本发明的方法包括以下步骤：

步骤101)、将通过麦克风阵列接收的声源信号转换成数字声音信号；其中，所述麦克风阵列包括有K个麦克风。

步骤102)、对数字声音信号进行预处理，然后通过快速傅里叶变换(FFT)提取每个麦克风的数字声音信号的频谱。

所述对数字声音信号进行预处理包括：对每一帧的数字声音信号先补零到N点，N＝2ⁱ，i为整数，且i≥8；然后，对每一帧的数字声音信号进行加窗或预加重处理，加窗函数采用汉明窗(hamming)或哈宁窗(hanning)。

对t时刻的数字声音信号进行快速傅里叶变换，得到t时刻的数字声音信号的离散频谱为：

其中，y_k,t,n表示t时刻第k个麦克风采集信号的第n个采样点，Y_k,t,f(k＝1,2…K,f＝0,1,…N-1)表示t时刻第k个麦克风采集信号的第f个频点的傅里叶变换系数，也被称为t时刻的数字声音信号的离散频谱。

步骤103)、利用所有时频点上的时间延迟来构建时间延迟直方图，抽取显著峰值作为时间延迟的估计值。该步骤具体包括：

步骤103-1)、计算由第p个和第q个麦克风组成的第m对麦克风的时间延迟τ_m,t,f，m＝1,2,...,M：

其中，∠表示求取复数相位的操作，u_p,t,f与u_q,t,f为在t时刻第f频点上的观察向量[u_1,t,f,u_2,t,f,…,u_K,t,f]的第p和第q个分量,ω_f为数字角频率，n为整数；

步骤103-2)、在t时刻第f频点上，根据第m对麦克风的距离约束r_m以及步骤103-1)所得到的时间延迟τ_m,t,f，得到时间延迟集合B_m,t,f：

B_m,t,f＝{τ_m,t,f|-r_m/c≤τ_m,t,f≤r_m/c}，m＝1,2,…,M；

其中，c为声速。

步骤103-3)、基于步骤103-2)所得到的时间延迟集合B_m,t,f构建时间延迟直方图，抽取显著峰值作为时间延迟的估计值。

步骤104)、利用步骤103)得到的时间延迟的估计值来估计每个语音源的波达方向(DOA)。参考图2，本步骤包括：

步骤104-1)、利用步骤103)得到的来自不同麦克风对的时间延迟估计值(τ₁,τ₂)两两配对估计出波达方向候选值。

步骤104-2)、由步骤104-1)所得到的波达方向候选值估计方向角α候选值，利用所有的方向角α候选值组成的集合A^(α)中的所有元素构建方向角直方图。

由于步骤104-1)所得到的波达方向候选值由方向角α、仰角β所组成，因此由该波达方向候选值可估计出方向角α候选值。

步骤104-3)、抽取方向角直方图中的显著峰值作为每个语音源的方向角估计值通过数峰值的数目得到语音源数目的估计值

步骤104-4)、由步骤104-3)得到的语音源的方向角估计值计算仰角初始值其中，仰角由方向角估计得到：

表示第d个声源的仰角的集合；参数δ为门限值。

步骤104-5)、由步骤104-3)得到的语音源的方向角估计值以及步骤104-4)得到的仰角初始值重新计算每个语音源的波达方向估计值其计算公式为：

步骤105)、利用步骤104)得到的每个语音源的波达方向估计值对混合语音的频谱进行分类，得到每个语音源的掩摸(mask)，进而根据该掩摸以及步骤102)得到的数字声音信号的频谱计算频域上的分离信号。该步骤具体包括：

步骤105-1)、利用步骤104)得到的每个语音源的波达方向估计值，计算每一个频点到第d个语音源的距离：

其中，g_m＝[g_m,1,g_m,2,0]^T表示第m对麦克风对之间的方向向量，f表示频点，为相位差。

其中周期性操作定义为：

h为一个整数；

步骤105-2)、根据步骤105-1)计算得到的频点到第d个语音源的距离为混合语音的频谱中的各个频点进行分类；其中，第f个频点的分类表示为：

为声源个数的估计值；

步骤105-3)、结合步骤105-2)所得到的频点的分类结果，得到第d个声源在每个频点上的mask，其表示为：

步骤105-4)、根据步骤105-3)得到的第d个声源在频点f上的mask以及步骤102)得到的数字声音信号的离散频谱计算频域上的分离信号；其中，分离的信号在频域表示为：

步骤106)、在每个mask上对分离信号在频域的表示X_d,k(ω_f)进行傅里叶逆变换，得到分离的语音。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于时间延迟直方图的语音分离方法，包括：

步骤1)、将声源信号转换成数字声音信号；

步骤2)、提取步骤1)所得到的数字声音信号的频谱；

2.根据权利要求1所述的基于时间延迟直方图的语音分离方法，其特征在于，所述步骤2)还包括：在提取步骤1)所得到的数字声音信号的频谱之前，对所述数字声音信号进行预处理，所述预处理包括：

3.根据权利要求1或2所述的基于时间延迟直方图的语音分离方法，其特征在于，所述步骤3)包括：

4.根据权利要求1或2所述的基于时间延迟直方图的语音分离方法，其特征在于，所述步骤4)包括：

5.根据权利要求1或2所述的基于时间延迟直方图的语音分离方法，其特征在于，所述步骤5)包括：