CN104464750A

CN104464750A - 一种基于双耳声源定位的语音分离方法

Info

Publication number: CN104464750A
Application number: CN201410579458.7A
Authority: CN
Inventors: 周琳; 李枭雄; 吴镇扬; 郭海燕
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2014-10-24
Filing date: 2014-10-24
Publication date: 2015-03-25
Anticipated expiration: 2034-10-24
Also published as: CN104464750B

Abstract

本发明公开了一种基于双耳声源定位的语音分离方法通过数据训练、多声源定位和根据声源方位的语音分离对多声源进行分离，获得每个声源的分离语音。本发明基于人耳的“鸡尾酒会效应”，模拟人耳的听觉特征，可以准确定位声源个数和声源方位，利用定位后的声源方位信息获取准确的混合矩阵，从而进行语音分离过程，其分离性能获得有效提升。

Description

一种基于双耳声源定位的语音分离方法

技术领域

本发明涉及语音分离技术，具体涉及一种基于双耳声源定位的语音分离方法。

背景技术

语音分离是一类特殊的语音增强方法，这种方法是在源语音信号和传输信道参数(即混合过程)未知的情况下，仅根据从双耳麦克风采集到的观测数据(即混合语音信号)，来恢复或分离出独立的源语音信号的过程。

目前，盲源语音分离技术估计出的混合矩阵需要手动选取峰值点，与真实值存在误差，其实施条件也难以满足双耳语音分离的模型。而多麦克风阵列的语音分离算法存在计算量大、麦克风阵列尺寸大等问题。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于双耳声源定位的语音分离方法，利用人耳的鸡尾酒会效应，模拟人耳的听觉特征，可以准确定位声源个数和声源方位，利用定位到的声源方位信息获取准确的混合矩阵进行语音分离，改进了现有技术的不足。

技术方案：一种基于双耳声源定位的语音分离方法，其特征在于，该方法包括以下步骤：

步骤1)数据训练：

1.1)使用虚拟声进行训练，所述虚拟声为头相关脉冲响应函数HRIR数据与白噪声卷积生成方位已知的虚拟声，声源位置坐标为(r,θ)，r为声源与原点的直线距离，方位角θ为方向矢量在水平面的投影与中垂面的夹角；方位θ角的范围为[-180°,180°]，其中，前向方位角范围为[-90°,90°]，间隔为5°；

1.2)对虚拟声进行预处理，获得平稳的单帧信号；所述预处理包括幅度归一化、分帧和加窗；

1.3)对步骤1.2)所得单帧信号进行计算，分别计算每一个帧信号的耳间时间差ITD特征参数和耳间强度差IID特征参数，获得不同方位虚拟声声源的多帧ITD和多帧IID训练样本；

1.4)根据步骤1.3)所得ITD和IID训练样本，建立方位映射模型：将相同方位虚拟声信号的多帧ITD和多帧IID训练样本值的均值作为训练ITD参数和训练IID参数模型：δ(θ)和α(θ,ω)，其中δ(θ)表示角度θ对应的训练ITD参数；α(θ,ω)表示频谱为ω，角度为θ对应的训练IID参数；其中，ω为角频率矢量；ω的范围为[0,2π]，间隔为2π/512；

步骤2)多声源定位：

2.1)对双通道的采集声信号进行预处理，按帧获得双通道多帧的时域信号；所述预处理包括幅度归一化、分帧和加窗；

2.2)对步骤2.1)中分帧后所得的分帧信号进行短时傅里叶变换，转换到时频域，获得双通道时频域的分帧信号；

2.3)对步骤2.2)所得的时频域信号按帧计算每一帧测量ITD参数和测量IID参数；

2.4)对步骤2.3)中的测量ITD参数进行阈值筛选，获得多个候选测量ITD参数

{{\tilde{δ}}_{1}, {\tilde{δ}}_{2}, . . ., {\tilde{δ}}_{l}}

其中，为候选的测量ITD参数，l为候选参数的个数；i和l的取值范围满足：1≤i≤l；

2.5)对步骤2.4)所得的候选测量ITD参数与步骤1.4)中获得的方位映射模型中规定前向方位角的训练ITD参数值进行逐一距离匹配，并进行筛选，获得筛选后的k个前向候选方位，其中，k＜＝l；由对称性，得到前后向对称的候选方位集合：

{θ_f1,θ_f2,…,θ_fk,θ_b1,θ_b2,…,θ_bk}

其中，下标f和b表示前向和后向；得到测量ITD参数对应的候选方位，即每个对应两个前后对称的θ_fj和θ_bj，其中θ_fj和θ_bj表示候选的前向方位和后向方位；i、l、j和k的取值范围满足1≤i≤l，1≤j≤k；

2.6)根据步骤2.5)得到的每个测量ITD参数对应的候选方位，将测量ITD所在帧的IID值根据其对应的候选方位，归为相应候选角度的测量IID参数集合；

2.7)对于每个候选角度，就步骤2.6)所得的测量IID参数集合与步骤1.4)所得的方位映射模型中的IID模型值计算欧氏距离，并进行距离阈值判决，获得最终判定的声源个数n和声源的方位：{θ₁,θ₂,…，θ_n}；其中，n≤k；

步骤3)根据声源方位的语音分离对多声源进行分离，获得每个声源的分离语音：

3.1)根据步骤2.7)所得声源个数和声源方位，获得其对应于步骤1.4)中训练ITD参数和训练IID参数的参数对，组成多声源的方位混合矩阵；

3.2)对步骤2.1)所得双通道多帧的时频域信号中的每对时频点与步骤3.1)获得的混合矩阵中每个训练ITD参数和训练IID参数对进行欧氏距离计算，根据最大似然准则，对每个声源所对应的时频点进行二进制掩码标记；

3.3)对步骤3.2)所得的掩码标记与步骤2.1)中获得的双通道多帧的时频信号相乘，获得每个声源所对应的时频域信号；

3.4)对步骤3.3)所得的每个声源对应的时频域信号进行傅里叶逆变换，转换为时域信号，进行去加窗，合成为每个声源的分离语音。

有益效果：本发明与现有的双通道语音分离技术相比，由于本发明基于人耳听觉特性进行声源定位，在定位阶段准确获取了声源的个数和方位，从而获取真实准确的混合参数矩阵，在语音混合参数矩阵估计的精确度上得到有效提升，将声源定位和二进制掩码技术相结合，在多个说话人分离方面，其分离性能：SIR(Source to Interferences Ratio)、SDR(Source to Distortion Ratio)、SAR(Sources to Artifacts Ratio)得到有效提高。

附图说明

图1为本发明声源定位和语音分离的平面空间示意图

图2为本发明系统框图

图3为本发明声源定位框图

图4为本发明语音分离框图

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明先进行数据训练，将各方位耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)的均值作为声源方位的定位特征线索，建立方位映射模型；实际声源定位时，输入为双通道声信号，输入声信号先经过频域变换，计算各帧的ITD和IID参数，根据ITD特征参数与训练模块建立的方位特征模型进行逐一匹配，基于欧氏距离测度，进行方位筛选，输出候选方位，对所有候选方位对应帧的IID特征参数与训练模块的IID特征参数进行欧氏距离计算，根据阈值判决，输出最终的声源个数及声源方位。在多声源分离部分，利用语音定位后的方位信息确定混合矩阵，根据二进制掩码技术将每个声源所对应的时频点归为一类，最后通过傅里叶逆变换将时频域上各声源的时频点恢复到时域。

图1为本发明声源定位和语音分离的平面空间示意图，以3个声源为例。2个麦克风位于双耳处，在本发明中，声源位置由坐标(r,θ)唯一确定。其中，0≤r<+∞为声源与原点的距离；方向角-180°≤θ≤180°为方向矢量在水平面的投影与中垂面的夹角。水平面上，θ＝0°表示正前方，沿顺时针方向θ＝90°、180°和-90°分别表示正右、正后和正左方。图1以3个声源(本实施例的声源为说话人发出的声音)为例，其方向角分别为-30°、5°、40°。

图2为本发明的系统框图，本发明方法包括模型训练、声源定位和语音分离三大步，下面结合附图对本发明技术方案的具体实施方式进行详细说明：

步骤1)数据训练：

1.1)图2给出整体系统框图中，在训练阶段，HRTF(Head Related Transfer Function)：头相关变换函数，是一种音效定位算法，对应时域的HRIR(Head Related ImpulseResponse)为头相关冲击响应。

本发明使用麻省理工学院媒体实验室测量的HRIR数据，有2种获得方位已知的虚拟声的方法：

第一种：使用水平面方位，即θ＝-180°～180°(间隔5°)的头相关脉冲响应(双通道)HRIR数据，与白噪声卷积生成方位已知的虚拟声(双通道)；

第二种：使用水平面右侧方位，即θ＝0°～180°(间隔5°)的HRIR数据，由于左右耳对称，因此将右侧方位虚拟声数据交换左右声道的数据即得到水平面左侧的方位的虚拟声，即θ＝-180°～0°(间隔5°)。

1.2)对所得虚拟声进行预处理，本方法的预处理包括：幅度归一化、分帧及加窗。

幅度归一化方法为：

x_L＝x_L/maxvalue

x_R＝x_R/maxvalue

其中:

x_L和x_R分别表示左耳声信号和右耳声信号；maxvalue＝max(|x_L|,|x_R|),表示左耳、右耳声信号幅度的最大值。

本实施例采取的分帧方式帧长为32ms，帧移为10ms。

本实施例使用汉明窗对分帧后的语音信号进行加窗处理，加窗后的第τ帧信号可以表示为x_τ(m)＝w_H(m)x(τN+m)0≤m＜N

其中，

w_{H} (m) = \{\begin{matrix} 0.54 - 0.46 \cos [2 πm / (N - 1)] & 0 \leq m < N \\ 0 & m &GreaterEqual; N \end{matrix}\}

为汉明窗，N为一帧采样数据长度，本实施例中，N＝512。

1.3)求取ITD和IID训练样本。

第τ帧信号的ITD值为：

{ITD}_{τ} = \arg \max_{k} (Σ_{m = 0}^{N - | k | - 1} x_{L} (m) x_{R} (m + k))

其中，N为一帧信号的采样点数，-N+1≤k≤N-1。

第τ帧信号的IID值为：

{IID}_{τ} (ω) = 20 \log \frac{| X_{L} (τ, ω) |}{| X_{R} (τ, ω) |}

其中，X_L和X_R分别x_L和x_R的频域表示，即短时傅里叶变换，其公式的公式为：

X (τ, ω) = Σ_{m = 0}^{N - 1} x_{τ} (m) e^{- jωm}

其中，x_τ表示第τ帧信号；ω表示角频率矢量，范围为[0,2π]，间隔为2π/512。

1.4)建立方位映射模型。将各方位多帧声信号的ITD和IID训练样本按角度求取均值δ(θ)和α(θ,ω)，作为对应方位训练ITD参数和对应方位训练IID参数：

δ (θ) = \frac{\underset{τ}{Σ} {ITD}_{τ}}{frameNum}

α (θ, ω) = \frac{\underset{τ}{Σ} {IID}_{τ} (ω)}{frameNum}

其中，frameNum表示训练样本总帧数，θ表示声源的角度。

δ(θ)表示角度θ对应的训练ITD参数，α(θ,ω)表示频谱为ω、角度为θ对应的训练IID参数，为512维的矢量。由此建立了角度θ与训练ITD参数、训练IID参数对应的模型。

步骤2)多声源定位：

2.1)对应图3中的预处理模块，对双通道的采集的声信号进行与上述步骤1.2)中相同的预处理，包括幅度归一化、分帧和加窗，采取帧长为32ms，帧移为10ms，加汉明窗，共获得frameNum帧信号。

2.2)对应图3中的STFT(Short Time Fourier Transform，短时傅里叶变换)模块，对步骤A所得的多帧信号按帧进行STFT，转换到时频域，获得双通道时频域的多帧信号X_L(τ,ω),X_R(τ,ω)，分别对应左耳声信号的频域表示和右耳声信号的频域表示，STFT的方法与步骤1.3)中描述的方法相同。

2.3)对应图3中的计算特征参数模块，采用上述1.3)所述相同的方法对所得左右耳声时频域信号按帧求取测量ITD参数和测量IID参数，得到每帧对应的测量IID参数和测量ITD参数τ＝1,2,...,frameNum。

2.4)对应图3中的候选ITD筛选模块，统计相同的所出现的次数，进行阈值筛选：

T (I \tilde{T} D_{τ}) &GreaterEqual; λ \cdot frameNum .

其中，表示每帧信号计算出的测量ITD参数，表示相同的所出现的次数，frameNum为所有语音帧的总帧数，λ为权重系数，本发明取λ＝0.03。

在中找出重复次数大于λ·frameNum的l个作为候选测量ITD参数，其组成的集合为

2.5)对应图3中的匹配模型ITD参数并筛选模块，由对称性可知，ITD的值在头部前后向是对称的，例如θ＝45°和θ＝135°，其ITD值是相同的，故1个ITD值对应了前向和后向2个方位。将与训练ITD参数中前向方位的δ(θ_f)进行逐一距离匹配，θ_f表示前向方位，下标f表示前向，范围为[-90°,90°]，间隔5°，其包括的步骤为：

(1)计算与δ(θ_f)距离最相近的一个或多个δ(θ_f)。其计算公式为

(2)排除与多个δ(θ_f)距离相同的影响，例如：

\min | {\tilde{δ}}_{i} - δ (θ_{f}) | = {\tilde{δ}}_{i} - δ (θ_{p}) | = {| \tilde{δ}}_{i} - δ (θ_{q}) |

其中，θ_p∈θ_f,θ_q∈θ_f,p≠q。

假设已经筛选出的ITD参数集合为Φ，判断是否θ_p∈Φ,θ_q∈Φ，若有一个属于集合Φ，则不作任何操作；若两者均不属于Φ，则选择与0°夹角小的θ对应的δ(θ_f)加入到Φ。

(3)排除角度重复的影响，例如：

\underset{θ}{\arg} \min | {\tilde{δ}}_{p} - δ (θ_{f}) | = \underset{θ}{\arg} \min | {\tilde{δ}}_{q} - δ (θ_{f}) | = θ_{m}

其中，p≠q,θ_m∈θ_f。则和都判定为θ_m对应的ITD测量参数。

经过上述步骤，从训练值中选出k(k＜＝l)个{δ(θ_f1),δ(θ_f2),…,δ(θ_fk)}作为ITD候选值集合。由对称性可知，每个δ(θ)对应的候选方位有前向方位和后向方位2个，其对应的角度为候选方位集合为{θ_f1,θ_f2,…,θ_fk,θ_b1,θ_b2,…,θ_bk}，下标b表示后向；

2.6)对应图3中的分配IID参数模块，将ITD值为相对应的数据帧所对应的测量IID参数，根据其对应的候选方位，归为相应候选角度的测量IID参数集合，其中，前向方位和后向方位对称的候选方位的IID参数集合相同；

2.7)对应图3中的计算与模型IID欧氏距离模块和阈值判决模块，其步骤包括：

(1)计算与模型IID欧氏距离模块：将{θ_f1,θ_f2,…,θ_fk,θ_b1,θ_b2,…,θ_bk}所对应的k类帧的测量IID参数与各个方位对应的训练IID参数计算其欧氏距离，由于每个候选角度对应的帧数不同，距离差别较大，因此选取距离最近的λ'·frameN_i帧进行判决。

其中λ'为权重系数，本方法取λ'＝0.2，frameN_i为每个候选角度对应的帧数，i＝1,2,…,k；

(2)阈值判决模块：将计算得到的距离与阈值进行比较，如下式所示：

Σ_{j = 1}^{λ^{'} \cdot frame N_{i}} \underset{ω}{Σ} {| I \tilde{I} D_{fi / bij} (ω) - α (θ_{fi / bi}, ω) |}^{2} / (λ^{' \cdot} frame N_{i}) \leq threshold

其中，

为测量值和训练值α(θ_fi/b,iω)间的距离，i＝1,2,…,k；

j为帧号；

表示角度为θ_fi或θ_bi的第j帧所对应的测量IID参数；

α(θ_fi/bi,ω)表示角度为θ_fi或θ_bi，频谱为ω对应的训练IID参数；

threshold为设定的阈值，本方法取threshold＝200。

最终，排除前后向方位混淆的问题，满足条件的候选方位的个数即为最终判定的声源个数n(n≤k)，满足条件的θ_i为声源的方位：{θ₁,θ₂,…,θ_n}。

3、对多声源分离的分离步骤为：

3.1)首先阐述理想情况下双通道语音混合模型，如下式所示：

x_{L} (t) = Σ_{i = 1}^{n} s_{i} (t)

x_{R} (t) = Σ_{i = 1}^{n} α_{i} s_{i} (t - δ_{i})

其中，

α_i为IID参数，表示声源到右耳的强度相对于到左耳的强度的衰减或增强，理想情况下为定值；

δ_i为ITD参数，表示声源到右耳的时间相对于到左耳的时间的差值；

s_i为声源信号；

n为声源个数；

i＝1,2,...,n；

x_L和x_R为接收到的时域信号，分别表示左耳和右耳声信号。将上式根据傅里叶变换变换到频域，并写成矩阵形式为：

[\begin{matrix} X_{L} (τ, ω) \\ X_{R} (τ, ω) \end{matrix}] = [\begin{matrix} 1 & 1 & \cdot \cdot \cdot & 1 \\ α_{1} e^{- jω δ_{1}} & α_{2} e^{- jω δ_{2}} & \cdot \cdot \cdot & α_{n} e^{- jω δ_{n}} \end{matrix}] [\begin{matrix} S_{1} (τ, ω) \\ S_{2} (τ, ω) \\ \cdot \\ \cdot \\ \cdot \\ S_{n} (τ, ω) \end{matrix}]

其中，

X_L、X_R和S_i分别是x_L、x_R和s_i的频域表示；τ表示帧号，ω为频谱，区别与理想情况，由于传播路径对不同频率声信号的衰减是有所区别的，即在实际情况中，α_i与频率有关，故实际为α_i(ω)，上式中省略了频率参数。

3.2)对应图4中获取ITD、IID参数对模块，对声源个数和声源方位{θ₁,θ₂,…,θ_n}，获得其训练ITD参数和训练IID参数对：

{δ(θ₁),δ(θ₂),…,δ(θ_n)}和{α(θ₁,ω),α(θ₂,ω),…,α(θ_n,ω)}

该参数对组成上式中的方位混合矩阵；

3.3)对应图4中二进制掩码模块，对每对时频点X_L(τ,ω)、X_R(τ,ω)与混合矩阵中每个ITD和IID参数对进行欧氏距离计算，如下式所示，根据最大似然准则，求出每对时频点距离双耳信号差最小的参数对的标号k，即为该时频点属于第k个声源：

J (τ, ω) : = \underset{k}{\arg \min} \frac{{| α_{k} e^{- j δ_{k} ω} X_{L} (τ, ω) - X_{R} (τ, ω) |}^{2}}{1 + {α_{k}}^{2}}, k = 1,2, . . ., n

其中，δ_k∈{δ(θ₁),δ(θ₂),…,δ(θ_n)}，α_k∈{α(θ₁,ω),α(θ₂,ω),…,α(θ_n,ω)}，J(τ,ω)表示时频点(τ,ω)属于的声源标号。

对每个声源所对应的时频点进行二进制掩码标记，如下式所示：

3.4)对应图4中获取每个声源时频信号模块，将上述掩码与双通道多帧的时频信号相乘，获得每个声源所对应的时频域信号，如下式所示：

{\tilde{S}}_{i} (τ, ω) = M_{i} (τ, ω) (\frac{X_{L} (τ, ω) + α_{i} e^{j δ_{i} ω} X_{R} (τ, ω)}{1 + {α_{i}}^{2}})

3.5)对应图4中ISTFT(Inverse Short Time Fourier Transform,逆短时傅里叶变换)模块，对步骤33)所得的每个声源对应的时频域信号进行ISTFT，声源i的第τ帧时域信号的计算公式为：

s_{i, τ} (m) = \frac{1}{2 π} {&Integral;}_{- π}^{π} {\tilde{S}}_{i} (τ, ω) e^{jmω} dω

转换为时域信号后，进行去加窗，去加窗后的第τ帧信号可以表示为：

{\tilde{x}}_{τ} (m) = {w_{H}}^{- 1} (m) x (τN + m), 0 \leq m < N

其中，w_H(m)为上文中汉明窗。

将去加窗后的各帧语音合成为最终的每个声源的分离语音

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于双耳声源定位的语音分离方法，其特征在于，该方法包括以下步骤：

1)数据训练：

2)多声源定位：

{{\tilde{δ}}_{1}, {\tilde{δ}}_{2}, . . ., {\tilde{δ}}_{l}}

{θ_f1,θ_f2,…,θ_fk,θ_b1,θ_b2,…,θ_bk}

2.7)对于每个候选角度，就步骤2.6)所得的测量IID参数集合与步骤1.4)所得的方位映射模型中的IID模型值计算欧氏距离，并进行距离阈值判决，获得最终判定的声源个数n和声源的方位：{θ₁,θ₂,…,θ_n}；其中，n≤k；

3)根据声源方位的语音分离对多声源进行分离，获得每个声源的分离语音：