CN113724727A

CN113724727A - 基于波束形成的长短时记忆网络语音分离算法

Info

Publication number: CN113724727A
Application number: CN202111035383.2A
Authority: CN
Inventors: 兰朝凤; 刘岩; 于泽龙; 郭小霞; 韩玉兰
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-11-30

Abstract

在利用深度学习方式进行语音分离的领域，多路人声信号分离较为复杂，现阶段所使用的分离方式多是基于频谱映射方式，没有有效利用语音信号空间信息。针对此问题，本发明结合波束形成算法和LSTM网络提出了一种波束形成LSTM算法，通过超指向波束形成算法得到3个不同方向上的波束，然后提取每一波束中频谱幅度特征，并构建神经网络预测掩蔽值，得到待分离语音信号频谱并重构时域信号，实现语音分离，该算法充分利用了语音信号空间特征和信号频域特征。60度方向该算法与IBM‑LSTM网络相比，客观语音质量评估(PESQ)提高了0.59，短时客观可懂(STOI)指标提高了0.06，信噪比(SDR)提高了1.13dB，另外两个方向上，实验结果同样证明了该算法较IBM‑LSTM算法和RNN算法具有更好分离性能。

Description

基于波束形成的长短时记忆网络语音分离算法

技术领域

本发明涉及利用深度学习方式进行语音分离的领域，特别涉及波束形成算法和LSTM网络的语音分离算法。

背景技术

语音信号分离问题最早起源于鸡尾酒会问题，该问题致力于解决在嘈杂环境中分离出重点关注的语音信号，经过学者不断努力，解决该问题的方法不断被创新，语音信号分离速度和分离质量都有所提高。随着社会进步和智能家居的发展，语音信号处理知识被广泛应用于日常生活之中，对信号处理速度和质量又提出了更高要求。语音分离问题的解决方法主要可以归结为两个大类，分别为基于信号变换的传统方式和近年来流行的深度学习方式，传统分离方法主要是通过数字信号处理方式，对混合语音信号矩阵进行数学变化，使分离后语音信号彼此之间达到最大独立性完成信号分离。该方法为语音信号分离领域做出了一定贡献，但是其往往需要对混合语音信号施加限制条件，如ICA施加的是弱正交约束，最终得到一个具有分布式的信号表征从而实现数据降维目的，矢量量化模型对观测信号施加一种强约束，将数据拟合成两种彼此相互排斥模型，最终达到语音数据聚类目的。但是在实际生活中，这些限制条件并不容易满足，因而在实际应用过程中，使用该方法分离效果还有待提高。

随着计算机技术的不断发展，计算机运算速度提高，运算成本下降，基于深度学习的语音信号处理方式被众多学者提出并加以研究，在语音信号处理领域取得了一定成果。深度学习网络结构(Deep Neural Network,DNN)是较早用于语音分离的网络，并且取得了一定进展。Wang等人最先提出将DNN应用于语音分离领域，并结合理想软模板和理想二值模板完成了语音分离任务，并对两种模板的分离结果做出了具体阐述分析。DNN具有多层次结构，可以从训练数据中抽取出更加抽象特征并具有非常强大的处理非线性数据能力，但是其训练过程中存在大量参数计算，从而导致了其模型收敛所需要时间更长的问题。随后，有学者利用卷积神经网络模型(Convolution Neural Network,CNN)探究了语音信号分离问题。Huang等人将DNN和RNN模型结合起来应用于该问题，并在模型中加入了模板计算方法，该方法在模型中被称之为确定层，通过确定层实现了对误差函数最小化操作，通过对误差函数优化和网络模型优化得到基比DNN更好的语音分离结果。Cai等人提出一种基于CMNN网络结构，该结构结合理想幅值掩蔽(Ideal Ratio Mask,IRM)和maxout激活函数，实现对语音分离问题的建模，实验结果表明相对于传统的CNN网络语音分离效果具有较大提升。Pritish等人通过构建一种深度卷积网络模型，成功分离离单通道低延迟的混合语音信号，其分离语音信号中包含鼓声、贝斯和随歌曲变化的其他种类乐器，在实验中研究人员还对该提出模型和多层感知器模型进行了对比实验，实验结果表明该提出模型无论从信号分离效果还是分离速度上都优于多层感知器。2014年，有学者提出了深度堆叠网络(DeepStacking Network,DSN)进行语音信号分离任务，该网络是由多个神经网络堆叠而成，并且后一层网络输入包含上一层网络输出和原始输入。Nie等人给出了一种层级堆叠神经网络，并通过该网络对语音短时动态信息进行分析，此类网络提高了原始信号的估计精确度，但是其对于语音信号每一个频带估计过程中相互间是独立操作，没有考虑到频带相关性。其后有学者将循环神经网络(Recurrent Neural Network,RNN)应用于语音分离实践中，相较于卷积神经网络只关心数据局部信息特征，而忽略了语音信号前后联系的情况，RNN是一种时序模型，其在某一时刻的输出可以在下一个时刻作用其自身，因其结构具有循环链接特性，所以常用于时序信号的短时动态信息建模，并且其更加适用于语音信号这种与数据出现次序有关的信息处理，在语音分离领域取得了巨大成功。单层RNN网络因只有单个隐层，层级结构的缺乏令其在学习语音信号深层结构信息时具有缺陷性。随后有学者针对该问题提出了基于深层循环神经网络(Deep Recurrent Neural Network,DRNN)的语音信号分离方法，但是DRNN中还存在梯度消失问题有待解决。

综上所述，深度学习方式解决语音分离问题主要依靠频域特征，没有对语音信号空间特征进行有效利用，并且在深度学习中还存在RNN梯度消失问题。当前深度学习模型都是对语音信号频域特征提取，之后对该特征进行训练得到输入特征和关注语音信号频谱特征间非线性映射关系，从而解决语音分离问题，但是该方法不足处在于其分离依据是目标语音于干扰语音间频谱结构差异，若二者结构相似其分离结果较差。

发明内容

本发明的目的在于提出了一种波束形成LSTM算法，该算法可有效分离语音信号，在噪声环境下具有较好的语音分离效果，可以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

波束形成LSTM算法的语音分离效果算法，包括如下步骤：

步骤1：提出了一种基于理想二值掩码的LSTM神经网络；

步骤2：对波束形成基本原理进行叙述，提出本发明中使用的超指向波束形成算法；

步骤3：利用麦克风阵列，提出一种超指向波束形成算法和LSTM网络结合模型，通过波束形成算法得到3个不同方向语音波束信号，而后该算法提取的特征是每一个波束中的频谱幅度特征，通过本文构建的LSTM网络预测掩蔽值，通过掩蔽值得到待分离语音信号频谱并重构出时域信号，完成语音分离问题。

进一步地，步骤1中如图1所示，一个标准LSTM网络记忆块具有1个记忆单元和3个门控单元，网络利用图1中3个门控单元来控制记忆单元状态，门控单元分别表示输入门，输出门和遗忘门。某一时刻t，LSTM记忆块利用门状态的改变来对记忆块状态进行更新，更新过程由遗忘门状态更新，记忆单元状态更新和输出更新组成。

如图1中①所示，遗忘门在t时刻输出m_t由前一个时刻输出l_t-1和当前时刻输入X_t决定，m_t可以表示为式

m_t＝σ(W_f×[l_t-1,X_t]+b_f) (1)

其中，W_f代表遗忘门权重；b_f代表遗忘门偏置；σ代表sigmod激活函数。遗忘门通过l_t-1,X_t状态来确定一个0～1之间的值，通过这个值来确定上一时刻学习到的信息K_t-1作用于下一时刻比例。

如图1中②所示，其功能是对记忆单元状态进行更新。更新内容包含两部分内容，第一部分是通过式(2)决定哪些值需要更新，另一部分为通过式(3)生成新候选值。最后通过式(4)完成记忆单元输出，运算过程为：

i_t＝σ(W_i×[l_t-1,X_t]+b_i) (2)

式中：i_t代表输入门输出结果，通过sigmod函数来决定哪些值用来进行更新；W_i代表输入门权重；b_i代表输入门偏置。

其中，

表示通过tanh函数生成的新候选值，W_k代表记忆单元权重，b_k代表记忆单元偏置。

通过式(4)完成记忆单元输出，其主要由式(2)、(3)两部分构成，其中m_t*K_t-1代表遗忘门对上一时刻信息的遗忘，

代表新加入状态信息，将两部分作和，最终得到了K_t，即当前时刻记忆单元状态，也是当前时刻t的输出。

如图1中③所示，该过程代表输出门控制的输出信息，需要输出的记忆单元状态信息通过sigmoid函数来进行控制，可表示为

ot＝σ(W_o*[l_t-1,X_t]+b_o) (5)

其中，o_t代表输出门输出结果；W_o代表输出门权重；b_o代表输出门偏置。通过tanh函数来对当前时刻记忆单元状态进行，最后输出结果l_t是两部分乘积，可表示为

l_t＝o_t*tanh(K_t) (6)

利用二值掩码结合LSTM网络来进行语音信号分离训练有望达到比RNN网络更加好的分离效果，IBM-LSTM网络结果如图2所示。

图2中，在训练阶段，网络输入是混合语音信号时频谱，通过与纯净语音信号时频谱进行非线性映射，形成一个通过LSTM网络训练得到的二值掩码模型；在分离阶段通过该模型估计出对应语音信号的二值掩码，而后通过短时傅里叶逆变换得到原始语音信号，完成语音分离任务。

进一步地，步骤2中，提出超指向波束形成算法，该算法相对于其它波束形成算法，对来自非导向方向语音信号抑制作用更强，更适用于本发明所提出语音分离模型。

波束形成过程如图3所示，其中包含两个过程，分别代表滤波和信号叠加。波束形成器由不同通道所对应的滤波器共同组成，其大多数是在频域进行设计，通过短时傅里叶变换方式实现。

波束形成过程将给定时刻和频带上的阵列观测信号叠加变成一个向量，该向量可以表示为

y(ω)＝[Y₁(ω),Y₂(ω),...,Y_M(ω)]^T (7)

其中，M代表麦克风阵列中包含麦克风数量；ω代表频率。

经过上述过程后，波束形成算法输出表示为：

其中，*代表共轭；H代表矩阵的共轭转置；h(ω)＝[H₁(ω),H₂(ω),....,H_M(ω)]^T代表当前阵列的波束形成滤波器，并且其是一个与y(ω)具有相同维度的复向量，在h(ω)确定的前提下，麦克风阵列空域响应可以表示为式(9)所示

α(ω,θ)＝h^H(ω)d(ω,θ) (9)

其中，θ代表方向，其由方位角和俯仰角共同决定，d(ω,θ)代表阵列导向矢量，其与阵列几何结构、方向等有关。式(9)显示了波束形成算法对不同方向信号响应特性，空域响应在期望语音信号方向具有最大幅度值，并且会对其他方向信号产生一定程度衰减。

空域响应幅度随方向变化的曲线被称为波束图，如果设置0°方向为主瓣，其他方向为旁瓣，在此种情况下，波束形成器性能可以通过指向性因子进行衡量，形成器主瓣窄旁瓣低时性能较好，指向性因子可表达为：

其中，θ₀代表所期望的导向方向；Γ(ω)带表各向同性噪声协方差矩阵。

为实现对非导向方向语音信号最大抑制效果，需要使波束形成器指向性越高越好，实现该目标最简单方式是极大化指向性因子，通过这种方式设计出来的波束形成器称为超指向波束形成器，超指向波束形成算法在期望声源方向无失真约束条件下，可以将问题简化为

在满足h^H(ω)d(ω,θ₀)＝1条件下求出上式的最小值。此条件下通过推导可得到当前阵列的超指向波束形成滤波器h_SD(ω)，表示为

超指向波束形成实质是在保证期望声源信号不失真前提下，尽量对来自其它方向语音信号进行抑制的过程，因此将其和上文中提到过的LSTM神经网络相结合，可以在神经网络基础上引入语音信号方向信息，有望进一步提高神经网络模型语音信号分离效果。

进一步地，在步骤3中本发明利用麦克风阵列，提出一种超指向波束形成算法和LSTM网络结合模型，通过波束形成算法得到3个不同方向语音波束信号，而后该算法提取的特征是每一个波束中的频谱幅度特征，通过本发明构建的LSTM网络预测掩蔽值，通过掩蔽值得到待分离语音信号频谱并重构出时域信号，完成语音分离问题。

由图4可见，利用合适的麦克风阵列对3路语音信号进行采集，通过超指向波束形成算法，得到三个不同方向的指向性波束。对3个波束信号进行频谱幅度特征提取进而得到联合特征，根据数据每个维度上特征值的平均值和标准差对联合特征进行标准化操作。当前联合特征作为LSTM网络输入，根据目标语音信号频谱幅度特征，通过网络训练得到掩蔽值，根据掩蔽值得到目标语音频谱，进行语音信号重构得到原始时域目标语音信号，完成语音信号分离工作。

本发明的特征及优点将通过实施例结合附图进行详细说明。

附图说明

图1为本发明的典型LSTM网络记忆块；

图2为本发明的波束形成频域求和结构示意图；

图3为本发明的波束形成频域求和结构示意图；

图4为本发明的分离算法流程图；

图5为本发明的阵列布放及声源位置；

图6为本发明的LSTM神经网络结构；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实验过程中，通过TIMIT语音库随机选择3名说话者语音信号，并且说话人年龄和性别均保持随机抽取，在进行语音录制前将3段语音信号裁剪成相同时间长度并进行幅度归一化操作，阵列布放及声源位置如图5所示，本文通过图5的布放方式进行语音信号录制。

如图5所示，采用3个麦克风组成麦克风阵列，阵列中每个麦克风距离圆形中心距离为50mm，并且保持在同一水平面上，图中所示箭头方向作为0方向，将圆形按照逆时针方向均匀划分成6个区域，每个区域60°，3个说话人保持和麦克风在同一水平面上，距离圆中心位置2.5m，方向分别为60°，120°，240°方向，同时播放3段语音信号，通过麦克风录制实验所需要的训练数据，本文共录制了接近7000条语音数据用于神经网络训练过程。

本发明所用神经网络结构如图6所示，神经网络结构由1层掩蔽层，3层LSTM层和1层全连接层构成。其中全连接层中包含600个节点，训练中用到的损失函数为mean_squared_error函数，即最小均方误差函数(Mean Squared Error,MSE)，在训练过程中，损失函数值越小，说明神经网络和训练集拟合性越好，匹配度越高。

实验中使用语音信号采样频率统一为16kHz，帧长设置为512点，采用3层LSTM网络结构，每层由600个神经元组成。在60°，120°，240°方向进行超指向波束形成，得到不同方向的语音波束信号，进而得到不同波束频谱幅度特征，将特征拼接起来得到联合特征，将联合特征作为网络输入，结合纯净语音信号频谱幅度特征，得到一个二值掩蔽训练模型。分离阶段通过模型得到混合语音信号对应的二值掩蔽，将其作用于混合语音信号幅度谱得到待分离语音信号幅度谱，重构原始语音信号，达到语音信号分离的目的。由上文理论分析可知，相对于传统LSTM网络，该方法不仅利用了观测信号频谱信息，还通过波束形成算法利用了观测信号空间信息，有望得到较好的分离结果。

为量化实验结果，本文通过客观语音质量评估(Perceptual Evaluation ofSpeech Quality,PESQ)，短时客观可懂(Short-Time Objective Intelligibility,STOI)，信噪比(Signal to Noise Ratio,SDR)指标对分离结果进行评价，对提出的波束形成LSTM网络分离效果进行测试，并将实验结果同IBM-LSTM方法进行对比，并将本实验结果同RNN网络分离结果对比，本实验以60°，120°及240°方向语音信号的分离结果为例，不同网络分离结果如表1所示。

表1不同网络结构分离人声信号结果

由表1可知，结合波束形成算法的LSTM网络，综合利用了语音信号的频谱信息和空间信息，相较于仅仅应用频谱信息的神经网络在语音分离效果上有所提高，在60°方向时，波束形成LSTM网络与IBM-LSTM网络相比，PESQ提高了0.59，STOI指标提高了0.06，SDR提高了1.13^dB。与RNN网络相比，PESQ提高了0.76，STOI指标提高了0.09，SDR提高了2.16dB。在120°方向时，波束形成LSTM网络与IBM-LSTM网络相比，PESQ提高了0.56，STOI指标提高了0.05，SDR提高了1.13dB。与RNN网络相比，PESQ提高了0.76，STOI指标提高了0.09，SDR提高了2.18dB。在240°方向时，由表1可得到与上述两种角度相同的结论，即波束形成LSTM网络相较于另外两种算法在语音分离评价指标上均有所提高。实验结果表明，结合超指向波束形成的LSTM网络相较于IBM-LSTM、RNN网络在语音分离领域取得了更好分离效果，证明了本发明所提出算法的有效性。

Claims

1.波束形成LSTM算法的语音分离效果算法，其特征在于，包括如下步骤：

步骤1：提出了一种基于理想二值掩码的LSTM神经网络；

步骤3：利用麦克风阵列，提出一种超指向波束形成算法和LSTM网络结合模型，通过波束形成算法得到3个不同方向语音波束信号，而后该算法提取的特征是每一个波束中的频谱幅度特征，通过本发明构建的LSTM网络预测掩蔽值，通过掩蔽值得到待分离语音信号频谱并重构出时域信号，完成语音分离问题。

2.如权利要求1所述的波束形成LSTM算法的语音分离效果算法，其特征在于，步骤1中通过tanh函数来对当前时刻记忆单元状态进行，最后输出结果l_t是两部分乘积，可表示为

l_t＝o_t*tanh(K_t) (6)

利用二值掩码结合LSTM网络来进行语音信号分离训练有望达到比RNN网络更加好的分离效果。

3.如权利要求1所述的波束形成LSTM算法的语音分离效果算法，其特征在于，步骤2中可得到当前阵列的超指向波束形成滤波器h_SD(ω)，表示为

4.如权利要求1所述的波束形成LSTM算法的语音分离效果算法，其特征在于，步骤3中提出一种超指向波束形成算法和LSTM网络结合模型，通过波束形成算法得到3个不同方向语音波束信号，而后该算法提取的特征是每一个波束中的频谱幅度特征，通过本发明构建的LSTM网络预测掩蔽值，通过掩蔽值得到待分离语音信号频谱并重构出时域信号，完成语音分离问题。