CN111899756A

CN111899756A - 一种单通道语音分离方法和装置

Info

Publication number: CN111899756A
Application number: CN202011057720.3A
Authority: CN
Inventors: 史慧宇; 欧阳鹏; 尹首一
Original assignee: Beijing Qingwei Intelligent Technology Co ltd
Current assignee: Shanghai Qingwei Intelligent Technology Co.,Ltd.
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-11-06
Anticipated expiration: 2040-09-29
Also published as: CN111899756B

Abstract

本发明为一种单通道语音分离方法和装置，包括：麦克风接收端接收待分离的混合语音；获取混合语音的频谱幅值和频谱相位；提取混合语音的频谱幅值获取深度嵌入式特征矢量；获取多个声源的定位信息；获取神经网络模型输出的估计组合掩蔽；获取目标频谱幅值和目标频谱相位；重构目标频谱幅值和目标频谱相位，获取目标语音。提高混合语音中目标说话人与非目标说话人分离的准确度。

Description

一种单通道语音分离方法和装置

技术领域

本发明涉及语音分离领域，具体为一种单通道语音分离方法和装置。

背景技术

单通道语音分离技术在语音识别、助听器、会议记录等设备中得到广泛地应用。单通道语音分离技术是指单个麦克风接收语音信号后将其中的目标说话人与其他的说话人和背景噪音分离开的技术。随着语音分离和语音降噪技术的发展，环境噪音或其他与人声差异较大的噪音信号的分离已经取得较好的结果，但是其他目标说话人与非目标说话人的信号较为接近，因此分离的难度较高。混合语音信号分离的准确性对多种设备的应用效果至关重要，若不能提高分离的准确度，则会出现语音识别不准确、助听器传给用户错误语音信息等情况。

综上所述，针对目标说话人与非目标说话人的语音进行分离，如何进一步地提高单通道语音分离的准确度是确有必要解决的问题。

发明内容

本发明的目的是提供一种单通道语音分离方法，提高混合语音中目标说话人与非目标说话人分离的准确度，提高获取目标说话人的精度。

为了实现上述目的，采用的技术方案为：一种单通道语音分离方法，包括：

S101：麦克风接收端接收待分离的混合语音；获取所述混合语音的频谱幅值和频谱相位。

S102：提取所述混合语音的频谱幅值获取深度嵌入式特征矢量。

S103：根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息，获取多个声源的定位信息。

S104：将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中，获取所述神经网络模型输出的估计组合掩蔽。

S105：根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位，获取目标频谱幅值和目标频谱相位。

S106：重构所述目标频谱幅值和目标频谱相位，获取目标语音。

与现有技术相比，本发明的技术效果为：对于目标说话人语音与非目标说话人语音分离，本发明根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息，获取混合语音中多个声源的定位信息，也就是能进一步对混合语音中的多个说话人做定位。

提取混合语音频谱幅值得到的深度嵌入式特征矢量与多个声源的定位信息结合后，本发明的关键点是额外增加了多个声源的定位信息，输入训练好的神经网络模型中得到输出的估计组合掩蔽，这样提高神经网络模型预测估计组合掩蔽的准确度，进而提高混合语音中目标说话人与非目标说话人分离的准确度。

附图说明

图1为本发明单通道语音分离方法的流程示意图。

图2为本发明单通道语音分离装置的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述。

如图1所示，本发明一实施例为一种单通道语音分离方法，包括：

对所述混合语音时域信号加窗分帧和短时傅里叶变换得到混合语音的频谱幅值和频谱相位。

也就是获得低维度的具有更高分辨率的嵌入矢量，通过训练目标函数

实现深度嵌入式特征矢量的提取。

其中，V表示深度嵌入式特征，Y表示理想幅值掩蔽，

_F为弗罗贝尼乌斯范数，T为转置。

声源所在的介质为空气，介质空间方位信息是根据声源所在位置和麦克风接收端建立的空间坐标系。麦克风接收端表面任意一点（x₀,y₀,z₀=0）以及介质中任意位置r（x,y,z）的坐标能够确定。

声源的定位信息为声源的坐标位置和所述混合语音的频谱相位融合得到。

具体地，根据所述麦克风接收端的位置、频谱相位和介质空间方位信息，通过高斯声束法获取声源空间的声压分布状态。具体通过下述公式计算。

其中，P（r，w）为声压分布状态；

表示麦克风接收端表面任意一点（x₀,y₀,z₀=0）到介质中任意位置r（x,y,z）的距离，w为信号频率。ρ为介质密度，c为介质声速，A和B为高斯系数，k为波数，

为介质中场点到声源的距离，

为瑞利距离；i为虚数。

根据所述声压分布状态，获取多个声源的定位信息。

换言之，神经网络模型输出的预测值即为估计组合掩蔽。

使用掩蔽的方法进行语音增强，在频谱幅值和频谱相位中既存在噪声信号又存在干净语音信号，因此，将混合语音中噪声信号掩蔽掉剩下的就是干净语音信号。

具体地，所述估计组合掩蔽包括估计幅值掩蔽和估计相位掩蔽；根据所述混合语音的频谱幅值和估计幅值掩蔽获取目标频谱幅值；根据所述混合语音的频谱相位和估计相位掩蔽获取目标频谱相位。

将所述目标频谱幅值和目标频谱相位结合，通过短时傅里叶逆变换和帧重叠恢复得到目标语音。

对于目标说话人语音与非目标说话人语音分离，本发明根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息，获取混合语音中多个声源的定位信息，也就是能进一步对混合语音中的多个说话人做定位。

提取混合语音频谱幅值得到的深度嵌入式特征矢量与多个声源的定位信息结合后，额外增加了多个声源的定位信息，输入训练好的神经网络模型中得到输出的估计组合掩蔽，这样提高神经网络模型预测估计组合掩蔽的准确度，进而提高混合语音中目标说话人与非目标说话人分离的准确度。

本发明中所述神经网络模型通过步骤S201至S206训练。

S201：获取训练语音样本集，所述训练语音样本集中的一条训练语音样本包括混合语音样本和干净语音样本；

S202：用16KHz对训练语音样本的时域信号采样，分别获取混合语音样本时域信号y(t)和干净语音样本时域信号x_i(t)，(i＝1,2,…, N)。

S203：对所述混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱及相位谱，对所述干净语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱及相位谱；

通过加窗分帧和短时傅里叶变换分别得到混合语音样本时域信号y(t)和干净语音样本时域信号xi(t)，(i＝1,2,…, N)的幅度谱Y(t,f)和Xi(t,f)(i＝1,2,…,N)、相位谱及幅度最大值。

语音信号是一个准稳态的信号，若把它分成较短的帧，每帧中可将其看作稳态信号，可用处理稳态信号的方法来处理。为了使一帧与另一帧之间的参数能够平稳过渡，应在相邻两帧之间互相有部分重叠。一般情况下，帧长取10 ~ 30ms，所以每秒的帧数约为33 ~100帧。帧移与帧长的比值一般取0~1/2。

将语音信号分帧后，需要对每一帧信号进行分析处理。窗函数一般具有低通特性，加窗函数的目的是减少频域中的泄漏。在语音信号分析中常用的窗函数有矩形窗、汉明窗和汉宁窗，可根据不同的情况选择不同的窗函数。本发明选择汉宁窗进行计算。

S204：根据所述混合语音样本和所述干净语音样本的幅度谱和相位谱，计算获得理想组合掩蔽，将所述理想组合掩蔽作为训练目标；

具体地，对所述混合语音样本和所述干净语音样本的幅度谱归一化处理；只对所述混合语音和所述干净语音的幅度谱归一化处理，而所述混合语音和所述干净语音的相位谱无需进行归一化处理。

根据归一化处理后的混合语音样本和所述干净语音样本的幅度谱和相位谱，获取理想组合掩蔽。理想组合掩蔽包括理想幅值掩蔽和理想相位掩蔽。

S205：根据采集训练语音样本的麦克风接收端位置、干净语音的频谱相位和介质空间方位信息，估计每个所述干净语音相应的定位信息。

具体参见上述S103的说明，此处不再赘述。

S206：将所述混合语音的幅度谱、干净语音的定位信息和作为训练目标的理想组合掩蔽输入神经网络模型中进行当次有监督训练，完成当次有监督训练后继续进行下一次训练，直至所述神经网络模型收敛。

随机初始化神经网络模型的参数，对神经网络模型进行训练，所述神经网络模型的训练阶段包括前向传播阶段和反向传播阶段。

前向传播阶段包括初始化网络神经元节点之间的权重和偏置；神经网络进行前向传播。

反向传播阶段包括计算神经网络模型的代价函数；通过梯度下降法更新神经网络模型的参数；

神经网络模型的损失函数如下所示。

其中，|Y|为混合语音的幅度谱，|X|_i为说话人i的幅度谱，

为理想组合掩蔽值,i=1,2,…,N。

如图2所示，本发明另一实施例提供一种单通道语音分离装置，包括：

接收模块302，其被配置为麦克风接收端接收待分离的混合语音；获取所述混合语音的频谱幅值和频谱相位；

深度嵌入式特征提取模块304，其被配置为提取所述混合语音的频谱幅值获取深度嵌入式特征矢量；

声源定位模块306，其被配置为根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息，获取多个声源的定位信息；

语音分离模块308，其被配置为将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中，获取所述神经网络模型输出的估计组合掩蔽；

获取模块310，其被配置为根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位，获取目标频谱幅值和目标频谱相位；

重构模块312，其被配置为重构所述目标频谱幅值和目标频谱相位，获取目标语音。

本实施例的单通道语音分离装置与上述单通道语音分离方法为同一发明构思，具体参见上述单通道语音分离方法的具体说明，此处不再赘述。

Claims

1.一种单通道语音分离方法，其特征在于，包括：

S101：麦克风接收端接收待分离的混合语音；获取所述混合语音的频谱幅值和频谱相位；

S102：提取所述混合语音的频谱幅值获取深度嵌入式特征矢量；

S103：根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息，获取多个声源的定位信息；

S104：将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中，获取所述神经网络模型输出的估计组合掩蔽；

S105：根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位，获取目标频谱幅值和目标频谱相位；

2.根据权利要求1所述的单通道语音分离方法，其特征在于，所述S103中根据，获取多个声源的定位信息，包括：

根据所述麦克风接收端的位置、频谱相位和介质空间方位信息，通过高斯声束法获取声源所处空间的声压分布状态；

根据所述声压分布状态，获取多个声源的定位信息。

3.根据权利要求1所述的单通道语音分离方法，其特征在于，所述神经网络模型通过步骤S201至S206训练；

S202：对所述训练语音样本的时域信号采样，分别获取混合语音样本时域信号和干净语音样本时域信号；

S205：根据采集训练语音样本的麦克风接收端位置、干净语音的频谱相位和介质空间方位信息，估计每个所述干净语音相应的定位信息；

4.根据权利要求3所述的单通道语音分离方法，其特征在于，所述S204包括：

对所述混合语音样本和所述干净语音样本的幅度谱归一化处理；根据归一化处理后的混合语音样本和所述干净语音样本的幅度谱和相位谱，获取理想组合掩蔽。

5.根据权利要求1所述的单通道语音分离方法，其特征在于，所述估计组合掩蔽包括估计幅值掩蔽和估计相位掩蔽；

所述S105中根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位，获取目标频谱幅值和目标频谱相位，获取目标频谱幅值和目标频谱相位，包括：

根据所述混合语音的频谱幅值和估计幅值掩蔽获取目标频谱幅值；

根据所述混合语音的频谱相位和估计相位掩蔽获取目标频谱相位。

6.根据权利要求1所述的单通道语音分离方法，其特征在于，所述S106中重构所述目标频谱幅值和目标频谱相位，获取目标语音，包括：

7.一种单通道语音分离装置，其特征在于，包括：

接收模块，其被配置为麦克风接收端接收待分离的混合语音；获取所述混合语音的频谱幅值和频谱相位；

深度嵌入式特征提取模块，其被配置为提取所述混合语音的频谱幅值获取深度嵌入式特征矢量；

声源定位模块，其被配置为根据所述麦克风接收端的位置、所述混合语音的频谱相位和介质空间方位信息，获取多个声源的定位信息；

语音分离模块，其被配置为将所述深度嵌入式特征矢量和多个声源的定位信息输入至训练好的神经网络模型中，获取所述神经网络模型输出的估计组合掩蔽；

获取模块，其被配置为根据所述估计组合掩蔽和所述混合语音的频谱幅值和频谱相位，获取目标频谱幅值和目标频谱相位；

重构模块，其被配置为重构所述目标频谱幅值和目标频谱相位，获取目标语音。