CN115810364B

CN115810364B - 混音环境中的端到端目标声信号提取方法及系统

Info

Publication number: CN115810364B
Application number: CN202310074334.2A
Authority: CN
Inventors: 余永升; 章林柯; 宋鹏
Original assignee: Haina Kede Hubei Technology Co ltd
Current assignee: Haina Kede Hubei Technology Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-04-28
Anticipated expiration: 2043-02-07
Also published as: CN115810364A

Abstract

本发明提供一种混音环境中的端到端目标声信号提取方法及系统，包括：S1：构建端到端目标声信号抽取模型，端到端目标声信号抽取模型包括：可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元；S2：获取声信号，将声信号输入可学习编码单元，通过可学习编码单元提取声信号的隐式声音特征图；S3：将隐式声音特征图输入基于因果卷积机制的分离单元进行分离，获得掩码函数；S4：将隐式声音特征图和掩码函数输入可学习解码单元进行编码，获得重构声信号。本发明中端到端目标声信号抽取模型无需预处理、推理时间短，在不同的音频类别时鲁棒性较好。

Description

混音环境中的端到端目标声信号提取方法及系统

技术领域

本发明涉及声音数字信号处理领域，尤其涉及一种混音环境中的端到端目标声信号提取方法及系统。

背景技术

声音分离是信号处理中的一项基础性任务，在现实世界中有着广泛的应用，例如从有噪声的声音信号中分离出干净的声音来提高声音自动识别的准确性。具体来说，这项工作的目的正是要从声音的混合物中分离出特定目标所发出的声音。这项任务对于声音事件检测、对话和会议记录的信号质量提升尤其重要。声音分离的研究跨越了几十年，是声音分离研究中最活跃、最具竞争力的领域。

在深度学习时代之前，许多传统的方法被引入该任务，如非负矩阵分解(NMF)，计算听觉场景分析(CASA)和概率模型。然而，这些模型通常只适用于封闭的扬声器，这大大限制了它们的实际应用。

非负矩阵分解(NMF)是一种无监督学习算法，目的在于提取有用的特征，工作原理类似于PCA，可以识别出组合成数据的原始分量，也可以用于降维，通常不用于对数据进行重建或者编码。但该方法的缺点是，NMF生成的分量是没有顺序的，分量顺序和原始信号的顺序的匹配存在偶然性，最终信号分离效果并不稳定，存在一定的失败率。

计算听觉场景分析(CASA)就是利用计算机技术，让计算机模仿人类对听觉信号的处理过程进行建模，从而具备和人类一样从复杂混合声源中感知声音、处理声音、解释声音的能力。目前CASA系统有两种主要的模型，一个是数据驱动型，指的是信息从低级到高级的单向流动过程；另外一种是信息双向流动的图式驱动模型，模型接受信息后可以进行反馈，并且参与预测未来的声音。但是计算听觉场景分析方法普遍难以找到合适的声音分离线索，完成目标声音信号和噪声信号的分离，而且模型尺寸普遍偏大，计算时间较长。

随着深度学习技术在各个领域的成功，研究人员开始设计基于数据的模型来分离未知声源的混合，这克服了传统方法的障碍。一般来说，用于单通道声音分离的深度学习技术可以分为两类:时频域(T-F)域方法和端到端时域方法。

T-F方法基于计算短时傅里叶变换(STFT)生成的T-F特征，分离每个源的T-F特征，然后通过STFT逆重构源波形。它们通常使用混合波的原始相位来合成估计的源波形，并保留有噪声混合波的相位，这分离结果在存在相位上的偏差，最终分离出的声音质量也不稳定。

端到端时域方法利用编解码器框架直接建模混合波形的时域方法，Wave-U-Net通过对时域波形进行连续的卷积编码的下采样操作，然后进行连续的反卷积解码的上采样操作还原波形，期间利用跳跃连接拼接相近尺寸的上下采样信息。这类方法已经可以实现分离质量的稳定性，但较深的神经网络层数和两倍采样频率的输入长度决定了其高计算成本和低实时性。

总体而言，现有的针对声信号的分离提取方法，存在计算成本高、稳定性差、实时性低等缺点。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

为解决上述技术问题，本发明提供一种混音环境中的端到端目标声信号提取方法，包括：

S1：构建端到端目标声信号抽取模型，端到端目标声信号抽取模型包括：可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元；

S2：获取声信号，将声信号输入可学习编码单元，通过可学习编码单元提取声信号的隐式声音特征图；

S3：将隐式声音特征图输入基于因果卷积机制的分离单元进行分离，获得掩码函数；

S4：将隐式声音特征图和掩码函数输入可学习解码单元进行编码，获得重构声信号。

优选的，步骤S2具体为：

S21：获取声信号，声信号的波形信号表达式为：x∈R^1×T，T为一维波形中每个通道的信号序列长度，R为实数集；

S22：可学习编码单元将声信号分割为长度为L的无重叠段，通过N个大小同为为L的卷积核对无重叠段进行采样操作，获得N个通道信息；

S23：将N个通道信息拼接为隐式声音特征图W，隐式声音特征图的表达式为：

其中，x为输入的声信号，ReLU为非线性激活函数，ConblD()为一维卷积运算函数。

优选的，步骤S4具体为：

S41：将基于因果卷积机制的分离单元获得的C个掩码函数与隐式声音特征图进行点积乘法，获得掩蔽后的特征图，计算公式为：

其中，W为隐式声音特征图，为Hadamard积，mask_i为掩码函数，i为掩码函数的编号；W_i为第i个声源估计的掩蔽后的特征图，W_i∈R^N×M，N为通道信息的数量，M为掩蔽后的特征图中每个通道的信号序列长度，R为实数集；

S42：可学习解码单元通过转置卷积将掩蔽后的特征图还原为一维波形，计算公式为：

其中，x_i为解码单元输出的第i个声源波形序列的一维波形，x_i∈R^1×T，T为一维波形中每个通道的信号序列长度，ConvlDTranspose()为转置卷积运算函数；

S43：可学习解码单元通过一维转置卷积运算将一维波形重构为重构声信号。

优选的：

基于因果卷积机制的分离单元由上至下共包括8个卷积层，第一卷积层位于最上层，第一卷积层由一维卷积块组成，向下的每一层卷积层的卷积块均比上一层卷积层的卷积块多一维，第八卷积层位于最下层，第八卷积层由八维卷积块组成。

一种混音环境中的端到端目标声信号提取系统，包括：

模型构建模块，用于构建端到端目标声信号抽取模型，端到端目标声信号抽取模型包括：可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元；

特征图提取模块，用于获取声信号，将声信号输入可学习编码单元，通过可学习编码单元提取声信号的隐式声音特征图；

分离模块，用于将隐式声音特征图输入基于因果卷积机制的分离单元进行分离，获得掩码函数；

重构模块，用于将隐式声音特征图和掩码函数输入可学习解码单元进行编码，获得重构声信号。

本发明具有以下有益效果：

1、可学习编码单元和可学习解码单元的架构可以更好的对波形进行特征空间的映射和还原，所需要时间序列长度也更短，避免了时频域方法存在的相位估计问题；

2、分离单元可以从不同时间尺度距离和不同距离的通道间学习权重分布，再对权重分布进行累加操作，可以高效快速地计算出掩码函数；

3、分离单元采用了残差结构，使用跳跃连接实现了恒等映射，不会产生额外参数及增加计算复杂度，可以增强网络的泛化能力，简化训练过程，并且很大程度上缓解了梯度消失和梯度爆炸等问题；

4、端到端目标声信号抽取模型无需预处理、推理时间短，在不同的音频类别时鲁棒性较好。

附图说明

图1为本发明实施例方法流程图；

图2为分离单元中每个卷积层的结构图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明提供一种混音环境中的端到端目标声信号提取方法，包括：

具体的，端到端目标声信号抽取模型的训练方式为：

收集目标声源的纯净声信号和目标声源的背景信号，将纯净声信号与背景信号进行混响处理生成混合声信号，由纯净声信号及对应的混合声信号为训练样本，得到训练数据集，将训练数据集划分为训练集和测试集；

利用训练集和测试集分别对初始的端到端目标声信号抽取模型进行训练和测试，在训练和测试结束后，获得训练好的端到端目标声信号抽取模型；

具体的，分离单元的每一层都由膨胀因子逐渐增加的一维卷积块组成，膨胀因子呈指数增长，以确保能包含足够大的时间上下文窗口，以利用声音信号的长时依赖性；在分离单元中，8个膨胀因子分别为1，2，4，⋯，2^7的卷积块被重复多次，每个块的输入都进行零填充，以确保输出长度与输入相同；分离单元的输出将被送到核大小为1的卷积块以估计掩码，1×1卷积块与非线性激活函数一起为目标信号估计获得掩码函数；

一维卷积块的设计应用了残差连接和跳跃连接：一个块的残差连接作为下一个块的输入，而所有块的跳跃连接总和作为分离单元的输出；为了进一步减少参数量，使用深度可分离卷积替代每个卷积块中的标准卷积，深度可分离卷积算子将标准卷积运算解耦为两个连续的运算，即深度方向卷积以及跟随其后的逐点卷积；

基于因果卷积机制的分离单元将对输入的隐式声音特征图进行掩蔽函数估计，最后输出特征图与掩蔽函数的点积实现对特征图的掩蔽；

本实施例中，可学习编码单元继承了短时傅里叶变换的局部时频分析思想，克服了由于固定窗口导致的时频分辨率不能兼顾等问题；它可以更好地平衡时间分辨率和频率分辨率，获得声音信号中不同成分的信息；可学习解码单元是类似于短时傅里叶逆变换的违逆操作，克服了短时傅里叶逆变换需要相位信息的缺点；这一架构可以更好的对波形进行特征空间的映射和还原，所需要时间序列长度也更短，至少为1024个采样点；

可学习编码单元使用多组卷积核尺寸为16、重叠步长为8的一维卷积核对原始时域的声信号进行时域上的采样，最后经由归一化层和ReLU非线性激活函数形成一组非负的隐式声音特征图；

步骤S2具体为：

其中，x为输入的声信号，ReLU为非线性激活函数，ConblD()为一维卷积运算函数；

具体的，用于确保特征向量的非负性，整个获得隐式声音特征图的过程可以由N个步长和卷积核大小同为L的一维卷积核来完成；输入的声信号x是输入长度为T的一维混合信号，所属向量空间表示为R^1×T；隐式声音特征图W尺寸为N×M，所属向量空间表示为R^N×M。

本实施例中，可学习解码单元对经过分离单元处理获得的掩码函数进行卷积核尺寸为16、重叠步长为的8反卷积处理，最终实现目标声信号波形的重构，获得重构声信号；

步骤S4具体为：

S43：可学习解码单元通过一维转置卷积运算将一维波形重构为重构声信号；在实际模型实现中，卷积层和转置卷积层可以更轻松地处理波形信号的分割和上下采样，从而实现更快的训练和更好的收敛性。

本实施例中，基于因果卷积机制的分离单元采用残差结构，具体为：

基于因果卷积机制的分离单元由上至下共包括8个卷积层，第一卷积层位于最上层，第一卷积层由一维卷积块组成，向下的每一层卷积层的卷积块均比上一层卷积层的卷积块多一维，第八卷积层位于最下层，第八卷积层由八维卷积块组成；其中每个卷积层的结构如图2所示。

本发明提供一种混音环境中的端到端目标声信号提取系统，包括：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种混音环境中的端到端目标声信号提取方法，其特征在于，包括：

S4：将隐式声音特征图和掩码函数输入可学习解码单元进行编码，获得重构声信号；

基于因果卷积机制的分离单元由上至下共包括8个卷积层，第一卷积层位于最上层，第一卷积层由一维卷积块组成，向下的每一层卷积层的卷积块均比上一层卷积层的卷积块多一维，第八卷积层位于最下层，第八卷积层由八维卷积块组成；

卷积层包括：特征图时域卷积和特征图通道域卷积。

2.根据权利要求1所述的混音环境中的端到端目标声信号提取方法，其特征在于，步骤S2具体为：

3.根据权利要求1所述的混音环境中的端到端目标声信号提取方法，其特征在于，步骤S4具体为：

4.一种混音环境中的端到端目标声信号提取系统，其特征在于，包括：

重构模块，用于将隐式声音特征图和掩码函数输入可学习解码单元进行编码，获得重构声信号；

卷积层包括：特征图时域卷积和特征图通道域卷积。