CN115206345B

CN115206345B - 基于时频结合的音乐人声分离方法、装置、设备及介质

Info

Publication number: CN115206345B
Application number: CN202210851205.5A
Authority: CN
Inventors: 戚成杰
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2024-07-23
Anticipated expiration: 2042-07-19
Also published as: CN115206345A

Abstract

本申请实施例公开了一种基于时频结合的音乐人声分离方法、装置、计算机设备及存储介质。方法包括：获取目标音频的音频时域信号；对音频时域信号进行频域转换处理，得到对应的音频频域信号；再将音频时域信号以及音频频域信号输入训练后的双塔网络模型进行初步人声分离处理，得到初步人声清唱时频信号；确定初步人声清唱时频信号中的非人声清唱信号；最后在初步人声清唱时频信号中对非人声清唱信号进行响度优化处理，得到目标音频中的目标人声清唱时频信号。本申请实施例获取到初步人声清唱时频信号之后，还会进一步识别初步人声清唱时频信号中的非人声清唱信号，并对识别出的非人声清唱信号进行响度优化处理，提高了音乐人声分离的分离效果。

Description

基于时频结合的音乐人声分离方法、装置、设备及介质

技术领域

本申请涉及音频特效处理技术领域，尤其涉及一种基于时频结合的音乐人声分离方法、装置、计算机设备及存储介质。

背景技术

音乐人声分离是现实生活中常常遇到的一个问题，如何获得音乐的高质量清唱部分是用户关注的重点，例如获取知名歌手高质量的人声清唱数据。

现有技术解决音乐人声分离的问题，主要集中音乐人声分离模型的设计，脸书(Facebook)，加深器(deezer)，字节跳动(bytedance)都提出了各自的音乐人声分离模型，主要针对的是单独光谱图(spectrogram)作为模型的输入，spectrogram指的是把音频时域信息通过快速傅氏变换(Fast Fourier Transformation，FFT)转换为频域信息，FFT的优势在于可以把冗长的变化的音频信息变成可见的固定的频域幅值，这样的操作大大加速了音频的信号处理速度，但是在频谱处理中常常会损失相位信息，这样导致了频谱处理得到的音频信号的语音可理解度变差，现有音乐人声分离算法的分离效果还有待提高。

发明内容

本申请实施例提供了一种基于时频结合的音乐人声分离方法、装置、计算机设备及存储介质，可以提高音乐人声分离的分离效果。

第一方面，本申请实施例提供了一种基于时频结合的音乐人声分离方法，其包括：

获取目标音频的音频时域信号；

对所述音频时域信号进行频域转换处理，得到对应的音频频域信号；

将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理，得到初步人声清唱时频信号；

基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号；

在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号。

第二方面，本申请实施例还提供了一种基于时频结合的音乐人声分离装置，其包括：

获取单元，用于获取目标音频的音频时域信号；

处理单元，用于对所述音频时域信号进行频域转换处理，得到对应的音频频域信号；将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理，得到初步人声清唱时频信号；基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号；在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号。

在一些实施例中，所述处理单元在实现所述基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号步骤时，具体用于：

将所述初步人声清唱时频信号输入所述音频事件精细分类器得到多个非人声清唱碎片信号；

将相邻预设时间间隔内的所述非人声清唱碎片信号进行合并处理，并将合并处理后的所述非人声清唱碎片信号以及未进行合并处理的所述非人声清唱碎片信号确定为所述非人声清唱信号。

在一些实施例中，所述处理单元在实现所述将所述初步人声清唱时频信号输入所述音频事件精细分类器得到多个非人声清唱碎片信号时，具体用于：

根据预设的多个打分机制对所述初步人声清唱时频信号中的每一帧信号进行音频事件打分，得到各帧信号分别针对各打分机制的打分结果；

根据所述打分结果确定所述初步人声清唱时频信号中的非人声清唱碎片信号。

在一些实施例中，所述打分结果包括人声清唱信号打分结果以及非人声清唱信号打分结果，所述处理单元在实现所述根据所述打分结果确定所述初步人声清唱时频信号中的非人声清唱碎片信号时，具体用于：

计算各帧信号分别对应的所述人声清唱信号打分结果的人声清唱打分均值，以及计算各帧信号分别对应的所述非人声清唱信号打分结果的非人声清唱打分均值；

将非人声清唱打分均值大于人声清唱打分均值的帧信号确定为所述非人声清唱碎片信号。

在一些实施例中，所述处理单元在实现所述对所述音频时域信号进行频域转换处理，得到对应的音频频域信号步骤时，具体用于：

对所述音频时域信号进行预加重处理，得到第一音频信号；

对所述第一音频信号进行分帧加窗处理，得到第二音频信号；

对所述第二音频信号进行快速傅里叶变换处理，得到第三音频信号；

对所述第三音频信号进行梅尔滤波处理并计算所述第三音频信号中每一帧信号的功率谱，得到第四音频信号；

对所述第四音频信号进行离散余弦变换处理，得到所述音频频域信号。

在一些实施例中，所述处理单元在实现所述在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号步骤时，具体用于：

将所述非人声清唱信号转换为响度信号；

将所述响度信号中响度小于响度阈值的信号进行响度压缩处理；

若压缩后的响度信号中存在异常响度信号，则根据预设的指数淡化公式对所述异常响度信号进行时延优化处理，得到所述目标音频中的目标人声清唱时频信号，所述异常响度信号为在预设时间内响度落差大于预设落差值的信号。

在一些实施例中，所述处理单元在实现所述将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理之前，还用于：

构建双塔网络模型，所述双塔网络模型的损失函数由清唱音频损失函数、伴奏音频损失函数以及伴唱音频损失函数构成；

根据预设的音乐分轨训练集对所述双塔网络模型进行训练，得到所述训练后的双塔网络模型。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述方法。

本申请实施例中，获取目标音频的音频时域信号；然后对所述音频时域信号进行频域转换处理，得到对应的音频频域信号；再将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理，得到初步人声清唱时频信号；并基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号；最后在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号。本申请实施例获取到初步人声清唱时频信号之后，还会进一步识别初步人声清唱时频信号中的非人声清唱信号，并对识别出的非人声清唱信号进行响度优化处理，从而提高了音乐人声分离的分离效果。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于时频结合的音乐人声分离方法的应用场景示意图；

图2为本申请实施例提供的基于时频结合的音乐人声分离方法的流程示意图；

图3为本申请实施例提供的基于时频结合的音乐人声分离方法的子流程示意图；

图4为本申请实施例提供的分帧加窗的一个示意图；

图5为本申请实施例提供的双塔网络模型的一个结构示意图；

图6为本申请实施例提供的时延优化处理的过程的一个示意图；

图7为本申请实施例提供的频谱图展示对比效果的一个示意图；

图8为本申请实施例提供的基于时频结合的音乐人声分离装置的示意性框图；

图9为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请实施例提供了一种基于时频结合的音乐人声分离方法、装置、计算机设备及存储介质。

该基于时频结合的音乐人声分离方法的执行主体可以是本申请实施例提供的基于时频结合的音乐人声分离装置，或者集成了该基于时频结合的音乐人声分离装置的计算机设备，其中，该基于时频结合的音乐人声分离装置可以采用硬件或者软件的方式实现，该计算机设备可以为终端或服务器，该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。

请参阅图1，图1为本申请实施例提供的基于时频结合的音乐人声分离方法的一个应用场景示意图。该基于时频结合的音乐人声分离方法应用于图1中的计算机设备10中，该计算机设备10获取用户输入的目标音频的音频时域信号；然后对所述音频时域信号进行频域转换处理，得到对应的音频频域信号；再将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理，得到初步人声清唱时频信号；且基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号；最后在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号。

图2是本申请实施例提供的基于时频结合的音乐人声分离方法的流程示意图。如图2所示，该方法包括以下步骤S110-150。

S110、获取目标音频的音频时域信号。

其中，目标音频的音频时域信号即目标音频的原始波形信号。

具体地，在一些实施例中，用户可以将需要进行清唱人声提取的目标音频输入计算机设备10中，使得计算机设备10获取到该目标音频的音频时域信号，具体地，对音频时域信号的声波波形进行采样，得到该音频时域信号。

在另一些实施例中，用户可以直接将目标音频对应的音频时域信号输入计算机设备10中。

S120、对所述音频时域信号进行频域转换处理，得到对应的音频频域信号。

具体地，请参阅图3，步骤S120包括以下步骤：

S1201、对所述音频时域信号进行预加重处理，得到第一音频信号。

其中，预加重一般是乘以一个比较小的系数(如0.95)，或者去除直流分量，保证音频数值范围的有效性。

S1202、对所述第一音频信号进行分帧加窗处理，得到第二音频信号。

在一些实施例中，为了方便对语音分析，在分帧加窗处理的分帧操作时，可以将第一音频信号分成一个个小段，称之为：帧。先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256、512或其他数值，涵盖的时间约为20～30ms。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。

由于语音在长范围内是不停变动的，没有固定的特性无法做处理，所以在加窗处理时需要将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续性。

在一个具体的实施例中，可以以400(即N为400)个数据点为窗口大小，以160个数据点为帧移长度(即前后帧之间的重叠点数为240个数据点)，25ms为音频的一帧，每一次音频点移动10ms的长度，然后每一帧音频数据进行汉明窗加窗。

在一些实施例中，分帧加窗的示意图如图4所示。

S1203、对所述第二音频信号进行快速傅里叶变换处理，得到第三音频信号。

由于第二音频信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。

S1204、对所述第三音频信号进行梅尔滤波处理并计算所述第三音频信号中每一帧信号的功率谱，得到第四音频信号。

在一些实施例中，由于人耳对不同频率的敏感程度不同，且成非线性关系，因此我们将频谱按人耳敏感程度分为多个梅尔Mel滤波器组，在Mel刻度范围内，各个滤波器的中心频率是相等间隔的线性分布。

在一具体的实施例中，使用64个滤波器大小的Mel窗口对第三音频信号中每一帧音频数据行滤波器操作，并计算其功率谱，其中，计算功率谱包含对数运算和平方运算。

S1205、对所述第四音频信号进行离散余弦变换处理，得到所述音频频域信号。

离散余弦变换(DCT for Discrete Cosine Transform)经常用于信号处理和图像处理，用来对信号和图像进行有损数据压缩，这是由于离散余弦变换具有很强的"能量集中"特性：大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分，实际就是对每帧数据在进行一次降维。

本实施例中，对第四音频信号进行离散余弦变换处理，即可得到所述音频频域信号。

S130、将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理，得到初步人声清唱时频信号。

在一些实施例中，双塔网络模型的结构如图5所示，模型的输入分别为双通道的音频时域信号和对应双通道的音频频域信号，图5中频谱的输入为2*2的原因是因为得到的音频频域信号同时具备相位信号和幅值信号。

其中，该训练后的双塔网络模型预设于计算机设备10中。

双塔模型的好处在于通过音频频域信号可以专注于幅值信息的监督，音频时域信号专注于相位信息的监督，其中，根据逆傅里叶变化的性质可知，音频频域信号还原为音频时域信号，需要同时由幅值和相位决定，右塔来监督相位信号，这种做法可以让左右双塔专注于一个信号的监督，让还原后的音频音质更加好。

其中，在执行步骤S130之前，本申请需要先对双塔网络模型进行训练，以得到训练后的双塔网络模型。

对双塔网络模型的训练具体可包括模型的构建、新损失函数的设置以及模型的训练，具体包括以下步骤：构建双塔网络模型，所述双塔网络模型的损失函数由清唱音频损失函数、伴奏音频损失函数以及伴唱音频损失函数构成；根据预设的音乐分轨训练集对所述双塔网络模型进行训练，得到所述训练后的双塔网络模型。

由于本申请提供的基于时频结合的音乐人声分离方法主要针对日常的卡拉ok场景，所以新损失函数由清唱音频损失函数、伴奏音频损失函数以及伴唱音频损失函数构成，其中，清唱音频损失函数与伴唱音频损失函数相互监督，可以使得双塔网络模型更好地对人声清唱时频信号进行分类，提高分类的精度。

在一些实施例中，采用的音乐分轨训练集为MUSDB18HQ，该数据集具有架子鼓(drums)，贝斯(bass)，伴唱(other)，清唱(vocals)，混合音(mixture)多种音频，而针对日常的卡拉ok场景，只需要进行将音频进行vocals和伴奏(accompany)的分离即可。本申请把drums，bass和other通过信号的叠加重新命名为accompany，同时将原本的双塔网络模型的损失函数Loss＝L_drums+L_bass+L_other+L_vocals修改为Loss＝L_drums+L_bass+L_other+L_vocals,损失函数均采用回归损失函数(L1损失)，同时修改左塔最后一层解码器(deconder)的输出为C_out＝2*2*2，这样做的好处是对伴奏声进行了两次的损失监督，可以让伴奏声中的人声尽可能的被分离出去，并避免将伴唱声分离到清唱声中。

对双塔网络模型进行训练时，保留L1损失较小的模型参数，即可对每一首歌进行vocals和accompany的初步分离。

S140、基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号。

初步人声清唱时频信号中往往会惨杂着一些非人声清唱信号，例如一些单独片段的背景声残留，此时，需要进一步对初步人声清唱时频信号中的非人声清唱信号进行检测。

在一些实施例中，步骤S140包括：将所述初步人声清唱时频信号输入所述音频事件精细分类器得到多个非人声清唱碎片信号；将相邻预设时间间隔(如0.5s，时长可由用户灵活调整，具体数值此处不做限定)内的所述非人声清唱碎片信号进行合并处理，并将合并处理后的所述非人声清唱碎片信号以及未进行合并处理的所述非人声清唱碎片信号确定为所述非人声清唱信号。

可见，本申请对相邻预设时间间隔内的非人声清唱碎片信号进行合并处理，可见减少非人声清唱碎片信号的数量，方便后续对非人声清唱碎片信号进行响度优化处理，降低响度优化处理的计算量。

在一些实施例中，在确定初步人声清唱时频信号中的非人声清唱碎片信号的步骤具体包括：根据预设的多个打分机制对所述初步人声清唱时频信号中的每一帧信号进行音频事件打分，得到各帧信号分别针对各打分机制的打分结果；根据所述打分结果确定所述初步人声清唱时频信号中的非人声清唱碎片信号。

可见，本实施例设置了多个打分机制，根据多个打分机制得出的打分确定初步人声清唱时频信号中的非人声清唱碎片信号，可以提高初步人声清唱时频信号中的非人声清唱碎片信号的识别准确率。

在一些实施例中，打分结果包括人声清唱信号打分结果以及非人声清唱信号打分结果，具体可以通过如下步骤确定所述初步人声清唱时频信号中的非人声清唱碎片信号：计算各帧信号分别对应的所述人声清唱信号打分结果的人声清唱打分均值，以及计算各帧信号分别对应的所述非人声清唱信号打分结果的非人声清唱打分均值；然后将非人声清唱打分均值大于人声清唱打分均值的帧信号确定为所述非人声清唱碎片信号。

在一些实施例中，可使用yamnet模型作为音频事件精细分类器对初步人声清唱时频信号中的非人声清唱信号进行检测。

在一具体的实施例中，以1秒的音频帧长度所组成的初步人声清唱时频信号作为模型的输入信息，得到一个大小为[32，520]的预测数据，其中，32代表模型中的32个打分机制，520代表模型的事件标签(如说话，哭，笑，音乐等)一共为520个，模型的输出包括每一帧音频信号分别针对32个打分机制中每个打分机制分别对标签概率的评分。

对于32个打分取平均数后，对520个事件进行打分结果从大到小的排序，就可以得到当前帧的声音事件概率。其中，本实施例可对520个事件统一划分为vocals事件和noise事件。

对余下每一个帧长度的初步人声清唱时频信号输入都做上述操作，记录每一次帧对应的最可能的事件。当模型预测完成以后，对于时间段和事件进行整合，即如果前后秒级(如0.5s)的事件的标签相同时，则把两个时间段进行合并，以此类推，最后只剩下事件标签为vocals和noise的语音音频后，然后对标签为noise的音频信号(即非人声清唱信号)进行优化处理。

S150、在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号。

在一些实施例中，通过扩展器算法对音频的响度进行操作，扩展器分为向上扩展器和向下扩展器，由于向上扩展器容易发生音频响度超出范围，产生爆音的问题，所以本申请在对所述非人声清唱信号进行响度优化处理时，使用向下扩展器对非人声清唱信号进行响度压缩处理。

此时，通过向下扩展器对初步人声清唱时频信号中的非人声清唱信号进行响度压缩处理具体包括：将所述非人声清唱信号转换为响度信号；然后将所述响度信号中响度小于响度阈值的信号进行响度压缩处理；若压缩后的响度信号中存在异常响度信号，则根据预设的指数淡化公式对所述异常响度信号进行时延优化处理，得到所述目标音频中的目标人声清唱时频信号，所述异常响度信号为在预设时间内响度落差大于预设落差值的信号。

在一些实施例中，对所述非人声清唱信号进行响度优化处理的步骤可以为，直接在初步人声清唱时频信号中对所述非人声清唱信号进行删除处理。

其中，进行响度压缩处理的缩小比率为(1，+∞)，具体数值可由用户选择，具体此处不做限定，响度阈值也可由用户灵活设定，具体数值此处不做限定。

可见，本实施例可将响度比较小的非人声清唱信号压缩为更小的信号，可以提高目标人声清唱时频信号的质量。

在一具体的实施例中，将初步人声清唱时频信号转换为响度信号，然后通过设定阈值的方式将响度小于设置阈值的音频片段再一次缩小，缩小比率范围(1，+∞)，越大的缩小比例可以让音频在特殊片段的压缩效果更佳，同时为了防止压缩比例过大而产生了杂音的问题，本申请使用时延的方式来优化，例如，如果从某一时刻到后0.05s时刻中存在一个较大的落差(这种情况中容易产生杂音)，即增加这一块的缓冲时间，参考点往后挪0.05s的时间，使用指数淡化(如，y＝1-e^x)的方式来提升原本0.5s(此时一帧音频长度为0.5s)时刻内所有采样点的响度值，时延优化处理的过程如图6所示。

其中，指数淡化会适当的缓冲相对于人耳来说一瞬间的响度脉冲，让人耳不会听到不适的感觉。通过步骤S140和步骤S150，可以把音乐人声分离的清唱部分进行再一次的音质提升，提升后的频谱图展示对比效果如图7所示。

综上所述，本申请实施例获取到初步人声清唱时频信号之后，还会进一步识别初步人声清唱时频信号中的非人声清唱信号，并对识别出的非人声清唱信号进行响度优化处理，从而提高了音乐人声分离的分离效果。

图8是本申请实施例提供的一种基于时频结合的音乐人声分离装置的示意性框图。如图8所示，对应于以上基于时频结合的音乐人声分离方法，本申请还提供一种基于时频结合的音乐人声分离装置。该基于时频结合的音乐人声分离装置包括用于执行上述基于时频结合的音乐人声分离方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，请参阅图8，该基于时频结合的音乐人声分离装置800包括获取单元801以及处理单元802，其中：

获取单元801，用于获取目标音频的音频时域信号；

处理单元802，用于对所述音频时域信号进行频域转换处理，得到对应的音频频域信号；将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理，得到初步人声清唱时频信号；基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号；在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号。

在一些实施例中，处理单元802在实现所述基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号步骤时，具体用于：

在一些实施例中，处理单元802在实现所述将所述初步人声清唱时频信号输入所述音频事件精细分类器得到多个非人声清唱碎片信号时，具体用于：

在一些实施例中，所述打分结果包括人声清唱信号打分结果以及非人声清唱信号打分结果，处理单元802在实现所述根据所述打分结果确定所述初步人声清唱时频信号中的非人声清唱碎片信号时，具体用于：

在一些实施例中，处理单元802在实现所述对所述音频时域信号进行频域转换处理，得到对应的音频频域信号步骤时，具体用于：

对所述音频时域信号进行预加重处理，得到第一音频信号；

在一些实施例中，处理单元802在实现所述在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号步骤时，具体用于：

将所述非人声清唱信号转换为响度信号；

在一些实施例中，处理单元802在实现所述将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理之前，还用于：

综上所述，本申请实施例中基于时频结合的音乐人声分离装置800的获取到初步人声清唱时频信号之后，还会进一步识别初步人声清唱时频信号中的非人声清唱信号，并对识别出的非人声清唱信号进行响度优化处理，从而提高了音乐人声分离的分离效果。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述基于时频结合的音乐人声分离装置800和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述基于时频结合的音乐人声分离装置800可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备900可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图9，该计算机设备900包括通过系统总线901连接的处理器902、存储器和网络接口905，其中，存储器可以包括非易失性存储介质903和内存储器904。

该非易失性存储介质903可存储操作系统9031和计算机程序9032。该计算机程序9032包括程序指令，该程序指令被执行时，可使得处理器902执行一种基于时频结合的音乐人声分离方法。

该处理器902用于提供计算和控制能力，以支撑整个计算机设备900的运行。

该内存储器904为非易失性存储介质903中的计算机程序9032的运行提供环境，该计算机程序9032被处理器902执行时，可使得处理器902执行一种基于时频结合的音乐人声分离方法。

该网络接口905用于与其它设备进行网络通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备900的限定，具体的计算机设备900可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器902用于运行存储在存储器中的计算机程序9032，以实现如下步骤：

获取目标音频的音频时域信号；

在一些实施例中，处理器902在实现所述基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号步骤时，具体实现如下步骤：

在一些实施例中，处理器902在实现所述将所述初步人声清唱时频信号输入所述音频事件精细分类器得到多个非人声清唱碎片信号步骤时，具体实现如下步骤：

在一些实施例中，所述打分结果包括人声清唱信号打分结果以及非人声清唱信号打分结果，处理器902在实现所述根据所述打分结果确定所述初步人声清唱时频信号中的非人声清唱碎片信号步骤时，具体实现如下步骤：

在一些实施例中，处理器902在实现所述对所述音频时域信号进行频域转换处理，得到对应的音频频域信号步骤时，具体实现如下步骤：

对所述音频时域信号进行预加重处理，得到第一音频信号；

在一些实施例中，处理器902在实现所述在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号步骤时，具体实现如下步骤：

将所述非人声清唱信号转换为响度信号；

在一些实施例中，处理器902在实现所述将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理步骤之前，还实现如下步骤：

应当理解，在本申请实施例中，处理器902可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器902还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤：

获取目标音频的音频时域信号；

在一些实施例中，所述处理器在执行所述程序指令而实现所述基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号步骤时，具体实现如下步骤：

在一些实施例中，所述处理器在执行所述程序指令而实现所述将所述初步人声清唱时频信号输入所述音频事件精细分类器得到多个非人声清唱碎片信号步骤时，具体实现如下步骤：

在一些实施例中，所述打分结果包括人声清唱信号打分结果以及非人声清唱信号打分结果，所述处理器在执行所述程序指令而实现所述根据所述打分结果确定所述初步人声清唱时频信号中的非人声清唱碎片信号步骤时，具体实现如下步骤：

在一些实施例中，所述处理器在执行所述程序指令而实现所述对所述音频时域信号进行频域转换处理，得到对应的音频频域信号步骤时，具体实现如下步骤：

对所述音频时域信号进行预加重处理，得到第一音频信号；

在一些实施例中，所述处理器在执行所述程序指令而实现所述在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号步骤时，具体实现如下步骤：

将所述非人声清唱信号转换为响度信号；

在一些实施例中，所述处理器在执行所述程序指令而实现所述将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理步骤之前，还实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于时频结合的音乐人声分离方法，其特征在于，包括：

获取目标音频的音频时域信号；

在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号；

其中，所述基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号，包括：

将相邻预设时间间隔内的所述非人声清唱碎片信号进行合并处理，并将合并处理后的所述非人声清唱碎片信号以及未进行合并处理的所述非人声清唱碎片信号确定为所述非人声清唱信号；

所述将所述初步人声清唱时频信号输入所述音频事件精细分类器得到多个非人声清唱碎片信号，包括：

根据所述打分结果确定所述初步人声清唱时频信号中的非人声清唱碎片信号；

所述将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理之前，所述方法还包括：

根据预设的音乐分轨训练集对所述双塔网络模型进行训练，得到所述训练后的双塔网络模型，所述训练后的双塔网络模型的输入分别为双通道的音频时域信号和对应双通道的音频频域信号。

2.根据权利要求1所述的方法，其特征在于，所述打分结果包括人声清唱信号打分结果以及非人声清唱信号打分结果，所述根据所述打分结果确定所述初步人声清唱时频信号中的非人声清唱碎片信号，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述音频时域信号进行频域转换处理，得到对应的音频频域信号，包括：

对所述音频时域信号进行预加重处理，得到第一音频信号；

4.根据权利要求1所述的方法，其特征在于，所述在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号，包括：

将所述非人声清唱信号转换为响度信号；

5.一种基于时频结合的音乐人声分离装置，其特征在于，包括：

获取单元，用于获取目标音频的音频时域信号；

处理单元，用于对所述音频时域信号进行频域转换处理，得到对应的音频频域信号；将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理，得到初步人声清唱时频信号；基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号；在所述初步人声清唱时频信号中对所述非人声清唱信号进行响度优化处理，得到所述目标音频中的目标人声清唱时频信号；

所述处理单元在实现所述基于预设的音频事件精细分类器确定所述初步人声清唱时频信号中的非人声清唱信号步骤时，具体用于：

所述处理单元在实现所述将所述初步人声清唱时频信号输入所述音频事件精细分类器得到多个非人声清唱碎片信号时，具体用于：

所述处理单元在实现所述将所述音频时域信号以及所述音频频域信号输入训练后的双塔网络模型进行初步人声分离处理之前，还用于：

6.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如权利要求1-4中任一项所述的方法。