CN113571084A

CN113571084A - 音频处理方法、装置、设备及存储介质

Info

Publication number: CN113571084A
Application number: CN202110774909.2A
Authority: CN
Inventors: 何丹; 梁思; 方远舟; 王正
Original assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-10-29
Anticipated expiration: 2041-07-08
Also published as: CN113571084B

Abstract

本发明公开了一种音频处理方法、装置、设备及存储介质，涉及音频处理技术领域，方法包括：获取包括至少两种不同音色音频信号的第一音频数据；对第一音频数据进行特征提取，获得音频特征向量；根据音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得第二音频数据，第二音频数据不包括目标音频信号，生成对抗网络用于生成目标音频信号的伪信号，并根据伪信号获得第二音频数据，伪信号与目标音频信号之间的差异值小于阈值。本发明解决了现有技术在消除乐曲音频中指定乐器的声音时，容易导致原音损失的问题，实现了获得更自然且更完整的输出音频的效果。

Description

音频处理方法、装置、设备及存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频处理方法、装置、设备及存储介质。

背景技术

对于包含多种乐器声音的乐曲音频，比如交响乐、纯音乐等乐曲，由于这种乐曲一般都是采用多种乐器同轨实录，不同于分轨录制的歌曲音频，因此无法通过分轨的方式来消除或提取其中的某一种乐器声音。

现有的消除或提取包含同轨实录的多种乐器声音的乐曲音频中某一指定乐器声音的方法，容易产生原音损失。

发明内容

本发明的主要目的在于：提供一种音频处理方法、装置、设备及存储介质，旨在解决现有技术在消除乐曲音频中指定乐器的声音时，容易导致原音损失的技术问题。

为实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供了一种音频处理方法，所述方法包括以下步骤：

获取第一音频数据，其中，所述第一音频数据包括至少两种不同音色的音频信号，所述至少两种不同音色的音频信号中包括目标音频信号；

对所述第一音频数据进行特征提取，获得音频特征向量；

根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得第二音频数据，所述第二音频数据不包括所述目标音频信号，其中，所述生成对抗网络用于生成所述目标音频信号的伪信号，并根据所述伪信号获得所述第二音频数据，所述伪信号与所述目标音频信号之间的差异值小于阈值。

可选地，上述音频处理方法中，所述生成对抗网络包括生成器和分类器；

所述根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得第二音频数据的步骤，具体包括：

根据所述音频特征向量和所述声音样本特征，对所述分类器进行训练，获得第一训练数据和第二训练数据，所述第一训练数据为包括所述目标音频信号的训练数据，所述第二训练数据为不包括所述目标音频信号的训练数据；

判断所述第一训练数据与所述声音样本特征之间的差异值是否小于预设差异值；

若所述第一训练数据与所述声音样本特征之间的差异值不小于预设差异值，根据所述第一训练数据和所述第二训练数据，对所述生成器进行训练，以生成所述伪信号；

将所述伪信号和所述第二训练数据输入训练后的所述分类器，循环至获得的所述第一训练数据与所述声音样本特征之间的差异值小于预设差异值，以获得第二音频数据。

可选地，上述音频处理方法中，所述对所述第一音频数据进行特征提取，获得音频特征向量的步骤，具体包括：

根据所述第一音频数据在不同频率的分布情况进行特征提取，获得音频特征向量。

可选地，上述音频处理方法中，所述根据所述第一音频数据在不同频率的分布情况进行特征提取，获得音频特征向量的步骤，具体包括：

对所述第一音频数据进行预处理，获得时域音频数据；

对所述时域音频数据进行快速傅里叶变换，获得频域音频数据；

通过三角滤波器对所述频域音频数据进行三角滤波处理，获得滤波后的频域音频数据，所述三角滤波器的覆盖范围为人耳所能听到的声音的频率范围；

对所述滤波后的频域音频数据进行离散余弦变换，去除不同频率的音频信号之间的相关性，获得梅尔频率倒谱系数，以获得音频特征向量。

可选地，上述音频处理方法中，所述根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得第二音频数据的步骤之前，所述方法还包括：

对所述音频特征向量进行降维处理，获得降维后的音频特征向量；

所述根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得第二音频数据的步骤，包括：

根据所述降维后的音频特征向量、所述目标音频信号的声音样本特征以及所述生成对抗网络，获得第二音频数据。

可选地，上述音频处理方法中，所述对所述音频特征向量进行降维处理，获得降维后的音频特征向量的步骤，具体包括：

获取所述音频特征向量中每个特征点的近邻点；

根据所述每个特征点，以及对应的近邻点，获得所述每个特征点的局部重建权值矩阵；

根据所述局部重建权值矩阵的特征值以及与每个特征值对应的特征向量，获得降维后的音频特征向量。

第二方面，本发明提供了一种音频处理装置，所述装置包括：

音频获取模块，用于获取第一音频数据，其中，所述第一音频数据包括至少两种不同音色的音频信号，所述至少两种不同音色的音频信号中包括目标音频信号；

特征提取模块，用于对所述第一音频数据进行特征提取，获得音频特征向量；

音频处理模块，用于根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得第二音频数据，所述第二音频数据不包括所述目标音频信号，其中，所述生成对抗网络用于生成所述目标音频信号的伪信号，并根据所述伪信号获得所述第二音频数据，所述伪信号与所述目标音频信号之间的差异值小于阈值。

第三方面，本发明提供了一种音频处理设备，所述设备包括处理器和存储器，所述存储器中存储有音频处理程序，所述音频处理程序被所述处理器执行时，实现如上述的音频处理方法。

第四方面，本发明提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的音频处理程序，所述音频处理程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如上述的音频处理方法。

第五方面，本发明提供了一种存储介质，所述存储介质上存储有音频处理程序，所述音频处理程序可被一个或多个处理器执行，以实现如上述的音频处理方法。

本发明提供的上述一个或多个技术方案，可以具有如下优点或至少实现了如下技术效果：

本发明提出的一种音频处理方法、装置、设备及存储介质，通过获取包括至少两种音频信号的第一音频数据，再对该第一音频数据进行特征提取，获得音频特征向量，然后根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得不包括所述目标音频信号的第二音频数据，实现了剔除第一音频数据中目标音频信号的目的；还通过生成对抗网络生成目标音频信号的伪信号，利用生成对抗网络不断优化的特点，可以生成最接近真实目标音频信号的伪信号，从而使得在利用所述伪信号获得第二音频数据时，清除目标音频信号的效果更佳；并且，通过生成对抗网络的循环处理，可以对第二音频数据中的缺失音色进行平滑补充，从而使得后续输出的第二音频数据更自然且更完整。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的这些附图获得其他的附图。

图1为本发明音频处理方法的流程示意图；

图2为本发明音频处理设备的硬件结构示意图；

图3为本发明音频处理方法的另一流程示意图；

图4为对图3的流程示意图的细化流程框图；

图5为本发明音频处理装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，在本发明中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连；可以是两个元件内部的连通，也可以是两个元件的相互作用关系。另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在后续描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。另外，各个实施例的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

术语解释：

MFCC：Mel-frequency Cepstral Coefficients，梅尔频率倒谱系数；

LLE：Locally Linear Embedding，局部线性嵌入；

GAN：Generative Adversarial Networks，生成对抗网络，是一种深度学习网络；

FFT：Fast Fourier Transform，快速傅里叶变换，用于时域-频域变换分析；

DCT：Discrete Cosine Transform，离散余弦变换，用于数据或图像的压缩。

对现有技术的分析发现，录制歌曲通常分为两个声轨，即伴奏轨和人声轨，在混录的时候，人声轨有规律地占据中音音域，可以很容易提取和消除，以获得仅保留伴奏轨的乐器声音，作为歌曲演唱的伴奏资源。这种分轨录制的歌曲，要提取或消除其中的人声，仅保留伴奏部分是很容易实现的。但对于包含多种乐器声音的乐曲音频，比如交响乐、管弦乐、纯音乐等乐曲，由于这种乐曲一般都是采用多种乐器同轨实录，不同于分轨录制的歌曲音频，因此无法通过分轨的方式来消除或提取其中的某一种乐器声音。同时，乐器音色不是单纯音，而是互相干涉的若干种音组成的泛音组，甚至分左右声场的强弱变化，因此消除包含多种乐器的乐曲中某个乐器的声音难度较大。

目前，对于包含同轨实录的多种乐器声音的乐曲音频，要消除或提取其中某一指定乐器声音的音频处理方法，一般有两种。一种是从源头入手，将要处理的乐曲音频中的各种乐器全部重新分轨录制，如midi文件，使不同乐器在不同的音轨，再通过分轨的方式来消除或提取其中的某一种乐器声音，但这种方式存在成本高、整体性差、声场关系不好的问题；另一种是通过噪声的方式，即用要去除的指定乐器尽量再现要处理的乐曲音频中的音色和技巧，重新演奏并录制，将录制的声音作为噪声样本，用于去除原乐曲音频中的该内容，但这种方式在实际操作中，由于单音色歌曲与混音色乐曲的差异性，存在容易产生原音损失的问题。

鉴于现有技术在消除乐曲音频中指定乐器的声音时，容易导致原音损失的技术问题，本发明提供一种音频处理方法，总体思路如下：

获取第一音频数据，其中，所述第一音频数据包括至少两种不同音色的音频信号，所述至少两种不同音色的音频信号中包括目标音频信号；对所述第一音频数据进行特征提取，获得音频特征向量；根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得第二音频数据，所述第二音频数据不包括所述目标音频信号，其中，所述生成对抗网络用于生成所述目标音频信号的伪信号，并根据所述伪信号获得所述第二音频数据，所述伪信号与所述目标音频信号之间的差异值小于阈值。

通过上述技术方案，获取包括至少两种音频信号的第一音频数据，再对该第一音频数据进行特征提取，获得音频特征向量，然后根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得不包括所述目标音频信号的第二音频数据，实现了剔除第一音频数据中目标音频信号的目的；还通过生成对抗网络生成目标音频信号的伪信号，利用生成对抗网络不断优化的特点，可以生成最接近真实目标音频信号的伪信号，从而使得在利用所述伪信号获得第二音频数据时，清除目标音频信号的效果更佳；并且，通过生成对抗网络的循环处理，可以对第二音频数据中的缺失音色进行平滑补充，从而使得后续输出的第二音频数据更自然且更完整。

实施例一

参照图1，为本发明音频处理方法第一实施例的流程示意图。本实施例提供了一种可以应用于音频处理设备的音频处理方法，所述方法包括以下步骤：

对所述第一音频数据进行特征提取，获得音频特征向量；

具体的，所述音频处理设备是指能够实现网络连接的终端设备或网络设备，所述音频处理设备可以是手机、电脑、平板电脑、便携计算机等终端设备，也可以是服务器、云平台等网络设备。

如图2所示，为本发明涉及的音频处理设备的硬件结构示意图。所述设备可以包括：处理器1001，例如CPU(Central ProcessingUnit，中央处理器)，通信总线1002，用户接口1003，网络接口1004，存储器1005。

本领域技术人员可以理解，图2中示出的硬件结构并不构成对本发明音频处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

具体的，通信总线1002用于实现这些组件之间的连接通信；

用户接口1003用于连接客户端，与客户端进行数据通信，用户接口1003可以包括显示屏、输入单元比如键盘，可选的，用户接口1003还可以包括标准的有线接口、无线接口；

网络接口1004用于连接后台服务器，与后台服务器进行数据通信，网络接口1004可以包括标准的有线接口、无线接口，如Wi-Fi接口；

存储器1005用于存储各种类型的数据，这些数据例如可以包括该设备中任何应用程序或方法的指令，以及应用程序相关的数据，存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器，可选的，存储器1005还可以是独立于所述处理器1001的存储装置；

具体的，继续参照图2，存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及音频处理程序，其中，网络通信模块主要用于连接服务器，与服务器进行数据通信；

处理器1001用于调用存储器1005中存储的音频处理程序，并执行以下操作：

对所述第一音频数据进行特征提取，获得音频特征向量；

基于上述的音频处理设备，下面结合图1所示的流程图，提出本发明音频处理方法的第一实施例，所述方法可以包括以下步骤：

步骤S20：获取第一音频数据，其中，所述第一音频数据包括至少两种不同音色的音频信号，所述至少两种不同音色的音频信号中包括目标音频信号。

具体的，第一音频数据可以是包含多个不同音色的音频数据，比如，多人说话的语音等，也可以是包含多种乐器声音的乐曲音频，比如，同轨实录的交响乐曲，现场采集的音乐会音频等。目标音频信号可以是指定的想要从该音频数据中剔除的声音，比如，语音中某一个人的声音，交响乐曲中某一种乐器的声音。

本实施例中，音频处理方法是由音频处理设备实现的，音频处理设备以服务器为例进行说明。服务器在接收到音频处理请求时，根据该音频处理请求获取用户想要剔除其中某一种目标乐器声音的乐曲音频，比如想要剔除小提琴声音的交响乐曲。

步骤S40：对所述第一音频数据进行特征提取，获得音频特征向量。

具体的，可以利用MFCC提取法对所述第一音频数据进行特征提取，获得音频特征向量。MFCC的主要作用是对第一音频数据中各种音频信号进行特征提取，即音频信号的能量在不同频率范围的分布。通过对第一音频数据进行预处理、快速傅里叶变换、三角滤波处理和离散余弦变换，获得MFCC系数，即可获得该第一音频数据的音频特征向量。

在具体实施过程中，还可以对该音频特征向量进行降维处理，减少计算复杂度，节省算力。本实施例中可以利用LLE算法对该音频特征向量进行降维处理，以使降维后的数据较好地保持原有流形结构。

步骤S60：根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得第二音频数据，所述第二音频数据不包括所述目标音频信号，其中，所述生成对抗网络用于生成所述目标音频信号的伪信号，并根据所述伪信号获得第二音频数据，所述伪信号与所述目标音频信号之间的差异值小于阈值。

具体的，将提取到的音频特征向量和目标音频信号的声音样本特征一起输入GAN进行机器学习。该GAN包括生成器和分类器，音频特征向量和声音样本特征进入分类器，训练获得第一训练数据和第二训练数据，第一训练数据为包括所述目标音频信号的训练数据，第二训练数据为不包括所述目标音频信号的训练数据；并利用该分类器的判别功能，判断第一训练数据和声音样本特征之间的差异值，看是否满足迭代收敛条件，即判断是否小于预设差异值；若不小于，则第一训练数据和第二训练数据进入生成器，训练获得所述第一训练数据的伪信号，该伪信号和第二训练数据再次进入分类器，循环训练至满足迭代收敛条件时，输出获得的第二训练数据，即不包括所述目标音频信号的音频数据，从而获得第二音频数据。

在具体实施过程中，生成器和分类器可以是全连接神经网络，也可以是反卷积网络等；分类器中可以使用损失函数，例如交叉熵(Cross Entropy)来进行第一训练数据和第二训练数据之间的差异值计算。通过训练GAN，先训练分类器，再训练生成器，循环训练直到分类器判别获得的第一训练数据和第二训练数据满足迭代收敛条件，最后输出此时的第二训练数据，作为最终的输出音频，即不包括所述目标音频信号的音频数据。

本实施例中，由音频特征向量对要处理的乐曲音频进行唯一刻画，再结合目标乐器的声音样本对建立的生成对抗网络进行训练，通过训练包括生成器和分类器的生成对抗网络，使得生成器在生成目标音频信号的伪信号时，可以生成最接近真实目标音频信号的伪信号，从而使得分类器在利用所述伪信号获得不包括所述目标音频信号的音频数据时，清除效果更佳；并且，通过训练该生成对抗网络，可以对缺失音色进行平滑补充，从而使得输出的不包括所述目标音频信号的音频数据更自然且更完整。训练生成器保证生成最接近真实目标乐器的伪信号，训练分类器保证利用该伪信号清除乐曲音频中的目标乐器声音时，清除更准确，防止损坏其他声音而造成原音损失。

参照图3和图4，图3为本实施例的另一流程示意图，图4为基于图3的细化流程框图。基于上述步骤，结合图3所示的流程图和图4的流程框图，对本实施例提供的音频处理方法进行详细描述，所述方法具体包括以下步骤：

步骤S200：获取第一音频数据，其中，所述第一音频信号包括至少两种不同音色的音频信号，所述至少两种不同音色的音频信号中包括目标音频信号。

本实施例以包括多种乐器声音的乐曲音频作为第一音频数据，其中每种乐器的声音作为一种音频信号，不同的乐器声音音色明显不同，以剔除该乐曲音频中指定乐器比如小提琴的声音为例，进行详细说明。

步骤S400：对所述第一音频数据进行特征提取，获得音频特征向量。

具体的，根据所述第一音频数据在不同频率的分布情况，对所述第一音频数据进行特征提取，获得音频特征向量。具体可以利用梅尔频率倒谱系数提取法对所述第一音频数据进行特征提取。梅尔频率是基于人耳听觉特性提出来的，它与赫兹(Hz)频率成非线性对应关系。MFCC则是利用它们之间的这种关系，计算得到的Hz频谱特征。

在具体实施过程中，通过对每种音频信号，在特定环境下计算其特征矢量得到训练向量，并通过矢量量化的方法得到此音频信号的特征重心，每一种音频信号都可以由这组特征矢量唯一刻画，即可获得音频特征向量。

进一步地，所述步骤S400可以包括：

步骤S401：对所述第一音频数据进行预处理，获得时域音频数据。

具体的，预处理包括滤波处理、分帧处理和加窗处理，对所述第一音频数据依次进行滤波处理、分帧处理和加窗处理，获得时域音频数据。

在具体实施方式中，通过滤波处理去除第一音频数据中的噪音信号，获得去噪后的第一音频数据；可选通过A/D变换和加重处理对去噪后的第一音频数据进行高频信号增强；再通过分帧处理将第一音频数据分为多帧音频数据；又通过加窗处理对该多帧音频数据进行短时信号截取及平稳处理，将每一帧乘以窗函数，以增加帧左端和右端的连续性，减小吉布斯效应的影响，最终获得时域音频数据。

步骤S402：对所述时域音频数据进行快速傅里叶变换，获得频域音频数据。

具体的，通过FFT将所述时域音频数据转化为频域音频数据，即每一帧都得到一个对应的频谱；可选再按照时域将各频谱串联起来，通过逆傅里叶变化生成频谱包络，代表音色特征。

步骤S403：通过三角滤波器对所述频域音频数据进行三角滤波处理，获得滤波后的频域音频数据，所述三角滤波器的覆盖范围为人耳所能听到的声音的频率范围。

具体的，模拟人耳的掩蔽效应，通过三角滤波处理对所述频域音频数据进行滤波，具体通过一组梅尔(Mel)频标上线性分布的三角滤波器，对频谱进行平滑化，并消除谐波，获得滤波后的频域音频数据；可选通过求对数(ln)计算每个滤波器输出的对数能量，得到近似于同态变换的结果。

步骤S404：对所述滤波后的频域音频数据进行离散余弦变换，去除不同频率的音频信号之间的相关性，获得梅尔频率倒谱系数，以获得音频特征向量。

具体的，通过DCT对步骤S403获得的滤波后的频域音频数据去除各维信号之间的相关性，将信号映射到低维空间，得到MFCC系数，即获取到音频数据的音频特征向量。

可选地，还可以对步骤S404获得的音频特征向量进行数据归一化，比如进行谱加权处理、倒谱均值减处理和差分处理。

具体的，由于倒谱的低阶参数易受信道特性等的影响，而高阶参数的分辨能力比较低，可选对音频特征向量进行谱加权处理，以抑制其低阶和高阶参数，以及进行倒谱均值减(Cepstral Mean Subtraction，CMS)处理，有效地减小信道对特征参数的影响；再在音频特征向量中加入表征音频动态特性的差分参数。

对音频特征向量进行了数据归一化，将数值确保在一定范围，能够提高音频特征向量的性能。

本实施例中，通过上述步骤，对步骤S200获得的乐曲音频进行了特征提取，获得源乐曲的音频特征向量。

步骤S500：对所述音频特征向量进行降维处理，获得降维后的音频特征向量。

具体的，利用LLE算法对所述音频特征向量进行降维处理，获得降维后的音频特征向量。LLE算法是一种非线性降维算法，和传统的关注样本方差的降维方法相比，LLE算法在降维时可以保持样本局部的线性特征。

利用LLE算法对所述音频特征向量进行降维，能够使降维后的音频特征向量较好地保持原有流形结构。

进一步地，所述步骤S500可以包括：

步骤S501：获取所述音频特征向量中每个特征点的近邻点。

具体的，获取所述音频特征向量中每个特征点的k个近邻点。

本实施例中，将每一帧音频数据的n维音频特征向量D＝{x₁,x₂,...,x_n}作为输入，并设定预先给定值，比如邻数k和降维目标维数d，其中，d小于n。首先，计算所述音频特征向量中每个特征点的k个近邻点，例如把相对于所求特征点x_i距离(常用欧式距离)最近的k个特征点规定为特征点x_i的k个最近邻(x_i1,x_i2,...,x_ik)。

步骤S502：根据所述每个特征点，以及对应的近邻点，获得所述每个特征点的局部重建权值矩阵。

具体的，由每个特征点的k个近邻点计算出该特征点的局部重建权值矩阵。

本实施例中，计算出特征点x_i的局部重建权值矩阵M，首先求出局部协方差矩阵Z_i：

Z_i＝(x_i-x_j)(x_i-x_j)^T，

其中，x_j表示不在特征点x_i邻域内的样本，T表示矩阵的转置；

并求出对应的权重系数向量W_i：

其中，1_k为k维全1向量，-1表示矩阵的求逆；

然后由权重系数向量W_i组成权重系数矩阵W，从而计算出局部重建权值矩阵M：

M＝(I-W)(I-W)^T，

其中，I表示单位协方差矩阵；

步骤S503：根据所述局部重建权值矩阵的特征值以及与每个特征值对应的特征向量，获得降维后的音频特征向量。

具体的，由该特征点的局部重建权值矩阵和其近邻点计算出该特征点的输出值。

本实施例中，计算局部重建权值矩阵M的前d+1个特征值，并计算这d+1个特征值对应的特征向量{y₁,y₂,...y_d+1}，然后由第二个特征向量到第d+1个特征向量组成的矩阵即为输出值，获得d维音频特征向量D'＝{y₂,y₃,...y_d+1}，即所述降维后的音频特征向量。

对音频特征向量进行降维处理，减少了计算复杂度，节省了设备算力。且利用LLE算法对该音频特征向量进行降维处理，以使降维后的数据较好地保持原有流形结构。

本实施例通过上述步骤，将步骤S400获得的音频特征向量进行降维，获得了降维后的音频特征向量。

步骤S600：根据所述降维后的音频特征向量、所述目标音频信号的声音样本特征以及所述生成对抗网络，获得第二音频数据；所述第二音频数据不包括所述目标音频信号，其中，所述生成对抗网络用于生成所述目标音频信号的伪信号，并根据所述伪信号获得所述第二音频数据，所述伪信号与所述目标音频信号之间的差异值小于阈值。

进一步地，所述步骤S600可以包括：

步骤S601：构建生成对抗网络，所述生成对抗网络包括生成器和分类器。

具体的，GAN包括生成器(Generative Model)和分类器(Discriminative Model)，通过生成器和分类器的互相博弈学习可以产生较好的输出。通过GAN对缺失信息进行补充，可以获得更清楚和更完整的剔除目标乐器后的乐曲音频。该步骤为可选步骤，具体实施过程中，可以对直接对预设好的初始的生成对抗网络进行下述步骤，也可以临时构建网络，再进行下述步骤。

步骤S602：根据所述音频特征向量和所述声音样本特征，对所述分类器进行训练，获得第一训练数据和第二训练数据，所述第一训练数据为包括所述目标音频信号的训练数据，所述第二训练数据为不包括所述目标音频信号的训练数据。

具体的，将音频特征向量和目标音频信号的声音样本特征输入GAN的分类器，对所述分类器进行训练，获得包括所述目标音频信号的训练数据，即第一训练数据和不包括所述目标音频信号的训练数据，即第二训练数据。

在具体实施过程中，从真实的目标音频信号的声音样本特征中采样m个样本{x¹,x²,...x^m}，获得真实样本分布p_i＝{x¹,x²,...x^m}，从所述音频特征向量中采样m个样本{z¹,z²,...z^m}，作为噪声样本分布；输入分类器，获得的第一训练数据，即m个样本

作为分类样本分布

获得的第二训练数据，即m个样本

作为输出样本分布。

本实施例中，例如将小提琴声音样本和提取到的源乐曲的音频特征向量输入GAN的分类器，对所述分类器进行训练，获得小提琴音频和不包括小提琴声音的音频。

步骤S603：判断所述第一训练数据与所述声音样本特征之间的差异值是否小于预设差异值。

具体的，分类器具有判别功能，可以根据获得的第一训练数据与声音样本特征之间的差异值，判断训练是否满足收敛条件，即判断所述包括目标音频信号的训练数据与目标音频信号的声音样本特征之间的差异值是否小于预设差异值。

在具体实施过程中，使用交叉熵H(p_i,q_i)来判别真实样本分布p_i和分类样本分布q_i的相似性，其中采用的交叉熵计算式如下：

在当前情况下，分类器为一个二分类问题，因此可以对基本交叉熵进行更具体地展开，获取差异值，其中采用的二分类交叉熵计算式如下：

H((x₁,y₁),D)＝-y₁logD(x₁)-(1-y₁)log(1-D(x₁))，

其中，y₁为每帧的判别结果，如果差异值小于预设差异值，判别结果为真，y₁＝1，如果差异值不小于预设差异值，判别结果为假，y₁＝0。

本实施例中，通过判断获得的小提琴音频和小提琴声音样本之间的差异值，获取判别结果，从而判定是否需要继续进行迭代训练。

步骤S604：若所述第一训练数据与所述声音样本特征之间的差异值不小于预设差异值，根据所述第一训练数据和所述第二训练数据，对所述生成器进行训练，以生成所述伪信号。

具体的，根据获得的第一训练数据与声音样本特征之间的差异值，判定不满足收敛条件，即包括目标音频信号的训练数据与目标音频信号的声音样本特征之间的差异值大于或等于预设差异值，则将前述获得的包括目标音频信号的训练数据，以及不包括所述目标音频信号的音频训练数据一起输入生成器，对生成器进行训练，以生成目标音频信号训练数据的伪信号。

本实施例中，若小提琴音频和小提琴声音样本之间的差异值大于或等于预设差异值，则将小提琴音频和不包括小提琴声音的音频输入生成器，对生成器进行训练，以生成小提琴音频的伪信号。

步骤S605：将所述伪信号和所述第二训练数据输入训练后的所述分类器，循环至获得的所述第一训练数据与所述声音样本特征之间的差异值小于预设差异值，以获得第二音频数据。

具体的，将伪信号和前述获得的不包括所述目标音频信号的音频训练数据输入训练后的所述分类器，循环至获得的包括所述目标音频信号的训练数据与所述声音样本特征之间的差异值小于预设差异值，以获得不包括所述目标音频信号的音频数据，即第二音频数据。也就是说，将伪信号和第二训练数据再次输入分类器，继续获得第一训练数据和第二训练数据，并返回步骤S603，继续判别该分类器的训练是否满足收敛条件，循环直到满足收敛条件为止，即再次获得的第一训练数据与声音样本特征之间的差异值小于预设差异值时，输出此时的目标音频信号的音频数据，作为最终输出的第二音频数据。

在具体实施方式中，生成器尽可能地生成更真实的目标音频信号训练数据的伪信号，从而使得分类器达到理想状态，即无法判别输入的伪信号和声音样本特征之间具有音色差异，同时，分类器也尽可能将伪信号和声音样本特征进行区别。直到无法分别时，产生一个均衡和谐的状态，再输出此时分类器获得的不包括所述目标音频信号的音频训练数据，作为最终的输出音频数据。

本实施例中，将小提琴音频的伪信号和不包括小提琴声音的音频再次输入分类器，从而再次获得小提琴音频和不包括小提琴声音的音频，循环训练，直到满足迭代条件时，输出此时的不包括小提琴声音的音频，最为最终的输出乐曲音频。

相比现有技术，本实施例最终获得的输出乐曲音频，目标乐器剔除更干净，乐曲音频的保留部分更自然，更完整。

本实施例提供的音频处理方法，通过获取包括至少两种音频信号的第一音频数据，再对该第一音频数据进行特征提取，获得音频特征向量，然后根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得不包括所述目标音频信号的第二音频数据，实现了剔除第一音频数据中目标音频信号的目的；还通过生成对抗网络生成目标音频信号的伪信号，利用生成对抗网络不断优化的特点，可以生成最接近真实目标音频信号的伪信号，从而使得在利用所述伪信号获得第二音频数据时，清除目标音频信号的效果更佳；并且，通过生成对抗网络的循环处理，可以对第二音频数据中的缺失音色进行平滑补充，从而使得后续输出的第二音频数据更自然且更完整。

实施例二

基于同一发明构思，参照图5，为本发明音频处理装置的模块示意图，本实施例提供了一种音频处理装置，所述音频处理装置可以为虚拟装置。

下面结合图5，对本实施例提供的音频处理装置进行详细描述，所述装置可以包括：

进一步地，所述音频处理模块可以包括：

网络构建单元，用于构建生成对抗网络，所述生成对抗网络包括生成器和分类器；

第一训练单元，用于根据所述音频特征向量和所述声音样本特征，对所述分类器进行训练，获得第一训练数据和第二训练数据，所述第一训练数据为包括所述目标音频信号的训练数据，所述第二训练数据为不包括所述目标音频信号的训练数据；

判别单元，用于判断所述第一训练数据与所述声音样本特征之间的差异值是否小于预设差异值；

第二训练单元，用于若所述第一训练数据与所述声音样本特征之间的差异值不小于预设差异值，根据所述第一训练数据和所述第二训练数据，对所述生成器进行训练，以生成所述伪信号；

循环训练单元，用于将所述伪信号和所述第二训练数据输入训练后的所述分类器，循环至获得的所述第一训练数据与所述声音样本特征之间的差异值小于预设差异值，以获得第二音频数据。

进一步地，所述特征提取模块具体用于根据所述第一音频数据在不同频率的分布情况，对所述第一音频数据进行特征提取，获得音频特征向量。

更进一步地，所述特征提取模块可以包括：

预处理单元，用于对所述第一音频数据进行预处理，获得时域音频数据；

频域变换单元，用于对所述时域音频数据进行快速傅里叶变换，获得频域音频数据；

三角滤波单元，用于通过三角滤波器对所述频域音频数据进行三角滤波处理，获得滤波后的频域音频数据，所述三角滤波器的覆盖范围为人耳所能听到的声音的频率范围；

系数获取单元，用于对所述滤波后的频域音频数据进行离散余弦变换，去除不同频率的音频信号之间的相关性，获得梅尔频率倒谱系数，以获得音频特征向量。

进一步地，所述装置还可以包括：

降维模块，用于对所述音频特征向量进行降维处理，获得降维后的音频特征向量；

所述音频处理模块，还用于根据所述降维后的音频特征向量、所述目标音频信号的声音样本特征以及所述生成对抗网络，获得第二音频数据。

更进一步地，所述降维模块可以包括：

近邻点获取单元，用于获取所述音频特征向量中每个特征点的近邻点；

矩阵获取单元，用于根据所述每个特征点，以及对应的近邻点，获得所述每个特征点的局部重建权值矩阵；

降维输出单元，用于根据所述局部重建权值矩阵的特征值以及与每个特征值对应的特征向量，获得降维后的音频特征向量。

需要说明，本实施例提供的音频处理装置中各个模块可实现的功能和对应达到的技术效果可以参照本发明音频处理方法实施例中具体实施方式的描述，为了说明书的简洁，此处不再赘述。

实施例三

基于同一发明构思，参照图2，为本发明各实施例涉及的音频处理设备的硬件结构示意图。本实施例提供了一种音频处理设备，所述设备可以包括处理器和存储器，所述存储器中存储有音频处理程序，所述音频处理程序被所述处理器执行时，实现本发明音频处理方法各个实施例的全部或部分步骤。

具体的，所述音频处理设备是指能够实现网络连接的终端设备或网络连接设备，可以是手机、电脑、平板电脑、便携计算机等终端设备，也可以是服务器、云平台等网络设备。

可以理解，所述设备还可以包括通信总线，用户接口和网络接口。

其中，通信总线用于实现这些组件之间的连接通信；

用户接口用于连接客户端，与客户端进行数据通信，用户接口可以包括显示屏、输入单元比如键盘，可选的，用户接口还可以包括标准的有线接口、无线接口；

网络接口用于连接后台服务器，与后台服务器进行数据通信，网络接口可以包括标准的有线接口、无线接口，如Wi-Fi接口；

存储器用于存储各种类型的数据，这些数据例如可以包括该设备中任何应用程序或方法的指令，以及应用程序相关的数据，存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘，可选的，存储器还可以是独立于所述处理器的存储装置；

处理器用于调用存储器中存储的音频处理程序，并执行如上述的音频处理方法各个实施例的全部或部分步骤，处理器可以是专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件。

实施例四

基于同一发明构思，本实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的音频处理程序，所述音频处理程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明音频处理方法各个实施例的全部或部分步骤。

实施例五

基于同一发明构思，本实施例提供了一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，所述存储介质上存储有音频处理程序，所述音频处理程序可被一个或多个处理器执行，所述音频处理程序被处理器执行时可以实现本发明音频处理方法各个实施例的全部或部分步骤。

通过以上具体实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM、RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器或者网络设备等)执行本发明实施例所述的方法。

需要说明，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均包括在本发明的专利保护范围内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

对所述第一音频数据进行特征提取，获得音频特征向量；

2.如权利要求1所述的音频处理方法，其特征在于，所述生成对抗网络包括生成器和分类器；

3.如权利要求1所述的音频处理方法，其特征在于，所述对所述第一音频数据进行特征提取，获得音频特征向量的步骤，具体包括：

4.如权利要求3所述的音频处理方法，其特征在于，所述根据所述第一音频数据在不同频率的分布情况进行特征提取，获得音频特征向量的步骤，具体包括：

对所述第一音频数据进行预处理，获得时域音频数据；

5.如权利要求1所述的音频处理方法，其特征在于，所述根据所述音频特征向量、目标音频信号的声音样本特征以及生成对抗网络，获得第二音频数据的步骤之前，所述方法还包括：

6.如权利要求5所述的音频处理方法，其特征在于，所述对所述音频特征向量进行降维处理，获得降维后的音频特征向量的步骤，具体包括：

获取所述音频特征向量中每个特征点的近邻点；

7.一种音频处理装置，其特征在于，所述装置包括：

8.一种音频处理设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有音频处理程序，所述音频处理程序被所述处理器执行时，实现如权利要求1至6中任一项所述的音频处理方法。

9.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的音频处理程序，所述音频处理程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至6中任一项所述的音频处理方法。

10.一种存储介质，其特征在于，所述存储介质上存储有音频处理程序，所述音频处理程序被一个或多个处理器执行，以实现如权利要求1至6中任一项所述的音频处理方法。