CN117037828A

CN117037828A - 音乐噪声样本过滤方法、电子设备及存储介质

Info

Publication number: CN117037828A
Application number: CN202311037275.8A
Authority: CN
Inventors: 王武城
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-10

Abstract

本申请公开一种音乐噪声样本过滤方法、电子设备及存储介质，其中，该方法包括：获取待处理音乐样本；提取所述待处理音乐样本在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征；对所述在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征进行加权融合处理，确定目标得分；若所述目标得分满足预设条件，则所述待处理音乐样本为音乐噪声，对所述待处理音乐样本进行过滤。通过上述方案解决了现有的在音乐场景中基于二分类模型无法准确进行噪声样本过滤的技术问题，达到了在音乐场景可以对噪声进行更为准确且灵活性更好的过滤的技术效果。

Description

音乐噪声样本过滤方法、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，具体地涉及一种音乐噪声样本过滤方法、电子设备及存储介质。

背景技术

噪声样本过滤在任何音频任务中都是数据处理的关键步骤，在音乐数据处理中，与音乐无关的噪声样本过滤是否干净、准确，将直接影响样本训练模型的最终效果。在噪声样本不准确的情况下，会对模型训练产生一定的误导，影响音乐数据的真实分布。因此，在数据处理阶段，准确捕获音乐噪声的特性，将其过滤，是预处理的必经之路。

考虑到与普通任务中的噪声不同，音乐场景下的噪声更加复杂，对于非音乐的噪声样本除了包含场景噪声、嘈杂人声等常见噪声以外，还包含容易与音乐混淆的单音噪声、没有任何节奏的乐器噪声。

目前已有的噪声过滤方式一般是按照普通噪声的分析方式进行建模、过滤的，没有针对音乐场景做出改变，主要是根据具体场景训练噪声分类模型，在音乐场景下，通过训练音乐和非音乐的二分类模型来对噪声进行区分，然而，噪声具有多样性，二分类的噪声样本的空间分布，无法完全包含真实场景下的所有噪声特性，例如：噪声样本需要涵盖场景噪声，但不可能充分搜集到各种场景下的噪声样本，因此，针对音乐场景，基于二分类模型无法准确进行噪声样本过滤。

本背景技术描述的内容仅为了便于了解本领域的相关技术，不视作对现有技术的承认。

发明内容

因此，本发明实施例意图提供一种音乐噪声样本过滤方法、电子设备及存储介质，以在音乐场景中准确进行噪声样本过滤。

在第一方面，提供一种音乐噪声样本过滤方法，包括：

获取待处理音乐样本；

提取所述待处理音乐样本在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征；

对所述在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征进行加权融合处理，确定目标得分；

若所述目标得分满足预设条件，则所述待处理音乐样本为音乐噪声，对所述待处理音乐样本进行过滤。

在一个实施方式中，对所述在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征进行加权融合处理，确定目标得分，包括：

计算所述在时域空间的表征特征的第一得分；

计算所述在频谱空间的表征特征的第二得分；

计算所述在潜在空间的表征特征的第三得分；

根据预先设置的权重比例，对所述第一得分、第二得分和第三得分进行加权求和，得到目标得分；

确定所述目标得分满足预设条件，则确定所述待处理音乐样本为音乐噪声。

在一个实施方式中，在时域空间的表征特征为过零率的情况下，计算所述在时域空间的表征特征的第一得分，包括：

提取所述待处理音乐样本的过零率；

将所述过零率与预设的过零阈值进行对比；

在所述过零率大于过零阈值的情况下，将第一过零值作为所述第一得分，在所述过零率不大于过零阈值的情况下，将第二过零值作为所述第一得分，其中，第一过零值表征噪声概率高，第二过零值表征噪声概率低。

在一个实施方式中，按照如下方式设置所述过零阈值：

获取音乐数据样本集和噪声数据样本集；

确定所述音乐数据样本集中数据样本的过零率均值，作为第一均值；

确定所述噪声数据样本集中数据样本的过零率均值，作为第二均值；

求取所述第一均值与所述第二均值之和的一半，作为所述过零阈值。

在一个实施方式中，在频谱空间的表征特征为频谱质心方差的情况下，计算所述在频谱空间的表征特征的第二得分，包括：

提取所述待处理音乐样本的频谱质心方差；

将所述频谱质心方差与预设的质心阈值进行对比；

在所述频谱质心方差大于与预设的质心方差阈值的情况下，将第一质心值作为所述第二得分，在所述频谱质心方差不大于质心方差阈值的情况下，将第二质心值作为所述第二得分，其中，第一质心值表征噪声概率低，第二质心值表征噪声概率高。

在一个实施方式中，按照如下方式设置所述质心方差阈值：

获取音乐数据样本集和噪声数据样本集；

将所述音乐数据样本集中各音乐样本数据分为多个帧，确定每帧的频谱质心点，以得到每个音乐样本数据对应的频谱质心序列，基于每个音乐样本数据对应的频谱质心序列，计算得到每个音乐样本数据的频谱质心方差；

求取所述音乐数据样本集中各音乐样本数据的频谱质心方差的均值，作为第三均值；

将所述噪声数据样本集中各噪声样本数据分为多个帧，确定每帧的频谱质心点，以得到每个噪声样本数据对应的频谱质心序列，基于每个噪声样本数据对应的频谱质心序列，计算得到每个噪声样本数据的频谱质心方差；

求取所述噪声数据样本集中各噪声样本数据的频谱质心方差的均值，作为第四均值；

求取所述第三均值与所述第四均值之和的一半，作为所述质心方差阈值。

在一个实施方式中，在潜在空间的表征特征为嵌入层输出的情况下，计算所述在潜在空间的表征特征的第三得分，包括：

提取所述待处理音乐样本的梅尔频率倒谱系数特征；

将所述梅尔频率倒谱系数特征，输入至预先建立的自编码网络中，得到所述待处理音乐样本的嵌入层输出；

计算所述待处理音乐样本的嵌入层输出与音乐嵌入层输出均值和噪声嵌入层输出均值之间的距离；

在所述待处理音乐样本的嵌入层输出与音乐嵌入层输出均值距离近的情况下，将第一距离值作为所述第三得分，在所述待处理音乐样本的嵌入层输出与噪声嵌入层输出均值距离近的情况下，将第二距离值作为所述第三得分，其中，第一距离值表征噪声概率低，第二距离值表征噪声概率高。

在一个实施方式中，按照如下方式设置音乐嵌入层输出均值和噪声嵌入层输出均值：

获取音乐数据样本集和噪声数据样本集；

提取所述音乐数据样本集中各音乐数据样本的梅尔频率倒谱系数特征，将各音乐数据样本的梅尔频率倒谱系数特征输入预先建立的自编码网络中，得到各音乐数据样本的嵌入层输出，计算各音乐数据样本的嵌入层输出的均值，作为音乐嵌入层输出均值；

提取所述噪声数据样本集中各噪声数据样本的梅尔频率倒谱系数特征，将各噪声数据样本的梅尔频率倒谱系数特征输入预先建立的自编码网络中，得到各噪声数据样本的嵌入层输出，计算各噪声数据样本的嵌入层输出的均值，作为噪声嵌入层输出均值。

在第二方面，提供一种音乐噪声样本过滤装置，包括：

获取模块，用于获取待处理音乐样本；

提取模块，用于提取所述待处理音乐样本在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征；

确定模块，用于对所述在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征进行加权融合处理，确定目标得分；

过滤模块，用于在所述待处理音乐样本为音乐噪声的情况下，对所述待处理音乐样本进行过滤。

在第三方面，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一实施例所述的处理方法。

在第四方面，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一实施例所述的处理方法。

本发明实施例提出一种改进的音乐噪声样本过滤方法处理方案，从噪声样本的特性出发，采用了多种有效的特征，不依赖于复杂多样的噪声样本来构建特征空间，因此实现起来更为高效且快捷，且相比于二分类噪声过滤方法，在本申请中通过噪声和音乐在频谱空间和时域空间的特性差异以及在潜在的特征空间分布，进行特征的加权融合，从而使得在音乐场景的噪声过滤更为准确，且灵活性更高。

本发明实施例的可选特征和其他效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

结合附图来详细说明本发明的实施例，所示元件不受附图所显示的比例限制，附图中相同或相似的附图标记表示相同或类似的元件，其中：

图1示出根据本发明实施例的音乐噪声样本过滤方法的示例性流程图；

图2示出实施根据本发明实施例的基于多特征融合的音乐噪声样本过滤方法的逻辑示意图；

图3示出根据本发明实施例的音乐噪声样本过滤装置的结构示意图；

图4示出能实施根据本发明实施例的方法的移动终端的示例性硬件结构示意图；

图5示出了能实施根据本发明实施例的方法的移动终端的示例性操作系统结构示意图；

图6示出了能实施根据本发明实施例的方法的移动终端的示例性操作系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合具体实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

图1是本申请提供的音乐噪声样本过滤方法一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至分布式处理环境)。

具体的，如图1所示，上述的音乐噪声样本过滤方法可以包括如下步骤：

步骤101：获取待处理音乐样本；

在本例中，待处理音乐样本可能是音乐样本也可能是噪声样本，如果是噪声样本，那么就是由非音乐的多种噪声组成，可以但不限于包括以下至少之一：场景噪声、无关人声、乐器噪声等。

步骤102：提取待处理音乐样本在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征；

其中，潜在空间(Latent Space)是数据被以一个较低维度的方式表示的特征空间，即低维特征空间。这种表示方式捕捉了数据的高级抽象特征和潜在结构，可以看作是数据的降维表示，其中数据点的位置和分布反映了数据的内在关系。

潜在空间(Latent Space)的生成方式包括但不限于自编码器网络(Autoencoders)、变分自编码器网络(Variational Autoencoders，VAE)以及生成对抗网络(Generative Adversarial Networks，GAN)等，本领域的技术人员可以根据其需求自行选择所述潜在空间(Latent Space)的生成方式，上述列举的生成方式仅作为举例，不作为对于本发明所述技术方案的限制。

步骤103：对在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征进行加权融合处理，确定目标得分；

步骤104：若目标得分满足预设条件，则待处理音乐样本为音乐噪声，对待处理音乐样本进行过滤。

在上例中，从噪声样本的特性出发，采用了多种有效的特征，不依赖于复杂多样的噪声样本来构建特征空间，因此实现起来更为高效且快捷，且相比于二分类噪声过滤方法，在本申请中通过噪声和音乐在频谱空间和时域空间的特性差异以及在潜在的特征空间分布，进行特征的加权融合，从而使得在音乐场景的噪声过滤更为准确，且灵活性更高。

在实际实现的时候，可以采用得分的方式进行加权融合，具体的，对所述在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征进行加权融合处理，确定目标得分，可以包括：

S1：计算所述在时域空间的表征特征的第一得分；

例如，以在时域空间的表征特征为过零率为例，计算所述在时域空间的表征特征的第一得分，可以包括：提取所述待处理音乐样本的过零率；将所述过零率与预设的过零阈值进行对比；在所述过零率大于过零阈值的情况下，将第一过零值作为所述第一得分，在所述过零率不大于过零阈值的情况下，将第二过零值作为所述第一得分，其中，第一过零值表征噪声概率高，第二过零值表征噪声概率低。

其中，上述过零阈值可以按照如下方式设置：获取音乐数据样本集和噪声数据样本集；确定所述音乐数据样本集中数据样本的过零率均值，作为第一均值；确定所述噪声数据样本集中数据样本的过零率均值，作为第二均值；求取所述第一均值与所述第二均值之和的一半，作为所述过零阈值。

例如，假设音乐样本数据集中的所有音乐样本的过零率均值为m1，噪声样本数据集中的所有噪声样本的过零率均值为m2，则可以设置过零阈值a＝(m1+m2)/2。在预测阶段，如果待处理音乐样本的过零率大于a，则可以设置得分为-1，过零率小于a，则可以设置得分为1。

S2：计算所述在频谱空间的表征特征的第二得分；

例如，以在频谱空间的表征特征为频谱质心方差为例进行说明，计算所述在频谱空间的表征特征的第二得分，可以包括：

S2-1：提取所述待处理音乐样本的频谱质心方差；

S2-2：将所述频谱质心方差与预设的质心阈值进行对比；

S2-3：在所述频谱质心方差大于与预设的质心方差阈值的情况下，将第一质心值作为所述第二得分，在所述频谱质心方差不大于质心方差阈值的情况下，将第二质心值作为所述第二得分，其中，第一质心值表征噪声概率低，第二质心值表征噪声概率高。

其中，上述质心方差阈值可以是按照如下方式设置的：获取音乐数据样本集和噪声数据样本集；将所述音乐数据样本集中各音乐样本数据分为多个帧，确定每帧的频谱质心点，以得到每个音乐样本数据对应的频谱质心序列，基于每个音乐样本数据对应的频谱质心序列，计算得到每个音乐样本数据的频谱质心方差；求取所述音乐数据样本集中各音乐样本数据的频谱质心方差的均值，作为第三均值；将所述噪声数据样本集中各噪声样本数据分为多个帧，确定每帧的频谱质心点，以得到每个噪声样本数据对应的频谱质心序列，基于每个噪声样本数据对应的频谱质心序列，计算得到每个噪声样本数据的频谱质心方差；求取所述噪声数据样本集中各噪声样本数据的频谱质心方差的均值，作为第四均值；求取所述第三均值与所述第四均值之和的一半，作为所述质心方差阈值。

例如：计算音乐数据样本集中所有音乐样本的频谱质心方差，并求取均值n1，计算噪声数据样本集中所有噪声样本的频谱质心方差，并求取均值n2，二者均值b＝(n1+n2)/2。在预测阶段，如果待处理音乐样本的频谱质心方差大于b，则可以设置得分为1，小于b，则可以设置为-1。

S3：计算所述在潜在空间的表征特征的第三得分；

例如，以在潜在空间的表征特征为embedding(嵌入层输出)为例进行说明，计算所述在潜在空间的表征特征的第三得分，可以包括：

S3-1：提取所述待处理音乐样本的梅尔频率倒谱系数特征；

S3-2：将所述梅尔频率倒谱系数特征，输入至预先建立的自编码网络中，得到所述待处理音乐样本的embedding；

S3-3：计算所述待处理音乐样本的embedding与音乐embedding均值和噪声embedding均值之间的距离；

S3-4：在所述待处理音乐样本的embedding与音乐embedding均值距离近的情况下，将第一距离值作为所述第三得分，在所述待处理音乐样本的embedding与噪声embedding均值距离近的情况下，将第二距离值作为所述第三得分，其中，第一距离值表征噪声概率低，第二距离值表征噪声概率高。

其中，上述音乐embedding均值和噪声embedding均值可以按照如下方式设置：获取音乐数据样本集和噪声数据样本集；提取所述音乐数据样本集中各音乐数据样本的梅尔频率倒谱系数特征，将各音乐数据样本的梅尔频率倒谱系数特征输入预先建立的自编码网络中，得到各音乐数据样本的embedding，计算各音乐数据样本的embedding的均值，作为音乐embedding均值；提取所述噪声数据样本集中各噪声数据样本的梅尔频率倒谱系数特征，将各噪声数据样本的梅尔频率倒谱系数特征输入预先建立的自编码网络中，得到各噪声数据样本的embedding，计算各噪声数据样本的embedding的均值，作为噪声embedding均值。

例如：将音乐数据样本集和噪声数据样本集中的所有音乐样本和噪声样本输入网络，分别计算音乐数据样本的embedding均值emb1和噪声数据样本的embedding均值emb2，这两个embedding表示两者特征空间的位置。在预测阶段，提取待处理音乐样本的MFCC特征，将提取的MFCC特征输入至上述训练得到的网络，得到embedding，计算当前embedding和emb1、emb2之间的欧式距离，如果和emb1的距离更近，则设置得分为1，否则设置得分为-1。

S4：根据预先设置的权重比例，对所述第一得分、第二得分和第三得分进行加权求和，得到目标得分；

S5：确定所述目标得分是否位于预设噪声范围内，在确定所述目标得分位于预设噪声范围内，则确定所述待处理音乐样本为音乐噪声。

例如：可以按照如下公式计算三者的加权得分，得到最终的总得分：

Score＝k1*score1+k2*score2+k3*score3。

其中，score1表示第一得分，score2表示第二得分，score3表示第三得分，k1、k2、k3分别表示三者的加权系数，可以控制三种特征在最终得分的比重。如果Score大于0，则判断为音乐，如果Score小于等于0，则判断为噪声。

然而，值得注意的是，上述选取的在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征也仅是一种示例性描述，在实现的时候，可以根据情况和需求选择其它的表征特征作为在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征；例如，除了可以选择选择过零率作为在时域空间的表征特征，还可以选择短时能量、自相关函数等作为在时域空间的表征特征，除了可以选择频谱质心方差作为在频谱空间的表征特征，还可以选择频谱成分均值作为在频谱空间的表征特征。

进一步的，值得注意的是，上述的得分取值和取值的设定也仅是一种示例性描述，在实际实现的时候，可以采用其它的数值作为得分取值，例如，上述取值为1的可以设置为取值为-1，取值为-1的可以设置为1，相应的，判断方式也进行转换，上述取值还可以是按照10、-10等进行取值，对于得分的具体取值方式本申请不做限定，可以根据需求和情况设定。

本例所提供的音乐噪声样本过滤方法，可以用在例如：翻唱识别、音色识别、多维打分、听歌识曲、哼唱识别等场景中。音乐噪声会直接影响模型的性能，例如：翻唱识别模型中如果融入了噪声样本，模型将会学习从噪声到歌曲的映射关系，而噪声空间往往具有随机性，可能影响歌曲和歌曲之间的映射关系，导致模型识别性能下降。最终导致识别结果不准确、用户体验较差，为此，在本例中采用多特征融合的方式，提出了一种有效的噪声区分方法，确保了多种音乐模型的训练不会受到噪声干扰，提升了模型的性能，同时有效提升了用户体验。

下面结合一个具体实施例对上述方法进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

音乐噪声样本过滤的流程一般是：首先，搜集二分类模型所需要的训练样本，其中，训练样本包括：音乐样本和任务无关的非音乐样本，对于非音乐样本，为了确保训练样本的噪声空间分布的全面性，需要搜集三种主要噪声：第一种是场景噪声，包含飞机场、公交站、家庭场所、公园、商场等，场景越多，噪声空间表述越充分；第二种是人声噪声，包含与歌唱无关的人声噪声、嘈杂的人声、电视人声等；第三种是乐器噪声，并非包含乐器的音频都属于音乐，音乐是有旋律的，乐器噪声往往容易和音乐混淆，因此非音乐样本中也应该加上乐器噪声。在样本搜集完成之后，可以从样本中提取频谱特征，并输入二分类模型进行训练，模型学习音乐样本和噪声样本特征空间分布的差异性，对二者进行区分。

然而，考虑到这种方式是直接针对任务的方法，目的性较为明确，但二分类模型的效果依赖于训练样本，尤其是非音乐样本。噪声空间多样复杂，训练样本能够描述怎么样的噪声空间，训练出来的模型的上限就是这些空间。因此，如果无法完整地包含真实场景可能会遇到的噪声类型，因此，二分类模型难以取得理想的效果。且在音乐场景中，某些音乐信息的频谱空间和噪声频谱空间存在交叠，二分类模型无法直接区分，因此，针对音乐噪声场景的特性，在本例中采用特征融合的方式，从非音乐噪声和音乐之间的特性触发，对音乐噪声和音乐进行区分，不完全依赖于数据，提出了一种多特征融合的音乐噪声样本过滤方法。

在本例中提出了一种基于多特征融合的音乐噪声样本过滤方法，例如，结合了过零率、频谱质心序列、自编码embedding特征进行噪声样本过滤，具体的，可以搜集一批音乐样本和非音乐样本，分别计算音乐样本和非音乐样本的过零率均值，以二者过零率均值的均值a作为得分阈值；然后，分别计算音乐样本和非音乐样本的频谱质心序列的平均方差，同样以二者平均方差的均值b作为得分阈值；进而，训练自编码网络，用于描述二者的embedding特征空间分布，在训练完成后，将音乐和非音乐样本输入自编码网络，并分别提取二者的embedding均值，计算单个样本和两个embedding均值的距离，同样以得分的方式和其余两个特征融合；最终，将三个得分加权，可以判断预测样本是否属于音乐噪声，进而进行过滤或保留。

以一个具体实施例进行说明，上述的基于多特征融合的音乐噪声样本过滤方法，可以如图2所示，包括如下步骤：

S1：搜集音乐样本和噪声样本，其中，噪声样本由非音乐的多种噪声组成，包含：场景噪声、无关人声、乐器噪声等。

S2：分别提取音乐样本的过零率和噪声样本的过零率；

其中，过零率表示每一帧信号通过零点的次数，是信号随机性的体现。其中，噪声信号和音乐信号相比，更加随机、没有规律，因此噪声信号的过零率会更高。假设所有音乐样本的过零率均值为m1,所有噪声样本的过零率均值为m2，则可以设置过零率阈值a＝(m1+m2)/2。在预测阶段，如果待预测样本的过零率大于a，则可以设置得分为-1，过零率小于a，则可以设置得分为1。

S3：分别提取音乐样本的频谱质心方差和噪声样本的频谱质心方差。

其中，频谱质心是描述音色属性的重要物理参数之一，是频率成分的重心，每一帧可以提取一个频谱质心点，表示该帧频率的主要成分。因此，一段音频可以分为多帧，提取出一个频谱质心序列。频谱质心序列对于单音乐器噪声具有很强的区分能力，因为乐器噪声没有旋律，频谱局域波动小，频谱质心序列相对平稳。此外，噪声样本也一般集中在低频，频谱质心序列也比音乐稳定。因此，计算所有音乐样本的频谱质心方差，并求取均值n1，计算所有噪声样本的频谱质心方差，并求取均值n2。二者均值b＝(n1+n2)/2。在预测阶段，如果待预测样本的频谱质心方差大于b，则可以设置得分为1，小于b，则可以设置为-1。

在实际实现的时候，还可以采用计算频谱成分均值的方式，来替代计算频谱质心方差。

S4：训练自编码网络，具体的：

从训练样本中随机抽取音乐-音乐样本对和噪声-噪声样本对，选择样本对中的一个，提取频谱特征梅尔频率倒谱系数特征(MFCC)并输入到网络中，在输出层得到embeddingx’，和另一个样本的原始MFCC特征x计算损失函数：

其中，损失函数为二者的欧式距离，表示频谱空间的映射关系，音乐样本之间的映射和噪声样本之间的映射都是距离越小越好，将网络训练至L收敛，保存训练得到的网络。在实现的时候，除了选用欧式距离作为损失函数之外，还可以选择余弦距离作为损失函数。

其中，上述自编码网络可以是卷积自编码网络，也可以是全连接自编码网络，也可以采用其它的频谱特征替换MFCC特征。

将所有音乐样本和噪声样本输入网络，分别计算音乐样本的embedding均值emb1和噪声样本的embedding均值emb2，这两个embedding表示两者特征空间的位置。

在预测阶段，提取预测样本的MFCC特征，将提取的MFCC特征输入至上述训练得到的网络，得到embedding，计算当前embedding和emb1、emb2之间的欧式距离，如果和emb1的距离更近，则设置得分为1，否则设置得分为-1。

S5：按照如下公式计算三者的加权得分，得到最终的总得分：

Score＝k1*score1+k2*score2+k3*score3。

其中，score1表示步骤S2中的得分，score2表示步骤S3中的得分，score3表示步骤S4中的得分，k1、k2、k3分别表示三者的加权系数，可以控制三种特征在最终得分的比重。

如果Score大于0，则判断为音乐，如果Score小于等于0，则判断为噪声。

然而，值得注意的是，上述的得分取值和取值的设定仅是一种示例性描述，在实际实现的时候，可以采用其它的数值作为得分取值，例如，上述取值为1的可以设置为取值为-1，取值为-1的可以设置为1，相应的，判断方式也进行转换，上述取值还可以是按照10、-10等进行取值，对于得分的具体取值方式本申请不做限定，可以根据需求和情况设定。

在上例中，提出了一种基于多特征融合的音乐噪声样本过滤方法，从噪声样本的特性出发，采用了多种有效的特征，不依赖于复杂多样的噪声样本来构建特征空间，因此实现起来更为高效且快捷，且相比于二分类噪声过滤方法，本例通过噪声和音乐在频谱空间和时域空间的特性差异，利用了过零率和频谱质心方差进行区分，为了描述潜在的特征空间分布，采用自编码网络的方式对潜在特征进行学习，用embedding中心对二者进行区分，最终得分采用加权融合的方式，使得三种特征在不同场景下的比重可以灵活改动，让噪声过滤更加灵活。

本发明实施例提供一种音乐噪声样本过滤方法和装置以及相关的电子设备和存储介质。该音乐噪声样本过滤方法可以借助于一个或多个计算机、如终端、比如移动终端、例如智能手机实施。在一些实施例中，所述音乐噪声样本过滤装置可以由软件、硬件或软硬件结合实现。

在如图3所示的示例性实施例中，还提供了一种音乐噪声样本过滤装置300。所述音乐噪声样本过滤处理装置300可包括：

获取模块310，用于获取待处理音乐样本；

提取模块320，用于提取所述待处理音乐样本在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征；

确定模块330，用于对所述在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征进行加权融合处理，确定目标得分；

过滤模块340，用于在所述目标得分满足预设条件、即所述待处理音乐样本为音乐噪声的情况下，对所述待处理音乐样本进行过滤。

在一个实施方式中，上述确定模块303具体可以包括：第一计算单元，用于计算所述在时域空间的表征特征的第一得分；第二计算单元，用于计算所述在频谱空间的表征特征的第二得分；第三计算单元，用于计算所述在潜在空间的表征特征的第三得分；第四计算单元，用于根据预先设置的权重比例，对所述第一得分、第二得分和第三得分进行加权求和，得到目标得分；确定单元，确定所述目标得分是否满足预设条件，若所述目标得分满足预设条件，则确定所述待处理音乐样本为音乐噪声。

在一个实施方式中，第一计算单元具体用于提取所述待处理音乐样本的过零率；将所述过零率与预设的过零阈值进行对比；在所述过零率大于过零阈值的情况下，将第一过零值作为所述第一得分，在所述过零率不大于过零阈值的情况下，将第二过零值作为所述第一得分，其中，第一过零值表征噪声概率高，第二过零值表征噪声概率低。

在一个实施方式中，可以按照如下方式设置所述过零阈值：

获取音乐数据样本集和噪声数据样本集；

在一个实施方式中，第二计算单元具体可以用于提取所述待处理音乐样本的频谱质心方差；将所述频谱质心方差与预设的质心阈值进行对比；在所述频谱质心方差大于与预设的质心方差阈值的情况下，将第一质心值作为所述第二得分，在所述频谱质心方差不大于质心方差阈值的情况下，将第二质心值作为所述第二得分，其中，第一质心值表征噪声概率低，第二质心值表征噪声概率高。

在一个实施方式中，可以按照如下方式设置所述质心方差阈值：

获取音乐数据样本集和噪声数据样本集；

在一个实施方式中，第三计算单元具体可以用于提取所述待处理音乐样本的梅尔频率倒谱系数特征；将所述梅尔频率倒谱系数特征，输入至预先建立的自编码网络中，得到所述待处理音乐样本的embedding；计算所述待处理音乐样本的embedding与音乐embedding均值和噪声embedding均值之间的距离；在所述待处理音乐样本的embedding与音乐embedding均值距离近的情况下，将第一距离值作为所述第三得分，在所述待处理音乐样本的embedding与噪声embedding均值距离近的情况下，将第二距离值作为所述第三得分，其中，第一距离值表征噪声概率低，第二距离值表征噪声概率高。

在一个实施方式中，可以按照如下方式设置音乐embedding均值和噪声embedding均值：

获取音乐数据样本集和噪声数据样本集；

提取所述音乐数据样本集中各音乐数据样本的梅尔频率倒谱系数特征，将各音乐数据样本的梅尔频率倒谱系数特征输入预先建立的自编码网络中，得到各音乐数据样本的embedding，计算各音乐数据样本的embedding的均值，作为音乐embedding均值；

提取所述噪声数据样本集中各噪声数据样本的梅尔频率倒谱系数特征，将各噪声数据样本的梅尔频率倒谱系数特征输入预先建立的自编码网络中，得到各噪声数据样本的embedding，计算各噪声数据样本的embedding的均值，作为噪声embedding均值。

在本发明的实施例中提供了一种电子设备，其包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时实施任一根据本发明实施例的方法。另外，还可以提供实现根据本发明实施例的处理装置。

在本发明的一个优选实施例中，所述电子设备为移动终端，优选可以为手机。仅作为示例性的实现方案，图4示出了电子设备、如移动终端800的一个具体实施例的硬件结构示意图；而图5和图6示出了电子设备、如移动终端的一个具体实施例的系统结构示意图。

在所示出的实施例中，移动终端800可以包括处理器801、外部存储器接口812、内部存储器810、通用串行总线(USB)接口813、充电管理模块814、电源管理模块815、电池816、移动通信模块840、无线通信模块842、天线839和841、音频模块834、扬声器835、受话器836、麦克风837、耳机接口838、按键809、马达808、指示器807、用户标识模块(SIM)卡接口88、显示屏805、摄像装置806，以及传感器模块820等。

可以理解的是，本申请实施例示意的结构并不构成对移动终端800的具体限定。在本申请另一些实施例中，移动终端800可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

在一些实施例中，处理器801可以包括一个或一个以上处理单元。在一些实施例中，处理器801可以包括以下之一或以下至少两种的组合：应用处理器(AP)、调制解调处理器、基带处理器、图形处理器(GPU)、图像信号处理器(ISP)、控制器、存储器、视频编解码器、数字信号处理器(DSP)、基带处理器、神经网络处理器(NPU)等。不同的处理单元可以是独立的器件，也可以集成在一个或一个以上处理器中。

控制器可以是移动终端800的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器中的存储器为高速缓冲存储器。该存储器可以保存处理器刚用过或循环使用的指令或数据。如果处理器需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器801的等待时间，因而提高了系统的效率。

NPU为神经网络(NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断地自学习。

GPU为图像处理的微处理器，连接显示屏和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

数字信号处理器(ISP)用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。

在一些实施例中，处理器801可以包括一个或一个接口。接口可以包括集成电路(I2C)接口、集成电路内置音频(I2S)接口、脉冲编码调制(PCM)接口、通用异步收发传输器(UART)接口、移动产业处理器接口(MIPI)、通用输入输出(GPIO)接口、用户标识模块(SIM)接口、通用串行总线(USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对移动终端的结构限定。在本申请另一些实施例中，移动终端也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

移动终端800的无线通信功能可以通过天线839和841、移动通信模块840、无线通信模块842、调制解调处理器或基带处理器等实现。

视频编解码器用于对数字视频压缩或解压缩。

移动终端800可以通过音频模块、扬声器、受话器、麦克风、耳机接口，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。

麦克风用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风发声，将声音信号输入到麦克风。

传感器模块820可包括下述传感器中的一个或多个：

压力传感器823配置为感受压力信号，将压力信号转换成电信号。

气压传感器824用于测量气压。

磁传感器825包括霍尔传感器。

陀螺仪传感器827可以用于确定移动终端800的运动姿态。

加速度传感器828可检测移动终端800在各个方向上加速度的大小。

距离传感器829可配置为测量距离。

接近光传感器821可以包括例如发光二极管(LED)和光检测器，例如光电二极管。

环境光传感器822用于感知环境光亮度。

指纹传感器831可配置为采集指纹。

触摸传感器832可以设置于显示屏，由触摸传感器与显示屏组成触摸屏，也称“触控屏”。触摸传感器用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型，例如单击、双击、长按、轻拍、定向滑动、聚拢等等。

骨传导传感器833可以获取振动信号。

电子设备(计算机)、如移动终端的软件操作系统可以采用分层架构、事件驱动架构、微核架构、微服务架构或云架构。

本文所示的实施例以分层架构的分别以iOS和安卓操作系统平台为例，示例性说明移动终端的软件结构。但可以想到，本文的实施例可以在不同的软件操作系统中实施。

在图5所示的实施例中，本发明实施例的方案可以采用iOS操作系统。iOS操作系统采用四层架构，由上到下依次为可触摸层(Cocoa Touch layer)910、媒体层(Media layer)920、核心服务层(Core Services layer)930以及核心操作系统层(Core OS layer)940。触摸层910为应用程序开发提供了各种常用的框架并且大部分框架与界面有关，其负责用户在iOS设备上的触摸交互操作。媒体层提供应用中视听方面的技术，如图形图像、声音技术、视频以及音视频传输相关的框架等。核心服务层提供给应用所需要的基础的系统服务。核心操作系统层包含大多数低级别接近硬件的功能。

在本发明实施例中，UIKit是可触摸层910的用户界面框架，其可以以媒体层920中的众多图像框架作为支撑，包括但不限于图5中所示的核心图库(Core Graphics)、核心动画(Core Animation)、开放式图库ES(OPEN GL ES)、核心图(Core Image)、图像IO(ImageIO)、图库包(GLKit)。

图6是安卓操作系统结构示意图，本发明实施例的方案可以采用安卓操作系统。分层架构将软件分成若干个层，层间通过软件接口通信。在一些实施例中，将安卓系统分为四层，从上至下分别为应用程序层1010、应用程序框架层1020、安卓运行时(Runtime)和系统库1030、以及内核层1040。

应用程序层1010可以包括一系列应用程序包。

应用程序框架层1020为应用程序层的应用程序提供应用编程接口(API)和编程框架。应用程序框架层包括一些预先定义的函数。

窗口管理器用于管理窗口程序。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供移动终端的通信功能。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。

安卓Runtime(运行时)包括核心库和虚拟机，安卓Runtime负责安卓系统的调度和管理。核心库包含两部分：一部分是java语言要调用的功能函数，另一部分是安卓的核心库。应用程序层和框架层运行在虚拟机中。

系统库可以包括多个功能模块。表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4、H.264、MP3、AAC、AMR、JPG、PNG等。

内核层1040是硬件和软件之间的层。内核层可包含显示驱动、摄像头驱动、音频接口、传感器驱动、电源管理和GPS接口。在本发明的一些实施例中，的显示可以调用显示驱动。

上述实施例阐明的系统、装置、模块或单元，可以由电子设备(计算机)或其关联部件实现，优选由移动终端实现。移动终端例如可以为智能电话、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备或者其组合。

尽管未示出，在一些实施例中还提供一种存储介质，存储有计算机程序。计算机程序配置成被运行时执行任一本发明实施例的方法。

在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本领域技术人员可想到，上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现，可以用软件、硬件和软/硬件结合的方式实现。

除非明确指出，根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本文中，针对本发明的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中，“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本发明的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims

1.一种音乐噪声样本过滤方法，其特征在于，包括：

获取待处理音乐样本；

提取所述待处理音乐样本在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征，所述潜在空间为低维特征空间；

对所述在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征进行加权融合处理，确定目标得分；若所述目标得分满足预设条件，则所述待处理音乐样本为音乐噪声，对所述待处理音乐样本进行过滤。

2.根据权利要求1所述的方法，其特征在于，对所述在时域空间的表征特征、在频谱空间的表征特征和在潜在空间的表征特征进行加权融合处理，确定目标得分，包括：

计算所述在时域空间的表征特征的第一得分；

计算所述在频谱空间的表征特征的第二得分；

计算所述在潜在空间的表征特征的第三得分；

3.根据权利要求2所述的方法，其特征在于，在时域空间的表征特征为过零率的情况下，计算所述在时域空间的表征特征的第一得分，包括：

提取所述待处理音乐样本的过零率；

将所述过零率与预设的过零阈值进行对比；

4.根据权利要求3所述的方法，其特征在于，按照如下方式设置所述过零阈值：

获取音乐数据样本集和噪声数据样本集；

5.根据权利要求2所述的方法，其特征在于，在频谱空间的表征特征为频谱质心方差的情况下，计算所述在频谱空间的表征特征的第二得分，包括：

提取所述待处理音乐样本的频谱质心方差；

将所述频谱质心方差与预设的质心阈值进行对比；

6.根据权利要求5所述的方法，其特征在于，按照如下方式设置所述质心方差阈值：

获取音乐数据样本集和噪声数据样本集；

7.根据权利要求2所述的方法，其特征在于，在潜在空间的表征特征为嵌入层输出的情况下，计算所述在潜在空间的表征特征的第三得分，包括：

提取所述待处理音乐样本的梅尔频率倒谱系数特征；

8.根据权利要求7所述的方法，其特征在于，按照如下方式设置音乐嵌入层输出均值和噪声嵌入层输出均值：

获取音乐数据样本集和噪声数据样本集；

9.一种电子设备，其特征在于，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行权利要求1至8中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行权利要求1至8中任一项所述的方法。