CN110739006A

CN110739006A - 音频处理方法、装置、存储介质及电子设备

Info

Publication number: CN110739006A
Application number: CN201910985330.3A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-01-31
Anticipated expiration: 2039-10-16
Also published as: CN110739006B

Abstract

本申请公开了一种音频处理方法、装置、存储介质及电子设备。该音频处理方法包括：获取伴奏音频；提取该伴奏音频的音频特征，该音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA‑PLP特征、PLP特征以及频谱滚降特征中的至少一种；将该音频特征输入至预设模型，并获取该预设模型的输出结果，该预设模型为经过机器学习的模型；根据该输出结果，确定该伴奏音频的品质等级。本申请可以有效地确定伴奏的品质。

Description

音频处理方法、装置、存储介质及电子设备

技术领域

本申请属于音频技术领域，尤其涉及一种音频处理方法、装置、存储介质及电子设备。

背景技术

由于早期音频处理技术的局限性，很多歌曲在录制的过程中，无法对伴奏进行单独的录制，从而使得发行的原版歌曲中混有歌手的声音。为了获取到这些原版歌曲中的伴奏，相关技术中可以利用人声分离等消音处理技术对原版歌曲进行消音处理，从而得到歌曲消音后的伴奏。然而，相关技术中无法对歌曲消音后得到的伴奏的品质进行评价。

发明内容

本申请实施例提供一种音频处理方法、装置、存储介质及电子设备，可以有效地确定伴奏的品质。

本申请实施例提供一种音频处理方法，包括：

获取伴奏音频；

提取所述伴奏音频的音频特征，所述音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种；

将所述音频特征输入至预设模型，并获取所述预设模型的输出结果，所述预设模型为经过机器学习的模型；

根据所述输出结果，确定所述伴奏音频的品质等级。

本申请实施例提供一种音频处理装置，包括：

获取单元，用于获取伴奏音频；

提取单元，用于提取所述伴奏音频的音频特征，所述音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种；

输入单元，用于将所述音频特征输入至预设模型，并获取所述预设模型的输出结果，所述预设模型为经过机器学习的模型；

确定单元，用于根据所述输出结果，确定所述伴奏音频的品质等级。

本申请实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行本申请实施例提供的音频处理方法。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本申请实施例提供的音频处理方法。

本申请实施例中，电子设备可以从待评价的伴奏音频中提取谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种音频特征，并将提取到的这些音频特征输入至经过学习训练的预设模型中，以得到该预设模型的输出结果，并根据该输出结果确定伴奏音频的品质等级。即，本申请实施例利用音频特征与机器学习可以有效地、客观地确定出伴奏音频的品质等级。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的音频处理方法的流程示意图。

图2是本申请实施例提供的音频处理方法的第二种流程示意图。

图3是本申请实施例提供的音频处理方法的第三种流程示意图。

图4A至图4C是本申请实施例提供的音频处理方法的场景示意图。

图5是本申请实施例提供的音频处理装置的结构示意图。

图6是本申请实施例提供的电子设备的结构示意图。

图7是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图示，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

可以理解的是，本申请实施例的执行主体可以是诸如智能手机或平板电脑等的电子设备。

请参阅图1，图1是本申请实施例提供的音频处理方法的流程示意图，流程可以包括：

101、获取伴奏音频。

伴奏是指伴随衬托歌曲的器乐演奏。由于早期音频处理技术的局限性，很多歌曲在录制的过程中，无法对伴奏进行单独的录制，从而使得发行的原版歌曲中混有歌手的声音。为了获取到这些原版歌曲中的伴奏，相关技术中可以采用后期人工重新制作伴奏或者利用人声分离等消音处理技术对原版歌曲进行消音处理，从而得到歌曲消音后的伴奏。但是，由于后期人工重新制作伴奏的成本高昂，只有少数歌曲会采用这种方式。而人声分离等消音处理技术由于其具有成本较低、处理效率高等优点，被广泛应用于获取原版歌曲的伴奏。然而，相关技术中无法对歌曲消音后得到的伴奏的品质进行客观地评价。

在本申请实施例中，比如，电子设备可以获取需要进行品质评价的伴奏音频。

102、提取伴奏音频的音频特征，该音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种。

比如，在获取到待评价的伴奏音频后，电子设备可以提取该伴奏音频的音频特征，其中，电子设备提取的音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种。即，电子设备可以获取待评价的伴奏音频的谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的一种或两种及以上的音频特征。

比如，电子设备可以获取伴奏音频的谐波强度在时间上的连续性特征。或者，电子设备可以获取伴奏音频的谐波强度在时间上的连续性特征以及突变的静音区域特征。或者，电子设备可以获取伴奏音频的谐波强度在时间上的连续性特征、突变的静音区域特征以及梅尔频谱特征。或者，电子设备可以获取伴奏音频的谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征，等等，本实施例对此不作具体限定。

需要说明的是，谐波强度在时间上的连续性特征是指伴奏的每一帧信号的基频和谐波能量在时间上的连续性，其反映了伴奏的品质高低。当一首伴奏中的谐波能量在时间上断断续续的越多，它的听感就越不和谐，该伴奏趋于品质较低的类型。反之，谐波能量在时间上的连续性或延展性出现的概率越多，伴奏的听感就越悠扬，该伴奏趋于品质较高的类型。

关于突变的静音区域特征，在使用消音处理技术对歌曲进行消音处理以得到伴奏时，可能会产生突变的静音区域，这在听感上会表现为声音的突然消失，在能量上表现为能量的突然骤减至极小的强度，这非常影响用户听音的顺畅体验。这种突变的静音区域与正常音乐中的静音效果有本质区别。若伴奏中有突变的静音区域，则表示该伴奏的品质较低。

梅尔频谱特征(Mel Bank Features)是使用非常广泛的声音特征形式。由于人耳对声音的感知不是线性的，人耳对声音的低频比对声音的高频更加敏感。所以，常常需要将线性频谱转换到非线性的梅尔频谱。将一组频域信号通过梅尔滤波器组就可以获得梅尔频谱。

RASTA-PLP特征是指相对频谱变换-感知线性预测(Relative SpectralTransform-Perceptual Linear Prediction)。RASTA-PLP特征是一种经过修正的线性预测倒谱系数。

PLP特征是指感知线性预测系数(Perceptual Linear Predictive)。感知线性预测系数PLP是受人的听觉系统研究成果推动而导出的声学特征。

需要说明的是，音频特征极其繁多，本实施例公开的在提取伴奏音频的音频特征时，提取谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种，即本申请从繁多的音频特征里筛选出有效的音频特征并对其进行组合使用的方案作为一个整体是不容易想到的，不是本领域技术人员所熟知的。

103、将音频特征输入至预设模型，并获取该预设模型的输出结果，该预设模型为经过机器学习的模型。

比如，在提取到伴奏音频的音频特征后，电子设备可以将该音频特征输入至预设模型，并获取该预设模型的输出结果。其中，该预设模型为经过机器学习的模型。例如，该预设模型学习过歌曲伴奏的音频特征与品质等级之间的关系。

104、根据输出结果，确定伴奏音频的品质等级。

比如，在得到预设模型的输出结果后，电子设备可以根据该输出结果确定待评价的伴奏音频的品质等级。例如，电子设备根据预设模型的输出结果将伴奏音频的品质等级确定为高品质等级。或者，电子设备根据预设模型的输出结果将伴奏音频的品质等级确定为低品质等级。或者，电子设备根据预设模型的输出结果将伴奏音频的品质等级确定为一级(如对应于高品质)或二级(如对应于中等品质)或三级(如对应于低品质)，等等。

需要说明的是，高品质等级的伴奏音频是指当这些伴奏音频播放时其听起来自然，人声少，器乐声音多，接近于原版伴奏。低品质等级的伴奏音频是指当这些伴奏音频播放时其听起来不自然，人声较多，器乐声音较少，甚至人声遮盖了器乐声音。中品质等级的伴奏则是指品质介于高品质与低品质之间的伴奏。

可以理解的是，本申请实施例中，电子设备可以从待评价的伴奏音频中提取谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种音频特征，并将提取到的这些音频特征输入至经过学习训练的预设模型中，以得到该预设模型的输出结果，并根据该输出结果确定伴奏音频的品质等级。即，本申请实施例利用音频特征与机器学习可以有效地、客观地确定出伴奏音频的品质等级。

请参阅图2，图2为本申请实施例提供的音频处理方法的第二种流程示意图。图2所示的流程用于训练得到预设模型，流程可以包括：

201、电子设备获取多个训练样本，各训练样本包括伴奏样本对应的音频特征以及标签信息，该标签信息用于表示伴奏样本的品质等级。

比如，开始模型训练之前，电子设备可以先获取多个训练样本，其中各训练样本可以包括伴奏样本对应的音频特征以及该伴奏样本对应的标签信息，该标签信息可以为用于表示该伴奏样本的品质等级的信息。

例如，训练样本A的数据可以表示成<F₁₁，F₁₂，F₁₃，F₁₄，F₁₅，F₁₆,1>，其中，F₁₁、F₁₂、F₁₃、F₁₄、F₁₅、F₁₆表示训练样本A的各音频特征，1则表示训练样本A对应的伴奏样本的品质等级。在一些实施方式中，当把伴奏的品质等级划分为高品质等级和低品质等级时，对于品质等级高的伴奏样本可以用数值1表示，品质等级低的伴奏样本可以用数值0表示。那么，训练样本A表示一个品质等级高的伴奏样本。又如，训练样本B的数据可以表示成<F₂₁，F₂₂，F₂₃，F₂₄，F₂₅，F₂₆,0>，其中，F₂₁、F₂₂、F₂₃、F₂₄、F₂₅、F₂₆表示训练样本B的各音频特征，0则表示训练样本B对应的伴奏样本的品质等级。即，训练样本B为一个品质等级低的伴奏样本。

当然，在另一些实施方式中，当把伴奏的品质等级划分为高品质等级、中等品质等级和低品质等级时，对于品质等级高的伴奏样本可以用数值2表示，品质等级中等的伴奏样本可以用数值1，表示品质等级低的伴奏样本可以用数值0表示，等等。

202、电子设备获取模型M₀，并利用训练样本对模型M₀进行学习训练，得到模型M₁，其中，模型M₁满足预设第一条件，该预设第一条件为模型的损失函数的值小于预设第一阈值且模型的判断准确率达到预设第二阈值。

比如，在获取到多个训练样本后，电子设备可以获取一模型M₀，并利用获取到的训练样本对模型M₀进行学习，从而训练得到模型M1。其中，学习训练得到的模型M₁满足预设第一条件，该预设第一条件为模型的损失函数的值小于预设第一阈值且模型的判断准确率达到预设第二阈值。

在一种实施方式中，模型M₀可以是卷积神经网络模型等算法模型。

需要说明的是，损失函数用来估量模型的预测值f(x)与真实值Y的不一致程度。神经网络的学习训练的过程就是通过梯度下降或者其它优化算法最小化损失函数的过程。

在利用训练样本对模型M₀进行训练的过程中，电子设备可以检测经过训练的模型M₀的损失函数的值是否小于预设第一阈值并且检测经过训练的模型M₀的判断准确率(或称之为预测准确率)达到预设第二阈值(如90％或93％等)。

如果检测到经过训练的模型M₀的损失函数的值不小于预设第一阈值，或者检测到经过训练的模型M₀的判断准确率尚未达到预设第二阈值，那么电子设备可以继续利用训练样本对模型M₀进行训练，如电子设备可以调节一些学习参数等对模型M₀继续进行训练。

如果检测到经过训练的模型M₀的损失函数的值小于预设第一阈值并且检测到经过训练的模型M₀的判断准确率达到预设第二阈值，那么可以认为已经训练得到一个符合基本性能要求的模型，电子设备可以将此时的模型确定为模型M₁。

203、电子设备获取由模型M₀训练得到模型M₁的过程中学习到的第一训练参数。

比如，在确定出模型M₁后，电子设备可以获取由模型M₀训练得到模型M₁的过程中学习到的第一训练参数。可以理解的是，该第一训练参数即表示一套比较好的、符合基本性能要求的学习训练参数。例如，该第一训练参数可以包括诸如学习率、神经网络的层数等等，本申请实施例对此不做具体限定。

204、电子设备获取多个验证样本，并利用模型M_i对验证样本进行判断，并在判断错误时将对应的验证样本确定为复核样本，其中，i为大于或等于1的整数，每经过一轮验证i的数值递增1。

205、电子设备更改目标样本的标签信息，并记录该目标样本，该目标样本为标签信息有误的复核样本。

206、电子设备基于更改标签信息后的目标样本选取新的训练样本。

207、电子设备利用第一训练参数以及新的训练样本，对模型M₀进行学习训练，得到模型M_j，其中，模型M_j满足预设第一条件，j为大于或等于2的整数，每经过一轮学习j的数值递增1。

208、在得到模型M_j后，电子设备触发执行获取多个验证样本及其后的步骤，直至最近得到的预设数量的模型之间的判断准确率的差距小于预设第三阈值，并将最新得到的模型确定为第一目标模型。

比如，204、205、206、207以及208可以包括：

在训练得到模型M₁之后，电子设备可以利用模型M_i对验证样本进行判断，并在判断错误时将判断错误的验证样本确定为复核样本，其中，i为大于或等于1的整数，每经过一轮验证i的数值递增1。即，模型M_i从模型M₁开始，每进行过一轮验证i的数值递增1。即，第一轮验证用得是模型M₁，第二轮验证用得是模型M₂，第三轮验证用得是模型M₃，等等，依次类推。

比如，在训练得到模型M₁之后，电子设备可以获取多个验证样本，并利用模型M₁对验证样本进行判断(即第一轮验证)，以及在判断错误时将判断错误的验证样本确定为复核样本。

在得到复核样本后，可以对复核样本进行人工复核，以检查这些样本的标签信息是否有误。需要说明的是，训练样本的标签信息(即样本对应的伴奏的品质等级信息)可以是人工标定的。因此，训练样本的标签信息可能被标错。例如，训练样本C对应的伴奏的品质等级为高品质，但人工标定的时候发生错误将其标定为低品质。因此，在得到复核样本后，可以通过人工复核来检查这些复核样本是否标错了标签信息。

如果复核样本没有标错标签信息，那么可以不对这些复核样本的标签信息进行更改。

如果复核样本确实是标错标签信息，那么可以对这些复核样本的标签信息进行更改。比如，人工可以通过电子设备将标签信息有误的复核样本确定为目标样本并记录，以及更改这些目标样本的标签信息。例如，将样本C的标签信息由数值0更改为数值1，即由低品质更改为高品质。

在对目标样本的标签信息进行更改后，电子设备可以基于更改标签信息后的目标样本重新选取新的训练样本。比如，电子设备原有共10000条样本，其中8000条样本为训练样本，2000条样本为验证样本。那么，在对目标样本的标签信息进行更改后，电子设备可以从这10000条样本中重新选取8000条样本作为训练样本，另外2000条样本则作为验证样本。可以理解的是，重新选取的这8000条样本可能包含了目标样本中的全部或部分或不包含任何一条目标样本。

在重新选取了新的训练样本后，电子设备可以利用第一训练参数以及该新的训练样本对模型M₀进行学习训练，得到模型M_j，其中，模型Mj满足预设第一条件，j为大于或等于2的整数，每经过一轮学习j的数值递增1。

例如，在重新选取了新的训练样本后，电子设备可以利用第一训练参数以及该新的训练样本对模型M₀进行学习训练，得到新的模型M₂。可以理解的是，由于新训练得到的模型M₂利用了第一训练参数以及新的训练样本，而新的训练样本可信度高于之前训练模型M1时使用的训练样本的可信度(因为目标样本的标签信息更改正确了)。因此，模型M₂的判断准确率会高于模型M₁。

在得到模型M₂之后，可以触发电子设备执行204中的获取多个验证样本及其后的步骤，直至最近得到的预设数量的模型之间的判断准确率的差距小于预设第三阈值。此时，电子设备可以将最新训练得到的模型确定为第一目标模型。

例如，在得到模型M₂之后，电子设备可以获取多个验证样本，并利用模型M₂对验证样本进行判断(即第二轮验证)，以及在判断错误时将判断错误的验证样本确定为复核样本。

在得到复核样本后，可以对复核样本进行人工复核，以检查这些样本的标签信息是否有误。

如果复核样本确实是标错标签信息，那么可以对这些复核样本的标签信息进行更改。比如，人工可以通过电子设备将标签信息有误的复核样本确定为目标样本并记录，以及更改这些目标样本的标签信息。

在对目标样本的标签信息进行更改后，电子设备可以基于更改标签信息后的目标样本重新选取新的训练样本。比如，在对目标样本的标签信息进行更改后，电子设备可以从这10000条样本中重新选取8000条样本作为训练样本，另外2000条样本则作为验证样本。可以理解的是，重新选取的这8000条样本可能包含了目标样本中的全部或部分或不包含任何一条目标样本。

在重新选取了新的训练样本后，电子设备可以利用第一训练参数以及该新的训练样本对模型M₀进行学习训练，得到模型M₃。

在新训练得到模型M₃之后，电子设备可以获取多个验证样本，并利用模型M₃对验证样本进行判断(即第三轮验证)，以及在判断错误时将判断错误的验证样本确定为复核样本。

在重新选取了新的训练样本后，电子设备可以利用第一训练参数以及该新的训练样本对模型M₀进行学习训练，得到模型M₄。

即，电子设备可以循环往复地对检测出的标签信息有误的样本进行更改，并重新选取训练样本进行训练，得到新模型，直至最近得到的数个模型之间的判断准确率的差距小于预设第三阈值。即，当最近得到的数个模型之间的判断准确率的差距小于预设第三阈值时，电子设备可以不再循环往复地执行如下历次：在检测出标签信息有误的样本时进行更改，并重新选取训练样本进行训练得到新模型。可以理解的是，由于电子设备每次进行新的训练所依据的训练样本的可信度不断提升，因此电子设备新训练得到的模型的判断准确率也会不断提升，但越到后面训练得到的模型其判断准确率的提升会越来越小，即训练得到的模型的判断准确率是呈螺旋式上升的。并且，越到后面训练得到的模型其判断准确率提升到一定程度后会保持相对稳定。例如，训练得到的模型M₈、M₉、M₁₀、M₁₁的判断准确率依次为95.3％、95.2％、95.5％、95.4％，即模型M₈、M₉、M₁₀、M₁₁的判断准确率稳定在95.5％左右，而难以继续提升。相比较而言从模型M₁至模型M₈，模型的判断准确率会提升得比较明显，例如模型M₁的判断准确率为93％，模型M₂的判断准确率为93.4％，模型M₃的判断准确率为93.8％，模型M₄的判断准确率为94.2％，模型M₅的判断准确率为94.5％，模型M₆的判断准确率为94.7％，模型M₇的判断准确率为94.9％，模型M₈的判断准确率为95.3％，等等。在这种情况下，可以认为模型训练已经完成，此时电子设备可以将最新训练得到的模型M₁₁确定为第一目标模型。

209、电子设备利用第一目标模型对记录的目标样本进行再次判断，并将再次判断错误的目标样本删除。

210、在删除再次判断错误的目标样本后，电子设备选取新的目标训练样本，并利用第一训练参数以及新的目标训练样本，对模型M₀进行学习训练，得到第二目标模型，并将该第二目标模型确定为预设模型。

比如，209和210可以包括：

比如，电子设备训练得到了模型M₁₁，并将模型M₁₁确定为第一目标模型。之后，电子设备可以利用模型M₁₁对之前记录到的目标样本(即标签信息有误并更改之后的样本)进行再次判断，并将再次判断错误的目标样本删除。可以理解的是，此类再次判断错误的目标样本可以认为是很难正确判断其品质的样本，例如这类样本可能是品质介于高品质和低品质之间的样本。

在将再次判断错误的目标样本删除之后，电子设备可以选取新的目标训练样本，并利用第一训练参数以及该目标训练样本对模型M₀进行学习训练，得到一新的模型，即第二目标模型。例如，在最后一次进行模型训练时，当模型的判断准确率位于上一次训练得到的模型(如M₁₁)的判断准确率的预设范围内时，表示模型训练完成。例如，当模型的判断准确率达到95.5％左右，或者位于95.3％至95.6％之间时表示模型训练完成，得到第二目标模型。之后，电子设备可以将该第二目标模型确定为预设模型。

可以理解的是，本申请实施例中，电子设备可以通过多轮的验证筛选出标签信息有误的样本并对其进行更正，并基于更正后的样本进行模型训练，从而可以得到判断准确率更高的模型。

请参阅图3，图3为本申请实施例提供的音频处理方法的第三种流程示意图。图3所示可以为电子设备获取训练样本的流程示意图，流程可以包括：

301、电子设备获取多个样本音频，该样本音频为消音后的歌曲伴奏。

比如，电子设备可以先获取多个样本音频，其中该样本音频为消音后的歌曲伴奏。即，电子设备可以先获取很多各样本音频，例如，电子设备可以获取8000条样本音频(歌曲伴奏)。

302、对每一样本音频，电子设备截取第一播放时间点至第二播放时间点之间的音频部分，并将其确定为伴奏样本，其中，对于播放时长达不到第二播放时间点的样本音频进行数据补零处理，以使伴奏样本的时间长度达到预设时长，该预设时长为第一播放时间点与第二播放时间点相差的时长。

比如，在获取到样本音频后，对于每一个样本音频，电子设备可以截取第一播放时间点至第二播放时间点之间的音频部分，并这段音频部分确定为伴奏样本。

例如，第一播放时间点为第30秒，第二播放时间点为第210秒。那么，对于每一个样本音频，电子设备可以截取第30秒至第210秒之间的音频部分，并将这部分音频确定为对应的伴奏样本。即，对于每一样本音频，电子设备可以将开头的30秒截掉。

需要说明的是，之所以将每一样本音频的开头30秒截掉，是因为很多歌曲在开头30秒内一般以伴奏开始，人声较少。对于品质较好和品质较差的歌曲伴奏，开头30秒内的这段伴奏由于较少的人声很难体现出品质的差异性，因此在数据读取时予以跳过，从而可以使后续得到的伴奏样本的品质分级更准确，进而提升最终训练得到的模型的品质分级的准确度。

其中，每一伴奏样本的时间长度可以为预设时长，该预设时长为第一播放时间点与第二播放时间点相差的时长。例如，第一播放时间点为30秒，第二播放时间点为210秒，那么它们之间相差的时长为180秒。即，每段伴奏样本的时长可以为180秒。

在从样本音频中截取对应的伴奏样本时，对于播放时长达不到第二播放时间点的样本音频可以对其进行数据补零处理，从而使每一伴奏样本都具有相同维度的音频特征。

303、电子设备提取伴奏样本的音频特征，该音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种，在提取音频特征时每个音频帧的长度包含N1个采样点，且前后两个音频帧的重叠率为N2，N1和N2均为正数。

比如，在得到伴奏样本后，电子设备可以提取每一伴奏样本的音频特征。其中，该音频特征可以包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种。

并且，在提取音频特征时，每个音频帧的长度可以包含N1个采样点，且前后两个音频帧的重叠率为N2，N1和N2均为正数。例如，N1为4096，N2为25％。即，在提取音频特征时，每个音频帧的长度为4096个采样点，前后两个音频帧的重叠率为25％。当然，N1和N2也可以为其他数值，例如，N1可以为5120，N2可以为20％，等等，本申请实施例对N1和N2的具体数值不做具体限定，只要N1和N2为正数即可。

304、电子设备获取伴奏样本的标签信息。

比如，在提取到每一伴奏样本的音频特征后，电子设备可以获取每一伴奏样本的标签信息。其中，该标签信息为用于表示伴奏样本的品质等级的信息。例如，可以预先利用人工标定的方式为伴奏样本标定品质等级，从而形成伴奏样本对应的标签信息。例如，伴奏的品质等级分为高品质等级和低品质等级。对于高品质等级的伴奏样本，可以用数字1表示，即可以将其标签信息标定为1。对于低品质等级的伴奏样本，可以用数字0表示，即可以将其标签信息标定为0。

305、电子设备将伴奏样本的音频特征和标签信息封装，得到对应的训练样本。

比如，在获取到伴奏样本的音频特征和标签信息后，电子设备可以将该伴奏样本的音频特征和标签信息封装，从而得到对应的训练样本。例如，伴奏样本A的音频特征包括F₁₁、F₁₂、F₁₃、F₁₄、F₁₅、F₁₆，伴奏样本A的标签信息为1，那么电子设备可以将伴奏样本A的音频特征和标签信息以向量的形式封装在一起，从而得到伴奏样本A的对应的训练样本，例如为<F₁₁，F₁₂，F₁₃，F₁₄，F₁₅，F₁₆,1>。

在一些实施方式中，音频特征可以是包含多行多列的矩阵，该矩阵的数据用于表示对应的音频特征。例如，F₁₁为一个包含100行1000列的矩阵，该矩阵即表示伴奏样本A的谐波强度在时间上的连续性特征。

在一种实施方式中，本实施例中的305可以包括如下流程：

电子设备对伴奏样本的音频特征进行标准化处理，得到对应的符合标准正态分布的特征；

电子设备将伴奏样本的符合标准正态分布的特征和标签信息封装，得到对应的训练样本。

比如，对于每一伴奏样本，在提取到其音频特征后，电子设备可以对该伴奏样本的音频特征进行标准化处理，从而得到对应的符合标准正态分布的特征。之后，电子设备可以将该伴奏样本的符合标准正态分布的特征和标签信息疯转，从而得到对应的训练样本。

那么，电子设备在训练模型时，为模型输入的是符合标准正态分布的特征。那么，在应用训练好的模型来判断待评价的伴奏音频的品质等级时，在获取到该待评价的伴奏音频的音频特征后，也需要将该音频特征进行标准化处理，得到对应的符合标准正态分布的特征，然后再将该待评价的伴奏音频的符合标准正态分布的特征作为输入数据，输入至预设模型，从而利用该预设模型来判断该待评价的伴奏音频的品质等级。

在一种实施方式中，本实施例可以通过如下方式来获取用于训练的样本音频和用于验证的样本音频。比如，电子设备可以预先获取一定数量的样本音频(歌曲消音后的伴奏)，例如为10000个样本音频。这些样本音频的格式、大小、声道数等可以不限。例如，样本音频的格式可以是mp3、flac、wav、ogg等等。样本音频可以是单声道、双声道或者多声道等等。

在获取到一定数量的样本音频后，电子设备可以按照8:2的比例随机抽取样本音频分为训练集和验证集。例如，样本音频一共有10000个，那么训练集中可以包含8000个样本音频，验证集中可以包含2000个样本音频。此外，训练集和验证集中的样本音频中正负样本的比例可以为1:1。这样有利于后续神经网络模型的训练。即，训练集中的8000个样本音频中可以包含4000个品质较高的样本音频以及4000个品质较低的样本音频。验证集中可以包含1000个品质较高的样本音频以及1000个品质较低的样本音频。

在划分出训练集和验证集后，电子设备可以分别对训练集中的样本音频执行上述301至305的流程，从而得到对应的训练样本。此外，电子设备也可以对验证集中的样本音频执行如下流程，从而得到对应的验证样本：电子设备获取多个样本音频，该样本音频为消音后的歌曲伴奏。对每一样本音频，电子设备截取第一播放时间点至第二播放时间点之间的音频部分，并将其确定为伴奏样本，其中，对于播放时长达不到第二播放时间点的样本音频进行数据补零处理，以使伴奏样本的时间长度达到预设时长，该预设时长为第一播放时间点与第二播放时间点相差的时长。电子设备提取伴奏样本的音频特征，该音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种，在提取音频特征时每个音频帧的长度包含N1个采样点，且前后两个音频帧的重叠率为N2，N1和N2均为正数。电子设备获取伴奏样本的标签信息。电子设备将伴奏样本的音频特征和标签信息封装，得到对应的验证样本。

其中，在确定伴奏样本的标签信息时，若将伴奏样本按照品质高低分为2类，则可以将较高品质的伴奏样本的标签标定为1，将较低品质的伴奏样本的标签标定为0。其中，较高品质是指在人耳的听感上，伴奏听起来人声基本消除干净，乐器保留完整，无明显爆音、毛刺、杂音等瑕疵。而较低品质的伴奏，在听感上表现为：人声残留较多，中低频损耗较多，乐器细节浑浊，存在毛刺、杂音、爆音等瑕疵。

在本申请实施例中，用于学习训练的模型可以是卷积神经网络等模型。在建模时，模型的输入是特征维度，其激活函数为sigmoid函数。在建立多层(如8层，包括但不限于该数值)的卷积神经网络后，可以对输出层进行全局平均值池化，得到样本数量和特征数量的二维输出。之后，再使用dropout，使得在训练过程中每次更新参数时按照一定的概率随机断开输入神经元，从而防止过拟合的发生。接着，通过全连接层和激活层完成卷积神经网络的搭建。最后，在模型建立好之后，选择合适的损失函数和评估函数来对下一步的模型训练过程中的结果进行评价。本申请实施例中损失函数可以使用均方误差，评估函数可以使用平均绝对误差。当然，本实施例也可以采用其他建模方式来搭建卷积神经网络模型，本申请实施例对此不做具体限定，只要能够获得可以用于训练的卷积神经网络模型或者其他模型即可。

在其它实施方式中，也可以采用其他类型的神经网络模型，如深度信念网络(DeepBelief Networks，DBN)、深度卷积逆向图网络(Deep Convolutional Inverse GraphicsNetworks，DCIGN)、循环神经网络(Recurrent Neural Networks，RNN)，等等。

本申请实施例提供的音频处理方法可以应用在电子设备上，如智能移动终端或者云端的服务器。本申请实施例可以将多维度音频特征和机器学习神经网络相结合，利用算法的高效、稳健和准确的优势来快速、准确地实现对伴奏的品质分级。这可以使得人们能够快速获得高品质的伴奏。另外，对于数量巨大、品质不一的伴奏进行人工筛选的话成本大、效率低，本申请方案可以提供有效的解决方法，从而不仅保留了较高品质的伴奏，也节省了不必要的较低品质伴奏的获取、存储、管理等人力和经济成本，具有重要的技术和经济价值。

请参阅图4A至图4C，图4A至图4C为本申请实施例提供的音频处理方法的场景示意图。

比如，如图4A所示，电子设备可以先获取需要评价品质等级的伴奏音频S。之后，电子设备可以提取伴奏音频S的音频特征。例如，电子设别可以提取伴奏音频S的如下音频特征：谐波强度在时间上的连续性特征F₄₁、突变的静音区域特征F₄₂、梅尔频谱特征F₄₃、RASTA-PLP特征F₄₄、PLP特征F₄₅以及频谱滚降特征F₄₆。

在提取到上述音频特征后，电子设备可以将这些音频特征进行标准化处理，从而得到符合标准正态分布的特征。例如，谐波强度在时间上的连续性特征F₄₁对应的符合标准正态分布的特征为F₄₁’；突变的静音区域特征F₄₂对应的符合标准正态分布的特征为F₄₂’；梅尔频谱特征F₄₃对应的符合标准正态分布的特征为F₄₃’；RASTA-PLP特征F₄₄对应的符合标准正态分布的特征为F₄₄’；PLP特征F₄₅对应的符合标准正态分布的特征为F₄₅’；频谱滚降特征F₄₆对应的符合标准正态分布的特征为F₄₆’。

之后，电子设备可以将这些符合标准正态分布的音频特征输入至预设模型，其中该预设模型为经过学习训练的卷积神经网络模型，用于学习训练的样本数据包括伴奏样本的符合标准正态分布的音频特征与标签信息，其中该标签信息表示该伴奏样本的品质等级。

之后，电子设备可以获取该预设模型的输出结果，并根据该输出结果，确定待评价的伴奏音频的品质等级。例如，预设模型的输出结果为1，则表示该待评价的伴奏音频为高品质的伴奏。若预设模型的输出结果为0，则表示该待评价的伴奏音频为低品质的伴奏。

当上述电子设备为诸如智能手机等智能移动终端时，电子设备可以将对伴奏音频的品质评价结果显示在移动终端的显示屏上用户查看，如图4B所示。

当上述电子设备为诸如服务器等云端设备时，电子设备可以从移动终端处接收待评价的伴奏音频的数据，并将对伴奏音频的品质评价结果反馈给移动终端，移动终端则可以在其显示屏上显示服务器返回的评价结果供用户查看，如图4C所示。

请参阅图5，图5为本申请实施例提供的音频处理装置的结构示意图。音频处理装置500可以包括：获取单元501，提取单元502，输入单元503，确定单元504。

获取单元501，用于获取伴奏音频。

提取单元502，用于提取所述伴奏音频的音频特征，所述音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种。

输入单元503，用于将所述音频特征输入至预设模型，并获取所述预设模型的输出结果，所述预设模型为经过机器学习的模型。

确定单元504，用于根据所述输出结果，确定所述伴奏音频的品质等级。

在一种实施方式中，所述获取单元501还可以用于：

获取多个训练样本，各所述训练样本包括伴奏样本对应的音频特征以及标签信息，所述标签信息用于表示伴奏样本的品质等级；

获取模型M₀，并利用所述训练样本对所述模型M₀进行学习训练，得到模型M₁，其中，所述模型M₁满足预设第一条件，所述预设第一条件为模型的损失函数的值小于预设第一阈值且模型的判断准确率达到预设第二阈值；

获取由所述模型M₀训练得到所述模型M₁的过程中学习到的第一训练参数；

获取多个验证样本，并利用模型M_i对所述验证样本进行判断，并在判断错误时将对应的验证样本确定为复核样本，其中，i为大于或等于1的整数，每经过一轮验证i的数值递增1；

更改目标样本的标签信息，并记录所述目标样本，所述目标样本为标签信息有误的复核样本；

基于更改标签信息后的目标样本选取新的训练样本；

利用所述第一训练参数以及新的训练样本，对所述模型M₀进行学习训练，得到模型M_j，其中，所述模型Mj满足所述预设第一条件，所述j为大于或等于2的整数，每经过一轮学习j的数值递增1；

在得到模型M_j后，触发执行所述获取多个验证样本及其后的步骤，直至最近得到的预设数量的模型之间的判断准确率的差距小于预设第三阈值，并将最新得到的模型确定为第一目标模型；

利用所述第一目标模型对记录的目标样本进行再次判断，并将再次判断错误的目标样本删除；

在删除再次判断错误的目标样本后，选取新的目标训练样本，并利用所述第一训练参数以及新的目标训练样本，对所述模型M₀进行学习训练，得到第二目标模型；

将所述第二目标模型确定为预设模型。

在一种实施方式中，所述获取单元501还可以用于：

获取多个样本音频，所述样本音频为消音后的歌曲伴奏；

对每一样本音频，截取第一播放时间点至第二播放时间点之间的音频部分，并将其确定为伴奏样本；

根据所述伴奏样本获取训练样本，得到多个训练样本。

在一种实施方式中，所述获取单元501还可以用于：

对每一样本音频，截取第一播放时间点至第二播放时间点之间的音频部分，并将其确定为伴奏样本，其中，对于播放时长达不到所述第二播放时间点的样本音频进行数据补零处理，以使伴奏样本的时间长度达到预设时长，所述预设时长为所述第一播放时间点与所述第二播放时间点相差的时长。

在一种实施方式中，所述获取单元501还可以用于：

提取所述伴奏样本的音频特征，所述音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种；

获取所述伴奏样本的标签信息；

将所述伴奏样本的音频特征和标签信息封装，得到对应的训练样本。

在一种实施方式中，所述获取单元501还可以用于：

提取所述伴奏样本的音频特征，其中，在提取音频特征时每个音频帧的长度包含N1个采样点，且前后两个音频帧的重叠率为N2，N1和N2均为正数。

在一种实施方式中，所述获取单元501还可以用于：将所述伴奏样本的音频特征和标签信息封装，得到对应的训练样本，包括：对所述伴奏样本的音频特征进行标准化处理，得到对应的符合标准正态分布的特征；将所述伴奏样本的符合标准正态分布的特征和标签信息封装，得到对应的训练样本；

那么，所述输入单元503可以用于：对各所述音频特征进行标准化处理，得到各所述音频特征对应的符合标准正态分布的特征；将各所述音频特征对应的符合标准正态分布的特征作为输入数据，输入至预设模型。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如本实施例提供的音频处理方法中的流程。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本实施例提供的音频处理方法中的流程。

例如，上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图6，图6为本申请实施例提供的电子设备的结构示意图。

该电子设备600可以包括存储器601、处理器602等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器601可用于存储应用程序和数据。存储器601存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器602通过运行存储在存储器601的应用程序，从而执行各种功能应用以及数据处理。

处理器602是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器601内的应用程序，以及调用存储在存储器601内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备中的处理器602会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器601中，并由处理器602来运行存储在存储器601中的应用程序，从而执行：

获取伴奏音频；

根据所述输出结果，确定所述伴奏音频的品质等级。

请参阅图7，电子设备700可以包括存储器601、处理器602、数据传输单元701、输入单元702、输出单元703等部件。

数据传输701可以用于向外发送数据或对外接收数据，从而完成数据传输功能。

输入单元702可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

输出单元703可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。输出单元可包括显示面板。

获取伴奏音频；

根据所述输出结果，确定所述伴奏音频的品质等级。

在一种实施方式中，处理器602还可以执行：获取多个训练样本，各所述训练样本包括伴奏样本对应的音频特征以及标签信息，所述标签信息用于表示伴奏样本的品质等级；获取模型M₀，并利用所述训练样本对所述模型M₀进行学习训练，得到模型M₁，其中，所述模型M₁满足预设第一条件，所述预设第一条件为模型的损失函数的值小于预设第一阈值且模型的判断准确率达到预设第二阈值；获取由所述模型M₀训练得到所述模型M₁的过程中学习到的第一训练参数；获取多个验证样本，并利用模型M_i对所述验证样本进行判断，并在判断错误时将对应的验证样本确定为复核样本，其中，i为大于或等于1的整数，每经过一轮验证i的数值递增1；更改目标样本的标签信息，并记录所述目标样本，所述目标样本为标签信息有误的复核样本；基于更改标签信息后的目标样本选取新的训练样本；利用所述第一训练参数以及新的训练样本，对所述模型M₀进行学习训练，得到模型M_j，其中，所述模型Mj满足所述预设第一条件，所述j为大于或等于2的整数，每经过一轮学习j的数值递增1；在得到模型M_j后，触发执行所述获取多个验证样本及其后的步骤，直至最近得到的预设数量的模型之间的判断准确率的差距小于预设第三阈值，并将最新得到的模型确定为第一目标模型；利用所述第一目标模型对记录的目标样本进行再次判断，并将再次判断错误的目标样本删除；在删除再次判断错误的目标样本后，选取新的目标训练样本，并利用所述第一训练参数以及新的目标训练样本，对所述模型M₀进行学习训练，得到第二目标模型；将所述第二目标模型确定为预设模型。

在一种实施方式中，处理器602执行所述获取多个训练样本时，可以执行：获取多个样本音频，所述样本音频为消音后的歌曲伴奏；对每一样本音频，截取第一播放时间点至第二播放时间点之间的音频部分，并将其确定为伴奏样本；根据所述伴奏样本获取训练样本，得到多个训练样本。

在一种实施方式中，处理器602执行所述对每一样本音频，截取第一播放时间点至第二播放时间点之间的音频部分，并将其确定为伴奏样本时，可以执行：对每一样本音频，截取第一播放时间点至第二播放时间点之间的音频部分，并将其确定为伴奏样本，其中，对于播放时长达不到所述第二播放时间点的样本音频进行数据补零处理，以使伴奏样本的时间长度达到预设时长，所述预设时长为所述第一播放时间点与所述第二播放时间点相差的时长。

在一种实施方式中，处理器602执行所述根据伴奏样本获取训练样本时，可以执行：提取所述伴奏样本的音频特征，所述音频特征包括谐波强度在时间上的连续性特征、突变的静音区域特征、梅尔频谱特征、RASTA-PLP特征、PLP特征以及频谱滚降特征中的至少一种；获取所述伴奏样本的标签信息；将所述伴奏样本的音频特征和标签信息封装，得到对应的训练样本。

在一种实施方式中，处理器602执行所述提取所述伴奏样本的音频特征时，可以执行：提取所述伴奏样本的音频特征，其中，在提取音频特征时每个音频帧的长度包含N1个采样点，且前后两个音频帧的重叠率为N2，N1和N2均为正数。

在一种实施方式中，处理器602执行将所述伴奏样本的音频特征和标签信息封装，得到对应的训练样本时，可以执行：对所述伴奏样本的音频特征进行标准化处理，得到对应的符合标准正态分布的特征；将所述伴奏样本的符合标准正态分布的特征和标签信息封装，得到对应的训练样本；

那么，处理器602执行将所述音频特征输入至预设模型时，可以执行：对各所述音频特征进行标准化处理，得到各所述音频特征对应的符合标准正态分布的特征；将各所述音频特征对应的符合标准正态分布的特征作为输入数据，输入至预设模型。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频处理方法的详细描述，此处不再赘述。

本申请实施例提供的所述音频处理装置与上文实施例中的音频处理方法属于同一构思，在所述音频处理装置上可以运行所述音频处理方法实施例中提供的任一方法，其具体实现过程详见所述音频处理方法实施例，此处不再赘述。

需要说明的是，对本申请实施例所述音频处理方法而言，本领域普通技术人员可以理解实现本申请实施例所述音频处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如所述音频处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述音频处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种音频处理方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取伴奏音频；

根据所述输出结果，确定所述伴奏音频的品质等级。

2.根据权利要求1所述的音频处理方法，其特征在于，所述方法还包括：

基于更改标签信息后的目标样本选取新的训练样本；

将所述第二目标模型确定为预设模型。

3.根据权利要求2所述的音频处理方法，其特征在于，所述获取多个训练样本，包括：

获取多个样本音频，所述样本音频为消音后的歌曲伴奏；

根据所述伴奏样本获取训练样本，得到多个训练样本。

4.根据权利要求3所述的音频处理方法，其特征在于，所述对每一样本音频，截取第一播放时间点至第二播放时间点之间的音频部分，并将其确定为伴奏样本，包括：

5.根据权利要求4所述的音频处理方法，其特征在于，所述根据伴奏样本获取训练样本，包括：

获取所述伴奏样本的标签信息；

6.根据权利要求5所述的音频处理方法，其特征在于，提取所述伴奏样本的音频特征，包括：

7.根据权利要求5所述的音频处理方法，其特征在于，将所述伴奏样本的音频特征和标签信息封装，得到对应的训练样本，包括：对所述伴奏样本的音频特征进行标准化处理，得到对应的符合标准正态分布的特征；将所述伴奏样本的符合标准正态分布的特征和标签信息封装，得到对应的训练样本；

将所述音频特征输入至预设模型，包括：对各所述音频特征进行标准化处理，得到各所述音频特征对应的符合标准正态分布的特征；将各所述音频特征对应的符合标准正态分布的特征作为输入数据，输入至预设模型。

8.一种音频处理装置，其特征在于，包括：

获取单元，用于获取伴奏音频；

9.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上执行时，使得所述计算机执行如权利要求1至7中任一项所述的方法。

10.一种电子设备，包括存储器，处理器，其特征在于，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如权利要求1至7中任一项所述的方法。