CN113077815A

CN113077815A - 一种音频评估方法及组件

Info

Publication number: CN113077815A
Application number: CN202110332939.8A
Authority: CN
Inventors: 夏志强; 吴斌; 雷兆恒; 王征韬
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-07-06
Anticipated expiration: 2041-03-29
Also published as: CN113077815B

Abstract

本申请公开了一种音频评估方法及组件，本申请从待评估的音频数据中提取出目标频域特征后，将目标频域特征输入音频评估模型，从而得到该音频数据的完播率，若完播率大于完播率阈值，则标记音频数据为优质音频。其中，目标频域特征为多个不同的频域特征的拼接，其维度相对于时频谱特征小，因此模型输入数据量得到了降低，可以有效减少计算量，同时还可以表征音频中不同频率同时出现的程度，故不会因数据量降低导致模型性能降低。故本申请可以降低音频评估模型的训练和应用成本，提高音频评估效率，以满足实用的速度和成本要求。

Description

一种音频评估方法及组件

技术领域

本申请涉及计算机技术领域，特别涉及一种音频评估方法及组件。

背景技术

目前，音频评估模型以音频的时频谱特征或统计特征作为模型输入数据。时频谱特征既包括时域信息，又包括频域信息，因此模型输入数据的数据量较大，导致音频特征复杂，从而导致评估音频时的成本高、延时大，难以满足实用的速度和成本要求。而统计特征的信息量又较少，导致模型准确度有限。

发明内容

有鉴于此，本申请的目的在于提供一种音频评估方法及组件，以降低模型的训练和应用成本，提高音频评估效率。其具体方案如下：

为实现上述目的，一方面，本申请提供了一种音频评估方法，包括：

获取待评估的音频数据；

提取所述音频数据中的目标频域特征，所述目标频域特征为多个不同的频域特征的拼接；

将所述目标频域特征输入音频评估模型，得到所述音频数据的完播率，所述完播率表示所述音频数据的播放时长和播放次数；

若所述完播率大于完播率阈值，则标记所述音频数据为优质音频。

又一方面，本申请还提供了一种音频评估装置，包括：

获取模块，用于获取待评估的音频数据；

提取模块，用于提取所述音频数据中的目标频域特征，所述目标频域特征为多个不同的频域特征的拼接；

评估模块，用于将所述目标频域特征输入音频评估模型，得到所述音频数据的完播率，所述完播率表示音频数据的播放时长和播放次数；

标记模块，用于若所述完播率大于完播率阈值，则标记所述音频数据为优质音频。

又一方面，本申请还提供了一种电子设备，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述任意方法。

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任意方法。

可见，本申请从待评估的音频数据中提取出目标频域特征后，将目标频域特征输入音频评估模型，从而得到该音频数据的完播率，若完播率大于完播率阈值，则标记音频数据为优质音频。其中，完播率表示音频数据的播放时长和播放次数。目标频域特征为多个不同的频域特征的拼接，也即：目标频域特征由多个不同的频域特征拼接而得，其维度相对于时频谱特征小，因此模型输入数据量得到了降低，可以有效减少计算量。目标频域特征还可以精简音频信息，使得音频特征得到精简，同时还可以表征音频中不同频率同时出现的程度，故不会因数据量降低导致模型性能降低。故本申请可以降低音频评估模型的训练和应用成本，提高音频评估效率，以满足实用的速度和成本要求。

相应地，本申请提供的一种音频评估组件(组件即：装置、设备或存储介质)，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种本申请适用的物理架构示意图；

图2为本申请提供的一种音频评估方法流程图；

图3为本申请提供的一种音频评估模型训练方法流程图；

图4为本申请提供的一种歌曲评估模型训练方法流程图；

图5为本申请提供的一种歌曲评估模型的结构图；

图6为本申请提供的一种音频评估模型应用流程图；

图7为本申请提供的一种音频评估装置示意图；

图8为本申请提供的一种服务器结构图；

图9为本申请提供的一种终端结构图。

具体实施方式

现有音频评估模型以音频的时频谱特征或统计特征作为模型输入数据。时频谱特征既包括时域信息，又包括频域信息，因此模型输入数据的数据量较大，导致音频特征复杂，从而导致评估音频时的成本高、延时大，难以满足实用的速度和成本要求。而统计特征的信息量又较少，导致模型准确度有限。

鉴于目前所存在的上述问题，本申请提出了一种音频评估方案，该方案能够降低音频评估模型的训练和应用成本，提高音频评估效率，以满足实用的速度和成本要求。

应理解，本申请提供的音频评估方法可以应用于具有音频评估功能的系统或程序中。具体的，具有音频评估功能的系统或程序可以运行于服务器、个人计算机等设备中。

如图1所示，图1为本申请适用的物理架构示意图。在图1中，具有音频评估功能的系统或程序可以运行于服务器，该服务器通过网络从其他终端设备中获取待评估的音频，如：歌曲、戏曲等。该服务器获取待评估的音频数据；提取音频数据中的目标频域特征，目标频域特征为多个不同的频域特征的拼接；将目标频域特征输入音频评估模型，得到音频数据的完播率，完播率表示音频数据的播放时长和播放次数；若完播率大于完播率阈值，则标记音频数据为优质音频。

如图可知，该服务器可以与多个设备建立通信连接，服务器从这些设备中获取符合训练条件的音频数据。服务器通过收集这些设备上传的音频数据，可以对音频评估模型进行训练，以获得可应用于实际的音频评估模型。之后，便可以按照本申请提供的音频评估方法评估音频的完播率。图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到音频评估的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，具体服务器数量因实际场景而定。

应当注意的是，本实施例提供的音频评估方法可以离线进行，即服务器本地存储有待评估的音频，其可以直接利用本申请提供的方案评估音频的完播率。

可以理解的是，上述具有音频评估功能的系统或程序也可以运行于个人移动终端，也可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

具体的，评估音频的完播率可以从海量歌曲中挑选出质量较好的歌曲，即：挖掘出有价值的歌曲。也可以对音乐人新发布的歌曲进行完播率评估。

结合以上共性，请参见图2，图2为本申请实施例提供的一种音频评估方法流程图。如图2所示，该方法可以包括以下步骤：

S201、获取待评估的音频数据。

其中，待评估的音频数据可以为歌曲、戏曲、影视作品配音音频等，也即本实施例可以评估任意音频数据的完播率。

S202、提取音频数据中的目标频域特征，目标频域特征为多个不同的频域特征的拼接。

在一种具体实施方式中，所述提取所述音频数据中的目标频域特征，包括：设定不同时间窗口；以所述不同时间窗口分别对所述音频数据进行短时傅里叶变换，得到不同STFT(Short-Time Fourier Transform)特征；将所述不同STFT特征相应转换为不同梅尔倒谱(Mel Spectrogram)特征；将所述不同梅尔倒谱特征相应转换为不同Gram特征；利用concat方法拼接所述不同Gram特征，得到所述目标频域特征。

可见，目标频域特征可以为多尺度Gram特征(MultiScaleMelGram)，其实质为多个尺度的Gram特征。Gram(格拉姆)特征需要输入的每一行或列表示了一种单独的特征。例如时频谱特征的每一行是该频率值下的特征。以STFT特征作为输入，则有：Gram(STFT)＝F×F^T∈R^M×M，该特征表示了音频中两两频率响应同时出现的程度。若音频为歌曲，则可以表征音乐的音色、配器、风格等频率特征。多尺度Gram特征可使歌曲特征尺寸降低至原来的92.6％，能够有效降低计算量和存储量，减少大量的计算和存储成本，同时使实时部署成为可能。

其中，不同时间窗口即n_fft值不同的时间窗口。例如：歌曲音频可以看作一维时间序列，假设其长度为L。设定STFT的时间窗口W₁(n_fft＝1024)，尺寸为R^T×F。其中T是时间轴，F是频域轴。利用此时间窗口对音频数据进行短时傅里叶变换，获得STFT特征，对STFT特征做梅尔倒谱系数转换，得到梅尔倒谱特征R^T×F，利用梅尔倒谱特征计算Gram特征，则有：Gram＝Mel×Mel^T∈R^F×F。调整时间窗口，例如：W₂(n_fft＝2048)、W₃(n_fft＝4096)等，重复上述以获得W₂、W₃等分别对应的Gram特征，如此可获得多个尺度的Gram特征。之后利用concat方法拼接不同Gram特征，从而可获得多尺度Gram特征。多尺度Gram特征能够有效的表示歌曲的频域信息，如音色、配器、风格等，更易于模型学习和识别。

S203、将目标频域特征输入音频评估模型，得到音频数据的完播率，完播率表示音频数据的播放时长和播放次数。

具体的，音频的完播率可以按照如下方式计算：完播率＝X/Y，X为音频播放时长不小于整个音频总时长90％的播放次数，Y为音频播放时长不小于整个音频总时长30％的播放次数。当然，还可以按照其他方式计算完播率，例如：一首歌曲的完播率＝实际播放时长/歌曲总时长。

S204、判断完播率是否大于完播率阈值；若是，则执行S205；若否，则执行S206。

其中，完播率阈值可以根据需要灵活取值。例如：想要筛选播放率较高的音频，那么完播率阈值可以取值99％；若想要筛选播放率一般的音频，那么完播率阈值可以取值80％。当然，完播率阈值也可以按照下述方式进行取值。

在一种具体实施方式中，训练得到音频评估模型之后，将验证集中的各个音频样本输入音频评估模型，以输出验证集中的各个音频样本的验证完播率；降序或升序排列验证集中的各个音频样本的真实完播率，获得完播率序列；按照完播率序列排列验证集中的各个音频样本的验证完播率，获得验证结果序列；根据目标阈值在完播率序列中的位置，将验证结果序列中的相应位置的验证完播率确定为完播率阈值。

具体实现过程可参照如下示例：假设验证集中的各个样本的真实完播率分别为：4、5、6、2、7、1，将其降序排列后，获得完播率序列为：765421。验证集中的各个样本的验证结果分别为：a、d、s、h、c、e，将其按照完播率序列排列后，可得csdahe。假设目标阈值(目标阈值可以根据实际需求灵活取值)为5，而5在765421中的第三位，则csdahe中的第三位d即为完播率阈值。利用完播率阈值可判断出音频评估模型输出的完播率大小，进而据此可判定相应音频的价值高低。

S205、标记音频数据为优质音频。

S206、标记音频数据为非优质音频。

若完播率大于完播率阈值，则表明待评估音频的播放次数和播放时长均比较好，其受用户欢迎，故此时标记音频数据为优质音频。若完播率不大于完播率阈值，则表明待评估音频的播放次数和播放时长均不太好，其不太受用户欢迎，故此时标记音频数据为非优质音频。

在一种具体实施方式中，可以将优质音频添加至目标音频库，并将目标音频库中的所有优质音频按照完播率大小进行排序。目标音频库中的音频即为价值和质量较高的音频，若这些音频均为歌曲，则这些歌曲可以作为歌曲内容平台上的推广、宣称对象。对目标音频库中的优质歌曲，可以按照完播率大小从上往下进行排列，然后根据实际业务情况采取相应策略推广给用户。

可见，本实施例以多尺度Gram特征作为模型的输入数据，使得音频特征得到了精简，同时Gram特征可以表征音频中不同频率同时出现的程度，故不会因数据量降低导致音频评估性能降低。故本实施例可以可以降低音频评估模型的训练和应用成本，提高音频评估效率，以满足实用的速度和成本要求。

请参见图3，图3为本申请实施例提供的一种音频评估模型训练方法流程图。如图3所示，该方法可以包括以下步骤：

S301、从训练集中选择两个音频数据；两个音频数据分别对应的真实完播率的差值的绝对值大于差异阈值。

需要说明的是，训练集中可以包括众多歌曲或戏曲对应的音频数据、音频ID、用户行为数据、用户ID、音频时长等。用户行为数据如：实际播放时长、播放量等。歌曲音频格式可以为MP3等。

从训练集中选择音频数据的条件可以为：音频数据的真实完播率差值的绝对值大于差异阈值，或属于同一流派且真实完播率差值的绝对值大于差异阈值，或属于同一歌手且真实完播率差值的绝对值大于差异阈值等。

若训练集为歌曲集，则在一种具体实施方式中，从训练集中选择两个音频数据，包括：从训练集中选择完播率差值的绝对值大于预设差异值的两个歌曲对应的音频数据；或从训练集中选择属于同一流派且完播率差值的绝对值大于预设差异值的两个歌曲对应的音频数据；或从训练集中选择属于同一歌手且完播率差值的绝对值大于预设差异值的两个歌曲对应的音频数据。其中，限定同一流派或同一歌手，可以排除掉和歌曲音频无关的因素，使评估过程更加专注歌曲音频本身。差异阈值一般取一个非常小的值，如0.0005等。

假设歌曲A的真实完播率为A1，歌曲B的真实完播率为B1，那么歌曲A和歌曲B的真实完播率差值的绝对值可以表示为：|A1-B1|。真实完播率差值的绝对值大于差异阈值的两个歌曲的差异性相对较大，因此这两个歌曲更具可比性。将这两个歌曲的多尺度Gram特征并行输入目标模型，可获得这两个歌曲分别对应的预测完播率，后续可利用对比损失函数(PairwiseLoss)计算损失值。

S302、从两个音频数据中分别提取特征，以得到两个待训练特征；两个待训练特征均为多个不同的频域特征的拼接。

其中，待训练特征与上述实施例中的“目标频域特征”类似，具体可参照上述实施例的相关介绍，本实施例不再赘述。

S303、将两个待训练特征输入目标模型，得到两个音频数据分别对应的预测完播率。

需要说明的是，目标模型可以为卷积神经网络模型、递归神经网络模型、Transfomer、Resnet18、vgg等。模型输出为batch_size*1，输出数据表示模型预测的音频的完播率，也即：预测结果为预测完播率。

S304、利用目标损失函数分别确定两个音频数据分别对应的预测完播率的损失值。

在一种具体实施方式中，利用目标损失函数可以为对比损失函数、回归损失函数或交叉熵损失函数等。需要说明的是，若利用回归损失函数和交叉熵损失函数确定损失值，则S301步骤仅选择一个音频数据即可，其确定损失值的具体过程可以参照现有技术，本说明书在此不再赘述。

若利用对比损失函数确定损失值，则301步骤需要选择两个音频数据。例如：将歌曲集中的歌曲进行两两配对，配对需要符合上述提及的：从训练集中选择音频数据的条件。即：按照上述条件将歌曲集中的歌曲进行两两配对。一般地，一个Batch_size为B的训练集最多可产生B×(B-1)/2对歌曲。

在一种具体实施方式中，利用目标损失函数分别确定两个音频数据分别对应的预测完播率的损失值，包括：将两个音频数据分别对应的真实完播率和预测完播率输入目标损失函数，以得到损失值。

例如：针对任一对歌曲，利用对比损失函数计算损失值包括：假设S1、S2分别是目标模型输出的两个预测完播率，S1'、S2'分别是这一对歌曲的真实完播率，那么利用对比损失函数计算的损失值如下：

其中，

S305、判断损失值是否满足优化条件；若是，则执行S307；若否，则执行S306。

S306、根据损失值更新目标模型的模型参数，并执行S301。

S307、根据损失值更新目标模型的模型参数，以得到音频评估模型。

利用上述损失值进行梯度反向传导，目标模型的模型参数可以得到更新。获得损失值后，可首先判断损失值是否满足优化条件，若是，则可以认为当前模型具备了评估歌曲完播率的能力，直接可获得音频评估模型；当然，也可以按照S306更新模型参数后，再输出音频评估模型；若否，则认为当前模型需要继续训练，因此更新模型参数后，可跳转至S301进行再一次迭代训练。优化条件如：损失值小于某个阈值，或者当前损失值与上次损失值的差异小于某个阈值(如：损失值降低比例小于2％)。

其中，对比损失函数能够拟合两首歌中一首歌比另外一首歌好的关系，因此其输出的损失值更侧重于学习两个歌曲之间的先后关系，而不是绝对值，从而可以减少模型的训练难度。

其中，本实施例中的各步骤可参照上述实施例的相关介绍，本实施例在此不再赘述。

可见，本实施例以多尺度Gram特征作为模型的输入数据，使得音频特征得到了精简，同时Gram特征可以表征音频中不同频率同时出现的程度，故不会因数据量降低导致音频评估性能降低。故本实施例可以降低音频评估成本，提高音频评估效率，以满足实际应用过程中的评估速度和成本要求。

若以歌曲音频作为模型的训练数据，那么可以训练得到歌曲评估模型，歌曲评估模型是音频评估模型的一种。请参见图4，图4为本申请实施例提供的一种歌曲评估模型训练方法流程图。如图4所示，该模型训练方法可以包括以下步骤：

S401、从训练集中选择符合训练条件的两个歌曲音频。

S401步骤可以参照上述实施例中的S301，具体为：从歌曲集中选择符合下述任一个训练条件的两个歌曲音频。训练条件如：音频数据的真实完播率差值的绝对值大于差异阈值，或属于同一流派且真实完播率差值的绝对值大于差异阈值，或属于同一歌手且真实完播率差值的绝对值大于差异阈值。

S402、从两个歌曲音频中分别提取多尺度Gram特征。

S403、将两个多尺度Gram特征输入目标模型，以输出两个歌曲音频的预测完播率。

S404、利用目标损失函数确定两个预测完播率的损失值。

S405、判断损失值是否满足优化条件；若是，则执行S407；若否，则执行S406。

S406、根据损失值更新目标模型的模型参数后，执行S401。

S407、根据损失值更新歌曲评估模型的模型参数，并输出目标模型作为歌曲评估模型。

S408、将验证集中的各个样本输入歌曲评估模型，以输出验证集中的各个样本的验证完播率。

S409、降序或升序排列验证集中的各个样本的真实完播率，获得完播率序列。

S410、按照完播率序列排列验证集中的各个样本的验证完播率，获得验证结果序列。

S411、根据目标阈值在完播率序列中的位置，将验证结果序列中的相应位置的验证完播率确定为完播率阈值。

其中，S408-S411的具体实现过程可参照如下示例：假设验证集中的各个样本的真实完播率分别为：456271，将其降序排列后，获得完播率序列为：765421。验证集中的各个样本的验证结果分别为：adshce，将其按照完播率序列排列后，可得csdahe。假设目标阈值为5，而5在765421中的第三位，则csdahe中的第三位d即为完播率阈值。利用完播率阈值可判断出歌曲评估模型输出的完播率的大小，进而据此可判定相应歌曲的价值高低。

歌曲评估模型的结构图以及训练流程可参见图5。在图5中，歌曲评估模型为CNN，包括：全连接层(即图5中的FC，FC即Fully Connected)以及两个卷积模块(即图5中的ConvBlock)。

可见，本实施例以多尺度Gram特征作为模型的输入数据，使得歌曲特征得到了精简，同时Gram特征可以表征歌曲中不同频率同时出现的程度，故不会因数据量降低导致模型训练性能降低。故本实施例可以降低歌曲评估模型训练成本，提高模型训练效率，以满足实际应用过程中的评估速度和成本要求。

下面通过具体的应用场景实例描述，来介绍本申请提供的模型应用方案，例如：利用音频评估模型评估歌曲价值和质量的方案。评估歌曲价值和质量有利于从海量歌曲中挑选出质量较好的歌曲，即：挖掘出有价值的歌曲。也可以对音乐人新发布的歌曲进行评估，那么可以有如下模型应用流程。

首先构建歌曲评估平台，歌曲评估平台中设有训练完成的音频评估模型。将海量歌曲存储在服务器上。服务器中的歌曲为各个音乐创作者已发布的歌曲。

请参见图6，该模型应用流程包括如下步骤：

S601、歌曲评估平台从服务器中获取一个歌曲对应的音频数据；

S602、提取音频数据中的多尺度Gram特征后，将多尺度Gram特征输入音频评估模型，以输出歌曲完播率；

S603、歌曲评估平台推送该歌曲完播率至管理客户端；

S604、管理客户端展示歌曲完播率；

S605、管理客户端获取管理者输入的确认推广指令，并将该指令发送至歌曲评估平台；

S606、歌曲评估平台根据该指令给当前歌曲配置相应推广策略(歌曲评估平台中预先设置有多个推广策略)；

S607、将该推广策略推送至管理客户端；

S608、管理客户端展示推广策略。

其中，推广策略可以由管理者基于管理客户端进行预设，并存储在歌曲评估平台中。歌曲完播率能够体现不同歌曲细粒度之间的区别，更有利于从海量歌曲中发现质量和价值较高的歌曲。

具体的，音乐创作者也可以直接上传自己的作品至歌曲评估平台，歌曲评估平台会对作品质量好坏进行评估，从而判断给予作品多少流量进行推广、是否对该作品签约独家、是否需要邀请音乐人入驻该平台等。上传签约的核心就是歌曲价值评估。本实施例能够让可以音乐创作者尽快得知自己作品的前景，并且能够挖掘出优质作品。与此同时，也可以为平台建立更完善的内容平台等。

针对海量歌曲中的冷门、没有机会曝光的歌曲，使用本申请可以将优质歌曲挖掘出来，然后形成冷门优质歌曲，以冷门歌单或冷门歌曲电台的形式提供的用户。

可见，本实施例以多尺度Gram特征作为模型的输入数据，使得歌曲特征得到了精简，同时Gram特征可以表征歌曲中不同频率同时出现的程度，故不会因数据量降低导致模型性能降低。故本实施例可以提高模型性能，以满足实际应用过程中的评估速度和成本要求。

请参见图7，图7为本申请实施例提供的一种音频评估装置示意图，包括：

获取模块701，用于获取待评估的音频数据；

提取模块702，用于提取音频数据中的目标频域特征，目标频域特征为多个不同的频域特征的拼接；

评估模块703，用于将目标频域特征输入音频评估模型，得到音频数据的完播率，完播率表示音频数据的播放时长和播放次数；

标记模块704，用于若完播率大于完播率阈值，则标记音频数据为优质音频。

在一种具体实施方式中，提取模块包括：

设定单元，用于设定不同时间窗口；

变换单元，用于以不同时间窗口分别对音频数据进行短时傅里叶变换，得到不同STFT特征；

第一转换单元，用于将不同STFT特征相应转换为不同梅尔倒谱特征；

第二转换单元，用于将不同梅尔倒谱特征相应转换为不同Gram特征；

拼接单元，用于利用concat方法拼接不同Gram特征，得到目标频域特征。

在一种具体实施方式中，还包括：

收集模块，用于将优质音频添加至目标音频库，并将目标音频库中的所有优质音频按照完播率大小进行排序。

在一种具体实施方式中，还包括：

另一标记模块，用于若完播率不大于完播率阈值，则标记音频数据为非优质音频。

在一种具体实施方式中，还包括训练音频评估模型的训练模块，该训练模块包括：

选择单元，用于从训练集中选择两个音频数据；两个音频数据分别对应的真实完播率的差值的绝对值大于差异阈值；

提取单元，用于从两个音频数据中分别提取特征，以得到两个待训练特征；两个待训练特征均为多个不同的频域特征的拼接；

预测单元，用于将两个待训练特征输入目标模型，得到两个音频数据分别对应的预测完播率；

确定单元，用于利用目标损失函数分别确定两个音频数据分别对应的预测完播率的损失值；

输出单元，用于若损失值满足优化条件，则根据损失值更新目标模型的模型参数，以得到音频评估模型。

在一种具体实施方式中，确定单元具体用于：

将两个音频数据分别对应的真实完播率和预测完播率输入目标损失函数，以得到损失值。

在一种具体实施方式中，还包括：

验证模块，用于将验证集中的各个音频样本输入音频评估模型，以输出验证集中的各个音频样本的验证完播率；

第一排列模块，用于降序或升序排列验证集中的各个音频样本的真实完播率，获得完播率序列；

第二排列模块，用于按照完播率序列排列验证集中的各个音频样本的验证完播率，获得验证结果序列；

确定模块，用于根据目标阈值在完播率序列中的位置，将验证结果序列中的相应位置的验证完播率确定为完播率阈值。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种音频评估装置，该装置可以降低音频评估成本，提高音频评估效率，以满足实用的速度和成本要求。

进一步的，本申请实施例还提供了一种电子设备。其中，上述电子设备既可以是如图8所示的服务器50，也可以是如图9所示的终端60。图8和图9均是根据一示例性实施例示出的电子设备结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图8为本申请实施例提供的一种服务器的结构示意图。该服务器50，具体可以包括：至少一个处理器51、至少一个存储器52、电源53、通信接口54、输入输出接口55和通信总线56。其中，所述存储器52用于存储计算机程序，所述计算机程序由所述处理器51加载并执行，以实现前述任一实施例公开的音频评估中的相关步骤。

本实施例中，电源53用于为服务器50上的各硬件设备提供工作电压；通信接口54能够为服务器50创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口55，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器52作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统521、计算机程序522及数据523等，存储方式可以是短暂存储或者永久存储。

其中，操作系统521用于管理与控制服务器50上的各硬件设备以及计算机程序522，以实现处理器51对存储器52中数据523的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序522除了包括能够用于完成前述任一实施例公开的音频评估方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据523除了可以包括模型的更新信息等数据外，还可以包括模型的开发商信息等数据。

图9为本申请实施例提供的一种终端的结构示意图，该终端60具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，本实施例中的终端60包括有：处理器61和存储器62。

其中，处理器61可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器61可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器61也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器61可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器61还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器62可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器62还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器62至少用于存储以下计算机程序621，其中，该计算机程序被处理器61加载并执行之后，能够实现前述任一实施例公开的由终端侧执行的音频评估方法中的相关步骤。另外，存储器62所存储的资源还可以包括操作系统622和数据623等，存储方式可以是短暂存储或者永久存储。其中，操作系统622可以包括Windows、Unix、Linux等。数据623可以包括但不限于模型的更新信息。

在一些实施例中，终端60还可包括有显示屏63、输入输出接口64、通信接口65、传感器66、电源67以及通信总线68。

本领域技术人员可以理解，图9中示出的结构并不构成对终端60的限定，可以包括比图示更多或更少的组件。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的音频评估方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

需要指出的是，上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频评估方法，其特征在于，包括：

获取待评估的音频数据；

2.根据权利要求1所述的方法，其特征在于，所述提取所述音频数据中的目标频域特征，包括：

设定不同时间窗口；

以所述不同时间窗口分别对所述音频数据进行短时傅里叶变换，得到不同STFT特征；

将所述不同STFT特征相应转换为不同梅尔倒谱特征；

将所述不同梅尔倒谱特征相应转换为不同Gram特征；

利用concat方法拼接所述不同Gram特征，得到所述目标频域特征。

3.根据权利要求1所述的方法，其特征在于，还包括：

将所述优质音频添加至目标音频库，并将所述目标音频库中的所有优质音频按照完播率大小进行排序。

4.根据权利要求1所述的方法，其特征在于，还包括：

若所述完播率不大于所述完播率阈值，则标记所述音频数据为非优质音频。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述音频评估模型的训练步骤包括：

从训练集中选择两个音频数据；所述两个音频数据分别对应的真实完播率的差值的绝对值大于差异阈值；

从所述两个音频数据中分别提取特征，以得到两个待训练特征；所述两个待训练特征均为多个不同的频域特征的拼接；

将所述两个待训练特征输入目标模型，得到所述两个音频数据分别对应的预测完播率；

利用目标损失函数分别确定所述两个音频数据分别对应的预测完播率的损失值；

若所述损失值满足优化条件，则根据所述损失值更新所述目标模型的模型参数，以得到音频评估模型。

6.根据权利要求5所述的方法，其特征在于，所述利用目标损失函数分别确定所述两个音频数据分别对应的预测完播率的损失值，包括：

将所述两个音频数据分别对应的真实完播率和预测完播率输入所述目标损失函数，以得到所述损失值。

7.根据权利要求5所述的方法，其特征在于，所述得到音频评估模型之后，还包括：

将验证集中的各个音频样本输入所述音频评估模型，以输出所述验证集中的各个音频样本的验证完播率；

降序或升序排列所述验证集中的各个音频样本的真实完播率，获得完播率序列；

按照所述完播率序列排列所述验证集中的各个音频样本的验证完播率，获得验证结果序列；

根据目标阈值在所述完播率序列中的位置，将所述验证结果序列中的相应位置的验证完播率确定为所述完播率阈值。

8.一种音频评估装置，其特征在于，包括：

获取模块，用于获取待评估的音频数据；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述的方法。