CN106294567B

CN106294567B - 一种音频排序方法和装置

Info

Publication number: CN106294567B
Application number: CN201610602258.8A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-07-26
Filing date: 2016-07-26
Publication date: 2020-02-14
Anticipated expiration: 2036-07-26
Also published as: CN106294567A

Abstract

本发明实施例公开了一种音频排序方法和装置；本发明实施例在接收到音频排序请求时，根据该音频排序请求获取目标歌曲对应的多个音频，以得到音频集合，然后，提取该音频集合内该音频对应的基频，并获取该音频集合内该音频之间的基频差值，根据该基频差值对该音频集合内的音频进行排序；该方案可以节省服务器存储空间，从而增大服务器的可用存储空间。

Description

一种音频排序方法和装置

技术领域

本发明涉及音频技术领域，具体涉及一种音频排序方法和装置。

背景技术

用户唱歌评价功能已经在业界多个音乐产品中亮相，该功能增加了音乐产品的多样性以及提升了用户体验。

目前用户唱歌评价功能主要涉及到音频排序技术，系统或者服务器在对音频排序后，会基于音频排序结果生成评价信息，如分数、排名等。在现有技术中，一般的音频排序方式为：预先制作好歌曲原唱的音频或者演唱特征文件上传并保存至服务器，此文件中可能包含音高、节奏、歌词等特征，当用户在线演唱后，服务器获取用户演唱的音频，并从该音频中提取相应的用户演唱特征，接着将该用户演唱特征与预先制作好的特征进行对比，得到特征对比结果，最后根据特征对比结果进行排序。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有音频排序方式需要预先上传并保存歌曲原唱的音频或者演唱特征文件至服务器，会占用服务器的存储空间，导致服务器的可用存储空间较小，尤其是服务器在面临海量歌曲原唱的演唱特征文件时，表现更为严重。

发明内容

本发明实施例提供一种音频排序方法和装置，可以增大服务器的可用存储空间。

本发明实施例提供一种音频排序方法，包括：

接收音频排序请求，所述音频排序请求指示需要音频排序的目标歌曲；

根据所述音频排序请求获取目标歌曲对应的多个音频，以得到音频集合；

提取所述音频集合内所述音频对应的基频，并获取所述音频集合内所述音频之间的基频差值；

根据所述基频差值对所述音频集合内的音频进行排序。

相应的，本发明实施例还提供一种音频排序装置，包括：

接收单元，用于接收音频排序请求，所述音频排序请求指示需要音频排序的目标歌曲；

音频获取单元，用于根据所述音频排序请求获取目标歌曲对应的多个音频，以得到音频集合；

基频处理单元，用于提取所述音频集合内所述音频对应的基频，并获取所述音频集合内所述音频之间的基频差值；

排序单元，用于根据所述基频差值对所述音频集合内的音频进行排序。

本发明实施例在接收到音频排序请求时，根据该音频排序请求获取目标歌曲对应的多个音频，以得到音频集合，然后，提取该音频集合内该音频对应的基频，并获取该音频集合内该音频之间的基频差值，根据该基频差值对该音频集合内的音频进行排序；由于该方案通过歌曲的多个音频之间的特征对比结果，来对音频进行排序，无需预先存储歌曲原唱的音频特征文件，相对于现有技术而言，可以节省服务器存储空间，从而增大服务器的可用存储空间。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频排序方法的流程图；

图2是本发明实施例提供的音频排序方法的另一流程图；

图3是本发明实施例提供的音频排序装置的结构示意图；

图4为本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种音频排序方法和装置。以下分别进行详细说明。

实施例一、

本实施例将从音频排序装置的角度进行描述，该音频排序装置具体可以集成在服务器等设备中。

一种音频排序方法，包括：在接收到音频排序请求时，根据该音频排序请求获取目标歌曲对应的多个音频，以得到音频集合，然后，提取该音频集合内该音频对应的基频，并获取该音频集合内该音频之间的基频差值，根据该基频差值对该音频集合内的音频进行排序。

如图1所示，一种音频排序方法，具体流程可以如下：

101、接收音频排序请求，该音频排序请求指示需要音频排序的目标歌曲。

其中，该音频排序请求可以通过触发设备中预设触发键或输入框等触发接口来进行触发，比如，当用户点击或划过某个图标时，则触发生成该图形界面处理请求，此时，该音频排序装置便可以对该音频排序请求进行接收，比如，通过预设的指令接收接口对该音频排序请求进行接收，等等。

在实际应用中，可以当检测到目标歌曲有新的音频时，接收音频排序请求，比如，当检查到目标歌曲有新的音频时，触发生成音频排序请求，此时音频排序装置会对该请求进行接收。

本实施例中，该音频排序请求可以携带需要音频排序的目标歌曲的歌曲标识，以指示目标歌曲。

102、根据该音频排序请求获取目标歌曲对应的多个音频，以得到音频集合。

其中，目标歌曲对应的音频可以为用户演唱目标歌曲所产生的音频，该目标歌曲对应的多个音频可以包括不同用户演唱目标歌曲产生的音频，也可以包括同一用户多次演唱目标歌曲产生的音频。比如，获取n个用户演唱歌曲W的n个音频，即音频1、音频2……音频i……音频n，1＜n、且为正整数，1≤i≤n，且i为正整数。

该音频排序请求携带目标歌曲的歌曲标识；此时，步骤“根据该音频排序请求获取目标歌曲对应的多个音频”可以包括：

根据该歌曲标识获取该目标歌曲对应的多个音频。

比如，可以接收终端发送的音频排序请求，然后，基于音频排序请求携带的歌曲标识在存储单元中获取歌曲标识对应的多个音频。

103、提取该音频集合内该音频对应的基频，并获取该音频集合内该音频之间的基频差值。

其中，基频为基音的频率，该基音为发音体整体振动产生的声音，比如，人体声带振动产生的声音，本实施例中，由于人在发声时声带震动产生的频率经过声道过滤后会产生大量泛音，为了便于后续操作和提高音频排序的准确度，需要从音频中提取直接表现声带震动频率的基音(实际情况中基音也决定了整个音符的音高)，然后，获取该基音的频率，即基频。

为了提高基频提取的准确性以及音频排序的精确性，本实施例可以将音频切割成若干音频段，然后，提取音频段的基频，也即步骤“提取该音频集合内该音频对应的基频”可以包括：

对该音频集合内的该音频进行切割，以得到该音频对应的多个音频段；

提取每个该音频段的基频，以得该音频对应的基频集合；

此时，步骤“获取该音频集合内该音频之间的基频差值”可以包括：获取该音频集合内音频对应的基频集合之间的基频差值。比如，可以将音频集合内音频对应的基频集合进行两两对比，以得到基频集合之间的基频差值。

具体地，可以根据预设时间移动量以及预设音频时长，对该音频集合内的该音频进行切割；比如，引入音频帧表示音频时，可以根据预设帧移和帧长对该音频集合内的该音频进行切割，其中，帧移和帧长可以根据实际需求设定，例如，可以按照帧移10ms，帧长30ms对音频进行切割，以得到音频对应的m个音频帧，每个音频帧即为一个音频段。

本实施例中，可以采用预设的基频提取算法提取每个音频段的基频，比如，针对每个音频段提取一个基频，例如，在将音频i切割成m(m为正整数)个音频段时，可以提取每个音频段的基频f，得到音频i对应的基频集合，如对于音频i，提取音频段1的基频f11、音频段2的基频f12……音频段m的基频fim，最终得到音频i对应的基频集合Fi(fi1、fi2…fit…fim)，其中，1≤t≤m，且t为正整数。

可选地，为方便提取基频以及后续排序、加快音频排序的速度，本实施例中可以在对音频切割前，对音频进行格式转换，也即步骤“对该音频集合内的该音频进行切割”可以包括：

将该音频集合内的该音频转换成预设格式的音频；

对成预设格式的音频进行切割。

其中，预设格式可以为多种音频格式，比如，可以为PCM(脉冲编码调制)格式的音频等，例如，本实施例可以将音频转换成16k16bit PCM格式的音频。

本实施例在提取基频之后，需要对音频集合内音频对应的基频进行两两对比，以得到该音频集合之间的基频差值。

比如，音频集合包括：音频1、音频2……音频n，可以将音频1对应的基频与音频1对应的基频、音频2对应的基频……音频n对应的基频进行一一对比，得到n个基频差值，音频1与音频2之间的基频差值、音频2与音频1之间的基频差值、音频1与音频3之间的基频差值……音频1与音频n之间的基频差值、音频n与音频1之间的基频差值。

可选地，在获取音频对应的基频集合之后，可以将音频集合内音频对应的基频集合进行两两对比，以得到基频集合之间的基频差值；比如，音频集合包括：音频1、音频2……音频n，每个音频切割成m个音频段，此时，可以将音频1对应的基频集合F1t(f11、f12……f1m)分别与音频1对应的基频集合F1t、音频2对应的基频集合F2t f21、f22……f2m)、……音频i对应的基频集合Fit(fi1、fi2……fim)……音频n对应的基频集合Fn(fn1、fn2……fnm)进行对比，从而得到F1与F2之间的基频差值、F1与F3之间的基频差值……F1与Fn之间的基频差值。

本实施例中基频集合之间的基频差值可以包括：两个基频集合中相应基频之间的基频差值，比如，Fi与Fj之间的基频差值Fi-Fj可以包括：fi1-fj1、fi2-fj2、……fit-fjt……fim-fjm。

本实施例中，基频集合两两对比的过程为：一个基频集合中基频，与另一个基频集合中相应的基频进行对比；也即步骤“将该音频集合内该音频对应的基频集合进行两两对比”可以包括：将该音频集合内音频对应的基频集合中基频、与其他音频对应的基频集合中相应的基频进行对比，该其他音频为音频集合内所有音频，可以包含该对比音频自身；例如，音频i的基频集合Fi，与音频j的基频集合Fj(1≤j≤n，且为正整数)进行对比时，可以将Fi中fi1与Fj中fj1对比、Fi中fi2与Fj中fj2对比、Fi中fi3与Fj中fj3对比……Fi中fim与Fj中fjm对比，此时可以得到Fi与Fj之间的基频差值，即：fi1-fj1、fi2-fj2、……fit-fjt……fim-fjm。

可选地，为了去除音频中噪声，提高音频排序的精确性，本实施例还可以在进行基频对比之前，对基频集合中奇异基频置零处理，也即步骤“获取该音频集合内音频对应的基频集合之间的基频差值”可以包括：

根据该基频与其相邻的基频之间的基频差值，在该基频集合中确定奇异基频；

将该奇异基频的基频值置零，以得到置零后基频集合；

获取该音频集合内该音频对应的置零后基频集合之间的基频差值。比如，可以将音频集合内音频对应的置零后基频集合进行两两对比，以得到置零后基频集合之间的基频差值。

本实施例中，奇异基频可以指的是：与其相邻的基频之间的基频差值满足预设条件的基频，具体地，可以为与其前后基频之间的基频差值满足预设条件的基频；其中，预设条件可以根据实际需求设定，例如，以音频i的音频集合Fi为例，获取基频fij与其前基频fij-1、后基频fij+1之间基频差值为Δf’、Δf”，当Δf’大于第一预设阈值，且Δf”小于第二预设阈值时，则确定该基频fij为奇异基频。

又比如，可以基于该基频与其相邻的基频之间的基频差值变化来确定奇异基频，例如，当fi1＝0、fi2＝0、fi3＝0、fi4＝1、fi5＝4、fi6＝0、fi7＝0、fi8＝0、fi9＝0，此时，可以确定fi4和fi5为奇异基频。

本实施例在对奇异基频的基频值置零之后，音频对应的基频集合中就会存在零点基频段(包括基频值为零的基频)和非零点基频段(包括基频值为非零的基频)，为了去除噪声影响和保证音频的完整性，从而提高排序精确性，本实施例方法还可以对非零点基频段中基频进行平滑处理(如中值滤波处理)，以及设置该零点基频段中基频的基频值，也即步骤“获取该音频集合内该音频对应的置零后基频集合之间的基频差值”可以包括：

在该置零后基频集合中确定零点基频段和非零点基频段，该零点基频段包括基频值为零的基频，该非零点基频段包括基频值为非零的基频；

对非零点基频段中基频进行中值滤波处理；

设置该零点基频段中基频的基频值，以得到设置后基频集合；

获取该音频集合内该音频对应的设置后基频集合之间的基频差值。比如，可以将该音频集合内该音频对应的设置后基频集合进行两两对比，以得到设置后基频集合之间的基频差值。

比如，在对音频i对应的基频集合Fi内基频置零后，该集合Fi中：fi1＝0、fi2＝0、fi3＝3、fi4＝4、fi5＝5、fi6＝0、fi7＝0、fi8＝7、fi9＝8、fi10＝9，此时，可以在集合Fim确定零点基频段，Fa(fi1＝0、fi2＝0)，Fb(fi6＝0、fi7＝0)，非零点基频段Fc(fi3＝3、fi4＝4、fi5＝5)，Fd(fi8＝7、fi9＝8、fi10＝9)，然后，对非零点基频段Fc、Fd中基频进行中值滤波处理，设置零点基频段Fa、Fb中基频的基频置。

其中，对非零点基频段中基频进行中值滤波处理的方式可以有多种，比如，可以基于非零点基频段的长度来进行滤波处理，也即步骤“对非零点基频段中基频进行中值滤波处理”可以包括：

获取非零点基频段的长度；

根据该长度获取对应的滤波窗口长度；

根据该滤波窗口长度对该非零点基频段中基频进行中值滤波处理。

其中，非零点基频段的长度为非零点基频段的时长，其可以用音频帧的数量表示，比如，非零点基频段长度为10个音频帧，在本实施例中由于一个音频段即为一个音频帧，因此，非零点基频段的长度可以根据非零点基频段包含的基频数量得到，比如，非零点基频段包含8个基频，非零点基频段的长度即为8个音频帧。该滤波窗口长度可以为窗口包含基频的数量、或者也可以为滤波窗口的音频时长，例如长度为7的滤波窗口包含7个基频或包含7个音频帧。

比如，步骤“根据该长度获取对应的滤波窗口长度”可以包括：

判断该长度是否小于第一预设长度(第一预设长度可以根据实际需求设定)；

若是，则将该长度作为滤波窗口长度；

若否，则将预设长度作为滤波窗口长度。

比如，若非零点基频段的长度小于35帧时，直接将该长度作为滤波窗口长度，否则滤波窗口长度为预设长度，如10帧。

本实施例中，步骤“根据该滤波窗口长度对该非零点基频段中基频进行中值滤波处理”可以包括：

根据该非零点基频段中基频和该滤波窗口长度，在该音频对应的置零后基频集合中选取滤波窗口；

获取该滤波窗口对应的平均基频值；

将该非零点基频段中基频的基频值设置为该平均基频值。

比如，以音频i的基频集合Fi为例，在集合Fi中确定零点基频段，Fa(fi1＝0、fi2＝0)，Fb(fi6＝0、fi7＝0)，非零点基频段Fc(fi3＝7、fi4＝4、fi5＝5)，Fd(fi8＝7、fi9＝8、fi10＝9)，之后需要对Fc、Fd进行中值滤波，具体过程为：

获取Fc的长度为4帧，其小于预设长度10帧，此时，确定滤波窗口长度为4帧，那么可以以fi3为起点向两边进行扩展，得到滤波窗口，比如，滤波窗口包括：fi2、fi3、fi4、fi5，此时，可以获取滤波窗口对应的平均基频值为4，那么可设置fi3＝4，对于fi4可确定包含fi3、fi4、fi5、fi6滤波窗口，获取滤波窗口对应的平均基频值为4，设置fi4＝4，同理对于fi5、fi8、fi9、fi10也是一样。

其中，设置零点基频段中基频的基频值方式有多种，比如，可以基于零点基频段的长度来设置，也即步骤“设置该零点基频段中基频的基频值”可以包括：

获取该零点基频段的长度；

判断该零点基频段的长度是否小于第二预设长度(第二预设长度可以根据实际需求设定)；

若是，则根据目标非零点基频段内基频的基频值，设置该零点基频段中基频的基频值，其中，该目标非零点基频段为与该零点基频段相邻的非零点基频段；

若否，则不对该零点基频段中基频的基频值进行设置。

可选地，本实施例中目标非零点基频段可以为零点基频段前面的非零点基频段，比如，可以为零点基频段前面的非零点基频段中最后一个基频。

比如，以音频i的基频集合Fi为例，在集合Fi中确定零点基频段Fb(fi6＝0、fi7＝0)，非零点基频段Fa(fi1＝1、fi2＝2)，Fc(fi3＝7、fi4＝4、fi5＝5)，Fd(fi8＝7、fi9＝8、fi10＝9)，之后需要设置零点基频段Fb内的基频值，具体地：

零点基频段Fb长度为2帧，其小于预设长度15帧，因此，可以从零点基频段Fb相邻的非零点基频段Fa中选取目标基频值作为零点基频段Fb内基频的值，比如，选取fi2的值作为目标基频值，此时可以设置零点基频段Fb内fi6＝fi2＝2，fi7＝fi2＝2，或者也可以设置零点基频段Fb内fi6＝fi1＝1，fi7＝fi1＝1。

104、根据该基频对比结果对该音频集合内的音频进行排序。

经过上述步骤对每个音频对应的基频集合进行处理(置零、中值滤波以及零点基频设置)后，即可得每个音频对应的处理后基频集合(上述设置后基频集合、或者置零后基频集合)，由于每个音频均是同一个目标歌曲的音频，因此，音频的时长是相同的，在切割后音频段(或者音频帧)的个数是相同的，进而每个音频的基频集合内基频个数是相同的，在此基础上，将每个音频对应的处理后基频集合两两进行对比，得到基频集合之间的基频差值，最后，可以基于基频集合之间的基频差值来对音频进行排序。

本实施例中，可以获取音频集合内某个音频对应的所有基频差值，然后，基于该所有基频差值进行排序，为了方便运算，本实施例可以基频集合之间的基频差值进行处理，比如，可以获取基频差值之和，该基频差值之和可以用旋律距离来表示，例如，旋律距离Lij表示音频i对应基频集合与音频j对应基频集合之间的基频差值之和，此时，可以从旋律距离中选取某个音频的所有旋律距离(即某个音频对应的所有旋律距离，其指的是该音频与集合内音频之间的所有基频差值之和)，然后，获取该音频对应的旋律距离总和S，例如音频i对应的旋律距离总和Si；也即，步骤“据该基频差值对该音频集合内的音频进行排序”可以包括：

根据该基频差值获取该音频集合内音频之间的旋律距离，其中，该旋律距离为音频对应的基频集合之间的基频差值之和；

从该距离集合中选取该音频集合内目标音频对应的旋律距离，以得到目标音频对应的目标子距离集合；

根据该目标子距离集合获取该音频对应的旋律距离总和；

根据该音频对应的旋律距离总和，对该音频集合内的音频进行排序。

例如，当有n个音频，每个音频切割成m个音频段后，可以得到音频i对应的音频集合Fi为(fi1、fi2…fit…fim)，然后，将n个音频集合进行两两对比，得到音频集合之间的基频差值，具体地通过公式：Fi-Fj＝fit-fjt计算音频集合之间的基频差值，然后，计算音频之间的旋律距离，即基频集合之间的基频差值之和，具体地计算方式通过如下公式：

在得到音频之间的旋律距离之后，可以获取音频集合中某个音频对应的

所有旋律距离，以得到该音频对应的子距离集合，比如音频i对应的旋律

距离Li1、Li2、Li3……Lim，然后，对于所有音频进行距离和运算，得到

每个音频对应的旋律距离总和S，如音频i对应的旋律距离总和，具体地计

算方式可以通过如下公式：

在得到每个音频对应的旋律距离总和之后，可以根据旋律距离总和Si的大小对音频进行排序。

在实际情况，还可以根据音频排序结果生成相应的评分信息(如排名或者分数等)；例如，某首歌曲存在n个用户演唱的音频，在基于每个音频对应的旋律距离总和进行音频排序之后，可以获取某个音频7在n个音频中的排名k(1≤k≤n)，此时，可以获取该音频7超过其他音频的百分比，可以通过如下公式得到：

B＝(n-k)*100/n

在获取该百分比之后，可以提高该音频7对应的用户，其演唱的某某歌曲在本歌曲的所有演绎中超过了百分之B的用户。

由上可知，本发明实施例在接收到音频排序请求时，根据该音频排序请求获取目标歌曲对应的多个音频，以得到音频集合，然后，提取该音频集合内该音频对应的基频，并获取该音频集合内该音频之间的基频差值，根据该基频差值对该音频集合内的音频进行排序；由于该方案通过歌曲的多个音频之间的特征对比结果，来对音频进行排序，无需预先存储歌曲原唱的音频特征文件，相对于现有技术而言，可以节省服务器存储空间，从而增大服务器的可用存储空间。

实施例二、

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该音频排序装置集成在服务器中为例进行说明。

如图2所示，一种音频排序方法，具体流程可以如下：

201、服务器接收音频排序请求，该音频排序请求指示需要音频排序的目标歌曲。

其中，音频排序请求可以通过触发设备中预设触发键或输入框等触发接口来进行触发，比如，当用户点击或划过某个图标时，则触发生成该音频排序请求。

具体地，可以当检查到目标歌曲有新的音频时，接收音频排序请求。

202、服务器根据该音频排序请求获取目标歌曲对应的n个音频，以得到音频集合，1＜n、且为正整数。

其中，目标歌曲对应的音频可以为用户演唱目标歌曲所产生的音频，该目标歌曲对应的n个音频可以包括n个不同用户演唱目标歌曲产生的音频，也可以为同一用户n次演唱目标歌曲产生的音频。

比如，服务器可以根据音频排序请求从本地存储中提取目标歌曲对应的n个音频，如音频1、音频2、……音频n。

203、服务器将音频集合中每个音频切割成m个音频段，并提取每个音频段的基频，以得到每个音频对应的基频集合。

具体地，服务器可以根据预设帧移和预设帧长对每个音频进行切割，比如，可以按照帧移5ms，帧长30ms对音频进行切割，其中，一个音频段即为一个音频帧，该音频帧的帧长为预设帧长，如30ms。

其中，基频集合包括m个基频，如将音频i切割成m个音频段，然后，分别提取每个音频段的基频x，从而得到音频i对应的基频集合Fi，该集合包括：fi1、fi2……fim，1≤i≤n，且i为正整数。

为方便提取基频以及后续排序、加快音频排序的速度，本实施例中可以在对音频切割前，对音频进行格式转换，比如，可以将音频i转换成PCM(脉冲编码调制)格式的音频i。

204、对于每个音频对应的基频集合，服务器根据基频与其相邻的基频之间的基频差值，在该基频集合中确定奇异基频，并将该奇异基频的基频值置零，以得到每个音频对应的置零后基频集合。

本实施例中，奇异基频可以指的是：与其相邻的基频之间的基频差值满足预设条件的基频，具体地，可以为与其前后基频之间的基频差值满足预设条件的基频。例如，以音频i的音频集合Fi为例，获取基频fij与其前基频fij-1、后基频fij+1之间基频差值为Δf’、Δf”，当Δf’大于第一预设阈值，且Δf”小于第二预设阈值时，则确定该基频fij为奇异基频。

本实施例中，还可以基于该基频与其相邻的基频之间的基频差值变化来确定奇异基频，例如，当fi1＝0、fi2＝0、fi3＝0、fi4＝1、fi5＝4、fi6＝0、fi7＝0、fi8＝0、fi9＝0，此时，可以确定fi4和fi5为奇异基频。

通过步骤204可以置零处理后，可以得到每个音频对应的置零后基频集合，比如，音频i对应的置零后基频集合Fi。

205、对于每个置零后基频集合，服务器可以在该置零后基频集合中确定零点基频段和非零点基频段，并对非零点基频段中基频进行中值滤波处理，以得到每个音频对应的滤波后基频集合。

比如，在对音频i对应的基频集合Fi内基频置零后得到置零后基频集合Fi’，该集合Fi中：fi1＝0、fi2＝0、fi3＝3、fi4＝4、fi5＝5、fi6＝0、fi7＝0、fi8＝7、fi9＝8、fi10＝9，此时，可以在集合Fim确定零点基频段，Fa(fi1＝0、fi2＝0)，Fb(fi6＝0、fi7＝0)，非零点基频段Fc(fi3＝3、fi4＝4、fi5＝5)，Fd(fi8＝7、fi9＝8、fi10＝9)，然后，对非零点基频段Fc、Fd中基频进行中值滤波处理，设置零点基频段Fa、Fb中基频的基频置，从而得到滤波后基频集合Fi”。

其中，对非零点基频段中基频进行中值滤波处理的方式可以有多种，比如，可以基于非零点基频段的长度来进行滤波处理，也即步骤“服务器对非零点基频段中基频进行中值滤波处理”可以包括：

服务器获取非零点基频段的长度；

服务器根据该长度获取对应的滤波窗口长度；

服务器根据该滤波窗口长度对该非零点基频段中基频进行中值滤波处理。

其中，非零点基频段的长度为非零点基频段的时长，其可以用音频帧的数量表示，比如，非零点基频段长度为8个音频帧。该滤波窗口长度可以为窗口包含基频的数量、或者也可以为滤波窗口的音频时长，例如长度为7的滤波窗口包含7个基频或包含7个音频帧。

该服务器根据该长度获取对应的滤波窗口长度的过程可以包括：

若是，则将该长度作为滤波窗口长度；

若否，则将预设长度作为滤波窗口长度。

比如，若非零点基频段的长度小于35帧时，直接将该长度作为滤波窗口长度，否则滤波窗口长度为预设长度，如9帧。

本实施例服务器根据该滤波窗口长度对该非零点基频段中基频进行中值滤波处理可以包括：

获取该滤波窗口对应的平均基频值；

将该非零点基频段中基频的基频值设置为该平均基频值。

比如，以音频i的基频集合Fi为例，在集合Fi中确定零点基频段，Fa(fi1＝0、fi2＝0)，Fb(fi6＝0、fi7＝0)，非零点基频段Fc(fi3＝7、fi4＝4、fi5＝5)，Fd(fi8＝7、fi9＝8、fi10＝9)，之后需要对Fc、Fd进行中值滤波，以对Fd进行中值滤波为例，具体过程为：

获取Fd的长度为3帧，其小于预设长度9帧，此时，确定滤波窗口长度为3帧，那么可以以fi8为起点向两边进行扩展，得到滤波窗口，比如，滤波窗口包括：fi7、fi8、fi9，此时，可以获取滤波窗口对应的平均基频值为7.5，那么可设置fi8＝7.5，对于fi9可确定包含fi8、fi9、fi10滤波窗口，获取滤波窗口对应的平均基频值为12，设置fi9＝7.5，同理对于fi10也是一样。

206、对于每个滤波后基频集合，服务器获取该零点基频段的长度，并根据长度设置该零点基频段中基频的基频值，以得到每个音频对应的设置后基频集合。

比如，服务器可以判断该零点基频段的长度是否小于第二预设长度(第二预设长度可以根据实际需求设定)，若是，则根据目标非零点基频段内基频的基频值，设置该零点基频段中基频的基频值，其中，该目标非零点基频段为与该零点基频段相邻的非零点基频段，若否，则不对该零点基频段中基频的基频值进行设置。

其中，目标非零点基频段可以为零点基频段前面的非零点基频段，比如，可以为零点基频段前面的非零点基频段中最后一个基频。

零点基频段Fb长度为2帧，其小于预设长度9帧，因此，可以从零点基频段Fb相邻的非零点基频段Fc或者Fd中选取目标基频值作为零点基频段Fb内基频的值，比如，选取fi8的值作为目标基频值，此时可以设置零点基频段Fb内fi6＝fi8＝7，fi7＝fi8＝7，或者也可以设置零点基频段Fb内fi6＝fi10＝9，fi7＝fi10＝9。

经过步骤206的处理，本实施例可以得到每个音频对应的设置后基频集合或者基频序列Fi，由于设置后基频集合或者基频序列的个数为n，每个音频均是同一个目标歌曲的音频，因此，音频的时长是相同的，在切割后音频段(或者音频帧)的个数是相同的，进而每个音频的基频集合内基频个数是相同，比如为m个。

207、服务器对n个基频集合进行两两对比，以得到基频集合之间的基频差值，并根据该基频差值获取音频之间的旋律距离，得到旋律距离集合。

其中，音频之间的旋律距离为基频差值之和，例如，旋律距离Lij表示音频i对应基频集合与音频j对应基频集合之间的基频差值之和。具体地，可以通过如下公式来计算音频之间的旋律距离：

经过步骤207可以得到每个音频对应的旋律距离L，旋律距离集合包含的旋律距离个数为n²。

208、服务器从旋律距离集合中选取每个音频对应的所有旋律距离，并计算每个音频的旋律距离总和。

比如，服务器可以从n²个旋律距离中获取音频i对应的所有旋律距离，即Li1、Li2……Lim，然后，计算音频i的旋律距离总和Si＝Li1+Li2+……+Lim，即可以通过如下公式来计算音频i的旋律距离总和Si：

经过步骤208处理，可以得到每个音频的旋律距离总和S，比如音频1的旋律距离总和S1、音频2的旋律距离中S2、……音频i的旋律距离总和Si……音频n的旋律距离总和Sn。

209、服务器根据每个音频的旋律距离总和，对音频集合内n个音频进行排序。

比如，可以根据旋律距离总和Si的大小对音频进行排序。

在实际情况，还可以根据音频排序结果生成相应的评分信息(如排名或者分数等)；例如，某首歌曲存在n个用户演唱的音频，在基于每个音频对应的旋律距离总和进行音频排序之后，可以获取某个音频i在n个音频中的排名k(1≤k≤n)，此时，可以获取该音频i超过其他音频的百分比，可以通过如下公式得到：

B＝(n-k)*100/n

此外，本发明实施例还可以通过对基频进行置零处理、中值滤波处理以零基频填充处理，来优化音频的基频特征，从而可以提升音频排序的准确性。

实施例三、

为了更好地实施上述方法，本发明实施例还提供一种音频排序装置，如图3所示，该图形界面的处理装置可以包括接收单元301、音频获取单元302、基频处理单元303和基频处理单元304，如下：

(1)接收单元301；

接收单元301，用于接收音频排序请求，该音频排序请求指示需要音频排序的目标歌曲。

其中，图音频排序请求可以通过触发设备中预设触发键或输入框等触发接口来进行触发，比如，当用户点击或划过某个图标时，则触发生成该音频排序请求，即：

接收单元301、具体用于接收用户通过触发接口触发的音频排序请求。

(2)音频获取单元302；

音频获取单元302，用于根据该音频排序请求获取目标歌曲对应的多个音频，以得到音频集合。

其中，目标歌曲对应的音频可以为用户演唱目标歌曲所产生的音频，该目标歌曲对应的多个音频可以包括不同用户演唱目标歌曲产生的音频，也可以包括同一用户多次演唱目标歌曲产生的音频。

该音频排序请求携带目标歌曲的歌曲标识，该音频获取单元302，具体用于音频排序请求携带的歌曲标识在存储单元中获取歌曲标识对应的多个音频。(3)基频处理单元303；

基频处理单元303，用于基频处理单元。

比如，该基频处理单元303可以具体用于：

提取每个该音频段的基频，以得该音频对应的基频集合；

获取该音频集合内音频对应的基频集合之间的基频差值。

又比如，该基频处理单元303可以包括：切割子单元、基频提取子单元和差值获取子单元；

该切割子单元，用于对该音频集合内的该音频进行切割，以得到该音频对应的多个音频段；

该基频提取子单元，用于提取每个该音频段的基频，以得该音频对应的基频集合；

该差值获取子单元，具体用于：

将该奇异基频的基频值置零，以得到置零后基频集合；

获取该音频集合内该音频对应的置零后基频集合之间的基频差值。

可选地，该差值获取子单元，具体可以用于：

对非零点基频段中基频进行中值滤波处理；

获取该音频集合内该音频对应的设置后基频集合之间的基频差值。

其中，对非零点基频段中基频进行中值滤波处理的过程可以包括：

获取非零点基频段的长度；

根据该长度获取对应的滤波窗口长度；

本实施例中，根据该滤波窗口长度对该非零点基频段中基频进行中值滤波处理，包括：

获取该滤波窗口对应的平均基频值；

将该非零点基频段中基频的基频值设置为该平均基频值。

设置该零点基频段中基频的基频值的过程可以包括：

获取该零点基频段的长度；

判断该零点基频段的长度是否小于预设长度；

若是，则根据目标非零点基频段内基频的基频值，设置该零点基频段中基频的基频值，其中，该目标非零点基频段为与该零点基频段相邻的非零点基频段。

(4)排序单元304；

排序单元304，用于根据该基频差值对该音频集合内的音频进行排序。例如，可以如下：

该排序单元304，具体可以用于：

根据该目标子距离集合获取该音频对应的旋律距离总和；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

该音频排序装置具体可以集成在服务器等设备中。

由上可知，本发明实施例在接收到音频排序请求时，可以由音频获取单元302根据该音频排序请求获取目标歌曲对应的多个音频，以得到音频集合，然后，由基频处理单元303提取该音频集合内该音频对应的基频，并获取该音频集合内该音频之间的基频差值，由排序单元304根据该基频差值对该音频集合内的音频进行排序；由于该方案通过歌曲的多个音频之间的特征对比结果，来对音频进行排序，无需预先存储歌曲原唱的音频特征文件，相对于现有技术而言，可以节省服务器存储空间，从而增大服务器的可用存储空间。

实施例四、

此外，本发明实施例还提供一种服务器，其中可以集成本发明实施例的音频排序装置，如图4所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency，RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

RF电路403可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器401处理；另外，将涉及上行的数据发送给基站。通常，RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路403还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

服务器还包括给各个部件供电的电源404(比如电池)，优选的，电源可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元405，该输入单元405可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括显示单元406，该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元408可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。

具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

根据所述基频差值对所述音频集合内的音频进行排序。

上述操作具体可参见前面的方法实施例，在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种音频排序方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频排序方法，其特征在于，包括：

提取所述音频集合内所述音频对应的基频集合，并获取所述音频集合内所述音频对应的基频集合之间的基频差值；

根据所述基频差值，获取所述音频集合内的音频之间的旋律距离；

根据所述音频之间的旋律距离，对所述音频集合内的音频进行排序。

2.如权利要求1所述的音频排序方法，其特征在于，所述提取所述音频集合内所述音频对应的基频集合，包括：

对所述音频集合内的所述音频进行切割，以得到所述音频对应的多个音频段；

提取每个所述音频段的基频，以得所述音频对应的基频集合。

3.如权利要求2所述的音频排序方法，其特征在于，所述获取所述音频集合内音频对应的基频集合之间的基频差值，包括：

根据所述基频与其相邻的基频之间的基频差值，在所述基频集合中确定奇异基频；

将所述奇异基频的基频值置零，以得到置零后基频集合；

获取所述音频集合内所述音频对应的置零后基频集合之间的基频差值。

4.如权利要求3所述的音频排序方法，其特征在于，所述获取所述音频集合内所述音频对应的置零后基频集合之间的基频差值，包括：

在所述置零后基频集合中确定零点基频段和非零点基频段，所述零点基频段包括基频值为零的基频，所述非零点基频段包括基频值为非零的基频；

对非零点基频段中基频进行中值滤波处理；

设置所述零点基频段中基频的基频值，以得到设置后基频集合；

获取所述音频集合内所述音频对应的设置后基频集合之间的基频差值。

5.如权利要求4所述的音频排序方法，其特征在于，所述对非零点基频段中基频进行中值滤波处理，包括：

获取非零点基频段的长度；

根据所述长度获取对应的滤波窗口长度；

根据所述滤波窗口长度对所述非零点基频段中基频进行中值滤波处理。

6.如权利要求5所述音频排序方法，其特征在于，所述根据所述滤波窗口长度对所述非零点基频段中基频进行中值滤波处理，包括：

根据所述非零点基频段中基频和所述滤波窗口长度，在所述音频对应的置零后基频集合中选取滤波窗口；

获取所述滤波窗口对应的平均基频值；

将所述非零点基频段中基频的基频值设置为所述平均基频值。

7.如权利要求4所述的音频排序方法，其特征在于，所述设置所述零点基频段中基频的基频值，包括：

获取所述零点基频段的长度；

判断所述零点基频段的长度是否小于预设长度；

若是，则根据目标非零点基频段内基频的基频值，设置所述零点基频段中基频的基频值，其中，所述目标非零点基频段为与所述零点基频段相邻的非零点基频段。

8.如权利要求2所述的音频排序方法，其特征在于，所述根据所述音频之间的旋律距离，对所述音频集合内的音频进行排序，包括：

根据所述音频之间的旋律距离，得到旋律距离集合，其中，所述旋律距离为音频对应的基频集合之间的基频差值之和；

从所述旋律距离集合中选取所述音频集合内目标音频对应的旋律距离，以得到目标音频对应的目标子距离集合；

根据所述目标子距离集合获取所述音频对应的旋律距离总和；

根据所述音频对应的旋律距离总和，对所述音频集合内的音频进行排序。

9.一种音频排序装置，其特征在于，包括：

排序单元，用于根据所述基频差值，获取所述音频集合内的音频之间的旋律距离，根据所述音频之间的旋律距离，对所述音频集合内的音频进行排序。

10.如权利要求9所述的音频排序装置，其特征在于，所述基频处理单元具体用于：

提取每个所述音频段的基频，以得所述音频对应的基频集合；

获取所述音频集合内音频对应的基频集合之间的基频差值。

11.如权利要求10所述的音频排序装置，其特征在于，所述基频处理单元包括：切割子单元、基频提取子单元和差值获取子单元；

所述切割子单元，用于对所述音频集合内的所述音频进行切割，以得到所述音频对应的多个音频段；

所述基频提取子单元，用于提取每个所述音频段的基频，以得所述音频对应的基频集合；

所述差值获取子单元，具体用于：

将所述奇异基频的基频值置零，以得到置零后基频集合；

12.如权利要求11所述的音频排序装置，其特征在于，所述差值获取子单元，具体用于：

对非零点基频段中基频进行中值滤波处理；

13.如权利要求11所述的音频排序装置，其特征在于，所述排序单元，具体用于：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的音频排序方法中的步骤。