CN104091599A

CN104091599A - 一种音频文件的处理方法及装置

Info

Publication number: CN104091599A
Application number: CN201310303184.4A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2014-10-08
Anticipated expiration: 2033-07-18
Also published as: CN104091599B

Abstract

本发明实施例提供一种音频文件的处理方法及装置，其中的方法可包括：构建待处理的音频文件的特征参数序列；计算所述特征参数序列的统计特征值；根据所述特征参数序列的统计特征值，确定所述音频文件的类别。本发明可降低音频文件的处理成本，提高处理效率，提升智能性。

Description

一种音频文件的处理方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及音频处理技术领域，尤其一种音频文件的处理方法及装置。

背景技术

音频文件可以划分为音乐类别和语音类别，音乐类别的音频文件可指包含乐器音的音频文件，例如：纯乐器所演奏的音乐、包含乐器音的歌曲等等；语音类别的音频文件可指不包含乐器音的音频文件，例如：纯说话的声音、无乐器参与的清唱歌曲等等。传统的对音频文件的处理方式通常为人工方式，即需要人工收听音频文件的内容，以确定音频文件的类别；此种处理方式的人力资源成本较高、处理效率较低、智能性较低。

发明内容

本发明实施例提供一种音频文件的处理方法及装置，可降低音频文件的处理成本，提高处理效率，提升智能性。

本发明第一方面提供一种音频文件的处理方法，可包括：

构建待处理的音频文件的特征参数序列；

计算所述特征参数序列的统计特征值；

根据所述特征参数序列的统计特征值，确定所述音频文件的类别。

本发明第二方面提供一种音频文件的处理装置，可包括：

构建待处理的音频文件的特征参数序列；

计算所述特征参数序列的统计特征值；

实施本发明实施例，具有如下有益效果：

本发明实施例通过构建待处理的音频文件的特征参数序列，计算特征参数序列的统计特征值，从而可基于统计特征值确定音频文件的类别；由于基于音频文件的特征参数自动进行音频文件的类别确定处理，避免了人工方式所带来的资源耗费，降低了音频文件的处理成本，有效地提高了处理效率，提升了智能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频文件的处理方法的流程图；

图2为本发明实施例提供的另一种音频文件的处理方法的流程图；

图3为本发明实施例提供的又一种音频文件的处理方法的流程图；

图4为本发明实施例提供的又一种音频文件的处理方法的流程图；

图5为本发明实施例提供的又一种音频文件的处理方法的流程图；

图6为本发明实施例提供的一种音频文件的处理装置的结构示意图；

图7a为本发明实施例提供的构建模块的一个实施例的结构示意图；

图7b为本发明实施例提供的处理模块的一个实施例的结构示意图；

图8a为本发明实施例提供的构建模块的另一个实施例的结构示意图；

图8b为本发明实施例提供的处理模块的另一个实施例的结构示意图；

图9a为本发明实施例提供的构建模块的又一个实施例的结构示意图；

图9b为本发明实施例提供的处理模块的又一个实施例的结构示意图；

图10为本发明实施例提供的构建模块的又一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段、清唱歌曲、清唱歌曲片段、音乐、音乐片段、演奏乐、演奏乐片段、语音片段等文件。本发明实施例的音频文件的处理方案可以应用于互联网领域的多个场景中，例如：可以应用于查询互联网音频库中是否存在清唱文件的场景；或者，可以应用于对未知的音频文件进行分析，判断是否存在假的音乐（即确定是否为语音类别的音频文件，或者确定既非语音类别又非音乐类别的音频文件）的场景；或者，可结合即时通信应用，分析通过即时通信应用等提供的输入接口所输入的音频文件的类别的场景，并可进一步应用地对识别到的音频文件进行乐曲匹配的人机互动场景；或者，可应用于音频文件的分类搜索，以提升搜索的效率和匹配度的场景；或者，可应用于对不同类别的音频文件进行不同的音效处理的场景，等等。

下面将结合附图1-附图5，对本发明实施例提供的音频文件的处理方法进行详细介绍。

请参见图1，为本发明实施例提供的一种音频文件的处理方法的流程图；该方法可包括以下步骤S101-步骤S103。

S101，构建待处理的音频文件的特征参数序列。

所述特征参数序列可包括但不限于：过零率序列、频谱质心序列和频率序列中的至少一种。一个音频文件包括至少一帧音频帧信号，该音频文件可看作为由该至少一帧音频帧信号组成的帧序列；所述音频文件中各帧音频帧信号的顺序，即指各帧音频帧信号在所述音频文件的帧序列中的顺序。

其中，过零率指一帧音频帧信号中符号变化的比率。将一个音频文件包括的至少一帧音频帧信号中的各音频帧信号的过零率，按照所述音频文件中所述至少一帧音频帧信号的顺序进行排列，即构成所述音频文件的过零率序列。

其中，频谱质心指反映一帧音频帧信号的频率特性的一个特征量。将一个音频文件包括的至少一帧音频帧信号中的各音频帧信号的频谱质心，按照所述音频文件中所述至少一帧音频帧信号的顺序进行排列，即构成所述音频文件的频谱质心序列。

其中，本实施例的音频文件中每秒存在4次清浊音交替变换，因此可认为该音频文件的清浊音交替的频率为4Hz，周期为1s/4=0.25s。频率序列此处又可称为4Hz频率序列，可反映音频文件中的清浊音交替变换情况。

S102，计算所述特征参数序列的统计特征值。

其中，所述特征参数序列的统计特征值可包括但不限于：均值和/或标准差。需要说明的是，如果所述特征参数序列为过零率序列，本步骤计算所述过零率序列的标准差；如果所述特征参数序列为频谱质心序列，本步骤计算所述频谱质心序列的均值；如果所述特征参数序列为频率序列，本步骤计算所述频率序列的均值。当然，如果所述特征参数序列为所述过零率序列、频谱质心序列和频率序列中的两种或多种组合，本步骤则分别计算各序列相应的统计特征值。

S103，根据所述特征参数序列的统计特征值，确定所述音频文件的类别。

其中，所述音频文件的类别可包括音乐类别或语音类别；音乐类别的音频文件可指包含乐器音的音频文件，可以包括但不限于：纯乐器所演奏的音乐、包含乐器音的歌曲等等；语音类别的音频文件可指不包含乐器音的音频文件，可包括但不限于：纯说话的声音、无乐器参与的清唱歌曲等等。特征参数序列的统计特征值，可在一定程度上反应音频文件的类别特性，例如：由于语音类别的音频文件中清浊音的交替变化相对于音乐类别的音频文件中清浊音的交替变化更为频繁，因此语音类别的音频文件中各帧音频帧信号的符号变化的比率较大，而音乐类别的音频文件中各帧音频帧信号的符号变化的比率更小，本步骤中，如果某音频文件的过零率序列的标准差较大，则可确定该音频文件的类别为语音类别，反之，可确定该音频文件的类别为音乐类别；再如：由于音乐类别的音频文件中各帧音频帧信号的频谱质心通常较大，而语音类别的音频文件的各帧音频帧信号的频谱质心通常较小，本步骤中，如果某音频文件的频谱质心序列的均值较大，则可确定该音频文件的类别为音乐类别，反之，可确定该音频文件的类别为语音类别；等等。

请参见图2，为本发明实施例提供的另一种音频文件的处理方法的流程图；该方法可包括以下步骤S201-步骤S206。

S201，计算音频文件包含的每一帧音频帧信号的过零率。

本实施例中，一帧音频帧信号可表示为x(n)，n为正整数且n=0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。通过下述公式（1）可计算该帧音频帧信号的过零率，公式（1）可表示如下：

Z = \frac{1}{2} Σ_{n = 0}^{N - 1} | sgn [x (n)] - sgn [x (n - 1)] | - - - (1)

上述（1）中，Z表示过零率；sgn()函数的定义如下：

sgn (y) = \{\begin{matrix} 1, & (y &GreaterEqual; 0) \\ - 1, & (y < 0) \end{matrix}

本步骤中，根据上述公式（1）可计算获取音频文件的每帧音频帧信号的过零率。

S202，按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的过零率序列。

本步骤中，按照所述音频文件中各帧音频帧信号的顺序，可构建所述音频文件的过零率序列为Z(i)，Z(i)可表示如下：

Z (i) = \frac{1}{2} Σ_{n = 0}^{N - 1} | sgn [x_{i} (n)] - sgn [x_{i} (n - 1)] | - - - (2)

其中，设定音频文件包含M帧音频帧信号，M为正整数，则该音频文件包含的任一帧音频帧信号可表示为x_i(n)，其中，i表示所述音频文件中该帧音频帧信号的顺序，i为正整数且i=1,2,...M；n为正整数且n=0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。

本实施例的步骤S201-步骤S202可以为图1所示实施例的步骤S101的具体细化步骤。

S203，计算所述过零率序列的标准差。

本步骤中，所述过零率序列Z(i)的标准差可表示为std₁，该std₁可采用下述公式（3）计算获得。

{std}_{1} = \sqrt{\frac{1}{M} Σ_{i = 1}^{M} {(Z (i) - E_{1})}^{2}} - - - (3)

上述（3）中，E₁表示过零率序列Z(i)的均值，该均值可采用下述公式（4）计算获得。

E_{1} = \frac{1}{M} Σ_{i = 1}^{M} Z (i) - - - (4)

S204，判断所述过零率序列的标准差是否大于预设第一阈值；如果判断结果为是，转入步骤S205；否则，转入步骤S206。

其中，第一阈值可根据实际需要进行设定。由于语音类别的音频文件中清浊音的交替变化相对于音乐类别的音频文件中清浊音的交替变化更为频繁，因此语音类别的音频文件中各帧音频帧信号的符号变化的比率较大，而音乐类别的音频文件中各帧音频帧信号的符号变化的比率更小；本发明实施例中，可统计已知类别的音频文件清浊音的交替变化情况，以统计结果作为基础设定第一阈值，等等。本步骤中，如果判断std₁大于预设第一阈值，则表明该待处理的音频文件中清浊音的交替变化相对较为频繁，则可转入步骤S205进行处理；如果判断std₁小于或等于预设第一阈值，则表明该待处理的音频文件中清浊音的交替变化相对较少，可转入步骤S206进行处理。

S205，确定所述音频文件的类别为语音类别，之后转入结束。

其中，语音类别的音频文件可指不包含乐器音的音频文件，可包括但不限于：纯说话的声音、无乐器参与的清唱歌曲等等。

S206，确定所述音频文件的类别为音乐类别，之后转入结束。

其中，音乐类别的音频文件可指包含乐器音的音频文件，可以包括但不限于：纯乐器所演奏的音乐、包含乐器音的歌曲等等。

本实施例的步骤S204-步骤S206可以为图1所示实施例的步骤S103的具体细化步骤。

请参见图3，为本发明实施例提供的又一种音频文件的处理方法的流程图；该方法可包括以下步骤S301-步骤S306。

S301，计算音频文件包含的每一帧音频帧信号的频谱质心。

本实施例中，一帧音频帧信号可表示为x(n)，n为正整数且n=0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。x(n)的幅度谱可表示为X(n)，X(n)可采用下述公式（5）计算得到：

X(n)=abs[fft(x(n))] （5）

上述（5）中，abs[]为求模运算或绝对值运算；fft(x(n))为x(n)的快速傅里叶变换，n=0,1,2,N-1且N的值为2的冥。

通过下述公式（6）可计算该音频帧信号的频谱质心，该频谱质心可用C表示，公式（6）可表示如下：

C = \frac{Σ_{n = 0}^{N - 1} X (n) * n}{Σ_{n = 0}^{N - 1} X (n)} - - - (6)

本步骤中，通过上述（6）可计算获取音频文件的每帧音频帧信号的频谱质心。

S302，按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的频谱质心序列。

本步骤中，按照所述音频文件中各帧音频帧信号的顺序，可构建所述音频文件的频谱质心序列为C(i)，C(i)可表示如下：

C (i) = \frac{Σ_{n = 0}^{N - 1} X_{i} (n) * n}{Σ_{n = 0}^{N - 1} X_{i} (n)} - - - (7)

其中，设定音频文件包含M帧音频帧信号，M为正整数，则该音频文件包含的任一帧音频帧信号可表示为x_i(n)，其中，i表示该所述音频文件中该帧音频帧信号的顺序，i为正整数且i=1,2,...M；n为正整数且n=0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。x_i(n)的幅度谱可表示为X_i(n)，X_i(n)可采用下述公式（8）计算得到：

X_i(n)=abs[fft(x_i(n))] （8）

上述（8）中，abs[]为求模运算或绝对值运算；fft(x_i(n))为x_i(n)的快速傅里叶变换，n=0,1,2,N-1且N的值为2的冥。

本实施例的步骤S301-步骤S302可以为图1所示实施例的步骤S101的具体细化步骤。

S303，计算所述频谱质心序列的均值。

本步骤中，所述频谱质心序列C(i)的均值可表示为E₂，该E₂可采用下述公式（9）计算获得。

E_{2} = \frac{1}{M} Σ_{i = 1}^{M} C (i) - - - (9)

S304，判断所述频谱质心序列的均值是否小于预设第二阈值；如果判断结果为是，转入步骤S305；否则，转入步骤S306。

其中，第二阈值可根据实际需要进行设定。由于音乐类别的音频文件中各帧音频帧信号的频谱质心通常较大，而语音类别的音频文件的各帧音频帧信号的频谱质心通常较小；本发明实施例中，可统计已知类别的音频文件频谱质心情况，以统计结果作为基础设定第二阈值，等等。本步骤中，如果判断E₂小于预设第二阈值，则表明该待处理的音频文件中频谱质心较小，则可转入步骤S305进行处理；如果判断E₂大于或等于预设第二阈值，则表明该待处理的音频文件中频谱质心较大，可转入步骤S306进行处理。

S305，确定所述音频文件的类别为语音类别；之后转入结束。

S306，确定所述音频文件的类别为音乐类别；之后转入结束。

本实施例的步骤S304-步骤S306可以为图1所示实施例的步骤S103的具体细化步骤。

请参见图4，为本发明实施例提供的又一种音频文件的处理方法的流程图?该方法可包括以下步骤S401-步骤S407。

S401，计算音频文件包含的每一帧音频帧信号的过零率。

S402，按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的过零率序列。

本实施例的步骤S401-步骤S402可参见图2所示实施例的步骤S201-步骤S202，在此不赘述。可以理解的是，经过步骤S401-步骤S402，可构建所述音频文件的过零率序列为Z(i)。

S403，根据预设的帧间隔，对所述过零率序列进行滑动运算，获得所述音频文件的频率序列。

本发明实施例中，音频文件中一次清浊音变换的周期为0.25s，设定该音频文件包含M帧音频帧信号，M为正整数。其中，所述预设的帧间隔可采用TN表示，该TN的取值优选可采用下述公式（10）进行设定：

TN = \frac{0.25}{T_{s}} - - - (10)

上述公式（10）中，T_s表示所述音频文件的帧移。

本步骤中，可根据下述公式（11）获得音频文件的频率序列，该频率序列可表示为F4(i)，该公式（11）可表示如下：

F4(i)=abs(Z(i)-Z(i+TN)) （11）

上述公式（11）中，i为正整数且i=1,2,...M-TN。

本实施例的步骤S401-步骤S403可以为图1所示实施例的步骤S101的具体细化步骤。

S404，计算所述频率序列的均值。

本步骤中，所述频率序列F4(i)的均值可表示为E₃，该E₃可采用下述公式（12）计算获得。

E_{3} = \frac{1}{M} Σ_{i = 1}^{M - TN} F 4 (i) - - - (12)

S405，判断所述频率序列的均值是否大于预设第三阈值；如果判断结果为是，转入步骤S406；否则，转入步骤S407。

其中，第三阈值可根据实际需要进行设定，例如：可统计已知类别的音频文件4Hz频率情况，以统计结果作为基础设定第三阈值，等等。本步骤中，如果判断E₃大于预设第三阈值，则可转入步骤S406进行处理；如果判断E₃小于或等于预设第三阈值，则可转入步骤S407进行处理。

S406，确定所述音频文件的类别为语音类别；之后转入结束。

S407，确定所述音频文件的类别为音乐类别；之后转入结束。

本实施例的步骤S405-步骤S407可以为图1所示实施例的步骤S103的具体细化步骤。

请参见图5，为本发明实施例提供的又一种音频文件的处理方法的流程图；该方法可包括以下步骤S501-步骤S507。

S501，计算音频文件包含的每一帧音频帧信号的频谱质心。

S502，按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的频谱质心序列。

本实施例的步骤S501-步骤S502可参见图3所示实施例的步骤S301-步骤S302，在此不赘述。可以理解的是，经过步骤S501-步骤S502，可构建所述音频文件的频谱质心序列为C(i)。

S503，根据预设的帧间隔，对所述频谱质心序列进行滑动运算，获得所述音频文件的频率序列。

本发明实施例中，音频文件中一次清浊音变换的周期为0.25s，设定该音频文件包含M帧音频帧信号，M为正整数。其中，所述预设的帧间隔可采用TN表示，该TN的取值优选可采用图4所示的公式（10）进行设定。

本步骤中，可根据下述公式（13）获得音频文件的频率序列，该频率序列可表示为F4(i)，该公式（13）可表示如下：

F4(i)=abs(C(i)-C(i+TN)) （13）

上述公式（13）中，i为正整数且i=1,2,...M-TN。

本实施例的步骤S501-步骤S503可以为图1所示实施例的步骤S101的具体细化步骤。

S504，计算所述频率序列的均值。

S505，判断所述频率序列的均值是否大于预设第三阈值；如果判断结果为是，转入步骤S406；否则，转入步骤S407。

S506，确定所述音频文件的类别为语音类别；之后转入结束。

S507，确定所述音频文件的类别为音乐类别；之后转入结束。

本实施例的步骤S504-步骤S507可以参见图4所示实施例的步骤S404-步骤S407，在此不赘述。本实施例的步骤S505-步骤S507可以为图1所示实施例的步骤S103的具体细化步骤。

需要说明的是，图2所示实施例阐述了基于音频文件的过零率序列，对音频文件进行处理的过程；图3所示实施例阐述了基于音频文件的频谱质心序列，对音频文件进行处理的过程；图4和图5所示实施例阐述了基于音频文件的频率序列，对音频文件进行处理的过程。实际应用中，可根据实际情况，选择图2、图3和图4（或图5）所示的任一个实施例或多个实施例的组合，实现对音频文件的处理，例如：可结合图2-图4（或图5）所示的任意两个实施例，基于音频文件的两个特征参数序列对音频文件进行处理，当基于该两个特征参数序列均确定音频文件的类别为语音类别时，由此确定该音频文件的类别为语音类别；当基于该两个特征参数序列均确定音频文件的类别为音乐类别时，由此确定该音频文件的类别为音乐类别；再如：可结合图2-图4（或图5）所示三个实施例，基于音频文件的三个特征参数序列对音频文件进行处理，当基于该三个特征参数序列中的至少两个特征参数序列均确定音频文件的类别为语音类别时，由此确定该音频文件的类别为语音类别；当基于该三个特征参数序列中的至少两个特征参数序列均确定音频文件的类别为音乐类别时，由此确定该音频文件的类别为音乐类别。

通过上述图1-图5所示实施例的描述，本发明实施例通过构建待处理的音频文件的特征参数序列，计算特征参数序列的统计特征值，从而可基于统计特征值确定音频文件的类别；由于基于音频文件的特征参数自动进行音频文件的类别确定处理，避免了人工方式所带来的资源耗费，降低了音频文件的处理成本，有效地提高了处理效率，提升了智能性。

下面将结合附图6-附图10，对本发明实施例提供的一种音频文件的处理装置进行详细介绍。需要说明的是，附图6-附图10所示的装置，可安装于终端设备（如：PC（Personal Computer，个人计算机）、PAD（平板电脑）、手机、智能手机、笔记本电脑等设备）或服务器中，用于执行本发明图1-图5所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1-图5所示的实施例。

请参见图6，为本发明实施例提供的一种音频文件的处理装置的结构示意图；该装置可包括：构建模块101、计算模块102和处理模块103。

构建模块101，用于构建待处理的音频文件的特征参数序列。

其中，本实施例的4Hz指音频文件中每秒存在4次清浊音交替变换，因此可认为该音频文件的清浊音交替的频率为4Hz，周期为1s/4=0.25s。频率序列此处又可称为4Hz频率序列，可反映音频文件中的清浊音交替变换情况。

计算模块102，用于计算所述特征参数序列的统计特征值。

其中，所述特征参数序列的统计特征值可包括但不限于：均值和/或标准差。需要说明的是，如果所述特征参数序列为过零率序列，所述计算模块102计算所述过零率序列的标准差；如果所述特征参数序列为频谱质心序列，所述计算模块102计算所述频谱质心序列的均值；如果所述特征参数序列为频率序列，所述计算模块102计算所述频率序列的均值。当然，如果所述特征参数序列为所述过零率序列、频谱质心序列和频率序列中的两种或多种组合，所述计算模块102则分别计算各序列相应的统计特征值。

处理模块103，用于根据所述特征参数序列的统计特征值，确定所述音频文件的类别。

其中，所述音频文件的类别可包括音乐类别或语音类别；音乐类别的音频文件可指包含乐器音的音频文件，可以包括但不限于：纯乐器所演奏的音乐、包含乐器音的歌曲等等；语音类别的音频文件可指不包含乐器音的音频文件，可包括但不限于：纯说话的声音、无乐器参与的清唱歌曲等等。特征参数序列的统计特征值，可在一定程度上反应音频文件的类别特性，例如：由于语音类别的音频文件中清浊音的交替变化相对于音乐类别的音频文件中清浊音的交替变化更为频繁，因此语音类别的音频文件中各帧音频帧信号的符号变化的比率较大，而音乐类别的音频文件中各帧音频帧信号的符号变化的比率更小，如果某音频文件的过零率序列的标准差较大，所述处理模块103可确定该音频文件的类别为语音类别，反之，可确定该音频文件的类别为音乐类别；再如：由于音乐类别的音频文件中各帧音频帧信号的频谱质心通常较大，而语音类别的音频文件的各帧音频帧信号的频谱质心通常较小，如果某音频文件的频谱质心序列的均值较大，所述处理模块103可确定该音频文件的类别为音乐类别，反之，可确定该音频文件的类别为语音类别；等等。

图6所示的音频文件的处理装置的结构可存在以下四种可行的实施方式：

在第一种可行的实施方式中，所述音频文件的处理装置可基于音频文件的过零率序列，执行图2所示实施例的方法流程以实现对音频文件进行处理；该实施方式中，该装置的具体结构可如下图7所示：

请参见图7a，为本发明实施例提供的构建模块的一个实施例的结构示意图；该构建模块101可包括：第一计算单元1101和第一构建单元1102。

第一计算单元1101，用于计算所述音频文件包含的每一帧音频帧信号的过零率。

本实施例中，一帧音频帧信号可表示为x(n)，n为正整数且n=0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。所述第一计算单元1101根据图2所示实施例中的公式（1）可计算获取音频文件的每帧音频帧信号的过零率。

第一构建单元1102，用于按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的过零率序列。

所述第一构建单元1102按照所述音频文件中各帧音频帧信号的顺序，可构建所述音频文件的过零率序列为Z(i)，Z(i)可表示如图2所示实施例中的公式（2）。

需要说明的是，本实施方式中，图7a构建的所述音频文件的过零率序列Z(i)的统计特征值为标准差，Z(i)的标准差可采用图2所示实施例中的公式（3）计算获得。

请参见图7b，为本发明实施例提供的处理模块的一个实施例的结构示意图；该处理模块103可包括：第一判断单元1301和第一处理单元1302。

第一判断单元1301，用于判断所述过零率序列的标准差是否大于预设第一阈值。

其中，第一阈值可根据实际需要进行设定。由于语音类别的音频文件中清浊音的交替变化相对于音乐类别的音频文件中清浊音的交替变化更为频繁，因此语音类别的音频文件中各帧音频帧信号的符号变化的比率较大，而音乐类别的音频文件中各帧音频帧信号的符号变化的比率更小；本发明实施例中，可统计已知类别的音频文件清浊音的交替变化情况，以统计结果作为基础设定第一阈值，等等。

第一处理单元1302，用于如果所述过零率序列的标准差大于预设第一阈值，确定所述音频文件的类别为语音类别；或者，用于如果所述过零率序列的标准差小于或等于预设第一阈值，确定所述音频文件的类别为音乐类别。

如果判断Z(i)的标准差std₁大于预设第一阈值，则表明该待处理的音频文件中清浊音的交替变化相对较为频繁，所述第一处理单元1302可确定所述音频文件的类别为语音类别；如果判断Z(i)的标准差std₁小于或等于预设第一阈值，则表明该待处理的音频文件中清浊音的交替变化相对较少，所述第一处理单元1302可确定所述音频文件的类别为音乐类别。

在第二种可行的实施方式中，所述音频文件的处理装置可基于音频文件的频谱质心序列，执行图3所示实施例的方法流程以实现对音频文件进行处理；该实施方式中，该装置的具体结构可如下图8所示：

请参见图8a，为本发明实施例提供的构建模块的另一个实施例的结构示意图；该构建模块101可包括：第二计算单元1111和第二构建单元1112。

第二计算单元1111，用于计算所述音频文件包含的每一帧音频帧信号的频谱质心。

本实施例中，一帧音频帧信号可表示为x(n)，n为正整数且n=0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。x(n)的幅度谱可表示为X(n)，X(n)可采用图3所示实施例中的公式（5）计算得到。所述第二计算单元1111通过图3所示实施例中的公式（6）可计算获取音频文件的每帧音频帧信号的频谱质心。

第二构建单元1112，用于按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的频谱质心序列。

所述第二构建单元1112按照所述音频文件中各帧音频帧信号的顺序，可构建所述音频文件的频谱质心序列为C(i)，C(i)可表示如图3所示实施例中的公式（7）。

需要说明的是，本实施方式中，图8a构建的所述音频文件的频谱质心序列C(i)的统计特征值为均值，C(i)的均值可采用图3所示实施例中的公式（9）计算获得。

请参见图8b，为本发明实施例提供的处理模块的另一个实施例的结构示意图；该处理模块103可包括：第二判断单元1311和第二处理单元1312。

第二判断单元1311，用于判断所述频谱质心序列的均值是否小于预设第二阈值。

其中，第二阈值可根据实际需要进行设定。由于音乐类别的音频文件中各帧音频帧信号的频谱质心通常较大，而语音类别的音频文件的各帧音频帧信号的频谱质心通常较小；本发明实施例中，可统计已知类别的音频文件频谱质心情况，以统计结果作为基础设定第二阈值，等等。

第二处理单元1312，用于如果所述频谱质心序列的均值小于预设第二阈值，确定所述音频文件的类别为语音类别；或者，用于如果所述频谱质心序列的均值大于或等于预设第二阈值，确定所述音频文件的类别为音乐类别。

如果判断C(i)的均值E₂小于预设第二阈值，则表明该待处理的音频文件中频谱质心较小，所述第二处理单元1312可确定所述音频文件的类别为语音类别；如果判断C(i)的均值E₂大于或等于预设第二阈值，则表明该待处理的音频文件中频谱质心较大，所述第二处理单元1312可确定所述音频文件的类别为音乐类别。

在第三种可行的实施方式中，所述音频文件的处理装置可基于音频文件的频率序列，执行图4所示实施例的方法流程以实现对音频文件进行处理；该实施方式中，该装置的具体结构可如下图9所示：

请参见图9a，为本发明实施例提供的构建模块的又一个实施例的结构示意图；该构建模块101可包括：第三计算单元1121、第三构建单元1122和第一滑动运算单元1123。

第三计算单元1121，用于计算所述音频文件包含的每一帧音频帧信号的过零率。

第三构建单元1122，用于按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的过零率序列。

所述第三计算单元1121的计算过程可参见图7a所示的第一计算单元1101的计算过程，所述第三构建单元1122的构建过程可参见图7a所示的第一构建单元1102的构建过程，在此不赘述。所述第三构建单元1122可构建所述音频文件的过零率序列为Z(i)。

第一滑动运算单元1123，用于根据预设的帧间隔，对所述过零率序列进行滑动运算，获得所述音频文件的频率序列。

本发明实施例中，音频文件中一次清浊音变换的周期为0.25s，设定该音频文件包含M帧音频帧信号，M为正整数。其中，所述预设的帧间隔可采用TN表示，该TN的取值优选可采用图4所示实施例中的公式（10）进行设定。所述第一滑动运算单元1123可根据图4所示实施例中的公式（11）获得音频文件的频率序列，该频率序列可表示为F4(i)。

需要说明的是，本实施方式中，图9a构建的所述音频文件的4Hz频谱序列F4(i)的统计特征值为均值，F4(i)的均值可采用图4所示实施例中的公式（12）计算获得。

请参见图9b，为本发明实施例提供的处理模块的又一个实施例的结构示意图；该处理模块103可包括：第三判断单元1321和第三处理单元1322。

第三判断单元1321，用于判断所述频率序列的均值是否大于预设第三阈值。

其中，第三阈值可根据实际需要进行设定，例如：可统计已知类别的音频文件4Hz频率情况，以统计结果作为基础设定第三阈值，等等。

第三处理单元1322，用于如果所述频率序列的均值大于预设第三阈值，确定所述音频文件的类别为语音类别；或者，用于如果所述频率序列的均值小于或等于预设第三阈值，确定所述音频文件的类别为音乐类别。

如果判断F4(i)的均值E₃大于预设第三阈值，第三处理单元1322可确定所述音频文件的类别为语音类别；如果判断F4(i)的均值E₃小于或等于预设第三阈值，第三处理单元1322可确定所述音频文件的类别为音乐类别。

在第四种可行的实施方式中，所述音频文件的处理装置可基于音频文件的频率序列，执行图5所示实施例的方法流程以实现对音频文件进行处理；该实施方式中，该装置的具体结构可如下图10所示：

请参见图10，为本发明实施例提供的构建模块的又一个实施例的结构示意图；该构建模块101可包括：第四计算单元1131、第四构建单元1132和第二滑动运算单元1133。

第四计算单元1131，用于计算所述音频文件包含的每一帧音频帧信号的频谱质心。

第四构建单元1132，用于按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的频谱质心序列。

所述第四计算单元1131的计算过程可参见图8a所示的第二计算单元1111的计算过程，所述第四构建单元1132的构建过程可参见图8a所示的第二构建单元1112的构建过程，在此不赘述。所述第四构建单元1132可构建所述音频文件的频谱质心序列为C(i)。

第二滑动运算单元1133，用于根据预设的帧间隔，对所述频谱质心序列进行滑动运算，获得所述音频文件的频率序列。

本发明实施例中，音频文件中一次清浊音变换的周期为0.25s，设定该音频文件包含M帧音频帧信号，M为正整数。其中，所述预设的帧间隔可采用TN表示，该TN的取值优选可采用图4所示实施例中的公式（10）进行设定。所述第二滑动运算单元1133可根据图5所示实施例中的公式（13）获得音频文件的频率序列，该频率序列可表示为F4(i)。

需要说明的是，本实施方式中，图10构建的所述音频文件的4Hz频谱序列F4(i)的统计特征值为均值，F4(i)的均值可采用图4所示实施例中的公式（12）计算获得。本实施方式中，所述处理模块103的结构和功能可参见图9b所示，在此不赘述。

实际应用中，可根据实际情况，选择图6所示的音频文件的处理装置的四种可行的实施方式中的任一个或多个实施方式的组合，通过执行图2-图5所示的任一个或多个实施例的方法，以实现对音频文件的处理。

通过上述图6-图10所示实施例的描述，本发明实施例通过构建待处理的音频文件的特征参数序列，计算特征参数序列的统计特征值，从而可基于统计特征值确定音频文件的类别；由于基于音频文件的特征参数自动进行音频文件的类别确定处理，避免了人工方式所带来的资源耗费，降低了音频文件的处理成本，有效地提高了处理效率，提升了智能性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，附图6-附图10所示音频文件的处理装置的模块或单元对应的程序可存储在终端设备或服务器的可读存储介质内，并被该终端设备或服务器中的至少一个处理器执行，以实现上述音频文件的处理方法，该方法包括图1至图5中各方法实施例所述的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体（RandomAccess Memory，RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频文件的处理方法，其特征在于，包括；

构建待处理的音频文件的特征参数序列;

计算所述特征参数序列的统计特征值；

2.如权利要求1所述的方法，其特征在于，所述特征参数序列包括：过零率序列、频谱质心序列和频率序列中的至少一种；

所述统计特征值包括：均值和/或标准差；

所述音频文件的类别包括：语音类别或音乐类别。

3.如权利要求2所述的方法，其特征在于，所述特征参数序列包括：过零率序列；

所述构建待处理的音频文件的特征参数序列，包括：

计算所述音频文件包含的每一帧音频帧信号的过零率；

按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的过零率序列。

4.如权利要求3所述的方法，其特征在于，所述统计特征值为：标准差；

所述根据所述特征参数序列的统计特征值，确定所述音频文件的类别，包括：

判断所述过零率序列的标准差是否大于预设第一阈值；

如果所述过零率序列的标准差大于预设第一阈值，确定所述音频文件的类别为语音类别；

如果所述过零率序列的标准差小于或等于预设第一阈值，确定所述音频文件的类别为音乐类别。

5.如权利要求2所述的方法，其特征在于，所述特征参数序列包括：频谱质心序列；

所述构建待处理的音频文件的特征参数序列，包括：

计算所述音频文件包含的每一帧音频帧信号的频谱质心；

按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的频谱质心序列。

6.如权利要求5所述的方法，其特征在于，所述统计特征值为：均值；

判断所述频谱质心序列的均值是否小于预设第二阈值；

如果所述频谱质心序列的均值小于预设第二阈值，确定所述音频文件的类别为语音类别；

如果所述频谱质心序列的均值大于或等于预设第二阈值，确定所述音频文件的类别为音乐类别。

7.如权利要求2所述的方法，其特征在于，所述特征参数序列包括：频率序列；

所述构建待处理的音频文件的特征参数序列，包括：

计算所述音频文件包含的每一帧音频帧信号的过零率；

按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的过零率序列；

根据预设的帧间隔，对所述过零率序列进行滑动运算，获得所述音频文件的频率序列。

8.如权利要求2所述的方法，其特征在于，所述特征参数序列包括：频率序列；

所述构建待处理的音频文件的特征参数序列，包括：

计算所述音频文件包含的每一帧音频帧信号的频谱质心；

按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的频谱质心序列；

根据预设的帧间隔，对所述频谱质心序列进行滑动运算，获得所述音频文件的频率序列。

9.如权利要求7或8所述的方法，其特征在于，所述统计特征值为：均值；

判断所述频率序列的均值是否大于预设第三阈值；

如果所述频率序列的均值大于预设第三阈值，确定所述音频文件的类别为语音类别；

如果所述频率序列的均值小于或等于预设第三阈值，确定所述音频文件的类别为音乐类别。

10.一种音频文件的处理装置，其特征在于，包括：

构建模块，用于构建待处理的音频文件的特征参数序列；

计算模块，用于计算所述特征参数序列的统计特征值；

处理模块，用于根据所述特征参数序列的统计特征值，确定所述音频文件的类别。

11.如权利要求10所述的装置，其特征在于，所述特征参数序列包括：过零率序列、频谱质心序列和频率序列中的至少一种；

所述统计特征值包括：均值和/或标准差；

所述音频文件的类别包括：语音类别或音乐类别。

12.如权利要求11所述的装置，其特征在于，所述特征参数序列包括：过零率序列；所述构建模块包括：

第一计算单元，用于计算所述音频文件包含的每一帧音频帧信号的过零率；

第一构建单元，用于按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的过零率序列。

13.如权利要求12所述的装置，其特征在于，所述统计特征值为：标准差；所述处理模块包括：

第一判断单元，用于判断所述过零率序列的标准差是否大于预设第一阈值；

第一处理单元，用于如果所述过零率序列的标准差大于预设第一阈值，确定所述音频文件的类别为语音类别；或者，用于如果所述过零率序列的标准差小于或等于预设第一阈值，确定所述音频文件的类别为音乐类别。

14.如权利要求11所述的装置，其特征在于，所述特征参数序列包括：频谱质心序列；所述构建模块包括：

第二计算单元，用于计算所述音频文件包含的每一帧音频帧信号的频谱质心；

第二构建单元，用于按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的频谱质心序列。

15.如权利要求14所述的装置，其特征在于，所述统计特征值为：均值；所述处理模块包括：

第二判断单元，用于判断所述频谱质心序列的均值是否小于预设第二阈值；

第二处理单元，用于如果所述频谱质心序列的均值小于预设第二阈值，确定所述音频文件的类别为语音类别；或者，用于如果所述频谱质心序列的均值大于或等于预设第二阈值，确定所述音频文件的类别为音乐类别。

16.如权利要求14所述的装置，其特征在于，所述特征参数序列包括：频率序列；所述构建模块包括：

第三计算单元，用于计算所述音频文件包含的每一帧音频帧信号的过零率；

第三构建单元，用于按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的过零率序列；

第一滑动运算单元，用于根据预设的帧间隔，对所述过零率序列进行滑动运算，获得所述音频文件的频率序列。

17.如权利要求14所述的装置，其特征在于，所述特征参数序列包括：频率序列；所述构建模块包括：

第四计算单元，用于计算所述音频文件包含的每一帧音频帧信号的频谱质心；

第四构建单元，用于按照所述音频文件中各帧音频帧信号的顺序，构建所述音频文件的频谱质心序列；

第二滑动运算单元，用于根据预设的帧间隔，对所述频谱质心序列进行滑动运算，获得所述音频文件的频率序列。

18.如权利要求16或17所述的装置，其特征在于，所述统计特征值为：均值；所述处理模块包括：

第三判断单元，用于判断所述频率序列的均值是否大于预设第三阈值；

第三处理单元，用于如果所述频率序列的均值大于预设第三阈值，确定所述音频文件的类别为语音类别；或者，用于如果所述频率序列的均值小于或等于预设第三阈值，确定所述音频文件的类别为音乐类别。