CN114333801A

CN114333801A - 一种音频分类方法和装置以及设备

Info

Publication number: CN114333801A
Application number: CN202111649604.5A
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12

Abstract

本发明公开了一种音频分类方法和装置以及设备。其中，所述方法包括：计算每段长度为L＝N₁/1段的音频段的2ⁿ点的快速傅里叶变换值，并计算该快速傅里叶变换值的最大值F_max，其中，该n为正整数，和根据该快速傅里叶变换值的最大值F_max，计算该长度为N1的音频信号中的快速傅里叶变换值大于n₂F_max的音频段，其中，n₂为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a2，以及根据该a₁、a₂的大小，输出该每段长度为L＝N₁/1段的音频段的分类类别。通过上述方式，能够实现通过去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，和将该长度为N1的音频信号分段为长度为L＝N1/1段的音频段来进行音频分类的方式，提高对音频进行分类的准确率。

Description

一种音频分类方法和装置以及设备

技术领域

本发明涉及音频分类技术领域，尤其涉及一种音频分类方法和装置以及设备。

背景技术

音频特征提取是音频信号识别的关键环节，从许多音频特征中选取一组对音频信号分类最优小的特征作为音频特征向量，可以准确地识别不同的音频信号。

然而，现有的音频分类方案，一般是采用基于各种音频信号的不同特征值的分类模式对音频进行分类，一般是通过对音频信号短时能量建模分析，并结合短时能量方差值实现音频是语音信号、还是音乐信号的分类，进一步又将灰色关联分析应用于音频是语音信号、还是音乐信号的分类，该采用基于各种音频信号的不同特征值的分类模式对音频进行分类的方式，由于分类算法所用特征参数少，最多仅用到音频的两个特征参数，导致对音频进行分类的准确率一般。

发明内容

有鉴于此，本发明的目的在于提出一种音频分类方法和装置以及设备，能够提高对音频进行分类的准确率

根据本发明的一个方面，提供一种音频分类方法，包括：对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除所述得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号；将所述长度为N1的音频信号分段为长度为L＝N1/1段的音频段，其中1为每段音频信号的长度；根据所述每段长度为L＝N₁/1段的音频段，计算所述长度为N1的音频信号的短时平均过零率最大值Z_max；根据所述短时平均过零率最大值Z_max，计算所述长度为N1的音频信号中短时平均过零率大于n₁Z_max的音频段；其中， n₁为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a₁；计算所述每段长度为L＝N₁/1段的音频段的2ⁿ点的快速傅里叶变换值，并计算所述快速傅里叶变换值的最大值F_max；其中，所述n为正整数；

根据所述快速傅里叶变换值的最大值F_max，计算所述长度为N1的音频信号中的快速傅里叶变换值大于n₂F_max的音频段；其中，n₂为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a2；根据所述a₁、a₂的大小，输出所述每段长度为 L＝N₁/1段的音频段的分类类别。

其中，所述对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除所述得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，包括：对长度为N的音频信号进行端点检测，对所述长度为N的音频信号做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+ i_c)/i_c计算每一帧的短时能量E，得到端点检测后的音频数据，去除所述得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号。

其中，所述根据所述每段长度为L＝N₁/1段的音频段，计算所述长度为N1 的音频信号的短时平均过零率最大值Z_max，包括：对所述每段长度为L＝N₁/1 段的音频段做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时平均过零率，根据所述计算得到的每一帧的短时平均过零率，计算所述长度为N1的音频信号的短时平均过零率最大值Z_max。

其中，所述根据所述a₁、a₂的大小，输出所述每段长度为L＝N₁/1段的音频段的分类类别，包括：根据所述a₁、a₂的大小，设置被分类为语音信号的段数为v，被分类为音乐信号的段数为m，则所述长度为N1的音频信号被分类为语音信号的概率为v/L，被分类为音乐信号的概率为m/L，若v/L≥m/L，则输出所述每段长度为L＝N₁/1段的音频段的分类类别为语音信号，若v/L<m/L，则输出所述每段长度为L＝N₁/1段的音频段的分类类别为音乐信号。

根据本发明的另一个方面，提供一种音频分类装置，包括：检测模块、分段模块、计算模块和输出模块；所述检测模块，用于对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除所述得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号；所述分段模块，用于将所述长度为N1的音频信号分段为长度为L＝N1/1段的音频段，其中1为每段音频信号的长度；

所述计算模块，用于根据所述每段长度为L＝N₁/1段的音频段，计算所述长度为N1的音频信号的短时平均过零率最大值Z_max，和根据所述短时平均过零率最大值Z_max，计算所述长度为N1的音频信号中短时平均过零率大于n₁Z_max的音频段，其中，n₁为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a₁，和计算所述每段长度为L＝N₁/1段的音频段的2ⁿ点的快速傅里叶变换值，并计算所述快速傅里叶变换值的最大值F_max，其中，所述n为正整数，和根据所述快速傅里叶变换值的最大值F_max，计算所述长度为N1的音频信号中的快速傅里叶变换值大于n₂F_max的音频段，其中，n₂为大于0和小于1的数值，其中，0＜n₁＜ 1的帧数为a2；所述输出模块，用于根据所述a₁、a₂的大小，输出所述每段长度为L＝N₁/1段的音频段的分类类别。

其中，所述检测模块，具体用于：对长度为N的音频信号进行端点检测，对所述长度为N的音频信号做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝ (N-w₁+i_c)/i_c计算每一帧的短时能量E，得到端点检测后的音频数据，去除所述得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号。

其中，所述计算模块，具体用于：对所述每段长度为L＝N₁/1段的音频段做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时平均过零率，根据所述计算得到的每一帧的短时平均过零率，计算所述长度为N1的音频信号的短时平均过零率最大值Z_max。

其中，所述输出模块，具体用于：根据所述a₁、a₂的大小，设置被分类为语音信号的段数为v，被分类为音乐信号的段数为m，则所述长度为N1的音频信号被分类为语音信号的概率为v/L，被分类为音乐信号的概率为m/L，若 v/L≥m/L，则输出所述每段长度为L＝N₁/1段的音频段的分类类别为语音信号，若v/L<m/L，则输出所述每段长度为L＝N₁/1段的音频段的分类类别为音乐信号。

根据本发明的又一个方面，提供一种音频分类设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一项所述的音频分类方法。

根据本发明的再一个方面，提供一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述任一项所述的音频分类方法。

可以发现，以上方案，可以对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，和可以将该长度为N1的音频信号分段为长度为L＝N1/1段的音频段，其中1为每段音频信号的长度，和可以根据该短时平均过零率最大值Z_max，计算该长度为N1的音频信号中短时平均过零率大于 n₁Z_max的音频段，其中，n₁为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a₁，和可以计算该每段长度为L＝N₁/1段的音频段的2ⁿ点的快速傅里叶变换值，并计算该快速傅里叶变换值的最大值F_max，其中，该n为正整数，和可以根据该快速傅里叶变换值的最大值F_max，计算该长度为N1的音频信号中的快速傅里叶变换值大于n₂F_max的音频段，其中，n₂为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a2，以及可以根据该a₁、a₂的大小，输出该每段长度为 L＝N₁/1段的音频段的分类类别，能够实现通过去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，和将该长度为N1的音频信号分段为长度为L＝N1/1段的音频段来进行音频分类的方式，提高对音频进行分类的准确率。

进一步的，以上方案，可以对长度为N的音频信号进行端点检测，对该长度为N的音频信号做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+ i_c)/i_c计算每一帧的短时能量E，得到端点检测后的音频数据，去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，这样的好处是能够实现对音频信号进行基于短时能量的端点检测，同时又因为去除该得到的端点检测后的音频数据的首尾能量低的音频段，能够提高对音频进行分类的准确率。

进一步的，以上方案，可以对该每段长度为L＝N₁/1段的音频段做帧长为 w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时平均过零率，根据该计算得到的每一帧的短时平均过零率，计算该长度为N1的音频信号的短时平均过零率最大值Z_max，这样的好处是能够实现计算音频信号的短时平均过零率最大值。

进一步的，以上方案，可以根据该a₁、a₂的大小，设置被分类为语音信号的段数为v，被分类为音乐信号的段数为m，则该长度为N1的音频信号被分类为语音信号的概率为v/L，被分类为音乐信号的概率为m/L，若v/L≥m/L，则输出该每段长度为L＝N₁/1段的音频段的分类类别为语音信号，若v/L<m/L，则输出该每段长度为L＝N₁/1段的音频段的分类类别为音乐信号，这样的好处是能够实现对音频进行语音信号、音乐信号的快速分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明音频分类方法一实施例的流程示意图；

图2是本发明音频分类方法另一实施例的流程示意图；

图3是本发明音频分类装置一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种音频分类方法，能够实现提高对音频进行分类的准确率。

请参见图1，图1是本发明音频分类方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

S101：对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1 的音频信号。

其中，该对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为 N1的音频信号，可以包括：

对长度为N的音频信号进行端点检测，对该长度为N的音频信号做帧长为 w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时能量E，得到端点检测后的音频数据，去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，这样的好处是能够实现对音频信号进行基于短时能量的端点检测，同时又因为去除该得到的端点检测后的音频数据的首尾能量低的音频段，能够提高对音频进行分类的准确率。

S102：将该长度为N1的音频信号分段为长度为L＝N1/1段的音频段，其中 1为每段音频信号的长度。

在本实施例中，可以通过将该长度为N1的音频信号分段为长度为L＝N1/1 段的音频段，其中1为每段音频信号的长度的方式，将该长度为N1的音频信号分为整数个长度为l的音频段。

S103：根据该每段长度为L＝N₁/1段的音频段，计算该长度为N1的音频信号的短时平均过零率最大值Z_max。

其中，该根据该每段长度为L＝N₁/1段的音频段，计算该长度为N1的音频信号的短时平均过零率最大值Z_max，可以包括：

对该每段长度为L＝N₁/1段的音频段做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时平均过零率，根据该计算得到的每一帧的短时平均过零率，计算该长度为N1的音频信号的短时平均过零率最大值Z_max，这样的好处是能够实现计算音频信号的短时平均过零率最大值。

S104：根据该短时平均过零率最大值Z_max，计算该长度为N1的音频信号中短时平均过零率大于n₁Z_max的音频段；其中，n₁为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a₁。

在本实施例中，该短时平均过零率中的过零率是音频信号时域分析中一种简单的特征，即一帧音频信号的短时过零次数；一般来说，音乐信号的短时平均过零率比语音信号的平缓，而语音信号的短时平均过零率波动较大，这是因为在语音信号一个音节中语音由清音和浊音交替构成，而音乐不具有这种结构。

S105：计算该每段长度为L＝N₁/1段的音频段的2ⁿ点的FFT(Fast FourierTransform，快速傅里叶变换)值，并计算该快速傅里叶变换值的最大值F_max；其中，该n为正整数。

在本实施例中，该快速傅里叶变换值可以是通过有指数因子算法计算得到，也可以是通过无指数因子算法计算得到等，本发明不加以限定。

S106：根据该快速傅里叶变换值的最大值F_max，计算该长度为N1的音频信号中的快速傅里叶变换值大于n₂F_max的音频段；其中，n₂为大于0和小于1 的数值，其中，0＜n₁＜1的帧数为a2。

在本实施例中，该帧数可以是帧生成数量。

S107：根据该a₁、a₂的大小，输出该每段长度为L＝N₁/1段的音频段的分类类别。

其中，该根据该a₁、a₂的大小，输出该每段长度为L＝N₁/1段的音频段的分类类别，可以包括：

根据该a₁、a₂的大小，设置被分类为语音信号的段数为v，被分类为音乐信号的段数为m，则该长度为N1的音频信号被分类为语音信号的概率为v/L，被分类为音乐信号的概率为m/L，若v/L≥m/L，则输出该每段长度为L＝N₁/1段的音频段的分类类别为语音信号，若v/L<m/L，则输出该每段长度为L＝N₁/1段的音频段的分类类别为音乐信号，这样的好处是能够实现对音频进行语音信号、音乐信号的快速分类。

可以发现，在本实施例中，可以对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，和可以将该长度为N1的音频信号分段为长度为L＝N1/1段的音频段，其中1为每段音频信号的长度，和可以根据该短时平均过零率最大值Z_max，计算该长度为N1的音频信号中短时平均过零率大于n₁Z_max的音频段，其中，n₁为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a₁，和可以计算该每段长度为L＝N₁/1段的音频段的2ⁿ点的快速傅里叶变换值，并计算该快速傅里叶变换值的最大值F_max，其中，该n为正整数，和可以根据该快速傅里叶变换值的最大值F_max，计算该长度为N1的音频信号中的快速傅里叶变换值大于n₂F_max的音频段，其中，n₂为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a2，以及可以根据该a₁、a₂的大小，输出该每段长度为L＝N₁/1段的音频段的分类类别，能够实现通过去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，和将该长度为N1 的音频信号分段为长度为L＝N1/1段的音频段来进行音频分类的方式，提高对音频进行分类的准确率。

进一步的，在本实施例中，可以对长度为N的音频信号进行端点检测，对该长度为N的音频信号做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N- w₁+i_c)/i_c计算每一帧的短时能量E，得到端点检测后的音频数据，去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，这样的好处是能够实现对音频信号进行基于短时能量的端点检测，同时又因为去除该得到的端点检测后的音频数据的首尾能量低的音频段，能够提高对音频进行分类的准确率。

进一步的，在本实施例中，可以对该每段长度为L＝N₁/1段的音频段做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时平均过零率，根据该计算得到的每一帧的短时平均过零率，计算该长度为N1 的音频信号的短时平均过零率最大值Z_max，这样的好处是能够实现计算音频信号的短时平均过零率最大值。

进一步的，在本实施例中，可以根据该a₁、a₂的大小，设置被分类为语音信号的段数为v，被分类为音乐信号的段数为m，则该长度为N1的音频信号被分类为语音信号的概率为v/L，被分类为音乐信号的概率为m/L，若v/L≥m/L，则输出该每段长度为L＝N₁/1段的音频段的分类类别为语音信号，若v/L<m/L，则输出该每段长度为L＝N₁/1段的音频段的分类类别为音乐信号，这样的好处是能够实现对音频进行语音信号、音乐信号的快速分类。

本发明还提供一种音频分类装置，能够实现提高对音频进行分类的准确率。

请参见图2，图2是本发明音频分类装置一实施例的结构示意图。本实施例中，该音频分类装置20包括检测模块21、分段模块22、计算模块23和输出模块24。

该检测模块21，用于对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号。

该分段模块22，用于将该长度为N1的音频信号分段为长度为L＝N1/1段的音频段，其中1为每段音频信号的长度。

该计算模块23，用于根据该每段长度为L＝N₁/1段的音频段，计算该长度为N1的音频信号的短时平均过零率最大值Z_max，和根据该短时平均过零率最大值Z_max，计算该长度为N1的音频信号中短时平均过零率大于n₁Z_max的音频段，其中，n₁为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a₁，和计算该每段长度为L＝N₁/1段的音频段的2ⁿ点的快速傅里叶变换值，并计算该快速傅里叶变换值的最大值F_max，其中，该n为正整数，和根据该快速傅里叶变换值的最大值F_max，计算该长度为N1的音频信号中的快速傅里叶变换值大于 n₂F_max的音频段，其中，n₂为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a2。

该输出模块24，用于根据该a₁、a₂的大小，输出该每段长度为L＝N₁/1段的音频段的分类类别。

可选地，该检测模块21，可以具体用于：

对长度为N的音频信号进行端点检测，对该长度为N的音频信号做帧长为 w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时能量E，得到端点检测后的音频数据，去除该得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号。

可选地，该计算模块23，可以具体用于：

对该每段长度为L＝N₁/1段的音频段做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时平均过零率，根据该计算得到的每一帧的短时平均过零率，计算该长度为N1的音频信号的短时平均过零率最大值Z_max。

可选地，该输出模块24，可以具体用于：

根据该a₁、a₂的大小，设置被分类为语音信号的段数为v，被分类为音乐信号的段数为m，则该长度为N1的音频信号被分类为语音信号的概率为v/L，被分类为音乐信号的概率为m/L，若v/L≥m/L，则输出该每段长度为L＝N₁/1段的音频段的分类类别为语音信号，若v/L<m/L，则输出该每段长度为L＝N₁/1段的音频段的分类类别为音乐信号。

该音频分类装置20的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明又提供一种音频分类设备，如图3所示，包括：至少一个处理器31；以及，与至少一个处理器31通信连接的存储器32；其中，存储器32存储有可被至少一个处理器31执行的指令，指令被至少一个处理器31执行，以使至少一个处理器31能够执行上述的音频分类方法。

其中，存储器32和处理器31采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器31和存储器32的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器31处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器31。

处理器31负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器32可以被用于存储处理器31在执行操作时所使用的数据。

本发明再提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频分类方法，其特征在于，包括：

对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除所述得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号；

将所述长度为N1的音频信号分段为长度为L＝N1/1段的音频段，其中1为每段音频信号的长度；

根据所述每段长度为L＝N₁/1段的音频段，计算所述长度为N1的音频信号的短时平均过零率最大值Z_max；

根据所述短时平均过零率最大值Z_max，计算所述长度为N1的音频信号中短时平均过零率大于n₁Z_max的音频段；其中，n₁为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a₁；

计算所述每段长度为L＝N₁/1段的音频段的2ⁿ点的快速傅里叶变换值，并计算所述快速傅里叶变换值的最大值F_max；其中，所述n为正整数；

根据所述快速傅里叶变换值的最大值F_max，计算所述长度为N1的音频信号中的快速傅里叶变换值大于n₂F_max的音频段；其中，n₂为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a2；

根据所述a₁、a₂的大小，输出所述每段长度为L＝N₁/1段的音频段的分类类别。

2.如权利要求1所述的音频分类方法，其特征在于，所述对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除所述得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号，包括：

对长度为N的音频信号进行端点检测，对所述长度为N的音频信号做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时能量E，得到端点检测后的音频数据，去除所述得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号。

3.如权利要求1所述的音频分类方法，其特征在于，所述根据所述每段长度为L＝N₁/1段的音频段，计算所述长度为N1的音频信号的短时平均过零率最大值Z_max，包括：

对所述每段长度为L＝N₁/1段的音频段做帧长为w₁、帧移为i_c的分帧处理，通过帧数f_n＝(N-w₁+i_c)/i_c计算每一帧的短时平均过零率，根据所述计算得到的每一帧的短时平均过零率，计算所述长度为N1的音频信号的短时平均过零率最大值Z_max。

4.如权利要求1所述的音频分类方法，其特征在于，所述根据所述a₁、a₂的大小，输出所述每段长度为L＝N₁/1段的音频段的分类类别，包括：

根据所述a₁、a₂的大小，设置被分类为语音信号的段数为v，被分类为音乐信号的段数为m，则所述长度为N1的音频信号被分类为语音信号的概率为v/L，被分类为音乐信号的概率为m/L，若v/L≥m/L，则输出所述每段长度为L＝N₁/1段的音频段的分类类别为语音信号，若v/L<m/L，则输出所述每段长度为L＝N₁/1段的音频段的分类类别为音乐信号。

5.一种音频分类装置，其特征在于，包括：

检测模块、分段模块、计算模块和输出模块；

所述检测模块，用于对长度为N的音频信号进行端点检测，得到端点检测后的音频数据，去除所述得到的端点检测后的音频数据的首尾能量低的音频段，得到长度为N1的音频信号；

所述分段模块，用于将所述长度为N1的音频信号分段为长度为L＝N1/1段的音频段，其中1为每段音频信号的长度；

所述计算模块，用于根据所述每段长度为L＝N₁/1段的音频段，计算所述长度为N1的音频信号的短时平均过零率最大值Z_max，和根据所述短时平均过零率最大值Z_max，计算所述长度为N1的音频信号中短时平均过零率大于n₁Z_max的音频段，其中，n₁为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a₁，和计算所述每段长度为L＝N₁/1段的音频段的2ⁿ点的快速傅里叶变换值，并计算所述快速傅里叶变换值的最大值F_max，其中，所述n为正整数，和根据所述快速傅里叶变换值的最大值F_max，计算所述长度为N1的音频信号中的快速傅里叶变换值大于n₂F_max的音频段，其中，n₂为大于0和小于1的数值，其中，0＜n₁＜1的帧数为a2；

所述输出模块，用于根据所述a₁、a₂的大小，输出所述每段长度为L＝N₁/1段的音频段的分类类别。

6.如权利要求5所述的音频分类装置，其特征在于，所述检测模块，具体用于：

7.如权利要求5所述的音频分类装置，其特征在于，所述计算模块，具体用于：

8.如权利要求5所述的音频分类装置，其特征在于，所述输出模块，具体用于：

9.一种音频分类设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的音频分类方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的音频分类方法。