CN114333801A - 一种音频分类方法和装置以及设备 - Google Patents

一种音频分类方法和装置以及设备 Download PDF

Info

Publication number
CN114333801A
CN114333801A CN202111649604.5A CN202111649604A CN114333801A CN 114333801 A CN114333801 A CN 114333801A CN 202111649604 A CN202111649604 A CN 202111649604A CN 114333801 A CN114333801 A CN 114333801A
Authority
CN
China
Prior art keywords
audio
length
segment
audio signal
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111649604.5A
Other languages
English (en)
Inventor
陈剑超
肖龙源
李稀敏
蔡振华
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202111649604.5A priority Critical patent/CN114333801A/zh
Publication of CN114333801A publication Critical patent/CN114333801A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种音频分类方法和装置以及设备。其中,所述方法包括:计算每段长度为L=N1/1段的音频段的2n点的快速傅里叶变换值,并计算该快速傅里叶变换值的最大值Fmax,其中,该n为正整数,和根据该快速傅里叶变换值的最大值Fmax,计算该长度为N1的音频信号中的快速傅里叶变换值大于n2Fmax的音频段,其中,n2为大于0和小于1的数值,其中,0<n1<1的帧数为a2,以及根据该a1、a2的大小,输出该每段长度为L=N1/1段的音频段的分类类别。通过上述方式,能够实现通过去除该得到的端点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号,和将该长度为N1的音频信号分段为长度为L=N1/1段的音频段来进行音频分类的方式,提高对音频进行分类的准确率。

Description

一种音频分类方法和装置以及设备
技术领域
本发明涉及音频分类技术领域,尤其涉及一种音频分类方法和装置以及设 备。
背景技术
音频特征提取是音频信号识别的关键环节,从许多音频特征中选取一组对 音频信号分类最优小的特征作为音频特征向量,可以准确地识别不同的音频信 号。
然而,现有的音频分类方案,一般是采用基于各种音频信号的不同特征值 的分类模式对音频进行分类,一般是通过对音频信号短时能量建模分析,并结 合短时能量方差值实现音频是语音信号、还是音乐信号的分类,进一步又将灰 色关联分析应用于音频是语音信号、还是音乐信号的分类,该采用基于各种音 频信号的不同特征值的分类模式对音频进行分类的方式,由于分类算法所用特 征参数少,最多仅用到音频的两个特征参数,导致对音频进行分类的准确率一 般。
发明内容
有鉴于此,本发明的目的在于提出一种音频分类方法和装置以及设备,能 够提高对音频进行分类的准确率
根据本发明的一个方面,提供一种音频分类方法,包括:对长度为N的音 频信号进行端点检测,得到端点检测后的音频数据,去除所述得到的端点检测 后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号;将所述长 度为N1的音频信号分段为长度为L=N1/1段的音频段,其中1为每段音频信号 的长度;根据所述每段长度为L=N1/1段的音频段,计算所述长度为N1的音频 信号的短时平均过零率最大值Zmax;根据所述短时平均过零率最大值Zmax,计 算所述长度为N1的音频信号中短时平均过零率大于n1Zmax的音频段;其中, n1为大于0和小于1的数值,其中,0<n1<1的帧数为a1;计算所述每段长度 为L=N1/1段的音频段的2n点的快速傅里叶变换值,并计算所述快速傅里叶变 换值的最大值Fmax;其中,所述n为正整数;
根据所述快速傅里叶变换值的最大值Fmax,计算所述长度为N1的音频信号中 的快速傅里叶变换值大于n2Fmax的音频段;其中,n2为大于0和小于1的数值, 其中,0<n1<1的帧数为a2;根据所述a1、a2的大小,输出所述每段长度为 L=N1/1段的音频段的分类类别。
其中,所述对长度为N的音频信号进行端点检测,得到端点检测后的音频 数据,去除所述得到的端点检测后的音频数据的首尾能量低的音频段,得到长 度为N1的音频信号,包括:对长度为N的音频信号进行端点检测,对所述长 度为N的音频信号做帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ ic)/ic计算每一帧的短时能量E,得到端点检测后的音频数据,去除所述得到的 端点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号。
其中,所述根据所述每段长度为L=N1/1段的音频段,计算所述长度为N1 的音频信号的短时平均过零率最大值Zmax,包括:对所述每段长度为L=N1/1 段的音频段做帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时平均过零率,根据所述计算得到的每一帧的短时平均过零率, 计算所述长度为N1的音频信号的短时平均过零率最大值Zmax
其中,所述根据所述a1、a2的大小,输出所述每段长度为L=N1/1段的音 频段的分类类别,包括:根据所述a1、a2的大小,设置被分类为语音信号的段 数为v,被分类为音乐信号的段数为m,则所述长度为N1的音频信号被分类为 语音信号的概率为v/L,被分类为音乐信号的概率为m/L,若v/L≥m/L,则输出 所述每段长度为L=N1/1段的音频段的分类类别为语音信号,若v/L<m/L,则输 出所述每段长度为L=N1/1段的音频段的分类类别为音乐信号。
根据本发明的另一个方面,提供一种音频分类装置,包括:检测模块、分 段模块、计算模块和输出模块;所述检测模块,用于对长度为N的音频信号进 行端点检测,得到端点检测后的音频数据,去除所述得到的端点检测后的音频 数据的首尾能量低的音频段,得到长度为N1的音频信号;所述分段模块,用 于将所述长度为N1的音频信号分段为长度为L=N1/1段的音频段,其中1为每 段音频信号的长度;
所述计算模块,用于根据所述每段长度为L=N1/1段的音频段,计算所述长度为N1的音频信号的短时平均过零率最大值Zmax,和根据所述短时平均过零率最大 值Zmax,计算所述长度为N1的音频信号中短时平均过零率大于n1Zmax的音频 段,其中,n1为大于0和小于1的数值,其中,0<n1<1的帧数为a1,和计算 所述每段长度为L=N1/1段的音频段的2n点的快速傅里叶变换值,并计算所述 快速傅里叶变换值的最大值Fmax,其中,所述n为正整数,和根据所述快速傅 里叶变换值的最大值Fmax,计算所述长度为N1的音频信号中的快速傅里叶变 换值大于n2Fmax的音频段,其中,n2为大于0和小于1的数值,其中,0<n1< 1的帧数为a2;所述输出模块,用于根据所述a1、a2的大小,输出所述每段长 度为L=N1/1段的音频段的分类类别。
其中,所述检测模块,具体用于:对长度为N的音频信号进行端点检测, 对所述长度为N的音频信号做帧长为w1、帧移为ic的分帧处理,通过帧数fn= (N-w1+ic)/ic计算每一帧的短时能量E,得到端点检测后的音频数据,去除 所述得到的端点检测后的音频数据的首尾能量低的音频段,得到长度为N1的 音频信号。
其中,所述计算模块,具体用于:对所述每段长度为L=N1/1段的音频段做 帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的 短时平均过零率,根据所述计算得到的每一帧的短时平均过零率,计算所述长 度为N1的音频信号的短时平均过零率最大值Zmax
其中,所述输出模块,具体用于:根据所述a1、a2的大小,设置被分类为 语音信号的段数为v,被分类为音乐信号的段数为m,则所述长度为N1的音频 信号被分类为语音信号的概率为v/L,被分类为音乐信号的概率为m/L,若 v/L≥m/L,则输出所述每段长度为L=N1/1段的音频段的分类类别为语音信号, 若v/L<m/L,则输出所述每段长度为L=N1/1段的音频段的分类类别为音乐信号。
根据本发明的又一个方面,提供一种音频分类设备,包括:至少一个处理 器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储 有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行, 以使所述至少一个处理器能够执行如上述任一项所述的音频分类方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机 程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的 音频分类方法。
可以发现,以上方案,可以对长度为N的音频信号进行端点检测,得到端 点检测后的音频数据,去除该得到的端点检测后的音频数据的首尾能量低的音 频段,得到长度为N1的音频信号,和可以将该长度为N1的音频信号分段为长 度为L=N1/1段的音频段,其中1为每段音频信号的长度,和可以根据该短时 平均过零率最大值Zmax,计算该长度为N1的音频信号中短时平均过零率大于 n1Zmax的音频段,其中,n1为大于0和小于1的数值,其中,0<n1<1的帧数 为a1,和可以计算该每段长度为L=N1/1段的音频段的2n点的快速傅里叶变换值,并计算该快速傅里叶变换值的最大值Fmax,其中,该n为正整数,和可以 根据该快速傅里叶变换值的最大值Fmax,计算该长度为N1的音频信号中的快 速傅里叶变换值大于n2Fmax的音频段,其中,n2为大于0和小于1的数值,其 中,0<n1<1的帧数为a2,以及可以根据该a1、a2的大小,输出该每段长度为 L=N1/1段的音频段的分类类别,能够实现通过去除该得到的端点检测后的音频 数据的首尾能量低的音频段,得到长度为N1的音频信号,和将该长度为N1的 音频信号分段为长度为L=N1/1段的音频段来进行音频分类的方式,提高对音 频进行分类的准确率。
进一步的,以上方案,可以对长度为N的音频信号进行端点检测,对该长 度为N的音频信号做帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ ic)/ic计算每一帧的短时能量E,得到端点检测后的音频数据,去除该得到的端 点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号,这 样的好处是能够实现对音频信号进行基于短时能量的端点检测,同时又因为去 除该得到的端点检测后的音频数据的首尾能量低的音频段,能够提高对音频进 行分类的准确率。
进一步的,以上方案,可以对该每段长度为L=N1/1段的音频段做帧长为 w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时平 均过零率,根据该计算得到的每一帧的短时平均过零率,计算该长度为N1的 音频信号的短时平均过零率最大值Zmax,这样的好处是能够实现计算音频信号 的短时平均过零率最大值。
进一步的,以上方案,可以根据该a1、a2的大小,设置被分类为语音信号 的段数为v,被分类为音乐信号的段数为m,则该长度为N1的音频信号被分类 为语音信号的概率为v/L,被分类为音乐信号的概率为m/L,若v/L≥m/L,则输 出该每段长度为L=N1/1段的音频段的分类类别为语音信号,若v/L<m/L,则输 出该每段长度为L=N1/1段的音频段的分类类别为音乐信号,这样的好处是能够 实现对音频进行语音信号、音乐信号的快速分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明音频分类方法一实施例的流程示意图;
图2是本发明音频分类方法另一实施例的流程示意图;
图3是本发明音频分类装置一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是, 以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下 实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种音频分类方法,能够实现提高对音频进行分类的准确率。
请参见图1,图1是本发明音频分类方法一实施例的流程示意图。需注意 的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。 如图1所示,该方法包括如下步骤:
S101:对长度为N的音频信号进行端点检测,得到端点检测后的音频数据, 去除该得到的端点检测后的音频数据的首尾能量低的音频段,得到长度为N1 的音频信号。
其中,该对长度为N的音频信号进行端点检测,得到端点检测后的音频数 据,去除该得到的端点检测后的音频数据的首尾能量低的音频段,得到长度为 N1的音频信号,可以包括:
对长度为N的音频信号进行端点检测,对该长度为N的音频信号做帧长为 w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时能 量E,得到端点检测后的音频数据,去除该得到的端点检测后的音频数据的首 尾能量低的音频段,得到长度为N1的音频信号,这样的好处是能够实现对音 频信号进行基于短时能量的端点检测,同时又因为去除该得到的端点检测后的 音频数据的首尾能量低的音频段,能够提高对音频进行分类的准确率。
S102:将该长度为N1的音频信号分段为长度为L=N1/1段的音频段,其中 1为每段音频信号的长度。
在本实施例中,可以通过将该长度为N1的音频信号分段为长度为L=N1/1 段的音频段,其中1为每段音频信号的长度的方式,将该长度为N1的音频信 号分为整数个长度为l的音频段。
S103:根据该每段长度为L=N1/1段的音频段,计算该长度为N1的音频信 号的短时平均过零率最大值Zmax
其中,该根据该每段长度为L=N1/1段的音频段,计算该长度为N1的音频 信号的短时平均过零率最大值Zmax,可以包括:
对该每段长度为L=N1/1段的音频段做帧长为w1、帧移为ic的分帧处理, 通过帧数fn=(N-w1+ic)/ic计算每一帧的短时平均过零率,根据该计算得到 的每一帧的短时平均过零率,计算该长度为N1的音频信号的短时平均过零率 最大值Zmax,这样的好处是能够实现计算音频信号的短时平均过零率最大值。
S104:根据该短时平均过零率最大值Zmax,计算该长度为N1的音频信号 中短时平均过零率大于n1Zmax的音频段;其中,n1为大于0和小于1的数值, 其中,0<n1<1的帧数为a1
在本实施例中,该短时平均过零率中的过零率是音频信号时域分析中一种 简单的特征,即一帧音频信号的短时过零次数;一般来说,音乐信号的短时平 均过零率比语音信号的平缓,而语音信号的短时平均过零率波动较大,这是因 为在语音信号一个音节中语音由清音和浊音交替构成,而音乐不具有这种结构。
S105:计算该每段长度为L=N1/1段的音频段的2n点的FFT(Fast FourierTransform,快速傅里叶变换)值,并计算该快速傅里叶变换值的最大值Fmax; 其中,该n为正整数。
在本实施例中,该快速傅里叶变换值可以是通过有指数因子算法计算得到, 也可以是通过无指数因子算法计算得到等,本发明不加以限定。
S106:根据该快速傅里叶变换值的最大值Fmax,计算该长度为N1的音频 信号中的快速傅里叶变换值大于n2Fmax的音频段;其中,n2为大于0和小于1 的数值,其中,0<n1<1的帧数为a2。
在本实施例中,该帧数可以是帧生成数量。
S107:根据该a1、a2的大小,输出该每段长度为L=N1/1段的音频段的分 类类别。
其中,该根据该a1、a2的大小,输出该每段长度为L=N1/1段的音频段的 分类类别,可以包括:
根据该a1、a2的大小,设置被分类为语音信号的段数为v,被分类为音乐 信号的段数为m,则该长度为N1的音频信号被分类为语音信号的概率为v/L, 被分类为音乐信号的概率为m/L,若v/L≥m/L,则输出该每段长度为L=N1/1段 的音频段的分类类别为语音信号,若v/L<m/L,则输出该每段长度为L=N1/1段 的音频段的分类类别为音乐信号,这样的好处是能够实现对音频进行语音信号、 音乐信号的快速分类。
可以发现,在本实施例中,可以对长度为N的音频信号进行端点检测,得 到端点检测后的音频数据,去除该得到的端点检测后的音频数据的首尾能量低 的音频段,得到长度为N1的音频信号,和可以将该长度为N1的音频信号分段 为长度为L=N1/1段的音频段,其中1为每段音频信号的长度,和可以根据该 短时平均过零率最大值Zmax,计算该长度为N1的音频信号中短时平均过零率 大于n1Zmax的音频段,其中,n1为大于0和小于1的数值,其中,0<n1<1的 帧数为a1,和可以计算该每段长度为L=N1/1段的音频段的2n点的快速傅里叶变换值,并计算该快速傅里叶变换值的最大值Fmax,其中,该n为正整数,和 可以根据该快速傅里叶变换值的最大值Fmax,计算该长度为N1的音频信号中 的快速傅里叶变换值大于n2Fmax的音频段,其中,n2为大于0和小于1的数值, 其中,0<n1<1的帧数为a2,以及可以根据该a1、a2的大小,输出该每段长度 为L=N1/1段的音频段的分类类别,能够实现通过去除该得到的端点检测后的音 频数据的首尾能量低的音频段,得到长度为N1的音频信号,和将该长度为N1 的音频信号分段为长度为L=N1/1段的音频段来进行音频分类的方式,提高对音频进行分类的准确率。
进一步的,在本实施例中,可以对长度为N的音频信号进行端点检测,对 该长度为N的音频信号做帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N- w1+ic)/ic计算每一帧的短时能量E,得到端点检测后的音频数据,去除该得到 的端点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号, 这样的好处是能够实现对音频信号进行基于短时能量的端点检测,同时又因为 去除该得到的端点检测后的音频数据的首尾能量低的音频段,能够提高对音频 进行分类的准确率。
进一步的,在本实施例中,可以对该每段长度为L=N1/1段的音频段做帧长 为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时 平均过零率,根据该计算得到的每一帧的短时平均过零率,计算该长度为N1 的音频信号的短时平均过零率最大值Zmax,这样的好处是能够实现计算音频信 号的短时平均过零率最大值。
进一步的,在本实施例中,可以根据该a1、a2的大小,设置被分类为语音 信号的段数为v,被分类为音乐信号的段数为m,则该长度为N1的音频信号被 分类为语音信号的概率为v/L,被分类为音乐信号的概率为m/L,若v/L≥m/L, 则输出该每段长度为L=N1/1段的音频段的分类类别为语音信号,若v/L<m/L, 则输出该每段长度为L=N1/1段的音频段的分类类别为音乐信号,这样的好处是 能够实现对音频进行语音信号、音乐信号的快速分类。
本发明还提供一种音频分类装置,能够实现提高对音频进行分类的准确率。
请参见图2,图2是本发明音频分类装置一实施例的结构示意图。本实施 例中,该音频分类装置20包括检测模块21、分段模块22、计算模块23和输出 模块24。
该检测模块21,用于对长度为N的音频信号进行端点检测,得到端点检测 后的音频数据,去除该得到的端点检测后的音频数据的首尾能量低的音频段, 得到长度为N1的音频信号。
该分段模块22,用于将该长度为N1的音频信号分段为长度为L=N1/1段 的音频段,其中1为每段音频信号的长度。
该计算模块23,用于根据该每段长度为L=N1/1段的音频段,计算该长度 为N1的音频信号的短时平均过零率最大值Zmax,和根据该短时平均过零率最 大值Zmax,计算该长度为N1的音频信号中短时平均过零率大于n1Zmax的音频 段,其中,n1为大于0和小于1的数值,其中,0<n1<1的帧数为a1,和计算 该每段长度为L=N1/1段的音频段的2n点的快速傅里叶变换值,并计算该快速 傅里叶变换值的最大值Fmax,其中,该n为正整数,和根据该快速傅里叶变换 值的最大值Fmax,计算该长度为N1的音频信号中的快速傅里叶变换值大于 n2Fmax的音频段,其中,n2为大于0和小于1的数值,其中,0<n1<1的帧数 为a2。
该输出模块24,用于根据该a1、a2的大小,输出该每段长度为L=N1/1段 的音频段的分类类别。
可选地,该检测模块21,可以具体用于:
对长度为N的音频信号进行端点检测,对该长度为N的音频信号做帧长为 w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时能 量E,得到端点检测后的音频数据,去除该得到的端点检测后的音频数据的首 尾能量低的音频段,得到长度为N1的音频信号。
可选地,该计算模块23,可以具体用于:
对该每段长度为L=N1/1段的音频段做帧长为w1、帧移为ic的分帧处理, 通过帧数fn=(N-w1+ic)/ic计算每一帧的短时平均过零率,根据该计算得到 的每一帧的短时平均过零率,计算该长度为N1的音频信号的短时平均过零率 最大值Zmax
可选地,该输出模块24,可以具体用于:
根据该a1、a2的大小,设置被分类为语音信号的段数为v,被分类为音乐 信号的段数为m,则该长度为N1的音频信号被分类为语音信号的概率为v/L, 被分类为音乐信号的概率为m/L,若v/L≥m/L,则输出该每段长度为L=N1/1段 的音频段的分类类别为语音信号,若v/L<m/L,则输出该每段长度为L=N1/1段 的音频段的分类类别为音乐信号。
该音频分类装置20的各个单元模块可分别执行上述方法实施例中对应步 骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种音频分类设备,如图3所示,包括:至少一个处理器31; 以及,与至少一个处理器31通信连接的存储器32;其中,存储器32存储有可 被至少一个处理器31执行的指令,指令被至少一个处理器31执行,以使至少 一个处理器31能够执行上述的音频分类方法。
其中,存储器32和处理器31采用总线方式连接,总线可以包括任意数量 的互联的总线和桥,总线将一个或多个处理器31和存储器32的各种电路连接 在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其 他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一 步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也 可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其 他装置通信的单元。经处理器31处理的数据通过天线在无线介质上进行传输, 进一步,天线还接收数据并将数据传送给处理器31。
处理器31负责管理总线和通常的处理,还可以提供各种功能,包括定时, 外围接口,电压调节、电源管理以及其他控制功能。而存储器32可以被用于存 储处理器31在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序 被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以对长度为N的音频信号进行端点检测,得到端 点检测后的音频数据,去除该得到的端点检测后的音频数据的首尾能量低的音 频段,得到长度为N1的音频信号,和可以将该长度为N1的音频信号分段为长 度为L=N1/1段的音频段,其中1为每段音频信号的长度,和可以根据该短时 平均过零率最大值Zmax,计算该长度为N1的音频信号中短时平均过零率大于 n1Zmax的音频段,其中,n1为大于0和小于1的数值,其中,0<n1<1的帧数 为a1,和可以计算该每段长度为L=N1/1段的音频段的2n点的快速傅里叶变换值,并计算该快速傅里叶变换值的最大值Fmax,其中,该n为正整数,和可以 根据该快速傅里叶变换值的最大值Fmax,计算该长度为N1的音频信号中的快 速傅里叶变换值大于n2Fmax的音频段,其中,n2为大于0和小于1的数值,其 中,0<n1<1的帧数为a2,以及可以根据该a1、a2的大小,输出该每段长度为 L=N1/1段的音频段的分类类别,能够实现通过去除该得到的端点检测后的音频 数据的首尾能量低的音频段,得到长度为N1的音频信号,和将该长度为N1的 音频信号分段为长度为L=N1/1段的音频段来进行音频分类的方式,提高对音 频进行分类的准确率。
进一步的,以上方案,可以对长度为N的音频信号进行端点检测,对该长 度为N的音频信号做帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ ic)/ic计算每一帧的短时能量E,得到端点检测后的音频数据,去除该得到的端 点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号,这 样的好处是能够实现对音频信号进行基于短时能量的端点检测,同时又因为去 除该得到的端点检测后的音频数据的首尾能量低的音频段,能够提高对音频进 行分类的准确率。
进一步的,以上方案,可以对该每段长度为L=N1/1段的音频段做帧长为 w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时平 均过零率,根据该计算得到的每一帧的短时平均过零率,计算该长度为N1的 音频信号的短时平均过零率最大值Zmax,这样的好处是能够实现计算音频信号 的短时平均过零率最大值。
进一步的,以上方案,可以根据该a1、a2的大小,设置被分类为语音信号 的段数为v,被分类为音乐信号的段数为m,则该长度为N1的音频信号被分类 为语音信号的概率为v/L,被分类为音乐信号的概率为m/L,若v/L≥m/L,则输 出该每段长度为L=N1/1段的音频段的分类类别为语音信号,若v/L<m/L,则输 出该每段长度为L=N1/1段的音频段的分类类别为音乐信号,这样的好处是能够 实现对音频进行语音信号、音乐信号的快速分类。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和 方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示 意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可 以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系 统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信 连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元 显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可 以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元 来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的 形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技 术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分 可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中, 包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络 设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。 而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等 各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡 是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种音频分类方法,其特征在于,包括:
对长度为N的音频信号进行端点检测,得到端点检测后的音频数据,去除所述得到的端点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号;
将所述长度为N1的音频信号分段为长度为L=N1/1段的音频段,其中1为每段音频信号的长度;
根据所述每段长度为L=N1/1段的音频段,计算所述长度为N1的音频信号的短时平均过零率最大值Zmax
根据所述短时平均过零率最大值Zmax,计算所述长度为N1的音频信号中短时平均过零率大于n1Zmax的音频段;其中,n1为大于0和小于1的数值,其中,0<n1<1的帧数为a1
计算所述每段长度为L=N1/1段的音频段的2n点的快速傅里叶变换值,并计算所述快速傅里叶变换值的最大值Fmax;其中,所述n为正整数;
根据所述快速傅里叶变换值的最大值Fmax,计算所述长度为N1的音频信号中的快速傅里叶变换值大于n2Fmax的音频段;其中,n2为大于0和小于1的数值,其中,0<n1<1的帧数为a2;
根据所述a1、a2的大小,输出所述每段长度为L=N1/1段的音频段的分类类别。
2.如权利要求1所述的音频分类方法,其特征在于,所述对长度为N的音频信号进行端点检测,得到端点检测后的音频数据,去除所述得到的端点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号,包括:
对长度为N的音频信号进行端点检测,对所述长度为N的音频信号做帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时能量E,得到端点检测后的音频数据,去除所述得到的端点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号。
3.如权利要求1所述的音频分类方法,其特征在于,所述根据所述每段长度为L=N1/1段的音频段,计算所述长度为N1的音频信号的短时平均过零率最大值Zmax,包括:
对所述每段长度为L=N1/1段的音频段做帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时平均过零率,根据所述计算得到的每一帧的短时平均过零率,计算所述长度为N1的音频信号的短时平均过零率最大值Zmax
4.如权利要求1所述的音频分类方法,其特征在于,所述根据所述a1、a2的大小,输出所述每段长度为L=N1/1段的音频段的分类类别,包括:
根据所述a1、a2的大小,设置被分类为语音信号的段数为v,被分类为音乐信号的段数为m,则所述长度为N1的音频信号被分类为语音信号的概率为v/L,被分类为音乐信号的概率为m/L,若v/L≥m/L,则输出所述每段长度为L=N1/1段的音频段的分类类别为语音信号,若v/L<m/L,则输出所述每段长度为L=N1/1段的音频段的分类类别为音乐信号。
5.一种音频分类装置,其特征在于,包括:
检测模块、分段模块、计算模块和输出模块;
所述检测模块,用于对长度为N的音频信号进行端点检测,得到端点检测后的音频数据,去除所述得到的端点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号;
所述分段模块,用于将所述长度为N1的音频信号分段为长度为L=N1/1段的音频段,其中1为每段音频信号的长度;
所述计算模块,用于根据所述每段长度为L=N1/1段的音频段,计算所述长度为N1的音频信号的短时平均过零率最大值Zmax,和根据所述短时平均过零率最大值Zmax,计算所述长度为N1的音频信号中短时平均过零率大于n1Zmax的音频段,其中,n1为大于0和小于1的数值,其中,0<n1<1的帧数为a1,和计算所述每段长度为L=N1/1段的音频段的2n点的快速傅里叶变换值,并计算所述快速傅里叶变换值的最大值Fmax,其中,所述n为正整数,和根据所述快速傅里叶变换值的最大值Fmax,计算所述长度为N1的音频信号中的快速傅里叶变换值大于n2Fmax的音频段,其中,n2为大于0和小于1的数值,其中,0<n1<1的帧数为a2;
所述输出模块,用于根据所述a1、a2的大小,输出所述每段长度为L=N1/1段的音频段的分类类别。
6.如权利要求5所述的音频分类装置,其特征在于,所述检测模块,具体用于:
对长度为N的音频信号进行端点检测,对所述长度为N的音频信号做帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时能量E,得到端点检测后的音频数据,去除所述得到的端点检测后的音频数据的首尾能量低的音频段,得到长度为N1的音频信号。
7.如权利要求5所述的音频分类装置,其特征在于,所述计算模块,具体用于:
对所述每段长度为L=N1/1段的音频段做帧长为w1、帧移为ic的分帧处理,通过帧数fn=(N-w1+ic)/ic计算每一帧的短时平均过零率,根据所述计算得到的每一帧的短时平均过零率,计算所述长度为N1的音频信号的短时平均过零率最大值Zmax
8.如权利要求5所述的音频分类装置,其特征在于,所述输出模块,具体用于:
根据所述a1、a2的大小,设置被分类为语音信号的段数为v,被分类为音乐信号的段数为m,则所述长度为N1的音频信号被分类为语音信号的概率为v/L,被分类为音乐信号的概率为m/L,若v/L≥m/L,则输出所述每段长度为L=N1/1段的音频段的分类类别为语音信号,若v/L<m/L,则输出所述每段长度为L=N1/1段的音频段的分类类别为音乐信号。
9.一种音频分类设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的音频分类方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的音频分类方法。
CN202111649604.5A 2021-12-30 2021-12-30 一种音频分类方法和装置以及设备 Pending CN114333801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111649604.5A CN114333801A (zh) 2021-12-30 2021-12-30 一种音频分类方法和装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111649604.5A CN114333801A (zh) 2021-12-30 2021-12-30 一种音频分类方法和装置以及设备

Publications (1)

Publication Number Publication Date
CN114333801A true CN114333801A (zh) 2022-04-12

Family

ID=81019334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111649604.5A Pending CN114333801A (zh) 2021-12-30 2021-12-30 一种音频分类方法和装置以及设备

Country Status (1)

Country Link
CN (1) CN114333801A (zh)

Similar Documents

Publication Publication Date Title
CN110634497B (zh) 降噪方法、装置、终端设备及存储介质
US20160351204A1 (en) Method and Apparatus for Processing Speech Signal According to Frequency-Domain Energy
CN105118502B (zh) 语音识别系统的端点检测方法及系统
KR102128926B1 (ko) 오디오 정보 처리 방법 및 디바이스
EP2339575B1 (en) Signal classification method and device
US11798574B2 (en) Voice separation device, voice separation method, voice separation program, and voice separation system
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
CN110047519B (zh) 一种语音端点检测方法、装置及设备
CN109346109B (zh) 基频提取方法和装置
US20180040336A1 (en) Blind Bandwidth Extension using K-Means and a Support Vector Machine
CN113892136A (zh) 信号提取系统、信号提取学习方法以及信号提取学习程序
CN107680584B (zh) 用于切分音频的方法和装置
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
US20230030911A1 (en) Abnormal sound detection method and apparatus
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
KR20120008088A (ko) 음성 세그먼트화를 위한 방법 및 장치
WO2012105386A1 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
WO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
CN114333801A (zh) 一种音频分类方法和装置以及设备
US10540990B2 (en) Processing of speech signals
CN110708619A (zh) 一种智能设备的词向量训练方法及装置
US9196263B2 (en) Pitch period segmentation of speech signals
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
JP2002062892A (ja) 音響分類装置
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination