CN109903775B

CN109903775B - 一种音频爆音检测方法和装置

Info

Publication number: CN109903775B
Application number: CN201711283064.7A
Authority: CN
Inventors: 高超; 马哲
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2020-09-25
Anticipated expiration: 2037-12-07
Also published as: CN109903775A

Abstract

本发明实施例提供了一种音频爆音检测方法和装置。该方法包括：将音频文件切割为等时长的多个音频切片；将每个音频切片再均分为N个小份，对每个小份进行快速傅里叶变换后，将频域能量值由低到高等分为M个区间，统计其分布在所述M个区间的个数为切片频域值分布个数；根据每个音频切片的所述切片频域值分布个数，通过K‑紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值；当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时，判定该待测音频切片为爆音。该方法和装置精确度高，适用范围广泛，节省大量人力资源。

Description

一种音频爆音检测方法和装置

技术领域

本发明涉及音频处理领域，特别涉及一种音频爆音检测方法和装置。

背景技术

随着互联网技术的发展，现代社会音频文件丰富了人们的娱乐生活，但在音频文件中可能存在爆音，影响用户体验。所谓爆音，是指听感上的一个突兀的点，产生爆音的原因有很多，一般出现在音源，可能是软件抓取CD音轨时出现错误或者音频文件损坏。当信号突然断开或者引入其他强干扰时，都可能出现爆音。

现有技术中识别歌曲的爆音有多种算法，在实现本发明过程中，申请人发现现有技术中至少存在如下问题：通过算法对音频文件中的爆音进行筛选后存在误差，并且对于歌曲中的真正爆音通常需要人力的二次识别以提高准确度，费事费力，耗费大量资源。

发明内容

本发明实施例提供一种音频爆音检测方法和装置，该发明基于频域能量的优先级队列算法，可以达到自动识别卡拉OK歌曲中的爆音的目的，克服上述现有的歌曲爆音识别精确度低，需要人力二次识别的缺陷。

一方面，本发明实施例提供了一种音频爆音检测的方法，该方法包括：

将音频文件切割为等时长的多个音频切片；

将每个音频切片再均分为N个小份，对每个小份进行快速傅里叶变换，得到每个音频切片中每个小份的频域能量最高值；

将频域能量值由低到高等分为M个区间，统计每个音频切片对应的N个频域能量最高值分布在所述M个区间的个数为切片频域值分布个数；

根据每个音频切片的所述切片频域值分布个数，通过K-最紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值；

当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时，判定该待测音频切片为爆音。

可选的，所述当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时，判定该待测音频切片为爆音，包括：

分别计算所述M个区间中，与该K个相邻音频切片相邻的待测音频切片的频域能量最高值个数和在该区间的所述平均值的差值；

统计所述差值超过预设个数阈值的区间数；

当所述区间数大于R时判定该待测音频切片为爆音；其中，R∈(1,M)。

可选的，计算K个相邻切片的频域能量值分布数据的平均值，包括：

随机挑选音频文件的连续K个切片在各区间的分布数据相加，得到第一计算结果；

将所述第一计算结果除以所述切片的数量K，得到的结果作为该区间的平均值。

可选的，所述将频域能量值由低到高等分为M个区间，包括：

获取所述各小份的频域能量值的最高值；

根据所述最高值设定区间上限，并将下限设为0；将其等分为M个区间。

可选的，其特征在于:R＝M/2。

另一方面，本发明实施例提供一种音频爆音检测装置，包括：

切片单元，用于将音频文件切割为等时长的多个音频切片；

傅氏变换单元，用于将每个音频切片再均分为N个小份，对每个小份进行快速傅里叶变换，得到每个音频切片中每个小份的频域能量最高值；

分布统计单元，用于将频域能量值由低到高等分为M个区间，统计每个音频切片对应的N个频域能量最高值分布在所述M个区间的个数为切片频域值分布个数；

平均值计算单元，用于根据每个音频切片的所述切片频域值分布个数，通过K-最紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值；

爆音判断单元，用于当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时，判定该待测音频切片为爆音。

可选的，包括：

差值计算子单元，用于分别计算所述M个区间中，与该K个相邻音频切片相邻的待测音频切片的频域能量最高值个数和在该区间的所述平均值的差值；

爆音区间统计子单元，用于统计所述差值超过预设个数阈值的区间数；

爆音判断子单元，用于当所述区间数大于R时判定该待测音频切片为爆音；其中，R∈(1,M)。

可选的，所述平均值计算单元，包括：

第一计算子单元，用于随机挑选音频文件的连续K个切片在各区间的分布数据相加，得到第一计算结果；

第二计算子单元，用于将所述第一计算结果除以所述切片的数量K，得到的结果作为该区间的平均值。

可选的，所述分布统计单元，包括：

最高值获取子单元，用于获取所述各小份的频域能量最高值中的最高值；

区间划分子单元，用于根据所述最高值设定区间上限，并将下限设为0；将其等分为M个区间。

可选的:R＝M/2。

上述技术方案具有如下有益效果：因为音频信号的声音大小对应傅里叶能量转换后的频域能量值，通过各个音频切片的频域能量值来刻画待检测音频文件的声音频率，根据多个音频切片的频域能量值比较，找出与相邻切片差异较大的音频，可判断其为爆音或低音，避免了人工识别带来的误差，提升了精确度，同时由于不同音频信号的强度分布各不相同，而本发明通过对整首歌曲的所有音频信号进行K-最紧邻算法进行对比，使音频检测范围更加广泛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是为本发明实施例提供的音频切片傅里叶转换的频域图；

图2为本发明实施例提供的一种音频爆音检测方法的流程示意图；

图3为本发明实施例提供的一种音频爆音检测装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种音频爆音检测方法。方法流程图如图2所示，该方法包括以下步骤：

步骤101，将音频文件切割为等时长的多个音频切片；

图1为音频切片傅里叶转换的频域图。如图1所示，将一个音频文件以预设时长进行切片，一个音频的切片数量由音频的时长决定。

步骤102，将每个音频切片再均分为N个小份，对每个小份进行快速傅里叶变换，得到每个音频切片中每个小份的频域能量最高值；

步骤103，将频域能量值由低到高等分为M个区间，统计每个音频切片对应的N个频域能量最高值分布在所述M个区间的个数为切片频域值分布个数；

步骤104，根据每个音频切片的所述切片频域值分布个数，通过K-最紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值；

步骤105，当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时，判定该待测音频切片为爆音。

统计所述差值超过预设个数阈值的区间数；

可选的，所述将频域能量值由低到高等分为M个区间，包括：

获取所述各小份的频域能量值的最高值；

可选的，其特征在于:R＝M/2。

在本发明的一个实施例中，采用加窗方式将待处理的音频划分为多个切片，其中，在划分切片时按照从一段音频切片信号中移动一个设定平移长度来划分一个切片，且划分的切片的长度为设定加窗宽度；

优选地，在其中一个实方式中，可以将加窗宽度的预设时长设定为0.2s；

以设定平移长度为0.2s，即200ms，设定加窗宽度为200ms为例，则对于一个待处理的一个200s时长的音频信号，划分出的歌曲切片为：

第一个歌曲切片为0-200ms；

第二个切片为201ms-400ms；

以此类推；

一般歌曲的平均长度为300s，因此歌曲切片的数量平均为1500个；

其中，200ms的时间长度是人耳能对声音大小分辨的最小单位，小于200ms，人耳将不能分辨原音与回声。

作为本发明的一个实施例，本发明中记录音频切片的频域能量值中的最高值，包括：

将每一个切片再细分为N个小份后，对每个小份进行快速傅里叶变换计；

优选地，在其中一个实施例中，对一个音频切片进行细分，可以细分为N个小份，再对这N个小份进行快速傅里叶变换处理，切片的时长为0.2s，即200ms，一个切片进行傅里叶转换的情况见图1；

计算该细分小份在完成快速傅里叶变换处理后全频段内每一频点下幅度的对数值，转换后的幅度可直观的由图1所示；对数值作为每一频点下的频域能量值；

得到每一细分小份的频域能量值后，记录每一小份的频域能量最高值。

所述计算切片完成快速傅里叶变换处理后每一频点下的频域能量值，是指计算该语音帧在完成快速傅里叶变换处理后全频段内每一频点下幅度的对数值，转换后的幅度可直观的由图1所示；对数值作为每一频点下的频域能量值。

在一般情况下，频域能量值的范围在0-400，

也就是说，在傅里叶转换后的频域能量图中的幅度对数值为各个频点的能量值，对一个切片的能量值进行分段区间统计，一般分为4个区间，分别为能量值1-100；能量值101-200；能量值201-300；能量值301-400。

基于上述步骤202的数据，记录一个切片的对应的N个最高值分布在所述M个区间的个数，如表1所示：

音频碎片	能量值1-100	能量值101-200	能量值201-300	能量值301-400
					1	2	15	62	21
2	1	10	69	20
					3	1	11	70	18
A	1	14	64	21
					B	2	6	11	81

表1

对一个音频切片的能量值进行区间统计，分为能量值1-100；能量值101-200；能量值201-300；能量值301-400；统计每个细分小份的能量最高值落入各个区间的个数。

将频域能量值分区间，计算每一细分等份的能量最高值落入频域能量值区间的个数；

优选地，在其中一个实施例中，统计数据为在能量值1-100中有k₁个，在能量值101-200的范围内有k₂个，在能量值201-300的范围内有k₃个，在能量值301-400的范围内有k4个。

在其中一个实施例中，如表1所示，一个切片样本为0-200ms，该样本编号为1，200ms再细分为100份，能量值1-100范围内的有2个，能量值101-200范围内的有15个，能量值，能量值201-300范围内的有62个，能量值301-400范围内的有21个；

第二切片为201-400ms，样本编号为2，能量值1-100范围内的有1个，能量值101-200范围内的有10个，能量值201-300范围内的有69个，能量值301-400范围内的有20个；

第三切片为401-600ms，样本编号为3，能量值1-100范围内的有1个，能量值101-200范围内的有11个，能量值201-300范围内的有70个，能量值301-400范围内的有18个；

以此类推，记录得到的能量值数据。

优选地，本发明中，对一个音频切片进行傅里叶变换处理，切片的时长为预设时长0.2s，即200ms，对一个切片再细分后进行傅里叶转换，统计能量值分布范围数据。

可选的，随机挑选音频文件的连续K个切片在能量值分段1-100的统计数据相加，得到第一计算结果；

以能量值分段1-100为例，则本步骤203就将样本1-K内能量值分段的统计数据相加，并除以样本的数量K，得到该能量值分段的平均能量值E₁；

将所述第一计算结果除以所述切片的数量K，得到的结果作为该频域能量值分段的平均能量值E₁；计算K个音频切片的4个频域能量值分段的平均能量值E₁、E₂、E₃和E₄；；

在其中一个实施例中，对于能量值分布范围数据求平均值，能量频段为0-100的平均能量值为E₁，能量值100-200的平均值为E₂，能量值200-300的平均值为E₃，能量值300-400的平均值为E₄。

可选的，以表1的数据为例，选取的切片样本数k为3，切片样本1-3能量值1-100范围内的数据以此为2、1、1，计算样本1-3的平均能量值E₁的平均值为(2+1+1)/3＝1.3，因此E₁的值为1.3,E₂＝(15+10+11)/3＝12、E₃＝(62+69+70)/3＝67、E₄＝(21+20+18)/3＝19.7；

因此，切片样本1-3的能量值分布数据的平均值为(1.3、12、67、19.7)；

对比样本为A(为随机样本)和B(为K+1个样本)，能量值区间分布数据记为A₁(对应能量值1-100的区间分布数据),A₂(对应能量值101-200的区间分布数据)，A₃(对应能量值201-300的区间分布数据)，A₄(对应能量值301-400的区间分布数据)；能量值区间分布数据记为B₁(对应能量值1-100的区间分布数据),B₂(对应能量值101-200的区间分布数据)，B₃(对应能量值201-300的区间分布数据)，B₄(对应能量值301-400的区间分布数据)。

对比E₁和A₁、B₁，对比E₂和A₂、B₂，对比E₃和A₃、B₃；对比E₄和A₄、B₄；

计算A₁、A₂、A₃、A₄的数据与E₁、E₂、E₃、E₄的数据差值。

对比切片样本A的数据(1、14、64、21)，平均值为(1.3、12、67、19.7)，分别计算差值为(|1.3-1|＝0.3，|12-14|＝2，|67-64|＝3，|19.7-21|＝1.3)，数据(0.3，2，3，1.3)均小于10，样本A为正常样本。

而B₁、B₂、B₃、B₄的数据与E₁、E₂、E₃、E₄的数据差值为(1，8，53，60)，其中，53和60大于10，且差值较大数据R为2，M为4，R＝M/2，判定样本B为爆音。

每一段音频信号的强度分布各不相同，但在一个完整的歌曲音频中，由于歌曲音频的性质决定了歌曲的能量值上升和下降的速度是缓慢的存在一定能量值递进关系的，因此相邻样本的能量强度的分布比较类似，能量的强弱分布在相邻的音频信号样本中有一定的相似性，因此对比K个相邻样本的能量值分布数据对检测爆音是有意义的。

基于对音频爆音的理解，我们可以知道，音频的爆音部分，频域能量值突然增大或降低，其变化幅度较大，因此音频的爆音部分，对比相邻的音频，声音变化增大，对应的该样本时间段的能量值分布范围变化幅度相对较高，我们可以从图1种看到该歌曲切片中的能量有高有低，再将一个0.2s的样本进行细分，细分的份数一般大于100，再对细分后的能量值分布数据进行统计，对应该切片样本的能量值分布情况，基于此，图2所示流程，本发明使用K-最紧邻算法对相邻样本的能量分布进行同类别分析来确定音频的爆音是合理的，并且其能准确，快速的在音频的所有切片样本中自动找到爆音部分，不需要人力的二次筛选，较现有技术节省了大量人力。

以上对本发明提供的方法进行了描述，下面对本发明提供的装置进行描述：

图3为本发明实施例提供的装置结构图。如图3所示，本发明实施例提供一种音频爆音检测装置，该装置可包括：

切片单元201，用于将音频文件切割为等时长的多个音频切片；

傅氏变换单元202，用于将每个音频切片再均分为N个小份，对每个小份进行快速傅里叶变换，得到每个音频切片中每个小份的频域能量最高值；

分布统计单元203，用于将频域能量值由低到高等分为M个区间，统计每个音频切片对应的N个频域能量最高值分布在所述M个区间的个数为切片频域值分布个数；

平均值计算单元204，用于根据每个音频切片的所述切片频域值分布个数，通过K-最紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值；

爆音判断单元205，用于当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时，判定该待测音频切片为爆音。

可选的，包括：

可选的，所述平均值计算单元，包括：

可选的，所述分布统计单元，包括：

可选的:R＝M/2。

优选地，本发明中，所述划分模块可以采用加窗方式对待检测的音频信号进行划分为多个切片样本，加窗宽度为预设时长，其中，在划分切片时可以按照人耳能识别的最小时间单位设定加窗宽度。

优选地，

将每一切片样本再细分为N份，其中N的值可以为≥100；

对每一细分等份中的能量值分布数据进行统计。

优选地，本发明中，所述分析模块，用于将音频切片转换后的频域能量值使用K-最紧邻算法分析，比较待检测切片和K个相邻切片的频域能量值数据，判断切片是否为同一类别，不是同一类别的音频为爆音；

基于此，所述分析模块确定的爆音部分是与相邻的样本能量分布差异较大的部分。

由以上技术方案可以看出，本发明中，每一段音频信号的强度分布各不相同，但在一个完整的歌曲音频中，由于歌曲音频的性质决定了歌曲的能量值上升和下降的速度是缓慢的存在一定能量值递进关系的，因此相邻样本的能量强度的分布比较类似，能量的强弱分布在相邻的音频信号样本中有一定的相似性，因此对比K个相邻样本的能量值分布数据对检测爆音是有意义的。。

进一步地，由于爆音本身在各个频段的语音信号能量相对其它音频有较大变化，而本发明通过各个音频切片的多频段能量值分布范围平均值是否与相邻音频各频段的平均值类似来检查待检测的音频信号是否与相邻音频类别不同而存在爆音，这完全符合爆音本身的特点，验证了本发明根据各个音频切片是否与相邻音频切片为同一类别来检查待检测的音频信号是否有爆音是合理的。

更进一步地，由于不同音频信号的强度分布各不相同，而本发明通过对整首歌曲的所有音频信号进行K-最紧邻算法进行对比，使得音频检测范围更加广泛。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频爆音检测方法，其特征在于，该方法包括：

将音频文件切割为等时长的多个音频切片；

2.根据权利要求1所述的方法，其特征在于，所述当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时，判定该待测音频切片为爆音，包括：

统计所述差值超过预设个数阈值的区间数；

3.根据权利要求1所述的方法，其特征在于，计算K个相邻切片的频域能量值分布数据的平均值，包括：

4.根据权利要求1所述的方法，其特征在于，所述将频域能量值由低到高等分为M个区间，包括：

获取所述各小份的频域能量值的最高值；

5.根据权利要求2所述的方法，其特征在于:R＝M/2。

6.一种音频爆音检测装置，其特征在于，包括：

切片单元，用于将音频文件切割为等时长的多个音频切片；

7.根据权利要求6所述的装置，其特征在于，所述爆音判断单元，包括：

8.根据权利要求6所述的装置，其特征在于，所述平均值计算单元，包括：

9.根据权利要求6所述的装置，其特征在于，所述分布统计单元，包括：

10.根据权利要求7所述的装置，其特征在于:R＝M/2。