CN113257276B

CN113257276B - 一种音频场景检测方法、装置、设备及存储介质

Info

Publication number: CN113257276B
Application number: CN202110499109.4A
Authority: CN
Inventors: 陈英博
Original assignee: Pulian International Co ltd
Current assignee: Pulian International Co ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2024-03-29
Anticipated expiration: 2041-05-07
Also published as: CN113257276A

Abstract

本发明提供一种音频场景检测方法、装置、设备及存储介质，所述方法包括获取待检测的音频频域信号；计算所述音频频域信号中任一帧的任一频点的频率；将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点；计算所述任一帧中预设音频频点的频谱能量之和，得到预设音频频谱能量；当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时，则所述任一帧中含有预设音频；当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时，则所述音频频域信号中含有预设音频场景。本发明技术方案简单且能够准确地判断出待检测的音频频域信号中是否含有预设音频场景。

Description

一种音频场景检测方法、装置、设备及存储介质

技术领域

本发明涉及音频技术领域，尤其涉及一种音频场景检测方法、装置、设备及存储介质。

背景技术

音乐场景检测在一些音频类任务中比较重要。比如，在由音乐节奏控制LED灯闪动的应用场景中，若能够识别出正在监听的场景中存在音乐，那么会为后续的节奏检测任务提供很多的先验信息，避免发生场景中没有音乐，但是LED灯被激活的问题。

现有音乐场景检测方法主要包括频谱能量法和机器学习方法，然而，现有基于频谱能量检测音乐场景的技术方案获得的效果差、基于机器学习检测音乐场景的技术方案太复杂。

发明内容

本发明的目的在于提供一种音频场景检测方法、装置、设备及存储介质，以解决现有基于频谱能量检测音乐场景的技术方案获得的效果差、基于机器学习检测音乐场景的技术方案太复杂的技术问题，本发明技术方案简单且效果好。

为了解决上述技术问题，第一方面，本发明实施例提供一种音频场景检测方法，包括:

获取待检测的音频频域信号；

计算所述音频频域信号中任一帧的任一频点的频率；

将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点；

计算所述任一帧中预设音频频点的频谱能量之和，得到预设音频频谱能量；

当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时，则所述任一帧中含有预设音频；

当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时，则所述音频频域信号中含有预设音频场景。

进一步地，所述获取待检测的音频频域信号之前，还包括：

获取待检测的音频信号；

对所述音频信号进行分帧处理，得到音频时域信号；

将所述音频时域信号转换到频域，得到待检测的音频频域信号。

进一步地，根据公式计算所述音频频域信号中任一帧的任一频点的频率F(n)，其中F_s表示音频信号的采样频率，n表示任一频点在任一帧中的位置，N表示任一帧的总频点数。

进一步地，所述将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点，具体包括：

计算所述任一频点的频率与预设的音高与频率对照表中任一频率的差值；

当所述预设的音高与频率对照表中存在一频率使所述差值小于第三预设阈值时，则所述任一频点为预设音频频点。

进一步地，所述预设的音高与频率对照表为国际标准音高与频率对照表，所述预设音频场景为含音乐场景。

第二方面，本发明实施例提供一种音频场景检测装置，包括：

音频频域信号获取模块，用于获取待检测的音频频域信号；

频率计算模块，用于计算所述音频频域信号中任一帧的任一频点的频率；

比较模块，用于将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点；

频谱能量之和计算模块，用于计算所述任一帧中预设音频频点的频谱能量之和，得到预设音频频谱能量；

第一判断模块，用于当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时，则所述任一帧中含有预设音频；

第二判断模块，用于当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时，则所述音频频域信号中含有预设音频场景。

进一步地，所述获取待检测的音频频域信号之前，还包括：

获取待检测的音频信号；

对所述音频信号进行分帧处理，得到音频时域信号；

第三方面，本发明实施例提供一种音频场景检测设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项所述的音频场景检测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一项所述的音频场景检测方法。

与现有技术相比，本发明实施例提供的音频场景检测方法包括：获取待检测的音频频域信号；计算所述音频频域信号中任一帧的任一频点的频率；将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点；计算所述任一帧中预设音频频点的频谱能量之和，得到预设音频频谱能量；当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时，则所述任一帧中含有预设音频；当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时，则所述音频频域信号中含有预设音频场景。相比于基于机器学习的音频场景检测技术，本发明实施例计算方法更加简单，能够快速识别出待检测的音频中是否含有预设音频场景，此外，相比于基于频谱能量的音频场景检测技术，本发明实施例将任一频点的频率与预设的音高与频率对照表进行比较，来判断所述任一频点是否为预设音频频点，能够更加准确的判断出待检测的音频频域信号中是否含有预设音频场景，因此，效果更好。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的音频场景检测方法的流程示意图；

图2是本发明一实施例提供的音频场景检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

实施例1：

请参阅图1，本发明实施例提供一种音频场景检测方法，包括S1-S6:

S1、获取待检测的音频频域信号；

S2、计算所述音频频域信号中任一帧的任一频点的频率；

S3、将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点；

S4、计算所述任一帧中预设音频频点的频谱能量之和，得到预设音频频谱能量；

S5、当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时，则所述任一帧中含有预设音频；

S6、当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时，则所述音频频域信号中含有预设音频场景。

在本发明实施例中，所述第一预设阈值根据实际情况确定，本发明对此不限制，例如，当判断所述任一帧中是否含有音乐时，所述第一预设阈值可定为0.5～0.8左右，所述第二预设阈值根据情况确定，本发明对此也不作限定，例如，可以设为0.8。

应当理解的时，所述音频场景检测方法可由电子设备执行，也可由服务器执行，本发明对此不作限制。

相比于基于机器学习的音频场景检测技术，本发明实施例计算更加简单，能够快速识别出待检测的音频中是否含有预设音频场景，此外，相比于基于频谱能量的音频场景检测技术，本发明实施例能够更加准确的判断出待检测的音频频域信号中是否含有预设音频场景，因此，效果更好。

作为本发明实施例的一种举例，所述获取待检测的音频频域信号之前，还包括：

获取待检测的音频信号；

对所述音频信号进行分帧处理，得到音频时域信号；

在本发明实施例中，具体的，通过傅里叶变换将所述音频时域信号转换到频域，得到待检测的音频频域信号。

作为本发明实施例的一种举例，根据公式计算所述音频频域信号中任一帧的任一频点的频率F(n)，其中F_s表示音频信号的采样频率，n表示任一频点在任一帧中的位置，N表示任一帧的总频点数。

在本发明实施例中，所述n的取值范围为：0≤n≤N/2。所述N的取值根据实际设计需求确定，本发明对此不作限制。为提升频谱分辨率，所述N的取值可取大一些，例如，取1024或2048。所述音频信号的采样频率同样根据实际设计需求确定，本发明对此不作限制，例如可以是8kHz或16kHz。

作为本发明实施例的一种举例，所述将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点，具体包括：

具体地，当|F(n)-f|<D成立时，所述任一频点为预设音频频点；其中，F(n)为所述任一频点的频率，f为所述预设的音高与频率对照表中的任一频率，D为第三预设阈值。

在本发明实施例中，所述第三预设阈值根据实际情况设定，本发明对此不作限制。当所述预设的音高与频率对照表为国际标准音高与频率对照表时，所述第三预设阈值在5Hz～20Hz之间。

请参阅图2，作为本发明实施例的一种举例，所述预设的音高与频率对照表为国际标准音高与频率对照表，所述预设音频场景为含音乐场景。

音频频域信号获取模块1，用于获取待检测的音频频域信号；

频率计算模块2，用于计算所述音频频域信号中任一帧的任一频点的频率；

比较模块3，用于将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点；

频谱能量之和计算模块4，用于计算所述任一帧中预设音频频点的频谱能量之和，得到预设音频频谱能量；

第一判断模块5，用于当所述预设音频频谱能量与所述任一帧的总频谱能量的比值大于第一预设阈值时，则所述任一帧中含有预设音频；

第二判断模块6，用于当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时，则所述音频频域信号中含有预设音频场景。

在本发明实施例中，所述第一预设阈值根据实际情况确定，本发明对此不限制，例如，当所述任一帧中含有音乐时，所述第一预设阈值可定为0.5～0.8左右,所述第二预设阈值根据情况确定，本发明对此也不作限定，例如，可以为0.8。

相比于基于机器学习的音频场景检测技术，本发明实施例计算更加简单、因此，能够快速识别出待检测的音频中是否含有预设音频场景，此外，相比于基于频谱能量的音频场景检测技术，本发明实施例能够更加准确的判断出待检测的音频频域信号中是否含有预设音频场景，因此，效果更好。

获取待检测的音频信号；

对所述音频信号进行分帧处理，得到音频时域信号；

在本发明实施例中，所述n的取值范围为：0≤n≤N/2。所述的N取值根据实际设计需求确定，本发明对此不作限制。为提升频谱分辨率，所述N的取值可取大一些，例如，取1024或2048。所述音频信号的采样频率同样根据实际设计需求确定，本发明对此不作限制，例如可以是8kHz或16kHz。

实施例3：

本发明实施例提供一种音频场景检测设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的音频场景检测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的音频场景检测方法。

需要说明的是，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要进一步说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种音频场景检测方法，其特征在于，包括:

获取待检测的音频频域信号；

计算所述音频频域信号中任一帧的任一频点的频率；

将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点，其中，所述预设的音高与频率对照表为国际标准音高与频率对照表；

当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时，则所述音频频域信号中含有预设音频场景，其中，所述预设音频场景为含音乐场景。

2.根据权利要求1所述的音频场景检测方法，其特征在于，所述获取待检测的音频频域信号之前，还包括：

获取待检测的音频信号；

对所述音频信号进行分帧处理，得到音频时域信号；

3.根据权利要求2所述的音频场景检测方法，其特征在于，根据公式计算所述音频频域信号中任一帧的任一频点的频率F(n)，其中F_s表示音频信号的采样频率，n表示任一频点在任一帧中的位置，N表示任一帧的总频点数。

4.根据权利要求1所述的音频场景检测方法，其特征在于，所述将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点，具体包括：

5.一种音频场景检测装置，其特征在于，包括：

音频频域信号获取模块，用于获取待检测的音频频域信号；

比较模块，用于将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点，其中，所述预设的音高与频率对照表为国际标准音高与频率对照表；

第二判断模块，用于当含有预设音频的任一帧的帧数与音频频域信号的总帧数的比值大于第二预设阈值时，则所述音频频域信号中含有预设音频场景，其中，所述预设音频场景为含音乐场景。

6.根据权利要求5所述的音频场景检测装置，其特征在于，所述将所述任一频点的频率与预设的音高与频率对照表进行比较，判断所述任一频点是否为预设音频频点，具体包括：

7.一种音频场景检测设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的音频场景检测方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任一项所述的音频场景检测方法。