CN117437939A

CN117437939A - 一种应急广播语音活性检测方法、系统、设备及介质

Info

Publication number: CN117437939A
Application number: CN202311022176.2A
Authority: CN
Inventors: 赵泽钧; 袁苇; 张宏辉
Original assignee: Fujian Newland Communication Science Technologies Co ltd
Current assignee: Fujian Newland Communication Science Technologies Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2024-01-23

Abstract

本发明提供了应急广播技术领域的一种应急广播语音活性检测方法、系统、设备及介质，方法包括：步骤S1、获取应急广播系统输入的音频信号，对音频信号进行分割得到若干段音频帧；步骤S2、分别计算各音频帧的平均能量；步骤S3、对各音频帧计算频谱平坦度以及频率；步骤S4、计算各音频帧的最小平均能量、最小平坦度以及最小频率；步骤S5、设定能量阈值、平坦阈值以及频率阈值，基于能量阈值、平坦阈值、频率阈值、平均能量、频谱平坦度、频率、最小平均能量、最小平坦度以及最小频率进行语音活性检测。本发明的优点在于：实现对应急广播系统的语音活性进行检测，进而极大的降低了应急广播系统的资源浪费，并极大的提升了语音活性检测的稳定性。

Description

一种应急广播语音活性检测方法、系统、设备及介质

技术领域

本发明涉及应急广播技术领域，特别指一种应急广播语音活性检测方法、系统、设备及介质。

背景技术

语音活性检测(Voice Activity Detection,VAD)指的是一种检测语音或音频信号中静默部分的技术，是许多语音/音频应用程序中非常关键的技术，包含语音编码、语音识别、语音增强和音频索引等。

应急广播是利用广播电视和新媒体等方式，通过广播电视传输覆盖网和其他信息网络，向公众或特定区域、特定人群发布应急信息的传播系统，是向公众提供应急信息的重要手段，是应急管理体系和公共文化服务体系的重要组成部分。应急广播系统作为一种与语音、音频息息相关的系统，静音/话音分析在其中具有重要作用，但传统的很多应急广播系统并不具有相关功能，进而导致对无用的静音内容进行处理而浪费了运算、存储、网络带宽流量等在嵌入式设备上本就紧张的资源，同时一些现有的语音活性检测算法建模过于复杂不易在嵌入式设备上实现，或只是单纯判断能量级别，缺乏在噪音环境下的稳定性。

因此，如何提供一种应急广播语音活性检测方法、系统、设备及介质，实现对应急广播系统的语音活性进行检测，进而降低应急广播系统的资源浪费，并提升语音活性检测的稳定性，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种应急广播语音活性检测方法、系统、设备及介质，实现对应急广播系统的语音活性进行检测，进而降低应急广播系统的资源浪费，并提升语音活性检测的稳定性。

第一方面，本发明提供了一种应急广播语音活性检测方法，包括如下步骤：

步骤S1、获取应急广播系统输入的音频信号，基于设定的帧长度对所述音频信号进行分割，得到若干段音频帧；

步骤S2、分别计算各所述音频帧的平均能量；

步骤S3、分别对各所述音频帧计算频谱平坦度以及频率；

步骤S4、分别计算各所述音频帧的最小平均能量、最小平坦度以及最小频率；

步骤S5、设定一能量阈值、一平坦阈值以及一频率阈值，基于所述能量阈值、平坦阈值、频率阈值、平均能量、频谱平坦度、频率、最小平均能量、最小平坦度以及最小频率进行语音活性检测。

进一步的，所述步骤S1中，所述帧长度为100毫秒。

进一步的，所述步骤S3具体为：

分别对各所述音频帧进行快速傅里叶变换，进而计算频谱平坦度以及频率。

进一步的，所述步骤S5具体为：

设定一能量阈值、一平坦阈值以及一频率阈值；

当平均能量-最小平均能量≥能量阈值、频谱平坦度-最小平坦度≥平坦阈值、或者频率-最小频率≥频率阈值，将所述音频帧标记为话音帧；否则，将所述音频帧标记为静音帧，以完成语音活性检测。

第二方面，本发明提供了一种应急广播语音活性检测系统，包括如下模块：

音频信号分割模块，用于获取应急广播系统输入的音频信号，基于设定的帧长度对所述音频信号进行分割，得到若干段音频帧；

平均能量计算模块，用于分别计算各所述音频帧的平均能量；

平坦度和频率计算模块，用于分别对各所述音频帧计算频谱平坦度以及频率；

最小值计算模块，用于分别计算各所述音频帧的最小平均能量、最小平坦度以及最小频率；

语音活性检测模块，用于设定一能量阈值、一平坦阈值以及一频率阈值，基于所述能量阈值、平坦阈值、频率阈值、平均能量、频谱平坦度、频率、最小平均能量、最小平坦度以及最小频率进行语音活性检测。

进一步的，所述音频信号分割模块中，所述帧长度为100毫秒。

进一步的，所述平坦度和频率计算模块具体用于：

进一步的，所述语音活性检测模块具体用于：

设定一能量阈值、一平坦阈值以及一频率阈值；

第三方面，本发明提供了一种应急广播语音活性检测设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

第四方面，本发明提供了一种应急广播语音活性检测介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

通过获取应急广播系统输入的音频信号，基于设定的帧长度对音频信号进行分割得到若干段音频帧，分别计算各音频帧的平均能量，再分别对各音频帧计算频谱平坦度以及频率，分别计算各音频帧的最小平均能量、最小平坦度以及最小频率，最后设定能量阈值、平坦阈值以及频率阈值，基于能量阈值、平坦阈值、频率阈值、平均能量、频谱平坦度、频率、最小平均能量、最小平坦度以及最小频率进行语音活性检测，即实现对音频信号的语音活性进行检测，避免对无用的静音帧(静音内容)进行处理而浪费相关资源，且通过平均能量、频谱平坦度以及频率来进行多维的语音活性检测，即使在噪音环境下也能有效识别话音帧和静音帧，最终实现对应急广播系统的语音活性进行检测，进而极大的降低了应急广播系统的资源浪费，并极大的提升了语音活性检测的稳定性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种应急广播语音活性检测方法的流程图。

图2是本发明一种应急广播语音活性检测系统的结构示意图。

图3是本发明一种应急广播语音活性检测设备的结构示意图。

图4是本发明一种应急广播语音活性检测介质的结构示意图。

具体实施方式

本申请实施例通过提供一种应急广播语音活性检测方法、系统、设备及介质，实现对应急广播系统的语音活性进行检测，进而降低应急广播系统的资源浪费，并提升语音活性检测的稳定性。

本申请实施例中的技术方案，总体思路如下：且通过平均能量、频谱平坦度以及频率来对应急广播系统输入的音频信号进行多维的语音活性检测，避免对无用的静音帧进行处理而浪费相关资源，即使在噪音环境下也能有效识别话音帧和静音帧，以提升语音活性检测的稳定性。

实施例一

本实施例提供一种应急广播语音活性检测方法，如图1所示，包括如下步骤：

步骤S2、分别计算各所述音频帧的平均能量；

步骤S3、分别对各所述音频帧计算频谱平坦度以及频率(主要频率)；

步骤S4、分别计算各所述音频帧的最小平均能量、最小平坦度以及最小频率；若计算的平均能量、频谱平坦度或者频率，小于最小平均能量、最小平坦度或者最小频率，则对最小平均能量、最小平坦度或者最小频率进行更新；

步骤S5、设定一能量阈值、一平坦阈值以及一频率阈值，基于所述能量阈值、平坦阈值、频率阈值、平均能量、频谱平坦度、频率、最小平均能量、最小平坦度以及最小频率进行语音活性检测。所述能量阈值可选为50，所述平坦阈值可选为180，所述频率阈值可选为6。

本发明易于实现，且能适应不同录音条件和噪音环境的检测。

所述步骤S1中，所述帧长度为100毫秒。

所述步骤S3具体为：

所述步骤S5具体为：

设定一能量阈值、一平坦阈值以及一频率阈值；

本发明的音活性检测涉及三个特征，分别是平均能量(短期能量)、频谱平坦度以及频率；短期能量是检测话音/静音的最常用特征，但是在嘈杂环境与低信噪比下准确度不够；频谱平坦度对于区分话音与非话音的声音效果比较显著；频率对于区分话音与静音则效果比较显著。

应用本发明可达成以下功能：a)适配器打开麦克风进行喊话后，常忘记关闭而导致持续收音播放，使用本发明可以在经过预设时间的静音后关闭广播；b)如果检测到当前广播内容为静音且不能关闭广播，则停止对静音的数据包的编码与传输，节约流量；c)对于需要进行广播录音审核的系统，通过语音活性检测可以掠过对静音数据包的编码与保存，节约设备紧张的存储空间。

实施例二

本实施例提供一种应急广播语音活性检测系统，如图2所示，包括如下模块：

平坦度和频率计算模块，用于分别对各所述音频帧计算频谱平坦度以及频率(主要频率)；

最小值计算模块，用于分别计算各所述音频帧的最小平均能量、最小平坦度以及最小频率；若计算的平均能量、频谱平坦度或者频率，小于最小平均能量、最小平坦度或者最小频率，则对最小平均能量、最小平坦度或者最小频率进行更新；

语音活性检测模块，用于设定一能量阈值、一平坦阈值以及一频率阈值，基于所述能量阈值、平坦阈值、频率阈值、平均能量、频谱平坦度、频率、最小平均能量、最小平坦度以及最小频率进行语音活性检测。所述能量阈值可选为50，所述平坦阈值可选为180，所述频率阈值可选为6。

所述音频信号分割模块中，所述帧长度为100毫秒。

所述平坦度和频率计算模块具体用于：

所述语音活性检测模块具体用于：

设定一能量阈值、一平坦阈值以及一频率阈值；

基于同一发明构思，本申请提供了实施例一对应的电子设备实施例，详见实施例三。

实施例三

本实施例提供了一种应急广播语音活性检测设备，如图3所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备，都属于本申请所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例四。

实施例四

本实施例提供一种应急广播语音活性检测介质，如图4所示，其上存储有计算机程序，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。

由于本实施例所介绍的存储介质为实施本申请实施例一中方法所采用的存储介质，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的存储介质的具体实施方式以及其各种变化形式，所以在此对于该存储介质如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的存储介质，都属于本申请所欲保护的范围。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种应急广播语音活性检测方法，其特征在于：包括如下步骤：

步骤S2、分别计算各所述音频帧的平均能量；

步骤S3、分别对各所述音频帧计算频谱平坦度以及频率；

2.如权利要求1所述的一种应急广播语音活性检测方法，其特征在于：所述步骤S1中，所述帧长度为100毫秒。

3.如权利要求1所述的一种应急广播语音活性检测方法，其特征在于：所述步骤S3具体为：

4.如权利要求1所述的一种应急广播语音活性检测方法，其特征在于：所述步骤S5具体为：

设定一能量阈值、一平坦阈值以及一频率阈值；

5.一种应急广播语音活性检测系统，其特征在于：包括如下模块：

6.如权利要求5所述的一种应急广播语音活性检测系统，其特征在于：所述音频信号分割模块中，所述帧长度为100毫秒。

7.如权利要求5所述的一种应急广播语音活性检测系统，其特征在于：所述平坦度和频率计算模块具体用于：

8.如权利要求5所述的一种应急广播语音活性检测系统，其特征在于：所述语音活性检测模块具体用于：

设定一能量阈值、一平坦阈值以及一频率阈值；

9.一种应急广播语音活性检测设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。

10.一种应急广播语音活性检测介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4任一项所述的方法。