CN116417015B

CN116417015B - 一种压缩音频的静默检测方法及装置

Info

Publication number: CN116417015B
Application number: CN202310350610.3A
Authority: CN
Inventors: 王恒; 郭永乐; 赵群英
Original assignee: Guangzhou DSPPA Audio Co Ltd
Current assignee: Guangzhou DSPPA Audio Co Ltd
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-09-12
Anticipated expiration: 2043-04-03
Also published as: CN116417015A

Abstract

本发明公开一种压缩音频的静默检测方法及装置，所述方法包括：获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据；持续监测所述压缩音频数据单位时间内的数据量，若所述单位时间内的数据量小于预设数据阈值，统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率；根据所述全部单字节数据值的出现概率，统计有效数据值出现的概率总和；出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况，判断所述压缩音频数据为静默音频。采用本发明，检测静默状态时不需要解码基带音频数据，大大减少了运算量、检测设备的内存储存空间要求。

Description

一种压缩音频的静默检测方法及装置

技术领域

本发明涉及压缩音频处理技术领域，尤其涉及一种压缩音频的静默检测方法及装置。

背景技术

随着科技的发展，音频压缩技术广泛应用于各行各业，音频静默检测技术也服务于各种行业，例如会议对讲领域，VOIP电话会议。现有针对压缩音频的音频静默检测技术，通过处理器解码压缩音频获取音频基带信号，分析音频基带信号，采用包络检测，声音分贝或者过零检测方法来判断。

现有的针对压缩音频的音频静默检测技术存在以下不足：

一是由于需要分析基带音频数据，大量场景需要进行解码后再分析，运算量大；二是由于基带数据量大，对处理设备的内存储存空间要求大。

发明内容

本发明实施例提供一种压缩音频的静默检测方法及装置，在不需要解码的情况下实现静默检测。

为实现上述目的，本申请实施例的第一方面提供一种压缩音频的静默检测方法，包括：

获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据；

持续监测所述压缩音频数据单位时间内的数据量，若所述单位时间内的数据量小于预设数据阈值，统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率；

根据所述全部单字节数据值的出现概率，统计有效数据值出现的概率总和；所述有效数据值是指出现概率大小为前N个的单字节数据值，N为正整数；

出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况，判断所述压缩音频数据为静默音频。

在第一方面的一种可能的实现方式中，在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后，还包括：

比较出现概率最大的单字节数据值与预设极值判断阈值的大小，若所述出现概率最大的单字节数据值大于所述预设极值判断阈值，进行后续步骤；

若所述出现概率最大的单字节数据值小于或等于所述预设极值判断阈值，判断所述压缩音频数据为非静默音频，不进行后续步骤。

在第一方面的一种可能的实现方式中，所述根据所述全部单字节数据值的出现概率，统计有效数据值出现的概率总和，具体包括：

将全部单字节数据值的出现概率中最大的出现概率作为有效数据值出现的概率总和。

将全部单字节数据值的出现概率中前二大的两个出现概率之和作为有效数据值出现的概率总和。

第一方面的一种可能的实现方式中，所述时间窗的长度为500ms。

本申请实施例的第二方面提供一种压缩音频的静默检测装置，包括：

音频获取模块，用于获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据；

第一统计模块，用于持续监测所述压缩音频数据单位时间内的数据量，若所述单位时间内的数据量小于预设数据阈值，统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率；

第二统计模块，用于根据所述全部单字节数据值的出现概率，统计有效数据值出现的概率总和；所述有效数据值是指出现概率大小为前N个的单字节数据值，N为正整数；

判断模块，用于出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况，判断所述压缩音频数据为静默音频。

第二方面的一种可能的实现方式中，在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后，还包括：

第二方面的一种可能的实现方式中，所述第二统计模块具体用于：

第二方面的一种可能的实现方式中，所述时间窗的长度为500ms。

相比于现有技术，本发明实施例提供的一种压缩音频的静默检测方法及装置，采用统计学方法，在一定时间内，统计编码数据里出现各数据值的概率，根据各数据值的概率区分出有效数据值并统计有效数据值出现的概率总和，有效数据值出现的概率总和反映了音频数据的整体分布情况，根据概率总和进而判断压缩音频的静默状态。进一步地，比较出现概率最大的单字节数据值与预设极值判断阈值的大小，将比较结果也作为判断静默状态的条件。由于出现概率最大的单字节数据值反映了数据的峰值以及波动程度，若所述出现概率最大的单字节数据值大于所述预设极值判断阈值，反映了数据的波动程度小，因此可以辅助判断静默状态。

上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据，大大减少了运算量，内存储存空间要求。因此本申请可应用在各种小型终端设备中部署，实现在终端即可静默检测后，去掉底噪减少编码数据量，提高网络吞吐量。

附图说明

图1是本发明一实施例提供的一种压缩音频的静默检测方法的流程示意图；

图2是本发明一实施例提供的一种压缩音频的静默检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明一实施例提供一种压缩音频的静默检测方法，包括：

S10、获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据。

S11、持续监测所述压缩音频数据单位时间内的数据量，若所述单位时间内的数据量小于预设数据阈值，统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率。

S12、根据所述全部单字节数据值的出现概率，统计有效数据值出现的概率总和；所述有效数据值是指出现概率大小为前N个的单字节数据值，N为正整数。

S13、出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况，判断所述压缩音频数据为静默音频。

声音的产生是变化的震动引起的，在数字化后就是变化的数据。静默音频即数据不变化或者变化很小。目前音频压缩算法大部分使用固定长度基带音频数据作为一帧输入数据，并使用哈夫曼编码算法作为基础，根据哈夫曼编码原理，重复出现数据越多，压缩率越大，数据量越小，出来的连续重复数据概率会越大，定长编码出来的重复数值出现的概率就大。对于不断变化的原始音频基带数据，连续重复出现的数据概率就小，即压缩率小，数据量大，编码出来重复数据出现的概率就小。因此，针对输入压缩音频数据，S11中在数据量上设置一个阈值。当小于此阈值，统计一段时间窗内，编码数据里出现的每个单字节数据值的出现概率，对出现的有效数据值的概率总和与非有效数据值的概率总和分布情况进行判断，如果连续多次达到设置的占比阈值，判断所述压缩音频数据为静默音频。

需要说明的是，各单字节编码数据值指的是压缩编码后的单个字节数据的值范围，即一字节表示值的取值范围为0～255。

本申请针对固定数据帧长度并使用哈夫曼编码算法为编码基础的音频数据，采用统计学方法，在一定时间内，统计压缩音频数据里出现的每个单字节数据值的出现概率，对有效数据值的概率总和进行判断，可快速有效的检测到静默状态。

总体来说，本申请的实质是系统通过分析输入一帧压缩音频数据量，压缩音频数据量达到设置阈值后再将连续多帧压缩音频数据各值出现的概率进行统计。连续统计并多次判断出现概率占比大于设置的阈值即判断为静默音频。目前由于带宽限制与音频压缩算法的普及，音频在各系统中都是传输通过压缩基带后的编码数据。而本发明不需要解码基带音频数据，大大减少了运算量以及内存储存空间要求，可在各种小型终端设备中部署，进而实现在终端即可静默检测后，去掉底噪减少编码数据量，提高网络吞吐量。

示例性地，在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后，还包括：

示例性地，所述根据所述全部单字节数据值的出现概率，统计有效数据值出现的概率总和，具体包括：

示例性地，所述时间窗的长度为500ms。

下面结合一个实际应用的例子说明上述实施例的运行过程：

首先分析压缩编码数据量，当压缩编码数据量一帧中的数据量小于100kbps(换言之固定码率低于100kbps，这里将预设数据阈值设置为100kbp)。进行500毫秒的时间窗内(500ms可以视情况调整)出现的0到255的数值出现的次数进行统计。若出现了100音频数据，即统计总共出现100个。其中单字节数据值为0的有10个、1的有5个、100的有30个、200的有55个。统计出现最大的2个单字节数据值(一般是1～2个，这里相当于N取2)对应的出现概率，即100跟200，加起来是85个，即85％概率。超过了预设的占比阈值(例如预设的占比阈值设置成60％)，即判断为静默音频。

接上条件与数据，针对特定编码参数的算法，当超过60％时，仍需要进行一个判断，即先确认出现概率最大的数值，如上述即55％对应的200，未超过设置的极值判断阈值，如250，则不判断为静默音频。如果上述55％对应的数据是251，则判断为静默音频。此处的“250”阈值需要根据不同音频编码参数与算法决定。如果设置为0即此判断条件不启用。

本申请实施例一实施例提供一种压缩音频的静默检测装置，包括：音频获取模块201、第一统计模块202、第二统计模块203和判断模块204。

音频获取模块201，用于获取经过哈夫曼编码算法处理且数据帧长度固定的压缩音频数据。

第一统计模块202，用于持续监测所述压缩音频数据单位时间内的数据量，若所述单位时间内的数据量小于预设数据阈值，统计一段时间窗内所述压缩音频数据中全部单字节数据值的出现概率。

第二统计模块203，用于根据所述全部单字节数据值的出现概率，统计有效数据值出现的概率总和；所述有效数据值是指出现概率大小为前N个的单字节数据值，N为正整数。

判断模块204，用于出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况，判断所述压缩音频数据为静默音频。

示例性地，所述第二统计模块203具体用于：

示例性地，所述时间窗的长度为500ms。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的定位装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述_。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种压缩音频的静默检测方法，其特征在于，包括：

2.如权利要求1所述压缩音频的静默检测方法，其特征在于，在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后，还包括：

3.如权利要求1所述压缩音频的静默检测方法，其特征在于，所述根据所述全部单字节数据值的出现概率，统计有效数据值出现的概率总和，具体包括：

4.如权利要求1所述压缩音频的静默检测方法，其特征在于，所述根据所述全部单字节数据值的出现概率，统计有效数据值出现的概率总和，具体包括：

5.如权利要求1所述压缩音频的静默检测方法，其特征在于，所述时间窗的长度为500ms。

6.一种压缩音频的静默检测装置，其特征在于，包括：

7.如权利要求6所述压缩音频的静默检测装置，其特征在于，在所述出现连续多次所述有效数据值出现的概率总和大于占比阈值的情况之后，还包括：

8.如权利要求6所述压缩音频的静默检测装置，其特征在于，所述第二统计模块具体用于：

9.如权利要求6所述压缩音频的静默检测装置，其特征在于，所述第二统计模块具体用于：

10.如权利要求6所述压缩音频的静默检测装置，其特征在于，所述时间窗的长度为500ms。