CN116469413B

CN116469413B - 一种基于人工智能的压缩音频静默检测方法及装置

Info

Publication number: CN116469413B
Application number: CN202310350527.6A
Authority: CN
Inventors: 王恒; 郭永乐; 张孝兵
Original assignee: Guangzhou DSPPA Audio Co Ltd
Current assignee: Guangzhou DSPPA Audio Co Ltd
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-12-01
Anticipated expiration: 2043-04-03
Also published as: CN116469413A

Abstract

本发明公开一种基于人工智能的压缩音频静默检测方法及装置，所述方法包括：确认压缩音频序列所采用的编码算法以及数据帧长度；根据所述编码算法选择对应的卷积神经网络；根据所述数据帧长度设置所述卷积神经网络的输入特征数量；根据所述输入特征数量调整数据帧长度，通过所述卷积神经网络对调整后的所述压缩音频序列进行识别，得所述到压缩音频序列的特征值；若所述特征值低于预设静默阈值，判断所述压缩音频序列为静默音频。采用本发明，检测静默状态时不需要解码基带音频数据，大大减少了运算量、检测设备的内存储存空间要求。

Description

一种基于人工智能的压缩音频静默检测方法及装置

技术领域

本发明涉及压缩音频处理技术领域，尤其涉及一种基于人工智能的压缩音频静默检测方法及装置。

背景技术

随着科技的发展，音频压缩技术广泛应用于各行各业，音频静默检测技术也服务于各种行业，例如会议对讲领域，VOIP电话会议。现有针对压缩音频的音频静默检测技术，通过处理器解码压缩音频获取音频基带信号，分析音频基带信号，采用包络检测，声音分贝或者过零检测方法来判断。

现有的针对压缩音频的音频静默检测技术存在以下不足：

一是由于需要分析基带音频数据，大量场景需要进行解码后再分析，运算量大；二是由于基带数据量大，对处理设备的内存储存空间要求大。

发明内容

本发明实施例提供一种基于人工智能的压缩音频静默检测方法及装置，在不需要解码的情况下实现静默检测。

为实现上述目的，本申请实施例的第一方面提供一种基于人工智能的压缩音频静默检测方法，包括：

确认压缩音频序列所采用的编码算法以及数据帧长度；

根据所述编码算法选择对应的卷积神经网络；

根据所述数据帧长度设置所述卷积神经网络的输入特征数量；

根据所述输入特征数量调整数据帧长度，通过所述卷积神经网络对调整后的所述压缩音频序列进行识别，得所述到压缩音频序列的特征值；

若所述特征值低于预设静默阈值，判断所述压缩音频序列为静默音频。

在第一方面的一种可能的实现方式中，所述对应的卷积神经网络的训练过程为：

采集不同静默状态下经过所述编码算法编码后的静默压缩音频数据和非静默状态下经过所述编码算法编码后的非静默压缩音频数据；

对所述静默压缩音频数据和所述非静默压缩音频数据进行补帧；

不断调整卷积神经网络的权重，使所述卷积神经网络对所述静默压缩音频数据的输出值为1，使所述卷积神经网络对所述非静默压缩音频数据的输出值为0。

在第一方面的一种可能的实现方式中，寻找所述压缩音频序列中最大的数据帧；

在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值。

在第一方面的一种可能的实现方式中，所述根据所述输入特征数量调整数据帧长度，具体包括：

将所述压缩音频序列中长度小于所述输入特征数量的数据帧进行填充补齐，使所述压缩音频序列中每一个数据帧长度均等于所述输入特征数量。

第一方面的一种可能的实现方式中，所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。

本申请实施例的第二方面提供一种基于人工智能的压缩音频静默检测装置，包括：

音频参数确认模块，用于确认压缩音频序列所采用的编码算法以及数据帧长度；

选择模块，用于根据所述编码算法选择对应的卷积神经网络；

网络参数设置模块，用于根据所述数据帧长度设置所述卷积神经网络的输入特征数量；

识别模块，用于根据所述输入特征数量调整数据帧长度，通过所述卷积神经网络对调整后的所述压缩音频序列进行识别，得所述到压缩音频序列的特征值；

判断模块，用于若所述特征值低于预设静默阈值，判断所述压缩音频序列为静默音频。

第二方面的一种可能的实现方式中，在所述选择模块中，所述对应的卷积神经网络的训练过程为：

第二方面的一种可能的实现方式中，所述网络参数设置模块具体用于：

寻找所述压缩音频序列中最大的数据帧；

第二方面的一种可能的实现方式中，所述根据所述输入特征数量调整数据帧长度，具体包括：

第二方面的一种可能的实现方式中，所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。

相比于现有技术，本发明实施例提供的一种基于人工智能的压缩音频静默检测方法及装置，在面对经过不同音频压缩编码技术压缩后的压缩音频时，选择对应的、预先训练好的卷积神经网络对所述压缩音频进行识别得到特征值，比较特征与预设静默阈值的大小关系，进而判断所述压缩音频是否为静默音频。由于卷积神经网络可在支持人工智能协处理器的终端上快速实现，不需要CPU处理器的介入，节省了检测系统的CPU算力。

上述音频静默状态判断过程可以看出本申请不需要解码基带音频数据，大大减少了运算量并降低了内存储存空间要求。因此本申请可应用在各种小型终端设备中部署，实现在终端即可静默检测后，去掉底噪减少编码数据量，提高网络吞吐量。

附图说明

图1是本发明一实施例提供的一种基于人工智能的压缩音频静默检测方法的流程示意图；

图2是本发明一实施例提供的一种基于人工智能的压缩音频静默检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明一实施例提供一种基于人工智能的压缩音频静默检测方法，包括：

S10、确认压缩音频序列所采用的编码算法以及数据帧长度。

S11、根据所述编码算法选择对应的卷积神经网络。

S12、根据所述数据帧长度设置所述卷积神经网络的输入特征数量。

S13、根据所述输入特征数量调整数据帧长度，通过所述卷积神经网络对调整后的所述压缩音频序列进行识别，得所述到压缩音频序列的特征值。

S14、若所述特征值低于预设静默阈值，判断所述压缩音频序列为静默音频。

声音的产生是变化的震动引起的，在数字化后就是变化的数据。静默音频即基带音频数据不变化或者变化很小。针对目前音频压缩算法大部分使用固定长度基带音频数据作为一帧输入数据，并使用特定编码算法作为基础，如哈夫曼编码。重复或者连续变化小的数据具备明显特征，压缩后编码数据也具备明显特征。在具备明显隐藏特征的数据中，使用卷积神经网络检测能准确找到相关特征，并直接给出特征值，卷积网络输出的特征值与静音帧概率是正相关的，因此可直接通过设置静默阈值判断特征值是否满足静默条件。静默阈值的确定在实际应用中是根据编码算法的编码参数、相应的神经网络权重、运行时需要的检测(静默音频)共同灵敏度决定。

需要说明的是，针对不同编码算法而训练得到的卷积神经网络在结构上是相同的，具体地，各个网络不同的地方在于各个结构层中所设置的参数权重不同。如AC3即使用针对AC3的样本集训练的神经网络权重，神经网络结构并不改变。

综上，本申请实施例从输入获取的压缩音频数据序列化后，输入到预先训练好的基于一维卷积神经网络中，得到压缩音频的特征值。此特征值用于表示压缩音频数据为静音数据帧的概率。接下来可以通过连续多帧的卷积神经网络后输出特征值后分析，判断压缩音频序列是否在一段时间内音频静音，从而判断压缩音频是否为音频静默。

示例性地，所述对应的卷积神经网络的训练过程为：

若压缩音频序列采用的是AC3编码算法，本实施例需要通过采集不同静默状态下的AC3压缩编码数据，并以N(输入特征数量)＝1024不足填充0的方式一帧一帧地保存，并制作标签即最后输出特征值为1.0。同时采集非静默状态的AC3压缩编码数据，标签为0.0作为负样本。用所述方法生成的多个数据形成训练、测试、验证数据集来训练AC3音频编码对应的卷积神经网络。

换言之，不同的编码算法不需要修改神经网络结构，只需要重新采用不同数据集进行训练，获得针对不同编码算法的神经网络权重对卷积神经网络设置。

示例性地，寻找所述压缩音频序列中最大的数据帧；

示例性地，所述根据所述输入特征数量调整数据帧长度，具体包括：

输入卷积神经网络的压缩音频序列需要为固定长度，如一帧数据长度不足则填充0补齐，输入特征数量为N，经过L层隐藏卷积层后，最后经过全连接层后降维输出一个特征值，即为输入压缩音频特征值为静音音频的概率。其中网络中的每一层隐藏卷积层，都对于上一层卷积核针对音频子序列进行卷积处理从而得到降维后的特征数组。每一层卷积核都由卷积层，激活函数层，池化层等组成。输入特征数量为N即为训练网络时决定的输入层特征数据，根据最大音频编码数据长度16字节向大对齐，例如最大音频编码数据是500字节，则N确定为512，一帧音频不足512即填充0补齐。

示例性地，所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。

如需要提高检测静默音频的灵敏度，即将较小声音也辨认为是静默，即可将静默阈值设置较低。反之需要降低检测静默音频的灵敏度，即极小声音或者完全无声音才认为是静默，则可将静默阈值的值接近1。

本申请实施例的第二方面提供一种基于人工智能的压缩音频静默检测装置，包括：音频参数确认模块201、选择模块202、网络参数设置模块203、识别模块204和判断模块205。

音频参数确认模块201，用于确认压缩音频序列所采用的编码算法以及数据帧长度。

选择模块202，用于根据所述编码算法选择对应的卷积神经网络。

网络参数设置模块203，用于根据所述数据帧长度设置所述卷积神经网络的输入特征数量。

识别模块204，用于根据所述输入特征数量调整数据帧长度，通过所述卷积神经网络对调整后的所述压缩音频序列进行识别，得所述到压缩音频序列的特征值。

判断模块205，用于若所述特征值低于预设静默阈值，判断所述压缩音频序列为静默音频。

示例性地，在所述选择模块中，所述对应的卷积神经网络的训练过程为：

示例性地，所述网络参数设置模块具体用于：

寻找所述压缩音频序列中最大的数据帧。

相比于现有技术，本发明实施例提供的一种基于人工智能的压缩音频静默检测装置，在面对经过不同音频压缩编码技术压缩后的压缩音频时，选择对应的、预先训练好的卷积神经网络对所述压缩音频进行识别得到特征值，比较特征与预设静默阈值的大小关系，进而判断所述压缩音频是否为静默音频。由于卷积神经网络可在支持人工智能协处理器的终端上快速实现，不需要CPU处理器的介入，节省了检测系统的CPU算力。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的定位装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述_。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于人工智能的压缩音频静默检测方法，其特征在于，包括：

确认压缩音频序列所采用的编码算法以及数据帧长度；

根据所述编码算法选择对应的卷积神经网络，具体包括：根据所述编码算法选择对应的样本集进行训练，得到并设置卷积神经网络的神经网络权重；

根据所述数据帧长度设置所述卷积神经网络的输入特征数量，具体包括：寻找所述压缩音频序列中最大的数据帧；在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值；

根据所述输入特征数量调整数据帧长度，通过所述卷积神经网络对调整后的所述压缩音频序列进行识别，得到所述压缩音频序列的特征值；

2.如权利要求1所述基于人工智能的压缩音频静默检测方法，其特征在于，所述对应的卷积神经网络的训练过程为：

3.如权利要求1所述基于人工智能的压缩音频静默检测方法，其特征在于，所述根据所述输入特征数量调整数据帧长度，具体包括：

4.如权利要求1所述基于人工智能的压缩音频静默检测方法，其特征在于，所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。

5.一种基于人工智能的压缩音频静默检测装置，其特征在于，包括：

选择模块，用于根据所述编码算法选择对应的卷积神经网络，具体为：根据所述编码算法选择对应的样本集进行训练，得到并设置卷积神经网络的神经网络权重；

网络参数设置模块，用于根据所述数据帧长度设置所述卷积神经网络的输入特征数量，具体为：寻找所述压缩音频序列中最大的数据帧；在全部大于或等于所述最大的数据帧长度的16公倍数中选出最小值作为输入特征数量的值；

识别模块，用于根据所述输入特征数量调整数据帧长度，通过所述卷积神经网络对调整后的所述压缩音频序列进行识别，得到所述压缩音频序列的特征值；

6.如权利要求5所述基于人工智能的压缩音频静默检测装置，其特征在于，在所述选择模块中，所述对应的卷积神经网络的训练过程为：

7.如权利要求5所述基于人工智能的压缩音频静默检测装置，其特征在于，所述根据所述输入特征数量调整数据帧长度，具体包括：

8.如权利要求5所述基于人工智能的压缩音频静默检测装置，其特征在于，所述静默阈值是根据所述编码算法中的编码参数、卷积神经网络的权重和检测目标灵敏度设置的。