CN109994127A

CN109994127A - 音频检测方法、装置、电子设备及存储介质

Info

Publication number: CN109994127A
Application number: CN201910304571.7A
Authority: CN
Inventors: 陈洲旋
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-07-09
Anticipated expiration: 2039-04-16
Also published as: CN109994127B

Abstract

本发明公开了一种音频检测方法、装置、电子设备及存储介质，属于数字音频处理技术领域。本发明实施例可以基于音频文件中的音频帧的能量值、过零率、权重频谱值、频谱平坦度以及音频帧与前一个音频帧之间的线性相关系数等特征参数，来检测该音频帧是否存在突发白噪声，当判断音频帧的能量值大于第一阈值、过零率大于第二阈值、权重频谱值大于第三阈值、频谱平坦度大于第四阈值且该音频帧与前一个音频帧之间的线性相关系数小于第五阈值时，则可以确定检测到该音频帧存在突发白噪声，基于该音频检测方法，可以检测任意类型的音频文件中是否存在突发白噪声，且，基于上述多个特征参数，使得检测结果的准确率较高，该检测方法的鲁棒性较高。

Description

音频检测方法、装置、电子设备及存储介质

技术领域

本发明涉及数字音频处理技术领域，特别涉及一种音频检测方法、装置、电子设备及存储介质。

背景技术

随着互联网的发展，人们对音频的需求率越来越高，在对音频进行录制、处理、传输以及存储等任何过程，都可能造成音频被修改或损坏，从而使得音频存在一些缺陷，例如，该缺陷可以为突发白噪声。该突发白噪声会使得用户播放该音频时，听到嘈杂的噪声，因此，可以对音频进行检测，以便对存在突发白噪声的音频帧进行替换、修复或者丢弃等处理。

目前，常用的音频检测方法为：对于一个音频文件中的各个音频帧，依次获取每个音频帧的能量、过零率以及权重频谱值这三个特征参数，当音频帧的能量、过零率以及权重频谱值分别都大于相应的预设阈值时，则可以确定该音频文件中的该音频帧存在突发白噪声。

基于上述音频检测方法，该方法仅适用于检测节奏舒缓的音频帧是否存在突发白噪声，当基于该音频检测方法检测背景嘈杂、节奏较快的音频帧是否存在突发白噪声时，检测结果的准确率较低，该音频检测方法的鲁棒性较低。

发明内容

本发明实施例提供了一种音频检测方法、装置、电子设备及存储介质，能够解决对音频帧是否存在突发白噪声的检测结果准确率低的问题。所述技术方案如下：

一方面，提供了一种音频检测方法，所述方法包括：

基于音频文件中的音频帧，分别获取所述音频帧的能量值、过零率和权重频谱值；

当所述能量值大于第一阈值、所述过零率大于第二阈值且所述权重频谱值大于第三阈值时，获取所述音频帧的频谱平坦度；

当所述频谱平坦度大于第四阈值时，基于所述音频帧和所述音频帧的前一个音频帧，获取所述音频帧的时域信号与所述前一个音频帧的时域信号之间的线性相关系数；

当所述线性相关系数小于第五阈值时，确定所述音频帧存在突发白噪声。

一方面，提供了一种音频检测装置，所述装置包括：

第一获取模块，用于基于音频文件中的音频帧，分别获取所述音频帧的能量值、过零率和权重频谱值；

第二获取模块，用于当所述能量值大于第一阈值、所述过零率大于第二阈值且所述权重频谱值大于第三阈值时，获取所述音频帧的频谱平坦度；

第三获取模块，用于当所述频谱平坦度大于第四阈值时，基于所述音频帧和所述音频帧的前一个音频帧，获取所述音频帧的时域信号与所述前一个音频帧的时域信号之间的线性相关系数；

确定模块，用于当所述线性相关系数小于第五阈值时，确定所述音频帧存在突发白噪声。

本发明实施例可以基于音频文件中的音频帧的能量值、过零率、权重频谱值、频谱平坦度以及音频帧与前一个音频帧之间的线性相关系数等特征参数，来检测该音频帧是否存在突发白噪声，当判断音频帧的能量值大于第一阈值、过零率大于第二阈值、权重频谱值大于第三阈值、频谱平坦度大于第四阈值且该音频帧与前一个音频帧之间的线性相关系数小于第五阈值时，则可以确定检测到该音频帧存在突发白噪声，基于该音频检测方法，可以检测任意类型的音频文件中是否存在突发白噪声，且，基于上述多个特征参数，使得检测结果的准确率较高，该检测方法的鲁棒性较高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频检测方法的实施环境的示意图；

图2是本发明实施例提供的一种音频检测方法的流程图；

图3是本发明实施例提供的一种音频检测方法的流程图；

图4是本发明实施例提供的一种音频检测装置的结构示意图；

图5是本发明实施例提供的一种终端500的结构框图；

图6是本发明实施例提供的一种服务器600的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种音频检测方法的实施环境的示意图。参见图1，该实施环境包括多个电子设备，该电子设备可以为多个终端101或者用于为该多个终端提供服务的服务器102。多个终端101通过无线或者有线网络和服务器102连接，该多个终端101可以访问服务器102，该多个终端101可以为电脑、智能手机、平板电脑或者其他的电子设备，该多个终端101可以为用户提供音频存储以及音频检测功能等。服务器102可以为一个或者多个网站服务器，该服务器102可以作为多媒体文件的载体，该服务器102还可以在此基础上，为用户提供音频检测等功能。对于服务器102来说该服务器102还可以具有至少一种数据库，用于存储音频等多媒体文件以及用户信息等。

图2是本发明实施例提供的一种音频检测方法的流程图。参见图2，该实施例包括：

201、电子设备获取音频文件。

在本发明实施例中，该电子设备具有存储功能和音频检测功能，该音频文件可以为任意音频文件，例如，该音频文件可以为歌曲音频文件，本发明实施例在此对该音频文件的具体内容不做限定。具体地，电子设备可以根据预设采样率对音频信号进行采样，以得到该音频信号的多个采样点，进而，电子设备可以基于该多个采样点，获取该音频文件，其中，该采样率可以为44100Hz，本发明实施例在此不做限定。

其中，该电子设备可以是终端，也可以是服务器。例如，该电子设备为终端，终端可以从服务器或者其他终端获取该音频文件。当然，该电子设备也可以为服务器，服务器可以接收终端发送的该音频文件。本发明实施例在此对获取该音频文件的电子设备不做限定。

202、电子设备基于该音频文件，获取音频帧。

在本发明实施例中，该音频帧为电子设备基于该音频文件所对应的部分采样点所获取到数据包，该音频帧即为当前所要检测的音频帧，电子设备首次基于该音频文件获取音频帧时，可以获取该音频文件的第一个音频帧，电子设备可以基于该第一个音频帧执行以下步骤203至步骤205，进而，电子设备可以获取该音频文件的第i个音频帧，其中，i可以取2到T，T表示该音频文件所包含的音频帧的总数目，T可以为大于2的任一个正整数。例如，电子设备基于该音频文件，获取该第i个音频帧的具体过程可以包括以下步骤202A至步骤202B：

202A：电子设备检测该音频文件对应的剩余采样点的数目。

其中，该剩余采样点为除已被检测过的音频帧所对应的采样点之外的采样点。例如，电子设备在获取第2个音频帧的过程中，该剩余采样点指的是该音频文件的第2个音频帧之后的所有音频帧对应的采样点。当然，电子设备首次获取该音频文件的音频帧时，该剩余采样点指的是该音频文件对应的所有采样点。

202B：若电子设备检测到该剩余采样点的数目大于或者等于第一数目，则基于该剩余采样点，获取该第i个音频帧。

其中，该第一数目可以为一个音频帧所包含的采样点的数目，例如，该第一数目可以为512，当然，该第一数目还可以为256或者1024等，本发明实施例在此不做限定。

具体地，若该电子设备检测到该剩余采样点的数目大于或者等于该第一数目时，电子设备可以从该剩余采样点中，选取连续第一数目的采样点，进而，电子设备可以基于该连续第一数目的采样点，获取到该第i个音频帧。

例如，该第一数目为512，电子设备基于该音频文件获取该第i个音频帧时，若电子设备检测到该音频文件对应的剩余采样点的数目大于或者等于512，电子设备可以从该剩余采样点中，选取前512个采样点，进而，电子设备可以基于该前512个采样点，获取到该第i个音频帧。

需要说明的是，当电子设备获取到该第i个音频帧之后，电子设备可以基于该第i个音频帧，执行以下步骤203至步骤210，当电子设备基于该第i个音频帧执行完以下步骤203至步骤210之后，电子设备可以基于该第i个音频帧之后的剩余采样点，获取第i+1个音频帧，再次基于该第i+1个音频帧执行以下步骤203至步骤210，以此类推，直到电子设备检测到该剩余采样点的数目小于该第一数目时，该电子设备可以结束获取音频帧。

上述步骤201至步骤201B是以电子设备获取第i个音频帧的过程为例进行说明的，电子设备首次获取该音频文件的第一个音频帧的过程与上述过程同理，本发明实施例在此不做一一赘述。

上述步骤202A至步骤202B是以电子设备在对音频文件进行检测的过程中，获取到第i个音频帧之后，实时对该第i个音频帧的特征参数进行检测为例进行说明的，当然，在其他实施例中，该电子设备还可以获取该音频文件的相邻两个音频帧，以对该相邻两个音频帧的特征参数进行检测，本发明实施例在此不做限定。

203、电子设备基于该音频文件中的音频帧，分别获取该音频帧的能量值、过零率和权重频谱值。

在本发明实施例中，该能量值指的是音频帧在时域上的能量值，该过零率指的是音频帧的符号变换比率，该权重频谱值用于表示音频帧对应的不同频率成分的能量值的分布情况。第i个音频帧的能量值、过零率以及权重频谱值用于辅助电子设备判断该第i个音频帧是否存在突发白噪声，该突发白噪声为一种功率谱密度为常数的随机信号，存在该突发白噪声的音频帧的能量值、过零率以及权重频谱值比正常的音频帧的能量值、过零率以及权重频谱值大。

具体地，电子设备可以通过以下公式来获取该第i个音频帧的能量值E(t)：

其中，N表示该第i个音频帧对应的采样点的数目，即N即为上述第一数目，N可以为大于2的任一个正整数，t表示该第i个音频帧对应的时间序列号，t可以为1到T的任一正整数，n表示从0到N的自然数，x(t，n)表示该第i个音频帧的各个采样点对应的时域信号的幅值。

电子设备可以通过下公式来获取该第i个音频帧的过零率zcr(t)：

其中，N表示该第i个第i个音频帧对应的采样点的数目，t表示该第i个音频帧对应的时间序列号，n表示从1到N-1的自然数，x(t，n)和x(t，n-1)表示该第i个音频帧的各个采样点对应的时域信号的幅值。

电子设备获取该第i个音频帧的权重频谱值的具体过程可以包括以下步骤203A至步骤203B：

203A：电子设备获取该第i个音频帧在频域上的频谱值。

具体地，电子设备可以通对窗函数对该第i个音频帧进行加窗处理，电子设备可以对加窗处理之后的该第i个音频帧进行短时傅里叶变换，以得到该第i个音频帧的频谱值。例如，该电子设备可以通过以下公式获取该第i个音频帧的频谱值X(t，k)：

其中，w(n)表示窗函数，例如，该窗函数可以为汉明窗或者汉宁窗，k表示该第i个音频帧对应的频点。电子设备通过对该第i个音频帧进行加窗处理，防止了电子设备在对该第i个音频帧进行傅里叶变换的过程中，发生频谱泄漏的情况。

203B：电子设备基于该第i个音频帧的频谱值，获取该第i个音频帧的权重频谱值。

例如，电子设备可以通过以下公式来获取该第i个音频帧的权重频谱值ws(t)：

其中，abs(X(t，k))表示该第i个音频帧的频谱的幅值，k为4到N-1的正整数。需要说明的是，k从正整数4开始取值，使得电子设备在计算该第i个音频帧的权重频谱值的过程中，去除了直流对应的频点，使得所计算的该第i个音频帧的权重频谱值更加准确，进而使得后续检测结果的准确率更高。

此外，电子设备分别获取该音频帧的能量值、过零率和权重频谱值之后，可以判断该音频帧的能量值、过零率和权重频谱值是否满足预设条件，该预设条件可以为该能量值大于第一阈值、该过零率大于第二阈值、该权重频谱值大于第三阈值。在一些实施例中，当电子设备检测到该能量值大于第一阈值、该过零率大于第二阈值且该权重频谱值大于第三阈值时，该电子设备可以执行下述步骤204。当然，在其他实施例中，该电子设备也可以先不判断该能量值、该过零率和该权重频谱值分别与第一阈值、第二阈值和第三阈值的大小关系，直接执行步骤204，本发明实施例在此不做限定。

需要说明的是，电子设备可以同时对上述预设条件中的一个或者多个条件进行判断，也可以分别对上述预设条件中的任一个条件进行判断，当电子设备判断任一个条件不满足时，可以不对其他的条件进行判断，直接确定该第i个音频帧不存在突发白噪声，重新执行上述步骤202，以对第i+1个音频帧进行检测。例如，电子设备可以先获取该第i个音频帧的能量值，当该能量值大于第一阈值时，电子设备可以获取该第i个音频帧的过零率，当该能量值小于或者等于该第一阈值时，电子设备可以不执行以下步骤，重新执行以上步骤202以对第i+1个音频帧进行检测。同理，当该过零率大于第二阈值时，电子设备可以获取该权重频谱值，当该过零率小于或者等于该第二阈值时，电子设备可以重新执行以上步骤202。同理，当该权重频谱值大于第三阈值时，电子设备可以执行以下步骤204，当该权重频谱值小于或者等于该第三阈值时，电子设备可以重新执行以上步骤202以对第i+1个音频帧进行检测。其中，该第一阈值、该第二阈值和该第三阈值分别可以为在电子设备上所预设的任意数值，本发明实施例在此对该第一阈值、该第二阈值和该第三阈值不做限定。当然，电子设备也可以不判断该第i个音频帧的能量值、过零率以及权重频谱值分别与第一阈值、第二阈值以及第三阈值之间的大小关系，直接执行步骤204，本发明实施例在此不做限定。

204、电子设备获取该音频帧的频谱值的几何平均数和算术平均数。

在本发明实施例中，该几何平均数为音频帧的各个频谱值的连乘积开项数次方根，该算术平均数为音频帧的各个频谱值的均值。

基于上述步骤203A中所获取到的该第i个音频帧在频域上的频谱值X(t，k)，电子设备可以通过以下公式分别获取该频谱值的几何平均数GM(t)和算术平均数AM(t)：

205、电子设备基于该几何平均数和该算术平均数，获取该频谱平坦度。

在本发明实施例中，该频谱平坦度用于辅助该电子设备判断该音频帧是否存在突发白噪声。

具体地，电子设备可以通过计算该几何平均数和该算术平均数的比值，来获取该频谱平坦度。例如，电子设备可以通过以下公式来获取该第i个音频帧的频谱平坦度F(t)：

上述步骤204至步骤205是电子设备获取该第i个音频帧的频谱平坦度的过程，通过获取该第i个音频帧的频谱平坦度，使得电子设备可以更加精确地检测该第i个音频帧是否存在突发白噪声。当然，在其他实施例中，该电子设备还可以通过其他方式来获取该第i个音频帧的频谱平坦度，本发明实施例在此不做限定。

此外，电子设备获取到该频谱平坦度之后，可以将该频谱平坦度与第四阈值进行对比，当该频谱平坦度大于该第四阈值时，电子设备可以执行以下步骤206，当该频谱平坦度小于或者等于该第四阈值时，电子设备可以不执行以下步骤，电子设备可以重新执行以上步骤202以对第i+1个音频帧进行检测。其中，该第四阈值可以为在电子设备上所预设的任意数值，本发明实施例在此对该第四阈值不做限定。当然，电子设备也可以不判断该频谱平坦度与第四阈值之间的大小关系，直接执行步骤206，本发明实施例在此不做限定。

206、电子设备基于该音频帧的时域信号的各个第一幅值，以及该前一个音频帧的时域信号的各个第二幅值，获取该音频帧的时域信号和该前一个音频帧的时域信号之间的协方差。

在本发明实施例中，该各个第一幅值为第i个音频帧的时域信号所对应的各个采样点的幅值，该各个第二幅值为第i-1个音频帧的时域信号所对应的各个采样点的幅值，该第i-1个音频帧可以为电子设备已经获取到的并进行了突发白噪声检测的音频帧。该协方差可以用于电子设备衡量第i个音频帧的时域信号与第i-1个音频帧的时域信号之间的相似性。

具体地，电子设备获取第i个音频帧的时域信号的各个第一幅值和第i-1个音频帧的时域信号的各个第二幅值之间的协方差的过程可以包括以下步骤206A至步骤206B：

206A：电子设备分别获取该第i个音频帧的时域信号对应的各个采样点的第一幅值和该第i-1个音频帧的时域信号对应的各个采样点的第二幅值。

206B：电子设备获取该各个第一幅值和各个第二幅值之间的协方差。

具体地，可以通过以下公式来获取第i个音频帧的时域信号的各个第一幅值与第i-1个音频帧的时域信号的各个第二幅值之间的协方差Cov(x，y)：

Cov(x，y)＝E(xy)-E(x)*E(y)

其中，x表示每个第一幅值，y表示每个第二幅值，E(xy)表示各个第一幅值x和各个第二幅值y的乘积的期望值，E(x)表示各个第一幅值x的期望值，E(y)表示各个第二幅值y的期望值。

207、电子设备获取该各个第一幅值的第一方差和该各个第二幅值的第二方差。

在本发明实施例中，该第一方差用于电子设备衡量该各个第一幅值的离散程度，该第二方差用于电子设备衡量该各个第二幅值的离散程度。

具体地，电子设备可以通过以下公式获取该第一方差Var(x)：

其中，x₁，…，x_N表示各个第一幅值。同理，电子设备可以获取第二方差Var(y)：

其中，y₁，…，y_N表示各个第二幅值。

208、电子设备基于该协方差、该第一方差和该第二方差，获取该线性相关系数。

在本发明实施例中，该电子设备可以通过以下公式来获取该线性相关系数r(x，y)：

其中，Var(x)表示第一方差，Var(y)表示第二方差。

上述步骤206至步骤208为电子设备获取该第i个音频帧的时域信号和该第i-1个音频帧的时域信号之间的线性相关系数的过程。通过获取该第i个音频帧的时域信号和该第i-1个音频帧的时域信号之间的线性相关系数，使得电子设备可以更加精确地检测该第i个音频帧是否存在突发白噪声。

需要说明的是，当电子设备首次获取该音频文件的音频帧，也即是，电子设备获取第一个音频帧时，电子设备可以不执行上述步骤206至步骤208，电子设备在基于该第一个音频帧执行完上述步骤205之后，可以直接执行下述步骤209，也即是，电子设备可以只获取该第一个音频帧的能量值、过零率、权重频谱值以及频谱平坦度，当电子设备判断该第一个音频帧的能量值大于第一阈值、该第一个音频帧的过零率大于第二阈值、该第一个音频帧的权重频谱值大于第三阈值且该第一个音频帧的频谱平坦度大于第四阈值时，即可确定该第一个音频帧存在突发白噪声。当然，在其他实施例中，电子设备首次获取该音频文件的音频帧时，也可以同时获取该音频文件的前两个音频帧，电子设备可以获取第一个音频帧的能量值、过零率、权重频谱值、频谱平坦度以及第一个音频帧的时域信号与第二个音频帧的时域信号之间的线性相关系数，进而，电子设备可以判断第一个音频帧的能量值、过零率、权重频谱值、频谱平坦度以及第一个音频帧的时域信号与第二个音频帧的时域信号之间的线性相关系数是否分别大于第一阈值、大于第二阈值、大于第三阈值、大于第四阈值以及小于第五阈值，以判断该第一个音频帧是否存在突发白噪声。本发明实施例在此对电子设备检测第一个音频帧是否存在突发白噪声的过程不做限定。

需要说明的是，上述步骤203至步骤208是以电子设备先获取第i个音频帧的能量值、过零率和权重频谱值，再获取第i个音频帧的频谱平坦度，最后获取该第i个音频帧的时域信号与第i-1个音频帧的时域信号的线性相关系数的执行顺序为例进行说明的，当然，在其他实施例中，电子设备还可以通过其他执行顺序，来获取该第i个音频帧的能量值、过零率、权重频谱值、频谱平坦度和上述线性相关系数这五个特征参数，也即是，电子设备可以优先获取这五个特征参数中的任一个特征参数，本发明实施例在此不做限定。

209、当该能量值、该过零率、该权重频谱值、该频谱平坦度以及该线性相关系数都满足预设条件时，电子设备确定该音频帧存在突发白噪声。

在本发明实施例中，该预设条件可以为该能量值大于第一阈值、该过零率大于第二阈值、该权重频谱值大于第三阈值、该频谱平坦度大于第四阈值以及该线性相关系数小于第五阈值，在其他实施例中，该预设条件还可以为其他条件，本发明实施例在此不做限定。

例如，对于第i个音频帧，电子设备可以基于上述步骤203至步骤208分别获取到该第i个音频帧的能量值、过零率、权重频谱值、频谱平坦度以及第i个音频帧的时域信号与第i-1个音频帧的时域信号之间的线性相关系数之后，再判断该第i个音频帧的能量值、过零率、权重频谱值、频谱平坦度以及第i个音频帧的时域信号与第i-1个音频帧的时域信号之间的线性相关系数是否满足该预设条件。当然，电子设备也可以每获取到该第i个音频帧的上述五个特征参数之一，即检测该五个特征参数之一是否满足该预设条件，当该五个特征参数之一满足相应的预设条件时，电子设备才获取该第i个音频帧的下一个特征参数。

上述步骤203至步骤209的过程是电子设备基于该第i个音频帧的能量值、过零率、权重频谱值、频谱平坦度以及上述线性相关系数这五个特征参数，来检测该第i个音频帧是否存在突发白噪声的过程，通过该五个特征参数，使得电子设备对该第i个音频帧是否存在突发白噪声的检测结果更加准确，避免了电子设备的误判。

210、当连续确定多个音频帧存在该突发白噪声时，电子设备确定检测到该多个音频帧对应的音频片段存在该突发白噪声。

上述步骤202至步骤209为电子设备根据第i个音频帧的能量值、过零率、权重频谱值、频谱平坦度以及第i个音频帧的时域信号与第i-1个音频帧的时域信号之间的线性相关系数，确定第i个音频帧是否存在突发白噪声的方法。进一步的，电子设备可以根据上述步骤202至步骤209的方法，对连续多个音频帧进行检测，当能量值、过零率、权重频谱值、频谱平坦度以及线性相关系数都满足上述预设条件的音频帧的数目达到第二数目，且该第二数目个音频帧为连续音频帧时，电子设备则可以确定连续第二数目个音频帧对应的音频片段存在突发白噪声。其中，该第二数目可以为电子设备预设的任意数值，本发明实施例在此不做限定。

具体地，如图3所示，以该第二数目为3为例，电子设备确定该3个音频帧对应的音频片段存在突发白噪声的过程可以如下：

电子设备可以设置累计检测帧数为A，该累计检测帧数即为电子设备连续确定的存在突发白噪声的音频帧的总数，当电子设备首次获取到该音频文件时，电子设备可以将该累计检测帧数A设为0，当电子设备基于上述步骤202至步骤209确定第i个音频帧存在突发白噪声之后，电子设备可以令A＝A+1，进而，电子设备可以令i＝i+1，电子设备可以根据新赋值之后的A，基于步骤202获取第i+1个音频帧，以根据步骤203至步骤209确定该第i+1个音频帧是否存在突发白噪声，当该第i+1个音频帧存在突发白噪声之后，电子设备再次令A＝A+1，以此类推，直到电子设备检测到A＝3，电子设备可以确定第i个音频帧、第i+1个音频帧和第i+2个音频帧对应的音频片段存在突发白噪声。

需要说明的是，当电子设备检测到第i个音频帧的能量值、过零率、权重频谱值、频谱平坦度以及第i个音频帧的时域信号与第i-1个音频帧的时域信号之间的线性相关系数这五个特征参数中的任一个特征参数不满足上述预设条件时，电子设备可以令A＝0，令i＝i+1，以重新执行上述步骤202至步骤209的过程，直到电子设备检测到A＝3，电子设备可以确定最新检测过的该三个音频帧对应的音频片段存在突发白噪声。此外，当电子设备确定连续三个音频帧对应的音频片段存在突发白噪声之外，电子设备还可以令A＝0，重新执行步骤202以对该音频文件的其他音频帧进行检测。

上述过程为以电子设备连续确定三个音频帧存在突发白噪声时，确定检测到该三个音频帧对应的音频片段存在突发白噪声，当然，在其他实施例中，电子设备还可以连续确定任意第二数目个音频帧存在突发白噪声时，确定检测到该第二数目个音频帧对应的音频片段存在突发白噪声，本发明实施例在此不做限定。

需要说明的是，当第i个音频帧所对应的时长较长时，电子设备可以根据上述步骤202至步骤209的过程，检测该第i个音频帧是否存在突发白噪声，当该第i个音频帧所对应的时长较短时，电子设备可以根据步骤209的过程，检测连续多个音频帧对应的音频片段是否存在突发白噪声，从而更加提高了电子设备对突发白噪声的检测准确性，避免了电子设备误判一个音频帧存在突发白噪声。

211、电子设备基于存在突发白噪声的多个音频帧，训练机器学习模型。

在本发明实施例中，该机器学习模型用于电子设备自动检测任一音频文件中的各个音频帧是否存在突发白噪声。

基于上述步骤202至步骤210的过程，电子设备可以获取到大量的存在突发白噪声的音频帧或者音频片段。进而，电子设备可以将该大量的存在突发白噪声的音频帧或者音频片段分别打上数据标签，电子设备可以基于打上数据标签的各个音频帧或者各个音频片段，训练该机器学习模型，使得电子设备将任一音频文件输入该机器学习模型时，该机器学习模型可以检测出该音频文件中存在有突发白噪声的音频帧或者音频片段，实现电子设备通过人工智能的方式自动识别存在有突发白噪声的音频帧或者音频片段的目的，大大提高了电子设备对突发白噪声的检测效率，该检测方法更加智能化。

本发明实施例可以基于音频文件中的音频帧的能量值、过零率、权重频谱值、频谱平坦度以及音频帧与前一个音频帧之间的线性相关系数等特征参数，来检测该音频帧是否存在突发白噪声，当判断音频帧的能量值大于第一阈值、过零率大于第二阈值、权重频谱值大于第三阈值、频谱平坦度大于第四阈值且该音频帧与前一个音频帧之间的线性相关系数小于第五阈值时，则可以确定检测到该音频帧存在突发白噪声，基于该音频检测方法，可以检测任意类型的音频文件中是否存在突发白噪声，且，基于上述多个特征参数，使得检测结果的准确率较高，该检测方法的鲁棒性较高。进一步的，通过对检测连续多个音频帧是否存在突发白噪声，来确定该多个音频帧对应的音频片段是否存在突发白噪声，更加提高了对突发白噪声的检测准确性。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图4是本发明实施例提供的一种音频检测装置的结构示意图。参见图4，该装置包括第一获取模块401、第二获取模块402、第三获取模块403和确定模块404。

第一获取模块401，用于基于音频文件中的音频帧，分别获取该音频帧的能量值、过零率和权重频谱值；

第二获取模块402，用于当该能量值大于第一阈值、该过零率大于第二阈值且该权重频谱值大于第三阈值时，获取该音频帧的频谱平坦度；

第三获取模块403，用于当该频谱平坦度大于第四阈值时，基于该音频帧和该音频帧的前一个音频帧，获取该音频帧的时域信号与该前一个音频帧的时域信号之间的线性相关系数；

确定模块404，用于当该线性相关系数小于第五阈值时，确定该音频帧存在突发白噪声。

在一些实施例中，该第二获取模块402用于：

对该音频帧进行时频变换，获取该音频帧的频谱；

基于该频谱，获取该频谱的几何平均数和算术平均数；

基于该几何平均数和该算术平均数，获取该频谱平坦度。

在一些实施例中，该第三获取模块403用于：

基于该音频帧的时域信号的各个第一幅值，以及该前一个音频帧的时域信号的各个第二幅值，获取该各个第一幅值和该各个第二幅值之间的协方差；

获取该各个第一幅值的第一方差和该各个第二幅值的第二方差；

基于该协方差、该第一方差和该第二方差，获取该线性相关系数。

在一些实施例中，该装置还包括：

该确定模块404，还用于当连续确定多个音频帧存在该突发白噪声时，确定检测到该多个音频帧对应的音频片段存在该突发白噪声。

在一些实施例中，该装置还包括：

训练模块，用于基于存在该突发白噪声的多个该音频帧，训练机器学习模型，该机器学习模型用于自动识别任一音频文件中存在该突发白噪声的音频帧。

需要说明的是：上述实施例提供的音频检测装置在音频检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频检测装置与音频检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本发明实施例提供的一种终端500的结构框图。该终端500可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本发明中方法实施例提供的音频检测方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图6是本发明实施例提供的一种服务器600的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上CPU(central processingunits，处理器)601和一个或一个以上的存储器602，其中，该存储器602中存储有至少一条指令，该至少一条指令由该处理器601加载并执行以实现上述各个方法实施例提供的音频检测方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中音频检测方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述音频帧的频谱平坦度包括：

对所述音频帧进行时频变换，获取所述音频帧的频谱；

基于所述频谱，获取所述频谱的几何平均数和算术平均数；

基于所述几何平均数和所述算术平均数，获取所述频谱平坦度。

3.根据权利要求1所述的方法，其特征在于，所述基于所述音频帧和所述音频帧的前一个音频帧，获取所述音频帧的时域信号与所述前一个音频帧的时域信号之间的线性相关系数包括：

基于所述音频帧的时域信号的各个第一幅值，以及所述前一个音频帧的时域信号的各个第二幅值，获取所述音频帧的时域信号和所述前一个音频帧的时域信号之间的协方差；

获取所述各个第一幅值的第一方差和所述各个第二幅值的第二方差；

基于所述协方差、所述第一方差和所述第二方差，获取所述线性相关系数。

4.根据权利要求1所述的方法，其特征在于，所述确定所述音频帧存在突发白噪声之后，所述方法还包括：

当连续确定多个音频帧存在所述突发白噪声时，确定检测到所述多个音频帧对应的音频片段存在所述突发白噪声。

5.根据权利要求1所述的方法，其特征在于，所述确定所述音频帧存在突发白噪声之后，所述方法还包括：

基于存在所述突发白噪声的多个所述音频帧，训练机器学习模型，所述机器学习模型用于自动识别任一音频文件中存在所述突发白噪声的音频帧。

6.一种音频检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第二获取模块用于：

对所述音频帧进行时频变换，获取所述音频帧的频谱；

基于所述频谱，获取所述频谱的几何平均数和算术平均数；

8.根据权利要求6所述的装置，其特征在于，所述第三获取模块用于：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

所述确定模块，还用于当连续确定多个音频帧存在所述突发白噪声时，确定检测到所述多个音频帧对应的音频片段存在所述突发白噪声。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

训练模块，用于基于存在所述突发白噪声的多个所述音频帧，训练机器学习模型，所述机器学习模型用于自动识别任一音频文件中存在所述突发白噪声的音频帧。

11.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频检测方法所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频检测方法所执行的操作。