CN108470571A

CN108470571A - 一种音频检测方法、装置及存储介质

Info

Publication number: CN108470571A
Application number: CN201810191720.9A
Authority: CN
Inventors: 陈洲旋
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2018-08-31
Anticipated expiration: 2038-03-08
Also published as: CN108470571B

Abstract

本发明实施例公开了一种音频检测方法、装置及存储介质，本发明实施例通过获取待检测音频中每个音频帧的最大值及最小值；确定目标音频帧，该目标音频为最大值及最小值之间的差值小于第一阈值的音频帧；若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及该能量值占目标音频帧的总能量值的比重；当该比重大于第一预设能量阈值时，确定目标音频帧为音频断点。该方案中可以通过每个音频帧对应的最大值及最小值、目标音频帧的频域小于预设频率的能量值、及目标音频帧的总能量值等信息，能够对音频断点所在的音频帧进行准确判定，避免了人为主观因素的影响，提高了对音频检测的准确性。

Description

一种音频检测方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种音频检测方法、装置及存储介质。

背景技术

随着互联网的发展，以及数字音频迅速流行，对于黑胶、磁带及光盘等载体，在音频从模拟信号转到数字信号的转录过程中，由于载体损坏等各种原因，会导致音频在录制的过程中产生一些缺陷。另外，音频在通过互联网传播的过程中，也可能产生错误，而引入一些缺陷。在这些缺陷中，断点是其中的一类，该断点会导致音频播放的声音断断续续，或者是声音丢失，因此，可以对音频进行断点检测，以便对存在的断点进行修复。

现有技术中，在对音频中的断点进行检测时，一般是通过人为的听觉对音频进行试听，主观判定是否存在断点，当存在断点时，判定断点存在的大概位置。由于人为主观因素的影响，可能会产生较大的偏差，因此，通过该检测方法对音频进行断点检测，得到的检测结果的准确性较低。

发明内容

本发明实施例提供一种音频检测方法、装置及存储介质，旨在提高对音频检测的准确性。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种音频检测方法，包括：

获取待检测音频中每个音频帧的最大值及最小值；

确定目标音频帧，所述目标音频为所述最大值及所述最小值之间的差值小于第一阈值的音频帧；

若所述目标音频帧不是静音数据，获取所述目标音频帧中频率小于预设频率的能量值，及所述能量值占所述目标音频帧的总能量值的比重；

若所述比重大于第一预设能量阈值，则确定所述目标音频帧为音频断点。

一种音频检测装置，包括：

取值获取单元，用于获取待检测音频中每个音频帧的最大值及最小值；

音频帧获取单元，用于确定目标音频帧，所述目标音频为所述最大值及所述最小值之间的差值小于第一阈值的音频帧；

比重获取单元，用于若所述目标音频帧不是静音数据，获取所述目标音频帧中频率小于预设频率的能量值，及所述能量值占所述目标音频帧的总能量值的比重；

第一确定单元，用于若所述比重大于第一预设能量阈值，则确定所述目标音频帧为音频断点。

一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述音频检测方法中的步骤。

本发明实施例通过获取待检测音频中每个音频帧的最大值及最小值，以及确定目标音频帧，该目标音频为最大值及最小值之间的差值小于第一阈值的音频帧，该目标音频帧的变化幅度比较平缓。然后，进一步对目标音频帧进行分析，若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及该能量值占目标音频帧的总能量值的比重；当该比重大于第一预设能量阈值时，说明目标音频帧能量值变化不大，此时确定目标音频帧为音频断点。该方案中可以通过每个音频帧对应的最大值及最小值、目标音频帧的频域小于预设频率的能量值、及目标音频帧的总能量值等信息，能够对音频断点所在的音频帧进行准确判定，避免了人为主观因素的影响，提高了对音频检测的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频检测系统的场景示意图；

图2是本发明实施例提供的音频检测方法的一个流程示意图；

图3是本发明实施例提供的音频检测方法的另一流程示意图；

图4是本发明实施例提供的待检测音频的示意图；

图5是本发明实施例提供的音频检测方法的另一流程示意图

图6是本发明实施例提供的音频检测装置的一个结构示意图；

图7是本发明实施例提供的音频检测装置的另一结构示意图；

图8是本发明实施例提供的音频检测装置的另一结构示意图；

图9是本发明实施例提供的音频检测装置的另一结构示意图；

图10是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化形式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本发明实施例提供一种音频检测方法、装置及存储介质。

请参阅图1，图1为本发明实施例所提供的音频检测系统的场景示意图，该音频检测系统可以包括音频检测装置，该音频检测装置具体可以集成在平板电脑、手机、笔记本电脑、台式电脑等具备储存单元并安装有微处理器而具有运算能力的终端中，主要用于获取待检测音频中每个音频帧的最大值及最小值，以及确定目标音频帧，该目标音频为最大值及最小值之间的差值小于第一阈值的音频帧，该目标音频帧的变化幅度比较平缓。然后，进一步对目标音频帧进行分析，若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及该能量值占目标音频帧的总能量值的比重；当该比重大于第一预设能量阈值时，说明目标音频帧能量值变化不大，此时确定目标音频帧为音频断点，等等。其中，该音频检测装置可以是在接收到用户发送的音频检测指令时，根据该音频检测指令对待检测音频进行断点检测。

需要说明的是，图1所示的音频检测系统的场景示意图仅仅是一个示例，本发明实施例描述的音频检测系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着音频检测系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。

在本实施例中，将从音频检测装置的角度进行描述，该音频检测装置具体可以集成在平板电脑、手机等具备储存单元并安装有微处理器而具有运算能力的终端中。

一种音频检测方法，包括：获取待检测音频中每个音频帧的最大值及最小值；确定目标音频帧，该目标音频为最大值及最小值之间的差值小于第一阈值的音频帧；若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重；若比重大于第一预设能量阈值，则确定目标音频帧为音频断点。

请参阅图2，图2是本发明第一实施例提供的音频检测方法的流程示意图。该音频检测方法包括：

在步骤101中，获取待检测音频中每个音频帧的最大值及最小值。

本实施例中，当需要对待检测音频进行检测时，音频检测装置可以预先将待检测音频进行分帧，其中，每个音频帧包含多个采样点N₁，然后获取每个音频帧的各个采样点幅度的最大值，如下公式(1)所示；以及获取每个音频帧的各个采样点幅度的最小值，如下公式(2)所示。

vmax＝max(x_t(1),x_t(2),......,x_t(n)) (1)

vmin＝min(x_t(1),x_t(2),......,x_t(n)) (2)

其中，在公式(1)和公式(2)中，x_t(1)表示第t帧音频的第1个采样点，x_t(2)表示第t帧音频的第2个采样点，以此类推，x_t(n)表示第t帧音频的第n个采样点。

在步骤102中，确定目标音频帧，该目标音频为待检测音频中每个音频帧的最大值及最小值之间的差值小于第一阈值的音频帧。

在得到每个音频帧的各个采样点幅度的最大值及最小值后，音频检测装置分别计算每个音频帧对应的最大值与最小值之间的差值，得到每个音频帧对应的差值。然后，从每个音频帧对应的差值中，筛选出差值小于第一阈值的音频帧，得到目标音频帧。例如，若音频帧的vmax-vmin<thresh1，则判定该音频帧可能为类直流片段，将该类直流片段设定为目标音频帧，其中，thresh1为第一阈值，该第一阈值的取值可以为较小值，该第一阈值的取值可以根据实际情况进行灵活设置，具体取值在此处不作限定。

在某些实施方式中，音频检测装置确定目标音频帧的步骤可以包括：

获取每个音频帧对应的最大值及最小值之间的差值；筛选出差值小于第一阈值的音频帧；若差值小于第一阈值的音频帧存在多个，且多个音频帧中存在相邻的音频帧，将相邻的音频帧组合为音频片段，并将音频片段确定为目标音频帧；若差值小于第一阈值的音频帧存在多个，且多个音频帧中不存在相邻的音频帧，将每个音频帧确定为目标音频帧。

具体地，首先，音频检测装置获取每个音频帧对应的最大值及最小值之间的差值，判断每个音频帧对应的差值中是否存在小于第一阈值的音频帧，筛选出差值小于第一阈值的音频帧，即筛选出满足类直流片段的音频帧。若每个音频帧对应的差值中不存在小于第一阈值的音频帧，则说明不存在类直流片段的音频帧，可判定待检测音频中可能不存在断点，此时，可以结束音频检测流程。

然后，进一步判断差值小于第一阈值的音频帧中是否存在多个，如果存在多个，则进一步判断多个音频帧中是否存在相邻的音频帧，当差值小于第一阈值的音频帧中存在多个，且多个音频帧中存在相邻的音频帧时，将该相邻的音频帧组合为音频片段。例如，如果连续音频帧x_t、x_t+1及x_t+2满足最大值及最小值之间的差值小于第一阈值，则将x_t、x_t+1及x_t+2归并为一个音频片段，这里用v_s来表示该音频片段，并将得到的该音频片段v_s设定为目标音频帧，即该目标音频帧包括多帧音频，从而可以真实还原待检测音频中存在的音频片段，提高对音频检测的精准性。当差值小于第一阈值的音频帧中存在多个，且多个音频帧中不存在相邻的音频帧时，直接将音频帧设定为目标音频帧，即该目标音频帧仅包含1帧音频。

需要说明的是，对待检测音频进行检测的过程中，得到的目标音频帧可以是，包括一个或多个由多帧连续音频组成的音频片段，或者是，可以包括一个或多个由单独一帧音频组成的单独音频；该目标音频帧还可以是，既包括一个或多个由多帧连续音频组成的音频片段，又包括一个或多个由一帧音频组成的单独音频，等等。

在步骤103中，若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重。

在得到目标音频帧后，首先判断该目标音频帧是否为静音数据，可选地，判断目标音频帧是否为静音数据的步骤可以包括：

若目标音频帧的每个采样点的取值与零之间的目标差值小于或等于预设值，确定目标音频帧是静音数据；若目标音频帧的每个采样点的取值与零之间的目标差值大于预设值，确定目标音频帧不是静音数据。

具体地，首先获取目标音频帧的各个采样点的取值，以及获取各个采样点的取值与零之间的差值，该差值即为目标差值，然后，判断该目标差值是否小于预设值，其中，该预设值可以根据实际情况进行灵活设置，具体取值在此处不作限定。通过各个采样点的取值与零之间的比较，可以判断各个采样点的取值是否都是在零数据附近，当目标差值小于预设值时，说明各个采样点的取值都是在零数据附近，此时判定目标音频帧是静音数据；当目标差值大于或等于预设值时，说明各个采样点的取值不都是在零数据附近，此时判定目标音频帧不是静音数据。

在某些实施方式中，若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重的步骤可以包括：

若目标音频帧包含的采样点数大于第一预设点数阈值，则对目标音频帧进行静音数据验证；若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重。

具体地，为了提高音频检测的可靠性，可以将频谱分析需要的点数设定为第一预设点数阈值N₂，然后判断目标音频帧包含的采样点数是否大于第一预设点数阈值，其中，该第一预设点数阈值可以根据实际情况进行灵活设置，具体取值在此处不作限定。

当目标音频帧包含的采样点数小于或等于第一预设点数阈值时，判定待检测音频中可能不存在断点，此时，可以结束音频检测流程；当目标音频帧包含的采样点数大于第一预设点数阈值时，按照上述方法判断目标音频帧是否为静音数据。当目标音频帧是静音数据时，判定待检测音频中可能存在断点，此时，可以结束音频检测流程；若目标音频帧不是静音数据，需要对目标音频帧进行频谱分析，判断其是否为音频断点，即获取目标音频帧中频率小于预设频率的能量值，及该能量值占目标音频帧的总能量值的比重。

可选地，获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重的步骤包括：

通过傅里叶变换将目标音频帧从时域变换到频域，生成目标音频帧的频域谱；获取目标音频帧的采样率，根据采样率获取目标音频帧在预设频率的频点；根据频域谱及第一预设点数阈值计算目标音频帧的总能量值，以及根据频域谱及频点，计算目标音频帧中频率小于预设频率的频率成分的能量值；计算该能量值占总能量值的比重。

具体地，在对目标音频帧进行频谱分析的过程中，在频域内通过傅里叶变换将目标音频帧从时域变换到频域，即将目标音频帧的时域波形转换为频域波形，生成目标音频帧的频域谱，如下公式(3)所示，可以用公式(3)来表示每个目标音频帧的频域谱，其中，N₂表示每帧傅里叶变换的点数，即第一预设点数阈值N₂，v(n)表示第n个目标音频帧，V(k)表示第k个频域谱。

以及，获取目标音频帧的采样率fs，根据采样率获取目标音频帧在预设频率的频点，例如，当预设频率为100Hz时，目标音频帧在100Hz的频点为N₃＝floor(100*fs/N₂)，其中，floor表示向下取整函数。可以理解的是，该预设频率可以根据实际情况进行灵活设置，具体取值在此处不作限定。

然后，根据得到的目标音频帧的频域谱，以及目标音频帧在预设频率的频点，计算目标音频帧中频率小于预设频率的频率成分的能量值，如下公式(4)所示，其中，N₃表示目标音频帧在预设频率的频点，C₁表示在频域内目标音频帧中频率小于预设频率的频率成分的能量值，V(k)表示第k个频域谱，V(k)为复数，abs()表示取幅值函数。

以及，根据得到的频域谱及第一预设点数阈值计算目标音频帧的总能量值，如下公式(5)所示，其中，N₂表示第一预设点数阈值，C₂表示目标音频帧的总能量值，V(k)表示第k个频域谱，V(k)为复数，abs()表示取幅值函数。

最后，根据得到的目标音频帧的频域小于预设频率的能量值C₁，以及目标音频帧的总能量值C₂，计算该能量值占总能量值的比重G：G＝C1/C2。

在步骤104中，若比重大于第一预设能量阈值，则确定目标音频帧为音频断点。

在得到目标音频帧的频域小于预设频率的能量值，占目标音频帧的总能量值的比重后，判断该比重是否大于第一预设能量阈值，当该比重大于第一预设能量阈值时，说明在频域内该能量值接近总能量值，此时确定目标音频帧为音频断点，例如，当C1/C2>99.9％时，确定目标音频帧为音频断点。当该比重小于或等于第一预设能量阈值时，说明在频域内该能量值与总能量值之间的差值较大，此时判定目标音频帧可能不是音频断点。可以理解的是，第一预设能量阈值可以根据实际情况进行灵活设置，具体取值在此处不作限定。

在某些实施方式中，若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重的步骤之后，音频检测方法还可以包括：

若比重大于预设能量阈值，获取目标音频帧的第一个采样点，以及在待检测音频中第一个采样点的前一个采样点；

获取目标音频帧的最后一个采样点，以及在待检测音频中最后一个采样点的后一个采样点；

计算第一个采样点与前一个采样点之间的第一差值，以及计算最后一个采样点与后一个采样点之间的第二差值；

若第一差值大于第二阈值，且第二差值大于第二阈值，确定目标音频帧为音频断点，该第二阈值小于第一阈值。

具体地，在判断该比重是否大于第一预设能量阈值的过程中，当该比重小于或等于预设能量阈值时，进一步对目标音频帧进行时域分析。其中，该时域分析可以包括幅值分析及能量值分析等，以下将以在时域内进行幅值分析为例，首先，获取目标音频帧的第一个采样点v_s(1)，以及在待检测音频中该第一个采样点的前一个采样点w_s(1)；以及，获取目标音频帧的最后一个采样点v_s(m)，以及在待检测音频中该最后一个采样点的后一个采样点w_s(2)。例如，如图4(c)所示，假设c1至c2之间为目标音频帧，则该目标音频帧的第一个采样点为c1(即v_s(1))，在待检测音频中该第一个采样点c1的前一个采样点为c3(即w_s(1))，该目标音频帧的最后一个采样点为c2(即v_s(m))，在待检测音频中该最后一个采样点c2的后一个采样点为c4(即w_s(2))。

然后，计算第一个采样点v_s(1)与前一个采样点w_s(1)之间的第一差值，如下公式(6)所示，以及计算最后一个采样点v_s(m)与后一个采样点w_s(2)之间的第二差值，如下公式(7)所示。判断第一差值是否大于第二阈值thresh2，以及判断第二差值是否大于第二阈值thresh2，当第一差值大于第二阈值thresh2，且第二差值大于第二阈值thresh2时，说明第一个采样点v_s(1)与前一个采样点w_s(1)之间的幅值较大，此时确定目标音频帧为音频断点。其中，第二阈值thresh2可以取较大值，当然，该第二阈值也可以根据实际情况进行灵活设置，具体取值在此处不作限定。

abs(v_s(1)-w_s(1))>thresh2 (6)

abs(v_s(m)-w_s(2))>thresh2 (7)

当第一差值小于或等于第二阈值thresh2，且第二差值大于第二阈值thresh2时，判定目标音频帧不是音频断点；当第一差值小于或等于第二阈值thresh2，且第二差值小于或等于第二阈值thresh2时，判定目标音频帧不是音频断点；当第一差值大于第二阈值thresh2，且第二差值小于或等于第二阈值thresh2时，判定目标音频帧不是音频断点。

可选地，获取目标音频帧的第一个采样点，以及在待检测音频中第一个采样点的前一个采样点的步骤可以包括：

若目标音频帧包含的采样点数大于第二预设点数阈值，获取目标音频帧的第一个采样点，以及在待检测音频中第一个采样点的前一个采样点。

具体地，可以先判断目标音频帧包含的采样点数是否大于第二预设点数阈值，若目标音频帧包含的采样点数大于第二预设点数阈值N₄，则进行时域分析，即执行获取目标音频帧的第一个采样点，以及在待检测音频中第一个采样点的前一个采样点；获取目标音频帧的最后一个采样点，以及在待检测音频中最后一个采样点的后一个采样点等步骤。若目标音频帧包含的采样点数小于或等于第二预设点数阈值N₄，则不进行时域分析。

若比重大于预设能量阈值，获取目标音频帧的第一个采样点之前的前预设音频片段，以及目标音频帧的最后一个采样点之后的后预设音频片段；

获取前预设音频片段的第一能量值，以及后预设音频片段的第二能量值；

若第一能量值大于第二预设能量阈值，且第二能量值大于第二预设能量阈值，确定目标音频帧为音频断点。

具体地，在判断该比重是否大于第一预设能量阈值的过程中，当该比重小于或等于预设能量阈值时，进一步对目标音频帧进行时域分析。以下将以在时域内进行能量值分析为例，首先，获取目标音频帧的第一个采样点v_s(1)之前的前预设音频片段u_s-1，例如，u_s-1表示v_s(1)前的100ms音频片段，以及获取目标音频帧的最后一个采样点v_s(m)之后的后预设音频片段u_s+1，例如，u_s+1表示v_s(m)后的100ms音频片段。

然后，计算前预设音频片段u_s-1的第一能量值，如下公式(8)所示：

其中，p_s-1表示前预设音频片段u_s-1的第一能量值，N₅＝floor(fs/x)，例如，当u_s-1表示v_s(1)前的100ms音频片段时，N₅＝floor(fs/10)；当u_s-1表示v_s(1)前的200ms音频片段时，N₅＝floor(fs/5)，等等，u²(n)表示第n个采样点的值的平方。

以及，计算后预设音频片段u_s+1的第二能量值，如下公式(9)所示：

其中，p_s+1表示后预设音频片段u_s+1的第二能量值，其他参数与公式(8)中的一致，在此处不再赘述。

最后，判断第一能量值p_s-1是否大于第二预设能量阈值thresh3，以及判断第二能量值p_s+1是否大于第二预设能量阈值thresh3，若第一能量值大于第二预设能量阈值，且第二能量值大于第二预设能量阈值，确定目标音频帧为音频断点。其中，第二预设能量阈值thresh3可以取较大值，当然，该第二阈值也可以根据实际情况进行灵活设置，具体取值在此处不作限定。

当第一能量值小于或等于第二预设能量阈值，且第二能量值大于第二预设能量阈值时，判定目标音频帧不是音频断点；当第一能量值小于或等于第二预设能量阈值，且第二能量值小于或等于第二预设能量阈值时，判定目标音频帧不是音频断点；当第一能量值大于第二预设能量阈值，且第二能量值小于或等于第二预设能量阈值时，判定目标音频帧不是音频断点。

可选地，获取目标音频帧的第一个采样点之前的前预设音频片段，以及目标音频帧的最后一个采样点之后的后预设音频片段的步骤包括：

若目标音频帧包含的采样点数大于第三预设点数阈值，获取目标音频帧的第一个采样点之前的前预设音频片段，以及目标音频帧的最后一个采样点之后的后预设音频片段。

具体地，可以先判断目标音频帧包含的采样点数是否大于第三预设点数阈值，若目标音频帧包含的采样点数大于第三预设点数阈值，则进行时域分析，即执行获取目标音频帧的第一个采样点之前的前预设音频片段，以及目标音频帧的最后一个采样点之后的后预设音频片段等步骤。若目标音频帧包含的采样点数小于或等于第三预设点数阈值，则不进行时域分析。

由上可知，本发明实施例通过获取待检测音频中每个音频帧的最大值及最小值，以及确定目标音频帧，该目标音频为最大值及最小值之间的差值小于第一阈值的音频帧，该目标音频帧的变化幅度比较平缓。然后，进一步对目标音频帧进行分析，若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及该能量值占目标音频帧的总能量值的比重；当该比重大于第一预设能量阈值时，说明目标音频帧能量值变化不大，此时确定目标音频帧为音频断点。该方案中可以通过每个音频帧对应的最大值及最小值、目标音频帧的频域小于预设频率的能量值、及目标音频帧的总能量值等信息，能够对音频断点所在的音频帧进行准确判定，避免了人为主观因素的影响，提高了对音频检测的准确性。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

以检测图4中存在断点缺陷的待检测音频为例，请参阅图3，图3为本发明实施例提供的音频检测方法的另一流程示意图。该方法流程可以包括：

201、筛选目标音频帧。

首先，音频检测装置对待检测音频中每个音频帧的各个采样点进行幅度分析，具体地，可以预先将待检测音频进行分帧，获取每个音频帧的各个采样点幅度的最大值，以及获取每个音频帧的各个采样点幅度的最小值。然后，分别计算每个音频帧对应的最大值与最小值之间的差值，以及从每个音频帧对应的差值中，筛选出差值小于第一阈值的音频帧，即筛选出满足类直流片段的音频帧。其次，判断差值小于第一阈值的音频帧中是否存在多个，若存在多个，则进一步判断多个音频帧中是否存在相邻的音频帧，若多个音频帧中存在相邻的音频帧，则将该相邻的音频帧组合为音频片段，将得到的该音频片段设定为目标音频帧；若多个音频帧中不存在相邻的音频帧，则直接将每个音频帧设定为目标音频帧。其中，该第一阈值的取值可以根据实际情况进行灵活设置，具体取值在此处不作限定。

例如，如图4所示，在图4(a)中，筛选出差值小于第一阈值的音频帧为T_a1-a2，由于差值小于第一阈值的音频帧中不存在相邻的音频帧，因此，得到的目标音频帧为T_a1-a2。

在图4(b)中，筛选出差值小于第一阈值的音频帧为T_b1-b2和T_b2-b3，由于音频帧T_b1-b2和T_b2-b3相邻，因此，将音频帧T_b1-b2和T_b2-b3组合为音频片段T_b1-b3，从而得到的目标音频帧为T_b1-b3。

在图4(c)中，筛选出差值小于第一阈值的音频帧为T_c1-c2，由于差值小于第一阈值的音频帧中不存在相邻的音频帧，因此，得到的目标音频帧为T_c1-c2。

在图4(d)中，筛选出差值小于第一阈值的音频帧为T_d1-d2、T_d2-d3和T_d3-d4，由于音频帧T_d1-d2、T_d2-d3和T_d3-d4相邻，因此，将音频帧T_d1-d2、T_d2-d3和T_d3-d4组合为音频片段T_d1-d4，从而得到的目标音频帧为T_d1-d4。

202、频谱分析。

在得到目标音频帧后，可以对目标音频帧进行频谱分析，可选地，在对目标音频帧进行频谱分析之前，可以先判断目标音频帧包含的采样点数是否大于第一预设点数阈值；当目标音频帧包含的采样点数大于第一预设点数阈值时，判断目标音频帧是否为静音数据，即判断目标音频帧的各个采样点的取值与零之间的目标差值，是否均小于预设值；若是，确定目标音频帧是静音数据；若否，确定目标音频帧不是静音数据。其中，该第一预设点数阈值、及预设值等可以根据实际情况进行灵活设置，具体取值在此处不作限定。若目标音频帧不是静音数据，对目标音频帧进行频谱分析。

假设图4(a)、图4(b)、图4(c)和图4(d)中，目标音频帧包含的采样点数均大于第一预设点数阈值，且目标音频帧不是静音数据，此时，需要在频域内对目标音频帧进行能量值分析，具体地，首先，通过傅里叶变换将目标音频帧从时域变换到频域，生成目标音频帧的频域谱，例如，根据上述公式(3)得到目标音频帧的频域谱。然后，获取目标音频帧的采样率，根据采样率获取目标音频帧在预设频率的频点；例如，当预设频率为100Hz时，目标音频帧在100Hz的频点为N₃＝floor(100*fs/N₂)。其次，根据频域谱及第一预设点数阈，按照上述公式(5)计算目标音频帧的总能量值，以及根据频域谱及频点，按照上述公式(4)计算目标音频帧中频率小于预设频率的频率成分的能量值。最后，计算该能量值占总能量值的比重G：G＝C1/C2。

当该比重大于第一预设能量阈值时，说明在频域内该能量值接近总能量值，确定目标音频帧为音频断点，此时，音频检测装置可以结束音频检测流程。当该比重小于或等于第一预设能量阈值时，判定目标音频帧不是音频断点，此时需要进一步对目标音频帧进行时域分析。其中，预设频率、第一预设点数阈值、及第一预设能量阈值等，可以根据实际情况进行灵活设置，具体取值在此处不作限定。

需要说明的是，为了提高音频检测的可靠性及精准性，当该比重大于第一预设能量阈值时，确定目标音频帧为音频断点的情况下，还可以进一步对目标音频帧进行时域分析。即当该比重小于或等于第一预设能量阈值时，满足第一预设条件，或者，当该比重小于、等于或等于第一预设能量阈值时，满足第一预设条件，当满足第一预设条件时，进一步对目标音频帧进行时域分析。

203、时域分析。

其中，该时域分析可以包括幅值分析及能量值分析等，在对目标音频帧进行时域分析的过程中，可以在时域内对目标音频帧进行幅值分析或能量值分析，以下分别进行说明。

以幅值分析为例，具体地，音频检测装置首先获取目标音频帧的第一个采样点，以及在待检测音频中第一个采样点的前一个采样点；获取目标音频帧的最后一个采样点，以及在待检测音频中最后一个采样点的后一个采样点；计算第一个采样点与前一个采样点之间的第一差值，以及计算最后一个采样点与后一个采样点之间的第二差值；若第一差值大于第二阈值，且第二差值大于第二阈值，确定目标音频帧为音频断点。可选地，音频检测装置可以先判断目标音频帧包含的采样点数是否大于第二预设点数阈值，若是，则进行时域分析；若否，则不进行时域分析。其中，第二阈值、第二预设点数阈值等，可以根据实际情况进行灵活设置，具体取值在此处不作限定。

例如，在图4(a)中，目标音频帧T_a1-a2的第一个采样点为a1、最后一个采样点为a2，第一个采样点a1与其前一个采样点a3之间的第一差值L1，最后一个采样点a2与其后一个采样点a4之间的第二差值L2，第一差值L1和第二差值L2均大于第二阈值，此时判定目标音频帧T_a1-a2为音频断点。

在图4(b)中，目标音频帧T_b1-b3第一个采样点为b1、最后一个采样点为b3，第一个采样点b1与其前一个采样点b4之间的第一差值L3，最后一个采样点b3与其后一个采样点b5之间的第二差值L4，第一差值L3和第二差值L4均大于第二阈值，此时判定目标音频帧T_b1-b3为音频断点。

在图4(c)中，目标音频帧T_c1-c2第一个采样点为c1、最后一个采样点为c2，第一个采样点c1与其前一个采样点c3之间的第一差值L5，最后一个采样点c2与其后一个采样点c4之间的第二差值L6，第一差值L5和第二差值L6均大于第二阈值，此时判定目标音频帧T_c1-c2为音频断点。

在图4(d)中，目标音频帧T_d1-d4第一个采样点为d1、最后一个采样点为d4，第一个采样点d1与其前一个采样点d5之间的第一差值L7，最后一个采样点d4与其后一个采样点d6之间的第二差值L8，第一差值L7和第二差值L8均大于第二阈值，此时判定目标音频帧T_d1-d4为音频断点。

以能量值分析为例，具体地，获取目标音频帧的第一个采样点之前的前预设音频片段，以及目标音频帧的最后一个采样点之后的后预设音频片段；按照上述公式(8)获取前预设音频片段的第一能量值，以及按照上述公式(9)获取后预设音频片段的第二能量值；若第一能量值大于第二预设能量阈值，且第二能量值大于第二预设能量阈值，确定目标音频帧为音频断点。可选地，音频检测装置可以先判断目标音频帧包含的采样点数是否大于第三预设点数阈值，若是，则进行时域分析；若否，则不进行时域分析。其中，第二预设能量阈值、第三预设点数阈值等，可以根据实际情况进行灵活设置，具体取值在此处不作限定。

例如，在图4(a)中，目标音频帧T_a1-a2的第一个采样点为a1、最后一个采样点为a2，第一个采样点a1之前的前预设音频片段为D1，最后一个采样点a2之后的后预设音频片段为D2，按照上述公式(8)计算得到前预设音频片段D1的第一能量值为P1，按照上述公式(9)计算得到后预设音频片段D2的第二能量值为P2，第一能量值为P1和第二能量值为P2均大于第二预设能量阈值，此时判定目标音频帧T_a1-a2为音频断点。

在图4(b)中，目标音频帧T_b1-b3第一个采样点为b1、最后一个采样点为b3，第一个采样点b1之前的前预设音频片段为D3，最后一个采样点b3之后的后预设音频片段为D4，按照上述公式(8)计算得到前预设音频片段D3的第一能量值为P3，按照上述公式(9)计算得到后预设音频片段D4的第二能量值为P4，第一能量值为P3和第二能量值为P4均大于第二预设能量阈值，此时判定目标音频帧T_b1-b3为音频断点。

在图4(c)中，目标音频帧T_c1-c2第一个采样点为c1、最后一个采样点为c2，第一个采样点c1之前的前预设音频片段为D5，最后一个采样点b3之后的后预设音频片段为D6，按照上述公式(8)计算得到前预设音频片段D5的第一能量值为P5，按照上述公式(9)计算得到后预设音频片段D6的第二能量值为P6，第一能量值为P5和第二能量值为P6均大于第二预设能量阈值，此时判定目标音频帧T_c1-c2为音频断点。

在图4(d)中，目标音频帧T_d1-d4第一个采样点为d1、最后一个采样点为d4，第一个采样点d1之前的前预设音频片段为D7，最后一个采样点d4之后的后预设音频片段为D8，按照上述公式(8)计算得到前预设音频片段D7的第一能量值为P7，按照上述公式(9)计算得到后预设音频片段D8的第二能量值为P8，第一能量值为P7和第二能量值为P8均大于第二预设能量阈值，此时判定目标音频帧T_d1-d4为音频断点。

需要说明的是，如图5所示，为了提高音频检测的灵活性，音频检测装置也可以是依次执行如下步骤：

301、筛选目标音频帧。

其中，步骤301中筛选目标音频帧的方法与上述步骤201类似，在此处不作赘述。

302、时域分析。

在得到目标音频帧后，可以在时域内对目标音频帧进行幅值分析或能量值分析，该幅值分析或能量值分析与上述步骤步骤203类似，在此处不作赘述。

需要说明的是，为了提高音频检测的可靠性及精准性，当在时域内对目标音频帧进行幅值分析或能量值分析的过程中，判定目标音频帧不是音频断点的情况下，即满足第二预设条件，可以进一步对目标音频帧进行频域分析；或者是，确定目标音频帧为音频断点的情况下，即满足第二预设条件，还可以进一步对目标音频帧进行频域分析。

303、频域分析。

其中，步骤303中频域分析与上述步骤202类似，在此处不作赘述。

为便于更好的实施本发明实施例提供的音频检测方法，本发明实施例还提供一种基于上述音频检测方法的装置。其中名词的含义与上述音频检测方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图6，图6为本发明实施例提供的音频检测装置的结构示意图，其中该音频检测装置可以包括取值获取单元401、音频帧获取单元402、比重获取单元403及第一确定单元404等。

其中，取值获取单元401，用于获取待检测音频中每个音频帧的最大值及最小值。

本实施例中，当需要对待检测音频进行检测时，取值获取单元401可以预先将待检测音频进行分帧，其中，每个音频帧包含多个采样点N₁，然后获取每个音频帧的各个采样点幅度的最大值，如下公式(1)所示；以及获取每个音频帧的各个采样点幅度的最小值，如下公式(2)所示。

vmax＝max(x_t(1),x_t(2),......,x_t(n)) (1)

vmin＝min(x_t(1),x_t(2),......,x_t(n)) (2)

音频帧获取单元402，用于确定目标音频帧，该目标音频为待检测音频中每个音频帧的最大值及最小值之间的差值小于第一阈值的音频帧。

在得到每个音频帧的各个采样点幅度的最大值及最小值后，音频帧获取单元402分别计算每个音频帧对应的最大值与最小值之间的差值，得到每个音频帧对应的差值。然后，从每个音频帧对应的差值中，筛选出差值小于第一阈值的音频帧，得到目标音频帧。例如，若音频帧的vmax-vmin<thresh1，则判定该音频帧可能为类直流片段，将该类直流片段设定为目标音频帧，其中，thresh1为第一阈值，该第一阈值的取值可以为较小值，该第一阈值的取值可以根据实际情况进行灵活设置，具体取值在此处不作限定。

在某些实施方式中，音频帧获取单元402具体用于：获取每个音频帧对应的最大值及最小值之间的差值；筛选出差值小于第一阈值的音频帧；若差值小于第一阈值的音频帧存在多个，且多个音频帧中存在相邻的音频帧，将相邻的音频帧组合为音频片段，并将音频片段确定为目标音频帧；若差值小于第一阈值的音频帧存在多个，且多个音频帧中不存在相邻的音频帧，将每个音频帧确定为目标音频帧。

具体地，首先，音频帧获取单元402获取每个音频帧对应的最大值及最小值之间的差值，判断每个音频帧对应的差值中是否存在小于第一阈值的音频帧，筛选出差值小于第一阈值的音频帧，即筛选出满足类直流片段的音频帧。若每个音频帧对应的差值中不存在小于第一阈值的音频帧，则说明不存在类直流片段的音频帧，可判定待检测音频中可能不存在断点，此时，可以结束音频检测流程。

然后，音频帧获取单元402进一步判断差值小于第一阈值的音频帧中是否存在多个，如果存在多个，则进一步判断多个音频帧中是否存在相邻的音频帧，当差值小于第一阈值的音频帧中存在多个，且多个音频帧中存在相邻的音频帧时，将该相邻的音频帧组合为音频片段。例如，如果连续音频帧x_t、x_t+1及x_t+2满足最大值及最小值之间的差值小于第一阈值，则将x_t、x_t+1及x_t+2归并为一个音频片段，这里用v_s来表示该音频片段，并将得到的该音频片段v_s设定为目标音频帧，即该目标音频帧包括多帧音频，从而可以真实还原待检测音频中存在的音频片段，提高对音频检测的精准性。当差值小于第一阈值的音频帧中多个，且多个音频帧中存在不存在相邻的音频帧时，直接将音频帧设定为目标音频帧，即该目标音频帧仅包含1帧音频。

比重获取单元403，用于若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重。

在得到目标音频帧后，在某些实施方式中，如图7所示，比重获取单元403可以包括：

静音验证子单元4031，用于若目标音频帧包含的采样点数大于第一预设点数阈值，则对目标音频帧进行静音数据验证；

获取子单元4032，用于若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重。

当目标音频帧包含的采样点数小于或等于第一预设点数阈值时，判定待检测音频中可能不存在断点，此时，可以结束音频检测流程；当目标音频帧包含的采样点数大于第一预设点数阈值时，由静音验证子单元4031判断目标音频帧是否为静音数据。当目标音频帧是静音数据时，可以判定待检测音频中可能存在断点，此时，可以结束音频检测流程；若目标音频帧不是静音数据，获取子单元4032需要对目标音频帧进行频谱分析，判断其是否为音频断点，即获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重。

可选地，获取子单元4032具体用于：通过傅里叶变换将目标音频帧从时域变换到频域，生成目标音频帧的频域谱；获取目标音频帧的采样率，根据采样率获取目标音频帧在预设频率的频点；根据频域谱及第一预设点数阈值计算目标音频帧的总能量值，以及根据频域谱及频点，计算目标音频帧中频率小于预设频率的频率成分的能量值；计算能量值占总能量值的比重。

具体地，获取子单元4032在对目标音频帧进行频谱分析的过程中，在频域内通过傅里叶变换将目标音频帧从时域变换到频域，即将目标音频帧的时域波形转换为频域波形，生成目标音频帧的频域谱，如下公式(3)所示，可以用公式(3)来表示每个目标音频帧的频域谱，其中，N₂表示每帧傅里叶变换的点数，即第一预设点数阈值N₂，v(n)表示第n个目标音频帧，V(k)表示第k个频域谱。

然后，根据得到的目标音频帧的频域谱，以及目标音频帧在预设频率的频点，计算目标音频帧中频率小于预设频率的频率成分的能量值，如下公式(4)所示，其中，N₃表示目标音频帧在预设频率的频点，N_3-1表示目标音频帧在预设频率的前一个频点，C₁表示在频域内目标音频帧中频率小于预设频率的频率成分的能量值，V(k)表示第k个频域谱，V(k)为复数，abs()表示取幅值函数。

可选地，静音验证子单元4031具体用于：若目标音频帧的每个采样点的取值与零之间的目标差值小于或等于预设值，确定目标音频帧是静音数据；若目标音频帧的每个采样点的取值与零之间的目标差值大于预设值，确定目标音频帧不是静音数据。

具体地，静音验证子单元4031首先获取目标音频帧的各个采样点的取值，以及获取各个采样点的取值与零之间的差值，该差值即为目标差值，然后，判断该目标差值是否小于预设值，其中，该预设值可以根据实际情况进行灵活设置，具体取值在此处不作限定。通过各个采样点的取值与零之间的比较，可以判断各个采样点的取值是否都是在零数据附近，当目标差值小于预设值时，说明各个采样点的取值都是在零数据附近，此时判定目标音频帧是静音数据；当目标差值大于或等于预设值时，说明各个采样点的取值不都是在零数据附近，此时判定目标音频帧不是静音数据。

第一确定单元404，用于若比重大于第一预设能量阈值，则确定目标音频帧为音频断点。

在得到目标音频帧的频域小于预设频率的能量值，占目标音频帧的总能量值的比重后，第一确定单元404判断该比重是否大于第一预设能量阈值，当该比重大于第一预设能量阈值时，说明在频域内该能量值接近总能量值，此时第一确定单元404确定目标音频帧为音频断点，例如，当C1/C2>99.9％时，确定目标音频帧为音频断点。当该比重小于或等于第一预设能量阈值时，说明在频域内该能量值与总能量值之间的差值较大，此时判定目标音频帧可能不是音频断点。可以理解的是，第一预设能量阈值可以根据实际情况进行灵活设置，具体取值在此处不作限定。

在某些实施方式中，如图8所示，音频检测装置还可以包括：

采样点第一获取单元405，用于若比重大于预设能量阈值，获取目标音频帧的第一个采样点，以及在待检测音频中第一个采样点的前一个采样点；

采样点第二获取单元406，用于获取目标音频帧的最后一个采样点，以及在待检测音频中最后一个采样点的后一个采样点；

计算单元407，用于计算第一个采样点与前一个采样点之间的第一差值，以及计算最后一个采样点与后一个采样点之间的第二差值；

第二确定单元408，用于若第一差值大于第二阈值，且第二差值大于第二阈值，确定目标音频帧为音频断点。

具体地，在判断该比重是否大于第一预设能量阈值的过程中，当该比重小于或等于预设能量阈值时，进一步对目标音频帧进行时域分析。其中，该时域分析可以包括幅值分析及能量值分析等，以下将以在时域内进行幅值分析为例，首先，由采样点第一获取单元405获取目标音频帧的第一个采样点v_s(1)，以及在待检测音频中该第一个采样点的前一个采样点w_s(1)；以及，由采样点第二获取单元406获取目标音频帧的最后一个采样点v_s(m)，以及在待检测音频中该最后一个采样点的后一个采样点w_s(2)。例如，如图4(c)所示，假设c1至c2之间为目标音频帧，则该目标音频帧的第一个采样点为c1(即v_s(1))，在待检测音频中该第一个采样点c1的前一个采样点为c3(即w_s(1))，该目标音频帧的最后一个采样点为c2(即v_s(m))，在待检测音频中该最后一个采样点c2的后一个采样点为c4(即w_s(2))。

然后，计算单元407计算第一个采样点v_s(1)与前一个采样点w_s(1)之间的第一差值，如下公式(6)所示，以及计算最后一个采样点v_s(m)与后一个采样点w_s(2)之间的第二差值，如下公式(7)所示。第二确定单元408判断第一差值是否大于第二阈值thresh2，以及判断第二差值是否大于第二阈值thresh2，当第一差值大于第二阈值thresh2，且第二差值大于第二阈值thresh2时，说明第一个采样点v_s(1)与前一个采样点w_s(1)之间的幅值较大，此时第二确定单元408确定目标音频帧为音频断点。其中，第二阈值thresh2可以取较大值，当然，该第二阈值也可以根据实际情况进行灵活设置，具体取值在此处不作限定。

abs(v_s(1)-w_s(1))>thresh2 (6)

abs(v_s(m)-w_s(2))>thresh2 (7)

可选地，采样点第一获取单元405具体用于：若目标音频帧包含的采样点数大于第二预设点数阈值，获取目标音频帧的第一个采样点，以及在待检测音频中第一个采样点的前一个采样点。

具体地，采样点第一获取单元405可以先判断目标音频帧包含的采样点数是否大于第二预设点数阈值，若目标音频帧包含的采样点数大于第二预设点数阈值N₄，则进行时域分析，即执行获取目标音频帧的第一个采样点，以及在待检测音频中第一个采样点的前一个采样点；获取目标音频帧的最后一个采样点，以及在待检测音频中最后一个采样点的后一个采样点等步骤。若目标音频帧包含的采样点数小于或等于第二预设点数阈值N₄，则不进行时域分析。

在某些实施方式中，如图9所示，音频检测装置还可以包括：

音频片段获取单元409，用于若比重大于预设能量阈值，获取目标音频帧的第一个采样点之前的前预设音频片段，以及目标音频帧的最后一个采样点之后的后预设音频片段；

能量值获取单元410，用于获取前预设音频片段的第一能量值，以及后预设音频片段的第二能量值；

第三确定单元411，用于若第一能量值大于第二预设能量阈值，且第二能量值大于第二预设能量阈值，确定目标音频帧为音频断点。

具体地，在判断该比重是否大于第一预设能量阈值的过程中，当该比重小于或等于预设能量阈值时，进一步对目标音频帧进行时域分析。以下将以在时域内进行能量值分析为例，首先，由音频片段获取单元409获取目标音频帧的第一个采样点v_s(1)之前的前预设音频片段u_s-1，例如，u_s-1表示v_s(1)前的100ms音频片段，以及获取目标音频帧的最后一个采样点v_s(m)之后的后预设音频片段u_s+1，例如，u_s+1表示v_s(m)后的100ms音频片段。

然后，能量值获取单元410计算前预设音频片段u_s-1的第一能量值，如下公式(8)所示：

以及，能量值获取单元410计算后预设音频片段u_s+1的第二能量值，如下公式(9)所示：

最后，第三确定单元411判断第一能量值p_s-1是否大于第二预设能量阈值thresh3，以及判断第二能量值p_s+1是否大于第二预设能量阈值thresh3，若第一能量值大于第二预设能量阈值，且第二能量值大于第二预设能量阈值，第三确定单元411确定目标音频帧为音频断点。其中，第二预设能量阈值thresh3可以取较大值，当然，该第二阈值也可以根据实际情况进行灵活设置，具体取值在此处不作限定。

可选地，音频片段获取单元409具体用于：判断目标音频帧包含的采样点数是否大于第三预设点数阈值；若目标音频帧包含的采样点数大于第三预设点数阈值，获取目标音频帧的第一个采样点之前的前预设音频片段，以及目标音频帧的最后一个采样点之后的后预设音频片段。

具体地，音频片段获取单元409可以先判断目标音频帧包含的采样点数是否大于第三预设点数阈值，若目标音频帧包含的采样点数大于第三预设点数阈值，则进行时域分析，即执行获取目标音频帧的第一个采样点之前的前预设音频片段，以及目标音频帧的最后一个采样点之后的后预设音频片段等步骤。若目标音频帧包含的采样点数小于或等于第三预设点数阈值，则不进行时域分析。

由上可知，本发明实施例通过取值获取单元401获取待检测音频中每个音频帧的最大值及最小值，以及由音频帧获取单元402确定目标音频帧，所述目标音频为所述最大值及所述最小值之间的差值小于第一阈值的音频帧，该目标音频帧的变化幅度比较平缓。然后，进一步对目标音频帧进行分析，若目标音频帧不是静音数据，由比重获取单元403获取目标音频帧中频率小于预设频率的能量值，及该能量值占目标音频帧的总能量值的比重；当该比重大于第一预设能量阈值时，说明目标音频帧能量值变化不大，此时第一确定单元404确定目标音频帧为音频断点。该方案中可以通过每个音频帧对应的最大值及最小值、目标音频帧的频域小于预设频率的能量值、及目标音频帧的总能量值等信息，能够对音频断点所在的音频帧进行准确判定，避免了人为主观因素的影响，提高了对音频检测的准确性。

相应的，本发明实施例还提供一种终端，如图10所示，该终端可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图10中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图10中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

获取待检测音频中每个音频帧的最大值及最小值；确定目标音频帧，所述目标音频为所述最大值及所述最小值之间的差值小于第一阈值的音频帧；若目标音频帧不是静音数据，获取目标音频帧中频率小于预设频率的能量值，及能量值占目标音频帧的总能量值的比重；若比重大于第一预设能量阈值，则确定目标音频帧为音频断点。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频检测方法的详细描述，此处不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频检测方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种音频检测方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种音频检测方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频检测方法，其特征在于，包括：

获取待检测音频中每个音频帧的最大值及最小值；

2.根据权利要求1所述的音频检测方法，其特征在于，确定目标音频帧的步骤包括：

获取每个音频帧对应的最大值及最小值之间的差值；

筛选出所述差值小于第一阈值的音频帧；

若所述差值小于第一阈值的音频帧存在多个，且多个音频帧中存在相邻的音频帧，将相邻的音频帧组合为音频片段，并将所述音频片段确定为目标音频帧；

若所述差值小于第一阈值的音频帧存在多个，且多个音频帧中不存在相邻的音频帧，将每个音频帧确定为目标音频帧。

3.根据权利要求2所述的音频检测方法，其特征在于，若所述目标音频帧不是静音数据，获取所述目标音频帧中频率小于预设频率的能量值，及所述能量值占所述目标音频帧的总能量值的比重的步骤包括：

若所述目标音频帧包含的采样点数大于第一预设点数阈值，则对所述目标音频帧进行静音数据验证；

若所述目标音频帧不是静音数据，获取所述目标音频帧中频率小于预设频率的能量值，及所述能量值占所述目标音频帧的总能量值的比重。

4.根据权利要求3所述的音频检测方法，其特征在于，所述获取所述目标音频帧中频率小于预设频率的能量值，及所述能量值占所述目标音频帧的总能量值的比重的步骤包括：

通过傅里叶变换将所述目标音频帧从时域变换到频域，生成所述目标音频帧的频域谱；

获取所述目标音频帧的采样率，根据所述采样率获取所述目标音频帧在预设频率的频点；

根据所述频域谱及所述第一预设点数阈值计算目标音频帧的总能量值，以及根据所述频域谱及所述频点，计算所述目标音频帧中频率小于所述预设频率的频率成分的能量值；

计算所述能量值占所述总能量值的比重。

5.根据权利要求3所述的音频检测方法，其特征在于，所述判断所述目标音频帧是否为静音数据的步骤包括：

若所述目标音频帧的每个采样点的取值与零之间的目标差值小于或等于预设值，确定所述目标音频帧是静音数据；

若所述目标音频帧的每个采样点的取值与零之间的目标差值大于预设值，确定所述目标音频帧不是静音数据。

6.根据权利要求1至5中任一项所述的音频检测方法，其特征在于，所述若所述目标音频帧不是静音数据，获取所述目标音频帧中频率小于预设频率的能量值，及所述能量值占所述目标音频帧的总能量值的比重的步骤之后，所述方法还包括：

若所述比重大于预设能量阈值，获取所述目标音频帧的第一个采样点，以及在所述待检测音频中所述第一个采样点的前一个采样点；

获取所述目标音频帧的最后一个采样点，以及在所述待检测音频中所述最后一个采样点的后一个采样点；

计算所述第一个采样点与所述前一个采样点之间的第一差值，以及计算所述最后一个采样点与所述后一个采样点之间的第二差值；

若所述第一差值大于第二阈值，且第二差值大于所述第二阈值，确定所述目标音频帧为音频断点，所述第二阈值小于所述第一阈值。

7.根据权利要求6所述的音频检测方法，其特征在于，所述获取所述目标音频帧的第一个采样点，以及在所述待检测音频中所述第一个采样点的前一个采样点的步骤包括：

若所述目标音频帧包含的采样点数大于第二预设点数阈值，获取所述目标音频帧的第一个采样点，以及在所述待检测音频中所述第一个采样点的前一个采样点。

8.根据权利要求1至5中任一项所述的音频检测方法，其特征在于，所述若所述目标音频帧不是静音数据，获取所述目标音频帧中频率小于预设频率的能量值，及所述能量值占所述目标音频帧的总能量值的比重的步骤之后，所述方法还包括：

若所述比重大于预设能量阈值，获取所述目标音频帧的第一个采样点之前的前预设音频片段，以及所述目标音频帧的最后一个采样点之后的后预设音频片段；

获取所述前预设音频片段的第一能量值，以及所述后预设音频片段的第二能量值；

若所述第一能量值大于第二预设能量阈值，且第二能量值大于所述第二预设能量阈值，确定所述目标音频帧为音频断点。

9.根据权利要求8所述的音频检测方法，其特征在于，所述获取所述目标音频帧的第一个采样点之前的前预设音频片段，以及所述目标音频帧的最后一个采样点之后的后预设音频片段的步骤包括：

若所述目标音频帧包含的采样点数大于第三预设点数阈值，获取所述目标音频帧的第一个采样点之前的前预设音频片段，以及所述目标音频帧的最后一个采样点之后的后预设音频片段。

10.一种音频检测装置，其特征在于，包括：

11.根据权利要求10所述的音频检测装置，其特征在于，所述音频帧获取单元具体用于：

获取每个音频帧对应的最大值及最小值之间的差值；

筛选出所述差值小于第一阈值的音频帧；

12.根据权利要求11所述的音频检测装置，其特征在于，所述比重获取单元包括：

静音验证子单元，用于若所述目标音频帧包含的采样点数大于第一预设点数阈值，则对所述目标音频帧进行静音数据验证；

获取子单元，用于若所述目标音频帧不是静音数据，获取所述目标音频帧中频率小于预设频率的能量值，及所述能量值占所述目标音频帧的总能量值的比重。

13.根据权利要求12所述的音频检测装置，其特征在于，获取子单元具体用于：

计算所述能量值占所述总能量值的比重。

14.根据权利要求12所述的音频检测装置，其特征在于，静音验证子单元具体用于：

15.根据权利要求10至14中任一项所述的音频检测装置，其特征在于，所述音频检测装置还包括：

采样点第一获取单元，用于若所述比重大于预设能量阈值，获取所述目标音频帧的第一个采样点，以及在所述待检测音频中所述第一个采样点的前一个采样点；

采样点第二获取单元，用于获取所述目标音频帧的最后一个采样点，以及在所述待检测音频中所述最后一个采样点的后一个采样点；

计算单元，用于计算所述第一个采样点与所述前一个采样点之间的第一差值，以及计算所述最后一个采样点与所述后一个采样点之间的第二差值；

第二确定单元，用于若所述第一差值大于第二阈值，且第二差值大于所述第二阈值，确定所述目标音频帧为音频断点，所述第二阈值小于所述第一阈值。

16.根据权利要求15所述的音频检测装置，其特征在于，采样点第一获取单元具体用于：

17.根据权利要求10至14中任一项所述的音频检测装置，其特征在于，所述音频检测装置还包括：

音频片段获取单元，用于若所述比重大于预设能量阈值，获取所述目标音频帧的第一个采样点之前的前预设音频片段，以及所述目标音频帧的最后一个采样点之后的后预设音频片段；

能量值获取单元，用于获取所述前预设音频片段的第一能量值，以及所述后预设音频片段的第二能量值；

第三确定单元，用于若所述第一能量值大于第二预设能量阈值，且第二能量值大于所述第二预设能量阈值，确定所述目标音频帧为音频断点。

18.根据权利要求18所述的音频检测装置，其特征在于，音频片段获取单元具体用于：

19.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的音频检测方法中的步骤。