CN112233697B

CN112233697B - 音频数据检测方法、装置及音频数据检测设备

Info

Publication number: CN112233697B
Application number: CN202011426125.2A
Authority: CN
Inventors: 武德研; 邹露雨
Original assignee: Beijing Testin Information Technology Co Ltd
Current assignee: Beijing Testin Information Technology Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-04-13
Anticipated expiration: 2040-12-09
Also published as: CN112233697A

Abstract

本说明书实施例提供了音频数据检测方法、装置及音频数据检测设备，其中，一种音频数据检测方法包括：获取用户提交的音频采集指令；基于所述音频采集指令，采集静默时区以及用户发声时区的音频数据，在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线；判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线；若是，确定所述音频数据检测通过，以提升音频数据检测的准确度，并通过直观展示和提醒来提升用户采集音频数据的便捷性。

Description

音频数据检测方法、装置及音频数据检测设备

技术领域

本文件涉及数据处理技术领域，尤其涉及一种音频数据检测方法、装置及音频数据检测设备。

背景技术

随着语音交互技术的飞速发展，基于麦克风阵列的音频采集技术得到了广泛应用；音频采集，通常指录音，就是将人说话的声音录制下来形成音频。但音频采集中往往对音频质量有比较高的要求，比如环境底噪要小于多少分贝、说话能量值要大于多少分贝才算合格。

目前主流采集方法是：首先布置场地，提供好设备，然后召集采集人员到场地中来，最后对着麦克风进行录制。但由于麦克风没有检测底噪以及能量值的功能，那么为了使录制的音频符合要求，采集人员往往需要手持分贝仪来对其进行检测，依照分贝仪的数值来判断音频是否合格。

这种传统的采集方式，要布置场地，调配人员，实施流程繁琐复杂，再加上人工操作很难避免误差，即使手持分贝仪，但离声源或远或近都会对数值产生比较大的影响，最终导致录制的音频优劣不一，很难符合要求，通常会增加采集和质检成本。

发明内容

本说明书一个或多个实施例提供了一种音频数据检测方法。所述音频数据检测方法包括：

获取用户提交的音频采集指令；

基于所述音频采集指令，采集静默时区以及用户发声时区的音频数据，并在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线；

判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线；

若是，则确定所述音频数据检测通过。

可选的，所述采集静默时区以及用户发声时区的音频数据，并在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线，包括：

采集在第一静默时区的第一音频子数据，并在采集过程中根据所述第一音频子数据中包含的音频特征绘制第一波形段；

采集在所述用户发声时区的第二音频子数据，并在采集过程中根据所述第二音频子数据中包含的音频特征绘制第二波形段；

在检测到所述用户提交终止音频采集指令的情况下，采集在第二静默时区的第三音频子数据，并在采集过程中根据所述第三音频子数据中包含的音频特征绘制第三波形段。

可选的，在所述第一波形段绘制过程中向所述用户同步展示已绘制的第一波形段；在所述第二波形段绘制过程中向所述用户同步展示已绘制的第二波形段；在所述第三波形段绘制过程中向所述用户同步展示已绘制的第三波形段；

其中，所述音频数据由所述第一音频子数据、所述第二音频子数据以及所述第三音频子数据组成，相应的，所述音频波形线由所述第一波形段、所述第二波形段以及所述第三波形段组成，且所述第一波形段与所述第三波形段组成所述静默波形段，所述第二波形段为所述用户波形段。

可选的，还包括：

在检测到所述第一静默时区结束的情况下绘制第一标识线，向所述用户展示所述第一标识线，并在所述第一标识线所处的区域展示进入所述用户发声时区的提醒；

在检测到所述用户提交所述终止音频采集指令的情况下绘制第二标识线，向所述用户展示所述第二标识线，并在所述第二标识线所处的区域展示退出所述用户发声时区的提醒。

可选的，所述获取用户提交的音频采集指令步骤执行之后，且所述判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线步骤执行之前，还包括：

绘制所述底噪阈值线以及所述声音能量阈值线并向所述用户展示；

或者，

根据所述用户提交的底噪阈值以及声音能量阈值，绘制所述底噪阈值线以及所述声音能量阈值线并向所述用户展示。

可选的，所述在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线，包括：

在采集所述音频数据的过程中，对已采集的音频数据中包含的音频特征的特征值进行实时采样，获得各个采样点的采样特征值；

采用转换公式将所述各个采样点的采样特征值转换为分贝值；

根据所述各个采样点的分贝值，绘制所述音频波形线。

可选的，所述音频特征包括振幅，所述音频特征的特征值包括振幅值，所述采样特征值包括采样振幅值；

所述转换公式包括：所述分贝值等于所述采样振幅值取对数之后与转换常数的乘积。

根据所述各个采样点的采样特征值，绘制所述音频波形线。

可选的，若所述判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线步骤执行之后的执行结果为否，还包括：

向所述用户发送所述音频数据检测未通过的提醒，并清除所述音频波形线。

可选的，还包括：

向所述用户展示已绘制第一标识线以及第二标识线的波形图，并在所述第一标识线所在的区域展示进入所述用户发声时区的提醒，以及在所述第二标识线所在的区域展示退出所述用户发声时区的提醒。

本说明书一个或多个实施例提供了一种音频数据检测装置，包括：指令获取模块，被配置为获取用户提交的音频采集指令；采集模块，被配置为基于所述音频采集指令，采集静默时区以及用户发声时区的音频数据，并在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线；判断模块，被配置为判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线；若是，则运行确定模块，所述确定模块，被配置为确定所述音频数据检测通过。

本说明书一个或多个实施例提供了一种音频数据检测设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：获取用户提交的音频采集指令；基于所述音频采集指令，采集静默时区以及用户发声时区的音频数据，并在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线；判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线；若是，则确定所述音频数据检测通过。

本实施例提供的音频数据检测方法，首先获取用户提交的音频采集指令，在获取到音频采集指令的基础上，采集静默时区以及用户发声时区的音频数据，并在采集过程中根据音频数据中包含的音频特征的特征值绘制音频波形线，然后判断静默时区在音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且用户发声时区对应的用户波形段是否高于预设的声音能量阈值线，若是，则确定音频数据检测通过。以此节约音频数据检测的成本，提高采集到的音频数据的质量。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图；

图1为本说明书一个或多个实施例提供的一种音频数据检测方法处理流程图；

图2为本说明书一个或多个实施例提供的一种波形示意图；

图3为本说明书一个或多个实施例提供的一种应用于音频检测场景的音频数据检测方法处理流程图；

图4为本说明书一个或多个实施例提供的一种音频数据检测装置示意图；

图5为本说明书一个或多个实施例提供的一种音频数据检测设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

本说明书提供的一种音频数据检测方法实施例：

参照图1，其示出了本实施例提供的一种音频数据检测方法处理流程图，参照图2，其示出了本实施例提供的一种波形示意图；参照图3，其示出了本实施例提供的一种应用于音频检测场景的音频数据检测方法处理流程图。

参照图1，本实施例提供的音频数据检测方法具体包括下述步骤S102至步骤S108。

步骤S102，获取用户提交的音频采集指令。

本实施例提供的一种音频数据检测方法，在音频采集的过程中实时绘制音频波形线并以波形图的形式实时向用户进行展示，同时将底噪阈值以及声音能量阈值以两条横向标识线的方式绘制在波形图中，通过底噪阈值对应的底噪阈值线，使用户直观的感知静默时区的静默波形段是否低于底噪阈值线（即：静默时区采集的这部分音频数据中包含的音频特征的特征值是否低于底噪阈值），同时，通过声音能量阈值对应的声音能量阈值线，使用户直观的感知用户发声时区的用户波形段是否高于声音能量阈值线（即：用户发声时区采集的这部分音频数据中包含的音频特征的特征值是否高于声音能量阈值），最终在静默波形段低于底噪阈值线且用户波形段高于声音能量阈值线的情况下，确定采集的音频数据检测通过，以此从噪声与用户声音两个角度出发对音频数据进行检测，提升了音频数据检测的准确度，从而使最终采集的音频数据更加符合用户的需求，并且，通过在采集过程中的直观展示和提醒来提升用户采集音频数据的便捷性。

实际应用中，音频数据的检测往往都需要指定一定的判断条件，在检测到音频数据满足判断条件的情况下确定音频数据通过检测，为提升用户对音频数据采集过程以及检测过程的感知程度，本实施例提供的一种可选实施方式中，在获取到所述用户提交所述音频采集指令的情况下，执行如下操作：

或者，

本实施例中，将所述底噪阈值以及所述声音能量阈值作为音频数据的检测依据，具体而言，通过判断所述静默时区在所述音频波形线中对应的静默波形段是否低于所述底噪阈值线，并且所述用户发声时区对应的用户波形段是否高于所述声音能量阈值线，来判断所述音频数据是否满足合格条件；当所述静默时区在所述音频波形线中对应的静默波形段低于所述底噪阈值线，并且所述用户发声时区对应的用户波形段高于所述声音能量阈值线，则判定所述音频数据满足合格条件。

其中，底噪阈值以及声音能量阈值可提前配置；当音频数据检测过程中需要指定以其他的底噪阈值或者声音能量阈值为判断条件来判断音频数据是否合格时，用户可自定义需要的底噪阈值以及声音能量阈值。进一步，在检测到用户提交音频采集指令的情况下，若检测到用户未输入底噪阈值或者声音能量阈值，则根据提前配置的底噪阈值或者声音能量阈值绘制相应的底噪阈值线以及声音能量阈值线并进行展示；若检测到用户输入底噪阈值以及声音能量阈值时，则根据用户输入的底噪阈值以及声音能量阈值绘制相应的底噪阈值线以及声音能量阈值线并进行展示。

例如，用户A要采集底噪低于50分贝，声音能量高于65分贝的音频，这其中，50分贝即为底噪阈值，65分贝即为声音能量阈值，在用户A通过用户终端进行音频采集的过程中，在用户终端展示的波形图中纵坐标为50分贝处绘制横向标识线，如图2所示的底噪阈值线204，并在波形图中纵坐标为65分贝处绘制横向标识线，如图2所示的声音能量阈值线203。

需要说明的是，本实施例展示所述底噪阈值线以及所述声音能量阈值线是为了提升所述用户的感知程度，具体的，在向所述用户展示的波形图中绘制所述底噪阈值线以及所述声音能量阈值线；除此之外，还可以采用其他方式对用户进行提醒以提升用户的感知程度，比如语音提醒，或者语音与绘制结合提醒的方式。

步骤S104，基于所述音频采集指令，采集静默时区以及用户发声时区的音频数据，并在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线。

所述静默时区，是指所述用户未发声的时间区间；所述用户发声时区，是指所述用户发声的时间区间。如图2所示，静默时区包括第一静默时区以及第二静默时区，开始计时（0秒）至1秒的这一时区为第一静默时区，4秒至5秒的这一时区为第二静默时区，1秒至4秒的这一时区为用户发声时区。

所述音频特征，包括振幅、频率和/或强度；相应的，所述音频特征的特征值包括振幅值、频率值和/或强度值；除此之外，所述音频特征还可以是振幅、频率以及强度之外的其他音频特征，比如音量等；相应的，所述音频特征的特征值还可以是振幅值、频率值以及强度值之外的其他特征值，比如音量值等。

本实施例中，为了提升数据处理效率，同时也为了保障采集所述音频数据的过程中绘制并展示的波形线更具有实时性，对所述音频数据包含的音频特征的特征值进行采样，根据采样得到的采样特征值绘制所述音频波形线；比如，在音频特征的特征值为振幅值的情况下进行采样，获得采样振幅值，根据采样振幅值绘制音频波形线。

具体实施时，在获取到所述用户已提交所述音频采集指令的基础上，采集在所述静默时区以及在所述用户发声时区的音频数据，并且在采集的过程中实时地根据所述音频数据中包含的音频特征的特征值绘制音频波形线。当波形图中的纵坐标表示为分贝值，但采集到的音频数据包含的音频特征的特征值为其他特征值，为了提升音频数据检测的准确性以及有效性，本实施例提供的一种可选实施方式中，具体采用如下方式在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线：

根据所述各个采样点的分贝值，绘制所述音频波形线。

可选的，所述音频特征包括振幅，所述音频特征的特征值包括振幅值，所述采样特征值包括采样振幅值；所述转换公式包括：所述分贝值等于所述采样振幅值取对数之后与转换常数的乘积。例如，音频数据中包含的音频特征的特征值为振幅值，对采集到的振幅值进行采样获得采样振幅值，并将采样振幅值转换为分贝值，将采样振幅值转换为分贝值的具体转换公式如下：

其中，Y表示分贝值，X表示采样振幅值。

具体的，在采集用户A的音频数据的过程中，对已经采集到的音频数据进行实时采样并且确定了各个采样点的采样振幅值，但向用户展示的波形图中的纵坐标采用分贝值来表示，为了提升绘制的波形线的准确性，将各个采样点的采样振幅值通过转换公式转换为分贝值，再以各个采样点的分贝值为纵坐标数据，采样时间为横坐标数据绘制波形线。类似的，若对已经采集到的音频数据进行实时采样并且确定了各个采样点的采样分贝值，但向用户展示的波形图中的纵坐标采用振幅值来表示，为了提升绘制的波形线的准确性，将各个采样点的采样分贝值转换为振幅值，再以各个采样点的振幅值为纵坐标数据，采样时间为横坐标绘制波形线。需要说明的是，在绘制底噪阈值线与声音能量阈值线时，也要根据波形图的纵坐标进行相应的转换。

除此之外，为了在提升音频波形线的准确性以及有效性的基础上节省数据处理时间并且提升数据处理效率，本实施例提供的一种可选实施方式中，具体采用如下方式在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线：

根据所述各个采样点的采样特征值，绘制所述音频波形线。

具体实施时，为了使采集到的音频数据更加直观的展现，通过音频波形线的方式展示实际采集的音频数据，本实施例提供的一种可选实施方式中，基于所述音频采集指令，采集在第一静默时区的第一音频子数据，并在采集过程中根据所述第一音频子数据中包含的音频特征绘制第一波形段；

具体的，为了提升所述用户对所述音频数据的感知程度，可选的，在所述第一波形段绘制过程中向所述用户同步展示已绘制的第一波形段；在所述第二波形段绘制过程中向所述用户同步展示已绘制的第二波形段；在所述第三波形段绘制过程中向所述用户同步展示已绘制的第三波形段；

如图2所示，静默时区包括第一静默时区以及第二静默时区，0秒至1秒的这一时区为第一静默时区，4秒至5秒的这一时区为第二静默时区，1秒至4秒的这一时区为用户发声时区；具体的，0秒至1秒的波形曲线为第一波形段，1秒至4秒的波形曲线为第二波形段，4秒至5秒的波形曲线为第三波形段。

为进一步提升所述用户对所述音频数据的感知程度，本实施例提供的一种可选实施方式中，在检测到所述第一静默时区结束的情况下绘制第一标识线，向所述用户展示所述第一标识线，并在所述第一标识线所处的区域展示进入所述用户发声时区的提醒；

在检测到所述用户提交所述终止音频采集指令的情况下绘制第二标识线，向所述用户展示所述第二标识线，并在所述第二标识线所处的区域展示退出所述用户发声时区的提醒。如图2所示，在采集过程中当时间进行至1秒时绘制第一标识线201，并且展示进入发声时区的文字提醒信息“进入发声时区”；当时间进行至4秒时绘制第二标识线202，并且展示退出发声时区的文字提醒信息“退出发声时区”。

需要说明的是，绘制音频波形线的过程与采集音频数据以及展示音频波形线的过程是同步进行的，在采集音频数据的过程中实时根据已采集的音频数据中包含的音频特征的特征值绘制波形线，并且在绘制波形线的过程中实时地向用户展示已绘制的波形线；此外，根据静默时区的音频数据中包含的音频特征的特征值绘制的静默波形段与根据用户发声时区的音频数据中包含的音频特征绘制的用户波形段是连续的，且共同构成了音频波形线，所述音频波形线是指对采集的音频数据进行采样之后根据采样之后的音频特征的特征值以及采样时间绘制的波形线。

如图2所示，在获取到用户A提交音频采集指令的情况下，按照提前配置的在用户发声时区前一秒以及后一秒采集静默时区的音频数据的规则，在用户A按住音频采集指令的情况下，首先采集1秒的第一静默时区的音频数据，并且实时地根据采集的音频数据中包含的音频特征的特征值绘制波形线向用户A的用户终端进行展示，在检测到该静默时区的音频数据采集结束的情况下，绘制第一标识线201向用户A的用户终端展示，并且在第一标识线对应的区域向用户A展示进入用户发声时区的提醒，在绘制完第一标识线后，开始采集用户A发声时区的音频数据，并且实时地根据采集的音频数据中包含的音频特征的特征值绘制波形线向用户A的用户终端展示，在用户A松开音频采集指令的情况下再绘制第二标识线202向用户A的用户终端展示，并且在第二标识线对应的区域向用户A展示退出用户发声时区的提醒，在用户发声时区结束后，再采集1秒第二静默时区的音频数据，类似的，用相同的方法向用户A的用户终端展示波形线。

除此之外，为了提升用户体验，本实施例提供的一种可选实施方式中，在用户打开音频采集页面时，向所述用户展示已绘制第一标识线以及第二标识线的波形图，并在所述第一标识线所在的区域展示进入所述用户发声时区的提醒，以及在所述第二标识线所在的区域展示退出所述用户发声时区的提醒。

上述采集过程中，首先采集第一静默时区的音频数据，其次采集用户发声时区的音频数据，最后采集第二静默时区的音频数据，需要说明的是，在采集静默时区的音频数据与采集用户发声时区的音频数据的过程中，采集静默时区的音频数据与采集用户发声时区的音频数据的次数与顺序，并不限于上述采集过程。比如，先采集一个或多个静默时区的音频数据，再采集用户发声时区的音频数据；再比如，采集用户发声时区的音频数据与采集静默时区的音频数据交叉进行。具体采集静默时区的音频数据与采集用户发声时区的音频数据的次数与顺序，在此不做限定。此外，对于静默时区的时长以及用户发声时区的时长在此也不做限定。

步骤S106，判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线。

具体实施时，在对音频数据进行检测的过程中，需要根据预设的判断条件来判断音频数据是否检测通过，具体的，判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线（即：静默时区采集的音频数据中包含的音频特征的特征值是否低于预设的底噪阈值），且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线（即：用户发声时区采集的音频数据中包含的音频特征的特征值是否高于预设的声音能量阈值）；若判断结果为是，表明所述音频数据检测通过，即所述音频数据合格，执行下述步骤S108，确定所述音频数据检测通过；若判断结果为否，表明所述音频数据检测不通过，即所述音频数据不合格，向所述用户发送所述音频数据检测未通过的提醒，并清除所述音频波形线。

实际应用中，由于用户所处环境的噪音太大，影响用户发声时区的音频采集，本实施例提供的一种可选实施方式中，当判断所述静默时区在所述音频波形线中对应的静默波形段高于所述底噪阈值线，和/或，所述用户发声时区对应的用户波形段低于所述声音能量阈值线的情况下，判定所述音频数据检测不通过，即所述音频数据不合格，向所述用户发送所述音频数据检测未通过的提醒，并清除所述音频波形线。

例如，对根据采集的用户A的音频数据绘制的音频波形线进行判断，在判断音频波形线中静默时区对应的静默波形段低于预设的底噪阈值线，以及音频波形线中用户发声时区对应的用户波形段高于预设的声音能量阈值线的情况下，向用户A发送检测通过可继续录制的提醒；在判断音频波形线中静默时区对应的静默波形段高于预设的底噪阈值线，或者音频波形线中用户发声时区对应的用户波形段低于预设的声音能量阈值线的情况下，向用户A发送检测不通过的提醒，并清空向用户A展示的音频波形线。

具体而言，本实施例所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线，是指所述用户波形段中存在至少一个采样点的纵坐标（采样特征值）高于所述声音能量阈值线；其中，所述音频波形线中用户发声时区对应的波形线称为用户波形段。若所述用户波形段中存在至少一个采样点的采样特征值高于所述声音能量阈值线，则判定该用户波形段高于所述声音能量阈值线。

例如，对用户发声时区的音频数据进行采样之后获得采样点的数目为100个，依据这100个采样点的采样特征值绘制用户发声时区的用户波形段，这100个采样点中只要有任何一个或多个采样点的采样特征值高于声音能量阈值线，则判定用户发声时区的用户波形段高于声音能量阈值线。如图2所示，在1秒至4秒的用户发声时区，只要存在高于声音能量阈值线的波形，则认为用户波形段高于声音能量阈值线。

除此之外，在未绘制所述底噪阈值线以及所述声音能量阈值线的情况下，判断所述音频数据中所述静默时区对应的音频数据的音频特征的特征值是否小于预设的底噪阈值，且所述音频数据中所述用户发声时区对应的音频数据的音频特征的特征值是否大于预设的声音能量阈值，并根据判断结果向用户发送语音提醒。或者，判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线过程中，判断所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线这一实现，还可以被替换为判断所述用户发声时区对应的用户波形段是否满足声音能量阈值条件，其中，声音能量阈值条件包括所述用户波形段中存在至少一个采样点的采样特征值高于所述声音能量阈值。

步骤S108，确定所述音频数据检测通过。

具体实施时，在所述静默时区在所述音频波形线中对应的静默波形段低于所述底噪阈值线，且所述用户发声时区对应的用户波形段高于所述声音能量阈值线的情况下，确定所述音频数据检测通过，即所述音频数据合格，在确定所述音频数据检测通过的情况下，向所述用户发送所述音频数据检测通过以及可继续录制的提醒。

下述结合附图3，以本实施例提供的音频数据检测方法在音频检测场景的应用为例，对本实施例提供的音频数据检测方法进行进一步说明。参照图3，应用于音频检测场景的音频数据检测方法具体包括步骤S302至步骤S322。

步骤S302，获取用户提交的音频采集指令。

步骤S304，基于音频采集指令，绘制底噪阈值线以及声音能量阈值线。

步骤S306，采集第一静默时区的第一音频子数据，根据已采集的音频子数据中包含的振幅值绘制第一波形段并向用户展示。

步骤S308，在第一静默时区结束时绘制第一标识线并向用户展示。

步骤S310，采集用户发声时区的第二音频子数据，根据已采集的音频子数据中包含的振幅值绘制第二波形段并向用户展示。

步骤S312，在检测到用户提交终止音频采集指令的情况下，绘制第二标识线并向用户展示。

步骤S314，采集第二静默时区的第三音频子数据，根据已采集的音频子数据中包含的振幅值绘制第三波形段并向用户展示。

其中，第一音频子数据、第二音频子数据以及第三音频子数据组成了音频数据；第一波形段、第二波形段以及第三波形段组成了音频波形线。

步骤S316，判断第一波形段与第三波形段是否低于底噪阈值线，且第二波形段是否高于声音能量阈值线；

若是，则执行步骤S318；

若否，则执行步骤S320至步骤S322。

步骤S318，确定音频数据检测通过并向用户发送已通过的提醒。

步骤S320，确定音频数据检测未通过并向用户发送未通过的提醒。

步骤S322，清空向用户展示的音频波形线，并在清空后执行步骤S302。

综上所述，本实施例提供的音频数据检测方法，首先获取用户提交的音频采集指令，在获取到音频采集指令的基础上，采集静默时区以及用户发声时区的音频数据，并在采集过程中根据音频数据中包含的音频特征的特征值绘制音频波形线，然后判断静默时区在音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且用户发声时区对应的用户波形段是否高于预设的声音能量阈值线，若是，则确定音频数据检测通过。以此节约音频数据检测的成本，提高采集到的音频数据的质量。

本说明书提供的一种音频数据检测装置实施例如下：

在上述的实施例中，提供了一种音频数据检测方法，与之相对应的，还提供了一种音频数据检测装置，下面结合附图进行说明。

参照图4，其示出了本实施例提供的一种音频数据检测装置示意图。

由于装置实施例对应于方法实施例，所以描述得比较简单，相关的部分请参照上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例提供一种音频数据检测装置，包括：

指令获取模块402，被配置为获取用户提交的音频采集指令；

采集模块404，被配置为基于所述音频采集指令，采集静默时区以及用户发声时区的音频数据，并在采集过程中根据所述音频数据中包含的音频特征绘制音频波形线；

判断模块406，被配置为判断所述静默时区在所述音频波形线中对应的静默波形段是否低于预设的底噪阈值线，且所述用户发声时区对应的用户波形段是否高于预设的声音能量阈值线；

若是，则运行确定模块408，所述确定模块，被配置为确定所述音频数据检测通过。

可选的，所述采集模块，包括：

第一采集子模块，被配置为采集在第一静默时区的第一音频子数据，并在采集过程中根据所述第一音频子数据中包含的音频特征绘制第一波形段；

第二采集子模块，被配置为采集在所述用户发声时区的第二音频子数据，并在采集过程中根据所述第二音频子数据中包含的音频特征绘制第二波形段；

第三采集子模块，被配置为在检测到所述用户提交终止音频采集指令的情况下，采集在第二静默时区的第三音频子数据，并在采集过程中根据所述第三音频子数据中包含的音频特征绘制第三波形段。

可选的，所述音频数据检测装置，还包括：

第一标识线绘制模块，被配置为在检测到所述第一静默时区结束的情况下绘制第一标识线，向所述用户展示所述第一标识线，并在所述第一标识线所处的区域展示进入所述用户发声时区的提醒；

第二标识线绘制模块，被配置为在检测到所述用户提交所述终止音频采集指令的情况下绘制第二标识线，向所述用户展示所述第二标识线，并在所述第二标识线所处的区域展示退出所述用户发声时区的提醒。

可选的，所述音频数据检测装置，还包括：

阈值线绘制模块，被配置为绘制所述底噪阈值线以及所述声音能量阈值线并向所述用户展示；

用户阈值线绘制模块，被配置为根据所述用户提交的底噪阈值以及声音能量阈值，绘制所述底噪阈值线以及所述声音能量阈值线并向所述用户展示。

可选的，所述采集模块，包括：

采样子模块，被配置为在采集所述音频数据的过程中，对已采集的音频数据中包含的音频特征的特征值进行实时采样，获得各个采样点的采样特征值；

转换子模块，被配置为采用转换公式将所述各个采样点的采样特征值转换为分贝值；

波形线绘制子模块，被配置为根据所述各个采样点的分贝值，绘制所述音频波形线。

可选的，所述采集模块，包括：

音频特征确定子模块，被配置为在采集所述音频数据的过程中，对已采集的音频数据中包含的音频特征的特征值进行实时采样，获得各个采样点的采样特征值；

音频波形线绘制子模块，被配置为根据所述各个采样点的采样特征值，绘制所述音频波形线。

可选的，所述音频数据检测装置，还包括：

清除模块，被配置为向所述用户发送所述音频数据检测未通过的提醒，并清除所述音频波形线。

可选的，所述音频数据检测装置，还包括：

提醒模块，被配置为向所述用户展示已绘制第一标识线以及第二标识线的波形图，并在所述第一标识线所在的区域展示进入所述用户发声时区的提醒，以及在所述第二标识线所在的区域展示退出所述用户发声时区的提醒。

本说明书提供的一种音频数据检测设备实施例如下：

对应上述描述的一种音频数据检测方法，基于相同的技术构思，本说明书一个或多个实施例还提供一种音频数据检测设备，该设备用于执行上述的一种音频数据检测方法，图5为本说明书一个或多个实施例提供的一种音频数据检测设备的结构示意图。

如图5所示，音频数据检测设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器501和存储器502，存储器502中可以存储有一个或一个以上存储应用程序或数据。其中，存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块（图示未示出），每个模块可以包括音频数据检测设备中的一系列计算机可执行指令。更进一步地，处理器501可以设置为与存储器502通信，在音频数据检测设备上执行存储器502中的一系列计算机可执行指令。音频数据检测设备还可以包括一个或一个以上电源503，一个或一个以上有线或无线网络接口504，一个或一个以上输入输出接口505，一个或一个以上键盘506等。

在一个具体的实施例中，音频数据检测设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对音频数据检测设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取用户提交的音频采集指令；

若是，则确定所述音频数据检测通过。

可选的，计算机可执行指令在被执行时，还包括：

或者，

根据所述各个采样点的分贝值，绘制所述音频波形线。

根据所述各个采样点的采样特征值，绘制所述音频波形线。

可选的，计算机可执行指令在被执行时，还包括：

上述对本说明书特征实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特征顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪30年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device，PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特征的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特征方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器（CPU）、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flash RAM）。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特征任务或实现特征抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

1.一种音频数据检测方法，包括：

获取用户提交的音频采集指令；

基于所述音频采集指令，采集静默时区的第一音频子数据并根据所述第一音频子数据中包含的音频特征绘制第一波形段，在检测到所述静默时区结束的情况下绘制标识线；

采集用户发声时区的第二音频子数据并根据所述第二音频子数据中包含的音频特征绘制第二波形段；

判断所述第一波形段是否低于预设的底噪阈值线，且所述第二波形段是否高于预设的声音能量阈值线；

若是，则确定音频数据检测通过。

2.根据权利要求1所述的音频数据检测方法，还包括：

3.根据权利要求2所述的音频数据检测方法，在所述第一波形段绘制过程中向所述用户同步展示已绘制的第一波形段；在所述第二波形段绘制过程中向所述用户同步展示已绘制的第二波形段；在所述第三波形段绘制过程中向所述用户同步展示已绘制的第三波形段；

其中，所述第一音频子数据、所述第二音频子数据以及所述第三音频子数据组成音频数据，相应的，所述第一波形段、所述第二波形段以及所述第三波形段组成音频波形线。

4.根据权利要求2所述的音频数据检测方法，还包括：

向所述用户展示所述标识线，并在所述标识线所处的区域展示进入所述用户发声时区的提醒；

5.根据权利要求1所述的音频数据检测方法，所述获取用户提交的音频采集指令步骤执行之后，且所述判断所述第一波形段是否低于预设的底噪阈值线，且所述第二波形段是否高于预设的声音能量阈值线步骤执行之前，还包括：

或者，

6.根据权利要求1所述的音频数据检测方法，包含所述第一波形段和所述第二波形段的音频波形线，采用如下方式绘制：

在采集音频数据的过程中，对已采集的音频数据中包含的音频特征的特征值进行实时采样，获得各个采样点的采样特征值；所述音频数据包含所述第一音频子数据与所述第二音频子数据；

根据所述各个采样点的分贝值，绘制所述音频波形线。

7.根据权利要求6所述的音频数据检测方法，所述音频特征包括振幅，所述音频特征的特征值包括振幅值，所述采样特征值包括采样振幅值；

8.根据权利要求1所述的音频数据检测方法，包含所述第一波形段和所述第二波形段的音频波形线，采用如下方式绘制：

根据所述各个采样点的采样特征值，绘制所述音频波形线。

9.根据权利要求1所述的音频数据检测方法，若所述判断所述第一波形段是否低于预设的底噪阈值线，且所述第二波形段是否高于预设的声音能量阈值线步骤执行之后的执行结果为否，还包括：

向所述用户发送音频数据检测未通过的提醒，并清除音频波形线；所述音频波形线包含所述第一波形段与所述第二波形段。

10.根据权利要求1所述的音频数据检测方法，还包括：

11.一种音频数据检测装置，包括：

指令获取模块，被配置为获取用户提交的音频采集指令；

采集模块，被配置为基于所述音频采集指令，采集静默时区的第一音频子数据并根据所述第一音频子数据中包含的音频特征绘制第一波形段，在检测到所述静默时区结束的情况下绘制标识线；采集用户发声时区的第二音频子数据并根据所述第二音频子数据中包含的音频特征绘制第二波形段；

判断模块，被配置为判断所述第一波形段是否低于预设的底噪阈值线，且所述第二波形段是否高于预设的声音能量阈值线；

若是，则运行确定模块，所述确定模块，被配置为确定音频数据检测通过。

12.一种音频数据检测设备，包括：

处理器；以及，

被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：

获取用户提交的音频采集指令；

若是，则确定音频数据检测通过。