CN109346102A

CN109346102A - 音频开头爆音的检测方法、装置及存储介质

Info

Publication number: CN109346102A
Application number: CN201811089089.8A
Authority: CN
Inventors: 王征韬
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-02-15
Anticipated expiration: 2038-09-18
Also published as: CN109346102B

Abstract

本发明公开了一种音频开头爆音的检测方法、装置及存储介质，所述方法包括：获取训练样本，并对训练样本进行预处理，以获取多个不同尺度的音频子片段，然后将多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图，再将多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数，并根据多个不同尺度的特征图与特征融合参数生成检测模型，其中检测模型包括训练后的第一参考模型与第二参考模型，最后基于检测模型对待测音频进行音频开头爆音的检测，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

Description

音频开头爆音的检测方法、装置及存储介质

技术领域

本发明实施例涉及音频处理领域，尤其涉及移动设备技术领域，具体涉及一种音频开头爆音的检测方法、装置及存储介质。

背景技术

开头爆音是一种常见的音频瑕疵，通常由编码器产生，也可能由录音不慎而产生，比如意外的摩擦等。开头爆音会影响用户的听歌体验。另外，开头爆音具有形式多样、位置多变的特点，而且有些音频的正常音效具有与开头爆音相似的特征，使得开头爆音的检测难度较大，检测的准确度较低。

发明内容

本发明实施例提供一种音频开头爆音的检测方法、装置及存储介质，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

本发明实施例提供一种音频开头爆音的检测方法，所述方法包括：

获取训练样本；

对所述训练样本进行预处理，以获取多个不同尺度的音频子片段；

将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图；

将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数；

根据所述多个不同尺度的特征图与特征融合参数生成检测模型，其中所述检测模型包括训练后的所述第一参考模型与第二参考模型；

基于所述检测模型对待测音频进行音频开头爆音的检测。

本发明实施例还提供一种音频开头爆音的检测装置，所述装置包括：

获取模块，用于获取训练样本；

预处理模块，用于对所述训练样本进行预处理，以获取多个不同尺度的音频子片段；

提取模块，用于将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图；

融合模块，用于将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数；

生成模块，用于根据所述多个不同尺度的特征图与特征融合参数生成检测模型，其中所述检测模型包括训练后的所述第一参考模型与第二参考模型；

检测模块，用于基于所述检测模型对待测音频进行音频开头爆音的检测。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，执行本发明实施例所提供的任一种所述的音频开头爆音的检测方法中的步骤。

本发明实施例通过获取训练样本，并对训练样本进行预处理，以获取多个不同尺度的音频子片段，然后将多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图，再将多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数，并根据多个不同尺度的特征图与特征融合参数生成检测模型，其中检测模型包括训练后的第一参考模型与第二参考模型，最后基于检测模型对待测音频进行音频开头爆音的检测。本发明实施例通过利用第一参考模型提取出多个不同尺度的特征图，并利用第二参考模型对多个不同尺度的特征图进行特征融合训练，得到特征融合参数，然后将特征图以及特征融合参数再融入到对应参考模型中以得到检测模型，并基于检测模型进行音频检测，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频开头爆音的检测装置的系统示意图。

图2为本发明实施例提供的一种音频开头爆音的检测方法的流程示意图。

图3为本发明实施例提供的一种音频开头爆音的检测方法的另一流程示意图。

图4为本发明实施例提供的一种音频开头爆音的检测方法的另一流程示意图。

图5为本发明实施例提供的一种音频开头爆音的检测方法的另一流程示意图。

图6为本发明实施例提供的一种音频开头爆音的检测方法的另一流程示意图。

图7为本发明实施例提供的一种音频开头爆音的检测方法的另一流程示意图。

图8为本发明实施例提供的深度学习网络的网络拓扑结构图。

图9为本发明实施例提供的基本处理单元的网络拓扑结构图。

图10为本发明实施例提供的一种音频开头爆音的检测装置的结构示意图。

图11为本发明实施例提供的一种音频开头爆音的检测装置的另一结构示意图。

图12为本发明实施例提供的一种音频开头爆音的检测装置的另一结构示意图。

图13为本发明实施例提供的一种音频开头爆音的检测装置的另一结构示意图。

图14为本发明实施例提供的一种音频开头爆音的检测装置的另一结构示意图。

图15为本发明实施例提供的一种服务器的结构示意图。

图16为本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

开头爆音是一种常见的音频瑕疵，通常由编码器产生，也可能由录音不慎而产生，比如意外的摩擦等。开头爆音会影响用户的听歌体验，因此需要通过对音频开头爆音的检测以完善曲库音频质量的管理。另外，开头爆音具有形式多样、位置多变的特点，使得开头爆音的检测难度较大，而且有些音频的正常音效具有与开头爆音相似的特征，进一步增大识别难度。因而，本发明实施例提供了一种音频开头爆音的检测方法、装置及存储介质，基于深度学习网络进行模型训练，利用第一参考模型提取出多个不同尺度的特征图，并利用第二参考模型对多个不同尺度的特征图进行特征融合训练，得到特征融合参数，然后将特征图以及特征融合参数再融入到对应参考模型中以得到检测模型，并基于检测模型进行音频检测，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

本发明实施例提供的音频开头爆音的检测方法，可实现在音频开头爆音的检测装置中，该音频开头爆音的检测装置具体可以集成在电子设备或其他具有音视频数据处理功能的设备中，电子设备包括但不限于智能电视，智能音箱等设备。

请参阅图1，图1为本发明实施例提供的一种音频开头爆音的检测装置的系统示意图。该音频开头爆音的检测装置主要用于：预先获取训练样本，然后利用第一参考模型提取出多个不同尺度的特征图，并利用第二参考模型对多个不同尺度的特征图进行特征融合训练，得到特征融合参数，然后将特征图以及特征融合参数再融入到对应参考模型中以得到检测模型，若接收到待测音频，则通过所述检测模型对所述待测音频进行音频检测，以生成检测结果，并根据检测结果判定所述待测音频是否存在音频开头爆音的情形。比如所述检测模型输出的检测结果经过sigmoid激活函数处理后，将输出变量映射到0至1之间，当检测结果不小于预设阈值时判定为所述待测音频存在音频开头爆音的情形，当检测结果小于预设阈值时判定为所述待测音频不存在音频开头爆音的情形，其中，所述预设阈值可以人为设定，例如设置sigmoid激活函数的预设阈值为0.5。本发明实施例通过利用第一参考模型提取出多个不同尺度的特征图，并利用第二参考模型对多个不同尺度的特征图进行特征融合训练，得到特征融合参数，然后将特征图以及特征融合参数再融入到对应参考模型中以得到检测模型，并基于检测模型进行音频检测，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

需要说明的是，参考模型的训练过程可以在服务器端也可以在电子设备端完成。当参考模型的训练过程、实际检测过程都在服务器端完成时，需要使用由训练后的参考模型形成的检测模型时，可以将待测音频以及待测音频对应的多个不同尺度的特征图输入到服务器，服务器实际检测完成后，将检测结果发送至电子设备端，电子设备再根据检测结果判定待测音频是否存在音频开头爆音的情形。

当参考模型的训练过程、实际检测过程都在电子设备端完成时，需要使用由训练后的参考模型形成的检测模型时，可以将待测音频以及待测音频对应的多个不同尺度的特征图输入到电子设备，电子设备实际检测完成后，电子设备根据检测结果判定待测音频是否存在音频开头爆音的情形。

当参考模型的训练过程在服务器端完成，参考模型的实际检测过程在电子设备端完成时，需要使用由训练后的参考模型形成的检测模型时，可以将待测音频以及待测音频对应的多个不同尺度的特征图输入到电子设备，电子设备实际检测完成后，电子设备根据检测结果判定待测音频是否存在音频开头爆音的情形。可选的，可以将训练好的检测模型文件(model文件)移植到电子设备上，若需要对输入的待测音频进行音频检测，则将待测音频输入到训练好的检测模型文件(model文件)，通过计算即可得到检测结果。

以下将分别进行详细说明，以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。

请参阅图2至图6，图2至图6均为本发明实施例提供的一种音频开头爆音的检测方法的流程示意图。所述方法包括：

步骤101，获取训练样本。

其中，所述训练样本可以包括已标记的开头爆音样本和非开头爆音样本。

其中，获取到的音频数据的训练样本，可以是未经压缩的数据，这样电子设备端或者服务器端就避免了解压缩的操作，以此保证较高的声音还原度，且提高了数据处理效率。

步骤102，对所述训练样本进行预处理，以获取多个不同尺度的音频子片段。

例如，开头爆音在音频波形图上具有很明显的特征，但是不同的训练样本可能存在多种格式及不同时域长度，因此为了更方便数据的训练，在训练前需对训练样本中的音频原始数据进行预处理。

在一些实施例中，如图3所示，步骤102可以通过步骤1021至步骤1023来实现，具体为：

步骤1021，按照预设采样率对所述训练样本进行数据规整，以保留所述训练样本的双声道信号。

在一些实施例中，若所述训练样本为单声道信号，则对所述训练样本的单声道信号进行复制处理，以得到处理后的所述训练样本的双声道信号。

例如，首先可以按照预设采样率对训练样本的音频原始数据进行数据规整，以保留音频原始数据的双声道信号，如果音频原始数据本身是单声道信号，则可以通过复制其单声道信号以使得训练样本成为双声道信号。例如，规整采样率到44100Hz。

步骤1022，截取开头预设时长对应的音频片段。

在一些实施例中，若所述训练样本的总时长小于所述预设时长，则对所述训练样本进行补零，以使得所述训练样本的总时长达到所述预设时长。

例如，规整采样率到44100Hz，预设时长为5秒，截取训练样本前5秒的音频片段作为待分析数据。如果训练样本的总时长不足5秒，则补0到5秒，此时得到的音频片段为形如(220500，2)的数据，即得到的音频片段为双声道，每个声道具有220500个样本点。

步骤1023，按照时间顺序将所述音频片段分割为多个不同尺度的音频子片段。

然后，按照时间顺序将所述音频片段分割为多个不同尺度的音频子片段，例如以3为步长进行音频分割，每个音频子片段包括时间依次连续的3个采样点的数据，以获得在时域上处于不同尺度的多个音频子片段。

步骤103，将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图。

在一些实施例中，所述第一参考模型包括多个不同尺度的基本处理单元，可以将所述多个不同尺度的音频子片段分别输入对应尺度的所述基本处理单元中进行不同尺度的特征提取，以提取出多个不同尺度的特征图。

其中，开头爆音在时间上一般集中在一定的区域内，比如一般集中在5-40个样本点内，开头爆音的波形也有一定规律。所述第一参考模型可以为一组多尺度滤波器组，其中该多尺度滤波器组可以包括多个不同尺度的基本处理单元，所述多个不同尺度的基本处理单元能对不同尺度的开头爆音的波形有较强响应，但能抑制正常波形。

其中，基本处理单元的数目可以根据经验值设定，比如，一方面需要考虑太多数目的基本处理单元可能导致计算缓慢，另一方面又要让基本处理单元的尺度可以覆盖所有可能的爆音信号长度，例如开头爆音在时间上一般集中在5-40个样本点内，则这里在设计基本处理单元时，可以按照从5到40的样本点，以3为步长，共设计12个基本处理单元。

在一些实施例中，所述基本处理单元可以为二维卷积单元，可以通过每一对应的所述二维卷积单元对所述多个不同尺度的音频子片段的双声道信号按照时间尺度进行卷积，以使得每一所述二维卷积单元输出一个与对应尺度的音频子片段的双声道信号的大小相同的特征图，其中，所述特征图表示所述音频片段在不同时间尺度上与所述二维卷积单元的卷积核的相关性。

例如，经过预处理的音频子片段是双声道信号，则所述基本处理单元可以形如(1，x)的二维(2D)卷积单元。其中，2D卷积的行为实质上是对两个声道的数据按时间卷积。双声道信号可以一起输入2D卷积单元中进行处理，每个2D卷积滤波后输出的结果是一个与原数据同样大小的特征图，即，2D卷积单元输出一个与对应尺度的音频子片段的双声道信号的大小相同的特征图，所述特征图具有明确的物理含义，所述特征图可以表征原信号在各个时间点上与卷积核的相关性，卷积核感兴趣的区域将会表现为一个尖峰或谷底，卷积核不感兴趣的区域则趋向于平坦。通过变换x的数值，可以获得一组对应不同尺度的滤波器组。其中，所述卷积核为所述2D卷积单元的卷积模板，该卷积核为从随机数初始化后自适应得到训练。x数值可以表示时域上不同尺度的音频子片段所属的样本点。

例如，该2D卷积单元可以包含有两个卷积核，一个卷积核负责传输数据，另一个卷积核经过sigmoid激活函数映射后成为一张各个点均为0～1之间数值的参数，后一个卷积核的输出值与后一个卷积核的输出值相乘，可以起到有针对性的选择前一个卷积核传输的数据的作用。

在一些实施例中，除了上述描述的双声道信号一起处理的实施例之外，所述第一参考模型中的基本处理单元可以为一维(1D)卷积单元，可以通过每一对应的所述1D卷积单元对所述多个不同尺度的待测音频子片段的每个声道信号按照时间尺度进行卷积，双声道信号中的每一声道信号单独输入1D卷积单元中进行检测训练，检测到任何一个声道有开头爆音被认为该待测音频存在开头爆音。

在一些实施例中，所述基本处理单元可以包括滤波子单元、门控子单元和混合子单元。其中，该基本处理单元也可以看作是多尺度滤波器组中的滤波器单元，为了加强滤波器的效果，可以将简单的滤波器单元改造为带有注意力机制的门控滤波器单元，每个基本处理单元可以包括滤波子单元、门控子单元和混合子单元。其中，所述滤波子单元用于对音频子片段进行滤波，所述门控子单元用于对从滤波子单元输出的数据进行门控，所述混合子单元用于对所述门控子单元输出的数据进行混合处理。

如图4所示，步骤103可以通过步骤1031至步骤1034来实现，具体为：

步骤1031，将所述多个不同尺度的音频子片段输入对应的滤波子单元进行滤波处理，以得到所述滤波子单元的输出特征图。

步骤1032，将所述多个不同尺度的音频子片段输入对应的门控子单元进行数据处理，以得到所述门控子单元的输出特征图。

步骤1033，将所述门控子单元的输出特征图经过sigmoid激活函数的映射处理后，与所述滤波子单元的输出特征图进行逐元素相乘，以得到乘积参数。

步骤1034，将所述乘积参数输入所述混合子单元中进行混合处理，以得到所述多个不同尺度的音频子片段中每一所述音频子片段在对应尺度下的特征图。

例如，将每一不同尺度的音频子片段作为输入信号，其中，所述滤波子单元与门控子单元可以为两个尺寸完全相同的滤波器，所述滤波子单元负责传输数据，门控子单元负责门控，即在深度学习网络中，滤波子单元用于学习数据，门控子单元用于学习数据的重要性。输入信号分别经过所述两个尺寸完全相同的滤波器处理后得到两个输出特征图，负责门控的门控子单元的输出特征图经过sigmoid激活函数后被映射为0～1之间的映射值，这些映射值与负责滤波的滤波子单元的输出特征图逐元素相乘，起到注意力机制的作用。最后，经过相乘后的输出数据再经过混合子单元处理后被混合为单通道信号，该混合子单元最终输出的单通道信号反映的是在当前尺度下原信号的特征，即所述单通道信号为所述多个不同尺度的音频子片段中每一所述音频子片段在对应尺度下的特征图。其中，所述混合子单元可以为一维(1D)卷积单元。

步骤104，将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数。

例如，特征融合的方式可以包括如下几种：

第一种是简单的将特征进行组合，即将所有的特征向量，按照串行或者并行的方法组合在一起，构成新的特征向量；

第二种是特征选择，即从新组合的特征向量中，对应的每一维数据中都选择出一个对分类最优的数据，最后把选择出来的数据组成新的特征；

第三种是特征变换，即将所有的特征向量放在一起，使用一定的数学方法变换为一种全新的特征表达方式。

特征融合的手段也可以包括前期融合和后期融合。其中，前期融合为将多个特征向量机进行特征拼接，且不同的特征向量对齐加权求和。后期融合为不同特征模型输出的概率的加权融合，使用前期融合的特征向量对已生成的神经网络模型进行微调。例如，多核学习(MKL)属于后期融合的一种，通过对不同的特征向量采取不同的核，对不同的参数组成多个核，然后训练每个核的权重，选出最佳核函数组合作为特征融合参数，来进行分类。

在将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练的过程中，可以采用上述任一特征融合的方式或手段进行训练，以得到对开头爆音的检测较优的特征融合参数。其中，所述特征图为特征向量的一种表现形式。

在一些实施例中，所述第二参考模型可以为一维(1D)卷积神经网络，可以将多个不同尺度的特征图输入作为第二参考模型的1D卷积神经网络中进行特征融合训练，以得到训练后的特征融合参数。

步骤105，根据所述多个不同尺度的特征图与特征融合参数生成检测模型，其中所述检测模型包括训练后的所述第一参考模型与第二参考模型。

其中，所述检测模型可以由训练后的所述第一参考模型与第二参考模型组成，输入信号依次经过训练后的所述第一参考模型以及训练后的所述第二参考模型后得到的输出数据，作为该检测模型的检测结果。

在一些实施例中，所述检测模型还包括全连接网络以及sigmoid激活函数，如图5所示，步骤105可以通过步骤1051至步骤1054来实现，具体为：

步骤1051，根据所述多个不同尺度的特征图调整所述第一参考模型，以得到训练后的所述第一参考模型。

其中，第一参考模型可以为可训练的参考模型，在不断的深度学习训练过程中根据输出的所述多个不同尺度的特征图与已标记的训练样本之间的回归反馈，对该第一参考模型进行调整和优化，以使得该第一参考模型可以有效提取出多个不同尺度的特征图。

步骤1052，根据所述特征融合参数调整所述第二参考模型，以得到训练后的所述第二参考模型。

其中，第二参考模型可以为可训练的参考模型，在不断的深度学习训练过程中根据输出的所述特征融合参数与已标记的训练样本之间的回归反馈，对该第二参考模型进行调整和优化，以使得该第二参考模型可以得到优化后的特征融合参数。

步骤1053，将所述特征融合参数经过所述全连接网络以及sigmoid激活函数调整后得到的数据，作为所述检测模型的输出数据。

其中，可以在第二参考模型的输出端接入全连接网络，然后全连接网络与sigmoid激活函数连接，sigmoid激活函数可以将输出变量映射到0至1之间，第二参考模型输出的所述特征融合参数经过所述全连接网络以及sigmoid激活函数调整后得到的数据，可以作为所述检测模型的输出数据。

在一些实施例中，可以在所述全连接网络中添加规范化层，以对所述全连接网络进行规范化处理，以加速网络收敛。其中，所述规范化层可以为BatchNormalization层，其在采用梯度下降法训练深度学习网络模型时，对网络层中每个输出的神经元数据进行归一化，使其均值变为0，方差变为1，其主要作用是缓解深度学习网络模型训练中的梯度消失/爆炸现象，加快模型的训练速度。通过规范化层后，所有神经元都规范化到了一种分布，即将神经元的输出规范化到均值为0，方差为1，防止了梯度弥散，加速网络收敛，同时有一定抑制过拟合的作用。

在一些实施例中，可以在所述全连接网络中添加预设比例的随机失活层，在训练所述全连接神经网络的过程中随机冻结所述预设比例对应的神经元，以抑制过拟合现象。其中，所述随机失活层可以为Dropout层，例如所述Dropout层的预设比例为0.45，在训练所述全连接神经网络的过程中，可以按照0.45的比例随机冻结某些神经元，即随机让全连接神经网络中某些隐含层节点的神经元不工作，Dropout层消除减弱了神经元节点间的联合适应性，增强了泛化能力，防止模型过拟合，dropout是可以确保深度学习网络模型在丢失一个个体线索的情况下保持健壮的网络模型，可以减少权重连接，增加网络模型在缺失个体连接信息情况下的鲁棒性。

步骤1054，根据所述训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数，生成所述检测模型。

其中，所述检测模型可以由训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数组成，输入信号依次经过训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数后得到的输出数据，作为该检测模型的检测结果。

步骤106，基于所述检测模型对待测音频进行音频开头爆音的检测。

在一些实施例中，如图6所示，步骤106可以通过步骤1061至步骤1066来实现，具体为：

步骤1061，获取待测音频；

步骤1062，对所述待测音频进行预处理，以获取多个不同尺度的待测音频子片段；

步骤1063，将所述多个不同尺度的待测音频子片段输入所述训练好的所述第一参考模型中进行特征提取，以提取出所述待测音频的多个不同尺度的特征图；

步骤1064，将所述待测音频的多个不同尺度的特征图输入所述训练好的所述第二参考模型中进行特征融合，以得到所述待测音频的特征融合参数；

步骤1065，将所述待测音频的特征融合参数经过所述全连接网络以及sigmoid激活函数处理后，得到检测结果；

步骤1066，根据所述检测结果判定所述待测音频是否存在音频开头爆音的情形。

其中，检测的过程与训练的过程相似，此处不再详细赘述。当接收到待测音频时，所述待侧音频依次经过训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数后得到的输出数据，作为该检测模型的检测结果，当检测结果不小于预设阈值时判定所述待测音频存在音频开头爆音的情形，当检测结果小于预设阈值时判定所述待测音频不存在音频开头爆音的情形。其中，所述预设阈值可以人为设定，例如设置sigmoid激活函数的预设阈值为0.5，在网络得到充分训练的情况下一般不会加以调整。在网络训练不是很到位的情况下，例如样本分布不均匀，也可以根据实验结果取一个在验证集上正确率更高的一个阈值，这是在网络训练结束后提高性能的一个诀窍。

上述所有的技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

本发明实施例提供的音频开头爆音的检测方法，通过获取训练样本，并对训练样本进行预处理，以获取多个不同尺度的音频子片段，然后将多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图，再将多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数，并根据多个不同尺度的特征图与特征融合参数生成检测模型，其中检测模型包括训练后的第一参考模型与第二参考模型，最后基于检测模型对待测音频进行音频开头爆音的检测。本发明实施例通过利用第一参考模型提取出多个不同尺度的特征图，并利用第二参考模型对多个不同尺度的特征图进行特征融合训练，得到特征融合参数，然后将特征图以及特征融合参数再融入到对应参考模型中以得到检测模型，并基于检测模型进行音频检测，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

请参阅图7，图7为本发明实施例提供的一种音频开头爆音的检测方法的另一流程示意图。所述方法包括：

步骤201，获取训练样本。

步骤202，对所述训练样本进行预处理，以获取多个不同尺度的音频子片段。

例如，开头爆音在音频波形图上具有很明显的特征，但是不同的训练样本可能存在多种格式及不同时域长度，因此为了更方便数据的训练，在训练前需对训练样本中的音频原始数据进行预处理。例如，首先可以按照预设采样率对训练样本的音频原始数据进行数据规整，以保留音频原始数据的双声道信号，如果音频原始数据本身是单声道信号，则可以通过复制其单声道信号以使得训练样本成为双声道信号。例如，规整采样率到44100Hz，预设时长为5秒，截取训练样本前5秒的音频片段作为待分析数据。如果训练样本的总时长不足5秒，则补0到5秒，此时得到的音频片段为形如(220500，2)的数据，即得到的音频片段为双声道，每个声道具有220500个样本点。然后，按照时间顺序将所述音频片段分割为多个不同尺度的音频子片段，例如以3为步长进行音频分割，每个音频子片段包括时间依次连续的3个采样点的数据，以获得在时域上处于不同尺度的多个音频子片段。

步骤203，将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图。

例如，经过预处理的音频子片段是双声道信号，则所述基本处理单元可以形如(1，x)的二维(2D)卷积单元。其中，2D卷积的行为实质上是对两个声道的数据按时间卷积，而不是如一维卷积一样将两声道数据耦合。这样，每个2D卷积滤波后输出的结果是一个与原数据同样大小的特征图，即，2D卷积单元输出一个与对应尺度的音频子片段的双声道信号的大小相同的特征图，所述特征图具有明确的物理含义，所述特征图可以表征原信号在各个时间点上与卷积核的相关性，卷积核感兴趣的区域将会表现为一个尖峰或谷底，卷积核不感兴趣的区域则趋向于平坦。通过变换x的数值，可以获得一组对应不同尺度的滤波器组。其中，所述卷积核为所述2D卷积单元的卷积模板，该卷积核为从随机数初始化后自适应得到训练。x数值可以表示时域上不同尺度的音频子片段所属的样本点。

在一些实施例中，所述基本处理单元包括滤波子单元、门控子单元和混合子单元。其中，该基本处理单元也可以看作是多尺度滤波器组中的滤波器单元，为了加强滤波器的效果，可以将简单的滤波器单元改造为带有注意力机制的门控滤波器单元，每个基本处理单元可以包括滤波子单元、门控子单元和混合子单元。其中，所述滤波子单元用于对音频子片段进行滤波，所述门控子单元用于对从滤波子单元输出的数据进行门控，所述混合子单元用于对所述门控子单元输出的数据进行混合处理。

步骤204，将所述多个不同尺度的特征图进行排列。

其中，将各个尺度的基本处理单元输出的不同尺度的特征图进行排列，具体操作是将作为特征向量的多个不同尺度的特征图进行叠放，以完成特征向量的排列。其中，由于在预处理阶段采用了适当的补0，因此这些基本处理单元输出的特征图的尺寸是完全相同的，可以使得特征向量的叠放更整齐。

步骤205，将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数。

步骤206，根据所述多个不同尺度的特征图与特征融合参数生成检测模型，其中所述检测模型包括训练后的所述第一参考模型与第二参考模型。

在一些实施例中，所述检测模型可以由训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数组成，输入信号依次经过训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数后得到的输出数据，作为该检测模型的检测结果。

步骤207，基于所述检测模型对待测音频进行音频开头爆音的检测。

其中，检测的过程与训练的过程相似，待侧音频依次经过训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数后得到的输出数据，作为该检测模型的检测结果，当检测结果不小于预设阈值时判定所述待测音频存在音频开头爆音的情形，当检测结果小于预设阈值时判定所述待测音频不存在音频开头爆音的情形。

本发明实施例提供的音频开头爆音的检测方法，通过获取训练样本，并对训练样本进行预处理，以获取多个不同尺度的音频子片段，然后将多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图，并将所述多个不同尺度的特征图进行排列，再将排列后的多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数，并根据多个不同尺度的特征图与特征融合参数生成检测模型，其中检测模型包括训练后的第一参考模型与第二参考模型，最后基于检测模型对待测音频进行音频开头爆音的检测。本发明实施例通过利用第一参考模型提取出多个不同尺度的特征图，并利用第二参考模型对多个不同尺度的特征图进行特征融合训练，得到特征融合参数，然后将特征图以及特征融合参数再融入到对应参考模型中以得到检测模型，并基于检测模型进行音频检测，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

根据上述实施例描述的方法，以下将结合深度学习网络的架构举例作进一步详细说明。请参阅图8及图9，图8为本发明实施例提供的深度学习网络的网络拓扑结构图，图9为本发明实施例提供的基本处理单元的网络拓扑结构图。

其中，所述深度学习网络30为混合的深度学习网络，通过混合多个基础模块来实现，所述多个基础模块包括第一参考模型31和第二参考模型32。第一参考模型31用于提取出多个不同尺度的特征图，第二参考模型32用于对多个不同尺度的特征图进行特征融合训练。

原则上，各个基础模块的神经网络结构有多种选择。第一参考模型31可以包括多个不同尺度的基本处理单元311，可以将所述多个不同尺度的音频子片段分别输入对应尺度的所述基本处理单元311中进行不同尺度的特征提取，以提取出多个不同尺度的特征图。所述多个不同尺度的基本处理单元311能对不同尺度的开头爆音的波形有较强响应，但能抑制正常波形。

例如，具体训练流程如下：

首先，获取训练样本。

其次，对所述训练样本进行预处理，以获取多个不同尺度的音频子片段。

然后，将所述多个不同尺度的音频子片段输入第一参考模型31中进行特征提取训练，以提取出多个不同尺度的特征图。

然后，将所述多个不同尺度的特征图进行排列。

然后，将所述多个不同尺度的特征图输入第二参考模型32中进行特征融合训练，以得到特征融合参数。

然后，根据所述多个不同尺度的特征图与特征融合参数生成检测模型30，其中所述检测模型30包括训练后的所述第一参考模型31与第二参考模型32。

最后，基于所述检测模型30对待测音频进行音频开头爆音的检测。

其中，如图9所示，所述基本处理单元311可以包括滤波子单元3111、门控子单元3112和混合子单元3113。其中，所述滤波子单元3111用于对音频子片段进行数据传输，所述门控子单元3112用于对音频子片段进行门控，所述混合子单元3113用于对所述门控子单元3112输出的数据进行混合处理。

例如，将每一不同尺度的音频子片段作为输入信号，其中，滤波子单元3111与门控子单元3112可以为两个尺寸完全相同的滤波器，输入信号分别经过两个尺寸完全相同的滤波子单元3111和门控子单元3112处理后得到两张特征图，负责门控的门控子单元3112的输出特征图经过sigmoid激活函数后被映射为0～1之间的映射值，这些映射值与负责滤波的滤波子单元3111的输出特征图逐元素相乘，起到注意力机制的作用。最后，经过相乘后的输出数据再经过混合子单元3113处理后被混合为单通道信号，该混合子单元3113最终输出的单通道信号反映的是在当前尺度下原信号的特征，即所述单通道信号为所述多个不同尺度的音频子片段中每一所述音频子片段在对应尺度下的特征图。

其中，以上检测模型是在深度学习神经网络30的框架下进行运算的，所有的参考模型的参数均从随机数开始自适应得到训练，因此本方案是一种基于深度学习的自适应的、多尺度的音频开头爆音的检测算法。

其中，在准备好训练样本后，深度学习网络30可按标准梯度下降法得到训练。在训练完毕后，深度学习网络30可对新的、经过完全相同的预处理过程的音频样本进行预测或检测。

例如，标准梯度下降法的训练过程如下：具有数据集X，标签y_true，网络F，损失函数L(y_pred,y_true)，其中损失函数是一阶可导的。网络F含有可训练参数w。对于数据集X，网络F将其映射为一组预测值y_pred，即y_pred＝F(X)，损失函数以标签y_true和预测值y_pred为输入，得到损失值。为了降低损失，损失函数L遵循链式求导法则计算损失函数L对可训练参数w的导数delta，网络F的可训练参数w以一定学习率根据得到的导数delta进行更新。这个过程不断重复，则可训练参数w从最初的初始值更新到某种状态，在这种状态下网络F可以将数据X正确的映射到y_true上。

例如，具体检测流程如下：

首先，获取待测音频。

其次，对所述待测音频进行预处理，以获取多个不同尺度的待测音频子片段。

然后，将所述多个不同尺度的待测音频子片段输入所述训练好的所述第一参考模型31中进行特征提取，以提取出所述待测音频的多个不同尺度的特征图。

然后，将所述待测音频的多个不同尺度的特征图输入所述训练好的所述第二参考模型32中进行特征融合，以得到所述待测音频的特征融合参数。

然后，将所述待测音频的特征融合参数经过所述全连接网络以及sigmoid激活函数处理后，得到检测结果。

最后，根据所述检测结果判定所述待测音频是否存在音频开头爆音的情形。

其中，可以将待测音频子片段的双声道信号一起输入检测模型30中进行检测处理，当检测到双声道中有开头爆音被认为该待测音频存在开头爆音。也可以将待测音频子片段中的每一声道信号单独输入检测模型30中各检测一次，检测到任何一个声道有开头爆音被认为该待测音频存在开头爆音。

本发明实施例还提供一种音频开头爆音的检测装置，如图10至图13所示，图10至图13均为本发明实施例提供的一种音频开头爆音的检测装置的结构示意图。所述音频开头爆音的检测装置40可以包括获取模块41，预处理模块42，提取模块43，融合模块45生成模块46，以及检测模块47。

其中，所述获取模块41，用于获取训练样本。

所述预处理模块42，用于对所述训练样本进行预处理，以获取多个不同尺度的音频子片段。

在一些实施例中，如图11所示，所述预处理模块42还包括规整子模块421，截取子模块422，以及分割子模块423。

其中，所述规整子模块421，用于按照预设采样率对所述训练样本进行数据规整，以保留所述训练样本的双声道信号；

所述截取子模块422，用于截取开头预设时长对应的音频片段；

所述分割子模块423，用于按照时间顺序将所述音频片段分割为多个不同尺度的音频子片段。

在一些实施例中，所述规整子模块421，还用于若所述训练样本为单声道信号，则对所述训练样本的单声道信号进行复制处理，以得到处理后的所述训练样本的双声道信号；

所述截取子模块422，还用于若所述训练样本的总时长小于所述预设时长，则对所述训练样本进行补零，以使得所述训练样本的总时长达到所述预设时长。

所述提取模块43，用于将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图。

在一些实施例中，所述第一参考模型包括多个不同尺度的基本处理单元，所述提取模块43，用于将所述多个不同尺度的音频子片段分别输入对应尺度的所述基本处理单元中进行不同尺度的特征提取，以提取出多个不同尺度的特征图。

在一些实施例中，所述基本处理单元为二维卷积单元，所述提取模块43，用于通过每一对应的所述二维卷积单元对所述多个不同尺度的音频子片段的双声道信号按照时间尺度进行卷积，以使得每一所述二维卷积单元输出一个与对应尺度的音频子片段的双声道信号的大小相同的特征图，其中，所述特征图表示所述音频片段在不同时间尺度上与所述二维卷积单元的卷积核的相关性。

在一些实施例中，所述基本处理单元包括滤波子单元、门控子单元和混合子单元，如图12所示，所述提取模块43还包括第一处理子模块431，第二处理子模块432，第三处理子模块433，以及第四处理子模块434。

其中，所述第一处理子模块431，用于将所述多个不同尺度的音频子片段输入对应的所述滤波子单元进行滤波处理，以得到所述滤波子单元的输出特征图；

所述第二处理子模块432，用于将所述多个不同尺度的音频子片段输入对应的所述门控子单元中进行数据处理，以得到所述门控子单元的输出特征图；

所述第三处理子模块433，用于将所述门控子单元的输出特征图经过sigmoid激活函数的映射处理后，与所述滤波子单元的输出特征图进行逐元素相乘，以得到乘积参数；

所述第四处理子模块434，用于将所述乘积参数输入所述混合子单元中进行混合处理，以得到所述多个不同尺度的音频子片段中每一所述音频子片段在对应尺度下的特征图。

所述融合模块45，用于将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数。

所述生成模块46，用于根据所述多个不同尺度的特征图与特征融合参数生成检测模型，其中所述检测模型包括训练后的所述第一参考模型与第二参考模型。

在一些实施例中，所述检测模型还包括全连接网络以及sigmoid激活函数，如图13所示，所述生成模块46还包括第一调整子模块461，第二调整子模块462，第三调整子模块463，以及生成子模块464。

所述第一调整子模块461，用于根据所述多个不同尺度的特征图调整所述第一参考模型，以得到训练后的所述第一参考模型；

所述第二调整子模块462，用于根据所述特征融合参数调整所述第二参考模型，以得到训练后的所述第二参考模型；

所述第三调整子模块463，将所述特征融合参数经过所述全连接网络以及sigmoid激活函数调整后得到的数据，作为所述检测模型的输出数据；

所述生成子模块464，用于根据所述训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数，生成所述检测模型。

所述检测模块47，用于基于所述检测模型对待测音频进行音频开头爆音的检测。

在一些实施例中，所述检测模块47，用于：

获取待测音频；

对所述待测音频进行预处理，以获取多个不同尺度的待测音频子片段；

将所述多个不同尺度的待测音频子片段输入所述训练好的所述第一参考模型中进行特征提取，以提取出所述待测音频的多个不同尺度的特征图；

将所述待测音频的多个不同尺度的特征图输入所述训练好的所述第二参考模型中进行特征融合，以得到所述待测音频的特征融合参数；

将所述待测音频的特征融合参数经过所述全连接网络以及sigmoid激活函数处理后，得到检测结果；

根据所述检测结果判定所述待测音频是否存在音频开头爆音的情形。

在一些实施例中，如图14所示，图14为本发明实施例提供的一种音频开头爆音的检测装置的另一结构示意图。所述音频开头爆音的检测装置40可以包括获取模块41，预处理模块42，提取模块43，排列模块44，融合模块45生成模块46，以及检测模块47。

其中，所述获取模块41，用于获取训练样本。

所述排列模块44，用于将所述多个不同尺度的特征图进行排列。

本发明实施例提供的音频开头爆音的检测装置40，通过获取模块41获取训练样本，然后预处理模块42对所述训练样本进行预处理，以获取多个不同尺度的音频子片段，提取模块43将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图，排列模块44将所述多个不同尺度的特征图进行排列，融合模块45将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数，生成模块46根据所述多个不同尺度的特征图与特征融合参数生成检测模型，其中所述检测模型包括训练后的所述第一参考模型与第二参考模型，检测模块47基于所述检测模型对待测音频进行音频开头爆音的检测。本发明实施例的音频开头爆音的检测装置40通过利用第一参考模型提取出多个不同尺度的特征图，并利用第二参考模型对多个不同尺度的特征图进行特征融合训练，得到特征融合参数，然后将特征图以及特征融合参数再融入到对应参考模型中以得到检测模型，并基于检测模型进行音频检测，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

本发明实施例还提供一种服务器，如图15所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图15中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

服务器还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取训练样本；对所述训练样本进行预处理，以获取多个不同尺度的音频子片段；将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图；将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数；根据所述多个不同尺度的特征图与特征融合参数生成检测模型，其中所述检测模型包括训练后的所述第一参考模型与第二参考模型；基于所述检测模型对待测音频进行音频开头爆音的检测。

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的服务器，通过获取训练样本，并对训练样本进行预处理，以获取多个不同尺度的音频子片段，然后将多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图，再将多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数，并根据多个不同尺度的特征图与特征融合参数生成检测模型，其中检测模型包括训练后的第一参考模型与第二参考模型，最后基于检测模型对待测音频进行音频开头爆音的检测。本发明实施例通过利用第一参考模型提取出多个不同尺度的特征图，并利用第二参考模型对多个不同尺度的特征图进行特征融合训练，得到特征融合参数，然后将特征图以及特征融合参数再融入到对应参考模型中以得到检测模型，并基于检测模型进行音频检测，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

相应的，本发明实施例还提供一种终端，如图16所示，该终端可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图16中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division MultipleAccess)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图16中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的终端，通过获取训练样本，并对训练样本进行预处理，以获取多个不同尺度的音频子片段，然后将多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图，再将多个不同尺度的特征图输入第二参考模型中进行特征融合训练，以得到特征融合参数，并根据多个不同尺度的特征图与特征融合参数生成检测模型，其中检测模型包括训练后的第一参考模型与第二参考模型，最后基于检测模型对待测音频进行音频开头爆音的检测。本发明实施例通过利用第一参考模型提取出多个不同尺度的特征图，并利用第二参考模型对多个不同尺度的特征图进行特征融合训练，得到特征融合参数，然后将特征图以及特征融合参数再融入到对应参考模型中以得到检测模型，并基于检测模型进行音频检测，提升了音频开头爆音检测的准确率，能够有效检测音频的开头爆音。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频开头爆音的检测方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任音频开头爆音的检测方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频开头爆音的检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种音频开头爆音的检测方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频开头爆音的检测方法，其特征在于，所述方法包括：

获取训练样本；

基于所述检测模型对待测音频进行音频开头爆音的检测。

2.如权利要求1所述的音频开头爆音的检测方法，其特征在于，所述对所述训练样本进行预处理，以获取多个不同尺度的音频子片段，包括：

按照预设采样率对所述训练样本进行数据规整，以保留所述训练样本的双声道信号；

截取开头预设时长对应的音频片段；

按照时间顺序将所述音频片段分割为多个不同尺度的音频子片段。

3.如权利要求2所述的音频开头爆音的检测方法，其特征在于，所述按照预设采样率对所述训练样本进行数据规整，以保留所述训练样本的双声道信号，还包括：若所述训练样本为单声道信号，则对所述训练样本的单声道信号进行复制处理，以得到处理后的所述训练样本的双声道信号；

所述截取开头预设时长对应的音频片段，还包括：若所述训练样本的总时长小于所述预设时长，则对所述训练样本进行补零，以使得所述训练样本的总时长达到所述预设时长。

4.如权利要求2所述的音频开头爆音的检测方法，其特征在于，所述第一参考模型包括多个不同尺度的基本处理单元，所述将所述多个不同尺度的音频子片段输入第一参考模型中进行特征提取训练，以提取出多个不同尺度的特征图，包括：

将所述多个不同尺度的音频子片段分别输入对应尺度的所述基本处理单元中进行不同尺度的特征提取，以提取出多个不同尺度的特征图。

5.如权利要求4所述的音频开头爆音的检测方法，其特征在于，所述基本处理单元为二维卷积单元，所述将所述多个不同尺度的音频子片段分别输入对应尺度的所述基本处理单元中进行不同尺度的特征提取，以提取出多个不同尺度的特征图，包括：

通过每一对应的所述二维卷积单元对所述多个不同尺度的音频子片段的双声道信号按照时间尺度进行卷积，以使得每一所述二维卷积单元输出一个与对应尺度的音频子片段的双声道信号的大小相同的特征图，其中，所述特征图表示所述音频片段在不同时间尺度上与所述二维卷积单元的卷积核的相关性。

6.如权利要求4所述的音频开头爆音的检测方法，其特征在于，所述基本处理单元包括滤波子单元、门控子单元和混合子单元，所述将所述多个不同尺度的音频子片段分别输入对应尺度的所述基本处理单元中进行不同尺度的特征提取，以提取出多个不同尺度的特征图，包括：

将所述多个不同尺度的音频子片段输入对应的所述滤波子单元进行滤波处理，以得到所述滤波子单元的输出特征图；

将所述多个不同尺度的音频子片段输入对应的所述门控子单元进行数据处理，以得到所述门控子单元的输出特征图；

将所述门控子单元的输出特征图经过sigmoid激活函数的映射处理后，与所述滤波子单元的输出特征图进行逐元素相乘，以得到乘积参数；

将所述乘积参数输入所述混合子单元中进行混合处理，以得到所述多个不同尺度的音频子片段中每一所述音频子片段在对应尺度下的特征图。

7.如权利要求1-7任一项所述的音频开头爆音的检测方法，其特征在于，在所述将所述多个不同尺度的特征图输入第二参考模型中进行特征融合训练之前，还包括：

将所述多个不同尺度的特征图进行排列。

8.如权利要求7所述的音频开头爆音的检测方法，其特征在于，所述检测模型还包括全连接网络以及sigmoid激活函数，所述根据所述多个不同尺度的特征图与特征融合参数生成检测模型，包括：

根据所述多个不同尺度的特征图调整所述第一参考模型，以得到训练后的所述第一参考模型；

根据所述特征融合参数调整所述第二参考模型，以得到训练后的所述第二参考模型；

将所述特征融合参数经过所述全连接网络以及sigmoid激活函数调整后得到的数据，作为所述检测模型的输出数据；

根据所述训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数，生成所述检测模型。

9.如权利要求7所述的音频开头爆音的检测方法，其特征在于，所述基于所述检测模型对待测音频进行音频开头爆音的检测，包括：

获取待测音频；

10.一种音频开头爆音的检测装置，其特征在于，所述装置包括：

获取模块，用于获取训练样本；

11.如权利要求10所述的音频开头爆音的检测装置，其特征在于，所述预处理模块，包括：

规整子模块，用于按照预设采样率对所述训练样本进行数据规整，以保留所述训练样本的双声道信号；

截取子模块，用于截取开头预设时长对应的音频片段；

分割子模块，用于按照时间顺序将所述音频片段分割为多个不同尺度的音频子片段。

12.如权利要求11所述的音频开头爆音的检测装置，其特征在于，所述规整子模块，还用于若所述训练样本为单声道信号，则对所述训练样本的单声道信号进行复制处理，以得到处理后的所述训练样本的双声道信号；

所述截取子模块，还用于若所述训练样本的总时长小于所述预设时长，则对所述训练样本进行补零，以使得所述训练样本的总时长达到所述预设时长。

13.如权利要求11所述的音频开头爆音的检测装置，其特征在于，所述第一参考模型包括多个不同尺度的基本处理单元，所述提取模块，用于：

14.如权利要求13所述的音频开头爆音的检测装置，其特征在于，所述基本处理单元为二维卷积单元，所述提取模块，用于：

15.如权利要求13所述的音频开头爆音的检测装置，其特征在于，所述基本处理单元包括滤波子单元、门控子单元和混合子单元，所述提取模块，包括：

第一处理子模块，用于将所述多个不同尺度的音频子片段输入对应的所述滤波子单元进行滤波处理，以得到所述滤波子单元的输出特征图；

第二处理子模块，用于将所述多个不同尺度的音频子片段输入对应的所述门控子单元进行数据处理，以得到所述门控子单元的输出特征图；

第三处理子模块，用于将所述门控子单元的输出特征图经过sigmoid激活函数的映射处理后，与所述滤波子单元的输出特征图进行逐元素相乘，以得到乘积参数；

第四处理子模块，用于将所述乘积参数输入所述混合子单元中进行混合处理，以得到所述多个不同尺度的音频子片段中每一所述音频子片段在对应尺度下的特征图。

16.如权利要求10-15任一项所述的音频开头爆音的检测装置，其特征在于，所述装置还包括：

排列模块，用于将所述多个不同尺度的特征图进行排列。

17.如权利要求16所述的音频开头爆音的检测装置，其特征在于，所述检测模型还包括全连接网络以及sigmoid激活函数，所述生成模块包括：

第一调整子模块，用于根据所述多个不同尺度的特征图调整所述第一参考模型，以得到训练后的所述第一参考模型；

第二调整子模块，用于根据所述特征融合参数调整所述第二参考模型，以得到训练后的所述第二参考模型；

第三调整子模块，将所述特征融合参数经过所述全连接网络以及sigmoid激活函数调整后得到的数据，作为所述检测模型的输出数据；

生成子模块，用于根据所述训练后的所述第一参考模型、训练后的所述第二参考模型、全连接网络以及sigmoid激活函数，生成所述检测模型。

18.如权利要求17所述的音频开头爆音的检测装置，其特征在于，所述检测模块，用于：

获取待测音频；

19.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的音频开头爆音的检测方法中的步骤。