CN109376264A

CN109376264A - 一种音频检测方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109376264A
Application number: CN201811333212.6A
Authority: CN
Inventors: 王泽龙
Original assignee: Guangzhou Speakin Network Technology Co Ltd
Current assignee: Guangzhou Speakin Network Technology Co Ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-02-22

Abstract

本发明公开了一种音频检测方法、装置、设备及计算机可读存储介质，其中，该方法包括：获取包括预设量训练样本及每个所述训练样本的样本标签的训练样本集，所述训练样本包括对应样本标签分别为拼接音频及原始音频的音频样本；利用所述训练样本集训练预先创建的卷积神经网络，得到音频识别模型；获取未知其样本标签的音频样本为待测样本，将所述待测样本输入至所述音频识别模型，得到所述音频识别模型输出的所述待测样本为拼接音频或原始音频的识别结果。本申请中基于卷积神经网络实现音频检测，不仅通过实验证明这种音频检测方式具有较高的准确性，且对于训练样本及待测样本均没有特殊要求，泛化性较好。

Description

一种音频检测方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及音频检测技术领域，更具体地说，涉及一种音频检测方法、装置、设备及计算机可读存储介质。

背景技术

为了保证音频安全性，通常需要对其进行检测，以确定音频是否为被篡改后的拼接音频还是未被篡改的原始音频。现有技术中实现音频检测的技术方案通常是对相邻音频段的特征进行相关性检测，进而确定是拼接音频还是原始音频，但是这种方式对音频要求较高，需要音频具有时间长、噪声小等，因此无法广泛的应用于不同条件的音频。

综上所述，现有技术中用于实现音频检测的技术方案存在泛化性较差的问题。

发明内容

本发明的目的是提供一种音频检测方法、装置、设备及计算机可读存储介质，能够解决现有技术用于实现音频检测的技术方案存在的泛化性较差的问题。

为了实现上述目的，本发明提供如下技术方案：

一种音频检测方法，包括：

获取包括预设量训练样本及每个所述训练样本的样本标签的训练样本集，所述训练样本包括对应样本标签分别为拼接音频及原始音频的音频样本；

利用所述训练样本集训练预先创建的卷积神经网络，得到音频识别模型；

获取未知其样本标签的音频样本为待测样本，将所述待测样本输入至所述音频识别模型，得到所述音频识别模型输出的所述待测样本为拼接音频或原始音频的识别结果。

优选的，利用所述训练样本集训练预先创建的卷积神经网络，包括：

利用滤波器组提取所述训练样本集中各个训练样本的特征，将提取到的各个训练样本的特征组成各个训练样本的特征向量，并将各个训练样本的特征向量及样本标签输入至预先创建的卷积神经网络进行训练；

对应的，将所述待测样本输入至所述音频识别模型，包括：

利用滤波器组提取所述待测样本的特征，将提取到的所述待测样本的特征组成特征向量，并将所述待测样本的特征向量输入至所述音频识别模型。

优选的，获取未知其样本标签的音频样本为待测样本，包括：

获取待测音频，按照所述滤波器组的步长获取所述待测音频包含的每个音频样本为多个待测样本，所述待测样本与所述训练样本的时长相同。

优选的，预先创建卷积神经网络，包括：

预先创建卷积神经网络，所述卷积神经网络由输入至输出依次包括第一卷积层、第一正规化层、第二卷积层、第二正规化层、第一全连接层、第二全连接层、第三全连接层及softmax分类器。

优选的，得到所述音频识别模型输出的所述待测样本为拼接音频或原始音频的识别结果之后，还包括：

将所述识别结果输出至指定终端。

一种音频检测装置，包括：

获取模块，用于：获取包括预设量训练样本及每个所述训练样本的样本标签的训练样本集，所述训练样本包括对应样本标签分别为拼接音频及原始音频的音频样本；

训练模块，用于：利用所述训练样本集训练预先创建的卷积神经网络，得到音频识别模型；

识别模块，用于：获取未知其样本标签的音频样本为待测样本，将所述待测样本输入至所述音频识别模型，得到所述音频识别模型输出的所述待测样本为拼接音频或原始音频的识别结果。

优选的，所述训练模块包括：

训练单元，用于：利用滤波器组提取所述训练样本集中各个训练样本的特征，将提取到的各个训练样本的特征组成各个训练样本的特征向量，并将各个训练样本的特征向量及样本标签输入至预先创建的卷积神经网络进行训练；

对应的，所述识别模块包括：

提取单元，用于：利用滤波器组提取所述待测样本的特征，将提取到的所述待测样本的特征组成特征向量，并将所述待测样本的特征向量输入至所述音频识别模型。

优选的，所述识别模块包括：

获取单元，用于：获取待测音频，按照所述滤波器组的步长获取所述待测音频包含的每个音频样本为多个待测样本，所述待测样本与所述训练样本的时长相同。

一种音频检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述音频检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述音频检测方法的步骤。

本发明提供了一种音频检测方法、装置、设备及计算机可读存储介质，其中，该方法包括：获取包括预设量训练样本及每个所述训练样本的样本标签的训练样本集，所述训练样本包括对应样本标签分别为拼接音频及原始音频的音频样本；利用所述训练样本集训练预先创建的卷积神经网络，得到音频识别模型；获取未知其样本标签的音频样本为待测样本，将所述待测样本输入至所述音频识别模型，得到所述音频识别模型输出的所述待测样本为拼接音频或原始音频的识别结果。本发明公开的技术方案中，获取训练样本集，训练样本集中包括训练样本及对应训练样本是拼接音频或是原始音频的样本标签，且训练样本中同时包括是拼接音频的音频样本及是原始音频的音频样本，以利用训练样本集训练卷积神经网络时能够使得卷积神经网络充分学习上述两种音频样本的特点，得到音频识别模型，再基于音频识别模型识别出待测样本是拼接音频还是原始音频。本申请中基于卷积神经网络实现音频检测，不仅通过实验证明这种音频检测方式具有较高的准确性，且对于训练样本及待测样本均没有特殊要求，泛化性较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种音频检测方法的流程图；

图2为本发明实施例提供的一种音频检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种音频检测方法的流程图，可以包括：

S11：获取包括预设量训练样本及每个训练样本的样本标签的训练样本集，训练样本包括对应样本标签分别为拼接音频及原始音频的音频样本。

需要说明的是，本发明实施例提供的一种音频检测方法的执行主语可以为对应的音频检测装置。预设量可以根据实际需要进行设定，一般训练样本的数量越多，对应训练得到的音频识别模型的音频识别准确性越高。其中，样本标签为表明对应训练样本是拼接音频还是原始音频的标签，而音频样本即为用于实现训练或者待测的音频。另外，训练样本中包括是拼接音频的音频样本是原始音频的音频样本，由此由训练样本训练得到的音频识别模型才能够充分学习到拼接音频及原始音频的特点，进而才能够识别待测的音频是拼接音频还是原始音频。

其中，各个训练样本的时长需相同，举例说明，训练样本集可以包括1000段为原始音频的音频样本(时长为2s)、1000段为拼接音频的音频样本(1s为原始音频，1s为其他音频)。

S12：利用训练样本集训练预先创建的卷积神经网络，得到音频识别模型。

需要说明的是，卷积神经网络(CNN)是深度学习中的一种，与现有技术中对应概念的含义相同，在此不再赘述。利用训练样本集训练卷积神经网络，能够使得卷积神经网络充分学习到训练样本集中包含的各个样本的特点，进而使得得到的音频识别模型能够识别出输入其的待测的音频样本的特点是原始音频的特点还是拼接音频的特点，也即识别出输入其的待测的音频样本是原始音频还是拼接音频。

S13：获取未知其样本标签的音频样本为待测样本，将待测样本输入至音频识别模型，得到音频识别模型输出的待测样本为拼接音频或原始音频的识别结果。

未知其样本标签的音频样本即为未知其是原始音频还是拼接音频的音频样本，而待测样本的时长需和训练样本的时长相同。将待测样本输入至音频识别模型，音频识别模型能够识别待测样本的特点，并输出与识别出的特点对应的结果，也即识别结果。实现基于音频检测模型的音频检测。另外，本申请中音频样本均可以为静音音频样本(此时实现音频样本检测主要基于音频样本中包含的背景噪声实现)，当然也可为非静音音频样本，均在本发明的保护范围之内。

本发明公开的技术方案中，获取训练样本集，训练样本集中包括训练样本及对应训练样本是拼接音频或是原始音频的样本标签，且训练样本中同时包括是拼接音频的音频样本及是原始音频的音频样本，以利用训练样本集训练卷积神经网络时能够使得卷积神经网络充分学习上述两种音频样本的特点，得到音频识别模型，再基于音频识别模型识别出待测样本是拼接音频还是原始音频。本申请中基于卷积神经网络实现音频检测，不仅通过实验证明这种音频检测方式具有较高的准确性，且对于训练样本及待测样本均没有特殊要求，泛化性较好。

本发明实施例提供的一种音频检测方法，利用训练样本集训练预先创建的卷积神经网络，可以包括：

利用滤波器组提取训练样本集中各个训练样本的特征，将提取到的各个训练样本的特征组成各个训练样本的特征向量，并将各个训练样本的特征向量及样本标签输入至预先创建的卷积神经网络进行训练；

对应的，将待测样本输入至音频识别模型，包括：

利用滤波器组提取待测样本的特征，将提取到的待测样本的特征组成特征向量，并将待测样本的特征向量输入至音频识别模型。

需要说明的是，在训练卷积神经网络及识别待测样本时均可以对对应的音频样本进行特征提取，本实施例中可以利用滤波器组(FilterBank)提取各音频样本的特征，进而得到对应的特征向量。将滤波器组实现特征提取时能够实现较高的提取准确度，由此将滤波器组与卷积神经网络相结合，进一步保证了音频检测的准确性。另外，滤波器组的各项参数设置可以根据实际需要进行设定，如训练样本集包括1000段为原始音频的音频样本(时长为2s)、1000段为拼接音频的音频样本(1s为原始音频，1s为其他音频)时，滤波器组的窗口时长可以为25ms、步长可以为10ms、维数可以为64。

本发明实施例提供的一种音频检测方法，获取未知其样本标签的音频样本为待测样本，可以包括：

获取待测音频，按照滤波器组的步长获取待测音频包含的每个音频样本为多个待测样本，待测样本与训练样本的时长相同。

需要说明的是，对于实现检测的整个音频可以称之为待测音频，训练样本的时长可以称之为预设时长，则为了实现待测样本的有效检测，需要将待测音频处理为多个具有预设时长的音频样本作为待测样本。其中，每个待测样本的开始时刻之间相差滤波器组的步长的时长，如练样本集包括1000段为原始音频的音频样本(时长为2s)、1000段为拼接音频的音频样本(1s为原始音频，1s为其他音频)时，滤波器组的窗口时长为25ms、步长为10ms、维数为64时，每个待测样本的开始时刻相差10ms，由此能够保证整个音频可以被有效实现检测，避免遗漏。

本发明实施例提供的一种音频检测方法，预先创建卷积神经网络，可以包括：

预先创建卷积神经网络，卷积神经网络由输入至输出依次包括第一卷积层、第一正规化层、第二卷积层、第二正规化层、第一全连接层、第二全连接层、第三全连接层及softmax分类器。

需要说明的是，卷积神经网络具体可以根据实际需要进行设置，本申请中由输入至输出依次设置为：第一卷积层(16个卷积核，且每个卷积核的大小为3*3)->第一正规化层(BatchNormalization)–>第二卷积层(8个卷积核，且每个卷积核的大小为5*5)–>第二正规化层(BatchNormalization)->第一全连接层(512个神经元，激活函数为RELU)->第二全连接层(512个神经元，激活函数为RELU)->第三全连接层(512个神经元，激活函数为RELU)->softmax分类器(2分类)。实验证明，这种方式设置的卷积神经网络对应得到的音频识别模型具有较高的音频检测准确度。

本发明实施例提供的一种音频检测方法，得到音频识别模型输出的待测样本为拼接音频或原始音频的识别结果之后，还可以包括：

将识别结果输出至指定终端。

需要说明的是，指定终端可以为管理人员对应的终端，由此将识别结果输出至指定终端，能够便于快速人员快速获知音频检测的结果，当然也可以根据实际需要进行其他设置，如对识别结果进行显示或者以邮件形式发送至管理人员的邮箱等，均在本发明的保护范围之内。

本发明实施例还提供了一种音频检测装置，如图2所示，可以包括：

获取模块11，用于：获取包括预设量训练样本及每个训练样本的样本标签的训练样本集，训练样本包括对应样本标签分别为拼接音频及原始音频的音频样本；

训练模块12，用于：利用训练样本集训练预先创建的卷积神经网络，得到音频识别模型；

识别模块13，用于：获取未知其样本标签的音频样本为待测样本，将待测样本输入至音频识别模型，得到音频识别模型输出的待测样本为拼接音频或原始音频的识别结果。

本发明实施例提供的一种音频检测装置，训练模块可以包括：

训练单元，用于：利用滤波器组提取训练样本集中各个训练样本的特征，将提取到的各个训练样本的特征组成各个训练样本的特征向量，并将各个训练样本的特征向量及样本标签输入至预先创建的卷积神经网络进行训练；

对应的，识别模块可以包括：

提取单元，用于：利用滤波器组提取待测样本的特征，将提取到的待测样本的特征组成特征向量，并将待测样本的特征向量输入至音频识别模型。

本发明实施例提供的一种音频检测装置，识别模块可以包括：

获取单元，用于：获取待测音频，按照滤波器组的步长获取待测音频包含的每个音频样本为多个待测样本，待测样本与训练样本的时长相同。

本发明实施例提供的一种音频检测装置，还可以包括：

创建模块，用于：预先创建卷积神经网络，卷积神经网络由输入至输出依次包括第一卷积层、第一正规化层、第二卷积层、第二正规化层、第一全连接层、第二全连接层、第三全连接层及softmax分类器。

本发明实施例提供的一种音频检测装置，还可以包括：

输出模块，用于：得到音频识别模型输出的待测样本为拼接音频或原始音频的识别结果之后，将识别结果输出至指定终端。

本发明实施例还提供了一种音频检测设备，可以包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上任一项音频检测方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上任一项音频检测方法的步骤。

需要说明的是，本发明实施例提供的一种音频检测装置、设备及计算机可读存储介质中相关部分的说明请参见本发明实施例提供的一种音频检测方法中对应部分的详细说明，在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，利用所述训练样本集训练预先创建的卷积神经网络，包括：

对应的，将所述待测样本输入至所述音频识别模型，包括：

3.根据权利要求2所述的方法，其特征在于，获取未知其样本标签的音频样本为待测样本，包括：

4.根据权利要求3所述的方法，其特征在于，预先创建卷积神经网络，包括：

5.根据权利要求4所述的方法，其特征在于，得到所述音频识别模型输出的所述待测样本为拼接音频或原始音频的识别结果之后，还包括：

将所述识别结果输出至指定终端。

6.一种音频检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述训练模块包括：

对应的，所述识别模块包括：

8.根据权利要求7所述的装置，其特征在于，所述识别模块包括：

9.一种音频检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述音频检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述音频检测方法的步骤。