CN112908300B

CN112908300B - 一种语音对抗样本检测方法、系统、存储介质及应用

Info

Publication number: CN112908300B
Application number: CN202110058215.9A
Authority: CN
Inventors: 裴庆祺; 刘杰; 肖阳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-01-16
Filing date: 2021-01-16
Publication date: 2024-05-17
Anticipated expiration: 2041-01-16
Also published as: CN112908300A

Abstract

本发明属于深度学习安全技术领域，公开了一种语音对抗样本检测方法、系统、存储介质及应用，读取输入的音频并进行谱减法降噪；接着对降噪前后的音频进行mfcc特征提取，输入到语音识别系统DeepSpeech中得到转录文本；接着，根据转录文本计算相似度；根据初始输入音频的mfcc特征矩阵计算对抗度；加载音频对抗样本二分类网络的模型和参数，将相似度和对抗度输入二分类网络中，预测音频是否为对抗样本。本发明对相似度衡量标准WER进行简单的归一化处理；提出了对抗度的概念，将不同维度的音频mfcc特征压缩，扩大样本适应度的同时，保留了音频mfcc特征的性质；相比现有的音频对抗样本检测方法来说，提高了精确率和召回率。

Description

一种语音对抗样本检测方法、系统、存储介质及应用

技术领域

本发明属于深度学习安全技术领域，尤其涉及一种语音对抗样本检测方法、系统、存储介质及应用。

背景技术

目前：随着物联网技术的发展，越来越多的智能产品选择语音作为人机交互的接口；而语音识别的准确率也在深度学习的飞速发展下稳步提升。深度学习给语音识别系统带来更高识别准确率的同时，也给系统的安全性带来了潜在风险。最新研究表明，深度神经网络容易受到对输入数据添加细微扰动的对抗攻击，使得模型输出错误的预测结果，导致语音识别系统准确率的下降，甚至给自动驾驶、身份认证等安全等级较高的应用领域带来严重的安全隐患。

然而，针对语音对抗样本领域的研究却少之又少，而且主要集中于语音对抗样本的生成，仅有的语音对抗样本的检测方法要么基于音频预处理进行相似度比对，即将待检测音频进行压缩、语音编码、过滤或音频平移等，然后与初始音频进行转录比对；要么基于音频的mfcc特征进行分类训练，即将语音对抗样本的检测问题转换为二分类问题进行神经网络训练，选取大量的音频良性样本和对抗样本，提取其mfcc特征作为神经网络的输入，进行二分类训练，最后将训练好的模型用于对抗样本的检测。

基于音频预处理进行相似度比对的检测方法需要对两次转录的文本进行相似度对比，相似度一般选取词错率作为衡量标准，即WER越小，表明相似度越高。WER取值范围为[0,+∞)，因此，该方法需要进行手动阈值threshold的设置，即将WER≥threshold的样本视为对抗样本。

基于音频mfcc特征直接进行二分类训练的检测方法一般通过卷积神经网络的方法来进行训练，不同时长的音频具有不同维度的mfcc特征。然而，在神经网络中，一般要求输入的维度必须保持一致(不一致时进行填充或截断)，对mfcc特征进行截断或填充处理将破坏mfcc的性质。因此，该检测方法要求音频具有相同时长，不具有普遍性。

此外，经实验证明，现有的语音对抗样本检测方法普遍具有较低的精确率和召回率，防御效果一般。

通过上述分析，现有技术存在的问题及缺陷为：

(1)基于音频预处理进行相似度比对的检测方法需要手动设置阈值。

(2)基于音频mfcc特征直接进行二分类训练的检测方法一般通过卷积神经网络的方法来进行训练，对样本的要求比较苛刻，不具有普遍性。

(3)此外，现有的语音对抗样本检测方法普遍具有较低的精确率和召回率，防御效果一般。

解决以上问题及缺陷的难度为：

(1)如何解决手动阈值设置的问题或提出一种不需要设置阈值的方法；

(2)如何处理不同时长音频的问题，更加合理地使用音频mfcc特征；

(3)如何进一步提升语音对抗样本的精确率和召回率。

解决以上问题及缺陷的意义为：通过解决以上问题，将语音对抗样本的防御方法落地，无疑会大大提升依赖于语音识别系统的产品的安全性，降低其被攻击的风险，进一步增加这些产品受欢迎的程度。

发明内容

针对现有技术存在的问题，本发明提供了一种语音对抗样本检测方法、系统、存储介质及应用。

本发明是这样实现的，一种语音对抗样本检测方法包括：

(1)读取输入的音频audio_ori，对输入音频进行谱减法降噪得audio_den；

(2)提取audio_ori和audio_den的音频mfcc特征矩阵fea_ori和fea_den；

(3)加载Deep Speech语音识别系统的深度神经网络模型和参数，同时将提取的音频mfcc特征矩阵fea_ori和fea_den输入到Deep Speech语音识别系统中，得到转录文本phrase_ori和phrase_den；

(4)根据转录文本phrase_ori和phrase_den计算相似度ratio_sim；

(5)根据初始输入音频的mfcc特征矩阵fea_ori计算对抗度ratio_adv；

(6)加载音频对抗样本二分类网络的模型和参数，输入相似度ratio_sim和对抗度ratio_adv，预测音频audio_ori是否为对抗样本。

进一步，步骤(1)中，所述读取输入的音频audio_ori时，采用python语言中scipy库中的scipy.io.savfile函数；

所述谱减法降噪采用Berouti的改进方法，公式如下：

withα≥1,and 0＜β＜＜1

其中，|Y(ω)|²为带噪音频的功率谱，|X(ω)|²为纯净音频的功率谱，|D(ω)|²为加性噪声的功率谱，α为过减因子，β为谱下限参数。

进一步，步骤(2)中，所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取，得到N×M维音频mfcc特征矩阵，其中，N与输入音频的长度有关，M取固定值40维。

进一步，步骤(4)中，所述相似度ratio_sim基于编辑距离和WER的思维进行改进，进行简单的归一化处理，计算公式如下：

其中，S为替换的字数，D为删除的字数，I为插入的字数，C为正确的字数，N为S+D+C的字数。

进一步，步骤(5)中，所述对抗度ratio_adv通过进一步压缩提取的音频mfcc特征矩阵而来，具体计算公式如下：

其中，fea为音频mfcc特征矩阵，N为步骤(2)中提取的fea的第一维度。

进一步，步骤(6)中，所述音频对抗样本二分类网络，其训练所需的良性音频数据集源于Mozilla发起的CommonVoice项目中的公共数据集以及Google的语音识别minispeech commands数据集，训练所需的对抗样本数据集通过现有的几种对抗样本的生成方法攻击所得，接着按照步骤(4)和步骤(5)生成数据集对应的相似度ratio_sim和对抗度ratio_adv，辅之以标签，选取二分类网络架构进行训练。

进一步，所述音频对抗样本二分类网络架构中的loss选取keras深度学习库中的categorical_crossentropy函数，优化方法采用Adam算法，具体实现采用keras深度学习库中的Adadelta函数。

进一步，训练完成之后通过model.save进行神经网络模型和参数的保存，加载该模型时，通过model.load函数加载保存的文件。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

读取输入的音频audio_ori，对输入音频进行谱减法降噪得audio_den；

提取audio_ori和audio_den的音频mfcc特征矩阵fea_ori和fea_den；

加载Deep Speech语音识别系统的深度神经网络模型和参数，同时将提取的音频mfcc特征矩阵fea_ori和fea_den输入到Deep Speech语音识别系统中，得到转录文本phrase_ori和phrase_den；

根据转录文本phrase_ori和phrase_den计算相似度ratio_sim；

根据初始输入音频的mfcc特征矩阵fea_ori计算对抗度ratio_adv；

加载音频对抗样本二分类网络的模型和参数，输入相似度ratio_sim和对抗度ratio_adv，预测音频audio_ori是否为对抗样本。

本发明的另一目的在于提供一种用于所述的语音对抗样本检测方法的语音对抗样本检测系统，所述语音对抗样本检测系统包括：

数据采集模块，用于读取输入的音频；

降噪模块，用于对输入音频进行谱减法降噪；

特征提取模块，用于提取初始输入音频和降噪后音频的mfcc特征矩阵；

语音识别模块，用于加载语音识别系统的深度神经网络模型和参数，将提取的音频mfcc特征矩阵输入到语音识别系统中，得到转录文本；

相似度计算模块，用于根据转录文本计算相似度；

对抗度计算模块，用于根据初始输入音频的mfcc特征矩阵计算对抗度；

对抗样本检测模块，用于加载音频对抗样本二分类网络的模型和参数，将相似度和对抗度输入到二分类网络模型，预测音频是否为对抗样本。

本发明的另一目的在于提供一种语音对抗样本识别终端，所述语音对抗样本识别终端用于实现所述的语音对抗样本检测方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明首先对现有的相似度衡量标准WER进行了改良，对其进行简单的归一化处理，而且，采用谱减法降噪的方法，更贴合对抗样本生成的逆过程；其次，本发明首次提出了对抗度的概念，将不同维度的音频mfcc特征进行压缩，扩大样本适应度的同时，保留了音频mfcc特征的性质；最后，通过二分类神经网络的方法，解决了手动设置阈值的问题，同时，相比基于音频mfcc特征直接进行二分类训练的检测方法来说，极大程度地减少了运算规模。

语音对抗样本检测方法，经实验验证，与现有的基于音频预处理进行相似度比对的检测方法以及基于音频mfcc特征直接进行二分类训练的检测方法相比，精准度和召回率分别至少提高了6.71％和8.23％，7.31％和7.12％，此外，降低了良性语音样本的误判率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音对抗样本检测方法的流程图。

图2是本发明实施例提供的语音对抗样本检测方法的原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种语音对抗样本检测方法、系统、存储介质及应用，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的语音对抗样本检测方法包括：

S101，读取输入的音频audio_ori，对输入音频进行谱减法降噪得audio_den；

S102，提取audio_ori和audio_den的音频mfcc特征矩阵fea_ori和fea_den；

S103，加载Deep Speech语音识别系统的深度神经网络模型和参数，同时将提取的音频mfcc特征矩阵fea_ori和fea_den输入到Deep Speech语音识别系统中，得到转录文本phrase_ori和phrase_den；

S104，根据转录文本phrase_ori和phrase_den计算相似度ratio_sim；

S105，根据初始输入音频的mfcc特征矩阵fea_ori计算对抗度ratio_adv；

S106，加载音频对抗样本二分类网络的模型和参数，输入相似度ratio_sim和对抗度ratio_adv，预测音频audio_ori是否为对抗样本。

本发明提供的语音对抗样本检测方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的语音对抗样本检测方法仅仅是一个具体实施例而已。

本发明实施例中的步骤S101中，所述读取输入的音频audio_ori时，采用python语言中scipy库中的scipy.io.savfile函数；

所述谱减法降噪采用Berouti的改进方法，公式如下：

withα≥1,and 0＜β＜＜1

本发明实施例中的步骤S102中，所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取，得到N×M维音频mfcc特征矩阵，其中，N与输入音频的长度有关，M取固定值40维。

本发明实施例中的步骤S104中，所述相似度ratio_sim基于编辑距离和WER的思维进行改进，进行简单的归一化处理，计算公式如下：

本发明实施例中的步骤S105中，所述对抗度ratio_adv通过进一步压缩提取的音频mfcc特征矩阵而来，具体计算公式如下：

本发明实施例中的步骤S106中，所述音频对抗样本二分类网络，其训练所需的良性音频数据集源于Mozilla发起的Common Voice项目中的公共数据集以及Google的语音识别mini speech commands数据集，训练所需的对抗样本数据集通过现有的几种对抗样本的生成方法攻击所得，接着按照步骤S104和步骤S105生成数据集对应的相似度ratio_sim和对抗度ratio_adv，辅之以标签，选取二分类网络架构进行训练，其中，loss选取keras深度学习库中的categorical_crossentropy函数，优化方法采用Adam算法，具体实现采用keras深度学习库中的Adadelta函数。训练完成之后通过model.save进行神经网络模型和参数的保存，加载该模型时，通过model.load函数加载保存的文件。

本发明实施例提供的语音对抗样本检测系统包括：

数据采集模块，用于读取输入的音频；

降噪模块，用于对输入音频进行谱减法降噪；

相似度计算模块，用于根据转录文本计算相似度；

下面结合实验对本发明的技术效果作详细的描述。

本发明的语音对抗样本检测方法，通过著名的开源深度学习平台Tensor Flow实现了该模型，硬件基于TitanXp GPU，与现有的基于音频预处理进行相似度比对的检测方法以及基于音频mfcc特征直接进行二分类训练的检测方法相比，精准度和召回率分别至少提高了6.71％和8.23％，7.31％和7.12％，此外，降低了良性语音样本的误判率。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种语音对抗样本检测方法，其特征在于，所述语音对抗样本检测方法具体包括：

提取audio_ori和audio_den的音频mfcc特征矩阵fea_ori和fea_den；

根据转录文本phrase_ori和phrase_den计算相似度ratio_sim；

根据音频mfcc特征矩阵fea_ori计算对抗度ratio_adv；

加载音频对抗样本二分类网络的模型和参数，输入相似度ratio_sim和对抗度ratio_adv，预测音频audio_ori是否为对抗样本；

所述读取输入的音频audio_ori时，采用python语言中scipy库中的scipy.io.savfile函数；

所述谱减法降噪采用Berouti的改进方法，公式如下：

其中，|Y(ω)|²为带噪音频的功率谱，|X(ω)|²为纯净音频的功率谱，|D(ω)|²为加性噪声的功率谱，α为过减因子，β为谱下限参数；

所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取，得到N×M维音频mfcc特征矩阵，其中，N与输入音频的长度有关，M取固定值40维；

所述相似度ratio_sim基于编辑距离和WER的思维进行改进，进行简单的归一化处理，计算公式如下：

其中，S为替换的字数，D为删除的字数，I为插入的字数，C为正确的字数，N为S+D+C的字数；

所述对抗度ratio_adv通过进一步压缩提取的音频mfcc特征矩阵而来，具体计算公式如下：

其中，fea为音频mfcc特征矩阵，N为提取的fea的第一维度。

2.如权利要求1所述的语音对抗样本检测方法，其特征在于，所述音频对抗样本二分类网络，其训练所需的良性音频数据集源于Mozilla发起的Common Voice项目中的公共数据集以及Google的语音识别mini speech commands数据集，训练所需的对抗样本数据集通过现有的几种对抗样本的生成方法攻击所得，接着生成数据集对应的相似度ratio_sim和对抗度ratio_adv，辅之以标签，选取二分类网络架构进行训练。

3.如权利要求2所述的语音对抗样本检测方法，其特征在于，所述音频对抗样本二分类网络架构中的loss选取keras深度学习库中的categorical_crossentropy函数，优化方法采用Adam算法，具体实现采用keras深度学习库中的Adadelta函数；

训练完成之后通过model.save进行神经网络模型和参数的保存，加载该模型时，通过model.load函数加载保存的文件。

4.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1～2任意一项所述语音对抗样本检测方法的步骤。

5.一种实施权利要求1～2任意一项所述语音对抗样本检测方法的语音对抗样本检测系统，其特征在于，所述语音对抗样本检测系统包括：

数据采集模块，用于读取输入的音频；

降噪模块，用于对输入音频进行谱减法降噪；

相似度计算模块，用于根据转录文本计算相似度；

6.一种语音对抗样本识别终端，所述语音对抗样本识别终端用于实现权利要求1～2任意一项所述语音对抗样本检测方法。