CN112908300B - 一种语音对抗样本检测方法、系统、存储介质及应用 - Google Patents
一种语音对抗样本检测方法、系统、存储介质及应用 Download PDFInfo
- Publication number
- CN112908300B CN112908300B CN202110058215.9A CN202110058215A CN112908300B CN 112908300 B CN112908300 B CN 112908300B CN 202110058215 A CN202110058215 A CN 202110058215A CN 112908300 B CN112908300 B CN 112908300B
- Authority
- CN
- China
- Prior art keywords
- audio
- voice
- challenge
- ori
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 230000009467 reduction Effects 0.000 claims abstract description 17
- 230000003595 spectral effect Effects 0.000 claims abstract description 13
- 238000013135 deep learning Methods 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于深度学习安全技术领域,公开了一种语音对抗样本检测方法、系统、存储介质及应用,读取输入的音频并进行谱减法降噪;接着对降噪前后的音频进行mfcc特征提取,输入到语音识别系统DeepSpeech中得到转录文本;接着,根据转录文本计算相似度;根据初始输入音频的mfcc特征矩阵计算对抗度;加载音频对抗样本二分类网络的模型和参数,将相似度和对抗度输入二分类网络中,预测音频是否为对抗样本。本发明对相似度衡量标准WER进行简单的归一化处理;提出了对抗度的概念,将不同维度的音频mfcc特征压缩,扩大样本适应度的同时,保留了音频mfcc特征的性质;相比现有的音频对抗样本检测方法来说,提高了精确率和召回率。
Description
技术领域
本发明属于深度学习安全技术领域,尤其涉及一种语音对抗样本检测方法、系统、存储介质及应用。
背景技术
目前:随着物联网技术的发展,越来越多的智能产品选择语音作为人机交互的接口;而语音识别的准确率也在深度学习的飞速发展下稳步提升。深度学习给语音识别系统带来更高识别准确率的同时,也给系统的安全性带来了潜在风险。最新研究表明,深度神经网络容易受到对输入数据添加细微扰动的对抗攻击,使得模型输出错误的预测结果,导致语音识别系统准确率的下降,甚至给自动驾驶、身份认证等安全等级较高的应用领域带来严重的安全隐患。
然而,针对语音对抗样本领域的研究却少之又少,而且主要集中于语音对抗样本的生成,仅有的语音对抗样本的检测方法要么基于音频预处理进行相似度比对,即将待检测音频进行压缩、语音编码、过滤或音频平移等,然后与初始音频进行转录比对;要么基于音频的mfcc特征进行分类训练,即将语音对抗样本的检测问题转换为二分类问题进行神经网络训练,选取大量的音频良性样本和对抗样本,提取其mfcc特征作为神经网络的输入,进行二分类训练,最后将训练好的模型用于对抗样本的检测。
基于音频预处理进行相似度比对的检测方法需要对两次转录的文本进行相似度对比,相似度一般选取词错率作为衡量标准,即WER越小,表明相似度越高。WER取值范围为[0,+∞),因此,该方法需要进行手动阈值threshold的设置,即将WER≥threshold的样本视为对抗样本。
基于音频mfcc特征直接进行二分类训练的检测方法一般通过卷积神经网络的方法来进行训练,不同时长的音频具有不同维度的mfcc特征。然而,在神经网络中,一般要求输入的维度必须保持一致(不一致时进行填充或截断),对mfcc特征进行截断或填充处理将破坏mfcc的性质。因此,该检测方法要求音频具有相同时长,不具有普遍性。
此外,经实验证明,现有的语音对抗样本检测方法普遍具有较低的精确率和召回率,防御效果一般。
通过上述分析,现有技术存在的问题及缺陷为:
(1)基于音频预处理进行相似度比对的检测方法需要手动设置阈值。
(2)基于音频mfcc特征直接进行二分类训练的检测方法一般通过卷积神经网络的方法来进行训练,对样本的要求比较苛刻,不具有普遍性。
(3)此外,现有的语音对抗样本检测方法普遍具有较低的精确率和召回率,防御效果一般。
解决以上问题及缺陷的难度为:
(1)如何解决手动阈值设置的问题或提出一种不需要设置阈值的方法;
(2)如何处理不同时长音频的问题,更加合理地使用音频mfcc特征;
(3)如何进一步提升语音对抗样本的精确率和召回率。
解决以上问题及缺陷的意义为:通过解决以上问题,将语音对抗样本的防御方法落地,无疑会大大提升依赖于语音识别系统的产品的安全性,降低其被攻击的风险,进一步增加这些产品受欢迎的程度。
发明内容
针对现有技术存在的问题,本发明提供了一种语音对抗样本检测方法、系统、存储介质及应用。
本发明是这样实现的,一种语音对抗样本检测方法包括:
(1)读取输入的音频audioori,对输入音频进行谱减法降噪得audioden;
(2)提取audioori和audioden的音频mfcc特征矩阵feaori和feaden;
(3)加载Deep Speech语音识别系统的深度神经网络模型和参数,同时将提取的音频mfcc特征矩阵feaori和feaden输入到Deep Speech语音识别系统中,得到转录文本phraseori和phraseden;
(4)根据转录文本phraseori和phraseden计算相似度ratiosim;
(5)根据初始输入音频的mfcc特征矩阵feaori计算对抗度ratioadv;
(6)加载音频对抗样本二分类网络的模型和参数,输入相似度ratiosim和对抗度ratioadv,预测音频audioori是否为对抗样本。
进一步,步骤(1)中,所述读取输入的音频audioori时,采用python语言中scipy库中的scipy.io.savfile函数;
所述谱减法降噪采用Berouti的改进方法,公式如下:
withα≥1,and 0<β<<1
其中,|Y(ω)|2为带噪音频的功率谱,|X(ω)|2为纯净音频的功率谱,|D(ω)|2为加性噪声的功率谱,α为过减因子,β为谱下限参数。
进一步,步骤(2)中,所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取,得到N×M维音频mfcc特征矩阵,其中,N与输入音频的长度有关,M取固定值40维。
进一步,步骤(4)中,所述相似度ratiosim基于编辑距离和WER的思维进行改进,进行简单的归一化处理,计算公式如下:
其中,S为替换的字数,D为删除的字数,I为插入的字数,C为正确的字数,N为S+D+C的字数。
进一步,步骤(5)中,所述对抗度ratioadv通过进一步压缩提取的音频mfcc特征矩阵而来,具体计算公式如下:
其中,fea为音频mfcc特征矩阵,N为步骤(2)中提取的fea的第一维度。
进一步,步骤(6)中,所述音频对抗样本二分类网络,其训练所需的良性音频数据集源于Mozilla发起的CommonVoice项目中的公共数据集以及Google的语音识别minispeech commands数据集,训练所需的对抗样本数据集通过现有的几种对抗样本的生成方法攻击所得,接着按照步骤(4)和步骤(5)生成数据集对应的相似度ratiosim和对抗度ratioadv,辅之以标签,选取二分类网络架构进行训练。
进一步,所述音频对抗样本二分类网络架构中的loss选取keras深度学习库中的categorical_crossentropy函数,优化方法采用Adam算法,具体实现采用keras深度学习库中的Adadelta函数。
进一步,训练完成之后通过model.save进行神经网络模型和参数的保存,加载该模型时,通过model.load函数加载保存的文件。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
读取输入的音频audioori,对输入音频进行谱减法降噪得audioden;
提取audioori和audioden的音频mfcc特征矩阵feaori和feaden;
加载Deep Speech语音识别系统的深度神经网络模型和参数,同时将提取的音频mfcc特征矩阵feaori和feaden输入到Deep Speech语音识别系统中,得到转录文本phraseori和phraseden;
根据转录文本phraseori和phraseden计算相似度ratiosim;
根据初始输入音频的mfcc特征矩阵feaori计算对抗度ratioadv;
加载音频对抗样本二分类网络的模型和参数,输入相似度ratiosim和对抗度ratioadv,预测音频audioori是否为对抗样本。
本发明的另一目的在于提供一种用于所述的语音对抗样本检测方法的语音对抗样本检测系统,所述语音对抗样本检测系统包括:
数据采集模块,用于读取输入的音频;
降噪模块,用于对输入音频进行谱减法降噪;
特征提取模块,用于提取初始输入音频和降噪后音频的mfcc特征矩阵;
语音识别模块,用于加载语音识别系统的深度神经网络模型和参数,将提取的音频mfcc特征矩阵输入到语音识别系统中,得到转录文本;
相似度计算模块,用于根据转录文本计算相似度;
对抗度计算模块,用于根据初始输入音频的mfcc特征矩阵计算对抗度;
对抗样本检测模块,用于加载音频对抗样本二分类网络的模型和参数,将相似度和对抗度输入到二分类网络模型,预测音频是否为对抗样本。
本发明的另一目的在于提供一种语音对抗样本识别终端,所述语音对抗样本识别终端用于实现所述的语音对抗样本检测方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明首先对现有的相似度衡量标准WER进行了改良,对其进行简单的归一化处理,而且,采用谱减法降噪的方法,更贴合对抗样本生成的逆过程;其次,本发明首次提出了对抗度的概念,将不同维度的音频mfcc特征进行压缩,扩大样本适应度的同时,保留了音频mfcc特征的性质;最后,通过二分类神经网络的方法,解决了手动设置阈值的问题,同时,相比基于音频mfcc特征直接进行二分类训练的检测方法来说,极大程度地减少了运算规模。
语音对抗样本检测方法,经实验验证,与现有的基于音频预处理进行相似度比对的检测方法以及基于音频mfcc特征直接进行二分类训练的检测方法相比,精准度和召回率分别至少提高了6.71%和8.23%,7.31%和7.12%,此外,降低了良性语音样本的误判率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音对抗样本检测方法的流程图。
图2是本发明实施例提供的语音对抗样本检测方法的原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种语音对抗样本检测方法、系统、存储介质及应用,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的语音对抗样本检测方法包括:
S101,读取输入的音频audioori,对输入音频进行谱减法降噪得audioden;
S102,提取audioori和audioden的音频mfcc特征矩阵feaori和feaden;
S103,加载Deep Speech语音识别系统的深度神经网络模型和参数,同时将提取的音频mfcc特征矩阵feaori和feaden输入到Deep Speech语音识别系统中,得到转录文本phraseori和phraseden;
S104,根据转录文本phraseori和phraseden计算相似度ratiosim;
S105,根据初始输入音频的mfcc特征矩阵feaori计算对抗度ratioadv;
S106,加载音频对抗样本二分类网络的模型和参数,输入相似度ratiosim和对抗度ratioadv,预测音频audioori是否为对抗样本。
本发明提供的语音对抗样本检测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的语音对抗样本检测方法仅仅是一个具体实施例而已。
本发明实施例中的步骤S101中,所述读取输入的音频audioori时,采用python语言中scipy库中的scipy.io.savfile函数;
所述谱减法降噪采用Berouti的改进方法,公式如下:
withα≥1,and 0<β<<1
其中,|Y(ω)|2为带噪音频的功率谱,|X(ω)|2为纯净音频的功率谱,|D(ω)|2为加性噪声的功率谱,α为过减因子,β为谱下限参数。
本发明实施例中的步骤S102中,所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取,得到N×M维音频mfcc特征矩阵,其中,N与输入音频的长度有关,M取固定值40维。
本发明实施例中的步骤S104中,所述相似度ratiosim基于编辑距离和WER的思维进行改进,进行简单的归一化处理,计算公式如下:
其中,S为替换的字数,D为删除的字数,I为插入的字数,C为正确的字数,N为S+D+C的字数。
本发明实施例中的步骤S105中,所述对抗度ratioadv通过进一步压缩提取的音频mfcc特征矩阵而来,具体计算公式如下:
其中,fea为音频mfcc特征矩阵,N为步骤(2)中提取的fea的第一维度。
本发明实施例中的步骤S106中,所述音频对抗样本二分类网络,其训练所需的良性音频数据集源于Mozilla发起的Common Voice项目中的公共数据集以及Google的语音识别mini speech commands数据集,训练所需的对抗样本数据集通过现有的几种对抗样本的生成方法攻击所得,接着按照步骤S104和步骤S105生成数据集对应的相似度ratiosim和对抗度ratioadv,辅之以标签,选取二分类网络架构进行训练,其中,loss选取keras深度学习库中的categorical_crossentropy函数,优化方法采用Adam算法,具体实现采用keras深度学习库中的Adadelta函数。训练完成之后通过model.save进行神经网络模型和参数的保存,加载该模型时,通过model.load函数加载保存的文件。
本发明实施例提供的语音对抗样本检测系统包括:
数据采集模块,用于读取输入的音频;
降噪模块,用于对输入音频进行谱减法降噪;
特征提取模块,用于提取初始输入音频和降噪后音频的mfcc特征矩阵;
语音识别模块,用于加载语音识别系统的深度神经网络模型和参数,将提取的音频mfcc特征矩阵输入到语音识别系统中,得到转录文本;
相似度计算模块,用于根据转录文本计算相似度;
对抗度计算模块,用于根据初始输入音频的mfcc特征矩阵计算对抗度;
对抗样本检测模块,用于加载音频对抗样本二分类网络的模型和参数,将相似度和对抗度输入到二分类网络模型,预测音频是否为对抗样本。
下面结合实验对本发明的技术效果作详细的描述。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明首先对现有的相似度衡量标准WER进行了改良,对其进行简单的归一化处理,而且,采用谱减法降噪的方法,更贴合对抗样本生成的逆过程;其次,本发明首次提出了对抗度的概念,将不同维度的音频mfcc特征进行压缩,扩大样本适应度的同时,保留了音频mfcc特征的性质;最后,通过二分类神经网络的方法,解决了手动设置阈值的问题,同时,相比基于音频mfcc特征直接进行二分类训练的检测方法来说,极大程度地减少了运算规模。
本发明的语音对抗样本检测方法,通过著名的开源深度学习平台Tensor Flow实现了该模型,硬件基于TitanXp GPU,与现有的基于音频预处理进行相似度比对的检测方法以及基于音频mfcc特征直接进行二分类训练的检测方法相比,精准度和召回率分别至少提高了6.71%和8.23%,7.31%和7.12%,此外,降低了良性语音样本的误判率。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种语音对抗样本检测方法,其特征在于,所述语音对抗样本检测方法具体包括:
读取输入的音频audioori,对输入音频进行谱减法降噪得audioden;
提取audioori和audioden的音频mfcc特征矩阵feaori和feaden;
加载Deep Speech语音识别系统的深度神经网络模型和参数,同时将提取的音频mfcc特征矩阵feaori和feaden输入到Deep Speech语音识别系统中,得到转录文本phraseori和phraseden;
根据转录文本phraseori和phraseden计算相似度ratiosim;
根据音频mfcc特征矩阵feaori计算对抗度ratioadv;
加载音频对抗样本二分类网络的模型和参数,输入相似度ratiosim和对抗度ratioadv,预测音频audioori是否为对抗样本;
所述读取输入的音频audioori时,采用python语言中scipy库中的scipy.io.savfile函数;
所述谱减法降噪采用Berouti的改进方法,公式如下:
其中,|Y(ω)|2为带噪音频的功率谱,|X(ω)|2为纯净音频的功率谱,|D(ω)|2为加性噪声的功率谱,α为过减因子,β为谱下限参数;
所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取,得到N×M维音频mfcc特征矩阵,其中,N与输入音频的长度有关,M取固定值40维;
所述相似度ratiosim基于编辑距离和WER的思维进行改进,进行简单的归一化处理,计算公式如下:
其中,S为替换的字数,D为删除的字数,I为插入的字数,C为正确的字数,N为S+D+C的字数;
所述对抗度ratioadv通过进一步压缩提取的音频mfcc特征矩阵而来,具体计算公式如下:
其中,fea为音频mfcc特征矩阵,N为提取的fea的第一维度。
2.如权利要求1所述的语音对抗样本检测方法,其特征在于,所述音频对抗样本二分类网络,其训练所需的良性音频数据集源于Mozilla发起的Common Voice项目中的公共数据集以及Google的语音识别mini speech commands数据集,训练所需的对抗样本数据集通过现有的几种对抗样本的生成方法攻击所得,接着生成数据集对应的相似度ratiosim和对抗度ratioadv,辅之以标签,选取二分类网络架构进行训练。
3.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述音频对抗样本二分类网络架构中的loss选取keras深度学习库中的categorical_crossentropy函数,优化方法采用Adam算法,具体实现采用keras深度学习库中的Adadelta函数;
训练完成之后通过model.save进行神经网络模型和参数的保存,加载该模型时,通过model.load函数加载保存的文件。
4.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1~2任意一项所述语音对抗样本检测方法的步骤。
5.一种实施权利要求1~2任意一项所述语音对抗样本检测方法的语音对抗样本检测系统,其特征在于,所述语音对抗样本检测系统包括:
数据采集模块,用于读取输入的音频;
降噪模块,用于对输入音频进行谱减法降噪;
特征提取模块,用于提取初始输入音频和降噪后音频的mfcc特征矩阵;
语音识别模块,用于加载语音识别系统的深度神经网络模型和参数,将提取的音频mfcc特征矩阵输入到语音识别系统中,得到转录文本;
相似度计算模块,用于根据转录文本计算相似度;
对抗度计算模块,用于根据初始输入音频的mfcc特征矩阵计算对抗度;
对抗样本检测模块,用于加载音频对抗样本二分类网络的模型和参数,将相似度和对抗度输入到二分类网络模型,预测音频是否为对抗样本。
6.一种语音对抗样本识别终端,所述语音对抗样本识别终端用于实现权利要求1~2任意一项所述语音对抗样本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110058215.9A CN112908300B (zh) | 2021-01-16 | 2021-01-16 | 一种语音对抗样本检测方法、系统、存储介质及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110058215.9A CN112908300B (zh) | 2021-01-16 | 2021-01-16 | 一种语音对抗样本检测方法、系统、存储介质及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908300A CN112908300A (zh) | 2021-06-04 |
CN112908300B true CN112908300B (zh) | 2024-05-17 |
Family
ID=76114018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110058215.9A Active CN112908300B (zh) | 2021-01-16 | 2021-01-16 | 一种语音对抗样本检测方法、系统、存储介质及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908300B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230178079A1 (en) * | 2021-12-07 | 2023-06-08 | International Business Machines Corporation | Adversarial speech-text protection against automated analysis |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN110364186A (zh) * | 2019-08-08 | 2019-10-22 | 清华大学深圳研究生院 | 一种基于对抗学习的端到端的跨语言语音情感识别方法 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
CN111564154A (zh) * | 2020-03-23 | 2020-08-21 | 北京邮电大学 | 基于语音增强算法的对抗样本攻击防御方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11176947B2 (en) * | 2017-08-02 | 2021-11-16 | Veritone, Inc. | System and method for neural network orchestration |
-
2021
- 2021-01-16 CN CN202110058215.9A patent/CN112908300B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
CN110364186A (zh) * | 2019-08-08 | 2019-10-22 | 清华大学深圳研究生院 | 一种基于对抗学习的端到端的跨语言语音情感识别方法 |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
CN111564154A (zh) * | 2020-03-23 | 2020-08-21 | 北京邮电大学 | 基于语音增强算法的对抗样本攻击防御方法及装置 |
Non-Patent Citations (1)
Title |
---|
面向语音识别系统的黑盒对抗攻击方法;陈晋音;叶林辉;郑海斌;杨奕涛;俞山青;;小型微型计算机系统;20200515(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112908300A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN111798840B (zh) | 语音关键词识别方法和装置 | |
WO2019136909A1 (zh) | 基于深度学习的语音活体检测方法、服务器及存储介质 | |
CN112183099A (zh) | 基于半监督小样本扩展的命名实体识别方法及系统 | |
CN110675862A (zh) | 语料获取方法、电子装置及存储介质 | |
US20230401338A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
Ding et al. | Personal VAD 2.0: Optimizing personal voice activity detection for on-device speech recognition | |
CN111667817A (zh) | 一种语音识别方法、装置、计算机系统及可读存储介质 | |
CN112908300B (zh) | 一种语音对抗样本检测方法、系统、存储介质及应用 | |
Wang et al. | Gated convolutional LSTM for speech commands recognition | |
CN111477212B (zh) | 内容识别、模型训练、数据处理方法、系统及设备 | |
CN112017676A (zh) | 音频处理方法、装置和计算机可读存储介质 | |
CN113782029A (zh) | 语音识别模型的训练方法、装置、设备以及存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN111429919A (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
US20230386453A1 (en) | Method for detecting an audio adversarial attack with respect to a voice command processed byan automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN115565529A (zh) | 基于语音识别的3d模型控制方法、装置、设备和存储介质 | |
CN111933180B (zh) | 音频拼接检测方法、系统、移动终端及存储介质 | |
CN111883133B (zh) | 客服语音识别方法、装置、服务器及存储介质 | |
CN113611284A (zh) | 语音库构建方法、识别方法、构建系统和识别系统 | |
CN113111855A (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
Li et al. | Grammar-based semi-supervised incremental learning in automatic speech recognition and labeling | |
CN113192495A (zh) | 语音识别方法及装置 | |
Ejigu et al. | Enhancing Amharic Speech Recognition in Noisy Conditions through End-to-End Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |