CN114664311A - 一种记忆网络增强的变分推断无声攻击检测方法 - Google Patents

一种记忆网络增强的变分推断无声攻击检测方法 Download PDF

Info

Publication number
CN114664311A
CN114664311A CN202210206415.9A CN202210206415A CN114664311A CN 114664311 A CN114664311 A CN 114664311A CN 202210206415 A CN202210206415 A CN 202210206415A CN 114664311 A CN114664311 A CN 114664311A
Authority
CN
China
Prior art keywords
hidden vector
silent
memory network
attack
attack detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210206415.9A
Other languages
English (en)
Other versions
CN114664311B (zh
Inventor
徐文渊
李鑫锋
闫琛
冀晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210206415.9A priority Critical patent/CN114664311B/zh
Publication of CN114664311A publication Critical patent/CN114664311A/zh
Application granted granted Critical
Publication of CN114664311B publication Critical patent/CN114664311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/527Centralised call answering arrangements not requiring operator intervention

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种记忆网络增强的变分推断无声攻击检测方法,该方法提出一种基于通用的、轻量级的记忆网络增强的变分推断无声攻击检测模型来检测人耳不可感知的语音攻击,该模型可以立即在各种类型的现有设备上实现。本发明提出使用无监督训练方法,使用与设备无关的正常可听音频数据,实现统一模型训练,从而对攻击数据实现检测。本发明方法实现了对无声语音攻击的检测,有利于后续针对性的对物联网智能语音系统进行防御。本发明方法可以有效解决现有攻击检测方法提出的音频特征可能并不存在于每台设备上,故需要为每个要保护的设备定制功能、数据集和型号可能成本高昂的问题。

Description

一种记忆网络增强的变分推断无声攻击检测方法
技术领域
本发明属于人工智能语音助手安全技术领域,具体涉及一种记忆网络增强的变分推断无声攻击检测方法。
背景技术
物联网时代诸多安全隐患逐渐显现,其中破坏性、隐蔽性最强的一种攻击是无声攻击,又称海豚音攻击(Dolphin Attack,DA),这是一种有效的针对语音识别系统的攻击方式。语音助手的普及随之加剧了无声语音攻击的威胁,这种攻击可以在未经用户授权的情况下秘密控制智能设备。例如,攻击者可以向智能音箱发送人耳无法感知的语音命令,并让智能扬声器在用户听不到的情况下打开家门。这些攻击利用麦克风的硬件漏洞,将无声的超声波攻击信号转换为设备电路内部的恶意语音命令。为了缓解这种威胁,现有研究提出了几种基于硬件和基于软件的对策。尽管硬件重新设计可以彻底修复未来设备的漏洞,但通过不改变任何硬件且可立即保护各种现有设备的软件解决方案仍然是各个智能设备公司迫切需要的。
首先,现有设备如智能手机、可穿戴设备和智能扬声器,都具有语音助手软件、多个麦克风和较强的计算能力。由于物联网设备的海量异构、低能耗特点,因此针对无声攻击的防御方法需要较好的泛化性和整体轻量级。第二,现有的软件防护方法基于采集大量正常、攻击语音数据,以实现有监督的正常/攻击音频分类。此外,收集攻击语音样本需要借助专用的高精度信号发生器,且非常耗时。最后,发明人对20台设备进行的攻击实验揭示了一个以前未报道的事实——听不见的语音攻击在各种设备上表现不同——对于相同的命令,注入语音的特征因设备而异,频谱音频分析证实了这一点。进一步的调查发现,这种差异是由这些设备中麦克风之间固有的频率响应差异造成的。这一观察结果本质上表明,以前的攻击检测工作提出的音频特征可能并不存在于每台设备上。为每个要保护的设备定制功能、数据集和型号可能成本高昂。
发明内容
针对上述现有技术中存在的缺陷,本发明提出一种记忆网络增强的变分推断无声攻击检测方法,是一种针对无声语音攻击的通用、轻量级、无须硬件改动的防御措施。本发明方法实现了对无声语音攻击的检测,有利于后续针对性的对物联网智能语音系统进行安全性增强。
本发明采用以下技术方案实现:
一种记忆网络增强的变分推断无声攻击检测方法,首先训练得到一个记忆网络增强的变分推断无声攻击检测模型,然后将所述检测模型部署于智能设备上即可进行无监督的无声攻击检测;所述记忆网络增强的变分推断无声攻击检测模型的训练方法如下:
步骤1、基于定时器周期性地采集环境噪声,用于感知、分析设备当前所处环境的噪声特征;
步骤2、当检测到语音时,利用谱减法对其进行快速去噪,由此得到包含人声指令的数据集,所述数据集中无须包含真实的无声攻击数据,免去了昂贵的信号发生器、超声波阵列等装置在人力和成本方面的开销;
步骤3、将步骤2所得数据集进行训练集/测试集切分,其中训练集进行短时傅里叶变换得到语谱图,用于训练模型;测试集经短时傅里叶变换后得到语谱图,用于对训练得到的模型进行测试;
步骤4、变分推断编码器的训练,用于实现输入频谱X到隐向量Z的映射:编码器初始为随机参数,编码器结合KL散度将所有训练集的输入频谱X的分布映射为多元高斯分布,实现X→μ,δ的映射,并通过特征离散化采样,得到隐向量Z;
步骤5、经过记忆网络的相似度查询,用于实现隐向量Z→Z′的映射;记忆模块初始为M项记忆单元,表示各类正常音频的特征;将隐向量Z输入记忆网络进行相似度查询,得到查询后的隐向量Z′;
步骤6:解码器重构,用于实现隐向量Z′到重构频谱X′的生成:采用解码器将相似度查询后的隐向量Z′重建为重构频谱X′,计算原始频谱X和重构频谱X′的相似度分数,根据相似度分数确定阈值,即可得到无监督的无声攻击检测模型,基于阈值即可知当前检测音频是否为攻击。
上述技术方案中,进一步地,所述的步骤1中,在没有检测到人声的状态下,每隔5s采集一段环境音频,直至检测到人声,取最近五个环境音频的平均作为环境噪声。
进一步地,步骤4中,所述输入频谱X到隐向量Z的映射具体为:
步骤4.1:变分推断编码器对输入频谱X进行特征提取,结合KL散度损失函数的约束,得到高维的隐向量Z,具体为:
DKL[q(Z|x)||p(Z|X)]=EZ~q[lnq(Z|X)-lnp(Z|X)]
p(Z)为各个隐向量Z的整体原始分布;
q(Z)为编码器构建的近似分布,用于逼近p(Z);
步骤4.2:特征离散化采样;
Z=f(N(0,I),p(Z))=μ(X)+δ2(X)*N(0,I)
其中,N(0,I)为标准正态分布,μ(X)为整体样本的均值,δ2(X)为整体样本的方差。
进一步地,所述的步骤5中,将隐向量Z输入记忆模块进行相似度查询,得到查询后的隐向量Z′,具体为:
单一输入的隐向量Z细分为H×W=K个特征子单元,每个特征子单元
Figure BDA0003526109120000031
的维度为1×1×C;计算每个特征子单元和M个记忆单元的余弦相似度,最终得到M×K大小的二维相关图,并在垂直方向上应用softmax函数,通过以下公式获得匹配概率
Figure BDA0003526109120000032
Figure BDA0003526109120000033
其中,pm为当前查询的第m个记忆单元,pm′指1~M中的任意一个记忆单元;通过计算匹配概率
Figure BDA0003526109120000034
和M个记忆单元获取相似度查询后的特征子单元
Figure BDA0003526109120000035
Figure BDA0003526109120000036
H×W=K个查询后得到的特征子单元
Figure BDA0003526109120000041
通过聚合重新形成隐向量Z′。
本发明的发明原理为:
本发明的技术流程为将正常音频的语谱图通过变分推断编码器正态分布投射到高维空间、在高维空间采样成向量、再通过记忆网络查询,对向量进行计算及替换,并由此得到重构后的音频语谱图,最终以重构前后的负对数似然值作为判断该音频正常或异常的依据。发明人研究发现,良性音频和攻击音频的重构差异的分布之间存在着明显分离,这使得区分异常和正常音频非常容易。一般来说正常音频重构后的负对数似然值更高,而攻击音频的数值更低。
本发明以卷积块为基本单元的变分推断自编码器为骨干网络,即便去除图4中阶段2的记忆,阶段1、3的编码/解码仍可实现对输入的众多语谱图进行映射、采样得到高维空间的向量、通过重构还原得到具有物理意义的语谱图。而本发明关键点在于,深度神经网络通常具有一定泛化能力,会导致一部分无声攻击的语谱图得到较高的对数似然值,因而被模型漏检;而本发明的记忆网络中可以实现对变分推断自编码器的泛化能力约束,大大降低无声攻击漏检的概率。记忆网络通过训练阶段中对大量正常语谱图在高斯分布下的采样向量,进行表征学习,不断基于大量正常音频向量更新记忆单元;在推理阶段时,变分推断编码器输出同样为采样后的向量,通过与记忆网络各单元相似度查询,按照相似度进行加权相乘,因此无声攻击音频的特征几乎被完全替换成了正常特征,在重构前后的语谱图相似度很低。
本发明的有益效果是:
本发明提出一种基于通用的、轻量级、无监督的记忆网络增强的变分推断无声攻击检测模型来检测无声的语音攻击,该模型可以立即在各种类型的现有设备上实现。受异常检测的启发,异常样本通常是稀少、难以获取的,并且特征多变,发明人将对无声的语音攻击的检测转化为一个无监督的异常检测问题。
本发明通过对正常可听、无声攻击在不同设备上的特征进行分析,发现正常音频在不同智能设备上的表现十分接近,而无声攻击引起的音频特征变化差异极其明显,因此可以通过正常样本的学习来检测异常。记忆模块通过提取并存储正常音频的特征向量,使得无声攻击必须符合其映射,从而导致最终重构频谱与原始频谱存在明显差异。本发明方法可以有效解决现有攻击检测方法提出的音频特征可能并不存在于每台设备上,故需要为每个要保护的设备定制功能、数据集和型号可能成本高昂的问题。
本发明使用无监督训练方法,使用与设备无关的正常可听音频数据,实现统一模型训练,从而对攻击数据实现检测。本发明方法实现了对无声语音攻击的检测,有利于后续针对性的对物联网智能语音系统进行防御。
附图说明
图1是本发明记忆网络增强的变分推断无声攻击检测方法示意图;
图2不同设备正常音频语谱图与攻击音频语谱图差异对比示意图;
图3不同设备正常音频语谱图与攻击音频语谱图的相似度矩阵;
图4是记忆网络增强的变分推断模型细节图;
图5是记忆网络原理图;
图6五款典型手机实验得到的ROC图(响应接收者曲线)。
具体实施方式
图1所示为本发明方法的流程图,主要包括音频预处理、变分推断编码器、记忆网络、解码器、输出决策结果。
一种记忆网络增强的变分推断无声攻击检测方法,具体步骤如下:
首先需要消除语音命令的一些干扰因素,如环境噪声、说话速度等,以便后续的频谱特征能够代表重要的信息。
步骤1:基于定时器周期性地采集环境噪声,用于感知、分析设备当前所处环境的噪声特征。在没有检测到人声的状态下,每隔5s采集一段环境音频,直至检测到人声,取最近五个环境音频的平均作为环境噪声。由于音频为一维时序信号,且环境中存在噪声等干扰因素,因此需通过必要的降噪处理,在此首先采用低通滤波器将环境中的低于50Hz等可能由供电工频信号引起的噪声去除,着重使用维纳滤波法对处于100Hz-8kHz进行降噪,因为该频段可能影响语音识别、声纹识别模块功能。对于降噪后的频谱通过短时傅里叶变换、梅尔滤波变换等时频域信号转换方法,发明人发现短时傅里叶变化方法具有最好的效果。由此一维音频信号转换为二维语谱图。
步骤2:当检测到语音时,利用谱减法对其进行快速去噪,由此得到包含人声指令的数据集,所述数据集中无须包含真实的无声攻击数据,免去了昂贵的信号发生器、超声波阵列等装置在人力和成本方面的开销;
步骤3:基于步骤1,2方法进行语音数据采集,包括智能设备录制无声语音攻击和正常语音。其中附图2不同设备正常音频语谱图与攻击音频语谱图差异对比示意图,显示了(a)-(c)为三款智能手机录下“OK Google”的频谱,由附图3不同设备正常音频语谱图与攻击音频语谱图的相似度矩阵可知,三者十分相似。而附图2中(d)-(f)为同样三款手机录制到无声语音攻击的“OK Google”频谱,而附图3中可见同款设备录制到同一指令的有声无声差异对比非常显著,(a)-(d)/(b)-(e)/(c)-(f)。此外,附图2中(g)-(l)为另外六款智能手机录下的无声语音攻击的“OK Google”频谱,可见(d)-(l)尽管为同一个攻击信号,但不同设备间的差异仍然是显著的。由此可知,智能设备麦克风对于正常音频的频率响应十分接近,而对于无声攻击的频响则是各不相同。
步骤4:通过步骤3采集所得数据集进行训练/测试集切分。其中训练集只选取部分正常语音数据,并进行短时傅里叶变换(Short Time Fourier Transform,STFT)得到语谱图,用于训练模型;测试集选取正常及攻击语音数据,经短时傅里叶变换后得到语谱图,用于对训练得到的模型进行测试;模型架构如附图4记忆网络增强的变分推断模型细节图所示。
步骤5:如图4阶段1所示,变分推断编码器的训练。该步骤实现输入频谱X到隐向量Z的映射。
步骤5.1:变分推断编码器在训练过程中尝试对大量正常语音的输入频谱X做特征提取,得到高维的隐向量Z。该编码器结合KL散度损失函数的约束,得到高维的隐向量Z,具体为:
DKL[q(Z|X)||p(Z|X)]=EZ~q[lnq(Z|X)-lnp(Z|X)]
p(Z)为各个隐向量Z的整体原始分布;
q(Z)为编码器构建的近似分布,用于逼近p(Z);
将各个高维的隐向量Z的整体分布映射为p(Z),使该分布不断接近正态分布形式。变分推断编码器的任务是刻画音频频谱中各个频点之间的依赖关系。如语谱图中时间频率轴接近的点,它们相互形成声音的共振峰和谐波。由于形成的分布接近正态形式,因此给定一个音频语谱图X,可以提取隐向量Z,并算出p(Z),看上去更像正常语音的频谱具有更大的概率值且处于正态分布的质心附近,看上去像攻击或白噪声的频谱p(Z)概率值更小且处于正态分布边界,甚至不属于正态分布范围。
步骤5.2:特征离散化采样,由于步骤5.1得到的是每个样本的概率分布,即变分推断编码器的原始输出为高维均值向量μ、方差向量δ。而对于一个连续分布中的所有数据进行后续的记忆查询和解码器重构是不现实的。需要通过一种随机的离散化采样,以分布中某一点为代表,大大降低了计算复杂度。具体的采样方法为:Z=f(N(0,I),p(Z))=μ(X)+δ2(X)*N(0,I)。由此各个样本由分布形式p(Z)表征为离散向量Z。
步骤6、如图4阶段2所示,记忆网络实现隐向量Z→Z′的映射。
步骤6.1:深度神经网络通常具有一定泛化能力,会导致一部分无声攻击的语谱图得到较高的对数似然值,因而被模型漏检。记忆网络中可以实现对变分推断自编码器的泛化能力约束,大大降低无声攻击漏检的概率。记忆网络包含M个记忆单元,记录正常数据的各种典型模式。本发明以pm表示记忆网络中的各个记忆单元。
步骤6.2:记忆网络相似度查询。如附图5,记忆网络原理图所示,记忆网络初始为M项记忆单元,表示各类正常音频的特征。其中单一输入的隐向量Z可以细分为H×W=K个特征子单元,每个特征子单元
Figure BDA0003526109120000071
的维度为1×1×C。对于每个特征子单元而言,将和M个记忆单元分别计算余弦相似度,最终得到M×K大小的二维相关图,并在垂直方向上应用softmax函数,通过以下公式(1)获得匹配概率
Figure BDA0003526109120000072
Figure BDA0003526109120000073
其中,pm为当前查询的第m个记忆单元,pm′指1~M中的任意一个记忆单元;
通过计算匹配概率
Figure BDA0003526109120000081
和M个记忆单元获取相似度查询后的特征子单元
Figure BDA0003526109120000082
如公式(2)所示:
Figure BDA0003526109120000083
步骤6.3:H×W=K个特征子单元通过聚合重新形成查询后的隐向量Z′。用查询到的Z′替换原来的Z。这一过程对于检测听不见的样本至关重要,因为异常数据不在正态分布范围内。对于攻击频谱的隐向量Z使用存储模块强制将异常特征替换为正常训练数据的特征,从而进一步放大原本输入频谱X和重构频谱X′之间的差异。
步骤7:解码器重构Z′→X′。在获得隐向量Z′之后,使用DCGAN(深度卷积生成对抗网络)生成器作为解码器来重构Z′→X′,它利用一些拓扑约束,使其即使在使用无监督框架进行训练时也更加稳定。此外还对MSE(均方误差)和CE(交叉熵)作为损失函数进行了评估,发现它们都源于最大似然理论,尽管CE的性能优于MSE。在推理阶段,第3阶段的解码器将隐藏向量Z′重建为完整的重构频谱X′。计算原始频谱X和重构频谱X′的相似度分数,根据正常语音数据的相似度分数确定阈值,即可得到无监督的无声攻击检测模型,基于阈值便可知当前检测音频是否为攻击。
为了评估本发明方法的性能,构建一个不可听语音攻击数据集,如表1所示,该数据集包含从20部主流智能手机收集的攻击音频样本组成的测试平台,设置了各种攻击距离、语音内容等。结果显示,平均AUC(接收者响应曲线面积)为0.995,EER(等错误率)为2.16%,准确率为97.56%,表明本发明方法在各种条件下都是有效和稳健的。它也是轻量级的(型号参数<1.2MB),可以潜在地部署在各种设备上。此外,附图6表明了本方法在五款典型手机实验中的ROC曲线。
表1二十款手机实验得到的整体性能列表
Figure BDA0003526109120000091

Claims (4)

1.一种记忆网络增强的变分推断无声攻击检测方法,其特征在于,首先训练得到一个记忆网络增强的变分推断无声攻击检测模型,然后将所述检测模型部署于智能设备上即可进行无监督的无声攻击检测;所述记忆网络增强的变分推断无声攻击检测模型的训练方法如下:
步骤1、基于定时器周期性地采集环境噪声,用于感知、分析设备当前所处环境的噪声特征;
步骤2、当检测到语音时,利用谱减法对其进行快速去噪,由此得到包含人声指令的数据集;
步骤3、将步骤2所得数据集进行训练集/测试集切分,其中训练集进行短时傅里叶变换得到语谱图,用于训练模型;测试集经短时傅里叶变换后得到语谱图,用于对训练得到的模型进行测试;
步骤4、变分推断编码器的训练,用于实现输入频谱X到隐向量Z的映射:编码器初始为随机参数;编码器结合KL散度将所有训练集的输入频谱X的分布映射为多元高斯分布,实现X→μ,δ的映射,并通过特征离散化采样,得到隐向量Z;
步骤5、经过记忆网络的相似度查询,用于实现隐向量Z→Z′的映射;记忆网络初始为M项记忆单元,表示各类正常音频的特征;将隐向量Z输入记忆网络进行相似度查询,得到查询后的隐向量Z′;
步骤6:解码器重构,用于实现隐向量Z′到重构频谱X′的生成:采用解码器将相似度查询后的隐向量Z′重建为重构频谱X′,计算原始频谱X和重构频谱X′的相似度分数,根据正常语音数据的相似度分数确定阈值,即可得到无监督的无声攻击检测模型,基于阈值即可判断当前检测音频是否为攻击。
2.根据权利要求1所述的记忆网络增强的变分推断无声攻击检测方法,其特征在于,所述的步骤1中,在没有检测到人声的状态下,每隔5s采集一段环境音频,直至检测到人声,取最近五个环境音频的平均作为环境噪声。
3.根据权利要求1所述的记忆网络增强的变分推断无声攻击检测方法,其特征在于,步骤4中,所述输入频谱X到隐向量Z的映射具体为:
步骤4.1:变分推断编码器对输入频谱X进行特征提取,结合KL散度损失函数的约束,得到高维的隐向量Z,具体为:
DKL[q(Z|X)||p(Z|X)]=EZ~q[lnq(Z|X)-lnp(Z|X)]
其中,p(Z)为各个隐向量Z的整体原始分布;
q(Z)为编码器构建的近似分布,用于逼近p(Z);
步骤4.2:特征离散化采样;
Z=f(N(0,I),p(Z))=μ(X)+δ2(X)*N(0,I)
其中,N(0,I)为标准正态分布,μ(X)为整体样本的均值,δ2(X)为整体样本的方差。
4.根据权利要求1所述的记忆网络增强的变分推断无声攻击检测方法,其特征在于,所述的步骤5中,将隐向量Z输入记忆模块进行相似度查询,得到查询后的隐向量Z′,具体为:
单一输入的隐向量Z细分为H×W=K个特征子单元,每个特征子单元
Figure FDA0003526109110000027
的维度为1×1×C;计算每个特征子单元和M个记忆单元的余弦相似度,最终得到M×K大小的二维相关图,并在垂直方向上应用softmax函数,通过以下公式获得匹配概率
Figure FDA0003526109110000021
Figure FDA0003526109110000022
其中,pm为当前查询的第m个记忆单元,pm′指1~M中的任意一个记忆单元;通过计算匹配概率
Figure FDA0003526109110000023
和M个记忆单元获取相似度查询后的特征子单元
Figure FDA0003526109110000024
Figure FDA0003526109110000025
H×W=K个查询后得到的特征子单元
Figure FDA0003526109110000026
通过聚合重新形成隐向量Z′,用查询到的Z′替换原来的Z。
CN202210206415.9A 2022-03-01 2022-03-01 一种记忆网络增强的变分推断无声攻击检测方法 Active CN114664311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210206415.9A CN114664311B (zh) 2022-03-01 2022-03-01 一种记忆网络增强的变分推断无声攻击检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210206415.9A CN114664311B (zh) 2022-03-01 2022-03-01 一种记忆网络增强的变分推断无声攻击检测方法

Publications (2)

Publication Number Publication Date
CN114664311A true CN114664311A (zh) 2022-06-24
CN114664311B CN114664311B (zh) 2023-05-05

Family

ID=82026866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210206415.9A Active CN114664311B (zh) 2022-03-01 2022-03-01 一种记忆网络增强的变分推断无声攻击检测方法

Country Status (1)

Country Link
CN (1) CN114664311B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116938761A (zh) * 2023-09-15 2023-10-24 深圳市扬名伟创信息技术有限公司 一种物联网终端快速调测系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531172A (zh) * 2016-11-23 2017-03-22 湖北大学 基于环境噪声变化检测的说话人语音回放鉴别方法及系统
CN108172224A (zh) * 2017-12-19 2018-06-15 浙江大学 基于机器学习的防御无声指令控制语音助手的方法
WO2019173304A1 (en) * 2018-03-05 2019-09-12 The Trustees Of Indiana University Method and system for enhancing security in a voice-controlled system
CN111314331A (zh) * 2020-02-05 2020-06-19 北京中科研究院 一种基于条件变分自编码器的未知网络攻击检测方法
CN112416643A (zh) * 2020-11-26 2021-02-26 清华大学 无监督异常检测方法与装置
CN113192504A (zh) * 2021-04-29 2021-07-30 浙江大学 一种基于域适应的无声语音攻击检测方法
CN113949550A (zh) * 2021-10-08 2022-01-18 东北大学 一种SDN环境下的DDoS攻击检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531172A (zh) * 2016-11-23 2017-03-22 湖北大学 基于环境噪声变化检测的说话人语音回放鉴别方法及系统
CN108172224A (zh) * 2017-12-19 2018-06-15 浙江大学 基于机器学习的防御无声指令控制语音助手的方法
WO2019173304A1 (en) * 2018-03-05 2019-09-12 The Trustees Of Indiana University Method and system for enhancing security in a voice-controlled system
CN111314331A (zh) * 2020-02-05 2020-06-19 北京中科研究院 一种基于条件变分自编码器的未知网络攻击检测方法
CN112416643A (zh) * 2020-11-26 2021-02-26 清华大学 无监督异常检测方法与装置
CN113192504A (zh) * 2021-04-29 2021-07-30 浙江大学 一种基于域适应的无声语音攻击检测方法
CN113949550A (zh) * 2021-10-08 2022-01-18 东北大学 一种SDN环境下的DDoS攻击检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DING CHEN ETC.: "SQL Injection Attack Detection and Prevention Techniques Using Deep Learning", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 *
贾维彬 等: "基于声波测试碰撞传感器可靠性研究分析", 《控制工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116938761A (zh) * 2023-09-15 2023-10-24 深圳市扬名伟创信息技术有限公司 一种物联网终端快速调测系统及方法
CN116938761B (zh) * 2023-09-15 2024-01-12 深圳市扬名伟创信息技术有限公司 一种物联网终端快速调测系统及方法

Also Published As

Publication number Publication date
CN114664311B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN111445905B (zh) 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
Yang et al. Characterizing speech adversarial examples using self-attention u-net enhancement
Hussain et al. Experimental study on extreme learning machine applications for speech enhancement
Shah et al. Time-frequency mask-based speech enhancement using convolutional generative adversarial network
Patel et al. Speech recognition using hidden Markov model with MFCC-subband technique
Wang et al. ia-PNCC: Noise Processing Method for Underwater Target Recognition Convolutional Neural Network.
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
CN102789779A (zh) 一种语音识别系统及其识别方法
Wickramasinghe et al. Frequency Domain Linear Prediction Features for Replay Spoofing Attack Detection.
CN112786059A (zh) 一种基于人工智能的声纹特征提取方法及装置
CN114495950A (zh) 一种基于深度残差收缩网络的语音欺骗检测方法
CN114664311B (zh) 一种记忆网络增强的变分推断无声攻击检测方法
CN115758082A (zh) 一种轨道交通变压器故障诊断方法
CN113782044B (zh) 一种语音增强方法及装置
Helali et al. Real time speech recognition based on PWP thresholding and MFCC using SVM
Xu et al. U-former: Improving monaural speech enhancement with multi-head self and cross attention
Tran et al. Denoising induction motor sounds using an autoencoder
CN117079665A (zh) 基于孪生注意力对抗网络的工业设备异常声信号检测方法及系统
Wang et al. Research on speech enhancement based on deep neural network
Dawton et al. C-AVDI: Compressive measurement-based acoustic vehicle detection and identification
Ashurov et al. Classification of Environmental Sounds Through Spectrogram-Like Images Using Dilation-Based CNN
CN117690421B (zh) 降噪识别联合网络的语音识别方法、装置、设备及介质
Ouyang Single-Channel Speech Enhancement Based on Deep Neural Networks
JP2018049041A (ja) 音響モデル学習装置、音声認識装置、雑音情報処理装置、これらの方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant