CN111564154B - 基于语音增强算法的对抗样本攻击防御方法及装置 - Google Patents

基于语音增强算法的对抗样本攻击防御方法及装置 Download PDF

Info

Publication number
CN111564154B
CN111564154B CN202010206879.0A CN202010206879A CN111564154B CN 111564154 B CN111564154 B CN 111564154B CN 202010206879 A CN202010206879 A CN 202010206879A CN 111564154 B CN111564154 B CN 111564154B
Authority
CN
China
Prior art keywords
sample
voice
voice sample
recognized
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010206879.0A
Other languages
English (en)
Other versions
CN111564154A (zh
Inventor
李丽香
潘爽
彭海朋
李帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010206879.0A priority Critical patent/CN111564154B/zh
Publication of CN111564154A publication Critical patent/CN111564154A/zh
Application granted granted Critical
Publication of CN111564154B publication Critical patent/CN111564154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/302Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Technology Law (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明实施例提供基于语音增强算法的对抗样本攻击防御方法及装置,可以获取待识别语音样本与待识别语音样本的频谱特征;根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法;通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。从而通过获取待识别语音样本后对待识别语音样本进行去噪处理后,通过对去噪后的语音样本进行识别,增加语音识别准确率,提高防御对抗样本攻击的效率。

Description

基于语音增强算法的对抗样本攻击防御方法及装置
技术领域
本发明涉及信息技术领域,特别是涉及基于语音增强算法的对抗样本攻击防御方法及装置。
背景技术
目前,随着语音识别技术的快速发展,其用处已经越来越广泛。语音识别技术可以为人们的生活提供各种各样的服务,并且语音识别技术也大大提高了人机交互的效率。然而当攻击者通过在语音样本中加入一些特意制作的小的噪声生成对抗样本时,就可能会使精心制作的神经网络产生错误的识别结果。
然而现有技术对语音样本识别时,一般直接通过训练好的网络模型对语音样本进行识别,对于对抗样本的识别效果往往并不好,甚至会出现语音失真,识别结果错误等。
发明内容
本发明实施例的目的在于提供基于语音增强算法的对抗样本攻击防御方法及装置,以实现增加语音识别准确率的目的。具体技术方案如下:
在本申请实施的第一方面,首先提供了一种基于双层卷积神经网络的自动化威胁情报提取方法,包括:
获取待识别语音样本与待识别语音样本的频谱特征;
根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法;
通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。
可选的,根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,包括:
根据待识别语音样本的频谱特征,通过基于连续最小值跟踪的谱减法对待识别语音样本进行噪声频谱的计算,得到第一估计噪声频谱;
根据第一估计噪声频谱对待识别语音样本进行去噪,得到第一语音样本;
根据第一语音样本,通过结合语音存在概率的对数MMSE算法对第一语音样本进行噪声频谱的计算,得到第二估计噪声频谱;
根据第二估计噪声频谱对第一语音样本进行去噪,得到去噪后的语音样本。
可选的,根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,包括:
根据待识别语音样本的频谱特征,通过结合语音存在概率的对数MMSE算法对待识别语音样本进行噪声频谱的计算,得到第三估计噪声频谱;
根据第三估计噪声频谱对待识别语音样本进行去噪,得到第三语音样本;
根据第三语音样本,通过基于连续最小值跟踪的谱减法对第三语音样本进行噪声频谱的计算,得到第四估计噪声频谱;
根据第四估计噪声频谱对第三语音样本进行去噪,得到去噪后的语音样本。
可选的,待识别语音样本的频谱特征包括所述待识别语音样本的相位,根据第一估计噪声频谱对待识别语音样本进行去噪,得到第一语音样本,包括:
通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的频谱估计,|Y(ω)|为待识别语音样本的幅度谱,φy(ω)为待识别语音样本的相位,/>为离散时间傅立叶变换后的待识别语音的频谱,/>为估计噪声的幅度谱,/>为离散时间傅立叶变换后的噪声的频谱,j为虚数单位。
可选的,根据第二估计噪声频谱对第一语音样本进行去噪,得到去噪后的语音样本,包括:
通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的估计谱在频率ωk的幅度,Xk为预先获取的纯净的信号谱在频率ωk的幅度,Y(ωk)为待识别语音样本的频谱,/>表示在频点K存在语音,表示在待识别语音样本的频谱Y(ωk)的条件下,存在语音的条件概率,E为求加权均值。
在本申请实施的第二方面,提供了一种基于语音增强算法的对抗样本攻击防御装置,包括:
特征获取模块,用于获取待识别语音样本与待识别语音样本的频谱特征;
样本去噪模块,用于根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法;
语音识别模块,用于通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。
可选的,样本去噪模块,包括:
第一估计子模块,用于根据待识别语音样本的频谱特征,通过基于连续最小值跟踪的谱减法对待识别语音样本进行噪声频谱的计算,得到第一估计噪声频谱;
第一去噪子模块,用于根据第一估计噪声频谱对待识别语音样本进行去噪,得到第一语音样本;
第二估计子模块,用于根据第一语音样本,通过结合语音存在概率的对数MMSE算法对第一语音样本进行噪声频谱的计算,得到第二估计噪声频谱;
第二去噪子模块,用于根据第二估计噪声频谱对第一语音样本进行去噪,得到去噪后的语音样本。
可选的,样本去噪模块,包括:
第三估计子模块,用于根据待识别语音样本的频谱特征,通过结合语音存在概率的对数MMSE算法对待识别语音样本进行噪声频谱的计算,得到第三估计噪声频谱;
第三去噪子模块,用于根据第三估计噪声频谱对待识别语音样本进行去噪,得到第三语音样本;
第四估计子模块,用于根据第三语音样本,通过基于连续最小值跟踪的谱减法对第三语音样本进行噪声频谱的计算,得到第四估计噪声频谱;
第四去噪子模块,用于根据第四估计噪声频谱对第三语音样本进行去噪,得到去噪后的语音样本。
可选的,待识别语音样本的频谱特征包括所述待识别语音样本的相位,根据第一估计噪声频谱对待识别语音样本进行去噪,得到第一语音样本,包括:
通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的频谱估计,|Y(ω)|为待识别语音样本的幅度谱,φy(ω)为待识别语音样本的相位,/>为离散时间傅立叶变换后的待识别语音的频谱,/>为估计噪声的幅度谱,/>为离散时间傅立叶变换后的噪声的频谱,j为虚数单位。
可选的,根据第二估计噪声频谱对第一语音样本进行去噪,得到去噪后的语音样本,包括:
通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的估计谱在频率ωk的幅度,Xk为预先获取的纯净的信号谱在频率ωk的幅度,Y(ωk)为待识别语音样本的频谱,/>表示在频点K存在语音,表示在待识别语音样本的频谱Y(ωk)的条件下,存在语音的条件概率,E为求加权均值。
在本申请实施的第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的计算机程序时,实现上述任一基于语音增强算法的对抗样本攻击防御方法。
在本申请实施的第四方面,提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述任一基于语音增强算法的对抗样本攻击防御方法。
本发明实施例提供基于语音增强算法的对抗样本攻击防御方法及装置,可以获取待识别语音样本与待识别语音样本的频谱特征;根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法;通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。从而通过获取待识别语音样本后对待识别语音样本进行去噪处理后,通过对去噪后的语音样本进行识别,增加语音识别准确率,提高防御对抗样本攻击的效率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种基于语音增强算法的对抗样本攻击防御方法的一种流程图;
图2为本申请实施例的通过估计噪声频谱对待识别语音样本进行去噪的一种流程图;
图3为本申请实施例的一种基于语音增强算法的对抗样本攻击防御方法的一种实例图;
图4为本申请实施例的通过估计噪声频谱对待识别语音样本进行去噪的另一种流程图;
图5a为本申请实施例的一种纯净语音样本的时域图;
图5b为本申请实施例的一种对抗样本的时域图;
图5c为本申请实施例的一种去噪后样本的时域图;
图6为本申请实施例的一种基于语音增强算法的对抗样本攻击防御的装置的一种示意图;
图7为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请实施的第一方面,首先提供了一种基于语音增强算法的对抗样本攻击防御方法,包括:
获取待识别语音样本与待识别语音样本的频谱特征;
根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE(最小均方误差算法)算法;
通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。
可见,本发明实施例提供基于语音增强算法的对抗样本攻击防御方法及装置,可以获取待识别语音样本与待识别语音样本的频谱特征;根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法;通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。从而通过获取待识别语音样本后对待识别语音样本进行去噪处理后,通过对去噪后的语音样本进行识别,增加语音识别准确率,提高防御对抗样本攻击的效率。
以下进行详细说明,参见图1,图1为本申请实施例的一种基于语音增强算法的对抗样本攻击防御方法的一种流程图,包括:
步骤S11,获取待识别语音样本与待识别语音样本的频谱特征。
其中,待识别语音样本可以为任意格式的语音样本,语音样本的频谱特征可以包括语音信号的相位谱、幅度谱等,本申请对此不进行限定。
本申请实施例的基于语音增强算法的对抗样本攻击防御方法,针对的是智能终端设备中的语音样本,因此可以通过智能终端设备执行,具体的,该智能终端设备可以为智能手机、个人电脑或服务器等。
步骤S12,根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本。
其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法。
可选的,待识别语音样本的频谱特征包括所述待识别语音样本的相位,基于连续最小值跟踪的谱减法,通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的频谱估计,|Y(ω)|为待识别语音样本的幅度谱,φy(ω)为待识别语音样本的相位,/>为离散时间傅立叶变换后的待识别语音的频谱,/>为估计噪声的幅度谱,/>为离散时间傅立叶变换后的噪声的频谱,j为虚数单位。
其中,通过带噪语音的相位代替噪声的相位,不会对语音识别造成影响。
可选的,结合语音存在概率的对数MMSE算法,通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的估计谱在频率ωk的幅度,Xk为预先获取的纯净的信号谱在频率ωk的幅度,Y(ωk)为待识别语音样本的频谱,/>表示在频点K存在语音,表示在待识别语音样本的频谱Y(ωk)的条件下,存在语音的条件概率,E为求加权均值。
步骤S13,通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。
其中,预先训练的语音识别模型可以为用于对语音进行识别的网络模型,通过语音识别模型可以对去噪后的语音样本的内容等进行识别,从而得到识别结果。例如,通过语音识别出语音对应的文字内容,或通过对某人说话的语音进行身份识别等。
可见,本发明实施例提供基于语音增强算法的对抗样本攻击防御方法,可以通过获取待识别语音样本后对待识别语音样本进行去噪处理后,通过对去噪后的语音样本进行识别,增加语音识别准确率,提高防御对抗样本攻击的效率。
可选的,参见图2,根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,包括:
步骤S21,根据待识别语音样本的频谱特征,通过基于连续最小值跟踪的谱减法对待识别语音样本进行噪声频谱的计算,得到第一估计噪声频谱。
其中,基于连续最小值跟踪的谱减法通过假设语音样本中的噪声为加性噪声,从带噪语音样本的语音谱中减去对噪声谱的估计,即第一估计噪声频谱,从而得到第一语音样本。通过语音样本中不存在需识别的信号时,对噪声谱进行估计和更新。
假定y(n)为输入的对抗样本语音,即待识别语音样本,其有纯净语音信号
x(n)和加性噪声d(n)组成,即:
y(n)=x(n)+d(n)
两边同时做离散时间傅里叶变换:
Y(ω)=X(ω)+D(ω)
可以将Y(ω)以极坐标形式表示:
其中,|Y(ω)|为待识别语音样本的幅度谱,φy(ω)为待识别语音样本的相位,j为虚数单位。
其中,噪声频谱D(ω)可以表示为通过连续最小值跟踪法来进行噪声频谱估计。通过替换,可以得到纯净信号谱的估计:
其中,是第一估计噪声频谱,/>是通过使用逆傅里叶变换得到的去噪后的语音信号。
可选的,连续最小值跟踪通过基于相邻帧样本之间进行比较的跟踪算法,对带噪语音谱的每一个频率点进行非线性平滑,进而连续的更新噪声估计,得到可选的,上述非线性平滑可以通过递归式对带噪语音周期图进行短时平滑:
P(λ,k)=αP(λ-1,k)+(1-α)|Y(λ,k)|2
其中,α为平滑因子(0.7≤α≤0.9),λ为帧数标记,p(λ,k)为第λ帧在k频点的带噪语音功率谱,|Y(λ,k)|2为带噪语音帧的短时周期图。
其中,估计噪声谱的非线性处理表示如下,通过每个频点对带噪语音功率谱的最小值(Pmin(λ,k))进行跟踪:
if Pmin(λ-1,k)<P(λ,k)
else
Pmin(λ,k)=P(λ,k)
其中Pmin(λ,k)为噪声估计,可选的,在实际使用中参数设置可以为:
α=0.7,β=0.96,γ=0.998。
步骤S22,根据第一估计噪声频谱对待识别语音样本进行去噪,得到第一语音样本。
可选的,根据第一估计噪声频谱对待识别语音样本进行去噪,可以通过对待识别语音样本的频谱中减去所得到的第一估计噪声频谱,根据计算得到的频谱得到第一语音样本。
步骤S23,根据第一语音样本,通过结合语音存在概率的对数MMSE算法对第一语音样本进行噪声频谱的计算,得到第二估计噪声频谱。
其中,由于待识别的语音样本中可能会包含大量的停顿,即使在语音活动期间也同样如此。因此可以利用结合语音存在概率的对数MMSE估计器对第一语音样本进行二次降噪。
其中,待识别的语音样本是否处于语音存在状态的双状态模型,可以通过数学表示为一个二元假设模型:
语音不存在:|Y(ωk)|=|D(ωk)|
语音存在:/>
其中表示在频点k不存在语音的假设,/>表示存在语音的假设。结合了语音存在概率,对数MMSE估计器可以表示为:
其中,为去噪后的语音样本的估计谱在频率ωk的幅度,Xk为预先获取的纯净的信号谱在频率ωk的幅度,Y(ωk)为待识别语音样本的频谱,/>表示在频点K存在语音,表示在待识别语音样本的频谱Y(ωk)的条件下,存在语音的条件概率,E为求加权均值。
从而可计算出得到去噪后的语音样本,即纯净语音。
步骤S24,根据第二估计噪声频谱对第一语音样本进行去噪,得到去噪后的语音样本。
可选的,根据第二估计噪声频谱对第一语音样本进行去噪,可以通过对第一语音样本的频谱中减去所得到的第二估计噪声频谱,从而根据计算得到的频谱得到去噪后的语音样本。
例如,参见图3,图3为本申请实施例的一种基于语音增强算法的对抗样本攻击防御方法的一种实例图,步骤S31,获取对抗样本,其中对抗样本包括噪声信号和纯净的语音信号。步骤S32,基于连续最小值跟踪的谱减法,通过基于连续最小值跟踪的谱减法对所获取的对抗样本进行去噪。步骤S33,结合语音存在概率的对数MMSE算法,通过结合语音存在概率的对数MMSE算法对步骤S32中通过基于连续最小值跟踪的谱减法去噪后的对抗样本进行再次去噪。步骤S34,去噪后样本,得到通过基于连续最小值跟踪的谱减法去噪后的对抗样本,即纯净的语音信号。
可选的,参见图4,根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,包括:
步骤S41,根据待识别语音样本的频谱特征,通过结合语音存在概率的对数MMSE算法对待识别语音样本进行噪声频谱的计算,得到第三估计噪声频谱。
步骤S42,根据第三估计噪声频谱对待识别语音样本进行去噪,得到第三语音样本。
其中,第三估计噪声频谱为通过结合语音存在概率的对数MMSE算法对待识别语音样本进行噪声频谱的计算得到的噪声频谱,结合语音存在概率的对数MMSE算法可以参见上述步骤S23,此处不再赘述。通过第三估计噪声频谱可以利用谱减法对待识别语音样本进行去噪,得到第三语音样本。
步骤S43,根据第三语音样本,通过基于连续最小值跟踪的谱减法对第三语音样本进行噪声频谱的计算,得到第四估计噪声频谱。
步骤S44,根据第四估计噪声频谱对第三语音样本进行去噪,得到去噪后的语音样本。
其中,第四估计噪声频谱为通过基于连续最小值跟踪的谱减法第三语音样本进行噪声频谱的计算得到的噪声频谱,基于连续最小值跟踪的谱减法可以参见上述步骤S21,此处不再赘述。
可选的,待识别语音样本的频谱特征包括所述待识别语音样本的相位,根据第一估计噪声频谱对待识别语音样本进行去噪,得到第一语音样本,包括:
通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的频谱估计,|Y(ω)|为待识别语音样本的幅度谱,φy(ω)为待识别语音样本的相位,/>为离散时间傅立叶变换后的待识别语音的频谱,/>为估计噪声的幅度谱,/>为离散时间傅立叶变换后的噪声的频谱,j为虚数单位。
可选的,根据第二估计噪声频谱对第一语音样本进行去噪,得到去噪后的语音样本,包括:
通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的估计谱在频率ωk的幅度,Xk为预先获取的纯净的信号谱在频率ωk的幅度,Y(ωk)为待识别语音样本的频谱,/>表示在频点K存在语音,表示在待识别语音样本的频谱Y(ωk)的条件下,存在语音的条件概率,E为求加权均值。
可选的,以白盒攻击CW(一种基于优化的攻击)语音攻击为例,CW攻击利用MozillaCommon Voice数据集,在BaiduDeepSpeech0.4语音识别模型上达到了100%的有目标攻击成功率。通过在数据集中选择了一个标签为“without the dataset the article isuseless”的纯净语音样本,其时域参见图5a。利用CW攻击产生的对抗样本(迭代次数:500,攻击目标语句:this is a test),其时域图参见图5b。由于对抗样本的特点,即加入很小的扰动却可引起识别错误,攻击前后的样本差距非常微小。
DeepSpeech0.4对原干净样本的识别结果为“without the dataset the articleisusedless”,对CW产生的对抗样本的识别结果为“this is a test”,证明CW攻击可以使语音识别模型把语音错误地识别为攻击者想要的结果。
把对抗样本输入到通过上述基于语音增强算法的对抗样本攻击防御方法进行预处理,得到的去噪后样本的时域图,参见图5c,DeepSpeech0.4的识别结果为“without thedataset the article isusedless”,因此,本申请的基于语音增强算法的对抗样本攻击防御方法能够极大的恢复语音识别的准确性,达到了防御的目的。
参见图6,本申请还提供了一种基于语音增强算法的对抗样本攻击防御装置,包括:
特征获取模块601,用于获取待识别语音样本与待识别语音样本的频谱特征;
样本去噪模块602,用于根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本。
其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法;
语音识别模块603,用于通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。
可选的,样本去噪模块602,包括:
第一估计子模块,用于根据待识别语音样本的频谱特征,通过基于连续最小值跟踪的谱减法对待识别语音样本进行噪声频谱的计算,得到第一估计噪声频谱;
第一去噪子模块,用于根据第一估计噪声频谱对待识别语音样本进行去噪,得到第一语音样本;
第二估计子模块,用于根据第一语音样本,通过结合语音存在概率的对数MMSE算法对第一语音样本进行噪声频谱的计算,得到第二估计噪声频谱;
第二去噪子模块,用于根据第二估计噪声频谱对第一语音样本进行去噪,得到去噪后的语音样本。
可选的,样本去噪模块602,包括:
第三估计子模块,用于根据待识别语音样本的频谱特征,通过结合语音存在概率的对数MMSE算法对待识别语音样本进行噪声频谱的计算,得到第三估计噪声频谱;
第三去噪子模块,用于根据第三估计噪声频谱对待识别语音样本进行去噪,得到第三语音样本;
第四估计子模块,用于根据第三语音样本,通过基于连续最小值跟踪的谱减法对第三语音样本进行噪声频谱的计算,得到第四估计噪声频谱;
第四去噪子模块,用于根据第四估计噪声频谱对第三语音样本进行去噪,得到去噪后的语音样本。
可选的,待识别语音样本的频谱特征包括所述待识别语音样本的相位,根据第一估计噪声频谱对待识别语音样本进行去噪,得到第一语音样本,包括:
通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的频谱估计,|Y(ω)|为待识别语音样本的幅度谱,φy(ω)为待识别语音样本的相位,/>为离散时间傅立叶变换后的待识别语音的频谱,/>为估计噪声的幅度谱,/>为离散时间傅立叶变换后的噪声的频谱,j为虚数单位。
可选的,根据第二估计噪声频谱对第一语音样本进行去噪,得到去噪后的语音样本,包括:
通过预设公式:
对待识别语音样本进行去噪;
其中,为去噪后的语音样本的估计谱在频率ωk的幅度,Xk为预先获取的纯净的信号谱在频率ωk的幅度,Y(ωk)为待识别语音样本的频谱,/>表示在频点K存在语音,表示在待识别语音样本的频谱Y(ωk)的条件下,存在语音的条件概率,E为求加权均值。
可见,本发明实施例提供基于语音增强算法的对抗样本攻击防御装置,可以获取待识别语音样本与待识别语音样本的频谱特征;根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数MMSE算法;通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。从而通过获取待识别语音样本后对待识别语音样本进行去噪处理后,通过对去噪后的语音样本进行识别,增加语音识别准确率,提高防御对抗样本攻击的效率。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:
获取待识别语音样本与待识别语音样本的频谱特征;
根据待识别语音样本的频谱特征,通过预设算法对待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对待识别语音样本进行去噪,得到去噪后的语音样本,其中,算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法;
通过预先训练的语音识别模型对去噪后的语音样本进行识别,得到识别结果。
可选的,上述处理器,用于执行存储器上所存放的程序时,实现如上述任一基于语音增强算法的对抗样本攻击防御方法。
上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一基于语音增强算法的对抗样本攻击防御方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一基于语音增强算法的对抗样本攻击防御方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种基于语音增强算法的对抗样本攻击防御方法,其特征在于,包括:
获取待识别语音样本与所述待识别语音样本的频谱特征;
根据所述待识别语音样本的频谱特征,通过预设算法对所述待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪,得到去噪后的语音样本,其中,所述算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法;
通过预先训练的语音识别模型对所述去噪后的语音样本进行识别,得到识别结果;
所述根据所述待识别语音样本的频谱特征,通过预设算法对所述待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪,得到去噪后的语音样本,包括:
根据所述待识别语音样本的频谱特征,通过所述基于连续最小值跟踪的谱减法对所述待识别语音样本进行噪声频谱的计算,得到第一估计噪声频谱;
根据所述第一估计噪声频谱对所述识别语音样本进行去噪,得到第一语音样本;
根据所述第一语音样本,通过结合语音存在概率的对数MMSE算法对所述第一语音样本进行噪声频谱的计算,得到第二估计噪声频谱;
根据所述第二估计噪声频谱对所述第一语音样本进行去噪,得到去噪后的语音样本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别语音样本的频谱特征,通过预设算法对所述待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪,得到去噪后的语音样本,包括:
根据所述待识别语音样本的频谱特征,通过所述结合语音存在概率的对数MMSE算法对所述待识别语音样本进行噪声频谱的计算,得到第三估计噪声频谱;
根据所述第三估计噪声频谱对所述识别语音样本进行去噪,得到第三语音样本;
根据所述第三语音样本,通过基于连续最小值跟踪的谱减法对所述第三语音样本进行噪声频谱的计算,得到第四估计噪声频谱;
根据所述第四估计噪声频谱对所述第三语音样本进行去噪,得到去噪后的语音样本。
3.根据权利要求1所述的方法,其特征在于,所述待识别语音样本的频谱特征包括所述待识别语音样本的相位,所述根据所述第一估计噪声频谱对所述识别语音样本进行去噪,得到第一语音样本,包括:
通过预设公式:
对所述待识别语音样本进行去噪;
其中,为去噪后的语音样本的频谱估计,|Y(ω)|为待识别语音样本的幅度谱,φy()为待识别语音样本的相位,/>为离散时间傅立叶变换后的待识别语音的频谱,/>为估计噪声的幅度谱,/>为离散时间傅立叶变换后的噪声的频谱,j为虚数单位。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第二估计噪声频谱对所述第一语音样本进行去噪,得到去噪后的语音样本,包括:
通过预设公式:
对所述待识别语音样本进行去噪;
其中,为去噪后的语音样本的估计谱在频率ωk的幅度,Xk为预先获取的纯净的信号谱在频率ωk的幅度,Y(ωk)为待识别语音样本的频谱,/>表示在频点K存在语音,表示在待识别语音样本的频谱Y(ωk)的条件下,存在语音的条件概率,E为求加权均值。
5.一种基于语音增强算法的对抗样本攻击防御装置,其特征在于,包括:
特征获取模块,用于获取待识别语音样本与所述待识别语音样本的频谱特征;
样本去噪模块,用于根据所述待识别语音样本的频谱特征,通过预设算法对所述待识别语音样本进行噪声频谱的计算,并利用计算得到的估计噪声频谱对所述识别语音样本进行去噪,得到去噪后的语音样本,其中,所述算法包括基于连续最小值跟踪的谱减法与结合语音存在概率的对数最小均方误差算法MMSE算法;
语音识别模块,用于通过预先训练的语音识别模型对所述去噪后的语音样本进行识别,得到识别结果;
所述样本去噪模块,包括:
第一估计子模块,用于根据所述待识别语音样本的频谱特征,通过所述基于连续最小值跟踪的谱减法对所述待识别语音样本进行噪声频谱的计算,得到第一估计噪声频谱;
第一去噪子模块,用于根据所述第一估计噪声频谱对所述识别语音样本进行去噪,得到第一语音样本;
第二估计子模块,用于根据所述第一语音样本,通过结合语音存在概率的对数MMSE算法对所述第一语音样本进行噪声频谱的计算,得到第二估计噪声频谱;
第二去噪子模块,用于根据所述第二估计噪声频谱对所述第一语音样本进行去噪,得到去噪后的语音样本。
6.根据权利要求5所述的装置,其特征在于,所述样本去噪模块,包括:
第三估计子模块,用于根据所述待识别语音样本的频谱特征,通过所述结合语音存在概率的对数MMSE算法对所述待识别语音样本进行噪声频谱的计算,得到第三估计噪声频谱;
第三去噪子模块,用于根据所述第三估计噪声频谱对所述识别语音样本进行去噪,得到第三语音样本;
第四估计子模块,用于根据所述第三语音样本,通过基于连续最小值跟踪的谱减法对所述第三语音样本进行噪声频谱的计算,得到第四估计噪声频谱;
第四去噪子模块,用于根据所述第四估计噪声频谱对所述第三语音样本进行去噪,得到去噪后的语音样本。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的所述计算机程序时,实现权利要求1-4任一所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN202010206879.0A 2020-03-23 2020-03-23 基于语音增强算法的对抗样本攻击防御方法及装置 Active CN111564154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010206879.0A CN111564154B (zh) 2020-03-23 2020-03-23 基于语音增强算法的对抗样本攻击防御方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010206879.0A CN111564154B (zh) 2020-03-23 2020-03-23 基于语音增强算法的对抗样本攻击防御方法及装置

Publications (2)

Publication Number Publication Date
CN111564154A CN111564154A (zh) 2020-08-21
CN111564154B true CN111564154B (zh) 2023-08-08

Family

ID=72069892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010206879.0A Active CN111564154B (zh) 2020-03-23 2020-03-23 基于语音增强算法的对抗样本攻击防御方法及装置

Country Status (1)

Country Link
CN (1) CN111564154B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11462211B2 (en) * 2020-04-09 2022-10-04 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting adversarial attacks
CN112017669B (zh) * 2020-11-02 2021-02-23 鹏城实验室 语音对抗样本检测方法、装置、终端设备以及存储介质
CN112908300B (zh) * 2021-01-16 2024-05-17 西安电子科技大学 一种语音对抗样本检测方法、系统、存储介质及应用
CN113838475B (zh) * 2021-11-29 2022-02-15 成都航天通信设备有限责任公司 一种基于对数mmse估计器的语音信号增强方法及系统
CN115424635B (zh) * 2022-11-03 2023-02-10 南京凯盛国际工程有限公司 一种基于声音特征的水泥厂设备故障诊断方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154383A (zh) * 2006-09-29 2008-04-02 株式会社东芝 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN107610712A (zh) * 2017-10-18 2018-01-19 会听声学科技(北京)有限公司 一种结合改进的mmse和谱减法的语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN108922554A (zh) * 2018-06-04 2018-11-30 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法
CN109524020A (zh) * 2018-11-20 2019-03-26 上海海事大学 一种语音增强处理方法
CN109817234A (zh) * 2019-03-06 2019-05-28 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154383A (zh) * 2006-09-29 2008-04-02 株式会社东芝 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN107610712A (zh) * 2017-10-18 2018-01-19 会听声学科技(北京)有限公司 一种结合改进的mmse和谱减法的语音增强方法
CN108831499A (zh) * 2018-05-25 2018-11-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 利用语音存在概率的语音增强方法
CN108922554A (zh) * 2018-06-04 2018-11-30 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法
CN109524020A (zh) * 2018-11-20 2019-03-26 上海海事大学 一种语音增强处理方法
CN109817234A (zh) * 2019-03-06 2019-05-28 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余建潮 ; 张瑞林 ; .改进增益函数的MMSE语音增强算法.计算机工程与设计.2010,31(第14期),全文. *

Also Published As

Publication number Publication date
CN111564154A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111564154B (zh) 基于语音增强算法的对抗样本攻击防御方法及装置
CN110164467B (zh) 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN110956957B (zh) 语音增强模型的训练方法及系统
EP3866165B1 (en) Method for enhancing telephone speech signals based on convolutional neural networks
Meher et al. An improved recursive and adaptive median filter for high density impulse noise
Mahmmod et al. Low-distortion MMSE speech enhancement estimator based on Laplacian prior
Hosseini et al. Fast restoration of natural images corrupted by high-density impulse noise
CN109616139A (zh) 语音信号噪声功率谱密度估计方法和装置
Harvilla et al. Least squares signal declipping for robust speech recognition
CN110503974B (zh) 对抗语音识别方法、装置、设备及计算机可读存储介质
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
CN112602150A (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
Vishaga et al. A survey on switching median filters for impulse noise removal
CN111863008A (zh) 一种音频降噪方法、装置及存储介质
CN113539285A (zh) 音频信号降噪方法、电子装置和存储介质
Diaz‐Ramirez et al. Robust speech processing using local adaptive non‐linear filtering
CN115171714A (zh) 一种语音增强方法、装置、电子设备及存储介质
Fattah et al. Identification of autoregressive moving average systems based on noise compensation in the correlation domain
Kantamaneni et al. Speech enhancement with noise estimation and filtration using deep learning models
Faraji et al. MMSE and maximum a posteriori estimators for speech enhancement in additive noise assuming at‐location‐scale clean speech prior
Harvilla et al. Efficient audio declipping using regularized least squares
Yüksel et al. Performance enhancement of image impulse noise filters by image rotation and fuzzy processing
Lun et al. A novel expectation-maximization framework for speech enhancement in non-stationary noise environments
Tupitsin et al. Two-step noise reduction based on soft mask for robust speaker identification
CN114360572A (zh) 语音去噪方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant