CN113506564B - 用于生成对抗声音信号的方法、装置、设备和介质 - Google Patents

用于生成对抗声音信号的方法、装置、设备和介质 Download PDF

Info

Publication number
CN113506564B
CN113506564B CN202010215255.5A CN202010215255A CN113506564B CN 113506564 B CN113506564 B CN 113506564B CN 202010215255 A CN202010215255 A CN 202010215255A CN 113506564 B CN113506564 B CN 113506564B
Authority
CN
China
Prior art keywords
sound signal
model
propagation
training
propagated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010215255.5A
Other languages
English (en)
Other versions
CN113506564A (zh
Inventor
熊俊峰
王洋
刘焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010215255.5A priority Critical patent/CN113506564B/zh
Publication of CN113506564A publication Critical patent/CN113506564A/zh
Application granted granted Critical
Publication of CN113506564B publication Critical patent/CN113506564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开的实施例提供了用于生成对抗声音信号的方法、装置、设备和介质,涉及人工智能技术。一种用于生成对抗声音信号的方法包括获取传播拟合模型,传播拟合模型指示声音信号与将声音信号从声源经由环境传播并且由拾音器捕获后的传播声音信号之间的关联。该方法还包括获取能够被语音识别模型正确识别的目标声音信号,并且基于目标声音信号来生成用于语音识别模型的对抗声音信号,使由传播拟合模型从对抗声音信号确定的传播声音信号被语音识别模型错误识别。通过上述方式,借助传播拟合模型,所生成的对抗声音信号可以抵抗在到达语音识别模型之前的声音损失,从而能够保持对抗性用于测试语音识别模型的鲁棒性。

Description

用于生成对抗声音信号的方法、装置、设备和介质
技术领域
本公开的实施例主要涉及语音信号处理领域,尤其涉及人工智能技术。
背景技术
人工智能是计算机科学的一个分支,目的是研究能以人类智能相似的方式做出反应的智能机器。人工智能最重要的研究方向之一是语音识别技术。语音识别技术主要处理声音信号,识别和分类声音信号,以期望将语音转换成计算机可读的输入,例如文本。语音识别具有很多应用场景,包括人机语音交互、语音-文字转换、语音控制等。
利用人工智能技术,特别是机器学习或深度学习技术,可以生成语音识别模型来执行语音识别任务。为了获得可靠的语音识别模型,一个重要任务是执行对抗训练。对抗训练指的是利用对抗声音信号,也称为对抗样本,来测试语音识别模型对于对抗攻击的鲁棒性,提高模型对对抗样本的抵抗能力。要获得更好的对抗训练效果,所使用的对抗样本需要尽可能使模型无法正确识别。
发明内容
根据本公开的实施例,提供了一种用于生成对抗声音信号的方案。
在本公开的第一方面,提供了一种生成对抗声音信号的方法。该方法包括获取传播拟合模型,传播拟合模型指示声音信号与将声音信号从声源经由环境传播并且由拾音器捕获后的传播声音信号之间的关联;获取能够被语音识别模型正确识别的目标声音信号;以及基于目标声音信号来生成用于语音识别模型的对抗声音信号,使由传播拟合模型从对抗声音信号确定的传播声音信号被语音识别模型错误识别。
在本公开的第二方面,提供了一种用于生成对抗声音信号的装置。该装置包括拟合模型获取模块,被配置为获取传播拟合模型,传播拟合模型指示声音信号与将声音信号从声源经由环境传播并且由拾音器捕获后的传播声音信号之间的关联;目标获取模块,被配置为获取能够被语音识别模型正确识别的目标声音信号;以及对抗生成模块,被配置为基于目标声音信号来生成用于语音识别模型的对抗声音信号,使由传播拟合模型从对抗声音信号确定的传播声音信号被语音识别模型错误识别。
在本公开的第三方面,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
在本公开的第五方面,提供了一种计算机程序产品。该计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例的能够在其中实现的架构的示意图;
图2示出了根据本公开的一些实施例的用于生成对抗声音信号的系统的框图;
图3示出了根据本公开的一些实施例的传播拟合模型的示例的框图;
图4根据本公开的一些实施例的用于生成对抗声音信号的迭代过程的流程图;
图5根据本公开的一些实施例的用于生成对抗声音信号的方法的流程图;
图6根据本公开的一些实施例的用于生成对抗声音信号的装置的框图;以及
图7示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些术语在本文中可互换地使用。
通常,机器学习可以包括三个阶段,即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段,给定的模型可以使用大量的训练数据进行训练,不断迭代,直到模型能够从训练数据中获得一致的、与人类智慧所能够做出的推理类似的推理。通过训练,模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。经训练的模型的参数值被确定。在测试阶段,将测试输入应用到训练后的模型,测试模型是否能够提供正确的输出,从而确定模型的性能。在应用阶段,模型可以被用于基于训练得到的参数值,对实际的输入进行处理,确定对应的输出。
如以上提及的,在执行模型的对抗训练时,期望所使用的对抗样本尽可能使模型无法正确识别。通过对抗训练可以更好定位模型的漏洞和可改进的方面,提高模型的可靠性和安全性。
一些生成用于语音识别模型的对抗样本的方案通常直接在声音信号的声音特征执行扰动,并将扰动后的声音特征作为对抗样本提供给语音识别模型。这样的对抗样本不能直接反应实际应用中语音识别模型可能会遭受到的对抗攻击,因为在现实攻击通常不会直接控制声音特征来输出对抗声音信号。为更好理解语音识别模型在实际环境中的使用,下面将参考图1进行描述。
图1示出了本公开的多个实施例能够在其中应用的架构100的示意图。在架构100中,计算设备120可以利用语音识别模型130执行语音识别任务。
通常,要由语音识别模型130处理的声音信号来自某个声源。声源例如可以包括被示出为人的声源102-1、被示出为扬声器的声源102-2,等等。为便于讨论,在下文中统称或单独称为声源102。声源102的声音信号经由环境105传播到拾音器110。拾音器110捕获声音信号,并且将声音信号提供给计算设备120。拾音器110与计算设备120之间的通信可以是有线或无线的通信。例如,拾音器110可以是计算设备120的辅助设备,或者可以被连接到其他设备。
计算设备120可以将捕获到的声音信号提供给语音识别模型130,用于实现语音识别任务。例如,所捕获到的声音信号可以作为语音识别模型130的输入。语音识别模型130可以被配置为能够实现预期的语音识别任务。语音识别模型130可以由计算设备120运行或者由另外的计算设备来运行。这取决于具体语音识别任务的执行需要,本公开的实施例在此方面不受限制。
语音识别任务例如可以包括语音分类任务。语音分类任务包括二分类任务,例如真假语音检测(CM)任务,用于检测声音信号是否是人类语音。这是因为当前随着文本到语音(TTS)、语音会话(VC)等技术不断发展,制造任意说话内容的假语音越来越容易,从而语音造假现象比较常见。因此,判断真假语音具有很多实际意义。除了真假语音判断之外,语音识别任务还可以包括其他多分类任务,用于监测声音信号是否是多个类型的声音之一;声音-文本转换任务,用于将声音信号转换为文本;等等。在一些实现中,语音识别任务可以是多个任务的组合,例如一些复杂的任务可以首先要求执行真假语音检测,然后再对检测为包含语音的声音信号执行后续操作。应当理解,以上仅给出了一些语音识别任务的示例。语音识别模型130还可以被配置为实现其他类型的任务。
在一些实施例中,计算设备120还包括预处理模块140,用于由拾音器捕获到的声音信号执行预处理操作。预处理操作可以包括噪声消除、预加重、分帧、加窗等操作。在一些示例中,预处理操作还可以包括时频变换操作,以将声音信号从时域变换到频域。应当理解,其他预处理操作也是可能。计算设备120将经过预处理之后的声音信号提供作为语音识别模型130的输入。
考虑到声音信号在从声源到达语音识别模型的输入之前可能会经历环境传播、并且还可能会经历预处理等操作,因此期望能够设计真实应用中的对抗样本,使对抗样本在经历真实传播和处理之后被提供给语音识别模型作为输入。如果根据在声音信号的声音特征上执行扰动的方案,可以将扰动后的声音特征逆向变化为扰动声音信号,然后由声源播放扰动声音信号。然而,声音在自然环境中传播会有传播损失,而传播损失可能会导致施加在声音信号上的扰动部分失效。这样,到达语音识别模型处的输入可能不具有预期的扰动特征,无法用于实现对模型的对抗攻击。
根据本公开的实施例,提出了一种用于生成对抗声音信号的方案。在该方案中,借助传播拟合模型来至少拟合声音信号在环境传播和捕获的过程。传播拟合模型指示声音信号与将声音信号从声源经由环境传播并且由拾音器捕获后的传播声音信号之间的关联。获取由语音识别模型正确识别的目标声音信号,并且利用目标声音信号、传播拟合模型和语音识别模型来生成用于语音识别模型的对抗声音信号。具体地,对抗声音信号被确定为使得由传播拟合模型从该对抗声音信号生成的传播声音信号被语音识别模型错误识别。
通过上述方式,借助传播拟合模型,所生成的对抗声音信号可以抵抗在到达语音识别模型之前可能的声音损失,从而能够保持对抗性用于测试语音识别模型的鲁棒性。良好的对抗测试还会进一步促进对应语音识别模型的改进,增加模型的可靠性和安全性。
以下将参照附图来具体描述本公开的实施例。
图2示出了根据本公开的一些实施例的用于生成对抗声音信号的系统200的示意图。在系统200中,传播拟合模型210被构建用于至少拟合声音信号从声源经由环境和拾音器捕获的过程。为便于理解,如果参考图1来描述这样的过程,传播拟合模型210被构建为至少拟合声音信号从声源102发出、经由环境105传播到拾音器110并且由拾音器110捕获的过程。
这样的传播拟合模型210可以模拟声音信号从声源开始的传播,这样的特性可以被用于生成针对语音识别模型130的对抗声音信号。传播拟合模型210的输入可以是从声音信号,传播拟合模型210的输出是从输入的声音信号确定的传播声音信号,该传播声音信号对应于输入的声音信号从声源102经由环境105传播并且由拾音器110捕获后的信号。也就是说,传播拟合模型210对声音信号与对应的传播声音信号之间的关联进行建模,从而能够指示这样的关联。
传播拟合模型210可以基于各种类型的机器学习模型或深度神经网络模型来实现。在一个实施例中,传播拟合模型210可以包括基于自编码器的模型。图3示出了基于自编码器的传播拟合模型210的一个示例。基于自编码器的传播拟合模型210包括编码器310和解码器320。编码器310用于对模型的输入进行编码,以提取输入的特征,而解码器320用于对编码器310提取的特征执行解码,以生成对应的输出。自编码器的结构和工作原理对于技术人员而言是熟知的,在此不再详细讨论。除自编码器之外,传播拟合模型210还可以基于其他适合用于处理音频数据的机器学习或深度学习模型来实现,诸如基于卷积神经网络(CNN),循环神经网络(RNN),诸如简单RNN、长短期记忆网络(LSTM)网络、门控循环单元(GRU)神经网络等,变换器网络等等一个或多个类型的模型结构来实现。
为了使传播拟合模型210能够指示声音信号与对应的传播声音信号之间的关联,要利用训练数据来对该模型进行训练。传播拟合模型210的训练例如可以由计算设备205来实现或者可以由另外的计算设备训练完成后提供给计算设备205。为便于讨论,下文以由计算设备205训练为例进行描述。计算设备205可以是具有计算能力的任何电子设备,包括移动设备、固定设备或便携式设备,其示例包括但不限于服务器、大型计算机、小型计算机、边缘计算节点、个人计算机、服务器计算机、手持或膝上型设备、多处理器系统,或者包括上述系统或设备中的任意一个的分布式计算系统等。
用于训练传播拟合模型210的训练数据包括多个训练样本对,每个训练样本对包括训练声音信号以及该训练声音信号从声源经由环境传播并且由拾音器捕获后的训练传播声音信号。训练声音信号可以是一般的声音信号,诸如语音信号。训练传播声音信号可以在如图1所示的语音识别模型要被应用的环境中或者类似的环境中收集。例如,如果语音识别模型130要处理的是由人在房间中发出的语音,则可以类似地收集人发出的声音信号和该声音信号在房间传播后被拾音器捕获的声音信号。当然,应当理解,对于声音信号的传播环境和用于声音捕获的拾音器的约束不是严格的。
在训练传播拟合模型210时,当前已知的或将来待开发的各种模型训练方法均可采用。传播拟合模型210的训练目标在于使得训练后的传播拟合模型210能够从训练声音信号确定的输出声音信号与训练传播声音信号之间的误差尽可能的小。这样的传播拟合模型210可以被认为已经学习到声音信号与传播声音信号之间的关联。
在一些实施例中,被提供到语音识别模型130的声音信号可能会经历预处理,例如由图1的预处理模块120执行预处理操作。这样的预处理操作在训练传播拟合模型210时也可以被考虑。特别地,计算设备205可以对训练样本对中的训练声音信号和训练传播声音信号执行预处理操作。所执行的预处理操作可以与预处理模块120要执行的预处理操作类似。通过在训练传播拟合模型210时将可能的预处理操作考虑在内,可以使得训练后的传播拟合模型210输出的传播声音信号能够直接作为语音识别模型130的输入。
通常,所获得的训练声音信号和训练传播声音信号是时序信号。在一些实施例中,传播拟合模型210可以在频域中执行传播拟合。具体地,计算设备205可以确定训练声音信号对应的第一频域特征和训练传播声音信号对应的第二频域特征。所确定的频域特征例如可以是训练声音信号和训练传播声音信号的频谱图或频谱特征。在一些实施例中,预处理操作可能包括时频变换操作,因为语音识别模型130也会在频域中执行语音识别。在这种情况下,计算设备205可以采用预处理操作中所涉及的时频变换操作来执行对训练声音信号和训练传播声音信号的频域特征的提取。
在频域中处理声音信号可以使传播拟合模型210能够更容易地学习到这些声音信号的特性,从而快速训练和收敛。在训练时,传播拟合模型210可以被训练为能够从训练声音信号的第一频域特征确定出传播声音信号的第二频域特征。换言之,传播拟合模型210的输入和输出均可以被表示为频域信息。
在训练完成后,传播拟合模型210可以被用于生成语音识别模型130的对抗样本,在本文中也称为对抗声音信号。继续参考图2,对抗声音信号的生成也可以由计算设备205来实现。应当理解,虽然被示出为由同一个设备来执行,但传播拟合模型210的训练和对抗声音信号的生成可以由不同的计算设备来执行。
在生成对抗声音信号时,计算设备205获取能够被语音识别模型130正确识别的目标声音信号并且基于目标声音信号来生成语音识别模型130的对抗声音信号。例如,如果语音识别模型130被设计为检测声音信号是否是人类语音,那么目标声音信号是语音识别模型130能够对它做出正确检测的声音信号,无论是真语音信号还是假语音信号。
在一些实施例中,为使得对抗声音信号的后续生成更准确,目标声音信号可以被确定为以使传播拟合模型210从目标声音信号确定出的传播声音信号被语音识别模型130正确识别。也就是说,要使用的目标声音信号在被提供到传播拟合模型210之后,传播拟合模型210输出的传播声音信号是正常的、能够被语音识别模型130正确识别的声音信号。
在一些实施例中,如果传播拟合模型210在训练时要求输入的是预处理后的声音信号,在确定目标声音信号时,也可以对一个候选声音信号执行类似的预处理操作,例如与预处理模块140要执行的操作类似的预处理操作。如果传播拟合模型210从预处理后的候选声音信号确定的传播声音信号能够被语音识别模型130正确识别,那么可以确定该候选声音信号是目标声音信号。
在一些实施例中,如果传播拟合模型210在训练时要求输入的是声音信号对应的频域特征,在确定目标声音信号时,也可以首先确定一个候选声音信号的候选频域特征。在这里所应用的时频变换可以与传播拟合模型210训练时要求使用的时频变换一致。如果传播拟合模型210从候选频域特征确定出的传播声音信号对应的频域特征能够被语音识别模型130正确识别,那么可以确定该候选声音信号是目标声音信号。
在基于目标声音信号来生成语音识别模型130的对抗声音信号时,计算设备205还利用传播拟合模型210,以将对抗声音信号生成为使得由传播拟合模型210从该对抗声音信号确定的传播声音信号被语音识别模型130错误识别。例如,如果语音识别模型130被设计为检测声音信号是否是人类语音,那么对于与对抗声音信号对应的传播声音信号,语音识别模型130将会给出错误的识别结果。例如,对抗声音信号和传播声音信号实际上是人类语音,而语音识别模型130却输出指示假语音的识别结果,或者如果对抗声音信号和传播声音信号实际是假语音,而语音识别模型130却误以为是真人类语音。
根据本公开的实施例这样的方式来生成对抗声音信号,可以确保对抗声音信号在实际应用中经历声源播放、环境传播和拾音器捕获之后仍然能够维持针对语音识别模型130的对抗性,可以以较高的置信度使得语音识别模型130输出错误的语音识别结果,达到更好的对抗训练目的。
在一些实施例中,在从目标声音信号生成对抗声音信号时,计算设备205可以采用各种对抗样本生成算法来实现。在一些实施例中,计算设备205可能需要多次迭代尝试来获得对抗声音信号。图4示出了根据本公开的一些实施例的用于生成对抗声音信号的迭代过程400。过程400可以由计算设备205实现。
在框410,计算设备205生成针对目标声音信号的扰动数据,并且在框420,计算设备205通过将扰动数据添加到目标声音信号来确定扰动声音信号。
所生成的扰动数据例如可以包括随机噪声、诸如高斯噪声,或者各种干扰信号,等等。在一些实施例中,扰动数据也可以在频域确定和生成,例如可以确定针对目标声音信号对应的频谱特征的干扰频谱数据。假设目标声音信号对应的频域特征,例如频谱数据,被表示为X0,那么扰动数据对应的频域特征可以被表示为X
在一些实施例中,期望扰动数据尽可能小,从而避免在被添加到目标声音信号之后对目标声音信号的改动过大。在一个示例中,扰动数据对应的频域特征X可以被确定为 其中θ表示传播拟合模型210和语音识别模型130对应的权重,∈1和∈2可以是预定值,例如可以1或小于1的值,Xgaussian表示高斯噪声,并且y0表示目标声音信号对应的频谱特征X0被语音识别模型正确识别的结果。应当理解,这里仅给出了干扰数据的一个具体示例。干扰数据还可以以任何其他方式来确定。扰动声音信号对应的频域特征可以被确定为Xsignal′=X0+X
在框430,计算设备205利用传播拟合模型210生成扰动声音信号对应的传播声音信号,并且在框440,计算设备205确定语音识别模型130是否正确识别传播声音信号。如果语音识别模型130仍然能够正确识别传播声音信号,这意味着先前施加到目标声音信号的干扰数据还不足以产生针对语音识别模型130的对抗性。因此,计算设备205返回框410,继续生成针对目标声音信号的另外的扰动数据,以便进一步修改目标声音信号。
如果确定语音识别模型130无法正确识别传播声音信号,这意味着扰动声音信号已经具有足够的对抗性,并且这样的对抗性在经过传播之后仍得到保持。因此,在框450,计算设备205将扰动声音信号确定为对抗声音信号。在一些实施例中,如果在频域中执行信号处理,可以确定扰动声音信号对应的频域特征,例如Xsignal′=X0+X。相应的,对抗声音信号对应的频域特征可以被表示为Xadv=Xsignal′=X0+X。为了获得时域声音信号,可以执行预处理逆变换,将频域特征Xadv变换到时域的对抗声音信号。所获得的对抗声音信号可以被用于对语音识别模型130执行对抗训练,例如可以由声源102播放、经由环境105传播并且经过拾音器110捕获后用于提供给语音识别模型130进行语音识别,或者经过预处理模块140执行预处理后再输入到语音识别模型130。
图5示出了根据本公开的一些实施例的用于生成对抗声音信号的方法500的流程图。方法500可以由图2的计算设备205实现。
在框510,计算设备205获取传播拟合模型,传播拟合模型指示声音信号与将声音信号从声源经由环境传播并且由拾音器捕获后的传播声音信号之间的关联。在框520,计算设备205获取能够被语音识别模型正确识别的目标声音信号。在框530,计算设备205基于目标声音信号来生成用于语音识别模型的对抗声音信号,使由传播拟合模型从对抗声音信号确定的传播声音信号被语音识别模型错误识别。
在一些实施例中,获取传播拟合模型包括:获取训练样本对,训练样本对包括训练声音信号和训练声音信号从声源经由环境传播并且由拾音器捕获后的训练传播声音信号;以及基于训练样本对来生成传播拟合模型。
在一些实施例中,生成传播拟合模型包括:对训练声音信号和训练传播声音信号执行预处理操作;以及基于预处理后的训练声音信号和训练传播声音信号来生成传播拟合模型。
在一些实施例中,生成传播拟合模型包括:确定训练声音信号对应的第一频域特征和训练传播声音信号对应的第二频域特征;以及基于第一频域特征和第二频域特征来生成传播拟合模型,以使所生成的传播拟合模型能够从第一频域特征确定第二频域特征。
在一些实施例中,生成对抗声音信号包括:生成针对目标声音信号的扰动数据;通过将扰动数据添加到目标声音信号来确定扰动声音信号;利用传播拟合模型生成扰动声音信号对应的传播声音信号;以及通过确定语音识别模型是否正确识别传播声音信号,来确定对抗声音信号。
在一些实施例中,确定对抗声音信号包括:根据确定语音识别模型错误识别传播声音信号,将扰动声音信号确定为对抗声音信号;根据确定语音识别模型正确识别传播声音信号,通过向目标声音信号再次添加另外的扰动数据来确定对抗声音信号。
在一些实施例中,获取目标声音信号包括:确定目标声音信号,以使传播拟合模型从目标声音信号确定的传播声音信号被语音识别模型正确识别。
在一些实施例中,语音识别模型包括语音分类模型,语音分类模型被配置为确定输入的声音信号是否是人类语音。图6示出了根据本公开的一些实施例的用于生成对抗声音信号的装置600的示意性框图。装置600可以被包括在图2的计算设备205中或者被实现为计算设备205。
如图6所示,装置600包括拟合模型获取模块610,被配置为获取传播拟合模型,传播拟合模型指示声音信号与将声音信号从声源经由环境传播并且由拾音器捕获后的传播声音信号之间的关联;目标获取模块620,被配置为获取能够被语音识别模型正确识别的目标声音信号;以及对抗生成模块630,被配置为基于目标声音信号来生成用于语音识别模型的对抗声音信号,使由传播拟合模型从对抗声音信号确定的传播声音信号被语音识别模型错误识别。
在一些实施例中,拟合模型获取模块610包括:样本获取模块,被配置为获取训练样本对,训练样本对包括训练声音信号和训练声音信号从声源经由环境传播并且由拾音器捕获后的训练传播声音信号;以及模型生成模块,被配置为基于训练样本对来生成传播拟合模型。
在一些实施例中,模型生成模块包括:训练预处理模块,被配置为对训练声音信号和训练传播声音信号执行预处理操作;以及基于预处理的模型生成模块,被配置为基于预处理后的训练声音信号和训练传播声音信号来生成传播拟合模型。
在一些实施例中,模型生成模块包括:频域特征确定模块,被配置为确定训练声音信号对应的第一频域特征和训练传播声音信号对应的第二频域特征;以及基于频域的模型生成模块,被配置为基于第一频域特征和第二频域特征来生成传播拟合模型,以使所生成的传播拟合模型能够从第一频域特征确定第二频域特征。
在一些实施例中,对抗生成模块包括:扰动生成模块,被配置为生成针对目标声音信号的扰动数据;扰动添加模块,被配置为通过将扰动数据添加到目标声音信号来确定扰动声音信号;扰动传播拟合模块,被配置为利用传播拟合模型生成扰动声音信号对应的传播声音信号;以及对抗确定模块,被配置为通过确定语音识别模型是否正确识别传播声音信号,来确定对抗声音信号。
在一些实施例中,对抗确定模块包括:第一确定模块,被配置为根据确定语音识别模型错误识别传播声音信号,将扰动声音信号确定为对抗声音信号;以及第二确定模块,被配置为根据确定语音识别模型正确识别传播声音信号,通过向目标声音信号再次添加另外的扰动数据来确定对抗声音信号。
在一些实施例中,目标获取模块包括:目标信号确定模块,被配置为确定目标声音信号,以使传播拟合模型从目标声音信号确定的传播声音信号被语音识别模型正确识别。
在一些实施例中,语音识别模型包括语音分类模型,语音分类模型被配置为确定输入的声音信号是否是人类语音。
图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。设备700可以用于实现图1的计算设备120或图2的计算设备205。
如图所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如过程400和/或方法500。例如,在一些实施例中,过程400和/或方法500可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的过程400和/或方法500的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程400和/或方法500。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (17)

1.一种生成对抗声音信号的方法,包括:
获取传播拟合模型,所述传播拟合模型指示声音信号与将所述声音信号从声源经由环境传播并且由拾音器捕获后的传播声音信号之间的关联;
获取能够被语音识别模型正确识别的目标声音信号;以及
基于所述目标声音信号来生成用于所述语音识别模型的对抗声音信号,使由所述传播拟合模型从所述对抗声音信号确定的传播声音信号被所述语音识别模型错误识别,包括:生成针对所述目标声音信号的扰动数据;通过将所述扰动数据添加到所述目标声音信号来确定扰动声音信号;利用所述传播拟合模型生成所述扰动声音信号对应的传播声音信号;以及通过确定所述语音识别模型是否正确识别所述传播声音信号,来确定所述对抗声音信号。
2.根据权利要求1所述的方法,其中获取所述传播拟合模型包括:
获取训练样本对,所述训练样本对包括训练声音信号和所述训练声音信号从所述声源经由所述环境传播并且由所述拾音器捕获后的训练传播声音信号;以及
基于所述训练样本对来生成所述传播拟合模型。
3.根据权利要求2所述的方法,其中生成所述传播拟合模型包括:
对所述训练声音信号和所述训练传播声音信号执行预处理操作;以及
基于预处理后的所述训练声音信号和所述训练传播声音信号来生成所述传播拟合模型。
4.根据权利要求2所述的方法,其中生成所述传播拟合模型包括:
确定所述训练声音信号对应的第一频域特征和所述训练传播声音信号对应的第二频域特征;以及
基于所述第一频域特征和所述第二频域特征来生成所述传播拟合模型,以使所生成的所述传播拟合模型能够从所述第一频域特征确定所述第二频域特征。
5.根据权利要求1所述的方法,其中确定所述对抗声音信号包括:
根据确定所述语音识别模型错误识别所述传播声音信号,将所述扰动声音信号确定为所述对抗声音信号;
根据确定所述语音识别模型正确识别所述传播声音信号,通过向所述目标声音信号再次添加另外的扰动数据来确定所述对抗声音信号。
6.根据权利要求1所述的方法,其中获取所述目标声音信号包括:
确定所述目标声音信号,以使所述传播拟合模型从所述目标声音信号确定的传播声音信号被所述语音识别模型正确识别。
7.根据权利要求1至6中任一项所述的方法,其中所述语音识别模型包括语音分类模型,所述语音分类模型被配置为确定输入的声音信号是否是人类语音。
8.一种用于生成对抗样本的装置,包括:
拟合模型获取模块,被配置为获取传播拟合模型,所述传播拟合模型指示声音信号与将所述声音信号从声源经由环境传播并且由拾音器捕获后的传播声音信号之间的关联;
目标获取模块,被配置为获取能够被语音识别模型正确识别的目标声音信号;以及
对抗生成模块,被配置为基于所述目标声音信号来生成用于所述语音识别模型的对抗声音信号,使由所述传播拟合模型从所述对抗声音信号确定的传播声音信号被所述语音识别模型错误识别,包括:扰动生成模块,被配置为生成针对所述目标声音信号的扰动数据;扰动添加模块,被配置为通过将所述扰动数据添加到所述目标声音信号来确定扰动声音信号;扰动传播拟合模块,被配置为利用所述传播拟合模型生成所述扰动声音信号对应的传播声音信号;以及对抗确定模块,被配置为通过确定所述语音识别模型是否正确识别所述传播声音信号,来确定所述对抗声音信号。
9.根据权利要求8所述的装置,其中所述拟合模型获取模块包括:
样本获取模块,被配置为获取训练样本对,所述训练样本对包括训练声音信号和所述训练声音信号从所述声源经由所述环境传播并且由所述拾音器捕获后的训练传播声音信号;以及
模型生成模块,被配置为基于所述训练样本对来生成所述传播拟合模型。
10.根据权利要求9所述的装置,其中所述模型生成模块包括:
训练预处理模块,被配置为对所述训练声音信号和所述训练传播声音信号执行预处理操作;以及
基于预处理的模型生成模块,被配置为基于预处理后的所述训练声音信号和所述训练传播声音信号来生成所述传播拟合模型。
11.根据权利要求9所述的装置,其中所述模型生成模块包括:
频域特征确定模块,被配置为确定所述训练声音信号对应的第一频域特征和所述训练传播声音信号对应的第二频域特征;以及
基于频域的模型生成模块,被配置为基于所述第一频域特征和所述第二频域特征来生成所述传播拟合模型,以使所生成的所述传播拟合模型能够从所述第一频域特征确定所述第二频域特征。
12.根据权利要求8所述的装置,其中所述对抗确定模块包括:
第一确定模块,被配置为根据确定所述语音识别模型错误识别所述传播声音信号,将所述扰动声音信号确定为所述对抗声音信号;以及
第二确定模块,被配置为根据确定所述语音识别模型正确识别所述传播声音信号,通过向所述目标声音信号再次添加另外的扰动数据来确定所述对抗声音信号。
13.根据权利要求8所述的装置,其中所述目标获取模块包括:
目标信号确定模块,被配置为确定所述目标声音信号,以使所述传播拟合模型从所述目标声音信号确定的传播声音信号被所述语音识别模型正确识别。
14.根据权利要求8至13中任一项所述的装置,其中所述语音识别模型包括语音分类模型,所述语音分类模型被配置为确定输入的声音信号是否是人类语音。
15.一种电子设备,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。
CN202010215255.5A 2020-03-24 2020-03-24 用于生成对抗声音信号的方法、装置、设备和介质 Active CN113506564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010215255.5A CN113506564B (zh) 2020-03-24 2020-03-24 用于生成对抗声音信号的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010215255.5A CN113506564B (zh) 2020-03-24 2020-03-24 用于生成对抗声音信号的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN113506564A CN113506564A (zh) 2021-10-15
CN113506564B true CN113506564B (zh) 2024-04-12

Family

ID=78008272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010215255.5A Active CN113506564B (zh) 2020-03-24 2020-03-24 用于生成对抗声音信号的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113506564B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782511A (zh) * 2016-12-22 2017-05-31 太原理工大学 修正线性深度自编码网络语音识别方法
CN109741736A (zh) * 2017-10-27 2019-05-10 百度(美国)有限责任公司 使用生成对抗网络进行鲁棒语音识别的系统和方法
US10347241B1 (en) * 2018-03-23 2019-07-09 Microsoft Technology Licensing, Llc Speaker-invariant training via adversarial learning
CN110415684A (zh) * 2019-08-05 2019-11-05 安徽赛福贝特信息技术有限公司 一种人工智能语音识别系统
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN110767216A (zh) * 2019-09-10 2020-02-07 浙江工业大学 一种基于pso算法的语音识别攻击防御方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2844911B1 (fr) * 2002-09-24 2006-07-21 Thales Sa Procede de reconnaissance vocale avec correction automatique
TWI223792B (en) * 2003-04-04 2004-11-11 Penpower Technology Ltd Speech model training method applied in speech recognition
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
US9583111B2 (en) * 2013-07-17 2017-02-28 Technion Research & Development Foundation Ltd. Example-based audio inpainting
US20190147854A1 (en) * 2017-11-16 2019-05-16 Microsoft Technology Licensing, Llc Speech Recognition Source to Target Domain Adaptation
US10777202B2 (en) * 2018-06-19 2020-09-15 Verizon Patent And Licensing Inc. Methods and systems for speech presentation in an artificial reality world

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782511A (zh) * 2016-12-22 2017-05-31 太原理工大学 修正线性深度自编码网络语音识别方法
CN109741736A (zh) * 2017-10-27 2019-05-10 百度(美国)有限责任公司 使用生成对抗网络进行鲁棒语音识别的系统和方法
US10347241B1 (en) * 2018-03-23 2019-07-09 Microsoft Technology Licensing, Llc Speaker-invariant training via adversarial learning
CN110415684A (zh) * 2019-08-05 2019-11-05 安徽赛福贝特信息技术有限公司 一种人工智能语音识别系统
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置
CN110767216A (zh) * 2019-09-10 2020-02-07 浙江工业大学 一种基于pso算法的语音识别攻击防御方法

Also Published As

Publication number Publication date
CN113506564A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN111276131B (zh) 一种基于深度神经网络的多类声学特征整合方法和系统
CN107077860B (zh) 用于将有噪音频信号转换为增强音频信号的方法
JP2021516369A (ja) 混合音声の認識方法、装置及びコンピュータ可読記憶媒体
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
CN110648691B (zh) 基于语音的能量值的情绪识别方法、装置和系统
Wang et al. Recurrent deep stacking networks for supervised speech separation
EP3989217A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN110111798B (zh) 一种识别说话人的方法、终端及计算机可读存储介质
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
Zou et al. Improved voice activity detection based on support vector machine with high separable speech feature vectors
CN112750461B (zh) 语音通信优化方法、装置、电子设备及可读存储介质
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN112397093A (zh) 一种语音检测方法与装置
KR20200023893A (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
BR112014009338B1 (pt) Aparelho de atenuação de ruído e método de atenuação de ruído
CN113077812A (zh) 语音信号生成模型训练方法、回声消除方法和装置及设备
CN112767950A (zh) 一种声纹识别方法、装置及计算机可读存储介质
CN113506564B (zh) 用于生成对抗声音信号的方法、装置、设备和介质
CN112002307B (zh) 一种语音识别方法和装置
CN113035230A (zh) 认证模型的训练方法、装置及电子设备
Zhu et al. A robust and lightweight voice activity detection algorithm for speech enhancement at low signal-to-noise ratio
CN112750469A (zh) 语音中检测音乐的方法、语音通信优化方法及对应的装置
JP5342621B2 (ja) 音響モデル生成装置、音響モデル生成方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant