CN114093371A

CN114093371A - 基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法

Info

Publication number: CN114093371A
Application number: CN202111178765.0A
Authority: CN
Inventors: 卢立; 巴钟杰; 任奎; 其他发明人请求不公开姓名
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2022-02-25

Abstract

本发明公开了一种基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法，系统包括音素识别器、扰动生成器、听感抑制器、替代分类器和系统优化器，听感抑制器生成受抑制扰动与音素识别器生成的对齐语音叠加生成对抗样本，对抗样本通过替代分类器分类将分数发送至系统优化器并将梯度反向传播给扰动生成器进行迭代更新，得到一个训练好的音素扰动生成器。本发明创新性地提出融合语音中的音素信息进行扰动构造，利用音素识别器识别和定位语音中的音素并在音素级别生成细粒度的通用对抗扰动，从而使得一步生成的对抗扰动能够重用于任意语音文本输入，最终实现文本无关、输入无关的通用对抗样本生成，极大提升对抗样本的生成效率。

Description

基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法

技术领域

本发明涉及声纹识别和对抗样本领域，具体地说，涉及一种基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法。

背景技术

作为人类最自然、最直接的交流方式，语音一直以来都在人机交互和个体识别领域占有重要地位，并逐渐成为一种流行的生物识别技术。同时，得益于深度学习理论和技术的快速发展，声纹识别被应用于各种成熟的产品(如语音助手，声纹锁等)从而为人们的工作生活提供智能化服务。有研究表明，2020年全球语音生物识别市场规模超过110万美元并且有望在2026年达到390万美元，充分显示了语音技术的广阔发展前景。然而，在声纹识别的光明前景背后，深度学习易受对抗样本攻击的阴影造成了严重的安全威胁。最近的研究表明在正常语音上施加轻微的扰动就能轻松欺骗基于深度神经网络的声纹识别系统，即声纹识别易受基于对抗样本的模仿攻击，该现象引起了广泛的公众关注和大量的研究兴趣。本发明利用生成模型构造音素级的对抗扰动，从而以较低的复杂度生成通用、可迁移的语音对抗样本，最终实现定向模仿攻击来欺骗声纹识别系统。

对抗样本攻击是一种模型推理阶段的可用性攻击，在正常语音上施加人类不可感知的扰动，经过神经网络的非线性结构不断放大，最终导致目标模型产生错误的决策。现有的声纹领域对抗样本攻击分为白盒攻击和黑盒攻击：白盒攻击假设攻击者已知目标模型的内部细节，但在未知模型上的攻击性能显著下降，因而其现实意义受到极大限制；黑盒攻击假设攻击者没有关于目标模型的先验知识，但是需要对目标模型进行大量查询访问来估计梯度，在实际攻击场景中缺乏可行性。此外，现有的攻击方法通过复杂的迭代优化算法为单个确定的语音生成一次性对抗样本，具有输入确定、耗费时间、不可迁移的缺点。

发明内容

本发明提出一种基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法，以攻击的高通用性、低复杂度、可迁移性为目标，将语音解构为音素序列再施加预训练的通用对抗扰动，可以实时生成文本无关、个体无关的语音对抗样本，并且在不同声纹识别模型上具有良好的迁移能力从而实现黑盒攻击。

本发明是通过以下技术方案来实现的：

本发明公开了一种基于神经网络生成模型的音素级声纹识别对抗样本构造系统，系统包括音素识别器、扰动生成器、听感抑制器、替代分类器和系统优化器，音素识别器生成对齐语音、扰动生成器生成音素级扰动至听感抑制器，听感抑制器生成受抑制扰动与音素识别器生成的对齐语音叠加生成对抗样本，对抗样本通过替代分类器分类将分数发送至系统优化器并将梯度反向传播给扰动生成器进行迭代更新，最终得到一个训练好的音素扰动生成器。

本发明还公开了一种基于神经网络生成模型的音素级声纹识别对抗样本构造方法，方法包括离线训练阶段和在线攻击阶段，包括如下步骤：

离线训练阶段：

1)音素识别器通过强制对齐技术将多说话人语音数据集中的语音分解为音素序列，识别所有音素并定位其在语音中的时间段；

2)扰动生成器定义了使用的所有音素，并通过一个多层神经网络自动为每个音素生成固定维度的音素级扰动，根据音素识别器得到的音素及其位置信息，在语音中每个音素出现的时间段注入对应的音素级扰动即可得到该语音的对抗扰动；

3)为了避免扰动造成的失真被人耳所感知，听感抑制器结合多种信号处理技术来约束扰动生成器生成的扰动，生成受抑制的扰动；

4)受抑制的扰动叠加到音素识别器生成的对齐语音上即可得到对应的语音对抗样本，对抗样本被输入到预训练的替代分类器中进行声纹识别；

5)根据替代分类器的识别结果，系统优化器计算目标损失并将梯度反向传播给扰动生成器进行迭代更新，最终得到一个训练好的音素扰动生成器；

在线攻击阶段：

攻击者将其语音输入到系统中，经过音素识别器得到音素及其位置信息，并据此注入线下预训练好的音素级对抗扰动来构造语音对抗样本，然后攻击者即可将该对抗样本注入到目标系统进行定向攻击，从而冒充目标用户绕过系统的身份认证。

作为进一步地改进，本发明所述的步骤1)中，强制对齐技术是对音频片段和文本内容进行时间对齐，并确定每个音素在语音中的时间段，最终输出语音中的每个音素及其位置信息，强制对齐技术所用的强制对齐工具是Montreal Forced Aligner。

作为进一步地改进，本发明所述的步骤2)中，扰动生成器是一个多层神经网络，包括输入层、三层隐藏层和输出层。

作为进一步地改进，本发明所述的扰动生成器的工作流程为：输入层是m×n的随机噪声，经过三层m×kn的隐藏层和ReLU激活函数被映射到扰动空间，再通过Tanh激活函数将m×n的输出层正则化从而得到扰动；其中参数m,n,k分别表示音素数量、扰动维度、隐藏层比例因子。

作为进一步地改进，本发明所述的听感抑制器对扰动进行约束，包括低通滤波、幅值剪切和加窗平滑多种信号处理技术：

1)低通滤波：应用一个数字双二阶滤波器来滤除扰动的高频分量；

2)幅值剪切：采用L_∞正则化进行幅值限制，通过一个幅值剪切操作实现：

δ＝clip{δ，-∈，∈}，其中δ为对抗扰动，∈为幅值上限；

3)加窗平滑：采用一个汉宁窗函数对音素的边界进行平滑，其窗口长度由音素长度决定。

作为进一步地改进，本发明所述的替代分类器包括多个预训练的主流声纹识别模型，为d-vector、x-vector和DeepSpeaker的任意一种。

作为进一步地改进，对于语音和文本数据集(X，T)＝{(x₁，t₁)，(x₂，t₂)，…，(x_n，t_n)}，系统优化器用于得到一个训练好的扰动生成器G(·)用以生成扰动δ并构造对抗样本

从而使得替代分类器C(·)将其错误识别为目标用户y_a。

作为进一步地改进，本发明所述的具体包括如下步骤：

1)初始化扰动生成器G(·)、随机噪声z、幅值上限∈和截止频率f，在每一次迭代中，加载一批样本

经过音素识别器的强制对齐之后得到每个音素p及其时间段[s，e)，同时，扰动生成器将随机噪声z映射到扰动空间，即δ＝G(z)；

2)通过听感抑制器在扰动上依次应用低通滤波、幅值剪切、加窗平滑进行听感抑制；

3)受抑制的扰动根据对齐信息和一个时间偏移量注入到对齐语音

之上生成对抗样本

然后输入到替代分类器C(·)中得到识别结果y_pred和目标用户的分数s_a，根据该结果，系统优化器计算如下损失：

L(y_a，y_pred)＝max{θ-s_a，-κ}.

其中，θ是替代分类器的预设阈值，κ是引入的置信度用以确保得分s_a足够超过阈值θ从而被成功识别为目标用户y_a；

4)基于该目标函数，系统优化器利用梯度下降方法不断更新扰动生成器，直到满足早停条件。

本发明的有益效果如下：

本发明提出一种基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法，现有的语音对抗样本攻击针对单条语音构造一次性的对抗扰动，需要为每条语音重复扰动生成过程，存在扰动通用性能差、生成效率低的问题，本发明创新性地提出融合语音中的音素信息进行扰动构造，利用音素识别器识别和定位语音中的音素并在音素级别生成细粒度的通用对抗扰动，从而使得一步生成的对抗扰动能够重用于任意语音文本输入，最终实现文本无关、输入无关的通用对抗样本生成，极大提升对抗样本的生成效率。

现有的语音对抗样本攻击采用复杂的迭代优化算法进行梯度估计和扰动构造，每次生成需要大量的时间成本，无法满足现实场景的实时需求，本发明提出解耦离线对抗扰动构造和在线对抗样本生成阶段，利用深度神经网络生成模型学习高斯随机噪声到高维扰动空间的复杂映射，结合生成模型的离线预训练和在线前向推理两个阶段实现实时对抗样本生成，有效满足现实场景中的实时性需求。

为了保证对抗扰动的不可感知性，现有语音对抗样本攻击通常采用幅值抑制的手段进行可听性抑制，然而全频段的幅值抑制容易造成严重的对抗样本性能下降，本发明充分考虑对抗扰动的听感影响因素，采用幅值剪切、低通滤波、加窗平滑等多种信号处理技术从幅值、频率、窗口边界多个维度进行扰动听感抑制，有效降低叠加对抗扰动带来的信号失真，在保证对抗扰动性能的同时最小化扰动可听性，最终实现人耳不可感知的对抗样本生成。

本发明构建了一个基于生成模型的音素级声纹识别对抗样本攻击系统，不仅能够较低的复杂度生成文本无关、个体无关的通用对抗样本，还在不同数据集、不同声纹识别模型上具有良好的迁移性能。本发明能够适应不同的说话个体、语音文本和目标系统，有效地实现定向对抗样本攻击的高通用性、低复杂度和可迁移性。

攻击效性和扰动不可感知性评估中，本发明相比RURA在实现更高SNR的同时ASR提升了15％以上，相比AdvPulse则实现了两倍的SNR并且ASR也具有3％的提升。相比这两种方法被设计来只针对x-vector系统进行攻击，本发明的ASR在d-vector和DeepSpeaker系统上分别达到100.00％和99.93％，充分证明了本发明在不同系统上的有效性。

迁移性评估中，本发明在30类黑盒攻击中只有7类的平均ASR低于80％，证明了本发明的在不同目标系统上的迁移性。为了进一步分析目标系统的数据集和网络模型的影响，总结了白盒攻击和其他三种黑盒攻击即跨数据集、跨模型、跨数据与模型下的性能评估。得出本发明在这三种黑盒攻击下分别达到了89.0％、86.4％和79.2％的ASR，相比白盒攻击仅有11％、13％和20％的性能下降，证明了本发明在黑盒攻击下的良好性能。

计算复杂度评估中，区别于已有的基于迭代优化的攻击方法，本发明可以在任意语音上施加预训练的音素级扰动，极大减少了生成对抗样本的时间成本，本发明能够有效降低计算复杂度。

通用性评估中，本发明能够适应于不同说话人和语音文本，在性别内和性别间条件下都表现出了良好的攻击性能，对于说话人性别的鲁棒性。

附图说明

图1为本发明的系统框架图；

图2为本发明系统中扰动生成器网络结构图；

图3为听感抑制器效果示例图；

图4为本发明在不同数据集和不同模型的迁移性图，包括(a)迁移攻击混淆矩阵和(b)不同攻击设定下的攻击性能；

图5为本发明在不同攻击者和不同性别的通用性图，包括(a)不同攻击者上的攻击性能和(b)不同性别下的攻击性能。

具体实施方式

下面通过具体实施例对本发明的技术方案作进一步地说明：

本发明提出一种基于神经网络生成模型的音素级声纹识别对抗样本构造系统和方法，图1展示了本发明的系统框架图，整个流程分为离线训练阶段和在线攻击阶段，其中包括了5个部分，即音素识别器、扰动生成器、听感抑制器、替代分类器、系统优化器。离线训练阶段，音素识别器通过强制对齐技术将多说话人语音数据集中的语音分解为音素序列，识别所有音素并定位其在语音中的时间段；扰动生成器定义了使用的所有音素，并通过一个多层神经网络自动为每个音素生成固定维度的音素级扰动，根据音素识别器得到的音素及其位置信息，在语音中每个音素出现的时间段注入对应的音素级扰动即可得到该语音的对抗扰动；为了避免扰动造成的失真被人耳所感知，听感抑制器结合多种信号处理技术来约束扰动；受抑制的扰动叠加到对齐语音上即可得到对应的语音对抗样本，该对抗样本被输入到预训练的替代分类器中进行声纹识别；根据替代分类器的识别结果，系统优化器计算目标损失并将梯度反向传播给扰动生成器进行迭代更新，最终得到一个训练好的音素扰动生成器。

在线攻击阶段，攻击者将其语音输入到系统中，经过音素识别器得到音素及其位置信息，并据此注入离线预训练好的音素级对抗扰动来构造语音对抗样本，然后攻击者即可将该对抗样本注入到目标系统进行定向攻击，从而冒充目标用户绕过系统的身份认证。

首先，对音素识别器进行介绍。为了在音素级别构造扰动，首先需要识别和定位语音中的音素。由于攻击者可以自由指定攻击的文本内容，即对抗样本的文本已知，其音素序列可以通过一个音素字典获得，因而问题转化为语音信号和音素文本的时间对齐，而音素文本对齐可以通过强制对齐技术解决。强制对齐技术可以对音频片段和文本内容进行时间对齐，并确定每个音素在语音中的时间段。目前存在许多流行的强制对齐工具，考虑到可用性和兼容性方面的优势，采用Montreal Forced Aligner(MFA)作为音素对齐工具。输入一段语音及其文本，MFA通过预训练的声纹和音素模型以及一个预置的音素字典来实现音素对齐，最终输出语音中的每个音素及其位置信息。

接下来，介绍扰动生成器的设计。扰动生成器首先定义了英语语言中的音素，这些音素可以用ASCII字符集来进行表示，如表1所示。

根据发音方式的不同，表中的40个音素标签音素被分为塞音、擦音、塞擦音、鼻音、滑音、流音和元音。考虑到静音片段会在声纹识别系统的语音活动监测处理过程中被丢弃，无需在静音处构造和注入扰动，因此除去/SIL/还剩39个音素。接着设计了一个多层神经网络作为扰动生成器，图2为本发明系统中扰动生成器网络结构图，输入层是m×n的随机噪声，经过三层m×kn的隐藏层和ReLU激活函数被映射到扰动空间，然后通过Tanh激活函数将m×n的输出层正则化从而得到扰动。其中参数m,n,k分别表示音素数量、扰动维度、隐藏层比例因子，m设为表1中音素数量39，n根据音素长度设为200，k根据经验研究设为4。以音素标签为键，音素扰动为值，可以得到一个音素扰动字典，根据音素识别器得到的音素及其位置信息，可以在语音的相应位置注入生成的音素扰动从而形成整段语音的扰动。

生成的对抗扰动与正常语音存在显著的差异，特别是存在大量高频分量和高幅峰值容易被人耳感知。图3为听感抑制器效果示例图，图3(a)和3(b)显示了一段正常语音及其生成的对抗样本的时频谱，可以看到图3(b)中大量高频高幅的部分掩盖了原始音频的声纹特征。为了使得对抗扰动不可感知，系统采用听感抑制器对扰动进行约束，其中包括低通滤波、幅值剪切和加窗平滑多种信号处理技术：1)低通滤波：首先应用一个数字双二阶滤波器来滤除扰动的高频分量，其截止频率设为2kHz，能量损失因子默认为0.707。图3(c)显示了滤波后的时频谱，对比图3(b)其高频部分的幅值显著降低，得到了有效抑制。2)幅值剪切：接着采用L_∞正则化进行幅值限制，具体通过一个幅值剪切操作实现：δ＝clip{δ，-∈，∈}，其中δ为对抗扰动，∈为幅值上限。图3(d)显示了经过幅值剪切的时频谱，相比图3(c)其幅值在全频段受到显著压缩。3)加窗平滑：最后采用一个汉宁窗函数对音素的边界进行平滑，其窗口长度由音素长度决定。图3(e)显示了经过平滑的时频谱，相比图3(d)其音素边界处的幅值变化更加平滑。经过以上处理，图3(e)中的时频谱更加接近图3(a)中的原始时频谱，即对抗扰动带来的失真被有效抑制了。

受抑制的对抗扰动叠加到原始语音之上即可生成对应的语音对抗样本，这些对抗样本被输入到预训练的替代分类器中进行声纹识别。在黑盒设定下，攻击者无法得知目标系统的内部细节，因此系统转而利用对抗样本的跨模型迁移能力进行攻击，即针对一个源模型生成的对抗样本存在攻击成功另一个目标模型的可能性。因此，为了增强对抗样本的迁移性，系统提供了多个预训练的主流声纹识别模型作为目标模型的替代分类器，比如d-vector、x-vector和DeepSpeaker。此外，替代分类器采取声纹识别中常用的PLDA进行打分。

基于替代分类器的识别结果，系统优化器进行全局优化。对于语音和文本数据集(X，T)＝((x₁，t₁)，(x₂，t₂)，…，(x_n，t_n)}，系统优化器旨在得到一个训练好的扰动生成器G(·)用以生成扰动δ并构造对抗样本

从而使得替代分类器C(·)将其错误识别为目标用户y_a。首先，初始化扰动生成器G(·)、随机噪声z、幅值上限∈和截止频率f。在每一次迭代中，加载一批样本

经过音素识别器的强制对齐之后得到每个音素p及其时间段[s，e)。同时，扰动生成器将随机噪声z映射到扰动空间，即δ＝G(z)，接着在扰动上依次应用低通滤波、幅值剪切、加窗平滑进行听感抑制。受抑制的扰动根据对齐信息和一个时间偏移量注入到对齐语音

之上生成对抗样本

然后输入到替代分类器C(·)中得到识别结果y_pred和目标用户的分数s_a。根据该结果，系统优化器计算如下损失：

L(y_a，y_pred)＝max{θ-s_a，-κ}.

其中，θ是替代分类器的预设阈值，κ是引入的置信度用以确保得分s_a足够超过阈值θ从而被成功识别为目标用户y_a。基于该目标函数，系统优化器利用梯度下降方法不断更新扰动生成器，直到满足早停条件。

为了验证本发明的有效性，在大规模语料库LibriSpeech上训练和部署了本发明。该语料库包含来自331个说话人的超过110小时的语音数据，这些说话人具有不同的口音、职业和年龄，语音的文本涵盖了8000本电子书和近900000个单词。选择10个说话人作为目标用户以及另外40个说话人作为攻击者。然后，在剩下的281个说话人语音上训练本发明的扰动生成器，训练时扰动维度n＝200，置信度κ＝50，幅值上限∈＝0.02，截止频率f＝2kHz。对于目标系统，将另一个大规模语料库VoxCeleb平均分为两部分VoxCeleb P1和P2，在这两个子数据集上分别训练了三种主流的声纹识别模型d-vector、x-vector和DeepSpeaker，从而得到六个声纹识别系统Systemn A-F，他们的性能如下表2所示，表2为目标声纹识别系统性能：

在攻击测试时，利用40个攻击者的语音分别针对10个目标用户生成2229个语音对抗样本，因此总共构造了802400次攻击试验。采用如下指标评估本发明的性能：1)攻击成功率(Attack Success Rate,ASR)：

其中N为测试样本总数，M为攻击成功次数。2)混淆矩阵(Confusion Matrix)：矩阵的行和列分别代表替代分类器和目标系统，第i行第j列的项显示第i个替代分类器迁移到第j个目标系统的攻击成功率。3)信噪比(Signal-to-Noise Rate,SNR)：

其中P_x和P_δ分别表示原始语音和对抗扰动的信号功率，SNR越高表示失真越小，扰动越不容易被感知。4)平均时间成本(Average TimeCost,ATC)：对抗样本的平均生成时间。

攻击效性和扰动不可感知性评估。如下表3所示，表3为白盒攻击有效性和不可感知性对比；

将本发明与领域最新的两种白盒攻击方法RURA和AdvPulse进行了对比，可以看出本发明相比RURA在实现更高SNR的同时ASR提升了15％以上，相比AdvPulse则实现了两倍的SNR并且ASR也具有3％的提升。相比这两种方法被设计来只针对x-vector系统进行攻击，本发明还在其他声纹识别系统上进行了实验验证，可以看出本发明的ASR在d-vector和DeepSpeaker系统上分别达到100.00％和99.93％，充分证明了本发明在不同系统上的有效性。

迁移性评估。图4为本发明在不同数据集和不同模型的迁移性图，包括(a)迁移攻击混淆矩阵和(b)不同攻击设定下的攻击性能；每次实验选择六个预训练的系统之一作为替代分类器，并将剩余五个作为目标系统进行迁移攻击，最终得到如图4(a)所示的混淆矩阵。可以看出本发明在30类黑盒攻击中只有7类的平均ASR低于80％，证明了本发明的在不同目标系统上的迁移性。为了进一步分析目标系统的数据集和网络模型的影响，总结了白盒攻击和其他三种黑盒攻击即跨数据集、跨模型、跨数据与模型下的性能评估。如图4(b)所示，可以看出本发明在这三种黑盒攻击下分别达到了89.0％、86.4％和79.2％的ASR，相比白盒攻击仅有11％、13％和20％的性能下降，证明了本发明在黑盒攻击下的良好性能。计算复杂度评估。区别于已有的基于迭代优化的攻击方法，本发明可以在任意语音上施加预训练的音素级扰动，极大减少了生成对抗样本的时间成本。为了验证本发明的时间复杂度，将本发明的ATC和领域内最新的攻击方法RURA和FakeBob进行对比。如下表4所示，表4白盒与黑盒攻击平均时间成本对比。

相比RURA，本发明在ATC仅增加0.015s的条件下实现了15％的ASR提升；相比FakeBob，虽然本发明的ASR相差15％左右，但由于FakeBob需要大量的查询访问操作进行梯度估计，其ATC高达995s，而本发明将ATC降至0.03s实现了金30000倍的加速比。该结果验证了本发明能够有效降低计算复杂度。

通用性评估。图5为本发明在不同攻击者和不同性别的通用性图，包括(a)不同攻击者上的攻击性能和(b)不同性别下的攻击性能。在40个不同的说话人和大量的语音文本上进行实验来评估本发明针对不同个体、不同文本的通用性。如图5(a)所示，本发明在不同攻击者上达到了较高的ASR，四种攻击设定下的标准差分别为0.29％、8.87％、8.94％和15.80％，四分位距分别为0.00％、10.71％、10.93％和26.05％。该结果涉及了40个不同说话人和近900000个单词文本，表明本发明能够适应于不同说话人和语音文本。还评估了本发明在不同性别下的攻击效果，利用40个攻击者(20男20女)的语音生成对抗样本分别定向攻击10个目标用户(4男6女)，结果如图5(b)所示。整体上，本发明在性别内和性别间条件下都表现出了良好的攻击性能，对于性别内攻击，四种设定下ASR都在90％以上；对于性别间攻击，白盒攻击ASR为100％，跨数据集和跨模型攻击的ASR都在80％以上，证明了本发明对于说话人性别的鲁棒性。在跨数据集与模型设定下，性别间攻击的ASR下降至66.7％，这是因为不同性别说话人语音的基频和谐波结构显著不同，导致了生成这类对抗样本的难度增大，尤其是同时还跨数据集和模型进行攻击。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于神经网络生成模型的音素级声纹识别对抗样本构造系统，其特征在于，所述的系统包括音素识别器、扰动生成器、听感抑制器、替代分类器和系统优化器，所述的音素识别器生成对齐语音、所述的扰动生成器生成音素级扰动至听感抑制器，所述的听感抑制器生成受抑制扰动与音素识别器生成的对齐语音叠加生成对抗样本，所述的对抗样本通过替代分类器分类将分数发送至系统优化器并将梯度反向传播给扰动生成器进行迭代更新，最终得到一个训练好的音素扰动生成器。

2.一种基于神经网络生成模型的音素级声纹识别对抗样本构造方法，其特征在于，所述方法包括离线训练阶段和在线攻击阶段，包括如下步骤：

离线训练阶段：

4)受抑制的扰动叠加到音素识别器生成的对齐语音上即可得到对应的语音对抗样本，所述的对抗样本被输入到预训练的替代分类器中进行声纹识别；

在线攻击阶段：

3.根据权利要求2所述的基于神经网络生成模型的音素级声纹识别对抗样本构造方法，其特征在于，所述的步骤1)中，强制对齐技术是对音频片段和文本内容进行时间对齐，并确定每个音素在语音中的时间段，最终输出语音中的每个音素及其位置信息，强制对齐技术所用的强制对齐工具是Montreal Forced Aligner。

4.根据权利要求2所述的基于神经网络生成模型的音素级声纹识别对抗样本构造方法，其特征在于，所述的步骤2)中，所述的扰动生成器是一个多层神经网络，包括输入层、三层隐藏层和输出层。

5.根据权利要求4所述的基于神经网络生成模型的音素级声纹识别对抗样本构造方法，其特征在于，所述的扰动生成器的工作流程为：输入层是m×n的随机噪声，经过三层m×kn的隐藏层和ReLU激活函数被映射到扰动空间，再通过Tanh激活函数将m×n的输出层正则化从而得到扰动；其中参数m，n，k分别表示音素数量、扰动维度、隐藏层比例因子。

6.根据权利要求1或2或3或4或5所述的基于神经网络生成模型的音素级声纹识别对抗样本构造方法，其特征在于，所述的听感抑制器对扰动进行约束，包括低通滤波、幅值剪切和加窗平滑多种信号处理技术：

2)幅值剪切：采用L_∞正则化进行幅值限制，通过一个幅值剪切操作实现：δ＝clip{δ，-∈,∈}，其中δ为对抗扰动，∈为幅值上限；

7.根据权利要求2所述的基于神经网络生成模型的音素级声纹识别对抗样本构造方法，其特征在于，所述的替代分类器包括多个预训练的主流声纹识别模型，为d-vector、x-vector和DeepSpeaker的任意一种。

8.根据权利要求2或7所述的基于神经网络生成模型的音素级声纹识别对抗样本构造方法，其特征在于，对于语音和文本数据集(X，T)＝{(x₁，t₁)，(x₂，t₂)，…，(x_n，t_n)}，系统优化器用于得到一个训练好的扰动生成器G(·)用以生成扰动δ并构造对抗样本

从而使得替代分类器C(·)将其错误识别为目标用户y_a。

9.根据权利要求1或2或3或4或5或7或8所述的基于神经网络生成模型的音素级声纹识别对抗样本构造方法，其特征在于，具体包括如下步骤：

之上生成对抗样本

L(y_a，y_pred)＝max{θ-s_a，-κ}.