CN115083426A

CN115083426A - 基于对抗样本生成的高保真语音脱敏方法和装置

Info

Publication number: CN115083426A
Application number: CN202210629015.9A
Authority: CN
Inventors: 陈艳姣; 徐文渊; 陈骁孚; 滕飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-09-20

Abstract

本发明公开了一种基于对抗样本生成技术的高保真语音脱敏方法和装置，属于数据隐私保护领域。通过将受保护者音频输入对抗式生成网络脱敏模型，输出音频能在保持原来语义内容的前提下，改变音频中的声纹特征，进而使得人工智能说话人识别模型无法通过输入音频判断说话者身份，实现脱除原始说话人身份信息的效果。该脱敏模型的训练主要通过最小化对抗式生成网络中的生成器以及鉴别器损失以达到训练目的。在具体应用场景中，说话者可以先将自己的音频经已训练好的脱敏模型处理，而后将生成的音频提供给外界，而不泄露自己的身份，达到保护个人隐私的目的。

Description

基于对抗样本生成的高保真语音脱敏方法和装置

技术领域

本发明涉及语音识别领域与声纹特征建模领域，尤其涉及一种基于对抗样本生成的高保真语音脱敏方法

背景技术

深度学习技术已经应用到日常生活的各个方面，尤其是在语音识别、图片识别、目标检测等方面。但是随着深度学习和物联网技术的发展，其带来的隐私问题也受到了用户的不断关注。当用户需要语音控制家中物联网设备或者传达文字消息时，往往需要通过智能终端的语音识别或者说话人识别模型来实现，这样就会将用户的纯净音频暴露给一些并不需要提供声纹认证的应用系统的服务器，而深度学习技术同样可以从泄露的语音数据中提取用户的声纹特征并非法出售，而非法人员则会利用受害者的声纹合成音频，伪装成受害人，进而获取非法授权或者达到其他非法目的。

在大数据时代，越来越多的语音数据被发布，以用于改善基于语音的服务或学术研究。但在语音数据发布过程中存在着隐私泄露的风险。例如，在语音数据发布中，攻击者如果通过声纹识别得到特定用户的语音数据，则可以通过分析语音数据来了解用户的敏感信息。

虽然深度学习技术已经取得了广泛的应用，但是越来越多的研究表明这项技术本身存在着许多安全隐患。

发明内容

本发明针对现有技术存在的问题，提出了一种基于对抗样本生成的高保真语音脱敏方法和装置，通过构建对抗样本生成模型，使得生成的对抗样本能够在保留原音频中的语义信息前提下，改变音频中的声纹信息，进而防止说话人身份隐私的泄露。

本发明是通过以下技术方案得以实现的：

第一个方面，本发明提出了一种基于对抗样本生成技术的高保真语音脱敏方法，包括以下步骤：

构建生成式对抗网络，包括待训练的对抗样本生成模型、语音鉴别模型、以及预训练的说话人识别模型和语音识别模型；

对生成式对抗网络进行训练，将训练好的生成式对抗网络中的对抗样本生成模型作为语音脱敏模型，利用语音脱敏模型对输入的纯净音频叠加扰动，生成保留纯净音频的原始语义信息并对身份信息脱敏的对抗音频，使用对抗音频与外界进行交互。

进一步地，所述的高保真语音脱敏方法包括以下步骤：

S01，构建生成式对抗网络，随机初始化网络中语音鉴别模型和对抗样本生成模型的参数；

S02，采集纯净音频数据集，将数据集分为训练集和测试集；

S03，利用训练集对生成式对抗网络进行训练，分为两个阶段：

第一阶段，将语音鉴别模型、预训练好的说话人识别模型和语音识别模型的参数固定；通过反向传播算法对对抗样本生成模型的参数进行迭代更新，选取使得测试集的损失函数最低的对抗样本生成模型的参数作为最佳参数保存；

第二阶段，将对抗样本生成模型按照第一阶段得到的最佳参数进行固定，通过反向传播算法对语音鉴别模型的参数进行迭代更新，选取使得测试集的损失函数最低的语音鉴别模型的参数作为最佳参数保存；

第二阶段，将对抗样本生成模型按照第一阶段得到的最佳参数进行固定，通过反向传播算法对语音鉴别模型的参数进行迭代更新，使用测试集选取语音鉴别模型的最佳参数；

循环执行第一阶段和第二阶段的训练过程，直至对抗样本生成模型的参数和语音鉴别模型的参数满足优化的既定目标，训练完成；

S04，将训练完成后得到的对抗样本生成模型作为语音脱敏模型，将说话人音频作为语音脱敏模型的输入，利用语音脱敏模型对输入的说话人音频叠加扰动，生成保留说话人音频的原始语义信息并对说话人身份信息脱敏的对抗音频，使用对抗音频与外界进行交互，实现隐藏说话人身份的目的。

进一步地，将每一个训练周期得到的模型参数保存在一个断点文件中，当前训练周期结束后，利用测试集测试模型的训练损失函数值是否降低，若是，则删除先前的断点文件，保留当前的断点文件；若否，则删除当前的断点文件，保留先前的断点文件。

进一步地，在对生成式对抗网络进行训练的过程中，采用极小极大博弈算法使得对抗样本生成模型和语音鉴别模型在交替训练后达到动态平衡。

进一步地，所述的利用训练集对生成式对抗网络进行训练的第一阶段中，反向传播算法的损失包括三部分：声纹损失、语义损失和相似性损失；

所述的声纹损失的计算具体为：通过说话人识别模型对纯净音频和对抗音频进行编码，获得纯净音频声纹矩阵和对抗音频声纹矩阵，计算二者之间的余弦距离作为声纹损失。

所述的语义损失的计算具体为：通过语音识别模型对纯净音频和对抗音频进行内容识别，得到纯净音频的单词序列X和对抗音频的单词序列，计算二者的连接时序分类损失作为语义损失；

所述的相似性损失的计算具体为：通过语音鉴别模型提取纯净音频和对抗音频的相似性特征，预测对抗音频与纯净音频的相似置信度，根据相似置信度与真实标签计算交叉熵损失作为相似性损失。

进一步地，所述的利用训练集对生成式对抗网络进行训练的第二阶段中，反向传播算法的损失为相似性损失；所述的相似性损失的计算具体为：通过语音鉴别模型提取纯净音频和对抗音频的相似性特征，预测对抗音频与纯净音频的相似置信度，根据相似置信度与真实标签计算交叉熵损失作为相似性损失。

第二个方面，本发明提出了一种基于对抗样本生成技术的高保真语音脱敏装置，用于实现上述的高保真语音脱敏方法。

本发明的有益效果在于：

(1)本发明利用对抗样本生成技术改变音频中的声纹特征，对于原音频的扰动非常小，无论是在物理域还是数字域中都能轻易被相应实体捕获到其中的语义内容。

(2)本发明所训练出的语音脱敏模型不依赖于特殊硬件，具有高移植性，占据存储资源小，响应及时，处理迅速的特点。

(3)当说话人识别模型以及语音识别模型迭代发展时，只需要将网络训练时相应的模型替换一下，就能达到适应模型迭代发展的脱敏效果，在迭代发展后的模型作用下实现更为精准有效的语音脱敏。

附图说明

图1为本发明实施例示出的一种基于对抗样本生成的高保真语音脱敏方法的工作流程示意图。

图2为本发明实施例示出的语音脱敏模型训练流程示意图。

具体实施方式

下面结合附图对发明的技术方案进行说明。附图仅为本发明的示意性图解，附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本发明提出了对抗样本生成的高保真语音脱敏技术，构建生成对抗样本的损失函数并进行迭代优化以生成人耳不可察觉的扰动，使得在隐私的语音数据上添加扰动后，用户的音频内容能够被人听清，语音识别模型能够正确解析其中语义消息，但是智能设备却无法提取用户的真实声纹，在将音频数据上传后也无法对其进行非法利用，以此保护用户的隐私。

图1为本发明的方法工作流程示意图。本发明使用一种生成式对抗网络进行面向语音的对抗样本生成，该网络将作为脱敏模型进行使用，可实现对该语音中包含的说话人信息的模糊，实现保护原始语义信息并对身份信息脱敏的效果。整个工作流程可以分为两个阶段：

第一阶段是训练语音脱敏模型。首先，搭建一个生成式对抗网络并初始化训练的超参数，如训练周期，学习率等，所述的生成式对抗网络包括一个对抗样本生成模型和一个语音鉴别模型；收集网络上公开的或者已有的语音资源作为样本，将样本分为测试集、训练集。然后，依次训练对抗样本生成模型和语音鉴别模型，并保存训练集损失值小的模型参数，直到训练周期达到所设阈值。

在第二阶段是应用阶段。将训练好的对抗样本生成模型作为语音脱敏模型，对输入的纯净音频加以处理，生成脱敏后的语音用于提供给外界，以达到保护说话人身份的目的。

本实施例中，对抗音频是通过语音脱敏模型在输入的纯净音频上施加细微的扰动后生成的，实现保护原始语义信息并对身份信息脱敏的效果。

本发明的语音脱敏模型训练流程示意图分为两个部分：

如图2中的(a)所示，第一部分是训练对抗样本生成模型。首先将语音鉴别模型、说话人识别模型、语音识别模型参数固定；如果存在之前保存的对抗样本生成模型参数，则直接加载，否则随机初始化模型参数，通过反向传播算法让对抗样本生成模型参数不断更新学习，并用测试集选取使得模型泛化能力较好的参数保存。

本实施例中，所述的说话人识别模型和语音识别模型的预训练好的，不需要更新参数；将对抗样本生成模型输出的对抗音频分别作为语音鉴别模型、说话人识别模型、语音识别模型的输入，反向传播算法的损失函数分为三个部分：声纹损失、语义损失、以及相似性损失。

所述的声纹损失的计算为：通过说话人识别模型对纯净音频和对抗音频进行编码，获得纯净音频声纹矩阵和对抗音频声纹矩阵，计算二者之间的余弦距离，公式为：

Loss_声纹＝cosine(A,A’)

其中，A表示纯净音频声纹矩阵，A’表示对抗音频声纹矩阵，Loss_声纹表示声纹损失。

所述的语义损失的计算为：利用语音识别模型对纯净音频和对抗音频进行内容识别，所述的语音识别模型能够解码出音频所包含的完整的语句或者单词信息，得到纯净音频的单词序列X和对抗音频的单词序列Y，其中单词序列X即对抗音频的语义内容真值，计算单词序列X和单词序列Y的连接时序分类损失，公式为：

Loss_语义＝CTCLoss(X,Y)

其中，Loss_语义表示连接时序分类损失。

所述的相似性损失的计算为：利用语音鉴别模型提取纯净音频和对抗音频的相似性特征，预测对抗音频样本为正样本的概率，即对抗音频与纯净音频之间的相似性程度(相似置信度)，根据语音鉴别模型输出的相似置信度与真实标签计算交叉熵损失，公式为：

L_i＝-(y_n*log(z_n)+(1-y_n)*log(1-z_n))

其中，N为样本数量，z_n表示预测第n个对抗音频样本为正样本的概率，y_n表示第n个对抗音频样本的标签，L_i表示第i个对抗音频样本的交叉熵损失，Loss_相似表示所有样本的平均交叉熵损失。

将训练对抗样本生成模型总的损失函数即为三者的线性组合，本领域技术人员可根据实际情况赋予三者不同的权重，以寻找最符合期望的脱敏模型。

如图2中的(b)所示，第二部分是训练语音鉴别模型。固定对抗样本生成模型参数，如果存在之前保存的语音鉴别模型参数，则直接加载，否则随机初始化语音鉴别模型参数，在训练过程中通过反向传播算法使得语音鉴别模型参数不断更新学习，并用测试集选取能够使模型泛化能力较好的参数进行保存。在第二部分的训练过程中，损失函数为语音鉴别模型输出的相似置信度与真实标签之间的交叉熵损失。

循环交替执行第一部分的训练过程和第二部分的训练过程，直至对抗样本生成模型的参数和语音鉴别模型的参数满足优化的既定目标，训练完成。本实施例中，可以设置一个训练周期的阈值，采用极小极大博弈算法使得对抗样本生成模型和语音鉴别模型在交替训练后达到动态平衡。

与前述的一种基于对抗样本生成的高保真语音脱敏方法的实施例相对应，本申请还提供了一种基于对抗样本生成的高保真语音脱敏装置的实施例，所述的装置包括：

生成式对抗网络模块，其包括对抗样本生成模型、语音鉴别模型、说话人识别模型和语音识别模型；

生成式对抗网络训练模块，其用于对生成式对抗网络中的对抗样本生成模型、语音鉴别模型进行训练，获得最佳参数；

数据获取模块，其用于获取纯净音频数据集构建训练集、测试集，以及用于获取需要进行脱敏处理的说话人音频；

语音脱敏模块，其用于加载训练好的对抗样本生成模型的参数，将加载得到的对抗样本生成模型作为语音脱敏模型；以及，用于获取需要进行脱敏处理的说话人音频并作为语音脱敏模型的输入，输出脱敏后的对抗音频用于与外界进行交互，实现隐藏说话人身份的目的。

关于上述实施例中的装置，其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中各个模块都可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一种基于对抗样本生成技术的高保真语音脱敏方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于对抗样本生成技术的高保真语音脱敏方法，其特征在于，所述的高保真语音脱敏方法包括以下步骤：

S02，采集纯净音频数据集，将数据集分为训练集和测试集；

3.根据权利要求2所述的一种基于对抗样本生成技术的高保真语音脱敏方法，其特征在于，将每一个训练周期得到的模型参数保存在一个断点文件中，当前训练周期结束后，利用测试集测试模型的训练损失函数值是否降低，若是，则删除先前的断点文件，保留当前的断点文件；若否，则删除当前的断点文件，保留先前的断点文件。

4.根据权利要求1或2所述的一种基于对抗样本生成技术的高保真语音脱敏方法，其特征在于，在对生成式对抗网络进行训练的过程中，采用极小极大博弈算法使得对抗样本生成模型和语音鉴别模型在交替训练后达到动态平衡。

5.根据权利要求2所述的一种基于对抗样本生成技术的高保真语音脱敏方法，其特征在于，所述的利用训练集对生成式对抗网络进行训练的第一阶段中，反向传播算法的损失包括三部分：声纹损失、语义损失和相似性损失；

6.根据权利要求2所述的一种基于对抗样本生成技术的高保真语音脱敏方法，其特征在于，所述的利用训练集对生成式对抗网络进行训练的第二阶段中，反向传播算法的损失为相似性损失；所述的相似性损失的计算具体为：通过语音鉴别模型提取纯净音频和对抗音频的相似性特征，预测对抗音频与纯净音频的相似置信度，根据相似置信度与真实标签计算交叉熵损失作为相似性损失。

7.一种基于对抗样本生成技术的高保真语音脱敏装置，用于实现权利要求1所述的高保真语音脱敏方法，所述的语音脱敏装置包括：