CN117079658A

CN117079658A - 一种基于差分隐私的说话人匿名化系统及方法

Info

Publication number: CN117079658A
Application number: CN202311183589.9A
Authority: CN
Inventors: 彭海朋; 尉立雯; 李丽香; 任叶青; 薛晓鹏; 卢玥
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-11-17

Abstract

一种基于差分隐私的说话人匿名化系统及方法，涉及语音处理领域，该方法包括：对于每条原始语音，分别提取出说话人向量、基频F0和内容特征；利用广义差分隐私算法对提取出的说话人向量进行批量匿名化处理，获得匿名说话人向量；将匿名说话人向量、基频F0和内容特征进行合成，生成脱敏后的匿名化语音波形数据。本发明通过将广义差分隐私与基于自监督模型的语言可迁移说话人匿名化框架相结合，可在攻击者已经具有一部分先验知识的情况下，依旧能保障说话人身份隐私数据的安全性，并且能在保证匿名后语音的隐私性的同时依旧保证匿名后的语音具有良好的可用性，更好地解决WER和EER之间的平衡性问题。

Description

一种基于差分隐私的说话人匿名化系统及方法

技术领域

本发明涉及语音处理技术领域，具体涉及一种基于差分隐私的说话人匿名化系统及方法。

背景技术

随着基于语音的人机交互技术的进步和智能设备的发展，语音数据已经成为大数据的一个新维度。收集和共享真实世界的语音数据不仅可以改进创新服务和产品，如苹果的Siri和谷歌Assistant，还可以促进智能算法的研究。然而，隐私和安全方面的考虑可能会阻碍真实世界语音数据的收集和共享。首先，语音数据包含说话者的身份信息，表示为声纹(类似于指纹)，如说话人的年龄、性别、地理背景、健康或情感状态、政治取向和宗教信仰等，这被认为是一种生物特征标识。第二，暴露个人声纹可能会带来安全风险。在语音的实际应用场景中，针对语音的保护存在很多不确定性，尤其是人为的恶意欺骗攻击，使得语音诈骗事件层出不穷。因为声纹会被用于许多认证系统，攻击者可能对语音认证系统进行spoong攻击。同时，没有任何保护的语音记录的说话人身份可以通过先进的语音合成(SpeechSynthesis，SS)技术重新合成、克隆和转换，这可能会导致声纹识别系统出现隐私风险。

因此，为了保护说话人的隐私，人们提出了说话人匿名化方法，也称为说话人去识别方法，说话人匿名化是指在语音信号中压制个人身份信息，而保留其他属性不变的一种方法。其目的是抑制说话人的身份，即隐藏说话人的信息，同时尽可能保持可读性和自然度。匿名化不仅需要改变说话人的声音，还需要改变其他特征和状态、说话内容中的单词和背景声音。因为如果将这些因素与外部数据进行结合考虑，将有可能会暴露说话人的身份。

现如今，说话人匿名化方法仍在不断地探索中，研究者们大致提出了几种方法，即模糊化、加密、分布式学习或匿名化，然而，这些方法都存在着或多或少的技术问题，如模糊化方法使得匿名化后生成的语音无法用于下游任务，加密方法计算复杂度过高，去中心化方法或联邦学习方法的派生数据依旧存在泄露原始数据的可能等。现有基于自监督模型的语言可迁移说话人匿名化方法，尽管选择远离原始说话人的候选向量可以在攻击者没有获得先验知识的情况下实现了最高的安全性，但在攻击者获得一部分先验知识后，该方法的安全性就出现了很大的波动，其匿名化处理就出现了一部分缺陷，这表明简单的基于距离的映射是无法实现更健壮的匿名化。虽然现有说话人匿名方法在两届Voice Privacy大赛的促进之下，已经取得了很大的进展，但关于系统单词错误率(WordErrorRate，WER)和等错误率(EqualErrorRate，EER)之间的平衡性以及如何能够实现更加健壮的匿名化方面，现有说话人匿名方法依然存在较大的问题。

发明内容

为了解决现有说话人匿名化方法存在的问题，本发明以发布的语音数据库的语音具有更可靠的安全性为目的，提出一种基于差分隐私的说话人匿名化系统及方法，本发明通过基于隐私度量的广义差分隐私方法，保证了语音数据库的更高的安全性，同时，本发明也保证了匿名化后的语音仍然具有较高的可用性，可以用于多种语音下游任务。

本发明为解决技术问题所采用的技术方案如下：

本发明的一种基于差分隐私的说话人匿名化系统，包括：F0提取器、基于HuBERT的软内容编码器、ECAPA-TDNN说话人编码器、HiFiGAN神经声码器和隐私度量模块；所述F0提取器用于提取输入的原始语音的基频F0；所述基于HuBERT的软内容编码器用于提取输入的原始语音的内容特征；所述ECAPA-TDNN说话人编码器用于提取输入的原始语音的说话人向量；所述隐私度量模块用于对提取出的说话人向量采用广义差分隐私算法进行批量匿名化处理，获得匿名说话人向量；所述HiFiGAN神经声码器，用于将基频F0、内容特征和匿名说话人向量合成最终的匿名化语音波形数据。

进一步的，所述基于HuBERT的软内容编码器和ECAPA-TDNN说话人编码器经过预训练后进行使用。

本发明的一种基于差分隐私的说话人匿名化方法，采用上述的一种基于差分隐私的说话人匿名化系统实现，该方法包括以下步骤：

步骤一、对于每条原始语音，分别提取出说话人向量、基频F0和内容特征；

步骤二、利用广义差分隐私算法对提取出的说话人向量进行批量匿名化处理，获得匿名说话人向量；

步骤三、将匿名说话人向量、基频F0和内容特征进行合成，生成脱敏后的匿名化语音波形数据。

进一步的，步骤一的具体操作流程如下：

输入原始语音，针对输入的原始音频波形，利用ECAPA-TDNN说话人编码器提取出说话人向量，利用F0提取器提取出基频F0，利用基于HuBERT的软内容编码器提取出内容特征。

进一步的，所述输入的原始语音来源于语音数据库，使用D1＝u₁,u₂,……,u_n表示语音数据库，其中u_i表示语音数据库中的第i个语句；使用D2＝x₁,x₂,……,x_n表示从语音数据库D1中提取的声纹数据库，x∈X，其中x表示声纹，X表示声纹域。

进一步的，步骤二的具体操作流程如下：

采用广义差分隐私算法中的隐私度量方法对提取出的说话人向量进行批量匿名化处理，获得匿名说话人向量；所述隐私度量的定义如下：

针对满足d_X-privacy的机制K：X→P(Z)，仅当任意x,x'∈X时，有：

其中，X表示声纹域，x与x′均表示声纹域X中的声纹，d_X表示声纹域X的距离度量，Z表示一组查询结果，K(x)与K(x′)分别表示声纹x与声纹x′在一组查询结果Z上的概率分布，F_Z表示一组查询结果Z上的σ-代数，P(Z)表示一组查询结果Z上概率测度的集合；

根据公式(1)，所述隐私度量包含：秘密的表示和两个秘密之间的距离；所述秘密指的是在声纹数据库中的说话人的声纹；根据隐私度量的要求，说话人向量之间的距离需要一个度量；使用角距离进行距离度量，以保持声纹之间的相似性。

本发明的有益效果是：

本发明针对隐私保护方面，旨在保护说话人语音身份的隐私保护数据发布。换句话说，公开的语音数据库应该确保嵌入其中的说话人的语音身份属性是不可区分的。因此，本发明通过将广义差分隐私与基于自监督模型的语言可迁移说话人匿名化框架相结合，从而完成基于差分隐私的说话人匿名化方法。本发明可以在攻击者已经具有一部分先验知识的情况下，依旧能够保障说话人身份隐私数据的安全性。同时，本发明摆脱了传统的简单的基于线性距离相关法进行候选向量选取的方法，能够在保证匿名后语音的隐私性的同时依旧保证匿名后的语音具有良好的可用性，即可以更好地解决系统单词错误率(WordErrorRate，WER)和等错误率(EqualErrorRate，EER)之间的平衡性问题。

本发明具体通过隐私度量(MetricPrivacy)的广义差分隐私方案来对批量的语音进行说话人匿名化操作，并且使用角距离(AngularDistance)作为度量，满足了不等式性质并且可以保持声纹之间的相似性。

附图说明

图1为本发明的一种基于差分隐私的说话人匿名化系统的结构组成框架图。

图2为本发明的一种基于差分隐私的说话人匿名化方法的流程图。

图3为本发明的一种基于差分隐私的说话人匿名化方法应用实例。

具体实施方式

以下结合附图对本发明作进一步详细说明。

参见图1进行说明，本发明的一种基于差分隐私的说话人匿名化系统，主要包括五个部分，分别为一个F0提取器、一个基于HuBERT的软内容编码器、一个ECAPA-TDNN说话人编码器、一个HiFiGAN神经声码器和一个隐私度量模块。其中，基于HuBERT的软内容编码器和ECAPA-TDNN说话人编码器都需要经过事先的预训练后才能使用。

F0提取器，用于提取输入的原始语音的基频F0；

基于HuBERT的软内容编码器，用于提取输入的原始语音的内容特征；

ECAPA-TDNN说话人编码器，用于提取输入的原始语音的说话人向量；

隐私度量模块，用于对提取出的说话人向量采用广义差分隐私算法进行批量匿名化处理，获得匿名说话人向量；

HiFiGAN神经声码器，用于将基频F0、内容特征和匿名说话人向量合成最终的匿名化语音波形数据。

参见图2进行说明，本发明的一种基于差分隐私的说话人匿名化方法，采用上述的一种基于差分隐私的说话人匿名化系统实现，对于每条原始语音，先分别提取出它的说话人向量、基频F0和内容特征，然后将说话人向量进行脱敏处理，即使用广义差分隐私算法进行匿名化处理，最后将匿名化处理后的匿名说话人向量、基频F0和内容特征进行合成，从而生成脱敏后的匿名化语音波形数据。

本发明的一种基于差分隐私的说话人匿名化方法，其具体操作步骤如下：

步骤一、特征提取；

其中，输入的原始语音来源于语音数据库，本发明中，使用D1＝u₁,u₂,……,u_n表示语音数据库，其中u_i表示语音数据库中的第i个语句；使用D2＝x₁,x₂,……,x_n表示从语音数据库D1中提取的声纹数据库，x∈X，其中x表示声纹，X表示声纹域；注意语音数据库D1和声纹数据库D2所含有的数据量n相同。

步骤二、说话人向量匿名化；

利用广义差分隐私算法对提取出的说话人向量进行批量匿名化处理，获得匿名说话人向量。

具体的，采用广义差分隐私算法中的隐私度量方法对提取出的说话人向量进行批量匿名化处理，获得匿名说话人向量。其中，所说的差分隐私(Differentialprivacy)最早于2008年由Dwork提出，通过严格的数学证明，使用随机应答(RandomizedResponse)方法确保数据集在输出信息时受单条记录的影响始终低于某个阈值，从而使第三方无法根据输出的变化判断单条记录的更改或增删，被认为是目前基于扰动的隐私保护方法中安全级别最高的方法。另外，隐私度量(MetricPrivacy)是广义差分隐私中的一种，其定义了秘密之间的距离度量，并且保证每两个秘密的不可区分性与每个秘密之间的距离成正比。

隐私度量的定义如下：

针对满足d_X-privacy的机制K：X→P(Z)，仅当任意x,x'∈X时，有：

其中，X表示声纹域，x与x′均表示声纹域X中的声纹，d_X表示声纹域X的距离度量，Z表示一组查询结果，K(x)与K(x′)分别表示声纹x与声纹x′在一组查询结果Z上的概率分布，F_Z表示一组查询结果Z上的σ-代数，P(Z)表示一组查询结果Z上概率测度的集合；它可以应用于声纹之中。

其中，σ-代数的定义为：设声纹域X为非空集合，A是声纹域X上的集类，若其对有限集合的并及集合的补运算封闭，则称其为声纹域X上的代数(algebra)；对可列集合的并封闭的代数称为σ-代数。

根据公式(1)，该标准(即隐私度量)包含：秘密的表示和两个秘密之间的距离。此处秘密指的是在声纹数据库中的说话人的声纹。根据隐私度量的要求，说话人向量之间的距离需要一个度量。因此，本发明使用角距离(Angular Distance)进行距离度量，因为它满足不等式性质并且可以保持声纹之间的相似性。

步骤三、匿名化语音波形数据合成；

利用HiFiGAN神经声码器将基频F0、内容特征和匿名说话人向量合成最终的匿名化语音波形数据。

本发明采用广义差分隐私算法中的隐私度量方法来匿名化每个输入的原始语音的说话人向量，使用指数机制来针对声纹的向量中加入随机化的噪音，因为指数机制比较适合非数值型输出，如图像、语音等，并使用HiFiGAN神经声码器来生成匿名化语音波形数据。本发明在实现语音可迁移的基础上，增大了公开语音数据库的安全性。

如图3所示，使用本发明的一种基于差分隐私的说话人匿名化方法对原始语音数据库进行转换后获取相应的已保护的语音数据库。具体的，原始语音数据库中的说话人A对应的语音数据为记录1，说话人B对应的语音数据为记录2，说话人C对应的语音数据为记录3……，使用本发明的一种基于差分隐私的说话人匿名化方法进行转换后，说话人A的语音数据即记录1变为说话人C的声纹，说话人B的语音数据即记录2变为说话人A的声纹，说话人C的语音数据即记录3变为说话人B的声纹，通过本发明的一种基于差分隐私的说话人匿名化方法可以保证攻击者很难区分原始声纹是来自A、B还是C，因此可以更好地的保护说话人隐私。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于差分隐私的说话人匿名化系统，其特征在于，包括：F0提取器、基于HuBERT的软内容编码器、ECAPA-TDNN说话人编码器、HiFi GAN神经声码器和隐私度量模块；所述F0提取器用于提取输入的原始语音的基频F0；所述基于HuBERT的软内容编码器用于提取输入的原始语音的内容特征；所述ECAPA-TDNN说话人编码器用于提取输入的原始语音的说话人向量；所述隐私度量模块用于对提取出的说话人向量采用广义差分隐私算法进行批量匿名化处理，获得匿名说话人向量；所述HiFi GAN神经声码器，用于将基频F0、内容特征和匿名说话人向量合成最终的匿名化语音波形数据。

2.根据权利要求1所述的一种基于差分隐私的说话人匿名化系统，其特征在于，所述基于HuBERT的软内容编码器和ECAPA-TDNN说话人编码器经过预训练后进行使用。

3.一种基于差分隐私的说话人匿名化方法，其特征在于，采用权利要求1或2所述的一种基于差分隐私的说话人匿名化系统实现，该方法包括以下步骤：

4.根据权利要求3所述的一种基于差分隐私的说话人匿名化方法，其特征在于，步骤一的具体操作流程如下：

5.根据权利要求4所述的一种基于差分隐私的说话人匿名化方法，其特征在于，所述输入的原始语音来源于语音数据库，使用D1＝{u₁,u₂,……,u_n}表示语音数据库，其中u_i表示语音数据库中的第i个语句；使用D2＝{x₁,x₂,……,x_n}表示从语音数据库D1中提取的声纹数据库，x∈X，其中x表示声纹，X表示声纹域。

6.根据权利要求3所述的一种基于差分隐私的说话人匿名化方法，其特征在于，步骤二的具体操作流程如下：

针对满足d_X-privacy的机制K：X→P(Z)，仅当任意x,x'∈X时，有：