CN112185395B

CN112185395B - 一种基于差分隐私的联邦声纹识别方法

Info

Publication number: CN112185395B
Application number: CN202010920024.4A
Authority: CN
Inventors: 廖清; 王阳谦; 刘洋; 蒋琳; 王轩
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2021-04-27
Anticipated expiration: 2040-09-04
Also published as: CN112185395A; US11170786B1; WO2022048143A1

Abstract

本发明提出一种基于差分隐私的联邦声纹识别方法，包括一：在服务端进行通用背景模型UBM预训练得到初始通用背景模型UBM；二：客户端接收预训练后的初始通用背景模型UBM，利用本地的私有语音数据进行初始通用背景模型UBM的学习；三：客户端学习得到的统计量进行差分隐私保护；四：服务端聚合多个客户端上传的差分隐私保护后的统计量，更新初始通用背景模型UBM；五：客户端接收更新后通用背景模型UBM，借助本地私有语音数据调整得到该客户端用户的高斯混合模型GMM，利用更新后通用背景模型UBM和该用户的高斯混合模型GMM判别待验证语音是否为该客户端用户所产生。

Description

一种基于差分隐私的联邦声纹识别方法

技术领域

本发明涉及一种基于差分隐私的联邦声纹识别方法，属于差分隐私和联邦学习技术在声纹识别领域的业务应用。

背景技术

声纹，是对语音中所蕴含的、能表征和标识说话人的语音特征，以及基于这些特征(参数)所建立的语音模型的总和，而声纹识别是根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。与指纹识别类似，每个人在说话过程中所蕴含的语音特征和发音习惯几乎是独一无二的，即使是模仿，也难以改变说话者最本质的发音特征和声道特征。

由于语音具有使用方便、设备成本低和可远程认证等优点，声纹识别的应用场景十分广泛，可以应用于一切需要身份认证的场合，如生活中的门禁系统、金融证劵领域、公安司法领域、军事领域、安全支付领域等。总之，声纹识别逐渐发展成为日常生活与工作中最可靠的同时也是最安全的生物特征识别技术之一，拥有着无限的应用场景和巨大的发展潜力。

然而随着声纹识别技术的普及，声纹识别的声纹特征安全问题引起了国内外专家学者的广泛关注。声纹特征同其他生物信息一样，声纹特征具有唯一性，而且相伴终生，一旦声纹特征被特人盗用，会造成个人信息安全、生命财产安全等相关问题，而且会导致大量深层信息被挖掘、曝光，给使用者造成物质和精神上的极大损害。声纹识别技术同其他生物特征识别技术一样，需要大量的用户语音数据训练声纹识别模型。声纹识别是一种典型的C/S(客户端/服务器)模式，用户在使用服务提供商提供的声纹识别服务时，为了获得更好的识别准确率往往需要上传用户的语音数据到服务端，以进行模型的训练和用户声纹模型注册。由于用户的数据被存储在服务端，这会极大增加用户隐私数据泄露的风险。当服务器被恶意攻击者攻击或者由于管理问题，导致用户声纹特征泄漏时，将会给用户甚至整个生物特征识别产业带来严重的影响。为了保护用户的隐私信息，多个国家分别出台相应的隐私保护条例，如欧盟出台的《通用数据保护条例，GDPR》以及国内的《网络安全法》等。这些条例都明令禁止集中式收集并利用用户的隐私数据。因此，随着隐私保护条例的完善以及公众隐私保护意识的提升，声纹识别模型将面临数据稀缺和隐私泄漏的挑战。

现有的声纹识别的隐私保护方案是利用同态加密对声纹识别注册和验证阶段的用户隐私信息进行保护。

(1)声纹识别系统工作流程：

声纹识别是一种典型的C/S模式，不同于图片、文本等分类模型，声纹识别系统的工作过程可以分为以下三个主要阶段：

第一阶段，通用背景模型训练，声纹识别系统首先需要利用来自不同用户的大量语音数据，训练一个通用的通用背景模型，这个通用背景模型能够表征通过的说话人特征分布；

第二阶段，注册阶段，用户如果想要使用声纹识别服务，需要提供一定时长的语音数据，作为注册数据。声纹识别系统会利用用户提供的注册语音对通用背景模型进行微调，得到属于自己的声纹模型。

第三阶段，验证阶段，已经完成注册的用户，可以利用注册的声纹模型，验证某段语音是否为该用户所产生。

(2)基于GMM-UBM的声纹识别模型：

下面先介绍基于GMM-UBM(Gaussian Mixture Model-Universal BackgroundModel)的文本相关的说话人识别模型的基本工作流程。在这个框架中，使用似然估计来对说话人进行验证。在这个框架中，每个用户都被表示成一个高斯混合模型GMM(GaussianMixture Model)，这个GMM是从一个能表征通用说话人的特征分布的通用背景模型UBM(Universal Background Model)中进行调整得到的。UBM本质上也是高斯混合模型，只不过需要使用来自不同用户的大量语音数据训练UBM，而GMM一般只利用某个用户的注册语音和UBM进行微调就可以得到。

(3)同态加密技术：

同态加密是一种加密形式，它允许在对密文进行特定形式的代数运算得到仍然是加密的结果，对经代数运算得到的加密结果进行解密得到的结果与对密文直接进行同样的代数运算得到的结果一样。同态加密能真正从根本上解决将数据及其操作委托给第三方时的数据保密问题，因此同态加密能很好的契合C/S服务模式的私有数据保密问题。同态加密的形式化的表示如下：

x₁，x₂，...，x_n→[x₁]，[x₂]，...，[x_n]

f([x₁]，[x₂]，...[x_n])→[f(x₁，x₂，...x_n)]

其中[·]表示加密运算，f[·]表示代数运算。

声纹识别领域的隐私保护问题处于起步阶段，因此现有的研究方案还比较单一，主要可以分为三种，第一种是基于密码学的同态加密、安全多方计算等算法来加密用户隐私数据(Manas A Pathak and Bhiksha Raj.2012.Privacy-preserving speakerverificationand identification using gaussian mixture models.IEEETransactions on Audio,Speech,and Language Processing21,2(2012),397–406)；第二种是基于哈希的保护方法(Manas A Pathak and Bhiksha Raj.2012.Privacy-preservingspeaker verificationas password matching.In2012 IEEE International Conferenceon Acoustics,Speechand Signal Processing.1849–1852)，这种方法使用哈希函数将用户的向量表示映射成随机序列；第三种是基于信息论的随机化技术(YogachandranRahulamathavan,Kunaraj R.Sutharsini,Indranil Ghosh Ray,Rongxing Lu,andMuttukrishnan Rajarajan.2019.Privacy-Preserving iVector-Based SpeakerVerification.IEEE/ACM Transactions on Audio,Speech,and Lan-guageProcessing27,3(2019),496–506)，利用均匀分布的随机数作为密钥，来随机化私有特征表示。

现有技术存在的缺点：

(1)基于密码学的方法计算复杂度高，对设备的计算能力要求高；

(2)基于哈希的方法，会较低模型的识别准确率；

(3)基于随机论的方法，需要客户端和服务端进行多次交互，对网络的稳定性要求较高；

除此之外，现有的方法都无法在保护用户隐私数据的情况下，训练得到表示能力更好的声纹识别模型。

发明内容

本发明提出一种基于差分隐私的联邦声纹识别方法，解决如何在保护用户隐私数据的同时进行声纹识别通用背景模型的训练，具体技术方案如下：

一种基于差分隐私的联邦声纹识别方法，包括如下步骤：

步骤一：在服务端进行通用背景模型UBM的预训练得到初始通用背景模型UBM，并发送给客户端；

步骤二：客户端接收预训练后的初始通用背景模型UBM，利用本地的私有语音数据进行初始通用背景模型UBM的学习；

步骤三：客户端将步骤二学习得到的统计量进行差分隐私保护，并上传给服务端；

步骤四：服务端聚合多个客户端上传的进行差分隐私保护的统计量，对初始通用背景模型UBM进行更新，得到更新后通用背景模型UBM，并发送给客户端；

步骤五：客户端接收更新后通用背景模型UBM，并借助本地语音数据进行调整得到该客户端用户的高斯混合模型GMM；利用更新后通用背景模型UBM和该用户的高斯混合模型GMM判别待验证语音是否为该客户端用户所产生。

优选的，所述步骤一中，初始通用背景模型UBM为能够拟合通用语音特征的通用背景模型UBM，由服务端利用开源的数据集使用EM算法进行预训练得到。

优选的，所述步骤二中，初始通用背景模型UBM的学习过程如下：

定义初始通用背景模型UBM表示成λ＝{w_j，μ_j，σ_j}，j＝1，...，M，M为初始通用背景模型UBM中高斯模块的个数，w_j，μ_j和σ_j分别表示第j个高斯模块在UBM中的权重、均值向量以及协方差矩阵；

计算语音特征X＝{x₁,...,x_T}的第t个分量x_t在初始通用背景模型UBM的第c个高斯模块上出现的概率：

利用r_c，t计算统计量r_c和z_c：

其中[1]表示元素都为1的向量，T为语音特征X的总长度。

进一步的，所述步骤三中，客户端对学习得到的统计量进行差分隐私保护的具体方法为：使用Laplace机制的差分隐私，进行扰动添加，添加扰动Y的方式如下：

r′_c，t＝r_c，t+Y (4)

其中，

r_c，t的全局敏感度s(r_c，t)＝1；接着利用r′_c，t分别计算统计量r′_c和z′_c，并上传给服务端。

进一步的，所述步骤四中，对初始通用背景模型UBM进行更新的方法为：利用客户端上传给服务端的统计量r′_c和z′_c，使用最大后验概率估计MAP对初始通用背景模型UBM进行更新，首先服务端需要将多个客户端上传的统计量r′_c和z′_c进行聚合：

其中，K表示参与对初始通用背景模型UBM进行更新的客户端数量，然后利用

和

对初始通用背景模型UBM进行更新，得到更新后通用背景模型UBM，初始通用背景模型UBM表示为UBM₀，更新后通用背景模型UBM表示为

对第c个高斯模块均值向量的更新过程公式如下：

其中，σ′_UBM表示均值向量的先验。

进一步的，所述步骤五中，对更新后通用背景模型UBM的均值向量进行调整得到高斯混合模型GMM的公式如下：

其中,σ′_SPK表示用于更新说话人的高斯混合模型GMM均值向量的先验；客户端可以直接使用高斯混合模型GMM计算似然比来判别待验证语音是否为客户端用户所产生。

本发明可以同时解决数据稀缺和隐私保护问题，计算开销小，且客户端和服务端的交互次数少。

附图说明

图1是本发明一种基于差分隐私的联邦声纹识别方法的工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于差分隐私的联邦声纹识别方法，该方法保证用户的语音数据不被上传到服务端，取而代之的是通过一些模型的参数交换，来保证用户的隐私信息。同时为了进一步保证用户的隐私信息，采用差分隐私技术在交换的参数上添加扰动，以保证用户的隐私数据不会被恶意攻击者通过反转攻击等攻击手段重构得到。该方法是在GMM-UBM的基础上构建实现的，本发明是受到联邦学习的启发而提出的，在联邦学习框架中有一个中心节点协调管理多个客户端节点，利用各个客户端节点的数据联合训练或者构建一个机器学习模型，该模型不会泄漏用户的隐私信息，本发明的目标是学习能表征工作环境中说话人通用语音特征的通用背景模型UBM。

如图1所示，一种基于差分隐私的联邦声纹识别方法，包括如下步骤：

步骤一：在服务端进行通用背景模型UBM预训练得到初始通用背景模型UBM，并发送给客户端；初始通用背景模型UBM为能够拟合通过语音特征的通用背景模型UBM，由服务端利用开源的数据集使用EM(Expectation Maximization)算法进行预训练得到，该数据集中的语音数据隐私属性较小。

步骤二：客户端接收预训练后的初始通用背景模型UBM，利用本地的私有语音数据进行初始通用背景模型UBM的学习；初始通用背景模型UBM的学习过程如下：

定义初始通用背景模型UBM表示成λ＝{w_j，μ_j，σ_j}，j＝1，...，M，M为初始通用背景模型UBM中高斯模块的个数，w_j，μ_j和σ_j分别表示第j个模块在UBM中的权重、均值向量以及协方差矩阵；

计算语音特征X＝{x₁,...,x_T}中第t个分量x_t在初始通用背景模型UBM的第c个高斯模块上出现的概率：

利用r_c，t计算统计量r_c和z_c：

其中[1]表示元素都为1的向量，T为语音特征X的长度。在不添加差分隐私保护时，可直接将r_c和z_c直接上传给中心节点。

步骤三：客户端节点将步骤二学习得到的统计量进行差分隐私保护，并上传给服务端；由于统计量r_c和z_c与用户的私有语音数据高度相关，因此直接将统计量r_c和z_c上传给服务端，可能会造成用户隐私信息的泄露，因此需要利用差分隐私机制对和添加扰动，以保证用户的数据不会被窃取。客户端对学习得到的统计量进行差分隐私保护的具体方法为：使用Laplace机制的差分隐私，进行扰动添加，添加扰动Y的方式如下：

r′_c，t＝r_c，t+Y (4)

其中，

r_c，t的全局敏感度s(r_c，t)＝1；接着利用r′_c，t分别计算统计量r′_c和z′_c，并上传给服务端。由于Y满足(ε，0)-DP，根据差分隐私的并行定理，可以得到统计量r′_c和z′_c都满足差分隐私保护。差分隐私保护能有效抵抗恶意攻击者从客户端上传的参数中推导出与用户相关的信息。

步骤四：服务端聚合多个客户端上传的进行差分隐私保护的统计量，对初始通用背景模型UBM进行更新，得到更新后通用背景模型UBM，并发送给客户端；对初始通用背景模型UBM进行更新的方法为：利用客户端上传给服务端的统计量r′_c和z′_c，使用最大后验概率估计MAP(Maximum A Posterior)对初始通用背景模型UBM进行更新，首先服务端需要将多个客户端上传的统计量r′_c和z′_c进行聚合：

和

对第c个高斯模块均值向量的更新过程公式如下：

其中，σ′_UBM表示均值向量的先验，

与步骤二中σ_c对应，

与步骤二中μ_c对应，并且根据差分隐私的并行定理，可以得到整个初始通用背景模型UBM的更新过程满足(ε，0)-DP差分隐私。

步骤五：客户端接收更新后通用背景模型UBM，对更新后通用背景模型UBM的均值向量进行调整得到该客户端的高斯混合模型GMM均值的公式如下：

其中,σ′_SPK表示用于更新说话人的高斯混合模型GMM均值向量的先验；说话人在客户端进行高斯混合模型GMM的学习，客户端可以直接使用高斯混合模型GMM计算似然比来判别待验证语音是否为客户端用户所产生。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于差分隐私的联邦声纹识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于差分隐私的联邦声纹识别方法，其特征在于：所述步骤一中，初始通用背景模型UBM为能够拟合通用语音特征的通用背景模型UBM，由服务端利用开源的数据集使用EM算法进行预训练得到。

3.根据权利要求1所述的一种基于差分隐私的联邦声纹识别方法，其特征在于：所述步骤二中，初始通用背景模型UBM的学习过程如下：

利用r_c，t计算统计量r_c和z_c：

其中[1]表示元素都为1的向量，T为语音特征X的总长度。

4.根据权利要求3所述的一种基于差分隐私的联邦声纹识别方法，其特征在于：所述步骤三中，客户端对学习得到的统计量进行差分隐私保护的具体方法为：使用Laplace机制的差分隐私，进行扰动添加，添加扰动Y的方式如下：

r′_c，t＝r_c，t+Y (4)

其中，

5.根据权利要求4所述的一种基于差分隐私的联邦声纹识别方法，其特征在于：所述步骤四中，对初始通用背景模型UBM进行更新的方法为：利用客户端上传给服务端的统计量r′_c和z′_c，使用最大后验概率估计MAP对初始通用背景模型UBM进行更新，首先服务端需要将多个客户端上传的统计量r′_c和z′_c进行聚合：

和

对第c个高斯模块均值向量的更新过程公式如下：

其中，σ′_UBM表示均值向量的先验。

6.根据权利要求5所述的一种基于差分隐私的联邦声纹识别方法，其特征在于：所述步骤五中，对更新后通用背景模型UBM的均值向量进行调整得到高斯混合模型GMM的公式如下：