CN110992957B

CN110992957B - 基于隐私保护的语音数据处理方法

Info

Publication number: CN110992957B
Application number: CN201911117487.0A
Authority: CN
Inventors: 张光林; 倪思帆; 赵萍
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2023-09-08
Anticipated expiration: 2039-11-15
Also published as: CN110992957A

Abstract

本发明涉及一种基于隐私保护的语音数据处理方法，一个实施例的方法包括：建立语音数据模型，定义了语音数据发布中存在的隐私保护问题，根据语音数据模型定义了语音内容，说话人的声音以及数据集标签这三个方面存在的隐私风险和数据有效性；进一步考虑语音内容和说话人的声音两者之间的相关性，并把它作为一种新的隐私风险；利用机器学习中的分类器来解决由语音内容和说话人的声音的相关性导致的隐私风险问题；利用适当的数据处理方法来分别处理语音内容，说话人的声音以及数据集标签这三部分，实现了隐私风险和数据有效性之间的平衡。本实例能够提高语音数据的隐私保护的安全性，同时保证语音数据的有效性。

Description

基于隐私保护的语音数据处理方法

技术领域

本发明涉及数据处理技术领域，特别是涉及一种基于隐私保护的语音数据处理方法。

背景技术

在大数据时代，越来越多的语音数据被发布，以用于改善基于语音的服务或学术研究。但在语音数据发布过程中存在着隐私泄露的风险。例如，在语音数据发布中，攻击者如果知道特定用户的语音数据，则可以通过分析语音数据来了解用户的敏感信息。因此，在语音数据发布中，防止攻击者侵犯用户隐私是非常重要的。语音数据包括三个方面:语音内容，说话者的声音以及数据集标签，这三个方面都包含了用户的隐私信息。具体来说，语音内容能够直接反映用户的信息。例如，如果用户在购物软件上的语音数据被泄露，攻击者可以通过分析文本轻松了解用户的职业、偏好、生活习惯等。此外，通过检测说话者的声音，攻击者还可以获得用户的性别、年龄、位置、宗教信仰等隐私信息。最后，数据集标签也包含了隐私信息。假设一个语音数据属于“A学院的男生”这一数据集，那么攻击者将知道用户的性别和学校。现有的研究中有一部分是只考虑了语音数据中说话人声纹的隐私保护问题，是通过利用安全多方计算的方法来保护说话人的声纹。也有研究者试图在实现隐私保护的同时，保证语音数据本身的质量。然而，这些工作都忽略了语音内容与说话人声音的相关性，因此在语音数据发布中并不能完全地保护用户的隐私，因为攻击者仍然可以利用语音内容与说话人声音的相关性来过滤那些经过隐私保护处理的语音数据。

发明内容

本发明的目的是：保证语音数据在发布过程的隐私安全，同时保证语音数据的有效性。

为了达到上述目的，本发明的技术方案是提供了一种基于隐私保护的语音数据处理方法，其特征在于，包括以下步骤：

步骤1、定义语音数据集D＝(cate,S)，其中，cate是数据集标签；S是语音数据，包括语音内容c和说话人的声音v，语音内容c是语音数据的文本信息，说话人的声音v体现用户的身份信息，说话人的声音v和语音内容c之间存在映射关系，即F:c→v，称F为c和v之间的相关性；

定义语音数据发布中存在的隐私保护问题，对于一条语音数据S，定义隐私泄漏风险的五个指标，分别为文本、语音属性、声纹、成员关系和相关性泄漏风险，分别用P_t ^s,P_m,/>表示，其中，P_m只与数据集标签cate有关，每条语音数据S的总的隐私泄露风险表示为：/>其中，f_p是求和函数；

定义四个有效性损失指标分别为文本可靠性损失、语音多样性损失、语音质量损失和数据集清晰度损失，分别用U_t,U_vd,U_sq,U_dc,U_co表示，语音数据集D的总的有效性损失表示为：U＝f_u(U_t,U_vd,U_sq,U_dc,U_co)，其中，f_u是一个求和函数；

步骤2、对语音数据集D的类型描述cate进行处理，成员关系P_m随着处理方式x的不同而变化，表示成P_m＝f₁(x)，同时造成了数据清晰度损失U_dc＝f₂(x)；

对语音内容c进行处理，此时文本泄漏风险y^s中的上标s表示语音数据集D中的每一条语音数据S都进行处理，/>中的上标表示每一条语音数据S的处理方法会有所不同，对语音内容c的处理，造成语音内容c的可靠性U_t损失，使得/>其中

使用语音转换技术，对说话人的声音v进行处理，同时减少声音属性和声纹的泄露此时/>使用语音转换技术后，对声音多样性U_vd和语音质量U_sq产生影响，其中U_vd＝f₇(z¹,z²,...,z^N)，N是语音数据集D中的语音数据的总数，z表示语音转换，U_vd是由N条语音数据s共同决定的；语音质量的损失U_sq表示成N条语音数据各自的损失/>的累加值，即/>其中/>y表示关键字扰动，在用关键字扰动y或者语音转换z对语音数据S进行处理后，会增加语音数据中说话人的声音v和语音内容c的不匹配度，导致这条语音显得十分突兀，更容易引起攻击者的注意，从而增加了隐私泄露的风险，将这种风险称为相关性泄露风险/>此外，相关性的降低也会影响该数据集的有效性U_co＝f₁₀(y^s,z^s)，相关性损失U_co也会受到关键字扰动y和语音转换z的影响；

步骤3、基于步骤2得到的结论，将语音数据集D的总的有效性损失U＝f_u(U_t,U_vd,U_sq,U_dc,U_co)以及每条语音数据S的总的隐私泄露风险进一步表示为：

步骤4、从语音内容c，说话人的声音v和数据集标签cate这三个方面，分别对隐私泄露风险P^S和有效性损失U进行具体的定义与量化：

对语音内容c而言，存在文本内容的隐私泄露风险P_t ^s和文本可靠性损失U_t两个指标，具体定义如下：

文本内容的隐私泄露风险P_t ^s：将每条语音数据中各个单词的TF-IDF值之和定义为P_t ^s；

文本可靠性损失U_t：当替换或者去掉原始的文本内容中的敏感部分，会引起文本可靠性损失，把插入或者删除一个单词带来的损失设为1，当替换一个单词时，替换带来的损失取决于替换的单词和原始单词的相似度，如果替换的单词和原始单词从语法和语义上都很接近，带来的损失r就很小，因此每条语音数据的损失表达成/>其中，s表示替换的单词数，d表示删除的单词数，i表示插入的单词数，N表示处理过后的一条语音数据中的全部单词数，从而保证/>

则整个语音数据集D的损失U_t通过计算全部语音数据的损失的平均值N表示该语音数据集D中的总的语音数据条数；

对说话人的声音v而言，存在声音属性的隐私泄露风险声纹的隐私泄露风险以及声音多样性的损失/>和语音质量的损失/>四个指标，具体定义如下：

声音属性的隐私泄露风险通过对声音的分析，攻击者可以获得受害者的声音属性，假设总共可以获得n₁种声音属性，每种声音属性的重要程度用a_i(1≤i≤n₁)表示，可得/>

声纹的隐私泄露风险 p_vp是一个0到1之间的常数，用来表示声纹的泄露程度，当p_vp＝1时，意味声纹已经完全泄露出去了，攻击者可以利用获得的声纹，以100％的成功率顺利通过基于声纹的身份认证，当声音经过特殊处理后，p_vp的值会降低；

声音多样性的损失声音多样性取决于说话人的性别、年龄和地区的多样性，分别计算数据处理前后的性别、年龄和地区的联合分布函数(Q₁,Q₂)，将U_vd定义为Q₁,Q₂之间的距离：/>用Hellinger distance作为U_vd的度量标准；

语音质量的损失采用国际电信联盟提供的主观语音质量评估PESQ来评估一段语音数据的语音质量好坏，主观语音质量评估PESQ表示的是经过处理后的语音和参考语音之间的相似度，语音质量的损失/>表示成/>

对数据集标签cate而言，存在成员关系的隐私泄露风险P_m以及数据清晰度的损失U_dc两个指标。具体定义如下：

隐私泄露风险P_m：攻击者可以从数据集标签cate中获得一些属性，假设总共可以获得n₂种属性，每种属性的重要程度用b_i(1≤i≤n₂)表示，可得

数据清晰度的损失U_dc：假设一个数据集被n₃个使用者所使用，用w_i表示各个使用者对数据清晰度要求的高低，出于归一化的考虑，令在对类型描述进行处理后，若仍有n′₃个使用者，定义为集合K，对数据清晰度感到满意，则数据清晰度的损失U_dc可表示为

步骤5、考虑语音内容c和说话人的声音v两者之间的相关性F，并把相关性F作为一种新的隐私风险

步骤6、分别对语音内容c，说话人的声音v和数据集标签cate进行处理，包括以下步骤：

对语音内容c的处理：

把TF-IDF值大于门限值δ的单词称为关键字，一条语音数据的文本泄露风险P_t ^s是各个单词的TF-IDF值的相加，即通过更改或者替换TF-IDF值较大的单词来降低P_t ^s，对语音内容c的处理分为以下三个步骤：

(1)利用语音识别技术，从语音数据中获得相应的文本内容，然后利用关键字识别技术找到关键字；

(2)利用DTW技术，在语音流中确定这些关键字的位置；

(3)在语音流中，对这些关键字进行替换或者删除，其中，替换的原则是用同类型的其它词来替换关键字，在替换时，为了消除语音数据中文本内容和声音的相关性泄露风险根据说话人的声音到对应的词汇库中选择用于替换的单词，使得相关性泄露风险/>为0，用r来表示替换前后两个词之间的相似度，两个词之间的相似性越高，r越接近0，假设n个关键字被替换后，产生的文本可靠性损失为：/>删除相当于r＝1的特殊情况；

为了识别关键字，我们利用了一种。所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体，比如数字、日期、货币都是命名实体。但命名实体包含的内容毕竟有限，很容易遗漏掉其他的非命名实体的信息，比如某一领域的专业术语。此外，也并不是所有的命名实体都与说话人密切相关。比如说话人说了一个国家的名字，但并不表明她就身处在那个国家。

对说话人的声音v的处理：

采用语音转换技术来改变每条语音数据的声音

对数据集标签cate的处理：

假设数据集标签cate由n个部分组成{a₁,a₂,,,a_n}，通过删除若干个a_i从而减小成员关系泄露P_m的值，使其小于设定的预算值，为了成员关系泄露P_m与数据清晰度损失U_dc之间的最优化，采用贪心策略，将{a₁,a₂,,,a_n}按照重要性从高到低重新排序，每次从最底层的a_i开始删除，当P_m低于预算值时就停止；

步骤7、将隐私泄露风险P^S和有效性损失U分成三个子问题来讨论。这三个子问题分别对应下式中的限制条件1、2、3：

先将和/>记为/>和/>设P_t ^s,/>这五个风险指标的初始值依次为P_to,P_vao,P_vpo,P_coo,P_mo，/>都是关于参数α的函数，因此，将这两者的加权和作为一个整体考虑；相对应地，/>也做相同的处理，β_i,ω_i表示权重系数，权重系数的值越大，表明对某个指标更加重视；

解决上述优化问题的基本原则是使各个风险指标尽可能地靠近或者等于设定的预算值，这样就会让最终产生地有效性损失的值是最小的。

P_t ^s≤β₁P为限制条件1，对于限制条件1：因为P_t ^s、都是关于门限值λ的函数，通过计算P_t ^s(λ₀)＝β₁P就能得到最优解λ＝λ₀；

为限制条件2，对于限制条件2:/>是关于弯曲程度α的函数：

1)设的初始值是P_vo、P_coo。

2)if(P_vo≤P_coo),return.

else,则α＝α₀为最优解,return

由此条件，能得到风险预算值的最小值：min(P)＝min{ω₁P_vao+ω₂P_vpo,P_coo}/β₂；

为限制条件3，对于限制条件3：采用之前提过的贪心策略，从重要性较低的标签元素开始删除，直到小于规定的预算值。

优选地，步骤5中，获得所述隐私风险包括以下步骤：

步骤501、将语音数据集D中的语音数据S按照用户的年龄划分成三类，即少年、青年和中年三个年龄段，即S＝{S₁,S₂,S₃}，其中，S₁、S₂、S₃依次是少年、青年和中年的语音数据；s_i＝(v_i,c_i)∈S_i，i＝{1,2,3}；

步骤502、找到少年、青年和中年各自特有的词汇库，把少年、青年和中年的词汇库依次定义为G₁,G₂,G₃，把少年、青年和中年的年龄依次定义为E₁,E₂,E₃；

步骤503、若一条声音为G_i，i＝1,2,3，的语音数据中出现了n^*个G_j，j＝1,2,3且j≠i，中的词汇，若n^*超过了一定的数量n₀认为产生了相关性泄露，即

优选地，步骤502中，所述利用机器学习来得到所述少年、青年和中年各自特有的词汇库。

优选地，所述机器学习包括以下步骤：

对分类问题进行简化，将一个三类的问题简化成三个两类的子问题，即子问题一：判断某个单词是否是少年所特有的；子问题二：判断某个单词是否是青年所特有的；子问题三：判断某个单词是否是中年所特有的；

随后选择一个样本数足够大的语音数据集，并把其中的文本内容作为训练集，然后通过特征选择，确定子问题一至子问题三的特征集合，然后对于子问题一至子问题三，分别用同一个训练集进行学习，最后得到三个系统模型；

当把某个数据集D＝(cate,S)经过处理后，得到了数据集D′，先把数据集D′的文本内容送入与子问题一对应的第一个系统模型中，若输出的结果表明某个单词是少年所特有的，则把这个单词放入集合g₁中，同样地，把数据集D′的文本内容再送入与子问题二及子问题三对应的两个系统模型中，把满足要求的单词分别放入集合g₂和集合g₃中；

若某个单词同时处于多个集合g₁、g₂、g₃中，为了使得最终的词汇库两两之间的交集为空，做如下处理：

G₁＝g₁-g₁∩g₂-g₁∩g₃ G₂＝g₂-g₂∩g₁-g₂∩g₃ G₃＝g₃-g₃∩g₁-g₃∩g₂。

优选地，步骤6中，采用自然语言处理技术NER来将文本内容的命名实体进行定位和分类，从而获得所述关键字。

本发明具有如下特点：

1)本发明建立语音数据模型，定义了语音数据发布中存在的隐私保护问题，根据语音数据模型定义了语音内容，说话人的声音以及数据集标签这三个方面存在的隐私风险和数据有效性。

2)本发明进一步考虑语音内容和说话人的声音两者之间的相关性，并把它作为一种新的隐私风险。

3)本发明利用机器学习中的分类器来解决由语音内容和说话人的声音的相关性导致的隐私风险问题。

4)本发明利用适当的数据处理方法来分别处理语音内容，说话人的声音以及数据集标签这三部分，实现了隐私风险和数据有效性之间的平衡。

附图说明

图1是一个对语音数据处理过程的示意图

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种基于隐私保护的语音数据处理方法包括以下内容：

首先要建立语音数据模型，用D＝(cate,S)来表示语音数据,其中cate是数据集标签，比如“ABC学院的男生”数据集。S是语音数据，包括语音内容和说话人的声音两部分。语音内容c就是语音数据的文本信息。说话人的声音v能够体现用户的身份信息。此外，说话者的声音和说话内容之间存在映射关系，即F:c→v。我们称F为c和v之间的相关性。例如，儿童的语音数据不涉及成年人关心的话题，如养老金、工资等。同样，成年人的语音数据也不涉及幼稚的话题，如上幼儿园、买棒棒糖等。

其次，定义语音数据发布中存在的隐私保护问题。对于一条语音数据s，定义隐私泄漏风险的五个指标:文本、语音属性、声纹、成员关系和相关性泄漏风险，分别用P_t ^s,P_m,/>表示。其中，P_m只与数据集标签cate有关。因此，每条语音数据的总的隐私泄露风险可表示为:/>其中，f_p是一个求和函数。我们的目的是降低每条语音数据的P^s的值，直到其小于或等于一个常量P，即/>P^s≤P，其中P是风险预算，它的数值可以由用户事先定义。然而，当我们试图减少隐私泄露风险时，会不可避免地引起语音数据的有效性损失。我们定义了四个有效性损失指标:文本可靠性损失、语音多样性损失、语音质量损失和数据集清晰度损失，分别用U_t,U_vd,U_sq,U_dc,U_co表示。因此，语音数据集的总的有效性损失可表示为：U＝f_u(U_t,U_vd,U_sq,U_dc,U_co)。其中，f_u是一个求和函数。

因为数据集D＝(cate,S)由cate(类型)和S(语音数据)构成，其中S包括说话人的声纹v和语音内容c，所以我们可以对cate,v,c这三个方面进行处理，从而降低隐私泄露风险P^s的大小，具体处理流程可参照图1。首先，我们可以对数据集的类型描述cate进行处理，此时P_m不再是一个常数，它会随着处理方式x的不同而变化，表示成P_m＝f₁(x)，同时造成了数据清晰度的损失U_dc＝f₂(x)。其次，我们可以对语音内容c进行处理，比如修改或者替换语音内容c中的关键字(关键字扰动)，可以减少文本内容的泄露，此时y^s中的上标s表示数据集中的每一条语音数据都要进行处理，/>中的上标表示每一条语音数据的处理方法会有所不同。对语音内容c的处理，会造成文本内容的可靠性U_t的损失，使得其中/>最后，我们可以使用语音转换技术，对说话人的声音v进行处理，可以同时减少声音属性和声纹的泄露/>此时/>使用语音转换技术后，会对声音多样性U_vd和语音质量U_sq产生影响，其中U_vd＝f₇(z¹,z²,...,z^N)(N是数据集中的语音数据的总数)，U_vd是由N条语音数据s共同决定的。另外，语音质量的损失U_sq可以表示成N条语音数据各自的损失/>的累加值，即/>其中/>值得注意的是，我们在用关键字扰动或者语音转换对语音数据进行处理后，会增加语音数据中说话人的声音v和文本内容c的不匹配度(也就是相关性的降低)。举个简单的例子就是一个成年人的声音说的却是十分儿童化的内容。这会导致这条语音显得十分突兀，更容易引起攻击者的注意，从而增加了隐私泄露的风险，我们把这种风险称为相关性泄露风险此外，相关性的降低也会影响该数据集的有效性U_co＝f₁₀(y^s,z^s)，相关性损失U_co也会受到关键字扰动(参数y)和语音转换(参数z)的影响。

因此，原来的表达式U＝f_u(U_t,U_vd,U_sq,U_dc,U_co)和可以进一步写成以下形式：

我们要做的就是在P^s≤P,这一约束条件下，最小化U的值。

接下来，从语音内容，说话者的声音和数据集标签这三个方面，分别对上文中提到的隐私泄露风险指标和有效性损失指标进行具体的定义与量化。

对语音内容而言，存在文本内容的隐私泄露风险P_t ^s和文本可靠性损失U_t两个指标。具体定义如下：

文本内容的隐私泄露风险：我们将每条语音数据中各个单词的TF-IDF值之和定义为P_t ^s。如果一个人经常使用某个单词，而这个单词在其他人当中并不常用，那么说明这个单词与这个人的联系很密切。某个单词的TF-IDF值越大，说明它对这个人而言就更私密。

文本可靠性损失：当我们替换或者去掉原始的文本内容中的敏感部分，就会引起文本可靠性损失。我们可以想象，当我们对文本进行插入、替换和删除等操作时，都会影响文本的可靠性，毕竟此时的文本内容跟原始内容是不同的。我们把插入或者删除一个单词带来的损失设为1。当替换一个单词时，情况会稍微复杂一点，替换带来的损失取决于替换的单词和原始单词的相似度。如果两者从语法和语义上都很接近，带来的损失r就很小。因此就可以表达成/>其中，s表示替换的单词数，d表示删除的单词数，i表示插入的单词数，N表示处理过后的一条语音数据中的全部单词数，从而保证/>

应当注意的是，我们目前计算的只是每条语音数据的损失要计算整个数据集的损失U_t可以通过计算全部语音数据的损失的平均值/>这里N表示该数据集中的总的语音数据条数。

对说话者的声音而言，存在声音属性的隐私泄露风险声纹的隐私泄露风险/>以及声音多样性的损失/>和语音质量的损失/>等四个指标。具体定义如下：

声音属性的隐私泄露风险：通过对声音的分析，攻击者可以获得受害者的性别、年龄等声音属性。我们假设总共可以获得n₁种声音属性，每种声音属性的重要程度用a_i(1≤i≤n₁)表示。可得

声纹的隐私泄露风险：p_vp是一个0到1之间的常数，用来表示声纹的泄露程度。当p_vp＝1时，意味着你的声纹已经完全泄露出去了。攻击者可以利用获得的声纹，以100％的成功率顺利通过基于声纹的身份认证。当声音经过特殊处理后，p_vp的值会降低。

声音多样性的损失：研究机构往往会利用得到的语音数据来训练一个语音识别模型。如果数据集的声音多样性过低，那么最终经过训练后的模型对未知样本的预测能力就会很差。声音多样性取决于说话人的性别、年龄和地区的多样性。我们可以分别计算数据处理前后的这些属性的联合分布函数(Q₁,Q₂)，将U_vd定义为Q₁,Q₂之间的距离：我们用Hellinger distance作为U_vd的度量标准。

语音质量的损失：当我们对语音数据进行处理，试图隐藏用户的声纹时，势必会对语音质量产生影响，比如会引入噪声。我们采用国际电信联盟提供的客观MOS值评估方法——主观语音质量评估(PESQ)来评估一段语音数据的语音质量好坏。PESQ表示的是经过处理后的语音和参考语音之间的相似度，那么语音质量的损失就可以表示成

对数据集的标签而言，存在成员关系的隐私泄露风险P_m以及数据清晰度的损失U_dc等两个指标。具体定义如下：

成员关系的隐私泄露风险：攻击者也可以从数据集的类型cate中获得一些属性。比如从cate＝{A学校的学生}中，可以得到学校名和学生身份这两个属性。我们假设总共可以获得n₂种属性，每种属性的重要程度用b_i(1≤i≤n₂)表示。可得

数据清晰度的损失：对于一个数据集D＝(cate,S)而言，除了里面的语音数据S之外，类型描述cate也是十分重要的。对于数据使用者而言，比如研究机构，要先通过类型描述来判断该数据集是否满足自己的需求。如果数据发行商在向研究机构提供数据时，没有提供该数据集必要的类型描述cate，研究机构就无法了解该数据集是否可用，此时我们就称该数据集的清晰度为0。当数据集的清晰度为1时，就表示类型描述能够让研究机构清楚地认识到它的用途。一个数据集能够被多个数据使用者使用，并且每个使用者对数据集清晰度的要求也会有所不同。因此我们假设一个数据集被n₃个使用者所使用，用w_i表示各个使用者对数据清晰度要求的高低，出于归一化的考虑，令在对类型描述进行处理后，若仍有n′₃个使用者(定义为集合K)对数据清晰度感到满意，则数据清晰度的损失U_dc可表示为/>

之后，进一步考虑语音内容和说话人的声音两者之间的相关性，并把它作为一种新的隐私风险

首先，这里我们先将数据集D＝(cate,S)中的S按照用户的年龄划分成三类，即少年、青年和中年三个年龄段，即S＝{S₁,S₂,S₃}。其中，S₁、S₂、S₃依次是少年、青年和中年的语音数据。s_i＝(v_i,c_i)∈S_i，i＝{1,2,3}。三个年龄段的人说话的方式、词汇的使用等方面都会有所不同。比如少年经常会用到“考试、电脑、网游”，青年会更多地使用“工作、家庭、工资”等词汇。通过所使用的词汇，可以在一定程度上判断说话人的年龄段。因此，我们通过机器学习，可以找到少年、青年和中年各自特有的“词汇库”。这里，我们把少年、青年和中年的“词汇库”依次定义为G₁,G₂,G₃，把三者的年龄依次定义为E₁,E₂,E₃。正常情况下，对应情况是(G₁,E₁),(G₂,E₂),(G₃,E₃)。但是，当我们为了降低语音数据的隐私泄露风险时，对于每一条语音数据，会经过关键词扰动或者语音转换等特殊处理，就可能会导致v和c不匹配的情况发生。比如一条声音为少年(G₁)的语音数据中出现了n^*个G₂,G₃中的词汇。若n^*超过了一定的数量n₀，我们就认为产生了相关性泄露，即

下面就阐述如何利用机器学习来得到上述三个与年龄相关的词汇库。

我们的目的是：当我们得到一个新的语音数据集时，我们能通过某种方式，对数据集中的所有文本内容中的单词进行分类，并将其归入到三类G₁,G₂,G₃中的某一类，从而方便我们之后对相关性的分析。我们会利用机器学习来实现这一目的。首先，我们可以对这个分类问题进行简化，将一个三类的问题简化成三个两类的子问题，即①判断某个单词是否是少年所特有的.②判断某个单词是否是青年所特有的.③判断某个单词是否是中年所特有的.

通常，一个单词的属性有：长度、词性、流行度等等。此外，属性也可以是：是否是网络流行语、是否是缩写词、是否与食物相关，你可以按照你的喜爱，列出很多其他的属性。毫无疑问，我们知道的属性越多，越容易得出正确的判断。但在实际任务中，过多的属性往往会带来维数灾难问题。此外，针对不同的学习任务，对属性的个数和种类的要求也会有所不同。就好比上述三个子问题中的子问题①，或许我们只需要一个属性：“是否与网络游戏相关”，就能够做出正确的判断了，根本不需要其他过多的属性。

因此，就涉及到了特征选择的问题。我们要分别针对上述三个不同的学习任务，分别选择不同的特征集合。基本原则就是选择对当前学习任务有用的“相关特征”，去掉与当前学习任务无关的“冗余特征”。

下面，我们以子问题①为例，讲一下特征选择的具体过程。特征选择主要包括“子集搜索”问题和“子集评价”问题。

首先是子集搜索问题。给定初始的特征集合{a₁,a₂,...,a_n}。假定该特征集合已经包含了所有的重要信息。第一步，我们对n个特征单独进行评价，假定得出{a₂}最优；第二步，将{a₂}作为选定集，再从剩余的n-1个特征中，选择一个特征加入集合{a₂}，即构成一个两特征集合{a₂,a_i},i≠2，假定最终集合{a₂,a₄}最优，且优于{a₂}，则将{a₂,a₄}作为选定集；第三步，再找到一个最优的三特征集合.......假定进行到第k+1步时，得出的最优k+1特征集合不如上一轮的k特征集合，则停止并将上一轮的k特征集合作为特征选择的最终结果。这种选择方式显示是贪心的，它只能保证本轮选定的特征集合是最优的，但无法保证最后的结果是一个全局最优解。

其次是子集评价问题。给定数据集D，假定D中第i类样本所占的比例为p_i(i＝1,2,...,y)。对于子问题①而言y＝2，因为样本类别只有两种：该单词是少年所特有的或者不是(p₁+p₂＝1)。我们可以通过计算特征子集A的信息增益来对其进行评价：其中信息熵定义为：/>

对于特征子集A，可以根据其取值将D分成个V子集{D¹,D²,...D^V}。我们考虑一种简单的情况，对于特征子集A＝{a₂}，a₂＝“是否与网络游戏相关”。很显然，按照“是否与网络游戏相关”划分，可以把数据集D分成两个子集{D¹,D²}，此时上述式子中的V＝2,|D¹|+|D²|＝|D|＝总的单词数。

在每一轮中，我们通过计算所有的特征子集的信息增益，信息增益最大的子集为最优。

因此，总体过程为：选择一个样本数足够大的语音数据集，并把其中的文本内容作为训练集(每条文本对应的声音也是已知的)，然后通过特征选择，确定子问题①～③的特征集合，然后对于三个子问题，分别用同一个训练集进行学习，最后得到三个系统模型。当我们把某个数据集D＝(cate,S)经过处理后，得到了数据集D′。我们先把D′的文本内容送入第一个系统模型(对应子问题①)中，若输出的结果表明某个单词是少年所特有的，则把这个单词放入集合g₁中。同样地，把D′的文本内容再送入后两个系统模型中，把满足要求的单词分别放入集合g₂和集合g₃中。

需要注意的是，可能会出现一种特殊情况：某个单词同时处于多个集合中。为了使得最终的“词汇库”，两两之间的交集为空。我们做如下处理：

G₁＝g₁-g₁∩g₂-g₁∩g₃ G₂＝g₂-g₂∩g₁-g₂∩g₃ G₃＝g₃-g₃∩g₁-g₃∩g₂

至此，我们就得到了所需要的三个“词汇库”，有助于我们之后做相关性方面的分析。

下面将讨论如何对语音内容、说话者的声音以及数据集标签三个部分进行处理。

对语音内容的处理：

之前提到用TF-IDF来量化一个单词携带的隐私信息的大小。我们把TF-IDF值大于门限值δ的单词称为关键字。那么一条语音数据的文本泄露风险P_t ^s就是各个单词的TF-IDF值的相加，即

我们通过更改或者替换TF-IDF较大的单词来降低P_t ^s。因此对文本内容的处理分为以下三个步骤：

(1)利用语音识别技术，从语音数据中获得相应的文本内容，然后利用关键字识别技术找到关键字。

(2)利用DTW技术，在语音流中确定这些关键字的位置(比如在几分几秒处出现)。

(3)在语音流中，对这些关键字进行替换或者删除。

为了识别关键字，我们利用了一种自然语言处理技术NER(named-entityrecognition)来将文本内容的命名实体(named-entity)进行定位和分类。所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体，比如数字、日期、货币都是命名实体。但命名实体包含的内容毕竟有限，很容易遗漏掉其他的非命名实体的信息，比如某一领域的专业术语。此外，也并不是所有的命名实体都与说话人密切相关。比如说话人说了一个国家的名字，但并不表明她就身处在那个国家。

当我们找到关键字后，就要对关键字进行处理。第一种处理方法就是替换，替换的原则是用同类型的其它词来替换关键字。在替换时，为了消除语音数据中文本内容和声音的相关性泄露风险我们应该根据说话人的声音到对应的词汇库G₁,G₂,G₃中选择用于替换的单词，这样就使得相关性泄露风险/>为0。同时也要注意替换前后两个单词的相似度。我们在之前提过用r来表示两个词之间的相似度，两个词之间的相似性越高，r越接近0。那么假设n个关键字被替换后，产生的文本可靠性损失为：

当一个数据集中的每条语音数据都进行关键字替换的处理后，还会造成相关性损失。第二种处理方法就是删除，相当于第一种方法中r＝1的特殊情况，但很明显这会增加更多的有效性损失。

对说话者的声音的处理：

我们采用语音转换(voice conversion)技术来改变每条语音数据的声音。语音转换可以分为定向语音转换和不定向语音转换两类。定向语音转换就是将说话人的声音转换成某个指定人物的声音。但它实现起来比较麻烦，需要一个有语音语料库来进行训练，并且最终得到的语音质量也较差。不定向语音转换就是将说话人的声音随机转换成一个不同的声音。并且一般而言，它最终得到的语音的质量要比前者的高。目前比较流行的一种不定向语音转换的方法是基于频率弯折(frequency warping)的VTLN(声道长度归一化)。

它包括以下六个步骤：基音标注(pitch marking)、帧分割(frame segmentation)、快速傅里叶变换FFT、声道长度归一化VTLN、逆快速傅里叶变换IFFT和基音同步叠加技术PSOLA。其中尤为关键的一步是VTLN。将语音信号进行FFT后，得到了以频率f为横坐标的频谱。VTLN就是利用一个弯折函数(warping function)对频率轴进行一定的弯折处理，从而达到改变声音的目的。在这里，我们采用一个经常被使用的双线性函数作为弯折函数。它的形式如下所示：

式中，f,f_m,f′分别表示原频率、截至频率、得到的新频率。i表示虚部，α是一个表示弯折程度的参数，α越大，表明弯折程度越大。我们就是通过改变α的值，进而转换成不同的声音。语音转换会影响U_vd,U_sq。此外，语音转换这一方法还会影响说话人的声音v和文本内容c的相关性，比如把一个小孩的声音转换成了大人的声音，而文本内容还是小孩的。这就会对/>和U_co产生影响。

我们可以举个简单的例子来分析弯折函数f′对声音属性泄露的影响。因为弯折函数f′中的可调参数只有α，所以就是分析参数α对声音属性泄露/>的影响。特别地，我们选择“性别”这一属性来进行讨论。我们直观的认识是女生的音调(声音频率)会比男生的音调要高。因此我们用一个常数f_φ作为判断是男声还是女声的临界值，若大于f_φ，则判断为女声。我们可以通过分析一条语音数据，得到说话人的平均基音/>进而与f_φ进行比较。如果转换前后的声音，通过频率判断，性别没有发生变化的话，就认为“性别”属性泄露出去了。

我们用a_i表示“性别”属性的重要程度，那么对应的“性别”属性泄露为：

对数据集标签的处理：

我们假设数据集标签由n个部分组成{a₁,a₂,,,a_n}。我们可以通过删除若干个a_i从而减小成员关系泄露P_m的值，使其小于设定的预算值，但这不可避免地会增加数据清晰度的损失U_dc。因此为了实现这两个指标之间的最优化，我们可以采用贪心策略。我们将{a₁,a₂,,,a_n}按照重要性，从高到低重新排序，每次从最底层的a_i开始删除，当P_m低于预算值时就停止。

因此我们就提出了下述的算法来实现隐私泄露风险和有效性损失之间的平衡问题，也就是在降低隐私泄露风险的同时，保证语音数据本身的有效性。由于语音内容、说话者的声音和数据集标签采用了不同的方法，改变某一维度的同时，并不会影响其他维度。因此，我们就可以将这个平衡问题分成三个子问题来讨论。

这三个子问题分别对应下式中的限制条件1、2、3。

为了叙述的方便，我们先将和/>记为/>和/>设/>这五个风险指标的初始值依次为P_to,P_vao,P_vpo,P_coo,P_mo。/>都是关于参数α的函数。因此，将这两者的加权和作为一个整体考虑。相对应地，/>也做相同的处理。β_i,ω_i表示权重系数，权重系数的值越大，表明对某个指标更加重视。解决上述优化问题的基本原则是使各个风险指标尽可能地靠近或者等于设定的预算值，这样就会让最终产生地有效性损失的值是最小的。

对于限制条件1：因为P_t ^s、都是关于门限值λ的函数。通过计算P_t ^s(λ₀)＝β₁P就能得到最优解λ＝λ₀。

对于限制条件2:是关于弯曲程度α的函数。

1)设的初始值是P_vo、P_coo。

2)if(P_vo≤P_coo),return.

else,则α＝α₀为最优解,return

由此条件，能得到风险预算值的最小值：min(P)＝min{ω₁P_vao+ω₂P_vpo,P_coo}/β₂。

对于限制条件3:采用之前提过的贪心策略，从重要性较低的标签元素开始删除，直到小于规定的预算值。

Claims

1.一种基于隐私保护的语音数据处理方法，其特征在于，包括以下步骤：

定义语音数据发布中存在的隐私保护问题，对于一条语音数据S，定义隐私泄漏风险的五个指标，分别为文本、语音属性、声纹、成员关系和相关性泄漏风险，分别用表示，其中，P_m只与数据集标签cate有关，每条语音数据S的总的隐私泄露风险表示为：其中，f_p是求和函数；

定义五个有效性损失指标分别为文本可靠性损失、语音多样性损失、语音质量损失和数据集清晰度损失，分别用U_t,U_vd,U_sq,U_dc,U_co表示，语音数据集D的总的有效性损失表示为：U＝f_u(U_t,U_vd,U_sq,U_dc,U_co)，其中，f_u是一个求和函数；

对语音内容c进行处理，此时文本泄漏风险P_t ^s＝f₃ ^s(y^s)，y^s中的上标s表示语音数据集D中的每一条语音数据S都进行处理，f₃ ^s中的上标表示每一条语音数据S的处理方法会有所不同，对语音内容c的处理，造成语音内容c的可靠性U_t损失，使得其中/>

使用语音转换技术，对说话人的声音v进行处理，同时减少声音属性和声纹的泄露此时/>使用语音转换技术后，对语音多样性损失U_vd和语音质量损失U_sq产生影响，其中U_vd＝f₇(z¹,z²,...,z^N)，N是语音数据集D中的语音数据的总数，z表示语音转换，U_vd是由N条语音数据s共同决定的；语音质量损失U_sq表示成N条语音数据各自的损失/>的累加值，即/>其中/>y表示关键字扰动，在用关键字扰动y或者语音转换z对语音数据S进行处理后，会增加语音数据中说话人的声音v和语音内容c的不匹配度，导致这条语音显得十分突兀，更容易引起攻击者的注意，从而增加了隐私泄露的风险，将这种风险称为相关性泄露风险/>此外，相关性的降低也会影响该数据集的有效性U_co＝f₁₀(y^s,z^s)，相关性损失U_co也会受到关键字扰动y和语音转换z的影响；

P^s＝f_p(f₃ ^s(y^s),f₅ ^s(z^s),f₆ ^s(z^s),f₁(x),f₉ ^s(y^s,z^s))；

对说话人的声音v而言，存在声音属性的隐私泄露风险声纹的隐私泄露风险/>以及语音多样性损失U_dv和语音质量损失/>四个指标，具体定义如下：

声音属性的隐私泄露风险通过对声音的分析，攻击者可以获得受害者的声音属性，假设总共可以获得n₁种声音属性，每种声音属性的重要程度用a_i(1≤i≤n₁)表示，可得

声纹的隐私泄露风险p_vp是一个0到1之间的常数，用来表示声纹的泄露程度，当p_vp＝1时，意味声纹已经完全泄露出去了，攻击者可以利用获得的声纹，以100％的成功率顺利通过基于声纹的身份认证，当声音经过特殊处理后，p_vp的值会降低；

对数据集标签cate而言，存在成员关系的隐私泄露风险P_m以及数据清晰度的损失U_dc两个指标，具体定义如下：

数据清晰度的损失U_dc：假设一个数据集被n₃个使用者所使用，用w_i表示各个使用者对数据清晰度要求的高低，出于归一化的考虑，令在对类型描述进行处理后，若仍有n₃′个使用者，定义为集合K，对数据清晰度感到满意，则数据清晰度的损失U_dc可表示为

步骤5、考虑语音内容c和说话人的声音v两者之间的相关性F，并把相关性F作为一种新的隐私风险包括以下步骤：

步骤503、若一条声音为G_i的语音数据中出现了n^*个G_j中的词汇，i＝1,2,3，j＝1,2,3且j≠i，若n^*超过了一定的数量n₀认为产生了相关性泄露，即

对语音内容c的处理：

(2)利用DTW技术，在语音流中确定这些关键字的位置；

利用命名实体进行关键字识别；

对说话人的声音v的处理：

采用语音转换技术来改变每条语音数据的声音

对数据集标签cate的处理：

假设数据集标签cate由n个部分组成{a₁,a₂,...,a_n}，通过删除若干个a_i从而减小成员关系泄露P_m的值，使其小于设定的预算值，为了成员关系泄露P_m与数据清晰度损失U_dc之间的最优化，采用贪心策略，将{a₁,a₂,...,a_n}按照重要性从高到低重新排序，每次从最底层的a_i开始删除，当P_m低于预算值时就停止；

步骤7、将隐私泄露风险P^S和有效性损失U分成三个子问题来讨论，这三个子问题分别对应下式中的限制条件1、2、3：

先将和/>记为/>和/>设/>这五个风险指标的初始值依次为P_to,P_vao,P_vpo,P_coo,P_mo，/>都是关于参数α的函数，因此，将这两者的加权和作为一个整体考虑；相对应地，/>也做相同的处理，β_i,ω_i表示权重系数，权重系数的值越大，表明对某个指标更加重视；

解决上述三个子问题的基本原则是使各个风险指标尽可能地靠近或者等于设定的预算值，这样就会让最终产生地有效性损失的值是最小的；

为限制条件2，对于限制条件2:P_v ^s是关于弯曲程度α的函数：

1)设的初始值是P_vo、P_coo；

2)

则α＝α₀为最优解,return

2.如权利要求1所述的一种基于隐私保护的语音数据处理方法，其特征在于，步骤502中，利用机器学习来得到所述少年、青年和中年各自特有的词汇库。

3.如权利要求2所述的一种基于隐私保护的语音数据处理方法，其特征在于，所述机器学习包括以下步骤：

G₁＝g₁-g₁∩g₂-g₁∩g₃；G₂＝g₂-g₂∩g₁-g₂∩g₃；G₃＝g₃-g₃∩g₁-g₃∩g₂。

4.如权利要求1所述的一种基于隐私保护的语音数据处理方法，其特征在于，步骤6中，采用命名实体识别来将文本内容的命名实体进行定位和分类，从而获得所述关键字。