CN115050390A

CN115050390A - 一种语音隐私保护方法、装置、电子设备及存储介质

Info

Publication number: CN115050390A
Application number: CN202210964608.0A
Authority: CN
Inventors: 王滨; 李超豪; 陈加栋; 王星; 陈思
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-09-13
Anticipated expiration: 2042-08-12
Also published as: CN115050390B

Abstract

本申请实施例提供的一种语音隐私保护方法、装置、电子设备及存储介质，应用于语音技术领域，该方法包括：定位第一对象的原始语音数据中的敏感音频片段；提取原始语音数据的目标情境参数；利用目标情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与目标情境参数匹配的脱敏音频。应用本申请实施例提供的技术方案，能够实现对语音数据脱敏，提高语音数据的安全性；后续还可以对脱敏音频进行加密处理，进一步提高语音数据的安全性。

Description

一种语音隐私保护方法、装置、电子设备及存储介质

技术领域

本申请涉及语音技术领域，特别是涉及一种语音隐私保护方法、装置、电子设备及存储介质。

背景技术

随着语音识别与声纹识别技术的发展，利用智能语音助手等可以实现各式人机交互，例如关键词检索、语音文本自动转录等。语音数据的应用在提升人们生活和工作便利的同时，也存在着大量的安全风险。

发明内容

本申请实施例的目的在于提供一种语音隐私保护方法、装置、电子设备及存储介质，用以实现对语音数据脱敏，提高语音数据的安全性。具体技术方案如下：

本申请实施的第一方面，提供了一种语音隐私保护方法，包括：

定位第一对象的原始语音数据中的敏感音频片段；

提取所述原始语音数据的目标情境参数；

利用所述目标情境参数和所述敏感音频片段，对所述原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与所述目标情境参数匹配的脱敏音频。

在一些实施例中，所述定位第一对象的原始语音数据中的敏感音频片段的步骤，包括：

对第一对象的原始语音数据进行滑窗处理，得到语音滑窗片段；

利用动态时间规整算法，计算所述语音滑窗片段与预设敏感音频片段之间的距离；

若计算得到的距离小于预设距离阈值，则确定所述语音滑窗片段为敏感音频片段。

在一些实施例中，所述提取所述原始语音数据的目标情境参数的步骤，包括：

将所述原始语音数据输入预设情境参数提取模型，得到所述原始语音数据的目标情境参数；所述预设情境参数提取模型是利用已标注情境参数的语音数据训练集对神经网络训练得到。

在一些实施例中，所述目标情境参数包括目标内容情境参数和目标声纹情境参数；

所述利用所述目标情境参数和所述敏感音频片段，对所述原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与所述目标情境参数匹配的脱敏音频的步骤，包括：

利用所述目标内容情境参数和所述敏感音频片段，对所述原始语音数据进行内容脱敏处理，得到与所述目标内容情境参数匹配的一级脱敏音频；

利用所述目标声纹情境参数，对所述一级脱敏音频进行声纹脱敏处理，得到与所述目标声纹情境参数匹配的二级脱敏音频。

在一些实施例中，所述利用所述目标内容情境参数和所述敏感音频片段，对所述原始语音数据进行内容脱敏处理，得到与所述目标内容情境参数匹配的一级脱敏音频的步骤，包括：

获取与所述目标内容情境参数相同的目标非敏感音频片段；

将所述原始语音数据中的所述敏感音频片段替换为所述目标非敏感音频片段，得到与所述目标内容情境参数匹配的一级脱敏音频。

在一些实施例中，所述获取与所述目标内容情境参数相同的目标非敏感音频片段的步骤，包括：

从预设非敏感音频片段库中，选取与所述目标内容情境参数相同的目标非敏感音频片段，所述预设非敏感音频片段库中存储有多个非敏感音频片段；或者

采用自然语言生成技术，生成与所述目标内容情境参数相同的非敏感文本；将所述非敏感文本转换为目标非敏感音频片段。

在一些实施例中，所述利用所述目标声纹情境参数，对所述一级脱敏音频进行声纹脱敏处理，得到与所述目标声纹情境参数匹配的二级脱敏音频的步骤，包括：

选取与所述目标声纹情境参数相同的第二对象的目标声纹；

将所述一级脱敏音频转换为所述目标声纹的音频，得到与所述目标声纹情境参数匹配的二级脱敏音频。

在一些实施例中，所述目标内容情境参数包括语音类型、上下文内容类型和敏感词词性中的一种或多种；

所述目标声纹情境参数包括所述第一对象的情绪、所述第一对象的年龄和所述第一对象的性别中的一种或多种。

在一些实施例中，在得到所述脱敏音频之后，所述方法还包括：

利用预设语音音质增强模型，对所述脱敏音频进行音质增强处理，得到目标脱敏音频。

在一些实施例中，所述预设语音音质增强模型采用如下步骤，对生成式对抗网络（Generative Adversarial Networks，GAN）进行训练得到：

提取第二对象的语音数据的语音特征，得到训练样本数据；

将所述脱敏音频输入所述GAN的生成器，得到测试样本数据；

将所述训练样本数据和所述测试样本数据输入所述GAN的判别器，得到所述训练样本数据和所述测试样本数据的对比值；

若所述对比值小于预设对比阈值，则结束所述GAN的训练，将当前的所述GAN作为预设语音音质增强模型；

若所述对比值大于或等于所述预设对比阈值，则调整所述生成器和所述判别器的参数，返回执行所述将所述脱敏音频输入所述GAN的生成器，得到测试样本数据的步骤。

按照预设加密算，对所述脱敏音频进行加密处理，得到加密音频。

本申请实施的第二方面，一种语音隐私保护装置，所述装置包括：

定位单元，用于定位第一对象的原始语音数据中的敏感音频片段；

提取单元，用于提取所述原始语音数据的目标情境参数；

脱敏单元，用于利用所述目标情境参数和所述敏感音频片段，对所述原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与所述目标情境参数匹配的脱敏音频。

在一些实施例中，所述定位单元，具有用于：

在一些实施例中，所述提取单元，具体用于：

所述脱敏单元，具体用于：

在一些实施例中，所述脱敏单元，具体用于：

获取与所述目标内容情境参数相同的目标非敏感音频片段；

在一些实施例中，所述脱敏单元，具体用于：

选取与所述目标声纹情境参数相同的第二对象的目标声纹；

在一些实施例中，所述装置还包括：

增强单元，用于在得到所述脱敏音频之后，利用预设语音音质增强模型，对所述脱敏音频进行音质增强处理，得到目标脱敏音频。

在一些实施例中，所述装置还包括：训练单元，用于采用如下步骤，对GAN进行训练得到所述预设语音音质增强模型，具体用于：

提取第二对象的语音数据的语音特征，得到训练样本数据；

将所述脱敏音频输入所述GAN的生成器，得到测试样本数据；

在一些实施例中，所述装置还包括：加密单元，用于在得到所述脱敏音频之后，按照预设加密算，对所述脱敏音频进行加密处理，得到加密音频。

本申请实施的第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一语音隐私保护方法步骤。

本申请实施的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一语音隐私保护方法步骤。

本申请实施的第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的语音隐私保护方法步骤。

本申请实施例有益效果：

本申请实施例提供的技术方案中，提取原始语音数据的情境参数，即目标情境参数，利用目标情境参数和原始语音数据中的敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，即对原始语音数据进行双重脱敏处理，在内容方面上，所获得的脱敏音频不再包含敏感音频片段，在声纹方面上，所获得的脱敏音频与原始语音数据的情境参数匹配，提高了所获得的脱敏音频的自然性和可用性，尤其是提高了脱敏音频中敏感音频片段对应的脱敏后频片段的自然性和可用性，使得所获得的脱敏音频不易被恶意用户发现该音频为脱敏处理后得到的音频，进而提高了语音数据的安全性。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的语音隐私保护方法的第一种流程示意图；

图2为本申请实施例提供的语音隐私保护方法的第二种流程示意图；

图3为本申请实施例提供的语音隐私保护方法的第三种流程示意图；

图4为本申请实施例提供的语音隐私保护方法的第四种流程示意图；

图5为本申请实施例提供的语音隐私保护方法的第五种流程示意图；

图6为本申请实施例提供的语音音质增强模型训练方法的一种流程示意图；

图7为本申请实施例提供的语音隐私保护方法的第六种流程示意图；

图8为本申请实施例提供的语音隐私保护装置的一种结构示意图；

图9为本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本申请保护的范围。

为便于理解，下面对本申请实施例中出现的词语进行解释说明。

生成式对抗网络（Generative Adversarial Networks，GAN）：一种深度学习模型架构，其同时训练两个模型：一个是生成器G，用来习得数据的真实分布；一个是判别器D，用来判断一个样本是否是真实样本。生成器G的训练过程就是尽可能地让判别器D犯错误，该GAN最后的目标就是让生成器G通过输入的噪声重构出训练数据的分布。

动态时间规整（Dynamic Time Warping，DTW）：一种衡量两个长度不同的时间序列的相似度的方法，其用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系，求解两模板匹配时累计距离最小所对应的规整函数。

频谱翘曲技术：频率扭曲是声带长度归一化技术的一种形式，其用于语音识别和语音转换。给定一个声音的频谱截面，该方法通过应用频率弯曲函数来创建一个新的频谱截面。例如，在在线游戏聊天、呼叫中心、彩信服务等应用中，可能需要进行频率扭曲来进行说话人身份转换，使一个说话人的声音听起来像另一个说话人的声音。

目前，语音数据可能是在利用智能语音助手等实现各式人机交互的过程中产生的，也可能是由设备自身生成的。语音数据在提升人们生活和工作便利的同时，也存在着大量的安全风险。例如，恶意第三方可能通过分析语音内容获取用户隐私信息，以及利用获取的敏感数据进行语音合成或语音克隆等，从而实现高逼真的语音诈骗行为，或是利用用户的声纹信息实现对用户认证系统的非法逃逸，给用户造成损失。

为实现对语音数据脱敏，提高语音数据的安全性，本申请实施例提供了一种语音隐私保护方法。该语音隐私保护方法可以应用于计算机、服务器或移动终端等具有语音数据处理功能的设备，或其他安装有语音交互软件的设备，如电脑、手机、智能电视等。为便于理解，以下以服务器为执行主体进行说明，并不起限定作用。上述语音隐私保护方法中，服务器提取原始语音数据的情境参数，即目标情境参数，利用目标情境参数和原始语音数据中的敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，即对原始语音数据进行双重脱敏处理，在内容方面上，所获得的脱敏音频不再包含敏感音频片段，在声纹方面上，所获得的脱敏音频与原始语音数据的情境参数匹配，提高了所获得的脱敏音频的自然性和可用性，尤其是提高了脱敏音频中敏感音频片段对应的脱敏后频片段的自然性和可用性，使得所获得的脱敏音频不易被恶意用户发现该音频为脱敏处理后得到的音频，进而提高了语音数据的安全性。

下面通过具体实施例，对本申请实施例提供的语音隐私保护方法进行详细说明。

参见图1，图1为本申请实施例提供的语音隐私保护方法的第一种流程示意图。以服务器为执行主体进行说明，并不起限定作用。该语音隐私保护方法包括如下步骤：

步骤S11，定位第一对象的原始语音数据中的敏感音频片段。

本申请实施例中，第一对象可以为任一说话人或其他语音来源对象，如电话、手机等。原始语音数据为未进行脱敏处理的语音数据，原始语音数据可以为wma或mp3等编码格式的语音数据，对此不进行限定。敏感音频片段为包含敏感信息的音频片段，敏感信息包含第一对象的名称、账号、密码、涉及暴力的词语、不文明词语、地名等等。

第一对象可以与安装有语音交互软件的设备进行语音交互，安装有语音交互软件的设备获取来自于第一对象的原始语音数据，并将原始语音数据传递给服务器。

服务器也可以安装有语音交互软件，第一对象可以与服务器进行语音交互，进而服务器获取来自于第一对象的原始语音数据。

服务器还可以与预设语音数据库连接，该预设语音数据库中存储有多条语音数据。服务器从预设语音数据库中获取第一对象的原始语音数据。服务器还可以将文本合成为第一对象的原始语音数据。

在获取到原始语音数据后，服务器对原始语音数据进行检测，定位原始语音数据中的敏感音频片段。这里，定位得到的敏感音频片段可以为一个或多个。

步骤S12，提取原始语音数据的目标情境参数。

本申请实施例中，情境参数可以包括但不限于内容情境参数和声纹情境参数。

内容情境参数可以包括语音类型、上下文内容类型和敏感词词性中的一种或多种。其中，语音类型可以包括但不限于音乐、演讲等。上下文内容类型可以包括但不限于医疗、金融、交通等。敏感词词性可以包括但不限于名词、动词、形容词等。本申请实施例中，内容情境参数还可以包括其他参数，对此不进行限定。

声纹情境参数可以包括对象情绪、对象年龄和对象性别中的一种或多种，情绪可以采用音调和音强等因素表示。其中，对象情绪为对象的情绪，可以包括但不限于开心、悲伤等。对象年龄为对象的年龄，如10-20岁、20-30岁等，或儿童、成人、老人等。对象性别为对象的性别，可以包括但不限于男性与女性。

在获取到原始语音数据后，服务器可以从原始语音数据中提取情境参数，作为目标情境参数。

步骤S13，利用目标情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与目标情境参数匹配的脱敏音频。

在获得目标情境参数和敏感音频片段的情况下，服务器对原始语音数据进行双重脱敏处理，即对原始语音数据进行内容脱敏处理，去除原始语音数据的敏感音频片段，并对原始语音数据进行声纹脱敏处理，改变原始语音数据的声纹，并使得改变声纹的音频与目标情境参数匹配。服务器对原始语音数据进行双重脱敏处理之后所获得音频即为与目标情境参数匹配的脱敏音频。

应用本申请实施例提供的技术方案，服务器提取原始语音数据的情境参数，即目标情境参数，利用目标情境参数和原始语音数据中的敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，即对原始语音数据进行双重脱敏处理，在内容方面上，所获得的脱敏音频不再包含敏感音频片段，在声纹方面上，所获得的脱敏音频与原始语音数据的情境参数匹配，提高了所获得的脱敏音频的自然性和可用性，尤其是提高了脱敏音频中敏感音频片段对应的脱敏后频片段的自然性和可用性，使得所获得的脱敏音频不易被恶意用户发现该音频为脱敏处理后得到的音频，进而提高了语音数据的安全性。

在一些实施例中，在获得脱敏音频之后，服务器可以按照预设加密算法，对脱敏音频进行加密处理，得到加密音频。这可以进一步提高语音数据的安全性。

本申请实施例中，为了进一步提高语音数据的安全性，在获得脱敏音频之后，服务器还可以对脱敏音频进行分割，得到多个音频片段，并按照时间顺序对多个音频片段进行编号；按照第一预设加密算法对偶数编号的音频片段进行加密处理，按照第二预设加密算法对奇数编号的音频片段进行加密处理，得到加密音频。第一预设加密算法和第二预设加密算法不同。

上述预设加密算法、第一预设加密算法和第二预设加密算法可以根据实际需求进行设定。例如，预设加密算法、第一预设加密算法和第二预设加密算法可以包括但不限于对称加密算法和非对称加密算法，其中，对称加密算法可以包括但不限于数据加密标准（DataEncryption Standard，DES）算法、3DES算法、三重数据加密标准（Triple DEA，TDEA）算法、布鲁斯（Blowfish）算法、RC5算法和国际数据加密算法（International Data EncryptionAlgorithm，IDEA）算法等，非对称加密算法可以包括但不限于RSA算法、椭圆加密算法（Elliptic curve cryptography，ECC）、数据签名算法（Digital Signature Algorithm，DSA）算法和迪菲-赫尔曼密钥交换（Diffie–Hellman key exchange，D-H）算法等。

在一些实施例中，还提供了一种语音隐私保护方法，如图2所示。以服务器为执行主体进行说明，并不起限定作用。该语音隐私保护方法可以包括步骤S21-步骤S25。

步骤S21，对第一对象的原始语音数据进行滑窗处理，得到语音滑窗片段。

服务器对第一对象的原始语音数据进行扫描与滑窗处理，得到一个或多个语音滑窗片段，这一个或多个语音滑窗片段构成语音滑窗片段集合。

本申请实施例中，滑窗处理的步长以及滑窗的长度可以根据实际需求进行设定。例如，滑窗处理的步可以为1毫秒（ms）、2ms或3ms等，滑窗的长度可以为10ms、20ms或30ms等。

步骤S22，利用动态时间规整算法，计算语音滑窗片段与预设敏感音频片段之间的距离。

本申请实施例中，服务器可以预先设置敏感音频片段，即预设敏感音频片段。预设敏感音频片段也可以来源于预先构建的敏感词音频片段库，预先构建的敏感词音频片段库可以由用户自定义构建获得，也可以由调研统计获得的常用敏感词进行语音生成获得。

针对步骤S21中所获得的每个语音滑窗片段，服务器利用动态时间规整算法，计算该语音滑窗片段与预设敏感音频片段之间的距离。

步骤S23，若计算得到的距离小于预设距离阈值，则确定语音滑窗片段为敏感音频片段。

本申请实施例中，预设距离阈值的大小可以根据实际需求进行设定。

针对步骤S21中所获得的每个语音滑窗片段，服务器在获得该语音滑窗片段与预设敏感音频片段之间的距离之后，判断获得的距离是否小于预设距离阈值；若小于预设距离阈值，则确定语音滑窗片段为敏感音频片段；若大于或等于预设距离阈值，则确定语音滑窗片段为非敏感音频片段。

步骤S24，提取原始语音数据的目标情境参数。具体可参见步骤S12部分的相关描述。

步骤S25，利用目标情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与目标情境参数匹配的脱敏音频。具体可参见步骤S13部分的相关描述。

应用本申请实施例提供的技术方案，服务器利用动态时间规整算法，可减少原始语音数据的语音滑窗片段与预设敏感词音频片段之间语速差异带来的影响，进而准确的确定原始语音数据中的敏感音频片段，提高了后续对原始语音数据进行内容脱敏处理和声纹脱敏处理的准确性。

在一些实施例中，还提供了一种语音隐私保护方法，如图3所示。以服务器为执行主体进行说明，并不起限定作用。该语音隐私保护方法可以包括步骤S31-步骤S33。

步骤S31，定位第一对象的原始语音数据中的敏感音频片段。具体可参见步骤S11部分的相关描述。

步骤S32，将原始语音数据输入预设情境参数提取模型，得到原始语音数据的目标情境参数；预设情境参数提取模型是利用已标注情境参数的语音数据训练集对神经网络训练得到。

本申请实施例中，神经网络可以为深度神经网络（Deep Neural Networks，DNN）、卷积神经网络（Convolutional Neural Networks，CNN）、循环神经网络（Recurrent NeuralNetworks，RNN）或其他神经网络，对此不进行限定。

在一些实施例中，预设情境参数提取模型的训练过程可以为：获取语音数据训练集，语音数据训练集包括多条语音数据，每条语音数据标注有情境参数；将多条语音数据分别输入神经网络，神经网络对多条语音数据进行处理后，输出多条语音数据的预测情境参数；根据多条语音数据的预测情境参数和多条语音数据标注的情境参数，确定预测损失；根据预测损失确定神经网络是否收敛；若确定神经网络未收敛，则调整神经网络的参数，返回执行将多条语音数据分别输入神经网络的步骤；若确定神经网络收敛，则结束对神经网络的训练，当前的神经网络即为预设情境参数提取模型。

本申请实施例中，还可以采用其他方式训练神经网络，得到预设情境参数提取模型，对此不进行限定。

基于训练好的预设情境参数提取模型，服务器在获得原始语音数据之后，将原始语音数据输入预设情境参数提取模型，预设情境参数提取模型对原始语音数据进行处理之后，输出预测的原始语音数据的情境参数，即原始语音数据的目标情境参数。

步骤S33，利用目标情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与目标情境参数匹配的脱敏音频。具体可参见步骤S13部分的相关描述。

应用本申请实施例提供的技术方案，预设情境参数提取模型预先学习了不同情境参数的语音数据的数据变化规律，利用预设情境参数提取模型，服务器可以准确的获取到原始语音数据的目标情境参数，进而提高了后续对原始语音数据进行内容脱敏处理和声纹脱敏处理的准确性。

在一些实施例中，目标情境参数可以包括内容情境参数（即目标内容情境参数）和声纹情境参数（即目标声纹情境参数）。这种情况下，本申请实施例还提供了一种语音隐私保护方法，如图4所示。以服务器为执行主体进行说明，并不起限定作用。该语音隐私保护方法可以包括步骤S41-步骤S44。

步骤S41，定位第一对象的原始语音数据中的敏感音频片段。具体可参见步骤S11、步骤S21-步骤S23部分的相关描述。

步骤S42，提取原始语音数据的目标情境参数。具体可参见步骤S12、S32部分的相关描述。

步骤S43，利用目标内容情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理，得到与目标内容情境参数匹配的一级脱敏音频。

本申请实施例中，服务器对原始语音数据进行内容脱敏处理，即将原始语音数据中的敏感音频片段转换为与目标内容情境参数匹配的非敏感音频片段，得到与目标内容情境参数匹配的一级脱敏音频。其中，与目标内容情境参数匹配的非敏感音频片段可以表示为：非敏感词音频片段与敏感词音频片段具有相同语音类型、上下文内容类型和词性。

在一些实施例中，服务器可以将原始语音数据转为原始文本，将原始文本中敏感音频片段对应的文本替换为非敏感文本，该非敏感文本的内容情境参数为目标内容情境参数，将替换后得到的文本合成为语音，得到一级脱敏音频。

在另一些实施例中，服务器可以获取与目标内容情境参数相同的目标非敏感音频片段；将原始语音数据中的敏感音频片段替换为目标非敏感音频片段，得到与目标内容情境参数匹配的一级脱敏音频。本申请实施例中，简化了隐私保护流程，减少了中间额外语音文本转录与合成带来的误差和噪声，提升了语音隐私保护处理的效率。

在一些实施例中，上述获取与目标内容情境参数相同的目标非敏感音频片段的步骤，可以为：从预设非敏感音频片段库中，选取与目标内容情境参数相同的目标非敏感音频片段，预设非敏感音频片段库中存储有多个非敏感音频片段。

在另一些实施例中，上述获取与目标内容情境参数相同的目标非敏感音频片段的步骤，可以为：采用自然语言生成技术，生成与目标内容情境参数相同的非敏感文本；将非敏感文本转换为目标非敏感音频片段。

本申请实施例中，服务器还可以采用其他方式获取目标非敏感音频片段，对此不进行限定。

步骤S44，利用目标声纹情境参数，对一级脱敏音频进行声纹脱敏处理，得到与目标声纹情境参数匹配的二级脱敏音频。

本申请实施例中，服务器在获得一级脱敏音频之后，利用声纹转换技术对一级脱敏音频进行处理，得到与目标声纹情境参数匹配的二级脱敏音频。其中，声纹转换技术包含语音韵律转换过程。

本申请实施例中，声纹转换技术可以采用频谱翘曲技术实现，例如，服务器将一级脱敏音频进行基音标记，基于规定的频谱规整函数进行分割、快速傅里叶变换、声道长度归一化变换、快速傅里叶反变换等操作，并使用时域基音同步叠加技术进行音质提升，得到二级脱敏音频。

声纹转换技术还可以包括基于GAN的声纹转换技术、基于变分自编码器的声纹转换技术等实现，对此不进行限定。

在一些实施例中，服务器可以选取与目标声纹情境参数相同的第二对象的目标声纹；将一级脱敏音频转换为目标声纹的音频，得到与目标声纹情境参数匹配的二级脱敏音频。

其中，第二对象可以为任一说话人或其他语音来源对象，第二对象与第一对象不同。第二对象的声纹为与原始语音数据具有同类声纹情境参数的声纹转换目标。与目标声纹情境参数匹配的第二对象的声纹可以表示为：第二对象的声纹与第一对象的声纹具有相同的情绪、年龄和性别等。例如，对于成年男性开心情绪下的原始语音数据，第二对象的声纹，也就是声纹转换目标可以为具有成年、男性、开心情绪等声纹情境参数的声纹，不应为其他声纹情境参数的声纹，如老年、女性、悲伤情绪的声纹。

应用本申请实施例提供的技术方案，服务器引入内容情境参数和声纹情境参数，并利用内容情境参数和声纹情境参数，对原始语音数据进行双重脱敏处理，提升了原始语音数据中非敏感内容的可用性和自然性、可听性和可理解性，减少了对原始语音数据上下文连贯性的影响，使得所获得的脱敏音频不易被恶意用户发现该音频为脱敏处理后得到的音频，也就是，不易被恶意用户发现该音频为隐私处理后音频，增强了隐私处理后音频在特定场景下正常用户的可用性，进而提高了语音数据的安全性。

在一些实施例中，本申请实施例还提供了一种语音隐私保护方法，如图5所示。以服务器为执行主体进行说明，并不起限定作用。该语音隐私保护方法可以包括步骤S51-步骤S54。

步骤S51，定位第一对象的原始语音数据中的敏感音频片段。具体可参见步骤S11、步骤S21-步骤S23部分的相关描述。

步骤S52，提取原始语音数据的目标情境参数。具体可参见步骤S12、步骤S32部分的相关描述。

步骤S53，利用目标情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与目标情境参数匹配的脱敏音频。具体可参见步骤S13、步骤S43-步骤S44部分的相关描述。

步骤S54，利用预设语音音质增强模型，对脱敏音频进行音质增强处理，得到目标脱敏音频。

本申请实施例中，预设语音音质增强模型可以为对DNN、CNN、RNN或GAN等神经网络进行训练得到的模型，对此不进行限定。

在获得步骤S13中所述的脱敏音频或步骤S44中所述的二级脱敏音频之后，服务器将步骤S13中所述的脱敏音频或步骤S44中所述的二级脱敏音频输入预设语音音质增强模型，预设语音音质增强模型对输入的脱敏音频进行处理，即对脱敏音频进行音质增强处理，得到音质增强的目标脱敏音频，该目标脱敏音频可以称三级脱敏音频。

应用本申请实施例提供的技术方案，服务器在获得脱敏音频后，对脱敏音频进行了音质增强处理，解决了脱敏处理对原始语音数据中非敏感内容的可听性与可理解性造成影响的实际问题，进一步提升了脱敏音频的自然性。

在一些实施例中，在获得目标脱敏音频之后，服务器可以按照预设加密算法，对目标脱敏音频进行加密处理，得到加密音频。这可以进一步提高语音数据的安全性。

本申请实施例中，为了进一步提高语音数据的安全性，在获得目标脱敏音频之后，服务器还可以对目标脱敏音频进行分割，得到多个音频片段，并按照时间顺序对多个音频片段进行编号；按照第一预设加密算法对偶数编号的音频片段进行加密处理，按照第二预设加密算法对奇数编号的音频片段进行加密处理，得到加密音频。

在一些实施例中，预设语音音质增强模型为对GAN进行训练得到的模型，以服务器为执行主体进行说明，并不起限定作用。具体的语音音质增强模型训练过程如图6所示，可以包括如下步骤：

步骤S61，提取第二对象的语音数据的语音特征，得到训练样本数据。

本申请实施例中，语音特征可以包括但不限于梅尔倒频谱系数（Mel-scaleFrequency Cepstral Coefficients，MFCC）特征和滤波器组（Filter bank，Fbank）特征等。第二对象为除第一对象外的任一对象。

服务器获取第二对象的语音数据，并提取第二对象的语音数据的语音特征，得到训练样本数据。这里，服务器获取的第二对象的语音数据包括第二对象在各种情境参数下的语音数据。

在一些实施例中，服务器获取第二对象的语音数据，对第二对象的语音数据进行预处理，例如去除第二对象的语音数据中的噪声和无效内容的音频片段等，得到预处理后的语音数据，之后从预处理后的语音数据中提取语音特征，得到训练样本数据，这降低了语音数据中的噪声对所提取的语音特征的影响，提高了所获得的训练样本数据的准确性，进而提高了训练得到的预设语音音质增强模型的准确性。

步骤S62，将脱敏音频输入GAN的生成器，得到测试样本数据。

GAN的生成器包括至少一个生成器和一个判别器。

对于所获得的第一对象的脱敏音频，如步骤S13中所述的脱敏音频和步骤S44中所述的二级脱敏音频，服务器可以将脱敏音频输入GAN的生成器，该生成器将脱敏音频转换为音质增强的预测音频，该预测音频即为测试样本数据。

步骤S63，将训练样本数据和测试样本数据输入GAN的判别器，得到训练样本数据和测试样本数据的对比值。

本申请实施例中，服务器在获得训练样本数据和测试样本数据之后，将训练样本数据和测试样本数据输入GAN的判别器，判别器对比训练样本数据和测试样本数据，得到训练样本数据和测试样本数据的对比值。

服务器判断训练样本数据和测试样本数据的对比值是否小于预设对比阈值。若对比值小于预设对比阈值，则执行步骤S64，结束GAN的训练；若对比值大于或等于预设对比阈值，则执行步骤S65，更新迭代GAN。其中，预设对比阈值可以根据实际需求进行设定，对此不进行限定。

步骤S64，结束GAN的训练，将当前的GAN作为预设语音音质增强模型。

后续，服务器可以使用预设语音音质增强模型中的生成器，对脱敏数据进行音质增强处理，提升脱敏语音的自然性。

步骤S65，调整生成器和判别器的参数，返回执行步骤S62。

本申请实施例中，为了提高音质增强效果，服务器可以获得多个第二对象的语音数据，训练得到多个第二对象对应的预设语音音质增强模型。在实际应用本申请实施例提供的技术方案时，服务器可以从多个第二对象中选择任一第二对象，使用与目标声纹情境参数相同的该第二对象的声纹，对原始语音数据进行声纹脱敏处理，得到二级脱敏音频；相相应的，服务器选择该第二对象对应的预设语音音质增强模型，使用该预设语音音质增强模型，对二级脱敏音频进行音质增强处理，得到目标脱敏音频。

例如，服务器训练得到对象A对应的语音音质增强模型1，对象B对应的语音音质增强模型2，对象C对应的语音音质增强模型3。当服务器选择对象A作为第二对象，并使用与目标声纹情境参数相同的对象A的声纹，对原始语音数据进行声纹脱敏处理时，使用对象A对应的语音音质增强模型1，对二级脱敏音频进行音质增强处理；当服务器选择对象B作为第二对象，并使用与目标声纹情境参数相同的对象B的声纹，对原始语音数据进行声纹脱敏处理时，使用对象B对应的语音音质增强模型2，对二级脱敏音频进行音质增强处理；当服务器选择对象C作为第二对象，并使用与目标声纹情境参数相同的对象C的声纹，对原始语音数据进行声纹脱敏处理时，使用对象C对应的语音音质增强模型3，对二级脱敏音频进行音质增强处理。

应用本申请实施例提供的技术方案，语音音质增强模型可以充分学习到高音质语音数据的分布规律，利用训练好的语音音质增强模型，也就是，充分学习到高音质语音数据的分布规律的语音音质增强模型，服务器可以准确的提升脱敏音频的音质，提升脱敏语音的自然性。

下面结合图7所示的语音隐私保护处理流程，对本申请实施例提供的语音隐私保护方法进行说明。

步骤S71，定位第一对象的原始语音数据中的敏感音频片段。具体可参见步骤S11、步骤S21-步骤S23部分的相关描述。

步骤S72，提取原始语音数据的目标情境参数，目标情境参数包括目标内容情境参数和目标声纹情境参数。具体可参见步骤S12、步骤S32部分的相关描述。

步骤S73，利用目标内容情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理，得到与目标内容情境参数匹配的一级脱敏音频。具体可参见步骤S43部分的相关描述。

步骤S74，利用目标声纹情境参数，对一级脱敏音频进行声纹脱敏处理，得到与目标声纹情境参数匹配的二级脱敏音频。具体可参见步骤S44部分的相关描述。

步骤S75，对二级脱敏音频进行音质增强处理，得到三级脱敏音频。具体可参见步骤S54部分的相关描述。

应用本申请实施例提供的技术方案，具体如下有益效果：

1）引入情境参数：在脱敏处理过程中引入语音内容情境参数和声纹情境参数，提升了原始语音数据中非敏感内容的可用性和自然性、可听性和可理解性，减少了对原始语音数据上下文连贯性的影响，使得所获得的脱敏音频不易被恶意用户发现该音频为脱敏处理后得到的音频，也就是，不易被恶意用户发现该音频为隐私处理后音频，具有高隐蔽性，增强了隐私处理后音频在特定场景下正常用户的可用性；

2）步骤简洁与效率提升：本申请实施例提供的技术方案中，完成生物特征（即声纹）与内容双重脱敏仅需三步，即敏感词音频片段检索->敏感词音频片段替换->声纹转化，简化了隐私保护流程，减少了中间额外语音文本转录与合成带来的误差和噪声，提升了语音隐私保护处理的效率；

3）提升脱敏语音音质：本申请实施例提供的技术方案引入语音音质增强模型，解决脱敏处理对原始语音数据中非敏感内容的可听性与可理解性造成影响的实际问题，提升了脱敏语音的自然性。

与上述语音隐私保护方法对应，本申请实施例还提供了一种语音隐私保护装置，如图8所示，该装置包括：

定位单元81，用于定位第一对象的原始语音数据中的敏感音频片段；

提取单元82，用于提取原始语音数据的目标情境参数；

脱敏单元83，用于利用目标情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与目标情境参数匹配的脱敏音频。

在一些实施例中，定位单元81，具有可以用于：

利用动态时间规整算法，计算语音滑窗片段与预设敏感音频片段之间的距离；

若计算得到的距离小于预设距离阈值，则确定语音滑窗片段为敏感音频片段。

在一些实施例中，提取单元82，具体可以用于：

将原始语音数据输入预设情境参数提取模型，得到原始语音数据的目标情境参数；预设情境参数提取模型是利用已标注情境参数的语音数据训练集对神经网络训练得到。

在一些实施例中，目标情境参数包括目标内容情境参数和目标声纹情境参数；

脱敏单元83，具体可以用于：

利用目标内容情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理，得到与目标内容情境参数匹配的一级脱敏音频；

利用目标声纹情境参数，对一级脱敏音频进行声纹脱敏处理，得到与目标声纹情境参数匹配的二级脱敏音频。

在一些实施例中，脱敏单元83，具体可以用于：

获取与目标内容情境参数相同的目标非敏感音频片段；

将原始语音数据中的敏感音频片段替换为目标非敏感音频片段，得到与目标内容情境参数匹配的一级脱敏音频。

在一些实施例中，脱敏单元83，具体可以用于：

从预设非敏感音频片段库中，选取与目标内容情境参数相同的目标非敏感音频片段，预设非敏感音频片段库中存储有多个非敏感音频片段；或者

采用自然语言生成技术，生成与目标内容情境参数相同的非敏感文本；将非敏感文本转换为目标非敏感音频片段。

在一些实施例中，脱敏单元83，具体可以用于：

选取与目标声纹情境参数相同的第二对象的目标声纹；

将一级脱敏音频转换为目标声纹的音频，得到与目标声纹情境参数匹配的二级脱敏音频。

在一些实施例中，目标内容情境参数包括语音类型、上下文内容类型和敏感词词性中的一种或多种；

目标声纹情境参数包括第一对象的情绪、第一对象的年龄和第一对象的性别中的一种或多种。

在一些实施例中，上述语音隐私保护装置还可以包括：

增强单元，用于在得到脱敏音频之后，利用预设语音音质增强模型，对脱敏音频进行音质增强处理，得到目标脱敏音频。

在一些实施例中，上述语音隐私保护装置还可以包括：训练单元，用于采用如下步骤，对GAN进行训练得到预设语音音质增强模型，具体可以用于：

提取第二对象的语音数据的语音特征，得到训练样本数据；

将脱敏音频输入GAN的生成器，得到测试样本数据；

将训练样本数据和测试样本数据输入GAN的判别器，得到训练样本数据和测试样本数据的对比值；

若对比值小于预设对比阈值，则结束GAN的训练，将当前的GAN作为预设语音音质增强模型；

若对比值大于或等于预设对比阈值，则调整生成器和判别器的参数，返回执行将脱敏音频输入GAN的生成器，得到测试样本数据的步骤。

在一些实施例中，上述语音隐私保护装置还可以包括：加密单元，用于在得到脱敏音频之后，按照预设加密算法，对脱敏音频进行加密处理，得到加密音频。

应用本申请实施例提供的技术方案，提取原始语音数据的情境参数，即目标情境参数，利用目标情境参数和原始语音数据中的敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，即对原始语音数据进行双重脱敏处理，在内容方面上，所获得的脱敏音频不再包含敏感音频片段，在声纹方面上，所获得的脱敏音频与原始语音数据的情境参数匹配，提高了所获得的脱敏音频的自然性和可用性，尤其是提高了脱敏音频中敏感音频片段对应的脱敏后频片段的自然性和可用性，使得所获得的脱敏音频不易被恶意用户发现该音频为脱敏处理后得到的音频，进而提高了语音数据的安全性。

本申请实施例还提供了一种电子设备，如图9所示，包括处理器91、通信接口92、存储器93和通信总线94，其中，处理器91、通信接口92和存储器93通过通信总线94完成相互间的通信；

存储器93，用于存放计算机程序；

处理器91，用于执行存储器93上所存放的程序时，实现上述图1-图7任一所述的方法步骤。

上述电子设备可以为上述服务器，电子设备中的通信总线可以是外设部件互连标准（Peripheral Component Interconnect，PCI）总线或扩展工业标准结构（ExtendedIndustry Standard Architecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述图1-图7任一所述的方法步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图1-图7任一所述的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种语音隐私保护方法，其特征在于，所述方法包括：

定位第一对象的原始语音数据中的敏感音频片段；

提取所述原始语音数据的目标情境参数；

2.根据权利要求1所述的方法，其特征在于，所述定位第一对象的原始语音数据中的敏感音频片段的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取所述原始语音数据的目标情境参数的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述目标情境参数包括目标内容情境参数和目标声纹情境参数；

5.根据权利要求4所述的方法，其特征在于，所述利用所述目标内容情境参数和所述敏感音频片段，对所述原始语音数据进行内容脱敏处理，得到与所述目标内容情境参数匹配的一级脱敏音频的步骤，包括：

获取与所述目标内容情境参数相同的目标非敏感音频片段；

6.根据权利要求5所述的方法，其特征在于，所述获取与所述目标内容情境参数相同的目标非敏感音频片段的步骤，包括：

7.根据权利要求4所述的方法，其特征在于，所述利用所述目标声纹情境参数，对所述一级脱敏音频进行声纹脱敏处理，得到与所述目标声纹情境参数匹配的二级脱敏音频的步骤，包括：

选取与所述目标声纹情境参数相同的第二对象的目标声纹；

8.根据权利要求4-7任一项所述的方法，其特征在于，所述目标内容情境参数包括语音类型、上下文内容类型和敏感词词性中的一种或多种；

9.根据权利要求1-7任一项所述的方法，其特征在于，在得到所述脱敏音频之后，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述预设语音音质增强模型采用如下步骤，对生成式对抗网络GAN进行训练得到：

提取第二对象的语音数据的语音特征，得到训练样本数据；

将所述脱敏音频输入所述GAN的生成器，得到测试样本数据；

11.根据权利要求1-7任一项所述的方法，其特征在于，在得到所述脱敏音频之后，所述方法还包括：

按照预设加密算法，对所述脱敏音频进行加密处理，得到加密音频。

12.一种语音隐私保护装置，其特征在于，所述装置包括：

提取单元，用于提取所述原始语音数据的目标情境参数；

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-11任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-11任一所述的方法步骤。