CN117648717A

CN117648717A - 用于人工智能语音陪练的隐私保护方法

Info

Publication number: CN117648717A
Application number: CN202410115366.7A
Authority: CN
Inventors: 赵隽隽; 潘斌; 赵剑飞; 欧阳禄萍; 张怀仁; 范喆一
Original assignee: Zhixueyun Beijing Technology Co ltd
Current assignee: Zhixueyun Beijing Technology Co ltd
Priority date: 2024-01-29
Filing date: 2024-01-29
Publication date: 2024-03-05
Anticipated expiration: 2044-01-29
Also published as: CN117648717B

Abstract

本发明涉及人工智能语音陪练隐私保护技术领域，具体为用于人工智能语音陪练的隐私保护方法，方法包括，用户在与人工智能语音陪练交流时，对用户语音特征去标识化；构建隐私信息筛选器，对含有隐私内容的语音信息进行模糊化处理；用户在完成与人工智能语音陪练后，自行选择是否将陪练数据进行存储；构建加密模型，对选择存储的语音陪练数据进行加密，并构建对应的用户访问权限，本发明提供的隐私保护方法，解决了在与人工智能进行语音交流时会出现的语音特征泄露的问题，并且通过构建隐私内容过滤器，可以过滤在交流时不经意间说出的自身隐私问题。

Description

用于人工智能语音陪练的隐私保护方法

技术领域

本发明涉及人工智能语音陪练隐私保护技术领域，具体为用于人工智能语音陪练的隐私保护方法。

背景技术

语音特征是个人独特的身份信息，可以用于唯一标识说话的人。保护语音特征是确保个人隐私的重要保障之一，可防止未经授权的人通过识别个人声音特征信息合成个人语音。

在与人工智能进行语音沟通时，用户本身的声音特征信息就是一项隐私信息，以及在与人工智能沟通时，需要避免在不经意间泄露自身的隐私信息。

在当前人工智能技术大发展的环境下，保护自身声音特征信息不被模仿以及避免滋生隐私泄露，是一项非常值得关注的技术问题。

鉴于此，本发明提出用于人工智能语音陪练的隐私保护方法。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：保护用户在与人工智能语音陪练时，自身的声音特征信息不被泄露，以及陪练过程中过滤自身不经意间泄露的隐私信息，并对保存的语音陪练数据进行加密。

为解决上述技术问题，本发明提供如下技术方案：

用户在与人工智能语音陪练交流时，对用户语音特征去标识化；

构建隐私信息筛选器，对含有隐私内容的语音信息进行模糊化处理；

用户在完成与人工智能语音陪练后，自行选择是否将陪练数据进行存储；

构建加密模型，对选择存储的语音陪练数据进行加密，并构建对应的用户访问权限。

优选的，所述对用户语音去标识化包括，用梅尔频率倒谱系数提取用户语音特征、对用户语音特征注入扰动以及生成新语音特征的语音信息；

所述梅尔频率倒谱系数包括，语音信号预处理、分帧、傅里叶变换、梅尔滤波以及离散余弦变换；

所述语音信号预处理包括对语音信号进行降噪，去除语音信号中除人声的杂音；

所述分帧是将语音信号分成短时段的帧，并使用窗函数来加权每一帧，令原始语言信号为，第帧的信号为；

所述傅里叶变换是对每一帧的帧行傅里叶变换，得到语音信号的频谱信息，令第帧的频谱为，傅里叶变换的具体公式为：

；

其中，N是语音信号的长度，是语音信号在时域的取样值，是傅里叶变换在频域的值，是虚数单位；

所述梅尔滤波包括，将频谱通过一组梅尔滤波器，梅尔滤波器在梅尔频率上均匀分布，梅尔频率的计算公式如下：

；

其中，f为频率，梅尔滤波的中心频率为：

；

其中，为傅里叶变换的点数，为梅尔频率，为采样率；

所述离散余弦变换是对取对数后的梅尔滤波器的输出进行离散余弦变换，得到梅尔频率倒谱系数；

令第i帧的梅尔频率倒谱系数为，m为系数的索引：

；

其中，M为离散余弦变换系数的个数，k为参数；

梅尔频率特征向量即为，表示语音信号在梅尔频率倒谱上的特征。

优选的，所述对用户语音特征注入扰动包括，对每个梅尔滤波器的中心频率注入频率扰动，选择正态分布中的随机值作为注入的频率扰动数值；

梅尔滤波器在注入扰动后，输出新的梅尔频率倒谱系数，将新的梅尔频率倒谱系数还原成语音信息，实现用户输入语音特征的去标识化。

优选的，所述隐私信息筛选器包括，训练机器学习模型，识别语音信息中的隐私内容，所述隐私内容包括敏感信息和身份信息；

利用自然语言处理技术，将用户输入的语音信息转换成文本信息，将文本信息机器学习模型识别文本信息中的隐私内容，把隐私内容进行模糊化处理后，通过文本转语音技术重新转换成语音；

所述训练机器学习模型的步骤如下：构建数据集，数据集划分为训练集、验证集和测试集，将包含隐私内容的文本标签标记为1，不含隐私内容的标签标记为0，通过训练集训练机器学习模型识别隐私内容的文本，并通过验证集和测试集验证机器学习模型的性能，当机器学习模型的性能达到要求时，停止训练。

优选的，当用户结束与人工智能语音陪练的交互时，自动弹出是否存储与上传陪练数据的交互框，用户自行选择是否保存陪练数据；

若用户选择保存陪练数据，用户端通过加密模型，将用户陪练数据进行加密后再进行本地保存；

若用户选择不保存陪练数据，用户端则将陪练数据进行删除。

优选的，所述加密模型包括，当用户选择保存陪练数据时，用户端生成密钥K，密钥k在用户端进行单独存储，通过密钥K对即将保存的陪练数据进行加密，得到加密数据Y，并将加密数据Y与密钥K进行分离存储。

优选的，所述人工智能语音陪练部署在服务器端，接收用户语音数据后将交流反馈的语音数据传达到用户端；

所述用户访问权限包括，用户在用户端创建用户名和登录密码，每当用户选择保存陪练数据时，根据用户密码，生成密钥K；

在用户登录后，对密钥k进行解密，再通过密钥K对存储的陪练数据进行解密后，实现对存储的陪练数据进行访问。

本发明的另一个目的是提供用于人工智能语音陪练的隐私保护方法的系统。

优选的，所述系统包括去标识化模块、隐私筛选模块、存储模块和加密模块；

所述去标识化模块，用于用户在与人工智能语音陪练交流时，对用户语音特征去标识化；

所述隐私筛选模块，用户构建隐私信息筛选器，对含有隐私内容的语音信息进行模糊化处理；

所述存储模块，用于用户在完成与人工智能语音陪练后，自行选择是否将陪练数据进行存储；

所属加密模块，用于构建加密模型，对选择存储的语音陪练数据进行加密，并构建对应的用户访问权限。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述的用于人工智能语音陪练的隐私保护方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述的用于人工智能语音陪练的隐私保护方法的步骤。

本发明的有益效果：本发明提供的隐私保护方法，解决了在与人工智能进行语音交流时会出现的语音特征泄露的问题，并且通过构建隐私内容过滤器，可以过滤在交流时不经意间说出的自身隐私问题；

在完成与人工智能的语音陪练时，可自行选择是否存储陪练数据，对选择存储的陪练数据进行本地保存和加密，杜绝了个人隐私泄露的风险。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明提供用于人工智能语音陪练的隐私保护方法的方法示意图；

图2为本发提供的用于人工智能语音陪练的隐私保护系统的系统结构图；

图3为本申请一个实施例提供的电子设备结构示意图；

图4为本申请一个实施例提供的计算机可读存储介质结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加浅显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的第一个实施例，提供了用于人工智能语音陪练的隐私保护方法。

S1:用户在与人工智能语音陪练交流时，对用户语音特征去标识化。

具体的，所述对用户语音去标识化包括，用梅尔频率倒谱系数提取用户语音特征、对用户语音特征注入扰动以及生成新语音特征的语音信息。

所述梅尔频率倒谱系数包括，语音信号预处理、分帧、傅里叶变换、梅尔滤波以及离散余弦变换。

所述语音信号预处理包括对语音信号进行降噪，去除语音信号中除人声的杂音。

所述分帧是将语音信号分成短时段的帧，并使用窗函数来加权每一帧，令原始语言信号为，第帧的信号为。

；

其中，N是语音信号的长度，是语音信号在时域的取样值，是傅里叶变换在频域的值，是虚数单位。

；

其中，f为频率，梅尔滤波的中心频率为：

；

其中，为傅里叶变换的点数，为梅尔频率，为采样率。

所述离散余弦变换是对取对数后的梅尔滤波器的输出进行离散余弦变换，得到梅尔频率倒谱系数。

令第i帧的梅尔频率倒谱系数为，m为系数的索引：

；

其中，M为离散余弦变换系数的个数，k为参数。

进一步的，所述对用户语音特征注入扰动包括，对每个梅尔滤波器的中心频率注入频率扰动，选择正态分布中的随机值作为注入的频率扰动数值。梅尔滤波器在注入扰动后，输出新的梅尔频率倒谱系数，将新的梅尔频率倒谱系数还原成语音信息，实现用户输入语音特征的去标识化。

S2:构建隐私信息筛选器，对含有隐私内容的语音信息进行模糊化处理。

具体的，所述隐私信息筛选器包括，训练机器学习模型，识别语音信息中的隐私内容，所述隐私内容包括敏感信息和身份信息。

利用自然语言处理技术，将用户输入的语音信息转换成文本信息，将文本信息机器学习模型识别文本信息中的隐私内容，把隐私内容进行模糊化处理后，通过文本转语音技术重新转换成语音。

所述训练机器学习模型的步骤如下：

构建数据集，数据集划分为训练集、验证集和测试集，训练集、验证集和测试集的比例为8：1：1。

将包含隐私内容的文本标签标记为1，不含隐私内容的标签标记为0，通过训练集训练机器学习模型识别隐私内容的文本，并通过验证集和测试集验证机器学习模型的性能，当机器学习模型的性能达到要求时，停止训练。

采用交叉损失熵函数验证机器学习模型训练的性能，当交叉损失熵函数收敛时，机器学习模型训练完成，

交叉损失熵函数计算式为：

；

其中，是标签，为0或1，是模型输出，表示机器学习模型测试出标签类别的概率。

所述机器学习模型为循环神经网络模型（RNN）。

S3:用户在完成与人工智能语音陪练后，自行选择是否将陪练数据进行存储。

具体的，当用户结束与人工智能语音陪练的交互时，自动弹出是否存储与上传陪练数据的交互框，用户自行选择是否保存陪练数据。

若用户选择保存陪练数据，用户端通过加密模型，将用户陪练数据进行加密后再进行本地保存。

S4:构建加密模型，对选择存储的语音陪练数据进行加密，并构建对应的用户访问权限。

具体的，所述加密模型包括，当用户选择保存陪练数据时，用户端生成密钥K，密钥k在用户端进行单独存储，通过密钥K对即将保存的陪练数据进行加密，得到加密数据Y，并将加密数据Y与密钥K进行分离存储。

所述人工智能语音陪练部署在服务器端，接收用户语音数据后将交流反馈的语音数据传达到用户端。

所述用户访问权限包括，用户在用户端创建用户名和登录密码，每当用户选择保存陪练数据时，根据用户密码，生成密钥K。

实施例2

参照图2，为本发明的第二个实施例，提供了用于人工智能语音陪练的隐私保护方法。

所述系统包括去标识化模块、隐私筛选模块、存储模块和加密模块。

所述去标识化模块，用于用户在与人工智能语音陪练交流时，对用户语音特征去标识化。

所述隐私筛选模块，用户构建隐私信息筛选器，对含有隐私内容的语音信息进行模糊化处理。

所述存储模块，用于用户在完成与人工智能语音陪练后，自行选择是否将陪练数据进行存储。

实施例3

图3是本申请一个实施例提供的电子设备结构示意图。如图3所示，根据本申请的又一方面还提供了一种电子设备500。该电子设备500可包括一个或多个处理器以及一个或多个存储器。其中，存储器中存储有计算机可读代码，计算机可读代码当由一个或多个处理器运行时，可以执行如上所述的多源异构数据驱动的智能制造决策方法。

根据本申请实施方式的方法或系统也可以借助于图3所示的电子设备的架构来实现。如图3所示，电子设备500可包括总线501、一个或多个CPU502、只读存储器(ROM)503、随机存取存储器(RAM)504、连接到网络的通信端口505、输入/输出组件506、硬盘507等。电子设备500中的存储设备，例如ROM503或硬盘507可存储本申请提供的多源异构数据驱动的智能制造决策方法。多源异构数据驱动的智能制造决策方法，包括：用户在与人工智能语音陪练交流时，对用户语音特征去标识化；构建隐私信息筛选器，对含有隐私内容的语音信息进行模糊化处理；用户在完成与人工智能语音陪练后，自行选择是否将陪练数据进行存储；构建加密模型，对选择存储的语音陪练数据进行加密，并构建对应的用户访问权限。

进一步地，电子设备500还可包括用户界面508。当然，图3所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图3示出的电子设备中的一个或多个组件。

实施例4

图4是本申请一个实施例提供的计算机可读存储介质结构示意图。如图4所示，是根据本申请一个实施方式的计算机可读存储介质600。计算机可读存储介质600上存储有计算机可读指令。当计算机可读指令由处理器运行时，可执行参照以上附图描述的根据本申请实施方式的多源异构数据驱动的智能制造决策方法。存储介质600包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可包括随机存取存储器(RAM)和高速缓冲存储器(cache)等。非易失性存储器例如可包括只读存储器(ROM)、硬盘、闪存等。

另外，根据本申请的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质存储有机器可读指令，所述机器可读指令能够由处理器运行以执行与本申请提供的方法步骤对应的指令，例如：用户在与人工智能语音陪练交流时，对用户语音特征去标识化；构建隐私信息筛选器，对含有隐私内容的语音信息进行模糊化处理；用户在完成与人工智能语音陪练后，自行选择是否将陪练数据进行存储；构建加密模型，对选择存储的语音陪练数据进行加密，并构建对应的用户访问权限。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

另外，本申请的实施方式中提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

如上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是，以上所述仅为本发明的具体实施方式，并不用于限制本发明。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等均应包含在本发明的保护范围之内。

Claims

1.用于人工智能语音陪练的隐私保护方法，其特征在于：包括，

2.如权利要求1所述的用于人工智能语音陪练的隐私保护方法，其特征在于：所述对用户语音去标识化包括，用梅尔频率倒谱系数提取用户语音特征、对用户语音特征注入扰动以及生成新语音特征的语音信息；

所述分帧是将语音信号分成短时段的帧，并使用窗函数来加权每一帧，令原始语言信号为，第/>帧的信号为/>；

所述傅里叶变换是对每一帧的帧行傅里叶变换，得到语音信号的频谱信息，令第/>帧的频谱为/>，傅里叶变换的具体公式为：

；

其中，N是语音信号的长度，是语音信号在时域的取样值，/>是傅里叶变换在频域的值，/>是虚数单位；

；

其中，f为频率，梅尔滤波的中心频率为：

；

其中，为傅里叶变换的点数，/>为梅尔频率，/>为采样率；

令第i帧的梅尔频率倒谱系数为，m为系数的索引：

；

其中，M为离散余弦变换系数的个数，k为参数；

3.如权利要求2所述的用于人工智能语音陪练的隐私保护方法，其特征在于：所述对用户语音特征注入扰动包括，对每个梅尔滤波器的中心频率注入频率扰动，选择正态分布中的随机值作为注入的频率扰动数值；

梅尔滤波器在注入扰动后，输出新的梅尔频率倒谱系数，将新的梅尔频率倒谱系数/>还原成语音信息，实现用户输入语音特征的去标识化。

4.如权利要求3所述的用于人工智能语音陪练的隐私保护方法，其特征在于：所述隐私信息筛选器包括，训练机器学习模型，识别语音信息中的隐私内容，所述隐私内容包括敏感信息和身份信息；

5.如权利要求4所述的用于人工智能语音陪练的隐私保护方法，其特征在于：当用户结束与人工智能语音陪练的交互时，自动弹出是否存储与上传陪练数据的交互框，用户自行选择是否保存陪练数据；

6.如权利要求5所述的用于人工智能语音陪练的隐私保护方法，其特征在于：所述加密模型包括，当用户选择保存陪练数据时，用户端生成密钥K，密钥k在用户端进行单独存储，通过密钥K对即将保存的陪练数据进行加密，得到加密数据Y，并将加密数据Y与密钥K进行分离存储。

7.如权利要求6所述的用于人工智能语音陪练的隐私保护方法，其特征在于：所述人工智能语音陪练部署在服务器端，接收用户语音数据后将交流反馈的语音数据传达到用户端；

8.一种采用如权利要求1-7任一所述的用于人工智能语音陪练的隐私保护方法的系统，其特征在于：所述系统包括去标识化模块、隐私筛选模块、存储模块和加密模块；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的用于人工智能语音陪练的隐私保护方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的用于人工智能语音陪练的隐私保护方法的步骤。