CN117854521A

CN117854521A - 声音信息保护方法及装置、存储介质、电子装置

Info

Publication number: CN117854521A
Application number: CN202311850543.8A
Authority: CN
Inventors: 司马华鹏; 姚奥; 汤毅平
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-09

Abstract

本申请实施例提供了一种声音信息保护系统及方法、存储介质、电子装置，所述方法包括：确定当前语音来电属于所述目标通话且获取执行声音转换的指令后，通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话；所述轻量化语音转换模型为使用包含所述目标说话人的语音的样本语音训练的模型，包括：后验编码器、先验编码器和解码器。解决了相关技术中如何避免用户声音特征的泄露的问题。

Description

声音信息保护方法及装置、存储介质、电子装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种声音信息保护方法及装置、存储介质、电子装置。

背景技术

目前，相关技术中的声音转换的主要方式是先通过自动语音识别(AutomaticSpeech Recognition，简称为ASR)技术对待转换的语音进行识别并提取巴科斯范式(Backus-Naur form，简称为BNF)特征，进一步通过从文本到语音(Text To Speech，简称为TTS)技术对基于上述识别内容与BNF特征进行语音合成处理进而得到目标语音。上述过程受限于ASR的识别准确度与效率，在实际处理过程中无论是声音转换的准确性亦或实时性均不理想。对此，相关技术进一步提出了端到端的声音转换方式，即不通过ASR进行语音识别而直接对待转换语音实现音色转换进而得到目标语音，但通常而言，端到端的声音转换所依赖的网络模型体积较大，在实际进行声音转换过程中实时性欠佳。

当前，上述声音转换技术被某些不法分子用于电信诈骗的情形时有发生。不法分子在对某一受害人实施电信诈骗行为时，会通过各类渠道获取与该受害人存在关联的相关人员的语音样本，例如，获取受害人的亲属与第三方进行电话沟通的电话录音。不法分子获取上述语音样本后，即利用声音转换技术，以该相关人员的声音与受害人进行沟通，进而达成其不法目的。对此，虽然政策法规对个人信息的泄露进行了一定的规定，但是，个人的声音特征相较于传统的个人信息更为抽象，泄露行为也更为隐蔽，故而难以解决有关人员与第三方进行语音通信过程中可能的声音特征泄露发生。

相关技术中，对上述基于声音转换的电信诈骗进行防范的技术多侧重于对电信诈骗过程中是否采用声音转换技术进行检测，而对于上述如何避免用户声音特征的泄露的问题则尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种声音信息保护方法及装置、存储介质、电子装置，以至少解决相关技术中如何避免用户声音特征的泄露的问题。

在本申请的一个实施例中，提供了一种声音信息保护方法，包括：确定当前语音来电是否属于需要进行声音转换的目标通话；其中，所述目标通话至少包括：被标注的骚扰电话、销售电话和客服电话，以及来电方未在当前终端的通讯录中进行记载的电话；确定当前语音来电属于所述目标通话且获取执行声音转换的指令后，通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话；其中，所述目标说话人为随机第三人或由所述当前用户进行指定，所述轻量化语音转换模型为使用包含所述目标说话人的语音的样本语音训练的模型，包括：后验编码器、先验编码器和解码器。

在一实施例中，在通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话之前，所述方法还包括：通过音频特征编码模块识别所述目标说话人语音样本的风格类别，并根据所述目标说话人语音样本的风格类别提取所述目标说话人语音样本的音频特征；其中，所述目标说话人语音样本的音频特征包含所述目标说话人语音样本的文本特征、韵律特征和音色特征；通过所述音频特征编码模块提取所述当前用户语音对应的音频特征，其中，所述当前用户语音对应的音频特征包含所述当前用户语音的文本特征、韵律特征和音色特征。

在一实施例中，所述通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话包括：通过所述后验编码器，将所述当前用户语音的音频特征与所述目标说话人语音样本的音频特征进行融合，得到联合编码特征，并根据所述目标说话人语音样本的音频特征提取第一隐式特征；通过所述先验编码器，根据所述目标说话人语音样本的后验概率图PPG特征，通过线性注意力机制从所述当前用户语音的音素中获取所述第一隐式特征的先验分布；其中，所述先验分布通过以所述PPG特征为约束条件求得的所述第一隐式特征对应的均值或方差进行表征；通过所述解码器根据所述先验编码器输出的先验分布，对所述联合编码特征进行标准流化操作后解码，并通过声码器输出转换后的语音；其中，所述解码器包括高频解码模块与低频解码模块，所述高频解码模块采用短时傅里叶逆变换的方式完成解码，所述低频解码模块采用声码器的方式完成解码。

在一实施例中，所述通过所述先验编码器，根据所述目标说话人语音样本的后验概率图PPG特征，通过线性注意力机制从所述当前用户语音的音素中获取所述第一隐式特征的先验分布，包括：预先训练独立于所述先验编码器的语音识别模型；其中，所述语音识别模型的训练样本数据不包含所述目标说话人的语音样本；通过训练后的所述语音识别模型提取所述目标说话人语音样本的PPG特征；通过独立于所述先验编码器设置的PPG特征预测单元，计算约束过程中的约束损失，并对提取的所述PPG特征进行补偿。

在一实施例中，通过所述先验编码器，根据所述目标说话人语音样本的后验概率图PPG特征，通过线性注意力机制从所述当前用户语音的音素中获取所述第一隐式特征的先验分布之后，所述方法还包括：通过所述先验编码器中的归一化层，将所述第一隐式特征的先验分布进行复杂化处理，并输出对应的频谱信息；其中，所述归一化层由多个耦合层构成，每一所述耦合层由多个残差块构成，多个所述耦合层之间共享参数。

在一实施例中，所述轻量化语音转换模型在训练过程中，包括以下步骤：获取所述目标说话人语音样本的音频特征及其对应的第二隐式特征；根据所述目标说话人语音样本的音频特征与所述第二隐式特征生成所述目标说话人语音样本的预估值；根据所述目标说话人语音样本的预估值与所述目标说话人语音样本的真实值训练第一损失函数；其中，所述第一损失函数用于指示所述目标说话人语音样本的预估值相对于真实值的损失；通过对齐预估单元将所述目标说话人语音样本的音频特征与所述第二隐式特征进行对齐处理以计算对齐矩阵，并根据对齐矩阵训练第二损失函数，所述第二损失函数用于指示所述目标说话人语音样本的音频特征与所述第二隐式特征之间的离散度；根据所述目标语音样本的预估值与所述真实值的差异确定鉴别结果，并根据所述鉴别结果训练第三损失函数；根据所述第一损失函数、所述第二损失函数和所述第三损失函数得到训练后的所述轻量化语音转换模型。

在一实施例中，在通过所述音频特征编码模块提取所述当前用户语音对应的音频特征之前，所述方法还包括：使用第一训练样本训练第一聚类模型，其中，所述第一训练样本包括多个说话人的语音样本，且多个说话人的语音样本对应不同的风格类型；所述第一聚类模型用于对所述第一训练样本进行聚类，并根据聚类结果确定所述第一训练样本对应的类别标签；使用第二训练样本训练第二聚类模型，其中，所述第二训练样本包括多个说话人的语音样本，且多个说话人的语音样本对应不同的风格类型；所述第二聚类模型用于对所述第二训练样本进行聚类，并根据聚类结果确定所述第二训练样本对应的类别标签；所述第一聚类模型和所述第二聚类模型采用不同结构的特征提取器，以从不同的维度进行聚类；将第三训练样本同时输入训练后的所述第一聚类模型、训练后的所述第二聚类模型以及初始音频特征编码模块，其中，所述第三训练样本包含多个说话人的语音样本；根据所述初始音频特征编码模块的损失函数训练所述初始音频特征编码模块，同时根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签，训练所述初始音频特征编码模块至收敛，得到所述音频特征编码模块，其中，所述音频特征编码模块用于根据语音的风格类型进行音频特征的提取。

根据本申请的另一个实施例，还提供了一种声音信息保护装置，包括：确定模块，配置为确定当前语音来电是否属于需要进行声音转换的目标通话；其中，所述目标通话至少包括：被标注的骚扰电话、销售电话和客服电话，以及来电方未在当前终端的通讯录中进行记载的电话；转换模块，配置为确定当前语音来电属于所述目标通话且获取执行声音转换的指令后，通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话；其中，所述目标说话人为随机第三人或由所述当前用户进行指定，所述轻量化语音转换模型为使用包含所述目标说话人的语音的样本语音训练的模型，包括：后验编码器、先验编码器和解码器。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例提供的声音信息保护方法，确定当前语音来电属于所述目标通话且获取执行声音转换的指令后，通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话；所述轻量化语音转换模型为使用包含所述目标说话人的语音的样本语音训练的模型，包括：后验编码器、先验编码器和解码器。解决了相关技术中如何避免用户声音特征的泄露的问题，通过音频特征编码模块识别目标语音样本的风格类别，不是从电信诈骗过程中是否采用声音转换技术进行检测，而是从根源上避免用户的声音泄露，防止诈骗分子获取相关用户的声音信息。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种声音信息保护方法的移动终端的硬件结构框图；

图2是根据本申请实施例的一种可选的声音信息保护方法流程图；

图3是根据本申请实施例的一种可选的音频特征编码模块的结构示意图；

图4是根据本申请实施例的一种可选的音频特征编码模块的训练过程示意图；

图5是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种声音信息保护的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的语音转换模型、聚类模型、音频特征编码模块、风格编码模块或音色转换模块的训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

图2是根据本申请实施例的一种可选的声音信息保护方法流程图，在本申请的一个实施例中，提供了一种声音信息保护方法，包括：

步骤S202，确定当前语音来电是否属于需要进行声音转换的目标通话；其中，所目标通话至少包括：被标注的骚扰电话、销售电话和客服电话，以及来电方未在当前终端的通讯录中进行记载的电话；

步骤S204，确定当前语音来电属于所述目标通话且获取执行声音转换的指令后，通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话；其中，目标说话人为随机第三人或由所述当前用户进行指定，轻量化语音转换模型为使用包含所述目标说话人的语音的样本语音训练的模型，包括：后验编码器、先验编码器和解码器。

需要说明的是，来电方未在当前终端的通讯录中进行记载的电话，也可以进行相应设置，例如，有一些用户为了保护家人，不在通讯录中备注家人的名字或称呼，系统可以设定通话超过3次或5次的电话号码，不必再进行确认，或者用户可以自己设定一些白名单号码，不必进行确认。

需要说明的是，本申请实施例中的轻量化语音转换模型主要由后验编码器、先验编码器和解码器三部分构成。

1)后验编码器：用于训练过程中从音频特征中提起相应的隐式特征。

2)先验编码器：用于根据语音后验概率图特征(Phonetic Posteriorgram，PPG)，从音素中获取隐式特征的先验分布。

具体而言，可以预先训练一语音识别模型，该模型在训练过程中不参与本申请实施例中目标说话人的样本进行训练，进而得到独立于目标说话人的语音识别模型，训练完成后的语音识别单元可基于音频特征的音素，提取相应的PPG特征。需要说明的是，这一语音识别单元独立于先验编码器设置。

通过上述语音识别模型提取PPG特征后，先验编码器基于PPG特征与隐式特征得到先验分布，此处的先验分布具体通过以PPG特征为约束条件求得的隐式特征对应的均值或方差进行表征。在计算过程中，先验编码器还可引入注意力机制，并通过采用线性注意力机制进行计算，进而达到降低计算复杂度的目的。

考虑到隐式特征通常缺乏明确的约束，进而令其在提取PPG特征或先验分布的确认过程中易于出现错误，进一步导致声音转换整体存在发音错误、声调异常等现象。在此基础上，增加一个PPG特征预测单元，用于计算约束过程中的约束损失。PPG特征预测单元的输入为其他训练样本提取的隐式特征，输出为基于该训练样本预测的PPG特征，通过将预测的PPG特征与真实的PPG特征进行比对，即可建立约束损失函数，基于该函数即可在先验编码器的工作过程中，针对隐式特征提取的PPG特征进行补偿。需要说明的是，这一PPG特征预测单元独立于先验编码器设置。

之后，先验编码器通过设置的归一化层，将隐式特征的先验分布进一步复杂化，并输出相应的频谱信息。

具体而言，该归一化层由多个耦合层构成，每一耦合层由多个残差块构成。多个耦合层之间共享参数，以此，可在进一步将潜在特征的先验分布复杂化的前提下，将流中的参数量控制为单层，进而进一步控制模型整体的参数量。

3)解码器：解码器分为高频解码部分与低频解码部分。其中，高频解码部分采用短时傅里叶逆变换的方式完成解码，该高频解码部分由多重卷积层构成，设前述先验编码器向解码器输入的频谱信息对应维数为N，则高频解码部分中多重卷积层的维度数则为2N*(M/2+1)，上述M指示上述短时傅里叶逆变换的绝对值，即其幅频特性。通过这一方式实现对输入维数的升维，可令其在解码过程中获取相应尺度上的更多信息。

上述解码器的低频部分则采用声码器的方式完成解码，该低频部分由上采样层与残差网络构成。

上述解码器中，低频与高频分别设置的方式是由于，通过短时傅里叶逆变换的方式完成解码在计算的复杂度上确实可以显著降低所需的计算资源，但是，其在低频部分对模型训练的要求较高，则会变相增加模型的体检与实时性，反之，在高频部分对模型训练的要求较低。考虑到本申请实施例的应用场景，通过上述高频部分采用短时傅里叶逆变换的方式，低频部分采用上采样层进行解码，以此即可显著改进模型所需的计算资源，又可兼顾模型的轻量化。

上述轻量化语音转换模型，显著降低了模型的参数与相应的计算复杂度，令模型实现了轻量化与实时性，以保证用户在通话过程中的体验。同时，上述模型通过PPG特征为约束条件这一方式，解决了模型简化带来的不稳定性，令其在保证实时性的基础上，亦可实现良好的声音转换效果。

需要说明的是，对一段音频而言，在处理过程中对部分特征是明确知晓其指示音频的音色、韵律，该部分特征则为前述音频特征，部分特征明确知晓其指示个人风格，则该部分特征为前述风格特征。但是，部分特征在训练前是不知晓其与指示对象相互关系的，仅能从模型训练的结果角度倒推其可能表征音色、韵律、个人风格等，这部分特征统一定义为此处的隐式特征。

需要说明的是，相关技术中对音频特征的提取过程的主要方式是通过诸如softhubert，hubert，wav2vec2.0等大规模自监督模型对音频特征进行提取，可以获取更加丰富的特征和知识，但是，从最终的声音变换结果角度分析，目标语音的音色并不能很好的体现目标说话人的音色特性，或目标说话人声音的个性化，目标说话人也可以是卡通人物。具体而言，上述音频特征的提取方式由于并未对目标说话人的音色特征并未针对性的处理，故如若目标说话人的音色较为极端，例如某些声音特别的歌手，则上述音频特征的提取方式在训练过程中会令该目标说话人的音色存在一定程度的“平均化”，即令目标说话人的音色与其他说话人的音色趋于类似，进而无法更完整的体现目标说话人的音色，对应的，最终的声音转换结果也无法达到理想的效果。因此，相关技术中直接通过大规模自监督模型进行音频特征提取的方式其风格转换的效果仍存在一定缺陷。

针对上述缺陷，本申请实施例基于预训练的聚类模型，在音频特征编码模块进行音频特征提取过程中进行聚类处理，通过对特征的聚类提升特征的质量和声音转换的效果，具体如下。

第一步，预先设置两个聚类模型，即上述第一聚类模型与第二聚类模型，上述两个聚类模型可采用k-means模型，但不限于此(K-means聚类、层次聚类(SPSS)、DBSCAN聚类(MATLAB)均可)。上述第一聚类模型与第二聚类模型均包括特征提取器，用于在聚类模型的训练过程中进行特征提取，第一聚类模型与第二聚类模型的特征提取器可以是上述softhubert，hubert，wav2vec2.0三类模型中的任意两个，例如，第一聚类模型的特征提取器采用hubert，第二聚类模型的特征提取器采用wav2vec2.0，第一聚类模型与第二聚类模型采用不同的特征提取器。

第二步，通过通用训练数据分别对上述第一聚类模型与第二聚类模型进行预训练，此处的通用训练数据可基于LibriSpeech-960和AISHELL-3数据，具体而言分别获取200说话人的语音样本数据，聚类簇数为200。通过上述通用训练数据完成第一聚类模型与第二聚类模型的训练，此处训练的目的在于令两个聚类模型可以针对不同说话人的语音样本进行分类处理，两个聚类模型分别采用不同的特征提取器，可分别令其从不同的维度进行聚类，不同的特征提取方式在音色、韵律、说话节奏等方面各有优势，因此，上述不同的特征提取的组合可令后续声音变换系统的训练与推理过程中的效果更丰富。

在聚类模型的训练过程中，需人为的对聚类的类别进行类别编码，例如第一聚类模型对语音样本数据进行聚类后得到不同的类别，可分别将其赋予ID1.1、ID1.2、……ID1.9，诸如此类，类似的，第二聚类模型对语音样本数据进行聚类后得到不同的类别，可分别将其赋予ID2.1、ID2.2、…ID2.9，诸如此类。此处，类别编码的目的在于令聚类模型进行聚类后的每一个类别都有唯一的标识用于进行区分，以便后续声音变换系统训练过程中进行类别的映射与编码。

需要说明的是，本申请实施例中涉及的聚类模型的训练是无监督的训练方式，即单纯依据样本的相似度对其进行聚类，而不依赖标签。第一训练样本本身是没有类别标签的，在对其进行聚类后，针对不同类型的样本集合再人为赋予类别标签。同时，同一类别标签对应的也不一定是同一说话人，而是风格类似的语音。例如第一训练样本包括100条语音，其均为不同说话人的样本，通过聚类模型，可将其分为10个样本集合，每一个样本集合分别对应某种风格类型，如沙哑男声，清亮女声等等，之后再对这10个样本集合人为的赋予对应的类别标签。

需要说明的是，前述第一聚类模型与第二聚类模型本身并不参与音频特征编码模块的构建，仅仅在音频特征编码模块的训练阶段为其提供类别编码；对于训练完成的音频特征编码模块，第一聚类模型与第二聚类模型同样不参与实际声音转换过程中的推理工作。对应的，上述聚类模型也不参与后续的推理部分。

图3是根据本申请实施例的一种可选的音频特征编码模块的结构示意图。需要说明的是，本申请实施例中的音频特征编码模块可以包括以下三个单元，如图3所示：

特征编码单元(backbone network)：以特征编码网络hubert网络结构为基础，用于对音频特征进行提取与编码。

类别映射单元(linear projection)：由一映射层构成，该类别映射单元用于类别编码的映射，即为特征编码单元所提取的音频特征映射对应的类别编码。

类别编码单元(speech units)：由一嵌入层构成，该类别编码模块用于在音频特征编码模块的训练过程中，对特征编码单元所提取的音频特征赋予前述聚类模型的类别编码。

训练过程中，先对于特征编码单元与类别映射单元进行初始化处理，即令hubert网络与映射层的部分参数随机初始化。初始化完成后，仍通过通用训练数据进行模型的训练，此处用于训练的通用模型数据可以与前述聚类模型的训练的样本相同，也可以不同，对此没有限制。

图4是根据本申请实施例的一种可选的音频特征编码模块的训练过程示意图，如图4所示，在一实施例中，所述根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签，训练所述初始音频特征编码模块至收敛，包括：

对所述初始音频特征编码模块的特征编码单元和类别映射单元进行初始化处理；

通过所述特征编码单元提取所述第三训练样本的音频特征并编码，并通过所述类别映射单元将所述特征编码单元提取的音频特征映射到对应的类别编码，得到所述第三训练样本对应的预测类别标签；

通过所述初始音频特征编码模块的类别编码单元输出所述预测类别标签，基于所述预测类别标签与所述第一聚类模型和所述第二聚类模型输出的真实类别标签，训练所述初始音频特征编码模块至收敛。

在一实施例中，所述基于所述预测类别标签与所述第一聚类模型和所述第二聚类模型输出的真实类别标签，训练所述初始音频特征编码模块至收敛，包括：

最小化所述第一聚类模型输出的真实类别标签与所述预测类别标签第一平均交叉熵，同时最小化所述第二聚类模型输出的真实类别标签与所述预测类别标签第二平均交叉熵，基于最小化后的所述第一平均交叉熵和最小化后的所述第二平均交叉熵，更新所述初始音频特征编码模块的损失函数，同时对所述初始音频编码模块的训练参数进行更新。

需要说明的是，在对音频特征编码模块的训练过程中，除正常对特征编码单元进行训练与参数更新外，本申请实施例中同时基于训练语音样本对应类别编码的预测类别编码与前述聚类模型所得的真实类别编码ID，对音频编码模块进行训练。具体而言，最小化hubert的k-means(第一聚类模型)真实类别编码和音频编码模块的预测类别编码的平均交叉熵，同时最小化wav2vec的k-means(第二聚类模型)真实类别编码和音频编码模块的预测类别编码的平均交叉熵，基于此更新上述loss，同时对音频编码模块的参数更新。通过上述训练方式，进一步令音频编码模块对音色类别的分类能力得以强化。

针对相关技术中直接通过大规模自监督模型进行音频特征提取的方式其风格转换的效果仍存在一定缺陷的问题，本申请的一个实施例基于预训练的聚类模型，在音频特征编码模块进行音频特征提取过程中进行聚类处理，通过对特征的聚类以在对一些目标说话人个性化较强的声音进行特征提取时，可显著改善对其个性化风格的提取效果，进而令后续声音转换的效果亦能得以提升。

由于前述实施例中采用对特征的聚类处理令对于目标说话人所提取的特征能够更好的表征目标说话人的声音个性化，在此基础上，为实现后续的声音转换过程中，进一步将上述特征所凸显的目标说话人的声音特性用于语音转换，本申请实施例进一步在后续的语音转换过程中，通过对音色转换部分的改进，使之能够更好的采用风格特征来提升音色转换效果。

需要说明的是，本申请实施例中，在音色转换过程中对风格特征所采用的方案是建立在前述对特征的聚类基础上，即通过聚类后的特征，方可进一步通过音色转换模块实现后续音色转换。

根据本申请实施例的又一个方面，还提供了一种用于实施上述声音信息保护方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图5所示，该电子装置包括存储器502和处理器504，该存储器502中存储有计算机程序，该处理器504被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，确定当前语音来电是否属于需要进行声音转换的目标通话；其中，所目标通话至少包括：被标注的骚扰电话、销售电话和客服电话，以及来电方未在当前终端的通讯录中进行记载的电话；

S2，确定当前语音来电属于所述目标通话且获取执行声音转换的指令后，通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话；其中，目标说话人为随机第三人或由所述当前用户进行指定，轻量化语音转换模型为使用包含所述目标说话人的语音的样本语音训练的模型，包括：后验编码器、先验编码器和解码器。

可选地，本领域普通技术人员可以理解，图5所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图5中所示更多或者更少的组件(如网络接口等)，或者具有与图5所示不同的配置。

其中，存储器502可用于存储软件程序以及模块，如本申请实施例中的声音信息保护方法和装置对应的程序指令/模块，处理器504通过运行存储在存储器502内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的声音信息保护方法。存储器502可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器502可进一步包括相对于处理器504远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器502具体可以但不限于用于储存声音信息保护方法的程序步骤。作为一种示例，如图5所示，上述存储器502中可以但不限于包括上述轻量化语音转换模型中的各种模块。此外，还可以包括但不限于上述语音识别神经网络模型中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置506包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器508，用于显示语音转换的输入输出信息；和连接总线510，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种声音信息保护方法，其特征在于，包括：

确定当前语音来电是否属于需要进行声音转换的目标通话；其中，所述目标通话至少包括：被标注的骚扰电话、销售电话和客服电话，以及来电方未在当前终端的通讯录中进行记载的电话；

确定当前语音来电属于所述目标通话且获取执行声音转换的指令后，通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话；其中，所述目标说话人为随机第三人或由所述当前用户进行指定，所述轻量化语音转换模型为使用包含所述目标说话人的语音的样本语音训练的模型，包括：后验编码器、先验编码器和解码器。

2.如权利要求1所述的基于轻量化语音转换模型的声音信息保护方法，其特征在于，在通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话之前，所述方法还包括：

通过音频特征编码模块识别所述目标说话人语音样本的风格类别，并根据所述目标说话人语音样本的风格类别提取所述目标说话人语音样本的音频特征；其中，所述目标说话人语音样本的音频特征包含所述目标说话人语音样本的文本特征、韵律特征和音色特征；

通过所述音频特征编码模块提取所述当前用户语音对应的音频特征，其中，所述当前用户语音对应的音频特征包含所述当前用户语音的文本特征、韵律特征和音色特征。

3.如权利要求2所述的基于轻量化语音转换模型的声音信息保护方法，其特征在于，所述通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话包括：

通过所述后验编码器，将所述当前用户语音的音频特征与所述目标说话人语音样本的音频特征进行融合，得到联合编码特征，并根据所述目标说话人语音样本的音频特征提取第一隐式特征；

通过所述先验编码器，根据所述目标说话人语音样本的后验概率图PPG特征，通过线性注意力机制从所述当前用户语音的音素中获取所述第一隐式特征的先验分布；其中，所述先验分布通过以所述PPG特征为约束条件求得的所述第一隐式特征对应的均值或方差进行表征；

通过所述解码器根据所述先验编码器输出的先验分布，对所述联合编码特征进行标准流化操作后解码，并通过声码器输出转换后的语音；其中，所述解码器包括高频解码模块与低频解码模块，所述高频解码模块采用短时傅里叶逆变换的方式完成解码，所述低频解码模块采用声码器的方式完成解码。

4.如权利要求3所述的基于轻量化语音转换模型的声音信息保护方法，其特征在于，所述通过所述先验编码器，根据所述目标说话人语音样本的后验概率图PPG特征，通过线性注意力机制从所述当前用户语音的音素中获取所述第一隐式特征的先验分布，包括：

预先训练独立于所述先验编码器的语音识别模型；其中，所述语音识别模型的训练样本数据不包含所述目标说话人的语音样本；

通过训练后的所述语音识别模型提取所述目标说话人语音样本的PPG特征；

通过独立于所述先验编码器设置的PPG特征预测单元，计算约束过程中的约束损失，并对提取的所述PPG特征进行补偿。

5.如权利要求3所述的基于轻量化语音转换模型的声音信息保护方法，其特征在于，通过所述先验编码器，根据所述目标说话人语音样本的后验概率图PPG特征，通过线性注意力机制从所述当前用户语音的音素中获取所述第一隐式特征的先验分布之后，所述方法还包括：

通过所述先验编码器中的归一化层，将所述第一隐式特征的先验分布进行复杂化处理，并输出对应的频谱信息；其中，所述归一化层由多个耦合层构成，每一所述耦合层由多个残差块构成，多个所述耦合层之间共享参数。

6.如权利要求3所述的基于轻量化语音转换模型的声音信息保护方法，其特征在于，所述轻量化语音转换模型在训练过程中，包括以下步骤：

获取所述目标说话人语音样本的音频特征及其对应的第二隐式特征；

根据所述目标说话人语音样本的音频特征与所述第二隐式特征生成所述目标说话人语音样本的预估值；

根据所述目标说话人语音样本的预估值与所述目标说话人语音样本的真实值训练第一损失函数；其中，所述第一损失函数用于指示所述目标说话人语音样本的预估值相对于真实值的损失；

通过对齐预估单元将所述目标说话人语音样本的音频特征与所述第二隐式特征进行对齐处理以计算对齐矩阵，并根据对齐矩阵训练第二损失函数，所述第二损失函数用于指示所述目标说话人语音样本的音频特征与所述第二隐式特征之间的离散度；

根据所述目标语音样本的预估值与所述真实值的差异确定鉴别结果，并根据所述鉴别结果训练第三损失函数；

根据所述第一损失函数、所述第二损失函数和所述第三损失函数得到训练后的所述轻量化语音转换模型。

7.如权利要求2所述的语音转换方法，其特征在于，在通过所述音频特征编码模块提取所述当前用户语音对应的音频特征之前，所述方法还包括：

使用第一训练样本训练第一聚类模型，其中，所述第一训练样本包括多个说话人的语音样本，且多个说话人的语音样本对应不同的风格类型；所述第一聚类模型用于对所述第一训练样本进行聚类，并根据聚类结果确定所述第一训练样本对应的类别标签；

使用第二训练样本训练第二聚类模型，其中，所述第二训练样本包括多个说话人的语音样本，且多个说话人的语音样本对应不同的风格类型；所述第二聚类模型用于对所述第二训练样本进行聚类，并根据聚类结果确定所述第二训练样本对应的类别标签；所述第一聚类模型和所述第二聚类模型采用不同结构的特征提取器，以从不同的维度进行聚类；

将第三训练样本同时输入训练后的所述第一聚类模型、训练后的所述第二聚类模型以及初始音频特征编码模块，其中，所述第三训练样本包含多个说话人的语音样本；

根据所述初始音频特征编码模块的损失函数训练所述初始音频特征编码模块，同时根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签，训练所述初始音频特征编码模块至收敛，得到所述音频特征编码模块，其中，所述音频特征编码模块用于根据语音的风格类型进行音频特征的提取。

8.一种声音信息保护装置，其特征在于，包括：

确定模块，配置为确定当前语音来电是否属于需要进行声音转换的目标通话；其中，所述目标通话至少包括：被标注的骚扰电话、销售电话和客服电话，以及来电方未在当前终端的通讯录中进行记载的电话；

转换模块，配置为确定当前语音来电属于所述目标通话且获取执行声音转换的指令后，通过轻量化语音转换模型将当前用户的声音转换为目标说话人声音后与当前来电方进行通话；其中，所述目标说话人为随机第三人或由所述当前用户进行指定，所述轻量化语音转换模型为使用包含所述目标说话人的语音的样本语音训练的模型，包括：后验编码器、先验编码器和解码器。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项中所述的方法。