CN115294970B

CN115294970B - 针对病理嗓音的语音转换方法、装置和存储介质

Info

Publication number: CN115294970B
Application number: CN202211226889.6A
Authority: CN
Inventors: 吴迪; 楚明航; 杨梦涛; 马瑶瑶; 王靖; 徐超; 范智玮; 张晓俊; 陶智
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-03-24
Anticipated expiration: 2042-10-09
Also published as: CN115294970A

Abstract

本申请公开了一种针对病理嗓音的语音转换方法、装置和存储介质，涉及声音处理技术领域，所述方法包括：获取训练样本；对于每个样本病理嗓音，获取所述样本病理嗓音的样本梅尔谱图；根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频；获取风格向量；将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器，通过所述生成器输出转换后的各个样本梅尔谱图；根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪；根据所述判别器的各个判别结果训练所述生成器和所述判别器，训练后的所述生成器用于对目标病理嗓音进行嗓音转换。解决了现有技术中病理嗓音的语音质量较差，无法被理解的问题。

Description

针对病理嗓音的语音转换方法、装置和存储介质

技术领域

本发明涉及一种针对病理嗓音的语音转换方法、装置和存储介质，属于声音处理技术领域。

背景技术

作为语言的载体，语音是现实生活中传递信息的重要信号。包括语音相关专业人士、老年人、吸烟者、呼吸系统疾病患者、鼻部疾病患者、咽喉疾病患者等在内的部分人群存在不同程度的语音困难。通常情况下，患者发出的病理嗓音难以被普通人理解。

现有技术中，一些病理性声音患者可以通过手术改善其语音质量，然后手术可能会给患者造成一定的伤害。例如，在喉切除术的情况下，该过程不仅改变了患者的生活方式，而且还导致声带的切除和语言能力的丧失。

发明内容

本发明的目的在于提供一种针对病理嗓音的语音转换方法、装置和存储介质，用于解决现有技术中存在的问题。

为达到上述目的，本发明提供如下技术方案：

根据第一方面，本发明实施例提供了一种针对病理嗓音的语音转换方法，所述方法包括：

获取训练样本，所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音；

对于每个样本病理嗓音，获取所述样本病理嗓音的样本梅尔谱图；

根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频；

获取风格向量；

将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器，通过所述生成器输出转换后的各个样本梅尔谱图；

根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪；

根据所述判别器的各个判别结果训练所述生成器和所述判别器，训练后的所述生成器用于对目标病理嗓音进行嗓音转换。

可选地，所述根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频，包括：

对于每个样本梅尔谱图，将所述样本梅尔谱图输入至F0提取网络，通过所述F0提取网络提取所述样本病理嗓音的样本基频。

可选地，所述获取风格向量，包括：

获取随机采样的高斯分布向量；

将所述高斯分布向量输入至映射网络，通过所述映射网络生成所述风格向量。

可选地，所述获取风格向量，包括：

获取参考梅尔谱图；

将所述参考梅尔谱图输入至说话人编码器，通过所述说话人编码器生成所述风格向量。

可选地，所述根据所述判别器的各个判别结果训练所述生成器，包括：

获取第一损失因子，所述第一损失因子包括：对抗损失因子、对抗源损失因子、风格重构损失因子、风格多样化损失因子、F0一致性损失因子、语音一致性损失因子、范数一致性损失因子和循环一致性损失因子中的至少一种；

根据所述第一损失因子和所述各个判别结果训练所述生成器。

可选地，所述根据所述判别器的各个判别结果训练所述判别器，包括：

获取第二损失因子，所述第二损失因子包括对抗损失因子和源分类器损失因子；

根据所述第二损失因子和所述各个判别结果训练所述判别器。

可选地，所述获取所述样本病理嗓音的样本梅尔谱图，包括：

将所述样本病理嗓音先做STFT变换生成功率谱特征，然后输入至梅尔滤波器组，通过所述梅尔滤波器组获取所述样本梅尔谱图。

第二方面，提供了一种针对病理嗓音的语音转换方法，所述方法包括：

获取目标病理嗓音的梅尔谱图；

根据所述梅尔谱图获取所述目标病理嗓音的基频；

获取风格向量；

将所述梅尔谱图、所述基频以及所述风格向量输入至训练后的生成器，通过所述生成器输出转换后的梅尔谱图，所述生成器通过第一方面所述的方法训练得到；

将转换后的梅尔谱图输入到所述声码器，通过所述声码器输出转换后所述目标病理嗓音的语音波形，进而得到转换后的目标嗓音。

第三方面，提供了一种针对病理嗓音的语音转换装置，所述装置包括存储器和处理器，所述存储器中存储有至少一条程序指令，所述处理器通过加载并执行所述至少一条程序指令以实现如第一方面或者第二方面所述的方法。

第四方面，提供了一种计算机存储介质，所述计算机存储介质中存储有至少一条程序指令，所述至少一条程序指令被处理器加载并执行以实现如第一方面或者第二方面所述的方法。

通过获取训练样本，所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音；对于每个样本病理嗓音，获取所述样本病理嗓音的样本梅尔谱图；根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频；获取风格向量；将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器，通过所述生成器输出转换后的各个样本梅尔谱图；根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪；根据所述判别器的各个判别结果训练所述生成器和所述判别器，训练后的所述生成器用于对目标病理嗓音进行嗓音转换。解决了现有技术中病理嗓音的语音质量较差，无法被理解的问题，达到了可以通过训练对抗网络进而通过生成器将病理嗓音转换为正常嗓音，提高病理嗓音的可懂度和清晰度的效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明一个实施例提供的针对病理嗓音的语音转换方法的方法流程图；

图2为本发明一个实施例提供的针对病理嗓音的语音转换方法的原理框图；

图3为本发明一个实施例提供的映射网络的结构示意图；

图4为本发明一个实施例提供的说话人编码器的网络结构示意图；

图5为本发明一个实施例提供的生成器的网络结构示意图；

图6为本发明一个实施例提供的判别器的网络结构示意图；

图7为本发明一个实施例提供的针对病理嗓音的语音转换方法的方法流程图；

图8为本发明一个实施例提供的转换方法与现有两种转换方法转换后的频谱示意图；

图9为本发明一个实施例提供的转换方法与现有两种转换方法转换后的语音清晰度评价结果的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

请参考图1，其示出了本申请一个实施例提供的针对病理嗓音的语音转换方法的方法流程图，如图1所示，所述方法包括：

步骤101，获取训练样本，所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音；

步骤102，对于每个样本病理嗓音，获取所述样本病理嗓音的样本梅尔谱图；

请参考图2，其示出了本申请所涉及的实施原理的原理框图，如图2所示，可以通过预处理模块P对各个样本病理嗓音进行处理。并且，可选的，预处理模块P可以为梅尔滤波器组。也即本步骤包括：

梅尔频率与实际频率的关系如下：

。

其中，f表示语音波形的原始频率。预处理模块P将输入语音波形xs转换为Xp-mel，Xp-mel定义为输入语音波形的梅尔谱图。

可选地，将 VCTK 和 SVD 病态语音样本中选择的 20 个说话人的样本分成帧大小为 1200 的帧。对于每一帧，执行离散时间傅里叶变换 (DTFT)，总共有 2048 个点。之后，使用一个 80 通道的梅尔滤波器组从上述所有样本中提取特征，然后将频率尺度映射到梅尔尺度。通过上述预处理得到每个样本的梅尔频率倒谱系数（MFCC）。每个帧的特征被组合为转换网络的输入数据。

步骤103，根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频；

F0提取网络为预先训练并存储的网络。

比如，F0提取网络提取得到的基频为hf0。

步骤104，获取风格向量；

可选的，本步骤可以包括如下两种可能的实现方式：

在第一种可能的实现方式中，本步骤包括：

第一，获取随机采样的高斯分布向量；

第二，将所述高斯分布向量输入至映射网络，通过所述映射网络生成所述风格向量。

映射网络用于生成引导生成器生成正常语音的风格向量。映射网络由内部的全连接层组成，是一个全连接网络，并且映射网络有多个分支输出，分支的数量取决于域的数量，即说话人的数量。映射网络结构如图3所示。其中，全连接层作为映射网络的输入层，ReLU函数作为映射网络的激活函数。

映射网络 M 在域y中生成带有高斯分布向量

的样式向量/>

：

。

其中M(·)表示映射网络的输出。高斯分布向量z是从高斯分布中采样的，以在所有域中提供不同的样式表示。所有领域的模型权重参数在映射网络的前四层共享，后四层用于生成特定领域的样式向量。

在第二种可能的实施例中，本步骤包括：

第一，获取参考梅尔谱图；

第二，将所述参考梅尔谱图输入至说话人编码器，通过所述说话人编码器生成所述风格向量。

与映射网络一样，说话人编码器也用于生成样式向量。与映射网络类似，说话者编码器首先处理跨所有域的共享层的输入。与映射网络不同，四个残差块用作说话人编码器的共享层。然后，通过特定领域的全连接层生成不同说话人领域的风格向量。说话人编码器的网络结构如图4所示。

在训练阶段，说话人编码器不仅生成风格向量，还引导生成器在同一域中生成更多样化的特征。因此，该网络可以实现任意对多的病理嗓音转换。给定参考梅尔谱图

，说话人编码器 S 提取域 y_trg 中的样式代码/>

：

。

其中， S(·) 表示扬声器编码器的输出。

步骤105，将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器，通过所述生成器输出转换后的各个样本梅尔谱图；

生成器是用于生成正常语音。如图2所示，生成器包括编码器和解码器。并且，如图2所示，在编码器中，使用卷积层作为输入层，残差块作为网络的主要部分。残差块由归一化层、激活层、卷积层和池化层组成。残差块先首尾连接，然后再依次连接。在编码器中采用实例归一化作为归一化层，由于语音转换任务中关注每个样本的细节，因此对于激活层，为了保存小于0的数据，leakrelu函数比relu更适合这个任务。

残差块也用于解码器中作为网络的主要部分。与编码器不同的是，自适应实例归一化函数被用作解码器的归一化层。最后一个残差块的输出输入到实例归一化层、激活层和卷积层，转换后的频谱图通过卷积层输出。生成器的网络结构如图5所示。

结合图5，生成器 G 将作为 P 的输出的输入梅尔谱图X 转换为反映s 中的风格（由说话人编码器或映射网络提供）和

中的基频（由F0提取网络F的卷积层提供）的/>

：

。

其中， E(·) 表示生成器的编码器的输出，D(·) 表示生成器的解码器的输出。

步骤106，根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪；

判别器可以判断生成器生成的语音是否为真实语音。卷积层用作判别器的输入层，残差块用作其隐藏层。与映射网络和说话人编码器类似，鉴别器也有多个输出分支。但是，如果特定领域的分类器仅包含一个卷积层，则无法捕捉特定领域特征的重要方面，例如说话者的发音。为了解决这个问题，本申请采用了一个额外的分类器 C，其架构与 D 相同，用于学习转换样本的原始域。判别器的结构如图 6所示。

对于一个梅尔谱图X，判别器 D 计算语音在域 y 中为真实的概率 p：

；

其中，D(·) 表示判别器的输出。

步骤107，根据所述判别器的各个判别结果训练所述生成器和所述判别器，训练后的所述生成器用于对目标病理嗓音进行嗓音转换。

可选的，训练生成器的步骤包括：

第一，获取第一损失因子，所述第一损失因子包括：对抗损失因子、对抗源损失因子、风格重构损失因子、风格多样化损失因子、F0一致性损失因子、语音一致性损失因子、范数一致性损失因子和循环一致性损失因子中的至少一种；

对抗损失用于优化生成器以生成更逼真的语音。生成器接收输入的梅尔谱图 X和样式向量 s，并通过对抗性损失学习生成新的梅尔谱图

：

；

其中，

表示域/>

的真/伪分类器的输出。

对抗性源损失用于计算生成器生成的语音被分类器分类到目标域的概率。由于分类器包含在判别器中，因此本申请在网络架构中没有单独分离分类器。本申请在源分类器C 中使用了一个额外的对抗性损失函数：

其中，

表示交叉熵损失函数。

为了确保生成器生成的语音的风格编码与目标语音的风格编码一致，我们使用了风格重构损失：

其中，

表示域/>

的说话人编码器的输出，/>

表示/>

范数。

风格多样化损失，针对同一个域的不同样本强制生成器生成不同的风格编码，使生成器生成更多样化的样本，从而实现零样本转换。除了最大化生成样本之间的平均绝对误差 (MAE) 之外，本申请还最大化使用不同样式代码生成的样本之间的 F0 特征的 MAE。损失函数如下：

其中

是来自域/>

的两个随机采样的样式代码，/>

是 F0 提取网络 F的卷积层的输出。

F0 一致损失被添加到 F0 网络 F 提供的归一化 F0 曲线中，以产生 F0 一致结果。对于输入 F 的梅尔谱图 X，F(X) 为 X 的每一帧提供以赫兹为单位的绝对 F0 值。由于男性和女性说话者的平均 F0 不同，本申请将F(X) 的绝对值归一化为其时间平均值，记为

。F0一致性损失如下：

为保证转换后的正常语音与源病理嗓音内容一致，采用自动语音识别技术辅助训练生成器，保证语音内容的一致性。本申请使用来自 Espnet Toolkit 1 中给出的预训练联合CTC-attention VGG-BLSTM 网络的卷积特征的语音一致性损失。语音一致性损失如下：

其中，

表示LSTM层之前的中间层的输出。

范数一致性损失用于保留生成样本的语音/静音间隔。我们对第 t 帧有 N维和 T帧的梅尔谱图 X 使用绝对列和范数，定义为

, 其中 t ∈ {1, . . . ,T } 是帧索引。范数一致性损失由下式给出：

。

使用循环一致性损失来保留输入语音的所有其他特征。将生成器生成的语音输入到生成器中，将目标域

设置为源域/>

，计算生成器重构的源语音与源语音之间的损失。循环一致性损失如下：/>

其中

定义为/>

，即源域/>

中输入的估计样式代码。

第二，根据所述第一损失因子和所述各个判别结果训练所述生成器。

可选地，在第一损失因子包括多个时，根据各个损失因子以及每个损失因子对应的权重确定生成器的总损失函数，进而根据确定的损失函数和各个判别结果训练生成器。

在一种可能的实现方式中，生成器的损失函数为：

其中，

为每个损失因子提供的超参数。可选地，/>

。在整个训练过程中，我们使用了固定学习率为 0.0001 的 AdamW 优化器。

可选的，训练判别器的步骤包括：

第一，获取第二损失因子，所述第二损失因子包括对抗损失因子和源分类器损失因子；

对抗损失因子与上述生成器中的对抗损失因子类似，在此不再赘述。

第二，根据所述第二损失因子和所述各个判别结果训练所述判别器。

在第二损失因子包括多个时，可以根据各个第二损失因子计算判别器的总损失函数，损失函数为：

。

其中，

是源分类器损失/>

的超参数，由下式给出：

综上所述，通过获取训练样本，所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音；对于每个样本病理嗓音，获取所述样本病理嗓音的样本梅尔谱图；根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频；获取风格向量；将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器，通过所述生成器输出转换后的各个样本梅尔谱图；根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪；根据所述判别器的各个判别结果训练所述生成器和所述判别器，训练后的所述生成器用于对目标病理嗓音进行嗓音转换。解决了现有技术中病理嗓音的语音质量较差，无法被理解的问题，达到了可以通过训练对抗网络进而通过生成器将病理嗓音转换为正常嗓音，提高病理嗓音的可懂度和清晰度的效果。

请参考图7，其示出了本申请一个实施例提供的针对病理嗓音的语音转换方法的方法流程图，如图7所示，所述方法包括：

步骤701，获取目标病理嗓音的梅尔谱图；

步骤702，根据所述梅尔谱图获取所述目标病理嗓音的基频；

步骤703，获取风格向量；

步骤704，将所述梅尔谱图、所述基频以及所述风格向量输入至训练后的生成器，通过所述生成器输出转换后的梅尔谱图；

所述生成器通过上述实施例所述的方法训练得到。

步骤701至步骤704与上述实施例中的步骤102至步骤105类似，不同的是，处理的对象不同，上述实施例处理的是样本病理嗓音，而本步骤处理的是目标病理嗓音，对此并不做限定。

步骤705，将转换后的梅尔谱图输入到所述声码器，通过所述声码器输出转换后所述目标病理嗓音的语音波形，进而得到转换后的目标嗓音。

与上述实施例不同的是，在本实施例中，在生成器输出转换后的梅尔谱图时，并不输入至判别器进行判别，而是输入至声码器，通过声码器将转换后的梅尔谱图转换至目标嗓音。

在本申请中，通过主观评价和客观评价来评估上述方法转换得到的目标嗓音的性能。

其中，对于主观评价，从 SVD 数据集中的所有样本中随机选择 50 个话语作为源语音，并从 VCTK 数据集中的所有说话者中随机选择 1 个男性和 1 个女性作为目标说话者。所以得到了 100 对语音进行测试。要求 30 名受试者以 1 到 5 的等级对每个语音样本的自然度进行评分，其中 1 表示完全失真且不自然，5 表示没有失真且完全自然。此外，我们要求被试以 1 到 5 的等级判断每对音频的内容是否相同且可理解，其中 1 表示内容完全不同/完全无法理解，5 表示内容完全相同/完全可理解。受试者不会被告知音频样本是真实的还是转换的。我们在评估集中添加了 10 个高度失真和难以理解的音频部分作为注意力检查，以验证受试者没有偶然完成调查。如果这些样本中的三个以上被评为 2 或更高，则将受试者从分析中删除。

对于客观评价，我们采用频谱图分析和字错误率 (WER) 作为转换后语音的频域和可懂度的评估指标。一方面，频谱图是由语音短时傅里叶变换（STFT）的幅度创建的二维图形，其中横轴是时间，纵轴是频率，每个网格的颜色深度反映幅度。在本实验中，我们使用窄带频谱图来研究语音的基频和共振峰。另一方面，我们使用上述 ASR 模型计算语音的WER。我们通过 ASR 网络获取 SVD 数据集中所有语音样本的识别结果和转换后的语音识别结果，然后使用以下公式计算 WER：

其中S表示替换词数，D表示删除词数，I表示插入词数，N表示总词数。

此外，为了更好的对比，本申请通过如下几个维度进行对比：

（1）、频谱分析。

将重度病理嗓音和轻度病理嗓音通过三种方法转换后语音的频谱图如图8所示。转换后的语音频谱图的源语音是同一个病理嗓音样本，本申请使用原始病态语音作为参考。我们发现 ASR-TTS 和 VAE 方法无法保持轻度和重度病态声音的语音长度一致。但是，本申请方法（P2N-VC）可以保持语音长度一致，即保持源说话人的韵律。这样，转换后的语音只改变了源说话人声音的病理特征，同时保留了源说话人声音的韵律特征。此外，本申请和VAE 方法可以在原始频谱图的基础上增加表示语音内容的频率能量，但从图 8 可以看出，我们提出的方法表现更好。然而，使用 ASR-TTS 方法转换的语音可以产生比本申请和 VAE更自然的语音，因为合成语音的自然度受到神经声码器的影响。自然度的详细分析将在以下各节中介绍。我们发现，无论源病理嗓音是轻度还是重度，ASR-TTS方法转换后的语音频谱图都非常相似，因此无法生成个性化语音。结果表明，本申请方法成功地提高了重度和轻度病态声音的语音质量，并且在重度病态声音中明显优于其他两种方法。其中，图8中a为源语音是轻度病理嗓音，b为源语音是重度病理嗓音。

（2）、语音清晰度的定量评价。

WER用于评估转换后语音的可懂度，WER越小，语音的可懂度越高。首先，针对不同类型的病理嗓音，我们比较了三种方法生成语音的可懂度。语音清晰度评价结果如图 9 所示，对比了 20 种转换后的病态语音的清晰度。其中 P2N-VC（本申请方法）、ASR-TTS 和VAE 用三种不同的颜色表示。我们发现，虽然 VAE 方法可以提高语音质量，但在语音可懂度方面却不尽如人意。 ASR-TTS 方法在轻度病态声音方面的表现与 P2N-VC 方法相似。表1比较了SVD数据集中所有转换语音的平均WER。粗体字表示与其他方法的结果相比最好的结果。结果表明，P2N-VC 方法在提高各种病理嗓音的清晰度方面优于其他方法。

表1

Method	Ground Truth	VAE	ASR-TTS	P2N-VC
					WER（%）	7.09	78.26	36.79	17.05

除了上述客观评价外，我们还对转换后的语音清晰度进行了主观评价。主观评价的实验结果如表 2 所示。使用我们提出的方法 P2N-VC 转换后的语音在 WER 方面不如病理嗓音，但在平均意见分数（MOS）方面优于病理嗓音。这是因为自动语音识别（ASR）网络都是使用真实语音数据集训练的，网络合成的语音识别率不如真实语音。此外，轻度病态声音在 SVD 数据集中占有很大比例，在计算评估指标的均值中起主导作用。因此，仅使用 WER来评估病态语音和转换语音的可懂度是片面的，我们从主客观两个指标来评估病态语音和转换语音的可懂度。从表 2 可以看出，我们提出的方法 P2N-VC 与VAE方法、病理嗓音和ASR-TTS 方法相比分别提高了 91.40%、18.67% 和 4.09%。

表2

	Pathological	VAE	ASR-TTS	P2N-VC
					Naturalness	3.46	2.98	3.54	3.20
Intelligibility	3.00	1.86	3.42	3.56
					Content Similarity	3.84	1.92	3.38	3.94

（3）、语音自然度的定量评价。

每个受试者一共听了 200 个音频样本：50(speaker pairs) × 4(pathological, P2N-VC, ASR-TTS, VAE)。给定一对说话人，以随机顺序播放 4 个音频样本：病理嗓音、转换语音（P2N-VC）、转换语音（ASR-TTS）、转换语音（VAE）。对于每个音频样本，受试者将他或她听到的 MOS（自然度）输入计算机。评估结果如表2所示。很明显，ASR-TTS方法转换的语音在自然度方面优于其他方法转换的语音，甚至优于真实的病态语音。因为受试者无法将言语的病理性和自然性完全分开，疾病程度影响受试者对自然性的判断。结果表明，这三种方法转换后的语音的MOS（自然度）在2.98到3.54之间。 VAE 方法并没有提高病态语音的自然度，因为 VAE 方法没有完全解开说话人特征和内容特征。 ASR-TTS方法将语音的MOS（自然度）提高了0.08，比病态语音提高了2.31%。相比之下，P2N-VC方法转换的语音的自然度得分不如病态语音，因为合成语音的自然度主要受声码器性能的影响。后续我们考虑优化神经声码器，以合成自然度更高的语音。

（4）、内容相似度的定量评价。

语音的内容相似度用于评估转换后的语音是否能保留源语音的内容。在这里，我们采用健康说话者的语音内容作为参考内容，对病理嗓音和通过 VAE 方法、ASR-TTS 方法和 P2N-VC 转换的语音进行评分。与自然度分数一样，每个受试者总共听了 200 个音频样本：50（说话者对）×4（病理、ASR-TTS、VAE、P2N-VC）。并且我们随机打乱了200个音频样本，防止被试提前知道音频的来源，影响判断。受试者以 1-5 的等级对每个样本进行评分，分数越高表示内容越相似。结果如表 2 所示。粗体字表示与其他方法的结果相比的最佳结果。我们发现病理语音内容比VAE方法和ASR-TTS方法转换的语音内容更接近参考内容。因此，虽然 ASR-TTS 方法在语音自然度方面优于 P2N-VC 方法，但我们的主要目的是提高病态声音的可懂度，其中 ASR-TTS 方法没有效果。即ASR-TTS方法转换后的语音更接近真实语音，但其内容与参考内容相差较大。

我们提出的方法 P2N-VC 转换的语音内容相似度比病态语音高 2.60%，分别比VAE 方法和 ASR-TTS 方法高 105.21% 和 16.57%。

综上本申请提出的 P2N-VC 方法转换后的语音与病态语音相比，语音清晰度提高了约 18.67%；转换后的语音内容与参考内容的相似度比病态语音内容增加了2.60%；“优秀”相对于真实的声音，转换后的语音质量接近“好”的MOS水平。在客观评价方面，我们提出的方法 P2N-VC 与 VAE 方法和 ASR-TTS 方法相比分别提高了 78.21% 和 53.66%。

综上所述，通过获取目标病理嗓音的梅尔谱图；根据所述梅尔谱图获取所述目标病理嗓音的基频；获取风格向量；将所述梅尔谱图、所述基频以及所述风格向量输入至训练后的生成器，通过所述生成器输出转换后的梅尔谱图，所述生成器通过上述方法训练得到；根据转换后的梅尔谱图生成转换后的目标嗓音。解决了现有技术中病理嗓音的语音质量较差，无法被理解的问题，达到了可以通过训练对抗网络进而通过生成器将病理嗓音转换为正常嗓音，提高病理嗓音的可懂度和清晰度的效果。本申请还提供了一种针对病理嗓音的语音转换装置，所述装置包括存储器和处理器，所述存储器中存储有至少一条程序指令，所述处理器通过加载并执行所述至少一条程序指令以实现如上所述的方法。

本申请还提供了一种计算机存储介质，所述计算机存储介质中存储有至少一条程序指令，所述至少一条程序指令被处理器加载并执行以实现如上所述的方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。