CN112634918B

CN112634918B - 一种基于声学后验概率的任意说话人语音转换系统及方法

Info

Publication number: CN112634918B
Application number: CN202011057900.1A
Authority: CN
Inventors: 宋丹丹; 欧阳鹏
Original assignee: Jiangsu Qingwei Intelligent Technology Co ltd
Current assignee: Jiangsu Qingwei Intelligent Technology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-04-16
Anticipated expiration: 2040-09-29
Also published as: CN112634918A

Abstract

本发明公开一种基于声学后验概率的任意说话人语音转换系统及方法，属于基于深度学习的语音转换的技术技术领域。包括：一个语音识别模型、一个多说话人数据集、一个语音转换模型、一个目标说话人数据集和一个LPCNet声码器；预训练一个语音转换模型，自适应训练所述语音转换模型，通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。本发明解决了现有技术中语音转换只能完成特定说话人之间且质量较低的问题。

Description

一种基于声学后验概率的任意说话人语音转换系统及方法

技术领域

本发明属于基于深度学习的语音转换的技术领域，尤其涉及一种基于声学后验概率的任意说话人语音转换系统及方法。

背景技术

语音转换主要是基于平行数据实现的，平行数据即是两个不同说话人录制的，但语句文本内容完全一致的数据集，在此基础上，通过高斯混合模型以及动态规划算法等方式实现不同说话人之间声学特征的时间长度对齐。实际生活中，这样大数量的平行数据获取难度很大，而且成本高昂，不适用语音转换技术的推广应用。

现有的深度学习技术可以通过非平行数据完成语音转换模型的训练，比如基于生成对抗网络的方法，然而由于实现原理的局限性，只能完成特定说话人之间的语音转换。还有基于变分自动编码器的方法，这种方法由于解码过程中解码器的过度平滑，转换的语音质量通常有比较明显的损失。

发明内容

本发明的目的是提供一种基于声学后验概率的任意说话人语音转换系统及方法，以解决现有技术中语音转换只能完成特定说话人之间且质量较低的问题。

为了实现上述目的，本发明提供如下技术方案：

一种基于声学后验概率的任意说话人语音转换方法，预设一个维度为说话人个数*预设向量维度的二维查找表参数空间，说话人编码0/1/2从查找表中直接取出指定行的参数为说话人向量，语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点，包括：

S101，配置一个语音识别模型，语音识别模型包括六层时延神经网络。时延神经网络是一种多层神经网络，时延神经网络能够用于区分平移不变性。

S102，配置一个多说话人数据集。多说话人数据集能够通过语音识别模型提取多说话人数据集中每句话对应的声学后验概率。

S103，对多说话人数据集中每个说话人独热编码，并查表进行说话人向量的标记得到一个查表编码。

S104，预训练一个语音转换模型，其配置为能够接收声学后验概率和查表编码。语音转换模型能够根据接收到的声学后验概率和查表编码预训练。语音转换模型的深度神经网结构层前后添加说话人编码层，将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼接，使得语音转换模型能够更好的区分不同的说话人。

S105，配置一个目标说话人数据集。

S106，自适应训练语音转换模型，语音转换模型能够根据目标说话人数据集少量数据自适应参数更新。通过损失函数数值监控更新过程，损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练。

S107，在预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码，在自适应训练阶段对独热码对应的说话人向量进行更新，使其向目标说话人进行迁移。

S108，通过任意原始说话人语句中提取声学后验概率，辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换。

S109，通过LPCNet声码器完成声学特征到目标说话人对应转换语音的合成。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步地，每层时延神经网络有1024个节点，输出层是带有353个节点，激活函数为ReLU的softmax层。

进一步地，语音识别模型能够将每一帧输入匹配到 353 个中文单音素三状态对应的概率。

帧级别的交叉熵函数作为目标函数以最小化预测的错误率。

进一步地，LPCNet声码器是数字信号处理和神经网络的结合产物。

LPCNet声码器能够将语音信号假设为线性部分和非线性部分。线性部分由数字信号处理，非线性部分由神经网络拟合。

进一步地，LPCNet声码器的输入是20维特征，20维特征包括18维的巴克尺度倒频谱系数和2维的音高参数。

进一步地，语音转换模型通过中文合成数据集训练。训练集包括20位中文说话者，每个说话者包含200条语句。模型迭代优化了20个周期。

一种基于声学后验概率的任意说话人语音转换系统，预设一个维度为说话人个数*预设向量维度的二维查找表参数空间，说话人编码0/1/2从查找表中直接取出指定行的参数为说话人向量，语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点，包括：

配置一个语音识别模型，语音识别模型包括六层时延神经网络。时延神经网络是一种多层神经网络，时延神经网络能够用于区分平移不变性，。

配置一个多说话人数据集。多说话人数据集能够通过语音识别模型提取多说话人数据集中每句话对应的声学后验概率。

对多说话人数据集中每个说话人独热编码，并查表进行说话人向量的标记得到一个查表编码。

预训练一个语音转换模型，其配置为能够接收声学后验概率和查表编码。语音转换模型能够根据接收到的声学后验概率和查表编码预训练。

配置一个目标说话人数据集。

自适应训练语音转换模型，语音转换模型能够根据目标说话人数据集少量数据自适应参数更新。通过损失函数数值监控更新过程，损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练。语音转换模型的深度神经网结构层前后添加说话人编码层，将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼接，使得语音转换模型能够更好的区分不同的说话人。

在预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码，在自适应训练阶段对独热码对应的说话人向量进行更新，使其向目标说话人进行迁移。

通过任意原始说话人语句中提取声学后验概率，辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换。

通过LPCNet声码器完成声学特征到目标说话人对应转换语音的合成。

本发明具有如下优点：

本发明中的基于声学后验概率的任意说话人语音转换系统及方法，摆脱了对平行数据的依赖，完成语音转换系统的搭建成本较低，且语音转换对象包括但不限于中文、英语等语种。

在语音转换过程中，除了完成到目标说话人音色的迁移，还能够较好的保留原始语句中的情感。

系统实现包括语音识别模型，语音转换模型以及声码器三个部分，这三个部分可以独立训练，且这三个部分性能的提升能够提升系统总体的性能的提升，使得语音转换模型的特征种类更加多样化。本发明的基于声学后验概率的任意说话人语音转换系统能够摆脱实现原理局限性，能够完成任意说话人之间的语音转换且可以完成高质量的语音转换。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音转换方法流程图。

图2为本发明的语音转换预训练阶段流程图。

图3为本发明的语音转换自适应训练阶段流程图。

图4为本发明语音转换的转换阶段流程图。

标号说明

多说话人数据集10，语音转换模型20，目标说话人数据集30，LPCNet声码器30。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-4所示，本发明实施例提供了一种基于声学后验概率的任意说话人语音转换方法，包括：一个语音识别模型、一个语音转换模型20和一个LPCNet声码器30。

S101，配置一个语音识别模型。

本步骤中，配置一个语音识别模型，语音识别模型包括六层时延神经网络。

S102，配置一个多说话人数据集。

本步骤中，配置一个多说话人数据集10（包含100人说话人，每人200句话）。多说话人数据集10能够通过语音识别模型提取多说话人数据集10中每句话对应的声学后验概率。将声学后验概率引入语音转换系统，作为说话人无关的文本特征构建所有说话人之间的共通点。

S103，对多说话人数据集中每个说话人独热编码并获取一个查表编码。

本步骤中，对多说话人数据集10中每个说话人独热编码，并查表进行说话人向量的标记得到一个查表编码。通过独热编码的方式，简单有效的辅助模型对不同说话人进行区分，不需要额外的说话人编码提取器，简化了系统结构。预设一个维度为说话人个数*预设向量维度的二维查找表参数空间，说话人编码0/1/2从查找表中直接取出指定行的参数为说话人向量。

S104，预训练一个语音转换模型。

在语音转换模型20的深度神经网结构层的前后添加说话人编码层，将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼接，以帮助语音转换模型20更好的区分不同的说话人。

本步骤中，预训练一个语音转换模型20，其配置为能够接收声学后验概率和查表编码。语音转换模型20能够根据接收到的声学后验概率和查表编码预训练。

S105，配置一个目标说话人数据集。

本步骤中，配置一个目标说话人数据集30。

S106，自适应训练语音转换模型。

本步骤中，自适应训练语音转换模型20，语音转换模型20能够根据目标说话人数据集30少量数据（30句话，约2分钟）自适应参数更新。通过损失函数数值监控更新过程，损失函数数值监控到连续两个周期（训练集合的所有数据参与过一次训练过程为一个周期）损失函数没有下降时停止自适应训练。

S107，在自适应训练阶段对独热码对应的说话人向量进行更新。

本步骤中，在预训练语音转换模型20的训练集中随机选取一个和目标说话人性别一致的说话人独热码，在自适应训练阶段对独热码对应的说话人向量进行更新，使其向目标说话人进行迁移。通过对预处理模型的自适应训练，实现基于极小数据量到目标说话人的音色迁移。

在这个阶段，模型全部的参数都会根据反向传播算法的指导，向着更好的拟合新的目标说话人数据的方向进行更新。其中，说话人编码层中仅与目标说话人独热码对应的说话人向量进行更新，其他的保持不变。

S108，通过任意原始说话人语句中提取声学后验概率。

本步骤中，通过任意原始说话人语句中提取声学后验概率，辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换。

S109，通过LPCNet声码器30完成声学特征到目标说话人对应转换语音的合成。

本步骤中，通过LPCNet声码器30完成声学特征到目标说话人对应转换语音的合成。

LPCNet声码器30具有训练时间短、合成语音速度快以及合成语音质量较高的特点，提高整个语音转换的效率和转换语音的质量。LPCNet声码器30所需的声码器特征为LPCNet特征。LPCNet声码器30是数字信号处理和神经网络一个很好的结合产物

语音转换是指修改语句中原始说话人的音色，使其和目标说话人一致，但同时保持语句中的语言信息。语音转换在许多领域扮演着至关重要的角色，比如短时频中的音色转换器、影视剧中的配音，个性化的语音助手、虚拟和增强现实等等。

预设一个维度为说话人个数*预设向量维度的二维查找表参数空间，说话人编码0/1/2从查找表中直接取出指定行的参数为说话人向量。

语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点。

语音转换模型20的深度神经网结构层前后添加说话人编码层，将编码后的说话人向量和声学后验概率特征向量在数据特征维度进行拼接，使得语音转换模型20能够更好的区分不同的说话人。

语音识别模型包括六层时延神经网络，时延神经网络是一种多层神经网络，时延神经网络能够用于区分平移不变性。

如图4所示，这是一个只有4层(包含输入层)的TDNN，将逐层介绍。Input Layer为语谱图，黑块为大值，灰块为小值。输入层纵向为经过mel滤波器的16个特征（没用MFCC），横向为帧。Input Layer 的延时为2，映射到Hidden Layer 1的关系为16*3 ->8，权值个数为384。Hidden Layer 1 的延时为4，映射到Hidden Layer 2的关系为8*5 ->3，权值个数为120。Hidden Layer 2 的延时为8，映射到输出层的关系为3*9 ->3，权值个数为81。合计权值为384+120+81=585。

每层时延神经网络有1024个节点，输出层是带有353个节点，激活函数为ReLU的softmax层。

语音识别模型能够将每一帧输入匹配到 353 个中文单音素三状态对应的概率。

预处理层	全连接层-256节点-ReLU-Drop out(0.2)全连接层-128节点-ReLU-Drop out(0.2)
		1维卷积模块	K=8,conv-k-128-ReLU最大池化：步幅=1，步长=21维卷积块：conv-3-128节点-ReLUconv-3-128-线性
说话人编码层	全连接层-128节点-线性
		深度神经网	4层全连接-128节点-ReLU
说话人编码层	全连接层-128节点-线性
		门控循环网络	双向门控循环网络-128节点
输出层	全连接层-20节点-线性

帧级别的交叉熵函数作为目标函数以最小化预测的错误率。

LPCNet声码器30是数字信号处理和神经网络的结合产物。

LPCNet声码器30能够将语音信号假设为线性部分和非线性部分。线性部分由数字信号处理，非线性部分由神经网络拟合。

LPCNet声码器30的输入是20维特征，20维特征包括18维的巴克尺度倒频谱系数和2维的音高参数(周期，相关系数)。

语音转换模型20通过中文合成数据集训练。训练集包括20位中文说话者(其中10位男性，10 位女性)，每个说话者包含200条语句。模型迭代优化了20个周期，最终的损失函数的结果为 2.72 。

一种基于声学后验概率的任意说话人语音转换系统，包括：

配置一个语音识别模型。

配置一个多说话人数据集10。多说话人数据集10能够通过语音识别模型提取多说话人数据集10中每句话对应的声学后验概率。

对多说话人数据集10中每个说话人独热编码，并查表进行说话人向量的标记得到一个查表编码。

预训练一个语音转换模型20，其配置为能够接收声学后验概率和查表编码。语音转换模型20能够根据接收到的声学后验概率和查表编码预训练。

配置一个目标说话人数据集30。

自适应训练语音转换模型20，语音转换模型20能够根据目标说话人数据集30少量数据自适应参数更新。通过损失函数数值监控更新过程，损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练。

在预训练语音转换模型20的训练集中随机选取一个和目标说话人性别一致的说话人独热码，在自适应训练阶段对独热码对应的说话人向量进行更新，使其向目标说话人进行迁移。

通过LPCNet声码器30完成声学特征到目标说话人对应转换语音的合成。

系统实现包括语音识别模型，语音转换模型20以及声码器三个部分，这三个部分可以独立训练，且这三个部分性能的提升能够提升系统总体的性能的提升，使得语音转换模型20的特征种类更加多样化。本发明的基于声学后验概率的任意说话人语音转换系统能够摆脱实现原理局限性，能够完成任意说话人之间的语音转换且可以完成高质量的语音转换。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于声学后验概率的任意说话人语音转换方法，其特征是，预设一个维度为说话人个数*预设向量维度的二维查找表参数空间，说话人编码0/1/2从查找表中直接取出指定行的参数为所述说话人向量；语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点，包括：

S101，配置一个语音识别模型，所述语音识别模型包括六层时延神经网络；所述时延神经网络是一种多层神经网络，所述时延神经网络能够用于区分平移不变性；

S102，配置一个多说话人数据集；所述多说话人数据集能够通过语音识别模型提取所述多说话人数据集中每句话对应的声学后验概率；

S103，对所述多说话人数据集中每个说话人独热编码，并查表进行说话人向量的标记得到一个查表编码；

S104，预训练一个语音转换模型，其配置为能够接收所述声学后验概率和查表编码；所述语音转换模型能够根据接收到的所述声学后验概率和所述查表编码预训练；所述语音转换模型的深度神经网结构层前后添加说话人编码层，将编码后的所述说话人向量和声学后验概率特征向量在数据特征维度进行拼接，使得语音转换模型能够更好的区分不同的说话人；

S105，配置一个目标说话人数据集；

S106，自适应训练所述语音转换模型，所述语音转换模型能够根据所述目标说话人数据集少量数据自适应参数更新；通过损失函数数值监控更新过程，损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练；

S107，在预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码，在自适应训练阶段对独热码对应的说话人向量进行更新，使其向目标说话人进行迁移；

S108，通过任意原始说话人语句中提取声学后验概率，辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换；

S109，通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。

2.如权利要求1所述的基于声学后验概率的任意说话人语音转换方法，其特征是，每层所述时延神经网络有1024个节点，输出层是带有353个节点，激活函数为ReLU的softmax层。

3.如权利要求2所述的基于声学后验概率的任意说话人语音转换方法，其特征是，所述语音识别模型能够将每一帧输入匹配到 353 个中文单音素三状态对应的概率；

帧级别的交叉熵函数作为目标函数以最小化预测的错误率。

4.如权利要求3所述的基于声学后验概率的任意说话人语音转换方法，其特征在是，所述LPCNet声码器是数字信号处理和神经网络的结合产物；

所述LPCNet声码器能够将语音信号假设为线性部分和非线性部分；所述线性部分由数字信号处理，所述非线性部分由神经网络拟合。

5.如权利要求4所述的基于声学后验概率的任意说话人语音转换方法，其特征是，所述LPCNet声码器的输入是20维特征，所述20维特征包括18维的巴克尺度倒频谱系数和2维的音高参数。

6.如权利要求5所述的基于声学后验概率的任意说话人语音转换方法，其特征是，所述语音转换模型通过中文合成数据集训练；训练集包括20位中文说话者，每个说话者包含200条语句；模型迭代优化了20个周期。

7.一种基于声学后验概率的任意说话人语音转换系统，其特征是，预设一个维度为说话人个数*预设向量维度的二维查找表参数空间，说话人编码0/1/2从查找表中直接取出指定行的参数为所述说话人向量；语音转换系统通过声学后验概率作为说话人无关的文本特征构建所有说话人之间的共通点，包括：

配置一个语音识别模型；所述语音识别模型包括六层时延神经网络；所述时延神经网络是一种多层神经网络，所述时延神经网络能够用于区分平移不变性；

配置一个多说话人数据集；所述多说话人数据集能够通过语音识别模型提取所述多说话人数据集中每句话对应的声学后验概率；

对所述多说话人数据集中每个说话人独热编码，并查表进行说话人向量的标记得到一个查表编码；

预训练一个语音转换模型，其配置为能够接收所述声学后验概率和查表编码；所述语音转换模型能够根据接收到的所述声学后验概率和所述查表编码预训练；所述语音转换模型的深度神经网结构层前后添加说话人编码层，将编码后的所述说话人向量和声学后验概率特征向量在数据特征维度进行拼接，使得语音转换模型能够更好的区分不同的说话人；

配置一个目标说话人数据集；

自适应训练所述语音转换模型，所述语音转换模型能够根据所述目标说话人数据集少量数据自适应参数更新；通过损失函数数值监控更新过程，损失函数数值监控到连续两个周期损失函数没有下降时停止自适应训练；

在预训练语音转换模型的训练集中随机选取一个和目标说话人性别一致的说话人独热码，在自适应训练阶段对独热码对应的说话人向量进行更新，使其向目标说话人进行迁移；

通过任意原始说话人语句中提取声学后验概率，辅助自适应训练阶段使用的目标说话人独热码实现目标说话人声学特征的转换；

通过LPCNet声码器完成所述声学特征到目标说话人对应转换语音的合成。