CN116312469A

CN116312469A - 一种基于语音转换的病理嗓音修复方法

Info

Publication number: CN116312469A
Application number: CN202310553240.3A
Authority: CN
Inventors: 张涛; 吕莹; 刘赣俊; 赵鑫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-06-23
Anticipated expiration: 2043-05-17
Also published as: CN116312469B

Abstract

本发明提供了一种基于语音转换的病理嗓音修复方法，包括对病理说话人的指定语料进行基于参数的修复得到少量修复语音，然后对修复的语音进行MOS打分，选择分数最高的语音作为“伪参考语料”；将“伪参考语料”作为目标语音，输入至音色编码器网络中提取音色；通过内容编码器分离出病理嗓音内容；对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。本发明选择采用参数修复方法得到少量修复语音作为目标语音输入，结合语音转换技术，实现不受文本约束的病理嗓音修复。

Description

一种基于语音转换的病理嗓音修复方法

技术领域

本发明属于病理嗓音修复技术领域，尤其是涉及一种基于语音转换的病理嗓音修复方法。

背景技术

病理嗓音主要是由于声带和喉的各种疾病导致的闭合或振动异常，致使其声学性质发生改变，在临床上表现出不同程度的声音嘶哑、失真等。嗓音疾病会影响人们的语言交流，给人们的生活带来严重的困扰，因此病理嗓音修复的相关研究具有重要的研究意义和实际应用价值。

目前国内外关于病理嗓音的研究侧重于病理嗓音的检测、识别和分类，鲜有病理嗓音修复方面的研究。病理嗓音诊断治疗的传统方法是主观听觉感知和侵入式方式，然而这需要专业设备和训练有素的专业人员，而且侵入式治疗的不彻底性会对患者的语言表达和听觉感知产生影响，甚至可能会给患者造成心理创伤。随着计算机的普及和声学技术的发展，采用非侵入式方法对病理嗓音进行修复逐渐成为学者们关注的重点，其中采用信号处理、机器学习等方法实现病理嗓音修复是研究的新方向，它具有运行成本低，容易操作等优点。

病理嗓音修复旨在通过修复病理嗓音中代表个人特色的客观表征以提高语音的可懂度。对于病理嗓音修复研究，主要分为基于声学参数的方法和基于语音转换的方法。

基于声学参数的方法针对的是声带受损语音的修复，它是通过对病理嗓音基频和共振峰进行提取重构实现的修复，且都有较好的修复效果，病理的可懂度有提高。但是基于参数的修复方法存在的问题是：一、只能对特定的音素进行修复，可修复的文本对象受限；二、修复效率低且不稳定，因此该方法并不能满足实际应用中为嗓音疾病患者提供便利的语音交互的需求。

近两年人们开始研究利用语音转换技术去提升语音可懂度，目前主要应用于构音障碍，关于声带受损的病理嗓音还未涉及。语音转换是人工智能的一个重要方面。语音转换的目的是在保持语言内容不变的情况下对语音信号的非语言信息进行转换。非语言信息可能包括说话人的身份，口音或发音等。基于语音转换模型的病理嗓音修复实际上是保持说话人身份不变，通过对音色进行改变，以提高病理嗓音的可懂度。目前语音转换技术在构音障碍中取得了一定的应用，但是效果并不理想。

考虑到上述问题，本发明选择采用参数修复方法得到少量修复语音作为目标语音输入，结合语音转换技术，实现不受文本约束的病理嗓音修复。

发明内容

有鉴于此，本发明提出了一种基于语音转换的病理嗓音修复方法，通过构建端到端的语音转换模型，达到提高病理嗓音可懂度的目的。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于语音转换的病理嗓音修复方法，包括如下步骤；

步骤1：对病理说话人的指定语料进行基于参数的修复得到少量修复语音，然后对修复的语音进行MOS打分，选择分数最高的语音作为“伪参考语料”；

步骤2：将“伪参考语料”作为目标语音，输入至音色编码器网络中提取音色；

步骤3：将任意病理语音通过内容编码器分离出病理嗓音内容；

步骤4：对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。

进一步的，所述指定语料包括汉语的所有声母和韵母音节。

进一步的，所述步骤1中，基于参数的修复方法采用小波变换和Hilbert-Huang变换进行基频提取，基于线谱对LSP特征重构共振峰，通过合成基频和共振峰得到修复的语音。

进一步的，所述步骤2中具体包括如下步骤：

步骤201：输入的目标语音频谱

经L个第一残差模块/>

依次得到不同层次的特征/>

；

步骤202：

经二维卷积和分块得到均值/>

和方差/>

，

，

其中

为分块公式；/>

和/>

为卷积层的权重和偏置；

步骤203：

和/>

生成正态分布/>

，

，

其中

为生成正态分布公式；

步骤204：对生成的不同的正态分布

进行随机采样得到，

；

其中

为随机采样公式，其中/>

；

步骤205：

与/>

通过第一拼接模块/>

相加得到第一拼接特征/>

；/>

为一个大小确定随机生成的可训练参数；

步骤206：

通过第二残差模块/>

得到特征/>

；

步骤207：

经二维卷积和分块得到均值/>

和方差/>

；

其中

和/>

为卷积层的权重和偏置；

步骤208：输入的目标语音频谱

经L-i个第一残差模块/>

得到特征/>

，/>

通过第二拼接模块/>

得到第二拼接特征/>

；

步骤209：

经二维卷积和分块得到均值/>

和方差/>

，

；

其中

和 />

为卷积层的权重和偏置；

步骤210：

和/>

，/>

生成正态分布/>

，

步骤211：循环

次步骤204-210依次得到/>

；

最终，得到的

为所需的音色Z_s。

进一步的，所述步骤3中具体包括如下步骤：

步骤301：输入的病理嗓音梅尔频谱

经填充和一维卷积前向计算得到特征/>

，

；

其中，

为填充公式，/>

为一维卷积公式；

步骤302：对特征

进行实例归一化得到实例归一化特征/>

，计算公式如下

其中，

为/>

的均值和方差，其中/>

；

步骤303：

经激活、平均池化得到特征/>

，

；

其中，

为激活函数，/>

为一维平均池化公式；

步骤304：

和/>

相加得到/>

；

步骤305：令

，循环6次步骤302 -304依次得到/>

；

步骤306：

经填充和一维卷积前向计算得到均值/>

和方差/>

，最终/>

为代表病理嗓音内容的潜在表征/>

。

进一步的，所述步骤4中具体包括如下步骤：

步骤401：

依次经填充、一维卷积前向计算和实例归一化得到/>

；

步骤402：Z_s先通过全连接处理然后和

相加得到/>

，

；

其中，

为附加公式；

步骤403：

依次经激活、填充、一维卷积前向计算和像素重组上采样得到/>

，

；PixelShuffle（）为像素重组上采样计算公式；

步骤404：

经最近邻上采样处理的结果和/>

相加得到/>

；upsample（）为最近邻上采样计算公式；

其中，

；

步骤405：令

，循环6次步骤401- 404依次得到/>

；

步骤406：

经填充和一维卷积前向计算得到/>

，最终/>

为合成的修复语音。

进一步的，所述第一残差模块

的实现过程如下：

输入目标语音频谱

经过skip connection网络结构得到/>

；

同时输入目标语音频谱经批归一化和二维卷积得到

，

；

其中，SyncBatchNorm（）为批归一化计算公式，为现有技术，

和/>

为卷积层的权重和偏置；

将

与/>

进行加权计算得到/>

，

，其中/>

，令/>

。

进一步的，所述第二残差模块

的实现过程如下：

输入

经过skip connection网络结构得到/>

；

同时输入

使用最近邻方法进行上采样得到/>

，/>

；

其中upsample（）为最近邻上采样计算公式；

经二维卷积和批归一化处理得到

，

；

其中

和/>

为卷积层的权重和偏置；

将

与/>

进行加权计算得到/>

，

，其中/>

。

进一步的，所述第一拼接模块

的实现过程如下：

将输入的

和/>

拼接起来，得到/>

，

，其中/>

为拼接公式；

经二维卷积得到/>

，/>

，其中/>

，/>

和/>

为卷积层的权重和偏置。

进一步的，所述第二拼接模块

的实现过程如下：

输入的

进行二维卷积得到/>

，

，其中/>

和/>

为卷积层的权重和偏置；

将

和/>

相加得到/>

，/>

。

相对于现有技术，本发明所述的一种基于语音转换的病理嗓音修复方法具有以下优势：将基于参数的修复与语音转换方式相结合，可以实现患者任意语句的修复，摆脱文本的约束，只需对患者的指定语料进行参数修复，再利用语音转换将修复的音色与患者的内容进行合成，即可得到修复的病理嗓音。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的方法的整体框图；

图2为本发明的音色编码器网络模型示意图；

图3为本发明的内容编码器网络模型示意图；

图4为本发明的解码器网络模型示意图；

图5为本发明的频谱对比图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，本发明的公式中所用的各个函数都是torch中提供的函数。

本发明通过一个基于改进的VAE的语音转换模型将语音的内容与音色分离开，首次提出采用参数修复方法对病理说话人的指定语料进行修复得到少量修复语音作为目标语音

，病理语音作为源语音/>

，二者分别通过音色编码器和内容编码器得到修复的音色和病理嗓音的内容，最后由解码器将两者进行合成，得到修复的病理嗓音。

如图1所示，本发明的基于语音转换的病理嗓音修复方法具体包括如下步骤：

步骤1、“伪参考语料”的生成

对病理说话人的指定语料进行基于参数的修复得到少量修复语音，该指定语料涵盖汉语了所有声母和韵母音节。然后对修复的语音进行MOS打分，选择分数最高的语音作为“伪参考语料”去近似代替GT(Ground Truth)，以提供“健康的音色”。基于参数的修复方法如采用小波变换和Hilbert-Huang变换进行基频提取，基于线谱对(LSP)特征重构共振峰，通过合成基频和共振峰得到修复的语音，该修复语音的可懂度有显著的提升。

步骤2、提取音色

将参数修复后的语音质量最好的“伪参考语料”作为目标语音，并输入至音色编码器网络中。如图2所示，音色编码器网络

是一个自回归模型，通过对输入特征频谱逐层编码得到深层特征，取最后得到的潜变量/>

作为说话人表示，即音色。具体包括：

步骤201：输入的目标语音频谱

经L个第一残差模块/>

依次得到不同层次的特征/>

；

步骤202：

经二维卷积和分块得到均值/>

和方差/>

，

，

其中chunk为torch中提供的分块函数，输入为张量、chunk数及维度；

和/>

为卷积层的权重和偏置；

步骤203：

和/>

生成正态分布/>

，

，

其中

为生成正态分布公式；

步骤204：对生成的正态分布

进行随机采样得到，

其中

为随机采样公式，其中/>

；

步骤205：

与/>

通过第一拼接模块/>

相加得到第一拼接特征/>

；/>

为一个大小确定随机生成的可训练参数；

步骤206：

通过第二残差模块/>

得到特征/>

；

步骤207：

经二维卷积和分块得到均值/>

和方差/>

；

其中

和/>

为卷积层的权重和偏置；

步骤208：输入的目标语音频谱

经L-i个第一残差模块/>

得到特征/>

，/>

通过第二拼接模块/>

得到第二拼接特征/>

；

步骤209：

经二维卷积和分块得到均值/>

和方差/>

，

；

其中

和 />

为卷积层的权重和偏置；

步骤210：

和/>

，/>

生成正态分布/>

，

；

步骤211：循环

次步骤204- 210依次得到/>

；

最终，得到的

为所需的音色Z_s。

在本发明的中，所述第一残差模块

的实现过程如下：

输入

经过skip connection网络结构得到/>

；

同时输入

经批归一化和二维卷积得到/>

，

；

其中，SyncBatchNorm（）为批归一化计算公式，

和/>

为卷积层的权重和偏置；

将

与/>

进行加权计算得到/>

，

，其中/>

，令/>

。

在本发明中，所述第二残差模块

的实现过程如下：

输入

经过skip connection网络结构得到/>

；

同时输入

使用最近邻方法进行上采样得到/>

，/>

；

其中upsample（）为最近邻上采样计算公式；

经二维卷积和批归一化处理得到

，

；

其中

和/>

为卷积层的权重和偏置；

将

与/>

进行加权计算得到/>

，

，其中/>

。

在本发明中，所述第一拼接模块

的实现过程如下：

将输入的

和/>

拼接起来，得到/>

，

，其中/>

为拼接公式；

经二维卷积得到/>

，/>

，其中/>

，/>

和/>

为卷积层的权重和偏置。

在本发明中，所述第二拼接模块

的实现过程如下：

输入的

进行二维卷积得到/>

，

；其中/>

和/>

为卷积层的权重和偏置；

将

和/>

相加得到/>

，/>

。

步骤3、提取内容

病理嗓音内容的分离是通过一个内容编码器网络

，得到一个代表病理嗓音内容的潜在表征/>

，内容编码器网络模型如图3所示。为了在保留内容信息的同时删除说话人信息，/>

网络中加入了实例归一化(Instance normalization, In)，具体包括：

步骤301：输入的病理嗓音梅尔频谱

，经填充和一维卷积前向计算得到特征

，/>

；

其中，

为填充公式，pad层输入为频谱/>

，填充尺寸size以及填充模式mode，/>

为一维卷积公式；

步骤302：对特征

进行实例归一化得到实例归一化特征/>

，计算公式如下

；

其中，

为/>

的均值和方差，其中/>

；

步骤303：

经激活、平均池化得到/>

，

；

其中，

为激活函数，/>

为一维平均池化公式；

步骤304：

和/>

相加得到/>

；

步骤305：令

，循环6次步骤302 -304依次得到/>

；

步骤306：

经填充和一维卷积前向计算得到均值/>

和方差/>

，最终/>

为代表病理嗓音内容的潜在表征/>

。

步骤4、语音合成

由

和/>

编码得到代表内容和音色的潜在表征/>

和/>

，经过一个解码器网络D进行合成即可得到修复语音，解码器网络模型如图4所示。具体包括：

步骤401：

依次经填充、一维卷积前向计算和实例归一化得到/>

；

步骤402：Z_s先通过全连接处理然后和

相加得到/>

，

；

其中，

为附加公式，该公式根据Z_s的形状，计算出每个通道的均值和标准差，将均值和标准差张量按照通道数的维度划分为两个张量，分别为 mean 和 std，对于输入/>

，通过乘以std加上 mean实现append，/>

= />

× std + mean；

步骤403：

，

；PixelShuffle（）为像素重组上采样计算公式，为现有技术；

步骤404：

经最近邻上采样处理的结果和/>

相加得到/>

；

；upsample（）为最近邻上采样计算公式，为现有技术；

其中，

；

步骤405：令

，循环6次步骤401-404依次得到/>

；

步骤406：

经填充和一维卷积前向计算得到/>

，最终/>

为合成的修复语音。

下面通过具体的实施过程说明本发明的方案。

一、以音色编码器

得到音色表征/>

1、输入的目标语音频谱

经二维卷积得到/>

。二维卷积的参数为/>

，其中每层卷积核的大小为/>

，输出的特征图个数为32。

2、

经L个第一残差模块/>

依次得到不同层次的特征/>

。

3、

经二维卷积和分块得到均值/>

和方差/>

。二维卷积的参数为/>

，其中每层卷积核的大小为/>

，输出的特征图个数为256。然后将输出特征在1维上分为两部分，/>

和/>

。

4、

和/>

生成正态分布/>

。

5、对生成的正态分布

进行随机采样得到/>

，其中/>

。

6、

与确定性特征映射/>

通过第一拼接模块/>

相加得到第一拼接特征/>

。

7、

通过第二残差模块/>

得到特征/>

。

8、

经二维卷积和分块得到均值/>

和方差/>

。二维卷积的参数为/>

，其中每层卷积核的大小为/>

，输出的特征图个数为256。然后将输出的1维上分为两部分，/>

和/>

。

9、输入的目标语音频谱

经L-i个第一残差模块/>

得到特征/>

和/>

，通过第二拼接模块/>

得到第二拼接特征/>

。

10、

经二维卷积和分块得到/>

和/>

，二维卷积的参数为/>

，其中每层卷积核的大小为/>

和/>

。

11、

和/>

生成正态分布/>

。

12、循环

次步骤5-11依次得到/>

；

最终，得到的

为所需的音色Z_s。

二、以内容编码器

得到内容表征/>

1、输入的病理嗓音梅尔频谱

，经过ConvBank层得到/>

。ConvBank层是一维卷积，输入输出分别为512和128，卷积核为1，激活函数是ReLU。

2、

经填充和一维卷积前向计算得到/>

，一维卷积的输入输出分别为128和128，卷积核为1。

3、

经实例归一化得到/>

，其中/>

；一维实例归一化的输入为128，无仿射变换。

4、

经激活、平均池化得到/>

，激活函数是ReLU，一维平均池化的卷积核是2。

5、

和/>

相加得到/>

；

6、令

，循环6次步骤2-4依次得到/>

；

7、

经填充和一维卷积前向计算得到均值/>

和方差/>

，维卷积的输入输出分别为128和128，卷积核为1。最终/>

为代表病理嗓音内容的潜在表征/>

。

三、语音合成

1、

依次经填充、一维卷积前向计算和实例归一化得到/>

；一维卷积的输入输出分别为128和128，卷积核为1。一维实例归一化的输入为128，无仿射变换。

2、Z_s先通过全连接处理然后和

相加得到/>

，全连接层的输入输出分别为128和256。

3、

，激活函数是ReLU。一维卷积的输入输出分别为128和256，卷积核为1。像素重组上采样的扩大倍数为2。

4、

经最近邻上采样处理的结果和/>

相加得到/>

，其中，/>

；最近邻上采样的扩大倍数为2.

5、令

，循环6次步骤1- 4依次得到/>

；

6、

经填充和一维卷积前向计算得到/>

，一维卷积的输入输出分别为128和256，卷积核为1。最终/>

为合成的修复语音。/>

四、组成模块

1、第一残差模块

输入的特征图片

经过skip connection网络结构得到/>

；

同时

经批归一化和二维卷积得到/>

，二维卷积的参数为/>

，其中每层卷积核的大小为/>

，输出的特征图个数为64。批归一化的输入特征图的个数为 64，eps=BN_EPS=1e-5，momentum=0.05。

通过SE层得到/>

。对/>

的维度2和3进行均值计算，然后view维度变换转换为二维张量/>

，/>

依次经过全连接层1、ReLU激活层、全连接层2、Sigmoid激活层得到/>

。全连接层1输入输出分别为64和4，全连接层2的输入输出分别为4和64。最后对/>

进行维度变换并乘以原始输入/>

得到/>

。

将

与/>

进行加权计算，

，其中/>

，令/>

。

2、第二残差模块

输入的特征图谱

经过skip connection网络结构得到/>

；

同时

使用最近邻方法进行上采样得到/>

，二维最近邻上采样的放大倍数为2。

经二维卷积和批归一化处理得到特征/>

，批归一化的输入特征图个数为64，eps=BN_EPS=1e-5，momentum=0.1。

经二维卷积和批归一化处理得到/>

。二维卷积的参数为3×3×64，其中每层卷积核的大小为/>

，输出的特征图个数为384。

批归一化的输入特征图的个数为384，eps=BN_EPS=1e-5，momentum=0.05。

重复上面的过程得到

。

经二维卷积和批归一化处理得到/>

。二维卷积的参数为/>

，其中每层卷积核的大小为/>

，输出的特征图个数为64。批归一化的输入特征图个数为64，eps=BN_EPS=1e-5，momentum=0.1。

通过SE层得到/>

。对/>

的维度2和3进行均值计算，然后view维度变换保持转换为二维张量/>

，/>

依次经过全连接层、ReLU激活层、全连接层、Sigmoid激活层得到/>

，全连接层1输入输出分别为64和4，全连接层2的输入输出分别为4和64。最后对/>

进行维度变换并乘以原始输入/>

得到/>

。

将

与/>

进行加权，

，其中/>

。/>

3、第一拼接模块

将输入的

和/>

按照维度1进行拼接，得到/>

，

经二维卷积得到/>

，二维卷积的参数为/>

，其中每层卷积核的大小为/>

。输出的特征图个数为64。

4、第二拼接模块

输入的

进行二维卷积得到/>

，二维卷积的参数为/>

，其中每层卷积核的大小为/>

，输出的特征图个数为64；

将

和/>

相加得到/>

。

图5 对比原始病理语音频谱和基于参数修复的病理语音频谱，其中，最上面的图为病理语音频谱图，中间的图为参数修复语音频谱图，最下面的图为语音转换修复语音频谱图。由此可见，本发明的方法可以显著地减少原始病理语音的噪声干扰等影响因素，提高语音的质量。本发明可以摆脱修复文本的约束，对任意语句进行修复，较之参数修复方法更灵活、高效。综合来说，本发明的方法更具有实际应用的意义。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。