CN116092475B

CN116092475B - 一种基于上下文感知扩散模型的口吃语音编辑方法和系统

Info

Publication number: CN116092475B
Application number: CN202310361856.0A
Authority: CN
Inventors: 姜伟昊; 钱冠梁; 黄俊杰; 李烈锋; 孙清; 陈梓铭
Original assignee: Hangzhou Dongshang Intelligent Technology Co ltd
Current assignee: Hangzhou Dongshang Intelligent Technology Co ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-07
Anticipated expiration: 2043-04-07
Also published as: CN116092475A

Abstract

本发明公开了一种基于上下文感知扩散模型的口吃语音编辑方法和系统，属于语音编辑领域。首先获取口语语音‑文本组合，从文本中提取文本特征向量以及随机遮罩后的口语语音特征向量；基于上下文感知机制提取上下文信息；将上下文信息、当前时间步、当前时间步的梅尔频谱特征输入扩散模型，迭代计算上一时间步的梅尔频谱特征，直至迭代地重建出遮罩部分对应语音的梅尔频谱特征；对上下文感知机制和扩散模型进行联合训练；针对带有口吃的口语语音，遮罩口吃区域，采用训练好的上下文感知机制和扩散模型生成编辑后的语音片段。本发明通过从口语语音中提取丰富的上下文信息来指导扩散模型的迭代过程，从而提高了口吃语音编辑的音质与自然度。

Description

一种基于上下文感知扩散模型的口吃语音编辑方法和系统

技术领域

本发明涉及语音编辑领域，尤其涉及一种基于上下文感知扩散模型的口吃语音编辑方法和系统。

背景技术

当下，语音编辑任务已经引发了广泛关注，而去除语音中的口吃是语音编辑中的一个十分重要的子任务。该任务旨在保留给定语音的内容的同时去除口吃，提升语音流畅度，以减轻自媒体、影视、演讲、线上课程等多行业配音人员的负担。

现有的语音编辑技术主要针对的是朗读风格语音，在处理口吃语音时会遇到以下三个挑战：1）生成的语音频谱较为模糊，缺乏高频细节，因此编辑区域与前后未编辑的区域在听感上存在一定的差异，听感较差；2）语音中的口吃会给模型的训练过程带来较大的噪声，影响模型的鲁棒性；3）口吃区域需要人为精确指定，需要消耗极大的人力。

若解决这上述三个问题，则可有效提升口吃语音编辑的语音质量，极大地节约人力成本。

发明内容

为了克服现有技术中频谱模糊、鲁棒性低、无法自动定位口吃区域等一系列问题，本发明提供一种基于上下文感知扩散模型的口吃语音编辑方法和系统，以针对不同风格语音进行内容编辑，可自动去除口吃，提升语音流畅度。

本发明所采用的具体技术方案是：

第一方面，本发明提出了一种基于上下文感知扩散模型的口吃语音编辑方法，包括如下步骤：

步骤1，获取口语语音-文本组合，从文本中提取文本特征向量；对口语语音进行随机遮罩，提取遮罩后的口语语音特征向量；

步骤2，基于上下文感知机制，从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息；

步骤3，将上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征输入扩散模型，迭代计算上一时间步的梅尔频谱特征，直至迭代地重建出遮罩部分对应语音的梅尔频谱特征；

步骤4，利用口语语音-文本组合的一一对应关系，计算扩散模型的损失函数项以及上下文感知机制的损失函数项，对上下文感知机制和扩散模型进行联合训练；

步骤5，针对带有口吃的口语语音，遮罩口吃区域，采用步骤1的方法提取目标文本的文本特征向量和遮罩后的口语语音特征向量，采用步骤2-3的方法，利用训练后的上下文感知机制和扩散模型生成编辑后的语音片段。

进一步的，所述的文本特征向量提取方法为：在给定文本前加上符号< BOS >作为文本中的第0个词，以标记句子开头；获取给定文本的音素序列，利用音素嵌入层将音素序列转换为音素特征向量，再利用文本编码器对音素特征向量编码，生成文本特征向量。

进一步的，所述的文本编码器采用多头自注意力机制。

进一步的，所述的上下文信息包括基于持续时间信息扩展后的帧级文本特征向量、音调上下文信息、频谱上下文信息、说话人音色上下文信息和口吃区域上下文信息。

进一步的，所述的基于上下文感知机制，从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息，具体为：

2.1）基于持续时间信息扩展后的帧级文本特征向量

获取原始文本的持续时间序列，将口语语音的梅尔频谱特征序列中与被遮罩部分相对应的持续时间进行遮罩，得到遮罩后的持续时间序列；

将遮罩后的持续时间序列、文本特征向量输入到持续时间预测器中，由持续时间预测器预测出遮罩区域的持续时间并四舍五入后得到持续时间上下文信息；利用持续时间上下文信息扩展文本特征向量，得到基于持续时间信息扩展后的帧级文本特征向量；

2.2）音调上下文信息

获取口语语音的帧级音调序列，将口语语音的梅尔频谱特征序列中与被遮罩部分相对应的帧级音调进行遮罩，得到遮罩后的帧级音调序列；

将遮罩后的帧级音调序列、基于持续时间信息扩展后的帧级文本特征向量输入到音调预测器中，由音调预测器预测出遮罩区域的基频序列，并将基频序列转化成重建后的帧级音调并映射为音调特征向量，作为音调上下文信息；

2.3）频谱上下文信息

将所述的遮罩后的口语语音特征向量作为频谱上下文信息；

2.4）说话人音色上下文信息

从口语语音中直接提取说话人音色特征，作为说话人音色上下文信息；

2.5）口吃区域上下文信息

从口语语音的梅尔频谱特征序列中提取无遮罩的上下文语音特征向量；将基于持续时间信息扩展后的帧级文本特征向量、无遮罩的上下文语音特征向量输入到口吃预测器中，由口吃预测器定位语音中的口吃区域，得到口吃区域上下文信息。

进一步的，所述的迭代计算上一时间步的梅尔频谱特征，计算公式如下：

其中，

为扩散模型，/>

为扩散模型的参数，x_t是扩散过程中第t步的梅尔频谱特征，x_t-1是扩散过程中第t-1步的梅尔频谱特征，C是上下文信息，t表示当前时间步。

进一步的，所述的扩散模型包括输入卷积层、全连接层、若干残差块和输出卷积层；所述的扩散过程中当前时间步的梅尔频谱特征作为输入卷积层的输入，将当前时间步和位置编码作为全连接层的输入，输入卷积层和全连接层的输出结果与上下文信息共同作为残差块的输入，残差块的输出结果再经输出卷积层后得到上一时间步的梅尔频谱特征。

进一步的，所述的上下文感知机制的损失函数项包括持续时间预测器的均方误差损失函数项、音调预测器的均方误差损失函数项和口吃预测器的交叉熵损失函数项。

第二方面，本发明提出了一种基于上下文感知扩散模型的口吃语音编辑系统，包括：

口语语音预处理模块，其用于对口语语音-文本组合中的口语语音进行遮罩，提取遮罩后的口语语音特征向量；

文本预处理模块，其用于从口语语音-文本组合的文本中提取文本特征向量；

上下文感知模块，其用于基于上下文感知机制，从由文本预处理模块得到的文本特征向量、以及由口语语音预处理模块得到的遮罩后的口语语音特征向量中提取上下文信息；

扩散模型模块，其用于以上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征为输入，迭代计算上一时间步的梅尔频谱特征，直至迭代地重建出遮罩部分对应语音的梅尔频谱特征；

训练模块，其用于利用口语语音-文本组合的一一对应关系，计算扩散模型的损失函数项以及上下文感知机制的损失函数项，对扩散模型模块和上下文感知模块中的模型进行联合训练。

进一步的，所述的口语语音预处理模块在训练阶段时对口语语音进行随机遮罩，在实际编辑阶段时对口语语音的口吃区域进行遮罩。

与现有技术相比，本发明具备的有益效果是：

（1）本发明通过上下文感知机制从口语语音中提取丰富的上下文信息来指导扩散模型的迭代过程，使扩散模型显示地学到频谱特征中上下文的持续时间、音调、音色等多种特征，即充分学习到待编辑的语音片段的上下分信息，从而使得扩散模型能够根据上下文特征重建出自然、高质量、过渡流畅的编辑结果，实现高质量的语音编辑功能。

（2）本发明通过采用口吃区域预测器，可定位自然口语语音中的口吃区域，让模型能够在训练的过程中只从无口吃的区域学习相关特征，以帮助模型在实际的编辑过程中重建出无口吃的结果，从而实现自动去除口吃的功能。

附图说明

图1是本发明实施例示出的基于上下文感知扩散模型的口吃语音编辑方法的流程示意图；

图2是本发明实施例示出的基于上下文感知扩散模型的口吃语音编辑方法的框架示意图；

图3是本发明实施例示出的上下文感知扩散模型的结构示意图，其中左半部分表示扩散模型部分，右半部分表示上下文感知机制部分。

图4是本发明实施例示出的用于实现基于上下文感知扩散模型的口吃语音编辑方法的电子设备终端结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

本发明通过设计一种上下文感知扩散模型实现高质量的语音编辑与自动去除口吃的功能，如图1所示，基于上下文感知扩散模型的口吃语音编辑方法主要包括如下步骤：

步骤1，利用基于自注意力的文本编码器获取文本特征向量。

步骤2，利用非线性前馈神经网络获取遮罩后的自然口语语音特征向量。

步骤3，构建上下文感知扩散模型；首先基于上下文感知机制，从步骤1的文本特征向量和步骤2的遮罩后的自然口语语音特征向量中提取上下文特征作为上下文信息C；再将上下文信息C、当前时间步t、扩散过程中当前时间步的梅尔频谱等信息输入扩散模型，以计算上一时间步的梅尔频谱特征，且不断迭代地重建出遮罩部分对应的原始语音的梅尔频谱特征。

步骤4，利用自然口语语音和文本之间的一对一关系，计算上下文感知扩散模型的损失函数项，对文本编码器、非线性前馈神经网络和上下文感知扩散模型进行联合；

步骤5，针对待编辑的口语语音，遮罩待编辑区域，分别采用步骤1-3的方法，利用非线性前馈神经网络获取遮罩后的口语语音特征向量，利用文本编码器获取目标文本的文本特征向量，利用训练后的上下文感知扩散模型生成编辑后的语音片段。

上述步骤1中，获取文本特征向量可具体采用如下实现方式。

首先获取训练集，训练集中包括有D_train段自然口语语音和D_train段对应的文本，其中每一段自然口语语音对应于一段文本。

如图2所示，对于训练集中每一段给定的文本（包含N个词），首先在句子前加上特殊符号< BOS >，作为口语句子的第0个词，以标记句子的开头，接着提取文本中的音素，构建音素表并将音素转换为序列，利用音素嵌入层将音素序列转换为音素特征向量e_o，利用文本编码器对音素特征向量e_o进行编码，生成文本特征向量e_p。此处生成的文本特征向量还用于后续扩散模型的计算。

本实施例中，所述的文本编码器由若干个文本编码器层堆叠组成，每一个编码器层由层归一化操作、多头自注意力、残差连接和前馈神经网络构建而成，所述的文本编码器为预训练模型。

以文本编码器中的第一个文本编码器层为例，其计算公式如下：

其中，e_o表示音素特征向量，即第一个文本编码器层的输入；z表示文本编码器层内的中间结果，e_p,1表示第一个文本编码器层的输出向量，LN(.)表示层归一化操作，MHSA(.)表示多头自注意力机制，MLP(.)表示前馈神经网络。将前一个文本编码器层的输出向量作为后一个文本编码器层的输入向量，将最后一个文本编码器层的输出向量作为最终得到的文本特征向量e_p。

以文本编码器中的第一个文本编码器层为例，所述的多头自注意力机制MHSA的计算过程具体为：

1.1）对于音素特征向量e_o，将其经过层归一化操作后的结果记为c，按照如下公式，分别生成查询矩阵Q、键矩阵K和值矩阵V：

其中，W_Q、W_K、W_V分别为查询映射矩阵、键映射矩阵、值映射矩阵。

1.2）对于查询矩阵Q，将其等价表示为若干列向量分块拼接，所构成矩阵的转置，记为Q=[q₁;q₂;…;q_K]^T；其中，上角标T表示转置，每个列向量q_K为D维向量，称之为查询向量；同理，对于键矩阵K与值矩阵V也同样处理，记第k个键向量为k_k，第k个值向量为v_k，1≤k≤K；K表示文本长度，D表示音素特征向量e_o的维度。

1.3）利用步骤1.1)求得的键矩阵K和值矩阵V，按照如下公式计算得到一系列的单头自注意力向量z_k：

其中，

表示第k个键向量中的第i个位置，/>

表示第k个键向量中的第j个位置，z_k表示第k个单头自注意力向量，/>

表示两个向量求缩放点积，exp表示以自然对数e为底的指数函数。

遍历位置k∈[1,K]，得到K个单头自注意力向量，直接合成为维度K×D的单头自注意力矩阵Z。

多头自注意力机制的计算需要重复步骤1.1)到步骤1.3）的操作，由于步骤1.1）中查询映射矩阵、键映射矩阵和值映射矩阵初始化的不同，最终会产生多个不同的单头自注意力矩阵；假设重复h次，即计算头数为h的多头自注意力机制，那么会产生h个不同的单头自注意力矩阵Z，将每一个单头自注意力矩阵记为Z_i，其中i∈[1,h]，将每个单头自注意力矩阵连接，即得到最终的多头自注意力矩阵。

1.4）将步骤1.3）得到的最终的多头自注意力矩阵与步骤1.1）得到的值矩阵V相乘，得到多头自注意力机制MHSA的输出结果。

上述步骤2中，所述的非线性前馈神经网络包括线性层、批量归一化层和ReLU激活函数，所述的非线性前馈神经网络为预训练模型，采用非线性前馈神经网络获取遮罩后的自然口语语音特征向量的实现方式如下。

对于每一个给定的自然口语语音，将其转换为梅尔频谱特征序列

，L为梅尔频谱特征序列长度，序列中的元素为特征向量。将序列x进行随机遮罩后，依次通过一个线性层、批量归一化层和ReLU激活函数，得到遮罩后的自然口语语音特征向量e_a，计算公式如下：

其中，W、b表示线性层的参数矩阵，BN表示批量归一化，ReLu为非线性激活函数，Mask为遮罩函数，e_x表示遮罩后的梅尔频谱特征序列。

上述步骤3中，从步骤1的文本特征向量e_p和步骤2的自然口语语音特征向量e_a中提取上下文特征作为上下文信息C，所述的上下文特征包括但不限于音调、基于持续时间扩展后的帧级文本特征向量e_q、音色、频谱、口吃区域等。

所述的帧级文本特征向量e_q是通过持续时间扩展文本特征向量e_p后得到的；例如，持续时间信息d_r=[2,2,2,1]，文本特征向量e_p=[h1,h2,h3,h4]，则扩展后的帧级文本特征向量e_q=[h1,h1,h2,h2,h3,h3,h4]。

如图2所示，将上下文信息C、当前时间步t、扩散过程中当前时间步的梅尔频谱x_t等信息输入扩散模型，以计算上一时间步的梅尔频谱特征，且不断迭代地重建出遮罩部分的原始语音的梅尔频谱特征；其扩散的迭代过程可由如下公式表示：

其中，

为扩散模型，/>

为扩散模型的参数，本实施例中使用的扩散模型基础架构为WaveNet；x_t是扩散过程中第t步的梅尔频谱特征，x_t-1是扩散过程中第t-1步的梅尔频谱特征，C是上下文信息，t表示当前时间步。

在本发明的一项具体实施中，如图3中左半部分所示，所述的扩散模型由输入卷积层、全连接层、若干残差块、输出卷积层等构成，将第t步的频谱x_t作为输入卷积层的输入，将当前时间步t和位置编码作为全连接层的输入，两者的输出结果和上下文信息C共同作为残差块的输入，残差块的输出结果再经输出卷积层后得到第t-1步的梅尔频谱特征x_t-1，直至迭代重建出遮罩区域的梅尔频谱特征x₀作为最终结果输出。

在本发明的一项具体实施中，为了从文本特征向量e_p和自然口语语音特征向量e_a中获取的上下文信息C，需要获取持续时间上下文信息、音调上下文信息、频谱上下文信息、说话人音色上下文信息、口吃区域上下文信息等，如图3中的右半部分所示，具体为：

3.1）持续时间上下文信息

假设当前文本特征向量e_p=[h1,h2,h3,h4]，原始文本的持续时间为d=[2,2,3,1]，将梅尔频谱特征序列中与被遮罩部分相对应的文本区域作为需要修改的文本区域，假设修改的文本区域为h3代表区域，则将对应区域的持续时间进行遮罩，得到遮罩后的持续时间d_Mask=[2,2,Mask,1]。

随后，将遮罩后的持续时间d_Mask、文本特征向量e_p输入到持续时间预测器中，由持续时间预测器预测出遮罩区域的持续时间[2,2,2.3,1]并四舍五入后得到持续时间信息d_r=[2,2,2,1]，所述的持续时间信息d_r作为所需的持续时间上下文信息。

所述的帧级文本特征向量e_q是通过持续时间上下文信息扩展文本特征向量e_p后得到的；例如，持续时间信息d_r=[2,2,2,1]，文本特征向量e_p=[h1,h2,h3,h4]，则扩展后的帧级文本特征向量e_q=[h1,h1,h2,h2,h3,h3,h4]。

3.2）音调上下文信息

假设自然口语语音的帧级音调为p=[p1,p2,p3,p4,p5,p6]，将梅尔频谱特征序列中与被遮罩部分相对应的帧级音调区域作为需要修改的音频区域，假设修改的音频区域为p3、p4代表区域，则将对应区域的帧级音调进行遮罩，得到遮罩后的帧级音调p_Mask=[p1,p2,Mask,Mask,p5,p6]。

随后，将遮罩后的帧级音调p_Mask、帧级文本特征向量e_q输入到音调预测器中，由音调预测器预测出遮罩区域的基频序列F₀，并将基频序列F₀转化成重建后的帧级音调p_r，最后将p_r映射为音调特征向量e_pitch，作为所需的音调上下文信息。

3.3）频谱上下文信息

将步骤2得到的自然口语语音特征向量e_a作为所需的频谱上下文信息。

3.4）说话人音色上下文信息

从自然口语语音中直接提取说话人音色特征向量e_spk，作为说话人音色上下文信息。

3.5）口吃区域上下文信息

采用非线性前馈神经网络从梅尔频谱特征序列X中提取无遮罩的上下文语音特征向量e_b；将帧级文本特征向量e_q、无遮罩的上下文语音特征向量e_b输入到口吃预测器中，由口吃预测器定位语音中的口吃区域S作为口吃区域上下文信息。例如S=[0,0,1,1,0,0,]，则标记1表示口吃位置。

上述步骤4中，利用训练集中自然口语语音和文本之间的一对一关系，计算扩散模型的损失函数项，以及持续时间、音调、口吃预测器的损失函数项，具体为：

（1）扩散模型的损失函数项

计算迭代重建出的遮罩区域的梅尔频谱x₀与遮罩区域的真实梅尔频谱x的L1距离，得到扩散模型的损失函数项：

其中，

表示上下文感知扩散模型的损失函数项，/>

表示上下文感知扩散模型，

表示L1范数，a_t表示t步迭代的去噪系数，/>

表示噪声。

（2）持续时间预测器的损失函数项：

真实持续时间信息d的获取方式为：使用文本-语音强制对齐工具MontrealForced Aligner获取文本与语音的对齐信息，即原始数据集中语音的持续时间信息d。在训练中使用数据集中的真实持续时间信息d对持续时间预测器进行训练，构建均方误差损失函数项：

其中，L_d表示持续时间预测损失，g_d(.)表示持续时间预测器，d_Mask表示遮罩后的持续时间，e_p表示文本特征向量。

（3）音调预测器的损失函数项：

真实帧级音调p的获取方式为：使用音调提取工具ParselMouth获取语音中的音调，即原始数据集中语音的音调。在训练中使用数据集中的真实帧级音调p对音调预测器进行训练，构建均方误差损失函数项：

其中，L_p表示音调预测损失，g_p(.)表示音调预测器，p_Mask表示遮罩后的帧级音调，e_q表示帧级文本特征向量，

表示L2范数的平方。

（4）口吃预测器的损失函数项：

利用真实口吃区域信息对口吃预测器进行训练，构建交叉熵损失函数项：

其中，L_s表示口吃区域预测损失，p(s_i)表示第i帧为口吃的概率，n为帧数。

联合扩散模型的损失函数项，以及持续时间、音调、口吃预测器的损失函数项，对由扩散模型及其时间、音调、口吃预测器组成的上下文感知扩散模型进行联合训练，在训练过程中采用梯度下降学习方法，更新上下文感知扩散模型中的参数。

上述步骤5中，针对待编辑的口语语音，遮罩待编辑区域，分别采用步骤1-3的方法，利用训练后的非线性前馈神经网络获取遮罩后的口语语音特征向量，利用训练后的文本编码器获取目标文本的文本特征向量，利用训练后的上下文感知扩散模型生成编辑后的语音片段。

本发明是根据文本内容和上下文语音特征重建遮罩区域语音的过程，以某一目标文本内容“But what are some other reasons why people might not want to engagein risk？”为例，其对应的含口吃的自然口语语音内容可以是“Emm…but what are someother reasons why people might not want to…to…to engage in risk”。在实际处理过程中，将口吃区域进行遮罩后重建，以达到消除口吃的目的。

首先，采用步骤1中的方法，利用基于自注意力的文本编码器获取目标文本特征向量e_p*。

之后，采用步骤2中的方法对口语语音对应的梅尔频谱特征序列中的口吃区域进行遮罩，得到遮罩后的梅尔频谱特征序列e_x*，进一步采用非线性前馈神经网络获取遮罩后的口语语音特征向量e_a*；

最后，采用步骤3中的方法，从文本特征向量e_p*和自然口语语音特征向量e_a*中获取上下文信息C，将上下文信息C、当前时间步t、扩散过程中当前时间步的梅尔频谱x_t等信息输入扩散模型，以计算上一时间步的梅尔频谱特征，且不断迭代地重建出遮罩部分的梅尔频谱特征，该梅尔频谱特征中已经去除了口吃，根据声码器即可由梅尔频谱特征转换为去除口吃后的语音，完成去除口吃的语音编辑任务。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

本发明在三个真实的语音数据集VCTK、LibriTTS、SASE上进行实验，前两个数据集测试朗读风格语音的语音编辑任务，第三个数据集测试自然口语语音的口吃去除效果。为了客观地评价本发明的性能，本发明在所选出的测试集中，使用了主观和客观两套评价标准来对本发明的效果进行评价，并与下述现有技术的模型进行对比。

对比1. EditSpeech模型，这是一个基于双向自回归解码过程的语音编辑系统，以基于LSTM的语音合成模型为基础架构，通过双向自回归解码来理解上下文信息，提高编辑音频过渡的自然性。

对比2. CampNet模型，这是一个基于文本到频谱跨模态注意力架构的语音编辑系统，以自注意力网络、跨模态注意力网络为基础，通过预测遮罩的频谱部分来进行训练，实现了较高质量的语音编辑效果；

对比3. A3T模型，它是基于文本到频谱对齐信息构建的预训练模型，在VCTK等数据集上达到了最先进的语音编辑效果；

按照具体实施方式中描述的步骤，所得的实验结果如表1至表3所示，本发明方法记为FluentSpeech。

表1：本发明针对于VCTK、LibriSpeech数据集在语音编辑任务上的客观测试结果；

表2：本发明针对于VCTK数据集获得的语音编辑任务的语音质量、音色相似度主观测试（MOS）结果；

表3：本发明针对于SASE数据集在自动去除口吃任务上的主观测试结果，测试人员根据自然度、流畅度两个方面对FluentSpeech和原始语音进行比较，选出偏好的语音；

从表1可以发现，FluentSpeech方法的语音编辑音质在客观标准上明显优于目前最先进的语音编辑算法A3T，在VCTK和LibriTTS两个数据集上的MCD、STOI、PESQ等三个指标均有较大的性能提升。

从表2可以发现，FluentSpeech方法的语音编辑音质、音色相似度在主观标准上明显优于目前所有的语音编辑系统。当测试集中的说话人同时也在训练集中出现过时（Seen），FluentSpeech方法在VCTK上语音质量的主观评分为4.27，音色相似度的主观评分为4.42，达到了较高的编辑效果；同时，当测试集中的说话人并未在训练集中出现时（Unseen），FluentSpeech方法在VCTK上语音质量的主观评分也能达到4.18，音色相似度的主观评分也能达到4.21，也仍然能保持一个高的编辑效果。

从表3可以发现，FluentSpeech在自然口语语音数据集上也能保持接近原始语音的自然度，让测试人员难以在音质上分清原始语音与编辑语音；且能自动的进行去除口吃的操作，使得语音流畅度得到大幅度的提升。

在本实施例中还提供了一种基于上下文感知扩散模型的口吃语音编辑系统，该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能的。

具体的，一种基于上下文感知扩散模型的口吃语音编辑系统，包括：

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可，其余模块的实现方法此处不再赘述。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，图4为本实施例提供的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中系统所在的任意具备数据处理能力的设备通常根据该设备的实际功能，还可以包括其他硬件，对此不再赘述。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，包括：

2.根据权利要求1所述的一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，所述的文本特征向量提取方法为：在给定文本前加上符号<BOS>作为文本中的第0个词，以标记句子开头；获取给定文本的音素序列，利用音素嵌入层将音素序列转换为音素特征向量，再利用文本编码器对音素特征向量编码，生成文本特征向量。

3.根据权利要求2所述的一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，所述的文本编码器采用多头自注意力机制。

4.根据权利要求1所述的一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，所述的上下文信息包括基于持续时间信息扩展后的帧级文本特征向量、音调上下文信息、频谱上下文信息、说话人音色上下文信息和口吃区域上下文信息。

5.根据权利要求4所述的一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，所述的基于上下文感知机制，从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息，具体为：

2.1)基于持续时间信息扩展后的帧级文本特征向量

2.2)音调上下文信息

2.3)频谱上下文信息

将所述的遮罩后的口语语音特征向量作为频谱上下文信息；

2.4)说话人音色上下文信息

2.5)口吃区域上下文信息

6.根据权利要求1所述的一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，所述的迭代计算上一时间步的梅尔频谱特征，计算公式如下：

x_t-1＝f_θ(x_t|t,C)

其中，f_θ(.)为扩散模型，θ为扩散模型的参数，x_t是扩散过程中第t步的梅尔频谱特征，x_t-1是扩散过程中第t-1步的梅尔频谱特征，C是上下文信息，t表示当前时间步。

7.根据权利要求6所述的一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，所述的扩散模型包括输入卷积层、全连接层、若干残差块和输出卷积层；所述的扩散过程中当前时间步的梅尔频谱特征作为输入卷积层的输入，将当前时间步和位置编码作为全连接层的输入，输入卷积层和全连接层的输出结果与上下文信息共同作为残差块的输入，残差块的输出结果再经输出卷积层后得到上一时间步的梅尔频谱特征。

8.根据权利要求6所述的一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，所述的上下文感知机制的损失函数项包括持续时间预测器的均方误差损失函数项、音调预测器的均方误差损失函数项和口吃预测器的交叉熵损失函数项。

9.一种基于上下文感知扩散模型的口吃语音编辑系统，其特征在于，包括：

10.根据权利要求9所述的一种基于上下文感知扩散模型的口吃语音编辑系统，其特征在于，所述的口语语音预处理模块在训练阶段时对口语语音进行随机遮罩，在实际编辑阶段时对口语语音的口吃区域进行遮罩。