CN116189653A

CN116189653A - 跨语句条件相干的语音编辑方法、系统及终端

Info

Publication number: CN116189653A
Application number: CN202310146999.XA
Authority: CN
Inventors: 郁程; 李阳; 祖伟钦; 孙芳蕾; 田政; 汪军
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2023-01-13
Filing date: 2023-02-21
Publication date: 2023-05-30

Abstract

本发明的跨语句条件相干的语音编辑方法、系统及终端，通过具有将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图，能够高保真地重建原始波形的未修改区域。通过使用整体推断而非部分推断，拼接导致的衔接处不连贯得以被彻底避免。此外，与现有的部分推理编辑系统相比，本发明的整体推理方法不会消耗额外的资源。

Description

跨语句条件相干的语音编辑方法、系统及终端

技术领域

本发明涉及语音编辑领域，特别是涉及一种跨语句条件相干的语音编辑方法、系统及终端。

背景技术

语音编辑可应用于具有个性化语音需求和对语音自然度更高要求的各种领域，包括社交媒体上的视频制作、游戏和电影配音等。传统的语音编辑工具允许用户进行去噪、调整音量、剪切、复制和粘贴波形等功能。其中，当需要编辑的音频文本需要修改时，传统语音编辑工作会相对繁琐。尤其当不在音频转录文本中的新单词出现时，只能重新录制相应片段，再与原音频进行剪辑拼接。然而，录制环境的改变与说话者状态的变化，均可能导致重新录制的语音片段与原始语音在背景噪音、响度与音调节奏存在差异，剪辑拼接后的听感会不够自然。

为了减轻音频录制者与后期的工作量，基于文本转录的语音编辑是一种正在兴起的音频编辑技术。这一技术能够根据内容编辑者更改的文本，合成与原始音频的音调和音色相匹配的语音。因此，与其编辑原始音频，可以通过修改原始音频对应的文本转录来减轻编辑负担。

然而，现有基于文本转录的语音编辑系统在推理时，均采用了部分推理，而非整体推理。具体来说，现有编辑系统的直接输出完整的波形或梅尔谱图，其与编辑后的整句转录文本是相对应的。但是为了提高与原始音频的相似性，现有方法需要额外地截取必须修改的片段，再将其插入原始波形或梅尔谱图。

举例来说，过去的工作，基于数字信号处理(DSP)部分克服了在不同场景中直接连接音频所产生的韵律失配问题。利用神经网络预测韵律信息，并集成TD-PSOLA算法、去噪和去混响实现韵律修改的方法。尽管上述系统支持剪切、复制和粘贴操作，但不能插入或替换同一说话人的语音数据中不存在的新词。近年来的研究应用文语转换(TTS)系统来合成缺失的插入词。VoCo使用可比较的TTS语音合成插入词，然后使用语音转换(VC)模型将其转换为适合目标说话人。EditSpeech提出了部分推理和双向融合方法，以实现编辑边界处的平滑过渡。CampNet在基于Transformer的上下文感知神经网络上进行掩码训练，以提高编辑语音的质量。最近，一种能够感知对齐声学文本预训练方式被提出(A3T)，该框架通过文本输入和训练期间的声学文本对齐来高质量地重建被掩盖的声学信号，可以直接应用于语音编辑。如上所述，至今为止的语音编辑系统均采用部分推理方式，因此难以避免拼接处的不连贯，并且无法处理文本修改后语气语境的变化。这种编辑的方式虽然尽可能地保留了原始音频，但也会导致以下潜在问题：

问题一：部分推断人为地将编辑区的预测声学特征插入原始波形的相应位置，因此编辑区边界附近的不连续性在一定程度上几乎是不可避免的。同时，现有的基于部分推理的语音编辑系统的直接输出仍然是包括上下文片段在内的整句音频。因此，与整体推理相比，它不会节约更多的时间或计算资源。

问题二：文本被修改后，音调和韵律也会相应改变。也就是说，不应该盲目追求让修改后的文本所对应的音频听起来与原始音频完全相同。一个特别的例子是，当一般疑问句可以修改为陈述句时，部分推理几乎无法处理语气的变化，因为这种做法直接使用了原始的音频片段。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种跨语句条件相干的语音编辑方法、系统及终端，用于解决现有技术中以上技术问题。

为实现上述目的及其他相关目的，本发明提供一种跨语句条件相干的语音编辑方法，所述方法包括：获取待编辑的语音输入信息；其中，所述语音输入信息包括：初始梅尔谱图、当前转录文本语句及其前后的相同目标个数的文本语句；基于掩码训练的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图；其中，所述语音编辑模型包括：将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器。

于本发明的一实施例中，所述变分自动编码器包括：音素转换模块，用于将输入的当前转录文本语句转换为音素序列信息；语境信息捕获模块，用于对由当前转录文本语句及其前后的相同目标个数的文本语句重组的各语句对分别捕获语境信息，生成对应各语句对的BERT嵌入信息；上下文嵌入模块，连接所述音素转换模块以及语境信息捕获模块，用于基于所述音素序列信息、目标说话人特征信息以及各BERT嵌入信息获得跨语句表征输出数据以及音素持续时间；编辑模块，连接所述上下文嵌入模块，用于基于所述初始梅尔谱图、跨语句表征输出数据以及音素持续时间生成对应的编辑语音数据并输出，以供所述解码器对其解码获得对应的编辑梅尔谱图。

于本发明的一实施例中，所述上下文嵌入模块包括：编码子模块，用于对所述音素序列信息以及目标说话人特征信息进行编码；融合子模块，连接所述编码子模块，用于将编码后的所述音素序列信息、目标说话人特征信息与各BERT嵌入信息进行融合，以获得跨语句表征输出数据并输出；时间预测子模块，连接所述融合子模块，用于基于所述跨语句表征输出数据进行时间预测并调节，以输出音素持续时间。

于本发明的一实施例中，所述时间预测子模块包括：持续时间预测器，用于基于跨语句表征输出数据获得预测音素持续时间；持续时间调节器，连接所述持续时间预测器，用于基于所述预测音素持续时间进行调节获得音素持续时间。

于本发明的一实施例中，所述编辑模块包括：替换处理子模块，用于基于对应目标删除位置区域的删除指示符以及对应目标添加位置区域的添加指示符，对所述初始梅尔谱图进行替换处理获得对应的均值序列处理数据以及方差序列处理数据；上下文语句处理子模块，用于基于两个一维卷积模块，根据跨语句表征输出数据以及音素持续时间获得对应的跨语句均值序列数据以及跨语句方差序列数据；编辑输出子模块，连接所述替换处理子模块以及所述上下文语句处理子模块，用于根据均值序列处理数据、方差序列处理数据、跨语句均值序列数据以及跨语句方差序列数据获得编辑参数，以生成对应的编辑语音数据并输出。

于本发明的一实施例中，所述替换处理子模块包括：删除编辑单元，用于基于对应目标删除位置区域的删除指示符对梅尔谱图进行修改，并基于两个一维卷积模块获得第一均值序列数据以及第一方差序列数据；添加编辑单元，连接所述删除编辑单元，用于基于对应目标添加位置区域的添加指示符对所述第一均值序列数据以及第一方差序列数据进行修改，以获得均值序列处理数据以及方差序列处理数据。

于本发明的一实施例中，所述添加编辑单元包括：第一处理子单元，用于基于对应目标位置区域的所述添加指示符，将所述第一均值序列数据以及第一方差序列数据分别插入与目标添加位置区域长度相同的序列，以生成第二均值序列数据以及第二方差序列数据；第二处理子单元，连接所述第一处理子单元，用于对第二均值序列数据以及第二方差序列数据进行一维卷积获得均值序列处理数据以及方差序列处理数据。

于本发明的一实施例中，所述语音编辑模型采用损失函数进行掩码训练获得；其中，所述损失函数包括：非掩码损失函数以及掩码损失函数。

为实现上述目的及其他相关目的，本发明提供一种跨语句条件相干的语音编辑系统，所述系统包括：获取模块，用于获取待编辑的语音输入信息；其中，所述语音输入信息包括：初始梅尔谱图、当前转录文本语句及其前后的相同目标个数的文本语句；编辑模块，连接所述获取模块，用于基于掩码训练的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图；其中，所述语音编辑模型包括：将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器。

为实现上述目的及其他相关目的，本发明提供一种跨语句条件相干的语音编辑终端，包括：一或多个存储器及一或多个处理器；所述一或多个存储器，用于存储计算机程序；所述一或多个处理器，连接所述存储器，用于运行所述计算机程序以执行所述跨语句条件相干的语音编辑方法。

如上所述，本发明是一种跨语句条件相干的语音编辑方法、系统及终端，具有以下有益效果：本发明通过具有将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图，能够高保真地重建原始波形的未修改区域。通过使用整体推断而非部分推断，拼接导致的衔接处不连贯得以被彻底避免。此外，与现有的部分推理编辑系统相比，本发明的整体推理方法不会消耗额外的资源。

附图说明

图1显示为本发明一实施例中的跨语句条件相干的语音编辑方法的流程示意图。

图2显示为本发明一实施例中的变分自动编码器的结构示意图。

图3显示为本发明一实施例中的上下文嵌入模块的结构示意图。

图4显示为本发明一实施例中的编辑模块的结构示意图。

图5显示为本发明一实施例中的语音编辑模型的结构示意图。

图6显示为本发明一实施例中的跨语句条件相干的语音编辑系统的结构示意图。

图7显示为本发明一实施例中的跨语句条件相干的语音编辑终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本发明。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在通篇说明书中，当说某部分与另一部分“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部分“包括”某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素，排除在外，而是意味着可以还包括其它构成要素。

其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的，但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此，以下叙述的第一部分、成分、区域、层或段在不超出本发明范围的范围内，可以言及到第二部分、成分、区域、层或段。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

音频编辑旨在使用户能够基于语音记录执行选择、剪切、复制和粘贴操作。一些先进的基于神经网络的编辑系统进行部分推理而非整体，即只生成需要替换或插入的新词，这通常会导致编辑部分的韵律与之前和后续语音不一致。

本发明提供一种跨语句条件相干的语音编辑方法、系统及终端，通过具有将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图，能够高保真地重建原始波形的未修改区域。通过使用整体推断而非部分推断，拼接导致的衔接处不连贯得以被彻底避免。此外，与现有的部分推理编辑系统相比，本发明的整体推理方法不会消耗额外的资源。

下面以附图为参考，针对本发明的实施例进行详细说明，以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现，并不限于此处说明的实施例。

如图1展示本发明实施例中的一种跨语句条件相干的语音编辑方法的流程示意图。

步骤S1：获取待编辑的语音输入信息。

具体的，所述语音输入信息包括：从原始波形中提取的初始梅尔谱图x_i、当前转录文本语句u_i及其前后的相同目标个数L的文本语句，即共同组成2L+1句语句：u_i-L，u_i-L+1，...，u_i-1，u_i，...u_i+L-1，u_i+L。

步骤S2：基于掩码训练的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图。

详细来说，所述语音编辑模型包括：将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器；具体的，将语音输入信息输入变分自动编码器提取音频特征和上下文语义信息进行编码，再输入到解码器进行相应的解码获得对应的编辑梅尔谱图。

在一实施例中，如图2所示，所述变分自动编码器包括：

音素转换模块1，用于将输入的当前转录文本语句u_i转换为音素序列信息p_i；具体的，通过使用文本到音素转换工具(G2P)，转录文本语句u_i被转换为音素p_i。此外，每个音素的开始和结束时间可以通过蒙特利尔强制对齐提取。

语境信息捕获模块2，用于对由当前转录文本语句及其前后的相同目标个数的文本语句重组的各语句对分别捕获语境信息，生成对应各语句对的BERT嵌入信息；

具体的，将2L+1句语句：u_i-L，u_i-L+1，...，u_i-1，u_i，...u_i+L-1，u_i+L重组为2L个语句对：即[(u_i-L，u_i-L+1)，...，(u_i-1，u_i)，(u_i+L-1，u_i+L)]；并使用预训练语言模型BERT捕获语境信息，从而生成2L个BERT嵌入，即[b_-L，b_-L+1，...，b_L-1]。

上下文嵌入模块3，连接所述音素转换模块1以及语境信息捕获模块2，用于基于所述音素序列信息p_i、目标说话人特征信息Si以及各BERT嵌入信息获得跨语句表征输出数据H_i以及音素持续时间D′_i；其中，所述目标说话人特征信息Si可以根据具体需求而设定。

编辑模块4，连接所述上下文嵌入模块3，用于基于所述初始梅尔谱图x_i、跨语句表征输出数据H_i以及音素持续时间D′_i生成对应的编辑语音数据并输出，以供所述解码器对其解码获得对应的编辑梅尔谱图。

在一实施例中，所述上下文嵌入模块3包括：

编码子模块，用于对所述音素序列信息p_i以及目标说话人特征信息Si进行编码；

融合子模块，连接所述编码子模块，用于将编码后的所述音素序列信息、目标说话人特征信息与各BERT嵌入信息进行融合，以获得跨语句表征输出数据H_i并输出；

时间预测子模块，连接所述融合子模块，用于基于所述跨语句表征输出数据H_i进行时间预测并调节，以输出音素持续时间D′_i。

在一实施例中，所述时间预测子模块包括：

持续时间预测器，用于基于跨语句表征输出数据H_i获得预测音素持续时间D_i；

持续时间调节器，连接所述持续时间预测器，用于基于所述预测音素持续时间D_i进行调节获得音素持续时间D′_i。

在一具体实施例中，为了更有效利用原始音频所包含的说话人信息，并且使得编辑区域与未编辑区域的说话速率一致，类似于EditSpeech和A3T的方法，我们通过原始音频与预测的未编辑区域音频持续时间，以进一步精细化地调节编辑区域的音素持续时间

/>

其中∑D_Unedit和

分别表示未编辑区域所有音素真实与预测持续时间之和，/>

表示调整后的编辑区域持续时间。在后续推理梅尔谱图时，未编辑区域使用真实时间D_Unedit，编辑区域使用精细化调整后的/>

以重建贴近真实说话节奏的音频。

在一具体实施例中，如图3所示，分别利用Transformer编码器以及说话人编码器对所述音素序列信息p_i以及目标说话人特征信息Si进行编码；并通过多头部注意层利用各BERT嵌入信息进一步捕获上下文语境语义信息，再将捕获的上下文语境语义信息与编码后的所述音素序列信息p_i以及目标说话人特征信息Si进行融合，再利用线性映射层获得跨语句表征输出数据H_i；再经过持续时间预测器基于跨语句表征输出数据H_i获得预测音素持续时间D_i，最后再经过训练模型获得的持续时间调节器进行调节获得音素持续时间D′_i。

在一实施例中，编辑模块4旨在克服现有语音编辑系统无法恢复未修改的音频部分，从而不得不将修改的部分与原始梅尔谱图或音频拼接的缺陷。具体实现细节如下：

所述编辑模块4包括：

替换处理子模块，用于基于对应目标删除位置区域的删除指示符以及对应目标添加位置区域的添加指示符，对所述初始梅尔谱图x_i进行替换处理获得对应的均值序列处理数据μ’以及方差序列处理数据σ’；具体的，由于编辑中的替换操作可以被视为添加前的删除，因此我们可以仅使用两个标志来指示删除和添加相应内容的位置，记为Flag_del和Flag_add。记原始语音的对应的转录文本为[u_a，u_b，u_c]，相应地，文本所对应的音素可以记为p_i＝[p_a，p_b，p_c]，原始语音的梅尔谱图记为x_i＝[x_a，x_b，x_c]。

删除指示符，删除过程使用户能够删除与一组特定单词相关联的语音波形段。删除后要合成的目标语句是[u_a，u_c]，其中u_b是被删除的部分。通过比较编辑前后的话语，我们可以得到相应的删除指示符Flag_del＝[0_a，1_b，0_c]，该指示符是一个0-1序列，用于后续指示梅尔谱图的编辑。

添加指示符，与删除操作不同，插入或替换后的目标合成语音基于编辑后的文本[u_a，u_b’，u_c]，其中u_b’替换了u_b的内容。插入过程可以被视为

的特殊情况。类似删除操作，我们可以得到添加指示符Flag_add＝[0_a，1_b’，0_c]。

上下文语句处理子模块，用于基于两个一维卷积模块，根据跨语句表征输出数据H_i以及音素持续时间D′_i获得对应的跨语句均值序列数据μ_prior以及跨语句方差序列数据σ_prior；

编辑输出子模块，连接所述替换处理子模块以及所述上下文语句处理子模块，用于根据均值序列处理数据μ’、方差序列处理数据σ’、跨语句均值序列数据μ_prior以及跨语句方差序列数据σ_prior获得编辑参数Z，以生成对应的编辑语音数据并输出。

具体的，获得编辑参数Z的方式包括：编辑模块能够从估计的先验中完成采样，并被重新参数化为：

其中

是元素加法和乘法操作。z_prior从特定语句先验采样，输入为跨语句表征输出H和持续时间D，重新参数化如下所示：/>

其中，μ_prior与σ_prior从语句特定的先验模块中学习，∈从标准高斯中采样。

在一实施例中，所述替换处理子模块包括：

删除编辑单元，用于基于对应目标删除位置区域的删除指示符对梅尔谱图进行修改，并基于两个一维卷积模块获得第一均值序列数据以及第一方差序列数据；具体的，基于删除指示符Flag_del，x_i被修改为[x_a，x_c]，通过两个一维卷积学习到均值μ与方差σ。

添加编辑单元，连接所述删除编辑单元，用于基于对应目标添加位置区域的添加指示符对所述第一均值序列数据以及第一方差序列数据进行修改，以获得均值序列处理数据以及方差序列处理数据。

在一具体实施中，所述添加编辑单元包括：

第一处理子单元，用于基于对应目标位置区域的所述添加指示符，将所述第一均值序列数据以及第一方差序列数据分别插入与目标添加位置区域长度相同的序列，以生成第二均值序列数据以及第二方差序列数据；具体的，根据添加指示符Flag_add，在μ与σ的相应位置添加0与1序列，即

与/>

其中0序列与1序列的长度与b’一致。因此，不同于CUCVAE中的模块输入为编辑前未经修改的音频，为了贴近音频编辑场景，本发明中编辑区域生成的语音从上下文语句先验中采样，而无需编辑的区域的音频从真实音频和上下文语句先验中采样。

第二处理子单元，连接所述第一处理子单元，用于对第二均值序列数据以及第二方差序列数据进行一维卷积获得均值序列处理数据以及方差序列处理数据。并且为了使得编辑边界更加连贯，第二均值序列数据以及第二方差序列数据

与/>

进一步通过一维卷积生成均值序列处理数据以及方差序列处理数据μ’与σ’。

在一具体实施例中，如图4所示，基于删除指示符Flag_del，x_i被修改为[x_a，x_c]，通过两个一维卷积学习到均值μ_i与方差σ_i。再基于添加指示符Flag_add，通过上采样层在μ与σ的相应位置添加0与1序列，即

与/>

再通过一维卷积生成均值序列处理数据以及方差序列处理数据μ’与σ’，实现其编辑区域生成的语音从上下文语句先验中采样，而无需编辑的区域的音频从真实音频和上下文语句先验中采样。基于两个一维卷积模块，根据跨语句表征输出数据H_i以及音素持续时间D′_i从语句特定的先验模块中学习获得对应的跨语句均值序列数据μ_prior以及跨语句方差序列数据σ_prior，进而计算从特定语句先验采样获得的z_prior，再从估计的先验中完成采样，并被重新参数化得到编辑参数z，生成对应的编辑语音数据并输出。

在一实施例中，为了重构掩码部分的波形，声学模型的常用损失函数是重建梅尔谱图和原始梅尔谱图之间的平均绝对误差(MAE)，并且类似于BERT中的做法，为了使系统更专注于掩码部分，仅计算掩码区域的损失。然而，在推理过程中，系统需要合成符合修改后文本上下文语境的连贯音频。由此，在语音编辑的场景下，不关注非掩码部分的损失是不合适的。

因此，为了平衡接近原始音频以及生成符合上下文韵律的新音频这两个目的，我们考虑了非掩码部分的损失，并且为了使系统更专注于编辑区域的生成质量，我们增加了掩码部分的损失权重。

即，所述语音编辑模型采用损失函数进行掩码训练获得；其中，所述损失函数包括：非掩码损失函数以及掩码损失函数。

优选的实施例中，损失函数如下所示：

其中，掩码部分和非掩码部分的损失权重为λ。

和/>

分别表示第i帧的预测和目标真实梅尔谱图。

实验中将权重λ设置为1.5，这一权重能够生成的编辑音频能够连贯的同时，亦保留原始音频的韵律特征。

为了更好的说明上述跨语句条件相干的语音编辑方法，本发明提供以下具体实施例。

实施例1：一种跨语句条件相干的语音编辑模型。如图5为语音编辑模型的框架结构图。

所述模型包括：带掩码训练的变分自动编码器以及解码器；

其中，所述变分自动编码器包括：使用文本到音素转换工具(G2P)、预训练语言模型BERT、编辑模块与上下文语句嵌入模块；

所述模型的输入包括从原始波形中提取的梅尔谱图x_i、当前转录文本语句u_i及其前后的句语句作为输入，通过使用文本到音素转换工具(G2P)，转录文本语句u_i被转换为音素p_i。同时，2L+1句语句被重组成2L个语句对，即[(u_i-L，u_i-L+1)，...，(u_i-1，u_i)，(u_i+L-1，u_i+L)]，并使用预训练语言模型BERT捕获语境信息，从而生成2L个BERT嵌入，即[b_-L，b_-L+1，...，b_L-1]。

所述上下文语句嵌入模块分别利用Transformer编码器以及说话人编码器对所述音素序列信息p_i以及目标说话人特征信息Si进行编码；并通过多头部注意层利用各BERT嵌入信息进一步捕获上下文语境语义信息，再将捕获的上下文语境语义信息与编码后的所述音素序列信息p_i以及目标说话人特征信息Si进行融合，再利用线性映射层获得跨语句表征输出数据H_i；再经过持续时间预测器基于跨语句表征输出数据H_i获得预测音素持续时间D_i，最后再经过训练模型获得的持续时间调节器进行调节获得音素持续时间D′_i。

所述编辑模块，基于删除指示符Flag_del，x_i被修改为[x_a，x_c]，通过两个一维卷积学习到均值μ_i与方差σ_i。再基于添加指示符Flag_add，通过上采样层在μ与σ的相应位置添加0与1序列，即

与/>

语音编辑模型还采用考虑了非掩码部分的损失的损失函数进行模型训练，训练阶段设置的损失偏差，能促使系统在训练期间更专注于掩码片段，即需要重建的部分梅尔谱图。

再将由变分自动编码器输出的编辑数据交由解码器解码获得对应的编辑梅尔谱图，再由声码器转换为音频数据输出。

本实施例提出的模型性能通过定性听力测试和定量测量进行评估。主观听力测试中，我们抽取15个合成音频进行了主观听力测试，召集了20名志愿者对语音样本的自然度进行最高为5分的主观意见评分评估(MOS)，并提供了95％的置信区间和p值。除主观人意见评分外，F0帧错误(FFE)，梅尔倒谱失真度(MCD)和词错误率(WER)均在512个测试样本上进行评估。在多人数据集(LibriTTS)上进行多种编辑操作的实验结果表明，本实施例提出的系统在自然度和韵律一致性上均优于部分推理方法。

根据表1所示的MOS自然度得分，我们的整体推理模型的自然度与最差方法相比，具有0.5分左右的优势。替换操作的差距更为显著是因为基于部分推理的语音编辑系统很难处理语调转换。同时，由于基于梅尔谱的部分推理系统高度依赖于MFA的准确性，其在删除操作上的表现相对更差，尤其是短词被删除，其性能可能比基于波形的人为精细的删除方式。此外，基于波形的部分推理在插入和替换自然度MOS分数相对较低，是因为其涉及插入新词，并且原始音频和生成的音频之间存在不和谐。

MOS相似性得分表明，基于波形的部分推理与原始波形最为相似，这是合理且符合预期的。同时，本实施例基于整体推理的系统性能也够相当接近部分推理，最大差值仅为0.2。客观的重建性能上，本实施例与基于部分推理的编辑系统的结果接近，证明了我们的编辑模块能够高质量地重建梅尔谱图。

表1基于梅尔谱或波形的部分推理系统和整体推理(本实施例)的客观和主观结果

表2中显著性分析的p值更直观地表明了，除了在删除情况下，本实施例的编辑音频在自然度上均显著优于两种部分推理的系统。删除操作下没有显著差异是因为基于波形的整体推理是通过人为地精细定位，因此在删除操作上的表现较好，然而在插入或替换时，一旦涉及新词的插入，这一方法便会显著差于本实施例提出的系统。此外，本实施例和部分推理在与真实音频的相似性上没有显著差异。进一步表明了本实施例能够高保真地重建原始音频的声学特征，并且合成语音的韵律符合编辑后的语义语境。

表2在自然度和相似性MOS分数上，使用整体推理(本实施例)与两种部分推理系统的显著性分析结果

因此，本实施例提出的系统旨在利用基于语境信息的条件变分自动编码器的重构能力，高保真地重构音频中无需修改的部分，并且根据编辑后的转录文本，能够合成与原始音频韵律节奏一致的新音频。在训练过程中，随机屏蔽部分音频以模拟音频编辑的效果。在推理时，系统可以利用说话人信息、上下文特征和原始语音中未编辑片段的梅尔谱图来高质量地重建语音。

与上述实施例原理相似的是，本发明提供一种跨语句条件相干的语音编辑系统。

以下结合附图提供具体实施例：

如图6展示本发明实施例中的一种跨语句条件相干的语音编辑系统的结构示意图。

所述系统包括：

获取模块61，用于获取待编辑的语音输入信息；其中，所述语音输入信息包括：初始梅尔谱图、当前转录文本语句及其前后的相同目标个数的文本语句；

编辑模块62，连接所述获取模块61，用于基于掩码训练的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图；

其中，所述语音编辑模型包括：将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器。

由于该跨语句条件相干的语音编辑系统的实现原理已在前述实施例中进行了叙述，因此此处不作重复赘述。

在一实施例中，所述系统包括：获取待编辑的语音输入信息；其中，所述语音输入信息包括：初始梅尔谱图、当前转录文本语句及其前后的相同目标个数的文本语句；基于掩码训练的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图；其中，所述语音编辑模型包括：将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器。

在一实施例中，所述变分自动编码器包括：音素转换模块，用于将输入的当前转录文本语句转换为音素序列信息；语境信息捕获模块，用于对由当前转录文本语句及其前后的相同目标个数的文本语句重组的各语句对分别捕获语境信息，生成对应各语句对的BERT嵌入信息；上下文嵌入模块，连接所述音素转换模块以及语境信息捕获模块，用于基于所述音素序列信息、目标说话人特征信息以及各BERT嵌入信息获得跨语句表征输出数据以及音素持续时间；编辑模块，连接所述上下文嵌入模块，用于基于所述初始梅尔谱图、跨语句表征输出数据以及音素持续时间生成对应的编辑语音数据并输出，以供所述解码器对其解码获得对应的编辑梅尔谱图。

在一实施例中，所述上下文嵌入模块包括：编码子模块，用于对所述音素序列信息以及目标说话人特征信息进行编码；融合子模块，连接所述编码子模块，用于将编码后的所述音素序列信息、目标说话人特征信息与各BERT嵌入信息进行融合，以获得跨语句表征输出数据并输出；时间预测子模块，连接所述融合子模块，用于基于所述跨语句表征输出数据进行时间预测并调节，以输出音素持续时间。

在一实施例中，所述时间预测子模块包括：持续时间预测器，用于基于跨语句表征输出数据获得预测音素持续时间；持续时间调节器，连接所述持续时间预测器，用于基于所述预测音素持续时间进行调节获得音素持续时间。

在一实施例中，所述编辑模块包括：替换处理子模块，用于基于对应目标删除位置区域的删除指示符以及对应目标添加位置区域的添加指示符，对所述初始梅尔谱图进行替换处理获得对应的均值序列处理数据以及方差序列处理数据；上下文语句处理子模块，用于基于两个一维卷积模块，根据跨语句表征输出数据以及音素持续时间获得对应的跨语句均值序列数据以及跨语句方差序列数据；编辑输出子模块，连接所述替换处理子模块以及所述上下文语句处理子模块，用于根据均值序列处理数据、方差序列处理数据、跨语句均值序列数据以及跨语句方差序列数据获得编辑参数，以生成对应的编辑语音数据并输出。

在一实施例中，所述替换处理子模块包括：删除编辑单元，用于基于对应目标删除位置区域的删除指示符对梅尔谱图进行修改，并基于两个一维卷积模块获得第一均值序列数据以及第一方差序列数据；添加编辑单元，连接所述删除编辑单元，用于基于对应目标添加位置区域的添加指示符对所述第一均值序列数据以及第一方差序列数据进行修改，以获得均值序列处理数据以及方差序列处理数据。

在一实施例中，所述添加编辑单元包括：第一处理子单元，用于基于对应目标位置区域的所述添加指示符，将所述第一均值序列数据以及第一方差序列数据分别插入与目标添加位置区域长度相同的序列，以生成第二均值序列数据以及第二方差序列数据；第二处理子单元，连接所述第一处理子单元，用于对第二均值序列数据以及第二方差序列数据进行一维卷积获得均值序列处理数据以及方差序列处理数据。

在一实施例中，所述语音编辑模型采用损失函数进行掩码训练获得；其中，所述损失函数包括：非掩码损失函数以及掩码损失函数。

如图7展示本发明实施例中的跨语句条件相干的语音编辑终端70的结构示意图。

所述跨语句条件相干的语音编辑终端70包括：存储器71及处理器72所述存储器71用于存储计算机程序；所述处理器72运行计算机程序实现如图1所述的跨语句条件相干的语音编辑方法。

可选的，所述存储器71的数量均可以是一或多个，所述处理器72的数量均可以是一或多个，而图7中均以一个为例。

可选的，所述跨语句条件相干的语音编辑终端70中的处理器72会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器71中，并由处理器72来运行存储在第一存储器71中的应用程序，从而实现如图1所述跨语句条件相干的语音编辑方法中的各种功能。

可选的，所述存储器71，可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备；所述处理器72，可能包括但不限于中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选的，所述处理器72可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供计算机可读存储介质，存储有计算机程序，所述计算机程序运行时实现如图1所示的跨语句条件相干的语音编辑方法。所述计算机可读存储介质可包括，但不限于，软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

综上所述，本发明的跨语句条件相干的语音编辑方法、系统及终端，通过具有将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图，能够高保真地重建原始波形的未修改区域。通过使用整体推断而非部分推断，拼接导致的衔接处不连贯得以被彻底避免。此外，与现有的部分推理编辑系统相比，本发明的整体推理方法不会消耗额外的资源。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种跨语句条件相干的语音编辑方法，其特征在于，所述方法包括：

获取待编辑的语音输入信息；其中，所述语音输入信息包括：初始梅尔谱图、当前转录文本语句及其前后的相同目标个数的文本语句；

基于掩码训练的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图；

2.根据权利要求1中所述的跨语句条件相干的语音编辑方法，其特征在于，所述变分自动编码器包括：

音素转换模块，用于将输入的当前转录文本语句转换为音素序列信息；

语境信息捕获模块，用于对由当前转录文本语句及其前后的相同目标个数的文本语句重组的各语句对分别捕获语境信息，生成对应各语句对的BERT嵌入信息；

上下文嵌入模块，连接所述音素转换模块以及语境信息捕获模块，用于基于所述音素序列信息、目标说话人特征信息以及各BERT嵌入信息获得跨语句表征输出数据以及音素持续时间；

编辑模块，连接所述上下文嵌入模块，用于基于所述初始梅尔谱图、跨语句表征输出数据以及音素持续时间生成对应的编辑语音数据并输出，以供所述解码器对其解码获得对应的编辑梅尔谱图。

3.根据权利要求2中所述的跨语句条件相干的语音编辑方法，其特征在于，所述上下文嵌入模块包括：

编码子模块，用于对所述音素序列信息以及目标说话人特征信息进行编码；

融合子模块，连接所述编码子模块，用于将编码后的所述音素序列信息、目标说话人特征信息与各BERT嵌入信息进行融合，以获得跨语句表征输出数据并输出；

时间预测子模块，连接所述融合子模块，用于基于所述跨语句表征输出数据进行时间预测并调节，以输出音素持续时间。

4.根据权利要求3中所述的跨语句条件相干的语音编辑方法，其特征在于，所述时间预测子模块包括：

持续时间预测器，用于基于跨语句表征输出数据获得预测音素持续时间；

持续时间调节器，连接所述持续时间预测器，用于基于所述预测音素持续时间进行调节获得音素持续时间。

5.根据权利要求2中所述的跨语句条件相干的语音编辑方法，其特征在于，所述编辑模块包括：

替换处理子模块，用于基于对应目标删除位置区域的删除指示符以及对应目标添加位置区域的添加指示符，对所述初始梅尔谱图进行替换处理获得对应的均值序列处理数据以及方差序列处理数据；

上下文语句处理子模块，用于基于两个一维卷积模块，根据跨语句表征输出数据以及音素持续时间获得对应的跨语句均值序列数据以及跨语句方差序列数据；

编辑输出子模块，连接所述替换处理子模块以及所述上下文语句处理子模块，用于根据均值序列处理数据、方差序列处理数据、跨语句均值序列数据以及跨语句方差序列数据获得编辑参数，以生成对应的编辑语音数据并输出。

6.根据权利要求5中所述的跨语句条件相干的语音编辑方法，其特征在于，所述替换处理子模块包括：

删除编辑单元，用于基于对应目标删除位置区域的删除指示符对梅尔谱图进行修改，并基于两个一维卷积模块获得第一均值序列数据以及第一方差序列数据；

7.根据权利要求6中所述的跨语句条件相干的语音编辑方法，其特征在于，所述添加编辑单元包括：

第一处理子单元，用于基于对应目标位置区域的所述添加指示符，将所述第一均值序列数据以及第一方差序列数据分别插入与目标添加位置区域长度相同的序列，以生成第二均值序列数据以及第二方差序列数据；

第二处理子单元，连接所述第一处理子单元，用于对第二均值序列数据以及第二方差序列数据进行一维卷积获得均值序列处理数据以及方差序列处理数据。

8.根据权利要求1中所述的跨语句条件相干的语音编辑方法，其特征在于，所述语音编辑模型采用损失函数进行掩码训练获得；其中，所述损失函数包括：非掩码损失函数以及掩码损失函数。

9.一种跨语句条件相干的语音编辑系统，其特征在于，所述系统包括：

获取模块，用于获取待编辑的语音输入信息；其中，所述语音输入信息包括：初始梅尔谱图、当前转录文本语句及其前后的相同目标个数的文本语句；

编辑模块，连接所述获取模块，用于基于掩码训练的语音编辑模型，根据待编辑的语音信息获得对应的编辑梅尔谱图；

10.一种跨语句条件相干的语音编辑终端，其特征在于，包括：一或多个存储器及一或多个处理器；

所述一或多个存储器，用于存储计算机程序；

所述一或多个处理器，连接所述存储器，用于运行所述计算机程序以执行如权利要求1-8中任一项所述的方法。