CN116403564B

CN116403564B - 一种音频编辑方法及装置、电子设备及存储介质

Info

Publication number: CN116403564B
Application number: CN202310538558.4A
Authority: CN
Inventors: 陶建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-09-26
Anticipated expiration: 2043-05-15
Also published as: CN116403564A

Abstract

本公开涉及一种音频编辑方法及装置、电子设备及存储介质，所述方法包括：确定待编辑音频对应声学特征的掩码区域；对待编辑音频对应声学特征的掩码区域进行掩码；从掩码后声学特征中提取中性音频特征；根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频，能够让用户自由选择所需的情感风格，以增强生成音频的表现力和自然度。

Description

一种音频编辑方法及装置、电子设备及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种音频编辑方法及装置、电子设备及存储介质。

背景技术

随着互联网的快速发展，各种媒体平台应运而生，在这些媒体格式中，语音起着至关重要的作用。基于文本的语音编辑技术，即通过直接编辑转录稿来修改语音的技术，可以极大地简化音频生成过程。这允许内容创作者使用熟悉的文本处理操作，如剪切、复制和粘贴，快速编辑转录稿，并自动将更改传播到相应的音频记录中，而不必手动编辑原始波形。

目前，改进基于文本的语音编辑技术中编辑语音的自然度的方法包括：第一，流水线系统利用语音合成系统和语音转换系统来生成更自然的编辑语音；第二，上下文感知的韵律修正，它修改目标片段的韵律信息，以进一步增强编辑语音的整体韵律。为了解决流水线系统的复杂性和潜在的误差累积问题，基于部分推理和双向融合的文本语音编辑系统利用部分推理和双向融合机制；另一个框架基于上下文感知的基于文本的语音编辑模型，它可以模拟基于文本的语音编辑过程，并在训练过程中无需依赖持续时间信息进行端到端训练。

基于文本的语音编辑技术的现有研究在改善编辑语音的自然度方面取得了重大进展。然而，仍然存在一些限制，例如单调的节奏和缺乏情感表现力。为了解决这一差距，为生成的语音添加情感效果变得越来越重要。随着生成的语音质量不断提高，越来越需要传达情感的语音风格。然而，现有的文本编辑方法合成的语音情感不可控，往往缺乏对情感表达的控制能力，只能与原始语音的情感保持一致，不可调节，而且节奏单调，无情感表现力。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种音频编辑方法及装置、电子设备及存储介质。

第一方面，本公开的实施例提供了一种音频编辑方法，所述方法包括：

确定待编辑音频对应声学特征的掩码区域；

对待编辑音频对应声学特征的掩码区域进行掩码；

从掩码后声学特征中提取中性音频特征；

根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频。

在一种可能的实施方式中，所述确定待编辑音频对应声学特征的掩码区域，包括：

根据待编辑音频的期望情感属性，确定待编辑音频对应声学特征的初始掩码区域；

响应于接收到待编辑文字的修改请求且待编辑文字的修改区域超出初始掩码区域，根据待编辑文字的修改区域，调整待编辑音频对应声学特征的初始掩码区域，得到待编辑音频对应声学特征的修改后掩码区域，作为待编辑音频对应声学特征的掩码区域；

响应于未接收到待编辑文字的修改请求，或者接收到待编辑文字的修改请求且待编辑文字的修改区域处于初始掩码区域内，将待编辑音频对应声学特征的初始掩码区域作为待编辑音频对应声学特征的掩码区域。

在一种可能的实施方式中，所述从掩码后声学特征中提取中性音频特征，包括：

将掩码后声学特征输入预先训练的中性音频生成器中，得到掩码后声学特征的中性音频特征。

在一种可能的实施方式中，所述中性音频生成器通过以下步骤训练得到：

提供已知的中性音频样本，并将随机噪声输入中性音频生成器生成非中性音频样本；

将中性音频样本和非中性音频样本作为输入训练判别器，得到训练好的判别器；

对中性音频生成器的参数和训练好的判别器进行训练，直到训练好的判别器对中性音频样本和非中性音频样本的判别概率均为0.5为止。

在一种可能的实施方式中，所述根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频，包括：

对待编辑音频对应声学特征掩码区域对应文本和待编辑音频的期望情感属性分别进行编码，得到对应文本特征值和期望情感属性特征值；

将期望情感属性特征值、对应文本特征值和中性音频特征输入预先训练的谱图预测网络中，得到掩码区域对应的声学特征；

将掩码区域对应的声学特征与掩码后声学特征进行拼接，得到编辑后声学特征；

将编辑后声学特征输入声码器中，合成与编辑后声学特征对应的编辑后音频。

在一种可能的实施方式中，所述将期望情感属性特征值、对应文本特征值和中性音频特征输入预先训练的谱图预测网络中，得到掩码区域对应的声学特征，包括：

将期望情感属性特征值与中性音频特征融合，得到情感音频特征；

根据情感音频特征和对应文本特征值输入预先训练的谱图预测网络中，预测掩码区域对应的音频。

在一种可能的实施方式中，在所述根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频之前，所述方法包括：

对于每个掩码区域，基于预先训练的时长预测模型，预测当前掩码区域对应文本的音频持续时长；

根据所述音频持续时长调整当前掩码区域，使得所述当前掩码区域对应文本的音频持续时长与掩码区域音频帧的播放时长一致。

第二方面，本公开的实施例提供了一种音频编辑装置，包括：

第一确定模块，用于确定待编辑音频对应声学特征的掩码区域；

掩码模块，用于对待编辑音频对应声学特征的掩码区域进行掩码；

提取模块，用于从掩码后声学特征中提取中性音频特征；

第二确定模块，用于根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频。

在一种可能的实施方式中，所述第一确定模块，还用于：

在一种可能的实施方式中，所述提取模块，还用于：

在一种可能的实施方式中，所述第二确定模块，还用于：

第三方面，本公开的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的音频编辑方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的音频编辑方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

本公开实施例所述的音频编辑方法，确定待编辑音频对应声学特征的掩码区域；对待编辑音频对应声学特征的掩码区域进行掩码；从掩码后声学特征中提取中性音频特征；根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频，能够让用户自由选择所需的情感风格，以增强生成音频的表现力和自然度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了根据本公开实施例的音频编辑方法流程示意图；

图2示意性示出了根据本公开实施例的音频编辑系统工作原理示意图；

图3示意性示出了根据本公开实施例的音频编辑装置的结构框图；

图4示意性示出了根据本公开实施例的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

参见图1，本公开的实施例提供了一种音频编辑方法，所述方法包括：

S1，确定待编辑音频对应声学特征的掩码区域。

在一些实施例中，待编辑音频对应声学特征可以是梅尔频率的倒谱系数、线性预测系数和线性预测倒谱系数中的任意一种。

S2，对待编辑音频对应声学特征的掩码区域进行掩码。

S3，从掩码后声学特征中提取中性音频特征。

S4，根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频。

在本实施例，步骤S1中，所述确定待编辑音频对应声学特征的掩码区域，包括：

在本实施例，步骤S3中，所述从掩码后声学特征中提取中性音频特征，包括：

在本实施例中，所述中性音频生成器通过以下步骤训练得到：

在一些实施例中，为了提取与情感无关的内容信息并且模拟基于文本的语音编辑的过程，假设情感语音由中性情感语音转换而来，基于这个假设，利用生成对抗训练框架来去除语音中的情感成分，首先，随机的掩蔽输入语音中一部分连续的声学特征，掩蔽的长度占比整个语音的长度大概在15%左右。然后，利用中性音频生成器从掩码后语音的声学特征中提取中性音频特征，为了确保中性音频特征不包含情感成分，引入了判别器，用于区分所提取的中性音频特征是否从中性情感语音或非中性情感语音中提取。具体地，将从中性情感语音中提取的音频特征标记为“真”，而从非中性情感语音中提取的音频特征标记为“假”，利用生成对抗式的训练方法训练生成器和判别器。

在本实施例，步骤S4中，所述根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频，包括：

在一些实施例中，可以通过情感编码器和文本编码器对待编辑音频对应声学特征掩码区域对应文本和待编辑音频的期望情感属性分别进行编码，得到对应文本特征值和期望情感属性特征值。

在一些实施例中，通过情感编码器和文本编码器对待编辑音频对应声学特征掩码区域对应文本和待编辑音频的期望情感属性分别进行编码，可以将待编辑音频的期望情感属性和掩码区域对应文本转换成向量表征，以便后续的处理，向量表征用于保留文本的语义信息和情感信息，为后续的谱图预测网络提供了重要的输入。

在本实施例中，所述将期望情感属性特征值、对应文本特征值和中性音频特征输入预先训练的谱图预测网络中，得到掩码区域对应的声学特征，包括：

在一些实施例中，预先训练的谱图预测网络可以是解码器，将期望情感属性特征值、对应文本特征值和中性音频特征进行融合，然后输入解码器进行预测，得到掩码区域声学特征。将通过声码器合成掩码区域对应的语音信号加入到原始语音信号的相应位置中，从而得到新的编辑后的语音信号。

在本实施例中，在所述根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频之前，所述方法包括：

在一些实施例中，时长预测模型可以采用3层全连接层实现。

本公开针对现有的音频编辑方法无法控制语音中的情感属性，从而限制了其在不同场景下的应用，使用户能够选择所需的情感风格进行语音编辑，从而增强生成音频的表现力和自然度。

在一些实施例中，为了让合成的语音情感仅受所选情感属性控制，而不受原始语音中的情感成分干扰，需要首先删除原始语音中的情感成分，在利用所选择的情感属性重构语音。为了从语音中删除情感成分，假设所有情感语音都可以通过中性情感语音进行转换得来。基于这个假设，参见图2，音频编辑系统包括四个模块：文本编码器、情感编码器、中性内容生成器、解码器和声码器，其中，文本编码器和解码器均采用3层的transformer结构，隐藏层维度为256。解码器包含多头注意力机制层和线性层，情感编码器采用可优化的嵌入字典结构，隐藏层维度为256。中性音频生成器包含前馈神经网络和卷积残差结构，中性音频生成器采用的是3层的卷积残差结构。判别器首先是6层的卷积层，最后进行帧级别的标签预测。线性层可以是梅尔线性层。

将本实施例的音频编辑方法应用于对语音进行替换操作且控制语音的情感表现的场景下，可以掩码一段语音的某些单词，并修改文本，然后，根据时长预测模型，获取新单词的时间长度，并通过在掩码区域添加或删除一些帧，使掩码区域的时间长度与新单词保持一致。接着，将修改后的文本、掩码后的语音以及期望的情感属性输入音频编辑系统中，该音频编辑系统将根据情感标签和修改后的文本预测替换后的语音，从而实现情感可控的替换操作。

将本实施例的音频编辑方法应用于对语音进行插入操作且控制语音的情感表现的场景下，使用时长预测模型来预测要插入新词的持续时间，并将长度为新词的掩码信号插入到语音中。然后，将修改后的文本、掩码后的语音以及期望的情感属性输入音频编辑系统中，该音频编辑系统将根据情感标签和修改后的文本预测插入后的语音，从而实现情感可控的插入操作。

本公开的音频编辑方法利用生成对抗网络将语音中的情感进行解耦，再重构语音中的情感，能够实现对语音进行情感可控的插入和替换操作。

本公开的音频编辑方法及系统能够解决韵律平淡的问题，提高合成语音的表现力，还可以覆盖语音文本插入和替换操作，且合成语音的情感自然可控。

参见图3，本公开的实施例提供了一种音频编辑装置，包括：

第一确定模块11，用于确定待编辑音频对应声学特征的掩码区域；

掩码模块12，用于对待编辑音频对应声学特征的掩码区域进行掩码；

提取模块13，用于从掩码后声学特征中提取中性音频特征；

第二确定模块14，用于根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频。

在本实施例中，所述第一确定模块，还用于：

在本实施例中，所述提取模块，还用于：

在本实施例中，所述第二确定模块，还用于：

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例中，第一确定模块11、掩码模块12、提取模块13和第二确定模块14中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。第一确定模块11、掩码模块12、提取模块13和第二确定模块14中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一确定模块11、掩码模块12、提取模块13和第二确定模块14中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

参见图4，本公开的实施例提供的电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示音频编辑方法：

确定待编辑音频对应声学特征的掩码区域；

对待编辑音频对应声学特征的掩码区域进行掩码；

从掩码后声学特征中提取中性音频特征；

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的音频编辑方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的音频编辑方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频编辑方法，其特征在于，所述方法包括：

确定待编辑音频对应声学特征的掩码区域；

对待编辑音频对应声学特征的掩码区域进行掩码；

从掩码后声学特征中提取中性音频特征；

根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频，

其中，所述根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频，包括：

将编辑后声学特征输入声码器中，合成与编辑后声学特征对应的编辑后音频，

其中，中性音频特征不包含情感成分。

2.根据权利要求1所述的方法，其特征在于，所述确定待编辑音频对应声学特征的掩码区域，包括：

3.根据权利要求1所述的方法，其特征在于，所述从掩码后声学特征中提取中性音频特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述中性音频生成器通过以下步骤训练得到：

5.根据权利要求1所述的方法，其特征在于，所述将期望情感属性特征值、对应文本特征值和中性音频特征输入预先训练的谱图预测网络中，得到掩码区域对应的声学特征，包括：

6.根据权利要求1所述的方法，其特征在于，在所述根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频之前，所述方法包括：

7.一种音频编辑装置，其特征在于，包括：

提取模块，用于从掩码后声学特征中提取中性音频特征；

第二确定模块，用于根据待编辑音频对应声学特征掩码区域对应文本、待编辑音频的期望情感属性和中性音频特征，确定编辑后音频，

其中，所述第二确定模块，还用于：

其中，中性音频特征不包含情感成分。

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块，还用于：

9.根据权利要求7所述的装置，其特征在于，所述提取模块，还用于：

10.根据权利要求9所述的装置，其特征在于，所述中性音频生成器通过以下步骤训练得到：

11.根据权利要求7所述的装置，其特征在于，所述第二确定模块，还用于：

12.根据权利要求7所述的装置，其特征在于，第二确定模块还用于：

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6中任一项所述的音频编辑方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的音频编辑方法。