CN113724686A

CN113724686A - 编辑音频的方法、装置、电子设备及存储介质

Info

Publication number: CN113724686A
Application number: CN202111292710.2A
Authority: CN
Inventors: 陶建华; 汪涛; 易江燕; 傅睿博
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2021-11-30
Anticipated expiration: 2041-11-03
Also published as: US11462207B1; CN113724686B

Abstract

本申请涉及一种编辑音频的方法、装置、电子设备及存储介质，所述方法包括：获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本；预测所述修改文本对应的音频持续时长；根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整，得到调整后的待编辑音频；基于预先训练的音频编辑模型，根据调整后的待编辑音频与修改后文本得到编辑后音频，本申请通过音频编辑模型得到的编辑后音频上下文听感自然，而且支持合成未出现在语料库中的新词的功能。

Description

编辑音频的方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理领域，尤其涉及一种编辑音频的方法、装置、电子设备及存储介质。

背景技术

互联网的迅速发展加速了信息的传播。有各种各样的媒体供学习、娱乐和交流，例如电影、视频、交互式在线教育等。这些媒体的制作往往离不开音频内容编辑。典型的音频内容编辑界面显示语音的可视化，如波形和/或频谱图，并为用户提供标准的选择、剪切、复制、粘贴和音量调整，这些都应用于波形本身，还支持一些高级操作，如时间拉伸、俯仰弯曲和去噪。这些工具为媒体制作者提供了极大的便利，并具有广泛的应用场景。

一些系统允许编辑器对音频对应的文本执行选择、剪切和粘贴操作，并相应地更改音频内容，这称为基于文本的音频内容编辑。传统的基于文本的音频内容编辑技术离不开人工的复制粘贴，该方法会导致修改后的基频不连续，并且也难以使合成的语音和上下文之间有一个自然的衔接，在听感上会有明显的不自然的现象。更大的问题是，上述编辑技术不支持合成未出现在转录文本中的新词的能力。对于人来说，键入一个没有出现在语料库中的新词是很容易的，但如何通过编辑器合成新词相应的语音却不容易。当然，可以录制新的语音，但需要访问原始说话人，这将给音频内容编辑过程带来很大困难。随着语音生成任务中深度学习的快速发展，机器合成的语音可以与人类媲美。然而，这些任务是在给定文本的情况下合成相应的语音，却无法在合成中编辑特定的单词。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请的实施例提供了一种编辑音频的方法、装置、电子设备及存储介质。

第一方面，本申请的实施例提供了一种编辑音频的方法，包括以下步骤：

获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本；

预测所述修改文本对应的音频持续时长；

根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整，得到调整后的待编辑音频；

基于预先训练的音频编辑模型，根据调整后的待编辑音频与修改后文本得到编辑后音频。

优选地，所述获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本，包括：

通过将已知的修改文本添加至已知的所述待编辑音频的原始文本中得到修改后文本，和/或

利用已知的修改文本替换已知的所述待编辑音频的原始文本的部分文字得到修改后文本。

优选地，所述预测所述修改文本对应的音频持续时长通过预先训练的时长预测模型实现。

优选地，所述修改文本的类型包括添加和替换中的至少一种，所述根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整，得到调整后的待编辑音频，包括：

在待编辑区域的指定位置添加掩码部分，并确保所述掩码部分与所述修改文本对应的音频持续时长一致；和/或

在待编辑区域对待替换文本对应的音频进行掩码，得到掩码部分，并在掩码部分添加或删减帧，使得掩码部分与所述修改文本对应的音频持续时长一致；

将带有掩码部分的待编辑音频作为调整后的待编辑音频。

优选地，所述基于预先训练的音频编辑模型，根据调整后的待编辑音频与修改后文本得到编辑后音频，包括：

从调整后的待编辑音频中提取声学特征；

将提取的声学特征和修改后文本输入预先训练的粗解码器，得到所述提取的声学特征的掩码部分对应的粗声学特征；

将粗声学特征和掩码后声学特征输入预先训练的细解码器，得到掩码部分对应的细声学特征；

将细声学特征与所述提取的声学特征整合后输入到声码器中，得到编辑后音频。

优选地，所述音频编辑模型通过以下步骤训练得到：

从已知的音频中提取原始声学特征；

对原始声学特征的部分区域进行掩码，得到掩码后声学特征；

利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型，得到音频编辑模型。

优选地，所述神经网络模型包括粗解码器和细解码器，所述利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型，得到音频编辑模型，包括：

将掩码后声学特征和已知音频的文本输入粗解码器，得到掩码后声学特征的掩码部分对应的粗声学特征；

将粗声学特征和掩码后声学特征输入细解码器，得到掩码部分对应的细声学特征；

对比细声学特征与原始声学特征；

当细声学特征与原始声学特征之间的差值小于或等于预设阈值时，当前的粗解码器和细解码器的串联结构作为音频编辑模型；

当细声学特征与原始声学特征之间的差值大于预设阈值时，调整当前的粗解码器和细解码器的参数，直至细声学特征与原始声学特征之间的差值小于或等于预设阈值为止。

优选地，通过以下表达式，将提取的声学特征和修改后文本输入预先训练的粗解码器，得到所述提取的声学特征的掩码部分对应的粗声学特征，包括：

其中，

表示为粗声学特征，

表示为输入的掩码后的声学特征，x表示文本信息，θ表示为模型需要学习的参数，

表示为第t帧的声学参数。

优选地，通过以下表达式，将粗声学特征和掩码后声学特征输入预先训练的细解码器，得到掩码部分对应的细声学特征，包括：

其中，

表示为细声学特征，

表示为粗声学特征，

表示为第t帧的声学参数。

第二方面，本申请的实施例提供了一种编辑音频的装置，包括：

修改模块，其用于获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本；

预测模块，其用于预测所述修改文本对应的音频持续时长；

调整模块，其用于根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整，得到调整后的待编辑音频；

编辑模块，其用于基于预先训练的音频编辑模型，根据调整后的待编辑音频与修改后文本得到编辑后音频。

第三方面，本申请的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的编辑音频的方法的步骤。

第四方面，本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的编辑音频的方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本；预测所述修改文本对应的音频持续时长；根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整，得到调整后的待编辑音频；基于预先训练的音频编辑模型，根据调整后的待编辑音频与修改后文本得到编辑后音频，本申请通过音频编辑模型得到的编辑后音频上下文听感自然，而且支持合成未出现在语料库中的新词的功能。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了本申请实施例提供的一种编辑音频的方法的流程示意图；

图2示意性示出了本申请实施例提供的一种编辑音频的方法的流程示意图；

图3示意性示出了本申请又一实施例提供的一种编辑音频的方法流程示意图；

图4示意性示出了本申请又一实施例提供的一种编辑音频的方法流程示意图；

图5示意性示出了本申请又一实施例提供的一种编辑音频的方法流程示意图；

图6示意性示出了本申请又一实施例提供的一种编辑音频的方法流程示意图；

图7示意性示出了本申请实施例提供的一种模型训练流程示意图；

图8示意性示出了本申请又一实施例提供的一种语音控制装置工作流程示意图；

图9示意性示出了本申请又一实施例提供的一种电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种编辑音频的方法的流程示意图。如图1所示，本申请的编辑音频的方法，包括以下步骤：

S1，获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本；

S2，预测所述修改文本对应的音频持续时长；

在实际应用场景中，所述预测所述修改文本对应的音频持续时长通过预先训练的时长预测模型实现。该时长预测模型在语音合成任务中常见，可以采用3层全连接层即可实现。

S3，根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整，得到调整后的待编辑音频；

S4，基于预先训练的音频编辑模型，根据调整后的待编辑音频与修改后文本得到编辑后音频。

如图2所示，步骤S1中，所述获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本，包括：

S21，通过将已知的修改文本添加至已知的所述待编辑音频的原始文本中得到修改后文本，和/或

S22，利用已知的修改文本替换已知的所述待编辑音频的原始文本的部分文字得到修改后文本。

如图3所示，步骤S3中，所述修改文本的类型包括添加和替换中的至少一种，所述根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整，得到调整后的待编辑音频，包括：

S31，在待编辑区域的指定位置添加掩码部分，并确保所述掩码部分与所述修改文本对应的音频持续时长一致；和/或

S32，在待编辑区域对待替换文本对应的音频进行掩码，得到掩码部分，并在掩码部分添加或删减帧，使得掩码部分与所述修改文本对应的音频持续时长一致；

S33，将带有掩码部分的待编辑音频作为调整后的待编辑音频。

在实际应用中，步骤S31对应的步骤为将所述修改文本对应的音频添加至待编辑音频中，而步骤S32对应的步骤为将待替换文本对应的音频替换为所述修改文本对应的音频，并将替换后的音频融合至待编辑音频中，需要说明的是，步骤S31与步骤S32中的修改文本可以相同，也可以不同。

进一步地，步骤S32包括删除待替换文本的情况，即：将待替换文本替换为空白文本，在这种情况下，空白文本对应的音频时长并非为0，可以是预设值。

如图4所示，步骤S4中，所述基于预先训练的音频编辑模型，根据调整后的待编辑音频与修改后文本得到编辑后音频，包括：

S41，从调整后的待编辑音频中提取声学特征；

S42，将提取的声学特征和修改后文本输入预先训练的粗解码器，得到所述提取的声学特征的掩码部分对应的粗声学特征；

S43，将粗声学特征和掩码后声学特征输入预先训练的细解码器，得到掩码部分对应的细声学特征；

S44，将细声学特征与所述提取的声学特征整合后输入到声码器中，得到编辑后音频。

如图5所示，步骤S4中，所述音频编辑模型通过以下步骤训练得到：

S51，从已知的音频中提取原始声学特征；

S52，对原始声学特征的部分区域进行掩码，得到掩码后声学特征；

S53，利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型，得到音频编辑模型。

如图6所示，步骤S53中，所述神经网络模型包括粗解码器和细解码器，所述利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型，得到音频编辑模型，包括：

S61，将掩码后声学特征和已知音频的文本输入粗解码器，得到掩码后声学特征的掩码部分对应的粗声学特征；

S62，将粗声学特征和掩码后声学特征输入细解码器，得到掩码部分对应的细声学特征；

S63，对比细声学特征与原始声学特征；

S64，判断细声学特征与原始声学特征之间的差值是否小于或等于预设阈值：

若是，则执行步骤S65；

若否，则执行步骤S66；

S65，当前的粗解码器和细解码器的串联结构作为音频编辑模型；

S66，调整当前的粗解码器和细解码器的参数，直至细声学特征与原始声学特征之间的差值小于或等于预设阈值为止。

在实际应用中，如图7所示，模型训练阶段需要三个模块，分别是编码器，粗解码器以及细解码器，其中，phonemes表示语音单元，Transformer encoder为Transformer结构的编码器，Coarse decoder为粗解码器，fine decoder为细解码器。模型训练阶段由以下两个处理阶段组成：编码器和解码器。首先，编码器模块处理输入句子并将其转换为隐藏表示，该隐藏表示将用于指导解码器预测编辑语音的声学特征。第二，在解码阶段，首先随机的掩蔽输入语音中一部分连续的声学特征，掩蔽的长度占整个语音的长度可以是大概在15%左右，然后通过多头注意力机制学习掩码后的声学特征与文本表示之间的对齐信息，并预测粗声学特征。然后，细解码器在粗声学特征的基础上预测更细的声学特征，进一步融合语音的上下文信息，使预测的语音更自然。这里将掩蔽部分声学特征和预测掩蔽部分的整个过程称为基于上下文感知的掩码再预测过程。

为了更好地感知语音中的上下文信息，使预测的语音更加自然，本申请实施例的解码器串联的两级transformer的结构实现了由粗到精的解码方法。首先，利用文本信息和掩蔽语音来预测一个粗声学特征。第一个解码阶段是经过掩蔽的真实值和经过编码器的文本信息输入到粗解码器中，该粗解码器将会结合这两个信息输出粗声学特征。该粗声学特征已经包含了大致的音频内容，但是缺少细节内容，听感上音质不太高。其过程可以通过以下表达式表示：

其中，

表示为粗声学特征，

表示为第t帧的声学参数。

然后，第二个阶段是将该粗声学特征和经过编码器的文本特征输送到细解码器中，此时由于细解码器的输入，即粗声学特征已经包含了大致的音频内容，细解码器只需要填补细节即可。其过程可以通过以下表达式表示：

其中，

表示为细声学特征，

表示为粗声学特征，

表示为第t帧的声学参数。

如图7所示，encoder和fine decoder部分均采用3层的transformer结构，隐藏层维度为256。Coarse decoder部分采用3层的基于多头注意力机制的transformer结构，该结构相对于encoder和fine decoder可以学习出文本序列和音频序列的对齐信息，隐藏层维度为256。训练数据采用语音以及其对应的文本作为输入即可。

在实际应用中，使用训练好的模型，可以对语音的内容进行基于文本的替换插入等操作。

替换操作允许用户将一段语音替换为另一段语音。首先，根据单词边界屏蔽需要替换的语音，然后修改文本。然后可以通过时长预测模型获得需要替换的新的单词的时间长度，然后对屏蔽后语音的掩码区域进行添加或者删减一些帧，使掩码区域的时间长度与新词的时间长度保持一致。第二步是将屏蔽后语音和修改后文本输入到模型中。该模型将根据修改后文本预测替换后语音。

插入操作允许用户在编辑的语音中插入语音。此操作与替换操作类似。首先，可以使用预先训练好的时间预测模型来预测要插入新词的持续时间，然后将时间长度为新词的掩码信号插入到语音中。然后将修改后文本和插入掩码信号的语音输入模型中，该模型将根据修改后文本预测插入掩码信号的语音。

本申请实施例能够实现基于文本的音频内容编辑中通过删除、插入以及替换操作修改原音频对应的文本内容改变音频内容的功能，例如，对语音中某个发音错误的单词进行替换，或者插入一些强调词对语音某种语义进行增强等。

本申请实施例能够避免传统音频内容篡改中由于复制和粘贴造成的不自然现象，并且可以合成语料库中没有的语音。

本申请实施例能够全面覆盖基于文本的音频内容篡改可能面临的各种情况。

基于同一发明构思，如图8所示，本申请实施例提供了一种编辑音频的装置，所述装置包括：修改模块11、预测模块12、调整模块13和编辑模块14。

在本实施例中，修改模块11，其用于获取根据已知的修改文本对已知的待编辑音频的原始文本进行修改得到的修改后文本；

在本实施例中，预测模块12，其用于预测所述修改文本对应的音频持续时长；

在本实施例中，调整模块13，其用于根据所述修改文本对应的音频持续时长对所述待编辑音频的待编辑区域进行调整，得到调整后的待编辑音频；

在本实施例中，编辑模块14，其用于基于预先训练的音频编辑模型，根据调整后的待编辑音频与修改后文本得到编辑后音频。

在一些实施例中，所述修改模块11，还用于：

在一些实施例中，所述预测模块12中，所述预测所述修改文本对应的音频持续时长通过预先训练的时长预测模型实现。

在一些实施例中，所述调整模块13，还用于：

在待编辑区域的指定位置添加掩码部分，其中，所述掩码部分与所述修改文本对应的音频持续时长一致，带有掩码部分的待编辑音频作为调整后的待编辑音频；和/或

在待编辑区域对待替换文本对应的音频进行掩码，得到掩码部分，并在掩码部分添加或删减帧，使得掩码部分与所述修改文本对应的音频持续时长一致，带有掩码部分的待编辑音频作为调整后的待编辑音频。

在一些实施例中，所述编辑模块14，还用于：

从调整后的待编辑音频中提取声学特征；

在一些实施例中，所述编辑模块14中，所述音频编辑模型通过以下步骤训练得到：

从已知的音频中提取原始声学特征；

在一些实施例中，所述编辑模块14中，所述神经网络模型包括粗解码器和细解码器，所述利用掩码后声学特征、所述音频的文本以及原始声学特征训练已知的神经网络模型，得到音频编辑模型，包括：

对比细声学特征与原始声学特征；

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

基于同一发明构思，如图9所示，本申请实施例提供了一种电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示编辑音频的方法：

预测所述修改文本对应的音频持续时长；

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任意可能的实现方式中的编辑音频的方法。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，包括计算机程序，所述程序被处理器执行时实现上述任意可能的实现方式中的编辑音频的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。