CN116434731A

CN116434731A - 语音编辑方法、装置、存储介质及电子装置

Info

Publication number: CN116434731A
Application number: CN202310299825.7A
Authority: CN
Inventors: 张海桐
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-14

Abstract

本申请公开了一种语音编辑方法、装置、存储介质及电子装置。该方法包括：获取待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频；对目标文本和第一掩码后音频进行语音编辑，得到目标音频。本申请解决了相关技术中提供的语音编辑方法其训练和测试不匹配导致语音编辑结果的流畅度低、真实感差的技术问题。

Description

语音编辑方法、装置、存储介质及电子装置

技术领域

本申请涉及计算机技术和人工智能技术领域，具体而言，涉及一种语音编辑方法、装置、存储介质及电子装置。

背景技术

随着深度学习的发展，语音合成和基于文本的语音编辑技术取得了较大的进步。然而，现有技术提供的语音编辑方法中，经常出现模型训练和模型测试不匹配的问题，进而导致语音编辑结果的流畅度和真实感较差。

针对上述的问题，目前尚未提出有效的解决方案。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请至少部分实施例提供了一种语音编辑方法、装置、存储介质及电子装置，以至少解决相关技术中提供的语音编辑方法其训练和测试不匹配导致语音编辑结果的流畅度低、真实感差的技术问题。

根据本申请其中一实施例，提供了一种语音编辑方法，包括：获取待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频；对目标文本和第一掩码后音频进行语音编辑，得到目标音频。

根据本申请其中一实施例，提供了另一种语音编辑方法，通过终端设备提供一图形用户界面，图形用户界面所显示的内容包括一语音编辑控件，语音编辑方法包括：响应对语音编辑控件执行的触发操作，弹出语音编辑界面；响应对语音编辑界面执行的输入操作，导入原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；响应对语音编辑界面执行的编辑操作，从原始音频中选定待编辑部分音频；响应对语音编辑界面执行的播放操作，在游戏场景中播放目标音频，其中，目标音频通过对目标文本和掩码后音频进行语音编辑后得到，掩码后音频通过对待编辑部分音频进行语音掩码后得到。

根据本申请其中一实施例，还提供了一种模型训练方法，包括：获取待处理的训练音频和训练文本，其中，训练文本用于确定待编辑至训练音频的文本内容；对训练音频中的待编辑部分音频进行语音掩码，得到掩码后训练音频；采用掩码后训练音频和训练文本对初始语音编辑模型进行训练，得到目标语音编辑模型，其中，目标语音编辑模型用于对目标文本和掩码后原始音频进行语音编辑以得到目标音频，掩码后原始音频通过对原始音频中的待编辑部分音频进行语音掩码后得到。

根据本申请其中一实施例，还提供了一种语音编辑装置，包括：获取模块，用于获取待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；掩码模块，用于对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频；编辑模块，用于对目标文本和第一掩码后音频进行语音编辑，得到目标音频。

根据本申请其中一实施例，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述语音编辑方法或者模型训练方法。

根据本申请其中一实施例，还提供了一种电子装置，包括：包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述语音编辑方法或者模型训练方法。

在本申请至少部分实施例中，通过获取待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；采用对原始音频中的待编辑部分音频进行语音掩码的方式得到第一掩码后音频；进一步对目标文本和第一掩码后音频进行语音编辑，得到目标音频，达到了通过对待执行语音编辑的原始音频先进行语音掩码再进行语音编辑得到目标音频的目的，从而实现了提高语音编辑结果的流畅度和真实感的技术效果，进而解决了相关技术中提供的语音编辑方法其训练和测试不匹配导致语音编辑结果的流畅度低、真实感差的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请其中一实施例的一种语音编辑方法的移动终端的硬件结构框图；

图2是根据本申请其中一实施例的一种语音编辑方法的流程图；

图3是根据本申请其中一实施例的一种可选的语音编辑过程的示意图；

图4是根据本申请其中一实施例的一种可选的声学特征提取过程的示意图；

图5是根据本申请其中一实施例的一种可选的语音编辑方法的流程图；

图6是根据本申请其中一实施例的一种可选的在云端服务器进行语音编辑的示意图；

图7是根据本申请其中一实施例的另一种语音编辑方法的流程图；

图8是根据本申请其中一实施例的一种模型训练方法的流程图；

图9是根据本申请其中一实施例的一种语音编辑装置的结构框图；

图10是根据本申请其中一实施例的一种可选的语音编辑装置的结构框图；

图11是根据本申请其中一实施例的一种电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在本申请的说明书中，“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

在对本申请实施例进行描述的过程中，出现的部分名词或术语适用于如下解释：

语音合成技术(Text-to-Speech，TTS)：是一种使用文本到语音的算法将文本数据转换为人声音频的技术。TTS能够用于基于现有的语音库生成带有特定声腔、情感和特征的虚拟人声。

语音编辑：是指对语音进行的处理和修改，使其变为所要求的格式和质量。语音编辑可以包括：处理语音文件(如替换、删除、插入、剪切、连接、校准等)；更改声音特性(如增强低频或幅度、减少背景噪声等；设置表情标记(包括位置、注释、单元名称)。上述语音编辑能够帮助了解作品中使用的特定人声或乐器等。

随着深度学习的发展，语音合成和基于文本的语音编辑技术取得了较大的进步。然而，现有技术提供的语音编辑方法中，经常出现模型训练和模型测试不匹配的问题，进而导致语音编辑结果的流畅度和真实感较差。对此，在本申请之前相关技术领域并未提出有效的解决方法。

在本申请的一种可能的实施方式中，针对计算机技术和人工智能技术领域下涉及语音编辑的应用场景中通常所采用的语音编辑方法，发明人经过实践并仔细研究后，仍然存在语音编辑结果流畅度低、真实感差的技术问题，基于此，本申请实施例应用的游戏场景可以是计算机技术或人工智能技术领域中任何涉及语音合成或语音编辑的应用场景，所针对的游戏类型可以是动作类、冒险类、模拟类、角色扮演类和休闲类等。

本申请实施例提出了一种语音编辑方法，采用在语音编辑之前对原始音频进行语音掩码处理以统一语音编辑训练目标和测试目标的技术构思，实现了提升语音编辑结果的流畅度和真实感的技术效果，进而解决了相关技术中提供的语音编辑方法其训练和测试不匹配导致语音编辑结果的流畅度低、真实感差的技术问题。

本申请涉及到的上述方法实施例，可以在终端设备(例如，移动终端、计算机终端或者类似的运算装置)中执行。以运行在移动终端上为例，该移动终端可以是智能手机、平板电脑、掌上电脑以及移动互联网设备、游戏机等终端设备。

图1是根据本申请其中一实施例的一种语音编辑方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102、存储器104、传输设备106、输入输出设备108以及显示设备110。以语音编辑方法通过该移动终端应用于电子游戏场景为例，处理器102调用并运行存储器104中存储的计算机程序以执行该语音编辑方法，所生成的目标音频通过传输设备106传输至输入输出设备108和/或显示设备110，进而将该目标音频提供给玩家。

仍然如图1所示，处理器102可以包括但不限于：中央处理器(Central ProcessingUnit，CPU)、图形处理器(Graphics Processing Unit，GPU)、数字信号处理(DigitalSignal Processing，DSP)芯片、微处理器(Microcontroller Unit，MCU)、可编程逻辑器件(Field Programmable Gate Array，FPGA)、神经网络处理器(Neural-Network ProcessingUnit，NPU)、张量处理器(Tensor Processing Unit，TPU)、人工智能(ArtificialIntelligence，AI)类型处理器等的处理装置。

本领域技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

在一些以游戏场景为主的可选实施例中，上述终端设备还可以提供具有触摸触敏表面的人机交互界面，该人机交互界面可以感应手指接触和/或手势来与图形用户界面(Graphical User Interface，GUI)进行人机交互，该人机交互功能可以包括如下交互：创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。

本申请涉及到的上述方法实施例，还可以在服务器中执行。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。以语音编辑方法通过电子游戏服务器应用于电子游戏场景为例，电子游戏服务器可基于该语音编辑方法得到电子游戏场景中的目标音频，并将该目标音频提供给玩家(例如，可以渲染显示在玩家终端的显示屏上，或者，通过全息投影提供给玩家等)。

根据本申请其中一实施例，提供了一种语音编辑方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种运行于上述终端设备的一种语音编辑方法，图2是根据本申请其中一实施例的一种语音编辑方法的流程图，如图2所示，该方法包括如下步骤：

步骤S21，获取待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容。

本申请提供的语音编辑方法可以但不限于适用于如下应用场景：电子游戏(例如对游戏角色或游戏场景对应的原始音频进行编辑)，语音导航系统(例如应用于汽车、机器人等自动化设备中，以将文字转换为语音提示用户当前的位置和操作步骤)，数字电话服务(例如在语音通话、在线聊天、智能客服等场景中将文字快速转化为语音来作为数字客户服务的一部分)，智能虚拟助手，技术教育和讲座(例如将幻灯片中的文字信息快速地生成对应的声频来做讲座)，有声书/新闻/广告(例如将文字内容快速地生成声频内容)。

上述原始音频为上述应用场景中待处理的音频数据。上述目标文本为上述应用场景中待编辑至原始音频的的文本内容。本申请实施例的上述语音编辑方法可以运行在客户端上。上述指定可以由用户通过客户端指定，也可以由运行于客户端的计算机应用程序根据场景需求生成控制指令来指定。此外，本申请实施例的上述语音编辑方法还可以运行在服务端上，该服务端可以是独立的服务器、服务器集群或者云服务器，特别是，上述方法运行于云服务器上时，通过软件即服务(Software as a Service，SaaS)的方式与客户端进行交互，获取客户端发送的原始音频和目标文本，进而进行对应的语音编辑，然后将语音编辑结果返回客户端。

步骤S22，对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频；

为解决语音合成或语音编辑问题，与现有技术中所采用的语音合成模型相比，本申请的上述语音编辑过程所采用的语音编辑模型引入了掩码训练策略，也就是说，将解决语音合成或语音编辑问题的语音合成模型转换成为语音编辑模型。上述包含掩码训练策略的语音编辑模型在模型训练阶段和模型测试阶段(或模型应用阶段)的目标保持一致，从而能够提升语音编辑模型的语音编辑效果。

具体地，上述语音掩码的作用在于：对原始音频中的待编辑部分音频进行局部修改，该局部修改的语音编辑方式可以包括以下至少之一：替换方式、删除方式和插入方式。即，上述待编辑部分音频可以是用户从原始音频中选定任意部分音频段，通过采用语音掩码技术手段将待编辑部分音频对应的原有音频内容从原始音频中抹除，并保留原始音频中除该待编辑部分音频之外的其余上下文音频内容。

步骤S23，对目标文本和第一掩码后音频进行语音编辑，得到目标音频。

上述对目标文本和第一掩码后音频进行语音编辑，可以是按照目标文本所确定的待编辑至原始音频的文本内容，对第一掩码后音频进行语音编辑。采用上述方案所得到的目标音频在语音流畅度和真实感上的表现优于现有技术的语音编辑结果。

以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，对本申请实施例上述方法的技术方案进行进一步介绍。例如，上述方法运行于智能虚拟助手对应的客户端。

客户端录制用户输入的待执行语音编辑的原始语音(也即获取原始音频)，以及获取用户输入的目标文本，并根据目标文本获取确定待编辑至原始音频的文本内容。在根据本申请实施例的其中一种可选的实施方式中，原始音频所录制的待执行语音编辑的原始语音的内容为“基于深度学习的语音编辑”，目标文本所确定的文本内容为“机器学习”，上述场景中的语音编辑需求为：将原始音频中的“深度学习”替换为“机器学习”。也就是说，原始音频中的待编辑部分音频为“深度学习”对应的音频。

在一个示例性应用场景中，上述原始音频可以为游戏应用(APP)中待使用的原始游戏语音，上述第一掩码后音频可以为掩码后游戏语音。具体地，可以对游戏应用中待使用的原始游戏语音中待编辑部分语音进行语音掩码，得到掩码后游戏语音，以及对游戏应用中待使用的游戏内容文本和掩码后游戏语音进行语音编辑，得到目标游戏语音。

在现有游戏场景中，非玩家角色(Non-Player Character，简称为NPC)在与游戏玩家操控的玩家角色进行语音交互时，通常采用预先录制的固定音频进行语音交互。例如：在游戏玩家点击NPC时，NPC通常会播放“欢迎我们伟大的勇士来到这里！”。此时，无论哪位玩家点击NPC，都会收到千篇一律的回复。为了增强游戏玩家在游戏场景内游戏交互体验，可以应用本申请所提出的上述技术方案，在上述原始游戏语音中加入玩家角色的名称。具体地，对游戏应用中待使用的原始游戏语音“欢迎我们伟大的勇士来到这里！”中待编辑部分语音“勇士来到”进行语音掩码，得到掩码后游戏语音“欢迎我们伟大的【XXXX】这里！”。然后，再对游戏应用中待使用的游戏内容文本(勇士玩家角色名称来到)和掩码后游戏语音“欢迎我们伟大的【XXXX】这里！”进行语音编辑，得到目标游戏语音“欢迎我们伟大的【勇士玩家角色名称来到】这里！”。由此，针对不同游戏玩家可以播放个性化音频。

在另一个示例性应用场景中，上述原始音频可以为配音应用中待使用的原始多媒体配音(例如：影视剧配音、动漫配音等)，上述第一掩码后音频可以为掩码后多媒体配音。具体地，可以对配音应用中待使用的原始多媒体配音中待编辑部分配音进行语音掩码，得到掩码后多媒体配音，以及对配音应用中待使用的配音内容文本和掩码后多媒体配音进行语音编辑，得到目标多媒体配音。

在现有配音场景中，配音演员有时在依据影视剧的剧本完成配音之后，会发现原始多媒体配音中遗漏了部分文字没有配音。此时，如果重新录制整个配音不仅会耗费人力和时间，而且也难以确保重新录制的配音不会再次出现遗漏。为此，可以应用本申请所提出的上述技术方案，在上述原始影视剧配音中，插入剧本中的遗漏文字。具体地，对配音应用中待使用的原始影视剧配音“那好，我们一起去吧！”中待编辑部分配音“我们一起”进行语音掩码，得到掩码后多媒体配音“那好，【XXXX】去吧！”，以及对配音应用中待使用的配音内容文本(我们明天一起)和掩码后多媒体配音“那好，【XXXX】去吧！”进行语音编辑，得到目标多媒体配音“那好，我们明天一起去吧！”。由此，不仅可以有效地避免重复配音所带来的繁琐工作，而且还可以及时更正原始影视剧配音中存在的配音缺陷。以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，对本申请实施例上述方法的技术方案进行进一步介绍。例如，上述方法运行于智能虚拟助手对应的客户端。

可选地，在步骤S22中，对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频，可以包括以下执行步骤：

步骤S221，获取待编辑部分音频在原始音频中的位置信息；

步骤S222，基于位置信息对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频。

在一种可选的实施方式中，客户端通过对原始音频和待编辑部分音频进行比对，得到上述位置信息，该位置信息可以是待编辑部分音频在原始音频对应的原始语音中多个音素的位置ID确定的。利用语音编辑模型中的掩码部分，基于位置信息对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频。

仍然以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，对原始音频中的待编辑部分音频进行语音掩码的目的在于，将待编辑部分音频从原始音频中抽离。例如，将“基于深度学习的语音编辑”对应的原始音频中“深度学习”对应的音频抽离，则得到的第一掩码后音频对应的内容为“基于【XXXX】的语音编辑”。

图3是根据本申请其中一实施例的一种可选的语音编辑过程的示意图，如图3所示，获取原始音频后，利用掩码部分对原始音频进行掩码处理，得到第一掩码后音频。

仍然以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，确定“深度学习”在“基于深度学习的语音编辑”中的位置信息，该位置信息可以是待编辑部分音频对应的内容的字素ID。然后，基于将原始音频中的“深度学习”替换为“机器学习”的场景需求以及上述位置信息，对音频“基于深度学习的语音编辑”中的音频“深度学习”进行语音掩码，得到音频“基于【XXXX】的语音编辑”。

可选地，在步骤S23中，对目标文本和第一掩码后音频进行语音编辑，得到目标音频，可以包括以下执行步骤：

步骤S231，对目标文本进行语音转换，得到中间音频；

步骤S232，对中间音频和第一掩码后音频进行语音拼接，得到目标音频。

在对目标文本和第一掩码后音频进行语音编辑以得到目标音频的过程中，可以对目标文本进行语音转换以得到中间音频。例如：目标文本所确定的文本内容为“机器学习”，通过对目标文本进行语音转换所得到的中间音频即为“机器学习”对应的音频段。然后，再将上述第一掩码后音频“基于XXXX的语音编辑”与中间音频即为“机器学习”进行语音拼接以得到目标音频“基于机器学习的语音编辑”。

可选地，在步骤S231中，对目标文本进行语音转换，得到目标音频，可以包括以下执行步骤：

步骤S2311，对目标文本和第一掩码后音频进行语音编辑，得到目标声学特征，其中，目标声学特征用于确定目标文本对应的音频段；

步骤S2312，对目标声学特征进行声码转换，得到中间音频。

仍然以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，对“机器学习”和音频“基于【XXXX】的语音编辑”进行语音编辑，得到“机器学习”对应的目标声学特征；对“机器学习”对应的目标声学特征进行声码转换，得到音频“机器学习”(即中间音频)；对音频“机器学习”与音频“基于【XXXX】的语音编辑”进行拼接，得到目标音频，目标音频为“基于机器学习的语音编辑”。

上述音频拼接的目的为：基于“深度学习”在原始音频中对应的位置，将目标文本的内容“机器学习”与第一掩码后音频对应的内容“基于【XXXX】的语音编辑”拼接起来，得到目标音频对应的内容“基于机器学习的语音编辑”。

如图3所示，基于目标文本和第一掩码后音频进行语音编辑，得到目标声学特征，然后利用神经声码器对目标声学特征进行声码转换得到中间音频，进而对中间音频与第一掩码后音频进行拼接，得到目标音频。

通过上述步骤S2311至步骤S2312，利用语音编辑方法生成目标文本对应的目标声学特征，从而得到中间音频。由于上述第一掩码后音频为基于待编辑部分音频在原始音频中的位置信息得到的，对中间音频与第一掩码后音频进行拼接所得到目标音频能够在语音流畅度和真实感上具有较好的表现。

可选地，在步骤S2311中，对目标文本和第一掩码后音频进行语音编辑，得到目标声学特征，可以包括以下执行步骤：

步骤S23111，对目标文本进行字素到音素转换，得到音素序列；

步骤S23112，使用目标语音编辑模型对音素序列和第一掩码后音频进行语音编辑，得到目标声学特征，其中，目标语音编辑模型采用多组数据通过深度学习训练得到，多组数据包括：训练音频和训练文本，训练文本为训练音频中的待编辑部分音频对应的文本。

仍然如图3所示，对目标文本和第一掩码后音频进行语音编辑得到目标声学特征的过程中，首先，利用转换部分对目标文本进行字素到音素转换，得到目标文本对应的音素序列。上述转换部分为图到树(Graph to Tree，G2T)转换部分，该G2T转换部分用于通过自然语言处理技术将目标文本(可以是单个句子或多个已分割的句子)表示为语法树。上述音素序列可以与语法树的多个节点相对应。然后，上述目标语音编辑模型为序列到序列语音编辑部分，利用序列到序列语音编辑部分对音素序列和第一掩码后音频进行语音编辑得到目标声学特征。

需要说明的是，上述用于训练目标语音编辑模型的多组数据可以是历史语音编辑结果，即，在应用场景中使用语音编辑模型对指定的训练音频进行语音编辑得到的数据。多组数据中每组数据包括的训练音频与训练文本相对应。

仍然以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，对目标文本“机器学习”进行字素到音素转换，得到“机器学习”对应的音素序列；使用目标语音编辑模型对“机器学习”对应的音素序列和音频“基于【XXXX】的语音编辑”进行语音编辑，得到目标声学特征。

可选地，上述语音编辑方法还可以包括以下执行步骤：

步骤S241，对训练音频中的待编辑部分音频进行语音掩码，得到第二掩码后音频；

步骤S242，使用初始语音编辑模型对第二掩码后音频和训练文本进行语音编辑，得到预测声学特征；

步骤S243，通过预测声学特征与训练文本对应的真实声学特征确定目标损失；

步骤S244，利用目标损失对初始语音编辑模型的参数进行更新，得到目标语音编辑模型。

通过上述步骤S241至步骤S244，在目标语音编辑模型的训练过程中，基于训练音频和训练文本计算模型训练的目标损失，采用该目标损失对初始语音编辑模型的模型参数进行优化更新，得到目标语音编辑模型。上述目标损失对应的损失函数可以是任意常用的损失函数，本申请实施例并不对目标损失的计算方法进行限定。

可选地，目标语音编辑模型包括：编码器、特征调节器和解码器，在步骤S23112中，使用目标语音编辑模型对音素序列和第一掩码后音频进行语音编辑，得到目标声学特征，可以包括以下执行步骤：

步骤S23113，使用编码器对音素序列进行文本特征空间编码，得到文本特征；

步骤S23114，使用特征调节器对文本特征和第一掩码后音频进行特征调节，得到第一听觉感知特征，其中，第一听觉感知特征为目标文本对应的听觉感知特征；

步骤S23115，使用解码器对第一听觉感知特征进行声学解码，得到目标声学特征。

图4是根据本申请其中一实施例的一种可选的声学特征提取过程的示意图，如图4所示，目标语音编辑模型中的序列到序列语音编辑部分包括：编码器、特征调节器和解码器，其中，解码器为声学解码器。使用上述编码器对目标文本对应的因素序列进行文本特征空间编码，得到文本特征，并将文本特征同时传递给特征调节器和声学解码器。然后，使用上述特征调节器对文本特征和第一掩码后音频进行特征调节，得到第一听觉感知特征，其中，第一听觉感知特征为目标文本对应的听觉感知特征。进一步地，使用上述声学解码器对文本特征和第一听觉感知特征进行声学解码，得到上述目标声学特征。

具体地，上述编码器通过非线性变换方式将音素序列映射至高维的文本特征空间进行编码，得到上述文本特征。

具体地，上述特征调节器通过非线性变换预测方式，基于文本特征和第一掩码后音频进行特征预测和特征调节，得到上述第一听觉感知特征。同理，上述声学解码器通过非线性变换预测方式，对文本特征和第一听觉感知特征进行声学特征预测，得到上述目标声学特征。

仍然以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，使用编码器对“机器学习”对应的音素序列进行文本特征空间编码，得到“机器学习”对应的文本特征；使用特征调节器对“机器学习”对应的文本特征和音频“基于【XXXX】的语音编辑”进行特征调节，得到目标文本中的“机器学习”对应的听觉感知特征；使用解码器对“机器学习”对应的听觉感知特征进行声学解码，得到目标声学特征。

可选地，在步骤S23114中，使用特征调节器对文本特征和第一掩码后音频进行特征调节，得到第一听觉感知特征，可以包括以下执行步骤：

步骤S23116，从第一掩码后音频中提取第二听觉感知特征，其中，第二听觉感知特征为原始音频中与待编辑部分音频关联的上下文音频对应的听觉感知特征；

步骤S23117，使用特征调节器对文本特征和第二听觉感知特征进行特征调节，得到第一听觉感知特征。

仍然如图4所示，上述特征调节器还可以通过下述步骤得到第一听觉感知特征：对第一掩码后音频进行特征提取，得到第二听觉感知特征。使用特征调节器对文本特征和第二听觉感知特征进行特征调节，得到第一听觉感知特征。仍然以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，上述第二听觉感知特征为“基于【XXXX】的语音编辑”对应的听觉感知特征，听觉感知特征至少包括：音高特征、能量特征和时长特征。使用特征调节器对“机器学习”的文本特征和“基于【XXXX】的语音编辑”的第二听觉感知特征进行特征调节，得到“机器学习”对应的听觉感知特征(即第一听觉感知特征)。

可选地，第一听觉感知特征包括以下至少之一：目标文本对应的音高；目标文本对应的能量；目标文本对应的时长。

仍然以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，第一听觉感知特征至少包括以下之一：目标文本中文本内容“机器学习”对应的音高特征、能量特征和时长特征。

以智能虚拟助手对用户的原始语音进行语音编辑的场景为例，语音编辑场景的场景需求对应的语音编辑方式除了上述的替换方式，还可以包括插入方式和删除方式。

仍然以原始音频所录制的待执行语音编辑的原始语音的内容为“基于深度学习的语音编辑”为例，当场景需求对应的语音编辑方式为在“学习”与“的”之间插入“技术”时，上述原始音频中待编辑部分音频为插入位置的上下文内容，即“学习的”，目标文本对应的文本内容为“学习技术的”。然后利用类似于上述替换方式的处理方法，对目标文本和第一掩码后音频进行语音编辑，得到目标音频，此目标音频对应的内容为“基于深度学习技术的语音编辑”。

仍然以原始音频所录制的待执行语音编辑的原始语音的内容为“基于深度学习的语音编辑”为例，当场景需求对应的语音编辑方式为在“深度学习的”之后删除“语音”时，上述原始音频中待编辑部分音频为删除位置的上下文内容，即“的语音编辑”，目标文本对应的文本内容为“的编辑”。然后利用类似于上述替换方式的处理方法，对目标文本和第一掩码后音频进行语音编辑，得到目标音频，此目标音频对应的内容为“基于深度学习技术的编辑”。

容易理解的是，通过本申请实施例提供的语音编辑方法，引入音频掩码处理，能够将语音编辑过程中的训练目标与测试目标相统一，使得对原始音频中的待编辑部分音频进行编辑后得到的目标音频(特别是在音频拼接位置)具备更高的流畅度和真实感。

容易理解的是，本申请实施例提供的语音编辑方法中，通过音频掩码机制，在对语音编辑模型进行训练的过程中，将原始音频和原始音频对应的第一掩码后音频和目标音频作为训练样本进行模型训练，由此，使得训练得到的目标语音编辑模型能够基于第一掩码后音频预测得到目标文本对应的部分音频(即中间音频，也即待拼接至第一掩码后音频的部分音频)。因此，上述目标语音编辑模型的训练阶段与测试阶段(或场景应用阶段)的目标一致，避免了现有技术中模型的训练目标与测试目标不匹配导致的语音编辑效果差的问题，此外，上述训练流程还能保证音频拼接更加流畅。

本申请其中一实施例还提供了一种语音编辑方法，该语音编辑方法在云端服务器上运行，图5是根据本申请其中一实施例的一种可选的语音编辑方法的流程图，如图5所示，该语音编辑方法，包括：

步骤S51，接收来自于客户端的待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；

步骤S52，对原始音频中的待编辑部分音频进行语音掩码以得到第一掩码后音频，以及对目标文本和第一掩码后音频进行语音编辑以得到目标音频；

步骤S53，将目标音频反馈至客户端。

可选地，图6是根据本申请其中一实施例的一种可选的在云端服务器进行语音编辑的示意图，如图6所示，客户端将原始音频和目标文本上传至云端服务器，其中，目标文本用于确定待编辑至原始音频的文本内容；云端服务器对原始音频中的待编辑部分音频进行语音掩码以得到第一掩码后音频，以及对目标文本和第一掩码后音频进行语音编辑以得到目标音频。然后，云端服务器会向上述客户端反馈目标音频，最终的目标音频会通过客户端的图形用户界面提供给用户。

需要说明的是，本申请实施例所提供的上述语音编辑方法，可以但不限于适用于语音导航系统、数字电话服务、智能虚拟助手、技术教育/讲座和有声书/新闻/广告等实际应用场景，通过SaaS服务端和客户端进行交互的方式，采用客户端向服务端提供原始音频和目标文本，服务端对原始音频中的待编辑部分音频进行语音掩码以得到第一掩码后音频，以及对目标文本和第一掩码后音频进行语音编辑的方式得到目标音频，服务端将目标音频返回客户端并提供给用户。

本申请其中一实施例还提供了又一种语音编辑方法，通过终端设备提供一图形用户界面，图形用户界面所显示的内容包括一语音编辑控件，图7是根据本申请其中一实施例的另一种语音编辑方法的流程图，如图7所示，该语音编辑方法，包括：

步骤S71，响应对语音编辑控件执行的触发操作，弹出语音编辑界面；

步骤S72，响应对语音编辑界面执行的输入操作，导入原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；

步骤S73，响应对语音编辑界面执行的编辑操作，从原始音频中选定待编辑部分音频；

步骤S74，响应对语音编辑界面执行的播放操作，在游戏场景中播放目标音频，其中，目标音频通过对目标文本和掩码后音频进行语音编辑后得到，掩码后音频通过对待编辑部分音频进行语音掩码后得到。

上述图形用户界面中至少显示有语音编辑控件，用户通过对该语音编辑控件执行触发操作，在上述图形用户界面中弹出语音编辑界面，进一步地，用户通过该语音编辑界面导入待进行语音编辑的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；以及从原始音频中选定待编辑部分音频，进而对目标文本和掩码后音频进行语音编辑，并在游戏场景中播放目标音频。

上述触发操作、输入操作、编辑操作和播放操作均可以是触控操作，该触控操作可以包括单点触控、多点触控，其中，每个触控点的触控操作可以包括点击、长按、重按、划动等。上述触发操作、输入操作、编辑操作和播放操作还可以是通过鼠标、键盘等输入设备实现的操作。

上述输入操作对应于图形用户界面中的第一控件或第一触控区域(如键入框、手写输入区域、输入按钮(例如按住该按钮则录制并接收用户的语音))；上述编辑操作对应于图形用户界面中的第二控件或第二触控区域(如编辑框、编辑选项栏等)；上述播放操作对应于图形用户界面中的第三控件或第三触控区域(如播放区域、播放按钮等)。

在一个可选实施例中，可以在游戏客户端内插入上述语音编辑工具，并在图形用户界面内提供一个语音编辑控件。游戏玩家通过对该语音编辑控件执行触控操作或者鼠标点击操作，可以弹出语音编辑界面。在语音编辑界面内，游戏玩家可以通过导入控件导入原始游戏语音和待使用的游戏内容文本，并从原始游戏语音中选定待编辑部分音频。例如：待使用的原始游戏语音为“欢迎我们伟大的勇士来到这里！”，用户既可以选定“勇士来到”对应的音频段，也可以选定首个文字“勇”与末尾文字“到”。然后，游戏服务器便可以实时对游戏应用中待使用的原始游戏语音“欢迎我们伟大的勇士来到这里！”中待编辑部分语音“勇士来到”进行语音掩码，得到掩码后游戏语音“欢迎我们伟大的【XXXX】这里！”。然后，再对游戏应用中待使用的游戏内容文本(勇士玩家角色名称来到)和掩码后游戏语音“欢迎我们伟大的【XXXX】这里！”进行语音编辑，得到目标游戏语音“欢迎我们伟大的【勇士玩家角色名称来到】这里！”。由此，针对不同游戏玩家可以播放个性化音频。综上，根据本申请实施例提供的语音编辑场景，能够以可视化的形式与用户进行交互，并根据用户的输入操作、编辑操作和播放操作生成对应的目标音频，有利于实际场景中的应用。

综上，根据本申请实施例提供的语音编辑场景，能够以可视化的形式与用户进行交互，并根据用户的输入操作、编辑操作和播放操作生成对应的目标音频，有利于实际场景中的应用。

本申请其中一实施例还提供了一种模型训练方法，图8是根据本申请其中一实施例的一种模型训练方法的流程图，如图8所示，该模型训练方法包括：

步骤S81，获取待处理的训练音频和训练文本，其中，训练文本用于确定待编辑至训练音频的文本内容；

步骤S82，对训练音频中的待编辑部分音频进行语音掩码，得到掩码后训练音频；

步骤S83，采用掩码后训练音频和训练文本对初始语音编辑模型进行训练，得到目标语音编辑模型，其中，目标语音编辑模型用于对目标文本和掩码后原始音频进行语音编辑以得到目标音频，掩码后原始音频通过对原始音频中的待编辑部分音频进行语音掩码后得到。

在对用于实现上述语音编辑方法的目标语音编辑模型进行训练的过程中，模型对应的输入要求和输出目标与模型测试或模型应用过程保持一致。也即，在应用场景中使用目标语音编辑模型基于原始音频和目标文本进行语音编辑，得到掩码后音频，进而得到目标音频，对应地，在训练过程中，基于训练音频和训练文本进行语音掩码得到掩码后音频，进而得到目标训练音频，从而对初始语音编辑模型进行参数优化得到目标语音编辑模型。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在本实施例中还提供了一种语音编辑装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图9是根据本申请其中一实施例的一种语音编辑装置的结构框图，如图9所示，该装置包括：获取模块901，用于获取待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；掩码模块902，用于对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频；编辑模块903，用于对目标文本和第一掩码后音频进行语音编辑，得到目标音频。

可选地，上述掩码模块902，还用于：获取待编辑部分音频在原始音频中的位置信息；基于位置信息对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频。

可选地，上述编辑模块903，还用于：对目标文本进行语音转换，得到中间音频；对中间音频和第一掩码后音频进行语音拼接，得到目标音频。

可选地，上述编辑模块903，还用于：对目标文本和第一掩码后音频进行语音编辑，得到目标声学特征，其中，目标声学特征用于确定目标文本对应的音频段；对目标声学特征进行声码转换，得到中间音频。

可选地，上述编辑模块903，还用于：对目标文本进行字素到音素转换，得到音素序列；使用目标语音编辑模型对音素序列和第一掩码后音频进行语音编辑，得到目标声学特征，其中，目标语音编辑模型采用多组数据通过深度学习训练得到，多组数据包括：训练音频和训练文本，训练文本为训练音频中的待编辑部分音频对应的文本。

可选地，图10是根据本申请其中一实施例的一种可选的语音编辑装置的结构框图，如图10所示，该装置除包括图9所示的所有模块外，还包括：更新模块904，用于对训练音频中的待编辑部分音频进行语音掩码，得到第二掩码后音频；使用初始语音编辑模型对第二掩码后音频和训练文本进行语音编辑，得到预测声学特征；通过预测声学特征与训练文本对应的真实声学特征确定目标损失；利用目标损失对初始语音编辑模型的参数进行更新，得到目标语音编辑模型。

可选地，上述编辑模块903，还用于：使用编码器对音素序列进行文本特征空间编码，得到文本特征；使用特征调节器对文本特征和第一掩码后音频进行特征调节，得到第一听觉感知特征，其中，第一听觉感知特征为目标文本对应的听觉感知特征；使用解码器对第一听觉感知特征进行声学解码，得到目标声学特征。

可选地，上述编辑模块903，还用于：从第一掩码后音频中提取第二听觉感知特征，其中，第二听觉感知特征为原始音频中与待编辑部分音频关联的上下文音频对应的听觉感知特征；使用特征调节器对文本特征和第二听觉感知特征进行特征调节，得到第一听觉感知特征。

可选地，在上述语音编辑装置中，第一听觉感知特征包括以下至少之一：目标文本对应的音高；目标文本对应的能量；目标文本对应的时长。

可选地，上述掩码模块902，还用于：对游戏应用中待使用的原始游戏语音中待编辑部分语音进行语音掩码，得到掩码后游戏语音；对目标文本和第一掩码后音频进行语音编辑，得到目标音频包括：对游戏应用中待使用的游戏内容文本和掩码后游戏语音进行语音编辑，得到目标游戏语音。

可选地，上述掩码模块902，还用于：对配音应用中待使用的原始多媒体配音中待编辑部分配音进行语音掩码，得到掩码后多媒体配音；对目标文本和第一掩码后音频进行语音编辑，得到目标音频包括：对配音应用中待使用的配音内容文本和掩码后多媒体配音进行语音编辑，得到目标多媒体配音。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；

S2，对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频；

S3，对目标文本和第一掩码后音频进行语音编辑，得到目标音频。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：获取待编辑部分音频在原始音频中的位置信息；基于位置信息对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：对目标文本进行语音转换，得到中间音频；对中间音频和第一掩码后音频进行语音拼接，得到目标音频。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：对目标文本和第一掩码后音频进行语音编辑，得到目标声学特征，其中，目标声学特征用于确定目标文本对应的音频段；对目标声学特征进行声码转换，得到中间音频。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：对目标文本进行字素到音素转换，得到音素序列；使用目标语音编辑模型对音素序列和第一掩码后音频进行语音编辑，得到目标声学特征，其中，目标语音编辑模型采用多组数据通过深度学习训练得到，多组数据包括：训练音频和训练文本，训练文本为训练音频中的待编辑部分音频对应的文本。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：对训练音频中的待编辑部分音频进行语音掩码，得到第二掩码后音频；使用初始语音编辑模型对第二掩码后音频和训练文本进行语音编辑，得到预测声学特征；通过预测声学特征与训练文本对应的真实声学特征确定目标损失；利用目标损失对初始语音编辑模型的参数进行更新，得到目标语音编辑模型。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：使用编码器对音素序列进行文本特征空间编码，得到文本特征；使用特征调节器对文本特征和第一掩码后音频进行特征调节，得到第一听觉感知特征，其中，第一听觉感知特征为目标文本对应的听觉感知特征；使用解码器对第一听觉感知特征进行声学解码，得到目标声学特征。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：从第一掩码后音频中提取第二听觉感知特征，其中，第二听觉感知特征为原始音频中与待编辑部分音频关联的上下文音频对应的听觉感知特征；使用特征调节器对文本特征和第二听觉感知特征进行特征调节，得到第一听觉感知特征。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：第一听觉感知特征包括以下至少之一：目标文本对应的音高；目标文本对应的能量；目标文本对应的时长。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：对游戏应用中待使用的原始游戏语音中待编辑部分语音进行语音掩码，得到掩码后游戏语音；对目标文本和第一掩码后音频进行语音编辑，得到目标音频包括：对游戏应用中待使用的游戏内容文本和掩码后游戏语音进行语音编辑，得到目标游戏语音。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：对配音应用中待使用的原始多媒体配音中待编辑部分配音进行语音掩码，得到掩码后多媒体配音；对目标文本和第一掩码后音频进行语音编辑，得到目标音频包括：对配音应用中待使用的配音内容文本和掩码后多媒体配音进行语音编辑，得到目标多媒体配音。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：接收来自于客户端的待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；对原始音频中的待编辑部分音频进行语音掩码以得到第一掩码后音频，以及对目标文本和第一掩码后音频进行语音编辑以得到目标音频；将目标音频反馈至客户端。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：响应对语音编辑控件执行的触发操作，弹出语音编辑界面；响应对语音编辑界面执行的输入操作，导入原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；响应对语音编辑界面执行的编辑操作，从原始音频中选定待编辑部分音频；响应对语音编辑界面执行的播放操作，在游戏场景中播放目标音频，其中，目标音频通过对目标文本和掩码后音频进行语音编辑后得到，掩码后音频通过对待编辑部分音频进行语音掩码后得到。

可选地，上述计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：获取待处理的训练音频和训练文本，其中，训练文本用于确定待编辑至训练音频的文本内容；对训练音频中的待编辑部分音频进行语音掩码，得到掩码后训练音频；采用掩码后训练音频和训练文本对初始语音编辑模型进行训练，得到目标语音编辑模型，其中，目标语音编辑模型用于对目标文本和掩码后原始音频进行语音编辑以得到目标音频，掩码后原始音频通过对原始音频中的待编辑部分音频进行语音掩码后得到。

在上述实施例的计算机可读存储介质中，提供了一种实现语音编辑方法的技术方案。通过获取待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；采用对原始音频中的待编辑部分音频进行语音掩码的方式得到第一掩码后音频；进一步对目标文本和第一掩码后音频进行语音编辑，得到目标音频，达到了通过对待执行语音编辑的原始音频先进行语音掩码再进行语音编辑得到目标音频的目的，从而实现了提高语音编辑结果的流畅度和真实感的技术效果，进而解决了相关技术中提供的语音编辑方法其训练和测试不匹配导致语音编辑结果的流畅度低、真实感差的技术问题。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

在本申请的示例性实施例中，计算机可读存储介质上存储有能够实现本实施例上述方法的程序产品。在一些可能的实施方式中，本申请实施例的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本实施例上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

根据本申请的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请实施例的程序产品不限于此，在本申请实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述程序产品可以采用一个或多个计算机可读介质的任意组合。该计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列举)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

本申请的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：获取待编辑部分音频在原始音频中的位置信息；基于位置信息对原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：对目标文本进行语音转换，得到中间音频；对中间音频和第一掩码后音频进行语音拼接，得到目标音频。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：对目标文本和第一掩码后音频进行语音编辑，得到目标声学特征，其中，目标声学特征用于确定目标文本对应的音频段；对目标声学特征进行声码转换，得到中间音频。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：对目标文本进行字素到音素转换，得到音素序列；使用目标语音编辑模型对音素序列和第一掩码后音频进行语音编辑，得到目标声学特征，其中，目标语音编辑模型采用多组数据通过深度学习训练得到，多组数据包括：训练音频和训练文本，训练文本为训练音频中的待编辑部分音频对应的文本。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：对训练音频中的待编辑部分音频进行语音掩码，得到第二掩码后音频；使用初始语音编辑模型对第二掩码后音频和训练文本进行语音编辑，得到预测声学特征；通过预测声学特征与训练文本对应的真实声学特征确定目标损失；利用目标损失对初始语音编辑模型的参数进行更新，得到目标语音编辑模型。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：使用编码器对音素序列进行文本特征空间编码，得到文本特征；使用特征调节器对文本特征和第一掩码后音频进行特征调节，得到第一听觉感知特征，其中，第一听觉感知特征为目标文本对应的听觉感知特征；使用解码器对第一听觉感知特征进行声学解码，得到目标声学特征。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：从第一掩码后音频中提取第二听觉感知特征，其中，第二听觉感知特征为原始音频中与待编辑部分音频关联的上下文音频对应的听觉感知特征；使用特征调节器对文本特征和第二听觉感知特征进行特征调节，得到第一听觉感知特征。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：第一听觉感知特征包括以下至少之一：目标文本对应的音高；目标文本对应的能量；目标文本对应的时长。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：对游戏应用中待使用的原始游戏语音中待编辑部分语音进行语音掩码，得到掩码后游戏语音；对目标文本和第一掩码后音频进行语音编辑，得到目标音频包括：对游戏应用中待使用的游戏内容文本和掩码后游戏语音进行语音编辑，得到目标游戏语音。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：对配音应用中待使用的原始多媒体配音中待编辑部分配音进行语音掩码，得到掩码后多媒体配音；对目标文本和第一掩码后音频进行语音编辑，得到目标音频包括：对配音应用中待使用的配音内容文本和掩码后多媒体配音进行语音编辑，得到目标多媒体配音。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：接收来自于客户端的待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；对原始音频中的待编辑部分音频进行语音掩码以得到第一掩码后音频，以及对目标文本和第一掩码后音频进行语音编辑以得到目标音频；将目标音频反馈至客户端。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：响应对语音编辑控件执行的触发操作，弹出语音编辑界面；响应对语音编辑界面执行的输入操作，导入原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；响应对语音编辑界面执行的编辑操作，从原始音频中选定待编辑部分音频；响应对语音编辑界面执行的播放操作，在游戏场景中播放目标音频，其中，目标音频通过对目标文本和掩码后音频进行语音编辑后得到，掩码后音频通过对待编辑部分音频进行语音掩码后得到。

可选地，上述处理器还可以被设置为通过计算机程序执行以下步骤：获取待处理的训练音频和训练文本，其中，训练文本用于确定待编辑至训练音频的文本内容；对训练音频中的待编辑部分音频进行语音掩码，得到掩码后训练音频；采用掩码后训练音频和训练文本对初始语音编辑模型进行训练，得到目标语音编辑模型，其中，目标语音编辑模型用于对目标文本和掩码后原始音频进行语音编辑以得到目标音频，掩码后原始音频通过对原始音频中的待编辑部分音频进行语音掩码后得到。

在上述实施例的电子装置中，提供了一种实现语音编辑方法的技术方案。通过获取待处理的原始音频和目标文本，其中，目标文本用于确定待编辑至原始音频的文本内容；采用对原始音频中的待编辑部分音频进行语音掩码的方式得到第一掩码后音频；进一步对目标文本和第一掩码后音频进行语音编辑，得到目标音频，达到了通过对待执行语音编辑的原始音频先进行语音掩码再进行语音编辑得到目标音频的目的，从而实现了提高语音编辑结果的流畅度和真实感的技术效果，进而解决了相关技术中提供的语音编辑方法其训练和测试不匹配导致语音编辑结果的流畅度低、真实感差的技术问题。

图11是根据本申请其中一实施例的一种电子装置的示意图。如图11所示，电子装置1100仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，电子装置1100以通用计算设备的形式表现。电子装置1100的组件可以包括但不限于：上述至少一个处理器1110、上述至少一个存储器1120、连接不同系统组件(包括存储器1120和处理器1110)的总线1130和显示器1140。

其中，上述存储器1120存储有程序代码，程序代码可以被处理器1110执行，使得处理器1110执行本申请实施例的上述方法部分中描述的根据本申请各种示例性实施方式的步骤。

存储器1120可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202，还可以进一步包括只读存储单元(ROM)11203，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。

在一些实例中，存储器1120还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204，这样的程序模块11205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。存储器1120可进一步包括相对于处理器1110远程设置的存储器，这些远程存储器可以通过网络连接至电子装置1100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

总线1130可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理器1110或者使用多种总线结构中的任意总线结构的局域总线。

显示器1140可以例如触摸屏式的液晶显示器(Liquid Crystal Display，LCD)，该液晶显示器可使得用户能够与电子装置1100的用户界面进行交互。

可选地，电子装置1100也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子装置1100交互的设备通信，和/或与使得该电子装置1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且，电子装置1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图11所示，网络适配器1160通过总线1130与电子装置1100的其它模块通信。应当明白，尽管图11中未示出，可以结合电子装置1100使用其它硬件和/或软件模块，可以包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays ofIndependent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

上述电子装置1100还可以包括：键盘、光标控制设备(如鼠标)、输入/输出接口(I/O接口)、网络接口、电源和/或相机。

本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子装置1100还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。存储器1120可用于存储计算机程序及对应的数据，如本申请实施例中的语音编辑方法对应的计算机程序及对应的数据。处理器1110通过运行存储在存储器1120内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的语音编辑方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音编辑方法，其特征在于，包括：

获取待处理的原始音频和目标文本，其中，所述目标文本用于确定待编辑至所述原始音频的文本内容；

对所述原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频；

对所述目标文本和所述第一掩码后音频进行语音编辑，得到目标音频。

2.根据权利要求1所述的语音编辑方法，其特征在于，对所述原始音频中的所述待编辑部分音频进行语音掩码，得到所述第一掩码后音频包括：

获取所述待编辑部分音频在所述原始音频中的位置信息；

基于所述位置信息对所述原始音频中的所述待编辑部分音频进行语音掩码，得到所述第一掩码后音频。

3.根据权利要求1所述的语音编辑方法，其特征在于，对所述目标文本和所述第一掩码后音频进行语音编辑，得到所述目标音频包括：

对所述目标文本进行语音转换，得到中间音频；

对所述中间音频和所述第一掩码后音频进行语音拼接，得到所述目标音频。

4.根据权利要求3所述的语音编辑方法，其特征在于，对所述目标文本进行语音转换，得到所述中间音频包括：

对所述目标文本和所述第一掩码后音频进行语音编辑，得到目标声学特征，其中，所述目标声学特征用于确定所述目标文本对应的音频段；

对所述目标声学特征进行声码转换，得到所述中间音频。

5.根据权利要求4所述的语音编辑方法，其特征在于，对所述目标文本和所述第一掩码后音频进行语音编辑，得到所述目标声学特征包括：

对所述目标文本进行字素到音素转换，得到音素序列；

使用目标语音编辑模型对所述音素序列和所述第一掩码后音频进行语音编辑，得到所述目标声学特征，其中，所述目标语音编辑模型采用多组数据通过深度学习训练得到，所述多组数据包括：训练音频和训练文本，所述训练文本为所述训练音频中的待编辑部分音频对应的文本。

6.根据权利要求5所述的语音编辑方法，其特征在于，所述语音编辑方法还包括：

对所述训练音频中的待编辑部分音频进行语音掩码，得到第二掩码后音频；

使用初始语音编辑模型对所述第二掩码后音频和所述训练文本进行语音编辑，得到预测声学特征；

通过所述预测声学特征与所述训练文本对应的真实声学特征确定目标损失；

利用所述目标损失对所述初始语音编辑模型的参数进行更新，得到所述目标语音编辑模型。

7.根据权利要求5所述的语音编辑方法，其特征在于，所述目标语音编辑模型包括：编码器、特征调节器和解码器，使用所述目标语音编辑模型对所述音素序列和所述第一掩码后音频进行语音编辑，得到所述目标声学特征包括：

使用所述编码器对所述音素序列进行文本特征空间编码，得到文本特征；

使用所述特征调节器对所述文本特征和所述第一掩码后音频进行特征调节，得到第一听觉感知特征，其中，所述第一听觉感知特征为所述目标文本对应的听觉感知特征；

使用所述解码器对所述第一听觉感知特征进行声学解码，得到所述目标声学特征。

8.根据权利要求7所述的语音编辑方法，其特征在于，使用所述特征调节器对所述文本特征和所述第一掩码后音频进行特征调节，得到所述第一听觉感知特征包括：

从所述第一掩码后音频中提取第二听觉感知特征，其中，所述第二听觉感知特征为所述原始音频中与所述待编辑部分音频关联的上下文音频对应的听觉感知特征；

使用所述特征调节器对所述文本特征和所述第二听觉感知特征进行特征调节，得到所述第一听觉感知特征。

9.根据权利要求7所述的语音编辑方法，其特征在于，所述第一听觉感知特征包括以下至少之一：

所述目标文本对应的音高；

所述目标文本对应的能量；

所述目标文本对应的时长。

10.根据权利要求1所述的语音编辑方法，其特征在于，对所述原始音频中的所述待编辑部分音频进行语音掩码，得到所述第一掩码后音频包括：

对游戏应用中待使用的原始游戏语音中待编辑部分语音进行语音掩码，得到掩码后游戏语音；

对所述目标文本和所述第一掩码后音频进行语音编辑，得到所述目标音频包括：

对所述游戏应用中待使用的游戏内容文本和所述掩码后游戏语音进行语音编辑，得到目标游戏语音。

11.根据权利要求1所述的语音编辑方法，其特征在于，对所述原始音频中的所述待编辑部分音频进行语音掩码，得到所述第一掩码后音频包括：

对配音应用中待使用的原始多媒体配音中待编辑部分配音进行语音掩码，得到掩码后多媒体配音；

对所述配音应用中待使用的配音内容文本和所述掩码后多媒体配音进行语音编辑，得到目标多媒体配音。

12.一种语音编辑方法，其特征在于，通过终端设备提供一图形用户界面，所述图形用户界面所显示的内容包括一语音编辑控件，所述语音编辑方法包括：

响应对所述语音编辑控件执行的触发操作，弹出语音编辑界面；

响应对所述语音编辑界面执行的输入操作，导入原始音频和目标文本，其中，所述目标文本用于确定待编辑至所述原始音频的文本内容；

响应对所述语音编辑界面执行的编辑操作，从所述原始音频中选定待编辑部分音频；

响应对所述语音编辑界面执行的播放操作，在游戏场景中播放目标音频，其中，所述目标音频通过对所述目标文本和掩码后音频进行语音编辑后得到，所述掩码后音频通过对所述待编辑部分音频进行语音掩码后得到。

13.一种模型训练方法，其特征在于，包括：

获取待处理的训练音频和训练文本，其中，所述训练文本用于确定待编辑至所述训练音频的文本内容；

对所述训练音频中的待编辑部分音频进行语音掩码，得到掩码后训练音频；

采用所述掩码后训练音频和所述训练文本对初始语音编辑模型进行训练，得到目标语音编辑模型，其中，所述目标语音编辑模型用于对目标文本和掩码后原始音频进行语音编辑以得到目标音频，所述掩码后原始音频通过对原始音频中的待编辑部分音频进行语音掩码后得到。

14.一种语音编辑装置，其特征在于，包括：

获取模块，用于获取待处理的原始音频和目标文本，其中，所述目标文本用于确定待编辑至所述原始音频的文本内容；

掩码模块，用于对所述原始音频中的待编辑部分音频进行语音掩码，得到第一掩码后音频；

编辑模块，用于对所述目标文本和所述第一掩码后音频进行语音编辑，得到目标音频。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为被处理器运行时执行权利要求1至12任一项中所述的语音编辑方法或权利要求13中所述的模型训练方法。

16.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至12任一项中所述的语音编辑方法或权利要求13中所述的模型训练方法。