CN115037975A

CN115037975A - 一种视频配音的方法、相关设备以及计算机可读存储介质

Info

Publication number: CN115037975A
Application number: CN202110205548.XA
Authority: CN
Inventors: 马玉; 王卫星; 梅浩
Original assignee: Petal Cloud Technology Co Ltd
Current assignee: Petal Cloud Technology Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-09-09
Anticipated expiration: 2041-02-24
Also published as: CN115037975B; EP4284005A1; WO2022179530A1

Abstract

本申请提供了一种视频配音的方法、相关设备以及计算机可读存储介质；其中，所述方法包括：第一终端检测到针对当前显示视频的截取配音操作指令后，截取所述当前显示视频，得到视频截取片段并显示视频配音控件；所述第一终端检测到针对所述视频配音控件的触发操作后，创建并显示针对所述视频截取片段的配音间；在所述第一终端分析所述视频截取片段的配音角色数量不为0的情况下，所述第一终端检测到针对所述配音间的第一输入操作后，显示配音界面。通过上述方法，配音素材可以从视频资源库中获取，而不用将配音素材预先上传并处理，使得配音素材的来源更加广泛，从而给予用户更好的配音体验。

Description

一种视频配音的方法、相关设备以及计算机可读存储介质

技术领域

本申请涉及视频配音技术领域，尤其涉及一种视频配音的方法、相关设备以及计算机可读存储介质。

背景技术

随着《声临其境》等配音类节目走向了前台，开辟了综艺节目的新领域，给观众带来了全新娱乐体验，同时也衍生了泛娱乐社交行业的新玩法，即线上配音。

目前，线上视频配音APP主要2类：第一类是选择APP内置声线，通过文字转语音，结合背景音乐自动合成声音，适合短视频自媒体配音、广告叫卖促销配音、企业宣传、解说配音、有声阅读等场景，此类APP比如“微配音”等；第二类是根据自己制作视频素材或者用APP上已有视频配音，比较有趣味性，类似于把《声临其境》搬到线上，此类APP比如“配音秀”等。

但是，目前的线上视频配音APP仅支持已上传的配音素材配音，使得配音素材的来源有限。

发明内容

本申请实施例提供了一种视频配音的方法、相关设备以及计算机可读存储介质，解决了配音素材来源有限的问题。

第一方面，本申请实施例提供了一种视频配音的方法，包括：第一终端检测到针对当前显示视频的截取配音操作指令后，截取所述当前显示视频，得到视频截取片段并显示视频配音控件；所述第一终端检测到针对所述视频配音控件的触发操作后，创建并显示针对所述视频截取片段的配音间；在所述第一终端分析所述视频截取片段的配音角色数量不为0的情况下，所述第一终端检测到针对所述配音间的第一输入操作后，显示配音界面；其中，所述配音界面包括第一展示框，所述第一展示框用于显示和播放配音素材。通过上述方法，第一终端可以直接在视频应用中截取视频获取配音素材，使得配音素材的来源更加广泛，解决了配音素材来源有限的问题。

在一种可能实现的方式中，所述第一终端检测到针对所述视频配音控件的触发操作后，创建并显示针对所述视频截取片段的配音间之后，包括：所述第一终端向网络设备发送请求消息；所述请求消息包括所述视频截取片段的原始视频ID、所述视频截取片段的起始时间以及所述视频截取片段的结束时间；所述第一终端接收所述网络设备发送的第一响应；所述第一响应包括配音角色的数量信息；所述第一终端基于所述配音角色信息执行第一操作。这样，第一终端截取视频片段后，可以直接创建配音间获取配音素材，不必执行诸如：上传视频、添加配音角色、编辑角色字幕、添加背景音乐、添加标签等繁琐的操作，降低了用户上传配音素材的复杂度，从而，提高了用户的配音体验。

在一种可能实现的方式中，所述第一终端基于所述配音角色信息执行第一操作，包括：若所述配音角色的数量为0，所述第一终端显示第一提示信息；所述第一提示信息用于指示所述视频截取片段不可用；若所述配音角色的数量大于1，所述第一终端检测到针对所述配音间的第二输入操作后，向第二终端发送第一指令；所述第一指令用于指示所述第二终端的视频应用账号接入所述配音间；在所述第二终端的视频应用账号接入所述配音间的情况下，所述第一终端分配配音角色并生成第一信息；所述第一信息用于指示接入所述配音间内终端的视频应用账号与所述配音角色的对应关系；所述第一终端向所述网络设备发送所述第一信息；所述第一终端接收所述网络设备发送的所述配音素材；所述配音素材是所述网络设备基于所述第一信息得到的。通过上述方法，第一终端在配音角色数量大于1的情况下，邀请其它用户进入配音间配音，实现多用户实时配音，提高了用户的配音体验。

在一种可能实现的方式中，所述第一终端分配配音角色并生成第一信息，包括：所述第一终端绑定所述配音角色与接入所述配音间内终端的视频应用账号；所述第一终端生成所述第一信息；所述第一信息用于指示接入所述配音间内终端的视频应用账号与所述配音角色的对应关系；所述第一终端向所述第二终端发送通知消息；所述通知消息用于指示所述第二终端的视频应用账号所分配的配音角色。通过上述方法，第一终端生成第一信息后有利于网络设备生成应用于多人配音的配音素材，使得第一终端可以实现多人在线实时配音，提高了用户的配音体验。

在一种可能实现的方式中，所述第一终端分配配音角色并生成第一信息，包括：所述第一终端向所述第二终端发送第二指令；所述第二指令用于指示所述第二终端的视频应用账号选择配音角色；所述第一终端接收所述第二终端发送的确认消息；所述确认消息用于指示所述第二终端选择的配音角色；所述第一终端基于所述确认消息生成所述第一信息；所述第一信息用于指示接入所述配音间内终端的视频应用账号与所述配音角色的对应关系。通过上述方法，第一终端生成第一信息后有利于网络设备生成应用于多人配音的配音素材，使得第一终端可以实现多人在线实时配音，提高了用户的配音体验。

在一种可能实现的方式中，所述第一终端基于所述配音角色信息执行第一操作之后，包括：所述第一终端检测到针对所述配音界面的第三输入操作后，暂停配音模式；其中，所述配音模式为：所述第一终端实时采集外部音频作为配音音频并在所述第一展示框中播放所述配音素材；在暂停配音模式的情况下，若所述第一终端检测到针对所述配音界面的第四输入操作后，所述第一终端向所述第二终端发送第三指令；所述第三指令用于指示所述第二终端的视频应用账号进入语音通话模式。通过上述方法，第一终端开启语音模式，使得接入配音间内的终端设备的用户可以实时对话，提高了用户之间的互动性，从而提高了用户的配音体验。

在一种可能实现的方式中，所述第一终端基于所述配音角色信息执行第一操作之后，包括：所述第一终端检测到针对所述配音界面的第三输入操作后，暂停配音模式；其中，所述配音模式为：所述第一终端实时采集外部音频作为配音音频并在所述第一展示框中播放所述配音素材；在暂停配音模式的情况下，若所述第一终端检测到针对所述配音界面的第五输入操作，所述第一终端显示回放界面；所述回放界面包括第二展示框；所述第一终端检测到针对所述回放界面的第六输入操作后，在所述第二展示框中回放第一视频片段并回放所述第一终端和所述第二终端在所述配音模式下实时采集的外部音频；其中，所述第一视频片段为所述配音素材中已配音的视频片段。通过上述方法，第一终端可以回放已配音的视频，从而使得用户可以提前预览配音效果，使得用户可以基于配音效果对后续配音的策略进行调整，提高了用户的配音体验。

在一种可能实现的方式中，所述第一终端检测到针对所述配音间的第一输入操作后，显示配音界面之后，包括：所述第一终端检测到针对所述配音界面的第七输入操作后，显示预览界面；所述预览界面包括第三展示框，所述第三展示框用于显示第二视频片段；其中，所述第二视频片段为所述配音素材中已配音的视频片段；所述第一终端检测到针对所述预览界面的第八输入操作后，显示剪切界面；所述剪切界面包括第四展示框，所述第四展示框用于显示剪切后的所述第二视频片段；所述第一终端检测到针对所述剪切界面的第九输入操作后，剪切所述第二视频片段与所述第一终端和所述第二终端在配音模式下实时采集的外部音频。通过上述方法，用户可以对已配音的视频进行剪切，得到符合需求个性化的配音作品，提高了用户的配音体验。

第二方面，本申请实施例提供了一种视频配音的方法，包括：网络设备接收第一终端发送的请求消息；所述请求消息包括视频截取片段的原始视频ID、视频截取片段的起始时间以及视频截取片段的结束时间；所述网络设备基于所述视频截取片段的原始视频ID从视频资源库中找到所述视频截取片段的原始视频；所述网络设备基于所述视频截取片段的起始时间以及所述视频截取片段的结束时间在所述原始视频中获取所述视频截取片段的播放位置；所述网络设备基于所述视频截取片段在所述原始视频中的播放位置分析所述截取视频中的可配音的角色，并得到配音角色的数量信息；所述网络设备基于所述配音角色的数量信息生成第一响应；所述网络设备将所述第一响应发送给所述第一终端。通过上述方法，第一终端可以在配音角色数量大于1的情况下，邀请多用户在线配音，从而实现多人实时在线配音，提高了用户的配音体验。

在一种可能实现的方式中，所述网络设备基于所述配音角色信息生成第一响应之后，包括：所述网络设备接收所述第一终端发送的第一信息；所述第一信息用于指示接入所述配音间内终端的视频应用账号与所述配音角色的对应关系；所述网络设备截取所述视频截取片段在其原始视频中播放位置对应的视频片段，得到截取后的视频片段；所述网络设备基于所述第一信息对所述截取后的视频片段中已分配的配音角色进行消音处理得到配音素材；所述网络设备将所述配音素材发送给所述第一终端。通过上述方法，网络设备将配音素材发送给第一终端，使得第一终端截取视频片段后，可以直接创建配音间获取配音素材，不必执行诸如：上传视频、添加配音角色、编辑角色字幕、添加背景音乐、添加标签等繁琐的操作，降低了用户上传配音素材的复杂度，从而，提高了用户的配音体验。

第三方面，本申请实施例提供了一种视频配音的方法，包括：第二终端接收第一终端发送的第一指令；所述第一指令用于指示所述第二终端的视频应用账号接入所述第一终端创建的配音间；所述第二终端响应所述第一指令，将其视频应用账号接入所述第一终端创建的配音间。通过上述方法，可以实现多人同时在线配音，用户配音不再对空讲话，提高了用户的配音体验。

在一种可能实现的方式中，所述第二终端响应所述第二请求消息，接入所述第一终端创建的配音间之后，包括：所述第二终端接收所述第一终端发送的通知消息；所述通知消息用于指示所述第二终端的视频应用账号所分配的配音角色。通过上述方法，在接入配音间内的第二终端选择配音角色后，网络设备会对待配音视频片段中以选择的角色进行消音处理，保留未选择的配音角色的音频以及待配音视频片段的背景音，在一定程度上保证了配音素材内容的丰富性，使得用户在配音时有更好的配音体验。

在一种可能实现的方式中，所述第二终端响应所述第二请求消息，接入所述第一终端创建的配音间之后，包括：所述第二终端接收所述第一终端发送的第二指令；所述第二指令用于指示第二终端的视频应用账号选择配音角色；所述第二终端向所述第一终端发送确认消息；所述确认消息用于指示所述第二终端的视频应用账号选择的配音角色。通过上述方法，使得用户可以根据自身的需求和兴趣选择合适的配音角色进行配音，提高了用户的配音体验。

在一种可能实现的方式中，所述第二终端响应所述第一指令，将其视频应用的用户账号接入所述第一终端创建的配音间之后，还包括：所述第二终端接收所述第一终端发送的第三指令；所述第三指令用于指示所述第二终端的视频应用账号进入语音通话模式；所述第二终端响应所述第三指令，令其视频应用账号进入所述语音通话模式。通过上述方法，第二终端进入语音模式，使得接入配音间内的终端设备的用户可以实时对话，提高了用户之间的互动性，从而提高了用户的配音体验。

第四方面，本申请实施例提供一种终端，所述终端可以为上述第一方面中的第一终端，包括：存储器、处理器和触控屏；

所述存储器，用于存储计算机程序，所述计算机程序包括程序指令；

所述处理器用于调用所述程序指令，使得所述终端执行如下步骤：检测到针对当前显示视频的截取配音操作指令后，截取所述当前显示视频，得到视频截取片段并指示所述触控屏显示视频配音控件；检测到针对所述视频配音控件的触发操作后，创建并指示所述触控屏显示针对所述视频截取片段的配音间；在分析所述视频截取片段的配音角色数量不为0的情况下，检测到针对所述配音间的第一输入操作后，指示所述触控屏显示配音界面。

在一种可能实现的方式中，所述处理器检测到针对所述视频配音控件的触发操作后，创建并指示所述触控屏显示针对所述视频截取片段的配音间之后，包括：通过通信模块向网络设备发送请求消息；通过通信模块接收所述网络设备发送的第一响应；基于所述配音角色信息执行第一操作。

在一种可能实现的方式中，所述处理器基于所述配音角色信息执行第一操作，包括：若所述配音角色的数量为0，指示所述触控屏显示第一提示信息；若所述配音角色的数量大于1，检测到针对所述配音间的第二输入操作后，通过通信模块向第二终端发送第一指令；在所述第二终端的视频应用账号接入所述配音间的情况下，分配配音角色并生成第一信息；通过通信模块向所述网络设备发送所述第一信息；通过通信模块接收所述网络设备发送的配音素材。

在一种可能实现的方式中，所述处理器分配配音角色并生成第一信息，包括：绑定所述配音角色与接入所述配音间内终端的视频应用账号；生成所述第一信息；通过通信模块向所述第二终端发送通知消息。

在一种可能实现的方式中，所述处理器分配配音角色并生成第一信息，包括：通过通信模块向所述第二终端发送第二指令；通过通信模块接收所述第二终端发送的确认消息；基于所述确认消息生成所述第一信息。

在一种可能实现的方式中，所述处理器基于所述配音角色信息执行第一操作之后，包括：检测到针对所述配音界面的第三输入操作后，暂停配音模式；在暂停配音模式的情况下，检测到针对所述配音界面的第四输入操作后，通过通信模块向所述第二终端发送第三指令。

在一种可能实现的方式中，所述处理器基于所述配音角色信息执行第一操作之后，包括：检测到针对所述配音界面的第三输入操作后，暂停配音模式；在暂停配音模式的情况下，若检测到针对所述配音界面的第五输入操作，指示所述触控屏显示回放界面；检测到针对所述回放界面的第六输入操作后，指示所述触控屏在所述第二展示框中回放第一视频片段并播放所述第一终端和所述第二终端在所述配音模式下实时采集的外部音频。

在一种可能实现的方式中，所述处理器检测到针对所述配音间的第一输入操作后，指示所述触控屏显示配音界面之后，包括：检测到针对所述配音界面的第七输入操作后，指示所述触控屏显示预览界面；检测到针对所述预览界面的第八输入操作后，指示所述触控屏显示剪切界面；检测到针对所述剪切界面的第九输入操作后，剪切所述第二视频片段与所述第一终端和所述第二终端在配音模式下实时采集的外部音频。

第五方面，本申请实施例提供一种网络设备，所述网络设备可以为上述第二方面中的网络设备，包括：存储器、处理器和通信模块；

所述处理器用于调用所述程序指令，使得所述网络设备执行如下步骤：通过通信模块接收第一终端发送的请求消息；基于所述视频截取片段的原始视频ID从视频资源库中找到所述视频截取片段的原始视频；基于所述视频截取片段的起始时间以及所述视频截取片段的结束时间在所述原始视频中获取所述视频截取片段的播放位置；基于所述视频截取片段在所述原始视频中的播放位置分析所述截取视频中的可配音的角色，并得到配音角色的数量信息；基于所述配音角色的数量信息生成第一响应；通过通信模块将所述第一响应发送给所述第一终端。

在一种可能实现的方式中，所述处理器基于所述配音角色信息生成第一响应之后，包括：通过通信模块接收所述第一终端发送的第一信息；截取所述视频截取片段在其原始视频中播放位置对应的视频片段，得到截取后的视频片段；基于所述第一信息对所述截取后的视频片段中已分配的配音角色进行消音处理得到配音素材；通过通信模块将所述配音素材发送给所述第一终端。

第六方面，本申请实施例提供一种终端，所述终端可以为上述第三方面中的第二终端，包括：存储器、处理器、通信模块和触控屏；

所述处理器用于调用所述程序指令，使得所述终端执行如下步骤：通过通信模块接收第一终端发送的第一指令；响应所述第一指令，将其视频应用账号接入所述第一终端创建的配音间。

在一种可能实现的方式中，所述处理器响应所述第二请求消息，接入所述第一终端创建的配音间之后，包括：通过通信模块接收所述第一终端发送的通知消息。

在一种可能实现的方式中，所述处理器响应所述第二请求消息，接入所述第一终端创建的配音间之后，包括：通过通信模块接收所述第一终端发送的第二指令；通过通信模块向所述第一终端发送确认消息。

在一种可能实现的方式中，所述处理器响应所述第一指令，将其视频应用的用户账号接入所述第一终端创建的配音间之后，还包括：通过通信模块接收所述第一终端发送的第三指令；响应所述第三指令，令其视频应用账号进入所述语音通话模式。

第七方面，本申请提供了一种终端，所述终端可以为上述第一方面中的第一终端，包括：一个或多个功能模块。一个或多个功能模块用于执行上述第一方面任一项可能的实现方式中的视频配音的方法。

第八方面，本申请提供了一种网络设备，所述网络设备可以为上述第二方面中的网络设备，包括：一个或多个功能模块。一个或多个功能模块用于执行上述第二方面任一项可能的实现方式中的视频配音的方法。

第九方面，本申请提供了一种终端，所述终端可以为上述第三方面中的第二终端，包括：一个或多个功能模块。一个或多个功能模块用于执行上述第三方面任一项可能的实现方式中的视频配音的方法。

第十方面，本申请实施例提供了一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得通信装置执行上述任一方面任一项可能的实现方式中的视频配音的方法。

第十一方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述任一方面任一项可能的实现方式中的视频配音的方法。

附图说明

图1A为本申请实施例提供的一种终端主界面图；

图1B-图1D是本申请实施例提供的一种视频应用界面图；

图1E-图1G是本申请实施例提供的一种视频应用的截取视频界面图；

图2A-图2E是本申请实施例提供的一种的配音间界面图；

图3A-图3D是本申请实施例提供的一种第一终端的配音界面图；

图3E是本申请实施例提供的一种配音回放界面图；

图3F是本申请实施例提供的另一种第一终端的配音界面图；

图4是本申请实施例提供的一种第二终端的配音界面图；

图5A-图5C是本申请实施例提供的一种第一终端的预览界面图；

图6是本申请实施例提供的一种配音个人主页界面图；

图7是本申请实施例提供的一种视频配音方法流程图；

图8是本申请实施例提供的一种创建配音间的流程图；

图9是本申请实施例提供的一种第一终端与网络设备通信的流程图；

图10是本申请实施例提供的一种第一终端的结构示意图；

图11是本申请实施例提供的一种第一终端的软件结构框图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例中的第一终端和第二终端可以为智能手机、平板电脑以及智能手表等通信设备，网络设备可以为视频服务端等服务器。

下面结合应用场景，介绍本申请实施例涉及的一种视频配音的方法。

在一些应用场景中，第一终端可以为智能手机、平板电脑以及笔记本电脑等终端设备，本申请实施例以智能手机为第一终端100为例，进行举例说明。第一终端100使用视频播放软件播放视频时，接收到接收用户截取视频的操作，在截取视频成功后，第一终端100将截取保存后的视频片段发送给网络设备，网络设备对截取的视频片段进行解析和处理后，生成配音片段发送给第一终端100的视频客户端，为用户提供视频配音服务。相较于传统的配音软件，第一终端100的配音素材可以为视频播放软件中的截取片段，配音素材来源更加广泛。

示例性的，如图1A所示，第一终端100可以显示有主屏幕的界面110，该界面110中显示了一个放置有应用图标的页面，该页面包括多个应用图标(例如，设置应用图标、音乐应用图标、备忘录应用图标、云共享应用图标、视频应用图标111、云共享应用图标等)。多个应用图标下面还显示包括有页面指示符，以表明当前显示页面与其它页面的位置关系。页面指示符下方有多个托盘图标(例如拨号应用图标、信息应用图标、联系人应用图标、相机应用图标)，托盘应用图标在页面切换时保持显示。在一些实施例中，上述页面也可以包括多个应用图标和页面指示符，页面指示符可以不是页面的一部分，单独存在，上述图标也是可选的，本申请实施例对此不作限制。

第一终端100可以接收用户作用于视频应用图标111的输入操作(例如单击)，响应于所述输入操作，第一终端100可以显示如图1B所示的视频主界面120。

如图1B所示，所述视频主界面120包括视频搜索框121、推荐视频展示框122；其中，视频搜索框121用于第一终端100检测到外部的输入操作(例如输入字符)，在视频库中搜寻视频搜索框121中字符对应的视频；推荐视频展示框122包括推荐视频展示页面，所述推荐视频展示页面用于向用户展示推荐视频，所述推荐视频的推送可以是基于用户观看视频后的评分来决定的，也可以是基于视频的播放量来决定的，本申请实施例不做限制；在所述推荐视频展示页面包括页面指示符，以表明当前推荐视频展示页面与其它推荐视频展示页面的位置关系，所述页面指示符在推荐视频展示页面切换时保持显示。视频主界面120还包括个性视频展示区域123，所述个性视频展示区域123用于第一终端100基于用户视频历史观看数据以及大数据向用户展示符合用户观看需求的视频，在个性视频展示区域123中包括“猜你喜欢”控件1231、推送视频展示框1232以及推送视频的名称图标1233。在视频主界面120的底部有多个托盘应用图标(例如首页图标124、会员应用图标、配音应用图标125以及个人应用图标)，所述托盘应用图标在视频主界面的页面切换时保持显示。当设备100检测到用户对托盘应用图标的输入操作(例如单击)，响应用户的操作，第一终端100显示不同的主界面；例如，当第一终端100检测到用户对首页图标124的单击操作时，第一终端100响应用户的单击操作，显示视频主界面120；当第一终端100检测到针对配音应用图标125的输入操作(例如单击)时，第一终端100显示如图6所述的配音个人主页。在一些实施例中，上述视频主界面可以包括多个托盘应用图标，且托盘应用图标是可选的；对于上述视频主界面中的推荐视频展示框、个性视频展示区域以及个性视频展示区域中的控件和图标也是可选的，本申请实施例对此不作限制。

第一终端100检测用户作用于视频搜索框121的输入操作后，响应所述输入操作，第一终端100在视频主界面120中显示键盘输入框；第一终端100可以检测用户作用于所述键盘输入框的输入操作(例如单击)，响应所述作用于键盘输入框的操作，第一终端100在视频搜索框中显示用户通过键盘输入框输出的字符；第一终端100检测用户作用于搜索图标129的单击等输入操作，响应该输入操作，第一终端100在视频资源库中搜寻用户输入的目标视频，并显示如图1D所示的搜索结果界面140。

在一种可能实现的方式中，第一终端100可以接收用户作用于如图1B中的视频搜索框121的单击等输入操作，响应于所述输入操作，第一终端100可以显示如图1C所示的搜索视频界面130。

如图1C所示，搜索视频界面130包括搜索框131、搜索控件132；在搜索框131的下方显示用户的搜索记录。当第一终端100检测到用户对搜索框131的单击等输入操作后，响应于所述输入操作，第一终端100在搜索视频界面130中显示键盘输入框133。当第一终端100检测到用户对键盘输入框133的单击等输入操作，响应于该输入操作，第一终端100在搜索框131中显示用户基于键盘输入框133输入的字符；当第一终端100检测到用户对搜索控件132的输入操作或者对键盘输入框133中的确认控件1331的单击等输入操作后，响应该输入操作，第一终端100在视频资源库中搜寻搜索框131中字符对应的目标视频，并显示如图1D所示的搜索结果界面140。在一些实施例中，视频搜索界面中搜索历史展示区是可选的，本申请实施例对此不作限制。

如图1D所示，搜索结果界面140包括视频显示区域141、搜索框142、搜索控件143、返回控件144、播放控件145、下载控件146以及多个选集控件147。其中，视频显示区域141包括第一显示区域1411和第二显示区域1412，第一显示区域用于显示搜索的目标视频的封面，第二显示区域用于显示搜索的目标视频的信息(例如视频名称、视频类型、视频参演人员等等)。第一终端100检测到用于返回控件144的输入操作后，响应所述操作，第一终端100可以显示上一显示界面(例如视频搜索界面130或视频主界面120)，也可以显示界面110，本申请实施例不做限制。当第一终端100检测到用户对搜索框142的单击等输入操作后，电子设备响应所述输入操作请参考上述实施例图1C中第一终端100响应用户对于搜索框142的操作或第一终端100响应用户作用于视频搜索框121的输入操作，本申请实施例不再赘述。当第一终端100检测到用户对播放控件145的单击等输入操作后，电子设备响应所述输入操作，从起始时刻开始播放所述目标视频；在一种可选的方式中，当第一终端100检测到用户对播放控件145的单击等输入操作，电子设备响应所述操作，基于历史数据，从用户上一次观看所述目标视频的历史时刻开始播放所述目标视频。在第一终端100检测到用户针对下载控件146的输入操作后，第一终端100检测到用户对选集控件147的单击等输入操作，第一终端100响应用户的输入操作，下载用户所选的视频。在第一终端100未检测到用户针对下载控件146的输入操作的情况下，检测到用户对选集控件147的单击等输入操作，第一终端100播放选集控件147对应集数的视频。

本申请实施例以第一终端100响应用户对播放控件145的输入操作为例进行举例说明，当第一终端100检测到用户对于播放控件145的单击等输入操作后，从起始时刻开始播放目标视频，显示如图1E的视频播放界面150。

如图1E所示，视频播放界面150用于显示正在播放的视频，包括锁定屏幕控件151、播放/暂停控件152、视频截取控件153以及进度调整控件155。其中，时间进度条154的左侧可以显示当前视频播放的时长，时间进度条154的右侧可以显示当前播放视频的总时长，随着视频的播放，时间进度条154上的进度调整控件155从左至右滑动，当进度调整控件155滑动到时间进度条154的最右端时，视频播放结束；当第一终端100检测到用户对进度调整控件155的输入操作(例如左滑或右滑)时，第一终端100从进度调整控件155在时间进度条154所在位置对应的时刻开始播放视频；当视频处于播放状态时，第一终端100检测到用户对播放/暂停控件152的单击等输入操作时，第一终端100响应该输入操作，暂停视频，并将播放/暂停控件152的功能设置为播放视频功能(即当第一终端100再次检测到针对播放/暂停控件152的输入操作时，第一终端100播放视频)；当视频处于暂停播放状态时；第一终端100检测到用户对播放/暂停控件152的单击等输入操作时，第一终端100响应该输入操作，播放视频，并将播放/暂停控件152的功能设置为暂停视频的功能(即当第一终端100再次检测到针对播放/暂停控件152的输入操作时，第一终端100暂停播放视频)。视频截取控件153可用于第一终端100截取当前播放视频的片段，第一终端100检测到用户对视频截取控件153的单击等输入操作时，第一终端100可以显示图1F所示的视频片段截取界面160。在一些实施例中，视频播放界面150除了上述控件外，还有其它控件，这些控件都是可选的，本申请实施例仅做举例说明，不做限制。

如图1F所示，视频片段截取界面160包括时间进度条161、第一截取控件162以及第二截取控件163。当第一终端100检测到用户对第一截取控件162的输入操作(例如左滑或者右滑)时，第一终端100显示第一截取控件162在时间进度条161所在位置对应时刻的视频帧图像，时间进度条161的左侧显示第一截取控件162在时间进度条161所在位置对应时刻；同理，当第一终端100检测到用户对第二截取控件163的输入操作(例如左滑或者右滑)时，第一终端100显示第二截取控件163在时间进度条161所在位置对应时刻的视频帧图像，时间进度条161的左侧显示第二截取控件163在时间进度条161所在位置对应时刻。当第一终端100检测到用户对确定控件164的输入操作(例如单击)后，第一终端100以第一截取控件162在时间进度条161所在位置对应时刻(图1F为04:15)为起始剪切点，以第二截取控件163在时间进度条161所在位置对应时刻(图1F为20:39)为结束剪切点来剪切原视频，得到剪切视频。在一些实施例中，视频片段截取界面的第一截取控件在时间进度条所在位置对应时刻和第二截取控件在时间进度条所在位置对应时刻显示的位置可变，本申请实施例不做限制。第一终端100剪切视频后，显示如图1G所示的配音选择界面170。

如图1G所示，配音选择界面170包括截取视频片段展示区域171和多个应用图标(例如分享好友应用图标和配音应用图标172等)。在一些实施例中，配音选择界面的应用图标是可选的，本申请实施例仅列举两个作举例说明，对于应用图标的选择，本申请实施例不做限制。其中，截取片段展示区域171用于显示截取视频片段的封面；第一终端100可以检测用户对配音应用图标172的输入操作(例如单击)，当电子设备检测到所述输入操作后，第一终端100执行所述输入操作，创建配音间，并显示图2A所示的配音间的第一界面210。

如图2A所示，配音间第一界面210包括配音间ID图标211、返回控件212、展示区域213以及信息展示框214。其中，配音间ID图标211显示当前配音间的ID号，配音间的ID是唯一的，用于区别当前配音间和其它配音间；展示区域213用于显示配音素材的封面，配音素材为上述截取的视频片段；信息展示框214用于显示配音素材的信息(例如配音角色名、配音角色性别以及配音素材的来源等信息)。配音间的第一界面210还包括开始配音控件215和邀请好友控件216。当第一终端100检测到配音素材中可配音角色的数量为一个时，第一终端100不检测用户对邀请好友控件216的输入操作。当第一终端100检测到配音素材中可配音角色的数量等于一个，且第一终端100未检测到用户对邀请好友控件216的输入操作时，若第一终端100检测到对开始配音控件215的输入操作，第一终端100响应该输入操作，显示配音间的第二界面；其中，所述配音间第二界面为单人配音界面。当第一终端100检测到配音素材中可配音角色的数量大于一个时，第一终端100检测到对邀请好友控件216的输入操作后，第一终端100在配音间的第一界面210中显示图2B所示的邀请好友信息框217。

如图2B所示，邀请好友信息框217包括邀请微信好友控件2171、邀请QQ好友控件2172以及邀请视频好友控件2173等其他控件。当第一终端100检测到对要求微信好友控件2171和邀请QQ好友控件2172的输入操作(例如单击)时，第一终端100的主屏幕会显示微信或QQ等通信软件的好友列表界面；当第一终端100检测到针对所述好友列表界面的输入操作时，第一终端100会向第二终端200发送配音请求链接，第二终端200为所述好友列表中被选中好友的智能手机或平板电脑等终端设备；当第二终端200检测到对所述配音请求链接的输入操作后(例如单击)，第二终端200检测安装的视频应用，并打开所述视频应用；在第二终端200检测到使用微信或QQ等社交账号登录视频应用的输入操作后，登录视频应用并进入配音间。本申请实施例以第一终端100检测到对邀请视频好友控件2173的输入操作(例如单击)，第一终端100响应该输入操作显示图2C所示的好友列表界面220为例进行举例说明。

如图2C所示，好友列表界面220包括多个好友显示框221，在每个好友显示框中包括好友名称、好友图标以及选择控件222。当第一终端100检测到对于选择控件222的输入操作时(例如单击)，第一终端100会选中好友。另外，在好友列表界面220中还包括搜索框223以及搜索图标224，用于第一终端100检测到针对搜索框233以及搜索图标224的输入操作后，第一终端100在好友列表中搜索所述搜索框223中的对应好友用户名；在图2C中，第一终端100检测到对用户李华以及用户小丽对应的选择控件的输入操作后，第一终端100响应该输入操作，向用户李华以及用户小丽的电子设备200发送配音链接，使得李虎和小丽的第二电子设备中的视频应用能够接入配音间。当第一终端100检测到好友列表界面220中的完成控件225后，第一终端100进入图2D所示的角色选择界面230。

如图2D所示，当第一终端100检测到邀请的好友的第二终端200中的视频应用都接入配音间后，第一终端100显示角色选择界面230，角色选择界面230包括展示区域231以及角色选择功能区域232。其中，展示区域231用于显示配音素材的封面图像，角色选择功能区域232用于配音角色的分配。在图2D中，角色选择功能区域232显示配音角色姓名以及性别等信息，每个配音分别对应一个角色分配控件233。当第一终端100检测到用户对角色分配控件233的输入操作(例如单击)，第一终端100在角色选择界面230上显示用户选择框234；其中，用户选择框234显示参与配音的用户名和头像，用户选择框234包括多个选择控件235，每个选择控件235对应一个用户，当第一终端100检测到对选择控件235的输入操作(例如单击)，第一终端100为选择控件对应的用户分配配音角色并显示如图2E所示的角色选择界面。例如，在图2D中，第一终端100检测到针对角色B的角色分配控件233的输入操作后，第一终端100响应该操作，显示用户选择框234，并在用户选择框234中显示进入配音间的用户名以及用户头像；在检测到针对用户李华对应的选择控件235的单击操作后，响应该单击操作，将角色B分配给用户李华。

在图2E中，第一终端100检测并响应用户分配配音角色的操作后，第一终端100在角色选择功能区域232中显示已分配角色的用户，每个已分配角色的用户对应一个撤销控件236。当第一终端100检测到用户针对撤销控件236的单击等输入操作时，第一终端100响应该输入操作，取消用户已分配的配音角色，并将所述用户的头像和用户名等信息移除角色选择功能区域232，将撤销控件236替换为角色分配控件233。如图2E所示，当第一终端100响应配音角色分配的相关输入操作后，第一终端100检测到对开始配音控件215的单击等输入操作后，第一终端100响应该输入操作，显示如图3A所示配音间的配音界面310。

如图3A所示，配音界面310包括配音片段显示区域311，字幕显示区域312、播放/暂停控件313、配音控件314以及提交控件315。当第一终端100检测到用户对播放/暂停控件313的单击等输入操作时，第一终端100响应所述输入操作，开启配音模式，即在配音片段显示区域311中播放配音视频，并在字幕显示区域312中滚动显示字幕，实时采集外部音频；并将播放/暂停控件313的功能设置为成暂停配音功能。当配音角色变化时，在字幕显示区域312中显示提示信息316，提示信息316用于指示待配音的准备时间。当第一终端100检测到对配音控件314的单击等输入操作时，第一终端100响应该输入操作，接收并保存用户的语音。在第一终端100处于配音模式的过程中，若检测到对播放/暂停控件313的单击等输入操作，第一终端100响应该输入操作，暂停配音模式，并将播放/暂停控件313的功能设置为成开始配音功能，并在配音片段显示区域311中显示暂停图标317。当第一终端100检测到提交控件315的输入操作后，在配音显示界面310中显示如图3F所示的完成提示框323,当检测到用户对“是”控件的输入操作时，第一终端100显示如图5A所示的预览界面510。

本申请实施例中第一终端100是创建配音间的设备，第一终端100邀请其它用户的电子设备为第二终端200，第二终端200的配音界面为如图4所示的配音界面410，在配音界面410中，包括配音控件411；当第二终端200检测到对配音控件411的单击等输入操作时，第二终端200响应该输入操作，接收并保存用户的语音。

当第一终端100检测到对播放/暂停控件313或对暂停控件317的单击等输入操作时，第一终端100恢复配音间的配音模式，第一终端100和第二终端200继续实时采集外部音频。在配音模式暂停的情况下，若第一终端100检测到对更多功能控件318的单击等输入操作后，显示如图3B所示更多操作功能框319。

如图3B所示，第一终端100在暂停配音模式的情况下，检测到对更多功能控件318的单击等输入操作时，第一终端100显示更多操作功能框319；更多操作功能框319包括语音通话功能控件3191和回放配音功能控件3192。当第一终端100检测到对语音通话功能控件3191的单击等输入操作时，第一终端100响应输入操作，进入语音通话模式，在配音界面310中显示如图3C所示的语音控件320和退出控件321。当第一终端100检测到对语音控件320的输入操作时，第一终端100实时采集用户的语音，并在配音间中实时播放所述用户的语音；当第一终端100再次检测到对语音控件320的输入操作时，第一终端100停止采集和停止播放用户的语音，不再对第一终端100的用户开放语音权限。当在语音通话模式下，第一终端100检测到对退出控件321的单击等输入操作时，第一终端100在配音界面310中显示如图3D所示的语音模式功能框322。

如图3D所示，语音模式功能框322包括“是”控件3221和“否”控件3222，当第一终端100检测到对“是”控件3221的单击等输入操作时，第一终端100退出语音通话模式，回到如图3A所示的配音界面310。

如图3B所示，当第一终端100检测到对回放配音功能控件321的单击等输入操作时，电子设备响应该输入操作，并显示如图3E所示的配音回放界面330。

如图3E所示，配音回放界面330包括配音作品展示区域331、时间进度条332、进度拖条333、后退控件334、前进控件335以及播放/暂停控件336。其中，配音作品展示区域331用于播放用户录制的配音视频，精度拖条333用于调整配音作品的播放进度。当第一终端100检测到对进度拖条333的输入操作(例如向左滑/向右滑)时，配音作品展示区域331显示进度拖条333在时间进度条332上对应时刻的配音视频的图像帧。当第一终端100检测到对后退控件334的单击等输入操作时，第一终端100将配音视频在时间进度条332上的播放时刻后退预设时间段；如图3E所示，配音视频在时间进度条上的播放时刻为6s，当第一终端100接收到用户对后退控件334的单击操作时，若预设时间段为5s，那么，配音视频的播放进度为1s，即配音视频当前的播放时刻在时间进度条332上显示的时刻为1s。在配音视频播放的情况下，当第一终端100检测到对播放/暂停控件336的单击等输入操作时，第一终端100停止播放用户录制的配音视频；在配音视频暂停播放的情况下，当第一终端100检测到对播放/暂停控件336的单击等输入操作时，第一终端100播放用户录制的配音视频。当第一终端100检测到对返回控件336的单击等输入操作时，第一终端100返回如图3A所述的配音界面310。

如图5A所示，预览界面510包括配音视频播放区域511、进度调节控件512、人声调节功能控件513、视频剪切功能控件514、人声音量调节控件515、背景音量调节控件516、重录控件517以及生成作品控件518。当第一终端100显示预览界面510时，配音视频播放区域511开始播放已配音视频；当第一终端100检测到对进度调节控件512的输入操作时(例如左滑/右滑)，第一终端100调整已配音视频的播放进度；同理，当第一终端100检测到对人声音量调节控件515向左滑/向右滑的输入操作时，第一终端100调高/调低已配音视频中配音角色的音量；当第一终端100检测到对背景音量调节控件516向左滑/向右滑的输入操作时，第一终端100调高/调低已配音视频中的背景音量；当第一终端100检测到对重录控件517的单击等输入操作时，第一终端100显示如图3A的配音界面310，此时，需要配音间内的用户重新配音；当第一终端100检测到对人声调节功能控件513的单击等输入操作时，电子设备在预览界面510中显示如图5B所示的人声调节功能框519；当第一终端100检测到对生成作品控件518的单击等输入操作时，第一终端100上传配音作品，并将配音作品发送到参与配音用户的配音个人主页上。当第一终端100检测到对视频剪切功能控件515的单击等输入操作时，第一终端100显示如图5C所示的视频剪切界面530。

如图5B所示，人声调节功能框包括减少噪音应用图标5191、人声后退图标5192、人声前进图标5193；当第一终端100检测到对减少噪音应用图标5191的单击等输入操作时，第一终端100会降低用户配音音频中“非人声”的杂音的音量(例如用户配音时，周围环境的噪音等)，以保证配音作品的音质；当第一终端100检测到对人声后退图标5192的单击等输入操作时，第一终端100调整配音角色的音频，使得配音角色的音频延迟于对应的字幕和配音视频的图像帧；当第一终端100检测到对人声前进图标5193的单击等输入操作时，第一终端100调整配音角色的音频，使得配音角色的音频超前于对应的字幕和配音视频的图像帧；当第一终端100检测到对保存控件5194的单击等输入操作时，第一终端100保存调节后的已配音视频，并回到图5A所示的预览界面510。

如图5C所示，视频剪切界面530包括配音视频播放区域531、字幕预览区域534、第一剪切控件532、第二剪切控件533。当第一终端100检测到对第一剪切控件532/第二剪切控件533的输入操作(例如左滑/右滑)时，第一终端100响应所述输入操作，在配音视频播放区域531上显示配音视频对应的时刻的图像帧；所述对应时刻为第一剪切控件532/第二剪切控件在时间进度条上对应的时刻。同时，第一终端100在字幕预览区域显示所述图像帧对应的字幕。例如，在图5C中，当第一终端100检测到第一剪切控件532被左滑到时间进度条上的00:03时刻，第一终端100会在配音视频播放区域431上显示配音视频在00:03时刻的图像帧，以及在字幕预览区域534展示在00:03时刻图像帧对应的字幕；通过上述方式，当用户剪切配音视频时，第一终端100通过向用户展示配音视频起始剪切点(例如图5C中的00:03)和结束剪切点(例如图5C中的00:12)的图像帧以及字幕，让用户获悉其配音视频剪切点的确定是否符合预期。当第一终端100检测到对保存控件535的单击等输入操作时，第一终端100以第一剪切控件532在进度条上的时刻为起始剪切点，以第二剪切控件533在进度条上的时刻为结束剪切点剪切配音视频，并保存已剪切的配音视频。

当第一终端100检测到针对预览界面510的生成作品控件518的单击等输入操作后，第一终端100将配音作品上传至如图6所示的配音用户的配音个人主页610。当第一终端100检测到针对如图1B中视频主界面120中的配音应用图标120的单击等输入操作时，第一终端100显示如图6所示的配音个人主页610。在配音个人主页610中包括用户信息栏611，用户信息栏611包括作品信息栏6111、好友信息栏6112、关注信息栏以及收藏信息栏。当第一终端100检测到针对配音作品信息栏6111的输入操作(例如单击)时，第一终端100显示用户的配音作品。

下面结合附图详细描述本申请实施例提供的视频配音方法。

请参见图7，图7是本申请实施例提供的一种视频配音方法流程图。在图7实施例中，所述第一终端在其视频应用中截取视频，得到截取视频片段，并为所述截取视频片段配音，得到配音作品。最后，第一终端将所述配音作品上传至参与配音用户的配音个人主页上。示例性的，第一终端可以为上述实施例中的第一终端100，第二终端可以为上述实施例中的第二终端200。下面，对视频配音的流程进行展开描述：

步骤S701：第一终端检测到针对其视频播放界面的截取视频指令后，显示截取界面。

示例性的，该截取视频指令可以是上述图1E实施例中针对视频播放界面150中视频截取控件153的输入操作(例如单击)；也可以是语音信号，例如，当第一终端的语音功能模块接收到截取视频的语音指令后，可以通过内部的语音识别模块对所述音频进行识别和解析，解析完成后，生成触发信号来触发第一终端截取在其视频播放界面中显示的视频；本申请实施例仅对截取配音操作指令进行举例说明，截取配音操作指令的具体形式本申请实施例不做限制。其中，视频播放界面150不限定通过图1A-图1D的过程来触发显示，本申请实施例不做限制；该截取界面可以为上述图1F实施例中的视频片段截取界面160，对于截取界面的布局和配置，本申请实施例仅作举例说明，不做任何限制。

步骤S702：第一终端检测到针对当前显示视频的截取配音操作指令后，截取所述当前显示视频，得到视频截取片段并显示视频配音控件。

示例性的，该截取配音操作指令可以为上述图1F实施例中针对第一截取控件162/第二截取控件163的输入操作(例如单击)，第一终端截取视频的过程请参考上述图1F的实施例，本申请实施例不再赘述。

在第一终端截取视频并保存视频截取片段后，显示视频配音控件。示例性的，所述视频配音控件可以为上述图1G实施例中的配音应用图标172，本申请实施例仅做举例说明，不做限制。

步骤S703：第一终端检测到针对所述配音控件的触发操作后，创建并显示针对所述视频截取片段的配音间。

示例性的，该触发操作可以为上述图1F实施例中针对配音应用图标172的输入操作(例如单击)，本申请实施例仅做举例说明，不做限制。配音间的界面可以为上述图2A实施例中的配音间第一界面，本申请实施例仅做举例说明，不做限制。

具体地，第一终端创建配音间之后与网络设备交互的流程可以如图8所示；其中，所述网络设备为视频服务端。下面，结合附图对其进行展开描述：

步骤S801：第一终端向网络设备发送请求消息。

具体地，所述请求消息包括视频截取片段的原始视频ID、视频截取片段的起始时间、视频截取片段的结束时间以及配音请求；视频截取片段的起始时间为所述视频截取片段在原始视频的起始播放时间，视频截取片段的结束时间为所述视频截取片段在原始视频中的结束播放时间。

步骤S802：网络设备基于所述请求消息生成第一响应。

具体地，网络设备在接收到请求消息后，通过原始视频的ID在视频资源库中找到原始视频，然后基于视频截取片段在原始视频中的起始播放时间和视频截取片段在原始视频中的结束播放时间找到该视频截取片段在原始视频中的播放位置(原始视频中所述视频截取片段对应的播放时间段)，并基于原始视频的信息(例如角色信息、音频信息等)使用AI模块分析在该播放位置中视频中的配音角色的信息(例如角色的名称、角色的性别等信息)以及配音角色的数量。另外，网络设备响应请求消息中的配音请求，生成配音间ID，该配音间ID具备唯一性，用于区分第一终端创建的配音间与其它配音间，以免第一终端与网络设备交互的过程中，网络设备将消息错发给其它终端设备。然后，网络设备生成第一响应；第一响应包括配音角色的信息以及配音间ID以及配音角色的数量信息。

步骤S803：网络设备将第一响应发送给第一终端。

步骤S804：第一终端基于第一响应对所述截取视频片段进行分析和处理。

具体地，第一终端接收到第一响应后，基于第一响应中的配音角色的数量信息对该截取视频片段有以下三种处理情况：

第一种情况，当配音角色数量为0时，此时该截取视频片段不能用于配音，为无效视频片段；第一终端会在其诸如触控屏等显示区域上显示提示消息，所述提示消息用于指示用户所述视频截取片段不可用。在这种情况下，第一终端可以接收用户上传的其他视频片段或者重新截取视频片段作为配音素材。

第二种情况，当配音角色数量为1时，所述配音间为单人配音间，第一终端不能像其它终端设备发送配音邀请链接；

第三种情况，当配音角色数量为N(N>1)时，第一终端最多可以邀请N-1个第二终端的视频应用账号接入配音间；当第一终端检测到针对配音间的第二输入操作时，即第一终端接收到邀请好友的指令时，第一终端向第二终端发送邀请链接，所述邀请链接为第二请求消息；第二终端为在第一终端的视频应用账号的好友列表中好友对应的终端设备。示例性的，第一终端的视频应用账号的好友列表界面可以是上述图2C实施例中的好友列表界面220，第一终端邀请好友的具体操作和过程请参考上述图2A～图2C实施例中的具体内容，本申请实施例不再赘述。

第一终端的视频应用账号的好友列表可以是微信、QQ等通信软件中的好友列表，也可以是视频应用账号的好友列表中关注的好友列表。当第一终端向例如微信等第三方软件中的好友列表发送邀请链接时，第二终端即可通过使微信等第三方软件的账号登录视频应用，从而接入第一终端创建的配音间。

步骤S704：在第一终端分析视频截取片段的配音角色数量不为0的情况下，第一终端分配配音角色。

具体的，在配音角色数量为N(N>1)的情况下，第一终端分配配音角色，分配配音角色的方式主要有两种：

第一种方式，第一终端为接入配音间终端的视频应用账号分配配音角色，示例性的，第一终端分配配音角色的内容和过程参考上述图2D～图2E实施例中的内容，本申请实施例不再赘述。第一终端分配配音角色完毕后，会向第二终端发送通知消息以便第二终端的视频应用账号知晓其所对应的配音角色。然后，第一终端生成用于指示配音间内终端的视频应用账号与配音角色的对应关系的第一信息，并将其发送给网络设备。

第二种方式，第一终端开放权限让接入配音间终端的视频应用账号选择配音角色，即第一终端向第二终端发送指示第二终端的视频应用账号选择配音角色的第二指令；其中，每个视频应用账号只能选择一个配音角色，两个及其以上的视频应用账号不能选择同一个配音角色。当配音角色选择完毕后，第二终端向第一终端发送用于告知第一终端其选择的配音角色的确认消息。然后，第一终端基于确认消息生成用于指示配音间内终端的视频应用账号与配音角色的对应关系的第一信息，并将第一信息发送给网络设备。

第一终端将第一信息发送给网络设备后，网络设备基于所述第一信息执行一系列操作，最终将效应后的视频片段作为处理后的配音素材发送给第一设备用于配音。网络设备基于所述第一信息执行一系列操作的具体内容请参见图9，图9是本申请实施例提供的一种第一终端与网络设备通信的流程图，下面结合附图，对所述流程进行展开说明：

步骤S901：第一终端将第一信息发送给网络设备。

步骤S902：网络设备截取所述视频截取片段在其原始视频中播放位置对应的视频片段，得到截取后的视频片段。

步骤S903：网络设备基于所述第一信息对所述截取后的视频片段中对应的配音角色进行消音处理得到配音素材。

具体地，网络设备基于第一信息中第二终端的视频账号与视频截取片段中配音角色的对应关系，将所述截取后的视频片段中已选择的配音角色进行消音处理，得到配音素材。需要说明的是，当视频截取片段中的配音角色数量为N时，若只对其中的N-1个配音角色进行分配；那么网络设备只对所述截取后的视频片段中的该N-1个配音角色进行消音处理。

步骤S904：网络设备将配音素材发送给第一终端。

在配音角色数量等于1的情况下，第一终端无需分配和选择配音角色，网络设备自动将消音后的截取后的视频片段作为配音素材发送给第一终端。

步骤S705：在第一终端分析视频截取片段的配音角色数量不为0的情况下，第一终端检测到针对所述配音间的第一输入操作后，显示配音界面。

示例性的，所述第一输入操作可以为上述图2A实施例中针对开始配音控件215的输入操作(例如单击)，也可以为对配音间输入语音指令的操作，本申请实施例仅作举例说明，不做限制；配音界面可以为上述图3A实施例中的配音界面310，对于配音界面的布局和配置，本申请实施例仅作举例说明，不做限制。另外，在第一终端检测到针对所述配音间的第一输入操作后，接入配音间的第二终端也显示配音界面。

需要说明的是，第一终端是创建配音间的主设备，相较于第二终端，第一终端拥有更多的操作权限；例如，第一终端有暂停/开始配音模式的权限、回放配音视频的权限以及开启/关闭语音通话模式的权限。示例性的，第一终端执行暂停/开始配音模式的权限可以如上述图3A实施例中，检测到对播放/暂停控件313的输入操作(例如单击)，来开启/暂停配音模式，本申请实施例仅作举例说明，不做限制；当处于配音模式时，第一终端和第二终端实时采集外部音频，并在其配音界面的第一展示框中播放显示所述配音素材。在处于配音模式的情况下，当第一终端检测到针对所述配音界面的第三输入操作后，暂停配音模式；所述第三输入操作可以为上述图3A实施例中，检测到对播放/暂停控件313的输入操作(例如单击)，本申请实施例仅举例说明，不做限制。

示例性的，第一终端执行开启/关闭语音通话模式的权限可以入上述图3B实施例中，检测到对语音通话功能控件3191的输入操作(例如单击)，来开启/关闭语音通话模式。当第一终端开启语音通话模式后，会向接入配音间中的第二终端发送用于指示其进入语音通话模式的第三指令；语音通话模式的界面可以为上述图3C实施例中的配音界面310，本申请实施例仅作举例说明，不做限制。在语音通话模式下，接入配音间内的终端可以实时采集用户音频，并将采集到的用户音频实时传输至配音间中的语音通话平台，由语音通话平台将所述用户实时音频发送给接入配音间内的所有终端，实现的多用户实时语音交流。

当第一终端处于暂停配音模式的情况下，第一终端检测到针对配音界面的第五输入操作来执行回放配音视频的权限。示例性的，第五输入操作可以为上述图3B实施例中针对回放配音功能控件3192的单击等输入操作，也可以为语音指令等输入操作，本申请实施例仅作举例说明，不做限制；当检测到第五输入操作后，第一终端显示回放界面，所述回放界面包括展示回放配音作品的第二展示框。示例性的，回放界面可以为上述图3E实施例中的配音回放界面330，第二展示框可以为上述图3E实施例中的配音作品展示区域331；对于第二展示框的形状以及在回放界面的位置布局，本申请实施例仅做举例说明，不做任何限制。在第一终端检测到针对回放界面的第六输入操作后，在第二展示框中回放第一视频片段并回放在配音模式下接入配音间内的终端采集的用户音频；其中，第六输入操作为回放配音视频的输入操作，配音模式为接入配音间的终端设备在其配音界面中播放消音后的配音素材，并实时采集外部的音频的工作模式，第一视频片段为所述配音素材中已配音的视频片段；示例性的，第六输入操作可以为上述图3E实施例中针对进度拖条333的输入操作(例如左滑/右滑)，也可以是针对后退控件334/前进控件335的输入操作(例如单击)，本申请实施例仅做举例说明，不做限制。第一终端回放配音作品的具体操作和过程可参考上述图3E实施例的具体内容，此处不再赘述。

步骤S706：第一终端检测到针对所述配音界面的第七输入操作后，显示预览界面。

示例性的，第七输入操作可以为上述图3A实施例中，针对提交控件315的输入操作(例如单击)，也可以为用户的语音输入操作，本申请实施例仅作举例说明，不做限制。预览界面包括用于显示第二视频片段的第三展示框；其中，所述第二视频片段为所述配音素材中已配音的视频片段。示例性的，预览界面可以为上述图5A实施例中的预览界面510，第三展示框可以为视频播放区域511，对于预览界面的布局和配置以及第三展示框的形状以及在预览界面中的位置布局，本申请实施例仅做举例说明，不做限制。

在一种可能实现的方式中，第一终端检测到针对作品预览界面的第八输入操作后，显示剪切界面，该剪切界面包括用于播放剪切后第二视频片段的第四展示框。示例性的，剪切界面可以为上述图5C实施例中的视频剪切界面530，本申请实施例对剪切界面的布局和配置仅做举例说明，不做限制；第四展示框可以为上述图5C实施例中的配音视频播放区域531，本申请实施例对第四展示框的形状以及在剪切界面中的位置仅做举例说明，不做限制。当第一终端检测到针对剪切界面的第九输入操作后，执行该输入操作，剪切第二视频片段和在配音模式下接入配音间内的终端采集的用户音频，得到剪切后的第二视频片段以及剪切后的音频；示例性的，第九输入操作可以为上述图5C实施例中针对第一剪切控件532/第二剪切控件533的输入操作(例如单击)，本申请实施例对于第九输入操作仅做举例说明，对于第九输入操作的其它形式，本申请实施例不做限制。第一终端剪切配音视频的具体过程和内容请参考上述图5C实施例中的具体内容，本申请实施例在此不做赘述。

在一种可能实现的方式中，第一终端检测到针对预览界面的作品调节操作后，响应该作品调节操作，对第二视频片段以及在配音模式下接入配音间内的终端采集的用户音频进行调节和修改得到调节修改后的第二视频片段以及调节修改后的音频；示例性，作品调节操作可以为上述图5A实施例中针对人声调节功能控件513的输入操作(例如单击)，也可以为针对人声音量调节控件515的输入操作(例如左滑/右滑)，也可以为针对背景音量调节控件516的输入操作(例如左滑/右滑)等其他控件的输入操作，本申请实施例不做限制。

步骤S707：所述第一终端检测到针对配音视频的上传指令后，将所述配音视频上传网络设备。

具体地，若在预览界面中，第一终端没有检测到所述第八输入操作或作品调节操作，所述配音视频为包括第二视频片段和在配音模式下接入配音间内的终端采集的用户音频的视频片段；若在预览界面中，第一终端检测到所述第八输入操作，所述视频片段为包括剪切后的第二视频片段和剪切后的音频的视频片段；若在预览界面中，第一终端检测到作品调节操作，所述配音视频为包括调节修改后的第二视频片段和调节修改后的音频的视频片段。第一终端检测到上传指令后，将配音视频中的视频和音频进行编码，并将编码后的视频和音频以数据流的形式发送给网络设备。示例性的，上传指令可以是上述图5A实施例中针对生成作品控件518的输入操作(例如单击)，本申请实施例仅做举例说明，不做限制。

步骤S708：网络设备将配音视频中的视频和音频进行转码合成，生成配音作品并将配音作品上传至参与配音的终端的配音个人主页。

具体的，所述终端检测到针对配音个人主页查看作品的触发操作后，即可展示并播放配音作品。

本申请实施例，第一终端检测到截取配音操作指令后截取在其视频应用中播放的视频，当用户相位所述截取视频配音时，第一终端可以创建以所述截取视频为配音素材的配音间；使得用户可配音的素材更加丰富。另外，本申请实施例所述的视频配音方法支持多人实时配音，当配音角色的数量大于1时，第一终端可以邀请好友进入配音间实时配音，相比传统多人依次配音的方法，用户在配音时，不再对空说话，提高了用户的配音体验。

接下来介绍本申请实施例中的第一终端的结构。如图10所示，第一终端1000至少可以包括：可以包括处理器1010，外部存储器接口1020，内部存储器1021，天线1，天线2，移动通信模块1040，无线通信模块1050，音频模块1060，扬声器1060A，受话器1060B，麦克风1061，传感器模块1070，马达1081，显示屏1091等。其中传感器模块1070可以包括压力传感器1070A，触摸传感器1070B等。

可以理解的是，本发明实施例示意的结构并不构成对第一终端1000的具体限定。在本申请另一些实施例中，第一终端1000可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器1010可以包括一个或多个处理单元，例如：处理器1010可以包括应用处理器(Application Processor，AP)，调制解调处理器，图形处理器(Graphics ProcessingUnit，GPU)，图像信号处理器(Image Signal Processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(Digital Signal Processor，DSP)，基带处理器，和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是第一终端1000的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器1010中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器1010中的存储器为高速缓冲存储器。该存储器可以保存处理器1010刚用过或循环使用的指令或数据。如果处理器1010需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器1010的等待时间，因而提高了系统的效率。

在一些实施例中，处理器1010可以包括一个或多个接口。接口可以包括集成电路(Inter-Integrated Circuit，I2C)接口，集成电路内置音频(Inter-Integrated CircuitSound，I2S)接口，脉冲编码调制(Pulse Code Modulation，PCM)接口，通用异步收发传输器(Universal Asynchronous Receiver/Transmitter，UART)接口，移动产业处理器接口(Mobile Industry Processor Interface，MIPI)，通用输入输出(General-PurposeInput/Output，GPIO)接口，用户标识模块(Subscriber Identity Module，SIM)接口，和/或通用串行总线(Universal Serial Bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(Serial Data Line，SDA)和一根串行时钟线(Derail Clock Line，SCL)。在一些实施例中，处理器1010可以包含多组I2C总线。处理器1010可以通过不同的I2C总线接口分别耦合触摸传感器1070B，充电器，闪光灯等。例如：处理器1010可以通过I2C接口耦合触摸传感器1070B，使处理器1010与触摸传感器1070B通过I2C总线接口通信，实现第一终端1000的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器1010可以包含多组I2S总线。处理器1010可以通过I2S总线与音频模块1060耦合，实现处理器1010与音频模块1060之间的通信。在一些实施例中，音频模块1060可以通过I2S接口向无线通信模块1050传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块1060与无线通信模块1050可以通过PCM总线接口耦合。在一些实施例中，音频模块1060也可以通过PCM接口向无线通信模块1050传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器1010与无线通信模块1050。例如：处理器1010通过UART接口与无线通信模块1050中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块1060可以通过UART接口向无线通信模块1050传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器1010与显示屏1091等外围器件。MIPI接口包括显示屏串行接口(Display Serial Interface，DSI)等。在一些实施例中，处理器1010和显示屏1091通过DSI接口通信，实现第一终端1000的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器1010与显示屏1091，无线通信模块1050，音频模块1060，传感器模块1070等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对第一终端1000的结构限定。在本申请另一些实施例中，第一终端1000也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

第一终端1000的无线通信功能可以通过天线1，天线2，移动通信模块1040，无线通信模块1050，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。第一终端1000中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块1040可以提供应用在第一终端1000上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块1040可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(Low Noise Amplifier，LNA)等。移动通信模块1040可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块1040还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块1040的至少部分功能模块可以被设置于处理器1010中。在一些实施例中，移动通信模块1040的至少部分功能模块可以与处理器1010的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器1060A，受话器1060B等)输出声音信号，或通过显示屏1091显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器1010，与移动通信模块1040或其他功能模块设置在同一个器件中。

无线通信模块1050可以提供应用在第一终端1000上的包括无线局域网(WirelessLocal Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)，蓝牙(BlueTooth，BT)，全球导航卫星系统(Global Navigation Satellite System，GNSS)，调频(Frequency Modulation，FM)，近距离无线通信技术(Near Field Communication，NFC)，红外技术(InfRared，IR)等无线通信的解决方案。无线通信模块1050可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块1050经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器1010。无线通信模块1050还可以从处理器1010接收待发送的信号，对其进行调频、放大，经天线2转为电磁波辐射出去。

在一些实施例中，第一终端1000的天线1和移动通信模块1040耦合，天线2和无线通信模块1050耦合，使得第一终端1000可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(Global System For MobileCommunications，GSM)，通用分组无线服务(General Packet Radio Service，GPRS)，码分多址接入(Code Division Multiple Access，CDMA)，宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)，时分码分多址(Time-Division Code DivisionMultiple Access，TD-SCDMA)，长期演进(Long Term Evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(Global Positioning System，GPS)，全球导航卫星系统(Global Navigation Satellite System，GLONASS)，北斗卫星导航系统(Beidou Navigation Satellite System，BDS)，准天顶卫星系统(Quasi-ZenithSatellite System，QZSS)和/或星基增强系统(Satellite Based Augmentation Systems，SBAS)。

第一终端1000通过GPU，显示屏1091，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏1091和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器1010可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏1091用于显示图像，视频等。显示屏1091包括显示面板。显示面板可以采用液晶显示屏(Liquid Crystal Display，LCD)，有机发光二极管(Organic Light-EmittingDiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(Quantum Dot LightEmitting Diodes，QLED)等。在一些实施例中，第一终端1000可以包括1个或N个显示屏1091，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当第一终端1000在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。第一终端1000可以支持一种或多种视频编解码器。这样，第一终端1000可以播放或录制多种编码格式的视频，例如：动态图像专家组(Moving Picture Experts Group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(Neural-Network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现第一终端1000的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口1020可以用于连接外部存储卡，例如Micro SD卡，实现扩展第一终端1000的存储能力。外部存储卡通过外部存储器接口1020与处理器1010通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器1021可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器1010通过运行存储在内部存储器1021的指令，从而执行第一终端1000的各种功能应用以及数据处理。内部存储器1021可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储第一终端1000使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器1021可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(Universal Flash Storage，UFS)等。

第一终端1000可以通过音频模块1060，扬声器1060A，受话器1060B，麦克风1061，以及应用处理器等实现音频功能。例如音乐播放，录音、配音等。

音频模块1060用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块1060还可以用于对音频信号编码和解码。在一些实施例中，音频模块1060可以设置于处理器1010中，或将音频模块1060的部分功能模块设置于处理器1010中。

扬声器1060A，也称“喇叭”，用于将音频电信号转换为声音信号。第一终端1000可以通过扬声器1060A收听音乐，或收听免提通话。

受话器1060B，也称“听筒”，用于将音频电信号转换成声音信号。当第一终端1000接听电话或语音信息时，可以通过将受话器1060B靠近人耳接听语音。

麦克风1061，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风1061发声，将声音信号输入到麦克风1061。第一终端1000可以设置至少一个麦克风1061。在另一些实施例中，第一终端1000可以设置两个麦克风1061，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，第一终端1000还可以设置三个，四个或更多麦克风1061，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。本申请实施例中，麦克风1061可以实时采集用户的音频，以便于处理器1010将用户的音频与所述处理后的配音素材相匹配。

压力传感器1070A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器1070A可以设置于显示屏1091。压力传感器1070A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器1070A，电极之间的电容改变。第一终端1000根据电容的变化确定压力的强度。当有触摸操作作用于显示屏1091，第一终端1000根据压力传感器1070A检测所述触摸操作强度。第一终端1000也可以根据压力传感器1070A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

触摸传感器1070B，也称“触控面板”。触摸传感器1070B可以设置于显示屏1091，由触摸传感器1070B与显示屏1091组成触摸屏，也称“触控屏”。触摸传感器1070B用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏1091提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器1070B也可以设置于第一终端1000的表面，与显示屏1091所处的位置不同。

马达1081可以产生振动提示。马达1081可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏1091不同区域的触摸操作，马达1091也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

第二终端的结构请参考图10实施例中第一终端的结构，本申请实施例不再赘述。

第一终端1000的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明第一终端1000的软件结构。请参见图11，图11是本申请实施例提供的一种第一终端1000的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图11所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(ApplicationProgramming Interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图11所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供第一终端1000的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(Surface Manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合视频配音场景，示例性说明第一终端800软件以及硬件的工作流程。

当触摸传感器1070B接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为上述图2A实施例中开始配音控件215为例，视频应用调用应用框架层的接口，启动配音功能，进而通过调用内核层启动麦克风驱动，通过麦克风实时采集用户音频，将用户音频与配音素材匹配。

第二终端的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，本申请的各实施方式可以任意进行组合，以实现不同的技术效果。第二终端的软件系统请参考图11中的实施例，本申请实施例不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

总之，以上所述仅为本发明技术方案的实施例而已，并非用于限定本发明的保护范围。凡根据本发明的揭露，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频配音的方法，其特征在于，包括：

第一终端检测到针对当前显示视频的截取配音操作指令后，截取所述当前显示视频，得到视频截取片段，并显示视频配音控件；

所述第一终端检测到针对所述视频配音控件的触发操作后，创建并显示针对所述视频截取片段的配音间；

在所述第一终端分析所述视频截取片段的配音角色数量不为0的情况下，所述第一终端检测到针对所述配音间的第一输入操作后，显示配音界面；其中，所述配音界面包括第一展示框，所述第一展示框用于显示和播放配音素材。

2.如权利要求1所述的方法，其特征在于，所述第一终端检测到针对所述视频配音控件的触发操作后，创建并显示针对所述视频截取片段的配音间之后，包括：

所述第一终端向网络设备发送请求消息；所述请求消息包括所述视频截取片段的原始视频ID、所述视频截取片段的起始时间以及所述视频截取片段的结束时间；

所述第一终端接收所述网络设备发送的第一响应；所述第一响应包括配音角色的数量信息；

所述第一终端基于所述配音角色信息执行第一操作。

3.如权利要求2所述的方法，其特征在于，所述第一终端基于所述配音角色信息执行第一操作，包括：

若所述配音角色的数量为0，所述第一终端显示第一提示信息；所述第一提示信息用于指示所述视频截取片段不可用；

若所述配音角色的数量大于1，所述第一终端检测到针对所述配音间的第二输入操作后，向第二终端发送第一指令；所述第一指令用于指示所述第二终端的视频应用账号接入所述配音间；

在所述第二终端的视频应用账号接入所述配音间的情况下，所述第一终端分配配音角色并生成第一信息；所述第一信息用于指示接入所述配音间内终端的视频应用账号与所述配音角色的对应关系；

所述第一终端向所述网络设备发送所述第一信息；

所述第一终端接收所述网络设备发送的所述的配音素材；所述配音素材是所述网络设备基于所述第一信息得到的。

4.如权利要求3所述的方法，其特征在于，所述第一终端分配配音角色并生成第一信息，包括：

所述第一终端绑定所述配音角色与接入所述配音间内终端的视频应用账号；

所述第一终端生成所述第一信息；所述第一信息用于指示接入所述配音间内终端的视频应用账号与所述配音角色的对应关系；

所述第一终端向所述第二终端发送通知消息；所述通知消息用于指示所述第二终端的视频应用账号所分配的配音角色。

5.如权利要求3所述的方法，其特征在于，所述第一终端分配配音角色并生成第一信息，包括：

所述第一终端向所述第二终端发送第二指令；所述第二指令用于指示所述第二终端的视频应用账号选择配音角色；

所述第一终端接收所述第二终端发送的确认消息；所述确认消息用于指示所述第二终端选择的配音角色；

所述第一终端基于所述确认消息生成所述第一信息；所述第一信息用于指示接入所述配音间内终端的视频应用账号与所述配音角色的对应关系。

6.如权利要求3-5任一项所述的方法，其特征在于，所述第一终端基于所述配音角色信息执行第一操作之后，包括：

所述第一终端检测到针对所述配音界面的第三输入操作后，暂停配音模式；其中，所述配音模式为：所述第一终端实时采集外部音频作为配音音频并在所述第一展示框中播放所述配音素材；

在暂停配音模式的情况下，若所述第一终端检测到针对所述配音界面的第四输入操作后，所述第一终端向所述第二终端发送第三指令；所述第三指令用于指示所述第二终端的视频应用账号进入语音通话模式。

7.如权利要求3-5任一项所述的方法，其特征在于，所述第一终端基于所述配音角色信息执行第一操作之后，包括：

在暂停配音模式的情况下，若所述第一终端检测到针对所述配音界面的第五输入操作，所述第一终端显示回放界面；所述回放界面包括第二展示框；

所述第一终端检测到针对所述回放界面的第六输入操作后，在所述第二展示框中回放第一视频片段并回放所述第一终端和所述第二终端在所述配音模式下实时采集的外部音频；其中，所述第一视频片段为所述配音素材中已配音的视频片段。

8.如权利要求3-7任一项所述的方法，其特征在于，所述第一终端检测到针对所述配音间的第一输入操作后，显示配音界面之后，包括：

所述第一终端检测到针对所述配音界面的第七输入操作后，显示预览界面；所述预览界面包括第三展示框，所述第三展示框用于显示第二视频片段；其中，所述第二视频片段为所述配音素材中已配音的视频片段；

所述第一终端检测到针对所述预览界面的第八输入操作后，显示剪切界面；所述剪切界面包括第四展示框，所述第四展示框用于显示剪切后的所述第二视频片段；

所述第一终端检测到针对所述剪切界面的第九输入操作后，剪切所述第二视频片段与所述第一终端和所述第二终端在配音模式下实时采集的外部音频。

9.一种视频配音的方法，其特征在于，包括：

网络设备接收第一终端发送的请求消息；所述请求消息包括视频截取片段的原始视频ID、视频截取片段的起始时间以及视频截取片段的结束时间；

所述网络设备基于所述视频截取片段的原始视频ID从视频资源库中找到所述视频截取片段的原始视频；

所述网络设备基于所述视频截取片段的起始时间以及所述视频截取片段的结束时间在所述原始视频中获取所述视频截取片段的播放位置；

所述网络设备基于所述视频截取片段在所述原始视频中的播放位置分析所述截取视频中的可配音的角色，并得到配音角色的数量信息；

所述网络设备基于所述配音角色的数量信息生成第一响应；

所述网络设备将所述第一响应发送给所述第一终端。

10.如权利要求9所述的方法，其特征在于，所述网络设备基于所述配音角色信息生成第一响应之后，包括：

所述网络设备接收所述第一终端发送的第一信息；所述第一信息用于指示接入所述配音间内终端的视频应用账号与所述配音角色的对应关系；

所述网络设备截取所述视频截取片段在其原始视频中播放位置对应的视频片段，得到截取后的视频片段；

所述网络设备基于所述第一信息对所述截取后的视频片段中已分配的配音角色进行消音处理得到处理后的配音素材；

所述网络设备将所述处理后的配音素材发送给所述第一终端。

11.一种视频配音的方法，其特征在于，包括：

第二终端接收第一终端发送的第一指令；所述第一指令用于指示所述第二终端的视频应用账号接入所述第一终端创建的配音间；

所述第二终端响应所述第一指令，将其视频应用账号接入所述第一终端创建的配音间。

12.如权利要求11所述的方法，其特征在于，所述第二终端响应所述第二请求消息，接入所述第一终端创建的配音间之后，包括：

所述第二终端接收所述第一终端发送的通知消息；所述通知消息用于指示所述第二终端的视频应用账号所分配的配音角色。

13.如权利要求11所述的方法，其特征在于，所述第二终端响应所述第二请求消息，接入所述第一终端创建的配音间之后，包括：

所述第二终端接收所述第一终端发送的第二指令；所述第二指令用于指示第二终端的视频应用账号选择配音角色；

所述第二终端向所述第一终端发送确认消息；所述确认消息用于指示所述第二终端的视频应用账号选择的配音角色。

14.如权利要求11所述的方法，其特征在于，所述第二终端响应所述第一指令，将其视频应用的用户账号接入所述第一终端创建的配音间之后，还包括：

所述第二终端接收所述第一终端发送的第三指令；所述第三指令用于指示所述第二终端的视频应用账号进入语音通话模式；

所述第二终端响应所述第三指令，令其视频应用账号进入所述语音通话模式。

15.一种终端，其特征在于，包括：存储器、处理器、通信模块和触控屏；其中：

所述触控屏用于显示内容；

所述通信模块用于向其它终端或网络设备通信；

所述处理器用于调用所述程序指令，使得所述终端执行如权利要求1-8任一项所述的方法。

16.一种网络设备，其特征在于，包括：存储器、处理器和通信模块；其中：

所述通信模块用于向其它终端或网络设备通信；

所述处理器用于调用所述程序指令，使得所述网络设备执行如权利要求9-10任一项所述的方法。

17.一种终端，其特征在于，包括：存储器、处理器、通信模块和触控屏；其中：

所述触控屏用于显示内容；

所述通信模块用于向其它终端或网络设备通信；

所述处理器用于调用所述程序指令，使得所述终端执行如权利要求11-14任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时，实现如权利要求1-14任意一项所述的方法。