CN116939285A

CN116939285A - 视频配音方法及相关产品

Info

Publication number: CN116939285A
Application number: CN202210354618.2A
Authority: CN
Inventors: 吴志栩; 田明; 琚蓓蓓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2023-10-24

Abstract

本申请属于计算机技术领域，具体涉及一种视频配音方法及相关产品。该视频配音方法包括：获取第一时刻播放的当前视频；向第二时刻播放所述当前视频或者相关视频的账户主体发送配音邀请信息，所述第二时刻是与所述第一时刻具有时间相关性的时间点，所述相关视频是与所述当前视频具有内容相关性的视频，所述配音邀请信息用于邀请所述账户主体进行视频配音。本申请可以提高视频配音效率、优化配音质量。

Description

视频配音方法及相关产品

技术领域

本申请属于计算机技术领域，具体涉及一种视频配音方法、视频配音装置、计算机可读介质、电子设备以及计算机程序产品。

背景技术

随着计算机和网络技术的发展，网络媒体已经成为视频内容传播的主要媒介，相比于广播、电视等传统媒介，网络媒体能够为用户提供更为丰富的内容创作机会，例如用户可以对网络视频进行配音以实现视频内容的二次创作。

对视频进行配音一般需要多个用户的共同配合才能实现，而且通常需要用户对剧本、角色、台词等内容做好充分地准备才能顺利开始配音。配音参与人员的缺失以及繁杂的前期准备工作，往往导致了视频配音效率低下、配音质量参差不齐等问题。

发明内容

本申请的目的在于提供一种视频配音方法、视频配音装置、计算机可读介质、电子设备以及计算机程序产品，能够提高视频配音效率、优化配音质量。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种视频配音方法，该方法包括：

获取第一时刻播放的当前视频；

向第二时刻播放所述当前视频或者相关视频的账户主体发送配音邀请信息，所述第二时刻是与所述第一时刻具有时间相关性的时间点，所述相关视频是与所述当前视频具有内容相关性的视频，所述配音邀请信息用于邀请所述账户主体进行视频配音。

根据本申请实施例的一个方面，提供一种视频配音装置，该装置包括：

获取模块，被配置为获取第一时刻播放的当前视频；

发送模块，被配置为向第二时刻播放所述当前视频或者相关视频的账户主体发送配音邀请信息，所述第二时刻是与所述第一时刻具有时间相关性的时间点，所述相关视频是与所述当前视频具有内容相关性的视频，所述配音邀请信息用于邀请所述账户主体进行视频配音。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的视频配音方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器执行所述计算机程序时实现如以上技术方案中的视频配音方法。

根据本申请实施例的一个方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如以上技术方案中的视频配音方法。

在本申请的一些实施例中，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行如以上技术方案中的视频配音方法。

在本申请实施例提供的技术方案中，向相同时段或者相近时段播放内容相关视频的账户主体发起配音邀请，在相关时段播放内容相关视频的账户主体属于对相似视频内容感兴趣的同类型的用户群体，基于该用户群体进行视频配音可以大幅度提高陌生人协作模式下视频配音的成功率。另外，由于该用户群体对于视频整体的内容以及待配音的内容本身具有一定程度的了解，能够省去配音前熟悉剧本、熟悉台词的繁琐流程，因此在进行配音时可以极大地提高配音效率和配音质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了应用本申请技术方案的示例性系统架构框图。

图2示出了本申请实施例在一个应用场景中进行视频配音的逻辑架构图。

图3示出了本申请一个实施例中的视频配音方法的步骤流程图。

图4示出了本申请一个实施例中进行用户群体划分的效果示意图。

图5示出了本申请一个实施例中用户基于播放视频而加入配音房间的终端设备的界面变化示意图。

图6示出了本申请一个实施例中基于虚拟房间进行配音的终端设备的界面变化示意图。

图7示出了本申请实施例在一个应用场景中进行配音录制的状态流转示意图。

图8示出了本申请实施例在一个应用场景中创建配音房间的功能实现流程图。

图9示出了本申请实施例在一个应用场景中删除配音房间的功能实现流程图。

图10示出了本申请实施例在一个应用场景中用户加入配音房间的功能实现流程图。

图11示出了本申请实施例在一个应用场景中查看配音房间的功能实现流程图。

图12示意性地示出了本申请实施例提供的视频配音装置的结构框图。

图13示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请的各个实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

如图1所示，系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑、智能音箱、智能电视、智能穿戴设备、智能车载设备、智能支付终端等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案可以应用于终端设备110，也可以应用于服务器130，或者可以由终端设备110和服务器130共同实施，本申请对此不做特殊限定。

举例而言，在多个用户协作配音的应用场景下，每个用户可以分别通过各自对应的终端设备110扮演配音角色，采集得到针对每个配音角色的配音数据。在配音数据采集完成后，可以通过网络120将配音数据传输至服务器130，服务器130汇总每个参与配音的用户的配音数据，并将配音数据与待配音的视频进行融合处理后，得到完成配音的视频。其中，待配音的视频可以是服务器130对配音角色的声音进行消音处理后得到的视频。

图2示出了本申请实施例在一个应用场景中进行视频配音的逻辑架构图。如图2所示，通过客户端与多个服务模块之间的数据交互，可以实现本申请实施例提供的视频配音方法，在该逻辑架构下进行视频配音的方法可以包括如下的步骤201至步骤S216。

步骤S201：客户端发起登录请求。

客户端响应于用户的登录指令向登录服务模块发起登录请求，登录服务模块可以是服务器上配置的能够直接地或者间接地与客户端进行数据通信的功能模块。该客户端可以是终端设备上安装的各种应用程序客户端，例如可以是视频播放客户端、社交软件客户端、即时通信工具客户端等等。该客户端也可以是在宿主程序中携带的各种寄宿程序，其中宿主程序可以是如上所述的终端设备上安装的各种应用程序客户端；寄宿程序可以是依托于宿主程序运行的无需安装的应用程序，例如可以是在社交应用程序上运行的小程序。该登录请求可以携带自动获取的、或者由用户输入的登录信息，例如可以包括登录的账户名称、账户密码等信息。

步骤S202：登录校验。

接口服务模块是服务器上配置的能够直接地或者间接地与登录服务模块进行数据通信的功能模块。登录服务模块向接口服务模块发送登录校验的请求，接口服务模块可以按照预设的校验规则对登录校验请求中携带的账户名称、账户密码等登录信息进行合法性校验，例如根据账户名称校验当前登录的用户是否为注册成功的有效账户，同时可以校验账户密码与数据库中保存的用户密码是否一致。

步骤S203：返回校验结果。

接口服务模块在完成对登录信息的校验后，可以向登录服务模块返回对应的登录校验结果，该结果例如可以包括登录成功或者登录失败。

步骤S204：返回登录凭证。

在登录校验结果为登录成功的情况下，登录服务模块向客户端返回根据登录校验结果生成的登录凭证，该登录凭证用于向用户指示登录成功的结果，基于该登录凭证可以将接下来的客户端操作均绑定至当前登录的账户主体。

步骤S205：请求剧本。

剧本服务模块是服务器上配置的能够直接地或者间接地与客户端进行数据通信的功能模块。当触发开始进行视频配音时，客户端向剧本服务模块发起获取剧本的请求，剧本服务模块可以与剧本存储模块进行数据通信，从而获取数据库中保存的预先配置的可供视频配音使用的剧本。

步骤S206：返回剧本。

剧本服务模块向客户端返回用户请求的剧本，该剧本可以包括对配音角色进行消音处理后的待配音的视频数据。

步骤S207：创建房间，选择剧本。

状态服务模块是服务器上配置的能够直接地或者间接地与客户端进行数据通信的功能模块。客户端向状态服务模块发起创建配音房间的请求，同时可以选择与配音房间相关联的剧本，配音房间指的是可以承载配音用户的虚拟房间。在其他一些实施例中，用户也可以通过客户端加入至当前已有的配音房间。状态服务模块上记录了当前已创建的配音房间以及与配音房间相关联的剧本数据，同时可以记录加入配音房间的用户数据。

步骤S208：返回角色信息。

状态服务模块向客户端返回用户的角色信息，该角色信息是用户在视频中扮演的配音角色。与此同时，状态服务模块可以在网络上广播发送状态变更信息，例如可以通过发送广播消息的方式向配音房间中的所有配音用户发送房间数据的变化信息。

步骤S209：请求角色台词。

客户端向剧本服务模块发送获取角色台词的请求，剧本服务模块通过与剧本存储模块进行数据通信可以读取得到用户请求获取的角色台词。

步骤S210：返回角色台词。

剧本服务模块向客户端返回用户请求获取的角色台词。

步骤S211：音频上传。

音频存储模块是服务器上配置的能够直接地或者间接地与客户端进行数据通信的功能模块。用户基于获取到的剧本和角色台词，可以开始进行视频配音，在完成视频配音后，客户端将配音数据上传至音频存储模块。

步骤S212：返回音频ID。

音频存储模块在接收到客户端上传的音频数据并完成数据存储后，可以向客户端返回对应的音频ID。音频ID是用于表示数据库中保存的一段配音数据的唯一性标识。

步骤S213：上传音频ID。

客户端将获取到的音频ID上传至状态服务模块，使得状态服务模块对配音房间中所有配音用户的配音状态进行更新。

步骤S214：返回汇总的音频ID。

当配音房间中所有配音用户都完成音频数据的采集和音频ID的上传后，状态服务模块可以将所有配音用户上传的音频ID进行汇总，并将汇总后的音频ID返回给各个配音用户的客户端。

步骤S215：请求音频。

客户端基于获取到的汇总的音频ID，可以向音频存储模块发送获取音频数据的请求。

步骤S216：下载音频。

响应于客户端发送的获取音频数据的请求，可以将对应于汇总的音频ID的音频数据下载至安装客户端的终端设备，该音频数据包括了配音房间中所有配音用户完成的配音数据，与消音后的视频进行融合后，即可得到由配音用户协作完成的配音视频。

基于以上应用场景的逻辑架构可知，本申请实施例实现了一种多用户协同配合进行视频配音的方案。下面结合具体实施方式对本申请提供的视频配音方法、视频配音装置、计算机可读介质、电子设备以及计算机程序产品等技术方案做出详细说明。

图3示出了本申请一个实施例中的视频配音方法的步骤流程图，该视频配音方法可以由终端设备或服务器执行，也可以由终端设备和服务器共同执行，在本申请实施例中，以该视频配音方法由终端设备执行为例进行说明。如图3所示，该视频配音方法包括如下的步骤S310至步骤S320。

步骤S310：获取第一时刻播放的当前视频。

第一时刻包括当前时刻或者与当前时刻的时间差在指定时长范围内的其他时刻。在本申请的一个实施例中，根据当前时刻可以确定包括当前时刻在内的具有指定时长的第一时间段，第一时间段例如可以是以当前时刻作为滑动窗口端点的历史时间窗口，第一时间段内的每个时刻均可以记为第一时刻。

响应于用户触发的视频点播指令，可以在终端设备的交互界面上播放指定的视频，该视频可以是长视频或者短视频，例如可以通过提供网络视频服务的网络页面或者应用程序客户端播放影视剧或者影视剧片段。终端设备可以实时获取并记录在第一时间段内播放的当前视频，例如以指定的时长t作为历史时间窗口的区间长度，在当前时刻之前的时长为t的时间区间即为第一时间段，在第一时间段内播放的一个或者多个视频即被记录为当前视频。若第一时间段内播放了多个视频，可以将多个视频均选作当前视频，也可以将当前时刻播放的视频或者播放时刻距离当前时刻最近的视频选作当前视频。

步骤S320：向第二时刻播放当前视频或者相关视频的账户主体发送配音邀请信息，第二时刻是与第一时刻具有时间相关性的时间点，相关视频是与当前视频具有内容相关性的视频，配音邀请信息用于邀请账户主体进行视频配音。

第二时刻包括当前时刻或者与当前时刻的时间差在指定时长范围内的其他时刻。在本申请的一个实施例中，根据当前时刻可以确定包括当前时刻在内的具有指定时长的第二时间段。

第二时间段可以是与第一时间段相同的时间区间，也可以是与第一时间段具有部分时间交集的时间区间，例如可以是包含第一时间段的父区间、包含在第一时间段之内的子区间或者与第一时间区间存在重叠时间的相交区间。举例而言，当前时刻为10点50分，第一时间段可以是以9点50分为起始点、以10点50分为终止点的时间区间；第二时间段可以是与之相同的时间区间，即9点50分至10点50分的时间区间；第二时间段还可以是第一时间段的父区间，例如8点50分至11点50分的时间区间；第二时间段还可以是第一时间段的子区间，例如10点00分至10点30分；第二时间段还可以是与第一时间段具有重叠时间的相交时间区间，例如10点30分至11点30分的时间区间。

在本申请的一个实施例中，若视频的播放时刻与当前时刻的时间差在预设的时间差阈值之内，则可以将视频的播放时刻与当前时刻计入同一时间段。其中，视频的播放时刻包括开始播放视频的起始时间点或者停止播放视频的终止时间点，还可以包括位于起始时间点和终止时间点之间的任意时刻。

相关视频指的是与当前视频具有内容相关性的视频，内容相关性指的是相关视频可以与当前视频具有部分相同的视频内容，或者具有相似的视频内容。例如，当前视频是某一影视剧的视频片段A，相关视频可以是同一影视剧的视频片段B，相关视频也可以是另一影视剧中与视频片段A具有相似剧情的视频片段C。

在本申请的一些实施例中，内容相关性还包括相关视频与当前视频的内容创作人员相同或者相似，内容创作人员包括导演、编剧、演员等等。例如，当前视频是由演员D参与演出的视频，相关视频可以是演员D参与演出的其他视频。在本申请的一个实施例中，根据第二时刻所播放的视频与当前视频的相关程度可以为播放视频的账户主体分配邀请优先级，例如播放当前视频的账户主体具有第一优先级，播放视频与当前视频具有相似视频内容的账户主体具有第二优先级，播放视频与当前视频具有相同或者相似内容创作人员的账户主体具有第三优先级。基于不同的邀请优先级，可以差异化地向第二时刻播放视频的账户主体发送配音邀请信息；例如可以首先向具有第一优先级的账户主体发送配音邀请信息，当该优先级的主体数量低于设定阈值时，可以继续向具有第二优先级或者第三优先级的账户主体发送配音邀请信息。

配音邀请信息可以包括通过应用程序客户端发送的程序内部消息，或者通过终端设备的操作系统发送的系统消息。

在本申请的一些实施例中，配音邀请信息可以包括向预先选定的账户主体进行点对点发送的信息。例如，发起配音邀请的第一账户主体可以基于关系链或者地理位置等匹配机制选取同一时段观看相同视频或者相似视频的第二账户主体，并向第二账户主体点对点地发送配音邀请信息。

在本申请的一些实施例中，配音邀请信息可以包括向满足条件的账户主体进行广播发送的信息。例如，发起配音邀请的第一账户主体在触发配音请求后，可以遍历筛选同一时段观看相同视频或者相似视频的多个第二账户主体，并可以通过服务器向各个第二账户主体广播发送配音邀请信息。

在本申请实施例提供的视频配音方法中，在同一时段播放内容相关视频的账户主体属于对同一类视频感兴趣的同类型的用户群体，基于该用户群体进行视频配音可以大幅度提高陌生人协作模式下视频配音的成功率。另外，由于该用户群体对于视频整体的内容以及待配音的内容本身具有一定程度的了解，能够省去配音前熟悉剧本、熟悉台词的繁琐流程，因此在进行配音时可以极大地提高配音效率和配音质量。

在本申请的一个实施例中，可以先获取待配音的目标视频片段，目标视频片段是对配音角色进行消音处理后得到的视频片段；然后再向第二时刻播放当前视频或者相关视频的账户主体发送用于对目标视频片段进行视频配音的配音邀请信息。在其他一些可选的实施方式中，也可以在发送配音邀请信息后，再由参与配音的账户主体选取待配音的目标视频片段。

在本申请的一些实施例中，目标视频片段可以是对当前视频或者相关视频进行片段截取和消音处理后得到的视频片段。例如，在当前视频播放到指定的视频进度时，可以截取当前播放进度对应的视频片段，并对其进行消音处理后得到待配音的目标视频片段。在其他一些可选的实施方式中，目标视频片段也可以是从相关视频或者其他任意视频中截取并消音处理后得到的视频片段。

在本申请的一个实施例中，获取待配音的目标视频片段的方法可以包括：获取所述当前视频的播放进度；当所述播放进度到达预设的进度节点时，获取与所述进度节点相关联的待配音的目标视频片段。

本申请实施例可以预先配置一个或者多个与当前视频相对应的进度节点，同时可以将每个进度节点关联至一个或者多个待配音的目标视频片段。在当前视频的播放进度到达任意一个预设的进度节点时，可以获取与该进度节点相关联的待配音的目标视频片段，该目标视频片段是预先对配音角色进行消音处理后的视频片段。

预设的进度节点可以是在视频中任意指定的时间节点。举例而言，当前视频为一部时长为120分钟的电影，本申请实施例可以预先指定与该电影相对应的一个或者多个进度节点，例如电影放映进度的第30分钟、60分钟、90分钟分别为指定的进度节点。

预设的进度节点也可以是依据视频中特定视频内容的出现时间而选定的时间节点。举例而言，当前视频为一部时长为120分钟的电影，本申请实施例可以选取该电影中出现热门片段、热门台词或者热门角色的时间节点作为预设的进度节点。

在本申请的一个实施例中，获取待配音的目标视频片段的方法可以包括：获取当前视频的播放进度；当播放进度到达预设的进度节点时，获取与进度节点相关联的候选视频片段；对候选视频片段中的配音角色进行消音处理，得到待配音的目标视频片段。

本申请实施例可以预先配置一个或者多个与当前视频相对应的进度节点，同时可以将每个进度节点关联至一个或者多个候选视频片段。在当前视频的播放进度到达任意一个预设的进度节点时，可以获取与该进度节点相关联的候选视频片段，再对选定的候选视频片段进行消音处理后，可以得到待配音的目标视频片段。通过先选择候选视频片段再进行消音处理的方式，可以减少消音处理的工作量，降低计算成本。

在本申请的一个实施例中，获取待配音的目标视频片段的方法可以包括：获取一个或者多个候选视频片段；响应于视频选取操作，从一个或者多个候选视频片段中选取至少一个视频片段进行消音处理，得到待配音的目标视频片段。

本申请实施例可以在需要进行配音时为用户提供一个或者多个候选视频片段，当用户触发视频选取操作后，从其中选取至少一个视频片段进行消音处理，得到待配音的目标视频片段。在其他一些可选的实施方式中，待配音的目标视频片段也可以是预先指定的视频片段。

在本申请的一个实施例中，可以先获取与当前视频相关联的一个或者多个待配音的视频片段；然后将当前视频的播放进度与视频片段进行匹配检测，得到与播放进度相匹配的目标视频片段。

待配音的视频片段可以是预先从当前视频中提取得到的经过消音处理后的视频片段。例如，用户在观看一部电影，该电影中存在三处可供配音的片段X、Y、Z，则三处片段可以分别关联至三个预先经过消音处理后的待配音片段X1、Y1、Z1；当电影播放至片段X时，可以确定目标视频片段为消音后的片段X1；当电影播放至片段Y时，可以确定目标视频片段为消音后的片段Y1；当电影播放至片段Z时，可以确定目标视频片段为消音后的片段Z1。

在本申请的一个实施例中，待配音的视频片段也可以是基于当前视频实时生成的待配音的视频片段。例如，用户在观看一个短视频，当触发配音请求时，可以对该短视频进行消音处理，得到可供用户配音的视频片段。

在本申请的一个实施例中，可以通过对当前视频进行片段拆分得到对应于不同剧情内容的多个视频片段，每个视频片段中包括了至少一个具有配音台词的配音角色。分别对视频片段中各个配音角色的台词进行消音操作，可以得到对应的待配音的视频片段。

在本申请的一个实施例中，第一时间段或者第二时间段也可以是按照预设的时间长度进行时间划分得到的时间段，根据用户当前观看视频的时间点可以确定对应的时间片段。举例而言，以1小时作为时间长度进行时间划分，可以在一天的时间范围内确定24个时间段。用户在上午的10点15分正在观看一段视频，那么可以确定对应的当前时段是一天中的第10个时间段。视频片段是从视频中提取和消音处理后得到的片段，因此每个视频片段均与视频中的一定的播放进度具有对应的匹配关系。

在本申请的一个实施例中，视频播放进度可以用视频的播放时长进行度量，视频片段在视频中具有与之对应的起始时间点和结束时间点。当视频的播放进度落在起始时间点与结束时间点之间时，可以确定该视频片段即为与播放进度相匹配的目标视频片段。

举例而言，当前时段播放的当前视频的总时长为45分钟，其中一个待配音视频片段是时间长度为2分钟的视频片段，该待配音视频片段对应的起始时间点是播放时长在20分15秒对应的时间节点，该待配音视频片段对应的结束时间点是播放时长在22分15秒对应的时间节点。在当前视频的播放进度到达20分15秒时，即可将该待配音视频片段选作与播放进度相匹配的目标视频片段。

在本申请的一个实施例中，在向第二时刻播放所述当前视频或者相关视频的账户主体发送配音邀请信息之后，可以对第二时刻播放所述当前视频或者相关视频的账户主体进行音频采集，得到用于进行配音的音频数据；将音频数据与待配音的目标视频片段进行融合处理，得到配音视频；目标视频片段是对配音角色进行消音处理后得到的视频片段。

在本申请的一个实施例中，视频配音方法可以包括如下的步骤S310至步骤S350。

步骤S310：获取第一时刻播放的当前视频。

步骤S330：将第二时刻播放当前视频或者相关视频的账户主体添加至与目标视频片段相关联的主体集群。

步骤S340：对主体集群进行音频采集，得到用于对目标视频片段进行配音的音频数据。

步骤S350：将目标视频片段与音频数据进行融合处理，得到配音后的视频片段。

其中，步骤S310至步骤S320的具体实施方式可以参考前述实施例，此处不再赘述。下面结合多个实施例分别对步骤S330至步骤S350的具体实施方式做详细说明。

在步骤S330中，将第二时刻播放当前视频或者相关视频的账户主体添加至与目标视频片段相关联的主体集群。

在本申请的一个实施例中，基于视频播放进度和视频播放时间段两个维度进行用户群体划分，可以得到由同一时间段内观看相同或者相似视频内容的账户主体组成的主体集群。

如图4所示，对于当前播放的视频401，从视频播放进度的维度进行划分，可以得到对应于不同视频播放进度的多个视频片段402，每个视频片段402在视频401中具有对应的起始时间点和结束时间点。两个不同的视频片段具有不同的起始时间点和/或结束时间点。

从视频播放时间段的维度进行划分，可以得到多个不同的时间片段403，两个不同的时间片段403可以具有相同的或者不同的时间长度。

基于视频播放进度和视频播放时间段两个维度进行用户群体划分，可以得到对于不同维度区间的主体集群404。在相同时间片段403内播放相同视频片段402的账户主体可以被划分至相同的主体集群404内。

在本申请的一个实施例中，主体集群可以表示为关联至用户的分类标签，具有相同分类标签的用户即归属于相同的主体集群。在其他一些可选的实施方式中，主体集群也可以是预先划分的服务器分区，每个服务器分区可以维护一个或者多个用于进行视频配音的虚拟房间。

在本申请的一个实施例中，针对一个主体集群404可以建立一个或者多个用于进行视频配音的虚拟房间405，虚拟房间405的房间成员包括在当前时段播放相同视频的主体集群，尤其可以包括在当前时段播放进度对应于相同视频片段的主体集群。

如图5所示，基于当前登录的账户主体501，在终端设备的交互界面上展示视频播放页面502，视频播放页面502内包括当前播放的视频503。当视频503的播放进度到达与目标视频片段对应的进度区间时，可以在交互界面上展示用于对目标视频片段进行配音的提醒信息504。

在本申请的一个实施例中，提醒信息504可以通过独立于视频播放页面502的浮层页面进行展示，例如可以是如图5所示的覆盖在视频播放页面502上层的悬浮窗。提醒信息504中包括邀请用户进入配音界面的提示文本，例如图5所示的“点击加入配音游戏”。

在本申请的一个实施例中，提醒信息504对视频播放页面502的覆盖比例小于预设的比例阈值，避免对视频内容产生过大幅度的遮挡。

提醒信息504可以是关联有触发控件的文本消息，例如可以是位置固定于页面顶端的横幅消息，或者可以是在页面顶端横向移动的弹幕消息。

响应作用于提醒信息504的触发操作，获取与目标视频片段相关联的虚拟房间，虚拟房间的房间成员包括在当前时段播放视频的主体集群；将第二时刻播放当前视频或者相关视频的账户主体添加至虚拟房间。

在本申请的一个实施例中，可以基于大数据的智能匹配，随机将播放当前视频或者相关视频的账户主体添加至一个指定的人数未满的虚拟房间；或者也可以向账户主体展示多个可供选择的虚拟房间，由账户主体自主选择想要加入的虚拟房间。

在本申请的一个实施例中，将第二时刻播放当前视频或者相关视频的账户主体添加至虚拟房间的方法可以包括：获取各个虚拟房间中包括的房间成员的成员数量；展示成员数量未达到最大数量的虚拟房间；响应作用于虚拟房间的触发操作，将第二时刻播放当前视频或者相关视频的账户主体添加至虚拟房间。

继续参考图5所示，作用于提醒信息504的触发操作例如可以是点击操作，当用户点击提醒消息504时，可以跳转进入房间选择页面505。房间选择页面505中展示有成员数量未达到最大数量的多个虚拟房间506。当用户点击选择其中的一个虚拟房间506时，可以将账户主体501作为房间成员添加至所选择的虚拟房间506中。

在步骤S340中，对主体集群进行音频采集，得到用于对目标视频片段进行配音的音频数据。

如图6所示，在终端设备的交互界面上展示以主体集群作为房间成员的虚拟房间601，虚拟房间601包括用于指示房间成员的成员区域602以及用于触发对目标视频片段进行配音操作的配音控件603。响应作用于配音控件603的触发操作，可以对房间成员进行音频采集。

在本申请的一个实施例中，在虚拟房间601内展示有剧本名称，即待配音的目标视频片段的名称，同时还可以展示当前房间成员的数量以及允许加入的房间成员的最大数量，例如图6所示的“2/3”表示当前虚拟房间允许加入的房间成员的最大数量为3，当前已加入虚拟房间的房间成员的数量为2。

成员区域602包括成员标识604以及与成员标识604相关联的角色标识605。成员标识604用于指示加入虚拟房间601的房间成员，成员标识604例如可以包括账户主体的头像和名称。角色标识605用于指示为房间成员分配的配音角色，配音角色的数量由剧本内容决定，角色标识605例如可以包括配音角色的角色图像和名称。

当房间成员的数量不足以分配全部的配音角色时，房间成员可以通过邀请好友或者转发、分享虚拟房间等方式，快速邀请其他的账户主体加入虚拟房间。

当房间成员与配音角色数量匹配时，服务器可以向房主所在的终端设备发送开始配音游戏的提醒消息，在房主做出响应后，便可以开始依照剧本对每个配音角色对应的房间成员进行音频采集，获得对应的配音数据。另外，服务器也可以直接向全部的房间成员所在的终端设备发送开始配音游戏的提醒消息，使得每个房间成员可以自行选择开始配音游戏的时间。

在本申请的一个实施例中，作用于配音控件603的触发操作包括具有操作时长的持续性触控操作，例如可以是具有一定按压时长的长按操作，或者可以是具有一定滑动时长的滑动操作。在其他一些可选的实施方式中，触发操作也可以是点击、双击、滑动或者其他可选的触控操作，另外该触发操作还可以是基于语音输入或者基于文本输入的指令操作。

当检测到作用于配音控件603的持续性触控操作时，调用音频采集接口以对房间成员进行音频采集；当检测到针对持续性触控操作的终止动作时，停止调用音频采集接口。

在本申请的一个实施例中，在检测到针对持续性触控操作的终止动作之后，可以获取终止动作的触发位置；当终止动作的触发位置位于与配音控件603相对应的第一触控区域时，保存在持续性触控操作的操作时长内采集到的音频数据；当终止动作的触发位置位于与第一触控区域不同的第二触控区域时，丢弃在持续性触控操作的操作时长内采集到的音频数据。

举例而言，持续性触控操作为长按操作，与之对应的终止动作可以是停止按压的动作。用户在长按配音控件603时，可以触发调用音频采集接口以对当前用户进行音频采集，获得当前用户的配音数据。

若用户在配音控件603所在的第一触控区域内停止按压操作，即代表用户完成了当前阶段的配音。此时可以继续进行下一阶段的音频采集。

若用户在配音控件603以外的第二触控区域内停止按压操作，例如用户向上方滑动后停止按压，即代表用户放弃了当前阶段的配音。此时若用户再次长按配音控件603，便可以重新对相同的内容进行配音。

继续参考图6所示，虚拟房间601还可以包括用于播放目标视频片段的视频区域606以及用于展示配音台词的台词区域607。

在本申请的一个实施例中，获取与房间成员相对应的一个或者多个视频子片段，视频子片段是配音角色在目标视频片段中具有配音台词的子片段；响应于针对一个或者多个视频子片段的选取操作，在视频区域中展示选取到的当前待配音的目标视频子片段；获取配音角色在目标视频子片段中的配音台词，并在台词区域中展示配音台词。

按照不同的配音角色以及不同的配音台词，可以将目标视频片段拆分为多个视频子片段，其中每个视频子片段对应于一个配音角色的一段配音台词。

举例而言，目标视频片段是角色A与角色B的对话片段，其中角色A有三段台词，角色B有四段台词。在此基础上可以将目标视频片段拆分为七个视频子片段，分配到角色A的第一用户为其中的三个视频子片段进行配音，分配到角色B的第二用户为其中的四个视频子片段进行配音。

在视频区域606中，可以按照时间的先后顺序依次播放各个视频子片段，从而使对应配音角色的用户为其进行配音，在播放视频子片段的同时，在台词区域607中同步展示该视频子片段内包含的配音台词。另外，用户也可以自主选择当前需要配音的视频子片段。

在本申请的一个实施例中，作用于配音控件603的触发操作包括具有操作时长的持续性触控操作，例如可以是具有一定按压时长的长按操作，或者可以是具有一定滑动时长的滑动操作。

当检测到作用于配音控件603的持续性触控操作时，在视频区域606中播放目标视频子片段，并根据目标视频子片段的播放进度同步调整台词区域607中展示的配音台词。在播放视频子片段的过程中，随着音频采集的进行，可以逐字地调整每一句配音台词的展示状态，从而使已播放的台词和未播放的台词获得差异化的展示效果，例如可以调整已播放的台词的色彩、尺寸等展示状态。

当检测到针对持续性触控操作的终止动作时，获取终止动作的触发位置；当终止动作的触发位置位于与配音控件相对应的第一触控区域时，在视频区域606中展示在目标视频子片段之后的下一个视频子片段；当终止动作的触发位置位于与第一触控区域不同的第二触控区域时，在视频区域606中重新展示目标视频子片段。第一触控区域例如可以是配音控件603所在的触控区域，第二触控区域可以是除配音控件603以外的其他触控区域。

举例而言，持续性触控操作为长按操作，与之对应的终止动作可以是停止按压的动作。用户在长按配音控件603时，可以触发播放一个视频子片段，同时也开始对该用户进行音频采集，以获取该用户的配音数据。

若用户在配音控件603所在的第一触控区域内停止按压操作，即代表用户完成了对当前播放的视频子片段的配音。此时可以继续在视频区域606中展示在该视频子片段之后的下一个视频子片段，使得用户可以对下一个视频子片段继续进行配音。

若用户在配音控件603以外的第二触控区域内停止按压操作，例如用户向上方滑动后停止按压，即代表用户放弃了对当前播放的视频子片段的配音，此时可以在视频区域606中重新展示当前播放的视频子片段，使得用户可以重新对该视频子片段进行配音。

在本申请的一个实施例中，当用户触发作用于配音控件603的持续性触控操作时，可以为当前待录音的配音台词分配与之对应的配音时长，基于该配音时长可以在台词区域607中展示对应的倒计时进度条，在配音过程中该进度条逐渐减少。

在本申请的一个实施例中，获取与房间成员相对应的一个或者多个视频子片段，视频子片段是配音角色在目标视频片段中具有配音台词的子片段；根据一个或者多个视频子片段的配音完成数量，确定房间成员的配音进度；根据配音进度实时调整成员区域的展示内容，展示内容用于指示房间成员的实时配音状态。

在本申请的一个实施例中，当房间成员完成部分数量的视频子片段的配音时，在成员区域展示与角色标识相对应的完成进度标识，完成进度标识用于指示房间成员的实时配音状态为完成部分配音；当房间成员完成全部数量的视频子片段的配音时，在成员区域展示与成员标识相对应的完成状态标识，完成状态标识用于指示房间成员的实时配音状态为完成全部配音。

在本申请的一个实施例中，完成进度标识是覆盖在角色标识表面的浮层标识，完成进度标识包括与视频子片段数量相同的一个或者多个进度子标识；在成员区域展示与角色标识相对应的完成进度标识的方法可以包括：获取视频子片段的配音完成数量；根据配音完成数量，将对应数量的一个或者多个进度子标识由不可视状态调整为可视状态。例如，在尚未完成视频子片段的配音时，进度子标识呈现隐藏状态或者透明状态；随着若干数量的配音子片段的配音完成，可以逐个地将进度子标识由隐藏状态调整为显示状态，或者将进度子标识由透明状态调整为色彩填充状态。基于浮层标识的方式在角色标识的表面覆盖完成进度标识，可以在配音过程中直观地展示每个配音角色的配音进度，而且不会占用多余的页面空间，提高了交互界面的空间利用率。

在本申请的一个实施例中，完成状态标识是覆盖在成员标识表面的浮层标识；在成员区域展示与成员标识相对应的完成状态标识的方法可以包括：将完成状态标识由不可视状态调整为可视状态。例如，在用户尚未完成全部配音时，完成状态标识呈现隐藏状态或者透明状态；在用户完成全部配音时，可以将完成状态标识由隐藏状态调整为显示状态，或者将完成状态标识由透明状态调整为色彩填充状态。基于浮层标识的方式在成员标识的表面覆盖完成状态标识，可以在配音过程中直观地展示每个房间成员的整体配音进度，而且不会占用多余的页面空间，提高了交互界面的空间利用率。

在步骤S350中，将目标视频片段与音频数据进行融合处理，得到配音后的视频片段。

基于虚拟房间进行配音，相当于为参与配音的所有账户主体提供了云共享服务，从而为用户提供在线的配音服务，同时也可以实现配音数据的永久保存。每个账户主体通过终端设备进行音频数据的采集后，可以将音频数据上传至云平台，然后由云平台服务器对目标视频片段和音频数据进行融合处理，得到配音后的视频片段。

在本申请的一些实施例中，用户在进行音频采集的过程中或者完成音频采集后，可以向配音数据中插入定制的声效，获得类似于二次元变声的效果。云平台服务器可以对用户插入的声效一起进行融合处理，得到完成配音且携带特殊声效的多媒体文件。云平台服务器将该多媒体文件保存在数据库的同时，可以调用资源分发接口，将该多媒体文件分发至参与配音的各个用户。

完成配音后的用户可以跳转进入结果呈现页面，在结果呈现页面内可以循环播放经过融合处理后得到的配音后的视频片段，并可以通过分享、点赞等方式进行互动。

图7示出了本申请实施例在一个应用场景中进行配音录制的状态流转示意图，该配音录制的状态流转过程可以由终端设备或者服务器执行，也可以由终端设备和服务器共同执行，本申请实施例以终端设备和服务器共同执行的状态流转过程作为示例进行说明。如图7所示，基于主动创建房间和选择剧本的方式发起视频配音流程，可以包括如下的状态流转步骤。

步骤S701：发起配音的用户在进入配音状态后，选择对应不同剧情场景的剧本。

一个剧本可以对应于视频中的一个待配音的视频片段。通过对视频进行片段拆分得到对应于不同剧情场景的多个视频片段，每个视频片段中包括了至少一个具有配音台词的配音角色。分别对视频片段中各个配音角色的台词进行消音操作，可以得到对应的待配音的视频片段。

响应于用户触发的剧本选择操作，终端设备可以从多个可供选择的视频片段中选取要配音的视频片段以及与之对应的剧本。若检测到用户完成剧本选择，可以继续执行步骤S702；若检测到用户放弃剧本选择，可以跳转执行步骤S707。

步骤S702：完成剧本选择后，建立用于配音的虚拟房间，并邀请其他用户参与配音。

收到邀请的用户可以是同一时间段观看相同视频的用户群体，也可以是基于地域或者用户关系链而邀请加入房间的好友。

基于视频播放进度和视频播放时间段两个维度进行用户群体划分，可以得到由同一时间段内观看相同或者相似视频内容的账户主体组成的主体集群。在相同时间段内播放相同视频片段的账户主体可以被划分至相同的主体集群内。

基于划分得到的主体集群，可以精准地发送配音邀请，提高配音邀请的成功率。

步骤S703：收到邀请的用户加入虚拟房间。

配音邀请以提醒信息的方式被精准地推送至按照视频播放进度和视频播放时间段两个维度划分好的用户群体。在受邀用户的视频播放页面上可以通过浮层页面的方式展示提醒信息。提醒信息中包括邀请用户进入配音界面的提示文本，例如“点击加入配音游戏”。

当用户触发提醒消息时，终端设备可以跳转进入虚拟房间的展示页面，其中包括用于指示房间成员的成员区域以及用于触发对目标视频片段进行配音操作的配音控件。成员区域包括成员标识以及与成员标识相关联的角色标识。成员标识用于指示加入虚拟房间的房间成员，成员标识例如可以包括账户主体的头像和名称。角色标识用于指示为房间成员分配的配音角色，配音角色的数量由剧本内容决定，角色标识例如可以包括配音角色的角色图像和名称。

已加入虚拟房间的房间成员可以等待其他用户的加入，如果房间成员数量满足配音的要求，则继续执行步骤S704。如果房间成员数量始终无法满足配音要求，则可以跳转执行步骤S708。

步骤S704：房间成员数量满足要求后，开始进行配音。

当房间成员与配音角色数量匹配时，服务器可以向房主所在的终端设备发送开始配音游戏的提醒消息，在房主做出响应后，便可以开始依照剧本对每个配音角色对应的房间成员进行音频采集，获得对应的配音数据。另外，服务器也可以直接向全部的房间成员所在的终端设备发送开始配音游戏的提醒消息，使得每个房间成员可以自行选择开始配音游戏的时间。具体的配音过程可以参考上方实施例，此处不再赘述。

若检测到用户完成视频配音，则跳转执行步骤S709。若检测到用户未能完成视频配音，则跳转执行步骤S710。

步骤S705：配音结束后进行视频分享。

用户完成视频配音后，终端设备可以将采集到的音频数据上传至云平台服务器，以通过云平台服务器进行视频分享。

云平台服务器对目标视频片段和各个房间成员录制的音频数据进行融合处理，得到配音后的视频片段。云平台服务器将该视频片段保存在数据库的同时，可以调用资源分发接口，将视频片段分发至参与配音的各个用户，使得各个用户可以查看多人协作配合下完成的配音视频。

步骤S706：查看配音视频后离开房间。

若检测到用户完成配音，终端设备可以跳转进入结果呈现页面，在结果呈现页面内可以循环播放经过融合处理后得到的配音后的视频片段，并可以通过分享、点赞等方式进行互动。在查看配音视频后，用户可以离开当前的配音房间，结束配音流程。

步骤S707：放弃选择剧本，离开房间。

若未能成功选择剧本，则用户可以离开当前的配音房间，当终端设备检测到用户离开当前的配音房间时，即表示该用户放弃本次视频配音流程。

步骤S708：放弃等待，离开房间。

在持续等待后如果房间的成员数量始终无法满足配音要求，则用户可以选择离开房间，当终端设备检测到用户离开当前的配音房间时，即表示该用户放弃本次视频配音流程。

步骤S709：音频上传到云端进行智能化融合处理。

云平台服务器可以对目标视频片段和各个房间成员录制的音频数据进行融合处理，得到配音后的视频片段。

步骤S710：放弃录音，离开房间。

如果用户在配音游戏的过程中放弃录音，可以离开虚拟房间，当终端设备检测到用户离开当前的配音房间时，结束本次视频配音流程。

在本申请实施例中，虚拟房间相当于一种云共享服务，为在线用户提供服务，也可以持久化保存。虚拟房间也可以视作群聊聊天室，房间成员可以相互同步音频录制的信息，结合剧情的多媒体文件进行声音和声效的融合。配音房间服务是多人协作配音的后台服务模块，当多人对同一剧情进行配音操作时，就视为多人进入了一个合作的配音房间。房间中的信息主要包括进行配音录制操作的剧情多媒体文件，进入房间的用户等，该服务实现的功能主要包括房间的增删改查等操作。

图8至图10分别示出了配音房间服务的主要功能，即创建房间、删除房间、查询房间、用户加入房间等等。配音房间服务可以由终端设备或者服务器执行，也可以由终端设备和服务器共同执行，以下各个实施例均以终端设备执行的配音房间服务作为示例进行说明。

图8示出了本申请实施例在一个应用场景中创建配音房间的功能实现流程图。其中，创建配音房间的功能实现包括如下的流程步骤。

步骤S801：调用创建配音房间的服务接口。

步骤S802：调用剧情场景ID，生成房间号；根据剧情场景ID获取需要配音的剧情片段媒体文件。

步骤S803：调用音频管理服务的录制接口进行配音。

步骤S804：将配音的房间信息存入数据库。

步骤S805：返回配音房间信息。

图9示出了本申请实施例在一个应用场景中删除配音房间的功能实现流程图。其中，删除配音房间的功能实现包括如下的流程步骤。

步骤S901：调用删除配音房间的服务接口。

步骤S902：查看待删除的配音房间的房主信息。

步骤S903：判断当前用户是否为配音房间的房主。如果否，则执行步骤S904；如果是，则执行步骤S906。

步骤S904：调用用户服务接口，删除当前用户与配音房间的加入关系。

步骤S905：返回配音房间信息。

步骤S906：在数据库中删除房间。

图10示出了本申请实施例在一个应用场景中用户加入配音房间的功能实现流程图。其中，用户加入配音房间的功能实现包括如下的流程步骤。

步骤S1001：调用邀请加入配音房间的服务接口。

步骤S1002：检查配音房间的房间号是否存在。如果存在，则执行步骤S1003。

步骤S1003：创建一条房间加入的审批消息。

步骤S1004：调用用户服务接口，获取用户的头像、名称、以及关联房间的多媒体信息。

步骤S1005：将用户加入到当前房间的用户列表中。

步骤S1006：查询当前房间的其他在线用户。

步骤S1007：调用音频服务的合成接口，将多个用户的配音与剧情的多媒体数据进行融合处理，得到多媒体配音文件。

步骤S1008：将用户的房间关系以及生成的多媒体配音文件的索引存入数据库。

步骤S1009：返回配音房间信息。

图11示出了本申请实施例在一个应用场景中查看配音房间的功能实现流程图。其中，用户查看配音房间的功能实现包括如下的流程步骤。

步骤S1101：调用获取配音房间的服务接口。

步骤S1102：查询当前用户加入的和创建的配音房间。

步骤S1103：查询配音房间的剧情信息，以及房间内的用户信息。

步骤S1104：获取剧情的背景音乐以及多个配音用户的配音数据。

步骤S1105：返回配音房间信息。

基于以上实施例及应用场景的介绍可知，本申请实施例实现了一种基于视频内容的配音方案，是基于大数据背景下，将同一时段观看某部剧用户群体纳入至配音游戏的目标用户群体。具体是在剧情场景中，通过大数据陌生人匹配的方式，让陌生人协同参与到某段剧情中进行互动式配音。在视频和配音合成后，自动分发到协同的配音人员手机中，也可根据用户的喜好渲染到TV端屏幕上。该方案实现了基于陌生人的协同配音沉浸式互动的娱乐方案，可以满足陌生人通过声音交友的场景。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的视频配音方法。图12示意性地示出了本申请实施例提供的视频配音装置的结构框图。如图12所示，视频配音装置1200可以包括：

获取模块1210，被配置为获取第一时刻播放的当前视频；

发送模块1220，被配置为向第二时刻播放所述当前视频或者相关视频的账户主体发送配音邀请信息，所述第二时刻是与所述第一时刻具有时间相关性的时间点，所述相关视频是与所述当前视频具有内容相关性的视频，所述配音邀请信息用于邀请所述账户主体进行视频配音。

在本申请的一个实施例中，基于以上实施例，视频配音装置1200可以进一步包括：

片段获取模块，被配置为获取待配音的目标视频片段，所述目标视频片段是对配音角色进行消音处理后得到的视频片段。

在本申请的一个实施例中，基于以上各实施例，片段获取模块可以进一步被配置为：获取所述当前视频的播放进度；当所述播放进度到达预设的进度节点时，获取与所述进度节点相关联的待配音的目标视频片段。

在本申请的一个实施例中，基于以上各实施例，片段获取模块可以进一步被配置为：获取所述当前视频的播放进度；当所述播放进度到达预设的进度节点时，获取与所述进度节点相关联的候选视频片段；对所述候选视频片段中的配音角色进行消音处理，得到待配音的目标视频片段。

在本申请的一个实施例中，基于以上各实施例，片段获取模块可以进一步被配置为：获取一个或者多个候选视频片段；响应于视频选取操作，从所述一个或者多个候选视频片段中选取至少一个视频片段进行消音处理，得到待配音的目标视频片段。

在本申请的一个实施例中，基于以上各实施例，所述目标视频片段是对所述当前视频或者相关视频进行片段截取和消音处理后得到的视频片段。

在本申请的一个实施例中，基于以上各实施例，视频配音装置1200还可以包括：

采集模块1230，被配置为对第二时刻播放所述当前视频或者相关视频的账户主体进行音频采集，得到用于进行配音的音频数据；

融合模块1240，被配置为将所述音频数据与待配音的目标视频片段进行融合处理，得到配音视频；所述目标视频片段是对配音角色进行消音处理后得到的视频片段。

提醒展示模块，被配置为展示用于对所述目标视频片段进行配音的提醒信息；

房间获取模块，被配置为响应作用于所述提醒信息的触发操作，获取与所述目标视频片段相关联的虚拟房间；

房间添加模块，被配置为将第二时刻播放所述当前视频或者相关视频的账户主体添加至所述虚拟房间。

在本申请的一个实施例中，基于以上各实施例，房间添加模块可以进一步被配置为：获取各个所述虚拟房间中包括的房间成员的成员数量；展示成员数量未达到最大数量的虚拟房间；响应作用于所述虚拟房间的触发操作，将第二时刻播放所述当前视频或者相关视频的账户主体添加至所述虚拟房间。

在本申请的一个实施例中，基于以上各实施例，采集模块1230可以进一步包括：

房间展示模块，被配置为展示以第二时刻播放所述当前视频或者相关视频的账户主体作为房间成员的虚拟房间，所述虚拟房间包括用于指示房间成员的成员区域以及用于触发对所述目标视频片段进行配音操作的配音控件；

音频采集模块，被配置为响应作用于所述配音控件的触发操作，对所述房间成员进行音频采集。

在本申请的一个实施例中，基于以上各实施例，所述成员区域包括成员标识以及与所述成员标识相关联的角色标识，所述成员标识用于指示加入所述虚拟房间的房间成员，所述角色标识用于指示为所述房间成员分配的配音角色；采集模块1230可以进一步包括：

子片段获取模块，被配置为获取与所述房间成员相对应的一个或者多个视频子片段，所述视频子片段是所述配音角色在所述目标视频片段中具有配音台词的子片段；

进度确定模块，被配置为根据所述一个或者多个视频子片段的配音完成数量，确定所述房间成员的配音进度；

内容调整模块，被配置为根据所述配音进度实时调整所述成员区域的展示内容，所述展示内容用于指示所述房间成员的实时配音状态。

在本申请的一个实施例中，基于以上各实施例，内容调整模块可以进一步包括：

进度标识展示模块，被配置为当所述房间成员完成部分数量的所述视频子片段的配音时，在所述成员区域展示与所述角色标识相对应的完成进度标识，所述完成进度标识用于指示所述房间成员的实时配音状态为完成部分配音；

状态标识展示模块，被配置为当所述房间成员完成全部数量的所述视频子片段的配音时，在所述成员区域展示与所述成员标识相对应的完成状态标识，所述完成状态标识用于指示所述房间成员的实时配音状态为完成全部配音。

在本申请的一个实施例中，基于以上各实施例，所述完成进度标识是覆盖在所述角色标识表面的浮层标识，所述完成进度标识包括与所述视频子片段数量相同的一个或者多个进度子标识；进度标识展示模块可以进一步被配置为：获取所述视频子片段的配音完成数量；根据所述配音完成数量，将对应数量的一个或者多个进度子标识由不可视状态调整为可视状态。

在本申请的一个实施例中，基于以上各实施例，所述完成状态标识是覆盖在所述成员标识表面的浮层标识；状态标识展示模块可以进一步被配置为：将所述完成状态标识由不可视状态调整为可视状态。

在本申请的一个实施例中，基于以上各实施例，作用于所述配音控件的触发操作包括具有操作时长的持续性触控操作；音频采集模块可以进一步包括：

采集接口调用模块，被配置为当检测到作用于所述配音控件的持续性触控操作时，调用音频采集接口以对所述房间成员进行音频采集；

接口停止调用模块，被配置为当检测到针对所述持续性触控操作的终止动作时，停止调用所述音频采集接口。

在本申请的一个实施例中，基于以上各实施例，音频采集模块可以进一步包括：

触发位置获取模块，被配置为获取所述终止动作的触发位置；

音频数据保存模块，被配置为当所述终止动作的触发位置位于与所述配音控件相对应的第一触控区域时，保存在所述持续性触控操作的操作时长内采集到的音频数据；

音频数据丢弃模块，被配置为当所述终止动作的触发位置位于与所述第一触控区域不同的第二触控区域时，丢弃在所述持续性触控操作的操作时长内采集到的音频数据。

在本申请的一个实施例中，基于以上各实施例，所述虚拟房间包括用于播放所述目标视频片段的视频区域以及用于展示配音台词的台词区域；采集模块1230可以进一步包括：

子片段获取模块，被配置为：获取与所述房间成员相对应的一个或者多个视频子片段，所述视频子片段是所述配音角色在所述目标视频片段中具有配音台词的子片段；

子片段展示模块，被配置为：响应于针对所述一个或者多个视频子片段的选取操作，在所述视频区域中展示选取到的当前待配音的目标视频子片段；

台词展示模块，被配置为：获取所述配音角色在所述目标视频子片段中的配音台词，并在所述台词区域中展示所述配音台词。

在本申请的一个实施例中，基于以上各实施例，作用于所述配音控件的触发操作包括具有操作时长的持续性触控操作；采集模块1230可以进一步包括：

子片段播放模块，被配置为当检测到作用于所述配音控件的持续性触控操作时，在所述视频区域中播放所述目标视频子片段，并根据所述目标视频子片段的播放进度同步调整所述台词区域中展示的配音台词；

位置获取模块，被配置为当检测到针对所述持续性触控操作的终止动作时，获取所述终止动作的触发位置；

下一片段展示模块，被配置为当所述终止动作的触发位置位于与所述配音控件相对应的第一触控区域时，在所述视频区域中展示在所述目标视频子片段之后的下一个视频子片段；

重新展示模块，被配置为当所述终止动作的触发位置位于与所述第一触控区域不同的第二触控区域时，在所述视频区域中重新展示所述目标视频子片段。

本申请各实施例中提供的视频配音装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

本申请实施例还提供一种电子设备，该电子设备包括：处理器以及存储器；存储器用于存储处理器的可执行指令。其中，处理器执行计算机程序时实现如以上实施例中的视频配音方法。

图13示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。该电子设备可以是终端设备或服务器，在本申请实施例中，以该电子设备为终端设备作为示例进行说明。

需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1300包括中央处理器1301(Central Processing Unit，CPU)，其可以根据存储在只读存储器1302(Read-Only Memory，ROM)中的程序或者从存储部分1308加载到随机访问存储器1303(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1303中，还存储有系统操作所需的各种程序和数据。中央处理器1301、在只读存储器1302以及随机访问存储器1303通过总线1304彼此相连。输入/输出接口1305(Input/Output接口，即I/O接口)也连接至总线1304。

以下部件连接至输入/输出接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至输入/输出接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

本申请实施例还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如以上实施例中的视频配音方法。

在本申请的一些实施例中，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得电子设备执行如以上技术方案中的视频配音方法。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理器1301执行时，执行本申请的系统中限定的各种功能。

本申请实施例还提供一种计算机可读介质，该计算机可读介质上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的视频配音方法。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储计算机程序的有形介质，该计算机程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频配音方法，其特征在于，包括：

获取第一时刻播放的当前视频；

2.根据权利要求1所述的视频配音方法，其特征在于，在获取第一时刻播放的当前视频之后，所述方法还包括：

获取待配音的目标视频片段，所述目标视频片段是对配音角色进行消音处理后得到的视频片段。

3.根据权利要求2所述的视频配音方法，其特征在于，获取待配音的目标视频片段，包括：

获取所述当前视频的播放进度；

当所述播放进度到达预设的进度节点时，获取与所述进度节点相关联的待配音的目标视频片段。

4.根据权利要求2所述的视频配音方法，其特征在于，获取待配音的目标视频片段，包括：

获取所述当前视频的播放进度；

当所述播放进度到达预设的进度节点时，获取与所述进度节点相关联的候选视频片段；

对所述候选视频片段中的配音角色进行消音处理，得到待配音的目标视频片段。

5.根据权利要求2所述的视频配音方法，其特征在于，获取待配音的目标视频片段，包括：

获取一个或者多个候选视频片段；

响应于视频选取操作，从所述一个或者多个候选视频片段中选取至少一个视频片段进行消音处理，得到待配音的目标视频片段。

6.根据权利要求2所述的视频配音方法，其特征在于，所述目标视频片段是对所述当前视频或者相关视频进行片段截取和消音处理后得到的视频片段。

7.根据权利要求1至6中任意一项所述的视频配音方法，其特征在于，在向第二时刻播放所述当前视频或者相关视频的账户主体发送配音邀请信息之后，所述方法还包括：

对第二时刻播放所述当前视频或者相关视频的账户主体进行音频采集，得到用于进行配音的音频数据；

将所述音频数据与待配音的目标视频片段进行融合处理，得到配音视频；所述目标视频片段是对配音角色进行消音处理后得到的视频片段。

8.根据权利要求7所述的视频配音方法，其特征在于，在向第二时刻播放所述当前视频或者相关视频的账户主体发送配音邀请信息之后，所述方法还包括：

展示用于对所述目标视频片段进行配音的提醒信息；

响应作用于所述提醒信息的触发操作，获取与所述目标视频片段相关联的虚拟房间；

将第二时刻播放所述当前视频或者相关视频的账户主体添加至所述虚拟房间。

9.根据权利要求8所述的视频配音方法，其特征在于，将第二时刻播放所述当前视频或者相关视频的账户主体添加至所述虚拟房间，包括：

获取各个所述虚拟房间中包括的房间成员的成员数量；

展示成员数量未达到最大数量的虚拟房间；

响应作用于所述虚拟房间的触发操作，将第二时刻播放所述当前视频或者相关视频的账户主体添加至所述虚拟房间。

10.根据权利要求7所述的视频配音方法，其特征在于，对第二时刻播放所述当前视频或者相关视频的账户主体进行音频采集，包括：

展示以第二时刻播放所述当前视频或者相关视频的账户主体作为房间成员的虚拟房间，所述虚拟房间包括用于指示房间成员的成员区域以及用于触发对所述目标视频片段进行配音操作的配音控件；

响应作用于所述配音控件的触发操作，对所述房间成员进行音频采集。

11.根据权利要求10所述的视频配音方法，其特征在于，所述作用于所述配音控件的触发操作包括具有操作时长的持续性触控操作；响应作用于所述配音控件的触发操作，对所述房间成员进行音频采集，包括：

当检测到作用于所述配音控件的持续性触控操作时，调用音频采集接口以对所述房间成员进行音频采集；

当检测到针对所述持续性触控操作的终止动作时，停止调用所述音频采集接口。

12.根据权利要求11所述的视频配音方法，其特征在于，在检测到针对所述持续性触控操作的终止动作之后，所述方法还包括：

获取所述终止动作的触发位置；

当所述终止动作的触发位置位于与所述配音控件相对应的第一触控区域时，保存在所述持续性触控操作的操作时长内采集到的音频数据；

当所述终止动作的触发位置位于与所述第一触控区域不同的第二触控区域时，丢弃在所述持续性触控操作的操作时长内采集到的音频数据。

13.根据权利要求10所述的视频配音方法，其特征在于，所述成员区域包括成员标识以及与所述成员标识相关联的角色标识，所述成员标识用于指示加入所述虚拟房间的房间成员，所述角色标识用于指示为所述房间成员分配的配音角色；在展示以第二时刻播放所述当前视频或者相关视频的账户主体作为房间成员的虚拟房间之后，所述方法还包括：

获取与所述房间成员相对应的一个或者多个视频子片段，所述视频子片段是所述配音角色在所述目标视频片段中具有配音台词的子片段；

根据所述一个或者多个视频子片段的配音完成数量，确定所述房间成员的配音进度；

根据所述配音进度实时调整所述成员区域的展示内容，所述展示内容用于指示所述房间成员的实时配音状态。

14.根据权利要求13所述的视频配音方法，其特征在于，根据所述配音进度实时调整所述成员区域的展示内容，包括：

当所述房间成员完成部分数量的所述视频子片段的配音时，在所述成员区域展示与所述角色标识相对应的完成进度标识，所述完成进度标识用于指示所述房间成员的实时配音状态为完成部分配音；

当所述房间成员完成全部数量的所述视频子片段的配音时，在所述成员区域展示与所述成员标识相对应的完成状态标识，所述完成状态标识用于指示所述房间成员的实时配音状态为完成全部配音。

15.根据权利要求14所述的视频配音方法，其特征在于，所述完成进度标识是覆盖在所述角色标识表面的浮层标识，所述完成进度标识包括与所述视频子片段数量相同的一个或者多个进度子标识；在所述成员区域展示与所述角色标识相对应的完成进度标识，包括：

获取所述视频子片段的配音完成数量；

根据所述配音完成数量，将对应数量的一个或者多个进度子标识由不可视状态调整为可视状态。

16.根据权利要求14所述的视频配音方法，其特征在于，所述完成状态标识是覆盖在所述成员标识表面的浮层标识；在所述成员区域展示与所述成员标识相对应的完成状态标识，包括：

将所述完成状态标识由不可视状态调整为可视状态。

17.根据权利要求10所述的视频配音方法，其特征在于，所述虚拟房间包括用于播放所述目标视频片段的视频区域以及用于展示配音台词的台词区域；在展示以第二时刻播放所述当前视频或者相关视频的账户主体作为房间成员的虚拟房间之后，所述方法还包括：

响应于针对所述一个或者多个视频子片段的选取操作，在所述视频区域中展示选取到的当前待配音的目标视频子片段；

获取所述配音角色在所述目标视频子片段中的配音台词，并在所述台词区域中展示所述配音台词。

18.根据权利要求17所述的视频配音方法，其特征在于，作用于所述配音控件的触发操作包括具有操作时长的持续性触控操作；在展示以第二时刻播放所述当前视频或者相关视频的账户主体作为房间成员的虚拟房间之后，所述方法还包括：

当检测到作用于所述配音控件的持续性触控操作时，在所述视频区域中播放所述目标视频子片段，并根据所述目标视频子片段的播放进度同步调整所述台词区域中展示的配音台词；

当检测到针对所述持续性触控操作的终止动作时，获取所述终止动作的触发位置；

当所述终止动作的触发位置位于与所述配音控件相对应的第一触控区域时，在所述视频区域中展示在所述目标视频子片段之后的下一个视频子片段；

当所述终止动作的触发位置位于与所述第一触控区域不同的第二触控区域时，在所述视频区域中重新展示所述目标视频子片段。

19.一种视频配音装置，其特征在于，包括：

获取模块，被配置为获取第一时刻播放的当前视频；

20.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至18中任意一项所述的视频配音方法。

21.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储计算机程序；

其中，所述处理器执行所述计算机程序时实现权利要求1至18中任意一项所述的视频配音方法。

22.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至18中任意一项所述的视频配音方法。