CN110366032B

CN110366032B - 视频数据处理方法、装置和视频播放方法、装置

Info

Publication number: CN110366032B
Application number: CN201910733006.2A
Authority: CN
Inventors: 孙千柱
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2020-12-15
Anticipated expiration: 2039-08-09
Also published as: CN110366032A

Abstract

本申请涉及一种视频数据处理方法、装置、计算机可读存储介质和计算机设备，该方法包括：获取当前视频，当前视频包括至少一个配音角色对应的原始交互视频数据；交替播放当前视频中各个配音角色对应的原始交互视频数据；获取视频角色配音请求，视频角色配音请求包括目标配音角色；根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频；接收配音音频数据，根据待配音音频和配音音频数据确定对应的目标图像；根据目标图像和配音音频数据生成配音数据，配音数据是用于代替目标配音角色对应的原始交互视频数据。此外，本申请还提供了一种视频播放方法、装置、计算机可读存储介质和计算机设备。

Description

视频数据处理方法、装置和视频播放方法、装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频数据处理方法、装置、计算机可读存储介质和计算机设备，以及视频播放方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术的发展，音视频的应用场景越来越广。在播放音视频的过程中，用户可跟着朗读视频中的台词，通过录音功能接收用户朗读的配音数据，将用户朗读的配音数据进行存储。当音视频播放结束后，可通过触发生成配音播放请求，根据配音播放请求将用户的所有配音数据进行播放。然而，目前的配音数据的播放只能将用户的所有配音数据按照时间戳顺序进行播放，视频播放较为单一性。

发明内容

基于此，有必要针对上述技术问题，提供一种视频数据处理方法、装置、计算机可读存储介质和计算机设备，以及视频播放方法、装置、计算机可读存储介质和计算机设备，在当前音视频播放过程中，不仅可以播放用户的所有配音数据，还可以将用户的配音数据与当前音视频中的其他未进行配音的音视频数据进行交互，提高视频播放的多样性。

一种视频数据处理方法，该方法包括：

获取当前视频，当前视频包括至少一个配音角色对应的原始交互视频数据；

获取视频角色配音请求，视频角色配音请求包括目标配音角色；

根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频；

接收配音音频数据，根据待配音音频和配音音频数据确定对应的目标图像，配音音频数据是对待配音音频进行配音得到的；

根据目标图像和配音音频数据生成配音数据，配音数据是用于代替目标配音角色对应的原始交互视频数据。

一种视频数据处理装置，该装置包括：

当前视频获取模块,用于获取当前视频，当前视频包括至少一个配音角色对应的原始交互视频数据；

配置请求获取模块,用于获取视频角色配音请求，视频角色配音请求包括目标配音角色；

待配音音频获取模块，用于根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频；

音频数据接收模块,用于接收配音音频数据，根据待配音音频和配音音频数据确定对应的目标图像，配音音频数据是对待配音音频进行配音得到的；

配音视频数据生成模块,用于根据目标图像和配音音频数据生成配音数据，配音数据是用于代替目标配音角色对应的原始交互视频数据。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行所述程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

一种视频播放方法，该方法包括：

获取视频获取请求，根据视频获取请求获取配音数据和当前视频，当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，配音数据包括至少一个配音子片段，配音数据是对当前视频中的目标配音角色进行配音得到的；

获取配音子片段对应的配音片段信息；

根据配音片段信息从当前视频中确定匹配的目标子视频，目标子视频为配音子片段对应的未配音子视频；

将目标子视频替换为配音子片段，与原始交互视频数据进行拼接，得到目标视频，播放目标视频中的原始交互视频数据和配音子片段。

一种视频播放装置，该装置包括：

视频获取请求获取模块，用于获取视频获取请求，根据视频获取请求获取配音数据和当前视频，当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，配音数据包括至少一个配音子片段，配音数据是对当前视频中的目标配音角色进行配音得到的；

配音片段信息获取模块，用于获取配音子片段对应的配音片段信息；

目标子视频确定模块，用于根据配音片段信息从当前视频中确定匹配的目标子视频，目标子视频为配音子片段对应的未配音子视频；

目标视频播放模块，用于将目标子视频替换为配音子片段，与原始交互视频数据进行拼接，得到目标视频，播放目标视频中的原始交互视频数据和配音子片段。

获取配音子片段对应的配音片段信息；

获取视频获取请求，根据视频获取请求获取配音数据和当前视频，当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，配音视频数据包括至少一个配音子片段，配音数据是对当前视频中的目标配音角色进行配音得到的；

获取配音子片段对应的配音片段信息；

上述视频数据处理方法、装置、计算机可读存储介质和计算机设备，以及视频播放方法、装置、计算机可读存储介质和计算机设备，获取当前视频，当前视频包括至少一个配音角色对应的原始交互视频数据，获取视频角色配音请求，视频角色配音请求包括目标配音角色，目标配音角色从至少一个配音角色中确定得到的，并对目标配音角色对应的待配音音频进行配音得到配音音频数据。进一步地，根据配音音频数据和待配音音频确定对应的目标图像，将目标图像和配音音频数据生成配音数据，而配音数据是用来代替目标配音角色对应的原始交互视频数据。

因此，通过配音数据代替目标配音角色对应的原始交互视频数据，与其他未进行任何配音的配音角色对应的原始交互视频数据进行播放，克服现有技术中只能播放用户所有的配音数据，无法与其他未进行任何配音的音视频数据进行播放的问题，从而提高视频播放的多样性。

附图说明

图1为一个实施例中视频数据处理方法或者视频播放方法的应用环境图；

图2为一个实施例中视频数据处理方法的流程示意图；

图2A为一个实施例中当前视频的播放界面的示意图；

图3为一个实施例中视频角色配音请求获取步骤的流程示意图；

图4为一个实施例中待配音音频获取步骤的流程示意图；

图5为一个实施例中当前视频播放步骤和目标图像生成步骤的流程示意图；

图6为一个实施例中配音数据生成步骤的流程示意图；

图7为一个实施例中视频播放方法的流程示意图；

图7A为一个实施例中当前视频的播放流程的界面示意图；

图7B为一个实施例中目标视频的播放流程的界面示意图；

图8为一个实施例中视频获取请求获取步骤的流程示意图；

图9为一个实施例中目标子视频确定步骤的流程示意图；

图10为另一个实施例中目标子视频确定步骤的流程示意图；

图11为另一个实施例中视频播放方法的流程示意图；

图11A为一个实施例中当前配音分数显示的界面示意图；

图12为又一个实施例中视频播放方法的流程示意图；

图12A为一个实施例中配音子片段的展示界面示意图；

图12B为一个实施例中数据层处理步骤的原理示意图；

图12C为另一个实施例中数据层处理步骤的原理示意图；

图13为一个实施例中播放视频前端逻辑流程的原理示意图；

图14为一个实施例中视频配音逻辑流程的原理示意图；

图15为一个实施例中目标配音角色区分逻辑流程的原理示意图；

图16为一个实施例中视频数据处理装置的结构框图；

图17为一个实施例中配置请求获取模块的结构框图；

图18为一个实施例中待配音音频获取模块的结构框图；

图19为一个实施例中配音视频数据生成模块的结构框图；

图20为一个实施例中视频播放装置的结构框图；

图21为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中视频数据处理方法的应用环境图。参照图1，该视频数据处理方法应用于视频数据处理系统。该视频数据处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中，终端110上可安装有音视频播放的播放应用，服务器120可以为播放应用对应的服务器。

具体地，终端110可发送请求向服务器120获取当前视频，该当前视频包括至少一个配音角色对应的原始交互视频数据。当终端110接收到服务器120返回的当前视频时，获取视频角色配音请求，视频角色配音请求包括目标配音角色，根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频，接收配音音频数据，根据待配音音频和配音音频数据确定对应的目标图像，配音音频数据是对待配音音频进行配音得到的，根据目标图像和配音音频数据生成配音数据。其中，终端110可将配音数据存储在本地，配音数据是用于代替目标配音角色对应的原始交互视频数据。进一步地，终端110还可将配音数据发送至服务器120，服务器120可在另一存储空间单独存储该配音数据，服务器120中存储当前视频和存储配音数据的存储空间可不同。

图1还可以为另一个实施例中视频播放方法的应用环境图。参照图1，该视频播放方法应用于视频播放系统。该视频播放系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中，终端110上可安装有音视频播放的播放应用，服务器120可以为播放应用对应的服务器。

具体地，终端110获取视频获取请求，根据视频获取请求可以向服务器120获取配音数据和当前视频，当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，配音数据包括至少一个配音子片段，配音数据是对当前视频中的目标配音角色进行配音得到的。进一步地，终端110获取配音子片段对应的配音片段信息，根据配音片段信息从当前视频中确定匹配的目标子视频，目标子视频为配音子片段对应的未配音子视频，将目标子视频替换为配音子片段，与原始交互视频数据进行拼接，得到目标视频，播放目标视频中的原始交互视频数据和配音子片段。

如图2所示，在一个实施例中，提供了一种视频数据处理方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2，该视频数据处理方法具体包括如下步骤：

步骤202，获取当前视频，当前视频包括至少一个配音角色对应的原始交互视频数据。

其中，当前视频是指终端播放应用的播放界面正在播放的视频，当前视频可以预先存储在服务器中，终端可通过发送请求至服务器获取当前视频，当前视频还可以是直接存储至终端本地，终端直接从本地获取当前视频。其中，当前视频包括至少一个配音角色对应的原始交互视频数据。

其中，配音角色是指当前视频中待配音的视频人物角色，可以是当前视频中出现的所有视频人物角色，还可以是当前视频中存在音频数据对应的视频人物角色，例如当前视频中存在台词的视频人物角色作为配音角色。而各个配音角色对应的原始交互视频数据是指该配音角色在当前视频中对应的音视频数据，例如当前视频中配音角色A的台词以及台词对应的视频数据可以作为配音角色A对应的原始交互视频数据。

具体地，终端可预先在本地存储视频数据，或者向服务器请求下发视频数据。当终端预先在本地存储视频数据后，可直接从本地获取当前视频。若终端本地未存储视频数据，则终端向服务器发送视频获取请求，服务器根据终端发送的视频获取请求下发当前视频至终端，供终端通过视频播放的播放应用进行播放，其中，终端接收到服务器下发的当前视频后，可将当前视频存储至本地。

步骤204，获取视频角色配音请求，视频角色配音请求包括目标配音角色。

其中，由于视频角色配音请求是用来请求对当前视频中目标配音角色进行配音的，因此视频角色配音请求包括目标配音角色。这里的目标配音角色是等待用户进行配音的目标视频人物角色，可从至少一个配音角色中确定合适的配音角色作为目标配音角色。其中，视频角色配音请求可通过作用于目标配音角色控件触发生成的，在触发生成视频角色配音请求之前，可先将当前视频的当前模式从播放模式切换成配音模式，具体可以是作用于当前视频的播放界面展示的配音切换控件进行当前模式的切换。

具体地，终端在交替播放当前视频中各个配音角色对应的原始交互视频数据时，当获取到视频模式切换请求后，可根据视频模式切换请求确定当前视频的当前模式为配音模式，可根据视频模式切换请求暂停当前视频的播放，获取当前视频中所有配音角色，可在当前视频的播放界面新开窗口用来展示各个配音角色，可通过获取作用于目标配音角色的控件确定目标配音角色，从而触发生成视频角色配音请求。

在一个实施例中，如图2A所示，图2A示出一个实施例中当前视频的播放界面的示意图。在终端交替播放当前视频中各个配音角色对应的原始交互视频数据时，终端获取到作用于当前视频的播放界面的模式选择操作，根据模式选择操作确定当前视频的当前模式为配音模式，获取当前视频中的所有配音角色，如图2A中的角色1、角色2、角色3和角色4。终端可在当前视频的播放界面新开窗口用来展示各个配音角色，获取作用于目标配音角色的控件确定目标配音角色，从而触发生成视频角色配音请求。例如，图2A中的角色4为目标配音角色。

步骤206，根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频。

其中，待配音音频是指等待用户进行配音的音频数据，这里的待配音音频是指当前视频中与目标配音角色对应的音频数据。终端在获取视频角色配音请求后，根据视频角色配音请求从当前视频中获取目标配音角色对应的待配音音频。其中，获取目标配音角色对应的待配音音频的获取方式可自定义，自定义可以是直接从当前视频中匹配得到与目标配音角色对应的待配音音频，或者依照当前视频中各个视频帧的播放顺序，轮流播放，在播放过程中获取与目标配音角色对应的待配音音频。具体可以是，记录视频角色配音请求所在的时间点对应的当前音频，随着当前视频中各个视频帧的播放顺序，显示当前音频对应的后向音频，若后向音频为目标配音角色对应的音频数据，则可确定后向音频为目标配音角色对应的待配音音频，否则将后向音频作为当前音频，直至获取得到目标配音角色对应的待配音音频。

其中，目标配音角色对应的待配音音频可存在多个子待配音音频，当前视频中目标配音角色不同时间戳对应不同的子待配音音频。因此，根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频可以是，根据目标配音角色直接从当前视频中匹配得到目标配音角色对应的子待配音音频。待配音音频获取还可以是按照当前视频中各个视频帧的播放顺序，轮流播放，在当前视频各个视频帧的播放过程中，得到目标配音角色对应的子待配音音频。

步骤208，接收配音音频数据，根据待配音音频和配音音频数据确定对应的目标图像，配音音频数据是对待配音音频进行配音得到的。

其中，配音音频数据是指对目标配音角色进行配音的用户音频数据，终端可通过录音功能接收对目标配音角色进行配音的配音音频数据。这里的配音音频数据可以是与待配音音频相同文本内容或者相似文本内容的配音音频数据，还可以是与待配音音频文本内容完全不同的配音音频数据。也就是说，用户可自定义目标配音角色对应的音频数据，也可以是跟着待配音音频朗读得到配音音频数据。

具体地，终端在获取得到目标配音角色对应的待配音音频后，在当前视频的播放界面播放待配音音频且播放待配音音频对应的视频帧。在播放完目标配音角色对应的待配音音频后，通过录音功能接收用户对目标配音角色进行配音得到配音音频数据。在用户对目标配音角色进行配音时，可自定义目标配音角色对应的自定义音频数据，将自定义音频数据作为配音音频数据，还可以是朗读目标配音角色对应的待配音音频，得到用户音频数据，将用户音频数据作为配音音频数据。因此，通过用户自定义目标配音角色对应的音频数据，提高用户的趣味性，还可以提高视频播放内容的多样性。

其中，这里的目标图像是指与配音音频数据匹配的图像。终端在接收配音音频数据后，可根据待配音音频和配音音频数据确定对应的目标图像。具体可以是，判断配音音频数据与待配音音频是否匹配，具体可以是判断配音音频数据对应的第一文本内容与待配音音频对应的第二文本内容是否匹配，匹配可以是第一文本内容与第二文本内容相同或者相近时，则可认为配音音频数据与待配音音频匹配。当配音音频数据与待配音音频匹配时，则可将当前视频中与待配音音频对应的当前视频帧确定为配音音频数据的目标图像。

当配音音频数据与待配音音频不匹配时，获取已训练好的神经网络模型，神经网络模型用来输出与音频数据对应的图像的数字模型，当配音音频数据与待配音音频不匹配时，说明配音音频数据是用户对目标配音角色进行自定义配音得到的，因此可通过已训练好的神经网络模型得到与配音音频数据对应的目标图像。具体可以是，将配音音频数据对应的文本内容作为已训练好的神经网络模型的输入，通过神经网络模型计算得到与配音音频数据对应的目标图像。

步骤210，根据目标图像和配音音频数据生成配音数据，配音数据是用于代替目标配音角色对应的原始交互视频数据。

具体地，终端在获取到配音音频数据对应的目标图像后，将配音音频数据和目标图像生成配音数据。其中，具体可以是将配音音频数据和目标图像的起始时间和终止时间分别设置相同的，组合形成配音数据。也就是说，在播放目标图像时，同时播放配音音频数据。进一步地，终端可直接将配音数据直接存储至本地，或者将配音数据发送至服务器进行存储。其中，存储配音数据时可以单独一个存储空间用来存储配音数据，当前视频在另一个存储空间，即配音数据和当前视频的存储空间可不同。其中，由于配音音频数据是对目标配音角色进行配音的用户音频数据，因此配音数据是用于代替目标配音角色对应的原始交互视频数据。当配音音频数据代替目标配音角色对应的原始交互视频数据后，播放视频，当轮到目标配音角色对应的音视频数据播放时，直接播放目标配音角色对应的配音音频数据，无需再播放目标配音角色对应的原始交互视频数据，实现用户的配音音频数据与其他未进行配音的数据的交互。

上述视频数据处理方法，在交替播放当前视频中各个配音角色对应的原始交互视频数据时，可从至少一个配音角色中确定目标配音角色，并对目标配音角色对应的待配音音频进行配音得到配音音频数据。进一步地，根据配音音频数据和待配音音频确定对应的目标图像，将目标图像和配音音频数据生成配音数据并存储，而配音数据是用来代替目标配音角色对应的原始交互视频数据。

因此，通过配音数据代替目标配音角色对应的原始交互视频数据，与其他未进行任何配音的配音角色对应的原始交互视频数据进行交替播放，克服现有技术中只能播放用户所有的配音数据，无法与其他未进行任何配音的音视频数据进行交替播放的问题，从而提高视频播放的多样性。

在一个实施例中，获取视频角色配音请求之前，包括：播放当前视频中至少一个配音角色对应的原始交互视频数据，接收配音角色选择请求,根据配音角色选择请求从至少一个配音角色确定目标配音角色。

其中，播放当前视频是按照当前视频中各个配音角色对应的原始交互视频数据的播放顺序进行轮流播放。具体地，终端获取到当前视频后，根据当前视频中各个配音角色的原始交互视频数据的播放顺序进行轮流播放。其中，原始交互视频数据包括视频数据和对应的音频数据,各个配音角色对应的原始交互视频数据可包括多个子原始交互视频数据，各个配音角色在不同时间段可存在不同的子原始交互视频数据。

例如，当前视频中包括3个配音角色且3个配音角色存在对应的原始交互视频数据，其中，3个配音角色分别为配音角色a、配音角色b和配音角色c，3个配音角色的原始交互视频数据的播放顺序为配音角色a、配音角色b、配音角色a、配音角色c、配音角色b，因此，先播放配音角色a对应的子原始交互视频数据a，再播放配音角色b对应的子原始交互视频数据m，再播放配音角色a对应的子原始交互视频数据b，再播放配音角色c对应的子原始交互视频数据x，最后再播放配音角色b对应的子原始交互视频数据n。其中，子原始交互视频数据a和子原始交互视频数据b分别组成配音角色a对应的原始交互视频数据，子原始交互视频数据m和子原始交互视频数据n分别组成配音角色b对应的原始交互视频数据，子原始交互视频数据x为配音角色c对应的原始交互视频数据。

其中，配音角色选择请求是用来请求选择目标配音角色的，可以通过当前视频播放界面上设置的配音角色选择控件点击触发生成配音角色选择请求，或者通过当前视频播放界面进行语音控制触发生成配音角色选择请求。进一步地，再根据配音角色选择请求从至少一个配音角色确定目标配音角色。其中，配音角色选择请求触发生成的时机可自定义，配音角色选择请求可以在当前视频播放之后触发生成，也可以在当前视频未进行播放之前触发生成，还可以在当前视频播放的中途触发生成。

在一个实施例中，如图3所示，获取视频角色配音请求，视频角色配音请求包括目标配音角色，包括：

步骤302，获取作用于当前原始交互视频数据的播放界面的模式选择操作。

步骤304，当根据模式选择操作确定当前视频对应的当前模式为配音模式时，获取当前视频中的各个配音角色，在播放界面展示各个配音角色。

其中，当前原始交互视频数据是指在未进行模式选择操作对应的时间点之前的原始交互视频数据。具体地，终端获取到当前视频后，交替播放当前视频中各个配音角色对应的原始交互视频数据。当播放当前原始交互视频数据时，在当前原始交互视频数据的播放界面设置有模式控件，作用于模式控件可触发生成模式选择操作。这里的模式选择操作是用来确定当前视频的当前模式，模式包括配音模式和普通模式，如图2A所示。其中，进入配音模式则新开窗口用来展示当前视频中的所有配音角色，而进入普通模式则继续播放当前视频。

进一步地，根据模式选择操作确定当前视频对应的当前模式为配音模式，再获取当前视频中的各个配音角色，可以是将当前视频中所有出场的视频人物角色都可作为配音角色，或者还可以是将当前视频中存在音频数据的视频人物角色作为配音角色。当获取当前视频中的所有配音角色后，可在当前视频的播放界面新开窗口展示当前视频的所有配音角色，也可以暂停当前视频的播放，在当前视频的播放界面直接展示当前视频的所有配音角色。

步骤306，获取作用于播放界面的配音角色选择操作，根据配音角色选择操作从各个配音角色中确定目标配音角色，根据目标配音角色生成对应的视频角色配音请求。

具体地，当前视频的播放界面展示当前视频中的所有配音角色后，终端可获取作用于播放界面的配音角色选择操作，其中配音角色选择操作是用来从各个配音角色中选择目标配音角色的，对目标配音角色的控件进行点击操作或者语音操作为配音角色选择操作。再根据配音角色选择操作从所有配音角色中确定目标配音角色，最后将目标配音角色携带至视频角色配音请求。例如，如图2A所示，图2A所示的当前视频的播放界面新开窗口用来显示当前视频中的所有配音角色，终端可获取作用于角色4的控件触发生成视频角色配音请求，角色4为目标配音角色。

在一个实施例中，如图4所示，根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频，包括：

步骤402，获取与视频角色配音请求对应的当前音频数据。

步骤404，根据当前视频中各个视频帧的播放顺序，获取当前音频数据对应的后向音频数据。

其中，当前音频数据是指视频角色配音请求所在的当前时间点对应的音频数据。具体地，获取与视频角色配音请求对应的当前时间点，再获取该当前时间点对应的音频数据，将该音频数据作为当前音频数据。进一步地，获取当前视频中各个视频帧的播放顺序，播放顺序可以是按照当前视频的视频剧情的发展顺序，播放顺序还可以是按照当前视频中各个视频帧对应的帧序号。再获取当前音频数据对应的后向音频数据，获取后向音频数据具体可以是先获取当前音频数据所在的当前视频帧，按照各个视频帧的播放顺序，获取当前视频帧对应的后向视频帧，再获取后向视频帧对应的后向音频数据。

步骤406，对后向音频数据进行特征提取，得到音频特征信息。

其中，为了能够从当前视频中确定目标配音角色对应的待配音音频，需要根据当前视频中各个音频数据的音频特征信息确定目标配音角色对应的待配音音频。具体地，终端可对后向音频数据进行特征提取，从而得到后向音频数据对应的音频特征信息。其中，音频特征信息可以是音色等。

其中，对后向音频数据进行特征提取可以采用MFCC、线性预测倒谱系数(LinearPrediction Cepstral Coefficients)或感知线性预测(Perceptual Linear Predictive)，对于后向音频数据进行特征提取在本申请中具体不作任何限制。

其中，由于后向音频数据中除了配音角色对应的原始音频数据之外，还存在背景音，因此在一个实施例中，终端获得后向音频数据后，可过滤后向音频数据中的背景音，从而得到配音角色对应的原始音频数据。

步骤408，获取目标配音角色对应的配音角色特征信息，当配音角色特征信息和音频特征信息匹配时，则确定后向音频数据为目标配音角色对应的待配音音频。

步骤410，当配音角色特征信息和音频特征信息不匹配时，则将后向音频数据作为当前音频数据，返回根据当前视频中各个视频帧的播放顺序，获取当前音频数据对应的后向音频数据的步骤，直至得到与目标配音角色对应的待配音音频。

其中，为了判断后向音频数据是否是目标配音角色对应的音频数据，因此需要检测后向音频数据的音频特征信息与目标配音角色的配音角色特征信息是否匹配，当后向音频数据的音频特征信息与目标配音角色的配音角色特征信息匹配时，才可确定后向音频数据为目标配音角色对应的待音频数据。具体地，对目标配音角色进行特征提取，得到对应的配音角色特征信息。其中，对目标配音角色进行特征提取可以采用MFCC、线性预测倒谱系数等，在此不作任何限制。当获取到目标配音角色对应的配音角色特征信息后，将配音角色特征信息和音频特征信息进行匹配，当配音角色特征信息和音频特征信息匹配时，说明这两者是来自同一个配音角色，因此可确定后向音频数据也来自目标配音角色，将后向音频数据确定为目标配音角色对应的待配音音频。

进一步地，当配音角色特征信息和音频特征信息不匹配时，说明这两者是来自不同的配音角色，后向音频数据不是来自目标配音角色，因此将后向音频数据作为当前音频数据，返回根据当前视频中各个视频帧的播放顺序，获取当前音频数据对应的后向音频数据的步骤，直至得到与目标配音角色对应的待配音音频。

在一个实施例中，如图5所示，交替播放当前视频中各个配音角色对应的原始交互视频数据，接收配音音频数据，根据待配音音频和配音音频数据确定对应的目标图像，配音音频数据是对待配音音频进行配音得到的，包括：

步骤502，按照当前视频中各个视频帧的播放顺序，依次播放各个配音角色对应的原始交互视频数据。

步骤504，当目标配音角色对应的待配音音频播放完毕时，接收对待配音音频进行配音得到的配音音频数据，获取配音音频数据对应的配音文本内容。

具体地，终端获取到当前视频后，按照当前视频中各个视频帧的播放顺序，依次播放各个配音角色对应的原始交互视频数据。其中，播放顺序可以是按照当前视频的视频剧情的发展顺序，播放顺序还可以是按照当前视频中各个视频帧对应的帧序号。

进一步地，在依次播放各个配音角色对应的原始交互视频数据时，当目标配音角色对应的待配音音频播放完毕时，终端可通过录音功能接收对待配音音频进行配音得到的配音音频数据，再获取配音音频数据对应的配音文本内容。即，配音文本内容为配音音频数据对应的文字内容，可对配音音频数据进行识别得到对应的配音文本内容。

步骤506，获取待配音音频对应的待配音文本内容，检测配音文本内容与待配音文本内容是否匹配。

具体地，对待配音音频进行提取得到对应的待配音文本内容，即待配音文本内容为待配音音频对应的文本内容。进一步地，检测配音文本内容与待配音文本内容是否匹配，其中检测配音文本内容和待配音文本内容是否匹配可以是对配音文本内容和待配音文本内容分别进行分词，得到分词后的多个词语，检测配音文本内容对应的词语与待配音文本内容对应的词语是否相同或者相似，具体可以是计算词语之间的相似度来判断是否相同或者相似。当检测到配音文本内容与待配音文本内容匹配时，说明配音音频数据为用户跟着待配音音频进行跟读的用户音频数据。反之，当配音文本内容与待配音文本内容不匹配时，说明用户并未跟着待配音音频进行跟读，反而自定义配音数据，因此配音音频数据为用户对待配音音频进行自定义的自定义音频数据。

步骤508，当配音文本内容与待配音文本内容匹配时，则从当前视频中获取与待配音音频对应的目标视频帧。

步骤510，将目标视频帧作为目标图像。

具体地，当检测到配音文本内容与待配音文本内容匹配时，说明配音音频数据为用户跟着待配音音频进行跟读的用户音频数据，用户未对待配音音频进行自定义创造,因此可直接从当前视频中获取与待配音音频对应的目标视频帧。其中,从当前视频中获取与待配音音频对应的目标视频帧具体可以是,由于当前视频包括各个视频帧和对应的音频数据,因此从当前视频中确定待配音音频所在的目标视频帧。进一步地，将目标视频帧作为配音音频数据对应的目标图像。

在一个实施例中，当配音文本内容与待配音文本内容不匹配时，将配音文本内容输入至已训练好的神经网络模型中，通过神经网络模型计算得到与配音文本内容对应的图像，将神经网络模型输出的图像作为目标图像。

具体地，当配音文本内容与待配音文本内容不匹配时，说明用户并未跟着待配音音频进行跟读，反而自定义配音数据，因此配音音频数据为用户对待配音音频进行自定义的自定义音频数据。而对于这种自定义配音数据，当前视频中各个视频帧已经无法很好地表达配音音频数据对应的配音文本内容，因此需要根据配音音频数据对应的配音文本内容所表达的意思得到对应的图像。具体可以是，将配音文本内容作为已训练好的神经网络模型的输入，通过神经网络模型计算得到与配音文本内容对应的图像，最后将神经网络模型输出的图像作为目标图像。其中，已训练好的神经网络模型可以通过大量的训练数据进行训练，用来输出与音频数据对应的图像的数字模型。

例如，配音文本内容为天空，将配音文本内容输入至已训练好的神经网络模型，神经网络模型根据配音文本内容天空计算得到与配音文本内容天空对应的图像，该图像就是一副描述天空的图像，将神经网络模型输出的天空的图像作为配音文本内容为天空对应的目标图像。

在一个实施例中，如图6所示，根据目标图像和配音音频数据生成配音数据，包括：

步骤602，根据目标图像和配音音频数据形成配音数据。

步骤604，记录配音音频数据的音频起始时间和音频终止时间。

步骤606，将音频起始时间作为配音数据的配音起始时间，将音频终止时间作为配音数据的配音终止时间进行存储。

具体地，终端可将目标图像和配音音频数据的起始时间和终止时间分别设置为相同，再将目标图像和配音音频数据进行组合得到配音数据，即在配音音频数据进行播放的同时，播放配音音频数据对应的目标图像，目标图像和配音音频数据组成配音数据。也就是说，配音音频数据既包括目标图像，又包括对应的配音音频数据。

进一步地，终端可将配音数据直接存储至本地，或者发送至服务器进行存储。在进行配音数据存储时，方便后续配音数据的使用，因此记录配音音频数据的音频起始时间和音频终止时间，将音频起始时间作为配音数据的配音起始时间，将音频终止时间作为配音数据的配音终止时间进行存储。因此，后续需要播放配音数据时，可直接根据配音音频数据的时间戳信息调用对应的配音数据进行播放。

在一个实施例中，如图7所示，提供了一种视频播放方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图7，该视频播放方法具体包括如下步骤：

步骤702，获取视频获取请求，根据视频获取请求获取配音数据和当前视频，当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，配音数据包括至少一个配音子片段，配音数据是对当前视频中的目标配音角色进行配音得到的。

其中，视频获取请求是用来请求获取配音数据和当前视频的，可通过播放应用的播放界面设置的视频获取控件触发生成的。具体地，终端获取作用于播放界面设置的视频获取控件触发生成的视频获取请求后，若终端本地存储配音数据和当前视频时，则可直接根据视频获取请求获取配音数据和当前视频。若终端本地未存储配音数据和当前视频，则将视频获取请求发送至服务器，服务器根据视频获取请求返回对应的配音数据和当前视频。

其中，当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，配音数据包括至少一个配音子片段，配音数据是对当前视频中的目标配音角色进行配音得到的。

步骤704，获取配音子片段对应的配音片段信息。

步骤706，根据配音片段信息从当前视频中确定匹配的目标子视频，目标子视频为配音子片段对应的未配音子视频。

其中，这里的配音片段信息是指与对应的配音子片段相关的信息，各个配音子片段都存在对应的配音片段信息。具体地，获取配音数据中各个配音子片段对应的配音片段信息，配音片段信息可以是但不限于时间戳信息或者是帧序号等。进一步地，根据各个配音子片段对应的配音片段信息从当前视频中确定匹配的目标子视频，由于当前视频包括配音数据对应的未配音数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，即当前视频中的视频数据都为原始交互视频数据，并未进行任何配音的视频数据。因此这里的目标子视频为配音子片段对应的未配音子视频。

步骤708，将目标子视频替换为配音子片段，与原始交互视频数据进行拼接，得到目标视频，交替播放目标视频中的原始交互视频数据和配音子片段。

具体地，目标子视频为配音子片段对应的未配音子视频，将配音子片段替换成目标子视频，因此与当前视频中的其他原始交互视频数据进行拼接。其中，配音子片段与当前视频的其他原始交互视频数据进行拼接的时候，可以根据配音子片段的时间戳信息与前向原始交互视频数据和后向原始交互视频数据进行拼接，或者还可以是根据配音子片段的帧序号与前向原始交互视频数据和后向原始交互视频数据进行拼接。通过将目标子视频替换为配音子片段，与当前视频的其他原始交互视频数据进行拼接，得到目标视频，此时目标视频包括未进行配音的原始交互视频数据和配音子片段，在进行播放的时候，能够交替播放目标视频中的原始交互视频数据和配音子片段，提高视频播放的多样性。

在一个实施例中，如图7A所示，图7A示出一个实施例中当前视频的播放流程的界面示意图，图7A中的当前视频包括多个视频帧和对应的音频数据，当前视频中的各个视频帧对应的音频数据都未进行任何配音。

在一个实施例中，如图7B所示，图7B示出一个实施例中目标视频的播放流程的界面示意图，图7B中的目标视频为当前视频对应的更新视频，目标视频包括配音子片段和当前视频中未进行配音的视频帧，将图7B的目标视频与图7A的当前视频进行比较，可以看出图7B的第3帧视频帧对应的音频数据进行配音。因此，图7B对应的目标视频进行播放时，可交替播放当前视频中未进行配音的视频帧和配音子片段，能够将用户的配音数据与当前视频中的其他未进行配音的音视频数据进行交互，提高视频播放的多样性。

上述视频播放方法，获取视频获取请求，根据视频获取请求获取配音数据和当前视频，配音数据包括至少一个配音子片段，而当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据。由于各个配音子片段在存储的时候存在对应的配音片段信息，根据各个配音子片段的配音片段信息从当前视频中确定匹配的目标子视频，目标子视频为配音子片段对应的未配音子视频，最后将目标子视频替换为配音子片段，与原始交互视频数据进行拼接，得到目标视频，交替播放目标视频中的原始交互视频数据和配音子片段。

因此，将各个配音子片段与当前视频中对应的目标子片段进行替换，实现将未进行任何配音的原始交互视频数据和用户配音的配音子片段无缝连接播放，克服现有技术中只能播放用户所有的配音数据，无法与其他未进行任何配音的音视频数据进行交替播放的问题，从而提高视频播放的多样性。

在一个实施例中，如图8所示，获取视频获取请求，根据视频获取请求获取配音数据和当前视频，包括：

步骤802，获取视频获取请求，视频获取请求包括用户标识。

步骤804，发送视频获取请求至服务器，以使服务器根据视频获取请求获取与用户标识对应的配音数据和当前视频，并返回。

步骤806，接收服务器返回的配音数据和当前视频。

具体地，终端可在视频播放应用的播放界面设置相关控件触发生成视频获取请求，终端获取视频获取请求时，由于终端本地并未存储任何视频数据。因此，需要向服务器发送视频获取请求，视频获取请求中包括用户标识，这里的用户标识是用来唯一标识终端用户的，不同的用户标识对应的不同的配音数据。

其中，服务器接收到终端发送的视频获取请求，根据视频获取请求获取与用户标识对应的配音数据，再根据配音数据获取对应的当前视频。即，配音数据为该用户标识对应的终端用户对目标配音角色进行配音得到的，而得到配音数据后，可根据配音数据匹配得到当前视频。因为配音数据是对当前视频中的目标配音角色进行配音得到的，因此可根据配音数据匹配得到当前视频。最后，服务器将配音音频数据和当前视频返回至终端，终端接收服务器返回的配音数据和当前视频。

在一个实施例中，如图9所示，当配音片段信息为时间戳信息，根据配音片段信息从当前视频中确定匹配的目标子视频，包括：

步骤902，获取配音子片段对应的配音起始时间和配音终止时间。

步骤904，从当前视频中获取与配音起始时间和配音终止时间相同的子视频，将子视频作为目标子视频。

其中，在根据配音片段信息从当前视频中确定匹配的目标视频时，可通过配音子片段的时间戳信息从当前视频中确定匹配的目标视频。具体可以是，终端先获取配音子片段对应的配音起始时间和配音终止时间，再根据配音起始时间和配音终止时间从当前视频中确定相同起始时间和终止时间的子视频，最后将该子视频作为配音子片段对应的目标子视频。例如，获取配音子片段a对应的配音起始时间为：2：01，配音子片段b对应的配音终止时间为：2：10，根据当前视频各个视频帧的播放时间点，找到起始时间为2:01，终止时间为2:10对应的视频帧，将该9秒内的视频帧组成配音子片段对应的目标子视频。

在一个实施例中，如图10所示，当配音片段信息为编码信息，根据配音片段信息从当前视频中确定匹配的目标子视频，包括：

步骤1002，获取配音子片段对应的帧序号。

步骤1004，从当前视频中获取与帧序号相同的子视频，将子视频作为目标子视频。

其中，在根据配音片段信息从当前视频中确定匹配的目标视频时，可通过配音子片段的编码信息从当前视频中确定匹配的目标视频，编码信息包括但不限于帧序号，所谓帧序号是指各个视频帧对应的序号。具体地，由于配音子片段是对当前视频中的目标配音角色进行配音得到的，目标配音角色对应的待配音音频数据可能在当前视频中的不同视频帧出现，因此在对目标配音角色进行配音时，可将目标配音角色所在的当前帧序号与配音音频数据进行绑定，因此各个配音子片段都存在对应的帧序号。再根据各个配音子片段对应的帧序号从当前视频中获取与帧序号相同的子视频，将子视频作为目标子视频。例如，配音子片段a对应的帧序号为第3帧，根据配音子片段a对应的帧序号从当前视频中获取相同帧序号的子视频，该子视频为当前视频中的第3帧视频帧，最后将子视频作为目标子视频。

在一个实施例中，如图11所示，该视频播放方法还包括：

步骤1102，获取当前配音子片段，当前配音子片段包括当前配音音频和当前配音音调。

步骤1104，根据当前配音音频和当前配音音调计算得到当前配音子片段对应的当前配音分数。

其中，这里的当前配音子片段是指当前正在播放的配音子片段。具体地，终端获取当前配音子片段，当前配音子片段包括当前配音音频和当前配音音调，所谓当前配音音频是指当前配音子片段对应的用户音频数据，当前配音音频存在对应的配音文本内容，当前配音音频包括当前配音音色和当前配音音量等。而当前配音音调是指当前配音子片段对应的用户音频频率的高低。

进一步地，可根据当前配音音频和当前配音音调计算得到当前配音子片段对应的当前配音分数。其中，配音分数的计算方式可自定义，自定义计算方式可以是先计算当前配音音频对应的配音文本内容的合理性分数，再计算当前配音音调对应的音调分数，根据合理性分数和音调分数计算得到当前配音分数。自定义计算方式还可以是通过配音评价神经网络模型进行计算得到当前配音自片段对应的当前配音分数，配音评价神经网络模型是用来计算各个配音子片段对应的配音分数的数字模型。自定义计算方式还可以是将当前配音子片段与未进行配音前的视频数据进行比较，通过比较结果确定当前配音分数。

步骤1106，在播放当前配音子片段的播放界面显示当前配音分数，获取下一个配音子片段，将下一个配音子片段作为当前配音子片段，返回根据当前配音音频和当前配音音调计算得到当前配音子片段对应的当前配音分数的步骤，直至得到至少一个配音子片段对应的配音分数。

步骤1108，根据至少一个配音子片段对应的配音分数计算得到配音总分数，在播放目标视频的播放界面显示配音总分数。

具体地，在计算得到当前配音子片段对应的当前配音分数后，在播放当前配音子片段的播放界面显示当前配音分数，在当前配音子片段的播放界面显示当前配音分数的具体区域可自定义，自定义可以根据业务场景或者实际应用进行确定。可如图11A所示，图11A示出一个实施例中当前配音分数显示的界面示意图，当当前配音子片段的配音完成后，则在当前配音子片段的播放界面的右侧显示当前配音分数，如图11A所示。

进一步地，当播放当前配音子片段对应的下一个配音子片段时，将下一个配音子片段作为当前配音子片段，返回根据当前配音音频和当前配音音调计算得到当前配音子片段对应的当前配音分数的步骤，直至得到至少一个配音子片段对应的配音分数。最后，再根据至少一个配音子片段对应的配音分数计算得到配音总分数，在播放目标视频的播放界面显示配音总分数。其中，配音总分数的计算方式可自定义，自定义可以是根据各个配音子片段对应的当前配音分数计算得到，可以是将各个配音子片段对应的当前配音分数进行均值计算，将计算结果作为配音总分数，或者还可以是各个配音子片段存在对应的预设权重，根据各个配音子片段对应的当前配音分数和预设权重进行加权计算得到配音总分数等。最后，当播放完目标视频后，在目标视频的播放界面显示配音总分数。终端用户可通过各个配音子片段对应的配音分数，以及配音总分数可得知自己配音的分数，可根据配音分数决定是否重新进行配音，增加用户的体验性。

在一个实施例中，如图12所示，该视频播放方法还包括：

步骤1202，通过视频展示层交替播放目标视频中的原始交互视频数据和配音子片段。

步骤1204，通过位于视频展示层之下的数据层获取视频获取请求，根据视频获取请求获取配音数据和当前视频。

步骤1206，通过位于数据层之下的业务逻辑层对当前视频中的目标配音角色进行配音得到配音数据和从当前视频中确定与配音数据中配音子片段匹配的目标子视频。

其中，视频展示层是用来播放当前视频和目标视频的，因此可通过视频展示侧交替播放目标视频中的原始交互视频数据和配音子片段。如图2A所示，图2A示出的当前视频的播放界面是通过视频展示层展示的，图2A的当前视频的播放界面新开窗口用来展示当前视频中的所有配音角色，配音角色的展示也是通过视频展示层来进行展示。如图12A所示，图12A示出一个实施例中配音子片段的展示界面示意图。如图12A所示，当配音数据存储成功后，配音数据包括至少一个配音子片段，视频展示层可通过界面展示至少一个配音子片段，具体可如图12A所示，可将所有的配音子片段在界面中展示，用户点击目标配音子片段的控件可播放对应的目标配音子片段。

而位于视频展示层之下的数据层是用来进行数据处理的，具体可以是通过位于视频展示层之下的数据层获取视频获取请求，根据视频获取请求获取配音数据和当前视频。例如，如图12B所示，图12B示出一个实施例中数据层处理步骤的原理示意图，终端在请求视频数据时，可通过数据层先判断该请求是否存在对应的配音数据，若不存在对应的配音数据则发送请求，请求当前视频，当前视频中包括配音数据对应的未配音视频数据和原始交互视频数据，请求成功后则对其进行数据解析，解析成功后返回视频展示层播放视频。若中间发生请求或解析失败，同样返回结果给视频展示层，方便用户及开发了解情况，定位错误。若存在配音数据，则获取配音数据，若配音数据不存在，返回结果给视频播放层，若存在，用户选择是否播放完整视频数据，则同样需要请求当前视频，在配音开始和结束的时间节点和当前视频中其他未进行配音的原始交互视频数据进行无缝连接播放，若只播放配音数据，则直接返回视频播放层，播放配音数据。其中，图12B中的上层为视频展示层。

例如，如图12C所示，图12C示出又一个实施例中数据层处理步骤的原理示意图，终端在接收到当前配音子片段配音完成时(用户输入语音信息)，结合配音评价神经网络模型(AI)进行当前配音子片段的识别和综合评分(结合AI进行台词识别及语音语调流畅度、合理性评分)，若评分失败返回结果到视频播放层，若评分成功则判断当前配音子片段对应的配音文本内容与原文本内容是否一致，若一致，则继续播放当前视频中下一个视频数据，否则结合已训练好的神经网络模型生成自定义目标图像，若生成成功，则通过数据层进行数据解析，将数据缓存并返回结果到视频播放层。其中，图12C中的上层为视频展示层，文本内容为台词。

其中，位于数据层之下的业务逻辑层是来进行业务逻辑处理的，具体可以是通过位于数据层之下的业务逻辑层对当前视频中的目标配音角色进行配音得到配音数据和从当前视频中确定与配音数据中配音子片段匹配的目标子视频。例如，业务逻辑层是负责视频数据处理方法和视频播放方法的所有业务逻辑的操作，主要有接收用户配音的配音音频数据，对配音音频数据中的配音子片段频进行配音分数的计算，结合已训练好的神经网络根据用户自定义配音音频数据生成对应的目标图像，结合声纹识别和播放音频数据从当前视频中的至少一个配音角色中区分目标配音角色。进一步地，可结合已训练好的神经网络判断用户配音音频数据对应的文本内容是否和原文本内容表达是否一致，存储配音数据等功能。

在一个具体的实施例中，提供了一种视频数据处理方法以及视频播放方法，本具体实施例主要以该方法应用于上述图1中的终端110来举例说明，具体包括以下步骤：

1、获取当前视频，当前视频包括至少一个配音角色对应的原始交互视频数据。

2、播放当前视频中至少一个配音角色对应的原始交互视频数据，接收配音角色选择请求,根据配音角色选择请求从至少一个配音角色确定目标配音角色。

3、获取视频角色配音请求，视频角色配音请求包括目标配音角色。

3-1、播放当前视频，获取作用于当前视频的播放界面的模式选择操作。

3-2、当根据模式选择操作确定当前视频的当前模式为配音模式时，获取当前视频中的各个配音角色，在播放界面展示各个配音角色。

3-3、获取作用于播放界面的配音角色选择操作，根据配音角色选择操作从各个配音角色中确定目标配音角色，根据目标配音角色生成对应的视频角色配音请求。

4、根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频。

4-1、获取与视频角色配音请求对应的当前音频数据。

根据当前视频中各个视频帧的播放顺序，获取当前音频数据对应的后向音频数据。

4-2、对后向音频数据进行特征提取，得到音频特征信息。

4-3、获取目标配音角色对应的配音角色特征信息，当配音角色特征信息和音频特征信息匹配时，则确定后向音频数据为目标配音角色对应的待配音音频。

4-4、当配音角色特征信息和音频特征信息不匹配时，则将后向音频数据作为当前音频数据，返回根据当前视频中各个视频帧的播放顺序，获取当前音频数据对应的后向音频数据的步骤，直至得到与目标配音角色对应的待配音音频。

5、接收配音音频数据，根据待配音音频和配音音频数据确定对应的目标图像，配音音频数据是对待配音音频进行配音得到的。

5-1、当目标配音角色对应的待配音音频播放完毕时，接收对待配音音频进行配音得到的配音音频数据，获取配音音频数据对应的配音文本内容，获取待配音音频对应的待配音文本内容，检测配音文本内容与待配音文本内容是否匹配，当配音文本内容与待配音文本内容匹配时，则从当前视频中获取与待配音音频对应的目标视频帧，将目标视频帧作为目标图像。

5-2、当配音文本内容与待配音文本内容不匹配时，将配音文本内容输入至已训练好的神经网络模型中，通过神经网络模型计算得到与配音文本内容对应的图像，将神经网络模型输出的图像作为目标图像。

6、根据目标图像和配音音频数据生成配音数据，配音数据是用于代替目标配音角色对应的原始交互视频数据。

6-1、根据目标图像和配音音频数据形成配音数据。

6-2、记录配音音频数据的音频起始时间和音频终止时间。

6-3、将音频起始时间作为配音数据的配音起始时间，将音频终止时间作为配音数据的配音终止时间进行存储。

7、获取视频获取请求，根据视频获取请求获取配音数据和当前视频，当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，配音数据包括至少一个配音子片段，配音数据是对当前视频中的目标配音角色进行配音得到的。

7-1、获取视频获取请求，视频获取请求包括用户标识。

7-2、发送视频获取请求至服务器，以使服务器根据视频获取请求获取与用户标识对应的配音数据和当前视频，并返回。

7-3、接收服务器返回的配音数据和当前视频。

8、获取配音子片段对应的配音片段信息。

9、根据配音片段信息从当前视频中确定匹配的目标子视频，目标子视频为配音子片段对应的未配音子视频。

9-1、当配音片段信息为编码信息，获取配音子片段对应的帧序号，从当前视频中获取与帧序号相同的子视频，将子视频作为目标子视频。

9-2、当配音片段信息为时间戳信息，获取配音子片段对应的配音起始时间和配音终止时间，从当前视频中获取与配音起始时间和配音终止时间相同的子视频，将子视频作为目标子视频。

10、将目标子视频替换为配音子片段，与原始交互视频数据进行拼接，得到目标视频，交替播放目标视频中的原始交互视频数据和配音子片段。

11、获取当前配音子片段，当前配音子片段包括当前配音音频和当前配音音调。

12、根据当前配音音频和当前配音音调计算得到当前配音子片段对应的当前配音分数。

13、在播放当前配音子片段的播放界面显示当前配音分数，获取下一个配音子片段，将下一个配音子片段作为当前配音子片段，返回根据当前配音音频和当前配音音调计算得到当前配音子片段对应的当前配音分数的步骤，直至得到至少一个配音子片段对应的配音分数。

14、根据至少一个配音子片段对应的配音分数计算得到配音总分数，在播放目标视频的播放界面显示配音总分数。

15、通过视频展示层交替播放目标视频中的原始交互视频数据和配音子片段。

16、通过位于视频展示层之下的数据层获取视频获取请求，根据视频获取请求获取配音数据和当前视频。

17、通过位于数据层之下的业务逻辑层对当前视频中的目标配音角色进行配音得到配音数据和从当前视频中确定与配音数据中配音子片段匹配的目标子视频。

在一个视频播放应用场景中，如图13所示、图14所示和图15所示，图13示出一个实施例中播放视频前端逻辑流程的原理示意图，图14示出一个实施例中视频配音逻辑流程的原理示意图，图15示出一个实施例中目标配音角色区分逻辑流程的原理示意图。

具体地，如图13所示，终端当点击一个视频时先进行有无配音文件，播放原版影片还是配音影片，配音影片播放全片还是配音片段的一系列判断后进入播放视频状态。其中，原版影片是指未进行任何配音操作的音视频数据，配音影片是指包括配音的音视频数据，配音影片播放全片是指未进行任何配音的音视频数据和进行配音的音视频数据进行无缝连接组成的音视频数据，配音片段是指配音子片段。

例如，若选择播放全片，则根据存储的对应影片信息，播放该影片，根据记录的配音起始时间，在播放时，在对应起始和终止时间播放和结束配音内容，结合配音内容流畅播放全片。若选择播放配音片段，则只播放存储的配音音频和动画片段，若只有音频，用户没有自定义剧情，则播放用户音频及对应剧情。再次播放同一影片时也会进行判断是否有配音保存记录，若无记录播放原版影片。若有弹框提示用户，让用户选择观看配音版或原版影片，当用户选择观看配音版影片时，同样进行全片或配音片段判断的流程，若选择播放原片则播放原版影片。

如图14所示，当用户按下菜单键(menu键)后选择进入配音模式，选择配音人物后进行图14所示的视频配音逻辑流程。具体地，在影片播放时，是正常播放状态，通过按菜单按钮选择切换配音模式，提供本视频的几个主要人物给用户选择，从当前播放进度开始进入配音状态，若有台词则显示下一句台词并播放声音，用户读出台词或自定义台词，接收到用户的语音后，若是和台词一致的或接近一致的，剧情继续，且在下一句台词的右边显示上一句的语音语调及合理性的综合评分。若台词不一致且意思不相近，则显示与语音内容相近的剧情，同样会在用户的下一句台词右边显示上一句的综合评分。最后，将用户的音频内容和自定义的剧情动画文件放在缓存中。

进一步地，当用户在播放时要停止配音模式，切换到普通看剧模式时，若用户在配音时生成了自定义的剧情，则切换时从生成自定义剧情的上一句台词开始播放原有剧情。若没有生成，则从当前切换模式时的上一句台词开始播放。

其中，若用户在视频未结束时退出播放，记录当前时长用于我的配音中显示时长，否则用户配音的影片总时长保持和原片总时长一致，在观影中使用过配音模式，在影片结束时弹框提示用户影片结束，建议用户尝试其他自定义结局，并显示用户在配音期间的综合平均得分。同时让用户确认是否要保存本次配音，若用户选择保存则将本次的音频和图像存储至本地或者发送至服务器进行存储，记录配音开始和结束的时间以及影片信息。若不保存，则将缓存的配音文件进行清除。

进一步地，如图15所示，当用户选择配音的角色后，在用户自定义剧情时，根据用户语音，通过已训练好的神经网络模型(AI)生成的新剧情时区分之后剧情的角色。具体地，用户切换到配音模式后，选择目标配音角色，接收用户配音对应的用户音频，判断用户是否自定义剧情，若用户自定义剧情后，则通过已训练好的神经网络模型生成新的剧情对应的台词和图像。反之，若用户未自定义剧情后，则识别原片下一句台词音频，根据音色区分配音角色，判断是否是目标配音角色，若判断是配音角色后，则播放台词音频并等待用户语音，若判断不是配音角色，则继续播放原片剧情并等待用户语音。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图16所示，提供了一种视频数据处理装置1600，该装置包括：

当前视频获取模块1602,用于获取当前视频，当前视频包括至少一个配音角色对应的原始交互视频数据。

配置请求获取模块1604,用于获取视频角色配音请求，视频角色配音请求包括目标配音角色。

待配音音频获取模块1606，用于根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频。

音频数据接收模块1608,用于接收配音音频数据，根据待配音音频和配音音频数据确定对应的目标图像，配音数据是对待配音音频进行配音得到的。

配音视频数据生成模块1610，用于根据目标图像和配音音频数据生成配音数据，配音数据是用于代替目标配音角色对应的原始交互视频数据。

在一个实施例中，视频数据处理装置1600还用于播放当前视频中至少一个配音角色对应的原始交互视频数据，接收配音角色选择请求,根据配音角色选择请求从至少一个配音角色确定目标配音角色。

在一个实施例中，如图17所示，配置请求获取模块1604包括：

当前视频播放单元1604a，用于获取作用于当前原始交互视频数据的播放界面的模式选择操作。

配音角色获取单元1604b，用于当根据模式选择操作确定当前视频对应的当前模式为配音模式时，获取当前视频中的各个配音角色，在播放界面展示各个配音角色。

配音角色选择单元1604c，用于获取作用于播放界面的配音角色选择操作，根据配音角色选择操作从各个配音角色中确定目标配音角色，根据目标配音角色生成对应的视频角色配音请求。

在一个实施例中，如图18所示，待配音音频获取模块1606包括：

当前音频数据获取单元1606a，用于获取与视频角色配音请求对应的当前音频数据。

后向音频数据确定单元1606b，用于根据当前视频中各个视频帧的播放顺序，获取当前音频数据对应的后向音频数据。

音频数据特征提取单元1606c，用于对后向音频数据进行特征提取，得到音频特征信息。

特征信息匹配单元1606d，用于获取目标配音角色对应的配音角色特征信息，当配音角色特征信息和音频特征信息匹配时，则确定后向音频数据为目标配音角色对应的待配音音频。

特征信息匹配单元1606d，还用于当配音角色特征信息和音频特征信息不匹配时，则将后向音频数据作为当前音频数据，返回根据当前视频中各个视频帧的播放顺序，获取当前音频数据对应的后向音频数据的步骤，直至得到与目标配音角色对应的待配音音频。

在一个实施例中，视频数据处理装置1600还用于按照当前视频中各个视频帧的播放顺序，依次播放各个配音角色对应的原始交互视频数据。在本实施例中，音频数据接收模块1608还用于当目标配音角色对应的待配音音频播放完毕时，接收对待配音音频进行配音得到的配音音频数据，获取配音音频数据对应的配音文本内容，获取待配音音频对应的待配音文本内容，检测配音文本内容与待配音文本内容是否匹配，当配音文本内容与待配音文本内容匹配时，则从当前视频中获取与待配音音频对应的目标视频帧，将目标视频帧作为目标图像。

在一个实施例中，音频数据接收模块1608还用于当配音文本内容与待配音文本内容不匹配时，将配音文本内容输入至已训练好的神经网络模型中，通过神经网络模型计算得到与配音文本内容对应的图像。将神经网络模型输出的图像作为目标图像。

在一个实施例中，如图19所示，配音视频数据生成模块1610包括：

配音视频数据生成单元1610a，用于根据目标图像和配音音频数据形成配音数据。

时间记录单元1610b，用于记录配音音频数据的音频起始时间和音频终止时间。

配音视频数据存储单元1610c，用于将音频起始时间作为配音数据的配音起始时间，将音频终止时间作为配音数据的配音终止时间进行存储。

在一个实施例中，如图20所示，提供了一种视频播放装置2000，该装置包括：

视频获取请求获取模块2002，用于获取视频获取请求，根据视频获取请求获取配音数据和当前视频，当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，配音数据包括至少一个配音子片段，配音数据是对当前视频中的目标配音角色进行配音得到的。

配音片段信息获取模块2004，用于获取配音子片段对应的配音片段信息。

目标子视频确定模块2006，用于根据配音片段信息从当前视频中确定匹配的目标子视频，目标子视频为配音子片段对应的未配音子视频。

目标视频播放模块2008，用于将目标子视频替换为配音子片段，与原始交互视频数据进行拼接，得到目标视频，交替播放目标视频中的原始交互视频数据和配音子片段。

在一个实施例中，视频获取请求获取模块2002还用于获取视频获取请求，视频获取请求包括用户标识，发送视频获取请求至服务器，以使服务器根据视频获取请求获取与用户标识对应的配音数据和当前视频，并返回，接收服务器返回的配音数据和当前视频。

在一个实施例中，当配音片段信息为时间戳信息，目标子视频确定模块2006还用于获取配音子片段对应的配音起始时间和配音终止时间，从当前视频中获取与配音起始时间和配音终止时间相同的子视频，将子视频作为目标子视频。

在一个实施例中，当配音片段信息为编码信息，目标子视频确定模块2006还用于获取配音子片段对应的帧序号，从当前视频中获取与帧序号相同的子视频，将子视频作为目标子视频。

在一个实施例中，视频播放装置2000还用于获取当前配音子片段，当前配音子片段包括当前配音音频和当前配音音调，根据当前配音音频和当前配音音调计算得到当前配音子片段对应的当前配音分数，在播放当前配音子片段的播放界面显示当前配音分数，获取下一个配音子片段，将下一个配音子片段作为当前配音子片段，返回根据当前配音音频和当前配音音调计算得到当前配音子片段对应的当前配音分数的步骤，直至得到至少一个配音子片段对应的配音分数，根据至少一个配音子片段对应的配音分数计算得到配音总分数，在播放目标视频的播放界面显示配音总分数。

在一个实施例中，视频播放装置2000还用于通过视频展示层交替播放目标视频中的原始交互视频数据和配音子片段，通过位于视频展示层之下的数据层获取视频获取请求，根据视频获取请求获取配音数据和当前视频，通过位于数据层之下的业务逻辑层对当前视频中的目标配音角色进行配音得到配音数据和从当前视频中确定与配音数据中配音子片段匹配的目标子视频。

图21示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图21所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现视频数据处理方法或视频播放方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行视频数据处理方法或视频播放方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图21中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的视频数据处理装置或视频播放装置可以实现为一种计算机程序的形式，计算机程序可在如图21所示的计算机设备上运行。计算机设备的存储器中可存储组成该视频数据处理装置或视频播放装置的各个程序模块，比如，图16所示的当前视频获取模块、视频数据播放模块、配置请求获取模块、待配音音频获取模块、音频数据接收模块和配音视频数据生成模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频数据处理方法中的步骤。又比如，图20所示的视频获取请求获取模块、配音片段信息获取模块、目标子视频确定模块和目标视频播放模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频播放方法中的步骤。

例如，图21所示的计算机设备可以通过如图16所示的视频数据处理装置中的当前视频获取模块执行获取当前视频，当前视频包括至少一个配音角色对应的原始交互视频数据。计算机设备可通过视频数据播放模块执行交替播放当前视频中各个配音角色对应的原始交互视频数据。计算机设备可通过配置请求获取模块执行获取视频角色配音请求，视频角色配音请求包括目标配音角色。计算机设备可通过待配音音频获取模块执行根据视频角色配音请求从当前视频中获取与目标配音角色对应的待配音音频。计算机设备可通过音频数据接收模块执行接收配音音频数据，根据待配音音频和配音音频数据确定对应的目标图像，配音音频数据是对待配音音频进行配音得到的。计算机设备可通过配音视频数据生成模块执行根据目标图像和配音音频数据生成配音数据，配音数据是用于代替目标配音角色对应的原始交互视频数据。

又例如，图21所示的计算机设备可以通过如图20所示的视频播放装置中的视频获取请求获取模块执行获取视频获取请求，根据视频获取请求获取配音数据和当前视频，当前视频包括配音数据对应的未配音视频数据和原始交互视频数据，原始交互视频数据为未配音视频数据之外的视频数据，配音数据包括至少一个配音子片段，配音数据是对当前视频中的目标配音角色进行配音得到的。计算机设备可通过配音片段信息获取模块执行获取配音子片段对应的配音片段信息。计算机设备可通过目标子视频确定模块执行根据配音片段信息从当前视频中确定匹配的目标子视频，目标子视频为配音子片段对应的未配音子视频。计算机设备可通过目标视频播放模块执行将目标子视频替换为配音子片段，与原始交互视频数据进行拼接，得到目标视频，交替播放目标视频中的原始交互视频数据和配音子片段。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述视频数据处理方法或视频播放方法的步骤。此处视频数据处理方法或视频播放方法的步骤可以是上述各个实施例的视频数据处理方法或视频播放方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述视频数据处理方法或视频播放方法的步骤。此处视频数据处理方法或视频播放方法的步骤可以是上述各个实施例的视频数据处理方法或视频播放方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频数据处理方法，包括：

获取当前视频，所述当前视频包括至少一个配音角色对应的原始交互视频数据；

获取视频角色配音请求，所述视频角色配音请求包括目标配音角色；

根据所述视频角色配音请求从所述当前视频中获取与所述目标配音角色对应的待配音音频；

接收配音音频数据，根据所述配音音频数据对应的配音文本内容确定对应的目标图像，其中，所述配音音频数据是对所述待配音音频进行配音得到的，所述配音音频数据对应的配音文本内容与所述待配音音频对应的待配音文本内容不匹配；

根据所述目标图像和所述配音音频数据生成配音数据，所述配音数据是用于代替所述目标配音角色对应的原始交互视频数据。

2.根据权利要求1所述的方法，其特征在于，所述获取视频角色配音请求之前，包括：

播放所述当前视频中所述至少一个配音角色对应的原始交互视频数据；

接收配音角色选择请求,根据所述配音角色选择请求从所述至少一个配音角色确定目标配音角色。

3.根据权利要求1所述的方法，其特征在于，所述获取视频角色配音请求，所述视频角色配音请求包括目标配音角色，包括：

获取作用于当前原始交互视频数据的播放界面的模式选择操作；

当根据所述模式选择操作确定所述当前视频对应的当前模式为配音模式时，获取所述当前视频中的各个配音角色，在所述播放界面展示各个所述配音角色；

获取作用于所述播放界面的配音角色选择操作，根据所述配音角色选择操作从各个所述配音角色中确定目标配音角色，根据所述目标配音角色生成对应的视频角色配音请求。

4.根据权利要求1所述的方法，其特征在于，所述根据所述视频角色配音请求从所述当前视频中获取与所述目标配音角色对应的待配音音频，包括：

获取与所述视频角色配音请求对应的当前音频数据；

根据所述当前视频中各个视频帧的播放顺序，获取所述当前音频数据对应的后向音频数据；

对所述后向音频数据进行特征提取，得到音频特征信息；

获取所述目标配音角色对应的配音角色特征信息，当所述配音角色特征信息和所述音频特征信息匹配时，则确定所述后向音频数据为所述目标配音角色对应的待配音音频；

当所述配音角色特征信息和所述音频特征信息不匹配时，则将所述后向音频数据作为当前音频数据，返回所述根据所述当前视频中各个视频帧的播放顺序，获取所述当前音频数据对应的后向音频数据的步骤，直至得到与所述目标配音角色对应的待配音音频。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按照所述当前视频中各个视频帧的播放顺序，依次播放各个所述配音角色对应的所述原始交互视频数据；

所述根据所述视频角色配音请求从所述当前视频中获取与所述目标配音角色对应的待配音音频之后，还包括：

当所述目标配音角色对应的待配音音频播放完毕时，接收对所述待配音音频进行配音得到的配音音频数据，获取所述配音音频数据对应的配音文本内容；

获取所述待配音音频对应的待配音文本内容，检测所述配音文本内容与所述待配音文本内容是否匹配；

当所述配音文本内容与所述待配音文本内容匹配时，则从所述当前视频中获取与所述待配音音频对应的目标视频帧；

将所述目标视频帧作为所述目标图像。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述配音文本内容与所述待配音文本内容不匹配时，将所述配音文本内容输入至已训练好的神经网络模型中，通过所述神经网络模型计算得到与所述配音文本内容对应的图像；

将所述神经网络模型输出的图像作为所述目标图像。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像和所述配音音频数据生成配音数据，包括：

根据所述目标图像和所述配音音频数据形成所述配音数据；

记录所述配音音频数据的音频起始时间和音频终止时间；

将所述音频起始时间作为所述配音数据的配音起始时间，将所述音频终止时间作为所述配音数据的配音终止时间进行存储。

8.一种视频播放方法，包括：

获取视频获取请求，根据所述视频获取请求获取配音数据和当前视频，所述当前视频包括所述配音数据对应的未配音视频数据和原始交互视频数据，所述原始交互视频数据为所述未配音视频数据之外的视频数据，所述配音数据包括至少一个配音子片段，所述配音数据是根据目标图像和配音音频数据生成的，所述配音音频数据对应的配音文本内容与待配音音频对应的待配音文本内容不匹配，所述目标图像是根据配音音频数据对应的配音文本内容确定的，所述待配音音频是所述当前视频中的目标配音角色对应的；

获取所述配音子片段对应的配音片段信息；

根据所述配音片段信息从所述当前视频中确定匹配的目标子视频，所述目标子视频为所述配音子片段对应的未配音子视频；

将所述目标子视频替换为所述配音子片段，与所述原始交互视频数据进行拼接，得到目标视频，播放所述目标视频中的所述原始交互视频数据和所述配音子片段。

9.根据权利要求8所述的方法，其特征在于，所述获取视频获取请求，根据所述视频获取请求获取配音数据和当前视频，包括：

获取视频获取请求，所述视频获取请求包括用户标识；

发送所述视频获取请求至服务器，以使所述服务器根据所述视频获取请求获取与所述用户标识对应的配音数据和所述当前视频；

接收所述服务器返回的所述配音数据和所述当前视频。

10.根据权利要求8所述的方法，其特征在于，当所述配音片段信息为时间戳信息，所述根据所述配音片段信息从所述当前视频中确定匹配的目标子视频，包括：

获取所述配音子片段对应的配音起始时间和配音终止时间；

从所述当前视频中获取与所述配音起始时间和所述配音终止时间相同的子视频，将所述子视频作为所述目标子视频。

11.根据权利要求8所述的方法，其特征在于，当所述配音片段信息为编码信息，所述根据所述配音片段信息从所述当前视频中确定匹配的目标子视频，包括：

获取所述配音子片段对应的帧序号；

从所述当前视频中获取与所述帧序号相同的子视频，将所述子视频作为所述目标子视频。

12.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取当前配音子片段，所述当前配音子片段包括当前配音音频和当前配音音调；

根据所述当前配音音频和当前配音音调计算得到所述当前配音子片段对应的当前配音分数；

在播放所述当前配音子片段的播放界面显示所述当前配音分数，获取下一个配音子片段，将所述下一个配音子片段作为所述当前配音子片段，返回根据所述当前配音音频和当前配音音调计算得到所述当前配音子片段对应的当前配音分数的步骤，直至得到所述至少一个配音子片段对应的配音分数；

根据所述至少一个配音子片段对应的配音分数计算得到配音总分数，在播放所述目标视频的播放界面显示配音总分数。

13.一种视频数据处理装置，其特征在于，所述装置包括：

当前视频获取模块,用于获取当前视频，所述当前视频包括至少一个配音角色对应的原始交互视频数据；

配置请求获取模块,用于获取视频角色配音请求，所述视频角色配音请求包括目标配音角色；

待配音音频获取模块，用于根据所述视频角色配音请求从所述当前视频中获取与所述目标配音角色对应的待配音音频；

音频数据接收模块,用于接收配音音频数据，根据所述配音音频数据对应的配音文本内容确定对应的目标图像，其中，所述配音音频数据是对所述待配音音频进行配音得到的，所述配音音频数据对应的配音文本内容与所述待配音音频对应的待配音文本内容不匹配；

配音视频数据生成模块,用于根据所述目标图像和所述配音音频数据生成配音数据，所述配音数据是用于代替所述目标配音角色对应的原始交互视频数据。

14.根据权利要求13所述的装置，其特征在于，所述装置还用于播放所述当前视频中所述至少一个配音角色对应的原始交互视频数据，接收配音角色选择请求,根据所述配音角色选择请求从所述至少一个配音角色确定目标配音角色。

15.根据权利要求13所述的装置，其特征在于，配置请求获取模块，包括：

当前视频播放单元，用于获取作用于当前原始交互视频数据的播放界面的模式选择操作；

配音角色获取单元，用于当根据所述模式选择操作确定所述当前视频对应的当前模式为配音模式时，获取所述当前视频中的各个配音角色，在所述播放界面展示各个所述配音角色；

配音角色选择单元，用于获取作用于所述播放界面的配音角色选择操作，根据所述配音角色选择操作从各个所述配音角色中确定目标配音角色，根据所述目标配音角色生成对应的视频角色配音请求。

16.根据权利要求13所述的装置，其特征在于，待配音音频获取模块，包括：

当前音频数据获取单元，用于获取与所述视频角色配音请求对应的当前音频数据；

后向音频数据确定单元，用于根据所述当前视频中各个视频帧的播放顺序，获取所述当前音频数据对应的后向音频数据；

音频数据特征提取单元，用于对所述后向音频数据进行特征提取，得到音频特征信息；

特征信息匹配单元，用于获取所述目标配音角色对应的配音角色特征信息，当所述配音角色特征信息和所述音频特征信息匹配时，则确定所述后向音频数据为所述目标配音角色对应的待配音音频；

特征信息匹配单元，还用于当所述配音角色特征信息和所述音频特征信息不匹配时，则将所述后向音频数据作为当前音频数据，返回所述根据所述当前视频中各个视频帧的播放顺序，获取所述当前音频数据对应的后向音频数据的步骤，直至得到与所述目标配音角色对应的待配音音频。

17.根据权利要求13所述的装置，其特征在于，所述装置还用于按照所述当前视频中各个视频帧的播放顺序，依次播放各个所述配音角色对应的所述原始交互视频数据；

音频数据接收模块还用于当所述目标配音角色对应的待配音音频播放完毕时，接收对所述待配音音频进行配音得到的配音音频数据，获取所述配音音频数据对应的配音文本内容；获取所述待配音音频对应的待配音文本内容，检测所述配音文本内容与所述待配音文本内容是否匹配；当所述配音文本内容与所述待配音文本内容匹配时，则从所述当前视频中获取与所述待配音音频对应的目标视频帧；将所述目标视频帧作为所述目标图像。

18.根据权利要求17所述的装置，其特征在于，音频数据接收模块还用于当所述配音文本内容与所述待配音文本内容不匹配时，将所述配音文本内容输入至已训练好的神经网络模型中，通过所述神经网络模型计算得到与所述配音文本内容对应的图像；将所述神经网络模型输出的图像作为所述目标图像。

19.根据权利要求13所述的装置，其特征在于，配音视频数据生成模块，包括：

配音视频数据生成单元用于根据所述目标图像和所述配音音频数据形成所述配音数据；

时间记录单元用于记录所述配音音频数据的音频起始时间和音频终止时间；

配音视频数据存储单元用于将所述音频起始时间作为所述配音数据的配音起始时间，将所述音频终止时间作为所述配音数据的配音终止时间进行存储。

20.一种视频播放装置，其特征在于，所述装置包括：

视频获取请求获取模块，用于获取视频获取请求，根据所述视频获取请求获取配音数据和当前视频，所述当前视频包括所述配音数据对应的未配音视频数据和原始交互视频数据，所述原始交互视频数据为所述未配音视频数据之外的视频数据，所述配音数据包括至少一个配音子片段，所述配音数据是根据目标图像和配音音频数据生成的，所述配音音频数据对应的配音文本内容与待配音音频对应的待配音文本内容不匹配，所述目标图像是根据配音音频数据对应的配音文本内容确定的，所述待配音音频是所述当前视频中的目标配音角色对应的；

配音片段信息获取模块，用于获取所述配音子片段对应的配音片段信息；

目标子视频确定模块，用于根据所述配音片段信息从所述当前视频中确定匹配的目标子视频，所述目标子视频为所述配音子片段对应的未配音子视频；

目标视频播放模块，用于将所述目标子视频替换为所述配音子片段，与所述原始交互视频数据进行拼接，得到目标视频，播放所述目标视频中的所述原始交互视频数据和所述配音子片段。

21.根据权利要求20所述的装置，其特征在于，视频获取请求获取模块还用于获取视频获取请求，所述视频获取请求包括用户标识；发送所述视频获取请求至服务器，以使所述服务器根据所述视频获取请求获取与所述用户标识对应的配音数据和所述当前视频；接收所述服务器返回的所述配音数据和所述当前视频。

22.根据权利要求20所述的装置，其特征在于，当所述配音片段信息为时间戳信息，目标子视频确定模块还用于获取所述配音子片段对应的配音起始时间和配音终止时间；从所述当前视频中获取与所述配音起始时间和所述配音终止时间相同的子视频，将所述子视频作为所述目标子视频。

23.根据权利要求20所述的装置，其特征在于，目标子视频确定模块还用于获取所述配音子片段对应的帧序号；从所述当前视频中获取与所述帧序号相同的子视频，将所述子视频作为所述目标子视频。

24.根据权利要求20所述的装置，其特征在于，所述装置还用于获取当前配音子片段，所述当前配音子片段包括当前配音音频和当前配音音调；根据所述当前配音音频和当前配音音调计算得到所述当前配音子片段对应的当前配音分数；在播放所述当前配音子片段的播放界面显示所述当前配音分数，获取下一个配音子片段，将所述下一个配音子片段作为所述当前配音子片段，返回根据所述当前配音音频和当前配音音调计算得到所述当前配音子片段对应的当前配音分数的步骤，直至得到所述至少一个配音子片段对应的配音分数；根据所述至少一个配音子片段对应的配音分数计算得到配音总分数，在播放所述目标视频的播放界面显示配音总分数。

25.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

26.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。