CN116708899B

CN116708899B - 应用于合成虚拟形象的视频处理方法、装置及存储介质

Info

Publication number: CN116708899B
Application number: CN202210764185.8A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Shengshu Technology Co ltd
Current assignee: Beijing Shengshu Technology Co ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2024-01-23
Anticipated expiration: 2042-06-30
Also published as: CN116708899A

Abstract

本申请实施例涉及人工智能技术领域，并提供一种应用于合成虚拟形象的视频处理方法、装置及存储介质，该方法包括：获取针对目标对象在第一场景下录制的基础根视频；获取目标对象在第一场景下的第一动作视频，获取驱动生成虚拟形象的音频文件所对应的文本内容，从文本内容中确定目标词；根据文本内容中出现目标词对应的位置确定指定时间节点，根据确定的指定时间节点，将该第一动作视频插入该基础根视频中的指定位置，并合成得到合成根视频；采用驱动生成虚拟形象的音频文件驱动合成根视频，得到目标对象的虚拟形象。本方案能够将需要的人物动作有机的融入整体视频中，从而得到自然变化的高质量虚拟形象。

Description

应用于合成虚拟形象的视频处理方法、装置及存储介质

技术领域

本申请涉及人工智能技术领域，进一步涉及计算机视觉技术领域，尤其涉及一种应用于合成虚拟形象的视频处理方法、装置及存储介质。

背景技术

目前，虚拟形象合成可以应用在不同的场合，例如：在线教育过程中，由虚拟老师提供教学服务，不仅可以大大减轻老师的负担，还可以降低教学成本，比单纯的录播课等有更好的教学体验。除此之外，虚拟形象还可以应用在更广泛的场合中，例如：人工智能(Artificial Intelligence,AI)新闻主播、游戏、动画和应用程序等实际的商业场景中具有极大的商业价值。现有技术中对虚拟形象的合成，可以基于输入的声音数据，生成对应的嘴唇变化图像，以模拟说话时的嘴部动作，但现有合成的虚拟形象不够真实，降低了互动体验，用户在使用虚拟形象时，显得比较单调。尽管加入动作能够提高互动性，但由于动作的高频重复，显得整体效果很不自然，容易审美疲劳。

发明内容

本申请实施例提供了一种应用于合成虚拟形象的视频处理方法、装置及存储介质，能够将需要的人物动作有机的融入整体视频中，从而得到自然变化的高质量虚拟形象。

第一方面中，本申请实施例提供一种应用于合成虚拟形象的视频处理方法，该方法包括：

获取针对目标对象在第一场景下录制的基础根视频，该基础根视频的录制时长包括第一时长，其中，该基础根视频中该目标对象的形象姿态保持不变；

获取该目标对象在该第一场景下的第一动作视频，该第一动作视频的录制时长包括第二时长；

其中，该第一时长大于该第二时长，该第一动作视频的起始帧和结束帧均与该基础根视频中的该目标对象的形象姿态保持一致；

获取驱动生成虚拟形象的音频文件所对应的文本内容，从该文本内容中确定目标词，该目标词为频次大于第一预设阈值的词；

根据该文本内容中出现该目标词对应的位置确定指定时间节点，其中该指定时间节点用于指示将该第一动作视频插入该基础根视频中的指定位置；

根据确定的该指定时间节点，将该第一动作视频插入该基础根视频中的指定位置，并合成得到合成根视频；

采用该驱动生成虚拟形象的音频文件驱动该合成根视频，得到该目标对象的虚拟形象。

一些实施方式中，目标对象的形象姿态保持不变包括：嘴唇保持闭合状态且人脸的俯仰角和偏航角均不超过20度。

一些实施方式中，该第一动作视频包括手势动作，该手势动作包括动作起始位置和动作结束位置，该基础根视频包含与该动作起始位置和该动作结束位置保持一致的静默位置。

一些实施方式中，该第一动作视频源于该基础根视频，或者该第一动作视频为针对该目标对象在该第一场景下新录制的动作视频。

第二方面，本申请实施例提供了一种视频处理装置，应用于合成虚拟形象，该视频处理装置具有实现对应于上述第一方面提供的视频处理方法的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，模块可以是软件和/或硬件。

一些实施方式中，该视频处理装置包括：

获取模块，用于获取针对目标对象在第一场景下录制的基础根视频，以及获取该目标对象在该第一场景下的第一动作视频；其中，该基础根视频中该目标对象的形象姿态保持不变，该基础根视频的录制时长包括第一时长，该第一动作视频的录制时长包括第二时长；

处理模块，用于获取驱动生成虚拟形象的音频文件所对应的文本内容，从该文本内容中确定目标词，根据该文本内容中出现该目标词对应的位置确定指定时间节点，以及根据确定的该指定时间节点，将该第一动作视频插入该基础根视频中的指定位置，并合成得到合成根视频；

其中，该目标词为频次大于第一预设阈值的词，该指定时间节点用于指示将该第一动作视频插入该基础根视频中的指定位置；

该处理模块还用于采用该驱动生成虚拟形象的音频文件驱动该合成根视频，得到该目标对象的虚拟形象。

一些实施方式中，上述处理模块还用于：

根据该音频文件所对应的文本内容包含的时长，确定预设时间间隔；

将该第一动作视频按照该预设时间间隔均匀插入该基础根视频。

一些实施方式中，上述处理模块还用于：

当相邻的该第一动作视频之间的时间间隔小于该预设时间间隔，将相邻的该第一动作视频中的目标第一动作视频删除，其中该目标第一动作视频为按照该预设时间间隔均匀插入的第一动作视频。

一些实施方式中，上述处理模块具体用于：

根据该指定时间节点，确定该基础根视频中与该指定位置对应的第一待拼接帧和第二待拼接帧；

根据该第一动作视频的起始帧确定第一拼接点，根据该第一待拼接帧确定与该第一拼接点对应的第二拼接点；

根据该第一动作视频的结束帧确定第三拼接点，根据该第二待拼接帧确定与该第三拼接点对应的第四拼接点；

根据该第一拼接点和该第二拼接点将该第一动作视频的起始帧与该第一待拼接帧拼接；

根据该第三拼接点和该第四拼接点将该第一动作视频的结束帧与该第二待拼接帧拼接；

将拼接后的视频进行合成处理得到合成根视频。

一些实施方式中，上述处理模块具体用于：

根据该第一拼接点和该第二拼接点的间距对拼接后的该第一动作视频的起始帧与该第一待拼接帧进行运动轨迹的模拟平滑处理，以及根据该第三拼接点和该第四拼接点的间距对拼接后的该第一动作视频的结束帧与该第二待拼接帧进行运动轨迹的模拟平滑处理，得到该合成根视频。

一些实施方式中，上述处理模块还用于：

确定该目标词的属性，根据该目标词的属性从该第一动作视频中确定对应的待插入该基础根视频中的动作。

一些实施方式中，该目标词包括具有不同权重值的多个目标词，上述处理模块还用于：

从该多个目标词中确定有效目标词，其中该有效目标词为该权重值大于第二预设阈值的目标词；

该根据该文本内容中出现该目标词对应的位置确定指定时间节点包括：

根据该文本内容中出现该有效目标词对应的位置确定该指定时间节点。

第三方面中，本申请实施例提供一种电子设备，该电子设备包括：至少一个处理器和存储器；其中，该存储器用于存储计算机程序，该处理器用于调用该存储器中存储的计算机程序来执行上述第一方面或者第一方面的任一种实施方式提供的任一种视频处理方法中的步骤。

第四方面中，本申请实施例提供一种计算机可读存储介质，具有实现对应于上述第一方面提供的视频处理方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，该模块可以是软件和/或硬件。具体的，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请实施例中第一方面或者第一方面的任一种实施方式提供的任一种视频处理方法中的步骤。

相较于现有技术，本申请实施例提供的方案中，由于基础根视频的第一时长大于第一动作视频的第二时长，在实际应用中，两者时长存在较大差距，甚至五至十倍以上的差距，获取驱动生成虚拟形象的音频文件所对应的文本内容，从文本内容中确定目标词；根据文本内容中出现目标词对应的位置确定指定时间节点，根据确定的指定时间节点，将该第一动作视频按照该指定时间节点有机的融入到基础根视频中，为后续的音频文件驱动合成虚拟形象提供动作丰富且整体人物表现自然的视频素材，在保证音频文件驱动根视频后人物唇形与文本保持一致的情况下，能够将需要的人物动作有机的融入整体视频中，从而得到人物自然变化的高质量虚拟形象。

附图说明

图1为本申请实施例提供的一种服务器示意图；

图2为本申请实施例中视频处理方法的一种流程示意图；

图3为本申请实施例中语音驱动视频处理视频的过程示意图；

图4是本申请实施例中视频处理装置的一种结构示意图；

图5是本申请实施例中实施视频处理方法的电子设备的一种结构示意图；

图6是本申请实施例中实施视频处理方法的手机的一种结构示意图；

图7是本申请实施例中实施视频处理方法的服务器的一种结构示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如本申请实施例中的第一区域、第二区域分别表示初始人脸图像中不同的区域)，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例提供的方案涉及人工智能(Artificial Intelligence，AI)、自然语言处理(Nature Language processing，NLP)、机器学习(Machine Learning，ML)等技术，具体通过如下实施例进行说明:

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

数字人技术需要使用不同的嘴形去同步不同的音频信息，以便生成逼真的数字人视频。具体地，需要将音频信号和数字人的口型之间建立起联系。例如，可以将音频特征(如音素、能量等)映射到视频特征(如嘴形特征)。人工智能(Artificial Intelligence，简称AI)可以自动学习音频特征和视频型特征之间的映射关系。例如，可以基于机器学习技术来构建音频特征和视频特征之间的映射关系。

为了提升数字人视频中的目标人的真实度，如提升授课老师的面容的真实还原度，可以采用包括目标人的背景视频生成数字人视频。数字人视频中音频的长度可以是由录制时长决定的，也可以是由特定文本的文本长度来决定的。音频的长度可以比较长，如40分钟、1小时或者更长等。为了保证背景视频的长度不短于音频的长度，以便合成数字人视频，在录制背景视频过程中需要目标人持续保持特定姿势。这种录制背景视频的方式给目标人带来了很大的身体和精神负担。此外，背景视频拍摄时对拍摄环境要求也较高，如尽量避免视频背景改变，需要租用的拍摄场地等的成本较高。

为了降低背景视频的拍摄难度和拍摄成本，可以拍摄长度较短的视频片段，如播放时长10秒、30秒、1分钟、3分钟或者10分钟等，然后通过视频片段拼接的方式生成所需背景视频。然而，不同的视频分片中人物的姿态可能不同，尤其是待拼接的当前视频分片的结束时段和下一视频分片的开始时段的拍摄对象的姿态不同，导致不便于进行视频频拼接。此外，背景视频中目标人的姿态不可避免的会发生改变(如轻微的晃动等)，拼接后的视频片段在进行播放时，拼接处的视频展示效果较差，如容易出现图像抖动、图像跳变等。

本申请实施例供了一种应用于合成虚拟形象的视频处理方法、装置及存储介质，可用于服务器或者终端设备。通过获取目标对象的历史虚拟形象驱动文本，从历史虚拟形象驱动文本中提取关键词，根据文本内容中出现关键词对应的位置确定第一指定时间节点，将该第一动作视频按照该第一指定时间节点有机的融入到基础根视频中，为后续的音频文件驱动合成虚拟形象提供动作丰富且整体人物表现自然的视频素材，在保证音频文件驱动根视频后人物唇形与文本保持一致的情况下，能够将需要的人物动作有机的融入整体视频中，从而得到人物自然变化的高质量虚拟形象。

本申请实施例的方案可基于云技术和人工智能技术等来实现，具体来说涉及云技术中的云计算、云存储和数据库等技术领域，下面将分别进行介绍。

图1为本申请实施例提供的一种服务器示意图。需要注意的是，图1所示仅为可以应用本申请实施例的系统架构的示例，以帮助本领域技术人员理解本申请的技术内容，但并不意味着本申请实施例不可以用于其他设备、系统、环境或场景。

参见图1，根据本实施例的系统架构100可以包括多个服务器101、102、103。其中，不同的服务器101、102、103各自可以提供不同种类的服务。例如，服务器101可以提供文字识别服务，服务器102可以提供语音合成服务，服务器103可以提供图像处理服务。

例如，服务器101可以将从图像中识别的文字发送给服务器102，以便合成与文字对应的音频分片。服务器103可以对接收的视频分片进行图像处理。如服务器103可以接收至少两个视频分片，并且根据至少两个视频分片得到目标分片。此外，服务器103还可以生成针对动作视频分片和动作视频分片的补帧视频分片，以降低视频分片拼接处的图像跳变等问题。另外，利用接收的音频分片驱动目标分片，得到经驱动的目标分片等功能。服务器103还可以发送经驱动的目标分片、生成的嘴部图像、经驱动的视频帧等给终端设备，以便在终端设备上展示上述信息。例如，终端设备上可以展示经驱动的视频，实现视频教学等。例如，服务器103可以为后台管理服务器、服务器集群、云服务器等。

其中，需要特别说明的是，本申请实施例涉及的服务器(例如业务服务器、搜索引擎)可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例涉及的图像处理装置可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、个人数字助理等，但并不局限于此。图像处理装置以及服务端可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

云服务器能够实现云计算(cloud computing)，云技术指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

例如，云服务器可以提供人工智能云服务，也被称作是AI即服务(AI as aService，简称AIaaS)。AIaaS平台可以把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

以下结合图2-图7对本申请实施例的技术方案进行示例性说明。

如图2所示，图2为本申请实施例的一种应用于合成虚拟形象的视频处理方法流程示意图，该方法流程包括：

201、获取针对目标对象在第一场景下录制的基础根视频，以及获取该目标对象在该第一场景下的第一动作视频。

本实施例中，上述目标对象可以是不同年龄或性别的人，第一场景可以是在室内或者室外的任何场景，例如，可以是在线授课、在线直播或者在线卖货等场景。场景中的背景或者人物姿态可以切换。基础根视频可以为用户的移动端正在直播的视频，用户想要进行动作视频插帧以提升互动性。

本实施例中，可以由带处理功能的电子设备获取针对目标对象在第一场景下录制的基础根视频，以及获取该目标对象在该第一场景下的第一动作视频。其中，该基础根视频的录制时长包括第一时长，该基础根视频中该目标对象的形象姿态保持不变，该第一动作视频的录制时长包括第二时长，该第一时长大于该第二时长，该第一动作视频的起始帧和结束帧均与该基础根视频中的该目标对象的形象姿态保持一致。

在某些实施例中，该目标对象的形象姿态保持不变包括：嘴唇保持闭合状态且人脸的俯仰角和偏航角均不超过20度。如此，便于后续音频驱动基础根视频合成虚拟形象时，能够给予唇形更大的调整尺度，使得与音频对应的口型更加准确，且不易产生较大的变形。

例如录制时，人脸保持静默自然状态，嘴巴可以是自然闭合的状态，在整个录制的过程中，嘴巴无明显变化，以便提高后续唇形驱动的可视效果。其中，眼神可以向正前方左右偏移范围为20度角的方向扫视，扫视速度缓慢，人物可以不需讲话，也不需走动，脸部表情可以是正常状态，即不带情绪的自然状态。录制过程中，可以轻微点头或者摇头，但尽量保持偏移不超过20度。

在某些实施例中，该第一动作视频包括手势动作，该手势动作包括动作起始位置和动作结束位置，该基础根视频包含与该动作起始位置和该动作结束位置保持一致的静默位置。

上述手势动作可以是抬手动作、招手动作、摊手动作、比心动作、抱拳动作或者甩手动作等等，此处不做限制。其中，动作视频中动作的开始和结束尽量保持在同一个位置点，同时与基础根视频中待插帧的插入点位置对应的动作保持同样的位置点，便于动作视频与基础根视频的拼接，实现在指定的时间节点插入相应的动作视频，使得动作视频与基础根视频的衔接更加自然。

在某些实施例中，该第一动作视频源于该基础根视频，或者该第一动作视频为针对该目标对象在该第一场景下新录制的动作视频。一种情况，基础根视频中包括静默状态根视频和动作根视频，该第一动作视频可以是从动作根视频中提取的。另一种情况，第一动作视频可以是与基本根视频保持相同场景重新录制的一段新视频，该新视频与基础根视频是独立的两个视频，两者不具有时间上的连续性。

本实施例中，动作视频(例如第一动作视频)可以是一个连续动作，或者是多个动作的组合。动作可以是抬手动作、招手动作、摊手动作、比心动作、抱拳动作或者甩手动作等等。基础根视频的视频时长可以是动作视频的4～5倍，以保证后续动作视频的插帧时隙。其中，动作视频中动作的开始和结束尽量保持在同一个位置点，同时与基础根视频中待插帧的插入点位置对应的动作保持同样的位置点，便于动作视频与基础根视频的拼接，实现在指定的时间节点插入相应的动作视频，使得动作视频与基础根视频的衔接更加自然。

202、获取驱动生成虚拟形象的音频文件所对应的文本内容，从该文本内容中确定目标词。

本实施例中，可以由带处理功能的电子设备获取驱动生成虚拟形象的音频文件所对应的文本内容，从该文本内容中确定目标词。其中，该目标词为频次大于第一预设阈值的词，该目标词可以是高频词，在实际应用中，把出现次数多、使用较频繁的词，称高频。高频词是指文本中出现频率较高且非无用的词语(标点符号以及停用词)，在一定程度上代表了所关注的焦点。可以是该文本内容中较为频繁出现的词语；例如“看黑板”这一目标字的频次最高，且映射有指向黑板的抬手动作，又例如“请注意”这一目标字频次仅次于最高，且映射有指向前方的划手动作。该目标词可以是与在线卖货相关的词，例如“Oh my god”、“优惠”、“降价”、“物美价廉”等语义相近的词，也可以是与在线教育相关的词，例如“同学们”、“注意”、“很棒”等语义相近的词。可以统计该文本内容中各词组出现的频次并进行归类，通过建立列表进行排序，将出现频次高的、排位靠前的一个或者多个词组作为本实施例所说的目标词。

该驱动生成虚拟形象的音频文件用于后续虚拟形象的生成，因此，该音频文件所对应的文本内容会与驱动的基础根视频进行匹配，在时间上，文本内容中目标词对应的位置也是时间位置，该时间位置与基础根视频中对应的时间位置是匹配的。该驱动生成虚拟形象的音频文件所对应的文本内容，可以是针对该目标对象的用于驱动生成虚拟形象的文本。例如，该目标对象是老师，驱动生成虚拟形象的音频文件所对应的文本内容可以是这位老师在线上授课的虚拟形象的驱动文本，该目标对象也可以是平台上做直播卖货、提供技能展现、或表演的人，驱动生成虚拟形象的音频文件所对应的文本内容可以是这类人对应的虚拟形象的驱动文本。该驱动文本与音频中的文字对应，可以从中确定与动作存在映射的目标词。

203、根据该文本内容中出现该目标词对应的位置确定指定时间节点。

本实施例中，可以由带处理功能的电子设备根据该文本内容中出现该目标词对应的位置确定指定时间节点。其中，该指定时间节点用于指示将该第一动作视频插入该基础根视频中的指定位置。通过指定时间节点中携带的时间位置信息进行基础根视频中动作的拼接插入，可以按照指定时间节点中携带的时间位置信息进行动作视频的插入，从而达到通过人为控制即可添加动作的效果。

204、根据确定的该指定时间节点，将该第一动作视频插入该基础根视频中的指定位置，并合成得到合成根视频。

本实施例中，可以由带处理功能的电子设备根据确定的该指定时间节点，将该第一动作视频插入该基础根视频中的指定位置，并合成得到合成根视频。由于指定时间节点携带对应的时间位置信息，插帧后经过解码时间位置信息，可将第一动作视频插入到基础根视频中与该指定时间节点对应的指定位置。

205、采用该驱动生成虚拟形象的音频文件驱动该合成根视频，得到该目标对象的虚拟形象。

参见图3，可以由多个目标分片，如根视频(root_video)，生成目标分片。用于驱动目标分片的音频分片，可以为驱动生成虚拟形象的音频文件(driving_audio)，音频分片可以包括多个音频帧。

为了便于理解本申请的技术方案，如音频帧和视频帧之间的对应关系，在此对音频帧的长度等进行示例性说明。

例如，一帧音频帧的播放时间长度为图像的帧率的倒数。如果图像的帧率为50fps，则表示一秒传输50帧画面，每帧视频帧需要20ms的播放时长，因此一个20ms的音频可以对应一帧视频帧。据此，将预设时间长度设置为帧率的倒数，可使分片段输出的音频与画面对应，即实现二者在时间上的对齐。

但是，在一些场景中，音频分片中音频帧的帧率和视频分片中视频帧的帧率不同。

例如，正常人听觉的频率范围大约在20Hz～20kHz之间。采样频率(samplerate)是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。例如，为了降低声音的失真率，采样频率可以大于16kHz。常用的音频采样频率有8kHz、11.025kHz、16kHz、22.05kHz、37.8kHz、44.1kHz、48kHz等。例如，可以按200个采样点形成一帧音频帧。

采样率为16KHz，表示每秒16000个采样点，音频帧的播放时长＝一个高级音频编码(Advanced Audio Coding，简称ACC)帧对应的采样点个数/采样频率，则对于80fps的音频帧的帧率而言，当前一帧音频帧的播放时长＝200*1000/16000＝12.5毫秒(ms)。视频帧的帧率可以为25fps左右即可满足视频播放效果，一秒传输25帧画面，那么每帧画面需要1000÷25＝40ms的时长。可以看出，两者之间的播放时长不同。

为了便于生成包括等播放时长音频和视频的数字人信息，可以按照如下方式确定视频帧和音频帧之间的对应关系。

在某些实施例中，至少两个视频分片中的各视频分片的帧率为第一帧率f1，音频分片的帧率为第二帧率f2，第二帧率f2大于第一帧率f1。

相应地，视频分片的一帧对应音频分片的N帧，其中，为上取整，或者，/>为下取整。

如果第一帧率f1和第二帧率f2之间是整数倍关系，则按照整数倍关系确定音频帧和视频帧之间的关系即可。如果第一帧率f1和第二帧率f2之间不是整数倍关系，则可以通过取整的方式来确定音频帧和视频帧之间的对应关系。

在某些实施例中，在利用音频分片驱动目标分片之前，上述方法还可以包括：如果f2/f1是大于1的小数，并且则确定第一播放时段的结束播放时刻的音频帧与第二播放时段的起始播放时刻的音频帧之间存在重叠。

相应地，利用音频分片驱动目标分片可以包括如下操作。

首先，确定第一对应关系，第一对应关系包括：音频分片的第i×N个音频帧至第(N×(i+1)-1)个音频帧对应目标分片的第i个视频帧，其中，第(N×(i+1)-1)个音频帧的重叠部分还对应目标分片的第(i+1)个视频帧。

然后，基于第一对应关系利用音频帧驱动与音频帧对应的视频帧，得到经驱动的目标视频帧，即目标对象的虚拟形象。

本申请实施例中，由于基础根视频的第一时长大于第一动作视频的第二时长，在实际应用中，两者时长存在较大差距，甚至五至十倍以上的差距，获取驱动生成虚拟形象的音频文件所对应的文本内容，从文本内容中确定目标词；根据文本内容中出现目标词对应的位置确定指定时间节点，根据确定的指定时间节点，将该第一动作视频按照该指定时间节点有机的融入到基础根视频中，为后续的音频文件驱动合成虚拟形象提供动作丰富且整体人物表现自然的视频素材，在保证音频文件驱动根视频后人物唇形与文本保持一致的情况下，能够将需要的人物动作有机的融入整体视频中，从而得到人物自然变化的高质量虚拟形象。

在某些实施例中，上述基于目标词的插帧的方式还可以与自动均匀插帧的方式结合。即可以根据上述驱动生成虚拟形象的音频文件所对应的文本内容包含的时长，确定预设时间间隔；然后将该第一动作视频按照该预设时间间隔均匀插入基础根视频中。例如文本内容的时长可以是1分钟，预设时间间隔是6秒，在1分钟的基础根视频中，每隔6秒插入一段第一动作视频。

在某些实施例中，为了使均匀插帧和基于关键词插帧的配合更加合理，可以采用下面的策略进行调整。具体的，当相邻的该第一动作视频之间的时间间隔小于该预设时间间隔，将相邻的该第一动作视频中的目标第一动作视频删除，其中该目标第一动作视频为按照该预设时间间隔均匀插入的第一动作视频。即首先将多个动作视频在整个基础根视频中进行自然匹配的方式进行间隔插入，例如间隔保持6秒左右。然后识别根据目标词插入的动作视频，如果插入的动作视频与每隔6秒均匀插入的动作视频之间的时间间隔小于预设值(例如小于6秒)，此时，会消除掉与按目标词插入的动作视频邻近的那个按预设时间间隔插入的动作视频，从而使整体动作出现的频率不会出现很频繁的效果。通过基于目标词插帧的方式与自动均匀插帧方式相结合，使动作的插入让后期的虚拟视频能达到与语义匹配的效果，从而输出动作内容自然匹配的视频效果。

在某些实施例中，合成根视频可以采用视频拼接技术，视频拼接需要找到准确的、合适的用于拼接的帧，为了使拼接后的视频更自然，可采用如下的拼接方式。具体的，根据确定的该指定时间节点，将该第一动作视频插入该基础根视频中的第一指定位置，并合成得到合成根视频，包括：

将拼接后的视频进行合成处理得到合成根视频。

在某些实施例中，视频拼接后容易出现跳帧现象，因此有必要进行补帧，以达到平滑过渡的效果。进一步的，该将拼接后的视频进行合成处理得到合成根视频包括：

本实施例中，可以基于第一动作视频的起始帧与第一待拼接帧的图像深层特征，计算两者之间的运动差异深层特征。其中，运动差异深层特征可以用于表征第一动作视频的起始帧与第一待拼接帧之间的运动差异。通常，图像中既存在静止物体又存在运动物体。可以通过传统图像处理方法或深度学习方法计算第一动作视频的起始帧与第一待拼接帧之间的运动差异深层特征，计算插帧数。其中，插帧数可以是根据运动差异深层特征进行自适应调整。通常，插帧数与运动差异深层特征表征的运动差异正相关。具体地，若运动差异深层特征表征的运动差异较大，第一动作视频的起始帧与第一待拼接帧之间需要插入数据较多的插帧进行补帧，才能保证流畅、平滑、自然的视觉效果；若运动差异深层特征表征的运动差异较小，第一动作视频的起始帧与第一待拼接帧之间需要插入数目较少的插帧或者不需要补帧，从而节省计算资源，防止设备过热。通常，补帧均匀的插入第一动作视频的起始帧与第一待拼接帧之间，使得第一动作视频的起始帧平滑地过渡到第一待拼接帧，使视频观看起来更加顺畅，从而减少跳跃、抖动等现象发生，极大地提升了用户体验。例如第一动作视频的起始帧在胸前的位置，跟第一待拼接帧拼接，针对人体自然幅动的偏差，手动/自动补齐(即补帧)，达到平滑效果，用户可在指定时间节点加入动作视频，解决动作频繁重复循环导致的审美疲劳问题。

目标词可以是多种类型的，在实际应用中，可以根据目标词的属性定制化进行动作的映射，在动作的选择上可以更加多样化，个性化。进一步的，还可以确定该目标词的属性，根据该目标词的属性从该第一动作视频中确定对应的待插入该基础根视频中的动作。高频词比较多的情况下，可以生成一个排序列表，不同的目标词映射不同的动作，例如“看黑板”这一目标字映射有指向黑板的抬手动作，又例如“请注意”这一目标字映射有指向前方的划手动作。

目标词中可能出现一些无意义的词，因此可以通过设置不同的权重值进行一定的过滤，使得插入的动作与文字的结合更加贴合人物形象，动作自然不会看起来死板。进一步的，该目标词包括具有不同权重值的多个目标词，该方法还包括：

从该多个目标词中确定有效目标词；

本实施例中，该有效目标词为该权重值大于第二预设阈值的目标词；其中目标词可能出现一些无意义的词，无意义的词也叫停用词，停用词是在语言表达中没有实际意义的词语，在处理文本数据之前会过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。对于NLP的应用，我们通常先把停用词、出现频次很低的词汇过滤掉，类似于特征筛选的过程。在英文里，比如the、an、their这些都可以作为停用词处理。但是，也需要考虑自己的应用场景。比如情感分析的任务，“好“、”很好“这些词语就不应该加入到停用词表中，例如“的”、“啊”、“哦”应该加入到停用词表中。出现频次特别低的词作用业不大，所以一般也会去掉。把停用词、出现频次低的词过滤之后，即可以得到一个有效目标词。可以为这些无意义的、出现频次低的词设置一个较低的权重，如此，在动作插帧的选择上，可以忽略这些无意义的高频词或者低频词，对真正需要插入动作的有效目标词执行动作视频的插入，例如有效目标词可以是“看黑板”或“请注意”等。

以上对本申请实施例中一种应用于合成虚拟形象的视频处理方法进行说明，以下对执行上述视频处理方法的视频处理装置、电子设备分别进行介绍。

参阅图4，如图4所示的一种视频处理装置40的结构示意图，本申请实施例中的视频处理装置40能够实现对应于上述图2所对应的实施例中由视频处理装置40所执行的视频处理方法中的步骤。视频处理装置40实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，该模块可以是软件和/或硬件。该视频处理装置40包括：

获取模块401，用于获取针对目标对象在第一场景下录制的基础根视频，以及获取该目标对象在该第一场景下的第一动作视频；其中，该基础根视频中该目标对象的形象姿态保持不变，该基础根视频的录制时长包括第一时长，该第一动作视频的录制时长包括第二时长；

处理模块402，用于获取驱动生成虚拟形象的音频文件所对应的文本内容，从该文本内容中确定目标词，根据该文本内容中出现该目标词对应的位置确定指定时间节点，以及根据确定的该指定时间节点，将该第一动作视频插入该基础根视频中的指定位置，并合成得到合成根视频；其中，该目标词为频次大于第一预设阈值的词，该指定时间节点用于指示将该第一动作视频插入该基础根视频中的指定位置；

该处理模块402还用于采用该驱动生成虚拟形象的音频文件驱动该合成根视频，得到该目标对象的虚拟形象。

一些实施方式中，上述处理模块402还用于：

一些实施方式中，上述处理模块402具体用于：

将拼接后的视频进行合成处理得到合成根视频。

一些实施方式中，上述处理模块402具体用于：

一些实施方式中，上述处理模块402还用于：

一些实施方式中，该目标词包括具有不同权重值的多个目标词，上述处理模块402还用于：

本申请实施例提供的方案中，由于基础根视频的第一时长大于第一动作视频的第二时长，在实际应用中，两者时长存在较大差距，甚至五至十倍以上的差距，获取驱动生成虚拟形象的音频文件所对应的文本内容，从文本内容中确定目标词；根据文本内容中出现目标词对应的位置确定指定时间节点，根据确定的指定时间节点，将该第一动作视频按照该指定时间节点有机的融入到基础根视频中，为后续的音频文件驱动合成虚拟形象提供动作丰富且整体人物表现自然的视频素材，在保证音频文件驱动根视频后人物唇形与文本保持一致的情况下，能够将需要的人物动作有机的融入整体视频中，从而得到人物自然变化的高质量虚拟形象。

上面从模块化功能实体的角度对本申请实施例中的执行视频处理方法的视频处理装置40进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行视频处理方法的视频处理装置40进行描述。需要说明的是，在本申请实施例图4所示的实施例中的获取模块401对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输出接口等，处理模块402对应的实体设备可以为处理器。图4所示的视频处理装置40可以具有如图5所示的电子设备结构，当图4所示的视频处理装置40具有如图5所示的结构时，图5中的处理器和输入/输出单元能够实现前述对应该视频处理装置40的装置实施例提供的处理模块402相同或相似的功能，图5中的存储器存储处理器执行上述视频处理方法时需要调用的计算机程序。

本申请实施例还提供了另一种视频处理装置，如图6所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该视频处理装置可以为包括手机、平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文简称：PDA)、销售图像处理装置(英文全称：Point of Sales，英文简称：POS)、车载电脑等任意图像处理装置，以图像处理装置为手机为例：

图6示出的是与本申请实施例提供的视频处理装置相关的手机的部分结构的框图。参考图6，手机包括：射频(英文全称：Radio Frequency，英文简称：RF)电路610、存储器620、输入单元630、显示单元640、传感器680、音频电路660、无线保真(英文全称：wireless-fidelity，英文简称：Wi-Fi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文简称：LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文简称：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，英文简称：GPRS)、码分多址(英文全称：Code Division Multiple Access，英文简称：CDMA)、宽带码分多址(英文全称：Wideband Code Division Multiple Access,英文简称：WCDMA)、长期演进(英文全称：LongTerm Evolution，英文简称：LTE)、电子邮件、短消息服务(英文全称：Short MessagingService，英文简称：SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(英文全称：LiquidCrystal Display，英文简称：LCD)、有机发光二极管(英文全称：Organic Light-EmittingDiode,英文简称：OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器680，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了Wi-Fi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；优选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690(比如电池)，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器680还具有控制执行以上由图6所示的图像处理装置40执行的方法流程。上述实施例中由图像处理装置所执行的步骤可以基于该图6所示的手机结构。例如，该处理器680通过调用存储器632中的指令，执行以下操作：

通过输入单元630获取针对目标对象在第一场景下录制的基础根视频，以及获取该目标对象在该第一场景下的第一动作视频；其中，该基础根视频中该目标对象的形象姿态保持不变，该基础根视频的录制时长包括第一时长，该第一动作视频的录制时长包括第二时长；

通过处理器680获取驱动生成虚拟形象的音频文件所对应的文本内容，从该文本内容中确定目标词，根据该文本内容中出现该目标词对应的位置确定指定时间节点，以及根据确定的该指定时间节点，将该第一动作视频插入该基础根视频中的指定位置，并合成得到合成根视频；其中，该目标词为频次大于第一预设阈值的词，该指定时间节点用于指示将该第一动作视频插入该基础根视频中的指定位置；

通过处理器680采用该驱动生成虚拟形象的音频文件驱动该合成根视频，得到该目标对象的虚拟形象。

本申请实施例还提供了另一种实施上述视频处理方法的视频处理装置，如图7所示，图7是本申请实施例提供的一种服务器结构示意图，该服务器1020可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：centralprocessing units，英文简称：CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1020上执行存储介质1030中的一系列指令操作。

服务器1020还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器1020的结构。例如上述实施例中由图7所示的视频处理装置40所执行的步骤可以基于该图7所示的服务器结构。例如，该处理器1022通过调用存储器1032中的指令，执行以下操作：

通过输入输出接口1058获取针对目标对象在第一场景下录制的基础根视频，以及获取该目标对象在该第一场景下的第一动作视频；其中，该基础根视频中该目标对象的形象姿态保持不变，该基础根视频的录制时长包括第一时长，该第一动作视频的录制时长包括第二时长；

通过该处理器1022获取驱动生成虚拟形象的音频文件所对应的文本内容，从该文本内容中确定目标词，根据该文本内容中出现该目标词对应的位置确定指定时间节点，以及根据确定的该指定时间节点，将该第一动作视频插入该基础根视频中的指定位置，并合成得到合成根视频；其中，该目标词为频次大于第一预设阈值的词，该指定时间节点用于指示将该第一动作视频插入该基础根视频中的指定位置；

该处理器1022采用该驱动生成虚拟形象的音频文件驱动该合成根视频，得到该目标对象的虚拟形象。

本申请实施例还提供了一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行上述各个实施例的视频处理方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种应用于合成虚拟形象的视频处理方法，其特征在于，包括：

获取针对目标对象在第一场景下录制的基础根视频，所述基础根视频的录制时长包括第一时长，其中，所述基础根视频中所述目标对象的形象姿态保持不变；

获取所述目标对象在所述第一场景下的第一动作视频，所述第一动作视频的录制时长包括第二时长；

其中，所述第一时长大于所述第二时长，所述第一动作视频的起始帧和结束帧均与所述基础根视频中的所述目标对象的形象姿态保持一致；

获取驱动生成虚拟形象的音频文件所对应的文本内容，从所述文本内容中确定目标词，所述目标词为频次大于第一预设阈值的词；统计所述文本内容中各词组的出现频次并进行归类，将出现频次大于第一预设阈值的词确定为所述目标词；

根据所述文本内容中出现所述目标词对应的位置确定指定时间节点，其中所述指定时间节点用于指示将所述第一动作视频插入所述基础根视频中的指定位置；

根据确定的所述指定时间节点，将所述第一动作视频插入所述基础根视频中的指定位置，并合成得到合成根视频；

采用所述驱动生成虚拟形象的音频文件驱动所述合成根视频，得到所述目标对象的虚拟形象。

2.根据权利要求1所述的视频处理方法，其特征在于，所述合成得到合成根视频之前，所述方法还包括：

根据所述音频文件所对应的文本内容包含的时长，确定预设时间间隔；

将所述第一动作视频按照所述预设时间间隔均匀插入所述基础根视频。

3.根据权利要求2所述的视频处理方法，其特征在于，所述合成得到合成根视频之前，所述方法还包括：

当相邻的所述第一动作视频之间的时间间隔小于所述预设时间间隔，将相邻的所述第一动作视频中的目标第一动作视频删除，其中所述目标第一动作视频为按照所述预设时间间隔均匀插入的第一动作视频。

4.根据权利要求1至3中任一项所述的视频处理方法，其特征在于，所述根据确定的所述指定时间节点，将所述第一动作视频插入所述基础根视频中的指定位置，并合成得到合成根视频，包括：

根据所述指定时间节点，确定所述基础根视频中与所述指定位置对应的第一待拼接帧和第二待拼接帧；

根据所述第一动作视频的起始帧确定第一拼接点，根据所述第一待拼接帧确定与所述第一拼接点对应的第二拼接点；

根据所述第一动作视频的结束帧确定第三拼接点，根据所述第二待拼接帧确定与所述第三拼接点对应的第四拼接点；

根据所述第一拼接点和所述第二拼接点将所述第一动作视频的起始帧与所述第一待拼接帧拼接；

根据所述第三拼接点和所述第四拼接点将所述第一动作视频的结束帧与所述第二待拼接帧拼接；

将拼接后的视频进行合成处理得到合成根视频。

5.根据权利要求4所述的视频处理方法，其特征在于，所述将拼接后的视频进行合成处理得到合成根视频包括：

根据所述第一拼接点和所述第二拼接点的间距对拼接后的所述第一动作视频的起始帧与所述第一待拼接帧进行运动轨迹的模拟平滑处理，以及根据所述第三拼接点和所述第四拼接点的间距对拼接后的所述第一动作视频的结束帧与所述第二待拼接帧进行运动轨迹的模拟平滑处理，得到所述合成根视频。

6.根据权利要求1至3中任一项所述的视频处理方法，其特征在于，将所述第一动作视频插入所述基础根视频中的指定位置之前，所述方法还包括：

确定所述目标词的属性，根据所述目标词的属性从所述第一动作视频中确定对应的待插入所述基础根视频中的动作。

7.根据权利要求1至3中任一项所述的视频处理方法，其特征在于，所述目标词包括具有不同权重值的多个目标词，所述根据所述文本内容中出现所述目标词对应的位置确定指定时间节点之前，所述方法还包括：

从所述多个目标词中确定有效目标词，其中所述有效目标词为所述权重值大于第二预设阈值的目标词；

所述根据所述文本内容中出现所述目标词对应的位置确定指定时间节点包括：

根据所述文本内容中出现所述有效目标词对应的位置确定所述指定时间节点。

8.一种视频处理装置，应用于合成虚拟形象，其特征在于，包括：

获取模块，用于获取针对目标对象在第一场景下录制的基础根视频，以及

获取所述目标对象在所述第一场景下的第一动作视频；其中，所述基础根视频中所述目标对象的形象姿态保持不变，所述基础根视频的录制时长包括第一时长，所述第一动作视频的录制时长包括第二时长；

处理模块，用于获取驱动生成虚拟形象的音频文件所对应的文本内容，从所述文本内容中确定目标词，根据所述文本内容中出现所述目标词对应的位置确定指定时间节点，以及根据确定的所述指定时间节点，将所述第一动作视频插入所述基础根视频中的指定位置，并合成得到合成根视频；统计所述文本内容中各词组的出现频次并进行归类，将出现频次大于第一预设阈值的词确定为所述目标词；

其中，所述目标词为频次大于第一预设阈值的词，所述指定时间节点用于指示将所述第一动作视频插入所述基础根视频中的指定位置；

所述处理模块还用于采用所述驱动生成虚拟形象的音频文件驱动所述合成根视频，得到所述目标对象的虚拟形象。

9.根据权利要求8所述的视频处理装置，其特征在于，所述处理模块还用于：

10.根据权利要求9所述的视频处理装置，其特征在于，所述处理模块还用于：

11.根据权利要求8至10中任一项所述的视频处理装置，其特征在于，所述处理模块具体用于：

根据所述第一动作视频的起始帧确定第一拼接点，根据所述第一待拼接帧

确定与所述第一拼接点对应的第二拼接点；

根据所述第一动作视频的结束帧确定第三拼接点，根据所述第二待拼接帧

确定与所述第三拼接点对应的第四拼接点；

将拼接后的视频进行合成处理得到合成根视频。

12.根据权利要求11所述的视频处理装置，其特征在于，所述处理模块具体用于：根据所述第一拼接点和所述第二拼接点的间距对拼接后的所述第一动作视频的起始帧与所述第一待拼接帧进行运动轨迹的模拟平滑处理，以及根据所述第三拼接点和所述第四拼接点的间距对拼接后的所述第一动作视频的结束帧与所述第二待拼接帧进行运动轨迹的模拟平滑处理，得到所述合成根视频。

13.根据权利要求8至10中任一项所述的视频处理装置，其特征在于，所述处理模块还用于：

14.根据权利要求8至10中任一项所述的视频处理装置，其特征在于，所述处理模块还用于：所述目标词包括具有不同权重值的多个目标词，所述根据所述文本内容中出现所述目标词对应的位置确定指定时间节点之前；

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的视频处理方法。

16.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的视频处理方法。