CN114998489A

CN114998489A - 虚拟人物视频生成方法、装置、计算机设备及存储介质

Info

Publication number: CN114998489A
Application number: CN202210582573.4A
Authority: CN
Inventors: 邹泽宇
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-02

Abstract

本发明涉及图像识别领域，尤其涉及一种虚拟人物视频生成方法、装置、计算机设备及存储介质。其方法包括：从模板视频分割出模板视频流和模板音频流；通过人脸识别模型对模板视频流进行人脸区域标定，生成目标人脸视频流；在音频数据库中查找与模板音频流匹配的音频类型；根据音频类型对预设的文字文本进行语音合成，生成目标音频流；将音频类型和文字文本生成唇形参数，通过唇形生成模型处理唇形参数和目标人脸视频流，得到目标唇形视频流；将目标唇形视频流和模板视频流进行融合，并添加目标音频流，得到虚拟人物视频。本发明使虚拟人物视频更符合用户的设计需求，提高虚拟人物视频画面的真实感以及流畅度。

Description

虚拟人物视频生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像识别领域，尤其涉及一种虚拟人物视频生成方法、装置、计算机设备及存储介质。

背景技术

近年来，随着视频技术的快速发展，衍生出虚拟人物视频生成技术。

在现有技术中，虚拟人一般基于三维动画生成，而三维动画生成的虚拟人周期较长和成本较高，且不能根据不同用户的形象或需求进行个性化设计，导致虚拟人视频无法大面积推广使用，具有局限性。

发明内容

基于此，有必要针对上述技术问题，提供一种虚拟人物视频生成方法、装置、计算机设备及存储介质，以解决现有技术中，虚拟人不能根据不同用户的形象或需求进行个性化设计，导致虚拟人视频无法大面积推广使用的问题。

一种虚拟人物视频生成方法，包括：

从模板视频分割出模板视频流和模板音频流；

通过人脸识别模型对所述模板视频流进行人脸区域标定，生成目标人脸视频流；在音频数据库中查找与所述模板音频流匹配的音频类型；

根据所述音频类型对预设的文字文本进行语音合成，生成目标音频流；

将所述音频类型和所述文字文本生成唇形参数，通过唇形生成模型处理所述唇形参数和所述目标人脸视频流，得到目标唇形视频流；

将所述目标唇形视频流和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频。

一种虚拟人物视频生成装置，包括：

模板视频分割模块，用于从模板视频分割出模板视频流和模板音频流；

视频和音频处理模块，用于通过人脸识别模型对所述模板视频流进行人脸区域标定，生成目标人脸视频流；在音频数据库中查找与所述模板音频流匹配的音频类型；

语音合成模块，用于根据所述音频类型对预设的文字文本进行语音合成，生成目标音频流；

唇形视频流模块，用于将所述音频类型和所述文字文本生成唇形参数，通过唇形生成模型处理所述唇形参数和所述目标人脸视频流，得到目标唇形视频流；

第一虚拟人物视频模块，用于将所述目标唇形视频流和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述虚拟人物视频生成方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述虚拟人物视频生成方法。

上述虚拟人物视频生成方法、装置、计算机设备及存储介质，通过从模板视频分割出模板视频流和模板音频流；通过人脸识别模型对所述模板视频流进行人脸区域标定，生成目标人脸视频流；在音频数据库中查找与所述模板音频流匹配的音频类型；根据所述音频类型对预设的文字文本进行语音合成，生成目标音频流；将所述音频类型和所述文字文本生成唇形参数，通过唇形生成模型处理所述唇形参数和所述目标人脸视频流，得到目标唇形视频流；将所述目标唇形视频流和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频。本发明通过在音频数据库中查找与模板音频流匹配的音频类型，并根据该音频类型对预设的文字文本进行语音合成，生成目标音频流，使得最终生成的虚拟人物视频的声音更加接近模板视频中的声音，提高用户体验感。进一步的，从模板视频中分离出目标人脸视频流，并根据目标人脸视频流和目标音频流生成目标唇形视频流，使得生成的目标唇形视频流中的唇形状态更加接近目标人物说话时的状态，使得获得的虚拟人物视频更符合用户的设计需求，提高最终生成的虚拟人物视频画面的真实感以及流畅度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中虚拟人物视频生成方法的一应用环境示意图；

图2是本发明一实施例中虚拟人物视频生成方法的一流程示意图；

图3是本发明一实施例中虚拟人物视频生成装置的一结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的虚拟人物视频生成方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种虚拟人物视频生成方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10、从模板视频分割出模板视频流和模板音频流。

可理解的，模板视频中包含目标人物以及该目标人物说话的声音和动作等信息的视频。其中，动作信息包括头部动作、面部动作、唇部动作、眼部动作以及手部动作等信息。一般的，模板视频中目标人物的人脸朝向正前方，且眼睛转动幅度较小，面部神态自然。模板视频流是指包含目标人物以及该目标人物说话的动作信息的视频。模板音频流是指包含目标人物说话的声音信息的音频。通过视频分割技术，从模板视频中分割出模板视频流和模板音频流。

S20、通过人脸识别模型对所述模板视频流进行人脸区域标定，生成目标人脸视频流；在音频数据库中查找与所述模板音频流匹配的音频类型。

可理解的，人脸识别模型用于对模板视频流中的目标人物的人脸进行识别，并将人脸区域进行标定，将人脸区域从模板视频流中分离出来，生成目标人脸视频流。其中，目标人脸视频流是指包含目标人物的人脸的视频流。一般的，目标人物的人脸是指包括耳朵、额头、眼睛、鼻子和嘴巴等在内的人脸区域。对人脸区域进行标定是指将人脸所在的区域进行定位标记。例如，将人脸轮廓的坐标位置进行标定，根据标定的坐标位置，可将人脸区域从模板视频流中分离出来，生成包含人脸区域的目标人脸视频流。音频数据库是指预先存储有不同的待匹配音频类型的音频数据的数据库。对模板音频流中的音频数据进行解析，可得到该模板音频流中音频数据的音频类型，并将该音频类型记录为模板音频类型；通过音频相似模型，计算该模板音频类型与音频数据库中的若干待匹配音频类型之间的相似度，得到若干音频相似度；将与若干音频相似度中的最大相似度对应的待匹配音频类型确定为与模板音频流匹配的音频类型。

S30、根据所述音频类型对预设的文字文本进行语音合成，生成目标音频流。

可理解的，不同的音频类型对应不同的音频数据。音频数据是指包含音色、音量、语调等信息的数据。一般的，不同的人在说话的音色、音量以及语调等上存在区别。根据音色、音量以及语调等信息对音频数据进行分类，可得到的音频类型。预设的文字文本是指预先设定的文字文本，可根据实际情况进行设定。语音合成是指基于与模板音频流匹配的音频类型，通过语音合成技术将预设的文字文本转换为音频数据的过程。目标音频流是指通过语音合成技术得到的音频数据，该音频数据包括时间戳。基于与模板音频流匹配的音频类型生成目标音频流，可使生成的目标音频流的音色信息更加接近目标人物的音色信息，提高用户体验感。

S40、将所述音频类型和所述文字文本生成唇形参数，通过唇形生成模型处理所述唇形参数和所述目标人脸视频流，得到目标唇形视频流。

可理解的，通过唇形生成模型对目标音频流中包含的音频类型信息和文字文本信息进行解析，得到唇形参数。同一音频类型，在目标音频流中，不同的文字对应不同的发音，生成不同的唇形参数。不同音频类型，对应相同的文字，也生成不同的唇形参数。其中，唇形参数是指唇形在不同发音状态下的参数。其中，唇形生成模型可根据唇形参数对目标人脸视频流中的嘴唇的唇形状态进行改变，生成与唇形参数对应的嘴唇动作以及与目标音频流对应的时间戳，进而得到目标唇形视频流。目标唇形视频流是指通过唇形生成模型生成的包含嘴唇动作的视频流。

S50、将所述目标唇形视频流和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频。

可理解的，虚拟人物视频是指根据目标唇形视频流和模板视频流生成的视频。其中，目标唇形视频流中包含基于目标音频流的嘴唇动作，模板视频流中包含目标人物自然状态下说话时的头部动作、眼部动作、手部动作等。将目标唇形视频流和模板视频流进行融合，可得到包含基于目标音频流的嘴唇动作、目标人物自然状态下说话时的头部动作、眼部动作、手部动作等的虚拟人物视频。

在步骤S10-S50中，通过从模板视频分割出模板视频流和模板音频流；通过人脸识别模型对所述模板视频流进行人脸区域标定，生成目标人脸视频流；在音频数据库中查找与所述模板音频流匹配的音频类型；根据所述音频类型对预设的文字文本进行语音合成，生成目标音频流；将所述音频类型和所述文字文本生成唇形参数，通过唇形生成模型处理所述唇形参数和所述目标人脸视频流，得到目标唇形视频流；将所述目标唇形视频流和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频。本发明通过在音频数据库中查找与模板音频流匹配的音频类型，并根据该音频类型对预设的文字文本进行语音合成，生成目标音频流，使得最终生成的虚拟人物视频的声音更加接近模板视频中的声音，提高用户体验感。进一步的，从模板视频中分离出目标人脸视频流，并根据目标人脸视频流和目标音频流生成目标唇形视频流，使得生成的目标唇形视频流中的唇形状态更加接近目标人物说话时的状态，使得获得的虚拟人物视频更符合用户的设计需求，提高最终生成的虚拟人物视频画面的真实感以及流畅度。

可选的，在步骤S10之前，即在所述从模板视频分割出模板视频流和模板音频流之前，包括：

S101、通过人物识别模型从目标视频中获取人物特征信息；

S102、根据所述人物特征信息对所述目标视频进行剪裁，得到所述模板视频。

可理解的，目标视频是指对目标人物进行录制的视频。特别的，该目标视频的时间长度一般不少于一分钟。人物特征信息通过人物识别模型获得，是指目标人物说话时的特征信息，该人物特征信息包括眼部特征、唇部特征、脸部朝向、手部特征等信息。其中，人物识别模型用于对目标视频中目标人物的人物特征进行识别，得到人物特征信息。获得获取人物特征信息之后，对人物特征信息中的眼部特征、唇部特征、脸部朝向、手部特征等信息进行筛选，将不符合预设要求的人物特征信息进行剔除，并将与剔除的人物特征信息对应的视频片段从目标视频中剪除，得到模板视频。其中，预设要求可根据不同的应用场景设定。一般的，可将目标视频中眼睛转动幅度较大，面部神态不自然的视频片段进行删除。

在步骤S101-S102中，通过人物识别模型从目标视频中获取人物特征信息；根据所述人物特征信息对所述目标视频进行剪裁，得到所述模板视频。根据人物特征信息对目标视频进行剪裁，使得获得的模板视频更符合用户的设计需求，使最终得到的虚拟人物视频更加符合用户的需求。

可选的，在步骤S20中，即所述通过人脸识别模型对所述模板视频流进行人脸区域标定，生成目标人脸视频流，包括：

S201、通过人脸识别模型对所述模板视频流中的视频帧进行人脸关键点检测，得到若干所述视频帧中的人脸区域；

S202、将若干所述人脸区域从所述模板视频流中分割出来，生成所述目标人脸视频流。

可理解的，人脸识别模型用于对模板视频流中的目标人物的人脸进行识别，并将人脸区域进行标定，将人脸区域从模板视频流中分离出来，生成目标人脸视频流。模板视频流由若干视频帧组合。通过人脸识别模型对模板视频流中的视频帧进行人脸关键点检测，可得到若干包含人脸的视频帧中的若干人脸区域。其中，人脸关键点检测是指对视频帧进行是否包含人脸关键点的检测。若检测的视频帧中包含人脸关键点，则根据检测到的人脸关键点将该视频帧中的人脸区域进行标定，并将标定的人脸区域从模板视频流中分离出来。通过对若干视频帧进行人脸关键点检测，可得到由若干人脸区域组成的目标人脸视频流。

在步骤S201和S202中，通过人脸识别模型对所述模板视频流中的视频帧进行人脸关键点检测，得到若干所述视频帧中的人脸区域；将若干所述人脸区域从所述模板视频流中分割出来，生成所述目标人脸视频流。将目标人物的人脸区域从模板视频流中分割出来，可使生成的目标人脸视频流仅包含人脸区域，提高最终生成的虚拟人物视频画面的真实感。

可选的，在步骤S20中，即所述在音频数据库中查找与所述模板音频流匹配的音频类型，包括：

S203、对所述模板音频流进行解析，得到所述模板音频流的模板音频类型；

S204、通过音频相似模型，计算所述模板音频类型与音频数据库中的若干待匹配音频类型之间的相似度，得到若干音频相似度；

S205、将与若干所述音频相似度中的最大相似度对应的待匹配音频类型确定为与所述模板音频流匹配的音频类型。

可理解的，模板音频流是指包含目标人物说话的声音信息的音频。对模板音频流进行解析的过程中，可得到该目标人物的说话时的音色、音调、语气等音频信息。进而，根据目标人物的说话时的音色、音调、语气等音频信息对模板音频流中的音频数据进行分类，得到模板音频类型。优选的，音频类型可根据音色信息进行分类，也可根据音调信息进行分类以及根据语气信息进行分类。音频类型的分类方法在此不做限定，可根据实际需求设定。音频相似模型用于从音频数据库中的若干待匹配音频类型中，识别出与模板音频类型最接近的音频类型。具体的，通过音频相似模型可计算出模板音频类型与音频数据库中的各个待匹配音频类型之间的相似度，得到若干音频相似度，并将若干音频相似度中的最大相似度对应的待匹配音频类型作为与模板音频流匹配的音频类型。其中，音频相似度是指模板音频类型与待匹配音频类型之间的相似度值。最大相似度是指若干音频相似度中相似度值最大的音频相似度。

在步骤S203-S205中，对所述模板音频流进行解析，得到所述模板音频流的模板音频类型；通过音频相似模型，计算所述模板音频类型与音频数据库中的若干待匹配音频类型之间的相似度，得到若干音频相似度；将与若干所述音频相似度中的最大相似度对应的待匹配音频类型确定为与所述模板音频流匹配的音频类型。通过对模板音频流进行解析，并将与若干音频相似度中的最大相似度对应的待匹配音频类型确定为与模板音频流匹配的音频类型，可使根据该音频类型生成的目标音频流的音色信息更加接近目标人物的音色信息，提高用户体验感。

可选的，在步骤S50中，即所述将所述目标唇形视频流和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频，包括：

S501、通过视频分割技术对所述模板视频流进行人物分割，得到人物视频流；

S502、通过唇形融合算法将所述人物视频流和所述目标唇形视频流进行融合，得到人物唇形视频流；

S503、在所述人物唇形视频流中添加预设的背景图片和所述目标音频流，得到所述虚拟人物视频。

可理解的，视频分割技术是指按照一定的原则将图像或视频序为若干个特定的、具有独特性质的部分或子集，并提取出感兴趣的目标，便于更高层次的分析和理解的技术。人物分割是指通过视频分割技术将目标人物的形象从模板视频流中分割出来的过程。一般的，目标人物的形象包括目标人物的头发、穿着(衣服、裤子、帽子等装饰品)、手部以及人体其他部位。优选的，目标人物的形象不包括人脸区域。人物视频流是指包括目标人物形象的视频流。唇形融合算法用于将目标唇形视频流和人物视频流进行融合，得到人物唇形视频流。其中，人物唇形视频流包含目标人物的形象和嘴唇动作。该嘴唇动作是通过唇形生成模型基于预设的文字文本生成的。根据目标音频流和目标唇形视频流的时间戳，将目标音频流添加在目标唇形视频流中，使的画面与声音同步，提高用户体验感。预设的背景图片是指预先选定的背景图片，可根据实际需求设定。在实际操作中，可根据用户的需求，在人物唇形视频流中加入与预设的文字文本对应的背景图片，提高虚拟人物视频的画面感，满足用户的设计需求。

可选的，在步骤S503中，即所述在所述人物唇形视频流中添加预设的背景图片和所述目标音频流，得到所述虚拟人物视频，包括：

S5031、通过头部姿态算法对所述目标音频流进行解析，得到第一头部动作；

S5032、根据所述第一头部动作，更新所述人物唇形视频流中的第二头部动作，得到目标人物唇形视频流；

S5033、将所述目标音频流和所述背景图片添加在所述目标人物唇形视频中，得到所述虚拟人物视频。

可理解的，当生成的目标唇形视频流比模板视频流的时间长时，将导致人物唇形视频流中的目标人物的头部动作将重复模板视频流中的头部动作。人在说话时，不同的说话语气、语调等对应有不同的头部动作。比如，表示认可时，头部动可为点头。通过头部姿态算法对目标音频流进行解析，可生成与目标音频流中的说话语气、语调、词语等对应的头部动作，即第一头部动作。第二头部动作是指人物唇形视频流中原有的头部动作。根据第一头部动作，对人物唇形视频流中的第二头部动作进行更新，得到目标人物唇形视频流。其中，目标人物唇形视频流是指包括第一头部动作的人物唇形视频流。

在步骤S5031-S5033中，通过头部姿态算法对目标音频流进行解析，得到第一头部动作，并将第一头部动作更新进人物唇形视频流中，使最终生成的虚拟人物视频中的人物的头部动作与说话内容匹配，提高虚拟人物视频的画面感和用户体验感。

可选的，在步骤S40之后，即在所述通过唇形生成模型处理所述唇形参数和所述目标人脸视频流，得到目标唇形视频流之后，包括：

S401、将所述目标唇形视频流和所述目标人脸视频流进行合并，得到人脸唇形视频流；

S402、将所述人脸唇形视频和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频。

可理解的，通过唇形生成模型处理唇形参数和目标人脸视频流，得到目标唇形视频流的过程中，唇形生成模型侧重点在于人脸区域中的唇形区域，使得人脸区域的其他区域容易存在失真或模糊。通过将目标唇形视频流和目标人脸视频流进行合并，能更好的对人脸区域进行还原，使最终生成的拟人物视频中的人脸更接近与目标人物，画面更加自然，提高用户体验感。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种虚拟人物视频生成装置，该虚拟人物视频生成装置与上述实施例中虚拟人物视频生成方法一一对应。如图3所示，该虚拟人物视频生成装置包括模板视频分割模块10、视频和音频处理模块20、语音合成模块30、唇形视频流模块40和第一虚拟人物视频模块50。各功能模块详细说明如下：

模板视频分割模块10，用于从模板视频分割出模板视频流和模板音频流；

视频和音频处理模块20，用于通过人脸识别模型对所述模板视频流进行人脸区域标定，生成目标人脸视频流；在音频数据库中查找与所述模板音频流匹配的音频类型；

语音合成模块30，用于根据所述音频类型对预设的文字文本进行语音合成，生成目标音频流；

唇形视频流模块40，用于将所述音频类型和所述文字文本生成唇形参数，通过唇形生成模型处理所述唇形参数和所述目标人脸视频流，得到目标唇形视频流；

第一虚拟人物视频模块50，用于将所述目标唇形视频流和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频。

可选的，在模板视频分割模块10之前，包括：

人物特征模块，用于通过人物识别模型从目标视频中获取人物特征信息；

模板视频模块，用于根据所述人物特征信息对所述目标视频进行剪裁，得到所述模板视频。

可选的，视频和音频处理模块20，包括：

人脸区域单元，用于通过人脸识别模型对所述模板视频流中的视频帧进行人脸关键点检测，得到若干所述视频帧中的人脸区域；

目标人脸视频流单元，用于将若干所述人脸区域从所述模板视频流中分割出来，生成所述目标人脸视频流。

可选的，视频和音频处理模块20，还包括：

模板音频类型单元，用于对所述模板音频流进行解析，得到所述模板音频流的模板音频类型；

音频相似度单元，用于通过音频相似模型，计算所述模板音频类型与音频数据库中的若干待匹配音频类型之间的相似度，得到若干音频相似度；

音频类型匹配单元，用于将与若干所述音频相似度中的最大相似度对应的待匹配音频类型确定为与所述模板音频流匹配的音频类型。

可选的，第一虚拟人物视频模块50，包括：

人物视频流单元，用于通过视频分割技术对所述模板视频流进行人物分割，得到人物视频流；

人物唇形视频流单元，用于通过唇形融合算法将所述人物视频流和所述目标唇形视频流进行融合，得到人物唇形视频流；

添加单元，用于在所述人物唇形视频流中添加预设的背景图片和所述目标音频流，得到所述虚拟人物视频。

可选的，所述添加单元，包括：

第一头部动作单元，用于通过头部姿态算法对所述目标音频流进行解析，得到第一头部动作；

头部动作更新单元，用于根据所述第一头部动作，更新所述人物唇形视频流中的第二头部动作，得到目标人物唇形视频流；

虚拟人物视频单元，用于将所述目标音频流和所述背景图片添加在所述目标人物唇形视频中，得到所述虚拟人物视频。

可选的，唇形视频流模块40之后，包括：

人脸唇形视频流模块，用于将所述目标唇形视频流和所述目标人脸视频流进行合并，得到人脸唇形视频流；

第二人物视频模块，用于将所述人脸唇形视频和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频。

关于虚拟人物视频生成装置的具体限定可以参见上文中对于虚拟人物视频生成方法的限定，在此不再赘述。上述虚拟人物视频生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种虚拟人物视频生成方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

从模板视频分割出模板视频流和模板音频流；

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

从模板视频分割出模板视频流和模板音频流；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种虚拟人物视频生成方法，其特征在于，包括：

从模板视频分割出模板视频流和模板音频流；

2.如权利要求1所述的虚拟人物视频生成方法，其特征在于，在所述从模板视频分割出模板视频流和模板音频流之前，包括：

通过人物识别模型从目标视频中获取人物特征信息；

根据所述人物特征信息对所述目标视频进行剪裁，得到所述模板视频。

3.如权利要求1所述的虚拟人物视频生成方法，其特征在于，所述通过人脸识别模型对所述模板视频流进行人脸区域标定，生成目标人脸视频流，包括：

通过人脸识别模型对所述模板视频流中的视频帧进行人脸关键点检测，得到若干所述视频帧中的人脸区域；

将若干所述人脸区域从所述模板视频流中分割出来，生成所述目标人脸视频流。

4.如权利要求1所述的虚拟人物视频生成方法，其特征在于，所述在音频数据库中查找与所述模板音频流匹配的音频类型，包括：

对所述模板音频流进行解析，得到所述模板音频流的模板音频类型；

通过音频相似模型，计算所述模板音频类型与音频数据库中的若干待匹配音频类型之间的相似度，得到若干音频相似度；

将与若干所述音频相似度中的最大相似度对应的待匹配音频类型确定为与所述模板音频流匹配的音频类型。

5.如权利要求1所述的虚拟人物视频生成方法，其特征在于，所述将所述目标唇形视频流和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频，包括：

通过视频分割技术对所述模板视频流进行人物分割，得到人物视频流；

通过唇形融合算法将所述人物视频流和所述目标唇形视频流进行融合，得到人物唇形视频流；

在所述人物唇形视频流中添加预设的背景图片和所述目标音频流，得到所述虚拟人物视频。

6.如权利要求5所述的虚拟人物视频生成方法，其特征在于，所述在所述人物唇形视频流中添加预设的背景图片和所述目标音频流，得到所述虚拟人物视频，包括：

通过头部姿态算法对所述目标音频流进行解析，得到第一头部动作；

根据所述第一头部动作，更新所述人物唇形视频流中的第二头部动作，得到目标人物唇形视频流；

将所述目标音频流和所述背景图片添加在所述目标人物唇形视频中，得到所述虚拟人物视频。

7.如权利要求1所述的虚拟人物视频生成方法，其特征在于，在所述通过唇形生成模型处理所述唇形参数和所述目标人脸视频流，得到目标唇形视频流之后，包括：

将所述目标唇形视频流和所述目标人脸视频流进行合并，得到人脸唇形视频流；

将所述人脸唇形视频和所述模板视频流进行融合，并添加所述目标音频流，得到虚拟人物视频。

8.一种虚拟人物视频生成装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述虚拟人物视频生成方法。

10.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7中任一项所述虚拟人物视频生成方法。