CN116582726A

CN116582726A - 视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN116582726A
Application number: CN202310850172.7A
Authority: CN
Inventors: 贾金斗; 张闻; 任鹏; 杨帅; 陈粤洋
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-08-11
Anticipated expiration: 2043-07-12
Also published as: CN116582726B

Abstract

本发明提供一种视频生成方法、装置、电子设备及存储介质，所述方法包括：基于视频文本，得到与所述视频文本对应的语音音素，以及视频语音，其中，所述语音音素带有时间戳，所述语音音素与所述视频语音中的语音帧在时间维度相对应；对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图；基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，以使所述驱动数据与所述视频语音在所述时间维度对齐；基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频。从而可以确保生成的视频中虚拟人物的行为动作和语音音频存在较强语义关联度。

Description

视频生成方法、装置、电子设备及存储介质

技术领域

本发明涉及视频技术领域，尤其涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

随着移动互联网的发展，视频形式的内容逐渐成为主流，抢占了大部分流量。

相关技术可知，对于以虚拟人物语音播报内容的视频中，普遍存在虚拟人物的动作与虚拟人物播报的语音内容关联度低的问题，即虚拟人物讲述的内容和虚拟人物的动作关联性差，甚至出现不协调、违和的情况。

当前，针对于以虚拟人物语音播报内容的视频中，寻找一种能够自动生成虚拟人物的动作和虚拟人物讲述的内容存在较强语义关联度的视频成为研究热点。

发明内容

本发明提供一种视频生成方法、装置、电子设备及存储介质，实现能够自动生成虚拟人物的动作和虚拟人物讲述的内容存在较强语义关联度的视频。

本发明提供一种视频生成方法，所述方法包括：基于视频文本，得到与所述视频文本对应的语音音素，以及视频语音，其中，所述语音音素带有时间戳，所述语音音素与所述视频语音中的语音帧在时间维度相对应；对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图；基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，以使所述驱动数据与所述视频语音在所述时间维度对齐，其中，所述驱动数据用于驱动所述虚拟人物在输出所述视频语音过程的行为动作；基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频。

根据本发明提供的一种视频生成方法，在所述对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图之前，所述方法还包括：预先构建行为意图解析库，其中，所述行为意图解析库中包括多个文本场景下文本分词对应的动作意图；所述对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图，具体包括：确定与所述视频文本对应的目标文本场景；基于所述目标文本场景，在所述行为意图解析库中匹配得到与所述目标文本场景下文本分词对应的动作意图；基于所述动作意图，得到所述视频文本中各个分词的目标动作意图。

根据本发明提供的一种视频生成方法，所述行为意图解析库采用以下方式构建：获取多个文本场景下各个文本的文本分词对应的动作意图；基于所述文本场景，以及各个文本的文本分词对应的动作意图，构建得到所述行为意图解析库，其中，对于多个所述文本场景下的任一所述文本，均采用以下方式获取所述文本分词对应的动作意图：提取所述文本中出现频次超过频次阈值的高频文本分词；基于所述高频文本分词和所述高频文本分词前后的文本分词，构建与所述文本对应的语法树；基于所述语法树，解析得到所述文本场景下所述文本的文本分词对应的动作意图。

根据本发明提供的一种视频生成方法，在所述获取多个文本场景下各个文本的文本分词对应的动作意图之后，所述方法还包括：确定与所述文本分词对应的同义泛化分词；基于与所述文本分词对应的动作意图，确定所述同义泛化分词对应的同义泛化动作意图，其中，所述动作意图与所述同义泛化动作意图相同；所述基于所述文本场景，以及各个文本的文本分词对应的动作意图，构建得到所述行为意图解析库，具体包括：基于所述文本场景、各个文本的所述文本分词对应的动作意图，以及所述同义泛化分词对应的同义泛化动作意图，构建得到所述行为意图解析库。

根据本发明提供的一种视频生成方法，在所述基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据之前，所述方法还包括：对所述视频文本进行意图解析，得到所述视频文本对应的整句情绪信息，以及所述视频文本的句子类型；所述基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，具体包括：基于所述各个所述分词的目标动作意图、所述整句情绪信息和所述句子类型，确定各个所述分词最终的目标动作意图；基于与所述虚拟人物对应的动作库，以及各个所述分词最终的目标动作意图，得到与各个分词对应的分词驱动数据；基于所述分词驱动数据，以及所述语音音素中的所述时间戳，将所述分词驱动数据与所述视频语音中的语音帧在时间维度对齐；基于在时间维度对齐后的所述分词驱动数据，生成所述视频中虚拟人物的驱动数据。

根据本发明提供的一种视频生成方法，所述基于所述各个所述分词的目标动作意图、所述整句情绪信息和所述句子类型，确定各个所述分词最终的目标动作意图，具体包括：确定与所述目标动作意图对应的意图情绪；在所述意图情绪中存在相悖意图情绪的情况下，获取与所述整句情绪信息对应的置信度，其中，所述相悖意图情绪与所述整句情绪信息相悖；在所述置信度大于置信度阈值的情况下，删除与所述相悖意图情绪对应的目标动作意图；基于除与所述相悖意图情绪对应的目标动作意图之外的其他目标动作意图、所述整句情绪信息和所述句子类型，确定各个所述分词最终的目标动作意图。

根据本发明提供的一种视频生成方法，在所述获取与所述整句情绪信息对应的置信度之后，所述方法还包括：在所述置信度小于或等于置信度阈值的情况下，基于所述各个所述分词的目标动作意图和所述句子类型，确定各个所述分词最终的目标动作意图。

根据本发明提供的一种视频生成方法，所述基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频，具体包括：基于所述驱动数据，确定与所述驱动数据对应的行为动作序列；基于所述行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频。

根据本发明提供的一种视频生成方法，在所述基于所述驱动数据，确定与所述驱动数据对应的行为动作序列之后，所述方法还包括：在所述行为动作序列中存在重叠动作的情况下，基于行为动作的优先级，在多个所述重叠动作中确定最优行为动作，其中，所述重叠动作为在相同时间段内同时出现多个行为动作，所述优先级根据所述行为动作与行为动作序列中的其他行为动作的配合度确定；所述基于所述行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频，具体包括：基于包括所述最优行为动作的所述行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频。

根据本发明提供的一种视频生成方法，在所述基于所述驱动数据，确定与所述驱动数据对应的行为动作序列之后，所述方法还包括：为所述行为动作序列中相邻行为动作之间补充过渡动作，得到补充后行为动作序列，并将所述补充后行为动作序列作为最终的行为动作序列；所述基于所述行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频，具体包括：基于所述最终的行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频。

本发明还提供一种视频生成装置，所述装置包括：获取模块，用于基于视频文本，得到与所述视频文本对应的语音音素，以及视频语音，其中，所述语音音素带有时间戳，所述语音音素与所述视频语音中的语音帧在时间维度相对应；解析模块，用于对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图；生成模块，用于基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，以使所述驱动数据与所述视频语音在所述时间维度对齐，其中，所述驱动数据用于驱动所述虚拟人物在输出所述视频语音过程的行为动作；渲染模块，用于基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的视频生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的视频生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的视频生成方法。

本发明提供的视频生成方法、装置、电子设备及存储介质，基于视频文本，得到与视频文本对应的语音音素以及视频语音；对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图；基于语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据，由于语音音素与视频语音中的语音帧在时间维度相对应，因此驱动数据可以与视频语音在时间维度对齐。再基于驱动数据、虚拟人物以及视频语音自动渲染生成视频，从而可以确保生成的视频中虚拟人物的行为动作和语音音频存在较强语义关联度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视频生成方法的流程示意图；

图2是本发明提供的对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图的流程示意图；

图3是本发明提供的基于语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据的流程示意图；

图4是本发明提供的基于各个分词的目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图的流程示意图；

图5是本发明提供的构建语法树的应用场景示意图；

图6是本发明提供的视频生成装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的视频生成方法，可以基于3D虚拟人驱动和渲染技术，结合一系列AI解析能力，在以虚拟人为画面主体的视频内容类型上，实现了更自动化、智能化的解决方法，可以高并发地不依赖人工生产动作和文本（语音）有较强语义关联度的短视频内容。

为了进一步介绍本发明提供的视频生成方法，下面将结合图1进行说明。

图1是本发明提供的视频生成方法的流程示意图。

在本发明一示例性实施例中，结合图1可知，视频生成方法可以包括步骤110至步骤140，下面将分别介绍各步骤。

在步骤110中，基于视频文本，得到与视频文本对应的语音音素，以及视频语音，其中，语音音素带有时间戳，语音音素与视频语音中的语音帧在时间维度相对应。

视频文本可以认为是虚拟人要说的内容或文本内容。

在一种实施例中，可以基于视频文本，利用语音合成技术（又称TTS技术）生成视频语音。其中，视频语音是关于视频文本的语音。在又一示例中，还可以利用TTS技术，得到与视频文本对应的语音音素。其中，语音音素（phoneme），是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。可以理解的是，若确定了带有时间戳的语音音素，那么，基于带有时间戳的语音音素还可以获取到带有时间戳的文本信息、带时间戳的句子信息等。进一步的，可以基于带有时间戳的语音音素得到关于视频文本的时间轴信息。其中，时间轴信息包括视频文本中各个单字文本信息与时间之间的对应关系，以及包括与语音音素对应的语音视位于时间之间的对应关系。其中，语音视位代表说一个词时的面部和口腔位置。它是一个语音音素的视觉等价物，是形成单词的基本声学单元。语音视位是语音的基本可视构建基块。

以「嗨，很高兴在你降临的第一天，就有机会认识你。」为例，视频文本的时间轴信息可以包括：

整句话的实际开始和结束时间

"SentenceSequence": {

"KeepPreSeq": false,

"Sequence": [

{

"Name": "嗨，很高兴在你降临的第一天，就有机会认识你。",

"StartSecond": 0.7373334,

"EndSecond": 5.4193335,

"Metadata": {}

}

每个字的开始和结束时间

"IndexSequence": {

"KeepPreSeq": false,

"Sequence": [

{

"Name": "0",

"StartSecond": 0.4333334,

"EndSecond": 0.7078334,

"Metadata": {

"word": "嗨"

}

},

{

"Name": "1",

"StartSecond": 0.7078334,

"EndSecond": 0.9823334,

"Metadata": {

"word": "，"

}

},

{

"Name": "2",

"StartSecond": 0.9823334,

"EndSecond": 1.2283334,

"Metadata": {

"word": "很"

}

},

{

"Name": "3",

"StartSecond": 1.2283334,

"EndSecond": 1.4733334,

"Metadata": {

"word": "高"

}

},

{

"Name": "4",

"StartSecond": 1.4733334,

"EndSecond": 1.7183334,

"Metadata": {

"word": "兴"

}

},

……

每个语音视位的开始和结束时间

"VisemeSequence": {

"KeepPreSeq": false,

"Sequence": [

{

"Name": "rest",

"StartSecond": 0.2333334,

"EndSecond": 0.7373334,

"Metadata": {}

},

{

"Name": "A",

"StartSecond": 0.7373334,

"EndSecond": 0.8273334,

"Metadata": {}

},

{

"Name": "A",

"StartSecond": 0.8273334,

"EndSecond": 0.9823334,

"Metadata": {}

},

{

"Name": "J",

"StartSecond": 0.9823334,

"EndSecond": 0.9823334,

"Metadata": {}

},

{

"Name": "EN",

"StartSecond": 0.9823334,

"EndSecond": 1.0723333,

"Metadata": {}

},

{

"Name": "EN",

"StartSecond": 1.0723333,

"EndSecond": 1.2283334,

"Metadata": {}

},

……

在步骤120中，对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图。

在一种实施例中，可以对视频文件进行一系列不同维度的行为意图解析，得到视频文本中各个分词的目标动作意图，用于指导行为决策。其中，视频文件中的分词是指视频文本中具有意义的最小一组词语。在应用过程中，行为意图解析会调用多种能力，包括基于深度学习的 NLU（Nature Language Understanding）、语法树、Knowledge Graph 等。对行为决策有价值的行为意图维度及每个维度中可解析的具体信息类别是提前定义的，可灵活扩展。在一示例中，行为意图维度可以包括句子对应的情绪（对应整句情绪信息）、分词对应的动作意图（对应目标动作意图）以及句子类型等。其中，句子类型可以包括疑问句、感叹句和陈述句等。

在步骤130中，基于语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据，以使驱动数据与视频语音在时间维度对齐，其中，驱动数据用于驱动虚拟人物在输出视频语音过程的行为动作。

在步骤140中，基于驱动数据、虚拟人物以及视频语音，渲染生成视频。

在一种实施例中，可以基于带有时间戳的语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据，以使驱动数据与视频语音在时间维度对齐。其中，驱动数据用于驱动所述虚拟人物在输出所述视频语音过程的行为动作，行为动作至少包括表情、口型、肢体动作、视线等。在应用过程中，可以根据时间轴信息（对应带有时间戳的语音音素）和目标动作意图，生成表情、口型、肢体动作、视线等驱动数据。

其中，驱动数据还可以认为是Unity和UE等引擎在驱动3D角色模型时所使用的数据类型，其中，驱动系统可以包括骨骼动画和Blendshape /Morpher动画等。通过前述两种驱动方式，可以主要实现面部表情、肢体动作、口型、视线等维度行为动作在引擎中的驱动。

进一步的，再基于驱动数据、虚拟人物以及视频语音，自动渲染生成视频。其中，视频中的虚拟人的行为动作和语音音频存在较强语义关联度。

本发明提供的视频生成方法，基于视频文本，得到与视频文本对应的语音音素以及视频语音；对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图；基于语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据，由于语音音素与视频语音中的语音帧在时间维度相对应，因此驱动数据可以与视频语音在时间维度对齐。再基于驱动数据、虚拟人物以及视频语音自动渲染生成视频，从而可以确保生成的视频中虚拟人物的行为动作和语音音频存在较强语义关联度。

图2是本发明提供的对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图的流程示意图。

下面将结合图2对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图。

在本发明一示例性实施例中，结合图2可知，对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图可以包括步骤210至步骤240，下面将分别介绍各步骤。

在步骤210中，预先构建行为意图解析库，其中，行为意图解析库中包括多个文本场景下文本分词对应的动作意图。

在本发明一示例性实施例中，行为意图解析库可以采用以下方式构建：

获取多个文本场景下各个文本的文本分词对应的动作意图；

基于文本场景，以及各个文本的文本分词对应的动作意图，构建得到行为意图解析库

在一种实施例中，获取多个不同文本场景下各个本文的文本分词对应的动作意图，由于不同的文本场景，同一个文本分词具有的意图并不相同，因此，可以基于文本场景，以及各个文本的文本分词对应的动作意图，构建得到行为意图解析库。在本实施例中，通过构建包括不同文本场景下文本分词的动作意图的意图解析库，可以实现对视频文本的分词级别颗粒度的动作意图进行标记，从而可以提高视频中虚拟人物的行为动作和语音音频存在较强语义关联度。

在又一种实施例中，对于多个文本场景下的任一文本，均采用以下方式获取文本分词对应的动作意图：

提取文本中出现频次超过频次阈值的高频文本分词；

基于高频文本分词和高频文本分词前后的文本分词，构建与文本对应的语法树；

基于语法树，解析得到文本场景下文本的文本分词对应的动作意图。

需要说明的是，不同文本场景下需要处理的文本内容类型会有差异，为了能够在面对新场景时可以更高效且有针对性地补充动作意图解析能力，结合图5所示出的构建语法树的应用场景，可以提取文本中出现频次超过频次阈值的高频文本分词；再基于高频文本分词和高频文本分词前后的文本分词，构建与文本对应的语法树；最后，再基于语法树，解析得到文本场景下文本的文本分词对应的动作意图。在本实施例中，可以针对对应场景的大量语料数据，可根据分词出现的频次，进行高频词（对应高频文本分词）统计。根据统计结果，可以优先选择高频词相关的意图进行识别能力的总结和补充，以此达到更高的 RoI和较快的冷启动

在又一实施例中，对任意一句话，可以自动将其解构为如图5中的语法树形式，以辅助对语料数据的意图触发规则的分析和总结。并且还可以通过GUI 形式新增、修改、删除意图解析类别和规则，结果可即时同步更新到线上生产环境，从而可以实现整个方案的易迭代性。

在本发明又一示例性实施例中，继续以前文所述的实施例（在构建行为意图解析库的过程中）为例进行说明，在获取多个文本场景下各个文本的文本分词对应的动作意图之后，视频生成方法还包括：

确定与文本分词对应的同义泛化分词；

基于与文本分词对应的动作意图，确定同义泛化分词对应的同义泛化动作意图，其中，动作意图与同义泛化动作意图相同；

进一步的，基于文本场景，以及各个文本的文本分词对应的动作意图，构建得到行为意图解析库，可以采用以下方式实现：

基于文本场景、各个文本的文本分词对应的动作意图，以及同义泛化分词对应的同义泛化动作意图，构建得到行为意图解析库。

在又一示例中，基于文本场景，以及各个文本的文本分词对应的动作意图，构建得到行为意图解析库，还可以采用以下方式实现：

基于文本场景、各个文本的文本分词对应的动作意图，以及同义泛化分词，构建得到行为意图解析库；或者，基于文本场景、各个文本的文本分词对应的动作意图、同义泛化分词，以及同义泛化分词对应的同义泛化动作意图，构建得到行为意图解析库

在一种实施例中，可以借助 Knowlege Graph 等技术，针对系统内已添加的解析能力（对应行为意图解析库），可进行一定程度的泛化，进一步降低人工成本，优化解析覆盖率。泛化主要是针对表意相同、词性相同的同类词泛化，比如，当通过语法树形式添加了「我喜欢你」有「表白」意图时，由于「喜欢」可泛化为「中意/稀罕/喜爱/热爱/热衷……」。所以在实际系统实际运行过程中，遇到「我中意你」时，也可以被触发「表白」意图标记。在本实施例中，文本分词「我喜欢你」的同义泛化分词为「中意/稀罕/喜爱/热爱/热衷……」。通过本实施例，增加了视频生成方法的泛化能力。

在步骤220中，确定与视频文本对应的目标文本场景。

在步骤230中，基于目标文本场景，在行为意图解析库中匹配得到与目标文本场景下文本分词对应的动作意图。

在步骤240中，基于动作意图，得到视频文本中各个分词的目标动作意图。

在一种实施例中，可以确定出与视频文本对应的目标文本场景，进一步的，再基于目标文本场景，在行为意图解析库中匹配得到与目标文本场景下文本分词对应的动作意图。由于动作意图是与视频文本对应的目标文本场景相对应的，因此，基于动作意图，可以得到视频文本中各个分词的目标动作意图。在本实施例中，可以不依赖人工，通过独立进行智能解析，能够分析视频文本并输出分词级别颗粒度的动作意图标记（对应目标动作意图），从而为高并发地不依赖人工生产动作和文本（语音）有较强语义关联度的短视频内容打下基础。

图3是本发明提供的基于语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据的流程示意图。

为了进一步介绍本发明提供的视频生成方法，下面将结合图3进行说明。

在本发明一示例性实施例中，结合图3可知，基于语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据可以包括步骤310至步骤350，下面将分别介绍各步骤。

在步骤310中，对视频文本进行意图解析，得到视频文本对应的整句情绪信息，以及视频文本的句子类型。

在步骤320中，基于各个分词的目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图。

在一种实施例中，可以对视频文本进行意图解析，得到关于视频文本的整句情绪信息，以及视频文本的句子类型。其中，整句情绪信息可以包括难过、开心等，句子类型可以包括陈述句、疑问句、反问句等。可以理解的是，整句情绪信息以及视频文本的句子类型会对各个分词最终的目标动作意图均有影响。

在又一种实施例中，可以根据各个分词的目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图。其中，各个分词最终的目标动作意图是结合整句情绪信息和句子类型确定的，从而可以确保得到的目标动作意图的准确性。

在一示例中，以「嗨，很高兴在你降临的第一天，就有机会认识你。」为例，解析出的目标动作意图主要包括：句子对应的情绪、分词对应的动作意图和句子类型（疑问句/感叹句/陈述句），其中，句子情绪为Happy；句子类型为陈述句；分词对应的动作意图包括以下：

「嗨」位置：打招呼

「你」位置：人称指代「你」

「第一天」位置：数字指代「1」

「你」位置：人称指代「你」。

在步骤330中，基于与虚拟人物对应的动作库，以及各个分词最终的目标动作意图，得到与各个分词对应的分词驱动数据。

在步骤340中，基于分词驱动数据，以及语音音素中的时间戳，将分词驱动数据与视频语音中的语音帧在时间维度对齐。

在步骤350中，基于在时间维度对齐后的分词驱动数据，生成视频中虚拟人物的驱动数据。

在一种实施例中，可以根据与虚拟人物对应的动作库，以及各个分词最终的目标动作意图，得到与各个分词对应的分词驱动数据。其中，分词驱动数据可以理解为是在分词级别颗粒度的驱动数据。可以理解的是，基于视频文本中各个分词驱动数据可以得到视频中虚拟人物的驱动数据。

在又一种实施例中，由于语音音素与视频语音中的语音帧在时间维度上对应，语音音素的时间戳还与分词驱动数据对应，因此，可以根据分词驱动数据，以及语音音素中的时间戳，将分词驱动数据与视频语音中的语音帧在时间维度对齐，进一步的，再基于在时间维度对齐后的分词驱动数据，生成视频中虚拟人物的驱动数据。从而可以确保驱动数据与视频语音中的语音帧在时间维度对齐，从而可以确保生成的视频中虚拟人物的行为动作和语音音频存在较强语义关联度。

为了确保各个分词的目标动作意图的准确性，还可以对前述的目标动作意图进行优化，从而可以得到更优的驱动数据。

图4是本发明提供的基于各个分词的目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图的流程示意图。

下面将结合图4对基于各个分词的目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图的过程进行说明。

在本发明一示例性实施例中，结合图4可知，基于各个分词的目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图可以包括步骤410至步骤450，下面将分别介绍各步骤。

在步骤410中，确定与目标动作意图对应的意图情绪。

在步骤420中，在意图情绪中存在相悖意图情绪的情况下，获取与整句情绪信息对应的置信度，其中，相悖意图情绪与整句情绪信息相悖。

在步骤430中，在置信度大于置信度阈值的情况下，删除与相悖意图情绪对应的目标动作意图。

在步骤440中，基于除与相悖意图情绪对应的目标动作意图之外的其他目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图。

在一种实施例中，可以确定出与目标动作意图对应的意图情绪。当检测出意图情绪为相悖意图情绪的情况下，可以获取整句情绪信息对应的置信度，在根据置信度确定分词最终的目标动作意图。

在一示例中，当整句情绪信息的置信度大于置信度阈值的情况下，说明整句情绪信息反映出的情绪更有参考性，因此，可以删除与相悖意图情绪对应的目标动作意图。并基于除与相悖意图情绪对应的目标动作意图之外的其他目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图。

在一示例中，当一句话中某个分词位置解析出明显偏向开心、兴奋等正向情绪中才会出现的动作意图（e.g. 鼓励），同时这一句话整体的情绪解析结果为偏向负向的情绪类型（e.g. 生气），此时可进一步参考情绪解析结果的置信度并对互斥的情况进行处理（e.g. 去掉互斥的动作意图）。通过本实施例，可以提高确定各个分词最终的目标动作意图的准确性。

在步骤450中，在置信度小于或等于置信度阈值的情况下，基于各个所述分词的目标动作意图和句子类型，确定各个分词最终的目标动作意图。

在又一种实施例中，在置信度小于或等于置信度阈值的情况下，基于各个分词的目标动作意图和句子类型，确定各个分词最终的目标动作意图。当整句情绪信息的置信度小于或等于置信度阈值的情况下，说明整句情绪信息反映出的情绪不具有参考性，因此，可以基于各个分词的目标动作意图和句子类型，确定各个分词最终的目标动作意图。

在本发明又一示例性实施例中，结合图1所述的实施例为例进行说明，基于驱动数据、虚拟人物以及视频语音，渲染生成视频（对应步骤140）可以采用以下方式实现：

基于驱动数据，确定与驱动数据对应的行为动作序列；

基于行为动作序列、虚拟人物以及视频语音，渲染生成视频。

在一种实施例中，驱动数据驱动数据用于驱动虚拟人物在输出所述视频语音过程的行为动作，因此，基于驱动数据可以确定虚拟人按照时间顺序的行为动作序列，其中，行为动作序列可以与视频语音在时间维度上对齐。进一步的，再基于行为动作序列、虚拟人物以及视频语音，可以自动渲染生成视频。由于行为动作序列和视频语音在时间维度上是对齐的，因此，基于驱动数据、虚拟人物以及视频语音自动渲染生成视频，从而可以确保生成的视频中虚拟人物的行为动作和语音音频存在较强语义关联度。

在本发明又一示例性实施例中，继续以前文所述的实施例为例进行说明，在基于驱动数据，确定与驱动数据对应的行为动作序列之后，视频生成方法还可以包括以下步骤：

在行为动作序列中存在重叠动作的情况下，基于行为动作的优先级，在多个重叠动作中确定最优行为动作，其中，重叠动作为在相同时间段内同时出现多个行为动作，优先级根据行为动作与行为动作序列中的其他行为动作的配合度确定；

其中，基于行为动作序列、虚拟人物以及视频语音，渲染生成所述视频，可以采用以下方式实现：

基于包括最优行为动作的行为动作序列、虚拟人物以及视频语音，渲染生成视频。

在一种实施例中，如果驱动数据中两个动作在时间轴上存在较长时间的重叠，则可以将根据冲突的动作时间是否可调节、是否可直接过渡等信息，对两个动作的时长进行调整，甚至舍弃其中一个动作，保证整体驱动结果的自然流畅。在应用过程中，在行为动作序列中存在重叠动作的情况下，基于行为动作的优先级，在多个重叠动作中确定最优行为动作，再基于包括最优行为动作的行为动作序列、虚拟人物以及视频语音，渲染生成视频，从而可以保证整体驱动结果的自然流畅。

为行为动作序列中相邻行为动作之间补充过渡动作，得到补充后行为动作序列，并将补充后行为动作序列作为最终的行为动作序列；

其中，基于行为动作序列、虚拟人物以及视频语音，渲染生成视频，还可以采用以下方式实现：

基于最终的行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频。

对于完成的各类冲突处理的动作序列，可以进一步补充过渡，根据前后相邻的动作和姿势，选择补充动作库中的过渡段、AI过渡动画生成、引擎动作融合等相对更自然的过渡方案。在应用过程中，会为行为动作序列中相邻行为动作之间补充过渡动作，得到补充后行为动作序列，并将补充后行为动作序列作为最终的行为动作序列。进一步的，基于最终的行为动作序列、虚拟人物以及视频语音，自动渲染生成视频，从而确保得到的视频的流畅、自然。

本发明提供的视频生成方法，可以基于3D 虚拟人自主决策、协调、驱动能力，可不依赖人工，自动根据输入的 AI 生成文本输出以虚拟人为画面主体的短视频内容，并推给下游的产品客户端。

根据上述描述可知，本发明提供的视频生成方法，基于视频文本，得到与视频文本对应的语音音素以及视频语音；对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图；基于语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据，由于语音音素与视频语音中的语音帧在时间维度相对应，因此驱动数据可以与视频语音在时间维度对齐。再基于驱动数据、虚拟人物以及视频语音自动渲染生成视频，从而可以确保生成的视频中虚拟人物的行为动作和语音音频存在较强语义关联度。

基于相同的构思，本发明还提供一种视频生成装置。

下面对本发明提供的视频生成装置进行描述，下文描述的视频生成装置与上文描述的视频生成方法可相互对应参照。

图6是本发明提供的视频生成装置的结构示意图。

在本发明一示例性实施例中，结合图6可知，视频生成装置可以包括获取模块610、解析模块620、生成模块630和渲染模块640，下面将分别介绍各模块。

获取模块610，可以被配置为用于基于视频文本，得到与视频文本对应的语音音素，以及视频语音，其中，语音音素带有时间戳，语音音素与视频语音中的语音帧在时间维度相对应；

解析模块620，可以被配置为用于对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图；

生成模块630，可以被配置为用于基于语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据，以使驱动数据与视频语音在时间维度对齐，其中，驱动数据用于驱动虚拟人物在输出视频语音过程的行为动作；

渲染模块640，可以被配置为用于基于驱动数据、虚拟人物以及视频语音，渲染生成视频。

在本发明一示例性实施例中，解析模块620还可以被配置为用于：

预先构建行为意图解析库，其中，行为意图解析库中包括多个文本场景下文本分词对应的动作意图；

解析模块620可以采用以下方式实现对视频文本进行行为意图解析，得到视频文本中各个分词的目标动作意图：

确定与视频文本对应的目标文本场景；

基于目标文本场景，在行为意图解析库中匹配得到与目标文本场景下文本分词对应的动作意图；

基于动作意图，得到视频文本中各个分词的目标动作意图。

在本发明一示例性实施例中，解析模块620可以采用以下方式构建意图解析库：

获取多个文本场景下各个文本的文本分词对应的动作意图；

基于文本场景，以及各个文本的文本分词对应的动作意图，构建得到行为意图解析库，其中，对于多个文本场景下的任一文本，均采用以下方式获取文本分词对应的动作意图：

提取文本中出现频次超过频次阈值的高频文本分词；

确定与文本分词对应的同义泛化分词；

解析模块620可以采用以下方式实现基于文本场景，以及各个文本的文本分词对应的动作意图，构建得到行为意图解析库：

在本发明一示例性实施例中，生成模块630还可以被配置为用于：

对视频文本进行意图解析，得到视频文本对应的整句情绪信息，以及视频文本的句子类型；

生成模块630可以采用以下方式实现基于语音音素和各个分词的目标动作意图，生成视频中虚拟人物的驱动数据：

基于各个分词的目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图；

基于与虚拟人物对应的动作库，以及各个分词最终的目标动作意图，得到与各个分词对应的分词驱动数据；

基于分词驱动数据，以及语音音素中的时间戳，将分词驱动数据与视频语音中的语音帧在时间维度对齐；

基于在时间维度对齐后的分词驱动数据，生成视频中虚拟人物的驱动数据。

在本发明一示例性实施例中，生成模块630可以采用以下方式实现基于各个分词的目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图：

确定与目标动作意图对应的意图情绪；

在意图情绪中存在相悖意图情绪的情况下，获取与整句情绪信息对应的置信度，其中，相悖意图情绪与整句情绪信息相悖；

在置信度大于置信度阈值的情况下，删除与相悖意图情绪对应的目标动作意图；

基于除与相悖意图情绪对应的目标动作意图之外的其他目标动作意图、整句情绪信息和句子类型，确定各个分词最终的目标动作意图。

在置信度小于或等于置信度阈值的情况下，基于各个分词的目标动作意图和句子类型，确定各个分词最终的目标动作意图。

在本发明一示例性实施例中，渲染模块640可以采用以下方式实现基于驱动数据、虚拟人物以及视频语音，渲染生成视频：

基于驱动数据，确定与驱动数据对应的行为动作序列；

在本发明一示例性实施例中，渲染模块640还可以被配置为用于：

渲染模块640可以采用以下方式实现基于行为动作序列、虚拟人物以及视频语音，渲染生成视频：

基于最终的行为动作序列、所虚拟人物以及视频语音，渲染生成视频。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行视频生成方法，该方法包括：基于视频文本，得到与所述视频文本对应的语音音素，以及视频语音，其中，所述语音音素带有时间戳，所述语音音素与所述视频语音中的语音帧在时间维度相对应；对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图；基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，以使所述驱动数据与所述视频语音在所述时间维度对齐，其中，所述驱动数据用于驱动所述虚拟人物在输出所述视频语音过程的行为动作；基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视频生成方法，该方法包括：基于视频文本，得到与所述视频文本对应的语音音素，以及视频语音，其中，所述语音音素带有时间戳，所述语音音素与所述视频语音中的语音帧在时间维度相对应；对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图；基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，以使所述驱动数据与所述视频语音在所述时间维度对齐，其中，所述驱动数据用于驱动所述虚拟人物在输出所述视频语音过程的行为动作；基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视频生成方法，该方法包括：基于视频文本，得到与所述视频文本对应的语音音素，以及视频语音，其中，所述语音音素带有时间戳，所述语音音素与所述视频语音中的语音帧在时间维度相对应；对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图；基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，以使所述驱动数据与所述视频语音在所述时间维度对齐，其中，所述驱动数据用于驱动所述虚拟人物在输出所述视频语音过程的行为动作；基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

基于视频文本，得到与所述视频文本对应的语音音素，以及视频语音，其中，所述语音音素带有时间戳，所述语音音素与所述视频语音中的语音帧在时间维度相对应；

对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图；

基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，以使所述驱动数据与所述视频语音在所述时间维度对齐，其中，所述驱动数据用于驱动所述虚拟人物在输出所述视频语音过程的行为动作；

基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频。

2.根据权利要求1所述的视频生成方法，其特征在于，在所述对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图之前，所述方法还包括：

预先构建行为意图解析库，其中，所述行为意图解析库中包括多个文本场景下文本分词对应的动作意图；

所述对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图，具体包括：

确定与所述视频文本对应的目标文本场景；

基于所述目标文本场景，在所述行为意图解析库中匹配得到与所述目标文本场景下文本分词对应的动作意图；

基于所述动作意图，得到所述视频文本中各个分词的目标动作意图。

3.根据权利要求2所述的视频生成方法，其特征在于，所述行为意图解析库采用以下方式构建：

获取多个文本场景下各个文本的文本分词对应的动作意图；

基于所述文本场景，以及各个文本的文本分词对应的动作意图，构建得到所述行为意图解析库，其中，对于多个所述文本场景下的任一所述文本，均采用以下方式获取所述文本分词对应的动作意图：

提取所述文本中出现频次超过频次阈值的高频文本分词；

基于所述高频文本分词和所述高频文本分词前后的文本分词，构建与所述文本对应的语法树；

基于所述语法树，解析得到所述文本场景下所述文本的文本分词对应的动作意图。

4.根据权利要求3所述的视频生成方法，其特征在于，在所述获取多个文本场景下各个文本的文本分词对应的动作意图之后，所述方法还包括：

确定与所述文本分词对应的同义泛化分词；

基于与所述文本分词对应的动作意图，确定所述同义泛化分词对应的同义泛化动作意图，其中，所述动作意图与所述同义泛化动作意图相同；

所述基于所述文本场景，以及各个文本的文本分词对应的动作意图，构建得到所述行为意图解析库，具体包括：

基于所述文本场景、各个文本的所述文本分词对应的动作意图，以及所述同义泛化分词对应的同义泛化动作意图，构建得到所述行为意图解析库。

5.根据权利要求1所述的视频生成方法，其特征在于，在所述基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据之前，所述方法还包括：

对所述视频文本进行意图解析，得到所述视频文本对应的整句情绪信息，以及所述视频文本的句子类型；

所述基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，具体包括：

基于所述各个所述分词的目标动作意图、所述整句情绪信息和所述句子类型，确定各个所述分词最终的目标动作意图；

基于与所述虚拟人物对应的动作库，以及各个所述分词最终的目标动作意图，得到与各个分词对应的分词驱动数据；

基于所述分词驱动数据，以及所述语音音素中的所述时间戳，将所述分词驱动数据与所述视频语音中的语音帧在时间维度对齐；

基于在时间维度对齐后的所述分词驱动数据，生成所述视频中虚拟人物的驱动数据。

6.根据权利要求5所述的视频生成方法，其特征在于，所述基于所述各个所述分词的目标动作意图、所述整句情绪信息和所述句子类型，确定各个所述分词最终的目标动作意图，具体包括：

确定与所述目标动作意图对应的意图情绪；

在所述意图情绪中存在相悖意图情绪的情况下，获取与所述整句情绪信息对应的置信度，其中，所述相悖意图情绪与所述整句情绪信息相悖；

在所述置信度大于置信度阈值的情况下，删除与所述相悖意图情绪对应的目标动作意图；

基于除与所述相悖意图情绪对应的目标动作意图之外的其他目标动作意图、所述整句情绪信息和所述句子类型，确定各个所述分词最终的目标动作意图。

7.根据权利要求6所述的视频生成方法，其特征在于，在所述获取与所述整句情绪信息对应的置信度之后，所述方法还包括：

在所述置信度小于或等于置信度阈值的情况下，基于所述各个所述分词的目标动作意图和所述句子类型，确定各个所述分词最终的目标动作意图。

8.根据权利要求1所述的视频生成方法，其特征在于，所述基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频，具体包括：

基于所述驱动数据，确定与所述驱动数据对应的行为动作序列；

基于所述行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频。

9.根据权利要求8所述的视频生成方法，其特征在于，在所述基于所述驱动数据，确定与所述驱动数据对应的行为动作序列之后，所述方法还包括：

在所述行为动作序列中存在重叠动作的情况下，基于行为动作的优先级，在多个所述重叠动作中确定最优行为动作，其中，所述重叠动作为在相同时间段内同时出现多个行为动作，所述优先级根据所述行为动作与行为动作序列中的其他行为动作的配合度确定；

所述基于所述行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频，具体包括：

基于包括所述最优行为动作的所述行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频。

10.根据权利要求8所述的视频生成方法，其特征在于，在所述基于所述驱动数据，确定与所述驱动数据对应的行为动作序列之后，所述方法还包括：

为所述行为动作序列中相邻行为动作之间补充过渡动作，得到补充后行为动作序列，并将所述补充后行为动作序列作为最终的行为动作序列；

基于所述最终的行为动作序列、所述虚拟人物以及所述视频语音，渲染生成所述视频。

11.一种视频生成装置，其特征在于，所述装置包括：

获取模块，用于基于视频文本，得到与所述视频文本对应的语音音素，以及视频语音，其中，所述语音音素带有时间戳，所述语音音素与所述视频语音中的语音帧在时间维度相对应；

解析模块，用于对所述视频文本进行行为意图解析，得到所述视频文本中各个分词的目标动作意图；

生成模块，用于基于所述语音音素和各个所述分词的目标动作意图，生成所述视频中虚拟人物的驱动数据，以使所述驱动数据与所述视频语音在所述时间维度对齐，其中，所述驱动数据用于驱动所述虚拟人物在输出所述视频语音过程的行为动作；

渲染模块，用于基于所述驱动数据、所述虚拟人物以及所述视频语音，渲染生成所述视频。

12.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至10任一项所述的视频生成方法。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的视频生成方法。