CN115496863A

CN115496863A - 用于影视智能创作的情景互动的短视频生成方法及系统

Info

Publication number: CN115496863A
Application number: CN202211354722.8A
Authority: CN
Inventors: 毛瑞琛; 马诗洁; 耿卫东; 李聪聪; 杨森
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2022-12-20
Anticipated expiration: 2042-11-01
Also published as: CN115496863B

Abstract

本发明涉及影视创作领域，公开一种用于影视智能创作的情景互动的短视频生成方法和系统，通过预训练的跨模态文本‑图像匹配模型和预训练的语言模型，可以实现场景图片和动作序列的匹配筛选；基于三维深度估计算法，计算出场景图像对应的深度信息，并通过预设的相机内参，估计出该场景图对应的三维信息；基于smpl‑x人体模型，对用户上传的人体进行参数估计和纹理贴图，获取带纹理的人体模型；通过估计的三维信息、动作序列、带纹理的人体模型、场景图片，合成互动者融于该场景图片的短视频。本发明可有效应用于当前影视创作中的分镜稿、故事版及预演动画等智能化生成工作，对影视创造的流程具体革新作用。

Description

用于影视智能创作的情景互动的短视频生成方法及系统

技术领域

本发明涉及影视创作领域，具体涉及一种用于影视智能创作的情景互动的短视频生成方法及系统。

背景技术

在影视创作领域，目前分镜稿、故事板及预演动画非常依赖人工，素材的收集、设计、道具和场景的选择从初稿到最终版本需要经过多次修改迭代，往往要花费数月甚至数年的时间，因此影视的创作制作过程往往需要花费创作者的较长时间和精力。

随着人工智能的发展，借助人工智能技术创新和加速影视制作是一个新的创新应用领域，借助人工智能的方法，将改革原有的人工方式为自动化交互创作，大大简化设计师的工作流程，提升创作效率。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种用于影视智能创作的情景互动的短视频生成方法及系统，其具体技术方案如下：

一种用于影视智能创作的情景互动的短视频生成方法，包括以下步骤：

步骤一，根据用户输入的场景描述，通过预训练的跨模态文本图像匹配模型，从场景素材库中获取到对应描述的场景图片；

步骤二，输入步骤一获取的场景图片，经过深度图估计模型，输出深度信息后利用预设的相机参数计算得到场景图片对应的三维信息；

步骤三，根据用户输入的动作描述，经过预训练语言模型，从动作素材库中筛选得到一系列跟描述相匹配的动作图片，组成对应描述的候选动作序列，从中得到所需动作图片组成动作序列；

步骤四，用户上传演员人物的多个视角的全身照片，通过人体三维模型估计算法对人体参数进行估计，同时对人体模型进行纹理贴图，获取该演员人物的带纹理的人体模型；

步骤五，用户输入运动轨迹，结合三维信息、动作序列和带纹理的人体模型，合成人物动作的前景短视频；

步骤六，将步骤五得到的前景短视频和步骤一的场景图像进行融合，获取情景互动的短视频。

进一步的，所述步骤一具体包括以下子步骤：

步骤（1.1），将用户输入的场景描述，经过预训练的跨模态文本图像匹配模型CLIP的文本编码器text encoder处理，得到对应的文本特征向量I _text；

步骤（1.2），将场景素材库中的场景图片，输入预训练的跨模态文本图像匹配模型CLIP的图片编码器image encoder，获取每个图片对应的图像特征向量I _{image_i}，i=0,1,2…；

步骤（1.3），对文本特征向量和图像特征向量计算相似度，获取同文本语义相近的一系列场景图片，供用户选择，具体为：计算文本特征向量和图像特征向量的余弦距离，将距离相近前几个的向量对应的图片作为匹配结果返回，余弦距离计算公式如下：

，

j表示文本特征向量序号，n为大于0的整数；

步骤（1.4），用户根据返回的图片结果，选择所需图片作为最终合成视频的场景图片Image_scene。

进一步的，所述步骤二具体为：输入步骤一获取的场景图片至深度图估计模型，所述深度图估计模型为DPT模型，DPT模型使用ViT作为主干网络，提取图像tokens，tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征，即多尺度的图像特征；多尺度的图像特征通过融合模块和上采样，得到深度密集预测结果，即深度信息；再通过预设的相机参数FOV和图像分辨率（H，W）计算归一化焦距（fx ，fy）和中心像素坐标(u₀ ，v₀ )，计算得到图像对应的三维信息(x,y,z)，其中图像高为H，宽为W，所述三维信息(x,y,z)的计算公式如下所示：

。

进一步的，所述步骤三具体包括以下子步骤：

步骤（3.1），将用户输入的动作描述，经过预训练语言模型处理，得到对应的动作文本特征向量；

步骤（3.2），将动作素材库中的动作序列对应的语义标签，送入预训练语言模型处理，获取语义标签对应的标签文本特征向量；

步骤（3.3），对动作文本特征向量和标签文本特征向量计算余弦相似度，获取相似度排名靠前的标签所对应的动作序列和动作序列所对应的原始渲染视频，用户从中选择动作图片组成所需动作序列。

进一步的，所述步骤四具体包括以下子步骤：

步骤（4.1），输入演员人物的多视角图片序列，利用人体姿态识别算法，获取人体的身体、手、脚和面部特征的关节点信息；

步骤（4.2），通过人体三维模型估计算法得到人体模型参数，具体为：利用人体三维模型估计算法，将关节点信息及演员照片输入三维人体模型，使三维人体模型拟合到单张演员RGB图像和步骤（4.1）获取到的关节点信息，输出每个视角对应的人体模型参数、3dmesh信息和相机参数；

步骤（4.3），利用获取到的人体模型参数、3d mesh信息和相机参数，通过纹理贴图算法，从演员的多视角照片中提取纹理，并对多个视角的纹理结果进行融合，获取带纹理的人体模型。

进一步的，所述步骤（4.3）具体包括以下操作处理：

（1）基于UV map，首先对单张的演员人物照片初始化一张纹理贴图，具体为：

将3d mesh信息的顶点坐标通过相机参数进行映射，映射到二维演员人物照片图像空间中，根据距离相机的远近确定当前单张演员照片映射到的三维人体模型的顶点；

根据对应的三维人体模型的顶点和UV map中的纹理坐标及纹理坐标索引，确定该单张演员照片可映射得到的纹理贴图的纹理区域；

其中按照线性插值的方式获取纹理区域的像素值：纹理的获得通过该纹理区域所对应的三维人体模型的顶点，从单视图找到对应顶点位置进行像素获取；

（2）根据步骤（1）生成所有演员的纹理贴图；

（3）对所有视角的演员的纹理进行融合，融合的方法采用先前后视角，后左右视角的方法，用所有的纹理贴图通过异或的方式获取一张融合后的纹理图；

（4）针对融合后的纹理图存在缺失纹理的区域，用邻域的纹理进行填充，最后获得填充后的纹理，从而得到带纹理的人体模型。

进一步的，所述步骤五具体包括以下子步骤：

步骤（5.1），用户通过交互的方式，在步骤一选中的场景图片中选择动作的起始二维坐标点start和结束二维坐标点end；

步骤（5.2），利用二维坐标点在步骤二中输出的三维信息中查找对应的三维坐标start_3d和end_3d，分别表示三维空间的起始和结束位置；

步骤（5.3），将生成的三维信息所对应的坐标系跟动作素材库中的动作序列的坐标系进行对齐；

步骤（5.4），根据起始和结束位置计算实际的空间距离，根据选择的动作序列计算该动作所对应的空间距离，空间距离的计算采用欧式距离计算；以实际的空间距离为基准，对选择的动作进行重复和删减操作，使实际的运动起始结束点跟指定的起始结束点重合，生成全局旋转和平移后的新的动作序列；

步骤（5.5），将步骤四生成的带纹理的人体模型和生成的新的动作序列作使用pyrender进行渲染，得到前景短视频。

进一步的，所述步骤（5.4）中的对选择的动作进行重复和删减操作具体为：对筛选得到的动作距离如果小于实际的空间距离，对其进行重复操作，直到两者的空间距离一致；对筛选得到的动作距离大于实际的空间距离，则将多余的运动进行裁剪操作。

进一步的，所述步骤六具体为：对步骤五输出的前景短视频的每一帧，设置阈值，获取前景人物的掩膜序列human_masks和阴影序列shadows，通过human masks融合场景图像和人物动作视频，同时加入阴影序列信息shadows, 最终合成同场景信息融合后的情景互动的短视频。

一种用于影视智能创作的情景互动的短视频生成系统，包括：

场景图片筛选模块，用于根据输入的对场景的文本描述，通过预训练的跨模态文本图像匹配模型，从场景素材库中获取得到对应描述的场景图片，得到用户需要的场景图片；

三维信息估计模块，输入为用户需要的场景图片，通过深度图估计模型，输出深度信息后利用预设的相机参数估计出场景图片对应的三维信息；

人物动作筛选模块，用于根据用户输入的动作描述，经过预训练语言模型，从动作素材库中筛选得到一系列跟描述相匹配的动作图片，组成对应描述的候选动作序列，用户从中得到所需动作图片组成动作序列；

演员建模模块，输入为演员的多视角的全身图片，通过人体三维模型估计算法得到对人体模型参数，同时对人体模型进行纹理贴图，获取该演员人物所对应的带纹理的人体模型；

演员驱动模块，输入为动作序列、用户设置的运动轨迹、带纹理的人体模型，结合三维信息，输出为包含对应动作、对应演员外观、对应运动轨迹并且符合三维场景信息的前景运动短视频；

前后背景融合模块，输入为场景图片和前景短视频，输出为前后背景融合后的情景互动的短视频。

有益效果：

本发明基于跨模态技术，计算机视觉技术，计算机图形学技术，通过给定的场景描述，动作描述和用户上传的演员照片，得到对应场景下演员跟场景互动的短视频，而不需要第三方人工干预，革新了影视创作的流程。

附图说明

图1是本发明的一种用于影视智能创作的情景互动的短视频生成方法流程示意图；

图2是本发明的一种用于影视智能创作的情景互动的短视频生成系统框图；

图3是本发明方法的步骤四的流程示意图；

图4是本发明方法的步骤五的流程示意图；

图5是本发明实施例的短视频生成示例图；

图6是本发明实施例的一种用于影视智能创作的情景互动的短视频生成装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明公开一种用于影视智能创作的情景互动的短视频生成方法，包括以下步骤：

步骤一，根据用户输入的场景描述，通过预训练的跨模态文本图像匹配模型，从场景素材库中获取到对应描述的场景图片。

采用预训练的跨模态文本图像匹配模型，从场景素材库中筛选得到一系列跟文本描述相匹配的场景图片，用户从候选序列中选择满意的一张作为场景图片。

其中预训练跨模态文本图像匹配模型采用CLIP（Contrastive Language-ImagePre-training）模型，CLIP模型包含文本编码器text encoder和图片编码器imageencoder，所示文本编码器text encoder和图片编码器image encoder的表示在隐空间中是对齐的。

所述步骤一具体包括以下子步骤：

步骤（1.1），将用户输入的场景描述，经过预训练的跨模态文本图像匹配模型的文本编码器text encoder处理，得到对应的文本特征向量I _text；

步骤（1.2），将场景素材库中的场景图片，输入图片编码器image encoder，获取每个图片对应的图像特征向量I _{image_i}，i=0,1,2…；

步骤（1.3），对文本特征向量和图像特征向量计算相似度，获取同文本语义相近的一系列场景图片，供用户选择；具体为计算文本特征向量和图像特征向量的余弦距离，将距离相近前几个的向量对应的图片作为匹配结果返回，余弦距离计算公式如下：

，

j表示文本特征向量序号，n为大于0的整数；

步骤（1.4），用户根据返回的图片结果，选择满意的图片作为最终合成视频的场景图片Image_scene。

步骤二，输入步骤一获取的场景图片，经过深度图估计模型，输出深度信息后利用预设的相机参数计算得到场景图片对应的三维信息。

所述深度图估计模型为DPT（dense prediction transforme），DPT的具体原理如下：

DPT模型使用ViT作为主干网络backbone，提取图像tokens；tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征，即多尺度的图像特征；多尺度的图像特征通过融合模块和上采样，得到深度密集预测结果，即深度信息。

通过DPT模型得到深度信息以后，通过预设的相机参数（FOV）和图像分辨率（H，W）计算归一化焦距（fx ，fy）和中心像素坐标(u₀ ，v₀ )，进一步得到图像对应的三维信息(x,y,z)；其中图像高为H，宽为W，每个二维像素都有一个对应的三维坐标信息。本发明的实施例中FOV取值为60度，图像分辨率为512*512。

所述三维信息(x,y,z)的计算公式如下所示：

。

步骤三，根据用户输入的动作描述，经过预训练语言模型，从动作素材库中筛选得到一系列跟描述相匹配的动作图片，组成对应描述的候选动作序列，从中得到所需动作图片组成动作序列，即用户从候选动作序列中选择满意的动作图片组成动作序列。

所述步骤三具体包括以下子步骤：

步骤（3.3），对动作文本特征向量和标签文本特征向量计算余弦相似度，获取相似度排名靠前的标签所对应的动作序列和动作序列所对应的原始渲染视频，用户从中选择满意的动作图片组成所需动作序列。

其中采用的语言预训练模型为CLIP中的文本编码器text encoder。

步骤四，用户上传演员人物的多个视角的全身照片，通过人体三维模型估计算法得到对人体模型参数，同时对人体模型进行纹理贴图，获取该演员人物所对应的带纹理的人体模型。

如图3所示，所述步骤四主要分为以下三步：

步骤（4.1），输入演员人物的多视角图片序列，利用人体姿态识别算法，获取人体的身体、手、脚和面部特征的关节点信息K，大小为N*3, N为关节点数量，3表示x,y在图像的坐标及置信度。其中所述人体姿态识别算法包括：openPose，HRNet，Blaze pose，本实施例中采用的人体姿态识别算法为openPose。

OpenPose的算法原理如下：

OpenPose采用bottom-up的方式，首先检测出各个关节点，再将它们与个体整合，具体如下：首先采用VGG19提取基础特征，然后分两个支路分别提取关节点置信图PartConfidence Maps 和关节点关联度Part Affinity Fields；根据上一步的信息将同一个人的关节点进行连接，合成为一个人的整体骨架。

步骤（4.2），通过人体三维模型估计算法得到人体模型参数；所述人体三维模型估计算法可以为SMPLify-x、HMR等，本实施例中采用的人体三维模型估计算法为simplify-x。

simplify-x的基本原理如下：simplify-x功能是从单张RGB图像和OpenPose检测的关节点上得到具有当前人体体型、动作、表情参数的模型和相机参数。

该步骤通过人体三维模型估计算法，将关节点信息K及演员照片输入3D人体模型SMPL-X，使人体模型拟合到单张演员RGB图像和步骤（4.1）获取到的2D关节点，输出每个视角对应的人体模型参数、3d mesh信息和相机参数。

所述SMPL-X是一个人体、面部和手部的 3D 联合人体模型。SMPL-X将SMPL与FLAME头模型和MANO手模型相结合，使用标准的顶点线性混合蒙皮学习blend shapes。SMPL-X中的模型参数总数为119，其中75个用于全局旋转和身体、眼睛、下巴关节，24个用于手部姿态PCA空间，10个用于主体形状，10个用于面部表情。

详细方法如下：

使用SMPL-X官网提供的OBJ格式的UV map，其中包含顶点坐标，纹理坐标，顶点坐标索引和纹理坐标索引。本实施例中采集了演员的4张多视图照片。

针对每张演员的人物照片分别做如下的处理：

（1）首先针对单张的演员人物照片初始化一张纹理贴图。

将3d mesh信息的顶点坐标通过相机参数进行映射，映射到二维演员人物照片图像空间中，提取该张演员照片所对应的三维人体模型的顶点，后续用来提取对应颜色。

根据距离相机的远近确定当前单张演员照片映射到的三维人体模型的顶点。

根据对应的三维人体模型的顶点、纹理坐标及纹理坐标索引，确定该单张演员照片可映射得到的纹理所在纹理贴图的区域，并对此区域进行标记。

其中纹理贴图的区域的像素值的获取可按照线性插值的方式获取：纹理的获得通过该纹理区域所对应的三维人体模型的顶点，从单视图找到对应顶点位置进行像素获取。

（2）根据（1）生成4张演员的纹理贴图，每张纹理贴图对应该视角下的可见纹理。

（3）对每个演员做完上述步骤以后，对所有视角的演员的纹理进行融合，融合的方法可以采用先前后视角，后左右视角的方法，用所有的纹理贴图通过异或的方式获取一张融合后的纹理图，用Texture表示。

（4）针对融合后的纹理Texture存在缺失纹理的区域，可以用邻域的纹理进行进一步的填充，最后获得填充后的纹理，用Texture_full表示。本实施例中采用的邻域区域为8邻域。

步骤五，用户输入运动轨迹，结合三维信息、动作序列和带纹理的人体模型，合成人物动作的前景短视频。

具体的，将步骤二的三维信息，步骤三中的动作序列，步骤四中的人体参数和纹理贴图及用户交互输入的运动轨迹作为输入，输出对应的演员动作的前景短视频，如图4所示，主要包括以下步骤：

步骤（5.1），用户通过交互的方式，在步骤一选中的场景图中选择动作的起始二维坐标点start和结束二维坐标点end。

步骤（5.2），利用二维坐标点在步骤二中输出的三维信息中查找对应的三维坐标start_3d和end_3d，分别表示三维空间的起始和结束位置。

步骤（5.3），将生成的三维信息所对应的坐标系跟动作素材库中的动作序列的坐标系进行对齐。具体的对齐方式按照两个坐标系的差异进行操作，包括旋转，坐标系翻转等操作。

步骤（5.4），根据起始和结束位置计算实际的空间距离，根据选择的动作序列计算该动作所对应的空间距离，空间距离的计算采用欧式距离；以实际的空间距离为基准，对选择的动作进行重复和删减操作，使实际的运动起始结束点跟指定的起始结束点重合，生成全局旋转和平移后的新的动作序列。

其中对筛选得到的动作距离如果小于实际的空间距离，对其进行重复操作，直到两者的空间距离一致。对筛选得到的动作距离大于实际的空间距离，则将多余的运动进行裁剪。

步骤（5.5），将步骤四生成的带纹理的人体模型和生成的新的动作序列作为输入，使用pyrender进行渲染，得到包含用户外形和指定动作序列，并且可以跟场景三维信息融合的动态前景短视频。

步骤六，将步骤五得到的前景短视频和步骤一的场景图片进行融合，获取情景互动的短视频。

对步骤五输出的前景短视频的每一帧，设置阈值，获取前景人物的掩膜序列human_masks和阴影序列shadows。通过human masks融合场景图像和人物动作视频，同时在生成结果中加入阴影序列信息shadows, 最终合成同场景信息融合后的情景互动的短视频，如图5所示。

其中阈值的选择可按照实际情况的像素值进行设置。

如图2所示，本发明公开一种用于影视智能创作的情景互动的短视频生成系统，包括：

与前述一种用于影视智能创作的情景互动的短视频生成方法的实施例相对应，本发明还提供了用于影视智能创作的情景互动的短视频生成装置的实施例。

参见图6，本发明实施例提供的一种用于影视智能创作的情景互动的短视频生成装置，包括一个或多个处理器，用于实现上述实施例中的用于影视智能创作的情景互动的短视频生成方法。

本发明用于影视智能创作的情景互动的短视频生成装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明的用于影视智能创作的情景互动的短视频生成装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的用于影视智能创作的情景互动的短视频生成方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤一具体包括以下子步骤：

，

j表示文本特征向量序号，n为大于0的整数；

3.如权利要求2所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤二具体为：输入步骤一获取的场景图片至深度图估计模型，所述深度图估计模型为DPT模型，DPT模型使用ViT作为主干网络，提取图像tokens，tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征，即多尺度的图像特征；多尺度的图像特征通过融合模块和上采样，得到深度密集预测结果，即深度信息；再通过预设的相机参数FOV和图像分辨率（H，W）计算归一化焦距（fx ，fy）和中心像素坐标(u₀ ，v₀ )，计算得到图像对应的三维信息(x,y,z)，其中图像高为H，宽为W，所述三维信息(x,y,z)的计算公式如下所示：

。

4.如权利要求3所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤三具体包括以下子步骤：

5.如权利要求4所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤四具体包括以下子步骤：

步骤（4.2），通过人体三维模型估计算法得到人体模型参数，具体为：利用人体三维模型估计算法，将关节点信息及演员照片输入三维人体模型，使三维人体模型拟合到单张演员RGB图像和步骤（4.1）获取到的关节点信息，输出每个视角对应的人体模型参数、3d mesh信息和相机参数；

6.如权利要求5所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤（4.3）具体包括以下操作处理：

（2）根据步骤（1）生成所有演员的纹理贴图；

7.如权利要求5所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤五具体包括以下子步骤：

8.如权利要求7所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤（5.4）中的对选择的动作进行重复和删减操作具体为：对筛选得到的动作距离如果小于实际的空间距离，对其进行重复操作，直到两者的空间距离一致；对筛选得到的动作距离大于实际的空间距离，则将多余的运动进行裁剪操作。

9.如权利要求7所述的一种用于影视智能创作的情景互动的短视频生成方法，其特征在于，所述步骤六具体为：对步骤五输出的前景短视频的每一帧，设置阈值，获取前景人物的掩膜序列human_masks和阴影序列shadows，通过human masks融合场景图像和人物动作视频，同时加入阴影序列信息shadows, 最终合成同场景信息融合后的情景互动的短视频。

10.一种用于影视智能创作的情景互动的短视频生成系统，其特征在于，包括：