CN112153242A

CN112153242A - 基于相机行为学习与样例驱动的虚拟摄影方法

Info

Publication number: CN112153242A
Application number: CN202010880855.3A
Authority: CN
Inventors: 蒋鸿达; 王滨; 王玺; 马克·克里斯蒂; 陈宝权
Original assignee: BEIJING FILM ACADEMY
Current assignee: BEIJING FILM ACADEMY
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-12-29

Abstract

本发明公开了一种基于相机行为学习与样例驱动的虚拟摄影方法。使用本发明能够实现对多人的拍摄，且无需人工标记，并且还可以生成新的相机运动规律，实现不同的控制效果。本发明首先重构了相机与人物的影视特征空间，然后从参考视频中提取影视特征空间信息，基于LSTM对参考视频中的相机运动规律进行编码，获得相机控制特征向量，最后利用相机控制特征向量控制相机进行拍摄。

Description

基于相机行为学习与样例驱动的虚拟摄影方法

技术领域

本发明涉及虚拟摄影技术领域，具体涉及一种基于相机行为学习与样例驱动的虚拟摄影方法。

背景技术

相机控制是指控制相机移动轨迹的技术。在影视动画、游戏制作等领域中，相机需要根据不同的场景内容选取合适的放置视角进行拍摄。传统的相机控制方法，大多数基于优化方法，通过人为定义需要满足的优化条件(如相机位姿关键帧、期望目标在屏幕上的位置等)，然后通过迭代求解或者数值方法寻找符合要求的相机路径。这类方法往往需要较长的求解时间，而且需要大量的用户交互，比较费时。

随着无人机的发展，出现了无人机控制的相机拍摄。无人机控制的相机拍摄多采用基于学习的方法，通过分析大量现有拍摄影像或利用人工打分学习相机运镜的规律，寻找拍摄过程中相机位置、视角与演员行为之间的联系，然后将学到的关系和规律用于控制新场景中的相机。目前，多采用基于强化学习的方法和基于模仿学习的方法实现无人机控制的相机拍摄。并且，目前基于学习的相机拍摄的拍摄目标均是对单人的跟拍。

其中，基于强化学习的方法，代表成果如Bonatti的《AutonomousAerialCinematography in Unstructured Environments with Learned Artistic Decision-making》(Bonatti R,Wang W,Ho C,et al.Autonomous aerial cinematography inunstructured environments with learned artistic decision-making[J].Journal ofField Robotics,2020,37(4):606-641.)，其将相机运动看作一个决策问题(Markov决策过程)，在每一时刻对相机的下一行为进行预测并利用强化学习的方法求解。强化学习方法包含三大要素：状态、动作、奖励函数。本工作中的状态包括两部分，一是拍摄对象周围的环境，二是当前相机与对象所成的角度，Bonatti的工作将相机的位置按照与人朝向的关系分为前后左右四个状态，相机的动作即在这四个位置之间进行变换；动作的选取分为两步，首先模型预测下一时刻期望的相机位置，然后根据当前位置和下一时刻位置的差异采取相应的动作；奖励通过人工打分给出，系统基于人工打分学习如何获得较高得分的相机控制策略。如图1所示。但是，该方法中，仍需要人工参与，且只适用于单人的拍摄。

Huang在《Learning toFilm from Professional Human Motion Videos》(HuangC,Lin C E,Yang Z,et al.Learning to film from professional human motion videos[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2019:4244-4253.)一文中首次基于学习的方法来学习视频中相机运镜轨迹。文章中，相机运动特征被认为与人物在屏幕上的运动特征、拍摄场景的背景特征还有背景变化光流场(反映相机运动方向)有关，其通过卷积+长短期记忆网络的方式，将上述特征输入到网络，并预测未来的以上特征变化趋势，并由人物在屏幕上位置的变化、背景光流场的变化，来反推出相机的运动趋势。但由于该网络通过局部信息对未来相机运动进行预测，对于不同种类的拍摄视频，它们在局部的信息是可能存在相似性的，如果一起进行训练，会出现网络的歧义性问题，因此，该方法需要采用人工分类数据集的方法，即通过人工观察，对数据集进行分类，并在各个类上单独训练模型。并且，其只能实现单一人物运动的拍摄。

随后，Huang在《One-Shot Imitation Filming of Human Motion Videos》(HuangC,Dang Y,Chen P,et al.One-Shot Imitation Filming of Human Motion Videos[J].arXiv preprint arXiv:1912.10609,2019.)中对前一方法进行了扩展，前一方法针对具有不同相机运动特点的视频分别采用了一个模型进行训练，而在这篇工作中，将所有的视频一起进行训练，从而只需要一个模型就可以实现各种规则的相机运动控制。为了解决不同视频中的歧义性问题，Huang依然利用了视频的类别信息，同时通过分类误差和模仿学习误差优化特征提取模块(如图2所示)。具体来说，该方法会首先从视频中提取出每一帧的前景(目标对象)和背景信息，然后分别输入给特征提取模块(两个带注意力机制的长短期记忆网络)，然后将提取到的特征分别输入给分类网络和模仿学习网络，分类网络输出为输入视频的类别信息，而模仿学习网络则直接输出之后的相机应该采取的运动。分类模块帮助网络识别需要模仿的视频的类别，而模仿学习模块则用于将不同类别的相机运动技巧应用到新的场景。但是，该方法仍需要人工标记，且相关工作都是采用模仿学习的方法，只能产生训练数据集中包含的相机运动规律，同时，相机拍摄对象仍然是单人。

目前的基于学习的相机拍摄，其拍摄对象为单人。但在影视制作中，经常会出现人物对话，动作交互等涉及到多对象拍摄的情景，人物数量增加后，相机的运动规律比单人情况要复杂得多，很难进行精确的分类标记，并且现有工作的模型难以对其中的相机运镜规律进行学习。

发明内容

有鉴于此，本发明提供了一种基于相机行为学习与样例驱动的虚拟摄影方法，能够实现对多人的拍摄，且无需人工标记。此外，本发明还可以生成新的相机运动规律，实现不同的控制效果。

本发明的基于相机行为学习与样例驱动的虚拟摄影方法，包括如下步骤：

步骤1，构建影视特征空间；

所述影视特征空间包括人物空间和相机空间，其中，人物空间包含人物之间的距离、人物头部朝向相对两人连线的夹角、人物头部朝向的夹角，以及哪位人物在屏幕上所占空间较大；相机空间采用复曲面空间坐标系，包括人物在屏幕上的二维位置坐标，相机的偏航角和俯仰角；

步骤2，从参考视频中提取各帧中人体二维骨架坐标，利用人体二维骨架坐标获得各帧的影视特征空间特征；

步骤3，构建多专家模型MoE并进行训练；

所述多专家模型MoE包括相机运动规律提取的Gating模块和应用相机运动规律的Prediction模块；其中，Gating模块采用长短期记忆循环网络LSTM，对步骤2提取的各帧的影视特征空间特征进行编码，获得参考视频中的相机运动规律特征向量ω；

Prediction模块包含三层全连接层，使用Gating模块获得的相机运动规律特征向量ω对全连接层的权重进行线性组合，得到最终的Prediction模块权重，获得训练好的Prediction模块；

步骤4，提取待拍摄的新场景的人物空间特征，将新场景的人物空间特征和相机空间特征初始值输入到训练好的Prediction模块，Prediction模块逐帧预测相机的位置，完成拍摄。

较优的，所述步骤2中，采用通过LCR-Net或Openpose对参考视频中每帧的人物二维骨架进行检测，并将不同帧间的相同人物二维骨架进行对应匹配，获得人体二维骨架坐标。

较优的，所述步骤2中，构建卷积神经网络，利用卷积神经网络从人体二维骨架坐标中获取影视特征空间特征；其中，卷积神经网络包括一维卷积层和多个并列的全连接层，首先通过一维卷积层对人体二维骨架的时序信息进行融合，然后采用多个并列的全连接层回归各个影视特征空间的特征。

较优的，选取常见的相机运动类型，对每种类型，在多个不同的场景下生成拍摄视频作为参考视频；通过截取不同的部分参考视频并提取对应的影视特征空间的特征，获得对应的相机控制特征向量，控制相机按照新的拍摄轨迹进行拍摄。

较优的，所述常见的相机运动类型包括正面拍摄、侧面拍摄、相对夹角拍摄和环绕拍摄。

有益效果：

(1)本发明将相机拍摄对象从单人扩展到多人，这类场景在电影摄影中普遍存在，具有广泛的应用空间，而已有方法仅能应用于拍摄对象为单人。

(2)本发明无需对输入的参考视频进行预先的人工标注分类，而是可以自动进行不同相机运动规则的识别和编码；避免了前期大量的准备工作以及多人拍摄下很难进行精确的分类标记。

(3)本发明提出了相机行为空间，通过在该空间上随机采样和插值可以得到训练数据中没有的相机运动规则；而已有方法只能模仿训练数据中包含的相机运动规则。

附图说明

图1为基于强化学习的相机运动控制方法。

图2为基于模仿学习的相机运动控制方法。

图3为影视特征空间示意图：(a)人物空间，(b)空间相机坐标。

图4为本发明算法流程示意图。

图5为本发明影视特征空间回归网络结构。

图6为本发明相机行为识别与编码和相机运动控制模块结构。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种无需人工标记的针对多名对象的相机行为学习方法。该方法可以自动学习到训练视频中相机移动与人物行为之间的联系，并将带有语义的复杂相机运动投影到低维特征空间上，实现具有相同拍摄效果的相机控制。

为了将拍摄对象从单人拓展到多人，本发明重新构建了相机与人物的影视特征空间。如图3所示，本发明构建的影视特征空间，该空间描述了人物的状态和相机相对角色所处的位姿，包括人物空间和相机空间。

具体的，以2人为例进行描述如下：人物空间包含(d_AB,s_A,s_B,s_AB,M)，其中A，B分别对应两个人物目标，d_AB表示两个人物之间的距离，S_A,s_B,s_AB分别表示两个人物的头部朝向相对两人连线的夹角，以及两个人物头部朝向的夹角，M表示哪位人物在屏幕上所占空间较大。相机空间采用了《Intuitiveand EfficientCameraControlwith the Toric Space》(Lino C,Christie M.Intuitive and efficient camera control with the toricspace[J].ACM Transactions on Graphics(TOG),2015,34(4):1-12.)一文中介绍的复曲面空间坐标系(Toric Space)，该坐标系是一种局部的相机坐标系，相机坐标由

表示，其中p_A,p_B表示人物A、B在屏幕上的位置坐标，而θ,

则分别表示相机的偏航角和俯仰角。本发明通过从视频数据中提取影视特征空间的特征，学习人物行为特征与相机特征之间的联系。

如图4所示，本发明基于相机行为学习与样例驱动的虚拟摄影方法包含三个部分：从参考视频中估计相机位姿和人物行为信息(提取影视特征空间的特征)、识别并编码视频中包含的相机运动规律、以及控制相机在三维场景中的拍摄。

其中，(1)从参考视频中估计相机位姿和人物行为信息(提取影视特征空间的特征)；该部分包含两步：

第一步，从参考视频中提取各帧中人体二维骨架坐标；

本步骤中，可以采用现有人体姿态估计方法，如LCR-Net、Openpose等对参考视频中每帧中人物的二维骨架进行预测，并将不同帧间的相同人物二维骨架进行匹配，选取出现比例最多的两位人物作为目标。本实施例采用LCR-Net，LCR-Net可参见《Lcr-net:Localization-classification-regression for human pose》(Rogez G,Weinzaepfel P,Schmid C.Lcr-net:Localization-classification-regression for human pose[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2017:3433-3441.)。

第二步，用卷积神经网络从被选取的人物骨架中来预测人物空间特征和相机空间特征。

卷积神经网络的输入是连续8帧的人物二维骨架在屏幕上的2D信息，首先通过一维卷积层将时序上的信息进行融合，然后分别采用不同的全连接层回归各个特征值。影视特征空间回归网络结构如表1和图5所示，其中k对应不同的特征具有的维度，即不同的特征值数量，图5中卷积块和全连接块分别对应表1中多层结构。

表1卷积神经网络结构

网络结构	输入/输出维度
		1维卷积+归一化层+ReLU激活层+池化层	828/432
1维卷积+归一化层+ReLU激活层+池化层	464/2128
		展开层	2*128/256
全连接层+ReLU激活层	256/128
		全连接层	128/k

可以通过人工生成方法得到大量不同相机位姿和人物运动的视频数据，然后分别以人物二维骨架作为输入，相机空间特征和人物空间特征作为输出，对构建的神经网络进行训练。例如，可选取四种常见的相机运动：正面拍摄(相机拍摄演员正脸)、侧面拍摄(相机从侧面跟拍)、相对夹角拍摄(相机和人物始终成一定角度)和环绕拍摄(相机来回拍摄)，对于每种拍摄类型，在多个不同的场景下生成拍摄视频，获得丰富的影视特征空间特征参考视频。这样，后续的多专家系统可以任取一段参考视频的影视特征空间特征(人物空间特征和相机空间特征)，获取对应的相机运动规律，通过选取参考视频，可以实现新的相机轨迹生成。

(2)识别并编码视频中包含的相机行为以及基于对应行为的相机控制，本发明利用多专家模型MoE，对这两部分同时求解。

首先，构建多专家模型(Mixture of Experts，简称MoE)：

所述多专家模型MoE包括相机运动规律提取的Gating模块和应用相机运动规律的Prediction模块两部分；其中，Gating模块采用长短期记忆循环网络LSTM，将(1)提取的影视特征空间特征逐帧输入Gating模块，获得参考视频中的相机运动规律特征向量ω；Prediction模块包含三层全连接层，使用Gating模块获得的相机运动规律特征向量ω对全连接层的权重进行线性组合，得到Prediction模块的权重，将新场景的人物空间特征和相机空间特征初始值输入到训练好的Prediction模块，Prediction模块逐帧预测相机的位置，完成拍摄；

如图6所示，将从参考视频中估计得到的影视特征空间的特征信息(包括相机位姿等相机空间特征和人物行为信息等人物空间特征)输入到LSTM，该网络每一时间接受两个输入，一个输入是当前时间观察到的相机和人物信息，另一个输入是从上一时间传递过来的历史信息，然后输出将当前观察和历史信息结合分析得到的特征，并将其传递给下一时间。通过LSTM网络能将不同长度的输入视频中包含的相机运动规律压缩为相同长度的向量，取当前时刻的输出向量，经过一层线性层和Softmax激活层(该层会使输出的向量各维度和为1)，得到低维的相机运动规律特征向量ω。

Prediction模块可以采用三层全连接层，其中前两层后面均有ReLU激活函数；输入的场景信息包含过去60帧和未来60帧的人物特征和过去30帧的相机特征，输出为未来30帧的相机特征。该Prediction模块包含m组不同的权重(m由用户指定，一般学习数据量较大则用较大的m)，对应MoE方法中的多个Experts，然后以Gating模块获得的相机运动规律特征向量ω作为系数，对这些权重进行线性求和，得到最终的Prediction模块权重，得到训练好的Prediction模块。

Prediction模块也可以采用循环神经网络，即不采用全连接网络通过历史帧和未来人物信息进行相机预测，而是通过循环神经网络每次输入当前帧人物信息结合隐式的历史信息预测当前帧相机运动；同样的，以Gating模块获得的相机运动规律特征向量ω作为系数，对循环神经网络的权重进行线性求和，得到最终的Prediction模块权重，得到训练好的Prediction模块。

最后，将待拍摄的三维场景中的人物空间特征以及初始化的相机空间特征逐帧输入到训练好的Prediction模块，得到完整的相机控制参数，最后经过拍摄渲染产生最终的拍摄视频。

Gating模块和Prediction模块同时进行训练，以预测的相机空间特征和真实的相机空间特征之间的差异作为误差。MOE模型可以自动学习到针对不同的相机运动特征应当编码到不同的中间向量，这些向量构成了相机行为空间，当输入视频中的相机运动特征发生变化时，对应的向量也会在该空间上发生变化，而在该空间上的采样或者插值对应也可以生成多样的相机运动轨迹。

概括来说，本发明首先通过提出影视特征空间对包含两名人物的相机拍摄运动规则进行了描述，然后采用卷积神经网络从参考视频中提取影视特征，再用MoE的模型，将相机运动规则编码到相机行为空间上，并控制相机运动模块生成具有对应相机运动规律的轨迹，实现具有特定风格的相机运动控制与拍摄。

综上，本发明提出了一种用于描述多个对象前提下的与相机运动规则有关的影视特征空间，并设计了基于二维骨架屏幕坐标的局部相机位姿和人物信息预测方法。本发明的视频相机行为识别与编码无需标记，并且，提取的相机行为可用于拍摄新的场景。此外，本发明可以基于相机已有的运动规则产生新的相机运动规则对相机的拍摄进行控制。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于相机行为学习与样例驱动的虚拟摄影方法，其特征在于，包括如下步骤：

步骤1，构建影视特征空间；

步骤3，构建多专家模型MoE并进行训练；

2.如权利要求1所述的基于相机行为学习与样例驱动的虚拟摄影方法，其特征在于，所述步骤2中，采用通过LCR-Net或Openpose对参考视频中每帧的人物二维骨架进行检测，并将不同帧间的相同人物二维骨架进行对应匹配，获得人体二维骨架坐标。

3.如权利要求1或2所述的基于相机行为学习与样例驱动的虚拟摄影方法，其特征在于，所述步骤2中，构建卷积神经网络，利用卷积神经网络从人体二维骨架坐标中获取影视特征空间特征；其中，卷积神经网络包括一维卷积层和多个并列的全连接层，首先通过一维卷积层对人体二维骨架的时序信息进行融合，然后采用多个并列的全连接层回归各个影视特征空间的特征。

4.如权利要求1所述的基于相机行为学习与样例驱动的虚拟摄影方法，其特征在于，选取常见的相机运动类型，对每种类型，在多个不同的场景下生成拍摄视频作为参考视频；通过截取不同的部分参考视频并提取对应的影视特征空间的特征，获得对应的相机控制特征向量，控制相机按照新的拍摄轨迹进行拍摄。

5.如权利要求4所述的基于相机行为学习与样例驱动的虚拟摄影方法，其特征在于，所述常见的相机运动类型包括正面拍摄、侧面拍摄、相对夹角拍摄和环绕拍摄。