CN116991298A

CN116991298A - 一种基于对抗神经网络的虚拟镜头控制方法

Info

Publication number: CN116991298A
Application number: CN202311262098.3A
Authority: CN
Inventors: 李志�; 伍琦; 李志刚; 谭龙; 陈宇; 刘孝卫; 邱德顺
Original assignee: Zihai Technology Chengdu Co ltd
Current assignee: Zihai Technology Chengdu Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-11-03
Anticipated expiration: 2043-09-27
Also published as: CN116991298B

Abstract

本申请涉及一种基于对抗神经网络的虚拟镜头控制方法，涉及虚拟镜头控制技术领域。方法通过对虚拟场景中的场景元素进行特征标记，获得场景特征；同时获取上一时刻的镜头控制参数，并依据上一时刻的镜头控制参数和场景特征构建对抗神经网络模型，利用对抗神经网络模型生成当前时刻的镜头控制参数；对抗神经网络模型依据当前时刻的镜头控制参数，利用渲染引擎进行镜头渲染，输出渲染序列；最后将渲染序列输入模型进行镜头渲染效果判断，并根据镜头渲染效果对模型参数进行调整，输出符合预期渲染效果的渲染序列。本发明采用对抗神经网络的方式训练镜头控制参数，节省了人工成本，降低了虚拟镜头控制技术对技术人员的专业能力要求。

Description

一种基于对抗神经网络的虚拟镜头控制方法

技术领域

本发明属于虚拟镜头控制技术领域，具体涉及一种基于对抗神经网络的虚拟镜头控制方法。

背景技术

在电影制作、视频游戏和虚拟现实（VR）环境中，镜头控制技术是至关重要的。基于序列的镜头控制技术，是一种借助于序列数据或者时间序列数据来管理和控制摄像机视角和行为的方法。

目前的镜头控制技术采用人工方式进行控制，人工成本较高，且镜头控制技术对于镜头控制人员的专业要求较高，在实现多种镜头效果和场景效果时，需要较高水平和技能的人才能完成较好的镜头控制，控制方式比较复杂。

发明内容

为解决上述现有技术的不足，本发明提供了一种基于对抗神经网络的虚拟镜头控制方法，旨在解决目前镜头控制技术人工成本较高，且对镜头控制技术人员专业能力要求较高的问题。

为实现以上目的，本申请采用如下技术方案：

本发明提供一种基于对抗神经网络的虚拟镜头控制方法，包括：

对虚拟场景中的场景元素进行特征标记，获得场景特征；

获取上一时刻的镜头控制参数，并依据所述上一时刻的镜头控制参数和所述场景特征构建对抗神经网络模型，利用对抗神经网络模型生成当前时刻的镜头控制参数；

所述对抗神经网络模型依据所述当前时刻的镜头控制参数，利用渲染引擎进行镜头渲染，输出渲染序列；

将所述渲染序列输入所述对抗神经网络模型进行镜头渲染效果判断，并根据镜头渲染效果对所述对抗神经网络模型的模型参数进行调整，输出符合预期渲染效果的渲染序列。

进一步地，所述对虚拟场景中的场景元素进行特征标记，获得场景特征，包括：

获取虚拟场景中场景元素的类型和属性数据；

依据虚拟场景中场景元素的类型对所有场景元素进行分类标记，获得场景元素的分类标记结果；

基于虚拟场景中的场景展现内容，对每个场景元素进行重要程度标记，获得场景元素的重要程度标记结果；

结合每个场景元素的分类标记结果、属性数据和重要程度标记结果，确定所述虚拟场景的场景特征。

进一步地，所述获取上一时刻的镜头控制参数，并依据所述上一时刻的镜头控制参数和所述场景特征构建对抗神经网络模型，利用对抗神经网络模型生成当前时刻的镜头控制参数，包括；

以镜头空间坐标、镜头姿态、镜头焦距和悬臂长度对镜头控制参数形式进行简化表示；

根据简化表示后的镜头控制参数形式，获取虚拟场景中上一时刻的镜头控制参数；

以上一时刻的镜头控制参数和所述场景特征为输入层，当前时刻的镜头控制参数为输出层，构建对抗神经网络模型；所述对抗神经网络模型包括镜头控制参数生成器和渲染效果判断器；

对抗神经网络模型进入训练状态，所述镜头控制参数生成器依据上一时刻的镜头控制参数和所述场景特征生成当前时刻的镜头控制参数。

进一步地，所述将所述渲染序列输入所述对抗神经网络模型进行镜头渲染效果判断，并根据镜头渲染效果对所述对抗神经网络模型的模型参数进行调整，输出符合预期渲染效果的渲染序列，包括：

将所述渲染序列输入所述对抗神经网络模型的渲染效果判断器，利用渲染效果判断器判断镜头渲染效果是否符合预设训练要求；

若渲染效果判断器判断镜头渲染效果符合预设训练要求，则对所述对抗神经网络模型的渲染效果判断器的模型参数进行反馈调整；

若渲染效果判断器判断镜头渲染效果不符合预设训练要求，则对所述对抗神经网络模型的镜头控制参数生成器的模型参数进行反馈调整；

若渲染效果判断器无法判断镜头渲染效果是否符合预设训练要求，则渲染序列符合预期渲染效果，对抗神经网络模型结束训练状态，输出此时生成的渲染序列。

进一步地，所述利用渲染引擎进行镜头渲染，还包括：

判断镜头渲染过程是否完成，若未完成，则将当前时刻的镜头控制参数输入对抗神经网络模型的镜头控制参数生成器，生成下一时刻的镜头控制参数进行镜头渲染，若完成渲染，则输出渲染序列。

本申请采用以上技术方案，至少具备以下有益效果：

通过本申请提供的基于对抗神经网络的虚拟镜头控制方法，方法采用对抗神经网络模型生成镜头控制参数来进行镜头渲染，并将镜头渲染输出的渲染序列输入对抗神经网络模型循环进行镜头渲染效果判断，同时根据镜头渲染效果对对抗神经网络模型的模型参数进行调整，最终输出符合预期渲染效果的渲染序列。本发明采用对抗神经网络的方式训练出镜头控制参数，替代人工对虚拟镜头进行控制，节省了人工成本，同时还能根据技术人员的个性化需求来对网络模型参数进行调整，生成多种不同风格的镜头控制方式，能帮助非专业人员创作出多样化的场景镜头，降低了虚拟镜头控制技术对技术人员的专业能力要求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一实施例示出的基于对抗神经网络的虚拟镜头控制方法流程图；

图2是根据一实施例示出的基于对抗神经网络的虚拟镜头控制技术实现流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

现有技术在对虚拟镜头进行控制时，多采用基于序列的虚拟镜头控制技术和基于跟随的虚拟镜头控制方法。其中，在电影制作、视频游戏和虚拟现实（VR）环境中，镜头控制技术是至关重要的。基于序列的镜头控制技术，是一种借助于序列数据或者时间序列数据来管理和控制摄像机视角和行为的方法。

在这种方法中，预先定义的镜头序列（可以是手动创建的或通过机器学习算法生成的）用于控制摄像机。这些序列可以包括镜头的位置、方向、焦距、深度，以及可能的运动路径。此外，也可以包括更复杂的元素，如摄像机的动态行为、目标物体的跟踪等。

这个过程可以简化为以下步骤：

11)定义镜头序列：

这个步骤可以在预制环境中完成。例如，在电影制作中，可能会使用故事板或预览动画来定义镜头序列。在游戏或VR环境中，可能会使用设计工具来创建镜头序列。

12)在运行时应用镜头序列：

在适当的时间，应用预定义的镜头序列。这可能涉及到将镜头序列与实时数据（如用户输入或游戏状态）相结合，以实现动态镜头控制。

13)调整和优化：

根据反馈和结果进行镜头序列的调整和优化。

基于序列的镜头控制技术为创作者提供了强大的工具，能够实现复杂的视觉效果，并能在各种环境中提供一致和优化的用户体验。

而基于跟随的镜头控制方法是一种常见的摄像机控制技术，尤其在电影制作、电视节目、视频游戏和虚拟现实（VR）环境中常被使用。这种方法的核心思想是让摄像机“跟随”一个或多个目标，无论这些目标如何移动或变化。

以下是实现这种镜头控制方法的基本步骤：

21)选择跟随目标：

首先，需要选择一个或多个跟随目标。目标可以是人物、物体、特定的场景元素，甚至是一段路径或者路线。

22)设定跟随参数：

这些参数可以包括摄像机与目标的距离、角度、高度等。也可以包括摄像机移动的速度、平滑度等。这些参数可以根据需要进行动态调整。

23)实现跟随行为：

当目标移动或变化时，摄像机需要根据设定的参数进行相应的移动或变化。这可能涉及到复杂的数学计算和物理模拟。

24)处理异常情况：

在实际的环境中，可能会出现各种异常情况，比如目标消失、被遮挡、移动速度过快等。需要设计合适的策略来处理这些情况。

基于跟随的镜头控制方法能够提供动态和引人入胜的视觉体验，但也需要考虑到各种实际的限制和挑战。例如，避免摄像机穿过物体、处理快速移动的目标、防止摄像机晃动等。此外，也需要考虑到用户的舒适度和体验，避免产生晕眩或者困扰。

但上述两种虚拟镜头控制技术还存在以下缺点：

1.基于序列的方式需要应用大量的人工进行镜头的控制，在复杂场景中制作镜头需要大量的人力投入。

2.基于序列的方式完成的镜头效果与制作人的能力呈正相关，需要较高水平和技能的人才能完成较好的镜头控制。

3.基于序列的方式严重依赖于人的技能水平，同一个人的运镜特点相似，导致最终输出结果风格较为相似，无法保证丰富性。

4.基于跟随的方式只能实现简单场景效果的使用，无法处理复杂的变化。

基于跟随的方式视角永远以某一主体为中心，无法呈现全局效果，镜头切换等丰富的运镜方式。

针对上述现有技术的缺陷，本发明提供一种基于对抗神经网络的虚拟镜头控制方法，利用对抗神经网络技术，将虚拟镜头的控制逻辑抽象化为对应的控制参数，通过对场景特征的识别，使用场景特征作为输入层，镜头控制参数作为输出层，构建了一套自动化的镜头控制技术，帮助非专业人士在虚拟制片中完成复杂场景的拍摄。

请参阅图1和图2，图1是一种基于对抗神经网络的虚拟镜头控制方法流程图，图2是一种基于对抗神经网络的虚拟镜头控制技术实现流程图。如图1所示，一种基于对抗神经网络的虚拟镜头控制方法，包括：

S1：对虚拟场景中的场景元素进行特征标记，获得场景特征；

S2：获取上一时刻的镜头控制参数，并依据所述上一时刻的镜头控制参数和所述场景特征构建对抗神经网络模型，利用对抗神经网络模型生成当前时刻的镜头控制参数；

S3：所述对抗神经网络模型依据所述当前时刻的镜头控制参数，利用渲染引擎进行镜头渲染，输出渲染序列；

S4：将所述渲染序列输入所述对抗神经网络模型进行镜头渲染效果判断，并根据镜头渲染效果对所述对抗神经网络模型的模型参数进行调整，输出符合预期渲染效果的渲染序列。

进一步地，在一个实施例中，本发明对步骤S1做进一步地详细阐述，步骤S1包括但不限于以下步骤：

S101：获取虚拟场景中场景元素的类型和属性数据。

S102：依据虚拟场景中场景元素的类型对所有场景元素进行分类标记，获得场景元素的分类标记结果。

S103：基于虚拟场景中的场景展现内容，对每个场景元素进行重要程度标记，获得场景元素的重要程度标记结果。

S104：结合每个场景元素的分类标记结果、属性数据和重要程度标记结果，确定所述虚拟场景的场景特征。

具体的，场景元素是指虚拟场景中的实体或虚拟对象，其属性数据是指实体或虚拟对象的状态，例如可使用、移动中、站立、静止等状态。场景展现内容是指实体或虚拟对象在虚拟场景中所呈现的状态和相对场景的重要性。

在具体实施过程中，虚拟三维环境由多种实体及虚拟对象组成，本发明对于某一场景，事先对场景中各元素进行特征标记（元素标记可复用），标记方式为使用复合标签及属性数据相结合的方式。例如一个简单车祸场景，可对发生车祸的车辆进行标记：动态物体、载具、已毁坏、重要程度高；对等待车辆进行标记：动态物体、载具、可驾驶、重要程度中；对处置交警进行标记：动态物体、人物、重要程度高；等等。将所有标记进行抽象数据整理后得到场景特征。

本发明会对虚拟场景中各物体进行分类，并针对镜头控制分别标记不同的场景元素。与上述现有跟随方式镜头控制技术不同的是，本发明会针对虚拟场景中所有元素进行标记，进行静态物体、动态物体、人物、载具、弹药、道具等多种维度的标记，并依据场景展现内容对每个元素进行重要程度标记，原则上重要性越强的物体出现在镜头中的需求越强。

进一步地，在一个实施例中，本发明对步骤S2做进一步地详细阐述，步骤S2包括但不限于以下步骤：

S201：以镜头空间坐标、镜头姿态、镜头焦距和悬臂长度对镜头控制参数形式进行简化表示，便于后续对抗神经网络模型能快速生成镜头控制参数。

S202：根据简化表示后的镜头控制参数形式，获取虚拟场景中上一时刻的镜头控制参数。

S203：以上一时刻的镜头控制参数和所述场景特征为输入层，当前时刻的镜头控制参数为输出层，构建对抗神经网络模型。其中，参照图2所示，本发明的对抗神经网络模型包括镜头控制参数生成器和渲染效果判断器。

S204：对抗神经网络模型进入训练状态，所述镜头控制参数生成器依据上一时刻的镜头控制参数和所述场景特征生成当前时刻的镜头控制参数。

其中，本发明在建立对抗神经网络模型时使用了虚拟场景中所有的参与元素，能适应多样化的镜头表现方式。同时，本发明采用神经网络算法进行镜头控制，相比现有人工进行镜头控制的方式，可以节省大量的人工成本。此外使用对抗神经网络的方式训练镜头控制，可生成多种不同风格镜头控制方式，帮助非专业人员创作出多样化的场景镜头。

具体的，本发明的镜头控制参数生成器的结构包括：输入层：场景特征。隐藏层：当下设定为5层，每层约有1000神经元数量。各层使用激活函数有ReLU、tanh和sigmoid。输出层：镜头控制参数。

本发明的渲染效果判断器的结构包括：输入层：镜头渲染画面，即渲染序列。隐藏层：当下设定为5层，每层约有1000神经元数量。各层使用激活函数有ReLU、tanh和sigmoid。输出层：一个神经元，使用sigmoid激活函数，输出一个介于0和1之间的值，代表判别器认为输入参数是满意效果的概率。

其中，本发明的步骤S3在对抗神经网络模型生成镜头控制参数时，使用镜头控制参数在第三方渲染引擎中驱动并进行对应的场景渲染。其中，第三方渲染引擎可以采用现有的渲染器实现，如Octane、Arnold、Redshif、VRay、Corona、D5、Lumion、Enscape等，具体根据实际情况进行选择，本发明在此不再赘述。

进一步地，在一个实施例中，参照图2所示，本发明对步骤S4做进一步地详细阐述，步骤S4包括但不限于以下步骤内容：

其中，本发明通过渲染效果判断器和镜头控制参数生成器进行对抗式训练，能有效提高模型的镜头控制能力，确保最终生成的镜头渲染画面符合预期渲染效果。

进一步地，参照图2所示，本发明利用渲染引擎进行镜头渲染时，还包括：

本发明通过判断镜头渲染过程是否完成，可以确保生成的连贯的镜头控制参数，进而保证渲染序列的连贯性。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”、“多”的含义是指至少两个。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于对抗神经网络的虚拟镜头控制方法，其特征在于，包括：

对虚拟场景中的场景元素进行特征标记，获得场景特征；

2.根据权利要求1所述的基于对抗神经网络的虚拟镜头控制方法，其特征在于，所述对虚拟场景中的场景元素进行特征标记，获得场景特征，包括：

获取虚拟场景中场景元素的类型和属性数据；

3.根据权利要求1所述的基于对抗神经网络的虚拟镜头控制方法，其特征在于，所述获取上一时刻的镜头控制参数，并依据所述上一时刻的镜头控制参数和所述场景特征构建对抗神经网络模型，利用对抗神经网络模型生成当前时刻的镜头控制参数，包括；

4.根据权利要求1所述的基于对抗神经网络的虚拟镜头控制方法，其特征在于，所述将所述渲染序列输入所述对抗神经网络模型进行镜头渲染效果判断，并根据镜头渲染效果对所述对抗神经网络模型的模型参数进行调整，输出符合预期渲染效果的渲染序列，包括：

5.根据权利要求1所述的基于对抗神经网络的虚拟镜头控制方法，其特征在于，所述利用渲染引擎进行镜头渲染，还包括：