CN111726518A

CN111726518A - 用于捕获图像的系统和相机设备

Info

Publication number: CN111726518A
Application number: CN202010169525.3A
Authority: CN
Inventors: N.J.威廉姆斯; F.卡佩洛; R.古普塔; M.J.布鲁格尔曼斯
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-03-19
Filing date: 2020-03-12
Publication date: 2020-09-29
Also published as: GB2584986B; EP3713217B1; JP2020174345A; US11785328B2; EP3713217A3; GB201903715D0; EP3713217A2; GB2584986A; US20200304707A1

Abstract

提供了一种用于调整场景中相机相对于被摄体的姿势的系统。该系统包括：相机，其可操作以捕获场景的图像；识别单元，其被配置为识别场景的图像中感兴趣的对象；姿势处理器，其被配置为获得场景中的感兴趣的对象相对于相机的姿势；场景分析器，其可操作以基于感兴趣的对象的获得的姿势和由相机捕获的图像中的至少一个，来确定与由相机捕获的图像相关联的场景质量。控制器被配置为基于在当前姿势下捕获的图像的场景质量小于阈值的确定来使相机的姿势得到调整。还提供了对应的设备。

Description

用于捕获图像的系统和相机设备

技术领域

本公开涉及用于捕获图像的系统和相机设备。

背景技术

近期，摄影和摄像的可及性极大地提高了。这至少在一定程度上是由于市面上可供使用的便携式相机设备的激增所刺激的。这些便携式设备形式多样，从智能手机设备、可穿戴相机、专业相机、到并入有相机的无人机等。

虽然相机设备的分辨率不断提高，但此类相机捕获的图像质量在很大程度上取决于操作者的技能。例如，诸如构图、被摄体遮挡、照明、景深等特性通常取决于操作者如何在场景中相对于被摄体配置相机。对于包含复杂地形或多个动态被摄体的场景，定位相机以获得最佳图像并不总是简单的。

一些相机设备(诸如

Clip相机)被训练成自动检测场景中发生的感兴趣的事件，并捕获这些事件的图像。虽然这确实是有用的，但以这种方式捕获的图像的质量在很大程度上仍然取决于操作者将相机指向何处。此外，这些设备往往是静止的，因此对动态场景的覆盖范围有限。

跟踪感兴趣对象的相机设备是本领域中公知的。例如，所谓的“跟着我”无人机能够基于对用户位置的检测(例如，使用与该用户相关联的GPS信号或计算机视觉)跟踪用户。然而，典型地，这些无人机保持与用户预先确定的相对位置，并且不响应任何检测到的被摄体的遮挡或被捕获图像的美学质量的下降。

一些视频游戏提供虚拟相机，用于捕获虚拟场景的图像，诸如游戏中的环境。该虚拟相机的姿势通常由玩家控制，因此捕获图像的质量取决于玩家对虚拟相机的控制。在一些游戏中，可以使用预先配置的脚本路径来控制相机的姿势，例如，与化身身体上的点保持一定的距离，就像上面描述的无人机的虚拟版本一样。

然而，一般来说，以这种方式定位虚拟相机并不总能得到被捕获的虚拟场景的最佳图像。

本发明力图解决或至少缓解这些问题。

发明内容

根据本文公开的第一方面，提供了根据权利要求1所述的系统。

根据本文公开的第二方面，提供了根据权利要求15所述的装置。

附图说明

为了帮助理解本公开并展示如何实施实施例，以示例的方式参考附图，其中：

图1示出了包括两个被摄体和相对于被摄体具有不同姿势的相机的场景的示例；以及

图2示意性地示出了用于捕获场景图像的系统的示例。

具体实施方式

公开了一种用于捕获图像的系统和相机设备。在下面的描述中，示出了一些具体细节，以提供对本发明的实施例的透彻理解。然而，对于本领域技术人员来说显而易见的是，不需要利用这些具体细节来实施本发明。相反，为了在适当的情况下清楚起见，省略了本领域技术人员已知的特定细节。

由于各种原因，相机操作者可能希望捕获场景的图像。在一些示例中，场景可以对应于真实的物理环境，并且用户可能希望捕获环境的静止图像或视频图像。通常，这是为了捕获场景中一个或多个被摄体的图像。对象可以对应于例如场景中的人、相机操作者本身(例如，在自拍的情况下)、场景中的特定对象等。

在一些示例中，场景可以是虚拟场景，诸如作为视频游戏的一部分渲染的虚拟环境，并且用户可能希望使用虚拟相机捕获游戏中事件的静止图像或视频图像。例如，玩家可能希望捕获视频游戏中其化身的图像。

图1示出了包括两个被摄体102、104的场景100的示例。在图1中，被摄体对应于人，但可能对应于任何感兴趣的项目。在这种情况下，场景包括另一对象(树106)。将相机显示在相对于场景中的被摄体的第一位置和取向(即姿势)110A处。将相机在该姿势捕获的图像显示为第一图像110A。也将相机显示在相对于场景中的被摄体的第二姿势110B处，并且将在该姿势捕获的对应图像显示为第二图像110B。场景可以对应于真实的物理环境或虚拟环境，如前所述。

如图1所示，在大多数情况下，在第一姿势110A处捕获的图像被认为是次优的，因为第二被摄体被树部分遮挡，并且在捕获的图像中，两个被摄体的面部都不是正面的。如果可以自动调整相机的位置以获得场景的图像，其中至少一个被摄体没有被场景中的任何其他对象遮挡(或至少以可接受的量遮挡)，则是可取的。此外，如果能以美观的构图、符合已知艺术原则(诸如三分法则)来捕获这个图像，则将是可取的。现在将参照图2描述用于获取此类图像的系统。

图2示意性地示出了用于自动调整相机201的位置以获得场景中被摄体的图像的系统200的示例。

系统200包括相机201，其可操作以捕获场景的图像。相机201可对应于真实相机201，其包括例如图像传感器和用于将光聚焦到传感器上的一个或多个透镜。可选地，相机201可以对应于例如提供在视频游戏中能使玩家捕获虚拟场景的图像的虚拟相机201。

系统200还包括识别单元202，该识别单元202被配置为接收由相机201捕获的图像并识别场景中感兴趣的对象。识别单元202可以使用计算机视觉或机器学习技术来执行该识别。

识别单元202还可以被配置为识别捕获图像对应的场景类型。在一些示例中，可以使用经过训练的机器学习模型(在本文中称为场景类型模型203)来执行该识别。场景类型模型203可以被训练来学习代表不同类型场景的高级特征。该训练可使用已用对应场景标识符标记的不同场景的图像实现(即，有监督学习)，或使用随后基于内容的相似性分组为不同场景类型的未标记图像来实现(即，使用无监督学习)。在后一种情况下，开发者可以用标识符手动标记不同的组，指示该组中的图像所代表的场景类型。在前一种情况下，可以预先标记图像，例如使用指示场景类型的元数据。

高级特征可对应于例如已被学习为对应于场景类型的图像的构图、颜色、强度变化(或这些特征的表示)。例如，在一些实施例中，可以将图像输入到诸如DenseNet、ResNet、MobileNet等特征表示生成器，并且可以训练机器学习模型来学习与DenseNet、ResNet、MobileNet等生成的特征表示相对应的标识符(表示场景类型)。

在一些示例中，场景标识符可对应于用于训练的图像已被标记的元数据。例如，诸如Instagram^TM,Flickr^TM等网站允许用户使用标识符(例如，话题标签、地理标签)标记图像，指示这些图像是什么场景类型，因此这些标记可用于训练场景类型模型，以便场景类型模型可以学习对应于不同标签的高级图像特征。对于视频片段，诸如YouTube^TM,Twitch^TM等网站允许用户标记视频，因此可以使用这些网站的视频片段及其对应的标签来训练场景类型模型。这样，场景类型模型可以学习与给定视频剪辑相关联的标识符(基于对给定类型视频剪辑所学习的高级特征的相似性)。

一旦学习了不同场景的高级特征，训练的场景类型模型203就可以识别当前图像最可能对应的那些场景类型(如果有的话)。通常，首先识别相机201正在捕获的场景的类型是有用的，因为捕获图像的质量将取决于此。例如，如果相机201操作者打算捕获例如场景中的演员，则如果场景中至少有一个演员的面部可见，则场景质量可能更高。

应当理解的是，训练场景类型模型203所用的图像可以取决于如何使用相机201，以及相机201操作者可能希望能够自动识别的场景类型。例如，如果相机201将用于捕获场景中的演员，则可以使用与电影相关的电影片段或与拍摄的内容相关的电影的类型来训练场景类型模型203。如果相机201将用于捕获包含许多动作(诸如体育活动)的动态场景，则可以使用此类活动的图像来训练场景类型模型203。最终，场景类型模型203被训练的程度和性质可能取决于相机201的预期用途。

系统200还包括姿势处理器204，所述姿势处理器204被配置为获取场景中感兴趣对象相对于相机201的姿势。这里，术语“对象的姿势”用于描述对象在场景中相对于相机201的位置和/或取向。姿势处理器204可被配置为接收或捕获数据，从该数据中可以确定对象相对于相机201的姿势。例如，姿势处理器204可以被配置为接收已经用姿势数据标记的图像，该姿势数据指示这些图像中对象相对于捕获它们的相机的姿势。可选地，或者另外，姿势处理器204可以被配置为通过处理由相机捕获的图像来确定场景中对象的姿势。也就是说，姿势数据可以对应于提取的图像数据。通常，姿势处理器204被配置为获取姿势数据，所述姿势数据指示感兴趣对象相对于相机的方向和感兴趣对象相对于相机的距离中的至少一个。

在一些示例中，感兴趣的对象可以对应于人，并且可以基于从由人持有或佩戴的电子设备接收的数据(例如，GPS和/或陀螺仪数据)来近似人的3D姿势。例如，在诸如橄榄球等运动比赛中，球员可能会佩戴一个传感器，该传感器跟踪他们在球场上的位置(可能还有取向)，并且可将该数据提供为姿势处理器的输入。如果相机的姿势已知(即被跟踪)，则可以确定玩家相对于相机的姿势。可选地，可以使用已知的校准技术来确定玩家相对于相机的姿势；例如，如果相机的内在特性已知，并且玩家在3D场景中的姿势已知，则可以确定相机相对于被摄体的位置和取向。

在一些示例中，可能不使用例如传感器来跟踪场景中的被摄体的姿势。在这种示例中，可以使用例如面部和/或骨骼跟踪来确定场景中被摄体的姿势，以检测场景中被摄体相对于相机的位置和/或取向。也可以使用例如与关于距离相机预定距离和取向处的标准对象的已知尺寸和形状相关的信息来确定被摄体相对于相机的位置和/或取向。这可适用于例如相机是固定的、并且被摄体(诸如体育比赛中的队员)相对远离相机的情况(例如，由所谓的“蜘蛛摄像机”捕获的视频)。

如果存在多个相机，则可以使用特征跟踪来确定相机相对于被摄体的位置和取向。例如，如果在由多个相机捕获的图像中检测到公共特征，则可以确定相机相对于被摄体的姿势。

在感兴趣的对象对应于虚拟场景中的虚拟对象的示例中(例如，在视频游戏中)，姿势处理器204可以被配置为简单地接收指示虚拟场景中虚拟对象的姿势的姿势数据。

应当理解的是，可以使用用于确定3D场景中的被摄体相对于相机201的位置和/或取向的任何适当方法。

回到图2，系统200还包括场景分析器205，其可操作以确定与相机捕获的图像相关联的场景质量。场景分析器205被配置为基于以下的一个或多个来确定场景质量：表示场景中感兴趣的对象相对于相机的姿势的姿势数据(如上所述获得的)、相机在给定姿势下捕获的图像、以及提取的图像数据(例如，低通滤波、低分辨率和/或单色图像)。这些形式的场景分析器输入可以是单独的(即独立的)或组合的，视情况而定。

场景分析器205可以包括机器学习模型，该机器学习模型已被训练成将这些输入中的任何一个映射到对应的场景质量(即值或参数)，场景质量指示从相机的当前姿势捕获的被摄体的图像很可能被观看者视为是美观的。在本文描述的实施例中，该模型被称为场景质量模型206。

可以使用姿势数据和/或图像数据和/或提取的图像数据以及与该数据相关联的场景质量来训练场景质量模型206。可以从姿势、图像和/或提取的图像数据(即，被专业地捕获或流行的)的来源中推断与该数据相关联的场景质量，如下所述。

在一些示例中，场景质量模型206被训练成基于以下至少一种来确定与捕获图像相关联的场景质量：

-被摄体相对于相机的方向(例如，被摄体的面部是否可见)；

-被摄体与相机的距离(例如，被摄体的面部是否可以分辨)；

-捕获图像中被摄体的遮挡(例如，被摄体被遮挡的百分比，以及被摄体面部等关键区域被遮挡的百分比)；

-被摄体的图像内的位置/占位(美学方面，例如三分法则或特定于流派的规则)。

可以使用为其相关联的场景质量已知的多个训练图像获得的该信息中的至少一些来训练场景质量模型206。这样，场景质量模型206被训练，以学习被摄体方向、距离、遮挡、位置/占位中的一个和多个和相关联的场景质量之间的关系。

应当理解的是，在某些情况下，训练图像中可能存在多个被摄体，因此可以使用这些被摄体中的每个被摄体的方向、距离、遮挡和/或图像占位以及与特写这些被摄体的训练图像相关联的场景质量来训练场景质量模型。

可以通过执行例如骨骼和面部跟踪、并确定在捕获图像中检测到的面部或骨骼中相对于被摄体已知对应的参考面部或骨骼被遮挡的百分比来确定被摄体的遮挡。可以将被摄体的面部识别为关键区域，并且如果该关键区域被超过阈值量地遮挡，则可以将与捕获图像相关联的遮挡确定为较高。可以使用与多个训练图像相关联的遮挡、以及与这些图像相关联的场景质量来训练场景质量模型206。

应当理解的是，在一些示例中，可能希望被摄体不是面向前方的，因此可以使用识别的场景类型和与为该场景类型捕获的图像相关联的遮挡来训练场景质量模型。对于给定图像，可以从与已从其确定了遮挡的图像相关联的来源或流行度来推断与给定遮挡相关联的场景质量。例如，可将从专业捕获的图像获得的遮挡信息自动标记为与高场景质量相关联。这样，可以训练场景质量模型206以学习与图像中的被摄体相关联的遮挡和与该图像相关联的场景质量之间的关系。

可通过处理由相机捕获的图像来确定捕获图像内被摄体的位置/占位。例如，可以识别(例如，通过识别单元)捕获图像中的感兴趣的对象，并且可以确定该对象相对于捕获图像中的其他对象/特征的位置。在一个简单的示例中，这可能涉及确定感兴趣的对象是沿水平轴大约1/3还是2/3的位置。

应当理解的是，场景中被摄体的“期望”位置将通常取决于被捕获场景的类型，因此可以使用场景类型(例如，作为标识符)和该场景类型的图像中被摄体的位置来训练场景质量模型。在一些示例中，识别单元可被配置为识别图像中被摄体的相对位置/占位，并且可将该信息、以及与从中获得图像中被摄体的相对位置/占位的图像相关联的场景质量一起提供给场景质量模型作为输入。再次，如果被摄体的位置/占位是从专业捕获的和/或流行内容中获得的，则可将与图像中的被摄体的位置/占位相关联的场景质量识别为高。这样，场景质量模型206可以被训练，以学习给定场景类型的图像中被摄体的位置/占位与相关联的场景质量之间的关系。

在一些示例中，可以使用在实时事件的记录期间捕获的姿势数据来训练场景质量模型。例如，在广播诸如体育比赛(例如，足球、篮球、橄榄球、冰球等)的事件期间，可以跟踪球员在球场上的位置，也可以跟踪相机的姿势(或基于例如已知的场地几何结构和已知的球员位置获得)。可将该姿势数据输入到场景质量模型，并且可将该姿势数据标记为对应于高场景质量，因为它对应于以专业方式捕获的内容。通过这种方式，场景质量模型能够学习对应于高场景质量的相机相对于玩家姿势。

在一些示例中，从视频游戏片段获得的姿势数据可用于训练场景质量模型。在这样的示例中，可以准确地知晓虚拟相机相对于虚拟对象(例如，玩家的化身)的姿势，并且该姿势数据可以用于训练场景质量模型。如果例如它对应于由流行内容创建者捕获的视频片段或具有与之相关联的高流行度(例如，大量的在线“查看”或“喜欢”)，则可将与该姿势数据相关联的场景质量识别为高。通过使用该数据训练场景质量模型206，场景质量模型206可以学习虚拟相机相对于虚拟对象的哪些姿势可能导致捕获具有高场景质量的图像。同样，可能需要使用与虚拟相机姿势数据相关联的场景类型来训练场景质量模型，以确保在每个场景类型(即每个游戏类型)的基础上学习虚拟相机姿势(相对于被摄体)和场景质量之间的关系。

在一些示例中，可以使用不同场景中不同感兴趣的对象的训练图像来进一步训练场景质量模型206。也就是说，与从这些图像中提取的姿势、遮挡和构图信息相反，可以提供图像作为场景质量模型的输入。这样，可以训练场景质量模型以隐式地学习与高场景质量的图像相对应的图像特征(例如，照明、遮挡、构图等)。如上所述，例如，如果它们对应于专业捕获的内容或已知流行的内容，则可以从训练图像的来源推断出高场景质量。例如，从Instagram^TM、Flickr^TM、500px^TM,、YouTube^TM等获取的图像如果具有大量的与之相关联的“喜欢”或“查看”，则可以知道它们具有高场景质量。可以基于其来源、相关的流行度(例如，超过阈值的喜欢或查看)和创建者中的至少一个来将训练图像标记为具有高场景质量。

应当理解的是，用于训练场景质量模型206的训练图像的质量可能存在可变性。例如，广播体育片段的质量可能比YouTube^TM的片段质量更高。为了补偿这一点，例如，可以使用例如CycleGAN的外部系统将训练图像转换为标准格式。

通过使用这些数据训练场景质量模型，场景质量模型可以学习给定场景类型的高级别图像特征(颜色、构图、照明等)，这些特征是高场景质量图像所共有的。一旦经过训练，场景质量模型就可以确定给定场景类型的当前捕获图像是否具有高场景质量。

系统200还包括控制器207，该控制器207被配置为接收来自场景分析器205的输入，并且响应于该输入调整相机201的姿势。该输入提供与当前图像相关联的场景质量是否小于阈值的指示。

在相机201是真实相机201的实施例中，控制器207可被配置为生成由运动装置209(诸如其中并入或连接相机201的设备的电机)接收的信号。运动装置209可操作以控制相机201的平移和旋转中的至少一个。在一些示例中，相机201可并入到包括轮子和/或螺旋桨(例如，无人机)的设备中，并且控制器207可被配置为控制施加到轮子和/或螺旋桨(以及与之相关联的任何操纵装置)上的功率。在相机201是虚拟相机201的实施例中，控制器207可以简单地确定虚拟场景中虚拟相机201要移动到的新姿势。

可选地，如果相机是手持式相机，则控制器可以通过控制相机上的引导界面来调整相机的姿势，而不是通过控制电机来调整相机的姿势，相机上的引导界面例如在相机的后屏幕上(和/或取景器中)指向所需移动方向的箭头的图形，任选地，其在所示方向上指示期望距离，诸如随着用户将相机移动到理想位置而减小的数字或线。

在一些示例中，控制器207包括机器学习模型(在本文中称为姿势模型208)，该机器学习模型被训练以确定更可能导致以更高的场景质量捕获感兴趣的对象的图像的相机201的姿势。姿势模型208可以包括使用深度强化学习训练的代理。例如，可以通过在场景周围随机或预测地移动来训练该代理，以学习导致场景中被摄体的最大整体场景质量的姿势。也就是说，回报函数可以对应于随时间变化的平均场景质量。如前所述，可以使用场景质量模型206来确定捕获图像的场景质量。

在优选示例中，通过围绕包括虚拟对象的虚拟场景移动来训练代理(这是优选的，因为相机围绕被摄体的移动将更容易实现)。例如，可以由游戏引擎提供虚拟场景，并且虚拟场景可以对应于要部署真实相机的真实场景。对于虚拟相机在虚拟场景中相对于被摄体的每个姿势，可以使用经训练的场景质量模型206来确定与该姿势相关联的场景质量，并且可以训练代理以学习可能导致捕获具有更高的相关联场景质量的图像的新姿势。在一些示例中，虚拟场景可以包括多个虚拟被摄体，并且场景质量模型可以被配置为基于这些被摄体相对于相机的姿势来确定场景质量。

在一个示例中，姿势模型208的输入可以包括虚拟相机的位置和/或取向、虚拟被摄体的位置和/或取向、以及场景质量模型206的输出。可以使用这些输入来训练姿势模型，以便学习(通过深度强化学习)最大化平均场景质量的虚拟相机相对于虚拟被摄体的姿势。

可以通过围绕多个不同场景移动并在这些场景中捕获不同感兴趣的对象的图像来训练代理。一旦针对足够数量的不同场景类型和不同被摄体训练了代理，就可将姿势模型208用于调整相机201的位置。还可以训练姿势模型以学习导致捕获到更高场景质量的图像的一个或多个相机参数，如后文所述。

在一些示例中，感兴趣的对象(即被摄体)可以包括人物角色。在这样的示例中，可以使用与人物角色相关的姿势和/或图像数据来训练场景质量模型206。在这些示例中，可以训练姿势模型来调整相机的姿势，以确保更少的人物被摄体的面部被遮挡(例如，更面向前方)。

应当理解的是，对于人物被摄体，识别单元202可被配置为检测场景中的人物被摄体(使用例如图像分割、面部识别等)，并将其提供给场景质量模型206作为输入，以便场景分析器205可采用适当训练的模型(即，用对应场景中人物被摄体的图像训练的模型)来确定捕获图像的场景质量。

通常，对于包含多个人物角色的场景，将存在一个或多个主要角色和一个或多个次要角色。如果相机201操作者正在场景中捕获角色，则主要演员色可以对应于正在讲话或执行预定动作的角色。通常，期望相机201聚焦于主要演员，因此场景的捕获图像应该包括比次要演员更多的主要演员的内容。此外，通常希望主要演员的面部不被遮挡。

因此，在一些示例中，可以使用与多个角色相关的姿势和/或图像数据来训练场景质量模型206，其中将图像中的一个或多个角色识别为主要角色。可将与捕获图像中可见(和/或遮挡小于阈值量)的主要角色相对应的图像数据和/或姿势数据标记为具有高场景质量，使得场景质量模型206被训练以学习特写主要角色的图像的质量高于其中主要角色不可见的图像的质量。因此，控制器207可以被训练以确定相机201的姿势，该姿势更可能导致主要角色的面部未被遮挡的场景的图像，或者至少以适合相机201操作者打算捕获的场景类型的方式出现。

在一些示例中，用户可以提供指示哪些角色是主要角色的输入，并且场景质量模型206(经过充分训练)可以基于该识别来确定场景的场景质量。可以使用例如显示由相机201捕获的视频的触摸屏来执行该识别，并且用户可以选择与场景中的主要角色相对应的触摸屏区域。更一般地，识别单元202可操作以接收指示场景中的一个或多个主要角色的输入。

在一些示例中，可以自动执行对场景中的主要角色的检测。例如，系统200可以包括一个或多个用于检测角色的语音的麦克风，并且基于对该角色的语音的检测可将该角色识别为场景中的主要角色。可选地，或者另外，可以基于例如脚本预先知道场景中的不同角色被设置的讲话的时间，并且可以将该信息提供给识别单元202，以在捕获场景时识别相机的焦点应该在其上的不同角色。通常，系统可包括音频单元(未示出)，其可操作以接收指示至少一个角色正在或即将开始讲话的语音数据，并且可将该信息提供给识别单元202，识别单元202随后确定哪个角色对应于主要角色。

在一些场景中，可能存在打算用相机201捕获的多个主要角色或至少两个角色。在这样的示例中，可将至少两个角色识别以包含在捕获图像中(通过上述任何一种方式)，并且场景质量模型206可以被配置为基于场景中多个角色的识别来确定与捕获图像相关联的场景质量。再次，可以使用与多个主要角色相关的姿势数据和/或图像数据来训练场景质量模型206，并且对于其中主要角色的面部可见的图像，场景质量可以更高。这样，控制器207可以被配置为确定导致多个主要角色的面部的最小遮挡的相机201的姿势。

在一些示例中，相机201操作者可能希望在捕获的图像中包括其它感兴趣的对象(即除了人之外的)。在这样的示例中，识别单元202可以被配置为接收输入，该输入指示将一个或多个感兴趣的对象以包括在捕获的图像中。可将该输入提供给场景质量模型206，场景质量模型206随后基于所识别的对象、这些对象相对于相机201的姿势和/或场景的捕获图像来确定所捕获图像的场景质量。

可以通过用户输入来识别对象以包括在捕获图像中。例如，由相机201捕获的视频图像可以显示在屏幕上，并且用户可以选择与他们打算包括在捕获图像中的感兴趣的对象相对应的屏幕区域。在机器学习或计算机视觉技术可用于识别场景中的不同对象的情况下，对象的识别在某种程度上可以是自动化的，其中操作者提供关于哪些已识别的对象具有包括在捕获图像中的更高的优先级的手动输入。

在一些示例中，操作者可能希望最大化所捕获图像中特定感兴趣的对象的数量或数额。例如，在恐怖电影中，典型地示出被树包围的角色来唤起恐惧。因此，相机201操作者可以提供指示要最大化捕获图像中的树的数量的输入。例如，这可能涉及在显示图像中选择例如“树”作为感兴趣的对象，并且提供进一步的使捕获图像中的树的数量最大化的输入。可将这些输入提供给场景质量模型206，场景质量模型206随后基于在捕获图像中识别的感兴趣的对象的数量、任何识别的角色、捕获图像和/或任何识别的角色相对于相机201的姿势来确定捕获图像的场景质量。应当理解的是，对于识别出的角色可见的图像，通常场景质量将更高，因此这确保当试图最大化捕获中的例如树的数量时，不会将相机201移动到尽可能远的位置。

对于一些内容，可能需要基于场景中的音频来源的位置(不一定与人物角色相关联)来调整相机201的位置。因此，在一些示例中，系统200可以包括两个或多个麦克风，用于检测场景中的音频来源。识别单元202可以被配置为接收由麦克风检测到的音频信号，并且响应于此，识别检测到的音频信号对应的已知音频来源。这可以使用例如机器学习来实现，或者通过简单地将音频信号的频谱特性与多个已知音频来源的频谱特性进行比较来实现。姿势处理器204可以被配置为基于由两个或多个麦克风检测到的音频信号来确定音频来源相对于麦克风的3D姿势。在优选示例中，两个或更多麦克风与包括相机201的设备相关联，因此可以从麦克风检测到的音频信号推断出音频来源相对于相机201的姿势。

场景质量模型206可以被配置为接收识别的音频来源(即类型)的指示和音频来源相对于相机的3D姿势，并且响应于此，确定与捕获图像相关联的场景质量。这可以是除了由识别单元202识别为感兴趣的对象的诸如人物角色的任何其它感兴趣的对象之外的被摄体。应当理解的是，在这样的示例中，将进一步使用指示场景中不同类型音频来源的数据、以及指示音频来源相对于用于在场景中捕获被摄体的相机201的位置和取向中的至少一个的姿势数据来训练场景质量模型206，。

这样，场景质量模型206可以基于与图像被摄体相关联的姿势数据和/或图像数据、以及音频来源相对于相机201的姿势，进一步确定与捕获图像相关联的场景质量。

在一个示例中，可以使用其中角色从爆炸中逃跑的视频帧来训练场景质量模型206，并且场景质量模型206可以学习捕获这样的场景时应该采用的相机201的姿势(例如，基于演员相对于相机的姿势、捕获的图像，以及爆炸地点)。

在一些示例中，场景可以是虚拟场景，并且因此可以准确地知道音频来源的类型及其在场景中的相对位置。此外，还可以知道不同音频来源生成音频的时间。因此，可将音频的类型、相对位置、以及任选地时间信息输入到场景质量模型206。然后，场景质量模型206可以基于例如捕获的图像、例如玩家化身的位置、和场景中的任何音频来源来确定与虚拟场景的当前捕获图像相关联的场景质量。再次，在这样的示例中，可以使用训练图像(例如，视频帧)、和/或例如玩家化身的3D姿势、以及和场景中任何音频来源的相对位置来训练场景质量模型206。应当理解的是，在一些视频游戏中，可能存在多个音频来源，并且因此识别单元202可操作以检测对玩家的体验贡献最大的音频来源(例如，最大声的和或最接近的音频来源)。

在一些示例中，可以使用固有的相机数据进一步训练场景质量模型206，固有的相机数据指示用于捕获被摄体的图像的一个或多个相机参数。固有数据可以包括例如用于捕获训练图像的相机的焦距、光圈、快门速度、任何特殊模式(例如，HDR)。例如，如果使用由真实相机捕获的真实场景的图像来训练场景质量模型，则可以使用捕获的图像作为元数据来编码固有的相机数据。这样，可以训练场景质量模型206以确定被摄体相对于相机的相对姿势(可选地，捕获图像数据)、一个或多个相机参数与对应场景质量之间的关系。

在这些示例中(在考虑了固有参数的情况下)，控制器207可以被进一步配置成基于当前图像的场景质量小于阈值的确定来调整相机201的一个或多个固有参数。例如，控制器207可被配置为基于所确定的场景质量来调整相机201的焦距(即变焦)、光圈、快门速度等。可以基于由场景质量模型206输出的确定的场景质量来确定对这些参数的调整。

如前所述，控制器207可以包括训练为确定对相机201的姿势的调整的姿势模型208。在还调整了一个或多个相机参数的示例中，可以进一步训练姿势模型以确定一个或多个相机参数以使场景质量最大化。这可能设计，例如，使用深度强化学习来训练代理以捕获虚拟场景中被摄体的多个图像，并学习导致捕获的图像具有最高场景质量(对于给定位置)的相机参数的组合。可以使用训练的场景质量模型206来确定在该训练期间捕获的图像的场景质量(即，通过确定这些图像与已知场景质量高的对应场景中的对应被摄体的图像的接近程度)。

在附加或替代示例中，控制器可被配置为基于相机已被移动到的姿势来调整例如景深。例如，如果相机已被移动到距离被摄体小于阈值距离的位置，则控制器可确定在背景模糊的情况下图像的被摄体应被聚焦。相反，如果确定图像中的被摄体与相机的调整姿势之间的距离大于阈值距离，则控制器可被配置为控制例如相机的光圈，以确保场景的全部或大部分被聚焦。

虽然上述示例已被描述为系统内的单独单元，但是应当理解的是，其中一个或多个可以包括在同一设备中，并且设备本身构成相机设备。相机设备可以对应于具有可控位置和取向的物理设备。例如，相机设备可对应于具有动力轮或螺旋桨(例如，无人机)的相机设备。在将所有组件并入同一物理设备的示例中，可以使用例如一个或多个服务器(例如，云)来训练各种机器学习模型，并且将训练的机器学习模型导出到物理相机设备的相关模块中。

因此，在一些实施例中，提供了一种系统，其中，真实的相机设备包括：传感器，其可操作以捕获场景的图像；以及从列表中选择的一个或多个，所述列表包括：识别单元(例如，可操作以识别捕获图像中感兴趣的对象)；姿势处理器(例如，可操作以获取场景中感兴趣的对象相对于相机的姿势)；场景分析器(例如，被配置为检测与相机捕获的图像相关联的场景质量，场景分析器包括经过训练以确定与捕获的图像相关联的场景质量的机器学习模型)；以及控制器(例如，可操作以基于当前图像的场景质量小于阈值的确定，来控制相机设备的姿势)。

应当理解的是，本文描述的机器学习模型例如可以包括经训练的神经网络(诸如经训练的卷积或递归神经网络(分别为CNN、RNN)、多层感知器(MLP)或限制玻尔兹曼机器)中的至少一个。最终，可以使用任何合适的机器学习系统。

还应当理解的是，在一些示例中，相机不需要捕获图像以确定场景质量。例如，在一些示例中，可以仅基于被摄体相对于相机的姿势来确定场景质量，而实际不需要捕获任何图像(例如，如果在广播事件期间正在跟踪被摄体和相机的位置)。

还应当理解的是，可在通过软件指令或通过包含或替换专用硬件(如适用)适当地适配的传统硬件上执行本文所述的方法。因此，对传统等效设备的现有部分所需的适配可以以计算机程序产品的形式实现，该计算机程序产品包括存储在诸如软盘、光盘、硬盘、PROM、RAM、闪存、或这些或其他存储介质的任何组合的非暂时性机器可读介质上的处理器可实现指令，或者在硬件中实现为ASIC(专用集成电路)或FPGA(现场可编程门阵列)或其他适合用于适配传统等效设备的可配置电路。另外，这种计算机程序可以经由诸如以太网、无线网络、因特网或这些或其他网络的任何组合的网络上的数据信号来发送。

Claims

1.一种系统，包括：

相机，其可操作以捕获场景的图像；

识别单元，其被配置为识别所述场景的图像中感兴趣的对象；

姿势处理器，其被配置为获得所述场景中的所述感兴趣的对象相对于所述相机的姿势；

场景分析器，其可操作以基于所述感兴趣的对象的获得的姿势和由所述相机捕获的图像中的至少一个，确定与由所述相机以各个姿势捕获的图像相关联的场景质量；

其中，所述场景分析器包括第一机器学习模型，所述第一机器学习模型被训练以确定与由所述相机以各个姿势捕获的图像相关联的所述场景质量；以及

控制器，其被配置为基于在当前姿势下捕获的图像的所述场景质量小于阈值的确定，使所述相机的姿势得到调整。

2.根据权利要求1所述的系统，其中，使用指示所述场景中的所述感兴趣的对象相对于捕获所述训练图像的所述相机的姿势的姿势数据、和/或感兴趣的对象的训练图像来训练所述第一机器学习模型，其中用各自的场景质量标记所述姿势数据和/或训练图像。

3.根据权利要求2所述的系统，其中，基于所述姿势数据和/或训练图像的来源、以及与所述姿势数据和/或训练图像相关联的用户反馈中的至少一个，将所述姿势数据和/或训练图像标记为具有高场景质量。

4.根据权利要求2或3所述的系统，其中，所述控制器被配置为基于在当前姿势下捕获的图像的所述场景质量小于阈值的确定，调整所述相机的一个或多个固有参数；并且

其中，使用指示为其获得所述姿势数据和/或训练图像的所述相机的一个或多个固有参数的固有数据，进一步训练所述第一机器学习模型。

5.根据权利要求1所述的系统，其中，所述控制器包括第二机器学习模型，所述第二机器学习模型被训练以确定可能导致捕获具有更高场景质量的所述感兴趣的对象的图像的所述相机的姿势。

6.根据权利要求5所述的系统，其中，所述第二机器学习模型包括使用深度强化学习训练的代理；并且

其中，所述代理被训练以学习最大化由所述相机捕获的图像的所述场景质量的姿势，通过在多个不同的虚拟场景周围移动并捕获那些场景中感兴趣的对象的虚拟图像来训练所述代理。

7.根据权利要求6所述的系统，其中，所述第二机器学习模型被配置为通过将所述虚拟图像输入经训练的所述第一机器学习模型，确定与所述虚拟图像相关联的场景质量。

8.根据权利要求1所述的系统，其中，所述识别单元被配置为识别由所述相机捕获的所述图像所对应的场景类型；并且

其中，所述场景分析器还被配置为基于识别的场景类型，确定与所述相机在各个姿势下捕获的图像相关联的场景质量。

9.根据权利要求8所述的系统，其中，所述识别单元包括第三机器学习模型，所述第三机器学习模型被训练以识别由所述相机捕获的图像所对应的场景类型，使用不同场景类型的图像和对应的场景标识符训练所述第三机器学习模型。

10.根据权利要求1所述的系统，其中，所述感兴趣的对象包括场景中的角色，并且其中，使用场景中角色的姿势数据和/或训练图像来训练所述场景质量模型。

11.根据权利要求10所述的系统，其中，所述感兴趣的对象包括多个角色，所述系统包括：

输入单元，其可操作以接收来自用户的输入，所述输入指示将包括在所述捕获图像中的一个或多个角色；并且

其中，所述场景分析器被配置为基于将包括在所述捕获图像中的所述角色的3D姿势和/或由所述相机捕获的所述图像来确定场景质量。

12.根据权利要求11所述的系统，包括：

音频单元，其可操作以接收语音数据，所述语音数据指示所述角色中的至少一个正在或即将开始讲话；

其中，所述识别单元被配置为基于所述语音数据识别作为主要角色的所述角色中的至少一个；并且

其中，所述场景分析器被配置为基于所述场景中所述至少一个主要角色相对于所述相机的姿势和/或由所述相机捕获的所述图像来检测所述场景质量。

13.根据权利要求1所述的系统，其中，所述识别单元被配置为识别所述场景中的音频的来源，并且所述姿势处理器被配置为确定所述音频的来源相对于所述相机的姿势；并且

其中，所述场景分析器还被配置为基于检测到的所述音频的来源相对于所述相机的姿势来确定与所述捕获图像相关联的场景质量。

14.根据权利要求1所述的系统，其中，所述相机是真实相机，所述系统包括用于控制所述相机的所述位置和/或取向的运动装置；并且

其中，所述运动装置包括轮子和螺旋桨中的至少一个，所述运动装置被布置成接收来自所述控制器的输入。

15.根据权利要求1所述的系统，其中，

所述相机设备包括：

传感器，其可操作以捕获场景的图像；以及

从列表中选择的一个或多个，所述列表包括：

i.所述识别单元，

ii.所述姿势处理器，

iii.所述场景分析器，以及

iv.所述控制器。