CN116420170B

CN116420170B - 姿势的消歧

Info

Publication number: CN116420170B
Application number: CN202180075826.2A
Authority: CN
Inventors: S·巴什基罗夫; M·泰勒
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2020-11-11
Filing date: 2021-11-08
Publication date: 2024-03-12
Anticipated expiration: 2041-11-08
Also published as: CN116420170A; US20220148247A1; EP4244818A4; WO2022103678A1; EP4244818A1; JP2023544215A; US11763508B2

Abstract

公开了涉及姿势消歧的计算机动画。从来自不同的视角的角色的对应的同期视频图像生成两个或更多个源分割掩模。生成对应于所述两个或更多个同期视频图像中的所述角色的动画角色的三维模型。两个或更多个不同的目标分割掩模与对应于所述两个或更多个视频图像中的所述角色的所述动画角色的不同视角相对应。将每个目标分割掩模与对应的源分割掩模进行比较，根据所述比较，确定所述三维模型的姿势是否与所述视频图像中的所述角色的姿势相对应。当所述模型姿势与所述视频图像中的所述角色的所述姿势相对应时，使用所述模型来生成动画化角色的动画帧。

Description

姿势的消歧

技术领域

本申请涉及计算机动画，并且更具体地，涉及在从视频生成动画时确定姿势。

背景技术

计算机动画通常是指用于以数字方式生成动画图像的过程。现代计算机动画通常使用3D计算机图形来生成图像。为了产生移动的错觉，显示计算机生成的图像并用与其相似但时间略有提前的新图像反复地替换(例如，以24、25或30帧/秒的速率)。计算机动画技术可实现传统上与电视和电影相关联的相同移动错觉。计算机动画可被认为是使用计算机来生成移动图像的帧的数字实现的定格动画技术。数字计算的使用允许使用3D模型来实现更详细和逼真的动画。与更传统的基于物理的过程(诸如将微缩模型用于特效镜头，或为群众场景雇用临时演员)相比，计算机动画提供了更大的控制和灵活性。现代计算机动画系统和软件可创建使用任何其他技术都无法实现的图像。

在大多数3D计算机动画系统中，动画师创建构成角色的解剖结构的片段的简化表示。这种简化表示可被认为是骨架模型。片段被布置到默认位置，有时称为绑定姿势，或人物的T型姿势。每个片段的位置由动画变量定义，这些动画变量一起定义人物的姿势。在人类和动物角色中，骨架模型的许多部分可对应于实际骨骼，但骨架动画也可用于为其他事物制作动画，包括拟人化对象，诸如人形机器人或动画师希望描绘的其他无生命对象，就好像它们是有生命的一样。计算机使用该模型来计算特定角色的确切位置和取向，最终将其渲染到图像中。因此，通过随时间改变动画变量值，动画师通过使角色从一帧移动到另一帧来创建运动。

有几种方法来生成动画变量值以获得逼真运动。传统上，动画师直接操纵这些值。虽然这可通过为每一帧设置值来完成，但更常见的是在战略点(帧)处适时地设置这些值，并且计算机在称为关键帧的过程中在它们之间进行插值或“补间”。

称为运动捕捉的较新方法使用实景镜头。当计算机动画由运动捕捉驱动时，真正的表演者表演场景，就好像他们是要制作动画的角色一样。使用摄像机和关键点(例如，关节和四肢)处的标记将表演者的运动记录到计算机，并且然后将表演应用于动画化角色。最近，已经开发出使用运动捕捉数据作为强化学习(RL)中的参考以训练神经网络来控制人形机器人或以较低的成本创建逼真的动画的技术。

正是在这种背景下提出本公开的各方面。

附图说明

通过考虑下面结合附图的具体实施方式可容易理解本公开的教义，在附图中：

图1A和图1B是示出用单目相机获得的图像中的姿势歧义问题的图。

图2A是示出根据本公开的各方面的计算机动画中的姿势消歧方法的示意图。

图2B是示出根据本公开的各方面的计算机动画中的姿势消歧方法的流程图。

图3是示出根据本公开的各方面的用于涉及姿势消歧的计算机动画的设备的示意图。

图4A是示出根据本公开的各方面的从视频得出的计算机动画中的单目姿势预测的流程图。

图4B是示出根据本公开的各方面的机器人的计算机动画控制中的单目姿势预测的流程图。

图5是示出根据本公开的各方面的用于涉及计算机动画中的单目姿势预测的计算机动画的设备的示意图。

具体实施方式

尽管以下详细描述包含用于说明目的的许多具体细节，但是本领域的任何普通技术人员应了解，对以下细节的许多变化和更改在本发明的范围内。因此，下面描述的本发明的示例性实施方案在不失一般性并且未暗示对要求保护的本发明的限制的情况下进行阐述。

引言

尽管运动捕捉在人类表演者上效果很好，但在动物、尤其是野生动物上在一定程度上更为困难。具体地，为动物装配运动捕捉标记存在挑战，并且动物不太可能在贴有运动捕捉标记的情况下自然地行动。直接从动物、尤其是野生动物的视频制作动画将更有利。可例如用图像分析软件分析此类视频的帧，以确定动物在每一帧处的姿势。

根据本公开的各方面，诸如动物的角色的动画可从视频帧得出。具体地，动物的分割掩模可从动物的视频帧和动物的3D模型生成。真正动物和3D动物模型的姿势越多，它们的分割掩模就越不同。例如，差异的定量表示可以是交并比。

众所周知，交并比是用于衡量对象检测器在特定数据集上的准确性的评估指标。交并比用于评估对象检测器和卷积神经网络检测器(R-CNN、Faster R-CNN、YOLO等)的性能，这与用于生成预测的算法无关。为图像中的对象或角色提供预测边界框或分割掩模作为输出的任何算法都可使用并交比(IoU)进行评估。应用交并比来评估(任意)对象检测器典型地需要(1)基础事实边界框(例如，来自测试集的手工标记的边界框，其指定对象在图像中的位置)和(2)来自模型的预测边界框。通过这两组边界框，交并比(IoU)可被确定为

IoU＝重叠面积/并集面积。

该值越接近1，预测越好。

如图1A所示，为了从输入视频帧(本文称为源帧)生成源角色SC的计算机动画帧(目标帧)，动画程序生成视频图像中的角色C的分割掩模。图像分割为视频图像中的角色创建像素级源掩模102。动画程序使用源掩模102对源角色SC进行建模，并且生成具有处于某个预测初始姿势的对应当前角色CC的对应当前动画帧。然后从当前动画帧生成当前分割掩模104。计算机动画可使用表示当前角色的关节和四肢的位置和取向的三维数据对当前角色CC进行建模。角色的关节和四肢的位置和取向的组合通常称为角色的姿势。当前姿势可通过迭代地比较当前分割掩模与源分割掩模102(例如，通过计算IoU)并调整姿势以生成更新的当前动画帧和当前分割掩模来优化。为了确定角色C的正确姿势，为处于已知姿势的对应目标角色TC生成目标分割掩模106。目标分割掩模106可从表示在目标角色处于已知姿势时该角色的关节和四肢的位置和取向的对应三维目标数据集来生成。可通过确定当前分割掩模104与一个或多个不同的目标分割掩模106之间的IoU来确定正确姿势。根据一些实现方式，当前分割掩模和/或目标分割掩模中的一者或多者可是仅显示角色的姿势轮廓的边缘掩模。将边缘掩模用于分割掩模的益处是边缘掩模可提供更准确的姿势匹配。将边缘掩模用作分割掩模可避免虚拟角色离得较远并因此具有不同比例的情况。在这种情况下，虚拟角色可适配在目标分割掩模的内部并被目标掩模遮挡。

可对后续帧重复上述过程。另外，基于物理的模拟可模拟角色与其周围环境之间的交互以评估从当前分割掩模104和/或目标分割掩模106确定的给定候选姿势的可行性。不可行姿势的示例包括例如会导致角色跌倒的姿势。在生成目标分割掩模106之前可迭代地重复该姿势可行性评估过程，使得分割掩模生成限于可行姿势。

分割掩模是所有身体点在图像平面上的2D投影。因此，它不携带有关原始3D姿势的完整信息。因此，单目图像中的对象的姿势可能存在歧义。图1B示出了这种歧义的示例。在图1B中，来自视频帧的狼W的图像已经被分析以生成分割图像100作为计算机动画的输入。在图1中，关于狼的前腿F1、F2或后腿H1、H2中的哪一个最靠近相机存在歧义。为了在3D中更好地匹配姿势，可使用一些技术。

姿势的消歧

根据本公开的各方面，计算机动画方法可将目标分割掩模用于角色的多个相机视图来解决姿势中的歧义。这可通过最小化针对不同的姿势的当前分割掩模与不同的目标分割掩模之间的差异以获得正确的姿势(例如，交并比)来完成。

图2A和图2B描绘了根据本公开的各方面的计算机动画方法的可能实现方式。如图2A所示，对视频帧201进行分析以从视频帧201生成角色CC的两个不同的同期视图的对应的当前分割掩模203。通过示例而非限制的方式，可使用两个不同的同步相机来生成显示角色CC的不同的同期视图的两个视频帧201。如本文所用，术语“同期视图”通常意味着视图是在大致相同的时间(例如，对于标准视频帧速率，在彼此的一个或两个帧增量内)获得的。在一些实现方式中，有可能使用经由两个或更多个成角度的镜观察角色CC的单个相机以不同的角度获得两个不同的图像。在这样的实现方式中，可从同一视频帧的对应于不同图像的不同部分得出两个或多个不同的同期图像和对应的分割掩模。对应的目标分割掩模205可通过首先从源视频帧201生成三维动画数据203并使用动画数据生成目标分割掩模205来生成。通过示例而非限制的方式，当前角色CC的不同的视图可包括相对于参考平面(例如，用于生成目标分割掩模205的虚拟相机的图像平面)以+45°和-45°取向的视图。同样地，源掩模207可从用相对于对应的参考平面以+45°和-45°取向的两个相机拍摄的角色CC的同时视频帧生成。

在图2B所示的实现方式中，目标分割掩模205可如下从动画数据203生成。如在202处所指示，由计算机动画程序分析输入帧201以生成动画数据203。动画数据203对应于来自视频帧201的处于目标姿势的角色CC的三维模型TC。动画程序通过涉及从虚拟相机VC1、VC2投影模型TC的不同的视图的过程来生成目标分割掩模205。虚拟相机的取向可对应于生成视频帧201的真实相机的取向。还从输入视频帧201生成源分割掩模205，如在204处所指示。在一些实现方式中，源分割掩模207可任选地用于生成或细化动画数据203的过程中。

为了确定三维模型TC的姿势是否显示对应于视频帧201中的角色CC的姿势，将目标分割掩模205与对应的源分割掩模进行比较，如在206处所指示。然后分析比较的结果，如在208处所指示，通过示例而非限制的方式，在206处，可计算每个目标/源掩模比较的IoU。然后，在208处，可将每个IoU计算的结果与某个阈值进行比较以确定模型TC的姿势是否对应于角色CC的指示。根据208处的分析结果，然后可调整动画数据203以在202处调整模型TC的姿势。在204处可生成新的目标掩模并且在206处将其与源掩模进行比较。调整动画数据可包括但不限于调整模型TC的一个或多个关节角度、旋转虚拟相机VC1、VC2相对于参考平面的取向，或关节角度调整和相机取向调整的某种组合。该过程可迭代直到分析结果指示模型TC的姿势与视频帧201中的角色CC的姿势之间的匹配。一旦获得了匹配，然后便可使用最终姿势数据209来生成动画帧211，如在210处所指示。

通过示例而非限制的方式，当前角色CC的不同的视图可包括相对于参考平面(例如，用于生成当前源掩模205的虚拟相机的图像平面)以+45°和-45°取向的视图。

如在214处所指示，然后可将当前分割掩模207与目标分割掩模213、215中的每一个进行比较以确定与视频帧201中的源角色的正确姿势相对应的当前角色CC的最终姿势数据217。通过示例而非限制的方式，将当前掩模205与目标掩模209、211进行比较可包括计算目标分割掩模213、215中的每一个与当前分割掩模207之间的交并比(IoU)。可将IoU值与阈值进行比较，并且可根据当前掩模来确定正确姿势，例如，当前掩模具有至少满足阈值的每个目标掩模的IoU值。在多个当前掩模207都不满足阈值的情况下，可确定错误状态并且可调整目标掩模以校正问题。例如，如果IoU值不高于IoU阈值或者两个IoU值之间的差值低于差值阈值，则可调整目标数据211以将目标角色TC的姿势改变为不同的姿势并且可生成新的目标分割掩模213、215，如在212处所指示。如果IoU值高于特定姿势而不是其他姿势的阈值，则动画程序可生成对应于该特定姿势的最终姿势数据217。动画程序然后可使用最终姿势数据217来生成描绘处于正确姿势的当前角色CC的最终动画帧219，如在216处所指示。然后可针对下一个视频帧重复前述过程，如在218处所指示。

虽然前述示例使用模型TC和角色CC的两个不同的视图来生成两个目标分割掩模和两个对应的源掩模，但是可使用三个或更多个不同的视图来生成三个或更多个对应的不同的目标分割掩模和源分割掩模。此外，在替代的实现方式中，目标分割掩模可从使用两个或更多个不同的相机获得的两个或更多个对应不同角度的目标角色的两个或更多个同期视频帧生成。

姿势消歧设备

图3描绘了用于如例如关于图2A和图2B所描述的涉及姿势消歧的计算机动画的设备。该设备可包括耦合到用户输入装置302的计算装置300。用户输入装置302可以是控制器、触摸屏、传声器、键盘、鼠标、操纵杆或允许用户向系统中输入包括声音数据的信息的其他装置。用户输入装置可耦合到触觉反馈装置或包括触觉反馈装置，例如，振动马达、力反馈系统、超声反馈系统或气压反馈系统。另外地，该系统可包括用于可移动关节的控制器301，例如但不限于，在涉及用于控制物理机器人的基于物理的动画的实现方式中，控制器可控制用于机器人上的关节的马达或致动器。

计算装置300可包括一个或多个处理器单元303，该一个或多个处理器单元可根据众所周知的架构(例如，诸如单核、双核、四核、多核、处理器-协处理器、单元处理器等)来配置。计算装置还可包括一个或多个存储器单元304(例如，随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等)。

处理器单元303可执行一个或多个程序317，该一个或多个程序的部分可存储在存储器304中，并且处理器303可操作性地耦合到存储器，例如，经由数据总线305访问存储器。系统317还可存储在大容量存储设备315中，诸如，磁盘驱动器、CD-ROM驱动器、磁带驱动器、快闪存储器等。程序可实现使处理器单元执行动画方法(诸如上文关于图2A和图2B描述的方法)的指令。程序可另外包括机器学习算法，该机器学习算法被配置为针对基于物理的动画输入控制方案中的涉及神经网络的实现方式调整神经网络(NN)314的权重和转换值，如在本文其他地方所讨论。另外地，存储器304可存储视频帧数据308和动画数据309，它们可分别用于生成源分割掩模310和目标分割掩模312，如上所述。视频帧数据308、动画数据309和分割掩模310、312也可作为数据318存储在大容量存储区315中。处理器单元303进一步被配置为执行存储在大容量存储区315或存储器304中的一个或多个程序317，该一个或多个程序致使处理器执行上述方法中的一个或多个。

计算装置300还可包括众所周知的支持电路306，诸如输入/输出(I/O)电路307、电源(P/S)321、时钟(CLK)322和高速缓存323，它们可例如经由总线305与系统的其他部件进行通信。计算装置300可包括网络接口332以促进经由电子通信网络330的通信。网络接口332可被配置为通过局域网和诸如互联网的广域网来实现有线或无线通信。计算装置300可通过网络320经由一个或多个消息包来发送和接收数据和/或对文件的请求。通过网络320发送的消息包可暂时地存储在存储器304中的缓冲器中。动画帧308、视频帧309和分割掩模311、312、313可经由网络330从远程计算或存储装置获得并且部分地存储在存储器304和/或大容量存储装置315中以供计算装置300使用。

处理器单元303和网络接口332可被配置为经由合适的网络协议来实现局域网(LAN)或个人区域网(PAN)，该网络协议是例如用于PAN的蓝牙。计算装置还可包括用于促进系统与用户之间的交互的用户接口316。用户接口可包括监视器、电视屏幕、扬声器、耳机或向用户传达信息的其他装置。

单目姿势预测

根据本公开的替代方面，可将连续的动画帧作为单个问题来分析，而不是独立地分析每个单独的视频帧。在这样的实现方式中，为第一个动画帧构建候选姿势。每个候选姿势具有相同的分割掩模。但是在3D空间中，模型TC的候选姿势分布得尽可能远离彼此。随后，现实的行动者-评论家训练神经网络(NN)分析候选姿势。有不同的方法来评估候选姿势。这些方法可在下面讨论的各种实现方式中组合在一起。

图4A描绘了根据本公开的各方面的用于计算机动画中的单目姿势预测的一般化方法的示例。该方法可开始于输入视频帧序列401。输入视频帧可从现场直播或存档镜头获得。可使用显示角色的任何合适类型的视频帧。优选地，输入视频帧序列401是数字视频帧的形式。替代地，非数字视频帧或运动图片帧可被数字化以提供输入视频帧序列401。动画程序可生成输入视频帧序列401的每个帧中的角色的对应的分割掩模序列403，如在402处所指示。分割掩模403可以是边缘掩模。应注意，在一些实现方式中，动画程序可从一些外部源接收分割掩模403，在这种情况下，不需要生成分割掩模。

动画程序可生成三维动画模型405，如在404处所指示。动画模型405包括表示与分割掩模403中的角色相对应的动画角色的关节和四肢的三维数据。如在406处所指示，计算机动画程序然后生成对应于可能的候选姿势序列的姿势序列数据407，每个序列包含由动画模型405表示的角色在对应于视频序列的连续帧的不同时间步处的两个或更多个姿势。生成每个候选姿势序列中的每个姿势，以此方式使得其具有与视频序列401中的对应帧的分割掩模相匹配的分割掩模。通过示例而非限制的方式，用于不同的可能候选姿势的分割掩模可以是边缘掩模。由于上述姿势歧义的问题，希望生成候选姿势，以此方式使得每个时间步处的候选姿势之间的距离被最大化。通过示例而非限制的方式，每个候选姿势可表示为三维模型405中的N个关节角度的N个多维向量，并且姿势之间的距离可用N维距离公式来计算。，动画程序确定多个候选姿势序列中的最佳姿势序列，如在408处所指示。在410处，动画程序使用得到的最佳姿势序列数据409来生成动画帧411。然后动画程序可针对另一个输入视频帧重复前述过程，如在412处所指示。

如上所述，有不同方式在406处生成姿势序列并且在408处确定最佳姿势序列。根据一个实现方式，来自视频序列401中的两个或更多个连续动画帧的姿势候选对可用作执行姿势优化408的神经网络的输入。作为姿势优化的一部分，价值网络(评论家)可测试姿势候选序列。给出最高值的序列被认为是正确的序列。在这样的实现方式中，基于序列401的第一视频帧的分割掩模来生成动画模型405的几个三维(3D)姿势。所有姿势都具有与序列中的第一视频帧的分割掩模相匹配的分割掩模。生成3D姿势，诸如以尽可能远离彼此。可测量姿势之间的距离，例如，作为动画角色的3D模型中的关节之间的平均角度差。对于从序列401中的第一帧得出的每个3D姿势，优化过程408随时间调整3D姿势，以此方式使得对于每个视频帧，该姿势的分割掩模与序列401的对应视频帧的分割掩模相匹配。在优化过程期间，通过物理模拟环境来模拟由模型405表示的角色的移动。优化过程408使序列401的帧的分割掩模与模型405的候选姿势的对应的投影相匹配，并且同时确保动画化角色的移动在身体上是一致的，例如，不导致动画角色跌倒或违反关节约束。为此可使用遗传(进化)算法。

在替代的实现方式中，可如上所述但针对每个动画帧生成若干候选姿势。给定动画帧的所有候选姿势都具有与序列401的对应视频帧的分割掩模相匹配的分割掩模。在优化过程408期间，可将连续视频帧的姿势候选对馈送到神经网络中，该神经网络已经被预先训练为使用类似的动画来控制物理模拟环境中的角色。然后由神经网络评估姿势候选对。最佳姿势候选对的分割掩模应提供与从对应视频帧获得的分割掩模的最佳匹配。同时，角色在模拟物理环境中的移动不得导致角色跌倒或违反关节约束。解决方案从第一帧对连续进行到视频序列401的末尾。

在一些实现方式中，动画程序可使用408处的姿势优化过程的输出来生成机器人控制输入413，如在414处所指示。动画程序可将控制输入413提供给机器人控制器415，该机器人控制器将控制输入转换为控制信号，该控制信号被传输到关节型机器人417。机器人控制器415可以硬件或软件来实现。对于硬件实现方式，动画程序的优化过程408以方便的形式提供输入并且机器人控制器可将输入转换为机器人命令。对于软件实现方式，机器人控制器415可通过在与动画程序相同的计算机系统上运行的代码来实现。这样的机器人控制器代码可以是与动画程序分开的程序或者可合并到动画程序中。

如上所述，姿势优化过程408可由物理模拟告知以评估机器人417或对应的动画化角色的姿势序列的姿势组合的各种组合的可行性。以示例方式，姿势优化过程408可根据一个或多个基于物理的约束来限制动画化角色或机器人417的移动。替代地，姿势优化过程408可拒绝将与机器人417的操作不一致的姿势，例如，将导致机器人跌倒或违反关节约束的姿势。在一些实现方式中，姿势优化过程408可任选地包括使用诸如上文关于图2A和图2B所描述的那些技术的姿势消歧。这可涉及从3D动画模型405的不同的视图生成两个或多个不同的候选目标掩模并将目标掩模与从输入视频帧401的不同的同期视图生成的对应的掩模403进行比较。

图4B描绘了根据本公开的各方面的用于在计算机动画中使用单目姿势预测的姿势优化408的示例。如图4B所示，姿势优化过程408可使用神经网络420将姿势序列407中的候选姿势拟合到对应的分割掩模403，并且任选地生成控制输入413。在所示的实现方式中，神经网络420的输入是从视频帧序列401获得的分割掩模403。在图4B所描绘的示例中，神经网络420的目标是对应于接下来两个姿势的候选的分割掩模421、423。具体地，目标可以是从机器人417模仿的目标动画得到的两个连续姿势。神经网络420实时地变换目标动画，以此方式使得其可在真实机器人417上运行而不会导致其跌倒。

可训练神经网络420以从当前姿势确定接下来两个姿势。神经网络420训练可包括在物理模拟中使用角色模型。运动捕捉或手部动画姿势可用作目标，并且可训练神经网络420以使用机器学习算法在物理模拟的约束内复制目标姿势。机器学习算法和/或神经网络布局可以是例如但不限于强化学习算法、模仿学习算法或监督学习算法。经训练的神经网络可用于基于每个候选姿势来输出分数。作为训练的结果，分数表示姿势在模拟中的可行性。根据以下因素来评估姿势：接下来两帧的稳定性(例如，角色是否在模拟中跌倒)，是否有任何关节违反了它们的约束(例如，肘部是否向后弯曲)，尝试最小化所有关节移动的距离，任何肢体是否发生碰撞，肢体是否连接到它们对应的关节等。这些评估因素中的一些或所有可由神经网络生成并由分数表示，或替代地，这些因素中的一些或所有可由用户确定并添加到分数。根据从中选择最佳姿势集的候选姿势，这可通过使用最小最大层用手或在神经网络内完成。有关姿势确定神经网络的更多信息，请参见同时提交的申请号17/095,586(美国专利申请公开号：20220143820)。

根据所选择的候选姿势，可使用神经网络420来控制机器人。神经网络420的输出包括动作425和值427。动作425对应于机器人415的控制输入。值427是内部训练算法量。它仅在训练步骤期间需要并且用于估计随机改进尝试的效果。

机器人控制器415将基于动作425的命令提供给机器人417中的马达。一般而言，机器人417可包括由结构元件和传感器连接的可移动关节。每个关节可连接到传感器，该传感器被配置为生成与关于关节状态的信息相关的传感器值。用于物理机器人的传感器可包括例如但不限于编码器、电位器、线性可变差动变压器、压力传感器、陀螺仪、重力计、加速度计、旋转变压器、速度或速度传感器。此类传感器的传感器值将对应于此类传感器的输出或从中得出的信息。来自机器人上的传感器的传感器值的示例包括但不限于关节位置、关节速度、关节扭矩、机器人取向、机器人线速度、机器人角速度、脚接触点、脚压力或其中的两者或更多者。对于动画角色，传感器可以是虚拟传感器并且传感器值可简单地包括与可移动关节的状态相关的数据，例如，位置、速度、加速度数据。来自机器人模拟的传感器值的示例包括但不限于关节位置、关节速度、关节扭矩、模型取向、模型线速度、模型角速度、脚接触点、脚压力或其中的两者或更多者。来自控制器415或动画程序的位置数据可传递到运动决策神经网络并且在结合姿势优化过程408的强化学习期间用作状态数据。

控制输入的性质取决于机器人控制器415用来控制机器人417的关节的控制参数化。关节型机器人常用的控制参数化包括位置控制、速度控制和扭矩控制。一种可能的实现方式采用混合方案，其中神经网络输出目标关节速度，所述目标关节速度可被标记为位置导数v。积分器块根据x＝∫vdt将导数v积分到关节位置x，然后直接应用于模拟或动画中的位置推导(PD)控制器或应用于机器人417的致动器。积分器块的输出也可通过将其路由到神经网络作为输入来用作反馈信号。积分步骤可通过使机器人对噪声传感器和传感器尖峰的反应平滑来有利地将机器人417的模拟和控制中的马达抖动抑制到视觉上不可观察的水平。当网络输入在故障场景期间进入状态空间的分布外区域时，积分还可调节机器人的移动。

在所示的示例中，生成动作425和值427的神经网络将策略和值函数分到没有共享权重的单独网络422、424中。所示的策略网络422和评论家网络424可各自由三层组成，每层中包含相同数量的神经元。每个神经元可具有相同的激活函数。通过示例而非限制的方式，这些层中的每一层都包含128个神经元并使用softsign作为它们的激活函数。使用滑动均值和标准偏差对网络输入(观察)进行归一化。输入可包括以下任何或所有特征：目标取向、关节传感器读数、前一时间步处的动作、前一时间步处的致动器输入、局部参考系中的重力矢量、加速度计读数、陀螺仪读数以及脚压力传感器读数。

目标取向可以轴线角形式表示并且使用两个编码层426、428编码成潜在表示。以示例方式，每个编码层可包括包含128个神经元的第一层，该第一层耦合到包含64个神经元的第二层。每个神经元可使用leaky ReLU激活函数。动作425指定由神经网络输出的一组关节位置导数。致动器输入指示通过对位置导数进行积分来计算的更新关节位置。将来自前一时间步的动作和致动器馈送到输入网络中会引入反馈信号。

在训练期间通过从学习的高斯分布对策略网络输出进行采样来进行探索。以这种方式采样会在训练期间引入抖动，这会使学习变得困难，因为它会导致跌倒。上面讨论的积分方案有助于减轻抖动。另外，不是在每个时间步从高斯分布对随机动作进行采样，而是以可从策略网络422对随机动作进行抽样的固定概率ε以及机器人417执行由高斯的均值指定的确定性动作的概率1-ε进行。此外，可仅使用应用探索噪声的样本来执行更新。

姿势预测设备

图5描绘了用于如例如关于图4A和图4B所描述的涉及单目姿势预测的计算机动画的设备。该设备可包括耦合到用户输入装置502的计算装置500。用户输入装置502可以是控制器、触摸屏、传声器、键盘、鼠标、操纵杆或允许用户向系统中输入包括声音数据的信息的其他装置。用户输入装置可耦合到触觉反馈装置或包括触觉反馈装置，例如，振动马达、力反馈系统、超声反馈系统或气压反馈系统。另外地，该系统可包括用于可移动关节的控制器501，例如但不限于，在涉及用于控制物理机器人的基于物理的动画的实现方式中，控制器可控制用于机器人上的关节的马达或致动器。

计算装置500可包括一个或多个处理器单元503，该一个或多个处理器单元可根据众所周知的架构(例如，诸如单核、双核、四核、多核、处理器-协处理器、单元处理器等)来配置。计算装置还可包括一个或多个存储器单元504(例如，随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等)。

处理器单元503可执行一个或多个程序517，该一个或多个程序的部分可存储在存储器504中，并且处理器503可操作性地耦合到存储器，例如，经由数据总线505访问存储器。系统517还可存储在大容量存储设备515中，诸如，磁盘驱动器、CD-ROM驱动器、磁带驱动器、快闪存储器等。程序可实现使处理器单元执行动画方法(诸如上文关于图4A和图4B描述的方法)的指令。程序可另外包括机器学习算法，该机器学习算法被配置为针对基于物理的动画输入控制方案中的涉及神经网络的实现方式调整神经网络(NN)513的权重和转换值，如在本文其他地方所讨论。另外地，存储器504可存储视频帧数据508和动画帧数据509。视频帧数据508可用于生成分割掩模510以供在如上所述的姿势预测中使用。在姿势预测中使用的姿势数据511也可存储在存储器504中。当用于机器人530的控制时，存储器还可存储机器人命令512和由神经网络513生成的质量值514，例如，如上所讨论。视频帧数据508、动画数据509、分割掩模510、姿势序列数据511、机器人命令512和质量值514也可作为数据518存储在大容量存储设备515中。

计算装置500还可包括众所周知的支持电路506，诸如输入/输出(I/O)电路507、电源(P/S)521、时钟(CLK)522和高速缓存523，它们可例如经由总线505与系统的其他部件进行通信。在涉及机器人530的控制的实现方式中，机器人命令512可经由I/O电路中继到机器人。计算装置500可包括网络接口532以促进经由电子通信网络530的通信。网络接口532可被配置为通过局域网和诸如互联网的广域网来实现有线或无线通信。计算装置500可通过网络520经由一个或多个消息包来发送和接收数据和/或对文件的请求。通过网络520发送的消息包可暂时地存储在存储器504中的缓冲器中。动画帧508、视频帧509和分割掩模511可经由网络520从远程计算或存储装置获得并且部分地存储在存储器504和/或大容量存储装置315中以供计算装置500使用。

处理器单元503和网络接口532可被配置为经由合适的网络协议来实现局域网(LAN)或个人区域网(PAN)，该网络协议是例如用于PAN的蓝牙。计算装置还可包括用于促进系统与用户之间的交互的用户接口516。用户接口可包括监视器、电视屏幕、扬声器、耳机或向用户传达信息的其他装置。

尽管本文出于控制机器人的目的在计算机动画方面描述了某些实现方式，但本公开的各方面不限于此。姿势消歧和单目姿势预测在许多其他应用中很有用。此外，尽管本文在动物的动画方面描述了某些实现方式，但本公开的各方面不限于此。例如，本文描述的技术可用于从存档镜头或运动捕捉不切实际或不可能的其他情况生成人类角色和/或机器人角色或其他移动对象的计算机动画。

虽然上文是本发明的优选实施方案的完整描述，但可以使用各种替代、修改和等效物。因此，本发明的范围不应参考以上描述确定，而是应替代地参考随附权利要求以及其整个范围的等效物确定。本文所述的任何特征(不论是否优选)可与本文所述的任何其他特征(不论是否优选)组合。在随附权利要求中，不定冠词“一个”或“一种”是指冠词后的项中的一个或多个项的量，除非另外明确说明。所附权利要求不应被理解为包括装置加功能限制，除非这种限制在给定权利要求中使用短语“用于……的装置”来明确阐述。

Claims

1.一种用于计算机动画的方法，所述方法包括：

a)从在特定时刻从两个或更多个对应的视角观察到的角色的两个或更多个对应的同期视频图像生成两个或更多个源分割掩模；

b)生成对应于所述两个或更多个同期视频图像中的所述角色的动画角色的三维模型，其中生成所述动画角色的所述三维模型包括通过使用与关节相关的传感器值或与所述动画角色和环境之间的接触点相关的传感器值执行所述动画角色和周围环境之间的交互的基于物理的模拟的至少两个时间步来评估所述动画角色的姿势的可行性，其中评估所述动画角色的所述姿势的所述可行性包括评估所述动画角色是否将在模拟中跌倒；

c)生成与对应于所述两个或更多个视频图像中的所述角色的所述动画角色的两个或更多个不同的视图相对应的两个或更多个不同的目标分割掩模；

d)将所述两个或更多个目标分割掩模中的每一者与所述两个或更多个源分割掩模中的对应的源分割掩模进行比较，并且根据所述比较，确定所述动画角色的所述三维模型的姿势是否与所述两个或更多个同期视频图像中的所述角色的姿势相对应；以及

e)当所述动画角色的所述三维模型的所述姿势与所述两个或更多个同期视频图像中的所述角色的所述姿势相对应时，使用所述三维模型来生成动画化角色的动画帧。

2.如权利要求1所述的方法，所述方法还包括：在d)之后调整所述动画角色的所述三维模型以在所述动画角色的所述姿势与所述两个或更多个同期视频图像中的所述角色的所述姿势不对应时产生经调整的模型；以及

f)根据需要重复b)、c)、d)和e)，直到所述动画角色的所述姿势与所述两个或更多个同期视频图像中的所述角色的所述姿势相对应，其中e)包括使用所述经调整的模型来生成所述动画帧。

3.如权利要求1所述的方法，其中所述两个或更多个同期视频图像中的所述角色的所述两个或更多个不同的视图包括相对于参考平面以+45°和-45°取向的视图。

4.如权利要求1所述的方法，其中所述将所述两个或更多个目标分割掩模中的每一者与所述两个或更多个源分割掩模中的所述对应的源分割掩模进行比较包括计算所述两个或更多个目标分割掩模中的每一者、其对应的源分割掩模之间的交并比(IoU)。

5.如权利要求1所述的方法，其中生成所述两个或更多个不同的目标分割掩模包括使用三维动画数据从两个或更多个对应的不同角度生成动画化角色的两个或更多个不同的动画帧，以及从所述两个或更多个不同的动画帧生成所述两个或更多个不同的目标分割掩模。

6.如权利要求1所述的方法，其中生成所述两个或更多个源分割掩模包括用两个或更多个不同的相机从两个或更多个对应的不同角度生成两个或更多个同期视频帧。

7.如权利要求1所述的方法，其中所述两个或更多个源分割掩模包括一个或多个边缘掩模。

8.如权利要求1所述的方法，其中所述两个或更多个目标分割掩模包括一个或多个边缘掩模。

9.如权利要求1所述的方法，其中所述两个或更多个源分割掩模包括一个或多个边缘掩模，并且其中所述两个或更多个目标分割掩模包括一个或多个不同的边缘掩模。

10.一种用于计算机动画的设备，所述设备包括：

处理器；

存储器；

可执行指令，所述可执行指令体现在所述存储器中，所述可执行指令在由所述处理器执行时致使所述处理器实施用于计算机动画的方法，所述方法包括

11.如权利要求10所述的设备，其中所述方法还包括：在d)之后调整所述动画角色的所述三维模型以在所述动画角色的所述姿势与所述两个或更多个同期视频图像中的所述角色的所述姿势不对应时产生经调整的模型；以及

12.如权利要求10所述的设备，其中所述两个或更多个同期视频图像中的所述角色的所述两个或更多个不同的视图包括相对于参考平面以+45°和-45°取向的视图。

13.如权利要求10所述的设备，其中所述将所述两个或更多个目标分割掩模中的每一者与所述两个或更多个源分割掩模中的所述对应的源分割掩模进行比较包括计算所述两个或更多个目标分割掩模中的每一者、其对应的源分割掩模之间的交并比(IoU)。

14.如权利要求10所述的设备，其中生成所述两个或更多个不同的目标分割掩模包括使用三维动画数据从两个或更多个对应的不同角度生成动画化角色的两个或更多个不同的动画帧，以及从所述两个或更多个不同的动画帧生成所述两个或更多个不同的目标分割掩模。

15.如权利要求10所述的设备，其中生成所述两个或更多个源分割掩模包括用两个或更多个不同的相机从两个或更多个对应的不同角度生成两个或更多个同期视频帧。

16.如权利要求10所述的设备，其中所述两个或更多个源分割掩模包括一个或多个边缘掩模。

17.如权利要求10所述的设备，其中所述两个或更多个目标分割掩模包括一个或多个边缘掩模。

18.如权利要求10所述的设备，其中所述两个或更多个源分割掩模包括一个或多个边缘掩模，并且其中所述两个或更多个目标分割掩模包括一个或多个不同的边缘掩模。

19.一种非暂时性计算机可读介质，所述非暂时性计算机可读介质中体现有可执行指令，所述可执行指令在由计算机执行时致使所述计算机实施用于计算机动画的方法，所述方法包括

20.如权利要求19所述的非暂时性计算机可读介质，其中所述方法还包括：在d)之后调整所述动画角色的所述三维模型以在所述动画角色的所述姿势与所述两个或更多个同期视频图像中的所述角色的所述姿势不对应时产生经调整的模型；以及

21.如权利要求19所述的非暂时性计算机可读介质，其中所述两个或更多个同期视频图像中的所述角色的所述两个或更多个不同的视图包括相对于参考平面以+45°和-45°取向的视图。

22.如权利要求19所述的非暂时性计算机可读介质，其中所述将所述两个或更多个目标分割掩模中的每一者与所述两个或更多个源分割掩模中的所述对应的源分割掩模进行比较包括计算所述两个或更多个目标分割掩模中的每一者、其对应的源分割掩模之间的交并比(IoU)。

23.如权利要求19所述的非暂时性计算机可读介质，其中生成所述两个或更多个不同的目标分割掩模包括使用三维动画数据从两个或更多个对应的不同角度生成动画化角色的两个或更多个不同的动画帧，以及从所述两个或更多个不同的动画帧生成所述两个或更多个不同的目标分割掩模。

24.如权利要求19所述的非暂时性计算机可读介质，其中生成所述两个或更多个源目标分割掩模包括用两个或更多个不同的相机从两个或更多个对应的不同角度生成两个或更多个同期视频帧。

25.如权利要求19所述的非暂时性计算机可读介质，其中所述两个或更多个源分割掩模包括一个或多个边缘掩模。

26.如权利要求19所述的非暂时性计算机可读介质，其中所述两个或更多个目标分割掩模包括一个或多个边缘掩模。

27.如权利要求19所述的非暂时性计算机可读介质，其中所述两个或更多个源分割掩模包括一个或多个边缘掩模，并且其中所述两个或更多个目标分割掩模包括一个或多个不同的边缘掩模。