CN116113991A - 用于关节动画的运动表示 - Google Patents

用于关节动画的运动表示 Download PDF

Info

Publication number
CN116113991A
CN116113991A CN202180046574.0A CN202180046574A CN116113991A CN 116113991 A CN116113991 A CN 116113991A CN 202180046574 A CN202180046574 A CN 202180046574A CN 116113991 A CN116113991 A CN 116113991A
Authority
CN
China
Prior art keywords
image
image data
source
drive
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180046574.0A
Other languages
English (en)
Inventor
柴蒙磊
任健
阿利阿克山大·西亚罗安
谢尔盖·图利亚科夫
奥利弗·伍德福德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Snap Inc
Original Assignee
Snap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Snap Inc filed Critical Snap Inc
Publication of CN116113991A publication Critical patent/CN116113991A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本文中的系统和方法描述了用于使由不同部分组成的关节对象动画化的新颖运动表示。所描述的系统和方法访问源图像数据,识别驱动图像数据以修改源图像序列数据中的图像特征数据,使用图像变换神经网络来生成修改的源图像数据,该修改的源图像数据包括描绘图像特征数据的修改版本的多个修改的源图像,该图像变换神经网络被训练成针对源图像数据中的每个图像从驱动图像数据中识别驱动图像,所识别的驱动图像由图像变换神经网络实现,以使用所识别的驱动图像与源图像数据中的相应的源图像之间的运动估计差来修改相应的源图像,并且存储所修改的源图像数据。

Description

用于关节动画的运动表示
优先权要求
本申请要求于2020年6月30日提交的美国临时申请第63/046,583号的优先权的权益,其全部内容通过引用并入本文中。
技术领域
本公开内容的实施方式总体上涉及动画。更具体地但非限制性地,本公开内容涉及用于使由不同部分组成的关节对象动画化的运动表示的系统和方法。
背景技术
动画(即,将静态对象带给生活)在教育和娱乐中具有广泛的应用。动画角色和动画对象增加了内容的创造性和吸引力,通过讲故事提高了材料的清晰度,并且增强了用户体验。
附图说明
在不一定按比例绘制的附图中,相同的数字可以在不同的视图中描述相似的部件。为了容易识别对任何特定元件或动作的讨论,附图标记中的一个最高位数字或多个最高位数字是指该元件被首次引入时所在的图号。在附图的图中示出了一些非限制性示例,在附图中:
图1是根据一些示例的其中可以部署本公开内容的联网环境的图解表示。
图2是根据一些示例的具有客户端侧功能和服务器侧功能二者的消息收发系统的图解表示。
图3是根据一些示例的在数据库中维护的数据结构的图解表示。
图4是根据一些示例的消息的图解表示。
图5是根据一些示例的访问限制处理的流程图。
图6至图7示出了根据示例实施方式的运动表示模型。
图8是根据示例实施方式的用于使用运动表示生成关节动画的方法的流程图。
图9是根据示例实施方式的使用关节动画的运动表示生成的示例动画图像的图示。
图10是根据一些示例的呈计算机系统形式的机器的图解表示,在该机器中可以执行一组指令以使该机器执行本文中讨论的方法中任何一种或更多种。
图11是示出可以在其中实现示例的软件架构的框图。
具体实施方式
本文中的系统和方法提出了用于使由不同部分组成的关节对象动画化的新颖表示。以无监督的方式,动画系统识别对象区域,跟踪驱动视频中的区域,并且通过考虑它们的主轴来推断它们的运动。动画系统提取有意义且一致的区域,描述位置、形状和姿势。这些区域对应于语义上相关且不同的对象部分。
为了迫使前景与背景分离,动画系统用附加的仿射变换来模拟非对象相关的全局运动。为了利于动画并防止驱动对象的形状的泄漏,动画系统解开区域空间中对象的形状和姿势。
联网计算环境
图1是示出用于通过网络交换数据(例如,消息和相关联的内容)的示例消息收发系统100的框图。消息收发系统100包括客户端设备102的多个实例,每个实例托管包括消息收发客户端104和其他应用106的若干应用。每个消息收发客户端104经由网络112(例如,因特网)通信地耦接至消息收发客户端104(例如,托管在相应的其他客户端设备102上)、消息收发服务器系统108和第三方服务器116的其他实例。消息收发客户端104还可以使用应用程序接口(API)与本地主机应用106通信。
消息收发客户端104能够经由网络112与其他消息收发客户端104和消息收发服务器系统108通信并交换数据。在消息收发客户端104之间以及消息收发客户端104与消息收发服务器系统108之间交换的数据包括功能(例如,激活功能的命令)以及有效载荷数据(例如,文本、音频、视频或其他多媒体数据)。
消息收发服务器系统108经由网络112向特定消息收发客户端104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行,但是某些功能的在消息收发客户端104或消息收发服务器系统108内的定位可以是设计选择。例如,在技术上可以优选的是:最初将某些技术和功能部署在消息收发服务器系统108内,但是后面将该技术和功能迁移至客户端设备102具有足够处理能力的消息收发客户端104。
消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。作为示例,该数据可以包括消息内容、客户端设备信息、地理定位信息、媒体增强和覆盖、消息内容持续条件、社交网络信息和实况事件信息。通过经由消息收发客户端104的用户接口(UI)可用的功能来激活和控制消息收发系统100内的数据交换。
现在具体地转至消息收发服务器系统108,应用程序接口(API)服务器116耦接至应用服务器114并且向应用服务器114提供编程接口。应用服务器114通信地耦接至数据库服务器120,数据库服务器120利于访问数据库126,该数据库126存储与通过应用服务器114处理的消息相关联的数据。类似地,web服务器128耦接至应用服务器114,并且向应用服务器114提供基于web的接口。为此,web服务器128通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。
应用程序接口(API)服务器116在客户端设备102与应用服务器114之间接收和发送消息数据(例如,命令和消息有效载荷)。具体地,应用程序接口(API)服务器116提供一组接口(例如,例程和协议),消息收发客户端104可以调用或查询该组接口以激活应用服务器114的功能。应用程序接口(API)服务器116显露由应用服务器114支持的各种功能,包括:帐户注册;登录功能;经由应用服务器114将消息从特定消息收发客户端104发送至另一消息收发客户端104;将媒体文件(例如,图像或视频)从消息收发客户端104发送至消息收发服务器118并且用于另一消息收发客户端104的可能访问;设置媒体数据集合(例如,故事);检索客户端设备102的用户的朋友列表;检索这样的集合;检索消息和内容;在实体图(例如社交图)中添加和删除实体(例如朋友);在社交图中定位朋友;以及打开应用事件(例如,与消息收发客户端104有关)。
应用服务器114托管若干服务器应用和子系统,包括例如消息收发服务器118、图像处理服务器122、社交网络服务器124和动画系统130。消息收发服务器118实现了若干消息处理技术和功能,特别是与从消息收发客户端104的多个实例接收到的消息中包括的内容(例如,文本和多媒体内容)的聚合和其他处理有关的消息处理技术和功能。如将进一步详细描述的,来自多个源的文本和媒体内容可以被聚合成内容的集合(例如,被称为故事或图库)。然后,使这些集合对消息收发客户端104可用。鉴于对这样的处理的硬件要求,也可以由消息收发服务器118在服务器侧执行数据的其他处理器和存储器密集型处理。
应用服务器114还包括图像处理服务器122,该图像处理服务器122专用于执行各种图像处理操作,通常相对于在从消息收发服务器118发送或者在消息收发服务器118处接收的消息的有效载荷内的图像或视频,执行各种图像处理操作。
社交网络服务器124支持各种社交联网功能和服务,并且使这些功能和服务可用于消息收发服务器118。为此,社交网络服务器124维护和访问数据库126内的实体图308(如图3所示)。由社交网络服务器124支持的功能和服务的示例包括识别消息收发系统100中的与特定用户有关系或该特定用户正在“关注”的其他用户,以及识别特定用户的兴趣和其他实体。
动画系统130支持与内容(例如,多媒体内容)相关的动画功能和服务。动画系统130向消息收发服务器118、图像处理服务器122和社交网络服务器124提供这些功能和服务。具体地,动画系统130使用无监督的方法来使关节对象动画化,该无监督的方法使用基于主分量分析的运动表示、背景运动表示和经由解缠结的动画来平衡运动表示模型。结合图6至图9提供动画系统130的其他细节。
返回到消息收发客户端104,外部资源(例如,应用106或小应用(applet))的特征和功能经由消息收发客户端104的接口对用户可用。在该上下文中,“外部”是指应用106或小应用在消息收发客户端104外部的事实。外部资源通常由第三方提供,但也可以由消息收发客户端104的创建者或提供者提供。消息收发客户端104接收对启动或访问这种外部资源的特征的选项的用户选择。外部资源可以是安装在客户端设备102上的应用106(例如,“本地app”)、或者托管在客户端设备102上或者位于客户端设备102的远端(例如,在第三方服务器110上)的应用的小规模版本(例如,“小应用”)。应用的小规模版本包括应用的特征和功能的子集(例如,应用的全规模、原生版本),并且使用标记语言文档来实现。在一个示例中,应用的小规模版本(例如,“小应用”)是应用的基于web的标记语言版本,并且嵌入在消息收发客户端104中。除了使用标记语言文档(例如,.*ml文件)之外,小应用还可以包括脚本语言(例如,.*js文件或.json文件)和样式表(例如,.*ss文件)。
响应于接收到对启动或访问外部资源的特征的选项的用户选择,消息收发客户端104确定所选择的外部资源是基于web的外部资源还是本地安装的应用106。在一些情况下,本地安装在客户端设备102上的应用106可以独立于消息收发客户端104并且与消息收发客户端104分开启动,例如通过在客户端设备102的主屏幕上选择对应于应用106的图标。可以经由消息收发客户端104启动或访问这种应用的小规模版本,并且在一些示例中,小规模应用的任何部分都不能(或者有限部分才能)在消息收发客户端104之外被访问。可以通过消息收发客户端104例如从第三方服务器116接收与小规模应用相关联的标记语言文档并处理这样的文档来启动小规模应用。
响应于确定外部资源是本地安装的应用106,消息收发客户端104指示客户端设备102通过执行与外部资源对应的本地存储的代码来启动外部资源。响应于确定外部资源是基于web的资源,消息收发客户端104(例如)与第三方服务器110通信以获得与所选择的外部资源对应的标记语言文档。消息收发客户端104然后处理所获得的标记语言文档以在消息收发客户端104的用户接口内呈现基于web的外部资源。
消息收发客户端104可以向客户端设备102的用户或与这样的用户相关的其他用户(例如,“朋友”)通知在一个或更多个外部资源中发生的活动。例如,消息收发客户端104可以向消息收发客户端104中的对话(例如,聊天会话)中的参与者提供与一组用户中的一个或更多个成员当前或最近使用外部资源有关的通知。可以邀请一个或更多个用户加入有效的外部资源或启动最近使用但当前失效的(在该组朋友中的)外部资源。外部资源可以向对话中的各自使用相应的消息收发客户端104的参与者提供与一组用户中的一个或更多个成员将外部资源中的项目、状态、状况或位置共享到聊天会话中的能力。共享项目可以是交互式聊天卡,聊天的成员可以利用该交互式聊天卡进行交互,例如,以启动相应的外部资源,查看外部资源内的特定信息,或将聊天的成员带到外部资源内的特定位置或状态。在给定的外部资源内,可以在消息收发客户端104上向用户发送响应消息。外部资源可以基于外部资源的当前上下文在响应中选择性地包括不同的媒体项。
消息收发客户端104可以向用户呈现可用外部资源(例如,应用106或小应用)的列表以启动或访问给定的外部资源。该列表可以呈现在上下文相关菜单中。例如,表示不同的应用106(或小应用)的图标可以基于用户如何启动菜单(例如,从对话界面或从非对话界面)而变化。
系统架构
图2是示出根据一些示例的关于消息收发系统100的进一步细节的框图。具体地,消息收发系统100被显示为包括消息收发客户端104和应用服务器114。消息收发系统100包含若干子系统,这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器114支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统208、地图系统210、游戏系统212和外部资源系统214。
短暂定时器系统202负责施行由消息收发客户端104和消息收发服务器118对内容进行临时或限时访问。短暂定时器系统202包含若干个定时器,这些定时器基于与消息或消息集合(例如,故事)相关联的持续时间和显示参数,选择性地实现经由消息收发客户端104访问(例如,用于呈现和显示)消息和相关联的内容。下面提供关于短暂定时器系统202的操作的另外的细节。
集合管理系统204负责管理媒体的合集或集合(例如,文本、图像、视频和音频数据的集合)。可以将内容(例如,消息,包括图像、视频、文本和音频)的集合组织成“事件图库”或“事件故事”。可以使这样的集合在指定的时间段内(例如,与内容相关的事件的持续时间)可用。例如,可以在音乐会的持续时间内使与音乐会相关的内容作为“故事”可用。集合管理系统204还可以负责向消息收发客户端104的用户接口发布提供特定集合存在的通知的图标。
此外,集合管理系统204还包括使得集合管理者能够管理和策展内容的特定集合的策展接口206。例如,策展接口206使得事件组织者能够策展与特定事件相关的内容集合(例如,删除不适当的内容或冗余消息)。此外,集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中,可以为将用户生成的内容包括到集合中向用户支付补偿。在这样的情况下,集合管理系统204进行操作以自动地向这样的用户支付以使用他们的内容。
增强系统208提供使得用户能够增强(例如,注释或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如,增强系统208提供与生成和发布用于由消息收发系统100处理的消息的媒体覆盖(media overlay)相关的功能。增强系统208基于客户端设备102的地理定位可操作地向消息收发客户端104提供媒体覆盖或增强(例如,图像过滤器)。在另一示例中,增强系统208基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息收发客户端104提供媒体覆盖。媒体覆盖可以包括音频和视觉内容以及视觉效果。音频和视觉内容的示例包括图片、文本、标志、动画和声音效果。视觉效果的示例包括色彩覆盖。音频和视觉内容或视觉效果可以应用于客户端设备102处的媒体内容项(例如,照片)。例如,媒体覆盖可以包括可以覆盖在由客户端设备102拍摄的照片之上的文本或图像。在另一示例中,媒体覆盖包括定位标识(例如,威尼斯海滩)覆盖、实况事件的名称或商家名称(例如,海滩咖啡馆)覆盖。在另一示例中,增强系统208使用客户端设备102的地理定位来标识包括在客户端设备102的地理定位处的商家的名称的媒体覆盖。媒体覆盖可以包括与商家相关联的其他标记。媒体覆盖可以存储在数据库126中并且通过数据库服务器120访问。
在一些示例中,增强系统208提供基于用户的发布平台,该基于用户的发布平台使得用户能够选择地图上的地理定位并且上传与所选择的地理定位相关联的内容。用户还可以指定应当向其他用户提供特定媒体覆盖的情况。增强系统208生成包括所上传的内容并将所上传的内容与所选择的地理定位相关联的媒体覆盖。
在其他示例中,增强系统208提供基于商家的发布平台,该基于商家的发布平台使商家能够经由竞价处理选择与地理定位相关联的特定媒体覆盖。例如,增强系统208将最高竞价商家的媒体覆盖与相应的地理定位相关联达预定义时间量。
地图系统210提供各种地理定位功能,并且支持由消息收发客户端104呈现基于地图的媒体内容和消息。例如,地图系统210能够在地图上显示(例如,存储在简档数据316中的)用户图标或化身,以指示用户的“朋友”的当前或过去位置,以及由这些朋友在地图的上下文内生成的媒体内容(例如,包括照片和视频的消息的集合)。例如,在消息收发客户端104的地图界面上,可以将用户从特定地理定位发布到消息收发系统100的消息在地图的该特定位置的上下文内显示给特定用户的“朋友”。用户还可以经由消息收发客户端104与消息收发系统100的其他用户(例如,使用适当的状况化身)共享他或她的位置和状况信息,其中该位置和状况信息在消息收发客户端104的地图界面的上下文内被显示给所选择的用户。
游戏系统212在消息收发客户端104的上下文内提供各种游戏功能。消息收发客户端104提供游戏界面,该游戏界面提供可用游戏的列表,该游戏可以由用户在消息收发客户端104的上下文中启动并且与消息收发系统100的其他用户一起玩。消息收发系统100还使特定用户能够通过从消息收发客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息收发客户端104还支持在玩游戏的上下文中的语音消息收发和文本消息收发(例如,聊天)两者,为游戏提供排行榜,并且还支持提供游戏内奖励(例如,钱币和物品)。
外部资源系统214为消息收发客户端104提供接口以与远程服务器(例如,第三方服务器110)通信以启动或访问外部资源(即,应用或小应用)。每个第三方服务器110例如托管基于标记语言(例如,HTML5)的应用或应用的小规模版本(例如,游戏应用、实用程序应用、支付应用或乘坐共享应用)。消息收发客户端104可以通过从与基于web的资源相关联的第三方服务器110访问HTML5文件来启动基于web的资源(例如,应用)。在某些示例中,利用由消息收发服务器118提供的软件开发工具包(SDK)以JavaScript对由第三方服务器110托管的应用进行编程。SDK包括应用编程接口(API),API具有可以由基于web的应用调用或激活的功能。在某些示例中,消息收发服务器118包括JavasScript库,该库提供对消息收发客户端104的某些用户数据的给定外部资源访问。HTML5被用作用于编程游戏的示例技术,但是可以使用基于其他技术编程的应用和资源。
为了将SDK的功能集成到基于web的资源中,SDK由第三方服务器110从消息收发服务器118下载,或者由第三方服务器110以其他方式接收。一旦被下载或接收,SDK被包括作为基于web的外部资源的应用代码的一部分。基于web的资源的代码然后可以调用或激活SDK的某些功能以将消息收发客户端104的特征集成到基于web的资源中。
存储在消息收发服务器118上的SDK有效地提供外部资源(例如,应用106或小应用)与消息收发客户端104之间的桥接。这为用户提供了与消息收发客户端104上的其他用户通信的无缝体验,同时还保留了消息收发客户端104的外观和感觉。为了桥接外部资源与消息收发客户端104之间的通信,在某些示例中,SDK便于第三方服务器110与消息收发客户端104之间的通信。在某些示例中,在客户端设备102上运行的WebViewJavaScriptBridge在外部资源与消息收发客户端104之间建立两个单向通信信道。消息经由这些通信信道在外部资源与消息收发客户端104之间异步发送。每个SDK函数调用作为消息和回调发送。通过构造唯一的回调标识符并且发送具有该回调标识符的消息来实现每个SDK函数。
通过使用SDK,并非来自消息收发客户端104的所有信息都与第三方服务器110共享。SDK基于外部资源的需要来限制共享哪些信息。在某些示例中,每个第三方服务器110向消息收发服务器118提供与基于web的外部资源对应的HTML5文件。消息收发服务器118可以在消息收发客户端104中添加基于web的外部资源的视觉表示(诸如盒设计或其他图形)。一旦用户选择了视觉表示或通过消息收发客户端104的GUI指示消息收发客户端104访问基于web的外部资源的特征,消息收发客户端104获得HTML5文件并且对访问基于web的外部资源的特征所需的资源进行实例化。
消息收发客户端104呈现用于外部资源的图形用户接口(例如,登录页面或标题画面)。在呈现登录页面或标题画面期间、之前或之后,消息收发客户端104确定所启动的外部资源是否先前已被授权访问消息收发客户端104的用户数据。响应于确定所启动的外部资源先前已被授权访问消息收发客户端104的用户数据,消息收发客户端104呈现包括外部资源的功能和特征的外部资源的另一图形用户接口。响应于确定所启动的外部资源先前未被授权访问消息收发客户端104的用户数据,在显示外部资源的登录页面或标题画面的阈值时间段(例如,3秒)之后,消息收发客户端104向上滑动菜单(例如,将菜单动画化为从屏幕底部浮现到屏幕中部或其他部分)以用于授权外部资源访问用户数据。该菜单标识外部资源将被授权使用的用户数据的类型。响应于接收到对接受选项的用户选择,消息收发客户端104将外部资源添加到授权的外部资源的列表,并且允许外部资源访问来自消息收发客户端104的用户数据。在一些示例中,外部资源由消息收发客户端104根据OAuth 2框架来授权访问用户数据。
消息收发客户端104基于被授权的外部资源的类型来控制与外部资源共享的用户数据的类型。例如,向包括全规模应用(例如,应用106)的外部资源提供对第一类型的用户数据(例如,具有或不具有不同化身特征的用户的仅二维化身)的访问。作为另一示例,向包括应用的小规模版本(例如,应用的基于web的版本)的外部资源提供对第二类型的用户数据(例如,支付信息、用户的二维化身、用户的三维化身、以及具有各种化身特征的化身)的访问。化身特征包括定制化身的外观和感觉(例如不同姿势、面部特征、服装等)的不同方式。
数据架构
图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库126中的数据结构300的示意图。虽然数据库126的内容被示出为包括若干表,但是将理解的是,数据可以以其他类型的数据结构进行存储(例如,作为面向对象数据库)。
数据库126包括存储在消息表302内的消息数据。对于任何特定的一条消息,该消息数据包括至少消息发送者数据、消息接收方(或接收者)数据和有效载荷。下面参照图4描述关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据中的信息的另外的细节。
实体表306存储实体数据,并且(例如,参考地)链接到实体图308和简档数据316。在实体表306内为其维持记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。不管实体类型如何,消息收发服务器系统108存储关于其的数据的任何实体可以是识别的实体。每个实体设置有唯一的标识符以及实体类型标识符(未示出)。
实体图308存储关于实体之间的关系和关联的信息。仅作为示例,这样的关系可以是基于兴趣或基于活动的社交关系、专业关系(例如,在共同的公司或组织工作)。
简档数据316存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置,简档数据316可以被选择性地使用并且呈现给消息收发系统100的其他用户。在实体是个人的情况下,简档数据316包括例如用户名、电话号码、地址、设置(例如,通知和隐私设置),以及用户选择的化身表示(或这种化身表示的集合)。然后,特定用户可以将这些化身表示中的一个或更多个选择性地包括在经由消息收发系统100传送的消息的内容中以及在由消息收发客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”,其呈现用户可以选择在特定时间进行通信的状态或活动的图解表示。
在实体是团体的情况下,除了团体名称、成员和相关团体的各种设置(例如,通知)之外,团体的简档数据316还可以类似地包括与团体相关联的一个或更多个化身表示。
数据库126还在增强表310中存储增强数据,例如覆盖或过滤器。增强数据与视频(视频的数据被存储在视频表304中)和图像(图像的数据被存储在图像表312中)相关联并且应用于视频和图像。
在一个示例中,过滤器是在向接收方用户呈现期间被显示为覆盖在图像或视频上的覆盖。过滤器可以是各种类型的,包括当发送用户正在编写消息时由消息收发客户端104呈现给发送用户的一组过滤器中用户选择的过滤器。其他类型的过滤器包括地理位置过滤器(也称为地理过滤器),其可以基于地理位置被呈现给发送用户。例如,可以基于由客户端设备102的全球定位系统(GPS)单元确定的地理定位信息,由消息收发客户端104在用户接口内呈现特定于附近或特殊位置的地理定位过滤器
另一种类型的过滤器是数据过滤器,其可以由消息收发客户端104基于在消息创建过程期间由客户端设备102收集的其他输入或信息选择性地呈现给发送用户。数据过滤器的示例包括特定位置处的当前温度、发送用户行进的当前速度、客户端设备102的电池寿命或当前时间。
可以存储在图像表312内的其他增强数据包括增强现实内容项(例如,对应于应用透镜或增强现实体验)。增强现实内容项可以是可以被添加至图像或视频的实时特殊效果和声音。
如上所述,增强数据包括增强现实内容项、覆盖、图像变换、AR图像,并且类似的术语是指可以应用于图像数据(例如,视频或图像)的修改。这包括实时修改,其在使用客户端设备102的设备传感器(例如,一个或多个摄像装置)捕获图像时对图像进行修改并且然后在修改的情况下在客户端设备102的屏幕上显示图像。这还包括对所存储的内容的修改,例如对可以被修改的图库中的视频剪辑的修改。例如,在可以访问多个增强现实内容项的客户端设备102中,用户可以使用具有多个增强现实内容项的单个视频剪辑来查看不同的增强现实内容项将如何修改存储的剪辑。例如,通过为内容选择不同的增强现实内容项,可以将应用不同伪随机运动模型的多个增强现实内容项应用于该同一内容。类似地,实时视频捕获可以与示出的修改一起使用,以显示当前由客户端设备102的传感器捕获的视频图像将如何修改捕获的数据。这样的数据可以简单地显示在屏幕上而不存储在存储器中,或者由设备传感器捕获的内容可以在进行或不进行修改(或二者)的情况下被记录并且存储在存储器中。在某些系统中,预览功能可以同时显示不同的增强现实内容项在显示器的不同窗口中将看起来如何。例如,这可以实现同时在显示器上查看具有不同伪随机动画的多个窗口。
因此,使用增强现实内容项的各种系统或使用该数据修改内容的其他这样的变换系统以及数据可以涉及视频帧中对象(例如,脸、手、身体、猫、狗、表面、对象等)的检测,在这些对象离开视场、进入视场以及在视场四处移动时对这些对象的跟踪,以及在跟踪这些对象时对其进行的修改或变换。在各种示例中,可以使用用于实现这样的变换的不同方法。一些示例可以涉及生成一个或多个对象的3维网格模型,以及在视频内使用模型的变换和动画纹理来实现变换。在其他示例中,可以使用对对象上的点的跟踪来将图像或纹理(其可以是二维或三维的)放置在所跟踪的位置处。在更进一步的示例中,可以使用对视频帧的神经网络分析来将图像、模型或纹理放置在内容(例如,图像或视频帧)中。因此,增强现实内容项既指用于在内容中创建变换的图像、模型和纹理,也指通过对象检测、跟踪和放置实现这样的变换所需的附加建模和分析信息。
可以利用保存在任何类型的计算机化系统的存储器中的任何类型的视频数据(例如,视频流、视频文件等)来执行实时视频处理。例如,用户可以加载视频文件并且将其保存在设备的存储器中,或者可以使用设备的传感器生成视频流。此外,可以使用计算机动画模型来处理任何对象,例如人的面部和人身体的各部分、动物或非生物(诸如椅子、汽车或其他对象)。
在一些示例中,当与要变换的内容一起选择特定修改时,要变换的元素由计算设备识别,并且然后如果要变换的元素存在于视频的帧中,则被检测和跟踪。根据修改请求修改对象的元素,从而变换视频流的帧。对于不同种类的变换,可以通过不同的方法执行对视频流的帧的变换。例如,对于主要是指改变对象的元素的形式的帧的变换,计算对象的每个元素的特征点(例如,使用主动形状模型(ASM)或其他已知方法)。然后,针对对象的至少一个元素中的每一个生成基于特征点的网格。该网格用于跟踪视频流中的对象的元素的后续阶段。在跟踪过程中,将所提及的每个元素的网格与每个元素的位置对准。然后,在网格上生成附加点。基于修改请求针对每个元素生成第一点的第一集合,并且基于第一点的集合和修改请求针对每个元素生成第二点的集合。然后,可以通过基于第一点的集合和第二点的集合以及网格修改对象的元素,对视频流的帧进行转换。在这种方法中,也可以通过跟踪和修改背景来使所修改对象的背景改变或变形。
在一些示例中,可以通过计算对象的每个元素的特征点并且基于计算的特征点生成网格来执行使用对象的元素改变对象的一些区域的变换。在网格上生成点,然后基于这些点生成各种区域。然后,通过将每个元素的区域与至少一个元素中的每一个的位置对准来跟踪对象的元素,并且可以基于修改的请求来修改区域的属性,从而转换视频流的帧。根据具体的修改请求,可以以不同的方式变换所提及的区域的属性。这样的修改可以涉及:改变区域的颜色;从视频流的帧中移除区域的至少一些部分;将一个或更多个新对象包括在基于修改请求的区域中;以及对区域或对象的元素进行修改或使其变形。在各种示例中,可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型,可以选择一些特征点作为控制点,以用于确定用于模型动画的选项的整个状态空间。
在使用面部检测来变换图像数据的计算机动画模型的一些示例中,使用特定面部检测算法(例如,Viola-Jones)在图像上检测面部。然后,将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。
可以使用适合面部检测的其他方法和算法。例如,在一些示例中,使用界标来定位特征,该界标表示存在于所考虑的大多数图像中的可区分点。例如,对于面部界标,可以使用左眼瞳孔的位置。如果初始界标不可识别(例如,如果人有眼罩),则可以使用次级界标。这样的界标识别过程可以用于任何这样的对象。在一些示例中,一组界标形成形状。可以使用形状中的点的坐标将形状表示为矢量。将一个形状通过相似变换(允许平移、缩放和旋转)与另一形状对准,该相似变换使形状点之间的平均欧几里得距离最小化。平均形状是对准的训练形状的平均。
在一些示例中,从与由全局面部检测器确定的面部的位置和大小对准的平均形状开始搜索界标。然后,这样的搜索重复以下步骤:通过每个点周围的图像纹理的模板匹配来调整形状点的位置而建议暂定形状,并且然后使暂定形状符合全局形状模型,直至发生收敛。在一些系统中,个别模板匹配是不可靠的,并且形状模型将弱模板匹配的结果进行池化,以形成较强的整体分类器。整个搜索在从粗略分辨率到精细分辨率的图像金字塔的每个级别上重复。
变换系统可以在客户端设备(例如,客户端设备102)上捕获图像或视频流,并且在客户端设备102上本地执行复杂的图像操纵,同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状变化、情绪转换(例如,将面部从皱眉变为微笑)、状态转换(例如,使对象变老、减少表观年龄、改变性别)、风格转换、图形元素应用,以及由已经被配置成在客户端设备102上有效执行的卷积神经网络实现的任何其他合适的图像或视频操纵。
在一些示例中,用于变换图像数据的计算机动画模型可以由系统使用,在该系统中,用户可以使用具有神经网络的客户端设备102来捕获用户的图像或视频流(例如,自拍),该神经网络操作作为在客户端设备102上操作的消息收发客户端104的一部分。在消息收发客户端104内操作的变换系统确定图像或视频流中的面部的存在并且提供与计算机动画模型相关联的修改图标以变换图像数据,或者计算机动画模型可以被呈现为与本文中描述的接口相关联。修改图标包括以下变化,该变化可以是作为修改操作的一部分的修改图像或视频流中的用户面部的基础。一旦选择了修改图标,则变换系统发起将用户的图像转换以反映所选择的修改图标(例如,在用户上生成笑脸)的处理。一旦图像或视频流被捕获并且指定的修改被选择,修改的图像或视频流就可以呈现在客户端设备102上显示的图形用户接口中。变换系统可以在图像或视频流的一部分上实施复杂的卷积神经网络,以生成和应用所选择的修改。也就是说,一旦选择了修改图标,用户就可以捕获图像或视频流并且实时或近乎实时地被呈现了修改结果。此外,当正在捕获视频流时,修改可以是持久的,并且所选择的修改图标保持被切换。机器教导的神经网络可以用于实现这样的修改。
呈现由变换系统执行的修改的图形用户接口可以为用户提供附加的交互选项。这样的选项可以基于用于发起内容捕获和对特定计算机动画模型的选择的接口(例如,从内容创建者用户接口发起)。在各种示例中,修改可以在对修改图标的初始选择之后是持久的。用户可以通过轻击或以其他方式选择由变换系统修改的面部来打开或关闭修改,并且将其存储以供以后查看或浏览到成像应用的其他区域。在由变换系统修改多个面部的情况下,用户可以通过轻击或选择在图形用户接口内修改和显示的单个面部来全局打开或关闭修改。在一些示例中,可以通过轻击或选择图形用户接口内显示的单独面部或一系列面部来单独修改一组多个面部中的各个面部,或者单独切换这样的修改。
故事表314存储关于消息和相关联的图像、视频或音频数据的集合的数据,所述消息和相关联的图像、视频或音频数据被汇编成集合(例如,故事或图库)。特定集合的创建可以由特定用户(例如其记录保存在实体表306中的每个用户)发起。用户可以以已经由该用户创建和发送/广播的内容的集合的形式创建“个人故事”。为此,消息收发客户端104的用户接口可以包括用户可选择的图标,以使得发送用户能够将特定内容添加到他或她的个人故事。
集合还可以构成作为来自多个用户的内容的集合的“实况故事”,所述内容是手动地、自动地或者使用手动技术和自动技术的组合创建的。例如,“实况故事”可以构成来自不同位置和事件的用户提交的内容的策展流。其客户端设备启用了定位服务并且在特定时间处于共同位置事件处的用户可以例如经由消息收发客户端104的用户接口被呈现有将内容贡献给特定实况故事的选项。可以由消息收发客户端104基于他或她的位置向用户标识实况故事。最终结果是从群体角度讲述的“实况故事”。
另外类型的内容集合被称为“位置故事”,其使得其客户端设备102位于特定地理定位(例如,在学院或大学校园)内的用户能够对特定集合做出贡献。在一些示例中,对位置故事的贡献可能需要二级认证以验证最终用户属于特定组织或其他实体(例如,是大学校园中的学生)。
如上面提到的,视频表304存储视频数据,在一个示例中,该视频数据与其记录保存在消息表302内的消息相关联。类似地,图像表312存储图像数据,该图像数据与其消息数据存储在实体表306中的消息相关联。实体表306可以使来自增强表310的各种增强与存储在图像表312和视频表304中的各种图像和视频相关联。
数据通信架构
图4是示出根据一些示例的消息400的结构的示意图,消息400由消息收发客户端104生成,以用于传送至另外的消息收发客户端104或消息收发服务器118。特定消息400的内容用于填充存储在数据库126中的消息表302,该消息表302可由消息收发服务器118访问。类似地,消息400的内容被存储在存储器中作为客户端设备102或应用服务器114的“传输中”或“飞行中”的数据。消息400被示出为包括以下示例组成部分:
·消息标识符402:标识消息400的唯一标识符。
·消息文本有效载荷404:要由用户经由客户端设备102的用户接口生成并且被包括在消息400中的文本。
·消息图像有效载荷406:由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器部件检索的、并且包括在消息400中的图像数据。发送或接收到的消息400的图像数据可以存储在图像表312中。
·消息视频有效载荷408:由摄像装置部件捕获的或从客户端设备102的存储器部件检索到的、并且包括在消息400中的视频数据。发送或接收到的消息400的视频数据可以存储在视频表304中。
·消息音频有效载荷410:由麦克风捕获的或从客户端设备102的存储器部件检索的、并且包括在消息400中的音频数据。
·消息增强数据412:表示要应用于消息400的消息图像有效载荷406、消息视频有效载荷408或消息音频有效载荷410的增强的增强数据(例如,过滤器、贴纸或其他注解或增强)。发送或接收到的消息400的增强数据可以存储在增强表310中。
·消息持续时间参数414:参数值,其指示消息的内容(例如,消息图像有效载荷406、消息视频有效载荷408、消息音频有效载荷410)将经由消息收发客户端104被呈现给用户或使其对于用户可访问的以秒为单位的时间量。
·消息地理定位参数416:与消息的内容有效载荷相关联的地理定位数据(例如,纬度坐标和经度坐标)。多个消息地理定位参数416值可以被包括在有效载荷中,这些参数值中的每个参数值与包括在内容中的内容项(例如消息图像有效载荷406内的特定图像或消息视频有效载荷408中的特定视频)相关联。
·消息故事标识符418:标识一个或更多个内容集合(例如,在故事表314中标识的“故事”)的标识符值,其中消息400的消息图像有效载荷406中的特定内容项与一个或更多个内容集合相关联。例如,可以使用标识符值将消息图像有效载荷406内的多个图像各自与多个内容集合相关联。
·消息标签420:每个消息400可以用多个标签来标记,多个标签中的每个标签指示消息有效载荷中所包括的内容的主题。例如,在消息图像有效载荷406中包括的特定图像描绘动物(例如狮子)的情况下,可以在消息标签420中包括指示相关动物的标签值。标签值可以基于用户输入手动地生成,或可以使用例如图像识别自动地生成。
·消息发送者标识符422:指示在其上生成消息400并且从其发送消息400的客户端设备102的用户的标识符(例如消息收发系统标识符、电子邮件地址或设备标识符)。
·消息接收者标识符424:指示消息400被寻址到的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
消息400的各个组成部分的内容(例如,值)可以是指向其内存储有内容数据值的表中的位置的指针。例如,消息图像有效载荷406中的图像值可以是指向图像表312内的位置的指针(或地址)。类似地,消息视频有效载荷408内的值可以指向存储在视频表304内的数据,存储在消息增强412内的值可以指向存储在增强表310中的数据,存储在消息故事标识符418内的值可以指向存储在故事表314中的数据,并且存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表306内的用户记录。
基于时间的访问限制架构
图5是示出访问限制过程500的示意图,根据该访问限制过程,对内容(例如,短暂消息502和相关联的数据的多媒体有效载荷)或内容集合(例如,短暂消息组504)的访问可以是时间受限的(例如,使得是短暂的)。
短暂消息502被示为与消息持续时间参数506相关联,消息持续时间参数506的值确定消息收发客户端104将向短暂消息502的接收用户显示短暂消息502的时间量。在一个示例中,取决于发送用户使用消息持续时间参数506指定的时间量,接收用户可查看短暂消息502达到最多10秒。
消息持续时间参数506和消息接收者标识符424被示出为是消息定时器510的输入,消息定时器510负责确定向由消息接收者标识符424标识的特定接收用户示出短暂消息502的时间量。特别地,仅在由消息持续时间参数506的值确定的时间段内向相关接收用户示出短暂消息502。消息定时器510被示出为向更一般化的短暂定时器系统202提供输出,该短暂定时器系统202负责向接收用户显示内容(例如,短暂消息502)的总体定时。
图5中示出的短暂消息502被包括在短暂消息组504(例如,个人故事或事件故事中的消息的集合)内。短暂消息组504具有相关联的组持续时间参数508,组持续时间参数508的值确定短暂消息组504被呈现并且可由消息收发系统100的用户访问的持续时间。例如,组持续时间参数508可以是音乐会的持续时间,其中,短暂消息组504是涉及该音乐会的内容的集合。替选地,当执行短暂消息组504的设置和创建时,用户(拥有用户或策展者用户)可以指定组持续时间参数508的值。
另外,短暂消息组504内的每个短暂消息502具有相关联的组参与参数512,组参与参数512的值确定在短暂消息组504的上下文内将可访问短暂消息502的持续时间。因此,在短暂消息组504本身根据组持续时间参数508到期之前,特定的短暂消息组504可以“到期”并且在短暂消息组504的上下文中变得不可访问。组持续时间参数508、组参与参数512和消息接收者标识符424各自向组定时器514提供输入,组定时器514可操作地首先确定短暂消息组504的特定短暂消息502是否将被显示给特定接收用户,并且如果是,则确定显示多长时间。注意,由于消息接收者标识符424,短暂消息组504也知道特定接收用户的身份。
因此,组定时器514可操作地控制相关联的短暂消息组504以及包括在短暂消息组504中的单独的短暂消息502的总寿命期限。在一个示例中,短暂消息组504内的每个短暂消息502在由组持续时间参数508指定的时间段内保持可查看和可访问。在另一示例中,在短暂消息组504的上下文内,某个短暂消息502可以基于组参与参数512而到期。注意,即使在短暂消息组504的上下文内,消息持续时间参数506也仍然可以确定向接收用户显示特定短暂消息502的持续时间。因此,消息持续时间参数506确定向接收用户显示特定短暂消息502的持续时间,而不管接收用户是在短暂消息组504的上下文之内还是之外查看该短暂消息502。
短暂定时器系统202还可以基于确定特定的短暂消息502已经超过相关联的组参与参数512而从短暂消息组504中可操作地移除该特定的短暂消息502。例如,当发送用户已经建立了从发布起24小时的组参与参数512时,短暂定时器系统202将在指定的24小时之后从短暂消息组504中移除相关的短暂消息502。当针对短暂消息组504内的每个短暂消息502的组参与参数512已经到期时,或者当短暂消息组504本身根据组持续时间参数508已经到期时,短暂定时器系统202还进行操作以移除短暂消息组504。
在某些使用情况下,特定短暂消息组504的创建者可以指定无期限的组持续时间参数508。在这种情况下,针对短暂消息组504内最后剩余的短暂消息502的组参与参数512的到期将确定短暂消息组504本身何时到期。在这种情况下,添加至短暂消息组504的具有新的组参与参数512的新的短暂消息502实际上将短暂消息组504的寿命延长到等于组参与参数512的值。
响应于短暂定时器系统202确定短暂消息组504已经到期(例如,不再是可访问的),短暂定时器系统202与消息收发系统100(并且例如特别是消息收发客户端104)通信,以使得与相关短暂消息组504相关联的标记(例如,图标)不再显示在消息收发客户端104的用户接口内。类似地,当短暂定时器系统202确定针对特定短暂消息502的消息持续时间参数506已经到期时,短暂定时器系统202使消息收发客户端104不再显示与短暂消息502相关联的标记(例如,图标或文本标识)。
图6是用于使由不同部分组成的关节对象动画化的运动表示模型602的图示。在一些示例中,动画系统130包括运动表示模型602。运动表示模型602基于驱动图像数据来使源图像数据动画化。运动表示模型602被示出为包括两个主要部分:运动估计系统604和图像生成系统606。
基于PCA的运动估计
准确的运动估计对于高质量图像动画是重要的。运动估计系统604使用区域来估计运动。这实现了改进的收敛、更稳定、鲁棒的对象和运动表示。这些区域对应于语义上相关且不同的对象部分,这些对象部分在驱动图像数据中更容易被检测到。运动估计系统604通过直接从所有运动相应的热图测量所有运动来表示运动。运动估计系统604包括区域预测器系统608和背景运动预测器系统610。运动估计系统604学习检测K个不同的对象区域,其中K是用户定义的参数。
区域预测器系统608是编码器-解码器网络,其接收图像作为输入并且输出K个热图M1、……、Mk。区域预测器系统608针对源图像数据和驱动图像数据中的每个区域生成热图。最终网络层是softmax操作,s.t.Mk∈[0,1]H x W,其中H和W分别是图像的高度和宽度,并且∑x∈ZMk(z)=1,其中z是图像中的像素位置(例如,x、y坐标),所有像素位置的集合是Z,并且Mk(z)是像素z处的第k个热图权重。在无监督的情况下,区域预测器系统608映射到有意义的对象部分,例如关节体的肢体。
运动估计系统604分别针对每个区域估计从图像X到参考帧R的一阶变换。直接从热图测量缩放和旋转以及平移。平移由平均位置给出,而平面内旋转以及x和y方向上的缩放通过热图的主分量分析(PCA)计算的。从参考帧到图像的区域的变换计算如下:
Figure BDA0004026684560000211
Figure BDA0004026684560000212
Figure BDA0004026684560000213
如上所示,使用奇异值分解(SVD)方法来计算PCA。具体地,热图的协方差被分解为酉矩阵Uk和Vk。Sk表示奇异值的对角矩阵。
参考帧不是抽象帧。参考帧用作源图像坐标帧与驱动图像坐标帧之间的中间坐标帧。参考帧对应于其中热图被白化的坐标帧(即,具有零均值和恒等协方差)。运动估计系统604计算每个热图的主轴分析(PCA),以通过白化参考帧将每个区域从源图像数据(例如,源图像帧)变换为驱动图像数据(例如,驱动图像帧)。由此,从驱动图像到源图像的变换被定义为,
Figure BDA0004026684560000214
背景运动估计
背景占据图像的大部分。帧之间的小背景运动(例如,由于摄像装置运动)不利地影响动画质量。背景运动预测器系统610使用编码器网络来预测仿射背景变换
Figure BDA0004026684560000215
该编码器网络假设源图像帧(S)和驱动图像帧(D)作为输入,并且预测六个实值a1、……、a6,使得
Figure BDA0004026684560000216
由于运动估计系统604是无监督的,所以背景运动预测器系统610可以将前景的部分包括在背景运动中。
图像生成
图像生成系统606使用将粗略运动转换成密集光流的逐像素流预测器系统612来渲染目标图像。
通过加权和来组合粗略运动,以计算密集的每像素运动或流。经由编码器-解码器网络(例如,逐像素流预测器系统612)来计算每像素权重以及置信度图614。根据流对源图像的编码特征进行扭曲,并且图像生成系统606对缺失区域进行描绘。逐像素流预测器系统612的输入是H×W×(4K+3)张量,每个区域具有四个通道:三个用于根据区域的仿射变换扭曲的源图像,一个用于区域的热图,其是Mk的高斯近似,并且其他三个通道用于根据背景的仿射变换扭曲的源图像。图像生成系统606根据热图估计协方差。该密集光流由下式给出,
Figure BDA0004026684560000221
训练
使用预训练的卷积网络的特征空间中的重构损失端到端地训练运动表示模型602。多分辨率重建损失如下,
Figure BDA0004026684560000222
其中,
Figure BDA0004026684560000223
是生成的图像,Vi是预训练的卷积神经网络的第i层,F1是下采样算子。运动表示模型602还使用以下等效损失。
Figure BDA0004026684560000224
其中,
Figure BDA0004026684560000225
是由
Figure BDA0004026684560000226
变换的图像X,并且
Figure BDA0004026684560000227
是几何变换。最终损失是项的总和
Figure BDA0004026684560000228
解缠结动画
运动估计系统604学习如图7所示的解缠结形状编码器702和姿势编码器704。姿势编码器704接收驱动运动的集合
Figure BDA0004026684560000229
形状编码器702接收源运动的集合
Figure BDA0004026684560000231
解码器706使用形状编码器702和姿势编码器704的连接的潜在表示(每个在
Figure BDA0004026684560000232
中)来产生修改的驱动运动的集合
Figure BDA0004026684560000233
从而对前者的运动和后者的形状进行编码。然后这些被运动估计系统604用来渲染输出。
姿势编码器704、形状编码器702和解码器706使用完全连接的神经网络层来实现,并且使用运动参数上的L1重构损失与其他块分开训练。
使用来自同一视频(例如,图像中的对象具有相同形状)的源图像帧和驱动图像帧来训练运动表示模型602,因此,为了确保形状来自正确的分支,在训练期间将随机的水平缩放变形和竖直缩放变形应用于驱动运动。这迫使形状信息来自形状分支。然而,由于形状分支具有不同的姿势,因此该姿势仍然必须来自姿势分支。因此,形状和姿势被解开。
虽然所描述的流程图可以将操作示为顺序处理,但是许多操作可以并行或同时执行。此外,可以重新安排操作的顺序。处理在其操作完成时终止。处理可以对应于方法、过程、算法等。方法的操作可以整体或部分地执行,可以结合其他方法中的一些操作或所有操作来执行,并且可以由任何数目的不同系统(例如本文中所描述的系统)或其任何部分(例如包括在任何系统中的处理器)来执行。
使用运动表示生成关节动画的处理
图8是根据示例实施方式的用于使用运动表示来生成关节动画的方法800。在一个示例中,动画系统130中的处理器、运动表示模型602中的处理器、客户端设备102中的处理器或其任意组合可以执行方法800中的操作。
在操作802处,动画系统130通过计算设备访问包括多个源图像的源图像数据。在一些示例中,源图像数据由计算设备(例如,客户端设备102)捕获。在操作804处,动画系统130识别驱动图像数据以修改源图像序列数据中的图像特征数据。在一些示例中,驱动图像数据是驱动图像的有序集合。源图像数据可以包括第一关节对象(例如,第一人),并且驱动图像数据可以包括第二关节对象(例如,不同于第一人的第二人)。
在操作806处,动画系统130使用图像变换神经网络来生成包括描绘图像特征数据的修改版本的多个修改的源图像的修改源图像数据。例如,图像变换神经网络可以是运动表示模型602。图像变换神经网络被训练成针对源图像数据中的每个图像从驱动图像数据中识别驱动图像,所识别的驱动图像由图像变换神经网络实现(implement),以使用所识别的驱动图像与源图像数据中的相应源图像之间的运动估计差来修改相应源图像。
图像变换神经网络包括区域预测器神经网络(例如,区域预测器系统608)、背景运动检测器神经网络(例如,背景运动预测器系统610)和生成神经网络(例如,图像生成系统606)。背景运动检测器神经网络被配置成基于源图像数据和驱动图像数据来预测仿射背景变换。区域预测器神经网络被配置成生成所识别的驱动图像与相应的源图像之间的运动估计差。例如,区域预测器神经网络从源图像数据生成源图像热图的集合,从驱动图像数据生成驱动图像热图的集合,针对源图像热图的集合计算源主轴的集合,针对驱动图像热图的集合计算驱动主轴的集合,并且基于所计算的源主轴的集合和驱动主轴的集合来生成源图像数据的变换。
生成神经网络被配置成通过将所识别的驱动图像与来自源图像数据的相应源图像之间的运动估计差应用于相应的源图像来生成修改的源图像数据中的每个修改的源图像。
在操作808处,动画系统130将修改的源图像数据存储在计算设备上。
图9是根据示例实施方式的使用关节动画的运动表示生成的示例动画图像的图示。源图像902、904和906与所得到的源图像的相应动画图像(行908、910、912、914)一起示出。使用运动估计系统604来使源图像的动画图像动画化。
机器架构
图10是机器1000的图解表示,在该机器1000内可以执行用于使机器1000执行本文所讨论的方法中的任何一个或更多个方法的指令1010(例如,软件、程序、应用、小程序、app或其他可执行代码)。例如,指令1010可以使机器1000执行本文所描述的方法中的任何一个或更多个方法。指令1010将通用的非编程的机器1000转换成被编程成以所描述的方式执行所描述和所示出的功能的特定机器1000。机器1000可以作为独立设备操作或者可以耦接(例如,联网)到其他机器。在联网的部署中,机器1000可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份进行操作,或者在对等(或分布式)网络环境中作为对等机器进行操作。机器1000可以包括但不限于:服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能电器)、其他智能设备、web装置、网络路由器、网络交换机、网络桥接器或者能够顺序地或以其他方式执行指定要由机器1000采取的动作的指令1010的任何机器。此外,虽然仅示出了单个机器1000,但是术语“机器”还应被视为包括单独或联合执行指令1010以执行本文中讨论的方法中的任何一个或更多个方法的机器的集合。例如,机器1000可以包括客户端设备102或者形成消息收发服务器系统108的一部分的若干个服务器设备中的任何一个。在一些示例中,机器1000还可以包括客户端和服务器系统二者,其中在服务器侧执行特定方法或算法的某些操作,并且在客户端侧执行特定方法或算法的某些操作。
机器1000可以包括可以被配置成经由总线1040彼此通信的处理器1004、存储器1006和输入/输出(I/O)部件1002。在示例中,处理器1004(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令1010的处理器1008和处理器1012。术语“处理器”旨在包括多核处理器,该多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时被称为“核”)。虽然图10示出了多个处理器1004,但是机器1000可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器或者其任何组合。
存储器1006包括处理器1004可以经由总线1040访问的主存储器1014、静态存储器1016和存储单元1018。主存储器1006、静态存储器1016和存储单元1018存储实现本文中所描述的方法或功能中的任何一个或更多个方法或功能的指令1010。指令1010还可以在其被机器1000执行期间完全地或部分地驻留在主存储器1014内、在静态存储器1016内、在存储单元1018内的机器可读介质1020内、在处理器1004中的至少一个处理器内(例如,在处理器的高速缓存存储器内)或其任何合适的组合内。
I/O部件1002可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种各样的部件。包括在特定机器中的特定I/O部件1002将取决于机器的类型。例如,便携式机器诸如移动电话可以包括触摸输入设备或其他这样的输入机构,而无头服务器机器将不太可能包括这样的触摸输入设备。将理解的是,I/O部件1002可以包括图10中未示出的许多其他部件。在各种示例中,I/O部件1002可以包括用户输出部件1026和用户输入部件1028。用户输出部件1026可以包括视觉部件(例如,诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学部件(例如,扬声器)、触觉部件(例如,振动马达、阻力机构)、其他信号生成器等。用户输入部件1028可以包括字母数字输入部件(例如,键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于点的输入部件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向仪器)、触觉输入部件(例如,物理按钮、提供触摸或触摸手势的位置和力的触摸屏、或其他触觉输入部件)、音频输入部件(例如,麦克风)等。
在其他示例中,I/O部件1002可以包括生物识别部件1030、运动部件1032、环境部件1034、或定位部件1036以及各种其他部件。例如,生物识别部件1030包括用于检测表达(例如,手表达、面部表情、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别人(例如,声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件1032包括加速度传感器部件(例如,加速度计)、重力传感器部件、旋转传感器部件(例如,陀螺仪)。
环境部件1034包括例如:一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如,光度计)、温度传感器部件(例如,检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如,气压计)、声学传感器部件(例如,检测背景噪声的一个或更多个麦克风)、接近度传感器部件(例如,检测附近对象的红外传感器)、气体传感器(例如,为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。
关于摄像装置,客户端设备102可以具有摄像装置系统,该摄像装置系统包括例如客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如,“自拍”),然后可以用上述增强数据(例如,过滤器)对该静止图像和视频进行增强。例如,后置摄像装置可以用于以更传统的摄像装置模式捕获静止图像和视频,这些图像类似地使用增强数据进行增强。除了前置摄像装置和后置摄像装置之外,客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。
此外,客户端设备102的摄像装置系统可以包括双后置摄像装置(例如,主摄像装置以及深度感测摄像装置),或者甚至在客户端设备102的前后侧上包括三重、四重或五重后置摄像装置配置。例如,这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。
定位部件1036包括位置传感器部件(例如,GPS接收器部件)、海拔传感器部件(例如,检测可以得到海拔的气压的高度计或气压计)、取向传感器部件(例如,磁力计)等。
可以使用各种各样的技术来实施通信。I/O部件1002还包括通信部件1038,通信部件1038可操作以经由相应的耦接或连接将机器1000耦接至网络1022或设备1024。例如,通信部件1038可以包括网络接口部件或另一合适的设备以与网络1022对接。在其他示例中,通信部件1038可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、
Figure BDA0004026684560000271
部件(例如,
Figure BDA0004026684560000272
低功耗)、
Figure BDA0004026684560000273
部件以及经由其他形式提供通信的其他通信部件。设备1024可以是其他机器或各种外围设备中的任何外围设备(例如,经由USB耦接的外围设备)。
此外,通信部件1038可以检测标识符或包括可操作以检测标识符的部件。例如,通信部件1038可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如,用于检测诸如通用产品代码(UPC)条形码的一维条形码、诸如快速反应(QR)码、Aztec码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(UltraCode)、UCC RSS-2D条形码的多维条形码和其他光学码的光学传感器)或声学检测部件(例如,用于识别标记的音频信号的麦克风)。另外,可以经由通信部件1038得出各种信息,例如经由因特网协议(IP)地理定位的位置、经由
Figure BDA0004026684560000281
信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置等。
各种存储器(例如,主存储器1014、静态存储器1016以及处理器1004的存储器)以及存储单元1018可以存储由本文中描述的方法或功能中的任何一个或更多个实现或使用的指令和数据结构(例如,软件)中的一组或更多组。这些指令(例如,指令1010)在由处理器1004执行时使各种操作实现所公开的示例。
可以经由网络接口设备(例如,通信部件1038中包括的网络接口部件),使用传输介质并且使用若干公知的传输协议中的任意一种传输协议(例如,超文本传输协议(HTTP)),通过网络1022来发送或接收指令1010。类似地,可以使用传输介质经由到设备1024的耦接(例如,对等耦接)来发送或接收指令1010。
软件架构
图11是示出软件架构1104的框图1100,该软件架构1104可以安装在本文所描述的任何一个或更多个设备上。软件架构1104由硬件例如包括处理器1120、存储器1126和I/O部件1138的机器1102支持。在该示例中,软件架构1104可以被概念化为层的堆栈,在该层的堆栈中,每个层提供特定的功能。软件架构1104包括诸如操作系统1112、库1110、框架1108和应用1106的层。在操作上,应用1106通过软件堆栈来激活API调用1150并且响应于API调用1150来接收消息1152。
操作系统1112管理硬件资源并且提供公共服务。操作系统1112包括例如核1114、服务1116和驱动器1122。核1114充当硬件层与其他软件层之间的抽象层。例如,核1114提供存储器管理、处理器管理(例如,调度)、部件管理、网络和安全设置以及其他功能。服务1116可以为其他软件层提供其他公共服务。驱动器1122负责控制底层硬件或与底层硬件对接。例如,驱动器1122可以包括显示驱动器、摄像装置驱动器、
Figure BDA0004026684560000282
Figure BDA0004026684560000283
低功耗驱动器、闪存驱动器、串行通信驱动器(例如,USB驱动器)、
Figure BDA0004026684560000284
驱动器、音频驱动器、电源管理驱动器等。
库1110提供由应用1106使用的公共低级基础设施。库1110可以包括系统库1118(例如,C标准库),系统库1118提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。另外,库1110可以包括API库1124,例如媒体库(例如,用于支持各种媒体格式的呈现和操作的库,所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如,用于在显示器上的图形内容中以二维(2D)和三维(3D)进行呈现的OpenGL框架)、数据库库(例如,提供各种关系数据库功能的SQLite)、web库(例如,提供网页浏览功能的WebKit)等。库1110还可以包括各种各样的其他库1128,以向应用1106提供许多其他API。
框架1108提供由应用1106使用的公共高级基础设施。例如,框架1108提供各种图形用户接口(GUI)功能、高级资源管理以及高级定位服务。框架1108可以提供可由应用1106使用的广泛的其他API,其中的一些API可以专用于特定的操作系统或平台。
在示例中,应用1106可以包括家庭应用1136、联系人应用1130、浏览器应用1132、书籍阅读器应用1134、定位应用1142、媒体应用1144、消息收发应用1146、游戏应用1148和诸如第三方应用1140的各种各样的其他应用。应用1106是执行程序中限定的功能的程序。可以使用各种编程语言来创建以各种方式构造的应用1106中的一个或更多个,所述编程语言例如面向对象的编程语言(例如,Objective-C、Java或C++)或过程编程语言(例如C或汇编语言)。在特定示例中,第三方应用1140(例如,由特定平台的供应商以外的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用)可以是在诸如IOSTM、ANDROIDTM
Figure BDA0004026684560000291
Phone的移动操作系统或其他移动操作系统上运行的移动软件。在该示例中,第三方应用1140可以激活由操作系统1112提供的API调用1150以有助于本文中描述的功能。
术语表
“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括数字或模拟通信信号或其他无形介质以便于这些指令的通信。可以使用传输介质经由网络接口设备来通过网络发送或接收指令。
“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。
“通信网络”是指网络的一个或更多个部分,该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、
Figure BDA0004026684560000301
网络、其他类型的网络或者两个或更多个这样的网络的组合。例如,网络或网络的一部分可以包括无线网络或蜂窝网络,并且耦接可以是码分多址(CDMA)连接、全局移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中,耦接可以实现各种类型的数据传输技术中的任何数据传输技术,例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、增强数据速率的GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。
“部件”是指具有以下边界的设备、物理实体或逻辑,该边界由功能或子例程调用、分支点、API或者对特定处理或控制功能提供分区或模块化的其他技术定义。部件可以经由其接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元,并且可以是通常执行相关功能中的特定功能的程序的一部分。部件可以构成软件部件(例如,在机器可读介质上实施的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元,并且可以以某种物理方式来配置或布置。在各种示例中,可以通过软件(例如,应用或应用部分)将一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件部件(例如,处理器或处理器组)配置为用于执行本文中描述的某些操作的硬件部件。也可以机械地、电子地或以其任何合适的组合来实现硬件部件。例如,硬件部件可以包括被永久地配置成执行某些操作的专用电路系统或逻辑。硬件部件可以是例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的专用处理器。硬件部件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路系统。例如,硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置,硬件部件就变成被独特地定制成执行所配置的功能的特定机器(或机器的特定部件),而不再是通用处理器。将理解,可以出于成本和时间考虑来决定机械地、在专用且永久配置的电路中还是在临时配置(例如,由软件配置)的电路中实现硬件部件。相应地,短语“硬件部件”(或者“硬件实现的部件”)应当被理解成包含有形实体,即被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)成以某种方式操作或者执行本文中描述的某些操作的实体。考虑硬件部件被临时配置(例如,被编程)的示例,无需在任一时刻对硬件部件中的每个硬件部件进行配置或实例化。例如,在硬件部件包括通过软件配置成变成专用处理器的通用处理器的情况下,该通用处理器可以在不同时间处分别被配置为不同的专用处理器(例如,包括不同的硬件部件)。软件相应地配置一个或多个特定处理器以例如在一个时刻处构成特定硬件部件,并且在不同的时刻处构成不同的硬件部件。硬件部件可以向其他硬件部件提供信息以及从其他硬件部件接收信息。因此,所描述的硬件部件可以被认为通信地耦接。在同时存在多个硬件部件的情况下,可以通过在两个或更多个硬件部件之间或之中(例如,通过适当的电路和总线)的信号传输来实现通信。在其中多个硬件部件在不同时间处被配置或被实例化的示例中,可以例如通过将信息存储在多个硬件部件访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如,一个硬件部件可以执行操作,并且将该操作的输出存储在其通信地耦接到的存储器设备中。然后,其他硬件部件可以在随后的时间访问存储器设备以检索所存储的输出并对所存储的输出进行处理。硬件部件还可以发起与输入设备或输出设备的通信,并且可以对资源进行操作(例如,信息的收集)。本文所述的示例方法的各种操作可以至少部分地由临时地被配置(例如,由软件)或永久地被配置成执行相关操作的一个或更多个处理器来执行。无论是临时地被配置还是永久地被配置,这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的部件。如本文中使用的,“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地,本文中描述的方法可以至少部分地由处理器实现,其中特定的一个或多个处理器是硬件的示例。例如,方法的至少一些操作可以由一个或更多个处理器602或处理器实现的部件来执行。此外,所述一个或更多个处理器还可以操作成支持“云计算”环境中的相关操作的执行或者操作为“软件即服务”(SaaS)。例如,操作中的至少一些操作可以由计算机组(作为包括处理器的机器的示例)执行,其中,这些操作能够经由网络(例如,因特网)并且经由一个或更多个适当的接口(例如,API)进行访问。某些操作的执行可以分布在处理器之间,不是仅驻留在单个机器内,而是跨多个机器被部署。在一些示例中,处理器或处理器实现的部件可以位于单个地理定位中(例如,在家庭环境、办公室环境或服务器群内)。在其他示例中,处理器或处理器实现的部件可以跨若干地理定位而分布。
“计算机可读存储介质”是指机器存储介质和传输介质两者。因此,这些术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物,并且可以在本公开内容中可互换地使用。
“短暂消息”是指在时间有限的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。短暂消息的访问时间可以由消息发送者设置。替选地,访问时间可以是默认设置或者由接收者指定的设置。无论设置技术如何,消息都是暂时的。
“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如,集中式或分布式数据库,以及相关联的高速缓存和服务器)。因此,该术语应被视为包括但不限于固态存储器以及光学和磁介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和/或设备存储介质的具体示例包括:非易失性存储器,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备;磁盘,例如内部硬盘和可移动磁盘;磁光盘;以及CD-ROM和DVD-ROM磁盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物,并且在本公开内容中可以互换使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质,所述载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。
“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。
“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质,并且包括数字或模拟通信信号或其他无形介质以有助于软件或数据的通信。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指使其特征中的一个或更多个特征以将信息编码在信号中的方式来设置或改变的信号。术语“传输介质”和“信号介质”指相同的事物并且可以在本公开内容中互换使用。

Claims (20)

1.一种方法,包括:
由计算设备访问包括多个源图像的源图像数据;
识别驱动图像数据以修改所述源图像数据中的图像特征数据;
使用图像变换神经网络生成修改的源图像数据,所述修改的源图像数据包括描绘所述图像特征数据的修改版本的多个修改的源图像,
所述图像变换神经网络被训练成针对所述源图像数据中的每个图像从所述驱动图像数据中识别驱动图像,所识别的驱动图像由所述图像变换神经网络实现,以使用所述所识别的驱动图像与所述源图像数据中的相应的源图像之间的运动估计差来修改所述相应的源图像;以及
将所述修改的源图像数据存储在所述计算设备上。
2.根据权利要求1所述的方法,其中,所述驱动图像数据包括驱动图像的有序集合。
3.根据权利要求1所述的方法,其中,所述图像变换神经网络包括区域预测器神经网络、背景运动检测器神经网络和生成神经网络。
4.根据权利要求3所述的方法,其中,所述背景运动检测器神经网络被配置成基于所述源图像数据和所述驱动图像数据来预测仿射背景变换。
5.根据权利要求3所述的方法,其中,所述区域预测器神经网络被配置成生成所识别的驱动图像与所述相应的源图像之间的运动估计差。
6.根据权利要求5所述的方法,还包括:
从所述源图像数据生成源图像热图的集合;
从所述驱动图像数据生成驱动图像热图的集合;
针对所述源图像热图的集合计算源主轴的集合;
针对所述驱动图像热图的集合计算驱动主轴的集合;以及
基于所计算的源主轴的集合和驱动主轴的集合生成所述源图像数据的变换。
7.根据权利要求3所述的方法,其中,所述生成神经网络被配置成:通过将所述所识别的驱动图像与来自所述源图像数据的所述相应的源图像之间的运动估计差应用于所述相应的源图像来生成所述修改的源图像数据中的每个修改的源图像。
8.一种系统,包括:
处理器;以及
存储器,其存储指令,所述指令在由所述处理器执行时将所述系统配置成:
访问包括多个源图像的源图像数据;
识别驱动图像数据以修改所述源图像数据中的图像特征数据;
使用图像变换神经网络生成修改的源图像数据,所述修改的源图像数据包括描绘所述图像特征数据的修改版本的多个修改的源图像,所述图像变换神经网络被训练成针对所述源图像数据中的每个图像从所述驱动图像数据中识别驱动图像,所识别的驱动图像由所述图像变换神经网络实现,以使用所述所识别的驱动图像与所述源图像数据中的相应的源图像之间的运动估计差来修改所述相应的源图像;以及
将所述修改的源图像数据存储在所述计算设备上。
9.根据权利要求8所述的系统,其中,所述驱动图像数据包括驱动图像的有序集合。
10.根据权利要求8所述的系统,其中,所述图像变换神经网络包括区域预测器神经网络、背景运动检测器神经网络和生成神经网络。
11.根据权利要求10所述的系统,其中,所述背景运动检测器神经网络被配置成基于所述源图像数据和所述驱动图像数据来预测仿射背景变换。
12.根据权利要求10所述的系统,其中,所述区域预测器神经网络被配置成生成所述所识别的驱动图像与所述相应的源图像之间的运动估计差。
13.根据权利要求12所述的系统,其中,所述指令还将所述系统配置成:
从所述源图像数据生成源图像热图的集合;
从所述驱动图像数据生成驱动图像热图的集合;
针对所述源图像热图的集合计算源主轴的集合;
针对所述驱动图像热图的集合计算驱动主轴的集合;以及
基于所计算的源主轴的集合和驱动主轴的集合生成所述源图像数据的变换。
14.根据权利要求10所述的系统,其中,所述生成神经网络被配置成:通过将所述所识别的驱动图像与来自所述源图像数据的所述相应的源图像之间的运动估计差应用于所述相应的源图像来生成所述修改的源图像数据中的每个修改的源图像。
15.一种非暂态计算机可读存储介质,所述计算机可读存储介质包括指令,所述指令在由计算机执行时使所述计算机进行以下操作:
访问包括多个源图像的源图像数据;
识别驱动图像数据以修改所述源图像数据中的图像特征数据;
使用图像变换神经网络生成修改的源图像数据,所述修改的源图像数据包括描绘所述图像特征数据的修改版本的多个修改的源图像,
所述图像变换神经网络被训练成针对所述源图像数据中的每个图像从所述驱动图像数据中识别驱动图像,所识别的驱动图像由所述图像变换神经网络实现,以使用所述所识别的驱动图像与所述源图像数据中的相应的源图像之间的运动估计差来修改所述相应的源图像;以及
将所述修改的源图像数据存储在所述计算设备上。
16.根据权利要求15所述的计算机可读存储介质,其中,所述驱动图像数据包括驱动图像的有序集合。
17.根据权利要求15所述的计算机可读存储介质,其中,所述图像变换神经网络包括区域预测器神经网络、背景运动检测器神经网络和生成神经网络。
18.根据权利要求17所述的计算机可读存储介质,其中,所述背景运动检测器神经网络被配置成基于所述源图像数据和所述驱动图像数据来预测仿射背景变换。
19.根据权利要求17所述的计算机可读存储介质,其中,所述区域预测器神经网络被配置成生成所述所识别的驱动图像与所述相应的源图像之间的运动估计差。
20.根据权利要求19所述的计算机可读存储介质,其中,所述指令还将所述计算机配置成:
从所述源图像数据生成源图像热图的集合;
从所述驱动图像数据生成驱动图像热图的集合;
针对所述源图像热图的集合计算源主轴的集合;
针对所述驱动图像热图的集合计算驱动主轴的集合;以及
基于所计算的源主轴的集合和驱动主轴的集合生成所述源图像数据的变换。
CN202180046574.0A 2020-06-30 2021-06-30 用于关节动画的运动表示 Pending CN116113991A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063046583P 2020-06-30 2020-06-30
US63/046,583 2020-06-30
PCT/US2021/039935 WO2022006299A1 (en) 2020-06-30 2021-06-30 Motion representations for articulated animation

Publications (1)

Publication Number Publication Date
CN116113991A true CN116113991A (zh) 2023-05-12

Family

ID=77155857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180046574.0A Pending CN116113991A (zh) 2020-06-30 2021-06-30 用于关节动画的运动表示

Country Status (5)

Country Link
US (1) US11836835B2 (zh)
EP (1) EP4172950A1 (zh)
KR (1) KR20230044213A (zh)
CN (1) CN116113991A (zh)
WO (1) WO2022006299A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4058987A1 (en) * 2019-11-15 2022-09-21 Snap Inc. Image generation using surface-based neural synthesis
EP4172950A1 (en) 2020-06-30 2023-05-03 Snap Inc. Motion representations for articulated animation
US11360733B2 (en) 2020-09-10 2022-06-14 Snap Inc. Colocated shared augmented reality without shared backend
US11949527B2 (en) 2022-04-25 2024-04-02 Snap Inc. Shared augmented reality experience in video chat

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783622B2 (en) * 2018-04-25 2020-09-22 Adobe Inc. Training and utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image
CN110399849B (zh) * 2019-07-30 2021-07-27 北京市商汤科技开发有限公司 图像处理方法及装置、处理器、电子设备及存储介质
US11514573B2 (en) * 2019-11-27 2022-11-29 Shanghai United Imaging Intelligence Co., Ltd. Estimating object thickness with neural networks
EP4172950A1 (en) 2020-06-30 2023-05-03 Snap Inc. Motion representations for articulated animation

Also Published As

Publication number Publication date
US20210407163A1 (en) 2021-12-30
KR20230044213A (ko) 2023-04-03
WO2022006299A1 (en) 2022-01-06
EP4172950A1 (en) 2023-05-03
US11836835B2 (en) 2023-12-05

Similar Documents

Publication Publication Date Title
CN116601675A (zh) 虚拟服装试穿
CN114930399A (zh) 使用基于表面的神经合成的图像生成
US11836835B2 (en) Motion representations for articulated animation
CN117957582A (zh) 将身体网格混合到外部网格中
CN116250014A (zh) 用于合成具有与真实图像结合的伪毛发的图像的跨域神经网络
CN117916774A (zh) 基于身体网格对定制网格进行变形
CN117999584A (zh) 使用外部网格使现实世界对象变形
CN116324898A (zh) 在消息收发系统中提供基于ar的化妆
KR20230019491A (ko) 게임 결과 오버레이 시스템
CN116250012A (zh) 用于图像动画的方法、系统和计算机可读存储介质
CN115769260A (zh) 基于光度测量的3d对象建模
CN116261850A (zh) 用于实时虚拟效果的骨骼跟踪
CN116724314A (zh) 生成式对抗网络操纵的图像效果
KR20230027237A (ko) 2d 이미지들로부터의 3d 객체 모델 재구성
CN116529748A (zh) 消息系统中基于ar的化妆产品集
CN116194184A (zh) 用于同步用户的图形标记生成系统
CN116324702A (zh) 为基于ar的化妆选择颜色值
CN116917938A (zh) 整个身体视觉效果
US11823346B2 (en) AR body part tracking system
CN117501675A (zh) 呈现由消息应用从第三方资源接收的内容
US20240046516A1 (en) Estimating 3d scene representations of images
US20220207786A1 (en) Flow-guided motion retargeting
CN117121461A (zh) 用户存在指示数据管理
CN116235500A (zh) 生成用于分享到外部应用的媒体内容项
CN116322914A (zh) 用于增强现实连续性的qr生成系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination