CN116648718A - 使用神经网络的照亮估计 - Google Patents

使用神经网络的照亮估计 Download PDF

Info

Publication number
CN116648718A
CN116648718A CN202180088129.0A CN202180088129A CN116648718A CN 116648718 A CN116648718 A CN 116648718A CN 202180088129 A CN202180088129 A CN 202180088129A CN 116648718 A CN116648718 A CN 116648718A
Authority
CN
China
Prior art keywords
input image
illumination
image
attribute
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180088129.0A
Other languages
English (en)
Inventor
格莱布·德穆奇欣
叶戈尔·涅姆钦诺夫
尤里·沃尔科夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Snap Inc
Original Assignee
Snap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/506,248 external-priority patent/US20220207819A1/en
Application filed by Snap Inc filed Critical Snap Inc
Priority claimed from PCT/US2021/064942 external-priority patent/WO2022146841A1/en
Publication of CN116648718A publication Critical patent/CN116648718A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

消息收发系统利用神经网络来执行图像处理,以针对由消息收发系统的用户提供的图像估计照明属性。估计照明属性的方法包括:接收具有第一照明属性的输入图像,并且使用卷积神经网络处理输入图像以生成第一照明属性的估计。该方法还可以包括:利用增强来修改输入图像以生成经修改的输入图像,其中所述增强具有第二照明属性,以及将经修改的输入图像中的所述增强的第二照明属性改变为第一照明属性的估计。

Description

使用神经网络的照亮估计
相关申请的交叉引用
本申请要求于2020年12月31日提交的序列号为63/133,191的美国临时申请和于2021年10月20日提交的序列号为17/506,248的美国专利申请的优先权的权益,上述美国临时申请和美国专利申请中的每个申请通过引用整体地并入本文中。
技术领域
本公开内容的示例总体涉及处理图像以估计消息收发系统内的图像的照明属性。更具体地,但不作为限制,本公开内容的示例涉及使用神经网络来估计图像的照明属性,并且在一些示例中,涉及使用照明属性的估计来改变图像的修改的照明属性。
背景技术
处理图像以估计照明属性是复杂的,因为可能存在具有不同颜色属性和方向的多个照明源。传统计算机图形方法实现起来非常复杂,并且计算要求高,这可能使应用太昂贵而无法开发,并且这可能使应用对于移动设备的计算要求过高。
附图说明
在不必按比例绘制的附图中,相似的附图标记可以在不同的视图中描述类似的部件。为了容易地标识对任何特定元素或动作的讨论,附图标记中的一个或多个最高有效数字是指该元素首次被引入时的图号。在附图的图中以示例而非限制的方式示出了一些示例,在附图中:
图1是根据一些示例的其中可以部署本公开内容的联网环境的图解表示。
图2是根据一些示例的具有客户端侧功能和服务器侧功能两者的消息收发系统的图解表示。
图3是根据一些示例的如在数据库中维护的数据结构的图解表示。
图4是根据一些示例的消息的图解表示。
图5是根据一些示例的访问限制处理的流程图。
图6示出根据一些示例的用于照亮估计系统的系统。
图7示出根据一些示例的用于生成真值(ground truth)的真值模块的操作。
图8示出根据一些示例的真值的示例。
图9示出根据一些示例的用于训练卷积神经网络(CNN)的生成式对抗网络(GAN)。
图10示出根据一些示例的用于照亮估计的系统。
图11示出根据一些示例的照亮估计用户界面模块。
图12示出根据一些示例的照亮估计用户界面模块的操作。
图13示出根据一些示例的用于照亮估计的方法。
图14是根据一些示例的计算机系统形式的机器的图解表示,在该计算机系统内可以执行一组指令以使该机器执行本文所讨论的方法中的任何一个或更多个方法。
图15是示出其中可以实现示例的软件架构的框图。
图16是根据一些示例的处理环境的图解表示。
具体实施方式
以下描述包括体现本公开内容的说明性示例的系统、方法、技术、指令序列和计算机器程序产品。在下面的描述中,出于说明的目的,阐述了许多具体细节以提供对本发明主题的各种示例的理解。然而,对本领域技术人员而言将明显的是,可以在没有这些具体细节的情况下实践本发明主题的示例。通常,不一定详细示出公知的指令实例、协议、结构和技术。
通常在消息收发系统内修改图像。例如,在用户在其移动设备上捕获图像之后,可以向图像添加增强。例如,可以将心形添加到图像中的人的面部。但是,添加的增强可能具有与图像的照明不同的照明,这可能使添加的增强看起来不自然或不合时宜。一个技术问题是如何改变图像的增强或修改的照明属性以匹配图像的照明属性。示例性示例提供了包括神经网络以用于估计原始图像的照明属性并使用该估计来改变图像的增强或修改的照明属性的系统。基于原始图像的照明属性的估计来改变增强的照明属性使得增强在图像内看起来更自然。增强的更自然的外观可以鼓励对在消息收发系统内捕获的图像进行修改或增强的使用。
另一技术问题是如何生成足够多数量的图像以用于训练神经网络。通过捕获实际图像来生成真值所需的输入图像和输出图像对的数量极其昂贵。在一些示例中,通过使用对象的三维(3D)模型来解决该技术问题。使用3D模型、照明条件和颜色条件生成真值输入图像。使用相同的3D模型、相同的照明条件和白色条件生成对应的真值输出图像。白色条件有助于修改增强的照明属性。这些真值输入图像和真值输出图像可以用于训练神经网络来处理图像以及估计图像的照明属性。
在一些示例中,使用了人的头部的3D模型库,这使得能够针对在许多不同位置的许多不同的人的头部利用许多不同的照明属性来训练神经网络。在一些示例中,生成式对抗网络(GAN)被用于训练卷积神经网络来处理图像以估计图像的照明属性。
联网计算环境
图1是示出用于通过网络交换数据(例如,消息和相关联的内容)的示例消息收发系统100的框图。消息收发系统100包括客户端设备102的多个实例,实例中的每个实例托管包括消息收发客户端104的多个应用。每个消息收发客户端104经由网络106(例如,因特网)通信地耦接至消息收发客户端104和消息收发服务器系统108的其他实例。
消息收发客户端104能够经由网络106与另外的消息收发客户端104、与消息收发服务器系统108进行通信并且交换数据。在消息收发客户端104之间以及消息收发客户端104与消息收发服务器系统108之间交换的数据包括功能(例如,激活功能的命令)以及净荷数据(例如,文本、音频、视频或其他多媒体数据)。
消息收发服务器系统108经由网络106向特定消息收发客户端104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行,但是某些功能在消息收发客户端104内或消息收发服务器系统108内的位置可以是设计选择。例如,在技术上可能优选的是,最初将某些技术和功能部署在消息收发服务器系统108内,但是后面将该技术和功能迁移至客户端设备102具有足够处理能力的消息收发客户端104。
消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。作为示例,该数据可以包括消息内容、客户端设备信息、地理位置信息、媒体增强和叠加、消息内容持续条件、社交网络信息和实况事件信息。通过经由消息收发客户端104的用户界面(UI)可用的功能来激活和控制消息收发系统100内的数据交换。
现在具体地转至消息收发服务器系统108,应用程序接口(API)服务器110耦接至应用服务器112并且向应用服务器112提供编程接口。应用服务器112通信地耦接至数据库服务器118,数据库服务器118有助于对数据库120进行访问,数据库120存储与通过应用服务器112处理的消息相关联的数据。类似地,web服务器124耦接至应用服务器112并且向应用服务器112提供基于web的接口。为此,web服务器124通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。
应用程序接口(API)服务器110在客户端设备102与应用服务器112之间接收和发送消息数据(例如,命令和消息净荷)。具体地,应用程序接口(API)服务器110提供一组接口(例如,例程和协议),消息收发客户端104可以调用或查询该组接口以激活应用服务器112的功能。应用程序接口(API)服务器110公开应用服务器112所支持的各种功能,包括:账户注册;登录功能;经由应用服务器112将消息从特定消息收发客户端104发送至另一消息收发客户端104;将媒体文件(例如,图像或视频)从消息收发客户端104发送至消息收发服务器114并供另一消息收发客户端104进行可能的访问;设置媒体数据集合(例如,故事);检索客户端设备102的用户的朋友列表;检索这样的集合;检索消息和内容;向实体图(例如,社交图)添加实体和从实体图删除实体(例如,朋友);朋友在社交图内的位置;以及打开应用事件(例如,与消息收发客户端104相关)。
应用服务器112托管若干服务器应用和子系统,包括例如消息收发服务器114、图像处理服务器116以及社交网络服务器122。消息收发服务器114实现若干消息处理技术和功能,这些消息处理技术和功能特别地涉及被包括在从消息收发客户端104的多个实例接收的消息中的内容(例如,文本和多媒体内容)的聚合及其他处理。如将进一步详细描述的,来自多个源的文本和媒体内容可以被聚合成内容的集合(例如,被称为故事或图库)。然后,使这些集合对消息收发客户端104可用。鉴于对这样的处理的硬件要求,也可以由消息收发服务器114在服务器侧执行数据的其他处理器和存储器密集型处理。
应用服务器112还包括图像处理服务器116,该图像处理服务器116专用于执行各种图像处理操作,通常相对于从消息收发服务器114发送或者在消息收发服务器114处接收到的消息的净荷内的图像或视频,执行各种图像处理操作。
社交网络服务器122支持各种社交联网功能和服务,并且使这些功能和服务可用于消息收发服务器114。为此,社交网络服务器122维护并访问数据库120内的实体图306(如图3所示)。社交网络服务器122所支持的功能和服务的示例包括标识消息收发系统100中与特定用户有关系或该特定用户正在“关注”的其他用户,以及标识特定用户的兴趣和其他实体。
系统架构
图2是示出根据一些示例的关于消息收发系统100的进一步细节的框图。具体地,消息收发系统100被示出为包括消息收发客户端104和应用服务器112。消息收发系统100包含若干子系统,这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器112支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、修改系统206、地图系统208、游戏系统210和照亮估计系统214。
短暂定时器系统202负责实施由消息收发客户端104和消息收发服务器114对内容进行临时或时间受限的访问。短暂定时器系统202包含若干定时器,这些定时器基于与消息或消息的集合(例如,故事)相关联的持续时间和显示参数,选择性地实现经由消息收发客户端104访问(例如,用于呈现和显示)消息及相关联的内容。下面提供关于短暂定时器系统202的操作的进一步细节。
集合管理系统204负责管理媒体的合集和集合(例如,文本、图像视频和音频数据的集合)。内容(例如,消息,包括图像、视频、文本和音频)的集合可以被组织成“事件图库”或“事件故事”。可以使这样的集合可用达指定时间段例如与内容有关的事件的持续时间。例如,可以使与音乐会有关的内容作为“故事”可用达该音乐会的持续时间。集合管理系统204还可以负责向消息收发客户端104的用户界面发布提供存在特定集合的通知的图标。
此外,集合管理系统204还包括使得集合管理器能够管理和策展内容的特定集合的策展接口212。例如,策展接口212使得事件组织者能够策展与特定事件有关的内容的集合(例如,删除不适当的内容或冗余消息)。此外,集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中,可以向用户支付对将用户生成的内容包括到集合中的补偿。在这样的情况下,集合管理系统204进行操作以自动地向这样的用户支付以使用他们的内容。
增强系统206提供使得用户能够增强(例如,注释或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如,增强系统206提供与生成和发布用于由消息收发系统100处理的消息的媒体叠加有关的功能。增强系统206基于客户端设备102的地理位置可操作地向消息收发客户端104供应媒体叠加或增强(例如,图像过滤器)。在另一示例中,增强系统206基于其他信息诸如客户端设备102的用户的社交网络信息可操作地向消息收发客户端104供应媒体叠加。媒体叠加可以包括音频和视觉内容以及视觉效果。音频和视觉内容的示例包括图片、文本、徽标、动画和声音效果。视觉效果的示例包括颜色叠加。音频和视觉内容或视觉效果可以应用于客户端设备102处的媒体内容项目(例如,照片)。例如,媒体叠加可以包括可以叠加在由客户端设备102拍摄的照片的顶部的文本或者图像。在另一示例中,媒体叠加包括位置标识叠加(例如,威尼斯海滩)、实时事件的名称或商家名称叠加(例如,海滩咖啡馆)。在另一示例中,增强系统206使用客户端设备102的地理位置来标识包括客户端设备102的地理位置处的商家名称的媒体叠加。媒体叠加可以包括与商家相关联的其他标记。媒体叠加可以存储在数据库120中并通过数据库服务器118进行访问。
在一些示例中,增强系统206提供基于用户的发布平台,该基于用户的发布平台使得用户能够在地图上选择地理位置并上传与所选择的地理位置相关联的内容。用户还可以指定应当向其他用户提供特定媒体叠加的情况。增强系统206生成媒体叠加,该媒体叠加包括所上传的内容并将所上传的内容与所选择的地理位置相关联。
在其他示例中,增强系统206提供基于商家的发布平台,该发布平台使得商家能够经由竞标过程来选择与地理位置相关联的特定媒体叠加。例如,增强系统206将最高竞标商家的媒体叠加与对应的地理位置相关联达预定义时间量。
地图系统208提供各种地理位置功能,并且支持由消息收发客户端104呈现基于地图的媒体内容和消息。例如,地图系统208使得能够在地图上显示(例如,存储在简档数据308中的)用户图标或化身,以在地图的上下文中指示用户的“朋友”的当前或过去位置,以及由这样的朋友生成的媒体内容(例如,包括照片和视频的消息的集合)。例如,可以在消息收发客户端104的地图界面上将用户从特定地理位置发布到消息收发系统100的消息在地图的该特定位置的上下文内显示给特定用户的“朋友”。用户还可以经由消息收发客户端104与消息收发系统100的其他用户(例如,使用适当的状态化身)共享他或她的位置和状态信息,其中,该位置和状态信息在消息收发客户端104的地图界面的上下文内被类似地显示给所选择的用户。
游戏系统210在消息收发客户端104的上下文内提供各种游戏功能。消息收发客户端104提供游戏界面,该游戏界面提供可用游戏的列表,游戏可以由用户在消息收发客户端104的上下文内启动并且与消息收发系统100的其他用户一起玩。消息收发系统100还使得特定用户能够通过从消息收发客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息收发客户端104还支持玩游戏的上下文内的语音消息收发和文本消息收发(例如,聊天)两者,为游戏提供排行榜,并且还支持提供游戏内奖励(例如,币和物品)。
照亮估计系统214提供与处理图像相关的各种功能,以重新照亮或修改增强的照明,并且提供用于训练神经网络例如GAN 900的各种功能。照亮估计系统214可以为用户设备102提供处理输入图像并对添加到图像的增强的照明进行重新照亮或改变的手段。照亮估计系统214可以提供对权重904的数据库的访问,可以访问权重904的数据库以执行对输入图像的照亮估计。
数据架构
图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库120中的数据结构300的示意图。虽然数据库120的内容被示为包括若干表,但是应当理解的是,数据可以存储在其他类型的数据结构中(例如,作为面向对象的数据库)。
数据库120包括存储在消息表302内的消息数据。对于任何特定的一条消息,该消息数据包括至少消息发送方数据、消息接收方(或接收者)数据和净荷。下面参照图4描述关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据内的信息的进一步细节。
实体表304存储实体数据,并且(例如,参考地)链接至实体图306和简档数据308。在实体表304内为其维持记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。不管实体类型如何,消息收发服务器系统108存储数据的任何实体可以是被识别的实体。每个实体设置有唯一的标识符以及实体类型标识符(未示出)。
实体图306存储与实体之间的关系和关联有关的信息。仅作为示例,这样的关系可以是社会的、职业的(例如,在共同的公司或组织工作)、基于兴趣的或者基于活动的。
简档数据308存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置,简档数据308可以被选择性地使用并呈现给消息收发系统100的其他用户。在实体是个人的情况下,简档数据308包括例如用户名、电话号码、地址、设置(例如,通知和隐私设置),以及用户选择的化身表示(或这样的化身表示的集合)。然后,特定用户可以将这些化身表示中的一个或更多个化身表示选择性地包括在经由消息收发系统100传送的消息的内容内以及在由消息收发客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”,其呈现用户可以选择在特定时间进行传送的状态或活动的图形表示。
在实体是群组的情况下,除了群组名称、成员和相关群组的各种设置(例如,通知)之外,群组的简档数据308还可以类似地包括与群组相关联的一个或更多个化身表示。
数据库120还在增强表310中存储增强数据例如叠加或过滤器。增强数据与视频(视频数据被存储在视频表314中)和图像(图像数据被存储在图像表316中)相关联并应用于视频和图像。
在一个示例中,过滤器是在向接收用户呈现期间被显示为叠加在图像或视频上的叠加。过滤器可以具有各种类型,包括当发送用户正在编写消息时由消息收发客户端104呈现给发送用户的一组过滤器中用户选择的过滤器。其他类型的过滤器包括地理位置过滤器(也称为地理过滤器),其可以基于地理位置被呈现给发送用户。例如,可以基于由客户端设备102的全球定位系统(GPS)单元确定的地理位置信息,由消息收发客户端104在用户界面内呈现特定于附近或特殊位置的地理位置过滤器。
另一类型的过滤器是数据过滤器,其可以由消息收发客户端104基于在消息创建过程期间由客户端设备102收集的其他输入或信息选择性地呈现给发送用户。数据过滤器的示例包括特定位置处的当前温度、发送用户行进的当前速度、客户端设备102的电池寿命或当前时间。
可以被存储在图像表316内的其他增强数据包括增强现实内容项(例如,对应于应用镜头或增强现实体验)。增强现实内容项可以是能够被添加至图像或视频的实时特殊效果和声音。
如上所述,增强数据包括增强现实内容项、叠加、图像变换、AR图像以及指代可以应用于图像数据(例如,视频或图像)的修改的类似项。这包括实时修改,其在图像被使用客户端设备102的设备传感器(例如,一个或多个摄像装置)进行捕获时对图像进行修改并且然后在具有修改的情况下在客户端设备102的画面上显示图像。这还包括对存储的内容例如图库中可以被修改的视频剪辑的修改。例如,在访问多个增强现实内容项的客户端设备102中,用户可以将单个视频剪辑与多个增强现实内容项一起使用来查看不同的增强现实内容项将如何修改所存储的剪辑。例如,通过针对同一内容选择不同的增强现实内容项,可以将应用不同伪随机运动模型的多个增强现实内容项应用于该同一内容。类似地,可以将实时视频捕获与示出的修改一起使用,以示出客户端设备102的传感器当前正捕获的视频图像将如何修改捕获的数据。这样的数据可以仅显示在画面上而不存储在存储器中,或者由设备传感器捕获的内容可以在进行修改或不进行修改(或两者)的情况下被记录并存储在存储器中。在一些系统中,预览特征可以显示不同的增强现实内容项将同时在显示器中的不同窗口内看起来如何。例如,这可以使得能够同时在显示器上查看具有不同伪随机动画的多个窗口。
因此,使用增强现实内容项的数据和各种系统或使用这些数据来修改内容的其他这样的变换系统可以涉及:视频帧中各对象(例如,面部、手、身体、猫、狗、表面、对象等)的检测,在这些对象离开视场、进入视场以及在视场四处移动时对这样的对象的跟踪,以及在跟踪这样的对象时对这样的对象进行修改或变换。在各种示例中,可以使用用于实现这样的变换的不同方法。一些示例可以涉及生成一个或多个对象的三维网格模型,并且使用视频内的模型的变换和动画纹理来实现变换。在其他示例中,可以使用对象上的点的跟踪将图像或纹理(其可以是二维或三维的)放置在所跟踪的位置处。在又一示例中,可以使用视频帧的神经网络分析将图像、模型或纹理放置在内容(例如,图像或视频帧)中。因此,增强现实内容项既涉及用于在内容中创建变换的图像、模型和纹理,又涉及利用对象检测、跟踪和放置实现这样的变换所需的附加建模和分析信息。
可以利用保存在任何类型的计算机化系统的存储器中的任何类型的视频数据(例如,视频流、视频文件等)来执行实时视频处理。例如,用户可以加载视频文件并将其保存在设备的存储器中,或者可以使用设备的传感器生成视频流。另外,可以使用计算机动画模型来处理任何对象,例如人的面部和人身体的各部分、动物或非生物例如椅子、汽车或其他对象。
在一些示例中,当连同要变换的内容一起选择特定修改时,由计算设备标识要变换的元素,并且然后如果要变换的元素存在于视频帧中,则检测并跟踪要变换的元素。根据修改请求来修改对象的元素,因此变换视频流的帧。对于不同种类的变换,可以通过不同的方法执行对视频流的帧的变换。例如,对于主要是指对象的元素的变化形式的帧变换,计算对象的每个元素的特征点(例如,使用主动形状模型(ASM)或其他已知方法)。然后,针对对象的至少一个元素中的每个元素生成基于特征点的网格。该网格用于跟踪视频流中对象的元素的后续阶段。在跟踪处理中,将所提及的每个元素的网格与每个元素的位置对准。然后,在网格上生成附加点。基于修改请求针对每个元素生成第一点的第一集合,并且基于第一点的集合和修改请求针对每个元素生成第二点的集合。然后,可以通过基于第一点的集合和第二点的集合以及网格而修改对象的元素来变换视频流的帧。在这样的方法中,也可以通过跟踪和修改背景来使所修改的对象的背景改变或变形。
在一些示例中,使用对象的元素改变对象的一些区域的变换可以通过计算对象的每个元素的特征点并基于计算的特征点生成网格来执行。在网格上生成点,然后生成基于这些点的各种区域。然后,通过将每个元素的区域与至少一个元素中的每个元素的位置对准来跟踪对象的元素,并且可以基于修改请求来修改区域的属性,从而变换视频流的帧。取决于具体的修改要求,提及的区域的属性可以以不同的方式进行变换。这样的修改可以涉及:改变区域的颜色;从视频流的帧中移除至少一些部分区域;将一个或更多个新对象包括在基于修改请求的区域中;以及修改或扭曲区域或对象的元素。在各种示例中,可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型,可以选择一些特征点作为要用于确定针对模型动画的选项的整个状态空间的控制点。
在使用面部检测来变换图像数据的计算机动画模型的一些示例中,利用特定面部检测算法(例如,Viola-Jones)在图像上检测面部。然后,将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。
在其他示例中,可以使用适合于面部检测的其他方法和算法。例如,在一些示例中,使用界标来定位特征,界标表示存在于所考虑的大多数图像中的可区分点。例如,针对面部界标,可以使用左眼瞳孔的位置。如果初始界标不可识别(例如,如果人有眼罩),则可以使用次级界标。这样的界标识别过程可以用于任何这样的对象。在一些示例中,一组界标形成形状。可以使用形状中的点的坐标将形状表示为矢量。利用使形状点之间的平均欧几里德距离最小化的相似变换(允许平移、缩放和旋转)将一个形状与另一形状对准。平均形状是经对准的训练形状的均值。
在一些示例中,从与由全局面部检测器确定的面部的位置和大小对准的均值形状开始搜索界标。然后,这样的搜索重复以下步骤直至发生收敛:通过每个点周围的图像纹理的模板匹配而调整形状点的位置来建议暂定形状,并且然后使暂定形状符合全局形状模型。在某些系统中,个别的模板匹配是不可靠的,并且形状模型将弱模板匹配的结果进行池化,以形成更强的整体分类器。从粗分辨率到细分辨率,在图像金字塔的每个级别上重复整个搜索。
变换系统可以在客户端设备(例如,客户端设备102)上捕获图像或视频流,并且在客户端设备102上本地执行复杂的图像操纵,同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状改变、情绪转换(例如,将面部从皱眉变为微笑)、状态转换(例如,使对象变老、减小表观年龄、改变性别)、风格转换、图形元素应用以及由已经被配置成在客户端设备102上有效执行的卷积神经网络实现的任何其他合适的图像或视频操纵。
在一些示例中,用于变换图像数据的计算机动画模型可以由系统使用,在该系统中,用户可以使用具有神经网络的客户端设备102来捕获用户的图像或视频流(例如,自拍),该神经网络作为在客户端设备102上操作的消息传送客户端应用的一部分操作。在消息传送客户端104内操作的变换系统确定图像或视频流内的面部的存在,并且提供与计算机动画模型相关联的修改图标以变换图像数据,或者计算机动画模型可以被呈现为与本文中描述的接口相关联。修改图标包括改变,该改变可以是作为修改操作的一部分的用于修改图像或视频流内的用户面部的基础。一旦选择了修改图标,变换系统就发起转换用户的图像以反映所选择的修改图标(例如,在用户上生成笑脸)的处理。一旦图像或视频流被捕获并且指定的修改被选择,则修改的图像或视频流就可以呈现在客户端设备102上显示的图形用户界面中。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络,以生成和应用所选择的修改。也就是说,用户可以捕获图像或视频流,并且一旦已经选择了修改图标,就可以实时或接近实时地呈现经修改的结果。此外,在视频流被捕获的同时修改可以是持久的,并且所选择的修改图标保持被切换。机器学习的神经网络可以用于实现这样的修改。
呈现由变换系统执行的修改的图形用户界面可以为用户供应附加的交互选项。这样的选项可以基于用于发起内容捕获和对特定计算机动画模型的选择的界面(例如,从内容创建者用户界面发起)。在各种示例中,修改可以在对修改图标的初始选择之后是持久的。用户可以通过轻击或以其他方式选择正由变换系统修改的面部来打开或关闭修改,并将其存储以供以后查看或浏览到成像应用的其他区域。在由变换系统修改多个面部的情况下,用户可以通过轻击或选择在图形用户界面内修改和显示的单个面部来全局打开或关闭修改。在一些示例中,可以通过轻击或选择图形用户界面内显示的单个面部或一系列单个面部来单独修改一组多个面部当中的单个面部,或者单独切换这样的修改。
故事表312存储与消息和相关联的图像、视频或音频数据的集合有关的数据,这些数据被编译成集合(例如,故事或图库)。特定集合的创建可以由特定用户(例如,在实体表304中维护记录的每个用户)发起。用户可以以已经由该用户创建和发送/广播的内容的集合的形式创建“个人故事”。为此,消息收发客户端104的用户接口可以包括用户可选择的图标,以使得发送用户能够将特定内容添加至他或她的个人故事。
集合还可以构成作为来自多个用户的内容集合的“实况故事”,该内容集合是手动地、自动地或者使用手动技术和自动技术的组合创建的。例如,“实况故事”可以构成来自各种位置和事件的用户提交内容的策展流。可以例如经由消息收发客户端104的用户界面向其客户端设备使位置服务被启用并且在特定时间处于公共位置事件处的用户呈现选项,以将内容贡献给特定的实况故事。可以由消息收发客户端104基于用户的位置向他或她标识实况故事。最终结果是从社群角度讲述的“实况故事”。
另一类型的内容集合被称为“位置故事”,“位置故事”使得其客户端设备102位于特定地理位置(例如,在学院或大学校园)内的用户能够对特定集合做出贡献。在一些示例中,对位置故事的贡献可能需要第二程度的认证来验证终端用户属于特定组织或其他实体(例如,是大学校园中的学生)。
如上面所提及的,视频表314存储视频数据,在一个示例中,该视频数据与其记录保存在消息表302内的消息相关联。类似地,图像表316存储与其消息数据存储在实体表304中的消息相关联的图像数据。实体表304可以使来自增强表310的各种增强与存储在图像表316和视频表314中的各种图像和视频相关联。数据库120还可以存储神经网络的权重,例如图9中的权重904和923。
数据通信架构
图4是示出根据一些示例的消息400的结构的示意图,消息400由消息收发客户端104生成,以用于传送至另外的消息收发客户端104或消息收发服务器114。特定消息400的内容用于填充存储在数据库120内的消息表302,该消息表302可由消息收发服务器114访问。类似地,消息400的内容作为客户端设备102或应用服务器112的“传输中”(“in-transit”)或“飞行中”(“in-flight”)数据存储在存储器中。消息400被示出为包括以下示例组成部分:
消息标识符402(MSG_ID 402):标识消息400的唯一标识符。消息文本净荷404(MSG_TEXT 404):要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。
消息图像净荷406(MSG_IMAGE 406):由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器检索的并且包括在消息400中的图像数据。发送或接收到的消息400的图像数据可以存储在图像表316中。
消息视频净荷408:由摄像装置部件捕获的或从客户端设备102的存储器部件检索的并且包括在消息400中的视频数据。发送或接收到的消息400的视频数据可以存储在视频表314中。
消息音频净荷410:由麦克风捕获的或从客户端设备102的存储器部件检索的并且包括在消息400中的音频数据。
消息增强数据412:表示要应用于消息400的消息图像净荷406、消息视频净荷408或消息音频净荷410的增强的增强数据(例如,过滤器、标贴或其他注释或增强)。针对发送或接收的消息400的增强数据可以被存储在增强表310中。
消息持续时间参数414(MSG_DUR 414):以秒为单位指示消息的内容(例如,消息图像净荷406、消息视频净荷408、消息音频净荷410)要经由消息收发客户端104呈现给用户或使其对于用户可访问的时间量的参数值。
消息地理位置参数416:与消息的内容净荷相关联的地理位置数据(例如,纬度坐标和经度坐标)。在净荷中可以包括多个消息地理位置参数416值,这些参数值中的每个参数值都与包括在内容中的内容项(例如,消息图像净荷406内的特定图像,或者消息视频净荷408中的特定视频)相关联。
消息故事标识符418:标识一个或更多个内容集合(例如,在故事表312中标识的“故事”)的标识符值,其中消息400的消息图像净荷406中的特定内容项与一个或更多个内容集合相关联。例如,可以使用标识符值将消息图像净荷406内的多个图像各自与多个内容集合相关联。
消息标签420:每个消息400可以用多个标签来标记,这些标签中的每个标签指示消息净荷中所包括的内容的主题。例如,在消息图像净荷406中包括的特定图像描绘动物(例如,狮子)的情况下,标签值可以被包括在指示相关动物的消息标签420内。标签值可以基于用户输入手动生成,或者可以使用例如图像识别自动生成。
消息发送者标识符422:指示在其上生成消息400并且从其发送消息400的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
消息接收者标识符424:指示消息400寻址到的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
消息400的各个组成部分的内容(例如,值)可以是指向表内存储有内容数据值的位置的指针。例如,消息图像净荷406中的图像值可以是指向图像表316内的位置的指针(或地址)。类似地,消息视频净荷408内的值可以指向存储在视频表314内的数据,存储在消息增强412内的值可以指向存储在增强表310中的数据,存储在消息故事标识符418内的值可以指向存储在故事表312中的数据,并且存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表304内的用户记录。
尽管所描述的流程图可以将操作示出为顺序处理,但是操作中的很多操作可以并行或同时执行。此外,可以重新排列操作的顺序。当其操作完成时,处理终止。处理可以对应于方法、过程、算法等。方法的操作可以全部或部分执行,可以与其他方法中的操作中的一些或所有操作结合执行,并且可以通过任何数量的不同系统例如本文描述的系统或者其任何部分例如包括在系统中的任何系统中的处理器执行。
基于时间的访问限制架构
图5是示出访问限制处理500的示意图,根据该访问限制处理,对内容(例如,短暂消息502和相关联的数据的多媒体有效载荷)或内容集合(例如,短暂消息组504)的访问可以是时间受限的(例如,使得是短暂的)。
短暂消息502被示出为与消息持续时间参数506相关联,消息持续时间参数506的值确定消息收发客户端104将向短暂消息502的接收用户显示短暂消息502的时间量。在一个示例中,取决于发送用户使用消息持续时间参数506指定的时间量,接收用户可查看短暂消息502长达最多10秒。
消息持续时间参数506和消息接收者标识符424被示出为是消息定时器512的输入,消息定时器512负责确定向由消息接收者标识符424标识的特定接收用户示出短暂消息502的时间量。特别地,仅向相关接收用户示出短暂消息502达由消息持续时间参数506的值确定的时间段。消息定时器512被示出为向更一般化的短暂定时器系统202提供输出,该短暂定时器系统202负责向接收用户显示内容(例如,短暂消息502)的总体定时。
图5中示出的短暂消息502被包括在短暂消息组504(例如,个人故事或事件故事中的消息的集合)内。短暂消息组504具有相关联的组持续时间参数508,组持续时间参数508的值确定短暂消息组504被呈现并且可由消息收发系统100的用户访问的持续时间。例如,组持续时间参数508可以是音乐会的持续时间,其中,短暂消息组504是涉及该音乐会的内容的集合。替选地,当执行短暂消息组504的设置和创建时,用户(拥有用户或策展者用户)可以指定组持续时间参数508的值。
另外,短暂消息组504内的每个短暂消息502具有相关联的组参与参数510,组参与参数510的值确定在短暂消息组504的上下文内将可访问短暂消息502的持续时间。因此,在短暂消息组504本身根据组持续时间参数508到期之前,特定的短暂消息组504可以“到期”并且在短暂消息组504的上下文内变得不可访问。组持续时间参数508、组参与参数510和消息接收者标识符424各自向组定时器514提供输入,组定时器514可操作地首先确定短暂消息组504的特定短暂消息502是否将被显示给特定接收用户,并且如果是,则确定显示多长时间。注意,由于消息接收者标识符424,短暂消息组504也知道特定接收用户的身份。
因此,组定时器514可操作地控制相关联的短暂消息组504以及包括在短暂消息组504中的单独的短暂消息502的总寿命。在一个示例中,短暂消息组504内的每个短暂消息502保持可查看和可访问达由组持续时间参数508指定的时间段。在另一示例中,在短暂消息组504的上下文内,某个短暂消息502可以基于组参与参数510到期。注意,即使在短暂消息组504的上下文内,消息持续时间参数506也仍然可以确定向接收用户显示特定的短暂消息502的持续时间。因此,消息持续时间参数506确定向接收用户显示特定的短暂消息502的持续时间,而不管接收用户是在短暂消息组504的上下文之内还是之外查看该短暂消息502。
短暂定时器系统202还可以基于确定特定的短暂消息502已经超过相关联的组参与参数510而从短暂消息组504中可操作地移除该特定的短暂消息502。例如,当发送用户已经建立了从发布起24小时的组参与参数510时,短暂定时器系统202将在指定的二十四小时之后从短暂消息组504中移除相关的短暂消息502。当针对短暂消息组504内的每个短暂消息502的组参与参数510已经到期时,或者当短暂消息组504本身根据组持续时间参数508已经到期时,短暂定时器系统202还进行操作以移除短暂消息组504。
在某些用例中,特定短暂消息组504的创建者可以指定无期限的组持续时间参数508。在这种情况下,针对短暂消息组504内最后剩余的短暂消息502的组参与参数510的到期将确定短暂消息组504本身何时到期。在这种情况下,添加至短暂消息组504的具有新的组参与参数510的新的短暂消息502有效地将短暂消息组504的寿命延长至等于组参与参数510的值。
响应于短暂定时器系统202确定短暂消息组504已经到期(例如,不再是可访问的),短暂定时器系统202与消息收发系统100(并且例如特别是消息收发客户端104)通信,以使与相关短暂消息组504相关联的标记(例如,图标)不再显示在消息收发客户端104的用户界面内。类似地,当短暂定时器系统202确定针对特定短暂消息502的消息持续时间参数506已经到期时,短暂定时器系统202使消息收发客户端104不再显示与短暂消息502相关联的标记(例如,图标或文本标识)。
使用神经网络的照亮估计
图6示出根据一些示例的用于照亮估计系统的系统600。在一个示例中,照亮估计模块604和掩模照明模块608驻留在客户端设备102上,并且被配置成对添加到图像的增强的照明进行调整,例如如下所描述的。
输入图像602是图像,例如来自客户端设备102的摄像装置的生成的图像。以下是输入图像602的示例,但不限于此。输入图像602是由增强现实(AR)眼镜所生成的图像,并且增强610被添加了AR对象。输入图像602是由图形程序渲染的图像。输入图像602是从互联网下载的图像,例如库存图像。输入图像602是视频或图像序列的一部分。输入图像602是由图1的客户端设备102捕获的图像,其中,增强610是由消息收发系统100添加的增强。
照亮估计模块604获取或处理具有第一照明属性620的输入图像602,并且生成或输出第一照明属性的照亮估计606。在一些示例中,照亮估计模块604是卷积神经网络。经修改的输入图像612是通过增强610修改的输入图像602。例如,消息收发系统100的用户可以将增强系统206的增强610添加到输入图像602以生成经修改的输入图像612。增强610具有第二照明属性622,这可能使得增强610看起来不自然。在一些示例中,在与输入图像602集成之前,通过第一照明属性的照亮估计来修改增强610。如所示出的,增强610是人的面部上的心形。
掩模照明模块608根据第一照明属性的照亮估计606来改变增强610的第二照明属性622。掩模照明模块608确定经修改的输入图像612的包括增强610的部分,并且使用来自第一照明属性的照亮估计606的那些对应部分来将经修改的输入图像612中的第二照明属性622改变为输出图像618中的第三照明属性624。例如,如图所示,增强610是女性的面颊上的心形。掩模照明模块608使用第一照明属性的照亮估计606的与女性的面颊相对应的部分来修改第二照明属性622,以在输出图像618中生成第三照明属性624。
第三照明属性624是根据第一照明属性的照亮估计606确定的。在一些示例中,掩模照明模块608确定在输出图像618内的第一照明属性的照亮估计606与增强610之间的对应像素。在一些示例中,图像由层组成,并且增强610是不同的层。掩模照明模块608可以逐像素地将增强610映射到第一照明属性的照亮估计606的像素,并且然后基于第一照明属性的照亮估计606的对应的像素值来确定增强610内的像素的新的值。例如,在每个像素具有色调值、饱和度值和亮度值的情况下,则基于第一照明属性的照亮估计606的对应像素的色调值、饱和度值和亮度值来确定增强610的像素的新的值。在一个示例中,基于第一照明属性的照亮估计606的对应像素的亮度值来设置增强610的亮度值。
输出图像618包括作为原始输入图像616的部分和作为增强610的部分。在一些示例中,掩模照明模块608创建掩模,其中,掩模针对经修改的输入图像612的从输入图像602改变的那些部分具有第一照明属性的照亮估计606,并且其中,掩模针对经修改的输入图像612中未被改变的那些部分指示没有改变。在一些示例中,掩模照明模块608被配置成确定输入图像602中已经被改变以生成经修改的输入图像612的部分。在一些示例中,增强系统206提供指示经修改的输入图像612的从输入图像602修改的部分的信息。在一些示例中,增强610是单独的层,并且经修改的输入图像612是层的渲染或混合。在一些示例中,经修改的输入图像612的区域被确定或指示为经修改的输入图像612的已经从输入图像602改变的区域。根据一些示例,经修改的输入图像612的大小与第一照明属性的照亮估计606的大小相同。
在一些示例中,增强610是二维(2D)增强610。如所示出的,仅存在3个增强610,并且它们都是心形。在一些示例中,可以存在更少或更多数量的增强610,并且增强610可以不同。在一些示例中,增强610可以是用户对输入图像602的编辑。例如,用户可以在图像编辑程序中编辑输入图像602。然后掩模照明模块608将输入图像602与经修改的输入图像612进行比较来确定经修改的输入图像612的面积、区域或部分,以将第二照明属性622改变为第三照明属性624。在一些示例中,增强610可以各自具有不同的照明属性622。增强610可以具有用于增强项目的通用照明属性。
可以通过缩放并确定将增强610放置在经修改的输入图像612内的位置的应用来将增强610添加到经修改的输入图像612。例如,应用可以缩放并定位增强610,使得增强610在经修改的输入图像612的背景中看起来逼真,例如将增强610放置在人的面部上;然而,第二照明属性622可以不同于输入图像602的第一照明属性620,这会造成增强610不属于经修改的输入图像612或者增强610被添加到经修改的输入图像612的印象。根据一些示例,第二照明属性622可以与第一照明属性620不相关。
如上所述,利用第三照明属性624改变增强610的照明将使增强610在输出图像618中看起来更自然,好像增强610最初就是图像的一部分而不是后来添加到图像中的对象。因此,基于第三照明属性624的输出图像618产生改进的图像。在一些示例中,利用位置信息来标识增强610,该位置信息可以用于标识增强610在经修改的输入图像612内所位于的像素。在一些示例中,增强610可以在经修改的输入图像612的不同层或通道中,使得增强610可以通过该层或通道标识。
输出图像618包括具有第三照明属性624的增强610,相比于第二照明属性622与第一照明属性620,第三照明属性624与第一照明属性620更相似。根据一些示例,照明属性包括针对图像的每个像素的色调值、饱和度值和亮度值。在一些示例中,根据一些示例,照明属性可以包括用于图像的像素中的每个像素的多个通道或层,其中,针对通道或层存在色调值、饱和度值和亮度值。可以通过以预定方式将层中的每个层中的值组合来渲染或显示图像或对象。在一些示例中,照明属性包括针对每个像素的红光、绿光和蓝光的强度值,其中通过将三个值相加在一起来确定颜色。本领域的技术人员将认识到,可以使用颜色的其他表示。在一些示例中,照明属性可以包括与对象或图像相关的信息,例如透明度、反射率,或者包括与用于生成图像的光源相关的信息。在一些示例中,通过根据公式在每个像素的基础上将第一照明属性的照亮估计606的照明属性组合或混合到增强610来确定第三照明属性624。在一些示例中,出于确定第三照明属性624的目的,掩模照明模块608将第一照明属性的照亮估计606解释为好像第一照明属性的照亮估计606中的对象都是白色的。在一些示例中,利用CNN来实现掩模照明模块608。
图7示出了根据一些示例的用于生成真值的真值模块712的操作700。真值模块712从图像703利用照明条件708和颜色条件710生成真值输入716和真值输出722。在一些示例中,图像703是三维(3D)模型706。
照明条件708指示用于渲染或显示3D模型706或图像的信息,例如色调值、饱和度值和亮度值。根据一些实施方式,照明条件708指示光源的数量,其中,每个光源由方向、色调值、饱和度值和亮度值表示。3D模型706包括对象例如头部或另一对象的几何信息,其中,几何信息限定对象的边界。颜色条件710指示3D模型706的颜色。对象的3D模型706可以包括附加信息例如对象的部分的透明度或反射率,以及可以被包括以用于在给定照明条件下渲染对象的其他信息。
在一些示例中,图像703已经被渲染为输入图像705,并且包括第一照明属性718和第一颜色属性720。在一些示例中,真值模块712渲染3D模型706以生成输入图像705。真值模块712使用颜色条件710来确定第一颜色属性720。真值模块712使用照明条件708来确定第一照明属性718。
根据一些示例,第一颜色属性720可以与颜色条件710相同。在一些示例中,真值模块712基于照明条件708和颜色条件710来渲染3D模型706,以生成包括具有第一照明属性718和第一颜色属性720的输入图像705的真值输入716。在一些示例中,真值模块712基于所有对象的照明条件708和颜色条件将3D模型706渲染为白色,以生成包括具有第二照明属性724和第二颜色属性720的输出图像707的真值输出722。根据一些示例,第二颜色属性726指示输出图像707中的对象是白色的。真值输入716和真值输出722被用于训练GAN 900。
第二颜色属性726可以是白色或白色的变型,其有助于掩模照明模块608使用第一照明属性的照亮估计606中的照明信息来确定第三照明属性624。在一些示例中,第一照明属性718和第二照明属性724相同或相似。第一照明属性718和第二照明属性724的不同之处仅在于它们都是根据照明条件708生成的,但是输入图像705是根据颜色条件710生成的,并且输出图像707是利用指示由3D模型706限定的所有对象应该是白色或接近白色的颜色条件生成的。真值模块712使用3D模型706、照明条件708和颜色条件710的库714来生成许多不同的真值输入716和真值输出722对。图像703包括增强的图像或3D模型706。
图8示出根据一些示例的真值800的示例。示例真值输入802可能已经由真值模块712使用3D模型706、照明条件708和颜色条件710生成。示例真值输出804可能已经由真值模块712使用3D模型706、照明条件708和指示由3D模型706限定的所有对象应该是白色的颜色条件生成。
图9示出根据一些实施方式的用于训练卷积神经网络(NN)(CNN)的生成式对抗网络(GAN)900。CNN 906处理真值输入图像902以生成输出图像908。在一个示例中,真值输入图像902与真值输入716相同或相似,并且真值输出图像916与真值输出722相同或相似。
根据一些示例,CNN 906、损失网络912和判别器网络922是卷积神经网络。根据一些示例,每个都具有多个卷积层、池化层和全连接层。网络中的一个或更多个网络可以具有向上采样和向下采样。网络中的一个或更多个网络可以具有连接至网络中的下一层的层,以及更接近于输出层的附加层。根据一些示例,全连接层使用整流线性单元(ReLU)。
权重调整模块924被配置成基于来自判别器网络922的感知损失918和对抗性损失来调整CNN 906的权重904。权重调整模块924基于使用随机梯度下降方法来确定使损失函数的加权和最小化或变小的权重904来调整权重904。权重调整模块924附加地通过改变本文中所描述的权重923来训练判别器网络922。
感知损失918是借助于具有权重914的多个经训练的NN 920来确定的。根据一些示例,基于表示被分组到高级特征集合的高级特征的图像来训练损失网络912。高级特征可以包括颜色信息和照明信息。可以针对一个或更多个高级特征对NN 920中的每个NN进行训练。经训练的NN 920确定输出图像908和真值输出图像916两者的高级特征。感知损失918基于根据真值输出图像916确定输出图像908的高级特征损失。根据一些示例,然后由权重调整模块924基于回归分析来确定感知损失。根据一些示例,权重调整模块924使用式(1)来确定感知损失(lossper)。lossper使用NN 920中形成的权重来训练CNN 906以具有类似的权重。
式(1):其中,yi是真值输出图像916,/>是输出图像908,E是求和的期望值,n是真值对的数量,lfeat是根据经训练的NN 920的特征的yi之间的特征重构损失,并且wi是分配给特征i的权重。
CNN 906的损失由调整权重模块924使用式(2)来确定。式(2):Gloss=E[log(1-D(G(x))],其中,Gloss是图像变换网络的损失,E是期望值,并且D是判别器网络的确定。
判别器网络922被训练成获取真值输入图像902和输出图像908作为输入,并且输出在0与1之间的值以指示输出图像是真值输出图像916的可能性。判别器网络922的损失由权重调整模块924根据式(3)来确定。
式(3):Dloss=-E[log(D(xreal))+log(1-D(G(x)))],其中,Dloss是判别器网络922的损失,E是期望值,x是真值输入图像902,并且xreal是真值输出图像916,D(xreal)是针对xreal是否是真值输出图像916的例如从0至1的值的预测,并且D(G(x))是针对作为输出图像908的G(x)是否是真值输出图像916的例如从0至1的值的预测。
权重调整模块924根据式(4)确定CNN 906的损失函数。式(4):Loss=Lossper+α*Gloss,其中,Loss是用于训练CNN 906的损失,根据式(1)确定Lossper,根据式(2)确定Gloss,并且α是小于1的常数。
权重调整模块924彼此相结合地训练CNN 906和判别器网络922。由于判别器网络922在确定输出图像908是否是真值输出图像916方面变得更好,因此CNN 906被训练成使得输出图像908更像真值输出图像916。以这种方式,两个网络彼此帮助训练,因为当判别器网络922在区分输出图像908和真值输出图像916方面改进时,CNN 906在将输出图像908生成为更接近真值输出图像916方面得以改进。图7的真值模块712用于生成真值输入716和真值输出722对,真值输入716和真值输出722被权重调整模块924用于训练CNN 906和判别器网络922。因为真值模块712可以在许多不同的照明场景和不同的3D模型下生成任意大的训练对的集合,所以CNN 906可以被训练成在许多不同的照明场景和许多不同的3D模型下处理或变换照明。
图10示出根据一些示例的用于照亮估计的系统1000。CNN模块1004是图6的照亮估计模块604的示例。由CNN模块1004使用的权重1006用于处理输入图像1002以生成输入图像的照明1008。根据一些示例,如结合图9所描述的,确定CNN模块1004的权重1006。
CNN模块1004获取输入图像1002并生成输入图像的照明1008。输入图像1002的示例是图6的输入图像602和图8的示例真值输入802。输入图像的照明1008的示例是图6的第一照明属性的照亮估计606和图8的真值输出804。
掩模照明模块608确定增强1014的照明属性1020并生成输出图像1016。经修改的输入图像1012与具有增强1014的输入图像1002相同。增强1014与增强610相同或相似。输出图像1016的示例是图6的输出图像618和图8的示例真值输出804。增强1014可以与增强610相同或相似。增强1014的照明属性1020与第三照明属性624相同或相似。
图11示出根据一些示例的照亮估计用户界面模块1102。照亮估计用户界面模块1102使得用于照亮估计的系统1000的功能对用户可用。照亮估计用户界面模块1102是图12的编辑与增强1208系统的一部分。根据一些示例,照亮估计用户界面模块1102访问数据库120。照亮估计用户界面模块1102在客户端设备102上进行操作。照亮估计用户界面模块1102包括输入图像1104、输出图像1106和UI元素1108。输入图像1104可以与输入图像1002相同或相似。输出图像1106可以与输出图像1016相同或相似。UI元素1108是照亮估计用户界面模块1102被配置成执行的图像和交互。用于照亮估计的系统1000可以是图2的照亮估计系统214,或者可以驻留在客户端设备102上。
图12示出根据一些示例的照亮估计用户界面模块1102的操作。图12示出根据一些示例的可以作为客户端设备102的移动设备1202。移动设备1202可以包括摄像装置1206和屏幕1204。移动设备1202的用户可能已经拍摄了自己的图像,并且然后使用编辑与增强1208将三个心形的增强添加到她的面部上来生成输入图像1210。响应于用户选择调整照明1214选项,处理输入图像1210以生成输出图像1212。根据一些实施方式,其他调整照明选项是可用的。
用户可以选择将输出图像1212保存1216到用户的个人存储装置,或者例如通过消息收发系统100将输出图像1212作为短暂消息发送1218。用户可以选择编辑与增强1208来改变输出图像1212或者将附加增强添加到输出图像1212。根据一些示例,输出图像1212中的心形看起来比输入图像1210中的心形更自然。
在一些示例中,CNN模块1004的权重1006是基于添加到输入图像1210的增强来选择的。例如,训练一组权重1006以用于到面部的心形和添加物,并且训练另一组权重1004以用于其他增强,例如将3D动物添加到输入图像1210。训练许多不同组的权重1006以改进输出图像1212。
图13示出根据一些示例的用于照亮估计的方法1300。方法1300在操作1302处开始接收具有第一照明属性的输入图像。例如,可以由照亮估计模块604接收具有第一照明属性620的输入图像602、1002、1104或1210。
方法1300在操作1304处继续使用卷积神经网络处理输入图像以生成第一照明属性的估计。例如,照亮估计模块604处理输入图像602以生成第一照明属性的照亮估计606。根据一些示例,利用CNN模块1004来实现照亮估计模块604。
方法1300在操作1306处继续利用增强来修改输入图像以生成经修改的输入图像,该增强具有第二照明属性。例如,用户将增强610添加到输入图像602以生成经修改的输入图像612。
方法1300在操作1308处继续将经修改的输入图像中的增强的第二照明属性改变为第一照明属性的估计。例如,掩模照明模块608将经修改的输入图像612的增强610的第二照明属性622改变为输出图像618中的增强610的第三照明属性624。
方法1300的操作中的一个或更多个操作可以是可选的。方法1300可以包括一个或更多个附加操作。方法1300的操作可以以不同的顺序来执行。
机器架构
图14是机器1400的图解表示,在该机器1400内可以执行用于使机器1400执行本文所讨论的方法中的任何一个或更多个方法的指令1408(例如,软件、程序、应用、小应用、app或其他可执行代码)。例如,指令1408可以使机器1400执行本文中描述的方法中的任何一个或更多个方法。指令1408将通用的未经编程的机器1400转换成被编程为以所描述的方式执行所描述和所示出的功能的特定机器1400。机器1400可以作为独立设备操作或者可以耦接(例如,联网)至其他机器。在联网部署中,机器1400可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力进行操作,或者在对等(或分布式)网络环境中作为对等机器进行操作。机器1400可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能电器)、其他智能设备、web设备、网络路由器、网络交换机、网络桥接器或能够顺序地或以其他方式执行指定要由机器1400采取的动作的指令1408的任何机器。此外,虽然仅示出了单个机器1400,但是术语“机器”还应当被视为包括单独或联合地执行指令1408以执行本文中讨论的方法中的任何一个或更多个方法的机器的集合。例如,机器1400可以包括客户端设备102或者形成消息收发服务器系统108的一部分的若干服务器设备中的任何一个服务器设备。在一些示例中,机器1400还可以包括客户端系统和服务器系统两者,其中,在服务器侧执行特定方法或算法的某些操作,并且在客户端侧执行所述特定方法或算法的某些操作。
机器1400可以包括可以被配置成经由总线1440彼此通信的处理器1402、存储器1404和输入/输出I/O部件1438。根据一些示例,处理器1402可以被称为计算机处理器。在示例中,处理器1402(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令1408的处理器1406和处理器1402。术语“处理器”旨在包括多核处理器,所述多核处理器可以包括可以同时执行指令的两个或更多个独立处理器(有时被称为“核”)。尽管图14示出了多个处理器1402,但是机器1400可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器或者其任何组合。
存储器1404包括主存储器1412、静态存储器1414和存储单元1416,两者均可由处理器1402经由总线1440访问。主存储器1404、静态存储器1414和存储单元1416存储体现本文中描述的方法或功能中的任何一个或更多个方法或功能的指令1408。指令1408还可以在其由机器1400执行期间完全地或部分地驻留在主存储器1412内、在静态存储器1414内、在存储单元1416内的机器可读介质1418内、在处理器1402中的至少之一内(例如,在处理器的高速缓存存储器内)或者在其任何合适的组合内。
I/O部件1438可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种部件。包括在特定机器中的特定I/O部件1438将取决于机器的类型。例如,便携式机器例如移动电话可以包括触摸输入设备或其他这样的输入机构,而无头服务器机器将不太可能包括这样的触摸输入设备。应当理解,I/O部件1438可以包括图14中未示出的许多其他部件。在各种示例中,I/O部件1438可以包括用户输出部件1424和用户输入部件1426。用户输出部件1424可以包括视觉部件(例如,显示器诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT))、声学部件(例如,扬声器)、触觉部件(例如,振动马达、阻力机构)、其他信号生成器等。用户输入部件1426可以包括字母数字输入部件(例如,键盘、被配置成接收字母数字输入的触摸屏、光学键盘或其他字母数字输入部件)、基于点的输入部件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向仪器)、触觉输入部件(例如,物理按钮、提供触摸或触摸姿势的位置和力的触摸屏或其他触觉输入部件)、音频输入部件(例如,麦克风)等。
在其他示例中,I/O部件1438可以包括生物计量部件1428、运动部件1430、环境部件1432或位置部件1434以及广泛的一系列其他部件。例如,生物计量部件1428包括用于检测表达(例如,手表达、面部表情、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别人(例如,声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件1430包括加速度传感器部件(例如,加速度计)、重力传感器部件、旋转传感器部件(例如,陀螺仪)。
环境部件1432包括例如一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如,光度计)、温度传感器部件(例如,检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如,气压计)、声学传感器部件(例如,检测背景噪声的一个或更多个麦克风)、接近度传感器部件(例如,检测附近对象的红外传感器)、气体传感器(例如,为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量结果或信号的其他部件。
关于摄像装置,客户端设备102可以具有摄像装置系统,该摄像装置系统包括例如在客户端设备102的前表面上的前置摄像装置和在客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如,“自拍”),然后可以利用上面所描述增强数据(例如,过滤器)对所述静止图像和视频进行增强。例如,后置摄像装置可以用于以更传统的摄像装置模式捕获静止图像和视频,其中这些图像类似地利用增强数据进行增强。除了前置摄像装置和后置摄像装置之外,客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。
此外,客户端设备102的摄像装置系统可以包括双后置摄像装置(例如,主摄像装置以及深度感测摄像装置),或者甚至在客户端设备102的前侧和后侧上包括三重、四重或五重后置摄像装置配置。例如,这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。
定位部件1434包括位置传感器部件(例如,GPS接收器部件)、海拔传感器部件(例如,检测气压的高度计或气压计,根据气压可以得到海拔)、取向传感器部件(例如,磁力计)等。
可以使用各种技术来实现通信。I/O部件1438还包括通信部件1436,通信部件1436可操作以经由相应的耦接或连接将机器1400耦接至网络1420或设备1422。例如,通信部件1436可以包括网络接口部件或与网络1420接口的另一合适的设备。在另外的示例中,通信部件1436可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、部件(例如,/>低功耗)、/>部件以及经由其他模态提供通信的其他通信部件。设备1422可以是其他机器或各种外围设备中的任何外围设备(例如,经由USB耦接的外围设备)。/>
此外,通信部件1436可以检测标识符或包括可操作以检测标识符的部件。例如,通信部件1436可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如,用于检测一维条形码诸如通用产品代码(UPC)条形码、多维条形码诸如快速反应(QR)码、Aztec码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(Ultra Code)、UCC RSS-2D条形码和其他光学码的光学传感器)或声学检测部件(例如,用于识别标记的音频信号的麦克风)。此外,可以经由通信部件1436得到各种信息,例如经由因特网协议(IP)地理定位的位置、经由信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置等。
各种存储器(例如,主存储器1412、静态存储器1414以及处理器1402的存储器)以及存储单元1416可以存储由本文中描述的方法或功能中的任何一个或更多个方法或功能实现或使用的指令和数据结构(例如,软件)中的一组或更多组指令和数据结构。这些指令(例如,指令1408)在由处理器1402执行的情况下使各种操作实现所公开的示例。
可以经由网络接口设备(例如,通信部件1436中包括的网络接口部件),使用传输介质并且使用若干公知的传输协议中的任何一种传输协议(例如,超文本传输协议(HTTP)),通过网络1420来发送或接收指令1408。类似地,可以使用传输介质经由至设备1422的耦接(例如,对等耦接)来发送或接收指令1408。
软件架构
图15是示出软件架构1504的框图1500,该软件架构1504可以安装在本文中描述的设备中的任何一个或更多个设备上。软件架构1504由硬件例如包括处理器1520、存储器1526和I/O部件1538的机器1502支持。在该示例中,软件架构1504可以被概念化为层的堆栈,其中每个层提供特定功能。软件架构1504包括以下层:例如操作系统1512、库1510、框架1508和应用1506。在操作上,应用1506通过软件堆栈来激活API调用1550并且响应于API调用1550接收消息1552。
操作系统1512管理硬件资源并且提供公共服务。操作系统1512包括例如:内核1514、服务1516、以及驱动器1522。内核1514充当硬件与其他软件层之间的抽象层。例如,内核1514提供存储器管理、处理器管理(例如,调度)、部件管理、联网和安全设置以及其他功能。服务1516可以为其他软件层提供其他公共服务。驱动器1522负责控制底层硬件或与底层硬件接口。例如,驱动器1522可以包括显示驱动器、摄像装置驱动器、低功耗驱动器、闪存驱动器、串行通信驱动器(例如,USB驱动器)、/>驱动器、音频驱动器、电力管理驱动器等。
库1510提供由应用1506使用的公共低级基础设施。库1510可以包括系统库1518(例如,C标准库),该系统库1518提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。另外,库1510可以包括API库1524,例如媒体库(例如,用于支持各种媒体格式的呈现和操纵的库,所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如,用于在显示器上的图形内容中以二维(2D)和三维(3D)呈现的OpenGL框架)、数据库库(例如,提供各种关系数据库功能的SQLite)、web库(例如,提供web浏览功能的WebKit)等。库1510还可以包括各种其他库1528,以向应用1506提供许多其他API。
框架1508提供由应用1506使用的公共高级基础设施。例如,框架1508提供各种图形用户界面(GUI)功能、高级资源管理和高级定位服务。框架1508可以提供可以由应用1506使用的广泛的其他API,所述其他API中的一些API可以专用于特定的操作系统或平台。
在示例中,应用1506可以包括家庭应用1536、联系人应用1530、浏览器应用1532、书籍阅读器应用1534、照亮估计应用1541、位置应用1542、媒体应用1544、消息收发应用1546、游戏应用1548和各种各样的其他应用诸如第三方应用1540。照亮估计应用1541可以执行如结合图10和本文公开的操作。应用1506是执行程序中限定的功能的程序。可以采用各种编程语言来创建以各种方式构造的应用1506中的一个或更多个应用,编程语言例如面向对象的编程语言(例如,Objective-C、Java或C++)或过程编程语言(例如,C语言或汇编语言)。在特定示例中,第三方应用1540(例如,由特定平台的供应商以外的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用)可以是在移动操作系统诸如IOSTM、ANDROIDTMPhone或另一移动操作系统上运行的移动软件。在该示例中,第三方应用1540可以激活由操作系统1512提供的API调用1550以促进本文中描述的功能。
处理部件
现在转至图16,示出处理环境1600的图解表示,处理环境1600包括处理器1602、处理器1606和处理器1608(例如,GPU、CPU或其组合)。处理器1602被示出为耦接至电源1604,并且被示出为包括(永久配置的或临时实例化的)模块,即,用户界面部件1610、照亮估计部件1612和掩模照明部件1614。参照图12,用户界面部件1610可操作地呈现用户界面,例如图12中所示的,并且对用于处理输入图像的用户选择进行响应,并且使得呈现或存储输出图像;参照图10,照亮估计部件1612获取输入图像1002并处理输入图像1002,以生成输入图像1008的照明,并且执行方法1300的操作中的一个或更多个操作;并且掩模照明部件1614可操作地执行掩模照明模块608的操作。如所示出的,处理器1602通信地耦接至处理器1606和处理器1608两者。
术语表
“载波信号”是指能够存储、编码或携载用于由机器执行的任何无形介质,并且包括数字或模拟通信信号或其他无形介质以促进这样的指令的通信。可以使用传输介质经由网络接口设备来通过网络发送或接收指令。
“客户端设备”是指与通信网络接口以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、台式计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、多个膝上型计算机、多处理器系统、基于微处理器或可编程消费电子装置、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。
“通信网络”是指网络的一个或更多个部分,网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、其他类型的网络或两个或更多个这样的网络的组合。例如,网络或网络的一部分可以包括无线网络或蜂窝网络,并且耦接可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中,耦接可以实现各种类型的数据传输技术中的任何数据传输技术,例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电业务(GPRS)技术、增强型数据速率GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他标准、其他长距离协议或其他数据传输技术。
“部件”是指具有边界的设备、物理实体或逻辑,该边界由功能或子例程调用、分支点、API或者对特定处理或控制功能提供分区或模块化的其他技术定义。部件可以经由其接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的封装功能硬件单元,以及通常执行相关功能的特定功能的程序的一部分。部件可以构成软件组件(例如,在机器可读介质上实施的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元,并且可以以某种物理方式来配置或布置。在各种示例性示例中,可以通过软件(例如,应用或应用部分)将一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件部件(例如,处理器或处理器组)配置为进行操作以执行本文中所描述的某些操作的硬件部件。也可以机械地、电子地或以其任何合适的组合来实现硬件部件。例如,硬件部件可以包括被永久配置成执行某些操作的专用电路或逻辑。硬件部件可以是专用处理器,例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件部件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路。例如,硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置,则硬件部件成为被唯一地定制成执行所配置的功能的特定机器(或机器的特定部件)并且不再是通用处理器。应当理解,可以出于成本和时间考虑来驱动在专用且永久配置的电路中还是在临时配置(例如,由软件配置)的电路中机械地实现硬件部件的决定。因此,短语“硬件部件”(或者“硬件实现的部件”)应当被理解成包含有形实体,即为被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)成以某种方式操作或者执行本文中所描述的某些操作的实体。考虑硬件部件被临时配置(例如,被编程)的示例,无需在任一时刻对硬件部件中的每个硬件部件进行配置或实例化。例如,在硬件部件包括通过软件配置成变成专用处理器的通用处理器的情况下,该通用处理器可以在不同时间处分别被配置成不同的专用处理器(例如,包括不同的硬件部件)。软件相应地将一个或多个特定处理器配置成例如在一个时刻处构成特定硬件部件并且在不同的时刻处构成不同的硬件部件。硬件部件可以向其他硬件部件提供信息以及从其他硬件部件接收信息。因此,所描述的硬件部件可以被认为通信地耦接。在同时存在多个硬件部件的情况下,可以通过在硬件部件中的两个或更多个硬件部件之间或之中(例如,通过适当的电路和总线)的信号传输来实现通信。在多个硬件部件在不同时间处被配置或被实例化的示例中,可以例如通过将信息存储在多个硬件部件访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如,一个硬件部件可以执行操作,并且将该操作的输出存储在其通信地耦接至的存储器设备中。然后,其他硬件部件可以在随后的时间处访问存储器设备以检索和处理存储的输出。硬件部件还可以发起与输入设备或输出设备的通信,并且可以对资源(例如,信息的集合)进行操作。在本文中描述的示例方法的各种操作可以至少部分地由临时配置(例如,通过软件)或永久配置成执行相关操作的一个或更多个处理器来执行。无论是被临时配置还是永久配置,这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的部件。如本文中使用的,“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地,在本文中描述的方法可以至少部分地由处理器实现,其中特定的一个或多个处理器是硬件的示例。例如,方法的操作中的至少一些操作可以由一个或更多个处理器1402或者处理器实现的部件执行。此外,一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或作为“软件即服务”(SaaS)操作。例如,操作中的至少一些操作可以由计算机组(作为包括处理器的机器的示例)执行,其中这些操作可经由网络(例如,因特网)并且经由一个或更多个适当的接口(例如,API)来访问。操作中的某些操作的执行可以在处理器之间分布,不是仅驻留在单个机器内,而是跨多个机器部署。在一些示例性示例中,处理器或处理器实现的部件可以位于单个地理位置中(例如,在家庭环境、办公室环境或服务器群内)。在其他示例性示例中,处理器或处理器实现的部件可以跨多个地理位置分布。
“计算机可读存储介质”是指机器存储介质和传输介质两者。因此,这些术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物,并且可以在本公开内容中可互换地使用。复数形式“计算机可读介质”可以被称为“多个计算机可读介质”。
“短暂消息”是指可访问达时间有限的持续时间的消息。短暂消息可以是文本、图像、视频等。短暂消息的访问时间可以由消息发送者设置。替选地,访问时间可以是默认设置或者由接收者指定的设置。无论设置技术如何,消息都是暂时的。
“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如,集中式或分布式数据库,以及相关联的缓存和服务器)。因此,该术语应当被视为包括但不限于固态存储器以及光学和磁介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括:非易失性存储器,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备;磁盘,例如内部硬盘和可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物,并且在本公开内容中可以互换使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质,所述载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。
“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。
“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质,并且包括数字或模拟通信信号或其他无形介质以有助于软件或数据的通信。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指使其特征中的一个或更多个特征以将信息编码在信号中的方式来设置或改变的信号。术语“传输介质”和“信号介质”意指相同的事物,并且可以在本公开内容中互换使用。

Claims (20)

1.一种方法,包括:
接收具有第一照明属性的输入图像;
使用卷积神经网络处理所述输入图像以生成所述第一照明属性的估计;
利用增强来修改所述输入图像以生成经修改的输入图像,所述增强具有第二照明属性;以及
将所述经修改的输入图像中的所述增强的第二照明属性改变为所述第一照明属性的估计。
2.根据权利要求1所述的方法,其中,所述第一照明属性和所述第二照明属性各自包括针对多个像素中的每个像素的色调值、饱和度值和亮度值。
3.根据权利要求1所述的方法,其中,所述卷积神经网络是生成式对抗网络。
4.根据权利要求1所述的方法,其中,在处理所述输入图像之前,所述方法还包括:
使调整照明选项显示在屏幕上;并且
其中,响应于接收到对所述调整照明选项的选择,执行对所述输入图像的处理。
5.根据权利要求1所述的方法,其中,所述第一照明属性的估计包括与所述经修改的输入图像相同大小的图像。
6.根据权利要求4所述的方法,还包括:
识别所述经修改的输入图像的包括所述增强的第一区域;并且
其中,改变还包括:
在第二区域内将所述经修改的输入图像中的所述增强的第二照明属性改变为所述第一照明属性的估计,其中,所述第二区域对应于与所述第一区域相同的位置。
7.根据权利要求1至5中任一项所述的方法,其中,所述第一照明属性的估计包括与所述输入图像相对应的下述图像:在该图像中,所述输入图像内的对象的颜色被改变为白色。
8.根据权利要求1至5中任一项所述的方法,还包括:
根据三维(3D)模型、照明属性和第一颜色条件生成多个真值输入;
根据所述3D模型、所述照明属性和第二颜色条件生成多个真值输出;以及
使用所述多个真值输入和所述多个真值输出来训练所述卷积神经网络。
9.根据权利要求8所述的方法,其中,所述第二颜色条件将所述3D模型改变为白色。
10.根据权利要求1所述的方法,其中,基于所述第一照明属性的估计的对应像素的亮度来改变所述经修改的输入图像中的所述增强的像素。
11.根据权利要求1至5中任一项所述的方法,其中,基于所述第一照明属性的估计的对应像素的像素值来改变所述经修改的输入图像中的所述增强的像素值。
12.一种系统,包括:
一个或更多个计算机处理器;以及
一个或更多个存储指令的计算机可读介质,当所述指令由所述一个或更多个计算机处理器执行时,使所述系统执行操作,所述操作包括:
接收具有第一照明属性的输入图像;
使用卷积神经网络处理所述输入图像以生成所述第一照明属性的估计;
利用增强来修改所述输入图像以生成经修改的输入图像,所述增强具有第二照明属性;以及
将所述经修改的输入图像中的所述增强的第二照明属性改变为所述第一照明属性的估计。
13.根据权利要求12所述的系统,其中,所述第一照明属性和所述第二照明属性各自包括针对多个像素中的每个像素的色调值、饱和度值和亮度值。
14.根据权利要求12或13所述的系统,其中,所述卷积神经网络是生成式对抗网络。
15.根据权利要求12或13所述的系统,其中,所述操作还包括:
使调整照明选项显示在屏幕上;并且
其中,响应于接收到对所述调整照明选项的选择,执行对所述输入图像的处理。
16.根据权利要求12或13所述的系统,其中,所述第一照明属性的估计包括与所述经修改的输入图像相同大小的图像。
17.一种包括指令的非暂态计算机可读存储介质,所述指令在由计算机处理时,将所述计算机配置成执行操作,所述操作包括:
接收具有第一照明属性的输入图像;
使用卷积神经网络处理所述输入图像以生成所述第一照明属性的估计;
利用增强来修改所述输入图像以生成经修改的输入图像,所述增强具有第二照明属性;以及
将所述经修改的输入图像中的所述增强的第二照明属性改变为所述第一照明属性的估计。
18.根据权利要求17所述的非暂态计算机可读存储介质,其中,所述第一照明属性和所述第二照明属性各自包括针对多个像素中的每个像素的色调值、饱和度值和亮度值。
19.根据权利要求17或18所述的非暂态计算机可读存储介质,其中,所述卷积神经网络是生成式对抗网络。
20.根据权利要求17或18所述的非暂态计算机可读存储介质,其中,所述操作还包括:
使调整照明选项显示在屏幕上;并且
其中,响应于接收到对所述调整照明选项的选择,执行对所述输入图像的处理。
CN202180088129.0A 2020-12-31 2021-12-22 使用神经网络的照亮估计 Pending CN116648718A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US63/133,191 2020-12-31
US17/506,248 2021-10-20
US17/506,248 US20220207819A1 (en) 2020-12-31 2021-10-20 Light estimation using neural networks
PCT/US2021/064942 WO2022146841A1 (en) 2020-12-31 2021-12-22 Light estimation using neural networks

Publications (1)

Publication Number Publication Date
CN116648718A true CN116648718A (zh) 2023-08-25

Family

ID=87619285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180088129.0A Pending CN116648718A (zh) 2020-12-31 2021-12-22 使用神经网络的照亮估计

Country Status (1)

Country Link
CN (1) CN116648718A (zh)

Similar Documents

Publication Publication Date Title
CN116601675A (zh) 虚拟服装试穿
CN115552403B (zh) 用于媒体内容项的私人集合的邀请媒体覆盖物
CN116250014A (zh) 用于合成具有与真实图像结合的伪毛发的图像的跨域神经网络
CN115668887A (zh) 用于媒体内容项的共享集合的邀请媒体覆盖
CN116508062A (zh) 自适应骨骼关节平滑
KR20230013097A (ko) 특징있는 콘텐츠 컬렉션 인터페이스
CN116438788A (zh) 媒体内容回放和评论管理
US20220207355A1 (en) Generative adversarial network manipulated image effects
CN116261850A (zh) 用于实时虚拟效果的骨骼跟踪
CN115697508A (zh) 游戏结果覆盖系统
CN115885247A (zh) 用于启动应用的视觉搜索
US20240070976A1 (en) Object relighting using neural networks
CN116113991A (zh) 用于关节动画的运动表示
CN116235194A (zh) 媒体内容传输和管理
CN115701304A (zh) 上下文发送菜单
CN116917938A (zh) 整个身体视觉效果
CN115516834A (zh) 具有相关实体的轮播的消息收发系统
CN116324702A (zh) 为基于ar的化妆选择颜色值
CN115803783A (zh) 从2d图像重建3d对象模型
US20220207819A1 (en) Light estimation using neural networks
CN117136381A (zh) 整个身体分割
CN115698931A (zh) 上下文动作栏
US11645324B2 (en) Location-based timeline media content system
CN117136404A (zh) 从歌曲中提取伴奏的神经网络
CN116322914A (zh) 用于增强现实连续性的qr生成系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination