CN115917608A - 增强现实内容项中的机器学习 - Google Patents
增强现实内容项中的机器学习 Download PDFInfo
- Publication number
- CN115917608A CN115917608A CN202180041344.5A CN202180041344A CN115917608A CN 115917608 A CN115917608 A CN 115917608A CN 202180041344 A CN202180041344 A CN 202180041344A CN 115917608 A CN115917608 A CN 115917608A
- Authority
- CN
- China
- Prior art keywords
- image
- machine learning
- augmented reality
- decision
- reality content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/16—Cloth
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本文中的系统和方法描述了:经由图像捕获设备接收图像;使用机器学习模型生成图像增强决策;访问增强现实内容项,将所生成的图像增强决策与增强现实内容项相关联;使用增强现实内容项和相关联的图像增强决策来修改所接收的图像;以及使经修改的图像呈现在计算设备的图形用户界面上。
Description
优先权要求
本申请要求于2020年6月10日提交的美国专利申请第63/037,518号以及于2020年6月19日提交的美国专利申请第16/946,413号的优先权的权益,上述美国专利申请各自通过引用整体并入本文。
技术领域
本公开内容的实施方式总体上涉及机器学习。更具体地但非限制性地,本公开内容涉及使用机器学习来在增强现实内容项中提供决策(decisions)的系统和方法。
背景技术
图像增强(image augmentations)例如过滤器(filters)使得用户能够策展富有想象力和表现力的内容。这样的增强为用户提供用于增强其内容的美感的创造性工具。图像增强能力能够通过各种社交媒体工具获得。在许多情况下,用户可以提供用户输入来生成图像增强。
附图说明
在附图(其不一定按比例绘制)中,相同的附图标记可以在不同的视图中描述类似的部件。为了容易标识对任何特定元素或动作的讨论,附图标记中的一个或多个最高位数字是指该元素被首次引入时所在的图号。在附图的图中以示例而非限制的方式示出了一些实施方式,在附图中:
图1是根据一些示例的可以在其中部署本公开内容的联网环境的图解表示。
图2是根据一些示例的具有客户端侧功能和服务器侧功能两者的消息收发系统的图解表示。
图3是根据一些示例的如在数据库中维护的数据结构的图解表示。
图4是根据一些示例的消息的图解表示。
图5是根据一些示例的访问限制过程的流程图。
图6是根据一些示例实施方式的机器学习模型的图解表示。
图7是根据一些示例实施方式的用于生成定制化图像增强的示例方法的流程图。
图8是根据一些示例实施方式的作为定制增强系统的结果而生成的经修改的图像的图解图示。
图9是根据一些示例实施方式的作为定制增强系统的结果而生成的经修改的图像的图解图示。
图10根据一些示例的呈计算机系统形式的机器的图解表示,在该机器内可以执行一组指令以使该机器执行本文中讨论的方法中的任何一种或更多种方法。
图11是示出可以在其中实现示例的软件架构的框图。
具体实施方式
所公开的示例涉及使用机器学习来生成定制化图像增强的定制增强系统(customaugmentation system)。定制增强系统可以在增强现实内容项(例如,增强现实体验、过滤器)中使用以向增强现实内容项提供独特输入。利用该技术,定制增强系统可以在无需接收用户输入的情况下向增强现实内容项提供定制化输入(customized input)。因此,定制增强系统使用机器学习模型作为增强现实内容项的逻辑提供者。
在一些示例中,定制增强系统经由图像捕获设备接收图像。定制增强系统使用机器学习模型来生成图像增强决策(image augmentation decision)。在一些示例中,从资源库访问得到机器学习模型。机器学习模型可以是分割模型、分类模型、对象检测模型或显著性模型(saliency model)。分割模型是一种基于特定标准来滤出图像的一部分的机器学习模型。分类模型是一种提供输入数据在特定类别内的概率的模型。对象检测模型提供对象在摄像装置中所处位置的“边界框”。显著性模型预测图像中感兴趣的点。
定制增强系统基于所接收的图像生成图像增强决策。所生成的图像增强决策可以用于创建更逼真的图像增强。在一些示例中,所生成的图像增强决策用于提供更多上下文信息。
定制增强系统访问增强现实内容项。增强现实内容项被配置成修改所接收的图像的图像内容。定制增强系统将所生成的图像增强决策与增强现实内容相关联。例如,定制增强系统将所生成的图像增强决策作为输入提供给增强现实内容项。定制增强系统使用增强现实内容项和相关联的图像增强决策来修改所接收的图像,并且使经修改的图像呈现在计算设备的图形用户界面上。
在一些示例中,图像增强决策基于从计算设备的设备传感器接收的数据。例如,图像增强决策可以基于音频数据、图像数据、定位数据等中的一个或更多个。下面描述关于定制增强系统的另外的细节。
联网计算环境
图1是示出用于通过网络来交换数据(例如,消息和相关联的内容)的示例消息收发系统100的框图。消息收发系统100包括客户端设备102的多个实例,每个实例托管包括消息收发客户端104的多个应用。每个消息收发客户端104经由网络106(例如,因特网)通信地耦接至消息收发服务器系统108和消息收发客户端104的其他实例。
消息收发客户端104能够经由网络106与另一消息收发客户端104和消息收发服务器系统108进行通信并交换数据。在消息收发客户端104之间以及在消息收发客户端104与消息收发服务器系统108之间交换的数据包括功能(例如,用于激活功能的命令)以及有效载荷数据(例如,文本、音频、视频或其他多媒体数据)。
消息收发服务器系统108经由网络106向特定消息收发客户端104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行,但是某些功能的定位是在消息收发客户端104内还是在消息收发服务器系统108内可以是设计选择。例如,在技术上可能优选的是:最初将某些技术和功能部署在消息收发服务器系统108内,但是后期将该技术和功能迁移至客户端设备102具有足够处理能力的消息收发客户端104。
消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。作为示例,该数据可以包括消息内容、客户端设备信息、地理定位信息、媒体增强和叠加、消息内容持久性条件、社交网络信息以及实况事件信息。通过经由消息收发客户端104的用户界面(UI)可用的功能来激活和控制消息收发系统100内的数据交换。
现在具体地转至消息收发服务器系统108,应用程序接口(API)服务器110耦接至应用服务器112并且向应用服务器112提供编程接口。应用服务器112通信地耦接至数据库服务器118,数据库服务器118有助于对数据库120进行访问,数据库120存储与由应用服务器112处理的消息相关联的数据。类似地,web服务器126耦接至应用服务器112,并且向应用服务器112提供基于web的接口。为此,web服务器126通过超文本传输协议(HTTP)和若干其他相关协议来处理传入的网络请求。
应用程序接口(API)服务器110在客户端设备102与应用服务器112之间接收和发送消息数据(例如,命令和消息有效载荷)。具体地,应用程序接口(API)服务器110提供一组接口(例如,例程和协议),所述一组接口可以由消息收发客户端104调用或查询以激活应用服务器112的功能。应用程序接口(API)服务器110公开应用服务器112所支持的各种功能,包括:帐户注册;登录功能;经由应用服务器112从特定消息收发客户端104向另一消息收发客户端104发送消息,从消息收发客户端104向消息收发服务器114发送媒体文件(例如,图像或视频),以及供另一消息收发客户端104的可能访问;对媒体数据的集合(例如,故事)进行设置;检索客户端设备102的用户的朋友列表;检索这样的集合;检索消息和内容;针对实体图(例如,社交图)添加和删除实体(例如,朋友);定位社交图内的朋友;以及打开应用(例如,与消息收发客户端104相关的)事件。
应用服务器112托管多个服务器应用和子系统,包括例如消息收发服务器114、图像处理服务器116以及社交网络服务器122。消息收发服务器114实现多个消息处理技术和功能,特别地涉及对从消息收发客户端104的多个实例接收的消息中包括的内容(例如,文本和多媒体内容)的汇总及其他处理。如将进一步详细描述的,来自多个源的文本和媒体内容可以被汇总成内容的集合(例如,被称为故事或图库(gallery))。然后,使这些集合对消息收发客户端104可用。鉴于对数据的其他处理器和存储器密集处理的硬件要求,也可以由消息收发服务器114在服务器侧执行这样的处理。
应用服务器112还包括图像处理服务器116,图像处理服务器116专用于通常针对从消息收发服务器114发送或在消息收发服务器114处接收的消息的有效载荷内的图像或视频执行各种图像处理操作。
社交网络服务器122支持各种社交联网功能和服务,并且使这些功能和服务可用于消息收发服务器114。为此,社交网络服务器122维护并访问数据库120内的实体图306(如图3所示)。社交网络服务器122所支持的功能和服务的示例包括识别消息收发系统100中与特定用户有关系或该特定用户正“关注”的其他用户,并且还包括识别特定用户的兴趣和其他实体。
定制增强系统124使用机器学习模型来生成定制化图像增强。定制增强系统124使用机器学习来生成图像增强决策并将该图像增强决策作为输入提供给增强现实内容项。
系统架构
图2是示出根据一些示例的关于消息收发系统100的另外的细节的框图。具体地,消息收发系统100被示出为包括消息收发客户端104和应用服务器112。消息收发系统100包含多个子系统,这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器112支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统206、地图系统208、游戏系统210和定制增强系统124。
短暂定时器系统202负责实施消息收发客户端104和消息收发服务器114对内容的临时或时间受限访问。短暂定时器系统202并入了多个定时器,这些定时器基于与消息或消息的集合(例如,故事)相关联的持续时间和显示参数,选择性地实现经由消息收发客户端104访问(例如,用于呈现和显示)消息和相关联的内容。下面提供关于短暂定时器系统202的操作的另外的细节。
集合管理系统204负责管理媒体的合集和集合(例如,文本、图像视频和音频数据的集合)。内容(例如,消息,包括图像、视频、文本和音频)的集合可以被组织成“事件图库”或“事件故事”。可以使这样的集合在指定时间段例如在与内容有关的事件的持续时间内可用。例如,可以使与音乐会有关的内容在该音乐会的持续时间内作为“故事”可用。集合管理系统204还可以负责向消息收发客户端104的用户界面发布提供存在特定集合的通知的图标。
此外,集合管理系统204包括使得集合管理器能够管理和策展特定内容集合的策展接口212。例如,策展接口212使得事件组织者能够策展与特定事件有关的内容的集合(例如,删除不适当的内容或冗余消息)。另外,集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中,可以为将用户生成的内容包括到集合中而向用户支付补偿。在这样的情况下,集合管理系统204进行操作以自动地为使用这样的用户的内容而向其进行支付。
增强系统206提供使得用户能够增强(例如,注解或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如,增强系统206提供与生成和发布用于由消息收发系统100处理的消息的媒体叠加(media overlay)有关的功能。增强系统206基于客户端设备102的地理定位可操作地向消息收发客户端104提供媒体叠加或增强(例如,图像过滤器)。在另一示例中,增强系统206基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息收发客户端104提供媒体叠加。媒体叠加可以包括音频和视觉内容以及视觉效果。音频和视觉内容的示例包括图片、文本、标识、动画和声音效果。视觉效果的示例包括颜色叠加。音频和视觉内容或视觉效果可以被应用于客户端设备102处的媒体内容项(例如,照片)。例如,媒体叠加可以包括可以叠加在由客户端设备102拍摄的照片之上的文本或图像。在另一示例中,媒体叠加包括定位标识叠加(例如,威尼斯海滩)、实况事件名称或商家名称叠加(例如,海滩咖啡馆)。在另一示例中,增强系统206使用客户端设备102的地理定位来标识包括客户端设备102的地理定位处的商家名称的媒体叠加。媒体叠加可以包括与商家相关联的其他标记。媒体叠加可以被存储在数据库120中并通过数据库服务器118访问。
在一些示例中,增强系统206提供基于用户的发布平台,该基于用户的发布平台使得用户能够选择地图上的地理定位,并且上传与所选择的地理定位相关联的内容。用户还可以指定应当向其他用户提供特定媒体叠加的环境。增强系统206生成包括所上传的内容的媒体叠加并且将所上传的内容与所选择的地理定位相关联。
在其他示例中,增强系统206提供基于商家的发布平台,该基于商家的发布平台使得商家能够经由出价过程来选择与地理定位相关联的特定媒体叠加。例如,增强系统206将最高出价商家的媒体叠加与对应地理定位相关联达预定义时间量。
地图系统208提供各种地理定位功能,并且支持由消息收发客户端104呈现基于地图的媒体内容和消息。例如,地图系统208使得能够在地图上显示(例如,存储在简档数据308中的)用户图标或化身,以在地图的上下文中指示用户的“朋友”的当前定位或过去定位以及由这些朋友生成的媒体内容(例如,包括照片和视频的消息的集合)。例如,可以在消息收发客户端104的地图界面上将用户从特定地理定位发布到消息收发系统100的消息在地图的该特定定位的上下文内显示给特定用户的“朋友”。用户还可以经由消息收发客户端104与消息收发系统100的其他用户(例如,利用适当的状态化身)共享他或她的定位和状态信息,其中,该定位和状态信息在消息收发客户端104的地图界面的上下文内被类似地显示给所选择的用户。
游戏系统210在消息收发客户端104的上下文内提供各种游戏功能。消息收发客户端104提供游戏界面,该游戏界面提供可以由用户在消息收发客户端104的上下文内启动并与消息收发系统100的其他用户一起玩的可用游戏的列表。消息收发系统100还使得特定用户能够通过从消息收发客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息收发客户端104还支持在游戏上下文内进行语音消息收发和文本消息收发(例如,聊天)两者,为游戏提供排行榜,并且还支持提供游戏内奖励(例如,钱币和物品)。
定制增强系统124使用机器学习模型生成定制化图像增强。定制增强系统124使用机器学习来生成图像增强决策,并且将图像增强作为输入提供给增强现实内容项。可以从增强系统206访问增强现实内容项。在一些示例中,定制增强系统124在消息收发客户端104的上下文内操作。在一些示例中,定制增强系统124可以由应用服务器112支持。
数据架构
图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库120中的数据结构300的示意图。虽然数据库120的内容被示出为包括多个表,但是将理解的是,可以以其他类型的数据结构来存储数据(例如,存储为面向对象的数据库)。
数据库120包括存储在消息表302内的消息数据。对于任何特定的一条消息,该消息数据包括至少消息发送者数据、消息接收方(或接收者)数据和有效载荷。下面参照图4描述关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据中的信息的另外的细节。
实体表304存储实体数据,并且(例如,参考地)链接至实体图306和简档数据308。针对其的记录保存在实体表304内的实体可以包括个人、公司实体、组织、对象、地点、事件等。不管实体类型如何,消息收发服务器系统108存储关于其的数据的任何实体可以是被辨识的实体。每个实体设置有唯一标识符以及实体类型标识符(未示出)。
实体图306存储关于实体之间的关系和关联的信息。仅作为示例,这样的关系可以是基于兴趣或者基于活动的社交关系、职业关系(例如,在共同的公司或组织工作)。
简档数据308存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置,简档数据308可以被选择性地使用并呈现给消息收发系统100的其他用户。在实体是个人的情况下,简档数据308包括例如用户名、电话号码、地址、设置(例如,通知和隐私设置)以及用户选择的化身表示(或这样的化身表示的集合)。然后,特定用户可以将这些化身表示中的一个或更多个选择性地包括在经由消息收发系统100传送的消息的内容中以及由消息收发客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”,其呈现用户可以选择在特定时间传送的状态或活动的图形表示。
在实体是团体的情况下,除了团体名称、成员以及针对相关团体的各种设置(例如,通知)之外,针对团体的简档数据308还可以类似地包括与团体相关联的一个或更多个化身表示。
数据库120还在增强表310中存储增强数据,例如叠加物或过滤器。增强数据与视频(视频的数据被存储在视频表316中)和图像(图像的数据被存储在图像表318中)相关联并且被应用于视频和图像。
在一个示例中,过滤器是在向接收方用户呈现期间被显示为叠加在图像或视频上的叠加物。过滤器可以是各种类型的,包括当发送用户正在编写消息时来自由消息收发客户端104呈现给发送用户的一组过滤器的用户选择的过滤器。其他类型的过滤器包括地理定位过滤器(也称为地理过滤器),其可以基于地理定位被呈现给发送用户。例如,可以基于由客户端设备102的全球定位系统(GPS)单元确定的地理定位信息,由消息收发客户端104在用户界面内呈现特定于附近或特殊定位的地理定位过滤器。
另一种类型的过滤器是数据过滤器,其可以由消息收发客户端104基于在消息创建过程期间由客户端设备102收集的其他输入或信息选择性地呈现给发送用户。数据过滤器的示例包括特定定位处的当前温度、发送用户行进的当前速度、客户端设备102的电池寿命或当前时间。
可以存储在图像表318内的其他增强数据包括增强现实内容项(例如,对应于应用镜头或增强现实体验)。增强现实内容项可以是可以被添加至图像或视频的实时特殊效果和声音。
如上所述,增强数据包括增强现实内容项、叠加物、图像变换、AR图像以及指代可以应用于图像数据(例如,视频或图像)的修改的类似术语。这包括实时修改,其在使用客户端设备102的设备传感器(例如,一个或更多个摄像装置)捕获到图像并且然后在客户端设备102的屏幕上显示该图像时利用所述修改对图像进行修改。这还包括对所存储的内容(例如,图库中可以被修改的视频片段)的修改。例如,在具有对多个增强现实内容项的访问权限的客户端设备102中,用户可以使用具有多个增强现实内容项的单个视频片段来查看不同的增强现实内容项将如何修改所存储的片段。例如,通过针对同一内容选择不同的增强现实内容项,可以将应用不同伪随机运动模型的多个增强现实内容项应用于该同一内容。类似地,可以将实时视频捕获与所示出的修改一起使用,以示出客户端设备102的传感器当前正捕获的视频图像将如何修改所捕获的数据。这样的数据可以仅显示在屏幕上而不存储在存储器中,或者由设备传感器捕获的内容可以在进行或不进行修改(或两者)的情况下被记录并存储在存储器中。在一些系统中,预览特征可以同时显示不同的增强现实内容项将在显示器中的不同窗口内看起来如何。例如,这可以使得能够同时在显示器上查看具有不同伪随机动画的多个窗口。
因此,使用增强现实内容项的数据和各种系统或使用这些数据来修改内容的其他这样的变换系统可以涉及:视频帧中各对象(例如,面部、手、身体、猫、狗、表面、对象等)的检测,在这些对象离开视场、进入视场以及在视场四处移动时对这些对象的跟踪,以及在跟踪这些对象对其进行的修改或变换。在各种示例中,可以使用用于实现这样的变换的不同方法。一些示例可以涉及生成一个或多个对象的三维网格模型,以及在视频内使用模型的变换和动画纹理来实现变换。在其他示例中,可以使用对对象上的点的跟踪来将图像或纹理(其可以是二维或三维的)放置在所跟踪的位置处。在另外的一些示例中,可以使用视频帧的神经网络分析来将图像、模型或纹理放置在内容(例如,图像或视频帧)中。因此,增强现实内容项既指用于在内容中创建变换的图像、模型和纹理,也指利用对象检测、跟踪和放置来实现这样的变换所需的附加建模和分析信息。
可以利用保存在任何种类的计算机化系统的存储器中的任何种类的视频数据(例如,视频流、视频文件等)来执行实时视频处理。例如,用户可以加载视频文件并将其保存在设备的存储器中,或者可以使用设备的传感器生成视频流。另外,可以使用计算机动画模型来处理任何对象,例如人脸和人体的各部分、动物或非生物(例如,椅子、汽车或其他对象)。
在一些示例中,当连同要变换的内容一起选择特定修改时,由计算设备识别要变换的元素,并且然后如果要变换的元素存在于视频的帧中,则检测并跟踪要变换的元素。根据修改请求来修改对象的元素,从而变换视频流的帧。对于不同种类的变换,可以通过不同的方法执行对视频流的帧的变换。例如,对于主要涉及改变对象的元素的形式的帧变换,计算对象的每个元素的特征点(例如,使用主动形状模型(Active Shape Model,ASM)或其他已知方法)。然后,针对对象的至少一个元素中的每个元素生成基于特征点的网格。该网格被用于在视频流中跟踪对象各元素的后续阶段。在跟踪过程中,所提及的针对每个元素的网格与每个元素的位置对准。然后,在网格上生成附加点。基于修改请求针对每个元素生成第一点的第一集合,并且基于第一点的集合以及修改请求针对每个元素生成第二点的集合。然后,可以通过基于第一点的集合、第二点的集合和网格修改对象的元素来对视频流的帧进行变换。在这样的方法中,也可以通过跟踪和修改背景来使所修改对象的背景改变或发生扭曲。
在一些示例中,可以通过计算对象的每个元素的特征点并基于所计算的特征点生成网格来执行使用对象的元素改变对象的某些区域的变换。在网格上生成点,然后基于这些点生成各种区域。然后,通过将每个元素的区域与至少一个元素中的每个元素的位置对准来跟踪对象的元素,并且可以基于修改请求来修改区域的属性,从而对视频流的帧进行变换。取决于具体的修改请求,可以以不同的方式来变换所提及区域的属性。这样的修改可以涉及:改变区域的颜色;从视频流的帧中移除至少部分区域;将一个或更多个新对象包括在基于修改请求的区域中;以及对区域或对象的元素进行修改或使其发生扭曲。在各种示例中,可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型,可以选择一些特征点作为控制点,以用于确定用于模型动画的选项的整个状态空间。
在使用面部检测来变换图像数据的计算机动画模型的一些示例中,利用特定面部检测算法(例如,Viola-Jones)在图像上检测面部。然后,将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。
在其他示例中,可以使用其他适合于面部检测的方法和算法。例如,在一些示例中,使用界标来定位特征,界标表示在所考虑的大多数图像中存在的可区分点。例如,对于面部界标,可以使用左眼瞳孔的位置。如果初始界标不可识别(例如,如果人带眼罩),则可以使用次要界标。这样的界标识别过程可以用于任何这样的对象。在一些示例中,界标的集合形成形状。可以使用形状中的点的坐标将形状表示为矢量。利用使形状点之间的平均欧几里德距离最小化的相似变换(允许平移、缩放和旋转)将一个形状与另一形状对准。均值形状(mean shape)是经对准的训练形状的均值。
在一些示例中,从与由全局面部检测器确定的面部的位置和大小对准的均值形状开始搜索界标。然后,这样的搜索重复以下步骤:通过每个点周围的图像纹理的模板匹配对形状点的定位进行调整来建议暂定形状,并且然后使暂定形状符合全局形状模型,直至发生收敛。在一些系统中,单独模板匹配是不可靠的,并且形状模型对弱模板匹配的结果进行池化,以形成较强的整体分类器。整个搜索从粗略分辨率到精细分辨率在图像金字塔的每个级别上重复。
变换系统可以在客户端设备(例如,客户端设备102)上捕获图像或视频流,并在客户端设备102上本地执行复杂的图像操纵,同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状改变、情绪转换(例如,将面部从皱眉变为微笑)、状态转换(例如,使对象变老、减小表观年龄、改变性别)、风格转换、图形元素应用以及由已经被配置成在客户端设备102上高效地执行的卷积神经网络实现的任何其他合适的图像或视频操纵。
在一些示例中,用于变换图像数据的计算机动画模型可以由下述系统使用:在所述系统中,用户可以使用具有作为在客户端设备102上操作的消息收发客户端应用104的一部分而操作的神经网络的客户端设备102来捕获用户的图像或视频流(例如,自拍)。在消息收发客户端104内操作的变换系统确定图像或视频流内的面部的存在,并且提供与计算机动画模型相关联的修改图标以变换数据图像,或者计算机动画模型可以与本文中描述的界面相关联地存在。修改图标包括下述改变,所述改变可以是作为修改操作的一部分的用于修改图像或视频流内的用户的面部的基础。一旦选择了修改图标,则变换系统发起将用户的图像转换以反映所选择的修改图标(例如,在用户上生成笑脸)的处理。一旦图像或视频流被捕获并且指定的修改被选择,则经修改的图像或视频流可以呈现在客户端设备102上显示的图形用户界面中。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络,以生成和应用所选择的修改。也就是说,用户可以捕获图像或视频流并且一旦修改图标被选择,修改结果就被实时或接近实时呈现给用户。此外,当正在捕获视频流时,修改可以是持久的,并且所选择的修改图标保持被切换。机器教导的神经网络可以用于实现这样的修改。
呈现由变换系统执行的修改的图形用户界面可以向用户提供附加的交互选项。这样的选项可以基于用于发起特定计算机动画模型的选择和内容捕获的界面(例如,从内容创建者用户界面发起)。在各种示例中,在对修改图标进行初始选择之后,修改可以是持久的。用户可以通过轻击或以其他方式选择正由变换系统修改的面部来开启或关闭修改,并将其存储以供稍后查看或浏览到成像应用的其他区域。在通过变换系统修改多个面部的情况下,用户可以通过轻击或选择图形用户界面内修改和显示的单个面部来全局地开启或关闭修改。在一些示例中,可以单独地修改一组多个面部中的各个面部,或者可以通过轻击或选择图形用户界面内显示的各个面部或一系列各个面部来单独切换这样的修改。
故事表312存储关于消息和相关联的图像、视频或音频数据的集合的数据,所述消息和相关联的图像、视频或音频数据被汇编成集合(例如,故事或图库)。特定集合的创建可以由特定用户(例如,其记录保存在实体表304中的每个用户)发起。用户可以以已由该用户创建和发送/广播的内容集合的形式创建“个人故事”。为此,消息收发客户端104的用户界面可以包括用户可选择的图标,以使得发送用户能够将特定内容添加至他或她的个人故事。
集合还可以构成“实况故事”,该“实况故事”是手动地、自动地或使用手动技术和自动技术的组合创建的来自多个用户的内容的集合。例如,“实况故事”可以构成来自不同位置和事件的用户提交的内容的策展流。可以例如经由消息收发客户端104的用户界面向其客户端设备启用了定位服务并且在特定时间处于共同定位事件处的用户呈现将内容贡献给特定实况故事的选项。可以由消息收发客户端104基于用户的定位向他或她标识实况故事。最终结果是从群体角度讲述的“实况故事”。
另一类型的内容集合被称为“定位故事”,该“定位故事”使得其客户端设备102位于特定地理定位(例如,在学院或大学校园)内的用户能够对特定集合做出贡献。在一些实施方式中,对定位故事的贡献可能需要二级认证来验证最终用户属于特定组织或其他实体(例如,是大学校园中的学生)。
如以上提及的,视频表316存储视频数据,在一个示例中,该视频数据与其记录被保存在消息表302内的消息相关联。类似地,图像表318存储与其消息数据被存储在实体表304中的消息相关联的图像数据。实体表304可以将来自增强表310的各种增强与存储在图像表318和视频表316中的各种图像和视频相关联。
数据库120还可以在定制增强决策表314中存储图像增强决策。
数据通信架构
图4是示出根据一些示例的消息400的结构的示意图,该消息400由消息收发客户端104生成,以传送至另外的消息收发客户端104或消息收发服务器114。特定消息400的内容用于填充存储在可由消息收发服务器114访问的数据库120内的消息表302。类似地,消息400的内容作为客户端设备102或应用服务器112的“运输中(in-transit)”或“飞行中(in-flight)”数据存储在存储器中。消息400被示出为包括以下示例组成部分:
·消息标识符402:标识消息400的唯一标识符。
·消息文本有效载荷404:要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。
·消息图像有效载荷406:由客户端设备102的摄像装置部件捕获或从客户端设备102的存储器部件检索并且包括在消息400中的图像数据。针对发送或接收的消息400的图像数据可以存储在图像表318中。
·消息视频有效载荷408:由摄像装置部件捕获或从客户端设备102的存储器部件检索并且包括在消息400中的视频数据。针对发送或接收的消息400的视频数据可以存储在视频表316中。
·消息音频有效载荷410:由麦克风捕获或从客户端设备102的存储器部件检索并且包括在消息400中的音频数据。
·消息增强数据412:表示要应用于消息400的消息图像有效载荷406、消息视频有效载荷408或消息音频有效载荷410的增强的增强数据(例如,过滤器、标贴或其他注解或增强)。针对发送或接收的消息400的增强数据可以存储在增强表310中。
·消息持续时间参数414:以秒为单位指示消息的内容(例如,消息图像有效载荷406、消息视频有效载荷408、消息音频有效载荷410)要经由消息收发客户端104呈现给用户或使其对于用户可访问的时间量的参数值。
·消息地理定位参数416:与消息的内容有效载荷相关联的地理定位数据(例如,纬度坐标和经度坐标)。多个消息地理定位参数416值可以被包括在有效载荷中,这些参数值中的每一个与内容中包括的内容项(例如,消息图像有效载荷406内的特定图像或者消息视频有效载荷408中的特定视频)相关联。
·消息故事标识符418:标识与消息400的消息图像有效载荷406中的特定内容项相关联的一个或更多个内容集合(例如,在故事表312中标识的“故事”)的标识符值。例如,可以使用标识符值将消息图像有效载荷406内的多个图像各自与多个内容集合相关联。
·消息标签420:每个消息400可以用多个标签来标记,所述多个标签中的每一个指示包括在消息有效载荷中的内容的主题。例如,在包括在消息图像有效载荷406中的特定图像描绘动物(例如,狮子)的情况下,标签值可以被包括在指示相关动物的消息标签420内。标签值可以基于用户输入手动生成,或者可以使用例如图像识别自动生成。
·消息发送者标识符422:指示在其上生成消息400并且从其发送消息400的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
·消息接收者标识符424:指示消息400寻址到的客户端设备102的用户的标识符(例如,消息收发系统标识符、电子邮件地址或设备标识符)。
消息400的各组成部分的内容(例如,值)可以是指向表中存储有内容数据值的位置的指针。例如,消息图像有效载荷406中的图像值可以是指向图像表318内的位置的指针(或地址)。类似地,消息视频有效载荷408内的值可以指向存储在视频表316内的数据,存储在消息增强412内的值可以指向存储在增强表310中的数据,存储在消息故事标识符418内的值可以指向存储在故事表312中的数据,并且存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表304内的用户记录。
基于时间的访问限制架构
图5是示出访问限制过程500的示意图,根据该访问限制过程,对内容(例如,短暂消息502和相关联的多媒体数据有效载荷)或内容集合(例如,短暂消息组504)的访问可以是时间受限的(例如,使其短暂)。
短暂消息502被示出为与消息持续时间参数506相关联,消息持续时间参数506的值确定消息收发客户端104将向短暂消息502的接收用户显示短暂消息502的时间量。在一个示例中,取决于发送用户使用消息持续时间参数506指定的时间量,接收用户可查看短暂消息502长达最多10秒。
消息持续时间参数506和消息接收者标识符424被示出为消息定时器512的输入,消息定时器512负责确定向由消息接收者标识符424标识的特定接收用户示出短暂消息502的时间量。特别地,仅在由消息持续时间参数506的值确定的时间段内向相关接收用户示出短暂消息502。消息定时器512被示出为向更一般化的短暂定时器系统202提供输出,该短暂定时器系统202负责向接收用户显示内容(例如,短暂消息502)的总体定时。
短暂消息502在图5中被示出为被包括在短暂消息组504(例如,个人故事或事件故事中的消息的集合)内。短暂消息组504具有相关联的组持续时间参数508,组持续时间参数508的值确定短暂消息组504被呈现并可由消息收发系统100的用户访问的持续时间。例如,组持续时间参数508可以是音乐会的持续时间,其中短暂消息组504是关于该音乐会的内容的集合。替选地,当执行短暂消息组504的设置和创建时,用户(拥有用户或策展者用户)可以指定组持续时间参数508的值。
另外,短暂消息组504内的每个短暂消息502具有相关联的组参与参数510,组参与参数510的值确定在短暂消息组504的上下文内可访问短暂消息502的持续时间。因此,在短暂消息组504本身根据组持续时间参数508到期之前,特定的短暂消息组504可以在短暂消息组504的上下文中“到期”并且变得不可访问。组持续时间参数508、组参与参数510和消息接收者标识符424各自向组定时器514提供输入,组定时器514可操作地首先确定短暂消息组504中的特定短暂消息502是否将被显示给特定接收用户,并且如果为是,则确定显示多长时间。注意,由于消息接收者标识符424,短暂消息组504也知道特定接收用户的身份。
因此,组定时器514可操作地控制相关联的短暂消息组504以及包括在短暂消息组504中的单独的短暂消息502的总使用期限。在一个示例中,短暂消息组504内的每个短暂消息502在由组持续时间参数508指定的时间段内保持可查看和可访问。在另一示例中,在短暂消息组504的上下文内,某个短暂消息502可以基于组参与参数510而到期。注意,即使在短暂消息组504的上下文内,消息持续时间参数506也仍然可以确定向接收用户显示特定短暂消息502的持续时间。因此,消息持续时间参数506确定向接收用户显示特定短暂消息502的持续时间,而不管接收用户是在短暂消息组504的上下文之内还是之外查看该短暂消息502。
短暂定时器系统202还可以基于确定已经超过相关联的组参与参数510而从短暂消息组504中可操作地移除特定短暂消息502。例如,在发送用户已经建立了从发布起24小时的组参与参数510的情况下,短暂定时器系统202将在指定的24小时之后从短暂消息组504中移除相关的短暂消息502。短暂定时器系统202还进行操作以在针对短暂消息组504内的每个短暂消息502的组参与参数510已经到期时,或者在短暂消息组504本身根据组持续时间参数508已经到期时,移除短暂消息组504。
在某些使用情况下,特定短暂消息组504的创建者可以指定无期限的组持续时间参数508。在这种情况下,针对短暂消息组504内最后剩余的短暂消息502的组参与参数510的到期将确定短暂消息组504本身何时到期。在这种情况下,添加至短暂消息组504的具有新的组参与参数510的新的短暂消息502有效地将短暂消息组504的寿命延长到等于组参与参数510的值。
响应于短暂定时器系统202确定短暂消息组504已经到期(例如,不再是可访问的),短暂定时器系统202与消息收发系统100(并且例如特别是消息收发客户端104)通信,以使得与相关短暂消息组504相关联的标记(例如,图标)不再显示在消息收发客户端104的用户界面内。类似地,当短暂定时器系统202确定针对特定短暂消息502的消息持续时间参数506已经到期时,短暂定时器系统202使消息收发客户端104不再显示与短暂消息502相关联的标记(例如,图标或文本标识)。
图6示出了根据一些示例的机器学习模型606。机器学习模型606包括训练数据602、机器学习技术训练模块604、经训练的机器学习技术模块608、源图像数据模块610和增强决策生成器模块612。
在一些实现方式中,机器学习模型606的一些模块可以在消息收发客户端104上实现,并且其他模块可以在应用服务器112上实现。在一些实现方式中,机器学习模型606的所有模块均在消息收发客户端104或应用服务器112上实现。在这样的情况下,消息收发客户端104基于所实现的模块将信息传送至应用服务器112,并且反之亦然,应用服务器112基于所实现的模块将信息传送至消息收发客户端104。
训练数据602包括用于机器学习模型606的训练图像和数据。例如,训练数据602可以包括人脸数据集、风景数据集、对象数据集等。
机器学习技术训练模块604被训练成基于所接收的图像来生成图像增强决策。
机器学习是使计算机能够在不被明确编程的情况下进行学习的研究领域。机器学习探索算法——在本文中也称为工具——的研究和构造,其可以根据现有数据进行学习并且做出关于新数据的预测。这样的机器学习工具通过根据示例训练数据(例如,用户登录尝试特征和已知的质询响应标签)构建模型来进行操作,以做出被表示为输出或评估的数据驱动的预测或决策。尽管示例是关于一些机器学习工具呈现的,但是本文中呈现的原理可以应用于其他机器学习工具。在一些示例中,可以使用不同的机器学习工具。例如,可以使用逻辑回归(LR)、朴素贝叶斯(Naive-Bayes)、随机森林(Random Forest,RF)、神经网络(NN)、矩阵分解以及支持向量机(SVM)工具来预测给定属性的待定天数(a days topending amount for a given property)。
机器学习算法利用特征来分析数据以生成评估。特征是被观察的现象的单独可测量属性。特征的概念与统计技术诸如线性回归中使用的说明变量的概念有关。选择信息丰富的、有区分性的并且独立的特征对于模式识别、分类和回归中的MLP的有效操作是重要的。特征可以具有不同的类型,例如数字特征、字符串和图形。
机器学习算法利用训练数据找到影响结果或评估的已识别特征之间的相关性。在一些示例中,训练数据包括已标记数据,所述已标记数据是关于一个或更多个已识别特征和一个或更多个结果(例如,待定天数)的已知数据。
一旦收集并处理了训练数据,就可以利用机器学习技术来构建机器学习技术训练模块604。机器学习技术对模型进行训练以对被馈送到模型中的数据准确地做出预测(例如,用户在给定话语中说了什么;名词是人、地点还是事物;明天的天气会如何)。在学习阶段期间,针对输入的训练数据集来开发模型以对模型进行优化,从而正确地预测关于给定输入的输出。通常,学习阶段可以是监督的、半监督的或无监督的——指示对应于训练输入提供“正确”输出的降低水平。在监督学习阶段中,所有输出被提供给模型,并且模型旨在开发将输入映射到输出的通用规则或算法。相比之下,在无监督学习阶段中,不针对输入提供期望输出,使得模型可以开发其自己的规则来发现训练数据集内的关系。在半监督学习阶段中,提供不完全标记的训练集,其中,对于训练数据集而言,一些输出是已知的,而一些输出是未知的。
可以针对训练数据集使模型运行若干时期(epoch)(例如,迭代),在所述时期中训练数据集被重复馈送到模型中以改进其结果。例如,在监督学习阶段中,开发模型以预测关于给定输入集的输出,并且在若干时期内对模型进行评估以针对训练数据集的最大数目的输入更可靠地提供被指定为对应于给定输入的输出。在另一示例中,对于无监督学习阶段,开发模型以将数据集聚类成n个组,并且在若干时期内关于以下对模型进行评估:模型如何一致地将给定输入放置到给定组中以及模型如何可靠地跨每个时期产生n个期望的聚类。
一旦运行了一个时期,就对模型进行评估并且调整模型的变量的值以尝试以迭代的方式更好地改进模型。在各个方面,评估偏向于假阴性、偏向于假阳性、或者相对于模型的总体准确度均匀地偏向。取决于所使用的机器学习技术,可以以若干方式来调整这些值。例如,在遗传或进化算法中,在预测期望输出方面最成功的模型的值被用于开发供模型在后续时期使用的值,这可能包括随机变化/突变,从而提供附加的数据点。本领域普通技术人员将熟悉可以与本公开内容一起应用的若干其他机器学习算法,包括线性回归、随机森林、决策树学习、神经网络、深度神经网络等。
每个模型通过改变影响输入以更接近地映射到期望结果的一个或更多个变量的值来在若干时期内开发规则或算法,但是由于训练数据集可能变化并且优选地非常大,因此可能无法实现完美的准确度和精度。因此,可以将构成学习阶段的多个时期设置为给定的试验次数或固定的时间/计算预算,或者当给定模型的准确度足够高或足够低或已经达到准确度平台期(plateau)时,构成学习阶段的多个时期可以在达到该次数/预算之前终止。例如,如果训练阶段被设计成运行n个时期并且产生具有至少95%准确度的模型,并且这样的模型是在第n时期之前产生的,则学习阶段可以提前结束并且使用所产生的满足最终目标准确度阈值的模型。类似地,如果给定模型不足够准确以满足随机机会阈值(例如,该模型在确定关于给定输入的真/假输出时仅55%准确),则关于该模型的学习阶段可以提前终止,但是学习阶段中的其他模型可以继续训练。类似地,当给定模型跨多个时期继续在其结果中提供类似的准确度或波动时——已经达到性能平台期——关于给定模型的学习阶段可以在达到时期数目/计算预算之前终止。
一旦完成了学习阶段,模型就被最终确定。在一些示例中,对照测试标准来对最终确定的模型进行评估。在第一示例中,包括针对其输入的已知输出的测试数据集被馈送到最终模型中,以确定该模型在处理尚未被训练的数据时的准确度。在第二示例中,假阳性率或假阴性率可以用于在最终确定之后对模型进行评估。在第三示例中,数据聚类之间的描绘用于选择针对其数据的聚类产生最清晰边界的模型。
在一些示例中,机器学习技术训练模块604被训练成基于一个或更多个特征(例如,从训练数据602接收的训练数据)使用从源图像数据模块610接收的图像来生成图像增强决策。在一些示例中,定制增强系统124可以周期性地(例如,每周、每月、每年)训练机器学习技术训练模块604。
在经过训练之后,机器学习技术训练模块604被提供至经训练的机器学习技术模块608。经训练的机器学习技术模块608被配置成从源图像数据模块610接收源图像。例如,源图像数据模块610接收由客户端设备生成的源图像。源图像数据模块610指示经训练的机器学习技术模块608将经训练的机器学习技术应用于由源图像数据模块610提供的源图像。
经训练的机器学习技术模块608使用由源图像数据模块610提供的源图像生成决策。由经训练的机器学习技术模块608生成的决策的类型可以由用户配置。在一些示例中,经训练的机器学习技术模块608是提供来自源图像数据模块610的输入源图像落入预定义类别内的概率的分类机器学习模型。在一些示例中,经训练的机器学习技术模块608是基于预定义标准来滤出从源图像数据模块610接收的源图像的一部分的分割机器学习模型。在其他示例中,经训练的机器学习技术模块608是提供对象在源图像中所处位置的边界框的对象检测机器学习模型。在一些示例中,经训练的机器学习技术模块608是预测源图像中感兴趣的点的显著性模型。经训练的机器学习技术模块608将所生成的决策提供给增强决策生成器模块612。增强决策生成器模块612使用所生成的决策,并且将所生成的决策作为输入提供给增强现实内容项,以用于基于所生成的决策和增强现实内容项来修改源图像。
图7是根据一些示例的用于生成定制化图像增强的示例方法700的流程图。尽管所描述的流程图可以将操作示出为顺序处理,但是操作中的许多操作可以并行或同时执行。另外,可以重新布置操作的顺序。处理在其操作完成时终止。处理可以对应于方法、过程、算法等。方法的操作可以全部执行或部分执行,可以结合其他方法中的一些或所有操作来执行,并且可以通过任何数目的不同系统(例如,本文中描述的系统)或者其任何部分(例如,包括在任何系统中的处理器)来执行。
在操作702处,定制增强系统124经由图像捕获设备接收图像。在一些示例中,定制增强系统124还从图像捕获设备接收另外的数据。例如,所述另外的数据可以包括音频数据、图像数据、定位数据或者能够经由耦接至图像捕获设备的设备传感器获得的任何其他数据。
在操作704处,定制增强系统124使用机器学习模型生成图像增强决策。图像增强决策基于所接收的图像。在一些示例中,机器学习模型是机器学习模型606。在一个示例中,机器学习模型606用于决定用户是具有暖肤色还是冷肤色。在另一示例中,机器学习模型606用于决定用户是在内部还是外部。在一些示例中,机器学习模型606决定图像中的哪个对象是主要对象以及哪个对象是次要对象。如以上所讨论的,由机器学习模型606做出的决策的类型基于所使用的机器学习模型的类型。例如,机器学习模型606可以是分类机器学习模型、分割机器学习模型、对象检测机器学习模型或显著性机器学习模型。可以使用任何其他类型的合适的机器学习模型。在一些示例中,从资源库访问机器学习模型606。资源库可以通信地耦接至应用服务器112或消息收发客户端104。
在操作706处,定制增强系统124访问增强现实内容项。增强现实内容项被配置成修改所接收的图像的图像内容。可以从增强系统206访问增强现实内容项。增强内容项可以是可以被添加至图像或视频的实时特殊效果和声音。例如,增强现实内容项可以被配置成改变图像的颜色。在一些示例中,增强现实内容可以通过将对象附至图像来提供增强现实体验。以上结合图3描述了增强现实内容项的另外的细节。
在操作708处,定制增强系统124将所生成的图像增强决策与增强现实内容项相关联。定制增强系统124将所生成的增强决策作为输入提供给增强现实内容。
在操作710处,定制增强系统124使用增强现实内容项和相关联的图像增强决策来修改所接收的图像。例如,定制增强系统124可以包括机器学习模型606,该机器学习模型606被训练成分析所接收的图像并且生成关于图像中的人具有暖肤色还是冷肤色的决策。定制增强系统124将该图像增强决策(例如,人具有暖肤色还是冷肤色)与增强现实内容项相关联。例如,增强现实内容项可以被配置成将虚拟化妆应用于人脸。在定制增强系统124将图像增强决策与增强现实内容项相关联时,定制增强系统124通过向增强现实内容项提供图像增强决策来增加增强现实内容项的效果。例如,如果图像增强决策是图像中的人具有暖肤色,则增强现实内容项将使用最适合具有暖肤色的人的色调(color shade)来应用虚拟化妆。如果图像增强决策是图像中的人具有冷肤色,则增强现实内容将使用最适合具有冷肤色的人的色调来应用虚拟化妆。因此,在操作710处创建的经修改的图像是基于所接收的图像中的人的独特特征进行的定制化图像增强的结果。
在操作712处,定制增强系统124使经修改的图像呈现在计算设备的图形用户界面上。
在一些示例中,定制增强系统124包括显著性机器学习模型(例如,机器学习模型606),该显著性机器学习模型被训练成生成关于所接收的图像中哪个对象是“主要对象”以及哪个对象是“次要对象”的图像增强决策。例如,如果图像有两个人,则机器学习模型606可以决定哪个人是主要对象以及哪个人是次要对象。该图像增强决策可以与被配置成通过将虚拟服装应用于图像中的人来修改图像的增强现实内容项相关联。定制增强系统124使用图像增强决策和增强现实内容项来修改图像。例如,定制增强系统124通过将虚拟蝙蝠侠服装放置在主要对象上并且将虚拟罗宾服装放置在次要对象上来修改图像。
在一些示例中,定制增强系统124包括分类机器学习模型(例如,机器学习模型606),该分类机器学习模型被训练成生成关于照片中的人具有长发还是具有短发的图像增强决策。该图像增强决策可以与被配置成通过将头发颜色增强应用于发稍来修改图像的增强现实内容项相关联。然而,将头发着色应用于摄像装置视图的底部区域以模拟对长发发梢进行头发着色的头发着色增强现实内容项对较短的头发不具有相同的效果。因此,定制增强系统124使用图像增强决策和增强现实内容项来修改图像,以基于图像中的用户具有短发还是具有长发来为用户提供更逼真的头发着色增强。
图8是根据一些示例的作为定制增强系统124的结果而生成的经修改的图像的图解图示800。
例如,定制增强系统124可以生成确定图像中的人是在内部还是外部的图像增强决策。定制增强系统124将该图像增强决策作为输入提供给增强现实内容项。增强现实内容项可以被配置成通过在人的眼睛上放置一副虚拟眼镜来修改图像。通过向增强现实内容项提供图像增强决策(例如,人是在内部还是外部),定制增强系统124可以使用增强现实内容项来针对该人显示虚拟太阳镜或透明眼镜。例如,如果图像增强决策是人在室外,则定制增强系统124将通过在图像中的人上放置虚拟太阳镜来修改图像。如果图像增强决策是人在室内,则定制增强系统124将通过在人上放置透明眼镜来修改图像。
在另一示例中,定制增强系统124可以使用作为分类机器学习模型的机器学习模型606,该分类机器学习模型被训练成生成关于用户是否佩戴眼镜的图像增强决策。该图像增强决策可以与第一增强现实内容项一起使用,第一增强现实内容项被配置成生成虚拟眼镜以放置在用户的眼睛上。如果图像增强决策是用户没有佩戴眼镜,则定制增强系统124将使用第一增强现实内容项和相关联的图像增强决策来将眼镜放置在用户的眼睛上。然而,如果图像增强决策是用户佩戴眼镜,则定制增强系统124将使用第一增强现实内容项和相关联的图像增强决策来制止针对用户放置虚拟眼镜,因为针对已经佩戴眼镜的用户放置虚拟眼镜可能会破坏增强现实体验。
在另一示例中,定制增强系统124可以将上述图像增强决策(例如,用户是否佩戴眼镜)与第二增强现实内容项关联使用,第二增强现实内容项被配置成在用户摘下他们的眼镜时使计算设备的图形用户界面模糊。例如,如果图像增强决策是用户佩戴眼镜并且随后将其眼镜移除,则定制增强系统124将使用第二增强现实内容项和相关联的图像增强决策来使计算设备的图形用户界面模糊,以暗指当具有视觉障碍的人移除他们的眼镜时会发生什么。
图9是根据一些示例的作为定制增强系统124的结果而生成的经修改的图像的图解图示900。
在一些示例中,定制增强系统124使用作为分割机器学习模型的机器学习模型606。例如,机器学习模型606可以被训练成提取图像中包含衬衫的部分。在一个示例中,定制增强系统124可以使用第二非机器学习系统来确定图像中用户所穿的衬衫的颜色,并且确定通常搭配的颜色来用作帽子的颜色。在一些示例中,定制增强系统124可以使用第二机器学习模型来确定用户所穿的衬衫的颜色,并且确定通常搭配的颜色来用作帽子的颜色。
例如,由分割机器学习模型生成的图像增强决策可以是图像的特定部分(例如,指定的像素位置)包括衬衫。该图像增强决策可以被提供给另一系统(例如,第二机器学习模型或第二非机器学习模型),所述另一系统确定衬衫是蓝色的并且确定通常与蓝色搭配的颜色也是蓝色。然后该图像增强决策(以及关于衬衫颜色和通常搭配的颜色的对应确定)被提供给下述增强现实内容项,该增强现实内容项被配置成针对图像内的用户放置虚拟帽子。在一些示例中,仅图像增强决策被提供给增强现实内容项。在该示例中,增强现实内容项可以被配置成确定衬衫的颜色、确定通常搭配的颜色以及针对图像内的用户放置虚拟帽子。
定制增强系统124使用图像增强决策和增强现实内容项来通过针对用户放置与用户的衬衫的颜色匹配(或通常搭配)的虚拟帽子来生成经修改的图像。
在一些示例中,补充系统(例如,第二非机器学习系统或第二机器学习模型)可以根据由分割机器学习模型提取的图像的一部分来确定图案或纹理数据。例如,补充系统可以确定衬衫具有蓝色格子图案,并且因此将针对虚拟帽子生成白色佩斯利图案。
机器架构
图10是机器1000的图解表示,在该机器1000内可以执行用于使机器1000执行本文中所讨论的方法中的任何一种或更多种方法的指令1008(例如,软件、程序、应用、小程序、app或其他可执行代码)。例如,指令1008可以使机器1000执行本文中描述的方法中的任何一种或更多种方法。指令1008将通用的未经编程的机器1000转换成被编程为以所描述的方式执行所描述和所示出的功能的特定机器1000。机器1000可以作为独立设备操作,或者可以耦接(例如,联网)至其他机器。在联网部署中,机器1000可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份进行操作,或者在对等(或分布式)网络环境中作为对等机器进行操作。机器1000可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能电器)、其他智能设备、web设备、网络路由器、网络交换机、网络桥接器或能够顺序地或以其他方式执行指定要由机器1000采取的动作的指令1008的任何机器。此外,虽然仅示出了单个机器1000,但是术语“机器”还应当被视为包括单独地或联合地执行指令1008以执行本文中讨论的方法中的任何一种或更多种方法的机器的集合。例如,机器1000可以包括客户端设备102或者形成消息收发服务器系统108的一部分的多个服务器设备中的任何一个。在一些示例中,机器1000还可以包括客户端系统和服务器系统两者,其中特定方法或算法的某些操作在服务器侧执行,并且所述特定方法或算法的某些操作在客户端侧执行。
机器1000可以包括可以被配置成经由总线1040彼此通信的处理器1002、存储器1004和输入/输出(I/O)部件1038。在示例中,处理器1002(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令1008的处理器1006和处理器1010。术语“处理器”旨在包括多核处理器,所述多核处理器可以包括可以同时执行指令的两个或更多个独立处理器(有时被称为“核”)。尽管图10示出了多个处理器1002,但是机器1000可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器、或者其任何组合。
存储器1004包括主存储器1012、静态存储器1014和存储单元1016,均可由处理器1002经由总线1040访问。主存储器1004、静态存储器1014和存储单元1016存储实施本文中描述的方法或功能中的任何一个或更多个方法或功能的指令1008。指令1008还可以在其由机器1000执行期间完全地或部分地驻留在主存储器1012内、静态存储器1014内、存储单元1016内的机器可读介质1018内、处理器1002中的至少一个处理器内(例如,在处理器的高速缓存存储器内)或者其任何合适的组合内。
I/O部件1038可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种部件。包括在特定机器中的特定I/O部件1038将取决于机器的类型。例如,诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构,而无头服务器机器将不太可能包括这样的触摸输入设备。应当理解,I/O部件1038可以包括图10中未示出的许多其他部件。在各种示例中,I/O部件1038可以包括用户输出部件1024和用户输入部件1026。用户输出部件1024可以包括视觉部件(例如,诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学部件(例如,扬声器)、触觉部件(例如,振动马达、阻力机构)、其他信号生成器等。用户输入部件1026可以包括字母数字输入部件(例如,键盘、被配置成接收字母数字输入的触摸屏、光学键盘或其他字母数字输入部件)、基于点的输入部件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向仪器)、触觉输入部件(例如,物理按钮、提供触摸或触摸手势的位置和力的触摸屏或其他触觉输入部件)、音频输入部件(例如,麦克风)等。
在其他示例中,I/O部件1038可以包括生物计量部件1028、运动部件1030、环境部件1032或位置部件1034以及广泛的一系列其他部件。例如,生物计量部件1028包括用于检测表达(例如,手表达、面部表达、声音表达、身体姿态或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别人(例如,声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件1030包括加速度传感器部件(例如,加速度计)、重力传感器部件、旋转传感器部件(例如,陀螺仪)。
环境部件1032包括例如一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如,光度计)、温度传感器部件(例如,检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如,气压计)、声学传感器部件(例如,检测背景噪声的一个或更多个麦克风)、接近传感器部件(例如,检测附近对象的红外传感器)、气体传感器(例如,用于出于安全而检测危险气体的浓度或用于测量大气中的污染物的气体检测传感器)或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。
关于摄像装置,客户端设备102可以具有摄像装置系统,该摄像装置系统包括例如在客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如,“自拍”),然后可以用上述增强数据(例如,过滤器)对该静止图像和视频进行增强。例如,后置摄像装置可以用于以更常规的摄像装置模式捕获静止图像和视频,这些图像类似地用增强数据进行增强。除了前置摄像装置和后置摄像装置之外,客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。
此外,客户端设备102的摄像装置系统可以包括双后置摄像装置(例如,主摄像装置以及深度感测摄像装置),或者甚至在客户端设备102的前后侧上包括三重、四重或五重后置摄像装置配置。例如,这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。
位置部件1034包括定位传感器部件(例如,GPS接收器部件)、海拔传感器部件(例如,检测气压的高度计或气压计,根据气压可以得到海拔)、取向传感器部件(例如,磁力计)等。
可以使用各种技术来实现通信。I/O部件1038还包括通信部件1036,通信部件1036可操作以经由相应的耦接或连接将机器1000耦接至网络1020或设备1022。例如,通信部件1036可以包括与网络1020对接的网络接口部件或另一合适的设备。在另外的示例中,通信部件1036可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、部件(例如,低功耗)、部件以及经由其他模态提供通信的其他通信部件。设备1022可以是另一机器或各种外围设备中的任何外围设备(例如,经由USB耦接的外围设备)。
此外,通信部件1036可以检测标识符,或者包括可操作以检测标识符的部件。例如,通信部件1036可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如,用于检测诸如通用产品码(UPC)条形码的一维条形码、诸如快速响应(QR)码的多维条形码、Aztec码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(Ultra Code)、UCC RSS-2D条形码和其他光学码的光学传感器)或者声学检测部件(例如,用于识别标记的音频信号的麦克风)。另外,可以经由通信部件1036得到各种信息,例如经由因特网协议(IP)地理定位得到定位、经由信号三角测量得到定位、经由检测可以指示特定定位的NFC信标信号得到定位等。
各种存储器(例如,主存储器1012、静态存储器1014以及处理器1002的存储器)以及存储单元1016可以存储由本文中描述的方法或功能中的任何一个或更多个实施或使用的一组或更多组指令和数据结构(例如,软件)。这些指令(例如,指令1008)在由处理器1002执行时使各种操作实现所公开的示例。
可以经由网络接口设备(例如,包括在通信部件1036中的网络接口部件)使用传输介质并且使用若干公知的传输协议中的任何一个传输协议(例如,超文本传输协议(HTTP))通过网络1020来发送或接收指令1008。类似地,可以使用传输介质经由与设备1022的耦接(例如,对等耦接)来发送或接收指令1008。
软件架构
图11是示出可以安装在本文中描述的设备中的任何一个或更多个设备上的软件架构1104的框图1100。软件架构1104由硬件诸如包括处理器1120、存储器1126和I/O部件1138的机器1102支持。在该示例中,软件架构1104可以被概念化为层的堆栈,其中每个层提供特定功能。软件架构1104包括诸如操作系统1112、库1110、框架1108和应用1106的层。在操作上,应用1106通过软件堆栈来激活API调用1150,并且响应于API调用1150接收消息1152。
操作系统1112管理硬件资源并且提供公共服务。操作系统1112包括例如核1114、服务1116和驱动器1122。核1114充当硬件层与其他软件层之间的抽象层。例如,核1114提供存储器管理、处理器管理(例如,调度)、部件管理、联网和安全设置以及其他功能。服务1116可以为其他软件层提供其他公共服务。驱动器1122负责控制底层硬件或与底层硬件对接。例如,驱动器1122可以包括显示驱动器、摄像装置驱动器、或低功耗驱动器、闪存驱动器、串行通信驱动器(例如,USB驱动器)、驱动器、音频驱动器、电力管理驱动器等。
库1110提供由应用1106使用的公共低级基础设施。库1110可以包括系统库1118(例如,C标准库),该系统库1118提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。另外,库1110可以包括API库1124,例如媒体库(例如,用于支持各种媒体格式的呈现和操作的库,所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如,用于在显示器上的图形内容中以二维(2D)和三维(3D)呈现的OpenGL框架)、数据库库(例如,提供各种关系数据库功能的SQLite)、web库(例如,提供web浏览功能的WebKit)等。库1110还可以包括各种其他库1128,以向应用1106提供许多其他API。
框架1108提供由应用1106使用的公共高级基础设施。例如,框架1108提供各种图形用户界面(GUI)功能、高级资源管理和高级定位服务。框架1108可以提供可以由应用1106使用的广泛的其他API,其中一些API可以特定于特定操作系统或平台。
在示例中,应用1106可以包括家庭应用1136、联系人应用1130、浏览器应用1132、书籍阅读器应用1134、定位应用1142、媒体应用1144、消息收发应用1146、游戏应用1148和诸如第三方应用1140的各种各样的其他应用。应用1106是执行程序中定义的功能的程序。可以采用各种编程语言来创建以各种方式构造的应用1106中的一个或更多个,所述编程语言例如面向对象的编程语言(例如,Objective-C、Java或C++)或过程编程语言(例如,C语言或汇编语言)。在特定示例中,第三方应用1140(例如,由特定平台的供应商以外的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用)可以是在诸如IOSTM、ANDROIDTM、Phone的移动操作系统或另外的移动操作系统上运行的移动软件。在该示例中,第三方应用1140可以激活由操作系统1112提供的API调用1150以有助于本文中描述的功能。
术语表
“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括数字或模拟通信信号或其他无形介质以有助于这样的指令的通信。可以经由网络接口设备使用传输介质通过网络发送或接收指令。
“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。
“通信网络”是指网络的一个或更多个部分,该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、另外类型的网络或者两个或更多个这样的网络的组合。例如,网络或网络的一部分可以包括无线网络或蜂窝网络,并且耦接可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中,耦接可以实现各种类型的数据传输技术中的任何数据传输技术,例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、增强型数据速率GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动通信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。
“部件”是指具有以下边界的设备、物理实体或逻辑:所述边界由功能或子例程调用、分支点、API或对特定处理或控制功能提供分区或模块化的其他技术来定义。部件可以经由其接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元并且可以是通常执行相关功能中的特定功能的程序的一部分。部件可以构成软件部件(例如,体现在机器可读介质上的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元,并且可以以某种物理方式来配置或布置。在各种示例中,可以通过软件(例如,应用或应用部分)将一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件部件(例如,处理器或处理器组)配置为进行操作以执行如本文中描述的某些操作的硬件部件。也可以机械地、电子地或以其任何合适的组合来实现硬件部件。例如,硬件部件可以包括被永久地配置成执行某些操作的专用电路系统或逻辑。硬件部件可以是专用处理器,例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件部件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路系统。例如,硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置,则硬件部件成为被唯一地定制成执行所配置的功能的特定机器(或机器的特定部件)并且不再是通用处理器。应当理解,可以出于成本和时间考虑来决定是机械地在专用且永久配置的电路系统中实现硬件部件还是在临时配置(例如,通过软件配置)的电路系统中实现硬件部件。因此,短语“硬件部件”(或“硬件实现的部件”)应当被理解成包含有形实体,即被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)成以某种方式操作或者执行本文中描述的某些操作的实体。考虑硬件部件被临时配置(例如,被编程)的示例,无需在任一时刻对硬件部件中的每个硬件部件进行配置或实例化。例如,在硬件部件包括通过软件配置而成为专用处理器的通用处理器的情况下,该通用处理器可以在不同时间处被配置为各自不同的专用处理器(例如,包括不同的硬件部件)。软件相应地对一个或多个特定处理器进行配配置,以例如在一个时刻处构成特定硬件部件并且在不同时刻处构成不同的硬件部件。硬件部件可以向其他硬件部件提供信息以及从其他硬件部件接收信息。因此,所描述的硬件部件可以被认为通信地耦接。在同时存在多个硬件部件的情况下,可以通过(例如,通过适当的电路和总线)在这些硬件部件中的两个或更多个硬件部件之间或之中进行信号传输来实现通信。在多个硬件部件在不同时间被配置或实例化的示例中,可以例如通过将信息存储在多个硬件部件可以访问的存储器结构中并且在存储器结构中检索信息来实现这样的硬件部件之间的通信。例如,一个硬件部件可以执行操作,并且将该操作的输出存储在与其通信地耦接的存储器设备中。然后,另外的硬件部件可以在随后的时间访问存储器设备,以检索所存储的输出并对其进行处理。硬件部件还可以发起与输入设备或输出设备的通信,并且可以对资源(例如,信息的集合)进行操作。在本文中描述的示例方法的各种操作可以至少部分地由临时地配置(例如,通过软件)或永久地配置成执行相关操作的一个或更多个处理器来执行。无论是被临时地配置还是永久地配置,这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的部件。如本文中使用的,“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地,在本文中描述的方法可以至少部分地由处理器实现,其中,特定的一个或多个处理器是硬件的示例。例如,方法的操作中的至少一些操作可以由一个或更多个处理器1004或者处理器实现的部件来执行。此外,一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或作为“软件即服务”(SaaS)操作。例如,操作中的至少一些操作可以由计算机组(作为包括处理器的机器的示例)执行,其中这些操作可经由网络(例如,因特网)并且经由一个或更多个适当的接口(例如,API)来访问。某些操作的执行可以分布在处理器之间,不仅驻留在单个机器内,而且跨多个机器部署。在一些示例中,处理器或处理器实现的部件可以位于单个地理定位中(例如,在家庭环境、办公室环境或服务器群内)。在其他示例中,处理器或处理器实现的部件可以跨多个地理定位分布。
“计算机可读存储介质”是指机器存储介质和传输介质两者。因此,这些术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物并且可以在本公开内容中互换地使用。
“短暂消息”是指可以在时间有限的持续时间内访问的消息。短暂消息可以是文本、图像、视频等。短暂消息的访问时间可以由消息发送者设置。替选地,访问时间可以是默认设置或者由接收者指定的设置。无论设置技术如何,该消息都是暂时的。
“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如,集中式或分布式数据库,以及相关联的高速缓存和服务器)。因此,该术语应被视为包括但不限于固态存储器以及光学和磁性介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括:非易失性存储器,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备;磁盘,例如内部硬盘和可移除盘;磁光盘;以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物并且可以在本公开内容中互换地使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质,载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。
“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。
“信号介质”是指能够存储、编码或携载由机器执行的指令并且包括数字或模拟通信信号的任何无形介质或者有助于软件或数据的通信的其他无形介质。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指其特性中的一个或更多个特性被以将信息编码在信号中的方式设置或改变的信号。术语“传输介质”和“信号介质”意指相同的事物并且可以在本公开内容中互换使用。
Claims (20)
1.一种方法,包括:
使用一个或更多个处理器经由图像捕获设备来接收图像;
使用机器学习模型生成图像增强决策,所述图像增强决策基于所接收的图像;
访问增强现实内容项,所述增强现实内容项被配置成修改所接收的图像的图像内容;
将所生成的图像增强决策与所述增强现实内容项相关联;
使用所述增强现实内容项和相关联的图像增强决策来修改所接收的图像;以及
使经修改的图像呈现在计算设备的图形用户界面上。
2.根据权利要求1所述的方法,其中,所述图像增强决策基于从所述计算设备的设备传感器接收的数据。
3.根据权利要求1所述的方法,其中,所述将所生成的图像增强决策进行关联还包括:
将所生成的图像增强决策作为输入提供给所述增强现实内容项。
4.根据权利要求1所述的方法,其中,从资源库访问得到所述机器学习模型。
5.根据权利要求1所述的方法,其中,所述机器学习模型是提供输入在预定义类别内的概率的分类模型。
6.根据权利要求1所述的方法,其中,所述机器学习模型是基于预定义标准来滤出所述图像的一部分的分割模型。
7.根据权利要求1所述的方法,其中,所述机器学习模型是预测所述图像内感兴趣的点的显著性模型。
8.一种系统,所述系统包括:
一个或更多个处理器;以及
存储器,其存储指令,所述指令在由所述一个或更多个处理器执行时使所述一个或更多个处理器执行操作,所述操作包括:
使用一个或更多个处理器经由图像捕获设备来接收图像;
使用机器学习模型生成图像增强决策,所述图像增强决策基于所接收的图像;
访问增强现实内容项,所述增强现实内容项被配置成修改所接收的图像的图像内容;
将所生成的图像增强决策与所述增强现实内容项相关联;
使用所述增强现实内容项和相关联的图像增强决策来修改所接收的图像;以及
使经修改的图像呈现在计算设备的图形用户界面上。
9.根据权利要求8所述的系统,其中,所述图像增强决策基于从所述计算设备的设备传感器接收的数据。
10.根据权利要求8所述的系统,其中,所述将所生成的图像增强决策进行关联还包括:
将所生成的图像增强决策作为输入提供给所述增强现实内容项。
11.根据权利要求8所述的系统,其中,所述机器学习模型是从资源库访问得到的。
12.根据权利要求8所述的系统,其中,所述机器学习模型是提供输入在预定义类别内的概率的分类模型。
13.根据权利要求8所述的系统,其中,所述机器学习模型是基于预定义标准来滤出所述图像的一部分的分割模型。
14.根据权利要求8所述的系统,其中,所述机器学习模型是预测所述图像内感兴趣的点的显著性模型。
15.一种非暂态计算机可读存储介质,其存储指令,所述指令在由机器的一个或更多个处理器执行时使所述计算机可读存储介质执行操作,所述操作包括:
使用一个或更多个处理器经由图像捕获设备来接收图像;
使用机器学习模型生成图像增强决策,所述图像增强决策基于所接收的图像;
访问增强现实内容项,所述增强现实内容项被配置成修改所接收的图像的图像内容;
将所生成的图像增强决策与所述增强现实内容项相关联;
使用所述增强现实内容项和相关联的图像增强决策来修改所接收的图像;以及
使经修改的图像呈现在计算设备的图形用户界面上。
16.根据权利要求15所述的计算机可读存储介质,其中,所述图像增强决策基于从所述计算设备的设备传感器接收的数据。
17.根据权利要求15所述的计算机可读存储介质,其中,所述将所生成的图像增强决策进行关联还包括:
将所生成的图像增强决策作为输入提供给所述增强现实内容项。
18.根据权利要求15所述的计算机可读存储介质,其中,所述机器学习模型是从资源库访问得到的。
19.根据权利要求15所述的计算机可读存储介质,其中,所述机器学习模型是提供输入在预定义类别内的概率的分类模型。
20.根据权利要求15所述的计算机可读存储介质,其中,所述机器学习模型是基于预定义标准来滤出所述图像的一部分的分割模型。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063037518P | 2020-06-10 | 2020-06-10 | |
US63/037,518 | 2020-06-10 | ||
US16/946,413 US11521339B2 (en) | 2020-06-10 | 2020-06-19 | Machine learning in augmented reality content items |
US16/946,413 | 2020-06-19 | ||
PCT/US2021/036238 WO2021252386A1 (en) | 2020-06-10 | 2021-06-07 | Machine learning in augmented reality content items |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115917608A true CN115917608A (zh) | 2023-04-04 |
Family
ID=76845307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180041344.5A Pending CN115917608A (zh) | 2020-06-10 | 2021-06-07 | 增强现实内容项中的机器学习 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11521339B2 (zh) |
EP (1) | EP4165607A1 (zh) |
KR (1) | KR20230022232A (zh) |
CN (1) | CN115917608A (zh) |
WO (1) | WO2021252386A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11521339B2 (en) | 2020-06-10 | 2022-12-06 | Snap Inc. | Machine learning in augmented reality content items |
US20220122354A1 (en) * | 2020-06-19 | 2022-04-21 | Pinterest, Inc. | Skin tone determination and filtering |
US11360733B2 (en) | 2020-09-10 | 2022-06-14 | Snap Inc. | Colocated shared augmented reality without shared backend |
US11868857B2 (en) | 2021-04-28 | 2024-01-09 | Fushap, Inc. | Video augmentation apparatus and a method for its use |
US11589006B1 (en) * | 2021-10-19 | 2023-02-21 | Plantronics, Inc. | Dynamic camera presets |
US20230316662A1 (en) * | 2022-03-30 | 2023-10-05 | Rovi Guides, Inc. | Systems and methods for creating a custom secondary content for a primary content based on interactive data |
US20230316703A1 (en) * | 2022-03-31 | 2023-10-05 | Microsoft Technology Licensing, Llc | Saliency-based digital environment adaptation |
US11949527B2 (en) | 2022-04-25 | 2024-04-02 | Snap Inc. | Shared augmented reality experience in video chat |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7714912B2 (en) * | 2007-01-24 | 2010-05-11 | International Business Machines Corporation | Intelligent mirror |
US20170109615A1 (en) * | 2015-10-16 | 2017-04-20 | Google Inc. | Systems and Methods for Automatically Classifying Businesses from Images |
US9830529B2 (en) * | 2016-04-26 | 2017-11-28 | Xerox Corporation | End-to-end saliency mapping via probability distribution prediction |
US10515108B2 (en) * | 2016-12-30 | 2019-12-24 | Facebook, Inc. | Dynamically ranking media effects based on user and device characteristics |
US10096122B1 (en) * | 2017-03-28 | 2018-10-09 | Amazon Technologies, Inc. | Segmentation of object image data from background image data |
RU2677573C2 (ru) * | 2017-04-05 | 2019-01-17 | Общество С Ограниченной Ответственностью "Яндекс" | Система и способ дополнения изображения стилизованными свойствами |
US10572988B1 (en) * | 2017-06-19 | 2020-02-25 | A9.Com, Inc. | Capturing color information from a physical environment |
US9980100B1 (en) * | 2017-08-31 | 2018-05-22 | Snap Inc. | Device location based on machine learning classifications |
US10579897B2 (en) * | 2017-10-02 | 2020-03-03 | Xnor.ai Inc. | Image based object detection |
US10733431B2 (en) * | 2017-12-03 | 2020-08-04 | Facebook, Inc. | Systems and methods for optimizing pose estimation |
US11209442B2 (en) * | 2017-12-22 | 2021-12-28 | Google Llc | Image selection suggestions |
US10825132B2 (en) | 2018-02-20 | 2020-11-03 | Element Ai Inc. | Training method for convolutional neural networks for use in artistic style transfers for video |
US11592818B2 (en) * | 2018-06-20 | 2023-02-28 | Zoox, Inc. | Restricted multi-scale inference for machine learning |
JP7119839B2 (ja) * | 2018-09-26 | 2022-08-17 | トヨタ自動車株式会社 | 物体検出装置、物体検出方法及び車両制御装置 |
KR102277172B1 (ko) * | 2018-10-01 | 2021-07-14 | 주식회사 한글과컴퓨터 | 인공 신경망 선택 장치 및 방법 |
US11803664B2 (en) * | 2018-10-09 | 2023-10-31 | Ebay Inc. | Distributed application architectures using blockchain and distributed file systems |
US11164026B2 (en) | 2018-10-16 | 2021-11-02 | International Business Machines Corporation | Graphical user interface generation based on image analysis |
US10922534B2 (en) * | 2018-10-26 | 2021-02-16 | At&T Intellectual Property I, L.P. | Identifying and addressing offensive actions in visual communication sessions |
KR20200063329A (ko) | 2018-11-21 | 2020-06-05 | 삼성전자주식회사 | 영상 처리 장치 및 그 제어방법 |
US10867447B2 (en) * | 2019-01-21 | 2020-12-15 | Capital One Services, Llc | Overlaying 3D augmented reality content on real-world objects using image segmentation |
US20210004962A1 (en) * | 2019-07-02 | 2021-01-07 | Qualcomm Incorporated | Generating effects on images using disparity guided salient object detection |
US10758309B1 (en) * | 2019-07-15 | 2020-09-01 | Digital Surgery Limited | Methods and systems for using computer-vision to enhance surgical tool control during surgeries |
US11521339B2 (en) | 2020-06-10 | 2022-12-06 | Snap Inc. | Machine learning in augmented reality content items |
-
2020
- 2020-06-19 US US16/946,413 patent/US11521339B2/en active Active
-
2021
- 2021-06-07 EP EP21739826.2A patent/EP4165607A1/en active Pending
- 2021-06-07 WO PCT/US2021/036238 patent/WO2021252386A1/en unknown
- 2021-06-07 KR KR1020237000879A patent/KR20230022232A/ko not_active Application Discontinuation
- 2021-06-07 CN CN202180041344.5A patent/CN115917608A/zh active Pending
-
2022
- 2022-10-26 US US17/974,400 patent/US20230120964A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20230022232A (ko) | 2023-02-14 |
WO2021252386A1 (en) | 2021-12-16 |
US20210390745A1 (en) | 2021-12-16 |
US20230120964A1 (en) | 2023-04-20 |
US11521339B2 (en) | 2022-12-06 |
EP4165607A1 (en) | 2023-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11521339B2 (en) | Machine learning in augmented reality content items | |
CN116601675A (zh) | 虚拟服装试穿 | |
CN115552403B (zh) | 用于媒体内容项的私人集合的邀请媒体覆盖物 | |
US11843574B2 (en) | Featured content collection interface | |
US11502978B2 (en) | Messaging system for resurfacing content items | |
US11857879B2 (en) | Visual search to launch application | |
CN115668119A (zh) | 用于消息收发系统的具有标贴的回复界面 | |
US20220187959A1 (en) | Timeline media content navigation system | |
CN116250012A (zh) | 用于图像动画的方法、系统和计算机可读存储介质 | |
US11645324B2 (en) | Location-based timeline media content system | |
CN116685981A (zh) | 压缩图像到图像模型 | |
CN116235500A (zh) | 生成用于分享到外部应用的媒体内容项 | |
US11693539B2 (en) | Messaging system for resurfacing content items | |
US20240179111A1 (en) | Invitation media overlays for private collections of media content items | |
CN118119978A (zh) | 生成用于机器学习的真值 | |
CN117795931A (zh) | 组合的读取和反应消息 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |