CN115769260A - 基于光度测量的3d对象建模 - Google Patents

基于光度测量的3d对象建模 Download PDF

Info

Publication number
CN115769260A
CN115769260A CN202180041722.XA CN202180041722A CN115769260A CN 115769260 A CN115769260 A CN 115769260A CN 202180041722 A CN202180041722 A CN 202180041722A CN 115769260 A CN115769260 A CN 115769260A
Authority
CN
China
Prior art keywords
pixels
images
target
source image
target structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180041722.XA
Other languages
English (en)
Inventor
奥利弗·伍德福德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Snap Inc
Original Assignee
Snap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Snap Inc filed Critical Snap Inc
Publication of CN115769260A publication Critical patent/CN115769260A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • G06T5/80
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Abstract

本公开内容的各方面涉及一种用于执行包括以下的操作的系统和方法:访问描绘目标结构的源图像;访问描绘目标结构的至少一部分的一个或更多个目标图像;计算目标结构的第一部分的源图像中的第一组像素与目标结构的第一部分的一个或更多个目标图像中的第二组像素之间的对应关系,该对应关系是根据在源图像与一个或更多个目标图像之间变化的摄像装置参数计算的;以及基于对目标结构和摄像装置参数的联合优化,基于源图像中的第一组像素与一个或更多个目标图像中的第二组像素之间的对应关系,生成目标结构的三维(3D)模型。

Description

基于光度测量的3D对象建模
优先权要求
本申请要求于2020年4月28日提交的美国专利申请第16/861,034号的优先权,该美国专利申请整体通过引用并入本文。
技术领域
本公开内容一般涉及三维(3D)几何重建,并且更特别地,涉及基于二维图像生成对象的3D模型。
背景技术
对于诸如数字资产生成和文化保护的应用,根据2D图像离线重建3D几何形状是计算机视觉中的关键任务。通常,密集的几何形状是使用诸如多视图立体(MVS)算法的复杂的算法构建的。取得各种2D图像中存在的特征并分析这样的特征可以解析图像中描绘的对象的3D几何形状。
附图说明
在附图中,相同的附图标记可以在不同的视图中描述类似的部件,附图不一定按比例绘制。为了容易地识别对任何特定要素或动作的讨论,附图标记中的一个或多个最高有效数字是指该要素首次被介绍时的图号。在附图中以示例而非限制的方式示出了一些实施方式,在附图中:
图1是根据一些示例的其中可以布置本公开内容的联网环境的图解表示。
图2是根据一些示例的具有客户端侧和服务器端侧两者的功能的消息系统的图解表示。
图3是根据一些示例的在数据库中维护的数据结构的图解表示。
图4是根据一些示例的消息的图解表示。
图5是示出根据示例实施方式的增强系统的示例操作的流程图。
图6是根据一些示例的呈计算机系统形式的机器的图解表示,在该计算机系统内可以执行一组指令以使该机器执行本文所讨论的方法中任何一种或更多种。
图7是示出可以在其中实现示例的软件架构的框图。
具体实施方式
以下描述包括体现本公开内容的说明性实施方式的系统、方法、技术、指令序列及计算机器程序产品。在下面的描述中,出于说明的目的,阐述了许多具体细节以提供对各种实施方式的理解。然而,对于本领域技术人员而言将明显的是,可以在没有这些具体细节的情况下实践实施方式。一般地,公知的指令实例、协议、结构和技术不一定详细地被示出。
许多典型的方法可用于根据一个或更多个2D图像重建3D对象几何形状。这样的方法通过特征匹配或像素匹配图像中描绘的结构来操作。虽然这样的方法通常工作良好,但是它们的基本假设限制了它们在大范围图像上的一般适用性,并且可能引起差的或不准确的对象建模。
例如,基于特征的SfM(来自运动的结构)方法和算法假设了固定的摄像装置参数,并且使在两个图像之间匹配的特征的几何误差最小化。具体地,这样的算法离线地操作,并且联合地优化结构和摄像装置参数。这样的算法利用三角化网格密集地对场景结构进行建模,这些三角化网格为了平滑而被正则化。使用纹理到图像的误差推断出纹理图,并且然后,基于纹理图来确定3D对象几何形状。推断纹理图显著地增加了由于纹理而产生的变量数量,以及由于网格和平滑正则化而产生的变量之间的相关性。因此,优化或者在不同组的变量(纹理、结构和摄像装置参数)上交替进行,或者使用简单的一阶梯度下降求解器。由于这些复杂性,这样的算法消耗了大量的系统资源,花费长时间才能实现结果,而且具有有限的适用性,并且不能广泛适用于包括实时图像处理的广泛的应用。一些MVS方法基于界标的深度和法线两者进行优化,但没有使用摄像装置参数联合优化,这导致了相对不准确或不完整的对象建模。
已知为视觉测距的另一种图像处理算法可以用于生成图像中描绘的对象的3D模型。这些算法使用结构来计算图像之间的对应关系,使图像间的误差最小化。在这样做时,这些算法避免了推断对象的纹理的复杂性。这样的算法用稀疏的、基于射线的界标对结构进行建模,但假设已知的和固定的摄像装置参数(摄像装置内部参数),以避免优化透镜参数。虽然这提高了3D对象被建模的效率,但这些算法的适用性受到严重限制。
这些典型的方法还假设所有图像中的场景点的恒定亮度。这种假设在应用中也严重受限,并且导致差的对象建模,因为照明条件通常由于一天或一年中的时间或光源的移动而改变。这些照明条件可能使对象取决于图像何时、何处以及如何被捕获而在不同的图像中看起来不同。
所公开的实施方式通过应用光度测量方法来基于可变结构参数、摄像装置参数和透镜失真参数生成3D对象模型,提高了使用电子设备的准确度和功效。所公开的方法降低了生成3D对象模型的内存要求,并且在较大的问题上更可行。具体地,所公开的实施方式为高效优化问题提供了3D对象的准确表面模型。所公开的实施方式联合地优化结构参数和摄像装置参数二者,并在联合结构和摄像装置优化中优化每个界标的表面法线。所公开的实施方式还使用图像间误差优化透镜失真参数,以在比先前算法(例如,SfM和MVS方法)更高的准确度和更低的内存要求的情况下提供准确的3D对象模型。为了生成3D对象模型,所公开的实施方式定义了考虑到结构参数、摄像装置参数和透镜失真参数的优化问题。基于将源图像中的结构的一部分的像素与目标图像中的像素关联的成本函数来求解该优化问题。这显著地改进了如何基于2D图像对对象进行3D建模。特别地,这显著地改善了用户体验,减少了完成3D对象建模任务所需的资源量,并且提高了设备的整体功效和准确度。
在一个示例中,通过向源图像中的结构的一部分的像素应用用于捕获源图像的摄像装置的非失真参数或函数来确定结构的一部分的3D坐标。然后,通过对从3D坐标向用于捕获目标图像的摄像装置的位置绘制的线应用失真参数,使用3D坐标来识别目标图像中的该结构的一部分的对应像素。对像素值应用归一化,以考虑不同的照明条件,并且然后确定源图像和目标图像中的归一化像素之间的差。减小该差或使其最小化,以求解优化问题,以生成对象的3D模型。
联网计算环境
图1是示出用于通过网络来交换数据(例如消息和相关联的内容)的示例消息系统100的框图。消息系统100包括客户端设备102的多个实例,每个实例托管包括消息客户端104的多个应用。每个消息客户端104经由网络106(例如,因特网)通信上耦接至消息服务器系统108和消息客户端104的其他实例。
消息客户端104能够经由网络106与另一消息客户端104和消息服务器系统108通信并交换数据。在消息客户端104之间以及消息客户端104与消息服务器系统108之间交换的数据包括功能(例如,激活功能的命令)以及有效载荷数据(例如,文本、音频、视频或其他多媒体数据)。
消息服务器系统108经由网络106向特定消息客户端104提供服务器端功能。虽然消息系统100的某些功能在本文中被描述为由消息客户端104或由消息服务器系统108执行,但是某些功能的在消息客户端104或消息服务器系统108内的定位可以是设计选择。例如,在技术上优选的是:可以最初将某些技术和功能部署在消息服务器系统108内,但是后面将该技术和功能迁移至客户端设备102具有足够处理能力的消息客户端104。
消息服务器系统108支持向消息客户端104提供的各种服务和操作。这样的操作包括向消息客户端104发送数据、从消息客户端104接收数据以及对由消息客户端104生成的数据进行处理。作为示例,该数据可以包括消息内容、客户端设备信息、地理定位信息、媒体增强和叠加、消息内容持久化条件、社交网络信息和现场事件信息。通过经由消息客户端104的用户接口(UI)可用的功能来激活和控制消息系统100内的数据交换
现在具体地转至消息服务器系统108,应用程序接口(API)服务器110耦接至应用服务器112并向应用服务器112提供编程接口。应用服务器112通信地耦接至数据库服务器118,数据库服务器120便于访问数据库120,该数据库120存储与通过应用服务器112处理的消息相关联的数据。类似地,web服务器124耦接至应用服务器112,并且向应用服务器112提供基于web的接口。为此,web服务器124通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。
应用程序接口(API)服务器110在客户端设备102与应用服务器112之间接收和发送消息数据(例如,命令和消息有效载荷)。具体地,应用程序接口(API)服务器110提供一组接口(例如,例程和协议),该组接口可以由消息客户端104调用或查询以激活应用服务器112的功能。应用程序接口(API)服务器110显露由应用服务器112支持的各种功能,包括:帐户注册;登录功能;经由应用服务器112将消息从特定消息客户端104发送至另一消息客户端104;将媒体文件(例如,图像或视频)从消息客户端104发送至消息服务器114并用于另一消息客户端104的可能访问;设置媒体数据集合(例如,故事);检索客户端设备102的用户的朋友列表;检索这样的集合;检索消息和内容;在实体图(例如社交图)中添加和删除实体(例如朋友);在社交图中定位朋友;以及打开应用事件(例如,与消息客户端104有关)。
应用服务器112托管若干服务器应用和子系统,包括例如消息服务器114、图像处理服务器116以及社交网络服务器122。消息服务器114实现了若干消息处理技术和功能,特别是与从消息客户端104的多个实例接收到的消息中包括的内容(例如,文本和多媒体内容)的聚合和其他处理有关的消息处理技术和功能。如将进一步详细描述的,来自多个来源的文本和媒体内容可以被聚合成内容集合(例如,被称为故事或图库)。然后,使这些集合对消息客户端104可用。鉴于对这样的处理的硬件要求,也可以由消息服务器114在服务器端执行数据的其他处理器和存储器密集型处理。
应用服务器112还包括图像处理服务器116,该图像处理服务器116专用于执行各种图像处理操作,通常相对于在从消息服务器114发送或者在消息服务器114处接收的消息的有效载荷内的图像或视频,执行各种图像处理操作。
社交网络服务器122支持各种社交联网功能和服务并使这些功能和服务可用于消息服务器114。为此,社交网络服务器122维护和访问数据库120内的实体图306(如图3所示)。由社交网络服务器122支持的功能和服务的示例包括识别特定用户与之有关系或“跟随”的消息系统100的其他用户,以及识别特定用户的兴趣和其他实体。
系统架构
图2是示出根据一些示例的关于消息系统100的进一步细节的框图。具体地,消息系统100被显示为包括消息客户端104和应用服务器112。消息系统100包含多个子系统,这些子系统在客户端由消息客户端104支持并且在服务器端由应用服务器112支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统206、地图系统208和游戏系统210。
短暂定时器系统202负责强制由消息客户端104和消息服务器114对内容进行临时或限时访问。短暂定时器系统202包含若干个定时器,这些定时器基于与消息或消息集合(例如,故事)相关联的持续时间和显示参数,选择性地实现经由消息客户端104访问(例如,用于呈现和显示)消息和相关联的内容。下面提供关于短暂定时器系统202的操作的另外的细节。
集合管理系统204负责管理媒体的组或集合(例如,文本、图像、视频和音频数据的集合)。可以将内容(例如,消息,包括图像、视频、文本和音频)的集合组织成“事件库”或“事件故事”。可以使这样的集合在指定的时间段内(例如,与内容相关的事件的持续时间)可用。例如,可以使与音乐会相关的内容在音乐会的持续时间内作为“故事”可用。集合管理系统204还可以负责向消息客户端104的用户接口发布提供特定集合存在的通知的图标。
此外,集合管理系统204还包括策展接口212,策展接口212使得集合管理者能够管理和策展特定内容集合。例如,策展接口212使得事件组织者能够策展与特定事件相关的内容集合(例如,删除不适当的内容或冗余消息)。此外,集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动策展内容集合。在某些示例中,可以向用户支付补偿用于将用户生成的内容包括到集合中。在这样的情况下,集合管理系统204进行操作以自动地向这样的用户支付以使用他们的内容。
增强系统206提供使得用户能够增强(例如,注释或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如,增强系统206提供与生成和发布用于由消息系统100处理的消息的媒体叠加相关的功能。增强系统206基于客户端设备102的地理定位可操作地向消息客户端104提供媒体叠加或增强(例如,图像过滤器)。在另一示例中,增强系统206基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息客户端104供应媒体叠加。媒体叠加可以包括音频和视觉内容以及视觉效果。音频和视觉内容的示例包括图片、文本、标志、动画和声音效果。视觉效果的示例包括色彩叠加。音频和视觉内容或视觉效果可以应用于客户端设备102处的媒体内容项(例如,照片)。例如,媒体叠加可以包括可以叠加在由客户端设备102拍摄的照片的上面上的文本或图像。在另一示例中,媒体叠加包括定位标识叠加(例如,威尼斯海滩)、实时事件的名称或商家名称叠加(例如,海滩咖啡馆)。在另一示例中,增强系统206使用客户端设备102的地理定位来标识包括在客户端设备102的地理定位处的商家的名称的媒体叠加。媒体叠加可以包括与商家相关联的其他标记。媒体叠加可以存储在数据库120中并通过数据库服务器118访问。
在一些示例中,增强系统206提供基于用户的发布平台,该基于用户的发布平台使得用户能够选择地图上的地理定位并上传与所选择的地理定位相关联的内容。用户还可以指定应当向其他用户提供特定媒体叠加的情况。增强系统206生成包括所上传的内容并将所上传的内容与所选择的地理定位相关联的媒体叠加。
在其他示例中,增强系统206提供基于商家的发布平台,该平台使商家能够经由竞价过程选择与地理定位相关联的特定媒体叠加。例如,增强系统206将最高出价商家的媒体叠加与对应地理定位相关联达预定义时间量。
在其他示例中,增强系统206使用下面描述的光度测量技术来生成图像中的一个或更多个结构或界标的3D模型。具体地,增强系统206确定源图像中的像素与目标图像中的与目标结构或界标的一部分相关联的像素之间的对应关系。增强系统206解决被定义为确定的对应关系的函数的优化问题,以生成结构或界标的3D模型。在一个实施方式中,增强系统206基于从客户端设备102的摄像装置接收到的摄像装置馈送中的一组帧实时地执行3D模型生成。在另一实现方式中,增强系统206基于检索到先前由一个或更多个客户端设备捕获的一组图像(例如,存储在因特网上的图像),离线地执行3D模型生成。
地图系统208提供各种地理定位功能,并且支持由消息客户端104呈现基于地图的媒体内容和消息。例如,地图系统208能够在地图上显示(例如,存储在简档数据308中的)用户图标或化身,以指示用户的“朋友”的当前或过去位置,以及由这些朋友在地图的上下文内生成的媒体内容(例如,包括照片和视频的消息的集合)。例如,在消息客户端104的地图界面上,可以将用户从特定地理定位发布到消息系统100的消息在地图的该特定位置的上下文内显示给特定用户的“朋友”。用户还可以经由消息客户端104与消息系统100的其他用户(例如,使用适当的状况化身)共享自己的位置和状况信息,其中该位置和状况信息在消息客户端104的地图界面的上下文内被显示给选定用户。
游戏系统210在消息客户端104的上下文内提供各种游戏功能。消息客户端104提供游戏界面,该游戏界面提供可用游戏的列表,该游戏可以由用户在消息客户端104的上下文中启动并且与消息系统100的其他用户一起玩。消息系统100还使特定用户能够通过从消息客户端104向这样的其他用户发出邀请来邀请其他用户参与玩特定游戏。消息客户端104还支持在玩游戏上下文内的语音和文本通信二者(例如,聊天),为游戏提供排行榜,并且还支持提供游戏内奖励(例如,钱币和物品)。
数据架构
图3是示出根据某些示例的可以存储在消息服务器系统108的数据库120中的数据结构300的示意图。虽然数据库120的内容被示出为包括若干表,但是应当理解,数据可以存储在其他类型的数据结构(例如,作为面向对象数据库)中。
数据库120包括存储在消息表302内的消息数据。对于任何特定的一条消息,该消息数据包括至少消息发送者数据、消息接收方(或接收者)数据和有效载荷。下面参照图4描述关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据中的信息的另外的细节。
实体表304存储实体数据,并且(例如,参考地)链接到实体图306和简档数据308。在实体表304内为其维持记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。不管实体类型如何,消息服务器系统108存储关于其的数据的任何实体可以是识别的实体。为每个实体提供唯一的标识符以及实体类型标识符(未示出)。
实体图306存储关于实体之间的关系和关联的信息。仅作为示例,这样的关系可以是基于兴趣或基于活动的社交关系、专业关系(例如,在共同的公司或组织工作)。
简档数据308存储关于特定实体的多种类型的简档数据。基于由特定实体指定的隐私设置,简档数据308可以被选择性地使用并呈现给消息系统100的其他用户。在实体是个人的情况下,简档数据308包括例如用户名、电话号码、地址、设置(例如,通知和隐私设置),以及用户选择的化身表示(或这种化身表示的集合)。然后,特定用户可以将这些化身表示中的一个或更多个选择性地包括在经由消息系统100传送的消息的内容中以及在由消息客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”,其呈现用户可以选择在特定时间进行通信的状态或活动的图解表示。
在实体是团体的情况下,除了团体名称、成员和相关团体的各种设置(例如,通知)之外,团体的简档数据308还可以类似地包括与团体相关联的一个或更多个化身表示。
数据库120还在增强表310中存储例如叠加或过滤器的增强数据。增强数据与视频(针对其数据被存储在视频表314中)和图像(针对其数据被存储在图像表316中)相关联并且应用于视频和图像。
在一个示例中,过滤器是在向接收方用户呈现期间被显示为叠加在图像或视频上的叠加。过滤器可以是各种类型的,包括当发送方用户正在编写消息时由消息客户端104呈现给发送用户的一组过滤器中用户选择的过滤器。其他类型的过滤器包括地理定位过滤器(也称为地理过滤器),其可以基于地理定位被呈现给发送用户。例如,可以基于由客户端设备102的全球定位系统(GPS)单元确定的地理定位信息,由消息客户端104在用户接口内呈现特定于附近或特定位置的地理位置过滤器
另一种类型的过滤器是数据过滤器,其可以由消息客户端104基于在消息创建过程期间由客户端设备102收集的其他输入或信息选择性地呈现给发送方用户。数据过滤器的示例包括特定位置处的当前温度、发送方用户行进的当前速度、客户端设备102的电池寿命或当前时间。
可以被存储在图像表316内的其他增强数据包括增强现实内容项(例如,对应于应用镜头或增强现实体验)。增强现实内容项可以是可以添加至图像或视频的实时特效和声音。
如上所述,增强数据包括增强现实内容项、叠加、图像变换、AR图像以及指代可以应用于图像数据(例如,视频或图像)的修改的类似项。这包括实时修改,其在使用客户端设备102的设备传感器(例如,一个或更多个摄像装置)捕获图像时对图像进行修改并且然后在客户端设备102的屏幕上显示具有修改的图像。这还包括对所存储的内容的修改,例如对可以被修改的库中的视频片段的修改。例如,在可以访问多个增强现实内容项的客户端设备102中,用户可以使用具有多个增强现实内容项的单个视频片段来查看不同的增强现实内容项将如何修改存储的片段。例如,通过为同一内容选择不同的增强现实内容项,可以将应用不同伪随机运动模型的多个增强现实内容项应用于该同一内容。类似地,实时视频捕获可以与示出的修改一起使用,以显示当前由客户端设备102的传感器捕获的视频图像将如何修改捕获的数据。这样的数据可以简单地显示在屏幕上而不存储在存储器中,或者由设备传感器捕获的内容可以在进行或不进行修改(或两者)的情况下被记录并存储在存储器中。在某些系统中,预览功能可以显示不同的增强现实内容项将如何同时在显示器的不同窗口中显示。例如,这可以实现同时在显示器上查看具有不同伪随机动画的多个窗口。
因此,使用增强现实内容项的数据和各种系统或使用该数据修改内容的其他此类变换系统可以涉及视频帧中对象(例如,脸、手、身体、猫、狗、表面、物体等)的检测,在这些对象离开视场、进入视场以及在视场四处移动时跟踪这些对象,以及在跟踪这些对象时对其进行修改或变换。在各种实施方式中,可以使用用于实现这样的转换的不同方法。一些示例可以涉及生成一个或更多个对象的三维网格模型,以及在视频内使用模型的变换和动画纹理来实现变换。在其他示例中,可以使用对象上的点的跟踪将图像或纹理(可以是二维或三维的)放置在所跟踪的位置处。在更进一步的示例中,可以使用视频帧的神经网络分析将图像、模型或纹理放置在内容(例如,图像或视频帧)中。因此,增强现实内容项既指用于在内容中创建变换的图像、模型和纹理,也指通过对象检测、跟踪和放置实现此类变换所需的附加建模和分析信息。
可以利用保存在任何类型的计算机化系统的存储器中的任何种类的视频数据(例如,视频流、视频文件等)来执行实时视频处理。例如,用户可以加载视频文件并将其保存在设备的存储器中,或者可以使用设备的传感器生成视频流。此外,可以使用计算机动画模型来处理任何对象,例如人的面部和人身体的各部分、动物或非生物(例如椅子、汽车或其他对象)。
在一些示例中,当与要变换的内容一起选择特定修改时,待变换的元素由计算设备识别,然后如果它们存在于视频的帧中,则被检测和跟踪。根据修改请求修改对象的元素,从而变换视频流的帧。对于不同类型的变换,可以通过不同的方法执行对视频流的帧的变换。例如,对于主要是指对象的元素的变化形式的帧变换,计算对象的每个元素的特征点(例如,使用主动形状模型(ASM)或其他已知方法)。然后,针对对象的至少一个元素中的每一个生成基于特征点的网格。该网格用于跟踪视频流中对象的元素的后续阶段。在跟踪过程中,针对每个元素的提及的网格与每个元素的位置对准。然后,在网格上生成附加点。基于修改请求针对每个元素生成第一点的集合,并且基于第一点的集合和修改的请求针对每个元素生成第二点的集合。然后,可以通过基于第一点的集合和第二点的集合以及网格修改对象的元素,对视频流的帧进行转换。在这种方法中,也可以通过跟踪和修改背景来改变或扭曲被修改对象的背景。
在一些示例中,使用对象的元素改变对象的一些区域的变换可以通过计算对象的每个元素的特征点并基于计算的特征点生成网格来执行。在网格上生成点,然后基于这些点生成各种区域。然后,通过将每个元素的区域与至少一个元素中的每一个的位置对准来跟踪对象的元素,并且可以基于修改的请求来修改区域的属性,从而转换视频流的帧。根据具体的修改请求,提到的区域的属性可以以不同的方式进行变换。这种修改可以涉及:改变区域的颜色;从视频流的帧中移除区域中的至少部分区域;将一个或更多个新对象包括在基于修改请求的区域中;以及修改或扭曲区域或对象的元素。在各种实施方式中,可以使用这样的修改的任何组合或其他类似修改。对于要被动画化的某些模型,可以选择一些特征点作为控制点,以用于确定用于模型动画的选项的整个状态空间。
在使用面部检测来变换图像数据的计算机动画模型的一些示例中,使用特定面部检测算法(例如,Viola-Jones)在图像上检测面部。然后,将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。
在其他示例中,可以使用适合面部检测的其他方法和算法。例如,在一些实施方式中,使用界标来定位特征,该界标表示在所考虑的大多数图像中存在的可区分点。例如,对于面部界标,可以使用左眼瞳孔的定位。如果初始界标不可识别(例如,如果人有眼罩),则可以使用次级界标。这样的界标识别过程可以用于任何这样的对象。在一些示例中,一组界标形成形状。可以使用形状中的点的坐标将形状表示为矢量。一个形状利用相似变换(允许平移、缩放和旋转)与另一个形状对准,该相似变换使形状点之间的平均欧几里德距离最小化。平均形状是对准的训练形状的均值。
在一些示例中,从与由全局面部检测器确定的面部的位置和尺寸对准的平均形状开始搜索界标。然后,这样的搜索重复以下步骤:通过每个点周围的图像纹理的模板匹配来调整形状点的定位而建议暂定形状,并且然后使暂定形状符合全局形状模型,直至发生收敛。在某些系统中,个别的模板匹配是不可靠的,形状模型将弱模板匹配的结果进行池化,形成更强的整体分类器。整个搜索在从粗略分辨率到精细分辨率的图像金字塔的每个级别上重复。
变换系统可以在客户端设备(例如,客户端设备102)上捕获图像或视频流,并在客户端设备102上本地执行复杂的图像操纵,同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括尺寸和形状变化、情绪转换(例如,将面部从皱眉变为微笑)、状态转换(例如,使对象变老、减少表观年龄、改变性别)、风格转换、图形元素应用,以及由已经被配置成在客户端设备102上有效执行的卷积神经网络实现的任何其他合适的图像或视频操纵。
在一些示例中,用于变换图像数据的计算机动画模型可以由系统使用,在该系统中,用户可以使用具有神经网络的客户端设备102来捕获用户的图像或视频流(例如,自拍),该神经网络操作作为在客户端设备102上操作的消息客户端104的一部分。在消息客户端104内操作的变换系统确定图像或视频流中的面部的存在并且提供与计算机动画模型相关联的修改图标以变换图像数据,或者计算机动画模型可以被呈现为与本文中描述的接口相关联。修改图标包括以下变化,该变化可以是作为修改操作的一部分的在图像或视频流中修改用户面部的基础。一旦选择了修改图标,变换系统就发起转换用户的图像以反映所选的修改图标(例如,在用户上生成笑脸)的过程。一旦图像或视频流被捕获并且指定的修改被选择,修改的图像或视频流就可以呈现在客户端设备102上显示的图形用户接口中。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络,以生成和应用所选择的修改。也就是说,一旦选择了修改图标,用户就可以捕获图像或视频流并且实时或近乎实时地呈现修改结果。此外,当正在捕获视频流时,修改可以是持久的,并且所选择的修改图标保持被切换。机器学习的神经网络可以用于实现此类修改。
呈现由变换系统执行的修改的图形用户接口可以为用户提供附加的交互选项。这样的选项可以基于用于发起特定计算机动画模型的内容捕获和选择的接口(例如,从内容创建者用户接口发起)。在各种实施方式中,修改可以在对修改图标的初始选择之后是持久化。用户可以通过轻击或以其他方式选择由变换系统修改的面部来打开或关闭修改,并将其存储以供以后查看或浏览到成像应用的其他区域。在由变换系统修改多个面部的情况下,用户可以通过轻击或选择在图形用户界面内修改和显示的单个面部来全局打开或关闭修改。在一些实施方式中,可以单独地修改一组多个面部之中的各个面部,或者可以通过轻击或选择图形用户接口内显示的单独的面部或一系列单独的面部来单独切换这样的修改。
故事表312存储关于消息和相关联的图像、视频或音频数据的集合的数据,所述消息和相关联的图像、视频或音频数据被汇编成集合(例如,故事或库)。特定集合的创建可以由特定用户(例如,其记录被维护在实体表304中的每个用户)发起。用户可以以已经由该用户创建和发送/广播的内容集合的形式创建“个人故事”。为此,消息客户端104的用户接口可以包括用户可选择的图标,以使得发送方用户能够将特定内容添加到他或她的个人故事。
集合还可以构成作为来自多个用户的内容集合的“实况故事”,该内容集合是手动地、自动地或者使用手动技术和自动技术的组合创建的。例如,“实况故”可以构成来自各种位置和事件的用户提交内容的策划流。其客户端设备启用了定位服务并且在特定时间处于共同定位事件处的用户可以例如经由消息客户端104的用户接口被呈现有选项,以将内容贡献给特定现场故事。可以由消息客户端104基于用户的定位向他或她标识现场故事。最终结果是从社区角度讲述的“实况故事”。
另外类型的内容集合被称为“位置故事”,其使得其客户端设备102位于特定地理定位(例如,在学院或大学校园)内的用户能够对特定集合做出贡献。在一些示例中,对位置故事的贡献可能需要二级认证来验证终端用户属于特定组织或其他实体(例如,是大学校园中的学生)。
如上面提到的,视频表314存储视频数据,在一个示例中,该视频数据与其记录保存在消息表302内的消息相关联。类似地,图像表316存储图像数据,该图像数据与其消息数据存储在实体表304中的消息相关联。实体表304可以使来自增强表310的各种增强与存储在图像表316和视频表314中的各种图像和视频相关联。
数据通信架构
图4是示出根据一些示例的消息400的结构的示意图,消息400由消息客户端104生成,以用于传送至另外的消息客户端104或消息服务器114。特定消息400的内容用于填充存储在数据库120中的消息表302,该消息表302可由消息服务器114访问。类似地,消息400的内容被存储在存储器中作为客户端设备102或应用服务器112的“传输中”或“飞行中”的数据。消息400被示为包括以下示例组成部分
·消息标识符402:识别消息400的唯一标识符。
·消息文本有效载荷404:要由用户经由客户端设备102的用户接口生成并且包括在消息400中的文本。
·消息图像有效载荷406:由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器部件检索到的、并且包括在消息400中的图像数据。用于发送或接收的消息400的图像数据可以被存储在图像表316中。
·消息视频有效载荷408:由摄像装置部件捕获的或从客户端设备102的存储器部件检索到的、并且包括在消息400中的视频数据。用于发送或接收的消息400的视频数据可以被存储在视频表314中。
·消息音频有效载荷410:由麦克风捕获的或从客户端设备102的存储器部件检索到的、并且包括在消息400中的音频数据。
·消息增强数据412:表示要应用于消息400的消息图像有效载荷406、消息视频有效载荷408或消息音频有效载荷410的增强的增强数据(例如,过滤器、贴纸或其他注解或增强)。用于发送或接收的消息400的增强数据可以被存储在增强表310中。
·消息持续时间参数414:参数值,其指示消息的内容(例如,消息图像有效载荷406、消息视频有效载荷408、消息音频有效载荷410)将经由消息客户端104被呈现给用户或使其对于用户可访问的以秒为单位的时间量。
·消息地理定位参数416:与消息的内容有效载荷相关联的地理定位数据(例如,纬度和经度坐标)。在有效载荷中可以包括多个消息地理定位参数416值,其中这些参数值中的每一个都与包括在内容中的内容项(例如,消息图像有效载荷406内的特定图像,或消息视频有效载荷408中的特定视频)相关联。
·消息故事标识符418:标识一个或更多个内容集合(例如,在故事表312中标识的“故事”)的标识符值,通过其将消息400的消息图像有效载荷406中的特定内容项与一个或更多个内容集合相关联。例如,可以使用标识符值将消息图像有效载荷406内的多个图像各自与多个内容集合相关联。
·消息标签420:每个消息400可以用多个标签来标记,这些标签中的每个标签都指示消息有效载荷中包括的内容的主题。例如,在消息图像有效载荷406中包括的特定图像描绘动物(例如狮子)的情况下,标签值可以包括在指示相关动物的消息标签420中。标签值可以基于用户输入手动地生成,或可以使用例如图像识别自动地生成。
·消息发送者标识符422:指示在其上生成消息400并且从其发送消息400的客户端设备102的用户的标识符(例如,消息系统标识符、电子邮件地址或设备标识符)。
·消息接收者标识符424:指示消息400寻址到的客户端设备102的用户的标识符(例如,消息系统标识符、电子邮件地址或设备标识符)。
消息400的各个组成部分的内容(例如,值)可以是指向在其存储器储内容数据值的表中的位置的指针。例如,消息图像有效载荷406中的图像值可以是指向图像表316内的位置(或位置的地址)的指针。类似地,消息视频有效载荷408内的值可以指向存储在视频表314内的数据,存储在消息增强数据412中的值可以指向存储在增强表310中的数据,存储在消息故事标识符418中的值可以指向存储在故事表312中的数据,并且存储在消息发送者标识符422和消息接收者标识符424中的值可以指向存储在实体表304中的用户记录。
图5是示出根据示例实施方式的执行过程500时的增强系统206的示例操作的流程图。过程500可以以由一个或更多个处理器执行的计算机可读指令实现,使得过程500的操作可以部分地或全部地由消息服务器系统108的功能部件执行;因此,下面参照其通过示例的方式描述过程500。然而,在其他实施方式中,处理500的操作中的至少一些操作可以被布置在各种其他硬件配置上。因此,过程500不旨在限于消息服务器系统108并且可以全部地或部分地由任何其他部件实现。过程500中的操作可以以任何顺序执行、并行地执行,或者可以完全跳过和省略。
在操作501处,增强系统206访问描绘目标结构的源图像。例如,增强系统206接收来自客户端设备102的摄像装置的现场或实时摄像装置馈送。作为另一示例,增强系统206从因特网或其他本地或远程源中检索先前捕获的结构或界标的图像。增强系统206选择所接收到的图像中的描绘感兴趣的结构的第一图像,作为源图像。在一些情况下,增强系统206通过处理图像集合并识别哪个图像对感兴趣的结构具有最高的可见度来选择源图像。
作为示例,增强系统206生成目标结构的3D坐标框架。也就是说,增强系统206选择结构的区域并生成该区域的一组3D坐标(世界坐标)。增强系统206针对作为深度图的图像的集合计算3D坐标框架的可见度,并基于计算的可见度选择集合中的图像之一作为源图像。在一些实施方式中,增强系统206计算与3D坐标框架对应的具有特定间隔的像素网格。例如,增强系统206将3D坐标框架投影到图像集合中的每个图像,以识别每个图像中的与3D坐标框架对应的一组像素。也就是说,增强系统206识别每个图像中的与结构的区域的3D坐标对应的像素坐标。增强系统206对与像素网格(grid)相关联的图像集合进行采样,以生成矩阵,在该矩阵中矩阵的每列对应于图像集合中的不同图像。具体地,增强系统206获得每个图像的识别的像素坐标的像素值,并将像素值存储在矩阵的相应列中。然后,增强系统206计算矩阵各列的平均值、加权平均值或鲁棒化平方和的解。增强系统206将矩阵的每个列与已计算出的平均值、加权平均值或鲁棒化的平方和的解进行比较,并在图像集合中选择对应列在值上最接近所计算的平均值、加权平均值或鲁棒化的平方和的解的图像,作为源图像。
在一些实施方式中,源帧索引由Ik表示,并且每个界标的可见度由Vk表示。这些可以在整个优化中保持固定。在选择的界标上执行泊松表面重建,并且得到的网格(mesh)被用于计算可见度。网格被渲染到作为深度图的每个视图(图像集合中的每个图像)中,并且界标被投影到视图中。它们的深度与深度图进行比较,并且相差小于1%的深度被确定为可见。为了避免选择作为光度测量异常值(outlier)(例如,由于镜面反射)的源帧,Ik被选择为其图块最接近可见、归一化图块的鲁棒平均值的帧。源帧是根据下面的式1选择的:
Figure BDA0003981153920000171
其中,Xk是3xN的世界坐标(3D坐标)矩阵,使用4x4点网格,其被间隔开使得在第K个界标周围的平面上可见视图的平均间距为1像素。从未鲁棒化的平均值开始,使用迭代加权最小二乘法来计算μ。为了确保界标仅在带纹理的图像区域中被初始化,移除
Figure BDA0003981153920000172
(假设有256个灰度级)的界标。在下面更详细地描述式1的其余函数。具体地,
Figure BDA0003981153920000173
定义了在考虑到摄像装置参数、透镜参数和传感器参数的情况下结构的3D坐标在给定图像j中的像素上的投影,并且在下面更详细地对此进行描述。在一些情况下,为了改进使光度测量优化收敛于良好的最优值,优化初始地首先在半尺寸图像上运行,随后是以全尺寸图像运行。
在操作502处,增强系统206访问描绘目标结构的至少一部分的一个或更多个目标图像。例如,在识别给定的源图像之后,选择描绘相同结构的目标图像(例如,该结构的不同视图)。目标图像可以是后续在实时摄像装置馈送中的源图像之后接收到的图像帧。目标帧可以是从描绘目标结构的图像集合中选择的随机帧。
在一些实施方式中,增强系统206基于与目标结构的一部分对应的像素数量的差,对目标图像进行上采样或下采样。例如,源图像可以从比目标图像近的距离捕获目标结构的该部分。在这种情况下,源图像将比目标图像具有与目标结构的该部分对应的更多数量的像素。为了确保针对目标结构的该部分在源图像与目标图像中表示相同量的像素,增强系统206对目标图像进行上采样,以增加表示目标结构的像素数量,以匹配在源图像中表示目标结构的像素数量。在一个实施方式中,增强系统206识别源图像中的与目标结构的该部分对应的第一像素集合和目标图像中的与目标结构的该部分对应的第二像素集合。增强系统206可以使用与图像相关联的元数据来确定哪些像素对应于结构的哪部分。增强系统206计算第一像素集合中的每个像素之间的第一距离以及第二像素集合中的每个像素之间的第二距离。增强系统206基于第一距离与第二距离之间的差来选择采样参数。例如,如果第一距离大于第二距离,则增强系统206选择用于对目标图像进行上采样的值。例如,如果第一距离小于第二距离,则增强系统206选择用于对目标图像进行下采样的值。增强系统206将采样参数应用至目标图像,以对目标图像进行上采样或下采样。
在操作503处,增强系统206计算目标结构的第一部分的源图像中的第一组像素与目标结构的第一部分的一个或更多个目标图像中的第二组像素之间的对应关系,该对应关系根据在源图像与一个或更多个目标图像之间变化的摄像装置参数来计算。例如,如通过下面的式5建模的那样,增强系统206将结构的一部分或整个结构的视图投影到源图像上。也就是说,增强系统206从摄像装置位置和源图像中的结构的一部分的像素绘制射线或线,以识别源图像中的结构的该部分的对应3D世界坐标。在绘制射线或线时,增强系统206基于摄像装置的透镜参数使该线弯曲(例如,应用用于捕获源图像的摄像装置的透镜的非失真参数——像素在它们离开摄像装置的透镜时是非失真的),使得通过来自用于捕获源图像的摄像装置的视图准确地识别3D世界坐标。特别地,增强系统206将摄像装置参数、透镜参数和传感器参数应用至源图像中的像素,以确定当由用于捕获源图像的摄像装置观看时,光会如何到达结构的3D世界坐标。
接下来,使用下面的式2,增强系统206从结构的该部分的3D世界坐标朝向捕获目标图像的摄像装置绘制射线或线,以识别目标图像内的表示使用源图像识别的结构的该部分的3D世界坐标的像素。在绘制射线或线时,增强系统206基于摄像装置的透镜参数将该线弯曲(例如,应用用于捕获目标图像的摄像装置的透镜的失真参数——通过摄像装置的透镜使3D坐标失真以生成目标图像的像素),使得通过来自用于捕获目标图像的摄像装置的视图准确地表示3D世界坐标。特别地,增强系统206将摄像装置参数、透镜参数和传感器参数应用至3D世界坐标,以确定在通过用于捕获目标图像的摄像装置观看时,光会如何到达结构的3D世界坐标,以识别目标图像中的与结构的3D世界坐标对应的像素。
一组摄像装置参数定义了世界坐标中的3D点
Figure BDA0003981153920000191
在像素坐标中的图像平面上的投影。第一组摄像装置参数包括由以下组成的摄像装置外参:每个图像一对的P旋转和平移即
Figure BDA0003981153920000192
Figure BDA0003981153920000193
第二组摄像装置参数包括由以下组成的摄像装置内参:每个摄像装置一对的C传感器和透镜校准参数即
Figure BDA0003981153920000194
其中C<=P。当C小于P时,跨输入图像共享一些摄像装置内参。在这样的情况下,可能需要从图像i映射到摄像装置j的索引作为输入。3D结构位置到摄像装置视图的投影由下面的式2定义:
Figure BDA0003981153920000195
其中,
Figure BDA0003981153920000196
是投影函数:
Figure BDA0003981153920000197
是透镜失真函
数,并且
Figure BDA0003981153920000198
是由下面的式3定义的传感器校准函数:
Figure BDA0003981153920000199
对于要应用以识别与3D结构坐标对应的像素坐标(例如,通过使来自3D坐标的光穿过透镜以生成目标图像像素来识别光线如何弯曲)的透镜失真,使用如下面的式4所定义的标准多项式径向失真模型:
Figure BDA0003981153920000201
其中,r=||X||2
式4
在一些实现方式中,对于世界到摄像装置的失真,n=2并且[l1,l2]=lj
为了基于源图像像素坐标识别结构的三维坐标(摄像装置到世界的变换),可以使用具有表示逆变换
Figure BDA0003981153920000202
的一组不同的多项式系数的相同模型。也就是说,可以将式4的逆应用至源图像,以确定从图像穿过摄像装置透镜产生的非失真结果,以将感兴趣的结构的源图像像素坐标映射到结构的对应3D坐标。使用给定的透镜失真公式的一组预定系数以闭合形式计算非失真系数
Figure BDA0003981153920000203
在Pierre Drap和Julien Lefèvre的“An exact formula for calculating inverse radial lens distortions,”Sensors期刊,16(6):807,2016年中更详细地讨论了示例透镜失真公式,其全部内容通过引用并入本文中。
使用了基于射线的结构参数设定,其中每个界标被锚定至输入图像中的像素。由于图像纹理是围绕这样的点进行比较的,因此可以避免关于表面法线进行假设,而是明确地对表面法线建模。这使得计算3D模型法线不变。每个界标包括给定的(固定的)像素位置x、源帧索引i以及可变的表面平面参数设定
Figure BDA0003981153920000204
在一些情况下,Martin Habbecke和Leif Kobbelt的“Iterative multi-view plane fitting,”In Int.视觉、建模和可视化秋季研讨会,第73至80页,2006年(其全部内容通过引用被并入),用于根据下面的式5来计算界标(感兴趣的结构)的3D或世界坐标:
Figure BDA0003981153920000211
其中,
Figure BDA0003981153920000212
其中,X是世界坐标,并且x是该结构的图像中的像素坐标。可以通过将式5代入式2来实现从第i帧到第j帧的像素到像素的对应关系X->X’,这可以用下面式6定义的函数来表示(对于N个图像坐标):
Figure BDA0003981153920000213
i、j和k分别表示源帧索引、目标帧索引和界标索引,并且
Figure BDA0003981153920000214
指示要优化的变量和所有问题参数的集合。L是界标的数量。具体地,
Figure BDA0003981153920000215
是被求解以生成结构的3D模型的优化问题。
求解优化问题的每个优化迭代(阶段)计算参数更新δΘ。除了旋转之外,大多数参数使欧几里得空间最小地参数化,并且因此被相加地更新(例如,nk←nk+δnk)。对于旋转,更新被参数化(最小地)为Ri←RiΩ(δri),其中,Ω(·)是用于将3矢量转换成旋转矩阵的罗德里格斯公式。在一些情况下,旋转的导数
Figure BDA0003981153920000216
可以意味着更新的导数
Figure BDA0003981153920000217
一般地,参数的更新被表示为
Figure BDA0003981153920000218
增强系统206确定或计算源图像中的像素与目标图像中的识别的像素之间的差。基于该差,增强系统206求解用于生成目标结构的3D模型的优化问题。也就是说,优化问题是基于以下成本函数来求解的,该成本函数被定义为源图像中的像素与目标图像中的识别的像素之间的差。具体地,参数化提供了经由场景几何形状和摄像装置位置和内参从一个图像中的像素到另一个图像中的像素的映射。成本测量两组像素之间的差。为了确保成本对于局部照明变化以及意外遮挡是不变的,使用了鲁棒的、局部归一化的、最小二乘NCC成本。在2019年6月28日提交的共同拥有的美国专利申请第16/457,607号中更详细地讨论了NCC,该美国专利申请的全部内容通过引用并入本文中。
对于锚定在图像
Figure BDA0003981153920000221
(其中使用灰度图像)中的每个界标(以k为索引),定义了以界标为中心的4x4的像素图块,其中i=Ik是第k个界标的源图像索引。这被称为结构或界标的一部分。一组图像坐标由
Figure BDA0003981153920000222
定义。该界标被认为在输入帧的子集中是可见的,该输入帧子集的索引集由Vk指示。所有界标和图像的成本由下面的式7定义:
Figure BDA0003981153920000223
Figure BDA0003981153920000224
Figure BDA0003981153920000225
其中,标记
Figure BDA0003981153920000226
指示经由双线性插值采样,并且1表示其矢量。鲁棒吉曼-麦克卢尔核ρ在τ=0.5的情况下将成本进行鲁棒化,但是可以使用任何其他合适的值或函数。具体地,ρ可以是向下加权更极端的测量的任何鲁棒化函数。在Vk中,源帧Ik可以被忽略,因为根据定义它没有贡献误差。在式7中,
Figure BDA0003981153920000227
定义了归一化像素以考虑照明差异的函数,使误差或差计算照明不变。式7在所有指定的结构部分上累积来自源图像的像素到给定的一组目标图像中的对应像素的投影之间的差。具体地,Pk是针对结构的给定部分k的源图像i中的一组像素坐标。
Figure BDA0003981153920000231
提供了从源图像到目标图像j的像素坐标的映射。归一化函数Ψ被应用于源图像中的该组像素坐标和目标图像中的对应像素坐标,并且计算差εjk。对一组目标图像中的每个目标图像和源图像中识别的每个结构部分k继续进行迭代(阶段)。总和被输出为成本函数E(Θ),其用于在每次迭代时更新优化问题的参数。优化问题参数继续被更新,直到误差被减少或最小化到指定的阈值,或者直到完成指定的迭代次数。在每次更新时,针对相同或不同组的目标图像计算新的成本函数之和。
在操作504处,增强系统206基于目标结构和摄像装置参数的联合优化,基于源图像中的第一组像素与一个或更多个目标图像中的第二组像素之间的对应关系,生成目标结构的三维(3D)模型。
如以上提及的,式7定义了鲁棒化的非线性最小二乘成本,对于该成本,存在许多优化问题求解器。这些求解器通常涉及计算相对于优化变量的残余误差的偏导数(已知为雅可比行列式(Jacobian)
Figure BDA0003981153920000232
)。这样的求解器的标准实现对整个雅可比行列式进行缓存,整个雅可比行列式不可行地大,使得处理优化问题效率低下或需要大量的存储资源。在一些较大的优化问题中,雅可比行列式可能根本无法装配进入内存中,使得这样的问题求解起来具有挑战性。根据一些实施方式,在每次迭代或更新时仅存储和维护雅可比行列式的一个实例,从而显著地减少了存储资源的量,并且提高了设备的整体效率。具体地,所公开的优化问题具有与标准SfM公式共同的特定结构。在没有表面正则化的情况下,界标是相互独立的。可变投影(VarPro)算法(下面结合算法1讨论的)使用舒尔补(Schurcomplement),以允许所公开的实施方式构建和求解小型的缩小摄像装置系统(RCS)问题,并且然后使用嵌入式点迭代(EPI)来求解该结构。这使摄像装置参数更新与结构参数更新解耦,以减少被存储的数据量。具体地,RCS涉及排除结构变量的所有问题变量的集合,其被表示为
Figure BDA0003981153920000241
根据下面的式8,使用列文伯格式阻尼来构建和求解RCS:
Figure BDA0003981153920000242
Figure BDA0003981153920000243
Figure BDA0003981153920000244
Figure BDA0003981153920000245
其中,J+=(JTJ)-1JT表示矩阵的伪逆,并且λ是阻尼参数。Hrcs和grcs两者可以一次累积一个界标。Hrcs是若干摄像装置参数(摄像装置的运动(R和t)、摄像装置传感器和焦距、透镜参数)的维度的矩阵,并且grcs是若干摄像装置参数的矢量或长度。结构参数由n表示。在一些情况下,通过将所有结构参数边缘化(marginalizing out),仅在若干摄像装置参数中构建线性系统。该算法对在摄像装置移动的情况下结构如何移动进行建模。
这使得所公开的技术能够通过在界标上循环并在循环中使其边缘化来实现RCS的低内存计算。在摄像装置参数更新之后,运行EPI,直到使用高斯-牛顿更新在每个界标上独立地收敛:
Figure BDA0003981153920000246
(式9)。将雅可比行列式参数总计到RCS和EPI中使得优化问题求解器能够一次仅对一个界标的雅可比行列式进行操作,这避免了在任何一个时间或迭代时存储与多于一个界标相关联的雅可比行列式的需要,从而节省了存储器资源。
下面的算法1描述了根据所公开的式8中表示的技术进行的完整优化。如下面所示,如果当前迭代(阶段)中的误差或成本(S或E(Θ))低于前次迭代(阶段)中的误差,则使式8中的阻尼参数减小;否则,使阻尼参数增大,并且优化问题参数被设置为先前迭代值。然后,针对所有图像和界标再次尝试优化更新,以确定误差或成本是否降低。
Figure BDA0003981153920000252
所公开的实施方式实现了一种用于3D重建任务的新工具,用于使用一组实时或先前捕获的图像来生成结构的3D模型。使用对于局部照明变化鲁棒的光度测量误差来联合地细化结构和摄像装置参数提供了生成结构的3D模型的改进方式。这使得重建的度量准确度的显著增加。
根据所公开的实施方式,增强系统206在三维模型重建技术中使用NCC最小二乘优化根据图像来生成3D模型,所述三维模型重建技术例如是SfM(来自运动的结构,根据一组图像联合地计算摄像装置位置和稀疏几何形状的离线方法)、多视图立体影像重建(给定一组图像及其摄像装置位置,生成场景的密集几何形状的离线方法)、SLAM(同时定位和映射,一种在线系统,其在视频的每个连续帧被捕捉时实时地联合计算视频的每个连续帧的摄像装置位置、以及场景几何形状的稀疏估计)等。在这些示例实施方式中,增强系统206(在服务器或用户设备上进行操作)可以用任何一种构建方法实现NCC最小二乘方案,并且附加地,可以使用以上方法的输出来跟踪对象。例如,增强系统206可以在SLAM方法内实现NCC最小二乘,以在用户的移动设备(例如,客户端设备102)上重建未知场景/对象,并且增强系统206可以实现NCC最小二乘以跟踪相对于场景/对象的摄像装置位置。
建筑物是图像特征的示例,其可以被上传至数据库,以使用增强系统206创建3D模型。例如,假设建筑物是一般的城市建筑物,并且不存在该建筑物的3D模型。常规地,为该建筑物创建3D模型可能并不实际,因为这会需要对该建筑物进行仔细测量和现实世界分析。然而,增强系统206可以实现最小二乘NCC方案,以将不同用户图像中的建筑物的点进行关联,以生成建筑物的3D重建模型。然后,该3D模型数据可以被发送至客户端设备以进行处理。例如,建筑物的3D模型可以叠加在图像中的建筑物上(例如,在不同的用户接口层中),并且图像效果可以应用于3D模型,以创建增强现实体验。例如,爆炸效果可以应用于建筑物的3D模型,或者可以在3D模型上重新映射和放大图像数据的像素,以使得在通过实时视频观看时建筑物在尺寸上明显地增大。在一些示例实施方式中,3D模型数据除了用于识别、跟踪或对准图像中的建筑物外,还用于增强现实效果。例如,可以根据建筑物的3D模型,生成2D呈现,并且2D呈现可以与实时视频的帧进行比较,以确定实时视频描绘与2D呈现的建筑物相似或完全匹配的特征。以上讨论的最小二乘NCC方法的一个益处是,增强系统206可以在客户端设备102上有效地应用最小二乘NCC,以在客户端设备102上生成3D模型数据,而无需服务器支持。
机器架构
图6是机器600的图解表示,在机器600中,可以执行用于使机器1100执行本文中讨论的任何一个或更多个方法的指令608(例如,软件、程序、应用、小程序、app或其他可执行代码)。例如,指令608可以使机器600执行本文所描述的方法中的任何一种或更多种。指令608将通用的非编程的机器600转换成被编程成以所描述的方式执行所描述和所示出的功能的特定机器600。机器600可以作为独立设备操作或者可以耦接(例如,联网)到其他机器。在联网的部署中,机器600可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份进行操作,或者在对等(或分布式)网络环境中作为对等机器进行操作。机器600可以包括但不限于:服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能电器)、其他智能设备、web装置、网络路由器、网络交换机、网络桥接器或者能够顺序地或以其他方式执行指定要由机器600采取的动作的指令608的任何机器。此外,虽然仅示出了单个机器600,但是术语“机器”还应被视为包括单独或联合执行指令608以执行本文中讨论的方法中的任一个或更多个方法的机器的集合。例如,机器600可以包括客户端设备102或者形成消息服务器系统108的一部分的若干个服务器设备中的任何一个。在一些示例中,机器600还可以包括客户端和服务器系统二者,其中在服务器侧执行特定方法或算法的某些操作,并且在客户端侧执行特定方法或算法的某些操作。
机器600可以包括可以被配置成经由总线640彼此通信的处理器602、存储器604和输入/输出(I/O)部件638。在示例中,处理器602(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令608的处理器606和处理器610。术语“处理器”旨在包括多核处理器,该多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时被称为“核”)。虽然图6示出了多处理器602,但是机器600可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器或者其任何组合。
存储器604包括主存储器612、静态存储器614和存储单元616,其均可以由处理器602经由总线640访问。主存储器604、静态存储器614和存储单元616存储体现本文中描述的方法或功能中的任何一种或更多种的指令608。指令608在由机器600执行期间还可以完全地或部分地驻留在主存储器612内、静态存储器614内、存储单元616内的机器可读介质618内、处理器602中的至少一个内(例如,在处理器的高速缓冲存储器内)或其任何合适的组合内。
I/O部件638可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种部件。包括在特定机器中的特定I/O部件638将取决于机器的类型。例如,诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构,而无头服务器机器将不太可能包括这样的触摸输入设备。将理解的是,I/O组件638可以包括图6中未示出的许多其他部件。在各种示例中,I/O部件638可以包括用户输出部件624和用户输入部件626。用户输出部件624可以包括视觉部件(例如,诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学部件(例如,扬声器)、触觉部件(例如,振动马达、阻力机构)、其他信号生成器等。用户输入部件626可以包括字母数字输入部件(例如,键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于点的输入部件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向仪器)、触觉输入部件(例如,物理按钮、提供触摸或触摸姿势的位置和力的触摸屏、或其他触觉输入部件)、音频输入部件(例如,麦克风)等。
在其他示例中,I/O部件638可以包括生物计量部件628、运动部件630、环境部件632、或位置部件634以及广泛的一系列其他部件。例如,生物计量部件628包括用于检测表达(例如,手表达、面部表达、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别人(例如,语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件630包括加速度传感器部件(例如,加速度计)、重力传感器部件、旋转传感器部件(例如,陀螺仪)。
环境部件632包括例如:一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如,光度计)、温度传感器部件(例如,检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如,气压计)、声学传感器部件(例如,检测背景噪声的一个或更多个麦克风)、接近度传感器部件(例如,检测附近对象的红外传感器)、气体传感器(例如,为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。
关于摄像装置,客户端设备102可以具有摄像装置系统,该摄像装置系统包括例如客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如,“自拍”),然后可以用上述增强数据(例如,过滤器)对该静止图像和视频进行增强。例如,后置摄像装置可以用于以更传统的摄像装置模式捕获静止图像和视频,这些图像类似地使用增强数据进行增强。除了前置和后置摄像装置之外,客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。
此外,客户端设备102的摄像装置系统可以包括双后置摄像装置(例如,主摄像装置以及深度感应摄像装置),或者甚至在客户端设备102的前后侧上包括三重、四重或五重后置摄像装置配置。例如,这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。
位置部件634包括定位传感器部件(例如,GPS接收器部件)、海拔传感器部件(例如,检测气压的高度计或气压计,根据该气压可以得到海拔)、取向传感器部件(例如,磁力计)等。
可以使用各种各样的技术来实施通信。I/O部件638还包括通信部件636,通信部件1336可操作以经由相应的耦接或连接将机器600耦接至网络620或设备622。例如,通信部件636可以包括网络接口部件或另一合适的设备以与网络620接口。在另外的示例中,通信部件636可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、
Figure BDA0003981153920000291
部件(例如,
Figure BDA0003981153920000292
低功耗)、
Figure BDA0003981153920000293
部件以及经由其他模态提供通信的其他通信部件。设备622可以是其他机器或各种外围设备中的任何外围设备(例如,经由USB耦接的外围设备)。
此外,通信部件636可以检测标识符或包括可操作以检测标识符的部件。例如,通信部件636可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如,用于检测诸如通用产品代码(UPC)条形码的一维条形码、诸如快速响应(QR)码、Aztec码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(UltraCode)、UCC RSS-2D条形码的多维条形码和其他光学码的光学传感器)或声学检测部件(例如,用于识别标记的音频信号的麦克风)。另外,可以经由通信部件636得出各种信息,例如经由因特网协议(IP)地理定位的位置、经由
Figure BDA0003981153920000301
信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置等。
各种存储器(例如,主存储器612、静态存储器614以及处理器602的存储器)以及存储单元616可以存储由本文中描述的方法或功能中的任何一个或更多个实现或使用的指令和数据结构(例如,软件)中的一组或更多组。这些指令(例如,指令608)在由处理器602执行时使各种操作实现所公开的示例。
可以经由网络接口设备(例如,通信部件636中包括的网络接口部件),使用传输介质并且使用若干公知的传输协议中的任意一种传输协议(例如,超文本传输协议(HTTP)),通过网络620来发送或接收指令608。类似地,可以使用传输介质经由到设备622的耦接(例如,对等耦接)来发送或接收指令608。
软件架构
图7是示出软件架构704的框图700,该软件架构604可以安装在本文所描述的任何一个或更多个设备上。软件架构704由硬件例如包括处理器720、存储器726和I/O部件738的机器702支持。在该示例中,软件架构704可以被概念化为层的堆栈,在该层的堆栈中,每个层提供特定的功能。软件架构704包括下述层,例如操作系统712、库710、框架708和应用706。在操作上,应用706通过软件堆栈来激活API调用750并响应于API调用750来接收消息752。
操作系统712管理硬件资源并提供公共服务。操作系统712包括例如内核714、服务716和驱动器722。内核714充当硬件层与其他软件层之间的抽象层。例如,内核714提供存储器管理、处理器管理(例如,调度)、部件管理、网络和安全设置以及其他功能。服务716可以为其他软件层提供其他公共服务。驱动器722负责控制底层硬件或与底层硬件接口。例如,驱动器722可以包括显示驱动器、摄像装置驱动器、
Figure BDA0003981153920000311
Figure BDA0003981153920000312
低功耗驱动器、闪存驱动器、串行通信驱动器(例如,USB驱动器)、
Figure BDA0003981153920000313
驱动器、音频驱动器、电源管理驱动器等。
库710提供由应用706使用的公共低级基础设施。库710可以包括系统库718(例如,C标准库),系统库718提供诸如存储器分配功能、字符串操纵功能、数学功能等功能。此外,库710可以包括API库724,例如媒体库(例如,用于支持各种媒体格式的呈现和操作的库,所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如,用于在显示器上的图形内容中以二维(2D)和三维(3D)进行呈现的OpenGL框架)、数据库库(例如,提供各种关系数据库功能的SQLite)、web库(例如,提供网页浏览功能的WebKit)等。库710还可以包括多种其他库728,以向应用706提供许多其他API。
框架708提供由应用706使用的公共高级基础设施。例如,框架708提供各种图形用户界面(GUI)功能、高级资源管理以及高级位置服务。框架708可以提供可由应用706使用的广泛的其他API,其中的一些API可以专用于特定的操作系统或平台。
在示例中,应用706可以包括家庭应用736、联系人应用730、浏览器应用732、书籍阅读器应用734、位置应用742、媒体应用744、消息应用746、游戏应用748和诸如第三方应用740的各种各样的其他应用。应用706是执行程序中定义的功能的程序。可以使用各种编程语言来创建以各种方式构造的应用706中的一个或更多个,所述编程语言例如面向对象的编程语言(例如,Objective-C、Java或C++)或过程编程语言(例如C或汇编语言)。在特定示例中,第三方应用740(例如,由特定平台的供应商以外的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用)可以是在诸如IOSTM、ANDROIDTM
Figure BDA0003981153920000314
Phone的移动操作系统或其他移动操作系统上运行的移动软件。在该示例中,第三方应用740可以调用由操作系统712提供的API调用750以有助于本文中描述的功能。
术语表
“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括数字或模拟通信信号或其他无形介质以便于这些指令的通信。可以使用传输介质经由网络接口设备来通过网络发送或接收指令。
“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。
“通信网络”是指网络的一个或更多个部分,该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、
Figure BDA0003981153920000321
网络、其他类型的网络或者两个或更多个这样的网络的组合。例如,网络或网络的一部分可以包括无线网络或蜂窝网络,并且耦接可以是码分多址(CDMA)连接、全局移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中,耦接可以实现各种类型的数据传输技术中的任何数据传输技术,例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、增强数据速率的GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。
“部件”是指具有以下边界的设备、物理实体或逻辑,该边界由功能或子例程调用、分支点、API或者对特定处理或控制功能提供分区或模块化的其他技术定义。部件可以经由其接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元,并且可以是通常执行相关功能中的特定功能的程序的一部分。
部件可以构成软件组件(例如,体现在机器可读介质上的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元,并且可以以某种物理方式来配置或布置。在各种示例实施方式中,可以通过软件(例如,应用或应用部分)将一个或更多个计算机系统(例如,独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件部件(例如,处理器或处理器组)配置为用于执行本文中描述的某些操作的硬件部件。
也可以机械地、电子地或以其任何合适的组合来实现硬件部件。例如,硬件部件可以包括被永久地配置成执行某些操作的专用电路系统或逻辑。硬件部件可以是例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的专用处理器。硬件部件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路系统。例如,硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置,硬件部件就变成被独特地定制成执行所配置的功能的特定机器(或机器的特定组件),而不再是通用处理器。将理解,可以出于成本和时间考虑来决定机械地、在专用且永久配置的电路中还是在临时配置(例如,由软件配置)的电路中实现硬件部件。相应地,短语“硬件部件”(或者“硬件实现的组件”)应当被理解成包含有形实体,即被物理构造、永久配置(例如,硬连线)或临时配置(例如,编程)成以某种方式操作或者执行本文中描述的某些操作的实体。
考虑硬件部件被临时配置(例如,被编程)的实施方式,无需在任一时刻对硬件部件中的每个硬件部件进行配置或实例化。例如,在硬件部件包括通过软件配置成变成专用处理器的通用处理器的情况下,该通用处理器可以在不同时间处分别被配置为不同的专用处理器(例如,包括不同的硬件部件)。软件相应地配置一个或多个特定处理器以例如在一个时刻处构成特定硬件部件,并且在不同的时刻处构成不同的硬件部件。
硬件部件可以向其他硬件部件提供信息以及从其他硬件部件接收信息。因此,所描述的硬件部件可以被认为通信地耦接。在同时存在多个硬件部件的情况下,可以通过在两个或更多个硬件部件之间或之中(例如,通过适当的电路和总线)的信号传输来实现通信。在其中多个硬件部件在不同时间处被配置或被实例化的实施方式中,可以例如通过将信息存储在多个硬件部件访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如,一个硬件部件可以执行操作,并且将该操作的输出存储在其通信地耦接到的存储器设备中。然后,其他硬件部件可以在随后的时间访问存储器设备以检索所存储的输出并对所存储的输出进行处理。硬件部件还可以发起与输入设备或输出设备的通信,并且可以对资源进行操作(例如,信息的收集)。
本文所述的示例方法的各种操作可以至少部分地由临时地被配置(例如,由软件)或永久地被配置成执行相关操作的一个或更多个处理器来执行。无论是临时地被配置还是永久地被配置,这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的组件。如本文中使用的,“处理器实现的组件”是指使用一个或更多个处理器实现的硬件部件。类似地,本文中描述的方法可以至少部分地由处理器实现,其中特定的一个或更多个处理器是硬件的示例。例如,方法的至少一些操作可以由一个或更多个处理器602或处理器实现的部件来执行。此外,所述一个或更多个处理器还可以操作成支持“云计算”环境中的相关操作的执行或者操作为“软件即服务”(SaaS)。例如,操作中的至少一些操作可以由计算机组(作为包括处理器的机器的示例)执行,其中,这些操作能够经由网络(例如,因特网)并且经由一个或更多个适当的接口(例如,API)进行访问。某些操作的执行可以分布在处理器之间,不是仅驻留在单个机器内,而是跨多个机器被部署。在一些示例实施方式中,处理器或处理器实现的组件可以位于单个地理定位中(例如,在家庭环境、办公室环境或服务器群内)。在其他示例实施方式中,处理器或处理器实现的组件可以跨若干地理定位而分布。
“计算机可读存储介质”是指机器存储介质和传输介质两者。因此,这些术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物,并且可以在本公开内容中可互换地使用。
“短暂消息”是指在时间有限的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。短暂消息的访问时间可以由消息发送者设置。替选地,访问时间可以是默认设置或者由接收方指定的设置。无论设置技术如何,消息都是暂时的。
“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如,集中式或分布式数据库,以及相关联的高速缓存和服务器)。因此,该术语应被视为包括但不限于固态存储器以及光学和磁介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括:非易失性存储器,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备;磁盘,诸如内部硬盘和可移动盘;磁光盘;以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物,并且在本公开内容中可以互换地使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质,所述载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。
“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。
“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质,并且包括数字或模拟通信信号或其他无形介质以有助于软件或数据的通信。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指使其特性中的一个或更多个特性以将信息编码在信号中的方式来设置或改变的信号。术语“传输介质”和“信号介质”指相同的事物并且可以在本公开内容中互换使用。
在不脱离本公开内容的范围的情况下,可以对所公开的实施方式进行改变和修改。这些及其他改变或修改旨在包括在所附权利要求书中所表达的本公开内容的范围内。

Claims (20)

1.一种方法,包括:
访问描绘目标结构的源图像;
访问描绘所述目标结构的至少一部分的一个或更多个目标图像;
计算所述目标结构的第一部分的所述源图像中的第一组像素与所述目标结构的第一部分的所述一个或更多个目标图像中的第二组像素之间的对应关系,所述对应关系是根据在所述源图像与所述一个或更多个目标图像之间变化的摄像装置参数来计算的;以及
基于对目标结构和摄像装置参数的联合优化,基于所述源图像中的所述第一组像素与所述一个或更多个目标图像中的所述第二组像素之间的对应关系,生成所述目标结构的三维(3D)模型。
2.根据权利要求1所述的方法,其中,所述对应关系还根据所述目标结构来计算,并且其中,计算所述对应关系包括:
识别与所述第一组像素对应的所述目标结构的第一部分的3D坐标;
通过应用与所述源图像相关联的第一组摄像装置参数,从所述第一组像素向所述3D坐标投影第一线;
通过应用与所述一个或更多个目标图像相关联的第二组摄像装置参数,从所述3D坐标向所述第二组像素投影第二线;以及
计算所述第一组像素中的每个像素与所述第二组像素中的每个像素之间的差。
3.根据权利要求1至2中任一项所述的方法,还包括:
根据所述第二组摄像装置参数和所述3D坐标来识别所述第二组像素;以及
基于所述对应关系减小光度测量误差,以生成3D模型。
4.根据权利要求1至3中任一项所述的方法,还包括:
基于所述第一组摄像装置参数,将所述第一组像素去失真,以投影所述第一线;以及
对所述第二线应用失真以将所述第二线投影到所述第二组像素。
5.根据权利要求1至4中任一项所述的方法,还包括:对所述第一组像素和所述第二组像素进行归一化。
6.根据权利要求1至5中任一项所述的方法,还包括:计算所计算的差的平方和。
7.根据权利要求1至6中任一项所述的方法,还包括:
计算所述源图像中的像素与所述目标结构上的3D点之间的像素到3D坐标的对应关系;以及
计算所述目标结构上的所述3D点与所述一个或更多个目标图像中的像素之间的3D坐标到像素的对应关系。
8.根据权利要求1至7中任一项所述的方法,其中,所述摄像装置参数包括旋转参数、平移参数、传感器参数、透镜去失真参数和透镜失真参数。
9.根据权利要求1至8中任一项所述的方法,还包括:
定义包括多个结构参数和所述摄像装置参数的优化问题,所述优化问题是照明不变和表面法线不变的;以及
使用基于所计算的对应关系的成本函数来求解所述优化问题,以生成所述3D模型。
10.根据权利要求9所述的方法,其中,求解所述优化问题包括:将摄像装置参数更新与结构参数更新解耦,以减少存储的数据量。
11.根据权利要求1至10中任一项所述的方法,其中,所述源图像和所述一个或更多个目标图像是在来自客户端设备上的摄像装置的摄像装置馈送中实时接收到的,所述方法还包括:基于所述3D模型,对所述摄像装置馈送应用一个或更多个增强现实元素。
12.根据权利要求1至11中任一项所述的方法,其中,所述源图像和所述一个或更多个目标图像是先前捕获的,并且在服务器上被离线处理。
13.根据权利要求1至12中任一项所述的方法,还包括:
将所述源图像的分辨率与所述一个或更多个目标图像的分辨率匹配。
14.根据权利要求13所述的方法,还包括:
识别所述源图像中的与所述目标结构的所述部分对应的第一像素集合;
识别所述一个或更多个目标图像中的与所述目标结构的所述部分对应的第二像素集合;
计算所述第一像素集合中的每个像素之间的第一距离和所述第二像素集合中的每个像素之间的第二距离;以及
基于所述第一距离与所述第二距离之间的差来选择采样参数。
15.根据权利要求1至14中任一项所述的方法,还包括:基于所述采样参数,对所述一个或更多个目标图像进行上采样或下采样。
16.根据权利要求1至15中任一项所述的方法,其中,访问所述源图像包括:
生成所述目标结构的3D坐标框架;
针对多个图像计算所述3D坐标框架的可见度作为深度图;以及
基于所计算的可见度,选择所述多个图像中的一个图像作为所述源图像。
17.根据权利要求16所述的方法,还包括:
计算与所述3D坐标框架对应的具有特定间隔的像素网格;
对与所述像素网格相关联的所述多个图像进行采样以生成矩阵,所述矩阵的每列对应于所述多个图像中的不同的一个图像;
计算所述矩阵的各列的平均值、加权平均值或鲁棒化平方和的解;以及
选择所述多个图像中的对应列在值上最接近所计算的平均值、所述加权平均值或所述鲁棒化平方和的解的图像,作为所述源图像。
18.根据权利要求1至17中任一项所述的方法,还包括:
在初始优化阶段中,处理在尺寸上减小的第一组图像;以及
在初始优化阶段之后,处理为全尺寸图像的第二组图像作为所述一个或更多个目标图像,以改进收敛性。
19.一种系统,包括:
处理器,被配置成执行包括以下的操作:
访问描绘目标结构的源图像;
访问描绘所述目标结构的至少一部分的一个或更多个目标图像;
计算所述目标结构的第一部分的所述源图像中的第一组像素与所述目标结构的第一部分的所述一个或更多个目标图像中的第二组像素之间的对应关系,所述对应关系是根据在所述源图像与所述一个或更多个目标图像之间变化的摄像装置参数计算的;以及
基于对目标结构和摄像装置参数的联合优化,基于所述源图像中的所述第一组像素与所述一个或更多个目标图像中的所述第二组像素之间的对应关系,生成所述目标结构的三维(3D)模型。
20.一种非暂态机器可读存储介质,所述非暂态机器可读存储介质包括指令,所述指令在由机器的一个或更多个处理器执行时使所述机器执行包括以下的操作:
访问描绘目标结构的源图像;
访问描绘所述目标结构的至少一部分的一个或更多个目标图像;
计算所述目标结构的第一部分的所述源图像中的第一组像素与所述目标结构的第一部分的所述一个或更多个目标图像中的第二组像素之间的对应关系,所述对应关系是根据在所述源图像与所述一个或更多个目标图像之间变化的摄像装置参数计算的;以及
基于对目标结构和摄像装置参数的联合优化,基于所述源图像中的所述第一组像素与所述一个或更多个目标图像中的所述第二组像素之间的对应关系,生成所述目标结构的三维(3D)模型。
CN202180041722.XA 2020-04-28 2021-04-28 基于光度测量的3d对象建模 Pending CN115769260A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/861,034 2020-04-28
US16/861,034 US11430142B2 (en) 2020-04-28 2020-04-28 Photometric-based 3D object modeling
PCT/US2021/029609 WO2021222386A1 (en) 2020-04-28 2021-04-28 Photometric-based 3d object modeling

Publications (1)

Publication Number Publication Date
CN115769260A true CN115769260A (zh) 2023-03-07

Family

ID=76035119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180041722.XA Pending CN115769260A (zh) 2020-04-28 2021-04-28 基于光度测量的3d对象建模

Country Status (5)

Country Link
US (3) US11430142B2 (zh)
EP (1) EP4143787A1 (zh)
KR (1) KR20230003132A (zh)
CN (1) CN115769260A (zh)
WO (1) WO2021222386A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220101659A (ko) * 2019-11-15 2022-07-19 스냅 인코포레이티드 표면 기반 신경 합성을 사용한 이미지 생성
US11430142B2 (en) 2020-04-28 2022-08-30 Snap Inc. Photometric-based 3D object modeling
US11360733B2 (en) 2020-09-10 2022-06-14 Snap Inc. Colocated shared augmented reality without shared backend
US20230139824A1 (en) * 2021-11-04 2023-05-04 Adobe Inc. Media content enhancement based on user feedback of multiple variations
US11949527B2 (en) 2022-04-25 2024-04-02 Snap Inc. Shared augmented reality experience in video chat

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5355422B2 (ja) * 2007-02-01 2013-11-27 イッサム・リサーチ・デヴェロップメント・カンパニー・オヴ・ザ・ヘブルー・ユニヴァーシティ・オヴ・イェルサレム ビデオの索引付けとビデオシノプシスのための、方法およびシステム
US9311746B2 (en) * 2012-05-23 2016-04-12 Glasses.Com Inc. Systems and methods for generating a 3-D model of a virtual try-on product
US8436853B1 (en) * 2012-07-20 2013-05-07 Google Inc. Methods and systems for acquiring and ranking image sets
KR20140095838A (ko) * 2013-01-25 2014-08-04 한국전자통신연구원 3차원 정보 복원 장치 및 방법
US20150243035A1 (en) * 2014-02-21 2015-08-27 Metaio Gmbh Method and device for determining a transformation between an image coordinate system and an object coordinate system associated with an object of interest
KR102085228B1 (ko) * 2014-03-27 2020-03-05 한국전자통신연구원 깊이 센서의 깊이 보정을 위한 이미지 처리방법 및 그 장치
US10284794B1 (en) * 2015-01-07 2019-05-07 Car360 Inc. Three-dimensional stabilized 360-degree composite image capture
US9613406B2 (en) * 2015-03-31 2017-04-04 Nokia Technologies Oy Method and apparatus for providing specular surface reconstruction
US10186024B2 (en) * 2015-12-29 2019-01-22 Texas Instruments Incorporated Method and system for real time structure from motion in a computer vision system
US9609197B1 (en) * 2016-08-19 2017-03-28 Intelligent Security Systems Corporation Systems and methods for dewarping images
US11199414B2 (en) * 2016-09-14 2021-12-14 Zhejiang University Method for simultaneous localization and mapping
WO2019045722A1 (en) * 2017-08-31 2019-03-07 Sony Mobile Communications Inc. METHODS, DEVICES AND COMPUTER PROGRAM PRODUCTS FOR 3D CARTOGRAPHY ESTIMATION AND 3D IMAGE POSES
KR102455632B1 (ko) * 2017-09-14 2022-10-17 삼성전자주식회사 스테레오 매칭 방법 및 장치
JP7058277B2 (ja) * 2017-09-26 2022-04-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 再構成方法および再構成装置
US10380751B1 (en) * 2017-12-12 2019-08-13 The Government Of The United States Of America, As Represented By The Secretary Of The Navy Robot vision in autonomous underwater vehicles using the color shift in underwater imaging
JP6907277B2 (ja) * 2018-08-30 2021-07-21 コグネックス・コーポレイション 歪みが低減された物体の3次元再構成を生成するための方法及び装置
US11107268B2 (en) * 2018-09-07 2021-08-31 Cognex Corporation Methods and apparatus for efficient data processing of initial correspondence assignments for three-dimensional reconstruction of an object
US11094113B2 (en) * 2019-12-04 2021-08-17 Geomni, Inc. Systems and methods for modeling structures using point clouds derived from stereoscopic image pairs
US11430142B2 (en) 2020-04-28 2022-08-30 Snap Inc. Photometric-based 3D object modeling

Also Published As

Publication number Publication date
KR20230003132A (ko) 2023-01-05
WO2021222386A1 (en) 2021-11-04
US11430142B2 (en) 2022-08-30
US20220375111A1 (en) 2022-11-24
EP4143787A1 (en) 2023-03-08
US11710248B2 (en) 2023-07-25
US20210334993A1 (en) 2021-10-28
US20230316553A1 (en) 2023-10-05

Similar Documents

Publication Publication Date Title
KR20220100920A (ko) 3d 신체 모델 생성
CN116601675A (zh) 虚拟服装试穿
US11710248B2 (en) Photometric-based 3D object modeling
US11688136B2 (en) 3D object model reconstruction from 2D images
CN116057533A (zh) 自动网站数据迁移
CN115917608A (zh) 增强现实内容项中的机器学习
CN116250014A (zh) 用于合成具有与真实图像结合的伪毛发的图像的跨域神经网络
US11836835B2 (en) Motion representations for articulated animation
CN116508062A (zh) 自适应骨骼关节平滑
CN112639876A (zh) 活动图像深度预测
US11736717B2 (en) Video compression system
CN115668888A (zh) 特色内容集合界面
US20230267687A1 (en) 3d object model reconstruction from 2d images
CN115885247A (zh) 用于启动应用的视觉搜索
US11477397B2 (en) Media content discard notification system
CN116964590A (zh) 用平均平滑使图像到图像模型压缩
US20220207786A1 (en) Flow-guided motion retargeting
US11645324B2 (en) Location-based timeline media content system
CN117136404A (zh) 从歌曲中提取伴奏的神经网络
CN116322914A (zh) 用于增强现实连续性的qr生成系统
CN116648718A (zh) 使用神经网络的照亮估计

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination