CN115713619A

CN115713619A - 用于化身登记的配饰检测和确定

Info

Publication number: CN115713619A
Application number: CN202210984206.7A
Authority: CN
Inventors: G·N·文图里尼
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2021-08-23
Filing date: 2022-08-17
Publication date: 2023-02-24
Also published as: KR20230029533A; DE102022208561A1; US20230055013A1

Abstract

本公开涉及用于化身登记的配饰检测和确定。本文公开了允许个体用户有机会创建三维(3D)化身的定制实例的设备、方法和非暂态程序存储设备(NPSD)，其中可将该化身的每个实例定制成具有可反映个体用户的外表的特定视觉特性和/或配饰。当例如在个体用户的化身登记或定制过程期间捕获到图像时，可在于该登记图像中识别的二维(2D)感兴趣对象(例如，眼镜框架)与存储在一个或多个3D模型对象库中的3D模型之间采用新颖形状匹配技术。可自动确定来自对象库的提供与该捕获图像中的所识别的2D感兴趣对象的最佳形状匹配的3D模型的排名列表和/或将其呈现给该用户以便例如经由用户界面进行选择，以用于创建和/或定制该用户的3D化身。

Description

用于化身登记的配饰检测和确定

技术领域

本公开整体涉及图像处理领域。更具体地而非限制性地，本公开涉及用于在二维(2D)图像中识别的对象(例如，个人配饰)(例如在匹配于3D化身创建或定制过程期间捕获的个体用户的登记图像中识别的感兴趣对象时)的改进的三维(3D)对象模型匹配的技术。

背景技术

如本文所用，“化身”可指虚拟环境中的设备的个体用户(或他们的第二自我)的视觉表示。化身通常采用在计算机游戏或二维(2D)图标或图片中使用的三维(3D)模型的形式。化身越来越多地在在线社交网络、游戏和/或其他在线通信中使用，通常作为用户的实际照片的替代物。

化身可提供一定程度的隐私，同时仍允许用户对他们的在线身份进行控制。作为用于自我表达的手段，许多用户可能期望期望定制他们自己的化身以显示反映用户的实际外表的物理特性。用户还可利用各种配饰诸如成衣制品、眼镜、头饰等等来定制他们的化身，这些配饰可反映用户的个体风格、时尚品味和/或现实生活外表。

发明内容

在本说明书中描述的设备、方法和NPSD中，每个个体用户可被赋予创建用户的个体化身的定制实例的机会，其中可将化身的每个实例定制成具有特定面部表情、视觉特性、身体语言和/或可反映个体用户在特定情形和情况中的外表的配饰。

由用户的化身的特定实例佩戴的配饰可选自一个或多个3D模型对象库。当捕获到图像例如可在个体用户的化身创建或定制过程期间捕获的登记图像时，可在登记图像中识别的2D感兴趣对象(例如，眼镜框架)与存储在3D模型对象库中的3D模型之间采用新颖形状匹配技术。在一些示例中，来自对象库的提供与登记图像中的所识别的2D感兴趣对象的最佳形状匹配的3D模型的排名列表可被自动确定和/或呈现给用户以例如经由用户界面进行选择，以用于创建和/或定制用户的3D化身。

因此，在第一实施方案中，公开了一种设备，该设备包括：存储器；图像捕获设备；和一个或多个处理器，该一个或多个处理器可操作地耦接到存储器，其中一个或多个处理器被配置为执行使得一个或多个处理器进行以下操作的指令：获得由图像捕获设备捕获的第一图像(例如，化身登记图像)，其中第一图像包括佩戴第一副眼镜的第一被摄者；确定第一副眼镜的第一轮廓(例如，其中眼镜在指定视图诸如前视图中取向)；获得对象库，其中对象库包括多副眼镜的第一多个3D模型；确定对象库中的多副眼镜的第一多个3D模型的第一集合中的每个3D模型的第二轮廓(例如，其中每个3D模型在指定视图中取向)，其中多副眼镜的第一多个3D模型的第一集合可包括存储在对象库中的模型的一部分，至多且包括存储在对象库中的每个模型；并且至少部分地基于第一轮廓与第一集合中的多副眼镜的3D模型中的每个3D模型的相应第二轮廓的比较来确定第一集合中的多副眼镜的3D模型中的每个3D模型的相似性得分。

在一些此类实施方案中，可至少部分地基于第一集合中的多副眼镜的3D模型的相应相似性得分来确定这些3D模型的排名列表。在其他实施方案中，可在设备的显示器上呈现第一集合中的多副眼镜的3D模型的排名列表的至少一部分，然后例如经由设备的用户界面接收对第一集合中的多副眼镜的3D模型中的第一3D模型的选择。在此类实施方案中，该设备还可呈现表示第一被摄者的化身的视图，其中化身正佩戴多副眼镜的3D模型中的所选择的第一3D模型。

在其他实施方案中，将第一轮廓与第一集合中的多副眼镜的3D模型中的每个3D模型的相应第二轮廓进行比较可包括：对齐第一轮廓和第一集合中的多副眼镜的相应3D模型的第二轮廓；然后估计第一轮廓与相应3D模型的所对齐的第二轮廓之间的区域(例如，以总像素数表示)。

在其他实施方案中，确定第一副眼镜的第一轮廓可包括：从第一图像获得第一掩蔽区域，其中第一掩蔽区域包括来自第一图像的被确定为第一副眼镜的框架的一部分的像素的指示；从第一掩蔽区域提取一组边缘像素；将该组边缘像素放置在包括多个格子的网格之上；确定位于网格的每个格子内的边缘像素的质心；然后将第一副眼镜的第一轮廓确定为关键点的排序列表，其中关键点包括网格的含有边缘像素的格子的质心，该边缘像素表示第一副眼镜的框架的外边缘。

在其他实施方案中，确定对象库中的多副眼镜的第一多个3D模型的第一集合中的每个3D模型的第二轮廓可包括：针对第一集合中的多副眼镜的每个3D模型：从如在指定视图中取向的相应3D模型中提取一组边缘像素；将该组边缘像素放置在包括多个格子的网格之上；确定位于网格的每个格子内的边缘像素的质心；然后将相应3D模型的第二轮廓确定为关键点的排序列表，其中关键点包括网格的含有边缘像素的格子的质心，该边缘像素表示一副眼镜的相应3D模型的框架的外边缘。

在又一些其他实施方案中，公开了一种设备，该设备包括：存储器；图像捕获设备；和一个或多个处理器，该一个或多个处理器可操作地耦接到存储器，其中一个或多个处理器被配置为执行使得一个或多个处理器进行以下操作的指令：获得由图像捕获设备捕获的第一图像，其中第一图像包括第一感兴趣对象；确定第一感兴趣对象的第一轮廓；获得对象库，其中对象库包括第一感兴趣对象的变体的第一多个三维(3D)模型；确定第一感兴趣对象的变体的第一多个3D模型的第一集合中的每个3D模型的第二轮廓；然后至少部分地基于第一轮廓与第一集合中的第一感兴趣对象的变体的3D模型中的每个3D模型的相应第二轮廓的比较来确定第一集合中的第一感兴趣对象的变体的3D模型中的每个3D模型的相似性得分。

在一些此类实施方案中，可至少部分地基于第一集合中的第一感兴趣对象的变体的3D模型的相应相似性得分来确定这些3D模型的排名列表。在其他实施方案中，可在设备的显示器上呈现第一集合中的第一感兴趣对象的变体的3D模型的排名列表的至少一部分，然后例如经由设备的用户界面接收对第一集合中的第一感兴趣对象的变体的3D模型中的第一3D模型的选择。在此类实施方案中，该设备还可呈现表示第一被摄者的化身的视图，其中第一感兴趣对象的变体的3D模型中的所选择的第一3D模型结合化身呈现。

本文还公开了各种NPSD实施方案。此类NPSD可被一个或多个处理器读取。指令可被存储在NPSD上，以用于使该一个或多个处理器执行本文所公开的实施方案中的任何一个实施方案。根据本文公开的设备和NPSD实施方案，本文还公开了各种图像处理方法。

附图说明

图1A示出根据一个或多个实施方案的用于登记图像中的眼镜框架匹配的示例性系统。

图1B示出根据一个或多个实施方案的用于眼镜框架的示例性边缘检测过程。

图1C示出根据一个或多个实施方案的用于眼镜框架的示例性边缘遮挡检测过程。

图2示出根据一个或多个实施方案的与登记图像中识别的对象匹配的3D模型对象的示例性排名列表。

图3A–图3D是根据各种实施方案的示出在登记图像中执行眼镜框架匹配的方法的流程图。

图4是示出根据各种实施方案的在图像中执行感兴趣对象匹配的方法的流程图。

图5是示出可编程电子计算设备的框图，在该可编程电子计算设备中可实现本文所公开的技术中的一种或多种技术。

具体实施方式

在以下描述中，为了解释的目的，阐述了很多具体细节，以便提供对本文公开的发明的彻底理解。然而，对本领域的技术人员而言显而易见的是，可以在不存在这些具体细节的情况下实践本发明。在其它情况中，结构和设备被以框图的形式示出，以便避免模糊本发明。对没有下标或后缀的数字的引用应当理解为引用对应于附图标记的所有下标和后缀情况。此外，本公开中所使用的语言已主要被选择用于可读性和指导性目的，并且可能没有被选择为划定或限定本发明的主题，并且因此可能需要诉诸于权利要求书以确定此类发明主题。在说明书中对“一个实施方案”或“实施方案”(或类似表述)的引用意指在发明之一的至少一个实施方案中包括的结合该实施方案描述的特定特征、结构或特性，并且对“一个实施方案”或“实施方案”的多次引用不应被理解为全部必然地参考相同的实施方案。

如本文所用的物理环境是指人们在没有电子设备帮助的情况下能够对其感测和/或与其交互的物理世界。物理环境可包括物理特征，诸如物理表面或物理对象。例如，物理环境对应于包括物理树木、物理建筑物和物理人的物理公园。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。相反，扩展现实(XR)环境是指人们经由电子设备感测和/或交互的完全或部分模拟的环境。例如，XR环境可包括增强现实(AR)内容、混合现实(MR)内容、虚拟现实(VR)内容等。在XR系统的情况下，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在XR系统中模拟的一个或多个虚拟对象的一个或多个特征。例如，XR系统可以检测头部移动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。又如，XR系统可以检测呈现XR环境的电子设备(例如，移动电话、平板电脑、膝上型电脑等)的移动，并且作为响应，以类似于此类视图和声音在物理环境中将如何改变的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，XR系统可响应于物理运动的表示(例如，声音命令)来调节XR环境中图形内容的特征。

有许多不同类型的电子系统使人能够感测和/或与各种XR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为设计用于放置在人的眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如，具有或不具有触觉反馈的可穿戴或手持式控制器)、智能电话、平板电脑、以及台式/膝上型计算机。头戴式系统可具有集成不透明显示器和一个或多个扬声器。另选地，头戴式系统可被配置为接受外部不透明显示器(例如，智能电话)。头戴式系统可结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一些具体实施中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置为将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

根据本文所述的一些实施方案，化身定制系统的每个用户可构造个体化化身以例如通过化身编辑环境与他或她的虚拟身份相关联。用户可针对他或她的化身选择和修改面部特征、发型、肤色、衣服、配饰等(统称为“元素”)，并且还指定他们的化身的元素中的每个元素的颜色、形状和/或风格。一旦用户已经指定了他或她的个体化身的各个方面，就可存储和调用化身定义数据以用于诸如在在线聊天会话、网络论坛、个人日志、交互式游戏、通讯簿、日历等中渲染各种虚拟环境中的化身。

个体化化身在外表和时尚方面可与其表示的用户相似。然而，在常规系统中，每个用户的化身的各种元素可能必须从虚拟对象元素的大型“库”手动选择，这在定位最接近地模仿他们在不同情形和情况中可能表现出的他们的实际面部表情、外表、身体语言和/或配饰的虚拟对象元素方面对用户可能是冗长的和/或构成困难。尽管用户还可选择通用(或甚至随机生成的)元素以定制他们的化身，但此类通用和/或随机生成的元素可能无法准确地以每个用户的外表、风格和/或优选配饰反映个性。

因此，需要设备、方法和非暂态程序存储设备(NPSD)以在确定特定3D对象模型以建议用于在用户的3D化身的创建和/或定制期间使用时向用户提供如在用户的2D登记图像中所识别的感兴趣对象(例如，眼镜框架)的更加智能和自动化匹配。

用于捕获图像中的眼镜框架匹配的示例性系统

现在转向图1A，示出根据一个或多个实施方案的用于登记图像中的眼镜框架匹配的示例性系统100。应注意：尽管本文所述的示例和实施方案主要在与在捕获图像中检测到的眼镜框架匹配的上下文中，但应当理解，与本文所述的那些类似的技术可类似地采用来检测和匹配在捕获图像中发现的任何类型的感兴趣对象(并且系统具有对象模型库)。示例性第一登记图像102包括佩戴第一副眼镜106的人类被摄者104。示例性第一登记图像102可例如由电子设备的图像捕获设备(例如，网络摄像头、相机等)在任何时间点捕获，该任何时间段诸如当用户正登记利用3D化身的新系统、应用程序、游戏或在线社区时，或者当用户期望针对相应系统、应用程序、游戏或在线社区更新他们的化身时。另选地，可例如从所存储的照片库使用用户的先前捕获的图像。

在一些实施方案中，可将一个或多个计算机视觉(CV)和/或其他启用机器学习(ML)的对象检测算法应用于登记图像102以便识别一个或多个感兴趣对象。在系统100的示例中，感兴趣对象是眼镜框架，并且该示例中的对象检测算法已经产生掩蔽区域108，其中掩蔽区域108中的浅色像素表示由算法确定为在登记图像102中识别的第一副眼镜的框架的一部分的像素。当然，在其他实施方案中，可产生掩蔽区域，其指示捕获图像中的被确定为任何类型的对象的一部分对于给定应用程序是感兴趣的(例如，除了一副眼镜之外的对象，诸如杯子或大杯)像素。在该示例100中，一副眼镜的面向前的视图是预期的，但感兴趣对象的其他视图也可以是可接受的，只要与其对比的3D模型对象在类似视图中取向，使得可确定3D模型对象的有效的相似性得分。

一旦被确定为第一副眼镜的框架的一部分的像素在掩蔽区域108中识别，就可针对第一副眼镜生成第一轮廓110。在一些实施方案中，可能期望创建感兴趣对象的外边缘的简单轮廓，例如，其中该轮廓包括出现在网格上的关键点的排序列表。如下文将讨论的，针对两个所对齐的形状的轮廓(即，图像中检测到的感兴趣对象的轮廓和来自对象库的感兴趣对象的候选匹配的3D模型的轮廓)创建关键点的排序列表，其中例如这些轮廓可呈Catmull-Rom样条(spline)的形式，其他类型的曲线、已连接线段等可允许更容易计算两个轮廓之间的区域大小，其中两个轮廓之间的更小区域指示两个对象之间的轮廓形状的更精确匹配。例如，在该情况下，登记图像中的感兴趣对象的2D表示将与3D模型对象库中的感兴趣对象的变体的相应3D模型的指定视图进行比较。

如将在下文参考图1B所述更详细地解释的，在一些实施方案中，确定第一副眼镜的第一轮廓的过程可包括：从第一掩蔽区域108提取一组边缘像素(例如，使用任何期望的边缘检测算法，例如，Sobel边缘检测)；将该组边缘像素放置在包括多个格子的网格之上；确定位于网格的每个格子内的边缘像素的质心(其中网格中的格子相对于表示第一副眼镜的掩蔽区域的大小的密度可例如基于给定具体实施需要的对象轮廓多么精细或粗糙来定制)；然后确定关键点(112)的排序列表，其中关键点包括网格的含有边缘像素的格子的质心，该边缘像素表示第一副眼镜的框架的外边缘。

在一些实施方案中，确定感兴趣对象的外边缘(即，与内边缘相反)可以是重要考虑因素，例如，使得仅感兴趣对象的体形与3D模型对象库中的对象的体形相匹配，而内边缘(例如，在掩蔽区域108中的眼镜框架的透镜周围识别的内边缘114)可被忽略。

例如，现在转向图1B，示出根据一个或多个实施方案的用于眼镜框架的示例性边缘检测过程。在一些此类边缘检测过程中，网格150中的格子的每一列(例如，示例性格子列140)可在特定方向上横穿，诸如从右向左跨网格横穿列，然后从上到下遍历每个单独列内的格子(例如，示例性格子144)，如图1B中的两个示例性横向方向箭头所示。当遍历单独格子列内的格子时，被发现最靠近给定格子列的顶部的第一质心像素(例如，图1B中的示例性格子列140的放大视图中的质心像素142A)(例如，示例性像素146表示位于它们的相应格子内的边缘像素的质心像素)可被视为“顶部”外边缘像素，并且被发现最靠近给定格子列的底部的最后一个质心像素(例如，图1B中的示例性格子列140的放大视图中的质心像素142D)可被视为“底部”外边缘像素。接着可忽略在给定列中识别的其他质心像素(例如，图1B中的示例性格子列140的放大视图中的质心像素142B和142C)，因为很可能代表在图像中检测到的感兴趣对象的内边缘(例如，就一副眼镜而言，镜片的轮廓)。

在一些情况下，也可在感兴趣对象轮廓确定过程中采用一个或多个其他对象特异性启发法。现在转向图1C，示出根据一个或多个实施方案的用于眼镜框架的示例性边缘遮挡检测过程160。在一些此类边缘遮挡检测过程中，如果用于给定格子列的“顶部”外边缘像素162和“底部”外边缘像素164一起比预定阈值最小距离更靠近(例如，就一副眼镜而言比鼻梁170的估计宽度更靠近)，则可判定在对象掩模已经铺设在上面的网格的给定列的顶部和/或底部边缘中的任一者中存在遮挡(例如，用户的头发覆盖他们的眼镜框架的外边缘的全部或一部分)。

在一些情况下，如果判定遮挡，则表示对象轮廓的关键点的排序列表(例如，坐标点的排序列表，围绕被确定的对象的轮廓172以顺时针或逆时针方向进行)可不仅仅识别具有判定遮挡的给定列的有效相应“顶部”外边缘像素(或“底部”外边缘像素)，然后在排序列表的方向上将先前有效顶部(或底部)关键点连接到在对象的轮廓中具有有效顶部(或底部)关键点的下一个列。应当理解，对于其中识别出有效“顶部”外边缘像素(或“底部”外边缘像素)的列(例如，在列中未检测到遮挡)，该过程可简单地以逐列方式遍历质心像素，以在那些关键点之间建立排序关系并且形成所估计的对象轮廓172。

例如，如图1C示例160所示，在网格内的连续列内的质心像素的多个所识别的“顶部”外边缘(用索引1-6标记)已经被识别为遮挡像素166(例如，由于被确定为太靠近它们的相应格子列中的对应“底部”外边缘像素)，并且因此已经在创建眼镜框架对象轮廓172时略过。在含有眼镜的图像中发生的遮挡的示例可以是用户的一些头发落在他们的前额之上并且覆盖眼镜框架的一部分。假设示例160中所示的网格中的列在识别眼镜框架对象的顶部外边缘像素时以从右向左的方式遍历，则先前有效顶部关键点(即，图1C中的顶部外边缘像素N,162_N)可简单地例如使用轮廓连接段168(该轮廓连接段可包括例如矩形线段、曲线或其他期望类型的连接)连接到在眼镜框架对象的轮廓中具有有效顶部关键点(即，图1C中的顶部外边缘像素N+1,162_N+1)的下一个列。应当理解，由于轮廓连接段168碰巧连接来自非相邻列的质心像素(即，由于遮挡像素166的存在)，因此轮廓172可不跟踪在该框架的该区域之上的眼镜框架对象的轮廓的精确形状，而是可提供对象的真实轮廓的紧密近似并且允许完成总体对象轮廓。可遵循类似的过程以在表示对象的轮廓的关键点的排序列表中识别和连接对象轮廓的“底部”外边缘像素164，包括略过被识别为具有存在于对象的底部外边缘之上的遮挡的任何列。(应当理解，在其他具体实施中，附加地或另选地，“左”外边缘像素和“右”外边缘像素的列表还可被确定并且包括在表示对象的轮廓的关键点的排序列表内的适当位置处。)

当然，如果存在太多的具有判定的遮挡166的列(和/或行)以致于无法产生感兴趣对象的足够准确的对象轮廓，则该过程可简单地退出和/或请求用户捕获具有更少遮挡的替换第一登记图像。可例如在以下情况下确定无法针对给定对象识别足够准确的对象轮廓：(1)掩蔽区域108中的总像素数低于第一阈值量(其可例如指示被摄者没有佩戴眼镜或佩戴无框架眼镜)；或(2)在眼镜的中心点(例如，由所估计的鼻梁位置170表示)右侧和左侧识别的数目或关键点之间的差大于第二阈值量(其可例如指示被摄者的面部的一侧上的遮挡，或者指示被摄者的头部在登记图像中向一侧转得太远以获得眼镜框架的期望的例如前视图)。

然而，在其他实施方案中，应当理解，匹配操作可考虑不只是感兴趣对象的外边缘，如果需要还有对象库中的3D模型的对应视图。在那些情况下，感兴趣对象的第一轮廓可含有对于给定匹配操作感兴趣的任何和所有边缘(例如，就匹配图像中识别的咖啡大杯而言，手柄内的咖啡大杯的形状也可与从对象库中找到最佳匹配的咖啡大杯3D模型相关，与咖啡大杯的外侧影正好相反)。

现在返回到图1A和3D模型对象库120，示出眼镜框架的各种3D模型。在一些实施方案中，可针对对象库中的多副眼镜的第一多个3D模型中的一者或多者的第一集合中的每个3D模型确定第二轮廓(换句话讲，不需要针对库中的每一个3D模型确定第二轮廓，例如，如果一些模型可基于大小、对象的类型、用户区域、用户性别等被过滤掉，使得仅针对库中的一组3D模型确定轮廓)。在示例100中，出于例示性目的，进一步详细地检查了标记为122的该副眼镜的3D模型。具体地，可创建用于眼镜模型122的第一模型视图124，例如，其中眼镜在指定视图中取向。在该示例中，在第一登记图像中识别的眼镜的2D表示很可能在前视图中取向，因此眼镜模型122也可在前视图中取向以用于生成第一模型视图124。

接下来，例如在类似于以上关于生成用于掩蔽区域108的第一轮廓110的轮廓生成过程之后，可针对第一模型视图124创建第二轮廓126。具体地，对于第一集合中的多副眼镜的每个3D模型，可通过以下方式针对相应3D模式生成第二轮廓：从如在指定视图中取向的相应3D模型中提取一组边缘像素；将该组边缘像素放置在包括多个格子的网格之上；确定位于网格的每个格子内的边缘像素的质心；然后确定关键点的排序列表，其中关键点包括网格的含有边缘像素的格子的质心，该边缘像素表示一副眼镜的相应3D模型的框架的外边缘。

一旦已经针对第一副眼镜确定第一轮廓并且已经针对第一集合中的一副眼镜的每个3D模型确定第二轮廓，在框128处，就可使每个相应第二轮廓与第一轮廓对齐，使得可将它们与彼此进行比较，并且可针对来自第一集合的相应3D模型确定相似性得分。在一些情况下，对齐第一轮廓和相应第二轮廓可包括：对齐包括第一轮廓的关键点和第一集合中的多副眼镜的相应3D模型的第二轮廓。对齐操作可涉及根据需要平移、旋转和/或缩放第一轮廓，使得可进行与相应第二轮廓的有效比较。在再其他情况下，可采用迭代最近点(ICP)样式算法来快速对齐两个轮廓形状。

接下来，如在框130处所示，可将所对齐的第一轮廓和第二轮廓彼此进行比较，并且可在框132处确定相似性得分。在一些具体实施中，确定两个所对齐的轮廓之间的相似性得分可包括估计第一轮廓与相应3D模型的所对齐的第二轮廓之间的区域(例如，以像素数表示)。如现在可理解的，第一轮廓与相应第二轮廓之间存在的像素数越小，相应3D模型与登记图像中用户佩戴的一副眼镜越类似。

现在转向图2，示出根据一个或多个实施方案的与登记图像中识别的对象(在该示例中是由掩蔽区域108表示的第一副眼镜)匹配的3D模型对象的示例性等级列表200。在该示例中，上文关于图1A所讨论的轮廓比较130(即，基于3D模型122在第一轮廓110与第二轮廓126之间)变得在第一轮廓与相应第二轮廓之间具有第二小的区域，并且因此一副眼镜122的对应3D模型被视为第二名3D模型。轮廓比较202(即，基于3D模型212在第一轮廓110与第二轮廓212之间)变得在第一轮廓与相应第二轮廓之间具有最小区域，并且因此一副眼镜212的对应3D模型被视为眼镜的第一名或最佳匹配的3D模型。在一些实施方案中，接着，可能基于在用户的登记图像中识别的掩蔽区域108向用户建议用于结合他们的化身包括在内的眼镜模型212。最后，示例性轮廓比较204(即，基于3D模型214在第一轮廓110与第二轮廓之间)变得在第一轮廓与相应第二轮廓之间具有第三小区域，并且因此一副眼镜214的对应3D模型被视为眼镜的第三名3D模型。

应当理解，在一些实施方案中，可将所排名的3D模型列表的全部或一部分呈现给用户以例如经由用户界面来选择。用户将没有义务选择用于与他们的化身包括的最佳匹配的3D模型，并且在一些实例中，用户可选择手动浏览3D模型对象库并且选择他们选择(或随机地)结合他们的化身包括在内的3D对象。

用于捕获图像中的眼镜框架匹配的示例性方法

图3A–图3D是根据各种实施方案的示出在捕获图像(例如，化身登记图像)中执行眼镜框架匹配的方法的流程图。首先转向图3A，方法300在框302处通过获得由图像捕获设备捕获的例如呈化身登记图像形式的第一图像而开始，其中第一图像包括佩戴第一副眼镜的第一被摄者。在一些实施方案中，方法300可确定如在第一图像中捕获的第一副眼镜中存在大于或等于阈值量的遮挡；并且如果是，则获得由图像捕获设备捕获的替换第一图像，其中替换第一图像包括佩戴第一副眼镜的第一被摄者，其中如在替换第一图像中捕获的第一副眼镜中存在小于阈值量的遮挡，并且其中第一副眼镜的第一轮廓是从在替换第一图像中捕获的第一副眼镜的表示确定的。应当理解，替换图像捕获过程可根据需要(或期望)重复，例如，直到在第一副眼镜中检测到小于阈值量的遮挡。还应当理解，在未检测到一副眼镜具有足够的置信度的图像中，方法300的剩余步骤可简单地略过和/或替换为更加手动的过程，该更加手动的过程允许用户从多副眼镜(或其他类型的感兴趣对象)的3D对象模型的库中选择他们可能想要包括在他们的化身上的任何此类3D对象模型(例如，即使用户在实际生活中并没有佩戴眼镜)。

接下来，在框304处，方法300可以确定第一副眼镜的第一轮廓(例如，其中眼镜在指定视图诸如前视图、后视图、侧视图、等距视图等中取向)。接下来，在框306处，方法300可获得对象库，其中对象库包括多副眼镜的第一多个三维模型(例如，如图1A的3D模型对象库120所示)。在框308处，方法300可确定对象库中的多副眼镜的第一多个3D模型中的一者或多者的第一集合中的每个3D模型的第二轮廓(例如，其中每个3D模型在指定视图中取向，即，在与由第一副眼镜创建的第一轮廓相同的定向视图中取向)，至多且包括对象库中的每个相关3D对象模型。

接下来，在框310处，方法300可至少部分地基于第一轮廓与第一集合中的多副眼镜的3D模型中的每个3D模型的相应第二轮廓的比较来确定第一集合中的多副眼镜的3D模型中的每个3D模型的相似性得分。在一些具体实施中，方法300还可：至少部分地基于第一集合中的多副眼镜的3D模型的相应相似性得分来确定这些3D模型的排名列表(框312)；在设备的显示器上呈现第一集合中的多副眼镜的3D模型的排名列表的至少一部分，例如，如图2所示(框314)；经由用户界面接收对第一集合中的多副眼镜的3D模型中的第一3D模型的选择(框316)；和/或在设备的显示器上呈现表示第一被摄者的化身的视图，其中化身正佩戴多副眼镜的3D模型中的所选择的第一3D模型(框318)。根据需要，用户可返回到框300(例如，以捕获从中生成和/或定制他们的化身的新图像)；框314(例如，以再次从3D模型的排名列表中查看和/或选择)；和/或方法300的过程中的其他步骤，例如，任何时候都期望对象结合他们的化身呈现的附加修改或定制。

现在转向3B，示出流程图，该流程图示出执行方法300的框310的附加细节。具体地，在框330处，将第一轮廓与第一集合中的多副眼镜的3D模型中的每个3D模型的相应第二轮廓进行比较还可包括：对齐第一轮廓和第一集合中的多副眼镜的相应3D模型的第二轮廓(例如，通过对齐相应轮廓的关键点)。步骤330处的对齐可涉及根据需要平移、旋转和/或缩放第一轮廓，使得可进行与相应第二轮廓的有效比较。接下来，在框332处，方法300可估计第一轮廓与相应3D模型的所对齐的第二轮廓之间的区域(例如，以像素数表示)。在一些实施方案中，第一轮廓与相应第二轮廓之间的区域可被划分成多个平行四边形，这些平行四边形可被划分成多对三角形，使得每对三角形的区域可有效地计算并且在第一轮廓与第二轮廓之间的整个区域上求和。如可理解的，第一轮廓与第二轮廓之间的更小区域(例如，更小数量的总像素)反映第一副眼镜与由相应第二轮廓表示的特定3D模型之间的更强形状匹配，而第一轮廓与第二轮廓之间的更大区域(例如，更大数量的总像素)反映第一副眼镜与由相应第二轮廓表示的特定3D模型之间的更差形状匹配。

现在转向3C，示出流程图，该流程图示出执行方法300的框304的附加细节。具体地，确定第一副眼镜的第一轮廓还可包括：从第一图像获得第一掩蔽区域(例如，诸如图1A所示的掩蔽区域108)，其中第一掩蔽区域包括来自第一图像的被确定为第一副眼镜的框架的一部分的像素的指示(框340)；从第一掩蔽区域中提取一组边缘像素(框342)；将该组边缘像素放置在包括多个格子的网格之上(框344)；确定位于网格的每个格子内的边缘像素的质心(框346)；并且将第一副眼镜的第一轮廓确定为关键点的排序列表，其中关键点包括网格的含有边缘像素的格子的质心，该边缘像素表示第一副眼镜的框架的外边缘(框348)。

现在转向3D，示出流程图，该流程图示出执行方法300的框308的附加细节。具体地，在框360处，确定对象库中的多副眼镜的第一多个3D模型的第一集合中的每个3D模型的第二轮廓(例如，诸如图1A所示的第二轮廓126)还可包括：针对第一集合中的多副眼镜的每个3D模型：从如在指定视图中取向的相应3D模型中提取一组边缘像素(框362)；将该组边缘像素放置在包括多个格子的网格之上(框364)；确定位于网格的每个格子内的边缘像素的质心(框366)；并且将相应3D模型的第二轮廓确定为关键点的排序列表，其中关键点包括网格的含有边缘像素的格子的质心，该边缘像素表示一副眼镜的相应3D模型的框架的外边缘(框368)。

用于捕获图像中的感兴趣对象匹配的示例性方法

现在转向图4，示出根据各种实施方案的流程图，该流程图示出执行捕获图像(例如，化身登记图像)中的感兴趣对象匹配的方法400的方法。通过获得由图像捕获设备捕获的第一图像，方法400可在框402处开始，其中第一图像包括第一感兴趣对象。如可理解的，感兴趣对象可以是捕获图像中的任何类型的可检测对象(即，除了一副眼镜之外)，并且不需要存在于捕获图像中的人类被摄者，以便执行方法400。换句话讲，可向用户呈现与捕获图像中的对象的2D表示匹配的3D对象模型以供选择，无论其是否被选择用于结合人类被摄者的化身或其他表示呈现。接下来，在框404处，方法400可确定第一感兴趣对象的第一轮廓(例如，其中感兴趣对象在指定视图中取向)。

接下来，在框406处，方法400可获得对象库，其中对象库包括第一感兴趣对象的变体的第一多个3D模型。例如，如果在特定示例中在图像中识别的感兴趣对象是咖啡大杯，则所获得的对象库可包括咖啡大杯形状和大小的多个变体，该多个变体稍后可与在图像中识别的咖啡大杯进行比较以便确定第一组咖啡大杯对象模型变体的相应相似性得分。

接下来，在框408处，方法400可确定第一感兴趣对象的变体的第一多个3D模型的第一集合中的每个3D模型的第二轮廓(例如，其中每个3D模型在指定视图中取向)。在框410处，方法400可至少部分地基于第一轮廓与第一集合中的第一感兴趣对象的变体的3D模型中的每个3D模型的相应第二轮廓的比较来确定第一集合中的第一感兴趣对象的变体的3D模型中的每个3D模型的相似性得分。例如，也可采用与以上在多副眼镜的上下文中描述的那些类似的轮廓比较和相似性得分确定技术以确定在图像中识别的任何期望的感兴趣对象与对应3D模型变体之间的相似性得分。

最后，在一些具体实施中，方法400可至少部分地基于第一集合中的第一感兴趣对象的变体的3D模型的相应相似性得分来确定这些3D模型的排名列表(框412)，和/或在设备的显示器上呈现第一集合中的第一感兴趣对象的变体的3D模型的排名列表的至少一部分(框414)。在选择呈现给用户的第一感兴趣对象的变体中的一者或多者时，并且如果需要，方法400也可例如在设备的显示器上呈现表示第一被摄者(如果需要)的化身的视图，其中该化身结合第一感兴趣对象的所选择的一个或多个变体来呈现。

应当理解，以上在图3A–图3D和图4中的流程图的上下文中描述的各种框可以不同次序执行以适合给定具体实施，并且无需以图中所示的具体次序执行。附加地，一个或多个框可任选地在一些实施方案中执行并且在其他实施方案中省略。

示例性电子计算设备

现在参见图5，示出了根据一个实施方案的例示性可编程电子计算设备500的简化的功能框图。电子设备500可为例如移动电话、个人媒体设备、便携式相机、或平板电脑、笔记本电脑或台式计算机的系统。如图所示，电子设备500可包括处理器505、显示器510、用户界面515、图形硬件520、设备传感器525(例如，接近传感器/环境光传感器、加速度计、惯性测量单元和/或陀螺仪)、麦克风530、音频编解码器535、扬声器540、通信电路545、图像捕获设备550(例如，其可包括具有不同特性或能力(例如，静止图像稳定(SIS)、HDR、OIS系统、光学变焦和数字变焦等)的多个相机单元/光学图像传感器)、视频编解码器555、存储器560、存储装置565以及通信总线570。

处理器505可执行有必要用于实施或控制由电子设备500所执行的多种功能的操作的指令(例如，诸如根据本文所述的各种实施方案的图像的生成和/或处理)。处理器505可例如驱动显示器510并且可从用户界面515接收用户输入。用户界面515可采取多种形式，诸如按钮、小键盘、拨号盘、点击轮、键盘、显示屏和/或触摸屏。用户界面515可以例如是用户可以通过其观看所捕获的视频流的导线管和/或指示用户想要捕获的特定图像帧(例如，通过在设备的显示屏上正显示所需图像帧的时刻点击物理按钮或虚拟按钮)。在一个实施方案中，显示器510可显示在处理器505和/或图形硬件520和/或图像捕获电路同时地生成视频流并且将视频流存储在存储器560和/或存储装置565中时其被捕获的视频流。处理器505可为片上系统(SOC)诸如存在于移动设备中的那些片上系统，并且可包括一个或多个专用图形处理单元(GPU)。处理器505可基于精简指令集计算机(RISC)或复杂指令集计算机(CISC)架构或任何其他合适的架构，并且可包括一个或多个处理内核。图形硬件520可以是用于处理图形并/或辅助处理器505执行计算任务的专用计算硬件。在一个实施方案中，图形硬件520可包括一个或多个可编程图形处理单元(GPU)和/或一个或多个专用SOC，例如，专门设计用于以比主设备中央处理单元(CPU)或典型的GPU更节能的方式实现神经网络和机器学习操作(例如，卷积)的SOC，诸如Apple的神经引擎处理核心。

根据本公开，图像捕获设备550可包括一个或多个相机单元，该一个或多个相机单元被配置为捕获图像，例如，可被处理以生成所述捕获图像的定制3D化身模型版本的登记图像。可至少部分地通过以下设备处理来自图像捕获设备550的输出：视频编解码器555和/或处理器505和/或图形硬件520、和/或结合在图像捕获设备550内的专用图像处理单元或图像信号处理器。这样捕获的图像可被存储在存储器560和/或存储装置565中。存储器560可包括由处理器505、图形硬件520和图像捕获设备550使用的一种或多种不同类型的介质以执行设备功能。例如，存储器560可包括存储器高速缓存、只读存储器(ROM)和/或随机存取存储器(RAM)。存储装置565可存储介质(例如，音频文件、图像文件和视频文件)、计算机程序指令或软件、偏好信息、设备配置文件信息以及任何其他合适的数据。存储装置565可包括一个或多个非暂态存储介质，该一个或多个非暂态存储介质包括例如磁盘(固定硬盘、软盘和可移动磁盘)和磁带、光学介质诸如CD-ROM和数字视频光盘(DVD)、以及半导体存储器设备诸如电可编程只读存储器(EPROM)、和电可擦除可编程只读存储器(EEPROM)。存储器560和存储装置565可包括非暂态程序存储设备，并且可用于保持被组织成一个或多个模块并且以任何期望的计算机编程语言编写的计算机程序指令或代码。例如，在由处理器505执行时，此类计算机程序代码可实现本文所述的方法或过程中的一种或多种。电源575可包括用于管理电子设备500的电子部件和相关联的电路和/或向该电子设备的电子部件和相关联的电路提供电力的可再充电电池(例如，锂离子电池等)或到电源(例如，到电源)的其他电连接。

应当理解，以上描述旨在是示例性的而非限制性的。例如，可彼此结合地使用上述实施方案。在回顾以上描述时，许多其他实施方案对于本领域的技术人员而言将是显而易见的。因此，应当参考所附权利要求以及赋予此类权利要求的等同形式的完整范围来确定本发明的范围。

Claims

1.一种设备，包括：

存储器；

图像捕获设备；以及

一个或多个处理器，所述一个或多个处理器可操作地耦接到所述存储器，其中所述一个或多个处理器被配置为执行使所述一个或多个处理器进行以下操作的指令：

获得由所述图像捕获设备捕获的第一图像，其中所述第一图像包括佩戴第一副眼镜的第一被摄者；

确定所述第一副眼镜的第一轮廓；

获得对象库，其中所述对象库包括多副眼镜的第一多个三维(3D)模型；

确定所述对象库中的多副眼镜的所述第一多个3D模型的第一集合中的每个3D模型的第二轮廓；以及

至少部分地基于所述第一轮廓与所述第一集合中的多副眼镜的所述3D模型中的每个3D模型的相应第二轮廓的比较来确定所述第一集合中的多副眼镜的所述3D模型中的每个3D模型的相似性得分。

2.根据权利要求1所述的设备，其中所述一个或多个处理器被进一步配置为执行使所述一个或多个处理器进行以下操作的指令：

至少部分地基于所述第一集合中的多副眼镜的所述3D模型的相应相似性得分来确定所述3D模型的排名列表。

3.根据权利要求2所述的设备，其中所述设备还包括显示器，并且所述一个或多个处理器被进一步配置为执行使所述一个或多个处理器进行以下操作的指令：

在所述显示器上呈现所述第一集合中的多副眼镜的所述3D模型的所述排名列表的至少一部分。

4.根据权利要求3所述的设备，其中所述设备还包括用户界面，并且所述一个或多个处理器被进一步配置为执行使所述一个或多个处理器进行以下操作的指令：

经由所述用户界面接收对所述第一集合中的多副眼镜的所述3D模型中的第一3D模型的选择；以及

在所述设备的所述显示器上呈现表示所述第一被摄者的化身的视图，其中所述化身正佩戴多副眼镜的所述3D模型中的所选择的第一3D模型。

5.根据权利要求1所述的设备，其中所述第一轮廓包括所述第一副眼镜的前视图的轮廓。

6.根据权利要求1所述的设备，其中所述第一集合中的多副眼镜的所述3D模型中的每个3D模型的所述相似性得分包括：

所述第一轮廓与所述第一集合中的多副眼镜的相应3D模型的所述第二轮廓之间的估计区域。

7.根据权利要求6所述的设备，其中用于确定所述第一集合中的多副眼镜的所述3D模型中的每个3D模型的相似性得分的所述指令还包括被配置为使所述一个或多个处理器进行以下操作的指令：

在估计所述第一轮廓与所述第一集合中的多副眼镜的所述相应3D模型的所述第二轮廓之间的区域之前，对齐所述第一轮廓和所述相应3D模型的所述第二轮廓。

8.一种非暂态程序存储设备(NPSD)，包括能够由一个或多个处理器执行以进行以下操作的计算机可读指令：

获得由图像捕获设备捕获的第一图像，其中所述第一图像包括佩戴第一副眼镜的第一被摄者；

确定所述第一副眼镜的第一轮廓；

9.根据权利要求8所述的NPSD，还包括计算机可读指令，所述计算机可读指令能够由所述一个或多个处理器执行以：

10.根据权利要求9所述的NPSD，还包括计算机可读指令，所述计算机可读指令能够由所述一个或多个处理器执行以：

在显示器上呈现所述第一集合中的多副眼镜的所述3D模型的所述排名列表的至少一部分。

11.根据权利要求10所述的NPSD，还包括计算机可读指令，所述计算机可读指令能够由所述一个或多个处理器执行以：

接收对所述第一集合中的多副眼镜的所述3D模型中的第一3D模型的选择；以及

在所述显示器上呈现表示所述第一被摄者的化身的视图，其中所述化身正佩戴多副眼镜的所述3D模型中的所选择的第一3D模型。

12.一种图像处理方法，包括：

获得由图像捕获设备捕获的第一图像，其中所述第一图像包括第一感兴趣对象；

确定所述第一感兴趣对象的第一轮廓；

获得对象库，其中所述对象库包括所述第一感兴趣对象的变体的第一多个三维(3D)模型；

确定所述第一感兴趣对象的变体的所述第一多个3D模型的第一集合中的每个3D模型的第二轮廓；以及

至少部分地基于所述第一轮廓与所述第一集合中的所述第一感兴趣对象的变体的所述3D模型中的每个3D模型的相应第二轮廓的比较来确定所述第一集合中的所述第一感兴趣对象的变体的所述3D模型中的每个3D模型的相似性得分。

13.根据权利要求12所述的方法，还包括：

至少部分地基于所述第一集合中的所述第一感兴趣对象的变体的所述3D模型的相应相似性得分来确定所述3D模型的排名列表。

14.根据权利要求13所述的方法，还包括：

在显示器上呈现所述第一集合中的所述第一感兴趣对象的变体的所述3D模型的所述排名列表的至少一部分。

15.根据权利要求12所述的方法，其中所述第一轮廓以及所述第一集合中的所述第一感兴趣对象的变体的所述3D模型的所述第二轮廓中的每个第二轮廓分别包括：所述第一感兴趣对象的指定视图的轮廓；以及所述第一感兴趣对象的所述变体的所述指定视图的轮廓。

16.根据权利要求12所述的方法，其中所述第一集合中的所述第一感兴趣对象的变体的所述3D模型中的每个3D模型的所述相似性得分包括：

所述第一轮廓与所述第一集合中的所述第一感兴趣对象的所述变体的相应3D模型的所述第二轮廓之间的估计区域。

17.根据权利要求16所述的方法，其中确定所述第一集合中的所述第一感兴趣对象的变体的所述3D模型中的每个3D模型的相似性得分还包括：

在估计所述第一轮廓与所述第一集合中的所述第一感兴趣对象的所述变体的所述相应3D模型的所述第二轮廓之间的所述区域之前，对齐所述第一轮廓和所述相应3D模型的所述第二轮廓。

18.根据权利要求12所述的方法，其中确定所述第一感兴趣对象的第一轮廓还包括：

从所述第一图像获得第一掩蔽区域，其中所述第一掩蔽区域包括来自所述第一图像的被确定为所述第一感兴趣对象的一部分的像素的指示。

19.根据权利要求18所述的方法，其中确定所述第一感兴趣对象的第一轮廓还包括：

从所述第一掩蔽区域中提取一组边缘像素；

将所述一组边缘像素放置在包括多个格子的网格之上；

确定位于所述网格的每个格子内的边缘像素的质心；以及

将所述第一感兴趣对象的所述第一轮廓确定为关键点的有序列表，其中所述关键点包括所述网格的含有边缘像素的格子的质心，所述边缘像素表示所述第一感兴趣对象的外边缘。

20.根据权利要求12所述的方法，其中确定所述对象库中的所述第一感兴趣对象的变体的所述第一多个3D模型的第一集合中的每个3D模型的第二轮廓还包括：

针对所述第一集合中的所述第一感兴趣对象的变体的每个3D模型：

从在指定视图中取向的相应3D模型中提取一组边缘像素；

将所述一组边缘像素放置在包括多个格子的网格之上；

确定位于所述网格的每个格子内的边缘像素的质心；以及

将所述相应3D模型的所述第二轮廓确定为关键点的有序列表，其中所述关键点包括所述网格的含有边缘像素的格子的质心，所述边缘像素表示所述第一感兴趣对象的变体的所述相应3D模型的外边缘。