CN111417983A - 基于事件相机的可变形对象跟踪 - Google Patents

基于事件相机的可变形对象跟踪 Download PDF

Info

Publication number
CN111417983A
CN111417983A CN201880073072.5A CN201880073072A CN111417983A CN 111417983 A CN111417983 A CN 111417983A CN 201880073072 A CN201880073072 A CN 201880073072A CN 111417983 A CN111417983 A CN 111417983A
Authority
CN
China
Prior art keywords
pixel
event
dynamic representation
stream
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880073072.5A
Other languages
English (en)
Other versions
CN111417983B (zh
Inventor
P·考夫曼
D·库尔茨
B·阿姆伯格
秦漾海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN111417983A publication Critical patent/CN111417983A/zh
Application granted granted Critical
Publication of CN111417983B publication Critical patent/CN111417983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Studio Devices (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本文所公开的各种具体实施包括使用事件相机数据来跟踪可变形对象诸如面部、手和其他身体部位的设备、系统和方法。一个示例性具体实施涉及接收由事件相机输出的像素事件流。该设备使用该数据来跟踪可变形对象。各种具体实施通过如下方式来这样做:生成对象的动态表示并且响应于获得由事件相机输出的附加像素事件,修改对象的动态表示。在一些具体实施中,生成对象的动态表示涉及使用像素事件流来识别设置在对象的可变形表面上的特征。通过识别像素事件的模式来确定特征。当接收到新事件流数据时,在新数据中识别像素事件的模式并用于修改对象的动态表示。

Description

基于事件相机的可变形对象跟踪
技术领域
本公开整体涉及对象跟踪,并且具体地讲,涉及用于使用事件相机数据来跟踪可变形对象诸如面部、手和其他身体部位的系统、方法和设备。
背景技术
现有对象跟踪系统使用对象的基于快门的相机图像来确定对象的模型,诸如对象的三维模型。现有对象跟踪系统常常包括相机,相机将对象的图像传输给执行跟踪的处理器。以足够的帧速率和分辨率传输图像以使得能够实时跟踪可变形对象通常需要具有很大带宽的通信链路。使用此类通信链路增加了设备生成的热量和功率消耗。
发明内容
本文所公开的各种具体实施包括使用事件相机数据来跟踪可变形对象诸如面部、手和其他身体部位的设备、系统和方法。一种示例性具体实施涉及在具有一个或多个处理器和计算机可读存储介质的设备处执行操作。该设备接收由事件相机输出的像素事件流。事件相机具有被定位成从可变形对象接收光的像素传感器。响应于相应像素传感器检测到相应事件相机像素处超过比较器阈值的光强度(例如,对数(log)强度)变化,生成每个相应像素事件。该设备通过累积多个事件相机像素的像素事件来从像素事件流导出图像。该设备使用该数据来跟踪可变形对象。各种具体实施通过如下方式来这样做:生成对象的动态表示并且响应于获得由事件相机输出的附加像素事件,修改对象的动态表示。在一些具体实施中,生成对象的动态表示涉及使用像素事件流来识别设置在对象的可变形表面上的特征。通过识别像素事件的模式来确定特征,并且在对象的动态表示中表示特征。当接收到新事件流数据时,在新数据中识别像素事件的模式并用于修改对象的动态表示。例如,可识别针对人的鼻尖处的特征识别的像素模式,并且用于在人脸改变时调整人的鼻子在人脸的动态表示中的位置。
根据一些具体实施,一种设备包括一个或多个处理器、非暂态存储器以及一个或多个程序;该一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行,并且该一个或多个程序包括用于执行或使得执行本文所述方法中的任一种的指令。根据一些具体实施,一种非暂态计算机可读存储介质中存储有指令,这些指令在由设备的一个或多个处理器执行时使该设备执行或使执行本文所述方法中的任一种。根据一些具体实施,一种设备包括:一个或多个处理器、非暂态存储器以及用于执行或使执行本文所述方法中的任一种的装置。
附图说明
因此,本公开可被本领域的普通技术人员理解,更详细的描述可参考一些例示性具体实施的方面,其中一些具体实施在附图中示出。
图1是根据一些具体实施的涉及单一事件相机的示例操作环境的框图。
图2是根据一些具体实施的涉及多个事件相机的示例操作环境的框图。
图3是根据一些具体实施的示例控制器的框图。
图4示出了功能框图,示出了根据一些具体实施的基于事件相机的可变形对象跟踪过程。
图5示出了根据一些具体实施的事件相机的框图。
图6是根据一些具体实施的基于事件相机的可变形对象跟踪的方法的流程图表示。
图7示出了根据一些具体实施的在不同时间点的事件相机数据的模式。
图8是功能框图,示出了根据一些具体实施,使用卷积神经网络进行跟踪的系统。
图9示出了根据一些具体实施的在第一时间点的可变形对象的动态对象表示。
图10示出了根据一些具体实施的在第二时间点的图9的可变形对象的动态对象表示。
图11示出了使用两个事件相机的人脸跟踪应用程序的可能的事件相机放置和取向。
根据通常的做法,附图中示出的各种特征部可能未按比例绘制。因此,为了清楚起见,可以任意地扩展或减小各种特征部的尺寸。另外,一些附图可能未描绘给定的系统、方法或设备的所有部件。最后,在整个说明书和附图中,类似的附图标号可用于表示类似的特征部。
具体实施方式
描述了许多细节以便提供对附图中所示的示例性具体实施的透彻理解。然而,附图仅示出了本公开的一些示例方面,因此不应被视为限制。本领域的普通技术人员将理解,其他有效方面和/或变体不包括本文所述的所有具体细节。此外,没有详尽地描述众所周知的系统、方法、部件、设备和电路,以免模糊本文所述的示例性具体实施的更多相关方面。
在各种具体实施中,一种对象跟踪系统包括一个或多个相机和处理器,该处理器对从相机接收的关于从对象反射的来自光源的光的数据执行可变形对象跟踪。在各种具体实施中,相机包括具有多个相应位置处的多个光传感器的事件相机,该事件相机响应于特定光传感器检测到光强度(例如,对数强度)变化而生成指示特定光传感器的特定位置的事件消息。事件相机可包括或被称为动态视觉传感器(DVS)、硅视网膜、运动对比度相机、基于事件的相机、或无帧相机。因此,事件相机生成(并传输)关于(对数)光强度变化的数据,而不是更大量的关于每个光传感器处的绝对强度的数据。在一些具体实施中,事件相机被配置为以每秒超过1000个事件的速率检测(对数)光强度的每个像素的变化。
在各种具体实施中,可能具有内部状态的跟踪算法处理来自事件相机的传入事件并产生所观察到的场景的表示。随着新事件或事件组被输入到算法中,表示被动态地更新。场景中一个或多个可变形对象的动态对象表示可用于各种目的。在一个具体实施中,显示阶段用于可视化所观察到的场景或对象。显示阶段可在设备上显示例如对象的外观和动态行为。在另一个具体实施中,动态对象表示被传输给远程参与者以用于进一步处理、显示或存储。在另一个具体实施中,存储动态表示以用于进一步处理、显示或传输。
图1是根据一些具体实施的涉及事件相机110的示例操作环境的框图。尽管示出了相关特征,但本领域的普通技术人员将从本公开中认识到,为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面,未示出各种其他特征。为此,作为非限制性示例,操作环境100包括控制器130和事件相机110。
在一些具体实施中,控制器130包括软件、固件和/或硬件的合适组合。下文参考图3更详细地描述控制器130。在一些具体实施中,控制器130是相对于可变形对象100的本地或远程的计算设备。在一个示例中,控制器130是位于可变形对象100所在的场景内的本地服务器。在另一个示例中,控制器130是位于场景之外的远程服务器(例如,云服务器、中央服务器等)。在一些具体实施中,控制器130经由一个或多个有线或无线通信信道(例如,蓝牙、IEEE 802.11x、IEEE 802.16x、IEEE 802.3x等)通信地耦接到事件相机110。在一些具体实施中,控制器130的功能由单一物理设备中的事件相机110提供和/或与事件相机110组合。
在一些具体实施中,用户在其头部或以其他方式在佩戴或附接到用户身体的设备上佩戴事件相机110。在一些具体实施中,事件相机是被配置为向用户呈现AR/VR体验的头戴式显示器(HMD)的部分。在其他具体实施中,事件相机110是被配置为向用户呈现内容的手持式电子设备(例如,智能电话或平板电脑)的部分。
事件相机110被放置在相对于可变形对象100的某一位置处,以从可变形对象100捕获光120。可变形对象的非限制性示例包括但不限于人脸、人手、人的毛发、另一人体部分、动物或其他活的有机体、衣服、一张纸、杂志、图书、机器或具有由于内力或其环境而随时间变化的表面的其他人造对象,以及可随时间表现出变形的任何其他对象。本文所公开的技术可用于跟踪场景中的一个或多个对象,并且因此在一些具体实施中,可用于跟踪个体对象,并且在其他具体实施中,可用于跟踪3D场景。关于对象或场景的所跟踪的信息可用于许多目的,包括但不限于涉及记录、模仿、播放或解释对象或场景的变形的目的。
图2是根据一些具体实施的涉及多个事件相机110、120的示例操作环境的框图。在该示例中,事件相机110、120被定位成从不同角度捕获在可变形对象100处发生的事件(例如,像素处的对数强度变化)。可以选择事件相机110、120的相对位置以从不同视角捕获信息,以增强随时间生成的三维模型或其他动态对象表示的外观。例如,如果可变形对象100是人脸,则事件相机110可被定位成从左侧(例如,与垂直位置成45度)捕获脸部的视图,并且事件相机120可被定位成从右侧(例如,与垂直位置成-45度)捕获脸部的视图。下文讨论的图11示出了被定位和取向成跟踪人脸的两个事件相机。
在另一个具体实施中,多个事件相机被定位在移动电话、平板电脑或其他设备的平坦表面上彼此相距一定距离(例如,2英寸、3英寸、4英寸、5英寸、10英寸等)的不同位置处。彼此的距离允许不同的事件相机从不同的相对位置捕获面部或其他可变形对象的视图。使用多个事件相机110、120从不同位置捕获可变形对象的像素事件可增强随时间生成的三维模型或其他动态对象表示的外观。
图3是根据一些具体实施的控制器130的示例的框图。尽管示出了一些具体特征,但本领域的技术人员将从本公开中认识到,为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面,未示出各种其他特征。为此,作为非限制性示例,在一些具体实施中,控制器130包括一个或多个处理单元302(例如,微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、中央处理单元(CPU)、处理核心等)、一个或多个输入/输出(I/O)设备306、一个或多个通信接口308(例如,通用串行总线(USB)、FIREWIRE、THUNDERBOLT、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、全球移动通信系统(GSM)、码分多址(CDMA)、时分多址(TDMA)、全球定位系统(GPS)、红外(IR)、蓝牙、ZIGBEE和/或相似类型接口)、一个或多个编程(例如,I/O)接口310、存储器320以及用于互连这些部件和各种其他部件的一条或多条通信总线304。
在一些具体实施中,一条或多条通信总线304包括互连和控制系统部件之间的通信的电路。在一些具体实施中,一个或多个I/O设备306包括键盘、鼠标、触控板、操纵杆、一个或多个麦克风、一个或多个扬声器、一个或多个图像传感器、一个或多个显示器等中的至少一者。
存储器320包括高速随机存取存储器,诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、双倍数据速率随机存取存储器(DDR RAM)或者其他随机存取固态存储器设备。在一些具体实施中,存储器320包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器320任选地包括远离所述一个或多个处理单元302定位的一个或多个存储设备。存储器320包括非暂态计算机可读存储介质。在一些具体实施中,存储器320或者存储器320的非暂态计算机可读存储介质存储下述程序、模块和数据结构或者它们的子集,其中包括可选的操作系统330和模块340。
操作系统330包括用于处理各种基础系统服务和用于执行硬件相关任务的过程。在一些具体实施中,模块340被配置为管理和协调一个或多个用户的一个或多个可变形对象跟踪体验。为此,在各种具体实施中,模块340包括数据获取单元342、跟踪单元344、协调单元346和渲染单元348。
在一些具体实施中,数据获取单元342被配置为从一个或多个事件相机110、120和/或其他设备获得数据(例如,呈现数据、交互数据、传感器数据、位置数据等)。为此,在各种具体实施中,数据获取单元342包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。
在一些具体实施中,跟踪单元344被配置为使用来自一个或多个事件相机110、120和/或其他设备的数据来跟踪可变形对象110。为此,在各种具体实施中,跟踪单元344包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。
在一些具体实施中,协调单元346被配置为管理和协调可变形对象跟踪体验以呈现、传输或存储可变形对象110的动态对象表示。为此,在各种具体实施中,协调单元346包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。
在一些具体实施中,渲染单元348被配置为例如基于可变形对象110的动态对象表示来渲染用于显示的内容。为此,在各种具体实施中,渲染单元348包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。
尽管数据获取单元342、跟踪单元344、协调单元346和渲染单元348被示为驻留在单个设备(例如,控制器130)上,但应当理解,在其他具体实施中,数据获取单元342、跟踪单元344、协调单元346和渲染单元348的任何组合可位于单独的计算设备中。
此外,图3更多地用作存在于特定具体实施中的各种特征部的功能描述,与本文所述的具体实施的结构示意图不同。如本领域的普通技术人员将认识到的,单独显示的项目可以组合,并且一些项目可以分开。例如,图3中单独示出的一些功能模块可以在单个模块中实现,并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化,并且在一些具体实施中,部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。
图4示出了功能框图,示出了根据一些具体实施的基于事件相机的可变形对象跟踪过程400。过程400包括多个阶段。在第一阶段处,一个或多个事件相机410A、410B至410N以高速率(例如,以大于每秒1000个事件的速率)检测光强度(例如,对数强度)的每个像素的变化。一个或多个事件相机410A、410B至410N各自包括在多个相应位置处的多个光传感器。响应于特定光传感器检测到光强度(例如,对数强度)变化,事件相机生成指示特定光传感器的特定位置的事件消息。如下文相对于图5所述,在各种具体实施中,特定位置由像素坐标指示。在各种具体实施中,事件消息还指示光强度变化的极性。在各种具体实施中,事件消息还指示检测到光强度变化的时间。在各种具体实施中,事件消息还指示表示所检测到的光的强度的值。
事件相机数据可被累积或以其他方式组合。在一些具体实施中,事件相机数据被组合以提供强度重建图像。在这些具体实施中,强度重建图像发生器(未示出)随时间累积事件以重建/估计绝对强度值。随着附加事件累积,强度重建图像发生器改变重建图像中的对应值。这样,即使仅一些像素最近可能已经接收到事件,它也为图像的所有像素生成并保持值的更新图像。在各种具体实施中,强度重建图像包括具有在对应于光传感器的相应位置的相应多个像素处的多个像素值的图像。在接收到指示特定位置和正极性(表示光强度已增大)的事件消息时,对于对应于所述特定位置的像素处的像素值添加数量(例如,1)。类似地,在接收到指示特定位置和负极性(表示光强度已减小)的事件消息时,从对应于所述特定位置的像素处的像素值减去所述数量。在各种具体实施中,强度重建图像被过滤,例如模糊化。在一个具体实施中,强度重建图像基于具有多个像素值的正时间戳图像,该多个像素值指示对应的光传感器何时触发具有正极性的最后对应事件。在一个具体实施中,强度重建图像基于具有多个像素值的负时间戳图像,该多个像素值指示对应的光传感器何时触发具有负极性的最后对应事件。在一个具体实施中,强度重建图像基于具有多个像素值的频率图像,该多个像素值测量从对应光传感器接收的事件消息的频率。
在一些具体实施中,一个或多个事件相机410A、410B至410N提供用于产生累积事件时间信息的信息。在一个具体实施中,时间戳图像发生器(未示出)对关于事件定时的信息进行编码。在一个示例中,时间戳图像发生器创建具有表示自从针对每个像素接收到相应像素事件以来的时间长度的值的图像。在此类图像中,具有更近事件的像素可具有比具有较不近事件的像素更高的强度值。
在第二阶段,跟踪算法420处理来自一个或多个事件相机410A、410B至410N的传入事件以产生可变形对象的表示。随着新事件被馈送到跟踪算法420,表示被动态地更新。因此,跟踪算法420产生并更新可变形对象的动态对象表示430。利用动态对象表示430的可选阶段包括使得能够可视化可变形对象的显示阶段440。例如,可基于动态对象表示430来产生和更新可变形对象的渲染。利用动态对象表示430的另一个可选阶段是传输阶段450,其涉及将动态对象表示430传输至远程参与者以用于进一步处理或存储。利用动态对象表示430的另一个可选阶段包括存储动态对象表示430的存储阶段460,以用于进一步的处理、显示或传输。
图5示出了根据一些具体实施的事件相机500的功能框图。事件相机500包括分别耦接到消息发生器532的多个光传感器515。在各种具体实施中,多个光传感器515被布置成行和列的矩阵510,并且因此,多个光传感器515中的每一者与行值和列值相关联。
多个光传感器515中的每一个光传感器包括光传感器520。光传感器520包括在源电压和地电压之间的与电阻器523串联的光电二极管521。光电二极管521上的电压与入射在光传感器520上的光的强度成比例。光传感器520包括与光电二极管521并联的第一电容器525。因此,第一电容器525上的电压与光电二极管521上的电压相同(例如,与光传感器520所检测到的光的强度成比例)。
光传感器520包括耦接在第一电容器525和第二电容器527之间的开关529。第二电容器527耦接在开关和地电压之间。因此,当开关529闭合时,第二电容器527上的电压与第一电容器525上的电压相同(例如,与光传感器520所检测到的光的强度成比例)。当开关529断开时,第二电容器527上的电压固定在当开关529上次闭合时在第二电容器527上的电压处。
第一电容器525上的电压和第二电容器527上的电压被馈送给比较器531。当第一电容器525上的电压与第二电容器527上的电压之间的绝对差值552小于阈值量时,比较器531输出“0”电压。当第一电容器525上的电压比第二电容器527上的电压高至少阈值量时,比较器531输出“1”电压。当第一电容器525上的电压比第二电容器527上的电压低至少阈值量时,比较器531输出“-1”电压。
当比较器531输出“1”电压或“-1”电压时,开关529闭合,并且消息发生器532接收该数字信号并生成像素事件消息。
例如,在第一时间,入射在光传感器520上的光的强度为第一光值。因此,光电二极管521上的电压为第一电压值。同样,第一电容器525上的电压为第一电压值。对于该示例,第二电容器527上的电压也为第一电压值。因此,比较器531输出“0”电压,开关529保持闭合,并且消息发生器532不执行任何操作。
在第二时间,入射在光传感器520上的光的强度增大到第二光值。因此,光电二极管521上的电压为第二电压值(高于第一电压值)。同样,第一电容器525上的电压为第二电压值。因为开关529断开,所以第二电容器527上的电压仍为第一电压值。假设第二电压值至少比第一电压值高该阈值,则比较器531输出“1”电压,闭合开关529,并且消息发生器532基于所接收的数字信号而生成事件消息。
在开关529由于来自比较器531的“1”电压而闭合时,第二电容器527上的电压从第一电压值变成第二电压值。因此,比较器531输出“0”电压,断开开关529。
在第三时间,入射在光传感器520上的光的强度(又)增大到第三光值。因此,光电二极管521上的电压为第三电压值(高于第二电压值)。同样,第一电容器525上的电压为第三电压值。因为开关529断开,所以第二电容器527上的电压仍为第二电压值。假设第三电压值至少比第二电压值高该阈值,则比较器531输出“1”电压,闭合开关529,并且消息发生器532基于所接收的数字信号而生成事件消息。
在开关529由于来自比较器531的“1”电压而闭合时,第二电容器527上的电压从第二电压值变成第三电压值。因此,比较器531输出“0”电压,断开开关529。
在第四时间,入射在光传感器520上的光的强度减小回到第二光值。因此,光电二极管521上的电压为第二电压值(小于第三电压值)。同样,第一电容器525上的电压为第二电压值。因为开关529断开,所以第二电容器527上的电压仍为第三电压值。因此,比较器531输出“-1”电压,闭合开关529,并且消息发生器532基于所接收的数字信号生成事件消息。
在开关529由于来自比较器531的“-1”电压而闭合时,第二电容器527上的电压从第三电压值变成第二电压值。因此,比较器531输出“0”电压,断开开关529。
消息发生器532在不同时间接收来自多个光传感器510中每一者的数字信号,该数字信号指示光强度(例如,对数强度)的增大(“1”电压)或光强度的减小(“-1”电压)。响应于接收到来自多个光传感器510中特定光传感器的数字信号,消息发生器532生成像素事件消息。
在各种具体实施中,每个像素事件消息在位置字段中指示特定光传感器的特定位置。在各种具体实施中,事件消息以像素坐标指示特定位置,诸如行值(例如,在行字段中)和列值(例如,在列字段中)。在各种具体实施中,事件消息在极性字段中进一步指示光强度变化的极性。例如,事件消息可在极性字段中包括“1”以指示光强度的增大,并且可在极性字段中包括“0”以指示光强度的减小。在各种具体实施中,事件消息在时间字段中进一步指示检测到光强度变化的时间(例如,接收数字信号的时间)。在各种具体实施中,事件消息在绝对强度字段(未示出)中指示表示所检测到的光的强度的值,作为极性的替代或除极性之外。
图6是根据一些具体实施的基于事件相机的可变形对象跟踪的方法600的流程图表示。在一些具体实施中,方法600由设备(例如,图1-图3的控制器130)执行,诸如移动设备、台式计算机、膝上型电脑或服务器设备。方法600可以在具有用于显示2D图像的屏幕和/或用于观看立体图像的屏幕的设备上执行,诸如虚拟现实(VR)显示器(例如,头戴式显示器(HMD))或增强现实(AR)显示器。在一些具体实施中,方法600由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中,方法600由执行存储在非暂态计算机可读介质(例如,存储器)中的代码的处理器执行。
在框610处,方法600接收由一个或多个事件相机输出的像素事件流。像素事件数据可为各种形式。像素事件流可被接收为识别事件相机的一个或多个像素处的像素事件的一系列消息。在各种具体实施中,接收像素事件消息,每个像素事件消息包括用于特定光传感器的特定位置的位置字段、极性字段、时间字段和/或绝对强度字段。
如相对于图5所述并且如本领域中已知的,一个或多个事件相机可各自包括传感器、将入射光聚焦到传感器上的透镜组件以及处理单元。事件相机的输出可以是事件流和/或关于像素事件的编译/过滤数据。在一个具体实施中,像素事件包括指示事件发生的时间(相对时间或绝对时间)的时间戳、传感器上事件发生的像素位置,以及极性值,该极性值指示事件是与自像素的上次事件发生(即,被识别)以来在超过某个阈值的相应像素处的光强度(例如,对数强度)的增大还是减小有关。几何属性(例如,光学路径的模型,即,确定入射光如何影响传感器上的像素)与基于帧的相机相当。
对象可为人脸、手或其他人体部位或可随时间表现出变形的任何其他对象。例如,下文所述的图11示出了相对于人脸定位以当人脸随时间移动、改变或以其他方式变形时捕获像素事件的两个事件相机。
返回图6,在框620处,方法600使用像素事件流生成场景中对象的动态表示。在一些具体实施中,通过使用像素事件流识别设置在对象的可变形表面上的特征来生成对象的动态表示。这些特征在对象的动态表示中表示。
可使用各种类型的特征和特征描述符。在一些具体实施中,使用任意特征描述符。在一个具体实施中,描述符简单地包含事件值。在其他具体实施中,描述符包含事件值的空间梯度、取向梯度、直方图等。这些描述符中的一些可以不随旋转和/或缩放而变化。在一些具体实施中,描述符被确定为具有特定格式或使用现有技术确定,例如,基于检测特征的缩放不变特征变换(SIFT)来确定,使用加速稳健特征(SURF)特征检测技术,通过确定取向梯度(HOG)技术的柱状图、用于基于事件的相机的分布式感知视网膜变换(DART)或任何其他适当的技术来确定。
在一些具体实施中,通过识别对应于像素事件流中的特征的像素事件的模式来识别特征。图7示出了在两个不同时间点(或短时间段)捕获的像素事件。在该示例中,在表示710所示的第一时间,识别加/正和减/负像素事件的模式。加/正像素事件表示在相应像素处光强度(例如,对数强度)增大超过阈值,并且减/负像素事件表示在相应像素处光强度降低超过阈值。在表示720所示的第二时间,识别相同模式的加/正和减/负像素事件,其中每个相应事件向右移位一个像素。在各种具体实施中使用的跟踪算法识别像素事件的相同和类似模式,以识别特定特征已被移动。在该示例中,识别模式以确定对应特征已向右移动。公差值可用于基于像素事件模式的相似性来识别特征。例如,跟踪算法可能需要特定百分比匹配的像素事件,例如70%相似性、80%相似性、90%相似性等。除此之外或另选地,跟踪算法可能需要模式的若干次连续移动,例如,在一定时间段内,例如,在5ms、10ms、20ms、50ms等内识别模式至少3次、4次、5次、10次、20次等。在使用更任意特征描述符的其他具体实施中,不使用像素事件直接比较特征。在这些情况下,使用识别特征相似性和/或量化特征之间的相似性量的技术来比较特征描述符。
可随时间或以其他方式在用于生成动态对象表示之前累积用于生成动态对象表示的事件相机数据。在一些具体实施中,事件相机数据被累积成图像,诸如强度重建图像、时间戳图像或基于事件相机数据的值的另一图像。在一个具体实施中,事件相机数据被累积到单元栅格中,该单元栅格表示在事件相机的对应像素传感器处在预先确定的时间段内发生(或以其他方式暂时累积)的固定数量的事件。在一个具体实施中,单元栅格的单元对应于特定像素位置,并且累积表示在每个此类像素位置处发生的事件数量的值。
对象的动态表示由跟踪算法基于来自一个或多个事件相机的事件流的数据生成。跟踪算法任选地使用关于相机的信息,即,它们相对于公共坐标系在空间中的位置和取向、相机固有性质(诸如焦距和主点)和/或失真模型。
在一些具体实施中,跟踪算法执行基于光学流的跟踪。跟踪算法从事件流中提取特征并随时间跟踪这些特征的空间位置。这允许跟踪算法跟踪三维对象的实际点的二维投影,因为它们被投影到各个相机的像素上。在一个具体实施中,跟踪点的稀疏集合(例如,表示特征的有限集合)。对要包括在点的稀疏集合中的点的哪个集合的选择可基于各种限制或标准。在一个具体实施中,基于识别对应于一个或多个特定特征的点来选择点的稀疏集合。在一个具体实施中,基于定量阈值(例如,识别每y面积少于x个点)来选择数据点的稀疏集合。跟踪点的集合可涉及跟踪点位置(即,点跟踪)或点移动(即,点流动)或两者。点跟踪可具有寿命(例如,已知跟踪的开始时间和结束时间),并且当跟踪算法从事件相机接收更多事件时,跟踪可被任意地创建或破坏。在另一个具体实施中,跟踪算法创建密集流场,该密集流场针对任何时间点的任何/每个二维像素位置提供随时间而变化的二维轨迹。
在基于(光学)流的跟踪中,可任选地进一步处理点跟踪、点流或密集流场。在一个具体实施中,对于具有重叠视场的相机,特征被关联并进行三角测量以随时间有效地跟踪三维特征。如果使用/已知用于正在跟踪的对象的模型(例如,对于头部跟踪:用于一般人类头部的外观和/或动态的模型或特定人类受检者或受检者组的头部的模型),即使在相机的视场之间不存在重叠的情况下,也可将所跟踪的特征与模型相关,以便计算对象的三维表示。
在一些具体实施中,跟踪算法执行基于机器学习的跟踪。将事件相机的事件流馈送到机器学习算法。算法继而处理每个事件,分批处理事件,或者在将事件馈送到机器学习算法之前在空间上或时间上累积事件,或者这些操作的组合。机器学习算法另外可将来自潜在空间的一组值作为输入,该组值潜在地编码关于正被跟踪的对象及其先前状态的信息。在一些具体实施中,机器学习算法被训练为直接回归到动态对象表示,或回归到稍后转换为动态对象表示的中间表示。任选地,机器学习算法可回归到潜在空间中的更新的一组值,然后将其用于处理未来事件。在一些具体实施中,执行跟踪的机器学习算法被配置为卷积神经网络(CNN)、循环网络诸如长短期记忆(LSTM)神经网络、尖峰神经网络(SNN)、或这些网络的组合或使用任何其他神经网络架构。图8提供了CNN配置的示例。
对象的动态表示可具有多种适当的形式以适应具体实施的特定要求。在一些具体实施中,动态对象表示是多个多边形的二维网格,每个多边形近似于可变形表面的相应部分。在一些具体实施中,动态对象表示是深度图表示,该深度图表示包括限定对象与多个像素传感器的至少子集之间的距离的深度信息。在一些具体实施中,动态对象表示是多个区域,每个区域限定可变形表面的对应部分的局部变形。在一些具体实施中,动态对象表示是三维(3D)点的集合,该3D点的集合限定对象的3D模型,该3D点的集合中的每个点表示对象的可变形表面上的对应点。在一些具体实施中,动态对象表示为由可变形表面限定为任意点的集合的对象的三维模型。在其他具体实施中,动态对象表示是包括由接合部(诸如球窝接合部、铰链接合部、髁状接合部、枢转接合部、滑动接合部或鞍形接合部)连接的刚性部件的关节模型。
返回图6,对象具有随时间变化的可变形表面。该方法包括,在框630处,响应于获得由事件相机输出的附加像素事件来修改对象的动态表示,例如,以在对象的可变形表面随时间变化时跟踪它。在其中基于像素模式来识别特征的具体实施中,修改对象的动态表示可涉及基于识别与附加像素事件中的特征对应的像素事件的模式来修改对象的动态表示中的特征的位置。因此,如图7所示,当在新位置中检测到表示特征的像素模式时,可相应地调整动态对象表示中的特征的位置。
一般来讲,随时间跟踪特征可涉及通过跟踪点的稀疏集合来随时间跟踪特征的空间位置。在多个事件相机的环境中,可以在来自多个相机的数据中识别特征并进行相关,例如,可以在来自多个相机的数据中识别鼻尖。当接收到来自事件相机的附加事件相机数据时,可在动态对象表示中确定和调整鼻尖的三维(3D)位置。在一些具体实施中,修改对象的动态表示涉及将像素流中的特征与对象的三维(3D)模型的特征相关,以及基于该相关来计算对象的3D表示。
在一些具体实施中,方法600进一步涉及使用表征事件相机的各方面的相机相关数据来细化对象的动态表示。相机相关的数据包括例如:非固有参数信息、固有参数信息、限定事件相机相对于全局参考系的相对位置和取向的对应关系信息,或它们的组合。
图8是功能框图,示出了根据一些具体实施,使用卷积神经网络(CNN)820进行跟踪的系统800。系统800对累积事件数据进行操作,累积事件数据诸如二维栅格(即,一个或多个输入图像810),诸如强度重建图像或时间戳图像。在一些具体实施中,此类输入图像810的每个单元存储对应像素的N个最近事件。在另一个具体实施中,CNN 820除此之外或另选采用输入图像810作为输入,其中每个像素已在时间上对事件进行了积分。在另一个具体实施中,CNN 820获取全帧(常规的基于快门的)相机图像作为输入。
CNN 820包括一个或多个卷积层830和一个或多个完全连接层840,并且产生输出,例如动态对象表示850。一个或多个卷积层830被配置为将卷积运算应用于其相应输入并将其结果传递给下一层。在被下一层处理之前,可通过非线性函数(也称为激活函数),诸如线性整流单元(ReLU)、双曲正切(TanH)或Sigmoid函数来变换卷积的结果(也称为激活)。一个或多个卷积层830的每层中的每个卷积神经元可被配置为处理接收字段的数据,例如调整过大小的一个或多个输入图像810的一部分。一个或多个完全连接层840将一个层的每个神经元连接到另一个层的每个神经元。如相对于图6所讨论的,CNN 850的输出可直接回归到动态对象表示或可回归到从中确定动态对象表示的中间表示。
在一些具体实施中,使用有状态的机器学习/神经网络架构。在一些具体实施中,CNN被配置为使用潜在状态。在一个此类具体实施中,CNN被配置为回归到中间表示,并且另外还回归到潜在状态的更新。然后将所得的潜在状态用作下一次迭代中完全连接的块的输入。在另一个具体实施中,所使用的神经网络是长短期记忆(LSTM)或其他循环网络。在此类具体实施中,用作输入的事件数据可被提供为标记的顺序事件流。在一些具体实施中,循环神经网络被配置为记住先前的事件并基于事件的历史学习动态运动。循环神经网络可被配置为将各个事件或成批累积事件作为输入。
图9示出了根据一些具体实施的在第一时间点900的可变形对象(即,人脸)的动态对象表示。在该示例中,识别并利用标记(例如,标记910、920、930)示出多个特征。需注意,仅标记了少数标记以避免模糊示例的内容。图10示出了根据一些具体实施的在第二时间点1000的图9的可变形对象(即,人脸)的动态对象表示。在该示例中,人脸的表面已在图9和图10之间变化/变形。例如,人脸的嘴部已闭上并微笑。因此,标记910和930处的特征已改变位置。具体地讲,由标记910标识的唇底特征已在第一时间点相对于其位置向下移动。类似地,由标记930标识的唇角相比于其在第一时间点的位置已向右移动。具体实施跟踪此类特征随时间的位置,并且在可变形对象随时间变化/变形时调整可变形对象的动态对象表示。
对于图9和图10的示例以及本文所讨论的其他具体实施,基于所跟踪特征的位置来确定可变形对象的动态对象表示。动态对象表示中包括的格式和信息有许多选项。在一个具体实施中,动态对象表示是深度图表示,存储针对事件相机传感器的每个像素或针对像素的子集距被跟踪对象的距离。在另一个具体实施中,动态对象表示是被跟踪的表面的几何表示。例如,几何表示可以是三角形网格。此类表示可使用随时间而改变的网格拓扑结构或固定拓扑结构。在另一个具体实施中,动态对象表示是对象表面的较低维度几何表示,诸如网格的预定义基础(例如,混合形状或主成分分析(PCA)基础)的线性或非线性组合。在其他具体实施中,动态对象表示是包括刚性部件和接合部的关节模型。在另一个具体实施中,动态对象表示是对象表面的局部化几何表示。该表面可被分成多个区域,并且该表示被配置为限定每个区域中的局部变形。在另一个具体实施中,动态对象表示是对象的表面上任意三维点的稀疏或密集集合。在另一个具体实施中,动态对象表示包括具有预定义语义的点的二维或三维位置,诸如例如脸部的嘴角、鼻尖等,例如,如图9和图10所示。更一般地讲,动态对象表示可包括对应于(a)几何特征(如,拐角、折痕、孔、尖端)和/或(b)纹理特征(如,模式、人工标记、显著特征、表面上的颜色强度变化)的点。在另一个具体实施中,动态对象表示是二维字段的集合,其表示每个事件相机的视图中像素的移动。在另一个具体实施中,动态对象表示是表面的更高级别语义抽象,例如在人脸的情况下,解释/相关到所观察到的面部几何形状的一组肌肉的肌肉激活的值。
图11示出了使用两个事件相机的人脸跟踪应用程序的可能的事件相机放置和取向。图11示出了三个视图1100、1110、1120,示出了被取向成捕获在人脸改变或以其他方式变形时发生的像素事件的第一事件相机1140和第二事件相机1150的位置。在该示例中,两个不同的事件相机1140、1150各自从不同的视角捕获像素事件。例如,当人脸的鼻尖处的特征1160改变时(例如,当面部移动,鼻子扭动,鼻子抬高时等),事件相机1140、1150从不同视点捕获像素事件。每个事件相机跟踪特征的不同相应移动。考虑到事件相机彼此已知的位置(例如,在参考坐标空间中)和像素事件,可随时间跟踪特征1160的三维位置和移动。
本文阐述了许多具体细节以提供对要求保护的主题的全面理解。然而,本领域的技术人员将理解,可以在没有这些具体细节的情况下实践要求保护的主题。在其他实例中,没有详细地介绍普通技术人员已知的方法、设备或系统,以便不使要求保护的主题晦涩难懂。
除非另外特别说明,否则应当理解,在整个说明书中,利用诸如“处理”、“计算”、“计算出”、“确定”和“识别”等术语的论述是指计算设备的动作或过程,诸如一个或多个计算机或类似的电子计算设备,其操纵或转换表示为计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内的物理电子量或磁量的数据。
本文论述的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括部件的提供以一个或多个输入为条件的结果的任何合适的布置。合适的计算设备包括基于多用途微处理器的计算机系统,其访问存储的软件,该软件将计算系统从通用计算设备编程或配置为实现本发明主题的一种或多种具体实施的专用计算设备。可以使用任何合适的编程、脚本或其他类型的语言或语言的组合来在用于编程或配置计算设备的软件中实现本文包含的教导内容。
本文所公开的方法的具体实施可以在这样的计算设备的操作中执行。上述示例中呈现的框的顺序可以变化,例如,可以将框重新排序、组合和/或分成子块。某些框或过程可以并行执行。
本文中“适用于”或“被配置为”的使用意味着开放和包容性的语言,其不排除适用于或被配置为执行额外任务或步骤的设备。另外,“基于”的使用意味着开放和包容性,因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。本文包括的标题、列表和编号仅是为了便于解释而并非旨在为限制性的。
还将理解的是,虽然术语“第一”、“第二”等可能在本文中用于描述各种元素,但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如,第一节点可以被称为第二节点,并且类似地,第二节点可以被称为第一节点,其改变描述的含义,只要所有出现的“第一节点”被一致地重命名并且所有出现的“第二节点”被一致地重命名。第一节点和第二节点都是节点,但它们不是同一个节点。
本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求中所使用的那样,单数形式的“一个”和“该”旨在也涵盖复数形式,除非上下文清楚地另有指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件,和/或其分组。
如本文所使用的,术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真,具体取决于上下文。类似地,短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真,具体取决于上下文。
本发明的前述描述和概述应被理解为在每个方面都是例示性和示例性的,而非限制性的,并且本文所公开的本发明的范围不仅由例示性具体实施的详细描述来确定,而是根据专利法允许的全部广度。应当理解,本文所示和所述的具体实施仅是对本发明原理的说明,并且本领域的技术人员可以在不脱离本发明的范围和实质的情况下实现各种修改。

Claims (30)

1.一种系统,包括:
事件相机,所述事件相机包括像素传感器的二维(2D)阵列;
非暂态计算机可读存储介质;和
一个或多个处理器,所述一个或多个处理器通信地耦接至所述非暂态计算机可读存储介质和所述事件相机,其中所述非暂态计算机可读存储介质包括程序指令,所述程序指令在所述一个或多个处理器上执行时,使得所述系统执行操作,所述操作包括:
接收由所述事件相机输出的像素事件流,所述事件相机包括多个像素传感器,所述多个像素传感器被定位成接收来自设置在所述事件相机的视场内的场景的光,每个相应像素事件响应于相应像素传感器检测到超过比较器阈值的光强度变化而生成;
使用所述像素事件流来识别设置在对象的可变形表面上的特征;以及
生成所述对象的动态表示,所述动态表示包括所述特征;
响应于获得由所述事件相机输出的附加像素事件,修改所述对象的所述动态表示;以及
输出所述对象的所述动态表示以用于进一步处理。
2.根据权利要求1所述的系统,还包括第二事件相机,其中修改所述对象的所述动态表示包括:
在来自所述事件相机的所述像素事件流中识别所述特征;
在来自所述第二事件相机的第二像素事件流中识别所述特征;以及
基于将从来自所述事件相机的所述像素事件流识别的所述特征与从来自所述第二事件相机的所述第二像素事件流识别的所述特征相关,跟踪所述特征的三维(3D)位置。
3.根据权利要求1至2中任一项所述的系统,其中识别所述特征包括:
识别对应于所述像素事件流中的所述特征的像素事件的模式。
4.根据权利要求3所述的系统,其中修改所述对象的所述动态表示包括:
基于识别与所述附加像素事件中的所述特征对应的所述像素事件的模式,修改所述对象的所述动态表示中的所述特征的位置。
5.根据权利要求1至4中任一项所述的系统,其中修改所述对象的所述动态表示包括:
通过跟踪点的稀疏集合或密集流场来随时间跟踪所述特征的空间位置。
6.根据权利要求1至5中任一项所述的系统,其中修改所述对象的所述动态表示包括:
将所述像素流中的所述特征与所述对象的三维(3D)模型的特征相关;以及
基于所述相关来计算所述对象的3D表示。
7.根据权利要求1所述的系统,其中生成所述对象的所述动态表示包括使用所述像素事件流作为机器学习架构的输入。
8.根据权利要求7所述的系统,其中生成所述对象的所述动态表示包括:
生成包括来自所述像素事件流的累积事件数据的输入,所述输入包括:
单元栅格,所述单元栅格表示在所述事件相机的对应像素传感器处在预先确定的时间段内发生的固定数量的事件;
其中图像像素对应于所述事件相机的对应像素的时间上累积像素事件的图像;
其中图像像素对应于自从在所述事件相机的对应像素传感器处识别像素事件以来的时间量的图像;或者
所述对象的全帧基于快门的图像,所述图像取自与所述事件相机相同的位置或相对于所述事件相机的已知位置;以及
经由卷积神经网络(CNN)生成所述动态表示,其中所述输入被输入到所述神经网络。
9.根据权利要求7所述的系统,其中生成所述对象的所述动态表示包括:
生成包括来自所述像素事件流的累积事件数据的输入;以及
经由循环神经网络生成所述动态表示,其中所述输入被输入到所述神经网络,其中所述循环神经网络使用潜在状态来跟踪从先前接收的事件数据确定的所述对象的先前状态。
10.根据权利要求1至9中任一项所述的系统,其中所述对象的所述动态表示包括:
多个多边形的二维网格,每个所述多边形近似于所述可变形表面的相应部分;
深度图表示,所述深度图表示包括限定所述对象与所述多个像素传感器的至少子集之间的距离的深度信息;
多个区域,每个所述区域限定所述可变形表面的对应部分的局部变形;
三维(3D)点的集合,所述3D点的集合限定所述对象的3D模型,所述3D点的集合中的每个点表示所述对象的所述可变形表面上的对应点;
所述对象的三维模型,所述对象的所述三维模型由所述可变形表面限定为任意点的集合;或者
关节模型,所述关节模型包括通过接合部连接的刚性部件。
11.根据权利要求1至9中任一项所述的系统,其中所述进一步处理包括:
将所述动态表示存储在非易失性存储介质中,经由网络适配器将所述动态表示传输到远程计算设备,或者渲染所述动态表示以创建可视化。
12.一种用于可变形对象跟踪的方法,所述方法包括:
在具有一个或多个处理器和非暂态计算机可读存储介质的设备处:
接收由事件相机输出的像素事件流,所述事件相机包括多个像素传感器,所述多个像素传感器被定位成接收来自设置在所述事件相机的视场内的场景的光,每个相应像素事件响应于相应像素传感器检测到超过比较器阈值的光强度变化而生成;
使用所述像素事件流生成所述场景中的对象的动态表示,所述对象具有随时间变化的可变形表面;以及
响应于获得由所述事件相机输出的附加像素事件,修改所述对象的所述动态表示。
13.根据权利要求12所述的方法,其中生成所述对象的所述动态表示包括:
使用所述像素事件流来识别设置在所述对象的所述可变形表面上的特征;以及
在所述对象的所述动态表示中表示所述特征。
14.根据权利要求13所述的方法,其中识别所述特征包括:
识别对应于所述像素事件流中的所述特征的像素事件的模式。
15.根据权利要求14所述的方法,其中修改所述对象的所述动态表示包括:
基于识别与所述附加像素事件中的所述特征对应的所述像素事件的模式,修改所述对象的所述动态表示中的所述特征的位置。
16.根据权利要求12至15中任一项所述的方法,其中修改所述对象的所述动态表示包括:
通过跟踪点的稀疏集合来随时间跟踪所述特征的空间位置。
17.根据权利要求12至15中任一项所述的方法,其中修改所述对象的所述动态表示包括:
通过跟踪密集流场来随时间跟踪所述特征的空间位置。
18.根据权利要求12至17中任一项所述的方法,其中修改所述对象的所述动态表示包括:
识别来自多个事件相机的像素事件流中的所述特征;以及
基于将所述多个事件相机的所述像素流中的所述特征相关来跟踪所述特征的三维(3D)位置。
19.根据权利要求12至17中任一项所述的方法,其中修改所述对象的所述动态表示包括:
将所述像素流中的所述特征与所述对象的三维(3D)模型的特征相关;以及
基于所述相关来计算所述对象的3D表示。
20.根据权利要求12所述的方法,其中生成所述对象的所述动态表示包括使用所述像素事件流作为机器学习架构的输入。
21.根据权利要求12至20中任一项所述的方法,其中生成所述对象的所述动态表示包括:
生成包括来自所述像素事件流的累积事件数据的输入,所述输入包括单元栅格,所述单元栅格表示在所述事件相机的对应像素传感器处在预先确定的时间段内发生的固定数量的事件;以及
经由卷积神经网络(CNN)生成所述动态表示,其中所述输入被输入到所述神经网络。
22.根据权利要求12至20中任一项所述的方法,其中生成所述对象的所述动态表示包括:
生成包括来自所述像素事件流的累积事件数据的输入,所述输入包括其中图像像素对应于所述事件相机的对应像素的时间上累积像素事件的图像;以及
经由卷积神经网络(CNN)生成所述动态表示,其中所述输入被输入到所述神经网络。
23.根据权利要求13至20中任一项所述的方法,其中生成所述对象的所述动态表示包括:
生成包括来自所述像素事件流的累积事件数据的输入,所述输入包括其中图像像素对应于自从在所述事件相机的对应像素传感器处识别像素事件以来的时间量的图像;以及
经由卷积神经网络(CNN)生成所述动态表示,其中所述输入被输入到所述神经网络。
24.根据权利要求13至20中任一项所述的方法,其中生成所述对象的所述动态表示包括:
生成包括来自所述像素事件流的累积事件数据的输入,所述输入包括所述对象的全帧基于快门的图像,所述图像取自与所述事件相机相同的位置或相对于所述事件相机的已知位置;
经由神经网络生成所述动态表示,其中所述输入被输入到所述神经网络。
25.根据权利要求12至20中任一项所述的方法,其中生成所述对象的所述动态表示包括:
生成包括来自所述像素事件流的累积事件数据的输入;以及
经由循环神经网络生成所述动态表示,其中所述输入被输入到所述神经网络,其中所述循环神经网络使用潜在状态来跟踪所述对象的先前状态。
26.根据权利要求12至20中任一项所述的方法,其中所述对象的所述动态表示包括:
多个多边形的二维网格,每个所述多边形近似于所述可变形表面的相应部分;
深度图表示,所述深度图表示包括限定所述对象与所述多个像素传感器的至少子集之间的距离的深度信息;
多个区域,每个所述区域限定所述可变形表面的对应部分的局部变形;
三维(3D)点的集合,所述3D点的集合限定所述对象的3D模型,所述3D点的集合中的每个点表示所述对象的所述可变形表面上的对应点;
所述对象的三维模型,所述对象的所述三维模型由所述可变形表面限定为任意点的集合;或者
关节模型,所述关节模型包括通过接合部连接的刚性部件。
27.根据权利要求12至26中任一项所述的方法,还包括:
使用表征所述事件相机的各方面的相机相关数据来细化所述对象的所述动态表示,所述相机相关数据包括:非固有参数信息、固有参数信息、限定所述事件相机相对于全局参考系的相对位置和取向的对应关系信息,或它们的组合。
28.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储在计算机上的计算机可执行的程序指令以执行包括以下的操作:
接收由所述事件相机输出的像素事件流,所述事件相机包括多个像素传感器,所述多个像素传感器被定位成接收来自设置在所述事件相机的视场内的场景的光,每个相应像素事件响应于相应像素传感器检测到超过比较器阈值的光强度变化而生成;
使用所述像素事件流生成所述场景中的对象的动态表示,所述对象具有随时间变化的可变形表面;
基于所述像素事件流随时间跟踪所述对象的特征;以及
响应于随时间对所述对象的所述特征的所述跟踪来修改所述对象的所述动态表示。
29.根据权利要求28所述的非暂态计算机可读存储介质,其中随时间跟踪所述对象的所述特征包括识别对应于所述像素事件流中的所述特征的像素事件的模式。
30.根据权利要求28所述的非暂态计算机可读存储介质,其中随时间跟踪所述对象的所述特征包括基于流的跟踪或基于机器学习的跟踪。
CN201880073072.5A 2017-11-14 2018-11-13 基于事件相机的可变形对象跟踪 Active CN111417983B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762586139P 2017-11-14 2017-11-14
US62/586,139 2017-11-14
US201862623784P 2018-01-30 2018-01-30
US62/623,784 2018-01-30
PCT/US2018/060592 WO2019099337A1 (en) 2017-11-14 2018-11-13 Event camera-based deformable object tracking

Publications (2)

Publication Number Publication Date
CN111417983A true CN111417983A (zh) 2020-07-14
CN111417983B CN111417983B (zh) 2023-11-24

Family

ID=64650505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880073072.5A Active CN111417983B (zh) 2017-11-14 2018-11-13 基于事件相机的可变形对象跟踪

Country Status (5)

Country Link
US (1) US11379996B2 (zh)
EP (1) EP3711024B1 (zh)
KR (1) KR102437456B1 (zh)
CN (1) CN111417983B (zh)
WO (1) WO2019099337A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200856A (zh) * 2020-10-16 2021-01-08 北京航空航天大学 一种基于事件相机的视觉测距方法
CN112365585A (zh) * 2020-11-24 2021-02-12 革点科技(深圳)有限公司 一种基于事件相机的双目结构光三维成像方法
CN112688991A (zh) * 2020-12-15 2021-04-20 北京百度网讯科技有限公司 用于执行点云扫描操作的方法、相关装置及计算机程序产品
CN112809679A (zh) * 2021-01-25 2021-05-18 清华大学深圳国际研究生院 可形变物体抓取的方法、装置及计算机可读存储介质
CN113408671A (zh) * 2021-08-18 2021-09-17 成都时识科技有限公司 一种对象识别方法及装置、芯片及电子设备
CN114257744A (zh) * 2021-12-20 2022-03-29 深圳锐视智芯科技有限公司 一种图像处理方法、装置、设备及可读存储介质
CN116188533A (zh) * 2023-04-23 2023-05-30 深圳时识科技有限公司 特征点跟踪方法与装置、电子设备

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220137723A1 (en) * 2017-08-20 2022-05-05 Pixart Imaging Inc. Force sensor device and method for detecting force based on temporal or spatial differential image
US11669746B2 (en) * 2018-04-11 2023-06-06 Samsung Electronics Co., Ltd. System and method for active machine learning
US10812711B2 (en) 2018-05-18 2020-10-20 Samsung Electronics Co., Ltd. Semantic mapping for low-power augmented reality using dynamic vision sensor
EP3690736A1 (en) * 2019-01-30 2020-08-05 Prophesee Method of processing information from an event-based sensor
WO2020197961A1 (en) * 2019-03-27 2020-10-01 Ocelot Laboratories Llc Processing of signals using a recurrent state estimator
JP2020188386A (ja) * 2019-05-15 2020-11-19 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置及び電子機器
CN110399908B (zh) * 2019-07-04 2021-06-08 西北工业大学 基于事件型相机的分类方法和装置、存储介质、电子装置
CN110390685B (zh) * 2019-07-24 2021-03-09 中国人民解放军国防科技大学 一种基于事件相机的特征点跟踪方法
US11983891B2 (en) * 2020-02-25 2024-05-14 Nippon Telegraph And Telephone Corporation Moving target tracking device, moving target tracking method, moving target tracking system, learning device, and program
US20210279967A1 (en) * 2020-03-06 2021-09-09 Apple Inc. Object centric scanning
CN111582300A (zh) * 2020-03-20 2020-08-25 北京航空航天大学 一种基于事件相机的高动态目标检测方法
WO2022033665A1 (en) * 2020-08-11 2022-02-17 Huawei Technologies Co., Ltd. Event sensing device and method
CN112131991B (zh) * 2020-09-15 2024-01-23 厦门大学 一种基于事件相机的数据关联方法
JP7300436B2 (ja) * 2020-11-17 2023-06-29 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、システム、情報処理方法および情報処理プログラム
CN113177640B (zh) * 2021-05-31 2022-05-27 重庆大学 一种离散异步事件数据增强方法
CN114724217B (zh) * 2022-04-07 2024-05-28 重庆大学 基于snn的边缘特征提取与面部表情识别方法
CN114429491B (zh) * 2022-04-07 2022-07-08 之江实验室 一种基于事件相机的脉冲神经网络目标跟踪方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050093697A1 (en) * 2003-11-05 2005-05-05 Sanjay Nichani Method and system for enhanced portal security through stereoscopy
CN102891960A (zh) * 2011-07-19 2013-01-23 安讯士有限公司 用于确定图像调整参数的方法和相机
CN102906623A (zh) * 2010-02-28 2013-01-30 奥斯特豪特集团有限公司 交互式头戴目镜上的本地广告内容
US20150310624A1 (en) * 2014-04-24 2015-10-29 Xerox Corporation Method and system for partial occlusion handling in vehicle tracking using deformable parts model
CN105518584A (zh) * 2013-06-26 2016-04-20 微软技术许可有限责任公司 利用热区识别交互
CN105531995A (zh) * 2013-05-10 2016-04-27 罗伯特·博世有限公司 用于使用多个摄像机进行对象和事件识别的系统和方法
CN105637564A (zh) * 2013-10-04 2016-06-01 高通股份有限公司 产生未知对象的扩增现实内容

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6396496B1 (en) * 1999-01-29 2002-05-28 Mitsubishi Electric Research Laboratories, Inc. Method for modeling graphical objects represented as surface elements
GB201003883D0 (en) * 2010-03-09 2010-04-21 Univ Southampton Apparatus and method for measurement of hand joint movement
US9378576B2 (en) * 2013-06-07 2016-06-28 Faceshift Ag Online modeling for real-time facial animation
FR3020699A1 (fr) 2014-04-30 2015-11-06 Centre Nat Rech Scient Procede de suivi de forme dans une scene observee par un capteur asynchrone de lumiere
US9554100B2 (en) * 2014-09-30 2017-01-24 Qualcomm Incorporated Low-power always-on face detection, tracking, recognition and/or analysis using events-based vision sensor
US10728450B2 (en) 2014-09-30 2020-07-28 Qualcomm Incorporated Event based computer vision computation
KR102307055B1 (ko) * 2015-04-28 2021-10-01 삼성전자주식회사 이벤트 기반 센서의 출력에 기초하여 정적 패턴을 추출하는 방법 및 장치
WO2017044499A1 (en) * 2015-09-07 2017-03-16 Sony Interactive Entertainment America Llc Image regularization and retargeting system
US10242455B2 (en) * 2015-12-18 2019-03-26 Iris Automation, Inc. Systems and methods for generating a 3D world model using velocity data of a vehicle
US10733428B2 (en) * 2017-02-01 2020-08-04 The Government Of The United States Of America, As Represented By The Secretary Of The Navy Recognition actions on event based cameras with motion event features

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050093697A1 (en) * 2003-11-05 2005-05-05 Sanjay Nichani Method and system for enhanced portal security through stereoscopy
CN102906623A (zh) * 2010-02-28 2013-01-30 奥斯特豪特集团有限公司 交互式头戴目镜上的本地广告内容
CN102891960A (zh) * 2011-07-19 2013-01-23 安讯士有限公司 用于确定图像调整参数的方法和相机
CN105531995A (zh) * 2013-05-10 2016-04-27 罗伯特·博世有限公司 用于使用多个摄像机进行对象和事件识别的系统和方法
CN105518584A (zh) * 2013-06-26 2016-04-20 微软技术许可有限责任公司 利用热区识别交互
CN105637564A (zh) * 2013-10-04 2016-06-01 高通股份有限公司 产生未知对象的扩增现实内容
US20150310624A1 (en) * 2014-04-24 2015-10-29 Xerox Corporation Method and system for partial occlusion handling in vehicle tracking using deformable parts model

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
GHOSH, R等: "Real-time object recognition and orientation estimation using an event-based camera and CNN", 《2014 IEEE BIOMEDICAL CIRCUITS AND SYSTEMS CONFERENCE (BIOCAS) PROCEEDINGS》, pages 1 *
HENRI REBECQ等: "VS: Event-Based Multi-View Stereo—3D Reconstruction with an Event Camera in Real-Time", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》, vol. 126, no. 12, pages 1394 - 1414, XP036628564, DOI: 10.1007/s11263-017-1050-6 *
LUIS A. CAMUNAS-MESA等: "On the use of orientation filters for 3D reconstruction in event-driven stereo vision", 《FRONTIERS IN NEUROSCIENCE》, vol. 8, no. 8, pages 4 - 5 *
REVERTER VALEIRAS, D等: "An Asynchronous Neuromorphic Event-Driven Visual Part-Based Shape Tracking", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》, vol. 26, no. 12, pages 3045 - 3047 *
STRAW A D等: "Multi-camera real-time three-dimensional tracking of multiple flying animals", 《JOURNAL OF THE ROYAL SOCIETY INTERFACE》, vol. 8, no. 56, pages 395 - 409 *
TEIZER J等: "Real-time three-dimensional occupancy grid modeling for the detection and tracking of construction resources", 《JOURNAL OF CONSTRUCTION ENGINEERING AND MANAGEMENT》, vol. 133, no. 11, pages 880 - 888 *
于云等: "交通场景中动态事件的语义表达方法", 《信息与控制》, vol. 44, no. 1, pages 83 - 90 *
冯志全等: "基于自然手势跟踪的直接操作型三维人机交互范式", 《计算机学报》, vol. 37, no. 6, pages 1309 - 1323 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200856A (zh) * 2020-10-16 2021-01-08 北京航空航天大学 一种基于事件相机的视觉测距方法
CN112365585A (zh) * 2020-11-24 2021-02-12 革点科技(深圳)有限公司 一种基于事件相机的双目结构光三维成像方法
CN112365585B (zh) * 2020-11-24 2023-09-12 革点科技(深圳)有限公司 一种基于事件相机的双目结构光三维成像方法
CN112688991A (zh) * 2020-12-15 2021-04-20 北京百度网讯科技有限公司 用于执行点云扫描操作的方法、相关装置及计算机程序产品
CN112809679A (zh) * 2021-01-25 2021-05-18 清华大学深圳国际研究生院 可形变物体抓取的方法、装置及计算机可读存储介质
CN113408671A (zh) * 2021-08-18 2021-09-17 成都时识科技有限公司 一种对象识别方法及装置、芯片及电子设备
CN114257744A (zh) * 2021-12-20 2022-03-29 深圳锐视智芯科技有限公司 一种图像处理方法、装置、设备及可读存储介质
CN116188533A (zh) * 2023-04-23 2023-05-30 深圳时识科技有限公司 特征点跟踪方法与装置、电子设备
CN116188533B (zh) * 2023-04-23 2023-08-08 深圳时识科技有限公司 特征点跟踪方法与装置、电子设备

Also Published As

Publication number Publication date
WO2019099337A1 (en) 2019-05-23
CN111417983B (zh) 2023-11-24
US20200273180A1 (en) 2020-08-27
EP3711024B1 (en) 2024-05-01
KR102437456B1 (ko) 2022-08-26
KR20200066371A (ko) 2020-06-09
EP3711024A1 (en) 2020-09-23
US11379996B2 (en) 2022-07-05

Similar Documents

Publication Publication Date Title
US11379996B2 (en) Deformable object tracking
CN111243093B (zh) 三维人脸网格的生成方法、装置、设备及存储介质
CN108875633B (zh) 表情检测与表情驱动方法、装置和系统及存储介质
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
CN112926423B (zh) 捏合手势检测识别方法、装置及系统
CN111710036B (zh) 三维人脸模型的构建方法、装置、设备及存储介质
KR102212209B1 (ko) 시선 추적 방법, 장치 및 컴퓨터 판독가능한 기록 매체
CN108200334B (zh) 图像拍摄方法、装置、存储介质及电子设备
US11928778B2 (en) Method for human body model reconstruction and reconstruction system
CN107688391A (zh) 一种基于单目视觉的手势识别方法和装置
CN113449696B (zh) 一种姿态估计方法、装置、计算机设备以及存储介质
WO2015000286A1 (zh) 基于增强现实的三维互动学习系统及方法
WO2022174594A1 (zh) 基于多相机的裸手追踪显示方法、装置及系统
CN109147024A (zh) 基于三维模型的表情更换方法和装置
KR20220024494A (ko) 사람의 단안 깊이 추정을 위한 방법 및 시스템
Elhayek et al. Fully automatic multi-person human motion capture for vr applications
CN111008935A (zh) 一种人脸图像增强方法、装置、系统及存储介质
Ma et al. Real-time and robust hand tracking with a single depth camera
Kowalski et al. Holoface: Augmenting human-to-human interactions on hololens
KR20160046399A (ko) 텍스쳐 맵 생성 방법 및 장치와 데이터 베이스 생성 방법
JP2022095332A (ja) 学習モデル生成方法、コンピュータプログラム及び情報処理装置
WO2020263277A1 (en) Landmark temporal smoothing
CN111652023B (zh) 嘴型的调整、直播方法、装置、电子设备和存储介质
CN110619262B (zh) 图像识别的方法及装置
Jian et al. Realistic face animation generation from videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant