CN115004293A - 基于时间已知的自监督学习的基于视频的3d手势和网格估计 - Google Patents

基于时间已知的自监督学习的基于视频的3d手势和网格估计 Download PDF

Info

Publication number
CN115004293A
CN115004293A CN202180009241.0A CN202180009241A CN115004293A CN 115004293 A CN115004293 A CN 115004293A CN 202180009241 A CN202180009241 A CN 202180009241A CN 115004293 A CN115004293 A CN 115004293A
Authority
CN
China
Prior art keywords
hand
computer
optical flow
cause
computer processors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180009241.0A
Other languages
English (en)
Inventor
林斯姚
谢于晟
唐晖
黄超
韩连漪
范伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN115004293A publication Critical patent/CN115004293A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

提供了一种用于估计图像中的三维手势的方法、计算机程序以及计算机系统。接收与两个手部图像对应的数据,并且计算与所接收的手部图像数据中的手部姿势变化对应的光流值。基于所计算的光流生成热图,并且基于所生成的热图估计手部网格图。基于所估计的手部网格图确定存在于手部图像内的手势。

Description

基于时间已知的自监督学习的基于视频的3D手势和网格估计
相关申请的交叉引用
本申请要求于2020年2月13日提交的美国申请16/789,507的优先权,该美国申请在此通过引用将其全部内容明确地并入本申请。
背景技术
本公开内容总体上涉及计算领域,并且更具体地涉及机器学习。
手势估计是从图像或一组视频帧中找到手部的关节的任务。估计红-绿-蓝(Red-Green-Blue,RGB)彩色图像中的三维(Three-Dimensional,3D)手势对于广泛的潜在应用例如计算机视觉、虚拟现实、增强现实和其他形式的人机交互是必不可少的。由于通过网络摄像装置、物联网(Internet of Thing,IoT)摄像装置和智能电话捕获RGB图像的易实现性,估计RGB图像中的手势显著地变得更加流行。
发明内容
实施方式涉及用于估计3D手势的方法、系统以及计算机可读介质。根据一方面,提供了一种用于估计3D手势的方法。该方法可以包括由计算机接收与两个手部图像对应的数据。计算机可以计算与所接收的手部图像数据中的手部姿势变化对应的光流值,并且可以基于所计算的光流生成热图。可以由计算机基于所生成的热图估计手部网格图,并且可以基于所估计的手部网格图确定存在于手部图像内的手势。
根据另一方面,提供了一种用于估计3D手势的计算机系统。计算机系统可以包括一个或更多个处理器、一个或更多个计算机可读存储器、一个或更多个计算机可读有形存储设备以及存储在一个或更多个存储设备中的至少一个上的程序指令,所述程序指令用于由一个或更多个处理器中的至少一个经由一个或更多个存储器中的至少一个执行,由此计算机系统能够执行方法。该方法可以包括由计算机接收与两个手部图像对应的数据。计算机可以计算与所接收的手部图像数据中的手部姿势变化对应的光流值,并且可以基于所计算的光流生成热图。可以由计算机基于所生成的热图估计手部网格图,并且可以基于所估计的手部网格图确定手部图像内存在的手势。
根据又一方面,提供了一种用于估计3D手势的计算机可读介质。计算机可读介质可以包括一个或更多个计算机可读存储设备以及存储在一个或更多个有形存储设备中的至少一个上的程序指令,所述程序指令能够由处理器执行。程序指令能够由处理器执行,以执行方法,该方法可以相应地包括由计算机接收与两个手部图像对应的数据。计算机可以计算与所接收的手部图像数据中的手部姿势变化对应的光流值,并且可以基于所计算的光流生成热图。可以由计算机基于所生成的热图估计手部网格图,并且可以基于所估计的手部网格图确定手部图像内存在的手势。
附图说明
从下面要结合附图阅读的说明性实施方式的详细说明,这些和其他目的、特征以及优点将变得明显。附图的各种特征不是按比例的,因为图示是为了清楚地便于本领域技术人员结合详细描述进行理解。在附图中:
图1示出了根据至少一个实施方式的联网计算机环境;
图2是根据至少一个实施方式的估计3D手势的程序的框图;
图3是示出根据至少一个实施方式的由估计3D手势的程序执行的步骤的操作性流程图;
图4是根据至少一个实施方式的图1中描绘的计算机和服务器的内部部件和外部部件的框图;
图5是根据至少一个实施方式的包括图1中描绘的计算机系统的说明性云计算环境的框图;以及
图6是根据至少一个实施方式的图5的说明性云计算环境的功能层的框图。
具体实施方式
本文中公开了所要求保护的结构和方法的详细实施方式;然而,可以理解,所公开的实施方式仅是对可以以各种形式实施的所要求保护的结构和方法的说明。然而,那些结构和方法可以以许多不同的形式来实施,并且不应当被解释为限于本文中所阐述的示例性实施方式。相反,提供这些示例性实施方式使得本公开内容将是全面和完整的,并且将向本领域技术人员充分传达范围。在描述中,会省略公知的特征和技术的细节以避免不必要地混淆所呈现的实施方式。
实施方式总体上涉及计算领域,并且更具体地涉及机器学习。以下描述的示例性实施方式提供了估计3D手势等的系统、方法以及程序产品。因此,一些实施方式具有以下能力:通过允许使用深度神经网络以允许计算机仅使用2D空间信息来确定3D手势来改进计算领域。
如前所述,手势估计是从图像或一组视频帧中找到手部的关节的任务。估计红-绿-蓝(RGB)彩色图像中的三维(3D)手势对于广泛的潜在应用例如计算机视觉、虚拟现实、增强现实和其他形式的人机交互是必不可少的。由于通过网络摄像装置、物联网(IoT)摄像装置和智能电话捕获RGB图像的易实现性,估计RGB图像中的手势显著地变得更加流行。直接从RGB图像中估计3D手势是具有挑战性的任务,但是使用带注释的3D手势训练深度模型已经取得了进展。然而,对3D手势进行注释可能是困难的,并且因此,在有限的样本大小的情况下,仅少数3D手势数据集可以可用。因此,使用机器学习和神经网络根据RGB图像训练3D手势估计模型而无需显式3D注释(即,仅使用2D信息进行训练)是有利的。
在本文中参照根据各种实施方式的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各方面。应当理解,流程图和/或框图的每个块以及流程图和/或框图中的块的组合可以由计算机可读程序指令来实现。
以下描述的示例性实施方式提供了估计3D手势的系统、方法和计算机可读介质。根据本实施方式,被称为时间已知的自监督网络(Temporal-Aware Self-SupervisedNetwork,TASSN)的自监督学习模型可以用于通过实施时间一致性约束从仅使用2D关键帧位置注释的视频中估计3D手势和网格。
现在参照图1,示出了联网计算机环境的功能性框图,该联网计算机环境示出了用于3D手势的改进估计的手势估计系统100(在下文中为“系统”)。应当理解,图1仅提供了一种实现方式的图示,并且并不暗示关于其中可以实现不同实施方式的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
系统100可以包括计算机102和服务器计算机114。计算机102可以经由通信网络110(在下文中为“网络”)与服务器计算机114通信。计算机102可以包括处理器104和存储在数据存储设备106上的软件程序108,计算机102能够与用户接口并与服务器计算机114通信。如下面将参照图4所讨论的,计算机102可以分别包括内部部件800A和外部部件900A,并且服务器计算机114可以分别包括内部部件800B和外部部件900B。计算机102可以是例如移动设备、电话、个人数字助手、上网本、膝上型计算机、平板计算机、台式计算机或者能够运行程序、访问网络并且访问数据库的任何类型的计算设备。
如下面关于图5和图6所讨论的,服务器计算机114还可以在云计算服务模型例如软件即服务(Software as a Service,SaaS)、平台即服务(Platform as a Service,PaaS)或基础设施即服务(Infrastructure as a Service,1aaS)中操作。服务器计算机114还可以位于云计算部署模型例如私有云、社区云、公共云或混合云中。
可以用于估计图像中的三维手势的服务器计算机114能够运行可以与数据库112交互的手势估计程序116(在下文中为“程序”)。在下面关于图3更详细地说明手势估计程序方法。在一个实施方式中,计算机102可以作为包括用户接口的输入设备来操作,而程序116可以主要在服务器计算机114上运行。在替选实施方式中,程序116可以主要在一个或更多个计算机102上运行,而服务器计算机114可以用于处理和存储由程序116使用的数据。应当注意,程序116可以是独立的程序或者可以集成至更大的手势估计程序中。
然而,应当注意,在一些情况下,针对程序116的处理可以以任何比率在计算机102与服务器计算机114之间分担。在另一实施方式中,程序116可以在多于一个计算机、服务器计算机或者计算机和服务器计算机的一些组合例如跨网络110与单个服务器计算机114通信的多个计算机102上操作。在另一实施方式中,例如,程序116可以在跨网络110与多个客户端计算机通信的多个服务器计算机114上操作。替选地,程序可以在跨网络与服务器和多个客户端计算机通信的网络服务器上操作。
网络110可以包括有线连接、无线连接、光纤连接或它们的一些组合。通常,网络110可以是支持计算机102与服务器计算机114之间的通信的连接和协议的任何组合。网络110可以包括各种类型的网络,诸如例如局域网(Local Area Network,LAN)、诸如因特网的广域网(Wide Area Network,WAN)、诸如公共交换电话网络(Public Switched TelephoneNetwork,PSTN)的电信网络、无线网络、公共交换网络、卫星网络、蜂窝网络(例如,第五代(Fifth Generation,5G)网络、长期演进(Long-Term Evolution,LTE)网络、第三代(ThirdGeneration,3G)网络、码分多址(Code Division Multiple Access,CDMA)网络等)、公共陆地移动网络(Public Land Mobile Network,PLMN)、城域网(Metropolitan Area Network,MAN)、专用网络、自组织网络、内联网、基于光纤的网络等,以及/或者这些或其他类型的网络的组合。
提供图1所示的设备和网络的数目和布置作为示例。在实践中,可以存在与图1所示的设备和/或网络相比附加的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或者不同布置的设备和/或网络。此外,图1所示的两个或更多个设备可以在单个设备内实现,或者图1所示的单个设备可以被实现为多个分布式设备。附加地或替选地,系统100的一组设备(例如,一个或更多个设备)可以执行被描述为由系统100的另一组设备执行的一个或更多个功能。
参照图2,描绘了图1的手势估计程序116的框图200。图2可以借助于图1中描述的示例性实施方式来描述。相应地,手势估计程序116可以包括流估计模块202、热图估计模块204、图形卷积网络(Graph Convolutional Network,GCN)手部网格估计模块206和3D手势估计模块208等。手势估计程序116可以被配置成接收手部图像数据210,针对一个或更多个特征F创建特征数据212,并且可以输出手势数据214。手势估计程序116还可以生成热图损失值Lh和网格损失值Lm。根据一个实施方式,手势估计程序116可以位于计算机102(图1)上。根据替选实施方式,手势估计程序116可以位于服务器计算机114(图1)上。
手势图像数据212可以包括具有N帧的RGB手部运动视频x等,其中x={It,…,It+n},
Figure BDA0003746810100000051
可以是第t帧,并且W和H可以分别是帧宽度和高度。帧t处的3D手势
Figure BDA0003746810100000052
可以由手部的一组3D关键点坐标表示,其中K可以是关键点的数目。利用视频的时间一致性特性,正向和反向推断处理中预测的手势和网格可以执行相互监督。利用这样的方法,可以使用自监督学习来训练模型,并且可以不再需要3D手部关键点注释。使用手部网格来训练手势估计器提高了性能,因为手部网格可以用作手势预测的中间指导。
流估计模块202可以使用正向和反向推断来估计两个连续帧之间的光流。热图估计模块204可以计算2D手部关键点,并且生成3D手势的特征和网格估计器。所估计的2D关键点热图可以由
Figure BDA0003746810100000061
表示,其中K可以表示关键点的数目。两个堆叠的沙漏网络可以用于推断手部关键点热图H并且计算特征数据212。
热图估计模块204可以将It+1、ot+1和Ht作为输入连接至堆叠的沙漏网络,其可以产生热图Ht+1。所估计的Ht+1可以包括K个热图
Figure BDA0003746810100000062
其中
Figure BDA0003746810100000063
可以表示第k个关键点的位置的置信图。真值(ground truth)热图
Figure BDA0003746810100000064
可以是以第k个关键点的真值位置为中心的狄拉克-δ分布的高斯模糊。帧t处的热图损失Lh可以由
Figure BDA0003746810100000065
Figure BDA0003746810100000066
限定。
图形卷积网络(GCN)手部网格估计模块206可以将手部特征数据212作为输入,并且可以推断3D手部网格。输出的手部网格
Figure BDA0003746810100000067
可以由一组3D网格顶点表示,其中C可以是手部网格中的顶点的数目。手部网格可以以粗至细的方式构造,并且多级聚类算法可以用于使图形粗化。该图形可以以每个级别存储,并且图形节点之间的映射可以以每两个连续的级别存储。在正向推断中,GCN可以根据存储的映射和图形对节点特征进行上采样,并且可以执行图形卷积运算。为了避免折叠的网格,可以使用网格损失值Lm来计算帧t处的预测的手部网格的轮廓st与真值轮廓
Figure BDA0003746810100000068
之间的差。轮廓损失可以由
Figure BDA0003746810100000069
限定。为了获得
Figure BDA00037468101000000610
可以根据训练图像估计手部轮廓,并且可以通过使用神经渲染方法获得预测的手部网格mt的轮廓。
3D手势估计模块208可以根据预测的手部网格mt直接推断3D手部关键点pt。3D手势估计模块208可以包含两个堆叠GCN的网络等。池化层可以被添加至每个GCN以从网格中提取手势特征,并且手势特征可以被馈送至两个完全连接的层中,以对3D手势pt进行回归。
现在参照图3,描绘了示出由估计3D手势的程序执行的步骤的操作流程图300。图3可以借助于图1和图2来描述。如前所述,手势估计程序116(图1)可以根据2D数据快速且有效地确定3D手势。
在302处,由计算机接收与两个手部图像对应的数据。手部图像数据可以是二维数据。手部图像数据可以是两个离散图像,或者可以是从视频源中提取的连续帧。在操作时,手势估计程序(图1)可以通过通信网络110(图1)接收手部图像数据210(图2)。
在304处,由计算机计算与所接收的手部图像数据中的手部姿势变化对应的光流值。通过确定图像之间手部位置的变化,时间数据可以用于帮助确定图像内存在的手势。在操作时,流估计模块202(图2)可以使用正向和反向推断从手部图像数据210(图2)中确定两个连续图像之间的变化。
在306处,由计算机基于所计算的光流值生成热图。可以使用二维手部关键点来计算热图,这可以允许确定三维手势中存在的特征并且生成网格估计器。在操作时,热图估计模块204(图2)可以从流估计模块202(图2)接收光流值,并且可以将手部图像数据210(图)作为输入。热图估计模块204可以生成热图并且识别可以对应于手部图像数据210的特征的特征数据212(图2)。
在308处,由计算机基于所生成的热图估计手部网格图。手部网格图可以通过应用卷积神经网络的层的操作来实现对手势的粗至细的构造。在操作时,GCN手部网格估计模块206可以接收特征数据212和来自热图估计模块204的热图。GCN手部网格估计模块206可以估计与手部图像数据210内存在的手势对应的三维网格。
在310处,由计算机基于所估计的手部网格图确定手部图像内存在的手势。可以在不使用三维注释而仅使用二维图像数据的情况下生成手势。在操作时,3D手势估计模块208可以从GCN手部网格估计模块接收手部网格,并且可以基于3D手部网格确定与手部相关联的手势。
可以理解,图3仅提供了一种实现方式的图示,并且并不暗示关于可以如何实现不同实施方式的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
图4是根据说明性实施方式的图1中描绘的计算机的内部部件和外部部件的框图400。应当理解,图4仅提供了一种实现方式的图示,并且并不暗示关于其中可以实现不同实施方式的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
计算机102(图1)和服务器计算机114(图1)可以包括图4所示的内部部件800A、800B和外部部件900A、900B的相应组。每组内部部件800包括一个或更多个总线826上的一个或更多个处理器820、一个或更多个计算机可读RAM 822以及一个或更多个计算机可读ROM 824、一个或更多个操作系统828以及一个或更多个计算机可读有形存储设备830。
处理器820以硬件、固件或硬件和软件的组合来实现。处理器820是中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、加速处理单元(Accelerated Processing Unit,APU)、微处理器、微控制器、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(field-programmable gatearray,FPGA)、专用集成电路(Application-Specific Integrated Circuit,ASIC)或另一类型的处理部件。在一些实现方式中,处理器820包括能够被编程以执行功能的一个或更多个处理器。总线826包括允许内部部件800A、800B之间的通信的部件。
一个或更多个操作系统828、软件程序108(图1)以及服务器计算机114(图1)上的手势估计程序116(图1)存储在一个或更多个相应的计算机可读有形存储设备830上以由一个或更多个相应的处理器820经由一个或更多个相应的RAM 822(其通常包括高速缓冲存储器)来执行。在图4所示的实施方式中,计算机可读有形存储设备830中的每一个是内部硬盘驱动器的磁盘存储设备。替选地,计算机可读有形存储设备830中的每一个是半导体存储设备例如ROM 824、EPROM、闪存、光盘、磁光盘、固态盘、致密盘(Compact Disc,CD)、数字多功能盘(Digital Versatile Disk,DVD)、软盘、盒式磁带、磁带和/或可以存储计算机程序和数字信息的另一类型的非暂态计算机可读有形存储设备。
每组内部部件800A、800B还包括R/W驱动器或接口832以从一个或更多个便携式计算机可读有形存储设备936例如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储设备读取和向其写入。诸如软件程序108(图1)和手势估计程序116(图1)的软件程序可以存储在一个或更多个相应的便携式计算机可读有形存储设备936上,经由相应的R/W驱动器或接口832读取,并且加载至相应的硬盘驱动器830中。
每组内部部件800A、800B还包括网络适配器或接口836,例如TCP/IP适配器卡;无线Wi-Fi接口卡;或者3G、4G或5G无线接口卡或其他有线或无线通信链路。软件程序108(图1)和服务器计算机114(图1)上的手势估计程序116(图1)可以经由网络(例如因特网、局域网或其他、广域网)和相应的网络适配器或接口836从外部计算机下载至计算机102(图1)和服务器计算机114。将软件程序108和服务器计算机114上的手势估计程序116从网络适配器或接口836加载至相应的硬盘驱动器830中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。
每组外部部件900A、900B可以包括计算机显示监视器920、键盘930和计算机鼠标934。外部部件900A、900B还可以包括触摸屏、虚拟键盘、触摸板、定点设备以及其他人机接口设备。每组内部部件800A、800B还包括与计算机显示监视器920、键盘930和计算机鼠标934连接的设备驱动器840。设备驱动器840、R/W驱动器或接口832以及网络适配器或接口836包括硬件和软件(存储在存储设备830和/或ROM 824中)。
预先理解,尽管本公开内容包括关于云计算的详细描述,但是本文中所述的教导的实现方式不限于云计算环境。相反,一些实施方式能够结合现在已知或以后开发的任何其他类型的计算环境来实现。
云计算是用于实现对可配置计算资源(例如网络、网络带宽、服务器、处理、存储器、存储设备、应用、虚拟机以及服务)的共享池的方便、按需网络访问的服务交付模型,该可配置计算资源可以以最小的管理努力或与服务提供商的交互而被快速提供和释放。该云模型可以包括至少五个特征、至少三个服务模型以及至少四个部署模型。
特征如下:
按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力例如服务器时间和网络存储,而无需与服务提供商进行人工交互。
广泛的网络访问:能力能够通过网络获得,并且通过促进由异构瘦客户端或厚客户端平台(例如移动电话、膝上型计算机以及PDA)的使用的标准机制来访问。
资源池化:提供商的计算资源被池化以使用多租户模型为多个消费者提供服务,其中不同的物理和虚拟资源根据需求被动态分配和重新分配。存在位置无关的感觉,原因在于消费者通常无法控制或了解所提供资源的确切位置,但是可以能够在更高的抽象级别(例如国家、州或数据中心)处指定位置。
快速弹性:可以快速且弹性地提供能力(在某些情况下是自动地)以快速向外扩展,并且快速释放以快速向内拓展。对于消费者,能够用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量进行购买。
测量服务:云系统通过在适合于服务类型(例如存储、处理、带宽以及活动用户账户)的某种抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制以及报告资源使用,从而为所用服务的提供商和消费者两者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供商的应用。能够通过诸如web浏览器(例如基于web的电子邮件)的瘦客户端界面从各种客户端设备来访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储设备或甚至单个应用能力的底层云基础设施,其中可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将使用由提供商支持的编程语言和工具创建的消费者创建或获取的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储设备的底层云基础设施,但是具有对所部署的应用和托管环境配置的可能的应用的控制。
基础设施即服务(1aaS):提供给消费者的能力是提供处理、存储、网络以及消费者能够部署和运行任意软件的其他基本计算资源,所述任意软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,但是具有对操作系统、存储、所部署的应用的控制以及可能对选定的联网部件(例如,主防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅针对组织操作。云基础设施可以由组织或第三方管理,并且可以存在于本地(on-premises)或外部(off-premises)。
社区云:云基础设施由若干组织共享,并且支持具有共同关注点(例如,任务、安全要求、策略以及合规性考虑)的特定社区。云基础设施可以由组织或第三方管理,并且可以存在于本地或外部。
公共云:云基础设施能够供一般公众或大型行业团体使用,并且由销售云服务的组织所拥有。
混合云:云基础设施是两个或更多个云(私有云、社区云或公共云)的组合,所述两个或更多个云仍然是唯一的实体,但是通过实现数据和应用可移植性(例如,用于云之间的负载平衡的云爆发)的标准化或专有技术绑定在一起。
云计算环境是面向服务的,其聚焦于无状态、低耦合、模块性以及语义互操作性。云计算的核心是包括互连节点网络的基础设施。
参照图5,描绘了说明性云计算环境500。如所示出的,云计算环境500包括一个或更多个云计算节点10,由云消费者所使用的本地计算设备例如个人数字助理(PersonalDigital Assistant,PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N可以与一个或更多个云计算节点10进行通信。云计算节点10可以彼此通信。云计算节点10可以被物理地或虚拟地分组(未示出)在一个或更多个网络例如如上所述的私有云、社区云、公共云或混合云或其组合中。这允许云计算环境500提供基础设施、平台和/或软件作为服务,云消费者不需要为该服务在本地计算设备上维护资源。应当理解,图5所示的计算设备54A至54N的类型仅旨在是说明性的,并且该云计算节点10和云计算环境500可以通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备进行通信。
参照图6,示出了由云计算环境500(图5)提供的一组功能抽象层600。应当预先理解,图6所示的部件、层以及功能仅旨在是说明性的,并且实施方式不限于此。如所描绘的,提供了以下层和对应的功能:
硬件和软件层60包括硬件部件和软件部件。硬件部件的示例包括:大型主机61;基于RISC(Reduced Instruction Set Computer,精简指令集计算机)架构的服务器62;服务器63;刀片式服务器64;存储设备65;以及网络和联网部件66。在一些实施方式中,软件部件包括网络应用服务器软件67和数据库软件68。
虚拟层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储设备72;包括虚拟专用网络的虚拟网络73;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供下述功能。资源提供81提供计算资源和用于在云计算环境内执行任务的其他资源的动态获取。计量和定价82提供了在云计算环境内利用资源时的成本跟踪,以及对这些资源的消费的账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理,使得满足所需的服务级别。服务级别协议(Service LevelAgreement,SLA)规划和履行85提供对云计算资源的预安排和获取,根据SLA预期对该云计算资源的未来需求。
工作负载层90提供了可以对其利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:绘图和导航91;软件开发和生命周期管理92;虚拟课堂教学交付93;数据分析处理94;交易处理95;以及手势估计96。手势估计96可以根据2D数据估计3D手势。
一些实施方式可以涉及任何可能的集成技术细节级别的系统、方法和/或计算机可读介质。计算机可读介质可以包括一个或多个计算机可读非暂态存储介质,所述计算机可读非暂态存储介质上具有用于使处理器执行操作的计算机可读程序指令。
计算机可读存储介质可以是可以保留和存储由指令执行设备使用的指令的有形设备。例如,计算机可读存储介质可以是但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更特定示例的非穷举列表包括以下:便携式计算机软盘、硬盘、随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM或闪存)、静态随机存取存储器(Static RandomAccess Memory,SRAM)、便携式致密盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备例如其上记录有指令的穿孔卡或凹槽中的凸起结构,以及前述的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为是暂态信号本身例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆传送的光脉冲)或通过导线传输的电信号。
本文中描述的计算机可读程序指令可以从计算机可读存储介质下载至相应的计算/处理设备,或者经由网络例如因特网、局域网、广域网和/或无线网络下载至外部计算机或外部存储设备。网络可以包括铜传输线缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并且转发计算机可读程序指令以存储在相应的计算/处理设备内的计算机可读存储介质中。
用于执行操作的计算机可读程序代码/指令可以是汇编指令、指令集架构(Instruction-Set-Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据或者以一种或更多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言(例如,Smalltalk、C++等)以及过程编程语言(例如,“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上且部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接至用户的计算机,或者可以(例如,通过使用因特网服务提供商的因特网)与外部计算机进行连接。在一些实施方式中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(Programmable Logic Array,PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路专用化,以便执行各方面或操作。
可以将这些计算机可读程序指令提供至通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个块中所指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式运行,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个块中所指定的功能/动作的各方面的指令。
计算机可读程序指令还可以加载至计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个块中所指定的功能/动作。
附图中的流程图和框图示出了根据各种实施方式的系统、方法以及计算机可读介质的可能实现方式的架构、功能和操作。在这一点上,流程图或框图中的每个块可以表示模块、段或指令的部分,其包括用于实现指定逻辑功能的一个或更多个可执行指令。该方法、计算机系统以及计算机可读介质可以包括与附图中所描绘的那些块相比附加的块、更少的块、不同的块或不同布置的块。在一些替选实现方式中,块中指出的功能可以不按附图中指出的顺序发生。例如,连续示出的两个块实际上可以同时或基本上同时执行,或者块有时可以以相反的顺序执行,这取决于所涉及的功能。还应当注意,框图和/或流程图的每个块以及框图和/或流程图中的块的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。
将明显的是,本文中描述的系统和/或方法可以以硬件、固件或硬件和软件的组合的不同形式来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不限制实现方式。因此,本文中描述了系统和/或方法的操作和行为,而没有参考特定的软件代码——应当理解,软件和硬件可以被设计成基于本文中的描述来实现系统和/或方法。
除非明确地如此描述,否则本文中使用的任何元素、动作或指令均不应被解释为关键或必要的。此外,如本文所使用的,冠词“一(a或an)”旨在包括一个或更多个项,并且可以与“一个或更多个”互换使用。此外,如本文所使用的,术语“组”旨在包括一个或更多个项(例如,相关项、不相关项、相关项和不相关项的组合等),并且可以与“一个或更多个”互换使用。在仅意指一个项的情况下,使用术语“一个(one)”或类似的语言。此外,如本文所使用的,术语“具有(has)”、“具有(have)”、“具有(having)”等旨在为开放式术语。此外,除非另有明确说明,否则短语“基于”旨在表示“至少部分基于”。
对各个方面和实施方式的描述已经出于说明的目的而呈现,但是不旨在穷举或限于所公开的实施方式。即使在权利要求中记载和/或在说明书中公开了特征的组合,这些组合不旨在限制可能的实现方式的公开内容。实际上,这些特征中的许多特征可以以未在权利要求书中具体记载和/或未在说明书中公开的方式进行组合。尽管所列出的每个从属权利要求可以直接引用仅一个权利要求,但是可能的实现方式的公开内容包括每个从属权利要求与权利要求集中的每个其他权利要求的组合。在不脱离所描述的实施方式的范围的情况下,许多修改和变化对于本领域普通技术人员而言将是明显的。选择本文中所使用的术语是为了最好地说明实施方式的原理、实际应用或对市场中发现的技术的技术改进,或者使本领域的其他普通技术人员能够理解本文中公开的实施方式。

Claims (20)

1.一种由计算机估计图像中的三维(3D)手势的方法,所述方法包括:
接收与两个手部图像对应的数据;
计算与所接收的手部图像数据中的手部姿势变化对应的光流值;
基于所计算的光流生成热图;
基于所生成的热图估计手部网格图;以及
基于所估计的手部网格图确定存在于所述手部图像内的手势。
2.根据权利要求1所述的方法,其中,计算所述光流值包括:
在正向方向上推断所述两个手部图像之间的第一光流;
在逆向方向上推断所述两个手部图像之间的第二光流;以及
基于所推断的第一光流和第二光流确定所述光流值。
3.根据权利要求1所述的方法,其中,生成所述热图包括:
计算一个或更多个二维手部关键点;以及
基于计算机二维手部关键点生成一个或更多个特征。
4.根据权利要求3所述的方法,其中,计算所述二维手部关键点包括:
根据所述手部图像数据推断一个或更多个特征;
生成与每个所推断的特征对应的置信图;以及
计算与所生成的置信图对应的狄拉克-δ分布的高斯模糊。
5.根据权利要求1所述的方法,其中,估计所述手部网格图包括:
基于所述手部图像数据中的一个或更多个特征推断三维手部网格;以及
将对应于所推断的三维手部网格的轮廓与对应于与训练图像相关联的预测的手部网格的轮廓进行比较。
6.根据权利要求1所述的方法,其中,确定所述手势包括:
将一个或更多个图形卷积网络应用于所估计的手部网格图;
基于将池化层应用于所述一个或更多个图形卷积网络来提取一个或更多个手势特征;以及
响应于将一个或更多个完全连接的层应用于所提取的特征来生成所述手势。
7.根据权利要求1所述的方法,其中,仅使用二维数据而不使用三维注释来确定所述手势。
8.根据权利要求1所述的方法,还包括生成热图损失值和网格损失值。
9.根据权利要求8所述的方法,还包括通过使所述热图损失值和所述网格损失值最小化来训练手势估计。
10.根据权利要求1所述的方法,其中,所述手部图像数据包括视频的两个连续帧。
11.一种用于估计图像中的三维(3D)手势的计算机系统,所述计算机系统包括:
一个或更多个计算机可读非暂态存储介质,所述一个或更多个计算机可读非暂态存储介质被配置成存储计算机程序代码;以及
一个或更多个计算机处理器,所述一个或更多个计算机处理器被配置成访问所述计算机程序代码并且如由所述计算机程序代码所指示的进行操作,所述计算机程序代码包括:
接收代码,所述接收代码被配置成使所述一个或更多个计算机处理器接收与两个手部图像对应的数据;
计算代码,所述计算代码被配置成使所述一个或更多个计算机处理器计算与所接收的手部图像数据中的手部姿势变化对应的光流值;
生成代码,所述生成代码被配置成使所述一个或更多个计算机处理器基于所计算的光流生成热图;
估计代码,所述估计代码被配置成使所述一个或更多个计算机处理器基于所生成的热图估计手部网格图;以及
确定代码,所述确定代码被配置成使所述一个或更多个计算机处理器基于所估计的手部网格图确定存在于所述手部图像内的手势。
12.根据权利要求11所述的系统,其中,计算所述光流值包括:
将第一推断代码配置成使所述一个或更多个计算机处理器在正向方向上推断所述两个手部图像之间的第一光流;
将第二推断代码配置成使所述一个或更多个计算机处理器在逆向方向上推断所述两个手部图像之间的第二光流;以及
将光流确定代码配置成使所述一个或更多个计算机处理器基于所推断的第一光流和第二光流确定所述光流值。
13.根据权利要求11所述的系统,其中,生成所述热图包括:
将计算代码配置成使所述一个或更多个计算机处理器计算一个或更多个二维手部关键点;以及
将特征生成代码配置成使所述一个或更多个计算机处理器基于计算机二维手部关键点生成一个或更多个特征。
14.根据权利要求13所述的系统,其中,计算所述二维手部关键点包括:
将推断代码配置成使所述一个或更多个计算机处理器根据所述手部图像数据推断一个或更多个特征;
将置信图生成代码配置成使所述一个或更多个计算机处理器生成与每个所推断的特征对应的置信图;以及
将计算代码配置成使所述一个或更多个计算机处理器计算与所生成的置信图对应的狄拉克-δ分布的高斯模糊。
15.根据权利要求11所述的系统,其中,估计所述手部网格图包括:
将推断代码配置成使所述一个或更多个计算机处理器基于所述手部图像数据中的一个或更多个特征推断三维手部网格;以及
将比较代码配置成使所述一个或更多个计算机处理器将对应于所推断的三维手部网格的轮廓与对应于与训练图像相关联的预测的手部网格的轮廓进行比较。
16.根据权利要求11所述的系统,其中,确定所述手势包括:
将应用代码配置成使所述一个或更多个计算机处理器将一个或更多个图形卷积网络应用于所估计的手部网格图;
将提取代码配置成使所述一个或更多个计算机处理器基于将池化层应用于所述一个或更多个图形卷积网络来提取一个或更多个姿势特征;以及
将手势生成代码配置成使所述一个或更多个计算机处理器响应于将一个或更多个完全连接的层应用于所提取的特征来生成所述手势。
17.根据权利要求11所述的系统,其中,仅使用二维数据而不使用三维注释来确定所述手势。
18.根据权利要求11的所述系统,还包括损失值生成代码,所述损失值生成代码被配置成使所述一个或更多个计算机处理器生成热图损失值和网格损失值。
19.根据权利要求18所述的系统,还包括训练代码,所述训练代码被配置成使所述一个或更多个计算机处理器通过使所述热图损失值和所述网格损失值最小化来训练手势估计。
20.一种其上存储有用于估计图像中的三维(3D)手势的计算机程序的非暂态计算机可读介质,所述计算机程序被配置成使一个或更多个计算机处理器:
接收与两个手部图像对应的数据;
计算与所接收的手部图像数据中的手部姿势变化对应的光流值;
基于所计算的光流生成热图;
基于所生成的热图估计手部网格图;以及
基于所估计的手部网格图确定存在于所述手部图像内的手势。
CN202180009241.0A 2020-02-13 2021-02-08 基于时间已知的自监督学习的基于视频的3d手势和网格估计 Pending CN115004293A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/789,507 2020-02-13
US16/789,507 US11222200B2 (en) 2020-02-13 2020-02-13 Video-based 3D hand pose and mesh estimation based on temporal-aware self-supervised learning
PCT/US2021/017059 WO2021162983A1 (en) 2020-02-13 2021-02-08 Video-based 3d hand pose and mesh estimation based on temporal-aware self-supervised learning

Publications (1)

Publication Number Publication Date
CN115004293A true CN115004293A (zh) 2022-09-02

Family

ID=77272652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180009241.0A Pending CN115004293A (zh) 2020-02-13 2021-02-08 基于时间已知的自监督学习的基于视频的3d手势和网格估计

Country Status (4)

Country Link
US (1) US11222200B2 (zh)
EP (1) EP4094249A4 (zh)
CN (1) CN115004293A (zh)
WO (1) WO2021162983A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240354988A1 (en) * 2023-04-21 2024-10-24 Samsung Electronics Co., Ltd. System and method for learning to synthesize hand-object interaction scene

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
US20140071125A1 (en) * 2012-09-11 2014-03-13 The Johns Hopkins University Patient-Specific Segmentation, Analysis, and Modeling from 3-Dimensional Ultrasound Image Data
US10254845B2 (en) 2016-01-05 2019-04-09 Intel Corporation Hand gesture recognition for cursor control
US10354129B2 (en) * 2017-01-03 2019-07-16 Intel Corporation Hand gesture recognition for virtual reality and augmented reality devices
CN109214245B (zh) * 2017-07-03 2022-02-18 株式会社理光 一种目标跟踪方法、装置、设备及计算机可读存储介质
US10497145B2 (en) * 2017-11-16 2019-12-03 Nec Corporation System and method for real-time large image homography processing
US10628667B2 (en) 2018-01-11 2020-04-21 Futurewei Technologies, Inc. Activity recognition method using videotubes
WO2019168765A1 (en) * 2018-02-27 2019-09-06 Portland State University Context-aware synthesis for video frame interpolation
US10929654B2 (en) 2018-03-12 2021-02-23 Nvidia Corporation Three-dimensional (3D) pose estimation from a monocular camera
WO2020050828A1 (en) * 2018-09-05 2020-03-12 Hewlett-Packard Development Company, L.P. Optical flow maps
US10970856B2 (en) * 2018-12-27 2021-04-06 Baidu Usa Llc Joint learning of geometry and motion with three-dimensional holistic understanding
US11127206B2 (en) * 2019-01-29 2021-09-21 Realmotion Inc. Device, system, and method of generating a reduced-size volumetric dataset
US10956724B1 (en) * 2019-09-10 2021-03-23 Facebook Technologies, Llc Utilizing a hybrid model to recognize fast and precise hand inputs in a virtual environment

Also Published As

Publication number Publication date
US20210256251A1 (en) 2021-08-19
WO2021162983A1 (en) 2021-08-19
EP4094249A1 (en) 2022-11-30
US11222200B2 (en) 2022-01-11
EP4094249A4 (en) 2023-07-12

Similar Documents

Publication Publication Date Title
US10229499B2 (en) Skin lesion segmentation using deep convolution networks guided by local unsupervised learning
US10699055B2 (en) Generative adversarial networks for generating physical design layout patterns
US10706200B2 (en) Generative adversarial networks for generating physical design layout patterns of integrated multi-layers
US20190370431A1 (en) Coordinates-based generative adversarial networks for generating synthetic physical design layout patterns
US10902260B2 (en) Estimating a height of a cloud depicted in an image
CN110827341A (zh) 一种图片深度估计方法、装置和存储介质
US20210064639A1 (en) Data augmentation
CN114616825B (zh) 视频数据解码方法和计算机系统以及存储介质
WO2017142736A1 (en) Cloud based active commissioning system for video analytics
CN114651246B (zh) 使用旋转手势输入来搜索图像的方法
CN115004293A (zh) 基于时间已知的自监督学习的基于视频的3d手势和网格估计
CN114365502A (zh) 用于点云编码的多分量属性的编码
US20230039397A1 (en) Using artificial intelligence to optimize seam placement on 3d models
CN113728327B (zh) 用于估计图像中的三维手部姿势的方法和系统
US10743142B2 (en) Constructing a map of a physical space
JP7540826B2 (ja) パノラマ画像におけるグラウンド上のマーカを認識することによってカメラ間のポーズグラフおよび変換マトリクスを推定する方法
US20230343093A1 (en) Relative anchors based on density of feature points
US11688144B2 (en) Self guidance based on dimensional relationship
US12008487B2 (en) Inference model optimization
WO2022267728A1 (en) Video action recognition and modifcation
US20230185791A1 (en) Prioritized data cleaning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40073578

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination