CN110832501A - 用于姿态不变面部对准的系统和方法 - Google Patents
用于姿态不变面部对准的系统和方法 Download PDFInfo
- Publication number
- CN110832501A CN110832501A CN201880046190.7A CN201880046190A CN110832501A CN 110832501 A CN110832501 A CN 110832501A CN 201880046190 A CN201880046190 A CN 201880046190A CN 110832501 A CN110832501 A CN 110832501A
- Authority
- CN
- China
- Prior art keywords
- visualization
- face
- image
- data
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012800 visualization Methods 0.000 claims abstract description 185
- 230000001815 facial effect Effects 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 11
- 230000008921 facial expression Effects 0.000 claims 3
- 230000006870 function Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 240000004760 Pimpinella anisum Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/755—Deformable models or variational models, e.g. snakes or active contours
- G06V10/7557—Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
计算系统包括具有至少一个处理单元的处理系统。处理系统被配置为在接收到具有面部图像的图像数据后执行面部对准方法。处理系统被配置为将神经网络应用于面部图像。神经网络被配置为基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。
Description
技术领域
本公开涉及用于面部对准的系统和方法。
背景技术
一般而言,使用卷积神经网络(CNN)级联实现的面部对准技术至少经历以下缺点:缺乏端到端训练、手工制作特征提取和慢的训练速度。例如,在没有端到端训练的情况下,CNN不能联合优化,从而导致次优的解决方案。此外,这些类型的面部对准技术通常实现简单的手工制作特征提取方法,所述方法并不将诸如姿态、表情等各种面部因素考虑在内。此外,这些CNN级联典型地具有浅框架,所述浅框架不能够通过依赖早期CNN的提取特征来提取更深的特征。此外,对这些CNN的训练通常是耗时的,这是因为每一个CNN是独立并依次训练的,并且还因为在两个接续的CNN之间要求手工制作特征提取。
发明内容
以下是下面详细描述的某些实施例的概述。呈现所描述的方面仅仅是为了向读者提供这某些实施例的简要概述,并且这些方面的描述没有限制本公开的范围的意图。实际上,本公开可以涵盖下面可能没有明确阐述的各种方面。
在示例实施例中,一种计算系统包括具有至少一个处理单元的处理系统。处理系统被配置为在接收到具有面部图像的图像数据后执行面部对准方法。处理系统被配置为将神经网络应用于面部图像。神经网络被配置为基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。
在示例实施例中,一种计算机实现的方法包括接收具有面部图像的图像数据。所述计算机实现的方法包括实现神经网络,以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。
在示例实施例中,一种非暂时性计算机可读介质至少包括计算机可读数据,所述计算机可读数据当由具有至少一个处理单元的处理系统执行时,执行包括接收具有面部图像的图像数据的方法。所述方法包括实现神经网络,以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。
通过以下鉴于附图对某些示例性实施例的详细描述,进一步阐明本发明的这些和其他特征、方面和优点,贯穿附图,同样的字符表示同样的部分。
附图说明
图1是根据本公开的示例实施例的系统的框图。
图2图示了根据本公开的示例实施例的图1的系统的姿态不变面部对准模块。
图3是根据本公开的示例实施例的图2的CNN的架构的框图。
图4是根据本公开的示例实施例的可视化块的概念图。
图5是根据本公开的示例实施例的可视化块的架构的示例图。
图6图示了根据本公开的示例实施例的掩模的示例。
图7图示了根据本公开的可替换示例实施例的掩模的示例。
图8图示了根据本公开的示例实施例的基于3D对象的表面法向量在投影期间选择期望表面点的示例。
图9A是根据本公开的示例实施例的图像数据的示例。
图9B是根据本公开的示例实施例的可视化层的初始化的示例。
图9C是根据本公开的示例实施例的与CNN的第一可视化块相关联的可视化层的可视化数据的示例。
图9D是根据本公开的示例实施例的与CNN的第二可视化块相关联的可视化层的可视化数据的示例。
图9E是根据本公开的示例实施例的与CNN的第三可视化块相关联的可视化层的可视化数据的示例。
图9F是根据本公开的示例实施例的与CNN的第四可视化块相关联的可视化层的可视化数据的示例。
图9G是根据本公开的示例实施例的与CNN的第五可视化块相关联的可视化层的可视化数据的示例。
图9H是根据本公开的示例实施例的与CNN的第六可视化块相关联的可视化层的可视化数据的示例。
图10A是根据本公开的示例实施例的图像数据的示例。
图10B是根据本公开的示例实施例的可视化层的初始化的示例。
图10C是根据本公开的示例实施例的与CNN的第一可视化块相关联的可视化层的可视化数据的示例。
图10D是根据本公开的示例实施例的与CNN的第二可视化块相关联的可视化层的可视化数据的示例。
图10E是根据本公开的示例实施例的与CNN的第三可视化块相关联的可视化层的可视化数据的示例。
图10F是根据本公开的示例实施例的与CNN的第四可视化块相关联的可视化层的可视化数据的示例。
图10G是根据本公开的示例实施例的与CNN的第五可视化块相关联的可视化层的可视化数据的示例。
图10H是根据本公开的示例实施例的与CNN的第六可视化块相关联的可视化层的可视化数据的示例。
图11A是根据本公开的示例实施例的图像数据的示例。
图11B是根据本公开的示例实施例的可视化层的初始化的示例。
图11C是根据本公开的示例实施例的与CNN的第一可视化块相关联的可视化层的可视化数据的示例。
图11D是根据本公开的示例实施例的与CNN的第二可视化块相关联的可视化层的可视化数据的示例。
图11E是根据本公开的示例实施例的与CNN的第三可视化块相关联的可视化层的可视化数据的示例。
图11F是根据本公开的示例实施例的与CNN的第四可视化块相关联的可视化层的可视化数据的示例。
图11G是根据本公开的示例实施例的与CNN的第五可视化块相关联的可视化层的可视化数据的示例。
图11H是根据本公开的示例实施例的与CNN的第六可视化块相关联的可视化层的可视化数据的示例。
具体实施方式
已经作为举例示出和描述的上述实施例及其许多优点将通过前面的描述来理解,并且将清楚,在不脱离所公开的主题或者不牺牲其一个或多个优点的情况下,可以在组件的形式、构造和布置方面做出各种改变。实际上,这些实施例的所描述形式仅仅是解释性的。这些实施例容许各种修改和可替换形式,并且所附权利要求意图涵盖和包括这类改变,并且不限于所公开的特定形式,而是要覆盖落入本公开的精神和范围内的所有修改、等同物和替换物。
图1是被配置为实现姿态不变面部对准的计算机系统100的框图。在这方面,计算机系统100包括各种软件和硬件组件。例如,计算机系统100至少包括存储器系统110、面部检测模块120、姿态不变面部对准模块130、处理系统140、通信系统150和其他功能模块160。在示例实施例中,计算机系统100被配置为实现和执行如本文所公开的并且如姿态不变面部对准模块130所提供的姿态不变面部对准方法。此外,在示例实施例中,计算机系统100还被配置为在实现和执行姿态不变面部对准方法之前,实现和执行如本文所公开的并且如面部检测模块120所提供的面部检测。
在示例实施例中,存储器系统110包括各种数据,所述数据包括训练数据和与姿态不变面部对准模块130相关联的其他数据。在示例实施例中,存储器系统110是计算机或电子存储系统,其被配置为存储和提供对各种数据的访问,以至少使能实现如本文所公开的操作和功能性。在示例实施例中,存储器系统110包括单个设备或多个设备。在示例实施例中,存储器系统110可以包括电气、电子、磁性、光学、半导体、电磁或任何合适的技术。例如,在示例实施例中,存储器系统110可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、磁盘驱动器、存储器卡、光学存储设备、磁性存储设备、存储器模块、任何合适类型的存储器设备或其任何组合。在示例实施例中,相对于计算机系统100,存储器系统110是本地的、远程的或其组合(例如,部分本地且部分远程)。在示例实施例中,存储器系统110可以至少包括远离计算机系统100的其他组件的基于云的存储系统(例如,基于云的数据库系统)。
在示例实施例中,面部检测模块120包括硬件、软件或其组合。在示例实施例中,面部检测模块120至少被配置为接收图像,标识图像内的面部图像,以及提供与面部图像相关的图像数据220。在示例实施例中,处理系统140至少包括中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、片上系统(SOC)、可编程逻辑器件(PLD)、任何合适的计算技术或其任何组合。
在示例实施例中,通信系统150包括合适的通信技术,所述通信技术使得计算机系统100的组件的任何合适的组合能够彼此通信。在示例实施例中,通信系统150包括基于有线的技术、基于无线的技术和/或其组合。在示例实施例中,通信系统150包括有线网络、无线网络或其组合。在示例实施例中,通信系统150包括任何合适类型的计算机网络和/或架构。在示例实施例中,通信系统150包括到因特网的连接。
在示例实施例中,其他功能模块160包括硬件、软件或其组合。例如,其他功能模块28包括逻辑电路、操作系统、I/O设备(例如显示器等)、其他计算机技术或其任何组合。更具体地,在示例实施例中,其他功能模块28使得姿态不变面部对准模块130能够如本文所公开的那样操作和运作。在示例实施例中,其他功能模块160包括相机和/或光学系统。在这方面,相机和/或光学系统被配置为向面部检测模块120和/或处理系统140提供图像,使得图像数据220被提供给姿态不变面部对准模块130。此外,在示例实施例中,其他功能模块160包括面部分析模块,诸如面部识别模块、表情估计模块、3D面部重构模块、任何合适的面部分析模块或其任何组合。在这方面,面部分析模块被配置为根据来自CNN 200的输出(诸如与面部图像相关的参数数据的最终估计)来执行面部分析。
图2图示了根据示例实施例的姿态不变面部对准模块130。在示例实施例中,姿态不变面部对准模块130包括单个CNN 200。在示例实施例中,该CNN 200被配置为至少接收图像数据220和一组参数230作为输入。在从面部检测模块120接收到图像数据220(即,具有任意头部姿态的单个面部图像)后,并且在获得一组参数230后,姿态不变面部对准模块130被配置为通过拟合3D面部模型来估计2D界标,所述2D界标具有其可视性标签。在这方面,姿态不变面部对准模块130包括具有用于模型拟合的端到端训练的单个CNN 200。
图3图示了根据示例实施例的CNN 200的示例架构。如所示出的,CNN 200包括多个连接的可视化块210。例如,作为非限制性示例,CNN 200包括至少六个可视化块210。在这方面,CNN 200包括提供期望结果的任何合适数量的可视化块210。在示例实施例中,输入包括图像数据220和对至少一个参数(例如参数P0)的初始估计,并且输出是该组参数的最终估计290。与具有CNN 200的级联的相关系统相比,归因于所有可视化块210与损失函数的反向传播的联合优化,姿态不变面部对准模块130具有CNN 200,该CNN 200具有能够在训练期间在显著更少的时期中收敛的架构。
在示例实施例中,系统100包括3D可变形模型(3DMM)。在示例实施例中,存储器系统110(例如,训练数据)、姿态不变面部对准模块130或其组合包括3DMM。在示例实施例中,3DMM表示面部的3D形状。更具体地,3DMM经由以下等式将3D面部Sp表示为均值形状S0、身份基SI和表情基SE的线性组合:
在示例实施例中,姿态不变面部对准模块130使用用于3D形状参数的向量 ,其中是身份参数,并且是表情参数。在示例实施例中,姿态不变面部对准模块130使用具有199个基作为身份基的巴塞尔3D面部模型,以及具有29个基作为表情基的面部仓库模型。在该情况下,每个3D面部形状包括一组Q 3D顶点:
在示例实施例中,2D面部形状是3D形状的投影。在示例实施例中,弱透视投影模型以6个自由度使用——即一个用于缩放、三个用于旋转角度、并且两个用于平移,其将3D面部形状Sp投影到2D图像上以获得2D形状U,如以下等式表达的:
[等式3]
其中
并且
[等式5]
等式3建立2D界标U与P(即3D形状参数p和相机投影矩阵M)之间的关系或等价性。在给定用于面部对准的几乎所有训练图像仅具有2D标签(即U)的情况下,处理系统140执行数据增强步骤来计算它们对应的P。给定图像数据220,姿态不变面部对准模块130被配置为估计参数P,基于该参数P可以导出2D界标及其可视性。
图4图示了根据示例实施例的可视化块210的概念图。如图4中所示,可视化块210包括可视化层240,可视化层240根据CNN 200内部的估计参数重构3D面部形状,并经由可视顶点的表面法向量808/810合成2D图像。在示例实施例中,可视化层240可视化先前可视化块210的对准结果,并将其用于当前可视化块210。在示例实施例中,可视化层240从下层的3D面部模型806的表面法线808/810导出,并对面部与相机之间的相对姿态进行编码(图8)。此外,在示例实施例中,可视化层240是可微分的,这允许分析地计算梯度,从而使能实现CNN 200的端到端训练。此外,如图4中所示,可视化层240利用掩模600/700来在面部图像的中间部分与轮廓部分中的像素之间进行区分,并且还使得经可视化的图像的像素值跨不同姿态是相似的。此外,如图4中所示,由CNN 200的最后可视化块210所提供的面部图像的参数的最终估计290可以被提供给面部分析模块,以获得面部界标检测结果300。
图5图示了根据示例实施例的CNN 200的可视化块210。如上面提及的,每个可视化块210包括基于最新参数估计的可视化层240。在这方面,每个可视化层240充当接续可视化块210之间的桥梁。在示例实施例中,每个可视化层240基于当前估计或输入的参数P生成特征图250。每个卷积层260继之以批量归一化(BN)层和修正线性单元(ReLU)层。每个卷积层260基于由先前可视化块210和可视化层240提供的输入特征提取更深的特征。在两个完全连接层270之间,第一卷积层260继之以ReLU层和丢弃(dropout)层,而第二卷积层260同时估计M和p的更新。在示例实施例中,例如,当将添加到输入P时,可视化块210的输出包括输出数据280A和对参数230的新估计(或当前估计)280B。在图5中,输出数据280A包括更深的特征和图像数据220。在可替换示例实施例中,输出数据280A包括更深的特征。在另一可替换示例实施例中,输出数据280A包括图像数据220。在示例实施例中,如图5中所示,基本上,可视化块210的顶部聚焦于学习更深的特征,而底部利用这类特征来估计像ResNet结构中的参数230。在训练阶段的反向传递期间,可视化块210通过其两个输入反向传播损失,以调整先前可视化块210中的卷积层260和完全连接层270。该操作允许可视化块210提取适合于下一个可视化块210的更好的特征,并改进整体参数估计。
在示例实施例中,CNN 200被配置为采用至少两种类型的损失函数。在该情况下,例如,第一种类型的损失函数是在参数更新的估计与目标之间的欧几里德损失,其中每个参数单独地被加权,如以下等式表达的:
[等式6]
其中在第i个可视化块210处,是损失,是估计,并且是目标(或基本真值)。在该等式中,对角矩阵W包含权重。对于形状参数p的每个元素,其权重是从3DMM训练中使用的数据获得的标准差的逆。为了补偿M的参数间的相对缩放,处理系统140计算训练数据中缩放的旋转参数的平均值与平移参数的平均值之间的比率r。在这方面,M的缩放的旋转参数的权重被设置为,并且M的平移的权重被设置为1。此外,第二种类型的损失函数是作为结果的2D界标上的欧几里德损失,如以下等式表达的:
其中,是基本真值2D界标,并且Pi是到第i个块的输入参数,即第i-l个块的输出。在这方面,经由等式3使用当前更新的参数计算2D界标位置。在示例实施例中,对于该损失函数向参数的反向传播,链规则用于计算梯度,如以下等式表达的:
[等式8]
在示例实施例中,对于CNN 200的前三个可视化块210,使用参数更新上的欧几里德损失(等式6),而2D界标上的欧几里德损失(等式7)被应用于CNN 200的最后三个块。前三个块估计参数以粗略地将3D形状与面部图像对准,并且最后三个块利用良好的初始化来更精确地估计参数和2D界标位置。
在示例实施例中,可视化层240基于在局部邻域中提供表面取向的3D面部的表面法线。在示例实施例中,处理系统140使用利用姿态变换的每个顶点的表面法线的z坐标。在这方面,z坐标是顶点的“正面性(frontability)”的指示符,即表面法线正指向相机800的量。该量用于在其投影的2D位置分配强度值,以构造可视化数据242(例如,可视化图像)。在示例实施例中,正面性度量g——Q-dim向量,可以经由以下等式来计算:
在示例实施例中,面部形状和头部姿态两者仍然跨各种可视化块210持续更新,并用于确定投影的2D位置。因此,该近似将仅稍微影响强度值。为了基于头部姿态变换表面法线,处理系统140将缩放的旋转矩阵(m1和m2)的估计应用于从均值面部计算的表面法线。然后利用为0的下界截断该值,如等式9中所示。经可视化的图像的像素强度被计算为局部邻域内正面性度量的加权平均值,如以下等式表达的:
在示例实施例中,为了允许损失函数通过可视化层240反向传播,处理系统140计算V相对于参数M和p的元素的导数。在这方面,处理系统140计算偏导数、和。在示例实施例中,处理系统140然后基于等式10计算和的导数。
图6图示了根据示例实施例的示例性掩模600的可视化的两个视图。具体地,图6包括掩模600的正面视图602和掩模600的侧面视图604(或剖面视图)。在该情况下,掩模600例如至少由等式12表达。如图6中所示,如由表达的掩模600在中间区域中具有正值,并且在轮廓区域中具有负值,如标度606所指示的。
图7图示了根据可替换示例实施例的掩模700的另一示例。具体地,图7包括掩模700的正面视图702和掩模700的侧面视图704(或剖面视图)。在该示例中,掩模700具有五个正区域,其包括两个眼睛区域、鼻尖区域和两个唇角区域,如标度706所指示的。此外,在该示例中,各值被归一化为零均值和单位标准差。在这方面,掩模700使得经可视化的图像的像素值对于具有不同姿态的面部是相似的,并且在面部的中间区域与轮廓区域之间进行区分。与图5的掩模600所提供的相比,图7的掩模700更加复杂,并且传达关于信息丰富的面部区域的更多信息。
图8图示了相机800相对于具有多个像素的图像平面802的位置。此外,图8示出了沿着图像平面802的图像像素延伸的像素轴804,连同作为3D对象806的图像平面802的人类面部图像的可视化。图8还包括具有负z坐标的表面法向量(如在箭头808处指出的),以及具有正z坐标和较小深度的表面法向量(如箭头810指出的)。在这方面,以任意视角将人类面部可视化为3D对象806要求对每个3D顶点的可视性的估计。为了避免经由渲染进行计算昂贵的可视性测试,处理系统140被配置为实现至少两种近似策略。作为一种策略,例如,处理系统140被配置为修剪其正面性度量g等于0的顶点,即指向相机800的顶点。第二,如果多个顶点经由像素轴804投影到同一图像像素,则处理系统140被配置为仅保持具有最小深度值的顶点,例如,如图8中的箭头810所指示的。
图9A是根据示例实施例的图像数据220的示例。如图9A中所示,在该示例中,图像数据220至少包括具有张开嘴的表情(例如,微笑)的大的面部姿态。图9B是根据示例实施例的可视化层240的初始化的示例。图9C是根据示例实施例的与CNN 200的第一可视化块210相关联的可视化层240的可视化数据242的示例。图9D是根据示例实施例的与CNN 200的第二可视化块210相关联的可视化层240的可视化数据242的示例。图9E是根据示例实施例的与CNN 200的第三可视化块210相关联的可视化层240的可视化数据242的示例。图9F是根据示例实施例的与CNN 200的第四可视化块210相关联的可视化层240的可视化数据242的示例。图9G是根据示例实施例的与CNN 200的第五可视化块210相关联的可视化层240的可视化数据242的示例。图9H是根据本公开的示例实施例的与CNN 200的第六可视化块210相关联的可视化层240的可视化数据242的示例。如图9C-9H中渐进示出的,姿态不变面部对准模块130能够恢复如图9A中所示的图像数据220的面部图像的表情和头部姿态。在示例实施例中,姿态不变面部对准模块130能够至少通过提取更深的特征并采用损失函数的反向传播来提供这些结果。
图10A是根据本公开的示例实施例的图像数据220的示例。如图10A中所示,在该示例中,图像数据220至少包括具有相对中性表情的大的面部姿态。图10B是根据本公开的示例实施例的可视化层240的初始化的示例。图10C是根据本公开的示例实施例的与CNN 200的第一可视化块210相关联的可视化层240的可视化数据242的示例。图10D是根据本公开的示例实施例的与CNN 200的第二可视化块210相关联的可视化层240的可视化数据242的示例。图10E是根据本公开的示例实施例的与CNN 200的第三可视化块210相关联的可视化层240的可视化数据242的示例。图10F是根据示例实施例的与CNN 200的第四可视化块210相关联的可视化层240的可视化数据242的示例。图10G是根据示例实施例的与CNN 200的第五可视化块210相关联的可视化层240的可视化数据242的示例。图10H是根据示例实施例的与CNN 200的第六可视化块210相关联的可视化层240的可视化数据242的示例。如图10C-10H中渐进示出的,姿态不变面部对准模块130能够恢复如图10A中所示的图像数据220的面部图像的表情和头部姿态。在示例实施例中,姿态不变面部对准模块130能够至少通过提取更深的特征并采用损失函数的反向传播来提供这些结果。
图11A是根据本公开的示例实施例的图像数据220的示例。如图11A中所示,在该示例中,图像数据220至少包括具有相对中性表情的大的面部姿态。此外,图11A的图像数据220包括与包括在图10A的图像数据220中的面部侧面不同的面部侧面。图11B是根据示例实施例的可视化层240的初始化的示例。图11C是根据示例实施例的与CNN 200的第一可视化块210相关联的可视化层240的可视化数据242的示例。图11D是根据示例实施例的与CNN200的第二可视化块210相关联的可视化层240的可视化数据242的示例。图11E是根据示例实施例的与CNN 200的第三可视化块210相关联的可视化层240的可视化数据242的示例。图11F是根据示例实施例的与CNN 200的第四可视化块210相关联的可视化层240的可视化数据242的示例。图11G是根据示例实施例的与CNN 200的第五可视化块210相关联的可视化层240的可视化数据242的示例。图11H是根据示例实施例的与CNN 200的第六可视化块210相关联的可视化层240的可视化数据242的示例。如图11C-11H中渐进示出的,姿态不变面部对准模块130能够恢复如图11A中所示的图像数据220的面部图像的表情和头部姿态。在示例实施例中,姿态不变面部对准模块130能够至少通过提取更深的特征并采用损失函数的反向传播来提供这些结果。
如上所述,系统100包括多个有利的特征。例如,系统100被配置为经由单个CNN200实现具有端到端训练的大姿态面部对准方法。此外,CNN 200包括至少一个可微分可视化层240,其集成到神经网络(即CNN 200)中,并且通过将误差从至少一个稍后的可视化块210反向传播到至少一个较早的可视化块210来使能实现联合优化。此外,系统100被配置为以便使得每个可视化块210能够通过利用从先前的可视化块210提取的特征来提取更深的特征,而不需要提取手工制作特征。此外,姿态不变对准方法与牵涉CNN级联的相关系统所提供的方法相比,在训练阶段期间收敛得更快。在这方面,例如,单个CNN 200的端到端训练的主要优点之一是减少的训练时间。此外,CNN 200包括至少一个可视化层240,所述至少一个可视化层240是可微分的并经由表面法线对面部几何细节进行编码。此外,使得姿态不变面部对准模块130能够引导CNN 200聚焦于并入姿态信息和表情信息两者的面部区域。此外,CNN 200可以被配置为通过简单地增加其架构中的可视化块210的数量来实现更高水平的精度和准确度。
也就是说,上面描述意图是说明性的而非限制性的,并且是在特定应用及其要求的上下文中提供的。本领域技术人员可以从前面的描述中领会到,本发明可以以各种形式实现,并且各种实施例可以单独或组合实现。因此,虽然本发明的实施例已经结合其特定示例被描述,但是在不脱离所描述的实施例的精神和范围的情况下,本文限定的一般原理可以应用于其他实施例和应用,并且本发明的实施例和/或方法的真实范围不限于所示出和描述的实施例,因为在对附图、说明书和所附权利要求的研究后,各种修改对于技术实践者而言将变得清楚。例如,组件和功能性可以以不同于各种所描述实施例的方式分离或组合,并且可以使用不同的术语来描述。这些和其他变型、修改、添加和改进可以落在如所附权利要求中所限定的本公开的范围内。
Claims (20)
1.一种计算系统,包括具有至少一个处理单元的处理系统,处理系统被配置为执行面部对准方法,所述面部对准方法包括:
接收具有面部图像的图像数据;以及
实现神经网络以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计,神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计来生成特征图,
其中参数数据包括头部姿态数据和面部形状数据。
2.根据权利要求1所述的计算系统,进一步包括:
面部检测模块,被配置为至少(i)接收图像,(ii)标识图像内的面部图像,以及(iii)向处理系统提供与面部图像相关的图像数据,
其中面部图像提供在正面视图到剖面视图的范围内的面部视图。
3.根据权利要求1所述的计算系统,其中面部形状数据包括面部身份参数和面部表情参数。
4.根据权利要求1所述的计算系统,其中神经网络是具有用于模型拟合的端到端训练的单个卷积神经网络。
5.根据权利要求1所述的计算系统,其中:
神经网络是具有连接的多个可视化块的单个卷积神经网络;并且
每个可视化块至少包括可视化层、卷积层和完全连接层。
6.根据权利要求1所述的计算系统,其中每个可视化层基于3D面部模型的表面法线,并且对面部与相机之间的相对头部姿态进行编码。
7.根据权利要求1所述的计算系统,其中每个可视化层利用掩模来在面部图像的不同部分中的像素之间进行区分,并且使得经可视化的图像的像素值跨不同头部姿态是相似的。
8.一种用于面部对准的计算机实现的方法,包括:
接收具有面部图像的图像数据;以及
实现神经网络以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计,神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计来生成特征图,
其中参数数据包括头部姿态数据和面部形状数据。
9.根据权利要求8所述的计算机实现的方法,进一步包括:
对图像执行面部检测,所述面部检测包括(i)接收图像,(ii)标识图像内的面部图像,以及(iii)向处理系统提供与面部图像相关的图像数据,
其中面部图像提供在正面视图到剖面视图的范围内的面部视图。
10.根据权利要求8所述的计算机实现的方法,其中面部形状数据包括面部身份参数和面部表情参数。
11.根据权利要求8所述的计算机实现的方法,其中神经网络是具有用于模型拟合的端到端训练的单个卷积神经网络。
12.根据权利要求8所述的计算机实现的方法,其中:
神经网络是具有连接的多个可视化块的单个卷积神经网络;并且
每个可视化块至少包括可视化层、卷积层和完全连接层。
13.根据权利要求8所述的计算机实现的方法,其中每个可视化层基于3D面部模型的表面法线,并且对面部与相机之间的相对头部姿态进行编码。
14.根据权利要求8所述的计算机实现的方法,其中每个可视化层利用掩模来在面部图像的不同部分中的像素之间进行区分,并且使得经可视化的图像的像素值跨不同头部姿态是相似的。
15.一种非暂时性计算机可读介质,至少包括计算机可读数据,所述计算机可读数据当由具有至少一个处理单元的处理系统执行时,执行面部对准方法,所述面部对准方法包括:
接收具有面部图像的图像数据;以及
实现神经网络以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计,神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计来生成特征图,
其中参数数据包括头部姿态数据和面部形状数据。
16.根据权利要求15所述的非暂时性计算机可读介质,其中面部形状数据包括面部身份参数和面部表情参数。
17.根据权利要求15所述的非暂时性计算机可读介质,其中神经网络是具有用于模型拟合的端到端训练的单个卷积神经网络。
18.根据权利要求15所述的非暂时性计算机可读介质,其中:
神经网络是具有连接的多个可视化块的单个卷积神经网络;并且
每个可视化块至少包括可视化层、卷积层和完全连接层。
19.根据权利要求15所述的非暂时性计算机可读介质,其中每个可视化层基于3D面部模型的表面法线,并且对面部与相机之间的相对头部姿态进行编码。
20.根据权利要求15所述的非暂时性计算机可读介质,其中每个可视化层利用掩模来在面部图像的不同部分中的像素之间进行区分,并且使得经可视化的图像的像素值跨不同头部姿态是相似的。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/649,230 US10380413B2 (en) | 2017-07-13 | 2017-07-13 | System and method for pose-invariant face alignment |
US15/649230 | 2017-07-13 | ||
PCT/EP2018/068734 WO2019011958A1 (en) | 2017-07-13 | 2018-07-11 | INVARIANT FACE ALIGNMENT SYSTEM AND METHOD FOR INSTALLATION |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110832501A true CN110832501A (zh) | 2020-02-21 |
CN110832501B CN110832501B (zh) | 2024-07-05 |
Family
ID=62904469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880046190.7A Active CN110832501B (zh) | 2017-07-13 | 2018-07-11 | 用于姿态不变面部对准的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10380413B2 (zh) |
JP (1) | JP6918198B2 (zh) |
CN (1) | CN110832501B (zh) |
DE (1) | DE112018000298T5 (zh) |
WO (1) | WO2019011958A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159081A (zh) * | 2020-01-23 | 2021-07-23 | 华为技术有限公司 | 一种图像处理方法以及相关设备 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210158023A1 (en) * | 2018-05-04 | 2021-05-27 | Northeastern University | System and Method for Generating Image Landmarks |
CN109191507B (zh) * | 2018-08-24 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 三维人脸图像重建方法、装置和计算机可读存储介质 |
US10796476B1 (en) * | 2018-08-31 | 2020-10-06 | Amazon Technologies, Inc. | Self-supervised bootstrap for single image 3-D reconstruction |
WO2020048620A1 (en) * | 2018-09-07 | 2020-03-12 | Toyota Motor Europe | Method and system for processing an image by determining rotation hypotheses |
US10713544B2 (en) * | 2018-09-14 | 2020-07-14 | International Business Machines Corporation | Identification and/or verification by a consensus network using sparse parametric representations of biometric images |
US11710034B2 (en) * | 2019-02-27 | 2023-07-25 | Intel Corporation | Misuse index for explainable artificial intelligence in computing environments |
CN110210456A (zh) * | 2019-06-19 | 2019-09-06 | 贵州理工学院 | 一种基于3d卷积神经网络的头部姿态估计方法 |
CN110599395B (zh) * | 2019-09-17 | 2023-05-12 | 腾讯科技(深圳)有限公司 | 目标图像生成方法、装置、服务器及存储介质 |
CN111144556B (zh) * | 2019-12-31 | 2023-07-07 | 中国人民解放军国防科技大学 | 面向深度神经网络训练和推理的范围批处理归一化算法的硬件电路 |
CN111199543A (zh) * | 2020-01-07 | 2020-05-26 | 南京航空航天大学 | 一种基于卷积神经网络的冰柜表面缺陷检测 |
US20210224610A1 (en) * | 2020-01-17 | 2021-07-22 | Insurance Services Office, Inc. | Systems and Methods for Disentangling Factors of Variation in Computer Vision Systems Using Cycle-Consistent Variational Auto-Encoders |
US11272164B1 (en) | 2020-01-17 | 2022-03-08 | Amazon Technologies, Inc. | Data synthesis using three-dimensional modeling |
CN111260774B (zh) * | 2020-01-20 | 2023-06-23 | 北京百度网讯科技有限公司 | 生成3d关节点回归模型的方法和装置 |
CN111582376B (zh) * | 2020-05-09 | 2023-08-15 | 抖音视界有限公司 | 神经网络的可视化方法、装置、电子设备和介质 |
DE102020122023B3 (de) | 2020-08-24 | 2022-02-17 | Technische Universität Ilmenau | Verfahren und Vorrichtung zur Echtzeit-Ermittlung der Sollgeschwindigkeit eines zumindest teilautonom fahrenden Fahrzeugs in Umgebungen mit Fußgängerverkehr |
CN112200024B (zh) * | 2020-09-24 | 2022-10-11 | 复旦大学 | 一种通过三维可形变模型学习的二维人脸表情识别方法 |
EP3985573A1 (en) * | 2020-10-13 | 2022-04-20 | Imagination Technologies Limited | Implementation of a neural network in multicore hardware |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090185723A1 (en) * | 2008-01-21 | 2009-07-23 | Andrew Frederick Kurtz | Enabling persistent recognition of individuals in images |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080298643A1 (en) * | 2007-05-30 | 2008-12-04 | Lawther Joel S | Composite person model from image collection |
US7848548B1 (en) * | 2007-06-11 | 2010-12-07 | Videomining Corporation | Method and system for robust demographic classification using pose independent model from sequence of face images |
US8401248B1 (en) * | 2008-12-30 | 2013-03-19 | Videomining Corporation | Method and system for measuring emotional and attentional response to dynamic digital media content |
US10095917B2 (en) * | 2013-11-04 | 2018-10-09 | Facebook, Inc. | Systems and methods for facial representation |
EP2869239A3 (en) | 2013-11-04 | 2015-08-19 | Facebook, Inc. | Systems and methods for facial representation |
IL231862A (en) | 2014-04-01 | 2015-04-30 | Superfish Ltd | Image representation using a neural network |
CN105981041A (zh) | 2014-05-29 | 2016-09-28 | 北京旷视科技有限公司 | 使用粗到细级联神经网络的面部关键点定位 |
JP6754619B2 (ja) | 2015-06-24 | 2020-09-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 顔認識方法及び装置 |
WO2017015390A1 (en) * | 2015-07-20 | 2017-01-26 | University Of Maryland, College Park | Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition |
JP7011578B2 (ja) * | 2015-08-31 | 2022-01-26 | エスアールアイ インターナショナル | 運転行動を監視する方法及びシステム |
US11132543B2 (en) * | 2016-12-28 | 2021-09-28 | Nvidia Corporation | Unconstrained appearance-based gaze estimation |
-
2017
- 2017-07-13 US US15/649,230 patent/US10380413B2/en active Active
-
2018
- 2018-07-11 WO PCT/EP2018/068734 patent/WO2019011958A1/en active Application Filing
- 2018-07-11 CN CN201880046190.7A patent/CN110832501B/zh active Active
- 2018-07-11 DE DE112018000298.5T patent/DE112018000298T5/de active Pending
- 2018-07-11 JP JP2020501290A patent/JP6918198B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090185723A1 (en) * | 2008-01-21 | 2009-07-23 | Andrew Frederick Kurtz | Enabling persistent recognition of individuals in images |
Non-Patent Citations (1)
Title |
---|
韩志艳;王健;: "面向语音与面部表情信号的情感可视化方法", 电子设计工程 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159081A (zh) * | 2020-01-23 | 2021-07-23 | 华为技术有限公司 | 一种图像处理方法以及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
US10380413B2 (en) | 2019-08-13 |
CN110832501B (zh) | 2024-07-05 |
JP6918198B2 (ja) | 2021-08-11 |
WO2019011958A1 (en) | 2019-01-17 |
DE112018000298T5 (de) | 2019-10-10 |
JP2020526845A (ja) | 2020-08-31 |
US20190019014A1 (en) | 2019-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110832501B (zh) | 用于姿态不变面部对准的系统和方法 | |
US20210158023A1 (en) | System and Method for Generating Image Landmarks | |
Jourabloo et al. | Pose-invariant face alignment with a single CNN | |
US10755145B2 (en) | 3D spatial transformer network | |
Yuan et al. | Iterative transformer network for 3d point cloud | |
US20170192515A1 (en) | Hand gesture recognition for cursor control | |
CN111328396A (zh) | 用于图像中的对象的姿态估计和模型检索 | |
Azad et al. | 6-DoF model-based tracking of arbitrarily shaped 3D objects | |
US20230169677A1 (en) | Pose Estimation Method and Apparatus | |
US9390320B2 (en) | Performing hand gesture recognition using 2D image data | |
CN111739005B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN112750133A (zh) | 计算机视觉训练系统和用于训练计算机视觉系统的方法 | |
Chen et al. | 3D neighborhood convolution: Learning depth-aware features for RGB-D and RGB semantic segmentation | |
CN112652057B (zh) | 生成人体三维模型的方法、装置、设备以及存储介质 | |
KR20220081261A (ko) | 객체 포즈 추정 방법 및 장치 | |
JP2019008571A (ja) | 物体認識装置、物体認識方法、プログラム、及び学習済みモデル | |
US10936938B2 (en) | Method for visualizing neural network models | |
CN116229056A (zh) | 基于双分支特征融合的语义分割方法、装置、设备 | |
US20210272295A1 (en) | Analysing Objects in a Set of Frames | |
Mehl et al. | M-fuse: Multi-frame fusion for scene flow estimation | |
Liang et al. | DIG-SLAM: an accurate RGB-D SLAM based on instance segmentation and geometric clustering for dynamic indoor scenes | |
US20220180548A1 (en) | Method and apparatus with object pose estimation | |
CN114549825A (zh) | 目标检测方法、装置、电子设备与存储介质 | |
Zhang et al. | Augmented visual feature modeling for matching in low-visibility based on cycle-labeling of Superpixel Flow | |
Fang et al. | MR-CapsNet: a deep learning algorithm for image-based head pose estimation on CapsNet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |