CN110832501A - 用于姿态不变面部对准的系统和方法 - Google Patents

用于姿态不变面部对准的系统和方法 Download PDF

Info

Publication number
CN110832501A
CN110832501A CN201880046190.7A CN201880046190A CN110832501A CN 110832501 A CN110832501 A CN 110832501A CN 201880046190 A CN201880046190 A CN 201880046190A CN 110832501 A CN110832501 A CN 110832501A
Authority
CN
China
Prior art keywords
visualization
face
image
data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880046190.7A
Other languages
English (en)
Other versions
CN110832501B (zh
Inventor
叶茂
A.约拉布
任骝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN110832501A publication Critical patent/CN110832501A/zh
Application granted granted Critical
Publication of CN110832501B publication Critical patent/CN110832501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7557Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

计算系统包括具有至少一个处理单元的处理系统。处理系统被配置为在接收到具有面部图像的图像数据后执行面部对准方法。处理系统被配置为将神经网络应用于面部图像。神经网络被配置为基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。

Description

用于姿态不变面部对准的系统和方法
技术领域
本公开涉及用于面部对准的系统和方法。
背景技术
一般而言,使用卷积神经网络(CNN)级联实现的面部对准技术至少经历以下缺点:缺乏端到端训练、手工制作特征提取和慢的训练速度。例如,在没有端到端训练的情况下,CNN不能联合优化,从而导致次优的解决方案。此外,这些类型的面部对准技术通常实现简单的手工制作特征提取方法,所述方法并不将诸如姿态、表情等各种面部因素考虑在内。此外,这些CNN级联典型地具有浅框架,所述浅框架不能够通过依赖早期CNN的提取特征来提取更深的特征。此外,对这些CNN的训练通常是耗时的,这是因为每一个CNN是独立并依次训练的,并且还因为在两个接续的CNN之间要求手工制作特征提取。
发明内容
以下是下面详细描述的某些实施例的概述。呈现所描述的方面仅仅是为了向读者提供这某些实施例的简要概述,并且这些方面的描述没有限制本公开的范围的意图。实际上,本公开可以涵盖下面可能没有明确阐述的各种方面。
在示例实施例中,一种计算系统包括具有至少一个处理单元的处理系统。处理系统被配置为在接收到具有面部图像的图像数据后执行面部对准方法。处理系统被配置为将神经网络应用于面部图像。神经网络被配置为基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。
在示例实施例中,一种计算机实现的方法包括接收具有面部图像的图像数据。所述计算机实现的方法包括实现神经网络,以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。
在示例实施例中,一种非暂时性计算机可读介质至少包括计算机可读数据,所述计算机可读数据当由具有至少一个处理单元的处理系统执行时,执行包括接收具有面部图像的图像数据的方法。所述方法包括实现神经网络,以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计。神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计生成特征图。参数数据包括头部姿态数据和面部形状数据。
通过以下鉴于附图对某些示例性实施例的详细描述,进一步阐明本发明的这些和其他特征、方面和优点,贯穿附图,同样的字符表示同样的部分。
附图说明
图1是根据本公开的示例实施例的系统的框图。
图2图示了根据本公开的示例实施例的图1的系统的姿态不变面部对准模块。
图3是根据本公开的示例实施例的图2的CNN的架构的框图。
图4是根据本公开的示例实施例的可视化块的概念图。
图5是根据本公开的示例实施例的可视化块的架构的示例图。
图6图示了根据本公开的示例实施例的掩模的示例。
图7图示了根据本公开的可替换示例实施例的掩模的示例。
图8图示了根据本公开的示例实施例的基于3D对象的表面法向量在投影期间选择期望表面点的示例。
图9A是根据本公开的示例实施例的图像数据的示例。
图9B是根据本公开的示例实施例的可视化层的初始化的示例。
图9C是根据本公开的示例实施例的与CNN的第一可视化块相关联的可视化层的可视化数据的示例。
图9D是根据本公开的示例实施例的与CNN的第二可视化块相关联的可视化层的可视化数据的示例。
图9E是根据本公开的示例实施例的与CNN的第三可视化块相关联的可视化层的可视化数据的示例。
图9F是根据本公开的示例实施例的与CNN的第四可视化块相关联的可视化层的可视化数据的示例。
图9G是根据本公开的示例实施例的与CNN的第五可视化块相关联的可视化层的可视化数据的示例。
图9H是根据本公开的示例实施例的与CNN的第六可视化块相关联的可视化层的可视化数据的示例。
图10A是根据本公开的示例实施例的图像数据的示例。
图10B是根据本公开的示例实施例的可视化层的初始化的示例。
图10C是根据本公开的示例实施例的与CNN的第一可视化块相关联的可视化层的可视化数据的示例。
图10D是根据本公开的示例实施例的与CNN的第二可视化块相关联的可视化层的可视化数据的示例。
图10E是根据本公开的示例实施例的与CNN的第三可视化块相关联的可视化层的可视化数据的示例。
图10F是根据本公开的示例实施例的与CNN的第四可视化块相关联的可视化层的可视化数据的示例。
图10G是根据本公开的示例实施例的与CNN的第五可视化块相关联的可视化层的可视化数据的示例。
图10H是根据本公开的示例实施例的与CNN的第六可视化块相关联的可视化层的可视化数据的示例。
图11A是根据本公开的示例实施例的图像数据的示例。
图11B是根据本公开的示例实施例的可视化层的初始化的示例。
图11C是根据本公开的示例实施例的与CNN的第一可视化块相关联的可视化层的可视化数据的示例。
图11D是根据本公开的示例实施例的与CNN的第二可视化块相关联的可视化层的可视化数据的示例。
图11E是根据本公开的示例实施例的与CNN的第三可视化块相关联的可视化层的可视化数据的示例。
图11F是根据本公开的示例实施例的与CNN的第四可视化块相关联的可视化层的可视化数据的示例。
图11G是根据本公开的示例实施例的与CNN的第五可视化块相关联的可视化层的可视化数据的示例。
图11H是根据本公开的示例实施例的与CNN的第六可视化块相关联的可视化层的可视化数据的示例。
具体实施方式
已经作为举例示出和描述的上述实施例及其许多优点将通过前面的描述来理解,并且将清楚,在不脱离所公开的主题或者不牺牲其一个或多个优点的情况下,可以在组件的形式、构造和布置方面做出各种改变。实际上,这些实施例的所描述形式仅仅是解释性的。这些实施例容许各种修改和可替换形式,并且所附权利要求意图涵盖和包括这类改变,并且不限于所公开的特定形式,而是要覆盖落入本公开的精神和范围内的所有修改、等同物和替换物。
图1是被配置为实现姿态不变面部对准的计算机系统100的框图。在这方面,计算机系统100包括各种软件和硬件组件。例如,计算机系统100至少包括存储器系统110、面部检测模块120、姿态不变面部对准模块130、处理系统140、通信系统150和其他功能模块160。在示例实施例中,计算机系统100被配置为实现和执行如本文所公开的并且如姿态不变面部对准模块130所提供的姿态不变面部对准方法。此外,在示例实施例中,计算机系统100还被配置为在实现和执行姿态不变面部对准方法之前,实现和执行如本文所公开的并且如面部检测模块120所提供的面部检测。
在示例实施例中,存储器系统110包括各种数据,所述数据包括训练数据和与姿态不变面部对准模块130相关联的其他数据。在示例实施例中,存储器系统110是计算机或电子存储系统,其被配置为存储和提供对各种数据的访问,以至少使能实现如本文所公开的操作和功能性。在示例实施例中,存储器系统110包括单个设备或多个设备。在示例实施例中,存储器系统110可以包括电气、电子、磁性、光学、半导体、电磁或任何合适的技术。例如,在示例实施例中,存储器系统110可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、磁盘驱动器、存储器卡、光学存储设备、磁性存储设备、存储器模块、任何合适类型的存储器设备或其任何组合。在示例实施例中,相对于计算机系统100,存储器系统110是本地的、远程的或其组合(例如,部分本地且部分远程)。在示例实施例中,存储器系统110可以至少包括远离计算机系统100的其他组件的基于云的存储系统(例如,基于云的数据库系统)。
在示例实施例中,面部检测模块120包括硬件、软件或其组合。在示例实施例中,面部检测模块120至少被配置为接收图像,标识图像内的面部图像,以及提供与面部图像相关的图像数据220。在示例实施例中,处理系统140至少包括中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、片上系统(SOC)、可编程逻辑器件(PLD)、任何合适的计算技术或其任何组合。
在示例实施例中,通信系统150包括合适的通信技术,所述通信技术使得计算机系统100的组件的任何合适的组合能够彼此通信。在示例实施例中,通信系统150包括基于有线的技术、基于无线的技术和/或其组合。在示例实施例中,通信系统150包括有线网络、无线网络或其组合。在示例实施例中,通信系统150包括任何合适类型的计算机网络和/或架构。在示例实施例中,通信系统150包括到因特网的连接。
在示例实施例中,其他功能模块160包括硬件、软件或其组合。例如,其他功能模块28包括逻辑电路、操作系统、I/O设备(例如显示器等)、其他计算机技术或其任何组合。更具体地,在示例实施例中,其他功能模块28使得姿态不变面部对准模块130能够如本文所公开的那样操作和运作。在示例实施例中,其他功能模块160包括相机和/或光学系统。在这方面,相机和/或光学系统被配置为向面部检测模块120和/或处理系统140提供图像,使得图像数据220被提供给姿态不变面部对准模块130。此外,在示例实施例中,其他功能模块160包括面部分析模块,诸如面部识别模块、表情估计模块、3D面部重构模块、任何合适的面部分析模块或其任何组合。在这方面,面部分析模块被配置为根据来自CNN 200的输出(诸如与面部图像相关的参数数据的最终估计)来执行面部分析。
图2图示了根据示例实施例的姿态不变面部对准模块130。在示例实施例中,姿态不变面部对准模块130包括单个CNN 200。在示例实施例中,该CNN 200被配置为至少接收图像数据220和一组参数230作为输入。在从面部检测模块120接收到图像数据220(即,具有任意头部姿态的单个面部图像)后,并且在获得一组参数230后,姿态不变面部对准模块130被配置为通过拟合3D面部模型来估计2D界标,所述2D界标具有其可视性标签。在这方面,姿态不变面部对准模块130包括具有用于模型拟合的端到端训练的单个CNN 200。
图3图示了根据示例实施例的CNN 200的示例架构。如所示出的,CNN 200包括多个连接的可视化块210。例如,作为非限制性示例,CNN 200包括至少六个可视化块210。在这方面,CNN 200包括提供期望结果的任何合适数量的可视化块210。在示例实施例中,输入包括图像数据220和对至少一个参数(例如参数P0)的初始估计,并且输出是该组参数的最终估计290。与具有CNN 200的级联的相关系统相比,归因于所有可视化块210与损失函数的反向传播的联合优化,姿态不变面部对准模块130具有CNN 200,该CNN 200具有能够在训练期间在显著更少的时期中收敛的架构。
在示例实施例中,系统100包括3D可变形模型(3DMM)。在示例实施例中,存储器系统110(例如,训练数据)、姿态不变面部对准模块130或其组合包括3DMM。在示例实施例中,3DMM表示面部的3D形状。更具体地,3DMM经由以下等式将3D面部Sp表示为均值形状S0、身份基SI和表情基SE的线性组合:
Figure 20547DEST_PATH_IMAGE001
[等式1]
在示例实施例中,姿态不变面部对准模块130使用用于3D形状参数的向量
Figure 989640DEST_PATH_IMAGE002
Figure 941416DEST_PATH_IMAGE003
,其中
Figure 210723DEST_PATH_IMAGE004
是身份参数,并且
Figure 58593DEST_PATH_IMAGE005
是表情参数。在示例实施例中,姿态不变面部对准模块130使用具有199个基作为身份基的巴塞尔3D面部模型,以及具有29个基作为表情基的面部仓库模型。在该情况下,每个3D面部形状包括一组Q 3D顶点:
Figure 983824DEST_PATH_IMAGE006
[等式2]
在示例实施例中,2D面部形状是3D形状的投影。在示例实施例中,弱透视投影模型以6个自由度使用——即一个用于缩放、三个用于旋转角度、并且两个用于平移,其将3D面部形状Sp投影到2D图像上以获得2D形状U,如以下等式表达的:
[等式3]
其中
Figure 800787DEST_PATH_IMAGE008
[等式4]
并且
[等式5]
在该情况下,U收集一组N个2D界标,M是相机投影矩阵,其中乱用符号,并且N-dim向量b包括语义上对应于2D界标的3D顶点索引。在示例实施例中,
Figure 853560DEST_PATH_IMAGE011
Figure 35142DEST_PATH_IMAGE012
标示缩放的旋转分量的前两行,而m4和m8是平移。
等式3建立2D界标UP(即3D形状参数p和相机投影矩阵M)之间的关系或等价性。在给定用于面部对准的几乎所有训练图像仅具有2D标签(即U)的情况下,处理系统140执行数据增强步骤来计算它们对应的P。给定图像数据220,姿态不变面部对准模块130被配置为估计参数P,基于该参数P可以导出2D界标及其可视性。
图4图示了根据示例实施例的可视化块210的概念图。如图4中所示,可视化块210包括可视化层240,可视化层240根据CNN 200内部的估计参数重构3D面部形状,并经由可视顶点的表面法向量808/810合成2D图像。在示例实施例中,可视化层240可视化先前可视化块210的对准结果,并将其用于当前可视化块210。在示例实施例中,可视化层240从下层的3D面部模型806的表面法线808/810导出,并对面部与相机之间的相对姿态进行编码(图8)。此外,在示例实施例中,可视化层240是可微分的,这允许分析地计算梯度,从而使能实现CNN 200的端到端训练。此外,如图4中所示,可视化层240利用掩模600/700来在面部图像的中间部分与轮廓部分中的像素之间进行区分,并且还使得经可视化的图像的像素值跨不同姿态是相似的。此外,如图4中所示,由CNN 200的最后可视化块210所提供的面部图像的参数的最终估计290可以被提供给面部分析模块,以获得面部界标检测结果300。
图5图示了根据示例实施例的CNN 200的可视化块210。如上面提及的,每个可视化块210包括基于最新参数估计的可视化层240。在这方面,每个可视化层240充当接续可视化块210之间的桥梁。在示例实施例中,每个可视化层240基于当前估计或输入的参数P生成特征图250。每个卷积层260继之以批量归一化(BN)层和修正线性单元(ReLU)层。每个卷积层260基于由先前可视化块210和可视化层240提供的输入特征提取更深的特征。在两个完全连接层270之间,第一卷积层260继之以ReLU层和丢弃(dropout)层,而第二卷积层260同时估计Mp的更新
Figure 959236DEST_PATH_IMAGE013
。在示例实施例中,例如,当将
Figure 655797DEST_PATH_IMAGE013
添加到输入P时,可视化块210的输出包括输出数据280A和对参数230的新估计(或当前估计)280B。在图5中,输出数据280A包括更深的特征和图像数据220。在可替换示例实施例中,输出数据280A包括更深的特征。在另一可替换示例实施例中,输出数据280A包括图像数据220。在示例实施例中,如图5中所示,基本上,可视化块210的顶部聚焦于学习更深的特征,而底部利用这类特征来估计像ResNet结构中的参数230。在训练阶段的反向传递期间,可视化块210通过其两个输入反向传播损失,以调整先前可视化块210中的卷积层260和完全连接层270。该操作允许可视化块210提取适合于下一个可视化块210的更好的特征,并改进整体参数估计。
在示例实施例中,CNN 200被配置为采用至少两种类型的损失函数。在该情况下,例如,第一种类型的损失函数是在参数更新的估计与目标之间的欧几里德损失,其中每个参数单独地被加权,如以下等式表达的:
[等式6]
其中在第i个可视化块210处,
Figure 54734DEST_PATH_IMAGE015
是损失,是估计,并且
Figure DEST_PATH_IMAGE017
是目标(或基本真值)。在该等式中,对角矩阵W包含权重。对于形状参数p的每个元素,其权重是从3DMM训练中使用的数据获得的标准差的逆。为了补偿M的参数间的相对缩放,处理系统140计算训练数据中缩放的旋转参数的平均值与平移参数的平均值之间的比率r。在这方面,M的缩放的旋转参数的权重被设置为
Figure 333586DEST_PATH_IMAGE018
,并且M的平移的权重被设置为1。此外,第二种类型的损失函数是作为结果的2D界标上的欧几里德损失,如以下等式表达的:
Figure 437808DEST_PATH_IMAGE019
[等式7]
其中,是基本真值2D界标,并且Pi是到第i个块的输入参数,即第i-l个块的输出。在这方面,经由等式3使用当前更新的参数计算2D界标位置。在示例实施例中,对于该损失函数向参数
Figure 62190DEST_PATH_IMAGE013
的反向传播,链规则用于计算梯度,如以下等式表达的:
[等式8]
在示例实施例中,对于CNN 200的前三个可视化块210,使用参数更新上的欧几里德损失(等式6),而2D界标上的欧几里德损失(等式7)被应用于CNN 200的最后三个块。前三个块估计参数以粗略地将3D形状与面部图像对准,并且最后三个块利用良好的初始化来更精确地估计参数和2D界标位置。
在示例实施例中,可视化层240基于在局部邻域中提供表面取向的3D面部的表面法线。在示例实施例中,处理系统140使用利用姿态变换的每个顶点的表面法线的z坐标。在这方面,z坐标是顶点的“正面性(frontability)”的指示符,即表面法线正指向相机800的量。该量用于在其投影的2D位置分配强度值,以构造可视化数据242(例如,可视化图像)。在示例实施例中,正面性度量g——Q-dim向量,可以经由以下等式来计算:
Figure 980785DEST_PATH_IMAGE023
[等式9]
其中是叉积,并且
Figure 576031DEST_PATH_IMAGE025
标示L2范数。
Figure 84373DEST_PATH_IMAGE026
矩阵N0是3D面部形状的表面法向量。为了避免在每次形状更新之后计算表面法线的高计算成本,处理系统140将N0近似为均值3D面部的表面法线。
在示例实施例中,面部形状和头部姿态两者仍然跨各种可视化块210持续更新,并用于确定投影的2D位置。因此,该近似将仅稍微影响强度值。为了基于头部姿态变换表面法线,处理系统140将缩放的旋转矩阵(m1和m2)的估计应用于从均值面部计算的表面法线。然后利用为0的下界截断该值,如等式9中所示。经可视化的图像的像素强度被计算为局部邻域内正面性度量的加权平均值,如以下等式表达的:
Figure 619576DEST_PATH_IMAGE028
[等式10]
其中
Figure DEST_PATH_IMAGE029
是一组顶点索引,顶点的2D投影位置在像素
Figure 937425DEST_PATH_IMAGE030
的局部邻域内。
Figure 983879DEST_PATH_IMAGE031
是第q个3D顶点的2D投影位置。权重w是像素
Figure 703573DEST_PATH_IMAGE030
与投影位置之间的距离度量,
Figure DEST_PATH_IMAGE033
[等式11]
此外,
Figure 411952DEST_PATH_IMAGE034
是Q-dim掩模向量,其对于面部中间区域中的顶点具有正值,并且对于面部轮廓区域周围的顶点具有负值,如以下等式表达的:
Figure DEST_PATH_IMAGE035
[等式12]
其中
Figure 199779DEST_PATH_IMAGE036
是鼻尖的顶点坐标。
此外,在该等式中,
Figure DEST_PATH_IMAGE037
针对零均值和单位标准差被预先计算和归一化。在示例实施例中,处理系统140使用掩模600来在面部的中心区域与边界区域之间进行区分,以及增加跨不同面部可视化的相似性。
在示例实施例中,为了允许损失函数通过可视化层240反向传播,处理系统140计算V相对于参数M和p的元素的导数。在这方面,处理系统140计算偏导数
Figure 570718DEST_PATH_IMAGE038
Figure 848115DEST_PATH_IMAGE039
Figure 874977DEST_PATH_IMAGE040
。在示例实施例中,处理系统140然后基于等式10计算
Figure 528812DEST_PATH_IMAGE041
的导数。
图6图示了根据示例实施例的示例性掩模600的可视化的两个视图。具体地,图6包括掩模600的正面视图602和掩模600的侧面视图604(或剖面视图)。在该情况下,掩模600例如至少由等式12表达。如图6中所示,如由
Figure 609081DEST_PATH_IMAGE037
表达的掩模600在中间区域中具有正值,并且在轮廓区域中具有负值,如标度606所指示的。
图7图示了根据可替换示例实施例的掩模700的另一示例。具体地,图7包括掩模700的正面视图702和掩模700的侧面视图704(或剖面视图)。在该示例中,掩模700具有五个正区域,其包括两个眼睛区域、鼻尖区域和两个唇角区域,如标度706所指示的。此外,在该示例中,各值被归一化为零均值和单位标准差。在这方面,掩模700使得经可视化的图像的像素值对于具有不同姿态的面部是相似的,并且在面部的中间区域与轮廓区域之间进行区分。与图5的掩模600所提供的相比,图7的掩模700更加复杂,并且传达关于信息丰富的面部区域的更多信息。
图8图示了相机800相对于具有多个像素的图像平面802的位置。此外,图8示出了沿着图像平面802的图像像素延伸的像素轴804,连同作为3D对象806的图像平面802的人类面部图像的可视化。图8还包括具有负z坐标的表面法向量(如在箭头808处指出的),以及具有正z坐标和较小深度的表面法向量(如箭头810指出的)。在这方面,以任意视角将人类面部可视化为3D对象806要求对每个3D顶点的可视性的估计。为了避免经由渲染进行计算昂贵的可视性测试,处理系统140被配置为实现至少两种近似策略。作为一种策略,例如,处理系统140被配置为修剪其正面性度量g等于0的顶点,即指向相机800的顶点。第二,如果多个顶点经由像素轴804投影到同一图像像素,则处理系统140被配置为仅保持具有最小深度值的顶点,例如,如图8中的箭头810所指示的。
图9A是根据示例实施例的图像数据220的示例。如图9A中所示,在该示例中,图像数据220至少包括具有张开嘴的表情(例如,微笑)的大的面部姿态。图9B是根据示例实施例的可视化层240的初始化的示例。图9C是根据示例实施例的与CNN 200的第一可视化块210相关联的可视化层240的可视化数据242的示例。图9D是根据示例实施例的与CNN 200的第二可视化块210相关联的可视化层240的可视化数据242的示例。图9E是根据示例实施例的与CNN 200的第三可视化块210相关联的可视化层240的可视化数据242的示例。图9F是根据示例实施例的与CNN 200的第四可视化块210相关联的可视化层240的可视化数据242的示例。图9G是根据示例实施例的与CNN 200的第五可视化块210相关联的可视化层240的可视化数据242的示例。图9H是根据本公开的示例实施例的与CNN 200的第六可视化块210相关联的可视化层240的可视化数据242的示例。如图9C-9H中渐进示出的,姿态不变面部对准模块130能够恢复如图9A中所示的图像数据220的面部图像的表情和头部姿态。在示例实施例中,姿态不变面部对准模块130能够至少通过提取更深的特征并采用损失函数的反向传播来提供这些结果。
图10A是根据本公开的示例实施例的图像数据220的示例。如图10A中所示,在该示例中,图像数据220至少包括具有相对中性表情的大的面部姿态。图10B是根据本公开的示例实施例的可视化层240的初始化的示例。图10C是根据本公开的示例实施例的与CNN 200的第一可视化块210相关联的可视化层240的可视化数据242的示例。图10D是根据本公开的示例实施例的与CNN 200的第二可视化块210相关联的可视化层240的可视化数据242的示例。图10E是根据本公开的示例实施例的与CNN 200的第三可视化块210相关联的可视化层240的可视化数据242的示例。图10F是根据示例实施例的与CNN 200的第四可视化块210相关联的可视化层240的可视化数据242的示例。图10G是根据示例实施例的与CNN 200的第五可视化块210相关联的可视化层240的可视化数据242的示例。图10H是根据示例实施例的与CNN 200的第六可视化块210相关联的可视化层240的可视化数据242的示例。如图10C-10H中渐进示出的,姿态不变面部对准模块130能够恢复如图10A中所示的图像数据220的面部图像的表情和头部姿态。在示例实施例中,姿态不变面部对准模块130能够至少通过提取更深的特征并采用损失函数的反向传播来提供这些结果。
图11A是根据本公开的示例实施例的图像数据220的示例。如图11A中所示,在该示例中,图像数据220至少包括具有相对中性表情的大的面部姿态。此外,图11A的图像数据220包括与包括在图10A的图像数据220中的面部侧面不同的面部侧面。图11B是根据示例实施例的可视化层240的初始化的示例。图11C是根据示例实施例的与CNN 200的第一可视化块210相关联的可视化层240的可视化数据242的示例。图11D是根据示例实施例的与CNN200的第二可视化块210相关联的可视化层240的可视化数据242的示例。图11E是根据示例实施例的与CNN 200的第三可视化块210相关联的可视化层240的可视化数据242的示例。图11F是根据示例实施例的与CNN 200的第四可视化块210相关联的可视化层240的可视化数据242的示例。图11G是根据示例实施例的与CNN 200的第五可视化块210相关联的可视化层240的可视化数据242的示例。图11H是根据示例实施例的与CNN 200的第六可视化块210相关联的可视化层240的可视化数据242的示例。如图11C-11H中渐进示出的,姿态不变面部对准模块130能够恢复如图11A中所示的图像数据220的面部图像的表情和头部姿态。在示例实施例中,姿态不变面部对准模块130能够至少通过提取更深的特征并采用损失函数的反向传播来提供这些结果。
如上所述,系统100包括多个有利的特征。例如,系统100被配置为经由单个CNN200实现具有端到端训练的大姿态面部对准方法。此外,CNN 200包括至少一个可微分可视化层240,其集成到神经网络(即CNN 200)中,并且通过将误差从至少一个稍后的可视化块210反向传播到至少一个较早的可视化块210来使能实现联合优化。此外,系统100被配置为以便使得每个可视化块210能够通过利用从先前的可视化块210提取的特征来提取更深的特征,而不需要提取手工制作特征。此外,姿态不变对准方法与牵涉CNN级联的相关系统所提供的方法相比,在训练阶段期间收敛得更快。在这方面,例如,单个CNN 200的端到端训练的主要优点之一是减少的训练时间。此外,CNN 200包括至少一个可视化层240,所述至少一个可视化层240是可微分的并经由表面法线对面部几何细节进行编码。此外,使得姿态不变面部对准模块130能够引导CNN 200聚焦于并入姿态信息和表情信息两者的面部区域。此外,CNN 200可以被配置为通过简单地增加其架构中的可视化块210的数量来实现更高水平的精度和准确度。
也就是说,上面描述意图是说明性的而非限制性的,并且是在特定应用及其要求的上下文中提供的。本领域技术人员可以从前面的描述中领会到,本发明可以以各种形式实现,并且各种实施例可以单独或组合实现。因此,虽然本发明的实施例已经结合其特定示例被描述,但是在不脱离所描述的实施例的精神和范围的情况下,本文限定的一般原理可以应用于其他实施例和应用,并且本发明的实施例和/或方法的真实范围不限于所示出和描述的实施例,因为在对附图、说明书和所附权利要求的研究后,各种修改对于技术实践者而言将变得清楚。例如,组件和功能性可以以不同于各种所描述实施例的方式分离或组合,并且可以使用不同的术语来描述。这些和其他变型、修改、添加和改进可以落在如所附权利要求中所限定的本公开的范围内。

Claims (20)

1.一种计算系统,包括具有至少一个处理单元的处理系统,处理系统被配置为执行面部对准方法,所述面部对准方法包括:
接收具有面部图像的图像数据;以及
实现神经网络以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计,神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计来生成特征图,
其中参数数据包括头部姿态数据和面部形状数据。
2.根据权利要求1所述的计算系统,进一步包括:
面部检测模块,被配置为至少(i)接收图像,(ii)标识图像内的面部图像,以及(iii)向处理系统提供与面部图像相关的图像数据,
其中面部图像提供在正面视图到剖面视图的范围内的面部视图。
3.根据权利要求1所述的计算系统,其中面部形状数据包括面部身份参数和面部表情参数。
4.根据权利要求1所述的计算系统,其中神经网络是具有用于模型拟合的端到端训练的单个卷积神经网络。
5.根据权利要求1所述的计算系统,其中:
神经网络是具有连接的多个可视化块的单个卷积神经网络;并且
每个可视化块至少包括可视化层、卷积层和完全连接层。
6.根据权利要求1所述的计算系统,其中每个可视化层基于3D面部模型的表面法线,并且对面部与相机之间的相对头部姿态进行编码。
7.根据权利要求1所述的计算系统,其中每个可视化层利用掩模来在面部图像的不同部分中的像素之间进行区分,并且使得经可视化的图像的像素值跨不同头部姿态是相似的。
8.一种用于面部对准的计算机实现的方法,包括:
接收具有面部图像的图像数据;以及
实现神经网络以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计,神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计来生成特征图,
其中参数数据包括头部姿态数据和面部形状数据。
9.根据权利要求8所述的计算机实现的方法,进一步包括:
对图像执行面部检测,所述面部检测包括(i)接收图像,(ii)标识图像内的面部图像,以及(iii)向处理系统提供与面部图像相关的图像数据,
其中面部图像提供在正面视图到剖面视图的范围内的面部视图。
10.根据权利要求8所述的计算机实现的方法,其中面部形状数据包括面部身份参数和面部表情参数。
11.根据权利要求8所述的计算机实现的方法,其中神经网络是具有用于模型拟合的端到端训练的单个卷积神经网络。
12.根据权利要求8所述的计算机实现的方法,其中:
神经网络是具有连接的多个可视化块的单个卷积神经网络;并且
每个可视化块至少包括可视化层、卷积层和完全连接层。
13.根据权利要求8所述的计算机实现的方法,其中每个可视化层基于3D面部模型的表面法线,并且对面部与相机之间的相对头部姿态进行编码。
14.根据权利要求8所述的计算机实现的方法,其中每个可视化层利用掩模来在面部图像的不同部分中的像素之间进行区分,并且使得经可视化的图像的像素值跨不同头部姿态是相似的。
15.一种非暂时性计算机可读介质,至少包括计算机可读数据,所述计算机可读数据当由具有至少一个处理单元的处理系统执行时,执行面部对准方法,所述面部对准方法包括:
接收具有面部图像的图像数据;以及
实现神经网络以基于图像数据和面部图像的参数数据的初始估计来提供参数数据的最终估计,神经网络包括至少一个可视化层,所述至少一个可视化层被配置为基于参数数据的当前估计来生成特征图,
其中参数数据包括头部姿态数据和面部形状数据。
16.根据权利要求15所述的非暂时性计算机可读介质,其中面部形状数据包括面部身份参数和面部表情参数。
17.根据权利要求15所述的非暂时性计算机可读介质,其中神经网络是具有用于模型拟合的端到端训练的单个卷积神经网络。
18.根据权利要求15所述的非暂时性计算机可读介质,其中:
神经网络是具有连接的多个可视化块的单个卷积神经网络;并且
每个可视化块至少包括可视化层、卷积层和完全连接层。
19.根据权利要求15所述的非暂时性计算机可读介质,其中每个可视化层基于3D面部模型的表面法线,并且对面部与相机之间的相对头部姿态进行编码。
20.根据权利要求15所述的非暂时性计算机可读介质,其中每个可视化层利用掩模来在面部图像的不同部分中的像素之间进行区分,并且使得经可视化的图像的像素值跨不同头部姿态是相似的。
CN201880046190.7A 2017-07-13 2018-07-11 用于姿态不变面部对准的系统和方法 Active CN110832501B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/649,230 US10380413B2 (en) 2017-07-13 2017-07-13 System and method for pose-invariant face alignment
US15/649230 2017-07-13
PCT/EP2018/068734 WO2019011958A1 (en) 2017-07-13 2018-07-11 INVARIANT FACE ALIGNMENT SYSTEM AND METHOD FOR INSTALLATION

Publications (2)

Publication Number Publication Date
CN110832501A true CN110832501A (zh) 2020-02-21
CN110832501B CN110832501B (zh) 2024-07-05

Family

ID=62904469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880046190.7A Active CN110832501B (zh) 2017-07-13 2018-07-11 用于姿态不变面部对准的系统和方法

Country Status (5)

Country Link
US (1) US10380413B2 (zh)
JP (1) JP6918198B2 (zh)
CN (1) CN110832501B (zh)
DE (1) DE112018000298T5 (zh)
WO (1) WO2019011958A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159081A (zh) * 2020-01-23 2021-07-23 华为技术有限公司 一种图像处理方法以及相关设备

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210158023A1 (en) * 2018-05-04 2021-05-27 Northeastern University System and Method for Generating Image Landmarks
CN109191507B (zh) * 2018-08-24 2019-11-05 北京字节跳动网络技术有限公司 三维人脸图像重建方法、装置和计算机可读存储介质
US10796476B1 (en) * 2018-08-31 2020-10-06 Amazon Technologies, Inc. Self-supervised bootstrap for single image 3-D reconstruction
WO2020048620A1 (en) * 2018-09-07 2020-03-12 Toyota Motor Europe Method and system for processing an image by determining rotation hypotheses
US10713544B2 (en) * 2018-09-14 2020-07-14 International Business Machines Corporation Identification and/or verification by a consensus network using sparse parametric representations of biometric images
US11710034B2 (en) * 2019-02-27 2023-07-25 Intel Corporation Misuse index for explainable artificial intelligence in computing environments
CN110210456A (zh) * 2019-06-19 2019-09-06 贵州理工学院 一种基于3d卷积神经网络的头部姿态估计方法
CN110599395B (zh) * 2019-09-17 2023-05-12 腾讯科技(深圳)有限公司 目标图像生成方法、装置、服务器及存储介质
CN111144556B (zh) * 2019-12-31 2023-07-07 中国人民解放军国防科技大学 面向深度神经网络训练和推理的范围批处理归一化算法的硬件电路
CN111199543A (zh) * 2020-01-07 2020-05-26 南京航空航天大学 一种基于卷积神经网络的冰柜表面缺陷检测
US20210224610A1 (en) * 2020-01-17 2021-07-22 Insurance Services Office, Inc. Systems and Methods for Disentangling Factors of Variation in Computer Vision Systems Using Cycle-Consistent Variational Auto-Encoders
US11272164B1 (en) 2020-01-17 2022-03-08 Amazon Technologies, Inc. Data synthesis using three-dimensional modeling
CN111260774B (zh) * 2020-01-20 2023-06-23 北京百度网讯科技有限公司 生成3d关节点回归模型的方法和装置
CN111582376B (zh) * 2020-05-09 2023-08-15 抖音视界有限公司 神经网络的可视化方法、装置、电子设备和介质
DE102020122023B3 (de) 2020-08-24 2022-02-17 Technische Universität Ilmenau Verfahren und Vorrichtung zur Echtzeit-Ermittlung der Sollgeschwindigkeit eines zumindest teilautonom fahrenden Fahrzeugs in Umgebungen mit Fußgängerverkehr
CN112200024B (zh) * 2020-09-24 2022-10-11 复旦大学 一种通过三维可形变模型学习的二维人脸表情识别方法
EP3985573A1 (en) * 2020-10-13 2022-04-20 Imagination Technologies Limited Implementation of a neural network in multicore hardware

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090185723A1 (en) * 2008-01-21 2009-07-23 Andrew Frederick Kurtz Enabling persistent recognition of individuals in images

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080298643A1 (en) * 2007-05-30 2008-12-04 Lawther Joel S Composite person model from image collection
US7848548B1 (en) * 2007-06-11 2010-12-07 Videomining Corporation Method and system for robust demographic classification using pose independent model from sequence of face images
US8401248B1 (en) * 2008-12-30 2013-03-19 Videomining Corporation Method and system for measuring emotional and attentional response to dynamic digital media content
US10095917B2 (en) * 2013-11-04 2018-10-09 Facebook, Inc. Systems and methods for facial representation
EP2869239A3 (en) 2013-11-04 2015-08-19 Facebook, Inc. Systems and methods for facial representation
IL231862A (en) 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
CN105981041A (zh) 2014-05-29 2016-09-28 北京旷视科技有限公司 使用粗到细级联神经网络的面部关键点定位
JP6754619B2 (ja) 2015-06-24 2020-09-16 三星電子株式会社Samsung Electronics Co.,Ltd. 顔認識方法及び装置
WO2017015390A1 (en) * 2015-07-20 2017-01-26 University Of Maryland, College Park Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition
JP7011578B2 (ja) * 2015-08-31 2022-01-26 エスアールアイ インターナショナル 運転行動を監視する方法及びシステム
US11132543B2 (en) * 2016-12-28 2021-09-28 Nvidia Corporation Unconstrained appearance-based gaze estimation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090185723A1 (en) * 2008-01-21 2009-07-23 Andrew Frederick Kurtz Enabling persistent recognition of individuals in images

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩志艳;王健;: "面向语音与面部表情信号的情感可视化方法", 电子设计工程 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159081A (zh) * 2020-01-23 2021-07-23 华为技术有限公司 一种图像处理方法以及相关设备

Also Published As

Publication number Publication date
US10380413B2 (en) 2019-08-13
CN110832501B (zh) 2024-07-05
JP6918198B2 (ja) 2021-08-11
WO2019011958A1 (en) 2019-01-17
DE112018000298T5 (de) 2019-10-10
JP2020526845A (ja) 2020-08-31
US20190019014A1 (en) 2019-01-17

Similar Documents

Publication Publication Date Title
CN110832501B (zh) 用于姿态不变面部对准的系统和方法
US20210158023A1 (en) System and Method for Generating Image Landmarks
Jourabloo et al. Pose-invariant face alignment with a single CNN
US10755145B2 (en) 3D spatial transformer network
Yuan et al. Iterative transformer network for 3d point cloud
US20170192515A1 (en) Hand gesture recognition for cursor control
CN111328396A (zh) 用于图像中的对象的姿态估计和模型检索
Azad et al. 6-DoF model-based tracking of arbitrarily shaped 3D objects
US20230169677A1 (en) Pose Estimation Method and Apparatus
US9390320B2 (en) Performing hand gesture recognition using 2D image data
CN111739005B (zh) 图像检测方法、装置、电子设备及存储介质
CN112750133A (zh) 计算机视觉训练系统和用于训练计算机视觉系统的方法
Chen et al. 3D neighborhood convolution: Learning depth-aware features for RGB-D and RGB semantic segmentation
CN112652057B (zh) 生成人体三维模型的方法、装置、设备以及存储介质
KR20220081261A (ko) 객체 포즈 추정 방법 및 장치
JP2019008571A (ja) 物体認識装置、物体認識方法、プログラム、及び学習済みモデル
US10936938B2 (en) Method for visualizing neural network models
CN116229056A (zh) 基于双分支特征融合的语义分割方法、装置、设备
US20210272295A1 (en) Analysing Objects in a Set of Frames
Mehl et al. M-fuse: Multi-frame fusion for scene flow estimation
Liang et al. DIG-SLAM: an accurate RGB-D SLAM based on instance segmentation and geometric clustering for dynamic indoor scenes
US20220180548A1 (en) Method and apparatus with object pose estimation
CN114549825A (zh) 目标检测方法、装置、电子设备与存储介质
Zhang et al. Augmented visual feature modeling for matching in low-visibility based on cycle-labeling of Superpixel Flow
Fang et al. MR-CapsNet: a deep learning algorithm for image-based head pose estimation on CapsNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant