CN113204988A - 小样本视点估计 - Google Patents

小样本视点估计 Download PDF

Info

Publication number
CN113204988A
CN113204988A CN202110138466.8A CN202110138466A CN113204988A CN 113204988 A CN113204988 A CN 113204988A CN 202110138466 A CN202110138466 A CN 202110138466A CN 113204988 A CN113204988 A CN 113204988A
Authority
CN
China
Prior art keywords
class
viewpoint
features
viewpoint estimation
unique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110138466.8A
Other languages
English (en)
Inventor
曾烘煜
S·D·梅洛
J·特伦布莱
刘思飞
J·考茨
S·T·伯奇菲尔德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nvidia Corp
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nvidia Corp filed Critical Nvidia Corp
Publication of CN113204988A publication Critical patent/CN113204988A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • H04N13/268Image signal generators with monoscopic-to-stereoscopic image conversion based on depth image-based rendering [DIBR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了小样本视点估计。从3D投影图像时,必须确定图像中对象相对于相机的视点。由于图像本身不具有足够的信息来确定图像中各个对象的视点,因此必须采用估计视点的技术。迄今为止,神经网络已被用于以对象类别为基础来推理这种视点估计,但是必须首先用已经人工创建的大量示例进行训练。本公开提供了一种神经网络,其被训练为仅从少量示例图像学习能够推理针对新对象类别的视点估计的唯一视点估计网络。

Description

小样本视点估计
要求优先权
本申请要求于2019年2月5日提交的标题为“小样本视点估计 (FEW-SHOTVIEWPOINT ESTIMATION)”的美国临时申请号62/801,498 的权益,其全部内容通过引用并入本文。
技术领域
本公开涉及生成图像的对象视点。
背景技术
估计刚性物体相对于相机的视点(例如,方位角、仰角和回旋角)是 三维(3D)计算机视觉中的基本问题。这对于诸如机器人技术、3D模型 检索和重建之类的应用至关重要。该估计是必需的,因为作为从3D投影 的单个图像将没有足够的信息来确定图像中各个对象的视点。虽然可以由 人类手动提供对对象的视点估计,但是这样的工作将是劳动密集型的并且 易于不精确。
迄今为止,用于提供视点估计的技术已经依赖于经训练用于推理图像 中的对象的视点估计的卷积神经网络(CNN)。但是,这些网络已限于为 对象的已知类别(即,具有从其已训练网络的许多标记的示例的对象的类 别)提供视点估计。因此,为了解决对象的未知类别(即,网络在训练期 间未遇到的对象的类别),要求使用未知类别的新示例对网络进行重新训练, 而这又需要注释数千个新示例用于重新训练,这是劳动密集型的。
需要解决这些问题和/或与现有技术相关联的其他问题。
发明内容
公开了用于小样本(few-shot)视点估计的方法、计算机可读介质和系 统。在使用中,训练神经网络的类别特定(category-specific)视点估计块, 以学习能够推理针对任何新对象类别的视点估计的唯一视点估计网络。另 外,由神经网络的类别无关(category-agnostic)特征提取块处理新类别的 多个图像,以提取图像的每一个中的对象的特征。此外,使用这些特征, 学习能够推理针对新对象类别的视点估计的唯一视点估计网络。
附图说明
图1示出了根据一实施例的用于学习能够推理针对新对象类别的视点 估计的唯一视点估计网络的方法的流程图。
图2示出了根据一实施例的用于学习能够推理针对新对象类别的视点 估计的唯一视点估计网络的神经网络框架的框图。
图3示出了根据一实施例的图2的框架的类别无关特征提取块的框图。
图4示出了根据一实施例的图2的框架的类别特定视点估计块的框图。
图5A示出了根据至少一个实施例的推理和/或训练逻辑;
图5B示出了根据至少一个实施例的推理和/或训练逻辑;
图6示出了根据至少一个实施例的神经网络的训练和部署;
图7示出了根据至少一个实施例的示例数据中心系统。
具体实施方式
图1示出了根据一实施例的用于学习能够推理针对新对象类别的视点 估计的唯一视点估计网络的方法100的流程图。方法100可以由处理单元、 程序、自定义电路或其组合来执行。
如操作102中所示,训练神经网络的类别特定视点估计块以学习能够 推理针对新对象类别的视点估计的唯一视点估计网络。在一个实施例中, 元学习(meta-learning)可用于训练类别特定视点估计块以学习唯一视点估 计网络。下面参考附加实施例对元学习进行进一步描述。
在另一个实施例中,类别特定视点估计块可以被训练以能够从针对新 对象类别的少量(例如,3个)示例图像输入中学习唯一视点估计网络。 因此,可以出于推理针对新对象类别的视点估计的目的特定地学习唯一视 点估计网络。新对象类别是指尚未针对其训练类别特定视点估计块的对象 的类别。
另外,如操作104中所示,由神经网络的类别无关特征提取块来处理 新类别的多个图像,以提取每个图像中的对象的特征。在一个实施例中, 由类别无关特征提取块提取的对象的特征可以包括用于对象上的可见关键 点的位置的多峰热图。在另一实施例中,由类别无关特征提取块提取的对 象的特征可以包括对象的高级卷积特征集。
此外,如操作104所示,使用这些特征,学习能够推理针对新对象类 别的视点估计的唯一视点估计网络。以这种方式,唯一视点估计网络可以 用于处理新对象类别的示例图像,以推理针对新对象类别的视点估计。
现在将根据用户的需求,给出关于可采用其实现前述框架的各种可选 架构和特征的更多说明性信息。应该特别注意的是,以下信息是出于说明 目的而阐述的,不应以任何方式解释为限制。下列任何特征都可以可选地 并入或不排除所描述的其他特征。
图2示出了根据一实施例的用于学习能够推理针对新对象类别的视点 估计的唯一视点估计网络的神经网络框架200的框图。
如图所示,框架包括两个主要组件:类别无关特征提取块202和类别 特定视点估计块204。类别无关特征提取块202操作为从图像中提取有助 于改善下游视点估计任务的准确性的通用特征。类别无关特征提取块202 输出提取的特征,其被用作到类别特定视点估计块204的输入。
类别特定视点估计块204操作为学习针对新对象类别的唯一视点估计 网络,并进一步使用该唯一视点估计网络来计算新对象类别(例如,新对 象类型)的所有对象的视点。在一个实施例中,类别特定视点估计块204 通过经由唯一视点估计网络检测语义关键点的唯一集(例如,包含3D、2D 和深度值)来计算视点,唯一视点估计网络使用类别特定特征提取模块(fθcat) 和类别特定关键点检测模块(fθkey)。
最初,使用包含对象类别的有限集的训练集Strain来训练类别无关特征 提取块202和类别特定视点估计块204。在一个实施例中,使用标准监督 学习来训练类别无关特征提取块202,并且其权重对于所有后续训练阶段 是固定的。在另一个实施例中,使用元学习来训练类别特定视点估计块204。 该元学习训练过程被设计为使类别特定视点估计块204成为能够从针对新 对象类别的少量图像中学习唯一视点估计网络的有效“学习者”,其中学习 的唯一视点估计网络便能够计算新对象类别的所有对象的视点。换句话说, 可以使用未知(新)类别的少量图像示例进一步微调已训练的类别特定视 点估计块204,以形成唯一视点估计网络,该网络能够很好地推广到该类 别的其他示例。
为此,在推理时,当遇到新对象类别(即,在训练期间不存在的对象 类别)以及来自另一集合Stest的少量标记的图像示例时,针对新对象类别 创建唯一视点估计网络,其权重使用在元学习期间学习的最佳权重θ* cat和 θ* key进行初始化,并且使用其标记的图像示例对唯一视点估计网络进行微 调。这就产生了类别特定视点网络,其可以很好地推广到这个新对象类别 的其他示例。
以下附图和相关描述更详细地描述了神经网络架构200和每个组件的 训练过程。
图3示出了根据一实施例的图2的框架200的类别无关特征提取块202。
管线的第一阶段是类别无关特征提取块202,其被训练并用于接收图像 302作为输入,并且然后从那些图像302提取与对象的类别无关的特征。 在一个实施例中,类别无关特征提取块202由两个ResNet-18样式的网络 组成:被训练为提取针对一些或所有可见的通用关键点的位置的多峰热图 的第一ResNet-18样式的网络,和被训练为通过优化损耗来检测所有类别 的8个语义关键点的第二ResNet-18样式的网络(其前四个卷积块计算大 小相同的高级卷积特征集),如以下参考公式6更详细描述的。多峰热图和 高级特征被级联为提取的特征308,并且然后被输入到类别特定视点估计 块204。
在一个实施例中,经由标准监督的随机梯度下降(SGD)学习来训练 类别无关特征提取块202。经训练后,其权重在所有后续步骤中是固定的。
图4示出了根据一实施例的图2的框架200的类别特定视点估计块204 的框图。特别地,图4示出了在训练时间期间的类别特定视点估计块204 的实例,以及在推理时间期间的单独的实例(否则被称为唯一视点估计网 络)。
类别特定视点估计块204特定于每个对象类别。它计算针对每个类别 的3D规范(canonical)形状,及其2D图像投影和深度值。它还将这些量 关联起来以计算该对象类别内的对象的视点。此外,经由元学习对类别特 定视点估计块204进行训练以使其作为针对任何新对象类别的最佳的小样 本“学习者”。
建筑
经由语义关键点的视点估计
假设类别特定视点估计块204不知道新对象类别的任何对象的3D形状。 因此,为了计算该新对象类别中的对象的视点,训练类别特定视点估计块 204以估计3D点集{(xk,yk,zk)|k=1…Nc},它们共同表示在以对象为中心的 坐标系中整个类别Tc的规范形状(例如,对于对象类别“椅子”,3D点集 可以包括具有靠背、座位和4条腿的原型椅子的笔画图形表示的角)。另外, 对于每个3D点k,类别特定视点估计块204检测其2D图像投影(uk,vk)并估计其相关联的深度dk。点k的集合值(xk,yk,zk),(uk,vk),dk被称为“语义关 键点”。最后,对象的视点(旋转)是经由正交的Procrustes通过求解一组 方程来获得的,该方程将k个旋转并且投影的3D规范点(xk,yk,zk)与其2D 图像位置和深度估计(uk,vk,dk)相关联。注意,类别特定视点估计块204能 够检测所有可见和不可见3D规范点的投影,从而提供更多数据用于估计 视点。
语义关键点估计
为了定位每个3D关键点k的2D图像投影(uk,vk),网络的输出是2D热 图hk(u,v),其预测该点位于(u,v)处的概率。它是由空间softmax层产生的。 我们经由行(u)和列(v)值的加权和获得最终图像坐标(uk,vk),如下所示:
方程1
Figure BDA0002927715680000051
网络类似地计算与hk(u,v)大小相同的深度值ck(u,v)的2D映射,以及 针对其3D规范关键点的每个维度的另外三个映射
Figure BDA0002927715680000052
最终深度 估计dk和3D关键点(xk,yk,zk)计算如下:
方程2
Figure BDA0002927715680000053
类别特定关键点估计
在给定类别Tc的情况下,类别特定视点估计块204必须经由类别特定 特征提取器fθcat随后是一组类别特定语义关键点检测器{fθkeyk|k=1…Nc}来 检测其唯一的Nc个语义关键点。每个关键点检测器fθkeyk检测一个唯一类别 特定语义关键点k,而特征提取器fθcat计算所有唯一类别特定语义关键点所 需的公共特征。由于类别特定视点估计块204必须适应具有不同数量的语 义关键点的多个不同类别,因此它不能具有固定数量的预定义关键点检测 器。为了灵活地更改每个新颖对象类别的关键点检测器的数量,可以使用 元暹罗式(meta-Siamese)架构,其工作方式如下。对于每个新类别Tc, 将通用预训练关键点检测器(fθkey)复制Nc次,并训练每个副本以检测新类别 的一个唯一关键点k,从而为每个新类别创建具有唯一且不同数量的语义 关键点{fθkeyk|k=1…Nc}的专用关键点检测器。
训练
目标是训练类别特定视点估计块204成为有效的小样本学习者。换句 话说,其经学习的特征提取器fθ * cat和语义关键点检测器fθ * key在使用新类别 的少量示例进行微调后,其应该有效地提取用于新类别的特征并分别检测 其唯一关键点的每一个。为了学习最佳权重θ*={θ*cat,θ*key},使用模型无 关元学习(MAML)算法,最佳权重使得类别特定视点估计块204适合于 小样本微调而不会灾难性地过拟合于新对象类别。
MAML使用标准优化算法(例如,SGD)来优化特殊元目标 (meta-objective)。在标准监督学习中,目标是在每次优化迭代期间仅最小 化任务的训练损失。但是,MAML中的元目标是在每次训练迭代期间使用 一些其标记的示例训练网络后,显式地最小化任务的泛化损失。此外,它 从可在每次迭代期间用于训练的许多此类相关任务集中抽样随机任务。下 面描述用于学习类别特定视点估计块204的最佳权重θ*={θ*cat,θ*key}的特 定元训练算法。
对于视点估计,每个对象类别是唯一任务。在元训练的每次迭代期间, 都会从Strain中采样随机任务。任务包括支持集Ds c和查询集Dq c,它们分别 包含对象类别Tc的10个和3个标记的图像示例。术语“样本(shot)”是 指支持集Ds c中的示例数。对于包含Nc个语义关键点的此类别,将通用关 键点检测器(fθkey)复制Nc次,以构造具有参数
Figure BDA0002927715680000061
的唯 一元暹罗式关键点检测器,并使用θkey初始化每个θkeyk。类别特定关键点 检测器用于估计此任务的支持集的语义关键点,并给定地面实况值,计算出以下损失:
方程3
Figure BDA0002927715680000062
其中
Figure BDA0002927715680000063
Figure BDA0002927715680000064
分别是用于正确估计语义关键点的2D和3D位置以 及深度估计的平均L2回归损失。λ参数控制每个损失项的相对重要性。计 算该损耗Ls Tc相对于网络的参数
Figure BDA0002927715680000071
的梯度,并在SGD的单个步骤中使用该 梯度,以用学习率α将
Figure BDA0002927715680000072
更新为
Figure BDA0002927715680000073
方程4
Figure BDA0002927715680000074
接下来,使用更新的模型参数
Figure BDA0002927715680000075
计算针对该对象类别的查询集Dq c的损失Lq Tc。为了计算查询损失,除了上面公式3中描述的损失项之外, 还使用加权浓度损失项:
方程5
Figure BDA0002927715680000076
这迫使2D关键点的热图hk(u,v)的分布在预测位置(uk,vk)附近达到峰值。 此浓度损失项有助于提高2D关键点检测的准确性。最终查询损失为:
方程6
Figure BDA0002927715680000077
网络Lq Tc的泛化损失在仅用特定类别的几个示例进行训练之后,用作最 终的元目标,在每个元训练迭代中将泛化损失最小化,并且网络的初始参 数θ使用以下方程针对其查询损失Lq Tc进行优化:
方程7
Figure BDA0002927715680000078
方程8
Figure BDA0002927715680000079
重复元训练迭代,直到视点估计块收敛到fθ*为止,如下面的算法1所 示。注意,在方程1中,通用关键点检测器θkey的最佳权重是通过平均所 有重复的关键点θkeyk的梯度来计算的。网络的此设计特征及其带有参数θcat的共享类别级特征提取器有助于提高准确性。它们可以有效利用所有可用 的关键点,以在元训练期间学习θcat和θkey的最佳值,这在训练数据稀缺时 尤其重要。
算法1
Figure BDA0002927715680000081
推理
在一个实施例中,执行唯一视点估计网络以推理针对新对象类别的视 点估计。例如,执行唯一视点估计网络可以包括:接收新类别的少量示例 图像作为类别无关特征提取模块的输入;由类别特定特征提取模块使用少 量示例图像来提取新类别的对象的特征;接收新类别对象的特征作为类别 特定关键点检测模块的输入;以及由类别特定关键点检测模块处理新类别 的对象的特征,以推理针对新对象类别的视点估计。
关于上述具体实施例,通过示例的方式,经由元学习来学习的视点估 计块fθ*能够执行适应于看不见的(即,新的)对象类别的任务。与元训练 类似,可以识别具有与用于训练的样本大小相同或相似样本大小的新类别。 通过最小化方程3的损失,可以构造唯一视点估计网络
Figure BDA0002927715680000082
并用少量新类 别的图像示例进行微调。这将得到针对该新类别的唯一的最佳小样本经训 练的网络
Figure BDA0002927715680000083
为了提高神经网络在未知对象类别上的性能,以上附图和相关描述提 供了类别级小样本视点估计技术,该技术使用独特的框架,该框架采用少 量标记示例成功地适应了未知类别并有助于无需额外的注释工作(即,少 数示例所需的注释工作),即可改进对其的性能。
机器学习
在处理器上开发的包括深度学习模型在内的深度神经网络(DNN)已 用于各种用例,从无人驾驶汽车到更快的药物开发,从在线图像数据库中 的自动图像标注到视频聊天应用程序中的智能实时语言翻译。深度学习是 模拟人脑的神经学习过程,不断学习、不断变得更聪明并随着时间的推移 更快地提供更准确的结果的技术。最初,成年人教孩子如何正确识别和分 类各种形状,最终无需任何指导即可识别形状。同样,深度学习或神经学 习系统需要在对象识别和分类方面进行训练,因为它在识别基本对象、被 遮挡的对象等方面变得更聪明、更有效,同时还为对象分配了上下文。
在最简单的级别上,人脑中的神经元查看接收到的各种输入,将重要 性级别分配给这些输入中的每一个,并将输出传递给其他神经元以对其进 行操作。人工神经元或感知器是神经网络的最基本模型。在一个示例中, 感知器可以接收表示该感知器正在被训练以识别和分类的对象的各种特征 的一个或更多个输入,并且基于该特征在定义对象的形状上的重要性为这 些特征中的每一个分配某权重。
深度神经网络(DNN)模型包括许多连接节点的多个层(例如,感知 器、玻尔兹曼(Boltzmann)机、径向基函数、卷积层等),可以用大量输 入数据对其进行训练以高精度、快速解决复杂问题。在一个示例中,DNN 模型的第一层将汽车的输入图像分解为各个部分,并寻找诸如线条和角度 之类的基本图案。第二层组装线条以寻找更高级别的图案,例如车轮、挡 风玻璃和后视镜。下一层识别车辆的类型,并且最后几层为输入图像生成 标签,以标识特定汽车品牌的模型。
一旦训练了DNN,就可以部署DNN并将其用于在被称为推理的过程 中识别和分类对象或图案。推理的示例(DNN从给定输入中提取有用信息 的过程)包括识别存入ATM机的支票上的手写数字,识别照片中的朋友 图像,向超过五千万用户提供电影推荐,在无人驾驶汽车中识别和分类不 同类型的汽车、行人和道路危险,或实时翻译人类语音。
在训练期间,数据在前向传播阶段流经DNN,直到产生指示对应于输 入的标签的预测为止。如果神经网络没有正确标记输入,则将分析正确标 记和预测标记之间的错误,并在反向传播阶段调整每个特征的权重,直到 DNN在训练数据集中正确标记输入和其他输入。训练复杂的神经网络需要 大量的并行计算性能,包括浮点乘法和加法。推理比训练要少计算量,这 是对延迟敏感的过程,其中将经训练的神经网络应用于以前从未见过的新输入,以对图像进行分类、翻译语音并通常推理出新信息。
推理与训练逻辑
如上所述,需要训练深度学习或神经学习系统以从输入数据生成推理。 下面结合图5A和/或图5B提供关于用于深度学习或神经学习系统的推理 和/或训练逻辑515的细节。
在至少一个实施例中,推理和/或训练逻辑515可以包括但不限于数据 存储501,用于存储与在一个或更多个实施例的方面中被训练和/或被用于 推理的神经网络的神经元或层相对应的前向和/或输出权重和/或输入/输出 数据。在至少一个实施例中,数据存储501存储在使用一个或更多个实施 例的方面进行推理和/或训练期间输入/输出数据和/或权重参数的正向传播 期间与一个或更多个实施例结合训练或使用的神经网络的每一层的权重参 数和/或输入/输出数据。在至少一个实施例中,数据存储501的任何部分可 以与其他片上或片外数据存储(包括处理器的L1、L2或L3高速缓存或系 统存储器)一起被包括。
在至少一个实施例中,数据存储501的任何部分可以在一个或更多个 处理器或其他硬件逻辑器件或电路的内部或外部。在至少一个实施例中, 数据存储501可以是高速缓存存储器、动态随机可寻址存储器(“DRAM”)、 静态随机可寻址存储器(“SRAM”)、非易失性存储器(例如闪存)或其他 存储装置。在至少一个实施例中,数据存储501是在处理器的内部还是外 部的选择,例如,还是由DRAM、SRAM、闪存还是由其他类型的存储器 组成,取决于片上与片外可用存储、进行训练和/或推理功能的延迟要求、 在推理和/或训练神经网络中使用的数据的批大小或这些因素的某种组合。
在至少一个实施例中,推理和/或训练逻辑515可以包括但不限于数据 存储505,其用于存储与在一个或更多个实施例的方面中被训练和/或用于 推理的神经网络的层或神经元相对应的反向和/或输出权重和/或输入/输出 数据。在至少一个实施例中,数据存储505存储在使用一个或更多个实施 例的方面的训练和/或推理期间在反向传播输入/输出数据和/或权重参数期 间,与一个或更多个实施例一起训练或结合使用的神经网络的每一层的权 重参数和/或输入/输出数据。在至少一个实施例中,数据存储505的任何部 分可以与其他片上或片外数据存储一起包括,包括处理器的L1、L2或L3 高速缓存或系统存储器。在至少一个实施例中,数据存储505的任何部分 可以在一个或更多个处理器或其他硬件逻辑器件或电路的内部或外部。在 至少一个实施例中,数据存储505可以是高速缓存存储器、DRAM、SRAM、 非易失性存储器(例如,闪存)或其他存储器。在至少一个实施例中,数据存储505是在处理器的内部还是外部的选择,例如,还是由DRAM、 SRAM、闪存还是其他存储类型组成的,取决于片上与片外可用存储、进 行训练和/或推理功能的延迟要求、在推理和/或训练神经网络中使用的数据 的批大小或这些因素的某种组合。
在至少一个实施例中,数据存储501和数据存储505可以是分开的存 储结构。在至少一个实施例中,数据存储501和数据存储505可以是同一 存储结构。在至少一个实施例中,数据存储501和数据存储505可以是部 分相同的存储结构和部分分离的存储结构。在至少一个实施例中,数据存 储501和数据存储505的任何部分可以与其他片上或片外数据存储一起包 括,包括处理器的L1、L2或L3高速缓存或系统存储器。
在至少一个实施例中,推理和/或训练逻辑515可以包括但不限于一个 或更多个算术逻辑单元(“ALU”)510,以至少部分地基于训练和/或推理 代码或由其指示执行逻辑和/或算术操作,其结果可以导致存储在激活存储 520中的作为存储在数据存储501和/或数据存储505中输入/输出和/或权 重参数数据的函数的激活(例如,来自神经网络内的层或神经元的输出值)。 在至少一个实施例中,存储在激活存储520中的激活是根据由ALU510响 应于执行指令或其他代码执行的线性代数和/或基于矩阵的数学生成的,其 中将存储在数据存储505的权重值和/或数据501与其他值(例如偏差值、 梯度信息、动量值或其他参数或超参数)一起用作操作数,这些值中的任 意或者全部可以存储在数据存储505或数据存储501或其他片上或片下存 储器。在至少一个实施例中,一个或更多个处理器或其他硬件逻辑器件或 电路中包括一个或更多个ALU 510,而在另一实施例中,一个或更多个ALU 510可以在使用它们的处理器或其他硬件逻辑器件或电路(例如,协 处理器)的外部。在至少一个实施例中,ALU 510可以被包括在处理器的 执行单元之内,或者以其他方式被包括在处理器的执行单元可以访问的 ALU库中,该ALU库可以在同一处理器内或者分布在不同类型的不同处 理器之间(例如,中央处理器、图形处理单元、固定功能单元等)。在至少一个实施例中,数据存储501、数据存储505和激活存储520可以在同一 处理器或其他硬件逻辑器件或电路上,而在另一实施例中,它们可以在不 同的处理器或其他硬件逻辑器件或电路中,或相同和不同处理器或其他硬 件逻辑器件或电路的某种组合中。在至少一个实施例中,激活存储620中 的任何部分可以与其他片上或片外数据存储一起包括,包括处理器的L1、 L2或L3高速缓存或系统存储器。此外,推理和/或训练代码可以与处理器 或其他硬件逻辑或电路可访问的其他代码一起存储,并可以使用处理器的 提取、解码、调度、执行、退出和/或其他逻辑电路来提取和/或处理。
在至少一个实施例中,激活存储520可以是高速缓存存储器、DRAM、 SRAM、非易失性存储器(例如,闪存)或其他存储器。在至少一个实施 例中,激活存储520可以完全或部分在一个或更多个处理器或其他逻辑电 路之内或之外。在至少一个实施例中,激活存储520是在处理器的内部还 是外部的选择,例如,还是由DRAM、SRAM、闪存或某种其他存储类型组成的,取决于片上与片外可用存储、进行训练和/或推理功能的延迟要求、 在推理和/或训练神经网络中使用的数据的批大小或这些因素的某种组合。 在至少一个实施例中,图5A中所示的推理和/或训练逻辑515可以与专用 集成电路(“ASIC”)(例如来自谷歌的
Figure BDA0002927715680000123
处理单元,来自 GraphcoreTM的推理处理单元(IPU)或来自因特尔公司的
Figure BDA0002927715680000124
(例 如“Lake Crest”)处理器)结合使用。在至少一个实施例中,图5A所示 的推理和/或训练逻辑615可以与中央处理单元(“CPU”)硬件、图形处理 单元(“GPU”)硬件或其他硬件(例如现场可编程门阵列(“FPGA”))结 合使用。
图5B示出了根据至少一个实施例的推理和/或训练逻辑515。在至少一 个实施例中,推理和/或训练逻辑515可以包括但不限于硬件逻辑,其中计 算资源是专用的或以其他方式专用地与对应于神经网络内的一层或更多层 神经元的权重值或其他信息结合使用。在至少一个实施例中,图5B中所 示的推理和/或训练逻辑515可以与专用集成电路(ASIC)(例如Google 的
Figure RE-GDA0003003486230000123
处理单元、GraphcoreTM的推理处理单元(IPU)或来自因特尔公司的
Figure RE-GDA0003003486230000124
(例如“Lake Crest”)处理器)结合使用。在至少一个 实施例中,图5B所示的推理和/或训练逻辑515可以与中央处理单元(CPU) 硬件、图形处理单元(GPU)硬件或其他硬件(例如,现场可编程门阵列 (FPGA))结合使用。在至少一个实施例中,推理和/或训练逻辑515包括 但不限于数据存储501和数据存储505,其可以用于存储权重值和/或其他 信息,包括偏差值、梯度信息、动量值、和/或其他参数或超参数信息。在 图5B中所示的至少一个实施例中,数据存储501和数据存储505中的每 一个都分别与专用的计算资源(例如,计算硬件502和计算硬件506)相 关联。在至少一个实施例中,计算硬件506中的每一个包括一个或更多个 ALU,一个或更多个ALU仅对分别存储在数据存储501和数据存储505 中的信息执行数学函数(例如线性代数函数),其结果存储在激活存储520 中。
在至少一个实施例中,数据存储501和505以及相应的计算硬件502 和506中的每一个分别对应于神经网络的不同层,从而提供得到的来自数 据存储501和计算硬件502的一个“存储/计算对501/502”的激活作为对 下一个数据存储505和计算硬件506的“存储/计算对505/506”的输入, 以镜像神经网络的概念组织。在至少一个实施例中,每个存储/计算对 501/502和505/506可以对应于一个以上的神经网络层。在至少一个实施例 中,在推理和/或训练逻辑515中可以包括在存储计算对501/502和505/506 之后或与之并行的附加存储/计算对(未示出)。
神经网络训练和部署
图6示出了用于深度神经网络的训练和部署的另一实施例。在至少一 个实施例中,使用训练数据集602来训练未训练的神经网络606。在至少 一个实施例中,训练框架604是PyTorch框架,而在其他实施例中,训练 框架604是Tensorflow、Boost、Caffe、MicrosoftCognitive Toolkit/CNTK、 MXNet、Chainer、Keras、Deeplearning4j或其他训练框架。在至少一个实 施例中,训练框架604训练未训练的神经网络606,并使它能够使用本文 所述的处理资源来训练,以生成训练后的神经网络608。在至少一个实施 例中,权重可以被随机选择或通过使用深度信念网络来选择。在至少一个 实施例中,可以以有监督、部分有监督或无监督的方式执行训练。
在至少一个实施例中,使用监督学习来训练未训练的神经网络606,其 中训练数据集602包括与输入的期望输出配对的输入,或者其中训练数据 集602包括具有已知输出的输入,以及神经网络的输出是手动分级的。在 至少一个实施例中,未训练的神经网络606以监督的方式被训练,以处理 来自训练数据集602的输入,并将结果输出与一组期望或预期的输出进行 比较。在至少一个实施例中,然后通过未训练的神经网络606将错误传播 回去。在至少一个实施例中,训练框架604调整控制未训练的神经网络606 的权重。在至少一个实施例中,训练框架604包括用于监视未经训练的神 经网络606正朝着诸如训练后的神经网络608之类的模型收敛的状况的工 具,该模型适于基于诸如新数据612之类的已知输入数据来生成诸如结果 614之类的正确答案。在至少一个实施例中,训练框架604在调整权重的 同时反复训练未训练的神经网络606,以使用损失函数和调整算法(例如, 随机梯度下降)来完善未训练的神经网络606的输出。在至少一个实施例 中,训练框架604训练未训练的神经网络606,直到未训练的神经网络606 达到期望的精度为止。在至少一个实施例中,然后可以部署经训练的神经 网络608以实施任何数量的机器学习操作。
在至少一个实施例中,未训练的神经网络606是使用无监督学习来训 练的,其中未训练的神经网络606尝试使用未标记的数据来训练自己。在 至少一个实施例中,无监督学习训练数据集602将包括输入数据,而没有 任何相关联的输出数据或“地面实况(groundtruth)”数据。在至少一个实 施例中,未经训练的神经网络606可以学习训练数据集602内的分组,并 且可以确定各个输入如何与未经训练的数据集602相关。在至少一个实施 例中,可以使用无监督训练来生成自组织图,其为一种能够执行对减少新 数据612的维度有用的操作的经训练的神经网络608。在至少一个实施例 中,无监督训练也可用于执行异常检测,其允许识别新数据集612中偏离 新数据集612的正常模式的数据点。
在至少一个实施例中,可以使用半监督学习,这是一种其中训练数据 集602包括标记数据和未标记数据的混合的技术。在至少一个实施例中, 训练框架604可以用于执行增量学习,诸如通过转移的学习技术。在至少 一个实施例中,增量学习使经训练的神经网络608能够适应新数据612, 而不会忘记在初始训练期间注入到网络中的知识。
数据中心
图7示出了示例数据中心700,其中可以使用至少一个实施例。在至少 一个实施例中,数据中心700包括数据中心基础设施层710、框架层720、 软件层730和应用层740。
在至少一个实施例中,如图7所示,数据中心基础设施层710可以包 括资源协调器712、分组的计算资源714和节点计算资源(“节点C.R.”) 716(1)-716(N),其中“N”代表任何完整的正整数。在至少一个实施 例中,节点C.R.716(1)-716(N)可以包括但不限于任何数量的中央处 理单元(“CPU”)或其他处理器(包括加速器、现场可编程门阵列(FPGA)、 图形处理器等)、存储设备(例如,动态只读存储器)、存储器设备(例如, 固态或磁盘驱动器)、网络输入/输出(“NW I/O”)设备、网络交换机、虚 拟机(“VM”),电源模块和冷却模块等。在至少一个实施例中,节点C.R. 716(1)-716(N)中的一个或更多个节点C.R.可以是具有上述计算资源 的一个或更多个的服务器。
在至少一个实施例中,分组的计算资源714可以包括容纳在一个或更 多个机架(未示出)中的节点C.R.的单独分组,或者容纳在各个地理位置 (也未示出)处的数据中心中的许多机架的单独分组。分组的计算资源714 内的节点C.R.的单独分组可以包括可以配置成或分配为支持一个或更多个 工作负载的分组的计算、网络、存储器或存储资源。在至少一个实施例中, 可以将包括CPU或处理器的几个节点C.R.分组在一个或更多个机架内,以 提供计算资源来支持一个或更多个工作负载。在至少一个实施例中,一个 或更多个机架还可以包括任何数量的电源模块、冷却模块和网络交换机的 任意组合。
在至少一个实施例中,资源协调器722可以配置成或以其他方式控制 一个或更多个节点C.R.716(1)-716(N)和/或分组的计算资源714。在 至少一个实施例中,资源协调器722可以包括用于数据中心700的软件设 计基础设施(“SDI”)管理实体。在至少一个实施例中,资源协调器可以 包括硬件、软件或其某种组合。
在至少一个实施例中,如图7所示,框架层720包括作业调度器732、 配置管理器734、资源管理器736和分布式文件系统738。在至少一个实施 例中,框架层720可以包括用于支持软件层730的软件732和/或应用层740 的一个或更多个应用程序742的框架。在至少一个实施例中,软件732或 应用程序742可分别包括基于Web的服务软件或应用程序,例如由Amazon Web Services、Google Cloud和Microsoft Azure提供的服务或应用程序。在 至少一个实施例中,框架层720可以是但不限于一种免费和开放源软件网 络应用框架,例如可以利用分布式文件系统738用于大规模数据处理(例 如“大数据”)的Apache Spark TM(以下称为“Spark”)。在至少一个实施 例中,作业调度器732可以包括Spark驱动器,用于促进对数据中心700 的各个层所支持的工作负载的调度。在至少一个实施例中,配置管理器734 可以能够配置不同的层(例如,包括Spark的软件层730和框架层720) 和用于支持大规模数据处理的分布式文件系统738。在至少一个实施例中, 资源管理器736能够管理映射到或分配用于支持分布式文件系统738和作 业调度器732的聚类的或分组的计算资源。在至少一个实施例中,聚类或 分组计算资源可以包括在数据中心基础设施层710处的分组的计算资源 714。在至少一个实施例中,资源管理器736可以与资源协调器712协调以 管理这些映射或分配的计算资源。
在至少一个实施例中,包括在软件层730中的软件732可以包括由节 点C.R.716(1)-716(N)、分组计算资源714和/或框架层720的分布式 文件系统738的至少部分使用的软件。一种或更多种类型的软件可以包括 但不限于Internet网页搜索软件、电子邮件病毒扫描软件、数据库软件和 流视频内容软件。
在至少一个实施例中,应用层740中包括的应用程序742可以包括由 节点C.R.716(1)-716(N)的至少部分、分组的计算资源714和/或框架 层720的分布式文件系统738使用的一种或更多种类型的应用程序。一种 或更多种类型的应用程序可以包括但不限于任何数量的基因组学应用程序、 认知计算和机器学习应用程序,包括训练或推理软件,机器学习框架软件 (例如,PyTorch、TensorFlow、Caffe等)或其他与一个或更多个实施例 结合使用的机器学习应用程序。
在至少一个实施例中,配置管理器734、资源管理器736和资源协调器 712中的任何一个可以基于以任何技术上可行的方式获取的任何数量和类 型的数据来实现任何数量和类型的自我修改动作。在至少一个实施例中, 自我修改动作可以减轻数据中心800的数据中心操作员做出可能不好的配 置决定并且可以避免数据中心的部分的未充分利用和/或执行差。
在至少一个实施例中,数据中心700可以包括工具、服务、软件或其 他资源,以根据本文所述的一个或更多个实施例来训练一个或更多个机器 学习模型或者使用一个或更多个机器学习模型来预测或推理信息。例如, 在至少一个实施例中,可以通过使用上文关于数据中心700描述的软件和 计算资源,根据神经网络架构通过计算权重参数来训练机器学习模型。在 至少一个实施例中,通过使用通过本文所述的一种或更多种训练技术计算出的权重参数,可以使用上面与关于数据中心700所描述的资源,使用对 应于一个或更多个神经网络的经训练的机器学习模型来推理或预测信息。
在至少一个实施例中,数据中心可以使用CPU、专用集成电路(ASIC)、 GPU、FPGA或其他硬件来使用上述资源来执行训练和/或推理。此外,上 述的一个或更多个软件和/或硬件资源可以配置成一种服务,以允许用户训 练或执行推理信息,例如图像识别、语音识别或其他人工智能服务。
推理和/或训练逻辑615用于执行与一个或多个实施例相关联的推理和/ 或训练操作。在至少一个实施例中,推理和/或训练逻辑615可以在系统图 7中使用,以至少部分地基于使用本文所述的神经网络训练操作、神经网 络功能和/或架构、或神经网络用例计算的权重参数来推理或预测操作。
如本文中所描述,公开了用于小样本视点估计的方法、计算机可读介 质和系统。根据图1-图4,实施例可以提供一种神经网络,该神经网络可 用于执行推理操作并提供推理出的数据,其中如图5A和图5B所示,其中 该神经网络被(部分地或全部地)存储在推理/或训练逻辑515中的数据存 储器501和505之一或两者中。神经网络的训练和部署可以如图6所示和 本文所述来执行。如图7所示和本文所述可以使用数据中心700中的一个 或更多个服务器来执行神经网络的分发。

Claims (21)

1.一种方法,包括:
训练神经网络的类别特定视点估计块,以学习能够推理针对新对象类别的视点估计的唯一视点估计网络;
由所述神经网络的类别无关特征提取块处理新类别的多个图像,以提取所述图像的每一个中的对象的特征;
使用所述特征,学习能够推理针对所述新对象类别的视点估计的所述唯一视点估计网络。
2.根据权利要求1所述的方法,其中使用监督学习和对象类别的有限集的训练集来训练所述类别无关特征提取块,以从所述对象类别的有限集中所包括的对象中提取通用特征。
3.根据权利要求1所述的方法,其中由所述类别无关特征提取块提取的所述对象的所述特征包括:
用于所述对象上可见关键点的位置的多峰热图,以及
所述对象的高级卷积特征集。
4.根据权利要求1所述的方法,其中元学习被用于训练所述类别特定视点估计块,以学习能够学习用于类别的所述唯一视点估计网络的网络。
5.根据权利要求1所述的方法,其中所述唯一视点估计网络使用类别特定特征提取模块和类别特定关键点检测模块。
6.根据权利要求5所述的方法,其中所述类别特定特征提取模块从输入的所述新对象类别的少量示例图像提取所述新对象类别的对象的特征。
7.根据权利要求6所述的方法,其中所述类别特定关键点检测模块使用针对所述新对象类别提取的所述特征,来检测用于所述新对象类别的目标对象的唯一语义关键点集,以用于计算所述目标对象的视点。
8.根据权利要求7所述的方法,其中所述唯一语义关键点集包括:
3D点集,其表示用于所述目标对象的类别的规范形状,
所述3D点中的每一个的2D图像投影,以及
每个2D图像投影的深度。
9.根据权利要求8所述的方法,其中所述3D点集包括可见点和不可见点。
10.根据权利要求1所述的方法,还包括:执行所述唯一视点估计网络,以推理针对所述新对象类别的所述视点估计。
11.根据权利要求10所述的方法,其中执行所述唯一视点估计网络包括:
接收所述新对象类别的少量示例图像,作为类别无关特征提取模块的输入;
由所述类别特定特征提取模块使用所述少量示例图像来提取所述新对象类别的对象的特征;
接收所述新对象类别的对象的所述特征,作为类别特定关键点检测模块的输入;
由所述类别特定关键点检测模块处理所述新对象类别的对象的所述特征,以推理针对所述新对象类别的所述视点估计。
12.一种系统,包括:
神经网络的类别特定视点估计块,其被训练以学习能够推理针对新对象类别的视点估计的唯一视点估计网络;
所述神经网络的类别无关特征提取块,其处理新类别的多个图像以提取所述图像的每一个中的对象的特征;以及
所述唯一视点估计网络,使用所述特征来学习所述唯一视点估计网络以用于推理针对所述新对象类别的视点估计。
13.根据权利要求12所述的系统,其中使用监督学习和对象类别的有限集的训练集来训练所述类别无关特征提取块,以从所述对象类别的有限集中所包括的对象中提取通用特征。
14.根据权利要求12所述的系统,其中由所述类别无关特征提取块提取的所述对象的所述特征包括:
用于所述对象上可见关键点的位置的多峰热图,以及
所述对象的高级卷积特征集。
15.根据权利要求12所述的系统,其中元学习被用于训练所述类别特定视点估计块以学习所述视点估计网络。
16.根据权利要求12所述的系统,其中所述唯一视点估计网络使用类别特定特征提取模块和类别特定关键点检测模块。
17.根据权利要求16所述的系统,其中所述类别特定特征提取模块从输入的所述新对象类别的少量示例图像提取所述新对象类别的对象的特征。
18.根据权利要求17所述的系统,其中所述类别特定关键点检测模块使用针对所述新对象类别提取的所述特征,来检测用于所述新对象类别的目标对象的唯一语义关键点集,以用于计算所述目标对象的视点。
19.根据权利要求18所述的系统,其中所述唯一语义关键点集包括:
3D点集,其表示用于所述目标对象的类别的规范形状,
所述3D点中的每一个的2D图像投影,以及
每个2D图像投影的深度。
20.根据权利要求8所述的系统,其中所述3D点集包括可见点和不可见点。
21.一种非暂时性计算机可读介质,其存储计算机指令,所述计算机指令在由一个或更多个处理器执行时,使得所述一个或更多个处理器执行方法,所述方法包括:
训练神经网络的类别特定视点估计块,以学习能够推理针对新对象类别的视点估计的唯一视点估计网络;
由所述神经网络的类别无关特征提取块处理新类别的多个图像,以提取所述图像的每一个中的对象的特征;以及
使用所述特征,学习能够推理针对所述新对象类别的视点估计的所述唯一视点估计网络。
CN202110138466.8A 2019-02-05 2021-02-01 小样本视点估计 Pending CN113204988A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962801498P 2019-02-05 2019-02-05
US16/780,738 2020-02-03
US16/780,738 US11375176B2 (en) 2019-02-05 2020-02-03 Few-shot viewpoint estimation

Publications (1)

Publication Number Publication Date
CN113204988A true CN113204988A (zh) 2021-08-03

Family

ID=71836915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110138466.8A Pending CN113204988A (zh) 2019-02-05 2021-02-01 小样本视点估计

Country Status (2)

Country Link
US (1) US11375176B2 (zh)
CN (1) CN113204988A (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501111B2 (en) 2018-04-06 2022-11-15 International Business Machines Corporation Learning models for entity resolution using active learning
CN111581414B (zh) * 2019-02-18 2024-01-16 北京京东尚科信息技术有限公司 服饰识别、分类及检索的方法、装置、设备及存储介质
US11556860B2 (en) * 2019-04-15 2023-01-17 International Business Machines Corporation Continuous learning system for models without pipelines
US11875253B2 (en) * 2019-06-17 2024-01-16 International Business Machines Corporation Low-resource entity resolution with transfer learning
WO2022169625A1 (en) * 2021-02-05 2022-08-11 Carnegie Mellon University Improved fine-tuning strategy for few shot learning
CN112949730B (zh) * 2021-03-11 2024-04-09 无锡禹空间智能科技有限公司 少样本的目标检测方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130016877A1 (en) * 2011-07-15 2013-01-17 International Business Machines Corporation Multi-view object detection using appearance model transfer from similar scenes
CN107170012A (zh) * 2017-05-12 2017-09-15 深圳市唯特视科技有限公司 一种基于语境信息进行视点估计的方法
CN110223382A (zh) * 2019-06-13 2019-09-10 电子科技大学 基于深度学习的单帧图像自由视点三维模型重建方法
CN110660100A (zh) * 2018-06-29 2020-01-07 国立大学法人名古屋大学 观测位置推荐装置及其推荐方法以及计算机可读介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130016877A1 (en) * 2011-07-15 2013-01-17 International Business Machines Corporation Multi-view object detection using appearance model transfer from similar scenes
CN107170012A (zh) * 2017-05-12 2017-09-15 深圳市唯特视科技有限公司 一种基于语境信息进行视点估计的方法
CN110660100A (zh) * 2018-06-29 2020-01-07 国立大学法人名古屋大学 观测位置推荐装置及其推荐方法以及计算机可读介质
CN110223382A (zh) * 2019-06-13 2019-09-10 电子科技大学 基于深度学习的单帧图像自由视点三维模型重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHELSEA FINN: "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks", PROCEEDINGS OF THE 34 TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 18 July 2017 (2017-07-18), pages 1 - 13, XP055912177 *
XINGYI ZHOU: "StarMap for Category-Agnostic Keypoint and Viewpoint Estimation", COMPUTER VISION-ECCV2018, 26 July 2018 (2018-07-26), pages 328 - 345 *

Also Published As

Publication number Publication date
US11375176B2 (en) 2022-06-28
US20200252600A1 (en) 2020-08-06

Similar Documents

Publication Publication Date Title
US11417011B2 (en) 3D human body pose estimation using a model trained from unlabeled multi-view data
CN113204988A (zh) 小样本视点估计
US20200311855A1 (en) Object-to-robot pose estimation from a single rgb image
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
US10019629B2 (en) Skeleton-based action detection using recurrent neural network
US20210142168A1 (en) Methods and apparatuses for training neural networks
WO2022121289A1 (en) Methods and systems for mining minority-class data samples for training neural network
US20200050935A1 (en) Deep learning model execution using tagged data
CN113056743A (zh) 训练神经网络以用于车辆重新识别
KR20190056009A (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
KR102252439B1 (ko) 이미지에서 오브젝트 검출 및 표현
WO2021178909A1 (en) Learning point cloud augmentation policies
US11270425B2 (en) Coordinate estimation on n-spheres with spherical regression
Gaier et al. Aerodynamic design exploration through surrogate-assisted illumination
CN112633463A (zh) 用于建模序列数据中长期依赖性的双重递归神经网络架构
Gallos et al. Active vision in the era of convolutional neural networks
Demertzis et al. Geo-AI to aid disaster response by memory-augmented deep reservoir computing
CN113989574B (zh) 图像解释方法、图像解释装置、电子设备和存储介质
Fine et al. Query by committee, linear separation and random walks
US20240070874A1 (en) Camera and articulated object motion estimation from video
US20220121924A1 (en) Configuring a neural network using smoothing splines
US20230394781A1 (en) Global context vision transformer
US11816185B1 (en) Multi-view image analysis using neural networks
US20240070987A1 (en) Pose transfer for three-dimensional characters using a learned shape code
US20240096115A1 (en) Landmark detection with an iterative neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination