CN110998604B - 有局部外观的对象的识别与重构 - Google Patents

有局部外观的对象的识别与重构 Download PDF

Info

Publication number
CN110998604B
CN110998604B CN201880049697.8A CN201880049697A CN110998604B CN 110998604 B CN110998604 B CN 110998604B CN 201880049697 A CN201880049697 A CN 201880049697A CN 110998604 B CN110998604 B CN 110998604B
Authority
CN
China
Prior art keywords
image
training
components
component
pose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880049697.8A
Other languages
English (en)
Other versions
CN110998604A (zh
Inventor
刘立峰
殷晓田
朱颖璇
张军
李剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN110998604A publication Critical patent/CN110998604A/zh
Application granted granted Critical
Publication of CN110998604B publication Critical patent/CN110998604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了多种系统和方法,以通过将对象分解成多个训练图像中的组件进行训练的学习模块来识别图像中对象。所述训练可以基于每个训练图像输入中的所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势。附加系统和方法可以在各种应用中实现。

Description

有局部外观的对象的识别与重构
相关申请的交叉引用
本申请要求于2017年7月6日递交的发明名称为“有局部外观的对象的识别与重构”的第15/643,453号美国专利申请且的优先权,其全部内容以引用的方式并入本文中。
技术领域
本发明涉及图像识别。
背景技术
在一个图像中,对象作为图像的一部分,可能存在局部外观。例如,该对象可能被图像中的其它对象或背景遮挡。例如,动物的全局外观可能会被图像中动物所处的环境背景中的草、灌木或其它物体遮挡。在另一场景中,由于传感器视场的限制,图像边界上可能会存在具有局部外观的对象。在汽车与自行车碰撞的图像中,该图像可能包括汽车的前端和自行车的后端,使得汽车和自行车只有局部外观。由于存在这些局部外观,识别系统可能很难确定提交给识别系统的图像中的对象。除了局部外观之外,图像中发生变形的对象或姿势与图像轴线对齐方式不同的对象可能会给识别系统带来困难。对象在图像中的姿势是对象相对于预定义身份姿势的相对位置/方向,该相对位置/方向表示对象与图像中其它对象或背景的关系。
发明内容
可以实现系统和方法以识别和重构图像中的对象,其中所述系统和方法解决了所述图像中所述对象的外观变化、方向变化和部分遮挡。学习模块可用于识别和重构所述对象,所述学习模块设置为基于组件的训练模块。可以训练所述学习模块使用训练图像集和关于对象的标记数据来识别所述对象,其中,所述图像集的图像中的对象被分解成组件。所述训练可以基于输入到所述训练模块中每个图像输入中的所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势。对象分数可以与包含指定对象或所述对象的组件的图像或图像窗口的概率相关联。
根据本发明一方面,提供了一种可用于识别和重构图像中的对象的系统,所述系统包括:非瞬时性存储器,包括指令;一个或多个处理器,与所述非瞬时性存储器通信,其中,所述一个或多个处理器执行所述指令以执行操作,包括:获取多个图像,每个图像包括所述图像中的对象,所述对象在所述多个图像的数个图像中具有不同的外观;针对每个图像,将所述对象分解成组件,并为每个图像生成标记数据;将所述图像和相关标记数据输入到学习模块中,以训练所述学习模块识别所述对象的所述组件,所述训练基于每个图像输入中的所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势;将附加图像输入到所述训练后的学习模块中;响应于输入到所述训练后的学习模块中,检测到所述附加图像具有所述对象在所述附加图像中的一个或多个组件;响应于检测所述一个或多个组件,识别所述对象并估计所述对象在所述附加图像中的姿势信息和/或构建所述对象在所述附加图像中的完整视图或所述对象的完整草图。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述操作包括:通过组合从多个图像中检测到的组件来创建合成图像作为新的训练图像。
可选地,在任一前述方面中,所述方面的另一实现方式提供:将所述图像中的所述对象分解成组件包括:使用用户界面提供用户输入以将所述对象分解成所述组件。
可选地,在任一前述方面中,所述方面的另一实现方式提供:提供用户输入以将所述对象分解成组件包括:使用动作集中的一个或多个动作,所述动作集包括使用启发性方法来分解所述对象,使用生成或匹配的现有分解候选中的最佳匹配的猜测,以及手动分解数个典型示例。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述学习模块为深度神经网络。
可选地,在任一前述方面中,所述方面的另一实现方式提供:训练所述深度神经网络包括:训练针对每个组件都具有一个子神经网络的所述深度神经网络。
可选地,在任一前述方面中,所述方面的另一实现方式提供:训练所述深度神经网络包括:将所述图像和相关标记数据输入到多个卷积层i的第一卷积层,i=1……n-1、n,按顺序排列,使得到达每个卷积层的输入包括所述顺序中从卷积层2开始的前一个卷积层的输出,卷积层1作为所述第一卷积层;从卷积层n-1的输出中生成每个组件的区域提议;从卷积层n的输出中生成所述整个对象的区域提议;使用每个组件的所述区域提议、所述卷积层n-1和所述卷积层n的所述输出以及所述整个对象的所述区域提议执行感兴趣区域池化。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述感兴趣区域池化包括在所述整个对象的所述区域提议与所述组件的所述区域提议之间执行一致性检查,以丢弃不一致的区域提议。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述操作包括基于感兴趣区域(region of interest,ROI)池化的输出执行所述对象的所述整体对象分数、所述对象的每个组件的所述对象分数、所述对象的所述姿势以及所述组件的所述姿势的回归。
可选地,在任一前述方面中,所述方面的另一实现方式提供:训练所述学习模块包括:将生成为所述标记数据与物体集的计算数据之间的偏差之和的成本函数最小化,所述物体集包括所述整体对象分数、所述组件的所述对象分数、所述对象的姿势以及所述组件的所述姿势。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述多个图像包括所述对象的全局外观、所述对象的局部外观、所述对象的方向变化或所述对象的外观变化中的一个或多个。
可选地,在任一前述方面中,所述方面的另一实现方式提供:获取所述多个图像包括:使用训练图像中对象的局部外观来创建所述对象的所述训练图像,以及使用从创建所述训练图像得到的姿势信息来标记所述训练图像,或者基于执行对象模板匹配得到的变形描述符,使用姿势信息来标记所述训练图像。
可选地,在任一前述方面中,所述方面的另一实现方式提供:构建所述完整视图包括:使对象模板与具有局部外观的检测对象之间具有对应关系。
可选地,在任一前述方面中,所述方面的另一实现方式提供:构建所述完整视图包括:将从检测到所述附加图像具有所述对象在所述附加图像中的一个或多个所述组件中得到的姿势信息及作为输入的所述附加图像输入到生成式对抗网络(generativeadversarial network,GAN)以重构所述对象的全局外观。
根据本发明的一个方面,提供了一种计算机实现方法,包括:获取多个图像,每个图像包括所述图像中的对象,所述对象在所述多个图像的数个图像中具有不同的外观;针对每个图像,将所述对象分解成组件,并为每个图像生成标记数据;将所述图像和相关标记数据输入到学习模块中,以训练所述学习模块识别所述对象的所述组件,所述训练基于每个图像输入中的所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势;将附加图像输入到所述训练后的学习模块中;响应于输入到所述训练后的学习模块,检测到所述附加图像具有所述对象在所述附加图像中的一个或多个组件;响应于检测所述一个或多个组件,识别所述对象并估计所述对象在所述附加图像中的姿势信息和/或构建所述对象在所述附加图像中的完整视图或所述对象的完整草图。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述方法包括:通过组合从多个图像中检测到的组件来创建合成图像作为新的训练图像。
可选地,在任一前述方面中,所述方面的另一实现方式提供:将所述图像中的所述对象分解成组件包括:使用用户界面提供用户输入以将所述对象分解成所述组件。
可选地,在任一前述方面中,所述方面的另一实现方式提供:提供用户输入以将所述对象分解成组件包括:使用动作集中的一个或多个动作,所述动作集包括使用启发性方法来分解所述对象,使用生成或匹配的现有分解候选中的最佳匹配的猜测,以及手动分解数个典型示例。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述学习模块为深度神经网络。
可选地,在任一前述方面中,所述方面的另一实现方式提供:训练所述深度神经网络包括:训练每个组件具有一个子神经网络的所述深度神经网络。
可选地,在任一前述方面中,所述方面的另一实现方式提供:训练所述深度神经网络包括:将所述图像和相关标记数据输入到多个卷积层i的第一卷积层,i=1……n-1、n,按顺序排列,使得到达每个卷积层的输入包括所述顺序中从卷积层2开始的前一个卷积层的输出,卷积层1作为所述第一卷积层;从卷积层n-1的输出中生成每个组件的区域提议;从卷积层n的输出中生成所述整个对象的区域提议;使用每个组件的所述区域提议、所述卷积层n-1和所述卷积层n的所述输出以及所述整个对象的所述区域提议执行感兴趣区域池化。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述方法包括基于感兴趣区域池化的输出执行所述对象的所述整体对象分数、所述对象的每个组件的所述对象分数、所述对象的所述姿势以及所述组件的所述姿势的回归。
可选地,在任一前述方面中,所述方面的另一实现方式提供:训练所述学习模块包括:将生成为所述标记数据与物体集的计算数据之间的偏差之和的成本函数最小化,所述物体集包括所述整体对象分数、所述组件的所述对象分数、所述对象的姿势以及所述组件的所述姿势。
可选地,在任一前述方面中,所述方面的另一实现方式提供:获取所述多个图像包括获取所述对象的全局外观、所述对象的局部外观、所述对象的方向变化或所述对象的外观变化中的一个或多个。
可选地,在任一前述方面中,所述方面的另一实现方式提供:获取所述多个图像包括:使用训练图像中对象的局部外观来创建所述对象的所述训练图像,以及使用从创建所述训练图像得到的姿势信息来标记所述训练图像,或者基于从执行对象模板匹配得到的变形描述符,使用姿势信息来标记所述训练图像。
可选地,在任一前述方面中,所述方面的另一实现方式提供:构建所述完整视图包括:使对象模板与具有局部外观的检测对象之间具有对应关系。
可选地,在任一前述方面中,所述方面的另一实现方式提供:构建所述完整视图包括:将从检测到所述附加图像具有所述对象在所述附加图像中的一个或多个组件得到的姿势信息及作为输入的所述附加图像输入到生成式对抗网络中以构建所述对象的全局外观。
根据本发明的一个方面,提供了一种非瞬时性计算机可读媒体,所述非瞬时性计算机可读媒体存储计算机指令,当由一个或多个处理器执行所述计算机指令时使得所述一个或多个计算机执行以下操作:获取多个图像,每个图像包括所述图像中的对象,所述对象在所述多个图像的数个图像中具有不同的外观;针对每个图像,将所述对象分解成组件,并为每个图像生成标记数据;将所述图像和相关标记数据输入到学习模块中,以训练所述学习模块识别所述对象的所述组件,所述训练基于每个图像输入中的所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势;将附加图像输入到所述训练后的学习模块中;响应于输入到所述训练后的学习模块,检测到所述附加图像具有所述对象在所述附加图像中的一个或多个组件;响应于检测所述一个或多个组件,识别所述对象并估计所述对象在所述附加图像中的姿势信息和/或构建所述对象在所述附加图像中的完整视图或所述对象的完整草图。
可选地,在任一前述方面中,所述方面的另一实现方式提供:将所述图像中的所述对象分解成组件包括:使用用户界面提供用户输入以将所述对象分解成所述组件。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述学习模块为深度神经网络。
可选地,在任一前述方面中,所述方面的另一实现方式提供:训练所述深度神经网络包括:训练针对每个组件都具有一个子神经网络的所述深度神经网络。
可选地,在任一前述方面中,所述方面的另一实现方式提供:训练所述深度神经网络包括:将所述图像和相关标记数据输入到多个卷积层i的第一卷积层,i=1……n-1、n,按顺序排列,使得到达每个卷积层的输入包括所述顺序中从卷积层2开始的前一个卷积层的输出,卷积层1作为所述第一卷积层;从卷积层n-1的输出中生成每个组件的区域提议;从卷积层n的输出中生成所述整个对象的区域提议;使用每个组件的所述区域提议、所述卷积层n-1和所述卷积层n的所述输出以及所述整个对象的所述区域提议执行感兴趣区域池化。
可选地,在任一前述方面中,所述方面的另一实现方式提供:所述操作包括基于感兴趣区域池化的输出执行所述对象的所述整体对象分数、所述对象的每个组件的所述对象分数、所述对象的所述姿势以及所述组件的所述姿势的回归。
可选地,在任一前述方面中,所述方面的另一实现方式提供:训练所述学习模块包括:将生成为所述标记数据与物体集的计算数据之间的偏差之和的成本函数最小化,所述物体集包括所述整体对象分数、所述组件的所述对象分数、所述对象的姿势以及所述组件的所述姿势。
可选地,在任一前述方面中,所述方面的另一实现方式提供:获取所述多个图像包括:获取所述对象的全局外观、所述对象的局部外观、所述对象的方向变化或所述对象的外观变化中的一个或多个;或者获取所述多个图像包括:使用训练图像中对象的局部外观来创建所述对象的所述训练图像,以及使用从创建所述训练图像得到的姿势信息来标记所述训练图像,或者基于执行对象模板匹配得到的变形描述符,使用姿势信息来标记所述训练图像。
附图简要说明
图1是根据示例性实施例的与识别图像中对象相关联的维度组件的图形表示。
图2示出了根据一示例性实施例的男孩骑自行车的图像,其中自行车与地面成一定角度立起。
图3示出了根据一示例性实施例的图像识别系统分解图像的方式。
图4是根据一示例性实施例的图像识别系统的框图。
图5示出了根据一示例性实施例的基于组件的深度神经网络架构,一旦对该架构进行训练,该架构可用于基于图像中的对象的组件来识别该对象。
图6示出了根据一示例性实施例的对具有完整外观对象的图像执行的操作以训练可以合成另一图像的识别。
图7示出了根据一示例性实施例的局部外观的对象的检测以及该对象的恢复整体布局的重构。
图8是根据一示例性实施例的图像中对象识别和重构的示例性计算机实现方法的实施例的特征的流程图。
图9是根据一示例性实施例的示出用于实现算法并执行对象识别和重构方法的设备的电路的框图。
图10是根据一示例性实施例的具有识别单元的示例性系统的实施例的特征的框图。
具体实施方式
在以下描述中,参阅构成本说明书一部分的附图,其中通过图式示出了可以实施的具体实施例。为了使本领域技术人员能够实践这些实施例,对这些实施例进行了足够详细的描述,并且应当理解,可以使用其它实施例,并且可以进行结构、逻辑和电改变。因此,以下示例实施例的描述不具有限定意义。
本文描述的功能或算法可以在实施例中以软件实现。软件可以包括存储在一个或多个非瞬时性存储器或基于其它类型硬件的本地或网络存储设备等计算机可读介质或计算机可读存储设备上的计算机可执行指令。此外,这些功能对应于模块,这些模块可以是软件、硬件、固件或其任意组合。多个功能可以根据需要在一个或多个模块中执行,所描述的实施例仅仅是示意性的。软件可以在数字信号处理器、ASIC、微处理器或在计算机系统上运行的其它类型的处理器上执行,所述计算机系统例如个人计算机、服务器或其它计算机系统,从而将这样的计算机系统变成具体编程的机器。
计算机可读非瞬时性介质包括所有类型的计算机可读介质,包括磁性存储介质、光存储介质和固态存储介质,具体不包括信号。应当理解的是,软件可以安装在本文中所教示的处理事件流的设备中,并随设备一起售出。可选地,可以获得软件并加载到设备中,包括通过光盘介质或通过网络或分布式系统的任何方式获取软件,例如,包括从软件开发者所有的服务器或从非软件开发者所有但为其所用的服务器获得软件。例如,软件可以存储在服务器上,以便通过网络分发。
在各种实施例中,可以构建系统来执行操作,包括将图像中的对象分解成对象的一个或多个组件,训练学习模块以识别对象的组件,以及通过使用已学习组件采用学习模块以在非训练模式下识别提交到学习模块的图像中的对象。图像也可以以视频序列的形式实现,视频序列为一系列图像。分解图像中的对象可以包括通过用户界面进行人工输入帮助执行分解。分解可以包括识别图像中对象的姿势。使用对象姿势可以包括使用对象方向边界框。
这类系统可以使用组件分解来学习对象模型,并处理具有局部外观和方向变化的对象。这些系统可以在检测和重构遮挡对象和学习新对象方面达到很高的性能。例如,由于自行车相对较小、速度快、异构性强、外观变化大、易被局部遮挡,因此自治系统检测自行车具有很大挑战性。基于组件分解的学习系统可以提高对象(例如,自行车)的识别和检测性能,并且具有用以更可靠地在图像中识别和重构对象的学习模块的自治系统以可以有能力对在转变自治系统的传感器中检测到的对象作出快速判断和反应。使用从图像中的组件分解训练的学习模块的系统可以稳定地识别图像中被遮挡的感兴趣对象。此外,此类系统可增强对与图像相关联的场景的整体理解,该图像具有部分显示于该图像中的对象。
图1是与识别图像中对象相关联的问题维数的图形表示。x轴是遮挡范围,反映了在一些图像中,对象在图像中仅具有部分外观,其中,对象的整体布局在原点处表示。布局是指对象各部分的排列方式。y轴是姿势/方向变化范围,反映了在一些图像中,对象在图像中的方向与图像的边框不平行,如原点所示。z轴为外观变化/变形范围,反映了在一些图像中,对象在图像中的形状不是所述对象的非变形形式,如原点所示。对象外观的矢量表示突出了识别图像中对象所涉及的变量。由于需要考虑外观变化、方向变化和遮挡,检测和恢复对象的整体布局具有很大挑战性。
图2示出了男孩骑自行车的图像,其中自行车与地面成一定角度立起。在传统的图像处理技术中,通过将自行车装入与图像轴线对齐的边界框中来操作自行车的图像。然而,如本文所教示的一样,以自行车的方向为变量,可以生成边界框219作为对象方向边界框,指示姿势信息。这种姿势信息可以包括相对于背景的角度。可以在学习模块中考虑该姿势信息,以训练学习模块识别不同方向或姿势位置的对象。
图3示出了图像识别系统分解图像的方式。图3示出了图像中的三个对象可以分解为三个单独的对象,单个对象可以进一步分解。在本示例中,图像302包括三个对象301-1、301-2和301-3,其中,对象301-1进一步分解为两个组件:人303-1和自行车303-2。自行车303-2可分解为组件:前轮304-1、后轮304-2、把手304-3和车架304-4。可以将自行车303-2的图像与自行车303-2的表示分解成的多个组件304-1、304-2、304-3和304-4一起输入到学习单元中。因为对于机器来说,分解任务具有挑战性,所以人类可以在学习模块的学习阶段指导分解过程。分解过程和姿势信息可以提供独特的机制来提供图像识别系统。在分解回路中使用人,可以进一步增强图像识别系统。
图4是包括学习单元410的图像识别系统400的框图,学习单元410一旦被训练,即可识别图像中的对象并估计对象的姿势信息和/或构建对象在图像中的完整视图或对象的完整草图。除了学习单元410之外,图像识别系统400还可以包括训练集405、检测415、重构模块420和输出425。可以在学习单元410的后训练中输入图像406,在学习单元410中可以从图像406的一个图像中检测出对象,并在检测415中估计该对象的姿势,重构模块420对图像406进行处理,得到包括输出425提供的对象的表示。输出425可提供在从图像406输入的测试图像上呈现的完整对象。可选地,来自输出425的呈现可以用于合成训练集407,合成训练集407能够向训练集405提供附加数据以增强学习单元410的训练。这包括通过组合来自不同原始图像的不同组件来创建合成的训练图像。
训练集405向学习单元410提供一个或多个图像,其中,学习单元410获取的一个或多个图像可以是用于训练学习模块414以识别一个或多个训练图像中的对象的组件的训练图像。每个训练图像可以包括图像中的对象,其中,对象可以在输入训练图像的数个不同图像中具有不同的外观。可以创建训练集,训练集包括存在对象的图像,该对象在这些图像中具有训练集中的全局外观、局部外观、方向变化和外观变化。
此外,可以用具有局部外观的对象的图像来扩大训练图像,这些图像是从具有全局外观的对象的训练图像创建而来。这些局部外观图像可以使用多种技术来创建,这些技术包括但不限于裁剪/分割图像、缩放/旋转图像、通过扩展背景区域增加遮挡以及基于一个或多个计算机辅助设计(computer-aided design,CAD)模型生成合成图像等。不丢弃图像扩大中使用的变换,而是将变换用作训练中的姿势信息,其中,可以从执行创建具有局部外观创建的图像的技术所产生的变换中得到该姿势信息。除了局部外观之外,还可以基于将对象和与该对象相关联的模板匹配的对象模板中的变形描述符来生成姿势信息。
学习单元410可以操作从训练集405获取的一个或多个图像。学习单元410的操作可以包括分解412一个或多个图像中的对象。分解412可以包括针对每个图像,将该对象分解成组件,并为每个图像生成标记数据。可以将图像和相关标记数据输入到学习模块414中以训练学习模块414来识别对象的组件。学习模块414可以是基于组件的可扩展学习模块。学习模块414可以通过神经网络或人工智能机器实现。
神经网络,有时也称为人工神经网络,是一种考虑动物大脑的生物神经网络的计算系统。这类系统逐步提高性能,这称为学习,从而执行通常不需要进行特定任务编程的任务。例如,在图像识别中,可以教导神经网络通过分析已标记有对象名称的示例性图像来识别包含该对象的图像,并在了解对象和名称后,使用分析结果来识别未标记图像中的对象。神经网络可以基于称为神经元的连接单元的集合,其中神经元之间的每个连接称为神经键,可以传输具有随连接强度变化的激活强度的单向信号。接收神经元可以激活信号并将信号传播到与接收神经元连接的下游神经元,通常基于合并的传入信号是否具有足够的强度,该合并的传入信号可以来自潜在的许多传输神经元,而强度是一个参数。
在一个实施例中,学习模块414可以包括深度神经网络(deep neural network,DNN)。DNN是一个多层叠加的神经网络,包括多个层。这些层由节点组成,这些节点是进行计算的位置,松散地设计在人脑的神经元上,当神经元遇到足够的刺激时,就会触发。节点将数据输入与一组系数或权重组合在一起,这些系数或权重可以放大或抑制该输入,从而为算法试图学习的任务的输入赋予重要性。对这些输入-权重乘积进行求和,并且将和通过所谓的节点激励函数传递,以确定信号是否通过网络进一步传播以及传播的程度,从而影响最终结果。DNN使用多层非线性处理单元级联进行特征提取和变换。每个连续的层使用前一层的输出作为输入。高层特征可以从低层特征中推导出来,形成分层表示。输入层之后的层可以是卷积层,卷积层生成特征图,这些特征图是输入的过滤结果,并且由下一个卷积层使用。
学习模块414的训练可以基于在每个训练图像输入时所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势。对象性是一种可以充当类属对象检测器的度量,该度量量化图像窗口包含与背景相对的任何类的对象的可能性。对象性可以与包含指定对象或该对象的组件之一的图像或图像窗口的概率相关联。
可以使用用户界面实现分解412,该用户界面提供一种机制,使用户能够向分解过程提供输入。让人参与到分解循环中可以提供半监督的组件学习。虽然分解任务对于机器来说可能具有挑战性,但是人可以在学习阶段为分解过程提供指导。通过用户界面,循环中的人可以使用启发性方法提供组件分解,例如,提供一种方法或一组规则在图像中从左到右和/或在图像中从上到下进行分解。循环中的人可以通过用户界面向组件提供生成的或匹配的现有分解候选中的最佳匹配的提示。循环中的人可以通过用户界面手动分解几个典型示例。可以将启发性输出、从最佳匹配中选择的候选以及与标记的分解示例匹配的结果输入到机器学习模型中,以调整机器学习模型和/或验证机器学习模型,然后,通过用户界面提供机器学习模型供循环中的人进行评审。
可以将包含对象的图像、对象分解为组件以及相关标记数据的文件输入到学习模块414中,以将学习模块414训练为基于组件的学习模块。例如,学习模块414可以设置为基于组件的DNN。
图5示出了基于组件的DNN架构500。一旦对该架构进行训练,该架构可用于基于图像中的对象的组件来识别该对象。DNN架构500包括图像输入505。图像输入505可以接收图像和每个图像的标记数据,这些图像和标记数据可以输入到一连串卷积层511-1……511-(n-1)、511-n,其中,每个卷积层的输出作为下一个卷积层的输入。卷积层n-1的输出分别连接到从对象分解到的每个组件1……m的区域提议网络(region proposal network,RPN)516-1……516-m。全连接层可用于区域提议网络。全连接层是指节点与上一层的所有激活点都具有全连接的层。卷积层n的输出连接到整个对象的区域提议网络513。对于作为DNN中的传统结构的区域提议,给定输入图像,可以确定对象所处的所有可能位置,并且此阶段的输出可以包括对象的可能位置的边界框列表。这些通常被称为区域提议或感兴趣区域。与整个对象的区域生成网络使用的特征图相比,对象组件的区域提议网络使用合适的更精细的特征图。在一些实施例中,对象的一些组件的区域提议网络可能不使用卷积层n-1的输出,而是使用卷积层n-m的输出(例如,层n-1前的层n-2)。
使用每个组件1……m的区域提议516-1……516-m、卷积层n-1和卷积层n的输出以及整个对象的区域提议执行感兴趣区域(Region of interest,ROI)池化517。ROI池化是用于对象检测任务的神经网络层。该层对从具有若干个卷积和最大池化层的深度卷积网络获得的特征图进行操作。该层占据了与该层对应的并将该层缩放到预定义大小的输入特征图的一部分。缩放可以通过将每个区域提议划分为大小相等的部分等操作来执行,部分的数量可以与输出的范围相同。可以在每个部分中确定一个最大值,并且可以将这些最大值复制到输出缓冲器。因此,从不同大小的矩形列表中,可以快速得到固定大小的对应特征图列表。ROI池化输出的范围不依赖于输入特征图的大小或区域提议的大小。ROI池化输出的范围可根据提议划分得到的部分数量来确定。通常,ROI池化提高了处理速度。如果图像有多个对象提议,则多个对象提议都可以使用同一个输入特征图。除了用于对象检测任务,ROI池化通常允许重用来自多层卷积网络的特征图,这可以显著加快训练和测试时间,并且支持端到端训练。在一些实施例中,ROI池化层可以将整个对象的区域提议和每个组件的区域提议组合在一起,并执行一致性检查以排除不一致的区域提议。例如,针对整个对象的一个区域提议A的一个度量可以是区域提议在区域提议A的容差范围内的组件的数量。如果此数量小于预定义的阈值,则可以排除区域提议A。
ROI池化517的输出连接到对象的检测器518-9和组件1的检测器518-1……组件m的检测器518-m。这些检测器获取从ROI池化生成并与对象和对象的各个组件相关联的特征图。利用这些检测器,可以实现全连接层,用于对象分数和姿势的回归。例如,姿势可以仅是方向边界框,或者包括所有自由度的姿势表示参数。回归可以包括一个估计与对象及其组件相关的变量之间关系的统计过程。
在DNN架构的训练中,回归可以包括最小化成本函数。训练图像输入到DNN学习模块,其中,DNN学习模块可以包括使用适当的更精细特征图的针对对象的组件的区域提议网络(region proposal network,RPN)、基于区域的检测网络(region-based detectionnetwork,R-CNN)以及针对组件的多个网络。这些网络可以共享特征图,这些特征图可以实现为卷积层实现,例如图5的基于组件的DNN架构500中的一连串卷积层511-1……511-(n-1)、511-n。整个对象及其组件的RPN和检测器可以联合训练,也可以单独训练。
DNN的输出可以包括整体对象分数、组件集的对象分数集、对象的姿势和组件集的姿势集。出于训练的目的,标记数据与输出数据之间的偏差可以通过以下术语给出:
整体对象分数偏差=d(p(o),pθ(o))
对象姿势偏差=d(pose,poseθ)
在对象检测和姿势估计的深度神经网络的训练中,可以采用以下成本函数进行最小化:
其中,p(o)为整个对象的标记整体对象分数,pθ(o)为整个对象的输出对象分数;pc(o)为组件c的标记对象分数,pθ_c(o)为组件c的输出对象分数;pose为整个对象的标记姿势,poseθ为整个对象的输出姿势;posec为组件c的标记姿势;poseθ_c为组件c的输出姿势;d(x,y)表示x和y之间的距离。在一些实施例中,成本函数中的不同术语可以使用不同的权重,以平衡不同术语的贡献。
在训练中,如果成本函数值不在预定范围内,则基于已知的训练图像,可以采用反向传播,其中,反向传播是训练人工神经网络的常用方法,可以与随机梯度下降(stochastic gradient descent,SGD)法等优化方法一起使用。反向传播的使用可以包括传播和权重更新。当输入被呈现到网络时,该输入通过网络逐层向前传播,直到到达输出层。然后,使用成本函数将网络的输出与期望的输出进行比较,并针对输出层中的每个节点计算误差值。误差值可以从输出开始向后传播,直到每个节点都有一个相关的误差值,这个值大致表示它对原始输出的贡献。反向传播可以使用这些误差值来计算成本函数相对于网络中的权重的变化率。计算出的变化率可以输入到选择的优化方法,以更新权重,从而试图最小化成本函数。
基于组件的DNN学习模块的应用允许进行可组合的识别,即通过识别图像中对象的组件进行识别。在一个实施例中,如上所述,组件级DNN可以通过每个组件使用一个子神经网络和重用新对象的组件来大规模提供灵活和可重用的训练。与组件相关联的数据可以存储起来,以便后续在对象识别中应用。如上所述,可以使用现有的训练图像来训练DNN模块。此外,具有局部外观、方向变化的对象的合成图像可用于训练。
图6示出了对具有完整外观对象的图像执行的操作以训练可以合成另一图像的识别。图像605包括自行车,该自行车所示为五个组件的组合:鞍座区604-1、前套件604-2、前轮604-3、踏板区604-4和后轮604-5。训练后,可以识别相关组件,例如,头盔604-6和组件604-1、604-2、604-3、604-4和604-5的元件以及连接器组件。可以训练鞍座区604-1,以识别鞍座区域604-1内的鞍座和座杆。可以训练前套件604-2,与手杆柄、头管、减震器、前刹车和曲臂有关联。可以训练前轮604-3,与辐条、轮轴、轮圈、轮胎和气阀有关联。可以训练踏板区604-4,与踏板和曲柄臂有关联。可以训练后轮604-5,与后刹车、齿轮、后变速器、前变速器、链条和链环有关联。训练可以识别一个框架组,包括上管、下管、座管、上叉和下叉。训练之后,可以合成训练后的组件,使得边界框中选定的训练组件可以组合生成图像607,其中,头盔604-6与图像605中自行车上的人组合,人将组件座椅区604-1遮挡住。
使用训练后的学习模块,例如学习模块414,可以在图4的检测模块415中等检测附加图像。图7示出了局部外观的对象的检测以及该对象的恢复整体布局的重构。提供局部外观706,并检测相关对象。可选地,在检测后,可以细化相关对象和模板721的对应关系715。该对应关系可以提供图4中的重构模块420进行重构。模板721可以与局部外观706组合以产生整个布局725,而不是图像。整体布局可以做成草图。检测到重构可以利用对象模板表示。对象模板可以为不同的对象变化提供具有多个图像的组合模型。一组基本图像可用于重构变化。此外,还可以使用CAD模型基于对象的姿势创建合成图像或线框。虽然这种组合是一种结构,但可以称为重构,因为该组合使用现有的组件,即局部外观706。
可以使用生成性对抗网络(generative adversarial network,GAN)来复原对象的完整外观。GAN可以包括由两个相互竞争的神经网络的系统实现的算法。使用GAN进行的重构可以作为基于DNN的过程来实现。除了输入感兴趣的对象没有全局外观的图像外,还可以将检测得到的对象姿势信息输入到GAN中,用于重构对象的全局外观。如果没有足够的代表性训练示例,GAN存在限制和训练费用,例如缺少组件。考虑采用GAN完整外观和模板草图的混合方法进行重构。
图8是图像中对象识别和重构的示例性计算机实现方法的实施例的特征的流程图。在810处,获取多个图像,其中,每个图像包括图像内的对象。该对象可以在多个图像的数个图像中具有不同的外观。获取多个图像可以包括获取对象的全局外观、对象的局部外观、对象的方向变化或对象的外观变化中的一个或多个。获取多个图像可以包括:使用训练图像中对象的局部外观来创建对象的训练图像,以及使用创建训练图像得到的姿势信息来标记训练图像,或者基于执行对象模板匹配得到的变形描述符,使用姿势信息来标记训练图像。
在820处,针对每个图像,将对象分解成组件,并为每个图像生成标记数据。将图像中的对象分解成组件可以包括:使用用户界面提供用户输入以将对象分解成组件。提供用户输入以将对象分解成组件可以包括:使用动作集中的一个或多个动作,其中,动作集可以包括使用启发性方法分解对象,使用生成或匹配的现有分解候选中的最佳匹配的猜测,以及手动分解数个典型示例。
在830处,将图像和相关标记数据输入到学习模块中,以训练学习模块识别对象的组件。训练可以基于每个图像输入中的对象的整体对象分数、对象的每个组件的对象分数、对象的姿势以及对象的每个组件的姿势。学习模块可以是深度神经网络,也可以包括深度神经网络。训练深度神经网络可以包括训练对于每个组件都存在一个子神经网络的深度神经网络。训练深度神经网络可以包括:将图像和相关标记数据输入到多个卷积层i的第一卷积层,i=1……n-1、n,按顺序排列,使得到达每个卷积层的输入包括该顺序中从卷积层2开始的前一个卷积层的输出,卷积层1作为所述第一卷积层;从卷积层n-1的输出中生成每个组件的区域提议;从卷积层n的输出中生成整个对象的区域提议;使用每个组件的区域提议、卷积层n-1和卷积层n的输出以及整个对象的区域提议执行感兴趣区域池化。感兴趣区域池化可以包括在整个对象的区域提议与组件的区域提议之间执行一致性检查,以丢弃不一致的区域提议。训练学习模块可以包括:将生成为物体集的标记数据与计算数据之间的偏差之和的成本函数最小化,物体集包括整体对象分数、组件的对象分数、对象的姿势以及组件的姿势。
在840处,将附加图像输入到训练后的学习模块中。在850处,响应于输入到训练后的学习模块中,检测到附加图像具有对象在附加图像中的一个或多个组件。在860处,响应于检测一个或多个组件,识别对象并估计对象在附加图像中的姿势信息和/或构建对象在附加图像中的完整视图或对象的完整草图。构建完整视图可以包括:使对象模板与具有局部外观的检测对象之间具有对应关系。构建完整视图可以包括:将从检测到附加图像具有对象在附加图像中的一个或多个组件得到的姿势信息及作为输入的附加图像输入到生成式对抗网络中以构建对象的全局外观。
计算机实现方法800的变体或类似于计算机实现方法800的方法可以包括许多不同的实施例,这些实施例可以组合或不组合,取决于这些方法的应用和/或实现这些方法的系统的架构。此类方法可以包括通过组合从多个图像中检测到的组件来创建合成图像作为新的训练图像。此类方法也可以包括基于感兴趣区域池化的输出执行对象的整体对象分数、对象的每个组件的对象分数、对象的姿势以及组件的姿势的回归。
系统可以用于执行方法800或与方法800相似或相同的方法以及其它功能。一种系统可以包括非瞬时性存储器,该非瞬时性存储器包括指令和与所述非瞬时性存储器通信的一个或多个处理器。所述一个或多个处理器可以执行所述指令以执行操作,包括:获取多个图像,每个图像包括所述图像中的对象,所述对象在所述多个图像的数个图像中具有不同的外观;针对每个图像,将所述对象分解成组件,并为每个图像生成标记数据;将所述图像和相关标记数据输入到学习模块中,以训练所述学习模块识别所述对象的所述组件,所述训练基于每个图像输入中的所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势;将附加图像输入到所述训练后的学习模块中;响应于输入到所述训练后的学习模块中,检测所述附加图像具有所述对象在所述附加图像中的一个或多个组件;响应于检测所述一个或多个组件,识别所述对象并估计所述对象在所述附加图像中的姿势信息和/或构建所述对象在所述附加图像中的完整视图或所述对象的完整草图。
系统或类似系统的变化可以包括许多不同的实施例,这些实施例可以根据这些系统的应用和/或实现本文中所教示的方法的系统的架构而组合或不组合。此类系统可以包括操作,所述操作包括通过组合从多个图像中检测到的组件来创建合成图像作为新的训练图像。所述多个图像可以包括所述对象的全局外观、所述对象的局部外观、所述对象的方向变化或所述对象的外观变化中的一个或多个。获取所述多个图像可以包括:使用训练图像中对象的局部外观来创建所述对象的所述训练图像,以及使用从创建所述训练图像得到的姿势信息来标记所述训练图像,或者基于执行对象模板匹配得到的变形描述符,使用姿势信息来标记所述训练图像。
系统或类似系统的变化可以包括将所述图像中的所述对象分解成组件以包括:使用用户界面提供用户输入以将所述对象分解成所述组件。提供用户输入以将所述对象分解成组件可以包括:使用动作集中的一个或多个操作,所述动作集包括使用启发性方法来分解所述对象,使用生成或匹配的现有分解候选中的最佳匹配的猜测,以及手动分解数个典型示例。
所述系统或类似系统的变化可以包括是深度神经网络的学习模块。训练所述深度神经网络可以包括训练对于每个组件都具有一个子神经网络的所述深度神经网络。训练所述深度神经网络可以包括:将所述图像和相关标记数据输入多个卷积层i的第一卷积层,i=1……n-1、n,按顺序排列,使得到达每个卷积层的输入包括所述顺序中从卷积层2开始的前一个卷积层的输出,卷积层1作为所述第一卷积层;从卷积层n-1的输出中生成每个组件的区域提议;从卷积层n的输出中生成所述整个对象的区域提议;使用每个组件的所述区域提议、所述卷积层n-1和所述卷积层n的所述输出以及所述整个对象的所述区域提议执行感兴趣区域池化。所述感兴趣区域池化可以包括在所述整个对象的所述区域提议与所述组件的所述区域提议之间执行一致性检查,以丢弃不一致的区域提议。
操作可以包括基于感兴趣区域池化的输出执行对象的整体对象分数、对象的每个组件的对象分数、对象的姿势以及组件的姿势的回归。在一实施例中,训练所述学习模块可以包括:将生成为所述标记数据与物体集的计算数据之间的偏差之和的成本函数最小化,所述物体集包括所述整体对象分数、所述组件的所述对象分数、所述对象的姿势以及所述组件的所述姿势。
系统或类似系统的变化可以包括构建所述完整视图以包括:使对象模板与具有局部外观的检测对象之间具有对应关系。构建所述完整视图可以包括:将从检测到所述附加图像具有所述对象在所述附加图像中的所述一个或多个组件得到的姿势信息及作为输入的所述附加图像输入到生成式对抗网络中以重构所述对象的全局外观。
在各种实施例中,非瞬时性机器可读存储设备,例如计算机可读非瞬时性介质,可以包括存储在其上的指令,当由机器执行所述指令时使得机器执行操作,所述操作包括一个或多个特征,所述特征与针对方法800及其变化描述的方法和技术的特征,和/或本文中所教示的与图1-8相关联的方法等其它方法的特征相似或相同,这些指令的物理结构可以由一个或多个处理器操作。例如,执行这些物理结构可以使所述机器执行操作,包括:获取多个图像,每个图像包括所述图像中的对象,所述对象在所述多个图像的数个图像中具有不同的外观;针对每个图像,将所述对象分解成组件,并为每个图像生成标记数据;将所述图像和相关标记数据输入到学习模块中,以训练所述学习模块识别所述对象的所述组件,所述训练基于每个图像输入中的所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势;将附加图像输入到所述训练后的学习模块中;响应于输入到所述训练后的学习模块,检测到所述附加图像具有所述对象在所述附加图像中的一个或多个组件;响应于检测所述一个或多个组件,识别所述对象并估计所述对象在所述附加图像中的姿势信息和/或构建所述对象在所述附加图像中的完整视图或所述对象的完整草图。
指令可以包括许多操作。所述操作可以包括将所述图像中的所述对象分解成组件以包括:使用用户界面提供用户输入以将所述对象分解成所述组件。所述学习模块可以包括深度神经网络。训练所述深度神经网络可以包括训练对于每个组件具有一个子神经网络的所述深度神经网络。训练所述深度神经网络可以包括:将所述图像和相关标记数据输入多个卷积层i的第一卷积层,i=1……n-1、n,按顺序排列,使得到达每个卷积层的输入可以包括所述顺序中从卷积层2开始的前一个卷积层的输出,卷积层1作为所述第一卷积层;从卷积层n-1的输出中生成每个组件的区域提议;从卷积层n的输出中生成所述整个对象的区域提议;使用每个组件的所述区域提议、所述卷积层n-1和所述卷积层n的所述输出以及所述整个对象的所述区域提议执行感兴趣区域池化。所述感兴趣区域池化可以包括所述整个对象的所述区域提议与所述组件的所述区域提议之间执行一致性检查,以丢弃不一致的区域提议。
操作可以包括基于感兴趣区域池化的输出执行对象的整体对象分数、对象的每个组件的对象分数、对象的姿势以及组件的姿势的回归。训练所述学习模块可以包括:将生成为所述标记数据与物体集的计算数据之间的偏差之和的成本函数最小化,所述物体集包括所述整体对象分数、所述组件的所述对象分数、所述对象的姿势以及所述组件的所述姿势。
获取所述多个图像的操作可以包括获取所述对象的全局外观、所述对象的局部外观、所述对象的方向变化或所述对象的外观变化中的一个或多个。获取所述多个图像可以包括:使用训练图像中对象的局部外观来创建所述对象的所述训练图像,以及使用从创建所述训练图像得到的姿势信息来标记所述训练图像,或者基于执行对象模板匹配得到的变形描述符,使用姿势信息来标记所述训练图像。
此外,本文的计算机可读非瞬时性介质等机器可读存储设备是存储相应设备中由物理结构表示的数据的物理设备。这种物理设备是非瞬时性设备。例如,机器可读存储设备可以包括但不限于只读存储器(read only memory,ROM)、随机存取存储器(random accessmemory,RAM)、磁盘存储设备、光存储设备、闪存和其它电子、磁性和/或光存储设备。机器可读设备可以是机器可读介质,例如图9中的存储器903。虽然存储器903示出为多个组件单元,但术语“存储器”、“存储器模块”、“机器可读介质”、“机器可读设备”及类似术语应视为包括各种形式的存储介质,包括单介质(或设备)或多介质(或设备)形式的各种形式的存储介质。例如,这些结构可以实现为集中式数据库、分布式数据库、相关联的缓存和服务器;一个或多个存储设备,例如存储驱动器(包括但不限于电子、磁和光驱动器和存储机制),以及一个或多个内存设备或模块的实例(无论是主存储器;缓存存储,处理器内部或外部;或缓冲器)。术语“存储器”“存储器模块”“机器可读介质”和“机器可读设备”等应视为包括任何有形非瞬时性介质,该有形非瞬时性介质能够存储或编码供机器执行的指令序列,并使机器执行本文所教示的任何方法。在提及“机器可读设备”、“介质”、“存储介质”、“设备”或“存储设备”时所使用的术语“非瞬时性”包括所有形式的存储驱动器(光、磁、电等)和所有形式的存储设备(例如,DRAM、(所有存储设计的)闪存、SRAM、MRAM、相变等),以及旨在存储任何类型数据以供日后检索的所有其它结构。
图9是根据本发明教示的示出用于实现算法并执行对象识别和重构方法的设备的电路的框图。图9示出了包含存储指令的非瞬时性存储器903、缓存907和处理单元902的设备900。处理单元902可以包括一个或多个可操作地与非瞬时性存储器903和缓存907通信的处理器。可以设计一个或多个处理器的结构来执行指令,以根据本文所教示的任一方法操作设备900。可以设计一个或多个处理器的结构来执行指令,以操作设备900的其它功能。
非瞬时性存储器903可以实现为计算机可读介质等机器可读介质,并且可以包括易失性存储器914和非易失性存储器908。设备900可以包括或可以访问计算环境,该计算环境包括各种机器可读介质,包括为易失性存储器914、非易失性存储器908、可移动存储器911和不可移动存储器912等计算机可读介质。此类机器可读介质可与由设备900执行的一个或多个程序918中的指令一起使用。缓存907可以实现为独立存储器组件或易失性存储器914、非易失性存储器908、可移动存储器911或不可移动存储器912中的一个或多个的部分。存储器可以包括随机存取存储器(random access memory,RAM)、只读存储器(read onlymemory,ROM)、可擦除可编程只读存储器(erasable programmable read-only memory,EPROM)和电可擦除可编程只读存储器(electrically erasable programmable read-onlymemory,EEPROM)、闪存或其它存储技术、光盘只读存储器(compact disc read-onlymemory,CDROM)、数字通用磁盘(Digital Versatile Disk,DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它磁存储设备,或任何能够存储计算机可读指令的其它介质。
设备900可包括或可访问包括输入906和输出904的计算环境。输出904可以包括也可以用作输入设备的显示设备,例如触摸屏。输入906可包括触摸屏、触控板、鼠标、键盘、摄像头、一个或多个设备专用按钮、集成在设备900内或通过有线或无线数据连接耦合到设备900的一个或多个传感器以及其它输入设备。设备900可以使用通信连接在网络环境中操作,以连接到一个或多个其它远程设备。此类远程设备可以类似于设备900或可以是具有与设备900的特征相似或相同的特征或如本文所教示的其它特征的不同类型的设备。远程设备可以包括计算机,例如数据库服务器。这些远程计算机可以包括个人计算机(personalcomputer,PC)、服务器、路由器、网络PC、对端设备或其它常见的网络节点等。通信连接可以包括局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、蜂窝、Wi-Fi、蓝牙或其它网络。
设备900的处理单元902可执行机器可读指令,例如存储在计算机可读介质上的计算机可读指令。硬盘驱动器、CD-ROM和RAM是包括存储设备等非瞬时性计算机可读介质在内的物品的一些示例。术语“机器可读介质”、“计算机可读介质”和“存储设备”不包括载波,在某种程度上载波被认为是瞬时的。存储还可以包括联网存储器,例如存储区域网络(storage area network,SAN)。
在各种实施例中,非瞬时性机器可读存储设备可以包括存储在其上的指令,这些指令在由机器执行时使机器执行操作以提供与图1至图8相关联的操作手段。这些指令的物理结构可以由一个或多个处理器操作,例如处理单元903的一个或多个处理器。
设备900可以实现为计算设备,该计算设备可以以不同实施例中的不同形式作为网络的一部分。例如,设备900可以是智能手机、平板电脑、智能手表、其它计算设备或具有无线通信能力的其它类型的设备,其中,这些设备包括参与内容项的分配和存储的组件,如本文所教示的一样。智能手机、平板电脑、智能手表等设备以及具有无线通信能力的其它类型的设备,通常统称为移动设备或用户设备。此外,这些设备中的一些可被视为实现其功能和/或应用的系统。此外,尽管各种数据存储元件作为设备900的一部分示出,但存储器也可以或替代地包括通过网络(例如,基于互联网或基于服务器的存储器)访问的基于云的存储器。
图10是具有识别单元1070的示例性系统1000的实施例的特征的框图。可以实现识别单元1070以识别和重构图像中的对象,其中,系统和方法解决所述图像中所述对象的外观变化、方向变化和部分遮挡。系统1000可以集成到具有包括检测应用在内的功能的系统中,所述应用包括但不限于识别图像中的对象并估计所述对象的姿势信息和/或响应于检测所述对象的一个或多个组件而构建对象在图像中的完整视图或对象的完整草图的应用。此类系统可包括监测系统,所述监测系统响应于检测图像中的对象或配置对象来生成动作,例如监控视频。
系统1000还可以包括许多组件,例如控制电路1032、存储器1035、通信单元1040、信号处理单元1045、电子装置1050、外围设备1055、显示单元1060、用户界面1062、选择设备1064和成像设备1065。控制电路1032可以实现为一个或多个处理器,其中,此类处理器可以作为一个处理器或一组处理器操作。该组处理器中的处理器可以根据指定的功能独立操作。控制电路1032可以在一个或多个ASIC中实现。控制电路1032可以在一个或多个DSP中实现。在控制系统1000的组件的操作以执行与系统1000所设计的功能相关联的方案时,控制电路1032能够直接将数据连接到数据库和从数据库访问数据。
系统1000可以包括控制电路1032、存储器1035和通信单元1040,用于作为处理单元操作以控制识别单元1070的管理以及对识别单元1070采集的数据信号执行操作。例如,可以布置控制电路1032、存储器1035和通信单元1040以识图像中的对象并估计所述对象的姿势信息和/或响应于检测所述对象的一个或多个组件而构建对象在图像中的完整视图或对象的完整草图。可以使用成像设备1065生成一个或多个图像的集合。可以通过通信单元1040获取一个或多个图像的集合。根据应用,通信单元1040可以使用有线通信技术和无线技术的组合。
存储器1035可以包括具有信息和其它数据的数据库,使得系统1000能够操作数据以执行系统1000的功能。存储器1035可存储可被识别单元1070操作所访问的图像和标记数据的训练集。信号处理单元1045可以分布在包括存储器1035和/或电子装置1050的系统1000的各个组件中。
系统1000还可以包括总线1037,其中,总线1037提供系统1000的各个组件之间的导电性。总线1037可以包括地址总线、数据总线和控制总线,每个总线都可以独立配置。总线1037可以使用允许分布系统1000的组件的多个不同通信介质来实现。总线1037的使用可以由控制电路1032调节。总线1037可用作通信网络的一部分以发送和接收包括数据信号和命令的信号以及控制信号。
在各种实施例中,外围设备1055可包括用于向识别单元1070提供电压和/或电流输入的驱动器、附加存储器和/或可与控制电路1032和/或存储器1035一起操作的其它控制设备。显示单元1060可以设置有显示屏,该显示屏可以与存储在存储器1035中的指令一起使用,以实现用户界面1062,以管理分布在系统1000中的识别单元1070和/或组件的操作。这种用户界面可以与通信单元1040和总线1037一起操作。显示单元1060可以包括视频屏幕或其它结构,以可视化地投影数据/信息和图像。系统1000可以包括与用户界面1062一起操作的多个选择设备1064,以提供用户输入来操作信号处理单元1045或其等效物。选择设备1064可包括触摸屏或可与用户界面1062一起操作的选择设备,以提供用户输入来操作信号处理单元1045或系统1000的其它组件。
在各种实施例中,可以设计一个系统,通过多组件识别和表示来识别和重构具有局部外观的对象。通过用户界面,人类可以在系统的学习模块训练的分解阶段进行交互。如本文所教示,可以实现一种方法,以从具有全局外观的图像、具有局部外观的图像以及具有对象方向/姿势变化的图像中训练和学习对象模型信息。如本文所教示,可以实现一种方法,以使用深度神经网络学习通过多组件识别和表示来识别局部外观对象并重构所述对象的整体布局。如本文所述,一种方法可以实施为半监督组件学习,由回路中的人执行半监督操作。这些系统和方法可以为产品和解决方案提供增加特征,如自治系统、平安城市、手机、物联网设备等。这些增加的特征是对这些系统和方法的增强,提供识别障碍物和部分对象的能力,重构和返回多层次的结构场景信息,并在监控系统中指示盲点等盲点信息。
尽管已参考特定特征和实施例描述了本发明,但显然可以在不脱离本发明范围的情况下对其进行各种修改和组合。因此,说明书和附图应简单地视为所附权利要求书所界定的本发明的说明,并考虑涵盖属于本发明范围的任何和所有修改、变化、组合或等效物。

Claims (18)

1.一种可用于识别和重构图像中的对象的系统,其特征在于,所述系统包括:
非瞬时性存储器,包括指令;
一个或多个处理器,与所述非瞬时性存储器通信,其中,所述一个或多个处理器执行所述指令以执行操作,包括:
获取多个图像,每个图像包括所述图像中的对象,所述对象在所述多个图像的数个图像中具有不同的外观;
针对每个图像,将所述对象分解成组件,并为每个图像生成标记数据;
将所述图像和相关标记数据输入到学习模块中,以训练所述学习模块识别所述对象的所述组件,所述训练基于每个图像输入中的所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势;
将附加图像输入到所述训练后的学习模块中;
响应于输入到所述训练后的学习模块中,检测到所述附加图像具有所述对象在所述附加图像中的一个或多个组件;
响应于检测所述一个或多个组件,识别所述对象并估计所述对象在所述附加图像中的姿势信息和/或构建所述对象在所述附加图像中的完整视图或所述对象的完整草图;
其中,训练所述学习模块包括:将生成为所述标记数据与物体集的计算数据之间的偏差之和的成本函数最小化,所述物体集包括所述整体对象分数、所述组件的所述对象分数、所述对象的姿势以及所述组件的所述姿势。
2.根据权利要求1所述的系统,其特征在于,将所述图像中的所述对象分解成组件包括:
使用用户界面提供用户输入以将所述对象分解成所述组件。
3.根据权利要求2所述的系统,其特征在于,提供用户输入以将所述对象分解成组件包括:使用动作集中的一个或多个动作,所述动作集包括使用启发性方法来分解所述对象,
使用生成或匹配的现有分解候选中的最佳匹配的猜测,以及手动分解数个典型示例。
4.根据权利要求1所述的系统,其特征在于,所述学习模块是深度神经网络。
5.根据权利要求4所述的系统,其特征在于,训练所述深度神经网络包括:
将所述图像和相关标记数据输入到多个卷积层i的第一卷积层,i=1……n–1、n,按顺序排列,使得到达每个卷积层的输入包括该顺序中从卷积层2开始的前一个卷积层的输出,卷积层1作为所述第一卷积层;
从卷积层n–1的输出中生成每个组件的区域提议;
从卷积层n的输出中生成整个对象的区域提议;
使用每个组件的所述区域提议、所述卷积层n–1和所述卷积层n的所述输出以及所述整个对象的所述区域提议执行感兴趣区域池化。
6.根据权利要求5所述的系统,其特征在于,所述感兴趣区域池化包括在所述整个对象的所述区域提议与所述组件的所述区域提议之间执行一致性检查,以丢弃不一致的区域提议。
7.根据权利要求1所述的系统,其特征在于,所述多个图像包括所述对象的全局外观、所述对象的局部外观、所述对象的方向变化或所述对象的外观变化中的一个或多个。
8.根据权利要求1所述的系统,其特征在于,获取所述多个图像包括:使用训练图像中对象的局部外观来创建所述对象的所述训练图像,以及使用从创建所述训练图像得到的姿势信息来标记所述训练图像,或者基于执行对象模板匹配得到的变形描述符,使用姿势信息来标记所述训练图像。
9.根据权利要求1所述的系统,其特征在于,构建所述完整视图包括:将从检测到所述附加图像具有所述对象在所述附加图像中的一个或多个组件得到的姿势信息及作为输入的所述附加图像输入到生成式对抗网络中以重构所述对象的全局外观。
10.一种计算机实现方法,其特征在于,包括:
获取多个图像,每个图像包括所述图像中的对象,所述对象在所述多个图像的数个图像中具有不同的外观;
针对每个图像,将所述对象分解成组件,并为每个图像生成标记数据;
将所述图像和相关标记数据输入到学习模块中,以训练所述学习模块识别所述对象的所述组件,所述训练基于每个图像输入中的所述对象的整体对象分数、所述对象的每个组件的对象分数、所述对象的姿势以及所述对象的每个组件的姿势;
将附加图像输入到所述训练后的学习模块中;
响应于输入到所述训练后的学习模块,检测到所述附加图像具有所述对象在所述附加图像中的一个或多个组件;
响应于检测所述一个或多个组件,识别所述对象并估计所述对象在所述附加图像中的姿势信息和/或构建所述对象在所述附加图像中的完整视图或所述对象的完整草图;
训练所述学习模块包括:将生成为所述标记数据与物体集的计算数据之间的偏差之和的成本函数最小化,所述物体集包括所述整体对象分数、所述组件的所述对象分数、所述对象的姿势以及所述组件的所述姿势。
11.根据权利要求10所述的计算机实现方法,其特征在于,将所述图像中的所述对象分解成组件包括:使用用户界面提供用户输入以将所述对象分解成所述组件。
12.根据权利要求11所述的计算机实现方法,其特征在于,提供用户输入以将所述对象分解成组件包括:使用动作集中的一个或多个动作,所述动作集包括使用启发性方法来分解所述对象,使用生成或匹配的现有分解候选中的最佳匹配的猜测,以及手动分解数个典型示例。
13.根据权利要求10所述的计算机实现方法,其特征在于,所述学习模块是深度神经网络。
14.根据权利要求13所述的计算机实现方法,其特征在于,训练所述深度神经网络包括:
将所述图像和相关标记数据输入到多个卷积层i的第一卷积层,i=1……n–1、n,按顺序排列,使得到达每个卷积层的输入包括该顺序中从卷积层2开始的前一个卷积层的输出,卷积层1作为所述第一卷积层;
从卷积层n–1的输出中生成每个组件的区域提议;
从卷积层n的输出中生成整个对象的区域提议;
使用每个组件的所述区域提议、所述卷积层n–1和所述卷积层n的所述输出以及所述整个对象的所述区域提议执行感兴趣区域池化。
15.根据权利要求10所述的计算机实现方法,其特征在于,获取所述多个图像包括获取所述对象的全局外观、所述对象的局部外观、所述对象的方向变化或所述对象的外观变化中的一个或多个。
16.根据权利要求10所述的计算机实现方法,其特征在于,获取所述多个图像包括:使用训练图像中对象的局部外观来创建所述对象的所述训练图像,以及使用从创建所述训练图像得到的姿势信息来标记所述训练图像,或者基于从执行对象模板匹配得到的变形描述符,使用姿势信息来标记所述训练图像。
17.根据权利要求10所述的计算机实现方法,其特征在于,构建所述完整视图包括:使对象模板与具有局部外观的检测对象之间具有对应关系。
18.根据权利要求10所述的计算机实现方法,其特征在于,构建所述完整视图包括:将从检测到所述附加图像具有所述对象在所述附加图像中的一个或多个组件得到的姿势信息及作为输入的所述附加图像输入到生成式对抗网络中以构建所述对象的全局外观。
CN201880049697.8A 2017-07-06 2018-06-22 有局部外观的对象的识别与重构 Active CN110998604B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/643,453 2017-07-06
US15/643,453 US10460470B2 (en) 2017-07-06 2017-07-06 Recognition and reconstruction of objects with partial appearance
PCT/CN2018/092376 WO2019007214A1 (en) 2017-07-06 2018-06-22 RECONNAISSANCE AND RECONSTRUCTION OF OBJECTS HAVING A PARTIAL APPEARANCE

Publications (2)

Publication Number Publication Date
CN110998604A CN110998604A (zh) 2020-04-10
CN110998604B true CN110998604B (zh) 2023-10-24

Family

ID=64903300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880049697.8A Active CN110998604B (zh) 2017-07-06 2018-06-22 有局部外观的对象的识别与重构

Country Status (3)

Country Link
US (1) US10460470B2 (zh)
CN (1) CN110998604B (zh)
WO (1) WO2019007214A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783640B2 (en) * 2017-10-30 2020-09-22 Beijing Keya Medical Technology Co., Ltd. Systems and methods for image segmentation using a scalable and compact convolutional neural network
EP3726462A4 (en) * 2017-12-14 2020-12-23 NEC Corporation IDENTIFICATION DEVICE, IDENTIFICATION METHOD AND STORAGE MEDIUM
US10885659B2 (en) * 2018-01-15 2021-01-05 Samsung Electronics Co., Ltd. Object pose estimating method and apparatus
TWI682359B (zh) * 2018-01-29 2020-01-11 國立清華大學 影像補全方法
US11562171B2 (en) 2018-12-21 2023-01-24 Osaro Instance segmentation by instance label factorization
US10540798B1 (en) * 2019-01-10 2020-01-21 Capital One Services, Llc Methods and arrangements to create images
US10423860B1 (en) * 2019-01-22 2019-09-24 StradVision, Inc. Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US10387752B1 (en) * 2019-01-22 2019-08-20 StradVision, Inc. Learning method and learning device for object detector with hardware optimization based on CNN for detection at distance or military purpose using image concatenation, and testing method and testing device using the same
US10430691B1 (en) * 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
US10387754B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
US10402695B1 (en) * 2019-01-23 2019-09-03 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
JP7462386B2 (ja) * 2019-06-14 2024-04-05 株式会社シマノ 検出装置、検出方法、生成方法、コンピュータプログラムおよび記憶媒体
JP7514063B2 (ja) * 2019-06-14 2024-07-10 株式会社シマノ 検出装置、検出方法、コンピュータプログラム、および記憶媒体
CN110263753B (zh) * 2019-06-28 2020-12-22 北京海益同展信息科技有限公司 一种对象统计方法和装置
CN110287907B (zh) * 2019-06-28 2020-11-03 北京海益同展信息科技有限公司 一种对象检测方法和装置
WO2021084590A1 (ja) * 2019-10-28 2021-05-06 富士通株式会社 学習方法、学習プログラム、および学習装置
CN111401192B (zh) * 2020-03-10 2023-07-18 深圳市腾讯计算机系统有限公司 基于人工智能的模型训练方法和相关装置
CN112270297B (zh) * 2020-11-13 2024-05-31 杭州睿琪软件有限公司 用于显示识别结果的方法和计算机系统
CN112508830B (zh) * 2020-11-30 2023-10-13 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、设备及存储介质
DE102021200615A1 (de) 2021-01-25 2022-07-28 Robert Bosch Gesellschaft mit beschränkter Haftung Training für Objektdetektoren mit verbesserter Ausnutzung des vorhandenen Vorwissens
CN114820993A (zh) * 2021-01-29 2022-07-29 伊姆西Ip控股有限责任公司 用于处理图像的方法、电子设备和计算机程序产品
US20230004760A1 (en) * 2021-06-28 2023-01-05 Nvidia Corporation Training object detection systems with generated images
KR102390004B1 (ko) * 2021-09-16 2022-04-25 라이트브라더스 주식회사 스케일 변화량 분석 기반의 자전거 비파괴 검사 장치, 방법, 및 컴퓨터 판독 가능한 기록 매체

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658091B1 (en) * 2002-02-01 2003-12-02 @Security Broadband Corp. LIfestyle multimedia security system
CN101363715A (zh) * 2008-09-26 2009-02-11 浙江大学 基于激光跟踪仪的飞机机身姿态计算方法
CN105631398A (zh) * 2014-11-24 2016-06-01 三星电子株式会社 识别对象的方法和设备以及训练识别器的方法和设备
CN106910206A (zh) * 2017-01-17 2017-06-30 邢惠钧 一种目标跟踪方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE528724T1 (de) * 2002-08-30 2011-10-15 Mvtec Software Gmbh Auf hierarchischen gliedern basierte erkennung von gegenständen
US20140321756A9 (en) * 2008-05-27 2014-10-30 Samsung Electronics Co., Ltd. System and method for circling detection based on object trajectory
US8532390B2 (en) * 2010-07-28 2013-09-10 International Business Machines Corporation Semantic parsing of objects in video
US9600745B2 (en) * 2011-03-17 2017-03-21 Nec Corporation Image recognition system, image recognition method, and non-transitory computer readable medium storing image recognition program
US8811726B2 (en) * 2011-06-02 2014-08-19 Kriegman-Belhumeur Vision Technologies, Llc Method and system for localizing parts of an object in an image for computer vision applications
US9076065B1 (en) 2012-01-26 2015-07-07 Google Inc. Detecting objects in images
CN102915453B (zh) 2012-08-30 2015-07-01 华南理工大学 一种实时反馈更新的车辆检测方法
CN104200236B (zh) 2014-08-22 2018-10-26 浙江生辉照明有限公司 基于dpm的快速目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658091B1 (en) * 2002-02-01 2003-12-02 @Security Broadband Corp. LIfestyle multimedia security system
CN101363715A (zh) * 2008-09-26 2009-02-11 浙江大学 基于激光跟踪仪的飞机机身姿态计算方法
CN105631398A (zh) * 2014-11-24 2016-06-01 三星电子株式会社 识别对象的方法和设备以及训练识别器的方法和设备
CN106910206A (zh) * 2017-01-17 2017-06-30 邢惠钧 一种目标跟踪方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Anuj Mohan等.Example-based object detection in images by components.《IEEE Transactions on Pattern Analysis and Machine Intelligence》.2001,第23卷(第23期),第349-361页. *

Also Published As

Publication number Publication date
US20190012802A1 (en) 2019-01-10
US10460470B2 (en) 2019-10-29
WO2019007214A1 (en) 2019-01-10
CN110998604A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110998604B (zh) 有局部外观的对象的识别与重构
US10902616B2 (en) Scene embedding for visual navigation
US11379287B2 (en) System and method for error detection and correction in virtual reality and augmented reality environments
US11941719B2 (en) Learning robotic tasks using one or more neural networks
JP6761551B2 (ja) 1つ以上の慣性センサからの向き情報を補正する装置および方法
US20220004935A1 (en) Ensemble learning for deep feature defect detection
CN111898635A (zh) 神经网络的训练方法、数据获取方法和装置
US20180181860A1 (en) Deriving movement behaviour from sensor data
CN113056743A (zh) 训练神经网络以用于车辆重新识别
KR102697345B1 (ko) 감정 정보 획득을 위한 전자 장치 및 방법
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN103310188A (zh) 用于姿态识别的方法和设备
CN105051755A (zh) 用于姿势识别的部位和状态检测
KR20200071990A (ko) 전자 장치 및 그의 3d 이미지 표시 방법
US11580453B2 (en) Adaptive co-distillation model
US11386288B2 (en) Movement state recognition model training device, movement state recognition device, methods and programs therefor
CN112633463A (zh) 用于建模序列数据中长期依赖性的双重递归神经网络架构
CN114140841A (zh) 点云数据的处理方法、神经网络的训练方法以及相关设备
WO2021079233A1 (en) New framework for few-shot temporal action localization
Omidshafiei et al. Hierarchical bayesian noise inference for robust real-time probabilistic object classification
US11574468B2 (en) Simulation-based learning of driver interactions through a vehicle window
CN114842248B (zh) 基于因果关联挖掘模型的场景图生成方法及系统
US12112622B2 (en) Systems and methods for heterogeneous multi-agent multi-modal trajectory prediction with evolving interaction graphs
KR102238271B1 (ko) 저사양 실시간 동작을 위한 경량 다층 랜덤 포레스트 분류기 및 이를 이용한 분류 방법
CN118015709B (zh) 一种基于多模态图神经网络的动作识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant