CN108780575A - 用于检测突起对象的显著点的方法和装置 - Google Patents

用于检测突起对象的显著点的方法和装置 Download PDF

Info

Publication number
CN108780575A
CN108780575A CN201680077878.2A CN201680077878A CN108780575A CN 108780575 A CN108780575 A CN 108780575A CN 201680077878 A CN201680077878 A CN 201680077878A CN 108780575 A CN108780575 A CN 108780575A
Authority
CN
China
Prior art keywords
value
protrusion
central point
depth
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680077878.2A
Other languages
English (en)
Other versions
CN108780575B (zh
Inventor
霍强
Y·班
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108780575A publication Critical patent/CN108780575A/zh
Application granted granted Critical
Publication of CN108780575B publication Critical patent/CN108780575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/36Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20164Salient point detection; Corner detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Nonlinear Science (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种图像处理方法和装置(300),所述方法包括:获得突起对象的深度图像(210);选择所述深度图像中的位于围绕一像素的圆形上的多个测试点,该像素作为所述圆形的中心点;基于所述中心点的深度值和所选择的测试点中每个测试点的深度值之间的比较来计算所述中心点的突起值(240);以及通过使用所述深度图像中每个像素的所述突起值来确定所述突起对象的一个或多个显著点(250)。

Description

用于检测突起对象的显著点的方法和装置
背景技术
人类能够快速且准确地识别出场景中在视觉上值得注意的前景对象(称之为显著对象(salient objects)),并且能够自动地将注意力集中到这种感官上重要的区域。然而,这种基本的智能行为对于计算机视觉系统来说,当它们被要求识别图像中的显著对象时,仍然是一项挑战。在过去的几十年,针对这个任务已经尝试了很多方法。
目前,视觉显著性研究主要利用颜色差、梯度差以及灰度差来生成显著模型。这些显著模型主要致力于从背景场景中分割或分离出显著的目标,这通常被称为显著目标检测。这样的显著模型可以通过问题“场景中的显著目标在哪里”来解释。该显著对象检测通常依赖于关于对象属性和背景的一个假设,即,对象和它周围区域之间具有高的外观对比度。在外观对比度不高的情况下,通过这些显著模型提取的基于对比度的显著对象是不可靠的。
发明内容
提供以下的发明内容是为了简单地介绍一些概念,在后面的详细说明部分中将做进一步的描述。发明内容不是为了标识要求保护主题的关键特征或必要特征,也不是为了限定要求保护主题的范围。
根据说明书描述的主题的一个实施例,一种图像处理方法包括:获得突起对象(protuberant object)的深度图像;选择该深度图像中的位于围绕着一像素的圆形上的多个测试点,该像素作为所述圆形的中心点;基于所述中心点的深度值和所选择的测试点中每个测试点的深度值之间的比较来计算所述中心点的突起值;以及通过使用所述深度图像中每个像素的所述突起值来确定所述突起对象的一个或多个显著点。
根据该主题的一个实施例,一种图像处理装置包括:获得模块,被配置用于获得突起对象的深度图像;计算模块,被配置用于选择该深度图像中的位于围绕着一像素的圆形上的多个测试点,该像素作为所述圆形的中心点,以及基于所述中心点的深度值和所选择的测试点中每个测试点的深度值之间的比较来计算所述中心点的突起值;以及检测模块,被配置为通过使用所述深度图像中每个像素的所述突起值来检测所述突起对象的一个或多个显著点。
根据该主题的一个实施例,一种计算机系统包括一个或多个处理器以及存储有计算机可执行指令的存储器,所述指令当被执行时使得所述一个或多个处理器:获得突起对象的深度图像;选择该深度图像中的位于围绕着一像素的圆形上的多个测试点,该像素作为所述圆形的中心点;基于所述中心点的深度值和所选择的测试点中每个测试点的深度值之间的比较来计算所述中心点的突起值;以及通过使用所述深度图像中每个像素的所述突起值来确定所述突起对象的一个或多个显著点。
在该主题的各种实施例中,由于对象和它周围区域之间的外观对比度对检测结果的影响较小,所以检测的可靠性得到改进。
此外,实验结果显示了所述检测对于以下方面的鲁棒性:深度区域的旋转和等距变形、传感器的变化视角以及深度图像的低分辨率。
此外,所述检测的计算量能够大幅度降低,从而根据该主题的实施例能够实现各种应用,诸如移动设备、车辆等。
下面将详细描述该主题的各个方面和特征。参考下面结合附图的描述,该主题的其他目的和优点将变得更加明显并且易于理解。
附图说明
通过下面结合附图的详细描述,该主题的特征、本质和优点将变得更加明显,其中,在不同的附图中使用相同的参考标号表示相似或相同的元素。
图1示出了可以利用该主题的实施例的示例性环境10的框图;
图2示出了根据该主题的一个实施例的用于检测突起对象的方法的流程图;
图3A示出了四个像素被选为围绕中心点的圆形上的测试点的图;
图3B示出了八个像素被选为围绕中心点的圆形上的测试点的图;
图4A和图5A分别示出了中心点和测试点的深度值,以及图4B和图5B分别示出了当具有相同数目的过零时,从顶测试点开始顺时针方向获得的比较结果;
图6A和图7A分别示出了中心点和测试点的深度值,以及图6B和图7B分别示出了当具有相同数目的正比较结果时,从顶测试点开始顺时针方向获得的比较结果;
图8示出了不平坦表面上的示例性突起块;
图9示出了针对指尖在不同的指向状态下的突起值、接近值以及几何能量;
图10示出了根据该主题的一个实施例的用于检测突起对象的装置的框图;以及
图11示出了根据该主题的一个实施例的用于检测突起对象的计算机系统的框图。
DETAILED DESCRIPTION
将参考附图结合示例性实施例描述该主题,但是该主题不限于此,而是旨在涵盖落入所要求保护主题的实质和范围内的所有修改、等效和变型。描述的附图指示说明性的,而不是限制性的。在附图中,为了说明的目的,一些元素的尺寸被夸大,而没有按照比例绘制。
在本文中使用的术语中,术语“一”或“一个”表示“至少一个”,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”,术语“基于”表示“至少部分地基于”,术语“一个实施例”和“一实施例”表示“至少一个实施例”,术语“另一个实施例”表示“至少一个其他实施例”。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
图1示出了示例性环境10的框图,示例性环境10可以利用根据本文所描述主题的实施例的图像处理技术。应该理解,描述环境10的结构和功能仅仅是为了说明的目的,而不是对本文所描述主题的范围加以任何限制。
环境10可以包括传感器20、显示器30以及计算设备40。
传感器20可以用于获得深度图像。深度图像由像素组成,每个像素具有指示从特定点到场景中一点的距离的像素值(即,深度值),该特定点通常关联于用于感测深度信息的传感器。例如,传感器可以是商业上可获得的传感器,诸如Kinect和Dense Stereo中使用的传感器,其通常是低成本低分辨率的传感器。应该理解,只要通过传感器能够获得深度信息,可以采用任何类型的传感器20。此外,可以布置RGB摄像机以用于获得RGB图像,为了不混淆该主题的实施例的说明,在图1中没有示出RGB摄像机。
在一个场景中,用户可以通过例如指尖的指点或划写、或手的动作等,在空中与显示器30上显示的应用(例如,游戏、操作窗口等)互动。计算设备40通过利用根据该主题的实施例的图像处理技术,可以连续地检测指尖并且跟踪指尖的指点或划写。在另一个场景中,计算设备40通过利用根据该主题的实施例的图像处理技术,可以检测手并且跟踪手的动作。应该理解,根据该主题的实施例能够被检测的对象不限于指尖、手指或手。
图2是根据该主题的一个实施例的用于检测突起对象的方法的流程图。这里的突起对象指的是具有突起形状的对象。突起形状可以是例如手上的指尖,枪口,棒头,等等。
在方框210,可以获得突起对象的深度图像。例如,可以使用三维(3D)感测技术,例如通过传感器20,来获得深度图像。在一个场景中,在传感器20实时地捕获深度图像的同时获得该深度图像。在另一个场景中,可以从存储设备中获得深度图像,其中该存储设备中预先存储或缓存了深度图像。
所获得的深度图像可以是整个深度图像,也可以是整个图像中的感兴趣区域(ROI),即,部分深度图像。为了表述的简单,可以将整个或部分深度图像统称为深度图像。可以使用任何方法来设置ROI,只要选择了包含感兴趣对象(例如,手)的区域即可。
可以将深度图像中的一个像素选为圆形的中心点。如方框220所示,可以至少部分地基于该中心点的深度值dc来确定该圆形的半径r(dc)。中心点的深度值dc越小,半径r(dc)越大。在一个实施例中,可以通过预定方程将半径r(dc)确定为指数的和,如式(1)所示:
其中
dc表示中心像素的深度值,
r(dc)表示圆形的半径,
η,A,B,C,D是系数。
在一个实施例中,可以通过统计的方式预先确定这些系数,例如,在一个特定的实现中,η=0.05,A=242,B=0.6499,C=-0.00079,D=0.0011。应该理解的是,系数η,A,B,C,D不限于任何特定的值。能够根据局部区域相对于中心点的相对大小来调整圆形半径的系数值可以应用于实施例。例如,圆形的半径可以反比于中心点的深度值。中心点的深度值越大,局部区域相对于中心点的相对大小越小。
如方框230所示,可以在围绕中心点的圆形上选择数个测试点。应该理解,测试点的数目不限于任何特定的数目。在一个实施例中,如图3A和3B所示,深度图像可以包括六十四个像素。应该理解,该主题的实施例不限于深度图像中的像素的特定数量,深度图像中的像素的任何数量都是可应用的。图3A和3B中示出了选择像素点的例子。
在一个实施例中,如图3A所示,围绕中心点的圆形上的四个像素被选择作为测试点。位于圆形上的测试点中每个测试点具有深度值di(i=0,1,2,3)。如果用于生成深度图像的传感器得到正确的校准,则可以直接用物理单位(例如,米)给出深度值。并且在信号处理中,可以通过二进制位(例如,八个二进制位)来表示这些深度值中的每个深度值。
在另一个实施例中,如图3B所示,围绕中心点的圆形上的八个像素被选择作为测试点。位于圆形上的测试点中每个测试点具有深度值di(i=0,1,2,…,7)。如果用于生成深度图像的传感器得到正确的校准,则可以直接用物理单位(例如,米)给出深度值。
在另一个实施例中,如果一个测试点未在一个像素的中心上,例如,围绕中心点的圆形上的八个测试点中的一些点没有在相应像素的中心上,则相应像素的深度值可能不够准确来反映这样一个测试点的深度值。在这种情况下,可以通过相邻像素的深度值的插值来获得这样一个测试点的深度值。例如,这样一个测试点的深度值可以通过它的两个相邻像素或四个相邻像素的深度值的双线性插值来获得。
回到图2,在方框240中,在一个实施例中,基于中心点的深度值(dc)和所选择的八个测试点中每个测试点的深度值(d0,d1,…d7)之间的比较,来计算中心点的突起值fc。如果一个测试点的深度值di大于中心点的深度值dc,即Δd=di-dc>0,则生成正比较结果hi。与所选择的八个测试点相关联的正比较结果的数目被计数(即,累计)为Pc,如公式(2)到(4)所示。
hi=δ(di-dc) (2)
其中,n是所选择的测试点的数目。
中心点的突起值fc是正比较结果的数目Pc的函数。正比较结果的数目Pc越大,中心点的突起值fc越大。突起值fc描述了一个深度区域(例如,中心点)相较于它周围有多么突出,从而它可以指示一个对象从周围突起的程度。
在进一步的实施例中,可以提供过零的数目作为对象的突起程度的指示。从所选择的八个测试点中每个测试点的深度值di减去中心点的深度值dc。如果与一个测试点和它的下一个相邻测试点相关联的减法结果的符号发生反转,则产生一个过零si。与所选择的八个测试点相关联的过零的数目被计数为zc,如公式(5)到(7)所示。
其中,
rem(i,j)是i除以j得到的余数;
n是测试点的数目,在这个例子中n等于8。
突起值fc可以是过零的数目zc的函数。过零的数目zc越小,中心点的突起值fc越大。
在进一步的实施例中,突起值fc可以是正比较结果的数目Pc和过零的数目zc的函数。
公式(8)中所示的突起值fc描述了一个深度区域(例如,中心点)从它的周围上升了多少,所以它可以表示深度区域(例如,中心点)从它周围的突起显著的程度。利用两个参数,即,正比较结果的数目Pc和过零的数目zc,可以提供更高置信水平的突起值fc,来指示中心点的突起的程度。
图4A和图5A示出了中心点的深度值dc和测试点的深度值。图4B和图5B分别示出了从顶测试点开始顺时针方向获得的比较结果。可见,当具有相同数目的过零(例如,图4B和图5B所示的两个过零)时,正比较结果的数目越大,中心点的突起值越大。
图6A和图7A示出了中心点的深度值dc和测试点的深度值。图6B和图7B分别示出了从顶测试点开始顺时针方向获得的比较结果。可见,当具有相同数目的正比较结果(例如,图6B和图7B所示的五个正比较结果)时,过零的数目越小,中心点的突起值越大。
回到图2,在方框250,将深度图像中的每个像素(例如,图3B所示实施例中的六十四个像素中的每个像素)作为中心点,来基于该中心点的深度值(dc)和所选择的八个测试点中每个测试点深度值(d0,d1,…d7)来计算突起值fc。即,将深度图像中的每个像素映射到突起显著图(protuberant saliency map)中的突起值。基于突起显著图中的突起值,可以确定突起对象的一个或多个显著点,例如,手或手指中的指尖。换言之,如图8所示的一个实施例中说明的,该突起显著图可以使不平坦表面上的一个或多个突起块变得明显。通过计算深度图像中每个像素的突起值,可以确定突起对象的一个或多个显著点。突起对象的显著点检测具有实际的应用。例如,指尖检测是用于自然用户接口(NUI)的重要技术。
在进一步的实施例中,在方框260中,突起显著图中的一个像素的突起值(例如,fi)可以通过该像素的相应深度值(例如,深度图像中像素i的深度值di)来平衡。具体地,该平衡可以包括:将突起值(例如,fi)乘以正规化的深度值gi,其中gi=n(255-di),n(·)是正规化函数,用于将深度范围设置在0和255之间,0<di≤255。
在一个例子中,可以通过以下公式(9)和(10),通过反转和拉伸深度值di,来计算正规化的深度值gi
gi=n(255-di)其中0<di≤255 (9)
其中
di表示像素i的深度值,
gi表示像素i的正规化的深度值,
dth表示用于拉伸操作的阈值。
在一个例子中,可以将dth选为204,其允许5倍的拉伸。应该理解,dth不限于特定的值。
在一个例子中,深度值被正规化为0到255,值255表示深度图像中一个像素的最大深度值。应该理解,最大深度值dmax不限于255,并且取决于深度值的正规划范围,可以是其他的值。
可以将突起显著图表示为突起项Fc,其由多个突起值fi构成(Fc中的索引c表示深度图像中的像素i被认为是圆形的中心点,以用于计算突起值fi)。深度图像中的每个像素i的深度值可以通过函数n(·)被正规化,并且所有正规化的深度值可以构成一个接近度图(nearness map),表示为接近度项Gc(Gc中的索引c表示深度图像中的相应像素i被认为是圆形的中心点,以用于计算突起值fi)。突起项Fc和接近度项Gc都可以是矩阵。
如下面的公式(11)所示,突起项Fc中的每个突起值fi乘以与接近度项Gc中的相应像素相关联的正规化的深度值gi,以获得几何能量Ec。该几何能量由于考虑了突起和接近度,因此能够提供突起区域(例如,中心点)的改善的显著性指示。
Ec=│Fc·Gc│ (11)
基于上述用于获得几何能量Ec的公式,通过计算深度图像中的每个像素的几何能量值获得几何能量图(geometry energy map)。图9示出了指尖在不同的指向状态中的突起、接近度和几何能量。
在一个例子中,在几何能量图中具有最大几何能量的点可以被识别为突起对象的显著点,诸如指尖、枪口、棒头等。
还可以结合其他方法将几何能量图用于检测突起对象。例如,可以将基于回归的方法和基于分类的方法应用于几何能量图中的几何能量值(即,深度图中的每个像素的经平衡的突起值)。可以通过使用基于回归的方法或基于分类的方法,基于预先训练的模型在几何能量图中确定预定义的对象特征集,从而可以在几何能量图中检测出对应于该对象特征集的对象。例如,预先训练的模型可以对应于狗的嘴、耳和腿,鱼的嘴和鳍,手指,手,等。例如,手、或者手连同前臂可以被检测为突起对象。例如,手的一个或多个手指可以被检测为突起对象。基于回归的方法或基于分类的方法的例子可以包括随机蕨(Random Ferns)、随机决策森林(Random Decision Forests)、卷积神经网络(CNN,Convolutional NeuralNetwork)、支持向量机(SVM,Support Vector Machine)等。
用于检测突起对象的方法不限于以上描述的内容。本领域技术人员清楚,所要求保护主题的各种方面可以在不同于这些具体细节的其他例子中实施。
如上述实施例中所描述的,圆形的半径r(dc)是至少部分地基于中心点的深度值dc确定的,图框220中所示。
如图3A和图3B所示,测试点是对称地布置在圆形上的。在替换实施例中,也可以将测试点不对称地布置在圆形上。
虽然提供了一些公式作为例子,本领域技术人员可以理解,可以在不偏离该主题的实质的情况下修改这些公式。例如,可以根据下面的公式(12)代替上述公式(5)-(7)来计算过零的数目。
其中,h的定义参见上面实施例中描述的公式(2)和(3),n是测试点的数量;rem(i,j)是i除以j得到的余数。
进一步地,如上面实施例中所描述的,基于中心点的深度值(dc)和所选八个测试点中每个测试点的深度值(d0,d1,…d7)之间的比较来计算中心点的突起值fc。本领域技术人员应该理解,虽然与中心点相关的测试点是基于半径值选择的,但是该主题不限于此。在一个实施例中,可以利用粗到细策略来计算突起值fc,从而减轻深度噪声的影响。基于粗到细策略,关于一个中心点可以使用多个半径。例如,通过使用公式(1)确定了5个像素长度的半径后,可以使用两个额外的半径(分别是通过递增半径得到的6个像素长度和7个像素长度),来选择测试点以及计算中心点的相应突起值fc。应该理解的是,半径的数目不限于特定的数目,诸如3,并且递增量不限于特定的值,诸如1。在一个实施例中,可以使用三个半径来获得中心点的三个突起值,以及在三个计算的突起值中,可以将具有最高出现频率(即,一个值出现多少次)的突起值最终投票选为中心点的突起值。在另一个实施例中,可以将三个计算的突起值的平均值作为中心点的突起值。
本领域技术人员能够理解,上述用于检测突起对象的方法可以用于检测人手的一个或多个指尖、或一个或多个手指,可能检测人的双手的指尖或手指(例如,两只手被识别为两个对象)。甚至可以将上述方法应用于检测不同人手的指尖或手指,例如,不同的手被识别为不同的对象。
应该理解,上述方框中描述的元素可以通过硬件、软件或其组合的各种形式来实现。
图10示出了用于检测突起对象的示例性装置300。装置300可以包括获得模块310、计算模块320和检测模块330。装置300可以是图1所示的计算设备40的实施例,或者可以在计算设备40中实现。
获得模块310可以获得突起对象的深度图像。在一个场景中,获得模块310可以在传感器20捕获深度图像的同时实时地获得深度图像。在另一个场景中,获得模块310可以获得存储设备中存储的深度图像。计算模块320可以计算深度图像的每个像素的突起值和/或几何能量值。在一个实施例中,计算模块320可以通过参照图2的方框220、230、240中至少一个方框描述的操作来计算深度图像的每个像素的突起值。在另一个实施例中,计算模块320可以通过参照图2的方框220、230、240、260中至少一个方框描述的操作来计算深度图像的每个像素的几何能量值。检测模块330可以通过使用深度图像中每个像素的突起值或几何能量值来检测突起对象的一个或多个显著点。在一个实施例中,检测模块330可以选择具有一个或多个最大突起值或具有一个或多个最大几何能量值的一个或多个点作为一个或多个显著点。在另一个实施例中,检测模块330结合如上所述的诸如基于回归的方法或基于分类的方法的其他方法,根据深度图像的每个像素的突起值或几何能量值(例如,突起显著图或几何能量图)来检测突起对象。应该理解,获得模块310、计算模块320和检测模块330可以执行在该主题的各种实施例中描述的各个操作和功能。
获得模块310、计算模块320和检测模块330可以通过硬件、软件或其组合的各种形式来实现。在一个实施例中,这些模块可以通过一个或多个硬件逻辑组件来分别实现或作为整体实现。例如但不限于,可以使用的硬件逻辑组件的示例类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。在另一个实施例中,这些模块可以通过一个或多个软件模块实现,该软件模块可以由通用中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)等执行。
图11示出了用于检测突起对象的示例性计算机系统400。根据一个实施例,通用计算系统可以作为操作者控制器。该控制器可以包括一个或多个处理器410,处理器410执行在计算系统本地的或远程的计算机可读存储介质(即,存储器)420中存储或编码的一个或多个计算机可读指令(即,上述以软件形式实现的块中的元素)。该控制器中驻留的软件可以允许操作者控制该系统的操作。该装置还可以包括诸如显示器的输出设备430以及诸如键盘、鼠标、触摸屏等的输入设备440。
根据一个实施例,提供了一种诸如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的块中的元素),该指令当被机器执行时,使得机器执行根据该主题的各种实施例的方法。
根据本文描述的技术,根据中心点的深度值(dc)和所选八个测试点中每个测试点的深度值(d0,d1,…d7)之间的比较来计算中心点的突起值。即,仅基于深度图像来获得突起显著性。由于深度图像对于光照变化的鲁棒性,根据该主题的检测方法不依赖于对象和其周围区域之间的外观对比度。因此改善了检测方法和装置的可靠性。
进一步的,深度图像清楚地编码了突起对象的表面度量维度,在围绕中心点的圆形上布置测试点,该算法基于中心点的深度值和每个测试点的深度值之间的比较,凭借以上优势,在大的旋转和等距变形、传感器的视角变化、以及低分辨率深度信息的条件下,根据该主题的检测方法和装置给出了良好的性能。
由于仅使用单个通道来确定突起显著性(即,突起显著图中的突起值),与本领域其他方法(其使用诸如红(R)颜色通道、绿(G)颜色通道、蓝(B)颜色通道和深度(D)通道的不同通道),根据该主题的检测方法和装置能够实现快速计算。
随着显著对象检测的大范围的发展,根据该主题的检测方法和装置将许多领域中具有广泛的应用,诸如对象识别、图像大小变换、图像检索等领域。
应该注意,上面描述的技术方案是为了说明而不是限制该主题,并且本领域技术人员能够在不脱离所附权利要求范围的情况下设计出替换的技术方案。在权利要求中,括号中的任何参考符号不应被解释为限制权利要求。词语“包括”不排除权利要求中或说明书中没有列出的元素或步骤的存在。某个元素前的词语“一”或“一个”不排除多个这样的元素的存在。在包含若干单元的系统权利要求中,这些单元中的一些可以通过一个相同的软件和/或硬件实施。词语“第一”、“第二”、“第三”等的使用不表示任何排序。这些词语要被解释为名称。

Claims (20)

1.一种图像处理方法,包括:
获得突起对象的深度图像;
选择所述深度图像中的位于围绕一像素的圆形上的多个测试点,该像素作为所述圆形的中心点;
基于所述中心点的深度值和所选择的测试点中每个测试点的深度值之间的比较来计算所述中心点的突起值;以及
通过使用所述深度图像中每个像素的所述突起值来确定所述突起对象的一个或多个显著点。
2.如权利要求1所述的方法,其中,所述圆形的半径是至少部分地基于所述中心点的深度值确定的。
3.如权利要求1所述的方法,其中,所述测试点对称地位于所述圆形上。
4.如权利要求1所述的方法,所述计算包括:
计数与所选择的测试点相关联的正比较结果的数目,其中,如果一个测试点的深度值大于所述中心点的深度值,则产生一个正比较结果;
其中,所述正比较结果的数目越大,所述中心点的所述突起值越大。
5.如权利要求4所述的方法,所述计算还包括:
从所选择的测试点中每个测试点的深度值减去所述中心点的深度值;以及
计数与所选择的测试点相关联的过零的数目,其中,如果与一个测试点相关联的减法结果的符号不同于与其相邻测试点相关联的减法结果的符号,则产生一个过零;
其中,所述过零的数目越小,所述中心点的所述突起值越大。
6.如权利要求1所述的方法,其中,采用了两个或更多个半径的粗到细策略被应用于计算所述中心点的所述突起值。
7.如权利要求6所述的方法,其中,所述粗到细策略包括:将具有最高出现频率的所计算的突起值投票为所述中心点的突起值。
8.如权利要求6所述的方法,其中,所述粗到细策略包括:将所计算的突起值求平均,作为所述中心点的突起值。
9.如权利要求1所述的方法,还包括:
将所述深度图像中的每个像素的所述突起值利用该像素的相应深度值来进行平衡。
10.如权利要求9所述的方法,所述平衡包括:
正规化所述中心点的深度值;以及
将所述中心点的所述突起值乘以所述中心点的经正规化的深度值。
11.如权利要求9所述的方法,还包括:
对所述深度图像中每个像素的经平衡的突起值应用基于回归的方法或基于分类的方法。
12.如权利要求11所述的方法,其中,所述基于回归的方法或基于分类的方法包括以下方法中的一个:随机蕨、随机决策森林、卷积神经网络(CNN)、支持向量机(SVM)。
13.一种图像处理装置,包括:
获得模块,被配置为获得突起对象的深度图像;
计算模块,被配置为选择所述深度图像中的位于围绕一像素的圆形上的多个测试点,该像素作为所述圆形的中心点,以及基于所述中心点的深度值和所选择的测试点中每个测试点的深度值之间的比较来计算所述中心点的突起值;以及
检测模块,被配置为通过使用所述深度图像中每个像素的所述突起值来检测所述突起对象的一个或多个显著点。
14.如权利要求13所述的装置,其中,所述计算模块还配置为至少部分地基于所述中心点的深度值确定所述圆形的半径。
15.如权利要求13所述的装置,其中,所述计算模块还被配置为计数与所选择的测试点相关联的正比较结果的数目,其中,如果一个测试点的深度值大于所述中心点的深度值,则产生一个正比较结果;
其中,所述正比较结果的数目越大,所述中心点的所述突起值越大。
16.如权利要求15所述的装置,其中,所述计算模块还被配置为:
从所选择的测试点中每个测试点的深度值减去所述中心点的深度值;以及
计数与所选择的测试点相关联的过零的数目,其中,如果与一个测试点相关联的减法结果的符号不同于与其相邻测试点相关联的减法结果的符号,则产生一个过零,
其中,所述过零的数目越小,所述中心点的所述突起值越大。
17.如权利要求13所述的装置,其中,所述计算模块还被配置为:
将所述深度图像中的每个像素的所述突起值利用该像素的相应深度值来进行平衡。
18.如权利要求17所述的装置,其中,所述计算模块还被配置为通过以下操作来执行所述平衡:
正规化所述中心点的深度值;以及
将所述中心点的所述突起值乘以所述中心点的经正规化的深度值。
19.如权利要求17所述的装置,其中,所述检测模块还被配置为对所述深度图像中每个像素的经平衡的突起值应用基于回归的方法或基于分类的方法。
20.一种计算机系统,包括:
一个或多个处理器,以及
存储器,其存储计算机可执行指令,所述指令当被执行时使得所述一个或多个处理器:
获得突起对象的深度图像;
选择所述深度图像中的位于围绕一像素的圆形上的多个测试点,该像素作为所述圆形的中心点;
基于所述中心点的深度值和所选择的测试点中每个测试点的深度值之间的比较来计算所述中心点的突起值;以及
通过使用所述深度图像中每个像素的所述突起值来确定所述突起对象的一个或多个显著点。
CN201680077878.2A 2016-06-30 2016-06-30 用于检测突起对象的显著点的方法和装置 Active CN108780575B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/087989 WO2018000366A1 (en) 2016-06-30 2016-06-30 Method and apparatus for detecting a salient point of a protuberant object

Publications (2)

Publication Number Publication Date
CN108780575A true CN108780575A (zh) 2018-11-09
CN108780575B CN108780575B (zh) 2022-04-01

Family

ID=60785894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680077878.2A Active CN108780575B (zh) 2016-06-30 2016-06-30 用于检测突起对象的显著点的方法和装置

Country Status (4)

Country Link
US (1) US10867386B2 (zh)
EP (1) EP3479347B1 (zh)
CN (1) CN108780575B (zh)
WO (1) WO2018000366A1 (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737365A (zh) * 2011-03-22 2012-10-17 株式会社尼康 图像处理装置、摄像装置以及图像处理方法
US20120269384A1 (en) * 2011-04-19 2012-10-25 Jones Michael J Object Detection in Depth Images
WO2014013853A1 (en) * 2012-07-16 2014-01-23 Mitsubishi Electric Corporation Method and apparatus for extracting depth edges from a set of images and camera
CN103649998A (zh) * 2010-12-21 2014-03-19 Metaio有限公司 确定为确定照相机的姿态和/或为确定至少一个真实对象的三维结构而设计的参数集的方法
CN103907123A (zh) * 2011-09-30 2014-07-02 英特尔公司 深度图像中的人的头部的检测
CN104123540A (zh) * 2014-07-15 2014-10-29 北京天智航医疗科技股份有限公司 手术机器人定位标志点自动识别方法
US20150016679A1 (en) * 2012-01-12 2015-01-15 Panasonic Corporation Feature extraction device, feature extraction method, and feature extraction program
CN105580384A (zh) * 2013-09-27 2016-05-11 微软技术许可有限责任公司 触摸屏上显示的可操作内容
CN105590319A (zh) * 2015-12-18 2016-05-18 华南理工大学 一种深度学习的图像显著性区域检测方法
US20160165126A1 (en) * 2014-12-09 2016-06-09 Kabushiki Kaisha Toshiba Image processing device, imaging device, image processing method, and computer program product

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100951890B1 (ko) 2008-01-25 2010-04-12 성균관대학교산학협력단 상황 모니터링을 적용한 실시간 물체 인식 및 자세 추정 방법
US8121351B2 (en) 2008-03-09 2012-02-21 Microsoft International Holdings B.V. Identification of objects in a 3D video using non/over reflective clothing
CN102855634B (zh) * 2011-06-28 2017-03-22 中兴通讯股份有限公司 一种图像检测方法及装置
US8970479B1 (en) 2012-07-31 2015-03-03 Rawles Llc Hand gesture detection
EP2904776A1 (en) 2012-10-01 2015-08-12 Telefonaktiebolaget LM Ericsson (PUBL) 3d camera calibration
US20140204013A1 (en) 2013-01-18 2014-07-24 Microsoft Corporation Part and state detection for gesture recognition
CN103208115B (zh) 2013-03-01 2015-12-23 上海交通大学 基于测地线距离的图像显著性区域检测方法
KR101436369B1 (ko) * 2013-06-25 2014-09-11 중앙대학교 산학협력단 적응적 블록 분할을 이용한 다중 객체 검출 장치 및 방법
RU2014108820A (ru) 2014-03-06 2015-09-20 ЭлЭсАй Корпорейшн Процессор изображений, содержащий систему распознавания жестов с функциональными возможностями обнаружения и отслеживания пальцев
CN105556539A (zh) * 2014-05-16 2016-05-04 联发科技股份有限公司 检测兴趣区域的检测装置和方法
JP6546385B2 (ja) * 2014-10-02 2019-07-17 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
CN105654021B (zh) * 2014-11-12 2019-02-01 株式会社理光 检测人群对目标位置关注度的方法及设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103649998A (zh) * 2010-12-21 2014-03-19 Metaio有限公司 确定为确定照相机的姿态和/或为确定至少一个真实对象的三维结构而设计的参数集的方法
CN102737365A (zh) * 2011-03-22 2012-10-17 株式会社尼康 图像处理装置、摄像装置以及图像处理方法
US20120269384A1 (en) * 2011-04-19 2012-10-25 Jones Michael J Object Detection in Depth Images
CN103907123A (zh) * 2011-09-30 2014-07-02 英特尔公司 深度图像中的人的头部的检测
US20150016679A1 (en) * 2012-01-12 2015-01-15 Panasonic Corporation Feature extraction device, feature extraction method, and feature extraction program
WO2014013853A1 (en) * 2012-07-16 2014-01-23 Mitsubishi Electric Corporation Method and apparatus for extracting depth edges from a set of images and camera
CN105580384A (zh) * 2013-09-27 2016-05-11 微软技术许可有限责任公司 触摸屏上显示的可操作内容
CN104123540A (zh) * 2014-07-15 2014-10-29 北京天智航医疗科技股份有限公司 手术机器人定位标志点自动识别方法
US20160165126A1 (en) * 2014-12-09 2016-06-09 Kabushiki Kaisha Toshiba Image processing device, imaging device, image processing method, and computer program product
CN105590319A (zh) * 2015-12-18 2016-05-18 华南理工大学 一种深度学习的图像显著性区域检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DIEP H. NGUYEN等: "Nose tip detection from 3D facial mesh data using a rotationally invariant local shape descriptor", 《2012 5TH IAPR INTERNATIONAL CONFERENCE ON BIOMETRICS (ICB)》 *
HUI LIANG等: "3D Fingertip and Palm Tracking in Depth Image Sequences", 《PROCEEDINGS OF THE 20TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
KUNPENG LI等: "A New Fingertip Detection and Tracking Algorithm and Its Applicationon Writing-in-the-air System", 《THE 2014 7TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING》 *
汪婷 等: "基于立体视觉分析的显著性区域检测算法", 《电子测量与仪器学报》 *

Also Published As

Publication number Publication date
US10867386B2 (en) 2020-12-15
WO2018000366A1 (en) 2018-01-04
EP3479347A1 (en) 2019-05-08
CN108780575B (zh) 2022-04-01
EP3479347B1 (en) 2023-06-14
EP3479347A4 (en) 2020-03-04
US20190139222A1 (en) 2019-05-09

Similar Documents

Publication Publication Date Title
Ichnowski et al. Dex-nerf: Using a neural radiance field to grasp transparent objects
Rahim et al. Monitoring social distancing under various low light conditions with deep learning and a single motionless time of flight camera
Shotton et al. Real-time human pose recognition in parts from single depth images
CN104202547B (zh) 投影画面中提取目标物体的方法、投影互动方法及其系统
CN111192293B (zh) 一种运动目标位姿跟踪方法及装置
CA2949844A1 (en) System and method for identifying, analyzing, and reporting on players in a game from video
EP2903256B1 (en) Image processing device, image processing method and program
CN106296638A (zh) 显著性信息取得装置以及显著性信息取得方法
KR20150121179A (ko) 실시간 스테레오 정합
CN110162175A (zh) 基于视觉的触觉测量方法、装置、设备及存储介质
CN109598234A (zh) 关键点检测方法和装置
US10165168B2 (en) Model-based classification of ambiguous depth image data
WO2014200454A1 (en) Performing hand gesture recognition using 2d image data
CN104281835B (zh) 基于局部敏感的核稀疏表示的人脸识别方法
CN111881804B (zh) 基于联合训练的姿态估计模型训练方法、系统、介质及终端
CN109271999A (zh) 图像的处理方法、装置和计算机可读存储介质
CN104240264A (zh) 一种运动物体的高度检测方法和装置
WO2023155494A1 (zh) 图像检测及训练方法、相关装置、设备、介质和程序产品
US20180268522A1 (en) Electronic device with an upscaling processor and associated method
JP6017343B2 (ja) データベース生成装置、カメラ姿勢推定装置、データベース生成方法、カメラ姿勢推定方法、およびプログラム
CN105184815B (zh) 聚众事件检测方法及系统
CN108229281A (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN111652168B (zh) 基于人工智能的群体检测方法、装置、设备及存储介质
CN112883920A (zh) 基于点云深度学习的三维人脸扫描特征点检测方法和装置
CN110910497A (zh) 实现增强现实地图的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant