CN1838150A - 学习判别模型的概率推进树架构 - Google Patents

学习判别模型的概率推进树架构 Download PDF

Info

Publication number
CN1838150A
CN1838150A CNA2006100747424A CN200610074742A CN1838150A CN 1838150 A CN1838150 A CN 1838150A CN A2006100747424 A CNA2006100747424 A CN A2006100747424A CN 200610074742 A CN200610074742 A CN 200610074742A CN 1838150 A CN1838150 A CN 1838150A
Authority
CN
China
Prior art keywords
tree
probability
anatomical structure
image
bounding box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100747424A
Other languages
English (en)
Inventor
Z·屠
A·巴布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corporate Research Inc
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Publication of CN1838150A publication Critical patent/CN1838150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种用于计算两级和多级判别模型的概率推进树架构。在学习阶段中,概率推进树(PBT)自动构造树,在该树中,每个节点将多个弱分类器(例如,证据、知识)组合成强分类器或条件后验概率。通过分治法策略经由数据增量(例如,树扩展)使该PBT接近目标后验分布。在测试阶段中,根据学习过的分类器在每个树节点处计算条件概率,该学习过的分类器引导该树的子树中的概率传播。因此,树的顶部节点通过结合从其子树所收集的概率而输出总体后验概率。在训练阶段中,递归地构造树,在该树中,每个树节点是一个强分类器。根据学习过的分类器,输入训练集被划分成两个新集合、即左和右集合。然后每个集合被递归地用于训练左和右子树。

Description

学习判别模型的概率推进树架构
技术领域
本发明针对一种用于学习判别模型的概率推进树(probabilistic boostingtree)架构,并且更特别地,本发明针对一种用于计算两级和多级判别模型的概率推进树架构。
背景技术
本申请要求于2005年3月9日提交的序列号为60/660,136的美国临时申请的利益,该美国临时申请的全部内容被结合作为参考。
在自然景物中分类/识别、检测以及聚类一般对象的任务是极端复杂的。上述难题应归于多种原因:大的级内的变化和级间的相似性,清晰度和运动,不同的照明条件,定向/观察方向,以及不同对象的复杂构造。图1示出多幅不同的图像。图1的第一行102显示一些人脸图像。剩下的行104-110示出一些根据加利福尼亚理工学院(Caltech)的101种对象类别的典型图像。一些对象是高度非刚性的,而一些相同类别中的对象互相具有很少的相似性。针对分类任务,要求很高水平的知识,以将一级的不同实例置入该相同的类别中。
一般景物理解的问题能够从两个方面来观察:建模和计算。建模提出怎样学习/定义一般图案/对象的统计学的问题。计算解决该推理问题。假设x为图像样本并且其解释为y。理论上,针对图案获得生成式(generative)模型p(x|y),以测量关于任何样本x的统计学。遗憾的是,不仅该生成式模型经常超范围,而且这些生成式模型在计算阶段中还产生了大的计算负担。例如,人脸被认为是要研究的相对简单的类。然而,并不存在捕获人脸的所有变化、诸如多视图、阴影、表情、遮挡、以及发型的生成式模型。能够在图1的第一行102中看到一些样本人脸。可替换地,判别模型p(y|x)被直接学习,其中y只是说“是”或“否”的简单变量或类标记。
一种被称为AdaBoost的现有技术及其变型已经成功地被应用到视觉和机器学习的许多问题中。AdaBoost通过选择和将一组弱分类器组合成强分类器来接近后验的p(y|x)。然而,当前的AdaBoost方法存在几个问题。第一,虽然AdaBoost逐渐会聚到目标分布,但是需要挑选上百个弱分类器。这引起巨大的计算负担。第二,不保留在训练阶段中所拾取的特征的顺序。一组特征的顺序可以与高级语义一致,并且因此,理解对象/图案是非常重要的。第三,AdaBoost的再称量方案可使先前正确分类的样本再次被错误分类。第四,虽然已提出从两级到多级分类的扩展,但是利用输出编码学习多级情况下的弱分类器是更加困难的而且在计算上花费巨大。
结合AdaBoost与决策树的另一种公知方法一般被称为AdaTree。AdaTree方法的主要目的是通过修剪来加速AdaBoost方法。AdaTree方法通过将一组弱分类器组合到树结构中来学习强分类器,但其并没有提出多级分类。
存在多种用于处理对象分类和检测的方法。与AdaBoost一起使用的级联方法已表明在偶发事件检测中是有效的。该级联方法可被看作是本发明方法的特例。在该级联中,选取一阈值,以致全部正样本(positive sample)被压入树的右侧。然而,特别是当该正样本和负样本难以分离时,将正样本压入右侧会导致大的错误肯定率。本发明的方法自然地将该训练集分成两部分。在负样本比正样本多很多的情况下,大部分负样本成为接近顶部的叶节点。深处的树叶集中分类该难以分离的正样本和负样本。
决策树已被广泛用于视觉和人工智能。在传统的决策树中,每个节点是一个弱决策者,并且因此每个节点处的结果更加随机。相反,在本发明中,每个树节点是一个强决策者并且其学习分布q(x|y)。其他方法包括A*、生成式模型、EM以及语法和语义。需要一种在计算上不繁重的多级分类中使用的能够学习判别模型的架构。
发明内容
本发明针对一种用于定位图像中的对象的方法。构造一种概率推进树,在该概率推进树中,每个节点将多个弱分类器组合成强分类器或条件后验概率。接收包含要被定位的对象的至少一个输入图像。根据条件后验概率识别该输入图像中的边界框,该对象驻留在该边界框中。根据该对象实际驻留在该位置的似然性计算边界框的概率值。针对输入图像中的不同位置确定边界框和概率值。选择具有最高计算概率的边界框作为对象驻留在其中的位置。
本发明也针对一种用于检测图像中的对象的方法。构造一种概率推进树,在该概率推进树中,每个节点将多个弱分类器组合成强分类器或条件后验概率。接收至少一个输入图像。根据该条件后验概率来识别该至少一个输入图像中的边界框,该对象可驻留在该边界框中。根据该对象驻留在该图像中的似然性计算边界框的概率值。该概率与预定的阈值进行比较。如果该概率大于预定的阈值,则边界框被保留。针对输入图像中的不同位置确定边界框和概率值。如果至少一个边界框的概率大于预定的阈值,则关于该对象是否驻留在该图像中作出确定。
本发明还针对一种将对象的图像分类为不同的图像类别的方法。递归地构造一种概率推进树,在该概率推进树中,每个树节点是一个强分类器。在树的顶部获得判别模型,并且树的每一级包括一扩充变量。根据学习过的分类器将输入训练集分成两个新的集合。这两个新集合被递归地用于训练左右子树,以致以分层方式自动形成聚类。根据多个所形成的聚类输出适当数量的分类。
附图说明
下面将参考附图更详细地描述本发明的优选实施例,其中相同的参考编号表示相同的元件:
图1说明自然景物和普通对象的图像的例子;
图2是一种用于实现根据本发明的概率推进树的系统的框图;
图3概述一种用于训练根据本发明的推进树的方法;
图4说明一种根据本发明如何学习概率推进树以及如何划分训练样本的例子;
图5概述一种用于测试根据本发明的概率推进树的方法;
图6说明根据本发明的树的概率模型的例子;
图7概述一种用于训练根据本发明的多级概率推进树的方法;
图8说明根据本发明的四个对象图像在亮度和三个Gabor滤波结果方面的频率曲线(histogram);
图9说明来自根据本发明学习过的图像集以及聚类的一些样本图像;
图10说明根据本发明所形成的一些样本图像聚类;
图11说明根据本发明的来自心脏的输入视频以及最终的左心室检测的静止图像;
图12示出根据本发明的超声图像中的左心室定位的例子;
图13示出根据本发明的超声图像中的胎儿头部定位的例子;
图14示出根据本发明的超声图像中的胎儿腹部定位的例子;
图15示出根据本发明的超声图像中的胎儿股骨定位的例子;
图16示出根据本发明的计算层析图像中的直肠管检测的例子;
图17示出根据本发明的图16的直肠管的放大视图;以及
图18示出根据本发明的人脸检测的例子。
具体实施方式
本发明针对一种用于计算两级和多级判别模型的概率推进树架构。在学习阶段中,概率推进树(PBT)自动构造树,在该树中,每个节点将多个弱分类器(例如,证据、知识)组合成强分类器或条件后验概率。通过分治法策略经由数据增量(例如,树扩展)使该PBT接近该目标后验分布。
在测试阶段中,根据学习过的分类器在每个树节点处计算条件概率,该学习过的分类器引导该树的子树中的概率传播。因此,该树的顶部节点通过结合从其子树所收集的概率而输出总体后验概率。而且,在学习阶段中自然地嵌入聚类并且每个子树表示某一级的聚类。
在训练阶段中,递归地构造树,在该树中,每个树节点是一个强分类器。根据学习过的分类器将输入训练集划分成两个新集合(左集合和右集合)。然后每个集合被用于递归地训练左和右子树。通过数据增量,在树的顶部处获得的判别模型接近目标后验分布。该树的每一级是扩充变量。随着聚类以分层方式被自动发现和形成,在学习阶段中内在地嵌入聚类。
对于多级问题,目标是当保持分层树结构时学习判别模型。这是通过将多级公布问题(publication problem)处理为特殊的两级分类问题来实现的。在每个节点处,正或负标记被分配给每个级,以最小化总熵。通过这个过程,多级和两级学习过程变得统一了。再次直接形成了多级的聚类。
常规的AdaBoost方法及其变型通过组合一组弱分类器 H ( x ) = Σ t = 1 T α t h t ( x ) 来学习强分类器,其中ht(x)是弱分类器。总误差率ε=∑iwi[sign[H(xi)]≠yi]被示出由
ϵ ≤ 2 T Π t = 1 T ϵ t ( 1 - ϵ t ) - - - ( 1 )
来限定,其中wi是样本xi的概率。
当处理由复杂分布产生的xi时,εt迅速接近0.5,而会聚变慢。一种可能的补救在于设计更有效的弱分类器,这些弱分类器更擅长将正样本从负样本中分离出来。遗憾的是,获得好的弱分类器通常很难并且在计算这些分类器和特征时的计算复杂度仍然是另一个约束。AdaBoost中的一个关键思想是,被错误分类的样本接下来接收更多的权重。由于Dt的更新规则和标准化,以前正确分类的样本会被再次错误分类并且因此接收处罚。因此,多个步骤后,弱分类器变得无效。不是将所有的弱分类器一起置入单个强分类器中,而是使用分治法。
图2说明用于实现根据本发明的概率推进树架构的常规系统的框图。利用输入装置202、诸如照相机获得一幅或多幅图像。通过将PBT架构用于图像的处理器204来接收该图像。PBT架构能够被用于实现多个任务,如将在下文中更加详细描述的那样。例如,PBT架构能够被用于对象分类或对象检测。被存储在数据库206中的训练样本能够被用于学习和计算判别模型。该系统接受输入图像并输出分类结果。在两级问题的情况下,该输出不是正就是负。在多级问题中,图像所属的级是该输出。然后分类结果被显示在显示器208上。
图3概述用于训练根据本发明的推进树的方法。为了简化符号,通过每个学习过的AdaBoost方法计算的概率表示如下:
q ( + 1 | x ) = exp { 2 H ( x ) } 1 + exp { 2 H ( x ) } . q ( - 1 | x ) = exp { - 2 H ( x ) } 1 + exp { - 2 H ( x ) } . - - - ( 2 )
该算法是直观的。该算法递归地学习树。在每个节点处,利用标准推进算法来学习强分类器。然后利用学习过的分类器将训练样本划分成两个新的集合(左集合和右集合),然后这些集合分别用于训练左子树和右子树。在某种程度上,变量ε被用于控制过匹配(overfitting)问题。落在 [ 1 2 - ϵ , 1 2 + ϵ ] 范围内的那些样本是混淆样本并将被用在用于训练的左右子树中。如果 ϵ = 1 2 , 则根据该强分类器利用重新计算的权重使所有训练样本进入这两个子树。然后,PBT变得与推进相似。如果ε=0,则每个样本进入右或左树中。因此,如果没有相同的样本,则正和负样本几乎一定能被分离。但它可以过匹配数据。
如果训练集被分成两部分,则新的误差率是
Figure A20061007474200096
其中,
Figure A20061007474200097
可以直接看到,当Ht=H并且Hr=H时,等式成立。通常,减少输入样本的数量可以降低问题的复杂度,从而导致更好的判定边界。
在此模型下,正和负样本自然被划分为子组。图4示出怎样学习树以及怎样划分训练样本的例子。难以分类的样本被进一步向下传递,导致该树的扩充。自然执行正和负样本的聚类。一组用作另一组的辅助变量。由于每个树节点是强分类器,所以每个树节点能够利用复杂分布处理样本。而且,没有必要预先指定聚类的数量。根据不同的判别级别,该树的分层结构考虑聚类的报告。
如图4中所示,从2000个点的合成数据集402中创建PBT。弱分类器在特征方面、诸如到2D线的位置和距离是似然分类器。树的第一层404、406将整个集合划分成两个部分408、410。一个集合408主要具有黑点,因为这些点远离其余的云。树在正负样本缠结的部分扩展。从集合410进一步扩展层412-418,以更好地将黑点和亮点从该集合中分离出来。
测试阶段与训练阶段是一致的。图5提供了用于计算近似的后验概率的细节。在树的根部,收集来自后代的信息,并且报告总体近似后验分布。这种方法也能被转换为作出硬判决的分类器。在计算了q(+1|x)和q(-1|x)之后,通过比较q(+1|x)和q(-1|x)能够作出加入右或左子树的决定。然后,树的叶节点处所包含的经验分布
Figure A20061007474200102
被送回到树的根节点。然而,使用概率的优点是显著的。一旦PBT被训练, 就能被用作阈值,以平衡精度和查全率(recall)。
图6说明根据本发明的树的概率模型的例子。每个树节点602-612是一个强分类器。黑节点620-632表示叶节点。通过具有一组隐藏变量的生成过程产生复模式x。通过完成隐式数据增量,PBT能被看作具有相似方面。该学习方法的目的是学习后验分布p(y|x)。每个树层li是扩充变量。
p ~ ( y | x ) = Σ l 1 p ~ ( y | l 1 , x ) q ( l 1 | x )
= Σ l 1 , l 2 p ~ ( y | l 2 , l 1 , x ) q ( l 2 | l 1 , x ) q ( l 1 | x )
= Σ l 1 , . . . l n p ~ ( y | l n , . . . , l 1 , x ) , . . . , q ( l 2 | l 1 , x ) q ( l 1 | x ) - - - ( 4 )
在树节点处,如果精确模型被学习,那么
p ~ ( y | l i , . . . l 1 , x ) = Σ l i + 1 δ ( y = l i + 1 ) q ( l i + 1 | l i , . . . l 1 , x ) , - - - ( 5 )
这意味着,模型q(li+1|li,...l1,x)精确地预测y,并因此该树停止扩展。扩充变量li逐渐将y从x中分离出来,以作出更好的预测。
已经描述了一种两级推进树方法。用于多级分类的传统推进方法需要多级弱分类器,这些弱分类器学习和计算起来通常比两级弱分类器在计算上花费更多。当级的数目变大时,这尤其是个问题。有趣的是,图案的不同级在某些方面通常是互相类似的。例如,驴从远处看像马。
图7概述了用于训练根据本发明的多级推进树的方法。该方法首先找出将多级图案划分成2级的最佳特征,并且然后使用以前的两级推进树方法来学习该分类器。在很多实例中,在将多级转换成两级之后通过推进方法选择的第一特征通常是被选择用来分离多级的特征。直观地,所挑选的剩余特征/弱分类器支持第一特征,以作出较强的判决。因此,两级分类问题是多级分类问题的特例。根据该特征,相对于其他对象分组不同级的相似对象。由于树扩展继续,所以这些对象被逐渐聚类并被分离。当每一级已被成功分离或没有太多的训练样本时,扩展停止。
多级PBT的测试过程几乎与两级问题中的测试过程相同。此外,树的顶部节点结合来自其子树的所有概率,并输出总体后验概率。问题的尺度是相对级数(n)的O(log(n))。由于分层结构,该多级PBT在计算概率方面是非常有效的。当想要识别上百个或甚至上千个对象类(这是人类视觉系统每天处理的问题)时,这是很重要的。在最坏的情况下,每个树节点可被遍历。然而,实际上很少出现这种情况。
根据本发明,该多级概率推进树可被用于对象分类。现在将描述一例子。图8说明四个对象图像在亮度和三个Gabor滤波结果方面的频率曲线。所示的图像表示四个类别:盆景802、804,美洲狮身体806、808,美元钞票810、812,以及双桅船814、816。频率曲线被示出相对于平移和转换稳定并且具有良好的辨别能力。图像的不同滤波器的频响特性方面的频率曲线用作不同的提示,这些提示能被使用和组合以执行景物分析和对象识别。为了学习判别模型,为每个频率曲线h(s)计算高达第3阶力矩(moment),以利用快速计算的积分图像。
该目标是学习判别模型,以致在每个输入像斑的类别标记上输出后验分布。将每个对象图像的大小调整为80×80碎片。对于每个像斑,通过10个Gabor滤波器利用Canny边缘检测器在比例尺、边缘定向以及滤波结果这三方面计算该边缘映像。这些是像斑的提示图像。以不同位置为中心的、具有不同长宽比和尺寸的一千个矩形被置入80×80像斑中。特征是每个提示图像上的每个矩形的频率曲线的力矩。然后,多级PBT挑选并组合这些特征,形成分层分类器。
为了解释,在图像数据集中从整个80个类别中挑选29个出来。每个类别有41幅图像并且其中一些图像在图9中示出。以不同视图方向和照明捕获对象的图像。接着,从每个类别中随机挑选出25幅图像用于训练。图9示出学习后在推进树中所形成的样本图像902和聚类904。本发明的方法能够自动发现级内的相似性和级间的相似性以及不相似性。为了不在训练中挑选图像,测试识别/分类率。具有最高概率的识别/分类率被认为是正确的识别。下面的表1示出每个类别的剩余的16幅图像的识别率。平均识别率为76%。
表1
    苹果1   100%     杯子1     100%    西红柿3   100%   马1     94%
    梨10   94%     苹果4     94%    梨3   94%   梨9     94%
    杯子4   88%     牛1     88%    梨8   88%   狗2     81%
    车1   81%     梨1     81%    苹果3   75%   车9     75%
    西红柿1   75%     西红柿10     75%    马3   75%   杯子9     75%
    狗10   69%     狗1     69%    马8   69%   车11     56%
    车11   56%     牛2     50%    牛10   44%   马10     44%
    牛8   0.19
在下一个例子中,使用更复杂的图像集,该图像集被称为加利福尼亚理工学院(Caltech)的101种图像类别。图1中示出了一些典型的图像。不是处理原始图像,而是修剪所有的图像并将其大小调整到80×80。根据修剪过的图像执行学习和测试。接着,从每个类别中随机选择25幅图像用于训练。图10示出训练之后所形成的一些聚类。然而,由于复杂的对象类别,该聚类比上文所述的其他图像集合中的聚类稀疏。对于每个类别yj,计算频率曲线
h ( N ) = Σ i δ ( N - N ( x i ) ) - - - ( 6 )
其中N是叶节点而N(xi)是训练样本xi最后定位在其的叶节点。h(N)的熵告知树中每个类别的样本有多紧密。对于该类别中相互类似的对象,应形成紧密的聚类。具有大变化的对象在树中更分散。在下面所示出的表2中,类别名称后面的第三列给出了每个类别的熵测量结果。
表2
  对象   r1   r2     熵   对象   r1   r2
  旱冰鞋   100%   100%     0.39   加菲猫(garfield)   100%   100% 1.26
  太极图(Yinyang)   83%   83%     0.52   停车标志   66%   81% 1.09
  旋转器   63%   80%     1.16   节拍器   63%   75% 1.26
  美元钞票   61%   78%     0.80   摩托车   56%   75% 0.52
  .   .   .     .   .   .   . .
  乔舒亚树(joshua tree)   0%   19%     1.19   海狸   0%   25% 1.36
  椅子   0%   9%     1.75   野猫   0%   22% 1.56
  螃蟹   0%   0%     1.92   背景 2.82
像“太极图”的对象类别具有非常低的熵,并且不足为奇的是,背景类别具有最大的可变性和最高的熵。该熵测量结果没有精确指出,识别每个类别将会有多难。表2中示出该分类/识别结果。类别名称后的第一列(r1)是当判别模型输出其类别id作为具有最高概率的识别率时的识别率。r1的平均识别率是20%。随机猜测率大约为1%。第二列(r2)是当类别id在高达十种选择中时的分类率。r2的平均率为40%。
本发明能够被用于对象检测和分类。PBT对其有益的一些应用例子包括多视图人脸检测、左心室定位以及胎儿测量结果(例如,胎儿头部、腹部、以及股骨)。然后本发明能够进一步被用于分类所检测到的对象。例如,在左心室的情况下,左心室能够被分类为长的与圆的。在胎儿测量结果的情况下,能够从腹部测量结果中分离出头部测量结果。
在包含大约2000个对准的正样本和90000个负样本(所有样本尺寸相同)的训练集上训练PBT。负样本还包括正样本的移位复制品,用于更好地定位。图11说明一系列表示心脏的输入视频的静止图像1102以及最终的图像1104,在该最终的图像1104中根据本发明检测左心室。对于检测,利用从粗到精的策略在输入图像1102中在不同位置、以不同的旋转角度、以不同的比例尺以及以不同的长宽比查找左心室。每个查找的位置、旋转、比例尺以及长宽比与不一定水平的边界框相对应,左心室应该驻留在该边界框中。边界框的例子包括1106-1110。训练过的PBT将给出每个这样的框的概率,而具有最高概率的框被选作左心室的位置、尺寸以及定向。图12中示出了左心室1202的定位的例子。“+s”表示心内壁1204的位置。边界框1206表示左心室的位置。
相同的策略被用于来自超声数据的胎儿头部、腹部以及股骨的定位。图13-15示出了根据本发明定位胎儿头部1302、胎儿腹部1402以及股骨1502的例子。如同左心室的情况一样,利用从粗到精的策略在输入图像中在不同位置、以不同的旋转角度、以不同的比例尺以及以不同的长宽比来查找胎儿头部、腹部以及股骨。每个查找位置、旋转、比例尺以及长宽比与边界框相对应,该头部、腹部或股骨应该驻留在该边界框中。训练过的PBT将给出每个这样的框的概率,而具有最高优先级的框被选作头部、腹部或股骨的位置、尺寸以及定向。
PBT还能够被用于根据CT体数据检测直肠管。现在将参考图16和17描述一例子。根据斜率和曲率,轴旋转的一组7000个特征恒量被用于训练。该训练集包括大约20000个作为正样本的管段以及250000个负样本。
典型地,在3D数据中查找管子将包括查找管子的多个位置、3D方向以及尺寸,这在计算上是禁止的。相反,张量选举策略被用于建议候选管的3D位置、方向和半径。为每个候选管计算训练过的PBT分类器,并且其概率大于阈值的那些管子被选作如图16和17中的管子1602和1702所示的被检测管。
如上文所指出的那样,本发明还能够被用于多视图人脸检测。训练过的PBT提供不同的面部视图的例子。图18示出在正面和侧面图像集上测试的面部检测结果的一些例子。
已描述了用于利用概率推进树架构计算多级判别模型的方法的实施例,需要注意的是,根据上述教导,本领域技术人员能够作出修改和变更。因此能够理解的是,可以在如由所附的权利要求所定义的本发明的范围和精神内所公开的本发明的特定的实施例中作出改变。因此已利用专利法所要求的详细描述和特性描述了本发明,专利证书所保护的任何要求和希望在所附的权利要求中被阐明。

Claims (33)

1.一种用于在图像中定位对象的方法,其包括以下步骤:
a).构造概率推进树,在该概率推进树中,每个节点将多个弱分类器组合成强分类器或条件后验概率;
b).接收包含要被定位的对象的至少一个输入图像;
c).根据该条件后验概率识别该输入图像中的边界框,该对象应驻留在该边界框中;
d).根据该对象实际驻留在该位置的似然性计算该边界框的概率值;
e).在输入图像中的不同位置重复步骤c).-d).;以及
f).选择具有最高计算概率的边界框作为对象驻留的位置。
2.如权利要求1所述的方法,其中步骤e).进一步包括以下步骤:
在所述图像中在不同旋转位置处查找所述至少一个输入图像;以及
在所述图像中以不同长宽比处查找所述至少一个输入图像。
3.如权利要求1所述的方法,其中所述弱分类器表示所述对象的特征。
4.如权利要求1所述的方法,其中所述对象是解剖学结构。
5.如权利要求4所述的方法,其中所述解剖学结构是左心室。
6.如权利要求4所述的方法,其中所述解剖学结构是胎儿头部。
7.如权利要求4所述的方法,其中所述解剖学结构是胎儿腹部。
8.如权利要求4所述的方法,其中所述解剖学结构是胎儿股骨。
9.如权利要求4所述的方法,其中所述解剖学结构是人脸。
10.如权利要求4所述的方法,其中所述解剖学结构是直肠管。
11.一种用于检测图像中的对象的方法,其包括以下步骤:
a).构造概率推进树,在该概率推进树中,每个节点将多个弱分类器组合成强分类器或条件后验概率;
b).接收至少一个输入图像;
c).根据该条件后验概率在该至少一个输入图像中识别边界框,该对象可驻留在该边界框中;
d).根据该对象驻留在该图像中的似然性计算该边界框的概率值;
e).将该概率与预定的阈值进行比较;
f).如果该概率大于该预定的阈值,则保留该边界框;
g).在图像中的不同位置处重复步骤c).-f).;以及
h).如果至少一个边界框的概率大于该预定的阈值,则确定该对象驻留在该图像中。
12.如权利要求11所述的方法,其中步骤g).进一步包括以下步骤:
在所述图像中在不同旋转位置处查找所述至少一个输入图像;
在所述图像中以不同长宽比处查找所述至少一个输入图像。
13.如权利要求12所述的方法,其中所述查找以从粗到精的方式来执行。
14.如权利要求11所述的方法,其中所述弱分类器表示所述对象的特征。
15.如权利要求11所述的方法,其中所述对象是解剖学结构。
16.如权利要求15所述的方法,其中所述解剖学结构是左心室。
17.如权利要求15所述的方法,其中所述解剖学结构是胎儿头部。
18.如权利要求15所述的方法,其中所述解剖学结构是胎儿腹部。
19.如权利要求15所述的方法,其中所述解剖学结构是胎儿股骨。
20.如权利要求15所述的方法,其中所述解剖学结构是人脸。
21.如权利要求15所述的方法,其中所述解剖学结构是直肠管。
22.一种将对象的图像分类成不同图像类别的方法,其包括以下步骤:
递归地构造概率推进树,在该概率推进树中,每个树节点是一个强分类器,在该树的顶部获得判别模型并且该树的每一层包括扩充变量;
根据学习过的分类器将输入训练集划分成两个新集合;
递归地利用所述两个新集合来训练左和右子树,其中以分层方式自动形成聚类;以及
根据多个所形成的聚类输出适当数目的分类。
23.如权利要求22所述的方法,其中所述概率树解决了两级问题。
24.如权利要求22所述的方法,其中输出适当数目的分类的步骤包括正级(positive class)和负级(negative class)。
25.如权利要求22所述的方法,其中所述概率树解决了多级问题。
26.如权利要求25所述的方法,其中输出适当数目的分类的步骤包括多个类别。
27.如权利要求22所述的方法,其中所述对象是解剖学结构。
28.如权利要求27所述的方法,其中所述解剖学结构是左心室。
29.如权利要求27所述的方法,其中所述解剖学结构是胎儿头部。
30.如权利要求27所述的方法,其中所述解剖学结构是胎儿腹部。
31.如权利要求27所述的方法,其中所述解剖学结构是胎儿股骨。
32.如权利要求27所述的方法,其中所述解剖学结构是人脸。
33.如权利要求27所述的方法,其中所述解剖学结构是直肠管。
CNA2006100747424A 2005-03-09 2006-03-09 学习判别模型的概率推进树架构 Pending CN1838150A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US66013605P 2005-03-09 2005-03-09
US60/660136 2005-03-09
US11/366722 2006-03-02

Publications (1)

Publication Number Publication Date
CN1838150A true CN1838150A (zh) 2006-09-27

Family

ID=37015541

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100747424A Pending CN1838150A (zh) 2005-03-09 2006-03-09 学习判别模型的概率推进树架构

Country Status (1)

Country Link
CN (1) CN1838150A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105683944A (zh) * 2013-11-04 2016-06-15 谷歌公司 用于机器学习架构中的分层训练的系统和方法
CN108496185A (zh) * 2016-01-18 2018-09-04 北京市商汤科技开发有限公司 用于对象检测的系统和方法
CN108694721A (zh) * 2017-04-04 2018-10-23 通用电气公司 光流确定系统
CN110309888A (zh) * 2019-07-11 2019-10-08 南京邮电大学 一种基于分层多任务学习的图像分类方法与系统
CN111295671A (zh) * 2017-09-29 2020-06-16 索尼互动娱乐股份有限公司 自主个人伴侣的模块化层次结构视觉系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105683944A (zh) * 2013-11-04 2016-06-15 谷歌公司 用于机器学习架构中的分层训练的系统和方法
CN105683944B (zh) * 2013-11-04 2019-08-09 谷歌有限责任公司 用于机器学习架构中的分层训练的方法、设备和介质
CN108496185A (zh) * 2016-01-18 2018-09-04 北京市商汤科技开发有限公司 用于对象检测的系统和方法
CN108496185B (zh) * 2016-01-18 2022-09-16 北京市商汤科技开发有限公司 用于对象检测的系统和方法
CN108694721A (zh) * 2017-04-04 2018-10-23 通用电气公司 光流确定系统
CN111295671A (zh) * 2017-09-29 2020-06-16 索尼互动娱乐股份有限公司 自主个人伴侣的模块化层次结构视觉系统
CN110309888A (zh) * 2019-07-11 2019-10-08 南京邮电大学 一种基于分层多任务学习的图像分类方法与系统

Similar Documents

Publication Publication Date Title
US7702596B2 (en) Probabilistic boosting tree framework for learning discriminative models
CN109117864B (zh) 基于异构特征融合的冠心病风险预测方法、模型及系统
Chouhan et al. Soft computing approaches for image segmentation: a survey
Acharya et al. TallyQA: Answering complex counting questions
CN110084318B (zh) 一种结合卷积神经网络和梯度提升树的图像识别方法
CN109902736A (zh) 一种基于自动编码器构建特征表示的肺结节图像分类方法
CN111832608B (zh) 一种基于单阶段检测模型yolov3的铁谱图像多磨粒识别方法
CN108197538A (zh) 一种基于局部特征和深度学习的卡口车辆检索系统及方法
CN104809469A (zh) 一种面向服务机器人的室内场景图像分类方法
CN106845528A (zh) 一种基于K‑means与深度学习的图像分类算法
CN111488917A (zh) 一种基于增量学习的垃圾图像细粒度分类方法
CN112734764A (zh) 一种基于对抗网络的无监督医学图像分割方法
CN106778501A (zh) 基于压缩跟踪与ihdr增量学习的视频人脸在线识别方法
CN111524140B (zh) 基于cnn和随机森林法的医学图像语义分割方法
CN109858518A (zh) 一种基于MapReduce的大型数据集聚类方法
CN1838150A (zh) 学习判别模型的概率推进树架构
CN107577994A (zh) 一种基于深度学习的行人、车辆附属品识别及检索方法
CN1873661A (zh) 一种遥感影像的人工免疫非监督分类方法
Al Mamun et al. Tlnet: A deep cnn model for prediction of tomato leaf diseases
AU2022400601A1 (en) Skin lesion classification system and method
CN111797267A (zh) 一种医学图像检索方法及系统、电子设备、存储介质
Tong et al. Pulmonary nodule detection based on isodata-improved faster rcnn and 3d-cnn with focal loss
Sultana et al. Comparison of four transfer learning and hybrid cnn models on three types of lung cancer
CN116612339B (zh) 一种核性白内障图像分级模型的构建装置及分级装置
Bhat et al. Convolutional neural network approach for the classification and recognition of lung nodules

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication