CN102592133A

CN102592133A - 使用概率推进树进行评估的方法和系统

Info

Publication number: CN102592133A
Application number: CN2011103725983A
Authority: CN
Inventors: N·伯克贝克; M·索夫卡; S·K·周
Original assignee: Siemens AG
Current assignee: Siemens AG; Siemens Healthineers AG
Priority date: 2010-09-22
Filing date: 2011-09-22
Publication date: 2012-07-18
Anticipated expiration: 2031-09-22
Also published as: US8860715B2; CN102592133B; US20120069003A1; EP2434435B1; EP2434435A3; EP2434435A2

Abstract

公开了一种评估概率推进树的方法和系统。在实施例中，在图形处理单元上接收输入数据。使用堆栈实现确定与该概率推进树的每个节点相关联的加权经验分布。将与每个节点相关联的该加权经验分布加到总的后验分布值中。

Description

使用概率推进树进行评估的方法和系统

本申请要求2010年9月22日提交的美国临时申请No.61/385,240和2010年12月20日提交的美国临时申请No.61/424,715的权益，其公开内容在此引入以供参考。本申请涉及2008年7月28日提交的，共同未决的美国系列申请No.12/180,696，以及2010年4月20日发布的美国专利No.7,702,596，和2008年10月9日提交的美国系列申请No.12/248,536。

技术领域

本申请涉及使用概率推进树进行的数据评估。

背景技术

辨别分类器通常是3D姿态检测例程中的瓶颈。基于树的分类器，例如概率推进树(PBT)和随机森林，是用于基于视觉的分类和对象检测的辨别模型。典型地，分类器在图像中的每个像素处被估算，这是效率很低的。PBT是使用强分类器在内部节点制造模糊决策的通用类型的决策树。通常地，使用PBT需要多个递归的调用，这减慢了对象检测。

使用分层的方法或者级联能够改善效率，但3D的医学应用和实时应用需要进一步提高效率。

发明内容

本发明提供了用于评估概率推进树的方法和系统。在实施例中，在图形处理单元上接收输入数据。使用堆栈实现确定与概率推进树的每个节点相关联的加权经验分布。将与每个节点相关联的加权经验分布加到总的后验分布值中。

在实施例中，通过使用堆栈实现确定与概率推进树的每个节点相关联的加权经验分布，以及将与每个节点相关联的加权经验分布加到总的后验分布值中，来确定概率推进树的后验分布。将概率推进树的根节点推入堆栈中，并且然后被确定是否经过左子树的节点或右子树的节点降落(descend)。

在实施例中，确定根节点的辨别分类器。基于满足某些条件的辨别分类器，降落左节点，右节点，或者根节点的左右节点。降落节点包括确定那个节点的辨别分类器。如果该辨别分类器是叶节点，就将该节点的加权经验分布加到总的后验值中。否则，将该节点推入到堆栈中并降落左节点，右节点或该节点的左右节点。

在实施例中，使用并行计算架构评估概率树。并行计算架构可以是统一计算设备架构(CUDA)。堆栈可以与并行运行的多个线程中的一个相关联。

在实施例中，公开了用于评估概率推进树的森林的方法和系统。在图形处理单元上接收输入数据。使用堆栈实现评估价多个概率推进树。生成基于多个概率推进树中的每一个的后验分布的组合后验分布。

通过参考下面的详细描述和附图，本发明的这些优点和其它优点对于本领域的普通技术人员而言将是显而易见的。

附图说明

图1示出了根据本发明的实施例，训练概率推进树(PBT)的方法；

图2示出了使用递归确定PBT节点的后验值的伪代码；

图3示出了根据本发明的实施例，使用堆栈实现确定PBT节点后验值的伪代码；

图4示出了根据本发明的实施例，确定概率推进树的节点的后验分布的方法；

图5示出了排列于纹理图像中的典型的PBT数据结构；

图6示出了根据本发明的实施例，评估PBT的典型的统一计算数据架构(CUDA)基于堆栈的实现；

图7示出了根据本发明的实施例，示出哈尔特征类型的典型立方体；

图8示出了根据本发明的实施例，直方图分类器和打包在纹理图像的单个栏中的特征数据；

图9示出了根据本发明的实施例，用于实现特征计算的典型CUDA算法；

图10示出了根据本发明的实施例，所使用的具体的可控特征表；

图11示出了根据本发明的实施例，在CUDA中可控特征评估的实现的算法：

图12示出了根据本发明的实施例，集成在现有软件库中的CUDA实现；

图13示出了根据本发明的实施例，用于评估概率推进树的森林的方法；

图14示出了根据本发明的实施例，示出当线程评估不同分类器时和当线程块评估不同分类器时的执行时间的图表；

图15示出了根据本发明的实施例，总的检测时间，中央处理单元(CPU)执行时间，和图形处理单元(GPU)的等待时间；

图16示出了根据本发明的实施例，对于小型体和中等体的加速比较；以及

图17是能够实现本发明的计算机的高层级框图。

具体实施方式

本发明关注评估概率推进树的方法和系统。在此描述本发明的实施例以给出对于评估概率推进树的方法的直观理解。数字图像通常由一个或多个对象(或形状)的数字表示构成。在此通常从识别和操纵对象的方面描述对象的数字表示。这种操纵是完成于计算机系统的存储器或其它电路/硬件中的虚拟操纵。因此，可以理解的是，可以在计算机系统中使用计算机系统中存储的数据来执行本发明的实施例。

图1示出了根据本发明实施例的用于训练概率推进树(PBT)的方法。图1更特别地描述了使用图形处理单元(GPU)对概率推进树的加速训练。

在步骤102，接收训练数据。训练数据可以被注解为包括图像的训练数据，该图像具有表示图像中对象的界标位置的注解。训练数据可以由具有表示图像中对象的界标位置的注解的图像组成。训练数据可以是医学图像数据，例如计算机层析成像(CT)，核磁共振成像(MRI)，X射线或超声波图像数据。

PBT对数据集的后验分布建立模型。在训练PBT中，目的是使得PBT能够用作对图像数据中的对象进行分类和检测的辨别模型。PBT是二进制决策树，具有在依赖于节点的强分类器的输出的树的每个内部节点处采用的模糊决策。通过使用加权分布来组合其子节点的后验值来确定任意给定单个节点的后验值。通过评估节点的强(已学习的)分类器，

来确定在确定过程中使用的权重。

每个节点N包含强分类器，

以及其叶节点的经验分布q_N(y)，其中y∈{-1，+1}，x是输入点。强分类器可以是使用问题具体特征的任意分类器。例如，可以使用AdaBoost分类器，其组合几个二进制的弱分类器以产生强估算。

在步骤104，训练数据被分类器分为第一数据集和第二数据集。划分训练数据的分类器是与PBT的顶层父节点相关联的强(已学习的)分类器。

在步骤106，训练第一子树和第二子树。第一数据集用于训练父节点的第一子树，并且第二数据集用于训练父节点的第二子树。使用特征矩阵训练PBT的每个节点处的分类器。

在训练PBT期间，使用一组正例和反例来构造PBT，这些正例和反例来源于不同的3D图像。PBT的每个节点包括强分类器，例如AdaBoost分类器，其可以被训练用于特定节点。计算特征矩阵(例如，对于每个输入样本评估每个可能的特征)，然后使用特征矩阵训练构成强分类器的每一个弱分类器。

使用特征矩阵，考虑每个特征如何作为分类器，通过使用贪心算法选择每一个弱分类器可以顺序地训练强分类器的弱分类器。在训练期间选择弱分类器的算法包括三个阶段。首先，必须计算特征界限。然后，特征值被映射到直方图区间(bin)中的每个样本。接着，递增直方图区间。然后用训练过的分类器对每个样本进行采样以计算误差。前面提到的所有步骤都可以在GPU上执行。对分类器的操作是独立的，所以每个弱分类器可以由不同的线程训练。特征矩阵的列索引了特征类型，而行索引了样本。每个线程处理单个列。

存储特征矩阵作为单独的分量浮点纹理。然后将输入分成最大宽度的若干纹理，并在块中处理。通过CUDA纹理限制，限定是最大宽度为32768/浮点的尺寸＝8192。特征数据停留在GPU上用于每个弱的训练分类器通行。对于每个通行，更新样本的权重。

返回到图1，在步骤108，基于每个节点的特征矩阵生成PBT的经过训练的后验分布模型。后验分布模型表示可以用于对象分类和对象检测的一组分类。来自PBT的后验分布模型的这组分类此后可以由检测器使用以执行图像数据上的检测。例如，经过训练的树能够用于在GPU上使用堆栈实现估算未见数据的后验概率，如同下面段落中更详细讨论的那样。

使用PBT进行评估的数据并行本质意味着利用GPU而不是中央处理单元(CPU)的计算能力是有益处的。因此，为了在GPU上实现PBT评估，在PBT的传统评估中使用的多个递归调用可以用基于堆栈的实现来代替。高速缓存的纹理存储器用于表示特征和树数据结构。由于GPU不支持递归调用，为了移除递归，基于堆栈的实现是必要的。

作为比较，图2示出了使用递归确定PBT节点的后验值的伪代码。图3示出了根据本发明的实施例，使用堆栈实现确定PBT节点的后验值的伪代码。

节点的后验概率被递归地计算作为子节点的后验概率的加权组合，参见参考数字204。这种组合的权重因子通过评估节点的强分类器来确定，参见参考数字202。递归终止于树的叶节点(即，没有子节点的节点)，其简单地返回它们的经验分布q_N(+1)。最终结果，或者每个节点的后验分布是子节点的加权经验分布的和，由参考数字206参考的结果所表示。给予任意节点的经验分布的总的权重是与从根到该节点的路径相关联的权重的乘积。

在图3中示出了使用堆栈实现的算法。如图3所示，堆栈保存将要遍历的节点的列表和它们各自的权重。当访问叶节点时，具有其权重的那个叶节点的经验分布被加到根节点的总的经验分布中，由参考数字302表示。

根节点和对应的权重首先被推入到堆栈中。随后顺序处理堆栈中的每个节点，由参考数字306表示。如果节点是叶节点，该节点的经验分布由对应的权重进行加权和累积于树的全部后验，如参考数字302所表示。如果特定节点具有子节点，那么带着权重将左叶子节点或右叶子节点放入到堆栈中，该权重是父节点的权重和依赖于父节点的强分类器的值的因子的乘积，如参考数字312所示。对没有被推入到堆栈上的子节点的经验分布进行加权，并将其累加到树的总的后验分布。权重与父节点的权重和在父节点上评估的强分类器的值是成比例的。所有这些乘积的和表示用于PBT的总的后验分布模型，如参考数字310表示。

图4示出了根据本发明的实施例，使用GPU的用于确定概率推进树的节点的后验分布的方法。

在步骤402，在GPU接收输入数据。输入数据可以是从图像获取设备处接收的2D图像或3D体积。3D体积是C形臂CT体积，计算机层析成像(CT)体积，核磁共振成像(MRI)体积等等。3D体积能够从图像获取设备，例如C形臂图像获取系统处接收，或者可以是之前存储的体积，其从计算机系统的内存或存储器，或一些其它计算机可读介质中载入。

在步骤404，使用堆栈实现确定与概率推进树的每个节点相关联的加权经验分布。使用带有堆栈实现的上述原理来确定后验概率

特别地，概率推进树的根节点是首先推入到堆栈上。然后确定是否通过左子树中的节点或通过右子树中的节点来向下降落PBT。

在确定是否向下降落节点中，首先确定根节点的辨别分类器。如果根节点的辨别分类器满足表示左节点必须被降落的第一条件，那么该方法进入到向下降落左子树中的左节点。如果根节点的辨别分类器满足表示右节点必须被降落的第二条件，那么该方法进入到向下降落左子树中的右节点。如果根节点的辨别分类器满足第三条件，那么该方法向下降落前面提到的左节点和前面提到的右节点。

在降落到节点之后，确定那个节点的辨别分类器。如果确定该节点是叶节点，那么将那个节点的加权经验分布加到总的后验分布值中。如果该节点满足第一条件，那么该节点将被推入到堆栈上，并且该节点的左子节点将被降落。如果该节点满足第二条件，那么该节点被推入到堆栈上，并且该节点的右子节点将被降落。如果该节点满足第三条件，那么该节点被推入到堆栈上，并且左和右子节点均被降落。

在步骤406，将概率推进树的每个节点的加权经验分布加到总的后验分布值中。总的后验分布表示能够在2D图像或3D体积中的对象或界标检测中使用的后验分布模型。

在有益的实施例中，上述的评估PBT的方法可以使用统一计算设备架构(CUDA)编程模型来实现。在CUDA编程模型中，并行问题被分解进入线程化块的网格中，每个块包含许多线程。块被分配给GPU的流式多处理器，其打破所述块并将其调度进入32个线程的组。在检测或分类中，线程块的网格将过度地是输入空间(例如，体积中的所有像素)，并且对于体积或不同方向/标度假设中的不同像素，每个线程将评估分类器。

编程模型揭露了存储器架构，其包括16kb的低等待时间的共享存储器(从相同块内的线程可以访问)，高等待时间的本地存储器(每个线程)，全局存储器(所有线程均可访问)，以及通过纹理存储器的高速缓存全局访问。设计哈当使用这些存储器类型的算法是提高效率的关键。

在GPU上实现评估概率推进树，几个线程将并行降落该树。因此，相邻的线程可以在不同区域中访问该树的数据结构，所以，在全局存储器中放置树结构可能会导致慢的非联合存储器访问。但是，由于树数据结构太大以至于完全不适合在16kb的共享存储器中，所以树数据结构可以被打包在纹理图像中。定位了节点的2D区域的2D位置索引，而不是节点指针，被置于纹理图像中。

例如，节点数据可以包含AdaBoost分类器，其包括几个弱分类器。每个节点包含简单阈值分类器或直方图分类器，基于单个特征做出其决策。因此，置于纹理图像中的PBT节点数据必须存储阿尔法(或加权)值的和，弱分类器的数量，以及用于每个分类器的数据。弱分类器被存储于纹理图像的相邻列中，每个列包含相关权重α_i。图5示出了在纹理图像中打包的典型的PBT数据结构。所有弱分类器沿着列502a-502g被布置，并且每个PBT节点存储对于它们的子节点的2D纹理坐标索引，由节点0的504a，节点1的504b和节点3的504c表示。

图6示出了使用图3所示的算法评估PBT的典型CUDA的基于堆栈的实现。

为了向PBT评估中引进新的特征类型，图6中所示的CUDA PBT评估函数由feature_func表示，其允许添加新的特征类型。3D样本盒信息和特征数据的2D纹理位置被传送给这个特征评估函数。

边缘空间学习(MSL)是用于执行对象定位的有效方法。在MSL中，用于相似性转换的大的九维搜索空间被分解为一系列从变换到全相似的较小搜索空间。在检测期间，在体积中的像素上评估辨别分类器以确定候选位置的小集合(例如，100-1000)。通过使用一系列假设方向和规模相似性对这些候选盒中的每一个进行评估来检测方向。聚集候选者的最终列表以获得单个的姿态估算。

可以使用将MSL扩展到多个结构检测的分层检测网络(HDN)。HDN将共同的多对象检测问题分解为具有用于对象预测的空间先验的序列检测。多结构的分层检测被分解为对每个结构进行位置，方向，规模检测的节点网络。空间依赖也被描述为这个检测网络中的弧线。

虽然MSL是有效的检测框架，但是主要的计算负担来自于每个检测阶段中对辨别分类器的评估。在位置检测中，分类器既可以通过在图像中的3D位置上循环来评估(如果节点没有祖先的话)，或也可以通过在由前面的节点所提供的候选位置集合上循环来评估。对于方向和规模检测，使用每个可能的方向(或规模)假设在每个输入候选位置上评估分类器。同样的分类器在不同的数据上被评估，这使得其对于GPU的数据并行能力而言是理想的检测算法。使用PBT 作为用于MSL的分类器，GPU加速实现是可能的。

在检测期间，使用围绕特定位置(和姿态)的上下文评估PBT树。在运行中可以从输入图像中计算特征。在MSL中，位置检测使用哈尔特征，并且随后的方向和规模检测使用有效的可控特征，其使用盒子的候选姿态对体积中的图像强度和梯度进行采样。

哈尔特征是图像立方体区域的和的加权组合。使用完整的图像有效地计算这些和。特征使用不超过四个立方体。图7说明了示出哈尔特征类型的典型立方体。立方体702指示负的权重。

给定位置的可能特征由这些盒子的各种转换和比例版本组成。每个可能的特征通过这些立方体(与测试点相关)的尺寸，重量和位置来描述。图8示出了直方图分类器和打包在纹理图像的单个列中的特征数据。列802用直方图分类器示出了哈尔特征的布局，其中每个立方体必须存储于纹理中。直方图包含64个区间，并打包到被解释为整数的两个浮点分量。列804用阈值分类器示出了可控特征，仅仅需要阈值用于分类器和单个纹理元素以存储特征信息。

接着通过查找特征的立方体，评估整体图像，以及组合结果来进行在GPU上的评估。图9示出了用于执行上述特征计算的典型CUDA算法。为了避免边界测试的条件，整体图像的边界用充满零值的额外平面填充。

用于在GPU上计算3D情景中的整体图像的并行工作有效算法需要模拟在3个阶段中进行的3D整体图像计算的典型CPU实现。当执行用零值对整体图像的填充时，如上所述，x方向中的图像聚集也在CPU上执行。一旦这个被填充的图像被传送到GPU，x-z平面上的线程块网格就被用于y方向上的聚集。同样的步骤发生在z方向上，其中线程位于x-y平面。

图10示出了所使用的特定可控特征的表。I表示图像强度，

d是输入样本方向。对于特定的样本位置，特征是灰度值，梯度，或输入方向上梯度的投影的变换。在方向盒检测的情况下，输入方向来自于盒的x轴，3D位置的离散采样被认为是用于被检测的盒中的这些特征。这些特征中的每一个能够在图像金字塔的几个图像分辨率中的一个上被计算。因此，每个特征通过其在3D采样模式中的位置(3个整数)，特征类型中的位置(1个整数)，离散图像规模被计算的位置(1个整数)被完全地描述。通过将类型和规模打包进单个值中(例如规模*32+类型)，这个数据能被打包进入纹理图像的仅仅1RGBA像素中。

为了避免大的条件句或将所有基本特征类型作为唯一元素对待的转换语句，抽取一系列共同抽取。抽取发生在两个阶段，数据抽取和修改。在数据抽取期间，抽取要被抽取以用于修改的最初数据。这需要对应于图10中所示的那些的一群条件。在数据抽取之后，能够应用三个修改量：乘方，绝对值，或对数。要被抽取的数据类型和随后的修改量都作为标记存储于长度为25的表中。

图11示出了用于可控特征评估的在CUDA中实现的算法。在图11中示出的算法中，p＝{I，I_x，I_y，I_z}，输入方向，d＝{0，d_x，d_y，d_z}，在参考数字1102处定义。如果块中的线程发散，每个线程到其它线程的路径是短的(并且不是特征的整个评估)。数据抽取和标记存储由参考数字1104表示，并且像素变换由参考数字1106表示。

由于在CUDA中纹理数组不能被动态地索引，因此将图像的多重尺度打包进单个纹理中。偏移量表存储这个纹理中每个分辨率的较低左角。

图12示出了整合在现有软件库中的CUDA实现。GPU实现通常与检测包隔离，通过来自SrcObjectPositionDetector 1202和SrcBoxDetector 1204揭露接口。检测器可以使用分类器，例如PBT，或random forest^TM，将在下面讨论。

为了与CUDA对接，对象位置检测器，SrcCudaPositionDetector 1206替换CPU位置检测器中的主分类器循环。这个循环在全部3D体积或先前生成的位置候选者的集合上迭代。在这些位置在GPU上对来自下层分类器的后验分布的评估进行调度。随后结果在GPU上分类，并且仅仅将所需数量的候选位置传送回主存储器。

这种情况与由SrcBoxDetector 1204处理的方向及规模检测相似。导出公共接口以替换对检测方向和规模负责的例程。在这些例子中，输入是m个候选盒子位置的集合，也存在用于这些位置的n个假设方向(或规模)的集合。在方向检测期间，对应于假设方向的3D坐标轴被计算并被传送到GPU作为纹理。用于方向检测的CUDA内核，由参考数字1208表示，使用m*n线程以评估用于使用每个潜在方向的所有可能的候选盒子的PBT。这种情况与规模检测类似，虽然假设规模而不是方向被传送到GPU。

图13示出了根据本发明的实施例，用于评估概率推进树的森林的方法。决策树，例如概率推进树，可以在森林算法中使用，例如随机森林算法。对森林算法的评估与PBT的评估类似。例如，森林可以包括多个PBT，并且森林的后验分布输出是每个PBT输出的组合。在步骤1302，在GPU接收输入数据。

在步骤1304，使用堆栈实现评估多个PBT。堆栈实现可以是一种上面关于图4方法所述的实现。

在步骤1306，生成每个PBT的组合后验分布模型。后验分布模型可以由

表示，其中T表示树的数量。后验分布模型表示可以用于对象分类和对象检测的分类的集合。来自PBT的后验分布模型的分类集合之后可以由检测器使用以执行在图像数据上的检测。

执行使用此处所述方法的实验。特别地，该实验在两个硬件配置上执行：配置1)1GB Nvidia9800GT和Intel Core(2)Duo和3.5GB RAM；配置2)1.5GB Nvidia480GTX和Intel Core Quad和16GB RAM。呈现用于评估PBT的结果，也就是特征评估，弱分类器评估，强分类器评估，和全分类器评估。就准确性和效率方面的改进而言，GPU-PBT实现与随机森林的实现相比很类似。

除非另外说明，所有的计时结果将GPU版本和OpenMP实现相比较，其中配置1有2个线程，而配置2有8个线程。在所有的例子中，使用如下的数据集合：

1)在语义索引投影中使用的胎儿头部的超声波图像的语义索引(SI)数据集合。具有1mm分辨率和从143×90×110到231×161×208尺寸的990体积用于训练。215用于测试。在6个结构上建立HDN网络，包括例如，胼胝体(CC)和小脑(CER)。HDN网络对结构之间的空间关系进行编码，并在4mm，2mm和1mm的体积分辨率上执行检测。

2)具有从70×70×89到125×125×334的图像尺寸的包括247髋关节的CT扫描的数据集合。HDN网络由对髋关节位置的检测组成，并在16mm，8mm和4mm分辨率上执行。

如上所述，哈尔特征使用整体图像，其能够在GPU上计算。下面所示的表1，总结了使用GPU加速整体图像计算可能的加速。表1示出了将GPU加速版本与多线程的OpenMP版本进行对比的表中的加速。对于每种配置，右列表示当不需要读回图像时的时间。计时包括填充图像以及将结果传到GPU上的时间。对于256³的体积来说，当整体图像不需要被读回时(正如在检测期间的情况)，在两个系统上获得5倍加速，。

表1

下面示出的表2，示出了贯穿评估过程对可控特征和哈尔特征所获得的加速。特征行只考虑评估特征。在这些测试中，在体积中的所有像素上评估同样的特征。很明显，可控特征给出较好的加速，可能是因为它们的实现涉及到更多计算，但是哈尔特征主要地涉及纹理查找和仅仅几个附加物(例如，带宽限制)。如所期望的那样，这些加速传播到弱分类器评估中，其仅仅评估单个特征并查找直方图区间中的比特。然而，强分类器评估并组合大约40个弱分类器的结果。在这个情况中，两个特征类型开始更相似的行为，其中使用配置1实现26倍的加速。在配置2，具有可控特征的强分类器还是比哈尔特征快1.5倍。

表2

当提到评估整个树(表2的PBT行)时，在配置1上只有4.7倍的加速，在配置2上只有12倍的加速。强分类器的加速限制了PBT树上可得到的加速。对于不同加速倍数的解释可能是由于高速缓存一致性。当评估每个像素上的单个强分类器时，每个像素将访问同样相关的位置作为它的邻居像素。由于树被降落，邻近像素可以采用不同的路径沿树向下，意味着它们将评估不同的强分类器，这些强分类器依次使用不同的特征。对于哈尔特征和可控特征而言，这意味着邻近像素将从纹理中的不同相关位置中采样，并采用不同的控制点。

图14说明了示出当线程评估不同的分类器时和当线程块评估不同分类器时的执行时间的图表。当降落PBT中的节点时，同一线程块中的线程将评估不同的节点。线程曲线1402表示何时线程评估不同分类器，并且块曲线1404表示何时不同的线程块评估不同分类器。线程曲线1402示出，当使用线程评估不同分类器时，存在较长的执行时间。图14还示出由块评估分类器不影响运行时间。相反，当由线程评估时，当树较深时，评估慢了5倍。

上面所示的实验结果示出了使用GPU加速PBT评估的潜在好处。但是，这些实验是在理想执行环境中进行的，其中存在用于GPU的足够工作，并且在图像中的所有体素上运行同样的程序。在下面的段落中，在已经优化过的分层检测系统的上下文中评估PBT。

表3示出了检测在SI数据集中的6个结构的定时和加速。这些时间在201个体积上被平均。大多数的执行是在方向检测和规模检测中的(其使用可控特征)。在配置1，总体4.8倍的加速略低于来自表2中所示的可控特征的PBT评估结果。同样地，使用配置2，分层检测的9.73倍加速略低于来自表2中可控特征的PBT评估结果。这是由于分层检测具有固有序列的区域，其必须在主CPU上执行(例如，读回结果，删除候选者，并且将检测结果写入到文件)。此外，检测的一些阶段只需要在仅仅1000个元素上评估PBT，意味着GPU不能够被完全使用。

表3

虽然在CPU上执行代码，但是在CPU上同时执行一些代码是可能的。这种折衷方案也通过方向检测器上的实验进行调查，该方向检测器是分层检测的花费最多时间的组件。

在这个实验中，选择一部分工作并将其调度到GPU上，随后剩余的工作分给CPU。一旦CPU完成工作，等待前面GPU调用的执行完成。图15示出了整个检测时间，CPU执行时间，针对分配给GPU的变化比例工作的GPU的等待时间。检测时间的总量由线1502表示，总的CPU时间由线1504表示，GPU同步时间(GPU的等待时间)由线1506表示。在CPU工作初始化之后GPU工作异步地开始。非零GPU同步时间指示GPU没有足够的工作。对于检测线而言，来自图15的最优比例看来似乎大约是0.85。

对于配置1，期望最优比例与PBT评估中获得的加速是一致的。对于可控特征，GPU比用于PBT树评估的双核快7倍，所以GPU上工作的最优比例期望是大约0.875，如图15证实的那样。在这个情况中，通过与GPU同时使用CPU，在运行时间上10-15％的改进是能够期待的。

使用配置2，方向评估的加速高于12倍，意味着在同样的时间使用CPU带来了大约5％的改进。

在进一步的实验集合中，将在GPU PBT实现上获得的精度和加速与random forest^TM实现上所获得的精度和加速进行比较。第一个实验在分类上下文中的单个线程CPU实现上比较GPU实现的加速。对于这个实例，评估96×97×175的3D体积的每个像素上的10个深度为10的树的random forest^TM。配置1上的加速是26倍，并且配置2是114倍。表4示出了random forest^TM的GPU实现的定时和加速的比较。

表4

第二个实验使用来自SI数据集的CER检测，来比较分层位置，方向和规模检测上的结果。在这个情况中，分类器评估构成了总的运行时间的大部分。训练PBT到最大深度为6，使用40个弱分类器，并且森林实现具有最大深度为10的50个树。就弱分类器的总数而言，通过森林实现的降落评估更多的弱分类器(最多500个)，而PBT具有最多270个分类器。但是，PBT使用直方图分类器，而森林实现使用基于阈值的分类器。当在训练数据上测试时，两个模型都达到类似的精度。表5示出了当在用于SI分层数据集合上的CER数据结构的训练数据上测试时的检测精度。

表5

如表5中所示使用两个量度：盒子中心之间的距离(中心(mm))，以及在已恢复的盒子的轴线终点和地面实况(ground truth)之间的最大距离((线(mm))。从表5中，很明显的看出，两个模型的行为类似，并且在每个情况中，由于不同的特征评估代码，CUDA实现带来了略微不好的结果。

在两个系统上，森林实现的CUDA加速实现比多核CPU实现快10倍以上。但是，在配置1上具有相似精度的情况下，RF的CPU版本比PBT慢2倍。CUDA的森林实现达到相比较PBT而言较好的加速，使森林实现的GPU版本比配置1上的GPU-PBT慢2％。

表6示出了用于两种硬件配置以及达到相似精度的PBT和森林模型的SI数据上的CER检测的计时结果。森林实现在CPU上较慢，但是GPU实现比PBT获得更大的加速。但是，森林上的GPU实现还是慢于PBT的GPU实现。

表6

在PDT数据上，使用161个训练样本训练模型并在86不可见的情况上测试模型。PBT包含4个树级，每级上具有40，42，44和48个弱分类器。对于森林实现，最大路径设置为8，并使用10个或30个树训练两个集合模型。具有10个树的森林实现比具有类似数量的弱分类器的PBT执行得更好。

表7示出了在16-8-4mm转换分层上的计时，加速和精度的对比。森林实现的CPU版本较慢；并且由于较好的加速出现在GPU上，两个GPU实现获得了同样的时间总量。在这个例子中森林实现是优良的，因为优良的检测精度。由于GPU加速的部分占有了更多时间以及更好的加速能被看见，因此使用30个树改善精度。

表7

下面的段落讨论对PBT训练程序的改善的评估。如已经讨论的那样，用于PBT的AdaBoost分类器的训练可以通过为特征评估计算特征矩阵，并且随后在GPU上并行训练弱分类器来执行。在分层网络中，在训练用于PBT的分类器之后，执行批量检测阶段。在批量检测期间，最新训练过的分类器用于执行在每个输入体积上的检测，并且然后由网络中较后的节点使用该结果。可以立即重新使用检测代码以加速该阶段。

当训练强分类器时，经常存在太多的正和负训练样本建立完全特征矩阵，所以随机选择多个输入样本以建立特征矩阵(大约2500个正样本和2500个负样本)。输入样本来自于不同的体积，并且经常存在太多的体积在所有时间在GPU上维持。因此，如果在GPU上评估特征，则样本所使用的输入体积的总量需要被传送给GPU。

为了评估在训练期间特征矩阵计算的性能，使用3个体积并在评估和读回所有特征中测量加速。图16示出了在图表1602中使用小体积对配置2的加速，以及在图表1604上使用中体积对配置2的加速。图表1602的哈尔特征线由线1606表示，并且图表1602的可控特征线由线1608表示。图表1604的哈尔特征线由线1610表示，并且图表1604的可控特征线由线1612表示。从图16中可以明显看出，如果仅有几个样本分享同样的体积，加速将低。对于哈尔特征来说，加速也取决于图像的尺寸(由于整体图像是在GPU上计算的)。

在基准检查程序中，训练分层模型。分层模型具有3个分辨率的数据，每一个具有转换，方向和规模检测器，其使用来自SI数据集的300幅图像。对于每个已训练过的PBT，大约由2400个正样本和140k个负样本。对节点的训练使用2500个负样本的最大值。计时结果都在配置2上计算。在包括CUDA增强(不包括特征矩阵的计算)之后的结果通过表8示出。表8示出了在配置2上的训练阶段的总时间。弱分类器训练被加速，并且整体的计算时间整体加速了1.5倍。弱分类器训练上的3.5倍的加速为训练强分类器带来了大约2.1倍的加速。在整个PBT训练上的加速是1.7倍(其包括载入数据，确定使用哪个样本，传播样本沿树向下，并且创建树数据结构)。

表8

上面描述的使用堆栈实现的用于评估概率推进树和用于解剖学标志，位置估算，3D体积中的对象分割的方法，可以使用公知的计算机处理器，存储器单元，存储设备，计算机软件和其它组件在计算机上实现。这种计算机的高层级结构图在图17中示出。计算机1702包含处理器1704，其通过执行定义这种操作的计算机程序指令来控制计算机1702的整体操作。计算机程序指令可以存储于存储设备1712中，或其它计算机可读介质(例如磁盘，CDROM等等)中，当期望计算机程序指令的执行时，被载入到存储器1710中。因此，图1，6，13的方法的步骤可以由存储于存储器1710和/或存储设备1712中的计算机程序指令来定义，并由执行计算机程序指令的处理器1704来控制。图像获取设备1720能够连接到计算机1702以便向计算机1702输入图像。例如，图像获取设备1720可以是C形臂图像获取系统，其能够输入3D的C形臂CT图像和2D荧光屏图像到计算机1702。将图像获取设备1720和计算机1702作为一个设备实现是很可能的。还有可能是图像获取设备1720和计算机1702通过网络无线通信。计算机1702也包括一个或多个网络接口1706，用于通过网络与其它设备通信。计算机1702也包括其它输入/输出设备1708，其使得用户能与计算机1702进行交互(例如显示器，键盘，鼠标，扬声器，按钮等等)。本领域的技术人员会意识到实际的计算机实现还会包含其它组件，并且图17是出于示例目的的这种计算机的一些组件的高层级表示。

前面具体实施方式应被理解为在每个方面都是说明性的和示例性的，但不是限制性的，并且此处公开的本发明的范围不由具体实施方式确定，而是由根据专利法所允许的最大范围解释的权利要求书来确定。可以理解，此处所示和所描述的实施例仅仅是说明本发明的原理，并且无需脱离本发明的范围和精神，本领域的技术人员就能实现各种修改。无需脱离本发明的范围和精神，本领域的技术人员就能够实现各种其它特征的组合。

Claims

1.一种训练概率推进树的方法，包括：

在图形处理单元(GPU)上接收训练数据；

使用分类器将该训练数据划分为第一数据集和第二数据集；

在GPU上训练第一子树和第二子树，该第一子树使用第一数据集并且该第二子树使用第二数据集；

基于已训练的第一子树和已训练的第二子树生成后验分布模型。

2.如权利要求1的方法，其中在GPU上训练第一子树和第二子树包括：

在第一子树和第二子树的每个节点处训练分类器。

3.如权利要求2的方法，其中在第一子树和第二子树的每个节点上训练分类器包括：

为每个节点计算特征矩阵。

4.如权利要求3的方法，为每个节点计算特征矩阵包括：

计算特征边界；

基于该特征边界将特征值映射到直方图区间中的样本；并且

计算与每个分类器相关联的误差。

5.如权利要求1的方法，进一步包括：

基于该后验分布模型确定一组分类。

6.如权利要求1的方法，其中使用并行计算架构实现该用于评估概率推进树的方法。

7.如权利要求6的方法，其中该并行计算架构是统一计算设备架构(CUDA)。

8.如权利要求1的方法，进一步包括：

使用训练过的概率推进树检测3D体积中的结构。

9.一种确定概率推进树的后验分布的方法，包括：

在图形处理单元(GPU)上接收输入数据；

使用堆栈实现确定与概率推进树的每个节点相关联的加权经验分布；

将与每个节点相关联的加权经验分布加到总的后验分布值中。

10.如权利要求9的方法，其中使用堆栈实现确定与概率推进树的每个节点相关联的加权经验分布包括：

将概率推进树的根节点推入堆栈；

确定是否经过左子树中的节点或经过右子树中的节点来向下降落概率推进树。

11.如权利要求10的方法，其中确定是否经过左子树中的节点或经过右子树中的节点来向下降落概率推进树包括：

确定根节点的辨别分类器；

如果根节点的辨别分类器符合第一条件，降落左子树中的左节点；

如果根节点的辨别分类器符合第二条件，降落右子树中的右节点；以及

如果根节点的辨别分类器符合第三条件，降落左节点和右节点；

其中第一条件表示左节点必须被降落，第二条件表示右节点必须被降落，并且第三条件表示左节点和右节点都必须被降落。

12.如权利要求11的方法，其中降落左子树中的左节点包括：

确定左节点的辨别分类器；

如果左节点是叶节点，将该左节点的加权经验分布加到总的后验分布值中；

如果左节点满足第一条件，将该左节点推入到堆栈中，并降落该左节点的左子节点；

如果左节点满足第二条件，将该左节点推入到堆栈中，并降落该左节点的右子节点；

如果左节点满足第三条件，将该左节点推入到堆栈中，并降落左子节点和右子节点。

13.如权利要求11的方法，其中降落右子树中的右节点包括：

确定右节点的辨别分类器；

如果右节点是叶节点，将该左节点的加权经验分布加到总的后验分布值中；

如果右节点满足第一条件，将该右节点推入到堆栈中，并降落该右节点的左子节点；

如果右节点满足第二条件，将该右节点推入到堆栈中，并降落该右节点的右子节点；

如果右节点满足第三条件，将该右节点推入到堆栈中，并降落左子节点和右子节点。

14.如权利要求9的方法，其中使用并行计算架构实现评估概率推进树的方法。

15.如权利要求9的方法，其中并行计算架构是统一计算设备架构(CUDA)。

16.如权利要求11的方法，其中该堆栈与多个并行运行的线程中的一个相关联。

17.一种评估概率推进树的森林的方法，包括：

在图形处理单元(GPU)上接收输入数据；

使用堆栈实现评估多个概率推进树；

基于多个概率推进树中的每一个的后验分布生成组合的后验分布。

18.一种用于训练概率推进树的系统，包括：

用于在图形处理单元(GPU)上接收训练数据的装置；

用于使用分类器将该训练数据划分为第一数据集和第二数据集的装置；

用于在GPU上训练第一子树和第二子树的装置，该第一子树使用第一数据集，并且该第二子树使用第二数据集；

用于基于已训练的第一子树和已训练的第二子树生成后验分布模型的装置。

19.如权利要求18的系统，其中用于在GPU上训练第一子树和第二子树的装置包括：

用于在第一子树和第二子树的每个节点处训练分类器的装置。

20.如权利要求19的系统，其中用于在第一子树和第二子树的每个节点上训练分类器的装置包括：

用于为每个节点计算特征矩阵的装置。

21.如权利要求20的系统，用于为每个节点计算特征矩阵的装置包括：

用于计算特征边界的装置；

用于基于该特征边界将特征值映射到直方图区间中的样本的装置；以及

用于计算与每个分类器相关联的误差的装置。

22.如权利要求18的系统，进一步包括：

用于基于该后验分布模型确定一组分类的装置。

23.如权利要求18的系统，其中用于评估概率推进树的系统是并行计算架构。

24.如权利要求23的系统，其中该并行计算架构是统一计算设备架构(CUDA)。

25.如权利要求18的系统，进一步包括：

用于使用训练过的概率推进树检测3D体积中的结构的装置。

26.一种用于确定概率推进树的后验分布的系统，包括：

用于在图形处理单元(GPU)上接收输入数据的装置；

用于使用堆栈实现确定与概率推进树的每个节点相关联的加权经验分布的装置；

用于将与每个节点相关联的加权经验分布加到总的后验分布值中的装置。

27.如权利要求26的系统，其中用于使用堆栈实现确定与概率推进树的每个节点相关联的加权经验分布的装置包括：

用于将概率推进树的根节点推入堆栈的装置；

用于确定是否经过左子树中的节点或经过右子树中的节点来向下降落概率推进树的装置。

28.如权利要求27的系统，其中用于确定是否经过左子树中的节点或经过右子树中的节点来向下降落概率推进树的装置包括：

用于确定根节点的辨别分类器的装置；

用于如果根节点的辨别分类器符合第一条件，降落左子树中的左节点的装置；

用于如果根节点的辨别分类器符合第二条件，降落右子树中的右节点的装置；以及

用于如果根节点的辨别分类器符合第三条件，降落左节点和右节点的装置；

29.如权利要求28的系统，其中用于降落左子树中的左节点的装置包括：

用于确定左节点的辨别分类器的装置；

用于如果左节点是叶节点，将该左节点的加权经验分布加到总的后验分布值中的装置；

用于如果左节点满足第一条件，将该左节点推入到堆栈中，并降落该左节点的左子节点的装置；

用于如果左节点满足第二条件，将该左节点推入到堆栈中，并降落该左节点的右子节点的装置；

用于如果左节点满足第三条件，将该左节点推入到堆栈中，并降落左子节点和右子节点的装置。

30.如权利要求28的系统，其中用于降落右子树中的右节点的装置包括：

用于确定右节点的辨别分类器的装置；

用于如果右节点是叶节点，将该左节点的加权经验分布加到总的后验分布值中的装置；

用于如果右节点满足第一条件，将该右节点推入到堆栈中，并降落该右节点的左子节点的装置；

用于如果右节点满足第二条件，将该右节点推入到堆栈中，并降落该右节点的右子节点的装置；

用于如果右节点满足第三条件，将该右节点推入到堆栈中，并降落左子节点和右子节点的装置。

31.如权利要求26的系统，其中使用并行计算架构实现评估概率推进树的系统。

32.如权利要求31的方法，其中并行计算架构是统一计算设备架构(CUDA)。

33.如权利要求28的系统，其中该堆栈与多个并行运行的线程中的一个相关联。

34.一种用于评估概率推进树的森林的系统，包括：

用于在图形处理单元(GPU)上接收输入数据的装置；

用于使用堆栈实现评估多个概率推进树的装置；

用于基于多个概率推进树中的每一个的后验分布生成组合的后验分布的装置。