CN101061491B

CN101061491B - 用于在计算机辅助肺结核假阳性降低中克服不平衡事例数目的层化方法

Info

Publication number: CN101061491B
Application number: CN2005800396883A
Authority: CN
Inventors: L·赵; K·P·李; L·博罗茨基
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-11-19
Filing date: 2005-11-21
Publication date: 2010-06-16
Anticipated expiration: 2025-11-21
Also published as: WO2006054272A2; EP1815399B1; JP2008520324A; US20090175514A1; DE602005022753D1; ATE476716T1; WO2006054272A3; EP1815399A2; CN101061491A

Abstract

一种用于对在HRCT医学图像数据内检测的感兴趣部位进行计算机辅助探测(CAD)并分类的方法。所述方法包括用于对识别部位/体积体为结核或者非结核的的特异性和灵敏度进行最大化的CAD后机器学习技术。该部位被CAD处理识别，并被自动分割。从每个所分割部位中识别并提取特征池，并利用遗传算法处理特征池以识别最优特征子集，其中数据层化方法被用于平衡不同类别中的事例数目。由GA确定的子集被用于训练支持向量机，从而对在非训练数据内发现的候选部位/体积体进行分类。

Description

用于在计算机辅助肺结核假阳性降低中克服不平衡事例数目的层化方法

相关申请

本申请/专利来源于由所提名申请人于2004年11月19日申请的申请号为60/629751的美国临时专利申请。本申请与通常拥有、共同未决的Philips申请PHUS040505(779361)、PHUS040500(778964)和PHUS040499(778965)有关。

技术领域

本发明涉及计算机辅助检测系统和方法。本发明更确切地涉及这样的系统和方法，所述系统和方法用于假阳性减少计算机辅助检测(CAD)结果，尤其是高分辨率、薄片计算层析成像(HRCT)图像，在CAD系统训练期间利用支持向量机(support vector machine，SVM)对失衡数据集(训练数据集)实现利用层化(stratification)的CAD后分类，从而在保存适当灵敏度的情况下生成很高的特异性(减少所报告假阳性的数目)。

背景技术

当前计算机相关系统的速度和成熟支持更快、更高级的医学图像系统的开发。处理和处理后所生成的数据量的增加导致创建大量应用程序来自动分析医学图像数据。也就是说，已经开发了各种数据处理软件和系统来帮助内科医师、临床医师、放射科医师等等来评估医学图像以识别和/或诊断并评估医学图像。例如，计算机辅助检测(CAD)算法和系统已经发展为从多片CT(multi-slice CT，MSCT)扫描中自动识别“可疑”部位(例如损伤)。鉴于其固有的准确地图示解剖结构的大小、形状和位置以及异常或损伤的能力，CT或者计算层析成象是通常用于通过图像诊断疾病的成像模态。

CAD系统自动检测(识别和描绘)形态学上感兴趣部位(例如，损伤、结核、微钙化)，以及其他可能是临床相关的结构上可检测的条件/部分。当再现并显示医学图像时，CAD系统标记或者高亮度显示(识别)所研究部位。所述标记将引起放射科医师对可疑部位的注意。例如，在对寻找可能癌变结核的肺图像的分析过程中，CAD系统将标记检测到的结核。因而，CAD系统结合了放射科医师的专业知识以自动提供关于医学图像数据中异常的检测的第二意见。通过支持对疑似癌变的损伤或者结核的早期检测，CAD系统实现了早期干预，理论上向病人提供了更好的预后。

CAD及其他机器学习系统的大多数现有工作都遵循有监督学习的相同方法。所述CAD系统从具有已知真实数据(ground truth)的大量数据开始。在训练数据上“训练”CAD系统，以识别被认为具有充足的鉴别能力来区分真实数据的特征集，所述真实数据也就是非训练数据中的结核或者非结核。对本领域技术人员而言的挑战包括提取简化了在类别之间进行鉴别的特征，理论上查找特征池内的最相关子集。一旦被训练，那么CAD系统就可以对非训练数据进行操作，其中从CAD描绘的候选部位中提取特征并分类所述特征。

CAD系统可以合并不同种类的信息(例如基于图像的特征与病人数据)，或者它们可以发现例如基于相似度的方法。技术人员应当理解：任何计算机驱动决策支援系统的精确性受到已经由学习过程分类的模式集的可用性(也就是受到训练集)的限制。假阳性标记(来自CAD系统的输出)是指向根本不是结核、而是伤痕、支气管壁增厚、运动假象、脉管分支等的那些标记。其中CAD辅助结果表示所调查部位的底线事实(例如，结核)，具体而言临床医生将忽略他/她不研究的部位。本领域的技术人员应该理解：在诊断上下文中，“真阳性”经常指的是真正恶性的检测结核。然而，在CAD上下文中，即使标记指向良性的或者钙化的结核，所述标记也被认为是真阳性标记。从而在CAD中不定义“真阴性”并且不能给出标准化的特异性。因此，CAD性能通常由灵敏度(检出率)以及假阳性率或者每个CT研究的假阳性标记限定(qualify)，因而，十分需要一种能输出最小假阳性的CAD系统。

在完成自动检测处理之后(有或者没有标记)，大多数CAD系统自动调用一个或多个工具以应用于用户和CAD检测的损伤(部位)，从而例如消除冗余，实现解释工具等等。所以，已知各种用于减少CAD中的假阳性的技术。例如，W.A.H.Mousa和M.A.U.Khan在Proc.of IEEE ICIP′2002中公开了题为“Lung Nodule Classification Utilizing SupportVector Machines”的他们的假阳性减少技术。K.Suzuki，S.G.ArmatoIII，F.Li，S.Sone，K.Doi在“Massive training artificial neuralnetwork(MTANN)for reduction of false positives in computerizeddetection of lung nodules in low-dose computed tomography”Med.Physics 30(7)，July 2003，pp.1602-1617中描述了一种最小化假阳性的尝试，以及Z.Ge，B.Sahiner，H.-P.Chan，L.M.Hadjiski，J.Wei，N.Bogot，P.N.Cascade，E.A.Kazerooni，C.Zhou在“Computer aideddetection of lung nodules：false positive reduction using a 3Dgradient field method”，Medical Imaging 2004：Image Processing，pp.1076-1082中描述了一种最小化假阳性的尝试。

FPR系统用于CAD后处理中以改善特异性。例如，R.Wiemker，et al.在他们的COMPUTER-AIDED SEGMENTATION OF PULMONARY NODULES：AUTOMATED VASCULATURE CUTOFF IN THIN-AND THICK-SLICE CT，2003Elsevier Science BV中论述了最大化CAD算法的敏感性以在薄片CT中将肺结核同结核周围的维管结构有效地分离(以弥补部分体积体的影响)。预定目标是减少分类错误。然而，Wiemker的CAD系统和方法不使用成熟的机器学习技术，其也不优化FPR的特征提取和选择方法。例如，虽然Mousa，et al.利用支持向量机将真实的结核同非结核(FP)相区分，但是他们的系统基于非常简单化的特征提取单元，所述特征提取单元可能限制而不是改善了特异性。

另一个已知的问题是由CAD算法生成的假结核的数目远大于真实的结核(不平衡事例(case)问题)，因此降低了机器学习的性能。失衡训练事例问题指的是在机器学习中一类的事例数目明显少于另一类中事例数目的情况。这种失衡将导致机器学习中意外动作是大家熟知的。机器学习组所采用的一种通用方法是人工再平衡。这样做被称作“向上取样”(复制少数的事例)和“向下取样”(忽略多数的事例)。Provost，F.“Learningwith Imbalanced Data Sets 101，”AAAI 2000。

在肺结核假阳性降低中失衡训练事例问题特别突出。然而，这是因为有偏差的目标(保存真结核并减少尽可能多的假结核)而不是追求整个分类的精确性(大多数其他机器学习算法的目标)。本发明描述了一种新的、特别适合于这种有偏差目标处理的层化方法，并克服了不平衡事例数目问题。

发明内容

因此本发明的目的在于提供一种基于CAD的系统和方法，所述系统和方法通过实施新的层化方法从而在特异性，也就是假阳性降低方面，或者在有偏差目标处理方面得到明确改善，从而克服了本领域中公知的不平衡事例问题。结果改善了CAD处理中的特异性。

在此公开的创新的CAD和假阳性降低(FPR)系统因此包括机器学习子系统，该子系统用于CAD后处理。所述子系统包括特征提取器，用于选择最相关特征的遗传算法(genetic algorithm，GA)，以及支持向量机(SVM)。SVM根据保留全部真阳性识别这样的约束条件，将由CAD检测的候选部位限制为一些真实数据，例如，部位/体积体到底是结核还是非结核。首先必须在训练数据集上训练CAD或者FPR系统，其包括导出最相关特征以供CAD后机器学习SVM使用，从而在改善CAD特异性的情况下进行分类。

附图说明

图1是描绘利用支持向量机(SVM)在从计算层析成象(CT)医学图像进行计算机辅助检测(CAD)中实现假阳性降低(FPR)的系统的图；

图2是描绘支持向量机的基本思想的图；

图3是识别本发明的示例性处理的处理流程图；

图4描绘了基于GA的特征子集选择处理；以及

图5是突出显示用于肺结核假阳性降低的层化方法的系统级图；以及

图6提供了根据结核大小对所检测的假结核的统计分析。

具体实施方式

在图像数据集合(例如，CT)中检测肺结核的计算机辅助基础目标不是指派由机器进行诊断，而是实现基于机器的算法或者方法来支持放射科医师提出他的/她的判定，也就是指出可疑对象的位置以便提升总灵敏度(检出率)。CAD或者其他临床决策支持系统的主要问题是必然发生假的标记(所谓的假阳性)和真阳性标记会一同出现。

临床研究表明：测量的CAD检出率，和测量的由有经验的放射科医师的检出率不同，其取决于进行读取的放射科医师的数目。参与读取可疑损伤、微钙化等的有经验读取者越多，则将会发现越多数量的损伤(在一个图像内)。所述技术领域的技术人员应当注意到：无论是由CAD还是由熟练的专业人员读取，描绘绝对灵敏度的任何图都可能很容易被误解释。也就是说，来自临床研究的数据趋向于支持：由辅助CAD软件能够更容易检测到很多结核，而这些结核可能在不利用CAD系统的情况下为读取的放射科医师所忽略。本发明增加了特异性(更好的FPR)，同时保持了灵敏度(真实结核查找)。

包括假阳性降低处理的基于CAD的系统具有一项重要的工作，那就是识别医学图像数据中检测到的“可对之行动的”结构，其中所述系统诸如由Wiemker、Mousa等人所描绘的那些系统之类。一旦识别(也就是，被分割)，那么提取重要特征的全面集合并用于分类。本领域的技术人员将意识到：计算机驱动决策支持或者CAD系统的准确性受到用作训练集合的已知病理学的模式或部位集合的可用性的限制。即使是诸如由Wiemker，R.，T.Blaffert1所描述的现有技术CAD算法也可能导致大量的假阳性，这将导致相关风险和低用户接受度的不必要介入。此外，当前假阳性降低算法经常被开发用于胸部放射图像或者厚片CT扫描，未必能在来源于HRCT的数据上很好的运行。

所以，创新的CAD/FPR系统和方法包括CAD子系统或者处理，用于识别候选部位，并分割所述部位。在训练期间，训练数据集合内的所分割部位被传递至特征提取器或者传递至用于实现特征提取处理的处理器。本发明通过实施下文中详细描述的层化方法解决了本领域称之为有偏差目标问题或者失衡数据集问题的问题。特征提取获得由来自所检测结构的3D和2D特征组成的特征池。特征池被传送至遗传算法(genetic algorithm，GA)子系统或者GA处理器(CAD后)，其处理特征池以实现最优特征子集。最优特征子集包括在创新CAD或者FPR系统内提供对SVM而言足够鉴别能力的特征，以便对候选部位/体积体进行分类。

此后，CAD处理“新的”图像数据，对在非训练数据内发现的候选部位进行分割。从候选部位中提取(在训练期间所确定的)特征子集，以供“已训练”分类器(SVM)使用，从而判断所述候选特征是否能够在具有恰当特异性的情况下进行适当的分类。创新的FPR或者CAD系统能够借此在精确、具有充足特异性的情况下在高分辩率和薄片CT(HRCT)中检测小的肺结核，以及类似地在包括训练集、包括新的和新颖的基于3D特征的特征中检测小的肺结核。例如，具有片厚＜＝1毫米的HRCT数据提供了允许检测非常小结核的充足细节的数据。检测更小结核的能力需要新的方法来可靠地检测和鉴别候选部位。

将参照图1清楚描述本发明的FPR系统的优选实施方式。FPR系统包括CAD子系统和FPR子系统，所述CAD子系统用于识别并分割满足特定标准的感兴趣部位或体积体。优选地，CAD子系统包括CAD处理器，并还可

1Options to improve the performance of the computer aided detection of lungnodules in thin-slice CT.2003，Philips Research Laboratories：Hamburg以及Wiemker，R.，T.Blaffert在他们的：Computer Aided TumorVolumetry in CT Data，Invention disclosure.2002，Philips Research，Hamburg。以包括分割单元，以对医学图像数据执行低级处理和分割。本领域的技术人员将理解：CAD系统必须执行分割功能以描绘供进一步分析的候选部位，不论所述分割功能被作为CAD子系统实现，还是作为独立分割单元实现，以便支持CAD处理(诸如分割单元)。CAD子系统用于分割感兴趣的候选部位或者体积体，例如结核，无论是在训练数据上操作还是研究“新的”候选部位，并指示参数调节处理以实现稳定分割。

在训练模式中，特征提取十分重要，这是因为它很大影响了FPR系统的总体性能。不正确提取整个特征集合或者池的情况下，GA处理器就不能够精确确定具有最好鉴别能力和最小尺寸的最优特征子集(以便避免过度拟合(over-fitting)并增加概括能力)。由包括FPR子系统的特征提取单元提取或者生成特征池。特征池然后由遗传算法处理器进行操作，来识别特征池的“最优”子集。当利用特征子集来操作非训练数据时，GA处理后面的意图是由已训练的CAD系统将特异性最大化为真实数据，就如由SVM推算的那样。也就是，GA处理器生成或者识别特征子集，其中在训练之后当由SVM利用所述特征子集时增加所分割非训练数据中识别部位的特异性。关于对特征的选择和数目这二者来确定GA识别的特征子集(仅仅在训练期间)，其中所述特征应当被SVM以充足特异性来利用从而在非训练数据上使用时最小化假阳性识别。也就是说，一旦训练，那么当系统在非训练数据上操作时CAD系统就不再使用GA。

基于GA的特征选择处理由共同拥有、共同未决的申请编号为US040120(ID公开#_779446)的Philips申请所披露，将其内容引入于此以供参考。GA的特征子集的选择通过创建大量由多个“基因”组成的“染色体”开始。每个基因表示一个所选的特征。由染色体所表示的特征集用来在训练数据上训练SVM。染色体的适合度是由所产生的SVM执行得多好来评估的。在本发明中，存在三个使用的适合度功能：灵敏度、特异性和染色体中所包括的特征数。三个适合度功能被排序以不同的优先级；换句话说，灵敏度具有第一优先级，特异性具有第二优先级，特征数具有第三优先级。这被称作分层的适合度功能。该处理开始时，通过随机选择特征以形成染色体的方式来生成染色体总数。所述算法(也就是GA)然后迭代搜索能很好执行(具有高适合度)的那些染色体。

在每代处，GA评估总体中每个染色体的适合度，并通过两个主进化操作-变异和交叉来从当前染色体中创建新的染色体。“好的”染色体中的基因很可能被保持给下一代，而具有较差性能的基因很可能被丢弃。最后通过该适者生存的处理来查找到最佳解(也就是，许多特征)。通过知晓包括最优数目特征的最优特征子集来实现假阳性降低(FPR)，所述假阳性降低将降低误分类事例的总数。在确定特征子集之后，其被用于训练SVM。

如上所述的，失衡训练事例问题指的是在机器学习中一个分类中的事例数目明显少于另一个分类中的事例数目的情况。这种失衡将导致机器学习的意外动作是公知的。机器学习组所采用的一种通用方法是利用“向上抽样”(复制来自少数的事例)和“向下抽样”(忽略来自多数的事例)来人工地再平衡它们。Provost，F.“Learning with imbalance Data Sets101，”AAAI 2000。在此讲授和要求的新颖的层化方法特别适合于解决有偏差目标方法并克服不平衡事例数目问题。

训练之后，CAD子系统通过生成二元或者三元图像的方式来从背景中描绘出候选结核(包括在非训练数据中发现的非结核)，在所述二元或者三元图像中标示出哪里是结核部位、哪里是背景部分、以及哪里是肺壁(或者“剪切”)部位。一旦收到灰度级和所标示的候选部位或者体积体，特征提取器就计算(提取)诸如2D和3D形状特征、基于直方图的特征等之类的任何相关特征来作为特征池。所述特征被提供给SVM，所述SVM已经在从训练数据提取的最佳特征子集上得到训练。

本领域的技术人员应当理解：SVM将“原始”特征空间映射到一些更高维的特征空间，其中如图2所示训练集被超平面所分割。基于SVM的分类器具有几个内部参数，其可能影响它的性能。根据经验优化这种参数以实现可能达到最好的总准确度。此外，在供SVM使用以前标准化特征值，以避免具有大的数值范围的特征比具有较小数值范围的特征有优势，这是在此讲授的有创造性的系统和处理的焦点。标准化特征值也使得计算更加简单。并且因为核心值通常取决于特征向量的内积，所以大的属性值可能导致数值问题。[0，1]范围内的标度(scale)如下：

x′＝(x-mi)/(Mi-mi)，

其中

x′是“标度”值；

x是原始值；

Mi是最大特征值；以及

mi是最小特征值。

利用包括其病理学已知的训练数据或者部位的肺结核数据集、利用被称作“留一法(leave-one-out)和k折验证(k-fold validation)”来验证创新的FPR系统。实现验证，创造的FPR系统显示为减少了大多数假结核，同时几乎保留所有真结核。

图3是描绘根据本发明可以实现的处理的流程图。在图3中，方框500表示在医学图像训练数据集上训练分类器，其中对所述医学图像训练数据集而言关于特定感兴趣部位或体积体的真实数据是已知的。所述步骤可以包括在医学图像训练数据集上训练分类器，其中选择所述医学图像训练数据集以包括大量真假结核，并且自动进行分割。从训练数据内的每个所分割部位和体积体中识别/提取特征池，并利用遗传算法处理器来处理所述特征池以识别最优特征子集，根据所述最优特征子集来训练支持向量机。因此实现了用于降低肺结核假阳性的层化方法。

方框510表示这样的步骤：其中如果训练数据包括失衡数目的真阳性和假阳性，那么实施层化处理。方框520表示训练后步骤，其在新的或者非训练的医学图像数据内检测关于真实数据(例如结核或者非结核)作为识别候选者的部位或者体积体。方框530表示分割候选部位的步骤，方框540表示处理所分割的候选部位的步骤，以便提取那些特征，也就是由GA确定为对恰当分类而言最相关的特征的特征子集。然后，如方框550所示，支持向量机在改善特异性并保持灵敏度的情况下识别非训练候选部位的真阳性识别。

就那件事而论，如方框510所示，在图5中图示了所述方法的详细说明，其中步骤1显示了根据结核尺寸将假结核集分成三个子集。如在图6内被标识为“事例数目”的表格所示的统计分析中显示了事例数目分布。

在步骤2，机器学习使用最大假结核(例如＞4mm)和所有真结核。选择最大假结核的首要原因是其事例数目与真结核相当。次要原因是从最大假结核中提取的图象特征被认为是更易于区分。我们使用的特定机器学习技术是支持向量机(SVM)。

在步骤3中，根据机器学习生成分类器。因为这两个分类中的事例数目是相当的，所以分类器能够在施加不同的交叉验证方法(cross-validation methods)之后保持几乎所有的真结核并能够减少接近90％的大假结核。

在步骤4中，在步骤3中提到的分类器被用于保持较小的假结核，并且结果显示移除了大多数的假结核。整体而言，层化处理经证明是一种克服不平衡事例问题的好方法。对有偏差目标问题而言，因为其首先确保保持尽可能多的真结核(第一优先级)，然后再减少假结核(第二优先级)。因此，该方法不同于其他解决失衡数据集问题的方法，所述其他方法设法提升整体分类的精确性，也就是在双方向上减少错误分类的事例上相同的优先级。其特别用于向肺结核假阳性降低这样的偏见目标问题。

值得注意的是：执行创新的方法所需的、或者驱动创新的FPR分类器的软件可以包括用于实现逻辑功能的可执行指令的有序列表。因而，所述软件可以被具体化为任何计算机可读取介质，所述计算机可读取介质供指令执行系统、装置或设备使用或者与指令执行系统、装置或设备结合起来使用，诸如基于计算机的系统、包含处理器的系统、或者其他可以从指令执行系统、装置或设备中取出指令并执行所述指令的系统之类。在本文档上下文中，“计算机可读取介质”可以是包括、存储、通信、传递或传送程序以供指令执行系统、装置、或设备使用或者与指令执行系统、装置、或设备结合起来使用的任何装置。

计算机可读取介质例如可以是、但是不限于是电、磁、光、电磁、红外线或半导体系统、装置、设备或者传播介质。计算机可读取介质的更具体实例(非穷举列表)将包括下列：具有一个或多个线路的电连接(电)，便携式计算机磁盘(磁性)，随机存取存储器(RAM)(磁性)，只读存储器(ROM)(磁性)，可擦可编程序只读存储器(EPROM或者闪速存储器)(磁性)，光纤(光)以及便携式光盘只读存储器(CDROM)(光)。应当注意：计算机可读取介质甚至可以是纸张或者能在其上打印程序的另外的适当介质，所述程序可以被电捕获，例如经由对该纸张或其他介质的光学扫描、然后编译、解释或者相反在必要时以适当的方式进行处理，然后存储在计算机存储器中。

应当强调的是：本发明的上述实施方式，尤其是任何“优选”实施方式(一个或多个)仅仅是实施的可能实例，其仅仅是阐述以清楚地理解本发明的原理。此外，在基本上不脱离本发明的精神和原理的情况下可以对本发明的上述实施方式做出许多变化和修改。所有这种修改和变化被认为是受到当前说明书的教导，包含在本发明的范围内，并受到所附权利要求的保护。

Claims

1.一种用于在医学图像数据内计算机辅助检测感兴趣部位或者体积体的方法，包括计算机辅助检测处理以检测并描绘候选的感兴趣部位或者体积体，以及在训练阶段中的计算机辅助检测后机器学习以最大化特异性并减少在处理非训练数据之后所报告的假阳性数目，所述方法包括步骤：

在训练阶段期间：

利用所述计算机辅助检测处理在医学图像训练数据集中识别并分割所述感兴趣部位或者体积体，其中有关特定感兴趣部位或者体积体的医学真实数据对于所述医学图像训练数据集是已知的，其中所述医学图像训练数据集被选择为包括多个根据真实数据已知为真的部位或者体积体和多个根据真实数据已知为假的部位或者体积体，

其中如果由于在一个基本真实类别中的感兴趣部位或者体积体的数目显著小于在另一个基本真实类别中的感兴趣部位或者体积体的数目而导致所述医学图像训练数据失衡，则执行层化处理来重新平衡所述图像训练数据，

从所识别并分割的感兴趣部位或者体积体中提取特征以创建特征池来限定所述感兴趣部位或者体积体，

向所述特征池应用遗传算法处理器以从在训练中使用的计算机辅助检测描绘的部位或者体积体的特征池中确定最优特征子集，所述最优特征子集用于由分类器使用来分类非训练数据内的感兴趣部位或者体积体，以及

使用最优特征子集在医学图像训练数据上训练所述分类器，以及

在训练之后，

在非训练数据内检测候选部位；

分割在非训练数据内识别的候选部位；

提取与每个所分割候选部位有关的候选特征集；以及

依照所述训练阶段中的处理、根据具有实际特异性的候选特征集将候选部位映射到真实数据空间中。

2.根据权利要求1所述的方法，其中所述分类器是支持向量机。

3.根据权利要求1所述的方法，其中所述向所述特征池应用遗传算法处理器以确定最优特征子集的步骤还包括：将在训练数据内的每个部位内所识别的特征池定义为染色体，其中每个基因表示一个特征，并且其中遗传算法最初通过随机选择特征来繁殖染色体，以及迭代搜索在所有染色体中具有较高适合度的那些染色体，其中在所述训练阶段期间为每代都重复评估，并利用变异和交叉生成比旧染色体更适合的新染色体。

4.根据权利要求3所述的方法，其中所述适合度由三个适合度功能表示，这三个适合度功能为灵敏度、特异性和染色体中所包括的特征数，以及

所述三个适合度功能以不同的优先级排序，所述灵敏度具有第一优先级，所述特异性具有第二优先级，所述特征数具有第三优先级。

5.根据权利要求1所述的方法，其中如果所述数据是失衡的而使得已知为假的部位或者体积体的数目明显多于已知为真的部位或者体积体的数目，那么所述层化处理从所述已知为假的部位或者体积体的数目中选择已知为假的部位或者体积体的新数目，从而使已知为假的部位或者体积体的新数目和已知为真的部位或者体积体的数目相互平衡。

6.如权利要求1所述的方法，包括训练用于对在医学图像数据内检测到的形态学上感兴趣的部位或者体积体进行分类的分类器，其中所述训练包括根据层化处理选择数据来训练分类器，该方法包括：

基于部位尺寸将已知为假的感兴趣部位或者体积体的池分隔到N数量个子集中，以便第N子集包括最大的感兴趣部位或者体积体子集，其中N是大于1的整数；

利用第N子集和所有已知为真的感兴趣部位或者体积体执行机器学习处理；

根据所述机器学习生成分类器；以及

向剩余的N-1个子集中的每一个应用该分类器。

7.一种用于在医学图像数据内计算机辅助检测感兴趣部位或者体积体的系统，包括计算机辅助检测子系统以检测并描绘候选的感兴趣部位或者体积体，以及计算机辅助检测后子系统，用于在训练阶段进行机器学习以最大化特异性并减少在处理非训练数据之后所报告的假阳性数目，所述系统包括：

在训练阶段期间使用的：

用于利用所述计算机辅助检测处理在医学图像训练数据集中识别并分割所述感兴趣部位或者体积体的装置，其中有关特定感兴趣部位或者体积体的医学真实数据对于所述医学图像训练数据集是已知的，其中所述医学图像训练数据集被选择为包括多个根据真实数据已知为真的部位或者体积体和多个根据真实数据已知为假的部位或者体积体；

用于其中如果由于在一个基本真实类别中的感兴趣部位或者体积体的数目显著小于在另一个基本真实类别中的感兴趣部位或者体积体的数目而导致所述医学图像训练数据失衡，则执行层化处理来重新平衡所述失衡的训练数据的装置；

特征提取器，用于从所识别并分割的感兴趣部位或者体积体中提取特征以创建特征池来限定所述感兴趣部位或者体积体；

用于向所述特征池应用遗传算法处理器以从在训练中使用的计算机辅助检测描绘的部位或者体积体的特征池中确定最优特征子集的装置，所述最优特征子集用于由分类器使用来分类非训练数据内的感兴趣部位或者体积体；以及

用于使用最优特征子集在所述医学图像训练数据上训练所述分类器的装置，以及

在训练之后使用的，

用于在非训练数据内检测候选部位或者体积体的装置；

用于分割在非训练数据内识别的候选部位或者体积体的装置；

用于提取与每个所分割候选部位或者体积体有关的候选特征集的装置；以及

用于依照所述训练阶段中的训练处理、根据具有实际特异性的候选特征集将候选部位或者体积体映射到真实数据空间中的装置。

8.根据权利要求7所述的系统，其中所述计算机辅助检测子系统还包括分割子系统，用于描绘所述感兴趣部位或者体积体。