CN101061951B

CN101061951B - 利用图像数据对组织进行分类的设备

Info

Publication number: CN101061951B
Application number: CN2006101729298A
Authority: CN
Inventors: T·富赫斯; C·诺伊鲍尔; B·沃奇曼; J·程
Original assignee: Siemens Medical Solutions USA Inc
Current assignee: Siemens Medical Solutions USA Inc
Priority date: 2005-07-15
Filing date: 2006-07-14
Publication date: 2010-10-13
Anticipated expiration: 2026-07-14
Also published as: CN101061951A; US7720267B2; US20070123773A1

Abstract

公开了一种用于基于图像数据对组织进行分类的技术。多个组织参数被从要被分类的图像数据(例如磁共振图像数据)中提取出来。参数被预处理，以及利用分类算法以及预处理后的参数对组织进行分类。在一个实施例中，参数通过参数的离散化被预处理。分类算法可以将决策模型用于组织的分类，以及决策模型可以通过在数据的训练集中利用预处理后的组织参数执行机器学习算法来产生。在一个实施例中，机器学习算法生成贝叶斯网络。所使用的图像数据可以是在嗜淋巴细胞的超顺磁毫微粒的静脉给药之前以及之后所获得的磁共振图像数据。

Description

利用图像数据对组织进行分类的设备

本申请要求于2005年7月15日提交的美国临时申请No.60/699,805的权益，该申请被结合于此作为参考。

技术领域

本发明通常涉及组织分类，并且更具体地涉及基于图像数据对组织的病理状态进行分类。

背景技术

组织转移的精确检测在优化对实体癌的治疗方面是必需的。特别地，存在对识别这样的转移的非侵入式技术的需要。以下描述将大体集中于淋巴结转移的检测，但是应理解的是本发明并不是这样受限制，而是可以被应用于任何类型的组织。

磁共振成像(MRI)是用于提供具有极好的解剖学细节以及软组织对比的图像的非侵入式技术，但是通常不适用于淋巴结转移的检测。然而，MRI的质量可以通过使用不同的显像剂以及采集技术而提高。更具体地，MRI的质量可以通过造影剂的使用、例如嗜淋巴细胞的(lymphotropic)超顺磁毫微粒的静脉给药而提高。这样的技术在由M.G.Harisinghani、J.Barentsz、P.F.Hahn、W.M.Deserno、S.Tabatabaci、C.H.van de Kaa、J.de la Rosette以及R.Weissleder于2003年在N Engl J Med的第348卷第25期第2491-2499页中发表的“Noninvasive Detection Of Clinically Occult Lymph-Node Metastases In ProstateCancer”；由T.Shen、R.Weissleder、M.Papisov、A.Jr.Bogdanov、TJ.Brady于1993年在Magn Reson Med.的第29卷第5期第599-604页中发表的“MonocrystallineIron Oxide Nanocompounds(Mion)：Physicochemical Properties”；以及由M.Harisinghani和R.Weissleder于2004年在PloS Med 1(3)第e66页中发表的“Sensitive Noninvasive Detection Of Lymph Node Metastases”中有所描述。

利用上述技术所获得的高质量MRI图像可以被用来利用下列步骤序列检测淋巴结转移。

1.检测

2.分割

3.分类；以及

4.显像

检测包括在MRI图像中找到淋巴结的位置，以及可以手动地或者利用自动算法来执行。检测在由M.Harisinghani和R.Weissleder于2004年在PloS Med 1(3)的第e66页中发表的名为“Sensitive Noninvasive Detection Of Lymph NodeMetastases”的文章中进一步被描述。分割包括从图像中的周围面积中分离出淋巴结，以及也可以手动地或者利用自动算法来执行。分割在由G.Unal、G.Slabaugh、A.Yezzi以及J.Tyan在西门子公司研究(2004)的SCR-04-TR-7495中发表的名为“Joint Segmentation And Non-Rigid Registration Without ShapePriors”的文章中进一步被描述。在检测和分割步骤中，几个参数被从描述淋巴结组织的磁、几何以及空间特性的图像中提取出来。这些下面将被更详细描述的参数被用在分类步骤中以便使用先前生成的决策模型对淋巴结的病理状态进行分类。最后，在显像步骤中，淋巴结的被提取出的和被分类的数据以2维和3维形式被显像，以允许综合描述和对诊断的支持。此外，显像可以用作在手术期间定位恶性结点的图。

分类步骤通常利用机器学习技术来执行，这些机器学习技术在由多个训练例子中的每一个的已知分类所提供的监督下操作。机器学习的目的是发现数据中的任何提供用于对数据进行分类的信息的结构。统计分类是机器学习的一种类型，它提取数据的特征表示(例如，图像参数)并将该特征表示映射为分类标记。分类算法被设计用于通过考虑将参数(X₁、X₂，...X_N)的向量映射成多个类中的一个的功能的几个输入-输出例子(训练数据)来学习该功能(近似该功能的特性)。训练数据由多对来自临床数据的输入对象(向量)以及经病理检验的类组成。该功能的输出可以是连续值或者可以预测输入对象的类标记。

用于分类的直接方法是参数的线性分析，例如如在由M.Harisinghani和R.Weissleder在2004年的PloS Med 1(3)第e66页中发表的“Sensitive NoninvasiveDetection Of Lymph Node Metastases”中所描述的。目的是找到参数的基于与经检验的类的比较最佳地区分给定类的阈值或者截止值。存在多种用于估计这些阈值的方法。但是，这种简单的线性分析的主要缺点是一次只能检验一个参数的事实。我们已发现单个参数单独地不具有足够的准确地区分良性和恶性淋巴结的判别能力。

发明内容

本发明提供一种用于基于图像数据对组织进行分类的改进技术。

在一个实施例中，多个组织参数被从要被分类的图像数据(例如，磁共振图像数据)中提取出来。这些参数被预处理，以及组织利用分类算法以及预处理后的参数被分类。在一个实施例中，参数通过参数的离散化而被预处理。

分类算法可以使用用于组织分类的决策模型。该决策模型可以通过执行利用预处理后的组织参数的机器学习算法来生成，其中组织参数是从图像数据中提取的。在一个实施例中，机器学习算法生成贝叶斯网络。

所使用的图像数据可以是在嗜淋巴细胞的超顺磁毫微粒的静脉给药之前和之后获得的磁共振图像数据。

通过参考下面的详细描述以及附图，本发明的这些和其他特点对于本领域普通技术人员来说将变得显而易见。

附图说明

图1示出可以被用来实现本发明的计算机的高级框图；

图2是显示从良性组织获得的参数的各种数值的表格；

图3是显示从恶性组织获得的参数的各种数值的表格；

图4是显示离散化组织参数的各种阈值的表格；

图5显示组织参数的数据库表格；

图6是说明用于构建贝叶斯网络的四阶段构造算法的流程图；

图7显示说明图6的四阶段构造算法的阶段I的更多细节的流程图；

图8显示说明图6的四阶段构造算法的阶段II的更多细节的流程图；

图9示出示范性贝叶斯网络；

图10示出示范性贝叶斯网络和概率表；

图11显示用于使用从图像数据中提取的组织参数生成决策模型的流程图；以及

图12显示用于使用先前生成的决策模型以及从图像数据中提取的组织参数来对组织进行分类的流程图。

具体实施方式

在这里所描述的处理步骤可以由适当编程的计算机执行，该计算机的配置在现有技术中是众所周知的。合适的计算机可以例如使用众所周知的计算机处理器、存储单元、存储装置、计算机软件以及其他部件来实现。在图1中示出了这样的计算机的高级框图。计算机102包括通过执行定义计算机102的全部操作的计算机程序指令来控制这样的操作的处理器104。当计算机程序指令的执行是希望的时，计算机程序指令可以被存储在存储装置112(例如磁盘、光盘或者任何其他计算机可读介质)中并被加载到存储器110中。存储器110也可以被用于存储在方法的各个步骤期间所使用的数据。计算机102还包括一个或者多个用来(例如在本地或者通过网络)与其他装置通信的接口106。计算机102还包括输入/输出108，其代表允许用户与计算机102交互的装置(例如，显示器、键盘、鼠标、扬声器、按钮等等)。本领域技术人员将认识到实际的计算机的实现也将包含其他部件，并且为了举例说明的目的，图1是这样的计算机的一些部件的高级表示。此外，本领域技术人员将认识到在这里所描述的处理步骤也可以利用专用硬件来实现，该专用硬件的电路被专门配置用于执行这样的处理步骤。替代地，该处理步骤可以利用硬件或者软件的各种组合来实现。此外，在各种实施方案中，在这里所描述的功能可以在专用设备上被执行，或者该功能也可以是执行其他功能的装置的一部分。

本发明使用从图像数据中提取的组织参数。图像数据是从磁共振成像装置中输出的数据，如在本领域中众所周知的。在一个实施例中，该图像数据被手动提取。在一个替代实施例中，参数可以从图像数据中自动提取。在有利的实施例中，在嗜淋巴细胞的超顺磁毫微粒的静脉给药之前以及24小时之后获取图像。在这里这些图像被分别称作预先对比扫描和在后对比扫描。下面是对这些参数的描述。

LNM比率淋巴结/肌肉比率。该比率根据在后对比扫描利用相似大小的感兴趣区域(ROI)通过将整个淋巴结的信号强度除以邻近肌肉的信号强度来计算。

T2^* 在结点的ROI中对双TE(在横向平面中的采样时间)图像计算T2^*。T2^*图通过逐像素地执行标准指数松弛模型

(S = K e^{- \frac{TE}{T 2^{*}}})

与数据的拟合来构建。在拟合过程期间仅仅具有比阈值水平(2×噪声)更大的强度的像素被考虑。这在由M.Harisinghani和R.Weissleder在2004年的PloS Med 1(3)的第e66页中发表的名为“Sensitive Noninvasive Detection of Lymph NodeMetastases”的文章中被进一步描述。

δT2^* 预先对比扫描以及在后对比扫描内的T2^*之间的差。

SNR 信噪比。(S/S_noise)。

S = \sqrt{\frac{1}{N - 1} Σ_{i = 1}^{N} {(x_{i} - \overset{&OverBar;}{x})}^{2}}

δSNR 预先对比扫描以及在后对比扫描内的SNR之间的差。

像素方差像素方差是在与淋巴结相关的MR图像中像素值在三维区域中的分布的第二中心矩，并且是根据在后对比扫描获得的。

病理类该类表示良性或者恶性结点并且是由专家根据组织学确定的。

在实验中所使用的数据集由216个组织学上有效的淋巴结组成并且包括来自正常结点到完全移位的结点的完整范围的46个恶性结点和170个良性结点。数据表明不同的值范围和分布类型。图2示出用于良性组织的每一个参数的平均值、标准偏差、中值、最小值、最大值、倾斜度以及峰度的数值，以及图3示出恶性组织的相同信息。如可以从倾斜度和峰度的值看出的那样，数据分布明显不同于正态分布。除了像素方差参数之外，对于恶性和良性结点来说，参数的标准偏差的数量级相同。当参数被组合时，参数分布的不同比例和宽度可能潜在地产生问题。然而，数据被离散化以便随后供贝叶斯网络使用(如下面更详细描述的)。参数的特定范围构成离散化的基础，该特定范围保证分布的差异被补偿。然而，离散化也引起一定的信息丢失。离散化可以利用在U.M.Fayyad和K.B.Irani于1993年在“Multi-Interval Discretization Of ContinuousValued Attributes For Classification Learning”(Proceedings of the ThirteenthInternational Joint Conference on Artificial Intelligence，Morgan Kaufmann，SanFrancisco，CA，第1022-1027页)中所描述的方法来执行。该方法的优点之一是它能够将一个特征分解成多于两个的范围(二元)以及因此产生标称数据。此外，范围的数目可以根据特征而变化。贝叶斯网络算法(如下所述)可以利用这个特性来建立不同特征的不同大小的概率表。因此，最终的贝叶斯网络可以比利用二元离散器更紧凑，该贝叶斯网络具有对模型的速度和解释能力的暗示。使用该方法计算的阈值被显示在图4中。注意LNM比率和像素方差参数被离散化为3个二进制(bin)以及因此针对这些参数给出2个阈值。

下列术语在这里被定义以便在描述本发明时使用。

截止值：截止值是阈值，该阈值将一个特征或者参数的值的范围分解成相关类的范围。

有向图：有向图G可以被定义为由结点的有限集V以及V的非自反的邻接关系E组成的有序对。图G被表示为(V，E)。对于每一个(x，y)∈E，我们说存在从结点x到结点y的弧(有向边)。在图中，这用从x到y的箭头来表示并且x和y被分别称作该箭头的起点和终点。我们也说结点x和y是邻接的或者x和y是彼此的邻居。X也被称为y的父以及y被称为x的子。通过递归地使用父和子的概念，我们也可以定义祖先和后代的概念。我们也把不具有任何父结点的结点称为根结点。我们用非自反的邻接关系来意指，对于任一x∈V，(x，x)

E，也就是说，弧不能将一个结点同时作为它的起点和终点。

邻接路径：在贝叶斯网络学习中，我们通常需要找到连接两个结点的路径而不考虑该路径上的边的方向性。为了区分这种路径与通过单向弧连接两个结点的有向路径，我们称这种路径为邻接路径或者链。该定义可应用于有向图、无向图以及混合图。

DAG：有向无环图(DAG)是不包含有向环的有向图。

碰撞点：对于邻接路径中的任一结点，如果路径中的两条弧在它们的终点处相遇于结点v，由于两个箭头在v处“碰撞”，我们称v为该路径的碰撞点。不是路径的碰撞点的结点被称为路径的非碰撞点。注意碰撞点的概念总是涉及特定路径。一个结点可以是一条路径中的碰撞点并且是另一条路径中的非碰撞点。

CI：条件独立(CI)如下被定义：令U＝{A，B，...}为具有离散值的变量的有限集。令P(·)是U中的变量的连接概率函数，以及令X、Y和Z是U中的变量的任何3个子集。如果每当P(y|z)＞0时P(x|y，z)＝P(x|z)，则给定Z时X和Y被认为是条件独立的。X和Y也被认为是以Z为条件独立的。

直接分离(d-separation)：对于DAG G＝(V，E)，X，Y∈V以及X≠Y以及C

V{X，Y}，当且仅当在X和Y之间不存在邻接路径P时，在G中给定C时，我们说X和Y是直接分离的，因此(i)P上的每一个碰撞点在C中或者在C中具有后代以及(ii)路径P上的其他结点不在C中。C被称为割集。如果给定C时X和Y不是直接分离的，则给定C时我们说X和Y是直接连接的。我们用符号⊥来表示直接分离。

马尔可夫覆盖：在DAG G＝(V，E)中，结点X∈V的马尔可夫覆盖由结点的父、结点的子以及结点的子的父组成。给定结点X∈V的马尔可夫覆盖，该结点X∈V条件独立于整个图。

如上面在背景技术部分中所述的，利用参数的线性分析的分类提供不充分的结果，因为参数本身不具有足够的准确区分良性和恶性结点的判别能力。因此，根据本发明的一个实施例使用贝叶斯网络分类器。

贝叶斯网络是具有表示变量的结点和象征变量之间的依赖关系的弧的有向无环图(DAG)。如果存在从结点A到另一个结点B的弧，则A是B的父。如果结点具有已知值，则它是一个显著结点。在当前实施例中，结点代表上述的图像参数。为了构建随后可以被用作分类器的贝叶斯网络，相关分析算法被使用。根据本发明的一个实施例的算法一般基于：由J.Cheng、D.A.Bell以及W.Liu于1997年在Proc.of Conf.on Information and KnowledgeManagement(CIKM)第325-331页中发表的“Learning Belief Networks FromData：An Information Theory Based Approach”；由J.Cheng以及R.Greiner于2001年在Lecture Notes in Computer Science第2056卷第141-151页中发表的“LearningBayesian Belief Network Classifiers：Algorithms And System”以及由J.Cheng、C.Hatzis、H.Hayashi、M.-A.Krogel、S.Morishita、D.Page以及J.Sese于2002年在SIGKDDExplorations第3卷第2期第47-64页中发表的“KDD Cup 2001Report”。但是，根据本发明的一个实施例的算法以各种各样的方式扩展这些算法。该算法使用信息理论测量来检测条件独立关系并且直接分离的概念被应用于推断网络的结构。这是可能的，因为在由D.Geiger以及J.Pearl于1988年发表的“Logical And Algorithmic Properties Of Conditional Indenpendence”(Technical Report R-97，Cognitive Systems Laboratory，UCLA)中已经表明，直接分离的概念可以揭示所有的在贝叶斯网络中被编码的条件独立关系。在学习算法中，两个参数之间的信息流的量被测量以确定是否对应于条件集的一组值可以减小并且最终阻断该信息流。这些结果引导根据给定的数据集对贝叶斯网络的正确结构的构建。因此，两个结点之间的共有信息可以指示是否两个结点是相互依赖的以及它们的关系有多紧密。两个结点X_i、X_j的共有信息被定义为：

(1) I (X_{i}, X_{j}) = \underset{x_{i}, x_{j}}{Σ} P (x_{i}, x_{j}) \log \frac{P (x_{i}, x_{j})}{P (x_{i}) P (x_{j})}

以及条件共有信息被定义为

(2) I (X_{i}, X_{j} | C) = \underset{x_{i}, x_{j}, c}{Σ} P ({x_{i}, x}_{j}, c) \log \frac{P (x_{i}, x_{j} | c)}{P (x_{i} | c) P (x_{j} | c)}

其中C是结点集。当I(X_i，X_j)比某一阈值ε更小时，X_i，X_j被认为边缘独立。当I(X_i，X_j|C)比ε更小时，X_i，X_j被认为是在给定C时条件独立。

为了从数据中学习贝叶斯网络，如图5中所示，参数的数据库表500被用作输入。表500的每一个参数(列)被看作是随机变量，该随机变量由贝叶斯网络中的结点表示。表500的每一个记录(行)是随机变量在域中的完整示例。等式(1)和(2)中的边缘以及条件概率利用根据表500所计算的相对频率来估计。

贝叶斯网络基于如图6中所示的四阶段构造算法来构建。第一阶段602计算每一个结点对的共有信息作为接近度的量度以及基于该信息创建草图。第二阶段604在结点对并非以某一条件集条件独立时添加弧。在第三阶段606中，图的每一条弧利用条件独立测试来检查，并且如果该弧的两个结点条件独立，则该弧被去除。在最后的阶段608中，类结点的马尔可夫覆盖被计算以及不是该马尔可夫覆盖的一部分的所有结点被从图中删除。该贝叶斯网络构造算法在本领域中是公知的，以及在由J.Cheng、D.A.Bell以及W.Liu于1997年在Proc.ofConf.on Information and Knowledge Management(CIKM)第325-331页中发表的“Learning Belief Networks from Data：An information Theory Based Approach”中被更详细地描述。每一阶段的更多细节将在下面被描述。

图7示出说明图6的阶段I的更多细节的流程图。在步骤702中，图G＝(V，E)被创制，其中V＝{数据集的所有参数}U{类结点}，E＝{

}。接着，在步骤704中空列表L被创制。接着，在步骤706中，针对每一个结点v_i∈V\{c}，使用等式(1)计算与类结点c的共有信息I(v_i，c)。在步骤708中，V中的所有这样的结点被删除，对于这些结点来说与c的共有信息比某一小值ε更小。在步骤710中，针对剩余的每一结点对(v_i，v_j)，其中v_i，v_j∈V以及i≠j，利用等式(1)计算共有信息I(v_i，v_j)。在步骤712中，针对所有具有比ε大的共有信息的结点对，结点基于它们的共有信息值从最大到最小被排序并被输入到列表L中。在步骤714中创建指向L中的第一结点对的指针p。接着，在步骤716中，列表L的头两个结点对被获得，在步骤718中相应的弧被添加到E中，以及在步骤720中结点被从列表中去除。在步骤722中指针p被更新以指向下一结点对。接着，在步骤724中，L中的由指针p指向的结点对被获得。在步骤726中，确定是否两个结点是直接分离的。该确定利用Bayes-Ball算法来进行，如R.Shachter于1998年在“Bayes-Ball：The Rational Pastime(For DeterminingIrrelevance And Requisite Information In Belief Networks And InfluenceDiagrams)”(Proceedings of the 14th Annual Conference on Uncertainty in ArtificialIntelligence，(UAI-98)，publisher Morgan Kaufmann，San Francisco，CA)中所述的。如果结点不是直接分离的，则控制转到步骤732。如果结点是直接分离的，相应的弧在步骤728中被添加到E中以及在步骤730中该结点对被从L中去除。在步骤732中，指针p被更新以指向L中的下一结点对。在步骤734中确定是否有更多的结点要处理(也就是说，p没有指向L的末端)。如果有更多的结点要处理，则控制转到步骤724以及重复步骤724-734。如果没有更多的结点要处理，则处理移到阶段II。

图8示出说明图6的阶段II的更多细节的流程图。首先在步骤802中，指针p被设定为指向L中的第一结点对。步骤804在指针p的位置处从L中重新获得该结点对(结点1，结点2)。步骤806找到可以在当前图中直接分离结点1和结点2的割集。步骤808利用等式(2)计算条件共有信息。步骤810利用来自步骤808的计算来确定是否结点1和结点2在给定该割集时条件独立。如果是，则控制转到步骤814。如果否，则步骤812通过将相应的弧添加到E中来连接该结点对。在步骤814中指针P被更新以指向L中的下一结点对。在步骤816中确定是否有更多的结点要处理(也就是说，p没有指向L的末端)。如果有更多的结点要处理，则控制转到步骤804以及步骤804-816被重复。如果没有更多的结点要处理，则处理移到阶段III。

阶段III的更多细节如下。对于E中的每一条弧(结点1，结点2)来说，如果在这两个结点之间除了该弧之外还存在其他路径，则从E中暂时去除该弧。找到可以在当前图中直接分离结点1和结点2的割集。等式(2)被用来计算条件共有信息以确定是否结点1和结点2在给定该割集时条件独立。如果是，该弧被永久去除。如果否，该弧被加回到E中。

阶段IV的更多细节如下。在阶段IV中，确定哪些结点v_i∈V\{c}在类结点c的马尔可夫覆盖中。不是该马尔可夫覆盖的一部分的所有结点都被从V中去除。

在阶段II和阶段III中必须找到割集，如果图是复杂的并且在结点对之间存在许多(例如数百)条路径，则该割集在计算上可以是非常昂贵的。在由J.Cheng、D.A.Bell以及W.Liu于1997年在CIKM第325-331中发表的“Learningbelief networks from data：An information theory based approach”中描述的第一过程可能是相当慢的，因为它必须作用于所有的路径。因此，在一个实施例中，用于计算割集的变型方案如下被使用：

{

P_i∈Parents(结点2)|P_i⊥结点1} (3)

基于等式(3)，如果结点2不是结点1的祖先，则割集由所有与结点1直接连接的结点2的父组成。尽管利用等式(3)所找到的割集比按照由J.Cheng、D.A.Bell以及W.Liu于1997年在Proc.of Conf.on Information and KnowledgeManagement(CIKM)第325-331页中发表的“Learning Belief Networks FromData：An Information Theory Based Approach”中所述的第一过程所找到的割集要大，但检查直接分离花费很少的时间并且所产生的割集通常完全可接受。利用适当的面向对象的实施方案，父应该可以从每一个结点直接到达而无需搜索。因此，在一个实施例中该算法以面向对象的方式实现，如在本领域中众所周知的，在这种情况下在O(n)时间内可到达结点的父。

当在0.01到0.3之间改变贝叶斯网络构造算法的ε参数时对数据进行了测试。小的ε导致结点之间的大量边，这导致密集网络。大的ε产生稀疏网络并且可能导致朴素(naive)贝叶斯分类器的网络结构，在该网络结构中所有图结点仅仅被连接到类结点上。利用0.19到0.22之间的ε实现了具有0.93％的差错的最佳结果。

因此，根据以上描述，用于对淋巴结的转移进行分类的模型按照1)数据的离散化阈值、2)贝叶斯网络的图结构以及3)所使用的参数的图结点的概率表来定义。上面结合图4描述了为了对数据进行离散化而必须使用的阈值。利用上述算法所构造的以及显示参数之间的相关性的贝叶斯网络被显示在图9中。像素方差、SNR、δSNR以及dT2^*参数对于病理类来说是最有影响的以及因此该网络由5个图结点组成。模型的第三部分由每一个图结点(也就是参数)的概率表组成。这些概率表连同最终的图一起被显示在图10中。图10示出具有病理类的结点1002以及4个最有影响的特征的结点1004、1006、1008、1010的贝叶斯网络，这4个最有影响的特征在该例子中是成像参数。每一个结点的表显示如在每个表的第一列中所列出的每一个离散化范围的病理类(良性或恶性)的概率。

重要的是注意：这个模型中的分类器是朴素贝叶斯分类器并且它也可以由比上述算法更简单的学习算法产生。上述学习算法产生关于测试数据集的朴素贝叶斯分类器的主要原因是少量的特征和它们的独立性。数据集仅仅由6个磁性组织参数组成，其中仅有4个具有被认为对病理类有影响的、合理的高的共有信息。可以降低ε阈值直到所有的参数都被表示在分类器中并且朴素贝叶斯图被省略。但是，这导致具有不合理关系和不相关的边、例如淋巴结/肌肉比率参数对T2^*参数的影响的图。此外，同样包含这种具有非常低的共有信息的不合理关系的过于密集的图导致更坏的分类结果。因此，利用合理选择的ε，在这里所描述的算法产生关于该特定数据集的朴素贝叶斯分类器。

与更简单的朴素贝叶斯算法相比更喜欢上述学习算法的一个原因是增加多种不同特征以及产生复杂贝叶斯分类器的可能性。例如，特征可以根据附加磁性组织参数、根据患者的医疗记录、根据基因表现以及蛋白质表现等等被增加。在这些更加复杂的情况中，具有能够学习复杂模型以及能够显示参数之间的关系的算法是至关重要的。

图11示出利用上述技术的、用于利用从图像数据中提取的组织参数产生决策模型的本发明的一个实施例。首先，在步骤1102中，从图像数据中提取组织参数。这些所提取的组织参数被用于产生在分类步骤期间要使用的训练数据。接着，在步骤1104中，参数被预处理。一种预处理是上述的参数离散化。接着，在步骤1106中，预处理后的参数被用作训练数据以便产生决策模型(例如贝叶斯网络)。当决策模型被产生后，该决策模型于是可以被用来对未知的组织样本进行分类。

图12示出利用上述技术的、用于利用先前所产生的决策模型以及从图像数据中提取的组织参数对组织进行分类的本发明的一个实施例。首先，在步骤1202中，从要被分类的组织的图像数据中提取组织参数。接着，在步骤1204中，参数被预处理(例如离散化)。在步骤1206中，利用分类算法、(例如来自图11的)先前产生的决策模型以及预处理后的参数对组织进行分类。

在前的详细描述应被理解为在每一方面都是说明性的和示范性的，而不是限制性的，并且在此所公开的本发明的范围不应根据详细描述来确定，而是应根据如按照专利法所允许的最大宽度所解释的权利要求来确定。应理解的是，在此示出和描述的实施例仅仅是本发明的原理的说明以及本领域技术人员在不脱离本发明的范围和精神的情况下可以实现各种修改。本领域技术人员在不脱离本发明的范围和精神的情况下可以实现各种其他特征组合。

Claims

1.一种用于基于从要被分类的组织的图像数据中提取的多个组织参数对组织的病理状态进行分类的设备，所述设备包括：

用于对所述多个组织参数中的每一个进行预处理的装置；以及

用于利用分类算法以及预处理后的所述组织参数对所述组织进行分类的装置，

其中所述用于预处理的装置包括用于离散化的装置。

2.如权利要求1的设备，其中所述分类算法利用贝叶斯网络。

3.如权利要求1的设备，其中所述组织是淋巴结。

4.如权利要求1的设备，其中所述图像数据是来自磁共振成像机器的图像数据。

5.如权利要求1的设备，其中所述组织参数包括下列项中的至少一个：LNM比率、T2^*、δT2^*、SNR、δSNR以及像素方差。

6.一种用于利用从图像数据中提取的多个组织参数对组织的病理状态进行分类的设备，所述设备包括：

用于对所述多个组织参数进行预处理的装置；以及

用于通过利用预处理后的所述组织参数执行机器学习算法来生成决策模型的装置，

其中所述用于预处理的装置包括用于离散化的装置。

7.如权利要求6的设备，其中所述决策模型包括贝叶斯网络。

8.如权利要求6的设备，其中所述组织是淋巴结。

9.如权利要求6的设备，其中所述图像数据是来自磁共振成像机器的图像数据。

10.如权利要求6的设备，其中所述组织参数包括下列项中的至少一个：LNM比率、T2^*、δT2^*、SNR、δSNR以及像素方差。