CN101501712B

CN101501712B - 将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置

Info

Publication number: CN101501712B
Application number: CN2007800298381A
Authority: CN
Inventors: L·赵; L·博罗茨基; K·P·李
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-08-11
Filing date: 2007-08-02
Publication date: 2012-09-05
Anticipated expiration: 2027-08-02
Also published as: CN101501712A; EP2052355A2; JP2010500081A; WO2008017991A2; RU2009108639A; RU2449365C2; US8311310B2; WO2008017991A3; US20100177943A1

Abstract

提供了训练系统的方法和装置，该系统用于开发数据挖掘、假阳性减少、计算机辅助检测、计算机辅助诊断和人工智能的方法。一种方法包括使用系统数据缩放从一组训练案例中选择一个训练集，并基于该训练集使用分类方法创建一个分类器。该分类器产生更少的假阳性。该方法适用于与多种数据挖掘技术，包括支持向量机、神经网络和决策树，一起使用。

Description

将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置

技术领域

本申请的技术领域是将系统数据缩放(systematic data scaling)集成在基于遗传算法的特征子集选择系统中的方法和装置，其中该基于遗传算法的特征子集选择系统用于数据挖掘、假阳性减少(false positive reduction，FPR)、计算机辅助检测(CAD)、计算机辅助诊断(CADx)和人工智能。

背景技术

CAD算法已经发展到根据多切片计算机控制断层(multi-slice computedtomography，MSCT)扫描自动识别医学上的重要解剖特性，例如可疑病变，从而提供第二意见供放射科医生使用。这些算法有助于癌症的早期检测，使生存率提高。例如，肺癌是最常见的不治之症中的一种，据预测2006年在美国将有162,460人死于肺癌(美国癌症协会，“Cancer Facts&Figures2006(癌症事实与数字2006)”，亚特兰大2006)，尽管外科手术技术和疗法已经提高，但是肺癌患者的5年生存率仍然只有约15％。然而，对于在疾病仍处于局部时被检测到的情况，生存率显著提高到约50％。因此，可疑病变的早期检测和诊断使得能够较早的介入，并能够产生更好的诊断和生存率。

已知使用机器学习技术作为后处理步骤来排除由CAD算法误识别为肺结节的假阳性结构。Mousa和Khan使用支持向量机(SVM)将肺结节与非结节分离(W.A.H.Mousa&M.A.U.Khan，Lung nodule classification utilizingsupport vector machines，presented at Int’l Conf.On Image Processing，2002)。

Ge等人已经提出了一种基于3D特征的线性判别式分类器(Ge et al.，Computer aided detection of lung nodules：false positive reduction using a 3Dgradient field method，presented at Medical Imaging 2004：Image Processing，San Diego 2004)。

Suzuki等人已经提出了一种大规模的训练人工神经网络(massivetraining artificial neural network，MTANN)，其能够直接对图像数据进行操作，并且不需要特征提取(K.Suzuki et al.，Massive training artificial neuralnetwork(MTANN)for reduction of false positives in computerized detection oflung nodules in low-dose computed tomography，30 Med.PHYSICS 1602-17，2003)。他们得出结论，MTANN和基于规则的/线性-识别分类器的结合可能比仅使用MTANN对FPR更有用。大多数现有的对FPR的工作遵循与监督学习相同的方法：以收集地面真实数据开始，使用一个或多个用户认为是适当的一组特征来用这些数据训练一个分类器。

虽然近来MSCT的改进使得能够在比以前更早的阶段检测到诸如肺癌、肝癌或乳腺癌的癌症，但是这些方法仍然导致了大量必须由放射科医生进行解释的数据，这是一个消耗大量成本和时间的过程。CAD算法具有高敏感性，然而，它们中没有一个运行得具有理想的准确度(即，能够检测到所有确实是肺结节的结构并且只检测到这些结构)。一些非结节结构(如血管)经常被错误地标记为结节。由于临床医生，如放射科医生，必须检查每个识别出的结构，所以非常希望能够消除尽可能多的假阳性(FP)，同时保留真阳性(TP)，即结节，从而避免由对假阳性进行不必要的检查所导致的疲劳和错误。这作为假阳性减少(FPR)是已知的。与其它旨在减少误分类的情况的总数的分类任务不同，此处的目的是在保留所有的TP的限制下(维持100％的敏感性)，消除尽可能多的FP(使特异性最大化)。

虽然已经描述了假阳性减少系统，但是这种系统的目标，即在维持100％的敏感性的同时实现特异性最大化，仍然是难以获得的。

发明内容

本发明的一个实施例提供了一种在数据挖掘、计算机辅助检测、计算机辅助诊断和人工智能中提高分类准确度并减少假阳性的方法。所述方法包括使用系统数据缩放方法，从一组训练案例中选择训练集。所述方法还包括使用分类方法，基于所述训练集来创建分类器，其中所述系统数据缩放方法和事实分类方法产生所述分类器，从而减少假阳性并提高分类准确性。

在一个相关实施例中，所述分类器从由支持向量机、神经网络和决策树组成的组中进行选择。

另一个实施例进一步包括使用测试集对基于所述训练集由所述分类方法产生的所述分类器进行评价。

在另一实施例中，选择训练集进一步包括从所述训练集中去除与真结节形成Tomek链的假结节，直到满足一个阈值。在一个相关实施例中，相对于向下缩放因子(downscaling factor)x来确定所述阈值，使得在系统数据缩放后留在所述训练集中的假结节的数量不超过所述训练集中的真结节的数量的x倍。

在一个相关实施例中，所述方法包括利用该组测试案例或其子集来验证所述分类器。

还提供了一种当执行时实施上述任一方法的遗传算法。在一个相关实施例中，该遗传算法是CHC算法(L.J.Eshelman，The CHC Adaptive SearchAlgorithm：How to Have Safe Search When Engaging in Nontraditional GeneticRecombination，in FOUNDATIONS OF GENETIC ALGORIGHMS 265-83，G.J.E.Rawlines，ed.1991)。

还提供了一种使用上述遗传算法从特征库中选择特征的方法，所述方法具有以下步骤：提供根据上述方法的第一遗传算法和第二遗传算法中的每个，其中所述第一遗传算法用来确定所述特征集的最佳大小；以及固定所述特征集的大小并使用所述第二遗传算法来选择特征。在一个相关实施例中，在提供所述第一遗传算法时，所述方法进一步包括使用下列各项中的至少一项来对结果进行分析：表示不同特征子集大小的染色体出现的数量和平均错误的数量。在进一步的实施例中，“平均错误的数量”是由所述分类器基于这些染色体所导致的错误分类的肺结节的数量。

还提供了一种当执行时实施上述任一方法的计算机可读介质。

还提供了一种制造产品，所述制造产品是成像设备或假阳性减少设备，其中所述设备是被编程以通过实施上述任一方法来分析图像数据的计算机。

在一个相关实施例中，在上述制造产品中，所述图像设备从包括下列各项的组中选择：计算机控制断层扫描(CT)、计算机控制轴向断层扫描(CAT)、多切片计算机控制断层扫描(MSCT)、X射线断层摄影(body sectionroentgenography)、超声波、磁共振成像(MRI)、磁共振体层摄影(MRT)、核磁共振(NMR)、X射线、显微镜、荧光透视、X线断层摄影(tomography)和数字成像。在上述制造产品的进一步实施例中，所述制造产品是肺结节CAD系统。

附图说明

图1是乳腺超声扫描的CAD输出的图像，其中具有一个检测到并进行了描绘的病变。

图2是肺CT扫描的CAD输出，其中具有两个识别出的检测到的病变；

图3是基于遗传算法的特征子集选择的框图。

图4是使用在图3中选择的最佳特征子集的假阳性减少过程的框图。

图5示出从训练集中去除假阳性的系统向下缩放方法的运行效果。

图6是描述将系统数据缩放(系统向下缩放)集成到GA特征子集选择过程的框图。

图7是示出了对于大小为5的特征子集的遗传算法的性能的图表，其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。

图8是示出了对于大小为6的特征子集的遗传算法的性能的图表，其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。

图9是示出了对于大小为7的特征子集的遗传算法的性能的图表，其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。

图10是示出了对于大小为8的特征子集的遗传算法的性能的图表，其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。

图11是示出了对于大小为9的特征子集的遗传算法的性能的图表，其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。

图12是示出了对于大小为10的特征子集的遗传算法的性能的图表，其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。

图13是示出了对于大小为11的特征子集的遗传算法的性能的图表，其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。

图14是示出了对于大小为12的特征子集的遗传算法的性能的图表，其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。

具体实施方式

因此，本发明的一个目的是将系统数据缩放集成到遗传算法中的候选特征子集的评价。

支持向量机(SVM)是用于机器学习的相对较新的工具(B.E.Boser，I.Guyon &V.Vapnik，A training algorithm for optimal margin classifiers，presented at 5^th Annual ACM Workshop on Computational Learning Theory，Pittsburgh 1992)。从19世纪90年代后期开始，SVM已经越来越广泛(V.N.VAPNIK，THE NATURE OF STATISTICAL LEARNINGTHEORY(1995)；V.N.VAPNIK，STATISTICAL LAERNNING THEORY，1998)。目前支持向量机是用于从文本到基因数据的大量分类任务的最佳执行者之一，然而，如在此处所描述的，还存在许多问题。

SVM将分类目标的任务处理成两类中的一类，并假定一些样本已经被分类。这种类型的监督机器学习的目的是提出一个函数，其能够“正确地”将任何新的目标分类。SVM理论可以表示成如下形式：对于大小为m的训练数据集{x_i，y_i}，每个数据点由特征向量x_i∈R^d描述，并且先验知识是每个x_i属于两种类型y_i∈{-1，1}中的一个(i＝1，...，m)。给定一个新的数据点x，SVM理论的目的是确定一个函数f，以使得{x，f(x)}在某种意义上类似于所给的训练数据。假定可能找到一个超平面w·x+b＝0(其中点表示内积)，使得所有的阳性样本(y＝1)位于平面的一侧，而阴性样本(y＝-1)位于另一面，即

w·x_i+b≥+1 如果y_i＝1

w·x_i+b≤-1 如果y_i＝-1

在这种情况中，训练集是线性可分的。给定一个新的数据点x，计算w·x+b，并且值的符号告知x是阳性还是阴性样本。换句话说，函数f(x)＝sgn(w·x+b)确定任意新向量x的分类。

在大多数情况中，不可能找到一个能够整齐地分隔阳性和阴性样本的超平面。SVM将原始特征向量映射到(通常)更高的维度空间，在那里可以找到这样一个超平面：

这种映射Φ被称为核函数。存在许多能够分隔数据集的超平面。选择一个超平面使得训练数据向量的最小距离(即，到超平面的垂直距离)最大。与超平面的这个最小距离的向量称为支持向量。支持向量集确定了该分隔超平面。其他的向量可以被抛弃，而不需要改变解决方案，并且如果任何支持向量被去除，超平面将改变。因此找到这个超平面是一个最优化问题。

表面上，映射到更高的维度空间可能导致计算问题。然而，SVM理论表明能够选择核函数，以使得结果函数f对于计算是有吸引力的。

此处使用的术语“分类器”描述能够预测一个对象属于哪个组或类别的任何类型的方法或装置。这个定义包括但不限于：数据挖掘工具和技术，如支持向量机、神经网络和决策树。

此处使用的术语“分类方法”描述生成分类器的任何手段。这个定义包括但不限于：数据挖掘工具和技术，如Broser等人用于创建SVM，C4.5，J4.8的算法，以及APRIORI方法(B.E.Boser，I.Guyon & V.Vapnik，Atraining algorithm for optimal margin classifiers，presented at 5^th Annual ACMWorkshop on Computational Learning Theory，Pittsburgh 1992)。

此处提供的本发明的一个实施例是一个基于机器学习的FPR单元，其具有三个主要的处理部分：特征提取、SVM驱动的基于GA的特征子集选择以及SVM分类器。特征提取单元根据CT扫描计算若干个2D和3D特征，以用于区分真结节和非结节。这些特征组成特征库，用于特征子集选择步骤，其只在系统的设计阶段执行。一旦选定一个最佳的特征子集，并且根据该最佳的特征子集创建了一个分类器，系统就只包括特征提取和分类器。本发明的一个实施例使用支持向量机，因为它对于各种分类任务，包括医学决策支持，有更好的性能。也可以使用其它分类器，如神经网络。

为了防止不必要的计算和过拟和，并确保可靠的分类器，使用遗传算法(GA)来选择特征子集。包装方法(wrapper approach)包括与用于产生选择标准的分类器相连的特征选择算法(R.Kohavi & G.H.John，The WrapperApproach，97 ARTIFICIAL INTELLIGENCE 273-324，1997)。一种可能的分类器/特征选择算法的组合是SVM，并且使用称为CHC的GA(L.J.Eshelman，The CHC Adaptive Search Algorithm：How to Have Safe Search When Engagingin Nontraditional Genetic Recombination，in FOUNDATIONS OF GENETICALGORITHMS 265-83，G.J.E.Rawlines，ed.1991)。CHC是理想的，由于它对于一大类问题的健壮的查找特性。特征选择方法能够自动确定这种特征的最佳大小和集合。

通常，此处的方法包括创建一定数量的由多个“基因”组成的“染色体”，每个基因代表一个选择的特征(D.Schaffer et al.，A Genetic AlgorithmApproach for Discovering Diagnostic Patterns in Molecular Measurement Data，PROCEEDINGS OF THE 2005 IEEE SYMPOSIUM ON COMPUTATIONALINTELLIGENCE IN BIOINFORMATICS AND COMPUTATIONALBIOLOGY 1，2005)。

由染色体代表的特征集被用来使用与特征子集相对应的那部分训练数据来训练SVM。根据产生的SVM在测试数据上执行得怎么样来评价染色体的适应性。在一个实施例中，在测试集上执行一个分级适应性函数，该分级适应性函数基于SVM分类的真结节保留和假阳性消除率。在替换实施例中，有可能开发和使用不同的适应性函数。

在这个过程的开始，通过随机选择形成染色体的特征来产生一组染色体。然后该算法反复地查找那些具有更高性能值(更高适应性)的染色体。在每一代，GA评价该组中的每个染色体的适应性，并通过两个主要的进化方法，突变和交叉，从适应的染色体中产生新的染色体。好的染色体中的基因更倾向于被下一代保留，而具有性能较差的染色体更容易被丢弃。最终，通过这个适者生存的过程找到了高性能的特征的集合。

本发明的一个目的是通过将系统数据缩放集成到候选特征子集的评价中来提高遗传算法的性能。在这个实施例中，系统数据缩放被用来从一组训练案例中选择一个训练集。

对于每组候选特征子集，从该组训练案例中选择一个训练集。临界假阳性案例被从训练集去除。然后训练集被用来产生一个分类器，该分类器作为遗传算法的一部分被用来评价候选特征子集的适应性。

在另一个实施例中，临界假阳性可以通过Tomek链(Tomek link)的概念来识别(G.E.A.P.A.Batista，A Study of the Behavior of Several Methods forBalancing Machine Learning Training Data，6 SIGKDD EXPLORATIONS20-29，2004)。给定真结节案例A和假结节案例B，d(A，B)为A和B之间的距离。如果没有样本C(它可以是真结节或假结节)使得d(A，C)＜d(A，B)或d(B，C)＜d(A，B)，则(A，B)对被称为Tomek链。如果A和B形成Tomek链，那么A或B是噪声或A和B都是临界。当Tomek链用在这种假阳性减少方案中时，作为一种向下缩放方法，只有假阳性案例B被去除。图5示出这种向下缩放方法是如何工作以保留更多的真结节的。

在进一步的实施例中，去除的假阳性案例的数量可以被调整以更好地获得理想的特异性或敏感性。这通过使用向下缩放因子x来实现。向下缩放因子(x)被定义为：留在训练集中的假结节的数量(在去除边界假阳性案例后)不超过训练集中的真结节的数量的x倍。这个因子可以被调整。降低x能够产生更好的敏感性(更差的特异性)。增加x能够产生更差的敏感性(更好的特异性)。对于假阳性减少，一个通常的目标是能够使特异性最大同时保持100％的敏感性的最大的因子(x的值)。

用实例来验证本发明。第一个实例比较了三种向下缩放方法：随机向下缩放、系统向下缩放(向下缩放因子为2)以及系统向下缩放(向下缩放因子为3)。

首先将数据集划分为学习集和验证集。

	学习集	验证集
			真结节	67	22
假结节	483	160

数据划分方法使用下面的模式。

对于随机向下缩放：

对于系统向下缩放(因子为2和3)：

对于这个实例，评价了特征子集大小5至12，它们之前从23个特征的特征库中确定为最佳特征子集。对于每个大小，进行下表中的实施：

除了此处描述的数据划分模式，下面的配置文件用于每个GA运行。每个GA运行包括3个独立的实验，每个实验有最大800,000个测试。

experiments＝3total trials＝800000optimum value＝-1.0nb of B_genes＝0bits per gene＝0nb of I_genes＝10I_genes range＝10×23options＝LeNwMrandom seeds＝98741520 7421398740 123870 521350 99999990report interval＝100population size＝50divergence：max n＝3n_perf＝2

对于上表中的每个最佳特征子集，进行验证，并且对于10个种子获得“敏感性”(计算为误分类的真阳性的#)和“特异性”(计算为假阳性减少的％)值并进行平均。画出了一定数量的散点图(ROC曲线)来进行比较(图7-14)。

对于每个子集大小画出了一个图。在该图上，X轴表示敏感性(误分类的真阳性的#)，Y轴表示特异性(假阳性减少的％)。每个图上有三条曲线，是由对16个向下缩放因子(1.5，1.6，1.7...3.0)的验证结果创建的。

如图中所示，除大小11和12外，当允许1-2个真结节的误分类(这是一个合理的数量)时，由“系统向下缩放-因子2”选择的特征子集比由“随机向下缩放”选择的特征子集表现更好。这由这样的事实所反应，即当x具有1和2之间的值时，因子2特征曲线在随机特征曲线的上方。

这个实例表明由该方法选择的特征子集比之前的基于随机数据缩放的GA特征子集选择更好(获得了更大的特异性)。

进一步显而易见的是，在不脱离所附权利要求及其等价形式的精神和范围内，可以构想出本发明的其他和进一步的形式，以及除了上述具体和示例性实施例之外的实施例，因此本发明的范围意在包括这些等价形式，并且说明书和权利要求是示例性的而不应该作为进一步的限定。

Claims

1.一种在数据挖掘、计算机辅助检测、计算机辅助诊断和人工智能中提高分类准确性并减少假阳性的方法，所述方法包括：

使用系统数据缩放方法，从一组训练案例中选择训练集；以及

使用分类方法，基于所述训练集来创建分类器，

其中所述系统数据缩放方法和所述分类方法产生所述分类器，从而减少假阳性并提高分类准确性。

2.根据权利要求1所述的方法，其中所述分类器从由支持向量机、神经网络和决策树组成的组中进行选择。

3.根据权利要求1所述的方法，所述方法进一步包括使用测试集对基于所述训练集由所述分类方法产生的所述分类器进行评价。

4.根据权利要求1所述的方法，其中选择进一步包括从所述训练集中去除与真结节形成Tomek链的假结节，直到满足一个阈值。

5.根据权利要求4所述的方法，其中相对于向下缩放因子x来确定所述阈值，使得在系统数据缩放后留在所述训练集中的假结节的数量不超过所述训练集中的真结节的数量的x倍。

6.根据权利要求1所述的方法，其中所述方法进一步包括利用该组训练案例或其子集来验证所述分类器。

7.一种从特征库中选择特征的方法，所述方法包括：

提供第一遗传算法和第二遗传算法中的每个，其中所述第一遗传算法和所述第二遗传算法在被执行时实现权利要求1所述的方法；

使用所述第一遗传算法来确定所述特征集的最佳大小；

固定所述特征集的大小；以及

使用所述第二遗传算法来选择特征。

8.根据权利要求7所述的方法，其中在提供所述第一遗传算法时，所述方法进一步包括使用下列各项中的至少一项来对结果进行分析：表示不同特征子集大小的染色体出现的数量和平均错误的数量。

9.根据权利要求8所述的方法，其中平均错误的数量是误分类的肺结节的数量。

10.一种在数据挖掘、计算机辅助检测、计算机辅助诊断和人工智能中提高分类准确性并减少假阳性的装置，所述装置包括：

用于使用系统数据缩放方法，从一组训练案例中选择训练集的模块；以及

用于使用分类方法，基于所述训练集来创建分类器的模块，

其中所述系统数据缩放方法和所述分类方法产生所述分类器，从而减少假阳性并提高分类准确性。。