CN101501712B - 将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置 - Google Patents

将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置 Download PDF

Info

Publication number
CN101501712B
CN101501712B CN2007800298381A CN200780029838A CN101501712B CN 101501712 B CN101501712 B CN 101501712B CN 2007800298381 A CN2007800298381 A CN 2007800298381A CN 200780029838 A CN200780029838 A CN 200780029838A CN 101501712 B CN101501712 B CN 101501712B
Authority
CN
China
Prior art keywords
genetic algorithm
sorter
training set
training
system data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800298381A
Other languages
English (en)
Other versions
CN101501712A (zh
Inventor
L·赵
L·博罗茨基
K·P·李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101501712A publication Critical patent/CN101501712A/zh
Application granted granted Critical
Publication of CN101501712B publication Critical patent/CN101501712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Physiology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Multimedia (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

提供了训练系统的方法和装置,该系统用于开发数据挖掘、假阳性减少、计算机辅助检测、计算机辅助诊断和人工智能的方法。一种方法包括使用系统数据缩放从一组训练案例中选择一个训练集,并基于该训练集使用分类方法创建一个分类器。该分类器产生更少的假阳性。该方法适用于与多种数据挖掘技术,包括支持向量机、神经网络和决策树,一起使用。

Description

将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置
技术领域
本申请的技术领域是将系统数据缩放(systematic data scaling)集成在基于遗传算法的特征子集选择系统中的方法和装置,其中该基于遗传算法的特征子集选择系统用于数据挖掘、假阳性减少(false positive reduction,FPR)、计算机辅助检测(CAD)、计算机辅助诊断(CADx)和人工智能。
背景技术
CAD算法已经发展到根据多切片计算机控制断层(multi-slice computedtomography,MSCT)扫描自动识别医学上的重要解剖特性,例如可疑病变,从而提供第二意见供放射科医生使用。这些算法有助于癌症的早期检测,使生存率提高。例如,肺癌是最常见的不治之症中的一种,据预测2006年在美国将有162,460人死于肺癌(美国癌症协会,“Cancer Facts&Figures2006(癌症事实与数字2006)”,亚特兰大2006),尽管外科手术技术和疗法已经提高,但是肺癌患者的5年生存率仍然只有约15%。然而,对于在疾病仍处于局部时被检测到的情况,生存率显著提高到约50%。因此,可疑病变的早期检测和诊断使得能够较早的介入,并能够产生更好的诊断和生存率。
已知使用机器学习技术作为后处理步骤来排除由CAD算法误识别为肺结节的假阳性结构。Mousa和Khan使用支持向量机(SVM)将肺结节与非结节分离(W.A.H.Mousa&M.A.U.Khan,Lung nodule classification utilizingsupport vector machines,presented at Int’l Conf.On Image Processing,2002)。
Ge等人已经提出了一种基于3D特征的线性判别式分类器(Ge et al.,Computer aided detection of lung nodules:false positive reduction using a 3Dgradient field method,presented at Medical Imaging 2004:Image Processing,San Diego 2004)。
Suzuki等人已经提出了一种大规模的训练人工神经网络(massivetraining artificial neural network,MTANN),其能够直接对图像数据进行操作,并且不需要特征提取(K.Suzuki et al.,Massive training artificial neuralnetwork(MTANN)for reduction of false positives in computerized detection oflung nodules in low-dose computed tomography,30 Med.PHYSICS 1602-17,2003)。他们得出结论,MTANN和基于规则的/线性-识别分类器的结合可能比仅使用MTANN对FPR更有用。大多数现有的对FPR的工作遵循与监督学习相同的方法:以收集地面真实数据开始,使用一个或多个用户认为是适当的一组特征来用这些数据训练一个分类器。
虽然近来MSCT的改进使得能够在比以前更早的阶段检测到诸如肺癌、肝癌或乳腺癌的癌症,但是这些方法仍然导致了大量必须由放射科医生进行解释的数据,这是一个消耗大量成本和时间的过程。CAD算法具有高敏感性,然而,它们中没有一个运行得具有理想的准确度(即,能够检测到所有确实是肺结节的结构并且只检测到这些结构)。一些非结节结构(如血管)经常被错误地标记为结节。由于临床医生,如放射科医生,必须检查每个识别出的结构,所以非常希望能够消除尽可能多的假阳性(FP),同时保留真阳性(TP),即结节,从而避免由对假阳性进行不必要的检查所导致的疲劳和错误。这作为假阳性减少(FPR)是已知的。与其它旨在减少误分类的情况的总数的分类任务不同,此处的目的是在保留所有的TP的限制下(维持100%的敏感性),消除尽可能多的FP(使特异性最大化)。
虽然已经描述了假阳性减少系统,但是这种系统的目标,即在维持100%的敏感性的同时实现特异性最大化,仍然是难以获得的。
发明内容
本发明的一个实施例提供了一种在数据挖掘、计算机辅助检测、计算机辅助诊断和人工智能中提高分类准确度并减少假阳性的方法。所述方法包括使用系统数据缩放方法,从一组训练案例中选择训练集。所述方法还包括使用分类方法,基于所述训练集来创建分类器,其中所述系统数据缩放方法和事实分类方法产生所述分类器,从而减少假阳性并提高分类准确性。
在一个相关实施例中,所述分类器从由支持向量机、神经网络和决策树组成的组中进行选择。
另一个实施例进一步包括使用测试集对基于所述训练集由所述分类方法产生的所述分类器进行评价。
在另一实施例中,选择训练集进一步包括从所述训练集中去除与真结节形成Tomek链的假结节,直到满足一个阈值。在一个相关实施例中,相对于向下缩放因子(downscaling factor)x来确定所述阈值,使得在系统数据缩放后留在所述训练集中的假结节的数量不超过所述训练集中的真结节的数量的x倍。
在一个相关实施例中,所述方法包括利用该组测试案例或其子集来验证所述分类器。
还提供了一种当执行时实施上述任一方法的遗传算法。在一个相关实施例中,该遗传算法是CHC算法(L.J.Eshelman,The CHC Adaptive SearchAlgorithm:How to Have Safe Search When Engaging in Nontraditional GeneticRecombination,in FOUNDATIONS OF GENETIC ALGORIGHMS 265-83,G.J.E.Rawlines,ed.1991)。
还提供了一种使用上述遗传算法从特征库中选择特征的方法,所述方法具有以下步骤:提供根据上述方法的第一遗传算法和第二遗传算法中的每个,其中所述第一遗传算法用来确定所述特征集的最佳大小;以及固定所述特征集的大小并使用所述第二遗传算法来选择特征。在一个相关实施例中,在提供所述第一遗传算法时,所述方法进一步包括使用下列各项中的至少一项来对结果进行分析:表示不同特征子集大小的染色体出现的数量和平均错误的数量。在进一步的实施例中,“平均错误的数量”是由所述分类器基于这些染色体所导致的错误分类的肺结节的数量。
还提供了一种当执行时实施上述任一方法的计算机可读介质。
还提供了一种制造产品,所述制造产品是成像设备或假阳性减少设备,其中所述设备是被编程以通过实施上述任一方法来分析图像数据的计算机。
在一个相关实施例中,在上述制造产品中,所述图像设备从包括下列各项的组中选择:计算机控制断层扫描(CT)、计算机控制轴向断层扫描(CAT)、多切片计算机控制断层扫描(MSCT)、X射线断层摄影(body sectionroentgenography)、超声波、磁共振成像(MRI)、磁共振体层摄影(MRT)、核磁共振(NMR)、X射线、显微镜、荧光透视、X线断层摄影(tomography)和数字成像。在上述制造产品的进一步实施例中,所述制造产品是肺结节CAD系统。
附图说明
图1是乳腺超声扫描的CAD输出的图像,其中具有一个检测到并进行了描绘的病变。
图2是肺CT扫描的CAD输出,其中具有两个识别出的检测到的病变;
图3是基于遗传算法的特征子集选择的框图。
图4是使用在图3中选择的最佳特征子集的假阳性减少过程的框图。
图5示出从训练集中去除假阳性的系统向下缩放方法的运行效果。
图6是描述将系统数据缩放(系统向下缩放)集成到GA特征子集选择过程的框图。
图7是示出了对于大小为5的特征子集的遗传算法的性能的图表,其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。
图8是示出了对于大小为6的特征子集的遗传算法的性能的图表,其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。
图9是示出了对于大小为7的特征子集的遗传算法的性能的图表,其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。
图10是示出了对于大小为8的特征子集的遗传算法的性能的图表,其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。
图11是示出了对于大小为9的特征子集的遗传算法的性能的图表,其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。
图12是示出了对于大小为10的特征子集的遗传算法的性能的图表,其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。
图13是示出了对于大小为11的特征子集的遗传算法的性能的图表,其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。
图14是示出了对于大小为12的特征子集的遗传算法的性能的图表,其中该遗传算法结合了随机向下缩放、系统数据缩放(向下缩放因子为2)和系统数据缩放(向下缩放因子为3)。
具体实施方式
因此,本发明的一个目的是将系统数据缩放集成到遗传算法中的候选特征子集的评价。
支持向量机(SVM)是用于机器学习的相对较新的工具(B.E.Boser,I.Guyon &V.Vapnik,A training algorithm for optimal margin classifiers,presented at 5th Annual ACM Workshop on Computational Learning Theory,Pittsburgh 1992)。从19世纪90年代后期开始,SVM已经越来越广泛(V.N.VAPNIK,THE NATURE OF STATISTICAL LEARNINGTHEORY(1995);V.N.VAPNIK,STATISTICAL LAERNNING THEORY,1998)。目前支持向量机是用于从文本到基因数据的大量分类任务的最佳执行者之一,然而,如在此处所描述的,还存在许多问题。
SVM将分类目标的任务处理成两类中的一类,并假定一些样本已经被分类。这种类型的监督机器学习的目的是提出一个函数,其能够“正确地”将任何新的目标分类。SVM理论可以表示成如下形式:对于大小为m的训练数据集{xi,yi},每个数据点由特征向量xi∈Rd描述,并且先验知识是每个xi属于两种类型yi∈{-1,1}中的一个(i=1,...,m)。给定一个新的数据点x,SVM理论的目的是确定一个函数f,以使得{x,f(x)}在某种意义上类似于所给的训练数据。假定可能找到一个超平面w·x+b=0(其中点表示内积),使得所有的阳性样本(y=1)位于平面的一侧,而阴性样本(y=-1)位于另一面,即
w·xi+b≥+1                      如果yi=1
w·xi+b≤-1                      如果yi=-1
在这种情况中,训练集是线性可分的。给定一个新的数据点x,计算w·x+b,并且值的符号告知x是阳性还是阴性样本。换句话说,函数f(x)=sgn(w·x+b)确定任意新向量x的分类。
在大多数情况中,不可能找到一个能够整齐地分隔阳性和阴性样本的超平面。SVM将原始特征向量映射到(通常)更高的维度空间,在那里可以找到这样一个超平面:
Figure G2007800298381D00061
这种映射Φ被称为核函数。存在许多能够分隔数据集的超平面。选择一个超平面使得训练数据向量的最小距离(即,到超平面的垂直距离)最大。与超平面的这个最小距离的向量称为支持向量。支持向量集确定了该分隔超平面。其他的向量可以被抛弃,而不需要改变解决方案,并且如果任何支持向量被去除,超平面将改变。因此找到这个超平面是一个最优化问题。
表面上,映射到更高的维度空间可能导致计算问题。然而,SVM理论表明能够选择核函数,以使得结果函数f对于计算是有吸引力的。
此处使用的术语“分类器”描述能够预测一个对象属于哪个组或类别的任何类型的方法或装置。这个定义包括但不限于:数据挖掘工具和技术,如支持向量机、神经网络和决策树。
此处使用的术语“分类方法”描述生成分类器的任何手段。这个定义包括但不限于:数据挖掘工具和技术,如Broser等人用于创建SVM,C4.5,J4.8的算法,以及APRIORI方法(B.E.Boser,I.Guyon & V.Vapnik,Atraining algorithm for optimal margin classifiers,presented at 5th Annual ACMWorkshop on Computational Learning Theory,Pittsburgh 1992)。
此处提供的本发明的一个实施例是一个基于机器学习的FPR单元,其具有三个主要的处理部分:特征提取、SVM驱动的基于GA的特征子集选择以及SVM分类器。特征提取单元根据CT扫描计算若干个2D和3D特征,以用于区分真结节和非结节。这些特征组成特征库,用于特征子集选择步骤,其只在系统的设计阶段执行。一旦选定一个最佳的特征子集,并且根据该最佳的特征子集创建了一个分类器,系统就只包括特征提取和分类器。本发明的一个实施例使用支持向量机,因为它对于各种分类任务,包括医学决策支持,有更好的性能。也可以使用其它分类器,如神经网络。
为了防止不必要的计算和过拟和,并确保可靠的分类器,使用遗传算法(GA)来选择特征子集。包装方法(wrapper approach)包括与用于产生选择标准的分类器相连的特征选择算法(R.Kohavi & G.H.John,The WrapperApproach,97 ARTIFICIAL INTELLIGENCE 273-324,1997)。一种可能的分类器/特征选择算法的组合是SVM,并且使用称为CHC的GA(L.J.Eshelman,The CHC Adaptive Search Algorithm:How to Have Safe Search When Engagingin Nontraditional Genetic Recombination,in FOUNDATIONS OF GENETICALGORITHMS 265-83,G.J.E.Rawlines,ed.1991)。CHC是理想的,由于它对于一大类问题的健壮的查找特性。特征选择方法能够自动确定这种特征的最佳大小和集合。
通常,此处的方法包括创建一定数量的由多个“基因”组成的“染色体”,每个基因代表一个选择的特征(D.Schaffer et al.,A Genetic AlgorithmApproach for Discovering Diagnostic Patterns in Molecular Measurement Data,PROCEEDINGS OF THE 2005 IEEE SYMPOSIUM ON COMPUTATIONALINTELLIGENCE IN BIOINFORMATICS AND COMPUTATIONALBIOLOGY 1,2005)。
由染色体代表的特征集被用来使用与特征子集相对应的那部分训练数据来训练SVM。根据产生的SVM在测试数据上执行得怎么样来评价染色体的适应性。在一个实施例中,在测试集上执行一个分级适应性函数,该分级适应性函数基于SVM分类的真结节保留和假阳性消除率。在替换实施例中,有可能开发和使用不同的适应性函数。
在这个过程的开始,通过随机选择形成染色体的特征来产生一组染色体。然后该算法反复地查找那些具有更高性能值(更高适应性)的染色体。在每一代,GA评价该组中的每个染色体的适应性,并通过两个主要的进化方法,突变和交叉,从适应的染色体中产生新的染色体。好的染色体中的基因更倾向于被下一代保留,而具有性能较差的染色体更容易被丢弃。最终,通过这个适者生存的过程找到了高性能的特征的集合。
本发明的一个目的是通过将系统数据缩放集成到候选特征子集的评价中来提高遗传算法的性能。在这个实施例中,系统数据缩放被用来从一组训练案例中选择一个训练集。
对于每组候选特征子集,从该组训练案例中选择一个训练集。临界假阳性案例被从训练集去除。然后训练集被用来产生一个分类器,该分类器作为遗传算法的一部分被用来评价候选特征子集的适应性。
在另一个实施例中,临界假阳性可以通过Tomek链(Tomek link)的概念来识别(G.E.A.P.A.Batista,A Study of the Behavior of Several Methods forBalancing Machine Learning Training Data,6 SIGKDD EXPLORATIONS20-29,2004)。给定真结节案例A和假结节案例B,d(A,B)为A和B之间的距离。如果没有样本C(它可以是真结节或假结节)使得d(A,C)<d(A,B)或d(B,C)<d(A,B),则(A,B)对被称为Tomek链。如果A和B形成Tomek链,那么A或B是噪声或A和B都是临界。当Tomek链用在这种假阳性减少方案中时,作为一种向下缩放方法,只有假阳性案例B被去除。图5示出这种向下缩放方法是如何工作以保留更多的真结节的。
在进一步的实施例中,去除的假阳性案例的数量可以被调整以更好地获得理想的特异性或敏感性。这通过使用向下缩放因子x来实现。向下缩放因子(x)被定义为:留在训练集中的假结节的数量(在去除边界假阳性案例后)不超过训练集中的真结节的数量的x倍。这个因子可以被调整。降低x能够产生更好的敏感性(更差的特异性)。增加x能够产生更差的敏感性(更好的特异性)。对于假阳性减少,一个通常的目标是能够使特异性最大同时保持100%的敏感性的最大的因子(x的值)。
用实例来验证本发明。第一个实例比较了三种向下缩放方法:随机向下缩放、系统向下缩放(向下缩放因子为2)以及系统向下缩放(向下缩放因子为3)。
首先将数据集划分为学习集和验证集。
  学习集   验证集
  真结节   67   22
  假结节   483   160
数据划分方法使用下面的模式。
对于随机向下缩放:
Figure G2007800298381D00091
对于系统向下缩放(因子为2和3):
Figure G2007800298381D00092
对于这个实例,评价了特征子集大小5至12,它们之前从23个特征的特征库中确定为最佳特征子集。对于每个大小,进行下表中的实施:
除了此处描述的数据划分模式,下面的配置文件用于每个GA运行。每个GA运行包括3个独立的实验,每个实验有最大800,000个测试。
    experiments=3total trials=800000optimum value=-1.0nb of B_genes=0bits per gene=0nb of I_genes=10I_genes range=10×23options=LeNwMrandom seeds=98741520 7421398740 123870 521350 99999990report interval=100population size=50divergence:max n=3n_perf=2
对于上表中的每个最佳特征子集,进行验证,并且对于10个种子获得“敏感性”(计算为误分类的真阳性的#)和“特异性”(计算为假阳性减少的%)值并进行平均。画出了一定数量的散点图(ROC曲线)来进行比较(图7-14)。
对于每个子集大小画出了一个图。在该图上,X轴表示敏感性(误分类的真阳性的#),Y轴表示特异性(假阳性减少的%)。每个图上有三条曲线,是由对16个向下缩放因子(1.5,1.6,1.7...3.0)的验证结果创建的。
如图中所示,除大小11和12外,当允许1-2个真结节的误分类(这是一个合理的数量)时,由“系统向下缩放-因子2”选择的特征子集比由“随机向下缩放”选择的特征子集表现更好。这由这样的事实所反应,即当x具有1和2之间的值时,因子2特征曲线在随机特征曲线的上方。
这个实例表明由该方法选择的特征子集比之前的基于随机数据缩放的GA特征子集选择更好(获得了更大的特异性)。
进一步显而易见的是,在不脱离所附权利要求及其等价形式的精神和范围内,可以构想出本发明的其他和进一步的形式,以及除了上述具体和示例性实施例之外的实施例,因此本发明的范围意在包括这些等价形式,并且说明书和权利要求是示例性的而不应该作为进一步的限定。

Claims (10)

1.一种在数据挖掘、计算机辅助检测、计算机辅助诊断和人工智能中提高分类准确性并减少假阳性的方法,所述方法包括:
使用系统数据缩放方法,从一组训练案例中选择训练集;以及
使用分类方法,基于所述训练集来创建分类器,
其中所述系统数据缩放方法和所述分类方法产生所述分类器,从而减少假阳性并提高分类准确性。
2.根据权利要求1所述的方法,其中所述分类器从由支持向量机、神经网络和决策树组成的组中进行选择。
3.根据权利要求1所述的方法,所述方法进一步包括使用测试集对基于所述训练集由所述分类方法产生的所述分类器进行评价。
4.根据权利要求1所述的方法,其中选择进一步包括从所述训练集中去除与真结节形成Tomek链的假结节,直到满足一个阈值。
5.根据权利要求4所述的方法,其中相对于向下缩放因子x来确定所述阈值,使得在系统数据缩放后留在所述训练集中的假结节的数量不超过所述训练集中的真结节的数量的x倍。
6.根据权利要求1所述的方法,其中所述方法进一步包括利用该组训练案例或其子集来验证所述分类器。
7.一种从特征库中选择特征的方法,所述方法包括:
提供第一遗传算法和第二遗传算法中的每个,其中所述第一遗传算法和所述第二遗传算法在被执行时实现权利要求1所述的方法;
使用所述第一遗传算法来确定所述特征集的最佳大小;
固定所述特征集的大小;以及
使用所述第二遗传算法来选择特征。
8.根据权利要求7所述的方法,其中在提供所述第一遗传算法时,所述方法进一步包括使用下列各项中的至少一项来对结果进行分析:表示不同特征子集大小的染色体出现的数量和平均错误的数量。
9.根据权利要求8所述的方法,其中平均错误的数量是误分类的肺结节的数量。
10.一种在数据挖掘、计算机辅助检测、计算机辅助诊断和人工智能中提高分类准确性并减少假阳性的装置,所述装置包括:
用于使用系统数据缩放方法,从一组训练案例中选择训练集的模块;以及
用于使用分类方法,基于所述训练集来创建分类器的模块,
其中所述系统数据缩放方法和所述分类方法产生所述分类器,从而减少假阳性并提高分类准确性。。
CN2007800298381A 2006-08-11 2007-08-02 将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置 Active CN101501712B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US82209806P 2006-08-11 2006-08-11
US60/822,098 2006-08-11
PCT/IB2007/053048 WO2008017991A2 (en) 2006-08-11 2007-08-02 Methods and apparatus to integrate systematic data scaling into genetic algorithm-based feature subset selection

Publications (2)

Publication Number Publication Date
CN101501712A CN101501712A (zh) 2009-08-05
CN101501712B true CN101501712B (zh) 2012-09-05

Family

ID=38917381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800298381A Active CN101501712B (zh) 2006-08-11 2007-08-02 将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置

Country Status (6)

Country Link
US (1) US8311310B2 (zh)
EP (1) EP2052355A2 (zh)
JP (1) JP2010500081A (zh)
CN (1) CN101501712B (zh)
RU (1) RU2449365C2 (zh)
WO (1) WO2008017991A2 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2955235A3 (en) * 2009-01-30 2016-03-02 Koninklijke Philips N.V. Methods for the subclassification of breast tumours
US8346800B2 (en) * 2009-04-02 2013-01-01 Microsoft Corporation Content-based information retrieval
JP2012235796A (ja) * 2009-09-17 2012-12-06 Sharp Corp 診断処理装置、診断処理システム、診断処理方法、診断処理プログラム及びコンピュータ読み取り可能な記録媒体、並びに、分類処理装置
US9122955B2 (en) * 2010-06-28 2015-09-01 Ramot At Tel-Aviv University Ltd. Method and system of classifying medical images
US10140699B2 (en) 2010-12-07 2018-11-27 University Of Iowa Research Foundation Optimal, user-friendly, object background separation
EP2665406B1 (en) * 2011-01-20 2021-03-10 University of Iowa Research Foundation Automated determination of arteriovenous ratio in images of blood vessels
US9545196B2 (en) 2012-05-04 2017-01-17 University Of Iowa Research Foundation Automated assessment of glaucoma loss from optical coherence tomography
EP2890300B1 (en) 2012-08-31 2019-01-02 Kenji Suzuki Supervised machine learning technique for reduction of radiation dose in computed tomography imaging
WO2014143891A1 (en) 2013-03-15 2014-09-18 University Of Iowa Research Foundation Automated separation of binary overlapping trees
US9925009B2 (en) * 2013-03-15 2018-03-27 Covidien Lp Pathway planning system and method
WO2014210050A1 (en) * 2013-06-24 2014-12-31 Cylance Inc. Automated system for generative multimodel multiclass classification and similarity analysis using machine learning
WO2015143435A1 (en) 2014-03-21 2015-09-24 University Of Iowa Research Foundation Graph search using non-euclidean deformed graph
US9485263B2 (en) * 2014-07-16 2016-11-01 Microsoft Technology Licensing, Llc Volatility-based classifier for security solutions
US9619648B2 (en) 2014-07-16 2017-04-11 Microsoft Technology Licensing, Llc Behavior change detection system for services
CN104504441A (zh) * 2014-12-09 2015-04-08 河海大学 基于敏感性的madaline神经网络构建方法及其装置
CN104504443A (zh) * 2014-12-09 2015-04-08 河海大学 基于rbf神经网络敏感性的特征选择方法及其装置
EP3230954A1 (en) * 2014-12-10 2017-10-18 Koninklijke Philips N.V. Systems and methods for translation of medical imaging using machine learning
US10110622B2 (en) 2015-02-13 2018-10-23 Microsoft Technology Licensing, Llc Security scanner
US10115194B2 (en) 2015-04-06 2018-10-30 IDx, LLC Systems and methods for feature detection in retinal images
CN104933446B (zh) * 2015-07-15 2018-09-18 福州大学 一种用于计算机辅助诊断乳腺b超特征有效性验证的方法
JP7008081B2 (ja) * 2017-11-21 2022-01-25 富士フイルム株式会社 ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
CN111325227B (zh) * 2018-12-14 2023-04-07 深圳先进技术研究院 数据特征提取方法、装置及电子设备
CN111598116B (zh) * 2019-02-21 2024-01-23 杭州海康威视数字技术股份有限公司 数据分类方法、装置、电子设备及可读存储介质
US11164309B2 (en) * 2019-04-10 2021-11-02 International Business Machines Corporation Image analysis and annotation
CN110210519B (zh) * 2019-05-10 2021-06-22 上海联影智能医疗科技有限公司 分类方法、计算机设备和存储介质
CN113948207B (zh) * 2021-10-18 2024-08-16 东北大学 一种用于低血糖预警的血糖数据处理方法
CN114343638B (zh) * 2022-01-05 2023-08-22 河北体育学院 一种基于多模态生理参数信号的疲劳程度评估方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965725B1 (en) * 1988-04-08 1996-05-07 Neuromedical Systems Inc Neural network based automated cytological specimen classification system and method
US5987094A (en) * 1996-10-30 1999-11-16 University Of South Florida Computer-assisted method and apparatus for the detection of lung nodules
US6996549B2 (en) * 1998-05-01 2006-02-07 Health Discovery Corporation Computer-aided image analysis
IT1320956B1 (it) * 2000-03-24 2003-12-18 Univ Bologna Metodo, e relativa apparecchiatura, per la rilevazione automatica dimicrocalcificazioni in segnali digitali di tessuto mammario.
WO2001078005A2 (en) * 2000-04-11 2001-10-18 Cornell Research Foundation, Inc. System and method for three-dimensional image rendering and analysis
US6470092B1 (en) * 2000-11-21 2002-10-22 Arch Development Corporation Process, system and computer readable medium for pulmonary nodule detection using multiple-templates matching
US20040122787A1 (en) * 2002-12-18 2004-06-24 Avinash Gopal B. Enhanced computer-assisted medical data processing system and method
JP5180478B2 (ja) 2004-02-10 2013-04-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ゲノムベースの医療診断テストを最適化する遺伝アルゴリズム
WO2006054269A2 (en) 2004-11-19 2006-05-26 Koninklijke Philips Electronics, N.V. System and method for false positive reduction in computer-aided detection (cad) using a support vector machine (svm)
WO2006054272A2 (en) * 2004-11-19 2006-05-26 Koninklijke Philips Electronics, N.V. A stratification method for overcoming unbalanced case numbers in computer-aided lung nodule false positive reduction
JP2008520322A (ja) * 2004-11-19 2008-06-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 新規な3d特徴を備えるコンピュータ支援検出(cad)における誤検出の低減

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOROCZKY L ET AL.Feature subset selection for improving the performance of false positive reduction in lung nodule CAD.《IEEE TRANSACTIONS ON INFORMATION TECHNOLOGY IN BIOMEDICINE IEEE USA》.2006,第10卷(第3期), *

Also Published As

Publication number Publication date
CN101501712A (zh) 2009-08-05
EP2052355A2 (en) 2009-04-29
JP2010500081A (ja) 2010-01-07
WO2008017991A2 (en) 2008-02-14
RU2009108639A (ru) 2010-09-20
RU2449365C2 (ru) 2012-04-27
US8311310B2 (en) 2012-11-13
WO2008017991A3 (en) 2008-10-30
US20100177943A1 (en) 2010-07-15

Similar Documents

Publication Publication Date Title
CN101501712B (zh) 将系统数据缩放集成到基于遗传算法的特征子集选择中的方法和装置
Ertosun et al. Probabilistic visual search for masses within mammography images using deep learning
Naqi et al. Lung nodule detection and classification based on geometric fit in parametric form and deep learning
Tan et al. A novel computer‐aided lung nodule detection system for CT images
Dheeba et al. Classification of malignant and benign microcalcification using SVM classifier
Mastouri et al. Deep learning-based CAD schemes for the detection and classification of lung nodules from CT images: A survey
Kanadam et al. Mammogram classification using sparse-ROI: A novel representation to arbitrary shaped masses
Aborisade et al. Comparative analysis of textural features derived from GLCM for ultrasound liver image classification
Zuo et al. Automatic classification of lung nodule candidates based on a novel 3D convolution network and knowledge transferred from a 2D network
Sahu et al. DCNN-SVM: A new approach for lung cancer detection
Alnedawe et al. A New Model Design for Combating COVID-19 Pandemic Based on SVM and CNN Approaches
Elbatel Mammograms classification: A review
Xu et al. Computer aided detection for pneumoconiosis screening on digital chest radiographs
Raoof et al. Lung cancer prediction using feature selection and recurrent residual convolutional neural network (RRCNN)
Ahmed et al. A deep learning technique for lung nodule classification based on false positive reduction
Kaur et al. Classification of breast cancer mammographic images using a light-weighted convolutional neural network
Lima et al. Lung ct screening with 3d convolutional neural network architectures
Bhattacharjee et al. A powerful transfer learning technique for multiclass classification of lung cancer ct images
Vinay et al. Computerized analysis of classification of lung nodules and comparison between homogeneous and heterogeneous ensemble of classifier model
Kilic et al. Colonic polyp detection in CT colonography with fuzzy rule based 3D template matching
Jeyavathana et al. Automatic detection of tuberculosis based on AdaBoost classifier and genetic algorithm
Alalwan et al. A Hybrid Classification and Identification of Pneumonia Using African Buffalo Optimization and CNN from Chest X-Ray Images.
Tartar et al. Ensemble learning approaches to classification of pulmonary nodules
Wang Convolutional neural network based malignancy detection of pulmonary nodule on computer tomography
Ahmad et al. Effects of different classifiers in detecting infectious regions in chest radiographs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant