CN101558419A - 特征分级 - Google Patents

特征分级 Download PDF

Info

Publication number
CN101558419A
CN101558419A CNA2007800462598A CN200780046259A CN101558419A CN 101558419 A CN101558419 A CN 101558419A CN A2007800462598 A CNA2007800462598 A CN A2007800462598A CN 200780046259 A CN200780046259 A CN 200780046259A CN 101558419 A CN101558419 A CN 101558419A
Authority
CN
China
Prior art keywords
feature
character
subset
pool
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800462598A
Other languages
English (en)
Inventor
A·A·J·简夫斯基
J·D·沙弗
M·R·辛普森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101558419A publication Critical patent/CN101558419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种计算来自特征池的至少一个特征的等级的方法,该方法包括:获取(1)多个特征子集,每个特征子集包括来自特征池的特征;和基于至少一个特征在特征子集中的出现,计算(2)至少一个特征的等级。例如,至少一个特征的等级可基于该至少一个特征在多个特征子集中出现的频率。因此,该方法可被有利地应用于分级来自特征池的特征。包括一流特征的新的特征子集可根据计算的特征等级值得以创建,一流的特征潜在地比来自特征池的特征子集更有用。对于这种来自特征池的分级特征列表,可有许多其他的有益用途。

Description

特征分级
发明领域
本发明涉及模式发现(pattern discovery),特别地,涉及包括在所述模式中的测量的分级(rating)。本发明找到了在生物信息学分类器评估方面的特殊应用。
发明背景
最近,在关于人类基因组细节和基因如何在健康和患病对象中找到它们的基因表达(expression)的可获得信息量巨大爆发。现在有实验室技术能够迅速地获取大量的以DNA、RNA、蛋白质和其他有机大分子在生物学对象中的浓度为特征的测量组。
例如,微阵列(microarray)包括载玻片或载玻板,在其上放置c-DNA或另一个结合物(binder)的微小样本“点”的阵列。每个点包括特定的c-DNA或其他与感兴趣的特定大分子绑定的结合物,单个的微阵列可包括成百、成千或更多的这样的点。从病人提取组织样本,感兴趣的分子种(molecular species)(例如,DNA、RNA等)被提取,用发光信号剂或其他标记(marker)处理,并在微阵列上被清洗。在被称为杂交的过程中,组织中特别类型的大分子在具有连接那些特别的大分子的结合物的点上聚集。典型地,使用不同标记(例如不同颜色的发光剂)处理的对比或参考样本也被应用于微阵列。例如使用激光束激活标记以致产生光致发光(photoluminescence),并且检测反应强度以便表征与各种点关联的大分子浓度。这样,包含在生物样本中大量的有机大分子(例如成百、成千或更多)的化验(assay)得以迅速和定量地完成。
质谱分析是快速化验在从病人获取的样本中大量大分子浓度的另一种方法。在该方法中,样本在真空环境中通过激光或其他机制被电离,电离的分子碎片的分子量分布/电荷比率通过离子计数器得以测量。基于各种大分子的已知裂化谱图(cracking pattern),各种大分子的浓度可从质谱推导得出。可替换地,质谱的峰值可用作生物信息学测量数据,而不将质谱图与特定的大分子相关。
生物信息学使用数学方法从微阵列测量、质谱或者其他基因组或有机大分子化验提取有用的生物信息。例如,如果微阵列或质谱中的特定模式能够与特定类型的癌症强烈地联系,则该模式能够被用作检测这种癌症的分类器。这使得能够通过相对非入侵的技术,例如提取血液或脑脊液、获取唾液、小便、大便等样本或者获取液体或组织样本,来早期检测癌症和其他感兴趣的病理。
然而,由于可获得用于开发这种诊断医疗测试的大量信息,因而出现了一个问题。例如,如果想开发使用2500个测量(例如使用50×50点阵列的微阵列)中的五个测量(例如微阵列点、质谱峰值等)的癌症筛选测试,则可用于诊断测试的、可能的五个样本测量子集的搜索空间为: 2500 5 = 2500 ! 2495 ! 5 ! ≅ 8.1 × 10 14 , 这太大了以至于不能通过穷尽技术来搜索。并且,该估计假设五个测量的子集是用于正在开发的癌症筛选测试的最佳选择,这也许不正确。测量的最佳子集可能是四个测量、六个测量等,并且通常是未知的。
开发基因组诊断医疗测试的另一个问题是测量的总数很大,而从其提取这些测量的病人数通常小很多。例如,通常的研究可使用50×50的微阵列和40个测试对象的测试组,在测试组中20个对象患有感兴趣的癌症,20个对象是没有癌症的对照标准(control)。生成了100,000个测量的大集合;然而,与很小的测试对象组大小相结合引起了这样的关注:在测量数据中也许存在许多错误的关联,这些关联与在普通人群中与感兴趣的癌症没有关系。
从少数对象提取大量测量是为什么不能获取基于每个测量评估的有用的测量分级的原因。为每个测量能获得的等级数受限于对象的数量,因此少到不能评估每个测量。
因此,取代对每个测量进行分级,遗传算法已被用于计算对分类对象有用的测量子集。在遗传算法中,生成初始一代染色体总体(initialgeneration chromosome population),其中每个染色体具有一组指示测量组子集的基因。例如,使用由50×50的微阵列生成的测量组,相应于由微阵列的2500个点提供的2500个测量的索引,每个基因具有在1和2500之间的值。在单一染色体中的五个这样的基因适合地指定2500个测量的5个测量的特定子集。分类器使用由染色体指定的基因来将对象分类为两个或更多类别(例如癌症类别和非癌症类别)。优质系数(figure ofmerit)测量分类器在病人群中识别癌症的精确度,并且被用于选择染色体池中的最适合染色体以传播给下一代。类似于生物变异过程,通过基因值随机或伪随机的改变,后代(offspring)染色体随后被变异。在许多这样的变异和伪随机改变之后,染色体在它们将对象分类为两个或更多类别(例如癌症类别和非癌症类别)的能力方面得以最优化。
发明内容
一种生成染色体的优化组的遗传算法或者任何其他合适的算法,每个染色体包含基因。下文中,基因被称为特征,染色体被称为特征子集。表示测量组的基因组此后被称为特征池。来自特征池的特征子集作为分类器对于将对象分类为两个或更多类别是有用的,此后对象(例如病人或组织样本)被称为研究对象,在该研究对象上进行测量。原则上,由遗传算法生成的特征最优化子集当涉及到它们将研究对象划分为两个或更多类别的有效性时具有类似的性能。然而,遗传算法不根据特征在将研究对象分类方面的有效性将来自特征池的特征分级。
具有一种将来自特征池的特征分级的方法将是有益的,该方法能够解决涉及特征与数据的错误相关性的问题,该问题出现在当在特征池中的特征数量远大于(例如一个或多个数量级)可获得用于评估这些特征的研究对象的数量时。
为了解决该问题,在本发明的一个方面中,提供了一种计算来自特征池至少一个特征的等级的方法,该方法包括:
-获取多个特征子集,其中每个特征子集包括来自特征池的特征;和
-基于在特征子集中至少一个特征的出现,计算来自特征池至少一个特征的等级。
来自特征池的特征的多个特征子集可通过任何合适的方法来获取,例如基于遗传算法的方法。获得的多个特征子集包括适合用于将研究对象分类的特征子集。典型地,来自多个特征子集的特征子集当涉及到它们在将研究对象分类方面的有效性时具有突出地高性能。因此,包括在所获得的特征子集中的特征可被认为在将研究对象分类的方面是有用的。可选地,多个特征子集可以被获得以便,例如研究对象组的至少一半分类器具有大于50%的基于研究对象组的性能分级(performance rating),基于来自多个特征子集的特征子集定义每个分类器。来自特征池的特征的等级将取决于所述特征出现在其中的特征子集的数量。在本发明的核心存在一种推测:在来自多个特征子集的许多特征子集中出现的特征典型地比在来自多个特征子集的较少特征子集中出现的特征在分类研究对象方面更有用。这个推测已在大量实验中得以证实。因此,该方法被有利地应用于来自特征池的特征的分级。基于计算的特征等级,包括了一流(top-rank)特征的新的特征子集将得以创建,该一流特征潜在地在分类研究对象方面比来自特征池的特征子集更有用。对于来自特征池的分级特征这样的列表,可能有许多其他有利用途。
此外,来自特征池的每个特征结合其他特征内在地考虑其分类能力是本发明的一个优点。对于每个特征子集,包括在所述特征子集中的各个特征关于它们在研究对象分类方面的性能是内在互补的。
建立用于获取多个特征子集的选择标准和建立计算特征等级的方法的过程打开了一条通向找到有用特征的有力道路。可选地,一流的特征将被并入不太可能是假的的新的特征子集。因此,本发明提供了一种找到与研究对象分类中类别更可能真正关联的重要特征和特征子集的方法,例如找到在对病人临床情况分类方面描述生物标志物有用的重要特征和特征子集的方法。
在本方法的实现中,根据进化计算算法获取多个特征子集。对于很大的特征池,所有特征子集的数量很大。因此评估特征池的每个特征子集是不可行的。进化计算算法能够生成基于它们的能力被最优化的特征子集来分类研究对象组。有利地,进化计算算法考虑包括在特征子集中多个特征的结合能力来获取研究对象的有用分类。
在本方法的实现中,获取多个特征子集包括基于选择标准从多个候选特征子集中选择多个特征子集。这使得从例如通过进化计算算法产生的多个候选特征子集中选择最佳的多个特征子集成为可能。
在本方法的实现中,来自多个候选特征子集的每个候选特征子集与各个候选特征子集的特性相关联,并且选择标准基于所述各个候选特征子集的特性评估。使用候选特征子集的特性有助于从多个候选特征子集选择最优的多个特征子集。
在本方法的实现中,计算来自特征池的至少一个特征的等级进一步基于该至少一个特征在多个特征子集中出现的频率。具有相对较高出现频率的特征(即在许多特征子集中出现的特征)获得比具有相对较低出现频率的特征(即在较少特征子集中出现的特征)更高的等级。
在本方法的实现中,来自多个特征子集的每个特征子集与各个特征子集的特性相关联。特征子集的特性将被有利地用于根据特征子集在计算包括在特征子集中特征的等级的有效性来评估该特征子集。例如,基于特征特性的权重将被分配给来自多个特征子集的每个特征子集。
在本方法的实现中,计算来自特征池的至少一个特征的等级进一步基于与来自多个特征子集的各个特征子集相关联的特性。特征子集对至少一个特征的等级的贡献可由基于与所述特征子集相关联的特性的权重给出。
在本方法的实现中,来自特征池的至少一个特征的等级是根据来自特征池的两个或更多特征在来自多个特征子集的特征子集中的同时出现而计算的。例如,在特征子集中总是一起出现的两个特征将获得更高的等级,这样考虑了在分类研究对象方面的它们的结合能力。
在本方法的实现中,该方法进一步包括基于至少一个特征的计算等级创建分级特征的列表。该分级特征的列表在创建用于分类研究对象的最优特征子集方面将非常有用。
在本发明的另一个方面中,提供了一种用于计算来自特征池至少一个特征的等级的模块,该模块包括:
-用于获取多个特征子集的获取单元,其中每个特征子集包括来自特征池的特征;和
-用于基于至少一个特征在特征子集中的出现,计算来自特征池的至少一个特征的等级的计算单元。
在本发明的另一个方面中,提供了一种计算机程序产品,用于当所述计算机程序产品在计算机上运行时指令处理单元执行权利要求1的方法。
总的来说,本发明的各种实现、实施例和方面可以任何可能的方式在本发明的范围中被组合和结合。参考以下描述的实施例,本发明的这些和其他方面、特征和/或优点将变得显而易见和得以阐明。
在本说明书的基础上,与本方法的所描述的修改和它的变形对应的模块和/或计算机程序产品的修改和它的变形能够由本领域技术人员实现。
附图概述
将参考附图,仅以示例的方式描述本发明的实施例和实现,其中
图1是计算来自特征池至少一个特征等级的方法的实现的流程图;和
图2图示地解释了用于计算来自特征池至少一个特征等级的模块的实施例。
具体实施方式
图1是计算来自特征池至少一个特征等级的方法10的示例实现的流程图。方法10从获取1多个特征子集开始,每个特征子集包括来自特征池的特征。在获取1多个特征子集后,方法基于该至少一个特征在特征子集中的出现继续计算2来自特征池的特征的等级。如果来自特征池的特征在来自多个特征子集的数个特征子集中出现,其中该数可以是预定义的或者基于用户输入,那么该特征可被分级为相关的并获得例如等级1。如果来自特征池的特征没有在来自多个特征子集的任何特征子集中出现,该特征可被分级为不相关的并获得等级0。在计算2特征的等级后,方法10可基于另一个特征在特征子集中的出现,计算2来自特征池的该另一个特征的等级。该方法继续计算2特征等级,直到终止计算2特征等级的条件满足,例如当来自特征池的所有特征都被分级时。一旦终止计算2特征等级的条件被满足,方法10终止。
在方法10的实现中,该方法进一步包括基于至少一个特征的计算等级,创建3分级特征的列表。该分级特征的列表可被用来确定例如用于分类研究对象的有用特征子集。
在方法10的实现中,特征的多个特征子集根据进化计算算法得以获得。进化计算算法的一个例子是遗传算法。尽管参考遗传算法描述本发明方法10的实现,但本发明的范围并不限制于这类算法。总的来说,任何产生多个特征子集的算法可由方法10使用。这样的算法包括,但不限于,进化算法、进化编程、演进策略、遗传编程、迭代本地搜索和学习分类器系统。
遗传算法运行典型地包括几个实验。每个实验从特征子集的不同初始整体(initial ensemble)开始。特征子集的这个整体被称为特征子集的第一代。来自特征子集初始整体的每个特征子集可包括从特征池中随机选择的特征。在从研究对象的学习组分类研究对象方面的有效性方面,评估来自特征子集整体的每个特征子集。基于该评估的性能分级可被分配给该特征子集。在每个评估后,通过变异操作、交换(crossover)操作和/或其他操作,包括在特征子集全体中的每个特征子集可被修改,从而在每个特征子集中潜在有用的特征被保留,而潜在地没用的特征从每个特征子集中被删除。特征子集的更新整体被称为下一代,例如特征子集的第二代、第三代等。包括在特征子集更新整体中的每个被修改的特征子集被再次评估。修改-评估循环的迭代继续,直到终止条件被满足。终止条件可以基于更新前后特征子集整体的比较。在遗传算法中,当修改前后特征子集中包括的特征子集类似时,修改-评估循环的迭代被终止。每个实验可包括多个所谓的软重启。当终止修改-评估迭代循环迭代的终止条件发生时,可以执行软重启。在每个软重启时,包括在特征子集整体中的每个特征子集被再次随机初始化,即从特征子集中移除一些特征并且来自特征池的一些特征被加入特征子集,但是至少一个特征子集,典型地具有最佳性能分级的那个,被保持完整。在已经执行了预定次数的软重启之后,可以终止实验。在名为“一种用于基于染色体的医疗诊断测试优化的遗传算法(Genetic algorithms for optimization of genomics-based medicaldiagnostic tests)”公开专利申请WO2005/078629中描述了一种遗传算法,通过引用它被结合于此。遗传算法的其他方面和它们的应用在由D.Schaffer、A.Janevski和M.Simpson在2005IEEE Symposicum onComputational Intelligence in Bioinformatics and ComputationalBiology学报(CIBCB 2005,La Jolla,CA,USA,2005)中公开的论文“一种用于在分子测量数据中发现诊断模式的遗传算法方法(A GeneticAlgorithm Approach for Discovering Diagnostic Patterns inMolecular Measurement Data)”中得以描述,通过引用该论文被结合于此。
在方法10的实现中,获取1多个特征子集包括通过执行遗传算法创建特征子集。多个特征子集可通过运行或多次运行遗传算法得以获取。在运行期间生成的多个特征子集可被存储在存储装置中,以便它们能够被本发明的方法10检索。
在方法10的实现中,获得的多个特征子集包括所有通过遗传算法的运行生成的子集。因此,多个特征子集包括所有包括在特征子集初始整体、在遗传算法每次软重启时特征子集的更新整体和包括在遗传算法运行中每个实验中的特征子集。
在方法10的实现中,获得1多个特征子集包括基于选择标准从多个候选特征子集中选择多个特征子集。多个候选特征子集可包括由运行遗传算法生成的所有子集,而多个特征子集可包括例如在每次软重启之后预定义数目的修改-评估循环迭代中生成的特征子集。例如,在终止标准满足之前包括在修改-评估循环最后100次迭代中的特征子集可被包括在多个特征子集中。
在方法10的实现中,来自多个候选特征子集的每个候选特征子集与各个候选特征子集的特性相关联,并且选择标准基于所述各个候选特征子集特性的评估。例如,候选特征子集的特性可通过遗传算法计算。由遗传算法计算的特性的例子包括在评估期间特征子集的性能分级、特征子集的大小和特征子集的最大年龄(即包括该特征子集的特征子集的连续更新整体的最大数目)。例如,每个候选特征子集可基于它的性能分级和/或它的最大年龄得以评估。其性能分级高于分级阈值的特征子集和/或其最大年龄高于年龄阈值的特征子集可被包括在多个特征子集中。
在方法10的实现中,获取1多个特征子集包括将来自多个候选特征子集的特征子集聚合(group)在一起。例如,包括来自特征池中相同特征的、由运行遗传算法生成的所有那些候选特征子集可被认为是一个特征子集,并且只有这个特征子集可被包括在多个特征子集中。可选地,一个特征子集的特性可根据包括相同特征的候选特征子集的各个特性得以计算。可选地,一个特征子集的特性可包括由运行遗传算法生成的、包括相同特征的特征子集的数量。
本领域的技术人员将理解描述的获取多个特征子集的方法用于解释本发明,而不限制权利要求的范围。
在方法10的实现中,计算2来自特征池至少一个特征的等级进一步基于该至少一个特征在多个特征子集中的出现频率。特征a的等级ra可等于来自多个特征子集的子集数,其中该特征被包括:
r a = Σ A χ A ( a ) ,
其中求和在来自多个特征子集的所有特征子集A上运行,并且其中如果a∈A,χA(a)为1,在其他情况下为0。
在方法10的实现中,来自特征的多个特征子集的每个特征子集与各个特征子集的特性相关联。例如,每个特征子集的特性可由遗传算法得以计算。由遗传算法计算的特性的例子包括在评估期间特征子集的性能分级、特征子集的大小和特征子集的最大年龄(即包括该特征子集的特征子集连续更新整体的最大数目)。
在方法10的实现中,计算2来自特征池至少一个特征的等级进一步基于与来自多个特征子集的每个特征子集相关联的特性。例如,与每个特征子集A相关联的特性可以是特征子集A的性能分级p(A)。性能分级p(A)可被定义为来自由特征子集A正确分类的有效研究对象组的一小部分研究对象。来自特征池的特征a的等级ra可被定义为
r ( a ) = Σ A χ A ( a ) p ( A ) ,
其中求和在来自多个特征子集的所有特征子集A上运行。与每个特征子集A关联的特性可以是特征子集的大小s(A)。例如,根据特征子集的大小s(A)对特征a的每次出现进行加权:
r a = Σ A χ A ( a ) / s ( A ) .
在方法10的实现中,来自特征池至少一个特征的等级根据来自特征池两个或更多特征在来自多个特征子集的特征子集中的同时出现得以计算。在这种情况下,特征的同时出现,即成对、三个一组的出现,将被计数。
在方法10的实现中,基于由特征池和多个特征子集定义的类同网络(affinity network),来自特征池两个或更多特征在来自多个特征子集的特征子集中的同时出现被评估。基于特征池和多个特征子集定义的类同网络包括节点。类同网络的每个节点相应于来自特征池的特征。如果一个特征子集存在于多个特征子集中,类同网络的两个节点由边缘(edge)连接,以便相应于这两个节点的特征被包括在所述特征子集中。来自特征池的特征也可以被称为类同网络上下文中的节点。类同网络和它们的参数可在http://arxiv.org/PS_cache/cond-mat/pdf/0608/0608670.pdf可获得的、Jari等人的名为“加权复杂网络聚类系数的概述(Generalizations of the clustering coefficient to weightedcomplex networks)”的论文中得以描述。
类同网络可由邻接矩阵来描述。类同网络的邻接矩阵是包括元素Mab的矩阵,其中指数a、b是类同网络的节点。如果两个节点a和b由边缘连接,邻接矩阵元素Mab等于1,否则等于0。
描述类同网络(尤其是加权类同网络)的另一个矩阵是权重矩阵。权重矩阵包括元素Wab,其中指数a、b是类同网络的节点。权重矩阵元素Wab等于a和b特征对在多个特征子集中出现的频率。权重矩阵元素Wab定义了连接节点a和b的边缘的权重。
提议了用于描述类同网络和加权类同网络的节点的几个参数。例如,节点a的度(degree)ka被定义为 k a = Σ b M ab ; 节点a的强度(strength)sa被定义为 s a = Σ b W ab , 节点a的聚类系数被定义为 c a = 2 t a k a ( k a - 1 ) , 其中ta是将节点a作为三角形的顶点(triangle vertex)的三角形的数目, c a w = 1 s a ( k a - 1 ) Σ b , c W ab + W ac 2 A ab A ac A bc . 以上参数定义中的求和在类同网络的所有节点b或b和c上运行。类同网络和加权类同网络的参数可被用于计算在类同网络中节点(即来自特征池特征)的等级。例如,节点a的度或强度被用作出现频率的权值: r a = k a Σ A χ A ( a ) 或者 r a = s a Σ A χ A ( a ) . 可替换地,类同网络或加权类同网络的参数可被用来定义特征的等级:ra=ca或者 r a = c a w .
在方法10的实现中,来自特征池特征的多个等级被计算。不同的等级可被结合以便计算另一个等级。可选地,不同的等级可被用于创建分级特征的不同列表。在特殊应用中使用的分级特征列表的创建和选择可基于各种因素,例如获取将由来自特征分级列表中的特征分类的研究对象的外部条件(例如温度、压力、湿度、污染),或者从中获取研究对象的研究对象人群(例如农民、女人、男人)。
在实现中,方法10包括获取1两个或更多特征子集。每个多个特征子集包括来自特征池的特征。例如,每个多个特征子集可从遗传算法的两次或多次运行获取。对于每个多个特征子集,来自特征池的特征等级被计算。该实现使得基于两个或更多等级值将特征分类为三组成为可能:
对于每个多个特征子集一致具有高等级的特征——必须具有的(must-haves)。例如,如果等级是由在多个特征子集中特征出现的频率定义,那么必须具有的是一直出现在每个多个特征子集大多数子集中的特征。
对于一些多个特征子集具有高等级并且对于来自两个或更多多个特征子集的其他多个特征子集具有相对低的等级的特征——交换的(swaps)。例如,如果等级是由在多个特征子集中特征出现的频率定义,那么交换是一直出现在来自一些多个特征子集的大多数特征子集的、相对经常缺席来自其他多个特征子集的特征子集的特征,和
对于来自两个或更多多个特征子集的每个多个特征子集一直具有低等级的特征——填充的(padders)。
基于特征等级值统计分布的参数计算,可以实现将特征分类为三组,必须具有的、交换的和填充的。例如,参数可以是等级值的平均和标准差。显示出大平均和相对小的标准差的特征是必须具有的。显示出例如与必须具有的具有相同等级量级的类似平均差,但相对大标准差的特征是交换的。最后,显示出小平均和小标准差的特征在分类研究对象方面没用,是填充的。
图2解释了用于计算来自特征池至少一个特征的等级的模块20的示意性实施例。该模块的示例实施例包括:
-用于获取多个特征子集的获取单元21,每个特征子集包括来自特征池的特征;和
-用于基于至少一个特征在特征子集中的出现,计算来自特征池至少一个特征的等级的计算单元22。
模块20的示例实施例进一步包括:
-用于基于至少一个特征的计算等级,创建分级特征列表的列表单元23;
-用于接收输入数据的输入连接器27;
-用于传输输出数据的输出连接器28;
-用于存储通过输入连接器27从外部设备接收的输入数据和由模块20的单元计算的数据的存储器单元25;和
-用于连接模块20的单元的存储器总线26。
该模块可包括其他的单元,例如用于基于选择标准从多个候选特征子集中选择多个特征子集的选择单元。
本发明可由任何合适的形式实现,包括硬件、软件或固件实现,或者这些的任意组合。本发明或本发明的一些特征可被实现为在一个或多个数据处理器和/或数字信号处理器上执行的计算机程序产品。本发明实施例的元件或组件可以以任何合适的方式物理地、功能地和逻辑地实现。模块20的功能性可在单一的单元或多个单元中得以实现。
虽然结合特定的实施例来描述本发明,但并不意欲将其限制为在此阐述的特定形式。相反的,本发明的范围仅由附加的权利要求书限制。在权利要求书中,术语“包括”不排除其他元件或步骤的存在。此外,虽然单独的特征被包括在不同的权利要求中,但是这些特征可能被有利地组合,且包括在不同的权利要求中并不意味着特征的组合是不可行的和/或没有益处的。除此之外,单数术语并不排除复数。因此,术语“一个”、“第一”、“第二”等并不排除复数。并且,在权利要求书中的附图标记不应当被解释为对它范围的限制。

Claims (11)

1.一种计算来自特征池的至少一个特征的等级的方法,该方法包括:
-获取(1)多个特征子集,每个特征子集包括来自特征池的特征;和
-根据至少一个特征在特征子集中的出现,计算(2)来自特征池的至少一个特征的等级。
2.根据权利要求1的方法,其中,多个特征子集通过进化计算算法得以获取。
3.根据权利要求1的方法,其中,获取多个特征子集包括基于选择标准从多个候选特征子集选择多个特征子集。
4.根据权利要求3的方法,其中,来自多个候选特征子集的每个候选特征子集与相应候选特征子集的特性相关联,并且其中选择标准基于对所述相应候选特征子集特性的评估。
5.根据权利要求1的方法,其中,计算来自特征池的至少一个特征的等级进一步基于至少一个特征在多个特征子集中出现的频率。
6.根据权利要求1的方法,其中,来自多个特征子集的每个特征子集与所述特征子集的特性相关联。
7.根据权利要求6的方法,其中,计算来自特征池的至少一个特征的等级进一步基于与来自多个特征子集的相应特征子集相关联的特性。
8.根据权利要求1的方法,其中,基于来自特征池的两个或更多特征在来自多个特征子集的特征子集中的同时出现,来自特征池的至少一个特征的等级得以计算。
9.根据权利要求1的方法,进一步包括基于至少一个特征的计算等级,创建(3)分级特征的列表。
10.一种用于计算来自特征池的至少一个特征的等级的模块(20),该模块包括:
-用于获取多个特征子集的获取单元(21),每个特征子集包括来自特征池的特征;和
-用于基于至少一个特征在特征子集中的出现,计算来自特征池的至少一个特征的等级的计算单元(22)。
11.一种计算机程序产品,用于当所述计算机程序产品在计算机上被运行时,指令处理单元执行权利要求1的方法。
CNA2007800462598A 2006-12-13 2007-12-06 特征分级 Pending CN101558419A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US86973406P 2006-12-13 2006-12-13
US60/869,734 2006-12-13

Publications (1)

Publication Number Publication Date
CN101558419A true CN101558419A (zh) 2009-10-14

Family

ID=39414909

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800462598A Pending CN101558419A (zh) 2006-12-13 2007-12-06 特征分级

Country Status (3)

Country Link
JP (1) JP2010514001A (zh)
CN (1) CN101558419A (zh)
WO (1) WO2008072140A2 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6225460B2 (ja) 2013-04-08 2017-11-08 オムロン株式会社 画像処理装置、画像処理方法、制御プログラムおよび記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1716514A2 (en) * 2004-02-10 2006-11-02 Koninklijke Philips Electronics N.V. Genetic algorithms for optimization of genomics-based medical diagnostic tests

Also Published As

Publication number Publication date
WO2008072140A2 (en) 2008-06-19
WO2008072140A3 (en) 2008-11-27
JP2010514001A (ja) 2010-04-30

Similar Documents

Publication Publication Date Title
CN102272764B (zh) 从基因库选择候选基因集合的方法和系统
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
Tseng Penalized and weighted K-means for clustering with scattered objects and prior information in high-throughput biological data
US20060117077A1 (en) Method for identifying a subset of components of a system
JP5180478B2 (ja) ゲノムベースの医療診断テストを最適化する遺伝アルゴリズム
CN101517602A (zh) 使用基于分类器集成的遗传算法进行特征选择的方法
Bagirov et al. New algorithms for multi-class cancer diagnosis using tumor gene expression signatures
US20060287969A1 (en) Methods of processing biological data
CN106874705B (zh) 基于转录组数据确定肿瘤标记物的方法
Rao et al. Partial correlation based variable selection approach for multivariate data classification methods
Liu et al. Recognizing ion ligand–binding residues by random forest algorithm based on optimized dihedral angle
Driscoll et al. Classification of gene expression data with genetic programming
CN101558419A (zh) 特征分级
CN107710206B (zh) 用于根据生物学数据的亚群检测的方法、系统和装置
Wahde et al. Improving the prediction of the clinical outcome of breast cancer using evolutionary algorithms
Feng et al. Statistical considerations in combining biomarkers for disease classification
CN107798217B (zh) 基于特征对的线性关系的数据分析方法
Aloqaily et al. Feature prioritisation on big genomic data for analysing gene-gene interactions
Yan Cluster validity for DNA microarray data using a geometrical index
Mondal et al. Protein Localization by Integrating Multiple Protein Correlation Networks
Henry Peak detection and statistical analysis of karyotypic variation from flow cytometry data
Ellendula Advanced Machine Learning Techniques for Diagnosing Muscular Dystrophy: A Comprehensive Study of Feature Selection, Data Preprocessing, and Model Evaluation
WO2024086727A1 (en) Biomolecule fitness inference using machine learning for drug discovery with directed evolution
Fei et al. Optimal genes selection with a new multi-objective evolutional algorithm hybriding NSGA-II with EDA
CN115482879A (zh) 基于卷积神经网络的变异临床效应分析识别方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20091014