CN102272764B - 从基因库选择候选基因集合的方法和系统 - Google Patents

从基因库选择候选基因集合的方法和系统 Download PDF

Info

Publication number
CN102272764B
CN102272764B CN200980153966.6A CN200980153966A CN102272764B CN 102272764 B CN102272764 B CN 102272764B CN 200980153966 A CN200980153966 A CN 200980153966A CN 102272764 B CN102272764 B CN 102272764B
Authority
CN
China
Prior art keywords
gene
bunch
genes
redundancy
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200980153966.6A
Other languages
English (en)
Other versions
CN102272764A (zh
Inventor
N.贝赫拉
S.辛哈
R.古普塔
A.格安斯
N.迪米特罗瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN102272764A publication Critical patent/CN102272764A/zh
Application granted granted Critical
Publication of CN102272764B publication Critical patent/CN102272764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

该方法涉及从基因库选择候选基因集合。所述方法包括,接受基因数据集;使用聚类算法,将基因数据集安排成具有类似特性的簇集合;和将所述簇集合输入遗传算法,以从簇集合选择候选基因集合。所述方法因而涉及通过聚类计算进行选择和通过进化计算进行选择之间的杂种。该杂种也称作进化聚类算法(ECA)。

Description

从基因库选择候选基因集合的方法和系统
技术领域
本发明涉及从基因库中选择候选基因集合,具体地涉及使用聚类和进化计算选择候选基因。 
背景技术
从微阵列基因表达数据进行聚类和基因选择已经获得巨大重要性,因为它们有助于鉴别在导致病态的特定生物状况中起关键作用的基因。 
在微阵列取样中,使RNA样品与在阵列上的已知的cDNA/寡物探针杂交。通常,使用印迹的微阵列或寡核苷酸微阵列,且使用者可以根据具体实验需要选择要印迹的探针。在寡核苷酸微阵列中,将匹配已知mRNA序列的部分的短DNA寡核苷酸印迹到阵列上。它们产生基因表达的绝对值的估测。 
在微阵列基因表达数据上运行的聚类算法可以辅助鉴别在某些特定状况下共调节的和共表达的基因。由此辅助鉴别可以将实验样品分类成患病和正常类别的基因。已经开发了许多聚类算法,包括K-均值算法、自组织图(SOM)算法、分级簇算法、双簇算法等。聚类算法使用基因表达值的差异来聚类基因。以距离量度(常规地,Euclidian距离)的方式表达差异,并使用Pearson氏相关系数来计算2个基因之间的相似性。但是,这些类型的距离量度具有一些与特性形状(profile shape)中的相似性、对异常值的敏感度有关的限制,此外,必须在最初指定簇的数目。 
Au 等人在IEEE/ACM Transactions on Computational Biology and Bioinformatics 2(2), p. 83-101 (2005)中公开的称作特质聚类算法 (ACA)的方法,解决了至少一些这样的限制。ACA主要使用K-均值算法概念。但是,采用的距离量度是信息理论量度,作为所谓的相互依赖性冗余量度,其考虑了基因之间的相互依赖性。 
在生物信息学中使用的另一类算法是遗传算法 (GA),它是用于查找对最优化问题的真实或近似解决方案的搜索技术。该遗传算法从一群随机产生的个体(即可能的解决方案)开始,在查找更好解决方案的过程中进行连续世代。在每个世代中,群体中的每个个体被修饰,形成新的个体。该算法是一种迭代算法,其在最大世代数目之后结束,或在世代满足给定的适合度标准时结束。 
尽管已经发现许多方法有助于鉴别可以用作给定生物状况的分类器的候选基因,本领域仍然需要发现替代解决方案,以进一步获得对基于基因数据来理解生物状况的复杂性的洞察。 
发明内容
本发明涉及基于基因数据从用于受试者分类的基因库鉴别候选基因的方法和系统。具体地,本发明的一个目的是,提供相对于已知解决方案的替代或改进解决方案。为此目的,可以将提供优于已知解决方案的鉴别候选基因以将基因数据正确分类成患病和正常类别的解决方案视作本发明的一个目的。 
根据本发明的第一个方面,提供了从基因库选择候选基因集合的方法,所述方法包括: 
- 接受基因数据集;
- 使用聚类(clustering)算法,将基因数据集安排成具有类似特性的簇(cluster)集合;和
- 将所述簇集合输入遗传算法,以从簇集合选择候选基因集合。
该方法涉及通过聚类计算进行选择和通过进化计算进行选择之间的杂种。该杂种也称作进化聚类算法(ECA)。由此提供了一种有效的方法,其组合聚类方法和进化方法的长处,以促进含有用于医学诊断的最多信息的候选基因的搜索,并从而改善查找在某些状况下共调节和共表达的基因的搜索。由此提供了一种替代和改进算法,其可以用于将实验样品分类成患病和正常类别。 
在实施方案中,所述聚类算法采用相互依赖性冗余量度作为距离量度。已经发现,该距离量度遇到传统距离量度的一些限制和问题,例如基于Euclidian/Pearsons氏的距离量度,诸如与簇中基因的偏倚初始分布所产生的限制有关的问题。 
在实施方案中,将个体集合输入遗传算法中,其中每个个体包含个体基因集合,所述个体基因集合如下产生:通过将来自基因数据的对应基因分配给索引,并将每个索引的值分配给为该基因所指定的簇。 个体基因因而是遗传算法的传统基因的延伸,因为簇的层已经添加到基因中。 
在实施方案中,将最高多相互依赖性冗余的概念用于簇的重分配、适合度评价、突变和候选物选择。已经证实,遗传算法的不同元素以最高多相互依赖性冗余的概念为基础是一个非常有力的概念。 
根据本发明的第二个方面,提供了计算机程序产品,当用于计算机上时,其会造成系统执行本发明第一个方面的方法。 
根据本发明的第三个方面,提供了用于从基因库选择候选基因集合的系统,所述系统包括: 
计算单元,其安排成:
- 接受基因数据集;
- 使用聚类算法,将基因数据集聚类成具有类似特性的簇集合;和
- 通过遗传算法,进化簇集合,以从簇集合选择候选基因集合。
一般而言,可以以在本发明范围内可行的任意方式,组合和偶联本发明的不同方面。参考在下文中描述的实施方案阐述了本发明的这些和其它方面、特征和/或优点,且从所述实施方案可以明白后者。 
附图说明
仅作为实施例,参考附图描述了本发明的实施方案,在附图中: 
图1解释了进化聚类算法(ECA)的总流程图;
图2示意地图解了突变过程的流程图;
图3示意地图解了用于选择下一代的个体的轮盘(roulette wheel)的实施方案;且
图4A至4C显示了许多样品的基因表达值。
实施方式描述 
在下面,结合从寡核苷酸微阵列数据得到的基因表达,描述了实施方案。但是,将描述泛化至从任意类型的实验得到的基因表达,是在技术人员的能力范围内。在实施例实施方案中,可以从一般的微阵列数据、基于DNA的阵列、有差别的DNA甲基化阵列、在芯片上的染色质免疫沉淀法(ChIP)或甲基化和基因数目变化,得到基因数据。
首先,结合图1-3,在总水平上描述了所述方法,其次,提供了其中将所述方法已经应用于基因数据的实施例。 
微阵列中的基因表达值通常是连续的,它们需要离散成适当区间,用于计算信息量度。通常,所述数据含有来自测量误差或值错误输入的噪音。噪音可以在离散化结果中产生大量区间。因为更多的区间导致更大的信息损失,在数据的离散化中需要考虑这些问题。 
在一个实施方案中,使用最佳的类依赖性的离散化(OCDD)算法来离散连续的数据,因为它产生接近总体上最佳的解决方案。Wong 等人, “A global optimal algorithm for class dependent discretization of continuous data”, Intelligent Data Analysis 8(2), 第151-170页, 2004,公开了OCDD算法。OCDD考虑了类和基因表达值之间的相互依赖性,且使信息损失最小化。将类定义为每个样品所属的分类。在该背景下,存在2个类——正常的和患病的。为了在处理真实数据过程中防止问题,进行数据的平滑化和统计检验,例如卡方检验。进行平滑化来去除离散化之前的噪音,进行卡方检验来减少区间的数目。平滑化、卡方检验和使用的参数值基本上与在OCDD算法中所述的相同。 
图1 解释了本发明的一个实施方案的总流程图。本发明的实施方案的一般算法称作进化聚类算法(ECA)。在ECA中,接受基因数据集10,用于进一步处理。 
作为一个预处理步骤,去除在疾病类和非疾病类或正常类方面相似的基因表达数据,以便减少基因表达的数目。 
步骤1: 得到第一代。 
通过使用聚类算法,将基因表达数据集安排成具有类似表达特性的簇集合,得到第一代。 
在一个实施方案中,所述聚类算法采用相互依赖性冗余量度作为距离量度。作为合适的聚类算法的一个实例,使用Au 等人“Attribute Clustering for Grouping, Selection and Classification of Gene Expression Data”, IEEE/ACM Transactions on Computational and Bioinformatics 2(2): p 83-101, 2005公开的通过互信息聚类(CMI)的模型。也可以使用其它算法,诸如分级的、萎缩的形心等。 
采用的遗传距离量度是称作相互依赖性冗余量度的信息理论量度。该量度考虑了基因之间的相互依赖性。下式给出了具有n个特质的2个基因x和y之间的相互依赖性冗余量度: 
其中
,
M(x: y)是互信息,E(x: y)是相关熵,g 是x的区间的数目,h 是y的区间的数目,v k 是x的第k个区间,v l 是y的第l个区间,P(v k  ∧ v l )是在区间v k v l 中发生基因值的概率,P(v k )是在区间v k 内发生值的概率,且P(v l )是在区间v l 内发生值的概率。
尽管互信息提供了关于2个基因(即x和y)的相互依赖性的知识,它的值随着可能的基因表达值的数目而增加。因此,为了找到基因之间的正确距离量度,通过熵量度标准化互信息。该标准化的信息量度称作相互依赖性冗余( IR(x:y) )量度。如上面的方程所示,计算它。它反映了2个基因之间的独立性的偏差程度。 
从CMI,得到第一个簇的集合,并将这些簇进行用于选择候选基因的遗传计算。 
在进行之前,定义2个额外的概念。首先,定义所谓的多相互依赖性冗余(MIR)。将基因(x)的MIR定义为它的IR量度和属于相同簇的所有其它基因的总和: 
其中y表示在与x相同的簇中的基因。
其次,将簇的模式(M)定义为具有最高MIR的簇中的基因。 
将簇集合输入遗传算法11,以从簇集合找到候选基因集合。 
在一个实施方案中,基于簇,建立个体集合,并将个体输入遗传算法。将每个个体表示为数字的阵列,它们的每个索引表示来自基因表达数据的对应基因。每个索引的值表示它所属的簇。 
独特基因集合是在随机地选择并指定为每个簇的模式的第一代中。将独特基因的数目设定为与簇的数目相等。然后使用各个簇的对应模式,基于它们的最高IR 量度,将剩余的基因分配给簇。以类似的方式,建立群体中的其它个体。个体中的基因的总数是恒定的,且具有与任意其它个体相同的值。由此产生在簇中的具有不同类型的基因分布的个体的不同集合。基于群体大小的效应研究,将群体大小优化至300。 
步骤2: 适合度和模式计算 
在第二步2(它是第一次迭代或进化)中,计算每个个体的适合度和簇的模式。具有最高适合度值的个体是群体中最适合的个体。个体的适合度是簇总数的多相互依赖性量度的总和。将它定义为:
其中F是个体适合度,i表示簇数目,且Ri是簇i的模式的多相互依赖性冗余量度。
步骤3: 簇分配 
簇分配是基于簇分配算子的应用。在簇分配中,鉴别每个簇的模式(M)。使用该簇的模式(即IR (x:Mk),其中Mk是第k个簇的模式),分配其它基因到具有更高IR的各个簇。
步骤4: 概率性突变算子 
突变率是用户定义的输入。保留群体的最好的5%,以防止更好适合的个体的遗失,并增加遗传算法的效率。随机选择剩余95%的个体的突变。为了选择个体的突变,产生随机数。如果随机数小于突变率,关于突变从总群体中选择出个体。对于选择的个体,在具有至少5个基因的簇中,选择具有最小MIR量度的基因,用于贡献给相同个体的另一个簇。具有该簇的模式的基因的IR值的相对分布被用于构建轮盘。使用轮盘选择,随机地选择该基因转移到的簇。计算新的簇的模式和个体的适合度。所有簇都已经经历突变以后,产生突变的个体。这时新的群体由群体的最好的5%、突变的个体和未突变的个体组成。未突变的个体取自群体中具有更低适合度值的分选群体。已经这样进行,以去除由选择群体的最好的5%所产生的偏倚,避免过早收敛,产生多样性,并允许更差的个体进化。在分析突变率的效应以后,将概率性突变率优化为0.1 (数据未显示)。
在图2的流程图中,示意地图解了突变过程。作为第一步20,将群体设定为M大。在21,将突变率设定为例如0.1,且将要突变的个体设定为M’。在22,在突变个体的每个簇中发现了具有最小MIR的基因。在23,使用轮盘方法,将这些基因随机地转移至另一个簇。最后,在24,下一代的新个体是未突变的个体和突变的个体。 
步骤5: 选择 
使用轮盘选择方法来选择下一代的所有个体。它是在遗传算法中普遍使用的选择方法。从每个个体的相对适合度 (个体适合度和总适合度之比),构建轮盘。以饼形图的形式表示它,其中轮盘上的每个个体占据的面积与它的相对适合度成比例。计算相对适合度的总和(S)。产生0和S的区间中的随机数。贯穿该群体,然后累加对应的相对适合度值。当总和大于产生的随机数时,选择对应的个体。由于具有更好适合度值的个体将占据饼形图中的更大的面积,选择它的概率也更高。
在用3个个体例证的图3的流程图中,示意地图解了选择过程。在轮盘中为最适合的个体30给出最大的份额,在选择中为最弱的个体32给出最小的份额。剩余的个体31是与它们的相对适合度成比例的份额。在34,设定选择点,以找到个体的突变。 
6: 评价个体的适合度 
评价了连续10代的平均适合度的变化。如果平均适合度的变化小于2%,在7,算法终止。如果不是这样,在8,产生新一代。作为一个实例,在第n代,计算在第(n-i)代和第(n-10)代的平均适合度之间的差异百分比,其中i在0-9之间变化。如果所有这10个差异小于2%,则程序执行终止,否则,它继续至下一代。
7: 候选基因 
选择具有最高适合度的个体,且候选基因是该个体的基因。
实施例
在具有2 GB RAM的3.0 GHz双核Intel xeon处理器上,进行实验。 已经在Java1.6.0版中应用了该全部工作。它已经被分成3段——离散化、冗余的计算和ECA。7129个基因和30个样品的集合的离散化所需的时间是0.6469分钟,其中产生的区间的总数是55337。对于相同的数据集,冗余的计算需要1363.3997分钟,且ECA的一次模拟需要48.6153分钟。平衡产生范围是12至14。对于相同的数据集,CMI的一次模拟需要0.7068分钟,收敛需要2 – 4次迭代,并且10000次迭代的k-均值的一次模拟需要70.56分钟。对于更高的迭代数目,k-均值表示超过一次的解决方案重现,这意味着,该解决方案可能是统计学上最佳的解决方案。 
合成数据: 
为了分析聚类数据的算法的效率,最初在2个不同的合成数据上进行了研究。每个数据集含有200个样品和20个基因。表达值在0.0至1.0之间变化,使得域被分成2个区间。2个区间是[0.0, 0.5]和(0.5 – 1.0]。第一个数据集包含下面定义的2个簇和3个类。使用基因G1和G2的值的范围来定义其它基因的值。G1定义基因G3至G11的值,使得G3至G6是在与G1相同的范围内,且G7至G11的值是在不同范围内。类似地,G2定义G12至G20的值。G12至G15的值是在与G2相同的范围内,且G16至G20的值是在不同范围内。将类标记1分配给G1和G2是在0.0至0.5范围内的样品。将类标记2分配给G1和G2是在0.5至1.0范围内的样品,并将类标记3分配给剩余的样品。第二个数据集包含4个簇和5个类,且表达值是在0至10之间变化。适用于产生第二个数据集的方法与关于第一个数据集所述的方法类似。使用等宽离散化来离散合成的数据集。对于这2个数据集,可以看出,对于所有模拟,ECA正确地鉴别簇中的基因分布。但是,CMI能够正确地分组平均65%基因(未显示)。
真实数据: 
在3个基因表达数据集上,评价了ECA的性能:
- Tsutsumi, S. 等人 (2002) Global gene expression analysis of gastric cancer by oligonucleotide microarrays. Cancer Res 1; 62(1):233-40公开的胃癌数据集;
- Alon, U., 等人 (1999) Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays. Proc. Nat’l Academy of Sciences of the United States of America. 96(12): 6745-6750公开的结肠癌数据集;和
- MacDonald, T.J., 等人(2001) Expression profiling of medulloblastoma: PDGFRA and the RAS/MAPK pathway as therapeutic targets for metastatic disease. Nat Genet. Oct; 29(2):143-52公开的脑癌[髓母细胞瘤转移]数据集。
在表1中给出了所有数据集的描述。 
对于每个数据集,进行50个CMI模拟。对于这些模拟中的每一个,簇的数目在2 – 20之间变化。表现出最高个体适合度的簇变成该模拟的数据集的最佳簇。选择最小值,因为簇的数目不应当大至它散布数据。在50个模拟中最佳簇数目的最小值被用作数据集的最佳簇数目。对于所有算法,为所有模拟使用相同的簇数目。 
将ECA与k-均值和CMI相对比。为了对比目的,考虑每种算法的10个模拟。对于每个模拟,得到簇集合。从用于分类研究的每个簇,选择称作候选基因的基因子集。这些候选基因由排序在顶端的基因组成。在ECA和CMI的情况下,将排序在顶端的基因定义为在簇中具有最高多冗余量度的基因。对于k-均值,它们是具有离簇的均值最小的Euclidian距离的基因。对于分类准确度计算,使用遗漏一个交叉验证(LOOCV)方法。对于LOOCV,选择一个样品作为实验集,并将剩余的样品作为训练集。在所有样品中,重复该过程。将分类准确度计算为正确预测为患病或正常的实验样品的百分比。更高的分类准确度值表示该算法在选择含有最多诊断信息的重要基因时更好的效率。 
实施例A: 对胃癌数据集 (GDS1210)的研究 
为每个算法,计算排序在顶端的基因的平均分类准确度。表2显示了胃癌数据集的一个实例 (其它数据未显示)。计算ECA相对于CMI和k-均值的分类准确度的差异百分比。它表示ECA相对于其它算法的改善。
在表3中显示了在胃癌数据集的排序在顶端的基因方面,ECA相对于CMI和k-均值的改善。该研究表明,ECA优于CMI和k-均值。 
与簇中基因分布的不同初始状况集合相对应,考虑了许多模拟。在胃癌数据集上的算法的综合分析证实,与CMI和k-均值相比,在ECA中,含有提供实验样品的更高分类准确度的排序在顶端的基因的模拟的数目更多。这证实,与其它相比,在ECA中,存在找到正确候选基因的更高概率。在表4中,显示了ECA、CMI和k-均值的10个模拟的分类准确度的个体性能。该表显示了显示出对应的分类准确度的不同数目的排序在顶端的基因的模拟数目。 
分类基因的分析 
进一步,在研究通过C4.5在基因子集上建立的决策树时,可以看出,表现出96.67 %分类准确度的情况仅使用一个基因TGIF1,或在有些情况下,仅使用D26129。文献纵览证实,TGIF1起重要作用,且它的更低表达与淋巴结转移明显相关,且可以通过MMP9和VEGF 蛋白的下调节来抑制胃癌的侵入和转移。D26129也是与胃癌的进展有关的一个重要基因。进行了通过CMI和k-均值排序上面2个分类基因的简单研究。表5显示了在所有3个算法中基因的对比排序。通过k-均值,将2个基因TGIF1和D26129排序得非常低,且通过CMI,也排序得相对更低。在表5中,在每个算法的名称下面的数字指示3个不同模拟的各个簇中的对应基因的位置(显示在方括号中)。ECA的所有10个模拟已经证实排序在头3名的基因的96.67%分类准确度。由于基因TGIF1或D26129仅可以实现96.67%准确度值,任一个基因必须排序在排序在头3名的基因中。因此,我们可以得到结论,ECA可以有效地挑选出含有特定疾病的重要诊断信息的基因。
已经进行了3个算法的对比研究,所述算法基于在分类准确度阈值水平以上在所有模拟中发现的共同基因。从每个模拟,选择表6所示的排序在顶端的基因集合(即头1、2和3个)。在所有这些模拟中再次出现的基因称作共同基因。 
在表7(a)中给出了使用排序在头6名的基因的ECA得到的排序在顶端的共同基因的列表。表7(b)含有被发现在通过C4.5决策树完成的分类过程中重要的基因,即用作构建决策树的节点的那些基因。  
基因 功能
TGIF1 在转移中的低表达是显著的;可能通过2个其它基因的下调节来抑制侵入;在转录共抑制活性和转录调节中具有功能
X90840 突触小泡的轴突运载体的mRNA
IGFBP4 在癌症中的作用尚不确定;在有些癌症中,过表达导致减少的生长;似乎在胃癌的研究中高表达;局部可利用的IGF似乎刺激有丝分裂发生;参与DNA代谢、细胞增殖、细胞生长和信号转导的调节
HMHA1 次要组织相容性(HA-1);在许多实体肿瘤细胞中发现表达;功能也涉及细胞内信号传递级联
CUL5 显示了在胃癌中的适度表达;也在细胞生长和增殖中起作用
QSCN6(QSOX1) 潜在地参与细胞生长,且在静止细胞中被高度诱导;因而QSCN6的抑制可能在癌症中起作用
COPS5 参与细胞周期中进展的调节的翻译起始因子活性
UBE4A 参与泛素依赖性的蛋白分解代谢过程;在弥散型胃癌中被下调节
LOC440345 一种假定的蛋白
CCL4 在细胞能动性和信号转导中起作用
ACAT1 乙酰辅酶A c-乙酰基转移酶活性; 参与脂肪酸代谢
表7(a)
 
基因 功能
TGIF1 参考表8(a)
D26129 与胃癌的进展有关
表7(b)。
基于代表性基因的算法对比 
通过相干度描述一组共表达或共调节的基因的表达水平的共同趋势。基因之间的相似性仅考虑遗传距离,而相互依赖性考虑遗传距离以及基因之间的负和正相关。对于一对基因,可以在相似性或正/负相关的意义上量度相干度。为了研究相干性模式,从头5个基因选择3个代表性基因,并在每个算法的不同簇中检查它们的模式。对于ECA和CMI,基于它们的多相互依赖性量度的量级,选择在不同簇中的最重要的基因。对于k-均值,选择表现出离簇的均值更小距离的那些基因。对于随机选择的单个模拟,分别在图4A至4C中显示了算法ECA、CMI和k-均值的这些基因的相干性模式。该图显示了许多样品(沿着水平轴绘图)的基因表达值(沿着垂直轴)。
图4A显示了胃癌数据集的ECA算法的单个模拟的簇1的3个代表性基因的表达模式的标准线图。图4B显示了胃癌数据集的CMI算法的单个模拟的簇2的3个代表性基因的表达模式的标准线图。图4C给出了胃癌数据集的k-均值算法的单个模拟的簇3的3个代表性基因的表达模式的标准线图。 
在ECA中,HMHA1和TGIF1基因是相互依赖的,因为它们在它们的总表达特性形状中表现出负相关,尽管由于它们之间的大遗传距离,它们不是类似的。HMHA1和C21orf33基因的表达特性是类似的,并在某些特性区域表现出负相关。TGIF1和C21orf33基因显示出表达特性形状之间的正和负相关区域。CMI 也显示出相互依赖性,尽管由于如HMHA1和CUL5基因所示的大定标因子,所述基因不是类似的。HMHA1和COPS5基因是类似的,且也表现出特性中的负和正相关区域。但是k-均值算法仅在相似性意义上显示出相干性,且没有考虑所有基因的定标因子或相互依赖性。 
因而,可以得出结论,尽管Euclidean距离仅考虑了聚类基因的相似性,使用相似性和相互依赖性,相互依赖性冗余量度可以聚类基因。可以看出,ECA能够分类基因,所述基因在它们的总表达特性形状中表现出关联,这不同于特性形状中的小区域。另外,与CMI相比,ECA考虑更大的定标因子。从这些结果可以得出结论,与CMI相比,ECA在聚类基因中是更相关的。这表明,尽管ECA和CMI使用相同的距离量度,即用于聚类的相互依赖性冗余量度,与用于聚类基因的CMI相比,ECA使用更好的相互依赖性量度。 
簇中基因分布的研究 
通过ECA形成的簇由数目大致相同的基因组成(数据未显示)。因而,在不同簇中的基因大致均匀分布。如此选择的排序在顶端的基因会提供重要的且有深度的信息。当使用那些排序在顶端的基因时,分类实验样品的更高准确度水平对此予以证实。因而,通过ECA得到的簇的结构可以更可靠地选择顶端基因。但是k-均值算法产生最倾斜的分布(数据未显示)。在大多数情况下,在k-均值算法中的基因分布是高度倾斜的。与k-均值算法相比,CMI在许多情况下显示出更好的性能,即均匀的分布模式(数据未显示)。但是与ECA相比较差。
为每个ECA、CMI和k-均值算法随机选择的单个模拟显示出不同簇中基因分布的下述趋势。作为一个实例,ECA已经将7129个基因分成4个不同的簇:1911、1786、1628和1804,而CMI已经将相同数目的基因聚类成2280、2752、1767和331个基因。k-均值算法中的倾斜分布的一个实例看起来象: 458、25、6545和101个基因。该基因分布也证实了ECA比CMI和k-均值算法更好的性能。 
实施例 B: 对结肠癌数据集的简单研究 
为了对比目的,为每种算法计算所有10个模拟的实验样品的平均分类准确度。表8显示了每个簇的头5个基因的结肠癌数据集的一个实例(其它数据未显示)。
为了在分类准确度的方面研究ECA相对于CMI和k-均值算法的提高,计算分类准确度的差异百分比。在表9中显示了关于结肠癌数据集的每个簇的几个排序在顶端的基因,ECA相对于CMI和k-均值算法的提高。对比研究证实,ECA优于CMI和k-均值算法。 
Au等人(2005)已经广泛地研究了该结肠癌数据集。在这里,我们的目的限于分析通过排序在顶端的基因预测的实验样品的分类准确度。所以,我们已经故意省略了代表性基因和不同簇中基因分布的分析。 
实施例 C: 对脑癌[髓母细胞瘤转移]数据集(GDS232)的简单研究 
对于每种算法,计算所有10种模拟的平均分类准确度。表10显示了每个簇的头1个基因的髓母细胞瘤转移数据集的一个实例(其它数据未显示)。在该情况下,在实验样品的分类准确度的差异百分比方面,我们也发现了ECA比其它2种算法更好的性能。该研究证实,ECA的性能优于CMI和k-均值算法。
在表11中显示了在通过胃癌数据集的每个簇的几个排序在顶端的基因预测的分类准确度的方面,ECA相对于CMI和k-均值算法的提高百分比。 
上述3种算法对脑癌数据集的综合分析证实,与CMI或k-均值算法相比,在ECA中,含有产生更高分类准确度的排序在顶端的基因的模拟数目更多。这表明,与CMI和k-均值算法的可能性相比,在ECA中存在找到正确候选基因的更高可能性(数据未显示)。在这里,我们已经集中注意力于,仅证实本算法优于CMI和k-均值算法的性能。可以看出,在通过选择基因的小集合的实验样品的分类准确度方面,ECA总的来说优于其它2种算法。对于胃癌、结肠癌和脑癌数据集,计算通过ECA选择的排序在顶端的基因的分类准确度。当使用单独的排序在顶端的基因时,某些分类准确度高于使用整个数据集来查找分类准确度时。作为一个实例,对于胃癌数据集,当考虑整个数据集时,分类准确度是93.33%。但是,当使用单独的任一个重要的分类基因(TGIF1/D26129)时,分类准确度是96.67%。这表明,ECA能适当地并有效地选择分类基因,然后可以研究它们的功能和诊断性质。 
ECA的本形式主义(formalism)可以延伸至分析3类微阵列基因表达数据。例如,癌症微阵列数据可以具有正常的、轻度发展的和完全患病的组织的样品。为此目的,可以修饰离散化算法。可以进一步改进该离散化过程、尤其是数据的平滑化,以使机器学习算法更有效。原则上,可以研究其它可行的突变算子,以使ECA更有效。 
本发明可以以包括硬件、软件、固件或它们的任何组合的任何适当的形式被实施。本发明或本发明的某些特征可被实施为运行在一个或更多个数据处理器和/或数字信号处理器上的计算机软件。本发明的实施方式的单元和部件可以以任何适当的方式被物理地、功能地和逻辑地实施。实际上,所述功能性可以在单个单元、多个单元中被实施,或作为其它功能单元的一部分被实施。这样,本发明可以在单个单元中被实施,或可以物理地和功能地分布在不同的单元与处理器之间。 
虽然本发明是结合详述的实施例被描述的,但不打算把它限制于这里所阐述的特定形式。而是,本发明的范围仅仅由所附的权利要求来限制。在权利要求中,术语“包括”不排除其它单元或步骤的存在。另外,虽然各个特征可被包括在不同的权利要求中,但这些特征有可能被有利地组合,以及包括在不同的权利要求中并不意味着这些特征的组合不可行和/或不是有利的。另外,单数的引用不排除多个。因此,对“一”、“一个”、“第一”、“第二”等等的引用不排除多个。而且,在权利要求中的参考符号不应当被解释为限制本范围。 

Claims (6)

1.一种计算机执行的从基因库选择用于将基因数据分类成患病和正常类别的候选基因集合的方法,所述方法包括:
- 接受基因数据集;
- 使用聚类算法,将基因数据集安排成具有类似特性的簇集合;和
- 将所述簇集合输入遗传算法,以从簇集合选择候选基因集合,
- 其中将个体集合输入遗传算法,且其中每个个体包含个体基因集合,所述个体基因集合如下产生:通过将来自基因数据的对应基因分配给索引,并将每个索引的值分配给为该基因所指定的簇,
- 其中基于轮盘选择程序,选择下一代的个体,其中从每个个体的相对适合度构建轮盘,以及
-其中选择候选基因集合作为具有最高适合度的个体,
其特征在于所述聚类算法采用相互依赖性冗余量度作为距离量度,其中两个基因之间的相互依赖性冗余量度基于通过熵量度标准化的互信息,
其特征在于在遗传算法的每个进化中,通过首先确定每个簇的模式,将基因重分配给簇,所述模式是每个簇中具有最高相互依赖性冗余的基因,其中基因的多相互依赖性冗余是基于它的相互依赖性冗余量度与属于相同簇的所有其它基因的总和,并且使用簇的模式将其它基因分配给各个具有更高相互依赖性冗余量度的簇,以及
其特征在于基于簇的多相互依赖性冗余,确定个体的适合度。
2.根据权利要求1的方法,其中所述基因数据集包含与疾病状况和非疾病状况有关的子集,且其中基因数据集已经经过预处理,以去除在疾病状况子集中和在非疾病状况子集中类似的基因数据。
3.根据权利要求1的方法,其中根据最高多相互依赖性冗余,进一步排序个体的基因。
4.根据权利要求1的计算机执行的方法,其中从微阵列数据、基于DNA的阵列、有差别的DNA甲基化阵列、在芯片上的染色质免疫沉淀法(ChIP)或甲基化和基因数目变化,得到基因数据。
5.根据权利要求1的方法,其中所述候选基因是癌症疾病的生物标记,所述生物标记选自TGIF1、X90840、IGFBP4、HMHA1、CUL5、QSCN6 (QSOX1)、COPS5、UBE4A、LOC440345、CCL4、ACAT1,或所述生物标记的任意组合。
6.一种用于从基因库选择用于将基因数据分类成患病和正常类别的候选基因集合的系统,所述系统包括:
计算单元,其安排成:
- 接受基因数据集;
- 使用聚类算法,将基因数据集聚类成具有类似特性的簇集合;和
- 通过遗传算法,进化簇集合,以从簇集合选择候选基因集合,
其中将个体集合输入遗传算法,且其中每个个体包含个体基因集合,所述个体基因集合如下产生:通过将来自基因数据的对应基因分配给索引,并将每个索引的值分配给为该基因所指定的簇,
其中基于轮盘选择程序,选择下一代的个体,其中从每个个体的相对适合度构建轮盘,以及
其中选择候选基因集合作为具有最高适合度的个体,
其特征在于所述聚类算法采用相互依赖性冗余量度作为距离量度,其中两个基因之间的相互依赖性冗余量度基于通过熵量度标准化的互信息,
其特征在于在遗传算法的每个进化中,通过首先确定每个簇的模式,将基因重分配给簇,所述模式是每个簇中具有最高相互依赖性冗余的基因,其中基因的多相互依赖性冗余是基于它的相互依赖性冗余量度与属于相同簇的所有其它基因的总和,并且使用簇的模式将其它基因分配给各个具有更高相互依赖性冗余量度的簇,以及
其特征在于基于簇的多相互依赖性冗余,确定个体的适合度。
CN200980153966.6A 2009-01-06 2009-12-23 从基因库选择候选基因集合的方法和系统 Active CN102272764B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP09150089A EP2207119A1 (en) 2009-01-06 2009-01-06 Evolutionary clustering algorithm
EP09150089.2 2009-01-06
PCT/IB2009/055929 WO2010079402A1 (en) 2009-01-06 2009-12-23 Evolutionary clustering algorithm

Publications (2)

Publication Number Publication Date
CN102272764A CN102272764A (zh) 2011-12-07
CN102272764B true CN102272764B (zh) 2015-01-28

Family

ID=40639787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980153966.6A Active CN102272764B (zh) 2009-01-06 2009-12-23 从基因库选择候选基因集合的方法和系统

Country Status (8)

Country Link
US (1) US8712935B2 (zh)
EP (2) EP2207119A1 (zh)
JP (1) JP5674679B2 (zh)
KR (1) KR101642270B1 (zh)
CN (1) CN102272764B (zh)
BR (1) BRPI0918672B1 (zh)
RU (2) RU2011133091A (zh)
WO (1) WO2010079402A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700549B2 (en) 2012-05-23 2014-04-15 King Fahd University Of Petroleum And Minerals Method of predicting gas composition
JP5963198B2 (ja) * 2012-09-26 2016-08-03 国立研究開発法人科学技術振興機構 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム
JP6164678B2 (ja) * 2012-10-23 2017-07-19 国立研究開発法人科学技術振興機構 ネットワークエントロピーに基づく生体の状態遷移の予兆の検出を支援する検出装置、検出方法及び検出プログラム
US9305257B2 (en) 2013-05-20 2016-04-05 International Business Machines Corporation Adaptive cataclysms in genetic algorithms
TWI633453B (zh) * 2013-09-03 2018-08-21 國立臺灣科技大學 生物標記的篩選方法、電子裝置及生物標記
KR101636995B1 (ko) * 2014-02-05 2016-07-21 연세대학교 산학협력단 도메인 특이적인 계통발생학적 프로파일 유사성을 이용한 유전자 네트워크의 개선 방법
KR101521212B1 (ko) * 2014-05-07 2015-05-18 연세대학교 산학협력단 그래프 데이터 기반의 염기 서열 정렬을 위한 장치 및 그 방법
WO2015172135A2 (en) * 2014-05-09 2015-11-12 The Trustees Of Columbia University In The City Of New York Methods and systems for identifying a drug mechanism of action using network dysregulation
US9754049B2 (en) 2014-09-30 2017-09-05 International Business Machines Corporation Characterizing success pathways in networked graphs
EP3338211A1 (en) * 2015-08-17 2018-06-27 Koninklijke Philips N.V. Multi-level architecture of pattern recognition in biological data
CN105426700B (zh) * 2015-12-18 2018-05-22 江苏省农业科学院 一种批量计算基因组直系同源基因进化速率的方法
CN105825081B (zh) * 2016-04-20 2018-09-14 苏州大学 一种基因表达数据分类方法及分类系统
GB2555765A (en) * 2016-05-01 2018-05-16 Genome Res Ltd Method of detecting a mutational signature in a sample
JP6198161B2 (ja) * 2016-07-07 2017-09-20 国立研究開発法人科学技術振興機構 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム
CN106228034A (zh) * 2016-07-12 2016-12-14 丽水学院 一种肿瘤相关基因搜索的混合优化方法
US20180196349A1 (en) * 2017-01-08 2018-07-12 Mentor Graphics Corporation Lithography Model Calibration Via Genetic Algorithms with Adaptive Deterministic Crowding and Dynamic Niching
CN106980774A (zh) * 2017-03-29 2017-07-25 电子科技大学 一种dna甲基化芯片数据的扩展方法
JP6948722B2 (ja) * 2017-08-10 2021-10-13 国立研究開発法人科学技術振興機構 検出装置及び検出プログラム
KR102102517B1 (ko) * 2018-01-30 2020-04-21 서울대학교산학협력단 최적화 계산 장치 및 방법
CN110827924B (zh) * 2019-09-23 2024-05-07 平安科技(深圳)有限公司 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN112215259B (zh) * 2020-09-17 2023-12-01 温州大学 基因选择方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008129881A1 (ja) * 2007-04-18 2008-10-30 The University Of Tokyo 特徴量選択方法、特徴量選択装置、画像分類方法、画像分類装置、コンピュータプログラム、及び記録媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042681A1 (en) * 2000-10-03 2002-04-11 International Business Machines Corporation Characterization of phenotypes by gene expression patterns and classification of samples based thereon
CN1957353A (zh) * 2004-02-10 2007-05-02 皇家飞利浦电子股份有限公司 用于优化基于基因组学的医学诊断测试的遗传算法
JP2007102709A (ja) * 2005-10-07 2007-04-19 Toshiba Corp 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
WO2007067956A2 (en) * 2005-12-07 2007-06-14 The Trustees Of Columbia University In The City Of New York System and method for multiple-factor selection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008129881A1 (ja) * 2007-04-18 2008-10-30 The University Of Tokyo 特徴量選択方法、特徴量選択装置、画像分類方法、画像分類装置、コンピュータプログラム、及び記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
a global optimal algorithm for class-dependent discretization of continuous data;Lili Liu et al.;《intelligent data analysis》;20040401;第8卷(第2期);151-170 *

Also Published As

Publication number Publication date
RU2011133091A (ru) 2013-02-20
EP2387758B1 (en) 2013-05-29
BRPI0918672B1 (pt) 2020-07-21
EP2387758A1 (en) 2011-11-23
BRPI0918672A2 (pt) 2016-08-23
RU2015131335A3 (zh) 2019-03-05
US20120016826A1 (en) 2012-01-19
EP2207119A1 (en) 2010-07-14
KR101642270B1 (ko) 2016-07-26
JP5674679B2 (ja) 2015-02-25
KR20110112833A (ko) 2011-10-13
CN102272764A (zh) 2011-12-07
US8712935B2 (en) 2014-04-29
RU2015131335A (ru) 2018-12-24
JP2012514783A (ja) 2012-06-28
WO2010079402A1 (en) 2010-07-15

Similar Documents

Publication Publication Date Title
CN102272764B (zh) 从基因库选择候选基因集合的方法和系统
Mitra et al. Multi-objective evolutionary biclustering of gene expression data
Szabo et al. Variable selection and pattern recognition with gene expression data generated by the microarray technology
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
US7370021B2 (en) Medical applications of adaptive learning systems using gene expression data
Zhang et al. Elastic net regularized softmax regression methods for multi-subtype classification in cancer
Mohammed et al. Colorectal cancer classification and survival analysis based on an integrated rna and dna molecular signature
Behera Analysis of microarray gene expression data using information theory and stochastic algorithm
Veytsman et al. Practical detection of biological age: why it is not a trivial task
Li et al. DNA microarray technology and data analysis in cancer research
Wahde et al. Improving the prediction of the clinical outcome of breast cancer using evolutionary algorithms
Dutta et al. Predicting degree of relevance of pathway markers from gene expression data: A pso based approach
Wang et al. Clustering-based approaches to SAGE data mining
Tian et al. Identification of genes involved in breast cancer metastasis by integrating protein–protein interaction information with expression data
Bentkowska et al. Optimization problem of k-NN classifier in DNA microarray methods
Su Statistical Modeling and Learning in Single Cell RNA Sequencing Data
Millard Methods for the design and analysis of disease-oriented multi-sample single-cell studies
Fei et al. Optimal genes selection with a new multi-objective evolutional algorithm hybriding NSGA-II with EDA
Huang et al. An evolutionary algorithm for discovering biclusters in gene expression data of breast cancer
Suseela et al. Applications of Machine Learning Algorithms to Cancer Data
Hasan Investigating Gene Relationships in Microarray Expressions: Approaches Using Clustering Algorithms
Ahmad et al. Gene selection for high dimensional data using k-means clustering algorithm and statistical approach
CN101558419A (zh) 特征分级
Ikumi et al. Algorithm for gene selection from DNA-microarray data for disease classification
Ding et al. Data shuffling and statistical analysis on microarray data for gene selection: a comparative study on filtering methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant