CN102203788B - 用于装配成小组的癌细胞系以用于测试一种或多种药物组合物的功效的方法 - Google Patents

用于装配成小组的癌细胞系以用于测试一种或多种药物组合物的功效的方法 Download PDF

Info

Publication number
CN102203788B
CN102203788B CN200980143442.9A CN200980143442A CN102203788B CN 102203788 B CN102203788 B CN 102203788B CN 200980143442 A CN200980143442 A CN 200980143442A CN 102203788 B CN102203788 B CN 102203788B
Authority
CN
China
Prior art keywords
sample
subgroup
data
algorithm
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200980143442.9A
Other languages
English (en)
Other versions
CN102203788A (zh
Inventor
D·塞米扎洛夫
卢欣
K·张
R·R·列斯尼夫斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AbbVie Inc
Original Assignee
AbbVie Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AbbVie Inc filed Critical AbbVie Inc
Publication of CN102203788A publication Critical patent/CN102203788A/zh
Application granted granted Critical
Publication of CN102203788B publication Critical patent/CN102203788B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Physiology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Abstract

本发明涉及用于限定肿瘤和癌细胞系的基因组亚组的算法。本发明还涉及用于根据基因组亚组装配成小组的肿瘤和癌细胞系以用于测试一种或多种药物化合物在患有至少一种癌症的受试者的治疗中的功效的方法。

Description

用于装配成小组的癌细胞系以用于测试一种或多种药物组合物的功效的方法
相关申请信息
本申请要求对2008年10月31日提交的美国申请No.61/110,281的优先权,所述申请的内容在此引入作为参考。
序列表
本申请包括已通过EFS-Web提交并且因此整体引入作为参考的序列表。所述ASCII拷贝命名为9674WOO1.txt,且大小为1.8千字节。
领域
本发明涉及用于限定肿瘤和癌细胞系的基因组亚组的生物信息学算法或方法。本发明还涉及按照基因组亚组装配(assembling)成小组(panels)的肿瘤和癌细胞系以用于测试一种或多种药物化合物在患有至少一种癌症的受试者的治疗中的功效的方法。
背景
癌症是特征在于临床过程、结果和对治疗的应答的相当大变异性的基因组的疾病。该变异性背后的主要因素是人癌症的遗传异质性。已证明相同组织病理学亚型的个别肿瘤在其细胞DNA中具有不同的畸变。公认的是靶向的癌症疗法靶向特定的遗传畸变而非组织学疾病亚类。靶向分子异常的药物的一些实例是甲磺酸伊马替尼(imatinibmesylate)(其用于治疗慢性髓细胞性白血病)和司徒曼步(其用于治疗HER2阳性乳腺癌)。
目前,基于其可用性(availability)、对小鼠中肿瘤形成的适应性、培养中的生长以及其他参数选择用于肿瘤学药物测试(oncologydrug testing)的临床前模型。对于该方法的问题是其未考虑亲本肿瘤的遗传异质性。这导致临床前试验过程中肿瘤的分子亚类的差的代表。因此,经常在临床前试验中看到的高反应率可能只代表临床前试验实验室中代表的分子亚类的反应。如果该亚类只代表患者群体的一部分,并且如果药物只针对该具体亚类有效,那么临床中的反应将是显著较低的。因此,本领域内需要更好地代表所有亲本肿瘤类型的改进的临床前试验模型。这样的改进的临床前试验将增加新型药物的临床前试验的可预测性。
发明概述
在一个方面,本发明涉及用于聚类肿瘤和细胞系以限定基因组亚组的算法。所述算法包括步骤:
(a)获得多个,m个,包含至少一个肿瘤或癌细胞系的样品;
(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;
(c)鉴定数据集中获自被正常细胞污染的样品的拷贝数改变信息并且从数据集消除所述被污染的样品,其中鉴定和消除包括:
(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法(machine learning algorithm);
(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;
(3)从数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;
(d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法(unsupervised clustering algorithm)估计数据集中亚组的数目r;
(e)利用改进的基因组非负矩阵因子分解(modified genomicnon-negative matrix factorization)(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括:
(1)利用公式(1)计算每100步乘性更新(multiplicativeupdating)后算法的散度:
D ( V | | WH ) = Σ i = 1 n Σ j = 1 m ( V ij log V ij ( WH ) ij - V ij + ( WH ) ij ) - - - ( 1 )
其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目;
(2)如果步骤(e)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001%,那么终止算法;
(3)随机重复算法,进行选择的运行数,并且使用公式(2)计算每一次运行算法的H的Pearson相关系数矩阵:
C i , j = ρ ( H , i , H , j ) = 1 r - 1 Σ k ( H k , i - H , i ‾ ) ( H k , j - H , j ‾ ) s H , i s H , j - - - ( 2 )
其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,且m是数据集中的样品数目,k从1运行至r,且r是来自步骤(d)的亚组的数目;
(4)计算获自步骤(e)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵;
(5)通过使用1减步骤(e)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇,将数据集中的肿瘤和癌细胞系分配至r个亚组中;
(f)应用同表象相关(Cophenetic correlation)、贝叶斯信息准则(Bayesian Information Criterion)或其组合以提供来自数据集的簇的终数目,其中每一个最终的簇限定了每一个肿瘤或癌细胞系样品的基因组亚组;和
(g)使用10倍稳定性检验(ten-fold stability test)评价步骤(f)中选择的簇的终数目的稳定性。
在上述算法中,无监督聚类算法是等级聚类。此外,在上述算法中,同表象相关用于提供来自数据集的簇的终数目。可选地,在上述算法中,贝叶斯信息准则用于提供来自数据集的簇的终数目。仍然在另一选择中,在上述算法中,同表象相关和贝叶斯信息准则用于提供来自数据集的簇的终数目。
在另一个方面,本发明涉及按照基因组亚组装配成小组的肿瘤和癌细胞系的方法。所述方法包括步骤:
(a)获得多个,m个,包含至少一个肿瘤或癌细胞系的样品;
(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;
(c)鉴定数据集中获自被正常细胞污染的样品的拷贝数改变信息并且从数据集消除所述被污染的样品,其中鉴定和消除包括:
(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;
(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数;
(3)从数据集中消除每一个得分50%或更大的含正常细胞的概率的样品的数据;
(d)通过对数据集应用使用Pearson线性相异性算法的无监督聚类估计数据集中亚组的数目r;
(e)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇,其中所述改进的gNMF算法包括:
(1)利用公式(1)计算每100步乘性更新后算法的散度:
D ( V | | WH ) = Σ i = 1 n Σ j = 1 m ( V ij log V ij ( WH ) ij - V ij + ( WH ) ij ) - - - ( 1 )
其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目;
(2)如果步骤(e)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001%,那么终止算法;
(3)随机重复算法,进行选择的运行数,并且使用公式(2)计算每一次运行算法的H的Pearson相关系数矩阵:
C i , j = ρ ( H , i , H , j ) = 1 r - 1 Σ k ( H k , i - H , i ‾ ) ( H k , j - H , j ‾ ) s H , i s H , j - - - ( 2 )
其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,且m是数据集中的样品数目,k从1运行至r,且r是来自步骤(d)的亚组的数目;
(4)计算获自步骤(e)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵;
(5)通过使用1减步骤(e)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇,将数据集中的肿瘤和癌细胞系分配至r个亚组中;
(f)应用同表象相关、贝叶斯信息准则或其组合以选择来自数据集的簇的终数目;
(g)使用10倍稳定性检验评价步骤(f)中选择的簇的终数目的稳定性;和
(h)从步骤(f)中选择的每一个簇选择至少一个肿瘤或细胞系并按照基因组亚组装配到小组中。
在上述方法中,癌症选自:小细胞肺癌、非小细胞肺癌、结肠直肠癌和黑色素瘤。
在上述方法中,拷贝数改变是拷贝数的获得或丧失。
附图简述
图1显示本发明的方法中包含的步骤的概述。具体地,该图显示与下述相关的步骤:基于其拷贝数模式分类肿瘤和癌细胞系,将肿瘤和癌细胞系基于其拷贝数改变的模式分配至基因组亚组,且然后装配成组的代表特定癌症类型的基因组亚组的细胞。
图2显示用于产生非小细胞肺癌(NSCLC)数据集的树形图以得到如实施例3中描述的簇的可能数目的等级聚类。
图3显示通过基因组非负矩阵因子分解(gNMF)分类至4个簇中的来自实施例3的NSCLC肿瘤和细胞系CGH数据的热图(heatmap)。每一行表示样品,且每一列表示SNPs基因座;红色、白色和蓝色分别表示高、正常和低拷贝数;水平黑线分隔不同的簇;垂直间隙分隔染色体1至22;细胞系用绿色圆圈突出显示。
图4显示用于产生结肠直肠癌(CRC)数据集的树形图以得到如实施例4中描述的簇的可能数目的等级聚类。
图5显示通过gNMF分类至5个簇中的来自实施例4的CRC肿瘤和细胞系CGH数据的热图。每一行表示样品,且每一列表示SNPs基因座;红色、白色和蓝色分别表示高、正常和低拷贝数;水平黑线分隔不同的簇;垂直间隙分隔染色体1至22;细胞系用绿色圆圈突出显示。
图6显示用于产生结黑色素瘤数据集的树形图以得到如实施例5中描述的簇的可能数目的等级聚类。
图7显示如实施例5中所述的通过gNMF分类至6个簇中的黑色素瘤肿瘤和细胞系CGH数据的热图。每一行表示样品,且每一列表示SNPs基因座;红色、白色和蓝色分别表示高、正常和低拷贝数;水平黑线分隔不同的簇;垂直间隙分隔染色体1至22;细胞系用绿色圆圈突出显示。
图8显示4个NSCLC簇中临床上注释的样品的至复发时间(timeto recurrence)的Kaplan-Meier曲线:(a)分开考虑的4个簇;和(b)组合的簇1和2。
图9显示被分配至4个簇中的验证样品的TTR的Kaplan-Meier曲线:(a)分开考虑的4个簇;和(b)与其余的3个簇相比较的簇1。
图10显示被分配至4个簇中的验证样品之间总体存活的Kaplan-Meier曲线:(a)分开考虑的4个簇;和(b)与其余3个簇相比较的簇1。
图11显示被分配至4个簇中的验证样品之间的TTR和OS的Kaplan-Meier曲线,其中使用全部现有肿瘤和细胞系以代表簇:(a)TTR;和(b)OS。
详述
在一个方面,本发明提供了用于装配成小组的肿瘤、癌细胞系和/或异种移植物以用于药物组合物的临床前试验的方法,所述药物组合物可用于治疗患有至少一种类型的癌症的受试者(例如,人患者)。使用本文中描述的方法,可通过选择癌细胞系来开发代表亲本肿瘤类型的基因组多样性的癌细胞系小组,以便其每一个匹配相应肿瘤类型的不同基因组亚组。
在另一个方面,本发明提供了可用于限定或分类肿瘤和癌细胞系的基因组亚组的独特计算算法(computational algorithm)。从这些肿瘤和癌细胞系鉴定的基因组亚组可用于装配上述小组。通常,本发明的计算算法包括下列步骤:
1.应用机器学习算法(例如随机森林(Random Forests))鉴定和消除具有正常细胞导致的显著污染的样品;
2.在将数据与基因组非负矩阵因子分解(gNMF)模型拟合之前使用无监督聚类(例如等级聚类)估计簇的可能数目;
3.使用gNMF的多个随机开始,然后应用由gNMF产生的H距阵的相关作为距离矩阵来分类样品;
4.使用gNMF算法将肿瘤和癌细胞系分类至几个可能数目的簇中,然后使用同表象相关系数、和贝叶斯信息准则(BIC)或其组合选择最佳模型和确定簇的最终数目;和
5.应用10倍稳定性检验以评价簇的稳定性。
本发明的方法通过提供亲本肿瘤的更完整代表来促进临床前试验模型的合理选择和提高临床前试验的可预测性。尽管不希望受任何理论束缚,本发明的基本原理如下。已显示拷贝数改变(CNAs)的模式决定人肿瘤的表型。因此,如果通过CNAs的模式限定肿瘤群体的亚组,且然后选择至少一个细胞系以匹配每一个亚组,那么可装配比目前可获得的成组肿瘤模型更能充分代表肿瘤群体的多样性的一小组细胞系。
A.定义
如本文中所使用的,除非上下文另外明确地指出,否则单数形式“a”、“an”和“the”包括复数所指物。对于在本文中引述数字范围,明确地预期具有相同的精确度的存在于其间的每一个插入数字。例如,对于范围6至9,除了6和9外还预期数字7和8,并且对于范围6.0至7.0,明确地预期数字6.0、6.1、6.2、6.3、6.4、6.5、6.6、6.7、6.8、6.9和7.0。
a)阵列
如本文中使用的术语“阵列”是指附着至固体支持物的核酸探针。阵列一般包含多个在不同的已知位置中与基质的表面偶联的不同核酸探针。这些阵列也被描述为微阵列,“芯片”已广泛地描述于本领域中,例如美国专利Nos.5,143,854、5,445,934、5,744,305、5,677,195、6,040,193、5,424,186和(参见,Fodor,S.P.,等人,“Light-directed,spatially addressable parallel chemical synthesis,”Science,251:767-773(1991))中。这些阵列通常可使用机械合成法或整合光刻法和固相合成法的组合的光指导的合成法(light directed synthesis method)来生产。用于使用机械合成来合成阵列的技术描述于例如美国专利No.5,384,261中。虽然平面阵列表面是优选的,但也可在事实上任何形状的表面或甚至多种表面上制作阵列。阵列可以是珠、凝胶、聚合物表面、纤维例如光导纤维(fiber optics)、玻璃或任何其他适当的基质上的核酸;例如,如美国专利Nos.5,770,358、5,789,162、5,708,153、6,040,193和5,800,992中所描述的。可以以这样的方式包装阵列以允许其用于诊断或所有包括的设备的其他操作,参见例如,美国专利Nos.5,856,174和5,922,591。
可使用单核苷酸多态性(SNPs)设计阵列以覆盖完整基因组。例如,阵列可以以23.6kb SNP基因座的平均标记间距离(meaninter-marker distance)以23.6kb基因座的平均标记间距离覆盖人基因组中的116,204个单核苷酸多态性(SNP)基因座。
b)贝叶斯信息准则(BIC)
如本文中所使用的,短语“贝叶斯信息准则”或“BIC”是指用作用于模型选择的统计学准则的参数方法。BIC由Schwarz,G.在Annals ofStatistics 6(2):461-464(1978)中的“Estimating the dimension of a model”中进行了描述。BIC利用下列公式(3)来限定:
    BIC=-2*ln(L)+k ln(n)                (3)
其中L是测量模型怎样好地接近数据的似然性,k是模型中使用的参数的数目,且n是样品的数目。第二项kln(n)用作对模型中使用的参数的数目的罚分以避免过度拟合(overfitting)。
c)聚类分析(Clustering Analysis)
如本文中所使用的,短语“聚类分析”是指将对象(也称为观察、个体、案例(cases)或数据行(data rows))的集合分组成亚群(subset)、亚组或“簇”,以便每一个簇内的那些对象彼此之间比分配至不同簇的对象之间关系更密切。聚类分析的所有目的中核心的是待聚类的个别对象之间的相似性(或相异性)程度的概念。聚类的种类的实例是等级聚类和K-平均值聚类。
d)同表象相关系数或同表象相关
如本文中所使用的,如在本文中可互换使用的短语“同表象相关系数”或“同表象相关”是指用于测量用于得出终聚类结果的树形图怎样忠实地保持初始未建模数据点之间的逐对距离的算法。为了用于本发明,如果假定已通过树形图Ti对原始数据Xi建模,那么利用下列公式限定距离测量:
x(i,j)=|Xi-Xj|,第i个与第j个样品之间的距离,且t(i,j)=模型点Ti与Tj之间的树形图(dendrogrammatic)距离,其中所述距离是这两个点首次连接在一起所处的节点的高度。然后,如果x是x(i,j)的平均值,并且t是t(i,j)的平均值,那么同表象相关系数c由下列公式(4)限定:
c = &Sigma; i < j ( x ( i , j ) - x ) ( t ( i , j ) - t ) [ &Sigma; i < j ( x ( i , j ) - x ) 2 ] [ &Sigma; i < j ( t ( i , j ) - t ) 2 ] - - - ( 4 )
已知(参见,Maher,E.A.,等人,“Marked genomic differencescharacterize primary and secondary glioblastoma subtypes and identifytwo distinct molecular and clinical secondary glioblastoma entities,”Cancer Res.66:11502-13(2006);Carrasco,D.R.,等人,“High-resolutiongenomic profiles define distinct clinico-pathogenetic subgroups ofmultiple myeloma patients,”Cancer Cell.9:313-25(2006))随着r增加,同表象相关将在某个点急剧减少,从而对应于簇的最佳数目。
e)直接可检测的和间接可检测的
如本文中所使用的,短语“直接可检测的”,当关于可检测标记或可检测部分使用时,意指所述可检测标记或可检测部分不需要进一步反应或操作就可被检测。例如,荧光部分可通过荧光光谱法直接检测。相反地,短语“间接可检测的”,当关于可检测标记或可检测部分使用时,意指所述可检测标记或可检测部分在进一步反应或操作后变为可检测的。例如,半抗原在与附着至报道分子例如荧光染料的适当的抗体反应后变为可检测的。
f)等级聚类
如本文中所使用的,短语“等级聚类”是指簇的等级的建立(团聚的)或解散(分裂的)。该等级的传统表示是树(其称为树形图),其中个别要素在一端并且含有每一个要素的单个簇在另一端。团聚的算法始于树的叶,然而分裂的算法始于根。用于进行等级聚类的方法在本领域内是公知的。
等级聚类方法已在生物医学研究中广泛地用于基于其基因组模式聚簇生物学样品和得出样品群体中的亚组结构(参见,Sotiriou,C等人,“Breast cancer classification and prognosis based on gene expressionprofiles form a population-based study,”Proc.Natl.Acad.Sci.USA,100:10393-10398(2003);Bhattacharjee,A.,等人,“Classification ofhuman lung carcinomas by mRNA expression profiling reveals distinctadenocarcinoma subclasses,”Proc.Natl.Acad.Sci.USA,98:13790-13795(2001);Wilhelm,M.,“Array-based ComparativeGenomic Hybridization for the Differential Diagnosis of Renal CellCancer,”Cancer Research 62:957-960(February 15,2002);Hedenfalk,I.,等人,“Molecular classification of familial non-BRCA1/BRCA2 breastcancer,”Proc.Natl.Acad.Sci.USA,100:2532-2537(2003)))。例如,在Ross,D.T.,等人(参见,Ross,D.T.,等人,“Systematic variation in geneexpression patterns in human cancer cell lines,”Nat.Genet.,24:227-235(2000))中,等级聚类被用于将64个人肿瘤细胞系基于1161个选择的基因的表达模式分组成几个簇,且得出不同簇的分子特征。
g)杂交
如本文中所使用的,术语“杂交”是指足够互补以通过Watson-Crick碱基配对或非规范碱基配对形成复合物的核酸序列之间的复合物的形成。例如,当引物与靶序列(模板)“杂交”时,此种复合物(或杂交体(hybrid))足够稳定以发挥例如DNA聚合酶起始DNA合成所需的引发功能。本领域技术人员将认识到,杂交序列不必具有完全的互补性来提供稳定的杂交体。在许多情况下,当少于约10%的碱基错配时,稳定的杂交体将形成。因此,如本文中所使用的,术语“互补”是指在测定条件下与其互补体形成稳定双链体的寡核苷酸,通常其中存在约80%、约81%、约82%、约83%、约84%、约85%、约86%、约87%、约88%、约89%、约90%、约91%、约92%、约93%、约94%、95%、约96%、约97%、约98%或约99%的更大的同源性。本领域技术人员了解如何估计和调整杂交条件的严格性以便具有至少所需的互补性水平的序列将稳定地杂交,同时具有更低互补性的那些序列将不杂交。杂交条件和参数的实例可见于例如Sambrook等人,″Molecular Cloning:A Laboratory Manual″,1989,第二版,ColdSpring Harbor Press:Plainview,NY;F.M.Ausubel,″Current Protocolsin Molecular Biology″,1994,John Wiley & Sons:Secaucus,NJ。
h)“标记的”或“用可检测标记进行标记的”
如本文中所使用的,术语“标记的”和“用可检测标记(或试剂或部分)进行标记的”在本文中可互换使用并且具体说明可以例如在与另一种实体(例如,扩增产物)结合后使实体((例如,DNA的片段、引物或探针)显现。优选地,可选择可检测标记以便所述标记产生可被测量并且强度与结合的实体的量相关(例如,成比例)的信号。用于标记和/或检测核酸分子例如引物和探针的多种系统在本领域是公知的。可通过掺入或缀合可利用分光镜方法、光化学方法、生物化学方法、免疫化学方法、电学方法、光学方法、化学方法或其他方法直接或间接检测的标记来制备标记的核酸。适当的可检测试剂包括但不限于放射性核素、荧光团、化学发光试剂、微粒、酶、比色标记、磁性标记、半抗原等。
i)机器学习
如本文中所使用的,短语“机器学习”是指涉及使得计算机能够“学习”的算法和技术的设计和开发的人工智能的学科分支。一般而言,存在两种类型的学习:归纳的和演绎的。归纳的机器学习法从数据集提取出规则和模式。机器学习研究的主要焦点是通过计算和统计学方法自动地从数据提取信息。基于需要的算法结果,被组织至分类学中的许多机器学习算法对于本领域技术人员来说是已知的。这些包括但不限于(1)监督学习(例如,随机森林);(2)无监督学习(例如,主要组分分析、向量量化等);(3)半监督学习(semi-supervised learning);(4)强化学习(reinforcement learning);(5)转导(transduction);和(6)学会学习。
j)非负矩阵因子分解
如本文中所使用的,短语“非负矩阵因子分解”或“NMF”是指用于发现非负数据的基于部分的线性代表的算法。非负矩阵因子分解最初被开发为用于图象分析的数学工具(参见,Lee,D.D.,等人,“Learning the parts  of objects by non-negative matrix factorization,”Nature.401:788-91(1999);Lee,D.D.等人,“Algorithms forNon-negative Matrix Factorization,”Advances In Neural InformationProcessing Systems.14:556-562(2001))。
NMF在基因组学中被采用来分析基因表达数据(参见,Brunet,J.P.,等人,Metagenes and molecular pattern discovery using matrixfactorization.Proc Natl Acad Sci USA.101:4164-9(2004))。具体地,NMF适用于在基因拷贝数数据的分析中使用(参见,Maher,E.A.,等人,“Marked genomic differences characterize primary and secondaryglioblastoma subtypes and identify two distinct molecular and clinicalsecondary glioblastoma entities,”Cancer Res.66:11502-13(2006);Carrasco,D.R.,等人,“High-resolution genomic profiles define distinctclinico-pathogenetic subgroups of multiple myeloma patients,”CancerCell.9:313-25(2006))。用于基因拷贝数分析的方法的变形称为基因组非负矩阵因子分解(gNMF)。已知数据集中修正的拷贝数数据的nxm矩阵V,其中n是区段的数目,且m是样品的数目,gNMF算法将矩阵V因子分解成如下式(5)中显示的nxr矩阵W和rxm矩阵H:
V=W*H+e                        (5)
在本发明中,W可被视为每一个亚组的标准模型;H被视为属于每一个亚组的每一个样品的相对权重;e表示模型拟合残数(modelfitting residue),且r为待聚类的(clustered)亚组的数目(其通常比m小得多)。已知r和V为输入,gNMF算法首先随机设置W和H的初始值,然后根据下列公式(6和7)利用乘性更新规则(multiplicativeupdate rule)迭代更新W和H:
H &alpha;&mu; &LeftArrow; H &alpha;&mu; &Sigma; i W i&alpha; V i&mu; / ( WH ) i&mu; &Sigma; k W k&alpha; - - - ( 6 )
W i&alpha; &LeftArrow; W i&alpha; &Sigma; &mu; H &alpha;&mu; V i&mu; / ( WH ) i&mu; &Sigma; v H &alpha;v - - - ( 7 )
其中α从1运行至r,μ从1运行至m,以及i从1运行至n。
k)Pearson线性相异性(Pearson linear dissimilarity)
如本文中所使用的,短语“Pearson线性相异性”是指下列公式(8):
d &rho; ( x &RightArrow; , y &RightArrow; ) = 1 - &rho; ( x &RightArrow; , y &RightArrow; ) 2 - - - ( 8 )
其中是两个具有长度n的向量,是具有下列公式(9)的Pearson线性相关:
&rho; ( x &RightArrow; , y &RightArrow; ) = 1 n - 1 &Sigma; i = 1 n ( x i - x &OverBar; s x ) ( y i - y &OverBar; s y ) - - - ( 9 )
其中样本标准差sx和sy具有下列公式(10):
s x = &Sigma; i = 1 n ( x i - x &OverBar; ) 2 n - 1 - - - ( 10 )
并且其中样本平均值具有下列公式(11):
x &OverBar; = 1 n &Sigma; i = 1 n x i - - - ( 11 )
l)药物组合物或药物
如本文中所使用的,在本文中可互换使用的“药物组合物”或“药物”是指可用于治疗患有至少一种类型的癌症的受试者或患者的任何试剂,无论是小分子(例如,含有活性剂的药物,一般非肽)还是生物试剂(例如,基于肽、蛋白质或抗体的药物,包括具有修饰例如但不限于加入聚乙二醇(PEGylation)的任何药物)。
m)引物
术语“引物”是指当在核苷酸和用于核酸聚合的酶(例如,依赖DNA的或依赖RNA的聚合酶)存在的情况下置于适当的扩增条件(例如,缓冲液、盐、温度和pH)下时,能够充当作为核酸(所有类型的DNA或RNA)的互补链的引物延伸产物的合成起始点的寡核苷酸。引物可以是单链的或双链的。如果是双链,那么可首先处理引物(例如,变性)以使其链在用于制备延伸产物之前分开。这样的变性步骤一般使用热来进行,但可以可选地使用碱来进行,然后进行中和。引物在长度上可具有约15至50个核苷酸的长度,优选在长度上为约20至约40个核苷酸。引物还包含另外的核苷酸。例如,用于SDA的引物可在靶结合序列5′包括限制性内切核酸酶识别位点(参见,美国专利Nos.5,270,184和5,455,166),NASBA和TMA引物可包含连接于引物的靶结合序列的RNA聚合酶启动子。用于将这种特化的序列连接至用于选择的扩增反应的靶结合序列的方法对于本领域技术人员来说是公知的。此外,在某些情况下,可用可检测标记来标记引物。
短语“正向引物”是指与靶序列(例如,模板链)杂交(或退火)的引物。短语“反向引物”是指与靶序列的互补链杂交(或退火)的引物。正向引物在相对于反向引物的5′与靶序列杂交。
n)探针
如本文中所使用的,术语“探针”是指经设计用于与CGH微阵列、SNPs微阵列或本领域内已知的任何其他微阵列结合使用的寡核苷酸,其能够在适当的条件下与靶序列的至少一部分选择性杂交。一般说来,探针序列被鉴定为“互补的”(即,与编码或有义链(+)互补)或“反向互补的”(即,与反义链(-)互补)。探针可具有约10至100个核苷酸,优选约15至75个核苷酸,最优选约15至50个核苷酸的长度。
o)随机森林
如本文中所使用的短语“随机森林”是指由Breiman在2001年(参见,Breiman,L.,“Random Forests,”Machine Learning,45(1):5-32(2001))描述的监督学习算法,其使用树预测值(tree predictor)的组合以便每一棵树依赖于独立取样的随机向量的值并且森林中所有树具有相同的分布。
随机森林生长许多分类树。为了分类来自输入向量(input vector)的新对象,将输入向量置于森林中每一棵树下方。每一棵树给出分类,且认为树“投票”赞成该类。森林选择具有最多投票(在森林中全部树的范围内)的分类。如下生长每一棵树:
1.如果训练集(training set)中案例的数目是N,那么从原始数据随机获取N个案例的样本-但具有替换。该样本将是用于生长树的训练集。
2.如果存在M个输入变量,指定数目m<<M以便在每一个节点,从M中随机选出m个变量并且将对这m个变量的最佳分裂用于分裂节点。在森林生长过程中m的值保持恒定。
3.使每一棵树生长至最大可能程度。不存在剪枝。
随机森林的预测差错率(prediction error rate)取决于两个因素:
1.森林中任何两棵树之间的相关。增加相关则增加森林差错率。
2.森林中每一棵个别树的强度。具有低差错率的树是强分类器(classifier)。增加个别树的强度则减小森林差错率。
B.计算算法和其在肿瘤和癌细胞系的基因组分类中的用途
如本文中之前提及的,本发明涉及基于其全基因拷贝数(CN)模式分类肿瘤和细胞系,将肿瘤和癌细胞系基于其CN改变模式分配至基因组亚组并且装配成组的代表特定癌症类型的基因组亚组的肿瘤和癌细胞系的方法(参见,图1)。上述方法利用将在本文中更详细地描述的独特的计算算法。
具体地,本发明包括获得多个(m)包含肿瘤和癌细胞系的样品(其中m是从1至5,000,000的整数。例如,多个样品可为二(2)、五(5)、十(10)、十五(15)、二十(20)、二十五(25)、五十(50)、一百(100)、二百(200)、五百(500)、一千(1,000)、一万(10,000)、五万(50,000)、十万个样品(100,000)、二十五万个样品(250,000)、五十万(500,000)、一百万(1,000,000)个样品等)。在获得肿瘤和癌细胞系后,使用本领域内已知的常规技术检测获得的选择的肿瘤和癌细胞系中的拷贝数和拷贝数改变。可从患有一种或多种肿瘤或癌症的受试者获得肿瘤(例如患有下述的受试者:人肉瘤和癌,例如,纤维肉瘤、粘液肉瘤、脂肪肉瘤、软骨肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、Ewing氏瘤(Ewing′s tumor)、平滑肌肉瘤、横纹肌肉瘤、结肠癌、结肠直肠癌、胰癌、乳腺癌、卵巢癌、前列腺癌、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌(papillary adeno carcinomas)、囊腺癌、髓样癌、支气管癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎性癌、肾母细胞瘤(Wilms′tumor)、宫颈癌、睾丸肿瘤、肺癌、小细胞肺癌、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、成神经管细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、成血管细胞瘤、听神经瘤、少突神经胶质细胞瘤、脑膜瘤、黑色素瘤、神经母细胞瘤、视网膜母细胞瘤;白血病,例如,急性淋巴细胞性白血病和急性髓细胞性白血病(成髓细胞白血病、前髓细胞性白血病、粒单核细胞白血病、单核细胞性白血病和红白血病);慢性白血病(慢性髓细胞性(粒细胞性)白血病和慢性淋巴细胞性白血病);和真性红细胞增多、淋巴瘤(何杰金氏病和非何杰金氏病)、多发性骨髓瘤、Waldenstrom氏巨球蛋白血症(Waldenstrom′s macroglobulinemia)和重链病(heavy chaindisease))。可使用本领域内已知的常规技术获得此种肿瘤细胞。例如,可通过外科手术从患有或怀疑患有癌症的受试者解剖肿瘤,然后立即将其例如在-80℃冷冻。
可选地,可商购获得或从公共来源获得肿瘤和癌细胞系的样品。可用于获得或购买这样的肿瘤或癌细胞系的示例性商业或公共可获得的来源包括但不限于,美国典型培养物保藏中心(ATCC),Manassus,VA;Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH(DSMZ)Braunschweig,德国;Cell Line Service(CLS),德国;EuropeanCollection of Cell Cultures(ECACC),Salisbury,Great Britain。
此外,可从许多商购可得或可公共获得的来源获得多种肿瘤和癌细胞系的拷贝数和拷贝数改变信息,例如但不限于从Gene ExpressionOmnibus(GEO),其可从美国国家生物技术信息中心(NCBI)获得,从Broad Institute/Dana Farber Cancer Institute Melanoma Portal,从DanaFarber Cancer Institute网站等在线获得。
可商购获得的和从可公共获得的来源获得的肿瘤和癌细胞系的实例在下文中示于表A至C中。具体地,表A提供了关于非小细胞肺癌的信息。表B提供了关于结肠直肠癌的信息。表C提供了关于黑色素瘤的信息。
表A
表B
表C
一旦获得了需要的肿瘤和癌细胞系,就使用本领域已知的常规技术例如酚-氯仿提取、盐析、无消化提取(digestion-free extraction)或通过使用商购可得的试剂盒例如可从(Qiagen,Valencia,CA)获得的DNeasy或QIAamp试剂盒从每一个肿瘤或细胞系提取基因组DNA。然后可修饰或改变获自每一个肿瘤或细胞系的基因组DNA以促进其余分析。例如,可使用本领域已知的常规技术将引物或衔接头序列连接至基因组DNA。例如,可首先使用本领域中的常规技术(参见,例如GeneChip Mapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第30页),用限制性内切核酸酶(例如HindIII、XbaI或其组合)消化基因组DNA。一旦消化,就可将一个或多个引物或适应序列(adapted sequence)连接至消化的基因组DNA。优选地,使用的衔接头是识别粘性4碱基对突出端的那些。例如,可使用T4DNA连接酶将一个或多个衔接头例如Xba、Hind III、Nsp、Sty或其任何组合连接至消化的基因组DNA。可使用的Xba衔接头的实例是具有如下序列的衔接头:5’TCTAGAGATCAGGCGTCTGTCGTGCTCATAA3’(SEQ ID NO:2),其可从Affymetrix商购获得(参见,GeneChipMapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第128页)。可使用的Hind III衔接头的实例是具有如下序列的衔接头:5’pACGTAGATCAGGCGTCTGTCGTGCTCATAA3’(SEQ ID NO:3),其可从Affymetrix商购获得(参见,GeneChip Mapping 100K AssayManual 701684 Rev.3,Affymetrix(2004)的第129页)。可使用的Nsp衔接头的实例是具有如下序列的衔接头:5’ATTATGAGCACGACAGACGCCTGATCTCATG 3’(SEQ ID NO:5)和5’pAGATCAGGCGTCTGTCGTGCTCATAA 3’(SEQ ID NO:6),其各自可从Affymetrix商购获得(参见,GeneChip Mapping 500K AssayManual PN 701930 Rev.3,Affymetrix(2005-2006)的第289页)。可使用的Sty衔接头的实例是具有如下序列的衔接头:5’ATTATGAGCACGACAGACGCCTGATCT 3’(SEQ ID NO:7)和5’pCWWGAGATCAGGCGTCTGTCGTGCTCATAA 3’(SEQ ID NO:8),其各自可从Affymetrix商购获得(参见,GeneChip Mapping 500KAssay Manual PN 701930 Rev.3,Affymetrix(2005-2006)的第292页)。使用T4DNA连接酶将Xba和Hind III衔接头连接至基因组DNA的技术描述于例如GeneChip Mapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第33页上。使用T4DNA连接酶将Nsp和Sty衔接头连接至基因组DNA的技术描述于例如GeneChip Mapping500K Assay Manual PN 701930 Rev.3,Affymetrix(2005-2006))的第253页。
然后使用利用一定的扩增条件和扩增试剂的常规核酸扩增方法扩增DNA。如在本段落中与DNA扩增结合使用的,术语“扩增条件”是指促进引物序列的退火和/或延伸的条件。这样的条件在本领域内是公知的并且取决于选择的扩增方法。例如,PCR扩增条件通常包括热循环,例如,两个或更多个温度之间的反应混合物的循环。在等温扩增反应中,扩增在无热循环的情况下发生,虽然可能需要起始温度增加来起始反应。扩增条件包括全部反应条件,包括但不限于温度和温度循环、缓冲液、盐、离子强度、pH等。如在本段落中与DNA扩增结合使用的,短语“扩增试剂”是指用于核酸扩增反应的试剂。扩增试剂的种类将依赖于选择的核酸扩增方法的类型而变化。用于核酸扩增方法的扩增试剂的选择对于本领域技术人员来说是公知的。本领域内已知的扩增试剂的实例包括但不限于,缓冲液、试剂、具有逆转录酶和/或聚合酶活性或外切核酸酶活性的酶;酶辅因子例如镁或锰;盐;以及脱氧核苷酸三磷酸(dNTPs)例如脱氧腺苷三磷酸(dATP)、脱氧鸟苷三磷酸(dGTP)、脱氧胞苷三磷酸(dCTP)、脱氧胸苷三磷酸(dTTP)和脱氧尿苷三磷酸(dUTP)。核酸扩增方法包括但不限于聚合酶链反应(PCR)。PCR描述于许多参考文献中,例如但不限于,″PCR Protocols:A Guide to Methods and Applications″,M.A.Innis(Ed.),Academic Press:New York(1990);″PCR Strategies″,M.A.Innis(Ed.),Academic Press:New York(1995);″Polymerase chain reaction:basic principles andautomation in PCR.A Practical Approach″,McPherson等人(Eds.),IRL Press:Oxford(1991);Saiki等人,Nature,324:163(1986);和美国专利Nos.4,683,195、4,683,202和4,889,818,其各自以其整体在此引入作为参考。还包括PCR的变形,包括基于TaqMan的测定(参见,Holland等人,Proc.Natl.Acad.Sci.USA,88:7276-7280(1991))和逆转录酶聚合酶链反应(或RT-PCR,描述于例如美国专利Nos.5,322,770和5,310,652,其各自在引入作为参考)。
通常,在PCR中,向获自上述肿瘤或癌细胞系的DNA中过量添加单个引物或引物对以与靶核酸的互补链杂交。如果消化获自肿瘤或癌细胞系的基因组DNA,并将其与引物或衔接头序列连接,那么优选用于扩增方法中的引物之一识别所述衔接头序列。也优选的是,用于扩增方法,例如上述段落中描述的扩增方法中的引物扩增250至2000个碱基对大小范围内的片段。可用于本发明的引物的实例是具有序列5’ATTATGAGCACGACAGACGCCTGATCT 3’(SEQ ID NO:1的PCR引物001和具有序列5’ATTATGAGCACGACAGACGCCTGATCT 3’(SEQ ID NO:4)的PCR引物002,所述引物各自可从Affymetrix商购获得(参见,GeneChip Mapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第128页(PCR引物001)和GeneChipMapping500K Assay Manual PN 701930 Rev.3,Affymetrix(2005-2006)的第289页(PCR引物002)。通过使用靶序列作为模板,引物各自由DNA聚合酶延伸。延伸产物在与原始靶链分离(变性)后本身成为靶。然后新的引物杂交并且由聚合酶延伸,并且重复循环以指数增加扩增的DNA的拷贝数。能够在PCR反应中产生引物延伸产物的DNA聚合酶的实例包括但不限于大肠杆菌DNA聚合酶I、DNA聚合酶I的克列诺(Klenow)片段、T4DNA聚合酶、从水生栖热菌(Thermus aquaticus)分离的热稳定性DNA聚合酶(Taq)、可从多种来源获得(例如,PerkinElmer,Waltham,MA),嗜热栖热菌(Thermus thermophilus)(USBCorporation,Cleveland,OH)、嗜热脂肪芽孢杆菌(Bacillusstereothermophilus)(Bio-Rad Laboratories,Hercules,CA)、AmpliTaqGold酶(Applied Biosystems,Foster City,CA)、重组嗜热栖热菌(rTth)DNA聚合酶(Applied Biosystems,Foster City,CA)或附岸热球菌(Thermococcus litoralis)(″Vent″聚合酶,New England Biolabs,Ipswich,MA)。可通过将mRNA逆转录(RT)成cDNA,然后如上所述进行PCR来扩增RNA靶序列。可选地,可如美国专利No.5,322,770中所述将单个酶用于两个步骤,所述专利在此引用作为参考。
在完成扩增后,可使用本领域中的常规技术(例如,通过使用可从Qiagen,Valencia,CA获得的Qiagen MinElute 96 UF PCR纯化系统,其规程描述于GeneChip Mapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第42页,或Clontech Clean-Up板,其规程描述于GeneChip Mapping 500K Assay Manual PN 701930 Rev.3,Affymetrix(2005-2006)的第74页)纯化所得到的扩增的DNA。在纯化后,然后使用本领域内已知的常规技术例如通过超声处理或通过使用酶例如DNA酶I片段化扩增的DNA。在片段化后,用可检测标记对DNA进行标记。用于标记DNA和DNA的片段的方法对于本领域技术人员来说是公知的。标记规程和标记检测技术的综述可见于例如L.J.Kricka,Ann.Clin.Biochem.,39:114-129(2002);van Gijlswijk等人,Expert Rev.Mol.Diagn.,1:81-91(2001);和Joos等人,J.Biotechnol.,35:135-153(1994)中。标准核酸标记方法包括:放射性试剂的掺入、荧光染料(参见,Smith等人,Nucl.Acids Res,13:2399-2412(1985))或酶(参见,Connoly等人,Nucl.Acids.Res.,13:4485-4502(1985))的直接附着;使其可通过免疫化学或通过其他亲和反应来检测的核酸分子的化学修饰(参见,Broker等人,Nucl.Acids Res.,5:363-384(1978);Bayer等人,Methods of Biochem.Analysis,26:1-45(1980);Langer等人,Proc.Natl.Acad.Sci.USA,78:6633-6637(1981));Richardson等人,Nucl.AcidsRes.,11:6167-6184(1983);Brigati等人,Virol.,126:32-50(1983);Tchen  等人,Proc.Natl.Acad.Sci.USA,81:3466-3470(1984);Landegent等人,Exp.Cell Res.,15:61-72(1984);和A.H.Hopman等人,Exp.Cell Res.,169:357-368(1987));以及酶介导的标记方法,例如随机引发、切口平移(nick translation)、PCR和利用末端转移酶的加尾(有关酶促标记的综述,参见,例如,Temsamani等人,Mol.Biotechnol.,5:223-232(1996))。
可使用多种多样的可检测标记中的任何一种。适当的可检测标记包括但不限于各种配体、放射性核素(例如,32P、35S、3H、14C、125I、131I等);荧光染料;化学发光试剂(例如,吖啶(acridinium)酯、稳定的二氧杂环丁烷(stabilized dioxetane)等);光谱可分辨的无机荧光半导体纳米晶体(spectrally resolvable inorganic fluorescentsemiconductor nanocrystal)(例如,量子点)、金属纳米颗粒(nanoparticles)(例如,金、银、铜和铂)或纳米簇(nanocluster);酶(例如,辣根过氧化物酶、β-半乳糖苷酶、萤光素酶、碱性磷酸酶);比色标记(colorimetric label)(例如,染料、胶体金等);磁性标记(例如,DynabeadsTM);和生物素、洋地黄毒苷(dioxigenin)或其他半抗原和蛋白质。
一旦扩增,就用可检测标记对片段化的DNA进行标记,使用本领域内已知的常规技术将其与微阵列杂交。微阵列可包含寡核苷酸、基因或基因组克隆,其可用于比较基因组杂交(CGH)以寻找基因组获得和丧失或寻找与疾病状态有关的特定基因的拷贝数的改变。可选地,微阵列可包含含有突变或多态性例如单核苷酸多态性(SNPs)的寡核苷酸、基因或基因组克隆。可使用本领域内已知的常规技术制造微阵列。可选地,可使用商购可得的微阵列。可使用的微阵列的实例是Affymetrix GeneChip Mapping 100K Set SNP阵列(参见Matsuzaki,H.,等人,“Genotyping over 100,000 SNPs on a pair of oligonucleotidearrays,”Nat Methods.1:109-11(2004))、Affymetrix GeneChip Mapping250K测定试剂盒(例如GeneChip Human Mapping 250K Nsp阵列或GeneChip Human Mapping 250K Sty阵列)或Affymetrix GeneChipMapping 500K阵列组(其各自可从Affymetrix,Inc.,Santa Clara,CA)商购获得)、Agilent Human Genome aCGH Microarray 44B(可从Agilent Technologies,Inc.,Santa Clara,CA获得)、Illumina微阵列(Illumina,Inc.,San Diego,CA)、Nimblegen aCGH微阵列(Nimblegen,Inc.,Madison,WI)等。
在杂交后,使用本领域内已知的常规技术洗涤微阵列。在洗涤后,将微阵列置于读数器或扫描仪中以进行分析。可使用的读数器和扫描仪的实例为GeneChip Scanner 3000 G7(可从Affymetrix,Inc.,SantaClara,CA获得)、Agilent DNA微阵列扫描仪(可从Agilent Technologies,Inc.,Santa Clara,CA获得)、GenePix 4000B(可从Molecular Devices,Sunnyvale,CA获得)等。可使用商购可得的软件例如由Affymetrix或Agilent Technologies提供的那些软件分析从微阵列中包含的探针采集的信号。例如,如果使用来自Affymetrix的GeneChip Scanner 3000G7,那么可使用Affymetrix GeneChip Operating软件。AffymetrixGeneChip Operating软件从检测来自所有探针的信号的AffymetrixGeneChip扫描仪收集和提取原始或特征数据(信号)。可以以任何适当的文件格式之一电子地存储原始或特征数据,例如,但不限于,CEL文件(CEL文件的格式是与Windows INI格式相似的ASCII文本文件)、CHP文件、CNT文件、metaprobe set文件或纯文本文件。
处理从微阵列收集和提取的数据以提供包括每一个肿瘤和癌细胞系样品的每一条染色体的至少一个基因座的拷贝数改变(例如,拷贝数的获得或丧失)信息的数据集。将该拷贝数改变信息用于在全基因组规模上限定这些样品的每一个的拷贝数改变的区域(或模式)。可使用本领域内已知的算法进行这样的处理,例如但不限于二元环状分段(Binary Circular segmentation)(参见,Olshen等人,″Circular binarysegmentation for the analysis of array-based DNA copy number data.″,Biostatistics 5(4):557-72(2004))、DNA的获得和丧失分析(Gain andLoss Analysis of DNA)(GLAD)(参见,Hupe等人,″Analysis of arrayCGH data:from signal ratio to gain and loss of DNA regions.″,Bioinformatics,20(18):3413-22(2004))、基于隐蔽马尔可夫模型的方法(参见,Fridlyand等人,″Hidden Markov models approach to the analysisof array CGH data.″Journal of Multivariate Analysis,90(1):132-153(2004);Zhao,X.,等人,″An integrated view of copy number and allelicalterations in the cancer genome using single nucleotide polymorphismarrays.″Cancer Res,64(9):3060-71(2004))或基于聚类的方法(参见,Wang,P等人,″A method for calling gains and losses in array CGH data.″,Biostatistics,6(1):45-58(2005))等。可选地,可使用商购可得的软件,例如但不限于Partek Genomic SuiteTM软件,例如6.08.0103版(可从PartekSt.Louis,Missouri获得),GenePattern(可在线获得;参见,Reich M,Liefeld T,Gould J,Lerner J,Tamayo P,Mesirov JP(2006),“GenePattern 2.0”,Nature Genetics,38:5,500-501(2006))和dChip(其可在线获得;参见,Cheng Li等人,“Model-based analysis ofoligonucleotide arrays:model validation,design issues and standard errorapplication,”Genome Biology 2(8):research0032.1-0032.11(2001);Cheng Li等人,“Model-based analysis of oligonucleotide arrays:Expression index computation and outlier detection,”Proc.Natl.Acad.Sci.Vol.98,31-36(2001))。
例如,如果使用Partek Genomic SuiteTM软件例如6.08.0103版,那么可将包括利用扫描仪检测的来自微阵列中所有探针的信号的肿瘤和癌细胞系样品的CEL文件加载至软件中。通过在针对预置基线(用于确立预置基线的数目不是关键的并且为整数(n),其中n是1至100。例如,预置基线可以为2)进行校正后,将从微阵列测定的肿瘤或癌细胞系样品的信号强度与在参考或对照中的信号强度相比较来计算拷贝数。所使用的参考或对照可以是利用相同微阵列平台测量的一组正常组织样品或来自与肿瘤样品相同的患者的配对正常组织。参考或对照是从约1至1000个样品的整数(n)。例如,参考或对照可包括至少5个样品、至少10个样品、至少15个样品、至少20个样品、至少25个样品、至少30个样品、至少35个样品、至少40个样品、至少45个样品、至少50个样品、至少75个样品、至少100个样品、至少150个样品、至少200个样品等。
然后对所得的拷贝数数据进行分段,且在每一个样品中检测拷贝数改变区域。可使用特定控制参数获得拷贝数改变区域的分段和检测。例如,可以使用下述控制参数:(i)拷贝数区域必须包含至少100个探针;(ii)比较拷贝数区域对邻近拷贝数区域的平均拷贝数的p值必须小于0.00001;和(iii)转换的信/噪比必须大于0.1。当这些区域中的平均拷贝数在统计学上小于约1.65(就缺失而言)(例如小于1.65、小于1.60、小于1.55、小于1.50、小于1.45、小于1.40、小于1.35、小于1.30、小于1.25等)或大于约2.65(就获得而言)(例如大于2.65、大于2.70、大于2.75、大于2.80、大于2.85、大于2.90、大于3.0、大于3.05等),P值小于0.01时,可检测到拷贝数改变区域。
因为肿瘤样品可包含相当大百分比(短语“相当大百分比意指大于30%、大于40%、大于50%、大于60%、大于70%、大于80%或大于90%)的正常(例如,非癌性)细胞,所述正常细胞可稀释拷贝数改变的信号,所以再检查数据集以鉴定并且消除获自被相当大百分比的正常细胞污染的样品的任何拷贝数改变信息。机器学习算法可用于鉴定和捕获肿瘤和癌细胞系样品的拷贝数模式与正常样品的拷贝数模式之间的差异。这样的算法可用于鉴定被正常细胞污染的肿瘤样品并且将其从进一步分析中消除。因此,该机器学习算法用作数据集的数据质量控制并且在本文中称为“数据质量控制算法”。
数据质量控制算法包括从本文中之前描述的肿瘤和癌细胞系样品选择具有最多数目的拷贝数改变区域的样品亚组(在下文中“第一样本集”)。也选择正常组的样品(在下文中称“第二样本集”)。将这些第一和第二样本集用作训练组来开发机器学习算法,以通过将算法的参数调整至最能代表第一和第二样本集之间的差异来将样品分类为“正常”或“肿瘤”样品。将训练的分类器应用于剩余肿瘤或癌细胞系样品以将含正常细胞污染的概率分数赋予每一个样品。该概率分数代表每一个样品被正常细胞污染的概率。从数据集且因此从随后的聚类分析中排除或消除具有超过百分之五十(50%)的污染概率的样品。可使用的机器学习算法的实例包括随机森林、支持向量机(SupportVector Machine)(SVM)(参见,Vapnik,V.,The nature of statisticallearning theory.Springer-Verlag,New York(1995))、Recursive-SVM(参见,Zhang,X.,等人,“Recursive SVM feature selection and sampleclassification for mass-spectrometry and microarray data,”BMCBioinformatics,7:197(April 10,2006))、最小角度回归(Least-angleregression)(LARS)(Efron,B.,等人,“Least angle regression,”Annals ofStatistics,32:407-451(2004))等。
因为从微阵列获得的拷贝数数据倾向于为高度密集和有噪声的,所以可修正拷贝数数据以降低噪声水平,和降低数据集的维数(也称为“降维”)和复杂性。可通过首先使用本领域内已知的常规技术检测每一个样品中显著获得的或缺失的拷贝数区域来进行数据集的修正。一旦鉴定了此种区域,那么如果邻近区域具有相似的拷贝数改变以及如果这些区域之间的距离小于500千碱基,则可合并所述邻近区域。接着可使用数据中来自所有样品的断点的联合对完整基因组进行分段,并且可通过计算每一个区段内的SNPs探针的拷贝数平均值来计算每一个区段的拷贝数(参见,Carrasco,等人,“High-resolution genomicprofiles define distinct clinico-pathogenetic subgroups of multiplemyeloma patients,”Cancer cell,9:313-325(2006))。作为该数据修正的结果,可获得数据集中每一个样品的拷贝数获得和缺失的更好的分辨率。
在数据修正和降维后,将数据集经历无监督聚类方法来获得每一个肿瘤与癌细胞系样品之间的相对相似性的概观和获得迄今存在于数据中并且最终被聚类的亚组的数目(其在本文中也称为r亚组)的估计(例如,粗略估计)。在数据修正和降维后,将使用Pearson线性相异性算法的无监督聚类方法应用于修正的肿瘤和细胞系拷贝数数据,所述数据也称为“数据集(Data Set)”(V)。可将聚类模式作图和进行目视检查以获得数据集中亚组的可能数目r的范围(数据集中亚组的可能数目的范围将是1至100的整数(n))。可使用的无监督聚类方法的实例包括但不限于等级聚类、主要组分分析(PCA)(参见,Pearson,K.,“On Lines and Planes of Closest Fit to Systems of Points inSpace,”Philosophical Magazine.2:559-572(1901))或多维标度法(Multidimensional Scaling)(MDS)(参见,Borg,I.,和P.Groenen,Modern Multidimensional Scaling:theory and applications.Springer,New York(2005))。然后将亚组的数目(其各自被称为“r值”,其中各r值是1至100的整数)在使用基因组非负矩阵因子分解(“gNMF”)的聚类分析中用作输入。
在之前gNMF对簇CGH数据的应用(参见,Maher,E.A.,等人,“Marked genomic differences characterize primary and secondaryglioblastoma subtypes andidentify two distinct molecular and clinicalsecondary glioblastoma entities,”Cancer Res.,66:11502-13(2006);Carrasco,D.R.,等人,“High-resolution genomic profiles define distinctclinico-pathogenetic subgroups of multiple myeloma patients,”CancerCell,9:313-25(2006))中,当肿瘤或癌细胞系样品的亚组分配在进行预先规定的数目的步骤(例如,100)后不改变时,终止算法。基于使用模拟数据以及实际CGH数据的测试,认为该准则过早地终止(例如,结束)gNMF算法。因此,可改进gNMF算法以使在乘性更新进行选择的数目的步骤(其中步骤的选择的数目不是关键的并且是1至1000的整数(n),例如5步、10步、25步、50步、100步、200步等)后,使用下述公式(1)计算来自数据集的算法的散度:
D ( V | | WH ) = &Sigma; i = 1 n &Sigma; j = 1 m ( V ij log V ij ( WH ) ij - V ij + ( WH ) ij ) - - - ( 1 )
其中Vij是数据集的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是修正的数据集V中区段的数目,并且j从1运行至m,且m是数据集中样品的数目。
通过使用上述公式,如果当与算法的乘性更新进行先前或预先选择的数目的步骤(例如,100)所计算的散度相比较时,上文中计算的散度减小不超过约0.001%,则终止迭代算法(在本文中也称为“终止准则”)。已发现对gNMF算法的该改进显著地提高了聚类的准确度。
因为gNMF是随机程序,所以当始于不同的初始值时算法可产生不同的结果。为了进一步改进聚类算法的性能,开发了新颖的多起始策略(multiple initiation strategy)。对于每一个数据集,所述策略包括使用上述终止准则和随机起始或重复gNMF算法,进行选择的运行数(可随机起始或重复算法的选择的运行数是从1至1000的整数(n),例如1、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、350等)。一旦算法已完成其随机选择的运行数,就使用下述公式(2)计算这些运行的每一次的H的Pearson相关系数矩阵:
C i , j = &rho; ( H , i , H , j ) = 1 r - 1 &Sigma; k ( H k , i - H , i &OverBar; ) ( H k , j - H , j &OverBar; ) s H , i s H , j - - - ( 2 )
其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列的向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,且m是数据集中样品的数目,k从1运行至r,且r是亚组的数目(之前在本文中测定的)。一旦确定每一次运行的H的Pearson相关系数矩阵,就计算相关矩阵的平均值。通过使用1减平均相关矩阵作为距离矩阵运行无监督聚类方法(例如,例如等级聚类算法)并且将树形图分割至r个亚组,来获得最终的聚类结果。
例如,如果gNMF算法随机运行200次,则在200次运行后,使用上述公式计算来自200次随机gNMF运行的每一次的输出的H的Pearson相关系数矩阵。然后计算200次运行的相关矩阵的平均值。可通过使用1减平均相关矩阵作为距离矩阵运行等级聚类算法并且将树形图分割至r个亚组,来获得最终的聚类结果。
一旦获得最终的聚类结果,就可将同表象相关系数、贝叶斯信息准则(BIC)或同表象相关和BIC的组合用于选择最好地反映这些肿瘤和细胞系样品的遗传模式的分布的最佳模型(即,簇的最佳数目和每一个样品至簇之一的最佳分配)。可将对数正态分布用于该分析,因为其被广泛用于拟合DNA拷贝数(参见,Hodgson等人,Nature,29:459(2001))。为了计算似然性,可假定每一个簇中的样品来自相同的多对数正态分布(multi-lognormal distribution),其中每一个区段的平均拷贝数遵循对数正态分布。如果区段之间的相关性弱,那么可在计算中假定区段之间独立。在该情况下,所得的对数似然公式在下面示于公式(12)中:
ln L = 1 2 ln ( 2 &pi; ) &Sigma; i = 1 r &Sigma; j = 1 n i &Sigma; t = 1 m ( y ijt - &mu; it ) 2 2 &sigma; it 2 ln ( &sigma; ij ) - - - ( 12 )
其中r是簇的数目,ni是簇i中样品的数目,m是区段的数目,yijt是第i簇中第j样品的第t区段的对数变换的拷贝数,μit是第i簇中第t区段的对数变换的拷贝数的平均值,且σit是第i簇中第t区段的对数变换的拷贝数的标准差。因此特定模型中参数的数目k将是2×r×m。
许多次,当使用同表象相关系数和BIC作为在无监督聚类中选择最佳模型的准则时,这两个算法将经常选择相同的模型。
可使用10倍稳定性检验程序评估聚类结果的稳定性。可如下进行10倍稳定性检验。在对数据集运行gNMF并且将样品分配至簇后,省去(leave out)至少约10%的肿瘤和癌细胞系样品,且对剩余的90%的肿瘤和癌细胞系样品第二次运行上述改进的gNMF算法(如果至少约15%的肿瘤和癌细胞系样品被省去,那么对剩余的85%的肿瘤和癌细胞系样品第二次运行上述gNMF算法,等等)。然后计算作为该排列的结果被分配至不同簇的样品数目。重复检验进行选择的次数(检验可重复1至1000次。例如,检验可重复1次、20次、25次、50次、100次、200次、500次、750次、1000次等)以使用本领域已知的常规技术获得差错率。该差错率代表就肿瘤和癌细胞系样品的排列而言的聚类结果的稳定性。可对使用相同数据集(肿瘤和癌细胞系样品)的无监督聚类方法(例如,等级聚类)使用该10倍稳定性检验。
C.基于肿瘤和癌细胞系的基因组分类的肿瘤和细胞系的小组的 装配
使用部分B中的上述方法,可将肿瘤和相同肿瘤类型的癌细胞系分类至基因组亚组。首先,使用部分B中的上述方法将多个(m)目的癌症类型的肿瘤和癌细胞系聚类至不同亚组。从这些亚组的每一个,选择至少一个细胞系并且将其添加至小组(panel)。从而所得的小组将代表目的癌症类型的全部基因组亚型(genomic subtype)。肿瘤和癌细胞系的这些小组可用作癌症的每一个特定亚类(subcategory)的药物组合物或药物测试的临床前模型,从而提供了处于考虑中的肿瘤类型的基因组多样性的全面覆盖。由于肿瘤的基因组组成与其表型(包括药物反应)之间通常观察到的相关性,所以预期拷贝数改变的模式将与细胞系的药物敏感性相关并且将决定患者中的药物反应。
作为例子而不是限制,现将给出本发明的实施例。
实施例1:用于装配成小组的细胞系和/或异种移植物的一般方法和算法
1.DNA提取和与SNPs阵列的杂交。
Affymetrix GeneChip Mapping 100K Set SNP阵列(参见,Matsuzaki,H.,等人,“Genotyping over 100,000 SNPs on a pair ofoligonucleotide arrays,”Nat Methods,1:109-11(2004);可从Affymetrix,Inc.,Santa Clara,CA商购获得)以23.6kb的平均标记间距离覆盖人基因组中116,204个单核苷酸多态性(SNP)基因座。阵列组包括两个芯片Xba240和Hind240。芯片和试剂从Affymetrix获得,且可按照制造商的说明书进行测定。简而言之,使用DNAeasy试剂盒(Qiagen,Valencia,CA)将来自每一个肿瘤的30mg组织或来自每一个细胞系的5百万个细胞用于提取高分子量基因组DNA。用HindIII或XbaI消化250ng基因组DNA,然后如GeneChip Mapping 100K Assay Manual 701684Rev.3,Affymetrix(2004))的第33页上所述,使用T4DNA连接酶将其连接至各自识别粘性4碱基对(bp)突出端的衔接头Xba(5’TCTAGAGATCAGGCGTCTGTCGTGCTCATAA 3’(SEQ ID NO:2))和衔接头Hind III(5’pACGTAGATCAGGCGTCTGTCGTGCTCATAA3’(SEQ ID NO:3))。在GeneAmp PCR System 9700(Applied Biosystems,Foster City,CA)(参见,GeneChip Mapping 100K Assay Manual701684 Rev.3,Affymetrix(2004)的第36页)中,利用经最优化以优先扩增250至2,000bp大小范围内的片段的PCR条件,使用识别衔接头序列的具有5’ATTATGAGCACGACAGACGCCTGATCT 3’的序列(SEQ ID NO:1,其可从Affymetrix商购获得(参见,GeneChipMapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004))的通用引物PCR引物001扩增衔接头连接的DNA片段。在利用QiagenMinElute 96 UF PCR纯化系统(参见,GeneChip Mapping 100K AssayManual 701684 Rev.3,Affymetrix(2004)的第42页)纯化后,片段化PCR产物(参见,GeneChipMapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第45页),用生物素进行标记(参见GeneChipMapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第49页),然后将其与GeneChip Mapping 100K Set杂交,进行16小时(参见,GeneChip Mapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第51页)。使用Affymetrix Fluidics Station 450洗涤阵列,且使用GeneChip Scanner 3000 G7(Affymetrix,Santa Clara,CA)进行扫描(参见,GeneChip Mapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第57页)。Affymetrix GeneChip操作软件(GCOS)从Affymetrix GeneChip扫描仪收集和提取特征数据(参见,GeneChip Mapping 100K Assay Manual 701684 Rev.3,Affymetrix(2004)的第93页)。
2.拷贝数测定和拷贝数改变的检测。
将PartekGenomic SuiteTM软件(6.08.0103版)用于数据的低水平处理以测定每一个基因座的拷贝数和限定拷贝数改变的区域。将包括对于全部SNPs探针的信号的CEL文件加载至软件中,且通过将肿瘤或细胞系样品的信号强度与48个正常女性组织样品的参考组的信号强度(针对2的基线校正的)相比较来计算拷贝数。参考组还可由其他组的正常样品或来自肿瘤样品的相同患者的配对正常组织组成,其利用相同微阵列平台来进行测量。
对所得的探针水平拷贝数数据进行分段,且检测每一个样品中的拷贝数改变区域。具体地,使用下列控制参数将探针水平拷贝数分段至区域中:(i)区域必须包含至少100个探针,(ii)比较所述区域对邻近区域的平均拷贝数的p值必须小于0.00001,和(iii)转换的信/噪比必须大于0.1。于是当这些区域中的平均拷贝数统计学上小于1.65(缺失)或大于2.65(获得),P值小于0.01时,检测到拷贝数改变区域。
3.数据质量控制。
肿瘤样品可包含相当大百分比的正常细胞,所述正常细胞将稀释拷贝数改变的信号。开发了机器学习算法以捕获肿瘤与正常样品的拷贝数模式之间的差异,且将其用于鉴定正常污染的样品并且从进一步分析中消除该样品。首先,选择具有最多数目的拷贝数改变区域的样品亚群和正常样品组。将这两组样品用作训练集以训练机器学习算法[随机森林(参见,Breiman,L.,“Random Forests,”Machine Learning,45(1):5-32(2001))]以通过将参数调整至最佳地代表肿瘤与正常样品之间的差异来分类正常和肿瘤样品。将训练的分类器应用于剩余的样品以给每一个样品赋予分数,所述分数代表样品被正常细胞污染的概率。将具有高于50%正常污染的概率的样品从聚类分析中排除。
4.数据修正和降维。
由于利用SNPs微阵列获得的拷贝数数据的高密度并且存在相当大量噪声,所以需要对拷贝数数据进行修正以降低噪声水平且降低聚类分析的维数和复杂性。在检测每一个样品中相当大地获得的或缺失的区域后,如果邻近区域具有相似的拷贝数改变并且它们之间的距离小于500kb,那么合并所述邻近区域。通过使用来自数据集中全部样品的断点的联合来形成DNA区段。将每一个区段中的探针的平均拷贝数用于进一步分析。该步骤允许在高通量分析中更清楚地分辨DNA获得和缺失。
5.使用等级聚类以测定亚组的可能数目的试点聚类(Pilotclustering)分析。
虽然被广泛用于许多应用中,但等级聚类对于基因组研究具有许多缺点。第一,其不能始终如一地且客观地估计数据集中亚组的数目。第二,等级聚类模式可以是不稳定的。具体地,当将少数样品添加到数据集或从数据集删除时,聚类模式可急剧改变。此外,在该分析中,当将等级聚类的10倍稳定性检验结果与基因组非负矩阵因子分解(gNMF;参见,下文部分8)的所述结果相比较时,观察到高得多的差错率。
尽管如此,等级聚类可用作快速获得样品之间的相对相似性的概观和提供存在于数据中的亚组的可能数目的粗略估计的有用工具。对于每一个数据集,使用Pearson线性相异性等级聚类肿瘤和细胞系CGH数据。将等级聚类模式作图并且进行目视检查以获得数据集中亚组的可能数目范围。然后使用gNMF(参见下列部分6)将这些数目在聚类分析中用作输入。
6.肿瘤和细胞系CGH数据的gNMF聚类
NMF在基因组学中首次被采用来分析基因表达数据(参见,Brunet,J.P.,等人,Metagenes and molecular pattern discovery using matrixfactorization.Proc Natl Acad Sci USA.101:4164-9(2004))。因此,所述方法适用于在基因拷贝数数据的分析中使用(参见,Maher,E.A.,等人,“Marked genomic differences characterize primary and secondaryglioblastoma subtypes and identify two distinct molecular and clinicalsecondary glioblastoma entities,”Cancer Res.66:11502-13(2006);Carrasco,D.R.,等人,“High-resolution genomic profiles define distinctclinico-pathogenetic subgroups of multiple myeloma patients,”CancerCell.9:313-25(2006))。已知一组样品的修正的拷贝数数据(即,在数据集中)的nxm矩阵V,其中n是区段的数目,且m是样品的数目,gNMF算法将矩阵V因子分解成如下述公式(5)中显示的nxr矩阵W和rxm矩阵H:
V=W*H+e                            (5)
在上述公式(5)中,W可被视为每一个亚组的标准模型;H被视为属于每一个亚组的每一个样品的相对权重;e表示模型拟合残数(model fitting residue),且r为待聚类的(clustered)亚组的数目(其通常比m小得多)。已知r和V为输入,gNMF算法首先随机设置W和H的初始值,然后根据下列公式(6和7)利用乘性更新规则(multiplicative update rule)迭代更新W和H:
H &alpha;&mu; &LeftArrow; H &alpha;&mu; &Sigma; i W i&alpha; V i&mu; / ( WH ) i&mu; &Sigma; k W k&alpha; - - - ( 6 )
W i&alpha; &LeftArrow; W i&alpha; &Sigma; &mu; H &alpha;&mu; V i&mu; / ( WH ) i&mu; &Sigma; v H &alpha;v - - - ( 7 )
其中α从1运行至r,μ从1运行至m,以及i从1运行至n。
在之前gNMF对簇CGH数据的应用(参见,Maher,E.A.,等人,“Marked genomic differences characterize primary and secondaryglioblastoma subtypes and identify two distinct molecular and clinicalsecondary glioblastoma entities,”Cancer Res.66:11502-13(2006);Carrasco,D.R.,等人,“High-resolution genomic profiles define distinctclinico-pathogenetic subgroups of multiple myeloma patients,”CancerCell.9:313-25(2006))中,当样品的亚组分配在进行预先规定的数目的步骤(例如,100)后不改变时,终止算法。基于使用模拟数据以及实际CGH数据的测试,认为该准则过早地终止该程序,从而表明如果允许算法运行更多步骤,则可潜在地进一步改善结果。因此,改进算法以使在每100步乘性更新后,按照下述公式(1)计算来自数据的目前模型的散度:
D ( V | | WH ) = &Sigma; i = 1 n &Sigma; j = 1 m ( V ij log V ij ( WH ) ij - V ij + ( WH ) ij ) - - - ( 1 )
其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目。
如果散度减小不超过100步以前计算的先前散度的0.001%,那么将终止迭代算法。该改进以更高的计算复杂性为代价显著地提高了聚类的准确度。
由于gNMF是随机程序,所以当始于不同的初始值时所述算法可产生不同的结果。为了进一步改进聚类算法的性能,执行新颖的多起始策略(multiple initiation strategy)。对于每一个数据集,(a)按照上述终止准则运行gNMF算法200次;(b)计算来自200次随机gNMF运行的每一次的输出的H的Pearson相关系数矩阵;和(c)计算200次运行的相关矩阵的平均值。通过使用1减平均相关矩阵作为距离矩阵运行等级聚类算法并且将树形图分割至r个亚组,来获得最终的聚类结果。
7.使用同表象相关和贝叶斯信息准则(BIC)的模型选择。
利用初始等级聚类分析中选择的几个可能的r值(亚组的数目)运行部分6中的上述gNMF程序。然后使用同表象相关系数和贝叶斯信息准则(BIC)选择最佳模型。
对数正态分布被广泛用于拟合DNA拷贝数(参见,Hodgson等人,Nature,29:459(2001))。为了计算似然性,假定每一个簇中的样品来自相同的多对数正态分布(multi-lognormal distribution),其中每一个区段的平均拷贝数遵循对数正态分布。区段之间的相关性弱,从而在计算中假定区段之间独立。使用公式(12)测定所得的对数似然性:
ln L = 1 2 ln ( 2 &pi; ) &Sigma; i = 1 r &Sigma; j = 1 n i &Sigma; t = 1 m ( y ijt - &mu; it ) 2 2 &sigma; it 2 ln ( &sigma; ij ) - - - ( 12 )
其中r是簇的数目,ni是簇i中样品的数目,m是区段的数目,yijt是第i簇中第j样品的第t区段的对数变换的拷贝数,μit是第i簇中第t区段的对数变换的拷贝数的平均值,且σit是第i簇中第t区段的对数变换的拷贝数的标准差。因此特定模型中参数的数目k将是2×r×m。
将同表象相关系数和BIC都用作准则来选择最佳gNMF模型,并且发现这两个准则经常选择相同的模型。
8.聚类稳定性的10倍稳定性检验。
开发10倍稳定性检验程序以评估聚类结果的稳定性。在对数据集运行gNMF并且将样品分配至簇后,随机省去(leave out)10%的样品,且对剩余的90%的样品应用相同的程序。计算按照该排列被分配至不同亚组的样品数目。重复该“省去”检验200次以获得差错率,该差错率代表就样品的排列而言的聚类结果的稳定性。还评估对相同的数据集使用相同程序的等级聚类的稳定性,并且发现其总是比gNMF聚类的稳定性高得多。
在下列实施例3至4中,将本实施例1中的方法应用于两种类型的癌症,即,非小细胞肺癌和结肠直肠癌。用于实施例的步骤次数对应于本实施例1中的上述那些步骤。
实施例2:用于装配成小组的细胞系和/或异种移植物的第二种一般方法和算法
1.细胞系和肿瘤的CGH数据的获得
从公共数据库下载细胞系和肿瘤的CGH数据。按照制造商的说明书(参见,GeneChip Mapping 500K Assay Manual PN 701930 Rev.3,Affymetrix(2005-2006))使用Affymetrix 250K Sty阵列产生来自公共数据库的原始数据。
2.拷贝数测定和拷贝数改变的检测。
将Partek Genomic SuiteTM软件(6.08.0103版)用于数据的低水平处理以测定每一个基因座的拷贝数和限定拷贝数改变的区域。将包括对于全部SNPs探针的信号的CEL文件加载至软件中,且通过将肿瘤或细胞系样品的信号强度与90个正常女性组织样品的参考组的信号强度(针对2的基线校正的)相比较来计算拷贝数。参考组还可由其他组的正常样品或来自肿瘤样品的相同患者的配对正常组织组成,其利用相同微阵列平台来进行测量。
对所得的探针水平拷贝数数据进行分段,且检测每一个样品中的拷贝数改变区域。具体地,使用下列控制参数将探针水平拷贝数分段至区域中:(i)区域必须包含至少100个探针,(ii)比较所述区域对邻近区域的平均拷贝数的p值必须小于0.00001,和(iii)转换的信/噪比必须大于0.1。于是当这些区域中的平均拷贝数统计学上小于1.65(缺失)或大于2.65(获得),P值小于0.01时,检测到拷贝数改变区域。
3.数据质量控制。
肿瘤样品可包含相当大百分比的正常细胞,所述正常细胞将稀释拷贝数改变的信号。开发了机器学习算法以捕获肿瘤与正常样品的拷贝数模式之间的差异,且然后将其用于鉴定正常污染的样品并且从进一步分析中消除该样品。首先,选择具有最多数目的拷贝数改变区域的样品亚群和正常样品组。将这两组样品用作训练集以训练机器学习算法(随机森林(参见,Breiman,L.,“Random Forests,”MachineLearning,45(1):5-32(2001)))以通过将参数调整至最佳地代表肿瘤与正常样品之间的差异来分类正常和肿瘤样品。将训练的分类器应用于剩余的样品以给每一个样品赋予分数,所述分数代表样品被正常细胞污染的概率。将具有高于50%正常污染的概率的样品从聚类分析中排除。
4.数据修正和降维。
由于利用SNPs微阵列获得的拷贝数数据的高密度并且存在相当大量噪声,所以需要对拷贝数数据进行修正以降低噪声水平且降低聚类分析的维数和复杂性。在检测每一个样品中相当大地获得的或缺失的区域后,如果邻近区域具有相似的拷贝数改变并且它们之间的距离小于500kb,那么合并所述邻近区域。通过使用来自数据集中全部样品的断点的联合来形成DNA区段。将每一个区段中的探针的平均拷贝数用于进一步分析。该步骤允许在高通量分析中更清楚地分辨DNA获得和缺失。
5.使用等级聚类以测定亚组的可能数目的试点聚类(Pilotclustering)分析。
虽然被广泛用于许多应用中,但等级聚类对于基因组研究具有许多缺点。第一,其不能始终如一地且客观地估计数据集中亚组的数目。第二,等级聚类模式可以是不稳定的。具体地,当将少数样品添加到数据集或从数据集删除时,聚类模式可急剧改变。此外,在该分析中,当将等级聚类的10倍稳定性检验结果与gNMF(参见,下文部分8)的所述结果相比较时,观察到高得多的差错率。
尽管如此,等级聚类可用作快速获得样品之间的相对相似性的概观和提供存在于数据中的亚组的可能数目的粗略估计的有用工具。对于每一个数据集,使用Pearson线性相异性等级聚类肿瘤和细胞系CGH数据。将等级聚类模式作图并且进行目视检查以获得数据集中亚组的可能数目范围。然后使用基因组非负矩阵因子分解(参见下列部分6)将这些数目在聚类分析中用作输入。
6.肿瘤和细胞系CGH数据的gNMF聚类
NMF在基因组学中首次被采用来分析基因表达数据(参见,Brunet,J.P.,等人,Metagenes and molecular pattern discovery using matrixfactorization.Proc Natl Acad Sci USA.101:4164-9(2004))。因此,所述方法适用于在基因拷贝数数据的分析中使用(参见,Maher,E.A.,等人,“Marked genomic differences characterize primary and secondaryglioblastoma subtypes and identify two distinct molecular and clinicalsecondary glioblastoma entities,”Cancer Res.66:11502-13(2006);Carrasco,D.R.,等人,“High-resolution genomic profiles define distinctclinico-pathogenetic subgroups of multiple myeloma patients,”CancerCell.9:313-25(2006))。已知一组样品的修正的拷贝数数据(即,在数据集中)的nxm矩阵V,其中n是区段的数目,且m是样品的数目,gNMF算法将矩阵V因子分解成如下述公式(5)中显示的nxr矩阵W和rxm矩阵H:
V=W*H+e                                (5)。
在上述公式(5)中,W可被视为每一个亚组的标准模型;H被视为属于每一个亚组的每一个样品的相对权重;e表示模型拟合残数(model fitting residue),且r为待聚类的(clustered)亚组的数目(其通常比m小得多)。已知r和V为输入,gNMF算法首先随机设置W和H的初始值,然后根据下列公式(6和7)利用乘性更新规则(multiplicative update rule)迭代更新W和H:
H &alpha;&mu; &LeftArrow; H &alpha;&mu; &Sigma; i W i&alpha; V i&mu; / ( WH ) i&mu; &Sigma; k W k&alpha; - - - ( 6 )
W i&alpha; &LeftArrow; W i&alpha; &Sigma; &mu; H &alpha;&mu; V i&mu; / ( WH ) i&mu; &Sigma; v H &alpha;v - - - ( 7 )
其中α从1运行至r,μ从1运行至m,以及i从1运行至n。
在之前gNMF对簇CGH数据的应用(参见,Maher,E.A.,等人,“Marked genomic differences characterize primary and secondaryglioblastoma subtypes and identify two distinct molecular and clinicalsecondary glioblastoma entities,”Cancer Res.66:11502-13(2006);Carrasco,D.R.,等人,“High-resolution genomic profiles define distinctclinico-pathogenetic subgroups of multiple myeloma patients,”CancerCell.9:313-25(2006))中,当样品的亚组分配在进行预先规定的数目的步骤(例如,100)后不改变时,终止算法。基于使用模拟数据以及实际CGH数据的测试,认为该准则过早地终止该程序,从而表明如果允许算法运行更多步骤,则可潜在地进一步改善结果。因此,改进算法以使在每100步乘性更新后,按照下述公式(1)计算来自数据的目前模型的散度:
D ( V | | WH ) = &Sigma; i = 1 n &Sigma; j = 1 m ( V ij log V ij ( WH ) ij - V ij + ( WH ) ij ) - - - ( 1 )
其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中区段的数目,并且j从1运行至m,且m是数据集中样品的数目。
如果散度减小不超过100步以前计算的先前散度的0.001%,那么将终止迭代算法。该改进以更高的计算复杂性为代价显著地提高了聚类的准确度。
由于gNMF是随机程序,所以当始于不同的初始值时所述算法可产生不同的结果。为了进一步改进聚类算法的性能,执行新颖的多起始策略(multiple initiation strategy)。对于每一个数据集,(a)按照上述终止准则运行gNMF算法200次;(b)计算来自200次随机gNMF运行的每一次的输出的H的Pearson相关系数矩阵;和(c)计算200次运行的相关矩阵的平均值。通过使用1减平均相关矩阵作为距离矩阵运行等级聚类算法并且将树形图分割至r个亚组,来获得最终的聚类结果。
7.使用贝叶斯信息准则(BIC)的模型选择。
利用初始等级聚类分析中选择的几个可能的r值(亚组的数目)运行部分6中的上述gNMF程序。然后使用贝叶斯信息准则(BIC)选择最佳模型。
对数正态分布被广泛用于拟合DNA拷贝数(参见,Hodgson等人,Nature,29:459(2001))。为了计算似然性,假定每一个簇中的样品来自相同的多对数正态分布(multi-lognormal distribution),其中每一个区段的平均拷贝数遵循对数正态分布。区段之间的相关性弱,从而在计算中假定区段之间独立。使用下述公式(12)测定所得的对数似然性:
ln L = 1 2 ln ( 2 &pi; ) &Sigma; i = 1 r &Sigma; j = 1 n i &Sigma; t = 1 m ( y ijt - &mu; it ) 2 2 &sigma; it 2 ln ( &sigma; ij ) - - - ( 12 )
其中r是簇的数目,ni是簇i中样品的数目,m是区段的数目,yijt是第i簇中第j样品的第t区段的对数变换的拷贝数,μit是第i簇中第t区段的对数变换的拷贝数的平均值,且σit是第i簇中第t区段的对数变换的拷贝数的标准差。因此特定模型中参数的数目k将是2×r×m。
将BIC用作准则来选择无监督聚类中的最佳模型。
8.聚类稳定性的10倍稳定性检验。
开发10倍稳定性检验程序以评估聚类结果的稳定性。在对数据集运行gNMF并且将样品分配至簇后,随机省去(leave out)10%的样品,且对剩余的90%的样品应用相同的程序。计算按照该排列被分配至不同亚组的样品数目。重复该“省去”检验200次以获得差错率,该差错率代表就样品的排列而言的聚类结果的稳定性。还评估对相同的数据集使用相同程序的等级聚类的稳定性,并且发现其总是比gNMF聚类的稳定性高得多。
在下列实施例5中,将本实施例2中的方法应用于黑色素瘤。用于实施例中的步骤数对应于本实施例2中的上述那些步骤。
实施例3:非小细胞肺癌(NSCLC)肿瘤和细胞系的分类
步骤1-2.DNA提取和杂交以及拷贝数测定和拷贝数改变的检测。我们在本研究中使用57个细胞系和245个肿瘤样品(全部细胞系列于表A中并且全部肿瘤样品列于表1中)。处理NSCLC肿瘤和细胞系样品,并且如实施例1中所述处理数据。检测到总共11419个具有显著改变的拷贝数的区段。
表1
  ID   来源
  NSCLC21   Caprion Proteomics,Montreal,Quebec
  NSCLC22   Caprion Proteomics,Montreal,Quebec
  NSCLC23   Caprion Proteomics,Montreal,Quebec
  NSCLC24   Caprion Proteomics,Montreal,Quebec
  NSCLC25   Caprion Proteomics,Montreal,Quebec
  NSCLC26   Caprion Proteomics,Montreal,Quebec
  NSCLC27   Caprion Proteomics,Montreal,Quebec
  NSCLC28   Caprion Proteomics,Montreal,Quebec
  NSCLC29   Caprion Proteomics,Montreal,Quebec
  NSCLC30   Caprion Proteomics,Montreal,Quebec
  NSCLC31   Caprion Proteomics,Montreal,Quebec
  NSCLC33   Caprion Proteomics,Montreal,Quebec
  NSCLC34   Caprion Proteomics,Montreal,Quebec
  NSCLC35   Caprion Proteomics,Montreal,Quebec
  NSCLC36   Caprion Proteomics,Montreal,Quebec
  NSCLC37   Caprion Proteomics,Montreal,Quebec
  NSCLC38   Caprion Proteomics,Montreal,Quebec
  NSCLC41   Caprion Proteomics,Montreal,Quebec
  NSCLC42   Caprion Proteomics,Montreal,Quebec
  NSCLC43   Caprion Proteomics,Montreal,Quebec
  NSCLC44   Caprion Proteomics,Montreal,Quebec
  NSCLC45   Caprion Proteomics,Montreal,Quebec
  NSCLC46   Caprion Proteomics,Montreal,Quebec
  NSCLC47   Caprion Proteomics,Montreal,Quebec
  NSCLC49   Caprion Proteomics,Montreal,Quebec
  NSCLC50   Caprion Proteomics,Montreal,Quebec
  NSCLC52   Caprion Proteomics,Montreal,Quebec
  NSCLC53   Caprion Proteomics,Montreal,Quebec
  NSCLC55   Caprion Proteomics,Montreal,Quebec
  NSCLC58   Caprion Proteomics,Montreal,Quebec
  NSCLC60   Caprion Proteomics,Montreal,Quebec
  NSCLC65   Caprion Proteomics,Montreal,Quebec
  NSCLC66   Caprion Proteomics,Montreal,Quebec
  NSCLC67   Caprion Proteomics,Montreal,Quebec
  NSCLC69   Caprion Proteomics,Montreal,Quebec
  NSCLC70   Caprion Proteomics,Montreal,Quebec
  NSCLC71   Caprion Proteomics,Montreal,Quebec
  NSCLC72   Caprion Proteomics,Montreal,Quebec
  NSCLC75   Caprion Proteomics,Montreal,Quebec
  NSCLC76   Caprion Proteomics,Montreal,Quebec
  NSCLC79   Caprion Proteomics,Montreal,Quebec
  NSCLC82   Caprion Proteomics,Montreal,Quebec
  NSCLC85   Caprion Proteomics,Montreal,Quebec
  NSCLC299   获自Dana-Farber Cancer Institute的数据
  NSCLC300   获自Dana-Farber Cancer Institute的数据
  NSCLC301   获自Dana-Farber Cancer Institute的数据
  NSCLC303   获自Dana-Farber Cancer Institute的数据
  NSCLC305   获自Dana-Farber Cancer Institute的数据
  NSCLC307   获自Dana-Farber Cancer Institute的数据
  NSCLC308   获自Dana-Farber Cancer Institute的数据
  NSCLC309   获自Dana-Farber Cancer Institute的数据
  NSCLC311   获自Dana-Farber Cancer Institute的数据
  NSCLC312   获自Dana-Farber Cancer Institute的数据
  NSCLC314   获自Dana-Farber Cancer Institute的数据
  NSCLC315   获自Dana-Farber Cancer Institute的数据
  NSCLC316   获自Dana-Farber Cancer Institute的数据
  NSCLC317   获自Dana-Farber Cancer Institute的数据
  NSCLC318   获自Dana-Farber Cancer Institute的数据
  NSCLC319   获自Dana-Farber Cancer Institute的数据
  NSCLC320   获自Dana-Farber Cancer Institute的数据
  NSCLC322   获自Dana-Farber Cancer Institute的数据
  NSCLC323   获自Dana-Farber Cancer Institute的数据
  NSCLC325   获自Dana-Farber Cancer Institute的数据
  NSCLC327   获自Dana-Farber Cancer Institute的数据
  NSCLC328   获自Dana-Farber Cancer Institute的数据
  NSCLC330   获自Dana-Farber Cancer Institute的数据
  NSCLC332   获自Dana-Farber Cancer Institute的数据
  NSCLC333   获自Dana-Farber Cancer Institute的数据
  NSCLC334   获自Dana-Farber Cancer Institute的数据
  NSCLC335   获自Dana-Farber Cancer Institute的数据
  NSCLC336   获自Dana-Farber Cancer Institute的数据
  NSCLC337   获自Dana-Farber Cancer Institute的数据
  NSCLC338   获自Dana-Farber Cancer Institute的数据
  NSCLC339   获自Dana-Farber Cancer Institute的数据
  NSCLC340   获自Dana-Farber Cancer Institute的数据
  NSCLC341   获自Dana-Farber Cancer Institute的数据
  NSCLC342   获自Dana-Farber Cancer Institute的数据
  NSCLC344   获自Dana-Farber Cancer Institute的数据
  NSCLC345   获自Dana-Farber Cancer Institute的数据
  NSCLC346   获自Dana-Farber Cancer Institute的数据
  NSCLC347   获自Dana-Farber Cancer Institute的数据
  NSCLC1   ProteoGenex,Culver City,CA
  NSCLC10   ProteoGenex,Culver City,CA
  NSCLC11   ProteoGenex,Culver City,CA
  NSCLC12   ProteoGenex,Culver City,CA
  NSCLC13   ProteoGenex,Culver City,CA
  NSCLC14   ProteoGenex,Culver City,CA
  NSCLC15   ProteoGenex,Culver City,CA
  NSCLC17   ProteoGenex,Culver City,CA
  NSCLC18   ProteoGenex,Culver City,CA
  NSCLC19   ProteoGenex,Culver City,CA
  NSCLC2   ProteoGenex,Culver City,CA
  NSCLC20   ProteoGenex,Culver City,CA
  NSCLC4   ProteoGenex,Culver City,CA
  NSCLC5   ProteoGenex,Culver City,CA
  NSCLC7   ProteoGenex,Culver City,CA
  NSCLC8   ProteoGenex,Culver City,CA
  NSCLC9   ProteoGenex,Culver City,CA
  NSCLC100   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC101   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC103   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC104   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC105   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC106   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC108   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC109   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC110   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC111   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC113   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC115   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC116   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC117   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC118   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC119   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC120   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC121   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC122   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC123   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC125   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC126   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC127   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC128   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC129   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC130   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC132   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC133   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC134   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC135   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC136   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC137   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC138   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC139   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC143   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC144   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC145   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC146   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC150   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC151   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC153   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC155   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC156   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC157   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC158   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC159   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC160   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC162   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC164   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC165   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC166   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC167   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC168   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC171   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC172   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC173   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC174   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC175   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC176   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC177   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC178   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC179   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC180   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC1h81   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC182   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC184   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC185   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC187   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC188   Rush Presbyterian,Chicago,IL(Dr.Coon)
 NSCLC189   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC191   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC192   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC194   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC195   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC196   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC198   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC199   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC201   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC203   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC206   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC208   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC209   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC210   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC214   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC215   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC216   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC217   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC218   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC221   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC222   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC223   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC225   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC227   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC228   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC230   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC231   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC232   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC233   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC234   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC236   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC237   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC238   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC239   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC242   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC243   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC246   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC249   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC250   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC251   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC252   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC253   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC254   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC255   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC256   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC258   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC259   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC260   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC261   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC265   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC266   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC269   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC270   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC271   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC272   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC273   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC274   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC275   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC276   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC277   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC278   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC280   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC282   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC283   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC284   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC286   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC288   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC290   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC291   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC292   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC294   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC295   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC296   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC298   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC96   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC97   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC98   Rush Presbyterian,Chicago,IL(Dr.Coon)
  NSCLC99   Rush Presbyterian,Chicago,IL(Dr.Coon)
步骤3.数据质量控制。我们将实施例1中描述的数据质量控制程序应用于我们的NSCLC CGH数据。发现肿瘤样品未被正常细胞显著污染。因此,我们将全部样品用于我们的分析。
步骤4.数据的修正和降维。使用实施例1中描述的方法,我们将CGH数据的维数降至8172个区段并且在我们的下列分析中将该数据用作数据集(V)。
步骤5.初始聚类分析。将等级聚类用作对我们的NSCLC数据集的初始分析以估计簇的数目。聚类的树形图示于图2中。树形图的目视检查提示数据集中存在3-8个主要的簇。
步骤6.使用gNMF进行的NSCLC肿瘤和细胞系的分类。使用范围在3至8内的簇数目,如实施例1中所述将gNMF算法用于分类肿瘤和细胞系CGH数据。对于每一个簇数目,使用开发的终止准则(参见,实施例1)运行gNMF算法200次。然后通过根据1减H的相关矩阵的平均值进行等级聚类来获得分类模型。
步骤7.使用同表象相关和BIC进行的模型选择。我们计算了关于步骤6中开发的gNMF模型的如实施例1中所述的同表象相关和BIC。结果示于下表2中。在该表中,r表示每一个模型中的簇的数目。根据表2,我们发现具有4个簇的模型具有最小的BIC,并且在簇数目4与5之间,同表象相关显示最大的减小。因此,4个簇是该数据集的最佳选择。具有4个簇的gNMF输出的热图示于图3中。
表2
步骤8.聚类稳定性的10倍检验。我们将实施例1中描述的10倍稳定性检验用于具有4个簇的gNMF模型。差错率为14.24%。作为比较,我们还将使用步骤5中修正的拷贝数数据获得的等级聚类树形图分割至3至8个簇,且使用相同10倍检验测试簇的稳定性。差错率为19.45%至25.65%,远高于gNMF模型的差错率。
实施例4:结肠直肠癌(CRC)肿瘤和细胞系的分类
步骤1-2.DNA提取和杂交以及拷贝数测定和拷贝数改变的检测。我们在本研究中使用35个细胞系和144个肿瘤样品(全部细胞系列于表B中并且全部肿瘤样品示于下表3中)。制备CRC肿瘤和细胞系样品,并且如实施例1中所述处理数据。检测到总共5240个具有显著改变的拷贝数的区段。
表3
步骤3.数据质量控制。我们将实施例1中描述的数据质量控制程序应用于我们的CRC CGH数据。发现总共43个肿瘤样品被正常细胞显著污染。我们将剩余的101个肿瘤样品连同35个细胞系用于我们的分析。
步骤4.数据的修正和降维。使用实施例1中描述的方法,我们将CGH数据的维数降至3575个区段并且在我们的下列分析中将该数据用作数据集(V)。
步骤5.初始聚类分析。将等级聚类用作对我们的CRC数据集的初始分析以估计簇的数目。聚类的树形图示于图4中。树形图的目视检查提示数据集中存在3-6个主要的簇。
步骤6.使用gNMF进行的CRC肿瘤和细胞系的分类。使用范围在3至6内的簇数目,如实施例1中所述将gNMF算法用于分类肿瘤和细胞系CGH数据。对于每一个簇数目,使用开发的终止准则(参见,实施例1)运行gNMF算法200次。然后通过根据1减H的相关矩阵的平均值进行等级聚类来获得分类模型。
步骤7.使用同表象相关和BIC进行的模型选择。我们计算了关于步骤6中开发的gNMF模型的如实施例1中所述的同表象相关和BIC。结果示于下表4中。在该表中,r表示每一个模型中的簇的数目。根据表4,我们发现具有5个簇的模型具有最小的BIC,而在簇数目4与5之间,同表象相关显示最大的减小。最终,我们判定5个簇是该数据集的最佳选择。具有5个簇的gNMF输出的热图示于图5中。
表4
步骤8.聚类稳定性的10倍检验。我们将实施例1中描述的10倍稳定性检验用于具有5个簇的gNMF模型。差错率为16.78%。作为比较,我们还将使用步骤5中修正的拷贝数数据获得的等级聚类树形图分割至3至6个簇,且使用相同10倍检验测试簇的稳定性。差错率为14.51%至18.98%。
实施例5:黑色素瘤肿瘤和细胞系的分类
步骤1-2.DNA提取和杂交以及拷贝数测定和拷贝数改变的检测。我们在本研究中使用30个细胞系和109个肿瘤短期培养物(全部细胞系列于表C中,且全部肿瘤CGH数据可从Broad Institute获得并且描述于Lin,W.M.,等人,Cancer Res,2008.68(3):664-73中)。下载黑色素瘤短期培养物和细胞系的CGH数据并且如实施例2中所述进行分析。检测到总共5616个具有显著改变的拷贝数的区段。
步骤3.数据质量控制。我们将实施例1中描述的数据质量控制程序应用于我们的黑色素瘤CGH数据。发现总共29个肿瘤样品被正常细胞显著污染。因此,我们将剩余的80个短期培养物样品连同30个细胞系用于我们的分析。
步骤4.数据的修正和降维。使用实施例1中描述的方法,我们将CGH数据的维数降至4637个区段并且在我们的下列分析中将该数据用作数据集(V)。
步骤5.初始聚类分析。将等级聚类用作对我们的黑色素瘤数据集的初始分析以估计簇的数目。聚类的树形图示于图6中。树形图的目视检查提示数据集中存在2-7个主要的簇。
步骤6.使用gNMF进行的黑色素瘤肿瘤和细胞系的分类。使用范围在2至7内的簇数目,将如实施例2中所述的gNMF算法用于分类肿瘤和细胞系CGH数据。对于每一个簇数目,使用开发的终止准则(参见,实施例2)运行gNMF算法200次。然后通过根据1减H的相关矩阵的平均值进行等级聚类来获得分类模型。
步骤7.使用BIC进行的模型选择。我们计算了关于步骤6中开发的gNMF模型的如实施例2中所述的BIC。结果示于表5中。在该表中,r表示每一个模型中的簇的数目。根据表5,我们发现具有6个簇的模型具有最小的BIC。因此,我们判定6个簇应是该数据集的最佳选择。具有6个簇的gNMF输出的热图示于图7中。
表5
步骤8.聚类稳定性的10倍检验。我们将实施例2中描述的10倍稳定性检验用于具有6个簇的gNMF模型。差错率为26.42%。作为比较,我们还将使用步骤5中修正的拷贝数数据获得的等级聚类树形图分割至2至7个簇,且使用相同10倍检验测试簇的稳定性。差错率为17.94%至32.14%。
实施例6:用于临床前试验的细胞系小组的装配
使用在实施例1至5中的上述方法,我们将我们的非小细胞肺癌、结肠直肠癌和黑色素瘤细胞系和肿瘤CGH数据分别分类至4、5和6个簇(参见,下列表4-6)。从这些簇的每一个簇中选择至少一个细胞系以构建代表处于考虑中的癌症类型的全部基因组亚组的小组。
可将装配的成小组的细胞系用作用于癌症的每一个特定亚类的肿瘤学药物测试的临床前模型。例如,对于在下面表6中显示的NSCLC的4个簇,小组可包括:来自簇A的HCC827、来自簇B的NCI-H2405和来自簇C的A549。不存在代表簇D的癌细胞系。
对于下面表7中显示的CRC的5个簇,小组可包括:来自簇A的HCT-8、来自簇B的Caco-2和来自簇C的Colo 320DM。不存在代表簇D和簇E的癌细胞系。
对于下面表8中显示的黑色素瘤的6个簇,小组可包括:来自簇A的SKMEL 119、来自簇B的WM3248、来自簇C的1205LU、来自簇D的451LU、来自簇E的WM3211和来自簇F的MALME3M。
表6
表7
表8
实施例7:使用注释结果的肿瘤样品验证基因组聚类结果
为了确定鉴定的NSCLC基因组簇是否具有在生物学上有意义的差异,将两组肿瘤样品与疾病结果注释一起使用。使用两个结果参数:至复发时间(TTR)和总体存活(OS)。
在用于NSCLC分类的245个NSCLC肿瘤样品(参见,实施例3,表1)当中,疾病结果信息(总体存活和至复发时间)对于在RushUniversity Medical Center,Chicago,Illinois收集的111个样品是可获得的。簇1、2、3和4中注释结果的样品的数目分别为9、3、21和78。比较它们的TTRs的对数秩(logrank)检验显示为0.0006的显著的P值。由于簇2中只有3个样品,所以努力将簇1和簇2中的样品组合在一起。组合的样品具有比其他2个簇显著更低的TTR,P值为0.0397。Kaplan-Meier曲线示于图8中。
为了进一步验证关于基于拷贝数改变的癌症分类的无监督聚类算法和经选择用以提供癌症患者的不同亚组的细胞系模型,将使用71个NSCLC肿瘤样品(表9,下文中)的另外的研究与相关的结果信息一起使用。
按照Affymetrix实验规程(参见,实施例1和3)处理样品,提取DNA,扩增,且将其与Affymetrix SNP 6.0阵列杂交。通过与270个正常对照的HapMap组相比较来计算这些肿瘤的拷贝数。使用Partek软件6.09.0310(参见,实施例2)对拷贝数进行分段。
为了将验证样品分配至4个NSCLC簇,计算前3个簇的每一个代表性细胞系的注释结果的肿瘤样品的Pearson相关系数(参见实施例1-3)。由于第4个簇不具有代表性细胞系,所以将第4个簇中的全部肿瘤样品用作其代表并且计算其对验证样品的Pearson相关系数。然后将验证样品分配至包括与验证样品具有最高相关系数的代表性细胞系或肿瘤的簇。最后,使用对数秩检验比较分配至不同簇的验证样品的TTR和OS中的差异,并且标绘它们的Kaplan-Meier曲线(参见,实施例1至3)。
对于验证样品,4个簇之间的TTR中的差异是显著的,P值为0.0454。此外,Kaplan-Meier曲线显示簇1中的样品相对于其他簇的显著更低TTR(参见,图9)。如果组合簇2、3和4中的样品并且将其与簇1中的样品相比较,则P值为0.0094。
对于验证样品,4个簇之间的OS中的差异不显著(P值=0.25),但Kaplan-Meier曲线显示簇1中的样品相对于其他族的更低的OS的倾向(参见,图10)。如果组合簇2、3和4中的样品并且将其与簇1中的样品相比较,P值是或多或少地显著的(P值=0.116)。
可选地,将我们已限定的簇中的全部肿瘤和细胞系用于代表簇并且根据验证样品与现有样品之间的最高Pearson相关系数将验证样品分配至4个簇。在该分析中,TTR和OS在4个簇之间都显示显著的差异,P值分别为4.7E-5和0.0024。分配至簇1的样品比分配至其他簇的样品具有显著更低的TTR和OS(参见,图11)。
最后,将注释结果的样品用于数据集以及独立的样品以确定鉴定的NSCLC基因组簇是否具有生物学上有意义的差异。结果显示簇在患者的至复发时间和总体存活上差异显著,从而表明基因组分类与病程的差异相关,且代表不同簇的细胞系可用作预测不同临床结果的模型。
本领域技术人员将容易认识到本公开内容非常适合于实现目的并且获得所述目标和利益,以及其中固有的目标和利益。本文中描述的分子复合物和方法、程序、处理、分子、特定化合物目前代表优选实施方案,其是示例性的并且无意作为对本发明的范围的限制。对于本领域技术人员来说很显然的是可在不背离本发明的范围和精神的情况下对本文中公开的发明进行不同的置换和修改。
说明书中提及的全部专利和公开物标示着本发明所属领域内的技术人员的水平。全部专利和公开物在此引入作为参考,其程度就如同特定地及个别地指示将各个个别公开物引入作为参考一样。
适当地可在本文中未明确地公开的任何一种或多种要素、一种或多种限制不存在的情况下实践本文中举例说明性描述的本发明。因此,例如,在本文中的每一种情况下,术语“包含”、“基本上由.......组成”和“由......组成”的任一个可用其他两个术语的任一个替代。已使用的术语和表达用作描述的术语而非限制,并且无意在此种术语和表达的使用中排除显示和描述的特征的任何等同物或其部分,而是承认各种修改可能在所请求保护的本发明的范围内。因此,应当理解虽然已通过优选实施方案明确地公开了本公开内容,但本领域技术人员可采用本文中公开的概念的任选特征、修改和变化,并且这种修改和变化被认为在由所附权利要求限定的本发明的范围内。

Claims (8)

1.用于聚类肿瘤和细胞系以限定基因组亚组的方法,所述方法包括步骤:
(a)获得m个包含至少一个肿瘤或癌细胞系的样品,其中m是1至5,000,000的整数;
(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集;
(c)鉴定数据集中获自被正常细胞污染的样品的拷贝数改变信息并且从数据集消除所述被污染的样品,其中鉴定和消除包括:
(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法;
(2)赋予每一个样品通过机器学习算法测定的正常细胞污染的概率分数;
(3)从数据集中消除每一个得分50%或更大的被正常细胞污染的概率的样品的数据;
(d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r的范围,以产生树形图;
(e)以步骤(d)中估计的每一个r值利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个亚组,其中所述改进的gNMF算法包括:
(1)利用公式(1)计算gNMF算法一次乘性更新运行的每100步后gNMF算法的散度:
D ( V | | WH ) = &Sigma; i = 1 n &Sigma; j = 1 m ( V ij log V ij ( WH ) ij - V ij + ( WH ) ij ) - - - ( 1 )
其中Vij是矩阵V的第i行和第j列,(WH)ij是矩阵(W*H)的第i行和第j列,i从1运行至n,且n是数据集中DNA区段的数目,并且j从1运行至m,且m是数据集中样品的数目,且其中V是根据以下公式的分解成n×r矩阵W和r×m矩阵H的n×m矩阵:
V=W*H+e   (4)
其中W为每一个亚组的标准模型,H为属于每一个亚组的每一个样品的相对权重,e表示模型拟合残数,且r为待聚类的亚组的数目;
(2)如果步骤(e)(1)中计算的散度当与对于之前100步所述gNMF算法的乘性更新所计算的散度相比较时减小不超过约0.001%,那么终止gNMF算法;
(3)重复算法,进行随机选择的运行数,每次运行都具有不同的起始点,并且使用公式(2)计算每一次运行gNMF算法的H的Pearson相关系数矩阵:
G i , j = &rho; ( H , i , H , j ) = 1 r - 1 &Sigma; k ( H k , i - H , i &OverBar; ) ( H k , j - H , j &OverBar; ) s H , i s H , j - - - ( 2 )
其中C是相关矩阵,Ci,j是矩阵C中的第i行和第j列,H,i和H,j是矩阵H中的第i和第j列向量,ρ(H,i,H,j)是H,i与H,j之间的Pearson相关系数,i和j从1运行至m,且m是数据集中的样品数目,k从1运行至r,且r是来自步骤(d)的亚组的数目;
(4)计算获自步骤(e)(3)的每一次运行gNMF算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵;
(5)通过使用单位矩阵减步骤(e)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个亚组,将样品分配至r个亚组中;
(6)以步骤(d)中确定的r的不同值重复步骤(1)-(5);
(f)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的亚组的终数目,其中每一个最终的亚组限定了每一个肿瘤或癌细胞系样品的基因组亚组;和
(g)使用10倍稳定性检验评价步骤(f)中提供的亚组的终数目的稳定性。
2.权利要求1的方法,其中所述无监督聚类算法是等级聚类。
3.权利要求1的方法,其中同表象相关用于提供来自数据集的亚组的终数目。
4.权利要求1的方法,其中贝叶斯信息准则用于提供来自数据集的亚组的终数目。
5.权利要求1的方法,其中将同表象相关和贝叶斯信息准则用于提供来自数据集的亚组的终数目。
6.按照基因组亚组装配成小组的肿瘤和癌细胞系的方法,所述方法包括步骤:
(a)根据权利要求1的方法聚类肿瘤和细胞系;和
(b)从权利要求1的步骤(f)中提供的每一个亚组选择至少一个肿瘤或细胞系并按照基因组亚组将选择的细胞系装配到小组中。
7.权利要求6的方法,其中癌症选自小细胞肺癌、非小细胞肺癌、结肠直肠癌和黑色素瘤。
8.权利要求6的方法,其中所述拷贝数改变是拷贝数的获得或丧失。
CN200980143442.9A 2008-10-31 2009-10-28 用于装配成小组的癌细胞系以用于测试一种或多种药物组合物的功效的方法 Expired - Fee Related CN102203788B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11028108P 2008-10-31 2008-10-31
US61/110281 2008-10-31
PCT/US2009/062421 WO2010051320A2 (en) 2008-10-31 2009-10-28 Methods for assembling panels of cancer cell lines for use in testing the efficacy of one or more pharmaceutical compositions

Publications (2)

Publication Number Publication Date
CN102203788A CN102203788A (zh) 2011-09-28
CN102203788B true CN102203788B (zh) 2015-05-20

Family

ID=42129540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980143442.9A Expired - Fee Related CN102203788B (zh) 2008-10-31 2009-10-28 用于装配成小组的癌细胞系以用于测试一种或多种药物组合物的功效的方法

Country Status (7)

Country Link
US (1) US9002653B2 (zh)
EP (1) EP2359278A2 (zh)
JP (1) JP5391279B2 (zh)
CN (1) CN102203788B (zh)
CA (1) CA2739462A1 (zh)
MX (1) MX2011004589A (zh)
WO (1) WO2010051320A2 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2739459A1 (en) * 2008-10-31 2010-05-06 Abbott Laboratories Genomic classification of colorectal cancer based on patterns of gene copy number alterations
CN102365372B (zh) 2009-01-31 2016-05-25 Abbvie公司 预测和监控对于Aurora激酶B抑制剂疗法的应答的标记
MX2011008488A (es) * 2009-02-11 2011-10-24 Abbott Lab Metodos y composiciones para identificar, clasificar y monitorear individuos que tienen tumores y canceres resistentes al inhibidor de la familia de bcl-2.
GB2506274B8 (en) * 2012-08-21 2016-11-30 Real Time Genomics Ltd Methods for joint calling of biological sequences
KR101841265B1 (ko) * 2014-10-29 2018-03-22 에스케이텔레콤 주식회사 Nmf를 이용한 표적 염기 서열 해독에서의 바이어스 제거 방법
CN106202999B (zh) * 2016-07-21 2018-12-11 厦门大学 基于不同尺度tuple词频的微生物高通量测序数据分析协议
WO2018023120A1 (en) * 2016-07-29 2018-02-01 University Of Miami Precision therapeutic biomarker screening for cancer
CN109906276A (zh) * 2016-11-07 2019-06-18 格里尔公司 用于检测早期癌症中体细胞突变特征的识别方法
JP7197795B2 (ja) 2019-05-22 2022-12-28 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) * 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) * 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4889818A (en) * 1986-08-22 1989-12-26 Cetus Corporation Purified thermostable enzyme
US5310652A (en) * 1986-08-22 1994-05-10 Hoffman-La Roche Inc. Reverse transcription with thermostable DNA polymerase-high temperature reverse transcription
US5322770A (en) * 1989-12-22 1994-06-21 Hoffman-Laroche Inc. Reverse transcription with thermostable DNA polymerases - high temperature reverse transcription
US5800992A (en) * 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US5744101A (en) * 1989-06-07 1998-04-28 Affymax Technologies N.V. Photolabile nucleoside protecting groups
US5143854A (en) * 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5424186A (en) * 1989-06-07 1995-06-13 Affymax Technologies N.V. Very large scale immobilized polymer synthesis
US5455166A (en) * 1991-01-31 1995-10-03 Becton, Dickinson And Company Strand displacement amplification
WO1993006121A1 (en) * 1991-09-18 1993-04-01 Affymax Technologies N.V. Method of synthesizing diverse collections of oligomers
US5270184A (en) * 1991-11-19 1993-12-14 Becton, Dickinson And Company Nucleic acid target generation
US5384261A (en) * 1991-11-22 1995-01-24 Affymax Technologies N.V. Very large scale immobilized polymer synthesis using mechanically directed flow paths
DE69233087T2 (de) * 1991-11-22 2003-12-24 Affymetrix Inc N D Ges D Staat Verfahren zur Herstellung von Polymerarrays
US5856174A (en) * 1995-06-29 1999-01-05 Affymetrix, Inc. Integrated nucleic acid diagnostic device
US5998151A (en) * 1995-12-01 1999-12-07 The United States Of America As Represented By The Department Of Health And Human Services Methods for predicting the efficacy of a chemotherapeutic regimen for gastrointestinal cancers using antibodies specific for thymidylate synthase
US20060195266A1 (en) * 2005-02-25 2006-08-31 Yeatman Timothy J Methods for predicting cancer outcome and gene signatures for use therein
US20050209785A1 (en) * 2004-02-27 2005-09-22 Wells Martin D Systems and methods for disease diagnosis

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GenePattern 2.0;Michael Reich et al.;《Nature Genetics》;20061231;第38卷;第500-501页 *
Integrative Genomic Analysis of Small-Cell Lung Carcinoma Reveals Correlates of Sensitivity to Bcl-2 Antagonists and Uncovers Novel Chromosomal Gains;Edward T. Olejniczak et al.;《Molecular Cancer Research》;20071231;第5卷;第331-339页 *
Metagenes and molecular pattern discovery using matrix factorization;Jean-Philippe Brunet et al.;《PNAS》;20041231;第101卷;第4164-4169段 *
Molecular Classification of Human Carcinomas by Use of Gene Expression Signatures;Andrew I. Su et al.;《Cancer Research》;20011231;第61卷;第7388-7393页 *

Also Published As

Publication number Publication date
JP5391279B2 (ja) 2014-01-15
US20100144554A1 (en) 2010-06-10
US9002653B2 (en) 2015-04-07
EP2359278A2 (en) 2011-08-24
WO2010051320A2 (en) 2010-05-06
WO2010051320A3 (en) 2010-12-09
CA2739462A1 (en) 2010-05-06
MX2011004589A (es) 2011-05-25
JP2012507800A (ja) 2012-03-29
CN102203788A (zh) 2011-09-28

Similar Documents

Publication Publication Date Title
CN102203788B (zh) 用于装配成小组的癌细胞系以用于测试一种或多种药物组合物的功效的方法
CN102203787B (zh) 基于基因拷贝数改变的模式的结肠直肠癌的基因组分类
KR102665592B1 (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
ES2886508T3 (es) Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
CN110176273B (zh) 遗传变异的非侵入性评估的方法和过程
JP2021035387A (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
CN110770838B (zh) 用于确定体细胞突变克隆性的方法和系统
US7937225B2 (en) Systems, methods and software arrangements for detection of genome copy number variation
CN102696034B (zh) 基于基因拷贝数改变的模式的非小细胞肺癌的基因组分类
JP2020513812A (ja) 遺伝子モザイク症のための方法およびプロセス
CN103849684A (zh) 利用靶向扩增和测序的非侵入性胎儿基因组筛查
CN102203789B (zh) 基于基因拷贝数改变的模式的恶性黑色素瘤的基因组分类
Snedecor et al. Fast and accurate kinship estimation using sparse SNPs in relatively large database searches
CN108137642A (zh) 分子质量保证方法在测序中的应用
Chen et al. A statistical change point model approach for the detection of DNA copy number variations in array CGH data
Li et al. Direct inference of SNP heterozygosity rates and resolution of LOH detection
JIN STATISTICAL CHALLENGES IN NEXT GENERATION POPULATION GENOMICS STUDY
Zhang Detection copy number variants profile by multiple constrained optimization
CN109971856A (zh) 用于评估人类受检者罹患肺癌的试剂盒或系统及应用
Li et al. Analysis of cancer genome alterations using single nucleotide polymorphism (SNP) microarrays
Rigaill Statistical and algorithmic developments for the analysis of Triple Negative Breast Cancers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: ABBVIE COMPANY

Free format text: FORMER OWNER: ABBOTT GMBH. + CO. KG

Effective date: 20130620

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130620

Address after: Illinois State

Applicant after: ABBVIE company

Address before: Illinois State

Applicant before: Abbott GmbH. & Co. Kg

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150520

Termination date: 20171028