CN117597456A - 用于确定肿瘤生长的速度的方法 - Google Patents

用于确定肿瘤生长的速度的方法 Download PDF

Info

Publication number
CN117597456A
CN117597456A CN202280043641.8A CN202280043641A CN117597456A CN 117597456 A CN117597456 A CN 117597456A CN 202280043641 A CN202280043641 A CN 202280043641A CN 117597456 A CN117597456 A CN 117597456A
Authority
CN
China
Prior art keywords
cancer
sample
patient
liquid biopsy
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280043641.8A
Other languages
English (en)
Inventor
S·夏尔马
B·齐默尔曼
H·塞提
A·阿莱申
S·斯赫格罗瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Natera Inc
Original Assignee
Natera Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Natera Inc filed Critical Natera Inc
Publication of CN117597456A publication Critical patent/CN117597456A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biophysics (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了用于确定ctDNA的生长速率的方法,所述方法包括:(a)对从癌症患者的生物学样品中分离的核酸进行测序以鉴别患者特异性癌症突变;(b)通过以下来对从所述癌症患者采集的第一液体活检样品中的ctDNA的量进行定量:进行多重扩增反应以扩增来自从所述第一液体活检样品中分离的cfDNA的靶基因座,其中每个靶基因座跨越至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别所述患者特异性癌症突变并对所述第一液体活检样品中的ctDNA的量进行定量;(c)通过以下来对从所述癌症患者采集的第二液体活检样品中的ctDNA的量进行定量:进行多重扩增反应以扩增来自从所述第二液体活检样品中分离的cfDNA的靶基因座,其中每个靶基因座跨越至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别所述患者特异性癌症突变并对所述第二液体活检样品中的ctDNA的量进行定量;以及(d)确定所述第一与第二液体活检样品之间所述ctDNA的生长速率。

Description

用于确定肿瘤生长的速度的方法
相关申请的交叉引用
本申请要求于2021年4月22日提交的美国临时申请序列第63/178,349号的权益,该美国临时申请特此通过引用的方式全文并入。
背景技术
癌症的早期重复发作或转移的检测传统上依赖于成像和组织活检。肿瘤组织的活检是侵入性的,且存在可能导致转移或手术并发症的风险,而基于成像的检测对于检测早期阶段中的重复发作或转移不够敏感。需要更好且侵入性较小的方法来检测癌症的重复发作或转移,特别是可以确定肿瘤生长的速度的非侵入性方法。
发明内容
一方面,本公开涉及一种用于确定循环肿瘤DNA的生长速率的方法,所述方法包括:(a)对从癌症患者的生物学样品中分离的核酸进行测序以鉴别多种患者特异性癌症突变;(b)对在手术、一线化学疗法、辅助疗法和/或新辅助疗法之后从癌症患者采集的第一液体活检样品中的循环肿瘤DNA的量进行定量,其中第一液体活检样品是血液、血清、血浆或尿液样品,其中定量包括:进行多重扩增反应以扩增来自从第一液体活检样品中分离的细胞游离DNA的多个靶基因座,其中靶基因座中的每一者跨越至少一种经鉴别的患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别患者特异性癌症突变并对第一液体活检样品中的循环肿瘤DNA的量进行定量;(c)对在第一液体活检样品之后从癌症患者纵向采集的第二液体活检样品中的循环肿瘤DNA的量进行定量,其中第二液体活检样品是血液、血清、血浆或尿液样品,其中定量包括:进行多重扩增反应以扩增来自从第二液体活检样品中分离的细胞游离DNA的多个靶基因座,其中靶基因座中的每一者跨越至少一种经鉴别的患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别患者特异性癌症突变并对第二液体活检样品中的循环肿瘤DNA的量进行定量;以及(d)确定第一与第二液体活检样品之间循环肿瘤DNA的生长速率。
在一些实施例中,癌症是实体瘤,并且生物学样品是肿瘤组织活检样品。
在一些实施例中,癌症是实体瘤或血癌,并且生物学样品是骨髓、血液、血清、血浆或尿液样品。
在一些实施例中,步骤(a)包括对核酸的全外显子组测序。在一些实施例中,步骤(a)包括对核酸的全基因组测序。
在一些实施例中,步骤(a)包括对已经在一组癌症相关的基因组基因座处富集的核酸的靶向测序。在一些实施例中,富集包括杂交捕获。在一些实施例中,富集包括靶向扩增。
在一些实施例中,在采集第一液体活检样品之前,患者已用手术治疗。在一些实施例中,在采集第一液体活检样品之前,患者已用化学疗法治疗。在一些实施例中,在采集第一液体活检样品之前,患者已用辅助疗法或新辅助疗法治疗。在一些实施例中,在采集第一液体活检样品之前,患者已用放射疗法治疗。
在一些实施例中,第一液体活检样品是在手术、一线化学疗法、辅助疗法和/或新辅助疗法后约2-12周从患者采集的。在一些实施例中,第一液体活检样品是在手术、一线化学疗法、辅助疗法和/或新辅助疗法后约4-8周从患者采集的。在一些实施例中,第一液体活检样品是在手术后约2、3、4、5、6、7、8、9、10、11或12周从患者采集的。在一些实施例中,第一液体活检样品是在一线化学疗法后约2、3、4、5、6、7、8、9、10、11或12周从患者采集的。在一些实施例中,第一液体活检样品是在辅助或新辅助疗法后约2、3、4、5、6、7、8、9、10、11或12周从患者采集的。在一些实施例中,第一液体活检样品是在辅助化学疗法(ACT)后约2、3、4、5、6、7、8、9、10、11或12周从患者采集的。
在一些实施例中,第二液体活检样品是在第一液体活检样品后约2-12周从患者采集的。在一些实施例中,第二液体活检样品是在第一液体活检样品后约4-8周从患者采集的。在一些实施例中,第二液体活检样品是在第一液体活检样品后约2、3、4、5、6、7、8、9、10、11或12周从患者采集的。
在一些实施例中,患者特异性癌症突变包括一种或多种体细胞突变。
在一些实施例中,患者特异性癌症突变包括一种或多种单核苷酸变体(SNV)、一种或多种多核苷酸变体(MNV)、一种或多种插入缺失、一种或多种基因融合、一种或多种结构变体、或其组合。
在一些实施例中,所述多个靶基因座包括至少4个靶基因座,靶基因座各自跨越至少一种患者特异性癌症突变。在一些实施例中,所述多个靶基因座包括至少8个靶基因座,靶基因座各自跨越至少一种患者特异性癌症突变。在一些实施例中,所述多个靶基因座包括至少12个靶基因座,靶基因座各自跨越至少一种患者特异性癌症突变。在一些实施例中,所述多个靶基因座包括至少16个靶基因座,靶基因座各自跨越至少一种患者特异性癌症突变。
在一些实施例中,癌症是乳腺癌。在一些实施例中,癌症是膀胱癌。在一些实施例中,癌症是结直肠癌。在一些实施例中,癌症是肺癌。
在一些实施例中,癌症是腹部或腹壁、肾上腺、肛门、阑尾、膀胱、骨、脑、乳腺、子宫颈、胸壁、结肠、隔膜、十二指肠、耳、子宫内膜、食管、输卵管、胆囊、胃食管结合部、头和颈、肾、喉、肝、肺、淋巴结、恶性积液、纵隔、鼻腔、网膜、卵巢、胰腺、胰胆管、腮腺、骨盆、阴茎、心包、腹膜、胸膜、前列腺、直肠、唾液腺、皮肤、小肠、软组织、脾、胃、甲状腺、舌、气管、输尿管、子宫、阴道、外阴或惠普尔切除部的癌症或肿瘤。
在一些实施例中,癌症选自:急性淋巴细胞白血病;急性髓系白血病;肾上腺皮质癌;艾滋病相关癌症;艾滋病相关淋巴瘤;肛门癌;阑尾癌;星形细胞瘤;非典型畸胎瘤样/横纹肌样瘤;基底细胞癌;脑干神经胶质瘤;脑肿瘤(包括脑干神经胶质瘤、中枢神经系统非典型畸胎瘤样/横纹肌样瘤、中枢神经系统胚胎肿瘤、星形细胞瘤、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、髓母细胞瘤、髓上皮瘤、中分化松果体实质肿瘤、幕上原始神经外胚层肿瘤和松果体母细胞瘤);支气管肿瘤;伯基特淋巴瘤;原发部位不明的癌症;类癌肿瘤;原发部位不明的癌;中枢神经系统非典型畸胎瘤样/横纹肌样瘤;中枢神经系统胚胎肿瘤;宫颈癌;儿童癌症;脊索瘤;慢性淋巴细胞白血病;慢性骨髓性白血病;慢性骨髓增生性疾病;结肠癌;颅咽管瘤;皮肤T细胞淋巴瘤;内分泌胰腺胰岛细胞肿瘤;子宫内膜癌;室管膜母细胞瘤;室管膜瘤;食管癌;感觉神经母细胞瘤;尤文肉瘤;颅外生殖细胞肿瘤;性腺外生殖细胞肿瘤;肝外胆管癌;胆囊癌;胃癌(gastric(stomach)cancer);胃肠道类肿瘤癌;胃肠道间质细胞瘤;胃肠道间质瘤(GIST);妊娠滋养细胞肿瘤;神经胶质瘤;毛细胞白血病;头颈癌;心脏癌;霍奇金淋巴瘤;下咽癌;眼内黑色素瘤;胰岛细胞肿瘤;卡波西肉瘤;肾癌;朗格汉斯细胞组织细胞增生症;喉头癌;唇癌;肝癌;恶性纤维组织细胞瘤骨癌;髓母细胞瘤;髓上皮瘤;黑色素瘤;默克尔细胞癌;默克尔细胞皮肤癌;间皮瘤;隐匿性原发性转移性鳞状颈癌;口腔癌;多发性内分泌肿瘤综合征;多发性骨髓瘤;多发性骨髓瘤/浆细胞赘生物;蕈状真菌病;骨髓增生异常综合征;骨髓增生性肿瘤;鼻腔癌;鼻咽癌;神经母细胞瘤;非霍奇金淋巴瘤;非黑色素瘤皮肤癌;非小细胞肺癌;口癌(oral cancer);口腔癌(oral cavity cancer);口咽癌;骨肉瘤;其他脑和脊髓肿瘤;卵巢癌;卵巢上皮性癌;卵巢生殖细胞肿瘤;卵巢低度恶性潜能肿瘤;胰腺癌;乳头状瘤病;鼻窦癌;甲状旁腺癌;盆腔癌;阴茎癌;鼻咽癌;中分化松果体实质肿瘤;松果体母细胞瘤;垂体瘤;浆细胞赘生物/多发性骨髓瘤;胸膜肺母细胞瘤;原发性中枢神经系统(CNS)淋巴瘤;原发性肝细胞肝癌;前列腺癌;直肠癌;肾癌;肾细胞(肾)癌;肾细胞癌;呼吸道癌;视网膜母细胞瘤;横纹肌肉瘤;唾液腺癌;塞扎里综合征;小细胞肺癌;小肠癌;软组织肉瘤;鳞状细胞癌;鳞状颈癌;胃癌(stomach(gastric)cancer);幕上原始神经外胚层肿瘤;T细胞淋巴瘤;睾丸癌;喉癌;胸腺癌;胸腺瘤;甲状腺癌;移行细胞癌;肾盂和输尿管移行细胞癌;滋养细胞肿瘤;输尿管癌;尿道癌;子宫癌;子宫肉瘤;阴道癌;外阴癌;华氏巨球蛋白血症;或肾母细胞瘤。
在一些实施例中,所述方法进一步包括将患者鉴定为具有快肿瘤生长速率或慢肿瘤生长速率。在一些实施例中,基于ctDNA水平作为复发或干预前的时间的函数,针对每个患者进行对数线性回归拟合。ctDNA生长速率是由回归线的斜率估算的。斜率直方图与双峰分布相关。为了鉴别分布中两种模式之间的局部最小值,使用具有最小带宽的核平滑器来估算实值函数,以得到两模态估算。局部最小值是通过对函数应用用于局部极值的二阶导数测试来确定的。
在一些实施例中,所述方法进一步包括对在第二液体活检样品之后从癌症患者纵向采集的第三液体活检样品中的循环肿瘤DNA的量进行定量,其中定量包括:进行多重扩增反应以扩增来自从第三液体活检样品中分离的细胞游离DNA的多个靶基因座,其中靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别患者特异性癌症突变并对第三液体活检样品中的循环肿瘤DNA的量进行定量;以及确定第一、第二与第三液体活检样品之间循环肿瘤DNA的生长速率。
在另一个方面,本公开涉及一种用于确定循环肿瘤DNA的生长速率的方法,所述方法包括:(a)对从癌症患者的肿瘤组织活检样品中分离的核酸进行测序以鉴别多种患者特异性癌症突变,所述多种患者特异性癌症突变包括单核苷酸变体(SNV);(b)对在辅助化学疗法之后从癌症患者采集的第一液体活检样品中的循环肿瘤DNA的量进行定量,其中第一液体活检样品是血液、血清、血浆或尿液样品,其中定量包括:进行多重扩增反应以扩增来自从第一液体活检样品中分离的细胞游离DNA的多个靶基因座,其中靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别患者特异性癌症突变并对第一液体活检样品中的循环肿瘤DNA的量进行定量;(c)对在第一液体活检样品之后从癌症患者采集的第二液体活检样品中的循环肿瘤DNA的量进行定量,其中第一液体活检样品是血液、血清、血浆或尿液样品,其中定量包括:进行多重扩增反应以扩增来自从第二液体活检样品中分离的细胞游离DNA的多个靶基因座,其中靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别患者特异性癌症突变并对第二液体活检样品中的循环肿瘤DNA的量进行定量;以及(d)确定第一与第二液体活检样品之间循环肿瘤DNA的生长速率。
一方面,本公开涉及一种用于确定循环肿瘤DNA的生长速率的方法,所述方法包括:(a)对从癌症患者的肿瘤组织活检样品中分离的核酸进行测序以鉴别多种患者特异性癌症突变,所述多种患者特异性癌症突变包括单核苷酸变体(SNV),其中癌症是乳腺癌、膀胱癌、结直肠癌或肺癌;(b)对在辅助化学疗法之后从癌症患者采集的第一液体活检样品中的循环肿瘤DNA的量进行定量,其中第一液体活检样品是血液、血清、血浆或尿液样品,其中定量包括:进行多重扩增反应以扩增来自从第一液体活检样品中分离的细胞游离DNA的至少16个靶基因座,其中靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别患者特异性癌症突变并对第一液体活检样品中的循环肿瘤DNA的量进行定量;(c)对在第一液体活检样品之后从癌症患者采集的第二液体活检样品中的循环肿瘤DNA的量进行定量,其中第一液体活检样品是血液、血清、血浆或尿液样品,其中定量包括:进行多重扩增反应以扩增来自从第二液体活检样品中分离的细胞游离DNA的至少16个靶基因座,其中靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别患者特异性癌症突变并对第二液体活检样品中的循环肿瘤DNA的量进行定量;以及(d)确定第一与第二液体活检样品之间循环肿瘤DNA的生长速率。
附图说明
将参考附图进一步解释当前公开的实施例,其中在若干个视图中类似的数字表示类似的结构。所示附图不一定是按比例的,而是将通常重点放在展示当前所公开的实施例的原理上。
图1A:来自所有样品的ctDNA生长的速度。(样品包括:ACT结束时或ACT之后的所有样品,允许在ACT结束前14天取样品;重复发作时的干预之前的样品;仅考虑连续阳性样品)。图1B:所有个体患者的线性回归(对数变换数据)。图1C:斜率直方图。计算每个回归的斜率。注意:当由于x轴反转而导致ctDNA水平增加至重复发作时,斜率为负。仍然基于对数变换数据。密度图的最小值将ctDNA的慢速上升和快速上升分组(示例性截止值为1.69)。图1D:基于快速和慢速上升着色的线性回归线。通过乘以-1来反转斜率,然后转换回非对数轴。快速上升的平均斜率为2.26(se+/-0.30),而慢速上升的平均斜率为1.26(se+/-0.15)(wilcox.测试,p<2.2e-16)。
图2A:前两个ctDNA阳性样品的ctDNA生长速度。图2B:斜率直方图。密度图的最小值将ctDNA的慢速上升和快速上升分组(示例性截止值为1.69)。图2C:基于快速和慢速上升着色的线性回归线。完整数据与两个样品的斜率比较:差的平均值:0.038(CI95%-0.018;0.094,p=0.16,成对t测试)。二分数据(快速,慢速)。McNemar′s,p值=0.479。Cohenkappa:0.75[0.44;1]。
图3A:具有慢速与快速生长复发的患者的总存活率。图3B:没有ctDNA与具有慢速和快速生长复发的患者的总存活率。图3C:具有慢速与快速生长复发的患者的CRC特异性存活率。图3D:没有ctDNA与具有慢速和快速生长复发的患者的CRC特异性存活率。
图4:快速组与慢速组中的突变负荷。可以得出以下结论,可以基于ctDNA生长速度对患者进行细分;具有快速生长ctDNA水平的患者预后最差;具有较大突变负载的肿瘤可能会导致更快生长的ctDNA水平;仅通过两个样品即可估算ctDNA生长速度,这将方便临床使用。
图5A-5B:将患者纳入子分析。A)将患者纳入子分析的队列图,每项分析所回答的临床问题均已标示。临床问题编号从1-7。B)每项子分析中包含的血浆样品的概要。编号的条对应于A中所标示的编号临床问题。ACT=辅助化学疗法;CRC=结直肠癌;ctDNA=循环肿瘤DNA;OS=总存活率;OP后=术后血液样品;ACT后=辅助化学疗法后血液样品;RFS=无复发存活率;TTR=复发时间。
图6A-6D:手术后循环肿瘤DNA的检测。A)针对手术后两个月内抽取的血液样品中的ctDNA检测结果对无复发存活率进行分层的Kaplan-Meier图。示出了ctDNA阳性和ctDNA阴性患者的复发率。B)手术后四周内采集的放射学复发患者或此时ctDNA阳性患者的术后血浆样品中的细胞游离DNA水平。通过检测ctDNA对分析进行分层。通过学生t测试来比较对数变换的cfDNA水平。C)初始ctDNA阴性而在后续样品中检测到ctDNA的患者比例。手术后未立即检测到ctDNA、以及手术后>2个月采集样品的复发患者均纳入本次分析(n=15)。D)与手术后两个月内抽取的ctDNA阳性样本中的cfDNA水平相比,针对初始ctDNA阴性患者所观察到的首次ctDNA阳性血浆样品中的cfDNA水平。通过学生t测试来比较对数变换的cfDNA水平。
图7A-7F:使用ctDNA来评定ACT效果和治疗结束后的复发风险。A)针对患者血液样品进行ctDNA分析的概述,该患者在手术后两个月内呈ctDNA阳性并接受了ACT。根据复发状态以及患者是否通过ACT清除了ctDNA,对患者进行分组。B)ACT开始前ctDNA水平的比较,针对未来复发进行分层。使用学生t测试来比较对数变换水平。C)ACT前、ACT期间、ACT后立即以及复发时或随访结束时(终点)的ctDNA水平。D)针对ACT结束后三个月内抽取的血液样品中的ctDNA检测结果对无复发存活率进行分层的Kaplan-Meier图。示出了ctDNA阳性和ctDNA阴性患者的复发率。E)在确定性疗法结束后连续采集血浆样品的ctDNA阳性复发患者中进行针对ctDNA的复发检测和CT成像的时间。针对1)确定性疗法结束后的ctDNA检测(深蓝点)与放射学复发,以及2)针对任何时间的ctDNA检测(浅蓝和深蓝点)与放射学复发所计算的前置时间(LT)。针对所有患者计算ctDNA检测时间与放射学复发时间之间的总体的差(OD)。F)在确定性治疗结束后,针对复发患者观察到ctDNA水平呈指数增加。针对每个患者的原始ctDNA测量结果以独特的颜色显示(左)。慢速和快速生长的ctDNA水平的回归线(右)。
图8A-8B:使用Signatera的针对cfDNA测序的质量控制度量值。A)针对NGS文库的DNA输入。输入上限为66ng。B)针对血浆样品中每个扩增子的读段深度(DoR)。DoR<5000的扩增子被视为失败并被排除在进一步分析之外。
图9A-9B:复发患者302的同步肿瘤。A)三种同步原发性肿瘤中重叠突变的韦恩图(上组)。针对每种肿瘤,均注释了共享和独特的突变的数目。下组给出了基于每个原发性肿瘤设计的独特测定的数目。B)大肠中三种同步肿瘤的说明。表中指示,随着时间的推移,对应于具体同步肿瘤的Signatera测定的每个池检测到的ctDNA分子的数目。。
图10A-10C:ctDNA和CEA的纵向监测。A)针对确定性治疗结束后采集的连续血液样品中的ctDNA检测结果对无复发存活率进行分层的Kaplan-Meier图。如果确定性治疗结束后采的任何样品呈ctDNA阳性,则患者被归类为ctDNA阳性。示出了ctDNA阳性和ctDNA阴性患者的复发率。B)针对确定性治疗结束后采集的连续血液样品中的CEA升高对无复发存活率进行分层的Kaplan-Meier图。如果确定性治疗结束后采的任何样品示出CEA水平升高,则患者被归类为CEA阳性。示出了CEA阳性和ctDNA阴性患者的复发率。C)在确定性疗法结束后连续采集血浆样品的CEA阳性复发患者中进行针对CEA的复发检测和CT成像的时间。针对1)确定性疗法结束后的CEA检测与放射学复发,以及2)针对任何时间的CEA检测与放射学复发所计算的前置时间(LT)。针对所有患者计算CEA检测时间与放射学复发时间之间的总体的差(OD)。
图11A-11D:复发前ctDNA水平的变化。A)连续ctDNA阳性样品中对数变换的ctDNA水平的线性回归斜率直方图(图7F)。慢速与快速生长的ctDNA水平之间的截止值由密度函数的最小值决定(粗黑线)。B)前两个连续ctDNA阳性样品的线性回归。回归已基于1.69的斜率截止值进行分类。C)具有连续阳性ctDNA检测结果的复发患者的3年总存活率的Kaplan-Meier曲线。通过ctDNA水平的速度(慢速和快速)对患者进行分层。纵向分析中未复发的患者被纳入对照组。D)如C中的Kaplan-Meier图,添加了复发患者组,在干预前或随访结束时没有两个连续的阳性ctDNA样品(其他复发)。
具体实施方式
I.总体概述
本文提供的方法和组合物改进了癌症的检测、诊断、分期、筛检、治疗和管理。一方面,本公开涉及一种用于确定循环肿瘤DNA的生长速率的方法,该方法包括:(a)对从癌症患者的生物学样品中分离的核酸进行测序以鉴别多种癌症特异性突变;(b)对在手术、一线化学疗法和/或辅助化学疗法后从该癌症患者采集的第一液体活检样品中的循环肿瘤DNA的量进行定量,其中第一液体活检样品是血液、血清、血浆或尿液样品,其中定量包括:进行多重扩增反应以扩增来自从第一液体活检样品中分离的细胞游离DNA的多个靶基因座,其中靶基因座中的每一者跨越至少一种经鉴别的癌症特异性突变,以及对经扩增的靶基因座进行测序,以鉴别癌症特异性突变并对第一液体活检样品中的循环肿瘤DNA的量进行定量;(c)对在第一液体活检样品之后从癌症患者纵向采集的第二液体活检样品中的循环肿瘤DNA的量进行定量,其中第二液体活检样品是血液、血清、血浆或尿液样品,其中定量包括:进行多重扩增反应以扩增来自从第二液体活检样品中分离的细胞游离DNA的多个靶基因座,其中靶基因座中的每一者跨越至少一种经鉴别的癌症特异性突变,以及对经扩增的靶基因座进行测序,以鉴别癌症特异性突变并对第二液体活检样品中的循环肿瘤DNA的量进行定量;以及(d)确定第一与第二液体活检样品之间循环肿瘤DNA的生长速率。
在一些实施例中,所述方法进一步包括将患者鉴定为具有快肿瘤生长速率或慢肿瘤生长速率。在一些实施例中,基于ctDNA水平作为复发或干预前的时间的函数,针对每个患者进行对数线性回归拟合。ctDNA生长速率是由回归线的斜率估算的。斜率直方图与双峰分布相关。为了鉴别分布中两种模式之间的局部最小值,使用具有最小带宽的核平滑器来估算实值函数,以得到两模态估算。局部最小值是通过对函数应用用于局部极值的二阶导数测试来确定的。
在一些实施例中,所述方法进一步包括对在第二液体活检样品之后从所述癌症患者纵向采集的第三液体活检样品中的循环肿瘤DNA的量进行定量,其中定量包括:进行多重扩增反应以扩增来自从第三液体活检样品中分离的细胞游离DNA的多个靶基因座,其中靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种癌症特异性突变,以及对经扩增的靶基因座进行测序,以鉴别所述癌症特异性突变并对第三液体活检样品中的循环肿瘤DNA的量进行定量;以及确定第一、第二与第三液体活检样品之间循环肿瘤DNA的生长速率。在一些实施例中,多重扩增反应靶向1-100个靶基因座、或1-20个靶基因座、或1-10个靶基因座、或10-20个靶基因座、或20-50个靶基因座,靶基因座各自跨越至少一种癌症特异性突变。
在说明性的实施例中,本文提供的方法分析循环液体、尤其是细胞游离和/或循环肿瘤DNA中的单核苷酸变体突变(SNV)。所述方法提供以下优点:在单次测试中鉴定更多在肿瘤中发现的突变和克隆以及亚克隆突变,而不是需要利用肿瘤样品进行多次测试(如果有效的话)。该方法和组合物本身可以是有帮助的,或者当它们与用于癌症的检测、诊断、分期、筛检、治疗和管理的其他方法一起使用时可以是有帮助的,例如帮助支持这些其他方法的结果以提供更高的置信度和/或确定性结果。
因此,本文在一个实施例中提供了一种通过确定来自个体(诸如患有或疑似患有癌症(例如,肺癌、乳腺癌、膀胱癌或结直肠癌)的个体)的ctDNA样品中存在的癌症特异性突变来确定癌症中存在的癌症特异性突变(例如,SNV、MNV、插入缺失、基因融合)的方法,所述方法使用本文提供的ctDNA扩增/测序工作流程。在一些实施例中,该方法在至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、或至少98%、或至少99%的患有癌症早期重复发作或转移的患者中检测到至少一种癌症特异性突变。
在一些实施例中,本文描述的方法能够在通过成像和/或公认的生物标志物可检测到的癌症重复发作或转移的临床确定之前的至少30天、至少60天、至少100天、至少150天、至少200天、至少250天或至少300天在患有癌症早期重复发作或转移的患者中检测到患者特异性的癌症相关的突变。示例性的成像方法包括X射线、磁共振成像(MRI)、正电子发射断层扫描(PET)、核医学扫描、计算机断层扫描(CT)成像、乳房影像或超声。用于诊断癌症的成像方法可包括通过显微镜和组织学染色对生物学样品进行检查。在一些实施例中,本文描述的方法能够在CA15-3水平升高之前的至少30天、至少60天、至少100天、至少150天、至少200天、至少250天或至少300天在患有乳腺癌的早期重复发作或转移的患者中检测到患者特异性的乳腺癌相关的突变。
在一些实施例中,当检测到一种或多种、或者两种或多种患者特异性的癌症相关的突变高于预定置信阈值(例如,0.95、0.96、0.97、0.98或0.99)时,本文描述的方法在检测癌症的早期重复发作或转移中具有至少95%、至少98%、至少99%、至少99.5%、至少99.8%、或至少99.9%的特异性。在一些实施例中,该方法在至少60%、至少65%、至少70%、至少75%、至少80%、或至少85%、或至少90%、或至少95%、或至少98%、或至少99%的患有癌症早期重复发作或转移的患者中检测到至少一种癌症特异性突变。
II.样品采集
本文公开的方法设想为用于监测或检测患者中的多种癌症。本领域普通技术人员将理解,不同类型的癌症将需要采集不同类型的如本文描述的样品。
在一些实施例中,癌症是实体瘤,并且生物学样品是肿瘤活检样品。进行活检通常涉及使用锋利的工具从疑似含有病变细胞或组织(诸如肿瘤)的中取出少量组织。有许多不同类型的活检,诸如穿刺活检、CT引导的活检、超声引导的活检、骨活检、骨髓活检、肝活检、肾活检、抽吸活检、前列腺活检、皮肤活检、手术活检(诸如腹腔镜活检)。在一些实施例中,生物学样品通过液体活检获得。在一些实施例中,生物学样品是血液、血清、血浆、或尿液样品。此外,生物液体样品可以从含有细胞游离DNA的多种动物液体中提取,包括但不限于血液、血清、血浆、骨髓、尿液玻璃体、痰、眼泪、汗液、唾液、精液、粘膜排泄物、粘液、脊髓液、羊水、淋巴液等。细胞游离DNA可以是胎儿来源的(通过取自怀孕受试者的液体),或者可以源自受试者本身的组织。
在一些实施例中,癌症是血癌,并且生物学样品是液体样品。在一些实施例中,癌症是血癌,并且生物学样品是血液、血清、血浆或骨髓样品。在一些实施例中,来自癌症的DNA和匹配的正常DNA均是从血液样品中通过分离和拆分血浆和血沉棕黄层而获得的。从血沉棕黄层获得的DNA可以充当与从血浆部分获得的循环肿瘤DNA相匹配的正常DNA。
在一些实施例中,本公开的方法进一步包括从患者纵向采集多个液体活检样品。在一些实施例中,液体活检样品是在患者接受了针对癌症的治疗后从患者获得的。在一些实施例中,液体活检样品是血液、血清、血浆或尿液样品。
本文在某些实施例中提供的方法尤其适用于扩增DNA片段,尤其是在循环肿瘤DNA(ctDNA)中发现的肿瘤DNA片段。此类片段的长度典型地约为160个核苷酸。
本领域已知的是,细胞游离核酸(cfNA),例如,cfDNA,可以通过各种形式的细胞死亡(诸如细胞凋亡、坏死、自噬和坏死性凋亡)而释放到循环中。cfDNA被片段化,并且片段的尺寸分布在150-350bp至>10000bp范围内。(参见Kalnina等人,WorldJGastroenterol.2015年11月7日;21(41):11636–11653)。例如,肝细胞癌瘤(HCC)患者中的血浆DNA片段的尺寸分布跨越100bp-220bp的长度范围,其中在约166bp处具有计数频率的峰值,并且在长度为150bp-180bp的片段中具有最高肿瘤DNA浓度(参见:Jiang等人,ProcNatl Acad Sci USA 112:E1317–E1325)。
在说明性实施例中,在通过离心来去除细胞碎片和血小板后,使用EDTA-2Na试管从血液分离循环肿瘤DNA(ctDNA)。血浆样品可以在-80℃下储存直到使用例如QIAamp DNA小型试剂盒(Qiagen,希尔登,德国)提取DNA(例如,Hamakawa等人,Br JCancer.2015;112:352–356)。Hamakava等人报道所有样品的所提取的细胞游离DNA的中值浓度是每毫升血浆43.1ng(在9.5–1338ng ml/范围内),且突变体分数范围是0.001%–77.8%,其中中值是0.90%。
在某些说明性实施例中,样品是肿瘤。鉴于本文的教示内容,本领域中已知用于从肿瘤分离核酸和用于由这类DNA样品创建核酸文库的方法。此外,鉴于本文的教示内容,本领域的技术人员将认识到如何由除ctDNA样品以外的其它样品(诸如其中DNA是自由浮动的其它液体样品)创建适用于本文的方法的核酸文库。
III.癌症特异性突变的鉴定
采集样品后,根据所分析的癌症类型,可以对从如上所述的实体瘤或液体活检样品、以及匹配的正常组织或细胞获得的循环肿瘤DNA、细胞游离DNA或细胞DNA进行靶向测序或全外显子组测序(WES)。将来自肿瘤细胞或癌细胞的序列与来自正常组织或细胞的序列进行比较允许鉴定癌症特异性突变。在鉴定出针对患者的个人化的癌症特异性突变之后,可以通过使用个人化的癌症特异性突变来检测或监测患者的癌症。在癌症治疗之前、期间和之后对个人化癌症特异性突变进行检测可以指示癌症的重复发作、复发或转移。
在一些实施例中,癌症特异性突变包括一种或多种体细胞突变。例如通过对从患者的非癌细胞中分离的核酸进行测序以鉴别一种或多种非癌症特异性种系突变,可以将体细胞突变与种系突变区分开来,其中所述核酸已在与癌症相关的基因组基因座的组处富集。在一些实施例中,非癌细胞是从患者的血液样品中的血沉棕黄层中获得的。可以通过首先对从血沉棕黄层中获得的非癌症DNA运行针对第一患者特异性测定选择的大量靶标来过滤掉种系突变,然后选择癌症特异性变体用于第二患者特异性测定。
在一些实施例中,本公开的方法进一步包括比较由两个纵向采集的液体活检样品制备的经扩增的DNA的序列,以鉴别一种或多种非癌症特异性种系突变。在顺序生物样品中,种系突变会具有约50%的变体等位基因频率(VAF)。在一些实施例中,其中ctDNA的水平非常高,为了确定种系突变并将其过滤掉,可能必须考虑变体的区域的拷贝数。
在一些实施例中,可通过将来自血浆样品的细胞游离DNA拆分成长DNA部分和短DNA部分并用定制的(个人化的或患者特异性的)测定分析这两个部分来确定种系突变。预计肿瘤特异性变体在具有较短DNA部分的样品中具有较高的变体等位基因频率。或者,在一些实施例中,可以富集较短的片段,并且通过比较富集的样品与原始样品中针对突变的变体等位基因频率,可以鉴别种系突变。
在一些实施例中,本公开的方法进一步包括将从生物学样品分离的核酸的序列与种系突变数据库进行比较以鉴定一种或多种非癌症特异性种系突变。
在鉴定出患者的癌症特异性突变后,进行多重PCR以扩增从患者的液体活检样品中分离的多个靶基因座形式的细胞游离DNA,以获得扩增的DNA,在一些实施例中,多重扩增靶向1-100个靶基因座、或1-20个靶基因座、或1-10个靶基因座、或10-20个靶基因座、或20-50个靶基因座,靶基因座各自跨越至少一种癌症特异性突变。在一些实施例中,多重扩增靶向1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个靶基因座,该靶基因座跨越至少一种癌症特异性突变。
一方面,通过对从液体样品或实体瘤样品中获得的DNA进行全外显子组测序(WES)并与正常组织的全外显子组测序进行比较来鉴定癌症特异性突变。在一些实施例中,对从实体瘤和从匹配的正常组织中获得的细胞DNA进行全外显子组测序。在一些实施例中,对来自液体活检样品(诸如血液或血浆)的细胞游离DNA进行全外显子组测序。在一些实施例中,对从罹患血癌的患者的血液样品获得的细胞游离或细胞DNA进行WES,以鉴定癌症特异性血癌突变。通过将从血癌或实体瘤获得的DNA测序数据与从正常匹配组织获得的DNA进行比较,可以鉴定癌症特异性突变并将其用于在患者癌症的临床进展过程中监测或检测癌症。
如本文所用,“全外显子组测序”是指对基因组中的基因的所有蛋白质编码区域(也称为外显子组)进行测序。因此,全外显子组测序可能首先涉及在测序之前分离编码蛋白质的DNA子集(称为外显子)的步骤。所述第一步可以通过对分离的外显子的捕获技术来进行,即如本文别处所描述的基于阵列的捕获或溶液内捕获。
另一方面,通过对衍生自从患者获得的生物样品的核酸进行靶向测序来鉴定癌症特异性突变。生物学样品可以通过如上所述的实体瘤活检或液体活检获得。癌性核酸可以是从实体瘤获得的细胞DNA、从如上所述的任何液体样品获得的细胞游离或循环DNA,或者癌性DNA可以是从罹患血癌的患者的血液样品获得的细胞游离DNA或细胞DNA。正常的匹配的DNA可以是从患者的非癌性细胞或组织获得的细胞DNA。
在本公开的一些实施例中,通过在一组癌症相关的基因或基因组基因座处富集从患者获得的核酸来进行靶向测序,以减少鉴别患者特异性肿瘤或癌细胞突变所需的靶基因座或核酸碱基的数目。在一些实施例中,靶向测序包括在一组癌症相关的基因(例如,来自Foundation Medicine的FoundationOneTM组)处富集从患者的实体瘤活检样品中获得的核酸(例如,细胞DNA)。在一些实施例中,通过在一组癌症相关的基因(例如,来自GuardantHealth的Guardant360TM组)处富集从患者的血液、血浆、血清或尿液样品中获得的核酸(例如,cfDNA)来进行靶向测序。
在一些实施例中,该组包括2,000个或更少的癌症相关的基因或基因组基因座、或1,000个或更少的癌症相关的基因或基因组基因座、或500个或更少的癌症相关的基因或基因组基因座、或100-1,000个癌症相关的基因或基因组基因座,或200-500个癌症相关的基因或基因组基因座。在一些实施例中,该组包括从约100至约300个癌症相关的基因或基因组基因座、从约300至约450个癌症相关的基因或基因组基因座、从约200至约350个癌症相关的基因或基因组基因座、从约500至约1000个基因或癌症相关的基因或基因组基因座、从约1000至约1500个癌症相关的基因或基因组基因座、从约1500至约2000个癌症相关的基因或基因组基因座、从约1650至约2000个癌症相关的基因或基因组基因座。在一些实施例中,该组包括从约100个、150个、200个、250个、300个、350个、400个、450个、500个、750个、1000个、1500个、1850个或2000个癌症相关的基因或基因组基因座。
在一些实施例中,对从获自患者的第一生物学样品中分离的核酸进行测序产生5,000,000个碱基或更少的DNA序列、或4,000,000个碱基或更少的DNA序列、或3,000,000个碱基或更少的DNA序列、或2,000,000个碱基或更少的DNA序列、或500,000-2,000,000个碱基的DNA序列、或1,000,000-1,500,000个碱基的DNA序列。如本文所用,术语“癌症相关的基因组基因座”是指经确定可用于监测或检测患者中的癌症的任何基因组基因座。癌症相关的基因组基因座可与以下各项相关:(i)癌症的转移潜能、转移至特定器官的潜能、复发的风险和/或肿瘤过程;(ii)肿瘤分期;(iii)未经癌症治疗的患者预后;(iv)患者对治疗(例如化学疗法、放射疗法、切除肿瘤的手术等)的反应(例如肿瘤缩小或无进展存活)的预后;(v)对患者对当前和/或过去治疗的实际反应的诊断;(vi)针对患者确定优选治疗过程;(vii)治疗(一般治疗或某些特别的治疗)后针对患者重复发作的预后;(viii)患者预期寿命的预后(例如,针对总存活率的预后)等。
因此,在一些实施例中,癌症相关的基因组基因座伴随着快速增殖(并因此更具侵袭性)的癌细胞。患者中的此种癌症通常意味着患者的在治疗后复发的可能性增加(例如,治疗未杀死或去除的癌细胞将很快重新生长)。由于更快的进展(例如,快速增殖的细胞将导致任何肿瘤快速生长、毒力增加和/或转移),此种癌症还可能意味着患者的癌症进展的可能性增加。此种癌症还可能意味着患者可能需要相对更积极的治疗。因此,在一些实施例中,本发明提供了对癌症进行分类的方法,该方法包括确定包括至少两个或更多个癌症相关的基因组基因座的一组基因的状态,其中异常的状态指示复发或进展的可能性增加。
在一些实施例中,癌症相关的基因组基因座的组包括外显子、内含子、基因调控区域、非编码RNA、重排的基因。在一些实施例中,癌症特异性突变包括一种或多种单核苷酸变体(SNV)、一种或多种多核苷酸变体(MNV)、一种或多种拷贝数变体(CNV)、一种或多种插入缺失、一种或多种基因融合、一种或多种结构变体、或其组合。
在一些实施例中,癌症相关的基因组基因座的组包括任何尺寸(从单个核苷酸的变化至大于1千碱基(kb)的基因组区域中的变化)的任何基因组改变。术语“插入缺失”是指基因组中核酸的插入和缺失这两者。如本文所用,术语“结构变体”是指涉及大于1千碱基(kb)的DNA片段的基因组的改变,诸如缺失或插入,并且可以是微观的或亚微观的。术语“基因融合”是指由基因组中DNA的插入和/或缺失引起的、引起两个不同基因组基因座融合的任何基因组改变。由基因融合引起的基因组改变可能涉及任何尺寸的DNA片段。
非编码RNA(ncRNA)是一种从DNA转录但不翻译成蛋白质的功能性RNA分子。表观遗传相关的ncRNA包括miRNA、siRNA、piRNA和lncRNA。一般来说,ncRNA的功能是在转录和转录后水平调节基因表达。那些似乎涉及表观遗传过程的ncRNA可分为两个主要的组:短ncRNA(<30nts)和长ncRNA(>200nts)。短的非编码RNA的三大类是微RNA(miRNA)、短干扰RNA(siRNA)和piwi相互作用RNA (piRNA)。这两个主要组均在异染色质形成、组蛋白修饰、DNA甲基化靶向和基因沉默中发挥作用。
在一些实施例中,癌症相关的基因组基因座的组包括一系列或一组众所周知的癌症基因、癌基因、或据报道在癌性细胞或肿瘤组织中改变的任何基因。癌症相关的基因是指与针对癌症(例如,乳腺癌、膀胱癌或结直肠癌)的改变的风险或针对癌症的改变的预后相关的基因。示例性的促进癌症的与癌症有关的基因包括癌基因;增强细胞增殖、侵入或转移的基因;阻碍细胞凋亡的基因;和促血管生成基因。阻碍癌症的与癌症有关的基因包括但不限于肿瘤抑制因子基因;阻碍细胞增殖、侵入或转移的基因;促进细胞凋亡的基因;和抗血管生成基因。
在一些实施例中,该组的癌症相关的基因组基因座可包括AKT1(14q32.33、ALK(2p23.2-23.1)、APC(5q22.2)、AR(Xq12)、ARAF(Xp11.3)、ARID1A(1p36.11)、ATM(11q22.3)、BRAF(7q34)、BRCA1(17q21.31)、BRCA2(13q13.1)、CCND1(11q13.3)、CCND2(12p13.32)、CCNE1(19q12)、CDH1(16q22.1)、CDK4(12q14.1)、CDK6(7q21.2)、CDKN2A(9p21.3)、CTNNB1(3p22.1)、DDR2(1q23.3)、EGFR(7p11.2)、ERBB2(17q12)、ESR1(6q25.1-25.2)、EZH2(7q36.1)、FBXW7(4q31.3)、FGFR1(8p11.23)、FGFR2(10q26.13)、FGFR3(4p16.3)、GATA3(10p14)、GNA11(19p13.3)、GNAQ(9q21.2)、GNAS(20q13.32)、HNF1A(12q24.31)、HRAS(11p15.5)、IDH1(2q34)、IDH2(15q26.1)、JAK2(9p24.1)、JAK3(19p13.11)、KIT(4q12)、KRAS(12p12.1)、MAP2K1(15q22.31)、MAP2K2(19p13.3)、MAPK1(22q11.22)、MAPK3(16p11.2)、MET(7q31.2)、MLH1(3p22.2)、MPL(1p34.2)、MTOR(1p36.22)、MYC(8q24.21)、NF1(17q11.2)、NFE2L2(2q31.2)、NOTCH1(9q34.3)、NPM1(5q35.1)、NRAS(1p13.2)、NTRK1(1q23.1)、NTRK3(15q25.3)、PDGFRA(4q12)、PIK3CA(3q26.32)、PTEN(10q23.31)、PTPN11(12q24.13)、RAF1(3p25.2)、RB1(13q14.2)、RET(10q11.21)、RHEB(7q36.1)、RHOA(3p21.31)、RIT1(1q22)、ROS1(6q22.1)、SMAD4(18q21.2)、SMO(7q32.1)、STK11(19p13.3)、TERT(5p15.33)、TP53(17p13.1)、TSC1(9q34.13)和/或VHL(3p25.3)。突变检测方法的一个实施例开始于选择成为靶标的基因的区域。具有已知突变的区域用于开发用于mPCR-NGS的引物,以扩增和检测突变。
本文提供的方法可用于检测实际上任何类型的突变,尤其是已知与癌症相关的突变,并且最特别地,本文提供的方法针对突变,尤其是与癌症相关的单核苷酸变体(SNV)、拷贝数变化(CNV)、插入缺失、或基因融合或重排。示例性的SNV可以在以下基因中的一种或多种中:EGFR、FGFR1、FGFR2、ALK、MET、ROS1、NTRK1、RET、HER2、DDR2、PDGFRA、KRAS、NF1、BRAF、PIK3CA、MEK1、NOTCH1、MLL2、EZH2、TET2、DNMT3A、SOX2、MYC、KEAP1、CDKN2A、NRG1、TP53、LKB1和PTEN,这些基因已在各种肺癌样品中被鉴别为突变的、拷贝数增加的或与其他基因融合的、以及其组合(Non-small-cell lung cancers:a heterogeneous set ofdiseases.Chen等人,Nat.Rev.Cancer.2014年8月,14(8):535-551)。在另一个实例中,基因系列是上面列出的那些,其中已经报道了SNV,例如在引用的Chen等人的参考文献中。
可能的癌症相关的基因组基因座的示例性实施例包括以下基因的外显子区域(例如,用于检测SNV、CNV和插入缺失):ABL1 ACVR1B AKT1 AKT2 AKT3 ALK ALOX12B AMER1(FAM123B)APC AR ARAF ARFRP1 ARID1A ASXL1 ATM ATR ATRX AURKA AURKB AXIN1 AXLBAP1 BARD1 BCL2 BCL2L1 BCL2L2 BCL6 BCOR BCORL1 BRAF BRCA1 BRCA2 BRD4 BRIP1BTG1 BTG2 BTK C11orf30(EMSY)CALR CARD11 CASP8 CBFB CBL CCND1 CCND2 CCND3CCNE1 CD22 CD274(PD-L1)CD70CD79A CD79B CDC73 CDH1 CDK12 CDK4 CDK6 CDK8 CDKN1ACDKN1B CDKN2ACDKN2B CDKN2C CEBPA CHEK1 CHEK2 CIC CREBBP CRKL CSF1R CSF3R CTCFCTNNA1 CTNNB1 CUL3 CUL4A CXCR4 CYP17A1 DAXX DDR1 DDR2 DIS3 DNMT3ADOT1L EEDEGFR EP300 EPHA3 EPHB1 EPHB4 ERBB2 ERBB3 ERBB4 ERCC4 ERG ERRFI1 ESR1 EZH2FAM46C FANCA FANCC FANCG FANCL FAS FBXW7 FGF10 FGF12 FGF14 FGF19 FGF23 FGF3FGF4 FGF6 FGFR1 FGFR2 FGFR3 FGFR4 FH FLCN FLT1 FLT3 FOXL2 FUBP1 GABRA6 GATA3GATA4 GATA6 GID4(C17orf39)GNA11 GNA13 GNAQ GNAS GRM3 GSK3B H3F3A HDAC1 HGFHNF1A HRAS HSD3B1 ID3IDH1 IDH2 IGF1R IKBKE IKZF1 INPP4B IRF2 IRF4 IRS2 JAK1JAK2 JAK3 JUN KDM5A KDM5C KDM6A KDR KEAP1 KEL KIT KLHL6 KMT2A(MLL)KMT2D(MLL2)KRAS LTK LYN MAF MAP2K1(MEK1)MAP2K2(MEK2)MAP2K4 MAP3K1 MAP3K13 MAPK1 MCL1MDM2 MDM4 MED12 MEF2B MEN1 MERTK MET MITF MKNK1 MLH1 MPL MRE11A MSH2 MSH3MSH6 MST1R MTAP MTOR MUTYH MYC MYCL(MYCL1)MYCN MYD88 NBN NF1 NF2 NFE2L2NFKBIA NKX2-1 NOTCH1 NOTCH2 NOTCH3 NPM1 NRAS NT5C2 NTRK1 NTRK2 NTRK3 P2RY8PALB2 PARK2 PARP1 PARP2 PARP3 PAX5 PBRM1 PDCD1(PD-1)PDCD1LG2(PD-L2)PDGFRAPDGFRB PDK1 PIK3C2B PIK3C2G PIK3CA PIK3CB PIK3R1 PIM1 PMS2 POLD1 POLE PPARGPPP2R1A PPP2R2A PRDM1 PRKAR1A PRKCIPTCH1 PTEN PTPN11 PTPRO QKI RAC1 RAD21RAD51 RAD51B RAD51C RAD51D RAD52 RAD54L RAF1 RARA RB1 RBM10 REL RET RICTORRNF43 ROS1 RPTOR SDHA SDHB SDHC SDHD SETD2 SF3B1 SGK1 SMAD2 SMAD4 SMARCA4SMARCB1 SMO SNCAIP SOCS1 SOX2 SOX9 SPEN SPOP SRC STAG2 STAT3 STK11 SUFU SYKTBX3 TEK TET2 TGFBR2 TIPARP TNFAIP3 TNFRSF14 TP53 TSC1 TSC2 TYRO3 U2AF1 VEGFAVHL WHSC1(MMSET)WHSC1L1 WT1 XPO1 XRCC2 ZNF217 ZNF703。可能的癌症相关的基因组基因座的示例性实施例还包括以下基因的内含子区域、启动子区域和非编码RNA序列(例如,用于检测基因融合或重排):ALK BCL2 BCR BRAF BRCA1 BRCA2 CD74 EGFR ETV4 ETV5ETV6 EWSR1 EZR FGFR1 FGFR2 FGFR3 KIT KMT2A(MLL)MSH2 MYB MYC NOTCH2 NTRK1NTRK2 NUTM1 PDGFRA RAF1 RARA RET ROS1 RSPO2 SDC4 SLC34A2 TERC TERT TMPRSS2。
IV.富集一组癌症相关的基因的核酸或分离外显子基因组DNA用以全外显子组测序的方法
靶标富集方法允许人们在通过诸如杂交捕获或靶向PCR等富集方法进行测序之前从DNA样品中选择性捕获相关基因组区域。相关基因组区域可以是基因组基因座的任何子集,诸如上述癌症相关的基因组基因座,或基因组的所有外显子区域以制备用于全外显子组测序(WES)的样品。
通常,杂交捕获涉及设计能够通过互补与相关基因组DNA序列结合的寡核苷酸序列。寡核苷酸结合至固体表面或珠粒,这会允许将结合至寡核苷酸的基因组序列与未结合的基因组序列拆分开。然后可以洗掉未结合的基因组DNA序列,并且相关基因组序列保持结合在固体表面或珠粒以用于进一步处理和/或扩增。在一些实施例中,通过诸如基于阵列的杂交捕获方法或溶液中杂交捕获方法的杂交捕获来富集癌症相关的基因组基因座的组。
在一些实施例中,靶标富集可以是基于阵列的杂交捕获方法。在一些实施例中,基于阵列的杂交捕获方法可以涉及通过固定来自人类基因组的单链寡核苷酸序列来设计微阵列,以便并行排列固定至微阵列芯片或表面的相关区域。基因组DNA被剪切形成双链片段。片段经过末端修复以产生平端,并添加具有通用引发序列的接头。这些片段与微阵列芯片或表面上的寡核苷酸杂交。洗掉未杂交的片段并洗脱所需的片段。然后使用聚合酶链式反应扩增片段。用于基于阵列的杂交捕获的微阵列可以是Roche NimblegenTM阵列、或AgilentTM捕获阵列、或可用于靶序列的杂交捕获的类似的比较基因组杂交阵列。在一些实施例中,通过杂交捕获来富集癌症相关的基因组基因座的组。在其他实施例中,靶标富集策略可以是溶液内捕获策略。为了使用溶液内捕获来捕获相关基因组区域,合成了一池定制的寡核苷酸(探针),并使其在溶液中与片段化的基因组DNA样品杂交。探针(用珠粒标记)选择性地与相关基因组区域杂交,然后可以将珠粒(现在包括相关DNA片段)拆下来并清洗以清除多余的材料。然后去除珠粒,并且可以对基因组片段进行测序,从而允许对相关基因组区域(例如,外显子、内含子、启动子区域或其他基因调控区域、或非编码RNA序列)进行选择性DNA测序。
在溶液捕获中,与杂交捕获相反,针对相关区域的探针数量超过了所需模板的数量。最佳靶标尺寸约为3.5兆碱基,并且产生优异的靶区域的序列覆盖率。优选的方法取决于几个因素,包括:相关区域的碱基对的数目、针对靶标读段的要求、内部设备等。
或者,可以通过靶向扩增来富集癌症相关的基因组基因座。基因组基因座的靶向扩增可以通过多重PCR来实现,该多重PCR使用设计用于靶向特异性区域的引物来进行。用于进行多个所需靶标的多重PCR的方案在本文别处详细描述。
V.癌症
术语“癌症”和“癌性”是指或描述特征典型地在于不受调控的细胞生长的动物中的生理状况。“肿瘤”包含一种或多种癌性细胞。癌症有几种主要类型。癌瘤是在皮肤中或在沿内脏排列或覆盖内脏的组织中开始的癌症。肉瘤是在骨骼、软骨、脂肪、肌肉、血管或其它连接性或支持性组织中开始的癌症。白血病是在血液形成组织(诸如骨髓)中开始的癌症,且引起大量异常的血细胞产生和进入血液。淋巴瘤和多发性骨髓瘤是在免疫系统的细胞中开始的癌症。中枢神经系统癌症是在脑部和脊髓的组织中开始的癌症。
在一些实施例中,癌症是腹部或腹壁、肾上腺、肛门、阑尾、膀胱、骨、脑、乳腺、子宫颈、胸壁、结肠、隔膜、十二指肠、耳、子宫内膜、食管、输卵管、胆囊、胃食管结合部、头和颈、肾、喉、肝、肺、淋巴结、恶性积液、纵隔、鼻腔、网膜、卵巢、胰腺、胰胆管、腮腺、骨盆、阴茎、心包、腹膜、胸膜、前列腺、直肠、唾液腺、皮肤、小肠、软组织、脾、胃、甲状腺、舌、气管、输尿管、子宫、阴道、外阴或惠普尔切除部的癌症或肿瘤。
在一些实施例中,癌症是肺癌、乳腺癌、膀胱癌、或结直肠癌。
在一些实施例中,癌症包括急性淋巴细胞白血病;急性髓系白血病;肾上腺皮质癌;艾滋病相关癌症;艾滋病相关淋巴瘤;肛门癌;阑尾癌;星形细胞瘤;非典型畸胎瘤样/横纹肌样瘤;基底细胞癌;膀胱癌;脑干神经胶质瘤;脑肿瘤(包括脑干神经胶质瘤、中枢神经系统非典型畸胎瘤样/横纹肌样瘤、中枢神经系统胚胎肿瘤、星形细胞瘤、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、髓母细胞瘤、髓上皮瘤、中分化松果体实质肿瘤、幕上原始神经外胚层肿瘤、松果体母细胞瘤);乳腺癌;支气管肿瘤;伯基特淋巴瘤;原发部位不明的癌症;类癌肿瘤;原发部位不明的癌;中枢神经系统非典型畸胎瘤样/横纹肌样瘤;中枢神经系统胚胎肿瘤;宫颈癌;儿童癌症;脊索瘤;慢性淋巴细胞白血病;慢性骨髓性白血病;慢性骨髓增生性疾病;结肠癌;结直肠癌;颅咽管瘤;皮肤T细胞淋巴瘤;内分泌胰腺胰岛细胞肿瘤;子宫内膜癌;室管膜母细胞瘤;室管膜瘤;食管癌;感觉神经母细胞瘤;尤文肉瘤;颅外生殖细胞肿瘤;性腺外生殖细胞肿瘤;肝外胆管癌;胆囊癌;胃癌(gastric(stomach)cancer);胃肠道类肿瘤癌;胃肠道间质细胞瘤;胃肠道间质瘤(GIST);妊娠滋养细胞肿瘤;神经胶质瘤;毛细胞白血病;头颈癌;心脏癌;霍奇金淋巴瘤;下咽癌;眼内黑色素瘤;胰岛细胞肿瘤;卡波西肉瘤;肾癌;朗格汉斯细胞组织细胞增生症;喉头癌;唇癌;肝癌;恶性纤维组织细胞瘤骨癌;髓母细胞瘤;髓上皮瘤;黑色素瘤;默克尔细胞癌;默克尔细胞皮肤癌;间皮瘤;隐匿性原发性转移性鳞状颈癌;口腔癌;多发性内分泌肿瘤综合征;多发性骨髓瘤;多发性骨髓瘤/浆细胞赘生物;蕈状真菌病;骨髓增生异常综合征;骨髓增生性肿瘤;鼻腔癌;鼻咽癌;神经母细胞瘤;非霍奇金淋巴瘤;非黑色素瘤皮肤癌;非小细胞肺癌;口癌(oral cancer);口腔癌(oralcavity cancer);口咽癌;骨肉瘤;其他脑和脊髓肿瘤;卵巢癌;卵巢上皮性癌;卵巢生殖细胞肿瘤;卵巢低度恶性潜能肿瘤;胰腺癌;乳头状瘤病;鼻窦癌;甲状旁腺癌;盆腔癌;阴茎癌;鼻咽癌;中分化松果体实质肿瘤;松果体母细胞瘤;垂体瘤;浆细胞赘生物/多发性骨髓瘤;胸膜肺母细胞瘤;原发性中枢神经系统(CNS)淋巴瘤;原发性肝细胞肝癌;前列腺癌;直肠癌;肾癌;肾细胞(肾)癌;肾细胞癌;呼吸道癌;视网膜母细胞瘤;横纹肌肉瘤;唾液腺癌;塞扎里综合征;小细胞肺癌;小肠癌;软组织肉瘤;鳞状细胞癌;鳞状颈癌;胃癌(stomach(gastric)cancer);幕上原始神经外胚层肿瘤;T细胞淋巴瘤;睾丸癌;喉癌;胸腺癌;胸腺瘤;甲状腺癌;移行细胞癌;肾盂和输尿管移行细胞癌;滋养细胞肿瘤;输尿管癌;尿道癌;子宫癌;子宫肉瘤;阴道癌;外阴癌;华氏巨球蛋白血症;或肾母细胞瘤。
在另一实施例中,本文中提供用于在来自个体,诸如疑似患有癌症的个体的血液样品或其一部分中检测癌症的方法,所述方法包括使用本文中所提供的ctDNA SNV扩增/测序工作流程,通过确定ctDNA样品中存在单核苷酸变体来确定样品中存在单核苷酸变体。在样品中,在多个单核苷酸基因座处存在位于范围的下端的1、2、3、4、5、6、7、8、9、10、11、12、13、14或15种SNV和位于范围的上端的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、40或50种SNV指示存在癌症。
在另一实施例中,本文中提供用于检测个体的肿瘤中的克隆单核苷酸变体(SNV)的方法。所述方法包括进行例如本文中的工作实例中所提供的ctDNA扩增/测序工作流程,并基于所述系列的扩增子的多个拷贝的序列针对SNV基因座中的每一者确定变体等位基因频率。与多个单核苷酸变体基因座的其他单核苷酸变体相比较高的相对等位基因频率指示肿瘤中的克隆单核苷酸变体。变体等位基因频率在测序领域是众所周知的。
在某些实施例中,所述方法进一步包括确定治疗计划、疗法和/或向个体给予靶向一种或多种克隆单核苷酸变体的化合物。在某些实例中,亚克隆和/或其它克隆SNV不是疗法的靶标。特异性疗法和相关的突变在本说明书的其它章节中提供且是本领域中已知的。因此,在某些实例中,所述方法进一步包括向个体给予化合物,其中已知所述化合物对于治疗具有一种或多种确定的单核苷酸变体的癌症是特异性地有效的。
在这一实施例的某些方面中,变体等位基因频率大于0.25%、0.5%、0.75%、1.0%、5%或10%指示克隆单核苷酸变体。
在这一实施例的某些实例中,癌症是1a、1b或2a期的乳腺癌、膀胱癌或结直肠癌。在这一实施例的某些实例中,癌症是1a或1b期的乳腺癌、膀胱癌或结直肠癌。在该实施例的某些实例中,个体未经历手术。在该实施例的某些实例中,个体未经历活检。
在这一实施例的一些实例中,如果其它测试(诸如直接肿瘤测试)提出测试中的SNV是克隆SNV(对于可变等位基因频率大于至少四分之一、三分之一、二分之一或四分之三的其它确定的单核苷酸变体的任何测试中的SNV),则鉴别或进一步鉴别克隆SNV。
在一些实施例中,可以使用本文中的用于检测ctDNA中的SNV的方法代替来自肿瘤的DNA的直接分析。
在本文中所提供的任何方法实施例的某些实例中,在对来自个体的ctDNA进行靶向扩增之前,提供在来自个体的肿瘤中发现的SNV的数据。因此,在这些实施例中,对来自个体的一个或多个肿瘤样品进行SNV扩增/测序反应。在这类方法中,本文中提供的ctDNA SNV扩增/测序反应仍是有利的,因为该反应提供克隆和亚克隆突变的液体活检。此外,如本文中所提供,如果在来自个体的ctDNA样品中针对SNV确定了高VAF百分比,例如多于1%、2%、3%、4%、5%、6%、7%、8%、9%、10%的VAF,那么可以在患有癌症的个体中更明确地鉴别克隆突变。
在某一实施例中,本文中所提供的方法可以用于确定是否从来自患有癌症的个体的循环游离核酸中分离和分析ctDNA。首先,确定癌症是否是乳腺癌、膀胱癌或结直肠癌。如果癌症是乳腺癌、膀胱癌或结直肠癌,那么从个体分离循环游离核酸。在一些实例中,该方法进一步包括确定癌症的分期。
在一些方法中,本文中提供本发明的组合物和/或固体负载物。一种包括循环肿瘤核酸片段的组合物,所述循环肿瘤核酸片段包括通用衔接子,其中循环肿瘤核酸是来源于乳腺癌、膀胱癌或结直肠癌。
在一些实施例中,本文中提供本发明的组合物,该组合物包括循环肿瘤核酸片段,该循环肿瘤核酸片段包括通用衔接子的,其中循环肿瘤核酸是来源于患有癌症的个体的血液样品或其一部分。这些方法典型地包括形成包括通用衔接子的ctDNA片段。此外,这类方法典型地包括形成固体负载物,尤其是用于高通量测序的固体负载物,该固体负载物包括核酸的多个克隆群体,其中这些克隆群体包括由循环游离核酸的样品产生的扩增子,其中ctDNA。在基于本文中所提供的出人意料的结果的说明性实施例中,ctDNA来源于癌症。
类似地,作为本发明的实施例,本文中提供包括核酸的多个克隆群体的固体负载物,其中克隆群体包括由循环游离核酸的样品产生的核酸片段,该循环游离核酸来自患有癌症的个体的血液样品或其一部分。
在某些实施例中,不同克隆群体中的核酸片段包括相同的通用衔接子。这类组合物典型地在本发明的方法中的高通量测序反应期间形成。
核酸的克隆群体可以来源于来自两名或更多名个体的样品的集合的核酸片段。在这些实施例中,核酸片段包括对应于样品的集合中的样品的一系列分子条形码中的一个。
VI.分析方法SNV 1和2
详细的分析方法在本文中以本文中的分析章节中的SNV方法1和SNV方法2的形式提供。本文中所提供的任何方法可以进一步包括本文中所提供的分析步骤。因此,在某些实例中,用于确定样品中是否存在单核苷酸变体的方法包括针对在单核苷酸变异基因座的集合中的每一个处进行的每一次等位基因确定鉴别置信度值,这可以至少部分地基于针对基因座的读段深度。置信度极限可以设置成至少75%、80%、85%、90%、95%、96%、96%、98%或99%。对于不同类型的突变,可以将置信度极限设置成不同的水平。
该方法可以在针对单核苷酸变异基因座的集合的读段深度为至少5、10、15、20、25、50、100、150、200、250、500、1,000、10,000、25,000、50,000、100,000、250,000、500,000或1百万的情况下进行。
在某些实施例中,本文中的任何实施例的方法包括确定效率和/或针对单核苷酸变异基因座的多重扩增反应中的每个扩增反应确定每个循环的误差率。然后,效率和误差率可以用于确定样品中是否存在单一变体基因座的集合处的单核苷酸变体。在某些实施例中,还可以包括分析方法中所提供的SNV方法2中所提供的更详细的分析步骤。
在本文中的任何方法的说明性实施例中,单核苷酸变异基因座的集合包括在针对癌症的TCGA和COSMIC数据集中鉴别的所有单核苷酸变异基因座。
在本文中的任何方法的某些实施例中,单核苷酸变体基因座的集合包括位于范围的下端的2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、250、500、1000、2500、5000或10,000种已知与癌症相关的单核苷酸变异基因座和位于范围的上端的5、6、7、8、9、10、15、20、25、30、40、50、75、100、250、500、1000、2500、5000、10,000、20,000和25,000种。
VII.PCR方法
在本文中的包括ctDNA SNV扩增/测序工作流程的用于检测SNV的任何方法中,可以使用针对多重PCR的改进的扩增参数。例如,对于引物的集合中的至少10%、20%、25%、30%、40%、50%、06%、70%、75%、80%、90%、95%或100%的引物,其中扩增反应是PCR反应且退火温度在比解链温度高1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃或10℃(位于范围的下端)与2°、3°、4°、5°、6°、7°、8°、9°、10°、11°、12°、13°、14°或15°(位于范围的上端)之间。
在某些实施例中,其中扩增反应是PCR反应,该PCR反应中的退火步骤的长度是在位于范围的下端的10、15、20、30、45和60分钟与位于范围的上端的15、20、30、45、60、120、180或240分钟之间。在某些实施例中,扩增(诸如PCR反应)中的引物浓度在1与10nM之间。此外,在示例性实施例中,引物的集合中的引物设计成最大限度地减少引物二聚体形成。
因此,在本文中的包括扩增步骤的任何方法的实例中,扩增反应是PCR反应,退火温度比引物的集合中至少90%的引物的解链温度高1℃至10℃,PCR反应中的退火步骤的长度是15分钟至60分钟,扩增反应中的引物浓度是1nM至10nM,并且引物的集合中的引物设计成最大限度地减少引物二聚体形成。在本实例的另一个方面中,在限制性引物条件下进行多重扩增反应。
VIII.在诊断癌症中的用途
在另一实施例中,本文中提供用于支持个体(诸如疑似患有癌症的个体)的通过来自个体的血液样品或其一部分进行的癌症诊断的方法,所述方法包括进行如本文中所提供的DNA扩增/测序工作流程,以确定多个单核苷酸变体基因座中是否存在一种或多种单核苷酸变体。在这一实施例中,以下元素、陈述、指南或规则适用:不存在单核苷酸变体,则支持对1a、1b或2a期的腺癌的诊断;存在单核苷酸变体,则支持对鳞状细胞癌瘤或2b或3a期的腺癌的诊断;和/或存在十种或更多种单核苷酸变体,则支持对鳞状细胞癌瘤或2b或3期的腺癌的诊断。
这些结果将使用来自个体的肺ADC和SCC样品的ctDNA SNV扩增/测序工作流程的分析鉴别为用于鉴别在ADC肿瘤、尤其对于2b和3a期ADC肿瘤以及尤其是任何阶段的SCC肿瘤中发现的SNV的有价值的方法。
IX.在指导治疗方案中的用途
在某些实施例中,本文中的用于检测SNV的方法可以用于指导治疗方案。靶向与ADC和SCC相关的特异性突变的疗法是可用的且正在研发中(Nature Review Cancer.14:535-551(2014))。例如,在L858R或T790M处检测到EGFR突变可以为选择疗法提供信息。埃罗替尼、吉非替尼、阿法替尼、AZK9291、CO-1686和HM61713是当前在美国或在临床试验中被批准的疗法,该疗法靶向特异性EGFR突变。在另一实例中,KRAS中的G12D、G12C或G12V突变可以用于指导对个体使用司美替尼加多烯紫杉醇的组合的疗法。作为另一实例,BRAF中V600E的突变可以用于指导对受试者使用维罗非尼、达拉非尼和曲美替尼的治疗。
X.文库制备
在某些实施例中,本发明的方法典型地包括从样品产生和扩增核酸文库(即,文库制备)的步骤。在文库制备步骤期间,来自样品的核酸可以具有附接的连接(ligation)衔接子,通常称为文库标签或连接衔接子标签(LT),其中连接衔接子含有通用引发序列,接着是通用扩增。在一个实施例中,这可以使用被设计成在片段化之后创建测序文库的标准方案来完成。在一个实施例中,可以对DNA样品进行平端化,并且然后可以在3′端添加A。可以添加和连接具有T突出端的Y接头。在一些实施例中,可以使用除A或T突出端以外的其它粘性端。在一些实施例中,可以添加其它接头,例如环形连接接头。在一些实施例中,接头可以具有设计成用于PCR扩增的标签。
XI.用于监测或检测患者的癌症的DNA扩增/测序工作流程。
本文中所提供的许多实施例包括检测ctDNA、cfDNA或细胞DNA样品中的癌症特异性突变。在说明性实施例中,这类方法包括扩增步骤和测序步骤(在本文中有时称为“ctDNA扩增/测序工作流程”)。在说明性实例中,DNA扩增/测序工作流程可以包括通过对核酸进行多重扩增反应来产生扩增子的集合,所述核酸是从来自个体(诸如疑似患有癌症(例如乳腺癌、膀胱癌或结直肠癌)的个体)的血液样品或其一部分中分离的,其中扩增子的集合中的每个扩增子跨越癌症相关的基因组基因座的集合中的至少一个癌症相关的基因组基因座,诸如已知与癌症相关的SNV基因座;和确定扩增子的集合中的每个扩增子的至少一个区段的序列,其中所述区段包括癌症相关的基因组基因座。在一些实施例中,癌症相关的基因组基因座包括单核苷酸变化(SNV)、拷贝数变化(CNV)、插入缺失、重排的基因,或外显子、内含子、基因调控序列或非编码RNA序列中的变化。更详细地,示例性的DNA扩增/测序工作流程可以包括通过组合以下来形成扩增反应混合物:聚合酶、核苷酸三磷酸酯、来自从样品产生的核酸文库的核酸片段、以及引物的集合(所述引物各自在单核苷酸变体基因座的有效距离内结合)或引物对的集合(所述引物对各自跨越包括癌症相关的基因组基因座的有效区域)。然后,使扩增反应混合物经历扩增条件以产生扩增子的集合,该扩增子的集合包括癌症相关的基因组基因座的集合中的至少一个癌症相关的基因组基因座;并且确定扩增子的集合中的每个扩增子的至少一个区段的序列,其中该区段包括癌症相关的基因座。
引物的结合的有效距离可以在癌症相关的基因组基因座的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、75、100、125或150个碱基对内。一对引物跨越的有效范围典型地包括癌症相关的基因组基因座,并且典型地是160个或更少的碱基对,并且可以是150、140、130、125、100、75、50或25个或更少的碱基对。在其它实施例中,一对引物跨越的有效范围是来自癌症相关的基因组基因座的位于范围的下端的20、25、30、40、50、60、70、75、100、110、120、125、130、140或150个核苷酸,和位于范围的上端的25、30、40、50、60、70、75、100、110、120、125、130、140或150、160、170、175或200个。
关于可以用于ctDNA扩增/测序工作流程中以检测癌症相关的基因组基因座,从而用于本发明的方法中的扩增方法的进一步的细节在本说明书的其它章节中提供。
XII.SNV识别分析
在进行本文中所提供的方法期间,产生针对由并排的多重PCR创建的扩增子的核酸测序数据。可以使用算法设计工具,所述算法设计工具可以用于和/或被调适成用于分析这类数据以在某些置信度极限内确定已知与癌症发展、再次发作、转移、治疗反应或预后相关的靶基因中是否存在癌症相关的基因组基因座(诸如单核苷酸变体(SNV))。
可以使用内部工具对测序读段进行去多重化,并且使用成对合并读段,使用巴罗斯-惠勒比对软件(Burrows-Wheeler alignment software,Bwa mem功能(BWA,巴罗斯-惠勒比对软件(参见Li H.和Durbin R.(2010)Fast and accurate long-read alignmentwith Burrows-Wheeler Transform.Bioinformatics,Epub.[PMID:20080505])以单端模式映射到hg19基因组。可以通过分析全部读段、映射的读段的数目、中靶的映射的读段的数目和计数的读段数目来进行扩增统计QC。
在某些实施例中,用于由核酸测序数据检测来检测SNV的任何分析方法都可以与本发明的包括检测SNV或确定是否存在SNV的步骤的方法本发明的方法一起使用。在某些说明性实施例中,使用利用以下SNV方法1的本发明的方法。在其它的甚至更具说明性的实施例中,本发明的包括检测SNV或确定SNV基因座处是否存在SNV的步骤的方法利用以下SNV方法2。
SNV方法1:在本实施例中,使用正常血浆样品来构建背景误差模型,该正常血浆样品在同一测序运行中测序以解决运行特异性假象。在某些实施例中,在同一测序运行中分析5、10、15、20、25、30、40、50、100、150、200、250或超过250个正常血浆样品。在某些说明性实施例中,在同一测序运行中分析20、25、40或50个正常血浆样品。去除具有大于截止值的正常中值变体等位基因频率的噪声位置。例如,在某些实施例中,此截止值是>0.1%、0.2%、0.25%、0.5%、1%、2%、5%或10%。在某些说明性实施例中,去除具有大于0.5%的正常中值变体等位基因频率的噪声位置。从模型迭代地去除异常值样品以解决噪声和污染。在某些实施例中,从数据分析去除Z评分大于5、6、7、8、9或10的样品。针对每个基因组基因座的每个碱基取代,计算误差的读段深度加权平均值和标准差。例如,可以将针对背景误差模型具有至少5个变体读段且Z评分是10的肿瘤或细胞游离血浆样品的位置识别为候选突变。
SNV方法2:对于本实施例,使用血浆ctDNA数据确定单核苷酸变体(SNV)。PCR方法模型化为随机方法,使用训练集来估算参数且产生用于单独测试集的最终SNV识别。确定横跨多个PCR循环的误差的传播,并且计算背景误差的平均值和方差,并且在说明性实施例中,区分背景误差与真实突变。
针对每个碱基估算以下参数:
p=效率(在每个循环中复制每个读段的概率)
pe=针对突变类型e的每个循环的误差率(e型误差出现的概率)
X0=初始分子数目
因为在PCR方法的过程中复制读段,所以存在更多的误差。因此,由与原始读段的拆分程度来确定读段的误差分布。如果一个读段在其产生之前已经历k次复制,那么我们将其称为第k代。
让我们针对每个碱基定义以下变量:
Xij=在PCR循环j中产生的第i代读段的数目
Yij=在循环j结束时第i代读段的总数
Xij e=在PCR循环j中产生的具有突变e的第i代读段的数目
此外,除正常分子X0以外,如果在PCR方法开始时存在另外的具有突变e的feX0分子(因此,fe/(1+fe)将是初始混合物中的突变分子的分数)。
鉴于在循环j-1中的第i-1代读段的总数,在样品尺寸是Yi-1,j-1且概率参数是p的情况下,循环j中产生的第i代读段的数目具有二项分布。因此,E(Xij,|Yi-1,j-1,p)=pYi-1,j-1且Var(Xij,|Yi-1,j-1,p)=p(1-p)Yi-1,j-1
我们还有因此,通过递归、模拟或类似方法,我们可以确定E(Xij,)。类似地,我们可以使用p的分布确定Var(Xij)=E(Var(Xij,|p))+Var(E(Xij,|p))。
最终,E(Xij e|Yi-1,j-1,pe)=pe Yi-1,j-1且Var(Xij e|Yi-1,j-1,p)=pe(1-pe)Yi-1,j-1,且我们可以使用这些计算E(Xij e)和Var(Xij e)。
在某些实施例中,如下进行SNV方法2:
a)使用训练数据集估算PCR效率和每个循环误差率;
b)使用在步骤(a)中估算的效率分布,针对每个碱基处的测试数据集估算起始分子的数目;
c)如果需要,则使用在步骤(b)中估计的分子的起始数目更新针对测试数据集的效率的估算;
d)使用测试集数据以及在步骤(a)、(b)和(c)中估算的参数,针对分子总数、背景误差分子和真实突变分子估算平均值和方差(针对由初始百分比的真实突变分子组成的搜索空间);
e)针对全部分子中的全部误差分子(背景误差和真实突变)的数目拟合分布,并且针对搜索空间中的每个真实突变百分比计算似然性;和
f)确定最有可能的真实突变百分比并使用来自步骤(e)的数据计算置信度。
可以使用置信度截止值鉴定SNV基因座处的SNV。例如,可以使用90%、95%、96%、97%、98%或99%置信度截止值识别SNV。
示例性的SNV方法2算法
通过使用训练集估算每个循环的效率和误差率来开始算法。令n表示PCR循环的总数。
可以由(1+pb)n X0估计每个碱基b处的读段Rb的数目,其中pb是碱基b处的效率。然后,可以使用(Rb/X0)1/n来估计1+pb.。然后,我们可以确定所有训练样品的pb的平均值和标准方差,以针对每个碱基估算概率分布(如正交、β或类似分布)的参数。
类似地,可以使用每个碱基b处的误差e读段Rb e的数目来估算pe。在确定所有训练样品的误差率的平均值和标准差之后,估计其概率分布(如正交、β或类似分布),使用这类平均值和标准差值来估算该概率分布的参数。
接着,对于测试数据,将每个碱基处的初始起始拷贝估算为其中f(.)是来自训练集的估算的分布。
其中f(.)使来自训练集的估算的分布。
这样,我们估算了将用于随机方法中的参数。然后,通过使用这些估算值,可以估算在每个循环中创建的分子的平均值和方差(应注意,对于正常分子、误差分子和突变分子,独立地进行该估算)。
最终,通过使用概率方法(如最大似然性或类似方法),可以确定最佳地拟合误差、突变和正常分子的分布的最佳fe值。更具体地说,在最终读段中,针对各种fe值估算误差分子与全部分子的所预期的比率,并且针对这些值中的每一者确定数据的似然性,并且然后选择具有最高似然性的值。
XIII.引物设计/文库制备
引物尾部可以改进来自通用标记文库的片段化DNA的检测。如果文库标签和引物尾部含有同源序列,则杂交可以得到改进(例如,解链温度(Tm)降低),并且如果仅一部分引物靶序列在样品DNA片段中,则可以延长引物。在一些实施例中,可以使用13个或更多的靶标特异性碱基对。在一些实施例中,可以使用10至12个靶标特异性碱基对。在一些实施例中,可以使用8至9个靶标特异性碱基对。在一些实施例中,可以使用6至7个靶标特异性碱基对。
在一个实施例中,通过使接头连接到样品中的DNA片段的末端、或由从样品中分离的DNA产生的DNA片段的末端来由以上样品产生文库。然后,可以使用PCR来扩增片段,例如根据以下示例性方案:
95℃,2分钟;15x[95℃,20秒,55℃,20秒,68℃,20秒],68℃,2分钟,保持在4℃下。
本领域中已知许多用于产生核酸文库的试剂盒和方法,该核酸文库包括用于后续扩增(例如,克隆扩增)和用于子序列测序的通用引物结合位点。为了帮助促进衔接子的连接,文库制备和扩增可以包括末端修复和腺苷酸化(即,A-加尾)。尤其适用于由小型核酸片段(尤其是循环游离DNA)制备文库的试剂盒可以适用于实践本文中所提供的方法。例如,可以从Bioo Scientific获得的NEXTflex Cell Free试剂盒或Natera Library Prep试剂盒(可以从Natera,Inc.San Carlos,CA获得)。然而,这类试剂盒将典型地被修改成包括被定制成用于本文中所提供的方法的扩增和测序步骤的接头。可以使用可商购的试剂盒,诸如AGILENT SURESELECT试剂盒(Agilent,CA)中的连接试剂盒来进行接头的连接。
然后,扩增由从样品(尤其是用于本发明的方法的循环游离DNA样品)中分离的DNA产生的核酸文库的靶区域。使用一系列引物或引物对进行这种扩增,该一系列引物或引物对可以包括位于范围的下端的5、10、15、20、25、50、100、125、150、250、500、1000、2500、5000、10,000、20,000、25,000或50,000个至位于范围的上端的15、20、25、50、100、125、150、250、500、1000、2500、5000、10,000、20,000、25,000、50,000、60,000、75,000或100,000个之间的引物,这些引物各自结合于一系列引物结合位点中的一个。
可以使用Primer3产生引物设计(Untergrasser A,Cutcutache I,Koressaar T,Ye J,Faircloth BC,Remm M,Rozen SG(2012)“Primer3-new capabilities andinterfaces.”Nucleic Acids Research,40(15):e115和Koressaar T,Remm M(2007)“Enhancements and modifications of primer design program Primer3.”Bioinformatics23(10):1289-91),可以从primer3.sourceforge.net获得源代码)。可以由BLAST评估引物特异性且添加到现有引物设计流水线准则中:
可以使用来自ncbi-blast-2.2.29+程序包的BLASTn程序确定引物特异性。任务选项“blastn-short”可以用于映射针对hg19人类基因组的引物。如果引物对于基因组具有小于100个命中,并且顶部命中是基因组的靶标互补性引物结合区域且比其它命中高至少两分(评分由BLASTn程序定义),则引物设计可以确定为“特异性”。可以进行这一过程以具有针对基因组的独特命中且在整个基因组中不具有许多其它命中。
可以使用BED文件和用于验证的覆盖图,在IGV(James T.Robinson,HelgaThorvaldsdóttir,Wendy Winckler,Mitchell Guttman,Eric S.Lander,Gad Getz,JillP.Mesirov.Integrative Genomics Viewer.Nature Biotechnology 29,24–26(2011))和UCSC浏览器(Kent WJ,Sugnet CW,Furey TS,Roskin KM,Pringle TH,Zahler AM,HausslerD.The human genome browser at UCSC.Genome Res.2002年6月;12(6):996-1006)中显示最终所选择的引物。
XIV.PCR反应混合物
在某些实施例中,本发明的方法包括形成扩增反应混合物。典型地通过组合以下各项来形成反应混合物:聚合酶、核苷酸三磷酸酯、来自从样品产生的核酸文库的核酸片段、对含有SNV的靶区域具有特异性的正向和反向引物的集合。在说明性实施例中,本文中所提供的反应混合物本身形成本发明的独立方面。
适用于本发明的扩增反应混合物包括本领域中已知用于核酸扩增、尤其用于PCR扩增的组分。例如,反应混合物典型地包括核苷酸三磷酸酯、聚合酶和镁。适用于本发明的聚合酶可以包括可以用于扩增反应中的任何聚合酶,尤其是适用于PCR反应中的那些。在某些实施例中,热起始Taq聚合酶是尤其适用的。适用于实践本文中所提供的方法的扩增反应混合物,诸如AmpliTaq Gold主混合物(Life Technologies,Carlsbad,CA),是可以商购的。
用于PCR的扩增(例如,温度循环)条件是本领域中众所周知的。本文中所提供的方法可以包括任何引起靶核酸(诸如来自文库的靶核酸)扩增的PCR循环条件。非限制性的示例性循环条件在本文中的实例部分中提供。
在进行PCR时,存在许多可能的工作流程;本文中提供本文中所公开的方法中的一些典型工作流程。本文中概述的步骤并不打算排除其它可能的步骤,也不暗示本文中所描述的任何步骤是所述方法恰当地起作用所需的。大量参数变化或其它修改在文献中是已知的,并且可以在不影响本发明的本质的情况下进行。
在本文中所提供的方法的某些实施例中,确定了扩增子(诸如外部引物靶扩增子)的至少一部分序列,并且在说明性实例中,确定了扩增子的全部序列。用于确定扩增子的序列的方法是本领域中已知的。本领域中已知的任何测序方法(例如桑格测序(Sangersequencing))都可以用于这类序列确定。在说明性实施例中,可以使用高通量下一代测序技术(在本文中也称为大规模平行测序技术)对由本文中所提供的方法产生的扩增子进行测序,诸如(但不限于)MYSEQ(ILLUMINA)、HISEQ(ILLUMINA)、ION TORRENT(LIFETECHNOLOGIES)、GENOME ANALYZER ILX(ILLUMINA)\GS FLEX+(ROCHE 454)中使用的测序技术。
高通量基因测序器允许使用条形码(即,用独特核酸序列标记的样品),以便鉴定来自个体的特异性样品,由此允许在DNA测序器的单次运行中同时分析多个样品。对文库制备(或其它相关的核制备)中的基因组的既定区域进行测序的次数(读段的数目)将与相关基因组中序列的拷贝数目(或表达量,在含有cDNA的制备的情况下)成比例。在这类定量确定中,可以考虑扩增效率的偏差。
在某些实施例中,本发明的方法包括形成扩增反应混合物。典型地通过组合以下各项来形成反应混合物:聚合酶、核苷酸三磷酸酯、来自从样品产生的核酸文库的核酸片段、一系列正向靶标特异性外部引物和第一链反向外部通用引物。另一说明性实施例是一种反应混合物,该反应混合物包括代替正向靶标特异性外部引物的正向靶标特异性内部引物,和代替来自核酸文库的核酸片段的来自使用外部引物的第一PCR反应的扩增子。在说明性实施例中,本文中所提供的反应混合物本身形成本发明的独立方面。在说明性实施例中,反应混合物是PCR反应混合物。PCR反应混合物典型地包括镁。
在一些实施例中,反应混合物包括乙二胺四乙酸(EDTA)、镁、四甲基氯化铵(TMAC)或其任何组合。在一些实施例中,TMAC的浓度在20与70mM之间且包括端值。不希望受任何特别的理论的约束,相信TMAC结合于DNA、使双螺旋稳定、提高引物特异性和/或使不同引物的解链温度一致。在一些实施例中,TMAC提高了针对不同靶标的扩增产物的量的均匀性。在一些实施例中,镁(诸如来自氯化镁的镁)的浓度在1与8mM之间。
用于大量靶标的多重PCR的大量引物可以螯合大量镁(引物中2份磷酸盐螯合1份镁)。例如,如果使用足够的引物使得来自引物的磷酸盐的浓度是约9mM,则引物可以使有效镁浓度降低约4.5mM。在一些实施例中,使用EDTA降低可以用作针对聚合酶的辅因子的镁的量,因为高浓度的镁可以引起PCR误差,诸如非靶基因座的扩增。在一些实施例中,EDTA的浓度使可用的镁的量降低至1与5mM之间(诸如3与5mM之间)。
在一些实施例中,pH在7.5与8.5之间,诸如在7.5与8之间、在8与8.3之间、或在8.3与8.5之间,且包括端值。在一些实施例中,Tris是以例如10与100mM之间,诸如10与25mM之间、25与50mM之间、50与75mM之间或25与75mM之间且包括端值的浓度使用。在一些实施例中,Tris的这些浓度中的任一种是在7.5与8.5之间的pH下使用。在一些实施例中,使用KCl与(NH4)2SO4的组合,诸如50与150mM之间的KCl和10与90mM之间的(NH4)2SO4,且包括端值。在一些实施例中,KCl的浓度在0与30mM之间、在50与100mM之间、或在100与150mM之间且包括端值。在一些实施例中,(NH4)2SO4的浓度是在10与50mM、50与90mM、10与20mM、20与40mM、40与60mM、或60与80mM之间的(NH4)2SO4,且包括端值。在一些实施例中,铵[NH4 +]的浓度在0与160mM之间,诸如在0至50、50至100、或100至160mM之间,且包括端值。在一些实施例中,钾和铵浓度的总和([K+]+[NH4 +])在0与160mM之间,诸如在0至25、25至50、50至150、50至75、75至100、100至125或125至160mM之间,且包括端值。具有[K+]+[NH4 +]=120mM的示例性缓冲液是20mM KCl和50mM(NH4)2SO4。在一些实施例中,缓冲液包括25至75mM Tris(pH 7.2至8)、0至50mM KCl、10至80mM硫酸铵和3至6mM镁,且包括端值。在一些实施例中,缓冲液包括25至75mM Tris(pH 7至8.5)、3至6mM MgCl2、10至50mM KCl、和20至80mM(NH4)2SO4且包括端值。在一些实施例中,使用100至200单位/mL的聚合酶。在一些实施例中,以20ul最终体积,在pH8.1下使用100mM KCl、50mM(NH4)2SO4、3mM MgCl2、7.5nM的文库中的每种引物、50mM TMAC和7ul的DNA模板。
在一些实施例中,使用拥挤试剂,诸如聚乙二醇(PEG,诸如PEG 8,000)或甘油。在一些实施例中,PEG(诸如PEG 8,000)的量在0.1%至20%之间,诸如在0.5%至15%、1%至10%、2%至8%或4%至8%之间,且包括端值。在一些实施例中,甘油的量在0.1%至20%之间,诸如在0.5%至15%、1%至10%、2%至8%或4%至8%之间,且包括端值。在一些实施例中,拥挤试剂允许使用低聚合酶浓度和/或较短退火时间。在一些实施例中,拥挤试剂改进DOR的均匀性和/或减少脱扣(未检测到的等位基因)。聚合酶在一些实施例中,使用具有矫正活性的聚合酶、不具有(或具有可忽略的)矫正活性的聚合酶、或具有矫正活性的聚合酶与不具有(或具有可忽略的)矫正活性的聚合酶的混合物。在一些实施例中,使用热起始聚合酶、非热起始聚合酶、或热起始聚合酶与非热起始聚合酶的混合物。在一些实施例中,使用HotStarTaq DNA聚合酶(参见例如QIAGEN目录号203203)。在一些实施例中,使用AmpliTaqDNA聚合酶。在一些实施例中,使用PrimeSTAR GXL DNA聚合酶(TakaraClontech,Mountain View,CA),它是一种高保真度聚合酶,在反应混合物中存在过量模板时和在扩增长产物时提供有效的PCR扩增。在一些实施例中,使用KAPA Taq DNA聚合酶或KAPA Taq HotStart DNA聚合酶;它们是基于嗜热性细菌水生栖热菌(Thermus aquaticus)的单子单元、野生型Taq DNA聚合酶。KAPA Taq和KAPA Taq HotStart DNA聚合酶具有5′-3′聚合酶和5′-3′核酸外切酶活性,但不具有3′至5′核酸外切酶(矫正)活性(参见例如KAPABIOSYSTEMS目录号BK1000)。在一些实施例中,使用Pfu DNA聚合酶;它是一种来自极端嗜热性古菌激烈火球菌(Pyrococcus furiosus)的高热稳定性DNA聚合酶。该酶催化核苷酸以5′→3′方向模板依赖性聚合成双螺旋DNA。Pfu DNA聚合酶还呈现3′→5′核酸外切酶(矫正)活性,这使得聚合酶能够校正核苷酸并入误差。它不具有5'→3'核酸外切酶活性(参见例如Thermo Scientific目录号EP0501)。在一些实施例中,使用Klentaq1;它是Taq DNA聚合酶的Klenow片段类似物,它不具有核酸外切酶或核酸内切酶活性(参见例如DNA POLYMERASETECHNOLOGY,Inc,St.Louis,Missouri,目录号100)。在一些实施例中,聚合酶是PHUSIONDNA聚合酶,诸如PHUSION High Fidelity DNA聚合酶(M0530S,New England BioLabs,Inc.)或PHUSION Hot Start Flex DNA聚合酶(M0535S,New England BioLabs,Inc.)。在一些实施例中,聚合酶是/>DNA聚合酶,诸如/>High-Fidelity DNA聚合酶(M0491S,NewEngland BioLabs,Inc.)或/>Hot Start High-Fidelity DNA聚合酶(M0493S,NewEngland BioLabs,Inc.)。在一些实施例中,聚合酶是T4 DNA聚合酶(M0203S,New EnglandBioLabs,Inc.)。
在一些实施例中,使用5与600个单位/mL(每1mL反应体积的单位数)之间的聚合酶,诸如在5至100、100至200、200至300、300至400、400至500、或500至600单位/毫升之间,且包括端值。
XV.PCR方法
在一些实施例中,使用热起始PCR以减少或防止PCR热循环之前的聚合。示例性热起始PCR方法包括初始抑制DNA聚合酶、或物理拆分反应组分反应直到反应混合物达到较高温度。在一些实施例中,使用缓慢释放的镁。DNA聚合酶需要镁离子以具有活性,因此通过结合于化学化合物来从反应中以化学方式分离镁,并且仅在高温下将该镁释放到溶液中。在一些实施例中,使用抑制剂的非共价结合。在这种方法中,肽、抗体或适配体在低温下非共价结合于酶并抑制其活性。在升高的温度下培育之后,释放抑制剂,并且开始反应。在一些实施例中,使用低温敏感性Taq聚合酶,诸如在低温下几乎无活性的经修饰的DNA聚合酶。在一些实施例中,使用化学修饰。在这种方法中,分子共价结合于DNA聚合酶的活性位点中的胺基酸的侧链。通过在升高的温度下培育反应混合物来从酶释放分子。分子被释放之后,酶就会被活化。
在一些实施例中,针对模板核酸(诸如RNA或DNA样品)的量在20与5,000ng之间,诸如在20至200、200至400、400至600、600至1,000、1,000至1,500、或2,000至3,000ng之间,且包括端值。
在一些实施例中,使用QIAGEN Multiplex PCR试剂盒(QIAGEN目录号206143)。对于100x 50μl多重PCR反应,试剂盒包括2x QIAGEN多重PCR主混合物(提供3mM MgCl2,3x0.85ml的最终浓度)、5x Q-Solution(1x 2.0ml)和不含RNA酶的水(2x 1.7ml)。QIAGEN多重PCR主混合物(MM)含有KCl和(NH4)2SO4的组合以及PCR添加剂、因子MP,它提高模板处的引物的局部浓度。因子MP使特异性结合的引物稳定,允许由HotStarTaq DNA聚合酶进行的有效引物延伸。HotStarTaq DNA聚合酶是Taq DNA聚合酶的经修饰的形式且在环境温度下不具有聚合酶活性。在一些实施例中,通过在95℃下进行15分钟培育来活化HotStarTaq DNA聚合酶,该培育可以并入任何现有的热循环器程序中。
在一些实施例中,以20ul的最终体积使用1x QIAGEN MM的最终浓度(建议浓度)、7.5nM的文库中的每种引物、50mM TMAC和7ul DNA模板。在一些实施例中,PCR热循环条件包括在95℃下保持10分钟(热起始);20个在96℃下保持30秒的循环;在65℃下保持15分钟;和在72℃下保持30秒;接着在72℃下保持2分钟(最终延伸);并且然后保持在4℃下。
在一些实施例中,以20ul的总体积使用2x QIAGEN MM的最终浓度(建议浓度的二倍)、2nM的文库中的每种引物、70mM TMAC和7ul DNA模板。在一些实施例中,还包括最多4mMEDTA。在一些实施例中,PCR热循环条件包括在95℃下保持10分钟(热起始);25个在96℃下保持30秒的循环;在65℃下保持20、25、30、45、60、120或180分钟;和任选地在72℃下保持30秒);接着在72℃下保持2分钟(最终延伸);并且然后保持在4℃下。
另一示例性的条件的集合包括半嵌套PCR方法。第一PCR反应使用20ul的反应体积以及2x QIAGEN MM的最终浓度、1.875nM的文库中的每种引物(外部正向和反向引物)和DNA模板。热循环参数包括在95℃下保持10分钟;25个在96℃下保持30秒的循环、在65℃下保持1分钟、在58℃下保持6分钟、在60℃下保持8分钟、在65℃下保持4分钟和在72℃下保持30秒;和然后在72℃下保持2分钟,并且然后保持在4℃下。接着,使用2ul所得产物(以1:200稀释)作为第二PCR反应的输入物。这一反应使用10ul的反应体积以及1x QIAGEN MM的最终浓度、20nM的每种内部正向引物和1uM的反向引物标签。热循环参数包括在95℃下保持10分钟;15个在95℃下保持30秒的循环、在65℃下保持1分钟、在60℃下保持5分钟、在65℃下保持5分钟和在72℃下保持30秒;并且然后在72℃下保持2分钟,并且然后保持在4℃下。如本文中所讨论,退火温度可以任选地高于一些或全部引物的解链温度(参见2015年10月20日提交的美国专利申请第14/918,544号,该美国专利申请通过引用的方式全文并入本文)。
解链温度(Tm)是满足以下条件的温度:寡核苷酸(诸如引物)和其完美互补物的二分之一(50%)的DNA双螺旋解离且变成单链DNA。退火温度(TA)是用于运行PCR方案的温度。对于先前的方法,典型地比所使用的引物的最低Tm低5℃,因此形成将近所有有可能的双螺旋(使得基本上所有引物分子结合模板核酸)。尽管这是高效的,但在较低温度下一定会发生更多的非特异性反应。具有过低的TA的一个结果是引物可能退火到真实靶标以外的其他序列,因为可以容许内部单碱基失配或部分退火。在本发明的一些实施例中,TA高于Tm,其中在既定时刻,仅一小部分靶标具有退火的引物(诸如仅约1-5%)。如果这些得到延伸,则它们将从退火和解离引物和靶标的平衡中去除(因为延伸使Tm很快升高至超过70℃),且新的约1%-5%的靶标具有引物。因此,通过使反应具有长退火时间,可以实现每个循环复制约100%的靶标。
在各种实施例中,退火温度比至少25%、50%、60%、70%、75%、80%、90%、95%或100%的非一致引物的解链温度(诸如凭经验测量或计算的Tm)高在1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃、13℃与位于范围上端的2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃、13℃、或15℃之间。在各种实施例中,退火温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的解链温度(诸如凭经验测量或计算的Tm)高在1℃与15℃(诸如在1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃或12℃至15℃之间,且包括端值)。在各种实施例中,退火温度比至少25%、50%、60%、70%、75%、80%、90%、95%或所有的非一致引物的解链温度(诸如凭经验测量或计算的Tm)高1℃与15℃之间(诸如在1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、3℃至8℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃、或12℃至15℃之间,且包括端值),且退火步骤的长度(每个PCR循环)在5分钟与180分钟之间,诸如在15分钟与120分钟、15分钟与60分钟、15分钟与45分钟或20分钟与60分钟之间,且包括端值。
XVI.示例性多重PCR方法
在各种实施例中,使用长退火时间(如本文中所讨论和实例10中所例示)和/或低引物浓度。实际上,在某些实施例中,使用限制性引物浓度和/或条件。在各种实施例中,退火步骤的长度在位于范围下端的15、20、25、30、35、40、45或60分钟与位于范围的上端的20、25、30、35、40、45、60、120或180分钟之间。在各种实施例中,退火步骤的长度(每个PCR循环)在30与180分钟之间。例如,退火步骤可以在30与60分钟之间且每种引物的浓度可以小于20、15、10或5nM。在其它实施例中,引物浓度是1、2、3、4、5、6、7、8、9、10、15、20或25nM(位于范围的下端),以及2、3、4、5、6、7、8、9、10、15、20、25和50(位于范围的上端)。
在高水平多重化的情况下,溶液可能因为溶液中的大量引物而变得粘稠。如果溶液太粘稠,则可以将引物浓度降低到仍足以使引物结合模板DNA的量。在各种实施例中,使用1,000与100,000个之间的不同的引物,且每种引物的浓度小于20nM,诸如小于10nM或在1与10nM之间,且包括端值。
XVII.检测拷贝数变化(CNV)
除SNV和插入缺失以外,本文中所描述的用于监测和检测早期重复发作和转移的方法也可以受益于CNV的检测。
一方面,本发明通常至少部分涉及改进的用于确定存在或不存在拷贝数变化(诸如染色体区段或整个染色体的缺失或复制)的方法。该方法特别适用于检测小型缺失或复制,该小型缺失或复制由于可以从相关染色体区段获得的数据量较小而难以使用先前方法在高特异性和敏感性下检测。该方法包括改进的分析方法、改进的生物测定方法以及改进的分析方法和生物测定方法的组合。本发明的方法还可以用于检测仅存在于较小百分比的所测试的细胞或核酸分子中的缺失或复制。这允许在疾病发生之前(诸如在癌变前阶段)或在疾病早期(诸如在具有缺失或复制的大量病变细胞(诸如癌细胞)积聚之前)检测到缺失或复制。与疾病或病症相关的缺失或复制的更精确的检测使得用于诊断、预测、预防、延缓、稳定或治疗疾病或病症的改进的方法得以实现。已知若干种缺失或复制与癌症或严重的精神或生理障碍相关。
XVIII.SNV检测
另一方面,本发明总体上至少部分地涉及用于检测单核苷酸变化(SNV)的改进的方法。这些改进的方法包括改进的分析方法、改进的生物测定方法以及使用改进的分析方法和生物测定方法的组合的改进的方法。在某些说明性实施例中,使用该方法来检测、诊断、监测癌症或对癌症进行分期,例如,在SNV以极低浓度(例如,相对于SNV基因座的正常拷贝总数,小于10%、5%、4%、3%、2.5%、2%、1%、0.5%、0.25%或0.1%)存在的样品中,诸如在循环游离DNA样品中。也就是说,在某些说明性实施例中,这些方法特别良好地适用于相对于此基因座的正常多态等位基因,存在相对较低百分比的突变或变体的样品。最后,本文中提供组合改进的用于检测拷贝数变化的方法与改进的用于检测单核苷酸变化的方法的方法。
疾病(诸如癌症)的成功治疗通常依赖于早期诊断、对疾病的正确分期、选择有效治疗方案和密切监测以防止或检测重复发作。对于癌症诊断,从组织活检获得的肿瘤材料的组织学评估通常被视为最可靠的方法。然而,基于活检的取样的侵入性使得其不可用于群体筛检和常规随访。因此,本发明的方法具有以下优点:该方法能够视需要以非侵入方式进行,从而具有相对较低成本和快速周转时间。可以由本发明的方法使用的靶向测序与鸟枪法测序相比需要更少的读段,诸如数百万读段而非4千万读段,从而降低成本。可以使用的多重PCR和下一代测序可以增加通量并降低成本。
在一些示例性实施例中,ctDNA中AAI模式的分析提供对肿瘤的克隆体系的更详细的洞察,以帮助预测其治疗反应和优化治疗策略。因此,在某些实施例中,选择靶向临床上可操作的CNV和SNV的mmPCR-NGS组。在某些说明性实施例中,这类组特别适用于患有其中CNV占实质比例的突变负载(如通常在乳腺癌、卵巢癌和肺癌中)的癌症的患者。
在一些实施例中,使用所述方法来检测个体中的缺失、复制或单核苷酸变体。可以分析来自个体的样品,所述样品含有怀疑具有缺失、复制或单核苷酸变体的细胞或核酸。在一些实施例中,样品是来自怀疑具有缺失、复制或单核苷酸变体的组织或器官,诸如怀疑具有癌性的细胞或块状物。本发明的方法可以用于检测仅存在于混合物中的一个细胞或少量细胞中的缺失、复制或单核苷酸变体,所述混合物含有具有缺失、复制或单核苷酸变体的细胞和不具有缺失、复制或单核苷酸变体的细胞。在一些实施例中,分析来自个体的血液样品中的cfDNA或cfRNA。在一些实施例中,cfDNA或cfRNA是由细胞,诸如癌细胞分泌。在一些实施例中,cfDNA或cfRNA是由经历坏死或细胞凋亡的细胞,诸如癌细胞释放。本发明的方法可以用于检测仅存在于较小百分比的cfDNA或cfRNA中的缺失、复制或单核苷酸变体。在一些实施例中,测试来自胚胎的一种或多种细胞。
除确定存在或不存在拷贝数变化以外,可以视需要分析一种或多种其它因素。这些因素可以用于提高诊断(诸如确定存在或不存在癌症或针对癌症的增加的风险、对癌症进行分类或对癌症进行分期)或预后的准确性。这些因素还可以用于选择可能在受试者中有效的特定疗法或治疗方案。示例性因素包括存在或不存在多态现象或突变;全部或特定cfDNA、cfRNA、微RNA(miRNA)的水平改变(增加或降低);肿瘤分数改变(增加或降低);甲基化水平改变(增加或降低)、DNA完整性改变(增加或降低)、改变(增加或降低)的或替代性mRNA剪接。
以下章节描述用于使用定相数据(诸如推断或测量的定相数据)或非定相数据来检测缺失或复制的方法;可以测试的样品;用于样品制备、扩增和定量的方法;用于定相基因数据的方法;可以检测的多态现象、突变、核酸改变、mRNA剪接改变和核酸水平变化;具有来自该方法、其它风险因素和筛检方法的结果的数据库;可以诊断或治疗的癌症;癌症治疗;用于测试治疗的癌症模型;和用于制定和给予治疗的方法。
XIX.示例性实施方案
A.用于使用定相数据确定倍性的示例性方法
本发明的一些方法是部分地基于发现与使用非定相数据相比,使用定相数据来检测CNV可以降低假阴性和假阳性比率。这种改良对于具有低水平CNV的样品来说是最大的。因此,与使用非定相数据相比,定相数据增加CNV检测的准确性(诸如以下方法:计算一个或多个基因座处的等位基因比率或合计等位基因比率,以得到染色体或染色体区段上的合计值(诸如平均值),而不考虑不同基因座处的等位基因比率是否指示相同或不同单倍型似乎以异常量存在)。使用定相数据允许对所测量的与预期的等位基因比率之间的差异是否是由噪声或由于存在CNV而引起作出更精确的确定。例如,如果一个区域中的大部分或所有基因座处的所测量的与预期的等位基因比率之间的差异指示相同单倍型被过度表达,则更可能存在CNV。使用单倍型中等位基因之间的键,允许确定所测量的基因数据是否与被过度表达的相同单倍型(而非随机噪声)一致。相反,如果所测量的与预期的等位基因比率之间的差异是仅由于噪声(如实验误差)而引起,则在一些实施例中,在约一半的时间内,第一单倍型似乎被过度表达且在约另一半的时间内,第二单倍型似乎被过度表达。
在一些实施例中,使用定相基因数据确定在个体的基因组中(诸如在一种或多种细胞的基因组中或在cfDNA或cfRNA中),与第二同源染色体区段相比,是否存在第一同源染色体区段的拷贝数目的过度表达。示例性的过度表达包括第一同源染色体区段的复制或第二同源染色体区段的缺失。在一些实施例中,不存在过度表达,因为第一和同源染色体区段是以相等比例存在(诸如二倍体样品中每个区段的一个拷贝)。在一些实施例中,比较核酸样品中的所计算的等位基因比率与预期的等位基因比率,以确定是否存在过度表达,如下文中进一步描述。在本说明书中,短语“与第二同源染色体区段相比的第一同源染色体区段”意指染色体区段的第一同系物和染色体区段的第二同系物。
在一些实施例中,该方法包括:获得对于第一同源染色体区段的定相基因数据,该定相基因数据包括针对第一同源染色体区段上的多态基因座的集合中的每个基因座的存在于第一同源染色体区段上的此基因座处的等位基因的一致性;获得对于第二同源染色体区段的定相基因数据,该定相基因数据包括针对第二同源染色体区段上的多态基因座的集合中的每个基因座的存在于第二同源染色体区段上的此基因座处的等位基因的一致性;和获得所测量的遗传等位基因数据,对于多态基因座的集合中的基因座中的每一者处的等位基因中的每一者,该遗传等位基因数据包括来自个体的一种或多种靶细胞和一种或多种非靶细胞的DNA或RNA的样品中存在的每种等位基因的量。在一些实施例中,该方法包括:列举指定第一同源染色体区段的过度表达程度的一种或多种假设的集合;对于假设中的每一种,针对来自一种或多种靶细胞的DNA或RNA与样品中的全部DNA或RNA的一种或多种可能的比率,由所获得的定相基因数据计算样品中的多个基因座的预期基因数据;针对DNA或RNA的每种可能的比率和每种假设,针对DNA或RNA的此可能比率和此假设计算(诸如用计算机计算)样品的所获得的基因数据与样品的所预期的基因数据之间的数据拟合;根据数据拟合将一种或多种假设进行分级;并且选择等级最高的假设,由此确定来自个体的一种或多种细胞的基因组中的第一同源染色体区段的拷贝数目的过度表达程度。
在一些实施例中,该方法涉及使用本文中所描述的任一种方法或任何已知的方法获得定相基因数据。在一些实施例中,该方法涉及同时或以任何顺序依序进行(i)获得对于第一同源染色体区段的定相基因数据,该定相基因数据包括针对第一同源染色体区段上的多态基因座的集合中的每个基因座的存在于第一同源染色体区段上的此基因座处的等位基因的一致性;(ii)获得对于第二同源染色体区段的定相基因数据,该定相基因数据包括针对第二同源染色体区段上的多态基因座的集合中的每个基因座的存在于第二同源染色体区段上的此基因座处的等位基因的一致性;和(iii)获得所测量的遗传等位基因数据,该遗传等位基因数据包括来自个体的一种或多种细胞的DNA样品中的多态基因座的集合中的基因座中的每一者处的每种等位基因的量。
在一些实施例中,该方法涉及针对多态基因座的集合中的一种或多种基因座计算等位基因比率,该多态基因座的集合在至少一种衍生样品的细胞中是杂合的。在一些实施例中,针对特定基因座计算的等位基因比率是针对该基因座的一种等位基因的测量数量除以所有等位基因的总测量数量。在一些实施例中,针对特定基因座计算的等位基因比率是针对该基因座的一种等位基因(诸如第一同源染色体区段上的等位基因)的测量数量除以一种或多种其它等位基因(诸如第二同源染色体区段上的等位基因)的测量数量。所计算的等位基因比率可以使用本文中所描述的任一种方法或任何标准方法(诸如本文中所描述的所计算的等位基因比率的任何数学变换)来计算。
在一些实施例中,该方法涉及如果第一和第二同源染色体区段是以相等比例存在,则通过比较针对基因座的一种或多种所计算的等位基因比率与针对此基因座所预期的等位基因比率来确定是否存在第一同源染色体区段的拷贝数目的过度表达。在一些实施例中,所预期的等位基因比率假设针对基因座的可能的等位基因在存在方面具有相等的似然性。在其中针对特定基因座计算的等位基因比率是针对该基因座的一种等位基因的测量数量除以所有等位基因的总测量数量的一些实施例中,相应的所预期的等位基因比率是0.5(对于双等位基因基因座)或1/3(对于三等位基因基因座)。在一些实施例中,对于所有基因座所预期的等位基因比率是相同的,诸如对于所有基因座所预期的等位基因比率都是0.5。在一些实施例中,所预期的等位基因比率假设针对基因座的可能的等位基因在存在方面可以具有不同的似然性,诸如基于受试者所属的特定群体(诸如基于受试者的世系的群体)中的等位基因中的每一种的频率的似然性。这类等位基因频率是可以公开获得的(参见例如,HapMap Project;Perlegen Human Haplotype Project;网址:ncbi.nlm.nih.gov/projects/SNP/;Sherry ST,Ward MH,Kholodov M,等人,dbSNP:the NCBI database ofgenetic variation.Nucleic Acids Res.2001年1月1日;29(1):308-11,其各自通过引用的方式全文并入)。在一些实施例中,所预期的等位基因比率是针对特定个体进行预期的等位基因比率,该特定个体正在对于指定第一同源染色体区段的过度表达程度的特定假设经受测试。例如,可以基于来自个体(诸如来自不太可能具有缺失或复制的个体的样品,诸如非癌性样品)的定相或非定相基因数据或来自个体的一位或多位亲属的数据来确定针对特定个体进行预期的等位基因比率。
在一些实施例中,计算的等位基因比率指示第一同源染色体区段的拷贝数目的过度表达,如果(i)存在于第一同源染色体上的此基因座处的等位基因的测量数量除以该基因座的所有等位基因的总测量数量的等位基因比率大于针对此基因座所预期的等位基因比率,或(ii)存在于第二同源染色体上的此基因座处的等位基因的测量数量除以针对该基因座的所有等位基因的总测量数量的等位基因比率小于针对此基因座所预期的等位基因比率。在一些实施例中,仅在所计算的等位基因比率显著大于或小于针对此基因座所预期比率时才认为其指示过度表达。在一些实施例中,计算的等位基因比率指示第一同源染色体区段的拷贝数目没有过度表达,如果(i)存在于第一同源染色体上的此基因座处的等位基因的测量数量除以针对该基因座的所有等位基因的总测量数量的等位基因比率小于或等于针对此基因座所预期的等位基因比率,或(ii)存在于第二同源染色体上的此基因座处的等位基因的测量数量除以针对该基因座的所有等位基因的总测量数量的等位基因比率大于或等于针对此基因座所预期的等位基因比率。在一些实施例中,忽略等于相应的预期比率的所计算的比率(因为它们指示没有过度表达)。
在各种实施例中,使用以下方法中的一种或多种来比较一个或多个所计算的等位基因比率与相应的所预期的等位基因比率。在一些实施例中,确定针对特定基因座的所计算的等位基因比率是否高于或低于所预期的等位基因比率,而与差的量值无关。在一些实施例中,确定针对特定基因座的所计算的等位基因比率与所预期的等位基因比率之间的差的量值,而与所计算的等位基因比率是否高于或低于所预期的等位基因比率无关。在一些实施例中,确定针对特定基因座的所计算的等位基因比率是否高于或低于所预期的等位基因比率和差的量值。在一些实施例中,确定所计算的等位基因比率的平均值或加权平均值是否高于或低于所预期的等位基因比率的平均值或加权平均值,而与差的量值无关。在一些实施例中,确定所计算的等位基因比率的平均值或加权平均值与所预期的等位基因比率的平均值或加权平均值之间的差的量值,而与所计算的等位基因比率的平均值或加权平均值是否高于或低于所预期的等位基因比率的平均值或加权平均值无关。在一些实施例中,确定所计算的等位基因比率的平均值或加权平均值是否高于或低于所预期的等位基因比率的平均值或加权平均值和差的量值。在一些实施例中,确定所计算的等位基因比率与所预期的等位基因比率之间的差的量值的平均值或加权平均值。
在一些实施例中,使用针对一种或多种基因座的所计算的等位基因比率与所预期的等位基因比率之间的差的量值来确定第一同源染色体区段的拷贝数目的过度表达是否是由一种或多种细胞的基因组中的第一同源染色体区段的复制或第二同源染色体区段的缺失而引起。
在一些实施例中,如果满足以下条件中的一种或多种,则确定存在第一同源染色体区段的拷贝数目的过度表达。在一些实施例中,指示第一同源染色体区段的拷贝数目的过度表达的所计算的等位基因比率的数值高于阈值。在一些实施例中,指示没有第一同源染色体区段的拷贝数目的过度表达的所计算的等位基因比率的数值低于阈值。在一些实施例中,指示第一同源染色体区段的拷贝数目的过度表达的所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值高于阈值。在一些实施例中,对于指示过度表达的所有所计算的等位基因比率,所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值的总和高于阈值。在一些实施例中,指示没有第一同源染色体区段的拷贝数目的过度表达的所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值低于阈值。在一些实施例中,针对存在于第一同源染色体上的等位基因的测量数量除以针对该基因座的所有等位基因的总测量数量的所计算的等位基因比率的平均值或加权平均值比所预期的等位基因比率的平均值或加权平均值大至少一倍阈值。在一些实施例中,针对存在于第二同源染色体上的等位基因的测量数量除以针对该基因座的所有等位基因的总测量数量的所计算的等位基因比率的平均值或加权平均值比所预期的等位基因比率的平均值或加权平均值小至少一倍阈值。在一些实施例中,所计算的等位基因比率与预测有第一同源染色体区段的拷贝数目的过度表达的等位基因比率之间的数据拟合低于阈值(指示良好数据拟合)。在一些实施例中,所计算的等位基因比率与预测没有第一同源染色体区段的拷贝数目的过度表达的等位基因比率之间的数据拟合高于阈值(指示不良数据拟合)。
在一些实施例中,如果满足以下条件中的一种或多种,则确定不存在第一同源染色体区段的拷贝数目的过度表达。在一些实施例中,指示第一同源染色体区段的拷贝数目的过度表达的所计算的等位基因比率的数值低于阈值。在一些实施例中,指示没有第一同源染色体区段的拷贝数目的过度表达的所计算的等位基因比率的数值高于阈值。在一些实施例中,指示第一同源染色体区段的拷贝数目的过度表达的所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值低于阈值。在一些实施例中,指示没有第一同源染色体区段的拷贝数目的过度表达的所计算的等位基因比率与相应的所预期的等位基因比率之间的差的量值高于阈值。在一些实施例中,针对存在于第一同源染色体上的等位基因的测量数量除以针对该基因座的所有等位基因的总测量数量的所计算的等位基因比率的平均值或加权平均值减去所预期的等位基因比率的平均值或加权平均值的结果小于阈值。在一些实施例中,所预期的等位基因比率的平均值或加权平均值减去针对存在于第二同源染色体上的等位基因的测量数量除以针对该基因座的所有等位基因的总测量数量的所计算的等位基因比率的平均值或加权平均值的结果小于阈值。在一些实施例中,所计算的等位基因比率与预测有第一同源染色体区段的拷贝数目的过度表达的等位基因比率之间的数据拟合高于阈值。在一些实施例中,所计算的等位基因比率与预测没有第一同源染色体区段的拷贝数目的过度表达的等位基因比率之间的数据拟合低于阈值。在一些实施例中,由已知具有相关CNV的样品和/或已知不具有CNV的样品的经验测试确定阈值。
在一些实施例中,确定是否存在第一同源染色体区段的拷贝数目的过度表达包括列举指定第一同源染色体区段的过度表达程度的一种或多种假设的集合。示例性假设是不存在过度表达,因为第一和同源染色体区段以相同的比例存在(诸如二倍体样品中的每个区段的一个拷贝)。其它示例性假设包括第一同源染色体区段被复制一次或多次(诸如与第二同源染色体区段的拷贝数目相比,第一同源染色体具有1、2、3、4、5个或更多的额外拷贝)。另一种示例性假设包括第二同源染色体区段的缺失。又另一种示例性假设是第一和第二同源染色体区段的缺失。在一些实施例中,针对每种假设,鉴于由此假设指定的过度表达程度,估算针对在至少一种细胞中是杂合的基因座所预测的等位基因比率。在一些实施例中,通过比较所计算的等位基因比率与所预测的等位基因比率来计算假设是正确的似然性,且选择具有最大似然性的假设。
在一些实施例中,针对每种假设,使用所预测的等位基因比率计算测试统计值的所预期的分布。在一些实施例中,通过比较使用所计算的等位基因比率计算的测试统计值与使用所预测的等位基因比率计算的测试统计值的所预期的分布来计算假设是正确的似然性,且选择具有最大似然性的假设。
在一些实施例中,鉴于针对第一同源染色体区段的定相基因数据、针对第二同源染色体区段的定相基因数据和由假设指定的过度表达程度,估算针对在至少一种细胞中是杂合的基因座所预测的等位基因比率。在一些实施例中,通过比较所计算的等位基因比率与所预测的等位基因比率来计算假设是正确的似然性;且选择具有最大似然性的假设。
B.混合样品的使用
应理解,在许多实施例中,样品是混合样品,该混合样品具有来自一种或多种靶细胞和一种或多种非靶细胞的DNA或RNA。在一些实施例中,靶细胞是具有CNV(诸如相关缺失或复制)的细胞,且非靶细胞是不具有相关拷贝数变化的细胞(诸如具有相关缺失或复制的细胞与不具有任何所测试的缺失或复制的细胞的混合物)。在一些实施例中,靶细胞是与疾病或病症或增加的疾病或病症风险相关的细胞(诸如癌细胞),且非靶细胞是不与疾病或病症或增加的疾病或病症风险相关的细胞(诸如非癌性细胞)。在一些实施例中,靶细胞都具有相同的CNV。在一些实施例中,两种或更多种靶细胞具有不同的CNV。在一些实施例中,一种或多种靶细胞具有未在至少一种其它靶细胞中发现的与疾病或病症或增加的疾病或病症风险相关的CNV、多态现象或突变。在一些这类实施例中,假设来自样品的全部细胞中的与疾病或病症或增加的疾病或病症风险相关的细胞的分数大于或等于样品中这些CNV、多态现象或突变中的最频繁出现的CNV、多态现象或突变的分数。例如,如果6%的细胞具有K-ras突变且8%的细胞具有BRAF突变,则假设至少8%的细胞是癌性的。
在一些实施例中,计算来自一种或多种靶细胞的DNA(或RNA)与样品中全部DNA(或RNA)的比率。在一些实施例中,列举指定第一同源染色体区段的过度表达程度的一种或多种假设的集合。在一些实施例中,针对每种假设,鉴于DNA或RNA的所计算的比率和由此假设指定的过度表达程度,估算针对在至少一种细胞中是杂合的基因座所预测的等位基因比率。在一些实施例中,通过比较所计算的等位基因比率与所预测的等位基因比率来计算假设是正确的似然性,且选择具有最大似然性的假设。
在一些实施例中,针对每种假设,估算使用所预测的等位基因比率和DNA或RNA的所计算的比率而计算的测试统计值的所预期的分布。在一些实施例中,通过比较使用所计算的等位基因比率和DNA或RNA的所计算的比率计算的测试统计值与使用所预测的等位基因比率和DNA或RNA的所计算的比率计算的测试统计值的所预期的分布来确定假设是正确的似然性,且选择具有最大似然性的假设。
在一些实施例中,该方法包括列举指定第一同源染色体区段的过度表达程度的一种或多种假设的集合。在一些实施例中,该方法包括针对每种假设,估算(i)鉴于由此假设指定的过度表达程度,针对在至少一种细胞中是杂合的基因座所预测的等位基因比率,或(ii)对于DNA或RNA的一种或多种可能的比率,使用所预测的等位基因比率和来自一种或多种靶细胞的DNA或RNA与样品中全部DNA或RNA的可能的比率计算的测试统计值的所预期的分布。在一些实施例中,通过比较以下来计算数据拟合:(i)所计算的等位基因比率与所预测的等位基因比率,或(ii)使用所计算的等位基因比率和DNA或RNA的可能的比率计算的测试统计值与使用所预测的等位基因比率和DNA或RNA的可能的比率计算的测试统计值的所预期的分布。在一些实施例中,根据数据拟合对一种或多种假设进行分级,且选择等级最高的假设。在一些实施例中,使用技术或算法(诸如搜索算法)进行以下步骤中的一个或多个:计算数据拟合、对假设进行分级或选择等级最高的假设。在一些实施例中,数据拟合是针对β-二项分布的拟合或针对二项分布的拟合。在一些实施例中,技术或算法选自由以下各项组成的组:最大似然估算、最大后验估算、贝叶斯估算(Bayesian estimation)、动态估算(诸如动态贝叶斯估计)和最大期望估算。在一些实施例中,该方法包括对所获得的基因数据和所预期的基因数据应用该技术或算法。
在一些实施例中,该方法包括创建可能的比率的划分,该划分在来自一种或多种靶细胞的DNA或RNA与样品中全部DNA或RNA的比率的下限到上限的范围内。在一些实施例中,列举指定第一同源染色体区段的过度表达程度的一种或多种假设的集合。在一些实施例中,该方法包括针对划分中的DNA或RNA的可能的比率中的每一种和每种假设,估算(i)鉴于DNA或RNA的可能的比率和由此假设指定的过度表达程度,针对在至少一种细胞中是杂合的基因座所预测的等位基因比率,或(ii)使用所预测的等位基因比率和DNA或RNA的可能的比率计算的测试统计值的所预期的分布。在一些实施例中,该方法包括针对划分中的DNA或RNA的可能的比率中的每一种和每种假设,通过比较以下来计算假设是正确的似然性:(i)所计算的等位基因比率与所预测的等位基因比率,或(ii)使用所计算的等位基因比率和DNA或RNA的可能的比率计算的测试统计值与使用所预测的等位基因比率和DNA或RNA的可能比率计算的测试统计值的所预期的分布。在一些实施例中,对于每种假设,通过组合针对划分中的可能的比率中的每一种的假设的概率来确定组合概率;且选择具有最大组合概率的假设。在一些实施例中,基于可能的比率是正确比率的似然性,通过将针对特定可能的比率的假设的概率加权来确定每种假设的组合概率。
在一些实施例中,使用选自由以下组成的组的技术来估算来自一种或多种靶细胞的DNA或RNA与样品中全部DNA或RNA的比率:最大似然估算、最大后验估算、贝叶斯估算、动态估算(诸如动态贝叶斯估算)和最大期望估算。在一些实施例中,针对两种或更多种(或所有)相关CNV,假设来自一种或多种靶细胞的DNA或RNA与样品中全部DNA或RNA的比率是相同的。在一些实施例中,针对每种相关CNV,计算来自一种或多种靶细胞的DNA或RNA与样品中全部DNA或RNA的比率。
C.使用不完美定相数据的示例性方法
应理解,对于许多实施例,使用不完美定相数据。例如,对于第一和/或第二同源染色体区段上的一个或多个基因座,可能不是100%确定地知道存在哪些等位基因。在一些实施例中,使用个体的可能的单倍型(诸如以基于群体的单倍型频率为基础的单倍型)的先验来计算每种假设的概率。在一些实施例中,通过使用另一种方法对基因数据进行定相或通过使用来自其它受试者(诸如先验受试者)的定相数据以优化用于个体的基于信息的定相的群体数据来调节可能的单倍型的先验。
在一些实施例中,定相基因数据包含针对定相基因数据的两个或更多个可能的集合的概率数据,其中定相数据的每个可能的集合包括存在于第一同源染色体区段上的多态基因座的集合中的每个基因座处的等位基因的可能的一致性和存在于第二同源染色体区段上的多态基因座的集合中的每个基因座处的等位基因的可能的一致性。在一些实施例中,针对定相基因数据的可能的集合中的每一个,确定至少一种假设的概率。在一些实施例中,通过组合定相基因数据的可能的集合中的每一者的假设的概率来确定针对假设的组合概率;且选择具有最大组合概率的假设。
本文中所公开的方法中的任何一种或任何已知方法都可以用于产生不完美定相数据(诸如使用基于群体的单倍型频率以推断最有可能的相),以用于所要求的方法中。在一些实施例中,通过概率性地组合较小区段的单倍型来获得定相数据。例如,可以基于来自第一区域的一个单倍型与来自相同染色体的另一区域的另一单倍型的可能的组合来确定可能的单倍型。可以使用例如基于群体的单倍型频率和/或不同区域之间的已知的重组率来确定来自不同区域的特定单倍型是相同染色体上的相同、较大单倍型域的一部分的概率。
在一些实施例中,单一假设拒绝测试用于二体性的零假设。在一些实施例中,计算二体性假设的概率,且如果该概率低于既定阈值(诸如小于1/1,000),则拒绝二体性的假设。如果拒绝零假设,则这可以归因于不完美定相数据中的误差或归因于存在CNV。在一些实施例中,获得更精确的定相数据(诸如来自本文中所公开的任何用于获得实际定相数据而非基于生物信息学推断的定相数据的分子定相方法的定相数据)。在一些实施例中,使用更精确的定相数据重新计算二体性假设的概率,以确定是否仍应拒绝二体性假设。拒绝此假设指示存在染色体区段的复制或缺失。视需要,可以通过调节阈值来改变假阳性率。
D.使用定相数据来确定倍性的进一步示例性实施例
在说明性实施例中,本文中提供用于确定个体的样品中的染色体区段的倍性的方法。该方法包括以下步骤:接收等位基因频率数据,该数据包括染色体区段上的多态基因座的集合中的每个基因座处的样品中存在的每种等位基因的量;通过估算等位基因频率数据的相来产生多态基因座的集合的定相等位基因信息;使用等位基因频率数据,产生不同倍性状态的多态基因座的等位基因频率的单独概率;使用该单独概率和定相等位基因信息产生多态基因座的集合的联合概率;和基于该联合概率,选择指示染色体倍性的最佳拟合模型,由此确定染色体区段的倍性。
如本文中所公开,可以通过本领域中已知的方法产生等位基因频率数据(在本文中也称为所测量的遗传等位基因数据)。例如,可以使用qPCR或微阵列产生该数据。在一个说明性实施例中,使用核酸序列数据、尤其高通量核酸序列数据来产生该数据。
在某些说明性实例中,在用于产生单独概率之前,针对误差校正等位基因频率数据。在特定说明性实施例中,所校正的误差包括等位基因扩增效率偏差。在其他实施例中,所校正的误差包括环境污染和基因型污染。在一些实施例中,所校正的误差包括等位基因扩增偏差、测序误差、环境污染和基因型污染。
在某些实施例中,使用多态基因座的集合的不同倍性状态和等位基因失衡分数的模型的集合来产生单独概率。在这些实施例和其它实施例中,通过考虑染色体区段上的多态基因座之间的键来产生联合概率。
因此,在组合这些实施例中的一些实施例的一个说明性实施例中,本文中提供用于检测个体的样品中的染色体倍性的方法,包括以下步骤:接收个体中的染色体区段上的多态基因座的集合处的等位基因的核酸序列数据;使用该核酸序列数据来检测基因座的集合处的等位基因频率;校正所检测的等位基因频率中的等位基因扩增效率偏差以产生多态基因座的集合的经校正的等位基因频率;通过估算核酸序列数据的相来产生多态基因座的集合的定相等位基因信息;通过比较经校正的等位基因频率与多态基因座的集合的不同倍性状态和等位基因失衡分数的模型的集合来产生不同倍性状态的多态基因座的等位基因频率的单独概率;考虑染色体区段上的多态基因座之间的键,通过组合该单独概率来产生多态基因座的集合的联合概率;和基于该联合概率,选择指示染色体非整倍性的最佳拟合模型。
如本文中所公开,可以使用多态基因座的集合的不同倍性状态和平均等位基因失衡分数的模型或假设的集合来产生单独概率。例如,在特定说明性实例中,通过模型化染色体区段的第一同系物和染色体区段的第二同系物的倍性状态来产生单独概率。模型化的倍性状态包括以下:(1)所有细胞不具有染色体区段的第一同系物或第二同系物的缺失或扩增;(2)至少一些细胞具有染色体区段的第一同系物的缺失或第二同系物的扩增;和(3)至少一些细胞具有染色体区段的第二同系物的缺失或第一同系物的扩增。
应理解,以上模型也可以称为用于限制模型的假设。因此,以上说明3种可以使用的假设。
模型化的平均等位基因失衡分数可以包括平均等位基因失衡的包括染色体区段的实际平均等位基因失衡的任何范围。例如,在某些说明性实施例中,模型化的平均等位基因失衡的范围可以在位于下端的0%、0.1%、0.2%、0.25%、0.3%、0.4%、0.5%、0.6%、0.75%、1%、2%、2.5%、3%、4%和5%与位于上端的1%、2%、2.5%、3%、4%、5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%和99%之间。用于在该范围下的模型化的间隔可以是取决于所使用的计算能力和允许用于分析的时间的任何间隔。例如,可以模型化0.01、0.05、0.02或0.1间隔。
在某些说明性实施例中,样品的染色体区段的平均等位基因失衡在0.4%与5%之间。在某些实施例中,平均等位基因失衡较低。在这些实施例中,平均等位基因失衡典型地小于10%。在某些说明性实施例中,等位基因失衡在位于下端的0.25%、0.3%、0.4%、0.5%、0.6%、0.75%、1%、2%、2.5%、3%、4%和5%与位于上端的1%、2%、2.5%、3%、4%和5%之间。在其它示例性实施例中,平均等位基因失衡在位于下端的0.4%、0.45%、0.5%、0.6%、0.7%、0.8%、0.9%或1.0%与位于上端的0.5%、0.6%、0.7%、0.8%、0.9%、1.0%、1.5%、2.0%、3.0%、4.0%或5.0%之间。例如,在说明性实例中,样品的平均等位基因失衡在0.45%与2.5%之间。在另一实例中,在0.45%、0.5%、0.6%、0.8%、0.8%、0.9%或1.0%的敏感性下检测平均等位基因失衡。也就是说,该测试方法能够在AAI低至0.45%、0.5%、0.6%、0.8%、0.8%、0.9%或1.0%的情况下检测到染色体非整倍性。在本发明的方法中,具有低等位基因失衡的示例性样品包括来自患有具有循环肿瘤DNA的癌症的个体的血浆样品或来自具有循环胎儿DNA的怀孕女性的血浆样品。
应理解,对于SNV,典型地使用突变体等位基因频率(基因座处的突变体等位基因的数目/此基因座处的等位基因的总数)测量异常DNA的比例。因为肿瘤中的两种同系物的量之间的差是类似的,我们通过平均等位基因失衡(AAI)来测量CNV的异常DNA的比例,定义为|(H1-H2)|/(H1+H2),其中Hi是样品中同系物i的拷贝的平均数且Hi/(H1+H2)是同系物i的部分丰度或同系物比率。最大同系物比率是丰度较高的同系物的同系物比率。
测定脱扣率是使用所有SNP估算的没有读段的SNP的百分比。单一等位基因脱扣(ADO)率是仅使用杂合SNP估计的仅存在一个等位基因的SNP的百分比。可以通过以下方式来确定基因型置信度:针对每个SNP处的B等位基因读段的读段数目拟合二项分布且使用SNP的焦点区域的倍性状态估算每个基因型的概率。
对于肿瘤组织样品,可以由等位基因频率分布之间的转换来描述染色体非整倍性(本段中由CNV例示)。在癌症患者、怀疑患有癌症的个体、先前诊断患有癌症的个体、或作为用于具有风险的个体或一般群体的癌症筛检的血浆样品中,可以通过最大似然性算法来鉴定CNV,所述最大似然性算法搜索已知在癌症中呈现非整倍性的区域和/或来自相同个体的肿瘤样品也具有CNV的区域中的血浆CNV。在说明性实施例中,算法使用个体的单倍型相信息针对所预期的等位基因计数来拟合所测量的和经校正的测试样品等位基因计数,例如使用联合分布模式,其中正在分析该个体的样品中是否存在循环肿瘤DNA。这类单倍型相信息可以由来自个体的包括大部分或至少60%、70%、80%、90%、95%、96%、97%、98%、99%或所有正常细胞DNA的任何样品(诸如但不限于血沉棕黄层样品、唾液样品或皮肤样品),由亲本基因型信息推导,或通过重新单倍型定相来推导,该重新单倍型定相可以通过多种方法来实现(参见例如Snyder,M.等人,Haplotype-resolved genome sequencing:experimental methods and applications.Nat Rev Genet 16,344-358(2015)),诸如通过稀释(Kaper,F.等人,Whole-genome haplotyping by dilution,amplification,andsequencing.Proc Natl Acad Sci U S A 110,5552-5557(2013))或长读段测序(Kuleshov,V.等人,Whole-genome haplotyping using long reads and statisticalmethods.Nat Biotech 32,261-266(2014))进行的单倍型分析。这种算法可以模型化三个假设的集合的在0.025%间隔下、在所有等位基因失衡比率下的所预期的等位基因频率:(1)所有细胞都是正常的(没有等位基因失衡),(2)一些/所有细胞具有同系物1缺失或同系物2扩增,或(3)一些/所有细胞具有同系物2缺失或同系物1扩增。可以使用贝叶斯分类器,基于所有杂合SNP处的所预期的和所观察的等位基因频率的β二项模型在每个SNP处确定每种假设的似然性,且接着可以计算多个SNP的联合似然性,在某些说明性实施例中,考虑SNP基因座的键,如本文中所例示。实际上,在说明性实施例中,由算法使用如上文所公开获得的正常细胞单倍型相信息以使用联合分布模型,针对所预期的等位基因计数拟合所测量的和典型地校正的测试样品等位基因计数,接着,可以所选最大似然假设。
考虑肿瘤中具有平均N个拷贝的染色体区域且令c表示来源于二体性区域中的正常细胞和肿瘤细胞的混合物的血浆中的DNA的分数。AAI计算为:
在某些说明性实例中,在用于产生单独概率之前,针对误差校正等位基因频率数据。本文中公开不同类型的误差和/或偏差校正。在特定说明性实施例中,所校正的误差是等位基因扩增效率偏差。在其它实施例中,所校正的误差包括测序误差、环境污染和基因型污染。在一些实施例中,所校正的误差包括等位基因扩增偏差、测序误差、环境污染和基因型污染。
应理解,可以确定等位基因的等位基因扩增效率偏差作为包括测试中样品的实验或实验室确定的一部分,或该偏差可以在不同时间使用包括等位基因的样品的集合确定,其中正在计算该等位基因的效率。典型地与测试中样品分析在同一次运行中确定环境污染和基因型污染。
在某些实施例中,确定样品中的纯合等位基因的环境污染和基因型污染。应理解,对于来自个体的任何既定样品,即使一个基因座由于它在群体中具有相对高杂合性而被选择用于分析,但样品中的一些基因座将是杂合的且其它基因座将是纯合的。在一些实施例中,宜使用个体的杂合基因座来确定染色体区段的倍性,而可以使用纯合基因座计算环境和基因型污染。
在某些说明性实例中,通过分析模型的所产生的定相等位基因信息与所估算的等位基因频率之间的差的量值来进行选择。
在说明性实例中,基于多态基因座的集合的所预期的和所观察的等位基因频率的β二项模型来产生等位基因频率的单独概率。在说明性实例中,使用贝叶斯分类器产生单独概率。
在某些说明性的实施例中,核酸序列数据是通过对使用多重扩增反应产生的一系列扩增子的多个拷贝进行高通量DNA测序产生的,其中该扩增子系列的每个扩增子跨越多态基因座的集合中的至少一个多态基因座,并且其中集合的多态基因座中的每一者都被扩增。在某些实施例中,多重扩增反应至少有1/2的反应是在限制性引物条件下进行的。在一些实施例中,在多重反应的1/10、1/5、1/4、1/3、1/2或全部反应中使用限制性引物浓度。本文中提供在扩增反应(诸如PCR)中实现限制性引物条件时需要考虑的因素。
在某些实施例中,本文中所提供的方法检测横跨多个染色体的多个染色体区段的倍性。因此,在这些实施例中,确定样品中染色体区段的集合的染色体倍性。对于这些实施例,需要多重性更高的扩增反应。因此,对于这些实施例,多重扩增反应可以包括例如在2,500与50,000个之间的多重反应。在某些实施例中,进行以下范围的多重反应:范围低端在100、200、250、500、1000、2500、5000、10,000、20,000、25000、50000之间,范围高端在200、250,500、1000、2500、5000、10,000、20,000、25000、50000和100,000之间。
在说明性实施例中,多态基因座的集合是已知呈现高杂合性的基因座的集合。然而,预期对于任何既定个体,这些基因座中的一些将是纯合的。在某些说明性实施例中,本发明的方法利用个体的纯合和杂合基因座这两者的核酸序列信息。例如,个体的纯合基因座用于误差校正,而杂合基因座用于确定样品的等位基因失衡。在某些实施例中,个体的至少10%的多态基因座是杂合基因座。
如本文中所公开,优选分析已知在群体中是杂合的靶SNP基因座。因此,在某些实施例中,选择已知其中至少10%、20%、25%、50%、75%、80%、90%、95%、99%或100%的多态基因座在群体中是杂合的多态基因座。
如本文中所公开,在某些实施例中,样品是来自怀孕女性的血浆样品。
在一些实例中,该方法进一步包含对具有已知的平均等位基因失衡比率的对照样品进行该方法。对照物可以具有在0.4%与10%之间的指示染色体区段的非整倍性的特定等位基因状态的平均等位基因失衡比率,以模拟以低浓度存在的样品中的等位基因的平均等位基因失衡,诸如对于来自肿瘤的循环游离DNA所预期的那样。
在一些实施例中,如本文中所公开,使用PlasmArt对照物作为对照物。因此,在某些方面中,存在通过包含以下的方法产生的样品:使已知呈现染色体非整倍性的核酸样品片段化成模拟在个体的血浆中循环的DNA片段的尺寸的片段。在某些方面中,使用对于染色体区段没有非整倍性的对照物。
在说明性实施例中,可以在方法中分析来自一种或多种对照物和测试样品的数据。例如,对照物可以包括来自个体的未怀疑含有染色体非整倍性的不同样品或疑似含有CNV或染色体非整倍性的样品。例如,当测试样品是疑似含有循环游离肿瘤DNA的血浆样品时,也可以与血浆样品一起对来自受试者的肿瘤的对照样品进行该方法。如本文中所公开的,可以通过将已知呈现染色体非整倍性的DNA样品片段化来制备对照样品。这种片段化可以产生模拟凋亡细胞的DNA组合物的DNA样品,尤其当样品是来自罹患癌症的个体时。来自对照样品的数据将提高染色体非整倍性的检测的置信度。
在确定倍性的方法的某些实施例中,样品是来自疑似患有癌症的个体的血浆样品。在这些实施例中,该方法进一步包括基于该选择来确定个体的肿瘤细胞中是否存在拷贝数变化。对于这些实施例,样品可以是来自个体的血浆样品。对于这些实施例,该方法可以进一步包括基于该选择来确定个体中是否存在癌症。
这些用于确定染色体区段的倍性的实施例可以进一步包括检测单核苷酸变异位置集合中的单核苷酸变异位置处的单核苷酸变体,其中检测到染色体非整倍性或单核苷酸变体或这两者指示样品中存在循环肿瘤核酸。
这些实施例可以进一步包括接收个体的肿瘤的染色体区段的单倍型信息,和使用单倍型信息以产生多态基因座的集合的不同倍性状态和等位基因失衡分数的模型的集合。
如本文中所公开的,确定倍性的方法的某些实施例可以进一步包括在比较初始或经校正的等位基因频率与模型的集合之前,从初始或经校正的等位基因频率数据去除异常值。例如,在某些实施例中,在数据用于模型化之前,从该数据中去除比染色体区段上的其它基因座的平均值高或低至少2或3倍标准差的基因座等位基因频率。
如本文中所提及的,应理解,对于本文中所提供的许多实施例,包括用于确定染色体区段的倍性的那些实施例,优选使用不完美或完美定相数据。还应理解,本文中提供多种特征,这些特征与用于检测倍性的先前方法相比提供改进,且可以使用这些特征的多种不同组合。
在某些实施例中,本文中提供计算机系统和计算机可读介质以进行本发明的任何方法。这些计算机系统和计算机可读介质包括用于进行确定倍性的方法的系统和计算机可读介质。因此,且作为用于说明本文中所提供的方法中的任何一种都可以使用利用本文中的公开内容的系统和计算机可读介质进行的系统实施例的非限制性实例,在另一方面中,本文中提供用于检测个体的样品中的染色体倍性的系统,该系统包含:输入处理器,该输入处理器被配置成接收等位基因频率数据,该等位基因频率数据包括染色体区段上的多态基因座的集合中的每个基因座处的样品中存在的每种等位基因的量;建模器,该建模器被配置成:通过估算等位基因频率数据的相来产生多态基因座的集合的定相等位基因信息;和使用等位基因频率数据产生不同倍性状态的多态基因座的等位基因频率的单独概率;和使用该单独概率和该定相等位基因信息产生多态基因座的集合的联合概率;以及假设管理器,该假设管理器被配置成基于该联合概率选择指示染色体倍性的最佳拟合模型,由此确定染色体区段的倍性。
在此系统实施例的某些实施例中,等位基因频率数据是由核酸测序系统产生的数据。在某些实施例中,该系统进一步包括误差校正单元,该误差校正单元被配置成校正等位基因频率数据中的误差,其中经校正的等位基因频率数据由建模器用于产生单独概率。在某些实施例中,误差校正单元校正等位基因扩增效率偏差。在某些实施例中,建模器使用多态基因座的集合的不同倍性状态和等位基因失衡分数二者的模型的集合来产生单独概率。在某些示例性实施例中,建模器通过考虑染色体区段上的多态基因座之间的键来产生联合概率。
在一个说明性实施例中,本文中提供用于检测个体的样品中的染色体倍性的系统,该系统包括以下:输入处理器,该输入处理器被配置成接收个体中的染色体区段上的多态基因座的集合处的等位基因的核酸序列数据,和使用该核酸序列数据检测基因座的集合处的等位基因频率;误差校正单元,该误差矫正单元被配置成校正所检测的等位基因频率中的误差并产生多态基因座的集合的经校正的等位基因频率;建模器,该建模器被配置成:通过估算核酸序列数据的相来产生多态基因座的集合的定相等位基因信息;通过比较该定相等位基因信息与多态基因座的集合的不同倍性状态和等位基因失衡分数的模型的集合来产生不同倍性状态的多态基因座的等位基因频率的单独概率;和考虑染色体区段上的多态基因座之间的相对距离,通过组合该单独概率来产生多态基因座的集合的联合概率;以及假设管理器,该假设管理器被配置成基于联合概率选择指示染色体非整倍性的最佳拟合模型。
在本文中所提供的某些示例性系统实施例中,多态基因座的集合包括1000到50,000个多态基因座。在本文中所提供的某些示例性系统实施例中,多态基因座的集合包括100个已知的杂合性热点基因座。在本文中所提供的某些示例性系统实施例中,多态基因座的集合包括在重组热点的0.5kb处或以内的100个基因座。
在本文中所提供的某些示例性系统实施例中,最佳拟合模型分析染色体区段的第一同系物和染色体区段的第二同系物的以下倍性状态:(1)所有细胞都没有染色体区段的第一同系物或第二同系物的缺失或扩增;(2)一些或所有细胞具有染色体区段的第一同系物的缺失或第二同系物的扩增;和(3)一些或所有细胞具有染色体区段的第二同系物的缺失或第一同系物的扩增。
在本文中所提供的某些示例性系统实施例中,所校正的误差包括等位基因扩增效率偏差、污染和/或测序误差。在本文中所提供的某些示例性系统实施例中,污染包括环境污染和基因型污染。在本文中所提供的某些示例性系统实施例中,确定纯合等位基因的环境污染和基因型污染。
在本文中所提供的某些示例性系统实施例中,假设管理器被配置成分析模型的所产生的定相等位基因信息与所估算的等位基因频率之间的差的量值。在本文中所提供的某些示例性系统实施例中,建模器基于多态基因座的集合处的所预期的和所观察的等位基因频率的β二项模型来产生等位基因频率的单独概率。在本文中所提供的某些示例性系统实施例中,建模器使用贝叶斯分类器产生单独概率。
在本文中所提供的某些示例性系统实施例中,核酸序列数据是通过对使用多重扩增反应产生的一系列扩增子的多个拷贝进行高通量DNA测序产生的,其中该系列扩增子的每个扩增子跨越了多态性基因座的集合中的至少一个多态性基因座,并且其中集合的多态基因座中的每一者都被扩增。在本文中所提供的某些示例性系统实施例中,其中多重扩增反应至少有1/2的反应是在限制性引物条件下进行的。在本文中所提供的某些示例性系统实施例中,其中样品的平均等位基因失衡在0.4%与5%之间。
在本文中所提供的某些示例性系统实施例中,样品是来自疑似患有癌症的个体的血浆样品,且假设管理器进一步被配置成基于最佳拟合模型来确定个体的肿瘤细胞中是否存在拷贝数变化。
在本文中所提供的某些示例性系统实施例中,样品是来自个体的血浆样品且假设管理器进一步被配置成基于最佳拟合模型来确定个体中存在癌症。在这些实施例中,假设管理器可以进一步被配置成检测单核苷酸变异位置集合中的单核苷酸变异位置处的单核苷酸变体,其中检测到染色体非整倍性或单核苷酸变体或这两者指示样品中存在循环肿瘤核酸。
在本文中所提供的某些示例性系统实施例中,输入处理器进一步被配置成接收个体的肿瘤的染色体区段的单倍型信息,且建模器被配置成使用该单倍型信息以产生多态基因座的集合的不同倍性状态和等位基因失衡分数的模型的集合。
在本文中所提供的某些示例性系统实施例中,建模器产生在从0%至25%范围内的等位基因失衡分数的模型。
应理解,本文中所提供的任何方法都可以由储存在非瞬时性计算机可读介质上的计算机可读代码来执行。因此,在一个实施例中,本文中提供用于检测个体的样品中的染色体倍性的非瞬时性计算机可读介质,该非瞬时性计算机可读介质包括计算机可读代码,该计算机可读代码在由处理装置执行时引起处理装置:接收等位基因频率数据,该等位基因频率数据包括染色体区段上的多态基因座的集合中的每个基因座处的样品中存在的每种等位基因的量;通过估算等位基因频率数据的相来产生多态基因座的集合的定相等位基因信息;使用等位基因频率数据产生不同倍性状态的多态基因座的等位基因频率的单独概率;使用该单独概率和该定相等位基因信息产生多态基因座的集合的联合概率;和基于该联合概率选择指示染色体倍性的最佳拟合模型,由此确定染色体区段的倍性。
在某些计算机可读介质实施例中,等位基因频率数据是由核酸序列数据产生。某些计算机可读介质实施例进一步包括校正等位基因频率数据中的误差和使用经校正的等位基因频率数据产生单独概率的步骤。在某些计算机可读介质实施例中,所校正的误差是等位基因扩增效率偏差。在某些计算机可读介质实施例中,使用多态基因座的集合的不同倍性状态和等位基因失衡分数二者的模型的集合来产生单独概率。在某些计算机可读介质实施例中,通过考虑染色体区段上的多态基因座之间的键来产生联合概率。
在一个特定实施例中,本文中提供用于检测个体的样品中的染色体倍性的非瞬时性计算机可读介质,该计算机可读介质包括计算机可读代码,该计算机可读代码在由处理装置执行时引起处理装置:接收个体中的染色体区段上的多态基因座的集合处的等位基因的核酸序列数据;使用该核酸序列数据检测基因座的集合处的等位基因频率;校正所检测的等位基因频率中的等位基因扩增效率偏差以产生多态基因座的集合的经校正的等位基因频率;通过估算核酸序列数据的相来产生多态基因座的集合的定相等位基因信息;通过比较经校正的等位基因频率与多态基因座的集合的不同倍性状态和等位基因失衡分数的模型的集合来产生不同倍性状态的多态基因座的等位基因频率的单独概率;考虑染色体区段上的多态基因座之间的键,通过组合该单独概率来产生多态基因座的集合的联合概率;和基于该联合概率,选择指示染色体非整倍性的最佳拟合模型。
在某些说明性计算机可读介质实施例中,通过分析模型的所产生的定相等位基因信息与所估算的等位基因频率之间的差的量值来进行选择。
在某些说明性计算机可读介质实施例中,基于多态基因座的集合的所预期的和所观察的等位基因频率的β二项模型来产生等位基因频率的单独概率。
应理解,本文中所提供的任何方法实施例都可以通过执行储存在非瞬时性计算机可读介质上的代码来进行。
E.检测癌症的示例性实施例
在某些方面中,本发明提供用于检测癌症的方法。应理解,样品可以是来自疑似患有癌症的个体的肿瘤样品或液体样品,诸如血浆。该方法对于在具有低水平的下述基因改变(作为样品中全部DNA的一部分)的样品中检测基因突变(诸如单核苷酸变化,诸如SNV,或拷贝数变化,诸如CNV)方面尤其有效。因此,在检测样品中来自癌症的DNA或RNA的敏感性是优越的。该方法可以组合本文中关于检测CNV和SNV所提供的改进中的任一种或全部以实现此种优越的敏感性。
因此,在某些实施例中,本文中提供用于确定个体的样品中是否存在循环肿瘤核酸的方法,和包括计算机可读代码的非瞬时性计算机可读介质,该计算机可读代码在由处理装置执行时引起处理装置进行该方法。该方法包括以下步骤:分析样品以确定个体中的染色体区段上的多态基因座的集合处的倍性;和基于该倍性确定来确定存在于多态基因座处的平均等位基因失衡水平,其中平均等位基因失衡等于或大于0.4%、0.45%、0.5%、0.6%、0.7%、0.75%、0.8%、0.9%或1%指示样品中存在循环肿瘤核酸,如ctDNA。
在某些说明性实例中,平均等位基因失衡大于0.4%、0.45%或0.5%指示存在ctDNA。在某些实施例中,用于确定是否存在循环肿瘤核酸的方法进一步包括检测单核苷酸变异位置集合中的单核苷酸变异位点处的单核苷酸变体,其中检测到等位基因失衡等于或大于0.5%或检测到单核苷酸变体、或这两者,指示样品中存在循环肿瘤核酸。应理解,所提供的用于检测染色体倍性或CNV的任何方法都可以用于确定等位基因失衡水平,典型地表示为平均等位基因失衡。应理解,在本发明的这一方面中,本文中所提供的用于检测SNV的任何方法都可以用于检测单核苷酸。
在某些实施例中,用于确定是否存在循环肿瘤核酸的方法进一步包括对具有已知平均等位基因失衡比率的对照样品进行该方法。例如,对照物可以是来自个体的肿瘤的样品。在一些实施例中,对照物具有关于所分析的样品所预期的平均等位基因失衡。例如,AAI在0.5%与5%之间或平均等位基因失衡比率是0.5%。
在某些实施例中,用于确定是否存在循环肿瘤核酸的方法中的分析步骤包括分析已知呈现癌症中的非整倍性的染色体区段的集合。在某些实施例中,用于确定是否存在循环肿瘤核酸的方法中的分析步骤包括分析在1,000与50,000个之间、或在100与1000个之间的多态基因座的倍性。在某些实施例中,用于确定是否存在循环肿瘤核酸的方法中的分析步骤包括分析在100与1000个之间的单核苷酸变体位点。例如,在这些实施例中,分析步骤可以包括进行多重PCR以扩增横跨1000到50,000个聚合基因座和100到1000个单核苷酸变体位点的扩增子。此多重反应可以设置为单一反应,或设置为不同子集多重反应的池。本文提供的多重反应方法,诸如本文公开的大规模多重PCR提供了进行扩增反应的示例性过程,以帮助达到改进的多重化,从而达到灵敏度水平。
在某些实施例中,对于至少10%、20%、25%、50%、75%、90%、95%、98%、99%或100%的反应,多重PCR反应是在限制性引物条件下进行。可以使用本文中所提供的改进的用于进行大规模多重反应的条件。
在某些方面中,以上用于确定个体的样品中是否存在循环肿瘤核酸的方法和其所有实施例都可以用系统来进行。本公开提供关于用于进行该方法的特定功能和结构特征的教示内容。作为非限制性实例,该系统包括以下:
输入处理器,被配置为分析来自样品的数据以确定个体中的染色体区段上的多态基因座的集合处的倍性;和
建模器,被配置成基于倍性确定来确定存在于多态基因座处的等位基因失衡水平,其中等位基因失衡等于或大于0.5%指示存在循环。
F.检测单核苷酸变体的示例性实施例
在某些方面中,本文中提供用于检测样品中的单核苷酸变体的方法。本文中所提供的改进的方法可以实现样品中的0.015%、0.017%、0.02%、0.05%、0.1%、0.2%、0.3%、0.4%或0.5%的存在的SNV的检测极限。检测SNV的所有实施例都可以用系统来进行。本公开提供关于用于进行该方法的特定功能和结构特征的教示内容。此外,本文中提供包括非瞬时性计算机可读介质的实施例,该非瞬时性计算机可读介质包括计算机可读代码,该计算机可读代码在由处理装置执行时引起处理装置进行本文中所提供的用于检测SNV的方法。
因此,在一个实施例中,本文中提供用于确定来自个体的样品中的基因组位置集合处是否存在单核苷酸变体的方法,所述方法包括:对于每个基因组位置,使用训练数据集产生跨越此基因组位置的扩增子的效率和每个循环的误差率的估算值;接收样品中每个基因组位置的所观察的核苷酸一致性信息;通过比较每个基因组位置处的所观察的核苷酸一致性信息与不同变体百分比的模型来确定由每个基因组位置处的一种或多种真实突变引起的单核苷酸变体百分比的概率集合,所述模型独立地使用每个基因组位置的所估算的扩增效率和每个循环的误差率;和由每个基因组位置的概率集合确定最有可能的真实变体百分比和置信度。
在用于确定是否存在单核苷酸变体的方法的说明性实施例中,产生跨越基因组位置的扩增子集合的效率和每个循环的误差率的估算值。例如,可以包括2、3、4、5、10、15、20、25、50、100个或更多的跨越基因组位置的扩增子。
在用于确定是否存在单核苷酸变体的方法的说明性实施例中,所观察的核苷酸一致性信息包括每个基因组位置的所观察的全部读段的数目和每个基因组位置的所观察的变体等位基因读段的数目。
在用于确定是否存在单核苷酸变体的方法的说明性实施例中,样品是血浆样品且样品的循环肿瘤DNA中存在单核苷酸变体。
在另一实施例中,本文中提供用于估算来自个体的样品中的单核苷酸变体的百分比的方法。所述方法包括以下步骤:在基因组位置集合处,使用训练数据集产生跨越这些基因组位置的一个或多个扩增子的效率和每个循环的误差率的估算值;接收样品中的每个基因组位置的所观察的核苷酸一致性信息;使用扩增子的扩增效率和每个循环的误差率,产生包括初始百分比的真实突变分子的搜索空间的分子总数、背景误差分子和真实突变分子的所估计的平均值和方差;和通过使用所估计的平均值和方差针对样品中的所观察的核苷酸一致性信息拟合分布,通过确定最有可能的真实单核苷酸变体百分比来确定样品中由真实突变引起的单核苷酸变体的百分比。
在此种用于估计样品中的单核苷酸变体的百分比的方法的说明性实例中,样品是血浆样品且样品的循环肿瘤DNA中存在单核苷酸变体。
本发明的此实施例的训练数据集典型地包括来自一名或优选一组健康个体的样品。在某些说明性实施例中,与一个或多个测试中样品在同一天或甚至在同一次运行中分析训练数据集。例如,来自2、3、4、5、10、15、20、25、30、36、48、96、100、192、200、250、500、1000名或更多的健康个体的组的样品可以用于产生训练数据集。当可以获得较大数目(例如96名或更多)的健康个体的数据时,即使在对测试中样品进行该方法之前进行运行,扩增效率估算值的置信度也会提高。PCR误差率可以使用不是仅针对SNV碱基位置,而是针对SNV周围的整个扩增区域所产生的核酸序列信息,因为误差率是以每个扩增子计的。例如,使用来自50名个体的样品和对SNV周围的20个碱基对扩增子进行测序,可以使用来自1000个碱基读段的误差频率数据来确定误差频率比率。
典型地,通过估算扩增区段的扩增效率的平均值和标准差且然后将其针对分布模型(诸如二项分布或β二项分布)进行拟合来估算扩增效率。确定具有已知的循环数目的PCR反应的误差率且然后骨断每个循环的误差率。
在某些说明性实施例中,估算测试数据集的起始分子进一步包括如果所观察的读段数目与所估算的读段数目显著不同,则使用步骤(b)中所估算的起始数目的分子更新测试数据集的效率的估算值。然后,可以针对新的效率和/或起始分子更新估算值。
用于估算分子总数、背景误差分子和真实突变分子的搜索空间可以包括SNV位置处的碱基的从位于下端的0.1%、0.2%、0.25%、0.5%、1%、2.5%、5%、10%、15%、20%或25%至位于上端的1%、2%、2.5%、5%、10%、12.5%、15%、20%、25%、50%、75%、90%或95%的拷贝是SNV碱基的搜索空间。当该方法是检测循环肿瘤DNA时,较低范围(位于下端的0.1%、0.2%、0.25%、0.5%或1%到位于上端的1%、2%、2.5%、5%、10%、12.5%或15%)可以用于血浆样品的说明性实例中。较高的范围用于肿瘤样品。
针对全部分子中的全部误差分子(背景误差和真实突变)的数目拟合分布,以计算针对搜索空间中的每个可能的真实突变的似然性或概率。此种分布可以是二项分布或β二项分布。
通过确定最有可能的真实突变百分比和使用来自拟合分布的数据计算置信度来确定最有可能的真实突变。作为说明性实例且不意图限制本文中所提供的方法的临床解释,如果平均突变率较高,则作出SNV的阳性确定所需的置信度百分比较低。例如,如果使用最有可能的假设的样品中的SNV的平均突变率是5%且置信度百分比是99%,则将作出阳性SNV识别。在这一说明性实例的另一方面,如果使用最有可能的假设的样品中的SNV的平均突变率是1%且置信度百分比是50%,则在某些情形下,将不作出阳性SNV识别。应理解,数据的临床解释将是敏感性、特异性、流行率和替代性产品可用性的函数。
在一个说明性实施例中,样品是循环DNA样品,诸如循环肿瘤DNA样品。
在另一实施例中,本文中提供用于检测来自个体的测试样品中的一种或多种单核苷酸变体的方法。根据这一实施例的方法包括以下步骤:
对于单核苷酸变异位置的集合中的每个单核苷酸变体位置,基于测序运行中产生的结果,确定来自多个正常个体中的每一者的多个对照样品的中值变体等位基因频率,以鉴别正常样品中具有低于阈值的中值变体等位基因频率的所选择的单核苷酸变体位置,并在去除单核苷酸变体位置中的每一个的异常值样品之后,确定单核苷酸变体位置中的每一个的背景误差;基于在测序运行中产生的测试样品的数据,确定测试样品的所选择的单核苷酸变体位置的所观察的读段深度加权平均值和方差;和使用计算机来鉴别一个或多个单核苷酸变体位置,所述一个或多个单核苷酸变体位置与此位置的背景误差相比具有统计显著读段深度加权平均值,由此检测一种或多种单核苷酸变体。
在此种用于检测一种或多种SNV的方法的某些实施例中,样品是血浆样品,对照样品是血浆样品,且所检测的检测到的一种或多种单核苷酸变体存在于样品的循环肿瘤DNA中。在此种用于检测一种或多种SNV的方法的某些实施例中,多个对照样品包括至少25个样品。在某些说明性实施例中,多个对照样品是位于下端的至少5、10、15、20、25、50、75、100、200或250个样品到位于上端的10、15、20、25、50、75、100、200、250、500和1000个样品。
在此种用于检测一种或多种SNV的方法的某些实施例中,从高通量测序运行中产生的数据去除异常值以计算所观察的读段深度加权平均值且确定所观察的方差。在此种用于检测一种或多种SNV的方法的某些实施例中,测试样品的每个单核苷酸变体位置的读段深度是至少100个读段。
在此种用于检测一种或多种SNV的方法的某些实施例中,测序运行包括在限制性引物反应条件下进行的多重扩增反应。使用本文中所提供的改进的用于进行多重扩增反应的方法进行说明性实例中的这些实施例。
不受理论约束,本发明的实施例的方法利用使用正常血浆样品的背景误差模型以解决运行特异性假象,该正常血浆样品是与测试中样品在同一测序运行中测序。去除具有高于阈值的正常中值变体等位基因频率(例如>0.1%、0.2%、0.25%、0.5%、0.75%和1.0%)的噪声位置。
从模型迭代地去除异常值样品以解决噪声和污染。针对每个基因组基因座的每个碱基取代,计算误差的读段深度加权平均值和标准差。在某些说明性实施例中,对具有至少具有阈值数目的读段(例如至少2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、500或1000个变体读段)的单核苷酸变体位置和(在某些实施例中)针对背景误差模型的大于2.5、5、7.5或10的a1 Z评分的样品(诸如肿瘤或游离血浆样品)作为候选突变进行计数。
在某些实施例中,对于单核苷酸变体位置集合中的每个单核苷酸变体位置,在测序运行中达到位于范围的下端的大于100、250、500、1,000、2000、2500、5000、10,000、20,000、25,0000、50,000或100,000个到位于上端的2000、2500、5,000、7,500、10,000、25,000、50,000、100,000、250,000或500,000个读段的读段深度。通常,测序运行是高通量测序运行。在说明性实施例中,由读段深度对测试中样品的所产生的平均值或中值进行加权。因此,具有在1000个读段中检测到的1个变体等位基因的样品中的变体等位基因确定为真的似然性的权重高于具有在10,000个读段中检测到的1个变体等位基因的样品。因为变体等位基因(即,突变)的确定未在100%置信度下进行,所鉴别的单核苷酸变体可视为候选变体或候选突变。
G.用于定相数据的分析的示例性测试统计值
下文描述用于定相数据的分析的示例性测试统计值,该定相数据来自已知或疑似是混合样品的样品,该混合样品含有来源于两种或更多种在遗传学上不一致的细胞的DNA或RNA。令f表示相关DNA或RNA的分数,例如具有相关CNV的DNA或RNA的分数,或来自相关细胞(诸如癌细胞)的DNA或RNA的分数。在癌症测试的一些实施例中,f表示来自癌细胞与正常细胞的混合物中的癌细胞的DNA或RNA的分数,或f表示癌细胞与正常细胞的混合物中的癌细胞的分数。应注意,这是指来自相关细胞的DNA的分数,假设每个相关细胞提供DNA的两个拷贝。这与缺失或复制的区段处的来自相关细胞的DNA分数不同。
将每个SNP的可能的等位基因值表示为A和B。使用AA、AB、BA和BB表示所有可能的有序等位基因对。在一些实施例中,分析具有有序等位基因AB或BA的SNP。令Ni表示第i个SNP的序列读段的数目,且Ai和Bi分别表示指示等位基因A和B的第i个SNP的读段数目。假设:
Ni=Ai+Bi
定义等位基因比率Ri
令TT表示所靶向的SNP的数目。
在不失一般性的情况下,一些实施例关注单一染色体区段。为了更清楚起见,在本说明书中,短语“与第二同源染色体区段相比的第一同源染色体区段”意指染色体区段的第一同系物和染色体区段的第二同系物。在一些这类实施例中,所有靶SNP都包含于相关区段染色体中。在其它实施例中,分析多个染色体区段的可能的拷贝数变化。
MAP估算
此方法利用通过有序等位基因进行定相的知识以检测靶区段的缺失或复制。对于每个SNP i,定义
然后定义
下文描述Xi和S在各种拷贝数假设(诸如二体性、第一或第二同系物的缺失或第一或第二同系物的复制的假设下)的分布。
二体性假设
在靶片段未缺失或复制的假设下,
其中
如果采用恒定读段深度N,那么这提供S具有以下参数的二项分布
和T。
缺失假设
在缺失第一同系物的假设下(即,AB SNP变成B,且BA SNP变成A),那么Ri具有使用以下参数的二项分布:和T(对于AB SNP)以及/>和T(对于BA SNP)。因此,
如果采用恒定读段深度N,那么这提供S具有以下参数的二项分布
和T。
在缺失第二同系物的假设下(即,AB SNP变成A,且BA SNP变成B),那么Ri具有使用以下参数的二项分布:和T(对于AB SNP)以及/>和T(对于BA SNP)。因此,/>
如果采用恒定读段深度N,那么这提供S具有以下参数的二项分布
和T。
复制假设
在复制第一同系物的假设下(即,AB SNP变成AAB,且BA SNP变成BBA),那么Ri具有使用以下参数的二项分布:和T(对于AB SNP)以及/>和T(对于BA SNP)。因此,
如果采用恒定读段深度N,那么这提供具有以下参数S的二项分布
和T。
在复制第二同系物的假设下(即,AB SNP变成ABB,且BA SNP变成BAA),那么Ri具有使用以下参数的二项分布:和T(对于AB SNP)以及/>和T(对于BA SNP)。因此,
如果采用恒定读段深度N,那么这提供具有以下S参数的二项分布
和T。
分类
如以上章节中说明,Xi是二元随机变量,其中
这使得能够在每种假设下计算测试统计值S的概率。可以计算提供所测量的数据的每种假设的概率。在一些实施例中,选择具有最大概率的假设。视需要,S的分布可以通过以下来简化:取每个Ni近似值(来在达到恒定读段深度N下)或通过将读段深度截断为恒定N。这种简化产生
f的值可以使用算法(例如搜索算法),诸如最大似然估算、最大后验估算或贝叶斯估算,通过选择提供所测量的数据的最有可能的f的值(诸如产生最佳数据拟合的f的值)来估算。在一些实施例中,分析多个染色体区段且基于针对每个区段的数据估计f的值。如果所有靶细胞都具有这些复制或缺失,那么基于针对这些不同区段的数据的所估计的f的值是类似的。在一些实施例中,以实验方式测量f,诸如通过基于癌症与非癌性DNA或RNA之间的甲基化差异(低甲基化或超甲基化)来确定来自癌细胞的DNA或RNA的分数。
单一假设拒绝
二体性假设的分布S不取决于f。因此,可以在不计算f的情况下,对于二体性假设计算所测量的数据的概率。单一假设拒绝测试可以用于二体性的零假设。在一些实施例中,计算在二体性假设下的S的概率,且如果概率低于既定阈值(诸如小于1/1,000),那么拒绝二体性的假设。这表示存在染色体区段的复制或缺失。视需要,可以通过调节阈值来改变假阳性率。
H.用于定相数据分析的示例性方法
下文描述用于数据的分析的示例性方法,该数据来自已知或疑似是混合样品的样品,该混合样品含有来源于两种或更多种在遗传学上不一致的细胞的DNA或RNA。在一些实施例中,使用了定相数据。在一些实施例中,该方法涉及针对每个所计算的等位基因比率,确定所计算的等位基因比率是否高于或低于所预期的等位基因比率和对于特定基因座的差的量值。在一些实施例中,确定特定假设的基因座处的等位基因比率的似然性分布,并且所计算的等位基因比率越接近似然性分布的中心,假设正确的可能性越高。在一些实施例中,该方法涉及确定假设对于每个基因座是正确的似然性。在一些实施例中,该方法涉及确定假设对于每个基因座是正确的似然性,和组合每个基因座的此假设的概率,以及选择具有最大组合概率的假设。在一些实施例中,该方法涉及确定假设对于每个基因座和来自一种或多种靶细胞的DNA或RNA与样品中全部DNA或RNA的每种可能的比率是正确的似然性。在一些实施例中,通过组合每个基因座和每种可能的比率的此假设的概率来确定针对每种假设的组合概率,且选择具有最大组合概率的假设。
在一个实施例中,考虑以下假设:H11(所有细胞正常)、H10(存在仅具有同系物1,因此同系物2缺失的细胞)、H01(存在仅具有同系物2,因此同系物1缺失的细胞)、H21(存在具有同系物1复制的细胞)、H12(存在具有同系物2复制的细胞)。对于靶细胞(诸如癌细胞或嵌合体细胞)的分数f(或来自靶细胞的DNA或RNA的分数),可如下发现杂合(AB或BA)SNP的所预期的等位基因比率:
等式(1):
r(AB,H11)=r(BA,H11)=0.5,
偏差、污染和测序误差校正:
SNP处的观察结果Ds由在每个等位基因存在情况下的原始映射读段nA 0和nB 0的数目组成。然后,可以使用A和B等位基因的扩增中的所预期的偏差获得经校正的读段nA和nB
令ca表示环境污染(诸如来自在空气或环境中的DNA的污染),并且令r(ca)表示环境污染的等位基因比率(其最初是0.5)。此外,cg表示基因分型污染率(诸如来自另一样品的污染),且r(cg)是污染的等位基因比率。令se(A,B)和se(B,A)表示用于将一个等位基因识别为不同等位基因的测序误差(诸如在存在B等位基因时,错误地检测A等位基因)。
可以通过校正环境污染、基因分型污染和测序误差来获得既定所预期的等位基因比率r的所观察的等位基因比率q(r,ca,r(ca),cg,r(cg),se(A,B),se(B,A))。
因为污染物基因型是未知的,因此可以使用群体频率获得P(r(cg))。令p是一种等位基因(该等位基因可以称为参考等位基因)的群体频率。那么,得到P(r(cg)=0)=(1-p)2、P(r(cg)=0)=2p(1-p)、和P(r(cg)=0)=p2。在r(cg)下的条件期望可以用于确定E[q(r,ca,r(ca),cg,r(cg),se(A,B),se(B,A))]。应注意,环境和基因分型污染是使用纯合SNP确定,因此它们不受不存在或存在缺失或复制影响。此外,视需要,有可能使用参考染色体来测量环境和基因分型污染。
每个SNP处的似然性:
以下等式提供在既定等位基因比率r下,观察nA和nB的概率:
等式(2):
令Ds表示针对SNP的数据。对于每种假设h∈{H11,H01,H10,H21,H12},可以令等式(1)中r=r(AB,h)或r=r(BA,h)且获得在r(cg)下的条件期望以确定所观察的等位基因比率E[q(r,ca,r(ca),cg,r(cg))]。然后,令等式(2)中r=E[q(r,ca,r(ca),cg,r(cg),se(A,B),se(B,A))],可以确定P(Ds|h,f)。
搜索算法:
在一些实施例中,忽略等位基因比率似乎是异常值的SNP(诸如通过忽略或消除等位基因比率比平均值高或低至少2倍或3倍标准差的SNP)。应注意,对于这一方法鉴定的优点是在存在较高嵌合体百分比的情况下,等位基因比率的可变性可以是较高的,因此这确保SNP将不会由于嵌合体而被修整。
令F={f1,…,fN}表示嵌合体百分比(诸如肿瘤分数)的搜索空间。可以确定每个SNP和f∈F处的P(Ds|h,f),且组合所有SNP的似然性。
针对每种假设对每个f应用算法。使用搜索方法,如果存在其中缺失或复制假设的置信度高于无缺失和无复制假设的置信度的f的范围F*,那么可以得出存在嵌合体的结论。在一些实施例中,确定F*中P(Ds|h,f)的最大似然估算值。视需要,可以确定在f∈F*下的条件期望。视需要,可以确定每种假设的置信度。
在一些实施例中,使用β二项分布代替二项分布。在一些实施例中,使用参考染色体或染色体区段确定β二项的样品特异性参数。
使用模拟的理论性能:
视需要,可以通过对具有既定读段深度(DOR)的SNP随机分配参考读段的数目来评估算法的理论性能。在正常情况下,将p=0.5用于二项概率参数,且对于缺失或复制,相应地修改p。每次模拟的示例性输入参数如下:(1)SNP的数目S,(2)每个SNP的恒定DOR D,(3)p和(4)实验数目。
第一模拟实验:
本实验关注S∈{500,1000}、D∈{500,1000}和p∈{0%,1%,2%,3%,4%,5%}。我们在每种设置下进行1,000个模拟实验(因此,24,000个实验具有相位,和24,000个不具有相位)。我们由二项分布模拟读段数目(视需要,可以使用其它分布)。在具有或不具有相信息的情况下确定假阳性率(在p=0%的情况下)和假阴性率(在p>0%的情况下)。应注意,相信息非常有帮助,尤其对于S=1000、D=1000。但对于S=500、D=500,算法在具有或不具有所测试的条件以外的相的情况下具有最高假阳性率。
相信息对于低嵌合体百分比(≤3%)尤其适用。在不具有相信息的情况下,对于p=1%观察到高假阴性水平,因为缺失置信度是通过对H10和H01分配相等机率而确定,且有利于一种假设的小偏差不足以补偿来自其它假设的低似然性。这也适用于复制。还应注意,与SNP的数目相比,算法似乎对读段深度更敏感。对于具有相信息的结果,我们假设可以获得许多连续杂合SNP的完美相信息。视需要,可以通过在较小区段上概率性地组合单倍型来获得单倍型信息。
第二模拟实验:
本实验关注S∈{100,200,300,400,500}、D∈{1000,2000,3000,4000,5000}和p∈{0%,1%,1.5%,2%,2.5%,3%},并且在每种设置下进行10000个随机实验。在具有或不具有相信息的情况下确定假阳性率(在p=0%的情况下)和假阴性率(在p>0%的情况下)。使用单倍型信息,对于D≥3000和N≥200,假阴性率低于10%,而在D=5000和N≥400情况下达到相同性能。假阴性率之间的差在小的嵌合体百分比的情况下尤其显著。例如,当p=1%时,在不具有单倍型数据的情况下从未达到小于20%假阴性率,然而对于N≥300和D≥3000,假阴性率接近于0%。对于p=3%,在具有单倍型数据的情况下观察到0%的假阴性率,而在不具有单倍型数据的情况下,需要N≥300和D≥3000才能达到相同性能。
I.用于在不具有定相数据的情况下检测缺失和复制的示例性方法
在一些实施例中,使用非定相基因数据确定在个体的基因组中(诸如在一种或多种细胞的基因组中或在cfDNA或cfRNA中),与第二同源染色体区段相比,是否存在第一同源染色体区段的拷贝数目的过度表达。在一些实施例中,使用定相基因数据,但忽略定相。在一些实施例中,DNA或RNA的样品是来自个体的cfDNA或cfRNA的混合样品,该混合样品包括来自两种或更多种在遗传学上不同的细胞的cfDNA或cfRNA。在一些实施例中,该方法利用针对基因座中的每个的所计算的等位基因比率与所预期的等位基因比率之间的差的量值。
在一些实施例中,该方法涉及通过测量每个基因座处的每种等位基因的数量,获得DNA或RNA样品中的染色体或染色体区段上的多态基因座的集合处的基因数据,该DNA或RNA样品来自个体的一种或多种细胞。在一些实施例中,计算至少一种衍生样品的细胞中的杂合基因座的等位基因比率。在一些实施例中,针对特定基因座计算的等位基因比率是针对该基因座的一种等位基因的测量数量除以所有等位基因的总测量数量。在一些实施例中,针对特定基因座计算的等位基因比率是针对该基因座的一种等位基因(诸如第一同源染色体区段上的等位基因)的测量数量除以一种或多种其它等位基因(诸如第二同源染色体区段上的等位基因)的测量数量。所计算的等位基因比率和所预期的等位基因比率可以使用本文中所描述的任何方法或任何标准方法(诸如本文中所描述的所计算的等位基因比率或所预期的等位基因比率的任何数学转换)来计算。
在一些实施例中,基于针对基因座中的每个的所计算的等位基因比率与所预期的等位基因比率之间的差的量值计算测试统计值。在一些实施例中,使用Δ下式计算测试统计值
其中δi是第i个基因座的所计算的等位基因比率与所预期的等位基因比率之间的差的量值;
其中μi是δi的平均值;和
其中是δi的标准差。
例如,当所预期的等位基因比率是0.5时δi可以定义如下:
μi和σi的值可以使用Ri是二项随机变量的事实来计算。在一些实施例中,假设所有基因座的标准差是相同的。在一些实施例中,将标准差的平均值或加权平均值或标准差的估算值用于的值,在一些实施例中,假设测试统计值具有正态分布。例如,中心极限定理意味着随着基因座数目(诸如SNP T的数目)增加,Δ的分布收敛成标准正态。
在一些实施例中,列举指定一种或多种细胞的基因组中的染色体或染色体区段的拷贝数目的一种或多种假设的集合。在一些实施例中,选择最有可能基于测试统计值的假设,由此确定一种或多种细胞的基因组中的染色体或染色体区段的拷贝数目。在一些实施例中,如果测试统计值属于一种假设的测试统计值的分布的概率高于上限阈值,则选择该假设;如果测试统计值属于一种或多种假设的测试统计值的分布的概率低于下限阈值,则拒绝该一种或多种假设;或如果测试统计值属于一种假设的测试统计值的分布的概率在下限阈值与上限阈值之间或如果未在足够高的置信度下确定概率,则既不选择也不拒绝该假设。在一些实施例中,由经验分布确定上限阈值和/或下限阈值,诸如来自训练数据的分布(诸如具有已知的拷贝数的样品,诸如二倍体样品或已知具有特定缺失或复制的样品)。这种经验分布可以用于选择用于单一假设拒绝测试的阈值。应注意,测试统计值Δ与S无关且因此这两者都可以视需要而独立地使用。
J.用于使用等位基因分布或模式来检测缺失和复制的示例性方法
本章节包括用于确定与第二同源染色体区段相比,是否存在第一同源染色体区段的拷贝数目的过度表达的方法。在一些实施例中,该方法涉及列举(i)指定个体的一种或多种细胞(诸如癌细胞)的基因组中的染色体或染色体区段的拷贝数目的多个假设,或(ii)指定在个体的一种或多种细胞的基因组中,与第二同源染色体区段相比,第一同源染色体区段的拷贝数目的过度表达程度的多个假设。在一些实施例中,该方法涉及从个体获得染色体或染色体区段上的多个多态基因座(诸如SNP基因座)处的基因数据。在一些实施例中,针对假设中的每一者创建个体的所预期的基因型的概率分布。在一些实施例中,计算个体的所获得的基因数据与个体的所预期的基因型的概率分布之间的数据拟合。在一些实施例中,根据数据拟合对一种或多种假设进行分级,且选择等级最高的假设。在一些实施例中,使用技术或算法(诸如搜索算法)进行以下步骤中的一个或多个:计算数据拟合、对假设进行分级或选择等级最高的假设。在一些实施例中,数据拟合是针对β-二项分布的拟合或针对二项分布的拟合。在一些实施例中,技术或算法选自由以下各项组成的组:最大似然估算、最大后验估算、贝叶斯估算(Bayesian estimation)、动态估算(诸如动态贝叶斯估计)和最大期望估算。在一些实施例中,该方法包括对所获得的基因数据和所预期的基因数据应用该技术或算法。
在一些实施例中,该方法涉及列举(i)指定个体的一种或多种细胞(诸如癌细胞)的基因组中的染色体或染色体区段的拷贝数目的多个假设,或(ii)指定在个体的一种或多种细胞的基因组中,与第二同源染色体区段相比,第一同源染色体区段的拷贝数目的过度表达程度的多个假设。在一些实施例中,该方法涉及从个体获得染色体或染色体区段上的多个多态基因座(诸如SNP基因座)处的基因数据。在一些实施例中,基因数据包括多个多态基因座的等位基因计数。在一些实施例中,针对每种假设,创建染色体或染色体区段上的多个多态基因座处的所预期的等位基因计数的联合分布模型。在一些实施例中,使用联合分布模型和在样品上测量的等位基因计数来确定针对一种或多种假设的相对概率,并且选择具有最大概率的假设。
在一些实施例中,使用等位基因的分布或模式(诸如所计算的等位基因比率的模式)来确定存在或不存在CNV,诸如缺失或复制。视需要,可以基于这一模式确定CNV的亲本来源。
K.示例性计数方法/定量方法
在一些实施例中,使用一种或多种计数方法(也称为定量方法)来检测一种或多种CNS,诸如染色体区段或整个染色体的缺失或复制。在一些实施例中,使用一种或多种计数方法来确定第一同源染色体区段的拷贝数目的过度表达是否是由第一同源染色体区段的复制或第二同源染色体区段的缺失引起。在一些实施例中,使用一种或多种计数方法来确定所复制的染色体区段或染色体的额外拷贝数目(诸如是否存在1、2、3、4个或更多的额外拷贝)。在一些实施例中,使用一种或多种计数方法来区分具有许多复制和较小肿瘤分数的样品与具有较少复制和较大肿瘤分数的样品。例如,可以使用一种或多种计数方法来区分具有四个额外染色体拷贝且肿瘤分数是10%的样品与具有两个额外染色体拷贝且肿瘤分数是20%的样品。示例性方法公开于例如美国公开第2007/0184467号;第2013/0172211号;和第2012/0003637号;美国专利第8,467,976号;第7,888,017号;第8,008,018号;第8,296,076号;和第8,195,415号;2014年6月5日提交的美国序列号62/008,235和2014年8月4日提交的美国序列号62/032,785中,其各自特此通过引用的方式全文并入。
在一些实施例中,计数方法包括对映射到一个或多个既定染色体或染色体区段的基于DNA序列的读段的数目进行计数。一些这类方法涉及产生映射到特定染色体或染色体区段的DNA序列读段的数目的参考值(截止值),其中多个读段超过该值指示特异性基因异常。
在一些实施例中,比较一个或多个基因座的所有等位基因的总测量数量(诸如多态或非多态基因座的总量)与参考量。在一些实施例中,参考量是(i)阈值,或(ii)特定拷贝数假设的所预期的量。在一些实施例中,参考量(对于不存在CNV)是已知或预期不具有缺失或复制的一个或多个染色体或染色体区段的一个或多个基因座的所有等位基因的总测量数量。在一些实施例中,参考量(对于存在CNV)是已知或预期具有缺失或复制的一个或多个染色体或染色体区段的一个或多个基因座的所有等位基因的总测量数量。在一些实施例中,参考量是一个或多个参考染色体或染色体区段的一个或多个基因座的所有等位基因的总测量数量。在一些实施例中,参考量是两个或更多个不同染色体、染色体区段或不同样品的所确定的值的平均值或中值。在一些实施例中,使用随机(例如大规模平行鸟枪法测序)或靶向测序来确定一种或多种多态或非多态基因座的量。
在利用参考量的一些实施例中,所述方法包括:(a)测量相关染色体或染色体区段上的遗传物质的量;(b)比较来自步骤(a)的量与参考量;和(c)基于所述比较来鉴别存在或不存在缺失或复制。
在利用参考染色体或染色体区段的一些实施例中,方法包括对来自样品的DNA或RNA进行测序以获得与靶基因座对准的多个序列标签。在一些实施例中,序列标签具有足够的长度以分配到特定靶基因座(例如,长度是15-100个核苷酸);靶基因座是来自多个不同的染色体或染色体区段,多个不同的染色体或染色体区段包括至少一个疑似在样品中具有非正态分布的第一染色体或染色体区段和至少一个假定在样品中正态分布的第二染色体或染色体区段。在一些实施例中,将多个序列标签分配到其相应的靶基因座。在一些实施例中,确定与第一染色体或染色体区段的靶基因座对准的序列标签的数目和与第二染色体或染色体区段的靶基因座对准的序列标签的数目。在一些实施例中,比较这些数目以确定存在或不存在第一染色体或染色体区段的非正态分布(诸如缺失或复制)。
在一些实施例中,将f的值(诸如肿瘤分数)用于CNV确定,诸如用于比较两个染色体或染色体区段的量之间的所观察的差异与在既定f值下的特定类型的CNV的所预期的差异(参见例如美国公开第2012/0190020号;美国公开第2012/0190021号;美国公开第2012/0190557号;美国公开第2012/0191358号,其各自特此通过引用的方式全文并入)。例如,与二体性参考染色体区段进行比较的在肿瘤中复制的染色体区段的量的差异随肿瘤分数增加而增加。在一些实施例中,该方法包括比较相关染色体或染色体区段针对参考染色体或染色体区段(诸如预期或已知为二体性的染色体或染色体区段)的相对频率与f的值,以确定CNV的似然性。例如,可以比较第一染色体或染色体区段与参考染色体或染色体区段之间的量的差与在各种可能的CNV(诸如相关染色体区段的一个或两个额外拷贝)的既定f值下的预期值。
以下预示性实例说明使用计数方法/定量方法来区分第一同源染色体区段的复制与第二同源染色体区段的缺失。如果将宿主的正常二体性基因组视为基线,则正常细胞与癌细胞的混合物的分析产生基线与混合物中的癌症DNA之间的平均差。例如,设想其中样品中的10%的DNA是来源于在测定所靶向的染色体区域中具有缺失的细胞的情况。在一些实施例中,定量方法示出了对应于此区域的读段数量预期是正常样品的预期值的95%。这是因为遗失了具有所靶向的区域的缺失的肿瘤细胞中的每一者中的两个靶染色体区域中的一个且因此映射到此区域的DNA的总量是90%(对于正常细胞)加1/2x 10%(对于肿瘤细胞)=95%。或者,在一些实施例中,等位基因方法示出了杂合基因座处的等位基因的平均比率是19:20。现在设想其中样品中的10%的DNA是来源于具有测定所靶向的染色体区域的五倍局部扩增的细胞的情况。在一些实施例中,定量方法示出了对应于此区域的读段数量预期是正常样品的预期值的125%。这是因为在所靶向的区域中,具有五倍局部扩增的肿瘤细胞中的每一者中的两个靶染色体区域中的一个被额外复制五次,且因此映射到此区域的DNA的总量是90%(对于正常细胞)加(2+5)x 10%/2(对于肿瘤细胞)=125%。或者,在一些实施例中,等位基因方法示出了杂合基因座处的等位基因的平均比率是25:20。应注意,当单独使用等位基因方法时,具有10%的cfDNA的样品中的染色体区域的五倍局部扩增可能显得与具有40%的cfDNA的样品中的相同区域的缺失相同;在这两种情况下,在缺失的情况下表达不足的单倍型似乎是在局部复制的情况下不具有CNV的单倍型,且在缺失的情况下不具有CNV的单倍型似乎是在局部复制的情况下过度表达的单倍型。将由这种等位基因方法产生的似然性与由定量方法产生的似然性组合来区分两种可能性。
L.使用参考样品的示例性计数方法/定量方法
使用一种或多种参考样品的示例性定量方法描述于2014年6月5日提交的美国序列号62/008,235和2014年8月4日提交的美国序列号62/032,785中,其特此通过引用的方式全文并入。在一些实施例中,通过以下方式来鉴别最有可能在一种或多种染色体或相关染色体上不具有任何CNV的一种或多种参考样品(例如正常样品):选择具有最高肿瘤DNA分数的样品、选择z评分最接近于零的样品、选择其中数据以最高置信度或似然性符合拟合于不存在CNV的假设的样品、选择已知是正常的样品、选择来自具有最低患癌似然性的个体(例如,年龄较小、参加乳腺癌筛选的男性、不具有家族病史等)的样品、选择具有最高DNA输入量的样品、选择具有最高信噪比的样品、基于相信与患癌似然性相关的其它准则选择样品或使用某一准则组合选择样品。在选择参考集合后,可以作出这些情况是二体性的假设,且接着估算每个SNP的偏差,也就是说,每个基因座的实验特异性扩增和其它处理偏差。然后,可以使用这种实验特异性偏差估算值来校正相关染色体(诸如染色体21基因座)和其它染色体基因座(如适当)、并非其中假设染色体21是二体性的子集的一部分的样品的测量结果中的偏差。在校正这些具有未知倍性的样品中的偏差之后,然后可以使用相同或不同方法来第二次分析针对这些样品的数据,以确定个体是否罹患21三体性。例如,可以对其余具有未知倍性的样品使用定量方法,且可以使用染色体21的经校正的所测量的基因数据来计算z评分。或者,作为染色体21的倍性状态的初步估算的一部分,可以计算来自疑似患有癌症的个体的样品的肿瘤分数。可以计算在具有该肿瘤分数的情况下,在二体性(二体性假设)的情况下所预期的经校正的读段的比例和在三体性(三体性假设)的情况下所预期的经校正的读段的比例。或者,如果未预先测量肿瘤分数,那么可以针对不同肿瘤分数产生二体性和三体性假设的集合。对于每种情况,考虑到各种DNA基因座的选择和测量结果中的所预期的统计变化,可以计算经校正的读段的比例的预期分布。对于具有未知倍性的样品中的每一者,可以比较所观察的经校正的读段比例与所预期的经校正的读段比例的分布,且可以计算二体性和三体性假设的似然比。可以选择与具有最高的所计算的似然性的假设相关的倍性状态作为正确的倍性状态。
在一些实施例中,可以选择具有足够低的患癌似然性的样品的子集作为对照样品的集合。子集可以是固定数目,或该子集可以是基于仅选择低于阈值的样品的可变数目。可以将来自样品的子集的定量数据组合、求平均值或使用加权平均值组合,其中加权是基于样品是正常的似然性。可以使用定量数据来确定当前批次的对照样品中的样品测序扩增中的每个基因座的偏差。每个基因座的偏差还可以包括来自其它批次的样品的数据。每个基因座的偏差可以指示此基因座与其它基因座相比,所观察到的相对扩增过度或扩增不足,作出样品的子集不含任何CNV以及任何所观察到的扩增过度或扩增不足是由扩增和/或测序或其它偏差引起的假设。每个基因座的偏差可以考虑扩增子的GC含量。出于计算每个基因座的偏差的目的,可以将基因座分组成基因座组。在针对多个基因座中的每个基因座计算每个基因座的偏差之后,可以通过调节每个基因座的定量测量结果以去除此基因座处的偏差的影响来校正不属于样品的子集的一个或多个样品和任选地,属于样品的子集的一个或多个样品的测序数据。例如,如果在患者的子集中观察到SNP 1的读段深度是平均值的两倍,则调节可以涉及将对应于SNP 1的读段数目替换为大小是该数目的一半的数目。如果所讨论的基因座是SNP,则调节可以涉及使对应于此基因座处的等位基因中的每一者的读段数目减小一半。在调节一个或多个样品中的基因座中的每一者的测序数据之后,可以使用用于检测一个或多个染色体区域中CNV的存在的方法来分析该测序数据。
在一个实例中,样品A是来源于使用定量方法分析的正常细胞与癌性细胞的混合物的经扩增的DNA的混合物。下文说明示例性的可能数据。发现在染色体22上的q臂的一个区域中,映射到此区域的DNA仅是预期的90%;发现在对应于HER2基因的局部区域中,映射到此区域的DNA是预期的150%;且发现在染色体5的p臂中,映射到该p臂的DNA是预期的105%。临床医生可推断样品具有染色体22上的q臂上的一个区域的缺失,和HER2基因的复制。临床医生可以推断因为22q缺失在乳腺癌中是常见的且因为在两条染色体上具有22q区域的缺失的细胞通常不能存活,样品中的约20%的DNA来自在两条染色体中的一条上具有22q缺失的细胞。临床医生还可以推断,如果来自来源于肿瘤细胞的混合样品的DNA是来源于遗传肿瘤细胞的集合且该遗传肿瘤细胞的HER2区域和22q区域是同源的,则该细胞含有HER2区域的五倍复制。
在一个实例中,还使用等位基因方法分析样品A。下文说明示例性的可能数据。染色体22上的q臂上的同一个区域中的两种单倍型以4:5的比率存在;对应于HER2基因的局部区域中的两种单倍型以1:2的比率存在;且染色体5的p臂中的两种单倍型以20:21的比率存在。基因组的所有其它经测定的区域都不具有统计显著过量的任何单倍型。临床医生可以推断,样品含有来自在22q区域、HER2区域和5p臂中具有CNV的肿瘤的DNA。基于对22q缺失在乳腺癌中极常见的了解和/或定量分析示出映射到基因组的22q区域的DNA的量的表达不足,临床医生可以推断存在具有22q缺失的肿瘤。基于对HER2扩增在乳腺癌中极常见的了解和/或定量分析示出映射到基因组的HER2区域的DNA的量的过度表达,临床医生可以推断存在具有HER2扩增的肿瘤。
M.示例性参考染色体或染色体片段
在一些实施例中,还对一种或多种参考染色体或染色体区段进行本文中所描述的任何方法且将结果与一种或多种相关染色体或染色体区段的结果进行比较。
在一些实施例中,使用参考染色体或染色体区段作为预期不存在CNV的情况的对照。在一些实施例中,参考物是来自一个或多个不同样品的相同染色体或染色体区段,已知或预期该一个或多个不同样品在此染色体或染色体区段中不具有缺失或复制。在一些实施例中,参考物是来自所测试的样品的预期是二体性的不同染色体或染色体区段。在一些实施例中,参考物是来自相同的所测试的样品中的一种相关染色体的不同区段。例如,参考物可以是位于具有潜在的缺失或复制的区域的外部的一个或多个区段。参考相同的所测试的染色体避免了不同染色体之间的可变性,诸如染色体之间的代谢、细胞凋亡、组蛋白、失活和/或扩增中的差异。分析与所测试的染色体相同的染色体上的不具有CNV的区段也可以用于确定同系物之间的代谢、细胞凋亡、组蛋白、失活和/或扩增中的差异,使得能够确定在不存在CNV的情况下的同系物之间的可变性水平,以与来自潜在CNV的结果进行比较。在一些实施例中,潜在CNV的所计算的与所预期的等位基因比率之间的差的量值大于参考物的相应的量值,由此证实存在CNV。
在一些实施例中,使用参考染色体或染色体区段作为预期存在CNV的情况(诸如相关特定缺失或复制)的对照。在一些实施例中,参考物是来自一个或多个不同样品的相同染色体或染色体区段,已知或预期该一个或多个不同样品在此染色体或染色体区段中具有缺失或复制。在一些实施例中,参考物是来自已知或预期具有CNV的所测试的样品的不同染色体或染色体区段。在一些实施例中,潜在CNV的所计算的与所预期的等位基因比率之间的差的量值与CNV的参考物的相应量值类似(诸如不显著不同),由此证实存在CNV。在一些实施例中,潜在CNV的所计算的与所预期的等位基因比率之间的差的量值小于(诸如显著小于)CNV的参考物的相应量值,由此证实不存在CNV。在一些实施例中,使用其中癌细胞的基因型(或来自癌细胞的DNA或RNA,诸如cfDNA或cfRNA)与非癌性细胞的基因型(或来自非癌性细胞的DNA或RNA,诸如cfDNA或cfRNA)不同的一个或多个基因座来确定肿瘤分数。肿瘤分数可以用于确定第一同源染色体区段的拷贝数目的过度表达是否是由第一同源染色体区段的复制或第二同源染色体区段的缺失引起。肿瘤分数还可以用于确定被复制的染色体区段或染色体的额外拷贝的数目(诸如是否存在1、2、3、4个或更多的额外拷贝),诸如用于区分具有四个额外染色体拷贝且肿瘤分数是10%的样品与具有两个额外染色体拷贝且肿瘤分数是20%的样品。肿瘤分数还可以用于确定可能的CNV的所观察的数据与所预期的数据的拟合情况。在一些实施例中,CNV的过度表达的程度用于为个体选择特定疗法或治疗方案。例如,一些治疗剂仅对染色体片段的至少四个、六个或更多个拷贝有效。
在一些实施例中,用于确定肿瘤分数的一个或多个基因座位于参考染色体或染色体区段上,诸如已知或预期是二体性的染色体或染色体区段、在癌细胞中通常极少复制或缺失的或在个体已知患有或具有增加的风险地患有的特定类型的癌症中的染色体或染色体区段,或不太可能是非整倍性的染色体或染色体区段(诸如预期在缺失或复制的情况下会引起细胞死亡的区段)。在一些实施例中,使用本发明的任何方法来证实参考染色体或染色体区段在癌细胞和非癌性细胞二者中都是二体性的。在一些实施例中,使用具有较高的二体性识别置信度的一个或多个染色体或染色体区段。
可以用于确定肿瘤分数的示例性基因座包括癌细胞(或DNA或RNA,诸如来自癌细胞的cfDNA或cfRNA)中的不存在于个体的非癌性细胞(或来自非癌性细胞的DNA或RNA)中的多态现象或突变(诸如SNP)。在一些实施例中,通过以下方式来确定肿瘤分数:在来自个体的样品(诸如血浆样品或肿瘤活检)中,鉴别其中癌细胞(或来自癌细胞的DNA或RNA)具有非癌性细胞(或来自非癌性细胞的DNA或RNA)中不存在的等位基因的多态基因座;和使用一个或多个所鉴别的多态基因座处的癌细胞独特的等位基因的量来确定样品中的肿瘤分数。在一些实施例中,非癌性细胞对于多态基因座处的第一等位基因来说是纯合的,且癌细胞(i)对于第一等位基因和第二等位基因来说是杂合的,或(ii)对于多态基因座处的第二等位基因来说是纯合的。在一些实施例中,非癌性细胞对于多态基因座处的第一等位基因和第二等位基因来说是杂合的,且癌细胞(i)具有多态基因座处的第三等位基因的一个或两个拷贝。在一些实施例中,假设或已知癌细胞仅具有非癌性细胞中不存在的等位基因的一个拷贝。例如,如果非癌性细胞的基因型是AA且癌细胞是AB且样品中的此基因座处的5%的信号来自B等位基因且95%来自A等位基因,则样品的肿瘤分数是10%。在一些实施例中,假设或已知癌细胞具有非癌性细胞中不存在的等位基因的两个拷贝。例如,如果非癌性细胞的基因型是AA且癌细胞是BB且样品中的此基因座处的5%的信号来自B等位基因且95%来自A等位基因,则样品的肿瘤分数是5%。在一些实施例中,分析其中癌细胞具有非癌性细胞中不存在的等位基因的多个基因座以确定癌细胞中哪些基因座是杂合的和哪些是纯合的。例如,对于其中非癌性细胞是AA的基因座来说,如果来自B等位基因的信号在一些基因座处是约5%且在一些基因座处是约10%,则假设癌细胞在具有约5%的B等位基因的基因座处是杂合的,且在具有约10%的B等位基因的基因座处是纯合的(指示肿瘤分数是约10%)。
可以用于确定肿瘤分数的示例性基因座包括其中癌细胞和非癌性细胞共同具有一个等位基因的基因座(诸如其中癌细胞是AB且非癌性细胞是BB、或癌细胞是BB且非癌性细胞是AB的基因座)。比较混合样品(含有来自癌细胞和非癌性细胞的DNA或RNA)中A信号的量、B信号的量或A与B信号的比率与以下的相应值:(i)含有仅来自癌细胞的DNA或RNA的样品、或(ii)含有仅来自非癌性细胞的DNA或RNA的样品。使用值的差来确定混合样品的肿瘤分数。
在一些实施例中,可以用于确定肿瘤分数的基因座是基于以下的基因型来选择的:(i)含有仅来自癌细胞的DNA或RNA的样品,和/或(ii)含有仅来自非癌性细胞的DNA或RNA的样品。在一些实施例中,基因座是基于混合样品的分析来选择的,诸如满足以下条件的基因座:每种等位基因的绝对量或相对量与在癌细胞和非癌性细胞二者在特定基因座处都具有相同基因型的情况下的预期值不同。例如,如果癌细胞和非癌性细胞具有相同基因型,则预期基因座在所有细胞是AA的情况下将产生0%的B信号、在所有细胞是AB的情况下将产生50%的B信号或在所有细胞是BB的情况下将产生100%的B信号。B信号的其它值指示此基因座处的癌细胞和非癌性细胞的基因型不同且因此此基因座可以用于确定肿瘤分数。
在一些实施例中,比较基于一个或多个基因座处的等位基因所计算的肿瘤分数与使用一种或多种本文中所公开的计数方法所计算的肿瘤分数。
N.用于检测表型或分析多种突变的示例性方法
在一些实施例中,该方法包括分析样品中与疾病或病症(诸如癌症)或增加的疾病或病症风险相关的突变的集合。在可以用于改进方法的信噪比和将肿瘤分类成不同临床子集的类别(诸如M或C癌症类别)内的事件之间存在强相关性。例如,联合地考虑的一个或多个染色体或染色体区段上的少数突变(诸如少数CNV)的边界结果可以是极强的信号。在一些实施例中,确定存在或不存在多种相关多态现象或突变(诸如2、3、4、5、8、10、12、15种或更多种)提高了存在或不存在疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)的风险的确定的敏感性和/或特异性。在一些实施例中,使用横跨多个染色体的事件之间的相关性,以便与单独查看它们中的每个相比更有效地查看一个信号。该方法本身的设计可以优化以对肿瘤进行最佳分类。对于对一种特定突变/CNV的敏感性可能至关重要的复发来说,这可以惊人地适用于早期检测和筛检。在一些实施例中,事件未必总是相关,但具有相关的可能性。在一些实施例中,使用具有噪声协方差矩阵的矩阵估算公式,该噪声协方差矩阵具有非对角项。
在一些实施例中,本发明的特征在于一种检测个体中的表型(诸如癌症表型)的方法,其中该表型是由存在突变的集合中的至少一种来定义。在一些实施例中,该方法包括:获得来自个体的一种或多种细胞的DNA或RNA样品的DNA或RNA测量结果,其中细胞中的一种或多种疑似具有表型;和对于突变的集合中的突变中的每一者,分析DNA或RNA测量结果以确定细胞中的至少一种具有此突变的似然性。在一些实施例中,该方法包括在以下情况下确定个体具有表型:(i)对于突变中的至少一种,细胞中的至少一种含有此突变的似然性大于阈值,或(ii)对于突变中的至少一种,细胞中的至少一种具有此突变的似然性小于阈值,并且对于多种突变,细胞中的至少一种具有突变中的至少一种的组合似然性大于阈值。在一些实施例中,一种或多种细胞具有突变的集合中的突变的子集或所有突变。在一些实施例中,突变的子集与癌症或增加的癌症风险相关。在一些实施例中,突变的集合包括M类癌症突变中的突变的子集或所有突变(Ciriello,Nat Genet.45(10):1127-1133,2013,doi:10.1038/ng.2762,其特此通过引用的方式全文并入)。在一些实施例中,突变的集合包括C类癌症突变中的突变的子集或所有突变(Ciriello,见上文)。在一些实施例中,样品包括细胞游离DNA或RNA。在一些实施例中,DNA或RNA测量结果包括一个或多个相关染色体或染色体区段上的多态基因座的集合处的测量结果(诸如每个基因座处的每种等位基因的数量)。
O.示例性方法组合
为了提高结果的准确性,进行两种或更多种用于检测存在或不存在CNV的方法(诸如本发明的任何方法或任何已知的方法)。在一些实施例中,进行一种或多种用于分析指示存在或不存在疾病或病症或增加的疾病或病症风险的因子的方法(诸如本文中所描述的任何方法或任何已知的方法)。
在一些实施例中,使用标准数学技术来计算两种或更多种方法之间的协方差和/或相关性。标准数学技术还可以用于基于两种或更多种测试来确定特定假设的组合概率。示例性技术包括元分析、用于独立测试的费舍尔组合概率测试、用于组合具有已知协方差的依赖性p值的布朗方法、和用于组合具有未知协方差的依赖性p值的考斯特方法。在通过第一方法,以与第二方法确定似然性的方式正交或不相关的方式确定似然性的情况下,组合似然性是简单的且可以通过相乘和归一化或通过使用如以下的公式来进行:
Rcomb=R1R2/[R1R2+(1-R1)(1-R2)]
Rcomb是组合似然性,且R1和R2是单独似然性。例如,如果来自方法1的三体性的似然性是90%且来自方法2的三体性的似然性是95%,则组合来自两种方法的输出允许临床医生得出以下结论:胎儿是三体性的似然性是(0.90)(0.95)/[(0.90)(0.95)+(1–0.90)(1–0.95)]=99.42%。在第一方法不与第二方法正交的情况下,也就是说,当两种方法之间存在相关性时,仍可以组合似然性。
用于分析多个因子或变量的示例性方法公开于2011年9月20日颁布的美国专利第8,024,128号;2006年7月31日提交的美国公开第2007/0027636号;和2006年12月6日提交的美国公开第2007/0178501号中,其各自特此通过引用的方式全文并入)。
在各种实施例中,特定假设或诊断的组合概率大于80、85、90、92、94、96、98、99或99.9%,或大于某一其他阈值。
P.检测极限
如由可行实例中提供的实验证明,本文中所提供的方法能够在检测极限或敏感性是0.45% AAI的情况下检测样品中的平均等位基因失衡,其是本发明的说明性方法的非整倍性的检测极限。类似地,在某些实施例中,本文中所提供的方法能够检测到样品中的平均等位基因失衡是0.45%、0.5%、0.6%、0.8%、0.8%、0.9%或1.0%。也就是说,测试方法能够在AAI低至0.45%、0.5%、0.6%、0.8%、0.8%、0.9%或1.0%的情况下检测到样品中的染色体非整倍性。如由实例部分中提供的实验证明,本文中所提供的方法能够在检测极限或敏感性是0.2%的情况下针对至少一些SNV来检测样品中是否存在SNV,在一个说明性实施例中,其是至少一些SNV的检测极限。类似地,在某些实施例中,该方法能够检测到SNV的频率或SNV AAI是0.2%、0.3%、0.4%、0.5%、0.6%、0.8%、0.8%、0.9%或1.0%。也就是说,测试方法能够在检测极限低至SNV的染色体基因座处的全部等位基因计数的0.2%、0.3%、0.4%、0.5%、0.6%、0.8%、0.8%、0.9%或1.0%的情况下检测到样品中的SNV。
在一些实施例中,本发明的方法的突变(诸如SNV或CNV)的检测极限小于或等于10%、5%、2%、1%、0.5%、0.1%、0.05%、0.01%或0.005%。在一些实施例中,本发明的方法的突变(诸如SNV或CNV)的检测极限在15%至0.005%之间,诸如在10%至0.005%、10%至0.01%、10%至0.1%、5%至0.005%、5%至0.01%、5%至0.1%、1%至0.005%、1%至0.01%、1%至0.1%、0.5%至0.005%、0.5%至0.01%、0.5%至0.1%或0.1%至0.01%之间且包括端值。
在一些实施例中,检测极限使得检测到(或能够检测到)样品(诸如cfDNA或cfRNA样品)中存在于小于或等于10%、5%、2%、1%、0.5%、0.1%、0.05%、0.01%或0.005%的具有此基因座的DNA或RNA分子中的突变(诸如SNV或CNV)。例如,即使小于或等于10%、5%、2%、1%、0.5%、0.1%、0.05%、0.01%或0.005%的具有此基因座的DNA或RNA分子在该基因座中具有突变,仍可以检测到该突变(而不是例如该基因座的野生型或非突变版本或此基因座处的不同突变)。在一些实施例中,检测极限使得检测到(或能够检测到)样品(诸如cfDNA或cfRNA样品)中存在于小于或等于10%、5%、2%、1%、0.5%、0.1%、0.05%、0.01%或0.005%的DNA或RNA分子中的突变(诸如SNV或CNV)。在其中CNV是缺失的一些实施例中,即使该缺失仅存在于样品中的小于或等于10%、5%、2%、1%、0.5%、0.1%、0.05%、0.01%或0.005%的DNA或RNA分子中,仍可以检测到该缺失,该DNA或RNA分子具有可能含有或可能不含有该缺失的相关区域。在其中CNV是缺失的一些实施例中,即使该缺失仅存在于样品中的小于或等于10%、5%、2%、1%、0.5%、0.1%、0.05%、0.01%或0.005%的DNA或RNA分子中,仍可以检测到该缺失。在其中CNV是复制的一些实施例中,即使存在的额外复制的DNA或RNA小于或等于样品中的DNA或RNA分子的10%、5%、2%、1%、0.5%、0.1%、0.05%、0.01%或0.005%,仍可以检测到该复制,该DNA或RNA分子具有样品中可能被复制或可能不被复制的相关区域。在其中CNV是复制的一些实施例中,即使存在的额外复制的DNA或RNA小于或等于样品中的DNA或RNA分子的10%、5%、2%、1%、0.5%、0.1%、0.05%、0.01%或0.005%,仍可以检测到该复制。
Q.示例性样品
在本发明的任何方面的一些实施例中,样品包括来自疑似具有缺失或复制的细胞(诸如疑似具有癌性的细胞)的细胞和/或细胞外遗传物质。在一些实施例中,样品包括任何疑似含有具有缺失或复制的细胞、DNA或RNA的组织或体液,诸如肿瘤或包括癌细胞、DNA或RNA的其它样品。可以对任何包含DNA或RNA的样品(例如(但不限于)组织、血液、血清、血浆、尿液、毛发、眼泪、唾液、皮肤、指甲、粪便、胆汁、淋巴、子宫颈粘液、精液、肿瘤、或包括核酸的其它细胞或物质)进行用作这些方法的一部分的基因测量。样品可以包括任何细胞类型或可以使用来自任何细胞类型的DNA或RNA(诸如来自任何疑似具有癌性的器官或组织的细胞,或神经元)。在一些实施例中,样品包括细胞核和/或粒线体DNA。在一些实施例中,样品来自本文中所公开的任何靶个体。在一些实施例中,靶个体是癌症患者。
示例性样品包括含有cfDNA或cfRNA的那些。在一些实施例中,cfDNA在无需溶解细胞的步骤的情况下即可用于分析。细胞游离DNA可以从多种组织获得,诸如呈液体形式的组织,例如血液、血浆、淋巴、腹水或脑脊髓液。在一些情况下,cfDNA包括来源于胎儿细胞的DNA。在一些情况下,从血浆分离cfDNA,该血浆是从已被离心以去除细胞物质的全血中分离的。cfDNA可以是来源于靶细胞(诸如癌细胞)和非靶细胞(诸如非癌细胞)的DNA的混合物。
在一些实施例中,样品含有或疑似含有DNA(或RNA)的混合物,诸如来源于癌细胞的DNA(或RNA)与来源于非癌性(即,正常)细胞的DNA(或RNA)的混合物。在一些实施例中,样品中至少0.5%、1%、3%、5%、7%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、92%、94%、95%、96%、98%、99%或100%的细胞是癌细胞。在一些实施例中,样品中至少0.5%、1%、3%、5%、7%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、92%、94%、95%、96%、98%、99%或100%的DNA(诸如cfDNA)或RNA(诸如cfRNA)来自癌细胞。在各种实施例中,样品中的细胞的癌性细胞百分比在0.5%至99%之间,诸如在1%至95%、5%至95%、10%至90%、5%至70%、10%至70%、20%至90%或20%至70%之间且包括端值。在一些实施例中,样品富集癌细胞或来自癌细胞的DNA或RNA。在其中样品富集癌细胞的一些实施例中,经富集的样品中至少0.5%、1%、2%、3%、4%、5%、6%、7%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、92%、94%、95%、96%、98%、99%或100%的细胞是癌细胞。在其中样品富集来自癌细胞的DNA或RNA的一些实施例中,经富集的样品中至少0.5%、1%、2%、3%、4%、5%、6%、7%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、92%、94%、95%、96%、98%、99%或100%的DNA或RNA来自癌细胞。在一些实施例中,使用细胞分选(诸如荧光活化细胞分选(FACS))来富集癌细胞(Barteneva等人,Biochim Biophys Acta.,1836(1):105-22,2013年8月.doi:10.1016/j.bbcan.2013.02.004.Epub 2013年2月24日,Ibrahim等人,Adv Biochem EngBiotechnol.106:19-39,2007,其各自特此通过引用的方式全文并入)。
在一些实施例中,样品富集胎儿细胞。在其中样品富集胎儿细胞的一些实施例中,经富集的样品中至少0.5%、1%、2%、3%、4%、5%、6%、7%或更多的细胞是胎儿细胞。在一些实施例中,样品中的细胞的胎儿细胞百分比在0.5%至100%之间,诸如在1%至99%、5%至95%、10%至95%、10%至95%、20%至90%或30%至70%之间且包括端值。在一些实施例中,样品富集胎儿DNA。在其中样品富集胎儿DNA的一些实施例中,经富集的样品中至少0.5%、1%、2%、3%、4%、5%、6%、7%或更多的DNA是胎儿DNA。在一些实施例中,样品中的DNA的胎儿DNA百分比在0.5%至100%之间,诸如在1%至99%、5%至95%、10%至95%、10%至95%、20%至90%或30%至70%之间且包括端值。
在一些实施例中,样品包括单细胞或包括来自单细胞的DNA和/或RNA。在一些实施例中,平行分析多个单独细胞(例如至少5、10、20、30、40或50个来自相同受试者或来自不同受试者的细胞)。在一些实施例中,组合来自相同个体的多个样品的细胞,其与拆分地分析样品相比减少工作量。组合多个样品还可以允许针对癌症同时测试多个组织(其可以用于提供癌症筛检或更彻底的癌症筛检或用于确定癌症是否可能已经转移到其它组织)。
在一些实施例中,样品含有单细胞或少量细胞,诸如2、3、5、6、7、8、9或10个细胞。在一些实施例中,样品具有1至100、100至500或500至1,000个细胞且包括端值。在一些实施例中,样品含有1皮克至10皮克、10皮克至100皮克、100皮克至1纳克、1纳克至10纳克、10纳克至100纳克或100纳克至1微克的RNA和/或DNA且包括端值。
在一些实施例中,将样品包埋于石蜡膜中。在一些实施例中,样品与防腐剂(诸如甲醛)一起保藏且任选地包覆在石蜡中,其可以引起DNA的交联,使得较少的DNA可以用于PCR。在一些实施例中,样品是甲醛固定的石蜡包埋(FFPE)样品。在一些实施例中,样品是新鲜样品(诸如由1天或2天的分析获得的样品)。在一些实施例中,样品在分析之前被冷冻。在一些实施例中,样品是历史样品。
这些样品可以用于本发明的任何方法中。
R.示例性样品制备方法
在一些实施例中,该方法包括分离或纯化DNA和/或RNA。本领域中已知多种用于实现这类目的的标准程序。在一些实施例中,可以对样品进行离心以拆分各层。在一些实施例中,可以使用过滤来分离DNA或RNA。在一些实施例中,DNA或RNA的制备可以涉及扩增、拆分、通过色谱纯化、液体拆分、分离、优先富集、优先扩增、靶向扩增或本领域中已知或本文中所描述的多种其它技术中的任一种。在分离DNA的一些实施例中,使用RNA酶使RNA降解。在分离RNA的一些实施例中,使用DNA酶(诸如来自Invitrogen,Carlsbad,CA,USA的DNA酶I)使DNA降解。在一些实施例中,使用RNeasy小型试剂盒(Qiagen)根据制造商方案分离RNA。在一些实施例中,使用mirVana PARIS试剂盒(Ambion,Austin,TX,USA)根据制造商方案(Gu等人,J.Neurochem.122:641–649,2012,其特此通过引用的方式全文并入)分离小型RNA分子。可以任选地使用Nanovue(GE Healthcare,Piscataway,NJ,USA)确定RNA的浓度和纯度,且可以任选地使用2100Bioanalyzer(Agilent Technologies,Santa Clara,CA,USA)测量RNA完整性(Gu等人,J.Neurochem.122:641–649,2012,其特此通过引用的方式全文并入)。在一些实施例中,使用TRIZOL或RNAlater(Ambion)使RNA在储存期间稳定。
在一些实施例中,添加通用标记接头以制备文库。在连接之前,可以对样品DNA进行平端化,且然后向3'端添加单一腺苷碱基。在连接之前,可以使用限制酶或某种其它裂解方法使DNA裂解。在连接期间,样品片段的3'腺苷和接头的互补性3'酪氨酸突出端可以增强连接效率。在一些实施例中,使用在AGILENT SURESELECT试剂盒中发现的连接试剂盒进行接头连接。在一些实施例中,使用通用引物来扩增文库。在一个实施例中,通过尺寸拆分或通过使用诸如AGENCOURT AMPURE珠粒等产物或其它类似方法来将经扩增的文库分级分离。在一些实施例中,使用PCR扩增来扩增靶基因座。在一些实施例中,对经扩增的DNA进行测序(诸如使用ILLUMINA IIGAX或HiSeq测序器进行测序)。在一些实施例中,从经扩增的DNA的每个末端对经扩增的DNA进行测序以减少测序误差。如果当从经扩增的DNA的一端进行测序时,特定碱基中存在序列误差,则当从经扩增的DNA的另一侧进行测序时,互补性碱基中不太可能存在序列误差(与从经扩增的DNA的同一个末端进行多次测序相比)。
在一些实施例中,使用全基因组应用(WGA)以扩增核酸样品。存在多种可以用于WGA的方法:连接介导的PCR(LM-PCR)、简并寡核苷酸引物PCR(DOP-PCR)以及多重置换扩增(MDA)。在LM-PCR中,称为衔接子的短DNA序列被连接到DNA的平端。这些衔接子含有通用扩增序列,其用于通过PCR来扩增DNA。在DOP-PCR中,在第一轮退火和PCR中使用随机引物,该随机引物也含有通用扩增序列。然后,使用第二轮PCR以用通用引物序列进一步扩增序列。MDA使用phi-29聚合酶,该聚合酶是一种复制DNA并且已被用于单细胞分析的高度进行性和非特异性酶。在一些实施例中,不进行WGA。
在一些实施例中,使用选择性扩增或富集来扩增或富集靶基因座。在一些实施例中,扩增和/或选择性富集技术可以涉及PCR(诸如连接介导的PCR)、通过杂交进行的片段捕获、分子倒置探针或其它环化中探针。在一些实施例中,使用实时定量PCR(RT-qPCR)、数字PCR或乳液PCR、单一等位基因碱基延伸反应,接着进行质谱分析(Hung等人,J Clin Pathol62:308–313,2009,其特此通过引用的方式全文并入)。在一些实施例中,用杂交捕获探针通过杂交进行的捕获用于优先富集DNA。在一些实施例中,用于扩增或选择性富集的方法可以涉及使用探针,其中在与靶序列正确杂交之后,核苷酸探针的3′端或5'端通过少量核苷酸与多态等位基因的多态位点拆分。这种拆分会减少一个等位基因的优先扩增,称为等位基因偏差。这是优于涉及使用探针的方法(其中正确杂交的探针的3′端或5′端与等位基因的多态位点直接相邻或非常靠近)的一种改进。在一个实施例中,排除其中杂交区域可以或确定含有多态位点的探针。杂交位点处的多态位点可以引起一些等位基因的不相等杂交或抑制整体杂交,致使某些等位基因的优先扩增。这些实施例优于涉及靶向扩增和/或选择性富集的其它方法的改进之处在于,这些实施例更好地保持了样品在每个多态基因座处的原始等位基因频率,无论样品是来自单一个体还是个体混合物的纯基因组样品。
在一些实施例中,使用PCR(称为微型PCR)产生极短的扩增子(2012年11月21日提交的美国申请第13/683,604号、美国公开第2013/0123120号、2011年11月18日提交的美国申请第13/300,235号、2011年11月18日提交的美国公开第2012/0270212号和2014年5月16日提交的美国序列号61/994,791,其各自特此通过引用的方式全文并入)。cfDNA(诸如以坏死方式或以细胞凋亡方式释放的癌症cfDNA)是高度片段化的。对于胎儿cfDNA,片段尺寸大致以高斯方式分布,其中平均值是160bp,标准差是15bp,最小尺寸是约100bp且最大尺寸是约220bp。一个特定靶基因座的多态位点可以占据来源于此基因座的各种片段中的从起点到末端的任何位置。因为cfDNA片段较短,所以两个引物位点存在的似然性,包括正向和反向引物位点二者的具有长度L的片段的似然性是扩增子长度与片段长度的比率。在理想条件下,其中扩增子是45bp、50bp、55bp、60bp、65bp或70bp的测定将分别从72%、69%、66%、63%、59%或56%的可用模板片段分子成功地扩增。在最优选与来自疑似患有癌症的个体的样品的cfDNA相关的某些实施例中,使用引物扩增cfDNA,该引物产生85bp、80bp、75bp或70bp且在某些优选实施例中,75bp的最大扩增子长度且具有50℃与65℃之间且在某些优选实施例中,54℃-60.5℃之间的解链温度。扩增子长度是正向和反向引发位点的5′端之间的距离。比本领域的技术人员典型地使用的更短的扩增子长度可以通过仅需要短序列读段便引起所需多态基因座的更有效的测量结果。在一个实施例中,扩增子的实质部分小于100bp、小于90bp、小于80bp、小于70bp、小于65bp、小于60bp、小于55bp、小于50bp或小于45bp。
在一些实施例中,使用直接多重PCR、连续PCR、嵌套PCR、双重嵌套PCR、一侧和半侧嵌套PCR、完全嵌套PCR、一侧完全嵌套PCR、一侧嵌套PCR、半嵌套PCR、半嵌套PCR、三重半嵌套PCR、半嵌套PCR、单侧半嵌套PCR、反向半嵌套PCR方法或单侧PCR进行扩增,其在于2012年11月21日提交的美国申请第13/683,604号,美国公开第2013/0123120号,于2011年11月18日提交的美国申请第13/300,235号,美国公开第2012/0270212号和于2014年5月16日提交的美国序列号61/994,791中进行了描述,其特此通过引用的方式全文并入。视需要,这些方法中的任何方法都可以用于微型PCR。
视需要,可以从时间观点出发来限制PCR扩增的延伸步骤以减少从长度超过200个核苷酸、300个核苷酸、400个核苷酸、500个核苷酸或1,000个核苷酸的片段进行的扩增。这可以引起片段化或较短DNA(诸如经历细胞凋亡或坏死的胎儿DNA或来自癌细胞的DNA)的富集和测试性能的改进。
在一些实施例中,使用了多重PCR。在一些实施例中,扩增核酸样品中的靶基因座的方法涉及(i)使核酸样品与引物文库接触,该引物同时与至少100;200;500;750;1,000;2,000;5,000;7,500;10,000;20,000;25,000;30,000;40,000;50,000;75,000;或100,000个不同靶基因座杂交,以产生反应混合物;和(ii)使反应混合物经历引物延伸反应条件(诸如如PCR条件)以产生包括靶扩增子的扩增产物。在一些实施例中,至少有50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或99.5%的靶向基因座被扩增。在各种实施例中,少于60%、50%、40%、30%、20%、10%、5%、4%、3%、2%、1%、0.5%、0.25%、0.1%或0.05%的扩增产物是引物二聚体。在一些实施例中,引物位于溶液中(诸如溶解在液相中而不是固相中)。在一些实施例中,引物位于溶液中,并且没有固定在固体负载物上。在一些实施例中,引物不是微阵列的一部分。在一些实施例中,引物不包括分子倒置探针(MIP)。
在一些实施例中,使两个或更多个(诸如3个或4个)靶扩增子(诸如来自本文中所公开的微型PCR方法的扩增子)连接在一起且然后对连接产物进行测序。将多个扩增子组合成单一连接产物提高了后续测序步骤的效率。在一些实施例中,靶扩增子在它们被连接之前的长度小于150、100、90、75或50个碱基对。选择性富集和/或扩增可以涉及用不同的标签、分子条形码、用于扩增的标签和/或用于测序的标签来标记每个单独分子。在一些实施例中,通过测序(诸如通过高通量测序)或通过与阵列(诸如SNP阵列、ILLUMINA INFINIUM阵列或AFFYMETRIX基因芯片)杂交来分析扩增产物。在一些实施例中,使用纳米孔测序,诸如由Genia开发的纳米孔测序技术(参见例如万维网网址geniachip.com/technology,其特此通过引用的方式全文并入)。在一些实施例中,使用双螺旋测序(Schmitt等人,“Detectionof ultra-rare mutations by next-generation sequencing,”Proc Natl Acad Sci U SA.109(36):14508–14513,2012,其特此通过引用的方式全文并入)。这种方法通过对DNA双螺旋的两条链中的每一条独立地进行标记和测序来极大地减少误差。由于两条链是互补性的,因此在两条链中的相同位置处发现真实突变。相比之下,PCR或测序误差仅在一条链中引起突变且因此可以作为技术误差而忽略。在一些实施例中,该方法要求用随机但互补性的双链核苷酸序列(称为双螺旋标签)来标记双螺旋DNA的两条链。通过首先将单链随机化核苷酸序列引入一个衔接子链中且然后用DNA聚合酶使相对的链延伸,得到互补性的、双链标签来将双链标签序列并入标准测序衔接子中。在经标记的衔接子与经剪切的DNA连接之后,单独标记的链从衔接子尾部上的不对称引物位点进行PCR扩增且经历成对端测序。在一些实施例中,将样品(诸如DNA或RNA样品)分成多个部分,诸如不同的孔(例如WaferGenSmartChip的孔)。将样品分成不同的部分(诸如至少5、10、20、50、75、100、150、200或300个部分)可以提高分析的敏感性,因为与整个样品相比,一些孔中的具有突变的分子的百分比更高。在一些实施例中,每个部分具有小于500、400、200、100、50、20、10、5、2或1个DNA或RNA分子。在一些实施例中,分开地对每个部分中的分子进行测序。在一些实施例中,向相同部分中的所有分子中添加(诸如通过用含有条形码的引物进行扩增或通过条形码的连接)相同的条形码(诸如随机或非人类序列),且向不同部分中的分子中添加不同的条形码。可以将加注有条形码的分子合并且共同测序。在一些实施例中,分子在集中和测序之前扩增,诸如通过使用嵌套PCR。在一些实施例中,使用一个正向和两个反向引物,或两个正向和一个反向引物。
S.检测极限
在一些实施例中,检测到(或能够检测到)样品(诸如cfDNA或cfRNA样品)中存在于小于10%、5%、2%、1%、0.5%、0.1%、0.05%、0.01%或0.005%的DNA或RNA分子中的突变(诸如SNV或CNV)。在一些实施例中,检测到(或能够检测到)样品(诸如来自例如血液样品的cfDNA或cfRNA样品)中存在于小于1,000、500、100、50、20、10、5、4、3或2个原始DNA或RNA分子(在扩增之前)中的突变(诸如SNV或CNV)。在一些实施例中,检测到(或能够检测到)样品(诸如来自例如血液样品的cfDNA或cfRNA样品)中仅存在于1个原始DNA或RNA分子(在扩增之前)中的突变(诸如SNV或CNV)。
例如,如果突变(诸如单核苷酸变体(SNV))的检测极限是0.1%,则可以通过将该部分分成多个部分(诸如100个孔)来检测到以0.01%存在的突变。大部分孔不具有突变的拷贝。对于少数的具有突变的孔,突变具有显著更高的读段百分比。在一个实例中,存在来自靶基因座的DNA的20,000个初始拷贝,且这些拷贝中的两个包括相关SNV。如果将样品分成100个孔,则98个孔具有SNV,且2个孔以0.5%的概率具有SNV。可以将每个孔中的DNA加注条形码、扩增、与来自其它孔的DNA合并,并且测序。不具有SNV的孔可以用于测量背景扩增/测序误差率,以确定来自异常值孔的信号是否高于背景噪声水平。
T.检测方法
在一些实施例中,使用阵列检测扩增产物,诸如具有针对一种或多种相关染色体(例如染色体13、18、21、X、Y或其任何组合)的探针的阵列,尤其微阵列。例如,应理解,可以使用可商购的SNP检测微阵列,诸如,例如像Illumina(San Diego,CA)GoldenGate、DASL、Infinium或CytoSNP-12基因分型测定,或来自Affymetrix的SNP检测微阵列产品,诸如OncoScan微阵列。
在涉及测序的一些实施例中,读段深度是映射到既定基因座的测序读段的数目。可以针对读段总数将读段深度归一化。在样品的读段深度的一些实施例中,读段深度是针对所靶向的基因座的平均读段深度。在基因座的读段深度的一些实施例中,读段深度是由映射到此基因座的测序器测量的读段数目。通常,基因座的读段深度越大,基因座处的等位基因的比率越倾向于接近原始DNA样品中的等位基因的比率。读段深度可以多种不同方式表示,包括(但不限于)百分比或比例。因此,例如,在例如产生1百万个克隆的序列的高度平行DNA测序器(诸如Illumina HISEQ)中,一个基因座的3,000次测序产生此基因座处的3,000个读段的读段深度。此基因座处的读段的比例是3,000除以1百万个总读段,或总读段的0.3%。
在一些实施例中,获得等位基因数据,其中等位基因数据包括指示多态基因座的特异性等位基因的拷贝数目的定量测量结果。在一些实施例中,等位基因数据包括指示在多态基因座处观察的等位基因中的每个的拷贝数目的定量测量结果。通常,获得相关多态基因座的所有可能的等位基因的定量测量结果。例如,先前段落中讨论的用于确定SNP或SNV基因座的等位基因的任何方法(诸如例如像微阵列、qPCR、DNA测序,诸如高通量DNA测序)都可以用于产生多态基因座的特异性等位基因的拷贝数目的定量测量结果。这种定量测量结果在本文中称为等位基因频率数据或所测量的遗传等位基因数据。使用等位基因数据的方法有时称为定量等位基因方法;这与仅使用来自非多态基因座或来自多态基因座,但不考虑等位基因一致性的定量数据的定量方法相反。当使用高通量测序来测量等位基因数据时,等位基因数据典型地包括映射到相关基因座的每个等位基因的读段数目。
在一些实施例中,获得非等位基因数据,其中非等位基因数据包括指示特异性基因座的拷贝数目的定量测量结果。基因座可以是多态或非多态的。在一些实施例中,当基因座是非多态的时,非等位基因数据不包含关于可能存在于此基因座处的单独等位基因的相对数量或绝对数量的信息。仅使用非等位基因数据(也就是说,来自非多态等位基因的定量数据,或来自多态基因座,但不考虑每个片段的等位基因一致性的定量数据)的方法称为定量方法。通常,获得相关多态基因座的所有可能的等位基因的定量测量结果,其中总共一个值与此基因座处的所有等位基因的测量数量相关。可以通过将此基因座处的每个等位基因的定量等位基因求和来获得多态基因座的非等位基因数据。当使用高通量测序来测量等位基因数据时,非等位基因数据典型地包括映射到相关基因座的读段的数目。测序测量结果可以指示存在于该基因座处的等位基因中的每一者的相对和/或绝对数目,且非等位基因数据包括映射到基因座的读段的总和而与等位基因一致性无关。在一些实施例中,相同的测序测量结果的集合可以用于产生等位基因数据和非等位基因数据二者。在一些实施例中,使用等位基因数据作为确定相关染色体处的拷贝数的方法的一部分,且可以使用所产生的非等位基因数据作为确定相关染色体处的拷贝数的不同方法的一部分。在一些实施例中,两种方法以统计方式正交,且组合以实现相关染色体处的拷贝数的更精确的确定。
在一些实施例中,获得基因数据包括(i)由实验室技术获取DNA序列信息,例如通过使用自动高通量DNA测序器,或(ii)获取先前由实验室技术获得的信息,其中该信息是以电子方式传送,例如由计算机通过因特网来传送或通过由测序装置进行电子转移来传送。
另外的示例性样品制备、扩增和定量方法描述于2012年11月21日提交的美国申请第13/683,604号(美国公开第2013/0123120号和2014年5月16日提交的美国序列号61/994,791,其特此通过引用的方式全文并入)中。这些方法可以用于分析本文中所公开的任何样品。
U.用于细胞游离DNA的示例性定量方法
视需要,可以使用标准方法测量cfDNA或cfRNA的量或浓度。在一些实施例中,确定细胞游离粒线体DNA(cf mDNA)的量或浓度。在一些实施例中,确定来源于细胞核DNA的细胞游离DNA(cf nDNA)的量或浓度。在一些实施例中,同时确定cf mDNA和cf nDNA的量或浓度。
在一些实施例中,使用qPCR来测量cf nDNA和/或cfm DNA(Kohler等人“Levels ofplasma circulating cell free nuclear and mitochondrial DNA as potentialbiomarkers for breast tumors.”Mol Cancer 8:105,2009,8:doi:10.1186/1476-4598-8-105,其特此通过引用的方式全文并入)。例如,可以使用多重qPCR来测量来自cf nDNA的一种或多种基因座(诸如甘油醛-3-磷酸脱氢酶,GAPDH)和来自cf mDNA的一种或多种基因座(ATP酶8,MTATP 8)。在一些实施例中,使用荧光标记的PCR来测量cf nDNA和/或cf mDNA(Schwarzenbach等人,“Evaluation of cell-free tumour DNA and RNA in patientswith breast cancer and benign breast disease.”Mol Biosys 7:2848-2854,2011,其特此通过引用的方式全文并入)。视需要,可以使用标准方法(诸如夏皮罗-威尔克测试(Shapiro-Wilk-Test))来确定数据的正态分布。视需要,可以使用标准方法(诸如曼-惠特尼U测试(Mann-Whitney-U-Test))来比较cf nDNA和mDNA水平。在一些实施例中,使用标准方法(诸如曼-惠特尼U测试或克鲁斯卡尔-沃利斯测试(Kruskal-Wallis-Test))来比较cfnDNA和/或mDNA水平与其它经确认的预后因子。
V.示例性RNA扩增、定量和分析方法
任何以下示例性方法都可以用于扩增和任选地定量RNA,诸如cfRNA、细胞RNA、细胞质RNA、编码细胞质RNA、非编码细胞质RNA、mRNA、miRNA、线粒体RNA、rRNA或tRNA。在一些实施例中,miRNA是可在万维网网址mirbase.org获得的miRBase数据库中列出的任何miRNA分子,其特此通过引用的方式全文并入。示例性miRNA分子包括miR-509;miR-21和miR-146a。
在一些实施例中,使用逆转录酶多重连接依赖性探针扩增(RT-MLPA)来扩增RNA。在一些实施例中,每个杂交探针的集合由两个跨越SNP的短合成寡核苷酸和一个长寡核苷酸组成(Li等人,Arch Gynecol Obstet.“Development of noninvasive prenataldiagnosis of trisomy 21by RT-MLPA with a new set of SNP markers,”2013年7月5日,DOI 10.1007/s00404-013-2926-5;Schouten等人“Relative quantification of40nucleic acid sequences by multiplex ligation-dependent probeamplification.”Nucleic Acids Res 30:e57,2002;Deng等人(2011)“Non-invasiveprenatal diagnosis of trisomy 21by reverse transcriptase multiplex ligation-dependent probe amplification,”Clin,Chem.Lab Med.49:641–646,2011,其各自特此通过引用的方式全文并入)。
在一些实施例中,用逆转录酶PCR来扩增RNA。在一些实施例中,如先前所描述的,用实时逆转录酶PCR来扩增RNA,诸如使用SYBR GREEN I的单步骤实时逆转录酶PCR(Li等人,Arch Gynecol Obstet.“Development of noninvasive prenatal diagnosis oftrisomy 21by RT-MLPA with a new set of SNP markers,”2013年7月5日,DOI 10.1007/s00404-013-2926-5;Lo等人,“Plasma placental RNA allelic ratio permitsnoninvasive prenatal chromosomal aneuploidy detection,”Nat Med 13:218–223,2007;Tsui等人,Systematic micro-array based identification of placental mRNAin maternal plasma:towards non-invasive prenatal gene expression profiling.JMed Genet 41:461–467,2004;Gu等人,J.Neurochem.122:641–649,2012,其各自特此通过引用的方式全文并入)。
在一些实施例中,使用微阵列来检测RNA。例如,可根据制造商方案使用来自Agilent Technologies的人类miRNA微阵列。简单来说,将经分离的RNA脱磷酸化且与pCp-Cy3连接。基于14.0版Sanger miRBase,将经标记的RNA纯化且与含有针对人类成熟miRNA的探针的miRNA阵列杂交。清洗阵列且使用微阵列扫描仪(G2565BA,Agilent Technologies)扫描。通过Agilent提取软件v9.5.3评估每个杂交信号的强度。标记、杂交和扫描可以根据Agilent miRNA微阵列系统中的方案进行(Gu等人,J.Neurochem.122:641–649,2012,其特此通过引用的方式全文并入)。
在一些实施例中,使用TaqMan测定来检测RNA。示例性测定是TaqMan Array HumanMicroRNA Panel v1.0(早期访问)(Applied Biosystems),其含有157种TaqMan MicroRNA测定,包括各别逆转录引物、PCR引物和TaqMan探针(Chim等人,“Detection andcharacterization of placental microRNAs in maternal plasma,”Clin Chem.54(3):482-90,2008,其特此通过引用的方式全文并入)。
视需要,可以使用标准方法来确定一种或多种mRNA的mRNA剪接模式(Fackenthal和Godley,Disease Models&Mechanisms 1:37-42,2008,doi:10.1242/dmm.000331,其特此通过引用的方式全文并入)。例如,可以使用高密度微阵列和/或高通量DNA测序来检测mRNA剪接变体。
在一些实施例中,使用完全转录组鸟枪法测序或阵列来测量转录组。
W.示例性扩增方法
还已经开发了改进的PCR扩增方法,该方法最大限度地减少或防止由同一个反应体积中的邻近或相邻靶基因座的扩增引起的干扰(诸如同时扩增所有靶基因座的样品多重PCR反应的一部分)。这些方法可以用于同时扩增邻近或相邻靶基因座,这与必须将邻近的靶基因座拆分成不同的反应体积使得它们可以单独地扩增以避免干扰相比更快且成本更低。
在一些实施例中,使用具有低5′→3′核酸外切酶和/或低链置换活性的聚合酶(例如DNA聚合酶、RNA聚合酶或逆转录酶)进行靶基因座的扩增。在一些实施例中,低水平的5′→3′核酸外切酶减少或防止邻近引物(例如未延伸的引物或在引物延伸期间添加有一个或多个核苷酸的引物)的降解。在一些实施例中,低水平的链置换活性减少或防止邻近引物(例如未延伸的引物或在引物延伸期间添加有一个或多个核苷酸的引物)的置换。在一些实施例中,扩增彼此相邻(例如靶基因座之间不存在碱基)或邻近(例如基因座相距50、40、30、20、15、10、9、8、7、6、5、4、3、2或1个碱基以内)的靶基因座。在一些实施例中,一个基因座的3′端与下一个下游基因座的5'端相距50、40、30、20、15、10、9、8、7、6、5、4、3、2或1个碱基以内。
在一些实施例中,扩增至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000或100,000个不同的靶基因座,诸如通过在一个反应体积中同时扩增在一些实施例中,至少50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或99.5%的扩增产物是靶扩增子。在各种实施例中,作为靶扩增子的扩增产物的量在50%至99.5%之间,诸如在60%至99%、70%至98%、80%至98%、90%至99.5%或95%至99.5%之间且包括端值。在一些实施例中,扩增(例如与扩增之前的量相比扩增至少5、10、20、30、50或100倍)至少50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或99.5%的靶基因座,诸如通过在一个反应体积中同时扩增。在各种实施例中,经扩增的(例如与扩增之前的量相比扩增至少5、10、20、30、50或100倍)靶基因座的量在50%至99.5%之间,诸如在60%至99%、70%至98%、80%至99%、90%至99.5%、95%至99.9%或98%至99.99%之间且包括端值。在一些实施例中,产生较少的非靶扩增子,诸如由来自第一引物对的正向引物和来自第二引物对的反向引物形成的较少扩增子。如果例如来自第一引物对的反向引物和/或来自第二引物对的正向引物被降解和/或被置换,则这类不合需要的非靶扩增子可以使用先前扩增方法产生。
在一些实施例中,这些方法允许使用更长的延伸时间,因为鉴于聚合酶的低5'→3′核酸外切酶和/或低链置换活性,结合于被延伸的引物的聚合酶不太可能使邻近引物(诸如下一个下游引物)发生降解和/或置换。在各种实施例中,使用反应条件(诸如延伸时间和温度)使得聚合酶的延伸率允许添加到被延伸的引物中的核苷酸的数目等于或大于同一条链上的引物结合位点的3′端与下一个下游引物结合位点的5′端之间的核苷酸的数目的80%、90%、95%、100%、110%、120%、130%、140%、150%、175%或200%。
在一些实施例中,使用DNA作为模板,使用DNA聚合酶产生DNA扩增子。在一些实施例中,使用DNA作为模板,使用RNA聚合酶产生RNA扩增子。在一些实施例中,使用RNA作为模板,使用逆转录酶产生cDNA扩增子。
在一些实施例中,在相同条件下,聚合酶中的低水平的5′→3′核酸外切酶小于相同量的水生栖热菌(Thermus aquaticus)聚合酶(“Taq”聚合酶,该聚合酶是来自嗜热菌的常用DNA聚合酶,PDB 1BGX,EC 2.7.7.7,Murali等人,“Crystal structure of Taq DNApolymerase in complex with an inhibitory Fab:the Fab is directed against anintermediate in the helix-coil dynamics of the enzyme,”Proc.Natl.Acad.Sci.USA95:12562-12567,1998,其特此通过引用的方式全文并入)的活性的80%、70%、60%、50%、40%、30%、20%、10%、5%、1%或0.1%。在一些实施例中,在相同条件下,聚合酶中的低水平的链置换活性小于相同量的Taq聚合酶的活性的80%、70%、60%、50%、40%、30%、20%、10%、5%、1%或0.1%。
在一些实施例中,聚合酶是PUSHION DNA聚合酶,诸如PHUSION High FidelityDNA聚合酶(M0530S,New England BioLabs,Inc.)或PHUSION Hot Start Flex DNA聚合酶(M0535S,New England BioLabs,Inc.;Frey和Suppman BioChemica.2:34-35,1995;Chester and Marshak Analytical Biochemistry.209:284-290,1993,其各自特此通过引用的方式全文并入)。PHUSION DNA聚合酶是与进行性增强域融合的火球菌(Pyrococcus)样酶。PHUSION DNA聚合酶具有5'→3'聚合酶活性和3′→5′核酸外切酶活性,且产生平端产物。PHUSION DNA聚合酶不具有5′→3′核酸外切酶活性和链置换活性。
在一些实施例中,聚合酶是DNA聚合酶,诸如/>High-Fidelity DNA聚合酶(M0491S,New England BioLabs,Inc.)或/>Hot Start High-Fidelity DNA聚合酶(M0493S,New England BioLabs,Inc.)。/>High-Fidelity DNA聚合酶是具有3′→5′核酸外切酶活性的高保真、热稳定的DNA聚合酶,该聚合酶与进行性增强Sso7d域融合。/>High-Fidelity DNA聚合酶不具有5′→3′核酸外切酶活性和链置换活性。
在一些实施例中,聚合酶是T4 DNA聚合酶(M0203S,New England BioLabs,Inc.;Tabor and Struh.(1989).“DNA-Dependent DNA Polymerases,”In Ausebel等人(Ed.),Current Protocols in Molecular Biology.3.5.10-3.5.12.New York:John Wiley&Sons,Inc.,1989;Sambrook等人Molecular Cloning:A Laboratory Manual.(2nd ed.),5.44-5.47.Cold Spring Harbor:Cold Spring Harbor Laboratory Press,1989,其特此通过引用的方式全文并入)。T4 DNA聚合酶以5′→3′方向催化DNA的合成且需要存在模板和引物。这种酶具有3′→5′核酸外切酶活性,该活性显著高于在DNA聚合酶I中发现的活性。T4DNA聚合酶不具有5′→3′核酸外切酶活性和链置换活性。
在一些实施例中,聚合酶是硫化叶菌(Sulfolobus)DNA聚合酶IV(M0327S,NewEngland BioLabs,Inc.;(Boudsocq,.等人(2001).Nucleic Acids Res.,29:4607-4616,2001;McDonald,等人(2006).Nucleic Acids Res.,34:1102-1111,2006,其特此通过引用的方式全文并入)。硫化叶菌DNA聚合酶IV是热稳定Y家族病变旁路DNA聚合酶,该聚合酶横跨多种DNA模板病变而有效合成DNA(McDonald,J.P.等人(2006).Nucleic Acids Res.,.34,1102-1111,其特此通过引用的方式全文并入)。硫化叶菌DNA聚合酶IV不具有5′→3′核酸外切酶活性和链置换活性。
在一些实施例中,如果引物与具有SNP的区域结合,那么引物可以按不同效率来结合和扩增不同等位基因或可以仅结合和扩增一种等位基因。对于杂合的受试者,一种等位基因可能不由引物扩增。在一些实施例中,设计用于每种等位基因的引物。例如,如果存在两种等位基因(例如双等位基因SNP),则两个引物可以用于结合靶基因座的相同位置(例如用于结合“A”等位基因的正向引物和用于结合“B”等位基因的正向引物)。标准方法(诸如dbSNP数据库)可以用于确定已知的SNP(诸如具有高杂合率的SNP热点)的位置。
在一些实施例中,扩增子在尺寸方面是类似的。在一些实施例中,靶扩增子的长度范围是小于100、75、50、25、15、10或5个核苷酸。在一些实施例中(诸如片段化DNA或RNA中靶基因座的扩增),靶扩增子的长度在50与100个核苷酸之间,诸如在60与80个核苷酸或60与75个核苷酸之间且包括端值。在一些实施例中(诸如整个外显子或基因中的多个靶基因座的扩增),靶扩增子的长度在100与500个核苷酸之间,诸如在150与450个核苷酸、200与400个核苷酸、200与300个核苷酸或300与400个核苷酸之间且包括端值。
在一些实施例中,使用引物对同时扩增多个靶基因座,该引物对包括用于此反应体积中的待扩增的每个靶基因座的正向和反向引物。在一些实施例中,每个靶基因座用单一引物进行一轮PCR,且然后每个靶基因座用一个引物对进行第二轮PCR。例如,可以每个靶基因座用单一引物进行第一轮PCR,使得所有引物结合相同的链(诸如对每个靶基因座使用正向引物)。这允许PCR以线性方式扩增且减少或消除扩增子之间的由序列或长度差而引起的扩增偏差。在一些实施例中,然后对每个靶基因座使用正向和反向引物来扩增扩增子。
X.示例性引物设计方法
视需要,可以使用具有降低的形成引物二聚体的似然性的引物进行多重PCR。特别地,高度多重PCR通常会引起极高比例的由非生产性副反应(诸如引物二聚体形成)产生的产物DNA。在一个实施例中,可以从引物文库去除最有可能引起非生产性副反应的特定引物,得到将产生更大比例的映射到基因组的扩增DNA的引物文库。去除有问题的引物(也就是说,特别有可能使二聚体的引物牢固)的步骤已经出乎意料地实现了极高的PCR多重化水平,以便通过测序进行后续分析。
存在多种用于对于文库选择引物的方式,使得非映射引物二聚体或其它引物故障产物的量最大限度地减少。经验数据指示,少量‘坏’引物造成了大量非映射引物二聚体副反应。去除这些‘坏’引物可以增加映射到靶基因座的序列读段的百分比。鉴别‘坏’引物的一种方式是查看通过靶向扩增而被扩增的DNA的测序数据;可以去除所发现的具有最大频率的那些引物二聚体,得到明显不太可能产生不映射到基因组的副产物DNA的引物文库。还存在公开可用的可以计算各种引物组合的结合能的程序,并且去除结合能最高的那些引物组合也将得到明显不太可能产生不映射到基因组的副产物DNA的引物文库。
在用于选择引物的一些实施例中,通过将一或多个引物或引物对设计为候选靶基因座来创建初始候选引物文库。可以基于公开可用的关于靶基因座的所需参数的信息来选择一组候选靶基因座(诸如SNP),该信息是诸如在靶群体内SNP的频率或SNP的杂合率。在一个实施例中,可以使用Primer3程序(万维网网址primer3.sourceforge.net;libprimer3版本2.2.3,其特此通过引用的方式全文并入)来设计PCR引物。视需要,引物可以被设计为在特定的退火温度范围内退火、具有特定范围的GC含量、具有特定的尺寸范围、产生在特定尺寸范围内的靶扩增子和/或具有其他参数特征。以每种候选靶基因座多个引物或引物对为起始增加了引物或引物对针对大部分或所有靶基因座将保留在文库中的似然性。在一个实施例中,选择准则可能需要每个靶基因座至少一个引物对保留在文库中。以这种方式,大部分或所有靶基因座将在使用最终引物文库时被扩增。这正是以下应用所需要的:诸如筛检基因组中的大量位置处的缺失或复制,或筛检与疾病或增加的疾病风险相关的大量序列(诸如多态现象或其它突变)。如果来自文库的引物对将产生与由另一个引物对产生的靶扩增子重叠的靶扩增子,则可以从文库中去除引物对中的一个以防止干扰。
在一些实施例中,计算(诸如在计算机上计算)来自候选引物文库的两种引物的大部分或所有可能组合的“不合意性评分”(越高的评分表示越小的合意性)。在各种实施例中,计算文库中至少80%、90%、95%、98%、99%或99.5%的可能的候选引物组合的不合意性评分。每个不合意性评分至少部分地基于在两种候选引物之间形成二聚体的似然性。视需要,不合意性评分还可以基于选自由以下组成的组的一个或多个其它参数:靶基因座的杂合率、与靶基因座处的序列(例如,多态现象)相关的疾病流行、与靶基因座处的序列(例如,多态现象)相关的疾病外显率、候选引物对靶基因座的特异性、候选引物的尺寸、靶扩增子的解链温度、靶扩增子的GC含量、靶扩增子的扩增效率、靶扩增子的尺寸和与重组热点的中心的距离。在一些实施例中,候选引物对靶基因座的特异性包括候选引物由于结合和扩增除其被设计成应该扩增的靶基因座以外的基因座而发生错物的似然性。在一些实施例中,从文库中去除一种或多种或所有发生错物的候选引物。在一些实施例中,为了增加所选择的候选引物的数目,不从文库中去除可能发生错物的候选引物。如果考虑多个因素,那么不合意性评分可以基于各种参数的加权平均值来计算。参数可以基于该参数对于将使用引物的特定应用的重要性而分配不同的权重。在一些实施例中,从文库中去除不合意性评分最高的引物。如果所去除的引物是与一个靶基因座杂交的引物对的成员,则可以从文库中去除该引物对的另一个成员。可以视需要重复去除引物的过程。在一些实施例中,进行该选择方法直到文库中剩余的候选引物组合的不合意性评分全部等于或低于最小阈值。在一些实施例中,进行该选择方法直到文库中剩余的候选引物的数目减少到所需数目为止。
在各种实施例中,在计算不合意性评分之后,从文库中去除作为两种候选引物的最大数目组合中的不合意性评分高于第一最小阈值的部分的候选引物。这个步骤忽略了等于或低于第一最小阈值的相互作用,因为这些相互作用不太显著。如果所去除的引物是与一个靶基因座杂交的引物对的成员,则可以从文库中去除该引物对的另一个成员。可以视需要重复去除引物的过程。在一些实施例中,进行该选择方法直到文库中剩余的候选引物组合的不合意性评分全部等于或低于第一最小阈值。如果文库中剩余的候选引物的数目高于所需数目,则可以通过将第一最小阈值降低到更低的第二最小阈值并且重复去除引物的过程来减少引物数目。如果库中剩余的候选引物的数目低于所需数目,则可以通过将第一最小阈值增加到更高的第二最小阈值并且使用原始候选引物文库重复去除引物的过程来继续进行该方法,从而允许文库中剩余更多的候选引物。在一些实施例中,进行该选择方法直到文库中剩余的候选引物组合的不合意性评分全部等于或低于第二最小阈值,或直到文库中剩余的候选引物的数目减少到所需数目。
视需要,可以将产生与由另一个引物对产生的靶扩增子重叠的靶扩增子的引物对分到分开的扩增反应中。对于需要分析所有候选靶基因座(而不是由于重叠靶扩增子而从分析中省略候选靶基因座)的应用,可能需要多个PCR扩增反应。
这些选择方法使必须从文库中去除的候选引物的数目最大限度地减少,实现了引物二聚体的所需减少。通过从文库中去除更少数目的候选引物,可以使用所得引物文库扩增更多(或所有)的靶基因座。
对大量引物进行多重化向可以被包括的测定施加了大量限制。无意地相互作用的测定会产生假性扩增产物。微型PCR的尺寸限制可以引起进一步限制。在一个实施例中,有可能以极大量的潜在SNP靶标(在约500至大于1百万之间)为起始并且试图设计扩增每个SNP的引物。当可以设计引物时,有可能试图通过使用针对DNA双螺旋形成的公开热力学参数评估在所有可能的引物对之间形成假性引物双螺旋的似然性来鉴别可能形成假性产物的引物对。引物相互作用可以通过与相互作用相关的评分功能进行分级并且消除相互相用评分最差的引物直到满足所需引物数目。在其中SNP可能具有杂合性最适用的情况下,也有可能对测定清单进行分级并且选择杂合相容性最高的测定。实验已经验证,相互作用评分高的引物最有可能形成引物二聚体。在高度多重化下,不可能消除所有假性相互作用,但必需去除计算机模拟中相互作用评分最高的引物或引物对,因为它们会主导整个反应,极大地限制预定靶标的扩增。已经进行了这个程序以创建具有多达并且在一些情况下,超过10,000个引物的多重引物集合。由于这个程序,改进是实质性的,与来自没有去除最差引物的反应的10%相比,实现了对靶产物进行超过80%、超过90%、超过95%、超过98%且甚至超过99%的扩增,如通过所有PCR产物的测序所确定的。当与如先前所述的部分半嵌套式方法组合时,超过90%且甚至超过95%的扩增子可以映射到所靶向的序列。
应注意,存在用于确定哪些PCR探针可能形成二聚体的其它方法。在一个实施例中,分析已经使用非优化的引物的集合扩增的DNA池可能足以确定有问题的引物。例如,可以使用测序进行分析,并且确定以最大数目存在的二聚体最有可能形成二聚体且可以将其去除。在一个实施例中,引物设计方法可以与本文中所描述的微型PCR方法组合使用。
在引物上使用标签可以减少引物二聚体产物的扩增和测序。在一些实施例中,引物含有与标签形成环结构的内部区域。在特定实施例中,引物包括对靶基因座具有特异性的5'区域、对靶基因座不具有特异性且形成环结构的内部区域以及对靶基因座具有特异性的3'区域。在一些实施例中,环区域可以处于两个结合区域之间,其中两个结合区域被设计成结合于模板DNA的毗邻或邻近区域。在各种实施例中,3'区域的长度是至少7个核苷酸。在一些实施例中,3'区域的长度在7与20个核苷酸之间,诸如在7至15个核苷酸或7至10个核苷酸之间且包括端值。在各种实施例中,引物包括对靶基因座不具有特异性的5'区域(诸如标签或通用引物结合位点),接着是对靶基因座具有特异性的区域、对靶基因座不具有特异性且形成环结构的内部区域以及对靶基因座具有特异性的3'区域。标签-引物可以用于将必需的靶标特异性序列缩短至低于20、低于15、低于12且甚至低于10个碱基对。这可以是在标准引物设计的情况下,当使引物结合位点内的靶序列片段化或,或者该靶序列可以被设计到引物设计中时偶然发现的。这种方法的优点包括:该方法增加了可以被设计用于某一最大扩增子长度的测定的数目,并且该方法缩短了引物序列的“非信息性”测序。该方法也可以与内部标记组合使用。
在一个实施例中,多重靶向PCR扩增中的非生产性产物的相对量可以通过升高退火温度来减少。在含有与靶标特异性引物相同的标签的扩增文库的情况下,退火温度可以相比于基因组DNA有所提高,因为标签将导致引物结合。在一些实施例中,使用降低的引物浓度,任选地与更长的退火时间一起使用。在一些实施例中,退火时间可以超过3分钟、超过5分钟、超过8分钟、超过10分钟、超过15分钟、超过20分钟、超过30分钟、超过60分钟、超过120分钟、超过240分钟、超过480分钟且甚至超过960分钟。在某些说明性实施例中,使用更长的退火时间和降低的引物浓度。在各种实施例中,使用大于正常延伸的时间,诸如大于3分钟、5分钟、8分钟、10分钟或15分钟。在一些实施例中,引物浓度低到50nM、20nM、10nM、5nM、1nM以及低于1nM。这出人意料地产生了高度多重反应的有力性能,例如1,000重反应、2,000重反应、5,000重反应、10,000重反应、20,000重反应、50,000重反应且甚至100,000重反应。在一个实施例中,扩增使用一个、两个、三个、四个或五个用长退火时间运行的循环,接着是用更常用的退火时间和经标记的引物运行的PCR循环。
为了选择靶位置,可以从一池候选引物对设计开始并且创建引物对之间的潜在不利相互作用的热力学模型,且然后使用该模型消除与池中的其它设计不相容的设计。
在一个实施例中,本发明的特征在于一种用于降低靶基因座(诸如可能含有与疾病或病症或增加的疾病或病症(诸如癌症)风险相关的多态现象或突变的基因座)的数目和/或增加所检测的疾病负载(例如增加所检测的多态现象或突变的数目)的方法。在一些实施例中,该方法包括通过患有疾病或病症(诸如癌症)的受试者中的每个基因座中的多态现象或突变(诸如单核苷酸变化、插入、或缺失、或本文中所描述的任何其它变化)的频率或复现而对基因座进行分级(诸如从最高到最低进行分级)。在一些实施例中,PCR引物被设计成针对一些或全部基因座。在选择引物文库的PCR引物期间,与具有较低频率或复现的基因座(分级较低的基因座)相比,针对具有较高频率或复现的基因座(分级较高的基因座)的引物是有利的。在一些实施例中,包括这一参数作为本文中所描述的不合意性评分的计算中的参数中的一个。视需要,与文库中的其它设计不相容的引物(诸如针对高分级基因座的引物)可以包括在不同的PCR文库/池中。在一些实施例中,在分开的PCR反应中使用多个文库/池(诸如2、3、4、5个或更多个)以实现由所有文库/池表示的所有(或大部分)基因座的扩增。在一些实施例中,持续进行这一方法直到一个或多个文库/池中包括足够的引物,使得合计起来的引物能够实现捕获疾病或病症的所需疾病负载(例如像通过检测至少80、85、90、95或99%的疾病负载)。
Y.示例性引物文库
在一个方面中,本发明的特征在于引物文库,诸如使用本发明的任何方法从候选引物文库选择的引物。在一些实施例中,该文库包括在一个反应体积中同时杂交(或能够同时杂交)或同时扩增(或能够同时扩增)至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000或100,000个不同的靶基因座的引物。在各种实施例中,该文库包括在一个反应体积中同时扩增(或能够同时扩增)在100至500、500至1,000、1,000至2,000、2,000至5,000、5,000至7,500、7,500至10,000、10,000至20,000、20,000至25,000、25,000至30,000、30,000至40,000、40,000至50,000、50,000至75,000或75,000至100,000个之间的不同靶基因座的引物且包括端值。在各种实施例中,该文库包括在一个反应体积中同时扩增(或能够同时扩增)在1,000至100,000个之间的不同的靶基因座,诸如在1,000至50,000、1,000至30,000、1,000至20,000、1,000至10,000、2,000至30,000、2,000至20,000、2,000至10,000、5,000至30,000、5,000至20,000或5,000至10,000个之间的不同的靶基因座且包括端值。在一些实施例中,该文库包括在一个反应体积中同时扩增(或能够同时扩增)靶基因座以使得小于60%、40%、30%、20%、10%、5%、4%、3%、2%、1%、0.5%、0.25%、0.1%或0.5%的扩增产物是引物二聚体的引物。在各种实施例中,作为引物二聚体的扩增产物的量在0.5%至60%之间,诸如在0.1%至40%、0.1%至20%、0.25%至20%、0.25%至10%、0.5%至20%、0.5%至10%、1%至20%或1%至10%之间且包括端值。在一些实施例中,引物在一个反应体积中同时扩增(或能够同时扩增)靶基因座,使得至少50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或99.5%的扩增产物是靶扩增子。在各种实施例中,作为靶扩增子的扩增产物的量在50%至99.5%之间,诸如在60%至99%、70%至98%、80%至98%、90%至99.5%或95%至99.5%之间且包括端值。在一些实施例中,引物在一个反应体积中同时扩增(或能够同时扩增)靶基因座,使得至少50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或99.5%的靶基因座被扩增(例如与扩增之前的量相比,扩增至少5、10、20、30、50或100倍)。在各种实施例中,经扩增的(例如与扩增之前的量相比扩增至少5、10、20、30、50或100倍)靶基因座的量在50%至99.5%之间,诸如在60%至99%、70%至98%、80%至99%、90%至99.5%、95%至99.9%或98%至99.99%之间且包括端值。在一些实施例中,引物文库包括至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000或100,000个引物对,其中每对引物包括正向测试引物和反向测试引物,其中每对测试引物与靶基因座杂交。在一些实施例中,引物文库包括至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000或100,000个各自与不同靶基因座杂交的单独引物对,其中单独引物不是引物对的一部分。
在各种实施例中,每种引物的浓度小于100nM、75nM、50nM、25nM、20nM、10nM、5nM、2nM或1nM,或小于500uM、100uM、10uM或1uM。在各种实施例中,每种引物的浓度在1uM至100nM之间,诸如在1uM至1nM、1nM至75nM、2nM至50nM或5nM至50nM之间且包括端值。在各种实施例中,引物的GC含量在30%至80%之间,诸如在40%至70%或50%至60%之间且包括端值。在一些实施例中,引物的GC含量的范围是小于30%、20%、10%或5%。在一些实施例中,引物的GC含量的范围在5%至30%,诸如5%至20%或5%至10%之间且包括端值。在一些实施例中,测试引物的解链温度(Tm)在40℃至80℃,诸如50℃至70℃、55℃至65℃或57℃至60.5℃之间且包括端值。在一些实施例中,使用Primer3程序(libprimer3版本2.2.3),使用内置SantaLucia参数(万维网网址primer3.sourceforge.net)来计算Tm。在一些实施例中,引物的解链温度的范围是小于15℃、10℃、5℃、3℃或1℃。在一些实施例中,引物的解链温度的范围在1℃至15℃之间,诸如在1℃至10℃、1℃至5℃或1℃至3℃之间且包括端值。在一些实施例中,引物的长度在15至100个核苷酸之间,诸如在15至75个核苷酸、15至40个核苷酸、17至35个核苷酸、18至30个核苷酸或20至65个核苷酸之间且包括端值。在一些实施例中,引物的长度范围是小于50、40、30、20、10或5个核苷酸。在一些实施例中,引物的长度范围在5至50个核苷酸之间,诸如5至40个核苷酸、5至20个核苷酸或5至10个核苷酸之间且包括端值。在一些实施例中,靶扩增子的长度在50与100个核苷酸之间,诸如在60与80个核苷酸或60至75个核苷酸之间且包括端值。在一些实施例中,靶扩增子的长度范围小于50、25、15、10或5个核苷酸。在一些实施例中,靶扩增子的长度范围在5至50个核苷酸,诸如5至25个核苷酸、5至15个核苷酸或5至10个核苷酸之间且包括端值。在一些实施例中,文库不包括微阵列。在一些实施例中,文库包括微阵列。
在一些实施例中,除天然存在的磷酸二酯键以外,一些(诸如至少80%、90%或95%)或所有接头或引物在相邻核苷酸之间包括一个或多个键。这类键的实例包括磷酰胺、硫代磷酸酯和二硫代磷酸酯键。在一些实施例中,一些(诸如至少80%、90%或95%)或所有接头或引物在最后一个3′核苷酸与倒数第二个3′核苷酸之间包括硫代磷酸酯(诸如单硫代磷酸酯)。在一些实施例中,一些(诸如至少80%、90%或95%)或所有接头或引物在3′端处的最后2、3、4或5个核苷酸之间包括硫代磷酸酯(诸如单硫代磷酸酯)。在一些实施例中,一些(诸如至少80%、90%或95%)或所有接头或引物在3'端处的最后10个核苷酸中的至少1、2、3、4或5个核苷酸之间包括硫代磷酸酯(诸如单硫代磷酸酯)。在一些实施例中,这类引物不太可能裂解或降解。在一些实施例中,引物不含酶裂解位点(诸如蛋白酶裂解位点)。
另外的示例性多重PCR方法和文库描述于2012年11月21日提交的美国申请第13/683,604号(美国公开第2013/0123120号)和2014年5月16日提交的美国序列号61/994,791中,其特此通过引用的方式全文并入)。这些方法和文库可以用于分析本文中所公开的任何样品和用于本发明的任何方法中。
Z.用于检测重组的示例性引物文库
在一些实施例中,引物文库中的引物被设计成确定一个或多个已知的重组热点处是否发生重组(诸如同源人类染色体之间的交叉)。知道染色体之间发生何种交叉允许确定个体的更精确的定相基因数据。重组热点是染色体中的重组事件倾向于集中的局部区域。通常,重组热点由“冷点”侧接,该冷点是低于平均重组频率的区域。重组热点倾向于共有类似形态且长度是约1kb至2kb。热点分布与GC含量和重复元素分布正相关。部分简并的13聚体模体CCNCCNTNNCCNC在一些热点活性中起作用。已证实称为PRDM9的锌指蛋白质与这一模体结合且引发其位置处的重组。据报道,重组热点的中心之间的平均距离是约80kb。在一些实施例中,重组热点的中心之间的距离范围在约3kb至约100kb之间。公共数据库包括大量已知的人类重组热点,诸如HUMHOT和国际单倍型图计划(International HapMap Project)数据库(参见例如,Nishant等人,“HUMHOT:a database of human meiotic recombinationhot spots,”Nucleic Acids Research,34:D25–D28,2006,Database issue;Mackiewicz等人,“Distribution of Recombination Hotspots in the Human Genome–A Comparisonof Computer Simulations with Real Data”PLoS ONE 8(6):e65272,doi:10.1371/journal.pone.0065272;和万维网网址hapmap.ncbi.nlm.nih.gov/downloads/index.html.en,其各自特此通过引用的方式全文并入)。
在一些实施例中,引物文库中的引物在重组热点(诸如已知的人类重组热点)处或附近群集。在一些实施例中,使用相应的扩增子来确定重组热点内或附近的序列,以确定此特定热点处是否发生重组(诸如扩增子的序列是否是在发生重组的情况下所预期的序列或在未发生重组的情况下所预期的序列)。在一些实施例中,引物被设计成扩增部分或全部重组热点(和任选地,侧接重组热点的序列)。在一些实施例中,使用长读段测序(诸如使用由Illumina开发的Moleculo Technology来测序最多约10kb的测序)或成对端测序,以对部分或全部重组热点进行测序。是否发生重组事件的知识可以用于确定哪些单倍型域侧接热点。视需要,可以使用对单倍型域内的区域具有特异性的引物来证实存在特定单倍型域。在一些实施例中,假设已知的重组热点之间不存在交叉。在一些实施例中,引物文库中的引物在染色体的末端处或附近群集。例如,这类引物可以用于确定染色体的末端处是否存在特定的臂或节段。在一些实施例中,引物文库中的引物在重组热点处或附近和染色体的末端处或附近群集。
在一些实施例中,引物文库包括对重组热点(诸如已知的人类重组热点)具有特异性和/或对重组热点附近的区域(诸如与重组热点的5'或3'端相距10kb、8kb、5kb、3kb、2kb、1kb或0.5kb以内)具有特异性的一个或多个引物(诸如至少5、10、50、100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000或50,000个不同引物或不同引物对)。在一些实施例中,至少1、5、10、20、40、60、80、100或150个不同引物(或引物对)对相同的重组热点具有特异性,或对相同的重组热点或重组热点附近的区域具有特异性。在一些实施例中,至少1、5、10、20、40、60、80、100或150个不同引物(或引物对)对重组热点之间的区域(诸如不太可能经历重组的区域)具有特异性;这些引物可以用于确认是否存在单倍型域(诸如将取决于是否已经发生重组来预期的那些单倍型域)。在一些实施例中,引物文库中的至少10%、20%、30%、40%、50%、60%、70%、80%或90%的引物对重组热点具有特异性和/或对重组热点附近的区域(诸如与重组热点的5'或3'端相距10kb、8kb、5kb、3kb、2kb、1kb或0.5kb以内)具有特异性。在一些实施例中,使用引物文库来确定大于或等于5、10、50、100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000或50,000个不同重组热点(诸如已知的人类重组热点)处是否发生重组。在一些实施例中,引物针对重组热点或邻近区域所靶向的区域沿基因组的此部分大致均匀分布。在一些实施例中,至少1、5、10、20、40、60、80、100或150个不同引物(或引物对)对染色体的末端处或附近的区域(诸如与染色体的末端相距20mb、10mb、5mb、1mb、0.5mb、0.1mb、0.01mb或0.001mb以内的区域)具有特异性。在一些实施例中,引物文库中的至少10%、20%、30%、40%、50%、60%、70%、80%或90%的引物对染色体的末端处或附近的区域(诸如与染色体的末端相距20mb、10mb、5mb、1mb、0.5mb、0.1mb、0.01mb或0.001mb以内的区域)具有特异性。在一些实施例中,至少1、5、10、20、40、60、80、100或150个不同引物(或引物对)对染色体中的潜在微缺失内的区域具有特异性。在一些实施例中,引物文库中的至少10%、20%、30%、40%、50%、60%、70%、80%或90%的引物对染色体中的潜在微缺失内的区域具有特异性。在一些实施例中,引物文库中的至少10%、20%、30%、40%、50%、60%、70%、80%或90%的引物对重组热点、重组热点附近的区域、染色体的末端处或附近的区域或染色体中的潜在微缺失内的区域具有特异性。
AA.示例性多重PCR方法
一方面,本发明的特征在于用于扩增核酸样品中的靶基因座的方法,该方法涉及(i)使核酸样品与同时与至少1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000或100,000个不同的靶基因座杂交的引物文库接触以产生反应混合物;和(ii)使反应混合物经历引物延伸反应条件(诸如PCR条件)以产生包括靶扩增子的扩增产物。在一些实施例中,该方法还包括确定存在或不存在至少一种靶扩增子(诸如至少50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或99.5%的靶扩增子)。在一些实施例中,该方法还包括确定至少一种靶扩增子(诸如至少50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或99.5%的靶扩增子)的序列。在一些实施例中,至少50%、60%、70%、80%、90%、95%、96%、97%、98%、99%或99.5%的靶基因座被扩增。在一些实施例中,至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000或100,000个不同的靶基因座被扩增至少5、10、20、40、50、60、80、100、120、150、200、300或400倍。在一些实施例中,至少50%、60%、70%、80%、90%、95%、96%、97%、98%、99%、99.5%或100%的靶基因座被扩增至少5、10、20、40、50、60、80、100、120、150、200、300或400倍。在各种实施例中,少于60%、50%、40%、30%、20%、10%、5%、4%、3%、2%、1%、0.5%、0.25%、0.1%或0.05%的扩增产物是引物二聚体。在一些实施例中,该方法涉及多重PCR和测序(诸如高通量测序)。
在各种实施例中,使用长退火时间和/或低引物浓度。在各种实施例中,退火步骤的长度大于3、5、8、10、15、20、30、45、60、75、90、120、150或180分钟。在各种实施例中,退火步骤(每个PCR循环)的长度在5分钟与180分钟,诸如如5至60、10至60、5至30或10至30分钟之间且包括端值。在各种实施例中,退火步骤的长度大于5分钟(如大于10分钟或15分钟),且每种引物的浓度小于20nM。在各种实施例中,退火步骤的长度大于5分钟(如大于10分钟或15分钟),且每种引物的浓度在1nM至20nM或1nM至10nM之间且包括端值。在各种实施例中,退火步骤的长度大于20分钟(诸如大于30分钟、45分钟、60分钟或90分钟),且每种引物的浓度小于1nM。
在高水平多重化的情况下,溶液可能因为溶液中的大量引物而变得粘稠。如果溶液太粘稠,则可以将引物浓度降低到仍足以使引物结合模板DNA的量。在各种实施例中,使用小于60,000个不同的引物且每种引物的浓度小于20nM,诸如小于10nM或在1nM与10nM之间且包括端值。在各种实施例中,使用超过60,000个不同的引物(诸如在60,000与120,000个之间的不同的引物)且每种引物的浓度小于10nM,诸如小于5nM或在1nM与10nM之间且包括端值。
发现退火温度可以任选地高于一些或全部引物的解链温度(与使用低于引物的解链温度的退火温度的其它方法相反)。解链温度(Tm)是满足以下条件的温度:寡核苷酸(诸如引物)和其完美互补物的二分之一(50%)的DNA双螺旋解离且变成单链DNA。退火温度(TA)是用于运行PCR方案的温度。对于先前方法,退火温度通常比所使用的引物的最低Tm低5℃,因此形成将近所有有可能的双螺旋(使得基本上所有引物分子结合模板核酸)。尽管这是高效的,但在较低温度下一定会发生更多的非特异性反应。具有过低的TA的一个结果是引物可能退火到真实靶标以外的其他序列,因为可以容许内部单碱基失配或部分退火。在本发明的一些实施例中,TA高于(Tm),其中在既定时刻,仅一小部分靶标具有退火的引物(诸如仅约1%-5%)。如果这些引物被延伸,则将这些引物从退火和解离引物和靶标的平衡中去除(因为延伸使Tm很快升高至超过70℃),且新的约1%-5%的靶标具有引物。因此,通过使反应具有长退火时间,可以实现每个循环复制约100%的靶标。因此,优先延伸最稳定的分子对(具有完美的引物与模板DNA之间的DNA配对的那些分子对)以产生正确的靶扩增子。例如,使用具有低于63℃的解链温度的引物,用57℃作为退火温度且用63℃作为退火温度进行相同实验。当退火温度是57℃时,经扩增的PCR产物的所映射的读段的百分比低到50%(其中约50%的扩增产物是引物二聚体)。当退火温度是63℃时,扩增产物中的引物二聚体的百分比降低至约2%。
在各种实施例中,退火温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的解链温度(诸如凭经验测量或计算的Tm)高至少1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃、13℃或15℃。在一些实施例中,退火温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的解链温度(诸如凭经验测量或计算的Tm)高至少1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃、13℃或15℃,并且退火步骤(每个PCR循环)的长度大于1、3、5、8、10、15、20、30、45、60、75、90、120、150或180分钟。
在各种实施例中,退火温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的解链温度(诸如凭经验测量或计算的Tm)高在1℃与15℃(诸如在1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃或12℃至15℃之间,且包括端值)。在各种实施例中,退火温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的解链温度(诸如凭经验测量或计算的Tm)高1℃与15℃之间(诸如1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃或12℃至15℃之间且包括端值),并且退火步骤(每个PCR循环)的长度在5与180分钟,诸如5至60、10至60、5至30或10至30分钟之间且包括端值。
在一些实施例中,退火温度比引物的最高解链温度(诸如凭经验测量或计算的Tm)高至少1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃、13℃或15℃。在一些实施例中,退火温度比引物的最高解链温度(诸如凭经验测量或计算的Tm)高至少1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃、13℃或15℃,并且退火步骤(每个PCR循环)的长度大于1、3、5、8、10、15、20、30、45、60、75、90、120、150或180分钟。
在一些实施例中,退火温度比引物的最高解链温度(诸如凭经验测量或计算的Tm)高1℃与15℃之间(诸如1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃或12℃至15℃之间且包括端值)。在一些实施例中,退火温度比引物的最高解链温度(诸如凭经验测量或计算的Tm)高1℃与15℃之间(诸如1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃或12℃至15℃之间且包括端值),且退火步骤(每个PCR循环)的长度在5分钟与180分钟,诸如5分钟至60分钟、10分钟至60分钟、5分钟至30分钟或10分钟至30分钟之间且包括端值。
在一些实施例中,退火温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的平均解链温度(诸如凭经验测量或计算的Tm)高至少1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃、13℃或15℃。在一些实施例中,退火温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的平均解链温度(诸如凭经验测量或计算的Tm)高至少1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、11℃、12℃、13℃或15℃,并且退火步骤(每个PCR循环)的长度大于1、3、5、8、10、15、20、30、45、60、75、90、120、150或180分钟。
在一些实施例中,退火温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的平均解链温度(诸如凭经验测量或计算的Tm)高1℃与15℃之间(诸如1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃或12℃至15℃且包括端值)。在一些实施例中,退火温度比至少25、50、75、100、300、500、750、1,000、2,000、5,000、7,500、10,000、15,000、19,000、20,000、25,000、27,000、28,000、30,000、40,000、50,000、75,000、100,000种或所有非一致引物的平均解链温度(诸如凭经验测量或计算的Tm)高1℃与15℃之间(诸如1℃至10℃、1℃至5℃、1℃至3℃、3℃至5℃、5℃至10℃、5℃至8℃、8℃至10℃、10℃至12℃或12℃至15℃且包括端值),并且退火步骤(每个PCR循环)的长度在5分钟与180分钟,诸如5至60、10至60、5至30或10至30分钟之间且包括端值。
在一些实施例中,退火温度在50℃至70℃之间,诸如在55℃至60℃、60℃至65℃或65℃至70℃之间且包括端值。在一些实施例中,退火温度在50℃至70℃之间,诸如在55℃至60℃、60℃至65℃或65℃至70℃之间且包括端值,并且(i)退火步骤(每个PCR循环)的长度大于3、5、8、10、15、20、30、45、60、75、90、120、150或180分钟,或(ii)退火步骤(每个PCR循环)的长度在5与180分钟,诸如5至60、10至60、5至30或10至30分钟之间且包括端值。
在一些实施例中,以下条件中的一个或多个用于Tm的经验测量或假设用于Tm的计算:温度是60.0℃、引物浓度是100nM和/或盐浓度是100mM。在一些实施例中,使用其它条件,诸如将用于具有文库的多重PCR的条件。在一些实施例中,使用100mM KCl、50mM(NH4)2SO4、3mM MgCl2、7.5nM的每种引物和50mM TMAC,在pH 8.1下。在一些实施例中,使用Primer3程序(libprimer3版本2.2.3),使用内置SantaLucia参数(万维网网址primer3.sourceforge.net,其特此通过引用的方式全文并入)来计算Tm。在一些实施例中,引物的所计算的解链温度是预期实现一半引物分子退火的温度。如上文所讨论,即使在高于所计算的解链温度的温度下,一定百分比的引物仍将被退火且因此可能发生PCR延伸。在一些实施例中,在UV分光光度计中使用恒温器控制的细胞来确定凭经验测量的Tm(实际Tm)。在一些实施例中,相对于吸光度来标绘温度,产生具有两个平线区的S形曲线。部分位于平线区之间的吸光度读数对应于Tm。
在一些实施例中,用ultrospec 2100pr UV/可见光分光光度计(Amershambiosciences)以温度的函数形式测量在260nm下的吸光度(参见例如Takiya等人,“An empirical approach for thermal stability(Tm)prediction of PNA/DNAduplexes,”Nucleic Acids Symp Ser(Oxf);(48):131-2,2004,其特此通过引用的方式全文并入)。在一些实施例中,通过使温度以2℃/分钟的步长从95℃降低至20℃来测量在260nm下的吸光度。在一些实施例中,将引物与其完美互补物(诸如2uM的每个成对的寡聚物)混合且然后通过以下方式进行退火:将样品加热至95℃,在该温度下保持5分钟,接着在30分钟期间冷却至室温且使样品在95℃下保持至少60分钟。在一些实施例中,使用SWIFTTm软件通过分析数据来确定解链温度。在本发明的任何方法的一些实施例中,该方法包括在引物用于靶基因座的PCR扩增之前或之后,凭经验测量或计算(诸如用计算机计算)文库中的至少50%、80%、90%、92%、94%、96%、98%、99%或100%的引物的解链温度。
在一些实施例中,文库包括微阵列。在一些实施例中,文库不包括微阵列。
在一些实施例中,对大部分或所有引物进行延伸以形成扩增产物。在PCR反应中耗尽所有引物增加了不同靶基因座的扩增的均匀性,因为相同或类似数目的引物分子转化成每个靶基因座的靶扩增子。在一些实施例中,对至少80%、90%、92%、94%、96%、98%、99%或100%的引物分子进行延伸以形成扩增产物。在一些实施例中,对于至少80%、90%、92%、94%、96%、98%、99%或100%的靶基因座,对至少80%、90%、92%、94%、96%、98%、99%或100%的针对此靶基因座的引物分子进行延伸以形成扩增产物。在一些实施例中,进行多个循环直到耗尽这一百分比的引物。在一些实施例中,进行多个循环直到耗尽所有或实质上所有引物。视需要,可以通过降低初始引物浓度和/或增加所进行的PCR循环的数目来消耗更高百分比的引物。
在一些实施例中,可以使用微升反应体积来进行PCR方法,该微升反应体积与微流体应用中使用的纳升或皮升反应体积相比更难以实现特异性PCR扩增(由于模板核酸的较低的局部浓度)。在一些实施例中,反应体积在1uL与60uL之间,诸如在5uL与50uL、10uL与50uL、10uL与20uL、20uL与30uL、30uL与40uL或40uL至50uL之间且包括端值。
在一个实施例中,本文公开的方法使用高效的高度多重化的靶向PCR扩增DNA,然后进行高通量测序以确定每个靶基因座处的等位基因频率。在一个反应体积中以大部分所得序列读段映射到靶基因座的方式对超过约50或100个PCR引物进行多重化的能力是新颖并且非显而易见的。一种允许高度多重化的靶向PCR以高效方式进行的技术涉及设计不太可能相互杂交的引物。通过以下方式来选择通常称为引物的PCR探针:创建至少300、至少500、至少750、至少1,000、至少2,000、至少5,000、至少7,500、至少10,000、至少20,000、至少25,000、至少30,000、至少40,000、至少50,000、至少75,000或至少100,000个潜在引物对之间的潜在不利相互作用或引物与样品DNA之间的不希望的相互作用的热力学模型,且接着使用该模型来消除与池中的其它设计不相容的设计。另一种允许高度多重化的靶向PCR以高效方式进行的技术是对靶向PCR使用部分或完全嵌套的方法。使用这些方法中的一种或组合允许对单一池中至少300、至少800、至少1,200、至少4,000或至少10,000个引物进行多重化,其中所得经扩增的DNA包括大部分的在测序时将映射到靶基因座的DNA分子。使用这些方法中的一种或组合允许对单一池中的大量引物进行多重化,其中所得经扩增的DNA包括大于50%、大于60%、大于67%、大于80%、大于90%、大于95%、大于96%、大于97%、大于98%、大于99%或大于99.5%的映射到靶基因座的DNA分子。
在一些实施例中,靶遗传物质的检测可以按多重方式进行。可以平行运行的基因靶序列的数目可以在一至十、十至一百、一百至一千、一千至一万、一万至十万、十万至一百万或一百万至一千万的范围内。每个池对超过100个引物进行多重化的先前尝试已经产生了显著问题和不需要的副反应,诸如引物二聚体形成。
BB.靶向PCR
在一些实施例中,PCR可以用于靶向基因组的特异性位置。在血浆样品中,使原始DNA高度片段化(典型地小于500bp,平均长度小于200bp)。在PCR中,正向和反向引物二者均退火成相同片段以实现扩增。因此,如果片段较短,则PCR测定必须也扩增相对较短的区域。与MIPS相同,如果多态位置太靠近聚合酶结合位点,则可能引起不同等位基因的扩增偏差。当前,靶向多态区域的PCR引物(诸如含有SNP的那些引物)典型地被设计成使得引物的3′端将和与一个或多个多态碱基紧密相邻的碱基杂交。在本公开的实施例中,正向和反向PCR引物二者的3'端被设计成用于与远离所靶向的等位基因的变体位置(多态位点)的一个或几个位置的碱基杂交。多态位点(SNP或其它多态位点)之间的碱基和与所设计的引物的3′端杂交的碱基的数目可以是一个碱基,该数目可以是两个碱基,该数目可以是三个碱基,该数目可以是四个碱基,该数目可以是五个碱基,该数目可以是六个碱基,该数目可以是七至十个碱基,该数目可以是十一至十五个碱基,或该数目可以是十六至二十个碱基。正向和反向引物可以被设计成与不同数目的远离多态位点的碱基杂交。
可以产生大量PCR测定,然而,不同PCR测定之间的相互作用使得难以将这些测定多重化成超过约一百个测定。可以使用各种复合分子方法来提高多重化水平,但这仍然可能限于每个反应少于100,或许200或可能500个测定。具有大量DNA的样品可以被分到多个子反应中且然后在测序之前重组。对于DNA分子的整个样品或一些子群体受限的样品,拆分样品将引入统计噪声。在一个实施例中,少量或有限数量的DNA可以指少于10pg、在10pg与100pg之间、在100pg与1ng之间、在1ng与10ng之间或在10ng与100ng之间的量。应注意,虽然这种方法特别适用于少量DNA,其中涉及分成多个池的其它方法会引起与所引入的随机噪声相关的显著问题,但这种方法在该方法在具有任何数量DNA的样品上运行时仍然提供使偏差最大限度地减少的益处。在这些情形下,可以使用通用预扩增步骤来增加整体样品数量。理想地,这个预扩增步骤不应该显著地改变等位基因分布。
在一个实施例中,本公开的方法可以从有限样品(诸如来自体液的单细胞或DNA)产生对大量靶基因座,具体地1,000至5,000个基因座、5,000至10,000个基因座或超过10,000个基因座具有特异性的PCR产物,用于通过测序进行基因分型或一些其它基因分型方法。当前,进行超过5至10个靶标的多重PCR反应提出了一项重大挑战并且通常受到诸如引物二聚体的引物副产物和其它假象的阻挠。当使用微阵列,用杂交探针检测靶序列时,可以忽略引物二聚体和其它假象,因为不检测这些物质。然而,当使用测序作为检测方法时,绝大部分测序读段将对这类假象而不是样品中所需靶序列进行测序。现有技术中所描述的用于在一个反应体积中对超过50或100个反应进行多重化,接着进行测序的方法典型地将产生超过20%且通常超过50%、在许多情况下超过80%且在一些情况下超过90%的脱靶序列读段。
通常,为了进行样品的多个(n个)靶标(大于50、大于100、大于500或大于1,000个)的靶向测序,可以将样品分到多个扩增一个单独靶标的平行反应中。这已经在PCR多孔盘中进行或可以在商业平台中进行,诸如FLUIDIGMACCESS ARRAY(在微流体芯片中每个样品48个反应)或RAIN DANCE TECHNOLOGY的DROPLET PCR(数百至数千个靶标)。不幸的是,这些拆分和合并(split-and-pool)方法对于具有有限量的DNA的样品是有问题的,因为通常不存在足够的基因组拷贝以确保每个孔中存在基因组的每个区域的一个拷贝。当靶向多态基因座并且需要多态基因座处的等位基因的相对比例时,这是尤其严重的问题,因为通过拆分和合并所引入的随机噪声将引起存在于原始DNA样品中的等位基因的比例的测量结果非常不准确。这里描述一种可以有效地且高效地扩增多个PCR反应的方法,该方法适用于仅可使用有限量的DNA的情况。在一个实施例中,该方法可以适用于分析单细胞、体液、DNA混合物(诸如在血浆、活检、环境和/或法医样品中发现的自由浮动DNA)。
在一个实施例中,靶向测序可以涉及以下步骤中的一个、多个或全部。a)用DNA片段的两端上的接头序列产生和扩增文库。b)在文库扩增之后分成多个反应。c)用DNA片段的两端上的接头序列产生和任选地扩增文库。d)使用每个靶标一个靶标特异性“正向”引物和一个标签特异性引物进行所选靶标的1000至10,000重扩增。e)使用“反向”靶标特异性引物和对以第一轮中的靶标特异性正向引物的一部分的形式引入的通用标签具有特异性的一个(或更多个)引物,从这一产物进行第二扩增。f)进行所选靶标的1000重预扩增持续有限数目的循环。g)将产物分成多个等分试样并且在单独的反应(例如,50至500重中扩增靶标的子池,但这可以一直使用直到单重。h)合并平行子池反应的产物。i)在这些扩增期间,引物可以携带测序相容标签(部分或全长),使得可以对产物进行测序。
高度多重PCR
本文中公开允许对超过一百至数万个来自核酸样品(诸如从血浆获得的基因组DNA)的靶序列(例如,SNP基因座)进行靶向扩增的方法。经扩增的样品可以相对不含引物二聚体产物并且在靶基因座处具有低等位基因偏差。如果在扩增期间或在扩增之后,产物与测序相容接头附接,则对这些产物的分析可以通过测序来进行。
使用本领域中已知的方法进行高度多重PCR扩增引起所产生的引物二聚体产物超过所需扩增产物并且不适用于测序。可以凭经验通过消除形成这些产物的引物或通过进行引物的计算机模拟选择来减少这些产物。然而,测定的数目越大,这个问题变得越难。
一种解决方案是将5000重反应拆分成若干个重数更低的扩增,例如一百个50重或五十个100重反应,或使用微流体或甚至将样品分成单独的PCR反应。然而,如果样品DNA是有限的,诸如在怀孕血浆的非侵入性产前诊断中,则应该避免在多个反应之间分割样品,因为这将产生瓶颈效应。
本文中描述用于首先总体地扩增样品的血浆DNA且让背后将样品分成多个多重靶标富集反应的方法,每个反应具有更适中的数目的靶序列。在一个实施例中,本公开的方法可以用于优先富集多个基因座处的DNA混合物,该方法包括以下步骤中的一或多个:从DNA混合物产生和扩增文库,其中文库中的分子具有连接在DNA片段的两端上的接头序列;将经扩增的文库分成多个反应,使用每个靶标一个靶标特异性“正向”引物和一个或多个接头特异性通用“反向”引物进行所选靶标的第一轮多重扩增。在一个实施例中,本公开的方法进一步包括使用“反向”靶标特异性引物和对以第一轮中的靶标特异性正向引物的一部分的形式引入的通用标签具有特异性的一个或多个引物来进行第二扩增。在一个实施例中,该方法可以涉及完全嵌套、半嵌套(hemi-nested)、半嵌套(semi-nested)、一侧完全嵌套、一侧半嵌套(one sided hemi-nested)或一侧半嵌套(one sided semi-nested)PCR方法。在一个实施例中,本公开的方法用于优先富集多个基因座处的DNA混合物,该方法包括进行所选靶标的多重预扩增持续有限数目的循环,将产物分成多个等分试样并且在单独的反应中扩增靶标的子池,以及合并平行子池反应的产物。应注意,对于50至500个基因座、对于500至5,000个基因座、对于5,000至50,000个基因座或甚至对于50,000至500,000个基因座,这种方法可以用于以将产生低水平等位基因偏差的方式进行靶向扩增。在一个实施例中,引物携带部分或全长的测序相容标签。
工作流程可能要求(1)提取DNA,诸如血浆DNA,(2)制备在片段的两端上具有通用接头的片段文库,(3)使用对接头具有特异性的通用引物来扩增文库,(4)将经扩增的样品“文库”分成多个等分试样,(5)对等分试样进行多重(例如约100重、1,000重或10,000重,其中使用每个靶标一个靶标特异性引物和标签特异性引物)扩增,(6)合并一个样品的等分试样,(7)将样品加注条形码,(8)混合样品并且调节浓度,(9)对样品进行测序。工作流程可以包括多个含有所列步骤中的一个的子步骤((例如步骤(2)制备文库步骤可能要求三个酶促步骤(平端化、dA加尾和接头连接)和三个纯化步骤)。工作流程的步骤可以组合、分割或按不同顺序(例如加注条形码和合并样品)执行。
重要的是应注意,可以按偏向于更高效地扩增短片段的方式来进行对文库的扩增。以这种方式,有可能优先扩增更短的序列,例如单核小体DNA片段,如在孕妇的循环中发现的(胎盘来源的)细胞游离胎儿DNA。应注意,PCR测定可以具有标签,例如测序标签(通常是15到25个碱基的截短形式)。在多重化之后,合并样品的PCR多重化结果且然后通过标签特异性PCR(也可以通过连接进行)完成(包括加注条形码)标签。此外,可以在与多重化相同的反应中添加完整测序标签。在第一循环中,可以用靶标特异性引物扩增靶标,接着由标签特异性引物接管以完成SQ接头序列。PCR引物可以不携带标签。测序标签可以通过连接而附接到扩增产物。
在一个实施例中,对于诸如胎儿非整倍性的检测等各种应用,可以使用高度多重PCR,接着通过克隆测序来评估经扩增的物质。尽管传统的多重PCR同时评估多达五十个基因座,但是本文中所描述的方法可以用于实现同时评估超过50个基因座、同时评估超过100个基因座、同时评估超过500个基因座、同时评估超过1,000个基因座、同时评估超过5,000个基因座、同时评估超过10,000个基因座、同时评估超过50,000个基因座以及同时评估超过100,000个基因座。实验已证实,可以在单一反应中以足够好的效率和特异性同时评估多达(包括)和超过10,000个不同的基因座,从而作出具有高准确性的非侵入性产前非整倍性诊断和/或拷贝数识别。可以在单一反应中将测定与整个样品组合,该样品是诸如从血浆分离的cfDNA样品、其一部分或cfDNA样品的经过进一步处理的衍生物。样品(例如,cfDNA或衍生物)还可以被分成多个平行的多重反应。最佳的样品分割和多重数是通过权衡各种性能规格来确定的。由于物质数量有限,所以将样品分成多个部分会引入采样噪声、操作时间,并且增加误差可能性。相反,更高度的多重化会产生更大量的假性扩增和更大的扩增不平等,二者都会降低测试性能。
在本文中所描述的方法的应用中的两个关键相关考虑因素是原始样品(例如,血浆)的有限量和此物质中用于获得等位基因频率或其它测量结果的原始分子的数目。如果原始分子的数目下降到低于某一水平,则随机采样噪声变得显著,并且会影响测试的准确性。典型地,如果对每个靶基因座包括等同于500-1000个原始分子的样品进行测量,则可以获得质量足以作出非侵入性产前非整倍性诊断的数据。存在多种用于增加不同测量的数目的方式,例如增加样品体积。应用于样品的每个操作也潜在地引起物质丢失。必需表征由各种操作引起的丢失且加以避免,或视需要改进某些操作的产率以避免可能降低测试性能的丢失。
在一个实施例中,有可能在后续步骤中通过扩增所有或一部分原始样品(例如,cfDNA样品)来减少潜在丢失。多种方法可以用于扩增样品中的所有遗传物质,增加可以用于下游程序的量。在一个实施例中,在一个不同接头、两个不同衔接子或多个不同接头的连接之后,通过PCR来扩增连接介导的PCR(LM-PCR)DNA片段。在一个实施例中,使用多重置换扩增(MDA)phi-29聚合酶来等温扩增所有DNA。在DOP-PCR和变化中,使用随机引发来扩增原始物质DNA。每种方法都具有某些特征,诸如在基因组的所有表达区域内扩增的均匀性、原始DNA的捕获和扩增的效率,以及是片段长度的函数的扩增性能。
在一个实施例中,LM-PCR可以与具有3'酪氨酸的单一异源双链接头一起使用。异源双链接头能够使用可以在第一轮PCR期间被转化为原始DNA片段的5'和3'端上的两个不同序列的单一接头分子。在一个实施例中,有可能通过尺寸拆分或产物(诸如AMPURE、TASS)或其它类似方法将经扩增的文库分级分离。在连接之前,可以对样品DNA进行平端化,且然后向3'端添加单一腺苷碱基。在连接之前,可以使用限制酶或某种其它裂解方法使DNA裂解。在连接期间,样品片段的3′腺苷和接头的互补性3′酪氨酸突出端可以增强连接效率。PCR扩增的延伸步骤从时间观点来看可能限于减少长度超过约200bp、约300bp、约400bp、约500bp或约1,000bp的片段的扩增。使用如通过可商购的试剂盒说明的条件来运行多个反应;引起少于10%的样品DNA分子的成功连接。关于这一点的反应条件的一系列优化将连接改进至约70%。
微型PCR
以下微型PCR方法适用于含有短核酸、经消化的核酸或片段化的核酸(诸如cfDNA)的样品。传统的PCR测定设计引起不同胎儿分子的显著丢失,但是可以通过设计称为微型PCR测定的极短PCR测定来极大地减少丢失。使母体血清中的胎儿cfDNA高度片段化并且片段尺寸大致以高斯方式分布,其中平均值是160bp,标准差是15bp,最小尺寸是约100bp且最大尺寸是约220bp。片段起点和末端位置相对于所靶向的多态现象的分布虽然不一定是随机的,但是在单独的靶标中和在全体所有靶标中大幅变化并且一个特定靶基因座的多态位点可以占据来源于此基因座的各个片段中从起点到末端的任何位置。应注意,术语微型PCR同样可以指不具有另外约束或限制的普通PCR。
在PCR期间,扩增将仅从包括正向和反向引物位点的模板DNA片段发生。因为胎儿cfDNA片段较短,所以两个引物位点存在的似然性,包括正向和反向引物位点二者的具有长度L的胎儿片段的似然性是扩增子长度与片段长度的比率。在理想条件下,其中扩增子是45bp、50bp、55bp、60bp、65bp或70bp的测定将分别从72%、69%、66%、63%、59%或56%的可用模板片段分子成功地扩增。扩增子长度是正向与反向引发位点的5′端之间的距离。比本领域的技术人员典型地使用的更短的扩增子长度可以通过仅需要短序列读段便引起所需多态基因座的更有效的测量结果。在一个实施例中,扩增子的实质部分应小于100bp、小于90bp、小于80bp、小于70bp、小于65bp、小于60bp、小于55bp、小于50bp或小于45bp。
应注意,在现有技术中已知的方法中,通常避免诸如本文中所描述的短测定,因为这些测定不是所需的并且这些测定通过限制引物长度、退火特征和正向与反向引物之间的距离对引物设计施加了大量限制。
还应注意,如果任一个引物的3′端与多态位点相距约1-6个碱基以内,则存在偏差扩增的潜能。在初始聚合酶结合位点处的这种单一碱基差异可以引起一个等位基因优先扩增,这可以改变所观察到的等位基因频率且降低性能。所有这些限制都使鉴别将成功地扩增特定基因座的引物并且进一步地,设计在同一个多重反应中相容的大型引物集合变得非常具有挑战性。在一个实施例中,内部正向和反向引物的3'端被设计成与多态位点上游的DNA区域杂交,并且通过少数碱基与多态位点分开。理想地,碱基的数目可以在6个与10个碱基之间,但是同样可以在4个与15个碱基之间、在三个与20个碱基之间、在两个与30个碱基之间或在1个与60个碱基之间,并且实现基本上相同的目的。
多重PCR可能涉及扩增所有靶标的单轮PCR或多重PCR可能涉及一轮PCR,接着是一轮或多轮嵌套PCR或嵌套PCR的一些变体。嵌套PCR由后续一轮或多轮PCR扩增组成,该PCR扩增使用一种或多种通过至少一个碱基对与前一轮中所使用的引物内部结合的新引物。嵌套PCR通过在后续反应中仅扩增来自前一个反应的具有正确内部序列的扩增产物来减少假性扩增靶标的数目。减少假性扩增靶标改进了可以获得的有效测量结果的数目,尤其在测序中。嵌套PCR典型地需要设计完全在先前引物结合位点内部的引物,必定会增加扩增所需的最小DNA区段尺寸。对于其中DNA被高度片段化的诸如血浆cfDNA等样品,更大的测定尺寸会减少可以用于获得测量结果的不同cfDNA分子的数目。在一个实施例中,为了抵消这种作用,可以使用部分嵌套方法,其中第二轮引物中的一个或两个与第一结合位点重叠,内部延伸一定数量的碱基,从而获得另外的特异性同时最低限度地增加总测定尺寸。
在一个实施例中,PCR测定的多重池被设计成潜在地扩增一条或多条染色体上的杂合SNP或其它多态或非多态基因座并且这些测定被用于单一反应中以扩增DNA。PCR测定的数量可以在50个与200个PCR检测之间,200个与1,000个PCR测定之间、1,000个与5,000个PCR测定之间或5,000个与20,000个PCR测定之间(分别为50-plex至200-plex、200-plex至1,000-plex、1,000-plex至5,000-plex、5,000-plex至20,000-plex、大于20,000-plex)。在一个实施例中,约10,000个PCR测定(10,000重)的多重池被设计成潜在地扩增X、Y、13、18和21以及1或2号染色体上的杂合SNP基因座,并且这些测定被用于单一反应中以扩增从以下物质获得的cfDNA:血浆样品、绒毛样品、羊膜穿刺术样品、单一或少量细胞、其它体液或组织、癌症或其它基因物。每个基因座的SNP频率可以通过克隆或一些其它方法对扩增子进行测序来确定。所有测定的等位基因频率分布或比率的统计分析都可以用于确定样品是否含有测试中所包括的染色体中的一种或多种的三体性。在另一个实施例中,原始cfDNA样品被分为两个样品,并且进行平行5,000-plex测定。在另一个实施例中,原始cfDNA样品被分为n个样品,并且进行平行(约10,000/n)-plex测定,其中n为2与12之间、或12与24之间、或24与48之间或48与96之间。以与已经描述的方式类似的方式采集和分析数据。应注意,这种方法同样适用于检测易位、缺失、复制和其它染色体异常。
在一个实施例中,还可以向任何引物的3′或5′端添加与靶基因组不具有同源性的尾部。这些尾部有助于后续操作、程序或测量。在一个实施例中,尾部序列对于正向和反向靶标特异性引物来说可以是相同的。在一个实施例中,可以针对正向和反向靶标特异性引物使用不同尾部。在一个实施例中,可以针对不同基因座或基因座的集合使用多个不同尾部。某些尾部可以在所有基因座中或在基因座子集中共用。例如,使用对应于任何当前测序平台所需的正向和反向序列的正向和反向尾部可以实现在扩增之后的直接测序。在一个实施例中,尾部可以用作可以用于添加其它有用序列的所有经扩增的靶标中的共同引发位点。在一些实施例中,内部引物可以含有被设计成与靶基因座(例如多态基因座)的上游或下游杂交的区域。在一些实施例中,引物可以含有分子条形码。在一些实施例中,引物可以含有被设计成允许PCR扩增的通用引发序列。
在一个实施例中,创建10,000重PCR测定池使得正向和反向引物具有对应于高通量测序仪器(通常称为大规模平行测序仪器,如可以从ILLUMINA获得的HISEQ、GAIIX或MYSEQ)所需要的所需正向和反向序列的尾部。此外,测序尾部所包括的5′是可以用作后续PCR中的引发位点的额外序列,用于向扩增子添加核苷酸条形码序列,实现在高通量测序仪器的单一通道中进行多个样品的多重测序。
在一个实施例中,创建10,000重PCR测定池使得反向引物具有对应于高通量测序仪器所需要的所需反向序列的尾部。在用第一个10,000重测定扩增之后,可以使用另一个具有针对所有靶标的部分嵌套正向引物(例如6碱基嵌套)和对应于第一轮中所包括的反向测序尾部的反向引物的10,000重池来进行后续PCR扩增。仅使用一个靶特异性引物和通用引物进行的这随后一轮的部分嵌套扩增限制所需的测定尺寸,减少抽样噪声,但极大地减少假性扩增子的数目。可以将测序标签添加到所附接的连接接头和/或作为PCR探针的一部分,使得该标签是最终扩增子的一部分。
肿瘤分数影响测试的性能。存在多种用于富集在患者血浆中发现的DNA的肿瘤分数的方式。可以通过先前所描述的已经讨论的LM-PCR方法以及通过靶向去除长片段来增加肿瘤分数。在一个实施例中,在靶基因座的多重PCR扩增之前,可以进行额外的多重PCR反应以选择性地去除对应于后续多重PCR中所靶向的基因座的长的并且很大程度上源于母体的片段。另外的引物被设计成对位点进行退火,该位点与细胞游离胎儿DNA片段中预期存在的相比,与多态现象相距更远。这些引物可以在靶多态基因座的多重PCR之前用于一个循环多重PCR反应中。这些远端引物标记有可以允许选择性识别被标记的DNA碎片的分子或部分。在一个实施例中,这些DNA分子可以用生物素分子共价修饰,该生物素分子允许在一个PCR循环之后去除新形成的包括这些引物的双链DNA。在此第一轮期间形成的双链DNA可能是源于母体的。可以通过使用磁性抗生蛋白链菌素珠粒来实现杂交物质的去除。存在可以同样起作用的其它标记方法。在一个实施例中,可以使用尺寸选择方法来富集样品中更短的DNA链;例如小于约800bp、小于约500bp或小于约300bp的那些DNA链。然后可以像往常一样进行短片段的扩增。
本公开中所描述的微型PCR方法实现了来自单一样品的数百至数千或甚至数百万个基因座在单一反应中的高度多重扩增和分析。同样地,可以对经扩增的DNA的检测进行多重化;可以通过使用条形码PCR在一个测序通道中对数十至数百个样品进行多重化。这种多重检测已经成功地测试了多达49重,并且高得多的程度的多重化是可能的。实际上,这允许数百个样品在单一测序运行中在数千个SNP处进行基因分型。对于这些样品,该方法允许确定基因型和杂合率并且同时确定拷贝数,二者都可以用于非整倍性检测目的。该方法可以用作用于突变剂量的方法的一部分。这种方法可以用于任何量的DNA或RNA,并且所靶向的区域可以是SNP、其它多态区域、非多态区域以及其组合。
在一些实施例中,可以使用片段化DNA的连接介导的通用PCR扩增。连接介导的通用PCR扩增可以用于扩增血浆DNA,然后可以将其分成多个平行反应。连接介导的通用PCR扩增还可以用于优先扩增短片段,从而富集肿瘤分数。在一些实施例中,通过连接向片段中添加标签可以实现较短的片段的检测,使用引物的较短的靶序列特异性部分和/或在减少非特异性反应的更高温度下退火。
本文中所描述的方法可以用于其中存在与一定量的污染DNA混合的DNA靶集合的多个目的。在一些实施例中,靶标DNA和污染DNA可以来自遗传相关个体。例如,可以从含有胎儿(靶标)DNA以及母体(污染)DNA的母体血浆检测胎儿(靶标)中的基因异常;该异常包括整个染色体异常(例如非整倍性)、部分染色体异常(例如缺失、复制、倒置、易位)、聚核苷酸多态现象(例如STR)、单核苷酸多态现象和/或其它基因异常或差异。在一些实施例中,靶标和污染DNA可以来自同一个体,但是其中靶标和污染DNA因一个或多个突变而不同,例如在癌症的情况下。(参见例如H.Mamon等人Preferential Amplification of Apoptotic DNAfrom Plasma:Potential for Enhancing Detection of Minor DNA Alterations inCirculating DNA.Clinical Chemistry 54:9(2008)。在一些实施例中,可以在细胞培养(细胞凋亡)上清液中发现DNA。在一些实施例中,有可能在生物样品(例如,血液)中诱导细胞凋亡以用于后续文库制备、扩增和/或测序。在本公开中的其它地方提出了用于实现这一目的的多种可行工作流程和方案。
在一些实施例中,靶标DNA可以来源于单一细胞、来源于由小于一个靶基因组拷贝组成的DNA的样品、来源于少量DNA、来源于来自混合来源(例如癌症患者血浆和肿瘤:健康与癌症DNA之间的混合物、移植等)的DNA、来源于其它体液、来源于细胞培养物、来源于培养物上清液、来源于法医DNA样品、来源于古老DNA样品(例如在琥珀中捕获的昆虫)、来源于其它DNA样品以及其组合。
在一些实施例中,可以使用短扩增子尺寸。短扩增子尺寸尤其适合于片段化的DNA(参见例如A.Sikora等人Detection of increased amounts of cell-free fetal DNAwith short PCR amplicons.Clin Chem.2010年1月;56(1):136-8。)
短扩增子尺寸的使用可以产生一些显著益处。短扩增子尺寸可以产生优化的扩增效率。短扩增子尺寸典型地产生更短的产物,因此非特异性引发的机率更低。更短的产物可以更密集地群集在测序流动细胞上,因为簇将更小。应注意,本文中所描述的方法可以同样适用于更长的PCR扩增子。可以视需要增加扩增子长度,例如当对更大的序列伸长部进行测序时。对单一细胞并且对基因组DNA运行以100bp至200bp长度的测定作为嵌套PCR方案中的第一步骤的146重靶向扩增实验,得到阳性结果。
在一些实施例中,本文中所描述的方法可以用于扩增和/或检测SNP、拷贝数、核苷酸甲基化、mRNA水平、其它类型的RNA表达水平、其它遗传和/或表观遗传特征。本文中所描述的微型PCR方法可以与下一代测序一起使用;该方法可以与其它下游方法一起使用,诸如微阵列、由数字PCR进行的计数、实时PCR、质谱分析等。
在一些实施例中,本文中所描述的微型PCR扩增方法可以用作用于准确对少数群体进行定量的方法的一部分。该方法可以用于使用刺入校准器进行绝对定量。该方法可以用于通过极深测序进行突变/次要等位基因定量,并且可以按高度多重方式运行。该方法可以用于人类、动物、植物或其它生物中的亲戚或祖先的标准父子关系和一致性测试。该方法可以用于法医测试。该方法可以用于任何类型物质的快速基因分型和拷贝数分析(CN),该物质是例如羊水和CVS、精子、受孕产物(POC)。该方法可以用于单细胞分析,诸如来自胚胎的活检样品的基因分型。该方法可以用于通过使用微型PCR的靶向测序进行的快速胚胎分析(在活检不到一天、一天或两天内)。
在一些实施例中,微型PCR扩增方法可以用于肿瘤分析:肿瘤活检通常是健康细胞和肿瘤细胞的混合物。靶向PCR允许在几乎无背景序列的情况下对SNP和基因座进行深度测序。该方法可以用于肿瘤DNA的拷贝数和杂合性丢失分析。该肿瘤DNA可能存在于肿瘤患者的多个不同体液或组织中。该方法可以用于检测肿瘤复发和/或肿瘤筛检。该方法可以用于种子的质量控制测试。该方法可以用于繁殖或捕鱼目的。应注意,出于倍性识别的目的,这些方法中的任一种可以同样用于靶向非多态基因座。
一些描述作为本文中所公开的方法的基础的一些基本方法的文献包括:(1)WangHY,Luo M,Tereshchenko IV,Frikker DM,Cui X,Li JY,Hu G,Chu Y,Azaro MA,Lin Y,Shen L,Yang Q,Kambouris ME,Gao R,Shih W,Li H.Genome Res.2005年2月;15(2):276-83.Department of Molecular Genetics,Microbiology and Immunology/The CancerInstitute of New Jersey,Robert Wood Johnson Medical School,New Brunswick,NewJersey 08903,USA.(2)High-throughput genotyping of single nucleotidepolymorphisms with high sensitivity.Li H,Wang HY,Cui X,Luo M,Hu G,GreenawaltDM,Tereshchenko IV,Li JY,Chu Y,Gao R.Methods Mol Biol.2007;396-PubMed PMID:18025699.(3)A method comprising multiplexing of an average of 9assays forsequencing is described in:Nested Patch PCR enables highly multiplexedmutation discovery in candidate genes.Varley KE,Mitra RD.Genome Res.2008年11月;18(11):1844-50.Epub 2008年10月10日。应注意,本文中所公开的方法允许多重化的数量级超过以上参考文献。
示例性试剂盒
一方面,本发明的特征在于一种试剂盒,诸如用于使用本文中所描述的任何方法扩增核酸样品中的靶基因座以用于检测染色体区段或整个染色体的缺失和/或复制的试剂盒)。在一些实施例中,试剂盒可以包括本发明的引物文库中的任何一者。在一个实施例中,试剂盒包括多个内部正向引物和任选的多个内部反向引物,以及任选的外部正向引物和外部反向引物,其中引物中的每个被设计成与紧靠着靶染色体或染色体区段以及任选另外的染色体或染色体区段上的一个靶位点(例如多态位点)的上游和/或下游的DNA的区域杂交。在一些实施例中,试剂盒包括使用引物文库扩增靶基因座的说明,诸如用于使用本文中所描述的方法中的任何一者来检测一个或多个染色体区段或整个染色体的一个或多个缺失和/或复制。
在某些实施例中,本发明的试剂盒提供用于检测染色体非整倍性和CNV确定的引物对,诸如用于用以检测染色体非整倍性(诸如CNV(CoNVERGe)(以基因型方式显示拷贝数变体事件(Copy Number Variant Events Revealed Genotypically))和/或SNV)的大规模多重反应的引物对。在这些实施例中,试剂盒可以包括至少100、200、250、300、500、1000、2000、2500、3000、5000、10,000、20,000、25,000、28,000、50,000或75,000个与最多200、250、300、500、1000、2000、2500、3000、5000、10,000、20,000、25,000、28,000、50,000、75,000或100,000个之间的共同装运的引物对。引物对可以包含于单一容器(诸如单一试管或盒子)或多个试管或盒子中。在某些实施例中,由商业提供者预先证明引物对合格且共同出售,且在其它实施例中,客户选择定制基因靶标和/或引物且商业提供者制备引物池且装运给客户(既不在一个试管中也不在多个试管中)。在某些示例性实施例中,试剂盒包括用于检测CNV和SNV二者,尤其已知与至少一种类型的癌症相关的CNV和SNV的引物。
根据本发明的一些实施例,用于循环DNA检测的试剂盒包括用于循环DNA检测的标准物和/或对照物。例如,在某些实施例中,标准物和/或对照物是与本文中所提供的用于进行扩增反应的引物(诸如用于进行CoNVERGe的引物)一起出售以及任选地装运和包装。在某些实施例中,对照物包括聚核苷酸,诸如DNA,包括呈现一种或多种染色体非整倍体(诸如CNV)和/或包括一种或多种SNV的经分离的基因组DNA。在某些实施例中,标准物和/或对照物被称为PlasmArt标准物且包括与已知呈现CNV(尤其在某些遗传性疾病中和在某些疾病状态(诸如癌症)中)的基因组的区域具有序列一致性以及反映在血浆中天然发现的cfDNA片段的尺寸分布的聚核苷酸。用于制备PlasmArt标准物的示例性方法提供于本文中的实例中。通常,将来自已知包括染色体非整倍体的来源的基因组DNA分离、片段化、纯化且进行尺寸选择。
因此,可以通过将如上文所概括制备的经分离的聚核苷酸样品以与在体内对于cfDNA所观察到的类似的浓度(诸如在例如此体液中的DNA的0.01%与20%、0.1与15%或0.4与10%之间)刺入已知不呈现染色体非整倍性和/或SNV的DNA样品中来制备人工cfDNA聚核苷酸标准物和/或对照物。这些标准物/对照物可以用作测定设计、表征、开发和/或验证的对照物,以及作为测试(诸如在CLIA实验室中进行的癌症测试)期间的质量控制标准物和/或作为仅供研究使用或诊断测试试剂盒中所包括的标准物。
示例性归一化/校正方法
在一些实施例中,针对偏差(诸如由GC含量的差异引起的偏差或由扩增效率的其它差异引起的偏差)调节或针对测序误差调节不同基因座、染色体区段或染色体的测量结果。在一些实施例中,针对等位基因之间的代谢、细胞凋亡、组蛋白、失活和/或扩增的差异来调节相同基因座的不同等位基因的测量结果。在一些实施例中,针对不同RNA等位基因之间的转录率或稳定性的差异来调节RNA中的相同基因座的不同等位基因的测量结果。
用于定相基因数据的示例性方法
在一些实施例中,使用本文中所描述的方法或任何已知的用于定相基因数据的方法来对基因数据进行定相(参见例如2009年2月9日提交的PCT公开第WO2009/105531号和2009年8月4日提交的PCT公开第WO2010/017214号;2012年11月21日提交的美国公开第2013/0123120号;2010年10月7日提交的美国公开第2011/0033862号;2010年8月19日提交的美国公开第2011/0033862号;2011年2月3日提交的美国公开第2011/0178719号;2008年3月17日提交的美国专利第8,515,679号;2006年11月22日提交的美国公开第2007/0184467号;2008年3月17日提交的美国公开第2008/0243398号和2014年5月16日提交的美国序列号61/994,791,其各自特此通过引用的方式全文并入)。在一些实施例中,确定一个或多个已知或疑似含有相关CNV的区域的相。在一些实施例中,还确定一个或多个侧接CNV区域的区域和/或一个或多个参考区域的相。在一个实施例中,通过测量来自个体的单倍组织(例如通过测量一个或多个精子或卵)来进行推断,对个体的基因数据进行定相。在一个实施例中,通过使用一个或多个一级亲属(诸如个体的父母(例如来自个体的父亲的精子)或同胞)的所测量的基因型数据进行推断,对个体的基因数据进行定相。
在一个实施例中,通过稀释来对个体的基因数据进行定相,其中在一个或多个孔中稀释DNA或RNA,诸如通过使用数字PCR。在一些实施例中,将DNA或RNA稀释到预期每个孔中存在不超过每个单倍型的约一个拷贝的点,并且然后测量一个或多个孔中的DNA或RNA。在一些实施例中,当染色体是紧密的束时,细胞停滞在有丝分裂期,且使用微流体在分开的孔中放置分开的染色体。因为DNA或RNA被稀释,所以同一个部分(或试管)中不太可能存在超过一个单倍型。因此,在试管中可以有效地存在单一DNA分子,这允许确定单一DNA或RNA分子上的单倍型。在一些实施例中,该方法包括:将DNA或RNA样品分成多个部分使得至少一个该部分包括来自一对染色体的一条染色体或一个染色体区段,以及对该部分中的至少一个中的DNA或RNA样品进行基因分型(例如,确定两个或更多个多态基因座的存在),由此确定单倍型。在一些实施例中,基因分型涉及测序(诸如鸟枪法测序或单分子测序)、用于检测多态基因座的SNP阵列或多重PCR。在一些实施例中,基因分型涉及使用SNP阵列来检测多态基因座,诸如至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000或100,000个不同的多态基因座。在一些实施例中,基因分型涉及使用多重PCR。在一些实施例中,该方法涉及使一部分样品与引物文库接触以产生反应混合物,该引物文库同时与至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000或100,000个不同的多态基因座(诸如SNP)杂交;并且使反应混合物经历引物延伸反应条件以产生扩增产物,用高通量测序仪测量该扩增产物以产生测序数据。在一些实施例中,对RNA(诸如mRNA)进行测序。因为mRNA仅含有外显子,对mRNA进行测序允许确定基因组中的较大距离(诸如数兆碱基)内的多态基因座(诸如SNP)的等位基因。在一些实施例中,通过染色体分选来确定个体的单倍型。示例性染色体分选方法包括当染色体是紧密的束时,使细胞停滞在有丝分裂期,和使用微流体在分开的孔中放置分开的染色体。另一种方法涉及使用FACS介导的单一染色体分选来采集单一染色体。可以使用标准方法(诸如测序或阵列)来鉴别单一染色体上的等位基因,以确定个体的单倍型。
在一些实施例中,通过长读段测序来确定个体的单倍型,诸如通过使用由Illumina开发的Moleculo Technology。在一些实施例中,文库制备步骤涉及将DNA剪切成片段,诸如尺寸是约10kb的片段,稀释片段且将片段放置在孔中(使得约3,000个片段在单一孔中),通过长范围PCR扩增每个孔中的片段且切割成短片段且将片段加注条形码,以及将来自每个孔的加注有条形码的片段合并在一起以对这些片段全部进行测序。在测序之后,计算步骤涉及基于所附加的条形码来拆分来自每个孔的读段且将其分组成片段,在片段的重叠杂合SNV处将片段组装成单倍型域,以及基于定相参考图以统计方式对域进行定相和产生长单倍型重叠群。
在一些实施例中,使用来自个体的亲属的数据来确定个体的单倍型。在一些实施例中,使用SNP阵列来确定来自个体和个体的亲属的DNA或RNA样品中存在至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000或100,000个不同的多态基因座。在一些实施例中,该方法涉及使来自个体和/或个体的亲属的DNA样品与引物文库接触以产生反应混合物,该引物文库同时与至少100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000或100,000个不同的多态基因座(诸如SNP)杂交;和使反应混合物经历引物延伸反应条件以产生扩增产物,使用高通量测序仪测量该扩增产物以产生测序数据。
在一个实施例中,使用计算机程序对个体的基因数据进行定相,该计算机程序使用基于群体的单倍型频率以推断最有可能的相,诸如基于HapMap的定相。例如,可以使用统计方法从二倍体数据直接推导单倍数据集,该统计方法利用一般群体中已知的单倍型域(诸如被创建用于公共单倍型图计划(public HapMap Project)和Perlegen人类单倍型计划(Perlegen Human Haplotype Project)的单倍型域)。单倍型域基本上是在多种群体中重复出现的一系列相关等位基因。因为这些单倍型域通常是古老和普遍的,所以这些单倍型域可以用于由二倍体基因型预测单倍型。实现这一任务的可公开获得的算法包括不完全系统发生方法、基于共轭先验的贝叶斯方法(Bayesian approaches based on conjugatepriors)和来自群体遗传学的先验。这些算法中的一些使用隐式马尔可夫模型(hiddenMarkov model)。
在一个实施例中,使用由基因型数据估算单倍型的算法对个体的基因数据进行定相,诸如使用局部单倍型群集的算法(参见例如Browning和Browning,“Rapid andAccurate Haplotype Phasing and Missing-Data Inference for Whole-GenomeAssociation Studies By Use of Localized Haplotype Clustering”Am J HumGenet.2007年11月;81(5):1084–1097,其特此通过引用的方式全文并入)。示例性程序是Beagle版本:3.3.2或版本4(可以在万维网网址hfaculty.washington.edu/browning/beagle/beagle.html获得,其特此通过引用的方式全文并入)。
在一个实施例中,使用由基因型数据估算单倍型的算法对个体的基因数据进行定相,诸如使用连锁不平衡随距离的衰减、基因分型标志物的顺序和间隔、遗失数据差补、重组率估算或其组合的算法(参见例如Stephens和Scheet,“Accounting for Decay ofLinkage Disequilibriumin Haplotype Inference and Missing-Data Imputation”Am.J.Hum.Genet.76:449–462,2005,其特此通过引用的方式全文并入)。示例性程序是PHASE v.2.1或v2.1.1。(可以在万维网网址stephenslab.uchicago.edu/software.html获得,其特此通过引用的方式全文并入)。
在一个实施例中,使用由群体基因型数据估算单倍型的算法对个体的基因数据进行定相,诸如允许簇成员根据隐式马尔可夫模型沿染色体连续地改变的算法。这种方法是灵活的,允许连锁不平衡的“域样”模式和连锁不平衡随距离的逐渐降低(参见例如Scheet和Stephens,“A fast and flexible statistical model for large-scale populationgenotype data:applications to inferring missing genotypes and haplotypicphase.”Am JHum Genet,78:629-644,2006,其特此通过引用的方式全文并入)。示例性程序是fastPHASE(可以在万维网网址stephenslab.uchicago.edu/software.html获得,其特此通过引用的方式全文并入)。
在一个实施例中,使用基因型差补方法对个体的基因数据进行定相,诸如使用以下参考数据集中的一个或多个的方法:HapMap数据集、在多个SNP芯片上进行基因分型的对照物的数据集和来自1,000个基因组计划的密集分型样品。示例性方法是灵活的模型化构架,该构架提高准确性且组合横跨多个参考图的信息(参见例如Howie,Donnelly和Marchini(2009)“A flexible and accurate genotype imputation method for thenext generation of genome-wide association studies.”PLoS Genetics 5(6):e1000529,2009,其特此通过引用的方式全文并入)。示例性程序是IMPUTE或IMPUTE版本2(也称为IMPUTE2)(可以在万维网网址mathgen.stats.ox.ac.uk/impute/impute_v2.html获得,其特此通过引用的方式全文并入)。
在一个实施例中,使用推断单倍型的算法对个体的基因数据进行定相,诸如在通过重组进行聚结的遗传模型下推断单倍型的算法,诸如由Stephens在PHASE v2.1中开发的算法。主要算法改进依赖于使用二进制树表示每个个体的候选单倍型的集合。这些二进制树表示:(1)通过避免PHASE v2.1中的冗余操作来加速单倍型的后验概率的计算,和(2)通过在二进制树中智能探索似乎最合理的路径(即,单倍型)来克服单倍型推断问题的指数方面(参见例如Delaneau,Coulonges和Zagury,“Shape-IT:new rapid and accuratealgorithm for haplotype inference,”BMC Bioinformatics 9:540,2008doi:10.1186/1471-2105-9-540,其特此通过引用的方式全文并入)。示例性程序是SHAPEIT(可以在万维网网址mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html获得,其特此通过引用的方式全文并入)。
在一个实施例中,使用由群体基因型数据估算单倍型的算法对个体的基因数据进行定相,诸如使用单倍型片段频率获得更长的单倍型的基于经验的概率的算法。在一些实施例中,算法重构单倍型使得该单倍型具有最大局部相干性(参见例如Eronen,Geerts和Toivonen,“HaploRec:Efficient and accurate large-scale reconstruction ofhaplotypes,”BMC Bioinformatics 7:542,2006,其特此通过引用的方式全文并入)。示例性程序是HaploRec,诸如HaploRec版本2.3。(可以在万维网网址cs.helsinki.fi/group/genetics/haplotyping.html获得,其特此通过引用的方式全文并入)。
在一个实施例中,使用由群体基因型数据估算单倍型的算法对个体的基因数据进行定相,诸如使用划分-连接策略的算法和基于预期-最大化的算法(参见例如Qin,Niu和Liu,“Partition-Ligation-Expectation-Maximization Algorithm for HaplotypeInference with Single-Nucleotide Polymorphisms,”Am J Hum Genet.71(5):1242–1247,2002,其特此通过引用的方式全文并入)。示例性程序是PL-EM(可以在万维网网址people.fas.harvard.edu/~junliu/plem/click.html获得,其特此通过引用的方式全文并入)。
在一个实施例中,使用由群体基因型数据估算单倍型的算法对个体的基因数据进行定相,诸如将基因型同时定相成单倍型和域划分的算法。在一些实施例中,使用预期-最大化算法(参见例如Kimmel和Shamir,“GERBIL:Genotype Resolution and BlockIdentification Using Likelihood,”Proceedings of the National Academy ofSciences of the United States of America(PNAS)102:158-162,2005,其特此通过引用的方式全文并入)。示例性程序是GERBIL,其可以作为GEVALT版本2程序的一部分获得(可以在万维网网址acgt.cs.tau.ac.il/gevalt/获得,其特此通过引用的方式全文并入)。
在一个实施例中,使用由群体基因型数据估算单倍型的算法对个体的基因数据进行定相,诸如在考虑未指定相的基因型测量结果的条件下使用EM算法计算单倍型频率的ML估算值的算法。该算法还允许遗失一些基因型测量结果(例如,由于PCR失败)。该算法还允许个体单倍型的多重差补(参见例如Clayton,D.(2002),“SNPHAP:AProgram forEstimating Frequencies of Large Haplotypes of SNPs”,其特此通过引用的方式全文并入)。示例性程序是SNPHAP(可以在万维网网址gene.cimr.cam.ac.uk/clayton/software/snphap.txt获得,其特此通过引用的方式全文并入)。
在一个实施例中,使用由群体基因型数据估算单倍型的算法对个体的基因数据进行定相,诸如基于所采集的SNP对的基因型统计数据进行单倍型推断的算法。这一软件可以用于大量长基因组序列(例如从DNA阵列获得)的相对准确的定相。示例性程序使用基因型矩阵作为输入且输出相应的单倍型矩阵(参见例如Brinza和Zelikovsky,“2SNP:scalablephasing based on 2-SNP haplotypes,”Bioinformatics.22(3):371-3,2006,其特此通过引用的方式全文并入)。示例性程序是2SNP(可以在万维网网址alla.cs.gsu.edu/~software/2SNP获得,其特此通过引用的方式全文并入)。
在各种实施例中,使用关于染色体在染色体或染色体区段中的不同位置处交叉的概率的数据对个体的基因数据进行定相(诸如使用重组数据(诸如可在HapMap数据库中找到)创建任何间隔的重组风险评分),以模型化染色体或染色体区段上的多态等位基因之间的依赖性。在一些实施例中,基于测序数据或SNP阵列数据,在计算机上计算多态基因座处的等位基因计数。在一些实施例中,创建(诸如在计算机上创建)各自关于染色体或染色体区段的不同的可能的状态的多个假设(诸如来自个体的一个或多个细胞的基因组中,与第二同源染色体区段相比,第一同源染色体区段的拷贝数目的过度表达,第一同源染色体区段的复制,第二同源染色体区段的缺失,或第一和第二同源染色体区段的同等表达);针对每种假设构建(诸如在计算机上构建)染色体上的多态基因座处的所预期的等位基因计数的模型(诸如联合分布模型);使用联合分布模型和等位基因计数确定(诸如在计算机上确定)假设中的每一种的相对概率;和选择具有最大概率的假设。在一些实施例中,使用不需要使用参考染色体的方法来完成建立等位基因计数的联合分布模型和确定每个假设的相对概率的步骤。
在一些实施例中,分析来自个体的样品(例如活检(诸如肿瘤活检)、血液样品、血浆样品、血清样品或另一种可能主要含有或仅含有具有相关CNV的细胞、DNA或RNA的样品)以确定已知或疑似含有相关CNV(诸如缺失或复制)的一个或多个区域的相。在一些实施例中,样品具有高肿瘤分数(诸如30%、40%、50%、60%、70%、80%、90%、95%、98%、99%或100%)。
在一些实施例中,样品具有单倍型失衡或任何非整倍性。在一些实施例中,样品包括两种类型的DNA的任何混合物,其中两种类型具有两种单倍型的不同比率且共有至少一种单倍型。例如,在肿瘤情况下,正常组织是1:1,且肿瘤组织是1:0或1:2、1:3、1:4等。在一些实施例中,分析至少10、100、500、1,000、2,000、3,000、5,000、8,000或10,000个多态基因座以确定一些或全部基因座处的等位基因的相。在一些实施例中,样品来自经过处理以变成非整倍性(诸如由长期细胞培养诱导的非整倍性)的细胞或组织。
在一些实施例中,样品中较大百分比或所有的DNA或RNA具有相关CNV。在一些实施例中,来自一种或多种靶细胞的含有相关CNV的DNA或RNA与样品中全部DNA或RNA的比率是至少80%、85%、90%、95%或100%。对于具有缺失的样品,针对具有缺失的细胞(或DNA或RNA)仅存在一个单倍型。这个第一单倍型可以使用标准方法确定,以确定缺失区域中的等位基因的一致性。在仅含有具有缺失的细胞(或DNA或RNA)的样品中,将仅存在来自存在于这些细胞中的第一单倍型的信号。在还含有少量的不具有缺失的细胞(或DNA或RNA)的样品(诸如少量非癌性细胞)中,可以忽略来自这些细胞(或DNA或RNA)中的第二单倍型的弱信号。可以通过推断来确定存在于来自个体的不具有缺失的其它细胞、DNA或RNA中的第二单倍型。例如,如果来自个体的不具有缺失的细胞的基因型是(AB,AB)且个体的定相数据指示第一单倍型是(A,A),则可以推断另一单倍型是(B,B)。
对于其中存在具有缺失的细胞(或DNA或RNA)和不具有缺失的细胞(或DNA或RNA)的样品,仍然可以确定相。例如,可以产生其中x轴表示单独基因座沿染色体的线性位置且y轴表示作为全部(A+B)等位基因读段的一部分的A等位基因读段的数目的图。在缺失的一些实施例中,模式包括两条中心谱带,该中心谱带表示杂合个体的SNP(上部谱带表示来自不具有缺失的细胞的AB和来自具有缺失的细胞的A,且下部谱带表示来自不具有缺失的细胞的AB和来自具有缺失的细胞的B)。在一些实施例中,这两条谱带的分隔程度随着具有缺失的细胞、DNA或RNA的分数增加而增加。因此,A等位基因的一致性可以用于确定第一单倍型,且B等位基因的一致性可以用于确定第二单倍型。
对于具有复制的样品,针对具有复制的细胞(或DNA或RNA)存在单倍型的额外拷贝。可以使用标准方法来确定经复制的区域的这一单倍型,以确定复制区域中以增加的量存在的等位基因的一致性,或可以使用标准方法来确定未经复制的区域的单倍型,以确定以降低的量存在的等位基因的一致性。在确定一个单倍型之后,可以通过推断来确定另一单倍型。
对于其中存在具有复制的细胞(或DNA或RNA)和不具有复制的细胞(或DNA或RNA)的样品,仍然可以使用与上文关于缺失所描述类似的方法确定相。例如,可以产生其中x轴表示单独基因座沿染色体的线性位置且y轴表示作为全部(A+B)等位基因读段的一部分的A等位基因读段的数目的图。在缺失的一些实施例中,模式包括两条中心谱带,该中心谱带表示杂合个体的SNP(上部谱带表示来自不具有复制的细胞的AB和来自具有复制的细胞的AAB,且下部谱带表示来自不具有复制的细胞的AB和来自具有复制的细胞的ABB)。在一些实施例中,这两条谱带的分隔程度随着具有复制的细胞、DNA或RNA的分数增加而增加。因此,A等位基因的一致性可以用于确定第一单倍型,且B等位基因的一致性可以用于确定第二单倍型。在一些实施例中,确定来自已知患有癌症的个体的样品(诸如肿瘤活检或血浆样品)的一个或多个CNV区域的相(诸如所测量的区域中的至少50%、60%、70%、80%、90%、95%或100%的多态基因座的相),且用于分析来自同一个体的后续样品以监测癌症的进展(诸如监测癌症的缓解或复现)。在一些实施例中,使用具有高肿瘤分数的样品(诸如来自具有高肿瘤负载的个体的肿瘤活检或血浆样品)获得定相数据,该定相数据用于分析具有较低肿瘤分数的后续样品(诸如来自正在经历癌症治疗或在缓解中的个体的血浆样品)。
在一些实施例中,使用两种或更多种本文中所描述的方法对个体的基因数据进行定相。在一些实施例中,使用生物信息学方法(诸如使用基于群体的单倍型频率以推断最有可能的相)和分子生物学方法(诸如本文中所公开的用于获得实际定相数据而非基于生物信息学推断的定相数据的分子定相方法中的任一者)。在一些实施例中,使用来自其它受试者(诸如先验受试者)的定相数据来优化群体数据。例如,可以将来自其它受试者的定相数据添加到群体数据中以计算另一受试者的可能的单倍型的先验。在一些实施例中,使用来自其它受试者(诸如先验受试者)的定相数据来计算另一受试者的可能的单倍型的先验。
在一些实施例中,可以使用概率数据。例如,由于样品中DNA分子的表达的概率性质以及各种扩增和测量偏差,由两个不同的基因座或由既定基因座处的不同等位基因测量的DNA分子的相对数目未必总是表示混合物中或个体中的分子的相对数目。如果试图通过对来自个体的血浆的DNA进行测序来确定正常二倍体个体的常染色体上的既定基因座处的基因型,则预期将观察到仅一种等位基因(纯合)或大致相等数目的两种等位基因(杂合)。如果在此等位基因处,观察到十个A等位基因分子且观察到两个B等位基因分子,则将不清楚个体在该基因座处是否是纯合的且两个B等位基因分子是否归因于噪声或污染,或如果个体是否是杂合的且较低数目的B等位基因分子是否归因于血浆中的DNA分子的数目的随机、统计变化、扩增偏差、污染或许多其它原因。在这种情况下,可以计算个体纯合的概率和相应的个体杂合的概率,且这些概率基因型可以用于进一步的计算中。
应注意,对于既定等位基因比率,所观察的分子数目越大,该比率紧密表示个体中的DNA分子的比率的似然性越大。例如,如果测量100个A分子和100个B分子,则实际比率是50%的似然性显著大于测量10个A分子和10个B分子的情况。在一个实施例中,使用贝叶斯理论与详细数据模型的组合以确定在既定观察结果下,特定假设是正确的似然性。例如,如果考虑两种假设,一种对应于三体性个体且一种对应于二体性个体,则与观察两种等位基因中的每一种的10个分子的情况相比,在观察两种等位基因中的每一种的100个分子的情况下,二体性假设正确的概率将显著更高。随着数据中的噪声由于偏差、污染或一些其它噪声来源而变大,或随着既定基因座处的观察数目降低,在考虑所观察的数据的条件下,最大似然假设为真的概率降低。在实践中,有可能合计多个基因座的概率以增加可以将最大似然假设确定为正确假设的置信度。在一些实施例中,简单地合计概率而不考虑重组。在一些实施例中,计算考虑交叉。
在一个实施例中,使用以概率方式定相的数据来确定拷贝数变化。在一些实施例中,以概率方式定相的数据是来自数据源(诸如HapMap数据库)的基于群体的单倍型域频率数据。在一些实施例中,以概率方式定相的数据是由分子方法获得的单倍型数据,例如通过稀释进行定相,其中将染色体的单独区段稀释到单一分子/反应,但其中由于随机噪声,单倍型的一致性可能不是绝对已知的。在一些实施例中,以概率方式定相的数据是由分子方法获得的单倍型数据,其中可以在高度确定性下已知单倍型的一致性。
设想以下假设的情况:医生想要通过测量来自个体的血浆DNA来确定个体的身体中是否具有一些在特定染色体区段处具有缺失的细胞。医生可以使用以下知识:如果用于提取血浆DNA的所有细胞都是二倍体且具有相同基因型,则对于杂合基因座,对于两种等位基因中的每一种所观察的DNA分子的相对数目将服从以50% A等位基因和50% B等位基因为中心的一种分布。然而,如果一部分用于提取血浆DNA的细胞在特定染色体区段处具有缺失,则对于杂合基因座,将预期对于两种等位基因中的每一种所观察的DNA分子的相对数目将服从两种分布,一种以超过50% A等位基因为中心(对于存在含有B等位基因的染色体区段的缺失的基因座)且一种以低于50%为中心(对于存在含有A等位基因的染色体区段的缺失的基因座)。含有缺失的用于提取血浆DNA的细胞的比例越大,这两种分布将越远离50%。
在这种假设的情况中,设想临床医生想要确定个体是否在个体体内的一定比例的细胞中具有染色体区域的缺失。临床医生可以从个体抽取血液到真空采血器或其它类型的血液试管中,将血液离心且分离血浆层。临床医生可以从血浆分离DNA,富集靶基因座处的DNA,可能通过靶向或其它扩增、基因座捕获技术、尺寸富集或其它富集技术。临床医生可以使用诸如qPCR、测序、微阵列或其它测量样品中的DNA数量的技术等测定,通过测量SNP的集合处的等位基因的数目,换句话说,产生等位基因频率数据来分析经富集和/或经扩增的DNA。将考虑在以下情况中的数据分析:临床医生使用靶向扩增技术扩增细胞游离血浆DNA,且然后对经扩增的DNA进行测序以获得以下在染色体区段上发现的六个SNP处的指示癌症的示例性可能数据,其中个体在这些SNP处是杂合的:
SNP 1:460个读段A等位基因;540个读段B等位基因(46% A)
SNP 2:530个读段A等位基因;470个读段B等位基因(53% A)
SNP 3:40个读段A等位基因;60个读段B等位基因(40% A)
SNP 4:46个读段A等位基因;54个读段B等位基因(46% A)
SNP 5:520个读段A等位基因;480个读段B等位基因(52% A)
SNP 6:200个读段A等位基因;200个读段B等位基因(50% A)
由这一数据集,可能难以区分个体正常且所有细胞为二体性的情况与个体可能患有癌症且某一部分细胞的DNA对在血浆中发现的在染色体处具有缺失或复制的细胞游离DNA具有贡献的情况。例如,两种具有最大似然性的假设可以是个体在这一染色体区段处具有缺失,其中肿瘤分数是6%,和染色体的所缺失的区段在六个SNP上具有基因型(A,B,A,A,B,B)或(A,B,A,A,B,A)。在SNP的集合上的个体的基因型的这种表示中,括号中的第一个字母对应于SNP 1的单倍型的基因型,第二个字母对应于SNP 2等。
如果使用一种方法确定此染色体区段处的个体的单倍型且发现两个染色体中的一者的单倍型是(A,B,A,A,B,B),则这将与最大似然假设一致且所计算的个体在此区段处具有缺失且因此可能具有癌性或癌变前细胞的似然性将显著提高。另一方面,如果发现个体具有单倍型(A,A,A,A,A,A),则个体在此染色体区段处具有缺失的似然性将显著降低,且可能无缺失假设的似然性将较高(实际似然值将取决于其它参数,尤其如系统中所测量的噪声)。
存在多种用于确定个体的单倍型的方式,其中许多方式描述于本文中的其它地方。此处提供部分列表且不意味是穷尽性的。一种方法是生物学方法,其中稀释单独的DNA分子直到任何既定反应体积中具有约一个来自每个染色体区域的分子,且然后使用诸如测序等方法测量基因型。另一种方法是基于信息学的,其中可以按概率方式使用各种单倍型和该单倍型频率的群体数据。另一种方法是测量个体以及预期与该个体共有单倍型域的一个或多个相关个体的二倍体数据且推断单倍型域。另一种方法是获得具有高浓度的缺失或复制区段的组织样品且基于等位基因失衡来确定单倍型,例如,来自具有缺失的肿瘤组织样品的基因型测量结果可以用于确定此缺失区域的定相数据,且这一数据然后可以用于确定癌症在切除术后是否重新生长。
在实践中,典型地在既定染色体区段上测量超过20个SNP、超过50个SNP、超过100个SNP、超过500个SNP、超过1,000个SNP或超过5,000个SNP。
示例性突变
与疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险(诸如高于正常风险水平)相关的示例性突变包括单核苷酸变体(SNV)、多核苷酸突变、缺失(诸如2百万到3千万个碱基对区域的缺失)、复制或串联重复序列。在一些实施例中,突变是在DNA中,诸如cfDNA、细胞游离线粒体DNA(cf mDNA)、来源于细胞核DNA的细胞游离DNA(cf nDNA)、细胞DNA或线粒体DNA。在一些实施例中,突变是在RNA中,诸如cfRNA、细胞RNA、细胞质RNA、编码细胞质RNA、非编码细胞质RNA、mRNA、miRNA、线粒体RNA、rRNA或tRNA。在一些实施例中,与未患有疾病或病症(诸如癌症)的受试者相比,突变在患有疾病或病症(诸如癌症)的受试者中以更高的频率存在。在一些实施例中,突变指示癌症,诸如致病性突变。在一些实施例中,突变是驱动子突变,该驱动子突变在疾病或病症中具有致病作用。在一些实施例中,突变不是致病性突变。例如,在一些癌症中,多个突变积聚,但其中一些不是致病性突变。不致病的突变(诸如与未患有疾病或病症的受试者相比,在患有疾病或病症的受试者中以更高的频率存在的那些突变)仍适用于诊断疾病或病症。在一些实施例中,突变是一个或多个微卫星处的杂合性丢失(LOH)。
在一些实施例中,针对已知受试者具有的一种或多种多态现象或突变对受试者进行筛检(例如测试多态现象或突变的存在;具有这些多态现象或突变的细胞、DNA或RNA的量的变化;或癌症缓解或复现)。在一些实施例中,针对已知受试者具有风险的一种或多种多态现象或突变对受试者进行筛检(诸如具有携带多态现象或突变的亲属的受试者)。在一些实施例中,针对一组与疾病或病症(诸如癌症)相关的多态现象或突变(例如至少5、10、50、100、200、300、500、750、1,000、1,500、2,000或5,000种多态现象或突变)对受试者进行筛检。
许多与癌症相关的编码变体描述于Abaan等人,“The Exomes of the NCI-60Panel:A Genomic Resource for Cancer Biology and Systems Pharmacology”,Cancer Research,2013年7月15日,和万维网网址dtp.nci.nih.gov/branches/btb/characterizationNCI60.html,其各自特此通过引用的方式全文并入)。NCI-60人类癌细胞系组由60种不同的表示肺、结肠、脑部、卵巢、乳腺、前列腺和肾的癌症以及白血病和黑色素瘤的细胞系组成。在这些细胞系中鉴别的基因变化由两种类型组成:在正常群体中发现的I型变体和具有癌症特异性的II型变体。
示例性多态现象或突变(诸如缺失或复制)是在以下基因中的一个或多个和其组合中:TP53、PTEN、PIK3CA、APC、EGFR、NRAS、NF2、FBXW7、ERBB、ATAD5、KRAS、BRAF、VEGF、EGFR、HER2、ALK、p53、BRCA、BRCA1、BRCA2、SETD2、LRP1B、PBRM、SPTA1、DNMT3A、ARID1A、GRIN2A、TRRAP、STAG2、EPHA3/5/7、POLE、SYNE1、C20orf80、CSMD1、CTNNB1、ERBB2。FBXW7、KIT、MUC4、ATM、CDH1、DDX11、DDX12、DSPP、EPPK1、FAM186A、GNAS、HRNR、KRTAP4-11、MAP2K4、MLL3、NRAS、RB1、SMAD4、TTN、ABCC9、ACVR1B、ADAM29、ADAMTS19、AGAP10、AKT1、AMBN、AMPD2、ANKRD30A、ANKRD40、APOBR、AR、BIRC6、BMP2、BRAT1、BTNL8、C12orf4、C1QTNF7、C20orf186、CAPRIN2、CBWD1、CCDC30、CCDC93、CD5L、CDC27、CDC42BPA、CDH9、CDKN2A、CHD8、CHEK2、CHRNA9、CIZ1、CLSPN、CNTN6、COL14A1、CREBBP、CROCC、CTSF、CYP1A2、DCLK1、DHDDS、DHX32、DKK2、DLEC1、DNAH14、DNAH5、DNAH9、DNASE1L3、DUSP16、DYNC2H1、ECT2、EFHB、RRN3P2、TRIM49B、TUBB8P5、EPHA7、ERBB3、ERCC6、FAM21A、FAM21C、FCGBP、FGFR2、FLG2、FLT1、FOLR2、FRYL、FSCB、GAB1、GABRA4、GABRP、GH2、GOLGA6L1、GPHB5、GPR32、GPX5、GTF3C3、HECW1、HIST1H3B、HLA-A、HRAS、HS3ST1、HS6ST1、HSPD1、IDH1、JAK2、KDM5B、KIAA0528、KRT15、KRT38、KRTAP21-1、KRTAP4-5、KRTAP4-7、KRTAP5-4、KRTAP5-5、LAMA4、LATS1、LMF1、LPAR4、LPPR4、LRRFIP1、LUM、LYST、MAP2K1、MARCH1、MARCO、MB21D2、MEGF10、MMP16、MORC1、MRE11A、MTMR3、MUC12、MUC17、MUC2、MUC20、NBPF10、NBPF20、NEK1、NFE2L2、NLRP4、NOTCH2、NRK、NUP93、OBSCN、OR11H1、OR2B11、OR2M4、OR4Q3、OR5D13、OR8I2、OXSM、PIK3R1、PPP2R5C、PRAME、PRF1、PRG4、PRPF19、PTH2、PTPRC、PTPRJ、RAC1、RAD50、RBM12、RGPD3、RGS22、ROR1、RP11-671M22.1、RP13-996F3.4、RP1L1、RSBN1L、RYR3、SAMD3、SCN3A、SEC31A、SF1、SF3B1、SLC25A2、SLC44A1、SLC4A11、SMAD2、SPTA1、ST6GAL2、STK11、SZT2、TAF1L、TAX1BP1、TBP、TGFBI、TIF1、TMEM14B、TMEM74、TPTE、TRAPPC8、TRPS1、TXNDC6、USP32、UTP20、VASN、VPS72、WASH3P、WWTR1、XPO1、ZFHX4、ZMIZ1、ZNF167、ZNF436、ZNF492、ZNF598、ZRSR2、ABL1、AKT2、AKT3、ARAF、ARFRP1、ARID2、ASXL1、ATR、ATRX、AURKA、AURKB、AXL、BAP1、BARD1、BCL2、BCL2L2、BCL6、BCOR、BCORL1、BLM、BRIP1、BTK、CARD11、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD79A、CD79B、CDC73、CDK12、CDK4、CDK6、CDK8、CDKN1B、CDKN2B、CDKN2C、CEBPA、CHEK1、CIC、CRKL、CRLF2、CSF1R、CTCF、CTNNA1、DAXX、DDR2、DOT1L、EMSY(C11orf30)、EP300、EPHA3、EPHA5、EPHB1、ERBB4、ERG、ESR1、EZH2、FAM123B(WTX)、FAM46C、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCL、FGF10、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGFR1、FGFR2、FGFR3、FGFR4、FLT3、FLT4、FOXL2、GATA1、GATA2、GATA3、GID4(C17orf39)、GNA11、GNA13、GNAQ、GNAS、GPR124、GSK3B、HGF、IDH1、IDH2、IGF1R、IKBKE、IKZF1、IL7R、INHBA、IRF4、IRS2、JAK1、JAK3、JUN、KAT6A(MYST3)、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KLHL6、MAP2K2、MAP2K4、MAP3K1、MCL1、MDM2、MDM4、MED12、MEF2B、MEN1、MET、MITF、MLH1、MLL、MLL2、MPL、MSH2、MSH6、MTOR、MUTYH、MYC、MYCL1、MYCN、MYD88、NF1、NFKBIA、NKX2-1、NOTCH1、NPM1、NRAS、NTRK1、NTRK2、NTRK3、PAK3、PALB2、PAX5、PBRM1、PDGFRA、PDGFRB、PDK1、PIK3CG、PIK3R2、PPP2R1A、PRDM1、PRKAR1A、PRKDC、PTCH1、PTPN11、RAD51、RAF1、RARA、RET、RICTOR、RNF43、RPTOR、RUNX1、SMARCA4、SMARCB1、SMO、SOCS1、SOX10、SOX2、SPEN、SPOP、SRC、STAT4、SUFU、TET2、TGFBR2、TNFAIP3、TNFRSF14、TOP1、TP53、TSC1、TSC2、TSHR、VHL、WISP3、WT1、ZNF217、ZNF703以及其组合(Su等人,JMol Diagn 2011,13:74–84;DOI:10.1016/j.jmoldx.2010.11.010;和Abaan等人,“The Exomes of the NCI-60Panel:A Genomic Resource for Cancer Biology and Systems Pharmacology”,Cancer Research,2013年7月15日,其各自通过引用的方式全文并入)。在一些实施例中,复制是与乳腺癌相关的染色体1p(“Chr1p”)复制。在一些实施例中,一种或多种多态现象或突变是在BRAF中,诸如V600E突变。在一些实施例中,一种或多种多态现象或突变是在K-ras中。在一些实施例中,K-ras和APC中存在一种或多种多态现象或突变的组合。在一些实施例中,K-ras和p53中存在一种或多种多态现象或突变的组合。在一些实施例中,APC和p53中存在一种或多种多态现象或突变的组合。在一些实施例中,K-ras、APC和p53中存在一种或多种多态现象或突变的组合。在一些实施例中,K-ras和EGFR中存在一种或多种多态现象或突变的组合。示例性多态现象或突变是在以下微RNA中的一个或多个中:miR-15a、miR-16-1、miR-23a、miR-23b、miR-24-1、miR-24-2、miR-27a、miR-27b、miR-29b-2、miR-29c、miR-146、miR-155、miR-221、miR-222和miR-223(Calin等人“A microRNA signature associatedwith prognosis and progression in chronic lymphocytic leukemia.”N Engl J Med353:1793–801,2005,其特此通过引用的方式全文并入)。
在一些实施例中,缺失是至少0.01kb、0.1kb、1kb、10kb、100kb、1mb、2mb、3mb、5mb、10mb、15mb、20mb、30mb或40mb的缺失。在一些实施例中,缺失是在1kb至40mb之间的缺失,诸如在1kb至100kb、100kb至1mb、1mb至5mb、5mb至10mb、10mb至15mb、15mb至20mb、20mb至25mb、25mb至30mb或30mb至40mb之间且包括端值。
在一些实施例中,复制是至少0.01kb、0.1kb、1kb、10kb、100kb、1mb、2mb、3mb、5mb、10mb、15mb、20mb、30mb或40mb的复制。在一些实施例中,复制是在1kb至40mb之间的复制,诸如在1kb至100kb、100kb至1mb、1mb至5mb、5mb至10mb、10mb至15mb、15mb至20mb、20mb至25mb、25mb至30mb或30mb至40mb之间且包括端值。
在一些实施例中,串联重复序列是2与60个核苷酸之间的重复序列,诸如2至6、7至10、10至20、20至30、30至40、40至50或50至60个核苷酸且包括端值。在一些实施例中,串联重复序列是2个核苷酸的重复序列(二核苷酸重复序列)。在一些实施例中,串联重复序列是3个核苷酸的重复序列(三核苷酸重复序列)。
在一些实施例中,多态现象或突变是预后的。示例性预后突变包括K-ras突变,诸如指示结直肠癌中的手术后疾病再次发作的K-ras突变(Ryan等人A prospective studyof circulating mutant KRAS2 in the serum of patients with colorectalneoplasia:strong prognostic indicator in postoperative follow up,”Gut 52:101-108,2003;和Lecomte T等人Detection of free-circulating tumor-associated DNA inplasma of colorectal cancer patients and its association with prognosis,”IntJ Cancer 100:542-548,2002,其特此通过引用的方式全文并入)。
在一些实施例中,多态现象或突变与对特定治疗的反应改变(诸如功效或副作用增加或降低)相关。实例包括非小细胞肺癌中K-ras突变与对基于EGFR的治疗的反应降低相关(Wang等人“Potential clinical significance of a plasma-based KRAS mutationanalysis in patients with advanced non-small cell lung cancer,”Clin CancRes16:1324-1330,2010,其特此通过引用的方式全文并入)。
K-ras是在多种癌症中活化的癌基因。示例性K-ras突变是密码子12、13和61中的突变。已经在胰腺、肺、结肠直肠、膀胱和胃部癌症中发现K-ras cfDNA突变(Fleischhacker和Schmidt,“Circulating nucleic acids(CNAs)and caner–a survey,”Biochim BiophysActa 1775:181-232,2007,其特此通过引用的方式全文并入)。
p53是在许多癌症中突变的肿瘤抑制因子且导致肿瘤进展(Levine和Oren,“Thefirst 30years of p53:growing ever more complex.Nature Rev Cancer,”9:749–758,2009,其特此通过引用的方式全文并入)。许多不同的密码子可以突变,诸如Ser249。已在乳腺、肺、卵巢、膀胱、胃部、胰腺、结肠直肠、肠和肝细胞癌症中发现p53 cfDNA突变(Fleischhacker和Schmidt,“Circulating nucleic acids(CNAs)and caner–a survey,”Biochim Biophys Acta 1775:181-232,2007,其特此通过引用的方式全文并入)。
BRAF是Ras的下游癌基因。已在神经胶质赘瘤、黑色素瘤、甲状腺和肺癌中鉴别了BRAF突变(Dias-Santagata等人BRAF V600E mutations are common in pleomorphicxanthoastrocytoma:diagnostic and therapeutic implications.PLOS ONE 2011;6:e17948,2011;Shinozaki等人Utility of circulating B-RAF DNA mutation in serumfor monitoring melanoma patients receiving biochemotherapy.Clin Canc Res 13:2068-2074,2007;和Board等人Detection of BRAF mutations in the tumor and serumof patients enrolled in the AZD6244(ARRY-142886)advanced melanoma phase IIstudy.Brit J Canc2009;101:1724-1730,其各自特此通过引用的方式全文并入)。BRAFV600E突变在例如黑色素瘤肿瘤中发生且在晚期更常见。已在cfDNA中检测到V600E突变。
EGFR导致细胞增殖且在许多癌症中失调(Downward J.,Targeting RASsignalling pathways in cancer therapy.Nature Rev Cancer 3:11–22,2003;和Levine和Oren,“The first30years of p53:growing ever more complex.Nature Rev Cancer,”9:749–758,2009,其特此通过引用的方式全文并入。示例性EGFR突变包括外显子18-21中的突变,所述突变已在肺癌患者中被鉴别。已在肺癌患者中鉴别了EGFR cfDNA突变(Jia等人“Prediction of epidermal growth factor receptor mutations in the plasma/pleural effusion to efficacy of gefitinib treatment in advanced non-smallcell lung cancer,”J Canc Res Clin Oncol2010;136:1341-1347,2010,其特此通过引用的方式全文并入)。
与乳腺癌相关的示例性多态现象或突变包括微卫星处的LOH(Kohler等人“Levelsof plasma circulating cell free nuclear and mitochondrial DNA as potentialbiomarkers for breast tumors,”Mol Cancer 8:doi:10.1186/1476-4598-8-105,2009,其特此通过引用的方式全文并入)、p53突变(诸如外显子5-8中的突变)(Garcia等人,“Extracellular tumor DNA in plasma and overall survival in breast cancerpatients,”Genes,Chromosomes&Cancer 45:692-701,2006,其特此通过引用的方式全文并入)、HER2(Sorensen等人“Circulating HER2 DNA after trastuzumab treatmentpredicts survival and response in breast cancer,”Anticancer Res30:2463-2468,2010,其特此通过引用的方式全文并入)、PIK3CA、MED1和GAS6多态现象或突变(Murtaza等人“Non-invasive analysis of acquired resistance to cancer therapy bysequencing of plasma DNA,”Nature2013;doi:10.1038/nature12065,2013,其特此通过引用的方式全文并入)。
cfDNA水平和LOH增加与整体和无疾病存活相关。p53突变(外显子5-8)与总存活率降低相关。循环HER2 cfDNA水平降低与HER2阳性乳腺肿瘤受试者中更好的对HER2靶向治疗的反应相关。PIK3CA中的活化突变、MED1的截短和GAS6中的剪接突变引起对治疗的抗性。
与结直肠癌相关的示例性多态现象或突变包括p53、APC、K-ras和胸苷酸合成酶突变以及p16基因甲基化(Wang等人“Molecular detection of APC,K-ras,and p53mutations in the serum of colorectal cancer patients as circulatingbiomarkers,”World J Surg28:721-726,2004;Ryan等人“A prospective study ofcirculating mutant KRAS2 in the serum of patients with colorectal neoplasia:strong prognostic indicator in postoperative follow up,”Gut 52:101-108,2003;Lecomte等人“Detection of free-circulating tumor-associated DNA in plasma ofcolorectal cancer patients and its association with prognosis,”Int J Cancer100:542-548,2002;Schwarzenbach等人“Molecular analysis of the polymorphisms ofthymidylate synthase on cell-free circulating DNA in blood of patients withadvanced colorectal carcinoma,”Int J Cancer 127:881-888,2009,其各特此通过引用的方式全文并入)。血清中K-ras突变的手术后检测是疾病复发的强预测因子。K-ras突变和p16基因甲基化的检测与存活率降低和疾病复发增加相关。K-ras、APC和/或p53突变的检测与复发和/或转移相关。使用cfDNA的胸苷酸合成酶(基于氟嘧啶的化学疗法的靶标)中的多态现象(包括LOH、SNP、可变数目串联重复序列和缺失)可能与治疗反应相关。
与肺癌(诸如非小细胞肺癌)相关的示例性多态现象或突变包括K-ras(诸如密码子12中的突变)和EGFR突变。示例性预后突变包括与整体和无进展存活率增加相关的EGFR突变(外显子19缺失或外显子21突变)以及与无进展存活率降低相关的K-ras突变(密码子12和13中)(Jian等人“Prediction of epidermal growth factor receptor mutationsin the plasma/pleural effusion to efficacy of gefitinib treatment in advancednon-small cell lung cancer,”J Canc Res Clin Oncol 136:1341-1347,2010;Wang等人“Potential clinical significance of a plasma-based KRAS mutation analysis inpatients with advanced non-small cell lung cancer,”Clin Canc Res 16:1324-1330,2010,其各自特此通过引用的方式全文并入)。指示对治疗的反应的示例性多态现象或突变包括改进对治疗的反应的EGFR突变(外显子19缺失或外显子21突变)和降低对治疗的反应的K-ras突变(密码子12和13)。已鉴别EFGR中赋予抗性的突变(Murtaza等人“Non-invasive analysis of acquired resistance to cancer therapy by sequencing ofplasma DNA,”Nature doi:10.1038/nature12065,2013,其特此通过引用的方式全文并入)。
与黑色素瘤(诸如葡萄膜黑色素瘤)相关的示例性多态现象或突变包括GNAQ、GNA11、BRAF和p53中的那些多态现象或突变。示例性GNAQ和GNA11突变包括R183和Q209突变。GNAQ或GNA11中的Q209突变与转移至骨骼相关。可以在转移性/晚期黑色素瘤患者中检测到BRAF V600E突变。BRAF V600E是侵入性黑色素瘤的指示物。在化学疗法之后存在BRAFV600E突变与对治疗不起反应相关
与胰腺癌瘤相关的示例性多态现象或突变包括K-ras和p53中的那些多态现象或突变(诸如p53 Ser249)。p53 Ser249还与B型肝炎感染和肝细胞癌瘤以及卵巢癌和非霍奇金淋巴瘤相关。
本发明的方法甚至可以检测到样品中以低频率存在的多态现象或突变。例如,通过进行1千万个测序读段,可以观察到10倍的以百万分之1的频率存在的多态现象或突变。视需要,可以视所需敏感性的水平来改变测序读段的数目。在一些实施例中,重新分析样品或使用更大数目的测序读段分析来自受试者的另一样品以改进敏感性。例如,如果未检测到或仅检测到较少数目(诸如1、2、3、4或5种)的与癌症或增加的癌症风险相关的多态现象或突变,则重新分析样品或测试另一样品。
在一些实施例中,癌症或转移性癌症需要多种多态现象或突变。在这类情况下,筛检多种多态现象或突变可以改进准确地诊断癌症或转移性癌症的能力。在一些实施例中,当受试者具有癌症或转移性癌症所需的多种多态现象或突变的子集时,可以随后重新筛检受试者以观察受试者是否获取另外的突变。
在其中癌症或转移性癌症需要多种多态现象或突变的一些实施例中,可以比较每种多态现象或突变的频率以观察该多态现象或突变是否以类似频率出现。例如,如果癌症需要两种突变(表示为“A”和“B”),则一些细胞将不具有突变,一些细胞具有A,一些细胞具有B且一些细胞具有A和B。如果以类似的频率观察到A和B,则受试者更可能具有一些具有A和B二者的细胞。如果以相异的频率观察到A和B,则受试者更可能具有不同的细胞群体。
在其中癌症或转移性癌症需要多种多态现象或突变的一些实施例中,受试者中的这类多态现象或突变的数目或一致性可以用于预测受试者可能患有疾病或病症的可能性或时间。在其中多态现象或突变倾向于以某一顺序发生的一些实施例中,可以周期性地测试受试者以观察受试者是否获取其它多态现象或突变。
在一些实施例中,确定存在或不存在多种多态现象或突变(诸如2、3、4、5、8、10、12、15种或更多)提高了存在或不存在疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)的风险的确定的敏感性和/或特异性。
在一些实施例中,直接检测一种或多种多态现象或一种或多种突变。在一些实施例中,通过检测与多态现象或突变相关的一个或多个序列(例如多态基因座,诸如SNP)来间接地检测一种或多种多态现象或一种或多种突变。
示例性核酸改变
在一些实施例中,存在与疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险相关的RNA或DNA的完整性的变化(诸如片段化cfRNA或cfDNA的尺寸的变化或核小体组成的变化)。在一些实施例中,存在与疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险相关的甲基化模式RNA或DNA的变化(例如肿瘤抑制因子基因的超甲基化)。例如,已提出肿瘤抑制因子基因的启动子区域中的CpG岛的甲基化会触发局部基因沉默。在患有肝癌、肺癌和乳腺癌的受试者中发生p16肿瘤抑制因子基因的反常甲基化。已在各种类型的癌症(例如鼻咽癌瘤、结直肠癌、肺癌、食道癌、前列腺癌、膀胱癌、黑色素瘤和急性白血病)中检测到其它频繁甲基化的肿瘤抑制因子基因,包括APC、Ras关联域家族蛋白质1A(RASSF1A)、谷胱甘肽S-转移酶P1(GSTP1)和DAPK。某些肿瘤抑制因子基因(诸如p16)的甲基化已被描述为癌症形成中的早期事件且因此适用于早期癌症筛检。
在一些实施例中,使用甲基化敏感性限制酶消化的基于亚硫酸氢盐转化或非亚硫酸氢盐的策略用于确定甲基化模式(Hung等人,J Clin Pathol 62:308–313,2009,其特此通过引用的方式全文并入)。在亚硫酸氢盐转化中,甲基化胞嘧啶保留为胞嘧啶,而未甲基化的胞嘧啶转化成尿嘧啶。甲基化敏感性限制酶(例如BstUI)使特异性识别位点(例如5′-CG∨CG-3′,对于BstUI)处的未甲基化的DNA序列裂解,而甲基化序列保持完整。在一些实施例中,检测到完整的甲基化序列。在一些实施例中,使用茎-环引物选择性地扩增限制酶消化的未甲基化片段而不共同扩增非酶消化的甲基化DNA。
mRNA剪接中的示例性变化
在一些实施例中,mRNA剪接的变化与疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险相关。在一些实施例中,mRNA剪接的变化是在以下与癌症或增加的癌症风险相关的核酸中的一个或多个中:DNMT3B、BRCA1、KLF6、Ron或Gemin5。在一些实施例中,所检测到的mRNA剪接变体与疾病或病症(诸如癌症)相关。在一些实施例中,由健康细胞(诸如非癌性细胞)产生多种mRNA剪接变体,但mRNA剪接变体的相对量的变化与疾病或病症(诸如癌症)相关。在一些实施例中,mRNA剪接的变化是由以下引起:mRNA序列的变化(诸如剪接位点中的突变)、剪接因子水平的变化、可用的剪接因子的量的变化(诸如由剪接因子与重复序列的结合引起的可用的剪接因子的量降低)、剪接调节改变或肿瘤微环境。
剪接反应是由称为剪接体的多蛋白质/RNA复合物进行(Fackenthal1和Godley,Disease Models&Mechanisms 1:37-42,2008,doi:10.1242/dmm.000331,其特此通过引用的方式全文并入)。剪接体识别内含子-外显子边界且通过引起两个相邻外显子连接的两种酯基转移反应去除干预内含子。这一反应的保真度必须是优良的,因为如果连接不当地进行,则正常蛋白质编码潜力可能受损。例如,在外显子跳跃保持指定翻译期间氨基酸的一致性和顺序的三重峰密码子的阅读框架的情况下,交替剪接的mRNA可以指定不具有关键氨基酸残基的蛋白质。更通常地,外显子跳跃将破坏翻译阅读框架,产生未成熟的终止密码子。这些mRNA典型地通过称为无意义介导的mRNA降解的过程降解至少90%,由此降低这类缺陷性消息将积聚以产生截短的蛋白质产物的似然性。如果错误剪接的mRNA逃离这一路径,则将产生截短、突变或不稳定的蛋白质。
替代性剪接是一种表达来自相同基因组DNA的若干或多种不同转录物的手段且由包含特定蛋白质的可用的外显子的子集引起。通过排除一个或多个外显子,某些蛋白质域可能损失经编码的蛋白质,这可以引起蛋白质功能丢失或增加。已描述若干类型的替代性剪接:外显子跳跃;替代性5'或3'剪接位点;相互排斥外显子;和显著更罕见的,内含子留存。已使用生物信息学方法来比较癌症和正常细胞中的替代性剪接的量且确定与正常细胞相比,癌症呈现低替代性剪接水平。此外,与正常细胞相比,癌症中的替代性剪接事件的类型的分布不同。与正常细胞相比,癌细胞显示更少的外显子跳跃,但更多的替代性5'和3'剪接位点选择以及内含子留存。当检查外显子化现象时(使用主要由其它组织用作内含子的序列作为外显子),与癌细胞中的外显子化相关的基因优先与mRNA处理相关,指示癌细胞与产生反常mRNA剪接形式之间的直接相关。
DNA或RNA水平的示例性变化
在一些实施例中,存在一种或多种类型的DNA(诸如cfDNA cf mDNA、cf nDNA、细胞DNA或线粒体DNA)或RNA(cfRNA、细胞RNA、细胞质RNA、编码细胞质RNA、非编码细胞质RNA、mRNA、miRNA、线粒体RNA、rRNA或tRNA)的总量或浓度的变化。在一些实施例中,存在一种或多种特异性DNA(诸如cfDNA cf mDNA、cf nDNA、细胞DNA或线粒体DNA)或RNA(cfRNA、细胞RNA、细胞质RNA、编码细胞质RNA、非编码细胞质RNA、mRNA、miRNA、线粒体RNA、rRNA或tRNA)分子的量或浓度的变化。在一些实施例中,一种等位基因的表达高于相关基因座的另一种等位基因。示例性miRNA是短的20-22个核苷酸的RNA分子,该分子调节基因的表达。在一些实施例中,存在转录组的变化,诸如一种或多种RNA分子的一致性或量的变化。
在一些实施例中,cfDNA或cfRNA的总量或浓度的增加与疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险相关。在一些实施例中,一种类型的DNA(诸如cfDNA cfmDNA、cf nDNA、细胞DNA或线粒体DNA)或RNA(cfRNA、细胞RNA、细胞质RNA、编码细胞质RNA、非编码细胞质RNA、mRNA、miRNA、线粒体RNA、rRNA或tRNA)的总浓度与健康(诸如非癌性)受试者中此类型的DNA或RNA的总浓度相比增加至少2、3、4、5、6、7、8、9、10倍或更多倍。在一些实施例中,在75ng/mL至100ng/mL、100ng/mL至150ng/mL、150ng/mL至200ng/mL、200ng/mL至300ng/mL、300ng/mL至400ng/mgL、400ng/mL至600ng/mL、600ng/mL至800ng/mL、800ng/mL至1,000ng/mL之间且包括端值的cfDNA的总浓度或超过100ng/mL,诸如超过200ng/mL、300ng/mL、400ng/mL、500ng/mL、600ng/mL、700ng/mL、800ng/mL、900ng/mL或1,000ng/mL的cfDNA的总浓度指示癌症、增加的癌症风险、增加的恶性而非良性肿瘤风险、癌症缓解的可能性降低或癌症的较差预后。在一些实施例中,一种类型的具有一种或多种与疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险相关的多态现象/突变(诸如缺失或复制)的DNA(诸如cfDNA cf mDNA、cf nDNA、细胞DNA或线粒体DNA)或RNA(cfRNA、细胞RNA、细胞质RNA、编码细胞质RNA、非编码细胞质RNA、mRNA、miRNA、线粒体RNA、rRNA或tRNA)的量是此类型的DNA或RNA的总量的至少2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、14%、16%、18%、20%或25%。在一些实施例中,一种类型的DNA(诸如cfDNA cf mDNA、cf nDNA、细胞DNA或线粒体DNA)或RNA(cfRNA、细胞RNA、细胞质RNA、编码细胞质RNA、非编码细胞质RNA、mRNA、miRNA、线粒体RNA、rRNA或tRNA)的总量中的至少2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、14%、16%、18%、20%或25%具有与疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险相关联的特定多态现象或突变(诸如缺失或复制)。
在一些实施例中,cfDNA被包裹。在一些实施例中,cfDNA未被包裹。
在一些实施例中,确定全部DNA中的肿瘤DNA的分数(诸如全部cfDNA中的肿瘤cfDNA的分数或全部cfDNA中具有特定突变的肿瘤cfDNA的分数)。在一些实施例中,可以确定多种突变的肿瘤DNA的分数,其中突变可以是单核苷酸变体、拷贝数变体、差异甲基化或其组合。在一些实施例中,将所计算的具有最高的所计算的肿瘤分数的一种突变或突变的集合的平均肿瘤分数视为样品中的实际肿瘤分数。在一些实施例中,将所计算的所有突变的平均肿瘤分数视为样品中的实际肿瘤分数。在一些实施例中,使用这一肿瘤分数对癌症进行分期(因为较高的肿瘤分数与癌症的更晚期阶段相关)。在一些实施例中,使用肿瘤分数确定癌症的尺寸,因为较大的肿瘤可能与血浆中肿瘤DNA的分数相关。在一些实施例中,使用肿瘤分数确定具有单一或多种突变的肿瘤的比例的尺寸,因为血浆样品中所测量的肿瘤分数与具有既定一种或多种突变基因型的组织的尺寸之间可能存在相关性。例如,具有既定一种或多种突变基因型的组织的尺寸可能与可以通过关注此特定一种或多种突变来计算的肿瘤DNA的分数相关。
示例性数据库
本发明的特征还在于一种或多种由本发明的方法的结果产生的数据库。例如,数据库可以包括具有一个或多个受试者的任何以下信息的记录:所鉴别的任何多态现象/突变(诸如CNV);多态现象/突变与疾病或病症或增加的疾病或病症风险的任何已知的关联;多态现象/突变对被编码的mRNA或蛋白质的表达或活性水平的作用;样品中的全部DNA、RNA或细胞中的与疾病或病症相关的DNA、RNA或细胞(诸如具有与疾病或病症相关的多态现象/突变的DNA、RNA或细胞)的分数;用于鉴别多态现象/突变的样品的来源(诸如血液样品或来自特定组织的样品);病变细胞的数目;来自后续重复测试(诸如重复用于监测疾病或病症的进展或缓解的测试)的结果;其它疾病或病症测试的结果;受试者被诊断患有的疾病或病症的类型;所给予的一种或多种治疗;对一种或多种这类治疗的反应;一种或多种这类治疗的副作用;症状(诸如与疾病或病症相关的症状);缓解的长度和数目;存活的长度(诸如从初始测试直到死亡的时间长度或从诊断直到死亡的时间长度);死亡原因;以及其组合。
在一些实施例中,数据库包括具有一个或多个受试者的任何以下信息的记录:所鉴别的任何多态现象/突变;多态现象/突变与癌症或增加的癌症风险的任何已知的关联;多态现象/突变对被编码的mRNA或蛋白质的表达或活性水平的作用;样品中的全部DNA、RNA或细胞中的癌性DNA、RNA或细胞的分数;用于鉴别多态现象/突变的样品的来源(诸如血液样品或来自特定组织的样品);癌性细胞的数目;一种或多种肿瘤的尺寸;来自后续重复测试(诸如重复用于监测癌症的进展或缓解的测试)的结果;其它癌症测试的结果;受试者被诊断患有的癌症的类型;所给予的一种或多种治疗;对一种或多种这类治疗的反应;一种或多种这类治疗的副作用;症状(诸如与癌症相关的症状);缓解的长度和数目;存活的长度(诸如从初始测试直到死亡的时间长度或从诊断直到死亡的时间长度);死亡原因;以及其组合。在一些实施例中,对治疗的反应包括以下中的任一种:肿瘤(例如良性或癌性肿瘤)的尺寸减小或稳定;减缓或防止肿瘤尺寸增加;肿瘤细胞数目减少或稳定;延长肿瘤消失与其再现之间的无疾病存活时间;防止肿瘤的初始或后续发生;与肿瘤相关的不利症状减少或稳定;或其组合。在一些实施例中,包括来自疾病或病症(诸如癌症)的一种或多种其它测试的结果,诸如来自组织样品的筛检测试、医学成像或微观检查的结果。
在一个这类方面中,本发明的特征在于包括至少5、10、102、103、104、105、106、107、108或更多条记录的电子数据库。在一些实施例中,数据库具有至少5、10、102、103、104、105、106、107、108或更多个不同受试者的记录。
在另一方面中,本发明的特征在于一种包括本发明的数据库和用户界面的计算机。在一些实施例中,用户界面能够显示一条或多条记录中所含的一部分或所有信息。在一些实施例中,用户界面能够显示(i)已鉴别为含有多态现象或突变的一种或多种类型的癌症,其记录储存于计算机中,(ii)已在特定类型的癌症中鉴别的一种或多种多态现象或突变,其记录储存于计算机中,(iii)特定类型的癌症或特定多态现象或突变的预后信息,其记录储存于计算机中,(iv)适用于具有多态现象或突变的癌症的一种或多种化合物或其它治疗,其记录储存于计算机中,(v)一种或多种调节mRNA或蛋白质的表达或活性的化合物,其记录储存于计算机中,和(vi)一种或多种mRNA分子或蛋白质,其表达或活性由化合物调节,所述一种或多种mRNA分子或蛋白质的记录储存于计算机中。计算机的内部组件典型地包括与存储器耦合的处理器。外部组件通常包括大容量存储装置,例如硬盘驱动器;用户输入装置,例如键盘和鼠标;显示器,例如监测器;和任选地,能够使计算机系统与其它计算机连接以允许数据和处理任务的共享的网络连接。可以在操作期间将程序加载到这一系统的存储器中。
在另一方面中,本发明的特征在于一种计算机实施方法,该方法包括本发明的任何方法的一个或多个步骤。
示例性风险因子
在一些实施例中,还评估受试者的疾病或病症(诸如癌症)的一种或多种风险因子。示例性风险因子包括疾病或病症的家族病史、生活方式(诸如吸烟和暴露于致癌物)和一种或多种激素或血清蛋白的水平(诸如肝癌中的α-胎蛋白(AFP)、结直肠癌中的癌胚抗原(CEA)或前列腺癌中的前列腺特异性抗原(PSA))。在一些实施例中,测量肿瘤的尺寸和/或数目且用于确定受试者的预后或选择用于受试者的治疗。
示例性筛检方法
视需要,可以证实存在或不存在疾病或病症(诸如癌症)或可以使用任何标准方法将疾病或病症(诸如癌症)分类。例如,可以按多种方式检测疾病或病症(诸如癌症),包括存在某些迹象和症状、肿瘤活检、筛检测试或医学成像(诸如乳房影像或超声)。在检测到可能的癌症之后,可以通过组织样品的微观检查来进行诊断。在一些实施例中,被诊断的受试者在多个时间点时经历使用本发明的方法进行的重复序列测试或已知的疾病或病症测试,以监测疾病或病症的进展或疾病或病症的缓解或复现。
示例性癌症
可以使用本发明的任何方法诊断、预后、稳定、治疗、预防、预测或监测治疗反应的示例性癌症包括实体瘤、癌瘤、肉瘤、淋巴瘤、白血病、生殖细胞肿瘤或母细胞瘤。在各种实施例中,癌症是急性淋巴细胞白血病、急性骨髓性白血病、肾上腺皮质癌、AIDS相关癌症、AIDS相关淋巴瘤、肛门癌、阑尾癌、星形细胞瘤(诸如儿童小脑或大脑星形细胞瘤)、基础细胞癌瘤、胆管癌(诸如肝外胆管癌)、膀胱癌、骨骼肿瘤(诸如骨肉瘤或恶性纤维组织细胞瘤)、脑干神经胶质瘤、脑癌(诸如小脑星形细胞瘤、大脑星形细胞瘤/恶性神经胶质瘤、室管膜瘤、神经管胚细胞瘤、幕上原始神经外胚层肿瘤或视路和下丘脑神经胶质瘤)、神经胶母细胞瘤、乳腺癌、支气管腺瘤或类癌、伯基特氏淋巴瘤、类癌肿瘤(诸如儿童或胃肠道类癌瘤)、癌瘤中枢神经系统淋巴瘤、小脑星形细胞瘤或恶性神经胶质瘤(诸如儿童小脑星形细胞瘤或恶性神经胶质瘤)、子宫颈癌、儿童癌症、慢性淋巴细胞白血病、慢性骨髓性白血病、慢性骨髓增生性病症、结肠癌、皮肤T细胞淋巴瘤、促结缔组织增生性小圆细胞肿瘤、子宫内膜癌、室管膜瘤、食道癌、尤文氏肉瘤、尤文氏肿瘤家族中的肿瘤、颅外生殖细胞肿瘤(诸如儿童颅外生殖细胞肿瘤)、性腺外生殖细胞肿瘤、眼癌(诸如眼内黑素瘤或成视网膜细胞瘤眼癌)、胆囊癌、胃癌、胃肠道类癌肿瘤、胃肠道间质瘤、生殖细胞肿瘤(诸如颅外、性腺外或卵巢生殖细胞肿瘤)、妊娠滋养细胞肿瘤、神经胶质瘤(诸如脑干、儿童大脑星形细胞瘤或儿童视路和下丘脑神经胶质瘤)、胃类癌、毛状细胞白血病、头颈癌、心脏癌症、肝细胞(肝脏)癌症、霍奇金氏淋巴瘤、下咽癌、下丘脑和视通路神经胶质瘤(诸如儿童视通路神经胶质瘤)、胰岛细胞癌瘤(诸如内分泌或胰岛细胞癌瘤)、卡波西肉瘤、肾脏癌、喉癌、白血病(诸如急性成淋巴细胞性、急性骨髓、慢性淋巴细胞性、慢性骨髓性或毛状细胞白血病)、嘴唇或口腔癌症、脂肉瘤、肝癌(诸如非小细胞或小细胞癌症)、肺癌、淋巴瘤(诸如AIDS相关、伯基特氏、皮肤T细胞、霍奇金氏、非霍奇金氏或中枢神经系统淋巴瘤)、巨球蛋白血症(诸如瓦尔登斯特伦巨球蛋白血症、骨骼恶性纤维组织细胞瘤或骨肉瘤、神经管胚细胞瘤(诸如儿童神经管胚细胞瘤)、黑色素瘤、梅克尔细胞癌、间皮瘤(诸如成年人或儿童间皮瘤)、隐性转移性鳞状颈部癌症、口腔癌症、多发性内分泌腺瘤综合症(诸如儿童多发性内分泌腺瘤综合症)、多发性骨髓瘤或血浆细胞赘瘤、蕈样真菌病、骨髓发育不良综合症、骨髓发育不良或骨髓增生性疾病、骨髓性白血病(诸如慢性骨髓性白血病)、骨髓性白血病(诸如成年人急性或儿童急性骨髓性白血病)、骨髓增生性病症(诸如慢性骨髓增生性病症)、鼻腔或副鼻窦癌症、鼻咽癌、神经母细胞瘤、口部癌症、口咽癌症、骨肉瘤或骨骼恶性纤维组织细胞瘤、卵巢癌、卵巢上皮癌症、卵巢生殖细胞肿瘤、卵巢低恶性潜在肿瘤、胰腺癌(诸如胰岛细胞胰腺癌)、副鼻窦或鼻腔癌症、副甲状腺癌症、阴茎癌、咽癌、嗜铬细胞瘤、松果体星形细胞瘤、松果体胚细胞瘤、成松果体细胞瘤或幕上原始神经外胚层肿瘤(诸如儿童成松果体细胞瘤或幕上原始神经外胚层肿瘤)、垂体腺瘤、浆细胞赘生物、胸膜肺母细胞瘤、原发性中枢神经系统淋巴瘤、癌症、直肠癌、肾细胞癌、肾盂或输尿管癌症(诸如肾盂或输尿管移行细胞癌症、成视网膜细胞瘤、横纹肌肉瘤(诸如儿童横纹肌肉瘤)、唾液腺癌症、肉瘤(诸如尤文氏肿瘤家族中的肉瘤、卡堡氏、软组织或子宫肉瘤)、塞氏综合症、皮肤癌(诸如非黑素瘤、黑素瘤或默克氏细胞皮肤癌(merkel cell skin cancer))、小肠癌、鳞状细胞癌、幕上原始神经外胚层肿瘤(诸如儿童幕上原始神经外胚层肿瘤)、T细胞淋巴瘤(诸如皮肤T细胞淋巴瘤)、睾丸癌、喉癌、胸腺瘤(诸如儿童胸腺瘤)、胸腺瘤或胸腺癌、甲状腺癌(诸如儿童甲状腺癌)、滋养细胞肿瘤(诸如妊娠期滋养细胞肿瘤)、原发部位未知的癌瘤(诸如成年人或儿童原发部位未知的癌瘤)、尿道癌症(诸如子宫内膜子宫癌)、子宫肉瘤、阴道癌、视路或下丘脑神经胶质瘤(诸如儿童视路或下丘脑神经胶质瘤)、外阴癌、瓦尔登斯特伦巨球蛋白血症或威尔姆斯氏肿瘤(wilms tumor)(诸如儿童威尔姆斯氏肿瘤)。在各种实施例中,癌症已转移或尚未转移。
癌症可以是或可以不是激素相关或依赖性癌症(例如雌激素或雄激素相关癌症)。可以使用本发明的方法和/或组合物诊断、预后、稳定、治疗或预防良性肿瘤或恶性肿瘤。
在一些实施例中,受试者患有癌症综合症。癌症综合症是一种基因病症,其中一种或多种基因中的基因突变使得患病个体易于发生癌症且也可以引起这些癌症的早发。癌症综合症通常不仅示出生存期内发生癌症的高风险,而且还发生多种独立的原发性肿瘤。许多这些综合症是由肿瘤抑制因子基因的突变引起,该肿瘤抑制因子基因是涉及保护细胞避免变成癌性的基因。其它可能受影响的基因是DNA修复基因、癌基因和涉及血管产生(血管生成)的基因。遗传性癌症综合症的常见实例是遗传性乳腺-卵巢癌综合症和遗传性非息肉病结肠癌(林奇氏综合症(Lynch syndrome))。
在一些实施例中,分别向在n K-ras、p53、BRA、EGFR或HER2中具有一种或多种多态现象或突变的受试者给予靶向K-ras、p53、BRA、EGFR或HER2的治疗。
本发明的方法通常可以用于治疗任何细胞、组织或器官类型的恶性或良性肿瘤。
示例性治疗
视需要,可以向受试者(例如使用本发明的任何方法鉴别为患有癌症或增加的癌症风险的受试者)给予任何用于稳定、治疗或预防疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险的治疗。在各种实施例中,治疗是已知的用于疾病或病症(诸如癌症)的治疗或治疗组合,包括(但不限于)细胞毒性剂、靶向疗法、免疫疗法、激素疗法、放射疗法、癌性细胞或可能变成癌性的细胞的手术去除、干细胞移植、骨髓移植、光动力疗法、姑息性治疗或其组合。在一些实施例中,使用治疗(诸如预防性药物)来预防、延缓具有增加的疾病或病症(诸如癌症)风险的受试者中的疾病或病症(诸如癌症)或降低其严重程度。在一些实施例中,治疗是手术、一线化学疗法、辅助疗法或新辅助疗法。
在一些实施例中,靶向疗法是靶向癌症的特异性基因、蛋白质或有助于癌症生长和存活的组织环境的治疗。这种类型的治疗阻断癌细胞的生长和扩散,同时限制对正常细胞的损伤,与其它癌症药物相比通常引起较少的副作用。
一种较成功的方法已被靶向血管生成,肿瘤周围的新血管生长。靶向疗法(诸如贝伐珠单抗(bevacizumab)(阿瓦斯汀(Avastin))、来那度胺(lenalidomide)(雷利米得(Revlimid))、索拉非尼(sorafenib)(多吉美(Nexavar))、舒尼替尼(sunitinib)(舒癌特(Sutent))和沙力度胺(thalidomide)(撒利多迈(Thalomid))干扰血管生成。另一实例是针对过表达HER2的癌症(诸如一些乳腺癌)使用靶向HER2的治疗,诸如曲妥珠单抗(trastuzumab)或拉帕替尼(lapatinib)。在一些实施例中,使用单克隆抗体阻断癌细胞外部上的特异性靶标。实例包括阿仑单抗(alemtuzumab)(坎帕斯-1H(Campath-1H))、贝伐珠单抗、西妥昔单抗(cetuximab)(爱必妥(Erbitux))、帕尼单抗(panitumumab)(维克替比(Vectibix))、帕妥珠单抗(pertuzumab)(奥密塔克(Omnitarg))、利妥昔单抗(rituximab)(美罗华(Rituxan))和曲妥珠单抗。在一些实施例中,使用单克隆抗体托西莫单抗(tositumomab)(百克沙(Bexxar))向肿瘤递送辐射。在一些实施例中,口服小分子抑制癌细胞内部的癌症过程。实例包括达沙替尼(dasatinib)(斯普塞尔(Sprycel))、埃罗替尼(erlotinib)(特罗凯(Tarceva))、吉非替尼(gefitinib)(易瑞沙(Iressa))、伊马替尼(imatinib)(格列卫(Gleevec))、拉帕替尼(lapatinib)(泰克泊(Tykerb))、尼罗替尼(nilotinib)(塔西纳(Tasigna))、索拉非尼、舒尼替尼和坦罗莫司(temsirolimus)(托瑞斯(Torisel))。在一些实施例中,蛋白酶体抑制剂(诸如多发性骨髓瘤药物,硼替佐米(bortezomib)(万珂(Velcade))干扰称为分解细胞中的其它蛋白质的酶的特殊蛋白质。
在一些实施例中,免疫疗法被设计成增强身体的天然抵抗力以对抗癌症。示例性类型的免疫疗法使用由身体或在实验室中产生的物质以支持、靶向或恢复免疫系统功能。
在一些实施例中,激素疗法通过降低身体中激素的量来治疗癌症。若干种类型的癌症(包括一些乳腺和前列腺癌)仅在身体中存在称为激素的天然化学物质的情况下生长和扩散。在各种实施例中,使用激素疗法来治疗前列腺、乳腺、甲状腺和生殖系统的癌症。
在一些实施例中,治疗包括干细胞移植,其中用称为造血干细胞的高度特化的细胞替换病变的骨髓。在血流和骨髓中发现造血干细胞。
在一些实施例中,治疗包括光动力疗法,其使用称为光敏剂的特殊药物和光来杀伤癌细胞。药物在该药物由某些类别的光活化之后起作用。
在一些实施例中,治疗包括癌性细胞或可能变成癌性的细胞的手术去除(诸如肿块切除术或乳房切除术)。例如,具有乳腺癌敏感性基因突变(BRCA1或BRCA2基因突变)的女性可以通过用于降低风险的输卵管-卵巢切除(去除输卵管和卵巢)和/或用于降低风险的双侧乳房切除术(去除两个乳腺)来降低其乳腺癌和卵巢癌的风险。可以使用激光(功率极强、极密集的光束)代替刀片(解剖刀)进行极谨慎的手术工作,包括治疗一些癌症。
除用于延缓、停止或消除癌症的治疗(也称为疾病定向治疗)以外,癌症护理的一个重要部分是缓解受试者的症状和副作用,诸如疼痛和恶心。癌症护理包括支持个体的生理、情感和社交需求,一种称为姑息性或支持性护理的方法。人们通常同时接受疾病定向疗法和治疗以减轻症状。
示例性治疗包括放射菌素D(actinomycin D)、阿德曲斯(adcetris)、阿德力霉素(Adriamycin)、阿地介白素(aldesleukin)、阿仑单抗(alemtuzumab)、力比泰(alimta)、阿米西丁(amsidine)、安吖啶(amsacrine)、阿那曲唑(anastrozole)、阿可达(aredia)、阿纳托唑(arimidex)、阿诺新(aromasin)、天冬酰胺酶(asparaginase)、阿瓦斯汀(avastin)、贝伐珠单抗、比卡鲁胺(bicalutamide)、博莱霉素(bleomycin)、博德纳特(bondronat)、博尼弗斯(bonefos)、硼替佐米(bortezomib)、布西韦克(busilvex)、白消安(busulphan)、坎普托(campto)、卡培他滨(capecitabine)、卡铂(carboplatin)、卡莫司汀(carmustine)、康士得(casodex)、西妥昔单抗(cetuximab)、赤克斯(chimax)、苯丁酸氮芥(chlorambucil)、甲腈咪胍(cimetidine)、顺铂(cisplatin)、克拉屈滨(cladribine)、氯屈膦酸盐(clodronate)、氯法拉滨(clofarabine)、克立他酶(crisantaspase)、环磷酰胺(cyclophosphamide)、乙酸环丙孕酮(cyproterone acetate)、西普塔特(cyprostat)、阿糖胞苷(cytarabine)、环磷氮介(cytoxan)、达卡波秦(dacarbozine)、放线菌素D(dactinomycin)、达沙替尼(dasatinib)、道诺霉素(daunorubicin)、地塞米松(dexamethasone)、己烯雌酚(diethylstilbestrol)、多烯紫杉醇(docetaxel)、小红莓(doxorubicin)、多格尼尔(drogenil)、恩克依特(emcyt)、表柔比星(epirubicin)、艾普欣(eposin)、爱必妥(Erbitux)、埃罗替尼(erlotinib)、艾斯塔特(estracyte)、雌氮芥(estramustine)、艾托普斯(etopophos)、依托泊苷(etoposide)、艾弗特拉(evoltra)、依西美坦(exemestane)、法乐通(fareston)、富马乐(femara)、非格司亭(filgrastim)、氟达拉(fludara)、氟达拉滨(fludarabine)、氟尿嘧啶(fluorouracil)、氟他胺(flutamide)、格非尼布(gefinitib)、吉西他滨(gemcitabine)、健择(gemzar)、格列卫(gleevec)、格力卫(glivec)、长效格纳普特(gonapeptyl depot)、戈舍瑞林(goserelin)、哈拉维(halaven)、赫赛汀(herceptin)、赫卡汀(hycamptin)、羟基尿素(hydroxycarbamide)、伊班膦酸(ibandronic acid)、异贝莫单抗(ibritumomab)、伊达比星(idarubicin)、伊弗米德(ifosfomide)、干扰素、甲磺酸伊马替尼(imatinib mesylate)、易瑞沙(iressa)、伊立替康(irinotecan)、结塔纳(jevtana)、兰卫斯(lanvis)、拉帕替尼(lapatinib)、来曲唑(letrozole)、瘤可宁(leukeran)、亮丙瑞林(leuprorelin)、乐斯塔特(leustat)、洛莫司汀(lomustine)、玛卡斯(mabcampath)、玛瑟拉(mabthera)、美加西(megace)、甲地孕酮(megestrol)、甲胺喋呤(methotrexate)、米托蒽醌(mitozantrone)、丝裂霉素、木土兰(mutulane)、马利兰(myleran)、诺维本(navelbine)、尼拉斯塔(neulasta)、雷普根(neupogen)、多吉美(nexavar)、尼彭特(nipent)、诺瓦得士D(nolvadex D)、诺凡隆(novantron)、安可平(oncovin)、太平洋紫杉醇、帕米膦酸盐(pamidronate)、PCV、培美曲塞(pemetrexed)、喷司他汀(pentostatin)、帕杰它(perjeta)、丙卡巴肼(procarbazine)、普洛韦格(provenge)、泼尼松龙(prednisolone)、普洛斯普(prostrap)、雷替曲赛(raltitrexed)、利妥昔单抗(rituximab)、斯普塞尔(sprycel)、索拉非尼(sorafenib)、索塔莫西(soltamox)、链脲霉素(streptozocin)、己烯雌酚(stilboestrol)、斯迪木西(stimuvax)、舒尼替尼(sunitinib)、舒癌特(sutent)、他布伊德(tabloid)、他加米特(tagamet)、他莫芬(tamofen)、他莫昔芬(tamoxifen)、特罗凯(tarceva)、紫杉醇(taxol)、克癌易(taxotere)、喃氟啶(tegafur)和尿嘧啶、特莫达尔(temodal)、替莫唑胺(temozolomide)、沙力度胺(thalidomide)、噻利斯(thioplex)、噻替派(thiotepa)、硫鸟嘌呤(tioguanine)、拓优得(tomudex)、拓朴替康(topotecan)、托瑞米芬(toremifene)、曲妥珠单抗(trastuzumab)、维甲酸(tretinoin)、曲奥舒凡(treosulfan)、三亚乙基硫磷酰胺(triethylenethiophorsphoramide)、曲普瑞林(triptorelin)、特韦博(tyverb)、优弗拉尔(uftoral)、万珂(velcade)、维派德(vepesid)、凡善能(vesanoid)、长春新碱(vincristine)、长春瑞滨(vinorelbine)、夏克瑞(xalkori)、希罗达(xeloda)、益伏(yervoy)、扎克替玛(zactima)、扎诺沙(zanosar)、善唯达(zavedos)、泽韦林(zevelin)、诺雷德(zoladex)、唑来膦酸盐(zoledronate)、唑米他唑来膦酸(zometa zoledronic acid)和泽替加(zytiga)。
在一些实施例中,癌症是乳腺癌且给予个体的治疗或化合物是以下中的一个或多个:阿贝西利(Abemaciclib)、阿布拉生(Abraxane)(太平洋紫杉醇白蛋白稳定化纳米粒子配制物)、阿多-曲妥珠单抗恩他新(Ado-Trastuzumab Emtansine)、阿飞尼妥(Afinitor)(依维莫司(Everolimus))、阿那曲唑(Anastrozole)、阿可达(Aredia)(帕米膦酸二钠)、阿纳托唑(Arimidex)(阿那曲唑(Anastrozole))、阿诺新(Aromasin)(依西美坦(Exemestane))、卡培他滨(Capecitabine)、环磷酰胺、多烯紫杉醇、盐酸小红莓、艾伦斯(Ellence)(盐酸表柔比星(Epirubicin Hydrochloride))、盐酸表柔比星、甲磺酸艾日布林(Eribulin Mesylate)、依维莫司(Everolimus)、依西美坦(Exemestane)、5-FU(氟尿嘧啶注射剂)、法乐通(Fareston)(托瑞米芬(Toremifene))、芙仕得(Faslodex)(氟维司群(Fulvestrant))、富马乐(Femara)(来曲唑(Letrozole))、氟尿嘧啶注射剂、氟维司群(Fulvestrant)、盐酸吉西他滨、健择(盐酸吉西他滨)、乙酸戈舍瑞林(GoserelinAcetate)、哈拉维(Halaven)(甲磺酸艾日布林(Eribulin Mesylate))、赫赛汀(曲妥珠单抗)、伊布兰西(Ibrance)(帕博西里(Palbociclib))、伊沙匹隆(Ixabepilone)、艾克斯普拉(Ixempra)(伊沙匹隆(Ixabepilone))、卡德克拉(Kadcyla)(阿多-曲妥珠单抗恩他新)、克斯卡利(Kisqali)(瑞博西林(Ribociclib))、二甲苯磺酸拉帕替尼(LapatinibDitosylate)、来曲唑(Letrozole)、林帕拉扎(Lynparza)(奥拉帕尼(Olaparib))、乙酸甲地孕酮(Megestrol Acetate)、甲胺喋呤、顺丁烯二酸来那替尼(Neratinib Maleate)、尼尔克斯(Nerlynx)(顺丁烯二酸来那替尼)、奥拉帕尼(Olaparib)、太平洋紫杉醇、太平洋紫杉醇白蛋白稳定化纳米粒子配制物、帕博西里(Palbociclib)、帕米膦酸二钠、帕杰它(Perjeta)(帕妥珠单抗(Pertuzumab))、帕妥珠单抗、瑞博西林(Ribociclib)、柠檬酸他莫昔芬(Tamoxifen Citrate)、紫杉醇(太平洋紫杉醇)、克癌易(多烯紫杉醇)、噻替派、托瑞米芬、曲妥珠单抗、特瑞夏尔(Trexall)(甲胺喋呤)、泰克泊(Tykerb)(二甲苯磺酸拉帕替尼(Lapatinib Ditosylate))、维泽尼奥(Verzenio)(阿贝西利(Abemaciclib))、硫酸长春碱、希罗达(Xeloda)(卡培他滨(Capecitabine))、诺雷德(Zoladex)(乙酸戈舍瑞林)、梯瓦(Evista)(盐酸雷诺昔酚(Raloxifene Hydrochloride))、盐酸雷诺昔酚、柠檬酸他莫昔芬(Tamoxifen Citrate)。在一些实施例中,癌症是乳腺癌且给予个体的治疗或化合物是选自以下的组合:盐酸小红莓(阿德力霉素)和环磷酰胺;盐酸小红莓(阿德力霉素)、环磷酰胺和太平洋紫杉醇(紫杉醇);盐酸小红莓(阿德力霉素)、环磷酰胺和氟尿嘧啶;甲胺喋呤、环磷酰胺和氟尿嘧啶;盐酸表柔比星、环磷酰胺和氟尿嘧啶;以及盐酸小红莓(阿德力霉素)、环磷酰胺和多烯紫杉醇(克癌易)。
对于表达mRNA或蛋白质的突变体形式(例如癌症相关形式)和野生型形式(例如与癌症不相关的形式)的受试者,疗法对突变体形式的表达或活性的抑制优选是其对野生型形式的表达或活性的抑制的至少2、5、10或20倍。多种治疗剂的同时或依序使用可以极大地降低癌症的发病率和降低变得对疗法具有抗性的所治疗的癌症的数目。此外,用作组合疗法的一部分的治疗剂与在治疗剂单独地使用时所需的相应剂量相比,可能需要较低的剂量便可治疗癌症。组合疗法中的每种化合物的低剂量降低了由化合物引起的潜在不利副作用的严重程度。
在一些实施例中,由本发明或任何标准方法鉴别为具有增加的癌症风险的受试者避免特异性风险因子或改变生活方式以降低任何另外的癌症风险。
在一些实施例中,使用多态现象、突变、风险因子或其任何组合来选择用于受试者的治疗方案。在一些实施例中,选择较大的剂量或较大数目的治疗用于具有较大癌症风险或具有较差预后的受试者。
其它用于包含在单独或组合疗法中的化合物
视需要,可以根据本领域中已知的方法,从大型的天然产物或合成(或半合成)提取物的文库或化学文库中鉴别另外的用于稳定、治疗或预防疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险的化合物。本领域或熟悉药物发现和开发的技术人员将理解,测试提取物或化合物的确切来源对于本发明的方法来说不重要。因此,可以筛检几乎任何数目的化学提取物或化合物对来自特定类型的癌症或特定受试者的细胞的作用,或筛检该化学提取物或化合物对癌症相关分子(诸如已知在特定类型的癌症中具有改变的活性或表达的癌症相关分子)的活性或表达的作用。当发现粗提取物调节癌症相关分子的活性或表达时,可以使用本领域中已知的方法进行阳性先导提取物的进一步分级分离以分离引起所观察的作用的化学成分。
用于测试疗法的示例性测定和动物模型
视需要,可以使用细胞系(诸如具有使用本发明的方法在已诊断患有癌症或增加的癌症风险的受试者中鉴别的突变中的一种或多种的细胞系)或疾病或病症的动物模型(诸如SCID小鼠模型)来测试本文中所公开的治疗中的一种或多种对疾病或病症(诸如癌症)的作用(Jain等人,Tumor Models In Cancer Research,ed.Teicher,Humana PressInc.,Totowa,N.J.,第647-671页,2001,其特此通过引用的方式全文并入)。此外,存在大量可以用于确定特定疗法在稳定、治疗或预防疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险方面的功效的标准测定和动物模型。还可以在标准人类临床试验中测试疗法。
对于选择用于特定受试者的优选疗法,可以测试化合物对受试者中突变的一种或多种基因的表达或活性的作用。例如,可以使用标准Northern、Western或微阵列分析来检测化合物调节特定mRNA分子或蛋白质的表达的能力。在一些实施例中,选择满足以下条件的一种或多种化合物:(i)抑制受试者中(诸如来自受试者的样品中)以高于正常水平表达的或具有高于正常活性水平的促进癌症的mRNA分子或蛋白质的表达或活性,或(ii)促进受试者中以低于正常水平表达的或具有低于正常活性水平的抑制癌症的mRNA分子或蛋白质的表达或活性。满足以下条件的单独或组合疗法:(i)调节受试者中最大数目的具有与癌症相关的突变的mRNA分子或蛋白质,和(ii)调节受试者中最少数目的不具有与癌症相关的突变的mRNA分子或蛋白质。在一些实施例中,所选择的单独或组合疗法具有高药物功效且产生极少(如果存在)的不利副作用。
作为上文所描述的受试者特异性分析的替代方案,DNA芯片可以用于比较特定类型的早期或晚期癌症(例如乳腺癌细胞)中mRNA分子的表达与正常组织中的表达(Marrack等人,Current Opinion in Immunology 12,206-209,2000;Harkin,Oncologist.5:501-507,2000;Pelizzari等人,Nucleic Acids Res.28(22):4577-4581,2000,其各自特此通过引用的方式全文并入)。基于这一分析,可以选择用于患有这种类型的癌症的受试者的单独或组合疗法以调节在这种类型的癌症中具有改变的表达的mRNA或蛋白质的表达。
除用于选择用于特定受试者或受试者组的疗法以外,表达谱可以用于监测在治疗期间发生的mRNA和/或蛋白质表达的变化。例如,表达谱可以用于确定癌症相关基因的表达是否恢复正常水平。如果未恢复正常水平,则可以改变疗法中的一种或多种化合物的剂量以增加或降低疗法对相应的癌症相关的一种或多种基因的表达水平的作用。此外,这一分析可以用于确定疗法是否影响其它基因(例如与不利副作用相关的基因)的表达。视需要,可以改变疗法的剂量或组成以防止或减少不合需要的副作用。
示例性配制物和给药方法
为了稳定、治疗或预防疾病或病症(诸如癌症)或增加的疾病或病症(诸如癌症)风险,可以使用本领域的技术人员已知的任何方法来配制和给予组合物(参见例如美国专利第8,389,578号和第8,389,557号,其各自特此通过引用的方式全文并入)。用于配制和给药的一般技术见于“Remington:The Science and Practice of Pharmacy,”21st Edition,Ed.David Troy,2006,Lippincott Williams&Wilkins,Philadelphia,Pa.,其特此通过引用的方式全文并入)。液体、浆料、片剂、胶囊、丸剂、粉末、颗粒、凝胶、软膏、栓剂、注射剂、吸入剂和气溶胶是这类配制物的实例。例如,可以使用本领域中已知的另外的方法来制备经改性的或延长释放型口服配制物。例如,活性成分的合适的延长释放形式可以是骨架片剂或胶囊组合物。合适的骨架形成物质包括例如蜡(例如棕榈蜡、蜂蜡、石蜡、地蜡、虫胶蜡、脂肪酸和脂肪醇)、油、硬化油或脂肪(例如硬化菜籽油、蓖麻油、牛脂、棕榈油和大豆油)以及聚合物(例如羟基丙基纤维素、聚乙烯吡咯烷酮、羟基丙基甲基纤维素和聚乙二醇)。其它合适的骨架制片物质是微晶纤维素、粉末纤维素、羟基丙基纤维素、乙基纤维素以及其它载剂和填充剂。片剂还可以含有颗粒、包衣粉末或丸粒。片剂还可以是多层的。任选地,成品片剂可以是包衣的或未包衣的。
给予这类组合物的典型途径包括(但不限于)口服、舌下、颊内、局部、经皮、吸气、非经肠(例如皮下、静脉内、肌肉内、胸骨内注射或输注技术)、经直肠、经阴道和鼻内。在优选实施例中,使用延长释放型装置给予疗法。
配制本发明的组合物以便允许其中所含的活性成分在给予组合物时是生物可用的。组合物可以呈一种或多种剂量单位形式。组合物可以含有1、2、3、4或更多种活性成分且可以任选地含有1、2、3、4或更多种非活性成分。
替代性实施例
本文中所描述的方法中的任一者可以包括呈实体格式的数据输出,诸如在计算机屏幕上或在打印纸上。本发明的方法中的任一者可以与呈可以由医师使用的格式的可操作数据的输出组合。医学专业人员可以将文献中所描述的用于确定关于靶标个体的基因数据的一些实施例与潜在染色体异常(诸如缺失或复制)或不具有潜在染色体异常的通知组合。本文中所描述的一些实施例可以与可操作数据的输出,以及产生临床治疗的临床决定的执行或不采取行动的临床决定的执行组合。
在一些实施例中,本文中公开用于产生公开本发明的任何方法的结果(诸如存在或不存在缺失或复制)的报告的方法。可以产生具有本发明的方法的结果的报告且该报告可以电子方式发送给医师、在输出装置上显示(诸如数字报告)或可以向医师递送书面报告(诸如报告的打印复印件)。此外,所描述的方法可以与产生临床治疗的临床决定的实际执行或不采取行动的临床决定的执行组合。
在某些实施例中,本发明提供用于进行这类方法、使用本文中所公开的多重PCR方法检测来自相同样品的CNV和SNV二者的试剂、试剂盒和方法以及计算机系统和具有编码指令的计算机介质。在某些优选实施例中,样品是疑似含有循环肿瘤DNA的单细胞样品或血浆样品。这些实施例利用以下研究结果:与单独查询CNV或SNV相比,通过使用本文中所公开的高敏感性多重PCR方法查询来自单细胞或血浆的DNA样品中的CNV和SNV,可以实现改进的癌症检测,尤其对于呈现CNV的癌症,诸如乳腺癌、卵巢癌和肺癌。在某些说明性实施例中,用于分析CNV的方法查询在50与100,000个或50与10,000个,或50与1,000个之间的SNP,且对于SNV,查询在50与1000个之间的SNV或在50与500个之间的SNV或在50与250个之间的SNV。本文中所提供的用于检测疑似患有癌症(包括例如已知呈现CNV和SNV的癌症,诸如乳腺癌、肺癌和卵巢癌)的受试者的血浆中的CNV和/或SNV的方法提供以下优点:检测来自在基因组成方面通常由异源癌细胞群体构成的肿瘤的CNV和/或SNV。因此,集中于仅分析肿瘤的某些区域的传统方法通常会遗漏存在于肿瘤的其它区域中的细胞中的CNV或SNV。可以查询充当液体活检的血浆样品以检测仅存在于肿瘤细胞的亚群中的任何CNV和/或SNV。
提出以下实例以便向本领域的一般技术人员提供如何使用本文中所提供的实施例的完整公开内容和描述,并且并不旨在限制本公开的范围,也不旨在表示以下实例是进行的全部或仅有的实验。已经做出努力来确保关于所使用的数字(例如,量、温度等)的准确性,但仍应考虑一些实验误差和偏差。除非另外规定,否则份数都是体积份,并且温度用摄氏度表示。应理解,可以在不改变实例意图说明的基本方面的情况下,对所描述的方法进行改变。
实例
实例1
已证实对疾病复发的早期检测可以改进癌症患者的存活率。在手术后对循环肿瘤DNA(ctDNA)进行检测可以定义具有极高复发风险的癌症患者的子集。
用于风险分级、监测和预测治疗功效以及早期复发检测的敏感方法可能对III期结直肠癌患者的治疗决定、患者管理和结果有重大影响。评定了辅助疗法之前、期间和之后以及监控期间进行的连续ctDNA测量的预后和预测影响。
患者和方法。2014年至2019年间,丹麦和西班牙医院招募了168名以治疗意图接受治疗的III期CRC患者。为了对血浆样品(n=1203)中的ctDNA进行定量,使用多重PCR、下一代测序对16种患者特异性体细胞单核苷酸变体进行了分布分析。
结果。ctDNA检测是强有力的复发预测因子,无论是术后测量(HR=7.2,95% CI3.8-13.8,p<0.001)、辅助化学疗法(ACT)后直接测量(HR=21,95% CI 8.0-56,p<0.001),还是治疗结束后连续测量(HR=40,95% CI 16-100,p<0.001)。接受ACT治疗的术后ctDNA阳性患者的复发率为80%(16/20)。所有在ACT期间保持ctDNA阳性的患者都复发了。连续治疗后的测量结果显示两种不同的指数ctDNA生长速率:慢速(26%ctDNA增加/月)和快速(126%ctDNA增加/月)(p<0.001)。该速率可预测存活率(HR=2.6,95%CI 1.1-6.7,p=0.036)。相符的CT扫描和ctDNA测量结果(n=112名患者)显示出高度一致性(92%),其中ctDNA在CT成像之前或同时检测到残留疾病。
结论。连续术后ctDNA分析具有强有力的预后价值,比CT成像对复发检测更敏感,并且能够评定肿瘤生长速率。ctDNA检测和生长速率评定的新颖组合为指导决策提供了独特的机会。
实例2
简介。结直肠癌(CRC)是全球主要的健康负担。患有III期疾病的患者复发的风险很高,指示有子集患有残留疾病。为了消除潜在的残留疾病,指南建议选择对III期患者进行辅助化学疗法(ACT)。然而,并非所有III期患者都有残留疾病。超过50%仅通过手术即可治愈。因此,选择接受ACT的患者的更精确方法是直接检测残留疾病的证据。
另外,目前还没有生物标志物可以准确监测患者对ACT的反应。直到诊断出临床复发后才识别出治疗失败。因此,如果能够确定完成ACT后仍会复发的患者,可能会允许这些患者更快地接受另外的疗法或加强监控。如今,指南建议对所有患者每6-12个月进行放射学监控。据报道,III期患者的复发率约为30%。因此,约70%经过常规治疗后放射学监测的患者不会复发。这指示更好地将可用监控资源分配给高风险患者的需求尚未得到满足。
循环肿瘤DNA (ctDNA)已成为一种有前景的癌症检测非侵入性生物标志物。多项研究表明术后检测到ctDNA与高复发风险相关。因此,ctDNA的检测可以解释为残留疾病的分子确认,而ctDNA的水平可以解释为肿瘤负荷的指标。ctDNA分析的优点是能够连续评定ctDNA浓度,原则上能够对分子复发和肿瘤负荷的变化进行连续评定,例如反映治疗反应。
结果来自对患有III期CRC患者的同质队列进行连续ctDNA分析的前瞻性、多中心研究。该研究的主要目的是对术后ctDNA水平进行检测和定量,并评定与具体时间点(例如术后和ACT后)复发的相关性,并且在长达36个月的监控期间连续进行。次要目标是探索ctDNA动力学的连续评估是否可以预测成果、对ACT的反应,以及是否能够在监控期间及早检测到复发。
材料和方法。
受试者和研究设计。这项国际多中心研究连续招募了2014年7月至2019年2月期间在六家丹麦医院以及2016年6月至2018年12月期间在西班牙巴伦西亚大学医院(HospitalClínico Universitario de Valencia)接受治疗的III期CRC患者(N=168)。如果患者计划接受治疗意图的治疗并且术前胸部、腹部和骨盆CT未发现明显转移性疾病,则患者符合资格。患者和医师在不了解ctDNA结果的情况下做出了ACT治疗决定。
组织样品采集
对于所有患者,从切除的原发性肿瘤采集肿瘤组织,该组织是新鲜冷冻的(n=100)或是福尔马林固定石蜡包埋的(FFPE)(n=66)。在患有同步CRC肿瘤的患者(n=5)中,从所有原发性肿瘤采集组织。
血液采集和血浆分离。
将血液样品采集在K2-EDTA 10ml试管(Becton Dickinson)中。血液采集后2小时内通过双重离心来分离血浆。在丹麦,两次离心各自在3000g下进行10分钟。在西班牙,第一次离心在1600g下进行10min,第二次在3000g下进行10分钟。第一次离心后采集血沉棕黄层。将血浆和血沉棕黄层储存在-80℃直至使用。
DNA提取和定量
使用Puregene DNA纯化试剂盒(Gentra Systems)从新鲜冷冻肿瘤组织样品中提取DNA,并使用QiAamp DNA FFPE组织试剂盒(Qiagen)从FFPE样品中提取DNA。在丹麦,使用QIAsymphony DNA小型试剂盒(Qiagen)从血沉棕黄层中提取正常DNA。在西班牙,使用Chemagic DNA Blood Kit Special和Chemagic MSM I仪器(PerkinElmer)来提取血沉棕黄层DNA。通过QubitTMdsDNA BR测定试剂盒(ThermoFisher)对组织和血沉棕黄层DNA进行定量。使用QIAamp循环核酸试剂盒(Qiagen)从血浆样品(中值8mL;范围,1.3mL-10mL)中提取cfDNA,并洗脱到50μL的DNA悬浮缓冲液(Sigma)中。使用Quant-iT高敏感性dsDNA测定试剂盒(Invitrogen)对每个cfDNA样品进行定量。
癌胚抗原(CEA)分析
根据制造商的建议,使用500μL血清在Cobas e601平台(Roche)上进行CEA分析。阈值水平是根据国家指南设置的:在丹麦,对于非吸烟者和吸烟者分别为4.0μg/L和6.0μg/L;在西班牙,对于非吸烟者和吸烟者分别为3.4μg/L和4.3μg/L。样品采集前8周未吸烟的人视为曾经吸烟者。
全外显子组测序(WES)
对来自肿瘤和种系的中位数为500ng(范围:181ng-500ng)的基因组DNA进行基于Illumina衔接子的文库制备,并随后使用NovaSeq平台以2x 100bp的成对端测序来进行全外显子组测序(靶标尺寸约为40Mb)。分别在180x和50x的删除重复后的平均中靶覆盖率下对肿瘤样品和种系样品进行测序。使用bcl2fastq2来准备FastQ文件,并使用FastQC检查质量。使用Burrows–Wheeler比对工具(v.0.7.12)将读段映射到人类参考基因组hg19,并使用Picard和MultiQC检查质量。检查重新比对QC和比对后QC度量值(包括读段总数目、删除重复中靶覆盖率、覆盖均匀性),以确保全外显子组测序数据的质量。检查肿瘤DNA样品与匹配的种系DNA样品之间的SNP基因型和谐性,以鉴别任何样品调换。
体细胞变体识别和Signatera ctDNA测定设计
使用Natera的共有变体识别方法来进行体细胞变体识别,所述方法使用来自肿瘤组织和种系二者的测序输入。先前报道为公共数据集(1000个基因组计划、ExAC、ESP、dbSNP)中种系的变体已被过滤掉。然后对WES数据的质量度量值和样品和谐性进行分析,然后通过Natera专有的生物信息学流水线进行处理,以鉴别克隆体细胞单核苷酸变体(SNV)。在经鉴别的克隆变体候选池中,使用变体优先列表基于优化的设计参数来设计PCR扩增子,确保人类基因组的独特性、扩增子效率和引物相互作用。
血浆DNA文库和血浆多重PCR NGS工作流程。
提取血浆cfDNA后,使用多达66ng(20,000个基因组等效物;图8A)的cfDNA来制备cfDNA文库,并对其进行末端修复、A加尾和衔接子连接,接着使用Ampure XP珠粒(Agencourt/Beckman Coulter)来扩增和纯化产物。文库制备后,对每个文库和引物的等分试样进行多重靶向PCR。在Illumina平台上以>100,000x的每个扩增子的平均深度对经扩增的、加注有条形码的产物进行合并和测序。使用先前验证的≥2种检测到的变体的截止值作为ctDNA阳性的准则。基于先前定义的置信度阈值选择截止值,以实现>99.8%的高特异性,同时保持高敏感性。
基于ctDNA生长速率对患者进行细分
基于ctDNA水平作为复发或干预前的时间的函数,针对每个患者进行对数线性回归拟合。ctDNA生长速率是由回归线的斜率估算的。斜率直方图显示出双峰分布(图10A)。为了鉴别分布中两种模式之间的局部最小值,使用具有最小带宽的核平滑器来估算实值函数,以得到两模态估算。局部最小值是通过对函数应用用于局部极值的二阶导数测试来确定的。
统计分析
使用无复发存活率(RFS)作为原发性成果测量结果。通过标准放射学准则对RFS进行评定,并从手术日期到经验证的首次放射学复发(局部或远端)进行测量。在最后一次随访或死亡时对患者进行审查。没有随访的患者被排除在研究之外。总存活率(OS)是从手术日期到死亡日期或最后一次随访日期计算的。在2020年12月31日最后一次评定存活率。通过Fisher精确测试和逻辑回归分析,针对临床病理学因子以及ctDNA和CEA测量结果来评定复发率。使用用于非正态数据的Wilcoxon秩和测试或用于对数变换数据的学生t测试对不匹配组进行比较,通过Q-Q图检查正态性。使用用于连续数据的Wilcoxon符号秩测试和用于二进制数据的McNemar测试来进行成对数据的比较。Cohen的Kappa系数用于估算重叠数据之间的一致性。使用Kaplan-Meier方法进行存活率分析。使用Cox比例风险回归分析来评定ctDNA和CEA对RFS和OS的影响。在对连续ctDNA和CEA测量结果的分析中,这些被视为随时间变化的自变量。使用单变量分析中p值<0.05的临床病理学参数进行多变量分析。通过Schoenfeld残差的全局测试来测试比例风险假设。所有P值均基于双侧测试,并且P<0.05时认为差异是显著的。使用R统计软件(v.4.0)进行统计分析。
结果。患者入选和研究概述呈现在图5中。共有168名III期CRC患者入选。随后,八名患者被排除在外,因为这些患者发展出异时性癌症(n=1)、失访(n=2)、仅在ACT期间采集了血液样品(n=3)或接受了R2切除术(n=2);余下160名患者用于分析。对于患者子集(n=77),预先可获得ctDNA数据。对这些患者进行了>18个月的另外的随访,并提供了另外的纵向血浆样品分析。25%(40/160)的患者诊断出复发。非复发患者的中值随访为34.8个月(IQR 12.7-36.1个月)。连续采集血浆,即手术前、术后ACT前以及此后大约每3个月进行采集,持续长达3年。总共评定了1,203个血浆样品(每位患者的中值为7,IQR 4-11个样品)。使用预定义且先前验证的ctDNA分析流水线对血浆ctDNA水平进行定量,追踪血浆中的肿瘤特异性克隆变体。对于患有同步原发性肿瘤的患者,追踪每个肿瘤的克隆变体。图9中例示了这种方法的重要性,对于患有三种同步肿瘤的患者,其中只有一种形成了后续诊断出的远端转移。
术后ctDNA状态和与复发风险的关联
14.2%(20/140)的患者在手术后8周内(中值为2.6周,IQR 2.2-3.7)和开始ACT之前采集的术后血液样品中检测到了ctDNA。ctDNA阳性患者的复发率(80%,16/20[PPV=80%])显著高于ctDNA阴性患者(18.3%,22/120[NPV=81.7%],p<0.0001,Fisher精确测试,表1)。ctDNA的存在是未来复发(OR=17.8,95% CI 5.9-67.1,P<0.001)和无复发存活率(RFS)(HR=7.2,95% CI 3.8-13.8,p<0.001)的有力预测因子(表1和2)。没有其他临床病理变量与RFS显著相关(表2)。针对ACT进行调整后,ctDNA保持与RFS显著相关(HR=10.1,95% CI 4.92-20.7,p<0.001,表2)。22名患者未检测到ctDNA,但后续复发了。与ctDNA阳性患者相比,这些患者的细胞游离DNA(cfDNA)水平显著更高(p<0.05,学生t测试)(图6B)。可获取15名患者的随后采集的样品(手术后>2个月),其中80%(12/15)为ctDNA阳性(图6C)。这些“后续”ctDNA阳性样品中的cfDNA水平与术后ctDNA阳性样品相似(图6D)。
ctDNA阳性患者的辅助化学疗法和复发风险
总共有90%(18/20)的术后ctDNA阳性患者接受了ACT。该患者的复发率为78%(14/18)(图7A),指示ACT治愈了22%(4/18,95% CI 2.6-41.8%,通过拔靴法(bootstrapping))。与此一致的是,对具有可用随访样品的患者进行ctDNA分析,在复发患者中检测到ctDNA,而在36个月的随访结束时,非复发患者呈阴性(图7A)。由于当肿瘤负荷较小时,可以预期ACT会产生更好的效果,因此探索了复发患者和非复发患者术后ctDNA水平是否存在差异(图7B)。没有发现差异证据(p=0.74,学生t测试)。
ACT期间ctDNA水平的变化和复发预测
可获取13/18的经ACT治疗的术后ctDNA阳性患者在ACT之前、期间和之后采集的血液样品。ACT导致62%(8/13)的患者的至少一份血液样品中ctDNA清除(图7C)。其中,62.5%(5/8)经历了短暂清除,并且后续复发。其余37.5%(3/8)的患者在所有随后的监控样品中均保持清除状态,并且没有一例诊断出复发。在38%的患者(5/13)中,ACT没有清除ctDNA,并且这些患者最终重复发作(图7C)。
ACT后ctDNA和CEA状态和复发预测
可获取93名患者在ACT后(≤3个月后)采集的血液样品。在12.9%(12/93)的患者中检测到ctDNA。在单变量Cox回归分析中,ACT后检测到ctDNA与RFS显着降低相关(HR=21,p<0.001;图7D)。没有临床病理学风险因子、也没有ACT后CEA与RFS显著相关。
纵向ctDNA和CEA测量结果和与复发的关联
接下来检查的是在确定性治疗结束后从114名患者可获得的连续采集的血浆样品。使用ctDNA和CEA作为随时间变化的自变量的单变量Cox回归分析显示,与CEA和RFS(HR=3.8,p=0.007,表2C)相比,ctDNA与RFS之间存在强相关性(HR=40;p<0.001;表2C;图10)。在包括这两种标志物的多变量分析中,ctDNA仍然是RFS的唯一显著预测因子(ctDNA:HR=40.7,p<0.001;表2C)。
在114名患者中,24名经历了复发,并且其中79%(19/24)在放射学复发之前或当时示出了检测到ctDNA。对于47%(9/19)的患者,在ACT结束之前检测到了ctDNA(图7E)。包括这些样品在内,产生了10.2个月的中值前置时间(IQR:7.2-11.3)(图7E)。对于两名复发患者(8%;2/24),在放射学复发后检测到ctDNA,滞后时间分别为5.2和5.3个月(图7E)。
ctDNA水平的变化(肿瘤生长的指标)及其与存活率的关联
在这一队列中,对17名复发患者在确定性治疗后和复发干预前采集了≥2个连续ctDNA阳性样品(中值:3,范围:2-8)。调查了ctDNA变化作为肿瘤生长的指标。观察到所有患者的ctDNA水平均呈指数上升(图7F)。对数据进行对数线性回归模型拟合,并且对于每位患者,通过回归线的斜率来估算ctDNA增加/减少的速度(图7F)。使用这一斜率作为cox比例风险模型中的连续变量,显示出ctDNA增加与较差的总存活率(OS)之间的关联(HR=2.6,95%CI 1.1-6.7,p=0.036)。斜率分布是双峰的(图11),指示存在两种不同的生长模式:快速(47%,8/17,平均斜率=2.41+/-0.6SE,增加141%/月)或慢速(53%,9/17,平均斜率=1.26+/-0.15SE,增加26%/月)(p<0.001,Wilcoxon秩和测试)(图7F)。将慢速组和快速组的存活率与来自纵向分析的89名非复发患者的存活率进行了比较。这显示出非复发患者和具有慢速表型复发患者(p=0.18)的OS相似。相反,具有快速表型的复发患者的OS降低(HR=42.0,95% CI 8.0-221,p<0.001)(图11)。通过从首次检测到ctDNA到放射学复发所观察到的ctDNA倍数变化来指示快速表型和慢速表型的临床关联性(快速:中值倍数变化为117.3,范围:2.1-554.7;慢速:中值倍数变化为5.8,范围:0.5-173.5)。对是否可以仅使用前两个样品来有力地评定生长模式进行了探索。观察到良好的一致性,其中88.2%(15/17)的患者被分类到与使用所有可用样品时相同的组(p=0.479,McNemar测试;Cohen′s Kappa=0.77,图11)。当使用任意两个连续时间点时,达到了类似的一致性,说明了快速/慢速识别是有力的。
讨论。经验证且敏感的生物标志物可能通过以下方式来改进III期CRC患者的结果:更好地1)定义复发风险;2)预测ACT的结果;3)鉴别ACT后可能需要另外的治疗的患者;4)在监控期间检测复发;和5)预测肿瘤负荷的生长速率,并且从而告知干预的紧迫性。
目前的研究强调对III期CRC患者进行连续ctDNA测量,并证明ctDNA是具有指导ACT决策的潜能的手术后预后标志物。研究结果与先前的CRC研究一致,并对其进行了延伸。总而言之,这些结果已促成一系列前瞻性试验的规划和启动,该试验调查ctDNA引导的ACT给药对III期CRC患者的益处,许多试验的首要目标是对ctDNA阴性患者的治疗进行降级。对于这些研究,ctDNA分析的高NPV至关重要。重要的是,该研究示出了术后血液样品采集时间如何影响NPV。据观察,术后ctDNA阴性患者的复发率出人意料地高(18%),并且随后的分析提出这些假阴性的根源在于采样的时间。按照方案,大部分术后血液样品(84%)是在手术后2-4周采集的(中值为2.6)。附带地,这个间隔与最近鉴别的手术创伤引起的cfDNA为期四周的陡增重叠。与野生型cfDNA陡增一致,ctDNA阴性复发患者的cfDNA水平较高,指示创伤诱导的cfDNA可能已将ctDNA稀释至检测极限以下。与此一致的是,对具有归一化的cfDNA水平的后续样品进行的分析显示,80%的初始阴性复发患者中检测到了ctDNA。因此,在调查治疗降级的研究中,在第4周后采集另外的样品可能是有益的。这将允许对高cfDNA进行归一化,然后再得出ctDNA评定结论,从而改进整体NPV。
尽管受到小数目的限制,但数据显示22%(95% CI 2.6-41.8%)的经ACT治疗的ctDNA阳性患者在三年随访期间没有复发。ACT后连续ctDNA分析确证了这一结果,这22%的患者示出了持续的ctDNA清除。因此,结果提供证据证明了标准ACT可以使一小部分患者受益。观察到的风险降低与对未经选择的III期结肠癌患者给予标准ACT时报告的约30%一致。ctDNA阳性患者可能会从未来的辅助方案中获益更多。
还提供证据证明了连续ctDNA分析可以实时告知ACT的有效性。在ACT期间,鉴别出两种不同的ctDNA模式(图7C),这示出了与复发风险的相关性。它们可能是可操作的,因为在复发患者中鉴别出了ctDNA持续存在,而清除与复发风险降低37.5%相关。因此,如果没有清除,复发似乎是不可避免的。与研究结果一致,乳腺癌的新辅助设置、免疫疗法设置以及转移性肺和CRC的化学疗法设置的报道示出了疗法期间的早期ctDNA变化可预测成果。
我们的研究证明ctDNA是一种强有力的预后标志物—不仅在术后设置中,而且在ACT后设置中也是如此。这与先前针对规模较小、异源性更强的CRC患者队列的研究一致。ACT后进行的连续ctDNA评定提高了预测能力。目前的临床指南建议每6-12个月对患者进行放射学监控,每3-6个月辅以CEA分子分析。这项研究示出,在连续监控中ctDNA比CEA具有更强的预测能力,提出ctDNA可以在临床实践中提供更好的风险评定。这些观察结果为监控和干预提供了新的机会。连续ctDNA评定不仅可以对可能需要另外的治疗的患者进行残留疾病检测,还可以对成像资源进行风险分层分配,以进行复发监控。结果提出对于低风险(ctDNA阴性)患者的放射学监控可以降级,而对成果没有影响或影响极小。预计这将降低监控成本,因为这一亚组占患者的绝大部分。对于高风险(ctDNA阳性)患者,有机会在ctDNA检测后立即进行强化成像。基于研究结果,这暗指在丹麦和西班牙,比标准护理监控更早开始成像。因此,当肿瘤负荷较低时,这可以实现更早的复发检测,从而可能使复发治疗更加有效。
以下结果强调了早期复发检测和干预的重要性:结果示出47%的复发患者具有快速ctDNA生长模式,即每月增长中值为126%。据推测,这种ctDNA的增长反映了肿瘤负荷的增加。因此,即使是几个月的长期监控也可能产生难以克服的后果,例如,肿瘤负荷在短短3个月内增加了11.4倍,指示转移病变的尺寸和/或数目可能很快达到一定水平,在这种情况下,治疗性干预已不再是一种选择,并且姑息治疗的效果很差。与这些假设一致,发现具有快速生长的患者的OS比具有慢速生长的患者显著更差。
能够尽快(即在首次ctDNA检测后不久)确定生长模式,可以具有许多临床意义,并且有数据支持。在这项研究中,利用前两个连续的血液样品对肿瘤生长模式进行了有力的评定。尽管样品之间有3个月的间隔,但有可能在几周内确定模式,这可以告知临床医生采取早期干预。预计具有快速生长的患者的残留疾病将比具有慢速生长的患者更早通过成像检测到。在这些情况下,尽快评定ctDNA生长模式将有助于告知决定,是开始全身性疗法还是继续监控。
****

Claims (20)

1.一种用于确定循环肿瘤DNA的生长速率的方法,所述方法包括:
(a)对从癌症患者的生物学样品中分离的核酸进行测序以鉴别多种患者特异性癌症突变;
(b)对在手术、一线化学疗法、辅助疗法和/或新辅助疗法之后从所述癌症患者采集的第一液体活检样品中的循环肿瘤DNA的量进行定量,其中所述第一液体活检样品是血液、血清、血浆或尿液样品,其中所述定量包括:进行多重扩增反应以扩增来自从所述第一液体活检样品中分离的细胞游离DNA的多个靶基因座,其中所述靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别所述患者特异性癌症突变并对所述第一液体活检样品中的循环肿瘤DNA的量进行定量;
(c)对在所述第一液体活检样品之后从所述癌症患者采集的第二液体活检样品中的循环肿瘤DNA的量进行定量,其中所述第一液体活检样品是血液、血清、血浆或尿液样品,其中所述定量包括:进行多重扩增反应以扩增来自从所述第二液体活检样品中分离的细胞游离DNA的多个靶基因座,其中所述靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别所述患者特异性癌症突变并对所述第二液体活检样品中的循环肿瘤DNA的量进行定量;以及
(d)确定所述第一与第二液体活检样品之间所述循环肿瘤DNA的生长速率。
2.根据权利要求1所述的方法,其中癌症是实体瘤,并且所述生物学样品是肿瘤组织活检样品。
3.根据权利要求1所述的方法,其中癌症是实体瘤或血癌,并且所述生物学样品是骨髓、血液、血清、血浆或尿液样品。
4.根据权利要求1至3中任一项所述的方法,其中步骤(a)包括对所述核酸的全外显子组测序或全基因组测序。
5.根据权利要求1至3中任一项所述的方法,其中步骤(a)包括对已经在一组癌症相关的基因组基因座处富集的核酸的靶向测序,任选地其中所述富集包括杂交捕获或靶向扩增。
6.根据权利要求1至5中任一项所述的方法,其中所述第一液体活检样品是在手术、一线化学疗法、辅助疗法或新辅助疗法之后约2至12周从所述患者采集的。
7.根据权利要求1至6中任一项所述的方法,其中所述第一液体活检样品是在手术、一线化学疗法、辅助疗法或新辅助疗法之后约4至8周从所述患者采集的。
8.根据权利要求1至7中任一项所述的方法,其中所述第一液体活检样品是在辅助化学疗法(ACT)之后从所述患者采集的。
9.根据权利要求1至8中任一项所述的方法,其中所述第二液体活检样品是在所述第一液体活检样品之后约2至12周从所述患者采集的。
10.根据权利要求1至9中任一项所述的方法,其中所述第二液体活检样品是在所述第一液体活检样品之后约4至8周从所述患者采集的。
11.根据权利要求1至10中任一项所述的方法,其中所述患者特异性癌症突变包括至少一种体细胞突变。
12.根据权利要求1至11中任一项所述的方法,其中所述患者特异性癌症突变包括至少一种单核苷酸变体(SNV)。
13.根据权利要求1至12中任一项所述的方法,其中所述患者特异性癌症突变包括至少一种多核苷酸变体(MNV)、插入缺失、基因融合或结构变体。
14.根据权利要求1至13中任一项所述的方法,其中所述多个靶基因座包括至少8个或至少16个靶基因座,所述靶基因座各自跨越至少一种患者特异性癌症突变。
15.根据权利要求1至14中任一项所述的方法,其中癌症是乳腺癌、膀胱癌、结直肠癌或肺癌。
16.根据权利要求1至14中任一项的方法,其中癌症是腹部或腹壁、肾上腺、肛门、阑尾、膀胱、骨、脑、乳腺、子宫颈、胸壁、结肠、隔膜、十二指肠、耳、子宫内膜、食管、输卵管、胆囊、胃食管结合部、头和颈、肾、喉、肝、肺、淋巴结、恶性积液、纵隔、鼻腔、网膜、卵巢、胰腺、胰胆管、腮腺、骨盆、阴茎、心包、腹膜、胸膜、前列腺、直肠、唾液腺、皮肤、小肠、软组织、脾、胃、甲状腺、舌、气管、输尿管、子宫、阴道、外阴或惠普尔切除部的癌症或肿瘤。
17.根据权利要求1至16中任一项所述的方法,其进一步包括将所述患者鉴别为具有快肿瘤生长速率或慢肿瘤生长速率。
18.根据权利要求1至17中任一项所述的方法,其进一步包括:对在所述第二液体活检样品之后从所述癌症患者纵向采集的第三液体活检样品中的循环肿瘤DNA的量进行定量,其中所述定量包括:进行多重扩增反应以扩增来自从所述第三液体活检样品中分离的细胞游离DNA的多个靶基因座,其中所述靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别所述患者特异性癌症突变并对所述第三液体活检样品中的循环肿瘤DNA的量进行定量;以及确定所述第一、第二与第三液体活检样品之间所述循环肿瘤DNA的生长速率。
19.一种用于确定循环肿瘤DNA的生长速率的方法,所述方法包括:
(a)对从癌症患者的肿瘤组织活检样品中分离的核酸进行测序以鉴别多种患者特异性癌症突变,所述多种患者特异性癌症突变包括单核苷酸变体(SNV);
(b)对在辅助化学疗法之后从所述癌症患者采集的第一液体活检样品中的循环肿瘤DNA的量进行定量,其中所述第一液体活检样品是血液、血清、血浆或尿液样品,其中所述定量包括:进行多重扩增反应以扩增来自从所述第一液体活检样品中分离的细胞游离DNA的多个靶基因座,其中所述靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别所述患者特异性癌症突变并对所述第一液体活检样品中的循环肿瘤DNA的量进行定量;
(c)对在所述第一液体活检样品之后从所述癌症患者采集的第二液体活检样品中的循环肿瘤DNA的量进行定量,其中所述第一液体活检样品是血液、血清、血浆或尿液样品,其中所述定量包括:进行多重扩增反应以扩增来自从所述第二液体活检样品中分离的细胞游离DNA的多个靶基因座,其中所述靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别所述患者特异性癌症突变并对所述第二液体活检样品中的循环肿瘤DNA的量进行定量;以及
(d)确定所述第一与第二液体活检样品之间循环肿瘤DNA的生长速率。
20.一种用于确定循环肿瘤DNA的生长速率的方法,所述方法包括:
(a)对从癌症患者的肿瘤组织活检样品中分离的核酸进行测序以鉴别多种患者特异性癌症突变,所述多种患者特异性癌症突变包括单核苷酸变体(SNV),其中癌症是乳腺癌、膀胱癌、结直肠癌或肺癌;
(b)对在辅助化学疗法之后从所述癌症患者采集的第一液体活检样品中的循环肿瘤DNA的量进行定量,其中所述第一液体活检样品是血液、血清、血浆或尿液样品,其中所述定量包括:进行多重扩增反应以扩增来自从所述第一液体活检样品中分离的细胞游离DNA的至少16个靶基因座,其中所述靶基因座中的每一者跨越在步骤(a)
中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别所述患者特异性癌症突变并对所述第一液体活检样品中的循环肿瘤DNA的量进行定量;
(c)对在所述第一液体活检样品之后从所述癌症患者采集的第二液体活检样品中的循环肿瘤DNA的量进行定量,其中所述第一液体活检样品是血液、血清、血浆或尿液样品,其中所述定量包括:进行多重扩增反应以扩增来自从所述第二液体活检样品中分离的细胞游离DNA的至少16个靶基因座,其中所述靶基因座中的每一者跨越在步骤(a)中鉴别的至少一种患者特异性癌症突变,以及对经扩增的靶基因座进行测序,以鉴别所述患者特异性癌症突变并对所述第二液体活检样品中的循环肿瘤DNA的量进行定量;以及
(d)确定所述第一与第二液体活检样品之间所述循环肿瘤DNA的生长速率。
CN202280043641.8A 2021-04-22 2022-04-19 用于确定肿瘤生长的速度的方法 Pending CN117597456A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163178349P 2021-04-22 2021-04-22
US63/178,349 2021-04-22
PCT/US2022/025356 WO2022225933A1 (en) 2021-04-22 2022-04-19 Methods for determining velocity of tumor growth

Publications (1)

Publication Number Publication Date
CN117597456A true CN117597456A (zh) 2024-02-23

Family

ID=81585779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280043641.8A Pending CN117597456A (zh) 2021-04-22 2022-04-19 用于确定肿瘤生长的速度的方法

Country Status (8)

Country Link
US (1) US20220356530A1 (zh)
EP (1) EP4326905A1 (zh)
JP (1) JP2024516150A (zh)
CN (1) CN117597456A (zh)
AU (1) AU2022261868A1 (zh)
BR (1) BR112023021616A2 (zh)
CA (1) CA3226132A1 (zh)
WO (1) WO2022225933A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
EP3294906A1 (en) 2015-05-11 2018-03-21 Natera, Inc. Methods and compositions for determining ploidy
WO2024089314A1 (es) * 2022-10-28 2024-05-02 Servicio Andaluz De Salud Panel de secuenciación para biopsia líquida de pacientes con cáncer de mama

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8024128B2 (en) 2004-09-07 2011-09-20 Gene Security Network, Inc. System and method for improving clinical decisions by aggregating, validating and analysing genetic and phenotypic data
EP2623099A1 (en) 2004-11-24 2013-08-07 Neuromolecular Pharmaceuticals, Inc Composition and method for treating neurological disease
US20070178501A1 (en) 2005-12-06 2007-08-02 Matthew Rabinowitz System and method for integrating and validating genotypic, phenotypic and medical information into a database according to a standardized ontology
US8515679B2 (en) 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US8532930B2 (en) 2005-11-26 2013-09-10 Natera, Inc. Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals
US20070027636A1 (en) 2005-07-29 2007-02-01 Matthew Rabinowitz System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions
US7884119B2 (en) 2005-09-07 2011-02-08 Rigel Pharmaceuticals, Inc. Triazole derivatives useful as Axl inhibitors
EP2423334A3 (en) 2006-02-02 2012-04-18 The Board of Trustees of The Leland Stanford Junior University Non-invasive fetal genetic screening by digital analysis
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
WO2009105531A1 (en) 2008-02-19 2009-08-27 Gene Security Network, Inc. Methods for cell genotyping
US20100041048A1 (en) * 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
ES2620431T3 (es) 2008-08-04 2017-06-28 Natera, Inc. Métodos para la determinación de alelos y de ploidía
PT2562268T (pt) 2008-09-20 2017-03-29 Univ Leland Stanford Junior Diagnóstico não invasivo de aneuploidia fetal por sequenciação
US10017812B2 (en) 2010-05-18 2018-07-10 Natera, Inc. Methods for non-invasive prenatal ploidy calling
PT3241914T (pt) 2009-11-05 2019-04-30 Sequenom Inc Análise genómica fetal a partir de uma amostra biológica materna
US20130123120A1 (en) 2010-05-18 2013-05-16 Natera, Inc. Highly Multiplex PCR Methods and Compositions
US20120190557A1 (en) 2011-01-25 2012-07-26 Aria Diagnostics, Inc. Risk calculation for evaluation of fetal aneuploidy
US20120034603A1 (en) 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Ligation-based detection of genetic variants
US8700338B2 (en) 2011-01-25 2014-04-15 Ariosa Diagnosis, Inc. Risk calculation for evaluation of fetal aneuploidy
WO2012103031A2 (en) 2011-01-25 2012-08-02 Ariosa Diagnostics, Inc. Detection of genetic abnormalities
GB201819134D0 (en) * 2018-11-23 2019-01-09 Cancer Research Tech Ltd Improvements in variant detection
US20190316184A1 (en) * 2018-04-14 2019-10-17 Natera, Inc. Methods for cancer detection and monitoring

Also Published As

Publication number Publication date
CA3226132A1 (en) 2022-10-27
US20220356530A1 (en) 2022-11-10
BR112023021616A2 (pt) 2024-01-16
AU2022261868A1 (en) 2023-10-26
EP4326905A1 (en) 2024-02-28
WO2022225933A1 (en) 2022-10-27
JP2024516150A (ja) 2024-04-12

Similar Documents

Publication Publication Date Title
US11530454B2 (en) Detecting mutations and ploidy in chromosomal segments
US20220056534A1 (en) Methods for analysis of circulating cells
US10262755B2 (en) Detecting cancer mutations and aneuploidy in chromosomal segments
WO2019200228A1 (en) Methods for cancer detection and monitoring by means of personalized detection of circulating tumor dna
US20220356530A1 (en) Methods for determining velocity of tumor growth
WO2023133131A1 (en) Methods for cancer detection and monitoring
CA3225014A1 (en) Methods for detecting neoplasm in pregnant women
RU2811503C2 (ru) Способы выявления и мониторинга рака путем персонализированного выявления циркулирующей опухолевой днк

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination