CN111587302B - 用于检测体细胞结构变体的方法和系统 - Google Patents

用于检测体细胞结构变体的方法和系统 Download PDF

Info

Publication number
CN111587302B
CN111587302B CN201880074652.6A CN201880074652A CN111587302B CN 111587302 B CN111587302 B CN 111587302B CN 201880074652 A CN201880074652 A CN 201880074652A CN 111587302 B CN111587302 B CN 111587302B
Authority
CN
China
Prior art keywords
events
mosaic
hmm
computer
somatic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880074652.6A
Other languages
English (en)
Other versions
CN111587302A (zh
Inventor
G·吉诺维斯
P-R·洛
S·麦卡罗尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harvard College
Broad Institute Inc
Original Assignee
Harvard College
Broad Institute Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harvard College, Broad Institute Inc filed Critical Harvard College
Publication of CN111587302A publication Critical patent/CN111587302A/zh
Application granted granted Critical
Publication of CN111587302B publication Critical patent/CN111587302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本文公开的实施方案提供了利用长程相位信息来检测基因型数据中细微染色体不平衡的方法、系统和计算机程序产品。克隆扩增源于突变后的选择性增殖,本文公开的实施方案可用于预测或诊断癌症和其它疾病的体细胞结构变体事件(SV)。

Description

用于检测体细胞结构变体的方法和系统
相关申请的交叉引用
本申请要求2017年10月17日提交的美国临时申请号62/573,642的权益。上述申请的完整内容特此通过引用完全并入本文。
关于联邦资助研究的声明
本发明是在政府支持下完成的,美国国家卫生研究院(National Institutes ofHealth)对其授予的授权号为HG007805,美国国家人类基因组研究院(National HumanGenome Research Institute)对其授予的授权号为HG006855,并且美国国防部(Department of Defense)对其授予的授权号为W81XWH-16-1-0315和W81XWH-16-1-0316。政府享有本发明的一些权利。
技术领域
本文公开的主题总体上涉及用于从长程定相数据检测体细胞结构变体的基于计算机的方法、产品和系统。
背景
经常在不知道患有癌症的个体中观察到携带体细胞突变的血细胞克隆扩增。克隆扩增中观察到的体细胞突变跨基因组非随机地成簇,并且在癌症中通常突变的基因处富集;与可检测的克隆镶嵌现象经常是癌前状态的想法一致,这种镶嵌现象使得具有未来血液系统恶性肿瘤的风险增加>10x。几项结果表明遗传变异对克隆镶嵌现象似然的潜在贡献。尽管先前的研究已经探索了跨基因组的整体镶嵌的健康后果,但是特定的体细胞突变对偶发癌症的影响已经很难量化,超出了常见Y染色体丢失(mLOY)事件。
几乎所有克隆镶嵌现象研究的限制因素都是样本大小,且较早的洞察来自于最多~1,000次全基因组可检测的镶嵌事件。两个关键因素决定可检测的镶嵌突变的数量:(i)分析的个体数;和(ii)检测以低至中等细胞比例存在的克隆扩增的能力。
概述
在某些示例性实施方案中,鉴定体细胞结构变体的方法包括:确定一个或多个样本的总等位基因强度和相对等位基因强度,掩蔽每个样本中的组成性区段重复,鉴定每个样本的体细胞SV事件的假定集,和至少部分基于对体细胞SV事件的所述假定集应用似然比检验,对每个样本定义体细胞SV事件的最终集。确定总等位基因频率和相对等位基因频率可包括将基因型强度数据转换为logR2比(LRR)和B等位基因频率(BAF)值。区段重复可至少部分基于对观察的定相BAF偏差的建模而被掩蔽。在某些示例性实施方案中,对观察的BAF偏差进行建模包括使用25-状态隐Markov模型(HMM)以对应于pBAF值的状态跨个体染色体进行建模。在某些示例性实施方案中,选择掩蔽区域包括计算通过HMM的Viterbi路径和检查非零态的毗连区。
在某些示例性实施方案中,鉴定SV事件的假定集可包括使用3-状态HMM。3-状态HMM可通过代表给定体细胞SV事件内平均|ΔBAF|的单一参数进行参数化。
在某些示例性实施方案中,所述方法还可包括鉴定每个鉴定的SV事件的染色体位置。在某些其它示例性实施方案中,所述方法还可包括鉴定每个鉴定的体细胞SV事件的拷贝数。在某些示例性实施方案中,所述方法还可包括检测每个鉴定的体细胞SV事件的多个亚克隆事件。在某些示例性实施方案中,鉴定每个鉴定的体细胞SV事件的染色体位置包括从3-状态HMM的后部采集5个样本并基于所述5个样本的一致性确定每个SV事件的边界。在某些示例性实施方案中,确定每个鉴定的体细胞SV事件的拷贝数包括至少部分基于LRR和|ΔBAF|偏差确定所述事件为丢失、CNN-LOH、或获得的相对概率。在某些示例性实施方案中,检测多个亚克隆事件包括使用Viterbi解码在51-状态HMM上用范围从0.01至0.25的|ΔBAF|水平以乘性增量对每个鉴定的体细胞SV进行重新分析。
在一些实施方案中,还包括基于检测一个或多个体细胞SV事件检测疾病或对疾病的易感性。在一些实施方案中,所述疾病是癌症。在一些实施方案中,所述癌症包括血液系统癌症。在一些实施方案中,所述血液系统癌症是白血病。在一些实施方案中,所述白血病是慢性淋巴细胞白血病(CLL)。在一些实施方案中,所检测的一个或多个SV事件包含选自表13的一个或多个SV事件。
在另一方面,本公开内容包括计算机程序产品,所述计算机程序产品包括:非暂时性计算机可执行存储设备,其具有在其上实施的计算机可读程序指令,所述计算机可读程序指令当被计算机执行时使得所述计算机可根据基因分型数据检测体细胞结构变体(SV),所述计算机可执行程序指令包括:确定一个或多个样本的总等位基因强度和相对等位基因强度的计算机可执行程序指令;掩蔽组成性区段重复的计算机可执行程序指令;鉴定所述一个或多个样本中每个样本的体细胞SV事件的假定集的计算机可执行程序指令;以及定义所述一个或多个样本的每个样本的一个或多个体细胞SV事件的计算机可执行程序指令。
在一些实施方案中,所述产品还包括对所述一个或多个样本中每个样本的每个鉴定的体细胞SV事件的染色体位置进行定位的计算机可执行程序指令。在一些实施方案中,所述产品还包括确定每个鉴定的体细胞SV事件的拷贝数的计算机可执行程序指令。在一些实施方案中,所述产品还包括检测每个鉴定的体细胞SV的多个亚克隆事件的计算机可执行程序指令。在一些实施方案中,确定总等位基因频率和相对等位基因频率包括将基因型强度数据转换为logR2比(LRR)和B等位基因频率(BAF)值。在一些实施方案中,鉴定体细胞SV事件的所述假定集包括使用3-状态HMM。在一些实施方案中,3-状态HMM通过代表给定体细胞SV事件内的平均|ΔBAF|的单一参数进行参数化。
在一些实施方案中,所述产品还包括基于检测一个或多个体细胞SV事件检测疾病或对疾病的易感性。在一些实施方案中,所述疾病是癌症。在一些实施方案中,所述癌症是血液系统癌症。在一些实施方案中,所述血液系统癌症是白血病。在一些实施方案中,所述白血病是慢性淋巴细胞白血病。
在另一方面,本公开内容包括检测一个或体细胞SV事件的系统,所述系统包括:存储设备;以及与所述存储设备通信地耦合的处理器,其中所述处理器执行应用代码指令,所述应用代码指令存储在所述存储设备中并使得所述系统:确定一个或多个样本的总等位基因强度和相对等位基因强度;掩蔽组成性区段重复;鉴定所述一个或多个样本中每个样本的体细胞SV事件的假定集;以及定义所述一个或多个样本的每个样本的一个或多个体细胞SV事件。
在另一方面,本公开内容包括套组,所述套组包括确定等位基因频率的试剂和本文描述的计算机程序产品或系统。
在另一方面,本公开内容包括检测受试者中疾患的存在或易感性的方法,所述方法包括使用本文描述的方法在来自所述受试者的样本的核酸中检测一种或多种体细胞结构变体,其中所述一种或多种体细胞结构变体的存在或不存在指示所述疾患的存在或易感性。
在一些实施方案中,所述核酸是无细胞核酸。在一些实施方案中,所述样本是母体血液且所述无细胞核酸是胎儿无细胞核酸。在一些实施方案中,所述无细胞核酸是循环肿瘤DNA。在一些实施方案中,所述疾患是胎儿非整倍性。在一些实施方案中,所述疾患是癌症。在一些实施方案中,所述方法还包括基于所检测的所述疾患的存在或易感性执行医学程序。
考虑到以下对所示示例性实施方案的详细描述,示例性实施方案的这些和其它方面、目的、特征和优点对于本领域普通技术人员来说将变得明显。
附图简述
对本发明的特征和优点的理解将通过参考后面的详述以及附图获得,详述中阐明了可利用本发明的原理的示例性实施方案,在附图中:
图1–是描绘根据某些示例性实施方案用于检测体细胞结构变体的系统的方框图。
图2–是描绘根据某些示例性实施方案用于检测基因分型数据中的体细胞结构变体的方法的方框流程图。
图3–是描绘根据某些示例性实施方案的计算机器和模块的方框图。
图4–每个水平线对应于单个体细胞SV;展示了4,889个独特个体中的总计5,562个常染色体事件。申请人另外检测了女性中的2,780个X染色体事件(大多数为全染色体丢失)。检测的事件按拷贝数进行颜色编码(丢失=红色,CNN-LOH=绿色,获得=蓝色,未知=灰色)。局部缺失用红色标记,并在可能时标记推定靶基因的名称。影响附近体细胞SV的基因座以SV的颜色标记。放大的每染色体图在图12-34中提供。
图5A-5F–检测的体细胞SV的分布特性。(图5A)在具有各拷贝数的事件中,总等位基因强度的量度Log2R比(LRR)与相对等位基因强度的量度B-等位基因频率(BAF)偏差大致成线性比例[1、2、8]。(图5B)具有更多获得事件的常染色体倾向于具有更少的丢失事件(涉及染色体14和22上V(D)J重组的缺失除外)。(图5C)大多数具有检测的常染色体体细胞SV的个体仅具有一个事件,不过比预期更多数量的个体(441对100)具有多个事件。几对SV类型共发生的可能性比所预期的频繁得多;共发生图中的边缘权重与富集程度成比例。(图5D)可检测的镶嵌现象的比率随年龄而增加,特别是对于女性X染色体丢失而言。误差棒,95%CI。(图5E)不同SV型携带者具有不同年龄和性别分布。误差棒,平均值标准误差(s.e.m)。(图5F)不同SV在具有不同血液谱系的异常血液计数的个体中显著富集(FDR 0.05)。数值数据提供于表1–6。
图6A-6E–脆性位点FRA10B处的重复扩增驱动10q25.2处的断裂。上图(a–c)展示UKBiobank分析,并且下图(d,e)展示SFARI分析。(图6A)在UK Biobank中,10q25.2处的种系变体与末端10q镶嵌缺失强烈相关。注意到缺失的左边界被错误调用;真正的断点可能几乎完全相同。(图6B)末端10q缺失的UK Biobank携带者主要是女性并且具有与总体研究群体的年龄分布相似的年龄分布。(图6C)缺失的所有UK Biobank携带者携带rs118137427:G次要等位基因。(图6D)具有末端10q缺失(两个亲子双人对(parent-child duo))的SFARI样本携带在FRA10B处的遗传的扩增重复。(图6E)FRA10B处的扩增重复的所有SFARI携带者携带rs118137427:G次要等位基因。
图7A-7C–克隆选择导致的与顺式体细胞SV相关的新基因座。在每个基因座中,分别如图7A、图7B、和图7C所示,一个或多个遗传的基因变体导致染色体突变以产生增殖优势。基因组修饰在每个图的顶部说明,并且相关信号在底部绘出。独立的先导相关的变体被标记,并且变体根据与先导变体的连锁不平衡着色(为了可读性而进行了缩放)。在图7C中,指向CNN-LOH和丢失事件的不同箭头权重表明CNN-LOH是更常见的场景(在群体中以及在风险变体携带者之间均如此;图18和图38)。
图8A-8E–体细胞SV与偶发性癌症和死亡率之间的关联。(图8A)多个SV类型导致DNA采集后>1年诊断的偶发性癌症的增加风险。(图8B、图8C)包括镶嵌状态(特别是对于13q缺失和12三体)以及其它风险因素的逻辑模型实现了偶发性CLL的高样本外预测准确性。(图8D)在具有可检测的克隆性(任何SV)和偶发性CLL的个体中,到恶性肿瘤的时间与克隆细胞分数成反比。(图8E)丢失、获得、和CNN-LOH事件(在任何常染色体上)全部导致增加的死亡率风险。数值数据提供于表12和13。
图9A-9C–该UK Biobank样本(1282743)具有大约31–53Mb的chr13镶嵌缺失,该镶嵌缺失无法单独从非定相B等位基因频率(BAF)和log2R比(LRR)数据可靠地调用(图9A、图9C)。然而,事件的存在在定相BAF数据中是明显的(图9B),并且LRR的区域减少指示该事件是缺失。
图10A-10C–该UK Biobank样本(2480737)在chr9p上具有从9p端粒至大约27Mb的镶嵌CNN-LOH,该镶嵌CNN-LOH无法从非定相B等位基因频率(BAF)数据可靠地调用(图10A),但在定相BAF数据中是明显的(图10B)。相位切换误差导致定相BAF中20Mb的符号翻转。区域中缺乏log2R比(LRR)位移(图10C)指示该事件是CNN-LOH。
图11A-11C–该UK Biobank样本(2961290)具有chr12上的全染色体镶嵌事件,该镶嵌事件无法单独从非定相B等位基因频率(BAF)和log2R比(LRR)数据可靠地调用(图11A、图11C),但在定相BAF数据中是明显的(图11B)。几个相位切换误差导致定相BAF跨chr12的符号翻转。平均LRR的轻微正位移(图11C)指示该事件最有可能是chr12的镶嵌获得。
图12–图34–每个图提供示例样本集中每个染色体上检测的镶嵌SV事件。分析的具体染色体在每个图的顶部示出。事件按拷贝数进行颜色编码:丢失(红色)、CNN-LOH(绿色)、获得(蓝色)、未知(灰色)。较深的着色指示较高的等位基因分数。用同一y-坐标对单个个体内的多个事件进行作图(在图的顶部)。注意到具有未知拷贝数的事件也通常由于低等位基因分数而在其边界具有更大的不确定性。
图35–在每个染色体上检测的体细胞SV的总等位基因强度对相对等位基因强度。将每个检测的SV的平均log2R比(LRR)针对杂合子位点处B等位基因频率的估计变化(|ΔBAF|)作图。
图36–检测体细胞SV的基于相位一致性的统计检验的灵敏度。对于被我们的算法调用的每个体细胞SV(红色=丢失、绿色=CNN-LOH、蓝色=获得、灰色=未知拷贝数),我们使用参考文献[54]的相位一致性检验计算了二项式P-值。该检验利用连续杂合子SNP之间的相对单体型相位而不利用长程相位信息。我们将每个SV的推断细胞分数针对其相位一致性P-值作图。(对于具有未确定的拷贝数的事件,我们没有推断细胞分数,所以这些事件在x-轴上作图。)申请人观察到,通过我们的分析可检测的大多数事件没有达到使用相位一致性检验的名义显著性,如对于细微等位基因不平衡所预期的,为了被检测到,这些等位基因不平衡必须在几十兆碱基上相位内聚集。
图37–每个染色体上检测的体细胞SV的克隆增殖程度。对于被调用为丢失、CNN-LOH、或获得的每个体细胞SV,我们从LRR和|ΔBAF|估计了其等位基因分数(即,具有SV的血细胞的分数)。小提琴图显示了按染色体和拷贝数分层的等位基因分数分布(无论何时调用至少10个事件)。
图38–体细胞丢失和CNN-LOH事件的基因组覆盖。红色和绿色曲线指示覆盖基因组中每个位置的检测的体细胞丢失(红色)和CNN-LOH(绿色)的总数目。
图39A-39B–没有SFARI样本中镶嵌16p11.2缺失的证据。chr6:25-35Mb中的读段深度谱图(每个SFARI个体一条线)显示没有携带我们在UK Biobank中观察到的16p11.2缺失的个体的证据(图27)。(图39A)大约30个样本(红色)展示遍及该区域的读段脱落,可能是由于技术影响所致。(图39B)一个样本具有~26.8–31.9Mb的候选镶嵌重复。
图40–具有高置信度和较低置度信体细胞SV调用的个体的年龄分布。对以下产生年龄分布:(i)通过0.01的严格FDR阈值的“高质量”检测事件(绿色)和(ii)低于0.01的FDR阈值但通过0.05的FDR阈值的“低质量”检测事件(红色)。将这些分布与UK Biobank参与者(蓝色)的整体年龄分布进行比较,排除年龄在40–70范围外的少数个体。基于每个类别中的事件数,预计≈20%的低质量检测事件为假阳性。为了检查FDR估计程序的合理性,将低质量年龄分布回归到高质量和总体年龄分布上,推断出低质量年龄分布应该是以下的混合:(a)正确调用事件,其年龄分布与高质量事件的年龄分布相似,和(b)虚假调用,其年龄分布与总体样本的年龄分布相似。对于与虚假调用对应的成分,观察到回归权重为0.30,与估计的假阳性率充分一致
图41–JAK2 46/1单体型和9p CNN-LOH之间的先前顺式关联由于克隆选择引起的复制。先前已显示,常见的JAK2 46/1单体型赋予体细胞JAK2V617F突变风险,使得随后的9pCNN-LOH产生强增殖优势[13–16、18]。在分析中,9p上的CNN-LOH与JAK2 46/1强烈相关(P=1.6×10–13;OR=2.7(2.1–3.5)),其中在杂合子中,风险单体型主要通过CNN-LOH复制(52/61杂合子案例;P=1.8×10–8)。在该图中,基因组修饰在上图中说明,且相关信号在底部作图绘出。先导相关的变体被标记,并且将变体根据与先导变体的连锁不平衡着色(为了可读性而缩放)。
图42A-42B–FRA10B处的多个扩增的重复驱动10q25.2处的断裂。(图42A)SFARI中具有扩增重复的30名个体携带四种不同的具有不同扩增程度的重复基序。重复基序富含AT,并且与先前报道的FRA10B重复相似[35]。(图42B)UK Biobank中的10q末端缺失携带者在10q25.2处共有血统一致的长单体型。IBD图中的方形节点对应于男性并且圆圈对应于女性。节点大小与克隆细胞分数成比例,并且边缘权重随IBD长度而增加。着色的节点指示在FRA10B具有可变数目串联重复(VNTR)的归入的携带者;颜色强度与归入的剂量成比例。
图43–在FRA10B含有可变数目串联重复的SFARI家系。报告了每个个体的读段计数(非参考/总体),自闭症先证者用橙色表示。
图44–在具有延伸至p-端粒的chr1上体细胞SV的个体上,MPL基因座(chr1:43.8Mb)处的血统一致性图。IBD图中的方形节点对应于男性并且圆圈对应于女性。节点大小与克隆细胞分数成比例,并且边缘权重随IBD长度而增加。着色的节点指示具有与体细胞chr1p CNN-LOH相关的SNP的归入的携带者(图4);颜色强度与归入的剂量成比例。
图45A-45B–15q26.3处的种系CNV。(图45A)SFARI样本在chr15q末端700kb中的读段深度谱图。一个家族中的三名个体携带15q26.3处的~70kb缺失,并且第四名携带相同缺失以及~290kb重复(基于这些事件的群体频率,很可能在同一单体型上;参见图38)。在SFARI中这四名个体(以蓝色突出显示)利用rs182643535T等位基因分离。没有人展示15q镶嵌现象的证据。(图45B)放大的读段深度谱图,其中仅缺失的个体以蓝色突出显示且缺失+复制个体以绿色突出显示。断点分析指示~70kb缺失跨越chr15:102151467–102222161并含有反向保留的1139bp中等区段(chr15:102164897–102166035)。~290kb重复跨越chr15:102026997–102314016。
图46–15q26.3处的体细胞SV和种系CNV。使用种系~70kb缺失和~290kb重复的鉴定的断点(图37),我们计算了UK Biobank样本中~70kb缺失区域内(24探针)和侧翼~220kb区域内(97探针)的平均基因分型强度(LRR)。个体按侧翼220kb平均LRR对70kb平均LRR作图,并且按体细胞15q SV的镶嵌状态着色。携带70kb缺失、290kb重复、和缺失+复制的UK Biobank样本在不同簇中全部是容易鉴定的。该图还显示含有具有更高拷贝数的簇。简单的70kb缺失是唯一使人易发生体细胞SV的组成型CNV。大多数体细胞SV是使得细胞为70kb缺失纯合的CNN-LOH事件;两名个体具有同源(普通)染色体的体细胞丢失,使得细胞为70kb缺失半合子的。
图47–具有多个CNN-LOH亚克隆的染色体的定相BAF图。以上所有的图都展示了朝向端粒增加|ΔBAF|的阶跃函数,这是含有影响染色体臂的不同跨度的不同CNN-LOH事件(全部延伸至端粒)的多个克隆细胞群体的标志。不同|ΔBAF|值(使用HMM调用)以不同颜色指示。定相BAF符号的翻转对应于相位切换误差,这在具有非常高|ΔBAF|的区域中更为频繁(例如,具有chr14q CNN-LOH事件的个体5466353),原因是基因分型强度的极端位移导致差的基因分型质量。
图48–与偏倚的女性chrX丢失的顺式关联的Manhattan图。图中的缺口对应于chrX着丝粒和X-转座区域(XTR);我们从我们的分析掩蔽了后者,根据Laurie等人[2]。
图49–CLL预测准确度:精确度-重新调用曲线。精确度-重新调用曲线是针对相同交叉验证基准,其ROC曲线在图5b,c中报告。右侧基准仅包括淋巴细胞计数在正常范围(1×109/L至3.5×109/L)的个体,而左侧的基准放宽了这一限制(并且还使用另外的镶嵌事件变量进行预测(11q–、14q–、22q–、和常染色体事件的总数)。在这两个基准中,排除了在评估1年内有先前癌症诊断或CLL诊断的个体;然而,一些淋巴细胞计数非常高的个体通过了这一过滤(尽管超过1年未被诊断,但可能在评估时已经患有CLL),因此这两个基准之间的表观预测存在差异。
图50.–通过淋巴细胞计数分选的CLL病例中检测的体细胞SV。个体按DNA采集时的癌症状态分层(没有/任何先前诊断),并且使用彩色矩形(其高度随BAF偏差增加)对每条染色体的SV(丢失=红色、CNN-LOH=绿色、获得=蓝色、未知=灰色)进行作图。
图51–检测体细胞SV的隐Markov模型。体细胞SV改变细胞群体中母亲染色体与父亲染色体含量的平衡,导致杂合子位点处等位基因平衡的偏差(|ΔBAF|)。在计算定相基因分型强度数据中,这些偏差表现为具有相同绝对值(θ)的带符号偏差延伸,但在相位切换误差时具有符号翻转。具有单一参数θ的3-状态隐Markov模型捕捉到这一行为,并能够计算似然比检验统计量。
图52A-52D–可能的组成型重复的排除。过滤长度>10Mb且LRR>0.35或LRR>0.2和|ΔBAF|>0.16的事件,然后进一步过滤长度<10Mb且LRR>0.2或LRR>0.1和|ΔBAF|>0.1的事件。对较短的事件应用更严格的过滤,原因是(i)大多数组成型重复是短的,和(ii)较短的事件具有更嘈杂的LRR和|ΔBAF|估计值。
本文的附图仅用于说明目的,不一定按比例绘制。
示例性实施方案的详述
一般定义
除非另有定义,否则本文使用的技术和科学术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。分子生物学中常见术语和技术的定义可见于:Molecular Cloning:A Laboratory Manual,第2版(1989)(Sambrook、Fritsch和Maniatis);Molecular Cloning:A Laboratory Manual,第4版(2012)(Green和Sambrook);Current Protocols in Molecular Biology(1987)(F.M.Ausubel等人编辑);Methods inEnzymology(Academic Press,Inc.)系列:PCR 2:A Practical Approach(1995)(M.J.MacPherson、B.D.Hames和G.R.Taylor编辑):Antibodies,A Laboraotry Manual(1988)(Harlow和Lane编辑):Antibodies A Laboraotry Manual,第2版2013(E.A.Greenfield编辑);Animal Cell Culture(1987)(R.I.Freshney编辑);BenjaminLewin,Genes IX,由Jones and Bartlet出版,2008(ISBN 0763752223);Kendrew等人(编辑),The Encyclopedia of Molecular Biology,由Blackwell Science Ltd.出版,1994(ISBN0632021829);Robert A.Meyers(编辑),Molecular Biology and Biotechnology:aComprehensive Desk Reference,由VCH Publishers,Inc.出版,1995(ISBN9780471185710);Singleton等人,Dictionary of Microbiology and MolecularBiology第2版,J.Wiley&Sons(New York,N.Y.1994),March,Advanced Organic ChemistryReactions,Mechanisms and Structure第4版,John Wiley&Sons(New York,N.Y.1992);和Marten H.Hofker和Jan van Deursen,Transgenic Mouse Methods and Protocols,第2版(2011)。
如本文所用,单数形式“一(a、an)”、和“该/所述”包括单数和复数指代物,除非上下文另有明确规定。
术语“任选的”或“任选地”是指随后描述的事件、情况或替代物可能发生或可能不发生,并且该描述包括事件或情况发生的情况和不发生的情况。
通过端点列举的数值范围包括包含在相应范围内的所有数值和分数,以及列举的端点。
当指可测量的值,例如参数、量、持续时间等时,本文使用的术语“约”或“大约”意在包含指定值的和自指定值的变化,例如指定值的和自指定值的+/-10%或更小、+/-5%或更小、+/-1%或更小和+/-0.1%或更小的变化,只要这些变化适合在公开的发明中执行。应当理解,修饰语“约”或“大约”所指的值本身也是具体公开的,并且是优选公开的。
在整个说明书中,对“一个实施方案”、“实施方案”、“示例实施方案”的引用意指结合该实施方案描述的特定特征、结构或特性包括在本发明的至少一个实施方案中。因此,在本说明书中各处出现的短语“在一个实施方案中”、“在实施方案中”或“示例实施方案”不一定都指同一实施方案,但可能指同一实施方案。此外,在一个或多个实施方案中,特定特征、结构或特性可以以任何合适的方式组合,这对于本领域技术人员来说从本公开中将是明显的。此外,虽然这里描述的一些实施方案包括其它实施方案中的一些特征但不包括其它特征,但是不同实施方案的特征的组合意图在本发明的范围内。例如,在所附权利要求中,任何要求保护的实施方案可以以任何组合使用。
本文引用的所有出版物、公开的专利文件和专利申请均特此通过引用并入,其并入程度如同每个单独的出版物、公开的专利文件或专利申请特定且单独地指示通过引用并入一样。本文公开的方法的增强的灵敏度
概览
本文公开的实施方案提供利用长程相位信息来检测基因型数据中的细微染色体不平衡的方法、系统、和计算机程序产品。克隆扩增源自突变后的选择性增殖,并且本文公开的实施方案可用于预测或诊断癌症和其它疾病的体细胞结构变体事件(SV)。本文公开的方法的增强的灵敏度可用于检测疾病的存在或疾病易感性。同样地,本文公开的实施方案可用于跟踪疾病进展和或治疗性治疗以验证疾病清除,例如消除包含特定疾病状态诸如癌症的驱动突变的克隆。
本文公开的计算机实现方法还可被组合在套组和系统中,以提供有用的诊断。例如,软件组件可以与用于样本基因分型的试剂一起包装,或者并入到基因分型系统中,该系统处理样本以确定等位基因频率,包括各种测序和基于探针的方法。
在一些实施方案中,本文公开的方法可用于分析含有少量核酸的样本,例如无细胞核酸或来自单个或少量细胞的核酸。例如,所述方法可用于分析孕妇血液中的胎儿核酸、循环肿瘤DNA或来自从胚胎获得的单细胞或多细胞的核酸。
示例性系统架构
图1是描绘根据某些示例性实施方案用于根据基因分型数据检测体细胞结构变体的系统的方框图。如图1所示,系统100包括网络设备110和120,它们被配置成经由一个或多个网络105彼此通信。在一些实施方案中,与设备120相关联的用户必须安装用户界面应用程序111和/或进行特征选择,以获得本文描述的技术的益处。
每个网络105包括有线或无线电信构件,通过该电信构件,网络设备(包括设备110和120)可以交换数据。例如,每个网络105可以包括局域网(“LAN”)、广域网(“WAN”)、内联网和互联网、移动电话网络或其任意组合。在示例性实施方案的整个讨论中,应当理解,术语“数据”和“信息”在这里可互换使用,以指代文本、图像、音频、视频或可存在于基于计算机的环境中的任何其它形式的信息。
每个网络设备110和120包括具有能够通过网络105发送和接收数据的通信模块的设备。例如,每个网络设备110和120可以包括服务器、台式计算机、膝上型计算机、平板计算机、智能电话、手持计算机、个人数字助理(“PDA”)或任何其它有线或无线的处理器驱动设备。在图1所示的示例性实施方案中,网络设备110和120由终端用户和后端服务器操作员/管理员(未示出)操作。用户可以使用应用程序121,例如网络浏览器应用程序或独立应用程序,来经由分布式网络105查看、上传、下载或以其它方式访问文件或网页。
应当理解,所示的网络连接是示例性的,并且可以使用在计算机和设备之间建立通信链路的其它手段。此外,受益于本公开内容的本领域普通技术人员将理解,图1所示的设备110和120可以具有若干其它合适的计算机系统配置中的任何一种。例如,体现为移动电话或手持计算机的用户设备120可能不包括上述所有组件。
在某些示例性实施方案中,网络计算设备和与这里呈现的实施方案相关联的任何其它计算机器可以是任何类型的计算机器,诸如但不限于参照图1更详细讨论的那些计算机器。此外,与这些计算机器中的任何一个相关联的任何组件,诸如本文描述的组件或者与本文呈现的技术相关联的任何其它组件(脚本、网络内容、软件、固件或硬件),可以是关于图1更详细讨论的任何组件。本文讨论的计算机器可以通过一个或多个网络诸如网络105彼此通信以及与其它计算机机器或通信系统通信。网络105可以包括任何类型的数据或通信网络,包括关于图2讨论的任何网络技术。
示例性工艺
图2所示的示例性方法在下文中关于示例性操作环境100的组件进行描述。图2的示例性方法也可以用其它系统和在其它环境中执行。
图2是描绘根据某些示例性实施方案的检测体细胞结构变体(SV)的方法200的方框流程图。
方法200开始于方框205,其中数据输入模块111从一个或多个样本接收基因分型数据用于分析。在某些示例性实施方案中,数据输入模块111将从输入的基因型数据中确定总等位基因强度和相对等位基因强度的量度。基因分型数据可以使用本领域的标准技术获得,其中UK Biobank[23]中包含的基因分型数据代表了可用于本文公开的实施方案的一种类型的基因分型数据。在某些示例性实施方案中,根据基因分型数据确定总等位基因强度和相对等位基因强度将包括转换基因型强度数据(例如,A和B等位基因探针集强度,Aint和Bint)。在某些示例性实施方案中,这可以包括将基因型强度数据转换成log2R比率(LRR)和B等位基因频率(BAF)值。
对于某些示例性实施方案,数据输入模块111被配置为将基因型强度数据转换成LRR和BAF值,包括,对于每个基因分型批次,对于每个被调用的基因型簇(AA,AB,BB),计算(X,Y)中的簇中值=(对比,大小)-空间[67]:
X=log2Aint-log2Bint
Y=(log2Aint+log2Bint)/2。
计算批水平的簇中心以考虑可能的批效应。如果簇包含少于10个调用,则中值强度被设置为缺失。接下来,对每个个体,进行仿射归一化和GC-校正(X,Y)变换的强度。该程序校正了特定个体的SNP之间探针强度的系统差异(例如,强度水平的大幅提高或降低),以及“GC-波”假像[52)。在某些示例性实施方案中,一对多变量线性回归
其中m为SNP编索引,(Xm、Ym)是SNP m处当前个体/样本的(对比,大小)空间中的强度值,(Xm,exp、Ym,exp)是对应于SNP m处个体的被调用的基因型的簇中心(以上计算的),并且是以SNP m为中心的50、100、500、1k、10k、50k、100k和250k以及1M bp的9个窗口中的GC和CpG含量的比例。GC含量可以使用bedtool[68]在人类参考(hg19)上确定,且CpG含量可使用EpiGRAPH CpG注释[69]确定。不含GC和CpG项的等式(3)和(4)相当于对每个个体的观察强度值(Xm、Ym)进行仿射变换,以基于每个个体的调用基因型最佳匹配“预期”强度值(Xm,exp、Ym,exp)。由于局部GC和CpG含量对测得的探针强度的影响,GC和CpG项构成了人为变化的多项式(二次)模型[52]。在某些示例性实施方案中,可以对等式(3)和(4)执行最小二乘回归(忽略在该处个体的基因型未被调用或者相关簇中心被设置为缺失的SNP),以获得校正的(X,Y)值,该值被定义为回归预测(即(Xm,exp,Ym,exp)减去最小二乘残差)。
接下来,对于每个基因分型批次,对于每个被调用基因型的簇(AA,AB,BB),数据输入模块111确定校正(X,Y)值的平均值。在这一步中,簇中心可以根据仿射归一化的和GC校正的(X,Y)值重新计算(取平均值而不是中值,但其它方面遵循第一步)。
然后,对于每个基因型,数据输入模块111将校正的(X,Y)值转换成LRR值和BAF值。(X,Y)值可以相继使用类极变换和类似于[51]中公开的线性插值进行变换;设置
log2R=Y, (6)
其中在第一个等式中,XAB表示在当前SNP调用为杂合子的基因型的平均校正X=log2Aint/Bint值。在某些示例性实施方案中,可以过滤掉XAB缺失的SNP。簇中心然后可以以相同的方式被转换以获得(θAA,log2RAA),(θAB,log2RAB)和(θBB,log2RBB)。簇中心之间的线性插值然后可以在(θ,log2R)-空间中执行[51],以估计每个基因型的BAF和预期log2R,由此可以获得LRR值作为log2R–log2Rexp。如果缺失簇中心,可以将其设置为垂直线θ=θAB对面的簇中心的反射。
在某些示例性实施方案中,数据输入模块111可以为每个常染色体内的每个样本确定标准差(BAF),以滤除异常BAF和LRR值。在某些示例性实施方案中,可以滤除平均LRR>3.0(可能的非镶嵌三体性)或平均LRR<-0.5(可能的非镶嵌单体性)的染色体。
在某些示例性实施方案中,数据输入模块111可以被配置为掩蔽某些基因组区域。例如,染色体6上的HLA区域(28,477,797-33,338,354,构建37)和X染色体上的X易位区域(XTR)(88,575,629-92,308,067)的基因型测量值可被掩蔽[2]。
该方法然后进行到方框210,其中体细胞SV模块112识别并掩蔽基因分型数据中的遗传区段重复(即,组成型重复)。组成型重复会造成镶嵌性SV的假阳性检测,因为它们对BAF和LRR的影响与100%细胞分数时的体细胞获得事件相同。在100%细胞分数,组成型缺失也表现出类似体细胞丢失事件。
组成型重复相对容易过滤,因为它们的特征是短(典型地<1Mb),并且产生基因分型强度的极端位移;杂合位点具有|ΔBAF)为~0.17的AAB或ABB基因型,所有位点具有LRR为~0.35的三倍体总拷贝数(图2和图44)。为了调用和掩蔽这样的区域,SV模块112可以使用25状态隐Markov模型(HMM)对染色体上观察到的定相BAF偏差(pBAF)进行建模。在某些示例性实施方案中,SV模块112以对应于[–0.24,+0.24]中间隔为0.02的pBAF值的状态对观察到的定相BAF偏差进行建模。假设每个状态都发出一个正态分布的观察到的pBAF,其平均值等于状态值,标准偏差等于每个位点的经验标准差(BAF)(在基因分型批次内的所有个体中测量),z评分可以上限为4,以减少离群值的影响。SV模块112可以被配置为允许以概率0.003在0状态和每个非零状态之间的转移(建模事件边界),以及在以概率0.001在每个非零状态和其负值之间的转移(建模相位切换误差)。在端粒处,可将0.01的概率分配给每个非零状态的开始/结束(以支持在端粒处结束的调用)。
SV模块112可以通过计算通过上述HMM的Viterbi(最大似然)路径并检查非零状态的连续区域来选择要掩蔽的区域。在某些示例性实施方案中,SV模块11可以掩蔽具有|ΔBAF|>0.1和LRR>0.1的<2Mb的区域,所述区域可能是组成型重复,并且进一步掩蔽这种形式的邻近区域之间的间隙(<2Mb)(假设合并区域的1Mb侧翼没有明显的镶嵌现象,即,|ΔBAF|<0.05)。
该方法然后进行到方框215,其中SV模块112检测假定的体细胞SV事件。上述在多状态隐Markov模型上执行Viterbi解码的方法对于发现组成型重复很有效,但是为了定义对低细胞分数的体细胞SV敏感的正式的、良好校准的统计检验,需要不同的方法。上述的单个25状态HMM可以用一族3状态HMM来代替,所述3状态HMM通过代表镶嵌事件内的平均|ΔBAF|的单个参数θ进行参数化(即HMM的状态是{-θ,0,+θ};图43)。这种方法的主要优点是(i)它自然地产生了用于检验θ=?0的似然比检验统计(在下一节中描述);以及(ii)推导的检验统计对相位切换和SV边界的不确定性进行积分(不像最大似然估计)。
除了状态数量的减少,用于事件检测的3状态HMM与上述25状态HMM的不同之处仅在于几个常量的值。±θ→0“停止”转移概率在常染色体中可降低到3×10–4,在X染色体中可降低到1×10–4,这反映了大多数感兴趣的体细胞事件跨越数十兆碱基的事实。0→±θ“开始”转移概率可以降低到0.004(resp.0.08)乘以常染色体的停止概率(resp.X染色体)。(开始概率对停止概率的不对称反映了这样一个事实,即HMM不应该预计在镶嵌状态对非镶嵌状态中花费相同的时间;预计大多数染色体的大部分是非镶嵌的。)切换误差概率可保持在0.001,大致反映了我们估计的大规模相位切换率[24,26]。概率惩罚不必针对非零状态的开始/结束进行评估,末端着丝粒染色体中除外,其在非零状态开始的概率(在着丝粒,鉴于我们没有p臂基因型)减少了0.2倍。如上所述,假设每个状态发射一个正态分布的观察到的pBAF;。在某些示例性实施方案中,z评分可以上限为2,以进一步减少离群值影响。
对这种3-状态HMM的一个潜在批判是,它不能用具有不同|ΔBAF|的多个SV对染色体进行正确地建模。然而,该模型的主要目的是事件发现(特别是对于低细胞分数的SV);在包含SV事件的染色体被识别后,在假定的集合上执行额外的后处理(如下所述)以挑取复杂的SV。此外,在进行事件调用后,|ΔBAF|可以在SV边界内重新估计。
该方法然后进行到方框220,其中SV模块112检测体细胞SV事件的最终集。在某些示例性实施方案中,SV模块112通过将似然比检验应用于在检测上述假定的SV事件中确定的值来检测体细胞SV事件的最终集。在某些示例性实施方案中,对于染色体上定相BAF偏差的给定序列(表示为x),由θ参数化的HMM族产生如下的似然比检验统计。对于给定的θ,似然L(θ|x)可以通过SV模块112确定为在具有非零状态±θ的HMM下观察到x的总概率。(使用动态编程可以有效地执行该计算。)然后通过以下给出的似然比/>
其中分子是所有状态都坍缩为0(即不存在SV)的模型下的似然,并且分母是最佳θ选择下的似然。
产生假设检验需要另外一步。虽然渐近理论经常被用来断言-2logΛ在零假设下近似为χ2分布,但这里有两个问题。最重要的是,隐Markov模型是不完美的,并且具体而言,模型内概率常数的不同选择可极大地改变检验统计量的绝对大小。第二,我们的零假设θ=0位于参数空间的边界。
由于这些原因,SV模块112可以被配置为估计检验统计-2logΛ的经验零分布,而不是依赖于理论。在某些示例性实施方案中,零分布简单地通过获取观察到的pBAF序列并在每个杂合位点随机化相位来粗略估计(保持|ΔBAF|固定)。在一个示例性实施方案中,每个个体样本执行5次独立的随机化,为每个复制计算-2logΛ,并根据在真实数据上观察到的检验统计,使用所得的零检验统计分布来确定将实现0.05的错误发现率的截止值。该校准可以对每个常染色体和X染色体独立进行,得出临界值为1.41-3.87。
方法然后进行到方框225,在方框225中,SV模块112可以识别体细胞SV事件染色体位置(即边界)。到目前为止,该方法能够检测到体细胞SV是否发生在染色体的某处,以便描述观察到的BAF偏差。然而,如果是这样的话(即,如果零假设被拒绝),上述方法不指示SV在染色体上的位置。为了估计SV边界,SV模块112可以使用θ之似然最大化选择从HMM的后部获取5个样本。然后,SV模块112可以使用所述5个样本的一致性来识别SV的边界。
该方法然后进行到方框230,其中,SV模块识别体细胞SV事件拷贝数。可以并入LRR数据来确定拷贝数。如前所述[1,2,8],调用的SV的平均LRR或者随着估计的BAF偏差(对于丢失和获得)线性地增加或减少,或者接近于零(对于CNN-LOH)(图2和图27)。这些趋势线允许SV模块112估计对应于获得和丢失的预计LRR/|ΔBAF|斜率(分别约为2.16和-1.89)。对于具有估计BAF偏差/|ΔBAF|和平均以及LRR的标准误差/>的特定事件,SV模块112可以被配置为计算该事件是丢失、CNN-LOH或获得的相对概率。
在某些示例性实施方案中,上述方法可以通过利用丢失、CNN-LOH和获得的染色体特异性频率来改进。具体来说,一些染色体包含许多一种类型的事件,而很少包含另一种类型的事件(图1),并且该信息可能有助于调用具有不确定拷贝数的事件(即,具有低|ΔBAF|的事件,因此对应于丢失、CNN-LOH或获得的预计平均LRR之间的间隔很小)。SV模块112可以将LRR对|ΔBAF|空间分成三个区域,将丢失/CNN-LOH/获得趋势线一分为二:使s=LRR/|ΔBAF|,要求s<-0.94的事件被调用为丢失或未知,-0.94≤s<1.08的事件被调用为CNN-LOH或未知,1.08≤s的事件被称调用为获得或未知。可能还要求,为了在这些区域中的一个区域内调用事件,其平均LRRμ^需要(i)根据最近的趋势线对次最近的趋势线,至少两倍接近于其预计值;或者(ii)在其预计值的两个标准误差σ^内。在这些规则就位的情况下,SV模块112可以被配置为设置对每个事件的初步调用,如果满足上述要求并且如果最有可能的调用为次最有可能的调用的可能性的至少20倍(基于μ^和σ^以及上一段中描述的正常模型),则调用事件的拷贝数。然后,SV模块112可以通过执行相同的程序但并入先前调用概率来重新调用所有事件:对于给定的事件,例如,通过对从具有相似边界(相差<10Mb和<10%染色体长度)的多达20个事件的初步调用中导出的拷贝数加上先前,添加0.5的伪计数以防止拷贝数被分配零概率。
一种特殊情况可能需要单独处理:等臂染色体,涉及同时丢失一个染色体臂和获得另一个染色体臂(最明显的是i(17q);图20)。因此,SV模块112可以被配置为包括对全染色体事件的单独检查,检查LRR对于p臂和q臂是否显著不同,如果是,SV模块112可以在着丝粒处分割该事件。SV模块112还可以更一般地执行手动检查,以搜索调用内具有多个|ΔBAF|和/或LRR水平的事件,但是除了亚克隆的CNN-LOH(如下所述)之外没有发现这样的事件。
该方法然后前进到方框235,在方框235中,SV模块112可以检测多个亚克隆SV事件。上述框架旨在识别和调用在群体队列中出现的散发性SV,对于该群体,大多数具有可检测克隆性的个体在低至中等细胞分数具有单个简单事件(单个克隆丢失、CNN-LOH或获得)。然而,对于一小部分个体(大多具有流行或偶发的癌症诊断),可能会检测到多个事件,导致一些样本可能携带需要更仔细治疗的重叠或连续事件。
因此,SV模块112可以执行后处理步骤,在该步骤中,使用51状态HMM上的Viterbi解码来重新分析检测到的事件,其中|ΔBAF|水平以乘性增量在0.01到0.25的范围内。在该HMM中,除了0状态和非零状态(概率为10-4)之间的开始/停止转移以及每个状态和其负值(概率为0.001)之间的切换误差转移之外,SV模块112还可以在不同非零状态(概率为10-7)之间引入|ΔBAF|-位移转移。在端粒处,SV模块112可以为每个非零状态的开始/结束分配0.01的概率。对所有后向解码导致超过一个|ΔBAF|状态的调用进行了检查,并且观察到在几乎所有这些情况下,所讨论的事件最初被调用为CNN-LOH,但是表现出朝向端粒增加BAF偏差的阶跃函数(与覆盖染色体臂不同区段的多个亚克隆的CNN-LOH事件一致)。所有这些事件都在图39A-39B中描述。
然后方法结束。
图53显示了用于检测体细胞结构变体(SV)的示例性方法(300)。方法300可以是计算机实现的方法,例如,可以使用一个或多个计算设备来执行。步骤310可以包括确定一个或多个样本的总等位基因强度和相对等位基因强度。该确定可以包括将基因型强度数据转换成logR2比率(LRR)和B等位基因频率(BAF)值。步骤320可以包括掩蔽一个或多个样本的每个样本中的组成型区段重复。该掩蔽可以包括对观察到的定相BAF偏差(pBAF)进行建模。在某些实例中,对观察到的pBAF进行建模可以通过使用25状态隐Markov模型(HMM)用对应于pBAF值的状态跨个体染色体进行建模来执行。步骤330可以包括为所述一个或多个样本中的每个样本识别体细胞SV事件的假定集。在某些实例中,可以使用3状态HMM来识别体细胞SV事件的假定集。3-状态HMM可以通过代表给定体细胞SV事件内的平均|ΔBAF|的单个参数来参数化。步骤340可以包括为一个或多个样本中的每个样本定义一个或多个体细胞SV事件。在一些实施方案中,步骤310-340可以以任何顺序执行,例如,以图53中箭头所示的顺序。在一些情况下,步骤310-340可以作为单个步骤来执行。
在一些实施方案中,方法300还可包括对一个或多个样本中每个样本的每个鉴定的体细胞SV事件的染色体位置进行定位。每个鉴定的体细胞SV事件的染色体位置可通过从3-状态HMM的后部采集5个样本并基于所述5个样本的一致性确定每个SV事件的边界来定位。
在一些实施方案中,方法300还可包括对一个或多个样本中每个样本确定每个鉴定的体细胞SV事件的拷贝数。每个鉴定的体细胞SV事件的拷贝数可通过至少部分基于LRR和|ΔBAF|偏差确定所述事件为丢失、CNN-LOH、或获得的相对概率来确定。
在一些实施方案中,方法300还可包括检测每个鉴定的体细胞SV事件的多个亚克隆事件。多个亚克隆事件可通过使用Viterbi解码在51-状态HMM上用范围从0.01至0.25的|ΔBAF|水平以乘性增量对每个鉴定的体细胞SV进行重新分析来检测。
在一些实施方案中,方法300还可包括选择掩蔽区域,这包括计算通过HMM的Viterbi路径和检查非零态的毗连区。在某些实施方案中,方法300还可包括例如基于检测一个或多个体细胞SV事件来检测本文公开的疾病或对本文公开的疾病的易感性。
本文公开的还包括计算机程序产品,所述计算机程序产品包括具有在其上实施的计算机可读程序指令的非暂时性计算机可执行存储设备,该计算机可读程序指令当被计算机执行时使得计算机执行本文公开的方法。在一些实例中,计算机可执行程序指令可以包括用于执行方法300的一个或多个步骤的计算机可执行程序指令。
本文公开的还包括检测体细胞SV事件的系统。在某些实例中,所述系统可包括存储设备和与该存储设备通信地耦合的处理器,其中所述处理器执行存储在所述存储设备中的应用代码指令并使得系统执行方法300的一个或多个步骤。
本文公开的还包括执行本文的方法的套组。套组可包括试剂(例如,用于确定等位基因频率)、计算机程序产品、系统、或其组合。
其它示例性实施方案
图3描绘了根据某些示例性实施方案的计算机器2000和模块2050。计算机器2000可以对应于本文呈现的各种计算机、服务器、移动设备、嵌入式系统或计算系统中的任何一种。模块2050可以包括一个或多个硬件或软件元件,所述一个或多个硬件或软件元件被配置成便于计算机器2000执行本文呈现的各种方法和处理功能。计算机器2000可以包括各种内部或附属组件,例如处理器2010、系统总线2020、系统存储器2030、存储介质2040、输入/输出接口2060和用于与网络2080通信的网络接口2070。
计算机器2000可以被实现为传统的计算机系统、嵌入式控制器、膝上型电脑、服务器、移动设备、智能手机、机顶盒、公用电话亭、路由器或其它网络节点、车辆信息系统、与电视相关联的一个或多个处理器、定制机器、任何其它硬件平台或其任意组合或多样性。计算机器2000可以是被配置为使用经由数据网络或总线系统互连的多个计算机器来运行的分布式系统。
处理器2010可以被配置为执行代码或指令以执行本文描述的操作和功能,管理请求流和地址映射,以及执行计算和生成命令。处理器2010可以被配置成监控和控制计算机器2000中的组件的操作。处理器2010可以是通用处理器、处理器核心、多处理器、可重配置处理器、微控制器、数字信号处理器(“DSP”)、专用集成电路(“ASIC”)、图形处理单元(“GPU”)、现场可编程门阵列(“FPGA”)、可编程逻辑设备(“PLD”)、控制器、状态机、门控逻辑、离散硬件组件、任何其它处理单元或其任意组合或多样性。处理器2010可以是单个处理单元、多个处理单元、单个处理核心、多个处理核心、专用处理核心、协处理器或其任意组合。根据某些实施方案,处理器2010连同计算机器2000的其它组件可以是在一个或多个其它计算机器内执行的虚拟化计算机器。
系统存储器2030可以包括非易失性存储器,例如只读存储器(“ROM”)、可编程只读存储器(“PROM”)、可擦除可编程只读存储器(“EPROM”)、闪存或能够在有或没有施加电源的情况下存储程序指令或数据的任何其它设备。系统存储器2030还可以包括易失性存储器,例如随机存取存储器(“RAM”)、静态随机存取存储器(“SRAM”)、动态随机存取存储器(“DRAM”)和同步动态随机存取存储器(“SDRAM”)。其它类型的RAM也可以用于实现系统存储器2030。系统存储器2030可以使用单个存储器模块或多个存储器模块来实现。虽然系统存储器2030被描述为计算机器2000的一部分,但是本领域技术人员将认识到,在不脱离本主题技术的范围的情况下,系统存储器2030可以与计算机器2000分离。还应当理解,系统存储器2030可以包括诸如存储介质2040之类的非易失性存储设备,或者与其结合操作。
存储介质2040可以包括硬盘、软盘、光盘只读存储器(“CD-ROM”)、数字多功能盘(“DVD”)、蓝光光盘、磁带、闪存、其它非易失性存储设备、固态驱动器(“SSD”)、任何磁存储设备、任何光存储设备、任何电存储设备、任何半导体存储设备、任何基于物理的存储设备、任何其它数据存储设备或其任何组合或多重性。存储介质2040可以存储一个或多个操作系统、应用程序和程序模块例如模块2050、数据或任何其它信息。存储介质2040可以是计算机器2000的一部分,或者连接到计算机器2000。存储介质2040也可以是与计算机器2000通信的一个或多个其它计算机器的一部分,例如服务器、数据库服务器、云存储、网络连接存储等等。
模块2050可以包括一个或多个硬件或软件元件,其被配置成便于计算机器2000执行本文呈现的各种方法和处理功能。模块2050可以包括与系统存储器2030、存储介质2040或两者相关联地作为软件或固件存储的一个或多个指令序列。因此,存储介质2040可以代表机器或计算机可读介质的实例,在其上可以存储指令或代码以供处理器2010执行。机器或计算机可读介质通常可以指用于向处理器2010提供指令的任何一或多种介质。与模块2050相关联的这种机器或计算机可读介质可以包括计算机软件产品。应当理解,包括模块2050的计算机软件产品也可以与用于经由网络2080、任何信号承载介质或任何其它通信或传递技术将模块2050传递到计算机器2000的一个或多个工艺或方法相关联。模块2050还可以包括硬件电路或用于配置硬件电路的信息,例如用于FPGA或其它PLD的微码或配置信息。
输入/输出(“I/O”)接口2060可以被配置成耦合到一个或多个外部设备,以从所述一个或多个外部设备接收数据,以及向所述一个或多个外部设备发送数据。这种外部设备以及各种内部设备也可以被称为外围设备。I/O接口2060可以包括用于将各种外围设备可操作地耦合到计算机器2000或处理器2010的电连接和物理连接。I/O接口2060可以被配置为在外围设备、计算机器2000或处理器2010之间传送数据、地址和控制信号。I/O接口2060可以被配置为实现任何标准接口,例如小型计算机系统接口(“SCSI”)、串行连接的SCSI(“SAS”)、光纤通道、外围组件互连(“PCI”)、快速PCI(PCIe)、串行总线、并行总线、高级技术连接(“ATA”)、串行ATA(“SATA”)、通用串行总线(“USB”)、Thunderbolt、FireWire、各种视频总线等。I/O接口2060可以被配置为仅实现一种接口或总线技术。另选地,I/O接口2060可以被配置成实现多个接口或总线技术。I/O接口2060可以被配置为系统总线2020的一部分、全部或者与系统总线2020一起操作。I/O接口2060可以包括一个或多个缓冲器,用于缓冲一个或多个外部设备、内部设备、计算机器2000或处理器2010之间的传输。
I/O接口2060可以将计算机器2000耦合到各种输入设备,包括鼠标、触摸屏、扫描仪、生物阅读器、电子数字化仪、传感器、接收器、触摸板、轨迹球、照相机、麦克风、键盘、任何其它指示设备或其任意组合。I/O接口2060可以将计算机器2000耦合到各种输出设备,包括视频显示器、扬声器、打印机、投影仪、触觉反馈设备、自动化控制、机器人组件、致动器、马达、风扇、螺线管、阀、泵、发射器、信号发射器、灯等等。
计算机器2000可以使用通过网络接口2070到网络2080上的一个或多个其它系统或计算机器的逻辑连接在网络化环境中操作。网络2080可以包括广域网(WAN)、局域网(LAN)、内联网、互联网、无线接入网络、有线网络、移动网络、电话网络、光网络或其组合。网络2080可以是任何拓扑的分组交换、电路交换,并且可以使用任何通信协议。网络2080内的通信链路可能涉及各种数字或模拟通信介质,例如光纤电缆、自由空间光学器件、波导、电导体、无线链路、天线、射频通信等等。
处理器2010可以通过系统总线2020连接到计算机器2000的其它元件或本文讨论的各种外围设备。应当理解,系统总线2020可以在处理器2010内,在处理器2010外,或者两者都有。根据一些实施方案,处理器2010、计算机器2000的其它元件或本文讨论的各种外围设备中的任何一种可以集成到单个设备中,诸如片上系统(“SOC”)、封装上系统(“SOP”)或ASIC设备。
在这里讨论的系统收集关于用户的个人信息,或者可以利用个人信息的情况下,可以向用户提供机会来控制程序或特征是否收集用户信息(例如,关于用户的社交网络、社会行为或活动、职业、用户的偏好或用户的当前位置的信息),或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外,某些数据在存储或使用之前,可能会以一种或多种方式进行处理,从而删除个人可识别信息。例如,可以处理用户的身份,使得不能确定用户的个人可识别的信息,或者可以在获得位置信息的地方概括用户的地理位置(例如城市、邮政编码或州级),使得不能确定用户的特定位置。因此,用户可以控制如何收集关于用户的信息并由内容服务器使用。
实施方案可以包含体现这里描述和示出的功能的计算机程序,其中该计算机程序在计算机系统中实现,该计算机系统包括存储在机器可读介质中的指令和执行所述指令的处理器。然而,很明显,在计算机编程中可以有许多不同的实现实施方案的方式,并且所述实施方案不应被解释为限于任何一组计算机程序指令。此外,熟练的程序员将能够基于所附的流程图和应用文本中的相关描述编写这样的计算机程序来实现所公开的实施方案的实施方案。因此,对于如何制作和使用实施方案的充分理解来说,特定的一组程序代码指令的公开被认为不是必要的。此外,本领域技术人员将理解,这里描述的实施方案的一个或多个方面可以由硬件、软件或其组合来执行,如可以在一个或多个计算系统中实现的。此外,对由计算机执行的动作的任何引用不应被解释为由单个计算机执行,因为不止一个计算机可以执行该动作。
本文描述的示例性实施方案可以与执行本文描述的方法和处理功能的计算机硬件和软件一起使用。本文描述的系统、方法和程序可以在可编程计算机、计算机可执行软件或数字电路中体现。软件可以存储在计算机可读介质上。例如,计算机可读介质可以包括软盘、RAM、ROM、硬盘、可移动介质、闪存、记忆棒、光学介质、磁光介质、CD-ROM等。数字电路可以包括集成电路、门阵列、逻辑结构图、现场可编程门阵列(FPGA)等。
在先前呈现的实施方案中描述的示例性系统、方法和动作是说明性的,并且在替代实施方案中,在不脱离各种实施方案的范围和精神的情况下,可以以不同的顺序、彼此并行、完全省略和/或在不同的示例性实施方案之间组合来执行某些动作,和/或可以执行某些附加动作。因此,这样的替代实施方案包括在本文要求保护的发明中。
尽管上面已经详细描述了特定的实施方案,但是该描述仅仅是为了说明的目的。因此,应该理解的是,除非另有明确说明,否则上述许多方面并不意图作为所需的或必要的要素。在不脱离在所附权利要求中定义的实施方案的精神和范围的情况下,受益于本公开内容,除上文所述的那些以外,本领域普通技术人员可以对示例性实施方案的公开的方面进行修改并且可以做出对应于这些方面的等效组件或动作,所附权利要求的范围应符合最广泛的解释,从而包括这些修改和等效结构。
示例性应用
本文的方法可用于分析与某些疾患诸如疾病相关的一种或多种体细胞结构变体,从而检测疾患的存在或易感性。在一些实施方案中,本文公开了用于检测受试者中疾患的存在或易感性的方法,该方法包括检测来自受试者的样本中核酸的一种或多种体细胞结构变体。所述一种或多种体细胞结构变体的存在或缺失表明该疾患的存在或易感性。
样本
在一些实施方案中,体细胞结构变体存在于样本例如含有少量核酸的样本中的核酸中。在某些实例中,样本可以是包含感兴趣的核酸的生物样本。在一些情况下,样本可以是流体,例如生物流体。生物流体的实例包括血液、血清、血浆、痰液、灌洗液、脑脊液、尿液、精液、汗液、眼泪、唾液等。如本文所用,术语“血液”、“血浆”和“血清”明确地包括其级分或加工部分。类似地,当从活组织检查、拭子、涂片等获取样本时,“样本”明确地包括来自活组织检查、拭子、涂片等的处理级分或衍生部分。在一些实例中,样本可以是血液。在一些实例中,样本可以是血浆。在一些实例中,样本可以是血清。在一些实例中,样本可以是组织或器官,或胚胎,或其一部分。
样本中的核酸可以包含无细胞核酸。术语“无细胞核酸”和“循环无细胞核酸”在本文中可互换使用,指存在于体内细胞外的核酸或其片段,例如,在受试者(妊娠受试者或患者)的血液中循环的核酸或其片段。所述术语也可用于指从体内胞外来源获得并在体外分开、分离或以其它方式操作的核酸片段。无细胞核酸的实例包括无细胞DNA、无细胞RNA、无细胞胎儿DNA、无细胞胎儿RNA、循环肿瘤DNA或循环肿瘤RNA或其任意组合。在某些实施方案中,核酸可以来自组织、器官或胚胎的单个细胞或多个细胞。在一些情况下,核酸可以来自胚胎的单个细胞或多个细胞,例如用于植入前遗传筛选。
非侵入性产前检验(NIPT)
在一些实施方案中,本文的方法可以用于执行非侵入性产前检验(NIPT)。例如,所述方法可以包括检测和/或分析来自妊娠受试者的流体样本中的无细胞核酸。无细胞核酸筛选或NIPT可以利用生物信息学工具和工艺以及母体血清中DNA片段的下一代测序来确定妊娠中某些染色体疾患的概率。所有个体在其血流中都有自己的无细胞DNA。在妊娠期间,来自胎盘(主要是滋养层细胞)的无细胞胎儿DNA也进入母体血流并与母体无细胞DNA混合。滋养层细胞的DNA通常反映胎儿的染色体组成。
本文的方法可以包括使用来自母体样本(例如,母体血液)的无细胞核酸来筛选胎儿的病症或疾患,例如非整倍性(例如,21三体、18三体和13三体)、先天性肾上腺增生、单基因病症(例如,囊性纤维化、β地中海贫血、镰状细胞性贫血、脊髓性肌萎缩和肌强直性营养不良)、溶血性疾病或其它疾患(例如,胎儿生殖器)。在某些情况下,所述方法包括筛选染色体改变,包括但不限于22q11重复/缺失(例如,如以下中所述:Schmid等人,Fetal DiagnTher.2017Nov 8.doi:10.1159/000484317)、1q21重复/缺失、16p11重复/缺失、15q11重复/缺失、15q13重复/缺失或其任意组合。
异常结果通常表明特定疾患的增加风险。在某些情况下,可以使用以下中描述的方法进行NIPT:Norton ME等人,Cell-free DNA Analysis for Noninvasive Examinationof Trisomy,N Engl J Med,2015;372:1589-1597。
癌症诊断
本文的方法可用于分析循环核酸,以检测和分析循环肿瘤核酸(例如,循环肿瘤DNA(ctDNA))。循环肿瘤核酸可包含来自血液或其它生物组织中存在的肿瘤细胞的核酸分子。不受理论的约束,循环肿瘤核酸可能来源于垂死的肿瘤细胞,包括循环肿瘤细胞(CTC),循环肿瘤细胞在恶化时将它们的内含物释放到血液中。
所述方法可包括检测受试者循环核酸中一种或多种体细胞结构变体的存在,从而检测是否存在循环肿瘤核酸。在存在循环肿瘤核酸的情况下,所述方法还可包括分析循环肿瘤核酸和检测循环肿瘤核酸中的肿瘤相关变体。分析结果可用于检测肿瘤的状态,例如癌症的阶段、缓解或复发。在一些情况下,检测循环肿瘤DNA中的体细胞变体可以使用以下中描述的方法进行:Chen X等人,Manta:rapid detection of structural variants andindels for germline and cancer sequencing applications,Bioinformatics,第32卷,第8期,2016年4月15日,第1220–1222页。
所述方法可包括基于体细胞结构变体,例如一种或多种体细胞结构变体事件或镶嵌染色体改变来检测疾病。体细胞结构变体可能与疾病有关。在一些情况下,疾病可能是癌症。例如,该疾病可能是血液学癌症。在某些实例中,血液学癌症可以是白血病,例如慢性淋巴细胞白血病。在某些实例中,疾病可以是实体瘤。可通过本文方法检测的疾病的实例包括纤维肉瘤、粘液肉瘤、脂肪肉瘤、软骨肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因氏病(Ewing's)、平滑肌肉瘤、横纹肌肉瘤、胃肠系统癌、结肠癌、胰腺癌、乳腺癌、泌尿生殖系统癌、卵巢癌、前列腺癌、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、囊腺癌、髓样癌、支气管原癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、威尔姆氏肿瘤(Wilms'tumor)、宫颈癌、内分泌系统癌、睾丸肿瘤、肺癌、小细胞肺癌、非小细胞肺癌、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突神经胶质瘤、脑膜瘤、黑色素瘤、神经母细胞瘤、视网膜母细胞瘤或其组合。
所述方法可以进一步包括基于体细胞结构变体的分析来治疗受试者。治疗受试者可以包括当确定样本不存在体细胞结构变体时进行医疗程序。另选地或另外,治疗受试者可以包括当确定样本存在体细胞结构变体时进行医疗程序。医疗程序可包括健康监测、再检验、进一步筛查、随访检查、施用药物或其它类型疗法(例如,化疗、放疗、基因疗法)、手术、生活方式管理及其任意组合。在一些情况下,治疗受试者可以包括改变受试者的一个或多个基因,以纠正与体细胞结构变体相关的基因组缺陷。例如,可以使用基因编辑技术,例如CRISPR-Cas介导的基因编辑,来改变一个或多个基因。
在以下编号的段落中描述了各个另外的加实施方案:
1.一种检测体细胞结构变体(SV)的计算机实现方法,包括:使用一个或多个计算设备确定一个或多个样本的总等位基因强度和相对等位基因强度;使用所述一个或多个计算设备掩蔽所述一个或多个样本的每个样本中的组成性区段重复;使用所述一个或多个计算设备鉴定所述一个或多个样本中每个样本的体细胞SV事件的假定集;以及至少部分基于对所述体细胞SV事件的假定集应用似然比检验,使用所述一个或多个计算设备对所述一个或多个样本的每个样本定义一个或多个体细胞SV事件。
2.如段落1所述的方法,还包括使用所述一个或多个计算设备对所述一个或多个样本中每个样本的每个鉴定的体细胞SV事件的染色体位置进行定位。
3.如段落1或2所述的方法,还包括使用所述一个或多个计算设备确定所述一个或多个样本中每个样本的每个鉴定的体细胞SV事件的拷贝数。
4.如段落1-3中任一项所述的方法,还包括使用所述一个或多个计算设备检测每个鉴定的体细胞SV事件的多个亚克隆事件。
5.如段落1-4中任一项所述的方法,其中确定所述总等位基因频率和相对等位基因频率包括将基因型强度数据转换为logR2比(LRR)和B等位基因频率(BAF)值。
6.如段落1-5中任一项所述的方法,其中掩蔽所述组成性区段重复包括使用所述一个或多个计算设备对观察的定相BAF偏差(pBAF)进行建模。
7.如段落1-6中任一项所述的方法,其中对所述观察的pBAF进行建模通过使用25-状态隐Markov模型(HMM)以对应于pBAF值的状态跨个体染色体进行建模来执行。
8.如段落1-7中任一项所述的方法,还包括选择掩蔽区域,这包括计算通过所述HMM的Viterbi路径和检查非零态的毗连区。
9.如段落1至8中任一项所述的方法,其中鉴定体细胞SV事件的所述假定集包括使用3-状态HMM。
10.如段落1-9中任一项所述的方法,其中所述3-状态HMM通过代表给定体细胞SV事件内平均|ΔBAF|的单一参数进行参数化。
11.如段落1-10中任一项所述的方法,其中对每个鉴定的体细胞SV事件的染色体位置进行定位包括从所述3-状态HMM的后部采集5个样本并基于所述5个样本的一致性确定每个SV事件的边界。
12.如段落1-11中任一项所述的方法,其中确定每个鉴定的体细胞SV事件的拷贝数包括至少部分基于所述LRR和|ΔBAF|偏差确定所述事件为丢失、CNN-LOH、或获得的相对概率。
13.如段落1-12中任一项所述的方法,其中检测多个亚克隆事件包括使用Viterbi解码在51-状态HMM上用范围从0.01至0.25的|ΔBAF|水平以乘性增量对每个鉴定的体细胞SV进行重新分析。
14.如段落1-13中任一项所述的方法,还包括基于所述一个或多个体细胞SV事件的检测来检测疾病或对疾病的易感性。
15.如段落1-14中任一项所述的方法,其中所述疾病是癌症。
16.如段落1-15中任一项所述的方法,其中所述癌症包括血液系统癌症。
17.如段落1-16中任一项所述的方法,其中所述血液系统癌症是白血病。
18.如段落1-17中任一项所述的方法,其中所述白血病是慢性淋巴细胞白血病(CLL)。
19.如段落14至16中任一项所述的方法,其中所检测的一个或多个SV事件包含选自表13的一个或多个SV事件。
20.一种计算机程序产品,包括:一种非暂时性计算机可执行存储设备,具有在其上实施的计算机可读程序指令,所述计算机可读程序指令当被计算机执行时使得所述计算机可根据基因分型数据检测体细胞结构变体(SV),所述计算机可执行程序指令包括:确定一个或多个样本的总等位基因强度和相对等位基因强度的计算机可执行程序指令;掩蔽组成性区段重复的计算机可执行程序指令;鉴定所述一个或多个样本中每个样本的体细胞SV事件的假定集的计算机可执行程序指令;以及定义所述一个或多个样本的每个样本的一个或多个体细胞SV事件的计算机可执行程序指令。
21.如段落20所述的计算机程序产品,还包括对所述一个或多个样本中每个样本的每个鉴定的体细胞SV事件的染色体位置进行定位的计算机可执行程序指令。
22.如段落20或21所述的计算机程序产品,还包括确定每个鉴定的体细胞SV事件的拷贝数的计算机可执行程序指令。
23.如段落20-22中任一项所述的计算机程序产品,还包括检测每个鉴定的体细胞SV的多个亚克隆事件的计算机可执行程序指令。
24.如段落20-23中任一项所述的计算机程序产品,其中确定总等位基因频率和相对等位基因频率包括将基因型强度数据转换为logR2比(LRR)和B等位基因频率(BAF)值。
25.如段落20-24中任一项所述的计算机程序产品,其中鉴定体细胞SV事件的所述假定集包括使用3-状态HMM。
26.如段落20-25中任一项所述的计算机程序产品,其中所述3-状态HMM通过代表给定体细胞SV事件内的平均|ΔBAF|的单一参数进行参数化。
27.如段落20-26中任一项所述的计算机程序产品,还包含基于检测所述一个或多个体细胞SV事件检测疾病或对疾病的易感性。
28.如段落20-27中任一项所述的计算机程序产品,其中所述疾病是癌症。
29.如段落20-28中任一项所述的计算机程序产品,其中所述癌症是血液系统癌症。
30.如段落20-29中任一项所述的计算机程序产品,其中所述血液系统癌症是白血病。
31.如段落20-31中任一项所述的计算机程序产品,其中所述白血病是慢性淋巴细胞白血病。
32.一种检测一个或体细胞SV事件的系统,所述系统包括:存储设备;以及处理器,所述处理器通信地耦合至所述存储设备,其中所述处理器执行应用代码指令,所述应用代码指令存储在所述存储设备中并使得所述系统:确定一个或多个样本的总等位基因强度和相对等位基因强度;掩蔽组成性区段重复;鉴定所述一个或多个样本中每个样本的体细胞SV事件的假定集;以及定义所述一个或多个样本的每个样本的一个或多个体细胞SV事件。
33.一种套组,包括确定等位基因频率的试剂和段落20至31中任一项所述的计算机程序产品、或段落32所述的系统。
34.一种检测受试者中疾患的存在或易感性的方法,所述方法包括在来自所述受试者的样本中的核酸中根据段落1-19中任一项检测一种或多种体细胞结构变体,其中所述一种或多种体细胞结构变体的存在或不存在指示所述疾患的存在或易感性。
35.如段落34所述的方法,其中所述核酸是无细胞核酸。
36.如段落34或35所述的方法,其中所述样本是母体血液并且所述无细胞核酸是胎儿无细胞核酸。
37.如段落34-36中任一项所述的方法,其中所述无细胞核酸是循环肿瘤DNA。
38.如段落34-37中任一项所述的方法,其中所述疾患是胎儿非整倍性。
39.如段落34-38中任一项所述的方法,其中所述疾患是癌症。
40.如段落34-39中任一项所述的方法,还包括基于所检测的所述疾患的存在或易感性执行医学程序。
在以下实施例中进一步描述了本发明,这些实施例不限制权利要求中描述的本发明的范围。
实施例
实施例1–8,342个镶嵌结构变体图谱揭示克隆造血的强遗传驱动因子
下面提供了对8,342种体细胞结构变体(SV)的分析的见解,这些体细胞结构变体是在来自151,202名UK Biobank参与者[23]的SNP-阵列数据中使用根据本文公开的示例性实施方案的方法确定的,该方法利用了长程单体型相位信息。还利用了UK Biobank参与者在DNA取样后5-10年内的健康结果。
这些数据综述了克隆扩增的新见解,包括几个基因座的遗传变体顺式起作用以产生或推动镶嵌现象的机制。还鉴定了几个强烈预测未来血液系统恶性肿瘤(OR>100)的体细胞SV。
UK Biobank中的体细胞SV
对151,202名40-70岁UK Biobank参与者的血液基因分型的等位基因特异性SNP阵列强度数据进行了分析;质量控制后,仍有607,525个基因分型变体(方法)。申请人通过利用在UK Biobank[24–26]中独有的长程相位信息,在低至1%的细胞分数下实现了对克隆扩增的SV的灵敏检测。这种方法背后的直觉是,精确的相位信息允许通过结合跨非常多的SNP的等位基因特异性信息来检测两种单体型丰度的微妙不平衡(图9A-9C、图10A-10C、图11A-11C和图12)。为了最大限度地利用这些信息,申请人开发了一种新的基于相位的SV检测的统计方法(方法和补充说明)。
申请人以0.05的错误发现率(FDR)检测到8,342个体细胞SV(在分析的151,202个个体中的7,484个中)(图4、图12-34)。申请人确信地将71%的检测到的SV分类为(i)缺失,(ii)拷贝数中性杂合性缺失(CNN-LOH),或(iii)获得(图5A和图35)。大多数检测到的SV具有小于5%的推断克隆细胞分数,如果没有长程定相,将无法检测到(图36);最低推断的细胞分数小于1%(图37)。检测到的SV的基因组分布与以前的研究[1、2、7、8]大体一致:大多数获得复制了整个染色体或染色体臂(有丝分裂错误分离的标志);大多数CNN-LOH影响部分染色体臂(有丝分裂重组的标志);并且大多数常染色体丢失删除了小得多的病灶区域(图4和图12-34)。
长度小于1Mb的常见缺失区域(CDR)是特别令人感兴趣的,因为它们可能指示其中一个拷贝的丢失促进细胞过度增殖的单倍体足够的肿瘤抑制基因[2]。三个最常见的局灶性缺失以13q14、DNMT3A和TET2为靶点,这些是在以前的研究中已被鉴定的基因座[2,8];申请人进一步观察到,13q、2p和4q上的大多数CNN-LOH事件跨越这些相同的CDR(图4和图38)。申请人在通常在癌症中发生突变的ETV6、NF1和CHEK2处检测到新的CDR,并在RPA2和RYBP处检测到新的CDR(补充说明)。申请人还观察到16p11.2的CDR与一个区域重叠,该区域的缺失是众所周知的自闭症遗传风险因素;申请人没有在西蒙斯基金会自闭症研究计划(SimonsFoundation Autism Research Initiative,SFARI)[27]中的Simons Simplex Collection的2,076个测序基因组中检测到这种镶嵌事件(图39A-39B)。
缺失倾向于集中在那些不常复制的染色体上(图5F和表2),支持累积单倍剂量不足(haploinsufficiency)和三倍剂量敏感性(triplosensitivity)塑造克隆进化的理论[28]。尽管以前在对体细胞SV[29]的泛癌分析中观察到了体细胞丢失与获得的倾向之间类似的反比关系,但在我们对血液衍生的DNA的分析中,丢失与增加更多的染色体集有些不同,这表明血液中克隆进化的一些驱动因子是造血系统所特有的。
一些种类的体细胞突变原则上可具有协同生长促进效应,这一假设是由早期的观察提出的,即个体获得多个体细胞SV的频率往往比预期的偶然频率[1,2,7,8]要高得多(图5C和表3)。我们检测到的大量镶嵌性SV的集合提供了足够的统计分辨率来识别三个共发生SV的集群,其中一个集群包括在慢性淋巴细胞白血病(CLL)[30,31]中通常共同观察到的事件:13q LOH(包括缺失和CNN-LOH)、12三体和14和22号染色体上的克隆性V(D)J缺失(图5C,表4)。这些事件的共发生可以用增殖的协同效应、共有的遗传或环境驱动因子或从一个事件到另一个事件的顺序进展来解释。
申请人发现了一般模式的几个有趣的例外,其中获得性突变在老年人和男性[1,2,7,8]中最常见(图5D和表5)。女性X染色体丢失[32]是目前申请人检测到的最常见的事件(图34和表2),频率随着年龄的增长而急剧增加(图5D和表5)。(申请人没有检查Y染色体的丢失,因为我们基于相位的检测方法不适用,UK Biobank的mLOY已经在其它地方进行了研究[19]。)按位置和拷贝数对常染色体SV进行分类揭示了令人惊讶的关系:尽管大多数获得事件(如预期的那样)在老年个体和男性中富集,但是CNN-LOH事件往往同等地影响两性,并且在年轻人中可检测到(图5e和表6)。三个SV是明显的离群值:15号染色体上的获得在老年男性中远远更常见[33],而10q和16p上的缺失在女性中远远更常见,并且在老年人中没有表现出富集。(体细胞SV携带者的总体年龄偏差也为错误发现率控制提供了方便的检查;图40。)
一些获得性突变原则上可以在特定的造血细胞谱系内出现或被选择。申请人通过重点关注淋巴细胞、嗜碱性粒细胞、单核细胞、嗜中性粒细胞、红细胞或血小板指标排名前1%的个体来检验这一假设。申请人鉴定出许多获得性SV集中在这些队列子集中的一者或多者(图5F和表7)。与这些关系可能反映特定血细胞区室中克隆选择的观点一致,在CLL中常见的突变[30,31]在淋巴细胞计数高的个体中富集,JAK2相关9p事件(在骨髓增殖性赘瘤MPN中常见)在骨髓指标高的个体中最常见。这些结果表明获得性SV可能在没有已知恶性肿瘤的个体中产生亚临床血液成分表型。遗传变体对邻近体细胞SV的影响。
为了鉴定对SV形成或选择的遗传影响,申请人进行了染色体范围的扫描,以寻找重复出现的体细胞SV和与每个SV相同的染色体上的种系变体之间的关联(方法)。该分析揭示了4个与10q、1p、11q和15q上的遗传邻近体细胞SV密切相关的基因座,以及2个与女性X染色体缺失相关的基因座(表1,图6A-6E和图7A-7C)。(申请人还平行测定了JAK2 46/1与9pCNN-LOH[13-16,18]的早期关联;图41)。为了阐明这些基因座遗传变异的因果影响,申请人使用全基因组序列数据精细绘制了这些关联,并研究了风险等位基因相对于相关SV突变的染色体相位。
体细胞末端10q缺失与FRA10B附近的常见SNP rs118137427强相关,FRA10B是已知的基因组脆性位点[34,35],位于10q缺失的估计常见断点处(表1和图6A)。所有60个具有这些镶嵌10q缺失的个体都遗传了rs118137427:G风险等位基因(群体中的RAF=5%;图6C),其总是在随后获得末端缺失的同一染色体上遗传(表1)。
为了鉴定一个潜在的由rs118137427:G风险等位基因标记的因果突变,申请人在2,076名其他个体(SFARI队列)的WGS数据中搜索获得性10q缺失。申请人鉴定出两个带有10q末端缺失(呈镶嵌形式)的亲子双人对;所有四个个体都在rs118137427:G单体型背景上的FRA10B处具有扩增的富含AT的重复序列(图6D和6E以及图34)。进一步的证据表明,风险等位基因rs118137427:G标记了FRA10B基因座[36]的不稳定形式,这是通过分析WGS数据中FRA10B处的可变数目串联重复序列(VNTR)提供的(来自所有2,076名SFARI参与者)。该分析揭示了四个新颖的VNTR基序,由13个家族的30名SFARI参与者携带;所有四个新颖的基序都出现在rs118137427:G单体型背景上,但该单体型在群体中的频率较低(5%)(图6E和图42A-42B和图43)。(VNTR与自闭症状态无关。)四个新颖的VNTR序列基序中的两个在SFARI中足够常见,可以归入UK Biobank;尽管这两个可归入的VNTR基序据估计仅存在于0.1%-0.4%的UKB队列中,但它们解释了60例10q缺失中的24例(表8)。有趣的是,60个具末端10q缺失的个体中有51个是女性,并且病例的年龄分布与研究群体相匹配,这明显不同于其它镶嵌性SV中男性偏向、年龄依赖性获得的一般模式(图6B)。
Chr1p上的CNN-LOH事件与在1p34.1的MPL原癌基因(编码血小板生成素受体)上的三种独立的、罕见的风险单体型(风险等位基因频率,RAF=0.01%-0.05%)强烈相关;这三种单体型中的每一种都使1p CNN-LOH的风险增加了>50倍(表1)。在MPL基因座进行的血统一致性分析表明,该基因座处还存在额外的或复发的非常罕见的风险变体(图44)。有趣的是,尽管已知MPL中的功能获得突变导致骨髓增殖性赘瘤[37,38],但一个单体型(rs369156948)上的先导的归入SNP是MPL中编码SNP的功能丢失(LOF);另外两个先导SNP标记包括MPL在内的长单体型(图7A和表9)。
申请人能够鉴定一个有趣的可能的用于选择涉及MPL的CNN-LOH事件的机制。对于所有16个事件,申请人可以确信地相对于体细胞CNN-LOH确定罕见的风险等位基因的相位,风险等位基因通过CNN-LOH去除(P=3×10-5;表1和图7A)。对这些结果的一个合理解释是,在具有减少MPL功能的罕见遗传变体的个体中,通过CNN-LOH恢复正常的MPL基因活性提供了增殖优势。尽管事实是克隆造血(在大多数基因座)是随后血癌的一种强危险因素,但rs369156948LOF等位基因的36个归入携带者中有0个被诊断为流行或偶发血液系统癌症,这支持了这一罕见等位基因实际上可能是在其作用中具有低增殖性,也是阴性选择的对象的观点。
在chr11q上的CNN-LOH事件与在11q22.3的ATM基因周围的罕见风险单体型(RAF=0.07%)强烈相关(>40倍增加的风险)(表1,图7B和表9)。对于申请人可以确信地相对于体细胞突变确定风险等位基因的相位的所有6个CNN-LOH事件,LOH突变导致罕见的风险等位基因变得纯合(表1和图7B)。(这种动态与MPL的动态形成对比,在MPL中,罕见的遗传风险单体型通过LOH和克隆选择所消除。)虽然需要更多的数据来鉴定一种因果变体,但ATM是一个明确的假定目标:ATM在细胞周期调节中起着关键作用,在CLL中经常观察到ATM的LOF突变和缺失[30,31]。(在目前的分析中,获得性11q缺失似乎也针对ATM;图4和图22。)
在chr15q的CNN-LOH和丢失事件与一个罕见的遗传性70kb缺失相关,该遗传性70kb缺失在15q26.3处跨越TM2D3全部和TARSL2的一部分。对于41个具有高置信度相位调用的事件中的39个,CNN-LOH或丢失被推断为产生遗传性缺失的纯合性或半合子性,从基因组中去除了参考(非缺失)等位基因(表1和图8C)。(这种动态与ATM的动态的相似之处在于表明对罕见的遗传风险等位基因的克隆选择。)70kb缺失以0.03%的等位基因频率出现,并使15q突变的风险增加了~700倍:89名携带者中有45名表现出可检测到的15q事件(32名CNN-LOH,2名丢失,11名未调用;图46)。有趣的是,70kb缺失有时在一个等位基因上遗传,该等位基因也具有独立的290kb基因座复制(图45A-45B);在这个更复杂的等位基因上,TM2D3和TARSL2基因剂量是正常的。该更复杂等位基因的携带者没有表现出体细胞SV的易感性(图46)。将需要进一步的研究来确定TM2D3、TARSL2或该区域内非编码元件的增殖机制。
上述顺式关联的高外显率(高达50%)使我们怀疑一些风险等位基因携带者实际上可能携带有多个具有相关体细胞SV的亚克隆细胞群。申请人检测到41个个体获得了两个或更多个涉及相同染色体的CNN-LOH突变(具有不同的断点和等位基因分数)(图47)。(相比之下,只有28个个体在不同的染色体上携带多个CNN-LOH突变。)对于所有41个具有多个相同染色体的CNN-LOH事件的个体,所有事件都涉及相同单体型的重复选择(在不同的克隆中)。在同一个体中重复选择的41个单体型中,16个携带通过我们的关联扫描鉴定的罕见风险等位基因之一,14个似乎涉及相同基因座的其它(仍未映射的)等位基因驱动因子,11个涉及其它基因组基因座(图47)。这一结果表明了在这些个体中由CNN-LOH赋予的强增殖优势,并且表明有丝分裂重组是足够普遍的,从而在携带具有不同扩增倾向的遗传单体型的个体中产生克隆选择的多种机会。与上述描述罕见等位基因强烈增加获得性附近SV的风险的结果相反,申请人在X染色体上发现了两种常见的变体,这两种变体仅轻微增加了X染色体丢失的风险,但强烈影响(在对变体为杂合子的女性中)哪条X染色体在扩增的克隆中丢失。这些包括在DXZ1附近的Xp11.1处的强关联(P=6.6×10-27,丢失单体型的1.9:1偏差)和在DXZ4附近的Xq23处的弱关联(P=1.0×10-9,丢失单体型的1.5:1偏差)(表1,图48和表11)。这些关联似乎不能用有偏向的X染色体失活[39](表11)来解释,并暗示了一种与上述申请人描述的那些机制非常不同的机制(补充说明)。
与体细胞SV的反式关联
在细胞增殖和细胞周期调节中起作用的基因附近的遗传变体使男性易于发生Y丢失[17,19],并且女性的X丢失也是一个可遗传的性状(在同胞对分析中h2=26%(17.4%-36.2%)[19],但是以前没有关于X丢失的关联的报道。申请人通过进行BOLT-REML[40]分析(方法)证实了女性X丢失的遗传性,获得了hg2=10.6%(标准误差3.6%)的SNP遗传性估计。对影响X丢失的反式变体进行全基因组关联分析,进一步揭示了在SP140L和HLA基因座处的两个新颖的全基因组显著关联(表1)。
影响癌症风险或染色体维持表型的种系变体原则上可能增加癌前或良性克隆扩增的风险。申请人考虑了86个牵涉于以前的GWAS中的关于CLL、MPN、Y染色体丢失、克隆造血和端粒长度的变体,并检验了这些变体与7类体细胞SV的反式关联,按染色体类型(常染色体对X染色体)和拷贝数对事件进行了分层(表12)。四种变体达到了Bonferroni显著性(P<8.3×10–5):TERT的两种连锁变体(最近与克隆造血相关的内含子缺失[11],和一个以前与MPN[41]和JAK2V617F突变[18]关联的常见SNP),一个罕见的CHEK2移码SNP(以前与JAK2V617F突变[18]关联),和一个在TP53中的低频3’UTR SNP(以前与癌症[42]和mLOY[19]关联)(表11)。TERT和CHEK2变体与多种类型常染色体事件相关;相比之下,TP53SNP主要与丢失(常染色体上的局灶性丢失和X染色体的全染色体丢失)相关(表12)。CHEK2移码SNP携带者特别容易发生多克隆性SV:33个检测到常染色体SV的携带者中有8个有两个或更多个可检测事件(相比之下,预期为3个;P=0.008),所述可检测事件通常在多个克隆中。
体细胞SV和癌症发作
具有可检测镶嵌现象(在任何基因座)的无癌症个体具有>10倍的随后血液系统癌症的风险增加[1–4]。对于慢性淋巴细胞白血病(CLL),一种进展缓慢的血液学癌症,已知在进展之前数年就有克隆镶嵌现象[43,44],在CLL前病例中观察到的镶嵌异常发生在与在CLL中观察到的那些镶嵌异常相同的基因座处[30,31,45,46]。
在这项工作中检测到的大量事件使我们能够评估特定的镶嵌性SV可能更强有力地预测特定癌症风险的可能性[47]。在针对年龄和性别校正过的分析中,申请人鉴定了17个与随后的癌症诊断(在收集DNA后>1年)显著相关(FDR<0.05)的体细胞SV事件(图8A和表13)。这些SV子集的优势比极高:在血癌中常见的几种SV使偶发性CLL或MPN事件的风险增加了>100倍。2p上的DNMT3A缺失使偶发性非血癌风险增加了3.5倍,但这种较弱的关联也可以通过其它未观察到的增加非血癌和克隆性造血风险的风险因素来解释。
基于在CLL和偶发性CLL中普遍观察到的异常之间的关联强度,申请人推断,将这些事件的镶嵌状态与其它风险因素—年龄、性别、CLL遗传风险评分(GRS)[48]和淋巴细胞计数相结合—,可以改善偶发性CLL的预测。在10倍交叉验证中,由这些预测因子构建的逻辑模型实现了高预测准确度(AUC=0.92),优于没有镶嵌现象信息构建的预测因子(图8B和图49)。该结果在将该分析限于评估时淋巴细胞计数正常(1–3.5×109/L)的个体时是稳健的(AUC=0.81;图8C)。在非常低的细胞分数下可检测到的具有12三体性的早期克隆,主要驱动了这一预测准确度提高(图50)。最多在诊断前6年,患有偶发性CLL的个体表现出克隆性,并且克隆分数与到恶性肿瘤的时间呈负相关(图8D)。申请人进一步观察到,可检测到的镶嵌现象几乎使所有原因的风险增加了一倍
讨论
通过使用长程相位信息来检测151,202个个体基因型数据中细微的染色体不平衡,申请人汇编了一个8,342个体细胞SV的图谱—比以前的分析[1,2,7,8]高出一个数量级。申请人利用这些数据提供的统计功效揭示了嵌合SV的基因组分布,鉴定出克隆扩增的许多遗传驱动因子,发现了这些强遗传影响的可能机制,并研究了克隆扩增对健康结果的影响。
克隆扩增源于突变后的选择性增殖[10],并且上述结果揭示了驱动这种转换的多样性生物机制。首先,基因组修饰必须发生。我们的体细胞SV图谱证实,产生CNN-LOH的有丝分裂重组、产生染色体获得与丢失的错误分离以及产生间隙缺失的复制错误是产生SV[1,2,7,8]的最常见方法,同时也强调脆性位点FRA10B的断裂是突变的一个特定来源。第二,携带染色体畸变的突变细胞必须避免凋亡和衰老。申请人在TP53、CHEK2和TERT中观察到克隆性的反式驱动因子,证实了最近将细胞周期基因的变异与mLOY联系起来的结果[19]。第三,突变细胞必须拥有增殖优势。对于改变拷贝数(例如,肿瘤抑制基因的丢失)的SV[1,2,7,8],选择性压力通常是清楚的,但是对于CNN-LOH而言除了在其中一个CNN-LOH对一个频繁突变的基因座[49]提供第二次打击或破坏印记[50]的情况之外,很难追踪到选择性压力。申请人在这里观察到,CNN-LOH也可以通过复制或去除遗传等位基因实现强选择性优势。
遗传性CNN-LOH风险变体的高外显率(高达50%)挑战了通常被视为遗传性等位基因和(更易变的)获得性突变之间的根本区别,因为大部分遗传性等位基因携带者随后获得接着克隆性扩增了所讨论的突变。高外显率意味着有丝分裂重组足够普遍,以可预见地释放在个体生命周期中克隆选择纯合细胞的潜在遗传机会。类似地,申请人在FRA10B观察到10q断裂的孟德尔遗传模式(Mendelian inheritance pattern),尽管该事件涉及获得性(体细胞)突变(图6A-6E)。
克隆扩增表现出不同水平的增殖和生物转换,因此对健康有一系列影响[10]。申请人发现许多体细胞SV,包括一些由顺式作用遗传变异驱动的体细胞SV,没有明显的副作用。然而,在血癌中常见的体细胞SV极大地增加了癌症风险,并有可能用于早期检测。随着收集基因型数据和健康结果的群体规模的努力继续扩大——样本量和基于群体的染色体定相的能力都在增加——申请人预料克隆造血及其临床后遗症的分析将会越来越强大。
方法
UK Biobank队列和基因型强度数据。UK Biobank是对评估时年龄为40-70岁的个体的一项非常大的前瞻性研究[23]。参与者在2006-2010年间参加了评估中心,在那里他们提供了用于基因分型和血液分析的血样,并回答了关于病史和环境暴露的问卷。在评估后的几年中,这些个体的健康结果数据(例如,癌症诊断和死亡)一直通过英国国家注册处累积。
申请人分析了来自UK Biobank的遗传数据,该UK Biobank由152,729个样本组成,这些样本在具有~800K SNP和>95%重叠率的Affymetrix UK BiLEVE和UK Biobank Axiom阵列上分类。申请人从基于缺失和杂合性过滤器的基因组分析中剔除了480名标记为排除的个体,并剔除了1名撤回同意的个体,留下了152,248份样本。申请人将变体集限制为缺失≤10%的双等位基因变体,申请人还排除了111个在UK BiLEVE阵列和UK Biobank阵列之间发现具有显著不同等位基因频率的变体,留下在常染色体和X染色体上的725,664种变体。最后,申请人另外排除了118,139种变体,其中少于10个样本(或者对于chrX,少于5个女性样本)就次要等位基因被调用为纯合;申请人观察到,这些变体的基因型调用容易出错,其中罕见的纯合子被调用为杂合子。申请人使用利用--Kpbwt=40,000及其它默认参数的Eagle2[26]对剩余的607,525种变体进行了定相。
申请人在仿射归一化和GC波校正[52]之后,以类似于Jacobs等人[1]的方式,将基因型强度转换为log2R比率(LRR)和B等位基因频率(BAF)值[51](其测量总的和相对的等位基因强度)(补充说明)。对于每个样本,申请人然后计算每个常染色体内杂合位点中的标准偏差(s.d.)(BAF),并且申请人移除了320个样本,这些样本中值标准偏差(BAF)>0.11,表明低基因型质量。最后,申请人移除了另外725个有可能污染[8]的证据的样本(基于在长程连锁不平衡区域的明显的短间隙的CNN-LOH事件;见补充说明)和1个没有表型数据的样本,留下151,202个样本用于分析。
使用长程单体型相位检测体细胞SV。在这里,申请人概述了我们的体细胞SV检测方法的关键思想。
核心直觉是申请人希望利用长程相位信息来寻找细胞群中母亲与父亲等位基因分数之间的局部不平衡(图9A-9C、图10A-10C和图11A-11C)。以前已经认识到单体型相位用于此目的的效用[8,53,54],但是以前的方法需要考虑大约每兆碱基出现的相位切换误差,这是基于单体型的分析所面临的普遍挑战[55]。在UK Biobank,申请人具有精确到几十兆碱基的相位信息[24,26],使得新的建模方法和检测灵敏度的进一步提高成为可能(图36)。
该技术采用3-状态隐Markov模型(HMM)来捕获杂合位点处由SV诱导的等位基因平衡偏差(|ΔBAF|)(图51)。该模型有一个单一的参数θ,表示在SV内种系杂合子的预计绝对BAF偏差。在计算定相的基因分型强度数据中,将相位调用与(有符号的)BAF偏差相乘会在SV内产生连续区域,其中预计的定相BAF偏差为+θ或-θ(在相位切换误差处出现符号翻转);在SV之外,预计没有BAF偏差。我们的HMM的三种状态编码了这三种可能性,并且来自这些状态的发射代表了有噪声的BAF测量。+θ和-θ状态之间的转移代表切换误差,而±θ和0状态之间的转移捕获SV边界。
使用参数化的HMM对观察到的定相BAF偏差进行建模的主要好处是自然地产生一个似然比检验统计量,用于确定染色体是否含有镶嵌SV。明确地说,对于θ的给定选择,申请人可以在假设由SV诱导的BAF偏差具有E[|ΔBAF|]=θ的情况下,使用标准的HMM动态规划计算对相位开关和SV边界中的不确定性进行积分,从而计算观察到的BAF数据的总概率。取θ的所有可能选择的最大似然与θ=0(即无SV)的似然之比,得出一个检验统计量。如果HMM全面地代表了数据,那么可以将这个检验统计量与渐近分布进行比较。然而,申请人在实践中知道HMM内的参数(例如,转移概率)估计不完全,因此申请人改为根据经验校准我们的检验统计:申请人通过计算随机相位数据的检验统计量来估计其零分布,并且申请人使用该经验零来控制FDR。最后,对于通过FDR阈值的染色体,申请人通过从HMM中对状态路径采样(使用θ的最大似然值)来调用SV边界。
上述检测程序仅使用BAF数据,并通过设计忽略LRR测量值(以对基因分型假象最大限度地稳健);然而,在检测到事件后,申请人并入LRR数据将检测到的SV调用为丢失、CNN-LOH或获得。镶嵌SV导致BAF(测量相对等位基因强度)在杂合位点偏离0.5,丢失和获得导致LRR(测量总强度)偏离0,偏离随克隆细胞分数而增加;因此,申请人观察到通过LRR和BAF偏差绘制检测到的事件产生了三个线性簇(图5A和图27),这与先前的工作[1,2,8]一致。申请人使用染色体特异性簇来调用拷贝数,以利用不同染色体上事件类型的不同频率。因为当BAF偏差接近于零时,簇收敛,所以对在低细胞分数下以<95%的置信度拷贝数检测到的SV,占所有检测到的SV的29%,申请人不调用其拷贝数。申请人然后如在参考文献[1]中那样估计克隆细胞分数。
作为排除可能的结构性重复的后处理步骤,申请人过滤了长度>10Mb、LRR>0.35或LRR>0.2且|ΔBAF|>0.16的事件,申请人过滤了长度<10Mb、LRR>0.2或LRR>0.1且|ΔBAF|>0.1的事件(图44)。(在涉及单独的HMM的预处理步骤中,大多数结构性重复已经被掩蔽。
血液谱系中体细胞SV类型的富集。申请人分析了14个血细胞计数指标(淋巴细胞、嗜碱性粒细胞、单核细胞、嗜中性粒细胞、红细胞和血小板的计数和百分比,以及红细胞和血小板的分布宽度),这些指标来自97%的参与者可用的完整血细胞计数数据。申请人将个体限制为自我报告为欧洲血统的个体(队列的96%),剩下140,250人;申请人然后按性别进行分层,在回归出年龄、年龄平方和吸烟状况后,将每个血液指标进行分位数归一化。
为了鉴定与不同血细胞类型相关的体细胞SV的种类,申请人首先根据染色体位置和拷贝数对SV进行分类。对于每个常染色体,申请人定义了五个不相交的SV类别,它们构成了大多数检测到的事件:p臂丢失、q臂丢失、p臂上的CNN-LOH、q臂上的CNN-LOH和获得。申请人将丢失和CNN-LOH事件按臂细分,但没有细分获得事件,因为大多数获得事件是全染色体三体(图1)。对于X染色体,申请人用一个单一的全染色体丢失类别替换了两个丢失类别。这一分类总共产生了114种SV类型。申请人将我们的血细胞富集分析限制在至少10次出现的78种SV类型,并且申请人进一步排除了chr17获得类别(因为几乎所有这些事件都是由已经计为17p-事件的i(17q)等臂染色体引起的;图20)。
对于剩余的77种SV类型中的每一种,申请人使用Fisher精确检验计算了每个标准化血液指标值异常(前1%)的个体中SV检测的富集。申请人报告了通过0.05的FDR阈值的显著富集(图5F和表6)。
染色体范围内与体细胞SV顺式关联的关联检验。为了鉴定影响邻近体细胞SV的遗传变体,申请人进行了两种类型的关联分析。首先,申请人寻找增加附近体细胞SV发生概率的变体。对于每种变体,申请人进行了Fisher检验,以确定该变体与最多三种变体特异性病例对照表型之间的关联,如果样本含有(i)缺失,(ii)CNN-LOH,或(iii)含变体或在4Mb以内(考虑到事件边界的不确定性)的获得事件,则通过考虑样本为病例进行定义。申请人检验了至少25个病例的表型。申请人对5100万个次要等位基因频率(MAF)>2×10–5(由UKBiobank使用UK10K和千人基因组计划第3阶段(1000Genomes Phase 3)参考小组[56]的合并进行归入)的归入变体进行了这些检验,不包括非欧洲MAF超过其欧洲MAF五倍的变体,所述变体往往估算不当。申请人分析了120,664个个体,这些个体在限制为自我报告的英国或爱尔兰血统的个体后保留,去除了主成分离群值(>4个标准偏差),并利用了0.05的相关性截止值(使用plinkrel截止值0.05)[57]。
申请人还进行了第二种形式的用于寻找体细胞SV倾向于使等位基因平衡移位(类似于等位基因特异性表达)的变体的关联分析。对于给定类别的SV,对于每种变体,申请人检查了SV与变体重叠的杂合SV携带者,并且申请人进行了二项式检验,以检查SV是否更有可能相对于另一个等位基因缺失或复制一个等位基因。申请人将二项式检验限于变体相对于SV被确信地定相的个体(在五次随机再抽样中没有不一致;补充说明)。
鉴于上述两种关联检验是独立的,申请人应用了两阶段发现和验证方法来鉴定全基因组的重要关联。申请人在任一检验中使用10-8的P值阈值进行发现,并在另一检验中检查名义P<0.05的显著性进行验证(推断影响体细胞SV的变体将表现出两种类型的关联)。在任一检验中,在所有P<10-8的基因座上,将一个检验中P<10-8的最显著变体在另一个检验中进行验证(表1)。在鉴定的基因座上,申请人进一步寻找达到P<10-6的次级独立关联。
在最后的分析中,申请人细化了体细胞SV表型,以略微增加映射关联的能力。对于与1p、9p和15q CNN-LOH相关的基因座,申请人发现,通过扩大病例状态以包括到达端粒的所有事件,关联强度得到提高(因为几个检测到的具有不确定拷贝数的端粒事件可能是由相同种系变体驱动的CNN-LOH)。对于FRA10B的关联信号,申请人将病例状态细化为仅包括从10q25延伸至端粒的末端丢失事件。
MPL和FRA10B处的血统一致性分析。在申请人发现多种因果罕见变体证据的基因座处,申请人在SV携带者中寻找共有血统一致性的长单体型,以进一步探索额外或复发性因果变体的可能性。申请人使用GERMLINE以单体型延伸调用IBD片段[58]。
SFARI Simons Simplex Collection数据集。Simons Simplex Collection(SSC)是由西蒙斯基金会自闭症研究计划(SFARI)[27]收集的来自自闭症单形家族的遗传样本的储存库。申请人分析了SSC测序第一阶段的2,076个全基因组序列(中位覆盖率37.8X[59]),以检查申请人检测到的镶嵌SV是否促成自闭症的遗传风险。获得批准的研究人员可以通过在https://base.sfari.org申请获得本研究中描述的SSC群体数据集。
15q26.3处70kb缺失的检测和调用。申请人通过在WGS数据中映射15q26.3关联信号(具体地,rs182643535标签SNP)发现了与15q CNN-LOH和丢失相关的遗传性70kb缺失(图7C和图37)。申请人随后使用缺失区域中24个探针的基因型强度在UK Biobank SNP-阵列数据中调用这种缺失(图38)。
FRA10B处VNTR的检测和归入。对于FRA10B位点具有>10个读段的所有SFARI样本,申请人进行了读段的局部组装,以尝试产生共有的VNTR序列。申请人在13个家族中鉴定出4个不同的序列(图34和图35)。申请人进一步检查了在FRA10B处具有高分数非参考读段的个体,以寻找另外的VNTR携带者。申请人收集了一份30名有足够的读段证据的携带者的保守名单(如果家族中的另一个个体是携带者,则需要更少的证据)。由于一些样本中的读段丢失,这些VNTR序列可能在其它SFARI样本中发现。申请人使用Minimac3[60]将VNTR序列归入UK Biobank。
克隆性反式驱动因子的GWAS和遗传力估计。申请人使用BOLT-LMM[61]对120,664名不相关的欧洲血统个体(如上所述)进行了MAF>0.1%的变体与六类SV(任何事件、任何丢失、任何CNN-LOH、任何获得、任何常染色体事件、任何常染色体丢失)的反式关联的检验,所述BOLT-LMM包括10个主成分、年龄和基因分型阵列作为协变量。申请人还使用一组扩展的3,462个可能的X丢失调用检验了与女性X丢失的关联,FDR为0.1,将该分析限于66,685个女性个体。在我们对先前GWAS中涉及的86种变体的靶向分析中,申请人基于86种变体和7种表型应用了8.3×10–5的Bonferroni显著性阈值。申请人使用BOLT-REML[40]估计了X丢失的SNP遗传力,将估计值转换为责任等级[62]。
GEUVADIS RNA-seq数据中X染色体失活的分析。为了检验偏倚性X染色体失活(XCI)对优先性X单体型丢失的可能调节作用,申请人在Xp11.1处的原发性偏倚性丢失关联附近检查了GEUVADIS RNA-seq数据[63]中偏倚性XCI的证据。申请人在含有关联信号的着丝粒周围连锁不平衡区内鉴定出FAAH2中的三种编码SNP。申请人分析了61个欧洲血统个体的RNA-seq数据,这些欧洲血统个体在至少一种SNP上是杂合的(61个中有60个在所有三种SNP上都是杂合的,剩下的一个个体在其中两种SNP上是杂合的)。申请人使用GATK[64]ASERead Counter从RNA-seq BAM文件中鉴定等位基因特异性表达。大多数个体在三种SNP上表现出强的一致性等位基因特异性表达,正如克隆淋巴母细胞样细胞系[39]中对XCI所预期的那样;然而,申请人观察到没有证据表明有利于一个等位基因或另一个等位基因的系统偏倚XCI(表10)。
UK Biobank癌症表型。申请人分析了23,901名具有一种或多种流行或偶发癌症诊断的个体的由UK Biobank提供的英国癌症登记数据。癌症登记数据包括诊断日期和ICD-O-3组织学和行为代码,申请人使用这些数据来鉴定诊断为CLL、MPN、血液和非血液癌症的个体[65,66]。由于我们的重点是体细胞SV对预测DNA收集后>1年偶发癌症的诊断的预后能力,因此申请人从分析中排除了所有在此之前报告癌症的个体(来自流行癌症的癌症登记数据或自我报告)。申请人还将注意力限制在每个个体的首次癌症诊断,并且根据UKBiobank的建议,申请人审查了在2014年9月30日之后的诊断(导致中位随访时间为5.7年,标准偏差为0.8年,范围为4-9年)。最后,申请人将分析限于自我报告欧洲血统的个体。这些排除将偶发病例总计数减少到78例CLL、42例MPN、441例血液癌症和7,458例非血液癌症,申请人分析了119,330例对照。
克隆性SV赋予的癌症风险的评估。为了鉴定与偶发癌症诊断相关的体细胞SV的类别,申请人根据染色体位置和拷贝数将SV分为上述114个类别。然后,申请人将注意力限制在至少有30个携带者的45个类别。对于每个SV类别,申请人认为如果样本仅含该SV或者如果该SV在样本中检测到的所有镶嵌SV中具有最高细胞分数,则该样本为病例(即,申请人不将亚克隆事件的携带者计为病例)。申请人使用Cochran-Mantel-Haenszel(CMH)检验计算了SV类别和偶发癌症之间的优势比和P值,以按性别和按年龄分层(在6个5年箱中)。申请人使用CMH检验来计算优势比(对于随访期间任何时间的偶发癌症),而不是使用Cox比例风险模型来计算风险比,因为SV表型和偶发癌症表型都很罕见,违反了回归潜在的正常近似值。申请人报告了通过0.05的FDR阈值的显著关联(图5A和表13)。
偶发CLL的预测。申请人考虑了三种嵌套逻辑模型来预测偶发CLL。在第一种模型即基线中,申请人只纳入年龄和性别作为解释变量。
在第二个模型中,申请人增加了淋巴细胞计数对数和CLL遗传风险(使用来自参考文献[48]的14个高置信度GWAS命中计算,这两个都已在以前发表,并达到P<5×10-8);淋巴细胞计数对数提供了准确度方面的大部分改进。在完整模型中,申请人添加了11q–、+12、13q–、13q CNN-LOH、14q–、22q–以及其它常染色体事件总数的解释变量。
申请人对两个样本基准集评估了每种模型的准确度,一个基准集含有所有样本(通过上述排除),另一个基准集限于评估时淋巴细胞计数正常(1-3.5×109/L)的个体,即表现出至多轻微的克隆性。(在第二基准集中,申请人将完整模型中的镶嵌事件限制在+12、13q–和13q CNN-LOH。)申请人进行了10倍分层交叉验证,以比较模型性能。申请人通过合并来自所有交叉验证折叠的结果和计算接收者操作特性曲线下面积(AUC)来评估预测准确度(图8B和图8C),并且申请人还测量了精确度-重新调用性能(图41)。
克隆性SV赋予的死亡率风险的评估。申请人分析了自评估以来报告死亡的4,619个个体的由UK Biobank提供的英国死亡登记数据。根据UK Biobank的建议,申请人对2015年12月31日之后的死亡进行了审查,在6.9年(5-10年)的中位随访时间内,有4,518例死亡报告。申请人检查了体细胞SV和死亡率之间的关系,旨在扩展以前的观察结果,即镶嵌点突变增加死亡率风险[3,4,11]。在这项分析中,申请人没有足够的能力按染色体对SV进行分层,因为SV对死亡率风险的影响较弱,且随访期间报告的死亡人数相对较少。因此,申请人仅按拷贝数对SV进行分层,并使用Cox比例风险模型计算每个事件类别赋予的风险比。申请人将这些分析限于自我报告欧洲血统的个体,并且申请人根据年龄、性别和吸烟状况进行了调整,这在以前与克隆造血[3,11,21]相关,并与UK Biobank的镶嵌现象相关(P=0.00017)。申请人观察到,所有类别的事件都增加了有或没有先前癌症诊断的个体的死亡率,其中丢失赋予的风险最高,并且CNN-LOH赋予的风险最低(图8D和表14)。
申请人发现本文描述的方法相当稳健,其中检测到的事件的总体基因组分布与先前的工作[1,2,7,8]大体一致。然而,在最初的分析中,申请人确实检测到了几百个明显的短的间隙CNN-LOH事件,这些事件指示了技术上的假象(鉴于CNN-LOH通常是由有丝分裂重组产生并延伸至端粒)。经检查,申请人发现绝大多数这些假象事件发生在基因组的五个特定区域:chr3:~45Mb(11个事件),chr6:~30Mb(709个事件),chr 8:~45Mb(12个事件),chr 10:~80Mb(40个事件),chr 17:~40Mb(40个事件)。申请人还注意到在同一样本中经常出现多个这样的检测;所有携带者的联合含有717个样本,几乎所有的所述样本都携带HLA的chr6假象(我们没有在最初的分析中掩蔽这一点)。chr3、chr6和chr8区域之前都曾被认为含有长程LD[70],这表明样本污染[8]是可能的罪魁祸首:如果样本被另一个个体的细胞污染,那么在长程LD区域(即低单体型多样性),等位基因平衡可能向有利于原始样本的亲本单体型之一的方向移位(无论哪一个与外源DNA更接近匹配)。为了安全起见,申请人因此从分析中排除了所有这717个样本,并且申请人进一步排除了6个具有3个或更多个间隙CNN-LOH调用的个体和2个具有3个或更多个具有高隐含切换误差率的调用的个体,总共排除了725个。
独立于上述问题,申请人还观察到了一种更罕见的技术假象,即在纯合性运行(ROH)中出现短的间隙CNN-LOH调用,其中一小部分位点被错误地调用为杂合子,随后在相同的单体型上被定相,导致非常强的相位对齐的BAF偏差。这些调用很容易过滤;申请人使用了低杂合性(<该区域预计杂合性的1/3)且LRR>–0.1(保证该区域不会由于丢失事件而可能成为半合子)的准则。在应用这些过滤器后,在所有样本中,申请人只剩下32个间隙CNN-LOH调用,手动检查时没有明显的假象。
焦点缺失的分析
体细胞SV的基因组分布是非常非随机的,长度<1Mb的常见缺失区域(CDR)尤其令人感兴趣,因为它们可能表明单倍剂量不足基因,对于所述单倍剂量不足基因,一个拷贝的丢失导致细胞过度增殖[2]。排除14q11.2、14q32.33和22q11.22中的V(D)J重组区,三个最常见的缺失区域在2p上靶向DNMT3A,在4q上靶向TET2,在13q上靶向DLEU2/DLEU7,与先前研究[2,8]中的观察结果匹配。申请人进一步观察到,在这些染色体臂上的大部分CNN-LOH事件包括这些基因,表明选择的趋同模式(图4和图38)。(申请人观察到一个相似的模式,即较长缺失和CNN-LOH事件跨11q上的ATM。)申请人还观察到三个基因的CDR,这三个基因以前在体细胞SV的群体研究中没有注意到,但在癌症中通常发生突变:12p上的ETV6(血液系统恶性肿瘤中发生突变),17q上的NF1(1型神经纤维瘤病中缺失),和22q上的CHEK2(参与DNA损伤反应并在许多癌症中发生突变)(图15、图20和图25)。此外,申请人观察到两个新的CDR,针对所述两个新的CDR文献搜索暗示了以下推定的靶基因:RPA2,其是包含在6个缺失中的1p36.11-1p35.3的300kb区域中的6个基因之一,并且参与了DNA损伤反应[71];和RYBP,其是包含在7个缺失中的3p13的620kb区域中的唯一基因,并且已经报道为肿瘤抑制基因[72](图12和图14)。
为了检测CDR,申请人需要鉴定许多丢失事件覆盖的短基因组区域;然而,申请人还需要要求丢失在某种程度上对焦点区域特异(例如,短的缺失应该比整个臂的缺失携带多得多的权重)。为了捕捉这种直觉,申请人给每个丢失事件等于6Mb/[事件长度]的权重,最大权重为1(对于小于6Mb的事件)。申请人随后检查了总权重超过4的所有区域,并检查了这些区域的累积丢失是否足够集中,从而被认为是CDR。
偏倚X染色体丢失的分析
除了对镶嵌状态进行标准GWAS之外,申请人还对检测到的SV进行了不同类型的关联搜索:在杂合个体中,等位基因平衡的变化相对于另一个等位基因有利于一个等位基因(类似于等位基因特异性表达)。由于X丢失的频率较高(图4),申请人完全能够在女性X染色体上运行该分析,并且为了进一步增加关联能力,申请人使用3,462个可能的X丢失调用的扩展集在0.1的FDR下执行了X丢失关联分析。申请人在DXZ1附近的Xp11.1处观察到显著的关联(P=6.6×10-27,丢失单体型的1.9:1的偏倚),在DXZ4附近的Xq23处观察到较弱的关联(P=1.0×10-9,丢失单体型的1.5:1的偏倚)(表1、图48和表10)。在两个基因座,申请人还观察到等位基因计数和X丢失之间的名义关联(P=1×10–3)(表1)。Xp11.1和Xq23偏倚信号似乎是独立的(当杂合风险单体型同相时为2.7:1偏向,异相时为1.2:1偏向)。申请人最初怀疑这些观察结果可以用有偏倚的X染色体失活(XCI)[39]来解释,特别是考虑到Xp11.1和Xp23在XCI[73]中的作用,但申请人没有在GEUVADIS RNA-seq数据[63]中发现任何有偏倚的XCI的证据(表11)。有趣的是,申请人观察到微弱的证据表明,Xp11.1处的先导SNPrs2942875似乎对X的获得有类似的影响(表10),这表明了一种涉及X错误分离的机制,但将需要更大的样本量来研究这种可能性;在FDR 0.1,申请人仅调用了29个可能的X获得。
表1.体细胞SV与遗传变体的新颖全基因组的显著关联。
报告了两个独立关联检验的结果:(i)Fisher检验将具有给定SV类型的个体视为病例;和(ii)(对于顺式关联)杂合病例中偏倚的等位基因不平衡的二项式检验(方法)。报告了在任一检验中具有P<1×10-8的基因座;一个检验检测的每个顺式关联在另一个检验中达到名义(P<0.05)显著性,提供验证。在显著性基因座,报告先导相关的变体以及达到P<1×10-6的另外的独立关联。
a风险降低/风险增加等位基因。
b风险等位基因频率(在UK Biobank中的欧洲血统个体中)。
c体细胞事件使等位基因平衡朝向有利于风险等位基因的方向移位的变体杂合的镶嵌个体的数量。
dFRA10B处rs118137427标签扩增的重复序列(图3)。
ers369156948是MPL处的无义突变。
f该缺失跨越chr15:102.15-102.22Mb(hg19)并且通过rs182643535标记。
表2.每条染色体检测的体细胞SV的数目
和chr22上的缺失包括V(D)J重组事件(25个事件在chr14上以及25个事件在chr22上)。
表3.每个个体检测的体细胞常染色体SV数目的分布。
体细胞SV计数 频率
0 146313
1 4448
2 295
3 103
4 27
5 7
6 4
7 0
8 2
9 1
10 0
11 1
12 1
大多数具有几个检测的体细胞SV的个体患有流行性或偶发性癌症。
表4.体细胞SV之间的共发生富集
我们报告了具有显著共发生(P<8×10-6Bonferroni阈值且至少三个个体携带两个事件)的体细胞SV类型对(按染色体臂和拷贝数分组)。(我们将丢失和CNN-LOH事件按p臂与q臂进行细分,但我们没有按臂没有细分获得事件,因为大多数获得事件是全染色体三体;例如,“+3”合并了染色体3上的所有获得,部分的或完全的。)我们在我们的共发生富集计算中排除了具有>3个检测的SV的个体,以防止具有大量SV的个体(通常为癌症病例)在结果中占据优势。13-和13=事件(即13q14缺失和13q CNN-LOH,慢性淋巴细胞白血病中常见的一种组合)使用与表格其余部分略微不同的程序计算,因为这些事件影响chr13的两个同源拷贝,产生不能通过我们的检测算法考虑的特殊病例(在这种情况下其仅调用13q CNN-LOH)。特别地,我们基于13q14(50.6-51.6Mb)中的平均总强度(LRR)调用13q14缺失;然后我们计算与13q CNN-LOH事件的共发生。
表5.检测的体细胞SV随年龄变化的个体的分数。
此表提供了图5D中绘出的数值数据。
表6.在每条染色体上具有检测的体细胞SV的个体的年龄和性别分布
表7.体细胞SV在具有异常(前1%)血液指标的个体中的富集
/>
/>
表8.FRA10B可变数目串联重复与10q25.2处的断裂的关联(a)SFARI数据中鉴定并归入UK Biobank的可变数目串联重复
(a)UK Biobank中类型化或归入的先导相关的SNP
表9.MPL和ATM处与顺式体细胞CNN-LOH相关的SNP,P<10-7
等位基因:风险降低/增加等位基因。RAF:风险等位基因频率(在UK Biobank中的欧洲血统个体中)
表10.与偏倚的X丢失(P偏倚<10-6)和X获得数据的顺式关联
/>
A1、A2:主要/次要等位基因。A2F:次要等位基因频率。A2F病例:具有X丢失(resp.获得)的个体的A2频率。PGWAS:与增加的X事件风险的关联。NA1+:具有X丢失(resp.获得)的杂合个体的数目,其中A1/A2等位基因平衡朝向A1等位基因移位(并且对于NA2+而言类似)。P偏倚:偏倚移位的P-值。
表11.GEUVADIS RNA-seq数据没有rs2942875-偏倚的X失活的证据
/>
/>
/>
/>
/>
/>
表12.与先前报告为与相关表型关联的SNP处的体细胞SV类别的反式关联
/>
/>
表13体细胞SV赋予的偶发性癌症的风险增加
/>
表14.体细胞SV赋予的~7-年随访期间死亡率的风险增加。
(a)体细胞SV赋予的所有原因死亡率风险增加
(b)体细胞SV赋予的非癌症死亡率风险增加
***
在不脱离本发明的范围和精神的情况下,本发明的所述方法、计算机程序产品、系统和套组的各种修改和变化对于本领域技术人员来说是显而易见的。尽管已经结合具体实施方案描述了本发明,但是应当理解,本发明能够进一步修改,并且所要求保护的本发明不应当不适当地局限于这些具体实施方案。实际上,对于本领域技术人员来说显而易见的用于实施本发明的所述模式的各种修改都在本发明的范围内。本申请意图覆盖本发明的任何变化、使用或改编,一般来说,遵循本发明的原理并包括与本公开的这种偏离,属于本发明所属领域内的已知惯例,并且可以应用于本文之前阐述的基本特征。
引用的参考文献
1.Jacobs,K.B.et al.Detectable clonal mosaicism and its relationshipto aging and cancer.Nature Genetics 44,6551-6558(2012).
2.Laurie,C.C.et al.Detectable clonal mosaicism from birth to old ageand its relationship to cancer.Nature Genetics 44,642-650(2012).
3.Genovese,G.et al.Clonal hematopoiesis and blood-cancer riskinferred from blood DNA sequence.New England Journal of Medicine 371,2477-2487(2014).
4.Jaiswal,S.et al.Age-related clonal hematopoiesis associated withadverse outcomes.New England Journal of Medicine 371,2488-2498(2014).
5.Xie,M.et al.Age-related mutations associated with clonalhematopoietic expansion and malignancies.Nature Medicine 20,1472-1478(2014).
6.McKerrell,T.et al.Leukemia-associated somatic mutations drivedistinct patterns of age-related clonal hemopoiesis.Cell Reports 10,1239-1245(2015).
7.Machiela,M.J.et al.Characterization of large structural geneticmosaicism in human autosomes.American Journal of Human Genetics 96,487-497(2015).
8.Vattathil,S.&Scheet,P.Extensive hidden genomic mosaicism revealedin normal tissue.American Journal of Human Genetics 98,571-578(2016).
9.Young,A.L.,Challen,G.A.,Birmann,B.M.&Druley,T.E.Clonalhaematopoiesis har-bouring AML-associated mutations is ubiquitous in healthyadults.Nature Communications 7(2016).
10.Forsberg,L.A.,Gisselsson,D.&Dumanski,J.P.Mosaicism in health anddisease-clones picking up speed.Nature Reviews Genetics(2016).
11.Zink,F.et al.Clonal hematopoiesis,with and without candidatedriver mutations,is com-mon in the elderly.Blood blood-2017(2017).
12.Jaiswal,S.et al.Clonal hematopoiesis and risk of atheroscleroticcardiovascular disease.New England Journal of Medicine(2017).
13.Jones,A.V.et al.JAK2 haplotype is a major risk factor for thedevelopment of myelopro-liferative neoplasms.Nature Genetics 41,446-449(2009).
14.Kilpivaara,O.et al.A germline JAK2 SNP is associated withpredisposition to the develop-ment of JAK2V617F-positive myeloproliferativeneoplasms.Nature Genetics 41,455-459(2009).
15.Olcaydu,D.et al.A common JAK2 haplotype confers susceptibility tomyeloproliferative neoplasms.Nature Genetics 41,450-454(2009).
16.Koren,A.et al.Genetic variation in human DNA replicationtiming.Cell 159,1015-1026(2014).
17.Zhou,W.et al.Mosaic loss of chromosome Y is associated with commonvariation near TCLIA.Nature Genetics 48,563-568(2016).
18.Hinds,D.A.et al.Germ line variants predispose to both JAK2 V617Fclonal hematopoiesis and myeloproliferative neoplasms.Blood 128,1121-1128(2016).
19.Wright,D.J.et al.Genetic variants associated with mosaic Ychromosome loss highlight cell cycle genes and overlap with cancersusceptibility.Nature Genetics(2017).
20.Forsberg,L.A.et al.Mosaic loss of chromosome Y in peripheral bloodis associated with shorter survival and higher risk of cancer.NatureGenetics46,624-628(2014).
21.Dumanski,J.P.et al.Smoking is associated with mosaic loss ofchromosome Y.Science 347,81-83(2015).
22.Dumanski,J.P.et al.Mosaic loss of chromosome Y in blood isassociated with Alzheimer disease.American.Journal of Human Genetics 98,1208-1219(2016).
23.Sudlow,C.et al.UK Biobank:an open access resource for identifyingthe causes of a wide range of complex diseases of middle and old age.PLOSMedicine 12,1-10(2015).
24.Loh,P.-R.,Palamara,P.F.&Price,A.L.Fast and accurate long-rangephasing in a uk biobank cohort.Nature Genetics48(2016).
25.O’Connell,J.et al.Haplotype estimation for biobank-scale datasets.Nature Genetics(2016).
26.Loh,P.-R.etal.Reference-basedphasingusingtheHaplotypeReferenceConsortiumpanel.Nature Genetics 48,1443-1448(2016).
27.Fischbach,G.D.&Lord,C.The Simons Simplex Collection:a resource foridentification of autism genetic risk factors.Neuron 68,192-195(2010).
28.Davoli,T.et al.Cumulative haploinsufficiency and triplosensitivitydrive aneuploidy pat-terns and shape the cancer genome.Cell 155,948-962(2013).
29.Beroukhim,R.et al.The landscape of somatic copy-number alterationacross human can-cers.Nature463,899-905(2010).
30.Landau,D.A.et al.Mutations driving CLL and their evolution inprogression and relapse.Nature 526,525-530(2015).
31.Puente,X.S.et al.Non-coding recurrent mutations in chroniclymphocytic leukaemia.Nature 526,519-524(2015).
32.Machiela,M.J.et al.Female chromosome X mosaicism is age-relatedand preferentially affects the inactivated X chromosome.Nature Comnunications7(2016).
33.Sinclair,E.J.,Potter,A.M.,Watmore,A.E.,Fitchett,M.&Ross,F.Trisomy15 associated with loss of the Y chromosome in bone marrow:a possible newaging effect.Cancer Genetics and Cytogenetics 105,20-23(1998).
34.Sutherland,G.,Baker,E.&Seshadri,R.Heritable fragile sites on humanchromosomes.V.A new class of fragile site requiring BrdU forexpression.American Journal of Human Genetics 32,542(1980).
35.Hewett,D.R.et al.FRA 10B structure reveals common elements inrepeat expansion and chromosomal fragile site genesis.Molecular Cell 1,773-781(1998).
36.Richards,R.I.&Sutherland,G.R.Dynamic mutations:a new class ofmutations causing human disease.Cell 70,709-712(1992).
37.Gurney,A.L.,Carver-Moore,K.,de Sauvage,F.J.&Moore,M.W.Thrombocytopenia in c-mpl-deficient mice.Science 265,1445-1448(1994).
38.Teffert,A.Novel mutations and their functional and clinicalrelevance in myeloproliferative neoplasms:JAK2,MPL,TET2,ASXL1,CBL,IDH andIKZF1.Leukemia 24,1128-1138(2010).
39.Tukiainen,T.et al.Landscape of X chromosome inactivation acrosshuman tissues.bioRxiv 073957(2016).
40.Loh,P.-R.et al.Contrasting genetic architectures of schizophreniaand other complex diseases using fast variance components analysis.NatureGenetics 47,1385-1392(2015).
41.Oddsson,A.et al.The germline sequence variant rs2736100 c in TERTassociates with myeloproliferativc neoplasms.Leukemia 28,1371-1374(2014).
42.Stacey,S.N.et al.A germline variant in the TP53 polyadenylationsignal confers cancer susceptibility.Nature Genetics 43,1098-1103(2011).
43.Rawstron,A.C.etal.MonoclonalB-celllymphocytosisandchroniclymphocyticleukemia.New England Journal of Medicine 359,575-583(2008).
44.Landgren,O.et al.B-cell clones as early markers for chroniclymphocytic leukemia.New England Journal of Medicine 360,659-667(2009).
45.Landau,D.A.et al.Evolution and impact of subclonal mutations inchronic lymphocytic leukemia.Cell 152,714-726(2013).
46.Ojha,J.et al.Monoclonal B-cell lymphocytosis is characterized bymutations in CLL puta-tive driver genes and clonal heterogeneity many yearsbefore disease progression.Leukemia 28,2395-2398(2014).
47.Roulland,S.et al.t(14;18)translocation:A predictive blod biomarkerfor follicular lym-phoma.Journal of Clinical Oncology 32,1347-1355(2014).
48.Berndt,S.I.et al.Meta-analysis of genome-wide association studiesdiscovers multiple loci for chronic lymphocytic leukemia.NatureCommunications 7(2016).
49.O’Keefe,C.,McDevitt,M.A.&Maciejewski,J.P.Copy neutral loss ofheterozygosity:a novel chromosomal lesion in myeloid malignancies.Blood 115,2731-2739(2010).
50.Chase,A.etal.Profoundparentalbiasassociatedwithchromosome14acquireduniparental disomy indicates targeting of an imprintedlocus.Leukemia 29,2069-2074(2015).
51.Peiffer,D.A.et al.High-resolution genomic profiling of chromosomalaberrations using Infinium whole-genome genotyping.Genome Research 16,1136-1148(2006).
52.Diskin,S.J.et al.Adjustment of genomic waves in signal intensitiesfrom whole-genome SNP genotyping platforms.Nucleic Acids Research 36,e126-e126(2008).
53.Nik-Zainal,S.et al.The life history of 21 breast cancers.Cell 149,994-1007(2012).
54.Vattathil,S.&Scheet,P.Haplotype-based profiling of subtle allelicimbalance with SNP arrays.Genome Research 23,152-158(2013).
55.Genovese,G.,Leibon,G.,Pollak,M.R.&Rockmore,D.N.Improved IBDdetection using incomplete haplotype information.BMC Genetics 11,58(2010).
56.Huang,J.et al.Improved imputation of low-frequency and rarevariants using the UK10K haplotype reference pamel.Nature Communications 6(2015).
57.Chang,C.C.et al.Second-generation PLINK:rising to the challenge oflarger and richer datasets.GigaScience 4,1-16(2015).
58.Gusey,A.et al.Whole population,genome-wide mapping of hiddenrelatedness.Genome Research 19,318-326(2009).
59.Werling,D.M.et al.Limited contribution of rare,noncoding variationto autism spectrum disorder from sequencing of 2,076genomes in quartetfamilies,bioRxiv 127043(2017).
60.Das,S.et al.Next-generation genotype imputation service andmethods.Nature Genetics 48,1284-1287(2016).
61.Loh,P.-R.et al.Efficient Bayesian mixed model analysis increasesassociation power in large cohorts.Nature Genetics 47,284-290(2015).
62.Lee,S.H.,Wray,N.R.,Goddard,M.E.&Visscher,P.M.Estimating missingheritability for disease from genome-wide association studies.AmericanJournal of Human Genetics 88,294-305(2011).
63.Lappalainen,T.et al.Transcriptome and genome sequencing uncoversfunctional variation in humans.Nature 501,506-511(2013).
64.McKenna,A.et al.The genome analysis toolkit:a mapreduce frameworkfor analyzing next-generation dna sequencing data.Genome Research 20,1297-1303(2010).
65.Turner,J.J.et al.InterLymph hierarchical classification oflymphoid neoplasms for epi-demiologic research based on the WHOclassification(2008):update and future directions.Blood blood-2010(2010).
66.Arber,D.A.etal.The2016revisiontotheWorldHealthOrganization(WHO)classification of myeloid neoplasms and acute leukemia.Bloo blood-2016(2016).
67.Affymetrix,Inc.genotyping solution data analysis guide(2016).URL http://media.affymetrix.com/support/downloads/manuals/axiom_genotyping_solution_analysis_guide.pdf.
68.Quinlan,A.R.&Hall,I.M.BEDTools:a flexible suite of utilities forcomparing genomic features.Bioinformatics 26,841-842(2010).
69.Bock,C.,Walter,J.,Paulsen,M.&Lengauer,T.CpG island mapping byepigenome pre-diction.PLOS Computational Biology 3,e110(2007).
70.Price,A.L.et al.Long-range LD can confound genome scans in admixedpopulations.American Journal of Human Genetics 83,132(2008).
71.Lee,D.-H.et al.A PP4 phosphatase complex dephosphorylates RPA2 tofacilitate DNA repair via homologous recombination.Nature Structural&Molecular Biology 17,365-372(2010).
72.Chen,D.et al.RYBP stabilizes p53 by modulating MDM2.EMBO Reports10,166-172(2009).
73.Rao,S.S.et al.A 3D map of the human genome at kilobase resolutionreveals principles of chromatin looping.Cell 159,1665-1680(2014).
74.Di Bernardo,M.C.et al.A genome-wide association study identifiessix susceptibility loci for chronic lymphocytic leukemia.Nature Genetics 40,1204-1210(2008).
75.Slager,S.L.et al.Genome-wide association study identifies a novelsusceptibility locus at 6p21.3 among familial CLL.Blood 117,1911-1916(2011).
76.Slager,S.L.et al.Common variation at 6p21.31(BAK1)influences therisk of chronic lymphocytic leukemia.Blood 120,g43-846(2012).
77.Berndt,S.I.et al.Genome-wide association study identifies multiplerisk loci for chronic lymphocytic leukemia.Nature Genetics 45,868-876(2013).
78.Speedy,H.E.et al.A genome-wide association study identifiesmultiple susceptibility loci for chronic lymphocytic leukemia.Nature Genetics46,56-60(2014).
79.Tapper,W.et al.Genetic variation at MECOM,TERT,JAK2 and HBS1L-MYBpredisposes to myeloproliferative neoplasms.Nature Communications 6(2015).
80.Codd,V.et al.Identification of seven loci affecting mean telomerelength and their associ-ation with disease.Nature Genetics 45,422-427(2013).
81.Machiela,M.J.&Chanock,S.J.LDlink:aweb-basedapplicationforexploringpopulation-specific haplotype structure and linking correlated alleles ofpossible functional variants.Bioinformatics 31,3555-3557(2015).

Claims (28)

1.一种检测镶嵌结构变体(SV)的计算机实现方法,包括:
使用一个或多个计算设备确定一个或多个样本的总等位基因强度和相对等位基因强度,其中确定所述总等位基因强度和相对等位基因强度包括确定总等位基因频率和相对等位基因频率,其包括将基因型强度数据转换为logR2比(LRR)和B等位基因频率(BAF)值;
使用所述一个或多个计算设备掩蔽所述一个或多个样本的每个样本中的组成性区段重复,其中掩蔽所述组成性区段重复包括使用所述一个或多个计算设备对观察的定相BAF偏差(pBAF)进行建模并且其中对所述观察的pBAF进行建模通过使用第一隐Markov模型(HMM)以对应于pBAF值的状态跨个体染色体进行建模来执行;
使用所述一个或多个计算设备鉴定所述一个或多个样本中每个样本的镶嵌SV事件的假定集,其中鉴定镶嵌SV事件的所述假定集包括使用第二HMM并且其中所述第二HMM通过代表给定镶嵌SV事件内平均|ΔBAF|的单一参数进行参数化;以及
至少部分基于对所述镶嵌SV事件的假定集应用似然比检验,使用所述一个或多个计算设备对所述一个或多个样本的每个样本定义一个或多个镶嵌SV事件。
2.如权利要求1所述的方法,还包括使用所述一个或多个计算设备对所述一个或多个样本中每个样本的每个鉴定的镶嵌SV事件的染色体位置进行定位。
3.如权利要求2所述的方法,还包括使用所述一个或多个计算设备确定所述一个或多个样本中每个样本的每个鉴定的镶嵌SV事件的拷贝数。
4.如权利要求1所述的方法,其中所述第一隐Markov模型(HMM)是25-状态隐Markov模型(HMM)。
5.如权利要求1所述的方法,其中所述第二HMM是3-状态HMM。
6.如权利要求5所述的方法,其中对每个鉴定的镶嵌SV事件的所述染色体位置进行定位包括从所述3-状态HMM的后部采集5个样本并基于所述5个样本的一致性确定每个SV事件的边界。
7.如权利要求1所述的方法,还包括使用所述一个或多个计算设备检测每个鉴定的镶嵌SV事件的多个亚克隆事件。
8.如权利要求7所述的方法,其中检测多个亚克隆事件包括使用Viterbi解码在51-状态HMM上用范围从0.01至0.25的|ΔBAF|水平以乘性增量对每个鉴定的镶嵌SV进行重新分析。
9.如权利要求8所述的方法,还包括选择掩蔽区域,这包括计算通过所述HMM的Viterbi路径和检查非零态的毗连区。
10.如权利要求9所述的方法,其中所检测的一个或多个SV事件包含选自表13的一个或多个SV事件。
11.一种计算机程序产品,包括:
一种非暂时性计算机可执行存储设备,具有在其上实施的计算机可读程序指令,所述计算机可读程序指令当被计算机执行时使得所述计算机可根据基因分型数据检测镶嵌结构变体(SV),所述计算机可执行程序指令包括:
确定一个或多个样本的总等位基因强度和相对等位基因强度的计算机可执行程序指令,其通过确定总等位基因频率和相对等位基因频率,包括将基因型强度数据转换为logR2比(LRR)和B等位基因频率(BAF)值;
掩蔽组成性区段重复的计算机可执行程序指令,其通过掩蔽所述组成性区段重复包括使用所述一个或多个计算设备对观察的定相BAF偏差(pBAF)进行建模并且其中对所述观察的pBAF进行建模通过使用第一隐Markov模型(HMM)以对应于pBAF值的状态跨个体染色体进行建模来执行;
鉴定所述一个或多个样本中每个样本的镶嵌SV事件的假定集的计算机可执行程序指令,其使用第二HMM并且其中所述第二HMM通过代表给定镶嵌SV事件内平均|ΔBAF|的单一参数进行参数化;以及
定义所述一个或多个样本的每个样本的一个或多个镶嵌SV事件的计算机可执行程序指令。
12.如权利要求11所述的计算机程序产品,还包括对所述一个或多个样本中每个样本的每个鉴定的镶嵌SV事件的染色体位置进行定位的计算机可执行程序指令。
13.如权利要求12所述的计算机程序产品,还包括确定每个鉴定的镶嵌SV事件的拷贝数的计算机可执行程序指令。
14.如权利要求11至13中任一项所述的计算机程序产品,还包括检测每个鉴定的镶嵌SV的多个亚克隆事件的计算机可执行程序指令。
15.如权利要求11所述的计算机程序产品,其中所述第二HMM是3-状态HMM。
16.如权利要求14所述的计算机程序产品,还包括基于检测所述一个或多个镶嵌SV事件检测疾病或对疾病的易感性。
17.如权利要求16所述的计算机程序产品,其中所述疾病是癌症。
18.如权利要求17所述的计算机程序产品,其中所述癌症是血液系统癌症。
19.如权利要求18所述的计算机程序产品,其中所述血液系统癌症是白血病。
20.如权利要求19所述的计算机程序产品,其中所述白血病是慢性淋巴细胞白血病。
21.一种检测一个或多个镶嵌SV事件的系统,所述系统包括:
存储设备;以及
处理器,所述处理器通信地耦合至所述存储设备,其中所述处理器执行应用代码指令,所述应用代码指令存储在所述存储设备中并使得所述系统:
确定一个或多个样本的总等位基因强度和相对等位基因强度,其中确定所述总等位基因强度和相对等位基因强度包括确定总等位基因频率和相对等位基因频率,其包括将基因型强度数据转换为logR2比(LRR)和B等位基因频率(BAF)值;
掩蔽组成性区段重复,其中掩蔽所述组成性区段重复包括使用所述一个或多个计算设备对观察的定相BAF偏差(pBAF)进行建模并且其中对所述观察的pBAF进行建模通过使用第一隐Markov模型(HMM)以对应于pBAF值的状态跨个体染色体进行建模来执行;
鉴定所述一个或多个样本中每个样本的镶嵌SV事件的假定集,其中鉴定镶嵌SV事件的所述假定集包括使用第二HMM并且其中所述第二HMM通过代表给定镶嵌SV事件内平均|ΔBAF|的单一参数进行参数化;以及
定义所述一个或多个样本的每个样本的一个或多个镶嵌SV事件。
22.一种套组,包括确定等位基因频率的试剂和权利要求11至20中任一项所述的计算机程序产品、或权利要求21所述的系统。
23.如权利要求22所述的套组,其用于检测受试者中疾患的存在或易感性的方法,所述方法包括在来自所述受试者的样本中的核酸中根据权利要求1所述的方法检测一种或多种镶嵌结构变体,其中所述一种或多种镶嵌结构变体的存在或不存在指示所述疾患的存在或易感性。
24.如权利要求23所述的套组,其中所述核酸是无细胞核酸。
25.如权利要求24所述的套组,其中所述样本是母体血液并且所述无细胞核酸是胎儿无细胞核酸。
26.如权利要求24所述的套组,其中所述无细胞核酸是循环肿瘤DNA。
27.如权利要求23所述的套组,其中所述疾患是胎儿非整倍性。
28.如权利要求23所述的套组,其中所述疾患是癌症。
CN201880074652.6A 2017-10-17 2018-10-17 用于检测体细胞结构变体的方法和系统 Active CN111587302B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762573642P 2017-10-17 2017-10-17
US62/573,642 2017-10-17
PCT/US2018/056342 WO2019079493A2 (en) 2017-10-17 2018-10-17 METHODS AND SYSTEMS FOR DETECTING SOMATIC STRUCTURAL VARIANTS

Publications (2)

Publication Number Publication Date
CN111587302A CN111587302A (zh) 2020-08-25
CN111587302B true CN111587302B (zh) 2023-09-01

Family

ID=66174625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880074652.6A Active CN111587302B (zh) 2017-10-17 2018-10-17 用于检测体细胞结构变体的方法和系统

Country Status (6)

Country Link
US (1) US20200303036A1 (zh)
EP (1) EP3697946A4 (zh)
JP (2) JP7277450B2 (zh)
CN (1) CN111587302B (zh)
CA (1) CA3079190A1 (zh)
WO (1) WO2019079493A2 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11408026B2 (en) 2020-04-24 2022-08-09 LifeVault Bio, Inc. Methods of predicting susceptibility to infectious disease and related methods of treatment
CN113066529B (zh) * 2021-03-26 2023-08-18 四川大学华西医院 基于全外显子数据的近亲家系鉴定方法、装置及设备
CN114863994B (zh) * 2022-07-06 2022-09-30 新格元(南京)生物科技有限公司 污染评估方法、装置、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229244B2 (en) * 2002-11-11 2019-03-12 Affymetrix, Inc. Methods for identifying DNA copy number changes using hidden markov model based estimations
EP3249053A1 (en) * 2009-03-27 2017-11-29 Life Technologies Corporation Methods, compositions, and kits for detecting allelic variants
US9928338B2 (en) * 2011-06-01 2018-03-27 The Board Of Trustees Of The Leland Stanford Junior University Method and system for phasing individual genomes in the context of clinical interpretation
WO2013086464A1 (en) * 2011-12-07 2013-06-13 The Broad Institute, Inc. Markers associated with chronic lymphocytic leukemia prognosis and progression
US10289800B2 (en) * 2012-05-21 2019-05-14 Ariosa Diagnostics, Inc. Processes for calculating phased fetal genomic sequences
US10577655B2 (en) * 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
NZ731884A (en) * 2014-10-17 2017-05-26 Ancestry Com Dna Llc Haplotype phasing models
US10395759B2 (en) * 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CN116640847A (zh) * 2016-02-02 2023-08-25 夸登特健康公司 癌症进化检测和诊断
PT3596233T (pt) * 2017-03-17 2022-08-22 Sequenom Inc Métodos e processos para avaliação de mosaicismo genético
WO2018170578A1 (en) * 2017-03-20 2018-09-27 Ontario Institute For Cancer Research (Oicr) Cancer risk based on tumour clonality

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Extensive Hidden Genomic Mosaicism Revealed in Normal Tissue;Selina Vattathil等;《The American Journal of Human Genetics》;20160303;第98卷;第571-578页 *

Also Published As

Publication number Publication date
CA3079190A1 (en) 2019-04-25
EP3697946A2 (en) 2020-08-26
EP3697946A4 (en) 2021-07-14
US20200303036A1 (en) 2020-09-24
JP2020537527A (ja) 2020-12-24
JP2023071770A (ja) 2023-05-23
JP7277450B2 (ja) 2023-05-19
CN111587302A (zh) 2020-08-25
WO2019079493A3 (en) 2020-04-02
WO2019079493A2 (en) 2019-04-25

Similar Documents

Publication Publication Date Title
Loh et al. Insights into clonal haematopoiesis from 8,342 mosaic chromosomal alterations
Terao et al. Chromosomal alterations among age-related haematopoietic clones in Japan
Taylor et al. Germline BRCA2 mutations drive prostate cancers with distinct evolutionary trajectories
Carmi et al. Sequencing an Ashkenazi reference panel supports population-targeted personal genomics and illuminates Jewish and European origins
US11978535B2 (en) Methods of detecting somatic and germline variants in impure tumors
TWI758011B (zh) Dna混合物中之組織甲基化模式分析
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
US20200270707A1 (en) Methylation pattern analysis of haplotypes in tissues in a dna mixture
Sun et al. Integrated analysis of gene expression, CpG island methylation, and gene copy number in breast cancer cells by deep sequencing
Gudmundsson et al. A common variant at 8q24. 21 is associated with renal cell cancer
US20220028482A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
Halperin et al. A method to reduce ancestry related germline false positives in tumor only somatic variant calling
WO2016139534A2 (en) Apparatuses and methods for determining a patient&#39;s response to multiple cancer drugs
Villani et al. The clinical utility of integrative genomics in childhood cancer extends beyond targetable mutations
CN111587302B (zh) 用于检测体细胞结构变体的方法和系统
Shukla et al. Feasibility of whole genome and transcriptome profiling in pediatric and young adult cancers
Roberts et al. Short and long-read genome sequencing methodologies for somatic variant detection; genomic analysis of a patient with diffuse large B-cell lymphoma
Bodily et al. Effects of germline and somatic events in candidate BRCA-like genes on breast-tumor signatures
WO2023133093A1 (en) Machine learning guided signal enrichment for ultrasensitive plasma tumor burden monitoring
Livingstone et al. The telomere length landscape of prostate cancer
Díez-Villanueva et al. COLONOMICS-integrative omics data of one hundred paired normal-tumoral samples from colon cancer patients
Docking et al. Genomic testing in myeloid malignancy
Wang et al. Evolving copy number gains promote tumor expansion and bolster mutational diversification
Cheng et al. Whole genome error-corrected sequencing for sensitive circulating tumor DNA cancer monitoring
Genovese et al. Chromosomal phase improves aneuploidy detection in non-invasive prenatal testing at low fetal DNA fractions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant