CN112927755A - 一种鉴定cfDNA变异来源的方法和系统 - Google Patents
一种鉴定cfDNA变异来源的方法和系统 Download PDFInfo
- Publication number
- CN112927755A CN112927755A CN202110182047.4A CN202110182047A CN112927755A CN 112927755 A CN112927755 A CN 112927755A CN 202110182047 A CN202110182047 A CN 202110182047A CN 112927755 A CN112927755 A CN 112927755A
- Authority
- CN
- China
- Prior art keywords
- cfdna
- variation
- sequencing
- test
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种鉴定cfDNA变异来源的方法和系统,所述方法包括测序数据的获取及处理,提取插入片段长度和预测未知突变类型。本发明的方法能够实现cfDNA变异来源的准确区分,进而实现肿瘤治疗的准确决策。
Description
技术领域
本发明属于生物物理领域,涉及一种鉴定cfDNA变异来源的方法和系统。
背景技术
细胞游离DNA(Cell-free DNA,cfDNA)是血液循环或其它体液中游离于细胞外的DNA片段,目前普遍认为cfDNA主要来源于凋亡、衰老的血细胞释放的DNA碎片,在某些疾病和特殊状态下,其它细胞也会释放DNA到血液中,比如肿瘤细胞来源的循环肿瘤DNA(circulating tumor DNA,ctDNA)(李禹龙,贺建勋,曾小莉,袁慧。血浆游离DNA检测临床意义的研究进展[J]。中华检验医学杂志,2019,42(4):318-322.)。ctDNA携带了很多关于肿瘤的信息,包括基因突变、缺失、插入、重排、拷贝数异常及甲基化等。Mandel和Metais(Mandel,P.&Metais,Les acides nucléiques du plasma sanguin chez l’Homme.C.R.Seances Soc.Biol.Fil.142,241-243.)于1948年首次在外周血中发现了cfDNA,随着对它的深入了解,cfDNA被应用于产前诊断、免疫性疾病分析、癌症筛查及诊断等领域,尤其是在肿瘤个性化治疗领域具有巨大的应用价值,现在cfDNA已经成为液体活检最重要的靶分子之一。
目前cfDNA检测结果中的变异大量来自于克隆性造血。克隆性造血来源的变异是有基因突变的造血干细胞,通过多系造血分化,形成携带同样突变的终末分化成熟血细胞,虽然其中一些突变会导致后代血细胞具备适应性优势,出现不成比例的扩增,但是这种克隆性扩增并不是恶性的。克隆性造血会导致cfDNA检测到的肿瘤突变负荷(Tumor MutationBurden,TMB)严重偏高,进而影响肿瘤免疫治疗相关的临床决策。因此区分cfDNA检出的变异是来自肿瘤的变异还是来自克隆性造血对于肿瘤患者的后续治疗至关重要。
发明内容
为了弥补现有技术的不足,本发明的目的在于提供一种鉴定cfDNA变异来源的方法和系统,采用所述方法和系统可以区分出cfDNA变异的来源,进而指导临床采取最准确有效的治疗。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一方面提供了一种不依赖白细胞深度测序区分cfDNA变异来源的方法,所述方法包括:
数据获取:接收来自受试者样本的cfDNA的序列信息;
序列特征提取:分析提取cfDNA序列特征,所述cfDNA序列特征包括cfDNA变异、变异位点所在cfDNA片段的长度;
突变来源预测:通过特征信息的分析来判断cfDNA变异的来源。
进一步,所述序列信息可以为双端测序或者单端测序。
进一步,所述提取cfDNA变异的步骤包括:测序数据质控、比对、变异识别以及变异筛选。
进一步,所述变异筛选为选择突变丰度高于设定阈值(如2%)的cfDNA变异。
进一步,提取cfDNA片段的长度的步骤包括:
(1)当采用双端测序时,获取变异位点所在cfDNA片段比对到参考基因组上的位置;根据比对的位置计算cfDNA片段的长度;
(2)当采用双端测序时,利用同一分子的正反向读序的重叠区域进行拼接得到变异位点所在cfDNA片段并计算cfDNA片段的长度;
(3)当采用单端测序时,获取变异位点所在cfDNA片段的长度。
进一步,根据比对位置计算cfDNA片段的长度的步骤包括:
在基因组方向上最3’端位置减去最5’端位置。
进一步,所述位置为在基因组参考序列上的绝对位置。
进一步,构建变异位点所在cfDNA片段的长度的数组。
进一步,构建的cfDNA片段长度的数组包括支持变异野生型碱基序列的cfDNA片段的长度的数组与支持变异突变型碱基序列的cfDNA片段的长度的数组。
进一步,所述显著性分析的方法包括t检验的方法。
进一步,t检验的方法包括Student's t检验或Welch's t检验。
进一步,所述显著性分析的方法还包括方差齐性检验。
进一步,检验方差齐性的方法为Levene's检验。
进一步,所述方差齐性检验若为方差齐性,则使用Student's t检验的方法进行显著性分析;若为方差不齐,则使用Welch's t检验的方法进行显著性分析。
进一步,若差异呈现非显著性,则判断cfDNA变异来源于克隆性造血,若差异呈现显著性,则判断cfDNA变异来源于肿瘤。
本发明的第二方面提供了一种确定cfDNA变异来源的系统,所述系统包括处理器,所述处理器用于执行可执行程序,所述可执行程序包括完成本发明第一方面所述的方法。
进一步,所述系统还包括存储器,所述存储器用于存储文件。
本发明的优点及有益效果:
本发明提供了一种鉴定cfDNA变异来源的方法和系统,采用所述方法和系统可以准确的区分出cfDNA变异的来源,进而实现肿瘤治疗的准确决策。
附图说明
图1是变异来源于克隆性造血的示意图;
图2是变异来源于肿瘤的示意图。
具体实施方式
本公开在对多种实施方案的详细描述中,出于说明的目的,阐述了许多具体细节以提供对所公开的实施方案的透彻理解。然而,本领域技术人员将理解,可以在具有或没有这些具体细节的情况下实践这些不同的实施方案。此外,本领域技术人员可以容易地理解,方法被提供及进行的具体顺序是说明性的,并且设想顺序可以不同并且仍然保持在本文公开的多种实施方案的范围内。
如本文使用的,术语“测序”是指用于确定生物分子,例如核酸,诸如DNA或RNA的序列的若干种技术中的任一种。示例性测序方法包括但不限于靶向测序、单分子实时测序、外显子测序、基于电子显微术的测序、panel测序、晶体管介导的测序、直接测序、随机鸟枪法测序、Sanger双脱氧终止测序、全基因组测序、杂交测序、焦磷酸测序、毛细管电泳、凝胶电泳、双链体测序、循环测序、单碱基延伸测序、固相测序、高通量测序、大规模并行信号测序(massively parallel signature sequencing)、乳液PCR、低变性温度共扩增PCR(COLD-PCR)、多重PCR、可逆染料终止子测序、配对末端测序、近末端测序(near-termsequencing)、外切核酸酶测序、连接测序、短读段测序、单分子测序、合成测序、实时测序、反向终止子测序、纳米孔测序、454测序、Solexa基因组分析仪测序、SOLiD测序、MS-PET测序及其组合。在一些实施方案中,测序可以通过基因分析仪进行,例如可从Illumina或Applied Biosystems商业上获得的基因分析仪。
术语“下一代测序”或NGS是指与传统的基于Sanger和毛细管电泳的方法相比具有增加的通量的测序技术,例如,具有一次产生数十万个相对较小的序列读段的能力。下一代测序技术的一些实例包括但不限于合成测序、连接测序和杂交测序。
DNA(脱氧核糖核酸)是由四种类型的核苷酸:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)构成的核苷酸链。RNA(核糖核酸)是由四种类型的核苷酸:A、尿嘧啶(U)、G和C构成的核苷酸链。特定核苷酸对以互补方式彼此特异性结合(称为互补碱基配对)。在DNA中,腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。在RNA中,腺嘌呤(A)与尿嘧啶(U)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链与由与该第一链中的核苷酸互补的核苷酸构成的第二核酸链结合时,两条链结合形成双链。
“多核苷酸”、“核酸”或“寡核苷酸”是指核苷(包括脱氧核糖核苷、核糖核苷或其类似物)通过核苷间键连接的线性聚合物。通常,多核苷酸包含至少三个核苷。寡核酸的尺寸范围通常从几个单体单元例如3-4个到几百个单体单元。除非另外注明,否则每当多核苷酸以字母序列诸如“ATGCCTG”表示时,应该理解,该核苷酸从左到右是5'→3'的顺序,并且“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,并且“T”表示胸苷。字母A、C、G和T可以用于指碱基本身、包含碱基的核苷或核苷酸,这是本领域的标准。
术语“突变”和“变异”在本文中可以互换使用。
如本文使用的,常见变异具有至少5%的次要等位基因总频率(Minor AlleleFrequency,MAF)而低频变异具有约0.1%-5%的MAF,并且罕见变异具有0.5%或更少的MAF。
通常在DNA变异的情况下,SNP可以指单核苷酸多态性或群体变异(variation inthe population),而SNV可以指体细胞单核苷酸变异(通常在癌症相关变异的情况下使用)。对于个体,对在肿瘤cfDNA和在克隆性造血cfDNA两者中检测到的变异使用术语SNV。
血浆cfDNA的基因组分析可以作为用于基因组发现及用于辅助精准癌症药物递送的工具,但是癌症来源的DNA向血浆中的脱落可以是高度可变的,并且取决于癌症阶段、转移扩散的程度以及癌症是在响应还是在进展。另外,体细胞基因组改变的血浆水平可以响应疗法而高度动态化,有时变得在两周内检测不到。因此,在许多患者中,血浆cfDNA的大部分变异是克隆性造血DNA,主要从良性造血细胞或内皮细胞脱落。本公开内容提供了一种方法,该方法可以在cfDNA测序谱中区分克隆性造血变异与肿瘤来源的变异,因此提供用于疗法选择的肿瘤基因分型以及用于通过单一测定评估遗传风险的表征。
分辨血浆cfDNA中的克隆性造血变异和肿瘤来源变异还可能影响对癌症病人病程的管理。通过肿瘤测序,可能难以确定癌基因中未知意义的变异是否代表潜在的驱动突变或克隆性造血的多态性。在没有高拷贝数变异的血浆测序的情况下,本公开内容允许用单一样本(血液)区分这两种类型的基因组改变,从而减少克隆性造血多态性在治疗上被错误靶向的风险。另外,在使用连续血浆基因分型随时间推移监测对治疗的响应和耐药性的情况下,区分血浆cfDNA中的克隆性造血来源变异和肿瘤来源变异的能力可以使准确跟踪肿瘤DNA水平变得更容易。
肿瘤突变负荷是新兴的生物标志物,用于了解对免疫检查点抑制剂的敏感性和耐药性。癌症中更多的突变可以导致更多的刺激免疫的细胞表面新抗原。然而,使用肿瘤测序可能难以计算突变负荷,因为克隆性造血多态性可能被误认为潜在抗原性肿瘤来源突变。本公开内容提供了克服这一挑战的能力,允许在生物信息学上区分克隆性造血来源变异和肿瘤来源变异,并且更明确地鉴定肿瘤来源变异,从而减少克隆性造血多态性被误认为潜在肿瘤来源突变的几率。
本公开内容提供了用于判断cfDNA变异来源的统计学分析方法,本公开可能使用本领域的任何常规方法进行显著性分析。
作为一种优选的实施方式,所述显著性分析方法为t检验的方法,所述t检验的方法包括但不限于Student's t检验、Welch's t检验。
在本发明的具体实施方式中,使用Levene's检验数组之间是否具有方差齐性。
本公开内容提供了被编程为实现本公开内容的方法的系统。所述系统被编程或以其他方式配置为分析序列数据、检测变异位点所在cfDNA片段的长度以及确定变异来源。所述系统可以调控本公开内容的序列分析的各个方面,诸如,例如将数据针对已知序列和变异进行匹配。所述系统可以是用户的电子装置或相对于该电子装置远程定位的计算机系统。电子装置可以是移动电子装置。
所述系统包括处理器,其可以是单核或多核处理器或用于并行处理的多于一个处理器。所述系统还包括存储器(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元(例如,硬盘)、用于与一个或更多个其他系统进行通信的通信界面(例如,网络适配器)和外围装置,诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器、电子储存单元、通信界面和外围装置与处理器通过通信总线(实线),诸如主板通信。存储单元可以是用于存储数据的数据存储单元(或数据储存库)。所述系统可以借助于通信界面被可操作地耦合至计算机网络。网络可以是互联网、内联网和/或外联网、或与互联网通信的内联网和/或外联网。在一些情况下,网络为通信和/或数据网络。网络可以包括一个或更多个计算机服务器,这可以支持分布式计算,诸如云计算。在一些情况下,借助于系统,网络可以实现对等网络,其可以使耦合至系统的装置能够作为客户端或服务器运行。
所述处理器可以执行一系列的机器可读指令,该机器可读指令可以以程序或软件来体现。指令可以被存储于存储器位置,诸如存储器中。指令可以被导向处理器,该指令可以随后编程或以其他方式配置处理器以实现本公开内容的方法。由处理器进行的操作的实例可以包括读取、解码、执行和写回。
处理器可以是电路诸如集成电路的一部分,系统的一个或更多个其他组件可以被包含在电路中,在一些情况下,电路为专用集成电路。
电子存储单元可以存储文件,诸如驱动程序、库和保存的程序。电子存储单元可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,系统可以包括一个或更多个另外的数据存储单元,该数据存储单元在计算机系统的外部,诸如位于通过内联网或互联网而与系统通信的远程服务器上。
系统可以与一个或更多个远程计算机系统通过网络进行通信。例如,系统可以与用户(例如,医师)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算、板型或平板PC、电话、智能电话或个人数字助理。用户可经由网络访问系统。
如本文描述的方法可以通过机器(例如,计算机处理器)可执行代码的方式实现,该机器可执行代码被存储在系统的电子存储位置,例如存储器或电子存储单元上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器执行。在一些情况下,代码可以从电子存储单元检索并存储在存储器上,以用于由处理器即时访问。在一些情况下,可以排除电子存储单元,而将机器可执行指令存储于存储器中。
代码可以被预编译并配置为用于与具有适于执行该代码的处理器的机器一起使用,或者可以在运行时间期间被编译。代码可以以编程语言的形式提供,该编程语言可以被选择使得代码能够以预编译的或按编译原样的方式被执行。
本文提供的系统和方法的各方面,诸如系统,可以以编程来体现。技术的多个方面可以被认为是通常呈一种机器可读介质执行或体现的机器(或处理器)可执行代码和/或相关数据的形式的产品。机器可执行代码可以被存储于电子存储单元诸如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器,或其相关模块,诸如多种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供非暂时性存储。软件的所有或部分有时可以通过互联网或多种其他通信网络进行通信。例如,此类通信可以使得将软件从一个计算机或处理器加载到另一个计算机或处理器中,例如,从管理服务器或主机加载到应用服务器的计算机平台中。因此,能够携带软件元件的另一类型的介质包括诸如在本地装置之间的物理界面、通过有线和光纤陆线网络以及在多种空中链路上使用的光波、电波和电磁波。携带此类波的物理元件,诸如有线或无线链路、光链路等,也可被认为是携带软件的介质。如本文使用的,除非被限制为非暂时性的、有形的“存储”介质,否则术语诸如计算机或机器“可读介质”是指参与将指令提供至处理器用于执行的任何介质。
因此,机器可读介质,诸如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如光盘或磁盘,诸如在任何计算机等中的任何存储设备,易失性存储介质包括动态存储器,诸如此类计算机平台的主存储器。有形的传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频和红外数据通信期间生成的那些。因此,计算机可读介质的常见形式包括例如:软盘、软性磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔模式的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传输数据或指令的载波、传输此类载波的缆线或链路,或者计算机可以从其读取编程代码和/或数据的任何其他介质。这些计算机可读介质的形式中的许多形式可以参与向处理器传送一个或更多个指令的一个或更多个序列以用于执行。
所述系统可以包括电子显示器或与之通信,该电子显示器包括用户界面(UI),用于提供例如关于分析结果的信息。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
在一个方面,本文提供了包括计算机的系统,计算机包括处理器和计算机存储器,其中计算机与通信网络通信,并且其中计算机存储器包括代码,当代码由处理器执行时,通过通信网络将序列数据接收到计算机存储器中;使用本文所述的方法,判定序列数据中的变异来源于克隆性造血还是肿瘤;以及通过通信网络报告出该判定结果。
通信网络可以是连接到互联网的任何可用网络。通信网络可以利用例如高速传输网络,包括但不限于电力线宽带、电缆调制解调器、数字用户线路、光纤、卫星和无线电。
在一个方面,本文提供了一种系统,该系统包括:局域网;一个或更多个DNA测序仪,包括被配置为存储DNA序列数据的连接到局域网的计算机存储器;生物信息学计算机,包括计算机存储器和处理器,该计算机连接到局域网;其中所述计算机还包括代码,当所述代码被执行时,复制存储在DNA测序仪上的DNA序列数据、将复制的数据写入生物信息学计算机中的存储器、并进行如本文描述的步骤。
本公开内容的方法和系统可以通过一个或更多个算法来实现。算法可以在由处理器执行后通过软件来实现。
在本发明中,程序和代码可以互换使用。
术语“样本”可以是从受试者分离的任何生物样本。例如,样本可以包括但不限于体液、全血、血小板、血清、血浆、粪便、红细胞、白细胞或白血球、内皮细胞、组织活组织检查、滑液、淋巴液、腹水、间质或细胞外液、细胞间空间的液体,包括龈沟液、骨髓、脑脊液、唾液、粘液、痰、精液、汗液、尿液、鼻刷液、巴氏涂片液或任何其他体液。体液可以包括唾液、血液或血清。例如,多核苷酸可以是从体液例如血液或血清分离的无细胞DNA。样本也可以是肿瘤样本,肿瘤样本可以通过各种方法从受试者获得,所述方法包括但不限于静脉穿刺、排泄、射精、按摩、活组织检查、针抽吸、灌洗、刮擦、手术切口或介入或其他方法。样本可以是无细胞样本(例如,不包含任何细胞)。
样本可以包含来自不同来源的核酸。样本可以包含携带突变的核酸。例如,样本可以包含携带克隆性造血来源突变和/或肿瘤来源突变的DNA。样本还可以包含携带癌症相关突变(例如,癌症相关的体细胞突变)的DNA。在一些实施方案中,样本包含以下的一种或更多种变异:单碱基取代、拷贝数变异、插入缺失、基因融合、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、染色体融合、基因截短、基因扩增、基因重复、染色体损伤、DNA损伤、核酸化学修饰的异常改变、表观遗传模式的异常改变、基因组区域内核酸片段分布的异常改变、核酸片段长度分布的异常改变、和核酸甲基化的异常改变。
下面结合具体的实施例和附图进一步说明本发明,本发明的实施例仅用于解释本发明,并不意味着限制本发明的保护范围。
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
实施例1一种鉴定cfDNA变异来源的方法
1、数据获取及处理
接收来自受试者样本的测序信息,比对到参考基因组上,保存数据格式为bam;对bam文件进行cfDNA变异识别,选择突变丰度高于一定阈值(如2%)的cfDNA变异。
2、cfDNA片段的长度的提取
1)针对每个变异,当采用双端测序时,获取变异位点所在cfDNA片段比对到参考基因组上的位置,根据比对的位置计算cfDNA片段的长度,构建变异位点所在cfDNA片段的长度的数组;当采用双端测序时,利用同一分子的正反向读序重叠区域进行拼接得到变异位点所在cfDNA片段并计算cfDNA片段的长度;当采用单端测序时,获取变异位点所在cfDNA片段的测序长度,构建变异位点所在cfDNA片段的测序长度的数组。
2)根据比对位置计算cfDNA片段的长度,在基因组方向上最3’端绝对位置减去最5’端绝对位置得到cfDNA片段的长度。
3)分别构建支持变异野生型碱基序列的cfDNA片段的长度的数组a与支持变异突变型碱基序列的cfDNA片段的长度的数组b。
3、未知突变类型预测
1)使用Levene's检验a和b是否具有方差齐性。
2)如果具有方差齐性,使用Student's t检验计算t统计量,如果不具有方差齐性使用Welch's t检验计算t统计量。
3)根据统计量t与自由度v计算P-value值确定数组a和b是否具有显著差异,如果检验结果显示数组a的均值并没有显著小于数组b的均值,判定该变异是来自于克隆性造血(图1),反之则判定该变异是来自ctDNA的变异(图2)。
实施例2具体应用实例
1、数据简介
获取样本1的测序数据,该样本存在克隆性造血来源的cfDNA变异chr2-25462068-A-G,以及肿瘤来源的cfDNA变异chr15-90631838-C-T。
2、方法运用
1)将测序数据比对到基因组,获得bam文件。
2)对样本bam文件使用samtools工具建立index。
3)使用python工具包pysam读取bam文件中比对到chr2:25462067-25462068的所有reads与比对到chr15:90631837-90631838的所有reads。
4)分别统计在chr2:25462068位点上支持A和G的reads所在的cfDNA片段的长度,得到数组a、b。
5)使用python统计包stats.levene对a与b进行方差齐性检验得到P-value为0.087大于0.05,具有方差齐性。
6)使用python统计包stats.ttest_ind对a与b进行Student's t检验计算t统计量与P-value,得到P-value为0.439699大于0.01不具有显著差异,认为这是来自克隆性造血变异。
7)分别统计在chr15:90631838位点上支持C和T的reads所在的cfDNA片段的长度,得到集合c、d。
8)使用python统计包stats.levene对c与d进行方差齐性检验得到P-value为0.0001小于0.05,不具有方差齐性。
9)使用python统计包stats.ttest_ind对c与d进行Welch's t检验计算t统计量与P-value,得到P-value为2.67E-11小于0.01具有显著差异,认为这是肿瘤来源变异,具体分析数据如表1所示。
表1样本1的数据分析
实施例3具体应用实例
1、数据简介
获取样本2的测序数据,该样本存在克隆性造血来源的cfDNA变异chr2-25463287-G-A,以及肿瘤来源的cfDNA变异chr12-25398284-C-A。
3、方法运用
1)将测序数据比对到基因组,获得bam文件。
2)对样本bam文件进行重复序列去除,使用samtools工具建立index。
3)使用python工具包pysam读取bam文件中比对到chr2:25462067-25462068的所有reads与比对到chr12:25398283-25398284的所有reads。
4)分别统计在chr2:25462068位点上支持G和A的reads所在的cfDNA片段的长度,得到集合a、b。
5)使用python统计包stats.levene对a与b进行方差齐性检验得到P-value为0.3159大于0.05,具有方差齐性。
6)使用python统计包stats.ttest_ind对a与b进行Student's t检验计算t统计量与P-value,得到P-value为0.026932大于0.01不具有显著差异,认为这是来自克隆性造血变异。
7)分别统计在chr12:25398284位点上支持C和A的reads所在的cfDNA片段的长度,得到集合c、d。
8)使用python统计包stats.levene对c与d进行方差齐性检验得到P-value为0.0051小于0.05,不具有方差齐性。
9)使用python统计包stats.ttest_ind对c与d进行Welch's t检验计算t统计量与P-value,得到P-value为1.35E-09小于0.01具有显著差异,认为这是肿瘤来源变异,具体分析数据如表2所示。
表2样本2的数据分析
上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也将落入本发明权利要求的保护范围内。
Claims (10)
1.一种不依赖白细胞深度测序区分cfDNA变异来源的方法,其特征在于,所述方法包括:
数据获取:接收来自受试者样本的cfDNA的序列信息;
序列特征提取:分析提取cfDNA序列特征,所述cfDNA序列特征包括cfDNA变异、变异位点所在cfDNA片段的长度;
突变来源预测:通过特征信息的分析来判断cfDNA变异的来源。
2.根据权利要求1所述的方法,其特征在于,所述序列信息为双端测序或者单端测序。
3.根据权利要求1所述的方法,其特征在于,所述提取cfDNA变异的步骤包括:测序数据质控、比对、变异识别以及变异筛选;优选地,所述变异筛选为选择突变丰度高于设定阈值的cfDNA变异;优选地,所述阈值为2%。
4.根据权利要求1所述的方法,其特征在于,提取cfDNA片段的长度的步骤包括:
(1)当采用双端测序时,获取变异位点所在cfDNA片段比对到参考基因组上的位置,根据比对的位置计算cfDNA片段的长度;
(2)当采用双端测序时,利用同一分子的正反向读序的重叠区域进行拼接得到变异位点所在cfDNA片段并计算cfDNA片段的长度;
(3)当采用单端测序时,获取变异位点所在cfDNA片段的长度。
5.根据权利要求4所述的方法,其特征在于,根据比对位置计算cfDNA片段的长度的步骤包括:
在基因组方向上最3’端位置减去最5’端位置;
优选地,所述位置为在基因组参考序列上的绝对位置。
6.根据权利要求4或5所述的方法,其特征在于,构建变异位点所在cfDNA片段的长度的数组。
7.根据权利要求6所述的方法,其特征在于,所述数组包括支持变异野生型碱基序列的cfDNA片段的长度的数组与支持变异突变型碱基序列的cfDNA片段的长度的数组。
8.根据权利要求1所述的方法,其特征在于,特征信息的分析的方法为分析cfDNA片段的长度的差异的显著性;优选地,所述显著性分析的方法包括t检验的方法;优选地,t检验的方法包括Student's t检验或Welch's t检验;优选地,所述显著性分析的方法还包括方差齐性检验;优选地,检验方差齐性的方法为Levene's检验;优选地,若为方差齐性,则使用Student's t检验的方法;若为方差不齐,则使用Welch's t检验的方法;优选地,若差异呈现非显著性,则判断cfDNA变异来源于克隆性造血,若差异呈现显著性,则判断cfDNA变异来源于肿瘤。
9.一种确定cfDNA变异来源的系统,其特征在于,所述系统包括处理器,所述处理器用于执行可执行程序,所述可执行程序包括完成权利要求1-8任一所述的方法。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括存储器,所述存储器用于存储文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182047.4A CN112927755B (zh) | 2021-02-09 | 2021-02-09 | 一种鉴定cfDNA变异来源的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110182047.4A CN112927755B (zh) | 2021-02-09 | 2021-02-09 | 一种鉴定cfDNA变异来源的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927755A true CN112927755A (zh) | 2021-06-08 |
CN112927755B CN112927755B (zh) | 2022-03-25 |
Family
ID=76171486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110182047.4A Active CN112927755B (zh) | 2021-02-09 | 2021-02-09 | 一种鉴定cfDNA变异来源的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927755B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113637747A (zh) * | 2021-06-21 | 2021-11-12 | 深圳思勤医疗科技有限公司 | 确定核酸样本中snv和肿瘤突变负荷的方法及应用 |
CN116705155A (zh) * | 2023-08-03 | 2023-09-05 | 海南大学三亚南繁研究院 | 一种全基因dna数据的定义方法 |
CN117409856A (zh) * | 2023-10-25 | 2024-01-16 | 北京博奥医学检验所有限公司 | 基于单个待测样本靶向基因区域二代测序数据的变异检测方法、系统及可存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107523563A (zh) * | 2017-09-08 | 2017-12-29 | 杭州和壹基因科技有限公司 | 一种用于循环肿瘤dna分析的生物信息处理方法 |
CN108070652A (zh) * | 2016-11-14 | 2018-05-25 | 北京金沐医疗科技有限公司 | 从具吞噬能力的免疫细胞中检测肿瘤来源的核酸 |
CN108733975A (zh) * | 2018-03-29 | 2018-11-02 | 深圳裕策生物科技有限公司 | 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质 |
CN110835783A (zh) * | 2018-08-17 | 2020-02-25 | 深圳华大生命科学研究院 | 用于长读长高质量测序的核酸文库的构建方法、测序方法及试剂 |
CN111742059A (zh) * | 2017-11-28 | 2020-10-02 | 格瑞尔公司 | 用于靶向测序的模型 |
CN111910004A (zh) * | 2020-08-14 | 2020-11-10 | 中国科学院大学温州研究院(温州生物材料与工程研究所) | cfDNA在早期乳腺癌无创诊断中的应用 |
CN112005306A (zh) * | 2018-03-13 | 2020-11-27 | 格里尔公司 | 选择、管理和分析高维数据的方法和系统 |
CN112086129A (zh) * | 2020-09-23 | 2020-12-15 | 深圳吉因加医学检验实验室 | 预测肿瘤组织cfDNA的方法及系统 |
CN112204666A (zh) * | 2018-04-13 | 2021-01-08 | 格里尔公司 | 用于癌症侦测的多重化验预测模型 |
-
2021
- 2021-02-09 CN CN202110182047.4A patent/CN112927755B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108070652A (zh) * | 2016-11-14 | 2018-05-25 | 北京金沐医疗科技有限公司 | 从具吞噬能力的免疫细胞中检测肿瘤来源的核酸 |
CN107523563A (zh) * | 2017-09-08 | 2017-12-29 | 杭州和壹基因科技有限公司 | 一种用于循环肿瘤dna分析的生物信息处理方法 |
CN111742059A (zh) * | 2017-11-28 | 2020-10-02 | 格瑞尔公司 | 用于靶向测序的模型 |
CN112005306A (zh) * | 2018-03-13 | 2020-11-27 | 格里尔公司 | 选择、管理和分析高维数据的方法和系统 |
CN108733975A (zh) * | 2018-03-29 | 2018-11-02 | 深圳裕策生物科技有限公司 | 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质 |
CN112204666A (zh) * | 2018-04-13 | 2021-01-08 | 格里尔公司 | 用于癌症侦测的多重化验预测模型 |
CN110835783A (zh) * | 2018-08-17 | 2020-02-25 | 深圳华大生命科学研究院 | 用于长读长高质量测序的核酸文库的构建方法、测序方法及试剂 |
CN111910004A (zh) * | 2020-08-14 | 2020-11-10 | 中国科学院大学温州研究院(温州生物材料与工程研究所) | cfDNA在早期乳腺癌无创诊断中的应用 |
CN112086129A (zh) * | 2020-09-23 | 2020-12-15 | 深圳吉因加医学检验实验室 | 预测肿瘤组织cfDNA的方法及系统 |
Non-Patent Citations (3)
Title |
---|
FRANCESCO MARASS等: "Fragment Size Analysis May Distinguish Clonal Hematopoiesis from Tumor-Derived Mutations in Cell-Free DNA", 《CLINICAL CHEMISTRY》 * |
STEPHEN CRISTIANO等: "Genome-wide cell-free DNA fragmentation in patients with cancer", 《NATURE》 * |
马晓溪等: "循环肿瘤细胞及循环肿瘤DNA在胃癌中的研究进展", 《实验与检验医学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113637747A (zh) * | 2021-06-21 | 2021-11-12 | 深圳思勤医疗科技有限公司 | 确定核酸样本中snv和肿瘤突变负荷的方法及应用 |
CN116705155A (zh) * | 2023-08-03 | 2023-09-05 | 海南大学三亚南繁研究院 | 一种全基因dna数据的定义方法 |
CN117409856A (zh) * | 2023-10-25 | 2024-01-16 | 北京博奥医学检验所有限公司 | 基于单个待测样本靶向基因区域二代测序数据的变异检测方法、系统及可存储介质 |
CN117409856B (zh) * | 2023-10-25 | 2024-03-29 | 北京博奥医学检验所有限公司 | 基于单个待测样本靶向基因区域二代测序数据的变异检测方法、系统及可存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112927755B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6806854B2 (ja) | 無細胞核酸の多重解像度分析のための方法 | |
CN112927755B (zh) | 一种鉴定cfDNA变异来源的方法和系统 | |
CN107708556B (zh) | 诊断方法 | |
ES2906714T3 (es) | Métodos para detectar mutaciones raras y variación en el número de copias | |
JP2021061861A (ja) | 癌スクリーニング及び胎児分析のための変異検出 | |
US11193175B2 (en) | Normalizing tumor mutation burden | |
ES2902401T3 (es) | Métodos y procesos para la evaluación no invasiva de variaciones genéticas | |
CN107849607B (zh) | 血浆dna的单分子测序 | |
JP2020536509A (ja) | 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム | |
CN110622250A (zh) | 用于检测插入和缺失的方法和系统 | |
US20230360727A1 (en) | Computational modeling of loss of function based on allelic frequency | |
WO2021202752A1 (en) | Determining tumor fraction for a sample based on methyl binding domain calibration data | |
CA3097992A1 (en) | Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition | |
US20210358569A1 (en) | Methods and systems for assessing microsatellite instability | |
CN111028888A (zh) | 一种全基因组拷贝数变异的检测方法及其应用 | |
CN115428087A (zh) | 克隆水平缺乏靶变体的显著性建模 | |
CN112384982A (zh) | 用于指纹识别生物样本的方法 | |
US11746385B2 (en) | Methods of detecting tumor progression via analysis of cell-free nucleic acids | |
JP6980907B2 (ja) | 無細胞核酸から得られた配列分析データに係わる背景対立因子の頻度分布を生成する方法、及びそれを利用して無細胞核酸から変異を検出する方法 | |
CN118136111A (zh) | 基因组序列比对方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |