CN112980961B - 联合检测snv、cnv和fusion变异的方法和装置 - Google Patents

联合检测snv、cnv和fusion变异的方法和装置 Download PDF

Info

Publication number
CN112980961B
CN112980961B CN202110508556.1A CN202110508556A CN112980961B CN 112980961 B CN112980961 B CN 112980961B CN 202110508556 A CN202110508556 A CN 202110508556A CN 112980961 B CN112980961 B CN 112980961B
Authority
CN
China
Prior art keywords
gene
baf
cnv
logr
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110508556.1A
Other languages
English (en)
Other versions
CN112980961A (zh
Inventor
韩志军
王磊
王杰
王雨倩
庞莹
杨继伟
王修涵
谢正华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Siludi Medical Laboratory Co ltd
Original Assignee
Shanghai Siludi Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Siludi Medical Laboratory Co ltd filed Critical Shanghai Siludi Medical Laboratory Co ltd
Priority to CN202110508556.1A priority Critical patent/CN112980961B/zh
Publication of CN112980961A publication Critical patent/CN112980961A/zh
Application granted granted Critical
Publication of CN112980961B publication Critical patent/CN112980961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Pathology (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Oncology (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开内容涉及联合检测SNV、CNV和FUSION变异的方法和装置。更具体而言,所述装置包括:测序数据读入模块;SNV检测模块;CNV检测模块;FUSION变异检测模块;和结果输出模块,其中CNV检测模块包括以下模块:BAF计算模块;BAF矫正模块;BAF分离鉴定模块;测序深度计算模块;logR矫正模块;logR背景噪音计算模块;和CNV判定模块。所述方法和装置基于BAF+logR信息,高灵敏度高特异性检测ctDNA占比极低的样本中的SNV、CNV及FUSION变异,尤其是低拷贝数扩增的CNV变异。

Description

联合检测SNV、CNV和FUSION变异的方法和装置
技术领域
本发明属于基因检测技术领域,尤其涉及检测样本中目标基因的CNV的方法、系统和装置,以及联合检测样本中的SNV、CNV和FUSION变异的方法、系统和装置。
背景技术
细胞的DNA通过凋亡、分泌或吞噬等多种机制进入血液循环系统,这种DNA碎片称之为细胞游离DNA(cell free DNA, cfDNA),大小通常为160-180bp。
对于肿瘤患者而言,血浆中的cfDNA除了来自正常的细胞外,还有部分来源于肿瘤细胞,这部分携带肿瘤细胞特异信息的DNA被称为循环肿瘤DNA(circulating tumor DNA,ctDNA)。ctDNA在cfDNA中的占比一般为0.1%-10%,并且随着病情阶段的不同差异很大。在肿瘤患者的ctDNA中,常见的变异类型包括点突变(single nucleotide variant, SNV)、插入缺失(insertion and deletion, INDEL)、拷贝数变异(copy number variation, CNV)、基因融合(Fusion)等。
ctDNA的相对含量与肿瘤的负荷和对治疗的反应是相关的,可以用于鉴定驱动基因、指导临床治疗、检测临床治疗效果及对癌症复发进行动态监控等,因此cfDNA的液体活检越来越受到关注。相比传统影像学,cfDNA检测可以更早的检测到癌症是否复发,此外cfDNA样本收集相对容易,对于一些晚期患者很难取到组织样本。
目前检测CNV的方法主要有荧光原位杂交(FISH)、Southern印迹杂交、数字PCR以及二代测序等。荧光原位杂交技术检测特异性高,但样本处理周期长,成本高(探针价格昂贵),也无法做到高通量,结果判读专业性和主观性较强;数字PCR可以实现对扩增进行绝对定量,但对于样本的基因组要求较高,基因组紊乱情况下无法给出正确结果,甚至会误报;Southern印记杂交技术也可以检测CNV,但是操作复杂繁琐,并且容易出现假阳性,临床推广比较困难;已有的一些二代检测技术无法在cfDNA水平进行准确检测,主要表现在灵敏度不足,在肿瘤占比低的血液样本中假阴性率高。
由上述可知,由于血浆中带有基因拷贝数变异的游离DNA(cfDNA)的浓度较低,目前检测cfDNA中的CNV的方法存在灵敏度不高、特异性较低、准确度较低以及操作繁琐等缺点。因此,本领域对于有效检测低ctDNA含量样本中的SNV、CNV及FUSION变异,尤其是低拷贝数扩增的CNV变异的方法存在持续需求。
因此,本领域需要一种以高灵敏度和高特异性准确检测CNV的改进方法,从而有效提高cfDNA中CNV的检出率;还需要一种联合检测cfDNA样本中目标基因的SNV、CNV和FUSION变异的方法。
发明内容
本发明提供了一种基于BAF+logR信息,高灵敏度高特异性检测CNV的方法,该方法结合BAF与测序深度的信息,可以有效提高cfDNA中CNV的阳性检出率。在此基础上,本发明提供了一种联合检测SNV、CNV和FUSION变异的方法和装置,以有效检测ctDNA占比极低的样本中的SNV、CNV及FUSION变异,尤其是低拷贝数扩增的CNV变异。
本申请发明人发现,通过在目标基因区域及基因组上特定SNP位点设计探针,并开发了利用BAF和logR信息双重检测CNV的新技术,可以准确检出ctDNA占比极低的样本(例如血液样本)中低频CNV扩增,克服现有技术存在的不足之处并具有极大的应用价值。
在第一方面,本公开内容提供了一种检测样本中目标基因的CNV的方法,所述方法包括以下步骤:
(aa)将样本原始测序数据比对到参考基因组上,生成比对结果;
(a)计算每个SNP位点的BAF值;
(b)对BAF进行样本间矫正;
(c)鉴定目标基因上的BAF是否存在分离,以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度;
(d)统计原始测序深度并计算目标基因的logR值;
(e)矫正logR值;
(f)计算logR的背景噪音水平;和
(g)按照如下规则判定目标基因是否存在CNV:
当样本为整倍体时,
此时如目标基因存在BAF分离现象表明该基因存在CNV,此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值T1则判定该基因存在扩增,如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值T2则判定该基因存在缺失;
或此时如果目标基因不存在BAF分离现象,此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T3则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T4则判定该基因存在缺失;
当样本为非整倍体时,
此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T5则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T6则判定该基因存在缺失。
在一个实施方案中,所述阈值T1为0.1至0.7范围内的任意值,T2为-0.7至-0.1范围内的任意值,T3为0.1至0.7范围内的任意值,T4为-0.7至-0.1范围内的任意值,T5为0.1至0.7范围内的任意值,和T6为-0.7至-0.1范围内的任意值;并且T1、T2、T3、T4、T5和T6可相同或不同。
在一个实施方案中,所述阈值T1例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7,T2例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1,T3例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7,T4例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1,T5例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7,和T6例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1。
在一个实施方案中,所述阈值T1例如为0.2,T2例如为-0.2,T3例如为0.2,T4例如为-0.2,T5例如为0.3,和T6例如为-0.3。
在一个实施方案中,在步骤(aa)之前,还包括选择SNP位点并设计CNV探针的步骤。
在一个实施方案中,步骤(b)包括:利用预先生成的BAF基线文件对计算的BAF值进行矫正,使得各杂合SNP的BAF在大量样本间的中值在0.5。
在一个实施方案中,对于完整二倍体样本的杂合SNP,其BAF值与0.5的差值大于给定阈值则表明存在CNV,所述给定阈值例如0.05-0.2范围内的任意值,例如0.05、0.1、0.15、0.2等。
在一个实施方案中,对于肿瘤样本,其BAF偏离程度与目标基因的倍型和肿瘤纯度相关。
在一个实施方案中,当肿瘤纯度为100%时,BAF分布在0.33或0.67附近时表明该基因存在3个拷贝;而当肿瘤纯度为50%时,BAF分布在0.33或0.67附近时表明该基因存在LOH。
在一个实施方案中,步骤(e)包括:利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正,并对矫正后的logR的中位值平移到0值,输出矫正后的logR值。
在一个实施方案中,步骤(f)包括:利用logR矫正模块输出的矫正后的logR值信息及CNV检测目标基因集作为输入评估每个目标基因的背景噪音水平,统计除去该目标基因所有探针后logR的sd值作为该目标基因的背景噪音水平并输出。
在一个实施方案中,如果基因组上存在大量区域的BAF分离现象,比如大于4条(例如大于4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20条)染色体上同时存在BAF分离现象,则表明该样本的基因组为非整倍体。
在一个实施方案中,如果基因组上不存在大量区域的BAF分离现象,比如小于或等于4条(例如小于或等于4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20条)染色体上同时存在BAF分离现象,则表明该样本的基因组为整倍体例如二倍体。
在一个实施方案中,所述目标基因选自EGFR、MET、KRAS、NRAS、BRAF、ERBB2、ALK、KIT、TP53、RB1、RET、ROS1、FGFR2、NTRK1、NTRK2和NTRK3。
在一个实施方案中,所述样本为血浆cfDNA。
在第一方面的一个具体实施方案中,提供一种检测样本,例如cfDNA样本中目标基因的CNV的方法,所述方法包括以下步骤:
(aa)将样本原始测序数据比对到参考基因组上,生成BAM文件;
(a)从BAM文件中统计CNV相关SNP位点的基因型信息,并计算每个SNP位点的BAF值;
(b)利用预先生成的BAF基线文件对计算的BAF值进行矫正,使得各杂合SNP的BAF在大样本间的中值在0.5;
(c)鉴定目标基因上的BAF是否存在分离,以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度;
(d)从BAM文件统计CNV相关探针的原始测序深度,并对测序深度进行以2为底的log转换,生成logR值;
(e)利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正,并对矫正后的logR的中位值平移到0值;
(f)对于矫正后的logR值,在去除目标基因相关探针后计算余下所有CNV相关探针logR值的sd值作为该目标基因的背景噪音水平;
(g)按照如下规则判定目标基因是否存在CNV:
当样本为整倍体时,
此时如目标基因存在BAF分离现象表明该基因存在CNV,此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值T1则判定该基因存在扩增,如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值T2则判定该基因存在缺失;
或此时如果目标基因不存在BAF分离现象,此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T3则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T4则判定该基因存在缺失;
当待检测样本存在多条染色体上大量SNP位点的BAF分离现象时表明该样本存在非整倍体扩增或缺失现象(即非整倍体时),
此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T5则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T6则判定该基因存在缺失,
其中所述阈值T1例如为0.2,T2例如为-0.2,T3例如为0.2,T4例如为-0.2,T5例如为0.3,和T6例如为-0.3。
在第二方面,本公开内容提供了一种联合检测样本中目标基因的SNV、CNV和FUSION的方法,所述方法包括SNV检测、CNV检测和FUSION变异检测,其中CNV检测根据第一方面所述的任一种方法进行。
在第三方面,本公开内容提供了一种用于联合检测样本中的SNV、CNV和FUSION变异的装置,所述联合检测根据第二方面所述的任一种方法进行。
在第三方面的一个实施方案中,所述用于联合检测样本中的SNV、CNV和FUSION变异的装置包括:
测序数据读入模块,用于将原始测序数据比对到参考基因组并排序及去冗余;
SNV检测模块,用于检测样本中的所有SNV;
CNV检测模块,用于检测样本中目标基因的CNV;
FUSION变异检测模块,用于检测样本中的所有FUSION变异;和
结果输出模块,用于整合SNV检测模块、CNV检测模块和FUSION变异检测模块的结果并输出,
其中CNV检测模块包括以下模块:
BAF计算模块,用于实施步骤(a)计算每个SNP位点的BAF值;
BAF矫正模块,用于实施步骤(b)对BAF进行样本间矫正;
BAF分离鉴定模块,用于实施步骤(c)鉴定目标基因上的BAF是否存在分离,以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度;
测序深度计算模块,用于实施步骤(d)统计原始测序深度并计算目标基因的logR值;
logR矫正模块,用于实施步骤(e)矫正logR值;
logR背景噪音计算模块,用于实施步骤(f)计算logR的背景噪音水平;和
CNV判定模块,用于实施步骤(g)按照如下规则判定目标基因是否存在CNV:
当样本为整倍体时,
此时如目标基因存在BAF分离现象表明该基因存在CNV,此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值T1则判定该基因存在扩增,如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值T2则判定该基因存在缺失;
或此时如果目标基因不存在BAF分离现象,此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T3则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T4则判定该基因存在缺失;
当样本为非整倍体时,
此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T5则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T6则判定该基因存在缺失。
在一个实施方案中,所述阈值T1为0.1至0.7范围内的任意值,T2为-0.7至-0.1范围内的任意值,T3为0.1至0.7范围内的任意值,T4为-0.7至-0.1范围内的任意值,T5为0.1至0.7范围内的任意值,和T6为-0.7至-0.1范围内的任意值;并且T1、T2、T3、T4、T5和T6可相同或不同。
在一个实施方案中,所述阈值T1例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7,T2例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1,T3例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7,T4例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1,T5例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7,和T6例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1。
在一个实施方案中,所述阈值T1例如为0.2,T2例如为-0.2,T3例如为0.2,T4例如为-0.2,T5例如为0.3,和T6例如为-0.3。
在一个实施方案中,在将原始测序数据比对到参考基因组并排序及去冗余之前,还包括选择SNP位点并设计CNV探针的步骤。
在一个实施方案中,步骤(c)包括:利用预先生成的BAF基线文件对计算的BAF值进行矫正,使得各杂合SNP的BAF在大量样本间的中值在0.5。
在一个实施方案中,对于完整二倍体样本的杂合SNP,其BAF值与0.5的差值大于给定阈值则表明存在CNV,所述给定阈值例如0.05-0.2范围内的任意值,例如0.05、0.1、0.15、0.2等。
在一个实施方案中,对于肿瘤样本,其BAF偏离程度与目标基因的倍型和肿瘤纯度相关。
在一个实施方案中,当肿瘤纯度为100%时,BAF分布在0.33或0.67附近时表明该基因存在3个拷贝;而当肿瘤纯度为50%时,BAF分布在0.33或0.67附近时表明该基因存在LOH。
在一个实施方案中,步骤(e)包括:利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正,并对矫正后的logR的中位值平移到0值,输出矫正后的logR值。
在一个实施方案中,步骤(f)包括:利用logR矫正模块输出的矫正后的logR值信息及CNV检测目标基因集作为输入评估每个目标基因的背景噪音水平,统计除去该目标基因所有探针后logR的sd值作为该目标基因的背景噪音水平并输出。
在一个实施方案中,如果基因组上存在大量区域的BAF分离现象,比如大于4条(例如大于4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20条)染色体上同时存在BAF分离现象,则表明该样本的基因组为非整倍体。
在一个实施方案中,如果基因组上不存在大量区域的BAF分离现象,比如小于或等于4条(例如小于或等于4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20条)染色体上同时存在BAF分离现象,则表明该样本的基因组为整倍体例如二倍体。
在一个实施方案中,所述目标基因选自EGFR、MET、KRAS、NRAS、BRAF、ERBB2、ALK、KIT、TP53、RB1、RET、ROS1、FGFR2、NTRK1、NTRK2和NTRK3。
在一个实施方案中,所述样本为血浆cfDNA。
在第四方面,本公开内容提供了一种用于实施根据第一方面和第二方面所述的任一种方法的计算机系统,其包括:
输入设备,用于输入样本核酸序列的测序信息;
计算机存储器,用于存储计算机程序指令;
计算机处理器,用于执行所述计算机程序指令,其中所述计算机程序指令实施单独的CNV检测或SNV、CNV和FUSION变异的联合检测,并将结果传输到输出设备;和
输出设备,用于显示所述结果。
在第五方面,本公开内容提供了一种计算机可读介质,其中
所述计算机可读介质存储有计算机程序,
其中所述计算机程序能被计算机处理器执行以实施根据第一方面和第二方面所述的任一种方法。
下列描述和实施例详细阐述了本发明的实施方案。要理解的是,本发明不限于本文所述的具体实施方案并因此可改动。本领域技术人员将认识的是,存在本发明的许多变动和修改,所述变动和修改均包含在其范围之内。
附图说明
图1是根据本公开内容的一个实施方案的基于BAF+logR的CNV检测方法;
图2是根据本公开内容的一个实施方案的多基因突变联检的功能模块构成,用于联合检测SNV、CNV和FUSION变异。
具体实施方式
本申请发明人发现,通过在目标基因区域及基因组上特定SNP位点设计探针,并开发了利用BAF和logR信息双重检测CNV的新技术,可以准确检出ctDNA占比极低的样本(例如血液样本)中低频CNV扩增,克服现有技术存在的不足之处并具有极大的应用价值。
因此,本发明提供了一种基于BAF+logR信息,高灵敏度高特异性检测CNV的方法,该方法结合BAF与测序深度的信息,可以有效提高cfDNA中CNV的阳性检出率。在此基础上,本发明提供了一种联合检测SNV、CNV和FUSION变异的方法和装置,以有效检测ctDNA占比极低的样本中的SNV、CNV及FUSION变异,尤其是低拷贝数扩增的CNV变异。
为了提高CNV检测的灵敏度,本发明在目标基因附近一定基因组范围内选择了若干在人群中高度杂合且GC含量在一定范围内的SNP位点并设计CNV探针,同时在全基因组范围内选择了若干在人群中高度杂合且极少存在CNV且GC含量在一定范围内的SNP位点并设计CNV探针,所选的SNP位点用于统计目标基因及基因组范围内的BAF值;同时针对目标基因的所有外显子区域设计CNV探针用于计算测序深度,经矫正后利用BAF+logR算法检测目标基因的CNV。
BAF即B等位基因频率 (B Allele Frequency),在人的基因组中,每条染色体都存在两个拷贝,因而对于每一个SNP(单核苷酸多态性位点),其在基因组上存在三种可能的形式,即AA、AB、BB型,对应的BAF分别为0、0.5、1。如果该区域发生拷贝数变异,例如其中一条染色体的该区域发生扩增使得该区域变为3个拷贝,则存在AAA、AAB、ABB、BBB四种倍型,对应的BAF分别为0、0.33、0.67、1。因而在等位基因SNP杂合的情况下,偏离0.5附近的BAF可以表征目标区域是否存在CNV及其可能的倍型,结合测序深度信息可以更为准确的检测CNV。
在本公开内容的第一方面的一个具体实施方案中,提供了一种检测样本中目标基因的CNV的方法,所述方法包括以下步骤:
(aa)将样本原始测序数据比对到参考基因组上,生成BAM文件;
(a)从BAM文件中统计CNV相关SNP位点的基因型信息,并计算每个SNP位点的BAF值;
(c)利用预先生成的BAF基线文件对计算的BAF值进行矫正,使得各杂合SNP的BAF在大样本间的中值在0.5;
(c)鉴定目标基因上的BAF是否存在分离,以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度;
(d)从BAM文件统计CNV相关探针的原始测序深度,并对测序深度进行以2为底的log转换,生成logR值;
(e)利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正,并对矫正后的logR的中位值平移到0值;
(f)对于矫正后的logR值,在去除目标基因相关探针后计算余下所有CNV相关探针logR值的sd值作为该目标基因的背景噪音水平;
(g)按照如下规则判定目标基因是否存在CNV:
当样本为整倍体时,
此时如目标基因存在BAF分离现象表明该基因存在CNV,此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值T1则判定该基因存在扩增,如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值T2则判定该基因存在缺失;
或此时如果目标基因不存在BAF分离现象,此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T3则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T4则判定该基因存在缺失;
当待检测样本存在多条染色体上大量SNP位点的BAF分离现象时表明该样本存在非整倍体扩增或缺失现象(即非整倍体时),
此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T5则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T6则判定该基因存在缺失。
在一个实施方案中,所述阈值T1为0.1至0.7范围内的任意值,T2为-0.7至-0.1范围内的任意值,T3为0.1至0.7范围内的任意值,T4为-0.7至-0.1范围内的任意值,T5为0.1至0.7范围内的任意值,和T6为-0.7至-0.1范围内的任意值;并且T1、T2、T3、T4、T5和T6可相同或不同。
在一个实施方案中,所述阈值T1例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7,T2例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1,T3例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7,T4例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1,T5例如为0.1、0.2、0.3、0.4、0.5、0.6或0.7,和T6例如为-0.7、-0.6、-0.5、-0.4、-0.3、-0.2或-0.1。
参考图1,上述方法可以以包括若干功能模块的装置呈现,作为一个非限制性实例,这些功能模块包括:测序数据读入模块、BAF计算模块、BAF矫正模块、BAF分离鉴定模块、测序深度计算模块、logR矫正模块、logR背景噪音计算模块、CNV判定模块、结果输出模块。以下详细描述这些功能模块。
测序数据读入模块:用于读入本发明所提供的试剂盒探针捕获的文库经NGS测序后产生的原始测序数据,进而利用比对软件如bwa进行比对生成BAM文件并进行排序、去冗余。
BAF计算模块:利用测序数据读入模块所产生的BAM文件及CNV相关SNP位点文件作为输入,计算每个位点的BAF值并输出。
BAF矫正模块:利用BAF计算模块输出的BAF值及本发明所提供试剂盒在大规模样本中针对每个CNV SNP位点的BAF所产生的基线文件作为输入,对样本中每个SNP位点的BAF进行样本间矫正,排除实验因素引入的误差,并输出矫正后的BAF值。
BAF分离鉴定模块:利用BAF矫正模块所产生的BAF值作为输入,鉴定目标基因相关的SNP位点是否存在BAF分离的情况以及基因组倍型完整度。当目标基因上存在杂合SNP时,杂合SNP的BAF如果不在0.5附近,则表明该目标基因存在拷贝数变异,其BAF偏离0.5的程度与目标基因的倍型及肿瘤纯度相关,例如当肿瘤纯度为100%时,BAF分布在0.33或0.67附近时表明该基因存在3个拷贝;当肿瘤纯度为50%时,BAF分布在0.33或0.67附近时表明该基因存在LOH。因而仅有BAF的信息无法尚确定目标存在扩增或缺失。如果基因组上同时存在大量区域的BAF分离现象,则表明该样本的基因组为非整倍体,即可能存在非整倍体扩增现象。
测序深度(depth)计算模块:利用测序数据读入模块所产生的BAM文件及CNV相关探针文件作为输入,计算每条探针的原始测序深度信息并输出。
logR矫正模块:利用测序深度计算模块输出的测序深度信息及本发明所提供试剂盒在大规模正常人样本中所产生的测序深度信息作为输入对原始测序深度利用GAM进行矫正,同时在样本内进行logR转换,并利用样本内所有CNV探针logR的中位值进行归零矫正,输出矫正后的logR值。
LogR背景噪音计算模块:利用logR矫正模块输出的矫正后的logR值信息及CNV检测目标基因集作为输入评估每个目标基因的背景噪音水平,统计除去该目标基因所有探针后logR的sd值作为该目标基因的背景噪音水平并输出。
CNV判定模块:利用BAF矫正模块、logR矫正模块及logR背景噪音计算模块所产生的BAF、logR值及噪音水平作为输入判定目标基因是否存在CNV及相对拷贝数。当待检测样本不存在多条染色体上大量SNP位点的BAF分离现象时表明该样本为完整的二倍体样本,此时如目标基因存在BAF分离现象表明该基因存在CNV,此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值则判定该基因存在扩增,如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值则判定该基因存在缺失。当待检测样本为完整的二倍体样本,此时如果目标基因不存在BAF分离现象,此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值则判定该基因存在缺失。当待检测样本存在多条染色体上大量SNP位点的BAF分离现象时表明该样本存在非整倍体扩增或缺失现象,此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值则判定该基因存在缺失。
结果输出模块:用于绘制CNV相关分析图及输出最终CNV结果。
在一个具体实施方案中,所述判断目标基因BAF是否存在分离的规则如下:
如目标基因上存在大于给定阈值数目的杂合SNP位点,比如5,则判断目标基因所有杂合SNP中是否存在连续的给定阈值数目的杂合SNP位点,
使得这些连续的杂合SNP位点的BAF同时分布在0.5的两侧,且分布在0.5两侧的任意两个SNP对应BAF之间的差值大于给定阈值,如0.1;或
使得这些连续的杂合SNP位点的BAF仅分布在0.5的单侧,且任意单个SNP对应BAF与0.5之间的差值大于给定阈值,如0.1;
如满足上述条件,即判定目标基因存在BAF分离,否则判定不存在BAF分离。
在一个具体实施方案中,所述判定基因组倍型是否完整的规则如下:
对于任意一条染色体,如其包含的所有杂合SNP中存在任意SNP的BAF与0.5之间的差值大于给定阈值,如0.1,则判定该染色体存在CNV;如果同时存在CNV的染色体数据大于给定阈值,如5,则判定该样本基因组倍型不完整;反之,则倍型完整。
在一个具体实施方案中,所述判定目标基因是否存在CNV的规则如下:
如果该样本基因组倍型完整,
如果目标基因的BAF存在分离,
此时如果目标基因对应所有探针的中位logR值大于该基因对应背景噪音水平或者大于给定阈值,如0.2,则判定该基因存在CNV扩增;此时如果目标基因对应所有探针的中位logR值小于该基因对应背景噪音水平的相反数或者小于给定阈值,如-0.2,则判定该基因存在CNV缺失;或
如果目标基因的BAF不存在分离,
此时如果目标基因对应所有探针的中位logR值大于该基因对应背景噪音水平且大于给定阈值,如0.2,则判定该基因存在CNV扩增;此时如果目标基因对应所有探针的中位logR值小于该基因对应背景噪音水平的相反数且小于给定阈值,如-0.2,则判定该基因存在CNV缺失;或
如果该样本基因组倍型不完整,
此时如果目标基因对应所有探针的中位logR值大于该基因对应背景噪音水平且大于给定阈值,如0.3,则判定该基因存在CNV扩增;此时如果目标基因对应所有探针的中位logR值小于该基因对应背景噪音水平的相反数且小于给定阈值,如-0.3,则判定该基因存在CNV缺失。
在本公开内容的第二方面的一个具体实施方案中,提供了提供了一种联合检测样本中目标基因的SNV、CNV和FUSION的方法,所述方法包括SNV检测、CNV检测和FUSION变异检测,其中CNV变异检测根据第一方面所述的任一种方法进行。
在本公开内容的第三方面的一个具体实施方案中,提供了一种用于联合检测样本中的SNV、CNV和FUSION变异的装置,所述联合检测根据第二方面所述的任一种方法进行。
在第三方面的一个实施方案中,所述用于联合检测样本中的SNV、CNV和FUSION变异的装置包括:
测序数据读入模块,用于将原始测序数据比对到参考基因组并排序及去冗余;
SNV检测模块,用于检测样本中的所有SNV;
CNV检测模块,用于检测样本中目标基因的CNV;
FUSION变异检测模块,用于检测样本中的所有FUSION变异;和
结果输出模块,用于整合SNV检测模块、CNV检测模块和FUSION变异检测模块的结果并输出,
其中CNV检测模块包括以下模块:
BAF计算模块,用于实施步骤(a)计算每个SNP位点的BAF值;
BAF矫正模块,用于实施步骤(b)对BAF进行样本间矫正;
BAF分离鉴定模块,用于实施步骤(c)鉴定目标基因上的BAF是否存在分离,以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度;
测序深度计算模块,用于实施步骤(d)统计原始测序深度并计算目标基因的logR值;
logR矫正模块,用于实施步骤(e)矫正logR值;
logR背景噪音计算模块,用于实施步骤(f)计算logR的背景噪音水平;和
CNV判定模块,用于实施步骤(g)按照如下规则判定目标基因是否存在CNV:
当样本为整倍体时,
此时如目标基因存在BAF分离现象表明该基因存在CNV,此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值T1则判定该基因存在扩增,如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值T2则判定该基因存在缺失;
或此时如果目标基因不存在BAF分离现象,此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T3则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T4则判定该基因存在缺失;
当样本为非整倍体时,
此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T5则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T6则判定该基因存在缺失,
其中所述阈值T1例如为0.2,T2例如为-0.2,T3例如为0.2,T4例如为-0.2,T5例如为0.3,和T6例如为-0.3。
参考图2,该第三方面的装置可以包括若干功能模块,作为一个非限制性实例,这些功能模块包括:测序数据读入模块,用于将原始测序数据比对到参考基因组并排序及去冗余;SNV检测模块,用于检测样本中的所有SNV;CNV检测模块,用于检测样本中目标基因的CNV;FUSION变异检测模块,用于检测样本中的所有FUSION变异;和结果输出模块,用于整合SNV检测模块、CNV检测模块和FUSION变异检测模块的结果并输出。
在第四方面,本公开内容提供了一种用于实施根据第一方面和第二方面所述的任一种方法的计算机系统,其包括:
输入设备,用于输入样本核酸序列的测序信息;
计算机存储器,用于存储计算机程序指令;
计算机处理器,用于执行所述计算机程序指令,其中所述计算机程序指令实施单独的CNV检测或SNV、CNV和FUSION变异的联合检测,并将结果传输到输出设备;和
输出设备,用于显示所述结果。
在第五方面,本公开内容提供了一种计算机可读介质,其中
所述计算机可读介质存储有计算机程序,
其中所述计算机程序能被计算机处理器执行以实施根据第一方面和第二方面所述的任一种方法。
本文所用的术语仅以描述具体的实施方案为目的而不意图限制本发明。除非上下文另有明确指示,否则本文所用的单数形式“一”、“一个”和“所述”也意图包括复数形式。此外,开放式的表述“包括”和“包含”解释为还可以含有没有述及的结构组成部分或方法步骤,但需要注意的是,该开放式的表述也涵盖仅由所述的组分和方法步骤组成的情形(即涵盖了封闭式表述“由……组成”的情形)。
如全文所用,范围用作描述该范围内的每个数值和所有数值的简写形式。范围内的任何数值例如整数值、以十分之一递增的值(当范围的端值为小数点后一位时)或以百分之一递增的值(当范围的端值为小数点后二位时)都可选做该范围的终点。例如,范围0.1-10用作描述该范围内的所有数值,例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8……9.5、9.6、9.7、9.8、9.9和10 (以十分之一递增的值),并且包括所有子范围,例如0.1-1.0、2.0-3.0、4.0-5.0、6.0-7.0、8.0-9.0等。
本说明书中提及的所有科学技术术语具有与本领域技术人员通常理解的含义相同的含义,在冲突的情况下以本说明书中的定义为准。为了使本发明的描述更易于理解,以下先对一些术语进行解释说明。
本文所述的术语“建库”又称文库构建,是指,对于血液、体液或粪便等样本中存在的cfDNA进行修复并连接到一段已知DNA片段即adapter序列(也称为接头)上,从而可以用于在illumina设备上进行高通量DNA测序的过程。本发明中所称“建库”是指用于高通量测序的建库。
本文所述的术语“高通量测序”又可以称为下一代测序技术(Next GenerationSequencing, NGS)、大规模平行测序(Massively Parallel Sequencing(MPS)),是指采用“边合成边测序”的原理、对于几十万到几百万DNA分子同时进行平行的测序反应,然后通过生物信息学分析所得到的原始图像数据或电化学信号、最终得到待测样品的核酸序列或拷贝数等信息的测序技术,又称为高通量测序、深度测序、二代测序等。高通量测序的基本程序是将待测DNA随机打断成小片段,经末端修复、连接接头序列、PCR等步骤进行文库构建,最后使用Illumina,Ion Torrent等测序仪进行测序。
本文所述的术语“捕获测序”是指利用生物素标记的DNA或RNA探针,对DNA样本中的目标片段进行捕获,并进行测序的技术。
本文所述的术语“cfDNA”,又称游离DNA(cell free DNA),是指存在血浆或血清、脑脊液等细胞外游离状态的核酸片段,约160-180bp,是细胞DNA在生理或病理条件下的产物。cfDNA可通过分泌或细胞死亡过程释放到循环中,例如细胞坏死或凋亡。某些cfDNA为ctDNA (见下文)。
本文所述的术语“循环肿瘤DNA (circulating tumor DNA, ctDNA)”是指起源于肿瘤的游离DNA (cfDNA)级分。
本文所述的术语“突变”是指在生物或细胞的基因组中的遗传改变。例如,目的突变可以是相对于生物生殖系的变化,例如癌细胞特异性变化。突变可包括单核苷酸变异(SNV)、拷贝数变异(CNV)、单核苷酸多态性(SNP)、插入、缺失和重排(例如FUSION(融合))。
本文所述的术语“SNV (single nucleotide variant,单核苷酸变异)”是一种体细胞单核苷酸突变。
本文所述的术语“CNV(Copy Number Variation,拷贝数变异)”是指由基因组发生重排而导致的,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少。
本文所述的术语“FUSION (融合)”是指两个或多个基因的编码区或非编码区断裂,重新首尾相连,置于同一套调控序列。
本文所述的术语“SNP”,即单核苷酸多态性(Single Nucleotide Polymorphism),是指由于单个核苷酸改变而导致的核酸序列多态性。一般来说,一个SNP位点只有两种等位基因,因此又叫双等位基因。SNP在人类基因组中的发生频率比较高,大约平均每1000个碱基中就有一个多态性位点。
本文所述的术语“癌症”和“肿瘤”在本文中可交换使用以及可以指表现出自发的不受调控生长的细胞或组织,由此所述细胞或组织表现出以增加的细胞增殖(例如显著的细胞增殖)为特征的异常生长。用于本申请的检测、分析或处理的目的细胞可包括但不限于癌前细胞(例如良性细胞)、恶性细胞、转移前细胞、转移性细胞和非转移性细胞。事实上各组织的癌症均为本领域技术人员已知的,包括实体瘤,例如肉瘤、成胶质细胞瘤、黑素瘤、淋巴瘤、骨髓瘤等,以及循环癌症,例如白血病。癌症的实例包括但不限于卵巢癌、乳腺癌、结肠癌、肺癌、前列腺癌、肝细胞癌、胃癌、胰腺癌、子宫颈癌、卵巢癌、肝癌、膀胱癌、泌尿道癌、甲状腺癌、肾癌、癌瘤、黑素瘤、头颈癌和脑癌。
虽然上文已描述了本发明的各种实施方案,但是应理解的是,其仅以实例的方式提供,而并非限制。对公开的实施方案的许多改变可依照本文的公开内容来进行,而不会背离本发明的精神或范围。因此,本发明的广度和范围不应受到任何上述的实施方案所限制。
本文提及的所有文献都通过引用结合到本文中。本申请引用的所有出版物和专利文件都为所有目的而通过引用结合,引用程度如同单独地指出各个出版物或专利文件一样。
实施例
除非另外说明,否则本文实施例所用的材料均市购获得,用于进行实验的各种具体实验方法均为本领域常规的实验方法或者按照制造商所建议的步骤和条件,并能由本领域技术人员根据需要常规地确定。
实施例1
血液中多基因突变联检试剂盒的探针设计方案
根据FDA肿瘤治疗用药指南等公开信息报导选取了肺肠癌相关存在CNV的重要基因如MET、ERBB2,以MET及ERBB2基因范围为中心,在长度为1Mb的基因组范围选择东亚人群频率在0.4-0.6之间、GC含量在0.3-0.7之间的SNP位点;同时在全基因组范围内选择500个东亚人群频率在0.4-0.6之间、GC含量在0.4-0.6之间、且在人群间倍型高度稳定的SNP位点。针对所选的这些SNP位点及MET、ERBB2的外显子范围设计捕获探针,探针长度120nt,目标区域保持两层探针覆盖。
根据FDA肿瘤治疗用药指南等公开信息报导选取了肺肠癌相关存在SNV的重要基因如EGFR、MET、KRAS、NRAS、BRAF、ERBB2、ALK、KIT、TP53、RB1,针对其用药突变位点设计捕获探针,探针长度120nt,目标区域保持两层探针覆盖。
根据FDA肿瘤治疗用药指南等公开信息报导选取了肺肠癌相关存在Fusion的重要基因如ALK、RET、ROS1、FGFR2、NTRK1、NTRK2、NTRK3,从COSMIC等数据库中选择其常见融合断点所在内含子区域,针对这些内含子区域设计捕获探针,探针长度120nt,目标区域保持两层探针覆盖。
上述探针合成后按相同浓度混合用于cfDNA文库捕获,捕获的文库用于NGS测序。
实施例2
血液中多基因突变联检试剂盒的建库方案
1. 末端修复反应液配制
先从冰箱-20℃取出下列试剂,解冻后震荡混匀,单个样本配制量参见表1。
表1:
体积
cfDNA 25µL
10X末端修复酶缓冲液 3µL
末端修复酶 1.5µL
总体积 29.5µL
2. 末端修复反应
向200uL离心管中加入4.5uL分装好的Mix后按照表2程序进行反应。
表2:
步骤 温度 时间
1 20℃ 30min
2 4℃
3. 连接1反应Mix配制
先从冰箱-20℃取出下列试剂,解冻后震荡混匀,单个样本配制量参见表3。
表3:
体积
连接缓冲液1 12.5µL
连接接头1 1µL
连接酶1 1.5µL
总体积 15µL
配制后放置于冰盒上备用。
4. 纯化
末端修复反应结束后使用1.8X Ampure磁珠进行纯化,使用15uL连接1反应Mix回溶磁珠,并保证磁珠充分混匀。
5. 连接1反应
将PCR管放置于PCR仪上,按照表4进行反应:
表4:
步骤 温度 时间
1 20℃ 15min
2 65℃ 15min
3 4℃
6. 连接2反应Mix配制
先从冰箱-20℃取出下列试剂,解冻后震荡混匀,单个样本配制量参见表5。
表5:
体积
连接缓冲液2 2.25µL
连接接头2 2µL
连接酶2A 0.25µL
连接酶2B 0.5µL
总体积 5µL
7. 连接2反应
于PCR管中加入5uL连接2反应Mix后混匀保证磁珠充分重悬,并按照表6程序进行反应。
表6:
步骤 温度 时间
1 65℃ 30min
2 4℃
8. 纯化
于PCR管中加入2.5X PEG/NaCl溶液进行纯化,回溶于21uL NF水中并转移20uL至新的PCR管备用。
9. PCR扩增反应液配制
按照表7配制PCR反应液:
表7:
体积
连接产物 20uL
UDI primer Pairs 5µL
Hifi HotStart ReadyMix 25µL
总体积 50µL
10. PCR反应
按照表8的程序进行PCR反应:
表8:
Figure DEST_PATH_IMAGE002
11. 纯化
PCR反应结束后使用1.3X Ampure磁珠进行纯化,最后使用30Ul NF水回溶。
12. 文库质检
使用4150芯片和Qubit进行文库片段大小和浓度的检验。
13. 杂交:
13.1. 杂交文库准备
将待杂交文库放置于冰上融化后,取2ug置于1.5mL EP管中,再加入5uL HumanCot-1 DNA和1uL Blocking Oligo Mix后真空浓缩至干燥。
13.2. 杂交Mix配制
按照表9配制杂交反应Mix。
表9:
体积
2X 杂交反应buffer 8.5uL
杂交反应增强液 2.7uL
Probe 2uL
NF水 3.8uL
总体积 17uL
13.3. 杂交反应
加入17uL杂交反应Mix,吹吸混匀后离心将Mix收集到管底,然后避光静置10min重溶。
将重溶后的反应Mix转移至0.2mL离心管中,按照表10的反应程序进行杂交:
表10:
程序 时间
95℃ 30S
65℃ 16h
65℃ Hold
13.4. 洗脱
1)按照表11配制1X捕获buffer:
表11:
NF水 Buffer
2X Beads Wash buffer 160 160
10X Wash buffer 1 252 28
10X wash buffer 2 144 16
10X wash buffer 3 144 16
10X Stringent Wash buffer 288 32
2)将Dynabeads® M270 Streptavidin C1从4℃冰箱取出,室温平衡30min;
3)将M270涡旋均匀后取出50ul放置于1.5mL离心管,将离心管静置于磁力架上,Beads完全分离后去掉上清;
4)加入100ul 1xBeads Wash Buffer,涡旋均匀10sec后静置于磁力架上,Beads完全分离后去掉上清,共清洗3次;
5)按照表12配制磁珠重悬缓冲液。
表12:
NF水
2X 杂交反应buffer 8.5uL
杂交反应增强液 2.7uL
NF水 5.8uL
总体积 17uL
6) 将17ul磁珠重悬缓冲液加入至磁珠中,涡旋均匀后分装到0.2ml PCR管中;
7)杂交反应持续16h后,将17ul重悬后的M270磁珠加入到PCR仪上的杂交管中,涡旋混匀,然后放回PCR仪上65℃继续孵育45min,期间每12min短暂震荡约3S;
8)孵育结束后加入100ul预热的1x Wash Buffer Ⅰ,短暂震荡约3S,然后转移到1.5ml LoBind离心管中,震荡大约3sec后短暂离心并立即静置于磁力架上,大约20s后Beads完全分离,立即去掉上清;
9)加入150ul预热的1xStringent Wash Buffer,吹吸10次后短暂离心并立即静置于65℃金属浴上孵育5min,然后静置于磁力架上,大约20s后Beads完全分离,立即去掉上清,重复该步骤一次;
10)加入150ul 1x Wash Buffer Ⅰ,振荡2min,后短暂轻离心,然后静置于磁力架上,Beads完全分离后去掉上清;
11)加入150ul 1x Wash Buffer Ⅱ,振荡2min,后短暂轻离心,然后静置于磁力架上,Beads完全分离后去掉上清;
12)加入150ul 1x Wash Buffer Ⅲ,振荡2min,后短暂轻离心,然后静置于磁力架上,Beads完全分离后去掉上清;
13)加入18uL NF水重悬磁珠备用。
13.5. PCR扩增
按照下表进行PCR反应Mix的配制:
表13:
反应组分 体积(ul)
重悬的beads 20
KAPA HiFi HotStart ReadyMix 25
P5/P7 primer Mix 5
总计 50
涡旋均匀后进行以下反应:
表14:
Figure DEST_PATH_IMAGE004
13.6. PCR产物回收
加入1.5X Ampure磁珠进行产物回收,最后使用20uL NF水回溶。
13.7. 文库质检
使用4150芯片和Qubit进行文库片段大小和浓度的检验。
14. 上机测序
构建的文库使用CN500进行测序。
实施例3
细胞系混合模拟cfDNA样本中多基因突变检测
将含有EGFR 19del突变的细胞系、含有KRAS G12D突变的细胞系、含有EML4-ALK融合突变的细胞系以及含有MET扩增的细胞系gDNA打断,模拟cfDNA,用阴性细胞系gDNA稀释,使得EGFR 19del、KRAS G12D、EML4-ALK的目标突变丰度分别在0.4%、0.2%及0.1%水平,使得MET扩增的绝对拷贝数分别在10、6、3.5、2.5拷贝数,利用实施例1的试剂盒及实施例2的实验条件建库测序获得原始测序数据。
原始测序数据经bwa比对到参考基因组hg19生成BAM文件,利用sambamba排序去冗余。利用常规方法检测其中SNV、FUSION突变。利用本发明提供的CNV检测方法检测CNV。CNV检测具体步骤如下:
1)从BAM文件中统计CNV相关SNP位点的基因型信息,并计算每个SNP位点的BAF值;
2)利用预先生成的BAF基线文件对计算的BAF值进行矫正,使得各杂合SNP的BAF在大样本间的中值在0.5;
3)鉴定目标基因上的BAF是否存在分离,以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度;
4)从BAM文件统计CNV相关探针的原始测序深度,并对测序深度进行以2为底的log转换,生成logR值;
5)利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正,并对矫正后的logR的中位值平移到0值;
6)对于矫正后的logR值,在去除目标基因相关探针后计算余下所有CNV相关探针logR值的sd值作为该目标基因的背景噪音水平;
7)按照如下规则判定目标基因是否存在CNV:
当样本基因组倍型完整时,
此时如目标基因存在BAF分离现象表明该基因存在CNV,此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值则判定该基因存在扩增,如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值则判定该基因存在缺失;
或此时如果目标基因不存在BAF分离现象,此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值则判定该基因存在缺失;
当样本基因组倍型不完整时,
此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值则判定该基因存在缺失。
所述预先生成的BAF基线文件构建规则如下:
利用本发明实施例1中提供的试剂盒对300例正常人样本建库测序,比对后统计各CNV相关SNP位点的BAF值,统计杂合位点BAF分布的中值,该中值与0.5之间的差别作为对应SNP位点BAF的基线值。
所述预先生成的logR基线文件构建规则如下:
利用本发明实施例1中提供的试剂盒对30例正常人样本建库测序,比对后统计各CNV相关探针的logR值并进行样本内logR的中值归零矫正,统计每条探针logR的中值,作为对应探针logR的基线值。
所述判断目标基因BAF是否存在分离的规则如下:
如目标基因上存在大于给定阈值数目的杂合SNP位点,比如5,则判断目标基因所有杂合SNP中是否存在连续的给定阈值数据的杂合SNP位点,
使得这些连续的杂合SNP位点的BAF同时分布在0.5的两侧,且分布在0.5两侧的任意两个SNP对应BAF之间的差值大于给定阈值,如0.1;或
使得这些连续的杂合SNP位点的BAF仅分布在0.5的单侧,且任意单个SNP对应BAF与0.5之间的差值大于给定阈值,如0.1;
如满足上述条件,即判定目标基因存在BAF分离,否则判定不存在BAF分离。
所述判定基因组倍型是否完整的规则如下:
对于任意一条染色体,如其包含的所有杂合SNP中存在任意SNP的BAF与0.5之间的差值大于给定阈值,如0.1,则判定该染色体存在CNV;如果同时存在CNV的染色体数据大于给定阈值,如5,则判定该样本基因组倍型不完整;反之,则倍型完整。
所述判定目标基因是否存在CNV的阈值如下:
如果该样本基因组倍型完整,
如果目标基因的BAF存在分离,
此时如果目标基因对应所有探针的中位logR值大于该基因对应背景噪音水平或者大于给定阈值,如0.2,则判定该基因存在CNV扩增;此时如果目标基因对应所有探针的中位logR值小于该基因对应背景噪音水平的相反数或者小于给定阈值,如-0.2,则判定该基因存在CNV缺失;或
如果目标基因的BAF不存在分离,
此时如果目标基因对应所有探针的中位logR值大于该基因对应背景噪音水平且大于给定阈值,如0.2,则判定该基因存在CNV扩增;此时如果目标基因对应所有探针的中位logR值小于该基因对应背景噪音水平的相反数且小于给定阈值,如-0.2,则判定该基因存在CNV缺失;或
如果该样本基因组倍型不完整,
此时如果目标基因对应所有探针的中位logR值大于该基因对应背景噪音水平且大于给定阈值,如0.3,则判定该基因存在CNV扩增;此时如果目标基因对应所有探针的中位logR值小于该基因对应背景噪音水平的相反数且小于给定阈值,如-0.3,则判定该基因存在CNV缺失。
表15显示了细胞系混样SNV、FUSION检测结果,其中阳性表示检出变异,阴性表示未检出。表16显示了细胞系混样CNV检测结果,其中扩增阳性表示检出MET存在CNV扩增。
表15:
Figure DEST_PATH_IMAGE006
注:VAF为变异等位基因分数(Variant Allele Fraction)。
表16:
突变类型 ddPCR拷贝数 NGS拷贝数 检测结果
MET扩增 10 10.14 扩增阳性
MET扩增 10 10.1 扩增阳性
MET扩增 5.8 6.21 扩增阳性
MET扩增 5.8 6.16 扩增阳性
MET扩增 3.5 3.7 扩增阳性
MET扩增 3.5 3.76 扩增阳性
MET扩增 2.5 2.78 扩增阳性
MET扩增 2.5 2.79 扩增阳性
实施例4
临床血液样本中多基因突变联检
将含有EGFR 19del突变的临床血液样本、含有EGFR L858R突变的临床血液样本、含有EGFR T790M突变的临床血液样本、含有KRAS G12D突变的临床血液样本、含有KRASG13D突变的临床血液样本、含有BRAF V600E突变的临床血液样本、含有EML4-ALK融合突变的临床血液样本以及含有MET扩增的临床血液样本cfDNA以及利用阴性细胞系提取的gDNA打断模拟cfDNA稀释,使用ddPCR对各突变进行定量,使用实施例1中提供的试剂盒及实施例2和3中提供的建库测序方法及检测方法检测。
表17显示了临床样本SNV、FUSION检测结果,其中阳性表示检出变异,阴性表示未检出。表18显示了临床样本CNV检测结果,其中,扩增阳性表示检出MET存在CNV扩增。
这些实验结果表明,利用本发明的方法,成功实现了ctDNA占比极低的样本中的SNV、CNV及FUSION变异,尤其是低拷贝数扩增的CNV变异的有效检测。
表17:
突变类型 ddPCR VAF 变异支持数 NGS VAF 检测结果
BRAF V600E 0.18% 8 0.12% 阳性
KRAS G12D 0.22% 15 0.25% 阳性
KRAS G13D 0.20% 8 0.13% 阳性
EGFR L858R 0.20% 14 0.20% 阳性
EGFR L858R 0.17% 13 0.19% 阳性
EGFR T790M 0.19% 8 0.13% 阳性
EGFR T790M 0.27% 7 0.11% 阳性
EGFR T790M 0.26% 8 0.12% 阳性
EGFR 19del 0.18% 22 0.38% 阳性
EGFR 19del 0.18% 12 0.20% 阳性
EML4-ALK 0.20% 26 0.26% 阳性
EML4-ALK 0.40% 49 0.49% 阳性
EML4-ALK 0.80% 110 1.14% 阳性
表18:
突变类型 ddPCR拷贝数 NGS拷贝数 检测结果
MET 扩增 2.99 3.13 扩增阳性
MET 扩增 2.48 2.79 扩增阳性
MET 扩增 5.22 4.55 扩增阳性
MET 扩增 3.17 3.26 扩增阳性
MET 扩增 2.49 2.88 扩增阳性
MET 扩增 4.95 4.66 扩增阳性
MET 扩增 2.97 3.22 扩增阳性
MET 扩增 2.41 2.83 扩增阳性
虽然上文已描述了本发明的各种实施方案,但是应理解的是,其仅以实例的方式提供,而并非限制。在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都将落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种用于联合检测样本中的SNV、CNV和FUSION变异的装置,所述装置包括:
测序数据读入模块,用于将原始测序数据比对到参考基因组并排序及去冗余;
SNV检测模块,用于检测样本中的所有SNV;
CNV检测模块,用于检测样本中目标基因的CNV;
FUSION变异检测模块,用于检测样本中的所有FUSION变异;和
结果输出模块,用于整合SNV检测模块、CNV检测模块和FUSION变异检测模块的结果并输出,
其中CNV检测模块包括以下模块:
BAF计算模块,用于实施步骤(a)计算每个SNP位点的BAF值;
BAF矫正模块,用于实施步骤(b)利用预先生成的BAF基线文件对计算的BAF值进行矫正,使得各杂合SNP的BAF在大样本间的中值在0.5;
BAF分离鉴定模块,用于实施步骤(c)鉴定目标基因上的BAF是否存在分离,以及各染色体上是否存在BAF分离以评估全基因组的倍型完整程度;
判断目标基因BAF是否存在分离的规则如下:
如目标基因上存在的杂合SNP位点数目大于5,则判断目标基因所有杂合SNP中是否存在连续的所述数目的杂合SNP位点,
使得这些连续的杂合SNP位点的BAF同时分布在0.5的两侧,且分布在0.5两侧的任意两个SNP对应BAF之间的差值大于0.1;或
使得这些连续的杂合SNP位点的BAF仅分布在0.5的单侧,且任意单个SNP对应BAF与0.5之间的差值大于0.1;
如满足上述条件,即判定目标基因存在BAF分离,否则判定不存在BAF分离,
测序深度计算模块,用于实施步骤(d)统计原始测序深度并计算目标基因的logR值;
logR矫正模块,用于实施步骤(e)利用预先生成的logR基线文件及广义相加模型(GAM)对生成的logR值进行矫正,并对矫正后的logR的中位值平移到0值,输出矫正后的logR值;
logR背景噪音计算模块,用于实施步骤(f)利用logR矫正模块输出的矫正后的logR值信息及CNV检测目标基因集作为输入评估每个目标基因的背景噪音水平,统计除去该目标基因所有探针后logR的sd值作为该目标基因的背景噪音水平并输出;和
CNV判定模块,用于实施步骤(g)按照如下规则判定目标基因是否存在CNV:
当样本为整倍体时,
此时如目标基因存在BAF分离现象表明该基因存在CNV,此时如该基因的中位logR大于该基因的背景噪音水平或高于给定阈值T1则判定该基因存在扩增,如该基因的中位logR小于该基因的背景噪音水平的相反数或小于给定阈值T2则判定该基因存在缺失;
或此时如果目标基因不存在BAF分离现象,此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T3则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T4则判定该基因存在缺失;
当样本为非整倍体时,
此时如该基因的logR大于该基因的背景噪音水平且高于给定阈值T5则判定该基因存在扩增,如该基因的logR小于该基因的背景噪音水平的相反数且小于给定阈值T6则判定该基因存在缺失,
所述阈值T1为0.2,T2为-0.2,T3为0.2,T4为-0.2,T5为0.3,和T6为-0.3,
并且所述样本为血浆cfDNA。
2.根据权利要求1所述的装置,其中在将原始测序数据比对到参考基因组并排序及去冗余之前,还包括选择SNP位点并设计CNV探针的步骤。
3.根据权利要求1所述的装置,其中对于完整二倍体样本的杂合SNP,其BAF值与0.5的差值大于给定阈值0.05、0.1、0.15或0.2则表明存在CNV。
4.根据权利要求1-3中任一项所述的装置,其中如果大于4条或5条染色体上同时存在大量SNP位点的BAF分离现象,则表明该样本的基因组为非整倍体;反之则表明该样本的基因组为整倍体。
5.根据权利要求1-3中任一项所述的装置,其中所述目标基因选自EGFR、MET、KRAS、NRAS、BRAF、ERBB2、ALK、KIT、TP53、RB1、RET、ROS1、FGFR2、NTRK1、NTRK2和NTRK3。
CN202110508556.1A 2021-05-11 2021-05-11 联合检测snv、cnv和fusion变异的方法和装置 Active CN112980961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110508556.1A CN112980961B (zh) 2021-05-11 2021-05-11 联合检测snv、cnv和fusion变异的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110508556.1A CN112980961B (zh) 2021-05-11 2021-05-11 联合检测snv、cnv和fusion变异的方法和装置

Publications (2)

Publication Number Publication Date
CN112980961A CN112980961A (zh) 2021-06-18
CN112980961B true CN112980961B (zh) 2021-08-27

Family

ID=76337443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110508556.1A Active CN112980961B (zh) 2021-05-11 2021-05-11 联合检测snv、cnv和fusion变异的方法和装置

Country Status (1)

Country Link
CN (1) CN112980961B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110106063B (zh) * 2019-05-06 2022-07-08 臻和精准医学检验实验室无锡有限公司 基于二代测序的用于神经胶质瘤1p/19q联合缺失检测的系统
CN116153395B (zh) * 2023-04-17 2023-06-30 北京大学第三医院(北京大学第三临床医学院) 一种单细胞小片段染色体拷贝数变异的检测方法及系统
CN117409856B (zh) * 2023-10-25 2024-03-29 北京博奥医学检验所有限公司 基于单个待测样本靶向基因区域二代测序数据的变异检测方法、系统及可存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423534A (zh) * 2016-05-24 2017-12-01 郝柯 基因组拷贝数变异的检测方法和系统
WO2018223057A1 (en) * 2017-06-02 2018-12-06 Affymetrix, Inc. Array-based methods for analysing mixed samples using different allele-specific labels, in particular for detection of fetal aneuploidies
CN109390034A (zh) * 2018-09-20 2019-02-26 成都中珠健联基因科技有限责任公司 一种检测肿瘤组织中正常组织含量和肿瘤拷贝数的方法
CN110106063A (zh) * 2019-05-06 2019-08-09 臻和精准医学检验实验室无锡有限公司 基于二代测序的用于神经胶质瘤1p/19q联合缺失检测的系统
CN111968701A (zh) * 2020-08-27 2020-11-20 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423534A (zh) * 2016-05-24 2017-12-01 郝柯 基因组拷贝数变异的检测方法和系统
WO2018223057A1 (en) * 2017-06-02 2018-12-06 Affymetrix, Inc. Array-based methods for analysing mixed samples using different allele-specific labels, in particular for detection of fetal aneuploidies
CN109390034A (zh) * 2018-09-20 2019-02-26 成都中珠健联基因科技有限责任公司 一种检测肿瘤组织中正常组织含量和肿瘤拷贝数的方法
CN110106063A (zh) * 2019-05-06 2019-08-09 臻和精准医学检验实验室无锡有限公司 基于二代测序的用于神经胶质瘤1p/19q联合缺失检测的系统
CN111968701A (zh) * 2020-08-27 2020-11-20 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"CLImAT: accurate detection of copy number alteration and loss of heterozygosity in impure and aneuploid tumor samples using whole-genome sequencing data";Zhenhua Yu等;《Bioinformatics》;20140519;第30卷(第18期);第2576-2583页 *
"Genomic copy number variation correlates with survival outcomes in WHo grade iV glioma";Zachary S. Buchwald等;《Scientific Reports》;20200430;第10卷;第1-10页 *
"断裂点精确定位在平衡易位胚胎染色体分析中的应用";王珺等;《生殖医学杂志》;20201130;第29卷(第11期);第1483-1492页 *

Also Published As

Publication number Publication date
CN112980961A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
Collins et al. Defining the diverse spectrum of inversions, complex structural variation, and chromothripsis in the morbid human genome
CN112980961B (zh) 联合检测snv、cnv和fusion变异的方法和装置
US11434523B2 (en) Systems and methods to detect rare mutations and copy number variation
Nijman et al. Targeted next-generation sequencing: a novel diagnostic tool for primary immunodeficiencies
EP3470533B1 (en) Systems and methods to detect copy number variation
CN103874767B (zh) 对核酸样本中预定区域进行基因分型的方法和系统
CN107475375A (zh) 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒
EP2971168A2 (en) Systems and methods to detect rare mutations and copy number variation
WO2016049993A1 (zh) 用于鉴定多个生物样本之间身份关系的方法和系统
CN114026647A (zh) 单细胞遗传结构变异的综合检测
JP2020521442A (ja) 無細胞dnaについての体細胞起源または生殖系列起源の識別
EP3564391B1 (en) Method, device and kit for detecting fetal genetic mutation
WO2024138956A1 (zh) 微小残留病灶的检测方法、装置、设备和存储介质
US20240318234A1 (en) Systems and methods to detect rare mutations and copy number variation
WO2021037016A1 (en) Methods for detecting absence of heterozygosity by low-pass genome sequencing
US20180142300A1 (en) Universal haplotype-based noninvasive prenatal testing for single gene diseases
Yadav et al. Next-Generation sequencing transforming clinical practice and precision medicine
CN103074444A (zh) 组织相容性抗原决定簇基因高通量测序的hla基因分型方法
WO2023226939A1 (zh) 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用
US20200095641A1 (en) Means and methods for anti-vegf therapy
US20210164033A1 (en) Method and system for nucleic acid sequencing
Amr et al. Targeted Hybrid Capture for Inherited Disease Panels
CN117402974A (zh) 检测肠癌微卫星不稳定性的生物标记物、试剂盒及方法
Sina Identification and interpretation of pathogenic variants following Next Generation Sequencing (NGS) analysis in human Mendelian disorders
Van Deynze et al. Enhanced Detection and Genotyping of Disease-Associated Tandem Repeats Using HMMSTR and Targeted Long-Read Sequencing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant