CN116646006B - 一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置 - Google Patents
一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置 Download PDFInfo
- Publication number
- CN116646006B CN116646006B CN202310927931.5A CN202310927931A CN116646006B CN 116646006 B CN116646006 B CN 116646006B CN 202310927931 A CN202310927931 A CN 202310927931A CN 116646006 B CN116646006 B CN 116646006B
- Authority
- CN
- China
- Prior art keywords
- mutation
- gaussian mixture
- mixture model
- marking
- sites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 261
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 239000000203 mixture Substances 0.000 title claims abstract description 62
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 32
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 27
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 17
- 210000004602 germ cell Anatomy 0.000 claims abstract description 28
- 238000012163 sequencing technique Methods 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 23
- 230000009897 systematic effect Effects 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 19
- 108700028369 Alleles Proteins 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 230000036438 mutation frequency Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 8
- 238000013518 transcription Methods 0.000 claims description 8
- 230000035897 transcription Effects 0.000 claims description 8
- 238000012408 PCR amplification Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007400 DNA extraction Methods 0.000 claims description 5
- 230000000392 somatic effect Effects 0.000 claims description 5
- 238000003776 cleavage reaction Methods 0.000 claims description 4
- 238000001976 enzyme digestion Methods 0.000 claims description 4
- 230000007017 scission Effects 0.000 claims description 4
- 230000009885 systemic effect Effects 0.000 claims description 4
- 102000004190 Enzymes Human genes 0.000 claims description 2
- 108090000790 Enzymes Proteins 0.000 claims description 2
- 238000002156 mixing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 abstract description 8
- 239000000523 sample Substances 0.000 description 13
- 238000007481 next generation sequencing Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 206010069754 Acquired gene mutation Diseases 0.000 description 3
- 102100030708 GTPase KRas Human genes 0.000 description 3
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 230000037439 somatic mutation Effects 0.000 description 3
- 108091035707 Consensus sequence Proteins 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 238000011529 RT qPCR Methods 0.000 description 2
- 239000013068 control sample Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000408 embryogenic effect Effects 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 102200006541 rs121913530 Human genes 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 206010003445 Ascites Diseases 0.000 description 1
- 206010048612 Hydrothorax Diseases 0.000 description 1
- 101150105104 Kras gene Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置。本发明在进行体系突变检测时,基于高通量测序数据,通过引入高斯混合模型(Gaussian Mixture Model,GMM)对初始的突变位点进行聚类分类,并结合特定数据库对突变位点进行分析,能够区分体系、胚系突变,大幅降低突变结果的假阳性,提升检测结果的特异性和灵敏性。
Description
技术领域
本发明属于生信分析技术领域,涉及一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置。
背景技术
肿瘤样本的下一代测序(Next Generation Sequencing , NGS)被广泛用于发现生物学上重要的突变,并指导临床进行靶向治疗和用药。这些突变分为体细突变(Somaticmutation)和胚系突变(Germline mutation),体细胞突变一般仅存在于肿瘤细胞中,不遗传给后代,而种系突变发生在受精卵中,同时存在于肿瘤细胞和正常细胞中,可以遗传给后代。
通过对肿瘤组织、血液、胸腹水等类型样本进行目标基因的获取和测序,再经过生物信息分析,可以进行基因突变检测,依据突变检测结果可以进行肿瘤的发现、治疗、预后指导等临床应用。基因检测产品包括单基因突变检测、多基因联合检测,常采用定量即时聚合酶链式反应(quantitative real-time polymerase chain reaction,qPCR)的技术检测,针对的是已知突变类型的位点进行检测,低频突变检测能力和通量有限。另一类是基于NGS的肿瘤基因检测,包括全外显子测序和靶向测序的基因检测,靶向测序由于捕获的主要是肿瘤相关基因,通常是几百个基因,相比全外显子测序,同样的测序数据量可以实现对单个基因位点的超高深度测序,进而实现对更低频突变的检出,对基因低频突变的检出在临床上具有重要意义,且在通量上具有优势。
基因突变的类型包括单核苷酸变异(Single Nucleotide Variation,SNV)、短插入缺失(Short Insertions or Deletions,InDels)、拷贝数变异(Copy NumberVariations,CNVs)、结构变异(Larger Structural Variations,SVs)。体系突变检测可以通过生物信息流程来分析NGS靶向测序的数据来实现,主要是运用计算机通过特定的程序组合特定的算法来分析这些NGS数据,并最终汇报分析结果。
体系突变分析时,可以使用突变分析软件将质控合格的数据比对到参考基因组上,来汇报突变信息;胚系突变区分可以在检测肿瘤(Tumor)样本时,结合正常(Normal)样本的突变检测结果做参照进行胚系突变过滤;在没有Normal样本进行参照的情况下,则需要通过算法进行区分,在划分为体系突变的位点中,通常也会存在大量的假阳性(FalsePostive,FP)位点,假阳性位点并非样本中真实存在的基因突变,其变异的频率通常较低,可能来源于实验、测序环节,这类低频假阳性位点会干扰真实存在的低频突变的识别。因此,需要对这些非体系突变位点进行算法处理,来提高对低频突变的检测特异性和灵敏度。传统的算法处理是对突变位点进行注释,获取详细的位点信息,包括变异位点所属区域、变异分类、突变率等,然后根据生物学和医学背景知识进行条件规则过滤,最后符合过滤规则的被作为检出的阳性体系突变位点。
综上所述,开发新的生物信息学方法在肿瘤样本中高灵敏度和精确度判别体系突变,对于肿瘤检测领域具有重要意义。
发明内容
针对现有技术的不足和实际需求,本发明提供一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置,通过引入高斯混合模型(Gaussian MixtureModel,GMM)对初始的突变位点进行聚类分类,并结合特定数据库对突变位点进行分析,能够区分体系、胚系突变,大幅降低突变结果的假阳性,从而提升检测结果的特异性和灵敏性。
为达上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法,所述方法包括:
数据获取:
对待测样本进行DNA提取和酶切打断,构建文库,对构建的文库进行靶向区域捕获,捕获后进行PCR扩增,再进行上机测序,获得源数据(Raw Data);
数据处理:
对测序源数据进行评估,去除低质量的测序读序列,获得干净读序列(cleanreads),对比到参考基因组后,进行唯一分子标签(Unique Molecular Identifier,UMI)一致性分析处理,获得一致性序列(Consensus sequence);
变异检测:
进行变异发现,通过高斯混合模型对原始变异位点进行分类,依据突变位点的突变丰度在人群公共数据库的分布,进行分类注释,再结合高斯混合模型的分类结果区分体系突变和胚系突变,然后进行转录本注释,根据特定转录本的转录信息进行变异类型筛选,得到体系突变的检测结果。
本发明中,设计体系突变检测的分类算法和整套突变分析流程(示意图如图1所示),引入高斯混合模型对突变位点进行分类,并结合公共的人群突变频率数据库注释和数值统计,在不需要对照样本的情况下可以进行体系和胚系突变的区分,并在体系突变检测时降低假阳性,从而提升检测结果的特异性和灵敏性。
优选地,所述构建文库的方法包括:
将酶切打断后的DNA添加分子标签,再和引物混合进行PCR扩增。
优选地,所述数据处理具体包括:
通过fastqc软件对测序数据进行评估,使用fastp软件去除低质量的测序读序列,获得干净读序列;使用picard、fgbio和samtools软件进行唯一分子标签一致性分析处理,获得一致性序列。
优选地,所述唯一分子标签一致性分析处理:包括唯一分子标签提取、干净读序列比对参考基因组和唯一分子标签校正。
优选地,所述低质量的测序读序列的判断标准为fastp默认参数过滤标准。
优选地,所述变异检测具体包括:
通过VarDict2软件进行变异发现,变异检出的等位基因频率限为0.01或0.001,通过高斯混合模型对原始变异位点进行分类,再通过annovar软件依据突变位点的突变丰度在人群公共数据库的分布,进行分类注释,结合高斯混合模型分类结果区分体系突变和胚系突变,然后进行转录本注释,根据特定转录本的转录信息,进行变异类型筛选,得到体系突变的检测结果。
优选地,所述高斯混合模型分类中参数K为3或4,选择的特征包括每个突变位点的测序总深度DP、变异深度VD、等位基因频率AF、所有变异序列到最近的5’或3’端的平均距离PMEAN、信噪比SN、链偏好Fisher P值SBF和针对InDel基于局部重比对调整后的等位基因频率ADJAF。
优选地,所述区分体系突变和胚系突变的方法包括:
对VarDict2软件分析出的原始突变位点进行高斯混合模型分类,对SNV的分类设K为3或4,标记每个SNV类型的突变位点为0或1或2或3;对InDel的分类设K为2,标记每个InDel类型的突变位点为0或1;
划归VarDict2软件分析的Complex类型的位点到InDel类型中,对SNV类型的位点进行体系突变和胚系突变区分:根据annovar软件的三个项目公共数据库1000K、ExAC和ESP6500的注释结果,对每个突变位点标记为High或Median或Low,若某突变位点在这所述项目公共数据中的人群频率均大于0.05,则此突变的分组标记为High,若均小于0.0001,则此突变的分组标记为Low,其它则标记为Median;若某个突变位点在项目公共数据中对应的人群突变频率分别为1000K=0、esp6500=0和ExAC=8.258e-06,则根据划定的分组规则将其标记为人群等位基因频率低,字母标识为PopAF=Low;
对于SNV类的突变,在高斯混合模型分类的0、1、2、3组分别对应着标记为Low、Median和High的突变,计算高斯混合模型分类中各类的PopAF=Low的占比,占比最高的类可判断为体系突变,则将分类号标记为Somatic,高斯混合模型分类中PopAF=High占比最高的类判断为胚系突变,其它类则判断为假突变;
对于InDel类的突变,将高斯混合模型分类的各组分别与SNV类中标记为Somatic的组进行AF分布的相似性比较,相似性最高的判断为体系突变,其它的判断为非体系突变。
本发明中,使用UMI、测序数据质控、GMM模型分类、体系突变区分、规则过滤组合方法对于基于NGS的肿瘤基因体系突变检测(适用SNV、InDels)在特异性和灵敏性上的提升上效果显著。
第二方面,本发明提供一种肿瘤相关基因体系突变检测装置,所述检测装置用于执行第一方面所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法中的步骤,所述装置包括数据获取单元、数据处理单元和变异检测单元。
所述数据获取单元用于执行包括:
对待测样本进行DNA提取和酶切打断,构建文库,对构建的文库进行靶向区域捕获,捕获后进行PCR扩增,再进行上机测序。
所述数据处理单元用于执行包括:
对测序数据进行评估,去除低质量的测序读序列,获得干净读序列,并进行唯一分子标签一致性分析处理,获得一致性序列。
所述变异检测单元用于执行包括:
进行变异发现,通过高斯混合模型对原始变异位点进行分类,依据突变位点的突变丰度在人群公共数据库的分布,进行分类注释,再结合高斯混合模型的分类结果区分体系突变和胚系突变,然后进行转录本注释,根据特定转录本的转录信息进行变异类型筛选,得到体系突变的检测结果。
优选地,所述变异检测具体包括:
通过VarDict2软件进行变异发现,变异检出的等位基因频率限为0.01或0.001,通过高斯混合模型对原始变异位点进行分类,再通过annovar软件依据突变位点的突变丰度在人群公共数据库的分布,进行分类注释,结合高斯混合模型分类结果区分体系突变和胚系突变,然后进行转录本注释,根据特定转录本的转录信息,进行变异类型筛选,得到体系突变的检测结果。
优选地,所述高斯混合模型分类中参数K为3或4,选择的特征包括每个突变位点的测序总深度DP、变异深度VD、等位基因频率AF、所有变异序列到最近的5’或3’端的平均距离PMEAN、信噪比SN、链偏好Fisher P值SBF和针对InDel基于局部重比对调整后的等位基因频率ADJAF。
优选地,所述区分体系突变和胚系突变的方法包括:
对VarDict2软件分析出的原始突变位点进行高斯混合模型分类,对SNV的分类设K为3或4,标记每个SNV类型的突变位点为0或1或2或3;对InDel的分类设K为2,标记每个InDel类型的突变位点为0或1;
划归VarDict2软件分析的Complex类型的位点到InDel类型中,对SNV类型的位点进行体系突变和胚系突变区分:根据annovar软件的三个项目公共数据库1000K、ExAC和ESP6500的注释结果,对每个突变位点标记为High或Median或Low,若某突变位点在项目公共数据中的人群频率均大于0.05,则此突变的分组标记为High,若均小于0.0001,则此突变的分组标记为Low,其它则标记为Median;若某个突变位点在项目公共数据中对应的人群突变频率分别为1000K=0、esp6500=0和ExAC=8.258e-06,则根据划定的分组规则将其标记为人群等位基因频率低,字母标识为PopAF=Low;
对于SNV类的突变,在高斯混合模型分类的0、1、2、3组分别对应着标记为Low、Median和High的突变,计算高斯混合模型分类中各类的PopAF=Low的占比,占比最高的类可判断为体系突变,则将分类号标记为Somatic,高斯混合模型分类中PopAF=High占比最高的类判断为胚系突变,其它类则判断为假突变;
对于InDel类的突变,将高斯混合模型分类的各组分别与SNV类中标记为Somatic的组进行AF分布的相似性比较,相似性最高的判断为体系突变,其它的判断为非体系突变。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令被处理器执行时实现第一方面所述基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法的步骤。
第四方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现第一方面所述基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明设计肿瘤体系突变检测的分类算法和整套突变分析流程,引入高斯混合模型对突变位点进行分类,并结合公共的人群突变频率数据库注释和数值统计,在不需要对照样本的情况下可以进行体系和胚系突变的区分,并在体系突变检测时降低假阳性,从而提升检测结果的特异性和灵敏性。
附图说明
图1为分析流程图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道购买获得的常规产品。
实施例1
对于肺癌某类型肿瘤组织参考样本NS202211的体系突变分析过程如下。
数据获取
该样本在实验环节进行DNA提取、DNA片段化,添加分子标签标记后,经过PCR扩增及靶向捕获富集纯化等步骤后,进行NGS测序,获取下机源数据NS202211_R1.fastq.gz和NS202211_R2.fastq.gz,该样本数据为双端测序数据。
数据处理
使用fastqc软件对源数据进行分析,2个测序数据的质量评估参数Q30分别为89.47%和89.77%。经过fastp软件的数据质控后,获得干净读序列:
NS202211_R1.fp.fastq.gz;
NS202211_R2.fp.fastq.gz。
接下来进行分子标签一致性处理,使用picard软件先将上述2个fastq文件转成1个ubam文件,即为NS202211.ubam;再依据实验时使用的分子标签信息使用fgbio软件进行参数设置来提取ubam文件的UMI信息,生成NS202211.umi.ubam,再使用samtools软件的fastq命令对其进行转化,并通过bwa软件使用mem算法将其比对到人类参考基因组上(hg19),得到1个bam格式的比对文件,为NS202211.umi.bam。
再对该bam文件使用samtool软件的sort命令进行排序,使用samtools软件的index命令建立文件索引信息,经过picard软件对bam文件进行合并(merge),使用fgbio软件对前述步骤生成的结果进行UMI的校正、分组和生成一致性序列比对结果(Consensussequence)。
再使用bwa软件的mem算法将经UMI校正的一致性比对序列结果和人类参考基因组进行再次比对,并过滤掉不一致的序列。最终获得目的文件:
NS202211.consensus.mapped.filtered.clipped.bam和
NS202211.consensus.mapped.filtered.clipped.bai;
这两个结果文件可以用于后续的变异发现。
使用bamdst软件结合靶向捕获的探针信息bed文件对最终的consensus.mapped.filtered.clipped.bam文件进行统计,结果显示≥100X的在靶覆盖度平均为88.78.%,靶区平均测序深度为1199。
变异发现
使用Vardict2软件对上述经UMI进行过一致性处理比对的最终bam文件NS202211.consensus.mapped.filtered.clipped.bam进行突变位点识别。使用hg19版本的人类参考基因组,设置最小AF发现限(min_af)为0.01,最终获得初始的突变位点vcf文件,为NS202211.vcf.gz。
使用自编程的python脚本引入设置好特征类别的GMM模型,对初始突变位点文件进行组别划分,然后使用annovar软件对添加了模型分组标记的突变位点进行三个公共数据库(1000K、ExAc、ESP6500)注释,然后根据设定的阈值对不同突变位点进行人群突变频率组划分,即标注PopAF为High、Low或Median。经过验证分析,对初步判定为体系突变的位点标注为Somatic,对判定不是体系突变的位点标注为False。
再使用SnpSift软件对各位点进行转录本注释,然后按照转录本注释的结果再次进行过滤。最后过滤掉标记为False的位点,剩余的位点可以作为可信的体系突变分析结果。
结果文件为NS202211.final.vcf。
经比较,该样本的体系突变结果与参考样品的正确突变结果一致。该样本最终被检出的其中1个体系突变的位点为KRAS基因的p.G12S变异,变异的丰度AF=10.36%。
如下为该样本NS202211的KRAS p.G12S突变的vcf信息。
chr12 25398285.C T 247 PASS SAMPLE=NS202211;TYPE=SNV;DP=1187; VD=123;AF=0.1036;BIAS=2:2;REFBIAS=522:538;VARBIAS=48:75;PMEAN=29.3;PSTD=1;QUAL=35.6;QSTD=1;SBF=0.03583;ODDRATIO=1.51549;MQ=60;SN=246;HIAF=0.1038;ADJAF=0;SHIFT3=1;MSI=2;MSILEN=3;NM=1.8;HICNT=123;HICOV=1185;LSEQ=GGCACTCTTGCCTACGCCAC;RSEQ=AGCTCCAACTACCACAAGTT;DUPRATE=0;SPLITREAD=0;SPANPAIR=0;ML=Somatic;1000K=0;esp6500=0;ExAC=0;PopAF=Low;ANN=T|missense_variant|MODERATE|KRAS|KRAS|transcript|NM_033360.4|protein_coding|2/6|c.34G>A|p.G12S|224/5430|34/570|12/189|| GT:DP:VD:AD:AF:RD:ALD 0/1:1187:123:1060,123:0.1036:522, 538:48,75。
综上所述,本发明设计肿瘤体系突变检测的分类算法和整套突变分析流程,引入高斯混合模型对突变位点进行分类,并结合公共的人群突变频率数据库注释和数值统计,在不需要对照样本的情况下可以进行体系和胚系突变的区分,并在体系突变检测时降低假阳性,从而提升检测结果的特异性和灵敏性。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
Claims (8)
1.一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法,其特征在于,所述方法包括:
数据获取:
对待测样本进行DNA提取和酶切打断,构建文库,对构建的文库进行靶向区域捕获,捕获后进行PCR扩增,再进行上机测序,获得源数据;
数据处理:
对测序源数据进行评估,去除低质量的测序读序列,获得干净读序列,比对到参考基因组后,进行唯一分子标签一致性分析处理,获得一致性序列;
变异检测:
进行变异发现,通过高斯混合模型对原始变异位点进行分类,依据突变位点的突变丰度在人群公共数据库的分布,进行分类注释,再结合高斯混合模型的分类结果区分体系突变和胚系突变,然后进行转录本注释,根据特定转录本的转录信息进行变异类型筛选,得到体系突变的检测结果;
所述变异检测具体包括:
通过VarDict2软件进行变异发现,变异检出的等位基因频率限为0.01或0.001,通过高斯混合模型对原始变异位点进行分类,再通过annovar软件依据突变位点的突变丰度在人群公共数据库的分布,进行分类注释,结合高斯混合模型分类结果区分体系突变和胚系突变,然后进行转录本注释,根据特定转录本的转录信息,进行变异类型筛选,得到体系突变的检测结果;
所述区分体系突变和胚系突变的方法包括:
对VarDict2软件分析出的原始突变位点进行高斯混合模型分类,对SNV的分类设K为3或4,标记每个SNV类型的突变位点为0或1或2或3;对InDel的分类设K为2,标记每个InDel类型的突变位点为0或1;
划归VarDict2软件分析的Complex类型的位点到InDel类型中,对SNV类型的位点进行体系突变和胚系突变区分:根据annovar软件的三个项目公共数据库1000K、ExAC和ESP6500的注释结果,对每个突变位点标记为High或Median或Low,若某突变位点在这所述项目公共数据中的人群频率均大于0.05,则此突变的分组标记为High,若均小于0.0001,则此突变的分组标记为Low,其它则标记为Median;若某个突变位点在项目公共数据中对应的人群突变频率分别为1000K=0、esp6500=0和ExAC=8.258e-06,则根据划定的分组规则将其标记为人群等位基因频率低,字母标识为PopAF=Low;
对于SNV类的突变,在高斯混合模型分类的0、1、2、3组分别对应着标记为Low、Median和High的突变,计算高斯混合模型分类中各类的PopAF=Low的占比,占比最高的类可判断为体系突变,则将分类号标记为Somatic,高斯混合模型分类中PopAF=High占比最高的类判断为胚系突变,其它类则判断为假突变;
对于InDel类的突变,将高斯混合模型分类的各组分别与SNV类中标记为Somatic的组进行AF分布的相似性比较,相似性最高的判断为体系突变,其它的判断为非体系突变。
2.根据权利要求1所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法,其特征在于,所述构建文库的方法包括:
将酶切打断后的DNA添加分子标签,再和引物混合进行PCR扩增。
3.根据权利要求1所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法,其特征在于,所述数据处理具体包括:
通过fastqc软件对测序数据进行评估,使用fastp软件去除低质量的测序读序列,获得干净读序列;使用picard、fgbio和samtools软件进行唯一分子标签一致性分析处理,获得一致性序列;
所述唯一分子标签一致性分析处理:包括唯一分子标签提取、干净读序列比对参考基因组和唯一分子标签校正;
所述低质量的测序读序列的判断标准为fastp默认参数过滤标准。
4.根据权利要求1所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法,其特征在于,所述高斯混合模型分类中参数K为3或4,选择的特征包括每个突变位点的测序总深度DP、变异深度VD、等位基因频率AF、所有变异序列到最近的5’或3’端的平均距离PMEAN、信噪比SN、链偏好Fisher P值SBF和针对InDel基于局部重比对调整后的等位基因频率ADJAF。
5.一种肿瘤相关基因体系突变检测装置,其特征在于,所述检测装置用于执行权利要求1-4任一项所述的基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法中的步骤,所述装置包括数据获取单元、数据处理单元和变异检测单元;
所述数据获取单元用于执行包括:
对待测样本进行DNA提取和酶切打断,构建文库,对构建的文库进行靶向区域捕获,捕获后进行PCR扩增,再进行上机测序;
所述数据处理单元用于执行包括:
对测序数据进行评估,去除低质量的测序读序列,获得干净读序列,并进行唯一分子标签一致性分析处理,获得一致性序列;
所述变异检测单元用于执行包括:
进行变异发现,通过高斯混合模型对原始变异位点进行分类,依据突变位点的突变丰度在人群公共数据库的分布,进行分类注释,再结合高斯混合模型的分类结果区分体系突变和胚系突变,然后进行转录本注释,根据特定转录本的转录信息进行变异类型筛选,得到体系突变的检测结果。
6.根据权利要求5所述的肿瘤相关基因体系突变检测装置,其特征在于,所述变异检测具体包括:
通过VarDict2软件进行变异发现,变异检出的等位基因频率限为0.01或0.001,通过高斯混合模型对原始变异位点进行分类,再通过annovar软件依据突变位点的突变丰度在人群公共数据库的分布,进行分类注释,结合高斯混合模型分类结果区分体系突变和胚系突变,然后进行转录本注释,根据特定转录本的转录信息,进行变异类型筛选,得到体系突变的检测结果;
所述高斯混合模型分类中参数K为3或4,选择的特征包括每个突变位点的测序总深度DP、变异深度VD、等位基因频率AF、所有变异序列到最近的5’或3’端的平均距离PMEAN、信噪比SN、链偏好Fisher P值SBF和针对InDel基于局部重比对调整后的等位基因频率ADJAF;
所述区分体系突变和胚系突变的方法包括:
对VarDict2软件分析出的原始突变位点进行高斯混合模型分类,对SNV的分类设K为3或4,标记每个SNV类型的突变位点为0或1或2或3;对InDel的分类设K为2,标记每个InDel类型的突变位点为0或1;
划归VarDict2软件分析的Complex类型的位点到InDel类型中,对SNV类型的位点进行体系突变和胚系突变区分:根据annovar软件的三个项目公共数据库1000K、ExAC和ESP6500的注释结果,对每个突变位点标记为High或Median或Low,若某突变位点在项目公共数据中的人群频率均大于0.05,则此突变的分组标记为High,若均小于0.0001,则此突变的分组标记为Low,其它则标记为Median;若某个突变位点在项目公共数据中对应的人群突变频率分别为1000K=0、esp6500=0和ExAC=8.258e-06,则根据划定的分组规则将其标记为人群等位基因频率低,字母标识为PopAF=Low;
对于SNV类的突变,在高斯混合模型分类的0、1、2、3组分别对应着标记为Low、Median和High的突变,计算高斯混合模型分类中各类的PopAF=Low的占比,占比最高的类可判断为体系突变,则将分类号标记为Somatic,高斯混合模型分类中PopAF=High占比最高的类判断为胚系突变,其它类则判断为假突变;
对于InDel类的突变,将高斯混合模型分类的各组分别与SNV类中标记为Somatic的组进行AF分布的相似性比较,相似性最高的判断为体系突变,其它的判断为非体系突变。
7.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-4任一项所述基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法的步骤。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-4任一所述基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310927931.5A CN116646006B (zh) | 2023-07-27 | 2023-07-27 | 一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310927931.5A CN116646006B (zh) | 2023-07-27 | 2023-07-27 | 一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116646006A CN116646006A (zh) | 2023-08-25 |
CN116646006B true CN116646006B (zh) | 2023-11-14 |
Family
ID=87625216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310927931.5A Active CN116646006B (zh) | 2023-07-27 | 2023-07-27 | 一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116646006B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105483210A (zh) * | 2014-09-30 | 2016-04-13 | 深圳华大基因科技有限公司 | 一种rna编辑位点的检测方法 |
CN107491666A (zh) * | 2017-09-01 | 2017-12-19 | 深圳裕策生物科技有限公司 | 异常组织中单样本体细胞突变位点检测方法、装置和存储介质 |
CN110846411A (zh) * | 2019-11-21 | 2020-02-28 | 上海仁东医学检验所有限公司 | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 |
CN113278706A (zh) * | 2021-07-23 | 2021-08-20 | 广州燃石医学检验所有限公司 | 一种用于区分体细胞突变和种系突变的方法 |
CN115011672A (zh) * | 2022-06-30 | 2022-09-06 | 重庆邮电大学 | 一种超低频基因突变检测方法 |
CN116312780A (zh) * | 2023-05-10 | 2023-06-23 | 广州迈景基因医学科技有限公司 | 靶向基因二代测序数据体细胞突变检测方法、终端及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170321281A1 (en) * | 2016-04-25 | 2017-11-09 | The Trustees Of Columbia University In The City Of New York | Methods and compositions for treatment of glioblastoma |
US20220072553A1 (en) * | 2020-09-07 | 2022-03-10 | Zhenyue Biotechnology Jiangsu Co., Ltd. | Device and method for detecting tumor mutation burden (tmb) based on capture sequencing |
-
2023
- 2023-07-27 CN CN202310927931.5A patent/CN116646006B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105483210A (zh) * | 2014-09-30 | 2016-04-13 | 深圳华大基因科技有限公司 | 一种rna编辑位点的检测方法 |
CN107491666A (zh) * | 2017-09-01 | 2017-12-19 | 深圳裕策生物科技有限公司 | 异常组织中单样本体细胞突变位点检测方法、装置和存储介质 |
CN110846411A (zh) * | 2019-11-21 | 2020-02-28 | 上海仁东医学检验所有限公司 | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 |
CN113278706A (zh) * | 2021-07-23 | 2021-08-20 | 广州燃石医学检验所有限公司 | 一种用于区分体细胞突变和种系突变的方法 |
CN115011672A (zh) * | 2022-06-30 | 2022-09-06 | 重庆邮电大学 | 一种超低频基因突变检测方法 |
CN116312780A (zh) * | 2023-05-10 | 2023-06-23 | 广州迈景基因医学科技有限公司 | 靶向基因二代测序数据体细胞突变检测方法、终端及介质 |
Non-Patent Citations (2)
Title |
---|
"Accurate Prediction of Gene Mutations with Flow Cytometry Immune-Phenotyping By Machine Learning Algorithm";Bor-Sheng Ko et al;《blood》;第136卷(第1期);第7-8页 * |
"Detection and Localization of Solid Tumors Utilizing the Cancer-Type-Specific Mutational Signatures"";Ziyu Wang et al;《frontiers》;第10卷;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116646006A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
EP2926288B1 (en) | Accurate and fast mapping of targeted sequencing reads | |
KR20200106179A (ko) | 서열분석 기반 어세이의 유효성을 보장하기 위한 품질 관리 주형 | |
US20240105282A1 (en) | Methods for detecting bialllic loss of function in next-generation sequencing genomic data | |
CN116042833A (zh) | 比对和变体测序分析管线 | |
CN111341383B (zh) | 一种检测拷贝数变异的方法、装置和存储介质 | |
CN111968701B (zh) | 检测指定基因组区域体细胞拷贝数变异的方法和装置 | |
CN108319813A (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
CA3122109A1 (en) | Systems and methods for using fragment lengths as a predictor of cancer | |
US20210358626A1 (en) | Systems and methods for cancer condition determination using autoencoders | |
CN108292327A (zh) | 下一代测序中检测拷贝数变异的方法 | |
CN115064211A (zh) | 一种基于全基因组甲基化测序的ctDNA预测方法及其应用 | |
WO2018053081A1 (en) | Methods and systems for ultra-sensitive detection of genomic alterations | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
CN116189763A (zh) | 一种基于二代测序的单样本拷贝数变异检测方法 | |
CN109920480B (zh) | 一种校正高通量测序数据的方法和装置 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN105528532B (zh) | 一种rna编辑位点的特征分析方法 | |
Smith et al. | Benchmarking splice variant prediction algorithms using massively parallel splicing assays | |
CN116646006B (zh) | 一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置 | |
CN112102944A (zh) | 一种基于ngs的脑肿瘤分子诊断的分析方法 | |
CN115954052A (zh) | 一种实体瘤微小残留病灶监控位点筛选方法及系统 | |
KR20210040714A (ko) | 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 | |
CN115961034A (zh) | 一种基于umi技术的肺癌患者外周血基因突变检测分析方法 | |
JPWO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |