CN112029861B - 基于捕获测序技术的肿瘤突变负荷检测装置及方法 - Google Patents
基于捕获测序技术的肿瘤突变负荷检测装置及方法 Download PDFInfo
- Publication number
- CN112029861B CN112029861B CN202010927039.3A CN202010927039A CN112029861B CN 112029861 B CN112029861 B CN 112029861B CN 202010927039 A CN202010927039 A CN 202010927039A CN 112029861 B CN112029861 B CN 112029861B
- Authority
- CN
- China
- Prior art keywords
- mutation
- exon
- sites
- sequencing
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 158
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 119
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000005516 engineering process Methods 0.000 title claims abstract description 23
- 238000001914 filtration Methods 0.000 claims abstract description 57
- 238000012216 screening Methods 0.000 claims abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 44
- 206010069754 Acquired gene mutation Diseases 0.000 claims abstract description 39
- 230000037439 somatic mutation Effects 0.000 claims abstract description 38
- 238000013461 design Methods 0.000 claims abstract description 36
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 230000000392 somatic effect Effects 0.000 claims abstract description 12
- 239000000523 sample Substances 0.000 claims description 130
- 210000001082 somatic cell Anatomy 0.000 claims description 31
- 210000004602 germ cell Anatomy 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000126 in silico method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 210000000601 blood cell Anatomy 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 238000003908 quality control method Methods 0.000 claims description 9
- 201000011510 cancer Diseases 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 206010064571 Gene mutation Diseases 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 230000009946 DNA mutation Effects 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims 3
- 210000001519 tissue Anatomy 0.000 description 30
- 210000002381 plasma Anatomy 0.000 description 27
- 239000011324 bead Substances 0.000 description 26
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 24
- 239000000203 mixture Substances 0.000 description 21
- 108020004414 DNA Proteins 0.000 description 18
- 239000007788 liquid Substances 0.000 description 17
- 230000000007 visual effect Effects 0.000 description 16
- 239000011534 wash buffer Substances 0.000 description 16
- 239000006228 supernatant Substances 0.000 description 14
- 238000009826 distribution Methods 0.000 description 12
- 238000002360 preparation method Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 239000003153 chemical reaction reagent Substances 0.000 description 7
- 238000002156 mixing Methods 0.000 description 7
- 238000005119 centrifugation Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 230000003321 amplification Effects 0.000 description 5
- 238000009396 hybridization Methods 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 229910021642 ultra pure water Inorganic materials 0.000 description 5
- 239000012498 ultrapure water Substances 0.000 description 5
- 108700024394 Exon Proteins 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001575 pathological effect Effects 0.000 description 4
- 238000000746 purification Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 239000012224 working solution Substances 0.000 description 4
- 108700028369 Alleles Proteins 0.000 description 3
- 239000007853 buffer solution Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 230000001954 sterilising effect Effects 0.000 description 3
- 238000004659 sterilization and disinfection Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 2
- 238000005352 clarification Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013068 control sample Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000004925 denaturation Methods 0.000 description 2
- 230000036425 denaturation Effects 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 238000011534 incubation Methods 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- QJGQUHMNIGDVPM-UHFFFAOYSA-N nitrogen group Chemical group [N] QJGQUHMNIGDVPM-UHFFFAOYSA-N 0.000 description 2
- 230000001717 pathogenic effect Effects 0.000 description 2
- 238000012335 pathological evaluation Methods 0.000 description 2
- -1 polytetrafluoroethylene Polymers 0.000 description 2
- 229920001343 polytetrafluoroethylene Polymers 0.000 description 2
- 239000004810 polytetrafluoroethylene Substances 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 239000013074 reference sample Substances 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000007789 sealing Methods 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 102000012410 DNA Ligases Human genes 0.000 description 1
- 108010061982 DNA Ligases Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000036438 mutation frequency Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Immunology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Microbiology (AREA)
- Pathology (AREA)
- Data Mining & Analysis (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明提供了一种基于捕获测序技术的肿瘤突变负荷检测装置及方法,其中,装置中包括:panel设计模块,用于在基因组中均匀增加人群SNP位点,筛选与WES一致性最高的基因区域;数据获取模块,用于获取目标对象的组织和血浆样本,获取其测序数据;比对模块,用于将测序数据与参考基因组比对,获取变异数据结果;体细胞突变分析模块,用于对变异数据结果进行体细胞分析得到体细胞突变结果;过滤模块,用于去除体细胞突变结果中的非真实突变位点;计算模块,用于计算肿瘤突变负荷TMB。其在充分提高设计panel与WES的TMB一致性的前提下,全面提高各个环节的准确性,尤其提高panel设计的针对性、准确性和可靠性;提高不同深度、不同纯度、不同肿瘤占比的特殊组织或血浆样本的检测准确性。
Description
技术领域
本发明涉及生物医学技术领域,尤其涉及一种肿瘤突变负荷检测装置及方法。
背景技术
肿瘤突变负荷,英文全称Tumor Mutation Burden(TMB)或Tumor Mutation Load(TML),是一种可定量的生物标志物,用来反映肿瘤细胞中含有的突变数目,通常用肿瘤细胞基因组编码区的每百万碱基突变数来衡量。
现阶段对TMB检测主要依赖于NGS技术,金标准是通过WES测序(全外显子组测序技术)对≥30Mb的CDS区域(蛋白质编码区,外显子)序列中的突变数量进行统计分析与计算。然而全外显子检测存在价格昂贵、检测深度低、对于低覆盖的位点可能漏检等技术问题,因此研究者们积极探索基于捕获测序(panel)的方法对TMB进行检测,以有效降低测序成本,但是基于panel方法检测TMB时准确性和可靠性都存在较大挑战。目前,依然存在panel与全外显子测序一致性不够高、无对照样本检测结果时不准确、仅能单独检测肿瘤组织或者肿瘤患者血浆肿瘤突变负荷、对不同的测序深度的样本针对性差、对不同肿瘤占比的样本针对性差等缺点。
发明内容
针对上述问题,本发明提供了一种基于捕获测序技术的肿瘤突变负荷检测装置及方法,有效解决现有检测技术中存在的panel与全外显子测序一致性不够高、仅能单独检测肿瘤组织或者肿瘤患者血浆肿瘤突变负荷等缺点。
本发明提供的技术方案如下:
一种基于捕获测序技术的肿瘤突变负荷检测装置,包括:
panel设计模块,用于在基因组中均匀增加人群SNP位点,并筛选与全外显子测序(WES)一致性最高的基因区域;
数据获取模块,用于获取目标对象的组织和血浆样本,并基于所述panel设计模块筛选得到的基因区域获取所述组织和血浆样本的测序数据;
比对模块,用于将所述数据获取模块获取的测序数据与参考基因组进行比对,获取变异数据结果;
体细胞突变分析模块,用于对所述比对模块获取的变异数据结果进行体细胞分析得到体细胞突变结果;
过滤模块,用于去除体细胞突变分析模块分析得到的体细胞突变结果中的非真实突变位点得到真实突变位点;及
计算模块,用于根据所述过滤模块得到的体细胞真实突变位点数量计算肿瘤突变负荷TMB。
本发明还提供了一种基于捕获测序技术的肿瘤突变负荷检测方法,包括:
在基因组中均匀增加人群SNP位点,并筛选与全外显子测序一致性最高的基因区域;
获取目标对象的组织和血浆样本,并基于筛选得到的基因区域获取所述组织和血浆样本的测序数据;
将所述测序数据与参考基因组进行比对,获取变异数据结果;
对所述变异数据结果进行体细胞分析得到体细胞突变结果;
去除所述体细胞突变结果中的非真实突变位点得到真实突变位点;
根据所述体细胞真实突变位点数量计算肿瘤突变负荷TMB。
本发明还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现上述基于捕获测序技术的肿瘤突变负荷检测方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于捕获测序技术的肿瘤突变负荷检测方法的步骤。
本发明提供的基于捕获测序技术的肿瘤突变负荷检测装置及方法,在充分提高设计panel与WES的TMB一致性的前提下,提高panel设计的针对性、准确性和可靠性,尤其提高对于无对照样本结果的检测准确性,且能够同时检测肿瘤组织和肿瘤患者血浆的肿瘤突变负荷。具体,在panel设计方面通过均匀增加足够的人群SNP位点来更准确地扣除胚系突变并使用基于机器学习新区间的筛选方法挑选与WES一致性最高的基因区域组合;另外,针对不同的深度测序、不同的样本类型和不同的肿瘤占比区间构建特异性基线,以此提高检测的适应性和准确性;再有,通过扣除序列特异性错误、测序或者实验背景噪音、突变黑名单和PoN位点等,得到可信度高的体细胞变异信息;最后,能够对组织样本和血浆样本的测序数据同时进行检测处理,实现了对目标对象的组织和血浆样本的肿瘤突变负荷的同时检测且准确性较高。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对上述特性、技术特征、优点及其实现方式予以进一步说明。
图1为本发明中基于捕获测序技术的肿瘤突变负荷检测装置结构示意图;
图2为本发明中基于捕获测序技术的肿瘤突变负荷检测方法流程示意图;
图3为本发明一实例中肿瘤突变负荷检测流程图;
图4为本发明一实例中全外显子和panel捕获得到的肿瘤突变负荷一致性结果示意图;
图5为本发明中终端设备结构示意图。
附图标记:
100-肿瘤突变负荷检测装置,110-panel设计模块,120-数据获取模块,130-比对模块,140-体细胞突变分析模块,150-过滤模块,160-计算模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明的第一实施例,如图1所示,一种基于捕获测序技术的肿瘤突变负荷检测装置100,包括:panel设计模块110,用于在基因组中均匀增加人群SNP位点,并筛选与全外显子测序一致性最高的基因区域;数据获取模块120,用于获取目标对象的组织和血浆样本,并基于panel设计模块110筛选得到的基因区域获取组织和血浆样本的测序数据;比对模块130,用于将数据获取模块120获取的测序数据与参考基因组进行比对,获取变异数据结果;体细胞突变分析模块140,用于对比对模块130获取的变异数据结果进行体细胞分析得到体细胞突变结果;过滤模块150,用于去除体细胞突变分析模块140分析得到的体细胞突变结果中的非真实突变位点得到真实突变位点;及计算模块160,用于根据过滤模块150得到的体细胞真实突变位点数量计算肿瘤突变负荷TMB。
在本实施例中,panel设计模块110用于筛选与WES一致性最高的基因区域组成panel,包括均匀位点设计单元和区间筛选单元,其中,均匀位点设计单元用于根据第一预设规则对基因组设计探针的区域进行筛选后均匀增加由第二预设规则筛选后得到的人群SNP位点,以准确扣除胚系突变。区间筛选单元用于根据机器学习外显子exon的方法筛选得到与全外显子测序一致性最高的基因区域。
由于现实情况,很多时候不能得到患者的血细胞数据,而TMB只考虑体细胞突变,所以多数TMB方法是在没有胚系对照数据的情况下,因此,为了提高使用insilico的算法去除可能的胚系突变过程中的准确度,本实施例在panel设计阶段均匀增加足够的人群SNP位点。具体来说,设计包括以下步骤:
1.1对基因组设计探针的区域进行筛选,所筛选的条件包括:去掉基因组上的gap以及mappability质量低于40的区域;将基因组按照预设大小的窗口(如200bp、300bp等)和步长(如1bp、2bp等)分割后,去除GC含量高于60%及低于30%的区域;
1.2去除包含预设数量(如3等)以上亚洲人群杂合率大于预设阈值(如0.5、0.6等)的位点相应的预设长度(如120bp)区域;
1.3对于进行探针设计的区域中千人基因组数据库中的SNP位点进行筛选,筛选的条件包括:
I)亚洲人群的杂合率大于某一阈值(如0.5、0.6等)的SNP位点;
II)满足哈温平衡的SNP位点;
III)将SNP位点左右延长足够大小(如固定大小为100bp,且尽量使SNP位点处在区域中间位置)方便设计探针;
IV)使用现有成熟工具(如BWA,BLAST等)将上述延长后的区域与人类参考基因组序列比对,并统计每个区域可比对到基因组位置的数量,将数量大于预设阈值(如10个等)的区域去除。
更进一步来说,过滤杂合率和哈温平衡的步骤如下:
1)下载千人基因组phase3的SNP数据;
2)使用现有成熟工具(如plink)计算每个人群多态性位点的EAS人群(千人基因组数据库中的亚洲人群数据)的最小等位基因频率(MAF),以及哈温平衡的pvalue;
3)过滤得到哈温平衡的pvalue大于某一固定阈值(如0.05、0.06等)的位点;
4)筛选EAS人群中MAF较高的人群多态性位点。
为了设计与WES一致性最高的panel,区间筛选单元的筛选过程包括:
2.1对任一癌肿,在TCGA或其他公共数据库(或自产样本数据库)中下载对应癌肿的DNA突变数据;
2.2下载人类基因组参考序列(hg19)及相应的注释文件,并按照注释文件的位置信息,统计每个样本每个exon上发生突变的个数(去除cosmic等致病突变),并标准化exon长度;
2.3计算每个样本WES上的TMB值(记为TMB_wes);
2.4去除GC含量(如去除GC含量高于60%及低于30%的区域)和mappability等不能设计探针的exon;
2.5使用机器学习的方法对全部的exon进行排序,并依次标记为exon(1)、exon(2)、exon(3)、…、exon(N),其中,N为纳入分析的exon个数。
挑选TMB-high(如TMB>10个/Mb最高的样本)和TMB-low(如TMB<5个/Mb值低的样本)肿瘤样本来对exon做排序。排序方法具体为:每次随机抽取一定比例(如70%、80%等)的样本做特征筛选,并重复多次(如100次、150次等),统计每个exon被挑中次数times,并按统计的times从大到小排序。特征筛选可以使用随机森林、logistics回归向后逐步回归等方法并以AIC检验准则检验。在使用随机森林方法时,当exon被挑中的times一致时,还可以按重要性从大到小进行排序。
2.6根据重要性排序后,从最重要的exon(1)开始,依次增加下一标记的exon,并计算每次exon集合的TMB值,并与WES的TMB结果的一致性进行评估(当下载的为TCGA数据,则将其与TCGA WES的TMB结果的一致性进行评估),当达到某一一致性阈值,或者通过增加exon已经不能有效提高一致性时,或者设定的区间大小已经差不多是最大可接受区间大小时停止计算,将该区间作为与WES一致性最高的基因区域。具体步骤如下:
I)令挑选的exon区间集合记为exon set,且在第i轮中,exon_set={exon(1),…,exon(i)};
II)计算样本中仅包含exon set区间的TMB值(记为TMB_select_i);
III)如果满足下列条件之一,停止循环:
a)TMB_select_i和TMB_wes之间的相关性cor(i)大于给定阈值(如R^2>0.9);
b)cor(i)与cor(i-1)之间的差小于给定阈值(如0.0001等);
c)exon_set中包含的exon的总长度大于给定阈值(如10M等);
IV)如果步骤III)未停止循环,则令exon_set={exon(1),…,exon(i),exon(i+1)},并重复步骤I)-IV)直到步骤III)中停止循环。
应当注意的是,在步骤III)中b)可选的判断方法包括,直接计算排序下全部exon个数组合的相关性,并以曲线图形展示,当视觉上可见的达到某一exon个数时,相关性达到收敛条件,则选择达到收敛时的exon个数组合作为与WES一致性最高的基因区域。
数据获取模块120包括获取单元和质控单元,其中,获取单元用于获取目标对象的组织和血浆样本的原始数据;质控单元用于分别对组织和血浆样本的原始数据进行质控处理,得到测序数据。比对模块130包括第一比对单元和第二比对单元,其中,第一比对单元用于将测序数据与参考基因组进行比对,得到比对结果文件;第二比对单元,用于对比对结果文件进行去冗余及针对InDel区域进行重新比对,得到变异数据结果。在一实例中,第一对比单元中使用bwa软件将满足数据测序质量和测序数据质量的测序数据与人类参考基因组hg19进行比对,并用samtools软件对bam进行排序,得到变异数据结果;第二对比单元中用GATK和picard工具进行去冗余及InDel区域重比对。
在另一实例中,肿瘤突变负荷检测装置100还包括特异性基线构建模块,用于针对不同的测序深度区间、样本类型和肿瘤占比区间分别构建不同的测序深度基线和肿瘤占比基线。考虑到不同的测序深度或者样本类型,在覆盖度上可能存在不同的偏性,且在germline SNP位点上,BAF-0.5的偏差可能都会有所不同,故本实施例中针对会用到的不同测序深度或者样本类型构建不同的基线,已达到更好的适应性和准确性。另外,考虑到不同的组织样本病理切片中不同肿瘤占比导致的检测频率差异问题,本实施例中针对会不同的肿瘤占比区间构建不同的频率基线,以更灵敏更准确地用于不同纯度组织样本的真实突变鉴定。在一实例中,将现有肿瘤样本再病理评估中的照肿瘤占比的不同划分为多个不同的梯度,分别为0%-10%,10%-20%,20%-30%,30%以上,进而针对不同的肿瘤占比区间分别设置基线,使得TMB算法适用于不同肿瘤占比的病理样本。
基于此,在体细胞突变分析模块140中,当有对照分析的样本时,使用VarDict或MuTect2对比对模块130获取的变异数据结果进行体细胞分析得到体细胞突变结果。当没有对照分析的样本时,根据组织和血浆样本的测序深度与样本类型,选择相应的测序深度基线,基于in silico胚系扣除算法得到体细胞突变结果。
具体,在in silico胚系扣除算法的步骤具体包括:
3.1采用MuTect2等第三方软件检测全部候选的小突变,包括体细胞(somatic)的单碱基突变(SNV)和胚系的单碱基突变(SNP);
3.2采用rolling median、局部加权回归法等方法统计覆盖率coverage,并做GC校正;
3.3用健康人/已知阴性FFPE样本,构建不同测序深度、样本类型情况下的coverage的基线分布baseline1;
3.4用健康人/已知阴性FFPE样本,构建不同测序深度,样本类型情况下的杂合SNP的BAF的基线,具体使用GATK等软件检测每个样本在每个SNP位点的基因型,并分别统计杂合SNP BAF的分布baseline2_1(均值μ,标准差σ,去除μ明显偏离0.5或方差过大的杂合SNP),纯和SNP BAF的分布baseline2_2,及无突变BAF的分布baseline2_3;
3.5使用深度/样本类型相对应的baseline1,计算待测样本每个捕获区间的拷贝数的log-ratio;
3.6使用循环二元分割(CBS)方法对上述每个区间的log-ratio做分割segmentation。为方便表述,假设得到L个分割区域segment,在实例中,可以是带权重的CBS,如以健康人群覆盖度标准差的倒数为权重;
3.7在得到的每个分割区域segment上,使用其上的SNP位点做更细化的分割segmentation:
a)SNP位点要满足过滤条件:待测样本的max{baseline2_3}+k*σ<BAF<min{baseline2_2}–k*σ,k=0、1、2或3,且覆盖深度大于某一阈值(如100);
b)根据式(1)将每个BAF转化为z-mBAF;
z-mBAF=abs(BAF-μ)/σ (1)
c)对z-mBAF用CBS方法得到新的分割区域segment,假设最终得到M个分割区域segment。
3.8在PureCN、ASCAT等方法的基础上,使用网格搜索的方法估算肿瘤纯度(purity,ρ)和倍性(polidy,Ψ)的多组局部最优解,并计算不同组合下拷贝数和BAF的后验概率。
定义mBAF=min{abs(BAF-μ)+μ,100},使用log-ratio(ri)和mBAF(bi)来估算,其中,i表示第i个segment,变量ri和bi的期望如式(2)和式(3):
其中,Ci为拷贝数,且Ci=nA,i+nB,i,nA,i和nB,i两个等位基因(allele)的拷贝数。
3.9根据全部分割区域segment,使用最小二乘法求解ρ和Ψ,同时估算基于拷贝数的信息(公式2)和基于SNP的信息(公式3),并给予不同的权重。
3.10根据估算的多个局部最优purity和ploidy组合和segment划分,使用PureCN等软件判断每个候选SNV somatic的状态。基本原理是,根据beta分布先计算每个候选SNV的log-likelihood,具此计算每个purity和ploidy组合的得分,并排序,通常最终选择得分最高的purity和ploidy组合,或根据经验的选择第二/第三排序的组合。
体细胞突变分析模块140分析得到体细胞突变结果之后,过滤模块150随即针对体细胞突变分析模块140分析得到的体细胞突变结果的注释结果进行过滤去除其中的非真实突变位点得到数量为Mn的真实突变位点。具体,过滤规则包括:根据样本类型去除insilico胚系突变;过滤注释频率小于5%且在人群数据库中出现频率大于0.2%的位点;过滤已知的肿瘤驱动基因突变;过滤突变位点表现为人群频率高的非胚系位点;和/或根据预先构建的FFPE样本特征SSE的噪音基线过滤repeat区间或是同源区间比对产生的假阳性位点;和/或过滤频率小于PoN位点均值加5倍标准差的PoN位点;和/或过滤预设黑名单位点,人群出现频率大于30%或者在FFPE样本、血浆样本和血细胞样本中的两个组织类型里面人群频率大于20%的位点;和/或根据测序深度基线筛选符合深度要求的突变,根据肿瘤占比基线得到符合肿瘤占比的突变。在一实例中,使用Mutect2对变异数据结果进行体细胞分析,得到vcf文件结果(体细胞突变结果)后,使用annovar软件进行注释,得到数据库注释结果;进而过滤模块150针对注释位点进行过滤。
具体,这一过程中,为了严格控制纳入计算的突变位点,同时考虑了测序或者实验背景噪音、序列特异性错误产生的突变,PoN以及位点黑名单进行假阳性过滤,最终得到高可信度的体细胞变异信息。主要分为以下几个步骤:
4.1背景噪音
根据一定数量(如30)正常人突变位点的频率(大于等于0.1%)分布,选取单侧95%的置信区间作为背景噪音的阈值,样本位点突变频率大于等于均值加3倍标准差(mean+3sd)保留。
4.2SSE(序列特异性错误)导致的假阳性突变过滤
突变位点表现为人群频率高的非胚系位点、repeat区间或者是同源区间比对产生的假阳性位点,通过建立FFPE样本特征SSE的噪音基线,严格过滤SSE。
4.3Panel ofNormals(PoN)
用相同的实验以及分析流程对一定数量(如30)正常人血细胞和血浆样本,分别进行突变位点的出现频率统计,有两个及以上正常人出现的位点作为PoN位点,对于在PoN范围的突变,实际检测样本频率大于等于PoN位点均值加5倍标准差则保留,否则将被过滤掉。
4.4黑名单
取内部数据库一定数量(如1000)例FFPE样本、血浆样本以及血细胞样本构建突变黑名单,统计各个突变在人群中的出现频率,选取人群出现频率大于30%或者在任何两个组织类型里面人群频率都大于20%的位点作为黑名单位点,黑名单位点将被直接过滤掉。
以此计算模块160根据过滤模块150得到的体细胞真实突变位点数量计算肿瘤突变负荷TMB,如式(4):
TMB=Mn/Tn*1000000 (4)
其中,Tn表示所有变异数据中突变位点的数量。
在上述实施例中,克服了目前TMB检测方法存在的针对性较低、一致性不高、可靠性不高、对无对照样本结果检测结果不准确、仅能单独检测肿瘤组织或者肿瘤患者血浆肿瘤突变负荷等缺陷,其在充分提高设计panel与WES的TMB一致性的前提下,全面提高各个环节的准确性,尤其提高panel设计的针对性、准确性和可靠性;提高对于无对照样本结果的检测准确性;提高不同深度、不同纯度、不同肿瘤占比的特殊组织或血浆样本的检测准确性,为TMB的计算提供了一种针对性更强、敏感度更高、准确度更高的检测装置。
本发明的另一实施例中,如图2所示,一种基于捕获测序技术的肿瘤突变负荷检测方法,可应用于上述肿瘤突变负荷检测装置,该肿瘤突变负荷检测方法包括:S10在基因组中均匀增加人群SNP位点,并筛选与全外显子测序一致性最高的基因区域;S20获取目标对象的组织和血浆样本,并基于筛选得到的基因区域获取组织和血浆样本的测序数据;S30将测序数据与参考基因组进行比对,获取变异数据结果;S40对变异数据结果进行体细胞分析得到体细胞突变结果;S50去除体细胞突变结果中的非真实突变位点得到真实突变位点;S60根据体细胞真实突变位点数量计算肿瘤突变负荷TMB。
在本实施例中,由于现实情况,很多时候不能得到患者的血细胞数据,而TMB只考虑体细胞突变,所以多数TMB方法是在没有胚系对照数据的情况下,因此,为了提高使用insilico的算法去除可能的胚系突变过程中的准确度,本实施例在panel设计阶段均匀增加足够的人群SNP位点。具体来说,设计包括以下步骤:
1.1对基因组设计探针的区域进行筛选,所筛选的条件包括:去掉基因组上的gap以及mappability质量低于40的区域;将基因组按照预设大小的窗口(如200bp、300bp等)和步长(如1bp、2bp等)分割后,去除GC含量高于60%及低于30%的区域;
1.2去除包含预设数量(如3等)以上亚洲人群杂合率大于预设阈值(如0.5、0.6等)的位点相应的预设长度(如120bp)区域;
1.3对于进行探针设计的区域中千人基因组数据库中的SNP位点进行筛选,筛选的条件包括:
I)亚洲人群的杂合率大于某一阈值(如0.5、0.6等)的SNP位点;
II)满足哈温平衡的SNP位点;
III)将SNP位点左右延长足够大小(如固定大小为100bp,且尽量使SNP位点处在区域中间位置)方便设计探针;
IV)使用现有成熟工具(如BWA,BLAST等)将上述延长后的区域与人类参考基因组序列比对,并统计每个区域可比对到基因组位置的数量,将数量大于预设阈值(如10个等)的区域去除。
为了设计与WES一致性最高的panel,区间筛选单元的筛选过程包括:
2.1对任一癌肿,在TCGA或其他公共数据库(或自产样本数据库)中下载对应癌肿的DNA突变数据;
2.2下载人类基因组参考序列(hg19)及相应的注释文件,并按照注释文件的位置信息,统计每个样本每个exon上发生突变的个数(去除cosmic等致病突变),并标准化exon长度;
2.3计算每个样本WES上的TMB值(记为TMB_wes);
2.4去除GC含量(如去除GC含量高于60%及低于30%的区域)和mappability等不能设计探针的exon;
2.5使用机器学习的方法对全部的exon进行排序,并依次标记为exon(1)、exon(2)、exon(3)、…、exon(N),其中,N为纳入分析的exon个数。
挑选TMB-high(如TMB>10个/Mb最高的样本)和TMB-low(如TMB<5个/Mb值低的样本)肿瘤样本来对exon做排序。排序方法具体为:每次随机抽取一定比例(如70%、80%等)的样本做特征筛选,并重复多次(如100次、150次等),统计每个exon被挑中次数times,并按统计的times从大到小排序。特征筛选可以使用随机森林、logistics回归向后逐步回归等方法并以AIC检验准则检验。在使用随机森林方法时,当exon被挑中的times一致时,还可以按重要性从大到小进行排序。
2.6根据重要性排序后,从最重要的exon(1)开始,依次增加下一标记的exon,并计算每次exon集合的TMB值,并与WES的TMB结果的一致性进行评估(当下载的为TCGA数据,则将其与TCGA WES的TMB结果的一致性进行评估),当达到某一一致性阈值,或者通过增加exon已经不能有效提高一致性时,或者设定的区间大小已经差不多是最大可接受区间大小时停止计算,将该区间作为与WES一致性最高的基因区域。具体步骤如下:
I)令挑选的exon区间集合记为exon set,且在第i轮中,exon_set ={exon(1),…,exon(i)};
II)计算样本中仅包含exon set区间的TMB值(记为TMB_select_i);
III)如果满足下列条件之一,停止循环:
a)TMB_select_i和TMB_wes之间的相关性cor(i)大于给定阈值(如R^2>0.9);
b)cor(i)与cor(i-1)之间的差小于给定阈值(如0.0001等);
c)exon_set中包含的exon的总长度大于给定阈值(如10M等);
IV)如果步骤III)未停止循环,则令exon_set ={exon(1),…,exon(i),exon(i+1)},并重复步骤I)-IV)直到步骤III)中停止循环。
应当注意的是,在步骤III)中b)可选的判断方法包括,直接计算排序下全部exon个数组合的相关性,并以曲线图形展示,当视觉上可见的达到某一exon个数时,相关性达到收敛条件,则选择达到收敛时的exon个数组合作为与WES一致性最高的基因区域。
在步骤S20中,获取目标对象的组织和血浆样本的原始数据的之后,分别对其进行质控处理,得到测序数据。在步骤S30中,首先将测序数据与参考基因组进行比对,得到比对结果文件;之后对比对结果文件进行去冗余及针对InDel区域进行重新比对,得到变异数据结果。在一实例中,使用bwa软件将满足数据测序质量和测序数据质量的测序数据与人类参考基因组hg19进行比对,并用samtools软件对bam进行排序,得到变异数据结果;使用GATK和picard工具进行去冗余及InDel区域重比对。
在另一实例中,基于捕获测序技术的肿瘤突变负荷检测方法中还包括针对不同的测序深度区间、样本类型和肿瘤占比区间分别构建不同的测序深度基线和肿瘤占比基线的步骤。具体,考虑到不同的测序深度或者样本类型,在覆盖度上可能存在不同的偏性,且在germline SNP位点上,BAF-0.5的偏差可能都会有所不同,故本实施例中针对会用到的不同测序深度或者样本类型构建不同的基线,已达到更好的适应性和准确性。另外,考虑到不同的组织样本病理切片中不同肿瘤占比导致的检测频率差异问题,本实施例中针对会不同的肿瘤占比区间构建不同的频率基线,以更灵敏更准确地用于不同纯度组织样本的真实突变鉴定。在一实例中,将现有肿瘤样本再病理评估中的照肿瘤占比的不同划分为多个不同的梯度,分别为0%-10%,10%-20%,20%-30%,30%以上,进而针对不同的肿瘤占比区间分别设置基线,使得TMB算法适用于不同肿瘤占比的病理样本。
基于此,在步骤S40中,当有对照分析的样本时,使用VarDict或MuTect2对变异数据结果进行体细胞分析得到体细胞突变结果。当没有对照分析的样本时,根据组织和血浆样本的测序深度与样本类型,选择相应的测序深度基线,基于in silico胚系扣除算法得到体细胞突变结果。
具体,在in silico胚系扣除算法的步骤具体包括:
3.1采用MuTect2等第三方软件检测全部候选的小突变,包括体细胞(somatic)的单碱基突变(SNV)和胚系的单碱基突变(SNP);
3.2采用rolling median、局部加权回归法等方法统计覆盖率coverage,并做GC校正;
3.3用健康人/已知阴性FFPE样本,构建不同测序深度、样本类型情况下的coverage的基线分布baseline1;
3.4用健康人/已知阴性FFPE样本,构建不同测序深度,样本类型情况下的杂合SNP的BAF的基线,具体使用GATK等软件检测每个样本在每个SNP位点的基因型,并分别统计杂合SNP BAF的分布baseline2_1(均值μ,标准差σ,去除μ明显偏离0.5或方差过大的杂合SNP),纯和SNP BAF的分布baseline2_2,及无突变BAF的分布baseline2_3;
3.5使用深度/样本类型相对应的baseline1,计算待测样本每个捕获区间的拷贝数的log-ratio;
3.6使用循环二元分割(CBS)方法对上述每个区间的log-ratio做分割segmentation。为方便表述,假设得到L个分割区域segment,在实例中,可以是带权重的CBS,如以健康人群覆盖度标准差的倒数为权重;
3.7在得到的每个分割区域segment上,使用其上的SNP位点做更细化的分割segmentation:
a)SNP位点要满足过滤条件:待测样本的max{baseline2_3}+k*σ<BAF<min{baseline2_2}–k*σ,k=0、1、2或3,且覆盖深度大于某一阈值(如100);
b)根据式(1)将每个BAF转化为z-mBAF;
c)对z-mBAF用CBS方法得到新的分割区域segment,假设最终得到M个分割区域segment。
3.8在PureCN、ASCAT等方法的基础上,使用网格搜索的方法估算肿瘤纯度(purity,ρ)和倍性(polidy,Ψ)的多组局部最优解,并计算不同组合下拷贝数和BAF的后验概率。
定义mBAF=min{abs(BAF-μ)+μ,100},使用log-ratio(ri)和mBAF(bi)来估算,其中,i表示第i个segment,变量ri和bi的期望如式(2)和式(3)。
3.9根据全部分割区域segment,使用最小二乘法求解ρ和Ψ,同时估算基于拷贝数的信息(公式2)和基于SNP的信息(公式3),并给予不同的权重。
3.10根据估算的多个局部最优purity和ploidy组合和segment划分,使用PureCN等软件判断每个候选SNV somatic的状态。基本原理是,根据beta分布先计算每个候选SNV的log-likelihood,具此计算每个purity和ploidy组合的得分,并排序,通常最终选择得分最高的purity和ploidy组合,或根据经验的选择第二/第三排序的组合。
得到体细胞突变结果之后,随即步骤S50中针对得到的体细胞突变结果的注释结果进行过滤去除其中的非真实突变位点得到数量为Mn的真实突变位点。具体,过滤规则包括:根据样本类型去除in silico胚系突变;过滤注释频率小于5%且在人群数据库中出现频率大于0.2%的位点;过滤已知的肿瘤驱动基因突变;过滤突变位点表现为人群频率高的非胚系位点;和/或根据预先构建的FFPE样本特征SSE的噪音基线过滤repeat区间或是同源区间比对产生的假阳性位点;和/或过滤频率小于PoN位点均值加5倍标准差的PoN位点;和/或过滤预设黑名单位点,人群出现频率大于30%或者在FFPE样本、血浆样本和血细胞样本中的两个组织类型里面人群频率大于20%的位点;和/或根据测序深度基线筛选符合深度要求的突变,根据肿瘤占比基线得到符合肿瘤占比的突变。在一实例中,使用Mutect2对变异数据结果进行体细胞分析,得到vcf文件结果(体细胞突变结果)后,使用annovar软件进行注释,得到数据库注释结果;进而在步骤S50中,针对注释位点进行过滤。以此在步骤S60中根据过滤模块得到的体细胞真实突变位点数量计算肿瘤突变负荷TMB,如式(4)。
在一实例中:
一、测序文库构建
基于NGS测序方法,组织样本(FFPE)、血浆样本和血细胞样本(BC)进行文库构建,建库步骤如下(其中血细胞样本不需要打断处理):
1.样本打断:
将聚四氟乙烯线用紫外灭菌后的医用剪刀,剪至1cm左右的长度,并且保证打断棒的长度均一性良好,置于干净容器中,紫外灭菌3-4小时。灭菌完成后,将1cm的聚四氟乙烯线,用灭菌后的镊子装进96孔板内。每个孔装入2根打断棒,完成后再将96孔板紫外灭菌3-4小时。
按照qubit定量结果取300ng FFPE/bc DNA样本,使用TE稀释到50μl,转移到96孔板中,将锡箔纸膜放在96孔板上,四边对齐,使用热封膜仪180℃5s封膜2次,使用微孔板离心机离心。
选择预先设定的程序Peak Power:450;Duty Factor:30;Cycles/Burst:200;Treatment time:40s,3cycles,点击“Start position”。在Run界面点“Run”按钮,运行程序。在该程序运行完成后,取出样品板,使用微孔板离心机离心,再将样品板放到样品架上,选择程序Peak Power:450;Duty Factor:30;Cycles/Burst:200;Treatment time:40s,4cycles。在Run界面点“Run”按钮,运行程序。在该程序运行完成后,取出样品板,使用微孔板离心机离心。打断后取1μl进行质检。
2.文库制备步骤:
末端修复并在3’末端加A尾:按照下表1配制ER﹠AT Mix。
表1:ER﹠AT Mix配制
试剂 | 体积 |
End Repair&A-Tailing Buffer | 7μL |
End Repair&A-Tailing Enzyme Mix | 3μL |
总体积 | 10μL |
取10μL ER﹠AT Mix加入DNA样本中(冰上操作),震荡混匀,短暂离心。注意ER﹠ATMix与DNA涡旋混匀立即进行PCR反应。反应体系置于PCR仪上,按下表进行PCR反应。这里PCR仪热盖温度设为85℃。若该操作结束后立即进行下表2所示步骤实验,应将终止温度设为20℃。
表2:末端修复和加A尾实验条件
连接接头:
Adapter准备:IDT UDI adapte2.5μL,加2.5ul水稀释到5μL。配制Ligation Mix(冰上操作):根据文库个数,按照下表3配制Ligation Mix,震荡混匀。
表3:Ligation Mix配制
试剂 | 体积 |
超纯水 | 5μL |
Ligation Buffer | 30μL |
DNA Ligase | 10μL |
总体积 | 45μL |
上一步PCR结束后,取出样本。短暂离心,转入稀释好的Adapter溶液中。然后加入45μL Ligation Mix,震荡混匀,短暂离心。置于PCR仪上,20℃孵育30min,20℃保存,热盖温度为50℃。连接后纯化:上一步PCR结束后取出样本,短暂离心,加入88μL磁珠。震荡混匀(震荡时按紧管盖),室温孵育15min,使DNA与磁珠充分结合。短暂离心,离心管置于磁力架上待液体澄清(不要吸到磁珠),弃去上清。加入200μL 80%乙醇孵育30sec后弃去。重复一次200μL 80%乙醇(现用现配)清洗步骤。用10μL枪头吸尽离心管底部的残留乙醇,室温干燥3-5min至乙醇完全挥发(正面看不在反光,背面看已经干燥)。注意:磁珠过分干燥DNA产量会减少。从磁力架取下离心管,加入22μL超纯水,震荡混匀(震荡时按紧管盖)。室温孵育5min。短暂离心,离心管置于磁力架上待液体澄清。取1μL DNA文库用于浓度检测,剩余的20μL清液转移至新的PCR管进行下一步扩增试验。
文库扩增:按照下表4配制PCR Mix(冰上操作),震荡混匀。短暂离心,将PCR Mix分装至0.2mL PCR管中,置于4℃冰箱保存。
表4:PCR Mix配制
试剂 | 体积 |
HiFi HotStart ReadyMix(2×) | 25μL |
Library Amplification Primer Mix(10×) | 5μL |
总体积 | 30μL |
将上一步的文库转入已分装的PCR Mix,震荡混匀。短暂离心,置于PCR仪上,按下表5进行PCR反应。
表5:PCR反应反应条件
DNA的获得(1x Beads回收):PCR结束后,取出样本。短暂离心,加入50μL BeckmanAgencourt AMPure XP磁珠。震荡混匀(震荡时按紧管盖),室温孵育15min,使DNA与磁珠充分结合。短暂离心,离心管置于磁力架上待液体澄清(不要吸到磁珠),弃去上清。加入200μL80%乙醇(现用现配)孵育30sec后弃去。重复一次200μL 80%乙醇清洗步骤。用10μL枪头吸尽离心管底部的残留乙醇,室温干燥3-5min至乙醇完全挥发(正面看不在反光,背面看已经干燥)。注意:磁珠过分干燥DNA产量会减少。从磁力架取下离心管,加入40μL超纯水,振荡混匀。室温孵育5min洗脱DNA。短暂离心,离心管置于磁力架上待液体澄清,将文库转移至新的离心管中。保存于-20℃。
3.文库质检:
取1μL DNA文库用于浓度检测。基于NGS测序方法,FFPE、血浆和bc样本的捕获如下:选取370个基因进行全外捕获,覆盖外显子区域1684573bp,具体基因列表见表10。
4.混合文库:
取总量1μg的等量文库于1.5mL离心管中,根据每个文库的浓度和capture文库个数计算每个文库加入的体积。文库加入的体积是:(1000ng/capture文库个数/文库浓度)μL。加入Universal Blocking Oligos向上述体系中加入2.5μL Universal BlockingOligos。加入5μL COT Human DNA,震荡混匀,短暂离心。用封口膜封住EP管,放入真空离心浓缩仪中蒸干(60℃,约20min-1hr)。注意随时查看是否已蒸干。DNA变性:样本完全蒸干后,每个capture中加入7.5μL 2×Hybridization Buffer(vial5)和3μL HybridizationComponent A(vial 6),震荡混匀,短暂离心。置于95℃加热模块变性10min。
5.文库与探针杂交
取出探针短暂离心后置于47℃PCR仪中,迅速将变性的DNA从95℃转移至含有探针的PCR管中,震荡混匀,短暂离心。置于PCR仪中,47℃杂交,杂交时间应不少于16hr。配制Wash Buffer工作液:一个capture所需缓冲液的配制方法如下表6,根据capture的个数按下表6配制缓冲液。
表6:缓冲液配制
试剂 | 试剂/μL | 水/μL | 1×工作液体积/μL |
10×Stringent Wash Buffer(vial 4) | 40 | 360 | 400 |
10×Wash BufferⅠ(vial 1) | 30 | 270 | 300 |
10×Wash BufferⅡ(vial 2) | 20 | 180 | 200 |
10×Wash BufferIII(vial 3) | 20 | 180 | 200 |
2.5×Bead Wash Buffer(vial 7) | 200 | 300 | 500 |
分装需要孵育的试剂:分装400μL 1×Stringent Wash Buffer(vial4)至八连排中;分装100μL1×Wash Buffer I(vial 1)至八连排中;分装20μL Capture Beads至八连排中。孵育Capture Beads和Wash Buffer(vial 4和vial 1)工作液:Capture Beads使用前须室温平衡30min。Wash Buffer(vial 4和vial 1)工作液使用前须47℃孵育2hr。
6.杂交后纯化:
每个capture分装100μL捕获磁珠,将100μL捕获磁珠置于磁力架上至液体澄清,弃去上清。加入200μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。加入200μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。加入100μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。此时磁珠预处理完成,立即进行下一步试验。将捕获过夜的杂交液体转入清洗好的磁珠中,移液器吹打十次。置于PCR仪中47℃孵育45min(PCR热盖温度设为57℃),每隔15min震荡一次保证磁珠悬浮。
清洗:孵育完成后,每管加入100μL 47℃预热的1×Wash Buffer I(vial 1),震荡混匀。置于磁力架上至液体澄清,弃去上清。加入200μL 47℃预热的1×Stringent WashBuffer(vial 4),移液器吹打十次混匀。47℃孵育5min,置于磁力架上至液体澄清,弃去上清。注意操作过程尽量避免温度低于47℃。加入200μL 47℃预热的1×Stringent WashBuffer(vial 4),移液器吹打十次混匀。47℃孵育5min,置于磁力架上至液体澄清,弃去上清。注意操作过程尽量避免温度低于47℃。加入200μL室温放置的1×Wash Buffer I(vial1),振荡2min,短暂离心,置于磁力架上至液体澄清,弃去上清。加入200μL室温放置的1×Wash Buffer II(vial 2),震荡1min,短暂离心,放置磁力架上至液体澄清,弃去上清。加入200μL室温放置的1×Wash Buffer III(vial 3),震荡30sec,短暂离心,放置磁力架上至液体澄清,弃去上清。向离心管中加入20μL超纯水洗脱,震荡混匀,进行下一步扩增试验。
7.Post-LM-PCR:
按照表7配制Post-LM-PCR Mix,震荡混匀。
表7:Post-LM-PCR Mix配制
试剂 | 体积 |
HiFi HotStart ReadyMix | 25μL |
Post-LM-PCR Oligos 1&2,5μM | 5μL |
上一步洗脱的DNA | 20μL |
Total | 50μL |
将上述样本转入PCR反应中,震荡混匀,短暂离心。置于PCR仪上,按下表8进行PCR反应:
表8:PCR反应条件
扩增后纯化:取出纯化磁珠(DNA Purification Beads),室温平衡30min备用。取90μL纯化磁珠于1.5mL离心管中,加入50μL扩增后的捕获DNA文库,振荡混匀,室温孵育15min。置于磁力架上至液体澄清,弃去上清。加入200μL 80%乙醇(现用现配)孵育30sec后弃去。重复一次200μL 80%乙醇清洗步骤。用10μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发(前面看磁珠不反光,背面看干燥)。注意:磁珠过分干燥DNA产量会减少。从磁力架取下离心管,加入50μL超纯水,振荡混匀。室温孵育2min。短暂离心,置于磁力架上至液体澄清,将capture样本转入新的离心管中。
8.质检:
取1μL capture样本用于Qubit浓度检测。文库库检合格后上机,上机平台选择illumina平台的nexseq 500测序仪,测序策略为PE 75,每个样本数据量为10G。
二、数据分析
具体分析流程图见附图3:
5.1判断数据质控、数据测序质量及测序总量是否满足,若是,得到clean data。
5.2将得到的clean data用bwa比对到人参考基因组hg19,用samtools对bam文件进行排序;
5.3将得到的bam文件用picard和GATK工具进行去冗余及InDel区域重比对;
5.4将得到的重比对后的bam文件使用mutect2/VarDict分析体细胞突变,得到vcf文件;
5.5将得到的vcf文件用annovar工具做注释,得到数据库注释结果;
5.6将得到注释文件,过滤频率小于5%,在人群数据库中出现频率大于0.2%位点,过滤掉明确已知的肿瘤驱动基因突变,过滤突变位点表现为人群频率高的非胚系位点、repeat区间或者是同源区间比对产生的假阳性位点,通过建立的FFPE样本特征SSE噪音基线过滤SSE;过滤PoN位点:对于在PoN范围的突变,实际检测样本频率大于等于PoN位点均值加5倍标准差则保留;过滤黑名单位点;考虑样本的肿瘤占比所处的范围,根据不同的样本类型扣除in silico胚系突变,并根据测序深度基线筛选符合深度要求的突变;
5.7将上述过滤得到最终用来纳入计算的体细胞突变位点计数为Mn;
5.8将5.3得到的bam文件用samtools工具得到每个位点的覆盖深度;
5.9统计5.8统计的文件突变总数计数为Tn,将上述过滤得到最终用来纳入计算的体细胞突变位点计数为Mn;
5.10对肿瘤突变负荷进行计算TMB=Mn/Tn*1000000。
按照上述方法对37例患者的组织样本,分别做了全外显子测序和panel捕获测序,分析患者的肿瘤突变负荷,并分析这37例患者全外显子和panel捕获得到的肿瘤突变负荷一致性结果,结果见附图4(横坐标为WES检测的TMB,纵坐标为panel捕获测序检测的TMB),从图中可以看出,该37例患者全外显子和panel捕获得到的肿瘤突变负荷的相关性R^2=0.965。瘤突变负荷结果详细见下表9。
表9:37例患者全外显子和panel捕获检测到的肿瘤突变负荷结果
从以上结果可以看出,本申请的肿瘤突变负荷的检测方法不仅能够同时检测组织和血浆样本,而且检测结果准确性较高。
表10:370个基因列表
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
图5是本发明一个实施例中提供的终端设备的结构示意图,如所示,该终端设备200包括:处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211,例如:基于捕获测序技术的肿瘤突变负荷检测方法关联程序。处理器220执行计算机程序211时实现上述各个基于捕获测序技术的肿瘤突变负荷检测方法实施例中的步骤,或者,处理器220执行计算机程序211时实现上述基于捕获测序技术的肿瘤突变负荷检测装置实施例中各模块的功能。
终端设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备200可包括,但不仅限于处理器220、存储器210。本领域技术人员可以理解,图5仅仅是终端设备200的示例,并不构成对终端设备200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:终端设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。
处理器220可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器210可以是终端设备200的内部存储单元,例如:终端设备200的硬盘或内存。存储器210也可以是终端设备200的外部存储设备,例如:终端设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器210还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及终端设备200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序211发送指令给相关的硬件完成,的计算机程序211可存储于一计算机可读存储介质中,该计算机程序211在被处理器220执行时,可实现上述各个方法实施例的步骤。其中,计算机程序211包括:计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当说明的是,上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通相关人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种基于捕获测序技术的肿瘤突变负荷检测装置,其特征在于,包括:
panel设计模块,用于在基因组中均匀增加人群SNP位点,并筛选与全外显子测序一致性最高的基因区域;筛选过程包括:
2.1对任一癌肿,在公共数据库中下载对应癌肿的DNA突变数据;
2.2下载人类基因组参考序列及相应的注释文件,并按照注释文件的位置信息,统计每个样本每个exon上发生突变的个数,并标准化exon长度;
2.3计算每个样本WES上的TMB值;
2.4去除不能设计探针的exon;
2.5使用机器学习的方法对全部的exon进行排序,并依次标记为exon(1)、exon(2)、exon(3)、…、exon(N),其中,N为纳入分析的exon个数;
2.6根据重要性排序后,从最重要的exon(1)开始,依次增加下一标记的exon,并计算每次exon集合的TMB值,并与WES的TMB结果的一致性进行评估,当达到某一一致性阈值,或者通过增加exon已经不能有效提高一致性时,或者设定的区间大小达到最大可接受区间大小时停止计算,将该区间作为与WES一致性最高的基因区域;
数据获取模块,用于获取目标对象的组织和血浆样本,并基于所述panel设计模块筛选得到的基因区域获取所述组织和血浆样本的测序数据;
比对模块,用于将所述数据获取模块获取的测序数据与参考基因组进行比对,获取变异数据结果;
体细胞突变分析模块,用于对所述比对模块获取的变异数据结果进行体细胞分析得到体细胞突变结果;
过滤模块,用于去除体细胞突变分析模块分析得到的体细胞突变结果中的非真实突变位点得到真实突变位点;及
计算模块,用于根据所述过滤模块得到的体细胞真实突变位点数量计算肿瘤突变负荷TMB。
2.如权利要求1所述的肿瘤突变负荷检测装置,其特征在于,
所述panel设计模块包括均匀位点设计单元和区间筛选单元,其中,所述均匀位点设计单元用于根据第一预设规则对基因组设计探针的区域进行筛选后均匀增加由第二预设规则筛选后得到的人群SNP位点;所述区间筛选单元用于根据机器学习外显子exon的方法筛选得到与全外显子测序一致性最高的基因区域;
所述第一预设规则包括:去除基因组中gap及mappability质量低于40的区域;和/或将基因组按照预设大小的窗口和步长分割后,去除GC含量高于60%及低于30%的区域;和/或去除包含预设数量以上亚洲人群杂合率大于预设阈值的位点相应的预设长度区域;
所述第二预设规则包括:亚洲人群的杂合率大于预设阈值的SNP位点;和/或满足哈温平衡的SNP位点;和/或将SNP位点左右延长预设大小后的区域与参考基因组比对,并统计每个区域可比对到基因组位置的数量,将数量大于预设阈值的区域去除。
3.如权利要求1所述的肿瘤突变负荷检测装置,其特征在于,
所述数据获取模块包括获取单元和质控单元,其中,获取单元用于获取目标对象的组织和血浆样本的原始数据;质控单元用于分别对所述组织和血浆样本的原始数据进行质控处理,得到所述测序数据;和/或
所述比对模块包括第一比对单元和第二比对单元,其中,所述第一比对单元用于将所述测序数据与参考基因组进行比对,得到比对结果文件;所述第二比对单元,用于对所述比对结果文件进行去冗余及针对InDel区域进行重新比对,得到所述变异数据结果。
4.如权利要求1或2或3所述的肿瘤突变负荷检测装置,其特征在于,所述肿瘤突变负荷检测装置还包括特异性基线构建模块,用于针对不同的测序深度区间、样本类型和肿瘤占比区间分别构建不同的测序深度基线和肿瘤占比基线。
5.如权利要求4所述的肿瘤突变负荷检测装置,其特征在于,
所述体细胞突变分析模块使用VarDict或MuTect2对所述比对模块获取的变异数据结果进行体细胞分析得到体细胞突变结果;或
所述体细胞突变分析模块根据所述组织和血浆样本的测序深度与样本类型,选择相应的测序深度基线,基于in silico胚系扣除算法得到体细胞突变结果。
6.如权利要求4所述的肿瘤突变负荷检测装置,其特征在于,
所述过滤模块用于针对体细胞突变分析模块分析得到的体细胞突变结果的注释结果进行过滤去除其中的非真实突变位点得到真实突变位点;
过滤规则包括:根据样本类型去除in silico胚系突变;和/或过滤注释频率小于5%且在人群数据库中出现频率大于0.2%的位点;和/或过滤已知的肿瘤驱动基因突变;和/或过滤突变位点表现为人群频率高的非胚系位点;和/或根据预先构建的FFPE样本特征SSE的噪音基线过滤repeat区间或是同源区间比对产生的假阳性位点;和/或过滤频率小于PoN位点均值加5倍标准差的PoN位点;和/或过滤预设黑名单位点,人群出现频率大于30%或者在FFPE样本、血浆样本和血细胞样本中的两个组织类型里面人群频率大于20%的位点;和/或根据测序深度基线筛选符合深度要求的突变,根据肿瘤占比基线得到符合肿瘤占比的突变。
7.一种非疾病诊断目的的基于捕获测序技术的肿瘤突变负荷检测方法,其特征在于,包括:
在基因组中均匀增加人群SNP位点,并筛选与全外显子测序一致性最高的基因区域;筛选过程包括:
2.1对任一癌肿,在公共数据库中下载对应癌肿的DNA突变数据;
2.2下载人类基因组参考序列及相应的注释文件,并按照注释文件的位置信息,统计每个样本每个exon上发生突变的个数,并标准化exon长度;
2.3计算每个样本WES上的TMB值;
2.4去除不能设计探针的exon;
2.5使用机器学习的方法对全部的exon进行排序,并依次标记为exon(1)、exon(2)、exon(3)、…、exon(N),其中,N为纳入分析的exon个数;
2.6根据重要性排序后,从最重要的exon(1)开始,依次增加下一标记的exon,并计算每次exon集合的TMB值,并与WES的TMB结果的一致性进行评估,当达到某一一致性阈值,或者通过增加exon已经不能有效提高一致性时,或者设定的区间大小达到最大可接受区间大小时停止计算,将该区间作为与WES一致性最高的基因区域;
获取目标对象的组织和血浆样本,并基于筛选得到的基因区域获取所述组织和血浆样本的测序数据;
将所述测序数据与参考基因组进行比对,获取变异数据结果;
对所述变异数据结果进行体细胞分析得到体细胞突变结果;
去除所述体细胞突变结果中的非真实突变位点得到真实突变位点;
根据所述体细胞真实突变位点数量计算肿瘤突变负荷TMB。
8.如权利要求7所述的肿瘤突变负荷检测方法,其特征在于,
所述在基因组中均匀增加人群SNP位点,并筛选与全外显子测序一致性最高的基因区域中包括:根据第一预设规则对基因组设计探针的区域进行筛选后均匀增加由第二预设规则筛选后得到的人群SNP位点;
所述第一预设规则包括:去除基因组中gap及mappability质量低于40的区域;和/或将基因组按照预设大小的窗口和步长分割后,去除GC含量高于60%及低于30%的区域;和/或去除包含预设数量以上亚洲人群杂合率大于预设阈值的位点相应的预设长度区域;
所述第二预设规则包括:亚洲人群的杂合率大于预设阈值的SNP位点;和/或满足哈温平衡的SNP位点;和/或将SNP位点左右延长预设大小后的区域与参考基因组比对,并统计每个区域可比对到基因组位置的数量,将数量大于预设阈值的区域去除。
9.如权利要求7或8所述的肿瘤突变负荷检测方法,其特征在于,
所述在基因组中均匀增加人群SNP位点,并筛选与全外显子测序一致性最高的基因区域中还包括:
对基因组中各样本外显子exon上发生突变的数量进行统计后根据各样本全外显子组测序上的TMB值挑选exon并对其重要性进行排序;
从最重要的exon开始,按照排序依次增加下一标记的exon,并计算每次增加后exon集合的TMB值及其与相应外显子组测序TMB值的相关性;
根据计算得到的相关性筛选得到与全外显子测序一致性最高的基因区域。
10.如权利要求7所述的肿瘤突变负荷检测方法,其特征在于,
所述获取目标对象的组织和血浆样本,并基于筛选得到的基因区域获取所述组织和血浆样本的测序数据中包括:
获取目标对象的组织和血浆样本的原始数据;
分别对所述组织和血浆样本的原始数据进行质控处理,得到所述测序数据;
和/或,所述将所述测序数据与参考基因组进行比对,获取变异数据结果中包括:
将所述测序数据与参考基因组进行比对,得到比对结果文件;
对所述比对结果文件进行去冗余及针对InDel区域进行重新比对,得到所述变异数据结果。
11.如权利要求7或8或10所述的肿瘤突变负荷检测方法,其特征在于,所述肿瘤突变负荷检测方法中还包括针对不同的测序深度区间、样本类型和肿瘤占比区间分别构建不同的测序深度基线和肿瘤占比基线的步骤。
12.如权利要求11所述的肿瘤突变负荷检测方法,其特征在于,
所述对所述变异数据结果进行体细胞分析得到体细胞突变结果中包括:使用VarDict或MuTect2对所述比对模块获取的变异数据结果进行体细胞分析得到体细胞突变结果;或
所述对所述变异数据结果进行体细胞分析得到体细胞突变结果中包括:
根据所述组织和血浆样本的测序深度与样本类型,选择相应的测序深度基线;
基于in silico胚系扣除算法得到体细胞突变结果。
13.如权利要求11所述的肿瘤突变负荷检测方法,其特征在于,
所述去除所述体细胞突变结果中的非真实突变位点得到真实突变位点中包括:针对体细胞突变分析模块分析得到的体细胞突变结果的注释结果进行过滤去除其中的非真实突变位点得到真实突变位点;
过滤规则包括:根据样本类型去除in silico胚系突变;和/或过滤注释频率小于5%且在人群数据库中出现频率大于0.2%的位点;和/或过滤已知的肿瘤驱动基因突变;和/或过滤突变位点表现为人群频率高的非胚系位点;和/或根据预先构建的FFPE样本特征SSE的噪音基线过滤repeat区间或是同源区间比对产生的假阳性位点;和/或过滤频率小于PoN位点均值加5倍标准差的PoN位点;和/或过滤预设黑名单位点,人群出现频率大于30%或者在FFPE样本、血浆样本和血细胞样本中的两个组织类型里面人群频率大于20%的位点;和/或根据测序深度基线筛选符合深度要求的突变,根据肿瘤占比基线得到符合肿瘤占比的突变。
14.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时实现如权利要求7-13中任一项所述非疾病诊断目的的基于捕获测序技术的肿瘤突变负荷检测方法的步骤。
15.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求7-13中任一项所述非疾病诊断目的的基于捕获测序技术的肿瘤突变负荷检测方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010927039.3A CN112029861B (zh) | 2020-09-07 | 2020-09-07 | 基于捕获测序技术的肿瘤突变负荷检测装置及方法 |
PCT/CN2021/074742 WO2022048106A1 (zh) | 2020-09-07 | 2021-02-02 | 基于捕获测序技术的肿瘤突变负荷检测装置及方法 |
US17/202,372 US20220072553A1 (en) | 2020-09-07 | 2021-03-16 | Device and method for detecting tumor mutation burden (tmb) based on capture sequencing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010927039.3A CN112029861B (zh) | 2020-09-07 | 2020-09-07 | 基于捕获测序技术的肿瘤突变负荷检测装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112029861A CN112029861A (zh) | 2020-12-04 |
CN112029861B true CN112029861B (zh) | 2021-09-21 |
Family
ID=73584578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010927039.3A Active CN112029861B (zh) | 2020-09-07 | 2020-09-07 | 基于捕获测序技术的肿瘤突变负荷检测装置及方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112029861B (zh) |
WO (1) | WO2022048106A1 (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112029861B (zh) * | 2020-09-07 | 2021-09-21 | 臻悦生物科技江苏有限公司 | 基于捕获测序技术的肿瘤突变负荷检测装置及方法 |
CN112786103B (zh) * | 2020-12-31 | 2024-03-15 | 普瑞基准生物医药(苏州)有限公司 | 一种分析靶向测序Panel估算肿瘤突变负荷可行性的方法和装置 |
CN112687335A (zh) * | 2021-01-08 | 2021-04-20 | 北京果壳生物科技有限公司 | 基于链式搜索算法的母系mt单倍群鉴定方法、装置及设备 |
CN113257349B (zh) * | 2021-06-10 | 2021-10-01 | 元码基因科技(北京)股份有限公司 | 选择用于分析肿瘤突变负荷的设计区间的方法及应用 |
CN113257350B (zh) * | 2021-06-10 | 2021-10-08 | 臻和(北京)生物科技有限公司 | 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置 |
CN113658638B (zh) * | 2021-08-20 | 2022-06-03 | 江苏先声医学诊断有限公司 | 一种基于ngs平台的同源重组缺陷的检测方法和质控体系 |
CN113838526B (zh) * | 2021-09-16 | 2023-08-25 | 赛业(广州)生物科技有限公司 | 一种病毒突变体的生成方法、系统、计算机设备及介质 |
CN114203261A (zh) * | 2021-10-26 | 2022-03-18 | 昂凯生命科技(苏州)有限公司 | 一种用于基因检测Panel临床诊断指标算法开发的方法 |
CN114267410A (zh) * | 2022-02-10 | 2022-04-01 | 领星生物科技(上海)有限公司 | 用于确定肿瘤突变负荷的状态的方法、设备和存储介质 |
CN114664375A (zh) * | 2022-03-15 | 2022-06-24 | 浙江博圣生物技术股份有限公司 | 一种基于多样本全外显子测序的变异过滤方法 |
CN114694750B (zh) * | 2022-05-31 | 2022-09-02 | 江苏先声医疗器械有限公司 | 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法 |
CN115064212B (zh) * | 2022-06-24 | 2023-03-14 | 哈尔滨星云生物信息技术开发有限公司 | 基于wgs数据的预设区域人群肿瘤特异突变识别方法 |
WO2024122804A1 (ko) * | 2022-12-05 | 2024-06-13 | 주식회사 테라젠바이오 | 포르말린 고정 파라핀 포매된 샘플에서 생성된 dna 시컨싱 데이터에서 딥러닝을 이용한 체세포 변이와 인공 변이의 구별 방법 및 이를 이용한 장치 |
CN115798584B (zh) * | 2022-12-14 | 2024-03-29 | 上海华测艾普医学检验所有限公司 | 一种同时检测egfr基因t790m和c797s顺反式突变的方法 |
CN116364178B (zh) * | 2023-04-18 | 2024-01-30 | 哈尔滨星云生物信息技术开发有限公司 | 一种体细胞序列数据分类方法及相关设备 |
CN116312780B (zh) * | 2023-05-10 | 2023-07-25 | 广州迈景基因医学科技有限公司 | 靶向基因二代测序数据体细胞突变检测方法、终端及介质 |
CN116580768B (zh) * | 2023-05-15 | 2024-01-19 | 上海厦维医学检验实验室有限公司 | 一种基于定制化策略的肿瘤微小残留病灶检测方法 |
CN116504318B (zh) * | 2023-06-25 | 2023-08-25 | 西安交通大学医学院第一附属医院 | 一种基于机器学习的肿瘤ctDNA信息统计处理方法 |
CN117524304B (zh) * | 2024-01-08 | 2024-03-29 | 北京求臻医学检验实验室有限公司 | 实体瘤微小病灶残留的检测panel、探针组及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109427412A (zh) * | 2018-11-02 | 2019-03-05 | 北京吉因加科技有限公司 | 用于检测肿瘤突变负荷的序列组合和其设计方法 |
CN109817279A (zh) * | 2019-01-18 | 2019-05-28 | 臻悦生物科技江苏有限公司 | 肿瘤突变负荷的检测方法、装置、存储介质及处理器 |
CN110600077A (zh) * | 2019-08-29 | 2019-12-20 | 北京优迅医学检验实验室有限公司 | 肿瘤新抗原的预测方法及其应用 |
CN111321140A (zh) * | 2020-03-03 | 2020-06-23 | 苏州吉因加生物医学工程有限公司 | 一种基于单样本的肿瘤突变负荷检测方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018231965A1 (en) * | 2017-06-13 | 2018-12-20 | Genetics Research, Llc, D/B/A Zs Genetics, Inc. | Tumor mutation burden by quantification of mutations in nucleic acid |
CN109022553B (zh) * | 2018-06-29 | 2019-10-25 | 裕策医疗器械江苏有限公司 | 用于肿瘤突变负荷检测的基因芯片及其制备方法和装置 |
CN112867803A (zh) * | 2018-10-16 | 2021-05-28 | 诺华股份有限公司 | 单独的或与免疫标志物组合的肿瘤突变负荷作为生物标志物用于预测对靶向疗法的应答 |
JP7499239B2 (ja) * | 2018-11-13 | 2024-06-13 | ミリアド・ジェネティックス・インコーポレイテッド | 体細胞変異のための方法およびシステム、ならびにそれらの使用 |
AU2019379167A1 (en) * | 2018-11-15 | 2021-06-03 | Personal Genome Diagnostics Inc. | Method of improving prediction of response for cancer patients treated with immunotherapy |
CN112029861B (zh) * | 2020-09-07 | 2021-09-21 | 臻悦生物科技江苏有限公司 | 基于捕获测序技术的肿瘤突变负荷检测装置及方法 |
-
2020
- 2020-09-07 CN CN202010927039.3A patent/CN112029861B/zh active Active
-
2021
- 2021-02-02 WO PCT/CN2021/074742 patent/WO2022048106A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109427412A (zh) * | 2018-11-02 | 2019-03-05 | 北京吉因加科技有限公司 | 用于检测肿瘤突变负荷的序列组合和其设计方法 |
CN109817279A (zh) * | 2019-01-18 | 2019-05-28 | 臻悦生物科技江苏有限公司 | 肿瘤突变负荷的检测方法、装置、存储介质及处理器 |
CN110600077A (zh) * | 2019-08-29 | 2019-12-20 | 北京优迅医学检验实验室有限公司 | 肿瘤新抗原的预测方法及其应用 |
CN111321140A (zh) * | 2020-03-03 | 2020-06-23 | 苏州吉因加生物医学工程有限公司 | 一种基于单样本的肿瘤突变负荷检测方法和装置 |
Non-Patent Citations (4)
Title |
---|
Comparison between whole exome sequencing (WES) and single nucleotide polymorphism (SNP)-based tumor mutation burden analysis;K Timms等;《Journal of Clinical Oncology》;20190531;第37卷;2634 * |
Harmonization and Standardization of Panel-Based Tumor Mutational Burden Measurement: Real-World Results and Recommendations of the Quality in Pathology Study;Albrecht Stenzinger等;《Journal of Thoracic Oncology》;20200731;第15卷(第7期);1177-1189 * |
Quantifying potential confounders of panel-based tumor mutational burden (TMB) measurement;Jan Budczies等;《Lung Cancer》;20200430;第142卷;114-119 * |
Tumor mutational burden quantification from targeted gene panels: major advancements and challenges;Laura Fancello等;《Journal for ImmunoTherapy of Cancer》;20191231;第7卷;1-13 * |
Also Published As
Publication number | Publication date |
---|---|
CN112029861A (zh) | 2020-12-04 |
WO2022048106A1 (zh) | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112029861B (zh) | 基于捕获测序技术的肿瘤突变负荷检测装置及方法 | |
CN110444255B (zh) | 基于二代测序的生物信息质控方法、装置和存储介质 | |
CN112397151B (zh) | 基于靶向捕获测序的甲基化标志物筛选与评价方法及装置 | |
CN109817279B (zh) | 肿瘤突变负荷的检测方法、装置、存储介质及处理器 | |
CN111073962A (zh) | 快速非整倍性检测 | |
CN110211633B (zh) | Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置 | |
CN112397150B (zh) | 基于目标区域捕获测序的ctDNA甲基化水平预测装置及方法 | |
CN112735531B (zh) | 循环无细胞核小体活性区域的甲基化分析方法和装置、终端设备及存储介质 | |
EP3564391A1 (en) | Method, device and kit for detecting fetal genetic mutation | |
CN108595918B (zh) | 循环肿瘤dna重复序列的处理方法及装置 | |
CN107937513B (zh) | 新生儿50种遗传病基因检测探针组及筛查方法 | |
WO2020224159A1 (zh) | 基于二代测序用于脑胶质瘤的检测panel、检测试剂盒、检测方法及其应用 | |
US12054712B2 (en) | Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis | |
CN116064755B (zh) | 一种基于连锁基因突变检测mrd标志物的装置 | |
CN108319817B (zh) | 循环肿瘤dna重复序列的处理方法及装置 | |
CN113096728A (zh) | 一种微小残余病灶的检测方法、装置、存储介质及设备 | |
CN113168885A (zh) | 用于体细胞突变的方法和系统及其用途 | |
CN110106063B (zh) | 基于二代测序的用于神经胶质瘤1p/19q联合缺失检测的系统 | |
CN113862351A (zh) | 体液样本中鉴定胞外rna生物标志物的试剂盒及方法 | |
Goswami et al. | RNA-Seq for revealing the function of the transcriptome | |
CN114517223A (zh) | 一种用于筛选snp位点的方法及其应用 | |
CN108570496A (zh) | 一种遗传性骨病的分子诊断方法及试剂盒 | |
CN108070648B (zh) | 确定胎儿脊髓性肌肉萎缩症基因单体型的方法及系统 | |
EP3988672B1 (en) | Use of off-target sequences for dna analysis | |
CN116121360A (zh) | 一种用于检测dba致病基因集合的试剂盒及检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |