CN111118610A - 用于基因突变高深度测序的基因芯片及其制备方法和应用 - Google Patents
用于基因突变高深度测序的基因芯片及其制备方法和应用 Download PDFInfo
- Publication number
- CN111118610A CN111118610A CN201811287028.2A CN201811287028A CN111118610A CN 111118610 A CN111118610 A CN 111118610A CN 201811287028 A CN201811287028 A CN 201811287028A CN 111118610 A CN111118610 A CN 111118610A
- Authority
- CN
- China
- Prior art keywords
- exon
- intervals
- mutation
- gene
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 193
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 30
- 238000002360 preparation method Methods 0.000 title claims abstract description 29
- 206010064571 Gene mutation Diseases 0.000 title claims abstract description 17
- 230000035772 mutation Effects 0.000 claims abstract description 131
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 55
- 238000012217 deletion Methods 0.000 claims abstract description 27
- 230000037430 deletion Effects 0.000 claims abstract description 27
- 238000003780 insertion Methods 0.000 claims abstract description 26
- 230000037431 insertion Effects 0.000 claims abstract description 26
- 239000002773 nucleotide Substances 0.000 claims abstract description 24
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 24
- 238000013461 design Methods 0.000 claims abstract description 15
- 239000000523 sample Substances 0.000 claims description 107
- 238000012216 screening Methods 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 43
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 claims description 32
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 29
- 230000004927 fusion Effects 0.000 claims description 23
- 102100027100 Echinoderm microtubule-associated protein-like 4 Human genes 0.000 claims description 19
- 101001057929 Homo sapiens Echinoderm microtubule-associated protein-like 4 Proteins 0.000 claims description 19
- 101001050559 Homo sapiens Kinesin-1 heavy chain Proteins 0.000 claims description 18
- 102100023422 Kinesin-1 heavy chain Human genes 0.000 claims description 18
- 201000011510 cancer Diseases 0.000 claims description 17
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000003908 quality control method Methods 0.000 claims description 14
- 108090000740 RNA-binding protein EWS Proteins 0.000 claims description 10
- 102000004229 RNA-binding protein EWS Human genes 0.000 claims description 10
- 210000000349 chromosome Anatomy 0.000 claims description 10
- 229940079593 drug Drugs 0.000 claims description 10
- 239000003814 drug Substances 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000004393 prognosis Methods 0.000 claims description 5
- 230000035945 sensitivity Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000009396 hybridization Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 101001135385 Homo sapiens Prostacyclin synthase Proteins 0.000 claims description 2
- 101000713965 Homo sapiens RUN and FYVE domain-containing protein 4 Proteins 0.000 claims description 2
- 101000850794 Homo sapiens Tropomyosin alpha-3 chain Proteins 0.000 claims description 2
- 101000823316 Homo sapiens Tyrosine-protein kinase ABL1 Proteins 0.000 claims description 2
- 102100033075 Prostacyclin synthase Human genes 0.000 claims description 2
- 102100036447 RUN and FYVE domain-containing protein 4 Human genes 0.000 claims description 2
- 102100033080 Tropomyosin alpha-3 chain Human genes 0.000 claims description 2
- 102100022596 Tyrosine-protein kinase ABL1 Human genes 0.000 claims description 2
- 238000001647 drug administration Methods 0.000 claims 1
- 210000004369 blood Anatomy 0.000 abstract description 5
- 239000008280 blood Substances 0.000 abstract description 5
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 19
- 201000005202 lung cancer Diseases 0.000 description 19
- 208000020816 lung neoplasm Diseases 0.000 description 19
- 108020004414 DNA Proteins 0.000 description 17
- 238000010276 construction Methods 0.000 description 12
- 238000012938 design process Methods 0.000 description 8
- 210000001519 tissue Anatomy 0.000 description 6
- 108091026890 Coding region Proteins 0.000 description 5
- 102100026359 Cyclic AMP-responsive element-binding protein 1 Human genes 0.000 description 4
- 101000855516 Homo sapiens Cyclic AMP-responsive element-binding protein 1 Proteins 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 101100268646 Homo sapiens ABL1 gene Proteins 0.000 description 2
- 101000974343 Homo sapiens Nuclear receptor coactivator 4 Proteins 0.000 description 2
- 101150105382 MET gene Proteins 0.000 description 2
- 102100022927 Nuclear receptor coactivator 4 Human genes 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000036438 mutation frequency Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 108010080691 Alcohol O-acetyltransferase Proteins 0.000 description 1
- 102100028914 Catenin beta-1 Human genes 0.000 description 1
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 description 1
- 101710105178 F-box/WD repeat-containing protein 7 Proteins 0.000 description 1
- 102100028138 F-box/WD repeat-containing protein 7 Human genes 0.000 description 1
- 102100023600 Fibroblast growth factor receptor 2 Human genes 0.000 description 1
- 101710182389 Fibroblast growth factor receptor 2 Proteins 0.000 description 1
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 1
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 1
- 102100027844 Fibroblast growth factor receptor 4 Human genes 0.000 description 1
- 102100029974 GTPase HRas Human genes 0.000 description 1
- 102100039788 GTPase NRas Human genes 0.000 description 1
- 102100033295 Glial cell line-derived neurotrophic factor Human genes 0.000 description 1
- 102100030595 HLA class II histocompatibility antigen gamma chain Human genes 0.000 description 1
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 1
- 101000917134 Homo sapiens Fibroblast growth factor receptor 4 Proteins 0.000 description 1
- 101000584633 Homo sapiens GTPase HRas Proteins 0.000 description 1
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 1
- 101001082627 Homo sapiens HLA class II histocompatibility antigen gamma chain Proteins 0.000 description 1
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 1
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 description 1
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 1
- 101000997832 Homo sapiens Tyrosine-protein kinase JAK2 Proteins 0.000 description 1
- 101000934996 Homo sapiens Tyrosine-protein kinase JAK3 Proteins 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 102000004034 Kelch-Like ECH-Associated Protein 1 Human genes 0.000 description 1
- 108090000484 Kelch-Like ECH-Associated Protein 1 Proteins 0.000 description 1
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 description 1
- 108010071382 NF-E2-Related Factor 2 Proteins 0.000 description 1
- 108700019961 Neoplasm Genes Proteins 0.000 description 1
- 102000048850 Neoplasm Genes Human genes 0.000 description 1
- 102100031701 Nuclear factor erythroid 2-related factor 2 Human genes 0.000 description 1
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 1
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 1
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 1
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 description 1
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 102100029981 Receptor tyrosine-protein kinase erbB-4 Human genes 0.000 description 1
- 101150035397 Ros1 gene Proteins 0.000 description 1
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 1
- 102000049937 Smad4 Human genes 0.000 description 1
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 1
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 1
- 102100033254 Tumor suppressor ARF Human genes 0.000 description 1
- 102100033444 Tyrosine-protein kinase JAK2 Human genes 0.000 description 1
- 102100025387 Tyrosine-protein kinase JAK3 Human genes 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 230000011712 cell development Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229940044683 chemotherapy drug Drugs 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000010448 genetic screening Methods 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Abstract
本申请公开了一种用于基因突变高深度测序的基因芯片及其制备方法和应用。本申请的基因芯片制备方法,包括根据不同的突变类型,结合基因突变在线数据库和本地数据库,构建捕获区间库;由捕获区间库设计基因芯片,提高捕获质量和效率,实现高深度测序;突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种;捕获区间库包括单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。本申请的基因芯片制备方法,能够最大程度的覆盖突变人群,最大程度的覆盖癌症及其相关基因,设计出更加适应于中国人群的基因芯片。本申请的基因芯片测序深度高,特别适用于血液中极其微量的循环DNA的检测。
Description
技术领域
本申请涉及核酸测序领域,特别是涉及一种用于基因突变高深度测序的基因芯片及其制备方法和应用。
背景技术
肿瘤是严重威胁人类健康的疾病之一,而肿瘤具有高度的异质性,即不同部位肿瘤具有不同特征,即使同一部位的肿瘤,治疗效果也因人而异。为了提高临床肿瘤治疗的效果,考虑肿瘤个体的差异性和肿瘤细胞发展进化的特征,进行“因人因时”的肿瘤个体化治疗势在必行。随着癌症认知领域的发展和科学技术的进步,基因组测序技术逐渐进入到肿瘤临床应用,个体化的肿瘤基因检测已有很多惊人的成果出现。Science、Nature、theJournal of New England上刊登的多项研究成果也证明了个体化基因检测在临床治疗中的巨大前景。
基于高通量测序技术的全基因组、全外显子组或目标区域捕获测序能够比较全面的反应体细胞变异情况。众所周知,对于肿瘤患者,癌组织的获取总是相对困难的,尤其是对于一些晚期不适合手术的患者来说,如果能够从外周血中检测得到来自肿瘤细胞的变异,将会对癌症的临床治疗和监测带来巨大的变革。于是,近年来肿瘤患者血液中循环DNA的基因检测诊断已成为研究热点,研究显示血液中循环肿瘤DNA有可能成为一种新的肿瘤诊断标志物。
血液循环肿瘤DNA含量会随着肿瘤病情的发展以及转移性肿瘤的发生而产生变化,但整体上血浆循环肿瘤DNA的含量会较癌组织中获取到的DNA含量低很多,尤其是对于早期筛查以及预后监控的样本来说,含量会更低,这使得血浆循环DNA中的肿瘤标志物突变频率较癌组织频率低,这就需要对血浆循环DNA进行超高深度的测序,才能更准确的检出早期发生的肿瘤标志物。但是,对血浆循环DNA进行超高深度的测序,采用全基因组或者全外显子组测序将会大大提高成本。为了降低成本,亟需开发对微量血液循环DNA进行目标区域芯片捕获测序的方案。
发明内容
本申请的目的是提供一种新的用于基因突变高深度测序的基因芯片及其制备方法和应用。
本申请采用了以下技术方案:
本申请的一方面公开了一种用于基因突变高深度测序的基因芯片的制备方法,包括根据不同的突变类型,结合基因突变在线数据库和本地数据库的突变信息,构建捕获区间库;根据捕获区间库设计基因芯片,提高基因芯片的捕获质量和效率,实现高深度测序;突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种;捕获区间库根据不同的突变类型分为,单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。
本申请的基因芯片制备方法,提供了一种新的芯片设计算法,一方面,本申请的制备方法,综合考虑了不同突变类型对基因芯片设计的影响;另一方面,本申请的制备方法结合了基因突变在线数据库和本地数据库的突变信息,这对设计不同地区人群针对性的基因芯片具有重要意义,特别是目前基因突变大部分在线数据库都是针对西方人种的检测结果,因此,难以设计出更加适应于中国人群的基因芯片,而本申请的制备方法则很好的克服了该问题。
优选的,单核苷酸变异和插入缺失突变捕获区间库的构建具体包括以下步骤,
(1)统计cosmic数据库中所检测肿瘤的驱动基因的外显子区间的RI值,并将所有统计到的与所检测肿瘤相关的驱动基因的外显子区间,按照RI值降序排列;
RI值等于(n×1000)÷L,其中n为cosmic数据库中外显子区间的患者数目、L为外显子区间的序列长度;也就是说,n的值为该外显子区间相对应的患者数目,即在cosmic数据库中有多少个患者是在该外显子区间发生的单核苷酸变异或插入缺失突变;
(2)按照RI值降序排列后,以RI值最高的外显子区间,即第一个外显子区间,作为样本数据库,统计其它外显子区间与样本数据库的不同变异的个数,不同变异个数最多的作为第二个筛选外显子区间,将第二个筛选外显子区间加入到样本数据库中,继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第三个筛选外显子区间,将第三个筛选外显子区间也加入到样本数据库中,采用相同的方法得到第四个筛选外显子区间,再将第四个筛选外显子区间加入到样本数据库中,以此类推,直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完,得到的样本数据库,即芯片区间;
(3)统计TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除与cosmic数据库相同的驱动基因的外显子区间,以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间,根据步骤(2)最终得到的样本数据库,按照步骤(2)相同的筛选方法,对候选区间进行筛选,并将筛选的外显子区间加入到步骤(2)的样本数据库中;也就是说,统计候选区间与步骤(2)最终获得的样本数据库的不同变异的个数,不同变异个数最多的作为第一筛选外显子区间,将第一筛选外显子区间加入到样本数据库中,继续统计其它候选区间与加入第一筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第二筛选外显子区间,将第二筛选外显子区间也加入到样本数据库中,采用相同的方法得到第三筛选外显子区间,再将第三筛选外显子区间加入到样本数据库中,以此类推,直至所有候选区间都被这样迭代筛选完,得到的样本数据库;其中,患者数目大于或等于5,即5个或以上的样本,这是为了保障所加入区间是容易检测出突变的区间,也就是说,是为了保障该区间的阳性检出率;比如一个区间上,如果都没有样本变异,那么将这个区间设计到芯片上,其意义也不会很大;
(4)统计步骤(3)最终得到的样本数据库中,只有一个SNV或INDEL变异的样本,作为单突变样本数据库;
(5)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)筛选入样本数据库的外显子区间,以RI≥30,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,筛选候选区间中去除单突变样本数据库后样本数减少最多的外显子区间,作为第一外显子区间;从候选区间中去除被筛选的第一外显子区间及其单突变样本;然后,采用同样的方法筛选第二外显子区间;以此类推,直至去除单突变样本数据库后样本数不再减少;被筛选到的所有外显子区间,都加入步骤(3)得到的样本数据库中;其中,被筛选到的所有外显子区间,就是指第一外显子区间、第二外显子区间,直至最终获得的去除单突变样本数据库后样本数不再减少的外显子区间,这些外显子区间的总和;
(6)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)和步骤(5)筛选入样本数据库的外显子区间,以RI≥20,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,按照步骤(5)的筛选方法,筛选外显子区间,并将其加入步骤(5)得到的样本数据库中;即得到初步的单核苷酸变异和插入缺失突变捕获区间库;其中,按照步骤(5)的筛选方法筛选外显子区间,具体是指,同样的,筛选候选区间中去除单突变样本数据库后样本数减少最多的外显子区间,作为第一外显子区间;从候选区间中去除被筛选的第一外显子区间及其单突变样本;然后,采用同样的方法筛选第二外显子区间;以此类推,直至去除单突变样本数据库后样本数不再减少;被筛选到的所有外显子区间,都加入步骤(5)得到的样本数据库中;其中,被筛选到的所有外显子区间,同样是指第一外显子区间、第二外显子区间,直至最终获得的去除单突变样本数据库后样本数不再减少的外显子区间,这些外显子区间的总和;
(7)统计本地数据库中的高频热点变异,将其中未被包含在步骤(6)得到的初步单核苷酸变异和插入缺失突变捕获区间库中的高频热点变异,沿其变异位点前后各延伸50bp的区间,加入到步骤(6)得到的样本数据库中,得到最终的单核苷酸变异和插入缺失突变捕获区间库。
需要说明的是,在单核苷酸变异和插入缺失突变捕获区间库构建方法的步骤(2)之后,理论上来说,在经过步骤(1)和步骤(2)这两个步骤以后,理论上可以完成所有驱动基因区域的筛选;但是为了避免遗漏,需要进一步查看,是否存在某个驱动基因在步骤(1)和步骤(2)的筛选过程中都没有被筛选到任何外显子区域;如果存在这种情况,则需要把该驱动基因的所有外显子区域都添加到芯片区间中;这样做的目的是,防止某个长度较短,或者是发生突变频率不高的重要基因被遗漏。因此,在本申请优选的方案中,在步骤(2)之后,在步骤(3)之前,还包括将没有筛选到任何区间的基因的所有区间都加到芯片区间上。
优选的,拷贝数突变捕获区间库由杂合SNP位点前后各延伸100bp得到的捕获区间组成,杂合SNP位点筛选自拷贝数突变相关的基因及其外显子区间;杂合SNP位点采用以下方法筛选获得:
(1)统计现有的拷贝数突变的基因列表,提取所有关于拷贝数突变的基因序列,及其外显子区间;
(2)提取SNP千人数据库中,步骤(1)所提取的基因序列的杂合SNP位点,并将所提取的SNP位点按变异人数降序排列;可以理解,将SNP位点按照其对应的变异人数降序排列,目的是为了尽可能的选取突变人数较多的高频SNP位点;
(3)筛选变异人数大于或等于100的高频杂合SNP位点,选取包含至少4至N个高频杂合SNP位点的基因序列,以所选取的基因序列为分析对象,步长1000bp,筛选每个基因序列的杂合SNP位点,杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,N的取值为所选基因序列长度的1/400,例如基因序列的长度为10K,则N值为25,即选取最多具有25个高频杂合SNP位点的基因序列;
(4)筛选变异人数大于或等于50的高频杂合SNP位点,选取包含至少2至M个高频杂合SNP位点的外显子区间,以所选取的外显子区间为分析对象,步长1000bp,筛选每个外显子区间的杂合SNP位点,杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,M的取值为所选外显子区间长度的1/500,例如外显子区间的长度为10K,则N值为20,即选取最多具有20个高频杂合SNP位点的外显子区间。
需要说明的是,步长1000bp进行筛选是指在所选基因序列或外显子区间中,每1000bp筛选一个符合条件的杂合SNP位点;可以理解,因为最终可能对芯片的最终区域大小有要求,所以对于前面选取好的SNP位点,需要再根据实际的要求,选择适当的步长进一步筛选。
优选的,结构变异捕获区间库的构建具体包括以下步骤,
(1)统计现有的关于热点融合基因的热点断点,将热点断点前后各延伸100bp作为捕获区间;
(2)统计本地数据库中,用药相关的融合基因的阳性融合热点断点,将热点断点前后各延伸100bp作为捕获区间;本地数据库的用药相关融合基因的阳性融合热点断点如表1所示
表1
(3)统计本地数据库中,高频的融合基因热点断点,将热点断点前后各延伸100bp作为捕获区间;本地数据库的高频的融合基因热点断点如表2所示,
表2
将步骤(1)、(2)和(3)的捕获区间合并,即得到结构变异捕获区间库。
优选的,本申请的制备方法还包括在基因芯片中设计至少21个质控位点,每个质控位点前后各延伸50bp获得的序列作为杂交阳性质控品。
优选的,本申请的制备方法还包括对设计的基因芯片进行初步评估,初步评估包括,分析基因芯片中各探针的GC含量、捕获区间长度、探针对数据库中突变人群的覆盖情况。
优选的,各探针的GC含量为40%-60%,捕获区间长度不低于100bp;并且要求探针的捕获区间在数据库中的突变人数不为0,否则删除该探针。
需要说明的是,通常情况下,本申请的基因芯片要求各个芯片区间的GC含量在40%-60%之间;要求每个捕获区间的长度不低于100bp,对于长度小于100bp的区间,需要将其左右延伸至100bp;同时,需要核查每个捕获区间上,数据库中的突变人数,删除无突变发生的区间。
优选的,本申请的制备方法还包括对初步评估合格的基因芯片进行验证测试,验证测试包括,合成一批或两批所设计的基因芯片,采用模拟样本,对基因芯片进行检测,评估基因芯片的测序深度、捕获效率、dup率、比对率、覆盖度、变异检测下限、灵敏度、特异性。
其中,dup率是指Duplication rate,也就是捕获区间上,去重以后的reads数/捕获区间上所有的reads数的比值,即dup率=去重以后的reads数÷捕获区间上所有的reads数;比对率是指测序过程中,比对到基因组上的reads数÷总的reads数;覆盖度指的是样本的深度覆盖情况,即捕获区间上,样本的整体覆盖情况,如100×的覆盖度为99%,表示在整个捕获区间上,深度>100×的碱基占所有碱基的99%;变异检测下限是指最低检测频率,比如检测0.5%的SNV;灵敏度是指真阳性率,即检出的阳性÷实际的阳性;特异性是指真阴性率,即检出的阴性÷实际的阴性。
本申请的另一面公开了本申请的制备方法制备的基因芯片。
本申请的再一面公开了本申请的基因芯片在循环DNA检测中的应用。
本申请的再一面公开了本申请的基因芯片在制备癌症检测或预后监控的试剂盒或装置中的应用。
需要说明的是,本申请的基因芯片及其制备方法,主要就是针对像循环DNA这样含量极低的样品检测而研发设计的,因此特别适用于循环DNA检测。而癌症的检测或监控,目前的研究热点就是循环肿瘤DNA的检测,但是,由于循环肿瘤DNA的含量极低,尤其是对于早期筛查或预后监控的样本来说,含量会更低;而本申请的高深度测序基因芯片能够对循环DNA进行高深度测序,准确的检出极其微量的循环肿瘤DNA,因此,可以用于癌症检测或预后监控。
本申请的有益效果在于:
本申请的基因芯片制备方法,根据不同的突变类型构建与之适应的捕获区间库,进而设计适用于不同突变类型检测的基因芯片,使得基因芯片能够最大程度的覆盖突变人群;并且,本申请的制备方法结合基因突变在线数据库和本地数据库,使得基因芯片能够最大程度的覆盖癌症及其相关基因,设计出更加适应于中国人群的基因芯片。本申请的基因芯片测序深度高,特别适用于血液中极其微量的循环DNA的检测。
具体实施方式
本申请用于基因突变高深度测序的基因芯片的制备方法,实际上提供了一种新的基因芯片设计的方案;而目前国内外关于基因芯片设计方法的文献报道都很少,相关文献的观点基本上都是结合相关的数据库,如TCGA、ICGC、COSMIC等数据库,在基因芯片设计的过程中,使得突变人群的覆盖度达到的最大化。现有方法的不足是:(1)没有考虑不同突变类型对于基因芯片的影响,这些突变类型包括单核苷酸变异(缩写SNV)、插入缺失突变(缩写INDEL)、拷贝数突变(缩写CNV)、结构变异(缩写SV),事实上,不同的突变类型,在基因芯片设计过程中所考察的因素是不一样的,比如对于CNV,即拷贝数突变,在芯片的设计过程中,要考虑多设计进一些杂合SNV位点,这样,有助于辅助判断样本是否真正发生了CNV,这是现有方法中没有涉及的。(2)在基因芯片的设计过程中,只是单纯的考虑TCGA、ICGC、COSMIC等在线数据库;实际上,不同地区的人群突变频率是不同的,甚至突变的热点基因的排列顺序也会不一样;因此,现有的方法不能设计出特别针对某一地区人群突变检测的基因芯片,容易发生漏检。(3)在基因芯片设计过程中,忽略了非编码区的作用,事实上,有些非编码区对突变检出会起到很大的作用,尤其是对SV的检测。(4)在芯片设计完成后,没有对芯片做出初步的评估。
本申请的用于基因突变高深度测序的基因芯片的制备方法,正是针对以上4点进行了补充优化,使得制备的基因芯片能够满足产品的个性化分析需求。具体优化如下:
(1)本申请的制备方法,根据不同的突变类型构建与之适应的捕获区间库,进而设计出与不同突变类型相适应的基因芯片,比如,对于CNV的热点基因,本申请加入了这些热点基因的杂合SNV位点,当然,杂合SNV位点个数的选取与基因的大小有关,每个基因选取适当的杂合SNV位点数,最终的捕获区间库为上述几种区间的并集,从而保障了对CNV的检测。
(2)本申请的制备方法,不仅考虑了产品的个性化需求,还综合考虑了TCGA、ICGC、COSMIC等数据库,使得基因芯片最大程度了覆盖了高发癌症的相关Driver Gene、高频突变基因、高频突变位点、癌症相关12条信号通路中重要基因、靶向药物及化疗药物敏感和耐药相关基因等。与此同时,还结合已有的临床数据,将本地数据库的突变信息加入基因芯片设计中,从而设计出更加适应于中国人群的基因芯片。
(3)本申请的制备方法,在进一步的改进方案中,不仅考虑了相关基因的编码区,也考虑了非编码区,尤其考虑了SV的热点基因的非编码区。常见的比如:ROS1基因的32,33,34,35号内含子,RET的9,10,11号内含子等。
(4)本申请的制备方法,在进一步的改进方案中,还包括对所设计的基因芯片进行初步评估,考察其GC含量,捕获区间长度,数据库中突变人群的覆盖情况等;进一步的,还包括用阳性样本、标准品或模拟样本,评估芯片的基本QC情况和变异检出情况,基本QC情况的评估包括测序深度、捕获效率、dup率、比对率和覆盖度等的评估,变异检出情况的评估包括检测下限、灵敏度、特异性等的评估。
下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例的基因突变高深度测序基因芯片的制备方法,包括根据单核苷酸变异、插入缺失突变、拷贝数突变和结构变异等不同的突变类型,结合基因突变在线数据库和本地数据库的突变信息,构建捕获区间库;根据捕获区间库设计基因芯片,提高基因芯片的捕获质量和效率,实现高深度测序。其中捕获区间库根据不同的突变类型分为,单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。本例采用不同的样本分别对插入缺失突变捕获区间库的构建、拷贝数突变捕获区间库的构建,以及结构变异捕获区间库的构建进行了详细解释。具体如下:
一、插入缺失突变捕获区间库的构建
本例以肺癌小芯片SNV/INDEL相关的基因芯片区间设计过程为例,对插入缺失突变捕获区间库的构建进行详细说明,具体的SNV/INDEL相关基因的芯片设计方法如下:
第一步:由cosmic数据库得到driver gene的芯片区间
1、统计cosmic数据库中相关癌种的driver gene的每个外显子区间的变异样本数、变异样本、RI值以及所有的样本个数,并将其根据RI值降序排列。其中,相关癌种可以涉及多个癌种,也可以是某个具体癌种的个体化芯片。
RI值等于(n×1000)÷L,其中n为cosmic数据库中外显子区间的患者数目,L为外显子区间的序列长度。
本例具体对肺癌进行了统计,部分结果如表3所示。
表3肺癌小芯片的驱动基因列表
KRAS | NRAS | KEAP1 | JAK2 | RET |
EGFR | STK11 | ALK | ERBB4 | NOTCH1 |
TP53 | NFE2L2 | RB1 | KIT | ROS1 |
BRAF | CTNNB1 | PDGFRA | SMAD4 | FGFR3 |
PIK3CA | MET | KDR | FGFR2 | FGFR4 |
ERBB2 | PTEN | FBXW7 | DDR2 | JAK3 |
CDKN2A | AKT1 | HRAS | ATM | APC |
按照RI值降序排列,其部分结果如表4所示。
表4肺癌小芯片的驱动基因RI值降序排列结果
2、迭代,得到cosmic数据库中driver gene的芯片区间。
以RI值最高的外显子区间,即第一个外显子区间,作为样本数据库,统计其它外显子区间与所述样本数据库的不同变异的个数,不同变异个数最多的作为第二个筛选外显子区间,将第二个筛选外显子区间加入到所述样本数据库中,继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第三个筛选外显子区间,将第三个筛选外显子区间也加入到所述样本数据库中,采用相同的方法得到第四个筛选外显子区间,再将第四个筛选外显子区间加入到所述样本数据库中,以此类推,直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完,得到的样本数据库,即芯片区间。
本例对肺癌驱动基因筛选的部分结果如表5所示。
表5肺癌驱动基因迭代获得的driver gene芯片区间
对于没有筛选到任何区间的基因,为了避免遗漏,还需要将没有筛选到任何区间的基因所有区间都加到芯片区间上。但是,对于本例来说,本例的肺癌没有需要补充的驱动基因,所有的基因都筛选到了相应的区间。
第二步:TCGA和ICGC数据库覆盖度最大
统计TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除与cosmic数据库相同的驱动基因的外显子区间,以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间,统计候选区间与步骤“2、迭代,得到cosmic数据库中driver gene的芯片区间”最终获得的样本数据库的不同变异的个数,不同变异个数最多的作为第一筛选外显子区间,将第一筛选外显子区间加入到样本数据库中,继续统计其它候选区间与加入第一筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第二筛选外显子区间,将第二筛选外显子区间也加入到样本数据库中,采用相同的方法得到第三筛选外显子区间,再将第三筛选外显子区间加入到样本数据库中,以此类推,直至所有候选区间都被这样迭代筛选完,得到的样本数据库。
第三步:选取RI>=30,SNV>=3的区间
1、在上面两个步骤的基础上,本例统计了TCGA和ICGC数据库中包括driver gene区间在内的筛选到的区间上只有一个变异的样本,将这些样本作为单样本数据库。肺癌的单样本数据库的统计结果如表6所示。
表6单样本数据库统计结果
2、根据“第一步”和“第二步”统计的TCGA和ICGC数据库中检测肿瘤相关的驱动基因的外显子区间,去除已经被筛选入样本数据库的外显子区间,以RI≥30,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,筛选候选区间中去除“单样本数据库”后样本数减少最多的外显子区间,作为第一外显子区间;从候选区间中去除被筛选的第一外显子区间及其单突变样本;然后,采用同样的方法筛选第二外显子区间;以此类推,直至去除“单样本数据库”后样本数不再减少;被筛选到的所有外显子区间,都加入“第二步”得到的样本数据库中。
本例对肺癌的驱动基因外显子区间筛选结果如表7所示。
表7肺癌驱动基因外显子区间筛选结果
第四步:选取RI>=20,SNV>=3的区间
根据“第一步”和“第二步”统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被“第一步”、“第二步”和“第三步”筛选入样本数据库的外显子区间,以RI≥20,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,按照“第三步”的筛选方法,筛选外显子区间,并将其加入“第三步”得到的样本数据库中;即得到初步的单核苷酸变异和插入缺失突变捕获区间库。
本例对肺癌的驱动基因外显子区间筛选结果如表8所示。
表8肺癌驱动基因外显子区间筛选结果
第五步:补充本地数据库中的高频热点突变
检查本地数据库中的高频热点变异是否都包含在以上得到的初步的单核苷酸变异和插入缺失突变捕获区间库中,如果包含,则停止;否则,将未包含在内的热点变异位点,前后各延伸50bp的区间加入到上述的初步的单核苷酸变异和插入缺失突变捕获区间库中。
本例所说的本地数据库是组内累计的分析数据。主要核查常见的热点突变位点是否都包含在所设计的芯片区间上。本例肺癌小芯片无遗漏的热点变异,不需要补充。因此,“第四步”得到的初步的单核苷酸变异和插入缺失突变捕获区间库,即最终的单核苷酸变异和插入缺失突变捕获区间库。至此即完成了SNV/INDEL相关基因的芯片区间的设计。
本例统计的肺癌的热点突变数据如表9所示。
表9肺癌热点突变数据列表
表9中,所有的突变类型都是SNV。
二、拷贝数突变捕获区间库的构建
对于本例“一、插入缺失突变捕获区间库的构建”中采用的肺癌小芯片而言,其不需要单独的CNV区域,因此本例以用药V3版CNV相关的芯片区间设计过程为例,对拷贝数突变捕获区间库的构建进行详细说明,具体的CNV相关基因的芯片设计方法如下:其思想是,对一些关注的基因提取了相应的杂合SNP位点,然后在杂合位点的前后各延伸100bp得到CNV的捕获区间。
本例关注的CNV基因包含21个基因。本例杂合SNP位点的选取过程如下:
1、通过文献或者数据库,确认出CNV变异所需要的gene_list;
2、提取gene_list中基因的外显子区间;
3、提取gene_list中基因的区间;
4、提取SNP千人数据库中,上述基因上的杂合SNP位点,并将这些杂合SNP位点按变异人数降序排列,部分排列结果如表10所示。
表10杂合SNP位点按变异人数降序排列结果
表10为chr7染色体的MET基因的排列结果,其中所有杂合SNP位点都来自于chr7染色体MET基因。
5、筛选高频杂合SNP位点,该位点满足变异人数大于或等于100,选取包含4至N个高频杂合SNP位点的基因序列,以所选取的基因序列为分析对象,步长1000bp,筛选每个基因序列的杂合SNP位点,杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,N的取值为基因序列长度的1/400。
本例具体的,从21个基因中总计选取了2916个高频杂合SNP位点,最终过滤后保留了1389个杂合SNP位点用于组成拷贝数突变捕获区间库,部分结果如表11所示。
表11杂合SNP位点筛选结果
表11为chr9染色体的ABL1基因的筛选结果,其中所有杂合SNP位点都来自于chr9染色体ABL1基因。
6、选取外显子区间上的高频杂合SNP位点,该位点满足变异人数大于等于50,选取包含2至M个高频杂合SNP位点的外显子区间,以所选取的外显子区间为分析对象,步长1000bp,筛选每个外显子区间的杂合SNP位点,杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,M的取值为所选外显子区间长度的1/500。
本例具体的,从21个基因中总计选取了834个高频杂合SNP位点,最终过滤后保留了746个杂合SNP位点用于组成拷贝数突变捕获区间库,部分结果如表12所示。
表12杂合SNP位点筛选结果
以上这些位点均与的分布在各个基因上。根据以上选取的杂合SNP位点得到用药V3版CNV相关的芯片区间。
三、结构变异捕获区间库的构建
本例同样以用药V3版SV相关的芯片区间设计过程为例,对结构变异捕获区间库的构建进行详细说明,具体的SV相关基因的芯片设计方法如下:
1、统计现有文献中报导的关于热点融合基因的热点断点,将热点断点前后各延伸100bp作为捕获区间;本例具体统计获得了366个热点断点,详细如表13所示。
表13统计获得的热点断点
2、将SNV/INDEL、CNV相关的芯片区间综合考虑,查找SV热点区域是否已经包含于芯片区间中,尤其是一些热点内含子区域,如ALK的19号内含子,进一步补充SV热点基因的内含子区间;
本例具体添加了56个区域的内含子,如表14所示。
表14添加的内含子区域
3、将天津华大临床样本整理出的TJ-BGI本地数据库中热点的阳性融合断点前后各延伸100bp加入到捕获区间中;其中热点断点具体信息如表1所示;
表1天津华大临床样本整理的TJ-BGI本地数据库中热点的阳性融合断点
断点名称 | 所属染色体 | 断点位置 | 断点名称 | 所属染色体 | 断点位置 |
KIF5B | chr10 | 32302258 | EML4 | chr2 | 42526429 |
KIF5B | chr10 | 32313913 | EML4 | chr2 | 42527042 |
KIF5B | chr10 | 32315964 | EML4 | chr2 | 42528337 |
KIF5B | chr10 | 32315968 | EML4 | chr2 | 42528338 |
KIF5B | chr10 | 32316337 | EML4 | chr2 | 42543648 |
KIF5B | chr10 | 32316338 | EML4 | chr2 | 42543649 |
NCOA4 | chr10 | 51586356 | EML4 | chr2 | 42543650 |
NCOA4 | chr10 | 51586385 | ERG | chr21 | 39811366 |
ATF1 | chr12 | 51198447 | ERG | chr21 | 39826501 |
CREB1 | chr2 | 208435548 | ERG | chr21 | 39826503 |
CREB1 | chr2 | 208435549 | ERG | chr21 | 39857904 |
CREB1 | chr2 | 208438119 | ERG | chr21 | 39870323 |
CREB1 | chr2 | 208438120 | ERG | chr21 | 39870324 |
ALK | chr2 | 29431716 | ERG | chr21 | 39914099 |
ALK | chr2 | 29855131 | ERG | chr21 | 39914100 |
EML4 | chr2 | 42494621 | ERG | chr21 | 39933668 |
EML4 | chr2 | 42494623 | ERG | chr21 | 39966359 |
EML4 | chr2 | 42500189 | BCR | chr22 | 23629296 |
EML4 | chr2 | 42503114 | CD74 | chr5 | 149783628 |
EML4 | chr2 | 42504603 | ROS1 | chr6 | 117686236 |
EML4 | chr2 | 42504606 | EZR | chr6 | 159191325 |
EML4 | chr2 | 42507391 | EZR | chr6 | 159191326 |
EML4 | chr2 | 42526428 | EZR | chr6 | 159209880 |
4、将天津华大临床样本整理出的TJ-BGI本地数据库中高频的融合断点前后各延伸100bp加入到捕获区间中;其中,融合断点信息如表2所示。
表2天津华大临床样本整理的TJ-BGI本地数据库中高频的融合断点
断点名称 | 所属染色体 | 断点位置 | 断点名称 | 所属染色体 | 断点位置 |
TPM3 | chr1 | 154130050 | EWSR1 | chr22 | 29695626 |
KIF5B | chr10 | 32304401 | EWSR1 | chr22 | 29695688 |
KIF5B | chr10 | 32304578 | EWSR1 | chr22 | 29695743 |
KIF5B | chr10 | 32310072 | EWSR1 | chr22 | 29695744 |
KIF5B | chr10 | 32317471 | ROS1 | chr6 | 117609844 |
KIF5B | chr10 | 32323692 | ROS1 | chr6 | 117650610 |
KIF5B | chr10 | 32327054 | ROS1 | chr6 | 117677962 |
RUFY4 | chr2 | 218943564 | ROS1 | chr6 | 117681423 |
ALK | chr2 | 29420577 | ROS1 | chr6 | 117681435 |
ALK | chr2 | 29420609 | ROS1 | chr6 | 117681436 |
ALK | chr2 | 29420610 | ROS1 | chr6 | 117681438 |
ALK | chr2 | 29420617 | ROS1 | chr6 | 117681443 |
ALK | chr2 | 29420621 | ROS1 | chr6 | 117708202 |
ALK | chr2 | 29420625 | ROS1 | chr6 | 117710589 |
EML4 | chr2 | 42488374 | ROS1 | chr6 | 117710593 |
EML4 | chr2 | 42510083 | ROS1 | chr6 | 117710610 |
PTGIS | chr20 | 48127396 | ROS1 | chr6 | 117725276 |
ERG | chr21 | 39755356 | ROS1 | chr6 | 117725400 |
ERG | chr21 | 39755361 | ROS1 | chr6 | 117746891 |
EWSR1 | chr22 | 29695597 | ABL1 | chr9 | 133759272 |
一个完整的芯片,在设计完成突变检测相关的芯片区间以后,还要加入质控点区间。本例设计了21个质控点,在最终的芯片区间,加入这21个质控位点,每个质控点前后延伸50bp的区间,得到最终的芯片捕获区间。
并将每个质控点前后各延伸50bp获得的序列作为杂交阳性质控品。本例的21个质控位点具体如表15所示。
表15质控位点信息
根据以上构建的单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库中的至少一种,以及21个质控位点的芯片区间,设计探针,并按照常规的方式制备基因芯片。
本例进一步对设计的基因芯片进行初步评估,具体包括,分析基因芯片中各探针的GC含量、捕获区间长度、探针对数据库中突变人群的覆盖情况。要求各探针的GC含量为40%-60%,捕获区间长度为170bp左右;并且要求各探针的捕获区间在数据库中的突变人数不为0,否则删除该探针。
初步评估合格后,本例进一步的用设计的基因芯片测试一批样本,评估样本的QC情况,包括测序深度、捕获效率、dup率、比对率、覆盖度等;以及变异检出情况,包括变异检测下限、灵敏性和特异性等。如果上述所有指标都满足要求,则说明芯片可以满足产品的个性化分析需求,芯片设计完成。
需要说明的是,芯片合成之前不会有实际的样本,所以不会有针对该芯片区域评估的具体数据,通常可以先合成初版的芯片,然后选取组织、血浆样本10例左右进行小试,考察样本的QC结果。比如对于drug的芯片,要求组织样本深度500×,血浆样本的深度为1000×,捕获效率达到50%以上。组织样本平均深度500×的情况下,100×的覆盖度达到99%;血浆样本平均深度1000×的情况下,100×的覆盖度达到99%。
按照本例方法制备的基因芯片,能够满足超过深度的测序,一般来说,针对ctDNA样本而言,要求去重后1000×以上,但是对于个别的小芯片,比如肺癌小芯片,深度可以达到去重后3000×;本例的基因芯片对肺癌基因的测序深度可以达到3000×以上,能够满足使用需求。
还需要说明的是,按照本例方法制备的基因芯片,第一,芯片区域不冗余;第二,对于不同的变异类型单独设计,对于不同产品的检测需求,可以做通用的测试,比如肺癌芯片的SV与drug芯片的SV考察的融合断点相同,在测试过程中可以通用。因此,本例的基因芯片及其制备方法能够降低成本。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
Claims (10)
1.一种用于基因突变高深度测序的基因芯片的制备方法,其特征在于:包括根据不同的突变类型,结合基因突变在线数据库和本地数据库的突变信息,构建捕获区间库;根据所述捕获区间库设计基因芯片,提高基因芯片的捕获质量和效率,实现高深度测序;
所述突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种;
所述捕获区间库根据不同的突变类型分为,单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。
2.根据专利要求1所述的制备方法,其特征在于:所述单核苷酸变异和插入缺失突变捕获区间库采用以下方法构建,
(1)统计cosmic数据库中所检测肿瘤的驱动基因的外显子区间的RI值,并将所有统计到的与所检测肿瘤相关的驱动基因的外显子区间,按照RI值降序排列;
所述RI值等于(n×1000)÷L,其中n为cosmic数据库中所述外显子区间的患者数目,L为外显子区间的序列长度;
(2)按照RI值降序排列后,以RI值最高的外显子区间,即第一个外显子区间,作为样本数据库,统计其它外显子区间与所述样本数据库的不同变异的个数,不同变异个数最多的作为第二个筛选外显子区间,将第二个筛选外显子区间加入到所述样本数据库中,继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第三个筛选外显子区间,将第三个筛选外显子区间也加入到所述样本数据库中,采用相同的方法得到第四个筛选外显子区间,再将第四个筛选外显子区间加入到所述样本数据库中,以此类推,直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完,得到的样本数据库,即芯片区间;
(3)统计TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除与cosmic数据库相同的驱动基因的外显子区间,以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间,根据步骤(2)最终得到的样本数据库,按照步骤(2)相同的筛选方法,对所述候选区间进行筛选,并将筛选的外显子区间加入到步骤(2)的样本数据库中;
(4)统计步骤(3)最终得到的样本数据库中,只有一个SNV或INDEL变异的样本,作为单突变样本数据库;
(5)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)筛选入样本数据库的外显子区间,以RI≥30,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,筛选候选区间中去除所述单突变样本数据库后样本数减少最多的外显子区间,作为第一外显子区间;从候选区间中去除被筛选的第一外显子区间及其单突变样本;然后,采用同样的方法筛选第二外显子区间;以此类推,直至去除所述单突变样本数据库后样本数不再减少;被筛选到的所有外显子区间,都加入步骤(3)得到的样本数据库中;
(6)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)和步骤(5)筛选入样本数据库的外显子区间,以RI≥20,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,按照步骤(5)的筛选方法,筛选外显子区间,并将其加入步骤(5)得到的样本数据库中;即得到初步的单核苷酸变异和插入缺失突变捕获区间库;
(7)统计本地数据库中的高频热点变异,将其中未被包含在步骤(6)得到的初步单核苷酸变异和插入缺失突变捕获区间库中的高频热点变异,沿其变异位点前后各延伸50bp的区间,加入到步骤(6)得到的样本数据库中,得到最终的单核苷酸变异和插入缺失突变捕获区间库。
3.根据权利要求1所述的制备方法,其特征在于:所述拷贝数突变捕获区间库由杂合SNP位点前后各延伸100bp得到的捕获区间组成,所述杂合SNP位点筛选自拷贝数突变相关的基因及其外显子区间;
所述杂合SNP位点采用以下方法筛选获得:
(1)统计现有的拷贝数突变的基因列表,提取所有关于拷贝数突变的基因序列,及其外显子区间;
(2)提取SNP千人数据库中,步骤(1)所提取的基因序列的杂合SNP位点,并将所提取的SNP位点按变异人数降序排列;
(3)筛选变异人数大于或等于100的高频杂合SNP位点,选取包含4至N个所述高频杂合SNP位点的基因序列,以所选取的基因序列为分析对象,步长1000bp,筛选每个基因序列的杂合SNP位点,杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,N的取值为所述基因序列长度的1/400;
(4)筛选变异人数大于或等于50的高频杂合SNP位点,选取包含2至M个所述高频杂合SNP位点的外显子区间,以所选取的外显子区间为分析对象,步长1000bp,筛选每个外显子区间的杂合SNP位点,杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,M的取值为所述外显子区间长度的1/500。
4.根据权利要求1所述的制备方法,其特征在于:所述结构变异捕获区间库采用以下方法构建,
(1)统计现有的关于热点融合基因的热点断点,将热点断点前后各延伸100bp作为捕获区间;
(2)统计本地数据库中,用药相关的融合基因的阳性融合热点断点,将热点断点前后各延伸100bp作为捕获区间;本地数据库的用药相关融合基因的阳性融合热点断点如表1所示,
表1
(3)统计本地数据库中,高频的融合基因热点断点,将热点断点前后各延伸100bp作为捕获区间;本地数据库的高频的融合基因热点断点如表2所示,
表2
将步骤(1)、(2)和(3)的捕获区间合并,即得到所述结构变异捕获区间库。
5.根据权利要求1-4任一项所述的制备方法,其特征在于:还包括在基因芯片中设计至少21个质控位点,每个质控位点前后各延伸50bp获得的序列作为杂交阳性质控品。
6.根据权利要求1-4任一项所述的制备方法,其特征在于:还包括对设计的基因芯片进行初步评估,所述初步评估包括,分析基因芯片中各探针的GC含量、捕获区间长度、探针对数据库中突变人群的覆盖情况;
优选的,各探针的GC含量为40%-60%,捕获区间长度不低于100bp;并且要求各探针的捕获区间在数据库中的突变人数不为0,否则删除该探针。
7.根据权利要求6所述的制备方法,其特征在于:还包括对初步评估合格的基因芯片进行验证测试,所述验证测试包括,合成一批或两批所设计的基因芯片,采用模拟样本,对基因芯片进行检测,评估基因芯片的测序深度、捕获效率、dup率、比对率、覆盖度、变异检测下限、灵敏度、特异性。
8.根据权利要求1-7任一项所述的制备方法制备的基因芯片。
9.根据权利要求8所述的基因芯片在循环DNA检测中的应用。
10.根据权利要求8所述的基因芯片在制备癌症检测或预后监控的试剂盒或装置中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811287028.2A CN111118610A (zh) | 2018-10-31 | 2018-10-31 | 用于基因突变高深度测序的基因芯片及其制备方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811287028.2A CN111118610A (zh) | 2018-10-31 | 2018-10-31 | 用于基因突变高深度测序的基因芯片及其制备方法和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111118610A true CN111118610A (zh) | 2020-05-08 |
Family
ID=70485561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811287028.2A Pending CN111118610A (zh) | 2018-10-31 | 2018-10-31 | 用于基因突变高深度测序的基因芯片及其制备方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111118610A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093428A (zh) * | 2021-11-08 | 2022-02-25 | 南京世和基因生物技术股份有限公司 | 一种ctDNA超高测序深度下低丰度突变的检测系统和方法 |
CN114446386A (zh) * | 2022-01-17 | 2022-05-06 | 中国人民解放军国防科技大学 | 一种血液ctDNA的检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140296081A1 (en) * | 2013-03-15 | 2014-10-02 | The Board Of Trustees Of The Leland Stanford Junior University | Identification and use of circulating tumor markers |
CN106480205A (zh) * | 2016-11-11 | 2017-03-08 | 北京吉因加科技有限公司 | 用于同时检测多种突变类型的序列组合和探针 |
WO2017181146A1 (en) * | 2016-04-14 | 2017-10-19 | Guardant Health, Inc. | Methods for early detection of cancer |
WO2018039463A1 (en) * | 2016-08-25 | 2018-03-01 | Resolution Bioscience, Inc. | Methods for the detection of genomic copy changes in dna samples |
CN108424955A (zh) * | 2018-05-09 | 2018-08-21 | 合肥中科金臻生物医学有限公司 | 一种检测多种变异类型基因的高通量测序方法及其应用 |
-
2018
- 2018-10-31 CN CN201811287028.2A patent/CN111118610A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140296081A1 (en) * | 2013-03-15 | 2014-10-02 | The Board Of Trustees Of The Leland Stanford Junior University | Identification and use of circulating tumor markers |
WO2017181146A1 (en) * | 2016-04-14 | 2017-10-19 | Guardant Health, Inc. | Methods for early detection of cancer |
WO2018039463A1 (en) * | 2016-08-25 | 2018-03-01 | Resolution Bioscience, Inc. | Methods for the detection of genomic copy changes in dna samples |
CN106480205A (zh) * | 2016-11-11 | 2017-03-08 | 北京吉因加科技有限公司 | 用于同时检测多种突变类型的序列组合和探针 |
CN108424955A (zh) * | 2018-05-09 | 2018-08-21 | 合肥中科金臻生物医学有限公司 | 一种检测多种变异类型基因的高通量测序方法及其应用 |
Non-Patent Citations (2)
Title |
---|
LI WEI: "Identifying Human Genome-Wide CNV, LOH and UPD by Targeted Sequencing of Selected Regions", 《PLOS ONE》 * |
NEWMAN: "An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage", 《NATURE MEDICINE》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093428A (zh) * | 2021-11-08 | 2022-02-25 | 南京世和基因生物技术股份有限公司 | 一种ctDNA超高测序深度下低丰度突变的检测系统和方法 |
CN114446386A (zh) * | 2022-01-17 | 2022-05-06 | 中国人民解放军国防科技大学 | 一种血液ctDNA的检测方法 |
CN114446386B (zh) * | 2022-01-17 | 2024-02-02 | 中国人民解放军国防科技大学 | 一种血液ctDNA的检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7458360B2 (ja) | 疾患細胞不均一性を示す疾患の検出および処置、ならびに通信試験結果のためのシステムおよび方法 | |
KR102028375B1 (ko) | 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법 | |
CN106047998B (zh) | 一种肺癌基因的检测方法及应用 | |
CN105518151A (zh) | 循环核酸肿瘤标志物的鉴别和用途 | |
EP3461274B1 (en) | Methods for multi-resolution analysis of cell-free nucleic acids | |
EP3682035A1 (en) | Detecting somatic single nucleotide variants from cell-free nucleic acid with application to minimal residual disease monitoring | |
JP2020521216A (ja) | 挿入および欠失を検出するための方法およびシステム | |
CN111118610A (zh) | 用于基因突变高深度测序的基因芯片及其制备方法和应用 | |
KR102472050B1 (ko) | 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법 | |
CN111383713B (zh) | ctDNA检测分析装置及方法 | |
US20240141432A9 (en) | Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results | |
US20240071628A1 (en) | Database for therapeutic interventions | |
WO2023239866A1 (en) | Methods for identifying cns cancer in a subject | |
CN116200491A (zh) | 隆突性皮肤纤维肉瘤诊断及预后相关基因靶向检测试剂盒 | |
CN116064782A (zh) | 一种用于检测pnh基因的引物组合物及其应用 | |
CN117512116A (zh) | 一种用于胆管癌检测的生物标志物及其应用 | |
CN113981080A (zh) | 晚期三阴性乳腺癌铂类治疗敏感性的预测指标生成分析方法 | |
CN113362884A (zh) | 基于单碱基替换特征的肿瘤标志物筛选方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200508 |