CN112951325B - 一种用于癌症检测的探针组合的设计方法及其应用 - Google Patents
一种用于癌症检测的探针组合的设计方法及其应用 Download PDFInfo
- Publication number
- CN112951325B CN112951325B CN202110190057.2A CN202110190057A CN112951325B CN 112951325 B CN112951325 B CN 112951325B CN 202110190057 A CN202110190057 A CN 202110190057A CN 112951325 B CN112951325 B CN 112951325B
- Authority
- CN
- China
- Prior art keywords
- mutation
- cancer
- detection
- grading
- probe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 88
- 238000001514 detection method Methods 0.000 title claims abstract description 75
- 201000011510 cancer Diseases 0.000 title claims abstract description 65
- 239000000523 sample Substances 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013461 design Methods 0.000 title claims abstract description 12
- 230000035772 mutation Effects 0.000 claims abstract description 82
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000012795 verification Methods 0.000 claims abstract description 8
- 238000012163 sequencing technique Methods 0.000 claims description 16
- 230000002980 postoperative effect Effects 0.000 claims description 9
- 230000036438 mutation frequency Effects 0.000 claims description 8
- 238000010200 validation analysis Methods 0.000 claims description 6
- 102100035682 Axin-1 Human genes 0.000 claims description 3
- 108091026890 Coding region Proteins 0.000 claims description 3
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 claims description 2
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 claims description 2
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 claims description 2
- 102100024458 Cyclin-dependent kinase inhibitor 2A Human genes 0.000 claims description 2
- 108700024394 Exon Proteins 0.000 claims description 2
- 102100028138 F-box/WD repeat-containing protein 7 Human genes 0.000 claims description 2
- 101710105178 F-box/WD repeat-containing protein 7 Proteins 0.000 claims description 2
- 206010064571 Gene mutation Diseases 0.000 claims description 2
- 101000628562 Homo sapiens Serine/threonine-protein kinase STK11 Proteins 0.000 claims description 2
- 101000702545 Homo sapiens Transcription activator BRG1 Proteins 0.000 claims description 2
- 102000004034 Kelch-Like ECH-Associated Protein 1 Human genes 0.000 claims description 2
- 108090000484 Kelch-Like ECH-Associated Protein 1 Proteins 0.000 claims description 2
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 claims description 2
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 claims description 2
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 claims description 2
- 102100026715 Serine/threonine-protein kinase STK11 Human genes 0.000 claims description 2
- 102000049937 Smad4 Human genes 0.000 claims description 2
- 102100031027 Transcription activator BRG1 Human genes 0.000 claims description 2
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 claims description 2
- 101150030271 AXIN1 gene Proteins 0.000 claims 1
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 claims 1
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 claims 1
- 101000742859 Homo sapiens Retinoblastoma-associated protein Proteins 0.000 claims 1
- 101100091501 Mus musculus Ros1 gene Proteins 0.000 claims 1
- 102100038042 Retinoblastoma-associated protein Human genes 0.000 claims 1
- 201000007270 liver cancer Diseases 0.000 abstract description 37
- 208000014018 liver neoplasm Diseases 0.000 abstract description 37
- 230000035945 sensitivity Effects 0.000 abstract description 21
- 238000004393 prognosis Methods 0.000 abstract description 2
- 239000011324 bead Substances 0.000 description 22
- 239000000047 product Substances 0.000 description 16
- 108020004414 DNA Proteins 0.000 description 14
- 206010061535 Ovarian neoplasm Diseases 0.000 description 12
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 12
- 238000002156 mixing Methods 0.000 description 11
- 206010033128 Ovarian cancer Diseases 0.000 description 10
- 239000012634 fragment Substances 0.000 description 10
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 10
- 201000002528 pancreatic cancer Diseases 0.000 description 10
- 208000008443 pancreatic carcinoma Diseases 0.000 description 10
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 8
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 8
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 8
- 238000003384 imaging method Methods 0.000 description 8
- 238000001356 surgical procedure Methods 0.000 description 8
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 239000006228 supernatant Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 210000004369 blood Anatomy 0.000 description 6
- 239000008280 blood Substances 0.000 description 6
- 238000011534 incubation Methods 0.000 description 6
- 239000007788 liquid Substances 0.000 description 6
- 206010006187 Breast cancer Diseases 0.000 description 5
- 208000026310 Breast neoplasm Diseases 0.000 description 5
- 206010009944 Colon cancer Diseases 0.000 description 5
- 238000007664 blowing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 230000004083 survival effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 4
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 4
- 208000005718 Stomach Neoplasms Diseases 0.000 description 4
- 210000000601 blood cell Anatomy 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 239000012295 chemical reaction liquid Substances 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 201000004101 esophageal cancer Diseases 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 206010017758 gastric cancer Diseases 0.000 description 4
- 238000009396 hybridization Methods 0.000 description 4
- 208000020816 lung neoplasm Diseases 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 239000002096 quantum dot Substances 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 201000011549 stomach cancer Diseases 0.000 description 4
- 238000007482 whole exome sequencing Methods 0.000 description 4
- 238000007400 DNA extraction Methods 0.000 description 3
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 3
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 3
- 102000003960 Ligases Human genes 0.000 description 3
- 108090000364 Ligases Proteins 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 3
- 238000003149 assay kit Methods 0.000 description 3
- 239000000090 biomarker Substances 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 210000000265 leukocyte Anatomy 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 201000005202 lung cancer Diseases 0.000 description 3
- 210000005259 peripheral blood Anatomy 0.000 description 3
- 239000011886 peripheral blood Substances 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 108091092584 GDNA Proteins 0.000 description 2
- 101000874566 Homo sapiens Axin-1 Proteins 0.000 description 2
- 208000005016 Intestinal Neoplasms Diseases 0.000 description 2
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 2
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 2
- 230000002611 ovarian Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000012474 protein marker Substances 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 206010041823 squamous cell carcinoma Diseases 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 101150039504 6 gene Proteins 0.000 description 1
- 102100034580 AT-rich interactive domain-containing protein 1A Human genes 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 108091093088 Amplicon Proteins 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 102000004506 Blood Proteins Human genes 0.000 description 1
- 108010017384 Blood Proteins Proteins 0.000 description 1
- 102100028914 Catenin beta-1 Human genes 0.000 description 1
- 206010061819 Disease recurrence Diseases 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 208000009849 Female Genital Neoplasms Diseases 0.000 description 1
- 102100027768 Histone-lysine N-methyltransferase 2D Human genes 0.000 description 1
- 101000924266 Homo sapiens AT-rich interactive domain-containing protein 1A Proteins 0.000 description 1
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 1
- 101001045848 Homo sapiens Histone-lysine N-methyltransferase 2B Proteins 0.000 description 1
- 101001008894 Homo sapiens Histone-lysine N-methyltransferase 2D Proteins 0.000 description 1
- 101000984620 Homo sapiens Low-density lipoprotein receptor-related protein 1B Proteins 0.000 description 1
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 238000010824 Kaplan-Meier survival analysis Methods 0.000 description 1
- 102100027121 Low-density lipoprotein receptor-related protein 1B Human genes 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 1
- 208000006265 Renal cell carcinoma Diseases 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 238000009098 adjuvant therapy Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000010100 anticoagulation Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000002249 digestive system Anatomy 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003394 haemopoietic effect Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000003018 immunoassay Methods 0.000 description 1
- 238000011221 initial treatment Methods 0.000 description 1
- 201000002313 intestinal cancer Diseases 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 208000037819 metastatic cancer Diseases 0.000 description 1
- 208000011575 metastatic malignant neoplasm Diseases 0.000 description 1
- 238000009099 neoadjuvant therapy Methods 0.000 description 1
- 230000000683 nonmetastatic effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000012188 paraffin wax Substances 0.000 description 1
- 210000004180 plasmocyte Anatomy 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 238000012106 screening analysis Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Analytical Chemistry (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种用于癌症检测的探针组合的设计方法及其应用,所述设计方法包括:提取数据库中的癌症的突变集合分为训练集和验证集,将所述训练集中参考基因组距离<=80的突变合并得到多个突变热点区间;将所述多个突变热点区间以区域突变密度为依据依次进行筛选,将满足以下条件的突变热点区间作为所述探针组合的靶点。本发明设计得到的探针组合对常见癌症的覆盖优秀,采用Gene+数据库和MSK数据库验证集模拟该panel对9个癌症的覆盖情况,结果表明,九大癌症类型的覆盖度均>93%;基于该探针的早起癌症检测具有高灵敏度和特异性,对于肝癌的检出率达到85%;基于该探针的ctDNA阳性判定方法能有效对患者进行预后分层。
Description
技术领域
本发明涉及生物技术领域,尤其涉及一种用于癌症检测的探针组合的设计方法及其应用。
背景技术
肝癌是一类高发性恶性肿瘤,患有肝癌的病人通常死亡率较高。高发病率和死亡率的关键原因在于缺乏有效的早期筛查标志物。传统诊断方法中,血清甲胎蛋白(Alpha-fetoprotein,AFP)和肝脏超声检查是早期筛查肝癌的主要手段,但是相关研究表明约80%的小肝癌患者(早期肝癌患者)的AFP水平没有显著升高,说明AFP作为筛查标志物具有一定的局限性,不适于早期肝癌的检测;而对于早期肝癌的超声检查,其灵敏度仅有47%;通过超声联合AFP蛋白标志物检出的灵敏度为63%,虽然这种联合检测可提高灵敏度,也降低了特异性,因此,在早期肝癌患者的诊断中,急需高度灵敏和特异性的检测手段。
胰腺癌是一种发病隐匿、进展迅速、预后极差的消化系统恶性肿瘤,总体发病率和死亡率逐年上升。手术切除是目前唯一可能治愈的方法,但大部分患者就诊时因疾病较晚而失去手术时机,晚期患者的5年生存率只有2~5%,而早期患者术后5年生存率可高达80%。以血清蛋白标记物(CA199)联合影像学(B超/CT)为基础的筛查体系,敏感性和特异性不足,是导致胰腺癌早诊率低的重要原因。有研究结果显示,采用CT、MRI、超声内镜等方法筛查胰腺癌高危人群,阳性率仅为1.56%,且成本大、效率低,而超声内镜等有创检查也造成患者的心理、生理损伤,因此,亟需研发更高效、准确、无创的筛查技术手段。
卵巢癌是妇科肿瘤中的三大癌症之一,由于其早期症状少,起病隐匿,无特异性等特征导致其病死亡率较高。研究表明,卵巢癌患者中只有20-25%的患者被诊断为I期疾病,其5年生存率大于90%;而75-80%的患者被诊断为III期或IV期,其5年生存率仅有17-39%。蛋白标记物CA-125对早期卵巢癌(I-III期)的阳性预测值仅有35%,且特异性较差(<90%);而影像学手段(经阴道超声,TVU)的灵敏性>50%,但由于良性和恶性肿瘤的重叠,导致其特异性不理想;有研究表明,上述传统筛查方法的低特异性,会导致其中部分患者的过度诊疗,并出现了一定的并发症,综上所述,寻找新的特异性和灵敏性均较高的检测方法,是目前早期卵巢癌筛查所迫切需要的。
早期发现是减少癌症死亡的关键。2018年,Cohen等人开发了一种早期癌症检测方法CancerSEEK4。CancerSEEK通过检测16个基因的循环肿瘤DNA(ctDNA)以及8个蛋白质生物标志物,用于鉴定8种常见癌症:卵巢癌,肝癌,食道癌,胰腺癌,胃癌,结直肠癌,肺癌和乳腺癌。、
CancerSEEK的第1个组分是基于ctDNA突变。研究人员设计了61对引物,从16个基因中扩增目标区域的66至80个碱基对的DNA片段。使用COSMIC数据库进行模拟评估,该panel对癌症的理论检出率为41%(肝癌)~95%(胰腺癌)。而使用该研究中805例癌症数据进行评估,该panel至少检出1个突变的灵敏度为82%,至少检出2个突变的灵敏度为47%。在实验技术上,研究人员采用了两个方法来检测罕见低频突变:(1)用DNA条形码标记每个原始模板分子;(2)将从血浆中提取的cfDNA分成6份(每孔25uL),并对每孔进行独立检测。这减少了每孔DNA分子的数量,但是增加了每孔中每个突变分子的比例,使突变更容易检测。CancerSEEK的第2个组分是基于癌症蛋白质生物标志物。研究者通过对健康对照和癌症患者的分析,从初步鉴定的41种潜在的蛋白质生物标志物,最终筛选出8种作为最终的标志物。这些蛋白可以通过单一免疫分析平台进行重复性评估。研究人员招募了1,005例I~III期卵巢、肝脏、食道、胰腺、胃、结直肠、肺、或乳腺癌患者,采集手术切除前/新辅前的外周血,进行CancerSEEK检测。如果16个基因之一的突变频率或8个蛋白之一或其组合之一的突变频率相对于对照群体显着升高,则将患者的检测结果分类为阳性。然后使用机器学习工具和统计分析来确定10次的10倍交叉验证的中位敏感性和特异性。CancerSEEK的敏感性:I期、II期和III期分别是43%、73%和78%。8种常见癌症的中位总敏感性为70%,卵巢癌最高为98%,乳腺癌最低为33%。目前尚缺乏有效筛查标志物的癌症为卵巢癌、肝癌、胃癌、胰腺癌和食管癌,敏感度在69%-98%之间。该研究还包括812名没有癌症病史的健康人(中位年龄55岁)作为对照人群,其中7人检测结果为阳性,特异性>99%。
新辅助治疗和手术切除是大多数非转移癌症的主要治疗方式,不过会有30%到50%的患者最终会复发。随着ctDNA液体活检技术的发展,其对治疗后或术后复发预测价值的研究越发重要。美国Natera公司开发的Signatera是首个针对患者定制的用于微小残留检测、治疗疗效或复发监测的产品。Signatera的产品构成:用WES(whole exomesequencing,全外显子组测序)鉴定组织中的主克隆体细胞变异,从中挑选16个SNVs突变设计引物,通过基于扩增子的高通量测序监测血浆中的变异。
伦敦大学癌症研究所的Charles Swanton等人开展了TRACERx前瞻性临床试验,采用Signatera技术来监测NSCLC中(non-small cell lung cancer,非小细胞肺癌)从诊断到死亡的变异克隆演变过程。患者手术组织样本用M-seq多区域外显子组技术(multi-regionexome sequencing)进行测序;所有患者个性化ctDNA检测panel包含的SNVs中位数量为18个。在变异calling分析时,采用了“position-specific error model”(突变位点特异误差模型)对SNVs变异进行过滤筛选,检出2个SNVs以及以上的患者为ctDNA阳性。2017年TRACERx在Nature期刊发布了100例入组肺癌患者的研究数据,其中24例患者进行了ctDNA复发预测评估。24例患者在前两年每隔三个月随访一次,之后每隔六个月随访一次,直到临床复发的影像学评估。24例患者中有14例在术后任一节点检测为ctDNA阳性,ctDNA阳性检出率为58.33%;ctDNA阳性患者中有13例患者出现了影响学的复发,ctDNA阳性预测值为92.86%,ctDNA阴性预测值为90.0%。Signatera检测ctDNA预测患者复发比影像学预测提前最高达到11个月,有4例患者中的提前时间超过6个月。
此外,2019年JAMA Oncology发表了125例I-III期肠癌的MRD监测结果,Signatera预测复发比影像学提前的中位时间为10.1个月,最快能提前16.5个月预测复发,特异性为98%。2019年Clinical Cancer Research发表了49例I-III期乳腺癌的数据,Signatera预测复发比影像学提前的中位时间为8.9个月,最快能提前2年预测患者复发,特异性为100%。
然而,CancerSEEK是以西方人群的基因组特征训练而形成的探针集合。根据文献报道,利用此款探针对公开数据库COSMIC中核心癌症的覆盖度分析的时候,发现肝癌的检出率只有41%。而基因组特征是存在人种差异的,尤其是肝癌。
而关于Signatera,组织样本通过WES检出的变异多且杂,仅仅通过主克隆变异的筛选,很难确定这些变异和疾病复发的相关性,最终导致Signatera在几个临床试验中的产品性能较差。例如在2019年JAMA Oncology发表的125例I-III期肠癌MRD监测结果表明,基于Signatera技术的ctDNA预测复发的灵敏度仅为41.2%(7/17),阳性预测值和阴性预测值都偏低,分别为70%和88.1%。此外,在2019年ESMO年会(Abstract#110P)公布的关于肾细胞癌ctDNA术后复发监测的结果表明,Signatera预测复发的灵敏度为44.4%(12/27),阳性预测值为100%(12/12);阴性预测值仅为53%(17/32),其中有15例复发患者的ctDNA检测结果为阴性。(2)在做MRD监测时,血浆样本的个性化检测完全依赖于组织样本的变异检出。对于没有组织样本或没法提供组织样本的患者,该方法不能进行MRD监测。(3)TAT和成本。
发明内容
为了解决现有技术存在问题,本发明提供一种用于癌症检测的探针组合的设计方法及其应用。
第一方面,本发明涉及一种用于癌症检测的探针组合的设计方法,包括:
提取数据库中的癌症的突变集合分为训练集和验证集,将所述训练集中参考基因组距离<=80的突变合并得到多个突变热点区间;将所述多个突变热点区间以区域突变密度为依据依次进行筛选,将满足以下条件的突变热点区间作为所述探针组合的靶点:
(1)以所述训练集中的患者的突变集合为目标数据,患者覆盖贡献增加;
(2)区间内有至少两个突变位点。
进一步地,所述区域突变密度为突变热点区间内突变个数和区间长度的比值。
进一步地,所述患者覆盖贡献增加具体为训练集中的肿瘤基因突变检出率不断增加,并且得到验证集的确认。
进一步地,所述提取数据库中的癌症的突变集合分为训练集和验证集为:
将数据库COSMIC、MSK和Gene+中目标癌症类型的数据均分为训练集和验证集。
第二方面,本发明提供一种用于癌症检测的探针组合,由上述设计方法设计得到。所述探针组合针对的靶点具体包括实施例1中表1-表4所示靶标。
根据本发明表1-表4提供的靶标,可以相应地通过本领域的常规探针设计方法,设计探针。设计出的探针可以直接用于这些靶标,也就是这些和癌症密切相关的基因的检测。
本发明进一步提供一种用于早期癌症检测或术后ctDNA阳性判定的试剂盒,所述试剂盒包括所述探针组合。
本发明进一步提供所述探针组合在早期癌症检测或术后ctDNA阳性判定中的应用。
进一步地,所述应用包括:
(1)运用权利要求4或5所述探针组合对待测样本进行检测;
(2)对步骤(1)检测得到的突变以及相应的基因进行分级,
(3)以步骤(2)的分级结果、错误背景和突变频率构建随机模型进行评分,以评分的最大值作为样本评分,使用早期癌症样本和健康人样本的评分训练模型确定阈值。
进一步地,步骤(2)中,针对突变的分级方式如下:
在各癌症中检出率≥1%且癌症样本数目>100例作为等级1;
在各癌症中检出率为0.5~1%且癌症样本数目>500例作为等级2;
Gene+数据库、MSK数据库、COSMIC数据库中至少有2个数据库有记载作为等级3;
其他突变作为等级4;
针对基因的分级方式如下:
在相应癌症中检出率≥20%作为等级1;
在相应癌症中检出率为10%-20%作为等级2;
在相应癌症中检出率为5~10%作为等级3;
在相应癌症中检出率<5%作为等级4。
进一步地,再进行早期癌症检测或术后ctDNA阳性判定均可适用上述方式,其中在术后ctDNA阳性判定过程中,还可适用以下流程:
将突变分为配对肿瘤组织来源和其他突变,对于其他突变,方式和上述的相同;
对于配对肿瘤组织来源的突变,以突变频率、是否为驱动突变和突变CCF(Cancercell fraction,癌症细胞比例)作为特征,用术后复发和未复发样本检出的配对组织来源的突变训练随机森林模型,确定分类阈值;
本发明进一步提供一种早期癌症检测系统,包括检测模块、分级模块和判断模块;
所述检测模块用于运用权利要求4或5所述探针组合对待测样本进行检测;
所述分级模块和所述检测模块相连,用于对检测模块检测得到的突变及对应的基因进行分级;
所述判断模块和所述分级模块以及所述检测模块分别相连,用于以分级模块得到的分级结果、测序条件下的背景错误和突变频率构建随机模型进行评分,以评分的最大值作为样本评分,使用早期癌症样本和健康人样本的评分训练模型确定阈值。
本发明具有如下有益效果:
1、本发明设计得到的探针对常见癌症的覆盖优秀,采用Gene+数据库和MSK数据库模拟该panel对9个癌症的覆盖情况,结果表明,九大癌症类型的覆盖度均>93%;
2、本发明适用于早期多个癌症类型的检测,具有高灵敏度和特异性,对于肝癌、卵巢癌、结直肠癌、肺鳞癌、胰腺癌的检出率达到85%、72%、77%、79%和77%。
3、本发明提供的ctDNA阳性判定方法能有效对患者进行预后分层。
附图说明
图1为本发明实施例1提供的探针集合对三大数据库核心癌症训练集的覆盖情况;
图2为本发明实施例1提供的探针集合对三大数据库核心癌症验证集的覆盖情况;
图3为本发明实施例2提供的早期肝癌检测方法在早期肝癌训练集的性能表现;
图4为本发明实施例2提供的早期肝癌检测方法在早期肝癌的验证集性能表现;其中A为本发明方法对早期肝癌的检出率;B为甲胎蛋白对早期肝癌的检出率;
图5为本发明实施例4提供的基于循环肿瘤DNA(ctDNA)分层肝癌患者的无疾病生存Kaplan-Meier分析;横坐标表示患者手术后随访的时间,纵坐标表示未复发患者的比例。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1探针组合及其靶点
1.1捕获探针的设计方法和设计结果
1.1.1捕获探针的设计方法
本实施例提供了一种经济高效的可用于泛癌种辅助的探针组合设计方法,具体如下:
(1)确定目标癌症类型,如肺癌、乳腺癌、结直肠癌、肝癌、胰腺癌、胃癌、食管癌、膀胱癌。
(2)提取Gene+数据库、COSMIC数据库和MSKCC数据库中九大癌症的突变集合,分为训练集和验证集。寻找热点突变区域,对于参考基因组距离<=80的突变合并,并计算其合并区域后的区域密度值Rd和区域内的突变个数RegMuts。公式如下:
其中,RegMuts为所在合并区域内的突变个数,RegLen为合并区域覆盖区间长度,即将合并区域左右扩充到120bp(单个探针覆盖长度)的倍数,合并区域长度不足120bp的按照120bp计算。
(3)将热点区间按照Rd值从大到小排序。
(4)以训练集中Gene+和MSK的患者突变集为目标数据,从(3)中的热点区域数据依次筛选(如果Rd值相同,优先选择RegMuts大的区域),以满足以下两个条件纳入panel区域:患者覆盖贡献有增加;该区域至少有两个突变检出。
经过上述方法得到捕获探针的目标区域:
本捕获探针包含13个基因的全编码区,以及210个基因的特定区域,具体如表1-表4所示。
表1 13个基因的全编码区
APC | AR | AXIN1 | CDH1 | CDKN2A |
FBXW7 | KEAP1 | PTEN | RB1 | SMAD4 |
SMARCA4 | STK11 | TP53 |
表2 147个基因的414个外显子
表3 173个基因的特定区域
表4 4个基因的4个内含子
图1和图2为本实施例提供的探针集合对三大数据库核心癌症的覆盖情况,其中图1为探针集合对于训练集的覆盖情况,图2为探针集合对于验证集的覆盖情况。
实施例2 DX testing应用与肝癌早期检测的灵敏度和特异性
招募未经手术和新辅助治疗的I-III期肝癌患者;同时招募200例没有癌症病史的健康人作为对照人群。采集外周血样本10mL。
2.1血浆分离与DNA提取
对于全血需要及时进行血浆/血细胞分离(EDTA抗凝管,4h内;Streck管72h内),分离步骤如下:
(1)在4℃条件下1600g离心10min,离心后将上层血浆分装到多个1.5mL或者2.0mL的离心管中,在吸取血浆过程中注意不要吸到中间层的白细胞。
此步骤分离血浆后,中间层+底层血细胞留取备用,作为正常对照。
(2)在4℃条件下以16000g离心10min去除残余细胞,将上清转入新的1.5mL或者2.0mL离心管中(注意不要吸到管底的白细胞),即得到所需的血浆。
血浆按照QIAamp Circulating Nucleic Acid Kit(Qiagen)提取试剂说明书,进行血浆cfDNA的提取。血细胞样本按照QIAamp DNA Mini Kit提取试剂说明书,进行gDNA的提取。然后采用Qubit定量,要求血浆cfDNA大于15ng;血细胞gDNA大于100ng。
2.2文库构建
2.2.1末端修复及加“A”
(1)向片段化产物中加入末端修复反应液和末端修复反应酶,振荡混匀并离心;
(2)在恒温混匀仪或PCR仪上孵育:20℃,30min;65℃,30min;
(3)孵育完成后,降至室温,使用掌式离心机短暂离心。
2.2.2接头连接
取出连接酶以及接头。将接头置于室温溶解,连接酶置于冰盒上。使用前将接头和连接酶反应液充分振荡混匀并短暂离心。
2.2.3接头连接后纯化:将接头连接后的样本使用磁珠进行纯化
(1)提前30min取出磁珠置于室温,使用前充分振荡混匀;
(2)吸取相应体积磁珠至1.5mL离心管中,再将产物转至磁珠中,用移液器轻轻吹打混匀,室温下孵育10min,使磁珠与DNA片段充分结合,孵育期间配制80%乙醇;
(3)孵育结束后,将1.5mL离心管置于磁力架上,静置10-20min(视磁珠量而定),直至液体澄清,弃上清;
(4)保持1.5mL离心管固定于磁力架上,加入新鲜配制的80%乙醇,用量足够淹没磁珠即可,弃上清;
(5)重复步骤(4)一次,尽量吸干管底液体;
(6)将1.5mL离心管打开盖子置于37℃金属浴上加热烘干,至磁珠表面不反光后取下;
(7)向1.5mL离心管中加入溶解液,移液器吹打混匀,室温下孵育5min,使DNA片段充分溶解在DNA溶解液中;
(8)将1.5mL离心管置于磁力架上至液体完全澄清;
(9)吸取上清到新的1.5mL离心管中,弃去带磁珠的1.5mL离心管。
2.2.4杂交捕获前PCR富集(Non-C-PCR)
(1)取出对应编号的Index,置于室温溶解,充分振荡混匀并离心;
(2)从冰箱中取出DNA聚合酶反应液,置于4℃冰箱溶解后,轻轻振荡混匀并离心,置于冰盒上;
(3)在PCR管中加入反应组分振荡混匀并离心。
(4)将上述PCR管置于PCR仪上进PCR
2.2.5 Non-C-PCR产物纯化:PCR后的样本使用磁珠进行纯化。
2.2.6 DNA片段化后操作
(1)提前30min取出磁珠置于室温,使用前充分振荡混匀;
(2)吸取相应体积磁珠至1.5mL离心管中,再将产物转至磁珠中,用移液器轻轻吹打混匀,室温下孵育10min,使磁珠与DNA片段充分结合,孵育期间配制80%乙醇;
(3)孵育结束后,将1.5mL离心管置于磁力架上,静置10-20min(视磁珠量而定),直至液体澄清,弃上清;
(4)保持1.5mL离心管固定于磁力架上,加入新鲜配制的80%乙醇,用量足够淹没磁珠即可,弃上清;
(5)重复步骤(4)一次,尽量吸干管底液体;
(6)将1.5mL离心管打开盖子置于37℃金属浴上加热烘干,至磁珠表面不反光后取下;
(7)向1.5mL离心管中加入溶解液,移液器吹打混匀,室温下孵育5min,使DNA片段充分溶解在DNA溶解液中;
(8)将1.5mL离心管置于磁力架上至液体完全澄清;
(9)吸取上清到新的1.5mL离心管中,弃去带磁珠的1.5mL离心管。
2.2.7文库质控
2.3靶序列捕获
2.3.1文库质控合格后,采用本发明实施例1设计的富集探针,参照探针制造商提供的说明书进行杂交捕获。最后洗脱回溶20μL ddH2O带杂交洗脱磁珠。
2.3.2洗脱产物扩增富集(LM-PCR)
(1)从冰箱中取出DNA聚合酶反应液及引物,置于室温溶解后,充分振荡混匀并离心。
(2)按照说明书PCR反应液,再加入全部带磁珠B的洗脱产物,吹打混匀;
(3)将上述PCR管置于PCR仪上,进行扩增反应
(4)PCR后的样本使用磁珠进行纯化。
2.3.3洗脱文库检测
2.4上机测序
采用Gene+seq测序仪及同原理的其他测序仪进行上机测序。测序实验操作按照制造商提供的操作说明书进行上机测序操作。
上机数据量要求:血浆样本要求10G,配对的对照样本要求2G。
2.5信息分析
测序原始下机数据质控。采用发明人自主开发的血浆ctDNA低频突变富集测序技术——ER-seq(Enrichment&Rarallele Sequence)(中国专利公开号CN105063208A,公开日2015年11月18日)的信息分析流程(RealSeq Pipeline),去除UID后,使用NCfilter进行过reads滤过滤。
序列比对。以GRCh37为参考序列,使用bwa进行序列比对,生成初步比对的reads。使用realseq对bam进行基于ER-seq的分析流程的reads的聚类分析及纠错,提取包括天然重复片段在内的去重后的reads。再次使用bwa对重新对reads进行比对。使用GATK的RealignerTargetCreator进行INDEL附近序列的局部重新比对,降低INDEL附近的比对错误率。使用GATK的BaseRecalibrator和PrintReads对bam文件里reads的碱基质量值进行重新校正,使最后输出的bam文件中reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率,并将质量矫正后的reads重新输出。
原始变异检测。使用realDecaller和Mutect2检测体细胞突变和造血克隆突变,使用GATK的SelectVariants检测胚系突变。
变异的注释和过滤。使用NCanno对原始变异检出突变进行注释,包括突变信息和外部数据库ESP、GAD、EXAC、1000Genomes和GenomesAD等,使用注释信息、白细胞对照和健康人样本构造的健康人基线,对突变进行过滤。
CRI模型评分。使用CRI模型基于样本检出的突变,对样本进行评分,得到最终的检测结果。
CRI模型评分方式具体如下:
以突变在Gene+数据库、MSK数据库和COSMIC数据库中的九大癌症类型的检出率为依据,对于本发明探针覆盖的突变,按照既定的规则(表)对突变和基因进行分级。构建特定的测序条件下的碱基错误分布背景。根据突变的分级、错误背景、基因分级和突变频率构建随机森林模型,对检出突变进行评分,以样本检出突变评分的最大值为样本评分,使用早期肝癌样本和健康人样本训练模型确定阈值。
CRI Score计算公式:
ScoreMut=f(AF,Mut Level,Gene Level,Errors)
Scoresample=Max(ScoreMut)其中:f为随机森林模型,ScoreMut为突变变维度的评分值,AF为突变频率,Mut Level为突变相关性分级,Gene Level为基因相关性分级,Scoresample为样本维度评分,Errors为测序条件下背景错误。
表5 Mut Level分级方法
突变等级 | 分类规则 |
1 | 在各癌症中检出率≥1%,要求癌症样本数目>100例. |
2 | 在各癌症中检出率∈0.5~1%,要求癌症样本数目>500例. |
3 | Gene+数据库、MSK数据库、COSMIC数据库中至少有2个数据库有记载。 |
4 | 突变不属于1、2和3等级的突变 |
表6 Gene Level分级方法
突变等级 | 分类规则 | 示例(肝癌) |
1 | 在相应癌症中检出率≥20% | TP53,TERT |
2 | 在相应癌症中检出率∈10%-20% | CTNNB1,ARID1A、AXIN1、LRP1B |
3 | 在相应癌症中检出率∈5~10% | KRAS、PIK3CA、APC、MLL2、TSC2、RB1 |
4 | 在相应癌症中检出率<5% | 其他 |
2.6检测结果
训练集:50例肝癌患者和100例健康患者的测序质控结果显示,测序深度中位5900X,污染率极低<0.01%。随机森林模型分类ROC曲线(图3),AUC为0.978。CRI Score值>0.2850样本为阳性时,特异性为96%(91%~98%,95%置信区间),灵敏度为86%(73%~94%,95%置信区间);CRI Score值>0.3552样本为阳性时,特异性为99%(95%~99.8%,95%置信区间),灵敏度为84%(71%~93%,95%CI)。
验证集:运用本项目检测方法,在100例非癌症个体中,4例表现为阳性,特异性为96%。肝癌A、B、C期(BCLC分期)的检出率分别为83%、88%和91%,综合检出率为85%(图4中的A)。AFP按照阈值20、200和400ng/mL的检出率分别为67%、40%和33%(图4中的B)。因此,本项目方法相对于AFP(20ng/mL),使得肝癌早期检出率提升18%。
实施例3卵巢癌、胰腺癌、结直肠癌早期检测
招募未经手术和新辅助治疗的I-III期卵巢癌、结直肠癌、肺鳞癌、胰腺癌患者实施该检测。
检测方法同实施例2。
运用本项目检测方法,36例卵巢癌、79例结直肠癌、28例肺鳞癌、35例胰腺癌的灵敏度分别为72%、77%、79%和77%。
实施例4应用于术后微小残留检测应用
招募经过手术的I-III期肝癌患者,采集手术组织和术后外周血样本10-20mL。
4.1组织DNA提取和片段化
收集到的组织样本(组织和石蜡切片)按照试剂盒说明书提取基因组DNA。推荐使用超声波打断将DNA片段化,片段化后使用倍磁珠对其进行纯化。用Qubit荧光定量仪(dsDNA HS Assay Kit)对片段化纯化产物进行定量,产物浓度应高于2ng/μL。如若得到的浓度低于2ng/μL,NC-PCR由10个循环改为12个循环;用Agilent 2100 Bioanalyzer检测产物的长度分布范围,DNA片段主带在200-250bp左右。
4.2术后血浆参考实施例1进行文库构建,杂交捕获,上机测序及信息分析。
4.3检测结果
4.3.1测序结果
101例肝癌患者的测序结果显示,测序深度中位6295X,污染率<0.05%。
4.3.2 Landmark血浆检测后半年内复发风险预测
在101例随访的肝癌患者中,I期和II期患者为51例,III期患者50例。从手术到第一次术后血采集的中位时间间隔为7.4天,第一次术后血采集的时间点为术后血监测Landmark点。研究结果表明(图5),有21例患者Landmark术后血为ctDNA阳性(占比20.79%)。Landmark后半年内出现影像学复发的患者为25例,其中ctDNA阳性的患者为13例(52.0%)。在ctDNA阴性的患者人群中,有12例患者出现了影像学复发(15%)。ctDNA阳性肝癌患者的中位复发时间为3.53个月,阴性肝癌人群未达到中位复发时间。Landmark术后血ctDNA阳性的肝癌患者和ctDNA阴性患者相比,半年内复发的风险显著较高,复发风险比(HR)为5.546(95%CI,6.374-47.75;P<0.0001)。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (6)
1.一种用于癌症检测的探针组合的设计方法,其特征在于,包括:
提取数据库中的癌症的突变集合分为训练集和验证集,将所述训练集中参考基因组距离<=80的突变合并得到多个突变热点区间;将所述多个突变热点区间以区域突变密度为依据依次进行筛选,将满足以下条件的突变热点区间作为所述探针组合的靶点:
(1)以所述训练集中的患者的突变集合为目标数据,患者覆盖贡献增加;
(2)区间内有至少两个突变位点;
所述区域突变密度为突变热点区间内突变个数和区间长度的比值;
所述患者覆盖贡献增加为:
在包含待筛选的突变热点区间时,训练集中的肿瘤基因突变检出率增加,并且得到所述验证集的确认。
2.根据权利要求1所述的设计方法,其特征在于,所述提取数据库中的癌症的突变集合分为训练集和验证集为:
将数据库COSMIC、MSK和Gene+中目标癌症类型的数据均分为训练集和验证集。
3.一种用于癌症检测的探针组合,其特征在于,所述探针组合以权利要求1或2所述设计方法设计得到。
5.一种试剂盒,其特征在于,所述试剂盒用于早期癌症检测或术后ctDNA阳性判定,所述试剂盒包含权利要求3或4所述探针组合。
6.一种早期癌症检测系统,其特征在于,包括检测模块、分级模块和判断模块;
所述检测模块用于运用权利要求3或4所述探针组合对待测样本进行检测;
所述分级模块和所述检测模块相连,用于对检测模块检测得到的突变及对应的基因进行分级;
所述判断模块和所述分级模块以及所述检测模块分别相连,用于以分级模块得到的分级结果、测序条件下的背景错误和突变频率构建随机模型进行评分,以评分的最大值作为样本评分,使用早期癌症样本和健康人样本的评分训练模型确定阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110190057.2A CN112951325B (zh) | 2021-02-18 | 2021-02-18 | 一种用于癌症检测的探针组合的设计方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110190057.2A CN112951325B (zh) | 2021-02-18 | 2021-02-18 | 一种用于癌症检测的探针组合的设计方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951325A CN112951325A (zh) | 2021-06-11 |
CN112951325B true CN112951325B (zh) | 2023-04-21 |
Family
ID=76244434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110190057.2A Active CN112951325B (zh) | 2021-02-18 | 2021-02-18 | 一种用于癌症检测的探针组合的设计方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951325B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115424664B (zh) * | 2022-11-07 | 2023-03-10 | 北京雅康博生物科技有限公司 | 人为突变程度评估方法及装置 |
CN117524304B (zh) * | 2024-01-08 | 2024-03-29 | 北京求臻医学检验实验室有限公司 | 实体瘤微小病灶残留的检测panel、探针组及其应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104099425A (zh) * | 2014-08-01 | 2014-10-15 | 上海赛安生物医药科技有限公司 | 一种用于检测B-raf基因突变的试剂盒 |
CN106047998A (zh) * | 2016-05-27 | 2016-10-26 | 深圳市海普洛斯生物科技有限公司 | 一种肺癌基因的检测方法及应用 |
CN107619867A (zh) * | 2017-10-18 | 2018-01-23 | 广州漫瑞生物信息技术有限公司 | 用于同时检测肺癌多种基因突变类型的序列组合和探针 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2012202265B2 (en) * | 2005-11-29 | 2015-05-21 | Cambridge Enterprise Limited | Markers for breast cancer |
CN101434987A (zh) * | 2007-11-16 | 2009-05-20 | 沈阳守正生物技术有限公司 | 基因的检测方法 |
LT3198026T (lt) * | 2014-08-07 | 2020-01-27 | Pharmassist Ltd | Pik3ca mutacijos statuso nustatymo mėginyje būdas |
CN105734120B (zh) * | 2014-12-11 | 2020-11-27 | 天津华大基因科技有限公司 | 检测性发育相关基因变异的方法和试剂盒 |
GB2549763A (en) * | 2016-04-28 | 2017-11-01 | Univ Oxford Innovation Ltd | Biomarkers for early diagnosis of ovarian cancer |
-
2021
- 2021-02-18 CN CN202110190057.2A patent/CN112951325B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104099425A (zh) * | 2014-08-01 | 2014-10-15 | 上海赛安生物医药科技有限公司 | 一种用于检测B-raf基因突变的试剂盒 |
CN106047998A (zh) * | 2016-05-27 | 2016-10-26 | 深圳市海普洛斯生物科技有限公司 | 一种肺癌基因的检测方法及应用 |
CN107619867A (zh) * | 2017-10-18 | 2018-01-23 | 广州漫瑞生物信息技术有限公司 | 用于同时检测肺癌多种基因突变类型的序列组合和探针 |
Also Published As
Publication number | Publication date |
---|---|
CN112951325A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108753967B (zh) | 一种用于肝癌检测的基因集及其panel检测设计方法 | |
Ou et al. | Detection of bladder cancer using urinary cell-free DNA and cellular DNA | |
CN107475375A (zh) | 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒 | |
JP2021525069A (ja) | 癌を査定および/または処置するためのセルフリーdna | |
CN110272985A (zh) | 基于外周血血浆游离dna高通量测序技术的肿瘤筛查试剂盒及其系统与方法 | |
CN112951325B (zh) | 一种用于癌症检测的探针组合的设计方法及其应用 | |
CN109371139A (zh) | 一种基于高通量测序技术用于检测甲状腺癌致病相关基因变异的引物及其应用 | |
CN116631508B (zh) | 肿瘤特异性突变状态的检测方法及其应用 | |
JP2020524987A (ja) | 妊娠高血圧腎症に特異的な循環rnaシグネチャー | |
CN112176057A (zh) | 利用CpG位点甲基化水平检测胰腺导管腺癌的标志物及其应用 | |
CN114596918B (zh) | 一种检测突变的方法及装置 | |
CN111187841A (zh) | 一种诊断肺腺癌的甲基化分子标志物及其应用 | |
CN114717311A (zh) | 用于检测尿路上皮癌的标志物、试剂盒和装置 | |
CN114574587B (zh) | 一种用于结直肠癌检测的标记物组合物及其应用 | |
Zhao et al. | A novel cell-free single-molecule unique primer extension resequencing (cf-SUPER) technology for bladder cancer non-invasive detection in urine | |
US20240105281A1 (en) | Methods and Systems for Analyzing Nucleic Acid Molecules | |
CN115807098A (zh) | 一种用于检测分化型甲状腺癌基因突变的引物组合和试剂盒 | |
CN108913772B (zh) | 基于捕获测序的bMSI检测技术 | |
CN110408706A (zh) | 一种评估鼻咽癌复发的生物标志物及其应用 | |
CN114300089B (zh) | 一种中晚期结直肠癌治疗方案决策算法 | |
CN115851923A (zh) | 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用 | |
Edsjö et al. | Current and emerging sequencing-based tools for precision cancer medicine | |
CN110564851A (zh) | 一组用于非超突变型直肠癌分子分型的基因及其应用 | |
CN108342483B (zh) | 一组用于非超突变型结直肠癌分子分型的基因及其应用 | |
CN113005198B (zh) | 检测直肠癌放化疗敏感性相关15基因突变位点的试剂盒及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230403 Address after: 9/F, Building 6, Zone 1, No. 8 Life Park Road, Science and Technology Park, Changping District, Beijing 102206 Applicant after: BEIJING JIYINJIA MEDICAL LABORATORY Co.,Ltd. Applicant after: Changsha Geenga Biotechnology Co.,Ltd. Address before: Room 502, 5 / F, No.2 building, No.8 courtyard, Shengliyuan Road, science and Technology Park, Changping District, Beijing Applicant before: BEIJING JIYINJIA MEDICAL LABORATORY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |