CN117423388B - 一种基于甲基化水平的多癌种检测系统及电子设备 - Google Patents
一种基于甲基化水平的多癌种检测系统及电子设备 Download PDFInfo
- Publication number
- CN117423388B CN117423388B CN202311744645.1A CN202311744645A CN117423388B CN 117423388 B CN117423388 B CN 117423388B CN 202311744645 A CN202311744645 A CN 202311744645A CN 117423388 B CN117423388 B CN 117423388B
- Authority
- CN
- China
- Prior art keywords
- cancer
- sample
- module
- methylation level
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 109
- 230000011987 methylation Effects 0.000 title claims abstract description 100
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 100
- 201000011510 cancer Diseases 0.000 title claims abstract description 98
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 82
- 208000005016 Intestinal Neoplasms Diseases 0.000 claims abstract description 29
- 201000002313 intestinal cancer Diseases 0.000 claims abstract description 29
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims abstract description 28
- 201000007270 liver cancer Diseases 0.000 claims abstract description 28
- 208000014018 liver neoplasm Diseases 0.000 claims abstract description 28
- 201000005202 lung cancer Diseases 0.000 claims abstract description 28
- 208000020816 lung neoplasm Diseases 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 230000007067 DNA methylation Effects 0.000 claims abstract description 22
- 210000004369 blood Anatomy 0.000 claims abstract description 12
- 239000008280 blood Substances 0.000 claims abstract description 12
- 230000002093 peripheral effect Effects 0.000 claims abstract description 11
- 230000036541 health Effects 0.000 claims abstract description 10
- 108090000623 proteins and genes Proteins 0.000 claims description 67
- 108020004414 DNA Proteins 0.000 claims description 44
- 108091029430 CpG site Proteins 0.000 claims description 34
- 238000012216 screening Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 24
- 239000012634 fragment Substances 0.000 claims description 18
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 238000001369 bisulfite sequencing Methods 0.000 claims description 5
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000011282 treatment Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 69
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 18
- 210000001519 tissue Anatomy 0.000 description 16
- 238000000034 method Methods 0.000 description 13
- 238000010276 construction Methods 0.000 description 10
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 10
- 230000035945 sensitivity Effects 0.000 description 8
- 229940104302 cytosine Drugs 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 229940113082 thymine Drugs 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 238000001574 biopsy Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000011528 liquid biopsy Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000007400 DNA extraction Methods 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- XOYCLJDJUKHHHS-LHBOOPKSSA-N (2s,3s,4s,5r,6r)-6-[[(2s,3s,5r)-3-amino-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy]-3,4,5-trihydroxyoxane-2-carboxylic acid Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@H](O2)C(O)=O)O)[C@@H](N)C1 XOYCLJDJUKHHHS-LHBOOPKSSA-N 0.000 description 1
- 102100038369 1-acyl-sn-glycerol-3-phosphate acyltransferase beta Human genes 0.000 description 1
- 102100025007 14-3-3 protein epsilon Human genes 0.000 description 1
- 102100040685 14-3-3 protein zeta/delta Human genes 0.000 description 1
- 102100021908 3-mercaptopyruvate sulfurtransferase Human genes 0.000 description 1
- 102100031012 60S ribosomal protein L36a-like Human genes 0.000 description 1
- 102100028446 ADP-ribosylation factor-like protein 11 Human genes 0.000 description 1
- 102100022734 Acyl carrier protein, mitochondrial Human genes 0.000 description 1
- 102100022089 Acyl-[acyl-carrier-protein] hydrolase Human genes 0.000 description 1
- 102100032872 Adenosine 3'-phospho 5'-phosphosulfate transporter 1 Human genes 0.000 description 1
- 102100030805 Adropin Human genes 0.000 description 1
- 102100026605 Aldehyde dehydrogenase, dimeric NADP-preferring Human genes 0.000 description 1
- 102100024290 BTB/POZ domain-containing protein 6 Human genes 0.000 description 1
- 102100027387 Beta-1,4-galactosyltransferase 5 Human genes 0.000 description 1
- 102100027984 Beta-crystallin B3 Human genes 0.000 description 1
- 102100024504 Bone morphogenetic protein 3 Human genes 0.000 description 1
- 102100036150 C-X-C motif chemokine 5 Human genes 0.000 description 1
- 102100032528 C-type lectin domain family 11 member A Human genes 0.000 description 1
- 102100027206 CD2 antigen cytoplasmic tail-binding protein 2 Human genes 0.000 description 1
- 102100031629 COP9 signalosome complex subunit 1 Human genes 0.000 description 1
- 102100025462 Calpain-12 Human genes 0.000 description 1
- 102100025470 Carcinoembryonic antigen-related cell adhesion molecule 8 Human genes 0.000 description 1
- 201000009030 Carcinoma Diseases 0.000 description 1
- 102100027808 Casein kinase II subunit alpha 3 Human genes 0.000 description 1
- 102000011068 Cdc42 Human genes 0.000 description 1
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 description 1
- 102100031552 Coactosin-like protein Human genes 0.000 description 1
- 102100036952 Cytoplasmic protein NCK2 Human genes 0.000 description 1
- 102100022768 D-beta-hydroxybutyrate dehydrogenase, mitochondrial Human genes 0.000 description 1
- 102100037373 DNA-(apurinic or apyrimidinic site) endonuclease Human genes 0.000 description 1
- 101100107081 Danio rerio zbtb16a gene Proteins 0.000 description 1
- 102100037986 Dickkopf-related protein 4 Human genes 0.000 description 1
- 102100028571 Disabled homolog 2-interacting protein Human genes 0.000 description 1
- 102100032917 E3 SUMO-protein ligase CBX4 Human genes 0.000 description 1
- 102100037334 E3 ubiquitin-protein ligase CHIP Human genes 0.000 description 1
- 102100021838 E3 ubiquitin-protein ligase SIAH1 Human genes 0.000 description 1
- 101150115146 EEF2 gene Proteins 0.000 description 1
- 102100031334 Elongation factor 2 Human genes 0.000 description 1
- 102100029110 Endothelin-2 Human genes 0.000 description 1
- 102100030146 Epithelial membrane protein 3 Human genes 0.000 description 1
- 102000013345 FBXW5 Human genes 0.000 description 1
- 101150101596 FBXW5 gene Proteins 0.000 description 1
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 1
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 1
- 102100035129 Forkhead box protein K2 Human genes 0.000 description 1
- 102100033837 G-protein coupled receptor 135 Human genes 0.000 description 1
- 102100040579 Guanidinoacetate N-methyltransferase Human genes 0.000 description 1
- 102100022664 Guanylate cyclase activator 2B Human genes 0.000 description 1
- 101150006108 HSPB7 gene Proteins 0.000 description 1
- 102100034684 Haloacid dehalogenase-like hydrolase domain-containing protein 3 Human genes 0.000 description 1
- 102100023036 Heat shock protein beta-7 Human genes 0.000 description 1
- 102100027489 Helicase-like transcription factor Human genes 0.000 description 1
- 102100031465 Hepatocyte growth factor activator Human genes 0.000 description 1
- 102100028895 Heterogeneous nuclear ribonucleoprotein M Human genes 0.000 description 1
- 102100033994 Heterogeneous nuclear ribonucleoproteins C1/C2 Human genes 0.000 description 1
- 102100023823 Homeobox protein EMX1 Human genes 0.000 description 1
- 102100030309 Homeobox protein Hox-A1 Human genes 0.000 description 1
- 102100033798 Homeobox protein aristaless-like 4 Human genes 0.000 description 1
- 101000605571 Homo sapiens 1-acyl-sn-glycerol-3-phosphate acyltransferase beta Proteins 0.000 description 1
- 101000760079 Homo sapiens 14-3-3 protein epsilon Proteins 0.000 description 1
- 101000964898 Homo sapiens 14-3-3 protein zeta/delta Proteins 0.000 description 1
- 101000753843 Homo sapiens 3-mercaptopyruvate sulfurtransferase Proteins 0.000 description 1
- 101001127258 Homo sapiens 60S ribosomal protein L36a-like Proteins 0.000 description 1
- 101000769457 Homo sapiens ADP-ribosylation factor-like protein 11 Proteins 0.000 description 1
- 101000678845 Homo sapiens Acyl carrier protein, mitochondrial Proteins 0.000 description 1
- 101000824278 Homo sapiens Acyl-[acyl-carrier-protein] hydrolase Proteins 0.000 description 1
- 101001064128 Homo sapiens Adropin Proteins 0.000 description 1
- 101000717964 Homo sapiens Aldehyde dehydrogenase, dimeric NADP-preferring Proteins 0.000 description 1
- 101000761882 Homo sapiens BTB/POZ domain-containing protein 6 Proteins 0.000 description 1
- 101000937496 Homo sapiens Beta-1,4-galactosyltransferase 5 Proteins 0.000 description 1
- 101000859442 Homo sapiens Beta-crystallin B3 Proteins 0.000 description 1
- 101000762375 Homo sapiens Bone morphogenetic protein 3 Proteins 0.000 description 1
- 101000947186 Homo sapiens C-X-C motif chemokine 5 Proteins 0.000 description 1
- 101000942297 Homo sapiens C-type lectin domain family 11 member A Proteins 0.000 description 1
- 101000914505 Homo sapiens CD2 antigen cytoplasmic tail-binding protein 2 Proteins 0.000 description 1
- 101000940485 Homo sapiens COP9 signalosome complex subunit 1 Proteins 0.000 description 1
- 101000984115 Homo sapiens Calpain-12 Proteins 0.000 description 1
- 101000914320 Homo sapiens Carcinoembryonic antigen-related cell adhesion molecule 8 Proteins 0.000 description 1
- 101000859996 Homo sapiens Casein kinase II subunit alpha 3 Proteins 0.000 description 1
- 101000940352 Homo sapiens Coactosin-like protein Proteins 0.000 description 1
- 101001024712 Homo sapiens Cytoplasmic protein NCK2 Proteins 0.000 description 1
- 101000903373 Homo sapiens D-beta-hydroxybutyrate dehydrogenase, mitochondrial Proteins 0.000 description 1
- 101000806846 Homo sapiens DNA-(apurinic or apyrimidinic site) endonuclease Proteins 0.000 description 1
- 101000951340 Homo sapiens Dickkopf-related protein 4 Proteins 0.000 description 1
- 101000915396 Homo sapiens Disabled homolog 2-interacting protein Proteins 0.000 description 1
- 101000797579 Homo sapiens E3 SUMO-protein ligase CBX4 Proteins 0.000 description 1
- 101000879619 Homo sapiens E3 ubiquitin-protein ligase CHIP Proteins 0.000 description 1
- 101001027791 Homo sapiens E3 ubiquitin-protein ligase MSL2 Proteins 0.000 description 1
- 101000616722 Homo sapiens E3 ubiquitin-protein ligase SIAH1 Proteins 0.000 description 1
- 101000841197 Homo sapiens Endothelin-2 Proteins 0.000 description 1
- 101001011788 Homo sapiens Epithelial membrane protein 3 Proteins 0.000 description 1
- 101001023393 Homo sapiens Forkhead box protein K2 Proteins 0.000 description 1
- 101000996783 Homo sapiens G-protein coupled receptor 135 Proteins 0.000 description 1
- 101000893897 Homo sapiens Guanidinoacetate N-methyltransferase Proteins 0.000 description 1
- 101000899814 Homo sapiens Guanylate cyclase activator 2B Proteins 0.000 description 1
- 101000872853 Homo sapiens Haloacid dehalogenase-like hydrolase domain-containing protein 3 Proteins 0.000 description 1
- 101001081105 Homo sapiens Helicase-like transcription factor Proteins 0.000 description 1
- 101001066338 Homo sapiens Hepatocyte growth factor activator Proteins 0.000 description 1
- 101000839073 Homo sapiens Heterogeneous nuclear ribonucleoprotein M Proteins 0.000 description 1
- 101001017574 Homo sapiens Heterogeneous nuclear ribonucleoproteins C1/C2 Proteins 0.000 description 1
- 101001048956 Homo sapiens Homeobox protein EMX1 Proteins 0.000 description 1
- 101001083156 Homo sapiens Homeobox protein Hox-A1 Proteins 0.000 description 1
- 101000779608 Homo sapiens Homeobox protein aristaless-like 4 Proteins 0.000 description 1
- 101000988649 Homo sapiens Humanin-like 3 Proteins 0.000 description 1
- 101000993380 Homo sapiens Hypermethylated in cancer 1 protein Proteins 0.000 description 1
- 101001050487 Homo sapiens IST1 homolog Proteins 0.000 description 1
- 101001033889 Homo sapiens Inositol 1,4,5-trisphosphate receptor-interacting protein-like 2 Proteins 0.000 description 1
- 101001077600 Homo sapiens Insulin receptor substrate 2 Proteins 0.000 description 1
- 101000693844 Homo sapiens Insulin-like growth factor-binding protein complex acid labile subunit Proteins 0.000 description 1
- 101000994375 Homo sapiens Integrin alpha-4 Proteins 0.000 description 1
- 101001011393 Homo sapiens Interferon regulatory factor 2 Proteins 0.000 description 1
- 101001047051 Homo sapiens Kelch repeat and BTB domain-containing protein 6 Proteins 0.000 description 1
- 101001047041 Homo sapiens Kelch repeat and BTB domain-containing protein 7 Proteins 0.000 description 1
- 101001008917 Homo sapiens Kelch-like protein 9 Proteins 0.000 description 1
- 101001063370 Homo sapiens Legumain Proteins 0.000 description 1
- 101001017833 Homo sapiens Leucine-rich repeat-containing protein 4 Proteins 0.000 description 1
- 101000611240 Homo sapiens Low molecular weight phosphotyrosine protein phosphatase Proteins 0.000 description 1
- 101001128427 Homo sapiens Myeloma-overexpressed gene protein Proteins 0.000 description 1
- 101000958778 Homo sapiens N-alpha-acetyltransferase 60 Proteins 0.000 description 1
- 101000601579 Homo sapiens NADH dehydrogenase [ubiquinone] 1 beta subcomplex subunit 7 Proteins 0.000 description 1
- 101001125322 Homo sapiens Na(+)/H(+) exchange regulatory cofactor NHE-RF2 Proteins 0.000 description 1
- 101000979293 Homo sapiens Negative elongation factor C/D Proteins 0.000 description 1
- 101000624960 Homo sapiens Nesprin-3 Proteins 0.000 description 1
- 101000583239 Homo sapiens Nicotinate-nucleotide pyrophosphorylase [carboxylating] Proteins 0.000 description 1
- 101001064783 Homo sapiens PX domain-containing protein 1 Proteins 0.000 description 1
- 101000759168 Homo sapiens Palmitoyltransferase ZDHHC7 Proteins 0.000 description 1
- 101000981502 Homo sapiens Pantothenate kinase 2, mitochondrial Proteins 0.000 description 1
- 101001130226 Homo sapiens Phosphatidylcholine-sterol acyltransferase Proteins 0.000 description 1
- 101001001531 Homo sapiens Phosphatidylinositol 5-phosphate 4-kinase type-2 alpha Proteins 0.000 description 1
- 101000613347 Homo sapiens Polycomb group RING finger protein 3 Proteins 0.000 description 1
- 101001135344 Homo sapiens Polypyrimidine tract-binding protein 1 Proteins 0.000 description 1
- 101001092941 Homo sapiens Proactivator polypeptide-like 1 Proteins 0.000 description 1
- 101001071363 Homo sapiens Probable G-protein coupled receptor 21 Proteins 0.000 description 1
- 101001033177 Homo sapiens Probable methyltransferase-like protein 23 Proteins 0.000 description 1
- 101000589870 Homo sapiens Prostaglandin reductase 3 Proteins 0.000 description 1
- 101000760626 Homo sapiens Protein ABHD14B Proteins 0.000 description 1
- 101001056567 Homo sapiens Protein Jumonji Proteins 0.000 description 1
- 101000995332 Homo sapiens Protein NDRG4 Proteins 0.000 description 1
- 101001062229 Homo sapiens Protein RD3-like Proteins 0.000 description 1
- 101000582366 Homo sapiens Protein RER1 Proteins 0.000 description 1
- 101000652297 Homo sapiens Protein SNORC Proteins 0.000 description 1
- 101001122747 Homo sapiens Protein phosphatase 1 regulatory subunit 16A Proteins 0.000 description 1
- 101000830691 Homo sapiens Protein tyrosine phosphatase type IVA 2 Proteins 0.000 description 1
- 101000999322 Homo sapiens Putative insulin-like growth factor 2 antisense gene protein Proteins 0.000 description 1
- 101000788242 Homo sapiens Putative trace amine-associated receptor 3 Proteins 0.000 description 1
- 101001079155 Homo sapiens RING finger protein 113B Proteins 0.000 description 1
- 101000734290 Homo sapiens RING finger protein 223 Proteins 0.000 description 1
- 101000743845 Homo sapiens Ras-related protein Rab-10 Proteins 0.000 description 1
- 101000700402 Homo sapiens Regulatory solute carrier protein family 1 member 1 Proteins 0.000 description 1
- 101000889523 Homo sapiens Retina-specific copper amine oxidase Proteins 0.000 description 1
- 101000864786 Homo sapiens Secreted frizzled-related protein 2 Proteins 0.000 description 1
- 101000684730 Homo sapiens Secreted frizzled-related protein 5 Proteins 0.000 description 1
- 101000632056 Homo sapiens Septin-9 Proteins 0.000 description 1
- 101000629622 Homo sapiens Serine-pyruvate aminotransferase Proteins 0.000 description 1
- 101000628693 Homo sapiens Serine/threonine-protein kinase 25 Proteins 0.000 description 1
- 101000806155 Homo sapiens Short-chain dehydrogenase/reductase 3 Proteins 0.000 description 1
- 101000979912 Homo sapiens Sphingomyelin phosphodiesterase 2 Proteins 0.000 description 1
- 101000651197 Homo sapiens Sphingosine kinase 2 Proteins 0.000 description 1
- 101000822546 Homo sapiens Sterile alpha motif domain-containing protein 1 Proteins 0.000 description 1
- 101000664934 Homo sapiens Synaptogyrin-2 Proteins 0.000 description 1
- 101000706156 Homo sapiens Syntaxin-11 Proteins 0.000 description 1
- 101000612875 Homo sapiens Testis-specific Y-encoded-like protein 1 Proteins 0.000 description 1
- 101000794197 Homo sapiens Testis-specific serine/threonine-protein kinase 3 Proteins 0.000 description 1
- 101000788257 Homo sapiens Trace amine-associated receptor 5 Proteins 0.000 description 1
- 101000837849 Homo sapiens Trans-Golgi network integral membrane protein 2 Proteins 0.000 description 1
- 101000879604 Homo sapiens Transcription factor E4F1 Proteins 0.000 description 1
- 101000813738 Homo sapiens Transcription factor ETV6 Proteins 0.000 description 1
- 101000946163 Homo sapiens Transcription factor LBX2 Proteins 0.000 description 1
- 101001004913 Homo sapiens Transforming growth factor beta activator LRRC33 Proteins 0.000 description 1
- 101000807524 Homo sapiens Ubiquitin carboxyl-terminal hydrolase 22 Proteins 0.000 description 1
- 101001057508 Homo sapiens Ubiquitin-like protein ISG15 Proteins 0.000 description 1
- 101000942334 Homo sapiens Uncharacterized protein C11orf86 Proteins 0.000 description 1
- 101000991938 Homo sapiens Uridine diphosphate glucose pyrophosphatase NUDT14 Proteins 0.000 description 1
- 101001105816 Homo sapiens Vitamin K-dependent protein Z Proteins 0.000 description 1
- 101100377226 Homo sapiens ZBTB16 gene Proteins 0.000 description 1
- 101000723833 Homo sapiens Zinc finger E-box-binding homeobox 2 Proteins 0.000 description 1
- 101000964421 Homo sapiens Zinc finger and BTB domain-containing protein 12 Proteins 0.000 description 1
- 101000785678 Homo sapiens Zinc finger protein 516 Proteins 0.000 description 1
- 101000802395 Homo sapiens Zinc finger protein 764 Proteins 0.000 description 1
- 102100029072 Humanin-like 3 Human genes 0.000 description 1
- 102100031612 Hypermethylated in cancer 1 protein Human genes 0.000 description 1
- 102100023423 IST1 homolog Human genes 0.000 description 1
- 102100039741 Inositol 1,4,5-trisphosphate receptor-interacting protein-like 2 Human genes 0.000 description 1
- 102100025092 Insulin receptor substrate 2 Human genes 0.000 description 1
- 102100025515 Insulin-like growth factor-binding protein complex acid labile subunit Human genes 0.000 description 1
- 102100032818 Integrin alpha-4 Human genes 0.000 description 1
- 102100029838 Interferon regulatory factor 2 Human genes 0.000 description 1
- 102100022829 Kelch repeat and BTB domain-containing protein 6 Human genes 0.000 description 1
- 102100022835 Kelch repeat and BTB domain-containing protein 7 Human genes 0.000 description 1
- 102100027614 Kelch-like protein 9 Human genes 0.000 description 1
- 102100030985 Legumain Human genes 0.000 description 1
- 102100033304 Leucine-rich repeat-containing protein 4 Human genes 0.000 description 1
- 102000002391 MSL2 Human genes 0.000 description 1
- 102100036314 Mitochondrial cardiolipin hydrolase Human genes 0.000 description 1
- 101710168999 Mitochondrial cardiolipin hydrolase Proteins 0.000 description 1
- ZOKXTWBITQBERF-UHFFFAOYSA-N Molybdenum Chemical compound [Mo] ZOKXTWBITQBERF-UHFFFAOYSA-N 0.000 description 1
- 102100031791 Myeloma-overexpressed gene protein Human genes 0.000 description 1
- 102100038334 N-alpha-acetyltransferase 60 Human genes 0.000 description 1
- 102100037520 NADH dehydrogenase [ubiquinone] 1 beta subcomplex subunit 7 Human genes 0.000 description 1
- 102100029448 Na(+)/H(+) exchange regulatory cofactor NHE-RF2 Human genes 0.000 description 1
- 102100023069 Negative elongation factor C/D Human genes 0.000 description 1
- 102100023307 Nesprin-3 Human genes 0.000 description 1
- 102100030830 Nicotinate-nucleotide pyrophosphorylase [carboxylating] Human genes 0.000 description 1
- 102100031888 PX domain-containing protein 1 Human genes 0.000 description 1
- 102100023402 Palmitoyltransferase ZDHHC7 Human genes 0.000 description 1
- 102100024127 Pantothenate kinase 2, mitochondrial Human genes 0.000 description 1
- 102100031538 Phosphatidylcholine-sterol acyltransferase Human genes 0.000 description 1
- 102100036146 Phosphatidylinositol 5-phosphate 4-kinase type-2 alpha Human genes 0.000 description 1
- 102100040920 Polycomb group RING finger protein 3 Human genes 0.000 description 1
- 102100033073 Polypyrimidine tract-binding protein 1 Human genes 0.000 description 1
- 102100036198 Proactivator polypeptide-like 1 Human genes 0.000 description 1
- 102100036934 Probable G-protein coupled receptor 21 Human genes 0.000 description 1
- 102100038289 Probable methyltransferase-like protein 23 Human genes 0.000 description 1
- 108700003766 Promyelocytic Leukemia Zinc Finger Proteins 0.000 description 1
- 102100032255 Prostaglandin reductase 3 Human genes 0.000 description 1
- 102100024647 Protein ABHD14B Human genes 0.000 description 1
- 102100025733 Protein Jumonji Human genes 0.000 description 1
- 102100034432 Protein NDRG4 Human genes 0.000 description 1
- 102100029280 Protein RD3-like Human genes 0.000 description 1
- 102100030594 Protein RER1 Human genes 0.000 description 1
- 102100030546 Protein SNORC Human genes 0.000 description 1
- 102100028722 Protein phosphatase 1 regulatory subunit 16A Human genes 0.000 description 1
- 102100024602 Protein tyrosine phosphatase type IVA 2 Human genes 0.000 description 1
- 102100036485 Putative insulin-like growth factor 2 antisense gene protein Human genes 0.000 description 1
- 102100025206 Putative trace amine-associated receptor 3 Human genes 0.000 description 1
- 102100028136 RING finger protein 113B Human genes 0.000 description 1
- 102100034811 RING finger protein 223 Human genes 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 102000020171 Rab20 Human genes 0.000 description 1
- 108050007545 Rab20 Proteins 0.000 description 1
- 102100022122 Ras-related C3 botulinum toxin substrate 1 Human genes 0.000 description 1
- 102100039103 Ras-related protein Rab-10 Human genes 0.000 description 1
- 102100028191 Ras-related protein Rab-1A Human genes 0.000 description 1
- 102100029521 Regulatory solute carrier protein family 1 member 1 Human genes 0.000 description 1
- 102100039141 Retina-specific copper amine oxidase Human genes 0.000 description 1
- 108091006597 SLC15A4 Proteins 0.000 description 1
- 108091006484 SLC25A47 Proteins 0.000 description 1
- 108091006950 SLC35B2 Proteins 0.000 description 1
- 102100030054 Secreted frizzled-related protein 2 Human genes 0.000 description 1
- 102100023744 Secreted frizzled-related protein 5 Human genes 0.000 description 1
- 102100028024 Septin-9 Human genes 0.000 description 1
- 102100026842 Serine-pyruvate aminotransferase Human genes 0.000 description 1
- 102100026737 Serine/threonine-protein kinase 25 Human genes 0.000 description 1
- 102100037857 Short-chain dehydrogenase/reductase 3 Human genes 0.000 description 1
- 102100021484 Solute carrier family 15 member 4 Human genes 0.000 description 1
- 102100032112 Solute carrier family 25 member 47 Human genes 0.000 description 1
- 102100024550 Sphingomyelin phosphodiesterase 2 Human genes 0.000 description 1
- 102100027662 Sphingosine kinase 2 Human genes 0.000 description 1
- 102100022458 Sterile alpha motif domain-containing protein 1 Human genes 0.000 description 1
- 102100038649 Synaptogyrin-2 Human genes 0.000 description 1
- 102100031115 Syntaxin-11 Human genes 0.000 description 1
- 102100040953 Testis-specific Y-encoded-like protein 1 Human genes 0.000 description 1
- 102100030168 Testis-specific serine/threonine-protein kinase 3 Human genes 0.000 description 1
- 102100025204 Trace amine-associated receptor 5 Human genes 0.000 description 1
- 102100028621 Trans-Golgi network integral membrane protein 2 Human genes 0.000 description 1
- 102100037331 Transcription factor E4F1 Human genes 0.000 description 1
- 102100039580 Transcription factor ETV6 Human genes 0.000 description 1
- 102100034737 Transcription factor LBX2 Human genes 0.000 description 1
- 102100025954 Transforming growth factor beta activator LRRC33 Human genes 0.000 description 1
- 102100040255 Tubulin-specific chaperone C Human genes 0.000 description 1
- 102100037184 Ubiquitin carboxyl-terminal hydrolase 22 Human genes 0.000 description 1
- 102100027266 Ubiquitin-like protein ISG15 Human genes 0.000 description 1
- 102100032541 Uncharacterized protein C11orf86 Human genes 0.000 description 1
- 102100030663 Uridine diphosphate glucose pyrophosphatase NUDT14 Human genes 0.000 description 1
- 102100021208 Vitamin K-dependent protein Z Human genes 0.000 description 1
- 102100028458 Zinc finger E-box-binding homeobox 2 Human genes 0.000 description 1
- 102100040328 Zinc finger and BTB domain-containing protein 12 Human genes 0.000 description 1
- 102100040314 Zinc finger and BTB domain-containing protein 16 Human genes 0.000 description 1
- 102100026527 Zinc finger protein 516 Human genes 0.000 description 1
- 102100034973 Zinc finger protein 764 Human genes 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 108010051348 cdc42 GTP-Binding Protein Proteins 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 210000001808 exosome Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 238000012164 methylation sequencing Methods 0.000 description 1
- 239000003068 molecular probe Substances 0.000 description 1
- 229910052750 molybdenum Inorganic materials 0.000 description 1
- 239000011733 molybdenum Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 108010054067 rab1 GTP-Binding Proteins Proteins 0.000 description 1
- 108010062302 rac1 GTP Binding Protein Proteins 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 108010093459 tubulin-specific chaperone C Proteins 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/15—Devices for taking samples of blood
- A61B5/153—Devices specially adapted for taking samples of venous or arterial blood, e.g. with syringes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/15—Devices for taking samples of blood
- A61B5/157—Devices characterised by integrated means for measuring characteristics of blood
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Organic Chemistry (AREA)
- Veterinary Medicine (AREA)
- Bioethics (AREA)
- Zoology (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Wood Science & Technology (AREA)
- Hematology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Immunology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Hospice & Palliative Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oncology (AREA)
- Software Systems (AREA)
- Microbiology (AREA)
- Artificial Intelligence (AREA)
Abstract
本发明提供了一种基于甲基化水平的多癌种检测系统及电子设备,属于医疗检测领域,系统包括:样本采集模块,用于采集待测目标的外周静脉血,得到待测样本;甲基化水平提取模块,与样本采集模块连接,用于提取待测样本的循环游离DNA甲基化水平;预测模块,与甲基化水平提取模块连接,用于根据待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定待测样本的类型;类型为肺癌、肝癌、肠癌或健康;多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。本发明实现了多个癌种(肺癌、肠癌、肝癌)的精准检测。
Description
技术领域
本发明涉及医疗检测领域,特别是涉及一种基于甲基化水平的多癌种检测系统及电子设备。
背景技术
通常,恶性肿瘤从超早期阶段的分子癌变到中晚期阶段的组织癌变,历时超过10年。在这期间,恶性肿瘤从单个细胞生长到近百万的癌变组织,会经过三个阶段。如果能够在长达10年的最佳预防时期,和长达3年的最佳治疗时期介入,无疑会极大提高肿瘤全流程的诊疗效率。但是由于肿瘤含量非常少,很难通过传统的标记物和影像学检出方法检出,液体活检在基因层面对癌症进行筛查,因此可以检测到早期和超早期的变化。
液体活检技术通过血液、唾液、尿液等体液样本对肿瘤信号进行循环肿瘤细胞(circulating tumor cell,CTC)、循环游离DNA(circulating cell-free DNA,cfDNA)、外泌体和微小核糖核酸检测分析,其他前两种研究比较成熟,但是循环肿瘤细胞的量非常少,临床上通常检测循环游离DNA。循环游离DNA中包含点突变、结构变异、拷贝数变异等基因组变异和DNA甲基化,两者相比甲基化具有绝对优势:首先,基因组变异检测方法的极限在0.1%-0.5%质检,而早期患者的cfDNA浓度一般在0.008%左右,两者存在数量级上的差异,因此通过基因组变异检测的方法灵敏性有限;其次,DNA甲基化发生在肿瘤早期具有组织特异性;再者,体细胞变异通常局限于肿瘤组织亚群,而DNA甲基化在更大的基因组区域内是一致的,更广泛的存在于相同类型的肿瘤中,其结果更稳定。因此,DNA甲基化数据在多个癌种早期筛查方面具有极大的潜在价值,与传统方法相比具有无创、实时动态监测、克服肿瘤异质性、可重复采样、便于连续取样、一次性可检测多种癌型等优点,不同人群中筛查的准确率也有了明显的提升,可辅助临床肿瘤的早期筛查与诊断。
目前临床上传统的检测方法有影像学、血清学、组织活检等方法。影像学筛查方法主要基于CT、B超、钼靶、胃肠镜等影像学仪器进行检测,其检出时间的下限为已经产生一定大小的病变肿瘤组织,其检测的准确性和特异性均较好,可作为诊断的金标准,但是胃镜、肠镜给患者带来极大的痛苦,不适合大范围筛查。组织活检主要针对实体瘤,常规检查的样本来源于肿瘤组织,但是由于异质性,组织活检存在很多局限性。血清学主要是基于AFP、CEA等多种血清标志物,但血清标志物假阳性高,检测效率低。虽然基于液体活检的早筛技术已经取得了很大的进步,但是目前只有肠癌产品已上市,广泛应用于临床检测中,其余癌型产品还处于研发阶段,急需一种取样简单、无创、一次性可以覆盖多种癌型(肺癌、肠癌、肝癌)的早筛产品。
发明内容
本发明的目的是提供一种基于甲基化水平的多癌种检测系统及电子设备,可实现多个癌种的高精度检测。
为实现上述目的,本发明提供了一种基于甲基化水平的多癌种检测系统,包括以下模块。
样本采集模块,用于采集待测目标的外周静脉血,得到待测样本。
甲基化水平提取模块,与所述样本采集模块连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平。
预测模块,与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
为实现上述目的,本发明还提供了一种电子设备,包括存储器及处理器。
所述存储器用于存储多癌种检测模型;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
所述处理器与所述处理器连接,所述处理器中包括样本采集模块、甲基化水平提取模块及预测模块。
所述样本采集模块用于采集待测目标的外周静脉血,得到待测样本。
所述甲基化水平提取模块分别与所述样本采集模块及所述存储器连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平。
所述预测模块与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提取待测样本的循环游离DNA甲基化水平,根据待测样本的循环游离DNA甲基化水平,采用预先训练好的多癌种检测模型确定待测样本的类型(肺癌、肝癌、肠癌或健康),其中,多癌种检测模型基于XGBoost构建,能够同时检测多个癌种(肺癌、肠癌、肝癌),并提高了检测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于甲基化水平的多癌种检测系统的示意图。
图2为多癌种检测模型构建的总体流程图。
图3为读段及CpG位点的示意图。
图4为差异甲基化基因筛选的示意图。
图5为多癌种检测模型构建过程的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于甲基化水平的多癌种检测系统及电子设备,对cfDNA进行全基因组甲基化测序,使用高通量测序数据分析各个癌种的甲基化水平,基于集成学习极端梯度提升树(XGBoost)算法进行模型训练、优化和测试,实现高精度多个癌种(肺癌、肠癌、肝癌)的早期筛查和高准确性组织溯源的检测。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的基于甲基化水平的多癌种检测系统包括:样本采集模块1、甲基化水平提取模块2及预测模块3。
其中,样本采集模块1用于采集待测目标的外周静脉血,得到待测样本。
甲基化水平提取模块2与所述样本采集模块1连接,甲基化水平提取模块2用于提取所述待测样本的循环游离DNA甲基化水平。所述循环游离DNA甲基化水平包括多个基因的甲基化水平。
具体地,所述甲基化水平提取模块2包括:片段提取子模块、测序子模块、比对子模块、甲基化水平确定子模块。
片段提取子模块用于提取所述待测样本的循环游离DNA片段。
转化子模块与所述片段提取子模块连接,转化子模块用于对所述循环游离DNA片段进行重亚硫酸盐转化理,并扩增得到DNA文库。
测序子模块与所述转化子模块连接,测序子模块用于对所述DNA文库进行测序,得到所述待测样本的fastq文件。所述fastq文件中包括每个基因的多个读段,每个读段上有多个CpG位点,多个CpG位点分为甲基化CpG位点及未甲基化CpG位点。
比对子模块与所述测序子模块连接,比对子模块用于将所述待测样本的fastq文件中的读段比对到参考基因组上,确定每条片段的位置,得到所述待测样本的bam文件。
甲基化水平确定子模块与所述比对子模块连接,甲基化水平确定子模块用于针对任一基因,根据所述bam文件,确定所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,并根据所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,确定所述基因的甲基化水平。
其中,未甲基化CpG位点为未转化为胸腺嘧啶的胞嘧啶的CpG位点,甲基化CpG位点为转化为胸腺嘧啶的胞嘧啶的CpG位点。
预测模块3与所述甲基化水平提取模块2连接,预测模块3用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型。所述类型为肺癌、肝癌、肠癌或健康。
所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的。所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
进一步地,在多癌种检测模型构建方面,所述基于甲基化水平的多癌种检测系统还包括:内部数据集获取模块、公共数据集获取模块、差异分析模块及筛选模块。
其中,内部数据集获取模块用于采集肺癌患者、肠癌患者、肝癌患者及健康人员的外周静脉血,得到多个训练样本,并提取各训练样本的循环游离DNA甲基化水平,得到内部数据集。
具体地,如图2所示,内部数据集获取的过程包括获取原始数据、数据质控及过滤、序列比对、甲基化水平计算及过滤、基因甲基化水平计算。
(1)获取原始数据。包括对样本进行DNA提取、样本检测、文库构建、文库质检、上机测序等操作,具体如下。
DNA提取:采集肺癌、肠癌、肝癌患者及健康人的外周静脉血,在采集后6h内,13000×g离心10min后取上层血清,上清液16000×g离心10min,舍去沉淀物。置于-80℃冰箱保存备用。采用TIANamp Micro DNA Kit试剂盒提取血浆cfDNA,严格按照说明书步骤进行。
样本检测:使用Qubit double-strand molecular probes kit估计DNA片段降解水平。通过3%琼脂糖凝胶电泳判断DNA降解情况,若DNA降解严重可能会影响后续的检测结果,通过电泳的条带推断cfDNA片段的长度,如果片段长度在170bp左右证明DNA质量比较好,保留此样本,进行后续操作,否则结束实验。
文库构建:进行DNA片段末端修复、DNA片段的3'端添加碱基A,并进行甲基化接头连接。然后使用EZ DNA Methylation-gold kitDNA甲基化试剂盒对cfDNA进行重亚硫酸盐处理,得到全基因组重亚硫酸盐测序文库。使用PCR扩增全基因组重亚硫酸盐测序文库中的DNA的量,得到DNA文库。
文库质检:得到DNA文库后,先使用Qubit进行定量分析,随后使用Agilent 2100对DNA文库的insert size进行检测,库检合格后,使用qPCR方法对DNA文库的有效浓度进行准确定量,以保证DNA文库的质量。
上机测序:使用Illumina Nextseq 550 System测序仪进行测序。获得各样本的fastq文件。
(2)数据质控及过滤:对原始下机数据fastq格式文件进行质控,包含去除建库时引进的接头序列以及质量低于15的碱基。这些因素会导致后续比对到参考基因组上的读段(reads)较少,或影响后续结果准确性。使用fastp软件对结果进行去除接头序列和低质量碱基等质控步骤,得到过滤后的fastq格式文件。
(3)序列比对:经过质控的读段需要根据与参考基因组的序列相似性比对到参考基因组上,确定每条片段的位置。使用Bismark软件进行序列比对,得到reads的比对后的bam文件。
(4)甲基化水平计算及过滤:经重亚硫酸盐转化,未甲基化的胞嘧啶(C)被转化成尿嘧啶(U),甲基化的胞嘧啶保持不变。再经过碱基互补,序列中未甲基化的胞嘧啶的碱基类型仍然是C,甲基化的胞嘧啶的碱基类型变为胸腺嘧啶(T)。每个CpG位点的甲基化水平可根据bam文件中未转化为胸腺嘧啶的胞嘧啶与转化为胸腺嘧啶的胞嘧啶的reads的比例计算得到,并过滤掉低深度位点。
即:;其中C-reads为未转化为胸腺嘧啶的胞嘧啶的reads数量,T-reads为转化为胸腺嘧啶的胞嘧啶的reads数量。
过滤掉低深度位点:使用脚本统计序列上每个位点所在滑窗内(120bp)的胞嘧啶(C)和鸟嘌呤(G)含量,当CpG位点的个数小于5时,过滤掉该低深度位点。
如图3所示,基因组上包含第一CpG位点C1和第二CpG位点C2,每条横线代表一条reads,白色圆代表未甲基化的CpG位点,黑色圆代表甲基化的CpG位点,CpG位点的甲基化水平根据reads上覆盖的甲基化CpG位点和未甲基化CpG位点的比例确定。图3中,第一CpG位点C1的甲基化水平为,第二CpG位点C2的甲基化水平为。
(5)基因甲基化水平计算:每个基因包含多个CpG位点,将包含的所有CpG位点的甲基化水平均值作为此基因的甲基化水平。
公共数据集获取模块用于从基因表达综合(Gene Expression Omnibus database,GEO)数据库中下载肺癌、肠癌、肝癌及健康的循环游离DNA全基因组重亚硫酸盐测序数据,得到多个训练样本,并确定各训练样本的循环游离DNA甲基化水平,得到公共数据集。其中,按照与内部数据相同的处理方式计算每个位点的甲基化水平、过滤低深度位点、计算基因的甲基化水平。
所述内部数据集及所述公共数据集中均包括各训练样本的全基因甲基化水平及各训练样本的类型。
差异分析模块与所述公共数据集获取模块连接,差异分析模块用于对所述公共数据集中的阳性样本与阴性样本所共有的基因的甲基化水平进行差异分析,得到差异基因列表。所述阳性样本为类型为肺癌、肠癌或肝癌的训练样本。所述阴性样本为类型为健康的训练样本。
全基因甲基化数据中包含1万多个基因的甲基化水平,其中大部分基因的甲基化水平在不同癌型和健康样本中无显著差异,所以需要进行特征选择,挑选出在不同类型样本中显著差异的基因的数据用于模型构建,避免无关基因对多癌种筛查造成的负面影响或特征维度太高在模型构建时产生的维度灾难。
具体地,如图4所示,使用公共数据集中的阳性样本(肺癌、肠癌、肝癌)和阴性样本(健康)所共有的所有基因的甲基化水平进行差异分析,使用R语言的limma包,选择foldchange>=2,P值<=0.05的基因作为差异甲基化基因,分三组进行筛选。
(1)单一癌种与健康个体进行差异分析,癌种特有的基因。
(2)单一癌种和其他癌种数据进行差异分析,癌种特有的基因。
(3)单一癌种和其他单一癌种进行差异分析,癌种特有的基因。
合并三组差异基因去重后作为最终的差异基因列表,如表1。
表1 最终的差异基因列表
ABHD14B | EMX1 | LOC100335030 | RNF113B |
ACP1 | ENHO | LOC100505795 | RNF223 |
AGPAT2 | ETV6 | LOC100507577 | RPL36AL |
AGXT | FASN | LOC283070 | RSC1A1 |
AK055957 | FBXW5 | LOC619207 | SAMD1 |
ALDH1L1-AS1 | FGFR3 | LOC645434 | SEPT5-GP1BB |
ALDH3A1 | FLJ45513 | LOC728819 | SEPT9 |
ALX4 | FOXK2 | LPP-AS2 | SFRP2 |
AOC2 | GAMT | LRRC33 | SFRP5 |
APC | GPR135 | LRRC4 | SIAH1 |
APEX1 | GPR21 | METTL23 | SLC15A4 |
ARL11 | GPS1 | MGC16025 | SLC25A47 |
B4GALT5 | GUCA2B | MLH1 | SLC35B2 |
BDH1 | HDHD3 | MPST | SLC6A1-AS1 |
BMP3 | HGFAC | MSL2 | SLC9A3R2 |
BTBD6 | HIC1 | MTRNR2L3 | SMPD2 |
C11orf86 | HLTF | MYEOV | SPHK2 |
C2orf82 | HNRNPC | NAA60 | STK25 |
CA9 | HNRNPM | NCK2 | STUB1 |
CAPN12 | HOXA1 | NDRG4 | STX11 |
CBX4 | HSPB7 | NDUFB7 | SYNGR2 |
CD2BP2 | IGF2-AS | NELFCD | TAAR3 |
CDC42 | IGFALS | NUDT14 | TAAR5 |
CEACAM8 | ILK | PANK2 | TBCC |
CEL | IRF2 | PCGF3 | TGOLN2 |
CLEC11A | IRS2 | PIP4K2A | TSPYL1 |
COL18A1-AS2 | ISG15 | PLD6 | TSSK3 |
COTL1 | IST1 | PPP1R16A | USP22 |
CRYBB3 | ITGA4 | PROZ | YWHAE |
CSNK2A3 | ITPRIPL2 | PSAPL1 | YWHAZ |
CXCL5 | JARID2 | PTBP1 | ZADH2 |
DAB2IP | KBTBD6 | PTP4A2 | ZBTB12 |
DHRS3 | KBTBD7 | PXDC1 | ZBTB16 |
DKK4 | KLHL9 | QPRT | ZDHHC7 |
DOC2GP | LBX2 | RAB10 | ZEB2 |
E4F1 | LCAT | RAB1A | ZNF516 |
EDN2 | LGMN | RAB20 | ZNF764 |
EEF2 | LINC00319 | RAC1 | ZSWIM8-AS1 |
EGOT | LINC00341 | RD3L | |
EMP3 | LINC00656 | RER1 |
作为一种具体的实施方式,通过阳性样本(肺癌331例患者、肠癌444例患者、肝癌767例患者)和阴性样本(健康949例样本)进行差异分析,分三组进行筛选。
(1)单一癌种与健康个体进行差异分析,得到55个癌种特有的基因。
(2)单一癌种和其他癌种数据进行差异分析,得到43个癌种特有的基因。
(3)单一癌种和其他单一癌种进行差异分析,得到68个癌种特有的基因。
合并三组差异基因去重后共158个作为最终差异基因列表。
筛选模块与所述差异分析模块连接,筛选模块用于根据所述差异基因列表,对所述内部数据集及所述公共数据集进行筛选,得到训练样本集。
具体地,根据差异基因列表从内部数据集和公共数据集中提取出公共数据子集和内部数据子集作为训练样本集。其中,公共数据子集按照7:3分为训练集和验证集,内部数据子集作为独立测试集,每个数据集中均包含阳性样本(肺癌、肠癌、肝癌)和阴性样本(健康)。
作为一种具体的实施方式,如图5所示,公共数据子集中包括2491例样本。训练集中包括1744例样本,肺癌232例,肠癌311例,肝癌537例,健康664例。验证集中包括747例样本,肺癌99例,肠癌133例,肝癌230例,健康285例。内部数据子集中包括491例样本,肺癌65例,肠癌78例,肝癌135例,健康213例。
训练模块与所述筛选模块连接,训练模块用于采用所述训练样本集,对XGBoost的参数进行优化,以得到多癌种检测模型。
为建立多癌种检测模型,本发明使用Python3的sklearn包,根据训练集和验证集进行模型构建和参数优化。具体地,所述XGBoost的参数包括通用参数、提升参数和学习任务参数。所述训练模块包括:学习任务参数设置子模块、提升参数设置子模块及通用参数调优子模块。学习任务参数设置子模块用于根据学习目标设置学习任务参数。提升参数设置子模块用于根据计算资源设置并行处理任务数量。通用参数调优子模块用于根据所述训练样本集,对通用参数进行调优,以得到多癌种检测模型。
本实施例中,通用参数包括:学习率、最大深度、树的棵树、结点分类阈值、样本采样比例、构造每棵树时列的子采样率及正则化参数。所述通用参数调优子模块采用网格搜索方式对通用参数进行调优。
极端梯度提升树(XGBoost)是一种集成学习的模型,其核心思想为:不断进行特征分类,生长一棵树,每次添加一颗新树,本质上是学习一个新的函数f(x)去拟合上次预测的残差。当训练完得到k颗树后,将待测样本的特征输入模型中,在每棵树上寻找对应的一个叶子结点,每个叶子结点对应一个分数;最后将每棵树对应的分数求和,得到该待测样本的预测值。目前XGBoost模型封装在python3的xgboost模块中。
模型构建的具体步骤为:首先,根据学习目标为多癌种早期筛查将模型的学习任务参数设为多分类参数(objective=’multi:softmax’,eval_metric=’error’,seed=27)。然后,根据计算资源将并行处理任务数设为3(nthread=3)。最后,输入训练集数据特征和对应的类别标签,进行模型构建,得到初始的多癌种检测模型。
XGBoost模型包含很多通用参数,合理的参数设置可以得到最优的预测效果,本发明采用网格搜索的方式进行模型参数优化,挑选验证集中敏感性+特异性值最高的参数作为多癌种检测的最优模型。模型参数优化的步骤如下。
(1)设置学习率etc。其取值范围为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],etc=0.5时,模型性能最优。
(2)进行最大深度max_depth和树的棵树n_estinators调优。max_depth的取值范围为[1,2,3,4,5,6,7,8,9,10],n_estinators的取值范围为[1,6,11,16,21,26,31,36,41,46,51]。当max_depth=3和n_estinators=11时,模型性能最优。
(3)结点分类阈值gamma调优,gamma的取值范围为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]。当gamma=0.1时,模型性能最优。
(4)对样本采样比例Subsample和构造每棵树时列的子采样率colsample_bytree进行调优,Subsample和colsample_bytree的取值范围均为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],当Subsample=0.8,colsample_bytree=0.7时,模型性能最优。
(5)对正则化参数reg_lambda和reg_alpha进行调优,取值范围均为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1],当reg_lambda=1,reg_alpha=0.6时,模型性能最优。
本实施例中,最终的模型参数为:n_estinators=11,max_depth=3,gamma=0.1,Subsample=0.8,colsample_bytree=0.7,reg_lambda=1,reg_alpha=0.6,eta=0.5。
本发明使用测试集,通过灵敏性、特异性、组织溯源准确性作为性能评价核心参数,评估多癌种检测模型的性能。灵敏性指所有实际患癌人群中检测出阳性的比例,代表多癌种检测模型对患者的检出能力水平。特异性指在所有实际未患癌的人群中检出阴性的比例,代表多癌种检测模型对健康人群的排除水平。两个参数从技术层面上体现了多癌种检测模型对受检群体的分辨能力,计算方法如表2。
表2 性能指标
灵敏性=真阳性人群/实际患癌人群=TP/A。
特异性=真阴性人群/实际未患癌人群=TN/B。
组织溯源准确性=(真阳性人群+真阴性人群)/总人数=(TP+TN)/N。
本发明建立的多癌种检测模型在训练集、验证集上的敏感性可达到95%以上,特异性可达到96%以上,组织溯源准确性可达到93%以上,测试集的敏感性可达到94%,特异性可达到93%,组织溯源准确性可达到93%以上,未出现不同集合间差异太大的问题,具体结果如表3至表8所示。
表3 训练集预测结果
表4 验证集预测结果
表5 训练集组织溯源结果
表6 验证集组织溯源结果
表7 测试集预测结果
表8 测试集组织溯源结果
本发明使用公共数据集和自建队列进行差异甲基化基因筛选,基于差异甲基化基因的cfDNA甲基化水平通过集成学习进行多个癌种的检测,多癌种检测模型可通过一次检查,进行三种最常见癌种的早期筛查和组织溯源,无创且检测敏感性、特异性、组织溯源准确性高。
此外,本发明还提供了一种电子设备,包括存储器及处理器。
所述存储器用于存储多癌种检测模型。所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的。所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
所述处理器与所述处理器连接,所述处理器中包括样本采集模块1、甲基化水平提取模块2及预测模块3。
所述样本采集模块1用于采集待测目标的外周静脉血,得到待测样本。
所述甲基化水平提取模块2分别与所述样本采集模块1及所述存储器连接,用于提取所述待测样本的循环游离DNA甲基化水平。
所述预测模块3与所述甲基化水平提取模块2连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于甲基化水平的多癌种检测系统,其特征在于,所述基于甲基化水平的多癌种检测系统包括:
样本采集模块,用于采集待测目标的外周静脉血,得到待测样本;
甲基化水平提取模块,与所述样本采集模块连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平;
内部数据集获取模块,用于采集肺癌患者、肠癌患者、肝癌患者及健康人员的外周静脉血,得到多个训练样本,并提取各训练样本的循环游离DNA甲基化水平,得到内部数据集;
公共数据集获取模块,用于从基因表达综合数据库中下载肺癌、肠癌、肝癌及健康的循环游离DNA全基因组重亚硫酸盐测序数据,得到多个训练样本,并确定各训练样本的循环游离DNA甲基化水平,得到公共数据集;所述内部数据集及所述公共数据集中均包括各训练样本的全基因甲基化水平及各训练样本的类型;
差异分析模块,与所述公共数据集获取模块连接,用于对所述公共数据集中的阳性样本与阴性样本所共有的基因的甲基化水平进行差异分析,使用R语言的limma包,选择foldchange>=2,P值<=0.05的基因作为差异甲基化基因,分三组进行筛选:单一癌种与健康个体进行差异分析,癌种特有的基因;单一癌种和其他癌种数据进行差异分析,癌种特有的基因;单一癌种和其他单一癌种进行差异分析,癌种特有的基因;合并三组差异基因去重后作为最终的差异基因列表;所述阳性样本为类型为肺癌、肠癌或肝癌的训练样本;所述阴性样本为类型为健康的训练样本;
筛选模块,与所述差异分析模块连接,用于根据所述差异基因列表,对所述内部数据集及所述公共数据集进行筛选,得到训练样本集;
训练模块,与所述筛选模块连接,用于采用所述训练样本集,对XGBoost的参数进行优化,以得到多癌种检测模型;
预测模块,与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型。
2.根据权利要求1所述的基于甲基化水平的多癌种检测系统,其特征在于,所述甲基化水平提取模块包括:
片段提取子模块,用于提取所述待测样本的循环游离DNA片段;
转化子模块,与所述片段提取子模块连接,用于对所述循环游离DNA片段进行重亚硫酸盐转化理,并扩增得到DNA文库;
测序子模块,与所述转化子模块连接,用于对所述DNA文库进行测序,得到所述待测样本的fastq文件;所述fastq文件中包括每个基因的多个读段,每个读段上有多个CpG位点,多个CpG位点分为甲基化CpG位点及未甲基化CpG位点;
比对子模块,与所述测序子模块连接,用于将所述待测样本的的fastq文件中的读段比对到参考基因组上,确定每条片段的位置,得到所述待测样本的bam文件;
甲基化水平确定子模块,与所述比对子模块连接,用于针对任一基因,根据所述bam文件,确定所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,并根据所述基因的甲基化CpG位点的读段数量以及未甲基化CpG位点的读段数量,确定所述基因的甲基化水平。
3.根据权利要求1所述的基于甲基化水平的多癌种检测系统,其特征在于,所述XGBoost的参数包括通用参数、提升参数和学习任务参数;
所述训练模块包括:
学习任务参数设置子模块,用于根据学习目标设置学习任务参数;
提升参数设置子模块,用于根据计算资源设置并行处理任务数量;
通用参数调优子模块,用于根据所述训练样本集,对通用参数进行调优,以得到多癌种检测模型。
4.根据权利要求3所述的基于甲基化水平的多癌种检测系统,其特征在于,所述通用参数包括:学习率、最大深度、树的棵树、结点分类阈值、样本采样比例、构造每棵树时列的子采样率及正则化参数。
5.根据权利要求3所述的基于甲基化水平的多癌种检测系统,其特征在于,所述通用参数调优子模块采用网格搜索方式对通用参数进行调优。
6.一种电子设备,其特征在于,所述电子设备包括存储器及处理器;
所述存储器用于存储多癌种检测模型;所述多癌种检测模型为预先采用训练样本集对XGBoost进行训练得到的;所述训练样本集中包括多个训练样本的循环游离DNA甲基化水平及各训练样本的类型;
所述处理器与所述处理器连接,所述处理器中包括样本采集模块、甲基化水平提取模块及预测模块;
所述样本采集模块用于采集待测目标的外周静脉血,得到待测样本;
所述甲基化水平提取模块分别与所述样本采集模块及所述存储器连接,用于提取所述待测样本的循环游离DNA甲基化水平;所述循环游离DNA甲基化水平包括多个基因的甲基化水平;
所述预测模块与所述甲基化水平提取模块连接,用于根据所述待测样本的循环游离DNA甲基化水平,采用多癌种检测模型,确定所述待测样本的类型;所述类型为肺癌、肝癌、肠癌或健康;
所述处理器中还包括:
内部数据集获取模块,用于采集肺癌患者、肠癌患者、肝癌患者及健康人员的外周静脉血,得到多个训练样本,并提取各训练样本的循环游离DNA甲基化水平,得到内部数据集;
公共数据集获取模块,用于从基因表达综合数据库中下载肺癌、肠癌、肝癌及健康的循环游离DNA全基因组重亚硫酸盐测序数据,得到多个训练样本,并确定各训练样本的循环游离DNA甲基化水平,得到公共数据集;所述内部数据集及所述公共数据集中均包括各训练样本的全基因甲基化水平及各训练样本的类型;
差异分析模块,与所述公共数据集获取模块连接,用于对所述公共数据集中的阳性样本与阴性样本所共有的基因的甲基化水平进行差异分析,使用R语言的limma包,选择foldchange>=2,P值<=0.05的基因作为差异甲基化基因,分三组进行筛选:单一癌种与健康个体进行差异分析,癌种特有的基因;单一癌种和其他癌种数据进行差异分析,癌种特有的基因;单一癌种和其他单一癌种进行差异分析,癌种特有的基因;合并三组差异基因去重后作为最终的差异基因列表;所述阳性样本为类型为肺癌、肠癌或肝癌的训练样本;所述阴性样本为类型为健康的训练样本;
筛选模块,与所述差异分析模块连接,用于根据所述差异基因列表,对所述内部数据集及所述公共数据集进行筛选,得到训练样本集;
训练模块,与所述筛选模块连接,用于采用所述训练样本集,对XGBoost的参数进行优化,以得到多癌种检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744645.1A CN117423388B (zh) | 2023-12-19 | 2023-12-19 | 一种基于甲基化水平的多癌种检测系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744645.1A CN117423388B (zh) | 2023-12-19 | 2023-12-19 | 一种基于甲基化水平的多癌种检测系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117423388A CN117423388A (zh) | 2024-01-19 |
CN117423388B true CN117423388B (zh) | 2024-03-22 |
Family
ID=89525180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311744645.1A Active CN117423388B (zh) | 2023-12-19 | 2023-12-19 | 一种基于甲基化水平的多癌种检测系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117423388B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112951418A (zh) * | 2021-05-17 | 2021-06-11 | 臻和(北京)生物科技有限公司 | 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质 |
CN113424263A (zh) * | 2018-12-21 | 2021-09-21 | 格里尔公司 | 异常片段检测与分类 |
CN114045345A (zh) * | 2022-01-07 | 2022-02-15 | 臻和(北京)生物科技有限公司 | 基于游离dna的基因组癌变信息检测系统和检测方法 |
CN114736968A (zh) * | 2022-06-13 | 2022-07-12 | 南京世和医疗器械有限公司 | 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置 |
CN115064211A (zh) * | 2022-08-15 | 2022-09-16 | 臻和(北京)生物科技有限公司 | 一种基于全基因组甲基化测序的ctDNA预测方法及其应用 |
CN115132273A (zh) * | 2022-08-01 | 2022-09-30 | 广州燃石医学检验所有限公司 | 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统 |
WO2022253288A1 (zh) * | 2021-06-03 | 2022-12-08 | 广州燃石医学检验所有限公司 | 一种甲基化测序方法和装置 |
CN115976209A (zh) * | 2022-12-05 | 2023-04-18 | 北京大学人民医院 | 一种肺癌预测模型的训练方法以及预测装置和应用 |
CN116356021A (zh) * | 2023-02-28 | 2023-06-30 | 复旦大学附属中山医院 | 基于cfDNA靶向甲基化测序多维度特征的常见消化系统癌症早检技术 |
CN116665771A (zh) * | 2023-06-01 | 2023-08-29 | 福建和瑞基因科技有限公司 | 同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021088653A1 (zh) * | 2019-11-08 | 2021-05-14 | 中国科学院北京基因组研究所(国家生物信息中心) | 一种尿沉渣基因组dna的分类方法、装置和用途 |
-
2023
- 2023-12-19 CN CN202311744645.1A patent/CN117423388B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113424263A (zh) * | 2018-12-21 | 2021-09-21 | 格里尔公司 | 异常片段检测与分类 |
CN112951418A (zh) * | 2021-05-17 | 2021-06-11 | 臻和(北京)生物科技有限公司 | 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质 |
WO2022253288A1 (zh) * | 2021-06-03 | 2022-12-08 | 广州燃石医学检验所有限公司 | 一种甲基化测序方法和装置 |
CN114045345A (zh) * | 2022-01-07 | 2022-02-15 | 臻和(北京)生物科技有限公司 | 基于游离dna的基因组癌变信息检测系统和检测方法 |
CN114736968A (zh) * | 2022-06-13 | 2022-07-12 | 南京世和医疗器械有限公司 | 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置 |
CN115132273A (zh) * | 2022-08-01 | 2022-09-30 | 广州燃石医学检验所有限公司 | 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统 |
CN115064211A (zh) * | 2022-08-15 | 2022-09-16 | 臻和(北京)生物科技有限公司 | 一种基于全基因组甲基化测序的ctDNA预测方法及其应用 |
CN115976209A (zh) * | 2022-12-05 | 2023-04-18 | 北京大学人民医院 | 一种肺癌预测模型的训练方法以及预测装置和应用 |
CN116356021A (zh) * | 2023-02-28 | 2023-06-30 | 复旦大学附属中山医院 | 基于cfDNA靶向甲基化测序多维度特征的常见消化系统癌症早检技术 |
CN116665771A (zh) * | 2023-06-01 | 2023-08-29 | 福建和瑞基因科技有限公司 | 同时检测多种肿瘤并进行组织溯源的预测模型及其训练方法和应用 |
Non-Patent Citations (3)
Title |
---|
EpiPanGI Dx: A Cell-free DNA Methylation Fingerprint for the Early Detection of Gastrointestinal Cancers;Raju Kandimalla;《Clin Cancer Res》;20211115;第27卷(第22期);第6136-6140页 * |
Raju Kandimalla.EpiPanGI Dx: A Cell-free DNA Methylation Fingerprint for the Early Detection of Gastrointestinal Cancers.《Clin Cancer Res》.2021,第27卷(第22期),第6136-6140页. * |
基于TCGA公共数据库及高通量测序的肾移植术后肾肿瘤筛查技术研究;罗武;《中国优秀硕士学位论文全文数据库(医药卫生科技辑)》;20220515(第05期);E067-23 * |
Also Published As
Publication number | Publication date |
---|---|
CN117423388A (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106650312B (zh) | 一种用于循环肿瘤dna拷贝数变异检测的装置 | |
CN106156543B (zh) | 一种肿瘤ctDNA信息统计方法 | |
CN113257350B (zh) | 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN108256292B (zh) | 一种拷贝数变异检测装置 | |
CN113539355B (zh) | 预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用 | |
KR102029393B1 (ko) | 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도 | |
CN105653898A (zh) | 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法 | |
CN109830264B (zh) | 肿瘤患者基于甲基化位点进行分类的方法 | |
CN113096728B (zh) | 一种微小残余病灶的检测方法、装置、存储介质及设备 | |
CN116403644B (zh) | 一种用于癌症风险预测的方法及装置 | |
AU2020364225B2 (en) | Fragment size characterization of cell-free DNA mutations from clonal hematopoiesis | |
CN115087745A (zh) | 无细胞样品中的双末端dna片段类型及其用途 | |
CN112289376A (zh) | 一种检测体细胞突变的方法及装置 | |
CN113362893A (zh) | 肿瘤筛查模型的构建方法及应用 | |
CN111833963A (zh) | 一种cfDNA分类方法、装置和用途 | |
CN117275585A (zh) | 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备 | |
CN117423388B (zh) | 一种基于甲基化水平的多癌种检测系统及电子设备 | |
CN111968702A (zh) | 一种基于循环肿瘤dna的恶性肿瘤早期筛查系统 | |
CN113362897A (zh) | 基于核小体分布特征的肿瘤标志物筛选方法及应用 | |
CN115491423A (zh) | 一种用于b细胞淋巴瘤mrd监测的基因组合、试剂盒与应用 | |
WO2018209704A1 (zh) | 基于dna测序数据的样本来源检测方法、装置和存储介质 | |
CN117316278A (zh) | 一种基于cfDNA片段长度分布特征的癌症无创早筛方法及系统 | |
US11535896B2 (en) | Method for analysing cell-free nucleic acids | |
CN106709267A (zh) | 数据获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |