CN116287269A - 检测标志物、二分类模型及其应用 - Google Patents
检测标志物、二分类模型及其应用 Download PDFInfo
- Publication number
- CN116287269A CN116287269A CN202310258253.8A CN202310258253A CN116287269A CN 116287269 A CN116287269 A CN 116287269A CN 202310258253 A CN202310258253 A CN 202310258253A CN 116287269 A CN116287269 A CN 116287269A
- Authority
- CN
- China
- Prior art keywords
- methylation
- classification model
- cells
- cpg
- mbcs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 40
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 239000003550 marker Substances 0.000 title claims abstract description 15
- 108091029430 CpG site Proteins 0.000 claims abstract description 49
- 230000011987 methylation Effects 0.000 claims description 72
- 238000007069 methylation reaction Methods 0.000 claims description 72
- 210000002865 immune cell Anatomy 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 11
- 201000007270 liver cancer Diseases 0.000 claims description 10
- 208000014018 liver neoplasm Diseases 0.000 claims description 10
- 230000008595 infiltration Effects 0.000 claims description 8
- 238000001764 infiltration Methods 0.000 claims description 8
- 210000001744 T-lymphocyte Anatomy 0.000 claims description 5
- 102100034517 (E2-independent) E3 ubiquitin-conjugating enzyme FATS Human genes 0.000 claims description 4
- HWFKCAFKXZFOQT-UHFFFAOYSA-N 1-(3,6-dibromocarbazol-9-yl)-3-piperazin-1-ylpropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C12=CC=C(Br)C=C2C2=CC(Br)=CC=C2N1CC(O)CN1CCNCC1 HWFKCAFKXZFOQT-UHFFFAOYSA-N 0.000 claims description 4
- 102100024059 A-kinase anchor protein 8-like Human genes 0.000 claims description 4
- 102100032605 Adhesion G protein-coupled receptor B1 Human genes 0.000 claims description 4
- 102100034787 Cell cycle exit and neuronal differentiation protein 1 Human genes 0.000 claims description 4
- 101000710194 Homo sapiens (E2-independent) E3 ubiquitin-conjugating enzyme FATS Proteins 0.000 claims description 4
- 101000833668 Homo sapiens A-kinase anchor protein 8-like Proteins 0.000 claims description 4
- 101000796780 Homo sapiens Adhesion G protein-coupled receptor B1 Proteins 0.000 claims description 4
- 101000945882 Homo sapiens Cell cycle exit and neuronal differentiation protein 1 Proteins 0.000 claims description 4
- 101000687654 Homo sapiens Sorting nexin-20 Proteins 0.000 claims description 4
- 101000618139 Homo sapiens Sperm-associated antigen 6 Proteins 0.000 claims description 4
- 101000934888 Homo sapiens Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Proteins 0.000 claims description 4
- 102100024801 Sorting nexin-20 Human genes 0.000 claims description 4
- 102100021909 Sperm-associated antigen 6 Human genes 0.000 claims description 4
- 102100025393 Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Human genes 0.000 claims description 4
- 210000004443 dendritic cell Anatomy 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 4
- 101000575639 Homo sapiens Ribonucleoside-diphosphate reductase subunit M2 Proteins 0.000 claims description 3
- 102100026006 Ribonucleoside-diphosphate reductase subunit M2 Human genes 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000002540 macrophage Anatomy 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 210000000581 natural killer T-cell Anatomy 0.000 claims description 2
- 210000002501 natural regulatory T cell Anatomy 0.000 claims description 2
- 206010073071 hepatocellular carcinoma Diseases 0.000 abstract description 36
- 238000003745 diagnosis Methods 0.000 abstract description 9
- 239000000523 sample Substances 0.000 description 26
- 210000001519 tissue Anatomy 0.000 description 20
- 206010028980 Neoplasm Diseases 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 16
- 238000007637 random forest analysis Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 108020004414 DNA Proteins 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000000513 principal component analysis Methods 0.000 description 9
- 239000000090 biomarker Substances 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000010276 construction Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 108090000623 proteins and genes Proteins 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 6
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 230000007067 DNA methylation Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007621 cluster analysis Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 210000003494 hepatocyte Anatomy 0.000 description 3
- 210000000822 natural killer cell Anatomy 0.000 description 3
- 210000005259 peripheral blood Anatomy 0.000 description 3
- 239000011886 peripheral blood Substances 0.000 description 3
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 2
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 2
- 102100023635 Alpha-fetoprotein Human genes 0.000 description 2
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 2
- 241000700721 Hepatitis B virus Species 0.000 description 2
- 101000581981 Homo sapiens Neural cell adhesion molecule 1 Proteins 0.000 description 2
- 102100027347 Neural cell adhesion molecule 1 Human genes 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 208000006454 hepatitis Diseases 0.000 description 2
- 231100000283 hepatitis Toxicity 0.000 description 2
- 230000006607 hypermethylation Effects 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 210000005228 liver tissue Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012164 methylation sequencing Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 206010009208 Cirrhosis alcoholic Diseases 0.000 description 1
- 241000219109 Citrullus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 108010003471 Fetal Proteins Proteins 0.000 description 1
- 102000004641 Fetal Proteins Human genes 0.000 description 1
- 238000012351 Integrated analysis Methods 0.000 description 1
- WTDRDQBEARUVNC-LURJTMIESA-N L-DOPA Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C(O)=C1 WTDRDQBEARUVNC-LURJTMIESA-N 0.000 description 1
- -1 RRM Proteins 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-N Sulfurous acid Chemical compound OS(O)=O LSNNMFCWUKXFEE-UHFFFAOYSA-N 0.000 description 1
- 210000000068 Th17 cell Anatomy 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 208000010002 alcoholic liver cirrhosis Diseases 0.000 description 1
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 1
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 210000003979 eosinophil Anatomy 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 210000003630 histaminocyte Anatomy 0.000 description 1
- 210000003297 immature b lymphocyte Anatomy 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007427 paired t-test Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000002205 phenol-chloroform extraction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 101150054338 ref gene Proteins 0.000 description 1
- 210000003289 regulatory T cell Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 210000003556 vascular endothelial cell Anatomy 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Organic Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Immunology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Data Mining & Analysis (AREA)
- Microbiology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Hospice & Palliative Care (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Biochemistry (AREA)
- Oncology (AREA)
Abstract
本发明涉及生物检测领域,尤其涉及检测标志物、二分类模型及其应用。CpG位点,包括cg26492368、cg26608718、cg19516340、cg02554274、cg09341491、cg13788685、cg08383929、cg03526459、cg14304336、cg27039312或cg26956009中的一种、多种或其组合。本发明提供的检测标志物为HCC的准确诊断提供了一种新的辅助手段。
Description
技术领域
本发明涉及生物检测领域,尤其涉及检测标志物、二分类模型及其应用。
背景技术
肝细胞癌(hepatocellular carcinoma,HCC)是一种高度异质性的复杂疾病。肝细胞癌的发生可能是源于基因变异和表观遗传变异的积累。在HCC研究中,发现了许多遗传变异,其中变异频率最高的是TP5。也有许多基因启动子区域的甲基化异常被报道,包括在85%的HCC中发生高甲基化的RASSF1A基因。在肿瘤诊断和监测应用方面,DNA甲基化检测比突变检测更有优势。首先,临床敏感性更高,目标选择范围更大。具体来说,每一种肿瘤都有许多可用于诊断的甲基化目标区域,而每个甲基化区域内又有多个发生甲基化异常的CpG位点。近十年来,有一些基于基因组水平的甲基化研究。乙型肝炎病毒(Hepatitis Bvirus,HBV)基因组在肝细胞基因组上的整合,会导致肝细胞基因组发生异常甲基化,且基因组结构高度不稳定,从而推动HCC的发生发展。在基因组水平DNA甲基化相关数据基础上,多个甲基化诊断模型被报道。但这些研究多是基于覆盖几十万个CpG位点的甲基化芯片数据,而人类基因组上的可发生甲基化的CpG位点有近三千万个。对基因组上的CpG位点进行高覆盖度的甲基化检测,可以使我们更加全面的认识DNA甲基化在疾病发生发展过程中的作用,也可以帮助我们找到性能更加优越的生物标志物。现有技术受限于样本量过小(N=4)而无法进行生物标志物检测性能等方面的分析。
血浆游离DNA(cell-free DNA,cfDNA)的甲基化在肿瘤监测和诊断中的应用成为近年来的研究热点。健康人血浆cfDNA来源主要是白细胞(55%)、红细胞祖细胞(30%)、血管内皮细胞(10%)和肝细胞(1%)。对患者cfDNA的分析证实了多种实体肿瘤的DNA会释放到外周血,为通过cfDNA甲基化检测来监测实体瘤或其他疾病的发生发展提供了理论、数据和方法依据。而外周血cfDNA中肝源性DNA相对较高的绝对浓度,提高了利用其甲基化对HCC进行诊断和早期监测的可能性。关于cfDNA用于HCC诊断的相关研究,包括RFSSF1A等个别基因启动子的甲基化、cfDNA浓度、片段长度和末端序列特征等被广泛报道。现有技术中可以利用HCC组织和外周血白细胞DNA的450k甲基化数据筛选出1000个CpG位点,然后利用靶向捕获亚硫酸盐测序的方法获得了其中401个可以利用的CpG位点,结合机器学习的方法,构建了一个血浆cfDNA甲基化的诊断模型和一个预后模型。也有利用大队列(1098HCC患者和835个正常人)外周血ctDNA构建了一个诊断模型,通过甲基化CpG位点的串联扩增测序技术(methylated CpG tandems amplification and sequencing,MCTA-Seq)从基因组水平研究了利用cfDNA对HCC进行早期诊断(监测)的可行性。另外,有些更是直接用450K甲基化芯片对肝炎和肝癌患者的cfDNA进行了检测并构建了一个基于5个CpG位点甲基化水平的诊断模型。然而,就目前所采用的检测技术来说,对cfDNA甲基化在基因组水平检测,应用于临床肝癌早期筛查或监测,其价格成本仍然过高。而且由于血浆环境复杂多变,甲基化水平(β值)易受影响而发生波动,从而使得利用多个位点甲基化水平(β值)的诊断模型来进行肝癌监测的方法,其稳定性成为不可逾越的挑战。
发明内容
有鉴于此,本发明提供了检测标志物、二分类模型及其应用。本发明提供的检测标志物为HCC的准确诊断提供了一种新的辅助手段。
为了实现上述发明目的,本发明提供以下技术方案:
本发明提供了CpG位点,包括cg26492368、cg26608718、cg19516340、cg02554274、cg09341491、cg13788685、cg08383929、cg03526459、cg14304336、cg27039312或cg26956009中的一种、多种或其组合。
本发明还提供了检测标志物,包括SPAG6、AKAP8L、RRM2、CEND1、SNX20、SDHC、NBPF13P、RNVU1-8、C10orf90或BAI1中的一种、多种或其组合。
在本发明的一些实施方案中,上述检测标志物与所述CpG位点的对应关系为:
cg26492368 SPAG6;
cg26608718 AKAP8L;
cg19516340 RRM2;
cg02554274 CEND1;
cg09341491 SNX20;
cg13788685 SDHC;
cg03526459 NBPF13P或RNVU1-8;
cg14304336 C10orf90;
cg27039312 BAI1。
本发明还提供了上述CpG位点或上述检测标志物在制备检测肝癌的产品中的应用。
本发明还提供了二分类模型,其计算公式为:mBCS=0.3948785+∑βiEi;其中i为上述CpG位点,β为上述CpG位点的甲基化水平,E为上述CpG位点的回归系数。
在本发明的一些实施方案中,上述二分类模型中,所述CpG位点的甲基化程度经全基因组甲基化测序(WGBS)获得。
在本发明的一些实施方案中,上述二分类模型中,公共验证数据集的甲基化水平经450K甲基化芯片获得。
在本发明的一些实施方案中,上述二分类模型中,所述CpG位点的回归系数与所述CpG位点的对应关系为:
cg26492368 8.1559394;
cg26608718 -8.4531282;
cg19516340 -6.1125863;
cg02554274 -3.4444817;
cg09341491 6.8589209;
cg13788685 -3.7790125;
cg08383929 7.0882640;
cg03526459 3.3835278;
cg14304336 -6.0109634;
cg27039312 -4.5737240;
cg26956009 -5.3367444。
在本发明的一些实施方案中,上述二分类模型中,所述二分类模型经随机森林算法、十折交叉验证或弹性网络回归算法中的一种或多种获得。
本发明还提供了上述二分类模型在评价检测标志物的泛化能力中的应用。
在本发明的一些实施方案中,上述应用中,所述检测标志物为检测肝癌的标志物。
在本发明的一些实施方案中,上述应用中,所述评价的标准包括:当所述mBCS大于等于0.5为阳性,当所述mBCS小于0.5为阴性。
本发明还提供了上述二分类模型在制备检测免疫细胞浸润程度的产品中的应用。
在本发明的一些实施方案中,上述应用中,所述免疫细胞包括:CD8阳性T细胞、树突细胞、巨噬细胞、自然杀伤T细胞或调节性T细胞中的一种或多种。
在本发明的一些实施方案中,上述应用中,所述CD8阳性T细胞和所述树突细胞为激活后获得的。
本发明还提供了检测方法,获得待测样品的CpG位点的甲基化水平,代入如上述二分类模型,获得检测结果。
在本发明的一些实施方案中,上述检测方法中,所述检测结果的检测标准包括:当所述mBCS大于等于0.5为阳性,当所述mBCS小于0.5为阴性。
本发明提供了CpG位点,包括cg26492368、cg26608718、cg19516340、cg02554274、cg09341491、cg13788685、cg08383929、cg03526459、cg14304336、cg27039312或cg26956009中的一种、多种或其组合。
本发明提供的检测标志物为HCC的准确诊断提供了一种新的辅助手段。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1示DML位点甲基化二分类模型构建及外部数据集验证流程;
图2示二分类模型(mBCS)与免疫细胞浸润水平的相关性(Pearson);其中:“*”表示相关性检验P<0.05;
图3示六个相互独立数据集样本的主成份分析和聚类分析;
图4示基于随机森林十折交叉验证最优模型特征;
图5示外部验证数据集的AUC;
图6示多个数据集中11个CpG位点的甲基化水平热图;其中:A-G分别示对应数据集Training,Test,TCGA-LIHC,GSE54503,GSE56588,GSE89852和GSE113017。
具体实施方式
本发明公开了检测标志物、二分类模型及其应用。
应该理解,表述“……中的一种或多种”单独地包括每个在所述表述后叙述的物体以及所述叙述的物体中的两者或更多者的各种不同组合,除非从上下文和用法中另有理解。与三个或更多个叙述的物体相结合的表述“和/或”应该被理解为具有相同的含义,除非从上下文另有理解。
术语“包括”、“具有”或“含有”,包括其语法同义语的使用,通常应该被理解为开放性和非限制性的,例如不排除其他未叙述的要素或步骤,除非另有具体陈述或从上下文另有理解。
应该理解,只要本发明仍可操作,步骤的顺序或执行某些行动的顺序并不重要。此外,两个或更多个步骤或行动可以同时进行。
本文中的任何和所有实例或示例性语言如“例如”或“包括”的使用,仅仅打算更好地说明本发明,并且除非提出权利要求,否则不对本发明的范围构成限制。本说明书中的任何语言都不应解释为指示任何未要求保护的要素对于本发明的实践是必不可少的。
此外,用以界定本发明的数值范围与参数皆是约略的数值,此处已尽可能精确地呈现具体实施例中的相关数值。然而,任何数值本质上不可避免地含有因个别测试方法所致的标准偏差。因此,除非另有明确的说明,应当理解本公开所用的所有范围、数量、数值与百分比均经过“约”的修饰。在此处,“约”通常是指实际数值在一特定数值或范围的正负10%、5%、1%或0.5%之内。
本发明实施例1~实施例6、验证例1、验证例2和效果例1~效果例6中:
(1)材料与方法
实验对象
本发明所用的33例HCC患者的配对癌组织以及癌旁组织样本是从2015年7月到2016年6月在浙江大学医学院附属第一医院收集。收集过程中,由经过统一培训的医生、护士、科研人员获得标本的相关信息,包括年龄、性别、身高、体重等。组织样本经过资深病理专家的检测,认定样本在组织形态学上与癌组织或癌旁组织的特性吻合。
该研究获得了浙江大学医学院附属第一医院伦理委员会的批准,得到了每位受试者的知情同意和签署的知情同意书。所有实验都遵循赫尔辛基宣言及其修改案。
33位HCC患者中,1例为酒精肝硬化进展为肝癌,其余32例为乙肝性肝癌。男性多于女性,为27位,而女性患者只有6位。8种血清标志物中阳性率最低的是碱性磷酸酶(alkaline phosphatase,ALP),只有2名患者的该指标高于正常值范围,阳性率只有6%(2/33);甲胎蛋白(alpha fetal protein,AFP)的阳性率最高,为60%(20/33);所有患者的Child-Pugh评分都为A级。组织样本来源的HCC患者的临床资料如表1所示。
表1 HCC患者临床信息
(2)统计学分析:本研究中所有的统计学分析均在R(v.4.0.3)中完成。对于33对肝癌与癌旁样本的WGBS数据,我们采用配对t检验对肿瘤组织与癌旁组织进行差异分析。斯皮尔曼(Spearman)相关系数计算两组数据之间的相关性,相关系数的绝对值(|cor|)大于3被认为是存在相关性,cor>0为正相关,cor<0为负相关。P值小于0.05为显著性的标准。
所用原料及试剂均可由市场购得。
下面结合实施例,进一步阐述本发明:
实施例1肝细胞癌甲基化公共数据集
本发明从美国国家生物技术信息中心(National Center for BiotechnologyInformation,简称NCBI)高通量基因表达数据库(Gene Expression Omnibus,简称GEO)下载HCC相关的450K甲基化芯片数据集4个(GSE54503,GSE56588,GSE89852和GSE113017)。我们又从UCSC Xena网站(https://xenabrowser.net/datapages/)下载了TCGA数据库的甲基化芯片数据、对应的临床信息和甲基化芯片注释文件,如表2所示。我们先用R包wateRmelon的betaqn函数对5个450K甲基化芯片的公共数据集分别进行标准化。
表2公共数据集样本信息
Tissue | Control(N) | HCC(N) | Platform |
GSE54503 | 66 | 66 | 450K |
GSE56588 | 10+9 | 224 | 450K |
GSE89852 | 37 | 37 | 450K |
GSE113017 | 29 | 29 | 450K |
TCGA-HCC | 50 | 380 | 450K |
Total | 201 | 736 |
实施例2全基因组甲基化测序和数据处理
本发明使用酚氯仿法提待测样本的肝脏癌和癌旁组织的总DNA,用Nanodrop检测DNA的纯度(OD260/280比值),Qubit 3.0对DNA浓度进行精确定量。然后,以200ng DNA先进行超声破碎成长度约300bp的DNA片段,然后进行测序文库的构建,并用生物样本分析仪(Agilent 2100 TapeStation系统)进行文库质控。我们利用EZ DNA甲基化试剂盒(货号:D5030)对文库进行重亚硫酸盐转化,随后使用Agilent 2100对文库的插入片段长度进行检测,使用q-PCR方法对文库的有效浓度进行准确定量,以保证文库的质量。库检合格后,对文库进行pooling,然后上机进行150bp双端高通量测序(Illumina Xten平台)。
下机的测序数据,用Cutadapt软件(v.1.18)去除接头片段。使用Trimmomatic软件(0.33)去除数据中的低质量碱基或序列,从而得到clean reads。随后,用默认参数设置下的Bismark软件进行参考基因组(hg38)比对。比对完成后,通过软件Bismark的bismark_methylation_extractor功能提取每个CpG的信息,然后将正链和负链上的CpG进行合并,从而得到每个CpG位点的甲基化率。我们将测序深度小于5×的CpG位点设为缺失值(notavailable,NA),将所有样本中缺失率超过50%的CpG位点去除。进一步地,我们也去除了与常见变异(common variants)位置重叠的CpG位点。然后,使用DSS软件(v.2.26.0)对保留下来的CpG位点进行平滑化(smooth)处理,最后得到CpG位点的甲基化水平矩阵。
实施例3差异甲基化位点的鉴定
差异甲基化位点(Differentially Methylated CpG loci,DML)是甲基化研究的基础环节,对于后续寻找生物标志物(biomarker)有重要意义。DML的分析是比对肿瘤组织和癌旁组织的甲基化水平(β值),获得差异的β值(Δβ),从而得到肿瘤组织的差异甲基化位点。
我们运用R包BWStest(v.0.2.2)对上述获得的每个样本CpG位点的甲基化水平矩阵进行基于B检验(Baumgartner-Weiβ-Schindlertest)校正年龄的差异甲基化分析,鉴定出差异的甲基化位点(DML)。具体地,针对每一个甲基化CG位点,在每一个年龄组内分别进行单独的BWS检验得到相应的两个方向的P值(即P左侧和P右侧)。随后,每个位点在三个年龄组的同一方向的P值进行结合得到新的两个统计值T左侧和T右侧(T左侧/T右侧=-2×∑log10(P左侧/P右侧)),并转换得到新的统计值T(T=max(T左侧,T右侧))。通过2.0×108次的对样本标签的随机排列得到联合BWS检验的T值的经验分布。最后根据每个位点的T值在经验分布中的位次,得到每个甲基化位点相应的经验P值。其中联合BWS检验P值小于1.0×105的位点被鉴定为DML。
实施例4公共甲基化芯片数据标准化(Normalization)及与DML位点
为了用DML发现可泛化的HCC生物标志物,我们将DML基因组坐标与实施例1获得的5个450K公共数据集(TCGA-LIHC,GSE54503,GSE56588,GSE89852和GSE113017)的CpG位点进行交集。具体地,我们将5个公共数据集中经过标准化保留下来的CpG位点,与上述DML进行交集。各数据集之间没有进行批次校正,以确保数据集之间的相互独立性。
实施例5基于交集DML的样本主成份分析(PCA)及聚类分析
基于WGBS进行生物标志物发掘,需要确认所分析的位点具有普遍的甲基化差异,而不受病因、人种、实验批次等效应的影响,才能发掘出具有可泛化能力的标志物。因此,我们基于交集位点的甲基化数据对6个相互独立数据集所有样本(N=1003)进行主成份分析(principal component analysis,PCA)。在此基础上,我们也对所有样本进行了聚类分析(clustering),并通过R的“pheatmap”包进行可视化展示。
实施例6基于机器学习的肝细胞癌的二分类模型构建
为了进一步证实33对样本WGBS数据发掘标志物的泛化能力,我们基于DML进行机器学习,构建一个二分类模型并利用5个外部数据集进行分类性能验证,构建流程如图1所示。
(1)随机森林特征筛选
随机森林(Random Forest,RF)的原理是从训练样本集中有放回随机抽样本的方式,获得新的训练集,生成的分类树组成随机森林,新数据的分类结果按分类树投票打分。通过打分,使得整体模型具有较高的精确度和泛化性能。
本实施例中,我们使用R语言中caret包的createDataPartition函数对WGBS的样本进行分组:75%的样本作为训练集,25%作为测试集。然后,用caret包的rfe函数对训练集中的甲基化位点进行特征筛选。筛选过程中,采用10折交叉验证。代码如下:
library(caret)
library(e1071)
library(kernlab)
setwd(″/data/RandomForest″)
data<-read.table(″MET_train.txt″,sep=\t″,header=T,row.names=1,check.names=F)
x<-scale(data[,2:ncol(data)])
x<-x[,-findCorrelation(cor(x),.8)]
x<-as.matrix(x)
y<-as.matrix(data[,1])
subsets<-seq(2,20,1)
set.seed(123)
RFfile<-rfe(x,y,sizes=subsets,rfeControl=rfeControl(functions=rfFuncs,method=″cv″,verbose=F,returnResamp=″all″))
RFfile$optVariables
(2)利用弹性网络回归(Elastic Net)构建分类模型
弹性网络回归(Elastic Net,ELNET)是LASSO回归和岭回归的混合体,是一种同时使用L1和L2先验作为正则化矩阵的线性回归模型。Macros研究认为,对于脑部肿瘤的450K甲基化芯片数据,ELNET构建的二分类模型比随机森林(Random Forest,RF)和支持向量机(support vector machines,SVM)所构建模型的性能更优秀。本实施例研究利用的是甲基化数据,与上述研究相似,因而,本实施例也采用了ELNET进行分类模型的构建。
在本实施例中,我们用筛选特征后的训练集数据,使用R语言的glmnet包进行ELNET的模型构建。模型构建过程中,采用10折交叉验证进行模型优化。其脚本如下:
set.seed(2020)
a<-seq(0.1,0.9,0.05)
search<-foreach(i=a,.combine=rbind)%dopar%{
cv<-cv.glmnet(x,y,family=″binomial″,nfold=10,type.measure=″deviance″,paralle=TRUE,alpha=i)
data.frame(cvm=cv$cvm[cv$lambda==cv$lambda.1se],lambda.1se=cv$lambda.1se,alpha=i)
}
cv<-search[search$cvm==min(search$cvm),]
md<-glmnet(x,y,family=″binomial″,lambda=cv$lambda.1se,alpha=cv$alpha)
coef(md3)
此后,我们用构建的ELNET模型,计算WGBS和公共数据集中每个样本的甲基化二分类分数(methylation binary classification score,mBCS)。我们采用受试者特征曲线(receiver operator characteristic,ROC)的曲线下面积(Area Under The Curve,AUC)和混淆矩阵对模型的分类性能进行验证。
验证例1二分类模型(mBCS)与临床特征的相关性
我们进一步分析了所构建的二分类模型在不同性别、年龄分组等之间的差异以及与AFP等临床信息的相关性。
验证例2二分类模型(mBCS)与免疫细胞浸润水平的关系
我们对33对HCC样本的mRNA-Seq数据进行了ssGSEA分析,获得每个组织样本中23种免疫细胞的浸润水平,如表3~表8所示。随后将每个样本的mBCS与每种免疫细胞的浸润水平进行相关性分析。结果显示,mBCS与17种免疫细胞的浸润水平呈显著相关,如图2所示。在显著相关的免疫细胞类型中,只有活性CD4+ T细胞、CD56 bright NK细胞和CD56 dim NK细胞与mBCS呈正相关,而另外14种免疫细胞,包括活化的B细胞、活化的CD8+ T细胞、嗜酸性粒细胞、未成熟B细胞、未成熟树突细胞、髓源性抑制细胞、巨噬细胞、肥大细胞、单核细胞、NK细胞、嗜中性粒细胞、调节性T细胞、Th1和Th17细胞则与mBCS呈显著负相关。
通过ssGSEA分析,发现mBCS与多种免疫细胞浸润水平呈显著负相关,部分揭示了mBCS与肿瘤发生的机制可能与免疫缺失有关。
表3 ssGSEA分析每个样本23种免疫细胞的富集分数
表4 ssGSEA分析每个样本23种免疫细胞的富集分数
表5 ssGSEA分析每个样本23种免疫细胞的富集分数
表6 ssGSEA分析每个样本23种免疫细胞的富集分数
表7 ssGSEA分析每个样本23种免疫细胞的富集分数
表8 ssGSEA分析每个样本23种免疫细胞的富集分数
效果例1差异甲基化位点(DML)的鉴定结果
实施例3中经过QC的WGBS下机数据,平均覆盖深度达到12.76×,包含28,978,826个CpG位点。经过smooth处理后,约34%(9,867,700个)的CpG位点在癌与癌旁组织间的甲基化水平存在显著差异。其中,157,320个位点是高甲基化(Hyper-methylated),9,710.380个位点是低甲基化(Hypo-methylated)。基因坐标位置显示,高甲基化位点主要位于基因启动子区,而低甲基化位点主要位于基因区(gene body)。
以上结果显示,基于WGBS分析的DML的数量比甲基化芯片发现的差异位点至少高出一个数量级,证明了WGBS技术对HCC差异甲基化更全面解析的优势,也提示基于WGBS的DML进行诊断标志物发掘的数量优势。
效果例2差异甲基化位点与450K甲基化芯片位点的交集
实施例4中,由于上述DML的鉴定只有33对肝脏组织,而肝细胞癌的病因复杂、异质性高,所以这些DML的数据集特异性是基于这些DML发掘的生物标志物首先需要回答的问题。因此,我们对鉴定的差异甲基化位点(differential methylated loci,DML)与另外5个独立的HCC甲基化芯片数据集进行整合分析。5个HCC相关450K甲基化芯片公共数据集的样本数量如表2所示。
5个450K芯片数据集分别经过标准化后,与实施例3中的DML进行交集。结果发现共有11,352个CpG位点在6个数据集中都存在。提取每个数据集中11,352个交集位点的甲基化矩阵,不进行批次校正,以保证6个数据集之间的相互独立。再基于这6个相互独立数据集的11,352个交集位点数据进行DML所发掘标志物泛化能力的分析。
效果例3六个相互独立数据集样本的主成份分析和聚类分析
我们对6个相互独立数据集中样本(N=1003)的11,352个位点甲基化数据进行主成份分析(PCA)。结果如图3A所示,肿瘤(Tumor)样本较为分散,而正常(Normal)样本聚集在二维图的左上角,同时,各数据集之间混合一起,没有明显聚集,说明WGBS鉴定的DML没有明显的批次差异,而且可以区别肿瘤和正常样本。
样本聚类分析结果也显示,正常肝组织样本(Normal)聚集在左侧,而肿瘤组织(Tumor)聚集在右侧,而数据集之间没有明显聚集,也证明了DML在组织类型间的差异大于数据集(datasets)之间的批次差异。这一结果提示了DML发掘生物标志物的泛化能力。
效果例4随机森林特征选择
我们将33对WGBS的样本进行拆分,形成25对(75%)样本的训练集和8对(25%)样本的测试集。随后利用随机森林(random forest,RF)算法对训练集进行特征选择,选取对识别HCC最具关联的CpG子集,进行下一步的机器学习模型训练。十折交叉验证选出最优随机森林模型的13个特征CpG位点(如图4所示)。
效果例5弹性网络回归的分类模型构建和验证
我们用弹性网络(ELNET)回归算法,进行十折交叉验证构建最优的HCC分类模型。最优模型时α=0.15,λ=0.00057,用11个CpG位点的甲基化水平(β值)为模型变量(如表9所示),计算二分类模型分数。CpG位点对应的基因也一并展示在表9中。
表9 ELNET模型中CpG位点及对应的基因和模型中的回归系数
CpG Markers | Position | Ref Gene | Coefficients |
cg26492368 | Chr10:22345804 | SPAG6 | 8.1559394 |
cg26608718 | Chr19:15419926 | AKAP8L | -8.4531282 |
cg19516340 | Chr2:10123569 | RRM2 | -6.1125863 |
cg02554274 | Chr11:788180 | CEND1 | -3.4444817 |
cg09341491 | Chr16:50673884 | SNX20 | 6.8589209 |
cg13788685 | Chr1:161313856 | SDHC | -3.7790125 |
cg08383929 | Chr5:181219754 | - | 7.0882640 |
cg03526459 | Chr1:147078392 | NBPF13P,RNVU1-8 | 3.3835278 |
cg14304336 | Chr10:126463525 | C10orf90 | -6.0109634 |
cg27039312 | Chr8:142544430 | BAI1 | -4.5737240 |
cg26956009 | Chr19:2356488 | - | -5.3367444 |
二分类模型分数的计算公式如下:
mBCS=0.3948785+∑βiEi
此处,i指代11个CpG位点;β代表自变量,即位点i的甲基化水平;E代表回归系数,其中,甲基化水平通过CpG位点发生甲基化和未甲基化等位基因之间的强度比来确定(β值)。
基于甲基化模型打分公式,计算训练集、测试集和5个公共数据集中每个样本的mBCS分数,并对每个数据集分别进行ROC曲线分析二分类模型分数的灵敏性和特异性。结果显示,训练集和测试集的AUC为1,显示了该模型的性能在同一个数据集中是优越的。该二分类模型在5个公共验证数据集的AUC分别为TCGA-LIHC的0.984,GSE54503的0.970,GSE56588的0.994,GSE89852的0.999,和GSE113017的1(如表10和图5所示)。在5个验证数据集中,分类模型的AUC不低于0.97,显示了分类模型的优越性能。这一结果再次证实DML在各数据集的一致性。
表10分类模型分数(mBCS)在数据集中分类性能的AUC
Dataset | Control(N) | HCC(N) | AUC |
Trianing | 25 | 25 | 1.000 |
Test | 8 | 8 | 1.000 |
GSE54503 | 66 | 66 | 0.970 |
GSE56588 | 10+9 | 224 | 0.994 |
GSE89852 | 37 | 37 | 0.999 |
GSE113017 | 29 | 29 | 1.000 |
TCGA-LIHC | 50 | 380 | 0.984 |
以mBCS大于等于0.5为阳性,小于0.5为阴性,建立混淆矩阵。结果显示,二分类模型(mBCS)的总体正确率为85.6%(如表11所示),灵敏性和特异性分别为81.4%和99.6%。此外,我们制作了11个CpG位点在不同数据集中每个样本的甲基化水平展示热图(如图6所示)。
表11二分类模型分数(mBCS)的预测混淆矩阵
效果例6二分类模型与临床特征的相关性
根据上述分析结果可知,二分类模型(mBCS)对于HCC样本识别的灵敏性存在可提高空间。由于TCGA-LIHC有较为完善的临床信息和较大的样本量。我们对TCGA-LIHC队列中的HCC患者肿瘤组织样本的临床信息与二分类模型的预测结果进行了分析。结果如表12所示,mBCS对不同病理分期、年龄、性别分组的HCC识别率没有显著差异。
表12 mBCS预测结果与临床特征
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.CpG位点,其特征在于,包括cg26492368、cg26608718、cg19516340、cg02554274、cg09341491、cg13788685、cg08383929、cg03526459、cg14304336、cg27039312或cg26956009中的一种、多种或其组合。
2.检测标志物,其特征在于,包括SPAG6、AKAP8L、RRM2、CEND1、SNX20、SDHC、NBPF13P、RNVU1-8、C10orf90或BAI1中的一种、多种或其组合。
3.如权利要求1所述的CpG位点或如权利要求2所述的检测标志物在制备检测肝癌的产品中的应用。
4.二分类模型,其特征在于,其计算公式为:mBCS=0.3948785+∑βiEi;其中i为如权利要求1所述的CpG位点,β为如权利要求1所述CpG位点的甲基化水平,E为如权利要求1所述CpG位点的回归系数。
6.如权利要求4或5所述的二分类模型在评价检测标志物的泛化能力中的应用。
7.如权利要求6所述的应用,其特征在于,所述评价的标准包括:当所述mBCS大于等于0.5为阳性,当所述mBCS小于0.5为阴性。
8.如权利要求4或5所述的二分类模型在制备检测免疫细胞浸润程度的产品中的应用。
9.如权利要求8所述的应用,其特征在于,所述免疫细胞包括:CD8阳性T细胞、树突细胞、巨噬细胞、自然杀伤T细胞或调节性T细胞中的一种或多种。
10.检测方法,其特征在于,获得待测样品的CpG位点的甲基化水平,代入如权利要求4或5所述的二分类模型,获得检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310258253.8A CN116287269A (zh) | 2023-03-10 | 2023-03-10 | 检测标志物、二分类模型及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310258253.8A CN116287269A (zh) | 2023-03-10 | 2023-03-10 | 检测标志物、二分类模型及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116287269A true CN116287269A (zh) | 2023-06-23 |
Family
ID=86837547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310258253.8A Pending CN116287269A (zh) | 2023-03-10 | 2023-03-10 | 检测标志物、二分类模型及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116287269A (zh) |
-
2023
- 2023-03-10 CN CN202310258253.8A patent/CN116287269A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
US20200270707A1 (en) | Methylation pattern analysis of haplotypes in tissues in a dna mixture | |
CN103733065B (zh) | 用于癌症的分子诊断试验 | |
US11581062B2 (en) | Systems and methods for classifying patients with respect to multiple cancer classes | |
AU2018305609B2 (en) | Enhancement of cancer screening using cell-free viral nucleic acids | |
CN111863250B (zh) | 一种早期乳腺癌的联合诊断模型及系统 | |
US20210115520A1 (en) | Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition | |
JP5608169B2 (ja) | 遺伝子コピー数の変化のパターンに基づいた悪性メラノーマのゲノム分類 | |
CN114203256A (zh) | 基于微生物丰度的mibc分型及预后预测模型构建方法 | |
Houseman et al. | Copy number variation has little impact on bead-array-based measures of DNA methylation | |
KR20170032892A (ko) | 난소암의 예후 예측용 유전자 선별방법 | |
CN113168885A (zh) | 用于体细胞突变的方法和系统及其用途 | |
CN116287269A (zh) | 检测标志物、二分类模型及其应用 | |
CN113811621A (zh) | 确定rcc亚型的方法 | |
KR20160086496A (ko) | 난소암의 예후 예측용 유전자 선별방법 | |
CN117625793B (zh) | 一种卵巢癌生物标志物的筛选方法及其应用 | |
EP4234720A1 (en) | Epigenetic biomarkers for the diagnosis of thyroid cancer | |
TWI676688B (zh) | 辨識細胞種類型之方法及系統 | |
CN117625793A (zh) | 一种卵巢癌生物标志物的筛选方法及其应用 | |
KR20240063745A (ko) | Cell-free DNA 를 이용한 건강 및 질병관리 시스템 및 방법 | |
KR101244543B1 (ko) | 17-β 에스트라디올에 대한 노출 여부 판단용판단용 유전자 마커군, 마이크로어레이 칩 및 이를 이용한 판단 방법 | |
Cheng | Enhanced inter-study prediction and biomarker detection in microarray with application to cancer studies | |
Chaudhary | VISUAL AND STATISTICAL-BASED CROSS-PLATFORM NORMALIZATION ON GENE EXPRESSION DATA OF ORAL CANCER | |
CN106868191A (zh) | 真核翻译延伸因子在检测乳腺癌试剂中的应用 | |
Kuijjer | A systems biology approach to study high-grade osteosarcoma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |