CN116287269A - 检测标志物、二分类模型及其应用 - Google Patents

检测标志物、二分类模型及其应用 Download PDF

Info

Publication number
CN116287269A
CN116287269A CN202310258253.8A CN202310258253A CN116287269A CN 116287269 A CN116287269 A CN 116287269A CN 202310258253 A CN202310258253 A CN 202310258253A CN 116287269 A CN116287269 A CN 116287269A
Authority
CN
China
Prior art keywords
methylation
classification model
cells
cpg
mbcs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310258253.8A
Other languages
English (en)
Inventor
李兰娟
赵俊生
朱帅
高海女
张学文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Zhejiang University School of Medicine
Original Assignee
First Affiliated Hospital of Zhejiang University School of Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Zhejiang University School of Medicine filed Critical First Affiliated Hospital of Zhejiang University School of Medicine
Priority to CN202310258253.8A priority Critical patent/CN116287269A/zh
Publication of CN116287269A publication Critical patent/CN116287269A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Immunology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Microbiology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Hospice & Palliative Care (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Biochemistry (AREA)
  • Oncology (AREA)

Abstract

本发明涉及生物检测领域,尤其涉及检测标志物、二分类模型及其应用。CpG位点,包括cg26492368、cg26608718、cg19516340、cg02554274、cg09341491、cg13788685、cg08383929、cg03526459、cg14304336、cg27039312或cg26956009中的一种、多种或其组合。本发明提供的检测标志物为HCC的准确诊断提供了一种新的辅助手段。

Description

检测标志物、二分类模型及其应用
技术领域
本发明涉及生物检测领域,尤其涉及检测标志物、二分类模型及其应用。
背景技术
肝细胞癌(hepatocellular carcinoma,HCC)是一种高度异质性的复杂疾病。肝细胞癌的发生可能是源于基因变异和表观遗传变异的积累。在HCC研究中,发现了许多遗传变异,其中变异频率最高的是TP5。也有许多基因启动子区域的甲基化异常被报道,包括在85%的HCC中发生高甲基化的RASSF1A基因。在肿瘤诊断和监测应用方面,DNA甲基化检测比突变检测更有优势。首先,临床敏感性更高,目标选择范围更大。具体来说,每一种肿瘤都有许多可用于诊断的甲基化目标区域,而每个甲基化区域内又有多个发生甲基化异常的CpG位点。近十年来,有一些基于基因组水平的甲基化研究。乙型肝炎病毒(Hepatitis Bvirus,HBV)基因组在肝细胞基因组上的整合,会导致肝细胞基因组发生异常甲基化,且基因组结构高度不稳定,从而推动HCC的发生发展。在基因组水平DNA甲基化相关数据基础上,多个甲基化诊断模型被报道。但这些研究多是基于覆盖几十万个CpG位点的甲基化芯片数据,而人类基因组上的可发生甲基化的CpG位点有近三千万个。对基因组上的CpG位点进行高覆盖度的甲基化检测,可以使我们更加全面的认识DNA甲基化在疾病发生发展过程中的作用,也可以帮助我们找到性能更加优越的生物标志物。现有技术受限于样本量过小(N=4)而无法进行生物标志物检测性能等方面的分析。
血浆游离DNA(cell-free DNA,cfDNA)的甲基化在肿瘤监测和诊断中的应用成为近年来的研究热点。健康人血浆cfDNA来源主要是白细胞(55%)、红细胞祖细胞(30%)、血管内皮细胞(10%)和肝细胞(1%)。对患者cfDNA的分析证实了多种实体肿瘤的DNA会释放到外周血,为通过cfDNA甲基化检测来监测实体瘤或其他疾病的发生发展提供了理论、数据和方法依据。而外周血cfDNA中肝源性DNA相对较高的绝对浓度,提高了利用其甲基化对HCC进行诊断和早期监测的可能性。关于cfDNA用于HCC诊断的相关研究,包括RFSSF1A等个别基因启动子的甲基化、cfDNA浓度、片段长度和末端序列特征等被广泛报道。现有技术中可以利用HCC组织和外周血白细胞DNA的450k甲基化数据筛选出1000个CpG位点,然后利用靶向捕获亚硫酸盐测序的方法获得了其中401个可以利用的CpG位点,结合机器学习的方法,构建了一个血浆cfDNA甲基化的诊断模型和一个预后模型。也有利用大队列(1098HCC患者和835个正常人)外周血ctDNA构建了一个诊断模型,通过甲基化CpG位点的串联扩增测序技术(methylated CpG tandems amplification and sequencing,MCTA-Seq)从基因组水平研究了利用cfDNA对HCC进行早期诊断(监测)的可行性。另外,有些更是直接用450K甲基化芯片对肝炎和肝癌患者的cfDNA进行了检测并构建了一个基于5个CpG位点甲基化水平的诊断模型。然而,就目前所采用的检测技术来说,对cfDNA甲基化在基因组水平检测,应用于临床肝癌早期筛查或监测,其价格成本仍然过高。而且由于血浆环境复杂多变,甲基化水平(β值)易受影响而发生波动,从而使得利用多个位点甲基化水平(β值)的诊断模型来进行肝癌监测的方法,其稳定性成为不可逾越的挑战。
发明内容
有鉴于此,本发明提供了检测标志物、二分类模型及其应用。本发明提供的检测标志物为HCC的准确诊断提供了一种新的辅助手段。
为了实现上述发明目的,本发明提供以下技术方案:
本发明提供了CpG位点,包括cg26492368、cg26608718、cg19516340、cg02554274、cg09341491、cg13788685、cg08383929、cg03526459、cg14304336、cg27039312或cg26956009中的一种、多种或其组合。
本发明还提供了检测标志物,包括SPAG6、AKAP8L、RRM2、CEND1、SNX20、SDHC、NBPF13P、RNVU1-8、C10orf90或BAI1中的一种、多种或其组合。
在本发明的一些实施方案中,上述检测标志物与所述CpG位点的对应关系为:
cg26492368 SPAG6;
cg26608718 AKAP8L;
cg19516340 RRM2;
cg02554274 CEND1;
cg09341491 SNX20;
cg13788685 SDHC;
cg03526459 NBPF13P或RNVU1-8;
cg14304336 C10orf90;
cg27039312 BAI1。
本发明还提供了上述CpG位点或上述检测标志物在制备检测肝癌的产品中的应用。
本发明还提供了二分类模型,其计算公式为:mBCS=0.3948785+∑βiEi;其中i为上述CpG位点,β为上述CpG位点的甲基化水平,E为上述CpG位点的回归系数。
在本发明的一些实施方案中,上述二分类模型中,所述CpG位点的甲基化程度经全基因组甲基化测序(WGBS)获得。
在本发明的一些实施方案中,上述二分类模型中,公共验证数据集的甲基化水平经450K甲基化芯片获得。
在本发明的一些实施方案中,上述二分类模型中,所述CpG位点的回归系数与所述CpG位点的对应关系为:
cg26492368 8.1559394;
cg26608718 -8.4531282;
cg19516340 -6.1125863;
cg02554274 -3.4444817;
cg09341491 6.8589209;
cg13788685 -3.7790125;
cg08383929 7.0882640;
cg03526459 3.3835278;
cg14304336 -6.0109634;
cg27039312 -4.5737240;
cg26956009 -5.3367444。
在本发明的一些实施方案中,上述二分类模型中,所述二分类模型经随机森林算法、十折交叉验证或弹性网络回归算法中的一种或多种获得。
本发明还提供了上述二分类模型在评价检测标志物的泛化能力中的应用。
在本发明的一些实施方案中,上述应用中,所述检测标志物为检测肝癌的标志物。
在本发明的一些实施方案中,上述应用中,所述评价的标准包括:当所述mBCS大于等于0.5为阳性,当所述mBCS小于0.5为阴性。
本发明还提供了上述二分类模型在制备检测免疫细胞浸润程度的产品中的应用。
在本发明的一些实施方案中,上述应用中,所述免疫细胞包括:CD8阳性T细胞、树突细胞、巨噬细胞、自然杀伤T细胞或调节性T细胞中的一种或多种。
在本发明的一些实施方案中,上述应用中,所述CD8阳性T细胞和所述树突细胞为激活后获得的。
本发明还提供了检测方法,获得待测样品的CpG位点的甲基化水平,代入如上述二分类模型,获得检测结果。
在本发明的一些实施方案中,上述检测方法中,所述检测结果的检测标准包括:当所述mBCS大于等于0.5为阳性,当所述mBCS小于0.5为阴性。
本发明提供了CpG位点,包括cg26492368、cg26608718、cg19516340、cg02554274、cg09341491、cg13788685、cg08383929、cg03526459、cg14304336、cg27039312或cg26956009中的一种、多种或其组合。
本发明提供的检测标志物为HCC的准确诊断提供了一种新的辅助手段。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1示DML位点甲基化二分类模型构建及外部数据集验证流程;
图2示二分类模型(mBCS)与免疫细胞浸润水平的相关性(Pearson);其中:“*”表示相关性检验P<0.05;
图3示六个相互独立数据集样本的主成份分析和聚类分析;
图4示基于随机森林十折交叉验证最优模型特征;
图5示外部验证数据集的AUC;
图6示多个数据集中11个CpG位点的甲基化水平热图;其中:A-G分别示对应数据集Training,Test,TCGA-LIHC,GSE54503,GSE56588,GSE89852和GSE113017。
具体实施方式
本发明公开了检测标志物、二分类模型及其应用。
应该理解,表述“……中的一种或多种”单独地包括每个在所述表述后叙述的物体以及所述叙述的物体中的两者或更多者的各种不同组合,除非从上下文和用法中另有理解。与三个或更多个叙述的物体相结合的表述“和/或”应该被理解为具有相同的含义,除非从上下文另有理解。
术语“包括”、“具有”或“含有”,包括其语法同义语的使用,通常应该被理解为开放性和非限制性的,例如不排除其他未叙述的要素或步骤,除非另有具体陈述或从上下文另有理解。
应该理解,只要本发明仍可操作,步骤的顺序或执行某些行动的顺序并不重要。此外,两个或更多个步骤或行动可以同时进行。
本文中的任何和所有实例或示例性语言如“例如”或“包括”的使用,仅仅打算更好地说明本发明,并且除非提出权利要求,否则不对本发明的范围构成限制。本说明书中的任何语言都不应解释为指示任何未要求保护的要素对于本发明的实践是必不可少的。
此外,用以界定本发明的数值范围与参数皆是约略的数值,此处已尽可能精确地呈现具体实施例中的相关数值。然而,任何数值本质上不可避免地含有因个别测试方法所致的标准偏差。因此,除非另有明确的说明,应当理解本公开所用的所有范围、数量、数值与百分比均经过“约”的修饰。在此处,“约”通常是指实际数值在一特定数值或范围的正负10%、5%、1%或0.5%之内。
本发明实施例1~实施例6、验证例1、验证例2和效果例1~效果例6中:
(1)材料与方法
实验对象
本发明所用的33例HCC患者的配对癌组织以及癌旁组织样本是从2015年7月到2016年6月在浙江大学医学院附属第一医院收集。收集过程中,由经过统一培训的医生、护士、科研人员获得标本的相关信息,包括年龄、性别、身高、体重等。组织样本经过资深病理专家的检测,认定样本在组织形态学上与癌组织或癌旁组织的特性吻合。
该研究获得了浙江大学医学院附属第一医院伦理委员会的批准,得到了每位受试者的知情同意和签署的知情同意书。所有实验都遵循赫尔辛基宣言及其修改案。
33位HCC患者中,1例为酒精肝硬化进展为肝癌,其余32例为乙肝性肝癌。男性多于女性,为27位,而女性患者只有6位。8种血清标志物中阳性率最低的是碱性磷酸酶(alkaline phosphatase,ALP),只有2名患者的该指标高于正常值范围,阳性率只有6%(2/33);甲胎蛋白(alpha fetal protein,AFP)的阳性率最高,为60%(20/33);所有患者的Child-Pugh评分都为A级。组织样本来源的HCC患者的临床资料如表1所示。
表1 HCC患者临床信息
Figure BDA0004131962020000061
Figure BDA0004131962020000071
(2)统计学分析:本研究中所有的统计学分析均在R(v.4.0.3)中完成。对于33对肝癌与癌旁样本的WGBS数据,我们采用配对t检验对肿瘤组织与癌旁组织进行差异分析。斯皮尔曼(Spearman)相关系数计算两组数据之间的相关性,相关系数的绝对值(|cor|)大于3被认为是存在相关性,cor>0为正相关,cor<0为负相关。P值小于0.05为显著性的标准。
所用原料及试剂均可由市场购得。
下面结合实施例,进一步阐述本发明:
实施例1肝细胞癌甲基化公共数据集
本发明从美国国家生物技术信息中心(National Center for BiotechnologyInformation,简称NCBI)高通量基因表达数据库(Gene Expression Omnibus,简称GEO)下载HCC相关的450K甲基化芯片数据集4个(GSE54503,GSE56588,GSE89852和GSE113017)。我们又从UCSC Xena网站(https://xenabrowser.net/datapages/)下载了TCGA数据库的甲基化芯片数据、对应的临床信息和甲基化芯片注释文件,如表2所示。我们先用R包wateRmelon的betaqn函数对5个450K甲基化芯片的公共数据集分别进行标准化。
表2公共数据集样本信息
Tissue Control(N) HCC(N) Platform
GSE54503 66 66 450K
GSE56588 10+9 224 450K
GSE89852 37 37 450K
GSE113017 29 29 450K
TCGA-HCC 50 380 450K
Total 201 736
实施例2全基因组甲基化测序和数据处理
本发明使用酚氯仿法提待测样本的肝脏癌和癌旁组织的总DNA,用Nanodrop检测DNA的纯度(OD260/280比值),Qubit 3.0对DNA浓度进行精确定量。然后,以200ng DNA先进行超声破碎成长度约300bp的DNA片段,然后进行测序文库的构建,并用生物样本分析仪(Agilent 2100 TapeStation系统)进行文库质控。我们利用EZ DNA甲基化试剂盒(货号:D5030)对文库进行重亚硫酸盐转化,随后使用Agilent 2100对文库的插入片段长度进行检测,使用q-PCR方法对文库的有效浓度进行准确定量,以保证文库的质量。库检合格后,对文库进行pooling,然后上机进行150bp双端高通量测序(Illumina Xten平台)。
下机的测序数据,用Cutadapt软件(v.1.18)去除接头片段。使用Trimmomatic软件(0.33)去除数据中的低质量碱基或序列,从而得到clean reads。随后,用默认参数设置下的Bismark软件进行参考基因组(hg38)比对。比对完成后,通过软件Bismark的bismark_methylation_extractor功能提取每个CpG的信息,然后将正链和负链上的CpG进行合并,从而得到每个CpG位点的甲基化率。我们将测序深度小于5×的CpG位点设为缺失值(notavailable,NA),将所有样本中缺失率超过50%的CpG位点去除。进一步地,我们也去除了与常见变异(common variants)位置重叠的CpG位点。然后,使用DSS软件(v.2.26.0)对保留下来的CpG位点进行平滑化(smooth)处理,最后得到CpG位点的甲基化水平矩阵。
实施例3差异甲基化位点的鉴定
差异甲基化位点(Differentially Methylated CpG loci,DML)是甲基化研究的基础环节,对于后续寻找生物标志物(biomarker)有重要意义。DML的分析是比对肿瘤组织和癌旁组织的甲基化水平(β值),获得差异的β值(Δβ),从而得到肿瘤组织的差异甲基化位点。
我们运用R包BWStest(v.0.2.2)对上述获得的每个样本CpG位点的甲基化水平矩阵进行基于B检验(Baumgartner-Weiβ-Schindlertest)校正年龄的差异甲基化分析,鉴定出差异的甲基化位点(DML)。具体地,针对每一个甲基化CG位点,在每一个年龄组内分别进行单独的BWS检验得到相应的两个方向的P值(即P左侧和P右侧)。随后,每个位点在三个年龄组的同一方向的P值进行结合得到新的两个统计值T左侧和T右侧(T左侧/T右侧=-2×∑log10(P左侧/P右侧)),并转换得到新的统计值T(T=max(T左侧,T右侧))。通过2.0×108次的对样本标签的随机排列得到联合BWS检验的T值的经验分布。最后根据每个位点的T值在经验分布中的位次,得到每个甲基化位点相应的经验P值。其中联合BWS检验P值小于1.0×105的位点被鉴定为DML。
实施例4公共甲基化芯片数据标准化(Normalization)及与DML位点
为了用DML发现可泛化的HCC生物标志物,我们将DML基因组坐标与实施例1获得的5个450K公共数据集(TCGA-LIHC,GSE54503,GSE56588,GSE89852和GSE113017)的CpG位点进行交集。具体地,我们将5个公共数据集中经过标准化保留下来的CpG位点,与上述DML进行交集。各数据集之间没有进行批次校正,以确保数据集之间的相互独立性。
实施例5基于交集DML的样本主成份分析(PCA)及聚类分析
基于WGBS进行生物标志物发掘,需要确认所分析的位点具有普遍的甲基化差异,而不受病因、人种、实验批次等效应的影响,才能发掘出具有可泛化能力的标志物。因此,我们基于交集位点的甲基化数据对6个相互独立数据集所有样本(N=1003)进行主成份分析(principal component analysis,PCA)。在此基础上,我们也对所有样本进行了聚类分析(clustering),并通过R的“pheatmap”包进行可视化展示。
实施例6基于机器学习的肝细胞癌的二分类模型构建
为了进一步证实33对样本WGBS数据发掘标志物的泛化能力,我们基于DML进行机器学习,构建一个二分类模型并利用5个外部数据集进行分类性能验证,构建流程如图1所示。
(1)随机森林特征筛选
随机森林(Random Forest,RF)的原理是从训练样本集中有放回随机抽样本的方式,获得新的训练集,生成的分类树组成随机森林,新数据的分类结果按分类树投票打分。通过打分,使得整体模型具有较高的精确度和泛化性能。
本实施例中,我们使用R语言中caret包的createDataPartition函数对WGBS的样本进行分组:75%的样本作为训练集,25%作为测试集。然后,用caret包的rfe函数对训练集中的甲基化位点进行特征筛选。筛选过程中,采用10折交叉验证。代码如下:
library(caret)
library(e1071)
library(kernlab)
setwd(″/data/RandomForest″)
data<-read.table(″MET_train.txt″,sep=\t″,header=T,row.names=1,check.names=F)
x<-scale(data[,2:ncol(data)])
x<-x[,-findCorrelation(cor(x),.8)]
x<-as.matrix(x)
y<-as.matrix(data[,1])
subsets<-seq(2,20,1)
set.seed(123)
RFfile<-rfe(x,y,sizes=subsets,rfeControl=rfeControl(functions=rfFuncs,method=″cv″,verbose=F,returnResamp=″all″))
RFfile$optVariables
(2)利用弹性网络回归(Elastic Net)构建分类模型
弹性网络回归(Elastic Net,ELNET)是LASSO回归和岭回归的混合体,是一种同时使用L1和L2先验作为正则化矩阵的线性回归模型。Macros研究认为,对于脑部肿瘤的450K甲基化芯片数据,ELNET构建的二分类模型比随机森林(Random Forest,RF)和支持向量机(support vector machines,SVM)所构建模型的性能更优秀。本实施例研究利用的是甲基化数据,与上述研究相似,因而,本实施例也采用了ELNET进行分类模型的构建。
在本实施例中,我们用筛选特征后的训练集数据,使用R语言的glmnet包进行ELNET的模型构建。模型构建过程中,采用10折交叉验证进行模型优化。其脚本如下:
set.seed(2020)
a<-seq(0.1,0.9,0.05)
search<-foreach(i=a,.combine=rbind)%dopar%{
cv<-cv.glmnet(x,y,family=″binomial″,nfold=10,type.measure=″deviance″,paralle=TRUE,alpha=i)
data.frame(cvm=cv$cvm[cv$lambda==cv$lambda.1se],lambda.1se=cv$lambda.1se,alpha=i)
}
cv<-search[search$cvm==min(search$cvm),]
md<-glmnet(x,y,family=″binomial″,lambda=cv$lambda.1se,alpha=cv$alpha)
coef(md3)
此后,我们用构建的ELNET模型,计算WGBS和公共数据集中每个样本的甲基化二分类分数(methylation binary classification score,mBCS)。我们采用受试者特征曲线(receiver operator characteristic,ROC)的曲线下面积(Area Under The Curve,AUC)和混淆矩阵对模型的分类性能进行验证。
验证例1二分类模型(mBCS)与临床特征的相关性
我们进一步分析了所构建的二分类模型在不同性别、年龄分组等之间的差异以及与AFP等临床信息的相关性。
验证例2二分类模型(mBCS)与免疫细胞浸润水平的关系
我们对33对HCC样本的mRNA-Seq数据进行了ssGSEA分析,获得每个组织样本中23种免疫细胞的浸润水平,如表3~表8所示。随后将每个样本的mBCS与每种免疫细胞的浸润水平进行相关性分析。结果显示,mBCS与17种免疫细胞的浸润水平呈显著相关,如图2所示。在显著相关的免疫细胞类型中,只有活性CD4+ T细胞、CD56 bright NK细胞和CD56 dim NK细胞与mBCS呈正相关,而另外14种免疫细胞,包括活化的B细胞、活化的CD8+ T细胞、嗜酸性粒细胞、未成熟B细胞、未成熟树突细胞、髓源性抑制细胞、巨噬细胞、肥大细胞、单核细胞、NK细胞、嗜中性粒细胞、调节性T细胞、Th1和Th17细胞则与mBCS呈显著负相关。
通过ssGSEA分析,发现mBCS与多种免疫细胞浸润水平呈显著负相关,部分揭示了mBCS与肿瘤发生的机制可能与免疫缺失有关。
表3 ssGSEA分析每个样本23种免疫细胞的富集分数
Figure BDA0004131962020000121
Figure BDA0004131962020000131
表4 ssGSEA分析每个样本23种免疫细胞的富集分数
Figure BDA0004131962020000141
/>
Figure BDA0004131962020000152
表5 ssGSEA分析每个样本23种免疫细胞的富集分数
Figure BDA0004131962020000151
/>
Figure BDA0004131962020000161
表6 ssGSEA分析每个样本23种免疫细胞的富集分数
Figure BDA0004131962020000162
/>
Figure BDA0004131962020000171
Figure BDA0004131962020000181
表7 ssGSEA分析每个样本23种免疫细胞的富集分数
Figure BDA0004131962020000182
/>
Figure BDA0004131962020000191
表8 ssGSEA分析每个样本23种免疫细胞的富集分数
Figure BDA0004131962020000192
/>
Figure BDA0004131962020000201
效果例1差异甲基化位点(DML)的鉴定结果
实施例3中经过QC的WGBS下机数据,平均覆盖深度达到12.76×,包含28,978,826个CpG位点。经过smooth处理后,约34%(9,867,700个)的CpG位点在癌与癌旁组织间的甲基化水平存在显著差异。其中,157,320个位点是高甲基化(Hyper-methylated),9,710.380个位点是低甲基化(Hypo-methylated)。基因坐标位置显示,高甲基化位点主要位于基因启动子区,而低甲基化位点主要位于基因区(gene body)。
以上结果显示,基于WGBS分析的DML的数量比甲基化芯片发现的差异位点至少高出一个数量级,证明了WGBS技术对HCC差异甲基化更全面解析的优势,也提示基于WGBS的DML进行诊断标志物发掘的数量优势。
效果例2差异甲基化位点与450K甲基化芯片位点的交集
实施例4中,由于上述DML的鉴定只有33对肝脏组织,而肝细胞癌的病因复杂、异质性高,所以这些DML的数据集特异性是基于这些DML发掘的生物标志物首先需要回答的问题。因此,我们对鉴定的差异甲基化位点(differential methylated loci,DML)与另外5个独立的HCC甲基化芯片数据集进行整合分析。5个HCC相关450K甲基化芯片公共数据集的样本数量如表2所示。
5个450K芯片数据集分别经过标准化后,与实施例3中的DML进行交集。结果发现共有11,352个CpG位点在6个数据集中都存在。提取每个数据集中11,352个交集位点的甲基化矩阵,不进行批次校正,以保证6个数据集之间的相互独立。再基于这6个相互独立数据集的11,352个交集位点数据进行DML所发掘标志物泛化能力的分析。
效果例3六个相互独立数据集样本的主成份分析和聚类分析
我们对6个相互独立数据集中样本(N=1003)的11,352个位点甲基化数据进行主成份分析(PCA)。结果如图3A所示,肿瘤(Tumor)样本较为分散,而正常(Normal)样本聚集在二维图的左上角,同时,各数据集之间混合一起,没有明显聚集,说明WGBS鉴定的DML没有明显的批次差异,而且可以区别肿瘤和正常样本。
样本聚类分析结果也显示,正常肝组织样本(Normal)聚集在左侧,而肿瘤组织(Tumor)聚集在右侧,而数据集之间没有明显聚集,也证明了DML在组织类型间的差异大于数据集(datasets)之间的批次差异。这一结果提示了DML发掘生物标志物的泛化能力。
效果例4随机森林特征选择
我们将33对WGBS的样本进行拆分,形成25对(75%)样本的训练集和8对(25%)样本的测试集。随后利用随机森林(random forest,RF)算法对训练集进行特征选择,选取对识别HCC最具关联的CpG子集,进行下一步的机器学习模型训练。十折交叉验证选出最优随机森林模型的13个特征CpG位点(如图4所示)。
效果例5弹性网络回归的分类模型构建和验证
我们用弹性网络(ELNET)回归算法,进行十折交叉验证构建最优的HCC分类模型。最优模型时α=0.15,λ=0.00057,用11个CpG位点的甲基化水平(β值)为模型变量(如表9所示),计算二分类模型分数。CpG位点对应的基因也一并展示在表9中。
表9 ELNET模型中CpG位点及对应的基因和模型中的回归系数
CpG Markers Position Ref Gene Coefficients
cg26492368 Chr10:22345804 SPAG6 8.1559394
cg26608718 Chr19:15419926 AKAP8L -8.4531282
cg19516340 Chr2:10123569 RRM2 -6.1125863
cg02554274 Chr11:788180 CEND1 -3.4444817
cg09341491 Chr16:50673884 SNX20 6.8589209
cg13788685 Chr1:161313856 SDHC -3.7790125
cg08383929 Chr5:181219754 - 7.0882640
cg03526459 Chr1:147078392 NBPF13P,RNVU1-8 3.3835278
cg14304336 Chr10:126463525 C10orf90 -6.0109634
cg27039312 Chr8:142544430 BAI1 -4.5737240
cg26956009 Chr19:2356488 - -5.3367444
二分类模型分数的计算公式如下:
mBCS=0.3948785+∑βiEi
此处,i指代11个CpG位点;β代表自变量,即位点i的甲基化水平;E代表回归系数,其中,甲基化水平通过CpG位点发生甲基化和未甲基化等位基因之间的强度比来确定(β值)。
基于甲基化模型打分公式,计算训练集、测试集和5个公共数据集中每个样本的mBCS分数,并对每个数据集分别进行ROC曲线分析二分类模型分数的灵敏性和特异性。结果显示,训练集和测试集的AUC为1,显示了该模型的性能在同一个数据集中是优越的。该二分类模型在5个公共验证数据集的AUC分别为TCGA-LIHC的0.984,GSE54503的0.970,GSE56588的0.994,GSE89852的0.999,和GSE113017的1(如表10和图5所示)。在5个验证数据集中,分类模型的AUC不低于0.97,显示了分类模型的优越性能。这一结果再次证实DML在各数据集的一致性。
表10分类模型分数(mBCS)在数据集中分类性能的AUC
Dataset Control(N) HCC(N) AUC
Trianing 25 25 1.000
Test 8 8 1.000
GSE54503 66 66 0.970
GSE56588 10+9 224 0.994
GSE89852 37 37 0.999
GSE113017 29 29 1.000
TCGA-LIHC 50 380 0.984
以mBCS大于等于0.5为阳性,小于0.5为阴性,建立混淆矩阵。结果显示,二分类模型(mBCS)的总体正确率为85.6%(如表11所示),灵敏性和特异性分别为81.4%和99.6%。此外,我们制作了11个CpG位点在不同数据集中每个样本的甲基化水平展示热图(如图6所示)。
表11二分类模型分数(mBCS)的预测混淆矩阵
Figure BDA0004131962020000241
效果例6二分类模型与临床特征的相关性
根据上述分析结果可知,二分类模型(mBCS)对于HCC样本识别的灵敏性存在可提高空间。由于TCGA-LIHC有较为完善的临床信息和较大的样本量。我们对TCGA-LIHC队列中的HCC患者肿瘤组织样本的临床信息与二分类模型的预测结果进行了分析。结果如表12所示,mBCS对不同病理分期、年龄、性别分组的HCC识别率没有显著差异。
表12 mBCS预测结果与临床特征
Figure BDA0004131962020000242
/>
Figure BDA0004131962020000251
/>
Figure BDA0004131962020000261
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.CpG位点,其特征在于,包括cg26492368、cg26608718、cg19516340、cg02554274、cg09341491、cg13788685、cg08383929、cg03526459、cg14304336、cg27039312或cg26956009中的一种、多种或其组合。
2.检测标志物,其特征在于,包括SPAG6、AKAP8L、RRM2、CEND1、SNX20、SDHC、NBPF13P、RNVU1-8、C10orf90或BAI1中的一种、多种或其组合。
3.如权利要求1所述的CpG位点或如权利要求2所述的检测标志物在制备检测肝癌的产品中的应用。
4.二分类模型,其特征在于,其计算公式为:mBCS=0.3948785+∑βiEi;其中i为如权利要求1所述的CpG位点,β为如权利要求1所述CpG位点的甲基化水平,E为如权利要求1所述CpG位点的回归系数。
5.如权利要求4所述的二分类模型,其特征在于,所述CpG位点的回归系数与所述CpG位点的对应关系为:
Figure FDA0004131962000000011
6.如权利要求4或5所述的二分类模型在评价检测标志物的泛化能力中的应用。
7.如权利要求6所述的应用,其特征在于,所述评价的标准包括:当所述mBCS大于等于0.5为阳性,当所述mBCS小于0.5为阴性。
8.如权利要求4或5所述的二分类模型在制备检测免疫细胞浸润程度的产品中的应用。
9.如权利要求8所述的应用,其特征在于,所述免疫细胞包括:CD8阳性T细胞、树突细胞、巨噬细胞、自然杀伤T细胞或调节性T细胞中的一种或多种。
10.检测方法,其特征在于,获得待测样品的CpG位点的甲基化水平,代入如权利要求4或5所述的二分类模型,获得检测结果。
CN202310258253.8A 2023-03-10 2023-03-10 检测标志物、二分类模型及其应用 Pending CN116287269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310258253.8A CN116287269A (zh) 2023-03-10 2023-03-10 检测标志物、二分类模型及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310258253.8A CN116287269A (zh) 2023-03-10 2023-03-10 检测标志物、二分类模型及其应用

Publications (1)

Publication Number Publication Date
CN116287269A true CN116287269A (zh) 2023-06-23

Family

ID=86837547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310258253.8A Pending CN116287269A (zh) 2023-03-10 2023-03-10 检测标志物、二分类模型及其应用

Country Status (1)

Country Link
CN (1) CN116287269A (zh)

Similar Documents

Publication Publication Date Title
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US20200270707A1 (en) Methylation pattern analysis of haplotypes in tissues in a dna mixture
CN103733065B (zh) 用于癌症的分子诊断试验
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
AU2018305609B2 (en) Enhancement of cancer screening using cell-free viral nucleic acids
CN111863250B (zh) 一种早期乳腺癌的联合诊断模型及系统
US20210115520A1 (en) Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
JP5608169B2 (ja) 遺伝子コピー数の変化のパターンに基づいた悪性メラノーマのゲノム分類
CN114203256A (zh) 基于微生物丰度的mibc分型及预后预测模型构建方法
Houseman et al. Copy number variation has little impact on bead-array-based measures of DNA methylation
KR20170032892A (ko) 난소암의 예후 예측용 유전자 선별방법
CN113168885A (zh) 用于体细胞突变的方法和系统及其用途
CN116287269A (zh) 检测标志物、二分类模型及其应用
CN113811621A (zh) 确定rcc亚型的方法
KR20160086496A (ko) 난소암의 예후 예측용 유전자 선별방법
CN117625793B (zh) 一种卵巢癌生物标志物的筛选方法及其应用
EP4234720A1 (en) Epigenetic biomarkers for the diagnosis of thyroid cancer
TWI676688B (zh) 辨識細胞種類型之方法及系統
CN117625793A (zh) 一种卵巢癌生物标志物的筛选方法及其应用
KR20240063745A (ko) Cell-free DNA 를 이용한 건강 및 질병관리 시스템 및 방법
KR101244543B1 (ko) 17-β 에스트라디올에 대한 노출 여부 판단용판단용 유전자 마커군, 마이크로어레이 칩 및 이를 이용한 판단 방법
Cheng Enhanced inter-study prediction and biomarker detection in microarray with application to cancer studies
Chaudhary VISUAL AND STATISTICAL-BASED CROSS-PLATFORM NORMALIZATION ON GENE EXPRESSION DATA OF ORAL CANCER
CN106868191A (zh) 真核翻译延伸因子在检测乳腺癌试剂中的应用
Kuijjer A systems biology approach to study high-grade osteosarcoma

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination