CN113234817A

CN113234817A - 利用CpG位点甲基化水平检测早期肝癌的标志物

Info

Publication number: CN113234817A
Application number: CN202110398309.0A
Authority: CN
Inventors: 张永宏; 李康
Original assignee: Beijing Youan Hospital
Current assignee: Beijing Youan Hospital
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-08-10
Anticipated expiration: 2041-04-14
Also published as: CN113234817B

Abstract

本发明公开了一种利用CpG位点甲基化水平检测早期肝癌的标志物。其用于检测早期肝癌，主要包括如下甲基化位点：cg14171514、cg07721852、cg05166871、cg18087306、cg05213896、cg18772205。本发明采用CpG位点甲基化水平变化检测早期肝癌，无需传统肝活检，CT、MRI和其他影像学检查，检测水平可靠性高，开发了一种对人体肝脏无损检测的新方法。

Description

利用CpG位点甲基化水平检测早期肝癌的标志物

技术领域

本发明属于肝病检测技术领域，具体涉及一种利用CpG位点甲基化水平检测早期肝癌的标志物。

背景技术

乙肝相关肝癌已成为严重威胁我国人民生命健康的常见疾病：我国是乙型肝炎病毒 (Hepatitis B virus,HBV)感染高流行国家，人群乙肝表面抗原(HBsAg)携带率为7.18％，现有慢性HBV感染者约9300万人。HBV感染者发生原发性肝癌(Primaryhepatocellular carcinoma，HCC)的可能性是正常人群的100倍。同时我国也是原发性肝癌高发国家，全球每年新发肝癌约100万，我国占55％；平均每年每10万人口中35人患有HCC，明显高于欧美国家。目前，我国每年死于肝癌的人数超过20万，在肿瘤相关死亡中仅次于肺癌，位居第二。因此，针对乙肝相关肝癌防治因素的研究对于提高我国人民健康水平具有重要意义。

乙肝相关肝癌早期诊断标志物研究的问题与局限：近年来肝癌诊断标志物在基因组、 MicroRNA及蛋白组学等基础研究方面硕果累累。但因肝癌细胞生物学特性具有复杂性及多态性，不同时期的癌细胞在生长速率、表面受体、免疫特性、浸润性、转移性、对药物毒性方面均可能不同，且肝癌细胞具有显著的异质性，在原发肝癌肿瘤细胞中存在着不同的肿瘤细胞亚群，这些亚群具有不同的形态、不同的增殖能力、不同的表型和染色体组型的特征。肝癌细胞的异质性导致了相关标志物检测的差异较大，导致基础研究发现的标志物在临床转化验证时缺乏普遍适用性。如：AFP-L3、DCP、GPC3、GP73、VEGF、AFU、IGF-Ⅱ等虽为目前国际肝癌诊断领域最有价值的标志物，每一种肿瘤标志物在诊断价值上都有其独特的优势，但也因肝癌异质性而导致其诊断局限性，特别是在肝癌早期诊断方面，尚无特异性早期诊断标志物。综上所述，目前乙肝相关肝癌早期诊断标志物研究的科学问题在于如何解决肿瘤异质性。

机体免疫在控制肝癌发生发展中发挥重要作用，肝癌相关免疫反应标志物成为肝癌早期诊断标志物研究新方向：乙肝相关肝癌的发生发展经历一个相对较长的过程，可以分为免疫清除期、免疫平衡期和免疫逃逸期：基于临床症状又可分为分子进展期、前临床期和临床症状期。分子进展期包括基因突变、细胞转换和免疫清除，对应于免疫清除期；前临床期又可分为初始期(即免疫平衡期：肿瘤形成但现有影像检测方法无法检测)和前临床诊断期(肿瘤可以检测到但尚无临床症状)，临床症状期(对应免疫逃逸期)即现在统称肿瘤晚期，癌肿4.5-8厘米并伴有明确临床症状。由此可见，宿主免疫系统通过“免疫监视”功能，参与肿瘤发生、发展的全过程，随着肿瘤负荷变化而发生动态变化，并不受肝癌异质性影响。因此，以肝癌相关免疫反应变化为核心的标志物研究可成功解决肿瘤异质性难题，成为肝癌早期诊断标志物筛选的新思路。

DNA甲基化谱全面系统展现肝癌相关免疫动态变化，在肝癌早期诊断标志物研究中优势凸显：机体免疫系统通过“免疫监视”功能，包括：抗原识别、抗原递呈、细胞毒作用等参与肿瘤发生、发展的全过程，参与的免疫细胞，免疫分子数百种，而且呈现动态网络变化，单一监测某种细胞或细胞因子不足以反映机体免疫系统在肝癌发生发展中的整体变化。因此，虽然机体免疫在控制肝癌发生发展中发挥重要作用已经成为共识，但至今尚未发现某种免疫标志物可用于肝癌的诊断。随着人类基因组测序计划的完成，以及基因组学、蛋白组学、高通量测序技术的广泛应用，DNA甲基化在细胞正常发育、遗传、基因表达调控、基因修复以及染色体稳定等方面发挥的重要作用亦日渐凸显。涵盖450000免疫功能位点的DNA甲基化谱可全面、系统展现免疫系统在肝癌各期病情进展中的细微变化。因此，通过DNA甲基化谱全面展现肝癌相关免疫动态变化，进而筛选肝癌早期诊断标志物成为肝癌诊断标志物研究新亮点。

发明内容

本发明的目的在于提供一种利用CpG位点甲基化水平检测早期肝癌的标志物。

一种利用CpG位点甲基化水平检测早期肝癌的标志物，其特征在于，所述标志物包括如下甲基化位点：cg04998202、cg20253872、cg05702218、cg12467404、cg14171514、cg07721852、 cg03734874、cg05891094、cg21402921、cg04484415、cg27395066、cg05166871、cg11783901、 cg22632947、cg02185248、cg18087306、cg05213896、cg09404516、cg09778596、cg01620164、 cg15462501、cg25635352、cg18772205、cg09470983、cg04398282、cg17588578、cg15747825、 cg14279856、cg20445774、cg04749631、cg04115680、cg21183256、cg27616227、cg02243522。

扩增所述利用CpG位点甲基化水平检测早期肝癌的标志物的引物。

所述引物序列如序列表SEQ ID NO：1-SEQ ID NO：68所示。

所述利用CpG位点甲基化水平检测早期肝癌的标志物在评估早期肝癌中的应用。

所述利用CpG位点甲基化水平检测早期肝癌的标志物在制备检测早期肝癌的试剂盒中的应用。

优选的，所述检测早期肝癌采用如下标志物：cg14171514、cg07721852、cg05166871、cg18087306、cg05213896、cg18772205；

早期肝癌患病概率采用如下公式计算：

其中，

X＝-1.0944708-0.7183741×G+1.7286974×A+0.2761166×log₁₀(AFP)+0.7902764×SCms；

式中，G为性别、A为年龄、AFP为甲胎蛋白；

SCms＝-0.8711-3.7342*cg14171514+2.5885*cg07721852+6.9108*cg05166871-9.8593*cg180873 06+4.5009*cg05213896+4.3853*cg18772205。

本发明的有益效果：本发明采用CpG位点甲基化水平变化检测早期肝癌，无需传统肝活检，CT、MRI和其他影像学检查，检测水平可靠性高，开发了一种对人体肝脏无损检测的新方法。本发明HCCe模型中包括年龄、性别、AFP和six-CG-mixer没有其他相关风险因子。单因素分析后的独立风险因子包括训练集中通过单因素风险分析年龄、性别、ALT、AST、DBIL、γ-GT、ALP、单核细胞、log(AFP)、Six-CGs-mixer独立风险因子。多因素风险分析由于共线性的影响只有年龄、性别、log(AFP)、Six-CGs-mixer。Six-CGs-mixer相对于其他临床资料更加具有诊断价值。

附图说明

图1为本发明思路总体方案。

图2为veen图展示CHB相对各期HCC的特异性CGs。

图3为HCC早期肝癌特异性CGs，无监督聚类分析能够将肝病与HCC早期肝癌区分开。

图4为Targeted Bisulfite Sequencing流程图。

图5A：LASSO-交叉验证(cross validation)拟合选取34CGs出11个(p<0.05)每一条曲线代表了每一个自变量系数的变化轨迹，纵坐标是系数的值，下横坐标是log(λ)，上横坐标是此时模型中非零系数的个数；B：对于每一个λ值，在红点所示目标参量及其置信区间。两条虚线分别指示最小λ值(λmin)和标准差λ值(λ1se)，λ1se所示模型最简单。

图6全子集回归筛选6个CGs位点；A car：subsets函数筛选两种最优组合；Bleaps： regsubsets筛选最优组合结果。

图7为Six-CGs-mixer及单独每个CGs的在训练集A、B的AUROC。

图8为HCCe Model在训练集A、B、C的AUROC。

图9为HCCe Model在训练集A的列线图及其校正曲线。

图10为HCCe Model在验证集B的列线图及其校正曲线。

图11为HCCe Model在验证集C的列线图及其校正曲线。

图12为训练集A列线图的DCA分析和临床影响分析。

图13为验证集B(早期HCC)列线图的DCA分析和临床影响分析。

图14为验证集C(晚期HCC)列线图的DCA分析和临床影响。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

本发明从2009年开始建立乙肝相关疾病队列，目前共收集队列患者2113例，其中慢性乙型肝炎244例，乙肝肝硬化1045例，原发性肝癌824例。所有患者均有详细医疗记录和标本(血浆、PBMC、DNA)保存，并签署知情同意。本队列特点：上述2113例患者均每3个月动态随访一次，所有临床资料包括临床症候学、临床检验学、临床影像学、临床病理学和预留的血浆、细胞标本。上述队列建设已获得北京市临床数据库和样本资源库支持，相关信息见www.beijingbiobank.cn/Web/。

本发明拟在前期筛选肝癌早期及各期特异性外周血单个核细胞DNA甲基化谱的基础上，运用已建设的乙肝相关疾病研究队列和以临床分期为基础的五位一体数据样本资源库；基于二代测序的技术的多重亚硫酸测序(Multiplex Bisulfite Sequencing，MBS)；检测34个乙肝相关肝癌早期特异性DNA甲基化标志物的甲基化比率。

运用乙肝相关疾病研究队列，检测乙肝相关肝癌早期特异性DNA甲基化标志物，带入肝癌早期诊断模型，比较DNA甲基化诊断模型阳性者肝癌患病率是否显著高于诊断模型阴性者，进一步验证乙肝相关肝癌早期特异性DNA甲基化诊断标志物组合诊断模型的临床诊断价值，包括：诊断符合率、灵敏度、特异度、阳性预测值和阴性预测值。如图1为本发明思路总体方案。

实施例1

既往肝癌相关免疫研究多针对免疫细胞或免疫分子，本实施例基于当前组学研究成果，运用高通量测序方法，从目前发现的450000个免疫功能位点相关的DNA甲基化谱中全面、系统展现免疫系统在肝癌发生发展中的细微变化。样本量计算采用如下公式：

其中设定α＝0.05，β＝0.10，通过计算,横断面研究的七组(正常人群、慢性乙型肝炎、乙肝肝硬化、乙肝相关肝癌早早期、早期、进展期及晚期)患者各100例。

入组标准：年龄：18-70岁；性别：不限；民族或地区：不限；慢性乙型肝炎诊断依据2015年度APASL病毒性肝炎防治指南，具体如下：肝炎病程超过半年,或原有乙型肝炎或HBsAg携带史,本次又因同一病原再次出现肝炎症状、体征及肝功能异常，但是没有肝硬化表现，可诊断为慢性乙型肝炎。乙肝相关肝硬化诊断依据2010年中华医学会病毒性肝炎防治指南，具体如下：具有乙肝病毒慢性感染病史，影像学提示弥漫肝纤维化，再生结节形成，其他表现可有脾大、脾功能亢进、食管胃底静脉曲张，金标准为病理检查发现再生结节；乙肝相关肝癌诊断依据2012年EASL指南EASL–EORTC Clinical Practice Guidelines:Management ofhepatocellular carcinoma，具体如下：具有乙肝病毒慢性感染病史，CT或MRI四期增强扫描表现为典型的动脉灌注快速流出，病理学检查为金标准。乙肝相关肝癌分期依据2012年EASL指南EASL–EORTC Clinical Practice Guidelines:Management ofhepatocellular carcinoma(巴塞罗那标准),其中0期定义为早早期、A期定义为早期肝癌，B期定义为进展期肝癌，C期与D期定义为晚期肝癌。正常人群诊断依据明确排除慢性乙型肝炎，乙肝肝硬化和原发性肝癌，并自愿参加本研究的正常人群。

排除标准：非乙肝相关肝病或肝癌；孕妇或围产期妇女；有乙肝相关肝癌以外其他恶性肿瘤病史者；有HIV感染者。

观察指标：血常规、肝脏功能、血生化、HBV-DNA、HBV-M、B超、胃镜、CT或肝脏病理。

采用横断面研究，比较肝癌早期特异性DNA甲基化诊断标志物在七组人群中的差异，确定最佳诊断界值，采用回归分析、聚类分析等数学方法优化乙肝相关肝癌早期诊断模型，具体如下：

根据入选、排除标准从乙肝相关肝癌临床数据样本资源库中筛选符合本研究的七组(正常人群、慢性乙型肝炎、乙肝肝硬化、乙肝相关肝癌早早期、早期、进展期及晚期)患者各 100例；

运用MBS检测肝癌早期特异性DNA甲基化诊断标志物的甲基化比率；采用基因分析平台(http://www.broadinstitute.org/)和Venn Diagram等甲基化分析软件和数据分析模型，确定乙肝相关肝癌早期特异性DNA甲基化诊断标志物的最佳诊断界值和诊断模型。

筛选出能够肝病中区分出HCC早期的CGs位点：在原来5个CG位点(cg04398282、cg03956042、cg09435170、cg05941376、cg24754223)基础进一步分析，结合后续实验，通过无监督聚类分析找出34个CGs能够在肝病中区分出HCC早期肝癌。

通过limma差异性分析筛选出CHB与HCC各期特异性CGs(CHB vsHCC1:2285CGs，CHBvsHCC1:2233CGs，CHB vsHCC2:2285CGs，CHB vsHCC3:3345CGs，CHB vsHCC4:23596CGs)。其中326CGs是CHB相比HCC1和HCC2特异性的位点。在326CGs 位点中deltabeta的绝对值>0.2有34个。与后续分析的挑选出的位点一个39个用于下步分析(图2-3)。

实施例2基于二代测序的技术的Targeted Bisulfite Sequencing

1、DNA重亚硫酸盐处理

根据说明书方法，使用Zymo产的直接亚硫酸盐转化试剂盒(Zymo Research,货号D5020)对细胞样品进行处理。完成后，使用单链DNA Qubit 2.0检测试剂盒(Thermo,货号Q10212)对对获得的DNA进行浓度测定，以确保获得足量的转化后DNA。

2、多重扩增及高通量测序

设计并合成好一个包含34个CpG位点的引物池(如序列表SEQ ID NO：1-SEQ IDNO： 68所示)，然后通过两步PCR的方法完成目标甲基化位点序列的扩增和兼容Illumina测序文库的制备。第一轮PCR体系如下：DNA模板5μl；上游引物池(10μM)1μl；下游引物池(10 μM)1μl；2×PCR Ready Mix 15μl(总体积25μl)(KAPAHiFi HotStart Uracil+ReadyMix)。配制好反应体系后，在PCR仪(BIO-RAD，T100TM)上执行以下反应程序：98度预变性3分钟，然后执行27个循环，条件是98度变性20秒，60度退火4分钟，最后72度延伸2分钟。反应完成后，恒温保持10度。PCR反应完成后，使用1％的琼脂糖胶电泳检测PCR产物，确定产物大小正确，使用AMPure XP磁珠纯化回收PCR产物。然后以第一轮PCR产物为模板执行第二轮PCR反应，以获得测序带分子标签的文库。反应体系如下：DNA模板 (10ng/μl)2μl，通用P7引物(含分子标签，10μM)1μl；通用P5引物(含分子标签，10μM)1μl； 2×PCR Ready Mix 15μl(总体积30μl)。

配制好反应体系后，执行如下PCR程序：98度预变性1分钟，然后执行8个循环程序，变性98度20秒，60度退火20秒，72度延伸30秒，最终72度延伸2分钟。完成后一直10度。最终PCR产物使用AMPure XP磁珠纯化回收。各个PCR产物等量混合后，使用 HiSeq XTen测序仪(Illumina,San Diego,CA)进行测序。

3、数据质控及基因分型分析

下机数据通过以下2步骤进行数据质控：1)使用cutadapt(v 1.2.1)软件切除任何含有测序接头序列的部分序列；2)使用PRINSEQ-lite(v 0.20.3)软件对剩下的序列进行质控，依照序列的3'端往5'端的顺序，删除质量阈值低于20的碱基。剩下的序列视作质控合格的序列。接着使用Bismark软件(版本v0.22.1)进行甲基化检测，参数为默认参数(图4)。

4.TBS检测34CGs甲基化数据

共有591例样本测序成功，其中健康对照40例，其中CHB 118例，LC 112例，HCC 早早期99例，HCC早期113例，HCC进展期59例，晚期50例。每一例检测34甲基化CGs。

实施例3 LASSO回归筛选HCC早期独立风险CGs位点

通过LASSO回归(Least absolute shrinkage and selection operator)从34CGs筛选出11个 cg14171514、cg07721852、cg05166871、cg18087306、cg05213896、cg18772205、cg15747825、 cg21402921、cg04398282、cg18087306、cg12467404(图5)。

实施例4全子集回归进一步筛选HCC早期独立风险CGs位点

从11个CGs中通过全子集回归将所有可能的组合模型都考虑在内，综合评估由N个不同子集大小的最佳模型。car包也提供subsets函数筛选出两个组合 c14-c07-c051-c052-c187-c21和c14-c07-c051-c052-c187-c21(图6)通过计算方差分析(495.69 vs503.58)和AIC(509.69vs 517.58)计算评估c14-c07-c051-c052-c187-c21最优组合。Leaps： regsubsets函数计算筛选出6个CGs(cg14171514、cg07721852、cg05166871、cg18087306、 cg05213896、cg18772205)为最优CGs位点。两种算法结果一致。最终确定Six-CGs-mixer score (SCms)；

实施例5入组队列临床数据分析

通过随机分配将入组样本分我训练集和验证集，统计分析两个队列的临床数据。结果显示训练集中的HBV相关肝病组与HCC早期组相比的年龄、性别、DBIL、ALT、AST、γ-GT、ALP、单核细胞、AFP存在差异；在验证集中的HBV相关肝病组与HCC早期组相比的年龄、性别、AST、白蛋白、γ-GT、ALP、AFP存在差异。

实施例6单因素多因素风险分析

训练集中通过单因素风险分析年龄、性别、ALT、AST、DBIL、γ-GT、ALP、单核细胞、log₁₀(AFP)、Six-CGs-mixer独立风险因子。多因素风险分析为年龄、性别、log₁₀(AFP)、Six-CGs-mixer。

实施例7 Six-CGs-mixer在训练集AUROC

运用pROC包计算出34个CGs在训练集和验证集(HCCe)AUROC(表1)。其中的筛选出的6个CGs(cg14171514、cg07721852、cg05166871、cg18087306、cg05213896、 cg18772205)和组合Six-CGs-mixer的AUROC(图7)。

表1训练集和验证集中34个CGs位点的AUROC

实施例8 HCC早期诊断模型(HCCe Model)的确定

通过单因素多因素独立风险分析确定了年龄、性别、log₁₀(AFP)、Six-CGs-mixer组成 HCCe Model：

并计算其在训练集AUROC为0.81(0.79-0.88)(图8A)、验证集(HCC早期)AUROC 为0.83(0.78-0.88)(图8B)、验证集(HCC晚期)的AUROC为0.87(0.81-0.92)(图8C )。这些AUROC数值较好＞0.80，表明HCCe Model较好的区分能力。

实施例9 HCC早期诊断模型(HCCe Model)的列线图及其校正曲线

分别绘制HCCe Model在训练集(图9)、验证集(HCC早期，图10)、验证集(HCC 晚期，图11)的列线图和校正曲线。校正曲线表明其HCCe Model诊断与实际临床分组一致性较高。

分别计算出HCCe Model在训练集及验证集中的精度(Precision)、准确度(Accuracy)、敏感性(Sensitivity)、特异度(Specificity)、阳性预测值(Positivepredictive value)、阴性预测值(Negative predictive value)(表2)。结果显示具有较好的诊断精度。

表2 HCCe模型风险估计HCC早期诊断的准确性

实施例10 HCC早期诊断模型(HCCe Model)的临床应用评价

进行DCAs分析训练集中的列线图的(图12左)，验证集(HCC早期)列线图(图13 左)和验证集(HCC晚期)列线图(图14左)。其阈值概率为0-1.0之间所有病人都有收益。基于这些DCA分析我们进一步绘制相应的临床影响曲线来评估它们的实质价值(图12-14右)。危险阈值在0-0.5的范围内，预测的高危人群数量患者的数量总是大于发生HCC 的高危人群，成本效益比在同一范围内是可以接受的。

本发明开发出新的CGs位点甲基化检测技术TBS(Targeted BisulfiteSequencing)，基于二代测序基础上将CGs位点上下游100bp扩增子进行测序.目前最多检测200个样本的40CGs 位点一次实验可得到8000CGs数据，相对焦磷酸测序能够极大提高检测效率。为筛选CGs 位点的标志物模型建立和验证提供技术保障和可能性，同时为机制研究提供新的选择。

序列表

<110> 首都医科大学附属北京佑安医院

<120> 利用CpG位点甲基化水平检测早期肝癌的标志物

<160> 68

<170> SIPOSequenceListing 1.0

<210> 1

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

ttttgtaatt tgggaagagg ggaga 25

<210> 2

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

acacaattcc aactacaacc tttaa 25

<210> 3

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

tggtattgta gaggtggagg ttttt 25

<210> 4

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

ccctcaaaaa ctaacacaaa ctatacca 28

<210> 5

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

gttttggagg gtattggtgt agttg 25

<210> 6

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

attccttaaa atttacttta cttttcaaaa tct 33

<210> 7

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

agaaaagttt tgggaatgga atgta 25

<210> 8

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

aaactcttaa taaaacaaca aaacctact 29

<210> 9

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

agtagatggt ttttgttagg ggtga 25

<210> 10

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

tcaattccta tcatctccac actaa 25

<210> 11

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

agtgtattaa tatttaagaa ttgagtaggt tttt 34

<210> 12

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

accccaaact ccatactaca aacaa 25

<210> 13

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

gggtttaggg gttagagaag gg 22

<210> 14

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

ccctctctct cctaatctcc ttt 23

<210> 15

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

ggtgtggatg tggagtttgt tttta 25

<210> 16

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

cccacaaaaa cttcttctac ccaaa 25

<210> 17

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

tagagatgat atgtggtgtt tgggt 25

<210> 18

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

cactcccaac aaaacaactc ttaca 25

<210> 19

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

tttggggtta ttaggttagg ggg 23

<210> 20

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

aaccctaaaa actataaaat aactcctaaa aa 32

<210> 21

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

tttgggaggt tgtagttgtg gtata 25

<210> 22

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

tcccaactta ctcaaaaact caacc 25

<210> 23

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

tgttgttgag tttgtttttg tgaga 25

<210> 24

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

cctacaactc ataaattact tcccaca 27

<210> 25

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

attattttgt ggaaaggtat tatttttgtt tt 32

<210> 26

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

acaaacaaat cacaacaaaa tataatacaa t 31

<210> 27

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 27

gttttggttt ttggaagggt agtga 25

<210> 28

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 28

taccccaaca tatcaccact aaaca 25

<210> 29

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 29

tgttgtttgt ttttattaat gtgagttga 29

<210> 30

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 30

actttacaca acttcccaaa aac 23

<210> 31

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 31

tgagggtttt taggtgaatt tgagg 25

<210> 32

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 32

acctaaacta tacccccaac taaca 25

<210> 33

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 33

tggtggttgg tatgtagtgt agttt 25

<210> 34

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 34

atacaaatca aaacctctcc cccaa 25

<210> 35

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 35

ttgttagaag tgatatagaa gtgtatatgt t 31

<210> 36

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 36

tctaaaacct accccaaaaa caact 25

<210> 37

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 37

tatatgaggt tttggaggtg agtgg 25

<210> 38

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 38

acccaaatac ctcccaaaaa caatt 25

<210> 39

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 39

tgtaagtgtg gtgtgtattt agtttaa 27

<210> 40

<211> 36

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 40

caataaaaca aaactaccaa aaatctataa tataac 36

<210> 41

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 41

aaggaaggtt tgttgtttga gatgg 25

<210> 42

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 42

accctacaca cttatataca aacca 25

<210> 43

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 43

ttttggggta aggtaaggtg gataa 25

<210> 44

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 44

cacccactcc tctaaaacaa aacat 25

<210> 45

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 45

tgtggtagtt agggagtagt taaagt 26

<210> 46

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 46

tcttttacct actctatcac ccctt 25

<210> 47

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 47

tgatttaggg tgatttattt atttggttt 29

<210> 48

<211> 31

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 48

ccttccaatt ctaactctaa taattaaatc c 31

<210> 49

<211> 33

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 49

aaataaagat agaaagaata attgtgtttt tga 33

<210> 50

<211> 32

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 50

aaaaacaatc tctaaataat ccacatatac tt 32

<210> 51

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 51

attagttgtt tgatttgtga attaggtt 28

<210> 52

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 52

acaacaaaac caatcctcta ccattt 26

<210> 53

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 53

ttttgggagg tgttagaaat tagtaaa 27

<210> 54

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 54

tcaacaatac aataattcca aacccca 27

<210> 55

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 55

tgggattgtt gtttgggatt gtaag 25

<210> 56

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 56

tactttttcc ccactcaaca ctacc 25

<210> 57

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 57

taggggtggg aatttgggtt aatag 25

<210> 58

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 58

aaaccacatc taataaacac cactc 25

<210> 59

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 59

agagtgtaag tgtttggttt gtgt 24

<210> 60

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 60

tcaacctacc taaaaacctc acaaa 25

<210> 61

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 61

tttgagattg gtggtgagtg ttttt 25

<210> 62

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 62

aacaaccact aacctatacc cacaa 25

<210> 63

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 63

tggatgttat ttggtgtatt tgttttt 27

<210> 64

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 64

acacaaacct aaaaactcct tccaa 25

<210> 65

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 65

tgatttgata ggaatgtatg agtgtgt 27

<210> 66

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 66

accataaatc tactaaaaac tcaaaacaat 30

<210> 67

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 67

gtatggttgt ttgtgtgatt ttggt 25

<210> 68

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 68

aaaactctcc acacatttct cctaa 25

Claims

1.一种利用CpG位点甲基化水平检测早期肝癌的标志物，其特征在于，所述标志物包括如下甲基化位点：cg04998202、cg20253872、cg05702218、cg12467404、cg14171514、cg07721852、cg03734874、cg05891094、cg21402921、cg04484415、cg27395066、cg05166871、cg11783901、cg22632947、cg02185248、cg18087306、cg05213896、cg09404516、cg09778596、cg01620164、cg15462501、cg25635352、cg18772205、cg09470983、cg04398282、cg17588578、cg15747825、cg14279856、cg20445774、cg04749631、cg04115680、cg21183256、cg27616227、cg02243522。

2.扩增权利要求1所述利用CpG位点甲基化水平检测早期肝癌的标志物的引物。

3.根据权利要求2所述的引物，其特征在于，所述引物序列如序列表SEQ ID NO：1-SEQID NO：68所示。

4.权利要求1所述利用CpG位点甲基化水平检测早期肝癌的标志物在评估早期肝癌中的应用。

5.权利要求1所述利用CpG位点甲基化水平检测早期肝癌的标志物在制备检测早期肝癌的试剂盒中的应用。

6.根据权利要求5所述利用CpG位点甲基化水平检测早期肝癌的标志物在制备检测早期肝癌的试剂盒中的应用，其特征在于，所述检测早期肝癌采用如下标志物：cg14171514、cg07721852、cg05166871、cg18087306、cg05213896、cg18772205；

早期肝癌患病概率采用如下公式计算：

其中，

式中，G为性别、A为年龄、AFP为甲胎蛋白；

SCms＝-0.8711-3.7342*cg14171514+2.5885*cg07721852+6.9108*cg05166871-9.8593*cg18087306+4.5009*cg05213896+4.3853*cg18772205。