CN111378757B - Hbv整合位点附近区域甲基化状态在癌症检测中的应用 - Google Patents

Hbv整合位点附近区域甲基化状态在癌症检测中的应用 Download PDF

Info

Publication number
CN111378757B
CN111378757B CN202010391223.0A CN202010391223A CN111378757B CN 111378757 B CN111378757 B CN 111378757B CN 202010391223 A CN202010391223 A CN 202010391223A CN 111378757 B CN111378757 B CN 111378757B
Authority
CN
China
Prior art keywords
liver cancer
methylation
region
sequencing
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010391223.0A
Other languages
English (en)
Other versions
CN111378757A (zh
Inventor
曾长青
张海坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Genomics of CAS
Original Assignee
Beijing Institute of Genomics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Genomics of CAS filed Critical Beijing Institute of Genomics of CAS
Priority to CN202010391223.0A priority Critical patent/CN111378757B/zh
Publication of CN111378757A publication Critical patent/CN111378757A/zh
Application granted granted Critical
Publication of CN111378757B publication Critical patent/CN111378757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Immunology (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种新的可应用于肝癌检测场景的甲基化检测和分析方法,不仅能在常规测序条件下获得优异的分类性能,而且在低覆盖度的测序条件下,也具有非常良好的表现,克服了现有技术中关于cfDNA进行DNA甲基化分析需要深度测序的偏见,极大地降低了测序成本,扩大了甲基化测序技术的适用范围,可为肝病早筛、肝病诊断、肝病监测、肝病患者分型、肝癌治疗或手术干预有效性评估等临床应用提供基础数据。

Description

HBV整合位点附近区域甲基化状态在癌症检测中的应用
技术领域
本发明涉及分子生物学技术领域,特别涉及一种利用HBV整合位点附近区域甲基化状态进行癌症相关检测的方法。
背景技术
外周血游离DNA(cfDNA)是在人体血浆、尿液和其他体液中发现的小的双链DNA片段[1,2],起源于细胞凋亡和坏死[3]。cfDNA分析被视为“液体活检”的一种方式,已经被用于基因检测[4,5],早期癌症检测[6,7],以及疾病预后预测[8,9]。凋亡和坏死的肿瘤细胞可以将cfDNA释放到外周血中,这反映了肿瘤相关的遗传特征,包括cfDNA片段大小(cfDNAsize)[10],以及突变、拷贝数畸变和表观遗传变化等[8]。同时,cfDNA还携带组织特异性信息,这为其来源组织的推断提供了应用前景[11-15]。因此,cfDNA可以作为一种重要的生物标志物用于临床。
肝癌是全球癌症相关死亡的第四大原因。在美国,2000-2016年间,肝癌死亡率从7.2/10万上升到10.3/10万[16,17]。肝细胞癌(HCC)是原发性肝癌最常见的形式,通常发生于因乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)、酒精滥用或非酒精性脂肪肝引起的慢性肝病患者[18,19]。慢性炎症、纤维化和异常肝细胞再生造成一系列遗传和表观遗传事件,最终导致肝细胞恶性转化。肝癌的发生是一个复杂而鲜为人知的多步骤过程,包括从肝硬化背景下的再生结节到不典型增生结节,最终是HCC的组织学转变[20-22]。肝硬化患者发生HCC的高风险(即每年风险2-7%)证明了建议在高危患者中使用腹部超声(US)结合或不联合血清甲胎蛋白(AFP)进行两年一次的HCC筛查[23]。非随机化研究表明,早期发现HCC增加了接受治愈性治疗的几率,并增加了生存率。然而,US和AFP对早期HCC检测的敏感性为63%,这突出了对改进早期筛查方案的需求。
许多研究开始尝试将cfDNA作为发现肝癌早期检测的潜在生物标志物的对象。类似的尝试包括开展了突变分析[24,25],循环肿瘤细胞(CTCs)[26]以及DNA甲基化[27-32]。与突变和CTC不同,cfDNA的DNA甲基化分析具有提供组织起源信息的理论优势,当cfDNA来源于混合的细胞类型时,这是至关重要的。多项研究集中在特定甲基化改变作为生物标志物[28,32],肿瘤基因组范围内整体低甲基化[27]以及基于甲基化水平推断起源组织[29-31]。目前很多研究集中于将cfDNA的甲基化作为肿瘤诊断的标志物,有不同的技术来研究cfDNA的甲基化变化,包括scRRBS[11]和cfMeDIPseq[14],这两种方法通过不同的手段尝试富集CpG岛的片段,仅占基因组区域的1%,从而降低测序量,该方案并未降低每个位点的测序覆盖度需求,不属于低覆盖度检测,而且基因组的覆盖区域有限,降低的是分析检测的基因组区域大小,需要依靠实验手段进行DNA片段的筛选,也引入了实验偏差的风险。
全基因组甲基化测序(WGBS)由于其单胞嘧啶度量和高准确性而成为DNA甲基化分析的金标准[33],使用WGBS对肿瘤进行检测的挑战之一是在总的cfDNA背景下肿瘤DNA量极少,特别是在早期肿瘤和微小残留病灶的患者中,这就需要通过深度测序产生对早期肿瘤检测和监督更敏感的标志物,往往需要30-100重的全基因组覆盖度[29,31],测序成本极高,限制了其在目前临床环境中的大规模应用。
基于cfDNA中特定基因位点的甲基化水平来筛查肿瘤,这种方案依据的不是全基因组范围内的甲基化水平检测,仅依靠部分位点的选择,但肿瘤的异质性(不同人肿瘤基因组中变化的差异)非常大,因而这些检测即便在研究所用的样本中表现出极好的特异性和灵敏度,但更换样本后,会由于选择候选位点在新的临床样本中并不一定表现出期望监测到的变化而无法达到研究样本中的表现,因而需要提供不依赖于特定甲基化标志位点的,在全基因组水平上通过生物信息学手段建立低甲基化评估的方法。发现新的癌症标志物、探索降低DNA甲基化测序成本、降低cfDNA样品在甲基化测序中限制的方法,低覆盖度测序和相应的低测序成本将成为促进基于DNA甲基化监测工具临床部署的关键。
发明内容
为了解决现有技术存在的缺陷,本发明的一个目的在于提供一种新的可应用于癌症检测场景的甲基化分析方法,该方法的形成基于发明人的一个令人吃惊的发现,即以乙肝病毒整合位点附近区域的甲基化状态作为指标所构建的分类模型,不仅能在常规测序条件下获得优异的分类性能,而且在低覆盖度的测序条件下,也具有非常良好的表现,克服了现有技术中关于cfDNA进行DNA甲基化分析需要深度测序的偏见。
为了实现上述目的,本发明提供了一种DNA甲基化状态的检测方法,所述甲基化状态是乙肝病毒整合位点附近区域的甲基化状态,所述乙肝病毒整合位点附近区域是包含乙肝病毒在宿主基因组上的整合位点以及整合位点两侧宿主基因组序列的区域。
在一些实施例中,所述甲基化状态通过测序或者聚合酶链式反应(PCR)获得;优选地,所述甲基化状态通过亚硫酸氢盐测序法、基因组直接测序法、甲基化特异性的PCR或者高分辨率熔解曲线法获得;更优选地,所述甲基化状态通过基于重亚硫酸盐转化的甲基化测序方法获得;特别优选全基因组重亚硫酸氢盐测序(WGBS)或者靶向重亚硫酸盐测序获得。
在一些实施例中,所述测序为高覆盖度测序、中等覆盖度测序或者低覆盖度测序;
优选地,所述测序的覆盖度满足以下条件中的一种或几种:
i)所述测序的覆盖度以读段对(read pair)的数量计小于1×107个读段对,或者优选3×106-7×106个读段对,或者特别优选5×106个读段对;和/或
ii)所述测序的覆盖度以读段(read)的数量计小于2×107个读段,或者优选6×106-1.4×107个读段,或者特别优选1×107个读段。
在一些实施例中,所述甲基化状态是在全基因组范围内或者在基因组中部分区域内的一个或多个乙肝病毒整合位点附近区域的甲基化状态;优选地,所述甲基化状态是已报道的乙肝病毒整合位点中的全部或部分位点附近区域的甲基化状态。
在一些实施例中,所述基因组中部分区域是感兴趣的目标区域;优选地,所述基因组中部分区域的长度为1M以上、10kb以上1M以下、10kb或者10kb以下。
在一些实施例中,所述基因组中部分区域是13号染色体19442162-20713822位、1号染色体10121993-12279387位、10号染色体11149668-13266296位、10号染色体38027603-39151628位和/或10号染色体84035111-85772043位。
在一些实施例中,所述基因组中部分区域是1号染色体115071623-115081623位、1号染色体37021302-37031302位、10号染色体5584724-5594724位、10号染色体81656529-81666529位和/或11号染色体120177705-120187705位。
在一些实施例中,所述乙肝病毒整合位点附近区域是宿主基因组中乙肝病毒整合位点上游p个核苷酸位置至整合位点下游q个核苷酸位置的区域;其中,p为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50;q为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50。
在一些实施例中,所述甲基化状态是甲基化水平或者甲基化图谱。
在一些实施例中,所述检测方法的检测对象是动物;优选哺乳动物;更优选是人、猴子或者小鼠。
在一些实施例中,所述检测方法检测的样品为基因组DNA和/或游离DNA。优选地,所述样品是cfDNA含量有限的样品。优选地,所述游离DNA为总游离DNA。
优选地,所述样品是液体生物样品,优选血液、血浆、血清、唾液、痰、尿液、脑脊液、精液、前列腺液或母乳。
优选地,所述样品来源于肝脏、胃、肠道、食道、肺、乳腺、心脏、脑、前列腺或淋巴。
本发明的技术方案可以在肝癌的各种诊断和非诊断的应用场景中使用;可适用于任何分期的肝癌,例如极早期肝癌、早期肝癌、中期肝癌、晚期肝癌。
本发明的另一个目的在于提供一种肝癌标志物或标志物组合的筛选方法,所述筛选方法以乙肝病毒整合位点附近区域的甲基化状态作为指标筛选与肝癌相关的标志物,所述乙肝病毒整合位点附近区域是包含乙肝病毒在宿主基因组上的整合位点以及整合位点两侧宿主基因组序列的区域。
本发明中的标志物可以是乙肝病毒整合位点附近区域的基因组区段或者核酸片段。
在一些实施例中,所述筛选方法包含对不同受试者群体进行特征选择的步骤,所述特征是在全基因组范围内或者在基因组中部分区域内的一个或多个乙肝病毒整合位点附近区域的甲基化状态;优选地,所述甲基化状态是已报道的乙肝病毒整合位点中的全部或部分位点附近区域的甲基化状态。
在一些实施例中,所述不同受试者群体由患有肝癌的受试者、患有肝硬化的受试者、患有肝炎的受试者和/或健康受试者构成;优选地,所述患有肝癌的受试者为患有早期肝癌的受试者、患有晚期肝癌的受试者和/或术后肝癌的受试者。
在一些实施例中,所述特征选择通过决策树、随机森林、逻辑回归、支持向量机、朴素贝叶斯、信息熵、K最近邻算法、K均值算法、Adaboost算法和/或基于神经网络的深度学习算法进行。
在一些实施例中,所述筛选方法还包含对该乙肝病毒整合位点附近区域进行取舍的步骤,和/或将相邻的乙肝病毒整合位点附近区域进行合并的步骤。
在一些实施例中,根据乙肝病毒整合位点附近区域的实际测序覆盖度对该区域进行取舍。
在一些实施例中,根据相邻的乙肝病毒整合位点附近区域之间的距离和/或合并后的长度决定对相邻的乙肝病毒整合位点附近区域进行合并。
在一些实施例中,所述甲基化状态通过测序或者聚合酶链式反应(PCR)获得;优选地,所述甲基化状态通过亚硫酸氢盐测序法、基因组直接测序法、甲基化特异性的PCR或者高分辨率熔解曲线法获得;更优选地,所述甲基化状态通过基于重亚硫酸盐转化的甲基化测序方法获得;特别优选全基因组重亚硫酸氢盐测序(WGBS)或者靶向重亚硫酸盐测序获得。
在一些实施例中,所述测序为高覆盖度测序、中等覆盖度测序或者低覆盖度测序;
优选地,所述测序的覆盖度满足以下条件中的一种或几种:
i)所述测序的覆盖度以读段对(read pair)的数量计小于1×107个读段对,或者优选3×106-7×106个读段对,或者特别优选5×106个读段对;和/或
ii)所述测序的覆盖度以读段(read)的数量计小于2×107个读段,或者优选6×106-1.4×107个读段,或者特别优选1×107个读段。
在一些实施例中,所述基因组中部分区域是感兴趣的目标区域;优选地,所述基因组中部分区域的长度为1M以上、10kb以上1M以下、10kb或者10kb以下。
在一些实施例中,所述乙肝病毒整合位点附近区域是宿主基因组中乙肝病毒整合位点上游p个核苷酸位置至整合位点下游q个核苷酸位置的区域;其中,p为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50;q为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50。
在一些实施例中,所述甲基化状态是甲基化水平或者甲基化图谱。
在一些实施例中,所述检测方法的检测对象是动物;优选哺乳动物;更优选是人、猴子或者小鼠。
在一些实施例中,所述检测方法检测的样品为基因组DNA和/或游离DNA。
本发明还提供了采用本发明的筛选方法获得的肝癌标志物或肝癌标志物组合。
在一些实施例中,所述肝癌标志物为全基因组中HBV整合位点上下游各5kb的序列。
在一些实施例中,所述肝癌标志物为13号染色体19442162-20713822位的序列、1号染色体10121993-12279387位的序列、10号染色体11149668-13266296位的序列、10号染色体38027603-39151628位的序列和/或10号染色体84035111-85772043位的序列。
在一些实施例中,所述肝癌标志物为1号染色体115071623-115081623位的序列、1号染色体37021302-37031302位的序列、10号染色体5584724-5594724位的序列、10号染色体81656529-81666529位的序列和/或11号染色体120177705-120187705位的序列。
在一些实施例中,所述肝癌标志物组合为全基因组中HBV整合位点上下游各5kb的序列、1号染色体10121993-12279387位的序列和10号染色体84035111-85772043位的序列。
在一些实施例中,所述肝癌标志物组合为全基因组中HBV整合位点上下游各5kb的序列和1号染色体37021302-37031302位的序列。
本发明还提供了用于肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的模型的构建方法,所述方法使用根据本发明的筛选方法筛选得到的肝癌标志物或肝癌标志物组合构建肿瘤筛查模型,或者使用本发明的肝癌标志物或肝癌标志物组合构建肿瘤筛查模型。
在一些实施例中,所述构建方法以所述肝癌标志物或肝癌标志物组合的甲基化状态作为输入数据,通过机器学习的方法构建肿瘤筛查模型。
在一些实施例中,所述甲基化状态是甲基化水平或者甲基化图谱。
本发明还提供了肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的方法,所述方法包含以下步骤:
a)测定本发明的肝癌标志物或肝癌标志物组合的甲基化状态;
b)将a)中获得的甲基化状态作为输入数据,输入本发明的构建方法构建的模型中。
本发明还提供了特异性检测本发明的肝癌标志物或肝癌标志物组合的试剂在制备肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的试剂盒中的用途。
在一些实施例中,所述试剂是所述肝癌标志物或肝癌标志物组合的特异性扩增和/或捕获试剂;优选用于扩增和/或捕获所述肝癌标志物或肝癌标志物组合的引物和/或探针。
本发明还提供了肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的试剂盒,所述试剂盒包含特异性检测本发明的肝癌标志物或肝癌标志物组合的试剂。
在一些实施例中,所述试剂是所述肝癌标志物或肝癌标志物组合的特异性扩增和/或捕获试剂;优选用于扩增和/或捕获所述肝癌标志物或肝癌标志物组合的引物和/或探针。
本发明还提供了一种计算机可读存储介质,其特征在于,所述介质包括存储的计算机程序,所述计算机程序包含:
i)用于执行本发明的筛选方法的程序;和/或
ii)用于执行本发明的构建方法的程序;和/或
iii)用于执行本发明的肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的方法的程序。
本发明还提供了一种装置或者计算机系统或者包含所述装置和计算机系统的设备,其特征在于,
所述装置用于执行本发明的DNA甲基化的检测方法;
所述计算机系统包括:
甲基化状态读取模块,用于读取受试者的甲基化状态的测定数据,所述甲基化状态是本发明的肝癌标志物或肝癌标志物组合的甲基化状态;
分析模块,用于将所述读取模块获取的数据输入本发明的构建方法构建的模型进行分析;
输出模块,根据分析模块得到的分析结果,输出肝癌检测、肝癌风险预测、肝癌筛查、肝癌诊断、肝癌监测、肝癌用药指导和/或肝癌预后判断的信息。
在一些实施例中,所述装置、计算机系统或者设备还包含本发明的计算机可读存储介质。
本发明还提供了一种受试者甲基化状态的表征方法,所述受试者甲基化状态用乙肝病毒整合位点附近区域的甲基化状态来表示,所述乙肝病毒整合位点附近区域是包含乙肝病毒在人类基因组上的整合位点以及整合位点两侧人类基因组序列的区域。
在一些实施例中,所述乙肝病毒整合位点附近区域是宿主基因组中乙肝病毒整合位点上游p个核苷酸位置至整合位点下游q个核苷酸位置的区域;其中,p为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50;q为小于等于50000的整数,优选10000、7500、5000、2500、1000、500、100或50。
在一些实施例中,所述受试者甲基化状态用在全基因组范围内或者在基因组中部分区域内的一个或多个乙肝病毒整合位点附近区域的甲基化状态来表示;优选地,所述甲基化状态是已报道的乙肝病毒整合位点中的全部或部分位点附近区域的甲基化状态。
在一些实施例中,所述基因组中部分区域是感兴趣的目标区域;优选地,所述基因组中部分区域的长度为1M以上、10kb以上1M以下、10kb或者10kb以下。
在一些实施例中,所述甲基化状态是甲基化水平或者甲基化图谱。
在一些实施例中,所述表征方法可以包括以下步骤:
1)对原始甲基化数据进行质量控制;
2)将测序结果比对至参考基因组;
3)去掉PCR扩增重复的读段(reads);
4)去掉双端测序读段中重叠的碱基序列;
5)计算CpG位点甲基化水平;
6)计算乙肝病毒整合位点附近区域平均甲基化水平。
本发明所涉及的计算机程序可以按照以下步骤执行(如图1所示),以用于甲基化状态的表征:
1)原始数据的质量控制:首先对测序得到的原始数据进行质量控制,该质量控制过程可以通过但不限于FastQC软件实现;任选地,然后还可以移除reads中的接头序列和低质量碱基,可以通过但不限于cutadapt软件实现,采用的参数可以为“-q 15–minimum-length 36”。
2)序列比对:将测序结果比对至参考基因组。参考基因组可以获自已知的基因组数据库,包括但不限于ENSEMBL、NCBI、UCSC;优选来自ENSEMBL数据库的hg19参考基因组。可以采用现有技术已知的任何比对方法或自行开发的比对方法进行序列比对,例如可以利用Bismark软件将过滤后的双端reads比对到人hg19基因组上。
3)去掉PCR扩增重复的reads:在比对后去掉PCR扩增产生的重复数据,可以通过但不限于Bismark软件实现。
4)去掉双端测序reads中重叠的碱基序列:双端测序reads比对后可能会出现两端reads序列重叠的部分,造成CpG位点的重复计算从而影响甲基化水平定量。该步骤可以使用但不限于BamUtil软件实现。
5)CpG位点甲基化水平的估计:提取每个胞嘧啶的位点C和T覆盖数目,并根据正负链分别统计,由于CpG位点在DNA双链间是对称分布的且CpG位点甲基化一般也是对称的,因此对于每个CpG位点的甲基化水平我们将正负链的信息合并起来计算,甲基化水平计算为:m/(m+u),其中m为该位点为C(甲基化)的reads数目,u为该位点为T(未甲基化)的reads数目。该步骤可以使用但不限于SAMtools软件实现。
6)乙肝病毒整合位点附近区域平均甲基化水平的计算:区域的平均甲基化水平(例如MethylHBV5k)计算为:M/(M+U),其中M为落在该区域内C的reads数目,其中U为落在该区域内T的reads数目。
7)特异区域的筛选:对候选区域进行特征选择。该选择过程可以使用但不限于R包caret实现。
本发明的有益效果:
(1)本发明的方法克服了现有技术中关于cfDNA进行DNA甲基化分析需要深度测序的偏见,与传统的甲基化测序技术相比,通过以低至1×107个读段对或2×107个读段以下的覆盖度对总游离DNA进行甲基化测序,极大地降低了测序成本。
(2)采用本发明发现的新指标筛选的标志物以及构建的模型,在低覆盖度的测序条件下,仍能获得优异的分类性能。
(3)本发明的方法可以不依赖于特异性的甲基化标志位点,避免了肿瘤异质性等原因造成的假阳性或假阴性问题。本发明的方法也可以不对cfDNA进行特异性的富集或捕获,无需富集高CpG区域,无需使用限制性内切酶酶切,无需进行免疫共沉淀,也无需使用特别设计的接头、微珠,不仅简化了操作、降低了成本,更重要的是,避免了上述步骤可能引入的偏差和污染。
附图说明
提供以下附图以帮助对发明技术方案的理解以及对技术效果的证明,附图可用于解释本发明,但不构成对本发明的限制。
图1为本发明一个实施方案的流程图。
图2为cfDNA样品提取和定量结果图。
图3为游离DNA中不同区域的甲基化位点富集程度比较图。
图4为不同类型个体中HBV整合位点区域的甲基化水平和全基因组甲基化水平比较图。
图5为测序深度与抽样间相关性和变异系数的关系图。图中D1为健康个体,D2慢性肝炎患者,D3为肝硬化患者,D4为晚期肝癌患者,D5为术后肝癌患者。
图6为随机抽取区域的平均甲基化水平的相关系数图。
图7为HBV整合位点上下游5kb区域以及区域1-5的甲基化水平图(基于54例受试者)。
图8为HBV整合位点上下游5kb区域以及区域1-5的性能测试结果图。
图9为HBV整合位点上下游5kb区域以及短区域1-5的性能测试结果图。
图10为HBV整合位点上下游5kb区域与短区域2联合使用的性能测试结果图。
具体实施方式
如无特别说明,本发明中各项术语可按照本领域通常的含义解释,所使用的试剂、设备等均为本领域常用的,或者可以通过市场购买获得。
本发明中的术语“乙肝病毒整合位点”是指乙肝病毒DNA整合入宿主基因组所在的位点。
本发明中的术语“乙肝病毒整合位点附近区域”是指乙肝病毒在宿主基因组上的整合位点以及整合位点两侧宿主基因组序列的区域。
本发明中的术语“覆盖度”是指被测基因组上单个碱基被测序的平均次数。
本发明中的术语“甲基化水平”是指某位点或区域的甲基化程度,甲基化水平计算为:m/(m+u),其中m为该位点或区域的甲基化读段(reads)数目,u为该位点或区域的未甲基化读段(reads)数目。
本发明中的术语“甲基化图谱”是指甲基化特征、模式和/或不同位点或区域的甲基化水平所代表的甲基化特征。
本发明中的术语“AUC”是指ROC曲线下与坐标轴围成的面积,AUC越接近1,检测方法的性能越高。
本发明中的术语“ROC”是指受试者工作特征曲线。
本发明中的术语“灵敏度”是指真阳性率,指实际患病人群按某诊断标准被正确判为疾病的百分比。
本发明中的术语“特异性”是指真阴性率,指实际无病按某诊断标准被正确判为无病的百分比。
下面结合具体实施例详细描述本发明,应当理解的是,这些实施例仅用于例证本发明,并不构成对本发明的限制,本领域技术人员根据本发明的揭示,在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
实施例1
采集了54例受试者样品,其中包括17例肝癌患者(3例早期肝癌患者、5例晚期肝癌患者、9例肝癌术后患者)、17例肝硬化患者、17例肝炎患者和3例健康个体的外周血样本。采集上述受试者的临床信息,包括年龄、性别、乙型肝炎病毒(Heptitis B Virus,HBV)感染状态、肿瘤大小、谷丙转氨酶(ALT)、谷草转氨酶(AST)、总胆红素(Tbil)和甲胎蛋白(AFP)等。根据巴塞罗那肝癌临床分期系统(BCLC)将肝癌患者分为早期和晚期,A期和B期视为早期,C期和D期为晚期。
取10ml外周血于Streck Cell-Free DNA BCT抗凝管中,在4℃下,3,000×g离心15分钟,吸取上清再在室温下16,000×g离心10分钟,取上层血浆,利用QIAamp CirculatingNucleic Acid Kit试剂盒提取cfDNA。提取后,使用QubitdsDNAHS Assay kit试剂盒定量样品DNA。试剂盒提取cfDNA和定量的结果如图2所示,其具体过程如下:
(1)取500uL QIAGEN蛋白酶K加入到50mL离心管中;
(2)取5mL已分离血浆加入到该离心管中;
(3)加入4mL ACL缓冲液(含有1.0ug Carrier RNA),漩涡30s,充分混匀;
(4)60℃水浴30min;
(5)加入9mL ACB*缓冲液,涡旋30s,充分混匀;
(6)冰浴5min;
(7)打开真空泵,使压力平衡在-800mbar和-1000mbar之间;
(8)组装过滤系统:从上往下依次为样品收集槽-离心柱-连接头-真空阀;
(9)将裂解液倒入收集槽,使液体完全流过柱心;
(10)加入600uL ACW1*缓冲液,使液体完全流过柱心;
(11)加入750uL ACW2*缓冲液,使液体完全流过柱心;
(12)加入750uL无水乙醇,使液体完全流过柱心;
(13)关闭阀门,打开排气阀,使压力回零;
(14)将柱子装入2mL收集管,14000rpm离心3min,去除残留液体;
(15)将柱子装入1.5mL离心管,开盖放56℃金属浴10min,使乙醇挥发干净;
(16)往柱心加30uL ddH2O,放室温3min洗脱样品;
(17)14000rpm离心1min,收集样品;
(18)使用QubitdsDNAHS Assay kit试剂盒定量后,放-80℃冰箱保存备用。
实施例2
对cfDNA样品进行WGBS测序的具体过程如下:
(1)末端修复加A:利用Bioo Scientific Kit试剂盒,吸取cfDNA样品10ng,按5‰比例加入λ-5mc作为内参,用ddH2O补平体积至32μl(即DNA Mix和水)。配置50μL反应体系如下:
Figure BDA0002485652120000111
反应条件设置为:22℃20分钟,72℃20分钟,4℃保持,放于PCR仪内。
(2)修复好的样本加甲基化接头(NEXTflexTM Bisulfite-Seq Adapters):将接头稀释至3μM(14μL H2O+2μL母液);在修复后的50μL反应液中加入Ligase Enzyme Mix 47.5μL,再加入稀释后接头2.5μL,22℃反应15分钟。
(3)磁珠纯化:
1)提前半小时从4℃冰箱中拿出AMPure磁珠放置成室温备用,涡旋混匀30秒使管底无磁珠沉淀;
2)向样品中加入1×体积磁珠(100μl),涡旋混匀后室温静置5分钟使其结合;
3)轻甩后放在磁力架上静置5分钟,待磁珠被吸至一侧、液体澄清后,吸弃上清;
4)加入200μl新配置的80%乙醇,转动EP管清洗磁珠,共洗两次;
5)轻甩后放回磁力架上,10μl枪头吸净残留乙醇,开盖静置3分钟,使乙醇挥发;
6)从架上取下离心管,加20μl水,吹吸混匀后室温静置2分钟;
7)将管放回吸附1分钟,待磁珠被吸至一侧,液体澄清后,吸取上清至新PCR管中。
(4)重亚硫酸氢盐(Bisulfite)处理样品:用EZ DNA Methylation-Gold KitTM(Zymo Research)对磁珠纯化后的DNA进行重亚硫酸盐转换。
1)配制CT转换溶液:CT转换试剂提供的是固体混合物干粉,首次使用需准备如下:向CT转换试剂的固体混合物粉末中加入H2O 900μl,M-DilutionBuffer 300μl,M-Dissolving Buffer 50μl;室温涡旋振荡10分钟;
2)取新配制的130μl CT转换溶液至20μl样品中,吹吸混匀,分成两管各75μl;
3)置于PCR仪上孵育:98℃10分钟,64℃2小时;
4)将柱子置于收集管上,加入600μL M-Binding Buffer;
5)加150μLDNA样品,颠倒混匀,10000g室温离心30秒,弃废液;
6)加100μL M-Wash Buffer,10000g 30秒;
7)加200μL M-Desulphonation Buffer,室温静置15分钟,10000g室温离心30秒;
8)加200μL M-Wash Buffer,10000g室温离心30秒,弃废液;
9)加200μL M-Wash Buffer,10000g室温离心30秒,弃废液;10000g室温空甩30秒;
10)将柱子置于新的1.5mL离心管中,加20μL水,室温孵育2分钟;
11)10000g室温离心30秒,收集DNA样品。
(5)扩增文库:配置50μL反应体系:
Figure BDA0002485652120000131
反应条件:
Figure BDA0002485652120000132
步骤2共循环11次。
(6)纯化:1×AMPure磁珠(50μl),30μl水洗脱,取至新1.5ml离心管。重复一遍20μl水洗脱。
(7)定量浓度,命名文库,记录Barcode。
(8)高通量测序:每个构建好的测序文库在高通量测序平台进行测序。
(9)生物信息分析:测序序列经过Cutadapt质控后,用Bismark比对到人hg19版本的基因组参考序列上,在去掉PCR扩增重复的数据后,确定CpG位点的甲基化水平。基因组区域富集使用Fisher精确检验。HBV整合位点上下游各5kb平均甲基化水平计算为该区域内所有的C/C+T,使用R包caret进行候选区域选择。
实施例3
发明人发现了一个出乎意料的现象,在游离DNA样品中,CpG位点倾向富集于内含子、基因间区、重复(repeat)区域和HBV整合位点(HBVi)附近区域,尤其是HBV整合位点及其上下游附近,而在CpG岛区域的CpG位点反而非常稀少。为了展示和说明这一现象,本实施例中从实施例1的样品中抽取了健康个体、慢性肝炎、肝硬化、晚期肝癌、术后肝癌患者各一例,对总游离DNA进行一般深度的WGBS(平均测序深度为58M个测序读段对,其他条件同实施例2),对CpG位点的富集情况进行了统计,结果如图3所示。其中,HBV整合位点处达到了最高的富集程度,其上下游各100bp和各5kb区域的CpG位点富集程度有所降低,但仍然处于高富集水平。
接下来计算所有已报道HBV整合位点上下游5kb的平均甲基化水平(MethylHBV5k),已报道HBV整合位点数据来源于之前已发表的文章[34-40],共6072个HBV整合位点。按照以下方法计算HBV整合位点上下游5kb的平均甲基化水平(MethylHBV5k)和全基因组平均甲基化水平(Methylgenome):MethylHBV5k=m/(m+u),其中m为落在全部HBV整合位点上下游5kb内C的reads数目,其中u为落在该区域内T的reads数目;Methylgenome=M/(M+U),其中M为基因组上所有C的reads数目,U为基因组上所有T的reads数目。结果如图4所示,肝癌患者HBV整合位点附近的平均甲基化水平低于健康个体、慢性肝炎、肝硬化和术后肝癌患者,并且HBV整合位点附近的平均甲基化水平低于全基因组甲基化水平。
实施例4
针对实施例3的五例个体,进行重抽样分析,每个测序深度(1M、2M、3M、4M、5M、6M、7M、8M、9M、10M个测序读段对)随机抽样10次,对基因组随机抽取相同长度的HBV整合位点上下游5kb区域,计算随机抽取区域的平均甲基化水平(该随机抽取重复100次),并计算随机抽取区域的平均甲基化水平在该测序深度和总测序量的相关系数和10次相关系数的变异系数(CV),结果如图5、图6所示,其中D1为健康个体,D2慢性肝炎患者,D3为肝硬化患者,D4为晚期肝癌患者,D5为术后肝癌患者。
发现随机抽取的双端测序读段对为5M时得到的平均甲基化水平的估计在不同抽样间已经表现出较好的相关性(相关系数的增长随着测序深度的增加已不明显),并且差异较小(变异系数与10M时一样低)。
实施例5
对实施例1中的54例受试者进行了外周血游离DNA低覆盖度WGBS(包括3例健康个体、17例肝炎患者、17肝硬化患者、3例早期肝癌患者、5例晚期肝癌患者和9例肝癌术后患者),实际测序覆盖度为平均10M个读段对。
针对实施例3中所述的所有已报道的6072个HBV整合位点,计算54例受试者HBV整合位点上下游5kb区域的甲基化水平(MethylHBV5k),结果如图7所示。结果显示,与健康个体相比,晚期肝癌患者的甲基化水平有着非常显著的降低(p=0.03),而早期肝癌患者和肝癌术后患者与健康个体、肝炎患者和肝硬化患者相比,甲基化水平也有下降的趋势。
为了测试MethylHBV5k作为生物标志物预测癌症的性能,对54例受试者通过100次5倍交叉验证的方法并使用逻辑回归来检测该标志物的性能,对其AUC进行了测试,并与常用的临床指标——ALT和AST和Tbil、甲胎蛋白(AFP)以及cfDNA片段长度(cfDNAsize)进行比较。其中,由于外周血cfDNA长度较短(集中在167bp左右),并且在建库时未经过超声打断,因此建库插入片段长度即为cfDNA长度。通过用唯一比对到基因组上的reads来评估cfDNA片段长度,通过使用比对文件来提取双端reads比对到基因组的起始和终止位置来估计cfDNA片段长度,我们取每个个体cfDNA片段长度的中位数(cfDNAsize)作为cfDNA片段长度的指标。
结果如图8所示,MethylHBV5k的AUC为0.843,特异度为88.6%,灵敏度为76.5%,均显著高于上述2个常用临床指标和cfDNA片段长度指标(表1)。
表1
指标 AUC(95%CI) 特异度 灵敏度
性别+年龄 0.486(0.436-0.536) 50.3% 57.7%
ALT+AST+Tbil 0.676(0.631-0.721) 60.1% 67.1%
AFP 0.601(0.55-0.652) 50.6% 55.7%
cfDNA<sub>size</sub> 0.777(0.732-0.822) 82.1% 72.4%
Methyl<sub>HBV5k</sub> 0.843(0.798-0.888) 88.6% 76.5%
区域1 0.871(0.83-0.913) 92.3% 76.5%
区域2 0.87(0.831-0.91) 89.2% 76.5%
区域3 0.811(0.763-0.859) 92.1% 65.7%
区域4 0.827(0.779-0.876) 86.3% 73.8%
区域5 0.879(0.832-0.927) 93.5% 84.5%
由此可见,以HBV整合位点附近区域甲基化状况作为标志物检测癌症,只需进行低覆盖度的甲基化测序,就足以实现对肝癌的准确区分,并能获得优于临床指标和cfDNA片段长度的区分度。
实施例6
为了进一步降低测序成本并节省运算力,探索在低覆盖度测序条件下,将分析对象缩小为染色体区域后的性能表现,对实施例5中测试的6072个HBV整合位点进行了筛选。并且由于早期肝癌患者体内ctDNA数量十分稀少,在低覆盖度测序的条件下对早期肝癌患者的检出将比中晚期肝癌患者更为困难,为了增加对早期肝癌检测的敏感性并验证本发明的方法对于早期肝癌检测的有效性,本实施例中对健康个体和早期肝癌患者进行特征选择。首先针对所有的6072个HBV整合位点上下游5k区域,挑选出内部CpG位点读段(reads)总数超过10的区域共3083个;然后在3083个区域中,将距离小于1M的相邻区域进行合并,筛选出合并后长度大于1M的区域共144个;对这144个区域进行特征选择,找出对疾病状态的预测性能最好的区域。本实施例中选择5个符合上述条件的区域,如下:区域1为13号染色体19442162-20713822位;区域2为1号染色体10121993-12279387位;区域3为10号染色体11149668-13266296位;区域4为10号染色体38027603-39151628位;区域5为10号染色体84035111-85772043位。
计算54例受试者在上述5个区域的甲基化水平,结果如图7所示。结果显示,无论哪个区域,晚期肝癌患者的甲基化水平都有着非常明显的降低,而早期肝癌患者和肝癌术后患者与健康个体、肝炎患者和肝硬化患者相比,甲基化水平也有下降的趋势。
为了测试上述5个区域低覆盖度甲基化测序数据得到的甲基化水平作为生物标志物预测癌症的性能,对54例受试者通过100次5倍交叉验证的方法并使用逻辑回归来检测该标志物的性能,并与常用的临床指标——ALT和AST和Tbil、甲胎蛋白(AFP)以及cfDNA片段长度(cfDNAsize)和实施例5中的MethylHBV5k进行比较,结果如图8和表1所示。
结果显示,上述5个区域甲基化指标的AUC均能达到0.81以上,均显著高于临床指标AFP和cfDNA片段长度。并且更加有利的是,区域1、区域2和区域5的AUC值甚至高于MethylHBV5k指标,其中区域5实现了对肝癌患者的最佳区分(AUC=0.879,特异度=93.5%,灵敏度=84.5%)。由此可见,以HBV整合位点附近区域甲基化状况作为标志物检测癌症,不仅能在全基因组测序的情况下获得准确的预测和区分结果,同样能在仅仅进行区域测序的情况下获得准确的预测和区分结果,甚至同样能适用于低覆盖度的甲基化测序条件。
实施例7
为了进一步压缩测序成本和节省算力,探索将分析对象进一步缩小为短区域后的性能表现,对实施例5中测试的6072个HBV整合位点上下游5k区域进行了筛选。
首先针对所有的6072个HBV整合位点上下游5k区域,挑选出内部CpG位点读段(reads)总数超过10的区域共3083个;然后对这3083个区域进行特征选择,找出对疾病状态的预测性能最好的区域。本实施例中选择5个符合上述条件的10kb区域(整合位点上下游各5kb),如下:短区域1为1号染色体115071623-115081623位;短区域2为1号染色体37021302-37031302位;短区域3为10号染色体5584724-5594724位;短区域4为10号染色体81656529-81666529位;短区域5为11号染色体120177705-120187705位。
使用实施例1中的54位受试者通过100次5倍交叉验证对短区域1-5甲基化水平指标的性能进行验证,其中短区域2(1号染色体37021302-37031302位)实现了对肝癌患者的最佳区分(AUC=0.843,特异度=79.4%,敏感度=75.8%)(参见图9)。将MethylHBV5k与短区域2两个指标联合使用,进一步提高了对肝癌患者的区分度(AUC=0.906,特异性=84.7%,敏感度=80.5%)(参见图10)。
参考文献
1.Fleischhacker M,Schmidt B:Circulating nucleic acids(CNAs)andcancer-A survey.Bba-Rev Cancer 2007,1775(1):181-232.
2.Chan AK,Chiu RW,Lo YM,Clinical Sciences Reviews Committee of theAssociation of Clinical B:Cell-free nucleic acids in plasma,serum and urine:anew tool in molecular diagnosis.Ann Clin Biochem 2003,40(Pt 2):122-130.
3.Stroun M,Maurice P,Vasioukhin V,Lyautey J,Lederrey C,Lefort F,Rossier A,Chen XQ,Anker P:The origin and mechanism of circulating DNA.Ann N YAcad Sci 2000,906:161-168.
4.Waldron D:Cancer genomics:A nucleosome footprint reveals the sourceof cfDNA.Nat Rev Genet 2016,17(3):125.
5.Bahcall OG:Genetic testing:cfDNA screening for trisomy 21 tested inunselected pregnancies.Nat Rev Genet 2015,16(6):316-317.
6.Corcoran RB,Chabner BA:Cell-free DNA Analysis in Cancer.N Engl JMed 2019,380(5):501-502.
7.Fiala C,Diamandis EP:Cell-free DNA Analysis in Cancer.N Engl J Med2019,380(5):501.
8.Schwarzenbach H,Hoon DSB,Pantel K:Cell-free nucleic acids asbiomarkers in cancer patients.Nat Rev Cancer 2011,11(6):426-437.
9.Wan JCM,Massie C,Garcia-Corbacho J,Mouliere F,Brenton JD,Caldas C,Pacey S,Baird R,Rosenfeld N:Liquid biopsies come of age:towardsimplementation of circulating tumour DNA.Nat Rev Cancer 2017,17(4):223-238.
10.Cristiano S,Leal A,Phallen J,Fiksel J,Adleff V,Bruhm DC,Jensen SO,Medina JE,Hruban C,White JR et al:Genome-wide cell-free DNA fragmentation inpatients with cancer.Nature 2019,570(7761):385-389.
11.Guo S,Diep D,Plongthongkum N,Fung HL,Zhang K,Zhang K:Identification of methylation haplotype blocks aids in deconvolution ofheterogeneous tissue samples and tumor tissue-of-origin mapping from plasmaDNA.Nat Genet 2017,49(4):635-642.
12.Moss J,Magenheim J,Neiman D,Zemmour H,Loyfer N,Korach A,Samet Y,Maoz M,Druid H,Arner P et al:Comprehensive human cell-type methylation atlasreveals origins of circulating cell-free DNA in health and disease.Nat Commun2018,9(1):5068.
13.Cristiano S,Leal A,Phallen J,Fiksel J,Adleff V,Bruhm DC,Jensen SO,Medina JE,Hruban C,White JR et al:Genome-wide cell-free DNA fragmentation inpatients with cancer.Nature 2019.
14.Shen SY,Singhania R,Fehringer G,Chakravarthy A,Roehrl MHA,ChadwickD,Zuzarte PC,Borgida A,Wang TT,Li T et al:Sensitive tumour detection andclassification using plasma cell-free DNA methylomes.Nature 2018,563(7732):579-583.
15.Li W,Zhang X,Lu X,You L,Song Y,Luo Z,Zhang J,Nie J,Zheng W,Xu D etal:5-Hydroxymethylcytosine signatures in circulating cell-free DNA asdiagnostic biomarkers for human cancers.Cell Res 2017,27(10):1243-1257.
16.JQ X:Trends in liver cancer mortality among adults aged 25 andover in the United States,2000–2016.NCHS Data Brief,no 314 2018.
17.Villanueva A:Hepatocellular Carcinoma.N Engl J Med 2019,380(15):1450-1462.
18.Chen CJ,Yu MW,Liaw YF:Epidemiological characteristics and riskfactors of hepatocellular carcinoma.J Gastroenterol Hepatol 1997,12(9-10):S294-308.
19.Montesano R,Hainaut P,Wild CP:Hepatocellular carcinoma:from geneto public health.J Natl Cancer Inst 1997,89(24):1844-1851.
20.Stauffer JK,Scarzello AJ,Jiang Q,Wiltrout RH:Chronic inflammation,immune escape,and oncogenesis in the liver:a unique neighborhood for novelintersections.Hepatology 2012,56(4):1567-1574.
21.Aihara T,Noguchi S,Sasaki Y,Nakano H,Imaoka S:Clonal analysis ofregenerative nodules in hepatitis C virus-induced livercirrhosis.Gastroenterology 1994,107(6):1805-1811.
22.Schutte K,Bornschein J,Malfertheiner P:Hepatocellular carcinoma--epidemiological trends and risk factors.Dig Dis 2009,27(2):80-92.
23.European Association for the Study of the Liver.Electronic addresseee,European Association for the Study of the L:EASL Clinical PracticeGuidelines:Management of hepatocellular carcinoma.J Hepatol 2018,69(1):182-236.
24.Labgaa I,Villacorta-Martin C,D'Avola D,Craig AJ,von Felden J,Martins-Filho SN,Sia D,Stueck A,Ward SC,Fiel MI et al:A pilot study of ultra-deep targeted sequencing of plasma DNA identifies driver mutations inhepatocellular carcinoma.Oncogene 2018,37(27):3740-3752.
25.Qu C,Wang Y,Wang P,Chen K,Wang M,Zeng H,Lu J,Song Q,Diplas BH,TanD et al:Detection of early-stage hepatocellular carcinoma in asymptomaticHBsAg-seropositive individuals by liquid biopsy.Proc Natl Acad Sci U S A2019,116(13):6308-6312.
26.Bhan I,Mosesso K,Goyal L,Philipp J,Kalinich M,Franses JW,Choz M,Oklu R,Toner M,Maheswaran S et al:Detection and Analysis of CirculatingEpithelial Cells in Liquid Biopsies From Patients With LiverDisease.Gastroenterology 2018,155(6):2016-2018 e2011.
27.Chan KC,Jiang P,Chan CW,Sun K,Wong J,Hui EP,Chan SL,Chan WC,HuiDS,Ng SS et al:Noninvasive detection of cancer-associated genome-widehypomethylation and copy number aberrations by plasma DNA bisulfitesequencing.Proc Natl Acad Sci U S A 2013,110(47):18761-18768.
28.Zhao Y,Xue F,Sun J,Guo S,Zhang H,Qiu B,Geng J,Gu J,Zhou X,Wang Wet al:Genome-wide methylation profiling of the different stages of hepatitisB virus-related hepatocellular carcinoma development in plasma cell-free DNAreveals potential biomarkers for early detection and high-risk monitoring ofhepatocellular carcinoma.Clin Epigenetics 2014,6(1):30.
29.Sun K,Jiang P,Chan KC,Wong J,Cheng YK,Liang RH,Chan WK,Ma ES,ChanSL,Cheng SH et al:Plasma DNA tissue mapping by genome-wide methylationsequencing for noninvasive prenatal,cancer,and transplantationassessments.Proc Natl Acad Sci U S A 2015,112(40):E5503-5512.
30.Lehmann-Werman R,Neiman D,Zemmour H,Moss J,Magenheim J,Vaknin-Dembinsky A,Rubertsson S,Nellgard B,Blennow K,Zetterberg H et al:Identification of tissue-specific cell death using methylation patterns ofcirculating DNA.Proc Natl Acad Sci U S A 2016,113(13):E1826-1834.
31.Kang S,Li Q,Chen Q,Zhou Y,Park S,Lee G,Grimes B,Krysan K,Yu M,WangW et al:CancerLocator:non-invasive cancer diagnosis and tissue-of-originprediction using methylation profiles of cell-free DNA.Genome Biol 2017,18(1):53.
32.Xu RH,Wei W,Krawczyk M,Wang W,Luo H,Flagg K,Yi S,Shi W,Quan Q,Li Ket al:Circulating tumour DNA methylation markers for diagnosis and prognosisof hepatocellular carcinoma.Nat Mater 2017,16(11):1155-1161.
33.Li H,Jing C,Wu J,Ni J,Sha H,Xu X,Du Y,Lou R,Dong S,Feng J:Circulating tumor DNA detection:A potential tool for colorectal cancermanagement.Oncol Lett 2019,17(2):1409-1416.
34.Toh ST,Jin Y,Liu L,Wang J,Babrzadeh F,Gharizadeh B,Ronaghi M,TohHC,Chow PK,Chung AY et al:Deep sequencing of the hepatitis B virus inhepatocellular carcinoma patients reveals enriched integration events,structural alterations and sequence variations.Carcinogenesis 2013,34(4):787-798.
35.Li W,Zeng X,Lee NP,Liu X,Chen S,Guo B,Yi S,Zhuang X,Chen F,Wang Get al:HIVID:an efficient method to detect HBV integration using low coveragesequencing.Genomics 2013,102(4):338-344.
36.Sung WK,Zheng H,Li S,Chen R,Liu X,Li Y,Lee NP,Lee WH,AriyaratnePN,Tennakoon C et al:Genome-wide survey of recurrent HBV integration inhepatocellular carcinoma.Nat Genet 2012,44(7):765-769.
37.Jiang Z,Jhunjhunwala S,Liu J,Haverty PM,Kennemer MI,Guan Y,Lee W,Carnevali P,Stinson J,Johnson S et al:The effects of hepatitis B virusintegration into the genomes of hepatocellular carcinoma patients.Genome Res2012,22(4):593-601.
38.Jiang S,Yang Z,Li W,Li X,Wang Y,Zhang J,Xu C,Chen PJ,Hou J,McCraeMA et al:Re-evaluation of the carcinogenic significance of hepatitis B virusintegration in hepatocarcinogenesis.PLoS One 2012,7(9):e40363.
39.Fujimoto A,Totoki Y,Abe T,Boroevich KA,Hosoda F,Nguyen HH,Aoki M,Hosono N,Kubo M,Miya F et al:Whole-genome sequencing of liver cancersidentifies etiological influences on mutation patterns and recurrentmutations in chromatin regulators.Nat Genet 2012,44(7):760-764.
40.Ding D,Lou X,Hua D,Yu W,Li L,Wang J,Gao F,Zhao N,Ren G,Li L et al:Recurrent targeted genes of hepatitis B virus in the liver cancer genomesidentified by a next-generation sequencing-based approach.PLoS Genet 2012,8(12):e1003065。

Claims (15)

1.一种肝癌标志物或标志物组合的筛选方法,其特征在于,所述筛选方法以乙肝病毒整合位点附近区域的甲基化状态作为指标筛选与肝癌相关的标志物,所述乙肝病毒整合位点附近区域是包含乙肝病毒在宿主基因组上的整合位点以及整合位点上下游各5kb的序列;
所述甲基化状态是指甲基化水平或甲基化图谱,其中,所述甲基化水平是指某位点或区域的甲基化程度,以公式m/(m+u)进行计算,其中m为该位点或区域的甲基化读段数目,u为该位点或区域的未甲基化读段数目;所述甲基化图谱是指甲基化特征、模式和/或不同位点或区域的甲基化水平所代表的甲基化特征;
所述检测方法检测的样品为人外周血游离DNA,所述甲基化状态通过测序获得,测序的覆盖度为5×106-1×107个读段对;
所述筛选方法包括生物信息分析步骤,测序序列经过Cutadapt质控后,用Bismark比对到人hg19版本的基因组参考序列上,在去掉PCR扩增重复的数据后,确定CpG位点的甲基化水平,HBV整合位点上下游各5kb平均甲基化水平计算为该区域内所有的C/C+T,使用R包caret进行候选区域选择。
2.根据权利要求1所述的筛选方法,其特征在于,所述不同受试者群体由患有肝癌的受试者、患有肝硬化的受试者、患有肝炎的受试者和/或健康受试者构成。
3.根据权利要求2所述的筛选方法,其特征在于,所述患有肝癌的受试者为患有早期肝癌的受试者、患有晚期肝癌的受试者和/或术后肝癌的受试者。
4.根据权利要求1-3任一项所述的筛选方法获得的肝癌标志物或肝癌标志物组合,所述肝癌标志物为13号染色体19442162-20713822位的序列、1号染色体10121993-12279387位的序列、10号染色体11149668-13266296位的序列、10号染色体38027603-39151628位的序列、10号染色体84035111-85772043位的序列、1号染色体37021302-37031302位的序列和/或11号染色体120177705-120187705位的序列。
5.一种使用根据权利要求4所述的肝癌标志物或肝癌标志物组合构建肿瘤模型的方法,其特征在于,所述肿瘤模型为非疾病诊断或治疗目的。
6.根据权利要求5所述的构建肿瘤模型的方法,其特征在于,以所述肝癌标志物或肝癌标志物组合的甲基化状态作为输入数据,通过机器学习的方法构建肿瘤模型;
所述甲基化状态是指甲基化水平或甲基化图谱,其中,所述甲基化水平是指某位点或区域的甲基化程度,以公式m/(m+u)进行计算,其中m为该位点或区域的甲基化读段数目,u为该位点或区域的未甲基化读段数目;所述甲基化图谱是指甲基化特征、模式和/或不同位点或区域的甲基化水平所代表的甲基化特征。
7.特异性检测权利要求4所述的肝癌标志物或肝癌标志物组合的试剂在制备试剂盒中的用途,其特征在于,所述用途为非疾病诊断或治疗目的。
8.根据权利要求7所述的用途,所述试剂是所述肝癌标志物或肝癌标志物组合的特异性扩增和/或捕获试剂。
9.根据权利要求7所述的用途,所述试剂是用于扩增和/或捕获所述肝癌标志物或肝癌标志物组合的引物和/或探针。
10.一种试剂盒,其特征在于,所述试剂盒包含特异性检测权利要求4所述的肝癌标志物或肝癌标志物组合的试剂,所述试剂盒为非疾病诊断或治疗目的。
11.根据权利要求10所述的试剂盒,所述试剂是所述肝癌标志物或肝癌标志物组合的特异性扩增和/或捕获试剂。
12.根据权利要求10所述的试剂盒,所述试剂是用于扩增和/或捕获所述肝癌标志物或肝癌标志物组合的引物和/或探针。
13.一种计算机可读存储介质,其特征在于,所述介质包括存储的计算机程序,所述计算机程序包含:
i)用于执行根据权利要求1-3任一项所述的筛选方法的程序;和/或
ii)用于执行根据权利要求5-6任一项所述的构建方法的程序。
14.一种装置或者计算机系统或者包含所述装置和计算机系统的设备,其特征在于,所述计算机系统包括:
甲基化状态读取模块,用于读取受试者的甲基化状态的测定数据,所述甲基化状态是根据权利要求4所述的肝癌标志物或肝癌标志物组合的甲基化状态;
分析模块,用于将所述读取模块获取的数据输入根据权利要求5-6任一项所述的构建方法构建的模型进行分析;
输出模块,根据分析模块得到的分析结果,输出信息。
15.根据权利要求14所述的装置或者计算机系统或者包含所述装置和计算机系统的设备,其特征在于,所述装置、计算机系统或者设备还包含根据权利要求13所述的计算机可读存储介质。
CN202010391223.0A 2020-05-11 2020-05-11 Hbv整合位点附近区域甲基化状态在癌症检测中的应用 Active CN111378757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010391223.0A CN111378757B (zh) 2020-05-11 2020-05-11 Hbv整合位点附近区域甲基化状态在癌症检测中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010391223.0A CN111378757B (zh) 2020-05-11 2020-05-11 Hbv整合位点附近区域甲基化状态在癌症检测中的应用

Publications (2)

Publication Number Publication Date
CN111378757A CN111378757A (zh) 2020-07-07
CN111378757B true CN111378757B (zh) 2022-10-11

Family

ID=71217636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010391223.0A Active CN111378757B (zh) 2020-05-11 2020-05-11 Hbv整合位点附近区域甲基化状态在癌症检测中的应用

Country Status (1)

Country Link
CN (1) CN111378757B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212428A1 (en) * 2016-06-07 2017-12-14 The Regents Of The University Of California Cell-free dna methylation patterns for disease and condition analysis
CN107541565A (zh) * 2016-06-23 2018-01-05 首都医科大学附属北京佑安医院 宿主外周血单个核细胞和t细胞的癌症dna甲基化标志物
CN109082469A (zh) * 2018-09-04 2018-12-25 张大可 乙肝病毒肝内整合状况的感染者外周血检测方法
CN110117652A (zh) * 2018-02-05 2019-08-13 箐健科技(天津)有限公司 肝癌早期诊断方法
WO2020010311A2 (en) * 2018-07-05 2020-01-09 Active Genomes Expressed Diagnostics, Inc Viral oncogene influences and gene expression patterns as indicators of early tumorigenesis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212428A1 (en) * 2016-06-07 2017-12-14 The Regents Of The University Of California Cell-free dna methylation patterns for disease and condition analysis
CN107541565A (zh) * 2016-06-23 2018-01-05 首都医科大学附属北京佑安医院 宿主外周血单个核细胞和t细胞的癌症dna甲基化标志物
CN110117652A (zh) * 2018-02-05 2019-08-13 箐健科技(天津)有限公司 肝癌早期诊断方法
WO2020010311A2 (en) * 2018-07-05 2020-01-09 Active Genomes Expressed Diagnostics, Inc Viral oncogene influences and gene expression patterns as indicators of early tumorigenesis
CN109082469A (zh) * 2018-09-04 2018-12-25 张大可 乙肝病毒肝内整合状况的感染者外周血检测方法

Also Published As

Publication number Publication date
CN111378757A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
JP6817259B2 (ja) 癌の検出のための血漿dna中のサイズ及び数異常の使用
US20230132951A1 (en) Methods and systems for tumor detection
AU2018305609B2 (en) Enhancement of cancer screening using cell-free viral nucleic acids
JP2018512048A (ja) 癌スクリーニング及び胎児分析のための変異検出
WO2022161076A1 (zh) 用于肺结节良恶性检测的甲基化标记物或其组合及应用
WO2020181752A1 (zh) 肝细胞癌早筛试剂盒及其制备方法和用途
WO2023226939A1 (zh) 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用
CN111378757B (zh) Hbv整合位点附近区域甲基化状态在癌症检测中的应用
WO2023078283A1 (zh) 用于乳腺癌诊断的甲基化生物标记物及其应用
US20230103637A1 (en) Sequencing of viral dna for predicting disease relapse
CN114150065B (zh) 一种结直肠癌或癌前病变的标记物及其应用
WO2023082142A1 (zh) 用于检测肝癌的otx1甲基化标志物
WO2023082141A1 (zh) 用于检测肝癌的hist1h3g甲基化标志物
Luo et al. A CpG-based prediction model for the diagnosis of hepatocellular carcinoma patients
CN117625795A (zh) 用于肺癌甲基化检测的探针组、试剂盒及检测系统和应用
CN116516005A (zh) 一种用于检测头颈鳞癌的核酸产品、试剂盒及应用
Wang et al. Early Detection of Metastatic Relapse and Monitoring of Therapeutic Efficacy by a Five Circulating Tumor DNA Methylation Signature in Colorectal Cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant