CN111378754B - 基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法 - Google Patents

基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法 Download PDF

Info

Publication number
CN111378754B
CN111378754B CN202010326209.2A CN202010326209A CN111378754B CN 111378754 B CN111378754 B CN 111378754B CN 202010326209 A CN202010326209 A CN 202010326209A CN 111378754 B CN111378754 B CN 111378754B
Authority
CN
China
Prior art keywords
methylation
seq
breast cancer
gene
methylation site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010326209.2A
Other languages
English (en)
Other versions
CN111378754A (zh
Inventor
王雪春
顾学红
贾佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Hospital of Jiaxing
Original Assignee
First Hospital of Jiaxing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Hospital of Jiaxing filed Critical First Hospital of Jiaxing
Priority to CN202010326209.2A priority Critical patent/CN111378754B/zh
Publication of CN111378754A publication Critical patent/CN111378754A/zh
Application granted granted Critical
Publication of CN111378754B publication Critical patent/CN111378754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Abstract

本发明公开了基于TCGA数据库的乳腺癌甲基化生物标志物及其筛选方法,具体地,本发明提供了一种通过特定甲基化位点从而进行早期乳腺癌特异性诊断的方法。该方法具有高特异性,可以有效区分不同肿瘤以及乳腺癌的各种亚型。

Description

基于TCGA数据库的乳腺癌甲基化生物标志物及其筛选方法
技术领域
本发明涉及医学计算机应用领域,具体地,本发明涉及一种基于TCGA数据库的乳腺癌甲基化生物标志物筛选的方法及系统。
背景技术
乳腺癌是全球女性癌症死亡率的癌种,2012年全球肿瘤流行病统计数据显示,每年有约167万的新确诊乳腺癌患者,超过50万的死亡乳腺癌患者。近年来,乳腺癌已成为中国女性最常见的癌症,分别是全球病例的12.2%,全球乳腺癌死亡比例的9.6%。乳腺癌的预后和肿瘤的及早发现也密切相关。世界范围内乳腺癌患者的持续增长迫切需要早期检测生物标志物。
表观遗传变化包括DNA甲基化,是人类肿瘤形成最常见的分子变化之一,在乳腺癌中也不例外。DNA甲基化是在不改变DNA序列的情况下改变基因表达模式的可逆过程。低甲基化和高甲基化状态都与乳腺癌有关。相比于癌旁组织,肿瘤和转移组织中通常检测到低甲基化状态,从而增加癌基因的表达,激活转录,进而改变基因组的稳定性。CpG岛位于肿瘤抑制基因的启动子区域,通常在正常细胞中未甲基化。然而在癌细胞中,这些启动子区域异常的高甲基化参与肿瘤抑制基因转录沉默。这些表观遗传变化发生在正常组织的早期癌变阶段,最终导致乳腺癌的发展。
目前对于引发乳腺癌的原因尚不明确,因此对于乳腺癌的早期检测和预防对于乳腺癌的诊断和治疗有着重要的作用,也是提高治愈率的关键。传统上乳腺病灶的发现依靠临床体检、乳腺定期自检,目前主要借助影像学检查,其中包括乳腺钼靶照相、全乳超声检查和乳腺磁共振检查。然而,影像学的检查往往在患者显示出明显的肿瘤发病迹象才能做出诊断,且普遍存在局限性,敏感性不够理想等问题。而DNA甲基化是表观遗传学的一种常见形式,其改变往往发生在体细胞癌变之前,是肿瘤发生的早期事件,在人体的多种体液中能够检测到甲基化的DNA,例如胆汁、排泄物以及血液。目前已检测到多种恶性肿瘤患者ctDNA中有多种基因存在异常甲基化,且与肿瘤患者的临床病理特征存在不同程度的相关性,具有检测稳定性好,组织特异性高的优点,使得DNA甲基化成为一个能够指导诊断、分期、判断预后及监测复发的有前景的生物标记。然而,本领域中尚缺乏高灵敏度和高准确度的能够用于乳腺癌早期筛查,特别是针对中国人群的乳腺癌早期筛查的甲基化生物标志物。
发明内容
本发明的目的是提供一种高灵敏度和高准确度的能够用于乳腺癌早期筛查,特别是针对中国人群的乳腺癌早期筛查的甲基化生物标志物。
本发明的第一方面,提供了一种肿瘤筛查试剂盒,所述的试剂盒包括用于检测甲基化位点的引物或引物对,且所述的甲基化位点包括一个或多个选自下组的位点:
位于DBC1基因上的甲基化位点cg03625109;
位于DBC1基因上的甲基化位点cg24818566;
位于C9orf125基因上的甲基化位点cg 13683194;和
位于PDGFRB基因上的甲基化位点cgd16429070。
在另一优选例中,所述的试剂盒用于肿瘤早期筛查。
在另一优选例中,所述的肿瘤是乳腺癌。
在另一优选例中,所述的甲基化位点还包括选自下组的一个或多个位点:
位于RARB基因上的甲基化位点cg07996594;
位于ESR1基因上的甲基化位点cg21646032;
位于RUNX3基因上的甲基化位点cg07671949;
位于PCDHGB7基因上的甲基化位点cg21185686;
位于TIMP3基因上的甲基化位点cg23601468;和
位于APC基因上的甲基化位点cg01240931。
本发明的第二方面,提供了一种乳腺癌甲基化生物标志物筛选方法,所述方法包括以下步骤:
1)从TCGA数据库获取实体瘤患者的的全基因组甲基化测序数据;
2)根据获取的甲基化数据采用ANOVA进行位点注释及差异化分析;
3)根据乳腺癌甲基化差异表达分析的结果进行ANOVA方差分析,筛选出乳腺癌差异性表达的甲基化位点;
4)通过T检验,比较乳腺癌甲基化差异表达位点和其他31种实体瘤的甲基化位点,从而得到有效区分乳腺癌和其他实体瘤癌种的甲基化生物标记物。
在另一优选例中,所述的方法还包括步骤:
5)在临床实体瘤患者样本中,采用焦磷酸测序验证所述步骤4)中得到的甲基化位点的表达情况。
在另一优选例中,所述的步骤1)包括:
从TCGA数据库获取多种实体瘤的Illumina人类全基因组甲基化450k芯片数据及表型数据,其中芯片上各探针甲基化水平用β值表示,范围从0至1,分别代表未甲基化和完全甲基化。
在另一优选例中,所述的步骤2)包括:采用R包TCGAbiolinks、dplyr、DT和SummarizedExperiment进行数据下载和分析。
在另一优选例中,所述的步骤3)包括:
3.1)选取p≤0.05的探针cg ID进行候选乳腺癌甲基化基因的注释;
3.2)选取对应基因上的探针cg ID,并根据P值从小到大排列,选取前100个探针cgID作为候选的乳腺癌甲基化位点;
较佳地,所述的步骤3)还包括:
3.3)进一步用其他实体瘤癌种对应的100个探针cg ID的甲基化数据进行T检验,根据T检验p值≤0.05且满足至多3个癌种无法显著区分的原则,筛选出乳腺癌特异性表达的甲基化位点。
在另一优选例中,所述的步骤5)包括:
5.1)临床选取多种实体瘤手术肿瘤样本;
5.2)对肿瘤FFPE样本的基因组DNA进行提取,得到样本DNA;
5.3)对所述的样本DNA进行甲基化处理,然后对甲基化位点进行PCR扩增;
5.4)对所述的甲基化位点进行测序。
在另一优选例中,所述的实体瘤手术肿瘤样本包括选自下组的样本:Luminal A分型乳腺癌样本、Luminal B分型乳腺癌样本、HER2分型乳腺癌样本、Basal-like分型乳腺癌样本、肺癌样本、胃癌样本,和结直肠癌样本。
在另一优选例中,所述的步骤4)包括:采用焦磷酸测序法对所述步骤3)中筛选出的特异性表达甲基化位点进行测序,然后进行T检验,从而得到能够显著区分乳腺癌与其他癌种的甲基化位点。
本发明的第三方面,提供了一种乳腺癌甲基化生物标志物筛选系统,其特征在于,所述的系统包括:
i)获取模块,用于从TCGA数据库获取实体瘤患者的的全基因组甲基化测序数据;
ii)位点注释及差异化分析模块,用于对获取的甲基化数据采用ANOCA进行位点注释及差异化分析;
iii)乳腺癌差异表达甲基化位点筛选模块,用于根据乳腺癌基因甲基化位点的差异表达分析的结果进行ANOVA方差分析分析,筛选出乳腺癌差异化表达的甲基化位点。
应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。
附图说明
图1.本发明实施例提供的基于TCGA数据库的乳腺癌甲基化生物标志物筛选的方法的流程图;
图2.10个特异性表达甲基化位点在乳腺癌、肺癌、胃癌和结直肠癌样本的差异分析;
图3.特异性表达甲基化位点在不同乳腺癌分析中的表达情况;其中,HL1:cg07996594,HL2:cg21646032,HL3:cg21185686,HL4:cg16429070,HL5:cg01240931,HL6:cg07671949,HL7:cg13683194,HL8:cg03625109,HL9:cg24818566,HL10:cg23601468。
具体实施方式
本发明公开了一种基于TCGA数据库的乳腺癌甲基化生物标志物筛选的方法及系统,方法包括:从TCGA数据库获取实体瘤患者的的全基因组甲基化测序数据;根据获取的甲基化数据采用ANOCA进行位点注释及差异化分析;根据甲基化差异表达分析的结果进行T检验分析,筛选出乳腺癌特异性表达的甲基化位点;在真实临床实体瘤患者样本中采用焦磷酸测序验证所筛选的甲基化位点的表达情况;获取有效区分乳腺癌和其他实体瘤癌肿的甲基化生物标记物。
本发明基于TCGA数据库并配合真实肿瘤组织测序样本筛选可靠有效的乳腺癌甲基化生物标志物,该技术能够更早的对乳腺癌提供特异性的诊断指标,甚至在没有影像学证据之前提供乳腺癌的诊断,进而改善综合疗效、简化治疗内容、减少治疗痛苦、降低治疗费用,真正实现乳腺癌的个性化治疗。本发明可广泛应用于医学计算机应用领域。
术语
TCGA:全称为The Cancer Genome Atlas,包括了30+种肿瘤的数据。是美国国家癌症研究所(National Cancer Institute,NCI)和国家人类基因组研究所(National HumanGenome Research Institute,NHGRI)发起的癌症基因组图谱(The Cancer Genome Atlas,TCGA)计划。是一个全面的、多维的,针对多种癌症基因组的图谱。涉及的领域不仅包括基因组测序,还包括转录组、甲基化等表观组学测序以及最终的整合分析,并将它们与临床和影像数据相关联。
DNA甲基化:DNA甲基化是指在甲基转移酶的催化下,DNA中CG两个核苷酸的胞嘧啶被选择性地添加甲基基团的化学修饰现象。DNA甲基化通常发生在基因的5’端启动子和第1外显子"CpG岛"区域,长约1kb,能够引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而抑制基因转录和表达。DNA甲基化出现在几乎所有肿瘤中,并且发生在癌前病变和癌变早期,因此是肿瘤早期诊断的理想标志物。
基于TCGA数据库的乳腺癌甲基化生物标志物筛选方法
参照图1,本发明实施例提供了一种基于TCGA数据库的乳腺癌甲基化生物标志物筛选的方法,包括以下步骤:
1)从TCGA数据库获取实体瘤患者的的全基因组甲基化测序数据;
2)根据获取的甲基化数据采用ANOCA进行位点注释及差异化分析;
3)根据乳腺癌甲基化差异表达分析的结果进行ANOVA方差分析,筛选出乳腺癌差异性表达的甲基化位点;
4)通过T检验比较乳腺癌甲基化差异表达位点和其他31种实体瘤的甲基化位点,获取有效区分乳腺癌和其他实体瘤癌肿的甲基化生物标记物
5)在真实临床实体瘤患者样本中采用焦磷酸测序验证所筛选的甲基化位点的表达情况;
所述的方法中,通过基因差异表达分析,从而识别不同样本中(本发明的两个样本分别是肿瘤转移样本和肿瘤未转移样本)下表达差异显著的基因(即一个基因在两个样本中的表达水平,在排除各种偏差后,其差异具有统计学意义),以从转录组测序数据中筛选出具有差异表达的基因。基因差异表达分析的方法可选用倍数法、ANOVA方差分析、T检验、F检验及SAM等方法。
临床选取的实体瘤手术肿瘤样本。其中包括且不局限于Luminal A,Luminal B,HER2和Basal-like分型乳腺癌样本,肺癌、胃癌和结直肠癌及其他实体瘤肿瘤样本。
在本申请的优选实施方式中,从TCGA数据库获取实体瘤患者的的全基因组甲基化测序数据具体包括;
采用32种实体瘤的Illumina人类全基因组甲基化450k芯片数据及表型数据进行全面分析,数据于2018年9月下载自TCGA数据库(https://portal.gdc.cancer.gov/)。芯片上各探针甲基化水平用β值表示,范围从0至1,分别代表未甲基化和完全甲基化。采用R包TCGAbiolinks、dplyr、DT和SummarizedExperiment进行数据下载和分析。采用ANOVA进行位点注释及差异化分析。
在本申请的优选实施方式中,根据获取的甲基化数据采用ANOCA进行位点注释及差异化分析具体包括:
采用R包TCGAbiolinks、dplyr、DT和SummarizedExperiment进行数据下载和分析,采用ANOVA进行位点注释及差异化分析。
根据甲基化差异表达分析的结果进行ANOVA方差分析,筛选出乳腺癌查异性表达的甲基化位点;
根据其表型信息,将乳腺癌样本分为原位肿瘤、转移肿瘤和正常组织,采用ANOVA方差分析,选取p≤0.05的探针cg ID进行候选乳腺癌甲基化基因的注释。选取对应基因上的探针cg ID并根据P值从小到大排列,选取前100个探针cg ID作为候选的乳腺癌甲基化位点。为筛选出区别与其他实体瘤的乳腺癌特异的甲基化位点,进一步用其他31个实体瘤癌种对应的100个探针cg ID的甲基化数据进行T检验。根据T检验P值≤0.05且满足至多3个癌种无法显著区分的原则,筛选出乳腺癌特异性表达的甲基化位点。
所筛选获得的100个甲基化位点进一步在31种实体瘤的全基因组甲基化数据中检索其表达值,并采用T检验的方法,筛选P值≤0.05,并满足至多3个癌种无法显著区分的条件。
表1列出最终筛选的10个乳腺癌特异性表达的甲基化位点(cg13683194、cg07996594、cg21646032、cg07671949、cg21185686、cg03625109、cg16429070、cg23601468、cg24818566、cg01240931),涉及9个基因(C9orf125,RARB,ESR1,RUNX3,PCDHGB7,DBC1,PDGFRB,TIMP3,APC)。位于DBC1基因上的2个甲基化位点cg03625109、cg24818566,位于C9orf125基因上的1个甲基化位点cg 13683194和位于PDGFRB基因上的1个甲基化位点cgd16429070,共4个位点能有效区分乳腺癌和其他31个癌种。其余6个基因上的6个甲基化位点至少能区分29个癌种。其他31个实体瘤癌种中,胆管癌CHOL、结肠癌COAD、弥漫性大B细胞淋巴瘤DLBC、肾嫌色细胞癌KICH、脑低级别胶质瘤LGG、肺鳞癌LUSC、卵巢浆液性囊腺癌OV、嗜铬细胞瘤和副神经节瘤PCPG和直肠腺癌READ均可通过9个甲基化位点和乳腺癌区分,皮肤黑色素瘤SKCM和子宫肉瘤UCS可通过8个甲基化位点和乳腺癌区分,剩余20个癌种则可通过10个甲基化位点和乳腺癌完全区分,分类效果上表现优良。详情见实施例1中表1。
焦磷酸测序验证所筛选的甲基化位点表达
临床选取45例手术肿瘤样本。其中Luminal A,Luminal B,HER2和Basal-like分型乳腺癌样本15例,肺癌、胃癌和结直肠癌样本各10例。使用QIAGEN QIAamp DNA FFPETissue Kit对肿瘤FFPE样本的基因组DNA进行提取(QIAGEN,56404)。随后使用QiagenEpiTect Bisulfite Kit试剂盒(Qiagen,59104)对DNA进行甲基化处理,使用PyroMark Assay Design 2.0对甲基化位点的引物进行设计。DNA经PCR扩增后,采用Pyrosequencing检测。
甲基化生物标记物的获取
选取45例乳腺癌、肺癌、胃癌和结直肠癌样本。其中Luminal A,Luminal B,HER2和Basal-like分型乳腺癌样本15例,肺癌、胃癌和结直肠癌样本各10例。采用焦磷酸测序的方法进行对筛选的10个特异性表达甲基化位点进行检测。其中DBC1(cg24818566)、PCDHGB7(cg21185686)、TIMP3(cg23601468)这3个基因的甲基化位点不能完全显著的区分乳腺癌和肺癌或胃癌,其他位点均能显著的将乳腺癌与其他癌种进行区分(P<0.05)。图2为10个特异性表达甲基化位点在乳腺癌、肺癌、胃癌和结直肠癌样本的差异分析
进一步分析特异性表达甲基化位点在不同乳腺癌分型中的表达情况,发现Luminal A和Luminal B分析的乳腺癌样本的甲基化位点有相似表达(P>0.1),而HER2和Basal-like分型有显著差异。Cg21646032、cg23601468两个位点可将Basal-like分型显著区别于乳腺癌的其他分型,因此可以被进一步用于乳腺癌分型。
基于TCGA数据库的乳腺癌甲基化生物标志物筛选的系统
本发明还提供了一种与上述方法相对应,且基于TCGA数据库的乳腺癌甲基化生物标志物筛选的系统,所述的系统包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述程序以实现本发明所述的基于TCGA数据库的乳腺癌甲基化生物标志物筛选的方法;
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,或按照制造厂商所建议的条件。除非另外说明,否则百分比和份数按重量计算。
实施例1:甲基化位点的获取与分析
1材料和方法。
1.1TCGA实体瘤甲基化数据获取和分析
本研究采用32种实体瘤的Illumina人类全基因组甲基化450k芯片数据及表型数据进行全面分析,数据于2018年9月下载自TCGA数据库
(https://portal.gdc.cancer.gov/)。芯片上各探针甲基化水平用β值表示,范围从0至1,分别代表未甲基化和完全甲基化。采用R包TCGAbiolinks、dplyr、DT和SummarizedExperiment进行数据下载和分析。采用ANOVA进行位点注释及差异化分析。
1.2候选乳腺癌特异性表达甲基化位点
乳腺癌样本根据其表型信息,将其分为原位肿瘤、转移肿瘤和正常组织,采用ANOVA方差分析,选取p≤0.05的探针cg ID进行候选乳腺癌甲基化基因的注释。选取对应基因上的探针cg ID并根据P值从小到大排列,选取前100个探针cg ID作为候选的乳腺癌甲基化位点。为筛选出区别与其他实体瘤的乳腺癌特异的甲基化位点,进一步用其他31个实体瘤癌种对应的100个探针cg ID的甲基化数据进行T检验。根据T检验P值≤0.05且满足至多3个癌种无法显著区分的原则,筛选出乳腺癌特异性表达的甲基化位点。
1.3统计分析
采用自主编写R脚本进行统计学分析。
2结果
2.1乳腺癌特异甲基化位点
通过对原位肿瘤、转移肿瘤和正常组织乳腺癌全基因组甲基化数据的分析,选择方差分析p≤0.05的甲基化位点,经位点注释后选取对应基因上的探针cg ID,并根据P值从小到大排列,选取前100个探针cg ID作为乳腺癌差异表达的甲基化位点。图1为乳腺癌差异表达甲基化位点所设计的基因的GO分类。
所筛选获得的100个甲基化位点进一步在31种实体瘤的全基因组甲基化数据中检索其表达值,并采用T检验的方法,筛选P值≤0.05,并满足至多3个癌种无法显著区分的条件,表1列出最终筛选的10个乳腺癌特异性表达的甲基化位点(cg13683194、cg07996594、cg21646032、cg07671949、cg21185686、cg03625109、cg16429070、cg23601468、cg24818566、cg01240931),涉及9个基因(C9orf125,RARB,ESR1,RUNX3,PCDHGB7,DBC1,PDGFRB,TIMP3,APC)。位于DBC1基因上的2个甲基化位点cg03625109、cg24818566,位于C9orf125基因上的1个甲基化位点cg 13683194和位于PDGFRB基因上的1个甲基化位点cgd16429070,共4个位点能有效区分乳腺癌和其他31个癌种。其余6个基因上的6个甲基化位点至少能区分29个癌种。其他31个实体瘤癌种中,胆管癌CHOL、结肠癌COAD、弥漫性大B细胞淋巴瘤DLBC、肾嫌色细胞癌KICH、脑低级别胶质瘤LGG、肺鳞癌LUSC、卵巢浆液性囊腺癌OV、嗜铬细胞瘤和副神经节瘤PCPG和直肠腺癌READ均可通过9个甲基化位点和乳腺癌区分,皮肤黑色素瘤SKCM和子宫肉瘤UCS可通过8个甲基化位点和乳腺癌区分,剩余20个癌种则可通过10个甲基化位点和乳腺癌完全区分,分类效果上表现优良。
表1本发明方法筛选出的乳腺癌特异性表达甲基化位点(P值)
Figure GDA0002512300800000091
Figure GDA0002512300800000101
Figure GDA0002512300800000111
备注:下划线表示P值>0.1,无法区分乳腺癌和其他31个实体瘤癌种。缩写:ACC:肾上腺皮质癌,BLCA:膀胱尿路上皮癌,CESC:宫颈鳞癌和腺癌,CHOL:胆管癌,COAD:结肠癌,DLBC:弥漫性大B细胞淋巴瘤,ESCA:食管癌,GBM:多形成性胶质细胞瘤,HNSC:头颈鳞状细胞癌,KICH:肾嫌色细胞癌,KIRC:肾透明细胞癌,KIRP:肾乳头状细胞癌,LGG:脑低级别胶质瘤,LIHC:肝细胞癌,LUAD:肺腺癌,LUSC:肺鳞癌,MESO:间皮瘤,OV:卵巢浆液性囊腺癌,PAAD:胰腺癌,PCPG:嗜铬细胞瘤和副神经节瘤,PRAD:前列腺癌,READ:直肠腺癌,SARC:肉瘤,SKCM:皮肤黑色素瘤,STAD:胃癌,TGCT:睾丸癌,THCA:甲状腺癌,THYM:胸腺癌:UCEC:子宫内膜癌,UCS:子宫肉瘤,UVM:葡萄膜黑色素瘤
实施例2特异性甲基化位点在不同肿瘤中的表现
2.1样本选择
选取45例乳腺癌、肺癌、胃癌和结直肠癌样本,其中Luminal A,Luminal B,HER2和Basal-like分型乳腺癌样本15例,肺癌、胃癌和结直肠癌样本各10例。采用焦磷酸测序的方法进行对筛选的10个特异性表达甲基化位点进行检测。
2.2焦磷酸测序
使用QIAGEN QIAamp DNA FFPE Tissue Kit对肿瘤FFPE样本的基因组DNA进行提取(QIAGEN,56404)。随后使用QiagenEpiTect Bisulfite Kit试剂盒(Qiagen,59104)对DNA进行甲基化处理,使用PyroMark Assay Design 2.0对甲基化位点的引物进行设计。DNA经PCR扩增后,采用Pyrosequencing检测。
Figure GDA0002512300800000112
Figure GDA0002512300800000121
2.3实验结果
对10个特异性表达甲基化位点进行检测,发现其中DBC1(cg24818566)、PCDHGB7(cg21185686)、TIMP3(cg23601468)这3个基因的甲基化位点不能完全显著的区分乳腺癌和肺癌或胃癌,其他位点均能显著的将乳腺癌与其他癌种进行区分(P<0.05)(图2)。
进一步分析特异性表达甲基化位点在不同乳腺癌分型中的表达情况,发现Luminal A(微管A型)和Luminal B(微管B型)分析的乳腺癌样本的甲基化位点有相似表达(P>0.1),而HER2和Basal-like分型有显著差异。cg21646032、cg23601468两个位点可将Basal-like分型(基底样分型)显著区别于乳腺癌的其他分型(图3)。这一结果证明,本发明的特异性甲基化位点可以有效区分乳腺癌和其他癌种,且可作为乳腺癌分型的依据。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
序列表
<110> 嘉兴市第一医院
<120> 基于TCGA数据库的乳腺癌甲基化生物标志物筛选的方法及系统
<130> 上海诺衣知识产权代理事务所(普通合伙)
<160> 30
<170> SIPOSequenceListing 1.0
<210> 1
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
aggaaaaggg tagaggataa taaagaatgg 30
<210> 2
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
ttggggagtg tagggtgttg 20
<210> 3
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
aggatgattt tggggaggat tatattgt 28
<210> 4
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
gggattttaa gtagtttggg gttaata 27
<210> 5
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
tgggtatgaa aatggatgta tgtt 24
<210> 6
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
gtgggttgtg gaatttttaa gtat 24
<210> 7
<211> 18
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
ggggattttg tgggagat 18
<210> 8
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
agtggtttgt gaggtgattt ata 23
<210> 9
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
ggttgtgtgg gttttaagga 20
<210> 10
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
ggtttgggga gtgtagggtg ttg 23
<210> 11
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
tcctctctct tttaaccacc aatacat 27
<210> 12
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
acctaccccc ccaaaaacac tcaaata 27
<210> 13
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
ttcccctcaa atacccccta tcaa 24
<210> 14
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
cccttaactt tacaaccact actattt 27
<210> 15
<211> 29
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 15
cccaaataac aaaaaaacca aatcaccta 29
<210> 16
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 16
tttttttccc cctctctctt tct 23
<210> 17
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 17
ccccaaactc caaccccaaa t 21
<210> 18
<211> 26
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 18
aaacatacct ctcactccat atatta 26
<210> 19
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 19
acctccctcc ccttacacaa ca 22
<210> 20
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 20
acctaccccc ccaaaaacac tcaaata 27
<210> 21
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 21
cttttaacca ccaatacata 20
<210> 22
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 22
gtgtttttaa gagtgattgt attg 24
<210> 23
<211> 15
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 23
agatagaatg gggtg 15
<210> 24
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 24
agttttagga ttttgtagg 19
<210> 25
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 25
atggatgtat gtttagaata tatg 24
<210> 26
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 26
tttaagtatt tttttatatt ttgag 25
<210> 27
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 27
gtatttagat aagttattta gttt 24
<210> 28
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 28
gtgttatttt gatagttttg tat 23
<210> 29
<211> 17
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 29
ccttacacaa cacccta 17
<210> 30
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 30
atgagtaaga gtatttaaag ggat 24

Claims (4)

1.一种用于乳腺癌早期筛查的试剂盒,其特征在于,所述的试剂盒具有用于检测甲基化位点的引物或引物对,且所述的甲基化位点由如下(1)-(4)项中所述的位点:
(1)位于DBC1基因上的甲基化位点cg03625109;
(2)位于DBC1基因上的甲基化位点cg24818566;
(3)位于C9orf125基因上的甲基化位点cg13683194;
(4)位于PDGFRB基因上的甲基化位点cg16429070;
以及任选的如下(5)-(10)项中所述的
(5)位于RARB基因上的甲基化位点cg07996594;
(6)位于ESR1基因上的甲基化位点cg21646032;
(7)位于RUNX3基因上的甲基化位点cg07671949;
(8)位于PCDHGB7基因上的甲基化位点cg21185686;
(9)位于TIMP3基因上的甲基化位点cg23601468;和
(10)位于APC基因上的甲基化位点cg01240931;
组成。
2.如权利要求1所述的试剂盒,其特征在于,所述的试剂盒还具有用于检测选自下组的位点的引物对:
位于RARB基因上的甲基化位点cg07996594;
位于ESR1基因上的甲基化位点cg21646032;
位于RUNX3基因上的甲基化位点cg07671949;
位于PCDHGB7基因上的甲基化位点cg21185686;
位于TIMP3基因上的甲基化位点cg23601468;和
位于APC基因上的甲基化位点cg01240931。
3.如权利要求1所述的试剂盒,其特征在于,所述的试剂盒具有引物对组合,且所述的引物对组合由如下(1)-(4)项中所述的引物对:
(1)SEQ ID No.1和SEQ ID No.11;
(2)SEQ ID No.2和SEQ ID No.12;
(3)SEQ ID No.3和SEQ ID No.13;
(4)SEQ ID No.4和SEQ ID No.14;
以及任选的如下(5)-(10)项中所述的引物对:
(5)SEQ ID No.5和SEQ ID No.15;
(6)SEQ ID No.6和SEQ ID No.16;
(7)SEQ ID No.7和SEQ ID No.17;
(8)SEQ ID No.8和SEQ ID No.18;
(9)SEQ ID No.9和SEQ ID No.19;
(10)SEQ ID No.10和SEQ ID No.20;
组成。
4.如权利要求1所述的试剂盒,其特征在于,所述的试剂盒具有探针组合,且所述的探针组合由如下(1)-(4)项中所述的探针:
(2)SEQ ID No.21;
(2)SEQ ID No.22;
(3)SEQ ID No.23;
(4)SEQ ID No.24;
以及任选的如下(5)-(10)项中所述的引物对:
(5)SEQ ID No.25;
(6)SEQ ID No.26;
(7)SEQ ID No.27;
(8)SEQ ID No.28;
(9)SEQ ID No.29;
(10)SEQ ID No.30;
组成。
CN202010326209.2A 2020-04-23 2020-04-23 基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法 Active CN111378754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010326209.2A CN111378754B (zh) 2020-04-23 2020-04-23 基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010326209.2A CN111378754B (zh) 2020-04-23 2020-04-23 基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法

Publications (2)

Publication Number Publication Date
CN111378754A CN111378754A (zh) 2020-07-07
CN111378754B true CN111378754B (zh) 2020-11-17

Family

ID=71220321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010326209.2A Active CN111378754B (zh) 2020-04-23 2020-04-23 基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法

Country Status (1)

Country Link
CN (1) CN111378754B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382342A (zh) * 2020-11-24 2021-02-19 山西三友和智慧信息技术股份有限公司 一种基于集成特征选择的癌症甲基化数据分类方法
KR20220099686A (ko) * 2021-01-07 2022-07-14 가톨릭대학교 산학협력단 전이성 고형암 환자의 예후 진단 및 치료 전략 결정용 전이기간 특이적 마커
CN116064809A (zh) * 2021-11-04 2023-05-05 广州市基准医疗有限责任公司 用于乳腺癌诊断的甲基化生物标记物及其应用
CN116758989A (zh) * 2023-06-09 2023-09-15 哈尔滨星云生物信息技术开发有限公司 一种乳腺癌标记物筛选方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729718A (zh) * 2017-10-17 2018-02-23 北京工业大学 一种乳腺癌发生相关特征基因筛选方法
CN108300787A (zh) * 2018-04-17 2018-07-20 中国科学院北京基因组研究所 特异甲基化位点作为乳腺癌早期诊断标志物的应用
CN109616198A (zh) * 2018-12-28 2019-04-12 陈洪亮 仅用于肝癌单一癌种筛查的特异甲基化检测位点组合的选取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200248168A1 (en) * 2017-02-22 2020-08-06 Crispr Therapeutics Ag Compositions and methods for treatment of proprotein convertase subtilisin/kexin type 9 (pcsk9)-related disorders
CN110106244A (zh) * 2019-06-06 2019-08-09 广州市雄基生物信息技术有限公司 一种乳腺癌无创分子分型试剂盒及方法
CN110835650B (zh) * 2019-11-21 2022-11-25 徐州医科大学 乳腺癌转移和预后诊断的生物标志物

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729718A (zh) * 2017-10-17 2018-02-23 北京工业大学 一种乳腺癌发生相关特征基因筛选方法
CN108300787A (zh) * 2018-04-17 2018-07-20 中国科学院北京基因组研究所 特异甲基化位点作为乳腺癌早期诊断标志物的应用
CN109616198A (zh) * 2018-12-28 2019-04-12 陈洪亮 仅用于肝癌单一癌种筛查的特异甲基化检测位点组合的选取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Illumina;Illumina;《Illumina》;20130523;第1-2页 *
Novel alternative splice variants of the human protein arginine methyltransferase 1 (PRMT1) gene, discovered using next-generation sequencing;Adamopoulos, Panagiotis G.等;《GENE》;20190530;第699卷;第135-144页 *

Also Published As

Publication number Publication date
CN111378754A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN111378754B (zh) 基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法
CN111910004B (zh) cfDNA在早期乳腺癌无创诊断中的应用
JP6606554B2 (ja) Y染色体のメチル化部位を前立腺ガンの診断用マーカとする使用
CN113755603A (zh) 子宫内膜癌早期筛查诊断用标志物、引物探针及试剂盒
CN111676287B (zh) 一种基因标志物组合及其应用
JP2024001068A (ja) がんの非侵襲的検出のためのdnaメチル化マーカーとその使用
Vrba et al. DNA methylation biomarkers discovered in silico detect cancer in liquid biopsies from non-small cell lung cancer patients
WO2012154979A2 (en) Method of detecting cancer through generalized loss of stability of epigenetic domains, and compositions thereof
WO2022161076A1 (zh) 用于肺结节良恶性检测的甲基化标记物或其组合及应用
JP6395131B2 (ja) 肺癌に関する情報の取得方法、ならびに肺癌に関する情報を取得するためのマーカーおよびキット
CN111705130B (zh) 一种基因标志物组合及其应用
CN112375824B (zh) Msc作为宫颈癌诊断、预后和/或治疗标志物的应用
CN113699242A (zh) 检测kras基因突变、adamts1与bnc1甲基化的引物探针,试剂盒与方法
WO2018158589A1 (en) Diagnostic and prognostic methods
US20140206565A1 (en) Esophageal Cancer Markers
EP2738264A1 (en) A method and system for determining behavior of thyroid tumor
US20230076141A1 (en) Markers, primers, probes and kit for early screening and diagnosis of endometrial cancer
EP3162899A1 (en) Biomarker for breast cancer
CN112391478B (zh) 外泌体mRNA在乳腺疾病诊断中的应用
CN102732516B (zh) 一种多重巢式甲基化特异性pcr扩增引物及其使用方法与应用
GB2596271A (en) Cancer screening test
EP4134453A1 (en) Composition for diagnosing colorectal cancer, rectal cancer, or colorectal adenoma using cpg methylation change of glrb gene, and use thereof
Du et al. Cell-free DNA methylation profile potential in the diagnosis of lung squamous cell carcinoma
JP7024957B2 (ja) 大腸癌の異時性転移の有無を予測する方法およびそれに用いるキット
Lee et al. Landscape of EGFR mutations in lung adenocarcinoma: a single institute experience with comparison of PANAMutyper testing and targeted next-generation sequencing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant