用于胰腺癌检查的基因标记物
技术领域
本发明涉及胰腺癌临床诊断领域,具体涉及用于胰腺癌检查的基因标记物。
背景技术
胰腺癌是一种消化道常见肿瘤,是预后最差的恶性肿瘤之一。根据最新流行病学调查,胰腺癌位居欧美等发达国家恶性肿瘤死亡率第四位,全球每年约250万人死于胰腺癌。近20年来我国胰腺癌的发病率持续增高,目前胰腺癌位居恶性肿瘤死亡率第五位。
胰腺癌(Pancreatic adenocarcinoma,PAAD)是一种恶性程度很高、诊断和治疗都很困难的消化道恶性肿瘤,约90%为起源于腺管上皮的导管腺癌(Pancreatic ductaladenocarcinoma, PDAC)。目前胰腺癌的病因尚不十分清楚,其发生与吸烟、饮酒、高脂肪和高蛋白饮食、过量饮用咖啡、环境污染及遗传因素有关;近年来的调查报告发现糖尿病人群中胰腺癌的发病率明显高于普通人群;也有人注意到慢性胰腺炎病人与胰腺癌的发病存在一定关系,发现慢性胰腺炎病人发生胰腺癌的比例明显增加。近年来,胰腺癌的发病率明显升高,30年代以来,美、英、日等国PDAC发病率增加了2~4倍。
在胰腺癌的治疗中,早期诊断困难,其起病隐匿,缺乏典型临床症状,且预后极差,胰腺癌侵袭性强,恶性度高,外科手术、化疗及放疗等手段的疗效均不尽人意,其术后1年生存率不到20%,5年生存率仅为4%,早期确诊率低和术后转移是胰腺癌死亡率高的主要原因。
近年来,随着分子生物学技术的发展,在癌症疾病的相关研究中,越来越多的非编码基因或非编码RNA被报道,如lncRNA、micRNA、假基因等。
非编码RNA(ncRNAs)是一类具有重要生物学功能的RNA,参与基因组印记、染色体沉默、染色质修饰、转录激活、转录干扰、核内运输等多种重要的调控过程,在细胞分化和发育、基因转录和翻译、遗传和表观遗传等生命活动中均发挥重要的调控作用。越来越多的权威研究表明lncRNA在肿瘤的发生发展中起着抑制或促进肿瘤的作用。目前己有较多lncRNAs被证实在包括乳腺癌、黑色素瘤、肝癌、结肠癌、膀胱癌等在内的人类多种肿瘤中存在差异表达并执行重要的调控功能。
因此,胰腺癌的早期诊断和早期治疗是提高和改善胰腺癌预后的关键,尤其是发现一种特有的、可用于早期诊断和预后的标记物和靶向分子,对于战胜胰腺癌具有重要意义,成为目前国内外肿瘤专家的研究热点。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了用于胰腺癌检查的基因标记物m1A调控基因,利用本发明的基因标记物监测胰腺癌预后,不仅精确度大大提高,同时对后续临床研究的开展具有指导意义。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
m1A调控基因在制备胰腺癌诊断、监测、疗效评估或转移复发监控试剂或试剂盒中的应用。
ALKBH1因子在制备胰腺癌诊断、监测、疗效评估或转移复发监控试剂或试剂盒中的应用。
优选地,试剂或试剂盒包括特异性识别ALKBH1的引物。
优选地,试剂或试剂盒包括特异性识别ALKBH1蛋白核酸的引物或探针。
优选地,ALKBH1因子的高表达与患者较好的预后有关。
优选地,ALKBH1因子的表达与受试者的临床分级呈负相关关系。
优选地,ALKBH1因子的表达与组蛋白甲基化生理过程有关。
(三)有益效果
本发明检测胰腺癌具有安全无创的优点,即使无症状人群也对该检测接受度较高;RNA来源广泛,不存在影像学中的检测盲区;ALKBH1因子对胰腺癌有较高的灵敏度和特异性,适合用于胰腺癌的诊断、监测、疗效评估或转移复发监控;操作方便,用户体验好,容易进行胰腺癌复发和转移的动态监测。本发明的ALKBH1可与其他临床指标相结合,为胰腺癌筛查、诊断、治疗与预后提供更准确的判断。
附图说明
图1为PAAD病例中m1A调控基因的突变频率统计图;
图2为ALKBH1的突变位点图;
图3为 m1A调控基因的CNV与表达水平的关系图(显著);
图4为不同临床分级与病人的预后关系图;
图5为m1A调控基因与不同Stage病例的聚类热图;
图6为m1A调控基因在不同临床分级病例中的表达比较图(显著);
图7为多因素COX回归的Survival曲线和AUC曲线图;
图8为ALKBH1的表达与患者预后的关系图;
图9为ALKBH1的AUC与风险分析图;
图10为验证数据集中ALKBH1的AUC与风险分析图;
图11为验证数据集中ALKBH1的表达与患者预后的关系图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
胰腺癌基因标志物的筛选
(1)m1A调控基因的因子
“Writer”基因有TRMT10C、TRMT61B、TRMT6和TRMT61A;
“Reader”基因有YTHDF1、YTHDF2、YTHDF3和YTHDC1;
“Eraser”基因有ALKBH1和ALKBH3。
(2)临床信息筛选
所有PAAD临床数据、CNV、突变和mRNA表达数据均由TCGA-assembler从TCGA网站中检索并于2019年9月下载;用于验证结果的验证数据集来自ICGC的胰腺癌数据集(https://dcc.icgc.org/);具体为ICGC_PACA_CA。
对于转录组数据,选取177例肿瘤样本,下载数据为TPM和FPKM;对于SNV数据,选取175个肿瘤样本的数据,下载数据为muTect处理后的level3数据;对于CNV数据,共有183例肿瘤样本;对于临床信息数据,共有185例临床信息;将数据整合后,剔除临床信息不完整以及生存时间不足90天的样本后,对166例独立样本进行生存分析。
(3)结果与分析
1)m1A调控基因的突变和CNV
在363例PAAD患者测序数据中,m1A调控基因在4例独立样本中出现突变。其中,“Reader”基因中YTHDC1发生突变的频率较高,在1个样本中被检测到三次;同样的“Reader”基因YTHDF1和“Writer”基因TRMT61A则在2个样本中出现;“Eraser”基因相比“Writer”和“Reader”基因而言,突变频率较低(如图1所示)。
表1 PAAD样本中m1A调控基因错义突变统计表
Tumor Sample Barcode |
Frame Shift Del |
Missense Mutation |
TCGA-IB-7651 |
0 |
10 |
TCGA-HZ-8001 |
1 |
0 |
TCGA-IB-A5SQ |
0 |
1 |
表2 PAAD样本中m1A调控基因的功能注释统计表
Hugo Symbol |
Frame Shift Del |
Missense Mutation |
total |
Mutated Samples |
TRMT61B |
0 |
3 |
3 |
1 |
YTHDC1 |
0 |
3 |
3 |
1 |
ALKBH1 |
0 |
1 |
1 |
1 |
TRMT10C |
0 |
1 |
1 |
1 |
TRMT6 |
0 |
1 |
1 |
1 |
TRMT61A |
0 |
1 |
1 |
1 |
YTHDF1 |
0 |
1 |
1 |
1 |
YTHDF3 |
1 |
0 |
1 |
1 |
注:表1和表2中total的单位均为例。
从SNV的功能上看,3个样本上发生了可注释的m1A调控基因的功能性改变(如表1所示)。在所有10个m1A调控基因中,有8个基因注释到了功能性改变(如表2所示),且全部为错意突变(Missense Mutation)。
表3 PAAD样本中m1A调控基因突变总览表
由表3可知,“Reader”基因YTHDC1发生突变数量最多,其发生错意突变可能导致早期功能受损(如图2所示),进而影响m1A调控基因信号在细胞中的传导,导致发生功能性障碍;肿瘤细胞中YTHDC1高的突变预示着,肿瘤细胞中m1A调控基因的功能可能发生异常。为此,利用8个在功能性改变的因子对PAAD患者的生存进行预后,发现这7个因子发生突变的样本预后差于未发生突变的样本,由于发生突变的样本数较少,P值未达到显著标准。
表4 PAAD样本中m1A调控基因的CNV统计表
m1A调控基因的改变,除了SNV以外,还有拷贝数变异(CNV);然而在具有CNV数据的183个PAAD样品中,观察到m1A调控基因具有高频的CNV;其中,“Reader”基因YTHDF2的频率为21.2% ,其次为“Reader”基因的YTHDF3,其CNV事件的频率为18.48%,而“Eraser”基因ALKBH3的频率最低,为7.07%(由表4可知)。
2)m1A调控基因的改变与临床病理学和分子特征有关
对m1A调控基因的改变(CNV和/或突变)与患者临床病理学特征之间关系的评估。对各个临床特征进行COX回归分析,结果表明:PAAD患者的生存与更高的‘T’分级相关(P值最小,但是不显著),而与是否发展SNV或者CNV并无显著关联,如表5所示。
表5 临床特征与m1A调控基因改变的COX分析表
Features |
beta |
HR (95%_CI_for_HR) |
wald.test |
p.value |
Stage T 1 |
0.62 |
1.9 (0.98-3.5) |
3.6 |
0.056 |
Grade 1 |
0.34 |
1.4 (0.91-2.2) |
2.4 |
0.12 |
Stage M 1 |
-0.12 |
0.89 (0.59-1.3) |
0.32 |
0.57 |
Stage 1 |
-0.24 |
0.79 (0.25-2.5) |
0.16 |
0.69 |
Stage N 1 |
0.0084 |
1 (0.24-4.2) |
0 |
0.99 |
无论单独的SNV还是CNV,亦或是两种共同作用下,它们的改变与病人的预后之间关系并不显著;由于TP53、BRCA1、CDKN2A、和ATM在PAAD的发病机制中起重要作用,我们进一步评估了m1A调控基因的变异是否与这四个基因的改变有关。m1A调控基因的改变与TP53、BRCA1、CDKN2A、和ATM的改变并无显着相关关系。但是,在105例TP53改变患者中,m1A调控基因的改变在超过半数的样本中被检测到(由表6可知)。
表6 m1A调控基因改变与PAAD相关高频治病基因的关系
由上述分析可知,m1A调控基因的CNV改变比SNV的改变显著,CNV的改变可以通过剂量补偿效应影响基因的表达水平。接下来评估了m1A调控基因改变对mRNA表达的影响。
在177个PAAD样品中,m1A调控基因的10个因子中,m1A调控基因的9个因子mRNA表达水平与不同的CNV模式显著相关。对于这10个因子中,有9个因子的拷贝数增加与较高的mRNA表达有关;而缺失则导致mRNA表达下降如图3所示;这9个基因分布在所有的m1A调控过程中。而所有的“Writer”基因和“Reader”基因的表达都与CNV显著相关,这表明m1A调控基因中的“Writer”基因和“Reader”基因可能具有重要调控作用。
3)m1A调控基因与PAAD患者的存活之间的关联
T临床分级与PAAD病人的预后有关联(如图4所示)。将T1\T2看作是Low stage病例,而T3\T4以上的病例为High stage病例;以此为划分依据,对m1A调控基因在不同T stage病例中的表达进行聚类(如图5所示)。
结果显示,m1A调控基因10个因子中,只有2个因子(即ALKBH1因子和YTHDC1因子)的表达与患者的临床分级有显著关联,且呈现出负相关(如图6所示)。ALKBH1因子和YTHDC1因子不但在突变水平具有最高的突变率,而且在表达水平上也与CNV的改变呈正相关关系。结合前述临床分级与病人预后存在显著关联,表明m1A调节基因表达量与患者的预后有关。
利用COX回归探究单因素下不同m1A调控基因表达水平对患者预后的关系。
表7 COX单因素分析表
Features |
beta |
HR (95% CI for HR) |
wald.test |
p |
CNV sig |
ALKBH1 |
-0.2 |
0.82 (0.68-1) |
4 |
0.045 |
yes |
YTHDF1 |
-0.04 |
0.96 (0.92-1) |
3.8 |
0.052 |
yes |
TRMT61A |
-0.043 |
0.96 (0.9-1) |
2 |
0.15 |
yes |
YTHDC1 |
-0.058 |
0.94 (0.87-1) |
1.9 |
0.17 |
yes |
TRMT61B |
0.099 |
1.1 (0.95-1.3) |
1.6 |
0.2 |
yes |
ALKBH3 |
-0.058 |
0.94 (0.85-1.1) |
1.1 |
0.3 |
no |
YTHDF3 |
0.031 |
1 (0.97-1.1) |
1.1 |
0.3 |
yes |
TRMT10C |
0.037 |
1 (0.97-1.1) |
1 |
0.32 |
yes |
TRMT6 |
-0.031 |
0.97 (0.84-1.1) |
0.17 |
0.68 |
yes |
YTHDF2 |
0.0068 |
1 (0.95-1.1) |
0.06 |
0.81 |
yes |
由表7可知,只有1个因子的表达值与患者的预后显著相关(p<0.05),并且ALKBH1因子的表达水平于它们的CNV变化显著相关。利用多因素COX回归,探究了m1A调控基因10个因子对患者预后的影响,结果表明,m1A调控基因的表达可以显著的对患者风险进行判断(如图7a所述),而且3年和5年的AUC曲线面积都大于0.65(如图7b所述);结果说明:m1A调控基因的表达可以作为胰腺癌的预后标志物。
进一步对m1A调控基因的10个进行了Lasso分析,综合1000次Lasso回归的结果,看到Lasso结果中重复出现900次以上并且它们的CNV对表达水平有显著影响、单因素COX分析结果显著以及表达量与临床分级之间有显著关联(p<0.05)的基因共有1个,即ALKBH1(如表8所示)。
表8 m1A调控基因的Lasso分析结果
duplicates |
genes |
functions |
CNV express_sig |
Stage sig |
Survival sig |
637 |
YTHDC1 |
Reader |
yes |
yes |
no |
577 |
ALKBH1 |
Eraser |
yes |
yes |
yes |
211 |
YTHDF1 |
Reader |
yes |
no |
no |
200 |
TRMT10C |
Writer |
yes |
no |
no |
108 |
ALKBH3 |
Eraser |
no |
no |
no |
103 |
YTHDF3 |
Reader |
yes |
no |
no |
87 |
TRMT61A |
Writer |
yes |
no |
no |
27 |
TRMT6 |
Writer |
yes |
no |
no |
18 |
TRMT61B |
Writer |
yes |
no |
no |
0 |
YTHDF2 |
Reader |
yes |
no |
no |
ALKBH1因子是“Eraser”基因,参与m1A调控基因的重要功能调节;利用ALKBH1因子的表达量为指标,分析基因表达与病人预后的关系,结果显示,ALKBH1因子的低表达都与患者较差的预后有关(如图8所示)。
利用ALKBH1基因进行COX回归分析,计算患者的风险值。利用风险值中位数进行患者的风险预测,发现ALKBH1因子的表达可以有效地对PAAD患者进行分析预测(如图9所示)。ALKBH1因子1年和5年的AUC都大于0.55,以它为标志物的患者风险预测的p值也小于0.0001。
4)ALKBH1基因表达水平的功能富集分析
鉴于ALKBH1因子是在甲基化过程中的“Eraser”基因之一,接下来探讨m1A调控基因失调在PAAD发病机制中的作用。基因富集分析表明:高的ALKBH1因子表达与组蛋白甲基化生理过程有关(如表9所示)。组蛋白甲基化激活可能作用于转录前调控过程,用于沉默基因表达。同时ALKBH1因子是“Eraser”基因,高的ALKBH1因子表达作用于甲基化作用的激活途径,可能导致“Writer”基因编辑后的甲基化修饰被移除。这个结果也证实了ALKBH1因子的高表达与患者较好的预后有关。
表9 ALKBH1因子的GSEA富集分析结果
NAME |
NOM p |
FDR p |
FWER p |
RANK AT MAX |
HISTONE METHYLTRANSFERASE ACTIVITY (H3-K4 SPECIFIC) |
0 |
1 |
0.253 |
4427 |
RNA POLYADENYLATION |
0 |
1 |
0.435 |
3568 |
PEPTIDE N-ACETYLTRANSFERASE ACTIVITY |
0 |
1 |
0.435 |
5421 |
HISTONE METHYLTRANSFERASE ACTIVITY |
0 |
0.9911715 |
0.452 |
4706 |
HISTONE METHYLTRANSFERASE COMPLEX |
0 |
0.8938307 |
0.479 |
4427 |
MRNA POLYADENYLATION |
0 |
0.6847837 |
0.532 |
3568 |
HISTONE ACETYLTRANSFERASE ACTIVITY |
0 |
0.6237216 |
0.536 |
4309 |
METHYLTRANSFERASE COMPLEX |
0.0021097 |
0.6101582 |
0.744 |
4427 |
利用验证数据集分析ALKBH1因子表达与患者生存之间的关系。基于COX回归分析,利用ALKBH1因子表达量与风险值,计算样本的风险值。结果发现,在验证数据集ICGC_PACA_AU数据集中,ALKBH1因子也具有很好的风险预测能力。AUC在0.55附近(如图10所示)。同时,在验证数据集中,ALKBH1基因的低表达也与较差预后有关(如图11所示)。
实施例
m1A调控基因在制备胰腺癌诊断、监测、疗效评估或转移复发监控试剂或试剂盒中的应用;进一步地,m1A调控基因的ALKBH1因子在制备胰腺癌诊断、监测、疗效评估或转移复发监控试剂或试剂盒中的应用;
试剂或试剂盒包括特异性识别ALKBH1的引物;
ALKBH1因子的高表达与患者较好的预后有关。
ALKBH1因子的表达与受试者的临床分级呈负相关关系;
ALKBH1因子的表达与组蛋白甲基化生理过程有关。
m1A调控基因的因子可应用于胰腺癌诊断,本发明m1A调控基因的ALKBH1因子用于胰腺癌诊断,可早于临床症状和体征发现,为医生提前进行干预提供参考。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。