甲状腺结节相关rDNA甲基化标志物及其应用
技术领域
本发明涉及一种甲状腺结节相关rDNA甲基化标志物及其应用,用于早期鉴别甲状腺结节良恶性,属于分子生物医学技术领域。
背景技术
近年来,甲状腺结节的发病率在中国逐年增加。甲状腺结节的治疗很大程度上取决于对其良恶性的鉴别。据报道,大多数发现的甲状腺结节是良性的,恶性的占比约在5-15%。临床上目前最常用的鉴别措施是综合患者的病史、临床特征、甲状腺结节的超声检查,必要时配合进行细针穿刺活检,同时结合血清学标志物、穿刺物的基因检测等多种手段进行联合检测进行鉴别。但是,由于良性和恶性结节的细胞学特性非常相近,很多样本很难通过穿刺活检判断良恶性。另外,由于缺乏特异性的鉴别标志物,现有的基于基因突变或者基因表达检测的分子诊断方法的灵敏度及特异性均比较低,而且是创伤性的,都不可避免的有很大的局限性。因此,现有的诊断方法难以实现甲状腺结节良恶性的早期非创伤性鉴别及大规模的人群筛查,导致了大量良性结节患者接收活检这一创伤性检查,也造成了大量不必要的甲状腺切除术及过度治疗。同时,也有很多恶性结节患者漏检,造成了极大的损失。因此,本领域需要开发一种适用于临床甲状腺结节良恶性早期鉴别的非创伤性检测方法。Xianglin Zhang等发现核糖体DNA(rDNA)的基因间间隔区(IGS)中甲基化位点在多种癌症(肺癌、结直肠癌、肝癌等)血浆中均表现为低甲基化。这项研究支持rDNA甲基化标志物可能能作为癌症诊断的标志物。现有技术并未明确如何通过rDNA甲基化的情况来鉴别甲状腺结节良恶性。
发明内容
本发明的目的是:提供了一种对样品的rDNA进行甲基化检测,利用检测结果的差异甲基化分析分辨甲状腺良性结节和恶性结节,实现甲状腺结节无创精准诊断的目的。
具体地,本发明第一方面提供了一种分离的来自哺乳动物的核酸分子,所述核酸分子是与甲状腺良恶性相关的核糖体DNA甲基化标志物,所述核酸分子包括选自(1)-(15)中的一组或多组rDNA位点:(1)1112、1116、1119、1130和1141,(2)2565、2568、2571、2582、2584和2586,(3)2650、2659、2661、2670、2673、2678、2684、2688、2698和2708,(4)4491、4496、4507、4533、4535、4556、4583、4587、4597、4604和4607,(5)5773、5783、5785、5790和5798,(6)7089、7102、7115、7117、7120、7122、7124、7126、7131、7138、7145和7148,(7)8553、8565、8568、8576和8583,(8)8680、8690、8694、8698、8702、8718和8724,(9)9323、9326、9328、9332和9335,(10)9339、9352、9368、9371和9377,(11)21720、21727、21740和21757,(12)36572、36596、36604、36620、36622和36630,(13)36985、36988和36996,(14)38500、38502、38554、38571、38588、38596和38602,(15)38957、38974、38980、38982、39004和39012,所述rDNA位点的碱基编号对应于参考基因组Genebank号U13369.1。
在一个或多个实施方案中,所述核酸分子包括(1)以下区域的一个或多个或与其具有至少70%相同性的变体:rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列,所述核酸分子长度为13bp-40kb,并且变体中的甲基化位点未发生突变。
在一个或多个实施方案中,所述核酸分子长度为10bp-6000bp,10bp-5000bp,10bp-4000bp,10bp-3000bp,10bp-2000bp,10bp-1000bp,1010bp-500bp,10bp-300bp,10bp-200bp,10bp-150bp,10bp-120bp。在一个或多个实施方案中,所述核酸分子长度为30bp-800bp、40bp-750bp、50bp-700bp、60bp-650bp、70bp-600bp、80bp-550bp、90bp-520bp、27bp-514bp,在一个或多个实施方案中,所述核酸分子长度为40bp-3000bp,70bp-2800bp或100bp-2700bp。在一个或多个实施方案中,所述核酸分子长度为40bp-2000bp,70bp-1800bp或100bp-1700bp。在一个或多个实施方案中,所述核酸分子长度为40bp-5500bp,70bp-5000bp或100bp-4800bp。在一个或多个实施方案中,所述核酸分子长度为2.5kb-16kb,3.0kb-14kb或4.0kb-12.5kb。在一个或多个实施方案中,所述核酸分子长度为30kb-50kb,34kb-40kb或36kb-38kb。所述核酸分子长度可以为上述任何端值之间的范围。
在一个或多个实施方案中,所述rDNA的碱基编号对应于参考基因组Genebank号U13369.1。
在一个或多个实施方案中,所述甲基化位点是连续的CG。
在一个或多个实施方案中,所述核酸分子包括下述(a)-(j)中的一组或多组rDNA位点:(a)(1),和任选的(b)(2)和(3),(c)(4),(d)(5),(e)(6),(f)(7)和(8),(g)(9)和(10),(h)(11),(i)(12)和(13),(j)(14)和(15)。
在一个或多个实施方案中,所述核酸分子包括下述(a)-(e)中的一组或多组rDNA位点:(a)(1)、(2)和(3),和任选的(b)(4)、(5)和(6),(c)(7)、(8)、(9)和(10),(d)(11),(e)(12)、(13)、(14)和(15)。
在一个或多个实施方案中,所述核酸分子包括下述(a)-(h)中的一组或多组rDNA位点:(a)(1),和任选的(b)(2)和(3),(c)(4)和(5),(d)(6)、(7)和(8),(e)(9)和(10),(f)(11),(g)(12)和(13),(h)(14)和(15)。
在一个或多个实施方案中,所述核酸分子包括下述(a)-(d)中的一组或多组rDNA位点:(a)(1)、(2)、(3)、(4)和(5),和任选的(b)(6)、(7)、(8)、(9)和(10),(c)(11),(d)(12)、(13)、(14)和(15)。
在一个或多个实施方案中,所述核酸分子包括下述(a)-(c)中的一组或多组rDNA位点:(a)(1)、(2)、(3)、(4)、(5)、(6)、(7)、(8)和(9),和任选的(b)(10)和(11),(c)(12)、(13)、(14)和(15)。
在一个或多个实施方案中,所述核酸分子包括下述(a)-(b)中的一组或多组rDNA位点:(a)(1)、(2)、(3)、(4)、(5)、(6)、(7)、(8)、(9)和(10),和任选的(b)(11)、(12)、(13)、(14)和(15)。
在一个或多个实施方案中,所述核酸分子包括(1)-(15)所示的rDNA位点。
在一个或多个实施方案中,所述核酸分子包括(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,和任选的(b)rDNA的2564-2586bps,rDNA的2649-2708bps,(c)rDNA的4490-4607bps,(d)rDNA的5772-5798bps,(e)rDNA的7088-7148bps,(f)rDNA的8552-8583bps,rDNA的8679-8724bps,(g)rDNA的9322-9335bps,rDNA的9338-9377bps,(h)rDNA的21719-21757bps,(i)rDNA的36571-36630bps,rDNA的36984-36996bps,(j)rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列,并且变体中的甲基化位点未发生突变。在一个或多个实施方案中,所述核酸分子长度为30bp-800bp、优选40bp-750bp、50bp-700bp、60bp-650bp、70bp-600bp、80bp-550bp、90bp-520bp或27bp-514bp。
在一个或多个实施方案中,所述核酸分子包括(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,和任选的(b)rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,(c)rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,(d)rDNA的21719-21757bps,(e)rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列,并且变体中的甲基化位点未发生突变。在一个或多个实施方案中,所述核酸分子长度为40bp-3000bp,优选70bp-2800bp或100bp-2700bp。
在一个或多个实施方案中,所述核酸分子包括(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,和任选的(b)rDNA的2564-2586bps,rDNA的2649-2708bps,(c)rDNA的4490-4607bps,rDNA的5772-5798bps,(d)rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps(e)rDNA的9322-9335bps,rDNA的9338-9377bps,(f)rDNA的21719-21757bps,(g)rDNA的36571-36630bps,rDNA的36984-36996bps,(h)rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列,并且变体中的甲基化位点未发生突变。在一个或多个实施方案中,所述核酸分子长度为40bp-2000bp,优选70bp-1800bp或100bp-1700bp。
在一个或多个实施方案中,所述核酸分子包括(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,和任选的(b)rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,(c)rDNA的21719-21757bps,(d)rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列,并且变体中的甲基化位点未发生突变。在一个或多个实施方案中,所述核酸分子长度为40bp-5500bp,优选70bp-5000bp或100bp-4800bp。
在一个或多个实施方案中,所述核酸分子包括(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,和任选的(b)rDNA的9338-9377bps,rDNA的21719-21757bps,(c)rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列,并且变体中的甲基化位点未发生突变。在一个或多个实施方案中,所述核酸分子长度为2.5kb-16kb,优选3.0kb-14kb或4.0kb-12.5kb。
在一个或多个实施方案中,所述核酸分子包括(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,和任选的(b)rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,(2)(1)的互补序列,所述核酸分子长度为8.5kb-20kb,优选9kb-18.5kb或10kb-17.5kb,并且变体中的甲基化位点未发生突变。
在一个或多个实施方案中,所述核酸分子包括(1)以下区域或与其具有至少70%相同性的变体:rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,(2)(1)的互补序列,并且变体中的甲基化位点未发生突变。在一个或多个实施方案中,所述核酸分子长度为30kb-50kb,优选34kb-40kb或36kb-38kb。
在一个或多个实施方案中,所述核酸分子是与甲状腺良恶性相关的核糖体DNA甲基化标志物,包括SEQ ID NO:1-15或其互补序列中的一个或多个,或与其具有至少70%相同性的变体。优选地,所述核酸分子是SEQ ID NO:1-15或其互补序列,或与其具有至少70%相同性的变体。
在一个或多个实施方案中,所述序列包括DNA正义链或反义链。
在一个或多个实施方案中,所述核酸分子用作检测样品中相应序列的DNA甲基化水平的内标或对照。
本发明第二方面提供检测DNA甲基化的试剂,所述试剂检测选自(1)-(15)中一组或多组rDNA位点的甲基化水平:
(1)1112、1116、1119、1130和1141,(2)2565、2568、2571、2582、2584和2586,(3)2650、2659、2661、2670、2673、2678、2684、2688、2698和2708,(4)4491、4496、4507、4533、4535、4556、4583、4587、4597、4604和4607,(5)5773、5783、5785、5790和5798,(6)7089、7102、7115、7117、7120、7122、7124、7126、7131、7138、7145和7148,(7)8553、8565、8568、8576和8583,(8)8680、8690、8694、8698、8702、8718和8724,(9)9323、9326、9328、9332和9335,(10)9339、9352、9368、9371和9377,(11)21720、21727、21740和21757,(12)36572、36596、36604、36620、36622和36630,(13)36985、36988和36996,(14)38500、38502、38554、38571、38588、38596和38602,(15)38957、38974、38980、38982、39004和39012,所述rDNA位点的碱基编号对应于参考基因组Genebank号U13369.1。
在一个或多个实施方案中,所述试剂检测选自以下一个或多个的区域或其互补序列的DNA甲基化水平:
rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,或与其具有至少70%相同性的变体,并且变体中的甲基化位点未发生突变。
在一个或多个实施方案中,所述rDNA的碱基编号对应于参考基因组Genebank号U13369.1。
在一个或多个实施方案中,所述甲基化位点是连续的CG。
在一个或多个实施方案中,所述试剂检测下述(a)-(j)中的一组或多组rDNA位点的甲基化水平:(a)(1),和任选的(b)(2)和(3),(c)(4),(d)(5),(e)(6),(f)(7)和(8),(g)(9)和(10),(h)(11),(i)(12)和(13),(j)(14)和(15)。
在一个或多个实施方案中,所述试剂检测下述(a)-(e)中的一组或多组rDNA位点的甲基化水平:(a)(1)、(2)和(3),和任选的(b)(4)、(5)和(6),(c)(7)、(8)、(9)和(10),(d)(11),(e)(12)、(13)、(14)和(15)。
在一个或多个实施方案中,所述试剂检测下述(a)-(h)中的一组或多组rDNA位点的甲基化水平:(a)(1),和任选的(b)(2)和(3),(c)(4)和(5),(d)(6)、(7)和(8),(e)(9)和(10),(f)(11),(g)(12)和(13),(h)(14)和(15)。
在一个或多个实施方案中,所述试剂检测下述(a)-(d)中的一组或多组rDNA位点的甲基化水平:(a)(1)、(2)、(3)、(4)和(5),和任选的(b)(6)、(7)、(8)、(9)和(10),(c)(11),(d)(12)、(13)、(14)和(15)。
在一个或多个实施方案中,所述试剂检测下述(a)-(c)中的一组或多组rDNA位点的甲基化水平:(a)(1)、(2)、(3)、(4)、(5)、(6)、(7)、(8)和(9),和任选的(b)(10)和(11),(c)(12)、(13)、(14)和(15)。
在一个或多个实施方案中,所述试剂检测下述(a)-(b)中的一组或多组rDNA位点的甲基化水平:(a)(1)、(2)、(3)、(4)、(5)、(6)、(7)、(8)、(9)和(10),和任选的(b)(11)、(12)、(13)、(14)和(15)。
在一个或多个实施方案中,所述试剂检测(1)-(15)所示的rDNA位点的甲基化水平。
在一个或多个实施方案中,所述试剂检测下述序列的DNA甲基化水平(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,和任选的(b)rDNA的2564-2586bps,rDNA的2649-2708bps,(c)rDNA的4490-4607bps,(d)rDNA的5772-5798bps,(e)rDNA的7088-7148bps,(f)rDNA的8552-8583bps,rDNA的8679-8724bps,(g)rDNA的9322-9335bps,rDNA的9338-9377bps,(h)rDNA的21719-21757bps,(i)rDNA的36571-36630bps,rDNA的36984-36996bps,(j)rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列。
在一个或多个实施方案中,所述试剂检测下述序列的DNA甲基化水平(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,和任选的(b)rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,(c)rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,(d)rDNA的21719-21757bps,(e)rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列。
在一个或多个实施方案中,所述试剂检测下述序列的DNA甲基化水平(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,和任选的(b)rDNA的2564-2586bps,rDNA的2649-2708bps,(c)rDNA的4490-4607bps,rDNA的5772-5798bps,(d)rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps(e)rDNA的9322-9335bps,rDNA的9338-9377bps,(f)rDNA的21719-21757bps,(g)rDNA的36571-36630bps,rDNA的36984-36996bps,(h)rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列。
在一个或多个实施方案中,所述试剂检测下述序列的DNA甲基化水平(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,和任选的(b)rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,(c)rDNA的21719-21757bps,(d)rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列。
在一个或多个实施方案中,所述试剂检测下述序列的DNA甲基化水平(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,和任选的(b)rDNA的9338-9377bps,rDNA的21719-21757bps,(c)rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,和/或(2)(1)的互补序列。
在一个或多个实施方案中,所述试剂检测下述序列的DNA甲基化水平(1)以下各组中的一组或多组或与其具有至少70%相同性的变体:(a)rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,和任选的(b)rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,(2)(1)的互补序列。
在一个或多个实施方案中,所述试剂检测下述序列的DNA甲基化水平(1)以下区域或与其具有至少70%相同性的变体:rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,(2)(1)的互补序列。
在一个或多个实施方案中,所述试剂检测样品中SEQ ID NO:1-15或其互补序列中的一个或多个序列或与其具有至少70%相同性的变体的DNA甲基化水平。优选地,所述试剂检测SEQ ID NO:1-15或其互补序列或与其具有至少70%相同性的变体的DNA甲基化水平。
在一个或多个实施方案中,所述序列包括DNA正义链或反义链。
在一个或多个实施方案中,所述样品来自哺乳动物,优选人。
在一个或多个实施方案中,所述试剂是选自以下方法的一个或多个中所用的试剂:基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR)、DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。
优选地,所述试剂选自以下一种或多种:重亚硫酸盐及其衍生物、PCR缓冲液、聚合酶、dNTP、引物、探针、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。
在一个或多个实施方案中,所述试剂包括引物。优选地,所述引物检测本文所述区域或序列的甲基化水平。所述引物序列为甲基化特异的或非特异的。优选地,所述引物的序列包括非甲基化特异的封闭序列(Blocker)。
在一个或多个实施方案中,所述引物可以是基因组测序的引物,例如全基因组测序引物或针对部分基因组的测序引物,也可以是用于扩增某一区域的PCR引物或用于扩增区域中一个或多个甲基化位点的PCR引物。
在一个或多个实施方案中,所述引物是利用简化甲基化测序法检测所述位点的甲基化水平的引物或用于扩增一个或多个甲基化位点的PCR引物。
在一个或多个实施方案中,所述试剂包括探针。所述探针的序列的5’端标记荧光报告基团,3’端标记淬灭基团。优选地,所述探针检测本文所述区域或序列的甲基化水平。优选地,所述探针的序列包含MGB (Minor groove binder)或者LNA (Locked nucleicacid)。
本发明还提供鉴定甲状腺结节性质的试剂盒,包含本文所述的核酸分子和/或本文所述的试剂。优选地,所述核酸分子是本文第一方面所述的核酸分子,所述试剂是本文第二方面所述的试剂。在一个或多个实施方案中,所述试剂盒还包含选自以下方法的一个或多个中所用的试剂:基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR)、DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。优选地,所述试剂盒还包含选自以下一种或多种:重亚硫酸盐及其衍生物、PCR缓冲液、聚合酶、dNTP、引物、探针、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。
本发明还提供检测DNA甲基化的试剂和和任选的本文所述的核酸分子在制备用于鉴定样品中甲状腺结节良恶性的试剂盒中的用途,所述试剂检测选自以下一个或多个的区域或其互补序列的DNA甲基化水平:
rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,或与其具有至少70%相同性的变体,所述变体中的甲基化位点未发生突变。
在一个或多个实施方案中,所述rDNA的碱基编号对应于参考基因组Genebank编号U13369.1。
在一个或多个实施方案中,所述甲基化位点是连续的CG。
优选地,所述试剂是本文第二方面所述的试剂,所述核酸分子是本文第一方面所述的核酸分子。
在用途的一个或多个实施方案中,所述序列的甲基化水平下降。
在用途的一个或多个实施方案中,所述试剂盒是无创诊断试剂盒。
在用途的一个或多个实施方案中,所述序列包括DNA正义链或反义链。
在用途的一个或多个实施方案中,所述样品来自哺乳动物,优选人。所述样品优选来自组织、细胞或者体液,例如甲状腺组织或血液。在一个或多个实施方案中,所述样品是甲状腺结节活检物,优选是细针穿刺活检物。在一个或多个实施方案中,所述样品是血浆。
在用途的一个或多个实施方案中,所述样品来自具有甲状腺良性或恶性结节的对象。在一个或多个实施方案中,所述样品来自甲状腺肿大的患者。
在用途的一个或多个实施方案中,所述样品包括基因组DNA或cfDNA。
在用途的一个或多个实施方案中,检测DNA甲基化的试剂是选自以下方法的一个或多个中所用的试剂:基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR)、DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。优选地,所述试剂选自以下一种或多种:重亚硫酸盐及其衍生物、PCR缓冲液、聚合酶、dNTP、引物、探针、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。
在用途的一个或多个实施方案中,所述试剂包括本文所述引物。所述引物序列为甲基化特异的或非特异的。优选地,所述引物的序列包括非甲基化特异的封闭序列(Blocker)。
在一个或多个实施方案中,所述试剂包括本文所述探针。所述探针的序列的5’端标记荧光报告基团,3’端标记淬灭基团。优选地,所述探针的序列包含MGB (Minor groovebinder)或者LNA (Locked nucleic acid)。
本发明还提供一种用于甲状腺结节良恶性鉴别的方法,包括:
(a)检测样品中选自(1)-(15)中一组或多组rDNA位点的甲基化水平:(1)1112、1116、1119、1130和1141,(2)2565、2568、2571、2582、2584和2586,(3)2650、2659、2661、2670、2673、2678、2684、2688、2698和2708,(4)4491、4496、4507、4533、4535、4556、4583、4587、4597、4604和4607,(5)5773、5783、5785、5790和5798,(6)7089、7102、7115、7117、7120、7122、7124、7126、7131、7138、7145和7148,(7)8553、8565、8568、8576和8583,(8)8680、8690、8694、8698、8702、8718和8724,(9)9323、9326、9328、9332和9335,(10)9339、9352、9368、9371和9377,(11)21720、21727、21740和21757,(12)36572、36596、36604、36620、36622和36630,(13)36985、36988和36996,(14)38500、38502、38554、38571、38588、38596和38602,(15)38957、38974、38980、38982、39004和39012,所述rDNA位点的碱基编号对应于参考基因组Genebank号U13369.1,或
检测样品中选自以下一个或多个区域或其互补序列的DNA甲基化水平:rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,或与其具有至少70%相同性的变体,所述变体中的甲基化位点未发生突变;
(b)与对照样品比较,或者通过计算得出评分,
(c)根据评分鉴定甲状腺结节的良恶性。
在一个或多个实施方案中,所述rDNA的碱基编号对应于参考基因组Genebank编号U13369.1。
在一个或多个实施方案中,步骤(a)是检测样品中SEQ ID NO:1-15或其互补序列中的一个或多个序列或与其具有至少70%相同性的变体的DNA甲基化水平,优选检测SEQ IDNO:1-15或其互补序列或与其具有至少70%相同性的变体的DNA甲基化水平。
在一个或多个实施方案中,步骤(b)中的评分通过构建支持向量机(SVM)和/或随机森林(Random forest)模型进行计算。
在一个或多个实施方案中,步骤(c)包括:与对照样品比较,对象样品的甲基化水平变化,当甲基化水平满足阈值时,则鉴定甲状腺结节为良性或恶性结节。
在一个或多个实施方案中,步骤(c)包括:当评分满足阈值时,则鉴定甲状腺结节为良性或恶性结节。
在一个或多个实施方案中,所述序列的甲基化水平下降。
在一个或多个实施方案中,步骤(a)中的检测包括但不限于:基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR)、DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。
在一个或多个实施方案中,步骤(a)中的检测是测序。在一个或多个实施方案中,所述测序的测序深度大于或等于5M,优选5M,7M,11M,13M,15M。
在一个或多个实施方案中,所述方法在步骤(a)之前还包括:样品DNA的抽提、质检、和将DNA上未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。在一个或多个实施方案中,所述转化使用酶促方法进行,优选脱氨酶处理,或所述转化使用非酶促方法进行,优选用亚硫酸氢盐或重硫酸盐处理,更优选使用亚硫酸氢钙、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢铵、重硫酸钠、重硫酸钾和重硫酸铵处理。
在一个或多个实施方案中,所述样品来自人,优选来自组织、细胞或者体液,例如甲状腺组织或血液。在一个或多个实施方案中,所述样品是甲状腺结节活检物,优选是细针穿刺活检物。在一个或多个实施方案中,所述样品是血浆。
在一个或多个实施方案中,所述样品来自具有甲状腺良性或恶性结节的对象。在一个或多个实施方案中,所述样品来自甲状腺肿大的患者。
在一个或多个实施方案中,所述样品包括基因组DNA或cfDNA。
本发明还提供一种装置,其特征在于,所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
(a)获取样品中选自(1)-(15)中一组或多组rDNA位点的甲基化水平:(1)1112、1116、1119、1130和1141,(2)2565、2568、2571、2582、2584和2586,(3)2650、2659、2661、2670、2673、2678、2684、2688、2698和2708,(4)4491、4496、4507、4533、4535、4556、4583、4587、4597、4604和4607,(5)5773、5783、5785、5790和5798,(6)7089、7102、7115、7117、7120、7122、7124、7126、7131、7138、7145和7148,(7)8553、8565、8568、8576和8583,(8)8680、8690、8694、8698、8702、8718和8724,(9)9323、9326、9328、9332和9335,(10)9339、9352、9368、9371和9377,(11)21720、21727、21740和21757,(12)36572、36596、36604、36620、36622和36630,(13)36985、36988和36996,(14)38500、38502、38554、38571、38588、38596和38602,(15)38957、38974、38980、38982、39004和39012,所述rDNA位点的碱基编号对应于参考基因组Genebank号U13369.1,或
获取样品中选自以下一个或多个区域或其互补序列的DNA甲基化水平:rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,或与其具有至少70%相同性的变体,所述变体中的甲基化位点未发生突变,
(b)与对照样品比较,或者通过计算得出评分,
(c)根据评分鉴定甲状腺结节的良恶性。
本发明还提供一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现下述步骤:
(a)获取样品中选自(1)-(15)中一组或多组rDNA位点的甲基化水平:(1)1112、1116、1119、1130和1141,(2)2565、2568、2571、2582、2584和2586,(3)2650、2659、2661、2670、2673、2678、2684、2688、2698和2708,(4)4491、4496、4507、4533、4535、4556、4583、4587、4597、4604和4607,(5)5773、5783、5785、5790和5798,(6)7089、7102、7115、7117、7120、7122、7124、7126、7131、7138、7145和7148,(7)8553、8565、8568、8576和8583,(8)8680、8690、8694、8698、8702、8718和8724,(9)9323、9326、9328、9332和9335,(10)9339、9352、9368、9371和9377,(11)21720、21727、21740和21757,(12)36572、36596、36604、36620、36622和36630,(13)36985、36988和36996,(14)38500、38502、38554、38571、38588、38596和38602,(15)38957、38974、38980、38982、39004和39012,所述rDNA位点的碱基编号对应于参考基因组Genebank号U13369.1,或
获取样品中选自以下一个或多个区域或其互补序列的DNA甲基化水平:rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps,或与其具有至少70%相同性的变体,所述变体中的甲基化位点未发生突变,
(b)与对照样品比较,或者通过计算得出评分,
(c)根据评分鉴定甲状腺结节的良恶性。
附图说明
图1是本发明根据一个实施方式的技术方案流程图。
图2是甲状腺良恶性预测模型在测试组中诊断良恶性结节的ROC曲线。
图3是测试组的预测得分分布。
图4是rDNA差异甲基化标志物在训练组中的甲基化水平。
图5是rDNA差异甲基化标志物在测试组中的甲基化水平。
图6是随机抽样5M序列时测试组ROC曲线。
图7是随机抽样5M序列时测试组的预测得分分布。
具体实施方式
本发明探究了rDNA甲基化水平与甲状腺结节良恶性的关系。旨在通过无创的方法利用rDNA甲基化标志物群作为甲状腺良恶性结节鉴别标志物,提高甲状腺结节无创诊断的精确性。
提及甲状腺结节时,本文所述“良性”和“恶性”表示甲状腺结节的性质。通常,良性表现为结节生长缓慢、质地均匀、活动度好、表面光滑、呈囊性改变、无淋巴结肿大、无钙化等。恶性表现为不可控的恶性细胞生长、扩散和组织浸润。提示甲状腺结节为恶性的超声征象包括:结节的高度大于宽度、缺乏声晕、微小钙化、边界不规则、回声减低、实性结节、结节内部血流丰富等。在一些实施方式中,恶性甲状腺结节包括甲状腺癌。
发明人发现,甲状腺结节的性质与选自以下的一个或多个区域的甲基化水平相关:rDNA的1111-1141bps,rDNA的2564-2586bps,rDNA的2649-2708bps,rDNA的4490-4607bps,rDNA的5772-5798bps,rDNA的7088-7148bps,rDNA的8552-8583bps,rDNA的8679-8724bps,rDNA的9322-9335bps,rDNA的9338-9377bps,rDNA的21719-21757bps,rDNA的36571-36630bps,rDNA的36984-36996bps,rDNA的38499-38602bps,rDNA的38956-39012bps。上述碱基编号参考Genebank第U13369.1号。优选地,所述区域的序列选自SEQ IDNO:1-15或其互补序列中的一个或多个。通常,甲基化位点是连续的CG。以SEQ ID NO:1-15为例,各区域的甲基化位点如表1所示:
表1
区域 |
序列 |
区域位置* |
甲基化位点* |
rDNA 1 |
SEQ ID NO:1 |
1111-1141bps |
1112、1116、1119、1130、1141 |
rDNA 2 |
SEQ ID NO:2 |
2564-2586bps |
2565、2568、2571、2582、2584、2586 |
rDNA 3 |
SEQ ID NO:3 |
2649-2708bps |
2650、2659、2661、2670、2673、2678、2684、2688、2698、2708 |
rDNA 4 |
SEQ ID NO:4 |
4490-4607bps |
4491、4496、4507、4533、4535、4556、4583、4587、4597、4604、4607 |
rDNA 5 |
SEQ ID NO:5 |
5772-5798bps |
5773、5783、5785、5790、5798 |
rDNA 6 |
SEQ ID NO:6 |
7088-7148bps |
7089、7102、7115、7117、7120、7122、7124、7126、7131、7138、7145、7148 |
rDNA 7 |
SEQ ID NO:7 |
8552-8583bps |
8553、8565、8568、8576、8583 |
rDNA 8 |
SEQ ID NO:8 |
8679-8724bps |
8680、8690、8694、8698、8702、8718、8724 |
rDNA 9 |
SEQ ID NO:9 |
9322-9335bps |
9323、9326、9328、9332、9335 |
rDNA 10 |
SEQ ID NO:10 |
9338-9377bps |
9339、9352、9368、9371、9377 |
rDNA 11 |
SEQ ID NO:11 |
21719-21757bps |
21720、21727、21740、21757 |
rDNA 12 |
SEQ ID NO:12 |
36571-36630bps |
36572、36596、36604、36620、36622、36630 |
rDNA 13 |
SEQ ID NO:13 |
36984-36996bps |
36985、36988、36996 |
rDNA 14 |
SEQ ID NO:14 |
38499-38602bps |
38500、38502、38554、38571、38588、38596、38602 |
rDNA 15 |
SEQ ID NO:15 |
38956-39012bps |
38957、38974、38980、38982、39004、39012 |
*编号对应于参考基因组Genebank号U13369.1。
本文中,Genebank号U13369.1所示序列以及序列表所示序列视为正义链。当正义链5’-3’方向为CpG时,反义链上对应位置在5’-3’方向也为CpG。因此,在提及甲基化位点时,即包含正义链上甲基化位点的胞嘧啶,也包含反义链上该位点处对应碱基(鸟嘌呤)上游(5’端)相邻位置的胞嘧啶。
本文中,甲基化水平代表一个或多个位点处于甲基化状态的比例。一个区域(或一组位点)的甲基化水平是该区域中所有位点(或组中所有位点)的甲基水平的均值。因此,区域的甲基化水平上升或下降并不表示区域中所有甲基化位点的甲基化水平都上升或下降。本领域知晓将检测DNA甲基化的方法(例如简化甲基化测序)所得结果转化为甲基化水平的过程。示例性实施例利用软件Bismark (v0.17.0) 获得CpG位点的甲基化水平。
本文中,检测DNA甲基化的方法本领域周知,例如基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR(Methylation-specific PCR, MSP))、DNA测序(如亚硫酸氢盐测序(Bisulfite sequencing, BS)、全基因组甲基化测序(Whole-genome bisulfitesequencing, WGBS)、简化甲基化测序(Reduced Representation Bisulfite Sequencing,RRBS))、甲基化敏感的限制性内切酶分析法(Methylation-Sensitive DependentRestriction Enzymes)、荧光定量法、甲基化敏感性高分辨率熔解曲线法(Methylation-sensitivity High-resolution Melting, MS-HRM)、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。在一个或多个实施方案中,检测包括检测基因或位点处的任一条链。
因此,本发明涉及检测DNA甲基化的试剂。本领域周知上述检测DNA甲基化的方法中所用的试剂。示例性地,检测DNA甲基化的试剂可包含以下的一种或多种:重亚硫酸盐及其衍生物、PCR缓冲液、聚合酶、dNTP、引物、探针、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。在涉及DNA扩增的检测方法中,检测DNA甲基化的试剂包括引物。所述引物序列为甲基化特异的或非特异的。优选地,所述引物的序列包括非甲基化特异的封闭序列(Blocker)。封闭序列可以提高甲基化检测的特异性。检测DNA甲基化的试剂还可包括探针。通常,探针的序列的5’端标记荧光报告基团,3’端标记淬灭基团。示例性地,所述探针的序列包含MGB (Minorgroove binder)或者LNA (Locked nucleic acid)。MGB和LNA用于提高Tm (meltingtemperature)值,增加分析的特异性,提高探针设计的灵活性。
在示例性的实施方式中,本发明使用简化基因组甲基化测序(RRBS)检测DNA甲基化。简化基因组甲基化测序是利用限制性内切酶对基因组进行酶切,经Bisulfite处理,对基因组CpG区域进行测序的技术。步骤包括:1、利用限制性内切酶对基因组进行酶切;2、文库构建,包括末端修复、加A尾和接头3、片段长度分选;4、重亚硫酸盐转换;5、PCR扩增;6、测序。本文中,文库用Illumina Hiseq 2500 测序仪进行双端测序,测序量为每个样本35~40M。示例性地,简化基因组甲基化测序所用试剂包括:血浆核酸纯化试剂盒、连接酶、重亚硫酸盐及其衍生物、dNTP、聚合酶、引物、无核酸酶水,任选的磁珠、乙酸钠、糖原。
本发明还涉及鉴定甲状腺结节性质的试剂盒,包含本文所述,特别是本文第三方面所述的试剂。所述试剂盒还可包含本文所述,特别是第一方面所述的核酸分子作为内标或阳性对照。除了所述试剂和核酸分子之外,试剂盒还包含检测DNA甲基化所需的其他试剂。示例性地,检测DNA甲基化的其他试剂可包含以下的一种或多种:重亚硫酸盐及其衍生物、PCR缓冲液、聚合酶、dNTP、引物、探针、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。
本文所述“引物”是指在核苷酸聚合作用起始时,引导合成的一种具有特定核苷酸序列的核酸分子。引物通常是人工合成的两段寡核苷酸序列,一个引物与靶区域一端的一条DNA模板链互补,另一个引物与靶区域另一端的另一条DNA模板链互补,其功能是作为核苷酸聚合作用的起始点。体外人工设计的引物被广泛用于聚合酶链反应(PCR)、qPCR、测序和探针合成等。通常,引物被设计为扩增的产物长度为50~150 bp、60-140、70-130、80-120bp。
本文试剂中所含引物可以是基因组测序的引物,例如全基因组测序引物或针对基因组某一区域的测序引物,也可以是用于扩增特定区域的PCR引物或用于扩增区域中一个或多个甲基化位点的PCR引物。以rDNA的1111-1141bps区域为例,该区域包含5个甲基化位点1112、1116、1119、1130、1141。
例如,检测rDNA的1111-1141bps区域所用的引物可以是全基因组测序引物,所述引物可以获得很多扩增产物,这些扩增产物可以包含所述区域或在拼接后包含所述区域。根据全基因组测序结果,在测序后获得该区域中的每个甲基化位点(CpG)的甲基化状态,从而获取整个区域的甲基化水平。
又如,检测rDNA的1111-1141bps区域所用的引物可以是针对包含该区域的DNA进行测序的引物,所述引物可以获得较多扩增产物,这些扩增产物可以包含所述区域或在拼接后包含所述区域。在测序后获得该区域中的每个甲基化位点(CpG)的甲基化状态,从而获取整个区域的甲基化水平。
再如,检测rDNA的1111-1141bps区域所用的引物可以是扩增该区域中一个或多个甲基化位点的PCR引物。这些引物的扩增产物可以包含区域中某一个或多个或全部甲基化位点,在对扩增产物中包含的甲基化位点进行检测后,获取整个区域的甲基化水平。
因此,检测某一区域所用的引物的扩增产物可以仅包含该区域中的一个或多个甲基化位点,也可以同时包含其他区域中的一个或多个甲基化位点。而且检测某一区域所需的引物可为一对或多对,例如1对、2对、3对、4对、5对、6对、7对、8对、9对、10对等,其中任一对引物的扩增产物至少包含该区域中的至少一个甲基化位点。
上述引物的描述同样适用于本文所述的其他rDNA区域。本领域知晓全基因组测序引物或针对特定区域或区域中某一位点的PCR引物的设计方法。
本文术语“变体”或“突变体”是指与参照序列相比,通过一个或多个核苷酸的插入、缺失或取代使核酸序列发生变化同时保留其与其他核酸杂交能力的多核苷酸。本文任一实施方案所述的突变体包括与参照序列具有至少70%,优选至少80%,优选至少85%,优选至少90%,优选至少95%,优选至少97%的序列相同性并保留参照序列的生物学活性的核苷酸序列。可采用例如NCBI的BLASTn计算两条比对的序列之间的序列相同性。突变体还包括在参照序列的和核苷酸序列中具有一个或多个突变(插入、缺失或取代)、同时仍保留参照序列生物学活性的核苷酸序列。所述多个突变通常指1-10个以内,例如1-8个、1-5个或1-3个。取代可以是嘌呤核苷酸与嘧啶核苷酸之间的取代,也可以是嘌呤核苷酸之间或嘧啶核苷酸之间的取代。取代优选是保守性取代。例如,在本领域中,用性能相近或相似的核苷酸进行保守性取代时,通常不会改变多核苷酸的稳定性和功能。保守性取代例如嘌呤核苷酸之间的(A与G)的互换,嘧啶核苷酸之间的(T或U与C)的互换。因此,在本发明多核苷酸中用来自同一残基替换一个或几个位点,将不会在实质上影响其活性。此外,本发明的变体中所含有的本文所述的甲基化位点未发生突变。即本发明方法检测的是相应序列中的甲基化位点的甲基化情况,对于这些位点之外的碱基可以发生突变。
rDNA(核糖体DNA)是用于rRNA编码的DNA序列。核糖体是蛋白质和rRNA分子的组合,翻译mRNA分子以产生蛋白质的组件。真核生物的rDNA包括一个单元段,一个操纵子,以及由NTS、ETS、18S、ITS1、5.8S、ITS2和28S束组成的串联重复序列。rDNA还有另一个基因,由5SrRNA基因编码,位于大多数真核生物的基因组中。
DNA或RNA的碱基之间可发生转化。本文所述“CT转化”是利用非酶促或酶促方法处理DNA,将未修饰的胞嘧啶碱基(C)转化为不与鸟嘌呤结合的碱基(例如尿嘧啶碱基(U))的过程。本文所述“AG转化”是利用非酶促或酶促方法处理DNA,将腺嘌呤(A)转化为鸟嘌呤(G)的过程。本领域周知进行转化的非酶促或酶促方法。示例性地,非酶促方法包括亚硫酸氢盐或重硫酸盐处理,例如亚硫酸氢钙、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢铵、重硫酸钠、重硫酸钾和重硫酸铵等。示例性地,酶促方法包括脱氨酶处理。经转化的DNA任选经纯化。适用于本文的DNA纯化方法本领域周知。
提及胞嘧啶时,“修饰”表示胞嘧啶碱基上的化学基团的引入或除去。在一个或多个实施方案中,修饰是指甲基化。本文所述“甲基化”或“DNA甲基化”是指在基因组DNA的CpG二核苷酸的胞嘧啶5'碳位共价结合一个甲基基团,成为5-甲基胞嘧啶(5mC)。
本发明还提供一种用于甲状腺结节良恶性鉴别的方法,包括:(1)检测对象的样品中本文所述序列的甲基化水平;(2)与对照样品比较,或者通过计算得出评分;(3)根据评分鉴定对象的甲状腺结节。通常,所述方法在步骤(1)之前还包括:样品DNA的抽提、质检、和将DNA上未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。
在一个或多个实施方案中,与对照样品比较时,对象样品的甲基化水平升高或降低。当甲基化水平满足某一阈值时,则鉴定为恶性结节。对所测基因的甲基化水平进行数学分析,获得得分。对于检测的样品而言,当得分大于阈值,则判定结果为阳性,即为恶性结节,否则为阴性,即良性结节。本领域知晓常规数学分析的方法以及确定阈值的过程,示例性的方法是数学模型,例如支持向量机和随机森林模型。例如,对于差异rNDA甲基化标志物,对两组样本构建支持向量机(SVM)和随机森林(Random forest)模型,利用模型统计检测结果的准确率,敏感性和特异性以及预测值特征曲线(ROC)下面积(AUC),统计测试集样本预测得分。
在优选的实施方案中,模型训练过程如下:首先根据每个位点甲基化水平获取差异甲基化区段并构建差异甲基化区域矩阵,例如可通过例如metilene软件从rDNA序列单个CpG双核苷酸位置的甲基化水平数据获取差异甲基化区段而构建差异甲基化区域矩阵;然后分别进行SVM模型训练和随机森林(Random forest, RF)模型训练。
示例性的SVM模型训练过程如下:
a)构建训练模型模式。使用R软件(v3.4.4) 的caret软件包(6.0-84)构建训练模型交叉验证训练模型的训练模式,命令行:ctrl <- trainControl(method = "repeatedcv",number=3, repeats=10,allowParallel = TRUE)。其中method = "repeatedcv"表示训练方法采用重复抽样交叉验证,number=3表示训练模型调参的折数,repeats=10表示交叉验证调参过程重复十次,allowParallel = TRUE表示并行计算。
b)使用caret软件包(6.0-84)和e1071(1.7-1)软件包,输入差异甲基化区域矩阵,构建SVM模型,mod_svm <- train(train_data, train_meta, method = 'svmRadialSigma', trControl = ctrl)其中,train_data表示差异甲基化区域矩阵,train_meta表示训练集的表型信息,method = ' svmRadialSigma '表示使用的模型是调节sigma值的SVM模型,trControl = ctrl表示训练模型的模式采用a步骤提到的训练模式。
示例性的随机森林模型训练过程如下:
a)构建训练模型模式。使用R软件(v3.4.4) 的caret软件包(6.0-84)构建训练模型交叉验证训练模型的训练模式,命令行:ctrl <- trainControl(method = "repeatedcv",number=3, repeats=10,allowParallel = TRUE)。其中method = "repeatedcv"表示训练方法采用重复抽样交叉验证,number=3表示训练模型调参的折数,repeats=10表示交叉验证调参过程重复十次,allowParallel = TRUE表示并行计算。
b)使用caret软件包(6.0-84)和randomForest(4.6-14)软件包,输入差异甲基化区域矩阵,构建随机森林模型,mod_rf <- train(train_data, train_meta, method = 'rf', trControl = ctrl)其中,train_data表示差异甲基化区域矩阵, train_meta表示训练集的表型信息,method = 'rf'表示使用的模型是随机森林模型,trControl = ctrl表示训练模型的模式采用b步骤提到的训练模式。
通常,在构建模型的过程中,可将恶性类型编码为1,良性类型编码为0。本发明中,由R软件(3.4.4)、caret软件包(6.0-84)、e1071(1.7-1)、randomForest(4.6-14)训练模型的过程中,将阈值设置为0.5。构建出的模型最终也以0.5对样本进良性和恶性区分。
本文所述“测序深度”或“测序量”是测序得到的双端测序的读段总数,是评价测序量的指标之一。在一个或多个实施方案中,本文甲基化检测涉及测序。所述测序深度大于或等于5M,优选为15M,13M,11M,9M,7M,5M。发明人发现,测序深度过低将导致目标区域覆盖不足,不能有效反应目标区域的甲基化水平;提高测序深度虽能提高目标区域甲基化测定的准确性,但相应的会增加试验成本。
本文中,样品来自哺乳动物,优选人。样品可来自任何器官(例如甲状腺)、组织(例如上皮组织、结缔组织、肌肉组织和神经组织)、细胞(例如甲状腺结节活检物)或者体液(例如血液、血浆、血清、组织液、尿液)。通常,只要所述样品包含基因组DNA或cfDNA(Circulating free DNA or Cell free DNA)即可。cfDNA称为循环游离DNA或者细胞游离DNA,是释放到血浆中的降解的DNA片段。示例性地,所述样品是甲状腺结节活检物,优选是细针穿刺活检物。或者,所述样品是血浆或cfDNA。
本文还涉及获取与甲状腺结节良恶性相关rDNA甲基化位点的方法。以简化甲基化测序(RRBS)获得的甲基化数据为例,筛选并测试标志物位点的过程如下:原始双端测序读数——读数合并得到合并的单端读数——去接头得到去接头的读数——Bismark比对到人DNA基因组形成BAM文件——Bismark提取CpG位点形成CpGreport.txt文件——统计C位点甲基化比率形成CpGMeth.txt文件——Coverage10过滤位点形成CpG10xMeth.txt文件——建立MethyRate矩阵——按照NA值大于0.2过滤位点进行过滤——随机选择75%的BTN,PTC样本作为训练集,其余为测试集——对于训练集,进行metilene call DMR, FDR校正,fdr<0.05——统计DMR区域所有CpG位点平均MethyRate——建立DMR MethyRate矩阵——通过随机森林、支持向量机建模——形成训练集的结果(ROC图)并用模型预测测试集进行验证。具体地,获取与甲状腺结节良恶性相关rDNA甲基化位点的方法包括如下步骤:(1)获取待测恶性以及良性甲状腺结节患者样本的血浆,提取cfDNA,采用RRBS方法进行建库测序,获得测序读段;(2)测序数据预处理,包括对对测序仪产生的测序数据进行去接头和拼接处理;(3)将上述预处理之后的测序数据,比对到人基因组的rDNA参考基因组序列,确定每条片段的位置。步骤(2)的数据可来源于Illumina测序平台双端150bp测序。步骤(2)的去接头是分别去除两条双端测序数据5’端和3’端的测序接头,以及去除接头之后的低质量碱基去除处理。步骤(2)的拼接处理是,将双端测序数据合并还原为原文库片段。这样可以更好地进行比对,准确定位测序片段。示例性地,测序文库长度在180bp左右,双端150bp可以完全覆盖整条文库片段。步骤(3)包括:(a)将rDNA参考基因组数据分别进行CT和GA转化,构建两套转化后的参考基因组,并分别对转化后的参考基因组构建比对索引;(b)将上部合并好的测序序列数据同样进行CT和GA转化;(c)分别对上述转化后的参考基因组序列进行比对,最后汇总比对结果确定测序数据在参考基因组的位置。
此外,获取与甲状腺结节良恶性相关rDNA甲基化位点的方法还包括(4)提取甲基化信息;(5)构建甲基化数据矩阵;和(6)根据样本分组发现差异甲基化区域。步骤(4)包括通过步骤(3)得到的比对结果,针对每个rDNA参考基因组的位置,获取该位置上的甲基化程度信息和测序深度信息。步骤(5)包括将甲基化程度信息和测序深度信息数据合并成数据矩阵。其中,对每个深度小于10的数据点当作缺失值处理,使用K最近邻(KNN)方法对缺失值进行填充。步骤(6)包括根据使用Mann-Whitney U检验对上述矩阵中的每个位置进行统计检验,筛选在两组之间具有显著差异的区域。
本文所述“多个”表示任意整数。优选地,“一个或多个”中的“多个”可为例如1-100中的任意整数,包括2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、30个、40个、50个、60个、70个、80个、90个或100个。
此外,本发明还揭示了存储计算机程序的计算机可读存储介质,存储介质上所存储的计算机程序运行后执行本文所述的鉴别甲状腺良恶性的方法。结合本文中公开的实施方案描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
本发明的有益效果是:
基于本发明的rDNA甲基化标志物,可以有效鉴别甲状腺结节良恶性;本发明首次基于血浆cfDNA高通量简化甲基化测序提供了cfDNA核糖体DNA甲基化与甲状腺结节良恶性关系的诊断模型,该模型具有无创检测、检测安全方便、通量高、检测特异性高的优点;基于本发明得到的最佳测序量,可以有效在取得较好的检测性能的同时,有效控制检测成本。
实施例
下面结合附图和具体实施例对本发明作进一步详细的说明。下列实施例中,未注明具体条件的实验方法,通常按常规条件中所述的方法进行。
实施例1,简化甲基化测序筛选甲状腺结节良恶性差异的甲基化位点
发明人收集了总计55个甲状腺癌血液样本、55个甲状腺良性结节血液样本,所有入组患者签署知情同意书。样本信息见表2。
表2
通过RRBS的方法获得血浆DNA的甲基化测序数据,鉴别出其中的rDNA分类标志物。过程如下:
1、血浆cfDNA样本的提取
采用streck血液收集管收集患者2ml全血样本,及时离心分离血浆(3天内),转运至实验室后,采用QIAGEN QIAamp Circulating Nucleic Acid Kit试剂盒根据说明书提取cfDNA。
2、测序及数据预处理
1)使用传统的RRBS方法建库。简化基因组甲基化测序(RRBS)是利用限制性内切酶对基因组进行酶切,经Bisulfite处理,对基因组CpG区域进行测序的技术。步骤包括:1、利用限制性内切酶对基因组进行酶切;2、文库构建,包括末端修复、加A尾和接头3、片段长度分选;4、重亚硫酸盐转换;5、PCR扩增;6、测序。本文中,文库用Illumina Hiseq 2500 测序仪进行双端测序,测序量为每个样本35~40M。
简化基因组甲基化测序所用试剂包括:QIAmp血浆核酸纯化试剂盒(Qiagen:55114); 30U/μL HC T4 DNA 连接酶(Thermo Fisher Scientific: EL0013; AgencourtAMPure XP 磁珠 (Beckman: A63881); Lifetech Methylcode 亚硫酸氢盐转化试剂盒(Life Tech: MECOV-50); 脱氧核苷酸溶液混合物 (NEB: N0447S); pfuTurboCX(Agilent: 600412); NEBNext96BC引物组 (IDT: 定制); 乙酸钠 (Thermo FisherScientific: AM9740); UltraPure™ 糖原(Thermo Fisher Scientific: 10814010); 50bp DNA 梯度标志物 (TIANGEN: MD108); 无核酸酶水 (Thermo Fisher Scientific:AM9937); MicroAmp® Optical 96孔光学反应板 (Thermo Fisher Scientific:N8010560); MicroAmp®透明胶膜 (Thermo Fisher Scientific: 4306311)。
2) 使用Trim_galore v 0.6.0、cutadapt v2.1软件对Illumina Hiseq 2500测序仪下机的双端150bp测序数据进行去接头处理。在Read 1的3’ 端去除接头序列为“AGATCGGAAGAGCACACGTCTGAACTCCAGTC”,在Read 2的3’端去除接头序列“AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT”,并去除两端测序质量值低于20的碱基。如果5’端有3bp的接头序列则去掉整条read。去接头后短于30个碱基的read也被去掉。
3) 使用Pear v0.9.6软件合并双端序列为单端序列。合并至少重叠20个碱基的两端reads,如果合并之后的reads短于30个碱基则舍弃。
3、测序数据比对
本文使用的rDNA参考基因组数据来自NCBI数据库(Genebank: U13369.1,https://www.ncbi.nlm.nih.gov/nuccore/U13369.1)。
1) 首先将rDNA使用Bismark v0.17.0软件分别进行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鸟嘌呤(GA)的转化,并且分别对转换后的基因组使用Bowtie2软件构建索引。
2) 将预处理的数据同样进行CT和GA转化。
3) 使用Bowtie2软件分别将转化后的序列比对到转化后的rDNA参考基因组,最短种子序列长度20,种子序列不允许错配。
4、提取甲基化信息
对于每个rDNA的CpG位点,根据上述比对结果,获取每个位点对应的甲基化水平。本文中位点的核苷酸编号对应于U13369.1的核苷酸位置编号。
5、甲基化数据矩阵
1)将训练集和测试集的各个样本的甲基化水平合分别并成数据矩阵,对每个深度低于10的位点做缺失值处理。
2)去除缺失值比例高于20%的位点。
3)对于数据矩阵的缺失值,利用KNN算法进行缺失数据插补。
6、根据训练集样本分组发现差异甲基化区域
1)Wilcox Mann-Whitney 秩和检验,使用筛选出FDR小于0.05的差异甲基化位点。
2)使用metilene v0.2-7软件从rDNA序列单个CpG双核苷酸位置的甲基化水平数据获取差异甲基化区段(命令行:metilene_linux64 -M 100 -m 3 -t 30 -a 癌症分类名称-b 正常组织样本分类名称 甲基化水平矩阵 >差异甲基化区域矩阵),要求同一个甲基化区段内差异甲基化位点不少于3个,相邻两个差异甲基化位点距离不超过100个碱基,差异甲基化区域中位点的平均甲基化水平的组间差异不小于0.1,将满足上述条件的差异甲基化位点组合成成候选差异甲基化区域。
3)在候选差异甲基化区域,对两组样本进行Wilcox Mann–Whitney U检验,计算两组样本在该区域的差异甲基化的统计显著性,选取FDR小于0.05的差异甲基化区域。
筛选出的rDNA差异甲基化标志物在rDNA中的分布情况具体如下:rDNA的1111-1141bps;rDNA的21719-21757bps;rDNA的2564-2586bps;rDNA的2649-2708bps;rDNA的36571-36630bps;rDNA的36984-36996bps;rDNA的38499-38602bps;rDNA的38956-39012bps;rDNA的4490-4607bps;rDNA的5772-5798bps;rDNA的7088-7148bps;rDNA的8552-8583bps;rDNA的8679-8724bps;rDNA的9322-9335bps;rDNA的9338-9377bps。上述甲基化标志物区域的甲基化水平在甲状腺癌患者cfDNA中下降(表3)。上述15个标志物区域的序列如SEQ ID NO:1-15所示。每个标志物区域中的所有CpG位点的甲基化水平都可以通过简化甲基化测序的方法获得。每个区域中所有CpG位点甲基化水平的均值,以及单个CpG位点的甲基化水平都可以作为诊断甲状腺结节良恶性的标志物。
表3、训练集rDNA差异甲基化标志物的甲基化水平
|
良性 |
恶性 |
rDNA 1 |
0.616 |
0.479 |
rDNA 2 |
0.555 |
0.367 |
rDNA 3 |
0.682 |
0.513 |
rDNA 4 |
0.398 |
0.299 |
rDNA 5 |
0.54 |
0.38 |
rDNA 6 |
0.522 |
0.41 |
rDNA 7 |
0.434 |
0.305 |
rDNA 8 |
0.435 |
0.312 |
rDNA 9 |
0.671 |
0.559 |
rDNA 10 |
0.42 |
0.239 |
rDNA 11 |
0.852 |
0.763 |
rDNA 12 |
0.762 |
0.624 |
rDNA 13 |
0.718 |
0.513 |
rDNA 14 |
0.752 |
0.65 |
rDNA 15 |
0.699 |
0.593 |
测试集中甲状腺恶性结节与良性结节人群的甲基化水平如表4所示。从表中可以看出,rDNA在甲状腺恶性结节(癌)与良性结节人群中的分布显著不同,具备良好的区分效果。
表4、测试集rDNA差异甲基化标志物的甲基化水平
|
良性 |
恶性 |
rDNA 1 |
0.603 |
0.503 |
rDNA 2 |
0.54 |
0.366 |
rDNA 3 |
0.688 |
0.533 |
rDNA 4 |
0.381 |
0.322 |
rDNA 5 |
0.545 |
0.375 |
rDNA 6 |
0.497 |
0.413 |
rDNA 7 |
0.462 |
0.297 |
rDNA 8 |
0.384 |
0.301 |
rDNA 9 |
0.647 |
0.581 |
rDNA 10 |
0.375 |
0.243 |
rDNA 11 |
0.809 |
0.841 |
rDNA 12 |
0.791 |
0.641 |
rDNA 13 |
0.665 |
0.511 |
rDNA 14 |
0.771 |
0.663 |
rDNA 15 |
0.727 |
0.605 |
实施例2,构建分类预测模型
为了验证利用rDNA甲基化群进行良恶性结节分类器的潜在能力,在训练组中,基于15个rDNA差异甲基化标志物构建支持向量机和随机森林模型疾病分类模型,以在测试组中验证该组rDNA甲基化标志物的分类预测效果。按照比例来划分训练组与测试组,其中训练组82例(样本1-82),测试组为28例(样本83-110)。
使用发现的rDNA差异甲基化标志物对两组样本在训练集中分别构建支持向量机和随机森林模型。
1)随机将训练集样本分为三份,其中两份用于训练模型,一份用于模型测试。
2)为了开发利用rDNA甲基化进行甲状腺结节良恶性鉴别的潜力,基于基因标志物开发了疾病分类系统。利用训练集中rDNA差异甲基化标志物水平进行了SVM模型训练。具体训练过程如下:
a)构建训练模型模式使用R软件(v3.4.4) 的caret软件包(6.0-84)构建训练模型交叉验证训练模型的训练模式,命令行:ctrl <- trainControl(method = "repeatedcv",number=3, repeats=10,allowParallel = TRUE)。其中method = "repeatedcv"表示训练方法采用重复抽样交叉验证,number=3表示训练模型调参的折数,repeats=10表示交叉验证调参过程重复十次,allowParallel = TRUE表示并行计算。
b)使用caret软件包(6.0-84)和e1071(1.7-1)软件包,输入由实施例1步骤6得到的差异甲基化区域矩阵,构建SVM模型
mod_svm <- train(train_data, train_meta, method = 'svmRadialSigma',trControl = ctrl)其中,train_data表示实施例1步骤6得到的差异甲基化区域矩阵,train_meta表示训练集的表型信息,method = ' svmRadialSigma '表示使用的模型是调节sigma值的SVM模型,trControl = ctrl表示训练模型的模式采用a步骤提到的训练模式。通过10次3折交叉验证确定最优的超参数:确定损失参数Cost=1,高斯核平滑参数sigma =0.00827717。
3)为了开发利用rDNA甲基化进行甲状腺结节良恶性鉴别的潜力,基于基因标志物开发了疾病分类系统。为了利用这些rDNA差异甲基化标志物对甲状腺结节恶性风险进行直观地评估,使用随机森林(Random forest, RF)模型计算了评分,模型训练过程如下:
a)构建训练模型模式使用R软件(v3.4.4) 的caret软件包(6.0-84)构建训练模型交叉验证训练模型的训练模式,命令行:ctrl <- trainControl(method = "repeatedcv",number=3, repeats=10, allowParallel=TRUE)。其中method = "repeatedcv"表示训练方法采用重复抽样交叉验证,number=3表示训练模型调参的折数,repeats=10表示交叉验证调参过程重复十次,allowParallel = TRUE表示并行计算。
b)使用caret软件包(6.0-84)和randomForest(4.6-14)软件包,输入由实施例1步骤6得到的差异甲基化区域矩阵,构建随机森林模型
mod_rf <- train(train_data, train_meta, method = 'rf', trControl =ctrl)其中,train_data表示实施例1步骤6得到的差异甲基化区域矩阵, train_meta表示训练集的表型信息,method = 'rf'表示使用的模型是随机森林模型,trControl = ctrl表示训练模型的模式采用b步骤提到的训练模式。
在构建模型的过程中,将恶性类型编码为1,良性类型编码为0,由R软件(3.4.4)、caret软件包(6.0-84)、e1071(1.7-1)、randomForest(4.6-14)训练模型的过程中,默认将阈值设置为0.5。构建出的模型最终也以0.5为评分阈值对样本进良性和恶性区分。两种模型对训练集样本的预测分数见表5。
表5 训练集两种模型的预测得分
样本名 |
样本类型 |
SVM_预测分数 |
RF_预测分数 |
样本1 |
恶性 |
0.974712 |
0.937527 |
样本2 |
恶性 |
0.946887 |
0.936242 |
样本3 |
恶性 |
0.952368 |
0.824874 |
样本4 |
恶性 |
0.918503 |
0.916617 |
样本5 |
恶性 |
0.890517 |
0.918178 |
样本6 |
恶性 |
0.9343 |
0.913555 |
样本7 |
恶性 |
0.949134 |
0.934081 |
样本8 |
恶性 |
0.999396 |
0.90993 |
样本9 |
恶性 |
0.938919 |
0.951712 |
样本10 |
恶性 |
0.962622 |
0.871614 |
样本11 |
恶性 |
0.928189 |
0.867461 |
样本12 |
恶性 |
1 |
1 |
样本13 |
恶性 |
0.936616 |
0.819928 |
样本14 |
恶性 |
0.964166 |
0.909387 |
样本15 |
恶性 |
0.957893 |
0.90555 |
样本16 |
恶性 |
1 |
0.944883 |
样本17 |
恶性 |
0.950714 |
0.988064 |
样本18 |
恶性 |
1 |
0.933378 |
样本19 |
恶性 |
0.98492 |
0.935381 |
样本20 |
恶性 |
0.972196 |
0.903117 |
样本21 |
恶性 |
0.986358 |
0.846892 |
样本22 |
恶性 |
0.951715 |
0.887805 |
样本23 |
恶性 |
0.917805 |
0.889408 |
样本24 |
恶性 |
0.96271 |
0.956329 |
样本25 |
恶性 |
0.923445 |
0.889539 |
样本26 |
恶性 |
1 |
0.847905 |
样本27 |
恶性 |
0.937396 |
0.920652 |
样本28 |
恶性 |
0.947721 |
0.933922 |
样本29 |
恶性 |
0.967579 |
0.963036 |
样本30 |
恶性 |
0.96228 |
0.857597 |
样本31 |
恶性 |
0.865942 |
0.858057 |
样本32 |
恶性 |
0.952336 |
0.93131 |
样本33 |
恶性 |
0.979242 |
0.915116 |
样本34 |
恶性 |
0.952022 |
0.898548 |
样本35 |
恶性 |
0.981474 |
0.890783 |
样本36 |
恶性 |
0.928628 |
0.874531 |
样本37 |
恶性 |
0.99169 |
0.883237 |
样本38 |
恶性 |
0.979783 |
0.953339 |
样本39 |
恶性 |
0.887658 |
0.886293 |
样本40 |
恶性 |
0.947978 |
0.969371 |
样本41 |
恶性 |
0.940089 |
0.876584 |
样本42 |
良性 |
0.212451 |
0.065274 |
样本43 |
良性 |
0.091591 |
0.089285 |
样本44 |
良性 |
0.123058 |
0.131263 |
样本45 |
良性 |
0.094996 |
0.153071 |
样本46 |
良性 |
0.23431 |
0.112964 |
样本47 |
良性 |
0.159059 |
0.07246 |
样本48 |
良性 |
0.112782 |
0.161318 |
样本49 |
良性 |
0.205663 |
0.119823 |
样本50 |
良性 |
0.11384 |
0.171972 |
样本51 |
良性 |
0.095315 |
0.046419 |
样本52 |
良性 |
0.171151 |
0.128578 |
样本53 |
良性 |
0.248551 |
0.131303 |
样本54 |
良性 |
0.140693 |
0.137874 |
样本55 |
良性 |
0.170252 |
0.157732 |
样本56 |
良性 |
0.070248 |
0.196171 |
样本57 |
良性 |
0.194783 |
0.179032 |
样本58 |
良性 |
0.13471 |
0.107376 |
样本59 |
良性 |
0.248775 |
0.133151 |
样本60 |
良性 |
0.166583 |
0.152456 |
样本61 |
良性 |
0.245813 |
0.12411 |
样本62 |
良性 |
0.104092 |
0 |
样本63 |
良性 |
0.233786 |
0.183468 |
样本64 |
良性 |
0.083 |
0.121442 |
样本65 |
良性 |
0.216873 |
0.1357 |
样本66 |
良性 |
0.267626 |
0.095271 |
样本67 |
良性 |
0.131821 |
0.208251 |
样本68 |
良性 |
0.242284 |
0.094174 |
样本69 |
良性 |
0.116124 |
0.218954 |
样本70 |
良性 |
0.06341 |
0.129044 |
样本71 |
良性 |
0.090228 |
0.124128 |
样本72 |
良性 |
0.183949 |
0.101374 |
样本73 |
良性 |
0.080032 |
0.187787 |
样本74 |
良性 |
0.167858 |
0.14067 |
样本75 |
良性 |
0.29165 |
0.192103 |
样本76 |
良性 |
0.117756 |
0.025264 |
样本77 |
良性 |
0.111935 |
0.043665 |
样本78 |
良性 |
0.157931 |
0.210112 |
样本79 |
良性 |
0.159945 |
0.115655 |
样本80 |
良性 |
0.136608 |
0.130351 |
样本81 |
良性 |
0.127319 |
0.153046 |
样本82 |
良性 |
0.120336 |
0.150429 |
实施例3,分类预测模型测试
利用前述甲状腺癌与甲状腺良性结节血液样品进行rDNA甲基化测序,根据测序结果中的特征性DNA甲基化信号,进行PCA、聚类等归类分析。
影响rDNA甲基化水平的因素分析
基于本发明的rDNA标志物群,根据实施例2中通过随机森林和SVM建立的模型在测试集中预测。使用预测函数来预测测试集,输出的是预测结果(疾病概率:默认评分阈值为0.5,大于0.5则认为该受试者为恶性)。测试组样本28例(样本83-110),计算过程如下:
命令行:
svm_pred = predict(mod_svm, test_data, type="prob")
rf_pred = predict(mod_rf, test_data, type="prob")
其中 svm_pred表示测试集样本经过实施例2构建的SVM预测模型得到的预测分数、 mod_svm表示实施例2构建的SVM预测模型、test_data表示测试集数据、type="prob"表示输出预测分数。
rf_pred表示测试集样本经过实施例2构建的随机森林(Random forest)预测模型得到的预测分数、mod_rf表示实施例2构建的随机森林(Random forest)预测模型。
测试组的预测分数见表6,ROC曲线如图2所示,预测得分分布如图3所示,测试组在总体的AUC下面积为0.867(随机森林),0.862(支持向量机)。从图中可以知,利用随机森林或SVM挑选出来的变量建立的模型的区分度均良好。
图4和图5分别显示该组15个rDNA甲基化标志物在训练组和测试组中的甲基化水平分布,可以发现该组rDNA甲基化标志物在良性甲状腺结节和甲状腺癌中的差异较为稳定。
表6 测试集样本的预测分数
样本名 |
样本类型 |
SVM_预测分数 |
RF_预测分数 |
样本83 |
恶性 |
0.912376 |
0.864 |
样本84 |
恶性 |
0.301226 |
0.324 |
样本85 |
恶性 |
0.782632 |
0.616 |
样本86 |
恶性 |
0.670261 |
0.596 |
样本87 |
恶性 |
0.93282 |
0.98 |
样本88 |
恶性 |
0.923175 |
0.92 |
样本89 |
恶性 |
0.908632 |
0.948 |
样本90 |
恶性 |
0.343543 |
0.402 |
样本91 |
恶性 |
0.920894 |
0.94 |
样本92 |
恶性 |
0.85653 |
0.832 |
样本93 |
恶性 |
0.896696 |
0.91 |
样本94 |
恶性 |
0.862642 |
0.798 |
样本95 |
恶性 |
0.886278 |
0.808 |
样本96 |
恶性 |
0.758959 |
0.68 |
样本97 |
良性 |
0.107763 |
0.09 |
样本98 |
良性 |
0.114673 |
0.064 |
样本99 |
良性 |
0.13314 |
0.224 |
样本100 |
良性 |
0.085701 |
0.094 |
样本101 |
良性 |
0.097058 |
0.094 |
样本102 |
良性 |
0.758197 |
0.568 |
样本103 |
良性 |
0.041433 |
0.068 |
样本104 |
良性 |
0.070637 |
0.218 |
样本105 |
良性 |
0.0774 |
0.084 |
样本106 |
良性 |
0.876593 |
0.766 |
样本107 |
良性 |
0.780862 |
0.652 |
样本108 |
良性 |
0.043556 |
0.096 |
样本109 |
良性 |
0.717284 |
0.636 |
样本110 |
良性 |
0.332139 |
0.314 |
实施例4,有效区分甲状腺结节良恶性结果的最佳测序量
使用seqtk (version: 1.2-r101-dirty)软件,从Illumina Hiseq 2500测序仪下机的原始双端150bp测序数据中,设置随机种子100,分别随机选取15M,13M,11M,9M,7M,5M,3M,1M序列。
对不同测序量的序列分别重复实施例2-3的过程,根据发现的rDNA甲基化标志物群使用随机森林和支持向量机建模并预测测试集的计算曲线下面积(AUC)。
随着测序量的逐渐降低,根据随机森林和支持向量机2种建模方法预测得到的测试集ROC曲线下面积(AUC)也在逐渐降低,当测序量为5M时,测试集ROC曲线下面积在0.86左右(图6),两组样本间预测得分差异明显(图7)。低于5M之后,AUC下降较快,高于5M测序量,能提高目标区域甲基化测定的准确性,但相应的会增加试验成本。因此我们认为5M的测序量是可以有效区分甲状腺结节良恶性并平衡检测成本的最佳测序量。
本研究首次通过血浆cfDNA中核糖体DNA的甲基化水平来研究良性及恶性甲状腺结节人群的差异,并筛选出15个具有明显差异的核糖体DNA甲基化标志物。基于上述甲基化标志物群,通过随机森林及支持向量机的方法,建立恶性甲状腺癌风险预测模型,可以有效鉴别甲状腺结节的良恶性且具有较高的灵敏度和特异性,适用于甲状腺结节的鉴别与诊断。
序列表
<110> 上海鹍远生物技术有限公司
<120> 甲状腺结节相关rDNA甲基化标志物及其应用
<130> 19A485
<160> 15
<170> SIPOSequenceListing 1.0
<210> 1
<211> 31
<212> DNA
<213> Homo sapiens
<400> 1
ccggccgccg aggggctgcc gttctgcctc c 31
<210> 2
<211> 23
<212> DNA
<213> Homo sapiens
<400> 2
ccggcggcgg tgaggccccg cgc 23
<210> 3
<211> 60
<212> DNA
<213> Homo sapiens
<400> 3
ccgcctttct cgcgccttcc ccgtcgcccc ggcctcgccc gtggtctctc gtcttctccc 60
<210> 4
<211> 118
<212> DNA
<213> Homo sapiens
<400> 4
ccgagccgcc tggataccgc agctaggaat aatggaatag gaccgcggtt ctattttgtt 60
ggttttcgga actgaggcca tgattaagag ggacggccgg gggcattcgt attgcgcc 118
<210> 5
<211> 27
<212> DNA
<213> Homo sapiens
<400> 5
tcgttggtgt gcgcgtgtcg tggggcc 27
<210> 6
<211> 61
<212> DNA
<213> Homo sapiens
<400> 6
ccgggttcct ccctcggggg gctccctcgc gccgcgcgcg gctcggggtt cggggttcgt 60
c 61
<210> 7
<211> 32
<212> DNA
<213> Homo sapiens
<400> 7
ccgggggtgg ggtcggcggg ggaccgtccc cc 32
<210> 8
<211> 46
<212> DNA
<213> Homo sapiens
<400> 8
tcggggggcc ccgtccgtcc gtccgtcctc ctcctccccc gtctcc 46
<210> 9
<211> 14
<212> DNA
<213> Homo sapiens
<400> 9
ccggcgcgct cgcc 14
<210> 10
<211> 40
<212> DNA
<213> Homo sapiens
<400> 10
ccgaggtggg atcccgaggc ctctccagtc cgccgagggc 40
<210> 11
<211> 39
<212> DNA
<213> Homo sapiens
<400> 11
ccggccaacg tggtgaaacc ccgtctctac tgaaaatac 39
<210> 12
<211> 60
<212> DNA
<213> Homo sapiens
<400> 12
acgctggagt gcagtggcac catctcggct caccgcaacc tccacctccc gcgttcaagc 60
<210> 13
<211> 13
<212> DNA
<213> Homo sapiens
<400> 13
gcggcgtgat ctc 13
<210> 14
<211> 104
<212> DNA
<213> Homo sapiens
<400> 14
gcgcggtggc acatgcctat aatcccagct gctaggaagg ctgaggcagg agaatcgctt 60
gaacctggga agcggaggtt gcagtgagcc gagattgcgc catc 104
<210> 15
<211> 57
<212> DNA
<213> Homo sapiens
<400> 15
gcggaggttg cagtgagccg agatcgcgcc actgcaaccc agcctgggcg acagagc 57