利用CpG位点甲基化水平检测胰腺导管腺癌的标志物及其
应用
技术领域
本发明属于分子生物医学技术领域,具体涉及一种利用CpG位点甲基化水平检测胰腺导管腺癌的标志物及其应用。
背景技术
胰腺导管腺癌(pancreatic ductal adenocarcinoma,简称PDAC)是实体肿瘤中预后最差的恶性肿瘤之一,5年总体生存率不到5%。早期诊断并行手术切除是唯一可能治愈PDAC的手段。在我国经济发达地区,PDAC新发估计病例数列男性第7位,女性第6位,并且呈快速上升趋势。
早期PDAC起病隐匿、进展迅速且对化疗高度耐药,死亡率高,迫切需要可靠精准的早期诊疗手段,及早发现。晚期PDAC病人治疗前通常也需要有明确的病理学诊断。获取组织或细胞行病理学诊断的途径通常为超声内镜(EUS)或者CT引导下的细针穿刺(FNA)。由于组织取材量受限,即便是EUS-FNA,其检测准确性也有较大的改善空间。对于影像学表现典型而EUS-FNA活检阴性的病人,往往需要再行EUS-FNA活检,进一步增加了对病人的创伤。
因此亟需发掘新的准确性高、无创、简单的筛查方法及方式。
发明内容
为了克服现有技术中所存在的问题,本发明的目的在于提供一种利用CpG位点甲基化水平检测胰腺导管腺癌的标志物及其应用。
为了实现上述目的以及其他相关目的,本发明采用如下技术方案:
本发明的第一方面,提供胰腺导管腺癌的DNA甲基化标志物或者能检测所述胰腺导管腺癌的DNA甲基化标志物的物质用于制备胰腺导管腺癌检测产品的用途;以人类参考基因组Hg19的序列为基准,所述胰腺导管腺癌的DNA甲基化标志物包括如下基因靶点中的任一个或多个:
本发明第二方面,提供一种胰腺导管腺癌检测用探针组合,所述探针组合包括以下特征中的一项或多项:(1)tget_01的探针;(2)tget_02的探针;(3)tget_03的探针;(4)tget_04的探针;(5)tget_05的探针;(6)tget_06的探针;(7)tget_07的探针;(8)tget_08的探针;(9)tget_09的探针;(10)tget_10的探针。
本发明第三方面提供一种胰腺导管腺癌检测试剂盒,所述试剂盒中包括前述的胰腺导管腺癌检测用探针组合。
本发明第四方面提供一种胰腺导管腺癌诊断用装置,包括:
样本PDAC生物标志物的甲基化水平数据矩阵形成模块,用于将样本PDAC生物标志物的甲基化水平形成数据矩阵,所述样本PDAC生物标志物选自前述的用途中的所述胰腺导管腺癌的DNA甲基化标志物;
PDAC诊断模块,用于将样本PDAC生物标志物的甲基化水平数据矩阵输入PDAC诊断模型,计算受检者患有PDAC的可能性。
本发明第五方面提供一种设备,所述设备选自计算机可读存储介质或计算机处理设备或电子终端;所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现胰腺导管腺癌诊断方法,所述方法包括以下步骤:
S1,将样本PDAC生物标志物的甲基化水平形成数据矩阵,所述样本PDAC生物标志物选自前述的胰腺导管腺癌的DNA甲基化标志物;
S2,将样本PDAC生物标志物的甲基化水平数据矩阵输入PDAC诊断模型,计算受检者患有PDAC的可能性。
所述计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现所述胰腺导管腺癌诊断方法。
所述电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述胰腺导管腺癌诊断方法。
与现有技术相比,本发明具有如下有益效果:
本发明的cfDNA甲基化标志物,可以有效鉴别胰腺导管腺癌:本专利保护的PDAC甲基化标志物在正常人群的cfDNA和PDAC患者人群的ctDNA中,其水平有显著的差异,因此可用于判断受检对象是否已经患有PDAC。
本发明可以用于准确地检测受检人提供的样本中,所有panel对应的PDAC甲基化标志物的实际水平:使用本试剂盒提供的试剂、panel、接头和建库流程,可从少量cfDNA或ctDNA样本制备高丰度、高多样性的DNA甲基化文库,准确地测定本专利中包括的PDAC甲基化标志物的信号水平,用于评估受检对象患有PDAC的风险。
本发明可以有效对个人进行胰腺导管腺癌进行早期筛查,且具有较高的灵敏度和特异性,为胰腺导管腺癌的鉴别提供了新方法。检测过程无创,安全性高。同时因为血液样本可以常温运输,大大提高了检测的方便性。
附图说明
图1是本发明所采取的技术方案流程图。
图2是使用实施例1中10条探针检测训练组样本,对检测数据使用SVM方法建立PDAC诊断模型后,在训练组样本中交叉验证该诊断模型的ROC曲线。
图3是使用实施例1中的10条探针获得的SVM模型,对测试组样本进行打分后,其分值在PDAC和对照组样本中的分布。
图4是使用实施例1中10条探针获得的SVM模型,对测试组样本进行验证后ROC曲线。
具体实施方式
无创/微创的液体活检技术的出现为肿瘤提供了传统组织活检之外的诊断途径,也是近年来肿瘤研究的主要热点领域之一。高通量高灵敏度的新一代测序技术(nextgeneration sequencing,NGS)的飞速发展为液体活及检精准肿瘤基因检测提供了强有力的技术支撑。肿瘤液体活检采用的最主要分子标记之一为循环肿瘤DNA(circulatingtumor DNA,ctDNA),ctDNA是指循环血中游离于细胞外的部分降解了的机体内源性DNA,其来源主要是肿瘤细胞的坏死、凋亡和分泌过程。血浆游离DNA目前已广泛地应用于产前诊断,而ctDNA在不同肿瘤患者(包括早期肿瘤)的外周血浆中普遍存在。
已有大量研究证实ctDNA基因突变检测对于肿瘤早期诊断、靶向用药指导、化疗疗效预测、耐药及复发监测、预后评估等方面有着巨大的应用潜力。与ctDNA突变检测相比较,ctDNA甲基化检测在肿瘤中的潜在应用范围更广,且检测结果非常一致。
本发明探究了一种新的检测媒介,在血浆循环核酸(circulating free DNA,cfDNA)中检测胰腺导管腺癌特有的DNA甲基化标志物,旨在通过无创的检测方法,使用这些标志物精准评估受检者患有胰腺导管腺癌的可能性,实现对胰腺导管腺癌的无创早筛和早诊。
在进一步描述本发明具体实施方式之前,应理解,本发明的保护范围不局限于下述特定的具体实施方案;还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法,通常按照常规条件,或者按照各制造商所建议的条件。
当实施例给出数值范围时,应理解,除非本发明另有说明,每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义,本发明中使用的所有技术和科学术语与本技术领域技术人员通常理解的意义相同。除实施例中使用的具体方法、设备、材料外,根据本技术领域的技术人员对现有技术的掌握及本发明的记载,还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。
除非另外说明,本发明中所公开的实验方法、检测方法、制备方法均采用本技术领域常规的分子生物学、生物化学、染色质结构和分析、分析化学、细胞培养、重组DNA技术及相关领域的常规技术。
本发明一实施例提供的胰腺导管腺癌的DNA甲基化标志物或者能检测所述胰腺导管腺癌的DNA甲基化标志物的物质用于制备胰腺导管腺癌检测产品的用途;以人类参考基因组Hg19的序列为基准,所述胰腺导管腺癌的DNA甲基化标志物包括如下基因靶点中的任一个或多个:
能检测所述胰腺导管腺癌的DNA甲基化标志物的物质是指能够检测所述胰腺导管腺癌的DNA甲基化标志物(即“靶点”)的甲基化的水平的物质。可以为特异性探查靶点甲基化水平的物质,如探针等。
所述基因靶点均含有CpG位点。进一步的,每个基因靶点中所有CpG位点甲基化水平的均值,或多个CpG位点甲基化水平的均值,或单个CpG位点的甲基化水平都可以作为诊断胰腺导管腺癌良恶性的标志物。
进一步的,所述胰腺导管腺癌检测产品用于胰腺导管腺癌的判断、诊断。
优选的,所述胰腺导管腺癌检测产品用于胰腺导管腺癌的早期判断、早期诊断。
可选的,所述胰腺导管腺癌检测产品用于检测样本中的DNA,所述样本选自血浆。
所述DNA可以是ctDNA或cfDNA。
进一步的,所述胰腺导管腺癌检测产品包括以下特征中的一项或多项:(1)特异性探查tget_01甲基化水平的物质、(2)特异性探查tget_02甲基化水平的物质、(3)特异性探查tget_03甲基化水平的物质、(4)特异性探查tget_04甲基化水平的物质、(5)特异性探查tget_05甲基化水平的物质、(6)特异性探查tget_06甲基化水平的物质、(7)特异性探查tget_07甲基化水平的物质、(8)特异性探查tget_08甲基化水平的物质、(9)特异性探查tget_09甲基化水平的物质、(10)特异性探查tget_10甲基化水平的物质。
可选的,还包括以下特征中的任一个或多个:
(1)所述特异性探查tget_01甲基化水平的物质包括tget_01的探针;(2)所述特异性探查tget_02甲基化水平的物质包括tget_02的探针;(3)所述特异性探查tget_03甲基化水平的物质包括tget_03的探针;(4)所述特异性探查tget_04甲基化水平的物质包括tget_04的探针;(5)所述特异性探查tget_05甲基化水平的物质包括tget_05的探针;(6)所述特异性探查tget_06甲基化水平的物质包括tget_06的探针;(7)所述特异性探查tget_07甲基化水平的物质包括tget_07的探针;(8)所述特异性探查tget_08甲基化水平的物质包括tget_08的探针;(9)所述特异性探查tget_09甲基化水平的物质包括tget_09的探针;(10)所述特异性探查tget_10甲基化水平的物质包括tget_10的探针。
设前述的tget的编号为N,所述tget_N的探针是指用于作为引物参与PCR反应扩增tget_N靶点区域的物质。例如,tget_01的探针是指用于作为引物参与PCR反应扩增tget_01靶点区域的物质。tget_02的探针是指用于作为引物参与PCR反应扩增tget_02靶点区域的物质。tget_03的探针是指用于作为引物参与PCR反应扩增tget_03靶点区域的物质。依此类推,……tget_08的探针是指用于作为引物参与PCR反应扩增tget_08靶点区域的物质。tget_09的探针是指用于作为引物参与PCR反应扩增tget_09靶点区域的物质。tget_10的探针是指用于作为引物参与PCR反应扩增tget_10靶点区域的物质。
可选的,所述探针包括公共序列和特异性序列,在同一套胰腺导管腺癌检测产品中,各个tget_N的公共序列相同。例如,所述公共序列可以为如SEQ ID NO:59所示的序列。具体的:GACTGGAGTTCAGACGTGTGCTCTTCCGATCT。公共序列用于配适测序使用的Illumina测序平台,是每一个探针都需要的保留的部分。方便进行二代测序等操作。
所述特异性序列用于区分不同的靶点。
在一种实施方式中,还包括以下特征中的任一个或多个:
(1)所述tget_01的探针的核苷酸序列如SEQ ID NO.1所示;
(2)所述tget_02的探针的核苷酸序列如SEQ ID NO.2所示;
(3)所述tget_03的探针的核苷酸序列如SEQ ID NO.3所示;
(4)所述tget_04的探针的核苷酸序列如SEQ ID NO.4所示;
(5)所述tget_05的探针的核苷酸序列如SEQ ID NO.5所示;
(6)所述tget_06的探针的核苷酸序列如SEQ ID NO.06所示;
(7)所述tget_07的探针的核苷酸序列如SEQ ID NO.07所示;
(8)所述tget_08的探针的核苷酸序列如SEQ ID NO.08所示;
(9)所述tget_09的探针的核苷酸序列如SEQ ID NO.09所示;
(10)所述tget_10的探针的核苷酸序列如SEQ ID NO.10所示。
具体的,见表1,其中探针编号即为SEQ ID NO。
表1(起始和终点坐标是指探针对应的DNA序列在基因组中的坐标。所有ctDNA或cfDNA都来自基因组DNA,因为它们是基因组DNA在细胞死亡过程中经历降解之后的产物。这些序列仅限于每个探针中的特异性序列;公共序列不存在于基因组中,原因是它如果和某个基因组序列对应,会把这个序列误当作探针进行检测,因此造成假阳性或假阴性结果。)
本发明一实施例提供的胰腺导管腺癌检测用探针组合,所述探针组合包括以下特征中的一项或多项:(1)tget_01的探针;(2)tget_02的探针;(3)tget_03的探针;(4)tget_04的探针;(5)tget_05的探针;(6)tget_06的探针;(7)tget_07的探针;(8)tget_08的探针;(9)tget_09的探针;(10)tget_10的探针。
所述胰腺导管腺癌检测试剂盒用于胰腺导管腺癌的判断、诊断。
所述胰腺导管腺癌检测试剂盒用于胰腺导管腺癌的早期判断、早期诊断。
在一种实施方式中,还包括以下特征中的任一个或多个:
(1)所述tget_01的探针的核苷酸序列如SEQ ID NO.1所示;
(2)所述tget_02的探针的核苷酸序列如SEQ ID NO.2所示;
(3)所述tget_03的探针的核苷酸序列如SEQ ID NO.3所示;
(4)所述tget_04的探针的核苷酸序列如SEQ ID NO.4所示;
(5)所述tget_05的探针的核苷酸序列如SEQ ID NO.5所示;
(6)所述tget_06的探针的核苷酸序列如SEQ ID NO.6所示;
(7)所述tget_07的探针的核苷酸序列如SEQ ID NO.7所示;
(8)所述tget_08的探针的核苷酸序列如SEQ ID NO.8所示;
(9)所述tget_09的探针的核苷酸序列如SEQ ID NO.9所示;
(10)所述tget_10的探针的核苷酸序列如SEQ ID NO.10所示。
本发明一实施例的胰腺导管腺癌检测试剂盒,所述试剂盒中包括前述的胰腺导管腺癌检测用探针组合。
基于本发明所述试剂盒中还可以包括其他一些甲基化定量PCR所需要的常规试剂,例如DNA提取试剂、亚硫酸盐、去离子水、Taq mix buffer等中的一种或多种。由于此类甲基化定量PCR常用试剂均可经市场途径单独购得或者自行配置,因此具体需要将哪些试剂装配入试剂盒,可以根据客户实际需要配置,为方便起见,也可全部装配入试剂盒。
本发明一实施例提供的胰腺导管腺癌诊断用装置,包括:
样本PDAC生物标志物的甲基化水平数据矩阵形成模块,用于将样本PDAC生物标志物的甲基化水平形成数据矩阵,所述样本PDAC生物标志物选自前述的用途中的所述胰腺导管腺癌的DNA甲基化标志物;
PDAC诊断模块,用于将样本PDAC生物标志物的甲基化水平数据矩阵输入PDAC诊断模型,计算受检者患有PDAC的可能性。
进一步的,所述样本PDAC生物标志物的甲基化水平为采用前述的胰腺导管腺癌检测用探针组合或前述试剂盒并利用二代测序检测分析获得。
可选的,将所述将测序数据与人类参考基因组序列(Hg19)均进行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鸟嘌呤(AG)的转化,转化后将测序数据与与同样转化后的人类参考基因组序列(Hg19)进行比对;比对后,获得PDAC生物标志物的甲基化水平。
所述PDAC生物标志物的甲基化水平包括每个标志物的CpG位点的甲基化水平。每个标志物内有多个CpG位点;经过计算后,单个CpG位点的甲基化均值导入SVM模型,计算出的数值为区分正常血浆DNA和PDAC血浆DNA的关键指标。
若输出结果大于预设值,则判定受检者样本中PDAC甲基化生物标志物水平超出正常水平,提示受检者患有PDAC,若输出结果不大于预设值,则提示受检者未患有PDAC。所述预设值可以根据建立模型时的诊断数据进行设置,例如建模时,将恶性类型编码为1,良性类型编码为0,由R软件(3.4.4)、caret软件包(6.0-84)、e1071(1.7-1)训练模型的过程中,默认将阈值设置为0.5。构建出的模型最终也以0.5为评分阈值对样本进良性和恶性区分,最终训练获得的模型即为PDAC诊断模型。
本发明提供的设备,所述设备选自计算机可读存储介质或计算机处理设备或电子终端;所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现胰腺导管腺癌诊断方法,所述方法包括以下步骤:
S1,将每个样本PDAC生物标志物的甲基化水平形成数据矩阵,所述样本PDAC生物标志物选自权利要求1中所述的胰腺导管腺癌的DNA甲基化标志物;
S2,将样本PDAC生物标志物的甲基化水平数据矩阵输入PDAC诊断模型,计算受检者患有PDAC的可能性;
所述计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现所述胰腺导管腺癌诊断方法;
所述电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述胰腺导管腺癌诊断方法。
进一步的,所述电子终端包括处理器、存储器、通信器、通信接口和系统总线;存储器和通信接口通过系统总线与处理器和通信器连接并完成相互间的通信,存储器用于存储计算机程序,通信器、通信接口用于和其他设备进行通信,处理器和通信器用于运行计算机程序,使电子终端执行如上方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
在具体实现上,所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。
本发明的胰腺导管腺癌检测试剂盒的使用方法,如图1所示,包括如下步骤:
1)提取受检者血浆中cfDNA;2)将受检者血浆中cfDNA进行亚硫酸盐转化;3)将步骤2)获得的cfDNA进行解链,将单链cfDNA连接二代测序用接头序列;4)合成单链cfDNA的互补链,获得双链cfDNA;引物序列:CGCAGCACATCCCTTTCTCAC(SEQ ID NO.11)。5)采用前述胰腺导管腺癌检测试剂盒中的试剂对步骤4)获得的双链cfDNA进行扩增;6)将步骤5)获得的产物上连接索引序列,建立测序文库;7)进行文库测序。在一种实施方式中,所述试剂盒的使用方法如下:
1.血浆cfDNA样本的提取。采用streck血液收集管收集受检者2ml全血样本,3天内离心分离血浆;采用QIAGEN QIAamp Circulating Nucleic Acid Kit试剂盒根据说明书提取cfDNA。
2.cfDNA转化:保留甲基化的鸟嘌呤脱氧核苷酸残基。使用亚硫酸氢盐转化试剂盒(如EZ DNA Methylation Kit,D5001,Zymo Research)对ctDNA进行转化并纯化。
1)制备转化(CT)反应混合物:混合以下试剂
试剂 |
体积(μL) |
H<sub>2</sub>O |
900 |
Dilution Buffer |
300 |
Resuspension Buffer |
50 |
2)强力振荡CT试剂10分钟。
3)将20ng cfDNA溶液用水调节体积至30μL。
4)在每个cfDNA样本中加入130μL混合好的CT试剂,振荡混匀。
5)使用以下条件孵育反应混合物:98摄氏度,10分钟→64摄氏度,2小时30分钟→4摄氏度保持恒温。
6)在孵育期间准备洗涤缓冲液:在标有“洗涤缓冲液”(Wash buffer)的塑料瓶中加入24毫升无水乙醇,充分混合后在瓶体上标注“已加入乙醇”。
7)在试剂盒提供的离心纯化柱中加入600μL“结合缓冲液”(Binding buffer);再加入150μL孵育后的转化产物并振荡混匀。
8)10000g下离心30秒;去除过柱的液体。
9)在离心纯化柱中加入100μL洗涤缓冲液;10000g下离心30秒;去除过柱的液体。
10)在离心纯化柱中加入200μL脱璜化缓冲液(Desulphonation buffer);在室温下孵育15分钟;在10000g下离心30秒;去除过柱的液体。
11)在离心纯化柱中加入200μL洗涤缓冲液;10000g下离心30秒;去除过柱的液体;重复一次
12)将离心纯化柱在10000g下离心30秒;去除残存液体;将离心纯化柱转入一个新的干净的1.5毫升离心管。
13)在离心纯化柱中加入16μL TE(0.1mM Tris-Cl,0.1mM EDTA)缓冲液;在室温下孵育1-5分钟;在10000g下离心30秒;在离心机最高速下离心60秒。
14)转移15μL过滤后液体至新的离心管,用于下一步反应
3.单链化:解链cfDNA,为接头连接做好准备。将转化后的cfDNA加热至95度,并保持3分钟,;从而将双链cfDNA解链为2根单链cfDNA。具体实验条件与参数参考发明专利申请CN201880040459.0。
4.去磷酸化并单链化:使用磷酸酶(如Antarctic Phosphatase,New EnglandBiolab)对转化并解链后的单链cfDNA进行去磷酸化处理,防止在接头连接步骤中接头序列连接在cfDNA的5’端(此类产物无法用于后续实验步骤);解链cfDNA,为接头连接做好准备。具体实验条件与参数参考发明专利申请CN201880040459.0。
1)制备去磷酸化(dephosphorylation)反应混合物:混合以下试剂
试剂 |
体积(μL) |
10x RNA ligase buffer |
4 |
Antarctic Phosphatase |
1 |
解链后cfDNA |
15 |
2)在前述转化产物中加入5μL去磷酸化反应混合物。
3)使用以下条件孵育反应混合物:37摄氏度,10分钟→95摄氏度2分钟;随即迅速转移至冰水浴中,静置不少于1分钟后继续下一实验步骤。
5.连接接头序列:将去磷酸化后的单链cfDNA与合成(如经由IDT合成)的接头序列(接头序列如SEQ ID NO:12和SEQ ID NO:13所示)混合,使用连接酶(如T4 DNA ligase,NewEngland Biolab)进行连接反应,用于第二链合成和后续PCR扩增。具体实验条件与参数参考发明专利申请CN201880040459.0。
1)制备连接(ligation)反应混合物:混合以下试剂和底物
试剂 |
体积(μL) |
50x PEG4000 |
8 |
Splinted Adapter(10uM) |
2 |
ATP(10mM) |
2 |
H<sub>2</sub>O |
7 |
T4 DNA ligase(30wU/μL) |
1 |
总计 |
20 |
2)在前述去磷酸化反应产物中,加入20μL连接反应混合物。
3)使用以下条件孵育反应混合物:37摄氏度,2小时。
6.第二链合成:合成单链cfDNA的互补链在连接反应产物中加入dNTP和DNA聚合酶(如Phusion DNA聚合酶,ThermoFisher),以单链状态的连接产物为模板,合成cfDNA的ll互补链,增加后续半靶向扩增中PCR的底物量。具体实验条件与参数参考发明专利申请CN201880040459.0。
1)制备第二链合成(Second strand synthesis)反应混合物:混合以下试剂
2)在前述去磷酸化反应产物中,加入20μL连接反应混合物。
3)使用以下条件孵育反应混合物:95摄氏度,30秒→62摄氏度,2分钟→68摄氏度,15分钟→4摄氏度保持恒温。
7.第二链合成产物纯化:对第二链合成产物进行纯化(如AMPure磁珠纯化,Beckman-Coulter)。具体实验条件与参数参考发明专利申请CN201880040459.0。
1)反应产物转移至80μL AMPure beads中,涡旋混匀;在室温中温育5分钟;低速短暂离心后,将离心管放置到磁力架上;至溶液澄清后去除上清。
2)用150μL 80%乙醇溶液,清洗磁珠两遍
3)去除残留乙醇溶液;在室温下晾干磁珠5分钟。
4)加入16μL H2O,室温下温育2-5分钟;将离心管放置到磁力架上直至溶液澄清;吸取15μL上清液转移到新的离心管中。
8.半靶向扩增:对PDAC诊断用靶点区域,即panel中探针结合的区域下游序列,进行特异扩增;同时在产物中加入后续扩增与测序所需通用序列。
所有探针作为PCR引物参与扩增反应,已提前按照相同浓度和体积混合为引物池。将第二链合成后的双链cfDNA产物与一定体积的引物池混合液混合,加入dNTP和DNA聚合酶(如Taq PCR Master Mix聚合酶预混合物,Qiagen)后,以第二链合成后双链cfDNA为模板进行扩增。具体实验条件与参数参考发明专利申请CN201880040459.0。
1)制备半靶向扩增反应混合物:混合以下试剂
2)在前述经纯化的第二链合成产物中,加入35μL半靶向扩增反应混合物。
3)设定以下PCR循环条件进行扩增:95摄氏度,3分钟→(95摄氏度,15秒→72摄氏度,90秒)X 20→72摄氏度,60秒→4摄氏度保持恒温
9.半靶向扩增产物纯化:对半靶向扩增产物进行纯化(如AMPure磁珠纯化,Beckman-Coulter)。具体实验条件与参数参考发明专利申请CN201880040459.0。
1)反应产物转移至80μL AMPure beads中,涡旋混匀;在室温中温育5分钟;低速短暂离心后,将离心管放置到磁力架上;至溶液澄清后去除上清。
2)用150μL 80%乙醇溶液,清洗磁珠两遍
3)去除残留乙醇溶液;在室温下晾干磁珠5分钟。
4)加入20μL H2O,室温下温育2-5分钟;将离心管放置到磁力架上直至溶液澄清;吸取19μL上清液转移到新的离心管中。
10.索引扩增:扩增半靶向扩增产物,并在产物内加入全长测序用序列和样品特异条形码。将纯化后半靶向扩增产物与带有条形码的通用引物混合(Illumina的标准引物,具体为TruSeq Index PCR Primers),加入dNTP和DNA聚合酶(如Phusion High-Fidelity PCR预混合物,ThermoFisher),以半靶向扩增产物为模板进行扩增。对扩增产物进行纯化(如AMPure磁珠纯化,Beckman-Coulter)获得最终文库。具体实验条件与参数参考发明专利申请CN201880040459.0。
1)制备索引扩增反应混合物:混合以下试剂
试剂 |
体积(μL) |
Phusion High-Fidelity PCR Master Mix |
25 |
Unique Dual Index Primers |
4 |
H<sub>2</sub>O |
19 |
总计 |
48 |
2)取2μL前述经纯化的半靶向扩增产物,加入48μL半靶向扩增反应混合物。
3)设定以下PCR循环条件进行扩增:95摄氏度,3分钟→(98摄氏度,10秒→65摄氏度,75秒)X 10→65摄氏度,2分钟→4摄氏度保持恒温
11.索引扩增产物纯化:对索引扩增产物进行纯化(如AMPure磁珠纯化,Beckman-Coulter)。具体实验条件与参数参考发明专利申请CN201880040459.0。
1)反应产物转移至50μL AMPure beads中,涡旋混匀;在室温中温育5分钟;低速短暂离心后,将离心管放置到磁力架上;至溶液澄清后去除上清。
2)用150μL 80%乙醇溶液,清洗磁珠两遍
3)去除残留乙醇溶液;在室温下晾干磁珠5分钟。
4)加入25μL H2O,室温下温育2-5分钟;将离心管放置到磁力架上直至溶液澄清;吸取24μL上清液转移到新的离心管中,获得最终甲基化文库。
12.测序:文库用Illumina Nextseq 550测序仪进行双端测序,测序量为每个样本2~5M。
本发明基于二代测序进行检测,使用本发明的试剂盒进行检测后,获得的数据结果可结合生物信息学分析得出结论。
测序结果中所有CpG位点甲基化水平的均值,或多个CpG位点甲基化水平的均值,或单个CpG位点的甲基化水平组合都可以作为诊断胰腺导管腺癌良恶性的标志物。
进一步的,获得的测序结果的分析方法包括如下步骤:
在一种实施方式中,测序结果的分析方法包括如下步骤:
12.1数据的预处理:
1)使用Trim_galore v 0.6.0、cutadapt v2.1软件对Illumina Nextseq 550测序仪下机的双端150bp测序数据进行去接头处理。在Read 1的3’端去除接头序列为“AGATCGGAAGAGCACACGTCTGAACTCCAGTC”,(SEQ ID NO:12)在Read 2的3’端去除接头序列“AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT”,(SEQ ID NO:13)并去除两端测序质量值低于20的碱基。如果5’端有3bp的接头序列则去掉整条read。去接头后短于30个碱基的read也被去掉。
2)合并双端序列为单端序列使用Pear v0.9.6软件,合并至少重叠20个碱基的两端reads,如果合并之后的reads短于30个碱基则舍弃。
13.测序数据比对
1)首先将人类参考基因组序列(Hg19)使用Bismark软件分别进行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鸟嘌呤(AG)转化,并且分别对转换后的基因组使用Bowtie2软件构建索引。
2)将预处理的数据同样进行CT和AG转化。
3)使用Bowtie2软件分别将转化后的序列比对到转化后的人类参考基因组,最短种子序列长度20,种子序列不允许错配。
14.提取甲基化信息:对于表1所示的每个标志物的CpG位点,根据上述比对结果,获取每个位点对应的甲基化水平。
15.将样本的甲基化水平合并成数据矩阵。
表1所示的差异化甲基化标志物的坐标是根据训练集样本分组发现的,具体步骤为:
1)Wilcox Mann-Whitney秩和检验,使用筛选出FDR小于0.05的差异甲基化位点。
2)使用metilene v0.2-7软件,根据panel中各序列中的单个CpG双核苷酸位置的甲基化水平数据,获取差异甲基化区段(命令行:metilene_linux64-M 100-m 3-t 30-a癌症分类名称-b正常组织样本分类名称甲基化水平矩阵>差异甲基化区域矩阵),要求同一个甲基化区段内差异甲基化位点不少于3个,相邻两个差异甲基化位点距离不超过100个碱基,差异甲基化区域中位点的平均甲基化水平的组间差异不小于0.1,将满足上述条件的差异甲基化位点组合成成候选差异甲基化区域。
3)在候选差异甲基化区域,对两组样本进行Wilcox Mann–Whitney U检验,计算两组样本在该区域的差异甲基化的统计显著性,选取FDR小于0.05的差异甲基化区域。
筛选出的差异化甲基化标志物的坐标见表1。上述甲基化标志物区域的甲基化水平在PDAC患者cfDNA中上升。每个标志物区域中的所有CpG位点的甲基化水平都可以通过简化甲基化测序的方法获得。每个区域中所有CpG位点甲基化水平的均值,或多个CpG位点甲基化水平的均值,或单个CpG位点的甲基化水平,即所有CpG位点甲基化的水平及其任意组合均可作为诊断PDAC的标志物。
16.代入PDAC诊断模型,评估受检者患有PDAC的可能
将步骤15中建立的测试集样本的PDAC生物标志物的甲基化水平数据矩阵,输入PDAC诊断模型,计算受检者患有PDAC的可能性。
输出结果形式:默认评分阈值为0.5,输出结果大于0.5则判定受检者样本中PDAC甲基化生物标志物水平超出正常水平,提示受检者患有PDAC。
所述PDAC诊断模型可以采用以下方法建立:
利用训练组的样本数据,使用构建支持向量机模型方法建立PDAC诊断模型。进一步的,利用测试组的样本数据,对模型进行验证。
具体的,为了建立基于cfDNA甲基化标志物水平的PDAC诊断模型,将入组样本按照比例划分训练组与测试组,所述入组样本数据包括已知是否患有PDAC的受检者的cfDNA甲基化水平的数据矩阵,其中未患有PDAC的受检者的数据为阴性对照样本,患有PDAC的受检者的数据为PDAC样本。
在训练组中,基于cfDNA差异甲基化标志物(即基因靶点tget_01至tget_55中任一个或多个的组合),使用构建支持向量机模型方法建立PDAC诊断模型,以在测试组中验证该组cfDNA甲基化标志物的分预测效果。
更为具体的,PDAC诊断模型建模步骤如下:
1)随机将入组样本分为训练组和测试组。
在一个具体实施方式中,入组样本共165例,其中样本1-123(123例)作为训练组,
样本124-165(42例)作为测试组。
2)开发疾病分类系统:比对训练集中PDAC样本和阴性对照样本在甲基化标志物水平上的差异,使用支持向量机建模方法(Support Vector Machine,SVM),训练PDAC诊断模型。
具体训练过程如下:
a)使用R软件(v3.4.4)的caret软件包(6.0-84)构建训练模型,使用重复交叉验证的训练模式。
在一个具体实施方式中,采用如下命令行:ctrl<-trainControl(method="repeatedcv",number=3,repeats=10,allowParallel=TRUE)。其中method="repeatedcv"表示训练方法采用重复抽样交叉验证,number=3表示训练模型调参的折数,repeats=10表示交叉验证调参过程重复十次,allowParallel=TRUE表示并行计算。
b)使用caret软件包(6.0-84)和e1071(1.7-1)软件包,输入入组样本数据,构建SVM模型。在一个具体实施方式中,采用如下命令行:mod_svm<-train(train_data,train_meta,method='svmRadialSigma',trControl=ctrl)其中,train_data表示入组样本数据,train_meta表示训练集的表型信息,method='svmRadialSigma'表示使用的模型是调节sigma值的SVM模型,trControl=ctrl表示训练模型的模式采用a步骤提到的训练模式。通过10次3折交叉验证确定最优的超参数:确定损失参数Cost=1,高斯核平滑参数sigma=0.00827717。
在构建模型的过程中,可赋予恶性类型及良性类型不同的编码,并设置阈值,由R软件、caret软件包、e1071训练模型,最终训练获得可基于评分阈值区分样本良性和恶性的PDAC诊断模型。
在一个具体实施方式中,将恶性类型编码为1,良性类型编码为0,由R软件(3.4.4)、caret软件包(6.0-84)、e1071(1.7-1)训练模型的过程中,默认将阈值设置为0.5。构建出的模型最终也以0.5为评分阈值对样本进良性和恶性区分,最终训练获得的模型即为PDAC诊断模型。
计算过程如下:
命令行:
svm_pred=predict(mod_svm,test_data,type="prob")
其中svm_pred表示测试集样本经过SVM预测模型得到的预测分数、mod_svm表示SVM预测模型、test_data表示入组样本数据、type="prob"表示输出预测分数。
本发明的检测产品的设计不是简单地将多个基因区域加和,而是在计算甲基化标志物的水平后,通过整合受检样本中不同甲基化靶点区域的测序结果;将甲基化标志物的水平进一步根据诊断模型,对每一个受检样本内PDAC信号水平定量评分;将评分与设定阈值比较后,评估每个受检样本提供者患有PDAC的可能性。
实施例1
采用前述的试剂盒使用方法及测序结果的分析方法,利用表1中的10条可用于诊断血浆样本中PDAC信号水平的探针,探针编号为:seq_01、seq_02、seq_03、seq_04、seq_05、seq_06、seq_07、seq_08、seq_09、seq_10,及其在临床样本中的实测与分析结果。所述临床样本源于长海医院提供的血浆样本,所述临床样本包括PDAC阳性和健康人的样本,样本数量为165份。
其中,将临床样本分为检测训练组样本(样本1-123,123例)和测试组样本(样本124-165,42例);所述训练组样本用于进行模型建立;测试组样本用于对建立的模型进行验证表2:10条探针的编号、序列和基因组坐标。
如图2所示,使用实施例中的10条探针检测训练组样本,对检测数据使用SVM方法建立PDAC诊断模型后,在训练组样本中交叉验证该诊断模型的AUC为0.95,由此可知,由此可知PDAC诊断模型的区分度良好。
使用本实施例中的10条探针获得的PDAC诊断模型,对测试组样本进行打分后,其分值在PDAC和对照组样本中的分布如图3所示,表明在123例训练组样本中,使用上述10条探针检测对应的10个靶点之后,将靶点信号代入SVM模型计算,得出每个的样本的数值;然后将PDAC样本和normal样本的数值的分布以小提琴图的方式展示出来。从结果中可以看到,PDAC样本的数值总体显著大于normal样本的数值。如图4所示,使用本实例中的10条探针获得的SVM模型,对测试组样本进行验证后AUC值为0.88,表明这10个探针序列可以作为PDAC诊断序列。
以上所述,仅为本发明的较佳实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员,在不脱离本发明的精神和范围的情况下,当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。
序列表
<110> 中国人民解放军海军军医大学第一附属医院
上海鹍远生物技术有限公司
<120> 利用CpG位点甲基化水平检测胰腺导管腺癌的标志物及其应用
<160> 13
<170> SIPOSequenceListing 1.0
<210> 1
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
gactggagtt cagacgtgtg ctcttccgat ctaaacccaa aacaactcac ccacaactc 59
<210> 2
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
gactggagtt cagacgtgtg ctcttccgat ctaaacccac ccacctacat accaccccc 59
<210> 3
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
gactggagtt cagacgtgtg ctcttccgat ctaacatcac tcccaacact caaaaacca 59
<210> 4
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
gactggagtt cagacgtgtg ctcttccgat ctaactcaac ctcactttcc ctaccacct 59
<210> 5
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
gactggagtt cagacgtgtg ctcttccgat ctaattcccc tctatcccac ctacttccct 60
<210> 6
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
gactggagtt cagacgtgtg ctcttccgat ctagaggtgt tggggagttt tgggtttga 59
<210> 7
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
gactggagtt cagacgtgtg ctcttccgat ctagggagag gtgttggggg ttaatggtg 59
<210> 8
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
gactggagtt cagacgtgtg ctcttccgat ctagggttag aggttgttgt ggggagaga 59
<210> 9
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
gactggagtt cagacgtgtg ctcttccgat ctgggagtgg gaagtagatg ttgtttgtgt 60
<210> 10
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
gactggagtt cagacgtgtg ctcttccgat ctggggaaga ggggggttgg aatgggatt 59
<210> 11
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
cgcagcacat ccctttctca c 21
<210> 12
<211> 32
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
agatcggaag agcacacgtc tgaactccag tc 32
<210> 13
<211> 33
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
agatcggaag agcgtcgtgt agggaaagag tgt 33