CN116083588A

CN116083588A - 作为前列腺癌标志物的dna甲基化位点组合及其应用

Info

Publication number: CN116083588A
Application number: CN202310247009.1A
Authority: CN
Inventors: 张道允; 巩子英; 付惠玉; 李捷意; 孙永华
Original assignee: Jiaxing Yunying Medical Inspection Co ltd
Current assignee: Jiaxing Yunying Medical Inspection Co ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-05-09
Anticipated expiration: 2043-03-09
Also published as: WO2024183507A1; CN116083588B

Abstract

本说明书实施例提供一种作为前列腺癌标志物的DNA甲基化位点组合，该DNA甲基化位点组合的检测试剂，以及该DNA甲基化位点组合或其检测试剂在制备用于前列腺癌早期筛查或前列腺癌患病风险预测的试剂盒中的用途。本说明书所述的DNA甲基化位点组合具有良好的敏感度和特异性，在已知的前列腺患者和非前列腺患者中表现出甲基化水平的显著差异，可作为前列腺癌早期筛查、患病风险预测等方面的标志物，也可用于设计诊断试剂或试剂盒。本说明书实施例还提供用于前列腺癌早期筛查或前列腺癌患病风险预测的装置、试剂盒。

Description

作为前列腺癌标志物的DNA甲基化位点组合及其应用

技术领域

本说明书涉及生物技术领域，特别涉及作为前列腺癌标志物的DNA甲基化位点组合及其应用。

背景技术

前列腺癌(Prostate cancer,PCa)是老年男性高发的癌症之一。随着人口老龄化的加剧、生活方式与饮食结构的改变，国内前列腺癌发病率近年来呈现了明显上升趋势，现已成为中国男性第五大常见癌症。早期前列腺癌无任何临床症状，因此多数患者确诊时病程已处于中晚期，治愈希望较小。因此，实现前列腺癌早期筛查是提高患者存活率的有效手段。

目前，血清前列腺特异性抗原(Prostate specific antigen,PSA)检测是临床上对前列腺癌进行筛查的金标准。PSA检测通常用于指导是否进行深度临床检验，例如在PSA检测结果异常的情况下，使用影像学检查发现可疑病灶，以及使用活体组织检查明确病理性质。但PSA检测存在假阳性过多的问题。在PSA检测结果异常的被测者中，有相当大比例的人在活检中未被确诊前列腺癌。PSA检测出现假阳性结果导致的过度诊断，使得被测者承担了不必要的生理、心理以及经济负担。鉴于目前前列腺癌诊断筛查方法的缺陷，亟待提出一种敏感度和特异性更高的生物标志物，例如用于实现具有较强适用性的前列腺癌早期筛查方法。

发明内容

本说明书一个或多个实施例提供DNA甲基化位点组合作为生物标志物或DNA甲基化位点组合的检测试剂在制备用于前列腺癌早期筛查或前列腺癌患病风险预测的试剂盒中的用途。所述DNA甲基化位点组合包括以下组中的一个或多个：位于MIR663A基因上染色体坐标为chr20:26189060的位点MIR663A_42；位于MIR663A基因上染色体坐标为chr20:26189036的位点MIR663A_66；位于FHAD1基因上染色体坐标为chr1:15573597的位点FHAD1_27；位于SOX1-OT基因上染色体坐标为chr13:112710855的位点SOX1-OT_58；位于IGFBP3基因上染色体坐标为chr7:45961083的位点IGFBP3_36；位于POU4F2基因上染色体坐标为chr4:147560132的位点POU4F2_74；位于ZNF154基因上染色体坐标为chr19:58220425的位点ZNF154_95；位于FEZF2基因上染色体坐标为chr3:62356954的位点FEZF2_31；位于APC基因上染色体坐标为chr5:112073348的位点APC_20。

在一些实施例中，所述DNA甲基化位点组合包括MIR663A_42、MIR663A_66、FHAD1_27、SO X1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20。

在一些实施例中，所述检测试剂包括用于扩增所述DNA甲基化位点组合的引物组。

在一些实施例中，用于扩增MIR663A_42的引物对如SEQ ID NO:1和SEQ ID NO:2所示。

在一些实施例中，用于扩增MIR663A_66的引物对如SEQ ID NO:1和SEQ ID NO:2所示。

在一些实施例中，用于扩增FHAD1_27的引物对如SEQ ID NO:3和SEQ ID NO:4所示。

在一些实施例中，用于扩增SOX1-OT_58的引物对如SEQ ID NO:5和SEQ ID NO:6所示。

在一些实施例中，用于扩增IGFBP3_36的引物对如SEQ ID NO:7和SEQ ID NO:8所示。

在一些实施例中，用于扩增POU4F2_74的引物对如SEQ ID NO:9和SEQ ID NO:10所示。

在一些实施例中，用于扩增ZNF154_95的引物对如SEQ ID NO:11和SEQ ID NO:12所示。

在一些实施例中，用于扩增FEZF2_31的引物对如SEQ ID NO:13和SEQ ID NO:14所示。

在一些实施例中，用于扩增APC_20的引物对如SEQ ID NO:15和SEQ ID NO:16所示。

在一些实施例中，所述前列腺癌早期筛查或前列腺癌患病风险预测的方法包括：获取受试者生物样本中所述DNA甲基化位点组合的甲基化水平；基于所述DNA甲基化位点组合的甲基化水平，使用筛查模型评估所述受试者是否可能患有早期前列腺癌或存在发展前列腺癌的风险。

在一些实施例中，所述筛查模型为基于所述DNA甲基化位点组合的甲基化阈值的模型。

在一些实施例中，所述评估包括：

对于所述DNA甲基化位点组合中的每个DNA甲基化位点，对比所述DNA甲基化位点的甲基化率与对应所述DNA甲基化位点的甲基化阈值，确定所述DNA甲基化位点组合的阳性位点数量；

基于所述阳性位点数量获得评估结果，其中，所述阳性位点数量≥1指示所述受试者可能患有早期前列腺癌或存在发展前列腺癌的风险。

在一些实施例中，确定所述DNA甲基化位点的甲基化阈值的方法包括：

获取训练样本集，所述训练样本集包括已知的前列腺癌患者和非前列腺癌患者的所述DNA甲基化位点的甲基化率；

使用ROC曲线对所述训练样本集进行分析，确定用于区分所述前列腺癌患者和所述非前列腺癌患者的截止值，以所述截止值作为所述DNA甲基化位点的甲基化阈值。

在一些实施例中，MIR663A_42的甲基化阈值为0.3551；MIR663A_66的甲基化阈值为0.2713；FHAD1_27的甲基化阈值为0.2351；SOX1-OT_58的甲基化阈值为0.0972；IGFBP3_36的甲基化阈值为0.2084；POU4F2_74的甲基化阈值为0.2473；ZNF154_95的甲基化阈值为0.1835；FEZF2_31的甲基化阈值为0.2873；APC_20的甲基化阈值为0.0827。

在一些实施例中，所述筛查模型为机器学习模型或深度学习模型。

在一些实施例中，所述生物样本来自于受试者的尿液；较优地，所述生物样本来自于受试者尿液的有形成分。

本说明书一个或多个实施例还提供一种用于前列腺癌早期筛查或前列腺癌患病风险预测的装置，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下方法：

获取受试者生物样本中DNA甲基化位点组合的甲基化水平，其中，所述DNA甲基化位点组合包括以下组中的一个或多个：

位于MIR663A基因上染色体坐标为chr20:26189060的位点MIR663A_42、位于MIR663A基因上染色体坐标为chr20:26189036的位点MIR663A_66、位于FHAD1基因上染色体坐标为chr1:15573597的位点FHAD1_27、位于SOX1-OT基因上染色体坐标为chr13:112710855的位点SOX1-OT_58、位于IGFBP3基因上染色体坐标为chr7:45961083的位点IGFBP3_36、位于POU4F2基因上染色体坐标为chr4:147560132的位点POU4F2_74、位于ZNF154基因上染色体坐标为chr19:58220425的位点ZNF154_95、位于FEZF2基因上染色体坐标为chr3:62356954的位点FEZF2_31和位于APC基因上染色体坐标为chr5:112073348的位点APC_20；

基于所述DNA甲基化位点组合的甲基化水平，使用筛查模型评估所述受试者是否可能患有早期前列腺癌或存在发展前列腺癌的风险。

本说明书一个或多个实施例还提供一种DNA甲基化位点组合的检测试剂，所述DNA甲基化位点组合作为生物标志物用于检测前列腺癌，其特征在于，所述检测试剂包括用于扩增所述DNA甲基化位点组合的引物组，所述DNA甲基化位点组合包括以下组中的一个或多个：位于MIR663A基因上染色体坐标为chr20:26189060的位点MIR663A_42；位于MIR663A基因上染色体坐标为chr20:26189036的位点MIR663A_66；位于FHAD1基因上染色体坐标为chr1:15573597的位点FHAD1_27；位于SOX1-OT基因上染色体坐标为chr13:112710855的位点SOX1-OT_58；位于IGFBP3基因上染色体坐标为chr7:45961083的位点IGFBP3_36；位于POU4F2基因上染色体坐标为chr4:147560132的位点POU4F2_74；位于ZNF154基因上染色体坐标为chr19:58220425的位点ZNF154_95；位于FEZF2基因上染色体坐标为chr3:62356954的位点FEZF2_31；位于APC基因上染色体坐标为chr5:112073348的位点APC_20。

在一些实施例中，所述检测试剂还包括检用于测所述DNA甲基化位点组合的甲基化水平的其他试剂；所述其他试剂包括选自以下方法中的一种或多种所用的试剂：全基因组重亚硫酸盐测序法(WGBS)、简化基因组重亚硫酸盐测序法(RRBS)、氧化-重亚硫酸盐测序法(oxBS-seq)、甲基化DNA捕捉测序法(Met hylCap-seq)、甲基结合蛋白测序法(MBD-seq)、甲基化DNA免疫共沉淀测序法(MeDIP-seq)、高效液相色谱法(HPLC)、甲基化敏感的限制性指纹法(MSRF)、甲基化敏感扩增多态性法(MASP)、甲基化芯片法、焦磷酸测序法、数字PCR法(dPCR)和甲基化特异PCR法(MS-PCR)。

本说明书一个或多个实施例还提供一种用于前列腺癌早期筛查或前列腺癌患病风险预测的试剂盒。所述试剂盒包含如前文所述的检测试剂。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的一种用于前列腺癌早期筛查或前列腺癌患病风险预测的系统的应用场景图；

图2是根据本说明书一些实施例所示的计算设备的架构的示意图；

图3是根据本说明书一些实施例所示的用于前列腺癌早期筛查或前列腺癌患病风险预测的系统的模块图；

图4是根据本说明书一些实施例所示的前列腺癌早期筛查或前列腺癌患病风险预测的方法的流程示意图；

图5是根据本说明书一些实施例所示的确定DNA甲基化位点的甲基化阈值的流程示意图；

图6是根据本说明书一些实施例所示的训练样本集292个DNA甲基化位点的甲基化率热图；

图7是根据本说明书一些实施例所示的训练样本集133个差异DNA甲基化位点的甲基化率热图；

图8A是根据本说明书一些实施例所示的使用训练样本集的MIR663A_42甲基化率制作的ROC曲线图；

图8B是根据本说明书一些实施例所示的使用训练样本集的MIR663A_66甲基化率制作的ROC曲线图；

图8C是根据本说明书一些实施例所示的使用训练样本集的FHAD1_27甲基化率制作的ROC曲线图；

图8D是根据本说明书一些实施例所示的使用训练样本集的SOX1-OT_58甲基化率制作的ROC曲线图；

图8E是根据本说明书一些实施例所示的使用训练样本集的IGFBP3_36甲基化率制作的ROC曲线图；

图8F是根据本说明书一些实施例所示的使用训练样本集的POU4F2_74甲基化率制作的ROC曲线图；

图8G是根据本说明书一些实施例所示的使用训练样本集的ZNF154_95甲基化率制作的ROC曲线图；

图8H是根据本说明书一些实施例所示的使用训练样本集的FEZF2_31甲基化率制作的ROC曲线图；

图8I是根据本说明书一些实施例所示的使用训练样本集的APC_20甲基化率制作的ROC曲线图；

图9A是根据本说明书一些实施例所示的使用约登指数设定阈值的筛查模型在训练样本集上的ROC曲线图；

图9B是根据本说明书一些实施例所示的使用特异性设定阈值的筛查模型在训练样本集上的ROC曲线图；

图9C根据本说明书一些实施例所示的使用特异性设定阈值的筛查模型在验证样本集上的ROC曲线图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

DNA甲基化是DNA化学修饰的形式之一，是指在DNA甲基化转移酶(DNMTs)作用下，甲基基团(CH3-)共价结合到CpG结构的胞嘧啶第5位碳原子上的过程，常发生在基因启动子CpG岛区域，是重要的表观遗传学标志。已有的研究表明，异常的DNA甲基化是导致各类癌症发生的重要影响因素。例如，部分肿瘤相关基因的启动子区域的高甲基化会抑制相应基因的表达，反之，低甲基化会促进相应基因的表达。本说明书提出可以以DNA甲基化位点组合作为前列腺癌标志物，进行前列腺癌早期筛查/诊断、前列腺癌患病风险预测、前列腺癌预后预测、前列腺癌相关药物评估。该DNA甲基化位点组合的检测样本可广泛来源于受试者的体液、细胞、组织和器官，特别是受试者的尿液，能够用于实现准确、快速、无创的前列腺癌早期筛查、患病风险预测、预后预测及药物评估。

本说明书提供一种前列腺癌早期筛查或前列腺癌患病风险预测的方法，及其系统和装置，所述方法、系统和装置基于前述DNA甲基化位点组合的相关甲基化水平评估受试者患早期前列腺癌的可能性或发展前列腺癌的风险。

本说明书还提供一种DNA甲基化位点组合的检测试剂，包括扩增前述DNA甲基化位点组合的试剂，能够在包括前列腺癌早期筛查/诊断、前列腺癌患病风险预测等在内的多个方面进行广泛应用。

本说明书还提供一种用于前列腺癌早期筛查或前列腺癌患病风险预测的试剂盒。

本说明书还提供DNA甲基化位点组合作为生物标志物的相关用途，以及DNA甲基化位点组合的检测试剂的相关用途。所述用途包括但不限于在制备用于前列腺癌早期筛查的试剂盒中的用途，在制备用于前列腺癌患病风险预测的试剂盒中的用途、在制备用于前列腺癌预后预测的试剂盒中的用途，在制备用于前列腺癌相关药物筛选的试剂盒中的用途等，能够兼顾及提高筛查、预测、筛选的敏感度和特异性。

根据本说明书的一方面，提供一种用于前列腺癌早期筛查或前列腺癌患病风险预测的系统。图1是根据本说明书一些实施例所示的一种用于前列腺癌早期筛查或前列腺癌患病风险预测的系统的应用场景图。如图1所示，场景100可以包括处理设备110和存储设备120。

处理设备110可以处理数据和/或信息。在一些实施例中，处理设备110可以从存储设备120或场景100的其他组件(例如，用户终端140、检测设备160)处获得数据和/或信息，并基于这些信息和/或数据执行程序指令，以执行一个或多个本说明书中描述的功能。例如，处理设备110可以从存储设备120处获取训练样本集，并基于训练样本集构建筛查模型。又例如，处理设备110可以获取检测设备160测得的受试者生物样本150的DNA甲基化位点组合的甲基化水平相关信息，并调用存储在存储设备120处的筛查模型处理该甲基化水平相关信息，以评估受试者患有早期前列腺癌的可能性或发展前列腺癌的风险。在一些实施例中，处理设备110可以为服务器或中央处理器。

存储设备120可以用于存储数据和/或信息。在一些实施例中，存储设备120可以存储从处理设备110或场景100的其他组件(例如，用户终端140、检测设备160)处获得数据和/或信息。例如，存储设备120可以存储筛查模型，以备处理设备110调用。又例如，存储设备120可以从检测设备160处获取并存储受试者生物样本150的DNA甲基化位点组合的甲基化水平相关信息。再例如，存储设备120可以接收并存储用户终端140上传的信息，如受试者的身份信息等。

在一些实施例中，场景100还包括网络130。网络130可以用于提供信息交换的渠道。在一些实施例中，处理设备110和场景100的其他组件(例如，存储设备120、用户终端140、检测设备160)之间可以通过网络130交换信息。例如，处理设备110可以通过网络130接收存储设备120中的数据。又例如，检测设备160测得的受试者生物样本150的DNA甲基化位点组合的甲基化水平相关信息可以通过网络传输至处理设备110。在一些实施例中，网络130可以是有线网络或无线网络中的任意一种或多种。例如，网络130可以包括电缆网络、光纤网络等。在一些实施例中，网络130可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中，网络130可以包括一个或以上网络接入点。例如，通过基站和/或一个或多个网络交换点等进出点，场景100的一个或多个组件可连接到网络130上以交换数据和/或信息。

在一些实施例中，场景100还包括用户终端140。用户终端140可用于实现场景100向用户提供的服务。例如，用户可以通过用户终端140向处理设备110发送受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。又例如，用户可以通过用户终端140接收处理设备110发送的受试者的评估结果。再例如，用户可以通过用户终端140向处理设备110发送受试者的临床检测结果，以使处理设备110基于受试者的临床检测结果更新训练样本集，并进行筛查模型的迭代。在一些实施例中，用户终端140可以包括智能手机140-1、平板计算机140-2、膝上型计算机140-3等或其他具有输入和/或输出功能的设备中的一种或其任意组合。

在一些实施例中，场景100还包括检测设备160，用于检测生物样本150的DNA甲基化位点组合的甲基化水平。作为示例，检测设备可以包括实现以下一种或多种方法的装置：WGBS、RRBS、oxBS-seq、MethylCap-seq、MBD-seq、MeDIP-seq、HPLC、MSRF、MASP、甲基化芯片法、焦磷酸测序法、dP CR和MS-PCR。

根据本说明书的又一方面，提供一种计算设备。图2是根据本说明书一些实施例所示的计算设备的架构的示意图。如图2所示，计算设备200包括处理器210、存储器220、输入/输出接口230和通信端口240。在一些实施例中，计算设备200可以实现处理设备110和/或存储设备120。例如，处理设备110可以在计算设备200上实现，并且计算设备200被配置为执行本说明书描述的处理设备110的功能。在一些实施例中，用于前列腺癌早期筛查或前列腺癌患病风险预测的装置可以在计算设备200中实现。

处理器210可以执行计算指令(程序代码)并执行本说明书描述的处理设备110的功能。计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能(功能指本申请中描述的特定功能)。例如，处理器210可以处理用户输入的前列腺癌早期筛查或前列腺癌患病风险预测的可能性的指令。在一些实施例中，计算设备200可以包括一个或多个处理器210；处理器210可以包括中央处理器(CPU)、专用集成电路(ASIC)以及能够执行一个或多个功能的任何电路和处理器等，或者任意组合。

存储器220可以存储从场景100的任何组件处获得的数据/信息。在一些实施例中，存储器220可以包括随机存取存储器(RAM)、只读存储器(ROM)等，或其任意组合。

输入/输出接口230可以用于输入或输出信号、数据或信息。在一些实施例中，输入/输出接口230可以用于实现用户(例如，受试者、操作者等)与处理设备210的交互行为。在一些实施例中，用户可以通过输入/输出接口230输入受试者的相关信息(例如，DNA甲基化位点组合的甲基化水平相关信息，以及姓名、年龄等基础身份信息)。在一些实施例中，输入/输出接口230可以包括输入装置和输出装置。例如，键盘、鼠标、显示设备、麦克风和扬声器等。

通信端口240可以连接到网络130以便进行数据通信。连接可以是有线连接、无线连接或两者的组合，例如通过电缆、光缆、移动网络、WIFI、WLAN或蓝牙等连接。在一些实施例中，通信端口240可以是标准化端口，如RS232、RS485等。在一些实施例中，通信端口240可以是专门设计的端口。

图3是根据本说明书一些实施例所示的用于前列腺癌早期筛查或前列腺癌患病风险预测的系统的模块图。如图3所示，用于前列腺癌早期筛查或前列腺癌患病风险预测的系统300包括获取模块310和分析模块320。

获取模块310可以用于获取受试者生物样本中DNA甲基化位点组合的甲基化水平，例如，所述DNA甲基化位点组合可以包括MIR663A_42、MIR663A_66、FHAD1_27、SOX1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20中的一个或多个位点。

在一些实施例中，获取模块310可以包括检测单元和信息处理单元。检测单元可以用于对受试者的生物样本进行DNA甲基化检测。示例性的，检测单元可以包括实现以下一种或多种方法的装置：WGB S、RRBS、oxBS-seq、MethylCap-seq、MBD-seq、MeDIP-seq、HPLC、MSRF、MASP、甲基化芯片法、焦磷酸测序法、dPCR和MS-PCR。信息处理单元可以用于处理检测单元的检测数据，以获得受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。

分析模块320可以用于基于受试者生物样本的DNA甲基化位点组合的甲基化水平，使用筛查模型评估受试者是否可能患有早期前列腺癌或存在发展前列腺癌的风险。在一些实施例中，分析模块320可以用于使用基于DNA甲基化位点组合的甲基化阈值的模型进行评估。在一些实施例中，分析模块320可以用于使用基于机器学习算法或深度学习算法构建的模型进行评估。

在一些实施例中，系统300还包括确定模块330。确定模块330可以用于获取训练样本集，训练样本集包括已知的前列腺癌患者和非前列腺癌患者的DNA甲基化位点的甲基化率；以及使用ROC曲线对训练样本集进行分析，确定用于区分前列腺癌患者和非前列腺癌患者的截止值，以该截止值作为所述DN A甲基化位点的甲基化阈值。

关于系统300各模块实现其功能的更多内容可以在本说明书其他地方找到(例如，图4、图5及其描述)。

应当理解，图3所示的前列腺癌早期筛查或前列腺癌患病风险预测的系统300及其模块可以利用各种方式来实现。例如，在一些实施例中，系统300及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于系统300及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。在一些实施例中，图3中披露的获取模块、分析模块和训练模块可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

根据本说明书的又一方面，提供一种前列腺癌早期筛查或前列腺癌患病风险预测的方法。图4是根据本说明书一些实施例所示的前列腺癌早期筛查或前列腺癌患病风险预测的方法的流程示意图。如图4所示，流程400包括步骤401和步骤403。在一些实施例中，流程400中的至少一部分步骤(例如步骤401、步骤403)可以由计算设备(如图2所示的计算设备200，图1所示的处理设备110)完成。例如，流程400中的至少一部分步骤可以被实现为存储在存储设备120、存储器220中的一个指令(例如，应用程序)。图1中的处理设备110，图2中的处理器210和/或模块可以执行该指令，并且在执行指令时，处理设备110、处理器210和/或模块可以被配置为执行流程400。以下所示过程的操作仅出于说明的目的。在一些实施例中，流程400可以利用未描述的一个或以上附加操作和/或未描述的一个或以上操作来完成。另外，图4所示和以下描述的过程的操作顺序并非旨在限制。

在步骤401，可以获取受试者生物样本中DNA甲基化位点组合的甲基化水平。在一些实施例中，步骤401可以由计算设备(例如，图1的处理设备110、图3的获取模块310)执行。

在一些实施例中，患有前列腺癌(例如，早期前列腺癌)的受试者的生物样本中DNA甲基化位点组合的甲基化水平可区别于非前列腺癌受试者(或称正常受试者)的生物样本中DNA甲基化位点组合的甲基化水平。

如本文所用，术语“受试者”(或称“个体”)是指接受观察、检测或实验的对象。在一些实施例中，受试者可以是哺乳动物。哺乳动物包括但不限于灵长类(包括人和非人灵长类)以及啮齿动物(例如，小鼠和大鼠)。在一些实施例中，哺乳动物可以是人。

术语“生物样本”(或称“样本”、“样品”)是指分离自受试者的器官、组织、细胞和/或体液的组合物，该组合物包含一种或多种目标分析物(例如，核酸、代谢物等)。在一些实施例中，生物样本来自于受试者的体液。体液包括但不限于全血、血浆、血清、组织液、唾液、尿液、灌洗液(例如，膀胱灌洗液)、前列腺液、精液等，或其组合。在一些实施例中，样本来自受试者尿液，特别是尿液的有形成分。尿液有形成分可包含循环游离核酸(例如，来源于前列腺的循环游离DNA(cfDNA))、循环肿瘤细胞(CTCs)(例如，前列腺肿瘤释放的肿瘤细胞)和脱落细胞(例如，尿路系统脱落的细胞)中的一种或多种。

术语“甲基化水平”是评价DNA甲基化位点的甲基化状态的指标。在一些实施例中，甲基化水平可以通过DNA甲基化位点发生甲基化的频率、比例或百分数来定量描述。

在一些实施例中，所述DNA甲基化位点组合适于检测不同阶段的前列腺癌，例如早期(例如，Ⅰ期、II期)和晚期(例如，Ⅲ期、Ⅳ期)。在一些较优的实施例中，所述DNA甲基化位点组合适于区分早期前列腺癌群体和正常群体，其中，早期前列腺癌包括Ⅰ期前列腺癌和II期前列腺癌。

所述DNA甲基化位点组合包括一个或多个DNA甲基化位点。如本文所使用，术语“DNA甲基化位点”(或称“甲基化位点”)是指在基因组DNA的CpG二核苷酸的胞嘧啶第5'碳位共价结合一个甲基基团，成为5-甲基胞嘧啶(5mC)。在一些实施例中，所述DNA甲基化位点组合中的每个DNA甲基化位点的甲基化状态可以与前列腺癌的发生、发展相关，所述DNA甲基化位点组合的DNA甲基化位点可位于前列腺癌相关基因(例如，已知的或可能潜在的前列腺癌抑癌基因)上。前列腺癌相关基因的非限制性实例可以包括但不限于：APC(NCBI GeneID:324)、RASSF1A(NCBI Gene ID:11186)、SOX1-OT(NCBI Gene ID:100505996)、PI15(NCBIGene ID:51050)、FHAD1(NCBI Gene ID:114827)、KLHL8(NCBI Gene ID:57563)、ALKBH5(NCBI Gene ID:54890)、ATP11A(NCBI Gene ID:23250)、MIR663A(NCBI Gene ID:724033)、MIR1258(NCBI Gene ID:100302172)、MIR152(NCBI Gene ID:406943)、MIR34B/C(NCBIGene ID:407041和407042)、MIR129-2(NCBI Gene ID:406918)、MIR193B(NCBI Gene ID:574455)、ACSS3(NCBI Gene ID:79611)、CRABP2(NCBI Gene ID:1382)、DHRS4L2(NCBI GeneID:317749)、HOXA7(NCBI Gene ID:3204)、NKX2-6(NCBI Gene ID:137814)、SCGB3A1(NCBIGene ID:92304)、SERPINB1(NCBI Gene ID:1992)、IGFBP3(NCBI Gene ID:3486)、EOMES(NCBI Gene ID:8320)、HOXA9(NCBI Gene ID:3205)、POU4F2(NCBI Gene ID:5458)、TWIST1(NCBI Gene ID:7291)、ZNF154(NCBI Gene ID:7710)、GSTP1(NCBI Gene ID:2950)、FEZF2(NCBI Gene ID:55079)、HAND2(NCBI Gene ID:9464)、OTX1(NCBI Gene ID:5013)、ULBP1(NCBI Gene ID:80329)或VIM(NCBI Gene ID:7431)。

在一些实施例中，所述DNA甲基化位点组合可以包含位于APC、RASSF1A、SOX1-OT、PI15、FHAD1、KLHL8、ALKBH5、ATP11A、MIR663A、MIR1258、MIR152、MIR34B/C、MIR129-2、MIR193B、ACSS3、CRABP2、DHRS4L2、HOXA7、NKX2-6、SCGB3A1、SERPINB1、IGFBP3、EOMES、HOXA9、POU4F2、TWIST1、ZNF154、GSTP1、FEZF2、HAND2、OTX1、ULBP1和/或VIM上的一个或多个DNA甲基化位点。

所述DNA甲基化位点组合中的每个DNA甲基化位点的甲基化水平均与前列腺癌(例如，早期前列腺癌)显著相关。可以理解的是，对于所述DNA甲基化位点组合中的每个DNA甲基化位点而言，其在已知的前列腺癌(例如，早期前列腺癌)群体中的甲基化水平与在正常群体中的甲基化水平之间存在显著性差异。

在一些实施例中，所述DNA甲基化位点组合可以包含以下组中的至少1个、2个、3个、4个、5个、6个、7个、8个或9个位点：位于MIR663A基因上染色体坐标为chr20:26189060的位点MIR663A_42；位于MIR663A基因上染色体坐标为chr20:26189036的位点MIR663A_66；位于FHAD1基因上染色体坐标为chr1:15573597的位点FHAD1_27；位于SOX1-OT基因上染色体坐标为chr13:112710855的位点SOX1-OT_58；位于IGFBP3基因上染色体坐标为chr7:45961083的位点IGFBP3_36；位于POU4F2基因上染色体坐标为chr4:147560132的位点POU4F2_74；位于ZNF154基因上染色体坐标为chr19:58220425的位点ZNF154_95；位于FEZF2基因上染色体坐标为chr3:62356954的位点FEZF2_31；位于APC基因上染色体坐标为chr5:112073348的位点APC_20。

需要说明的是，本文所用染色体坐标信息来源于人类参考基因组hg19(GRCh37)。

在一些较优的实施例中，所述DNA甲基化位点组合可以包括MIR663A_42、MIR663A_66、FHA D1_27、SOX1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20。可选的，所述DN A甲基化位点组合还可以包括一个或多个其他前列腺癌相关基因上的DNA甲基化位点。

在一些更优的实施例中，所述DNA甲基化位点组合可以由MIR663A_42、MIR663A_66、FHAD1_27、SOX1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20组成。

本说明书一些实施例提供的DNA甲基化位点组合的甲基化水平与前列腺癌之间存在显著的相关性。该DNA甲基化位点组合的甲基化状态可以被量化，并用于衡量DNA甲基化位点组合的甲基化水平。包含该DNA甲基化位点组合的样本可广泛地采集自受试者的器官、组织、细胞和体液等，特别是可以采集自受试者的尿液进行舒适性较高的无创检测。该DNA甲基化位点组合作为前列腺癌标志物在前列腺癌早期筛查/诊断、前列腺癌患病风险预测、前列腺癌预后预测、前列腺癌相关药物评估等方面的应用可实现筛查/诊断、预测、评估的敏感度和特异性的提高。

在一些实施例中，DNA甲基化位点组合的甲基化水平可以通过使用DNA甲基化位点组合的检测试剂检测受试者生物样本而获得。DNA甲基化位点组合的检测试剂用于实现DNA甲基化位点组合甲基化水平的检测。

关于DNA甲基化位点组合的检测试剂的更多内容可以在本说明书的其他地方找到。

计算设备(例如，图1的处理设备110、图3的获取模块310)可通过多种方式实现步骤401的执行。在一些实施例中，处理设备110可调用存储在存储设备120中的受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。例如，受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息由用户终端140经网络130上传至存储设备120，处理设备110可调用并获取该甲基化水平相关信息用于进一步的分析评估。在一些实施例中，处理设备110可以接收检测设备160检测获得的受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。例如，处理设备110向检测设备160(例如，PCR仪和/或NGS测序仪)发送检测指令，检测设备160基于该检测指令检测获得受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息，并将该甲基化水平相关信息发送至处理设备110。在一些实施例中，处理设备110可基于用户输入获得受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。

在步骤403中，可以基于受试者生物样本中DNA甲基化位点组合的甲基化水平，使用筛查模型评估受试者是否可能患有早期前列腺癌或存在发展前列腺癌的风险。在一些实施例中，步骤403可以由计算设备(例如，图1的处理设备110、图3的分析模块320)执行。

在一些实施例中，筛查模型可以是基于DNA甲基化位点组合的甲基化阈值的模型(或称阈值模型)。阈值模型可以通过阈值判断划分受试者生物样本的类型，实现对患癌可能性或发展癌症风险的评估。在一些实施例中，使用阈值模型进行评估可包括阳性位点判断步骤和综合评估步骤。

在阳性位点判断步骤中，对于受试者生物样本的DNA甲基化位点组合中的每个DNA甲基化位点，对比该DNA甲基化位点的甲基化率与对应该DNA甲基化位点的甲基化阈值，确定DNA甲基化位点组合的所有DNA甲基化位点中阳性位点数量。

在一些实施例中，DNA甲基化位点组合的甲基化水平可通过甲基化率来定量描述。甲基化率的确定方式可以基于具体的甲基化检测方法来设置。在一些实施例中，受试者生物样本的DNA甲基化位点组合的甲基化水平通过甲基化转化(例如，使用甲基化转化试剂(例如，重亚硫酸盐)使DNA甲基化位点中的非甲基化胞嘧啶转化为胸腺嘧啶，甲基化胞嘧啶不发生转化)、特异性扩增和测序进行检测。对于DNA甲基化位点组合的每个DNA甲基化位点，其甲基化率可以通过以下公式(1)确定：

甲基化率＝NumC/(NumC+NumT) (1)

其中，NumC代表包含特定DNA甲基化位点的所有测序读段(reads)中，该特定DNA甲基化位点为胞嘧啶的读段数量；NumT代表包含特定DNA甲基化位点的所有测序读段中，该特定DNA甲基化位点为胸腺嘧啶的读段数量。

可以理解的是，在另一些实施例中，可使用其他甲基化率确定方式以匹配对应甲基化检测方法，只要能达到定量描述DNA甲基化位点组合的甲基化水平的目的即可。

甲基化阈值可用于作为评价DNA甲基化位点的甲基化水平的界限。在一些实施例中，DNA甲基化位点组合中单个DNA甲基化位点的甲基化率大于或等于对应该DNA甲基化位点的甲基化阈值，则可以判断该DNA甲基化位点为阳性位点。反之则为阴性位点。

关于确定DNA甲基化位点的甲基化阈值的更多内容可以在本说明书其他地方找到(例如，图5及其描述)。

在综合评估步骤中，基于受试者生物样本的DNA甲基化位点组合的阳性位点数量获得评估结果。其中，若阳性位点数量≥1，则可以判断该受试者可能患有早期前列腺癌，或者该受试者可能存在发展前列腺癌的风险。反之，则可以排除该受试者患有早期前列腺癌的可能性，或者排除该受试者发展前列腺癌的风险。

受试者发生、发展前列腺癌的可能性可以通过DNA甲基化位点组合的阳性位点数量来定性评价。作为示例，DNA甲基化位点组合可以包含2个或以上DNA甲基化位点(例如，MIR663A_42、MIR663A_66、FHAD1_27、SOX1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20中的2个或以上)。该2个或以上DNA甲基化位点中的任意一个为阳性位点，即指示受试者可能患有早期前列腺癌，或者该受试者可能存在发展前列腺癌的风险；该2个或以上DNA甲基化位点全部为阴性位点，即指示可排除受试者患有早期前列腺癌的可能性或发展前列腺癌的风险。

在一些实施例中，筛查模型可以是机器学习模型或深度学习模型。可用于构建筛查模型的机器学习算法和深度学习算法的非限制性实例包括但不限于支持向量机算法、逻辑回归算法模型、决策树算法、k-近邻算法、k-均值算法、卷积神经网络算法、线性回归算法、循环神经网络算法等，或其组合。

在一些实施例中，使用机器学习算法或深度学习算法构建的筛查模型的输入可以是受试者生物样本的DNA甲基化位点组合的甲基化率，筛查模型的输出可以是受试者患有前列腺癌(例如，早期前列腺癌)的概率或受试者发展前列腺癌的概率。筛查模型可以使用训练样本集训练初始模型而获得。其中，训练样本集可以包括一个或多个已知的前列腺癌患者(例如，早期前列腺癌)样本的DNA甲基化位点组合的甲基化率和非前列腺癌患者(例如，健康人)样本的DNA甲基化位点组合的甲基化率，以及用于指示样本对象是否患有前列腺癌的标签。术语“已知的前列腺癌患者”是指对象或个体具有前列腺癌临床症状且获得临床诊断验证(例如，已通过活体组织检查证实疾病类型及性质)。术语“非前列腺癌患者”是指对象或个体未罹患前列腺癌且日常生活无障碍。

示例性的，用于训练筛查模型的训练样本集中，前列腺癌患者样本的标签可以为1，非前列腺癌患者样本的标签可以为0。以受试者生物样本的DNA甲基化位点组合的甲基化率作为模型输入，相应的筛查模型输出的评估值可以在0到1之间，评估值越接近1，指示受试者患有前列腺癌的概率或者受试者发展前列腺癌的概率越高。

计算设备(例如，图1的处理设备110、图3的分析模块320)可通过多种方式实现步骤403的执行。在一些实施例中，处理设备110可以调用存储在存储设备120中的筛查模型，并使用该筛查模型处理受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息，以获得评估结果。在另一些实施例中，处理设备110可以基于用户指令更新存储在存储设备120中的筛查模型，并使用更新的筛查模型获得评估结果。其中，处理设备110可以通过网络130从公开或非公开的数据库收集前列腺癌群体和正常群体的关联DNA甲基化位点组合的甲基化水平相关信息，用于更新训练样本集并进行筛查模型的优化。处理设备110还可以基于用户输入或基于用户终端140上传的数据/信息更新训练样本集，并进行筛查模型的优化。

应当注意的是，上述有关流程400的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程400进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

图5是根据本说明书一些实施例所示的确定DNA甲基化位点的甲基化阈值的流程示意图。如图5所示，流程500包括步骤501和步骤503。在一些实施例中，流程500可以由计算设备(例如，图1的处理设备110、图3的确定模块330)执行。

在步骤501中，处理设备110(例如，确定模块330)可以获取训练样本集，训练样本集包括已知的前列腺癌患者和非前列腺癌患者的DNA甲基化位点的甲基化率。

在一些实施例中，已知的前列腺癌患者可以包括早期前列腺癌患者和晚期前列腺癌患者。已知的前列腺癌患者可以是确诊后未接受治疗的个体，也可以是确诊后已接受治疗的个体。在一些较优的实施例中，已知的前列腺癌患者是早期前列腺癌患者。

在步骤503中，处理设备110(例如，确定模块330)可以使用ROC曲线对训练样本集进行分析，确定用于区分前列腺癌患者和非前列腺癌患者的截止值，以截止值作为DNA甲基化位点的甲基化阈值。

术语“ROC曲线”(或称受试者工作特征曲线)是以实验敏感度(真阳性率)为纵坐标，以1-特异性(假阳性率)为横坐标，绘制的曲线。ROC曲线可以用于选择最佳截止值(或称临界值)，以及评价模型性能。在一些实施例中，可以针对单个DNA甲基化位点，使用训练样本集的甲基化率数据制作ROC曲线，并基于适应应用需求的截止值选取方式确定适合的甲基化阈值。

在一些实施例中，截止值选取方式可以是使用约登指数(敏感度+特异性-1)最大值对应的甲基化率数值作为截止值。在另一些实施例中，截止值选取方式可以是使用敏感度设置值对应的甲基化率数值作为截止值，例如敏感度设置值为90％～100％。在又一些实施例中，截止值选取方式可以是使用特异性设置值对应的甲基化率数值作为截止值，例如特异性设置值为90％～100％。

在一些较优的实施例中，为减少筛查模型引起的过度诊断问题，平衡筛查模型的特异性和敏感度，可以使用特异性设置值对应的甲基化率数值作为截止值。更优的，特异性设置值可以为90％～100％。

在一些实施例中，在特异性90％～100％范围内时，适合作为MIR663A_42甲基化阈值的截止值可以是在0.325～0.375之间的值，优选为0.3551。

在一些实施例中，在特异性90％～100％范围内时，适合作为MIR663A_66甲基化阈值的截止值可以是在0.25～0.3之间的值，优选为0.2713。

在一些实施例中，在特异性90％～100％范围内时，适合作为FHAD1_27甲基化阈值的截止值可以是在0.2～0.25之间的值，优选为0.2351。

在一些实施例中，在特异性90％～100％范围内时，适合作为SOX1-OT_58甲基化阈值的截止值可以是在0.075～0.125之间的值，优选为0.0972。

在一些实施例中，在特异性90％～100％范围内时，适合作为IGFBP3_36甲基化阈值的截止值可以是在0.175～0.225之间的值，优选为0.2084。

在一些实施例中，在特异性90％～100％范围内时，适合作为POU4F2_74甲基化阈值的截止值可以是在0.225～0.275之间的值，优选为0.2473。

在一些实施例中，在特异性90％～100％范围内时，适合作为ZNF154_95甲基化阈值的截止值可以是在0.15～0.2之间的值，优选为0.1835。

在一些实施例中，在特异性90％～100％范围内时，适合作为FEZF2_31甲基化阈值的截止值可以是在0.25～0.3之间的值，优选为0.2873。

在一些实施例中，在特异性90％～100％范围内时，适合作为APC_20甲基化阈值的截止值可以是在0.05～0.1之间的值，优选为0.0827。

在一些实施例中，本说明书提供的筛选模型的AUC可以大于0.8、0.85或0.9。在一些实施例中，本说明书提供的筛选模型的敏感度可以大于80％、85％、90％或95％。在一些实施例中，本说明书提供的筛选模型的特异性可以大于80％、85％、90％或95％。

图9B示出了根据本说明书一些实施例所示的使用特异性设定阈值的筛查模型在训练样本集上的ROC曲线。图9C示出了根据本说明书一些实施例所示的使用特异性设定阈值的筛查模型在验证样本集上的ROC曲线。该筛查模型为基于DNA甲基化位点组合的甲基化阈值模型，其采用的DNA甲基化位点组合包括MIR663A_42、MIR663A_66、FHAD1_27、SOX1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20，并且该筛查模型采用前述优选的甲基化阈值进行评估分析。如图9B所示，该筛查模型在训练样本集上的AUC为约0.921，敏感度为约84.3％，特异性为100％。如图9C所示，该筛查模型在验证样本集上的AUC为1，敏感度和特异性均为100％。

计算设备(例如，图1的处理设备110、图3的确定模块330)可通过多种方式实现流程500的执行。在一些实施例中，处理设备110可以调用存储在存储设备120中的训练样本集，并基于预设的截止值选取方式确定DNA甲基化位点的甲基化阈值。在另一些实施例中，处理设备110可以基于用户修改截止策略的指令，调用存储在存储设备120中的训练样本集重新确定DNA甲基化位点的甲基化阈值。在又一些实施例中，处理设备110可以基于用户指令更新存储在存储设备120中的筛查模型，并使用更新的筛查模型获得评估结果。其中，处理设备110可以实时或定期地通过网络130从公开或非公开的数据库收集前列腺癌群体和正常群体的关联DNA甲基化位点组合的甲基化水平相关信息，用于存储设备120中的训练样本集，并使用更新的训练样本集优化DNA甲基化位点的甲基化阈值。

应当注意的是，上述有关流程500的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程500进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

根据本说明书的又一方面，提供一种用于前列腺癌早期筛查或前列腺癌患病风险预测的装置。所述装置可以包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可实现本说明书一些实施例所示的前列腺癌早期筛查或前列腺癌患病风险预测的方法。

关于前列腺癌早期筛查或前列腺癌患病风险预测的方法的更多内容可以在本说明书其他地方找到(例如，图4、图5及其描述)。

根据本说明书的又一方面，提供一种DNA甲基化位点组合的检测试剂。所述DNA甲基化位点组合可作为生物标志物用于检测前列腺癌，包括MIR663A_42、MIR663A_66、FHAD1_27、SOX1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20中的一个或多个位点。

在一些实施例中，DNA甲基化位点组合的检测试剂包括用于扩增DNA甲基化位点组合的引物组。用于扩增DNA甲基化位点组合的引物组用于获得包含DNA甲基化位点组合的特异性扩增片段，并放大检测信息。

在一些实施例中，用于扩增DNA甲基化位点组合的引物组包括扩增MIR663A_42、MIR663A_66、FHAD1_27、SOX1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20中的一个或多个位点的引物对。可选的，用于扩增MIR663A_42的引物对如SEQ ID NO:1和SEQ ID NO:2所示，或者该引物对的引物序列分别与SEQ ID NO:1和SEQ ID NO:2所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增MIR663A_66的引物对如SEQ ID NO:1和SEQ ID NO:2所示，或者该引物对的引物序列分别与SEQ ID NO:1和SEQ IDNO:2所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增FHAD1_27的引物对如SEQ ID NO:3和SEQ ID NO:4所示，或者该引物对的引物序列分别与SEQ ID NO:3和SEQ ID NO:4所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增SOX1-OT_58的引物对如SEQ ID NO:5和SEQ ID NO:6所示，或者该引物对的引物序列分别与SEQ ID NO:5和SEQ ID NO:6所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增IGFBP3_36的引物对如SEQ ID NO:7和SEQ ID NO:8所示，或者该引物对的引物序列分别与SEQ ID NO:7和SEQ ID NO:8所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增POU4F2_74的引物对如SEQ ID NO:9和SEQ ID NO:10所示，或者该引物对的引物序列分别与SEQ ID NO:9和SEQ ID NO:10所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增ZNF154_95的引物对如SEQ ID NO:11和SEQ ID NO:12所示，或者该引物对的引物序列分别与SEQ ID NO:11和SEQ ID NO:12所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增FEZF2_31的引物对如SEQ ID NO:13和SEQ ID NO:14所示，或者该引物对的引物序列分别与SEQ ID NO:13和SEQID NO:14所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增APC_20的引物对如SEQ ID NO:15和SEQ ID NO:16所示，或者该引物对的引物序列分别与SEQ IDNO:15和SEQ ID NO:16所示序列具有至少95％、96％、97％、98％或99％的相似度。

在一些实施例中，DNA甲基化位点组合的检测试剂还可以包括用于检测甲基化水平的其他试剂，例如甲基化转化试剂和/或测序试剂。作为示例，甲基化水平的检测方法可以包括但不限于WGBS、RRBS、oxBS-seq、MethylCap-seq、MBD-seq、MeDIP-seq、HPLC、MSRF、MASP、甲基化芯片法、焦磷酸测序法、dPCR、MS-PCR等，或其组合。在一些较优的实施例中，其他试剂可以包括实现WGBS、RRBS、oxBS-seq、MethylCap-seq、MBD-seq、MeDIP-seq、HPLC、MSRF、MASP、甲基化芯片法、焦磷酸测序法、dPCR和MS-PCR中的一种或多种方法所用的试剂。在一些更优的实施例中，其他试剂可以包括实现WGBS或RRBS所用的试剂。

根据本说明书的又一方面，提供一种用于前列腺癌早期筛查或前列腺癌患病风险预测的试剂盒。所述试剂盒包含本说明书一些实施例所示的DNA甲基化位点组合的检测试剂。

根据本说明书的又一方面，提供一种DNA甲基化位点组合作为生物标志物或DNA甲基化位点组合的检测试剂在制备用于前列腺癌早期筛查或前列腺癌患病风险预测的试剂盒中的用途。所述DNA甲基化位点组合为本说明书一些实施例所示的DNA甲基化位点组合。

根据本说明书的又一方面，提供一种DNA甲基化位点组合作为生物标志物或DNA甲基化位点组合的检测试剂在制备用于前列腺癌预后预测或前列腺癌相关药物筛选的试剂盒中的用途。所述DNA甲基化位点组合为本说明书一些实施例所示的DNA甲基化位点组合。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂公司购买得到的。以下实施例中的定量试验，均设置三次重复实验，结果取平均值。

实施例

方法

用于DNA甲基化检测分析的尿液样本组

随机选择181名年龄在48至88岁之间的男性受试者建立尿液样本组。将尿液样本组分为两个样本集，即训练样本集和验证样本集。训练样本集包括131名受试者，分为前列腺癌组(共89名早期前列腺癌(包括Ⅰ期和II期)患者)和正常对照组(共42名健康人)。验证样本集包括50名受试者，其中早期前列腺癌(包括Ⅰ期和II期)患者25名，健康人25名。病理诊断和分期是根据美国癌症联合委员会和国际癌症控制联盟维护的肿瘤-淋巴结-转移(TNM)分期系统确定的。

采集受试者晨尿保存于50mL尿液DNA保存管中，保存管内含7.5mL添加剂。尿液收集后，以4000rpm离心10min，弃上清，用1×PBS洗涤沉淀。使用尿液沉淀作为样本。

特异性甲基化位点的统计

统计已知的和/或潜在的前列腺癌相关基因的甲基化位点，共292个，具体信息见表1。

表1-甲基化位点信息表

用于尿液样本组的DNA提取

对于尿液样本组的DNA提取，向上述尿液沉淀样本中加入180μL Buffer GTL，重悬沉淀；再加入20μL蛋白酶K，涡旋震荡混匀。于56℃孵育1小时，直到尿液沉淀完全溶解，继续于90℃孵育1小时。短暂离心，使管壁上的溶液收集到管底。管中加入200μL Buffer GL，涡旋震荡彻底混匀。加入200μL无水乙醇，涡旋震荡彻底混匀。短暂离心，使管壁上的溶液收集到管底。

将管中溶液加入已放置硅基质材料膜的离心管中，向硅基质材料膜上加入500μL已加入无水乙醇的Buffer GW1，12,000rpm离心1分钟，倒掉收集管中的废液，将硅基质材料膜重新放回收集管中。向硅基质材料膜上加入500μL已加入无水乙醇的Buffer GW2，12,000rpm离心1分钟，倒掉收集管中的废液，将硅基质材料膜重新放回收集管中。12,000rpm离心2分钟，倒掉收集管中的废液，将硅基质材料膜置于室温数分钟以彻底晾干。

将硅基质材料膜置于新离心管中，加入50～200μL Buffer GE，室温放置2～5分钟，12000rpm离心1分钟，收集DNA溶液，-20℃保存以备进一步使用。使用微量分光光度计Nano-300和Qubit测定DNA浓度(浓度应不小于1ng/μL)。

用于尿液样本组的DNA甲基化转化

对于尿液样本组的亚硫酸盐转化处理：在PCR管中加入50μL尿液沉淀DNA样本，150μL Bi sulfite Mix，25μL MBuffer B-保护液；短暂离心后，将PCR管置于PCR仪上，85℃恒温孵育50min后冷却至室温，短暂离心。其中，尿液沉淀DNA样本取自前述DNA溶液，50μL尿液沉淀DNA样本中DNA含量为20～1000ng。Bisulfite Mix的配制包括向内含亚硫酸氢钠的干粉管中加入1.2mL MBuffer A-转化液，震荡混匀直至干粉完全溶解。

对于尿液样本组的DNA纯化处理：PCR管中溶液全部导入1.5mL离心管中。离心管中加入285μL MBuffer C-结合液、115μL异丙醇、10μL磁珠悬液(使用前充分混匀)，震荡10min。短暂离心后放入磁力架上吸附2min，弃上清。离心管中加入1000μL MBuffer D-洗涤液，勿离开磁力架，孵育30s，弃上清。离心管中加入1000μL MBuffer E-孵育液，室温孵育15min，短暂离心后放入磁力架上吸附2min，弃上清。离心管中加入1000μL MBuffer D-洗涤液，勿离开磁力架，孵育30s，弃上清，本步骤重复操作一次。将离心管中多余的洗涤液吸干净后，置于超净工作台，吹干5min。

对于尿液样本组的DNA纯化与回收：向离心管中加入50μL MBuffer F-洗脱液，56℃温润，有助于提高洗脱效率，漩涡震荡使其充分混匀，静候5min。短暂离心，放于磁力架上吸附2min。吸取上清于干净的新离心管中，收集DNA溶液作为DNA转化样本，于-20℃保存以备进一步使用。

用于尿液样本组的多重PCR-NGS检测

第一轮PCR，使用针对前述292个甲基化位点设计的特异性引物进行DNA转化样本的PCR反应，甲基化位点的引物的具体信息参见表2。

表2-甲基化位点的引物相关信息

第一轮PCR的反应体系包括：10×ACE buffer，3μL；dNTP Mix(10mM)，1μL；Primer混合引物，5μL；TMAC 600mm，2.5μL；50％甘油，6μL；5×Enhancer，2μL；灭菌水，5μL；Ace Taq酶，0.5μL；DNA转化样本，5μL。

第一轮PCR的反应条件为：1)循环数1：95℃10min；2)循环数35：95℃30s，48℃30s，72℃30s；3)循环数1：72℃5min。

第二轮PCR的反应体系包括：10×ACE buffer，3μL；dNTP Mix(10mM)，1μL；引物AP5(5μM)，2μL；引物Index(5μM)，2μL；50％甘油，6μL；灭菌水，10.5μL；Ace Taq酶，0.5μL；第一轮PCR反应产物，5μL。其中：引物AP5的序列为AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:71)；引物index的序列为CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:72)。需要说明的是，N为A、T、C或G，“NNNNNNNN”代表用于区分不同样本的索引index。

第二轮PCR的反应条件为：1)循环数1：95℃10min；2)循环数20：95℃30s，55℃30s，72℃30s；3)循环数1：72℃5min。

扩增产物经核酸纯化试剂纯化后得到测序文库，然后使用测序试剂Miniseq^TM MidOutput Reagent Cartridge(Illumina，货号FC-420-1004)在MiniSeq测序仪(Illumina)上进行测序，每个甲基化位点的测序深度不小于500X。

数据处理

基于NGS测序结果，可使用如前文式(1)所示的公式计算样本中每个甲基化位点的甲基化率。实施例1、前列腺癌组和正常对照组的甲基化率的相关数据分析揭示差异甲基化位点的甲基化水平在前列腺癌患者中显著改变

对于292个甲基化位点，使用随机森林模型筛选出对前列腺癌组与正常对照组具有显著分组贡献度的133个差异甲基化位点。图6是根据本说明书一些实施例所示的训练样本集292个甲基化位点的甲基化率热图。图7是根据本说明书一些实施例所示的训练样本集133个差异甲基化位点的甲基化率热图。其中，纵轴代表292个甲基化位点，横轴代表131个受试者样本，图中色块的颜色指示相关甲基化位点在对应受试者样本中的甲基化水平。与图6相比，图7示出的差异甲基化位点的甲基化水平(或甲基化率)在前列腺癌组和正常对照组之间的分布表现出较为明显的差异。

对于133个差异甲基化位点，采用F检验验证各甲基化位点的甲基化率在前列腺癌组与正常对照组之间的分布是否具备方差齐性。对于甲基化率在前列腺癌组与正常对照组之间属于方差齐性分布的甲基化位点，采用独立样本双尾学生t检验验证前列腺癌组与正常对照组间各位点的甲基化率平均值是否存在显著性差异。对于甲基化率在前列腺癌组与正常对照组之间属于方差不齐性分布的甲基化位点，采用独立样本双尾学生t’检验验证前列腺癌组与正常对照组间各位点的甲基化率平均值是否存在显著性差异。以P<0.001，组间差异倍数大于2倍作为评价显著性的标准，从133个差异甲基化位点中选取9个位点作为目标甲基化位点，包括MIR663A_42、MIR663A_66、FHAD1_27、SOX1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20。

实施例2、目标甲基化位点及其组合对训练样本集、验证样本集中前列腺癌的预测

使用ROC曲线分析单个目标甲基化位点预测前列腺癌的能力。图8A至图8I分别示出了根据本说明书一些实施例所示的使用训练样本集的MIR663A_42甲基化率、MIR663A_66甲基化率、FHAD1_27甲基化率、SOX1-OT_58甲基化率、IGFBP3_3甲基化率6、POU4F2_74甲基化率、ZNF154_95甲基化率、FEZF2_31甲基化率和APC_20甲基化率制作的ROC曲线图。针对单个目标甲基化位点，考虑选取合适的甲基化阈值，并基于该目标甲基化位点的甲基化阈值对训练样本集中的正常人和早期前列腺癌患者进行区分。

以约登指数最大时对应的目标甲基化位点的甲基化率(或称约登指数设定阈值)作为该目标甲基化位点的甲基化阈值。在该阈值选取方式下：位点MIR663A_42的阈值为0.3043，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约81.6％，特异性为92.9％；位点MIR663A_66的阈值为0.2102，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约85.1％，特异性为约95.2％；位点FHAD1_27的阈值为0.1764，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约51.7％，特异性为约81％；位点SOX1-OT_58的阈值为0.0644，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约87.6％，特异性为约70％；位点IGFBP3_36的阈值为0.0824，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约83％，特异性为约69.4％；位点POU4F2_74的阈值为0.1986，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约78.2％，特异性为约73％；位点ZNF154_95的阈值为0.0808，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约80.9％，特异性为约80％；位点FEZF2_31的阈值为0.2325，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约77％，特异性为约25％；位点APC_20的阈值为0.0344，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约81.5％，特异性为约64.3％。

以特异性90％～100％时对应的目标甲基化位点的甲基化率(或称特异性设定阈值)作为该目标甲基化位点的甲基化阈值。在该阈值选取方式下：位点MIR663A_42的阈值为0.3551，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约42.5％，特异性为100％；位点MIR663A_66的阈值为0.2713，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约27.6％，特异性为100％；位点FHAD1_27的阈值为0.2351，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约13.5％，特异性为100％；位点SOX1-OT_58的阈值为0.0972，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约19.1％，特异性为100％；位点IGFBP3_36的阈值为0.2084，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约3.4％，特异性为100％；位点POU4F2_74的阈值为0.2473，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约31％，特异性为100％；位点ZNF154_95的阈值为0.1835，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约19.1％，特异性为100％；位点FEZF2_31的阈值为0.2873，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约41.4％，特异性为100％；位点APC_20的阈值为0.0827，使用前述阈值对训练样本集进行前列腺癌预测的敏感度为约17.3％，特异性为100％。

单一目标甲基化位点在预测前列腺癌的能力上还有较大提升空间。考虑利用9个目标甲基化位点的组合建立筛查模型，具体的：针对样本的每个目标甲基化位点的甲基化率，若单个位点的甲基化率大于或等于该位点的甲基化阈值，则判定样本的该位点为阳性位点，反之则为阴性位点；针对样本的所有目标甲基化位点，若其中一个或以上的目标甲基化位点被判定为阳性位点，则预测该样本对应受试者可能患有早期前列腺癌或存在发展前列腺癌的风险，反之则可排除可能性或风险。

在利用9个目标甲基化位点的组合建立的筛查模型中使用前述约登指数设定阈值，并使用ROC曲线分析该筛查模型在训练样本集上的性能。图9A示出了根据本说明书一些实施例所示的使用约登指数设定阈值的筛查模型在训练样本集上的ROC曲线图。如图9A所示，该筛查模型的AUC值(ROC曲线下面积)为约0.631，敏感度为100％，特异性为约26.2％。可以看出的是，对于利用9个目标甲基化位点的组合建立的筛查模型而言，使用约登指数设定阈值对平衡模型敏感度和特异性、提高模型性能的帮助有限，该筛查模型存在假阳性问题。

在利用9个目标甲基化位点的组合建立的筛查模型中使用前述特异性设定阈值，并使用ROC曲线分析该筛查模型在训练样本集上的性能。图9B示出了根据本说明书一些实施例所示的使用特异性设定阈值的筛查模型在训练样本集上的ROC曲线图。如图9B所示，在训练样本集上，该筛查模型的AUC值约为0.921，敏感度为约84.3％，特异性为100％。使用特异性设定阈值的筛查模型在提高预测准确度、降低误诊率方面表现良好，目标甲基化位点的组合可以稳定地区分早期前列腺癌患者和健康人。

为进一步验证模型性能，使用ROC曲线分析上述使用特异性设定阈值的筛查模型在验证样本集上的性能。图9C示出了本说明书一些实施例所示的使用特异性设定阈值的筛查模型在验证样本集上的ROC曲线图。如图9C所示，在验证样本集上，该筛查模型的AUC值为1，敏感度为100％，特异性为100％。因此，目标甲基化位点的组合及使用该目标甲基化位点的组合建立的筛查模型具备良好的前列腺癌预测能力，可用于实现早期前列腺癌的准确、快速、无创临床筛查。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.DNA甲基化位点组合作为生物标志物或DNA甲基化位点组合的检测试剂在制备用于前列腺癌早期筛查或前列腺癌患病风险预测的试剂盒中的用途，其特征在于，所述DNA甲基化位点组合包括以下组中的一个或多个：

位于MIR663A基因上染色体坐标为chr20:26189060的位点MIR663A_42；

位于MIR663A基因上染色体坐标为chr20:26189036的位点MIR663A_66；

位于FHAD1基因上染色体坐标为chr1:15573597的位点FHAD1_27；

位于SOX1-OT基因上染色体坐标为chr13:112710855的位点SOX1-OT_58；

位于IGFBP3基因上染色体坐标为chr7:45961083的位点IGFBP3_36；

位于POU4F2基因上染色体坐标为chr4:147560132的位点POU4F2_74；

位于ZNF154基因上染色体坐标为chr19:58220425的位点ZNF154_95；

位于FEZF2基因上染色体坐标为chr3:62356954的位点FEZF2_31；

位于APC基因上染色体坐标为chr5:112073348的位点APC_20。

2.如权利要求1所述的用途，其特征在于，所述DNA甲基化位点组合包括MIR663A_42、MIR663A_66、FHAD1_27、SOX1-OT_58、IGFBP3_36、POU4F2_74、ZNF154_95、FEZF2_31和APC_20。

3.如权利要求1所述的用途，其特征在于，所述检测试剂包括用于扩增所述DNA甲基化位点组合的引物组；其中，

用于扩增MIR663A_42的引物对如SEQ ID NO:1和SEQ ID NO:2所示；

用于扩增MIR663A_66的引物对如SEQ ID NO:1和SEQ ID NO:2所示；

用于扩增FHAD1_27的引物对如SEQ ID NO:3和SEQ ID NO:4所示；

用于扩增SOX1-OT_58的引物对如SEQ ID NO:5和SEQ ID NO:6所示；

用于扩增IGFBP3_36的引物对如SEQ ID NO:7和SEQ ID NO:8所示；

用于扩增POU4F2_74的引物对如SEQ ID NO:9和SEQ ID NO:10所示；

用于扩增ZNF154_95的引物对如SEQ ID NO:11和SEQ ID NO:12所示；

用于扩增FEZF2_31的引物对如SEQ ID NO:13和SEQ ID NO:14所示；

用于扩增APC_20的引物对如SEQ ID NO:15和SEQ ID NO:16所示。

4.如权利要求1所述的用途，其特征在于，所述前列腺癌早期筛查或前列腺癌患病风险预测的方法包括：

获取受试者生物样本中所述DNA甲基化位点组合的甲基化水平；

5.如权利要求4所述的用途，其特征在于，所述筛查模型为基于所述DNA甲基化位点组合的甲基化阈值的模型。

6.如权利要求5所述的用途，其特征在于，所述评估包括：

7.如权利要求6所述的用途，其特征在于，确定所述DNA甲基化位点的甲基化阈值的方法包括：

8.如权利要求7中任一项所述的用途，其特征在于，MIR663A_42的甲基化阈值为0.3551；MIR663A_66的甲基化阈值为0.2713；FHAD1_27的甲基化阈值为0.2351；SOX1-OT_58的甲基化阈值为0.0972；IGFBP3_36的甲基化阈值为0.2084；POU4F2_74的甲基化阈值为0.2473；ZNF154_95的甲基化阈值为0.1835；FEZF2_31的甲基化阈值为0.2873；APC_20的甲基化阈值为0.0827。

9.如权利要求4所述的用途，其特征在于，所述筛查模型为机器学习模型或深度学习模型。

10.如权利要求1所述的用途，其特征在于，所述生物样本来自于受试者的尿液；较优地，所述生物样本来自于受试者尿液的有形成分。

11.一种用于前列腺癌早期筛查或前列腺癌患病风险预测的装置，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下方法：

12.一种DNA甲基化位点组合的检测试剂，所述DNA甲基化位点组合作为生物标志物用于检测前列腺癌，其特征在于，所述检测试剂包括用于扩增所述DNA甲基化位点组合的引物组，所述DNA甲基化位点组合包括以下组中的一个或多个：