前列腺癌疾病进展生物标志物及其应用
技术领域
本发明涉及前列腺癌技术领域,尤其是涉及一种前列腺癌疾病进展生物标志物及其应用。
背景技术
前列腺癌是男性最常见的癌症之一,位于发达国家男性癌症死亡率排名的榜首,而在中国这样的发展中国家,前列腺癌的发病率也在不断上升。在大多数的晚期前列腺癌的病例中,前列腺癌的发生发展过程是由生长缓慢、器官受限的肿瘤进展到高侵袭性去势抵抗性前列腺癌(CRPC)。临床上,前列腺癌的标准治疗包括根治性前列腺切除术(Prostatectomy),以及近距离放射疗法和外部束放射疗法等放疗方法。虽然大部分患者在明确的局部治疗后可以痊愈且生存期超过10年,但仍然有约20至30%的患者病情进展,需要进一步的药物治疗。例如,在根治性前列腺切除术的治疗后,一些患者由血清PSA升高检测到前列腺癌的局部或转移性复发,而其它的患者则没有检测出类似的证据。
为避免治疗的过程中出现过度治疗等问题,需要有一种能够准确预测标准治疗后前列腺癌患者的疾病进展的方法。基于前列腺癌组织的基因表达,研究人员尝试通过寻找能够与前列腺癌疾病进展相关的特异性基因的表达模式来预测疾病进展。然而,基于目前已进行的一些特异性基因的表达模式而构建出的模型的准确性亟待提高。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种对预测前列腺癌疾病进展具有较高准确度的生物标志物及其应用。
本发明所采取的技术方案是:
本发明的第一方面,提供一种前列腺癌疾病进展生物标志物,包括以下基因:SPATA32、HP09025、RP11_805F19_4、GPX1P2、PSG9、DHRS13、PALD1、RAET1G、ZBTB8B、TAPBPL、KRT15、SOX14、RP11_488L18_3、STAT5A、TRIM29。
本发明实施例的有益效果是:
本方案所提供的作为生物标志物的基因的组合可以更好地预测受试者的前列腺癌经治疗后的疾病进展风险,相对于现有的基因的组合具有更高的准确度,可高效地应用于临床检测。
本发明的第二方面,提供上述前列腺癌疾病进展生物标志物在制备前列腺癌预后试剂盒、前列腺癌预后芯片中的应用。
本发明的第三方面,提供定量上述前列腺癌疾病进展生物标志物的试剂在制备前列腺癌预后试剂盒、前列腺癌预后芯片中的应用。
本发明的第四方面,提供一种试剂盒或生物芯片,包括用于定量基因的表达水平的试剂,基因包括SPATA32、HP09025、RP11_805F19_4、GPX1P2、PSG9、DHRS13、PALD1、RAET1G、ZBTB8B、TAPBPL、KRT15、SOX14、RP11_488L18_3、STAT5A、TRIM29。
本发明的第五方面,提供一种计算机可读介质,包括计算机执行时使计算机进行包括以下操作的计算机可读代码:
a)接收来自受试者样本中的SPATA32、HP09025、RP11_805F19_4、GPX1P2、PSG9、DHRS13、PALD1、RAET1G、ZBTB8B、TAPBPL、KRT15、SOX14、RP11_488L18_3、STAT5A、TRIM29基因的表达水平;
b)对基因的表达水平进行数学关联以获得评分;评分用于指示受试者的前列腺癌的疾病进展风险。
其中,前列腺癌的疾病进展风险是指前列腺癌术后疾病进展的风险,特别是指在经过标准治疗后的疾病进展的风险。
根据本发明的一些实施例,基因的表达水平为基因的转录水平。
根据本发明的一些实施例,基因的转录水平是指诸如基因的mRNA的表达水平。
根据本发明的一些实施例,步骤a)还包括对基因的表达水平进行标准化。
根据本发明的一些实施例,还包括根据所述评分对前列腺癌的疾病进展的风险进行评估。
根据本发明的一些实施例,数学关联为将基因的表达水平应用到以下公式:
N=w0+w1×STAT5A+w2×TAPBPL+w3×SOX14+w4×TRIM29+w5×KRT15+w6×RP11_488L18_3+w7×ZBTB8B+w8×RAET1G+w9×PALD1+w10×DHRS13+w11×PSG9+w12×GPX1P2+w13×RP11_805F19_4+w14×HP09025+w15×SPATA32;
其中,w0至w15分别为0.6709、-0.0829、0.0498、-0.0097、0.0399、-0.0325、0.0399、0.0285、-0.0446、0.0696、-0.0566、0.0475、-0.0484、0.0562、-0.0572、-0.0666。
本发明的第六方面,提供一种系统,该系统包括上述的计算机可读介质。该系统还包括用于执行计算机可读介质的计算机可读代码对应操作的处理器。
根据本发明的实施例,该系统为前列腺癌预后评估系统,通过获得的评分与门槛值比较判断前列腺癌患者经治疗后的疾病进展的高低风险,并提供相应的评估报告。
根据本发明的实施例,该前列腺癌预后评估系统,还包括能够定量检测受试者样本中的SPATA32、HP09025、RP11_805F19_4、GPX1P2、PSG9、DHRS13、PALD1、RAET1G、ZBTB8B、TAPBPL、KRT15、SOX14、RP11_488L18_3、STAT5A、TRIM29基因的表达水平的试剂。
附图说明
图1是本发明的一个实施例中基因转录和标准治疗预后的Pearson关联系数的分布直方图。
图2是本发明的一个实施例中预测模型得到的对应AUC最大值的受试者工作特征曲线图。
图3是本发明的一个实施例中预测模型得到的对应AUC中值的受试者工作特征曲线图。
图4是本发明的一个实施例中预测模型得到的对应AUC最小值的受试者工作特征曲线图。
具体实施方式
以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。
实施例1
模型的建立
从mRNA基因组中筛选构建预测前列腺癌患者经过标准治疗后疾病进展的多基因表达模型的算法:
一、数据集准备:
1.肿瘤基因组图谱(TCGA)前列腺癌公开数据集TCGA-PRAD是全基因转录组(WTS)表达数据集,其中癌症组织为499例,正常组织为53例。在499例病人中,经过标准治疗后,完全缓解/响应(Complete Remission/Response)329例,部分缓解/响应(PartialRemission/Response)37例,病情稳定(Stable Disease)26例,疾病进展(ProgressiveDisease)28例,其余79例为缺失。
2.数据清洗(Data Cleanup):在TCGA-PRAD数据中,只取完全缓解的329例和疾病进展的28例,构成357例样本组成的数据子集来进行基因筛选。在这个数据子集里,病人标准治疗的预后指标为完全缓解或疾病进展。全基因转录组共有60483个基因转录(transcript),剔除极低表达基因转录(非零的样本个数不超过10个)后,还有51303个。
3.数据标准化(Normalization):对每个样本,计算所有51303个基因表达量的75%分位数q75,再取q75的中值qm,每个样本的标准化表达为:原表达量-q75+qm;
二、基因筛选算法:
1.确定和疾病进展风险相关的基因转录:利用t-检验(t-test)以标准治疗预后指标为目标变量,寻找能够区分完全缓解或疾病进展的两个病人子群有统计意义的基因转录组。统计程序t-检验对每个基因变量给出相应的p值。一个基因转录是否符合统计显著性的入选条件为p值≤0.05,共得到5031个有统计显著性的基因转录。加上文献中与AR、PSA相关的基因,共得到5162个基因转录。
2.利用与标准治疗预后的关联系数和线性回归确定15个基因。基于以上所述357份样本数据,分别计算以上5162个基因专录和标准治疗预后的Pearson关联系数,其分布直方图见图1。设想能够预测标准治疗预后的基因转录要么和其正相关,要么和其负相关。把关联系数排序后,取关联系数最小的100个基因,构建用它们预测标准治疗预后的线性回归模型,选取模型中有统计显著性(pv≤0.05)的基因,得到14个基因:AL357515.1、DHRS13、GPX1P2、HP09025、LDLRAD1、MOCOS、RAET1G、RNF185、RP5_1056H1_2、SOX14、SPATA32、STAT5A、TAPBPL、TINCR。同理,选关联系数最大的100个基因构建用它们预测标准治疗预后的线性回归模型,选取模型中有统计显著性(pv≤0.05)的基因,得到10个基因:ADAMTS16、IQGAP3、NCAPH、PALD1、PSG9、RP1_137D17_1、RP11_488L18_3、RP11-805F19.4、TROAP、ZBTB8B。合并两组基因后重新构建用这25个基因预测标准治疗预后的线性回归模型,有统计显著性(pv≤0.05)的基因共15个:DHRS13、GPX1P2、HP09025、MOCOS、NCAPH、PALD1、PSG9、RAET1G、RP11_488L18_3、RP11_805F19_4、SOX14、SPATA32、STAT5A、TAPBPL、ZBTB8B。最后用文献中与AR、PSA相关,或与前列腺癌相关的共48个基因来构建预测标准治疗预后的线性回归模型,得到8个基因:CTNNA1、CYP17A1、CYP4Z1、ERG、GLUD1、KRT15、TLE3、TRIM29。合并两组基因的23个基因来最后构建预测标准治疗预后的线性回归模型,得到有统计显著性(pv≤0.05)的基因共15个:SPATA32、HP09025、RP11_805F19_4、GPX1P2、PSG9、DHRS13、PALD1、RAET1G、ZBTB8B、TAPBPL、KRT15、SOX14、RP11_488L18_3、STAT5A、TRIM29。
3.根据线性回归模型对其中的参数向量wn(n=0~15)进行训练:N=w0+w1×STAT5A+w2×TAPBPL+w3×SOX14+w4×TRIM29+w5×KRT15+w6×RP11_488L18_3+w7×ZBTBSB+w8×RAET1G+w9×PALD1+w10×DHRS13+w11×PSG9+w12×GPX1P2+w13×RP11_805F19_4+w14×HP09025+w15×SPATA32。随机把数据平分,一半训练模型,另一半检验模型,重复N(N=50)次。得到相应的参数向量w0至w15分别为0.6709、-0.0829、0.0498、-0.0097、0.0399、-0.0325、0.0399、0.0285、-0.0446、0.0696、-0.0566、0.0475、-0.0484、0.0562、-0.0572、-0.0666。
各个基因的参数如下表所示:
根据该模型得到相应的工作特征曲线图,曲线下面积(AUC)最大值、中值和最小值分别如图2至图4所示为0.98、0.92和0.88,其(5%,95%)置信区间(CI)为(0.88,0.98)。其中,对应AUC中值的受试者特征(ROC)曲线(图3)显示,在特异性为80%时,敏感度约为90%。
实施例2
一种前列腺癌预后评估系统,包括检测装置、计算机可读介质和用于执行计算机可读介质存储的计算机可读代码对应操作的处理器。运用该系统对受试者进行前列腺癌风险的评估的方法具体如下:
1.根据受试者选择特定样本提取mRNA;样本可以是无创样本或穿刺样本,例如,可以是前列腺癌手术切除后或穿刺的新鲜癌组织、FFPE(福尔马林固定石蜡包埋组织)、前列腺癌手术前血浆、前列腺癌手术前尿液样本提取mRNA(需要注意的是,注意血浆或尿液为外泌体mRNA)。
2.将提取到的mRNA送入检测装置(例如标准qPCR平台)进行15个基因表达的定量:SPATA32、HP09025、RP11_805F19_4、GPX1P2、PSG9、DHRS13、PALD1、RAET1G、ZBTB8B、TAPBPL、KRT15、SOX14、RP11_488L18_3、STAT5A、TRIM29。
3.依照公式:
N=w0+w1×STAT5A+w2×TAPBPL+w3×SOX14+w4×TRIM29+w5×KRT15+w6×RP11_488L18_3+w7×ZBTB8B+w8×RAET1G+w9×PALD1+w10×DHRS13+w11×PSG9+w12×GPX1P2+w13×RP11_805F19_4+w14×HP09025+w15×SPATA32;由计算机可读介质和相应的处理器计算风险分数N并根据门槛值T判断疾病进展的风险类型(N分数大于门槛值T的为高风险疾病进展,反之为低风险疾病进展);根据样本的不同可以重新训练线性回归模型确定参数向量wn,并用检验人群数据集的ROC确定门槛值T。另外,也可以根据受试者的样本进行独立的临床验证实验。
4.发布关于受试者前列腺癌的疾病进展的风险的评估报告。
实施例3
一种试剂盒,包括能够定量SPATA32、HP09025、RP11_805F19_4、GPX1P2、PSG9、DHRS13、PALD1、RAET1G、ZBTB8B、TAPBPL、KRT15、SOX14、RP11_488L18_3、STAT5A、TRIM29的mRNA水平的试剂,该试剂包括逆转录酶、逆转录酶引物、特异性扩增上述基因的引物、Taq酶、荧光染料等。
实施例4
一种微流控芯片,包括储液模块,储液模块中分别装设有能够定量SPATA32、HP09025、RP11_805F19_4、GPX1P2、PSG9、DHRS13、PALD1、RAET1G、ZBTB8B、TAPBPL、KRT15、SOX14、RP11_488L18_3、STAT5A、TRIM29的mRNA水平的试剂。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。