CN110468207B

CN110468207B - 基于Taqman低密度芯片的胶质瘤EM/PM分子分型方法及其应用

Info

Publication number: CN110468207B
Application number: CN201910822144.8A
Authority: CN
Inventors: 樊小龙; 李玖一
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2021-03-23
Anticipated expiration: 2039-09-02
Also published as: CN110468207A

Abstract

本发明公开了一种基于Taqman低密度芯片的胶质瘤EM/PM分子分型方法及其应用。本发明提供了一种可具体实施EM/PM分子分型的Taqman低密度芯片产品及配套试剂盒，以及基于支持向量机的EM/PM分型算法构建的模型。使用该芯片及模型可快速便捷地完成病人EM/PM分型及个体化诊断，对患者给出风险分层及个体化用药的指导。相较于基于Affymetrix芯片或mRNA seq的表达谱检测分型要7到10天才能完成，本发明的检测方法仅需在一个工作日内就能完成。同时，本发明采用的芯片及检测仪器均为实验室常备的检测仪器，不需再额外装备大型设备(例如Affymetrix芯片检测系统或高通量测序仪器)。

Description

基于Taqman低密度芯片的胶质瘤EM/PM分子分型方法及其应用

技术领域

本发明涉及一种基于Taqman低密度芯片(Taqman Low Density Array)的胶质瘤EM/PM分子分型方法及其应用。

背景技术

弥散性胶质瘤(Diffuse glioma)是成人中枢神经系统中最好发，也是最为致命的恶性肿瘤。尽管经过了数十年的不懈努力，胶质瘤的治疗至今仍然未能取得实质性突破。最常见的一类高恶性度胶质瘤——多形性胶质母细胞瘤(Glioblastoma Multiform，GBM)患者即使经手术切除肿瘤并同步接受目前最先进、最积极的放化疗，大多依然在一年内迅速复发进展、死亡。

无论在临床上及生物学上，胶质瘤皆具有极高的异质性。对胶质瘤进行合理的分型是改善其治疗效果的基础。传统的胶质瘤分型以组织学特征为参考，根据胶质瘤细胞与正常神经系统中各类型胶质细胞间假定的相似性，将成人弥散性胶质瘤分为星形细胞瘤、少突胶质细胞瘤以及混合型的少突星形细胞瘤，并依据核分裂、核密度、坏死程度以及血管增生等恶性指标进一步将胶质瘤分为II-IV级。其中最恶性的为IV级星形细胞瘤通常，又被称为胶质母细胞瘤，约占成人胶质瘤的50％。形态学的诊断具有主观局限性，且不紧密结合胶质瘤的发病机制，阻碍了胶质瘤诊疗水平的提升。为克服这一缺陷，2016版的WHO胶质瘤分型指南将分子遗传学指标IDH突变及1p/19q联合缺失等纳入分型指标，用以辅助组织病理学诊断。这两项指标的加入提高了胶质瘤诊断的客观性，以及风险分层的准确性。具有这两项变异的患者具有更好的预后，而且能够从放疗联合PCV(P：甲基苄肼，C：洛莫司汀，V：长春新碱)化疗的治疗方案中获益。

IDH突变及1p19q联合缺失的肿瘤可能代表与少突胶质细胞祖细胞(OPC)具有相似表达谱的一类胶质瘤的起始性基因组变异。然而胶质瘤的基因组变异并非稳定不变，而是处于动态进化中。在这一过程中，胶质瘤会不断积累越来越多的拷贝数变异(CNV，copynumber variation)及单核苷酸突变(SNV,single nucleotide viraition)。这些变异与胶质瘤的分子病理及患者临床表现具有密切关联。事实上，一部分IDH突变的患者因为细胞周期基因的激活而预后较差。此外，与肿瘤细胞学起源相关的表达谱特征也是决定肿瘤表型以及患者预后的重要因素之一。最近的一项研究发现，部分IDH野生型、具有毛细胞星形细胞瘤(PilocyticAstrocytoma,PA)基因表达特征的成人胶质瘤患者的预后远好于其它IDH野生型患者。综上，以IDH突变及1p19q联合缺失在预后评估及指导治疗方案选择方面尚且不足，建立一个独立于形态学，能捕捉胶质瘤与发育过程中的正常神经系统细胞间的转录组相似性的分型方案，有助于风险分层准确性的进一步提升以及更具针对性的治疗方案设计。

肿瘤的细胞学起源对其临床表型及治疗应答具有决定性的作用。基因表达谱(GEP)蕴藏着肿瘤的细胞学起源信息，基于基因表达谱的分子分型有望将胶质瘤分型为具有独特细胞学起源的分子亚型，进而指导胶质瘤的风险评估和治疗方案选择。目前胶质瘤领域内已有数个GEP分型。但是，它们普遍采取无偏差、无假说的分型方案，纯粹通过统计学方法筛选分类基因。分类基因与分子病理之间的联系、分子亚型与神经发育谱系之间的相似性都未能清楚地阐明，其指导的分子分型研究始终停滞于数据库分析层面，尚未有转化为个体化诊断工具的报道。

发明内容

本发明的目的是提供一种基于Taqman低密度芯片的胶质瘤EM/PM分子分型方法及其应用。

第一方面，本发明要求保护检测特定基因表达量的物质和存储有EM/PM分型预测模型的介质在制备产品中的应用；所述产品的功能为胶质瘤分型或预测胶质瘤患者生存期；

所述特定基因为44个基因；

所述44个基因分为EM基因群、PM基因群和EM^lowPM^low基因群；

所述EM基因群由如下12个基因组成：ACSS3、CDKN2C、EGFR、ELOVL2、HS3ST3B1、ITGB8、NES、SEC61G、SOCS2、UHRF1、VAV3和PDGFA；

所述PM基因群由如下28个基因组成：C1QL1、CHD7、CSNK1E、DLL3、ETV1、KLRC3、LPHN3、LPPR1、MARCKS、MMP16、MYT1、NAV1、NLGN1、NOVA1、NXPH1、OLIG1、OLIG2、PATZ1、PCGF2、PDGFRA、RFX7、SOX6、SOX8、TACC2、TSHZ1、ZEB1、ZNF22和ZNF462；

所述EM^lowPM^low基因群由如下4个基因组成：ENPP2、GABRA1、MAL和MOG；(上述四个基因高表达于正常脑组织，是非肿瘤脑组织的标记基因)

所述EM/PM分型预测模型按照包括如下步骤的方法获得：

(1)分别检测n个样本的特定基因的表达量；

(2)取步骤(1)获得的所有样本的特定基因表达量的数据，通过一致性聚类算法将每个胶质瘤样本分为EM型、PM型或EM^lowPM^low型；

(3)取步骤(1)获得的所有样本的特定基因表达量的数据和步骤(2)获得的所有样本的分型结果，通过支持向量机算法构建以特定基因表达量为输入以分型归属概率为输出的模型，即为EM/PM分型预测模型；

所述分型归属概率即某一样本为EM型的概率、为PM型的概率和为EM^lowPM^low型的概率。

所述n个样本为有统计学意义的数量的样本。所述n个样本可为胶质瘤样本。如果样本中EM^lowPM^low型数量过少导致无法准确分型，可添加非肿瘤样本进行分析。

进一步地，本发明要求保护检测特定基因表达量的物质、存储有EM/PM分型预测模型的介质和记载有特定方法的载体在制备产品中的应用；所述产品的功能为胶质瘤分型或预测胶质瘤患者生存期；所述特定方法为方法A或方法B；

所述特定基因为前文所述的特定基因；

所述EM/PM分型预测模型按照前文所述的方法获得；

所述方法A为获得待测患者胶质瘤EM/PM分型的方法，包括如下步骤：

(a1)检测待测胶质瘤患者特定基因的表达量；

(a2)将待测胶质瘤患者特定基因的表达量输入所述EM/PM分型预测模型，由模型输出待测胶质瘤患者的分型归属概率；

(a3)根据待测胶质瘤患者的分型归属概率，获得待测胶质瘤患者的分型结果；判断标准为：若待测胶质瘤患者属于某一类型的概率大于70％，则判断患者属于该类型，若待测患者属于任一类型的概率均低于70％，则该患者为难以确定类型的非典型患者；

所述方法B为预测胶质瘤患者生存期的方法，包括如下步骤：

(a1)检测待测胶质瘤患者特定基因的表达量；

(a4)根据待测胶质瘤患者的分型结果按照如下标准对其进行生存期预后：EM型患者的生存期低于PM型患者的生存期。

第二方面，本发明保护用于胶质瘤分型或预测胶质瘤患者生存期的试剂盒，包括检测特定基因表达量的物质和存储有EM/PM分型预测模型的介质；

所述特定基因为前文所述的特定基因；

所述EM/PM分型预测模型按照前文所述的方法获得。

所述试剂盒中还可以包括记载前文所述的方法A或方法B的载体。

在上述第一方面和第二方面中，所述检测特定基因表达量的物质为Taqman低密度芯片；所述Taqman低密度芯片上固定有用于扩增所述44个基因的引物对。所述Taqman低密度芯片上还固定有用于扩增GAPDH、ACTB、UBC和18S rRNA的引物对；所述GAPDH、ACTB和UBC为内参基因；所述18S rRNA为PCR体系质控基因。

在第二方面中，当所述检测特定基因表达量的物质为Taqman低密度芯片时，所述试剂盒还包括使用Taqman低密度芯片检测待特定基因表达量时所需的其他试剂。

第三方面，本发明要求保护一种用于制备EM/PM分型预测模型的系统组合，包括系统甲、系统乙和系统丙；由所述系统甲检测n个样本特定基因的表达量，输出每个样本特定基因的表达量的数据；由系统乙接收系统甲输出的所有样本的特定基因表达量的数据，通过一致性聚类算法将每个样本分为EM型、PM型或EM^lowPM^low型；由系统丙接收取系统甲输出的所有样本的基因表达量的数据和系统乙输出的所有样本的分型结果，通过支持向量机算法构建以特定基因表达量为输入以分型归属概率为输出的模型，即为EM/PM分型预测模型；所述分型归属概率概率即某一样本为EM型的概率、为PM型的概率和为EM^lowPM^low型的概率。所述特定基因为前文所述的特定基因。所述n个样本为有统计学意义的数量的样本。所述n个样本可为胶质瘤样本。如果样本中EM^lowPM^low型数量过少导致无法准确分型，可添加非肿瘤样本进行分析。

第四方面，本发明要求保护一种用于制备EM/PM分型预测模型的方法，包括如下步骤：

(1)分别检测n个样本特定基因的表达量；所述特定基因为前文所述的特定基因；

(3)取步骤(1)获得的样本的特定基因表达量的数据和步骤(2)获得的所有样本的分型结果，通过支持向量机算法构建以特定基因表达量为输入以分型归属概率为输出的模型，即为EM/PM分型预测模型；

所述分型归属概率即某一胶质瘤样本为EM型的概率、为PM型的概率和为EM^lowPM^low型的概率。

以上各方面中，所述EM/PM分型预测模型的建立使用Python平台的机器学习包scikit-learn完成，使用Python平台的机器学习包scikit-learn构建所述模型的具体方法如下：

导入numpy、pandas、scipy、matplotlib、itertools以及sklearn等分析所需的python模块；

从csv、txt等格式的文件中读取训练样本的基因表达谱；

将表达量数值做log2转化；

将表达数值进行归一化处理；

从csv、txt等格式的文件中读取训练样本的分型标签，将其二分化处理；

向训练集中添加随机化的噪音数据，避免过拟合；

将样本随机划分为10份；

使用支持向量机(SVM)算法构建分类模型；

并建立10折交叉验证模型；

利用模型进行100次交叉验证，计算平均的准确率、精准度及召回率；

跟据交叉验证的结果，使用网格搜索寻找最佳SVM超参数，或得使准确率等尽量高的超参数；

从csv、txt等格式的文件中读入验证集样本数据；

将表达量数值做log2转化；

将表达数值进行归一化处理；

使用在训练集中构建的模型预测验证集中样本的亚型；

比较验证集样本的预测亚型与已有分型标签，计算假阳性(fpr)、真阳性率(tpr)；

根据每一亚型的fpr、tpr计算每一亚型的ROC及AUC；

计算验证集中总体的宏平均ROC及AUC；

绘制ROC图；

观察ROC图发现模型在验证集中具有很高的准确率，因此可应用于新样本的分型；

导入joblib模块；

使用joblib模块将对应与分类模型的对象写入到本地EM_PM_SVM.model模型中。

以上各方面中，所述特定基因的表达量为相对表达量。

所述相对表达量为基于内参基因的相对表达量。计算特定基因与3个内参基因的几何平均值之间的差值(ΔCT),以2^-ΔCT作为特定基因的相对表达量。

所述内参基因为GAPDH、ACTB和UBC。

第五方面，本发明保护下述任一产品；

(A)存储有前文所述EM/PM分型预测模型的介质；

(B)前文所述的Taqman低密度芯片。

进一步地，本发明还保护所述产品在制备用于患者胶质瘤分型和/或预测胶质瘤患者生存期的产品中的应用。

本发明提供了一种可具体实施EM/PM分子分型的Taqman低密度芯片(Taqman LowDensityArray，TLDA)产品及配套试剂盒，以及基于支持向量机(SupportVector Machine,SVM)的EM/PM分型算法构建的模型。使用该芯片及模型可快速便捷地完成病人EM/PM分型及个体化诊断，对患者给出风险分层及个体化用药的指导。相较于基于Affymetrix芯片或mRNA seq的表达谱检测分型要7到10天才能完成，本发明的检测方法仅需在一个工作日内就能完成。同时，本发明采用的芯片及检测仪器均为实验室常备的检测仪器，不需再额外装备大型设备(例如Affymetrix芯片检测系统或高通量测序仪器)。

附图说明

图1为CGGA数据库中使用分型基因进行聚类分析的结果。

图2为使用非负矩阵分解(NMF)及一致性聚类算法对CGGA数据库进行高稳定性分子分型以建立训练集样本分型标签的结果。

图3为选择CGGA训练集中59例样本，使用TLDA芯片检测表达谱，然后使用SVM算法训练分类模型的结果。

图4为验证集中模型验证的效果。

图5为使用上述所建立的模型所预测的EM及PM胶质瘤的生存曲线图。

具体实施方式

以下的实施例便于更好地理解本发明，但并不限定本发明。下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。以下实施例中的定量试验，均设置三次重复实验，结果取平均值。

实施例1、训练样本库EM/PM分子分型的建立

本发明的目标为实现单独患者的EM/PM分子分型，欲实现此目的，需采取有监督(Supervised)分类算法，而有监督分类算法则需要一组分型已知的样本作为训练样本集。中国脑胶质瘤基因组图谱(Chinese Glioma Genome Atlas，CGGA)数据库中包含319例胶质瘤样本的mRNA测序数据，部分上述样本还有肿瘤组织留存，可用于RNA提取及TLDA芯片检测，所得数据作为建立个体化EM/PM分型预测模型的训练集。

首先通过对公共脑胶质瘤基因表达数据库REMBRADNT进行分析，计算候选EM/PM分类基因的变异系数(CV)，共筛选出了变异系数大的27个EM基因、32个PM基因、9个标记EM^lowPM^low基因。此外，在REMBRANDT数据库中进行了全基因组共表达网络分析(WGCNA)，鉴定了15个在各EM/PM分型中特异表达的基因网络中的枢纽基因。具体如表1所示。

基于所述319例样本的mRNA表达数据，首先采取经典的层级聚类算法进行聚类分析并绘制热图。使用Qlucore 3.4(QlucoreAB.)软件内置的层级聚类算法对来自CGGA数据库中319样本进行层级聚类以及热图绘制。挑选出典型的样本，再进一步使用NMF算法降维，使用Consensus Clustring算法进行聚类，聚类算法为PAM(PartitioingAround Medoid)以获得训练集样本稳定的亚型标签。具体实施由R软件的“NMF”包进行。进行聚类时使用的基因如表1所示。结果显示，利用所述层级聚类方法，根据所述基因的差异表达，可将这群样本清楚地分为三个主要的类型，分别是高表达EM基因的EM型、高表达PM基因的PM型以及高表达正常神经元或神经胶质细胞瘤基因的EM^lowPM^low型(图1)。层级聚类的结果可以进行大致的EM/PM分子分型，但是层级聚类难以确定亚型的数目，而且层级聚类的结果不够稳定，不易重现。

一致性聚类(Consensus Clustering)是一种用于建立稳定的分型，并确定最佳的分型数目的算法。对上述319例样本，本发明的发明人采取了NMF算法重新进行降维分析，再联合使用一致性聚类对上述样本分型。结果如图2所示。图2A为分类数目从2到7时一致性聚类结果,可见当分型数目大于3时，分类的稳定性显著下降。图2B为三个评估最佳分型数目的参数，包括共表型系数(cophenetic coefficient)、离差(dispersion)、轮廓宽度(silhouette width，SW)。这些参数越高，表明分类效果越好，当这些参数下降时，就表明分型不再稳定。当K>3时，三个参数都骤然降低，表明K＝3为比较理想的分类数目，可以将胶质瘤分为EM、PM和EM^lowPM^low三个类型(图2B)。轮廓宽度(silhouette width,SW)也是评估样本是否为亚型内典型样本的一个参数。它表征样本与其属同一类型的所有其它样本的相似程度。SW取值[-1,1]之间。SW越低，样本的亚型典型性越低。当SW小于0时，提示其更类似其它类型中的样本。在后续的分析中，排除了SW值低于0.1的56例非典型样本，保留了263例样本。对这263例样本进行生存分析发现，EM型的胶质瘤5年生存率为0，而PM和EM^lowPM^low型的胶质瘤在第五年时的生存率超过60％(图2C)。

实施例2、胶质瘤分型基因群的筛选和检测芯片的制备

一、胶质瘤分型基因群的筛选

使用表1所述基因设计了一个包含96基因的panel。

表1

将这些基因交由公司设计引物并制备成Taqman低密度芯片。为初步评估该平台的实际表现，并基于实时荧光定量PCR数据进一步缩小候选基因的范围，挑选实施例1中所述263例样本中的40例典型的胶质瘤样本，使用该芯片进行了检测。结果发现在96个基因中，有6个基因(DMRTA2、SHOX2、SOX4、TNFRSF19、MOBP、POLR2F)的CT值很大或者是在大部分样本中都无扩增，这些基因被首先排除。

为进一步计算各基因的相对表达量，根据表达差异进一步筛选分类基因,首先对13个内参基因进行筛选。候选内参基因的评分由geNorm算法给予每个候选内参基因的评分，评分越低，越适合作为内参基因。评分最低的3个被选为最终的内参基因，它们分别是ACTB、GAPDH及UBC。以这三个基因的几何平均值为对照，计算剩下的77个分类基因的相对表达量，并比较它们在不同类型之间的差异，计算得到的p值及Fold change。根据FoldChange、p值以及基因功能筛选出44个基因作为TLDA平台的EM/PM分型基因。这44个分类基因包含12个EM基因，28个PM基因及4个EM^lowPM^low基因。12个EM基因功能涉及到神经干细胞及早期星形胶质细胞分化、肿瘤迁徙及肿瘤微环境免疫调控；28个PM基因的功能涉及到少突胶质细胞祖细胞分化、脂代谢、染色质修饰和上皮-间质转化等。4个EM^lowPM^low基因中有两个标记正常成熟少突胶质细胞，另外两个分别标记正常星形胶质细胞及成熟神经元。这44个分型基因与GAPDH、ACTB、UBC以及18S rRNA共同构成用于个体化EM/PM分型的基因(表2)。

表2

二、Taqman低密度芯片的制备

由Life Technology公司设计用于扩增表3中每种基因的引物,由3M公司制备用于检测表2基因的Taqman低密度芯片。

实施例3、利用TLDA芯片进行胶质瘤的个体化分子分型

从实施例1中所述的263例样本中挑选了52例肿瘤样本，并加入7例对照正常脑组织样本作为训练样本集。随后使用实施例2中所述48基因Taqman低密度芯片检测这些样本的基因表达谱。

检测方法如下：

1、提取样本的总RNA，并反转录为cDNA。

2、使用实施例2制备的Taqman低密度芯片检测待测44个分型基因、3个内参基因及质控基因的表达量，所使用仪器为ABI 7900HT Fast实时荧光定量PCR系统。配制100μL的反应体系，内含：50μL 2×Taqman Universal PCR Master Mix with UNG(Thermo Fisher，货号4352042)、48μL无RNA酶水以及2μL模板cDNA。然后将反应体系转移至低密度芯片的上样槽内，1500rpm快速离心一分钟，离心两次。使用封版机，通过封压金属膜，隔断反应槽，使进行扩增反应时样本间互不干扰。随后，将TaqMan低密度芯片放入实时荧光定量PCR仪中，按如下条件进行扩增：50℃UNG孵育2分钟，随后进行40个循环的扩增，每一循环分为两步，分别是95℃变性15秒，60℃退火1分钟。40个循环结束后，再60℃孵育一分钟。反应过程中使用SDS2.3软件采集数据。

3、将实时荧光定量PCR仪生成的sds格式的文件(ABI 7900HT qPCR仪输出)导入到软件Expression Suite Software v1.0.4中，每个基因的循环数(CT)阈值由软件自动判定。然后，计算待检测基因与3个内参基因的几何平均值之间的差值(ΔCT),以2^-ΔCT作为分类基因的相对表达量。最后将各次实验采集到样本的EM/PM分型基因的表达数据汇总在一起，进行归一化处理，形成用于后续步骤分析的基因表达数据。

对得到的基于TLDA表达谱数据进行降维分析，用以直观观测这些基因的分型效果。主成分分析图表明，具有相同亚型的样本在空间上紧密的聚集在了一起，而具有不同类型的样本在空间上相互远离(图3A)，初步表明了实时荧光定量PCR数据能够区分开各EM/PM类型。但是要进行精确的个体化分型，需要应用有监督的聚类算法。在众多的有监督分类算法中，支持向量机算法在小样本中的效果较佳，不仅准确率高，而且不容易遭遇过拟合问题。

采取支持向量机算法，利用归一化之后的训练集数据来建立EM/PM分型模型，数据的统计分析以及分类算法训练、验证以及样本分型的判别均使用Python平台的机器学习包scikit-learn完成。使用C-SVC中一对一并行比较算法在训练集进行多分类模型训练，并通过网格搜索方法优化参数，确定了支持向量机的最佳参数(cost＝0.5，degree＝3，高斯核函数，gamma＝8)，并得到基于SVM的EM/PM分型预测模型。该模型将计算样本属于每一类型的概率。若属于某一类型的概率大于70％，则判断样本属于该类型，若样本属于任一类型的概率均低于70％，则该样本为难以确定EM/PM类型的非典型样本。

对于得到的模型，采用10折交叉验证计算其在训练集中的准确率、精确度及召回率三个评估模型效力的关键参数的值。100次交叉验证的计算结果发现，判断该分类模型效果优劣的三项指标的均值分别为83％，85％及82％(图3B)。上述结果表明，以TLDA数据为训练数据，以SVM为分类算法，可以得到较好的个体化分类模型。

为了确定建立的基于SVM的EM/PM分型预测模型是否适用于新的数据集，是否会在新样本、新平台上遇到过拟合或拟合不足的情况,另外建立一个包含35例样本的独立验证队列(含31例胶质瘤及4例非肿瘤脑组织)。

对于这35例样本，使用Affymetrix的Clariom D芯片检测其全转录组基因表达谱，由NMF算法确定31例样本中有9例EM型胶质瘤、19例PM型胶质瘤及3例EM^lowPM^low型胶质瘤，四例非肿瘤脑组织也属于EM^lowPM^low型。主成分分析图(图4A)表明，依据来自全转录组芯片的数据及NMF无监督聚类算法的分型标签，具有相同亚型的样本在空间上紧密的聚集在了一起，而具有不同亚型的样本在空间上相互远离。

使用TLDA芯片测量了这批样本44个EM/PM分类基因的表达谱，使用EM/PM分型预测模型对其进行了个体化分型，并将分型结果与全转录组芯片NMF算法所得分型进行对比。

结果表明，在35例样本中，有一例PM型胶质瘤被SVM模型预测为EM型胶质瘤，有一例EM^lowPM^low型胶质瘤被SVM模型预测为PM型胶质瘤，其他33例样本的NMF分型与基于TLDA数据的个体化分型均保持一致。ROC(受试者工作曲线)分析显示EM、PM及EM^lowPM^low型胶质瘤的AUC(Area Under Curve，曲线下面积)分别为0.86、0.85及0.91(图4B)，AUC是敏感度与特异性的综合反映，AUC值越大，表明分型的灵敏度与特异性就越高。完美的分型AUC值为1，当AUC大于0.7时，就表明分型模型是有效的。

上述结果证明所训练的个体化EM/PM分类模型在新的数据集中依然保持着较高的准确率，且独立于检测平台。

使用Python平台的机器学习包scikit-learn构建所述模型的计算机语言如下：

利用训练集的模型预测亚型已知的在验证集本的亚型，检验预测模型的灵敏度与特异性

使用以下代码预测新样本的EMPM亚型

#首先读入待测样本的表达数据test.txt,并log2转化，然后归一化处理。

vdata＝pd.read_csv('validation.csv')

validata＝np.array(vdata[1:])

validata＝np.log2(validata)

validata＝preprocessing.scale(validata,axis＝1)

y2＝np.array(vdata[:1])

y2＝y2[0].astype('int')

#然后使用先前构建的模型进行分型，y_score将返回样本属于每一亚型的概率y_score＝classifier.fit(traindata,y2).decision_function(validata)

实施例4、实际样本检测

待测样本：122例EM/PM类型未知的样本，获自北京天坛医院及瑞典哥德堡大学Sahlgrenska医学院。

1、提取待测样本的总RNA，并反转录为cDNA。

2、使用实施例2制备的Taqman低密度芯片检测待测44个分型基因、3个内参基因及质控基因的表达量，所使用仪器为ABI 7900HT Fast实时荧光定量PCR系统。配制100μL的反应体系，内含：50μL 2×Taqman Universal PCR Master Mix with UNG(Thermo Fisher，货号4352042)、48μL无RNA酶水以及2μL模板cDNA。然后将反应体系转移至低密度芯片的上样槽内，1500rpm快速离心一分钟，离心两次。使用封板机，通过封压金属膜，隔断反应槽，使进行扩增反应时样本间互不干扰。随后，将TaqMan低密度芯片放入实时荧光定量PCR仪中，按如下条件进行扩增：50℃UNG孵育2分钟，随后进行40个循环的扩增，每一循环分为两步，分别是95℃变性15秒，60℃退火1分钟。40个循环结束后，再60℃孵育一分钟。反应过程中使用SDS2.3软件采集数据。

3、将实时荧光定量PCR仪生成的sds格式的文件(ABI 7900HT qPCR仪输出)导入到软件Expression Suite Software v1.0.4中，每个基因的循环数(CT)阈值由软件自动判定。然后，计算待检测基因与选出的多个内参基因的几何平均值之间的差值(ΔCT),以2^-ΔCT作为分类基因的相对表达量。最后将各次实验采集到样本的EM/PM分型基因的表达数据汇总在一起，进行归一化处理，形成用于后续步骤分析的基因表达数据。

4、将步骤3的数据输入实施例3建立的模型中，得到分型结果。分型结果为这122例样本中有39例EM型胶质瘤，64例PM型胶质瘤以及18例EM^lowPM^low型胶质瘤。

5、按照个体化预测得到的EM/PM分型标签进行主成分分析，结果表明，该模型所预测的同一类型样本明显地聚集到了一起。

对上述实施例4中的122个样本和实施例3中的35例样本(独立验证队列)的临床数据进行分析可以看到：EM型胶质瘤患者的发病年龄高于PM型胶质瘤患者(EM型胶质瘤患者59.1±12.4岁，PM型胶质瘤患者：46.1±13.5岁)。EM型胶质瘤患者的生存时间显著低于PM型胶质瘤患者的。EM型胶质瘤患者的一年、两年、三年生存率分别为55％，21％及17％，而PM型胶质瘤患者的一年、两年三年生存率分别为87％，71％，68％(图5)。

Claims

1.检测特定基因表达量的物质和存储有EM/PM分型预测模型的介质在制备产品中的应用；所述产品的功能为胶质瘤分型或预测胶质瘤患者生存期；

所述特定基因为44个基因；

所述44个基因分为EM基因群、PM基因群和EMlowPMlow基因群；

所述EMlowPMlow基因群由如下4个基因组成：ENPP2、GABRA1、MAL和MOG；

所述EM/PM分型预测模型按照包括如下步骤的方法获得：

（1）分别检测n个样本的特定基因的表达量；

（2）取步骤（1）获得的所有样本的特定基因表达量的数据，通过一致性聚类算法将每个胶质瘤样本分为EM型、PM型或EMlowPMlow型；

（3）取步骤（1）获得的所有样本的特定基因表达量的数据和步骤（2）获得的所有样本的分型结果，通过支持向量机算法构建以特定基因表达量为输入以分型归属概率为输出的模型，即为EM/PM分型预测模型；

所述分型归属概率即某一样本为EM型的概率、为PM型的概率和为EMlowPMlow型的概率。

2.检测特定基因表达量的物质、存储有EM/PM分型预测模型的介质和记载有特定方法的载体在制备产品中的应用；所述产品的功能为胶质瘤分型或预测胶质瘤患者生存期；所述特定方法为方法A或方法B；

所述特定基因为权利要求1中所述的特定基因；

所述EM/PM分型预测模型按照权利要求1中所述的方法获得；

（a1）检测待测胶质瘤患者特定基因的表达量；

（a2）将待测胶质瘤患者特定基因的表达量输入所述EM/PM分型预测模型，由模型输出待测胶质瘤患者的分型归属概率；

（a3）根据待测胶质瘤患者的分型归属概率，获得待测胶质瘤患者的分型结果；判断标准为：若待测胶质瘤患者属于某一类型的概率大于70%，则判断患者属于该类型，若待测患者属于任一类型的概率均低于70%，则该患者为难以确定类型的非典型患者；

所述方法B为预测胶质瘤患者生存期的方法，包括如下步骤：

（a1）检测待测胶质瘤患者特定基因的表达量；

（a4）根据待测胶质瘤患者的分型结果按照如下标准对其进行生存期预后：EM型患者的生存期低于PM型患者的生存期。

3.如权利要求1或2所述的应用，其特征在于：所述检测特定基因表达量的物质为Taqman低密度芯片；所述Taqman低密度芯片上固定有用于扩增所述44个基因的引物对。

4.用于胶质瘤分型或预测胶质瘤患者生存期的试剂盒，包括检测特定基因表达量的物质和存储有EM/PM分型预测模型的介质；

所述特定基因为权利要求1中所述的特定基因；

所述EM/PM分型预测模型按照权利要求1中所述的方法获得。

5.如权利要求4所述的试剂盒，其特征在于：所述试剂盒还包括记载有权利要求2中所述的方法A或方法B的载体。

6.如权利要求4或5所述的试剂盒，其特征在于：所述检测特定基因表达量的物质为Taqman低密度芯片；所述Taqman低密度芯片上固定有用于扩增所述44个基因的引物对。

7.一种用于制备EM/PM分型预测模型的系统组合，包括系统甲、系统乙和系统丙；由所述系统甲检测n个样本特定基因的表达量，输出每个样本特定基因的表达量的数据；由系统乙接收系统甲输出的所有样本的特定基因表达量的数据，通过一致性聚类算法将每个样本分为EM型、PM型或EMlowPMlow型；由系统丙接收取系统甲输出的所有样本的基因表达量的数据和系统乙输出的所有样本的分型结果，通过支持向量机算法构建以特定基因表达量为输入以分型归属概率为输出的模型，即为EM/PM分型预测模型；所述分型归属概率概率即某一样本为EM型的概率、为PM型的概率和为EMlowPMlow型的概率；所述特定基因为权利要求1中所述的特定基因。

8.一种用于制备EM/PM分型预测模型的方法，包括如下步骤：

（1）分别检测n个样本特定基因的表达量；所述特定基因为权利要求1中所述的特定基因；

（3）取步骤（1）获得的样本的特定基因表达量的数据和步骤（2）获得的所有样本的分型结果，通过支持向量机算法构建以特定基因表达量为输入以分型归属概率为输出的模型，即为EM/PM分型预测模型；

所述分型归属概率即某一胶质瘤样本分类为EM型的概率、为PM型的概率和为EMlowPMlow型的概率。

9.下述任一产品；

（A）存储有权利要求1至8中任一所述的EM/PM分型预测模型的介质；

（B）权利要求3中所述的Taqman低密度芯片。

10.权利要求9所述产品在制备用于患者胶质瘤分型或预测胶质瘤患者生存期的产品中的应用。