CN102586418A

CN102586418A - 一种基于通路的特异性组合药物靶标检测方法

Info

Publication number: CN102586418A
Application number: CN2011103962870A
Authority: CN
Inventors: 王红强; 郑春厚; 陈鹏
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2011-12-02
Filing date: 2011-12-02
Publication date: 2012-07-18

Abstract

本发明公开了一种基于通路的特异性组合药物靶标检测方法，该方法由五个执行过程和一个核心检测模块所组成，即使用基因芯片进行基因表达数据采集、通路数据库构建、通路表达谱构建、特异性组合药靶检测训练集和测试集构建、基于gbLR的通路特异性信号检测模块、以及特异性组合药靶辨识。在基于gbLR的通路特异性信号检测模块中，使用gbLR模型引入回归推广性反馈，并融合多次的局部特异性信号检测结果来避免非显著特异性噪声干扰，提高了通路特异性信号检测精度和可靠性。相比现有方法，本发明方法使用gbLR模型，克服了通路特异性信号检测中的小样本问题，并不受现有药物的限制，提供了一种较为可靠、精确、实用的药物靶标检测方法。

Description

一种基于通路的特异性组合药物靶标检测方法

所属领域本发明涉及一种药物靶标检测方法，特别涉及一种基于通路的特异性组合药物靶标检测方法。

背景技术研制创新药物增强药物疗效有赖于特异性药物靶标检测。由于历史、经济及社会观念等原因所造成的研发投入的不足，我国创新药物研制水平相比国外总体比较落后，药品的来源长期依赖于仿制和进口，比如有关统计表明我国每年需进口药品达40亿美元以上。更加糟糕的是，在我国加入WTO以后，受低关税的驱使，大量的国外药品开始纷纷涌入我国的药品市场，不仅严重影响到了我国人民的健康和用药安全问题，也对我国医药产业的生存和发展提出了严峻挑战。受知识产权的限制，如何检测出具有较好特异性的药物靶标严重制约着我国制药业发展。发展高效的药物靶标检测方法促进创新药物的研制已经成为我国医药产业发展的面临的首要问题之一。

传统的药物靶标检测方法通常借助具有显著药理作用的药物，通过在分子水平上的药理学分析，最终筛选出药物靶标。比如在专利数据库检索中，我们就找到一条这样的药物靶标检测方法，它是由同济大学的储茂泉发明，被称作“量子点纳米荧光探针联合生物芯片寻找中药靶点的方法”(授权专利号为ZL200610024566.3)。然而，这种基于药理的药物靶标方法受现有药物种类和数量严重制约。随后，人们考虑使用具有药理作用的化合物替代已知药物进行基于药理的药物靶标检测。但总的来说，由于受规模、速度和耗费等因素的限制，这种基于药理的药物靶标检测方法很难实现药物靶标的大规模和高效率检测。

20世纪90年代出现的基因芯片技术使得人类获得了检测生物体内成千上万条基因表达含量的能力。最近几年，基因芯片技术日臻成熟，已经成为医学、药学等学科的基本科研工具和手段，有力地推动了生物科技、医疗等产业发展与创新。特别地，基因芯片技术也使得基于机理的药物靶标发现成为现实。很多国内外的制药公司已纷纷投入巨资开展基于基因芯片的药物靶标检测方法研究。一个著名的案例是史克公司通过发展一种基于基因芯片的方法发现了一个治疗骨质疏松的药物靶标，即Cathepsin K。

早期的，由于认识的不足，人们主要侧重于单分子药物靶标的检测。近年来，生命现象的复杂性使得人们逐渐认识到一种生物表型的出现往往涉及到多个基因，直至多个具有不同生物功能的通路。作为一种基本生物功能模块，通路协同工作，共同驱动了生物表型的实现。人们开始采用通路的方式进行特异性组合药物靶标检测。

当前，基于通路的特异性组合药物靶标检测已经成为药物靶标检测方法的研究焦点，其主要思路可简述如下：首先利用基因芯片技术获得生物体内基因表达图谱；然后通过研究通路的活动行为与表型间关联关系来进行特异性组合药物靶标的检测。在国内、国际论文数据库中，可以检索到近100篇相关论文。总的来说，现有的方法可以划分为下面三种类型：

(1)基于差异表达基因计数的方法

该类方法属于最早的一类方法，其主要工作过程如下：首先对通路中各单个基因随表型的表达差异显著性进行判别，统计出通路中的差异表达基因的数目，然后使用Fisher’s exact(FE)或χ²等假设检验方法估计该数目相对于随机背景下的统计显著性。该类方法的主要缺点在于其需要首先人为给定一个基因差异表达的阈值以确定通路中差异表达基因的数目。可想而知，不同阈值的选择将导致不同的特异性组合药物靶标检测结果。这种检测的不确定性难以从生物学上进行解释，以至于该类方法实际应用性不强。

(2)基于单基因差异性组合的方法

该类方法不需要对通路中差异表达基因进行判别，而只是在统计出每个基因的表达差异统计量之后，通过组合这些统计量检测通路作为特异性组合药物靶标的特异性信号。因此，该类方法能够克服第一类方法中单基因阈值难以选择的缺陷。较早的，Subramanian等人使用通路中基因秩统计量，结合加权KS变换方法检测通路的特异性信号[Subramanian et al，Gene Set enrichment analysis：A knowledge-based approach for interpreting genome-wide expressionprofiles，PNAS，vol.102，no.43，pp.15545-15550，2005]。Efron等人采用通路基因t-statistics的均值组合方式构建了maxmean组合差异统计量，实现了同时从Shift和Scale两个方面对特异性组合药物靶标检测[Efron Bradley and TibshiraniRobert，On testing the significance of sets of genes，The Annals of Applied Statistics，vol.1，no.1，pp.107-129，2007]。特别的，在该类方法中最具代表性的是Oron等人提出的GSEAlm方法[Oron et al.，Gene set enrichment analysis using linear modelsand diagnostics，Bioinformatics，vol.24，no.22，pp.2586-2591，2008]。该方法采用了著名的J-G统计量组合方式对通路中每个基因的t-statistics值进行组合，进而建立了更为有效的基于通路的特异性组合药物靶标检测方法。上述三个方法有一个共同点是都隐含地将基因划分为通路内和外两个组别。最近，Sartor等人[Satoret al.，LRpath：a logistic regression approach for identifying enriched biologicalgroups in gene expression data，Bioinformatics，vol.25，no.2，pp.211-217，2009]提出对这种基因划分进行显式地标记，然后在通过建立一种广义线性回归模型进行特异性组合药物靶标检测。该方法被称作LRpath方法。

(3)基于基因整合效应的方法该类方法强调如何利用基因间的关联关系信息来刻画通路的差异表达特性，在建模通路中基因整合效应的基础上来进行基于通路的特异性组合药物靶标检测。比如，Nettleton等人提出的基于非参数多变量分析的检测方法[Nettleton et al.，Identification of differentially expressedgene categories in microarray studies using nonparametric multivariate analysis.Bioinformatics，vol.24，no.2，PP.192-201，2008]。该类方法中最具代表性的是Geoman等人提出的Globaltest方法[Goeman et al.，A global test for groups ofgenes：testing association with a clinical outcome，vol.20，no.1，pp.93-99，2004]。该方法首先使用一种广义线性回归模型来建模通路中基因的整合效应，然后基于该整合效应定义通路特异性信号，最后根据通路的特异性信号的强度检测出特异性组合药物靶标。

在以上三类方法中，第一类方法属于最早的一类方法，简单直观，但其检测效果受很多因素的影响，并且在实际应用中的稳定性和可靠性不好。相比第一类方法，第二类方法不需要预先选择一个单基因阈值，同时由于能够进一步考虑基因的差异表达细节，获得了较第一类方法更好的特异性组合药物靶标检测性能。

相比第一、二类方法，第三类方法将整个通路中的基因作为一个整体，通过利用基因间广泛存在的关联关系建模通路中基因的整合效应，提高了特异性组合药物靶标的检测性能。然而，第三类方法的一个主要缺陷是难以克服通路中少数弱特异性基因所带来的噪声问题。从生物学上来看，由于一个基因可能具有多种功能，并参与多个基因通路，因此，即使是同一条特异性基因通路，也并不是其中所有的基因都被具有较强的特异性。另外，每个基因的特异性也受到包括基因表达检测信号强度以及检测过程系统性的误差等多种不可预见因素的影响。第三类方法往往强制假设通路中所有基因都具有显著的特异性。显然这种假设是不合理的，忽略了非显著性基因或检测误差等有关因素所引起的噪声问题，削弱了特异性组合药物靶标检测能力。

特别针对第三类检测方法的缺陷，本发明基于通路的特异性组合药物靶标检测方法发明并应用一种gbLR(generalization-based Logistic regression)模型来进行特异性组合药物靶标的检测，较好地克服了特异性组合药物靶标检测的小样本问题，具有更好的稳定性和实用性。

发明内容本发明的目的是克服现有药物靶标检测方法中的不足，通过构建一种基于推广性反馈的通路特异性信号检测模型(gbLR)，提出了一种新的基于通路的特异性组合药物靶标检测方法。本发明的方法不仅具有处理小样本问题的能力，而且检测精度也有大幅提高。相比现有方法，该方法提高了药物靶标检测的可靠性、实用性和精度。

本发明的目的是这样实现的，一种基于通路的特异性组合药物靶标检测方法，包括：

A、使用基因芯片进行基因表达数据采集

用户使用基因芯片进行组织样本的基因表达含量检测，通过对基因芯片上基因杂交信号的扫描，得到进一步处理的基因表达谱数据；

基因表达数据包括标准基因表达谱数据和阳性基因表达谱数据，其中，标准基因表达数据为正常组织样本的基因表达谱数据，相应的组织样本标签为0的数值；阳性基因表达谱数据为阳性组织样本的基因表达谱数据，相应的组织样本标签为大于0的数值；

B、通路数据库构建

从KEGG、文本文献等生物知识资源中收集通路信息，建立通路数据库，其中的每一条通路给出了一个潜在的特异性组合药物靶标；

C、通路表达谱构建

从所采集的基因表达谱数据中提取通路中每个基因的表达水平，建立组织样本的通路表达谱；

D、构建特异性组合药物靶标检测训练集和测试集

将组织样本的标签归一化为一个分布在[0，1]上的变量，并以k(k≥2)∶1的比例分割所有组织样本为训练集和测试集，为了保证不同标签下的组织样本在训练集和测试集中均衡分布，要求具有相同标签的组织样本在训练集和测试集中的比例也为k∶1；

E、基于gbLR的通路特异性信号检测模块

通路表达谱对包括阳性组织样本在内的所有组织样本标签的回归显著性反映了通路作为特异性组合药物靶标的特异性。gbLR(generalization-based LogiticRegression)通路特异性模型使用通路表达谱回归组织样本标签并引入回归推广性反馈来检测通路的特异性信号，具有更可靠的检测性能。gbLR方法描述如下：

首先，依据IRWLS(Iteratively Reweight Least Square)方法，从通路表达谱中随机抽取p个基因作为预测因子，使用训练集组织样本构建L＝100个如下罗切斯特回归模型，其中，e＝2.718为数学常数，x为组织样本的p个基因的表达谱，为罗切斯特回归模型的线性回归系数，

为组织样本的标签估计；

假设训练样本的数目为N，通路表达谱中的基因数目为m，在每个罗切斯特回归模型构建中，随机抽取通路表达谱中的p个基因作为预测因子，p可取为0.5×min(N，m)，其中min表示取最小值函数。然后，采用下式迭代求解罗切斯特回归模型的线性回归系数，

{\hat{β}}_{k + 1} = {\hat{β}}_{k} + {(X^{T} WX)}^{- 1} X^{T} (y - μ (X, {\hat{β}}_{k}))

y＝[y₁，y₂，L，y_N]

X＝[x₁，x₂，L，x_N]

μ (x_{i}, {\hat{β}}_{k}) = \frac{e^{{\hat{β}}_{k}^{T} x_{i}}}{1 + e^{{\hat{β}}_{k}^{T} x_{i}}}

ω_{i} = μ (x_{i}, {\hat{β}}_{k}) (1 - μ (x_{i}, {\hat{β}}_{k}))

其中，y_i和x_i分别为训练集中第i个组织样本的标签和p个基因的表达谱，N为训练集的大小；

迭代过程中，初始化

为长度为p的零矢量，迭代终止条件为赤池信息量(AIC)不再减小，

AIC = - 2 Σ_{i = 1}^{N} (y_{i} \ln (μ (x_{i}, β)) + (1 - y_{i}) \ln (1 - μ (x_{i}, β))) + 2 p,

其中ln为自然对数函数；

然后，估计所有组织样本的标签，基于每一个罗切斯特回归模型对训练集和测试集中的所有组织样本，使用通路表达谱执行组织样本的标签回归估计；

接着，计算罗切斯特回归模型负对数显著性，对每一个罗切斯特回归模型，使用包括训练集和测试集在内的所有组织样本计算其回归显著性统计量为

Fp = (Σ_{i = 1}^{M} {({\hat{y}}_{i} - \overset{&OverBar;}{y})}^{2} / p) / (Σ_{i = 1}^{M} {(y_{i} - \hat{y})}^{2} / (M - p - 1)),

其中，y_i和

分别为第i个组织样本的标签真实值与估计值，

为组织样本标签平均值，M为包括训练集与测试集在内的所有组织样本总数，p为罗切斯特回归模型中基因的数目；依据自由度为p和M-p-1的F分布计算Fp的p-Value值pV，进而获得罗切斯特回归模型的负对数显著性lv＝-log10(pV)；

最后，通过计算L个罗切斯特回归模型负对数显著性lv的中值获得通路作为特异性组合药靶的特异性信号；

F、特异性组合药物靶标辨识

采用罗切斯特回归模型p-value负对数显著性阈值t＝-log10(0.05)＝1.3，将步骤E所得到的通路特异性信号与常数阈值t进行比较：当通路特异性信号大于t时，判定通路为特异性组合药物靶标，否则拒绝作为特异性组合药物靶标。

相对于现有技术，本发明的有益效果是：

其一，本发明方法的整个流程由五个执行过程和一个核心检测模块所组成。其中，五个执行过程是：使用基因芯片进行基因表达数据采集过程、通路数据库构建过程、通路表达谱构建过程、构建特异性组合药物靶标检测训练集和测试集过程、特异性组合药物靶标辨识过程。一个核心检测模块为基于gbLR的通路特异性信号检测模块，由构建组织样本标签罗切斯特回归模型、回归所有组织样本标签、计算罗切斯特回归模型负对数显著性、获取通路特异性信号四个部分构成。可以看出，本发明的方法从基因的表达信号出发，采用通路的方式基于病变机理进行特异性组合药物靶标检测，能够较为精确、可靠、方便地检测药物靶标。

在基于gbLR的通路特异性信号检测模块中，仅仅使用训练集样本进行样本标签的罗切斯特回归模型构建，而在获取通路的特异性信号时，同时使用训练集和测试集，并引入回归推广性反馈，相比现有方法，这种通路特异性信号检测方法提高了检测的精度和可靠性。

另一方面，由于每一个罗切斯特回归模型都只是使用通路中的部分基因，基于gbLR的通路特异性信号检测模块有效克服了通路中非显著特异性基因噪声影响。更进一步的，由于最终的通路特异性信号为对多次检测结果的综合，所检测的通路特异性信号更加稳定、可靠。

结合实施例，附图4比较了本发明方法的gbLR模型与现有origLR模型p-Value稳定性。可以看出，几乎对所有的通路，gbLR模型都获得较origLR模型更高的p-Value相对集中度，证实了gbLR模型较好的可靠性和稳定性[这里，p-Value值稳定性以L＝100次随机p-Value结果的相对集中度c来表示，其计算方式如下：绘制100个p-Values的10-bin柱状图，假设10个bins中的最大频数为B，则相对集中度c为B/(100-B)]。附图5进一步考察了本发明方法的p-Value稳定性与通路特异性P间的关联关系，表明p-Value稳定性随着P的增大而增大，进一步证实了本发明方法的检测特异性组合药物靶标的可靠性。

其二，本发明方法克服了通路特异性信号检测中的小样本问题

基因表达数据大多都是小样本数据，即相对于上万的基因维数，组织样本数目通常只有几个或几十个。这种小样本问题使得许多方法的通路特异性检测不可靠。本发明方法提出仅仅使用通路中的部分基因进行通路特异性检测，不仅克服了非显著特异性基因对通路特异性的影响，也有效降低了通路特异性信号检测对大样本数目的依赖性。

其三，本发明方法不受现有药物的限制，能检测出由多个特异性分子组成的组合药物靶标。传统的药物靶标检测方法主要依靠对具有显著药理作用的药物进行分子药理学分析来进行药物靶标的检测，在实际应用中，往往受现有药物的限制，并难以大规模使用。同时，这些传统的检测方法通常只能检测出单分子药物靶标。相比这些传统检测方法，本发明的方法直接基于病变机理进行药物靶标检测，不受现有药物的限制，并能够同时检测出由多个特异性药靶分子组成组合药物靶标，具有较好的实用性。

附图说明

图1是本发明基于通路的特异性组合药物靶标检测方法流程图；

图2是基因芯片、基因表达谱和通路表达谱示例图；

其中，A为一张Affymetrix基因芯片示意图，B为12个基因在60个组织样本中的通路表达谱数据矩阵热图示例，C为基于4×12的基因芯片的基因表达谱检测扫描图示例；

图3是9条通路的100个随机p-Value负对数值柱状分布图；

图4是gbLR模型与现有origLR模型间的p-Value稳定性比较图；

图5是gbLR模型的p-Value稳定性与通路特异性信号P间的关联关系图；

图6是实施例中200条通路的特异性信号P值分布柱状图。

图7是本发明方法gbLR与现有方法的ROC特性比较图；

图8是本发明方法gbLR与现有技术方法的等错率比较图。

具体实施方式下面结合附图对本发明的具体实施方式作进一步的说明。

图1是本发明基于通路的特异性组合药物靶标检测方法流程图；图1给出了本发明方法的实施流程图。在图1中，本发明方法的整个流程由五个执行过程和一个核心检测模块所组成。其中，五个执行过程是：使用基因芯片进行基因表达数据采集、通路数据库构建、通路表达谱构建、构建特异性组合药物靶标检测训练集和测试集、特异性组合药物靶标辨识。一个核心检测模块是基于gbLR的通路特异性信号检测模块，由构建组织样本标签罗切斯特回归模型、回归所有组织样本标签、计算罗切斯特回归模型负对数显著性、获取通路特异性信号四个部分构成。

在具体实施时，用户首先使用基因芯片进行组织样本的基因表达含量检测，得到组织样本的基因表达谱数据及其量化标签，从KEGG、文本文献等生物知识资源中收集通路信息，建立通路数据库；然后，使用所采集的基因表达谱数据对所建立的通路数据库中的每一条通路构建组织样本通路表达谱，该通路表达谱被用于通路特异性信号的提取与特异性组合药物靶标检测；

在构建特异性组合靶标检测训练集和测试集过程中，将组织样本的标签归一化为一个分布在[0，1]上的变量，并以k∶1的比例分割所有组织样本为训练集和测试集；

在基于gbLR的通路特异性信号检测模块中，对每一个通路，循环执行下面例程L次：1)从通路中随机抽取少数几个基因作为预测因子，在训练集上建立组织样本的标签罗切斯特回归模型；2)基于所建立的回归模型，执行：i)回归训练集和测试集中样本的标签；ii)基于标签真实值与估计值计算回归模型F统计量的p-Value负对数显著性水平。L次循环结束后，对所获得L个p-Value负对数显著性取中值，作为通路的特异性信号；

最后，在特异性组合药物靶标辨识过程中，将通路的特异性与阈值t＝1.3(＝-log10(0.05))进行比较：当通路特异性信号大于1.3时，判定通路为特异性组合药物靶标，否则拒绝作为特异性组合药物靶标。

图2是基因芯片、基因表达谱和通路表达谱示例图。其中，子图A为实施例中检测肝癌数据所使用的高密度Affymetrix基因芯片示例，001-002为定位孔，003为探针阵列；B为12个基因在60个组织样本中的通路表达谱数据矩阵的热图示例；C为基于4×12的基因芯片杂交扫描图示例。

图3是9条通路的100个随机p-Value负对数值柱状分布图；在图3中，每个子图对应于一条通路，红色虚线标出了分布中心。可以看出每个通路的p-Value都不是均匀分布，而是类似单边或双边正态分布，使得检测信号分布相对集中，这种分布特性证实了多次通路特异性随机抽样检测的必要性和综合评估通路特异性信号的可靠性。

图4是gbLR模型与现有origLR模型间的p-Value稳定性比较图；相比origLR模型，gbLR模型增加了独立的测试集数据检测通路特异性信号。在该图中，相对集中度c值越大意味着p-Value的稳定性越好。可以看出，gbLR模型几乎对所有的200个通路都获得了比原始LR更高的p-Value相对集中度，表明了gbLR模型相比原始LR更好的p-Value计算稳定性。

图5是gbLR模型的p-Value稳定性与通路特异性信号P间的关联关系图；在图5中，每个小方框给出了每个离散点，实黑线为这些离散点的拟合曲线。可以看出，当P大于阈值1.3时，随着P的增大，gbLR模型的p-Value值越来越稳定，且相对集中度值都远大于1，表明了使用gbLR模型检测特异性组合药物靶标是有效和可靠的。

图6是实施例中200条通路的特异性信号P值分布柱状图；在图6中，蓝色虚线标出了两个信号中心，蓝色中心线标出了阈值1.3。可以看出，P值分布呈类双正态混合分布，并且两个信号中心分布在阈值1.3两边。这种类双正态混合分布特性恰好与200条通路中关于是否可作为特异性组合药物靶标的划分相对应，证实了gbLR模型用于特异性组合药物靶标检测的合理性与可靠性。

图7是本发明方法gbLR与现有方法的ROC特性比较图；在图7中，横坐标表示特异性组合药物靶标检测的假阳性率，纵坐标为真阳性率。ROC(Receiver operating characteristic)曲线给出了假阳性率FPR与真阳性率TPR随决策阈值变化的关联关系。当ROC曲线越接近于左上角时，即同样的FPR具有较小的FPR，检测方法的检测性能就越好。从图7可以看出，本发明方法的特异性组合药物靶标检测性能要明显好于三个现有技术的方法。

图8是本发明方法gbLR与现有技术方法的等错率比较图。在图8中给出了每个方法的假阳性错误率FPR与假阴性错误率FNR随决策阈值的变化曲线，其交点即为等错率EER。等错率EER常被用以评价检测方法的综合性能，EER越小，表明检测方法的综合错误率越低。可以看出，三个现有技术方法的EER值分布在04-0.6之间，而本发明gbLR的方法获得了小于0.3(即0.2723)的EER值，证明本发明的方法具有较低的特异性组合药物靶标检测综合错误率。

实施例

1)基因表达谱数据采集

日本山口大学的Iizuka等人[Iizuka et al.Oligonucleotide microarray forprediction of early intrahepatic recurrence of hepatocellular carcinoma after curativeresection，Lancet 2003，361：923-29]使用高密度寡核苷酸基因芯片检测了60个肝组织样本的基因表达谱，其中有20个组织样本为复发性癌变组织。本实施例使用该数据验证本发明的方法，目标为检测复发性肝组织癌变的特异性组合药物靶标。为此，将20个复发性癌变样本的基因表达谱数据作为阳性基因表达谱数据，组织样本标签为1，剩余的40个组织样本的基因表达谱数据作为标准基因表达谱数据集，组织样本标签为0。

2)通路数据库及通路表达谱建立

从KEGG等在线生物知识资源中收集了200个基因通路，如下表所示，构建通路数据库。在该数据库中，有91条[在下表中用粗体标出]与肝癌复发相关[http://www.megabione-t.org/hcc/pathway.php]可作为特异性组合药物靶标。该通路数据库被用于检测复发性肝癌特异性组合药物靶标。对该数据库中的每条通路，由基因表达谱数据，建立相应的通路表达谱。附图2中子图B给出了一个通路表达谱实例图。

3)基于gbLR的通路特异性信号检测

对通路数据库每条通路，设置L＝100次，每次随机选择的基因数目p取为20(≈41/2)和b/2中的最小值，其中b表示通路表达谱包含的基因数目。附图6给出200个通路的特异性信号P的柱状分布图。可以看出，P值分布呈两个类正态分布的混合分布，并且两个中心分布在决策阈值1.3两边。这种类双正态混合分布特性恰好与200个基因通路中的是否为特异性组合药物靶标的两组别划分相对应。

4)实验结果分析

结合本实施例，对本发明方法的性能，从ROC性能分析、检测敏感性与特定性分析、综合检测性能分析(检测正确率和检测误差率)和处理速度分析四个方面进行评估。

a、ROC性能分析

ROC曲线图由不同特异性信号决策临界值下的真阳性率和假阳性率在二维坐标下所绘制。ROC曲线下的面积(又称为AUC，Area Under Curve)越大，对应的检测方法的特异性组合药物靶标辨识能力就越强。附图7展示本发明方法与现有技术的三个典型方法的ROC曲线。下表给出了四个方法的AUC值，可以看出，本发明的方法gbLR获得了最大的AUC值0.7437，而LRpath、GSEAlim和Globaltest方法的AUC都在0.6以下。这一结果表明本发明方法具有更好的特异性组合药物靶标辨识能力。

Lrpath	GSEAlim	Globaltest	gbLR
				0.4159	0.5829	0.527	0.7437

b、检测的敏感度(Sensitivity)与特定性(Specificity)分析

敏感度度量了检测方法对特异性组合药物靶标的检测灵敏性，特定性指标反映了检测方法摈除非特异性药物靶标干扰的能力。下表列出了给定敏感度(0.7)下，本发明方法gbLR与三个现有技术方法特定性值，以及给定特定性值0.7下，各方法的敏感度值。可以看出，不管是指定敏感度或特定性，本发明的方法都获得了较好的特定性或敏感度性能，即相同敏感度下具有更高的特异性组合药物靶标检测特定性；相同特定性下具有较高的特异性组合药物靶标检测敏感度。

c、综合检测性能分析

特异性组合药物靶标检测性能的综合评价指标主要包括检测正确率和检测错误率两种。

检测正确率定义为正确检测特异性组合药物靶标和正确排除非特异性组合药物靶标总数占通路数据库中通路总数的比例。对数据库中的200条通路，本发明方法与三个现有技术方法获得的检测正确率如下：0.73(gbLR)、0.540(Lrpath)、0.535(GSEAlim)和0.535(Globaltest)。可以看出，本发明方法gbLR获得了较高的检测正确率。

特异性组合药物靶标检测误差包括错误检测误差FPR和错误排除误差(FNR)两种。随着特异性决策阈值的变化，FPR与FNR呈反比变化关系，并在某一阈值点上达到等值，该等值被定义为等错率EER。通常用等错率评价方法的综合错误率：EER越小，意味着综合检测性能越好。附图8给出了本发明方法与三个现有技术方法的FPR-FNR的变化曲线。从该图可以发现，现有技术方法的EER分布在04-0.6之间，而本发明方法gbLR的EER为0.2723，证实了本发明方法具有较低的综合检测误差。

d、处理速度分析

处理速度是评价检测方法实际应用性能的一项重要指标。较快的处理速度与较小的时间消耗将有利于检测方法在实际中的应用。本发明方法的处理速度主要受两个参数影响，即通路表达谱中基因数目和组织样本数目。本验证实验所使用的组织样本的数目为60，其中训练集和测试集大小分别为40和20；通路数据库中200条通路的平均基因数目为70。对实验的运行监测表明，200条通路的平均处理时间是4.1微秒。处理时间主要花费在通路特异性信号检测上，在每一条通路上构建L＝100个罗切斯特回归模型并获得通路特异性信号的平均时间为2.4微秒。可以看出，本发明方法具有较快的处理速度。实施例是在主频为2.2GHz的双核奔腾处理器、内存为2.00GB的电脑上完成的，操作系统为专业版Window XP，使用的软件平台为VC++。

Claims

1.一种基于通路的特异性组合药物靶标检测方法，其特征在于：所述方法采用基于gbLR的通路特异性信号检测模块检测特异性组合药物靶标，方法的步骤是：

A、使用基因芯片进行基因表达数据采集

使用基因芯片进行组织样本的基因表达含量检测，通过扫描基因芯片上基因杂交信号，得到进一步处理的基因表达谱数据，基因表达数据包括标准基因表达谱数据和阳性基因表达谱数据；

B、通路数据库构建

从KEGG生物知识资源中收集通路信息，建立通路数据库，其中的每一条通路给出了一个潜在的特异性组合药物靶标；

C、通路表达谱构建

从采集的基因表达谱数据中提取通路中每个基因的表达水平，建立组织样本的通路表达谱；

D、构建特异性组合药物靶标检测训练集和测试集

将组织样本的标签归一化为一个分布在[0，1]上的变量，并以k∶1的比例分割所有组织样本为训练集和测试集，为了保证不同标签下的组织样本在训练集和测试集中均衡分布，要求具有相同标签的组织样本在训练集和测试集中的比例也为k∶1；

E、基于gbLR的通路特异性信号检测模块

使用通路表达谱回归组织样本标签并引入回归推广性反馈来检测通路的特异性信号，包括基于gbLR的通路特异性信号检测模块中，对每一个通路给出一个潜在的特异性组合药物靶标，循环执行下面例程：

a、构建组织样本标签的罗切斯特回归模型，从通路中随机抽取p个基因作为预测因子，在训练集上建立组织样本标签的罗切斯特回归模型，其中，p取为0.5×min(N，m)，N为训练样本的数目、m为通路表达谱中的基因数目、min表示取最小值函数，重复L次，构建L个组织样本标签的罗切斯特回归模型：

其中，x为组织样本的p个基因表达谱、

为罗切斯特回归模型的线性回归系数、

为组织样本的标签估计、e为数学常数；

b、估计所有组织样本的标签，基于所建立的组织样本标签的罗切斯特回归模型

对所有训练集和测试集中的组织样本的标签进行回归估计；

c、计算罗切斯特回归模型负对数显著性，基于训练集和测试集中组织样本的标签真实值与估计值计算罗切斯特回归模型的p-Value负对数显著性，是对每一个罗切斯特回归模型，用所有组织样本估计其F统计量的p-Value值pV，然后依据pV计算罗切斯特回归模型的p-Value负对数显著性为lv＝-log10(pV)；

d、获取通路特异性信号，L次循环结束后，通过基于L个组织样本标签罗切斯特回归模型的通路特异性检测，对所获得L个p-Value负对数显著性取中值，作为通路的特异性信号；

F、特异性组合药物靶标辨识

采用罗切斯特回归模型p-value负对数显著性阈值t，将步骤E所得到的通路特异性信号与该阈值t进行比较：当通路特异性信号大于阈值t时，则判定通路为特异性组合药物靶标，否则拒绝作为特异性组合药物靶标。

2.根据权利要求1所述一种基于通路的特异性组合药物靶标检测方法，其特征是：A步骤中，所述基因表达数据包括标准基因表达谱数据和阳性基因表达谱数据，其中，标准基因表达谱数据为正常组织样本的基因表达谱数据，相应的组织样本标签为0的数值，阳性基因表达谱数据为阳性组织样本的基因表达谱数据，相应的组织样本标签为大于0的数值。

3.根据权利要求1所述一种基于通路的特异性组合药物靶标检测方法，其特征是：D步骤中，所述将组织样本的标签归一化为一个分布在[0，1]上的变量，并以k∶1的比例分割所有组织样本为训练集和测试集，其中k≥2。

4.根据权利要求1所述的一种基于通路的特异性组合药物靶标检测方法，其特征是：E步骤中，所述重复L次，构建L个组织样本标签的罗切斯特回归模型，

是使用IRWLS方法构建，其中的L＞50，罗切斯特回归模型的线性回归系数

通过反复迭代进行估计，直至赤池信息量不再减少。

5.根据权利要求1所述的一种基于通路的特异性组合药物靶标检测方法，其特征是：F步骤中，所述采用罗切斯特回归模型p-value负对数显著性阈值t，其中的t为1.3(＝-log10(0.05))。