CN108664769A

CN108664769A - 基于癌症基因组和非特异性基因标签的大规模药物重定位方法

Info

Publication number: CN108664769A
Application number: CN201710208722.XA
Authority: CN
Inventors: 韩敬东; 徐迟
Original assignee: Shanghai Institutes for Biological Sciences SIBS of CAS
Current assignee: Shanghai Institutes for Biological Sciences SIBS of CAS
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2018-10-16
Anticipated expiration: 2037-03-31
Also published as: CN108664769B

Abstract

本发明涉及基于癌症基因组和非特异性基因标签的大规模药物重定位方法。本发明首次揭示一种通过整合分析大规模、不同癌症类型的转录组数据，来提取无组织来源背景的单个人类编码基因突变的表达谱核心标签的方法。基于核心标签，本发明首次提供了针对人体内环境的、非以往基于模式动物或细胞的、可以全面覆盖8,000多个人类基因组潜在药物靶基因的药物重定位方法，并首次设计了衡量药物‑靶基因相互作用特异性的定量指标，从而实现了大规模全面分析人类药物靶基因的药物重定位分析方法，为药物靶点设计和人类疾病的治疗提供新的途径。

Description

基于癌症基因组和非特异性基因标签的大规模药物重定位方法

技术领域

本发明属于生物信息学领域，更具体地，本发明涉及基于癌症基因组和非特异性基因标签的大规模药物重定位方法。

背景技术

目前的制药产业主要面临三大挑战。一，药物研发期间高昂的成本投入，与最终能有效用于临床的药物产出不成比例。二，环境的剧烈变化和人口老龄化趋势使得市场对于药物开发的需要与日俱增。三，目前的药物研发多基于细胞体外筛选和模式动物测试，但最终大多数对人体无效或有强副作用无法用于临床治疗。为了加速药物研发进程并减少风险，人们逐渐将目光转向药物重定位研究。著名的药物重定位案例包括：西地那非，用于治疗肺动脉高血压过高和勃起障碍；萨利多安，用于治疗麻风结节性红斑；以及视黄酸，用于治疗急性早幼粒细胞白血病。

通过计算机分析手段对药物基因组数据整合分析，已经在药物重定位研究中取得显著进展。与传统大规模实验筛选相比，利用已有数据的计算机分析弥补了其应用限制并且节省了巨大经济成本。

为了利用已有的药物基因组数据研究药物的靶向基因或疾病，人们同时着手建立了供分析单个基因或疾病状态的表达谱标签，然后与药物基因组数据相整合，以预测药物重定位。然而，据本发明人所知，能够高通量地同时分析全基因组基因靶点、并且基于真实人体内环境的药物重定位算法还未被实现。阻碍其开展的障碍有四。一，从现有的数据库去挖掘全基因组基因的表达谱标签，会面临数据平台不一致、数据批次差异等问题，使得无法进行统一量化分析。二，少量现存的统一化分析处理的开放数据没有覆盖所有基因靶点，如The Encyclopedia of DNA Elements(ENCODE)数据库仅包含430个转录因子，相较于人类基因组约25,000个基因来说覆盖面太窄。三，现有的用于分析基因表达谱标签的数据多来源于遗传学实验数据，然而这些实验只能在细胞系或模式动物上开展，无法在人体实施，因而真正来源于人体的代表基因功能的表达谱标签尚未被获取。四，现有的所有数据都携带组织来源特异性背景，按传统常规方法分析得到的表达谱标签也会受此干扰。

从一个特定细胞、组织或疾病类型的样本中提取的基因表达谱标签，可以用于分析该特定生物学情况下的分子机制。然而，存在于这些基因表达谱标签中的组织来源背景，使其无法与其他组织来源的数据相整合。将两个不同组织来源的基因表达谱标签和药物处理数据一起分析时，无法判定算法预测的结果是由于其组织来源的差异导致的，还是来源于真实的药物和基因的靶定关系。又或者，人们可以限定只分析来源于同一细胞或组织的基因表达谱标签和药物处理数据，但这会大大限制可供研究的药物及靶基因的规模。

因此，还需要一些改进的手段来解决上述问题，给出切实可行的大规模药物重定位方法。

发明内容

本发明的目的在于提供基于癌症基因组和非特异性基因标签的大规模药物重定位方法。

在本发明的第一方面，提供一种基于多种癌症类型转录组数据整合分析、来构建无组织来源背景的单个人类编码基因突变的表达谱核心标签的方法，该方法包括：

(1)以癌症转录组数据库为基础，在多种癌症类型中分别获取基因Gx的各种基因突变类型的表达谱标签；在每一癌症类型中的该基因Gx的各种突变类型(通过与同组织来源正常组比较)，定义为该基因的不同表达谱核心标签；获得该基因的所有突变类型的表达谱核心标签合集；

(2)对于(1)定义的表达谱核心标签合集，消除组织来源背景；

(3)对于(2)的表达谱核心标签合集，移除癌症的背景效应；

(4)排除非单基因突变的核心标签，使得每个表达谱核心标签代表单个基因的突变，以获得该基因的基因突变的表达谱核心标签；

(5)依次变换基因Gx，重复步骤(1)～(4)，提取n种(n为2～30000的正整数)基因的基因突变的表达谱核心标签。

本发明所述的方法，基于多种癌症类型转录组数据进行大规模整合分析、构建无组织来源背景的单个人类编码基因突变的表达谱核心标签，并基于此，全面分析人类药物靶基因的药物重定位和药物-靶基因相互作用特异性。

在一个优选例中，所整合分析的癌症是两种或两种以上的癌症，非单一一种癌症。

在另一优选例中，步骤(1)中，将携带基因突变的癌症病人样本与同组织类型的正常样本进行比较，并且将不同突变类型的情况分别分析，从而获取各种基因突变类型的表达谱核心标签。

在另一优选例中，步骤(1)中，所述的癌症转录组数据库包括(但不限于)：TheCancer Genome Atlas(TCGA)数据库。

在另一优选例中，步骤(2)中，所述的消除组织来源背景是：若基因Gx的一种突变类型只发生在两个组织内，该基因的该突变类型在这两组织内的差异表达基因的重叠部分，作为该基因的该突变类型的核心表达谱核心标签；如果基因Gx的一种突变类型发生在N个组织类型中且N>2，那么，出现在多于N/2(向上取整)个组织类型的差异表达基因集合作为核心表达谱核心标签。

在另一优选例中，步骤(3)中，将在超过50％癌症类型(即：相当于步骤(1)中所述的“多种癌症类型”的50％的癌症类型)中一致差异表达的基因作为癌症背景基因，并从表达谱核心标签中移除癌症背景基因，以消除癌症背景的影响。

在另一优选例中，所述的基因包括(但不限于)信号通路基因，覆盖人类所有编码基因；较佳地是关键信号通路基因；更佳地是负责编码受体、酶、离子通道、信号级联因子以及转录因子的关键信号通路基因。

在另一优选例中，步骤(5)中，使该方法应用于将近30,000个人类编码基因来依次获取它们的表达谱核心标签；依次变换基因Gx，重复步骤(1)～(4)，提取n种(n为2～30,000的正整数)基因的基因突变的表达谱核心标签。

在本发明的第二方面，提供一种药物重定位的方法，所述方法包括：

(a)以所述的方法获得基因突变的表达谱核心标签；

(b)以药物处理样本(如细胞)表达谱数据库为基础，获取药物处理表达谱标签；

(c)将(a)的基因突变的表达谱核心标签与(b)的药物处理表达谱标签进行比较、分析，从而进行药物的重定位。

在一个优选例中，步骤(b)中，所述的药物处理样本表达谱数据库包括(但不限于)：Connectivity Map(CMap)，NCI-60Human Tumor Cell Lines Screen，Genomics ofDrug Sensitivity in Cancer(GDSC)。

在另一优选例中，步骤(c)中，所述的方法包括：

(i)将前面任一所述的方法获得基因突变的表达谱核心标签，根据基因的表达谱变化，分为基因突变表达谱标签上调的集和基因突变表达谱标签下调的集；

(ii)通过基因集富集分析方法，用因突变导致的表达谱标签的表达水平上调的集和表达水平下调的集分别扫描药物处理表达芯片的表达谱变化排序的基因列表，来得到表达谱标签有显著重叠的药物-基因相互作用关系(较佳地，p值<0.05)；

(iii)为每个基因突变生成随机标签，替换其表达谱核心标签，重复上述步骤100～5,000次(较佳地800～2000次，如1,000次)，以计算错误发现率，得到经过显著性校正筛选后的药物-基因相互作用(较佳地，错误发现率<0.25)；

(iv)将每一对药物-基因相互作用标记上激活或抑制的药物靶定方式；如果一个基因突变的上调的表达谱核心标签与一个药物处理表达谱标签的富集分数(normalizedenrichment score(NES))是正的，下调的核心标签与该药物处理表达谱标签的富集分数是负的，则说明该基因突变的核心标签的表达变化图谱与该药物的处理表达谱标签相一致，认为该药物处理抑制该基因的活性；如果一个基因突变的上调的核心标签与一个药物处理表达谱标签的富集分数是负的，下调的核心标签与之的富集分数是正的，则说明该基因突变的核心标签的表达变化图谱与该药物的处理表达谱标签相反，认为该药物激活该基因的活性。

在另一优选例中，所述的方法，还包括步骤：

(v)取富集分数的绝对值的最大值作为这对药物-基因相互作用的标签比对分数(pattern score)；如果一对药物-基因的靶定方式是抑制，那么标签比对分数即是它们的药物-基因富集分数；反之如果是激活，那么标签比对分数的负值即使它们的药物-基因富集分数。

在另一优选例中，所述的方法还包括评估药物的特异性的步骤，包括：定义药物-基因连结特异性指数(drug-gene connection specificity index(d2gCSI))，对于一个药物及其M(M为正整数)个候选靶基因，首先获得该药物和这M个基因的标签基因的表达变化的皮尔森相关系数(pearson correlation coefficient(PCC))；然后，对这M个基因的每一个，获得与该药物的皮尔森相关系数比该基因高的基因个数m，m越小，表明该药物靶定该基因的特异性越强；然后，对于每一个基因，获得1-m/M作为该基因和该药物的药物-基因连结特异性指数；最后，对所有药物-基因相互作用的药物-基因富集分数和连结特异性指数分别进行自动化模块聚类并整合分析，将显著突出的药物-基因模块提取出来，找出潜在的信号通路基因的特异的抑制性药物或激活性药物。

本发明的其它方面由于本文的公开内容，对本领域的技术人员而言是显而易见的。

附图说明

图1、从癌症转录组构建基因突变的核心标签的步骤示意图。

图2、基因突变核心标签来源的突变类型的百分比例。

图3、基因突变核心标签和药物处理转录组数据整合分析的示意图。

具体实施方式

本发明人经过广泛的研究，揭示了一种通过分析大规模、不同癌症类型的转录组数据，来提取基因突变的无组织来源背景的核心标签的方法。本发明还提供了可以全面覆盖人类基因组并且基于人体内环境的药物重定位方法。

术语

如本文所用，“核心标签(core signatures)”是指单基因突变导致的在多个组织下一致引起的、无组织特异性的核心差异表达基因集。

如本文所用，“组织来源背景”是指来自不同组织的同一个基因，其在不同组织中表达会存在差异，表达谱会有不同，这种不同导致的背景称为“组织来源背景”。

如本文所用，所述的“无组织特异性的核心标签(non-tissue specific coresignatures(CSs))”是指消除了组织来源背景的核心标签。

如本文所用，“药物重定位”是指基于已知的药物，来寻找该药物的新的靶点或功能，以扩展已知药物的临床应用。由于已知药物或已被批准的药物一般已经通过临床检测测试，用药的安全性和作用机制能被更好地控制和把握。

如本文所用，“基因表达谱(Gene Expression Profile)”是指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库，大规模cDNA测序，收集cDNA序列片段、定性、定量分析其mRNA群体组成，从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息，这样编制成的数据表就称为基因表达谱。基因表达谱的制备以及基因表达谱数据之间的比较是本领域技术人员熟知的技术，目前现有技术中也已经有测试基因表达谱的仪器，以及用于基因表达谱之间比较的仪器、程序或软件。

构建核心标签

本发明提供了一种基于癌症转录组数据库来构建基因突变的表达谱核心标签的方法，该方法包括：

(2)对于(1)定义的表达谱核心标签合集，消除组织来源背景；

(3)对于(2)的表达谱核心标签合集，移除癌症的背景效应；

(4)排除非单基因突变的的核心标签，使得每个表达谱核心标签代表单个基因的突变，以获得该基因的基因突变的表达谱核心标签；

(5)使该方法应用于将近30，000个人类编码基因来依次获取它们的表达谱核心标签。依次变换基因Gx，重复步骤(1)～(4)，提取n种(n为2～30000的正整数)基因的基因突变的表达谱核心标签。

细胞信号接收并响应外来刺激，调节基因表达、细胞代谢和发育。现今，细胞信号通路已被作为重要的药物靶点来研究。在不同组织和细胞类型中，核心信号通路及其下游的目标基因通常是一样的，然而最终会产生的效应非常不同。因此，本发明中，较为优选地是从信号通路基因中确定感兴趣的核心标签；较佳地是关键信号通路基因；更佳地是负责编码受体、酶、离子通道、信号级联因子以及转录因子的关键信号通路基因。

本发明的方法，应用癌症转录组数据库为基础来确定基因突变的表达谱核心标签。尽管反向遗传学在人类组织中很难实施，但是人类癌症基因组包含了天然的全基因组的基因突变，覆盖了绝大多数人类基因。

多种本领域已被开发、应用的癌症转录组数据库均可被应用于本发明中。较佳地，所述的癌症转录组数据库包含两种或两种或两种以上的癌症类型的数据(较佳地为表达谱数据)；更佳地为五种以上；进一步更佳地为十种以上。例如，所述的癌症转录组数据库包括(但不限于)：The Cancer Genome Atlas(TCGA)数据库。

作为本发明的优选实施方式，所述的癌症转录组数据库是TCGA数据库。TCGA数据库提供了超过20种癌症类型的数千组高质量的转录组数据，同时包含组织类型匹配的正常对照数据。包含某个基因体细胞突变的癌症样本，可被用于研究该基因被干扰后的转录组标签。并且，TCGA丰富的癌症组织来源使得搜寻不同组织间的差异表达基因(或标签基因)的共同集合、来作为该基因突变的在不同组织中的核心标签成为可能。

本发明人观察到，尽管是同一个基因，其不同的突变类型也常常导致不同的表达谱变化。这暗示了一个基因的不同突变类型会导致不同的下游反应。因此，本发明人将不同突变类型分别分析。本发明人将来源于相同组织的癌症认为是属于同一组织来源。因此，本发明的方法包括消除组织来源背景的步骤，所述的消除组织来源背景是：若基因Gx的一种突变类型只发生在两个组织内，该基因的该突变类型在这两组织内的差异表达基因的重叠部分，作为该基因的该突变类型的核心表达谱核心标签；如果基因Gx的一种突变类型发生在N个组织类型中且N>2，那么，出现在多于N/2个组织类型的差异表达基因集合作为核心表达谱核心标签。

在本发明的实施例中，兼顾消除数据的组织来源特异性背景、并且使得方法可覆盖任何感兴趣的靶基因，本发明人构建了统一化分析方法来分析TCGA的转录组数据，以提取任意基因或关键信号通路突变的无组织特异性的核心标签(CSs)。通过本发明实施例1的方法，本发明人提取了8476个在TCGA中有足够突变样本的编码基因(包含2052个药物靶基因及关键信号通路基因)的核心标签。

药物重定位

基于所构建的核心标签，本发明还提供了应用所述核心标签进行药物重定位的方法，所述方法包括：

(a)获得基因突变的表达谱核心标签；

所述的药物处理样本表达谱数据库是指包括了药物处理后的细胞全基因组表达图谱和细胞对药物的敏感性图谱等数据的一类数据库。本领域已经建立的相关数据库例如包括：Connectivity Map(CMap)，NCI-60Human Tumor Cell Lines Screen以及Genomicsof Drug Sensitivity in Cancer(GDSC)等，这些数据库均可被应用于本发明中。

作为本发明的一种具体实施方式，从Connectivity Map(CMap)数据库来获取数据，较佳地，从CMap数据库的微阵列芯片中分析得到药物处理表达谱标签，以与核心标签整合分析。

在本发明的具体实施例中，基于本发明的药物重定位方法，将本发明的方法所确定的核心标签和3546组药物处理数据进行比对，确定了5362359个药物重定位候选结果，其中包括了为未知靶点药物预测的2511089个药物-基因相互作用关系。

本发明的方法中，在获得了药物重定位候选结果后，还包括：针对药物重定位后确定的功能(潜在治疗效果)，进行进一步的细胞实验/动物实验验证，以确定药物对于患病个体的治疗效果。

本发明的方法的应用

本发明建立了一套全新的方法，通过分析大规模、不同癌症类型的转录组数据，来提取基因突变的无组织来源背景的核心标签，用于高效准确地重定位药物靶点。常规的遗传学基因干扰实验是在特定细胞或组织中进行的，只能用于捕捉最下游的特定状态(特定细胞或组织)的表达谱变化。相反，核心标签，来源于自然人体多个组织的共同表达谱变化，能够反映更上游、更核心的信号通路变化。

与来源于特定细胞或组织的基因表达谱标签相比，核心标签有以下优势。首先，核心标签可用于整合于不同组织来源的数据而不会引入组织特异背景。第二，尽管本发明人已经提取了的2,052个核心标签覆盖了大量的药物靶点，但是除此之外，本发明人的方法可以方便地被扩展到任何感兴趣的基因。基于目前的TCGA数据，本发明人一共构建了8,476个有足够突变样本的人类编码基因的核心标签。第三，核心标签来源于人体内自然产生的突变，比模式动物或细胞试验更加接近人类生理状态，基于此的药物重定位可更进一步被应用到人类疾病的治疗中。

综上所述，本发明人的方法可基于核心标签预测数以百万计的潜在的药物重定位，为每对药物-基因相互作用提供了靶定方式的预测，并且量化了药物-基因相互作用的特异性指标，以避免脱靶效应。本发明提供了第一个可以全面覆盖人类基因组并且基于人体内环境的药物重定位方法，可为今后的药物重定位研究提供大量研究资料。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，或按照制造厂商所建议的条件。

实施例1、从癌症转录组构建关键信号通路基因的核心标签

为了构建关键信号通路的核心标签，本实施例中，收集了4,895个负责编码受体、信号级联因子以及转录因子的关键信号通路基因。

TCGA数据库提供了超过20种癌症类型的数千组高质量的转录组数据，同时包含组织类型匹配的正常对照数据。本实施例中，以TCGA数据库作为确定核心标签的基础。

基于TCGA数据库，本发明人设计了5个步骤来实现核心标签的构建(图1)。对每一种癌症类型来说，携带某基因的一种突变类型(错义突变、无义突变、移码突变删除或插入等)的病人样本组被定义为处理组，与同组织类型的正常控制组比较来找到该基因在这种癌症类型的不同的突变类型的表达谱标签(图1，步骤1，2)。

尽管是同一个基因，其不同的突变类型也常常导致不同的表达谱变化。因此，本发明人将不同突变类型分别分析。本发明人将来源于相同组织的癌症认为是属于同一组织来源。为了将组织来源背景消除，本发明人规定：如果一个基因的一种突变类型只发生在两个组织内，该基因的该突变类型在这两组织内的差异表达基因的重叠部分，作为该基因的该突变类型的核心标签；如果一个基因的一种突变类型发生在N个组织类型中(N>2)，那么，出现在多于N/2个(向上取整)组织类型的差异表达基因集合作为核心标签(图1，步骤3)。

然后，为了全面分析该基因的下游效应，本发明人将该基因的所有突变类型的核心标签的合集，作为该基因的核心标签(图1，步骤4)。

由于所有分析都基于癌症样本数据，因此癌症本身的背景效应需要被移除。为此，本发明人检测出87个在超过50％癌症类型稳定表达的基因作为癌症背景基因，然后将它们从核心标签中去除(图1，步骤5)。

如果用于提取某个核心标签的样本含有多个共同基因的体细胞突变，那么弃用该核心标签，以保证每个核心标签只代表一个基因。

通过该方法，本发明人成功提取出了2,052个关键信号通路基因的核心标签。其中，超过98％的核心标签来自于错义突变，因为该突变类型在癌症中最为普遍(图2)。根据TCGA基因突变注释信息显示，绝大多数错义突变发生在蛋白质编码区域或功能结构域，因此能导致基因或蛋白功能失活，如：乳腺浸润性导管癌和急性髓性白血病中，82,816/90,489(92％)和2,356/2,585(91％)的错义突变位点位于功能结构域。除错义突变外，只有和癌症发生和进展相关的基因有足够的样本携带其他的突变类型供分析(≥3的突变样本和≥3的正常对照样本)，如TP53。

随后，本发明人将该方法应用到所有约25,000个人类编码基因上，最终总共得到8476个编码基因的核心标签。

实施例2、基于基因核心标签和药物处理转录组数据的药物重定位

为了将核心标签应用于药物重定位，本发明人从CMap数据库的微阵列芯片中分析得到3,546个药物处理表达谱标签，以与核心标签整合分析。CMap数据库包含1,309个药物在3个人类癌细胞系的芯片数据。每一个药物的不同细胞系数据分开分析。因为本发明人发现，尽管对于同一个药物，只有4％在不同细胞系中有超过100个共有的差异表达基因，37％的药物在不同细胞系中没有任何共有的差异表达基因。这表明绝大多数药物在不同细胞系中有不同的表达谱标签。

为了整合分析基因突变的核心标签及药物处理表达谱标签，本发明人评估了的他们表达谱标签的重叠情况，并根据表达谱比对关系的相同或相反，来预测其药物靶定方式(抑制或激活)。本发明人定义了药物-基因富集分数(drug-to-gene normalizedenrichment score(d2gNES))，根据预测的靶定方式赋予其正号或负号，由基因集富集分析软件(Gene Set Enrichment Analysis(GSEA))实施(图3)。

本发明人将核心标签根据基因的表达谱变化，分为上、下调基因集，然后利用基因集富集分析软件，用这些上、下调核心标签基因集去扫描所有药物处理表达芯片的表达谱变化排序的基因列表，来得到表达谱标签有显著重叠的药物-基因相互作用关系(p值<0.05)。本发明人接下来为每个核心标签生成随机基因集，重复上述步骤1,000次，以得到经过显著性校正筛选的药物-基因相互作用(错误发现率<0.25)。最后，本发明人将每一对药物-基因相互作用被标记上激活或抑制的药物靶定方式。如果一个信号通路基因的上调的核心标签与一个药物处理表达谱标签的富集分数(normalized enrichment score(NES))是正的，下调的核心标签与该药物处理表达谱标签的富集分数是负的，那么说明该基因的核心标签的表达变化图谱与该药物的处理表达谱标签相一致。因为这些核心标签代表的基因突变会导致活性失活，所以可以认为该药物处理同样可以导致该基因的活性失活，可能抑制该基因的活性。相反地，如果一个基因的上调的核心标签与一个药物处理表达谱标签的富集分数是负的，下调的核心标签与之的富集分数是正的，那么说明大基因的核心标签的表达变化图谱与该药物的处理表达谱标签相反，该药物可能激活该基因的活性。由于一个基因的核心标签有上、下调两个基因集，所以每对药物-基因相互作用有2个富集分数，本发明人取富集分数的绝对值的最大值作为这对药物-基因相互作用的标签比对分数(pattern score)。最终，如果一对药物-基因的靶定方式是抑制，那么标签比对分数即是它们的药物-基因富集分数；反之如果是激活，那么标签比对分数的负值即使它们的药物-基因富集分数。

在研究药物靶定方式时，药物的特异性需要被着重强调，但目前仍缺少评估药物靶定特异性的量化分数。为此，本发明人定义了药物-基因连结特异性指数(drug-geneconnection specificity index(d2gCSI))。对于一个药物及其M个候选靶基因，本发明人首先计算该药物和这M个基因的标签基因的表达变化的皮尔森相关系数(pearsoncorrelation coefficient(PCC))；然后对这M个基因的每一个，计算出与该药物的皮尔森相关系数比该基因高的基因个数m，m越小，表明该药物靶定该基因的特异性越强；最后，对于每一个基因，计算出1-m/M作为该基因和该药物的药物-基因连结特异性指数。

最终，对所有药物-基因相互作用的药物-基因富集分数和连结特异性指数分别进行自动化模块聚类并整合分析，将显著突出的药物-基因模块提取出来，找出潜在的信号通路基因的特异的抑制性药物或激活性药物。

基于实施例1中确定的8,476个编码基因的核心标签，本发明人将这些核心标签和3,546组药物处理数据进行比对，确定了5,362,359个药物重定位候选结果，其中包括了为未知靶点药物预测的2,511,089个药物-基因相互作用关系。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于多种癌症类型转录组数据整合分析、来构建无组织来源背景的单个人类编码基因突变的表达谱核心标签的方法，其特征在于，该方法包括：

(1)以癌症转录组数据库为基础，在多种癌症类型中分别获取基因Gx的各种基因突变类型的表达谱标签；在每一癌症类型中的该基因Gx的各种突变类型，定义为该基因的不同表达谱核心标签；获得该基因的所有突变类型的表达谱核心标签合集；

(2)对于(1)定义的表达谱核心标签合集，消除组织来源背景；

(3)对于(2)的表达谱核心标签合集，移除癌症的背景效应；

(5)依次变换基因Gx，重复步骤(1)～(4)，提取n种基因的基因突变的表达谱核心标签。

2.如权利要求1所述的方法，其特征在于，所整合分析的癌症是两种或两种以上的癌症，非单一一种癌症。

3.如权利要求1所述的方法，其特征在于，步骤(1)中，将携带基因突变的癌症病人样本与同组织类型的正常样本进行比较，并且将不同突变类型的情况分别分析，从而获取各种基因突变类型的表达谱核心标签。

4.如权利要求1所述的方法，其特征在于，步骤(1)中，所述的癌症转录组数据库包括：The Cancer Genome Atlas数据库。

5.如权利要求1所述的方法，其特征在于，步骤(2)中，所述的消除组织来源背景是：若基因Gx的一种突变类型只发生在两个组织内，该基因的该突变类型在这两组织内的差异表达基因的重叠部分，作为该基因的该突变类型的核心表达谱核心标签；如果基因Gx的一种突变类型发生在N个组织类型中且N>2，那么，出现在多于N/2个组织类型的差异表达基因集合作为核心表达谱核心标签。

6.如权利要求1所述的方法，其特征在于，步骤(3)中，将在超过50％癌症类型中一致差异表达的基因作为癌症背景基因，并从表达谱核心标签中移除癌症背景基因，以消除癌症背景的影响。

7.如权利要求1所述的方法，其特征在于，所述的基因包括信号通路基因，覆盖人类所有编码基因；较佳地是关键信号通路基因；更佳地是负责编码受体、酶、离子通道、信号级联因子以及转录因子的关键信号通路基因。

8.如权利要求1所述的方法，其特征在于，步骤(5)中，使该方法应用于将近30,000个人类编码基因来依次获取它们的表达谱核心标签；依次变换基因Gx，重复步骤(1)～(4)，提取n种基因的基因突变的表达谱核心标签。

9.一种药物重定位的方法，其特征在于，所述方法包括：

(a)以权利要求1～7任一所述的方法获得基因突变的表达谱核心标签；

(b)以药物处理样本表达谱数据库为基础，获取药物处理表达谱标签；

10.如权利要求9所述的方法，其特征在于，步骤(b)中，所述的药物处理样本表达谱数据库包括：Connectivity Map，NCI-60Human Tumor Cell Lines Screen，Genomics ofDrug Sensitivity in Cancer。

11.如权利要求9所述的方法，其特征在于，步骤(c)中，所述的方法包括：

(i)将权利要求1～7任一所述的方法获得基因突变的表达谱核心标签，根据基因的表达谱变化，分为基因突变表达谱标签上调的集和基因突变表达谱标签下调的集；

(ii)通过基因集富集分析方法，用因突变导致的表达谱标签的表达水平上调的集和表达水平下调的集，分别扫描药物处理表达芯片的表达谱变化排序的基因列表，来得到表达谱标签有显著重叠的药物-基因相互作用关系；

(iii)为每个基因突变生成随机标签，替换其表达谱核心标签，重复上述步骤100～5000次，以计算错误发现率，得到经过显著性校正筛选后的药物-基因相互作用；

(iv)将每一对药物-基因相互作用标记上激活或抑制的药物靶定方式；如果一个基因突变的上调的表达谱核心标签与一个药物处理表达谱标签的富集分数是正的，下调的核心标签与该药物处理表达谱标签的富集分数是负的，则说明该基因突变的核心标签的表达变化图谱与该药物的处理表达谱标签相一致，认为该药物处理抑制该基因的活性；如果一个基因突变的上调的核心标签与一个药物处理表达谱标签的富集分数是负的，下调的核心标签与之的富集分数是正的，则说明该基因突变的核心标签的表达变化图谱与该药物的处理表达谱标签相反，认为该药物激活该基因的活性。

12.如权利要求11所述的方法，其特征在于，还包括步骤：

(v)取富集分数的绝对值的最大值作为这对药物-基因相互作用的标签比对分数；如果一对药物-基因的靶定方式是抑制，那么标签比对分数即是它们的药物-基因富集分数；反之如果是激活，那么标签比对分数的负值即使它们的药物-基因富集分数。

13.如权利要求10所述的方法，其特征在于，还包括评估药物的特异性的步骤，包括：定义药物-基因连结特异性指数，对于一个药物及其M个候选靶基因，首先获得该药物和这M个基因的标签基因的表达变化的皮尔森相关系数；然后，对这M个基因的每一个，获得与该药物的皮尔森相关系数比该基因高的基因个数m，m越小，表明该药物靶定该基因的特异性越强；然后，对于每一个基因，获得1-m/M作为该基因和该药物的药物-基因连结特异性指数；最后，对所有药物-基因相互作用的药物-基因富集分数和连结特异性指数分别进行自动化模块聚类并整合分析，将显著突出的药物-基因模块提取出来，找出潜在的信号通路基因的特异的抑制性药物或激活性药物。