CN108694991A - 一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法 - Google Patents

一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法 Download PDF

Info

Publication number
CN108694991A
CN108694991A CN201810455680.4A CN201810455680A CN108694991A CN 108694991 A CN108694991 A CN 108694991A CN 201810455680 A CN201810455680 A CN 201810455680A CN 108694991 A CN108694991 A CN 108694991A
Authority
CN
China
Prior art keywords
drug
gene
group data
degree
reorientation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810455680.4A
Other languages
English (en)
Other versions
CN108694991B (zh
Inventor
李胜
孟详喻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongnan Hospital of Wuhan University
Original Assignee
Zhongnan Hospital of Wuhan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongnan Hospital of Wuhan University filed Critical Zhongnan Hospital of Wuhan University
Priority to CN201810455680.4A priority Critical patent/CN108694991B/zh
Publication of CN108694991A publication Critical patent/CN108694991A/zh
Application granted granted Critical
Publication of CN108694991B publication Critical patent/CN108694991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • G16H20/13ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients delivered from dispensers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,包括以下步骤:步骤1:针对任一疾病,从开放组学数据库中获取含有表型信息的多个转录组数据集;步骤2:通过统计分析方法计算各转录组数据集中各基因与表型的关联度统计量,并将关联度统计量进行定量合并得到合并值;步骤3:构建系统生物学网络;步骤4:通过节点排序算法计算各基因的重要性评分;步骤5:获取待测药物的靶基因列表;步骤6:通过统计检验分析待测药物靶基因的重要性;预测待测药物是否为重定位药物。本发明原理清晰、高效、成本低、适用广,可用于各类疾病尤其是恶性肿瘤重定位药物的筛选与研发。

Description

一种基于多个转录组数据集整合与药物靶标信息的重定位药 物发现方法
技术领域
本发明涉及生物医药技术领域,特别涉及一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法。
背景技术
药物重定位,俗称“老药新用”,是指对曾经用于临床的药物(包括正在使用、不再使用和曾接受临床评价的药物)的新适应证进行发掘、验证和应用(可参见:Pritchard JE,O'Mara TA,Glubb DM.Enhancing the Promise of Drug Repositioning throughGenetics.Front Pharmacol,2017,8:896)。传统的新药研发需要经过靶点确认、先导化合物的发现与优化、临床前研究、Ⅰ-Ⅲ期临床试验、上市与上市后评价等多个环节,需耗费大量的人力、物力与时间,成本高昂。与之相对,上市药物有明确的毒性与不良反应信息以及完备的生产工艺、质量标准和剂型,以之为基础的药物研发时间大为缩短、风险大为减小(可参见:Sahu NU,Kharkar PS.Computational Drug Repositioning:A LateralApproach to Traditional Drug Discovery?Curr Top Med Chem,2016,16(19):2069-77)。西地那非(Sildenafil)是药物重定位成功应用的典型;该药最初设计用于治疗心绞痛等心血管疾病,后来因临床试验过程中的意外发现而被广泛用于治疗男性勃起功能障碍,后续研究发现该药还能用于肺动脉高压的治疗(可参见:Sardana D,Zhu C,Zhang M,etal.Drug repositioning for orphan diseases.Brief Bioinform,2011,12(4):346-56)。然而,由于已知的药物与疾病类型数量巨大,单纯基于化学、药理学与生物学实验发现已知药物的新用途仍具有巨大的不确定性与较高的成本。近年来,随着化学信息学、药物信息学与生物信息学数据的不断积累,基于计算的药物新适应证预测结合实验验证的策略得到了越来越多的关注与重视,而药物重定位的计算分析也逐渐成为计算与系统生物学的重要研究方向之一(可参见:Zhao M,Wei DQ.Rare Diseases:Drug Discovery and InformaticsResource.Interdiscip Sci,2018,10(1):195-204)。药物-疾病关系分析是目前常用的筛选重定位药物的计算策略之一,其基本思想是通过特定的中间环节建立药物与疾病之间的联系。目前常用的方法有基于基因表达谱模式比较的药物-疾病关系发现和基于文本挖掘的药物-疾病关系发现。前者的思路为搜索给药前后的基因表达谱变化模式与疾病导致的基因表达谱模式相反的药物,后者的思路主要基于ABC模型(可参见:Bhattarai D,SinghS,Jang Y,et al.An Insight into Drug Repositioning for the Development ofNovel Anti-Cancer Drugs.Curr Top Med Chem,2016,16(19):2156-68)。然而,上述两种方法具有较大的局限性。基于基因表达谱模式比较的药物-疾病关系发现依赖于大量实验所得到的药物作用前后的表达谱变化模式数据,由于受限于成本而很难覆盖大量的疾病与药物;此外,上述数据一般来源于细胞系的体外实验,与真实人体组织的表达谱存在一定的差距。基于ABC模型的文本挖掘,不仅受限于文本数据库中所包含的信息且极易为选择性报道的偏倚所影响而得出与真实情况相距较远的线索。为了解决上述局限性所带来的问题,急需开发一种新的能够适用于大多数疾病和药物的、高效且成本低廉的重定位药物发现方法。
发明内容
本发明所要解决的技术问题是提供一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,以克服上述现有技术中的不足。
本发明解决上述技术问题的技术方案如下:
一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,包括以下步骤:
步骤1:针对任一疾病,从开放组学数据库中获取含有表型信息的多个转录组数据集;
步骤2:通过统计分析方法计算各转录组数据集中各基因与表型的关联度统计量,在各转录组数据集中筛选与表型稳定且显著相关的基因;对筛选出的与表性稳定且显著相关的每个基因,分别定量合并其在各转录组数据集中的基因与表型的关联度统计量,得到筛选出的每个基因的关联度统计量的合并值;
步骤3:根据步骤2中筛选的与表型稳定且显著相关的基因来构建系统生物学网络;
步骤4:根据步骤2中得到的各基因的关联度统计量合并值和步骤3中构建的系统生物学网络,通过节点排序算法计算各基因的重要性评分;
步骤5:根据药物靶标数据库中的信息,获取待测药物在所述系统生物学网络中的靶基因列表;
步骤6:根据步骤4中得到的各基因的重要性评分和步骤5中得到的待测药物的靶基因列表,通过统计检验分析待测药物靶基因的重要性;当待测药物的靶基因列表中各元素重要性评分的和在重抽样分布中的百分位数大于95%时,所述待测药物为具有潜在治疗作用的重定位药物。
进一步:所述步骤1中的表型信息为“是否罹患该病”和/或“疾病预后”。
进一步:所述步骤2中的统计分析方法为Spearman相关分析或Cox回归分析;具体地,对于“是否罹患该病”的表型信息,统计分析方法为Spearman相关分析;对于“疾病预后”的表型信息,统计分析方法为Cox回归分析。
进一步:所述步骤2中的各转录组数据集中各基因与表型的关联度统计量为Spearman相关分析计算得出的相关系数r经Fisher变换得到的z值,或Cox回归分析计算得出的回归系数β经近似计算公式转换为相关系数r后再经Fisher变换得到的z值;
其中,相关系数r经Fisher变换为z值的计算公式如下:
回归系数β转换为相关系数r的近似计算公式如下:
其中,e为自然底数。
进一步:所述步骤2中的与表型稳定且显著相关的基因为关联度统计量的正负性在各转录组数据集中均一致且经Benjamini-Hochberg法多重检验校正后显著性检验P值均小于0.05的基因。
进一步:所述步骤2中的定量合并为计算以关联度统计量的抽样方差的倒数为权重的单个转录组数据集关联度统计量的加权平均值;
其中,单个转录组数据集关联度统计量的抽样方差v的计算公式如下:
其中,n为某单个转录组数据集的样本量;
以关联度统计量的抽样方差的倒数为权重的单个转录组数据集关联度统计量的加权平均值的计算公式如下:
其中,N为转录组数据集的个数,zi,j为基因i在转录组数据集j中的关联度统计量,vi,j为其抽样方差,Zi为该基因的关联度统计量的合并值。
进一步:所述步骤4中的节点排序算法为GeneRank算法,基于所述节点排序算法的基因重要性评分的计算公式如下:
其中,为第m次迭代计算后基因h的重要性评分,为第m-1次迭代计算后基因i的重要性评分;Zh为基因h的关联度统计量合并值,|Zh|为其绝对值;aih为基因i与基因h在系统生物学网络中的邻接关系:如果基因i与基因h存在蛋白互作关系,则aih=1,否则aih=0;degi为基因i的度,K为系统生物学网络中节点的个数;w为[0,1]范围内的常数,w决定了基因重要性计算过程中关联度统计量合并值与网络结构所占的权重;w取0.5,即关联度统计量合并值与网络结构具有相同的权重。
进一步:所述步骤6中的统计检验为通过R次重抽样,计算待测药物的靶基因列表中各元素重要性评分的和在重抽样分布中的百分位数;
记某药物在系统生物学网络中的靶点个数为k,其和记为s;从系统生物学网络全部节点组成的集合V中无放回抽取k个元素的和记为t,重复R次得到的t值组成的集合记为T;该统计检验的P值的定义为集合T中大于或等于s的元素所占的比例,其计算公式如下:
其中,P<0.05为统计学显著,P值越小提示该药物的潜在重定位价值越高;此处P值等同于1减去s在重抽样分布T中的百分位数,百分位数越大提示该药物的潜在重定位价值越高。
进一步:待测药物为单个药物或多个药物形成的药物组合。
进一步:所述药物组合的靶基因列表为组合中各元素药物的靶基因列表的并集。
本发明的有益效果是:使用转录与疾病表型存在重要关联并编码药物靶点的基因作为预测药物重定位潜能的纽带;所用数据来源权威且广泛,理论上可用于任何疾病的重定位药物发现;分析流程完全基于组学数据挖掘与已知的药物-靶标关系,无任何人为的先验假设;原理清晰、高效、成本低廉、适用范围广,可用于各类疾病尤其是恶性肿瘤重定位药物的筛选与研发。
附图说明
图1为本发明一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法的流程框图;
图2为本发明一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法的流程示意图;
图3为本发明的实施例中的与多发性骨髓瘤的发病和预后之表型稳定、显著相关的基因所构成的系统生物学网络。
图4为本发明的实施例中的检测西罗莫司重定位治疗骨髓瘤的潜能的重抽样检验示意图。
图5为本发明的实施例中的通过药敏数据验证西罗莫司重定位治疗骨髓瘤的效果的重抽样检验示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明使用转录与疾病表型存在重要关联并编码药物靶点的基因作为预测药物重定位潜能的纽带,通过整合多个转录组数据的信息和药物-靶标信息预测药物对于某种疾病的重定位潜能,筛选具有较高重定位价值的药物。
实施例一、如图1和图2所示,一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,包括以下步骤:
步骤1:针对任一疾病,从开放组学数据库中获取含有表型信息的多个转录组数据集;
其中,开放组学数据库为Gene Expression Omnibus(GEO,https://www.ncbi.nlm.nih.gov/geo/)、ArrayExpress(https://www.ebi.ac.uk/arrayexpress/)和Genomic Data Commons(GDC,https://portal.gdc.cancer.gov/)中的一种或多种。这些数据库来源权威可靠,信息与数据面向公众开放,可免费获取。开放组学数据库中的转录组数据涉及上千种疾病的转录组信息,其中有大量人体组织的转录组数据,有大量含表型信息的转录组数据集。
所述步骤1中的表型信息为“是否罹患该病(即疾病组织或正常组织)”和/或“疾病预后(特指总生存时间)”。
步骤2:通过统计分析方法计算各转录组数据集中各基因与表型的关联度统计量,在各转录组数据集中筛选与表型稳定且显著相关的基因;对筛选出的与表性稳定且显著相关的每个基因,分别定量合并其在各转录组数据集中的基因与表型的关联度统计量,得到筛选出的每个基因的关联度统计量的合并值;
进一步:所述步骤2中的统计分析方法为Spearman相关分析或Cox回归分析;具体地,对于“是否罹患该病”的表型信息,统计分析方法为Spearman相关分析;对于“疾病预后”的表型信息,统计分析方法为Cox回归分析。针对不同的表型信息,需采用不同的统计分析方法分开分析。
计算之前对表型信息进行编码:“是否罹患该病”中的疾病组织编码为1,正常组织编码为0;“疾病预后”中死亡编码为1,删失编码为0。
进一步:所述步骤2中的各转录组数据集中的各基因与表型的关联度统计量为Spearman相关分析计算得出的相关系数r经Fisher变换得到的z值,或Cox回归分析计算得出的回归系数β经近似计算公式转换为相关系数r后再经Fisher变换得到的z值;
其中,相关系数r经Fisher变换为z值的计算公式如下:
回归系数β转换为相关系数r的近似计算公式如下:
其中,e为自然底数。
进一步:所述步骤2中的与表型稳定且显著相关的基因为关联度统计量的正负性在各转录组数据集中均一致且经Benjamini-Hochberg法多重检验校正后显著性检验P值均小于0.05的基因。若关联度统计量为正,则该基因与疾病的发病或不良预后存在正相关关系,反之为负相关关系。
进一步:所述步骤2中的定量合并为计算以关联度统计量的抽样方差的倒数为权重的单个转录组数据集关联度统计量的加权平均值;
其中,单个转录组数据集关联度统计量的抽样方差v的计算公式如下:
其中,n为某单个转录组数据集的样本量,即患者人数;
以关联度统计量的抽样方差的倒数为权重的单个转录组数据集关联度统计量的加权平均值的计算公式如下:
其中,N为转录组数据集的个数,zi,j为基因i在转录组数据集j中的关联度统计量,vi,j为其抽样方差,Zi为该基因的关联度统计量的合并值。
步骤3:根据步骤2中筛选的与表型稳定且显著相关的基因来构建系统生物学网络;
其中,系统生物学网络为基于Search Tool for Recurring Instances ofNeighbouring Genes数据库(STRING,https://string-db.org)的默认参数(0.4)的蛋白-蛋白相互作用网络。
步骤4:根据步骤2中得到的各基因的关联度统计量合并值与步骤3中构建的系统生物学网络,通过节点排序算法计算各基因的重要性评分;
进一步:所述步骤4中的节点排序算法为GeneRank算法,基于所述节点排序算法的基因重要性评分的计算公式如下:
其中,为第m次迭代计算后基因h的重要性评分,为第m-1次迭代计算后基因i的重要性评分;Zh为基因h的关联度统计量合并值,|Zh|为其绝对值;aih为基因i与基因h在系统生物学网络中的邻接关系:如果基因i与基因h存在蛋白互作关系,则aih=1,否则aih=0;degi为基因i的度,K为系统生物学网络中节点的个数;w为[0,1]范围内的常数,w决定了基因重要性计算过程中关联度统计量合并值与网络结构所占的权重;w取0.5,即关联度统计量合并值与网络结构具有相同的权重。
步骤5:根据药物靶标数据库中的信息,获取待测药物在所述系统生物学网络中的靶基因列表;
其中,药物靶标数据库为Drug Gene Interaction Database数据库(DGIdb,http://dgidb.org/)。这些数据库来源权威可靠,信息与数据面向公众开放,可免费获取。DGIdb数据库整合了DrugBank、TTD、TALC、CancerCommons等众多其他药物靶标数据库的信息,截止2018年4月收录了24000多种化合物、36000余条基因条目和42000余条药物-基因互作关系。
步骤6:根据步骤4中得到的各基因的重要性评分和步骤5中得到的待测药物的靶基因列表,通过统计检验分析待测药物靶基因的重要性;当待测药物的靶基因列表中各元素重要性评分的和在重抽样分布中的百分位数大于95%时,该所述测药物为具有潜在治疗作用的重定位药物。
进一步:所述步骤6中的统计检验为通过R次重抽样,计算待测药物的靶基因列表中各元素重要性评分的和在重抽样分布中的百分位数;
记某药物在系统生物学网络中的靶点个数为k,其和记为s;从系统生物学网络全部节点组成的集合V中无放回抽取k个元素的和记为t(这里的靶点个数为k个则抽取k个元素,即靶点个数与抽取的元素个数相同),重复R次得到的t值组成的集合记为T;该统计检验的P值的定义为集合T中大于或等于s的元素所占的比例,其计算公式如下:
R可取1000000,即进行1000000次重抽样,其中,P<0.05为统计学显著,P值越小提示该药物的潜在重定位价值越高;此处P值等同于1减去s在重抽样分布T中的百分位数,百分位数越大提示该药物的潜在重定位价值越高。
进一步:转录组数据集的基因表达量分析方法包括基因芯片和RNA-seq中的至少一种,待测药物是单个药物或多个药物形成的药物组合。
药物组合的靶基因列表为组合中各元素药物的靶基因列表的并集。
一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法主要运用于重定位药物或药物组合的筛选、研发。
该方法通过整合多个来自开放组学数据库中的转录组数据集,筛选与疾病表型稳定且显著相关的基因;对每个与疾病表型稳定且显著相关的基因,使用统计方法定量合并其在各个转录组数据集计算得到关联度统计量,得到各基因的关联度统计量合并值;根据筛选出的与表型稳定且显著相关的基因构建系统生物学网络;使用节点排序算法整合网络拓扑信息与关联度统计量合并值计算各基因的重要性评分,得到定量的疾病-基因关系。自药物靶标数据库获取某待测药物的作用靶点,靶点的本质是由基因编码的蛋白或特殊类型的RNA,由此得到定性的药物-基因关系;最后,通过统计检验分析待测药物靶基因的重要性是否显著靠前预测该药物的潜在活性大小。
本发明本质上是一种以基因为中介构建并评价疾病-药物关系进而筛选有潜在治疗作用的重定位药物的方法,转录与疾病表型存在重要关联并编码药物靶点的基因起到了桥梁作用。
该方法使用转录与疾病表型存在重要关联并编码药物靶点的基因作为预测药物重定位潜能的纽带。该方法所用数据来源权威且广泛,理论上可用于任何疾病的重定位药物发现;分析流程完全基于组学数据挖掘与已知的药物-靶标关系,无任何人为的先验假设;原理清晰、高效、成本低廉、适用范围广,可用于各类疾病尤其是恶性肿瘤重定位药物的筛选与研发。
为更好的说明本发明的目的、技术方案和优点,下面将结合附图和具体实施例对本发明作进一步说明。
实施例中,所使用的实验方法如无特殊说明,均为常规方法,所用的材料、实际等如无特殊说明,均可从商业途径获得。
使用本发明方法预测西罗莫司重定位用于治疗多发性骨髓瘤的潜能及验证
1.获取多个含表型信息的多发性骨髓瘤转录组数据集
检索GEO、ArrayExpress和GDC开放组学数据库,获得以下多个含表型信息的多发性骨髓瘤转录组数据集:
编号GSE6477,Affymetrix Human Genome U133A芯片,69例多发性骨髓瘤患者,15例正常对照;
编号GSE13591,Affymetrix Human Genome U133A芯片,133例多发性骨髓瘤患者,5例正常对照;
编号GSE47552,Affymetrix Human Gene 1.0ST芯片,41例多发性骨髓瘤患者,5例正常对照;
编号GSE2658,Affymetrix Human Genome U133Plus 2.0芯片,559例多发性骨髓瘤患者的总生存数据;
编号GSE9782,Affymetrix Human Genome U133A芯片,189例多发性骨髓瘤患者的总生存数据;
编号GSE57317,Affymetrix Human Genome U133Plus 2.0芯片,55例多发性骨髓瘤患者的总生存数据;
2.筛选与多发性骨髓瘤的发病和预后之表型稳定、显著相关的基因
使用GSE6477、GSE13591和GSE47552数据集的转录组与发病表型数据,分别计算各基因在各数据集中与发病表型的Spearman相关系数及其经Benjamini-Hochberg法多重检验校正后的P值,筛选相关系数正负性在各数据集一致且校正P值在各数据集均小于0.05的基因,最终筛得4335个与发病稳定、显著相关的基因。
使用GSE2658、GSE9782和GSE57317数据集的转录组与发病表型数据,分别计算各基因在各数据集中与预后表型的Cox回归系数经近似计算公式转化得到的相关系数及其经Benjamini-Hochberg法多重检验校正后的P值,筛选相关系数正负性在各数据集一致且校正P值在各数据集均小于0.05的基因,最终筛得7796个与预后稳定、显著相关的基因。
将上述4335个与发病稳定、显著相关的基因和7796个与预后稳定、显著相关的基因进行比对,找出二者交集中在全部6个数据集的相关系数正负性均一致的基因共1276个,即为与发病和预后两种表型均稳定、显著相关的基因集合。
3.整合多个转录组数据集信息,定量合并与多发性骨髓瘤的发病和预后之表型稳定、显著相关基因的关联度统计量
根据本发明所述方法,使用Fisher变换公式将上述与发病和预后两种表型均稳定、显著相关的1276个基因在各个数据集的相关系数转换为z值,即为其关联度统计量。根据本发明所述方法,计算关联度统计量的抽样方差,之后以抽样方差为权重,计算各基因在各数据集的关联度统计量的加权均值,即为其关联度统计量的定量合并值。该定量合并值的绝对值的大小反映了其与表型关联的强弱,排序前五的基因依次是COX6C、PSMB4、PFDN2、VPS54、PPME1。
4.构建其系统生物学网络
根据本发明所述的方法,将上述与发病和预后两种表型均稳定、显著相关的1276个基因输入STRING在线数据库构建蛋白-蛋白相互作用之系统生物学网络。网络构建参数使用STRING数据库默认参数(0.4)。如图3所示,构建得到的系统生物学网络为包含1074个基因的连通巨片和其余与巨片不连通的散点组成。将该连通巨片作为最终的系统生物学网络。
5.计算与多发性骨髓瘤的发病和预后之表型稳定、显著相关基因的重要性
根据本发明所述的方法,将上述系统生物学网路中的1074个基因的关联度统计量的定量合并值的绝对值作为其初始节点权重,使用GeneRank算法整合该初始重要性与网络拓扑结构信息计算各基因的最终重要性分值。该值越大说明该基因对于该疾病越为重要,排序前五的基因依次是ALB、GAPDH、EGFR、IL6、JUN。
6.自DGIdb数据库获取药物西罗莫司的靶点信息、预测其重定位价值
药物西罗莫司,又称雷帕霉素。该药是一种大环内酯抗生素类免疫抑制剂。目前西罗莫司适用于13岁或以上的接受肾移植的患者,预防器官排斥。多发性骨髓瘤目前尚不属于该药适应证范围。
以该药英文名SIROLIMUS作为输入检索DGIdb数据库,发现该药已知有49个靶点,其中7个靶点位于上述与多发性骨髓瘤的发病和预后均显著相关的基因所组成的系统生物学网络中,其名称(重要性分值)分别为:BAX(0.487)、DCN(0.549)、EGFR(1.425)、EIF4E(0.492)、KRAS(0.943)、NF1(0.395)、TGM2(0.230)。
之后,按本发明所述的方法,从1074个基因的重要性分值的集合中随机无放回抽取7个基因共1000000次,并计算每次抽取的7个基因的重要性分值的和。如图4所示,基于1000000重抽样得到的和所组成的重抽样分布按本发明所述的方法计算西罗莫司的7个靶点的和(4.521182)所处的百分位数为99.616%,P=0.00384。根据本发明所述的评价标准,该药物具有较高的重定位用于治疗多发性骨髓瘤的潜能。
7.西罗莫司重定位治疗多发性骨髓瘤的效果验证
为验证本发明实施例的效果,通过文献证据与药敏数据两方面对西罗莫司重定位用于治疗多发性骨髓瘤的潜能进行验证
(1)文献证据:已有不少研究发现西罗莫司具有抗骨髓瘤活性。例如,傅云峰等人发现西罗莫司能够诱导骨髓瘤细胞周期阻滞并诱导凋亡(可参见:傅云峰,张亚男,张帆,等.共同抑制mTORC2和热休克蛋白90对多发性骨髓瘤细胞凋亡的影响.中华血液学杂志,2015,36(9):780-784)。Coudre C等人发现西罗莫司能够防止细胞毒药物治疗后干细胞样克隆的出现进而防止骨髓瘤复发(可参见:Coudre C,Alani J,Ritchie W,et al.CellCycle,2016,15(16):2174-2182)。
(2)药敏数据验证:自GDSC数据库(https://www.cancerrxgene.org)获取388种肿瘤细胞系的西罗莫司药敏数据,以半数抑制浓度IC50值衡量肿瘤细胞对西罗莫司敏感性的大小,该值越小说明对西罗莫司越敏感。在388种肿瘤细胞系中共有9种多发性骨髓瘤细胞系。为检验骨髓瘤细胞系对西罗莫司的敏感性在388种肿瘤细胞系中是否显著靠前,从388种肿瘤细胞的IC50值的集合中随机无放回抽取9个并求和共进行1000000次,计算9种多发性骨髓瘤细胞系的IC50值的和在1000000次重抽样得到的和所组成的重抽样分布中的百分位数。如图5所示,9种多发性骨髓瘤细胞系的IC50值在重抽样分布中的百分位数为0.0006%,远低于5%,说明骨髓瘤细胞对于西罗莫司的敏感性在388种肿瘤细胞系中显著靠前。换言之,西罗莫司对于骨髓瘤具有很高的活性与抑制作用。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:包括以下步骤:
步骤1:针对任一疾病,从开放组学数据库中获取含有表型信息的多个转录组数据集;
步骤2:通过统计分析方法计算各转录组数据集中各基因与表型的关联度统计量,在各转录组数据集中筛选与表型稳定且显著相关的基因;对筛选出的与表性稳定且显著相关的每个基因,分别定量合并其在各转录组数据集中的基因与表型的关联度统计量,得到筛选出的每个基因的关联度统计量的合并值;
步骤3:根据步骤2中筛选的与表型稳定且显著相关的基因来构建系统生物学网络;
步骤4:根据步骤2中得到的各基因的关联度统计量合并值和步骤3中构建的系统生物学网络,通过节点排序算法计算各基因的重要性评分;
步骤5:根据药物靶标数据库中的信息,获取待测药物在所述系统生物学网络中的靶基因列表;
步骤6:根据步骤4中得到的各基因的重要性评分和步骤5中得到的待测药物的靶基因列表,通过统计检验分析待测药物靶基因的重要性;当待测药物的靶基因列表中各元素重要性评分的和在重抽样分布中的百分位数大于95%时,所述待测药物为具有潜在治疗作用的重定位药物。
2.根据权利要求1所述一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:所述步骤1中的表型信息为“是否罹患该病”和/或“疾病预后”。
3.根据权利要求2所述一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:所述步骤2中的统计分析方法为Spearman相关分析或Cox回归分析;具体地,对于“是否罹患该病”的表型信息,统计分析方法为Spearman相关分析;对于“疾病预后”的表型信息,统计分析方法为Cox回归分析。
4.根据权利要求3所述一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:所述步骤2中的各转录组数据集中各基因与表型的关联度统计量为Spearman相关分析计算得出的相关系数r经Fisher变换得到的z值,或Cox回归分析计算得出的回归系数β经近似计算公式转换为相关系数r后再经Fisher变换得到的z值;
其中,相关系数r经Fisher变换为z值的计算公式如下:
回归系数β转换为相关系数r的近似计算公式如下:
其中,e为自然底数。
5.根据权利要求4所述一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:所述步骤2中的与表型稳定且显著相关的基因为关联度统计量的正负性在各转录组数据集中均一致且经Benjamini-Hochberg法多重检验校正后显著性检验P值均小于0.05的基因。
6.根据权利要求5所述一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:所述步骤2中的定量合并为计算以关联度统计量的抽样方差的倒数为权重的单个转录组数据集关联度统计量的加权平均值;
其中,单个转录组数据集关联度统计量的抽样方差v的计算公式如下:
其中,n为某单个转录组数据集的样本量;
以关联度统计量的抽样方差的倒数为权重的单个转录组数据集关联度统计量的加权平均值的计算公式如下:
其中,N为转录组数据集的个数,zi,j为基因i在转录组数据集j中的关联度统计量,vi,j为其抽样方差,Zi为该基因的关联度统计量的合并值。
7.根据权利要求1所述一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:所述步骤4中的节点排序算法为GeneRank算法,基于所述节点排序算法的基因重要性评分的计算公式如下:
其中,为第m次迭代计算后基因h的重要性评分,为第m-1次迭代计算后基因i的重要性评分;Zh为基因h的关联度统计量合并值,|Zh|为其绝对值;aih为基因i与基因h在系统生物学网络中的邻接关系:如果基因i与基因h存在蛋白互作关系,则aih=1,否则aih=0;degi为基因i的度,K为系统生物学网络中节点的个数;w为[0,1]范围内的常数,w决定了基因重要性计算过程中关联度统计量合并值与网络结构所占的权重;w取0.5,即关联度统计量合并值与网络结构具有相同的权重。
8.根据权利要求1所述一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:所述步骤6中的统计检验为通过R次重抽样,计算待测药物的靶基因列表中各元素重要性评分的和在重抽样分布中的百分位数;
记某药物在系统生物学网络中的靶点个数为k,其和记为s;从系统生物学网络全部节点组成的集合V中无放回抽取k个元素的和记为t,重复R次得到的t值组成的集合记为T;该统计检验的P值的定义为集合T中大于或等于s的元素所占的比例,其计算公式如下:
其中,P<0.05为统计学显著,P值越小提示该药物的潜在重定位价值越高;此处P值等同于1减去s在重抽样分布T中的百分位数,百分位数越大提示该药物的潜在重定位价值越高。
9.根据权利要求1-8中任一所述一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:待测药物为单个药物或多个药物形成的药物组合。
10.根据权利要求9所述一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法,其特征在于:所述药物组合的靶基因列表为组合中各元素药物的靶基因列表的并集。
CN201810455680.4A 2018-05-14 2018-05-14 一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法 Active CN108694991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810455680.4A CN108694991B (zh) 2018-05-14 2018-05-14 一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810455680.4A CN108694991B (zh) 2018-05-14 2018-05-14 一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法

Publications (2)

Publication Number Publication Date
CN108694991A true CN108694991A (zh) 2018-10-23
CN108694991B CN108694991B (zh) 2021-01-01

Family

ID=63847478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810455680.4A Active CN108694991B (zh) 2018-05-14 2018-05-14 一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法

Country Status (1)

Country Link
CN (1) CN108694991B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785319A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于差异表达数据的药物重定位方法
CN112017736A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 基于关系抽取和机器学习的药物发现方法、装置及设备
US11007216B2 (en) 2019-08-05 2021-05-18 International Business Machines Corporation Combination therapy to achieve enhanced antimicrobial activity
CN112927766A (zh) * 2021-03-29 2021-06-08 天士力国际基因网络药物创新中心有限公司 一种疾病组合药物筛选的方法
CN112927765A (zh) * 2021-03-29 2021-06-08 天士力国际基因网络药物创新中心有限公司 一种药物重定位的方法
US11028264B2 (en) 2019-08-05 2021-06-08 International Business Machines Corporation Polylysine polymers with antimicrobial and/or anticancer activity
WO2021234522A1 (en) * 2020-05-21 2021-11-25 International Business Machines Corporation Filtering artificial intelligence designed molecules for laboratory testing
CN113724806A (zh) * 2021-08-03 2021-11-30 邢传华 确定临床试验入组对象、适用药物的方法、设备和介质
CN114556483A (zh) * 2019-07-10 2022-05-27 伯耐沃伦人工智能科技有限公司 鉴定用于靶向基因的一种或多种化合物
CN116230087A (zh) * 2022-12-02 2023-06-06 深圳太力生物技术有限责任公司 培养基成分优化的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120117018A1 (en) * 2009-03-10 2012-05-10 Agency For Science, Technology And Research Method for the systematic evaluation of the prognostic properties of gene pairs of medical conditions, and certain gene pairs identified
US20160224723A1 (en) * 2015-01-29 2016-08-04 The Trustees Of Columbia University In The City Of New York Method for predicting drug response based on genomic and transcriptomic data
CN106055921A (zh) * 2016-05-27 2016-10-26 华中农业大学 基于基因表达和药物靶标的药物活性预测与筛选方法
CN106815486A (zh) * 2017-01-22 2017-06-09 华中农业大学 一种个性化用药的系统药理学方法
CN107451423A (zh) * 2017-09-29 2017-12-08 武汉百药联科科技有限公司 一种基于热扩散网络的药物发现方法及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120117018A1 (en) * 2009-03-10 2012-05-10 Agency For Science, Technology And Research Method for the systematic evaluation of the prognostic properties of gene pairs of medical conditions, and certain gene pairs identified
US20160224723A1 (en) * 2015-01-29 2016-08-04 The Trustees Of Columbia University In The City Of New York Method for predicting drug response based on genomic and transcriptomic data
CN106055921A (zh) * 2016-05-27 2016-10-26 华中农业大学 基于基因表达和药物靶标的药物活性预测与筛选方法
CN106815486A (zh) * 2017-01-22 2017-06-09 华中农业大学 一种个性化用药的系统药理学方法
CN107451423A (zh) * 2017-09-29 2017-12-08 武汉百药联科科技有限公司 一种基于热扩散网络的药物发现方法及其应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
代超;刘娟: "基于基因表达值和基因本体论推导转录因子相互作用关系的方法", 《武汉大学学报(理学版)》 *
刘伟;谢红卫: "基于生物信息学方法发现潜在药物靶标", 《生物化学与生物物理进展》 *
郝腾: "非小细胞肺癌驱动基因的筛查及其与临床资料的相关性研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114556483A (zh) * 2019-07-10 2022-05-27 伯耐沃伦人工智能科技有限公司 鉴定用于靶向基因的一种或多种化合物
US11725107B2 (en) 2019-08-05 2023-08-15 International Business Machines Corporation Polylysine polymers with antimicrobial and/or anticancer activity
US11007216B2 (en) 2019-08-05 2021-05-18 International Business Machines Corporation Combination therapy to achieve enhanced antimicrobial activity
US11028264B2 (en) 2019-08-05 2021-06-08 International Business Machines Corporation Polylysine polymers with antimicrobial and/or anticancer activity
GB2610986A (en) * 2020-05-21 2023-03-22 Ibm Filtering artificial intelligence designed molecules for laboratory testing
WO2021234522A1 (en) * 2020-05-21 2021-11-25 International Business Machines Corporation Filtering artificial intelligence designed molecules for laboratory testing
CN111785319A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于差异表达数据的药物重定位方法
CN111785319B (zh) * 2020-06-28 2023-07-28 西安电子科技大学 基于差异表达数据的药物重定位方法
WO2022047972A1 (zh) * 2020-09-04 2022-03-10 平安科技(深圳)有限公司 基于关系抽取和机器学习的药物发现方法、装置及设备
CN112017736A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 基于关系抽取和机器学习的药物发现方法、装置及设备
CN112017736B (zh) * 2020-09-04 2024-03-19 平安科技(深圳)有限公司 基于关系抽取和机器学习的药物发现方法、装置及设备
CN112927765A (zh) * 2021-03-29 2021-06-08 天士力国际基因网络药物创新中心有限公司 一种药物重定位的方法
CN112927766A (zh) * 2021-03-29 2021-06-08 天士力国际基因网络药物创新中心有限公司 一种疾病组合药物筛选的方法
CN113724806A (zh) * 2021-08-03 2021-11-30 邢传华 确定临床试验入组对象、适用药物的方法、设备和介质
CN116230087A (zh) * 2022-12-02 2023-06-06 深圳太力生物技术有限责任公司 培养基成分优化的方法及装置
CN116230087B (zh) * 2022-12-02 2024-05-14 深圳太力生物技术有限责任公司 培养基成分优化的方法及装置

Also Published As

Publication number Publication date
CN108694991B (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN108694991A (zh) 一种基于多个转录组数据集整合与药物靶标信息的重定位药物发现方法
Gonçalves et al. Pan-cancer proteomic map of 949 human cell lines
Mu et al. Deciphering brain complexity using single-cell sequencing
Kuipers et al. Single-cell copy number calling and event history reconstruction
CN108830045B (zh) 一种基于多组学的生物标记物系统筛选方法
Prost et al. Comparative analyses identify genomic features potentially involved in the evolution of birds-of-paradise
CN104975063A (zh) 抗肿瘤药物生物标志物的筛选方法及其应用
CN112289376A (zh) 一种检测体细胞突变的方法及装置
CN108197431B (zh) 染色质相互作用差异的分析方法和系统
WO2020191413A1 (en) De novo compartment deconvolution and weight estimation of tumor tissue samples using decoder
Gapp et al. Parallel reverse genetic screening in mutant human cells using transcriptomics
KR101984611B1 (ko) 약물반응성, 유전자발현정보 및 복제수 변이를 이용한 기능하플로타이핑 방법 및 시스템
CN110428899A (zh) 基于双随机游走重启动的多数据整合环状rna与疾病相关性预测方法
Suresh et al. Multi-scale top-down approach for modelling epileptic protein-protein interaction network analysis to identify driver nodes and pathways
Dong et al. Enhancing single-cell cellular state inference by incorporating molecular network features
CN116364179A (zh) 结直肠癌预后标志物筛选系统及方法、结直肠癌预后风险评估系统
McPherson et al. Observing clonal dynamics across spatiotemporal axes: A prelude to quantitative fitness models for cancer
Tai et al. Bayice: a Bayesian hierarchical model for semireference-based deconvolution of bulk transcriptomic data
Gonçalves et al. Pan-cancer proteomic map of 949 human cell lines reveals principles of cancer vulnerabilities
Zhang et al. BayesTME: A unified statistical framework for spatial transcriptomics
Dent et al. HAVOC: Small-scale histomic mapping of biodiversity across entire tumor specimens using deep neural networks
CN111793692A (zh) 一种特征miRNA表达谱组合及肺鳞癌早期预测方法
Bruncsics et al. A multi-trait evaluation of network propagation for GWAS results
Wang et al. Improved estimation of cell type-specific gene expression through deconvolution of bulk tissues with matrix completion
Yip et al. A novel method for detecting association between DNA methylation and diseases using spatial information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant