CN110176271A

CN110176271A - 多组学数据扰动云

Info

Publication number: CN110176271A
Application number: CN201910169209.3A
Authority: CN
Inventors: 贺培凤; 卢学春; 于琦
Original assignee: Shanxi Medical University
Current assignee: Shanxi Medical University
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-08-27
Anticipated expiration: 2039-03-06
Also published as: CN110176271B

Abstract

本发明公开了一种基于多源数据的药物知识发现方法，该方法包括以下步骤：一、原始数据来源、获取与建库；二、构建差异表达基因数据库；三、全药物或全疾病与差异表达基因关联建立；四、实现药物知识的发现。本发明解决了多源大数据的物理融合、药物与疾病命名实体的识别以及药物疾病知识关联网络模型的构建等难题；实现基因表达谱数据、药物知识数据、疾病知识数据和科研文献知识数据的全融合，通过多源大数据的交叉印证，提高药物知识发现的效率，为全疾病领域的老药新用和新药研发提供全新的思路。

Description

多组学数据扰动云

技术领域

本发明涉及一种多组学数据扰动云，属于生物医药技术领域。

背景技术

药物研发不仅需要耗费大量人力和物力，且存在较大风险和不确定性因素，因而造成药物价格昂贵。研究表明，一种新药的研发平均要耗费26亿美元，进入临床试验阶段的药物，仅约12％会被美国食品药品管理局批准使用[1]。即使某些药物在部分病人中出现阳性结果，如果它们不能降低疾病的复发率或延长病人的中位无进展生存时间(medianprogression-free survival)，同样会被淘汰[2]。另一方面，尽管近年来批准上市的新药数量有所增加[3]，但依然存在大量不可治愈的疾病。

科研人员在药物的开发过程中，经常会因为偶然的原因发现药物的新适应症，因此基于药物知识发现的药物研发受到广泛关注。本平台中的药物知识发现(DrugKnowledge Discovery)，是指药物重定位，它是利用相关的技术方法对已有的药物进行重新筛选、组合或改造从而发现其未知新用途的过程[4,5]。

随着转录组分析技术的成熟，基因表达谱分析逐渐成为药物知识发现的主流方法。基因表达谱是后基因组时代最先发展起来的高通量技术，其通过测定基因在特定条件下mRNA的表达量，能够从整体水平研究基因的结构与功能，揭示特定的生物学过程和疾病发生发展的分子机制，是目前识别和描述与特定表型或者扰动相关的基因表达模式最为有效、准确和高重复性的数据类型。基因表达谱数据能够提供一系列在特定实验条件下相对于对照组的差异表达基因(包括过表达或欠表达基因)，如疾病相对于健康的对照或药物处理相对于空白的对照等。通过分析这些差异表达基因，能够评估因疾病而紊乱的通路或网络。Connectivity Map(下简称CMap)项目是目前最完备的基于基因表达谱的药物研发体系之一。该项目包含了不同药物处理人类肿瘤细胞系得到的基因组表达变化信息，通过GSEA(gene set enrichment analysis)算法[7]比对不同基因表达谱之间的相似程度，产生两类假设：①若目标药物与特定药物具有相似的基因表达谱，则两药物可能具有相似的适应症；②若目标药物与特定疾病模型具有相反的基因表达谱，则该疾病可能是目标药物的潜在适应症。基于这两个假设，可以开展已有药物的潜在适应症(疾病)或类似物的知识发现研究。在一系列研究中，基于CMap产生的药物知识的发现假设都得到了有效验证，并为药物知识的发现提供了许多有价值的线索[8]。

然而，采用基因表达谱数据作为单独的数据源开展药物知识发现研究具有明显的缺陷，主要表现为：①由于没有将基因表达数据与疾病知识库和药物知识库建立关联，因此只能开展个案研究，如发现某一种疾病的潜在治疗药物，抑或发现与某一种药物具有类似功效的药物，而不能批量地建立多种药物和多种疾病之间的关联，故降低了药物知识发现的效率；②对于通过基因表达谱数据的药物知识的发现，如果没有进一步进行验证，会导致后期实验的成功率不高，造成实验资源的浪费。弥补这些缺陷的核心在于，融合基因表达谱数据、药物知识库、疾病知识库和科研文献数据等多种数据源，集各种数据源的优势于一身，建立药物知识发现模型，提高药物知识发现的效率和成功率。

鉴于此，本发明拟从多源数据融合角度，基于“药物—疾病”网络开展知识发现研究，从而实现药物知识的发现，这对于医学领域提出有效的科学问题，并高效开展科学研究具有重要的理论意义和实际应用价值。

参考文献

[1]DiMasi J A,Grabowski H G,Hansen R W.Innovation in thepharmaceutical industry:New estimates of R&D costs[J].Journal of HealthEconomics,2016,(47):20-33.

[2]Iyer G,Hanrahan A J,Milowsky M I,Al-Ahmadie H,Scott S N,Janakiraman M,Pirun M,Sander C,Socci N D,Ostrovnaya I,Viale A,Heguy A,Peng L,Chan T A,Bochner B,Bajorin D F,Berger M F,Taylor B S,Solit D B.GenomeSequencing Identifies a Basis for Everolimus Sensitivity[J].Science,2012,338(6104):221-221.

[3]Mullard A.2017FDA drug approvals[J].Nature Reviews Drug Discovery,2018,17(2):81-85.

[4]Chong C R,Sullivan Jr D J.New uses for old drugs[J].Nature,2007,448(7154):645-646.

[5]王可鉴,石乐明,贺林,张永祥,杨仑.中国药物研发的新机遇:基于医药大数据的系统性药物重定位[J].科学通报,2014,59(18):1790-1796.

[6]Raju T N.The Nobel chronicles.1988:James Whyte Black,(b 1924),Gertrude Elion(1918-99),and George H Hitchings(1905-98)[J].Lancet,2000,355(9208):1022.

[7]Subramanian A,Tamayo P,Mootha V K,Mukherjee S,Ebert B L,Gillette MA,Paulovich A,Pomeroy S L,Golub T R,Lander E S,Mesirov J P.Gene setenrichment analysis:A knowledge-based approach for interpreting genome-wideexpression profiles[J].Proceedings of the National Academy of Sciences,2005,102(43):15545-15550.

[8]Kunkel S D,Suneja M,Ebert S M,Bongers K S,Fox D K,Malmberg S E,Alipour F,Shields R K,Adams C M.mRNA expression signatures of human skeletalmuscle atrophy identify a natural compound that increases muscle mass[J].CellMetabolism,2011,13(6):627-638.

发明内容

本发明所要解决的技术问题是提供一种多组学数据扰动云，解决多源大数据的物理融合、药物与疾病命名实体的识别以及药物疾病知识关联网络模型的构建等难题；实现基因表达谱数据、药物知识数据、疾病知识数据和科研文献知识数据的全融合，通过多源大数据的交叉印证，提高药物知识发现的效率，为全疾病领域的老药新用和新药研发提供全新的思路。

本发明提供的技术方案是：一种基于多源数据的药物知识发现方法，该方法包括以下步骤：

一、原始数据来源、获取与建库

(1)基因表达谱数据

来源：选取权威综合基因芯片数据库作为基因表达谱原始数据的来源；

获取：基于Python Scrapy框架开发基因表达谱数据下载器

(2)药物信息数据

来源：DrugBank；

获取：下载所有药物的XML文件，通过Python lml包进行解析，得到药物字典，包括识别号、名称、别名、适应症、科目分类、不良反应等信息；

(3)疾病信息数据

来源：MalaCards:The human disease database；

获取：通过Python Scrapy下载所有疾病的相关信息，生成疾病字典，包括识别号、名称、别名、症状、疾病分类、ICD号等；

(4)科研文献数据

来源：选取PubMed数据库作为文献数据来源，用于预测药物的验证；

获取：基于Python Scrapy框架开发PubMed文献题库信息下载器，PubMed数据库提供API数据访问接口(E-utility)，可结合该接口中的ESearch函数和EFetch函数完成数据下载；

二、构建差异表达基因数据库

编写Python程序：利用lxml包解析已采集好的基因表达谱数据文件，进行样本分组，建立分组矩阵，利用Python Pandas包在矩阵层面T检验、比值对数运算，筛选差异表达基因，并完成基因Symbol匹配；

三、全药物或全疾病与差异表达基因关联建立

利用Python的re包，编写正则表达式，通过基于药物或疾病字典和基于规则匹配结合的方式，在差异表达基因数据库的标题和摘要字段，匹配药物或疾病名称，建立全药物或全疾病与差异表达基因的关联；

四、实现药物知识的发现

以Jaccard相似系数为基础，建立关联模型；

药物A与潜在适应症或疾病B的基因表达谱应负相关，故修正Jaccard系数为：

公式一

其中，J(A，B)表示药物A和潜在适应症或疾病B的基因表达谱的Jaccard系数，i_A+和i_A-分别表示药物的上调和下调基因，i_B+和i_B-分别表示潜在适应症或疾病B的上调和下调基因；

药物A与潜在类似物C的基因表达谱应正相关，故修正Jaccard系数应为：

公式二

其中，J(A，B)表示药物A和潜在类似物C的基因表达谱的Jaccard系数，i_A+和i_A-分别表示药物的上调和下调基因，i_C+和i_C-分别表示潜在类似物的上调和下调基因。

所述的方法，进一步还包括步骤五：即：科研文本验证，

编写Python程序，利用NLTK自然语言处理包，基于已建好的生物科研文献数据库，构建备选药物相关的“药物-疾病”共现网络，运用复杂网络中的BOW-GID算法和Non-negative matrix factorization算法，建立文本验证模型，对筛选出的目标药物进行验证和预测。所述的方法，其中步骤一中所述的基因表达谱数据下载器，包含以下三个模块：

①构建基因表达谱数据获取号(Accession)字典模块，该模块用于采集Series/Experiment数据获取号，并建立相应字典；

②采集基因表达谱数据模块，该模块负责解析Series/Experiment原始数据的链接，依次遍历获取号字典，获取对应的基因表达谱数据，即MINiML/raw文件；

③数据存储模块，在保存文件资源的同时，利用MySQL数据库构建基因表达谱数据仓库，对所下载的Series/Experiment基本信息予以记录，并与其MINiML/raw文件对应，便于后续对于资源的查找、分析和应用。

所述的方法，其中步骤一中所述的PubMed文献题库信息下载器包含三个模块；

①ESearch模块，负责查询PubMed数据库的总记录条数，并将相关信息提交给PubMed历史服务器(History Server)；

②EFetch模块，负责根据历史信息，调用EFetch函数分批获取PubMed记录，即XML文件，在此过程中，需要进行断链处理；

③数据存储模块，负责将XML记录格式转化为CSV格式，并导入MySQL数据库。

所述的方法，步骤一中选取两种权威综合基因芯片数据库NCBI GEO与EMBL-EBIArrayExpress作为基因表达谱原始数据的来源。

所述的方法，其中步骤五中，所述文本验证模型是BOW-GID模型和Non-negativematrix factorization模型，对筛选出的目标药物进行验证和预测的具体方法为：首先构建一个基于单词袋(BOW)分析的疾病-药物相似性网络，每个已知的药物被标记为1，所有其他的药物被标记为0，然后，利用图形信息扩散(GID)技术将权重从已知药物传递到未知药物，扩散权值最大的候选药物被认为最有可能是未被发现的药物，对于任意给定的一个非负矩阵A，运用Non-negative matrix factorization算法能够寻找到一个非负矩阵U和一个非负矩阵V，使得满足A≈U*V，从而将一个非负矩阵分解为左右两个非负矩阵的乘积，进而识别在疾病中发生突变的常见模式，找到最具代表性的药物基因，对目标药物进行预测，最后通过细胞生物实验对预测出的药物进行验证。

本发明具有以下有益效果：

本发明从多源数据融合角度，基于“药物—疾病”网络开展知识发现研究，融合基因表达谱数据、药物知识库、疾病知识库和科研文献数据等多种数据源，集各种数据源的优势于一身，建立药物知识发现模型，提高药物知识发现的效率和成功率。

(1)有利于实现基因表达谱数据、药物知识数据、疾病知识数据和科研文献知识数据的全融合，通过多源大数据的交叉印证，提高药物知识发现的效率，为全疾病领域的老药新用和新药研发提供全新的思路。

(2)多源大数据深度融合基础上的知识发现，有助于加速药物研发过程，丰富和发展情报学的理论和应用，助推医药领域新业态新模式。

附图说明

图1为本发明多组学数据扰动云的技术流程图。

图2为本发明具体实施例盐酸二甲双胍基因表达谱与AA基因表达谱的相似性分析。

具体实施方式

下面通过具体实施方式的详细描述来进一步阐明本发明，但并不是对本发明的限制，仅仅作示例说明。

本发明一种基于多源数据的药物知识发现方法包括以下步骤(参见图1)：

1.原始数据来源、获取与建库

(1)基因表达谱数据

来源：选取两种权威综合基因芯片数据库NCBI GEO与EMBL-EBI ArrayExpress作为基因表达谱原始数据的来源。

获取：基于Python Scrapy框架开发基因表达谱数据下载器，包含以下三个模块：

①构建基因表达谱数据获取号(Accession)字典模块，该模块用于采集Series/Experiment数据获取号，并建立相应字典。

②采集基因表达谱数据模块，该模块负责解析Series/Experiment原始数据的链接，依次遍历获取号字典，获取对应的基因表达谱数据(MINiML/raw文件)。

(2)药物信息数据

来源：DrugBank。

获取：下载所有药物的XML文件，通过Python lml包进行解析，得到药物字典，包括识别号、名称、别名、适应症、科目分类、不良反应等信息。

(3)疾病信息数据

来源：MalaCards:The human disease database。

获取：通过Python Scrapy下载所有疾病的相关信息，生成疾病字典，包括识别号、名称、别名、症状、疾病分类、ICD号等。

(4)科研文献数据

来源：选取PubMed数据库作为文献数据来源(28715019万条记录，截止时间2018年8月5日)，用于预测药物的验证。

获取：基于Python Scrapy框架开发PubMed文献题库信息下载器，PubMed数据库提供API数据访问接口(E-utility)，可结合该接口中的ESearch函数和EFetch函数完成数据下载。该下载器包含三个模块。

①ESearch模块，负责查询PubMed数据库的总记录条数，并将相关信息提交给PubMed历史服务器(History Server)。

②EFetch模块，负责根据历史信息，调用EFetch函数分批获取PubMed记录(XML文件)。在此过程中，需要进行断链处理。

2.构建差异表达基因数据库

编写Python程序：利用lxml包解析已采集好的基因表达谱数据文件(MINiML/raw)，进行样本(Sample)分组，建立分组矩阵，利用Python Pandas包在矩阵层面T检验、比值对数运算，筛选差异表达基因(上调、下调)，并完成基因Symbol匹配。

3.全药物(全疾病)与差异表达基因关联建立

利用Python的re包，编写正则表达式，通过基于药物(疾病)字典和基于规则匹配结合的方式，在差异表达基因数据库的标题和摘要字段，匹配药物(疾病名称)，建立全药物(全疾病)与差异表达基因的关联。

4.实现药物知识的发现

本研究将以Jaccard相似系数为基础，建立关联模型。

药物A与潜在适应症(疾病)B的基因表达谱应负相关，故修正Jaccard系数为：

公式一

其中，J(A，B)表示药物A和潜在适应症或疾病B的基因表达谱的Jaccard系数，i_A+和i_A-分别表示药物的上调和下调基因，i_B+和i_B-分别表示潜在适应症或疾病B的上调和下调基因。

公式二

5.科研文本验证

编写Python程序，利用NLTK自然语言处理包，基于已建好的生物科研文献数据库，构建备选药物相关的“化合物—疾病”共现网络，运用复杂网络中的BOW-GID模型和Non-negative matrix factorization模型，对药物的作用进行验证和预测，选择尚未报道的、预测概率高的药物，作为第一组备选药物，进行随后的细胞实验。对筛选出的目标药物进行验证和预测的具体方法为：首先构建一个基于单词袋(BOW)分析的疾病-药物相似性网络，每个已知的药物被标记为1，所有其他的药物被标记为0，然后，利用图形信息扩散(GID)技术将权重从已知药物传递到未知药物，扩散权值最大的候选药物被认为最有可能是未被发现的药物，对于任意给定的一个非负矩阵A，运用Non-negative matrix factorization算法能够寻找到一个非负矩阵U和一个非负矩阵V，使得满足A≈U*V，从而将一个非负矩阵分解为左右两个非负矩阵的乘积，进而识别在疾病中发生突变的常见模式，找到最具代表性的药物基因，对目标药物进行预测，最后通过细胞生物实验对预测出的药物进行验证。

实施例：二甲双胍新适应症预测

再生障碍性贫血(aplastic anemia,AA)是最常见的骨髓衰竭性疾病，虽然多数患者病程缓慢，但需要定期输注血液制品维持生命，给患者、家属和社会都带来了沉重的经济负担，再加上我国血液制品资源紧张，使本病的治疗更加困难。目前AA的治疗方法主要包括免疫抑制剂、雄激素、中药和造血干细胞移植等。造血干细胞移植是最有可能治愈AA的方法，但因干细胞来源相对较少且费用昂贵，并不适合大多数患者，而长期应用免疫抑制剂和雄激素可造成严重的毒副作用。因此，寻找新的治疗AA的有效方法是血液学领域的当务之急。

项目组基于多源大数据，将AA的特征疾病基因表达谱与药物基因组学数据库进行相似性分析，筛选发现盐酸二甲双胍可能具有治疗AA的作用，并进行了初步临床研究，以期在提高AA临床疗效、降低治疗费用等方面做出有益的尝试。

(1)资料与方法

以“aplastic anemia”和“pathogenesis”作为关键词，在人类基因组表达数据库中筛选相关的全基因组表达数据库，与药物基因组学数据库进行相似性分析，选择与AA具有负相关的药物数据库，作为治疗AA的候选药物。

(2)结果

①一般资料：研究纳入患者43例，男26例，女17例，年龄14～66(中位值31)岁，其中CAA 28例，SAA-1 15例，患者其他基线资料详见表1。所有患者均完成6个月治疗，治疗期间均无失访及脱落。

表1 43例AA患者基线资料

②盐酸二甲双胍可能具有治疗AA的新作用：采用基因表达谱相似性分析理论，在包括3000种常用药物的基因组数据库中，筛选出与再生障碍性贫血负相关的药物，结果显示盐酸二甲双胍符合筛选条件(参见图2)。

③临床疗效：共43例AA患者纳入本研究。27例输血依赖者在治疗6个月后全部(100％)脱离输血；40例贫血患者治疗后37例(92.5％)血红蛋白完全恢复正常；30例治疗前血小板低于20×10⁹/L者，治疗后有28例(93.3％)升至50×10⁹/L以上；35例白细胞低于2.5×10⁹/L者，治疗后31例(88.6％)上升至3.5×10⁹/L以上(见表2)。

表2盐酸二甲双胍联合方案治疗前后AA患者血液学指标变化(x±s)

(3)结论

项目组以AA发病相关的T淋巴细胞人类全基因组表达谱作为切入点，与药物基因组学数据库中3000种常用药物的基因表达谱进行相似性分析，根据“表达谱相似，功能相近；表达谱相反，功能相异”的原则，首先预测出盐酸二甲双胍可能具有治疗AA的作用[3]；随后对难治性AA患者进行了疗效验证。结果表明，43例对CsA和(或)雄激素治疗无效的患者，在含盐酸二甲双胍联合方案(盐酸二甲双胍+CsA+司坦唑醇)治疗后，红系、粒系及巨核系均出现明显反应，反应率分别为92.5％、88.6％和93.3％，其中27例输血依赖者经治疗后全部脱离输血。

值得一提的是，本组15例SAA患者在接受此联合方案治疗后，无一例接受造血干细胞移植，该结果提示盐酸二甲双胍可能具有治疗AA的作用，这在以往文献中未见报道。由于盐酸二甲双胍、CsA、司坦唑醇三药联合方案价格低廉，毒副作用小，因此更适合我国目前大部分AA患者，在提高疗效的同时，也大幅降低了治疗费用。

综上所述，盐酸二甲双胍是AA治疗成员的有益补充，本联合方案为AA治疗提供了一种新的安全可靠的选择。目前预测的二甲双胍在治疗再生障碍性贫血和肿瘤患者放化疗骨髓损伤的修复方面获得国家专利授权，已经在山西康斯亚森生物科技有限公司实现转化。

Claims

1.一种基于多源数据的药物知识发现方法，其特在于该方法包括以下步骤：

一、原始数据来源、获取与建库

(1)基因表达谱数据

获取：基于Python Scrapy框架开发基因表达谱数据下载器

(2)药物信息数据

来源：DrugBank；

(3)疾病信息数据

来源：MalaCards: The human disease database；

(4)科研文献数据

二、构建差异表达基因数据库

三、全药物或全疾病与差异表达基因关联建立

四、实现药物知识的发现

以Jaccard相似系数为基础，建立关联模型；

公式一

其中，J（A，B）表示药物A和潜在适应症或疾病B的基因表达谱的Jaccard系数，i_A+和i_A-分别表示药物的上调和下调基因，i_B+和i_B-分别表示潜在适应症或疾病B的上调和下调基因；

公式二

其中， J（A，B）表示药物A和潜在类似物C的基因表达谱的Jaccard系数，i_A+和i_A-分别表示药物的上调和下调基因，i_C+和i_C-分别表示潜在类似物的上调和下调基因。

2.根据权利要求1所述的方法，其特征在于：进一步还包括步骤五，即：科研文本验证，

编写Python程序，利用NLTK自然语言处理包，基于已建好的生物科研文献数据库，构建备选药物相关的“药物-疾病”共现网络，运用复杂网络中的BOW-GID算法和Non-negativematrix factorization算法，建立文本验证模型，对筛选出的目标药物进行验证和预测。

3.根据权利要求1或2所述的方法，其特征在于：步骤一中所述的基因表达谱数据下载器，包含以下三个模块：

②采集基因表达谱数据模块，该模块负责解析Series/ Experiment原始数据的链接，依次遍历获取号字典，获取对应的基因表达谱数据，即MINiML/raw文件；

4.根据权利要3所述的方法，其特征在于：步骤一中所述的PubMed文献题库信息下载器包含三个模块；

5.根据权利要求1或2所述的方法，其特征在于：步骤一中选取两种权威综合基因芯片数据库NCBI GEO与EMBL-EBI ArrayExpress作为基因表达谱原始数据的来源。

6.根据权利要2所述的方法，其特征在于：步骤五中，所述文本验证模型是BOW-GID模型和Non-negative matrix factorization模型，对筛选出的目标药物进行验证和预测的具体方法为：首先构建一个基于单词袋(BOW)分析的疾病-药物相似性网络，每个已知的药物被标记为1，所有其他的药物被标记为0，然后，利用图形信息扩散 (GID)技术将权重从已知药物传递到未知药物，扩散权值最大的候选药物被认为最有可能是未被发现的药物，对于任意给定的一个非负矩阵A，运用Non-negative matrix factorization算法能够寻找到一个非负矩阵U和一个非负矩阵V，使得满足 A≈U*V，从而将一个非负矩阵分解为左右两个非负矩阵的乘积，进而识别在疾病中发生突变的常见模式，找到最具代表性的药物基因，对目标药物进行预测，最后通过细胞生物实验对预测出的药物进行验证。