CN110021360B - 基于组学数据挖掘的疾病—药物关联平台 - Google Patents

基于组学数据挖掘的疾病—药物关联平台 Download PDF

Info

Publication number
CN110021360B
CN110021360B CN201710946836.4A CN201710946836A CN110021360B CN 110021360 B CN110021360 B CN 110021360B CN 201710946836 A CN201710946836 A CN 201710946836A CN 110021360 B CN110021360 B CN 110021360B
Authority
CN
China
Prior art keywords
disease
gene
series
data
drug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710946836.4A
Other languages
English (en)
Other versions
CN110021360A (zh
Inventor
贺培凤
于琦
卢学春
何小峰
袁永旭
吴胜男
武建光
刘鸿齐
邰杨芳
郝亚楠
吕艳华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Medical University
Original Assignee
Shanxi Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Medical University filed Critical Shanxi Medical University
Priority to CN201710946836.4A priority Critical patent/CN110021360B/zh
Publication of CN110021360A publication Critical patent/CN110021360A/zh
Application granted granted Critical
Publication of CN110021360B publication Critical patent/CN110021360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于组学数据挖掘的“疾病—药物”关联平台,该平台包括预测工具模块、出版物模块和对外服务模块。本发明提供的“疾病—药物”关联平台,可以计算与疾病和药物相关的高表达基因,通过基因表达数据的负相关计算,预测出疾病与药物之间的潜在关联。可大大提高药物研发的精准性及针对性,为提升临床诊治水平提供引领和支撑;实现组学数据及表观组学数据的深度挖掘,使之服务社会、经济;可促进临床领域科学假说的生成,加快治疗的研究进程,推动临床相关学科发展;可迅速推进药物开发的产业化,从而创造可观的市场价值,促进国民经济快速发展。

Description

基于组学数据挖掘的疾病—药物关联平台
技术领域
本发明属于生物医药技术领域,特别是一种针对癌症等疑难杂症的 “疾病—药物”关联平台。
背景技术
高通量检测技术的成熟及广泛应用,使得临床生物学数据大幅增长,而今已步入生物信息学数据呈指数级增长的时代。生物医学实验中出现如MicroArray的新型数据,逐步成为当今生物医学实验研究的支柱。并且促成了大型基因芯片数据的建立,如NCBI的GEO(Gene Expression Omnibus)和EBI的 ArrayExpress,MIT的ChipDB。许多生物的基因组和各阶段生命过程,作用机理等知识的研究资料、研究成果和实验数据,被包含在相应物种的专门数据库或相应数据类型的大型数据库中。生物信息数据库不仅包含疾病、生物基因、遗传、表型数据和其他多态性等基因表达数据,供研究者使用,而且这些蕴含丰富数据的数据库在临床生物学研究中具有重要的作用。
GEO数据库具有很强的开放性和灵活性,为临床生物信息学研究者提供了实用的挖掘平台,愈来愈多的生物信息学者将会更加青睐这一平台。面对海量的基因表达数据,当前面临的挑战不再是海量数据的获取问题,主要挑战在于解释和分析这些数据,尝试从这些大量基因表达数据中挖掘出潜在的规律,发现“疾病—药物”潜在的关联,从而为癌症等难治疾病提供新的治疗思路和方案,给人类带来福音。
发明内容
本发明针对现有的技术搭建了“疾病—药物”关联分析平台,主要可以计算与疾病和药物相关的高表达基因,通过基因表达数据的负相关,预测出针对疾病和药物(化合物)之间的潜在关联。 本发明提供的技术方案是:一种基于组学数据挖掘的“疾病—药物”关联平台,包括预测工具模块、出版物模块和对外服务模块,其中:
预测工具模块主要是利用Python编程语言与MySQL数据库建立连接并进行操作,通过数据清洗、高表达基因计算、关联分析步骤构建“疾病—药物”关联模型;主要包含2个分析工具,一个是疾病和药物关联分析工具,另一个是高表达基因分析工具;检索结果以两个表格进行呈现:一个表格显示检索疾病或药物的相关性评分;另一个表格显示命中结果中各种疾病或药物出现的频次;
出版物模块主要展示的是研究者利用所述平台数据发表的相关论文题录,即链接全文,在论文题录下方以标签的形式着重显示此论文的研究重点以及值得借鉴学习的方面;
对外服务模块主要为研究者提供专门的数据处理以及分析的服务,注册用户可以向所述平台上传问题,这些问题将统一分类汇总传输给相应的后台,后台处理给出解决方法后所述平台会及时反馈给用户;
所述关联平台其能够完成下述功能:
(1)获取系列Series描述信息,构建系列Series获取号(Accesion)字典:通过数据库自带的GUI接口下载全部的Series描述信息,下载的内容包含后续程序开发所需要的序列号Accession;利用Python编写程序抽取Series描述信息中的Accession号,建立Series获取号字典,存储在Accession.csv文件中;
(2)获取Series基因表达信息:根据获取号Accesion推断出MINiML文件对应的网址,然后获取相应的url,下载MINiML文件;
(3)利用Python针对下载下来的MINiML压缩文件编写相应的解压缩程序,自动不间断的解压压缩文件;
(4)解压完成后,通过对解压得到的数据进行提取,得到同一个系列Series不同样本数据的来源信息,存储在group.txt文件中;并将不同样本数据中的基因表达值合并生成一个矩阵,存储在matrix.txt文件中;
(5)通过编写的程序对(4)得到的数据进行分析计算,得到上调高表达基因与下调低表达基因,分别存储在up.csv与down.csv文件中;计算分析,给出“...发现了**个上调基因,**个下调基因”的信息,计算结果会存储在up.csv与down.csv文件中;
(6)将(5)中得到的系列Series与(2)中的系列Series匹配,解压得到每一个相匹配的系列Series所对应的平台信息;然后选择平台Platform信息中的gene symbol信息,将gene symbol与(5)得到的数据进行匹配,匹配得到的数据分别存储在up_symbol.csv与down_symbol.csv文件中;
(7) 关联分析:通过疾病与药物基因表达数据的负相关计算,预测出疾病与药物之间的潜在关联。
所述负相关计算是Jaccard相似系数算法:给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,对疾病的上调基因和药物的下调基因、疾病的下调基因和药物的上调分别做这个运算,最终计算出来的系数值用来预测相关性的强度,值越高相关性越强,预测出疾病与药物之间的潜在关联,如果疾病与药物是负相关关系就证明了是相互抑制的作用,反之亦然。
本发明具有以下有益效果:
本发明提供的“疾病—药物”关联平台,可以计算与疾病和药物相关的高表达基因,通过基因表达数据的负相关计算,预测出疾病与药物之间的潜在关联。可大大提高药物研发的精准性及针对性,为提升临床诊治水平提供引领和支撑;实现组学数据及表观组学数据的深度挖掘,使之服务社会、经济;可促进临床领域科学假说的生成,加快治疗的研究进程,推动临床相关学科发展;可迅速推进药物开发的产业化,从而创造可观的市场价值,促进国民经济快速发展。
附图说明
图1为本发明实施例1的A药实验结果。
图2为本发明实施例1的B药实验结果。
图3为本发明实施例1的D药实验结果。
具体实施方式
本发明一种基于组学数据挖掘的“疾病—药物”关联平台,包括预测工具模块、出版物模块和对外服务模块,其中:
预测工具模块主要是利用Python编程语言与MySQL数据库建立连接并进行操作,通过数据清洗、高表达基因计算、关联分析步骤构建“疾病—药物”关联模型;主要包含2个分析工具,一个是疾病和药物关联分析工具,另一个是高表达基因分析工具;检索结果以两个表格进行呈现:一个表格显示检索疾病或药物的相关性评分;另一个表格显示命中结果中各种疾病或药物出现的频次;
出版物模块主要展示的是研究者利用本平台数据发表的相关论文题录(链接全文),在论文题录下方以标签的形式着重显示此论文的研究重点以及值得借鉴学习的方面。比如:试验进展;数据生成;数据分析;分析方法;数据集成;数据标准;标志物生成;软件开发等方面。
对外服务模块主要为研究者提供专门的数据处理以及分析的服务。注册用户如有难以处理的相关的比较棘手的问题,可以向本平台上传研究中遇到的问题,这些问题将统一分类汇总传输给相应的后台专家,专家处理给出解决方法后平台会及时反馈给用户。
本发明中预测工具模块、出版物模块和对外服务模块这三个模块相辅相成,相互依赖。研究人员使用预测工具所做出来的研究成果如果出版发表,发表的文献都会收录在出版物模块中;对外服务模块会具体展示出平台将会给用户提供什么服务,这些服务需要用户提供什么资料,平台会给用户提供什么资料以及收费标准等等,对外服务模块所提供的服务正是基于预测工具来实现的。
本发明所述的关联平台能够完成下述功能:
① 获取Series描述信息,构建Series获取号(Accesion)字典:通过数据库自带的GUI接口下载全部的Series描述信息,下载的内容包含后续程序开发所需要的序列号Accession。利用Python编写程序抽取Series描述信息中的Accession号,建立Series获取号字典,存储在Accession.csv文件中。
② 获取Series基因表达信息:根据获取号Accesion推断出MINiML文件对应的网址,然后获取相应的url,下载MINiML文件,MINiML文件是XML格式文件,包含所有平台(Platform)、样本(Sample)和系列(Series)信息的完整数据。
③ 利用Python针对下载下来的压缩文件编写相应的解压缩程序,自动不间断的解压压缩文件。
④ 解压完成后,通过对解压得到的数据进行提取,得到同一个系列(Series)不同样本(Sample)数据的来源(Source name)信息,存储在group.txt文件中;并将不同样本数据中的基因表达值合并生成一个矩阵,存储在matrix.txt文件中。
⑤ 通过编写的程序对④得到的数据进行分析计算,得到上调高表达基因与下调低表达基因,分别存储在up.csv与down.csv文件中。通过计算分析,最后会出现“...发现了**个上调基因,**个下调基因”的信息,计算结果会存储在up.csv与down.csv文件中。
⑥ 将⑤中得到的系列(Series)与②中的系列(Series)匹配,解压得到每一个相匹配的系列(Series)所对应的平台(Platform)信息。然后选择平台(Platform)信息中的gene symbol信息,将gene symbol与⑤得到的数据进行匹配,匹配得到的数据分别存储在up_symbol.csv与down_symbol.csv文件中。
⑦ 关联分析
通过疾病与药物基因表达数据的负相关计算,预测出疾病与药物之间的潜在关联:
疾病会引起某些基因表达丰度信息的上调或下调,药物也会引起某些基因表达丰度信息的上调或下调,那么我们需要找到一种药物能够使得上调基因丰度下调,让下调基因丰度上调,这就是所谓的负相关。我们要找的就是负相关最强的这种药物作为我们最终的预测药物。负相关计算可以运用很多的算法,其中有一种算法就是Jaccard相似系数,给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值。但是我们所使用的与原始的Jaccard相似系数有一些差异,我们是对疾病的上调基因和药物的下调基因、疾病的下调基因和药物的上调分别做这个运算,最终计算出来的系数值,用来预测相关性的强度,值越高相关性越强。预测出疾病与药物之间的潜在关联,如果疾病与药物是负相关关系就证明了是相互抑制的作用,反之亦然。判断标准是Jaccard相似系数的值,Jaccard相似系数的值越高相关性越强。
实施例一:
基于乙型病毒性肝炎疾病基因组学数据库与药物基因组学数据库关联分析,建立“疾病-基因-化合物”关联分析模型,发现毛壳素等化合物对HBV有抑制作用。具体如下:
(1)建立乙肝二级组学数据库
利用Python 语言,针对国际权威生物信息数据库发布的基因表达特征数据,自主开发专用爬虫软件,抓取乙肝相关的转录组学数据,并做标准化处理。整合前期积累的化合物表观组学数据,利用MongoDB 对上述两类组学数据建库,形成乙肝二级组学数据库。
基于Python的Scrapy爬虫框架,确定深度优先的搜索策略,开发基因表达数据的专用爬虫。爬虫模块包括:页面抓取模块、页面解析模块、URL 去重模块和数据存储模块。①页面抓取模块:遍历权威基因表达信息数据库网站(GEO、ExpressDB、HuGE Index、ArrayDB、ArrayExpress、SMD、YMD),获取与乙肝相关的基因表达信息页面。②页面解析模块:利用Python 的lxml包来实现,通过xpath技术解析网络抓取模块中下载的页面,抽取出特定的基因表达数据。③URL去重模块:不同页面上存在大量的重复链接,为了避免资源的重复下载,需要使用相应的URL 去重模块对链接进行去重。④数据存储模块:对于在解析网页过程中所得到的URL 链接,以及爬虫所抓取到的资源,需要对其进行保存,便后续的抓取和分析工作的使用。由于基因表达信息数据量大,需要使用支持海量数据的NoSQL 数据库(如MongoDB)管理和储存。在设计爬虫的过程中,需要考虑突破反爬虫限制的代码。
(2)利用临床生物信息学方法预测治疗HBV 的先导化合物
利用Python 编程语言对MongoDB数据库进行操作,采用深度学习方法和Me-Too、Me-Better 的思想,利用此平台,我们构建了全新的“疾病-基因-化合物”关联分析模型,将乙肝发病相关的全基因组范围内的异常信息,与化合物表观组学数据关联,通过与疾病基因表达数据负相关的组学数据,成功预测出以MKS001等老药,具有同时抑制HBV DNA、HBsAg、HBeAg 的作用。
(3)验证预测出的抗HBV先导化合物
通过前期的工作,已经成功预测出6种基于宿主(人)的抗HBV先导化合物。初步实验结果表明,有3 种具有很好的体外抗作用,关于这3 种先导化合物做进一步验证。开展先导化合物体外抗HBV作用的细胞学实验,实验具体步骤如下:
(1) HepG2.2.15 细胞培养
1) Hep G2.2.15 细胞的复苏
① 从液氮中取出冻存 Hep G2.2.15 细胞的冻存管,迅速置入37℃恒温水浴箱,快速解冻细胞;
② 打开冻存管,将细胞悬液吸到离心管中,800rpm 离心 5 分钟,弃去上清液;
③ 加5ml 新鲜培养液,吹打均匀,再离心5 分钟,弃上清液;
④ 再加入培养液5ml,吹打形成细胞悬液,移入培养瓶,37℃、5%CO2 孵箱培养;
⑤ 次日观察细胞贴壁状况,1-3 天换液一次。
2) Hep G2.2.15 细胞的传代
① 细胞贴壁长满后,吸掉旧培养液,PBS 液2ml,清洗两边,弃掉PBS;加入胰蛋白酶-EDTA 消化液1ml,流遍细胞,37℃,消化2min;
③ 倒置显微镜下观察细胞回缩,细胞间隙增大,吸掉消化液,立即终止消化;
④ 加入新鲜培养液5ml,吸管吹打瓶壁细胞,形成细胞悬液,移入离心管,800rpm离心 5 分钟,弃上清;
⑤ 再加入培养液10ml,反复吹打,形成单个细胞悬液,按 1:2-3传代于新的培养瓶,37℃、5%CO2 孵箱继续培养。
3) Hep G2.2.15 细胞的冻存
① 取对数生长期细胞,吸掉旧培养液,PBS2ml 洗两遍,吸去PBS;
② 加入胰蛋白酶-EDTA 消化液 1ml,37℃消化2 min,观察细胞稍见回缩,吸去消化液,加培养基1ml,重悬细胞,放入离心管,800rpm 离心5min,弃去上清;
③加入细胞冻存液2ml,重悬细胞,吸至冻存管中,封口,纱布包裹;
④顺序放4℃ 30min,-20℃ 1h,-70 ℃过夜,次日投入液氮冻存。
(2) CCK-8 检测药物的细胞毒性
取对数期生长期细胞,将细胞接种于96 孔板,每孔100ul,细胞密度为8×104 个/ml,待细胞贴壁后,弃掉旧培养液,加入含药培养基,每种药物的不同浓度均设3 个复孔,同时设立空白对照组和阴性对照组,同时培养72h 后,每个孔均加入cck-8 10ul,放入37℃孵箱,待反应2-3h 后,酶标仪检测450nm 处OD 值,并记录数据。
(3) 药物对HBV 的抑制作用
根据cck8 检测得出每种药物的最大无毒剂量(TC0),按照倍比稀释法将TC0 的药物依次稀释为5 种浓度,将不同浓度的含药培养基加入同一个24 孔细胞培养板中,每种浓度设3 个复孔,同时设立空白对照组及阴性对照组,同时培养72h 后,收集细胞培养上清液,应用ELISA 法检测细胞培养液中HBsAg、HBeAg 含量,应用实时荧光定量PCR 检测细胞上清液中HBV-DNA 载量。(实验步骤均严格按照ELISA试剂盒及DNA检测试剂盒说明书操作)观察药物对HBV的抑制作用及药物的量效关系。
具体结果如下:
基于疾病基因组学与药物基因组学相似性分析,以MKS001 为代表的药物对抑制HBV 有效。在前期采用新的临床生物信息学分析方法,获取了乙肝相关的人类全基因组基因表达谱,采用基于疾病基因组学与药物基因组学相似性分析的多组学分析方法,将相关基因与临床常用药物进行对比分析,发现预测出的3 种先导化合物对抑制HBV 有效(见图1,2,3)。尤其是MKS001(先导化合物B),在0.1umol/L 浓度下,其对HBsAg 的抑制率已达到51.11%,而在相同浓度下,对照药F(恩替卡韦)只对HBV DNA 具有抑制作用,抑制率为66.76(见图2)。

Claims (2)

1.一种基于组学数据挖掘的“疾病—药物”关联平台,包括预测工具模块、出版物模块和对外服务模块,其中:
预测工具模块是利用Python编程语言与MySQL数据库建立连接并进行操作,通过数据清洗、高表达基因计算、关联分析步骤构建“疾病—药物”关联模型;模块包含2个分析工具,一个是疾病和药物关联分析工具,另一个是高表达基因分析工具;检索结果以两个表格进行呈现:一个表格显示检索疾病或药物的相关性评分;另一个表格显示命中结果中各种疾病或药物出现的频次;
出版物模块展示的是研究者利用所述平台数据发表的相关论文题录,即链接全文,在论文题录下方以标签的形式着重显示此论文的研究重点以及值得借鉴学习的方面;
对外服务模块能够为研究者提供专门的数据处理以及分析的服务,注册用户向所述平台上传问题,这些问题将统一分类汇总传输给相应的后台,后台处理给出解决方法后所述平台及时反馈给用户;
所述关联平台其能够完成下述功能:
(1)获取系列Series描述信息,构建系列Series获取号字典:通过数据库自带的GUI接口下载全部的Series描述信息,下载的内容包含后续程序开发所需要的获取号Accession;利用Python编写程序抽取Series描述信息中的获取号Accession,建立Series获取号字典,存储在Accession .csv文件中;
(2)获取Series基因表达信息:根据获取号Accesion推断出MINiML压缩文件对应的网址, 然后获取相应的url,下载MINiML压缩文件;
(3)利用Python针对下载下来的MINiML压缩文件编写相应的解压缩程序,自动不间断的解压压缩文件;
(4)解压完成后,通过对解压得到的数据进行提取,得到同一个系列Series不同样本数据的来源信息,存储在group .txt文件中;并将不同样本数据中的基因表达值合并生成一个矩阵,存储在matrix .txt文件中,一个基因表达矩阵对应着一个系列Series的获取号Accesion;
(5)通过编写的程序对(4)中得到的基因表达值矩阵文件进行分析计算,得到上调高表达基因与下调低表达基因,分别存储在up .csv与down .csv文件中;
(6)将(5)中分析计算的基因表达矩阵文件的系列Series通过获取号Accesion与(2)中的系列Series匹配,解压得到每一个相匹配的系列Series所对应的平台Platform信息;然后选择平台Platform信息中的gene symbol信息,将gene symbol与(5)分析得到的上调高表达基因和下调低表达基因进行匹配,匹配得到的数据分别存储在up_symbol .csv与down_ symbol .csv文件中;
(7)关联分析:通过疾病与药物基因表达数据的负相关计算预测出疾病与药物之间的潜在关联。
2. 根据权利要求1所述的基于组学数据挖掘的“疾病—药物”关联平台,其特征在于:所述负相关计算是Jaccard相似系数算法:给定两个集合A ,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,对疾病的上调基因和药物的下调基因、疾病的下调基因和药物的上调基因分别做这个运算,最终计算出来的相关系数值用来预测相关性的强度,值越高相关性越强,预测出疾病与药物之间的潜在关联,如果该相关系数值是负数,则说明该药物对于该疾病具有潜在治疗作用。
CN201710946836.4A 2017-09-30 2017-09-30 基于组学数据挖掘的疾病—药物关联平台 Active CN110021360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710946836.4A CN110021360B (zh) 2017-09-30 2017-09-30 基于组学数据挖掘的疾病—药物关联平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710946836.4A CN110021360B (zh) 2017-09-30 2017-09-30 基于组学数据挖掘的疾病—药物关联平台

Publications (2)

Publication Number Publication Date
CN110021360A CN110021360A (zh) 2019-07-16
CN110021360B true CN110021360B (zh) 2023-04-18

Family

ID=67186616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710946836.4A Active CN110021360B (zh) 2017-09-30 2017-09-30 基于组学数据挖掘的疾病—药物关联平台

Country Status (1)

Country Link
CN (1) CN110021360B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570905B (zh) * 2019-07-22 2023-08-08 中国人民解放军总医院 组学数据分析平台的构建方法、装置和计算机设备
CN112017736B (zh) * 2020-09-04 2024-03-19 平安科技(深圳)有限公司 基于关系抽取和机器学习的药物发现方法、装置及设备
CN114038574A (zh) * 2021-11-03 2022-02-11 山西医科大学 一种基于异构关联网络深度学习的药物重定位系统及方法
CN115458188B (zh) * 2022-11-11 2023-03-14 神州医疗科技股份有限公司 药物高效应答候选标记的挖掘方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105986012A (zh) * 2015-01-30 2016-10-05 中国科学院上海高等研究院 临界转化态emt基因在制备或筛选诊断肺癌的药物或试剂盒、或筛选治疗肺癌的药物中的用途
CN106971071A (zh) * 2017-03-27 2017-07-21 为朔医学数据科技(北京)有限公司 一种临床决策支持系统及方法
CN107066835A (zh) * 2017-01-19 2017-08-18 东南大学 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105986012A (zh) * 2015-01-30 2016-10-05 中国科学院上海高等研究院 临界转化态emt基因在制备或筛选诊断肺癌的药物或试剂盒、或筛选治疗肺癌的药物中的用途
CN107066835A (zh) * 2017-01-19 2017-08-18 东南大学 一种利用公共数据资源发现并整合直肠癌相关基因及其功能分析的方法及系统和应用
CN106971071A (zh) * 2017-03-27 2017-07-21 为朔医学数据科技(北京)有限公司 一种临床决策支持系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CINAHL数据库的检索系统及相关检索方法;左红霞;《中国循证心血管医学杂志》;20170220;全文 *
生物医学领域科研合作现状及预测研究 ——以心血管病、肿瘤和健康管理研究领域为例;于琦;《中国优秀博士学位论文全文数据库信息科技辑》;20141215;全文 *
配体和序列空间中人类可靶标蛋白质网络的研究;杜宇;《中国优秀硕士学位论文全文数据库信息科技辑》;20160915;全文 *

Also Published As

Publication number Publication date
CN110021360A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
Li et al. Rooting the animal tree of life
CN110021360B (zh) 基于组学数据挖掘的疾病—药物关联平台
US11702708B2 (en) Systems and methods for analyzing viral nucleic acids
Wilkinson et al. CowPI: a rumen microbiome focussed version of the PICRUSt functional inference software
Sun et al. Metagenomic reconstructions of bacterial CRISPR loci constrain population histories
Abarenkov et al. PlutoF—a web based workbench for ecological and taxonomic research, with an online implementation for fungal ITS sequences
CN107066835B (zh) 一种发现并整合直肠癌相关基因及其功能分析的系统
Danko et al. Global genetic cartography of urban metagenomes and anti-microbial resistance
Chang et al. Genome-scale phylogenetic analyses confirm Olpidium as the closest living zoosporic fungus to the non-flagellated, terrestrial fungi
Pible et al. Improving the quality of genome, protein sequence, and taxonomy databases: A prerequisite for microbiome meta‐omics 2.0
Zha et al. Microbial dark matter: from discovery to applications
CN114582429A (zh) 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
CN110970091A (zh) 标签质控的方法及装置
Ascandari et al. A bibliometric analysis of the global impact of metaproteomics research
Van Etten et al. A k-mer-based approach for phylogenetic classification of taxa in environmental genomic data
Hollister et al. Bioinformation and’omic approaches for characterization of environmental microorganisms
CN106778071A (zh) 用以分析细菌菌种的测序数据的系统及其方法
Wang et al. GePMI: A statistical model for personal intestinal microbiome identification
Guerillot et al. A comprehensive collection of transcriptome data to support life cycle analysis of the poplar rust fungus Melampsora larici-populina
吴玥 et al. Establishment of a comparative transcriptomics database of heart disease animal models
Comolli Extension of the Genomic Conceptual Model to Integrate Genome-Wide Association Studies
US20240127907A1 (en) Bioinformatics pipeline and annotation systems for microbial genetic analysis
KR20180090680A (ko) 유전체 분석 시스템
Beghini Integrative computational microbial genomics for large-scale metagenomic analyses
Ceri et al. Data-driven genomic computing: Making sense of signals from the genome

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant