CN107038350B - 一种药物的长非编码rna靶点预测方法和系统 - Google Patents

一种药物的长非编码rna靶点预测方法和系统 Download PDF

Info

Publication number
CN107038350B
CN107038350B CN201610542734.1A CN201610542734A CN107038350B CN 107038350 B CN107038350 B CN 107038350B CN 201610542734 A CN201610542734 A CN 201610542734A CN 107038350 B CN107038350 B CN 107038350B
Authority
CN
China
Prior art keywords
coding rna
long non
gene
drug
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610542734.1A
Other languages
English (en)
Other versions
CN107038350A (zh
Inventor
王永翠
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy of Mathematics and Systems Science of CAS
Northwest Institute of Plateau Biology of CAS
Original Assignee
Academy of Mathematics and Systems Science of CAS
Northwest Institute of Plateau Biology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy of Mathematics and Systems Science of CAS, Northwest Institute of Plateau Biology of CAS filed Critical Academy of Mathematics and Systems Science of CAS
Priority to CN201610542734.1A priority Critical patent/CN107038350B/zh
Publication of CN107038350A publication Critical patent/CN107038350A/zh
Application granted granted Critical
Publication of CN107038350B publication Critical patent/CN107038350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

本发明涉及一种药物的长非编码RNA靶点预测方法和系统。该方法包括:1)通过分析长非编码RNA和基因的表达数据构建长非编码RNA和基因的共表达关系,并通过机器学习方法预测长非编码RNA的调控基因集合;2)通过分析药物作用下的基因表达数据构建对药物敏感的基因集合;3)通过最优化方法建立长非编码RNA的调控基因和药物敏感基因的联系,进而预测药物的长非编码RNA靶点。该系统包括数据收集模块、数据集构建模块、数据建模模块。本发明建立了一种全新的基于最优化模型的药物长非编码RNA靶点的识别框架和计算系统,能够有效预测药物长非编码RNA靶点。

Description

一种药物的长非编码RNA靶点预测方法和系统
技术领域
本发明属于生物技术、信息技术领域,具体涉及一种药物的长非编码RNA靶点预测方法和系统。
背景技术
非编码RNA(non-coding RNA:ncRNA)是指那些不编码蛋白质的RNA分子。研究表明,约75%的人类基因组转录成为RNA,而只有3%的RNA分子编码蛋白质(参考文献Pennisi,E.Genomics.(2012)ENCODE project writes eulogy for junk DNA.Science337,1159-1161.),这说明存在着大量的非编码RNA分子。大量的生物实验证实了非编码RNA对编码蛋白质的基因的重要调控作用(参考文献Mattick,J.S.(2009)The geneticsignatures of noncoding RNAs.PLoS Genet.5,e1000459.)。相对于广泛研究的小RNA(microRNA(miRNA):长度在22个核苷酸左右的非编码RNA),长非编码RNA(long non-codingRNA(lncRNA):长度大于200个核苷酸的非编码RNA)由于其在表观遗传、转录、后转录水平对基因的重要调控作用,近年来备受学者们关注(参考文献Yuan,JH et al.(2014)A longnoncoding RNA activated by TGF-beta promotes the invasion-metastasis cascadein hepatocellular carcinoma.Cancer Cell,25,666-681.)。此外,对长非编码RNA生理功能的深入研究表明,长非编码RNA的变异和功能的缺失与疾病特别是癌症的发生发展关系密切(参考文献Gutschner,T.and Diederichs,S.(2012)The hallmarks of cancer:along non-coding RNA point of view.RNA Biol.,9,703-719.)。这些事实使得长非编码RNA作为药物靶点无论在学术领域还是在药物制造工业领域都受到广泛关注。
长非编码RNA的几个特性使得它作为药物靶点成为可能。首先,长非编码RNA具有细胞和组织特异性,这为发展组织和细胞特异的药物靶点提供了先决条件(参考文献LingH,Fabbri M,Calin GA.(2013)MicroRNAs and other non-coding RNAs as targets foranticancer drug development.Nat Rev Drug Discov.12(11):847-65.)。其次,长非编码一个重要功能是组蛋白修饰,这使得开发同表观遗传因子结合的长非编码RNA药物靶点成为可能(参考文献Bhartiya D,Kapoor S,Jalali S,Sati S,Kaushik K,Sachidanandan C,Sivasubbu S,Scaria V.(2012)Conceptual approaches for lncRNA drug discoveryand future strategies.Expert Opin Drug Discov.7(6):503-13.)。第三,大量长非编码RNA位于细胞核,顺势调控邻居基因。因此开发特异于基因位置的长非编码RNA靶点成为可能(参考文献Djebali,S.et al.(2012)Landscape of transcription in humancells.Nature 489,101-108.)。基于长非编码RNA的上述特性,大量工作开始研究基于长非编码RNA的药物疗法,一些制药公司已经开发出了一些长非编码RNA的药物靶点,并用于治疗人类疾病,包括癌症(参考文献Wahlestedt,C.(2013)Targeting long non-coding RNAto therapeutically upregulate gene expression.Nature Rev.Drug Discov.12,433-446.)。但这些仅是个例研究,展示了长非编码RNA作为药物靶点可行性,尚缺少系统的预测方法。
目前为止,研究人员主要开发了两种方法调控长非编码RNA的功能。一是通过设计小的干扰RNA分子(small interfering RNAs:siRNAs)抑制导致疾病的长非编码RNA功能。比如,参与DNA损伤响应的长非编码RNA:PANDA。研究表明可以通过引入特异的siRNA显著降低PANDA的表达值,从而激活人类纤维细胞抗击阿霉素引发的细胞凋亡(参考文献Hung,T.et al.(2011)Extensive and coordinated transcription of noncoding RNAswithin cell-cycle promoters.Nature Genet.43,621-629.)。二是基于寡聚核苷酸的方法。相比于siRNA,寡聚核苷酸具有更高的特异性和更少的副作用。寡聚核苷酸通过直接结合长非编码RNA抑制其功能,进而达到治疗疾病的目的。比如,在小鼠模型中,人们发现反义寡聚核苷酸可以通过抑制长非编码RNA:MALAT1,阻止肺癌细胞的转移(参考文献Li,CH.andChen,Y.(2013)Targeting long non-coding RNAs in cancers:progress andprospects.Int.J.Biochem.Cell Biol.45,1895-1910.)。这些研究为开发以非编码RNA为研究对象的治疗方案奠定了强有力的理论基础。然而生物实验方法费用昂贵且费时费力,因此开发有效的计算方法寻找可以作为治疗靶点的非编码RNA既可以推进药物靶点发现的速度,又可以为进一步的生物实验提供有效候选集,最终加快药物研发的进程。
为了寻找可以和长非编码RNA结合的小分子,研究人员开发了一种计算方法,通过在数据库搜索可以直接结合非编码RNA(microRNA-96)发卡区域的小分子化合物,抑制其功能,进而达到疾病治疗的目的。体外实验和动物模型实验证明,找到的小分子化合物不仅可以有效的杀死乳腺癌细胞,而且不影响健康细胞的功能(参考文献Velagapudi,SP,et al.(2016)Design of a small molecule against an oncogenic noncoding RNA.Proc NatlAcad Sci.,24;113(21):5898-903.)。该方法利用RNA的结构信息,针对一个特定的RNA分子,寻找可以和其结合的化合物小分子。然而只有少数RNA分子结构信息已知,因此基于RNA分子结构的方法只适用于小规模研究。
随着高通量生物实验的发展,人们开始检测长非编码RNA的表达谱,并建立标准数据库收集其表达数据。比如MiTranscript测量并收集了超过6,500个肿瘤和组织样本的大约91,000个长非编码RNA的表达谱(参考文献Iyer MK,et al.(2015)The landscape oflong noncoding RNAs in the human transcriptome.Nat Genet.,47(3):199-208.)。与此同时,The Cancer Genome Atlas(TCGA)测量并收集了91种肿瘤样本的基因组、转录组、表观遗传组、蛋白质组等数据。通过整合这些数据库,比如集成长非编码RNA和基因在同一组肿瘤样本的表达谱,可以建立长非编码RNA和基因的共表达关系,进而为寻找调控特殊因子的长非编码RNA提供依据。此外,生物实验技术的迅速发展使得越来越多的药物基因组数据已知。比如The Connectivity Map(CMap)、Cancer Cell Line Encyclopedia(CCLE)等数据库收集了数以百计的癌细胞在数以千计药物作用下的基因组数据。这为我们研究药物敏感基因提供依据。因此不难想象,开发有效的计算模型推断调控药物敏感基因的长非编码RNA,将成为药物靶点预测的有效工具。
目前的药物长编码RNA靶点预测还停留在个例研究的阶段。主要依赖于生物实验方法,而主要的研究对象也集中在小RNA分子。特别针对长非编码RNA分子的研究还很少,仅有的计算方法也主要针对长非编码RNA的结构信息这一单一数据源,通过对已有药物分子数据库的搜索,寻找那些具有特殊结构、能够结合长非编码RNA发卡区域的化合物小分子。这种方法强烈依赖于RNA的结构信息,而受限于小规模研究。从实用角度讲,现有的技术也未能将药物长非编码RNA靶点的检测、建模和验证形成一个计算系统。
发明内容
长非编码RNA是指那些长度大于200个核苷酸的不编码蛋白质的RNA。大量研究表明长非编码RNA在表观遗传、转录、后转录水平均扮演重要的调控作用。对长非编码RNA生理功能的深入分析表明长非编码RNA同人类疾病尤其是癌症的发生、发展密切相关,是药物的理想靶标。继而预测药物的长非编码RNA靶点成为药物研发的核心和关键技术。为了克服现有技术的不足,本发明提出了一种基于最优化方法的预测药物长非编码RNA靶点的完整流程和计算系统。
本发明采用的技术方案如下:
一种药物的长非编码RNA靶点预测方法,包括以下步骤:
1)通过分析长非编码RNA和基因的表达数据构建长非编码RNA和基因的共表达关系,并通过机器学习方法预测长非编码RNA的调控基因集合;
2)通过分析药物作用下的基因表达数据构建对药物敏感的基因集合;
3)通过最优化方法建立长非编码RNA的调控基因和药物敏感基因的联系,进而预测药物的长非编码RNA靶点。
进一步地,步骤3)得到的预测结果可通过数据库和文献检索验证,为进一步的生物实验提供有力的依据。
一种药物的长非编码RNA靶点预测系统,通过集成长非编码RNA和基因表达数据以及药物基因组数据来识别药物长非编码RNA靶点,该系统包括以下模块:
数据收集模块,用于收集长非编码RNA和基因的表达数据,以及药物的基因组数据;
数据集构建模块,用于根据长非编码RNA和基因的表达数据构建长非编码RNA调控基因集合,以及根据药物作用下的基因表达数据构建药物敏感基因集合;
数据建模模块,用于通过最优化方法建立长非编码RNA的调控基因和药物敏感基因的联系,进而预测药物的长非编码RNA靶点。
进一步地,上述系统还包括模型测试模块,用于通过数据库和文献检索分析药物和长非编码RNA的功能,结合分析药物敏感基因与长非编码RNA调控基因,验证预测系统给出的药物长非编码RNA靶点。
上述系统中,数学建模模块从最优化方法论的角度入手探求药物长非编码RNA靶点识别模型和算法,发展了基于优化模型的多维数据整合框架。具体地,利用最优化模型寻找最有可能调控那些药物敏感基因的长非编码RNA,进而预测药物的长非编码RNA靶点。其中与基因相关的长非编码RNA是通过学习基因与长非编码RNA的共表达关系得到的,而药物敏感基因是通过分析药物作用前后显著差异表达的基因得到。具体而言,分为三个步骤:
I.依据长非编码RNA和基因的共表达关系学习最有可能调控目标基因的长非编码RNA,即长非编码RNA调控基因;
II.依据药物作用前后基因的表达水平变化构建药物敏感基因;
III.依据最优化模型关联药物敏感基因和长非编码RNA调控基因建立药物长非编码RNA靶点预测模型。
本发明的有益效果如下:
本发明建立了一种全新的基于最优化模型的药物长非编码RNA靶点的识别框架和计算系统,包括:(1)利用药物敏感基因的长非编码RNA调控基因的重合来预测药物靶点;(2)引入机器学习方法扩充长非编码RNA调控基因集合;(3)基于最优化模型整合数据的药物长非编码RNA靶点识别预测模型;(4)机器学习性能及预测新靶点能力的测试。不同于以往检测单个药物的长非编码RNA靶点,本发明能够系统地学习多种药物的长非编码RNA靶点,将调控药物敏感基因的长非编码RNA做为药物的新靶点,建立了从数据获取、数据集构建、建模到测试的计算系统。
附图说明
图1是药物长非编码RNA靶点识别的计算系统总结构图,其中lncRNA的大小表示它和基因调控关系的强弱。
图2是药物长非编码RNA靶点识别的完整计算流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
如图1所示,本发明所提出的药物长非编码RNA靶点识别计算系统分为四部分,下面针对数据获取,数据集构建,建模和模型测试进行详细阐述。
(a)数据获取
该模块为长非编码RNA和基因表达数据以及药物基因组数据的处理、标准化模块。本发明主要依赖的数据为基因芯片或者RNA-seq达到的表达数据,包括:
I.长非编码RNA和基因的表达数据:长非编码RNA和基因在瘤样本的表达水平;
II.药物基因组数据:药物作用前后,基因的表达水平。
在现有数据库中搜索已有的长非编码RNA和基因在同一组肿瘤样本的表达数据以及药物的基因组数据。具体而言,首先分别从MiTranscriptome数据库和TCGA数据库收集长非编码RNA和基因在乳腺癌肿瘤样本的表达数据;然后从CMap数据库收集药物作用前后基因的表达数据;最终我们得到长非编码RNA和基因在569个乳腺癌肿瘤样本的表达数据以及基因在1,309种药物作用前后的表达值。
(b)长非编码RNA调控基因集合和药物敏感基因集合的构建
本发明建立的药物长非编码RNA靶点预测系统主要依赖于两种类型的基因集合,具体包括:I.长非编码RNA调控基因集合;II.药物敏感基因集合。
A.长非编码RNA调控基因集合构建
长非编码RNA调控基因集合的构建包括两个部分:首先通过关联分析长非编码RNA和基因在同一组肿瘤样本的表达谱,构建长非编码RNA和基因的共表达矩阵,然后通过机器学习方法寻找那些同长非编码RNA最相关的基因作为其调控基因集合。具体的,首先利用皮尔森相关系数关联长非编码RNA和基因在同一组肿瘤样本的表达谱,进而构建长非编码RNA和基因的共表达矩阵,然后建立用于训练机器学习预测器的训练集:相关系数大于0.7(2,423组长非编码RNA和基因)做为正类训练样本,相关系数接近于0的(小于0.000002:4,385组长非编码RNA和基因)做为负类训练样本,接着将支持向量机作用于训练样本之上,获取用于学习长非编码RNA和基因调控关系强弱的预测器,最后,将预测器作用于全部长非编码RNA和基因组合,得到长非编码RNA的调控基因集合。通过数据库和文献分析以及同已知的长非编码RNA调控基因集合对比发现,通过机器学习得到的长非编码RNA调控基因不仅可以发现新的潜在的长非编码RNA调控基因,而且也可以在一定程度上克服关联分析的假阳性。
B.药物敏感基因集合构建
通过分析药物作用前后显著差异表达的基因,构建药物敏感基因集合。具体地,首先通过分析药物作用前后的基因表达谱,寻找显著差异表达的基因,然后定义一个打分原则评价基因对药物的敏感程度,即对一给定药物,定义
ci=sgn(logFCi)[|logFCi|×(-log(pvaluei))]scale01,i=1,..,N
为基因i同药物的敏感程度,其中N是基因的个数,FC(fold change)是用药后与用药前表达值变化的倍数,logFC是FC的对数值,pvalue表示药物作用前后基因差异表达的显著性,scale01表示对象的零一归一化处理,即;
Figure GDA0002327863820000061
其中μ=mini|logFCi|×(-log(pvaluei)),σ=maxi|logFCi|×(-log(pvaluei))-μ。
(c)药物长非编码RNA靶点预测模型构建
利用最优化方法关联长非编码RNA调控基因和药物敏感基因,进而预测药物的长非编码RNA靶点。具体地,对于给定药物建立如下优化模型,获取nL个长非编码RNA做为给定药物靶点的可能性:
Figure GDA0002327863820000062
Figure GDA0002327863820000063
Figure GDA0002327863820000064
Figure GDA0002327863820000065
Figure GDA0002327863820000066
其中,nG,nL,nT分别是基因的个数、长非编码RNA的个数和训练预测器的训练集的个数(2,423正类训练样本,4,385个负类训练样本);α*表示预测器最优参数;α表示预测器参数;
Figure GDA0002327863820000071
表示nT维和nL维实数空间;C表示预测器惩罚参数,用于惩罚预测器对已知数据估计的逼近程度;K表示核函数;y表示预测器输出(长非编码RNA和基因是否具有调控关系:有:+1,没有:-1);b*表示预测器最优参数;K(Xt,X)表示将核函数作用于待预测长非编码RNA和基因组合Xt与已知关系的长非编码RNA和基因组合X;x表示一对基因和长非编码RNA组合。
上述最优化模型可以分步求解:首先利用标准的支持向量机求解模型(例如libsvm)获得预测器的最优参数(α*,b*);接着通过标准的无约束最优化模型(例如MATLAB:fminunc)求解最优的d,最终得到同药物最敏感基因调控关系最强的长非编码RNA,并将它们做为候选的药物长非编码RNA靶点。
(d)机器学习性能评价标准
本实施例使用Libsvm(Chang,C.-C.and Lin,C.-J.(2011)LIBSVM:a library forsupport vector machines.ACM Transactions on Intelligent Systems andTechnology,2:27,1–27.)来训练支持向量机预测器,并用10折交叉验证用来评价预测器的性能。支持向量机的核函数K(xi,xj)选择高斯函数。采用3折交叉验证算法确定最优参数。Receiver Operating Characteristic(ROC)曲线下面积AUC、precision-recall曲线下面积AUPR、正确率、敏感度、特异性、精准度和F值均被用于评价预测模型的性能(表1)。
表1.预测模型评价指标
Figure GDA0002327863820000072
其中TP:准确地预测为正类点的个数,TN:准确地预测为负类点的个数,FP:将负类点错误地预测为正类点的个数,FN:将正类点错误地预测为负类点的个数。
(e)药物长非编码RNA靶点识别模型预测能力的测试
在测试时,可以通过数据库和文献检索分析药物和长非编码RNA的功能,结合分析药物敏感基因与长非编码RNA调控基因,验证预测系统给出的药物长非编码RNA靶点。
本实施例中,为了评估预测模型给出的药物长非编码RNA靶点,系统通过从Drug.com和维基百科数据库搜索药物功能、从MiTranscriptome数据库搜索长非编码RNA注释系统、从PubMed数据库搜索文献资料等方法寻找支持新预测成立的证据。
本发明已经经过试验验证。机器学习在基于关联分析构建的长非编码RNA和基因共调控关系上的试验结果很好。交叉验证的各评价指标表现良好。更为重要的是,机器学习方法使得68.3%的相关系数在0.5至0.7之间的长非编码RNA和基因组合预测值大于0.9,即68.3%的相关系数在0.5至0.7之间的长非编码RNA和基因组合通过机器学习方法被认可为具备调控关系的组合。此外,通过分析18个已知数据库收集的长非编码RNA和调控基因组合,我们发现,16个长非编码RNA和基因组合的机器学习预测值高于其相关系数值。这些结果说明,相对单纯关联分析得到的长非编码RNA和基因调控关系,机器学习方法拓广了长非编码RNA调控基因的搜索范围。此外,通过数据库搜索和文献分析预测模型给出的治疗乳腺癌药物的长非编码RNA靶点,我们发现预测模型给出的长非编码RNA不仅同乳腺癌密切相关,而且长非编码RNA的调控基因同时也是药物的敏感基因同乳腺癌关系紧密。这些结果说明计算系统预测的药物长非编码RNA靶点值得作为生物实验候选集对待,证明了该计算系统的可行性和优越性。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,或者选取其他描述药物、长非编码RNA和基因的数据。所有这些改进和变换,及参数相关的调节和选取都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种药物的长非编码RNA靶点预测方法,其特征在于,包括以下步骤:
1)通过分析长非编码RNA和基因的表达数据构建长非编码RNA和基因的共表达关系,并通过机器学习方法预测长非编码RNA的调控基因集合;首先通过关联分析长非编码RNA和基因在同一组样本的表达谱,构建长非编码RNA和基因的共表达矩阵,然后通过机器学习方法,将支持向量机预测器作用于全部长非编码RNA和基因组合,得到长非编码RNA的调控基因集合;
2)通过分析药物作用下的基因表达数据构建对药物敏感的基因集合;
3)通过最优化方法建立长非编码RNA的调控基因和药物敏感基因的联系,进而预测药物的长非编码RNA靶点;
步骤3)对于给定药物建立如下优化模型,获取nL个长非编码RNA做为给定药物靶点的可能性
Figure FDA0002327863810000011
Figure FDA0002327863810000012
Figure FDA0002327863810000013
Figure FDA0002327863810000014
Figure FDA0002327863810000015
其中,nG,nL,nT分别是基因的个数、长非编码RNA的个数和训练预测器的训练集的个数;α*表示预测器最优参数;α表示预测器参数;
Figure FDA0002327863810000016
表示nT维和nL维实数空间;C表示预测器惩罚参数;K表示核函数;y表示预测器输出;b*表示预测器最优参数;K(Xt,X)表示将核函数作用于待预测长非编码RNA和基因组合Xt与已知关系的长非编码RNA和基因组合X;x表示一对基因和长非编码RNA组合;ci为基因i同给定药物的敏感程度;
上述最优化模型采用分步求解:首先利用标准的支持向量机求解模型获得预测器的最优参数(α*,b*);接着通过标准的无约束最优化模型求解最优的d,最终得到同药物最敏感基因调控关系最强的长非编码RNA,并将其做为候选的药物长非编码RNA靶点。
2.如权利要求1所述的方法,其特征在于,通过数据库和文献检索对步骤3)得到的长非编码RNA靶点预测结果进行验证。
3.如权利要求1所述的方法,其特征在于,步骤2)依据药物作用前后基因的表达水平变化构建药物敏感基因集合;首先通过分析药物作用前后的基因表达谱,寻找显著差异表达的基因,然后定义一个打分原则评价基因对药物的敏感程度。
4.如权利要求3所述的方法,其特征在于,所述打分原则是:对一给定药物,定义ci=sgn(log FCi)[|log FCi|×(-log(pvaluei))]scale01为基因i同给定药物的敏感程度,其中i=1,...,N,N是基因的个数,FC是用药后与用药前表达值变化的倍数,pvalue表示药物作用前后基因差异表达的显著性,scale01表示对象的零一归一化处理,即:
Figure FDA0002327863810000021
其中μ=mini|log FCi|×(-log(pvaluei)),σ=maxi|log FCi|×(-log(pvaluei))-μ。
5.一种采用权利要求1所述方法的药物的长非编码RNA靶点预测系统,其特征在于,包括:
数据收集模块,用于收集长非编码RNA和基因的表达数据,以及药物的基因组数据;
数据集构建模块,用于根据长非编码RNA和基因的表达数据构建长非编码RNA调控基因集合,以及根据药物作用下的基因表达数据构建药物敏感基因集合;
数据建模模块,用于通过最优化方法建立长非编码RNA的调控基因和药物敏感基因的联系,进而预测药物的长非编码RNA靶点。
6.如权利要求5所述的系统,其特征在于,还包括模型测试模块,用于通过数据库和文献检索分析药物和长非编码RNA的功能,结合分析药物敏感基因与长非编码RNA调控基因,验证得到的药物长非编码RNA靶点。
7.如权利要求5所述的系统,其特征在于,所述数据集构建模块通过关联分析长非编码RNA和基因在同一组样本的表达谱,构建长非编码RNA和基因的共表达矩阵,然后通过机器学习方法寻找同长非编码RNA最相关的基因作为其调控基因集合;所述数据集构建模块依据药物作用前后基因的表达水平变化构建药物敏感基因集合。
CN201610542734.1A 2016-07-11 2016-07-11 一种药物的长非编码rna靶点预测方法和系统 Active CN107038350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610542734.1A CN107038350B (zh) 2016-07-11 2016-07-11 一种药物的长非编码rna靶点预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610542734.1A CN107038350B (zh) 2016-07-11 2016-07-11 一种药物的长非编码rna靶点预测方法和系统

Publications (2)

Publication Number Publication Date
CN107038350A CN107038350A (zh) 2017-08-11
CN107038350B true CN107038350B (zh) 2020-06-05

Family

ID=59532704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610542734.1A Active CN107038350B (zh) 2016-07-11 2016-07-11 一种药物的长非编码rna靶点预测方法和系统

Country Status (1)

Country Link
CN (1) CN107038350B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108982151A (zh) * 2018-10-08 2018-12-11 中国科学院沈阳应用生态研究所 一种沙丘土壤种子库分层取样器及其取样方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103937798A (zh) * 2014-04-23 2014-07-23 西安交通大学医学院第一附属医院 一种与子宫内膜癌相关的长非编码RNA及其siRNA和应用
CN105079821A (zh) * 2015-06-11 2015-11-25 中国人民解放军第二军医大学 一种长链非编码rna hnf1a-as1在制备治疗人体恶性实体瘤药物中的应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012352153B2 (en) * 2011-12-13 2018-07-26 Veracyte, Inc. Cancer diagnostics using non-coding transcripts

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103937798A (zh) * 2014-04-23 2014-07-23 西安交通大学医学院第一附属医院 一种与子宫内膜癌相关的长非编码RNA及其siRNA和应用
CN105079821A (zh) * 2015-06-11 2015-11-25 中国人民解放军第二军医大学 一种长链非编码rna hnf1a-as1在制备治疗人体恶性实体瘤药物中的应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Long non-coding RNAs as novel therapeutic targets in cancer;Giovanni Lavorgna et.al;《Pharmacological Research》;20160519;第131-138页 *
长链非编码RNA 作为潜在药物靶点的研究进展;张文辉 等;《药学进展》;20150331;第39卷(第3期);第193-198页 *

Also Published As

Publication number Publication date
CN107038350A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
Hu et al. Learning multimodal networks from heterogeneous data for prediction of lncRNA–miRNA interactions
CN107679367B (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
CN105808976A (zh) 一种基于推荐模型的miRNA靶基因预测方法
Wang et al. m6AGE: a predictor for n6-methyladenosine sites identification utilizing sequence characteristics and graph embedding-based geometrical information
CN107038350B (zh) 一种药物的长非编码rna靶点预测方法和系统
Pio et al. Hierarchical and overlapping co-clustering of mrna: mirna interactions
Jiang et al. miRTMC: a miRNA target prediction method based on matrix completion algorithm
CN113380326B (zh) 一种基于pam聚类算法的基因表达数据分析方法
Yang et al. Improving clustering of microRNA microarray data by incorporating functional similarity
US20210324465A1 (en) Systems and methods for analyzing and aggregating open chromatin signatures at single cell resolution
Hua et al. The correlation of gene expression and co-regulated gene patterns in characteristic KEGG pathways
CN110592093B (zh) 一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用
Wibowo et al. XGB5hmC: Identifier based on XGB model for RNA 5-hydroxymethylcytosine detection
Tran et al. Network representation of large-scale heterogeneous RNA sequences with integration of diverse multi-omics, interactions, and annotations data
Fiscon et al. A perspective on the algorithms predicting and evaluating the rna secondary structure
Brar et al. Development of diagnostic and prognostic molecular biomarkers in hepatocellular carcinoma using machine learning: A systematic review
Kong et al. Systematic analysis reveals key microRNAs as diagnostic and prognostic factors in progressive stages of lung cancer
Chiu et al. Analyzing differential regulatory networks modulated by continuous-state genomic features in Glioblastoma Multiforme
Abbas et al. TC-6mA-Pred: Prediction of DNA N6-methyladenine sites using CNN with transformer
Singh et al. GeneAI 3.0: powerful, novel, generalized hybrid and ensemble deep learning frameworks for miRNA species classification of stationary patterns from nucleotides
Yang et al. Combining BPSO and ELM Models for Inferring Novel lncRNA-Disease Associations.
Tarek et al. Feature subset selection based on redundancy maximized clusters
Gong et al. BDLR: lncRNA identification using ensemble learning
Sutanto et al. Assessing global-local secondary structure fingerprints to classify RNA sequences with deep learning
Wu et al. Computation-based discovery of cis-regulatory modules by hidden Markov model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant