CN111161796A - 一种预测PD潜在gene和miRNA的方法及系统 - Google Patents
一种预测PD潜在gene和miRNA的方法及系统 Download PDFInfo
- Publication number
- CN111161796A CN111161796A CN201911395614.3A CN201911395614A CN111161796A CN 111161796 A CN111161796 A CN 111161796A CN 201911395614 A CN201911395614 A CN 201911395614A CN 111161796 A CN111161796 A CN 111161796A
- Authority
- CN
- China
- Prior art keywords
- gene
- mirna
- candidate
- mirnas
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002679 microRNA Substances 0.000 title claims abstract description 310
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 279
- 108091070501 miRNA Proteins 0.000 title claims abstract description 204
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 142
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 64
- 108700011259 MicroRNAs Proteins 0.000 claims description 97
- 208000018737 Parkinson disease Diseases 0.000 claims description 59
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 230000004770 neurodegeneration Effects 0.000 claims description 7
- 208000015122 neurodegenerative disease Diseases 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 101150092616 mth gene Proteins 0.000 claims description 6
- 101150030229 nth gene Proteins 0.000 claims description 6
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 4
- 230000006916 protein interaction Effects 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 7
- 201000010099 disease Diseases 0.000 abstract description 6
- 102000004169 proteins and genes Human genes 0.000 abstract description 4
- 230000001105 regulatory effect Effects 0.000 abstract description 2
- 238000002790 cross-validation Methods 0.000 description 6
- 239000000126 substance Substances 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 230000004853 protein function Effects 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 108091033317 MiRTarBase Proteins 0.000 description 2
- 102000007474 Multiprotein Complexes Human genes 0.000 description 2
- 108010085220 Multiprotein Complexes Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- VYFYYTLLBUKUHU-UHFFFAOYSA-N dopamine Chemical compound NCCC1=CC=C(O)C(O)=C1 VYFYYTLLBUKUHU-UHFFFAOYSA-N 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 108020005198 Long Noncoding RNA Proteins 0.000 description 1
- 206010061296 Motor dysfunction Diseases 0.000 description 1
- 206010049816 Muscle tightness Diseases 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 102000003802 alpha-Synuclein Human genes 0.000 description 1
- 108090000185 alpha-Synuclein Proteins 0.000 description 1
- 210000000467 autonomic pathway Anatomy 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229960003638 dopamine Drugs 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 210000003000 inclusion body Anatomy 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002981 neuropathic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000003523 substantia nigra Anatomy 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种预测PD潜在gene和miRNA的方法及系统,该方法先对不同的已知gene之间的边的权值和已知gene与候选gene之间的边的权值进行打分,然后计算得到不同的已知miRNA之间的边的权值和已知miRNA与候选miRNA之间的边的权值,再然后对gene和miRNA之间的边的权值赋值,接着构建邻接矩阵A,最后通过算法填充矩阵A得到矩阵X,矩阵X对角线上待填充元素的值的大小即为与PD关联程度的大小。本发明利用gene存在着相互关系越强的gene所调控的蛋白质功能越相近,功能越相近的蛋白质导致的疾病越相似的特性,构建出低秩矩阵A,在使用算法填充矩阵A,使得预测结果更准确。
Description
技术领域
本发明涉及gene和miRNA预测领域,尤其涉及一种预测PD潜在gene和miRNA的方法及系统。
背景技术
帕金森病(Parkinson’s disease,PD)在所有神经退行性疾病之中最为常见,发病率较高,多见于年龄为60岁左右的老年人群体,而在40岁以下的青年人、中年人团体中,发病率明显降低。其神经病理学特征为黑质神经元丢失所导致的纹状体多巴胺缺乏和α-突触核蛋白聚集物形成的细胞内包涵体,PD的主要发病症状为静止性震颤肌张力加大、运动功能发生障碍造成的行动迟缓、自主神经产生障碍等。随着当今社会逐渐进入老龄化阶段,PD患者群体也在逐渐扩大,PD的研究与治疗已经逐渐成为热点问题。但到目前为止,PD相关研究人员仍然对其发病机制没有清晰的了解。有研究表明,PD的致病受多种因素影响,不仅与细胞老化凋亡有关,而且也会受到外界环境因素影响,同时,免疫学异常、线粒体功能障碍、氧化应激过度和遗传因素也是其重要的致病原因。
PD主要是由遗传和环境因素的复杂相互作用引起的,由于遗传和环境因素的直接或间接影响,有可能造成gene(基因)、miRNA、lncRNA、snps、mutation和methylation等一系列组学数据的改变,从而导致患病。许多以PD相关gene、mutation、snps等生物数据为中心的数据库已经成功地开发和集成,这些数据库对PD的研究提供了很大的贡献,但是这些数据库的数据针对性强,它们往往只关注PD的某一组学方面的信息,而与其他组学数据的联系性弱。目前,还没有一个数据集或者一个数据库包含了PD多个组学的数据。但是,导致PD的不同组学数据之间,其实存在着关联联系,有必要将导致PD的gene、miRNA、lncRNA、snps、mutation、methylation等多组学数据集成起来,将PD多组学数据进行关联分析,从多领域,多视角提供可视化信息,从而进行数据挖掘和数据预测等其他研究。因此,以PD疾病为中心的多组学数据集成、PD潜在数据预测以及PD多组学数据集成与分析平台的开发具有非常重要的意义。
发明内容
(一)要解决的技术问题
本发明提供了一种预测PD潜在gene和miRNA的方法及系统,旨在预测发现与PD有关的潜在gene和miRNA。
(二)技术方案
为了解决上述问题,本发明提供一种预测PD潜在gene和miRNA的方法,包括以下步骤:
S1:根据已知基因gene和候选gene构建gene库,其中所述已知gene为已经证实和帕金森病PD有关的gene,所述候选gene为与除PD外所有的神经退行性疾病有关的gene;
S2:根据已知MicroRNA即miRNA和候选miRNA构建miRNA库,其中所述已知miRNA为已经证实和PD有关的miRNA,所述候选miRNA为与所述已知miRNA相识度达到预设值以上的miRNA;
S3:根据所述gene库的所述已知gene和所述候选gene与所述miRNA库中的所述已知miRNA和所述候选miRNA构建相互关联的异构网络;
S4:在所述异构网络中,根据所述gene库中不同的所述已知gene和所述已知gene与所述候选gene在蛋白质相互作用的PPI网络之间的关联关系,对不同的所述已知gene之间的边的权值和所述已知gene与所述候选gene之间的边的权值进行打分,并将打分情况作为gene关联数据;
S5:在所述异构网络中,根据所述miRNA库中的不同的所述已知miRNA之间的相似程度和所述已知miRNA与所述候选miRNA之间的相似程度,计算得到不同的所述已知miRNA之间的边的权值和所述已知miRNA与所述候选miRNA之间的边的权值,并将计算结果作为miRNA关联数据;
S6:在所述异构网络中,判断所述已知gene与所述已知miRNA、所述已知gene和所述候选miRNA以及所述候选gene与所述已知miRNA是否存在关系,若有关系,则对gene和miRNA之间的边的权值赋值为1,否则为0,并将赋值情况作为gene-miRNA关联数据;
S7:通过所述gene关联数据、所述miRNA关联数据和所述gene-miRNA关联数据构建到所述异构网络的邻接矩阵A;在所述邻接矩阵A中,第m行n列的元素为Amn,Amn=Anm,Amn的值为第m个gene或miRNA与第n个gene或miRNA之间的边的权值;所述邻接矩阵A对角线上的数据赋值结果为:如果第i个数据为所述已知gene或者所述已知miRNA,那么Aii赋值为1;如果第i个数据为所述候选gene或者所述候选miRNA,那么Aii赋值为0,表示为待填充元素;
S8:使用SVT算法填充所述邻接矩阵A得到矩阵X,所述矩阵X的对角线上所述待填充元素的值的大小表示所述待填充元素对应的所述候选gene或所述候选miRNA与PD的关联程度的大小。
优选地,在所述步骤S2中,所述预设值在50%至60%之间。
优选地,在所述步骤S4中:所述gene关联数据还包括:不同的所述候选gene之间的边的权值,且所述候选gene之间的边的权值为0,打分范围在0-1之间。
优选地,在所述步骤S5中:所述miRNA关联数据还包括:不同的miRNA之间的边的权值,且所述候选miRNA之间的边的权值为0,计算结果在0-1之间。
优选地,在所述步骤S6中:所述候选gene-miRNA关联数据还包括:所述候选gene与所述候选miRNA之间的边的权值,且所述候选gene与所述候选miRNA之间的边的权值为0;
若gene影响miRNA的表达,则gene和miRNA有关系。
优选地,在所述步骤S8中,所述使用SVT算法填充所述邻接矩阵A得到矩阵X具体为:
M1:将填充矩阵的问题转化为求解矩阵秩最小化问题:
其中,τ:为阈值;||X||*:矩阵X的核范数;||X||F:矩阵X的F范数;PΩ表示投影算子,能够获取矩阵A中已知元素的位置;PΩ(X)表示矩阵X的投影映射;PΩ(A)表示矩阵A的投影映射;
M2:将所述矩阵秩最小化问题转化为拉格朗日函数形式:
其中:Y为拉格朗日乘子;<Y,PΩ(M-X)>为矩阵Y和矩阵PΩ(M-X)的内积;
M3:设(X*,Y*)为所述矩阵秩最小化问题的原-对偶问题的最优解,则有:
使用交替迭代的方法求解所述拉格朗日函数,并初始化Y0=0,当Yk-1给定时:
所以:Xk=Dτ(Yk-1);
M5:Xk为矩阵X经过k次迭代后的结果,也是矩阵A经过填充后的结果。
优选地,在所述步骤S8中,所述矩阵X的对角线上所述待填充元素的值在0-1之间,所述待填充元素的值越接近1,则表示该元素对应的候选gene或候选miRNA与PD的关联程度越大。
本发明还提供了一种预测PD潜在gene和miRNA的系统,包括:gene模块、miRNA模块、异构网络模块、gene边权值打分模块、miRNA边权值计算模块、gene-miRNA边权值赋值模块、邻接矩阵构建模块和矩阵填充模块;
所述gene模块:根据已知基因gene和候选gene构建gene库,其中所述已知gene为已经证实和帕金森病PD有关的gene,所述候选gene为与除PD外所有的神经退行性疾病有关的gene;
所述miRNA模块:根据已知MicroRNA即miRNA和候选miRNA构建miRNA库,其中所述已知miRNA为已经证实和PD有关的miRNA,所述候选miRNA为与所述已知miRNA相识度达到预设值以上的miRNA;
所述异构网络模块:根据所述gene库的所述已知gene和所述候选gene与所述miRNA库中的所述已知miRNA和所述候选miRNA构建相互关联的异构网络;
所述gene边权值打分模块:在所述异构网络中,根据所述gene库中不同的所述已知gene和所述已知gene与所述候选gene在蛋白质相互作用的PPI网络之间的关联关系,对不同的所述已知gene之间的边的权值和所述已知gene与所述候选gene之间的边的权值进行打分,并将打分情况作为gene关联数据;
所述miRNA边权值计算模块:在所述异构网络中,根据所述miRNA库中的不同的所述已知miRNA之间的相似程度和所述已知miRNA与所述候选miRNA之间的相似程度,计算得到不同的所述已知miRNA之间的边的权值和所述已知miRNA与所述候选miRNA之间的边的权值,并将计算结果作为miRNA关联数据;
所述gene-miRNA边权值赋值模块:在所述异构网络中,判断所述已知gene与所述已知miRNA、所述已知gene和所述候选miRNA以及所述候选gene与所述已知miRNA是否存在关系,若有关系,则对gene和miRNA之间的边的权值赋值为1,否则为0,并将赋值情况作为gene-miRNA关联数据;
所述邻接矩阵构建模块:通过所述gene关联数据、所述miRNA关联数据和所述gene-miRNA关联数据构建到所述异构网络的邻接矩阵A;在所述邻接矩阵A中,第m行n列的元素为Amn,Amn=Anm,Amn的值为第m个gene或miRNA与第n个gene或miRNA之间的边的权值;所述邻接矩阵A对角线上的数据赋值结果为:如果第i个数据为所述已知gene或者所述已知miRNA,那么Aii赋值为1;如果第i个数据为所述候选gene或者所述候选miRNA,那么Aii赋值为0,表示为待填充元素;
所述矩阵填充模块:使用SVT算法填充所述邻接矩阵A得到矩阵X,所述矩阵X的对角线上所述待填充元素的值的大小表示所述待填充元素对应的所述候选gene或所述候选miRNA与PD的关联程度的大小。
(三)有益效果
本发明利用gene存在着相互关系越强的gene所调控的蛋白质功能越相近,功能越相近的蛋白质导致的疾病越相似的特性;miRNA存在着序列越相同的miRNA功能越相近的特性,所以通过gene关联数据、miRNA关联数据和gene-miRNA关联数据构建出来的邻接矩阵A是一个低秩矩阵,在利用SVT算法对矩阵A进行填充,填充后的矩阵A在其对角线上的元素的值的大小,就为潜在gene和miRNA与PD的关联程度的大小。整个预测方法具有很高的准确率且预测能力强。
附图说明
图1为本发明一种预测PD潜在gene和miRNA的方法的流程图;
图2为本发明中使用SVT算法填充矩阵A的流程图;
图3为本发明一种预测PD潜在gene和miRNA的系统的结构示意图;
图4为留一法验证gene准确性的Rank Cutoff曲线;
图5为三种算法gene组的留一法验证的结果的ROC曲线图;
图6为图5三种算法的ROC曲线下面的面积图;
图7为留一法验证miRNA准确性的Rank Cutoff曲线图;
图8为三种算法miRNA组的留一法验证的结果的ROC曲线图;
图9为图8三种方法的ROC曲线下面的面积图。
【附图标记说明】
1:gene模块;2:miRNA模块;3:异构网络模块;4:gene边权值打分模块;5:miRNA边权值计算模块;6:gene-miRNA边权值赋值模块;7:邻接矩阵模块;8:矩阵填充模块。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
如图1:本发明一种预测PD潜在gene和miRNA的方法的流程图;所示:本发明提供了一种预测PD潜在gene和miRNA的方法,包括以下步骤:
S1:根据已知基因gene和候选gene构建gene库,其中已知gene为已经证实和帕金森病PD有关的gene,候选gene为与除PD外所有的神经退行性疾病有关的gene。
S2:根据已知MicroRNA即miRNA和候选miRNA构建miRNA库,其中已知miRNA为已经证实和PD有关的miRNA,候选miRNA为与已知miRNA相识度达到预设值以上的miRNA。
在优选的实施方案中,预设值在50%至60%之间,更加具体地可以为60%。
S3:根据gene库的已知gene和候选gene与miRNA库中的已知miRNA和候选miRNA构建相互关联的异构网络;
S4:在异构网络中,根据gene库中不同的已知gene和已知gene与候选gene在蛋白质相互作用的PPI网络之间的关联关系,对不同的已知gene之间的边的权值和已知gene与候选gene之间的边的权值进行打分,并将打分情况作为gene关联数据。打分范围在0-1之间。
其中,gene关联数据还包括:不同的候选gene之间的边的权值,由于候选gene之间是没有边的,所以候选gene之间的边的权值为0。
在优选的实施例中,可以通过String数据库的Multiple proteins功能来进行对不同已知gene之间、已知gene和候选gene之间在PPI网络之间的关联关系进行打分。
S5:在异构网络中,根据miRNA库中的不同的已知miRNA之间的相似程度和已知miRNA与候选miRNA之间的相似程度,计算得到不同的已知miRNA之间的边的权值和已知miRNA与候选miRNA之间的边的权值,并将计算结果作为miRNA关联数据。计算结果在0-1之间。
其中,miRNA关联数据还包括:不同的候选miRNA之间的边的权值,由于候选miRNA之间是没有边的,所以候选miRNA之间的边的权值为0。
在优选的实施例中,可以通过使用emboss工具中的needleman算法计算不同的已知miRNA之间的边的权值、已知miRNA与PD候选miRNA之间的边的权值。其中emboss工具中的needleman算法是通过比较两个miRNA序列的相似性来计算miRNA之间的边的权值。
S6:在异构网络中,判断已知gene与已知miRNA、已知gene和候选miRNA以及候选gene与已知miRNA是否存在关系,若有关系,则对gene和miRNA之间的边的权值赋值为1,否则为0,并将赋值情况作为gene-miRNA关联数据。若已知gene影响已知miRNA/候选miRNA的表达,则已知gene和已知miRNA/候选miRNA有关系;若候选gene影响已知miRNA的表达,则候选gene和已知miRNA有关系。
其中,gene-miRNA关联数据还包括:候选gene与候选miRNA之间的边的权值,且候选gene与候选miRNA之间的边的权值为0。
在优选的实施例中,使用mirtarbase数据库提供的数据miRNA.fa为已知gene与已知miRNA、已知gene和候选miRNA以及候选gene与已知miRNA的边的权值赋值,若有关系则赋值为1,否则赋值为0。其中mirtarbase数据库提供的数据miRNA.fa文件是键值对形式,即为(Gene1,miRNA1)这种新式。表示这个Gene1影响这个miRNA1表达。
S7:通过gene关联数据、miRNA关联数据和gene-miRNA关联数据构建到异构网络的邻接矩阵A;在邻接矩阵A中,第m行n列的元素为Amn,Amn的值为第m个gene或miRNA与第n个gene或miRNA之间的边的权值;邻接矩阵A对角线上的数据赋值结果为:如果第i个数据为已知gene或者已知miRNA,那么Aii赋值为1;如果第i个数据为候选gene或者候选miRNA,那么Aii赋值为0,表示为待填充元素。
邻接矩阵A中,对角子矩阵AGG、AMM分别是gene关联数据、miRNA关联数据组成的矩阵。非对角次矩阵AGM是gene-miRNA关联数据组成的矩阵,是AGM的转置矩阵。其中AGG又分为AKG、AKG-CG、和ACG四个子矩阵,其中AKG由不同的已知gene之间的边的权值组成,AKG-CG由已知gene和候选gene之间的边的权值组成,AGG由不同的候选gene之间的边的权值组成。同理,AMM、AGM、也同样包含四个子矩阵。由于在每个矩阵中,Amn=Anm,因此异构网络的邻接矩阵A是对称的。
下面通过一个具体的实施例来表示邻接矩阵A,假设gene1、gene2为已知gene,gene3、gene4为候选gene;miRNA5、miRNA6为已知miRNA,miRNA7、miRNA8为候选miRNA;所以邻接矩阵A可以表示为:
Acd表示矩阵A中第c行,第d列的元素,Acd=Adc,Acd的值为genec/miRNAd与genec/miRNAd之间边的权值,c={1、2、3、4、5、6、7、8},d={1、2、3、4、5、6、7、8}。
所以A11、A22、A55、A66的值为1,表示gene1、gene2、miRNA5和miRNA6为与PD有关的已知gene和已知miRNA;A33、A44、A77、A88的值为0待补充。
在本实施例中:
S8:使用SVT算法填充邻接矩阵A得到矩阵X,矩阵X的对角线上待填充元素的值的大小表示待填充元素对应的候选gene或候选miRNA与PD的关联程度的大小。
矩阵X的对角线上待填充元素的值在0-1之间,待填充元素的值越接近1,则表示该元素对应的候选gene或候选miRNA与PD的关联程度越大。
如图2:本发明中使用SVT算法填充矩阵A的流程图;所示:在优选的实施例中,使用SVT算法填充邻接矩阵A得到矩阵X具体为:
M1:将填充矩阵的问题转化为求解矩阵秩最小化问题:
其中,τ:为阈值,τ>0;||X||*:矩阵X的核范数;||X||F:矩阵X的F范数;PΩ表示投影算子,能够获取矩阵A中已知元素的位置;PΩ(X)表示矩阵X的投影映射;PΩ(A)表示矩阵A的投影映射;
M2:当参数τ→+∞时,矩阵秩最小化问题的最优解收敛到的最优解,构造最优化问题的拉格朗日函数,将矩阵秩最小化问题转化为拉格朗日函数形式:
其中:Y为拉格朗日乘子;<Y,PΩ(M-X)>为矩阵Y和矩阵PΩ(M-X)的内积;
M3:设(X*,Y*)为矩阵秩最小化问题的原-对偶问题的最优解,则有:
使用交替迭代的方法求解拉格朗日函数,并初始化Y0=0,当Yk-1给定时:
所以:Xk=Dτ(Yk-1);
其中,δk>0为步长大小;k≥1;矩阵上标k表示矩阵经过k次迭代后的结果;Xk=argmXinL(X,Yk-1)表示:使得L(X,Yk-1)最小时,X的值;Dτ是软阈值操作,应用于奇异值上,选择大于等于τ的奇异值及对应的奇异向量;
其中,Dτ(B)表示:给定矩阵B的秩为b,且B∈Re×f,其奇异值分解形式如下:
B=UΣVT,Σ=diag({δi},1≤i≤r)
Dτ(B)=UDτ(Σ)VT,Dτ(Σ)=diag({δi-τ})。
U为左奇异向量,V为右奇异向量,Σ为奇异值,且是一个对角矩阵。
M5:Xk为矩阵X经过k次迭代后的结果,也是矩阵A经过填充后的结果。
矩阵填充是有条件的,因为根据矩阵填充原理,是利用矩阵各元素之间的相关性来进行矩阵填充的,所以被填充的矩阵需要是一个低秩矩阵。因为gene存在着相互关系越强的gene所调控的蛋白质功能越相近,功能越相近的蛋白质导致的疾病越相似的特性;miRNA存在着序列越相同的miRNA功能越相近的特性,所以异构网络的邻接矩阵A是一个低秩矩阵,满足矩阵填充策略的低秩性需求,所以可以使用矩阵填充策略来填充异构网络的邻接矩阵A。
如图3:本发明一种预测PD潜在gene和miRNA的系统的结构示意图;所示:本发明还提供了一种预测PD潜在gene和miRNA的系统,包括:gene模块1、miRNA模块2、异构网络模块3、gene边权值打分模块4、miRNA边权值计算模块5、gene-miRNA边权值赋值模块6、邻接矩阵构建模块7和矩阵填充模块8;
gene模块1:根据已知基因gene和候选gene构建gene库,其中已知gene为已经证实和帕金森病PD有关的gene,候选gene为与除PD外所有的神经退行性疾病有关的gene;
miRNA模块2:根据已知MicroRNA即miRNA和候选miRNA构建miRNA库,其中已知miRNA为已经证实和PD有关的miRNA,候选miRNA为与已知miRNA相识度达到预设值以上的miRNA;
异构网络模块3:根据gene库的已知gene和候选gene与miRNA库中的已知miRNA和候选miRNA构建相互关联的异构网络;
gene边权值打分模块4:在异构网络中,根据gene库中不同的已知gene和已知gene与候选gene在蛋白质相互作用的PPI网络之间的关联关系,对不同的已知gene之间的边的权值和已知gene与候选gene之间的边的权值进行打分,并将打分情况作为gene关联数据;
miRNA边权值计算模块5:在异构网络中,根据miRNA库中的不同的已知miRNA之间的相似程度和已知miRNA与候选miRNA之间的相似程度,计算得到不同的已知miRNA之间的边的权值和已知miRNA与候选miRNA之间的边的权值,并将计算结果作为miRNA关联数据;
gene-miRNA边权值赋值模块6:在异构网络中,判断已知gene与已知miRNA、已知gene和候选miRNA以及候选gene与已知miRNA是否存在关系,若有关系,则对gene和miRNA之间的边的权值赋值为1,否则为0,并将赋值情况作为gene-miRNA关联数据;
邻接矩阵构建模块7:通过gene关联数据、miRNA关联数据和gene-miRNA关联数据构建到异构网络的邻接矩阵A;在邻接矩阵A中,第m行n列的元素为Amn,Amn=Anm,Amn的值为第m个gene或miRNA与第n个gene或miRNA之间的边的权值;邻接矩阵A对角线上的数据赋值结果为:如果第i个数据为已知gene或者已知miRNA,那么Aii赋值为1;如果第i个数据为候选gene或者候选miRNA,那么Aii赋值为0,表示为待填充元素;
矩阵填充模块8:使用SVT算法填充邻接矩阵A得到矩阵X,矩阵X的对角线上待填充元素的值的大小表示待填充元素对应的候选gene或候选miRNA与PD的关联程度的大小。
本发明的实验数据主要包括177个gene,其中包括23个已知gene和154个候选gene;686个miRNA,其中包括36个已知miRNA和652个候选miRNA;402条gene-gene相互作用边;778条gene-miRNA相互作用边和470596条miRNA-miRNA相互作用边。使用排序截止数量曲线(简称Rank cutoff曲线)和曲线面积(简称ROC)来衡量本申请的方法的优劣。Rankcutoff曲线:每次验证过程,标记目标基因在训练集中的名次。在某次验证中,如果目标基因的名次在前k中,则此次验证被视为成功。用排名k和对应的成功率来评价本申请所采用的算法、重启随机游走算法(简称RWR算法)和Dormand-Prince算法(简称PRINCE算法)在预测与PD有关的gene和miRNA时的性能。ROC曲线:另一种衡量标准是根据目标基因的留一法排名结果画ROC曲线。ROC曲线以真阳性率(Sensitivity)为纵坐标,假阳性率(1-Specificity)为横坐标绘制的曲线。然后通过计算ROC曲线下面的面积(Area Under Roc,简称AUC)来评价方法的性能。AUC面积越大,说明方法的性能越好。
此外,本发明还引入两种对比算法:RWR算法和PRINCE算法。RWR算法,由SebastianBauer等人提出的基于随机游走分析策略,利用全局网络权值确定蛋白质-蛋白质相互作用网络相似性的候选基因优先排序方法。PRINCE算法用来在疾病网络中预测蛋白质复合物,其主要做法主要分为三步:计算优先级函数、合并整理疾病相似性信息、进行随机游走和加密算法来鉴定蛋白质复合物。
为了验证本申请所采用的算法实验结果的有效性,本发明使用留一法交叉验证本申请所采用的算法预测与PD有关的gene和miRNA实验结果的准确性。
在验证预测与PD有关的gene的准确性时:留一法交叉验证为:在每次进行交叉验证时,提取一条已知gene,保留该gene与已知gene和已知miRNA的关系,移除这条数据与候选gene和候选miRNA的关系。并且在邻接矩阵A的对角线上,代表该gene的位置上的元素的数值置为0,这样便使得在构建网络时,这条已知gene与其它候选gene有着相同的起始条件,然后利用SVT算法对邻接矩阵A进行填充,这样可以得到在此次交叉验证中被移除的已知gene在所有候选gene中的得分的排名。
图4为留一法验证gene准确性的Rank Cutoff曲线,可以得出,当rank-cutoff=1即k=1时,PDMiG算法的预测成功率为74%,也就是说,在总共23个已知gene在经过本申请所采用的算法填充之后,17个已知gene在候选gene中排名第一。而RWR算法成功率为69%,PRINCE算法只有48%,由此可见本本申请所采用的算法是三种算法中的最高者。当k=10时,23个gene中,本申请所采用的算法可以预测出22个gene,预测成功率为95%。当k=33时,本申请所采用的算法可以预测出全部已知gene。当k增加时,本申请所采用的算法一直保持较高的成功率。RWR算法其次,PRINCE算法成功率最低。
图5为三种方法gene组的留一法验证的结果的ROC曲线图。可以明显看出,本申请所采用的算法的准确度一直处于RWR算法和PRINCE算法的上方,说明本申请所采用的的算法的排名效果好于RWR和PRINCE算法,本申请所采用的的算法有着更强的预测能力。
图6为图5三种方法的ROC曲线下面的面积图,即AUC在预测gene时,本申请所采用的算法的AUC值最大,为0.983。RWR的AUC为0.941,PRINCE的AUC为0.901。可见,本申请所采用的算法在预测gene时相对于其它两种方法具有优势。
在验证预测与PD有关的miRNA的准确性时:留一法交叉验证为:在每次进行交叉验证时,提取一条已知miRNA,保留该miRNA与已知gene和已知miRNA的关系,移除这条数据与候选gene和候选miRNA的关系。并且在邻接矩阵A的对角线上,代表该miRNA的位置上的元素的数值置为0,这样便使得在构建网络时,这条已知miRNA与其它候选miRNA有着相同的起始条件,然后利用SVT算法对邻接矩阵A进行填充,这样可以得到在此次交叉验证中被移除的已知miRNA在所有候选miRNA中的得分的排名。
图7为留一法验证miRNA准确性的Rank Cutoff曲线图,可以看出,本申请所采用的算法中,当k=1时,44个已知miRNA在miRNA预测组中的成功次数为17次,预测成功率为42%。当k=30时,所有已知miRNA可以被全部成功预测。而RWR的预测能力稍差,PRINCE算法基本不具备预测miRNA的能力。
图8为三种方法miRNA组的留一法验证的结果的ROC曲线图。可以明显看出,本申请所采用的算法的准确度一直处于RWR算法和PRINCE算法的上方,说明本申请所采用的算法在预测miRNA时同样有着很高的准确率,但是PRINCE算法基本上不能预测miRNA,说明本申请所采用的算法的排名效果好于RWR和PRINCE算法。
图9为图8三种方法的ROC曲线下面的面积图,即AUC。在预测miRNA时,本申请所采用的算法的AUC最大,值为0.983,RWR的AUC为0.784,PRINCE的AUC为0.596。可见,本申请所采用的算法在进行miRNA预测的时候相对于其它两种方法具有优势。
需要理解的是,以上对本发明的具体实施例进行的描述只是为了说明本发明的技术路线和特点,其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施,但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰,都应涵盖在本发明的保护范围内。
Claims (8)
1.一种预测PD潜在gene和miRNA的方法,其特征在于,包括以下步骤:
S1:根据已知基因gene和候选gene构建gene库,其中所述已知gene为已经证实和帕金森病PD有关的gene,所述候选gene为与除PD外所有的神经退行性疾病有关的gene;
S2:根据已知MicroRNA即miRNA和候选miRNA构建miRNA库,其中所述已知miRNA为已经证实和PD有关的miRNA,所述候选miRNA为与所述已知miRNA相识度达到预设值以上的miRNA;
S3:根据所述gene库的所述已知gene和所述候选gene与所述miRNA库中的所述已知miRNA和所述候选miRNA构建相互关联的异构网络;
S4:在所述异构网络中,根据所述gene库中不同的所述已知gene和所述已知gene与所述候选gene在蛋白质相互作用的PPI网络之间的关联关系,对不同的所述已知gene之间的边的权值和所述已知gene与所述候选gene之间的边的权值进行打分,并将打分情况作为gene关联数据;
S5:在所述异构网络中,根据所述miRNA库中的不同的所述已知miRNA之间的相似程度和所述已知miRNA与所述候选miRNA之间的相似程度,计算得到不同的所述已知miRNA之间的边的权值和所述已知miRNA与所述候选miRNA之间的边的权值,并将计算结果作为miRNA关联数据;
S6:在所述异构网络中,判断所述已知gene与所述已知miRNA、所述已知gene和所述候选miRNA以及所述候选gene与所述已知miRNA是否存在关系,若有关系,则对gene和miRNA之间的边的权值赋值为1,否则为0,并将赋值情况作为gene-miRNA关联数据;
S7:通过所述gene关联数据、所述miRNA关联数据和所述gene-miRNA关联数据构建到所述异构网络的邻接矩阵A;在所述邻接矩阵A中,第m行n列的元素为Amn,Amn=Anm,Amn的值为第m个gene或miRNA与第n个gene或miRNA之间的边的权值;所述邻接矩阵A对角线上的数据赋值结果为:如果第i个数据为所述已知gene或者所述已知miRNA,那么Aii赋值为1;如果第i个数据为所述候选gene或者所述候选miRNA,那么Aii赋值为0,表示为待填充元素;
S8:使用SVT算法填充所述邻接矩阵A得到矩阵X,所述矩阵X的对角线上所述待填充元素的值的大小表示所述待填充元素对应的所述候选gene或所述候选miRNA与PD的关联程度的大小。
2.如权利要求1所述的预测PD潜在gene和miRNA的方法,其特征在于,在所述步骤S2中,所述预设值在50%至60%之间。
3.如权利要求1所述的预测PD潜在gene和miRNA的方法,其特征在于,在所述步骤S4中:所述gene关联数据还包括:不同的所述候选gene之间的边的权值,且所述候选gene之间的边的权值为0,打分范围在0-1之间。
4.如权利要求1所述的预测PD潜在gene和miRNA的方法,其特征在于,在所述步骤S5中:所述miRNA关联数据还包括:不同的miRNA之间的边的权值,且所述候选miRNA之间的边的权值为0,计算结果在0-1之间。
5.如权利要求1所述的预测PD潜在gene和miRNA的方法,其特征在于,在所述步骤S6中:所述候选gene-miRNA关联数据还包括:所述候选gene与所述候选miRNA之间的边的权值,且所述候选gene与所述候选miRNA之间的边的权值为0;
若gene影响miRNA的表达,则gene和miRNA有关系。
6.如权利要求1所述的预测PD潜在gene和miRNA的方法,其特征在于,在所述步骤S8中,所述使用SVT算法填充所述邻接矩阵A得到矩阵X具体为:
M1:将填充矩阵的问题转化为求解矩阵秩最小化问题:
s.t.PΩ(X)=PΩ(A)
其中,τ:为阈值;||X||*:矩阵X的核范数;||X||F:矩阵X的F范数;PΩ表示投影算子,能够获取矩阵A中已知元素的位置;PΩ(X)表示矩阵X的投影映射;PΩ(A)表示矩阵A的投影映射;
M2:将所述矩阵秩最小化问题转化为拉格朗日函数形式:
其中:Y为拉格朗日乘子;<Y,PΩ(M-X)>为矩阵Y和矩阵PΩ(M-X)的内积;
M3:设(X*,Y*)为所述矩阵秩最小化问题的原-对偶问题的最优解,则有:
使用交替迭代的方法求解所述拉格朗日函数,并初始化Y0=0,当Yk-1给定时:
所以:Xk=Dτ(Yk-1);
M5:Xk为矩阵X经过k次迭代后的结果,也是矩阵A经过填充后的结果。
7.如权利要求1-6中任意一项所述的预测PD潜在gene和miRNA的方法,其特征在于,在所述步骤S8中,所述矩阵X的对角线上所述待填充元素的值在0-1之间,所述待填充元素的值越接近1,则表示该元素对应的候选gene或候选miRNA与PD的关联程度越大。
8.一种预测PD潜在gene和miRNA的系统,其特征在于,所述系统包括:gene模块、miRNA模块、异构网络模块、gene边权值打分模块、miRNA边权值计算模块、gene-miRNA边权值赋值模块、邻接矩阵构建模块和矩阵填充模块;
所述gene模块:根据已知基因gene和候选gene构建gene库,其中所述已知gene为已经证实和帕金森病PD有关的gene,所述候选gene为与除PD外所有的神经退行性疾病有关的gene;
所述miRNA模块:根据已知MicroRNA即miRNA和候选miRNA构建miRNA库,其中所述已知miRNA为已经证实和PD有关的miRNA,所述候选miRNA为与所述已知miRNA相识度达到预设值以上的miRNA;
所述异构网络模块:根据所述gene库的所述已知gene和所述候选gene与所述miRNA库中的所述已知miRNA和所述候选miRNA构建相互关联的异构网络;
所述gene边权值打分模块:在所述异构网络中,根据所述gene库中不同的所述已知gene和所述已知gene与所述候选gene在蛋白质相互作用的PPI网络之间的关联关系,对不同的所述已知gene之间的边的权值和所述已知gene与所述候选gene之间的边的权值进行打分,并将打分情况作为gene关联数据;
所述miRNA边权值计算模块:在所述异构网络中,根据所述miRNA库中的不同的所述已知miRNA之间的相似程度和所述已知miRNA与所述候选miRNA之间的相似程度,计算得到不同的所述已知miRNA之间的边的权值和所述已知miRNA与所述候选miRNA之间的边的权值,并将计算结果作为miRNA关联数据;
所述gene-miRNA边权值赋值模块:在所述异构网络中,判断所述已知gene与所述已知miRNA、所述已知gene和所述候选miRNA以及所述候选gene与所述已知miRNA是否存在关系,若有关系,则对gene和miRNA之间的边的权值赋值为1,否则为0,并将赋值情况作为gene-miRNA关联数据;
所述邻接矩阵构建模块:通过所述gene关联数据、所述miRNA关联数据和所述gene-miRNA关联数据构建到所述异构网络的邻接矩阵A;在所述邻接矩阵A中,第m行n列的元素为Amn,Amn=Anm,Amn的值为第m个gene或miRNA与第n个gene或miRNA之间的边的权值;所述邻接矩阵A对角线上的数据赋值结果为:如果第i个数据为所述已知gene或者所述已知miRNA,那么Aii赋值为1;如果第i个数据为所述候选gene或者所述候选miRNA,那么Aii赋值为0,表示为待填充元素;
所述矩阵填充模块:使用SVT算法填充所述邻接矩阵A得到矩阵X,所述矩阵X的对角线上所述待填充元素的值的大小表示所述待填充元素对应的所述候选gene或所述候选miRNA与PD的关联程度的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395614.3A CN111161796B (zh) | 2019-12-30 | 2019-12-30 | 一种预测PD潜在gene和miRNA的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395614.3A CN111161796B (zh) | 2019-12-30 | 2019-12-30 | 一种预测PD潜在gene和miRNA的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161796A true CN111161796A (zh) | 2020-05-15 |
CN111161796B CN111161796B (zh) | 2024-04-16 |
Family
ID=70559116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911395614.3A Active CN111161796B (zh) | 2019-12-30 | 2019-12-30 | 一种预测PD潜在gene和miRNA的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161796B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681705A (zh) * | 2020-05-21 | 2020-09-18 | 中国科学院深圳先进技术研究院 | 一种miRNA-疾病关联预测方法、系统、终端以及存储介质 |
CN118609639A (zh) * | 2024-08-08 | 2024-09-06 | 山东大学 | 基于正向决策的玉米跨层分子调控网络构建方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080220977A1 (en) * | 2005-10-12 | 2008-09-11 | Gni Ltd. | Computational strategy for discovering druggable gene networks from genome-wide RNA expression profiles |
CN106096331A (zh) * | 2016-06-12 | 2016-11-09 | 中南大学 | 一种推断lncRNA和疾病联系的方法 |
CN107545151A (zh) * | 2017-09-01 | 2018-01-05 | 中南大学 | 一种基于低秩矩阵填充的药物重定位方法 |
CN108664762A (zh) * | 2011-10-26 | 2018-10-16 | 加利福尼亚大学董事会 | 利用关于基因组模型的数据集成的途径识别算法(paradigm) |
CN109698029A (zh) * | 2018-12-24 | 2019-04-30 | 桂林电子科技大学 | 一种基于网络模型的circRNA-疾病关联预测方法 |
CN110085283A (zh) * | 2019-03-15 | 2019-08-02 | 南京派森诺基因科技有限公司 | 一种基于miRNA靶基因预测以及相关表达分析进行ceRNA预测的方法 |
KR20190125840A (ko) * | 2018-04-30 | 2019-11-07 | 아주대학교산학협력단 | 질병 관련 유전자 순위정보 제공 방법 |
CN110491443A (zh) * | 2019-07-23 | 2019-11-22 | 华中师范大学 | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 |
-
2019
- 2019-12-30 CN CN201911395614.3A patent/CN111161796B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080220977A1 (en) * | 2005-10-12 | 2008-09-11 | Gni Ltd. | Computational strategy for discovering druggable gene networks from genome-wide RNA expression profiles |
CN108664762A (zh) * | 2011-10-26 | 2018-10-16 | 加利福尼亚大学董事会 | 利用关于基因组模型的数据集成的途径识别算法(paradigm) |
CN106096331A (zh) * | 2016-06-12 | 2016-11-09 | 中南大学 | 一种推断lncRNA和疾病联系的方法 |
CN107545151A (zh) * | 2017-09-01 | 2018-01-05 | 中南大学 | 一种基于低秩矩阵填充的药物重定位方法 |
KR20190125840A (ko) * | 2018-04-30 | 2019-11-07 | 아주대학교산학협력단 | 질병 관련 유전자 순위정보 제공 방법 |
CN109698029A (zh) * | 2018-12-24 | 2019-04-30 | 桂林电子科技大学 | 一种基于网络模型的circRNA-疾病关联预测方法 |
CN110085283A (zh) * | 2019-03-15 | 2019-08-02 | 南京派森诺基因科技有限公司 | 一种基于miRNA靶基因预测以及相关表达分析进行ceRNA预测的方法 |
CN110491443A (zh) * | 2019-07-23 | 2019-11-22 | 华中师范大学 | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 |
Non-Patent Citations (4)
Title |
---|
GAMAGE UPEKSHA GANEGODA: "Heterogeneous Network Model to Infer Human Disease-Long Intergenic Non-Coding RNA Associations", IEEE TRANSACTIONS ON NANOBIOSCIENCE, 13 January 2015 (2015-01-13), pages 175 - 183 * |
JIAN-FENG CAI: "A Singular Value Thresholding Algorithm for Matrix Completion", pages 1 - 28 * |
曲玉: "基于异构网络的miRNA-疾病关联预测研究", pages 1 - 45 * |
李敏: "随机游走技术在网络生物学中的研究进展", 电子学报, 31 August 2018 (2018-08-31), pages 2035 - 2048 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681705A (zh) * | 2020-05-21 | 2020-09-18 | 中国科学院深圳先进技术研究院 | 一种miRNA-疾病关联预测方法、系统、终端以及存储介质 |
CN111681705B (zh) * | 2020-05-21 | 2024-05-24 | 中国科学院深圳先进技术研究院 | 一种miRNA-疾病关联预测方法、系统、终端以及存储介质 |
CN118609639A (zh) * | 2024-08-08 | 2024-09-06 | 山东大学 | 基于正向决策的玉米跨层分子调控网络构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111161796B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689920B (zh) | 一种基于深度学习的蛋白质-配体结合位点预测方法 | |
Fan et al. | lncRNA-MFDL: identification of human long non-coding RNAs by fusing multiple features and using deep learning | |
CN107545151B (zh) | 一种基于低秩矩阵填充的药物重定位方法 | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN104077499B (zh) | 基于有监督上采样学习的蛋白质‑核苷酸绑定位点预测方法 | |
CN113362888A (zh) | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 | |
Montserrat et al. | Lai-net: Local-ancestry inference with neural networks | |
CN111161796A (zh) | 一种预测PD潜在gene和miRNA的方法及系统 | |
CN113488104A (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
CN110491443B (zh) | 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 | |
CN114913916A (zh) | 预测新冠病毒适应药物的药物重定位方法 | |
Shujaat et al. | Cr-prom: A convolutional neural network-based model for the prediction of rice promoters | |
CN107463799B (zh) | 交互融合特征表示与选择性集成的dna结合蛋白识别方法 | |
Nygård et al. | Partial least squares Cox regression for genome-wide data | |
CN109801681B (zh) | 一种基于改进的模糊聚类算法的snp选择方法 | |
Sharma et al. | Prediction models based on miRNA-disease relationship: Diagnostic relevance to multiple diseases including COVID-19 | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
CN112885405A (zh) | 疾病关联miRNA的预测方法和系统 | |
CN117637035A (zh) | 一种基于图神经网络的多组学可信整合的分类模型及方法 | |
CN104462817B (zh) | 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法 | |
CN116403713A (zh) | 一种基于多类无监督特征提取方法对自闭症谱系障风险基因预测的方法 | |
Asim et al. | Bot-net: a lightweight bag of tricks-based neural network for efficient lncrna–mirna interaction prediction | |
CN113192562B (zh) | 融合多尺度模块结构信息的致病基因识别方法及系统 | |
CN113177608B (zh) | 一种针对不完整数据的近邻模型特征选择方法及装置 | |
CN115410643A (zh) | 一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |