CN110993113B - 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 - Google Patents
基于MF-SDAE的lncRNA-疾病关系预测方法及系统 Download PDFInfo
- Publication number
- CN110993113B CN110993113B CN201911146003.5A CN201911146003A CN110993113B CN 110993113 B CN110993113 B CN 110993113B CN 201911146003 A CN201911146003 A CN 201911146003A CN 110993113 B CN110993113 B CN 110993113B
- Authority
- CN
- China
- Prior art keywords
- matrix
- lncrna
- disease
- characteristic
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 226
- 201000010099 disease Diseases 0.000 title claims abstract description 225
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000011159 matrix material Substances 0.000 claims abstract description 265
- 230000009467 reduction Effects 0.000 claims abstract description 55
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 34
- 108020005198 Long Noncoding RNA Proteins 0.000 claims abstract 39
- 230000008569 process Effects 0.000 claims description 20
- 108090000623 proteins and genes Proteins 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 108091070501 miRNA Proteins 0.000 claims description 8
- 239000002679 microRNA Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 2
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 106
- 230000006870 function Effects 0.000 description 22
- 238000002790 cross-validation Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 108091027963 non-coding RNA Proteins 0.000 description 5
- 102000042567 non-coding RNA Human genes 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000000205 computational method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 201000008968 osteosarcoma Diseases 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000010396 two-hybrid screening Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 206010005949 Bone cancer Diseases 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000005773 cancer-related death Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008482 dysregulation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010397 one-hybrid screening Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提出了一种基于MF‑SDAE的lncRNA‑疾病关系预测方法及系统。首先构建已知的lncRNA‑疾病关系矩阵、lncRNA特征矩阵与疾病特征矩阵;使用矩阵分解模型来对已知的lncRNA‑疾病关系矩阵进行分解得到lncRNA特性矩阵和疾病特性矩阵,栈式降噪自动编码器分别对lncRNA特征矩阵和疾病特征矩阵进行编码得到各自的编码矩阵,以最小化损失函数值为目标,迭代求解模型的最优参数。最终利用训练好的模型得到编码矩阵和特性矩阵,将它们进行矩阵乘法操作得到lncRNA‑疾病关系得分矩阵。本发明简单有效,预测性能好。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种基于MF-SDAE的lncRNA-疾病关系预测方法及系统。
背景技术
随着生物技术和计算方法的飞速发展,越来越多的非编码RNA得到了鉴定,人们对非编码RNA的了解也越来越深入,最近的研究表明非编码RNA如长链非编码RNA(Long non-coding RNA,简称lncRNA),在许多生物过程中都发挥着至关重要的作用。研究发现表明,lncRNA的异常不仅可以引起多种疾病,而且一种疾病的发生也有可能是多种lncRNA共同调节的结果,lncRNA可以用来作为衡量很多疾病产生的早期标志物。图1显示了lncRNA与疾病的调控网络,其中三角形和圆形分别表示lncRNA和疾病。从图中可以观察到,lncRNA的突变或失调都会引发相应疾病的产生。因此,识别lncRNA与疾病的关系,已成为医学界和病理学界研究的热点问题。但尽管人们已经发现了lncRNA与疾病间存在着关联,可是要确定与某种疾病的发生与发展最可能存在关系的lncRNA仍然是分子生物学家和遗传学家们的一大挑战。目前,在人类基因组发现的9万多条lncRNA中,只有不到1%的lncRNA有相关疾病报道,大量未知的(潜在的)lncRNA-疾病关系有待挖掘。
在预测lncRNA与疾病是否存在关系的过程中,基于生传统物实验的方法成本非常高,消耗了大量的人力和时间,所以其应用受到了一定的限制。基于相似的lncRNA可能与相似的疾病存在关系的假设,一些基于计算的lncRNA-疾病关系预测算法被提了出来,这些基于计算的预测方法则有效地解决了基于生传统物实验的方法存在的问题。但现有的基于计算的预测方法虽然在预测潜在的lncRNA-疾病关系方面已取得了巨大成功,但还存在着一些缺陷。例如随着生物数据的快速增长,某些lncRNA和疾病出现了大量的特征数据,而现有的基于多特征的lncRNA-疾病关系预测算法或模型单一,或没有很好的处理数据的噪音,导致预测效果一般。因此,急需开发一种快速有效的基于计算的lncRNA-疾病关系预测算法及系统。
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于MF-SDAE的lncRNA-疾病关系预测方法及系统,提高了lncRNA与疾病关系预测的准确性。
本发明的技术方案为:
一种基于双重反馈式矩阵分解及栈式降噪自动编码器的lncRNA与疾病关系预测方法,包括以下步骤:
1)构建已知的lncRNA-疾病关系矩阵LD、lncRNA特征矩阵Mlf与疾病特征矩阵Mdf;
2)构建基于MF-SDAE,即矩阵分解和栈式降噪自动编码器的混合预测模型;所述混合预测模型包括栈式降噪自动编码器(SDAE)模型和矩阵分解(MF)模型;其中,栈式降噪自动编码器模型用于对输入矩阵进行特征编码,提取高层特征;所述矩阵分解(MF)模型用于对输入矩阵进行分解,得到两个输出矩阵;
3)利用矩阵分解模型对lncRNA-疾病关系矩阵LD进行分解,得到两个输出矩阵,即lncRNA特性矩阵L与疾病特性矩阵D;
4)对混合预测模型进行训练;
初始化混合预测模型参数;
定义损失函数;以最小化损失函数值为目标,迭代求解混合预测模型的最优参数,得到训练好的混合预测模型;
每轮迭代过程中,先采用混合预测模型进行以下两部分数据处理:
采用混合预测模型中的栈式降噪自动编码器模型对lncRNA特征矩阵Mlf进行特征编码,得到隐藏层和输出层输出的lncRNA特征编码矩阵,分别记为Xencodesl和Xout_l;
采用混合预测模型中的栈式降噪自动编码器模型对疾病特征矩阵Mdf进行特征编码,得到隐藏层和输出层输出的疾病特征编码矩阵,分别记为Xencodesd和Xout_d;
然后根据混合预测模型的输入和输出计算相应的损失函数值;
5)利用训练好的混合预测模型对lncRNA特征矩阵Mlf和疾病特征矩阵Mdf进行处理,得到相应的lncRNA特征编码矩阵Xencods_l和疾病特征编码矩阵Xencods_d;
结合Xencods_l与步骤3)中得到的D计算得分矩阵Ml,其第i行第j列的元素Ml(i,j)计算方法为:
Ml(i,j)=Xencods_l(i,:)·D(j,:)T
其中,Xencods_l(i,:)表示Xencods_l的第i行,D(j,:)表示D的第j行;
结合Xencods_d与步骤3)中得到的L计算得分矩阵Md,其第i行第j列的元素Md(i,j)计算方法为:
Md(i,j)=L(i,:)·Xencods_d(j,:)T
其中,L(f,:)表示L的第f行,Xencods_d(j,:)表示Xencods_d的第j行;
求Ml和Md的加权平均值,所得结果即为预测得到的lncRNA-疾病关系得分矩阵LD′,其第i行第j列的元素LD′(i,j)表示预测得到的第f种lncRNA和第j种疾病存在关系的可能性。
进一步地,所述步骤1)中,构建已知的lncRNA-疾病关系矩阵的过程如下:
构建一个N×M的矩阵LD,其每一行对应一种lncRNA,每一列对应一种疾病,若有数据库记录了第i种lncRNA与第j种疾病存在关系,则将LD中第i行第j列的元素LD(i,j)设为1;否则将LD(i,j)设为0;其中i=1,2,…,N;j=1,2,…,M;N和M分别为lncRNA和疾病的种类数;由此得到的矩阵LD即为已知的lncRNA-疾病关系矩阵;
构建lncRNA特征矩阵的过程如下:
构建一个N×P的矩阵Mlf,其每一行对应一种lncRNA,每一列对应一种与lncRNA关联的信息,若有数据库记录了第i种lncRNA与第p种与lncRNA关联的信息存在关系,则将Mlf中第i行第p列的元素Mlf(i,p)设为1;否则将Mlf(i,p)设为0;其中i=1,2,…,N;p=1,2,…,P;N为lncRNA的种类数,P为与lncRNA关联的信息的种类数;由此得到的矩阵Mlf即为lncRNA特征矩阵;
构建疾病特征矩阵的过程如下:
构建一个M×Q的矩阵Mdf,其每一行对应一种疾病,每一列对应一种与疾病关联的信息,若有数据库记录了第j种疾病与第q种与疾病关联的信息存在关系,则Mdf中第j行第q列的元素Mdf(j,q)设为1;否则Mdf(j,q)设为0;其中j=1,2,…,M;q=1,2,…,Q;M为疾病的种类数,Q为与疾病关联的信息种类数;由此得到的矩阵Mdf即为疾病特征矩阵。
进一步地,所述与lncRNA关联的信息包括与lncRNA关联的基因信息、基因功能信息和miRNA信息。
进一步地,所述与疾病关联的信息包括与疾病关联的基因信息和miRNA信息。
进一步地,所述步骤3)具体过程如下:
设定迭代次数T;
初始化一个N×R的lncRNA特性矩阵L与一个M×R的疾病特性矩阵D;
进行T次迭代,在每一次迭代过程中,按以下公式更新矩阵L和D:
L(i,:)=LD(i,:)CiD(γ′I+DTCiD)-1
其中,L(i,:)为矩阵L的第i行;D(j,:)为矩阵D的第j行,LD(i,:)为矩阵LD的第i行,Ci为第i种lncRNA对应的对角矩阵,其第j行第j列的元素值Ci(j,j)=βi,j,βi,j是偏好因子,βi,j=1+θ·LD(i,j),θ为自由参数;为第j种疾病对应的对角矩阵,其i行第i列的元素值LD(:,j)为lncRNA-疾病关系矩阵LD中的第j列;I是单位矩阵,γ′为自由参数(根据经验取值);
T次迭代后得到的矩阵L和D即矩阵分解模型的输出矩阵。
进一步地,将lncRNA特性矩阵L与疾病特征矩阵D初始化为服从0~1均匀分布的随机矩阵,即产生[0,1)上均匀分布的随机数,来填充L和D,完成L和D的初始化。
进一步地,所述栈式降噪自动编码器模型(SDAE)包括依次连接的一个输入层、一个损坏层、三个隐藏层和一个输出层;栈式降噪自动编码器模型对lncRNA特征矩阵Mlf进行特征编码时,将其第二个隐藏层的输出作为Xencodes_l;栈式降噪自动编码器模型对疾病特征矩阵Mdf进行特征编码时,将其第二个隐藏层的输出作为Xencodes_d;设栈式降噪自动编码器模型第二个隐藏层中神经元个数为R,则Xencodes_l为N×R的矩阵,Xencodes_d为M×R的矩阵。
进一步地,所述步骤4)中,损失函数为:
Loss=∑i,jβi,j[LD(i,j)-L(i,:)·D(j,:)T]2+γ(∑i||L(i,:)||2+∑j||D(j,:)||2)+γl(||L-Xencodes_l||2)+γd(||D-Xencodes_d||2)+γn_l(||Mlf-Xout_l||2)+γn_d(||Mdf-Xout_d||2)+∑kγk||Wk||2+∑kγb||Wb||2
βi,j=1+θ·LD(i,j)
其中,||·||表示求2-范数,βi,j是偏好因子;LD(i,j)为矩阵LD中第i行第j列的元素;L(i,:)为矩阵L的第i行;D(j,:)为矩阵D的第j行;θ、γ、γl、γd、γn_l、γn_d和γk均为自由参数(根据经验取值);Wk和bk分别为栈式降噪自动编码器中第k个隐藏层的权值矩阵和阈值向量(需要优化的参数)。
进一步,所述步骤4)中,迭代求解混合预测模型的最优参数采用小批量梯度下降算法。
有益效果:
本发明提出了一种基于矩阵分解与栈式降噪自动编码器相结合的lncRNA(长链非编码RNA)与疾病关系预测方法和系统。该方法是基于相似的疾病可能与相似的lncRNA存在关系的假设实施的。首先充分利用多个lncRNA数据库及多个疾病数据库,提取lncRNA的多种特征以及疾病的多种特征,构建已知的lncRNA-疾病关系矩阵、lncRNA特征矩阵与疾病特征矩阵,以全面描述lncRNA与疾病关系;在使用矩阵分解模型来对已知的lncRNA-疾病关系矩阵进行分解得到lncRNA特性矩阵和疾病特性矩阵之后,把分解得到的特性矩阵输入到栈式降噪自动编码器,协助lncRNA特征矩阵和疾病特征矩阵进行编码得到各自的编码矩阵(即对多特征数据进行降维编码、学习更复杂的高层特征),然后结合矩阵分解模型与栈式降噪自动编码器模型的结果,计算损失函数值,通过损失函数,利用矩阵分解模型生成的特性矩阵监督栈式降噪自动编码器的特征编码,以达到防止机器学习冷启动的效果,最终把训练好的编码矩阵和特性矩阵进行矩阵乘法操作得到lncRNA-疾病关系打分矩阵,打分矩阵中的元素值即预测得到的各种lncRNA与各种疾病存在关系的可能性。所述系统用于实现上述预测方。本发明简单有效,通过使用十折交叉验证法、De novo交叉验证法和案例分析对本发明提出的方法和系统进行测试,结果表明该方法和系统在预测潜在的(未知的)lncRNA-疾病关系方面具有较好的预测性能。
附图说明
图1为LncRNA-疾病调控网络;其中上半部分为正常的lnRNA-疾病相互作用网络,下半部分为lncRNA突变或扰动网络;
图2为本发明实施例流程图;
图3为本发明实施例中矩阵分解-栈式降噪自动编码模型;
图4为本发明(CDLLD)和其他方法基于十倍交叉验证的ROC曲线及相应的AUC值;
图5为本发明(CDLLD)和其他方法基于De novo实验测试的ROC曲线及相应的AUC值;
具体实施方式
如图2所示,本实施例具体实现过程如下:
一、构建已知的lncRNA-疾病关系矩阵、lncRNA特征矩阵与疾病特征矩阵
随着高通量测序技术的快速发展,产生了大量的生物数据,为了存储和管理方便,人们建立了标准的数据库用来存储这些生物数据。例如由马由里兰大学医学院主办创建的Disease Ontology人类疾病数据库、人类基因和遗传疾病知识库Online MendelianInheritance in Man(OMIM)、人类lncRNA的综合数据库LNCipedia、包含16个物种的非编码RNA数据库NONCODE、真核生物的lncRNA数据库lncRNAdb以及主要记录哺乳动物相关的非编码RNA与疾病的关联信息的数据库MNDR等。随着越来越多的lncRNA相关数据库和疾病相关数据库的建立和规范化,使基于计算的方法来预测未知的lncRNA与疾病关系成为可能。本实施例充分提取了lncRNA的多种特征以及疾病的多种特征,以全面描述lncRNA与疾病关系。
1.已知的lncRNA-疾病关系提取
首先对存储lncRNA信息和存储疾病相关信息的相关数据库进行数据下载,对多个数据库中记录的已知lncRNA-疾病关系进行统计、去重整理,找出已知的lncRNA-疾病关系(经传统生物实验证实的lncRNA-疾病关系);
本实施例通过对LncRNADisease数据库、Lnc2Cancer数据库以及GeneRIF数据库中记录的已知的lncRNA-疾病关系进行统计、去重整理,最后从中获取了240种lncRNA、412种疾病以及它们所对应的2697对已知的lncRNA-疾病关系(即已知存在关系的lncRNA-疾病对有2697个)。其中,本实施例创建了N×M的lncRNA-疾病关系矩阵LD来存储这些已知关系。如果已有记录表明第i种lncRNA与第j种疾病存在关系,则将LD(i,j)置为1,否则将LD(i,j)置为0,其中f=1,2,…,N;j=1,2,…,M;N和M分别为lncRNA和疾病的种类数,本实施例中N=240,M=412。
2.lncRNA特征提取
本实施例对多个数据库中与lncRNA关联的信息(包括已知的与lncRNA关联的基因信息、基因功能信息和miRNA信息)进行整合,把每一项与lncRNA关联的信息都作为一项lncRNA特征信息,得到lncRNA特征矩阵。本实施例从lncRNA2target数据库中提取得到了与lncRNA关联的基因信息,从GeneRIF数据库中提取得到了与lncRNA关联的基因功能信息,从starBase数据库中提取得到了与lncRNA关联的miRNA信息。通过去重整合后,本实施例一共获取了6066维lncRNA特征数据。为了管理这些特征数据,本实施例创建了N×P的lncRNA特征矩阵Mlf来存储它们,如果数据库中记录了第f种lncRNA与第p种与lncRNA关联的信息(第p维特征)存在关系,则把Mlf(f,j)设为1,如果还没有数据库记录证明它们有关系,则把Mlf(f,j)设为0,其中f=1,2,…,N;p=1,2,…,P;N为lncRNA的种类数,P为与lncRNA关联的信息种类数,本实施例中N=240,P=6066。
3.疾病特征提取
本实施例对多个数据库中与疾病关联的信息(包括已知的与疾病关联的基因信息和miRNA信息)进行整合,把每一项与疾病关联的信息作为一项疾病特征信息,得到疾病特征矩阵。其中我们从DisGeNet数据库中提取得到了与疾病关联的基因信息,从HMDD数据库中提取得到了与疾病关联的miRNA信息。通过去重整合后,本实施例一共获得了10621维疾病特征数据。同样的,为了存储这些特征数据,本实施例创建了M×Q的疾病特征矩阵Mdf,如果数据库中记录了第j种疾病与第q种与疾病关联的信息存在关系(第q维特征)存在关系,则把Mdf(j,q)设为1,否则把Mdf(j,q)设为0,其中j=1,2,…,M;p=1,2,…,Q;M为疾病的种类数,Q为与疾病关联的信息种类数,本实施例中M=412,Q=10621。
二、构建栈式降噪自动编码器模型
自动编码器是一种自监督的机器学习算法,或者说是一种尽可能复现原始输入信号的神经网络。其算法的基本思想是:通过不断迭代,不断调整自编码器的参数,得到每一层中的权重,来使输出的信息尽可能与输入编码器的信息相同。为了实现这种复现,自动编码器就必须要捕捉可以代表输入数据的最重要的因素,即找到可以代表原信息的主要成分。自动编码器可用于数据压缩和从输入数据中提取有用的“高层”特征。降噪自动编码器是一类可以接受损坏数据作为输入,并通过训练来预测原始未被损坏数据作为输出的自编码器,其核心思想是能够从损坏的数据中还原原始数据的自编码器所学到的特征才是最好的。而设计多层编码器有利于获得更优秀的高层特征,所以本实施例设计了具有三层隐藏层的栈式降噪自动编码器(SDAE)。
本实施例使用栈式降噪自动编码器(SDAE)对lncRNA的特征信息与疾病的特征信息分别进行特征编码,提取高层特征,即将lncRNA特征信息和疾病特征信息转换成R维的高层特征(本实施例中设置R=100)。本实施例中的栈式降噪自动编码器模型如图3所示。其中,X_input是输入层,输入lncRNA或疾病的特征矩阵(Mlf或Mlf),X_input_noise是对原始数据(X_input)进行加高斯噪声处理的“损坏”层,X_1、X_encodes、X_3层是3个隐藏层(本实施例从第2个隐藏层X_encodes提取lncRNA或疾病特征信息的编码特征,即“高层”特征数据,第2个隐藏层的神经元个数设为R个,其它两个隐藏层的神经元个数大于等于R),X_out为输出层。本实施例使用小批量梯度下降算法(Mini-Batch Gradient Descent)来训练栈式降噪自动编码器模型,其中批量大小(Batch_size)设置为60(即每批包括60个样本)。
三、矩阵分解模型
本实施例使用了一种监督式矩阵分解模型来对已知的lncRNA-疾病关系矩阵进行分解,所谓“监督”即利用已知的lncRNA-疾病关系来反馈模型(通过损失函数实现监督功能),使模型具有一定的记忆功能,通过矩阵分解将已知的lncRNA-疾病关系矩阵分解为疾病特性矩阵以及lncRNA特性矩阵。上述部分中,定义了lncRNA-疾病关系矩阵为LD,经过矩阵分解算法后其将被分解成为对应R维“高层特性”的N×R的lncRNA特性矩阵L以及M×R的疾病特性矩阵D,矩阵L中每一行表示一种lncRNA的潜在因子向量,其中第f行表示为L(i,:),即第f种lncRNA的潜在因子向量,矩阵D中每一行表示一种疾病的潜在因子向量,其中第j行表示为D(j,:),即第j种疾病的潜在因子向量。可以通过L(i,:)·D(j,:)T来计算lncRNA i和疾病j存在关系的可能性得分。其损失函数定义如下:
l=∑i,jβi,j[LD(i,j)-L(i,:)·D(j,:)T]2+γ(∑i||L(i,:)||2+∑j||D(j,:)||2)(1)
βi,j=1+θ·LD(i,j) (2)
其中,||·||表示求2-范数,γ和θ都是一个自由参数,本实施例中都设定为100,βi,j是偏好因子,目的是加强对已知的lncRNA-疾病关系在模型中的比重,监督模型以提高模型质量。
在矩阵分解模型的每一次迭代过程(本实施例设定迭代次数T为30)中,其使用公式(4)和(5)来更新lncRNA特性矩阵L和疾病特性矩阵D。
L(i,:)=LD(i,:)CiD(γ′I+DTCiD)-1 (3)
其中,Ci为第i种lncRNA对应的对角矩阵,其第j行第j列的元素值Ci(j,j)=βi,j;LD(i,:)为lncRNA-疾病关系矩阵中的第i行,即第i种lncRNA与所有疾病的关系向量;I是R阶单位矩阵,γ′被设为100。
T轮迭代过后,将更新好的lncRNA特性矩阵L和疾病特性矩阵D输出给栈式降噪自动编码器,栈式降噪自动编码器根据新的L和D来更新自身参数。
四、构建基于双重反馈式矩阵分解-栈式降噪自动编码器的混合预测模型
本实施例构建了基于双重反馈式矩阵分解-栈式降噪自动编码器的混合预测模型,通过该混合预测模型来预测未知的lncRNA-疾病关系。混合预测模型的损失函数由矩阵分解的损失函数以及栈式降噪自动编码器的损失函数组合构成。所谓“双重”即基于lncRNA特征信息的矩阵分解-栈式降噪自动编码(SDAE-1)以及基于疾病特征信息的矩阵分解-栈式降噪自动编码(SDAE-2)的融合,对SDAE-1预测得到的lncRNA-疾病关系打分矩阵与SDAE-2预测得到的lncRNA-疾病关系打分矩阵进行求均值来得到最终的未知lncRNA-疾病关系预测得分。所以,在混合预测模型中,这些未知的lncRNA-疾病关系预测将依赖于已知的lncRNA-疾病关系信息、lncRNA的特征信息以及疾病的特征信息,而不是单一的已知lncRNA-疾病关系信息。“反馈式”即通过损失函数,利用矩阵分解模型生成的特性矩阵影响栈式降噪自动编码器的特征编码。lncRNA特征矩阵/疾病特征矩阵经栈式降噪自动编码器训练后生成的特征编码Xencodes_l/Xencodes_l最后与矩阵分解模型得到的D/L进行矩阵乘法操作,即Xencods_l(i,:)·D(j,:)T/L(i,:)·Xencods_d(j,:)T来获得lncRNA-疾病关系预测得分Ml(i,j)/Md(i,j)。栈式降噪自动编码器不仅在输出层Xout处重新构建输入Xinput,而且还寻找最佳特征编码Xencodes,以便最小化损失函数。
在具体实现时,可以采用两个混合预测模型,两个混合预测模型一起运行,一个混合预测模型进行基于lncRNA特征信息(Mlf)的矩阵分解-栈式降噪自动编码(SDAE-1),其损失函数可以定义为:
Loss1=∑i,jβi,j[LD(i,j)-L(i,:)·D(j,:)T]2+γ(∑i||L(i,:)||2+∑j||D(j,:)||2)+γl(||L-Xencodes_l||2)+γn(||Xinput-Xout||2)+∑kγw||Wk1||2+∑kγb||bk1||2 (5)
其中,前面两部分是矩阵分解的损失函数;第三部分是最小化栈式降噪自动编码器编码得到的lncRNA特征编码矩阵Xencodes_l与矩阵分解得到的lncRNA特性矩阵间的误差值;第四部分是栈式降噪自动编码器重构得到的lncRNA特征信息Xout与原输入的特征信息Xinput(Mlf)的误差值,其中γl与γn为自由参数,本实施例中设定它们的比值γl/γn为500。最后两部分分别为所有隐藏层和输出层权值和阈值的正则化项,其中Wk1为栈式降噪自动编码器中第k个隐藏层的权值矩阵,本实施例中设置三个隐藏层,即k=1,2,3;bk1为栈式降噪自动编码器中第k个隐藏层的阈值向量,γw和γb为自由参数,本实施例中它们都设为200。
另一个混合预测模型进行基于疾病特征信息(Mdf)的矩阵分解-栈式降噪自动编码(SDAE-2),其损失函数可以定义为:
Loss2=∑i,jβi,j[LD(f,j)-L(i,:)·D(j,:)T]2+γ(∑i||L(i,:)||2+∑j||D(j,:)||2)+γd(||D-Xencodes_d||2)+γn(||Xinput-Xout||2)+∑kγw||Wk2||2+∑kγb||bk2||2 (6)
其中,前面两部分是矩阵分解的损失函数;第三部分是最小化栈式降噪自动编码器编码得到的疾病特征编码矩阵Xencode_d与矩阵分解得到的疾病特性矩阵间的误差值;第四部分是栈式降噪自动编码器重构得到的疾病特征信息Xout与原输入的特征信息Xinput(Mdf)的误差值,其中γd/γn为自由参数,本实施例中它们的比值(γl/γn)设为500;最后两部分分别为所有隐藏层和输出层权值和阈值的正则化项,其中Wk2为栈式降噪自动编码器中第k个隐藏层的权值矩阵,bk2为栈式降噪自动编码器中第k个隐藏层的阈值向量,γw和γb为自由参数,本实施例中它们都设为200。
在具体实现时,也可以采用同一个混合预测模型,先后进行基于lncRNA特征信息(Mlf)的栈式降噪自动编码-矩阵分解(SDAE-1)和基于疾病特征信息(Mdf)的栈式降噪自动编码-矩阵分解(SDAE-2),其损失函数可以定义为:
Loss=∑i,jβi,j[LD(f,j)-L(f,:)·D(j,:)T]2+γ(∑i||L(i,:)||2+∑j||D(j,:)||2)+γl(||L-Xencodes_l||2)+γd(||D-Xencodes_d||2)+γn_l(||Mlf-Xout_l||2)+γn_d(||Mdf-Xout_d||2)+∑kγk||Wk||2+∑kγb||Wb||2
本实施例使用小批量梯度下降算法来训练栈式降噪自动编码器.
训练完毕后,先利用训练好的混合预测模型对lncRNA特征矩阵Mlf和疾病特征矩阵Mdf进行处理,得到相应的lncRNA特征编码矩阵Xencods_l和疾病特征编码矩阵Xencods_d;
然后计算:
Ml(i,j)=Xencods_l(i,:)·D(j,:)T
Md(i,j)=L(i,:)·Xencods_d(j,:)T
其中,Ml是基于lncRNA特征信息的矩阵分解-栈式降噪自动编码(即基于SDAE-1输出的Xencods_l(i,:))预测得到的lncRNA-疾病关系打分矩阵;Md是基于疾病特征信息的矩阵分解-栈式降噪自动编码(即基于SDAE-2输出的Xencods_d(j,:))预测得到的lncRNA-疾病关系打分矩阵;
最后,未知的lncRNA i与疾病j关系的最终预测得分LD′(i,j)可以定义为:
五、实验验证
1.评价指标
为了验证CDLLD方法的预测有效性,本节使用十折交叉验证法(10-Fold CrossValidation)、De novo交叉验证法来对方法进行测试。
(1)十折交叉验证法
所谓十折交叉验证法就是把数据集中已知的lncRNA-疾病关系分成十份,每一次取一份作为测试集,其他九份作为训练集,然后进行轮转试验。因此,对于给定的第i种疾病,每一对已知的与i存在关系的lncRNA-疾病关系对会被轮流移除(LD中相应元素置为0),作为测试集,其它的已知关系作为训练集。然后,根据训练的模型对测试样本和未标记的与第i种疾病相关的lncRNA样本进行评分并按降序排列。lncRNA的排名越高,说明其与第i种疾病存在关系的可能性就越大。最后,把每一个排名当做阈值来计算真阳性概率TPR(True-positive rate)和假阳性概率FPR(False-positive rate)。本节对FPR和TPR的定义如下:
其中,TP(True positive)代表排序高于阈值的正样本数量,FN(False negative)代表正样本被错误识别为负样本的数量,FP(False positive)代表排名高于阈值的负样本数量,TN(True negative)代表负样本被正确分类为负样本的数量。
基于所有的TPR和FPR值,画出了CDLLD的ROC曲线图(受试者工作特征曲线,Receiver Operating Characteristic Curve)。其横轴代表的是假阳性概率(FPR),纵轴代表的是真阳性概率(TPR)。进一步的,计算了ROC曲线与横轴的面积即AUC值(Area UnderCurve)来衡量算法的性能。如果AUC值为0.5,则说明该算法的预测结果是随机的,相反,如果AUC的值为1,则说明该算法的预测性能是最好的。
(2)De novo交叉验证法
在实际数据中,有很多疾病研究者们至今还未找到与之关联的任何lncRNA,即该疾病没有任何与lncRNA关联的先验信息。为了验证本发明提出的CDLLD算法在疾病没有任何已知lncRNA关系信息时,对预测未知的lncRNA-疾病关系的性能,本节将CDLLD进行了Denovo测试。
类似十折交叉验证方法,De novo测试是指每次把特定对象的所有正例样本删除作为训练集,保留其它对象的正例样本作为训练集。在完成轮转测试后,我们也计算其TPR和FPR值,并画出ROC曲线,求出AUC值。
2.与其它方法的比较
为了评价CDLLD的有效性,本节将其与其他两种方法(SIMLDA、MFLDA)进行比较。SIMLDA通过使用主成分分析(PCA)来提取lncRNA和疾病的主要特征向量,然后通过诱导矩阵填充来预测lncRNA-疾病关系;MFLDA主要是通过矩阵分解来预测潜在的lncRNA-疾病关系。
(2)十折交叉验证法结果分析
十折交叉验证的结果如图4所示,从结果可以看出,CDLLD、SIMLDA以及MFLDA的AUC值分别为0.9134、0.8259、0.6430,其中CDLLD的AUC值明显高于其他两种方法,说明了本发明提出的CDLLD算法可以显著提高对潜在lncRNA-疾病关系的预测性能。
(3)De novo交叉验证法结果分析
De novo交叉验证法的结果如图5所示,从结果可以看出,CDLLD、SIMLDA和MFLDA的AUC值分别为0.8917、0.7923、0.5952。结果说明了CDLLD在疾病无任何已知lncRNA关系的先验情况下也有较好的预测性能。
(4)案例分析
为了进一步验证CDLLD在预测未知的lncRNA-疾病关系上的性能,本节选取了由CDLLD预测得到的前10种与骨肉瘤疾病(骨肉瘤是一种常见的恶性骨肿瘤,根据报道其已成为年轻人癌症相关死亡的第二大原因)相关的lncRNA进行分析,其具体结果如表1所示。从表1可以看出,在这10种lncRNA中有9种在最近的科学文献中得到了验证,表明了CDLLD具有较高的预测准确性。
表1.案例分析结果
Claims (6)
1.一种基于MF-SDAE的lncRNA-疾病关系预测方法,其特征在于,包括以下步骤:
1)构建已知的lncRNA-疾病关系矩阵LD、lncRNA特征矩阵Mlf与疾病特征矩阵Mdf;
所述步骤1)中,构建已知的lncRNA-疾病关系矩阵的过程如下:
构建一个矩阵LD,其每一行对应一种lncRNA,每一列对应一种疾病,若有数据库记录了第i种lncRNA与第j种疾病存在关系,则将LD中第i行第j列的元素LD(i,j)设为1;否则将LD(i,j)设为0;由此得到的矩阵LD即为已知的lncRNA-疾病关系矩阵;
构建lncRNA特征矩阵的过程如下:
构建一个矩阵Mlf,其每一行对应一种lncRNA,每一列对应一种与lncRNA关联的信息,若有数据库记录了第i种lncRNA与第p种与lncRNA关联的信息存在关系,则将Mlf中第i行第p列的元素Mlf(i,p)设为1;否则将Mlf(i,p)设为0;由此得到的矩阵Mlf即为lncRNA特征矩阵;
构建疾病特征矩阵的过程如下:
构建一个矩阵Mdf,其每一行对应一种疾病,每一列对应一种与疾病关联的信息,若有数据库记录了第j种疾病与第q种与疾病关联的信息存在关系,则Mdf中第j行第q列的元素Mdf(j,q)设为1;否则Mdf(j,q)设为0;由此得到的矩阵Mdf即为疾病特征矩阵;
2)构建基于MF-SDAE的混合预测模型;其中,MF为矩阵分解,SDAE为栈式降噪自动编码器;所述混合预测模型包括矩阵分解模型和栈式降噪自动编码器模型;其中,矩阵分解模型用于对输入矩阵进行分解,得到两个输出矩阵;栈式降噪自动编码器模型用于对输入矩阵进行特征编码,提取高层特征;
3)利用矩阵分解模型对lncRNA-疾病关系矩阵LD进行分解,得到两个输出矩阵,即lncRNA特性矩阵L与疾病特性矩阵D;
所述步骤3)具体过程如下:
设定迭代次数T;
初始化lncRNA特性矩阵L与疾病特性矩阵D;
进行T次迭代,在每一次迭代过程中,按以下公式更新矩阵L和D:
L(i,:)=LD(i,:)CiD(γ′I+DTCiD)-1
其中,L(i,:)为矩阵L的第i行;D(j,:)为矩阵D的第j行,LD(i,:)为矩阵LD的第i行,Ci为第i种lncRNA对应的对角矩阵,其第j行第j列的元素值Ci(j,j)=βi,j,βi,j是偏好因子,βi,j=1+θ·LD(i,j),θ为自由参数;为第j种疾病对应的对角矩阵,其i行第i列的元素值LD(:,j)为lncRNA-疾病关系矩阵LD中的第j列;I是单位矩阵,γ′为自由参数;
T次迭代后得到的矩阵L和D即矩阵分解模型的输出矩阵;
4)对混合预测模型进行训练;
初始化混合预测模型参数;
定义损失函数;以最小化损失函数值为目标,迭代求解混合预测模型的最优参数,得到训练好的混合预测模型;
每轮训练迭代过程中,先采用混合预测模型进行以下两部分数据处理:
采用混合预测模型中的栈式降噪自动编码器模型对lncRNA特征矩阵Mlf进行特征编码,得到隐藏层和输出层输出的lncRNA特征编码矩阵,分别记为Xencodes_l和Xout_l;
采用混合预测模型中的栈式降噪自动编码器模型对疾病特征矩阵Mdf进行特征编码,得到隐藏层和输出层输出的疾病特征编码矩阵,分别记为Xencodes_d和Xout_d;
然后根据混合预测模型的输入和输出计算相应的损失函数值;
所述步骤4)中,损失函数为:
Loss=∑i,jβi,j[LD(i,j)-L(i,:)·D(j,:)T2+γ(∑i||L(i,:)||2+∑j||D(j,:)||2)+γl(||L-Xencodes_l||2)+γd(||D-Xencodes_d||2)+γn_l(||Mlf-Xout_l||2)+γn_d(||Mdf-Xout_d||2)+∑kγk||Wk||2+∑kγb||Wb||2
βi,j=1+θ·LD(i,j)
其中,||·||表示求2-范数,βi,j是偏好因子;LD(i,j)为矩阵LD中第i行第j列的元素;L(i,:)为矩阵L的第i行;D(j,:)为矩阵D的第j行;θ、γ、γl、γd、γn_l、γn_d和γk均为自由参数;Wk和bk分别为栈式降噪自动编码器中第k个隐藏层的权值矩阵和阈值向量;
5)利用训练好的混合预测模型对lncRNA特征矩阵Mlf和疾病特征矩阵Mdf进行处理,得到相应的lncRNA特征编码矩阵Xencods_l和疾病特征编码矩阵Xencods_d;
结合Xencods_l与D计算得分矩阵Ml,其第i行第j列的元素Ml(i,j)计算方法为:
Ml(i,j)=Xencods_l(i,:)·D(j,:)T
其中,Xencods_l(i,:)表示Xencods_l的第i行,D(j,:)表示D的第j行;
结合Xencods_d与L计算得分矩阵Md,其第i行第j列的元素Md(i,j)计算方法为:
Md(i,j)=L(i,:)·Xencods_d(j,:)T
其中,L(i,:)表示L的第i行,Xencods_d(j,:)表示Xencods_d的第j行;
求Ml和Md的加权平均值,所得结果即为预测得到的lncRNA-疾病关系得分矩阵LD′,其第i行第j列的元素LD′(i,j)表示预测得到的第i种lncRNA和第j种疾病存在关系的可能性。
2.根据权利要求1所述的基于MF-SDAE的lncRNA-疾病关系预测方法,其特征在于,所述与lncRNA关联的信息包括与lncRNA关联的基因信息、基因功能信息和miRNA信息。
3.根据权利要求1所述的基于MF-SDAE的lncRNA-疾病关系预测方法,其特征在于,所述与疾病关联的信息包括与疾病关联的基因信息和miRNA信息。
4.根据权利要求1所述的基于MF-SDAE的lncRNA-疾病关系预测方法,其特征在于,将lncRNA特性矩阵L与疾病特征矩阵D初始化为服从0~1均匀分布的随机矩阵,即产生[0,1)上均匀分布的随机数,来填充L和D,完成L和D的初始化。
5.根据权利要求1所述的基于MF-SDAE的lncRNA-疾病关系预测方法,其特征在于,所述栈式降噪自动编码器模型包括依次连接的一个输入层、一个损坏层、三个隐藏层和一个输出层;将其第二个隐藏层的输出作为Xencodes_l/Xencodes_d。
6.一种基于MF-SDAE的lncRNA-疾病关系预测系统,其特征在于,包括以下四个模块:
Ⅰ.特征矩阵构建模块,用于构建已知的lncRNA-疾病关系矩阵LD、lncRNA特征矩阵Mlf与疾病特征矩阵Mdf;
构建已知的lncRNA-疾病关系矩阵的过程如下:
构建一个矩阵LD,其每一行对应一种lncRNA,每一列对应一种疾病,若有数据库记录了第i种lncRNA与第j种疾病存在关系,则将LD中第i行第j列的元素LD(i,j)设为1;否则将LD(i,j)设为0;由此得到的矩阵LD即为已知的lncRNA-疾病关系矩阵;
构建lncRNA特征矩阵的过程如下:
构建一个矩阵Mlf,其每一行对应一种lncRNA,每一列对应一种与lncRNA关联的信息,若有数据库记录了第i种lncRNA与第p种与lncRNA关联的信息存在关系,则将Mlf中第i行第p列的元素Mlf(i,p)设为1;否则将Mlf(i,p)设为0;由此得到的矩阵Mlf即为lncRNA特征矩阵;
构建疾病特征矩阵的过程如下:
构建一个矩阵Mdf,其每一行对应一种疾病,每一列对应一种与疾病关联的信息,若有数据库记录了第j种疾病与第q种与疾病关联的信息存在关系,则Mdf中第j行第q列的元素Mdf(j,q)设为1;否则Mdf(j,q)设为0;由此得到的矩阵Mdf即为疾病特征矩阵;
Ⅱ.混合预测模型构建模块,用于构建基于MF-SDAE的混合预测模型;其中,MF为矩阵分解,SDAE为栈式降噪自动编码器;所述混合预测模型包括栈式降噪自动编码器模型和矩阵分解模型;其中,栈式降噪自动编码器模型用于对输入矩阵进行特征编码,提取高层特征;矩阵分解模型用于对输入矩阵进行分解,得到两个输出矩阵;
Ⅲ.模型训练模块,用于对混合预测模型进行训练;方法为:
利用矩阵分解模型对lncRNA-疾病关系矩阵LD进行分解,得到两个输出矩阵,即lncRNA特性矩阵L与疾病特性矩阵D;分解过程如下:
设定迭代次数T;
初始化lncRNA特性矩阵L与疾病特性矩阵D;
进行T次迭代,在每一次迭代过程中,按以下公式更新矩阵L和D:
L(i,:)=LD(i,:)CiD(γ′I+DTCiD)-1
其中,L(i,:)为矩阵L的第i行;D(j,:)为矩阵D的第j行,LD(i,:)为矩阵LD的第i行,Ci为第i种lncRNA对应的对角矩阵,其第j行第j列的元素值Ci(j,j)=βi,j,βi,j是偏好因子,βi,j=1+θ·LD(i,j),θ为自由参数;为第j种疾病对应的对角矩阵,其i行第i列的元素值LD(:,j)为lncRNA-疾病关系矩阵LD中的第j列;I是单位矩阵,γ′为自由参数;
T次迭代后得到的矩阵L和D即矩阵分解模型的输出矩阵;
初始化混合预测模型参数;
定义损失函数;以最小化损失函数值为目标,迭代求解混合预测模型的最优参数,得到训练好的混合预测模型;其中损失函数为:
Loss=∑i,jBi,j[LD(i,j)-L(i,:)·D(j,:)T2+γ(∑i||L(i,:)||2+∑j||D(j,:)||2)+γl(||L-Xencodes_l||2)+γd(||D-Xencodes_d||2)+γn_l(||Mlf-Xout_l||2)+γn_d(||Mdf-Xout_d||2)+∑kγk||Wk||2+∑kγb||Wb||2
βi,j=1+θ·LD(i,j)
其中,||·||表示求2-范数,βi,j是偏好因子;LD(i,j)为矩阵LD中第i行第j列的元素;L(i,:)为矩阵L的第i行;D(j,:)为矩阵D的第j行;θ、γ、γl、γd、γn_l、γn_d和γk均为自由参数;Wk和bk分别为栈式降噪自动编码器中第k个隐藏层的权值矩阵和阈值向量;
每轮训练迭代过程中,先采用混合预测模型进行以下两部分数据处理:
采用混合预测模型中的栈式降噪自动编码器模型对lncRNA特征矩阵Mlf进行特征编码,得到隐藏层和输出层输出的lncRNA特征编码矩阵,分别记为Xencodes_l和Xout_l;
采用混合预测模型中的栈式降噪自动编码器模型对疾病特征矩阵Mdf进行特征编码,得到隐藏层和输出层输出的疾病特征编码矩阵,分别记为Xencodes_d和Xout_d;
然后根据混合预测模型的输入和输出计算相应的损失函数值;
Ⅳ.预测模块,用于预测各种lncRNA与各种疾病存在关系的可能性,方法为:
利用训练好的混合预测模型对lncRNA特征矩阵Mlf和疾病特征矩阵Mdf进行处理,得到相应的lncRNA特征编码矩阵Xencods_l和疾病特征编码矩阵Xencods_d;
结合Xencods_l与D计算得分矩阵Ml,其第i行第j列的元素Ml(i,j)计算方法为:
Ml(i,j)=Xencods_l(i,:)·D(j,:)T
其中,Xencods_l(i,:)表示Xencods_l的第i行,D(j,:)表示D的第j行;
结合Xencods_d与L计算得分矩阵Md,其第i行第j列的元素Md(i,j)计算方法为:
Md(i,j)=L(i,:)·Xencods_d(j,:)T
其中,L(i,:)表示L的第i行,Xencods_d(j,:)表示Xencods_d的第j行;
求Ml和Md的加权平均值,所得结果即为预测得到的lncRNA-疾病关系得分矩阵LD′,其第i行第j列的元素表示预测得到的第i种lncRNA和第j种疾病存在关系的可能性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911146003.5A CN110993113B (zh) | 2019-11-21 | 2019-11-21 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911146003.5A CN110993113B (zh) | 2019-11-21 | 2019-11-21 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110993113A CN110993113A (zh) | 2020-04-10 |
CN110993113B true CN110993113B (zh) | 2023-04-07 |
Family
ID=70085484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911146003.5A Active CN110993113B (zh) | 2019-11-21 | 2019-11-21 | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110993113B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11646117B2 (en) * | 2019-06-04 | 2023-05-09 | International Business Machines Corporation | Matrix factorization of antibiogram metadata |
CN112599202B (zh) * | 2020-12-24 | 2024-04-26 | 南华大学 | 疾病相关miRNA预测系统 |
CN113140255B (zh) * | 2021-04-19 | 2022-05-10 | 湖南大学 | 一种预测植物lncRNA-miRNA相互作用的方法 |
CN113724790B (zh) * | 2021-09-07 | 2023-10-20 | 湖南大学 | 基于卷积去噪自编码机的piRNA-疾病关联关系预测方法 |
CN113793667B (zh) * | 2021-09-16 | 2024-07-09 | 平安科技(深圳)有限公司 | 基于聚类分析的疾病预测方法、装置及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599610A (zh) * | 2016-11-30 | 2017-04-26 | 中南大学 | 预测长链非编码rna和蛋白质联系的方法及系统 |
CN107862179A (zh) * | 2017-11-06 | 2018-03-30 | 中南大学 | 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法 |
CN108537005A (zh) * | 2018-04-03 | 2018-09-14 | 福州大学 | 一种基于BPSO-KNN模型的关键lncRNA预测方法 |
CN108763367A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法 |
CN109797221A (zh) * | 2019-03-13 | 2019-05-24 | 上海市第十人民医院 | 一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用 |
WO2019173446A1 (en) * | 2018-03-06 | 2019-09-12 | Board Of Regents Of The University Of Nebraska | Polyamine prodrugs and polyamine prodrug formulations |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9730643B2 (en) * | 2013-10-17 | 2017-08-15 | Siemens Healthcare Gmbh | Method and system for anatomical object detection using marginal space deep neural networks |
CA3012631A1 (en) * | 2015-06-18 | 2016-12-22 | The Broad Institute Inc. | Novel crispr enzymes and systems |
US11708600B2 (en) * | 2017-10-05 | 2023-07-25 | Decode Health, Inc. | Long non-coding RNA gene expression signatures in disease diagnosis |
-
2019
- 2019-11-21 CN CN201911146003.5A patent/CN110993113B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599610A (zh) * | 2016-11-30 | 2017-04-26 | 中南大学 | 预测长链非编码rna和蛋白质联系的方法及系统 |
CN107862179A (zh) * | 2017-11-06 | 2018-03-30 | 中南大学 | 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法 |
WO2019173446A1 (en) * | 2018-03-06 | 2019-09-12 | Board Of Regents Of The University Of Nebraska | Polyamine prodrugs and polyamine prodrug formulations |
CN108537005A (zh) * | 2018-04-03 | 2018-09-14 | 福州大学 | 一种基于BPSO-KNN模型的关键lncRNA预测方法 |
CN108763367A (zh) * | 2018-05-17 | 2018-11-06 | 南京大学 | 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法 |
CN109797221A (zh) * | 2019-03-13 | 2019-05-24 | 上海市第十人民医院 | 一种用于对肌层浸润性膀胱癌进行分子分型和/或预后预测的生物标记物组合及其应用 |
Non-Patent Citations (2)
Title |
---|
Wei Lan.LDICDL: LncRNA-disease association identification based on Collaborative Deep Learning.《IEEE/ACM transactions on computational biology and bioinformatics》.2020,第第19卷卷(第第19卷期),第1715-1723页. * |
赵琪 ; 梁丹 ; 胡桓 ; 张力 ; 刘宏生 ; .基于随机游走算法预测lncRNAs与疾病关系的研究进展.辽宁大学学报(自然科学版).2018,第43卷(第3期),第273-280页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110993113A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110993113B (zh) | 基于MF-SDAE的lncRNA-疾病关系预测方法及系统 | |
CN110334843B (zh) | 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置 | |
KR102190299B1 (ko) | 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램 | |
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
CN117594243B (zh) | 基于跨模态视图关联发现网络的卵巢癌预后预测方法 | |
CN116092598A (zh) | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 | |
CN113409892A (zh) | 基于图神经网络的miRNA-疾病关联关系预测方法 | |
CN115019891A (zh) | 一种基于半监督图神经网络的个体驱动基因预测方法 | |
Zuanetti et al. | Clustering distributions with the marginalized nested Dirichlet process | |
CN115423008A (zh) | 一种电网设备运行数据的清洗方法、系统及介质 | |
CN115394348A (zh) | 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质 | |
CN109801681B (zh) | 一种基于改进的模糊聚类算法的snp选择方法 | |
CN113345564B (zh) | 一种基于图神经网络的患者住院时长早期预测方法及装置 | |
Leke et al. | Proposition of a theoretical model for missing data imputation using deep learning and evolutionary algorithms | |
KR102336311B1 (ko) | 딥러닝을 이용한 암의 예후 예측 모델 | |
CN117393049A (zh) | 一种基于随机扰动和多视图图卷积网络的circRNA-疾病关联预测模型 | |
Gupta et al. | Bregman bubble clustering: A robust, scalable framework for locating multiple, dense regions in data | |
CN113223622B (zh) | 基于元路径的miRNA-疾病关联预测方法 | |
CN115565610A (zh) | 基于多组学数据的复发转移分析模型建立方法及系统 | |
CN115116549A (zh) | 细胞数据注释方法、装置、设备及介质 | |
KR20220167245A (ko) | 인공지능을 활용한 개체 및 계통 특이적 분류 변이 및 마커 선정 방법 및 시스템 | |
CN111951889B (zh) | 一种rna序列中m5c位点的识别预测方法及系统 | |
CN115295156A (zh) | 一种基于关系图卷积网络融合多源信息预测miRNA-疾病的方法 | |
CN110459266B (zh) | Snp致病因素与疾病关联关系模型建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |