CN113421614A - 一种基于张量分解的lncRNA-疾病关联预测方法 - Google Patents
一种基于张量分解的lncRNA-疾病关联预测方法 Download PDFInfo
- Publication number
- CN113421614A CN113421614A CN202110773598.8A CN202110773598A CN113421614A CN 113421614 A CN113421614 A CN 113421614A CN 202110773598 A CN202110773598 A CN 202110773598A CN 113421614 A CN113421614 A CN 113421614A
- Authority
- CN
- China
- Prior art keywords
- lncrna
- disease
- tensor
- association
- mirna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于张量分解的lncRNA‑疾病相互作用预测方法。其发明内容主要包括:(1)收集已知lncRNA‑疾病相互作用数据,lncRNA、疾病、miRNA之间的成对关联信息,lncRNA语义信息和功能交互数据,疾病相似性数据;(2)进行相似性分析,构建疾病网络和lncRNA网络;(3)将lncRNA、疾病、miRNA之间的成对关联整合成一个三维关联张量;(4)将lncRNA相似性矩阵和疾病相似性矩阵作为辅助信息与关联张量进行张量分解分别得到lncRNA、疾病和miRNA的因子矩阵;(5)利用因子矩阵重构关联张量,进而得到新的预测关联张量。本发明提供了一种基于张量分解预测lncRNA和疾病关联的方法,方法可行且有效,对于研究疾病病因和实现精准医疗具有重要意义。
Description
技术领域
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于张量分解的lncRNA-疾病关联预测方法。
背景技术
lncRNA(long noncoding RNAs)是长度大于200核苷酸的非编码RNA分子。lncRNA在生物体内参与调控细胞分化、细胞增殖、细胞凋亡等细胞的不同生理周期;并且也在细胞内控制着遗传物质的转运过程、转录过程、和转录后调节以及表观遗传调控等。大量研究表明,lncRNA的功能紊乱和人类许多癌症或疾病相关,因此探索lncRNA与各类疾病之间的潜在关联至关重要。然而,生物验证实验的广泛和高失败率使得疾病相关lncRNA筛选仍然具有挑战性。
近年来,随着高通量技术的快速发展,许多算法和工具被提出来预测lncRNA与疾病的潜在关联,主要分为四类:基于生物信息的方法、基于网络的方法、基于机器学习的方法和基于矩阵分解的方法。
基于生物信息的方法利用lncRNA的基因位置、组织特异性等生物上的信息来预测lncRNA-疾病的潜在关联。例如,Chen等人利用已知的基因-疾病关联,基于lncRNA与基因之间的邻居关系预测lncRNA与疾病的关联。Wang等人基于lncRNA和miRNA的序列信息来预测lncRNA-疾病关联,并开发了lncRNA-疾病数据库LncRNADisease。Liu等人通过整合已知的基因-疾病关联、基因表达谱与lncRNA表达谱来预测潜在的人类lncRNA-疾病关联。但是这类方法对于无相关基因记录的疾病相关lncRNA无效。
基于机器学习的方法使用已知的疾病与lncRNA关联来训练学习模型,然后运用学习后的模型来对新的关联进行预测。例如,Hu等提出了一个深度学习框架NNLDA,用以预测潜在的lncRNA-disease关联。NNLDA是第一个使用深度神经网络预测lncRNA-disease关联的算法。基于相似疾病通常与相似的lncRNA存在关联的假设,Chen等人在半监督学习框架中开发了拉普拉斯正则化最小二乘法(LRLSLDA),通过整合已知lncRNA-疾病关联和表达谱来识别lncRNA和疾病的关联。Zhao等人开发了一种基于朴素贝叶斯分类器方法的计算模型,通过整合基因组和转录组数据,识别出与癌症相关的lncRNAs。基于机器学习的方法需要大量的阴性样本来避免训练的不平衡,随机选取未知的lncRNA与疾病之间的相互关系作为负样本数据隐藏了其中真实的lncRNA与疾病的关联关系,极大地影响了预测算法的性能。
目前,已有许多基于矩阵分解的方法用于lncRNA-疾病关联的预测。例如Wang等人提出了一种对称非负矩阵协同分解的方法(S-NMTF)来实现多类型关联数据源的聚类。Zitnik等人提出了数据整合框架(DFMF),使用三因子协同矩阵分解技术进行多种异质数据源的整合,经过分解优化得到每种生物分子的低秩表示,进而得到lncRNA-疾病关联的重构。但是DFMF在标签空间较大时,计算语义相似度的时间损耗较大。Lu等人使用归纳矩阵补全来推断与提取的特征向量的关联。这些方法大多不能整合多种类型的关联信息来提高性能。现有的研究尽管在一些应用中取得了有效的性能,但是由于数据稀疏并存在大量的未知关联,使得lncRNA-疾病的关联预测仍然充满挑战。
有鉴于此,本发明提出了一种基于张量分解的lncRNA-疾病关联预测方法,以识别潜在的lncRNA-疾病相互作用。
发明内容
本发明提出了一种基于张量分解的lncRNA-疾病关联预测方法,用以识别潜在的lncRNA-疾病相互作用,主要包括以下步骤:
(1)收集已知lncRNA-疾病相互作用数据,lncRNA、疾病、miRNA之间的成对关联信息,lncRNA语义信息和功能交互数据,疾病相似性数据;
(2)进行相似性分析,构建疾病网络和lncRNA网络;
(3)将lncRNA、疾病、miRNA之间的成对关联整合成一个三维关联张量;
(4)将lncRNA相似性矩阵和疾病相似性矩阵作为辅助信息与关联张量进行张量分解分别得到lncRNA、疾病和miRNA的因子矩阵;
(5)利用因子矩阵重构关联张量,进而得到新的预测关联张量。
1.数据收集阶段
我们使用Madhavan M数据集评测我们的算法。在他们的数据集中,从LncRNADisease数据库和lnc2cancer数据库中下载LncRNA-disease关联。分别在miRNet和Starbase数据库收集了miRNA-lncRNA相互作用和miRNA-disease相互作用。然后,他们利用先前研究中的数据集得到lncRNA-Disease相关性、lncRNA-mirna相互作用、lncRNA功能相似度和疾病语义相似度。该数据集包含240种lncRNA、412种疾病和2697个已知lncRNA-疾病相互作用对。我们重新对lncRNA相似度进行了计算。
2.构建疾病网络和lncRNA网络
通过下载的疾病相关数据,构建疾病相似度矩阵。对疾病对(di,dj)的疾病相似函数定义如下:
然后,为了构建lncRNA网络,我们利用相关疾病对单个lncRNA的贡献来衡量lncRNA功能相似性。
在这里,我们定义lncRNA li和lncRNA lj的功能相似性为:
其中D(li)是与至少有一个miRNA相关的lncRNA li相关的疾病集,D(lj)是与至少有一个miRNA相关的lncRNA lj相关的疾病集。|D(li)|和|D(lj)|分别为D(li)和D(lj)中的元素个数。表示疾病D与D(lj)中各疾病相关性的最大值。
3.构建三维关联张量
为了模拟lncRNA、疾病、miRNA的三重关联,我们使用三阶张量χ,χijk表示lncRNAi、疾病j、miRNA k的三重关联。当χijk=1时,表示lncRNA i、疾病j和miRNA k之间存在三重关联;否则,三重关联不存在或仍然未被观察到。
我们收集lncRNA、疾病和miRNA之间的成对关联,通过整合这些关联构建三维关联张量。我们定义,当且仅当三个条件都满足时,χijk=1:(1)lncRNA i与疾病j相互作用,(2)疾病j与miRNA k相互作用,(3)lncRNA i与miRNA k相互作用,否则,χijk=0。由此推断出的三维关联共15299条。
4.张量分解
我们通常假设表示数据的张量是低秩的,但低秩张量的定义并不是唯一的。我们使用最常用的张量分解方法——CP分解,他是矩阵秩的自然扩展。χ的CP分解模型定义为如下优化问题:
其中,‖ ‖2为张量的F范数。χ表示lncrna、疾病和mirna的三维张量。[[U,V,W]]表示重建张量。其中U∈Rl×r,V∈Rd×r,和W∈Rm×r是lncrna、疾病、mirna的因子矩阵,作为其张量中相应模式的潜在表示。r为重构张量[[U,V,W]]的秩,一般设为r<<min(l,d,m)。
5.关联张量重构
CP模型仅利用关联信息,张量χ是非常稀疏的,因此我们将lncRNA相似性和疾病相似性作为辅助信息来健壮模型。我们将lncRNA-疾病-miRNA三重关联预测问题建模为带有辅助信息的张量分解:
对于优化问题,我们采用交替最小二乘(ALS)方法求解,即通过固定另外两个参数来更新其中一个参数。这里我们只写出U的更新步骤,其他参数可参考因子矩阵U。
我们通过求解以下目标函数来更新因子矩阵U:
我们利用交替方向乘子法(ADMM)求解eq.(7).首先,我们定义了eq.(7)的增广拉格朗日函数。
式中ρ1>0为惩罚因子,Y1为拉格朗日乘数。
第二,求J1和U的一阶导数,使其为0,结果如下:
J1=(αSlULl+ρ1U+Y1)(α(ULl)T(ULl)+ρ1I)-1 (9)
其中I为r×r的单位矩阵。
第三,我们更新拉格朗日乘数和惩罚因子如下:
Y1=Y1+ρ1(U-J1) (11)
ρ1=μρ1 (12)
其中μ>1是给定的参数。
具体实施方式
本发明是一种基于张量分解的lncRNA-疾病关联预测方法。下面描述本发明的具体实施方式。本领域技术人员应该理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的取证范围。
步骤1:我们使用Madhavan M数据集评测我们的算法。在他们的数据集中,从LncRNADisease数据库和lnc2cancer数据库中下载LncRNA-disease关联。分别在miRNet和Starbase数据库收集了miRNA-lncRNA相互作用和miRNA-disease相互作用。然后,他们利用先前研究中的数据集得到lncRNA-Disease相关性、lncRNA-mirna相互作用、lncRNA功能相似度和疾病语义相似度。该数据集包含240种lncRNA、412种疾病和2697个已知lncRNA-疾病相互作用对。我们重新对lncRNA相似度进行了计算。
步骤2:根据上述提取出的疾病相似性利用公式(3)计算出lncRNA相似性。从而构建疾病网络和lncRNA网络。
步骤3:我们收集lncRNA、疾病和miRNA之间的成对关联,通过整合这些关联构建三维关联张量。我们定义,当且仅当三个条件都满足时,χijk=1:(1)lncRNA i与疾病j相互作用,(2)疾病j与miRNA k相互作用,(3)lncRNA i与miRNA k相互作用,否则,χijk=0。
步骤4:利用CP分解将构建好的lncRNA-疾病-miRNA三维关联张量进行分解,最后分别得到lncRNA、疾病和miRNA的三个因子矩阵。
步骤5:利用步骤4中得到的lncRNA、疾病和miRNA的三个因子矩阵,我们采用交替最小二乘(ALS)方法进行优化并重构张量,进而得到新的预测关联张量。
本领域技术人员可以理解,本发明的保护范围不局限于所述的具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征进行等同的更改或替换,需要注意的是,更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (7)
1.一种基于张量分解的lncRNA-疾病关联预测方法,其特征在于实施步骤为:
(1)收集已知lncRNA-疾病相互作用数据,lncRNA、疾病、miRNA之间的成对关联信息,lncRNA语义信息和功能交互数据,疾病相似性数据;
(2)进行相似性分析,构建疾病网络和lncRNA网络;
(3)将lncRNA、疾病、miRNA之间的成对关联整合成一个三维关联张量;
(4)将lncRNA相似性矩阵和疾病相似性矩阵作为辅助信息与关联张量进行张量分解分别得到lncRNA、疾病和miRNA的因子矩阵;
(5)利用因子矩阵重构关联张量,进而得到新的预测关联张量;
(6)将新的预测关联张量与原张量进行对比,使用交替更新的方法来进行优化,得到最后的预测关联张量。
2.根据权利要求1所述的一种基于张量分解的lncRNA-疾病关联预测方法,其特征在于数据收集阶段:
(1)从LncRNADisease数据库和lnc2cancer数据库中下载LncRNA-disease关联;
(2)分别在miRNet和Starbase数据库收集了miRNA-lncRNA相互作用和miRNA-disease相互作用;
(3)利用先前研究中的数据集得到lncRNA-Disease相关性、lncRNA-mirna相互作用、lncRNA功能相似度和疾病语义相似度。
3.根据权利要求1所述的一种基于张量分解的lncRNA-疾病关联预测方法,其特征在于构建疾病网络和lncRNA网络阶段:
(1)通过下载的疾病相关数据,构建疾病相似度矩阵;
(2)利用相关疾病对单个lncRNA的贡献来衡量lncRNA功能相似性。
4.根据权利要求1所述的一种基于张量分解的lncRNA-疾病关联预测方法,其特征在于构建三维关联张量阶段:
(1)使用三阶张量χ,χijk表示lncRNA i、疾病j、miRNA k的三重关联;
(2)收集lncRNA、疾病和miRNA之间的成对关联,通过整合这些关联构建三维关联张量。
5.根据权利要求1所述的一种基于张量分解的lncRNA-疾病关联预测方法,其特征在于张量分解阶段,对所获得的lncRNA-疾病-miRNA三维关联张量进行CP分解,从而得到lncRNA、疾病和miRNA的三个因子矩阵。
6.根据权利要求1所述的一种基于张量分解的lncRNA-疾病关联预测方法,其特征在于关联张量重构阶段,对所获得的lncRNA-疾病-miRNA三维关联张量建模为带有辅助信息的张量分解,利用因子矩阵重构关联张量,进而得到新的预测关联张量。
7.根据权利要求1所述的一种基于张量分解的lncRNA-疾病关联预测方法,其特征在于关联张量重构优化阶段:
(1)采用交替最小二乘(ALS)方法进行优化,即通过固定另外两个参数来更新其中一个参数;
(2)应用共轭梯度(CG)算法避免了ADMM内部迭代求逆矩阵,降低了时间复杂度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110773598.8A CN113421614A (zh) | 2021-07-08 | 2021-07-08 | 一种基于张量分解的lncRNA-疾病关联预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110773598.8A CN113421614A (zh) | 2021-07-08 | 2021-07-08 | 一种基于张量分解的lncRNA-疾病关联预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113421614A true CN113421614A (zh) | 2021-09-21 |
Family
ID=77720561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110773598.8A Pending CN113421614A (zh) | 2021-07-08 | 2021-07-08 | 一种基于张量分解的lncRNA-疾病关联预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113421614A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4177773A1 (en) * | 2021-11-04 | 2023-05-10 | Fujitsu Limited | Machine learning program, machine learning method, and machine learning apparatus |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782945A (zh) * | 2019-10-22 | 2020-02-11 | 长沙学院 | 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 |
CN111557663A (zh) * | 2020-05-18 | 2020-08-21 | 厦门大学 | 一种基于交叉模态的人脑磁化率张量成像方法 |
CN112289373A (zh) * | 2020-10-27 | 2021-01-29 | 齐齐哈尔大学 | 一种融合相似性的lncRNA-miRNA-疾病关联方法 |
CN112599202A (zh) * | 2020-12-24 | 2021-04-02 | 南华大学 | 疾病相关miRNA预测系统 |
CN112951321A (zh) * | 2021-03-01 | 2021-06-11 | 湖南大学 | 一种基于张量分解的miRNA-疾病关联预测方法及系统 |
-
2021
- 2021-07-08 CN CN202110773598.8A patent/CN113421614A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782945A (zh) * | 2019-10-22 | 2020-02-11 | 长沙学院 | 一种利用间接与直接特征信息识别lncRNA与疾病关联的方法 |
CN111557663A (zh) * | 2020-05-18 | 2020-08-21 | 厦门大学 | 一种基于交叉模态的人脑磁化率张量成像方法 |
CN112289373A (zh) * | 2020-10-27 | 2021-01-29 | 齐齐哈尔大学 | 一种融合相似性的lncRNA-miRNA-疾病关联方法 |
CN112599202A (zh) * | 2020-12-24 | 2021-04-02 | 南华大学 | 疾病相关miRNA预测系统 |
CN112951321A (zh) * | 2021-03-01 | 2021-06-11 | 湖南大学 | 一种基于张量分解的miRNA-疾病关联预测方法及系统 |
Non-Patent Citations (3)
Title |
---|
FENG HUANG ET AL.: "Tensor decomposition with relational constraints for predicting multiple types of microRNA-disease Associations", 《ARXIV》 * |
JINGPU ZHANG ET AL.: "Integrating multiple heterogeneous networks for novel LncRNA-disease association inference", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 * |
ZHANWEI XUAN ET AL.: "A Novel Method for Predicting Disease-Associated LncRNA-MiRNA Pairs Based on the Higher-Order Orthogonal Iteration", 《HINDAWI》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4177773A1 (en) * | 2021-11-04 | 2023-05-10 | Fujitsu Limited | Machine learning program, machine learning method, and machine learning apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243538B (zh) | 一种预测疾病与LncRNA关联关系的方法及系统 | |
Wang et al. | LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization | |
Maraziotis | A semi-supervised fuzzy clustering algorithm applied to gene expression data | |
Ding et al. | Predicting miRNA-disease associations based on multi-view variational graph auto-encoder with matrix factorization | |
Nguyen et al. | A novel aggregate gene selection method for microarray data classification | |
Si et al. | Learning deep features for DNA methylation data analysis | |
Wu et al. | Network-based structural learning nonnegative matrix factorization algorithm for clustering of scRNA-seq data | |
CN116741397B (zh) | 基于多组学数据融合的癌症分型方法、系统及存储介质 | |
Hristoskova et al. | A formal concept analysis approach to consensus clustering of multi-experiment expression data | |
CN111863123B (zh) | 一种基因合成致死关联预测方法 | |
CN111951886A (zh) | 一种基于贝叶斯归纳型矩阵补全的药物重定位预测方法 | |
CN112951321B (zh) | 一种基于张量分解的miRNA-疾病关联预测方法及系统 | |
Li et al. | Hierarchical transformer for survival prediction using multimodality whole slide images and genomics | |
CN113421614A (zh) | 一种基于张量分解的lncRNA-疾病关联预测方法 | |
Liu et al. | View-aware collaborative learning for survival prediction and subgroup identification | |
Wang et al. | An efficient gene bigdata analysis using machine learning algorithms | |
Wang et al. | Mshganmda: Meta-subgraphs heterogeneous graph attention network for mirna-disease association prediction | |
Gao et al. | A new method based on matrix completion and non-negative matrix factorization for predicting disease-associated miRNAs | |
CN112951320B (zh) | 一种基于集成学习的生物医学网络关联预测方法 | |
Sathish et al. | An effective identification of species from DNA sequence: a classification technique by integrating DM and ANN | |
CN113192562B (zh) | 融合多尺度模块结构信息的致病基因识别方法及系统 | |
Iqbal et al. | A distance-based feature-encoding technique for protein sequence classification in bioinformatics | |
Misra et al. | Finding optimum width of discretization for gene expressions using functional annotations | |
Babichev et al. | Technique of gene expression profiles selection based on SOTA clustering algorithm using statistical criteria and Shannon entropy | |
CN112768001A (zh) | 一种基于流形学习和主曲线的单细胞轨迹推断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210921 |