CN112951321B - 一种基于张量分解的miRNA-疾病关联预测方法及系统 - Google Patents
一种基于张量分解的miRNA-疾病关联预测方法及系统 Download PDFInfo
- Publication number
- CN112951321B CN112951321B CN202110224119.7A CN202110224119A CN112951321B CN 112951321 B CN112951321 B CN 112951321B CN 202110224119 A CN202110224119 A CN 202110224119A CN 112951321 B CN112951321 B CN 112951321B
- Authority
- CN
- China
- Prior art keywords
- mirna
- matrix
- disease
- gene
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 320
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 320
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 285
- 108091070501 miRNA Proteins 0.000 claims abstract description 89
- 239000002679 microRNA Substances 0.000 claims abstract description 78
- 230000008569 process Effects 0.000 claims abstract description 10
- 108090000623 proteins and genes Proteins 0.000 claims description 85
- 238000012545 processing Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 12
- 238000002939 conjugate gradient method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000007321 biological mechanism Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 49
- 239000013256 coordination polymer Substances 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 108091030146 MiRBase Proteins 0.000 description 3
- 230000004064 dysfunction Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 102100033615 Nucleoprotein TPR Human genes 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000036581 peripheral resistance Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010001197 Adenocarcinoma of the cervix Diseases 0.000 description 1
- 208000034246 Adenocarcinoma of the cervix uteri Diseases 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 102100028065 Fibulin-5 Human genes 0.000 description 1
- 101001060252 Homo sapiens Fibulin-5 Proteins 0.000 description 1
- 108091033317 MiRTarBase Proteins 0.000 description 1
- 108091061943 Mir-218 microRNA precursor family Proteins 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 201000006662 cervical adenocarcinoma Diseases 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 108091040176 miR-218 stem-loop Proteins 0.000 description 1
- 108091079021 miR-27a stem-loop Proteins 0.000 description 1
- 108091043371 miR-27a-1 stem-loop Proteins 0.000 description 1
- 108091046123 miR-27a-2 stem-loop Proteins 0.000 description 1
- 108091062872 miR-892b stem-loop Proteins 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computational Mathematics (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Algebra (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于张量分解的miRNA‑疾病关联预测方法及系统,该方法用张量表示miRNA‑疾病、miRNA‑基因和基因‑疾病之间的复杂关系,在张量分解过程中,结合辅助信息探索复杂的生物机制,再整合交替方向乘子法(ADMM)框架和共轭梯度(GC)法的优化策略求解目标函数,得到miRNA‑基因‑疾病关联评分张量,将关联评分张量转换为miRNA‑疾病关联评分矩阵,通过miRNA‑疾病关联评分矩阵评估方法性能,为疾病关联miRNA的获取提供有效结果;通过实验表明本发明所述方法具有良好的预测性能,可以为疾病关联miRNA的获取提供有效结果。
Description
技术领域
本发明属于miRNA和疾病关联预测的生物信息学领域,涉及一种基于张量分解的miRNA-疾病关联预测方法及系统。
背景技术
miRNA是一类非编码RNA在动物体内通过靶向mRNA发挥重要的调控作用。在动物体内,miRNA参与细胞增殖、细胞分化、细胞凋亡等多个生命进程。有研究表明,miRNA的功能失调与疾病有重要联系,例如,在人类乳腺癌标本中,miR-892b的表达会产生明显变化,其表达情况与患者的生存期有密切联系。miR-218的缺失对机体的肌肉有重要影响。因此,研究疾病相关的miRNA对识别疾病的生物标志物有重要意义。进一步地研究显示,miRNA的功能失调会导致其调控的靶基因出现功能失调,进而影响疾病的产生与发展过程。例如,miR-27a-3p及其向调控的FBLN5会影响卵巢癌细胞发生和发展,miR-27a靶向TGF-βRI可影响宫颈腺癌发展。因此在研究过程中整合更多类型的信息,如miRNA调控的基因,对识别与疾病相关的miRNA和更加细致和深入地了解疾病的发病机制和分子积极的影响。
高通量测序技术的发展和应用使大量的生物数据被发现和积累,通过研究者们的收集和处理,不同类型的生物数据被整合进入不同的数据库,这为使用计算方法挖掘生物数据,探索生物数据间的关联提供了坚实的基础。目前,已有多个数据库提供大量数据用于miRNA-疾病关联数据研究,如HMDD、miRBase、miRTarBase等。在现有的miRNA-疾病关联预测方法中,与miRNA相关的基因信息和与疾病相关的基因信息作为影响miRNA和疾病关联研究的重要信息,常与miRNA之间的相似性信息和疾病之间的相似性信息一起,作为补充信息,被整合到用于miRNA-疾病关联预测的研究方法中。如何整合复杂的生物信息使其以更合理且有效的方式用于miRNA-疾病关联预测研究,也一直在miRNA-疾病关联预测研究中被积极探索。
张量作为一个高维数组,具有表示多类型数据间复杂关联的能力。一个n(>=3)阶张量,可以表示为一个n维数组,其每一维,可以表示一类数据。因此,可以用一个3阶张量,即miRNA-基因-疾病关联张量,表示miRNA、基因和疾病这三类的数据。在miRNA-基因-疾病关联张量中,一个元素可以表示一个miRNA、一个基因和一个疾病之间的关联,这将miRNA、基因、疾病之间的复杂关联整合为一个整体。在该张量中,存在大量的未知关联,可以通过张量分解技术,利用张量中已知的关联去对未知的关联进行预测。在实际应用中,miRNA-基因-疾病关联张量中的已知关联数量远远少于未知关联数据,即张量的稀疏度很高,为了缓解张量的高稀疏度问题,可以通过将如生物相似性信息等的辅助信息整合进张量分解的方法中,提高基于张量分解方法的性能。目前,缺乏高效的基于张量分解的方法识别miRNA-疾病的潜在关联。
因此,有必要设计一种基于张量分解的方法,整合多类型数据间的复杂关联,用于有效的预测miRNA-疾病间的关联。
发明内容
本发明目的在于提供一种有效的基于张量分解的miRNA-疾病关联预测方法及系统,该方法可以通过集成多类型的数据和这些数据间多复杂的关联,探索复杂的生物机制,为疾病关联miRNA的获取提供有效结果。
一方面,一种基于张量分解的miRNA-疾病关联预测方法,包括以下步骤:
步骤1:基于已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据,构建miRNA-基因-疾病关联张量;
从HMDD数据库下载miRNA-疾病关联数据,从miRNATarBase数据库下载miRNA-基因关联数据,从DisGeNet下载基因-疾病关联数据。
步骤2:基于miRNA-基因-疾病关联张量,计算miRNA、基因、疾病之间的生物相似性信息和邻接信息,构建相似性矩阵和邻接矩阵;
步骤3:构造基于张量分解的目标函数;
基于张量分解方式,分解miRNA-基因-疾病关联张量,保留miRNA-基因-疾病关联张量中已知关联信息,并对未知关联信息进行评分,采用三个因子矩阵重构miRNA-基因-疾病关联张量,并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项,获得基于张量分解的目标函数;
其中,利用相似性矩阵,对三个因子矩阵进行图正则化处理;同时,利用邻接矩阵,对三个因子矩阵均进行投影处理,投影函数为f(X,Y)=XBYT,B是投影矩阵,X和Y表示两类节点的因子矩阵,YT表示Y的转置;
步骤4:对目标函数进行求解,获得各因子矩阵,并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量,将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵,获得miRNA-疾病关联预测值;其中,miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量χ初始值中关联未知的元素位置。
进一步地,所述目标函数表达式如下:
其中,χ表示构建的miRNA-基因-疾病关联张量,M、T、D分别表示分解得到的用于重构张量的miRNA、基因、疾病的因子矩阵,I表示miRNA的数量、J表示基因的数量、K表示疾病的数量,R表示张量χ的秩,R<<min(I,J,K);表示重构的miRNA-基因-疾病关联张量;Lm、Lt、Ld分别表示miRNA、基因、疾病的相似性矩阵的图拉普拉斯矩阵,tr(·)是矩阵的迹;Amt表示miRNA-基因邻接矩阵,Amd表示miRNA-疾病邻接矩阵,Atd表示基因-疾病邻接矩阵;B1、B2、B3分别为用作miRNA因子矩阵M与基因因子矩阵T,miRNA因子矩阵M与疾病因子矩阵D,基因因子矩阵T与疾病因子矩阵D之间的投影矩阵,α控制相似性信息的影响,β控制邻接信息的影响,α和β的取值范围均为[0.125,2];λ是Tikhonov正则化项的正则化系数,取值范围为[0.001,10];表示Frobenius范数,*表示哈达玛积,Ω是一个miRNA-基因-疾病关联结构已知的索引张量,大小与χ相同,Ω中元素的值仅为0或1,用于记录χ初始值中关联已知的元素的位置,当χ中元素χijk关联已知时,Ωijk=1,当χijk关联未知时,Ωijk=0;为观察张量,表示χ中关联已知的部分,的数据与χ的初始值相同。
进一步地,采用交替方向乘子法和共轭梯度法分别求解目标函数中的因子矩阵和投影矩阵。
进一步地,利用交替方向乘子法迭代更新求解因子矩阵;
对于每个因子矩阵,从目标函数中提取包含该因子矩阵的项,构成因子矩阵的目标函数,然后利用交替方向乘子法求解因子矩阵目标函数,得到因子矩阵的更新方式,利用具体计算公式将因子矩阵的更新方式表示如下:
M=(χ(1)E1+βAmtTB1 T+βAmdDB2 T+ηO+Y1)(E1 TE1+βB1TTTB1 T+βB2DTDB2 T+λI+ηI)-1
T=(χ(2)E2+βAmt TMB1+βAtdDB3 T+ηP+Y2)(E2 TE2+βB1 TMTMB1+βB3DTDB3 T+λI+ηI)-1
D=(χ(3)E3+βAmd TMB2+βAtd TTB3+ηQ+Y3)(E3 TE3+βB2 TMTMB2+βB3 TTTTB3+λI+ηI)-1
其中,χ(1)、χ(2)、χ(3)分别表示χ沿miRNA、基因、疾病维度展开的矩阵,⊙是Khatri-Rao乘积,O、P、Q是辅助变量,Y1、Y2、Y3表示是拉格朗日乘子,η是惩罚参数,E1=D⊙T,E2=D⊙M,E3=T⊙M,是单位矩阵。
进一步地,利用共轭梯度法迭代更新投影矩阵B1,B2,B3;
用矩阵统一表示投影矩阵B1,B2和B3,则投影矩阵B1,B2和B3的目标函数统一用一个关于矩阵B目标函数表示:
其中,W表示邻接矩阵,U和V分别表示与W相关的因子矩阵;
如,W表示miRNA-基因邻接矩阵,U表示miRNA因子矩阵,V表示基因因子矩阵;
利用共轭梯度法对矩阵B进行更新,在更新过程中,第n次迭代的内容如下:
B(n+1)=B(n)+ξ(n)C(n)
G(n+1)=G(n)-ξ(n)(ωUTUC(n)VTV+υC(n))
其中,G和C为中间变量,初始化B(0)=0,G(0)=ωUTWV-ωUTUB(0)VTV-υB(0),C(0)=G(0),上标(0)表示第0次迭代;
当W表示miRNA-基因邻接矩阵Amt时,U表示miRNA因子矩阵M,V表示基因因子矩阵T,更新后的B表示更新后的投影矩阵B1;
当W表示miRNA-疾病邻接矩阵Amd时,U表示miRNA因子矩阵M,V表示疾病因子矩阵D,更新后的B表示更新后的投影矩阵B2;
当W表示基因-疾病邻接矩阵Atd时,U表示基因因子矩阵T,V表示疾病因子矩阵D,更新后的B表示更新后的投影矩阵B3。
进一步地,所述miRNA-基因-疾病关联评分张量采用以下公式计算获得:
其中,表示miRNA-基因-疾病关联评分张量中的元素,表示重构的miRNA-基因-疾病关联张量中的元素,Mi,r、Tj,r、Dk,r分别表示M中第(i,r)个值,T中第(j,r)个值,D中第(k,r)个值;Ω-表示miRNA-基因-疾病关联结构未知的索引张量,当Ωijk=1,Ω- ijk=0,当Ωijk=0,Ω- ijk=1;当χ初始值中元素χijk关联已知时Ω- ijk=0,当χijk关联未知时,Ω- ijk=1。
进一步地,将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵的具体过程如下:
针对miRNAi-疾病k对,从关联评分张量中获得一个数组表示该miRNAi-疾病k对关于全部基因的评分,计算该数组的平均值作为该miRNAi-疾病k对的预测评分;从而获得关联评分张量中全部的miRNA-疾病对的预测评分,按照矩阵形式存储,得到miRNA-疾病关联评分矩阵。
进一步地,所述miRNA-基因-疾病关联张量是指:如果miRNA i与疾病k有关联,miRNA i与基因j有关联,基因j与疾病k有关联,将张量中的元素χijk设置为1,表示张量中的元素χijk关联已知,否则将元素χijk设置为0,得到规模为I×J×K的张量,I表示miRNA的数量、J表示基因的数量、K表示疾病的数量。
进一步地,所述相似性矩阵包括miRNA相似性矩阵、基因相似性矩阵,疾病相似性矩阵;
所述邻接矩阵包括miRNA-疾病邻接矩阵、miRNA-基因邻接矩阵和疾病-基因邻接矩阵;
通过min-max正则化,将相似性矩阵中,相似性值超出[0,1]范围的约束在[0,1]的范围内。
从miRBase下载miRNA的序列信息,计算得到miRNA之间的序列相似性评分矩阵、从HumanNet数据库获取基因之间相似性评分矩阵,从人类症状-疾病网络中获取疾病相似性评分矩阵。
通过min-max正则化,将分数超出[0,1]范围的相似性评分约束在[0,1]的范围内:
从人类症状-疾病网络中获取疾病相似性评分的分数范围在[0,1]之间,故不需要进行min-max正则化。
通过min-max正则化,将miRNA相似性评分表示为MSscore(mi,mj),基因相似性评分表示为TFscore(ti,tj),将MSscore(mi,mj)和TFscore(ti,tj)约束在[0,1]的范围内:
其中Smmax和Smmin表示miRNA相似性评分的最大值和最小值,Stmax和Stmin表示基因相似性评分的最大值和最小值。用表示miRNA相似性矩阵,用基因相似性矩阵,用疾病相似性矩阵。
另一方面,一种基于张量分解的miRNA-疾病关联预测系统,包括:
miRNA-基因-疾病关联张量构建模块,通过采用已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据,提取关联信息,构建miRNA-基因-疾病关联张量;
辅助矩阵构建模块,通过利用构建的miRNA-基因-疾病关联张量,计算miRNA、基因、疾病之间的生物相似性信息和邻接信息,构建相似性矩阵和邻接矩阵;
目标函数构建模块:通过采用张量分解单元,对miRNA-基因-疾病关联张量进行张量分解,保留miRNA-基因-疾病关联张量中已知关联的信息,并未知对关联的信息进行评分,采用三个因子矩阵重构miRNA-基因-疾病关联张量,并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项,获得基于张量分解的目标函数;
其中,利用相似性矩阵,对三个因子矩阵进行图正则化处理;同时,利用邻接矩阵,对三个因子矩阵均进行投影处理,投影函数为f(X,Y)=XBYT,B是投影矩阵,X和Y表示两类节点的因子矩阵,YT表示Y的转置;
目标函数求解模块:通过对目标函数进行求解,获得各因子矩阵,并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量,将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵,获得miRNA-疾病关联预测值;
miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量χ初始值中关联未知的元素的位置。
有益效果
本研究提供了一种基于张量分解的miRNA-疾病关联预测方法及系统,该方法用张量表示miRNA-疾病、miRNA-基因和基因-疾病之间的复杂关系,在张量分解过程中,结合辅助信息(生物相似性信息和邻接信息)探索复杂的生物机制,再整合交替方向乘子法和共轭梯度法的优化策略求解目标函数,得到miRNA-基因-疾病关联评分张量,将关联评分张量转换为miRNA-疾病关联评分矩阵,通过miRNA-疾病关联评分矩阵评估方法性能,为疾病关联miRNA的获取提供有效结果;将使用本发明实例所述方法计算得到的AUC值与使用其他方法计算得到的AUC值进行对比,实验结果表明本发明实例所述方法具有良好的预测性能,可以为疾病关联miRNA的获取提供有效结果。
附图说明
图1是本发明实例所述方法(TDMDA)的流程示意图;
图2是本发明实例所述方法与其它方法的ROC曲线展示图。
具体实施方式
下面将结合实例和附图对本发明方案做进一步的说明。
如图1所示,一种基于张量分解的miRNA-疾病关联预测方法,包括以下步骤:
步骤1:基于已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据,构建miRNA-基因-疾病关联张量;
从HMDD数据库下载miRNA-疾病关联数据,从miRNATarBase数据库下载miRNA-基因关联数据,从DisGeNet下载基因-疾病关联数据。
步骤1具体包括以下步骤:
步骤11:构建miRNA-基因-疾病关联张量:
合并已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据用于构建关联数据集<miRNA,基因,疾病>。通过一个3阶张量χ建模关联,其三个维度分别表示miRNA、基因、疾病。
所述miRNA-基因-疾病关联张量是指:如果miRNAi与疾病k有关联,miRNAi与基因j有关联,基因j与疾病k有关联,将张量中的元素χijk设置为1,表示张量中的元素χijk关联已知,否则将元素χijk设置为0,得到规模为I×J×K的张量,I表示miRNA的数量、J表示基因的数量、K表示疾病的数量。
在构建的miRNA-基因-疾病关联张量χ中,元素χijk关联已知,即χijk=1表示miRNAi,基因j和疾病k作为一个整体,该整体的关联是存在的,是已知的,而元素χijk关联未知,即χijk=0表示miRNAi,基因j和疾病k作为一个整体,该整体的关联是未知的,需要进行预测评估。
步骤2:基于miRNA-基因-疾病关联张量,计算miRNA、基因、疾病之间的生物相似性信息和邻接信息,构建相似性矩阵和邻接矩阵:
步骤2具体包括以下步骤:
步骤21:根据由步骤1得到的miRNA-基因-疾病关联张量中的miRNA,基因和疾病,构建miRNA相似性评分矩阵、基因相似性评分矩阵,疾病相似性评分矩阵;
从miRBase下载miRNA的序列信息,计算得到miRNA之间的序列相似性评分矩阵、从HumanNet数据库获取基因之间相似性评分矩阵,从人类症状-疾病网络中获取疾病相似性评分矩阵。
步骤22:通过min-max正则化,将分数超出[0,1]范围的相似性评分约束在[0,1]的范围内:
从人类症状-疾病网络中获取疾病相似性评分的分数范围在[0,1]之间,故不需要进行min-max正则化。
通过min-max正则化,将miRNA相似性评分表示为MSscore(mi,mj),基因相似性评分表示为TFscore(ti,tj),将MSscore(mi,mj)和TFscore(ti,tj)约束在[0,1]的范围内:
其中,Smmax和Smmin表示miRNA相似性评分的最大值和最小值,Stmax和Stmin表示基因相似性评分的最大值和最小值。用表示miRNA相似性矩阵,用基因相似性矩阵,用疾病相似性矩阵。
步骤23:构建miRNA-疾病邻接矩阵、miRNA-基因邻接矩阵和疾病-基因邻接矩阵:
在张量构建的过程中,如果miRNAi与疾病k有关联,miRNAi与基因j有关联,基因j与疾病k有关联,将张量中的元素χijk设置为1,表示张量中的元素χijk关联已知,否则将元素χijk设置为0。这表示如果χijk=1,那么在原始数据中,miRNAi,基因j和疾病k,三者之间存在三个已知的关联,即,在原始数据中存在miRNAi与基因j的关联,miRNA i与疾病k的关联和基因j与疾病k的关联。
因此,在构建张量的过程中,会存在miRNAm,基因t和疾病d,在原始数据中,因为三者之间只有一个或两个已知的关联,无法满足“三者之间存在三个已知的关联”的条件而被移除,但这些被移出的关联是有价值的关联,因此将上述所有已知的关联(移除的和未移除的)作为邻接信息。用表示miRNA-基因邻接矩阵,表示miRNA-疾病邻接矩阵,表示基因-疾病邻接矩阵。
步骤3:构造基于CP分解的目标函数;
基于CP分解方法对miRNA-基因-疾病关联张量进行分解,保留miRNA-基因-疾病关联张量中已知关联的信息,并对未知关联的信息进行评分,采用三个因子矩阵重构miRNA-基因-疾病关联张量,并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项,获得基于CP分解的目标函数;
其中,利用相似性矩阵,对三个因子矩阵进行图正则化处理;同时,利用邻接矩阵,对三个因子矩阵均进行投影处理,投影函数为f(X,Y)=XBYT,B是投影矩阵,X和Y表示两类节点的因子矩阵,YT表示Y的转置;
步骤3具体包括以下步骤:
步骤31:构建基于CP分解(一种张量分解方法)的目标函数,CP分解是张量分解方法中被应用最广泛的方法之一。它旨在于从原始张量中学习低秩因子矩阵,并用这些因子矩阵重构一个张量。在尽可能保留原始张量已知的关联结构的同时,对原始张量中的未知关联进行评分:
在本实施例中,在用于研究miRNA-基因-疾病关联张量的CP分解中,使用三个因子矩阵重构一个张量,其数据规模与miRNA-基因-疾病关联张量相等,最小化重构张量与miRNA-基因-疾病关联张量之间的区别,在尽可能保留miRNA-基因-疾病关联张量的已知结构的同时,对该张量中的未知关联进行评分,为完成该目标,构建目标函数如下:
其中,χ表示构建的miRNA-基因-疾病关联张量,M、T、D分别表示分解得到的用于重构张量的miRNA、基因、疾病的因子矩阵,I表示miRNA的数量、J表示基因的数量、K表示疾病的数量,R表示张量χ的秩,R<<min(I,J,K);表示重构的miRNA-基因-疾病关联张量;向量Mi,:,Tj,:,Dk,:被称为因子向量,是重构张量中的第(i,j,k)个元素。表示Frobenius范数。*表示哈达玛积。Ω是一个miRNA-基因-疾病关联结构已知的索引张量,大小与χ相同,Ω中元素的值仅为0或1,用于记录χ初始值中关联已知的元素的位置,当χ中元素χijk关联已知时,Ωijk=1,当χijk关联未知时,Ωijk=0;为观察张量,表示χ中关联已知的部分,的数据与χ的初始值相同。
步骤32:构建用图正则化将相似性信息整合进因子矩阵的目标函数:
在步骤31中,获得了miRNA,基因和疾病的因子矩阵M,T,D,通过步骤31中的目标函数的约束,尽可能保留miRNA-基因-疾病关联张量的已知结构,在此基础上,通过图正则化向因子矩阵中添加miRNA,基因和疾病各自的相似性信息,为对miRNA-基因-疾病关联张量中未知关联的评分提供更多信息。
如果两个对象(例如:miRNA)之间的相似度较高,那么它们的特征表示之间的距离就应该更近。图正则化可以最小化两个相邻对象的潜在特征向量之间的距离,用图正则化将相似性信息整合进因子矩阵的目标函数如下:
其中分别表示miRNA,基因,疾病的相似性矩阵;tr(·)是矩阵的迹;相似性矩阵Sm,St,Sd的图拉普拉斯矩阵。
步骤33:构建使用型如f(X,Y)=XBYT的投影函数将邻接信息整合进因子矩阵的目标函数,B是投影矩阵,X和Y表示两类对象各自的因子矩阵(例如,X可以表示miRNA,Y可以表示疾病):
在投影函数f(X,Y)=XBYT中,B是投影矩阵,X和Y表示两类对象各自的因子矩阵,将其用于整合miRNA与基因,miRNA与疾病和基因与疾病的邻接信息的目标函数如下:
其中,表示miRNA-基因邻接矩阵,表示miRNA-疾病邻接矩阵,表示基因-疾病邻接矩阵。分别用miRNA因子矩阵M与基因因子矩阵T,miRNA因子矩阵M与疾病因子矩阵D,和基因因子矩阵T与疾病因子矩阵D替换投影函数中的X和Y,并使用数据规模相同的作为投影矩阵。通过最小化邻接矩阵与投影函数之间的近似误差,从而达到向因子矩阵整合邻接信息的目标。
步骤34:将步骤31、32、33的目标函数整合,同时引入Tikhonov正则化项。得到最终的目标函数,用于使用张量分解技术更新由步骤1得到的miRNA-基因-疾病关联张量并整合由步骤2得到的辅助信息(生物相似性信息和邻接信息):
将步骤31中基于张量分解的目标函数,步骤32中用于整合相似性信息的目标函数和步骤33中用于整合邻接信息的目标函数相加,同时加入Tikhonov正则化项 去防止过拟合,然后得到最终的目标函数,该目标函数通过同时最小化重构张量与已知张量的近似误差,和两个相邻对象的潜在特征向量之间的距离和邻接矩阵与投影函数之间的近似误差,将由步骤2得到的辅助信息(生物相似性信息和邻接信息)分别整合进miRNA,基因,疾病的因子矩阵M,T,D,使用M,T,D重构张量。
整体的目标函数表示如下:
其中,α控制相似性信息的影响,β控制邻接信息的影响,λ是Tikhonov正则化项的正则化系数。设置α,β的取值范围均为[0.125,2],在本实施例中,设置α,β均为0.25。设置λ取值范围为[0.001,10],在本实施例中,设置λ为0.001。
步骤4:对目标函数进行求解,获得各因子矩阵,并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量,将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵,获得miRNA-疾病关联预测值;
miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量χ初始值中关联未知的元素的位置。
所述步骤4具体包括以下步骤:
步骤41:利用交替方向乘子法迭代更新求解因子矩阵:
对于每个因子矩阵,从目标函数中提取包含该因子矩阵的项,构成因子矩阵的目标函数,然后利用交替方向乘子法求解因子矩阵目标函数,得到因子矩阵的更新方式,利用具体计算公式将因子矩阵的更新方式表示如下:
M=(χ(1)E1+βAmtTB1 T+βAmdDB2 T+ηO+Y1)(E1 TE1+βB1TTTB1 T+βB2DTDB2 T+λI+ηI)-1
T=(χ(2)E2+βAmt TMB1+βAtdDB3 T+ηP+Y2)(E2 TE2+βB1 TMTMB1+βB3DTDB3 T+λI+ηI)-1
D=(χ(3)E3+βAmd TMB2+βAtd TTB3+ηQ+Y3)(E3 TE3+βB2 TMTMB2+βB3 TTTTB3+λI+ηI)-1
其中,χ(1)、χ(2)、χ(3)分别表示χ沿miRNA、基因、疾病维度展开的矩阵,⊙是Khatri-Rao乘积,O、P、Q是辅助变量,Y1、Y2、Y3表示是拉格朗日乘子,η是惩罚参数,E1=D⊙T,E2=D⊙M,E3=T⊙M,是单位矩阵。
步骤42:利用共轭梯度法迭代更新投影矩阵B1,B2,B3:
用矩阵统一表示投影矩阵B1,B2和B3,则投影矩阵B1,B2和B3的目标函数统一用一个关于矩阵B目标函数表示:
其中,W表示邻接矩阵,U和V分别表示与W相关的因子矩阵;
如,W表示miRNA-基因邻接矩阵,U表示miRNA因子矩阵,V表示基因因子矩阵;
利用共轭梯度法对矩阵B进行更新,在更新过程中,第n次迭代的内容如下:
B(n+1)=B(n)+ξ(n)C(n)
G(n+1)=G(n)-ξ(n)(ωUTUC(n)VTV+υC(n))
其中,G和C为中间变量,初始化B(0)=0,G(0)=ωUTWV-ωUTUB(0)VTV-υB(0),C(0)=G(0),上标(0)表示第0次迭代;
当W表示miRNA-基因邻接矩阵Amt时,U表示miRNA因子矩阵M,V表示基因因子矩阵T,更新后的B表示更新后的投影矩阵B1;
当W表示miRNA-疾病邻接矩阵Amd时,U表示miRNA因子矩阵M,V表示疾病因子矩阵D,更新后的B表示更新后的投影矩阵B2;
当W表示基因-疾病邻接矩阵Atd时,U表示基因因子矩阵T,V表示疾病因子矩阵D,更新后的B表示更新后的投影矩阵B3。
步骤43:利用更新后得到的因子矩阵M,T,D重构miRNA-基因-疾病关联张量,得到miRNA-基因-疾病关联评分张量:
由步骤31中,对miRNA-基因-疾病三元张量进行CP分解的目标函数可知,在重构张量中,每一个元素都是利用因子矩阵M,T,D计算得到的,计算方式如下:
Mi,r表示因子矩阵M的第(i,r)个值,Tj,r表示因子矩阵T的第(j,r)个值,Dk,r表示因子矩阵D的第(k,r)个值。R表示因子矩阵的秩,即因子矩阵的列数。M,T,D三个因子矩阵的列数是相同的。
由步骤11可知,在构建好的miRNA-基因-疾病三元张量χ中,关联未已知的元素,即χijk=0表示miRNAi,基因j和疾病k作为一个整体,该整体的关联是未知的,需要进行预测评估。因此在最小化miRNA-基因-疾病关联张量χ中的元素与重构中的元素之间的区别过程中,χ中关联未知的元素值会被更新,其更新方式如下:
表示χ中被观察到的部分,的数据与χ的初始值相同。Ω-表示一个关联结构未知的索引张量,数据规模与步骤31中的Ω相同,当Ωijk=1,Ω- ijk=0,当Ωijk=0,Ω- ijk=1,当χ初始值中元素χijk关联已知时Ω- ijk=0,当χijk关联未知时,Ω- ijk=1。其中*表示哈达玛积。用保持χ中关联已知的部分,用更新χ中关联未知的部分。当足够小时,表示χ中的元素与中的元素之间的区别足够小。重构张量即可用于miRNA-基因-疾病三元关联预测。
在训练好的重构张量中,元素的值为一个预测得分,表示用本发明中的方法预测出miRNA i,基因j和疾病k,三者之间存在关联的可能性大小。
将Ω-和训练好的的哈达玛积作为关联评分张量所述miRNA-基因-疾病关联评分张量采用以下公式计算获得:
其中,表示miRNA-基因-疾病关联评分张量中的元素,表示重构的miRNA-基因-疾病关联张量中的元素,Mi,r、Tj,r、Dk,r分别表示M中第(i,r)个值,T中第(j,r)个值,D中第(k,r)个值;Ω-表示miRNA-基因-疾病关联结构未知的索引张量,当Ωijk=1,Ω- ijk=0,当Ωijk=0,Ω- ijk=1;当χ初始值中元素χijk关联结构已知时Ω- ijk=0,当χijk关联结构未知时,Ω- ijk=1。
当Ω- ijk=0时,当Ω- ijk=1时,即中的元素由得到,评分张量中的元素表示对原始miRNA-基因-疾病关联张量中未知关联的预测得分。评分张量中的元素,当Ω- ijk=0时,表示对应于原始miRNA-基因-疾病关联张量中关联结构已知的部分,该部分的不需要进行预测。
步骤44:将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵:
针对miRNA i-疾病k对,从关联评分张量中获得一个数组表示该miRNA i-疾病k对关于全部基因的评分,计算该数组的平均值作为该miRNA i-疾病k对的预测评分;按相同方法,获得关联评分张量中全部的miRNA-疾病对的预测评分,按照矩阵形式存储,得到miRNA-疾病关联评分矩阵。将所有已知的miRNA-疾病关联作为全部正样本随机分为5个子集,进行五折交叉验证。每个子集轮流作测试集。选取和已知关联子集数量相等的未知关联,作为负样本,训练结束后,可以得到测试集中的miRNA-疾病对的关联评分,将这些关联评分进行排名,给定的不同的阈值,当miRNA-疾病对的评分高于阈值则认为该miRNA-疾病对被预测为正例,低于阈值则被预测为负例。通过对比预测值和真实值的差异,计算出真阳性率(TPR)和假阳性率(FPR),真阳性率表示:相对于所有正样本,被正确地判断为正例的比率;假阳性率表示:对于所有负样本,被错误地判断为正例的比率。在不同阈值下,会得到不同的TPR和FPR,根据不同阈值下的TPR和FPR绘制ROC曲线,计算ROC曲线下的面积,即AUC值。重复10次5折交叉验证,取所有结果的平均值对方法进行评估。
图2展示了TDMDA,CP,TDRC,GRNMF*(除去GRNMF方法中的WKNNP预处理步骤),IMCMDA,INMCGCN和MDA-CNN的平均ROC曲线和平均AUC值,TDMDA、CP、TDRC、GRNMF*、IMCMDA、INMCGCN、MDA-CNN的平均AUC值分别为0.943、0.915、0.773、0.932、0.806、0.889、0.817。与其他方法相比,TDMDA具有更好的性能。
基于上述方法,本发明实施例还提供一种基于张量分解的miRNA-疾病关联预测系统,包括:
miRNA-基因-疾病关联张量构建模块,通过采用已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据,提取关联信息,构建miRNA-基因-疾病关联张量;
辅助矩阵构建模块,通过利用构建的miRNA-基因-疾病关联张量,计算miRNA、基因、疾病之间的生物相似性信息和邻接信息,构建相似性矩阵和邻接矩阵;
目标函数构建模块:通过采用张量分解单元,对miRNA-基因-疾病关联张量进行张量分解,保留miRNA-基因-疾病关联张量中已知关联的信息,并对未知关联的信息进行评分,采用三个因子矩阵重构miRNA-基因-疾病关联张量,并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项,获得基于张量分解的目标函数;
其中,利用相似性矩阵,对三个因子矩阵进行图正则化处理;同时,利用邻接矩阵,对三个因子矩阵均进行投影处理,投影函数为f(X,Y)=XBYT,B是投影矩阵,X和Y表示两类节点的因子矩阵,YT表示Y的转置;
目标函数求解模块:通过对目标函数进行求解,获得各因子矩阵,并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量,将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵,获得miRNA-疾病关联预测值;
miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量χ初始值中关联未知的元素的位置。
应当理解,本发明各个实施例中的功能单元模块可以集中在一个处理单元中,也可以是各个单元模块单独物理存在,也可以是两个或两个以上的单元模块集成在一个单元模块中,可以采用硬件或软件的形式来实现。
Claims (8)
1.一种基于张量分解的miRNA-疾病关联预测方法,其特征在于,包括以下步骤:
步骤1:基于已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据,构建miRNA-基因-疾病关联张量;
步骤2:基于miRNA-基因-疾病关联张量,计算miRNA、基因、疾病之间的生物相似性信息和邻接信息,构建相似性矩阵和邻接矩阵;
步骤3:构造基于张量分解的目标函数;
基于张量分解方式,分解miRNA-基因-疾病关联张量,保留miRNA-基因-疾病关联张量中已知关联信息,并对未知关联信息进行评分,采用三个因子矩阵重构miRNA-基因-疾病关联张量,并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项,获得基于张量分解的目标函数;
其中,利用相似性矩阵,对三个因子矩阵进行图正则化处理;同时,利用邻接矩阵,对三个因子矩阵均进行投影处理,投影函数为f(X,Y)=XBYT,B是投影矩阵,X和Y表示两类节点的因子矩阵,YT表示Y的转置;
步骤4:对目标函数进行求解,获得各因子矩阵,并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量,将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵,获得miRNA-疾病关联预测值;其中,miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量初始值中关联未知的元素的位置;
所述相似性矩阵包括miRNA相似性矩阵、基因相似性矩阵,疾病相似性矩阵;
所述邻接矩阵包括miRNA-疾病邻接矩阵、miRNA-基因邻接矩阵和疾病-基因邻接矩阵;
通过min-max正则化,将相似性矩阵中,相似性值超出[0,1]范围的约束在[0,1]的范围内;
所述目标函数表达式如下:
其中,表示构建的miRNA-基因-疾病关联张量,M、T、D分别表示分解得到的用于重构张量的miRNA、基因、疾病的因子矩阵,I表示miRNA的数量、J表示基因的数量、K表示疾病的数量,R表示张量的秩,R<<min(I,J,K);表示重构的miRNA-基因-疾病关联张量;Lm、Lt、Ld分别表示miRNA、基因、疾病的相似性矩阵的图拉普拉斯矩阵,tr(·)是矩阵的迹;Amt表示miRNA-基因邻接矩阵,Amd表示miRNA-疾病邻接矩阵,Atd表示基因-疾病邻接矩阵;B1、B2、B3分别为用作miRNA因子矩阵M与基因因子矩阵T,miRNA因子矩阵M与疾病因子矩阵D,基因因子矩阵T与疾病因子矩阵D之间的投影矩阵,α控制相似性信息的影响,β控制邻接信息的影响,α和β的取值范围均为[0.125,2];λ是Tikhonov正则化项的正则化系数,取值范围为[0.001,10];表示Frobenius范数,*表示哈达玛积,Ω是一个miRNA-基因-疾病关联结构已知的索引张量,大小与相同,Ω中元素的值仅为0或1,用于记录初始值中关联已知的元素的位置,当中元素关联已知时,Ωijk=1,当关联未知时,Ωijk=0;为观察张量,表示中关联已知的部分,的数据与的初始值相同。
2.根据权利要求1所述的方法,其特征在于,采用交替方向乘子和共轭梯度法分别求解目标函数中的因子矩阵和投影矩阵。
3.根据权利要求2所述的方法,其特征在于,利用交替方向乘子法迭代更新求解因子矩阵;
对于每个因子矩阵,从目标函数中提取包含该因子矩阵的项,构成因子矩阵的目标函数,然后利用交替方向乘子法求解因子矩阵目标函数,得到因子矩阵的更新方式,利用具体计算公式将因子矩阵的更新方式表示如下:
其中,分别表示沿miRNA、基因、疾病维度展开的矩阵,⊙是Khatri-Rao乘积,O、P、Q是辅助变量,Y1、Y2、Y3表示是拉格朗日乘子,η是惩罚参数,E1=D⊙T,E2=D⊙M,E3=T⊙M,是单位矩阵。
4.根据权利要求2所述的方法,其特征在于,利用共轭梯度法迭代更新投影矩阵B1,B2,B3;
用矩阵统一表示投影矩阵B1,B2和B3,则投影矩阵B1,B2和B3的目标函数统一用一个关于矩阵B目标函数表示:
其中,W表示邻接矩阵,U和V分别表示与W相关的因子矩阵;
利用共轭梯度法对矩阵B进行更新,在更新过程中,第n次迭代的内容如下:
B(n+1)=B(n)+ξ(n)C(n)
G(n+1)=G(n)-ξ(n)(ωUTUC(n)VTV+υC(n))
其中,G和C为中间变量,初始化B(0)=0,G(0)=ωUTWV-ωUTUB(0)VTV-υB(0),C(0)=G(0),上标(0)表示第0次迭代;
当W表示miRNA-基因邻接矩阵Amt时,U表示miRNA因子矩阵M,V表示基因因子矩阵T,更新后的B表示更新后的投影矩阵B1;
当W表示miRNA-疾病邻接矩阵Amd时,U表示miRNA因子矩阵M,V表示疾病因子矩阵D,更新后的B表示更新后的投影矩阵B2;
当W表示基因-疾病邻接矩阵Atd时,U表示基因因子矩阵T,V表示疾病因子矩阵D,更新后的B表示更新后的投影矩阵B3。
5.根据权利要求1所述的方法,其特征在于,所述miRNA-基因-疾病关联评分张量采用以下公式计算获得:
其中,表示miRNA-基因-疾病关联评分张量中的元素,表示重构的miRNA-基因-疾病关联张量中的元素,Mi,r、Tj,r、Dk,r分别表示M中第(i,r)个值,T中第(j,r)个值,D中第(k,r)个值;Ω-表示miRNA-基因-疾病关联结构未知的索引张量,当Ωijk=1,Ω- ijk=0,当Ωijk=0,Ω- ijk=1;当初始值中元素关联已知时Ω- ijk=0,当关联未知时,Ω- ijk=1。
6.根据权利要求1所述的方法,其特征在于,将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵的具体过程如下:
针对miRNAi-疾病k对,从关联评分张量中获得一个数组表示该miRNAi-疾病k对关于全部基因的评分,计算该数组的平均值作为该miRNAi-疾病k对的预测评分;从而获得关联评分张量中全部的miRNA-疾病对的预测评分,按照矩阵形式存储,得到miRNA-疾病关联评分矩阵。
7.根据权利要求1所述的方法,其特征在于,所述miRNA-基因-疾病关联张量是指:如果miRNAi与疾病k有关联,miRNAi与基因j有关联,基因j与疾病k有关联,将张量中的元素设置为1,表示张量中的元素关联已知,否则将元素设置为0,得到规模为I×J×K的张量,I表示miRNA的数量、J表示基因的数量、K表示疾病的数量。
8.一种基于张量分解的miRNA-疾病关联预测系统,其特征在于,包括:
miRNA-基因-疾病关联张量构建模块,通过采用已知的miRNA-疾病关联数据、miRNA-基因关联数据和基因-疾病关联数据,提取关联信息,构建miRNA-基因-疾病关联张量;
辅助矩阵构建模块,通过利用构建的miRNA-基因-疾病关联张量,计算miRNA、基因、疾病之间的生物相似性信息和邻接信息,构建相似性矩阵和邻接矩阵;
目标函数构建模块:通过采用张量分解单元,对miRNA-基因-疾病关联张量进行张量分解,保留miRNA-基因-疾病关联张量中已知关联的信息,并对未知关联的信息进行评分,采用三个因子矩阵重构miRNA-基因-疾病关联张量,并引入因子矩阵和与因子矩阵对应的投影矩阵的Tikhonov正则化项,获得基于张量分解的目标函数;
其中,利用相似性矩阵,对三个因子矩阵进行图正则化处理;同时,利用邻接矩阵,对三个因子矩阵均进行投影处理,投影函数为f(X,Y)=XBYT,B是投影矩阵,X和Y表示两类节点的因子矩阵,YT表示Y的转置;
目标函数求解模块:通过对目标函数进行求解,获得各因子矩阵,并利用各因子矩阵重构的miRNA-基因-疾病关联张量和miRNA-基因-疾病关联结构未知的索引张量的哈达玛积作为miRNA-基因-疾病关联评分张量,将miRNA-基因-疾病关联评分张量转换为miRNA-疾病关联评分矩阵,获得miRNA-疾病关联预测值;
miRNA-基因-疾病关联结构未知的索引张量用于记录miRNA-基因-疾病关联张量初始值中关联未知的元素的位置;
所述相似性矩阵包括miRNA相似性矩阵、基因相似性矩阵,疾病相似性矩阵;
所述邻接矩阵包括miRNA-疾病邻接矩阵、miRNA-基因邻接矩阵和疾病-基因邻接矩阵;
通过min-max正则化,将相似性矩阵中,相似性值超出[0,1]范围的约束在[0,1]的范围内;
所述目标函数表达式如下:
其中,表示构建的miRNA-基因-疾病关联张量,M、T、D分别表示分解得到的用于重构张量的miRNA、基因、疾病的因子矩阵,I表示miRNA的数量、J表示基因的数量、K表示疾病的数量,R表示张量的秩,R<<min(I,J,K);表示重构的miRNA-基因-疾病关联张量;Lm、Lt、Ld分别表示miRNA、基因、疾病的相似性矩阵的图拉普拉斯矩阵,tr(·)是矩阵的迹;Amt表示miRNA-基因邻接矩阵,Amd表示miRNA-疾病邻接矩阵,Atd表示基因-疾病邻接矩阵;B1、B2、B3分别为用作miRNA因子矩阵M与基因因子矩阵T,miRNA因子矩阵M与疾病因子矩阵D,基因因子矩阵T与疾病因子矩阵D之间的投影矩阵,α控制相似性信息的影响,β控制邻接信息的影响,α和β的取值范围均为[0.125,2];λ是Tikhonov正则化项的正则化系数,取值范围为[0.001,10];表示Frobenius范数,*表示哈达玛积,Ω是一个miRNA-基因-疾病关联结构已知的索引张量,大小与相同,Ω中元素的值仅为0或1,用于记录初始值中关联已知的元素的位置,当中元素关联已知时,Ωijk=1,当关联未知时,Ωijk=0;为观察张量,表示中关联已知的部分,的数据与的初始值相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224119.7A CN112951321B (zh) | 2021-03-01 | 2021-03-01 | 一种基于张量分解的miRNA-疾病关联预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224119.7A CN112951321B (zh) | 2021-03-01 | 2021-03-01 | 一种基于张量分解的miRNA-疾病关联预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951321A CN112951321A (zh) | 2021-06-11 |
CN112951321B true CN112951321B (zh) | 2023-10-24 |
Family
ID=76246822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110224119.7A Active CN112951321B (zh) | 2021-03-01 | 2021-03-01 | 一种基于张量分解的miRNA-疾病关联预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951321B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421614A (zh) * | 2021-07-08 | 2021-09-21 | 湖南大学 | 一种基于张量分解的lncRNA-疾病关联预测方法 |
CN114582526B (zh) * | 2022-03-03 | 2024-09-27 | 湖南中医药大学 | 一种基于相似性和张量分解的微生物-疾病关联关系预测方法 |
CN114462557B (zh) * | 2022-04-13 | 2022-07-01 | 北京大学 | 一种基于多源信息融合的生理状态识别分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013036874A1 (en) * | 2011-09-09 | 2013-03-14 | University Of Utah Research Foundation | Genomic tensor analysis for medical assessment and prediction |
CN107862179A (zh) * | 2017-11-06 | 2018-03-30 | 中南大学 | 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法 |
EP3554681A1 (en) * | 2016-12-16 | 2019-10-23 | The Brigham and Women's Hospital, Inc. | System and method for protein corona sensor array for early detection of diseases |
-
2021
- 2021-03-01 CN CN202110224119.7A patent/CN112951321B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013036874A1 (en) * | 2011-09-09 | 2013-03-14 | University Of Utah Research Foundation | Genomic tensor analysis for medical assessment and prediction |
EP3554681A1 (en) * | 2016-12-16 | 2019-10-23 | The Brigham and Women's Hospital, Inc. | System and method for protein corona sensor array for early detection of diseases |
CN107862179A (zh) * | 2017-11-06 | 2018-03-30 | 中南大学 | 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法 |
Non-Patent Citations (1)
Title |
---|
Tensor decomposition with relational constraints for predicting multiple types of microRNA-disease Associations;Feng Huang et al.;《arXiv》;20200309;第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112951321A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112951321B (zh) | 一种基于张量分解的miRNA-疾病关联预测方法及系统 | |
CN107016261B (zh) | 基于联合约束非负矩阵分解的差异表达基因辨识方法 | |
CN114927162A (zh) | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 | |
CN110826635B (zh) | 基于整合非负矩阵分解的样本聚类和特征识别方法 | |
CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
Zhang et al. | A new graph autoencoder-based consensus-guided model for scRNA-seq cell type detection | |
CN114334012A (zh) | 一种基于多组学数据识别癌症亚型的方法 | |
CN108427865B (zh) | 一种预测LncRNA和环境因素关联关系的方法 | |
Alzubaidi et al. | A novel deep mining model for effective knowledge discovery from omics data | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
CN116343927A (zh) | 基于增强的超图卷积自编码算法的miRNA-疾病关联预测方法 | |
CN113421614A (zh) | 一种基于张量分解的lncRNA-疾病关联预测方法 | |
Ji et al. | DFL-PiDA: prediction of Piwi-interacting RNA-disease associations based on deep feature learning | |
CN112768001A (zh) | 一种基于流形学习和主曲线的单细胞轨迹推断方法 | |
Chellamuthu et al. | Data mining and machine learning approaches in breast cancer biomedical research | |
CN113313167B (zh) | 一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法 | |
Zhang et al. | Prognostic prediction for non-small-cell lung cancer based on deep neural network and multimodal data | |
CN112951320B (zh) | 一种基于集成学习的生物医学网络关联预测方法 | |
Sun et al. | LRSK: a low-rank self-representation K-means method for clustering single-cell RNA-sequencing data | |
CN113838519A (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
Ocheme et al. | A deep neural network approach for cancer types classification using gene selection | |
Liu et al. | miRNA-disease associations prediction based on neural tensor decomposition | |
Qi et al. | Cell Classification Based on Stacked Autoencoder for Single-Cell RNA Sequencing | |
Marchetti-Bowick | Structured Sparse Regression Methods for Learning from High-Dimensional Genomic Data | |
Mediani et al. | Unsupervised deep learning model based on autoencoders for cancer classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |