CN110491443B - 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 - Google Patents

一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 Download PDF

Info

Publication number
CN110491443B
CN110491443B CN201910664021.6A CN201910664021A CN110491443B CN 110491443 B CN110491443 B CN 110491443B CN 201910664021 A CN201910664021 A CN 201910664021A CN 110491443 B CN110491443 B CN 110491443B
Authority
CN
China
Prior art keywords
matrix
lncrna
protein
similar
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910664021.6A
Other languages
English (en)
Other versions
CN110491443A (zh
Inventor
蒋兴鹏
马英钧
吴倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201910664021.6A priority Critical patent/CN110491443B/zh
Publication of CN110491443A publication Critical patent/CN110491443A/zh
Application granted granted Critical
Publication of CN110491443B publication Critical patent/CN110491443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法,首先,根据lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质的GO功能注释数据以及lncRNA和蛋白质的交互网络,计算得到多种lncRNA特征、蛋白质特征、lncRNA相似矩阵和蛋白质相似矩阵。其次,将多种lncRNA相似网络进行融合得到整合的lncRNA相似网络,将多种蛋白质相似网络进行融合得到整合的蛋白质相似网络。最后,结合整合的lncRNA(蛋白质)相似网络和多种lncRNA(蛋白质)特征,提出了一种特征投影的邻域非负矩阵分解算法来预测lncRNA蛋白质的潜在交互。本发明不仅能准确的预测新的lncRNA蛋白质交互,同时还可以预测没有关联任何lncRNA(蛋白质)的新的蛋白质(lncRNA),有效的避免了生物化学实验导致的高人力物力消耗。

Description

一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测 方法
技术领域
本发明涉及生物信息学技术领域,具体涉及一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法。
背景技术
随着测序技术的不断发展,我们将一步步揭开生物基因组神秘的面纱,弄清RNA世界成为了当今生物学面临的最重要的挑战之一。占据转录组高达98%的非编码RNA是潜在的新生物标记物和蛋白质靶标的宝矿,其中长度没有超过200个核苷酸的非编码RNA被称为长非编码RNA(lncRNA)。
lncRNA在各种生物进程中都发挥着重要的作用,其参与调控基因表达,影响核结构域的形成,通过直接机制调控染色体结构。几乎所有的lncRNA的功能都能够通过与其相应的RNA结合蛋白的相互作用中有所表现,所以lncRNA和蛋白质的相互作用会极大地影响基因表达调控的复杂度和灵活度。利用实验手段探测大规模的lncRNA-蛋白质交互耗时且昂贵,因此目前一些预测lncRNA-蛋白质交互的计算模型被陆续提出。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
对于lncRNA-蛋白质的交互预测,大部分方法仍使用监督学习进行分析计算。使用监督学习算法进行预测的关键在于如何尽可能构建均衡的正负样本,但是目前对于负样本仍没有较好的方法去构建。其次是目前大多数已有的算法都无法适用于对新的lncRNA和新的蛋白质预测。再者,已有方法的预测准确率距离可实践还有一定的距离,合理利用lncRNA和蛋白质的网络拓扑结构可以很大程度上提升模型的预测性能。
由此可知,现有技术中的方法存在预测准确性不高的技术问题。
发明内容
有鉴于此,本发明提供了一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法,用以解决或者至少部分解决现有技术中的方法存在的预测准确性不高的技术问题。
本发明提供了一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法,包括:
步骤S1:获取已知的lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质DO功能注释以及lncRNA和蛋白质的关联矩阵;
步骤S2:根据已知的lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质DO功能注释以及lncRNA和蛋白质的关联矩阵,计算多种lncRNA特征矩阵、蛋白质特征矩阵、lncRNA相似矩阵和蛋白质相似矩阵,并对已知的lncRNA和蛋白质的关联矩阵进行补全,其中,lncRNA特征矩阵用以表示lncRNA的特征,蛋白质特征矩阵用以表示蛋白质的特征,lncRNA相似矩阵用以表示lncRNA的相似性,蛋白质相似矩阵用以表示蛋白质的相似性;
步骤S3:将多种lncRNA相似矩阵进行融合,获得融合后的lncRNA相似矩阵,将多种蛋白质相似矩阵进行融合,获得融合后的蛋白质相似矩阵;
步骤S4:分别计算融合后的lncRNA相似矩阵的第一邻域相似矩阵以及融合后的蛋白质相似矩阵的第二邻域相似矩阵,其中,第一邻域相似矩阵用以表示符合预设条件的lncRNA的相似性,第二邻域相似矩阵用以表示符合预设条件的蛋白质的相似性;
步骤S5:结合补全后的lncRNA和蛋白质的关联矩阵、多种lncRNA特征矩阵、多种蛋白质特征矩阵、第一邻域相似矩阵以及第二邻域相似矩阵,利用特征投影的邻域非负矩阵分解算法来计算获得lncRNA的第一潜在子空间特征矩阵和蛋白质的第二潜在子空间特征矩阵;
步骤S6:基于第一潜在子空间特征矩阵和第二潜在子空间特征矩阵,计算lncRNA和蛋白质的关联性。
在一种实施方式中,步骤S2中对已知的lncRNA和蛋白质的关联矩阵进行补全,具体包括:
步骤S2.1:对已知的lncRNA蛋白质的关联矩阵按照行分解,利用lncRNA相似矩阵对按行分解后的矩阵进行补全;
步骤S2.2:对已知的lncRNA蛋白质的关联矩阵按照列分解,利用蛋白质相似矩阵对按列分解后的矩阵进行补全;
步骤S2.3:对步骤S2.1中补全后的矩阵和步骤S2.2中补全后的矩阵求平均值,得到补全后的lncRNA和蛋白质的关联矩阵。
在一种实施方式中,步骤S3具体包括:
步骤S3.1:利用公式(1)计算不同相似矩阵的稳定状态SBc
Figure BDA0002139465770000031
式(1)中,ND表示lncRNA或者蛋白质的个数,
Figure BDA0002139465770000032
α=0.5为权重系数,eye(ND×ND)表示单位矩阵;
步骤S3.2:对所有稳定状态按列合并得到SC=[SB1,SB2,…,SBM];
步骤S3.3:对SC所有元素进行对数变化可以得到SD=log(SC);
步骤S3.4:对LSC进行奇异值分解可以得到SD=DX×Σ×DY,其中,LSC表示对数变化后的矩阵,特征向量矩阵
Figure BDA0002139465770000033
N表示lncRNA和蛋白质的个数,T表示转置;
步骤S3.5:根据公式(1)和奇异值分解后的结果,得到融合后的lncRNA相似矩阵或者融合后的蛋白质相似矩阵:
Figure BDA0002139465770000034
其中,|dxi|和|dxj|分别表示向量dxi和dxj的范数。
在一种实施方式中,步骤S4中计算第一邻域相似矩阵和第二邻域相似矩阵
Figure BDA0002139465770000035
的方式为:
Figure BDA0002139465770000036
其中,N(xi)表示与xi最邻近的K个邻居集合,
Figure BDA0002139465770000037
Figure BDA0002139465770000038
表示向上取整。
在一种实施方式中,步骤S5通过下述方式计算lncRNA的第一潜在子空间特征矩阵和蛋白质的第二潜在子空间特征矩阵:
Figure BDA0002139465770000041
其中,
Figure BDA0002139465770000042
表示lncRNA的N1种特征,
Figure BDA0002139465770000043
表示蛋白质的N2种特征,
Figure BDA0002139465770000044
表示lncRNA的与
Figure BDA0002139465770000045
对应的N1种投影矩阵,
Figure BDA0002139465770000046
表示蛋白质与
Figure BDA0002139465770000047
对应的N2种投影矩阵,
Figure BDA0002139465770000048
为重要性水平分配矩阵,若当前lncRNA li和蛋白质pj间存在交互,Ci,j=δ,反之,Ci,j=1,其中δ>1是重要水平参数;
Figure BDA0002139465770000049
Figure BDA00021394657700000410
Figure BDA00021394657700000411
表示投影权重参数,η>1表示投影指数参数;
Figure BDA00021394657700000412
为lncRNA的拉普拉斯矩阵;对角矩阵
Figure BDA00021394657700000413
其对角线元素分别为
Figure BDA00021394657700000414
Figure BDA00021394657700000415
为蛋白质的拉普拉斯矩阵;对角矩阵
Figure BDA00021394657700000416
其对角线元素分别为
Figure BDA00021394657700000417
tr(·)表示矩阵的迹,λ为邻域拉普拉斯正则化参数;μ是投影矩阵的正则化参数,||·||1,2表示矩阵的1,2范数,||·||F表示F范数,γ表示潜在子空间正则化参数。
在一种实施方式中,在步骤S5之后,所述方法还包括:对第一潜在子空间特征矩阵和第二潜在子空间特征矩阵进行补全。
在一种实施方式中,对第一潜在子空间特征矩阵U按照如下公式进行补全:
Figure BDA00021394657700000418
其中,A表示当前已知的lncRNA蛋白质关联矩阵,SL表示lncRNA相似矩阵,
Figure BDA0002139465770000051
表示对于有蛋白质交互的lnRNA,其对应的潜在特征保持不变,N+(li)表示在有蛋白质交互的lncRNA集合中,选出K个与li相似度最高的lncRNA组成的集合,
对蛋白质的第二潜在子空间特征矩阵V按照如下公式进行补全:
Figure BDA0002139465770000052
其中,SP表示蛋白质相似矩阵。
在一种实施方式中,步骤S6具体包括:
步骤S6.1:基于第一潜在子空间特征矩阵和第二潜在子空间特征矩阵,计算lncRNA和蛋白质的预测交互得分
Figure BDA0002139465770000053
其中,
Figure BDA0002139465770000054
表示补全后的第一潜在特征矩阵,
Figure BDA0002139465770000055
表示补全后的第二潜在特征;
步骤S6.2:将预测交互得分
Figure BDA0002139465770000056
进行降序排序,得到lncRNA和蛋白质的关联性排序。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法,首先,获取已知的信息(lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质DO功能注释以及lncRNA和蛋白质的关联矩阵),并根据已知的信息构建lncRNA相似矩阵和蛋白质相似矩阵,并对已知的lncRNA-蛋白质的关联矩阵进行邻域修补(即补全);然后,将多种lncRNA相似矩阵进行融合,获得融合后的lncRNA相似矩阵,将多种蛋白质相似矩阵进行融合,获得融合后的蛋白质相似矩阵,接着,基于lncRNA相似矩阵和蛋白质相似矩阵,计算lncRNA的第一邻域相似矩阵和蛋白质的第二邻域相似矩阵;接下来,基于多种lncRNA特征、多种蛋白质特征、lncRNA的第一邻域相似矩阵、蛋白质的第二邻域相似矩阵和补全后的lncRNA蛋白质关联矩阵,计算lncRNA的第一潜在子空间特征和蛋白质的第二潜在子空间特征;最后,利用第一潜在子空间特征和第二潜在子空间特征计算lncRNA和蛋白质的关联。
本发明提出了一种推断lncRNA和蛋白质之间联系的计算方法,本方法框架中,可以集成任意种特征和异构网络信息。与现有技术中至多考虑lncRNA和蛋白质的网络结构相比,本发明可以将多种lncRNA的特征信息和网络结构集成到一个整合的模型中,所以本发明可以更为有效地应用到多种生物进而提升预测精度。同时,本发明提供的方法不仅融合了lncRNA和蛋白质的网络结构信息,还有效地利用lncRNA和蛋白质的各种特征信息,因而本发明不仅仅可以推断未知的lncRNA和蛋白质交互,而且能很高效地预测当前没有与任何蛋白质关联的新lncRNA,以及预测当前没有与任何lncRNA关联的新的蛋白质。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法的流程示意图;
图2本发明的方法的整体框架示意图;
图3为3种5折交叉验证下,本发明与现有技术中的方法的验证结果对比示意图;
图4为在数据中加入噪声后,本发明与现有技术中的方法的验证结果对比示意图。
具体实施方式
本发明的目的在于针对现有技术中的方法预测准确性不高、无法预测未知的lncRNA和蛋白质交互的技术问题,提供一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法,并达到提高预测准确性,推断未知的lncRNA和蛋白质交互的目的。
为达到上述目的,本发明的主要构思如下:
根据lncRNA的多种特征、蛋白质的多种特征、lncRNA相似矩阵、蛋白质相似矩阵、已知的lncRNA和蛋白质间关联矩阵中挖掘信息,将lncRNA和蛋白质投影到一个潜在的共同特征子空间,进而计算lncRNA和蛋白质间的相关性,利用这些相关性进行优先排序,进而预测lncRNA和蛋白质间的联系。
本发明提供了一个预测lncRNA和蛋白质之间联系的框架,集成了生物实体的各种特征信息和相似性信息,大大地提升了预测的精度和预测的范围,有效地解决了生物实验中成本高和盲目性问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法,请参见图1,该方法包括:
步骤S1:获取已知的lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质DO功能注释以及lncRNA和蛋白质的关联矩阵。
具体来说,本发明可以从已有的数据中获取上述信息。
举例来说,请参见图2,为本发明的方法的整体框架示意图,本实施方式从数据库Npinterv2.0中下载lncRNA和蛋白质的交互数据,从NONCODE数据库中提取lncRNA的序列数据和表达谱数据,从STRING 9.1数据库中提取蛋白质的序列信息和GO功能注释。
为了测试算法的预测能力,本发明利用两个数据集进行实验分别是DATA 1和DATA2。具体的,DATA 1是由Zhang等人整理的一共包含1,113个lncRNAs和96个蛋白质间的4,870个交互,lncRNA的两种特征,分别是平行相关伪二核苷酸组成特征和序列相关伪二核苷酸组成特征,蛋白质的两种特征,分别是平行相关伪氨基酸组成特征和序列相关伪二氨基酸组成特征,以及lncRNA的相似性矩阵和蛋白质的相似性矩阵。DATA2是由Li等人从Npinterv2.0中提取的经实验验证的4,870个lncRNA和蛋白质的交互数据,本发明删除没有序列信息和表达谱信息的的lncRNA,以及没有序列信息和GO功能注释信息的蛋白质,一共得到1068个lncRNA和90个蛋白质间的4679个交互,同时提取2种lncRNA的序列特征和2种蛋白质的序列特征,并根据lncRNA的序列计算lncRNA的d_2^*相似性,以及根据蛋白质的GO功能注释计算蛋白质的语义相似性,同时分别根据lncRNA的各种特征分别计算lncRNA的核邻域相似性和蛋白质的核邻域相似性,并利用修正后的lncRNA和蛋白质交互网络计算lncRNA的核邻域相似性和蛋白质的核邻域相似性,一共得到lncRNA的3个特征矩阵和5个相似性矩阵,蛋白质的2种特征矩阵和4种相似性矩阵。
步骤S2:根据已知的lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质DO功能注释以及lncRNA和蛋白质的关联矩阵,计算多种lncRNA特征矩阵、蛋白质特征矩阵、lncRNA相似矩阵和蛋白质相似矩阵,并对已知的lncRNA和蛋白质的关联矩阵进行补全,其中,lncRNA特征矩阵用以表示lncRNA的特征,蛋白质特征矩阵用以表示蛋白质的特征,lncRNA相似矩阵用以表示lncRNA的相似性,蛋白质相似矩阵用以表示蛋白质的相似性。
具体来说,相似矩阵是用来表示lncRNA或者蛋白质的相似性,其中的元素就是对应的相似度。利用特征矩阵和相似矩阵可以更为准确的描述lncRNA(蛋白质)的特征和其网络关系。
在一种实施方式中,步骤S2中对已知的lncRNA和蛋白质的关联矩阵进行补全,具体包括:
步骤S2.1:对已知的lncRNA蛋白质的关联矩阵按照行分解,利用lncRNA相似矩阵对按行分解后的矩阵进行补全;
步骤S2.2:对已知的lncRNA蛋白质的关联矩阵按照列分解,利用蛋白质相似矩阵对按列分解后的矩阵进行补全;
步骤S2.3:对步骤S2.1中补全后的矩阵和步骤S2.2中补全后的矩阵求平均值,得到补全后的lncRNA和蛋白质的关联矩阵。
具体来说,在具体实施时,用
Figure BDA0002139465770000081
Figure BDA0002139465770000082
分别表示lncRNA相似矩阵和蛋白质相似矩阵,
Figure BDA0002139465770000083
表示已知的lncRNA蛋白质的原始关联矩阵。将A按照行分解得到
Figure BDA0002139465770000084
其中Ai,.表示A的第i行,也可以表示lncRNA li的特征。将A按照列分解得到
Figure BDA0002139465770000085
其中A.,j表示A的第j列。然后利用lncRNA相似矩阵SL对Ai,.进行补全如下:
Figure BDA0002139465770000086
其中,
Figure BDA0002139465770000091
N(li)(在
Figure BDA0002139465770000092
中出现)表示与li相似性最高的K个邻居集合,wk=αk-1×SL(li,l(k)),α∈[0,1]表示衰减因子,l(k)表示li的第k个邻居。利用公式(7)对A的所有行补全后得到
Figure BDA0002139465770000093
利用蛋白质相似矩阵SP对A.,j进行补全如下:
Figure BDA0002139465770000094
利用公式(8)对A的所有列补全后得到为
Figure BDA0002139465770000095
最终,邻域补全后的交互矩阵如下:
Figure BDA0002139465770000096
步骤S3:将多种lncRNA相似矩阵进行融合,获得融合后的lncRNA相似矩阵,将多种蛋白质相似矩阵进行融合,获得融合后的蛋白质相似矩阵。
具体来说,将多种lncRNA相似矩阵进行融合、多种蛋白质相似矩阵进行融合,是为了得到更为准确的lncRNA(蛋白质)网络拓扑结构,融合后,可以得到更为准确的lncRNA相似网络和蛋白质相似网络。
在一种实施方式中,步骤S3具体包括:
步骤S3.1:利用公式(1)计算不同相似矩阵的稳定状态SBc
Figure BDA0002139465770000097
式(1)中,ND表示lncRNA或者蛋白质的个数,
Figure BDA0002139465770000098
α=0.5为权重系数,eye(ND×ND)表示单位矩阵;
步骤S3.2:对所有稳定状态按列合并得到SC=[SB1,SB2,…,SBM];
步骤S3.3:对SC所有元素进行对数变化可以得到SD=log(SC);
步骤S3.4:对LSC进行奇异值分解可以得到SD=DX×Σ×DY,其中,LSC表示对数变化后的矩阵,特征向量矩阵
Figure BDA0002139465770000099
N表示lncRNA和蛋白质的个数,T表示转置;
步骤S3.5:根据公式(1)和奇异值分解后的结果,得到融合后的lncRNA相似矩阵或者融合后的蛋白质相似矩阵:
Figure BDA0002139465770000101
其中,|dxi|和|dxj|分别表示向量dxi和dxj的范数。
具体来说,通过不同相似矩阵的稳定状态即公式(1),则可以得到公式(2)所示的融合后的相似矩阵,由于lncRNA相似矩阵与蛋白质相似矩阵的融合过程类似,在此不再赘述。
步骤S4:分别计算融合后的lncRNA相似矩阵的第一邻域相似矩阵以及融合后的蛋白质相似矩阵的第二邻域相似矩阵,其中,第一邻域相似矩阵用以表示符合预设条件的lncRNA的相似性,第二邻域相似矩阵用以表示符合预设条件的蛋白质的相似性。
具体来说,邻域相似矩阵就是筛选出身边K个邻居(即符合预设条件),组成的相似矩阵。具体作用就是缩小范围,邻域相似矩阵中的元素同样也表示相似性。通过计算融合后的lncRNA相似矩阵的第一邻域相似矩阵以及融合后的蛋白质相似矩阵的第二邻域相似矩阵,可以筛选出lncRNA中的强关联和蛋白质的强关联,从而进行更加准确地预测。
在一种实施方式中,步骤S4中计算第一邻域相似矩阵和第二邻域相似矩阵
Figure BDA0002139465770000102
的方式为:
Figure BDA0002139465770000103
其中,N(xi)表示与xi最邻近的K个邻居集合,
Figure BDA0002139465770000104
Figure BDA0002139465770000105
表示向上取整。
在具体的实施过程中,对于lncRNA相似矩阵
Figure BDA0002139465770000106
或蛋白质相似矩阵
Figure BDA0002139465770000107
利用公式(3),则可以得到lncRNA邻域相似矩阵
Figure BDA0002139465770000108
和蛋白质相似矩阵
Figure BDA0002139465770000109
步骤S5:结合补全后的lncRNA和蛋白质的关联矩阵、多种lncRNA特征矩阵、多种蛋白质特征矩阵、第一邻域相似矩阵以及第二邻域相似矩阵,利用特征投影的邻域非负矩阵分解算法来计算获得lncRNA的第一潜在子空间特征矩阵和蛋白质的第二潜在子空间特征矩阵。
其中,步骤S5通过下述方式计算lncRNA的第一潜在子空间特征矩阵和蛋白质的第二潜在子空间特征矩阵:
Figure BDA0002139465770000111
其中,
Figure BDA0002139465770000112
表示lncRNA的N1种特征,
Figure BDA0002139465770000113
表示蛋白质的N2种特征,
Figure BDA0002139465770000114
表示lncRNA的与
Figure BDA0002139465770000115
对应的N1种投影矩阵,
Figure BDA0002139465770000116
表示蛋白质与
Figure BDA0002139465770000117
对应的N2种投影矩阵,
Figure BDA0002139465770000118
为重要性水平分配矩阵,若当前lncRNA li和蛋白质pj间存在交互,Ci,j=δ,反之,Ci,j=1,其中δ>1是重要水平参数;
Figure BDA0002139465770000119
Figure BDA00021394657700001110
Figure BDA00021394657700001111
表示投影权重参数,η>1表示投影指数参数;
Figure BDA00021394657700001112
为lncRNA的拉普拉斯矩阵;对角矩阵
Figure BDA00021394657700001113
其对角线元素分别为
Figure BDA00021394657700001114
Figure BDA00021394657700001115
为蛋白质的拉普拉斯矩阵;对角矩阵
Figure BDA00021394657700001116
其对角线元素分别为
Figure BDA00021394657700001117
tr(·)表示矩阵的迹,λ为邻域拉普拉斯正则化参数;μ是投影矩阵的正则化参数,||·||1,2表示矩阵的1,2范数,||·||F表示F范数,γ表示潜在子空间正则化参数。
在具体实现时,对于公式(4)的求解,首先,固定αij,将U,V,PLi和PPj按照如下公式(10)进行迭代:
Figure BDA00021394657700001118
Figure BDA0002139465770000121
Figure BDA0002139465770000122
其次,固定U,V,PLi和PPj,将αij按照如下公式迭代:
Figure BDA0002139465770000123
Figure BDA0002139465770000124
步骤S6:基于第一潜在子空间特征矩阵和第二潜在子空间特征矩阵,计算lncRNA和蛋白质的关联性。
为了得到更为准确的lncRNA潜在特征和蛋白质潜在特征,在一种实施方式中,对第一潜在子空间特征矩阵和第二潜在子空间特征矩阵进行补全。
其中,对第一潜在子空间特征矩阵U按照如下公式进行补全:
Figure BDA0002139465770000125
其中,A表示当前已知的lncRNA蛋白质关联矩阵,SL表示lncRNA相似矩阵,
Figure BDA0002139465770000126
表示对于有蛋白质交互的lnRNA,其对应的潜在特征保持不变,N+(li)表示在有蛋白质交互的lncRNA集合中,选出K个与li相似度最高的lncRNA组成的集合,
对蛋白质的第二潜在子空间特征矩阵V按照如下公式进行补全:
Figure BDA0002139465770000131
其中,SP表示蛋白质相似矩阵。
在具体实施时,为了使得邻居的个数能自动的适应样本的规模,本发明令
Figure BDA0002139465770000132
表示归一化项。
在一种实施方式中,步骤S6具体包括:
步骤S6.1:基于第一潜在子空间特征矩阵和第二潜在子空间特征矩阵,计算lncRNA和蛋白质的预测交互得分
Figure BDA0002139465770000133
其中,
Figure BDA0002139465770000134
表示补全后的第一潜在特征矩阵,
Figure BDA0002139465770000135
表示补全后的第二潜在特征;
步骤S6.2:将预测交互得分
Figure BDA0002139465770000136
进行降序排序,得到lncRNA和蛋白质的关联性排序。
为了进一步说明本发明提供的方法的有益效果,下面通过几个具体的示例进行有效性验证:
首先,通过5折验证方式来对本发明进行性能评估。设置5个随机种子进行5折交叉实验,并将所有随机种子下交叉实验结果的均值作为最终的预测结果,利用ROC曲线下面积(AUC)、查准率查全率曲线下的面积(AUPR)作为评估指标,其中AUPR为最重要的评估指标。本发明在3种不同设置下执行5折交叉实验如下:CVa:关于已知的lncRNA蛋白质交互对进行交叉实验。
具体实施时,本发明将已知的lncRNA蛋白质交互随机分成5等份。轮流选择一份和所有的未知交互组成测试集,剩余四份和所有的未知交互组成训练集(即把交互矩阵A中测试集对应的1变为0作为训练集)。CVl:关于lncRNA进行五折交叉实验。具体的,把所有的lncRNA随机分成五等份,轮流选择一份作为测试集,剩余4份为训练集(即把交互矩阵A中测试集对应的列变为全0)。CVp:关于蛋白质进行五折交叉实验。具体的,把所有的蛋白质随机分成五等份,轮流选择一份作为测试集,剩余4份为训练集(即把交互矩阵A中测试集对应的行变为全0)。将本发明提出的PMDKN模型与SFPEL-LPI(基于序列的投影集成算法),LPLNP(线性邻域标签传播算法),LPBNI(基于双向网络的lncRNA蛋白质关联预测)和LKSNF(核软邻域网络融合)的预测结果进行比较。其中,本发明的PMDKN和SFPEL-LPI可以对新的lncRNA和新的蛋白质进行预测。结果如图3所示。
为了测试本发明的方法的预测性能随着已知lncRNA蛋白质交互的影响,从当前已知的lncRNA蛋白质交互中删除20%的已知交互,同时添加进5%的实际不存在的交互作为噪声。此时本发明的方法对应的模型的测试集变为20%的已知交互以及全部的未知交互。此时,本发明方法的预测结果如图4所示。
总体来说,本发明提出了一种特征投影的邻域非负矩阵分解算法来预测lncRNA蛋白质的潜在交互。本发明不仅能准确的预测新的lncRNA蛋白质交互,同时还可以预测没有关联任何lncRNA(蛋白质)的新的蛋白质(lncRNA),有效的避免了生物化学实验导致的高人力物力消耗。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法,其特征在于,包括:
步骤S1:获取已知的lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质DO功能注释以及lncRNA和蛋白质的关联矩阵;
步骤S2:根据已知的lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质DO功能注释以及lncRNA和蛋白质的关联矩阵,计算多种lncRNA特征矩阵、蛋白质特征矩阵、lncRNA相似矩阵和蛋白质相似矩阵,并对已知的lncRNA和蛋白质的关联矩阵进行补全,其中,lncRNA特征矩阵用以表示lncRNA的特征,蛋白质特征矩阵用以表示蛋白质的特征,lncRNA相似矩阵用以表示lncRNA的相似性,蛋白质相似矩阵用以表示蛋白质的相似性;
步骤S3:将多种lncRNA相似矩阵进行融合,获得融合后的lncRNA相似矩阵,将多种蛋白质相似矩阵进行融合,获得融合后的蛋白质相似矩阵;
步骤S4:分别计算融合后的lncRNA相似矩阵的第一邻域相似矩阵以及融合后的蛋白质相似矩阵的第二邻域相似矩阵,其中,第一邻域相似矩阵用以表示符合预设条件的lncRNA的相似性,第二邻域相似矩阵用以表示符合预设条件的蛋白质的相似性;
步骤S5:结合补全后的lncRNA和蛋白质的关联矩阵、多种lncRNA特征矩阵、多种蛋白质特征矩阵、第一邻域相似矩阵以及第二邻域相似矩阵,利用特征投影的邻域非负矩阵分解算法来计算获得lncRNA的第一潜在子空间特征矩阵和蛋白质的第二潜在子空间特征矩阵;
步骤S6:基于第一潜在子空间特征矩阵和第二潜在子空间特征矩阵,计算lncRNA和蛋白质的关联性;
其中,步骤S5通过下述方式计算lncRNA的第一潜在子空间特征矩阵和蛋白质的第二潜在子空间特征矩阵:
Figure FDA0003506322450000021
其中,
Figure FDA0003506322450000022
表示lncRNA的N1种特征,
Figure FDA0003506322450000023
表示蛋白质的N2种特征,
Figure FDA0003506322450000024
表示lncRNA的与
Figure FDA0003506322450000025
对应的N1种投影矩阵,
Figure FDA0003506322450000026
表示蛋白质与
Figure FDA0003506322450000027
对应的N2种投影矩阵,
Figure FDA0003506322450000028
为重要性水平分配矩阵,若当前lncRNA li和蛋白质pj间存在交互,Ci,j=δ,反之,Ci,j=1,其中δ>1是重要水平参数;
Figure FDA0003506322450000029
Figure FDA00035063224500000210
Figure FDA00035063224500000211
表示投影权重参数,η>1表示投影指数参数;
Figure FDA00035063224500000212
为lncRNA的拉普拉斯矩阵;对角矩阵
Figure FDA00035063224500000213
其对角线元素分别为
Figure FDA00035063224500000214
Figure FDA00035063224500000215
为蛋白质的拉普拉斯矩阵;对角矩阵
Figure FDA00035063224500000216
其对角线元素分别为
Figure FDA00035063224500000217
tr(·)表示矩阵的迹,λ为邻域拉普拉斯正则化参数;μ是投影矩阵的正则化参数,‖·‖1,2表示矩阵的1,2范数,‖·‖F表示F范数,γ表示潜在子空间正则化参数。
2.如权利要求1所述的方法,其特征在于,步骤S2中对已知的lncRNA和蛋白质的关联矩阵进行补全,具体包括:
步骤S2.1:对已知的lncRNA蛋白质的关联矩阵按照行分解,利用lncRNA相似矩阵对按行分解后的矩阵进行补全;
步骤S2.2:对已知的lncRNA蛋白质的关联矩阵按照列分解,利用蛋白质相似矩阵对按列分解后的矩阵进行补全;
步骤S2.3:对步骤S2.1中补全后的矩阵和步骤S2.2中补全后的矩阵求平均值,得到补全后的lncRNA和蛋白质的关联矩阵。
3.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
步骤S3.1:利用公式(1)计算不同相似矩阵的稳定状态SBc
Figure FDA0003506322450000031
式(1)中,ND表示lncRNA或者蛋白质的个数,
Figure FDA0003506322450000032
α=0.5为权重系数,eye(ND×ND)表示单位矩阵;
步骤S3.2:对所有稳定状态按列合并得到SC=[SBc 1,SBc 2,…,SBc M];
步骤S3.3:对SC所有元素进行对数变化可以得到LSC=log(SC),LSC表示对数变化后的矩阵;
步骤S3.4:对LSC进行奇异值分解可以得到SD=DX×Σ×DY,其中,特征向量矩阵
Figure FDA0003506322450000033
N表示lncRNA和蛋白质的个数,T表示转置;
步骤S3.5:根据公式(1)和特征向量矩阵,得到融合后的lncRNA相似矩阵或者融合后的蛋白质相似矩阵:
Figure FDA0003506322450000034
其中,|dxi|和|dxj|分别表示向量dxi和dxj的范数。
4.如权利要求1所述的方法,其特征在于,步骤S4中计算第一邻域相似矩阵和第二邻域相似矩阵
Figure FDA0003506322450000035
的方式为:
Figure FDA0003506322450000036
其中,N(xi)表示与xi最邻近的K个邻居集合,
Figure FDA0003506322450000037
Figure FDA0003506322450000038
表示向上取整。
5.如权利要求1所述的方法,其特征在于,在步骤S5之后,所述方法还包括:对第一潜在子空间特征矩阵和第二潜在子空间特征矩阵进行补全。
6.如权利要求5所述的方法,其特征在于,对第一潜在子空间特征矩阵U按照如下公式进行补全:
Figure FDA0003506322450000041
其中,A表示当前已知的lncRNA蛋白质关联矩阵,SL表示lncRNA相似矩阵,
Figure FDA0003506322450000042
表示对于有蛋白质交互的lnRNA,其对应的潜在特征保持不变,N+(li)表示在有蛋白质交互的lncRNA集合中,选出K个与li相似度最高的lncRNA组成的集合,
对蛋白质的第二潜在子空间特征矩阵V按照如下公式进行补全:
Figure FDA0003506322450000043
其中,SP表示蛋白质相似矩阵。
7.如权利要求5所述的方法,其特征在于,步骤S6具体包括:
步骤S6.1:基于第一潜在子空间特征矩阵和第二潜在子空间特征矩阵,计算lncRNA和蛋白质的预测交互得分
Figure FDA0003506322450000044
其中,
Figure FDA0003506322450000045
表示补全后的第一潜在特征矩阵,
Figure FDA0003506322450000046
表示补全后的第二潜在特征;
步骤S6.2:将预测交互得分
Figure FDA0003506322450000047
进行降序排序,得到lncRNA和蛋白质的关联性排序。
CN201910664021.6A 2019-07-23 2019-07-23 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法 Active CN110491443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910664021.6A CN110491443B (zh) 2019-07-23 2019-07-23 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910664021.6A CN110491443B (zh) 2019-07-23 2019-07-23 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法

Publications (2)

Publication Number Publication Date
CN110491443A CN110491443A (zh) 2019-11-22
CN110491443B true CN110491443B (zh) 2022-04-01

Family

ID=68547924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910664021.6A Active CN110491443B (zh) 2019-07-23 2019-07-23 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法

Country Status (1)

Country Link
CN (1) CN110491443B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161796B (zh) * 2019-12-30 2024-04-16 中南大学 一种预测PD潜在gene和miRNA的方法及系统
CN113241114A (zh) * 2021-03-24 2021-08-10 辽宁大学 一种基于图卷积神经网络的lncRNA-蛋白质相互作用预测方法
CN114863992B (zh) * 2022-06-27 2024-04-05 山东大学 基于组织特异性的玉米可变剪接异构体功能预测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108292329A (zh) * 2015-06-15 2018-07-17 南托米克斯有限责任公司 用于从细胞系基因组学预测患者特异性药物响应的系统和方法
CN109887544A (zh) * 2019-01-22 2019-06-14 广西大学 基于非负矩阵分解的rna序列并行分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160061911A (ko) * 2013-04-08 2016-06-01 데니스 엠. 브라운 최적하 투여된 화학 화합물의 치료 효과

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108292329A (zh) * 2015-06-15 2018-07-17 南托米克斯有限责任公司 用于从细胞系基因组学预测患者特异性药物响应的系统和方法
CN109887544A (zh) * 2019-01-22 2019-06-14 广西大学 基于非负矩阵分解的rna序列并行分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
a graph regularized non-negative matrix factorization method for identifying microRNA-disease associations;qiu xiao et al.;《bioinformatics》;20180115;第34卷(第2期);第239-248页 *
Fusing multiple protein-protein similarity networks to effectively predict incRNA-protein interactions;xiaoxiong zheng et al.;《BMC bioinformatics》;20171016;第11-18页 *
neighborhood regularized logistic matrix factorization for drug-target interactions prediction;yongliu et al.;《plos comput biol》;20160212;第1-26页 *
SFPEL-LPI:sequence-based feature projection ensemble learing for predicting lncRNA-protein interactions;wen zhang et al.;《plos comput biol》;20181211;第1-21页 *
改进的非负矩阵分解算法在miRNA于基因互作关系的研究;尤艳玲;《万方硕士全文数据库》;20131008;第1-62页 *

Also Published As

Publication number Publication date
CN110491443A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN102413029B (zh) 基于分解的局部搜索多目标复杂动态网络社区划分方法
CN110827921B (zh) 一种单细胞聚类方法、装置、电子设备及存储介质
CN106951471B (zh) 一种基于svm的标签发展趋势预测模型的构建方法
CN105718999B (zh) 一种启发式代谢共表达网络的构建方法及系统
CN113488104B (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
CN112489723B (zh) 基于局部进化信息的dna结合蛋白预测方法
CN111145830A (zh) 基于网络传播的蛋白质功能预测方法
CN110555530B (zh) 一种基于分布式的大规模基因调控网络构建方法
CN110232151B (zh) 一种混合概率分布检测的QoS预测模型的构建方法
CN111540405A (zh) 一种基于快速网络嵌入的疾病基因预测方法
Saraswathi et al. Fast learning optimized prediction methodology (FLOPRED) for protein secondary structure prediction
CN111429970A (zh) 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统
KR101090892B1 (ko) 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
Zhu et al. LMMO: a large margin approach for refining regulatory motifs
Wang et al. LPLSG: Prediction of lncRNA-protein Interaction Based on Local Network Structure
CN112613533B (zh) 基于排序约束的图像分割质量评价网络系统、方法
CN114300036A (zh) 遗传变异致病性预测方法、装置、存储介质及计算机设备
CN114187966A (zh) 一种基于生成对抗网络的单细胞rna序列缺失值填补方法
CN110162704B (zh) 基于多因子遗传算法的多规模关键用户提取方法
CN112885405A (zh) 疾病关联miRNA的预测方法和系统
WO2016187898A1 (zh) 代谢物ms/ms质谱计算机仿真方法
Wibowo et al. XGB5hmC: Identifier based on XGB model for RNA 5-hydroxymethylcytosine detection
CN113223622A (zh) 基于元路径的miRNA-疾病关联预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant