CN113313167A

CN113313167A - 一种基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法

Info

Publication number: CN113313167A
Application number: CN202110592443.4A
Authority: CN
Inventors: 彭利红; 王畅; 周立前; 田雄飞
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-27
Anticipated expiration: 2041-05-28
Also published as: CN113313167B

Abstract

本发明涉及一种基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法。首先，LPI特征提取：先获取已知的lncRNA序列、蛋白质序列，分别用Pyfeat和BioTriangle提取lncRNA和蛋白质的特征；然后，特征降维：基于主成分分析(PCA)分别对lncRNA和蛋白质原始特征进行降维，在降维之后将这些特征连接成一个向量；其次，建立LPI预测框架模型：建立由FIR网络和MLP网络组成的双神经网络结构的深度学习模型；最后，利用双神经网络结构对未知lncRNA‑蛋白质对进行分类。本发明比利用实验手段探测大规模的lncRNA‑蛋白质交互作用耗时更少，费用更低，可以实现对多个数据集进行训练和测试，预测偏差小，预测性能好，预测结果准确，并可以用于寻找新的lncRNA‑蛋白质关联对。

Description

一种基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法

技术领域

本发明属于系统生物信息学领域，涉及一种基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法。

背景技术

在过去的几十年里，对多个基因组分析研究表明非编码调控元件控制着复杂有机体的发育过程。非编码元件通常会转录为非编码RNA(ncRNA)，表明了ncRNA在生物体中的重要调控作用，研究表明，ncRNA可以调节许多生物学活动，这些活动对发育、分化和新陈代谢有着重要影响。而长度大于200个核苷酸的非编码RNA被称为长链非编码RNA(Long non-coding RNA,lncRNA)，而lncRNA通过与RNA结合蛋白结合在调节细胞分化过程中发挥作用进而影响基因表达，lncRNA在一些复杂疾病(如癌症、神经系统疾病等)的具有促进或抑制的作用。

而现有技术(专利公布号：201610915233.3)下的一种基于双向随机游走和多标签学习的miRNA-环境因子关系预测方法，具体步骤包括：

1)首先基于已知的miRNA-环境因子关系，构建miRNA-环境因子矩阵ME；然后计算miRNA相似性和环境因子相似性，构建miRNA相似性矩阵和环境因子相似性矩阵；

2)根据miRNA相似性矩阵和环境因子相似性矩阵分别构建miRNA相似性网络和环境因子相似性网络；再基于miRNA相似性网络、环境因子相似性网络和miRNA-环境因子矩阵，构建miRNA-环境因子关系网络；

3)采用双向随机游走和多标签学习方法(Multi-label learning,MLL)来预测潜在的miRNA-环境因子关系：

a)对于miRNA和环境因子都是已知的情况，采用双向随机游走方法，分别在miRNA相似性网络和环境因子相似网络上进行不同步数游走，得到miRNA-环境因子得分矩阵，分值越大表明对应的miRNA和环境因子存在关系的可能性越大；

b)对于新的miRNA，基于miRNA的相似性网络和环境因子的相似性网络，采用多标签学习方法，得到新的miRNA与环境因子之间存在关系的概率值，概率值越大，两者存在关系的可能性越大；

c)对于新的环境因子，基于miRNA的相似性网络和环境因子的相似性网络，采用多标签学习方法，得到新的环境因子与miRNA之间存在关系的概率值，概率值越大，两者存在关系的可能性越大。

机器学习算法(如随机森林、支持向量机和贝叶斯网络)已被广泛应用在分析和提取生物医学数据中，机器学习方法通过训练数据建立最佳拟合模型来进行预测。深度学习作为机器学习的一个分支，也被生物信息学领域所青睐。深度学习克服了一般机器学习的许多局限，推动了生物信息学等各个领域的重大进步。

由于lncRNA和蛋白质具有许多生物学特性，有的特征对预测LPI并无帮助，而这些无关特性会导致维度灾难。在机器学习方法中，通常会先选择最优特征子集，然后再利用这些子集进行模型的训练和预测，特征选择方法提供了一种方法来去除冗余信息，获得对预测结果最有帮助的特征，从而通过提取重要特征来减少计算时间并提高性能来构造更好的分类器。

传统的特征选择技术包括过滤式(filter)、嵌入式(embedded)和包裹式(wrapper)。过滤方法先对数据进行特征选择，然后再训练学习器。嵌入方法是先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。包裹方法选择直接将学习器的性能作为特征子集的评价准则。稳定性在特征选择中占有重要作用，稳定性代表了特征选择方法去重复性能力，特征之间会有一些关联，如果这些特征对分类结果影响较大，那么就会使特征选择模型得到一些等价重要性很高的特征，使得特征选择技术不稳定，所选特征可信度降低，而大多数特征选择方法都会有稳定性方面的问题。

LPI预测的计算方法大致包括基于网络的方法和基于机器学习的方法。基于网络的方法包括随机游走模型、线性邻域传播模型和二分网络投影推荐模型等，这些方法集成了相关的生物信息和网络传播算法来预测新的LPI。基于机器学习的方法包括矩阵分解方法和基于集成学习等。目前，LPI-XGBoost、LPI-HeteSim、LPI-NRLMF和PLIPCOM是四种先进的研究LPI的方法。LPI-XGBoost使用一种新型算法来处理分类LPI特征，并使用有序增强技术来对未知的lncRNA-蛋白质对进行分类。LPI-HeteSim利用HeteSim方法评估lncRNA-蛋白质异构网络中的lncRNA与蛋白质之间的相关性。LPI-NRLMF利用邻域正则化Logistic矩阵分解对未知的lncRNA-蛋白质对进行评分。PLIPCOM从异构的lncRNA-蛋白质网络中提取扩散特征和HeteSim特征，提出了一种梯度树Boosting方法对lncRNA-蛋白质对进行分类。LPI-HeteSim和LPI-NRLMF是基于网络的LPI预测方法。LPI-XGBoost和PLIPCOM是两种基于机器学习的LPI预测方法。虽然这些计算模型在LPI识别中得到了有效的应用，但仍有一些问题需要解决。首先，这些模型中的大多数是基于单一的数据集进行训练和测试的，因此可能会导致应用于其他数据集时会有预测偏差，从而给提高模型预测性能带来了难题。然后，大多数方法没有应用于新的lncRNA-蛋白质关联对预测。其次，利用实验手段探测大规模的lncRNA-蛋白质交互作用耗时且昂贵。最后，这些算法的预测性能仍有待提高。

发明内容

针对现有技术存在的问题，本发明提供一种基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，具有预测偏差小，预测性能好，预测准确性高的优点。

本发明采取的技术方案包括以下步骤：

步骤1：LPI特征提取，先获取已知的lncRNA序列、蛋白质序列，运用Pyfeat对所获得的lncRNA序列进行数字特征提取，形成相应的多维向量A，运用BioTriangle对所获得的蛋白质序列进行数字特征提取，形成相应的多维向量B；

步骤2：特征降维，基于主成分分析(PCA)分别对lncRNA和蛋白质原始特征进行降维，得到两个d维向量，将获得的两个d维特征向量连接起来，将lncRNA-蛋白质对表示为2d维向量x；

步骤3：建立LPI预测框架模型，将2d维向量x与表示lncRNA-蛋白质对的对应标签y表示为D＝{X,Y}的LPI数据集，其中，LPI网络表示为一个矩阵Y：

假设D＝{X,Y}表示LPI数据集，其中(X,Y)表示lncRNA-蛋白质对，x∈X表示二维特征向量，y∈Y表示lncRNA-蛋白质对的对应标签；

步骤4：LPI分类，建立由FIR网络和MLP网络组成的双神经网络结构的深度学习模型，FIR网络根据上一次迭代中MLP网络获得的分类结果选择最优的LPI特征子集，MLP网络基于FIR网络中提取的最佳LPI特征子集对lncRNA-蛋白质对进行分类，这两个网络在数据集上交替训练；

步骤5：利用FIR网络生成最优LPI特征子集，而MLP网络根据最优LPI特征子集训练得到的参数对未知lncRNA-蛋白质对进行分类；

进一步地，所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，所述的LPI预测框架中，设m∈M表示由值为0或1的元素组成的2d维掩码向量，其中||m||₀＝s,s<2d，并且

掩码向量

表示任意lncRNA-蛋白质对x的s个特征的子集，其中

表示哈达玛积。假设Q_(x,m)表示通过屏蔽了部分特征之后，MLP网络训练得到的预测性能，基于其得分对其进行排序：(m^*,Score(m^*))＝arg max_m∈M∑_x∈XQ(x,m)，其中m^*表示所得性能最好的掩码子集；Score(m^*)表示其特征子集的重要性得分。使用所选择的最佳特征子集来计算每个lncRNA-蛋白质对的标签；

进一步地，所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，在候选LPI特征子集

中加入噪声，以增强局部搜索能力，其中M′在学习期间可能改变，将训练样本(x,y)∈D结合掩码转换为：

使用不同的特征子集对MLP网络进行训练和学习：f_MLP::X×M→Y。MLP网络的损失函数定义为：

其中

表示在训练期间的二进制交叉熵损失；

进一步地，所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，在MLP网络中，所有中间层的激活函数使用sigmoid，最终输出层的激活函数使用softmax，使用训练好的网络f_MLP(α^*；x；m^*)来预测LPI；

进一步地，所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，FIR网络根据MLP网络的预测结果选择最优的LPI特征子集。对于每个lncRNA-蛋白质对x∈X，通过最大的Q(x,m)来寻找最优LPI特征子集。并对特征进行排序，通过Score(m^*)生成m^*的最佳特征子集。FIR网络上的损失函数定义为：

在FIR网络中，所有中间层使用sigmoid函数激活，最终输出层使用线性函数作为激活函数。训练后的f_FIR(β^*；x；m^*)具有最优参数β^*，用于提取测试数据集上的最优特征；

进一步地，所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，在学习过程中，FIR网络协助MLP网络提供最优的LPI特征子集|M′|，而MLP网络将所有m∈M′的损失值

反馈给FIR网络；

进一步地，所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，MLP网络经过若干次训练，直到在不同的LPI特征子集上产生稳定的性能。在每次训练中，从M中随机提取不同掩码的特征子集M′₁，

其中，Random(M,s)表示从M中随机提取由s个1和(2d-s)个0组成的2d维掩码的函数。α通过NAdam方法进行训练：

其中η表示学习速率。在E次训练之后：

α₁＝α″(E)，

将上述参数输入到FIR网络；

进一步地，所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，在第t步，由MLP网络提供FIR网络中的训练样本m：

首先随机初始化β₁，然后使用Adam方法来更新参数β：

在第t+1步产生一个新的掩码特征子集M′_t+1，应用于FIR网络。将特征子集M′_t+1分成两个互斥的子集：M′_t+1＝M′_t+1,1∪M′_t+1,2，用随机函数

来生成M′_t+1,1，通过增加噪声来减少过拟合。

进一步地，所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，其训练的整体流程如下：

阶段I:初始化最优特征子集m_t+1,opt：

(1):计算

(2):通过以下四步计算贡献度最高的s个特征

a.通过

计算贡献排名前s的特征，其中

b.用

中梯度最大的特征替换m_opt中的特征，重新生成最优特征子集；

c.通过

生成最佳LPI特征子集；

d.重复(2)-(3)直到f_FIR(β_t+1；m_opt)≤f_FIR(β_t+1；m′_opt)获得最优子集m_t+1,opt；

阶段II:通过扰动生成多个最优LPI特征子集：

基于扰动函数基于扰动函数Perturb(m_opt,s_p)随机将s_p(s_p<s)中的不同元素从1/0转换为0/1，并交换m_opt和

中的元素；

重复扰动函数并获得多个最佳LPI特征子集m_i|m_i＝Perturb(m_t+1,opt,s_p)；

阶段III:集成最优LPI特征子集候选：

(1)使m_t,best成为LPI最佳特征子集候选，其有助于MLP网络在第t步的预测；

(2)根据阶段I和II得到特征子集：

FIR网络根据上述训练过程为MLP网络提供最优LPI特征子集M′_t+1＝M′_t+1,1∪M′_t+1,2。然后通过随机局部搜索方法在M′_t+1上训练MLP网络参数：

交替训练FIR网络和MLP网络，直到得到预定的结果为止；

进一步地，所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，在完成训练之后，得到最优的FIR网络和MLP网络的参数α^*和β^*。算法1提取了最优特征子集m^*，利用算法2对lncRNA-蛋白质对进行分类：

(1)计算梯度

其中

(2)找出排名前s的LPI特征，通过

得到m^*；

(3)基于算法1得到最优特征子集m^*；

(4)根据

获取最优LPI特征子集；

(5)用训练好的MLP网络

预测lncRNA-蛋白质对得到标签；

与现有技术相比，本发明的先进之处在于：

本发明通过特征重要性排序(FIR)方法旨在评估单个特征在分类模型性能中的作用，是解决可解释问题的有力工具之一，促进了对分类任务的理解和关键特征的发现。FIR方法通过对特征的重要性排序来进行特征选择，通过降低空间和时间复杂度，并进一步提高分类器的准确度和速度。深度学习的FIR最大限度地提高深度学习分类结果的准确性，本发明方法通过深度学习的双神经网络结构，对lncRNA-蛋白质对分类，通过计算机运算算法快速预测lncRNA-蛋白质的相互作用。

综上，本发明可以实现对多个数据集进行训练和测试，使得预测偏差小，预测性能更好，预测结果更准确，并可以用于寻找新的lncRNA-蛋白质关联对，比利用实验手段探测大规模的lncRNA-蛋白质交互作用耗时更少费用更低。

附图说明

图1为LPI-DLDN流程图；

图2为数据集1通过LPI-DLDN计算后的前50个关联；

图3为数据集2通过LPI-DLDN计算后的前50个关联；

图4为数据集3通过LPI-DLDN计算后的前50个关联；

图5为数据集4通过LPI-DLDN计算后的前50个关联；

图6为数据集5通过LPI-DLDN计算后的前50个关联；

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

如图1所示，本发明具体实现过程如下：

本发明涉及了一种基于深度学习的双神经网络结构的方法(LPI-DLDN)来寻找新的lncRNA-蛋白质相互作用(LPI)，该模型结合多种生物数据、降维、特征选择、双神经网络架构和特征重要性排序。本实验有以下三个主要过程：

1)整合lncRNA和蛋白质的生物学特征，以更有效地发现lncRNA和蛋白质之间的相互作用。

2)建立了一个由FIR网络和MLP网络组成的双神经网络结构的深度学习模型，用于未知lncRNA-蛋白质对的分类。

3)采用勘探开发策略选择有代表性的特征，提高了LPI-DLDN的适用性。

数据准备阶段：

一共收集了五个不同的LPI数据集，数据集概况如表1所示。数据集1、2和3来自人类，其余的来自植物。数据集1由李等人构建，从NPInter 2.0数据库下载lncRNA-蛋白质相互作用，并通过限制类型为lncRNA，生物体为人类进行筛选。然后根据NONCODE 4.0数据库选择了938个lncRNA和59个蛋白质中的3,487个人类LPI。最后，去除了NPInter、NONCODE和UniProt数据库中没有序列的lncRNA和蛋白质，最终得到了935个lncRNA和59个蛋白质中的3,479个LPI。

数据集2由郑等人构建，首先分别从NPInter 2.0数据库和NONCODE 4.0数据库下载人类lncRNA-蛋白质相互作用。然后，通过手动去除只与一种蛋白质相互作用的lncRNA，从1,050个lncRNA和84个蛋白质中获得4,467个LPI。最后，通过去除冗余lncRNA和蛋白质，获得了885个lncRNA和84个蛋白质之间的3,265个LPI。

数据集3由章等人构建，得到了1,114个lncRNA和96个蛋白质的LPI。分别从NONCODE 4.0数据库和SUPERFAMILY数据库中提取lncRNA和蛋白质的序列信息。通过人工去除无关的序列信息或仅与一种蛋白质(或lncRNA)相互作用的lncRNA(或蛋白质)，最终筛选出了990个lncRNA和27个蛋白质中的4,158个LPI。

数据集4和5分别包含关于拟南芥和玉米的LPI相关生物信息，lncRNA和蛋白质的序列数据可以从http://bis.zju.edu.cn/PlncRNADB/获得。数据集4包含109个lncRNA和35个蛋白质之间的948个LPI，数据集5包含1,704个lncRNA和42个蛋白质之间的22,133个LPI。

将LPI网络表示为一个矩阵Y

LPI-DLDN概述：

受目前一些算法的启发，提出了一种基于特征提取、降维、FIR和多层感知器(MLP)的双网络结构深度学习模型来预测LPI。

LPI-DLDN框架主要由三个步骤组成。(1)LPI特征提取。使用Pyfeat和BioTriangle获得lncRNA和蛋白质的原始特征。(2)特征降维。在获得原始特征之后，基于主成分分析(PCA)将这些原始特征分别变换为d维向量。并将这两个d维的特征向量连接为2d维向量。(3)LPI分类。提出了一种基于双网络结构的深度学习模型，用于对未知的lncRNA-蛋白质对进行分类。该体系结构由两个网络组成：FIR网络和MLP网络。FIR网络从上一次迭代中MLP网络获得的分类精度选择最优的LPI特征子集。MLP网络基于FIR网络中提取的最佳LPI特征子集对lncRNA-蛋白质对进行分类，这两个网络以交替的方式在数据集上训练。最后，利用FIR网络识别最优LPI特征子集，而MLP网络根据提取的最优LPI特征子集的训练得到的参数对未知lncRNA-蛋白质对进行分类。

Pyfeat被广泛用于DNA、RNA和蛋白质序列的数字特征提取上，该工具集成了13种类型的特征，使用Pyfeat提取lncRNA特征，得到一个14,892维的向量。

BioTriangle使用了14种特征来表示蛋白质信息，利用BioTriangle来提取蛋白质的特征，得到一个10,029维的向量。

基于主成分分析(PCA)分别对lncRNA和蛋白质特征进行降维，得到两个d维向量。然后，将获得的两个d维特征向量连接起来，将lncRNA-蛋白质对表示为2d维向量x。

LPI预测框架:

假设D＝{X,Y}表示LPI数据集，其中(X,Y)表示lncRNA-蛋白质对，x∈X表示二维特征向量，y∈Y表示lncRNA-蛋白质对的对应标签。本发明的目标是为未知的lncRNA-蛋白质对找到标签。设m∈M表示由值为0或1的元素组成的2d维掩码向量，其中||m||₀＝s,s<2d，并且

掩码向量

表示任意lncRNA-蛋白质对x的s个特征的子集，其中

表示哈达玛积。假设Q_(x,m)表示通过屏蔽了部分特征之后，MLP网络训练得到的预测性能，基于其得分对其进行排序：(m^*,Score(m^*))＝arg max_m∈M∑_x∈XQ(x,m)其中m^*表示所得性能最好的掩码子集。Score(m^*)表示其特征子集的重要性得分。可以使用所选择的最佳特征子集来计算每个lncRNA-蛋白质对的标签。

事实上，此模型描述了一个组合优化问题。在基于“没有免费午餐”理论的组合优化问题中，没有一种算法的性能优于随机策略。因此，本发明在候选LPI特征子集

中加入噪声，以增强随机局部搜索能力，其中M′在学习期间可能改变。本发明将训练样本(x,y)∈D结合掩码转换为：

使用不同的特征子集对MLP网络进行训练，学习f_MLP:X×M→Y。MLP网络的损失函数定义为：

其中

表示在训练期间的二进制交叉熵损失。在MLP网络中，所有中间层的激活函数使用sigmoid，最终输出层的激活函数使用是softmax。使用训练好的网络f_MLP(α^*；x；m^*)来预测数据集上LPI。

FIR网络根据MLP网络的预测结果选择最优的LPI特征子集。对于每个lncRNA-蛋白质对x∈X，通过最大的Q(x,m)来寻找最优LPI特征子集。并对特征进行排序，通过Score(m^*)生成m^*的最佳特征子集。FIR网络上的损失函数定义为：

在FIR网络中，所有中间层使用sigmoid函数激活，最终输出层使用线性函数作为激活函数。训练后的f_FIR(β^*；x；m^*)具有最优参数β^*，用于提取测试数据集上的最优特征。

在学习过程中，FIR网络协助MLP网络提供最优的LPI特征子集|M′|，而MLP网络将所有m∈M′的损失

反馈给FIR网络。

MLP网络经过若干次训练，直到可以在不同的LPI特征子集上产生稳定的性能。每次训练中，从M中随机提取不同掩码的特征子集M′₁，

其中，Random(M,s)表示从M中随机提取由s个1和(2d-s)个0组成的2d维掩码的函数。α通过NAdam方法进行训练，

其中η表示学习速率。在E次训练之后：α₁＝α″(E)，

将上述参数输入到FIR网络。

在第t步，由MLP网络提供训练样本m：

并传入FIR网络。首先随机初始化β₁，然后使用Adam方法来更新参数β：

在第t+1步产生一个新的掩码特征子集M′_t+1，应用于FIR网络。将特征子集M′_t+1分成两个互斥的子集：M′_t+1＝M′_t+1,1∪M′_t+1,2。采用随机函数

来生成M′_t+1,1，通过增加噪声来减少过拟合。

在阶段I中，初始2d维的LPI特征向量

使每个特征被选择的可能性一样。当输入特征具有较大梯度时，MLP网络的学习能力会较强，因此，本发明通过

来选择排名较高的特征，其中m_opt表示排名最高的s个特征的掩码，

表示其余(2d-s)个特征的掩码。可以基于算法1中阶段I中的四步选择m_opt。

在阶段II中，为了避免m_t+1,opt产生局部最优，得到多个更优的LPI特征子集，利用扰动函数Perturb(m_opt,s_p)注入噪声数据。例如在给定s_p<s的情况下，通过扰动函数Perturb(m_opt,s_p)将

中s_p的不同元素从1/0随机转换为0/1，并修改m_opt和

中元素的相应值。本发明重复扰动并获得最优LPI特征子集候子集{m_i|m_i＝Perturb(m_t+1,opt,s_p)}。

在阶段III中，获得了最优子集候选者m_t,best，将最优特征子集的候选子集M′_t+1,2表示为m_t+1,opt，{m_i|m_i＝Perturb(m_t+1,opt,s_p)}，m_t,best的并集。

基于MLP网络和FIR网络以及最优特征子集进行分类：

交替训练FIR网络和MLP网络，直到得到预定的结果为止。

在在执行了上述步骤之后，可以得到最优的FIR网络和MLP网络的参数α^*和β^*。算法1提取了最优特征子集m^*以及FIR网络和MLP网络的最佳参数β^*和α^*，然后利用算法2对lncRNA-蛋白质对进行分类。

使用六个指标来评估LPI-DLDN算法的性能：PRE、REC、ACC、F1-Score、AUC和AUPR。更高的PRE、REC、ACC、F1-Score、AUC和AUPR意味着更好的性能。实验重复20次，将20次的结果求平均，得到最终的性能。

PyFeat用于提取lncRNA特征，参数设定如下：KGAP＝5，KTuple＝3，Opti-Mumdataset＝0，Pseudoknc＝1，Zcurve＝1，GcContent＝1，CumulativeSw＝1，Atgcratio＝1，Monomono＝1，monodi＝1，monotri＝1，dimono＝1，didi＝1，ditri＝1，tridono＝1，tridi＝1。LPI-Hetesim中的参数为的默认值。

采用网格搜索，发现当d＝100时，LPI-DLDN获得了更好的性能。因此，分别提取了两个100维的lncRNA和蛋白质特征向量。用三种5折交叉验证来度量LPI-DLDN的性能。

1)lncRNAs的五折交叉验证(CV1)：屏蔽Y中的随机行，即在每一轮中选择80％的lncRNA作为训练集，剩下的20％作为测试集。

2)蛋白质五折交叉验证(CV2)：屏蔽Y中的随机列，即每轮选择80％的蛋白质作为训练集，剩余的20％作为测试集。

3)lncRNA-蛋白质对(CV3)的五折交叉验证：随机屏蔽Y中的lncRNA-蛋白质对，即在每一轮中选择80％的lncRNA-蛋白质对作为训练集，剩下的20％作为测试集。

上述三个CV分别涉及(1)新的lncRNA(即不与任何蛋白质相互作用的lncRNA)，(2)新的蛋白质(即不与任何lncRNA相互作用的蛋白质)和(3)新的lncRNA-蛋白质对的LPI预测。

将提出的LPI-DLDN方法与四种LPI预测方法(LPI-XGBoost、LPI-HeteSim、LPI-NRLMF和PLIPCOM)进行了比较，以评估LPI-DLDN的预测能力。在实验中，将负样本的个数设置为与正样本的个数相同，以减少数据不平衡产生的过拟合或欠拟合。每个指标的最佳值在表3到表5的每一行加粗表示。

表3表示了五种LPI预测模型在CV1下的PRE、REC、ACC、F1-Score、AUC和AUPR的性能。LPI-DLDN在五个数据集上获得了最高的平均PRE、REC、F1-Score和AUC，显著优于LPI-XGBoost、LPI-HeteSim、LPI-NRLMF和PLIPCOM。虽然LPI-DLDN计算的平均ACC和AUPR分别略低于LPI-XGBoost和LPI-HeteSim，但差别很小，可以忽略不计。例如，LPI-XGBoost算法的平均ACC为0.8199，而LPI-DLDN算法的平均ACC为0.8165，仅比LPI-XGBoost算法的精度低0.40个百分点。LPI-HeteSim的平均AUPR为0.8185，而LPI-DLDN的平均AUPR为0.8150，差距只有0.43％。LPI-XGBoost、LPI-HeteSim、LPI-NRLMF和PLIPCOM是先进的LPI预测方法，在预测新的LPI中取得了优异的性能。LPI-DLDN的性能优于四种方法，或者只有很小的差别。因此，LPI-DLDN是寻找与未知lncRNA与蛋白质相互作用的有力工具。

表4显示了CV2下的比较结果。如表4所示，LPI-DLDN的平均性能确实略低于部分LPI预测方法。虽然LPI-HeteSim和LPI-NRLMF的平均性能略好于LPI-DLDN，但这两种基于网络的LPI预测模型有一个严重的缺陷，这类模型无法发现单独lncRNA(或蛋白质)可能的相互作用信息。与其他五个指标相比，AUPR是一个更重要的指标，在这项指标上，LPI-DLDN部分优于其他算法。而除去基于网络的方法LPI-DLDN的平均预测性能优于LPI-XGBoost和PLIPCOM这两个基于机器学习的LPI预测模型。结果表明，LPI-DLDN是一种用于发现与新蛋白质相关的lncRNA的有效的有监督学习方法。

在CV3下的比较结果如表5所示。在所有数据集上，LPI-DLDN在PRE、REC、F1-Score、AUC和AUPR方面都显著优于其他四种LPI预测模型。例如，LPI-DLDN计算的最佳平均AUC值为0.9110，分别比LPI-XGBoost、LPI-HeteSim、LPI-NRLMF和PLIPCOM高1.22％、11.27％、2.29％和2.65％。更重要的是，对于AUPR，LPI-DLDN获得了最好的平均性能：0.8984，比排名第二的方法高出1.46个百分点，比排名第三的方法高出5.92个百分点。实验结果表明，LPI-DLDN具有很强的分类能力。因此，LPI-DLDN可以在已知LPI的基础上有效地发现新的lncRNA与蛋白质对的相互作用。

最后，对LPI-DLDN的性能进行验证：

寻找与新的lncRNA相关的蛋白质

FGD5-AS1在多种人类肿瘤中发挥了重要作用。例如，FGD5-AS1可以通过抑制肠癌细胞的迁移、侵袭、增殖和促进细胞凋亡而成为治疗直肠癌的可能靶点。通过与抗USP21的miR-520B结合，它可能成为口腔鳞状细胞癌的一个可能的靶点。它有可能通过hsa-miR-153-3p/CITED2下游遗传轴调控人胃癌，并通过海绵hsa-miR-107上调FGFRL1促进非小细胞肺癌细胞增殖。

在数据集1，2，3中，FGD5-AS1(分别编号为NONHSAT088370、n384228、NONHSAT088370)分别与6、6和8个蛋白质相互作用。为了寻找与FGD5-AS1相互作用的新蛋白质，把FGD5-AS1作为新的lncRNA，然后使用这五种LPI鉴定方法来寻找与FGD5-AS1相关的蛋白质。实验重复10次，选出了预测的与FGD5-AS1相互作用的前5个蛋白质。在数据集3中，O00425、Q9Y6M1和Q9NZI8预测为与FGD5-AS1相互作用，虽然在数据集3中上述三种蛋白与FGD5-AS1之间的关联未知，但这三种蛋白质在数据集1已被证实与FGD5AS1相互作用。

结果表明，LPI-DLDN对新的lncRNA具有很强的预测能力。

寻找可能与新的蛋白质相互作用的lncRNA：

Q9H9G7是RNA基因表达所必需的一种蛋白质。该蛋白质与RNA结合，并抑制与之互补的mRNA的翻译。它影响干细胞中小RNA衍生物的稳定，以及影响RNA聚合酶II转录的编码mRNA的siRNA的降解。

Q9H9G7分别与数据集1，2，3上的126、126和137个lncRNA相互作用。屏蔽了Q9H9G7的关联信息，并使用LPI-DLDN方法来寻找与蛋白质相互作用的lncRNA。重复实验10次，得到了所有lncRNA-蛋白质对的平均关联分数，在表7中预测得到的列出了Q9H9G7的前5个关联的lncRNA。预测，蛋白质n343060可能与Q9H9G7相互作用，在数据集2上的排名为3。此外，在可能与Q9H9G7相关的885个lncRNA中，n343060与Q9H9G7之间的相互作用排名为18。结果显示，n343060可能与Q9H9G7相互作用，并有待进一步的实验验证。

基于已知的LPI查找新的LPI：

基于LPI-DLDN，进一步预测了新的LPI。通过重复实验10次，计算了数据集1到5上所有lncRNA-蛋白质对相互作用的平均概率，并发现NONHSAT011709(RPI001_236932)与Q15717，n338615(RP11-439E19.10)与Q15717，NONHSA T006254(RP11-196G18.22)与Q9NUL5，AthlncRNA309(Tcon-00051077)与F4JLJ3，ZmalncRNA1625与B8A305，这五组LPI相互作用的概率最大。在五个数据集中分别有55,165、74,340、26,730、3,815和71,568个lncRNA-蛋白质对。在所有的lncRNA-蛋白质对中，上述预测的5个相互作用分别排在3、13、7、583和853位。

RP11-439E19.10已被发现可能通过与促炎性细胞因子相互作用促进卵巢肿瘤的产生和发展。此外，它可能与食管癌干细胞的放射敏感性有关，有可能成为食管鳞癌治疗的新靶点。Q15717是RNA结合蛋白，该蛋白有助于胚胎干细胞分化，可以调节p53/TP53的表达，CDKN2A的抗增殖活性，并增加mRNA的稳定性。

在数据集2中，研究证实RP11-439E19.10与Q13148、P35637和Q01844有关。在调控神经退行性疾病中，Q13148与神经元存活相关的蛋白质和编码蛋白质的mRNA的剪接，它可以控制mRNA的稳定性，在维持生物钟周期和线粒体动态平衡方面起着重要作用，它参与正常骨骼肌的形成和再生。P35637与多种细胞过程密切相关。该蛋白质可以结合mRNA，并自动调节其表达。它在树突棘的形成和稳定、mRNA的稳定和神经元细胞内突触的稳态方面起着关键作用。Q01844在肿瘤发生过程中起重要作用，该蛋白可能干扰基因表达，并协助融合蛋白质靶基因的激活。Q15717与Q13148、P35637、Q01844具有相似的功能。基于“关联推定”原理，相似的lncRNA可能与相似的蛋白质相互作用。更重要的是，在数据集1中的55,165个lncRNA-蛋白质对中，LPI-DLDN算法预测出RP11-439E19.10与Q15717的关联排第三位。因此，可以推测RP11-439E19.10可能与Q15717是相互关联的。

研究结果证明，RP11-196G18.22可能与肺腺癌及邻近组织密切相关。Q9NUL5可抑制病毒和细胞基因多个mRNA的程序性-1核糖体移码(-1PRF)，该蛋白可能导致提前翻译终止。它可能阻止DENV RNA的翻译，阻断寨卡病毒的复制，限制丙型肝炎病毒的复制。可以推测RP11-196G18.22可能与Q9NUL5相互作用，在所有26,730个lncRNA蛋白对预测结果中排名第7，需其他实验进行验证。

讨论和进一步研究：

LncRNA已被证实在许多生物活动中发挥重要作用。此外，lncRNA与多种复杂疾病的产生密切相关。然而，由于其进化的保守性差，大多数lncRNA的功能尚不明确。因此，寻找lncRNA与其他生物实体之间的联系(如LPI)，解释其生物学功能和分子机制是一项重要的任务。

近年来，研究人员致力于构建各种计算模型来识别新的LPI。基于这些计算方法，可以预测lncRNA和蛋白质之间的相互作用概率，对排名最高的lncRNA-蛋白质对可以应用于进一步的生物医学实验验证，减少实验的时间和成本。因此，预测LPI的算法为寻找这些关联提供了有效的指导和支持。

本发明涉及了一种基于双神经网络结构的LPI预测方法(LPI-DLDN)。首先，在现有数据集的基础上得到了五个LPI数据集。然后，分别用PyFeat和BioTriangle提取lncRNA和蛋白质的特征。之后，基于主成分分析对特征进行降维，并将其连接成向量。最后，公开了由FIR网络和MLP网络组成的深度学习模型来预测新的LPI。将LPI-DLDN与四种先进的LPI预测模型LPI-XGBoost，LPI-HeteSim、LPI-NRLMF和PLIPCOM作对比，在五个LPI数据集上的实验结果表明，该算法对lncRNA-蛋白质对的分类性能良好。进一步应用案例研究来发现新的lncRNA(或蛋白质)与蛋白质(或lncRNAs)和的未知关联。

LPI-DLDN在构建的五个数据集上获得了最好的平均性能。这可能归因于以下特点：首先，它整合了lncRNA和蛋白质的生物学特性。其次，由FIR网络和MLP网络组成的具有双网络神经结构的深度学习模型表现出极强的分类能力。之后，由FIR方法选择出了最优的LPI特征，提高了LPI-DLDN模型的预测能力。最后，在LPI预测中同时利用不同的特征子集，以较少的随机LPI特征生成更多的训练样本，进一步提升了预测能力。

Claims

1.一种基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，包括以下步骤：

步骤3：建立LPI预测框架模型，将2d维向量x与表示lncRNA-蛋白质对的对应标签表示为D＝{X,Y}的LPI数据集，LPI网络表示为一个矩阵Y：

假设D＝{X,Y}表示LPI数据集，其中(,Y)表示lncRNA-蛋白质对，x∈X表示二维特征向量，y∈Y表示lncRNA-蛋白质对的对应标签；

步骤5：利用FIR网络生成最优LPI特征子集，而MLP网络根据最优LPI特征子集训练得到的参数对未知lncRNA-蛋白质对进行分类。

2.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，其特征在于，在所述的LPI预测框架中，设m∈M表示由值为0或1的元素组成的2d维掩码向量，||m||₀＝s,s<2d，并且

掩码向量

表示任意lncRNA-蛋白质对x的s个特征的子集，其中表示哈达玛积；假设Q_(x,m)表示通过屏蔽了部分特征之后，MLP网络训练得到的预测性能，基于得分对其进行排序：(m^*,Score(m^*))＝argmax_m∈M∑_x∈XQ(x,m)，其中m^*表示所得性能最好的掩码子集，Score(m^*)表示其特征子集的重要性得分，使用所选择的最佳特征子集来计算每个lncRNA-蛋白质对的标签。

3.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，其特征在于，在候选LPI特征子集

中加入噪声，以增强随机局部搜索能力，其中M′在学习期间可能改变，将训练样本(x,y)∈D结合掩码转换为：

使用不同的特征子集对MLP网络进行训练，学习f_MLP:X×M→Y，MLP网络的损失函数定义为：

其中

表示在训练期间的二进制交叉熵损失。

4.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，其特征在于，在MLP网络中的所有中间层的激活函数使用sigmoid，最终输出层的激活函数使用softmax，使用训练好的网络f_MLP(α^*；x；m^*)来预测数据集上LPI。

5.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA－蛋白质相互作用方法，其特征在于，FIR网络根据MLP网络的预测结果选择最优的LPI特征子集，对于每个lncRNA-蛋白质对x∈X，通过最大的Q(x,m)来寻找最优LPI特征子集，并对特征进行排序，通过Score(m^*)生成m^*的最佳特征子集，FIR网络上的损失函数定义为：