CN115394348A

CN115394348A - 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质

Info

Publication number: CN115394348A
Application number: CN202210829698.2A
Authority: CN
Inventors: 曾敏; 李敏; 赵保莹
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-25

Abstract

本发明公开了一种基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质，方法包括：(1)将待测lncRNA序列转换为k‑mer形式的序列，以转换后序列中各k‑mer单元为节点进行构图得到带权有向图，并对图的边权进行标准化处理得到边权标准化的有向图；(2)基于word2vec技术提取有向图中各节点的分布式词向量，并嵌入到边权标准化的有向图中；(3)采用预先训练好的基于图卷积网络的预测模型，根据嵌入分布式词向量的有向图，对待测lncRNA序列进行亚细胞定位输出。本发明比传统机器学习模型和现有方法更好的预测性能。

Description

基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质

技术领域

本发明属于生物信息学领域，具体涉及一种基于图卷积网络的lncRNA亚细胞定位预测方法。

背景技术

长链非编码RNA(lncRNA)通常包含超过200个核苷酸，是一类极其重要的生物大分子。随着高通量测序技术的快速发展，越来越多的证据表明，lncRNA几乎参与了细胞的所有生命周期，包括代谢过程、表观遗传调控、细胞分化和凋亡、染色体异常、器官或组织发育。例如，lncRNA通过与染色质修饰蛋白或转录因子及其特定的蛋白结合基序相互作用，对基因表达的活跃状态起到调控作用；lncRNA可以直接和与其互补的DNA序列结合，形成RNA-DNA三重结构，可阻断转录过程。此外，人类的许多疾病都与lncRNA的突变或失调密切相关，例如乳腺癌、前列腺癌、肝细胞癌、结肠癌、膀胱癌、甲状腺癌、肺癌、卵巢癌、阿兹海默症、糖尿病和艾滋病。因此，近年来，生物学领域中的lncRNA功能研究越来越多。

据研究报道，lncRNA的亚细胞定位是不同的，lncRNA亚细胞定位的机制也是多样的。了解lncRNA的亚细胞定位可以为洞察其功能提供宝贵的见解。例如，位于细胞核的lncRNA PVT1通过干扰细胞核中MYC Thr58位点的磷酸化，从而增加MYC的稳定性，导致癌症中MYC水平升高；位于细胞质中的lncRNA linc-MD1可以抑制miR-133，从而影响转录因子对肌肉特异性基因表达的作用；位于外泌体中的lncRNA，被认为可以通过RNA载体介导细胞间的交流。因此，鉴定lncRNA的亚细胞定位对于了解lncRNA的生物学功能至关重要。

单分子荧光原位杂交技术(smFISH)是确定RNA亚细胞定位的生化实验方法之一。尽管这样的图像数据对于确定lncRNA的定位区间是完美的，但该技术是昂贵的、耗时，并且有技术难度。鉴于这些缺点，开发准确和可靠的计算方法来预测lncRNA的亚细胞定位对生物学家来说是非常有价值的。

发明内容

本发明所要解决的技术问题是，针对已有lncRNA亚细胞定位预测方法中k-mer频数特征无法有效提取序列高级特征的缺点，提供一种基于图卷积网络的lncRNA亚细胞定位预测方法，预测性能好。

为实现上述技术目的，本发明采用如下技术方案：

一种基于图卷积网络的lncRNA亚细胞定位预测方法，包括：

(1)将待测lncRNA序列转换为k-mer形式的序列，以转换后序列中各k-mer单元为节点进行构图得到带权有向图，并对图的边权进行标准化处理得到边权标准化的有向图；

(2)基于word2vec技术提取有向图中各节点的分布式词向量，并嵌入到边权标准化的有向图中；

(3)采用预先训练好的基于图卷积网络的预测模型，根据嵌入分布式词向量的有向图，对待测lncRNA序列进行亚细胞定位输出。

进一步地，步骤(1)具体过程为：

将待测lncRNA序列转换为k-mer形式的序列，并按顺序依次将每个k-mer单元分配到节点上，且相邻的k-mer单元节点使用有向边连接，得到无权有向图；

将无权有向图中k-mer单元相同的节点粘合为一个，并基于相邻节点构成的(k+1)-mer单元的频数给每条有向边分配权重，得到带权有向图；

按以下计算式对带权有向图中的边权进行标准化处理，得到边权标准化的有向图：

式中，e_ji表示从节点j指向节点i的有向边的原始分配权重，e_jk表示从节点j指向节点k的有向边的原始分配权重，e_ki表示从节点k指向节点i的有向边的原始分配权重，N(i)表示节点i的所有邻居节点的集合，w_ji表示从节点j指向节点i的有向边在标准化处理后的权重。

进一步地，步骤(2)具体过程为：

将基准数据集中的所有lncRNA序列作为语料库；

将语料库中每个lncRNA序列均转换为k-mer形式的序列；

将每个k-mer形式的序列作为语句，其中每个k-mer单元作为单词，使用word2vec中的Skip-gram模型学习lncRNA中核苷酸的上下文信息，最后获得每个k-mer单元的分布式词向量，得到词向量库；

从词向量库中获取待测lncRNA序列中各k-mer单元的分布式词向量，嵌入到边权标准化的有向图的各节点中。

进一步地，所述基于图卷积网络的预测模型，通过堆叠多层GCN和具有激活函数的全连接层构成。

进一步地，k＝4。

一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一项所述的基于图卷积网络的lncRNA亚细胞定位预测方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的基于图卷积网络的lncRNA亚细胞定位预测方法。

有益效果

目前现有技术方法往往是依靠k-mer频数特征来编码lncRNA序列。在机器/深度学习模型中，如何将原始lncRNA序列编码为判别特征是最重要的问题之一。然而，利用k-mer频数特征编码lncRNA序列存在一些缺陷。(1)只能反映频数信息，而忽略了序列顺序信息；(2)当k固定时，它无法捕捉到不同长度的motif片段。(3)并且，当k较小时，编码方法不能获得足够的特征信息或不能捕获有用的特征，导致预测模型欠拟合。当k较大时，编码向量的维数呈指数级增长，会使编码向量变得稀疏，浪费计算资源，并可能导致过拟合问题。

与以往的研究利用k-mer频数特征编码lncRNA序列不同，本发明将lncRNA序列转换为de Bruijn图，可以提供更全面的信息。在de Bruijn图中，图的节点是k-mer单位，边的方向由序列顺序决定。然后，使用预先训练好的k-mer的word2vec嵌入向量作为节点特征，并对边赋权。接着，使用图卷积网络学习隐含表示，并从de Bruijn图中提取高级特征。最后，使用全连接层来执行预测任务。因此本发明将序列转换为图的优点有如下几点：

(1)通过有向图的形式可以保存lncRNA序列的局部有序信息。

(2)通过连接图中的多个节点形成路径，能够自动捕获lncRNA序列中不同长度的motif。

(3)通过聚合操作，可以将多个相邻节点聚合形成社区和子图，从而捕获整个lncRNA序列的全局和高级特征。

(4)可以整合来自其他类型的数据作为节点特征，进而为lncRNA序列提供更全面的特征编码。

因此，本发明将lncRNA序列转化为图有更多可区分的特征，而且更稳健，从而对lncRNA亚细胞定位预测更准确。

附图说明

图1是本申请实施例所述方法的整体架构图；(a)图的构建，(b)词向量提取，(c)基于GCN提取特征，(d)全连接与激活分类；

图2是本申请实验验证中的图向量和4-mer频数特征的t-SNE可视化。每个点代表一个样本，其颜色代表其真正的类别：(a)使用4-mer频率特征，(b)使用图向量；

图3是本申请实验验证中在不同的突变率下，GraphLncLoc在原始和突变数据集上的表现，其中(a).变异率为0.0001，(b)变异率为0.001，(c)变异率为0.01。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

本实施例提供一种基于图卷积网络的lncRNA亚细胞定位预测方法，参考图1所示，包括以下步骤：

一、图的构建：将lncRNA序列转换为有向图

形式上，对于一个lncRNA序列：

lncRNA＝N₁,N₂,N₃,...,N_L-1,N_L

其中L表示lncRNA的长度，N_j是lncRNA序列中j位的四个核苷酸碱基(A、C、G和U)之一。其k-mer组成集(这里以4-mer为例)为{N₁N₂N₃N₄,N₂N₃N₄N₅,N₃N₄N₅N₆,...,N_L-3N_L-2N_L-1N_L}。然后把这些4-mer分配到节点上，按照k-mer组成集的顺序(从左到右)，每次增加一个4-mer，用这些4-mer来重建lncRNA序列。重建过程结束后，将相同标记的节点粘合起来，形成一个de Bruijn图。

然后，给每条有向边分配一个权重，这条边的权重是(k+1)-mer的频数，它是由构成这条边的两个节点组成的。

为了减少边权频数值之间的绝对差异的影响，进一步将图中边的权重进行标准化处理，即将频数权重归一化：

式中，e_ji表示从节点j到节点i的边的频数权重，N(i)表示节点i的邻居节点集合。

二、词向量嵌入

本实施例采用k-mer的连续分布向量表示作为节点特征。lncRNA序列中的k-mer单元类似于文章中的单词，因此使用k-mer的连续分布式单词向量表示可以自然地表示lncRNA中核苷酸的上下文信息。

具体地，本实施例将基准数据集中的所有lncRNA序列作为语料库，应用word2vec技术得到lncRNA序列语料库中每个4-mer单元的编码向量，即分布式词向量，作为图的节点特征向量。采用了word2vec技术中的Skip-gram模型，以预测给定中心词的周围环境词，即上下文信息，作为该中心词所示k-mer单元的分布式词向量。遵循Skip-Gram模型的思想，word2vec技术旨在最大限度地提高目标4-mer和其上下文4-mer之间的共同发生的可能性。通过使用k-mer的连续分布式向量表示作为节点特征，丰富了构建的de Bruijn图的语义信息。

通过上述提取基准数据库中每个k-mer单元的分布式词向量后，即可词向量库中获取待测lncRNA序列中各k-mer单元的分布式词向量，嵌入到边权标准化的有向图的各节点中。

三、定位预测

在构建待测lncRNA序列的de Bruijn图并获得其中各节点的分布式词向量后，采用GCN模型来提取高级特征。本实施例中所采用的基于图卷积网络的预测模型，通过堆叠多层GCN和具有激活函数的全连接层构成。

GCN可以通过对图进行卷积运算来学习深层次的图的拓扑结构和节点特征。在GCN中，传播规则可由以下公式表述：

其中

是添加了自我连接的图的邻接矩阵。I_N是单位矩阵，

是

的度矩阵，W^(l)表示(l)层的权重，H^(l)表示(l)层的激活矩阵，σ表示非线性激活函数。

GCN层的主要思想是学习一个变换函数，通过聚合有向图G中节点i自身的特征和其邻居的特征，并考虑标准化边权，生成节点i的新嵌入矩阵H^(l+1)。通过堆叠多层GCN，可以实现节点间的信息传递，并捕获图的高级特征。具体来说，GCN聚合所有节点或边的嵌入矩阵，并取其平均值作为最终的图编码向量。其节点特征的平均聚合公式如下：

其中h_G是有向图G的编码向量，V是有向图G中所有节点的集合，h_v是节点v经过堆叠的多层GCN学习之后得到的嵌入向量。

最后，将使用GCN从de Bruijn图中提取的高级特征，即编码向量h_G，送入全连接层以执行分类任务。

四、实验验证

为了验证使用本发明【以下称为GraphLncLoc】进行lncRNA亚细胞定位预测的有效性和相比于其他方法的性能优越性，本部分通过广泛的实验来评估GraphLncLoc的性能。与使用不同k-mer频数特征的传统机器学习分类器的比较表明了将序列转化为图的好处。与现有预测方法的比较表明GrahLncLoc预测lncRNA亚细胞定位的有效性。此外，还进行了一些分析。分析表明，GrahLncLoc能够产生比k-mer频数特征更多可区分的特征。GrahLncLoc也比使用k-mer频数特征的方法更稳定。

首先，使用ACC、MacroPrecision、MacroRecall、MacroF1-score和AUC作为评价指标。MacroPrecision、MacroRecall和MacroF1-score的计算公式如下：

其中TP_(i)、FP_(i)、FN_(i)表示第i类的真阳例、假阳例和假阴例的数量。precision_(i)和recall_(i)代表第i类的查准率和查全率，n为样本类别的数目。

表1GraphLncLoc和使用不同k-mer频数特征的不同机器学习模型的性能比较

表2GraphLncLoc与现有预测方法在测试集上的性能比较

从表1中，首先关注机器学习模型的结果。从MacroF1-score来看，SVM、RF、LR、NN分别在k＝3、k＝4、k＝6、k＝5时取得最高的MacroF1-score值。结果表明，不同的机器学习分类器在实现最佳性能方面有其偏好的k值。其次，GraphLncLoc获得的所有评价指标都高于其他使用k-mer频数特征的机器学习分类器。最好的机器学习分类器是k＝3的RF模型，它得到的ACC为0.572，Macro F1-score为0.391，Macro Precision为0.511，Macro Recall为0.380。GraphLncLoc在ACC(0.612)、Macro F1-score(0.506)、Macro Precision(0.691)和Macro Recall(0.475)方面优于3-mer的RF模型。总之，结果表明GraphLncLoc比这些使用不同k-mer频数特征的传统机器学习分类器表现得更好，这体现了使用图向量的优势。

从表2的结果可以看出，GraphLncLoc在所有评价指标方面都优于其他预测方法。在ACC方面，GraphLncLoc达到0.579，明显高于lncLocator(0.421)、iLoc-lncRNA(0.509)、Locate-R(0.368)、DeepLn-cLoc(0.561)和iLoc-lncRNA2.0(0.404)。其他评价指标(MacroPrecision、MacroRecall、Macro F1-score、AUC)显示了类似的结果。这些结果表明，GraphLncLoc是预测lncRNA亚细胞定位的有效工具。

为了显示图向量和4-mer频数特征之间的差异，通过使用t分布的随机邻居嵌入(t-SNE)将两种特征的嵌入空间投射到两个维度上进行可视化。不同的亚细胞定位类别用不同的颜色标记。如图2所示，与使用4-mer频数特征相比，使用图向量可以更好地分离细胞质、细胞核、核糖体和外泌体不同类别之间的样本。这些结果证明了使用图向量的好处，意味着学习到的图向量可以清楚地区分不同的细胞定位。

为了进一步显示将序列转化为图形的优势，通过进行一些实验来测试GraphLncLoc和k-mer频数特征的鲁棒性。理想情况下，如果一条lncRNA序列发生微小的变化，一个好的特征表示方法应该基本上不发生变化。换句话说，一个好的特征表示方法应该能够抵抗测序过程中实际发生的微小变化。为了定量地衡量这一点，设计以下实验。

首先，通过引入三种突变行为，包括插入、删除和突变，从原始数据集中生成了一个"突变"数据集。具体来说，"突变"数据集的生成过程如下：

1.设置一个点突变率M。

2.对于lncRNA序列中的每个核苷酸，随机产生一个概率。如果概率大于点突变率M，则该核苷酸保持不变；如果概率小于或等于点突变率M，随机执行三个行动之一来改变该核苷酸。

动作1(插入)：在核苷酸之前随机插入一个核苷酸(A、U、C、G)。

动作2(删除)：在序列中删除该核苷酸。

动作3(突变)：随机地将核苷酸改变为另三种核苷酸。

3.对基准数据集中的所有lncRNA序列重复第2步，直到所有序列都被"突变"。

值得注意的是，在生成过程中，lncRNA序列的标签没有改变。生成过程结束后，从原始数据集中得到了一个"突变"的数据集。然后，使用GraphLncLoc和k-mer频数特征对"突变"数据集中的序列进行编码，并比较与原始数据集的差异。由于GraphLncLoc使用4-mer作为节点，而RF模型在传统的机器学习模型中取得了最好的性能(见表1)，使用4-mer+RF作为基线进行比较。通过查询一些数据库，发现人类基因组的突变率被推测为大约1×10^-8。然而，太小的突变率对机器学习模型基本上没有影响。因此，将点突变率从0.01设置到0.0001(0.01，0.001，0.0001)，以观察原始数据集和"突变"数据集之间的差异。结果显示在图3中。

从图3中可以观察到，当M为0.0001时，结果基本没有变化。当M为0.001时，就MacroF1-score而言，4-mer+RF从0.377下降到0.325(约13.8％)，而GraphLncLoc仅从0.506下降到0.493(约2.6％)。当M为0.01时，就MacroF1-score而言，4-mer+RF从0.377下降到0.300(约20.4％)，而GraphLncLoc仅从0.506下降到0.450(约11.1％)。可以看出GraphLncLoc的鲁棒性优于4-mer+RF，这意味着使用图向量的鲁棒性优于使用k-mer频数特征。其他评价指标(MacroPrecision,MacroRecall)显示了类似的结果。因此，GraphLncLoc在"突变"数据集上的评估证实了其鲁棒性。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种基于图卷积网络的lncRNA亚细胞定位预测方法，其特征在于，包括：

2.根据权利要求1所述的基于图卷积网络的lncRNA亚细胞定位预测方法，其特征在于，步骤(1)具体过程为：

将待测lncRNA序列转换为k-mer形式的序列，按顺序依次将每个k-mer单元分配到节点上，并将相邻的k-mer单元节点使用有向边连接，以及将其中k-mer单元相同的节点粘合为一个，并得到无权有向图，亦即为待测lncRNA序列的de Bruijn图；

基于相邻节点构成的(k+1)-mer单元的频数，给无权有向图中每条有向边分配权重，得到带权有向图；

3.根据权利要求1所述的基于图卷积网络的lncRNA亚细胞定位预测方法，其特征在于，步骤(2)具体过程为：

将基准数据集中的所有lncRNA序列作为语料库；

将语料库中每个lncRNA序列均转换为k-mer形式的序列；

4.根据权利要求1所述的基于图卷积网络的lncRNA亚细胞定位预测方法，其特征在于，所述基于图卷积网络的预测模型，通过堆叠多层GCN和具有激活函数的全连接层构成。

5.根据权利要求1所述的基于图卷积网络的lncRNA亚细胞定位预测方法，其特征在于，k＝4。

6.一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～5中任一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～5中任一项所述的方法。