CN118136122A

CN118136122A - 一种基于多视图自监督图的微rna疾病关联预测方法

Info

Publication number: CN118136122A
Application number: CN202410543435.4A
Authority: CN
Inventors: 单慧灵; 周树森; 柳婵娟; 王庆军; 臧睦君; 刘通
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2024-05-06
Filing date: 2024-05-06
Publication date: 2024-06-04

Abstract

本发明属于生物信息学领域，涉及一种基于多视图自监督图的微RNA疾病关联预测方法。微RNA是一类短小的非编码RNA分子，调控基因表达，并在疾病的发生发展中发挥着关键作用。微RNA和疾病的关联存在大量不易察觉的潜在表示，本方法不断优化高质量关联图拓扑的上游任务，从而增强关联预测的潜在表示。本方法包括微RNA疾病特征数据预处理、图卷积模块的构建和投影模块的构建三个步骤。预处理主要准备所需的特征矩阵和邻接矩阵；图卷积模块包含两个卷积模块，每个卷积模块含一个注意力机制模块和全连接层；投影模块主要包含四个线性层。本方法能够对微RNA和疾病关联进行准确预测，对临床治疗和疾病追踪过程的研究具有重要意义。

Description

一种基于多视图自监督图的微RNA疾病关联预测方法

技术领域

本发明属于生物信息学领域，涉及一种基于多视图自监督图的微RNA疾病关联预测方法。

背景技术

微RNA是一类短小的非编码RNA分子，调控基因表达，并在疾病的发生发展中发挥着关键作用。微RNA疾病的关联存在大量不易察觉的潜在表示，不断优化高质量关联图拓扑的上游任务，从而增强关联预测的潜在表示，这与图卷积模块和投射模块的设计有直接关系。

微RNA疾病关联预测可以使医生更容易找到复杂疾病的病因，尤其是不容易察觉的疾病，有助于及时为患者提供准确的治疗方案。

目前大多数的微RNA疾病关联预测方法在增强潜在表示方面存在着结构缺陷，有的是单一图结构，有的是简单的图卷积模块和投影模块。因此如何更好的优化高质量关联图拓扑的上游任务成为当前该领域的一大难点。

发明内容

为了克服上述困难，本发明提出了一种多视图自监督图的微RNA疾病关联预测方法。本方法将最大化锚视图和学习者视图之间的一致性，更好的优化图拓扑及其上游任务，从而增强关联预测的潜在表示。

一种基于多视图自监督图的微RNA疾病关联预测方法，包括微RNA疾病特征数据预处理、图卷积模块的构建和投影模块的构建三个步骤，其具体步骤如下：

步骤 1、加载微RNA和疾病的特征、相似度以及它们之间的关联矩阵，并将这些数据转换为PyTorch张量；含所有特征数据的PyTorch张量输入到图学习器中得到新邻接矩阵的PyTorch张量；利用上述特征张量分别构建锚视图和学习者视图。

步骤2、图卷积模块包含两个卷积模块，每个卷积模块包含一个PyTorch框架中的nn.Linear层和一个注意力机制模块。在前向传播过程中，输入特征首先通过线性层进行变换得到隐藏表示。其次，根据稀疏标志sparse的取值，选择使用稠密矩阵乘法或稀疏矩阵乘法来进行图卷积操作，将步骤1得到的邻接矩阵作用于隐藏表示。最后，通过将图卷积的结果与注意力机制的输出进行残差连接，以获得最终的输出特征表示。

步骤3、基于PyTorch框架的nn.Sequential搭建了一个投影模块，该模块包含

四部分，前三部分均包含一个全连接层，一个批归一化层，一个含0.4丢弃率的Dropout层和一个激活函数；最后一部分只包含一个全连接层，该模块的输入是图卷积层的输出，用于进一步转换和投影图卷积层的输出。

一种基于多视图自监督图的微RNA疾病关联预测方法，步骤1实现过程如下：

使用NumPy框架的np.vstack和np.hstack进行所有原始特征的拼接，包括特征矩阵和相似性矩阵。拼接后相似性矩阵维度为水平和垂直方向上微RNA和疾病相似性维度的相加，并插入了零矩阵。使用PyTorch框架的torch.FloatTensor生成PyTorch张量。

一种基于多视图自监督图的微RNA疾病关联预测方法，步骤2实现过程如下：

图卷积模块包含两个卷积模块。每个卷积模块包含一个PyTorch框架中的nn.Linear层和一个注意力机制模块。注意力机制模块的输入通道数和输出通道数均等于卷积模块的输出通道数。在前向传播过程中，输入特征首先通过线性层进行变换得到隐藏表示。通过调用reset_parameters()不断初始化线性层的参数，以确保网络开始时的参数是随机的，从而使得网络能够学习到更细致的特征。其次，根据稀疏标志sparse的取值，选择使用稠密矩阵乘法或稀疏矩阵乘法来进行图卷积操作，将步骤1得到的邻接矩阵作用于隐藏表示。最后通过将图卷积的结果与注意力机制的输出进行残差连接，以获得最终的输出特征表示。选择稀疏矩阵，注意力机制模块是设置num_heads=256的多头注意力机制模块；选择密集矩阵，注意力机制模块是设置attention_size=1024的自注意力机制模块。通过ReLU激活函数计算注意力分数，通过Softmax函数计算注意力权重，输出为权重处理后的图序列，以获得更好的训练效果。

一种基于多视图自监督图的微RNA疾病关联预测方法，步骤3实现过程如下：

基于PyTorch框架的nn.Sequential搭建一个投影模块，该模块包含四部分，前三部分各包含一个全连接层，一个批归一化层对投影后的向量进行批归一化操作，一个含0.4丢弃率的Dropout层以防止过拟合，一个激活函数进行非线性变换；最后一部分只包含一个全连接层，该模块的输入是图卷积模块的输出，用于进一步转换和投影图卷积模块的输出。将输入向量投影到一个更低维度的空间，用于学习更具有判别性的特征表示。

附图说明

图1是一种基于多视图自监督图的微RNA疾病关联预测方法流程图。

图2是图卷积模块流程图。

图3是模块所含注意力机制模块流程图。

图4是投影模块流程图。

具体实施方式

以下结合附图和实例对本发明进行详细说明。

本发明提出一种基于多视图自监督图的微RNA疾病关联预测方法，特别地，用于微RNA疾病关联预测。

一种基于多视图自监督图的微RNA疾病关联预测方法，图1是一种基于多视图自监督图的微RNA疾病关联预测方法流程图，包括微RNA疾病特征数据预处理、图卷积模块的构建和投影模块的构建三个步骤，其具体实施方式如下：

步骤1：微RNA疾病特征数据预处理，图 1的数据预处理部分，包括以下内容：

读取微RNA和疾病的CSV文件，获得各自的特征和相似度数据，使用Numpy框架的np.vstack和np.hstack进行拼接，形成左侧为微RNA特征、右侧为疾病特征、中间用零填充的特征矩阵，并转换为PyTorch张量；相似度数据也是同样处理，形成相似度矩阵，并转换为PyTorch张量。使用PyTorch框架的torch.FloatTensor生成PyTorch张量。计算特征矩阵的归一化处理，计算邻接矩阵等。

步骤2：图卷积模块的构建，图2为图卷积模块流程图，图3为模块所含注意力机制模块流程图，包括以下内容：

图卷积模块包含两个卷积模块。每个卷积模块包含一个PyTorch框架中的nn.Linear层和一个注意力机制模块。在前向传播过程中，输入特征首先通过线性层进行变换得到隐藏表示。然后，根据稀疏标志sparse的取值，选择使用稠密矩阵乘法或稀疏矩阵乘法来进行图卷积操作，将步骤1得到的邻接矩阵作用于隐藏表示。最后，通过将图卷积的结果与注意力机制模块的输出进行残差连接，以获得最终的输出特征表示。选择稀疏矩阵，注意力机制模块是设置num_heads=256的多头注意力机制模块；选择密集矩阵，注意力机制模块是设置attention_size=1024的自注意力机制模块，实际应用为通过自注意力机制模块，通过ReLU激活函数计算注意力分数，通过Softmax函数计算注意力权重，输出为权重处理后的图序列，以更好的优化图拓扑及其上游任务，从而增强关联预测的潜在表示。第一个卷积模块的输入通道数是1444，输出通道数是512，丢弃率是0.5，学习率是0.1，边缘丢弃率是0.8；第二个卷积模块的输入通道数是512，输出通道数是256，其他参数与第一个卷积模块相同。

步骤3：投影模块的构建，图4为投影模块流程图，包括以下内容：

基于PyTorch框架的nn.Sequential搭建一个投影模块，该模块包含四部分。第一部分包含一个输入输出维度均为256的全连接层，一个参数为256的批量归一化层，一个丢弃率为0.4的Dropout层和一个ReLU激活函数；第二部分包含一个输入输出维度为256的全连接层，一个参数为256的批量归一化层，一个丢弃率为0.4的Dropout层和一个参数为0.2的LeakyReLU激活函数；第三部分和第二部分完全相同；第四部分仅包含一个输入输出维度为256的全连接层。通过更优的映射来更好的优化图拓扑及其上游任务，从而增强关联预测的潜在表示。

将本发明所提出方法应用到微RNA疾病关联预测中，在MSGCL所提供的数据集上测试得到的AUC和AUPR分别为：0.9586和0.4473。所有结果均优于MSGCL在本数据集上的表现，其中MSGCL的AUC为0.9484，AUPR为0.3526。本发明提出的方法得到的AUC和AUPR分别比MSGCL高1.02%和9.47%。本发明更大程度上进行特征提取并聚合节点信息，因此性能高于其它现有方法。

最优模型参数如下表所示。

表1 最优模型参数

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多视图自监督图的微RNA疾病关联预测方法，其特征在于，使用一种改进的图卷积模块和投射模块进行聚合邻居节点信息，进行充分的特征提取并不断优化高质量关联图拓扑的上游任务，从而增强关联预测的潜在表示，包括微RNA疾病特征数据预处理、图卷积模块的构建和投影模块的构建三个步骤，其具体步骤如下：

步骤1、使用Numpy框架的np.vstack和np.hstack进行所有原始特征的拼接，包括特征矩阵和相似性矩阵；拼接后相似性矩阵维度为水平和垂直方向上微RNA和疾病相似性维度的相加，并插入了零矩阵，使用PyTorch框架的torch.FloatTensor生成PyTorch张量；

步骤2、图卷积模块包含两个卷积模块，每个卷积模块包含一个PyTorch框架中的nn.Linear层和一个注意力机制模块，注意力机制模块的输入通道数和输出通道数均等于卷积模块的输出通道数；在前向传播过程中，输入特征首先通过线性层进行变换得到隐藏表示，通过调用reset_parameters()不断初始化线性层的参数，以确保网络开始时的参数是随机的，从而使得网络能够学习到更细致的特征；其次，根据稀疏标志sparse的取值，选择使用稠密矩阵乘法或稀疏矩阵乘法来进行图卷积操作，将步骤1得到的邻接矩阵作用于隐藏表示；最后，通过将图卷积的结果与注意力机制的输出进行残差连接，以获得最终的输出特征表示；

步骤3、基于PyTorch框架的nn.Sequential搭建了一个投影模块，该模块包含四部分，前三部分各包含一个全连接层，一个批归一化层对投影后的向量进行批归一化操作，一个含0.4丢弃率的Dropout层以防止过拟合，一个激活函数进行非线性变换；最后一部分只包含一个全连接层，该模块的输入是图卷积层的输出，用于进一步转换和投影图卷积层的输出，将输入向量投影到一个更低维度的空间，用于学习更具有判别性的特征表示。

2.根据权利要求1所述的一种基于多视图自监督图的微RNA疾病关联预测方法，其特征在于，图卷积模块不仅包含一个全连接层，还添加了注意力机制模块并用于反向传播，提高模型在处理序列数据时的性能，使模型能够关注输入中不同部分的信息，更好的进行微RNA疾病关联预测，具体步骤为：

根据sparse参数的选择，卷积模块实际使用PyTorch框架的nn.Linear层和一个自注意机制模块，设置attention_size=1024，通过ReLU激活函数计算注意力分数，通过Softmax函数计算注意力权重，输出为权重处理后的图序列，在卷积层中应用自注意力机制模块，最终添加残差连接，以获得更好的训练效果；如果选择稀疏矩阵，注意力机制模块是设置num_heads=256的多头注意力机制，可以得到不同的训练效果。