CN116129992A

CN116129992A - 基于图神经网络的基因调控网络构建方法及系统

Info

Publication number: CN116129992A
Application number: CN202310406420.9A
Authority: CN
Inventors: 朱闻韬; 杜志强; 黄海亮
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-16

Abstract

本发明公开了一种基于图神经网络的基因调控网络构建方法及系统，本发明通过链接预测和图神经网络的方式构建基因调控网络，结合了封闭子图和封闭子图标签矩阵作为输入特征的一部分，取代基于强假设的启发式方法，可以避免假设失效带来的负面影响，同时使神经网络可以能识别每个节点在图中的重要作用，再使用高效的图卷积层和排序池化层可以显著提高图神经网络链接预测的准确度。通过本发明，可以构建疾病的基因调控网络以发现与疾病相关的基因，从而提供潜在的药物靶点，从而达到治疗该疾病的效果。

Description

基于图神经网络的基因调控网络构建方法及系统

技术领域

本发明涉及深度学习领域，具体涉及一种基于图神经网络的基因调控网络构建方法及系统。

背景技术

随着基因组研究的不断发展，探索基因调控网络成为基因组学的重大挑战之一，并成为生物学研究的主要焦点。基因调控网络主要描述了细胞内或一个基因组内的基因之间的相互作用，简单来说就是描述了生物体内控制基因表达的机制。研究基因调控网络可以为很多生物学领域提供保障，例如药物设计或其他医学相关领域。这些领域需要基因调控网络来提供对活细胞中细胞过程的清晰洞察和理解。这是因为基因及其产物之间的相互作用在许多分子过程中发挥着重要作用。同时，单细胞RNA测序技术允许在单细胞分辨率下解析基因表达，这极大的促进了转录组学的研究，也使得推断基因调控网络有了新方法。因此使用单细胞测序数据来构建基因调控网络成为了新的热点问题。

近些年来在使用单细胞RNA测序数据推断基因调控网络中取得不错效果的是基于线性常微分方程和线性回归领域的变换架构和基于熵的异构生物信息聚合评分方法。这些方法都未将图结构信息纳入到他们的方法中，使得丢失了重要的非欧几里得空间数据的特征。同时，近些年来，在人工智能领域，图神经网络开始得到广泛的研究和关注，不少研究学者提出了很多图神经网络模型，都取得良好的效果，这使得引入图神经网络研究基因调控网络成为可能。

随着人工智能领域的不断发展，全连接神经网络，卷积神经网络，注意力机制网络，强化学习等在图像处理，自然语言处理等领域得到广泛使用，但是现在提出的网络结构在非欧几里得空间中的数据的处理却不是很理想，所以为了解决从非欧几里得领域生成的数据的处理等一系列问题，从而诞生了图神经网络。因为在现实中，许多非欧几里得数据都表示为具有复杂关系和对象之间相互依赖的图形，例如社交网络，蛋白质结构等。图神经网络在推荐系统设计，机器视觉中点云的生成等方面得到了广泛的应用。图神经网络分为循环神经网络、图卷积神经网络、图自动编码器和时空图神经网络。其中由于图卷积神经网络有更有效且更方便与其他神经网络结合的优势，成为主流的研究方向，因此引入性能优异的基于图卷积神经网络对提升性能也十分重要。图卷积神经网络分为两类：基于频谱和基于空间的图卷积神经网络。基于频谱的图卷积神经网络通过从图信号处理的角度引入滤波器，其中图卷积操作被解释为从图信号中去除噪声。基于空间的图卷积神经网络继承了循环神经网络的思想，通过信息传播来定义图卷积。基于空间的图卷积神经网络因具有高效性、灵活性和通用性而在最近迅速发展。在图神经网络研究领域中，链接预测又是图神经网络中的典型任务之一。链接预测通常用于预测网络中两个节点之间的相互连通性。启发式链接预测方法通常因其简单和有效而受到青睐。这些启发式方法往往需要知道局部的网络结构，甚至有一些高阶启发式方法需要整个网络的信息，这种计算开销往往是不能接受的。不仅如此，启发式方法对链接节点施加了很强的假设，这在实际应用中的有些场景下是站不住脚的，并且会对预测性能产生不利影响。

发明内容

本发明的目的在于针对现有技术的不足，提出一种基于链接预测和图神经网络的基因调控网络构建方法。通过引入能很好处理非欧几里得数据的图神经网络和使用基于

衰减理论的封闭子图代替启发式方法来提升链接预测的性能，从而构建获得基因调控网络。

本发明采用的技术方案具体如下：

一种基于图神经网络的基因调控网络构建方法，包括：

获取一个细胞或一个基因组的基因测序数据，基于获取的基因测序数据构建图表示；

提取感兴趣的中心基因，并基于图表示获取中心基因周围的链接基因，将中心基因与链接基因两两组成基因对；

构建每一基因对的输入特征，所述输入特征包括基因信息矩阵和图表示中的邻接矩阵，所述基因信息矩阵由特征信息矩阵、基因对的封闭子图和封闭子图标签矩阵拼接构成；所述特征信息矩阵由图表示中每一基因的显性特征和隐性特征拼接构成；

将每一基因对的输入特征输入至训练好的图神经网络，输出获得预测的基因对的链接关系，根据所有基因对的链接关系构建获得基因调控网络。

进一步地，基于图表示，采用广度优先搜索算法获取中心基因周围的链接基因。

进一步地，所述基因的显性特征为基因在细胞或基因组中的表达量，隐性特征为采用node2vec算法构建的节点嵌入特征。通过节点嵌入算法获得隐性特征，再将隐性特征和显性特征进行结合，可以获得更全面的节点信息。并且通过构建封闭子图以取代基于强假设的启发式方法以避免假设失效带来的负面影响，可以极大地提高神经网络的预测性能。

进一步地，所述基因对的封闭子图和封闭子图标签矩阵通过如下方法构建：

将基因对作为中心节点加入列表L的头部；

在图表示中寻找与任意一个中心节点距离为k的节点，k∈{1,2,…,h}，加入到列表L的末尾，重复h次，每次重复k都会加1，构建获得封闭子图；

对封闭子图中的每个节点给予标签值，构建获得封闭子图标签矩阵。

进一步地，对封闭子图中的每个节点给予标签值，其中，中心节点的标签值为1，封闭子图中除中心节点外的其他节点的标签值

表示为：

其中

为中心节点，i为封闭子图中除中心节点外的其他节点，

是节点i到中心节点

的距离；

，若出现

或

，则节点标签为0，

表示取余数。

进一步地，所述图神经网络由多个图卷积层、排序池化层、多个一维卷积层和全连接层组成。通过使用高效的图卷积层和排序池化层可以提高模型链接预测的准确度。

进一步地，所述训练好的图神经网络是基于收集的数据集，以最小化图神经网络输出的预测的基因对的链接关系与链接真值构建的损失函数为目标进行训练获得的。

一种基于图神经网络的基因调控网络构建系统，用于实现所述的基于图神经网络的基因调控网络构建方法，包括：

数据预处理模块，用于获取一个细胞或一个基因组的基因测序数据，基于获取的基因测序数据构建图表示；

基因对构建模块，用于提取感兴趣的中心基因，并基于图表示获取中心基因周围的链接基因，将中心基因与链接基因两两组成基因对；

输入特征构建模块，用于构建每一基因对的输入特征，所述输入特征包括基因信息矩阵和图表示中的邻接矩阵，所述基因信息矩阵由特征信息矩阵、基因对的封闭子图和封闭子图标签矩阵拼接构成；所述特征信息矩阵由图表示中每一基因的显性特征和隐性特征拼接构成；

基因调控网络构建模块，用于将每一基因对的输入特征输入至训练好的图神经网络，输出获得预测的基因对的链接关系，根据所有基因对的链接关系构建获得基因调控网络。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于图神经网络的基因调控网络构建方法。

一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现所述的基于图神经网络的基因调控网络构建方法。

本发明的有益效果是：

本发明通过链接预测和图神经网络的方式构建基因调控网络，结合了封闭子图和封闭子图标签矩阵作为输入特征的一部分，取代基于强假设的启发式方法，可以避免假设失效带来的负面影响，同时使神经网络能识别每个节点在图中的重要作用，再使用高效的图卷积层和排序池化层可以显著提高图神经网络链接预测的准确度。通过本发明，可以构建疾病的基因调控网络以发现与疾病相关的基因，从而提供潜在的药物靶点，从而达到治疗该疾病的效果。

附图说明

图1是本发明一种基于图神经网络的基因调控网络构建方法的流程图。

图2是一个具体实施例中构建图表示的流程图。

图3是图神经网络的功能划分图。

图4是本发明一种基于图神经网络的基因调控网络构建系统结构图。

图5是本发明提供的一种基于图神经网络的基因调控网络构建系统所在任意具备数据处理能力的电子设备的一种硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。

在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本实施例以阿尔兹海默症的基因调控网络构建为例进行具体阐述

图1示出为一种基于图神经网络的基因调控网络构建方法的流程图，如图1所示，本发明的一种基于图神经网络的基因调控网络构建方法，具体包括以下步骤：

步骤S1：获取一个细胞或一个基因组的基因测序数据，基于获取的基因测序数据构建图表示；

本实施例中，如图2所示，具体包括以下子步骤：

步骤S1.1：按照正常未患阿尔兹海默症和患阿尔滋海默症这两组收集单细胞RNA测序数据。

作为一种优选方案，该子步骤中还包括过滤无用基因和细胞，一般情况下，对于疾病诊断明显不起作用的基因可以认定为无用基因，例如统计中计数少于10个或者没有计数的基因、线粒体基因等。同理，对于疾病诊断明显不起作用的细胞认定为无用细胞，例如监测到基因数量在第5和第95个百分位之外的细胞等。

步骤S1.2：鉴别细胞类型，选取其中一个细胞的基因测序数据，基于获取的基因测序数据构建图表示。

作为一种可选的实施方案，可以使用BRETIGEA识别细胞类型。该工具引用的数据是经过充分验证且可靠的数据，与脑组织数据集相匹配，可以识别以下类别神经元：星形胶质细胞、少突胶质细胞、小胶质细胞、少突胶质前体细胞和内皮细胞。

作为一种可选的实施方案，可以采用UMAP分析或T检验等方法查看每种细胞数据对患病和不患病的分离性，选取与疾病高度相关的一个细胞的基因测序数据。有许多研究表明，小胶质细胞与阿尔兹海默症高度相关。小胶质细胞可以清除淀粉样蛋白

肽并防止肽聚集，并显示出可以诱导免疫和炎症性神经系统疾病。鉴于以上小胶质细胞对于阿尔兹海默症的重要性，本实施例选取小胶质细胞的基因测序数据，基于获取的基因测序数据构建图表示G(V,E)，V是非空集合，称为顶点集，其中的节点数量等于获取的基因测序数据的基因数量n，E是V中元素构成的无序二元组的集合，称为边集，也称为邻接矩阵。邻接矩阵表示为：

式中，

表示第i个节点与第j个节点的连接关系。

上述基于获取的基因测序数据构建图表示的方法为本领域的常规方法，例如可以采用A single-cell atlas of entorhinal cortex from individuals with Alzheimer’s disease reveals cell-type-specific gene expression regulation | NatureNeuroscience公开的方法。

步骤S2：提取感兴趣的中心基因，如APOE, P2RY12, CX3CR1基因等，并基于图表示获取中心基因周围的链接基因，将中心基因与链接基因两两组成基因对；其中，获取中心基因附近的链接基因可以采用广度优先搜索算法。

步骤S3：构建每一基因对的输入特征，所述输入特征包括基因信息矩阵和图表示中的邻接矩阵，所述基因信息矩阵由特征信息矩阵、基因对的封闭子图和封闭子图标签矩阵拼接构成，所述特征信息矩阵由图表示中每一基因的显性特征和隐性特征拼接构成；

基因信息矩阵表示为：

式中，

表示基因对的封闭子图中的第i个节点即基因的第j个特征和封闭子图标签矩阵的第i个节点即基因的第j个特征以及第i个节点即基因的第j个显性特征和隐性特征的拼接，p表示基因对的封闭子图中的基因数，c₀表示拼接后的特征维度。

作为一种可选的实施方案，选取每个基因在小胶质细胞中的表达量构建该基因的显性特征。一般情况下，可以计算z分数对表达量进行标准化，便于后续计算。在获取隐性特征方面，本实施例采用node2vec算法构建节点嵌入特征，并拼接在显性特征上，得到特征信息矩阵。

再构建基因对的封闭子图和封闭子图标签矩阵，作为一种可选的实施方案，具体如下：

对所有基因对提取h-hop封闭子图，并本实施例封闭子图的提取方法如下：

1.将中心节点加入列表L的头部。

2.在图表示中寻找与任意一个中心节点距离为k的节点，加入到列表L的末尾，该步重复h次构建获得封闭子图，其中k∈{1,2,…,h}（h=2，提取的即为2-hop封闭子图，本实施例中采用2-hop封闭子图），每次重复k都会加一，且其初始值为1。其中，在构建封闭子图的过程中，可以限制单个中心节点的探索范围以控制封闭子图的大小，例如可以限制单个中心节点的探索范围不超过400个节点。

再给封闭子图中的每个节点给予标签值，构建获得封闭子图标签矩阵。其中，中心节点的节点标签为1，其他节点构建节点标签

的公式如下：

其中

为中心节点，i为封闭子图中除中心节点外的其他节点，

是目标节点到中心节点

的距离，依据图表示计算获得，应为最短距离。

，若出现

或

,则节点标签为0，

表示取余数。

步骤S4：将每一基因对的输入特征输入至训练好的图神经网络，输出获得预测的基因对的链接关系，根据所有基因对的链接关系构建获得基因调控网络。

本发明中的图神经网络可以采用常规的图神经网络，作为一种可选的实施方案，可以采用图卷积神经网络，主要由多个图卷积层、排序池化层、多个一维卷积层组成。表1为一示例性的图卷积神经网络的具体结构，包括4层图卷积层、1层排序池化层和3层一维卷积层和一层全连接层。

表1 图卷积神经网络的结构

不同的网络层构成了不同功能区对输入数据进行处理，如图3所示，具体如下：

由图卷积层构成的图卷积层功能区：

图卷积层功能区主要使用预定义的卷积操作进行空间卷积操作以聚合节点信息。以一层图卷积层为例，本发明使用的卷积操作如下：

其中，A代表图的邻接矩阵，那么

代表的是基因信息矩阵，p是基因对的封闭子图中的基因数，c是每个节点的特征数。矩阵

，是邻接矩阵加上自循环，I表示单位矩阵。矩阵

是一个对角矩阵，其满足

。

表示矩阵

中的第i行第j列的原数，矩阵

是可训练网络参数，c₁是下一层的输入通道数，f是非线性激活函数，

是该层的输出矩阵。

图卷积操作可以分为四个步骤：

1)通过过滤器W对基因信息矩阵进行线性特征变换，使之映射到下一层的c₁通道，过滤器W在全节点中共享。

2)操作为：

,其中

。该步骤是将每个节点相邻节点的信息和自身信息进行了一次求和。

3)通过每行乘

进行归一化，以便在图卷积之后保持固定的特征尺寸。

4)通过非线性激活函数 f 输出卷积结果。

在堆叠多个图卷积层时，则是多次图卷积操作，通过多次图卷积操作可以达到聚合高层信息的目的。形式如下：

其中

是第t层图卷积层的输出，W^t将c_t通道映射到c_t+1通道。在多个图卷积层之后，为了方便排序池化层的操作，需要链接各个层的输出

从而形成串联输出。可以表示为：

,其中m是图卷积层数。在串联输出

中，每一行都可以看作成一个顶点的“特征描述符”，编码了多尺度局部子结构信息。

由排序池化层构成的排序池化层功能区：

该层不像传统的池化只对上一层的输出进行池化操作。该排序池化层功能区是对上个功能区的每个卷积层中获得的特征进行池化操作。具体思想是排序池化层将串联输出

基于特征值从大至小进行排序。在图结构中，每个节点都可以根据其在网络中的结构进行排序。因此，神经网络可以顺序读取图节点并学习有意义的模型。该层接收从图卷积层得到的节点特征，利用节点信息对节点进行排序，当节点特征相同时，比较下一个特征，以此类推，直到打破平衡。不仅如此，为了确保输出的统一，会支持截断/扩充操作，该层通过截断或扩展操作控制

的输出大小，其中K为用户自定义参数，

表示每个图卷积层贡献的特征数之和。在实施例中使用的K会仅保留60%的节点信息，以适应不同节点数量的封闭子图。最终排序池化层输出的矩阵如下：

式中，

表示第i个图卷积层的输出

的第j个元素，

。

由一维卷积层和全连接层构成的剩余功能区：

剩余功能区主要是首先对排序池化层得到的特征执行扁平化操作，再利用几个一维卷积层进行一维卷积学习排序池化层得到的特征并利用全连接层输出分类结果。本发明使用的一维卷积层，严格要求其步长是每个节点的特征数，也就是所有图卷积层的特征总和，以保证学习到有效的信息。

通过构建数据集，以最小化图神经网络输出的预测的基因对的链接关系与链接真值构建的损失函数为目标进行训练，即可获得训练好的图神经网络。数据集的每一样本包含基因对的输入特征及链接真值。作为一个可选的方案，还可以设置测试集及验证集对训练好的图神经网络进行性能测试和验证，本实施例中随机采样4000个链接正例和4000个链接反例作为训练集，随机采样1000个链接正例和1000个链接反例作为测试集，随机采样1000个链接正例和1000个链接反例作为验证集。训练采用的损失函数为交叉熵损失函数。

最后，将每一基因对的输入特征输入至训练好的图神经网络，通过训练好的图神经网络三个功能区的依次执行处理，最终即可获得每一输入基因对的链接关系，根据所有基因对的链接关系构建获得基因调控网络。一般情况下，训练好的图神经网络输出的链接关系为链接概率，可通过设置阈值判断最终是否链接，本实施例中，取0.5作为阈值，大于阈值的认为是有链接的，反之则无，进而构建布尔类型基因调控网络。

本发明通过结合图表示构建封闭子图和封闭子图标签矩阵作为输入特征的一部分，取代基于强假设的启发式方法，可以避免假设失效带来的负面影响，同时使神经网络可以识别每个节点在图中的重要作用，再使用高效的图卷积层和排序池化层可以显著提高图神经网络链接预测的准确度。通过本发明，可以构建疾病的基因调控网络以发现与疾病相关的基因，从而提供潜在的药物靶点，从而达到治疗该疾病的效果。

与前述基于图神经网络的基因调控网络构建方法的实施例相对应，本发明还提供了基于图神经网络的基因调控网络构建系统的实施例。

参见图4，本发明实施例提供的一种基于图神经网络的基因调控网络构建系统，包括：

本发明基于图神经网络的基因调控网络构建系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。

系统实施例可以通过软件实现，也以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的从硬件层面而言，如图5所示，为本发明提供的一种基于图神经网络的基因调控网络构建系统所在任意具备数据处理能力的电子设备的一种硬件结构图，包括一个或多个处理器，用于实现上述实施例中的一种基于图神经网络的基因调控网络构建方法。除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中系统所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述系统中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于图神经网络的基因调控网络构建系统。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡( Smart Media Card,SMC ) 、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。