CN116844645B

CN116844645B - 一种基于多视角分层超图的基因调控网络推断方法

Info

Publication number: CN116844645B
Application number: CN202311113140.5A
Authority: CN
Inventors: 唐明靖; 吴松阳; 金魁
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-11-17
Anticipated expiration: 2043-08-31
Also published as: CN116844645A

Abstract

本发明公开一种基于多视角分层超图的基因调控网络推断方法，属于图表示学习技术领域。为解决现有基于图表示学习的基因调控网络推断方法缺乏集成异质生物信息，无法建模基因间复杂高阶调控模式的问题，本发明通过构建多视角分层超图集成多元异构生物信息，再捕获基因间的高阶调控信息，扩散机制和域间信息传递机制，最后用于下游的基因调控网络推断任务。本发明能有效整合基因调控网络的结构信息和基因表达特性，生成更加全面的基因特征表示，进而缓解对有限先验调控知识的依赖问题，提升模型跨物种推断的泛化能力，可以更加细粒度的刻画基因调控特征，有助于阐明调控机制发挥作用的过程，提升潜在调控关系的预测性能。

Description

一种基于多视角分层超图的基因调控网络推断方法

技术领域

本发明涉及一种基于多视角分层超图的基因调控网络推断方法，属于图表示学习、系统生物学等技术领域。

背景技术

基因调控网络是以上游转录因子以及下游靶基因为节点，转录因子与靶基因之间的调控关系作为边的一种逻辑映射网络，其描述了细胞发育和稳态的重要过程。利用单细胞转录组数据准确地重构基因调控网络是系统生物学中的一项长期挑战。

随着高通量测序技术的空前发展，大量的单细胞转录组数据以及经过验证的高置信度先验调控知识为基因调控网络的准确推断奠定了基础。利用深度学习技术对海量的基因表达谱数据进行共表达分析，能有效地识别潜在的转录因子-靶基因关系,获得了远超无监督方法的预测性能，证明了先验调控关系的重要性。

基因调控网络作为一种天然的图结构数据，能对基因间复杂的调控过程进行形式化描述。因此，利用图神经网络对基因间成对调控关系进行的建模表征，并通过多层网路的迭代捕获基因调控网络的局部以及全局特征，可以提升潜在调控关系推断的准确率。

然而，基因调控是多个基因同时发挥作用的过程，现有基于图神经网络的调控关系推断算法仅将转录因子-靶基因交互视为成对关系，无法建模基因间普遍存在的多对多高阶复杂调控关系。同时，该类方法往往依赖于有限的先验调控知识，忽略了基因表达谱中的结构信息，从而影响基因调控网络重构的准确性。

发明内容

针对现有基于图表示学习的基因调控网络推断方法缺乏集成异质生物信息，无法建模基因间复杂高阶调控模式的问题，本发明提供一种基于多视角分层超图的基因调控网络推断方法。

本发明通过下列技术方案实现：一种基于多视角分层超图的基因调控网络推断方法。该方法将基因调控先验知识与基因共表达关系等多视角异构信息视为合作关系，共同指导基因调控网络的重构，将多类型转录因子-靶基因二部图转换为转录因子、靶基因多视角分层超图。然后，为了建模基因间的多对多关系，引入超图卷积神经网络对基因调控网络中的复杂调控模式进行表征。同时，为了获取更优的节点表示，利用域内耦合信息扩散机制建模同一节点在多视角分层超图下的相似性，利用域间信息传播机制建模同一交互类型下转录因子和靶基因的相似性。最后，利用通道注意力机制自适应学习不同视角下的基因嵌入表示，获取转录因子和靶基因的最终嵌入表示，用于基因调控网络的推断。

具体步骤如下：

Step1、整合基因表达谱数据以及先验调控知识，构建多视角转录因子-靶基因二部图：

Step1.1、利用皮尔逊相关系数和斯皮尔曼相关系数对单细胞转录组测序数据进行共表达分析：给定一个转录因子和一个靶标基因，将表达关联性分析函数定义为，，基于皮尔逊相关系数与斯皮尔曼相关系数的关联性分析阈值均设为0.8，基因间广泛的共表达交互关系构成共表达网络，其邻接矩阵表示为：

（1）

其中，为基因共表达网络邻接矩阵的实体化表示，为基于基因表达谱数据进行共表达分析所使用的相关系数类型；

Step1.2、利用先验调控信息构建转录因子-靶基因调控二部图：将基因共表达网络中蕴含的基因表达关联与先验调控关系整合为一个多视角二部图；其中，表示N个转录因子的集合，表示M个靶基因的集合，，表示第个转录因子-靶基因二部图边的集合，表示本发明中包含类转录因子-靶基因交互；

Step2、将多视角基因交互二部图分别转换为转录因子、靶基因多视角分层超图：对于任意的转录因子和靶基因，其邻居节点为分别为和，利用超边连接节点及其所有邻居节点，得到第个视角下，转录因子-靶基因二部图所对应的转录因子超图和靶基因超图；重复以上操作次，最终得到转录因子多视角分层超图和靶基因多视角分层超图：

（2）

Step3、基于构建的多视角分层超图，利用超图卷积神经网络建模转录因子-靶基因多对多高阶调控关系，超图卷积算子的定义如下所示：

（3）

其中，为第层网络的第个视角下转录因子的特征表示矩阵，和分别为节点度矩阵和超边度矩阵，为超图关联矩阵，为单位矩阵，表示可学习的滤波器参数矩阵，其中和分别为超图卷积神经网络第层和层的输出维度；

Step3.1、通过迭代层超图卷积算子操作，可以得到转录因子多视角低维嵌入表示和靶基因多视角低维嵌入表示；

Step4、为了优化基因嵌入表示，利用域内耦合信息扩散机制、域间信息传递机制促进域内、域间基因信息共享；

Step4.1、利用域内耦合信息扩散机制对不同视角下的同一节点相似性进行建模，以转录因子多视角分层超图为例，耦合信息扩散层的关联矩阵为，其元素表示为：

（4）

其中，包含了转录因子节点在不同视角下所有的超边交互，表示超边；

在第层超图卷积网络下，多视角分层超图间耦合信息扩散机制描述为：

（5）

其中，为节点度矩阵，为超边度矩阵，表示可学习的转换矩阵，为第层网络的转录因子特征表示输出矩阵，为不同视角分层超图数目。

Step4.2、利用域间信息传递机制建模同一交互类型下转录因子和靶基因之间的相关性，其定义如下：

（6）

其中，为第层网络的第个超图下转录因子的低维嵌入表示，为第层网络的第个超图下靶基因的低维嵌入表示，和为关联矩阵的转置表示，和表示可学习的转换矩阵；

Step4.3、通过层网络的迭代，第个分层超图下转录因子和靶基因的嵌入表示如下所示：

（7）

Step4.4、利用通道注意力机制自适应学习基因多视角嵌入表示；

Step4.4.1、首先在空间维度对基因特征表示进行全局池化和平均池化的压缩，特征压缩的定义如下：

（8）

其中，为第层网络多个视角下转录因子的低维嵌入表示，为第层网络多个视角下靶基因的低维嵌入表示，压缩后的转录因子和靶基因特征表示分别为、；然后，采用一维卷积计算各通道的注意力分数，并通过激活层对注意力分数进行归一化：

（9）

其中，,,表示一维卷积，为卷积核的尺寸，为激活函数；

Step4.4.2、最后，将各通道原始特征与其对应的通道注意力分数相乘，并将每个通道的特征求和，得到转录因子和靶基因最终的嵌入表示：

（10）

其中，是转录因子的最终嵌入表示，是靶基因的最终嵌入表示，和为通道注意力分数；

Step5、预测转录因子与靶基因的交互概率：

Step5.1、根据Step4得到的转录因子最终特征表示矩阵和靶基因最终特征表示矩阵，计算调控关系概率：

（11）

其中，为转录因子的特征表示，为靶基因的特征表示，为基于和的内积评分函数；

Step5.2、将已存在的交互关系对作为正样本，并随机选取不存在的交互关系对作为负样本，利用Adam优化器来训练模型，采用交叉熵损失最大化正样本对的一致性，损失函数为：

（12）

其中，为转录因子-靶基因交互对，为正样本集，为转录因子-靶基因交互的预测概率得分，为负样本的数目；

Step5.3、模型性能评价；

Step5.3.1、评价指标：采用受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)作为评估指标。

本发明首先为了解决多元异构生物信息的集成问题，对基因表达数据进行多样化的共表达分析，生成多个基因共表达网络，并结合先验调控交互网络构建多类型的基因交互二部图，再将其转换为转录因子、靶基因多视角分层超图。然后，在分层超图基础上，利用超图卷积神经网络建模基因间多对多高阶关系，并利用域内耦合信息扩散机制和域间信息传递机制促进基因间的信息交换，优化基因嵌入表示。最后，基于独特的通道注意力机制获取转录因子嵌入表示和靶基因嵌入表示，进而完成潜在调控关系推断。

本发明的有益效果是：

本发明提出的基因调控网络推断方法通过构建多视角分层超图集成多元异构生物信息，能有效整合基因调控网络的结构信息和基因表达特性，生成更加全面的基因特征表示，进而缓解对有限先验调控知识的依赖问题，提升模型跨物种推断的泛化能力。同时，利用超图卷积神经网络对普遍存在的基因间多对多高阶调控模式进行建模表示，可以更加细粒度的刻画基因调控特征，有助于阐明调控机制发挥作用的过程，提升潜在调控关系的预测性能。

附图说明

图1为本发明提出的一种基于多视角分层超图的基因调控网络推断方法流程图；

图2为E. coli、S. cerevisia数据的Roc曲线与Precision-Recall曲线；以表明本发明所提出的基因调控网络推断方法与其它5种基线方法的实验结果对比图；是基于本发明实验结果和公开实验数据，利用Origin软件生成；

图3为各方法在小鼠、人类scRNA-seq数据集上的AUROC值；

图4为各方法在小鼠、人类scRNA-seq数据集上的AUPRC值；

图3和图4分别表示本发明所提出的基因调控网络推断方法与其它9种基线方法在不同数据集的AUROC值、AUPRC值热力图，是基于本发明实验结果和公开实验数据，利用Origin软件生成。

具体实施方式

下面结合实施例对本发明做进一步说明。

实施例1

如图1所示，一种基于多视角分层超图的基因调控网络推断方法，本实施例首先将多类型转录因子-靶基因二部图转换为转录因子、靶基因多视角分层超图。然后，利用超图卷积神经网络建模基因间的多对多关系，对基因调控网络中的复杂调控模式进行表征学习。同时，为了获取更优的节点表示，利用域内耦合信息扩散机制建模同一节点在多视角分层超图下的相似性，利用域间信息传播机制建模同一交互类型下转录因子和靶基因的相似性。最后，利用通道注意力机制自适应学习不同视角下的基因嵌入表示，获取转录因子和靶基因的最终嵌入表示，实现基因调控网络的推断。

具体包括以下步骤：

Step1、整合基因表达谱数据以及先验调控知识，构建多视角转录因子-靶基因二部图；

（1）

Step1.2、利用先验调控信息构建转录因子-靶基因调控二部图：将基因共表达网络中蕴含的基因表达关联与先验调控关系整合为一个多视角二部图。其中，表示N个转录因子的集合，表示M个靶基因的集合，，表示第个转录因子-靶基因二部图边的集合，表示本发明中包含类转录因子-靶基因交互；

（2）

（3）

Step4.1、利用域内耦合信息扩散机制对不同视角下的同一节点相似性进行建模。以转录因子多视角分层超图为例，耦合信息扩散层的关联矩阵为，其元素表示为：

（4）

其中，包含了转录因子节点在不同视角下所有的超边交互，表示超边。

（5）

（6）

（7）

（8）

（9）

其中，,,表示一维卷积，为卷积核的尺寸，为激活函数；

（10）

其中，是转录因子的最终嵌入表示，是靶基因的最终嵌入表示，和为通道注意力分数。

Step5、预测转录因子与靶基因的交互概率；

（11）

（12）

Step5.3、模型性能评价；

Step5.3.1、评价指标：采用受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)作为评估指标；

Step5.3.2、实验数据集：首先采用E. ccoli和S.cerevisia等基因调控网络推断领域常用的公开数据集进行实验，详细信息如表1所示：

为了进一步验证模型在更复杂基因调控网络物种上的泛化能力，选择人类与小白鼠七种细胞系的scRNA-seq数据集对模型性能进一步评估，分别是：小鼠胚胎干细胞(mESC)、小鼠树突状细胞(mDC)、小鼠红系造血干细胞(mHSC-E)、具有粒细胞-单核细胞谱系的小鼠造血干细胞(mHSC-GM)、具有淋巴谱系的小鼠造血干细(mHSC-L)、人胚胎干细胞(hESC)、人成熟肝细胞(hHEP)。对于每一个数据集，选择经过校正后p-values小于0.01的所有转录因子以及top(500/1000)个显著变化的靶基因用于调控关系推断，详细信息如表2所示：

Step5.3.3、实验结果：对于上述两类数据集，采用不同的策略来评估性能；首先，对于E.coli和S.cerevisia数据集，在平衡数据上进行训练测试；同时为了保证实验公平，所有的有监督和无监督基线方法测试集的正负样本也是平衡的；其次，对于人类和小鼠七个细胞系的scRNA-seq数据集，按照网络密度对训练集和测试集的正负样本进行划分；选择AUROC与AUPRC作为评估指标，在所有基准数据集上进行了五折交叉验证，考虑到交叉验证可能存在的潜在数据偏差，所有实验重复10次并计算结果的平均值和标准差。模型在E.coli和S.cerevisia数据集上的结果如图2所示，在人类与小白鼠多个scRNA-seq数据集上的结果如图3、图4所示：

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于多视角分层超图的基因调控网络推断方法，其特征在于：集成多元异质生物信息构建多类转录因子-靶基因二部图，将基因交互二部图转换为转录因子、靶基因分层超图；然后，利用超图卷积神经网络捕获高阶调控特征，并通过域内信息扩散机制建模不同视角下域内节点间相似性，利用域间信息传递机制建模转录因子和靶基因间相似性；最后，利用独特的通道注意力机制自适应学习不同视角下基因嵌入表示，并基于转录因子嵌入表示和靶基因嵌入表示预测交互概率，完成潜在调控关系推断，其具体步骤如下：

Step1.1、利用皮尔逊相关系数和斯皮尔曼相关系数对单细胞转录组测序数据进行共表达分析：给定一个转录因子和一个靶标基因/>，将表达关联性分析函数定义为，/>，基于皮尔逊相关系数与斯皮尔曼相关系数的关联性分析阈值均设为0.8，基因间广泛的共表达交互关系构成共表达网络，其邻接矩阵表示为：

（1）；

其中，为基因共表达网络邻接矩阵的实体化表示，/>为基于基因表达谱数据进行共表达分析所使用的相关系数类型；

Step1.2、利用先验调控信息构建转录因子-靶基因调控二部图：将基因共表达网络中蕴含的基因表达关联与先验调控关系整合为一个多视角二部图，其中，表示N个转录因子的集合，/>表示M个靶基因的集合，/>，/>表示第/>个转录因子-靶基因二部图边的集合，/>表示本发明中包含/>类转录因子-靶基因交互；

Step2、将多视角基因交互二部图分别转换为转录因子、靶基因多视角分层超图：对于任意的转录因子/>和靶基因/>，其邻居节点为分别为/>和/>，利用超边连接节点及其所有邻居节点，得到第/>个视角下，转录因子-靶基因二部图所对应的转录因子超图/>和靶基因超图/>；重复以上操作/>次，最终得到转录因子多视角分层超图/>和靶基因多视角分层超图/>：

（2）；

（3）；

其中，为第/>层网络的第/>个视角下转录因子的特征表示矩阵，/>和分别为节点度矩阵和超边度矩阵，/>为超图关联矩阵，/>为单位矩阵，/>表示可学习的滤波器参数矩阵，其中/>和/>分别为超图卷积神经网络第层和/>层的输出维度；

Step3.1、通过迭代层超图卷积算子操作，可以得到转录因子多视角低维嵌入表示和靶基因多视角低维嵌入表示/>；

（4）；

其中，包含了转录因子节点在不同视角下所有的超边交互，/>表示超边；

（5）；

其中，为节点度矩阵，/>为超边度矩阵，/>表示可学习的转换矩阵，/>为第/>层网络的转录因子特征表示输出矩阵，/>为不同视角分层超图数目；

（6）；

其中，为第/>层网络的第/>个超图下转录因子的低维嵌入表示，/>为第/>层网络的第/>个超图下靶基因的低维嵌入表示，/>和/>为关联矩阵的转置表示，/>和/>表示可学习的转换矩阵；

Step4.3、通过层网络的迭代，第/>个分层超图下转录因子和靶基因的嵌入表示如下所示：

（7）；

（8）；

其中，为第/>层网络多个视角下转录因子的低维嵌入表示，为第/>层网络多个视角下靶基因的低维嵌入表示，压缩后的转录因子和靶基因特征表示分别为/>、/>；然后，采用一维卷积计算各通道的注意力分数，并通过激活层对注意力分数进行归一化：

（9）；

其中，,/>,/>表示一维卷积，/>为卷积核的尺寸，/>为激活函数；

（10）；

其中，是转录因子的最终嵌入表示，/>是靶基因的最终嵌入表示，/>和/>为通道注意力分数；

Step5、预测转录因子与靶基因的交互概率；

Step5.1、根据Step4得到的转录因子最终特征表示矩阵和靶基因最终特征表示矩阵/>，计算调控关系概率：

（11）；

其中，为转录因子/>的特征表示，/>为靶基因/>的特征表示，/>为基于/>和/>的内积评分函数；

（12）；

其中，为转录因子-靶基因交互对，/>为正样本集，/>为转录因子-靶基因交互的预测概率得分，/>为负样本的数目；

Step5.3、模型性能评价；