CN116844645B - 一种基于多视角分层超图的基因调控网络推断方法 - Google Patents
一种基于多视角分层超图的基因调控网络推断方法 Download PDFInfo
- Publication number
- CN116844645B CN116844645B CN202311113140.5A CN202311113140A CN116844645B CN 116844645 B CN116844645 B CN 116844645B CN 202311113140 A CN202311113140 A CN 202311113140A CN 116844645 B CN116844645 B CN 116844645B
- Authority
- CN
- China
- Prior art keywords
- gene
- transcription factor
- hypergraph
- target gene
- regulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 159
- 230000033228 biological regulation Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 claims abstract description 33
- 238000009792 diffusion process Methods 0.000 claims abstract description 19
- 230000014509 gene expression Effects 0.000 claims abstract description 19
- 238000012546 transfer Methods 0.000 claims abstract description 5
- 102000040945 Transcription factor Human genes 0.000 claims description 68
- 108091023040 Transcription factor Proteins 0.000 claims description 68
- 239000011159 matrix material Substances 0.000 claims description 51
- 238000013518 transcription Methods 0.000 claims description 38
- 230000003993 interaction Effects 0.000 claims description 36
- 230000035897 transcription Effects 0.000 claims description 34
- 230000004186 co-expression Effects 0.000 claims description 19
- 230000008878 coupling Effects 0.000 claims description 15
- 238000010168 coupling process Methods 0.000 claims description 15
- 238000005859 coupling reaction Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000012512 characterization method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000010195 expression analysis Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 230000004547 gene signature Effects 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 108700026220 vif Genes Proteins 0.000 abstract description 2
- 230000008844 regulatory mechanism Effects 0.000 abstract 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 9
- 210000004027 cell Anatomy 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 5
- 238000012174 single-cell RNA sequencing Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 241000588724 Escherichia coli Species 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000001671 embryonic stem cell Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000011712 cell development Effects 0.000 description 1
- 230000010001 cellular homeostasis Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 210000004443 dendritic cell Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000925 erythroid effect Effects 0.000 description 1
- 210000003494 hepatocyte Anatomy 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于多视角分层超图的基因调控网络推断方法,属于图表示学习技术领域。为解决现有基于图表示学习的基因调控网络推断方法缺乏集成异质生物信息,无法建模基因间复杂高阶调控模式的问题,本发明通过构建多视角分层超图集成多元异构生物信息,再捕获基因间的高阶调控信息,扩散机制和域间信息传递机制,最后用于下游的基因调控网络推断任务。本发明能有效整合基因调控网络的结构信息和基因表达特性,生成更加全面的基因特征表示,进而缓解对有限先验调控知识的依赖问题,提升模型跨物种推断的泛化能力,可以更加细粒度的刻画基因调控特征,有助于阐明调控机制发挥作用的过程,提升潜在调控关系的预测性能。
Description
技术领域
本发明涉及一种基于多视角分层超图的基因调控网络推断方法,属于图表示学习、系统生物学等技术领域。
背景技术
基因调控网络是以上游转录因子以及下游靶基因为节点,转录因子与靶基因之间的调控关系作为边的一种逻辑映射网络,其描述了细胞发育和稳态的重要过程。利用单细胞转录组数据准确地重构基因调控网络是系统生物学中的一项长期挑战。
随着高通量测序技术的空前发展,大量的单细胞转录组数据以及经过验证的高置信度先验调控知识为基因调控网络的准确推断奠定了基础。利用深度学习技术对海量的基因表达谱数据进行共表达分析,能有效地识别潜在的转录因子-靶基因关系,获得了远超无监督方法的预测性能,证明了先验调控关系的重要性。
基因调控网络作为一种天然的图结构数据,能对基因间复杂的调控过程进行形式化描述。因此,利用图神经网络对基因间成对调控关系进行的建模表征,并通过多层网路的迭代捕获基因调控网络的局部以及全局特征,可以提升潜在调控关系推断的准确率。
然而,基因调控是多个基因同时发挥作用的过程,现有基于图神经网络的调控关系推断算法仅将转录因子-靶基因交互视为成对关系,无法建模基因间普遍存在的多对多高阶复杂调控关系。同时,该类方法往往依赖于有限的先验调控知识,忽略了基因表达谱中的结构信息,从而影响基因调控网络重构的准确性。
发明内容
针对现有基于图表示学习的基因调控网络推断方法缺乏集成异质生物信息,无法建模基因间复杂高阶调控模式的问题,本发明提供一种基于多视角分层超图的基因调控网络推断方法。
本发明通过下列技术方案实现:一种基于多视角分层超图的基因调控网络推断方法。该方法将基因调控先验知识与基因共表达关系等多视角异构信息视为合作关系,共同指导基因调控网络的重构,将多类型转录因子-靶基因二部图转换为转录因子、靶基因多视角分层超图。然后,为了建模基因间的多对多关系,引入超图卷积神经网络对基因调控网络中的复杂调控模式进行表征。同时,为了获取更优的节点表示,利用域内耦合信息扩散机制建模同一节点在多视角分层超图下的相似性,利用域间信息传播机制建模同一交互类型下转录因子和靶基因的相似性。最后,利用通道注意力机制自适应学习不同视角下的基因嵌入表示,获取转录因子和靶基因的最终嵌入表示,用于基因调控网络的推断。
具体步骤如下:
Step1、整合基因表达谱数据以及先验调控知识,构建多视角转录因子-靶基因二部图:
Step1.1、利用皮尔逊相关系数和斯皮尔曼相关系数对单细胞转录组测序数据进
行共表达分析:给定一个转录因子和一个靶标基因,将表达关联性分析函数定义为,,基于皮尔逊相关系数与斯皮尔曼相关系数的关联性分析阈值均设为0.8,基因间广泛的共表达交互关系构成共表达网络,其邻接矩阵表示为:
(1)
其中,为基因共表达网络邻接矩阵的实体化表示,为基于基因表达谱数据进
行共表达分析所使用的相关系数类型;
Step1.2、利用先验调控信息构建转录因子-靶基因调控二部图:将基因共表达网
络中蕴含的基因表达关联与先验调控关系整合为一个多视角二部图;
其中,表示N个转录因子的集合,表示M个靶基因的集合,,表示第个转录因子-靶基因二部图边的集合,表示本发明中包含类转录因
子-靶基因交互;
Step2、将多视角基因交互二部图分别转换为转录因子、靶基因
多视角分层超图:对于任意的转录因子和靶基因,其邻居节点为分别为和,
利用超边连接节点及其所有邻居节点,得到第个视角下,转录因子-靶基因二部图所对应的转录因子超图和靶基因超图;重复以上
操作次,最终得到转录因子多视角分层超图和靶基因多视角分层超图:
(2)
Step3、基于构建的多视角分层超图,利用超图卷积神经网络建模转录因子-靶基因多对多高阶调控关系,超图卷积算子的定义如下所示:
(3)
其中,为第层网络的第个视角下转录因子的特征表示矩阵,和分别为节点度矩阵和超边度矩阵,为超图关联矩阵,为单位矩
阵,表示可学习的滤波器参数矩阵,其中和分别为超图卷积神经网络第层和层的输出维度;
Step3.1、通过迭代层超图卷积算子操作,可以得到转录因子多视角低维嵌入
表示和靶基因多视角低维嵌入表示;
Step4、为了优化基因嵌入表示,利用域内耦合信息扩散机制、域间信息传递机制促进域内、域间基因信息共享;
Step4.1、利用域内耦合信息扩散机制对不同视角下的同一节点相似性进行建模,
以转录因子多视角分层超图为例,耦合信息扩散层的关联矩阵为,其元素表示
为:
(4)
其中,包含了转录因子节点在不同视角下所有的超边交互,表示超边;
在第层超图卷积网络下,多视角分层超图间耦合信息扩散机制描述为:
(5)
其中,为节点度矩阵,为超边度矩阵,表示可学习的转换矩阵,为第层网络的转录因子特征表示输出矩阵,为不同视角分层超图数目。
Step4.2、利用域间信息传递机制建模同一交互类型下转录因子和靶基因之间的相关性,其定义如下:
(6)
其中,为第层网络的第个超图下转录因子的低维嵌入表示,为第层网
络的第个超图下靶基因的低维嵌入表示,和为关联矩阵的转置表示,和
表示可学习的转换矩阵;
Step4.3、通过层网络的迭代,第个分层超图下转录因子和靶基因的嵌入表
示如下所示:
(7)
Step4.4、利用通道注意力机制自适应学习基因多视角嵌入表示;
Step4.4.1、首先在空间维度对基因特征表示进行全局池化和平均池化的压缩,特征压缩的定义如下:
(8)
其中,为第层网络多个视角下转录因子的低维嵌入表示,为第层网络多个视角下靶基因的低维嵌入表示,压缩后的转录因子和靶
基因特征表示分别为、;然后,采用一维卷积计算各通道的注意力
分数,并通过激活层对注意力分数进行归一化:
(9)
其中,,,表示一维卷积,为卷
积核的尺寸,为激活函数;
Step4.4.2、最后,将各通道原始特征与其对应的通道注意力分数相乘,并将每个通道的特征求和,得到转录因子和靶基因最终的嵌入表示:
(10)
其中,是转录因子的最终嵌入表示,是靶基因的最终嵌入表示,和
为通道注意力分数;
Step5、预测转录因子与靶基因的交互概率:
Step5.1、根据Step4得到的转录因子最终特征表示矩阵和靶基因最
终特征表示矩阵,计算调控关系概率:
(11)
其中,为转录因子的特征表示,为靶基因的特征表示,为基于和的内积评分函数;
Step5.2、将已存在的交互关系对作为正样本,并随机选取不存在的交互关系对作为负样本,利用Adam优化器来训练模型,采用交叉熵损失最大化正样本对的一致性,损失函数为:
(12)
其中,为转录因子-靶基因交互对,为正样本集,为转录
因子-靶基因交互的预测概率得分,为负样本的数目;
Step5.3、模型性能评价;
Step5.3.1、评价指标:采用受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)作为评估指标。
本发明首先为了解决多元异构生物信息的集成问题,对基因表达数据进行多样化的共表达分析,生成多个基因共表达网络,并结合先验调控交互网络构建多类型的基因交互二部图,再将其转换为转录因子、靶基因多视角分层超图。然后,在分层超图基础上,利用超图卷积神经网络建模基因间多对多高阶关系,并利用域内耦合信息扩散机制和域间信息传递机制促进基因间的信息交换,优化基因嵌入表示。最后,基于独特的通道注意力机制获取转录因子嵌入表示和靶基因嵌入表示,进而完成潜在调控关系推断。
本发明的有益效果是:
本发明提出的基因调控网络推断方法通过构建多视角分层超图集成多元异构生物信息,能有效整合基因调控网络的结构信息和基因表达特性,生成更加全面的基因特征表示,进而缓解对有限先验调控知识的依赖问题,提升模型跨物种推断的泛化能力。同时,利用超图卷积神经网络对普遍存在的基因间多对多高阶调控模式进行建模表示,可以更加细粒度的刻画基因调控特征,有助于阐明调控机制发挥作用的过程,提升潜在调控关系的预测性能。
附图说明
图1为本发明提出的一种基于多视角分层超图的基因调控网络推断方法流程图;
图2为E. coli、S. cerevisia数据的Roc曲线与Precision-Recall曲线;以表明本发明所提出的基因调控网络推断方法与其它5种基线方法的实验结果对比图;是基于本发明实验结果和公开实验数据,利用Origin软件生成;
图3为各方法在小鼠、人类scRNA-seq数据集上的AUROC值;
图4为各方法在小鼠、人类scRNA-seq数据集上的AUPRC值;
图3和图4分别表示本发明所提出的基因调控网络推断方法与其它9种基线方法在不同数据集的AUROC值、AUPRC值热力图,是基于本发明实验结果和公开实验数据,利用Origin软件生成。
具体实施方式
下面结合实施例对本发明做进一步说明。
实施例1
如图1所示,一种基于多视角分层超图的基因调控网络推断方法,本实施例首先将多类型转录因子-靶基因二部图转换为转录因子、靶基因多视角分层超图。然后,利用超图卷积神经网络建模基因间的多对多关系,对基因调控网络中的复杂调控模式进行表征学习。同时,为了获取更优的节点表示,利用域内耦合信息扩散机制建模同一节点在多视角分层超图下的相似性,利用域间信息传播机制建模同一交互类型下转录因子和靶基因的相似性。最后,利用通道注意力机制自适应学习不同视角下的基因嵌入表示,获取转录因子和靶基因的最终嵌入表示,实现基因调控网络的推断。
具体包括以下步骤:
Step1、整合基因表达谱数据以及先验调控知识,构建多视角转录因子-靶基因二部图;
Step1.1、利用皮尔逊相关系数和斯皮尔曼相关系数对单细胞转录组测序数据进
行共表达分析:给定一个转录因子和一个靶标基因,将表达关联性分析函数定义为,,基于皮尔逊相关系数与斯皮尔曼相关系数的关联性分析阈值均设为0.8,基因间广泛的共表达交互关系构成共表达网络,其邻接矩阵表示为:
(1)
其中,为基因共表达网络邻接矩阵的实体化表示,为基于基因表达谱数据进
行共表达分析所使用的相关系数类型;
Step1.2、利用先验调控信息构建转录因子-靶基因调控二部图:将基因共表达网
络中蕴含的基因表达关联与先验调控关系整合为一个多视角二部图。
其中,表示N个转录因子的集合,表示M个靶基因的集合,,表示第个转录因子-靶基因二部图边的集合,表示本发明中包含类转录因
子-靶基因交互;
Step2、将多视角基因交互二部图分别转换为转录因子、靶基因
多视角分层超图:对于任意的转录因子和靶基因,其邻居节点为分别为和,
利用超边连接节点及其所有邻居节点,得到第个视角下,转录因子-靶基因二部图所对应的转录因子超图和靶基因超图;重复以上
操作次,最终得到转录因子多视角分层超图和靶基因多视角分层超图:
(2)
Step3、基于构建的多视角分层超图,利用超图卷积神经网络建模转录因子-靶基因多对多高阶调控关系,超图卷积算子的定义如下所示:
(3)
其中,为第层网络的第个视角下转录因子的特征表示矩阵,和分别为节点度矩阵和超边度矩阵,为超图关联矩阵,为单位矩
阵,表示可学习的滤波器参数矩阵,其中和分别为超图卷积神经网络第层和层的输出维度;
Step3.1、通过迭代层超图卷积算子操作,可以得到转录因子多视角低维嵌入
表示和靶基因多视角低维嵌入表示;
Step4、为了优化基因嵌入表示,利用域内耦合信息扩散机制、域间信息传递机制促进域内、域间基因信息共享;
Step4.1、利用域内耦合信息扩散机制对不同视角下的同一节点相似性进行建模。
以转录因子多视角分层超图为例,耦合信息扩散层的关联矩阵为,其元素表示
为:
(4)
其中,包含了转录因子节点在不同视角下所有的超边交互,表示超边。
在第层超图卷积网络下,多视角分层超图间耦合信息扩散机制描述为:
(5)
其中,为节点度矩阵,为超边度矩阵,表示可学习的转换矩阵,为第层网络的转录因子特征表示输出矩阵,为不同视角分层超图数目。
Step4.2、利用域间信息传递机制建模同一交互类型下转录因子和靶基因之间的相关性,其定义如下:
(6)
其中,为第层网络的第个超图下转录因子的低维嵌入表示,为第层网
络的第个超图下靶基因的低维嵌入表示,和为关联矩阵的转置表示,和
表示可学习的转换矩阵;
Step4.3、通过层网络的迭代,第个分层超图下转录因子和靶基因的嵌入表
示如下所示:
(7)
Step4.4、利用通道注意力机制自适应学习基因多视角嵌入表示;
Step4.4.1、首先在空间维度对基因特征表示进行全局池化和平均池化的压缩,特征压缩的定义如下:
(8)
其中,为第层网络多个视角下转录因子的低维嵌入表示,为第层网络多个视角下靶基因的低维嵌入表示,压缩后的转录因子和靶
基因特征表示分别为、;然后,采用一维卷积计算各通道的注意力
分数,并通过激活层对注意力分数进行归一化:
(9)
其中,,,表示一维卷积,为卷
积核的尺寸,为激活函数;
Step4.4.2、最后,将各通道原始特征与其对应的通道注意力分数相乘,并将每个通道的特征求和,得到转录因子和靶基因最终的嵌入表示:
(10)
其中,是转录因子的最终嵌入表示,是靶基因的最终嵌入表示,和
为通道注意力分数。
Step5、预测转录因子与靶基因的交互概率;
Step5.1、根据Step4得到的转录因子最终特征表示矩阵和靶基因最
终特征表示矩阵,计算调控关系概率:
(11)
其中,为转录因子的特征表示,为靶基因的特征表示,为基于和的内积评分函数;
Step5.2、将已存在的交互关系对作为正样本,并随机选取不存在的交互关系对作为负样本,利用Adam优化器来训练模型,采用交叉熵损失最大化正样本对的一致性,损失函数为:
(12)
其中,为转录因子-靶基因交互对,为正样本集,为转录
因子-靶基因交互的预测概率得分,为负样本的数目;
Step5.3、模型性能评价;
Step5.3.1、评价指标:采用受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)作为评估指标;
Step5.3.2、实验数据集:首先采用E. ccoli和S.cerevisia等基因调控网络推断领域常用的公开数据集进行实验,详细信息如表1所示:
为了进一步验证模型在更复杂基因调控网络物种上的泛化能力,选择人类与小白鼠七种细胞系的scRNA-seq数据集对模型性能进一步评估,分别是:小鼠胚胎干细胞(mESC)、小鼠树突状细胞(mDC)、小鼠红系造血干细胞(mHSC-E)、具有粒细胞-单核细胞谱系的小鼠造血干细胞(mHSC-GM)、具有淋巴谱系的小鼠造血干细(mHSC-L)、人胚胎干细胞(hESC)、人成熟肝细胞(hHEP)。对于每一个数据集,选择经过校正后p-values小于0.01的所有转录因子以及top(500/1000)个显著变化的靶基因用于调控关系推断,详细信息如表2所示:
Step5.3.3、实验结果:对于上述两类数据集,采用不同的策略来评估性能;首先,对于E.coli和S.cerevisia数据集,在平衡数据上进行训练测试;同时为了保证实验公平,所有的有监督和无监督基线方法测试集的正负样本也是平衡的;其次,对于人类和小鼠七个细胞系的scRNA-seq数据集,按照网络密度对训练集和测试集的正负样本进行划分;选择AUROC与AUPRC作为评估指标,在所有基准数据集上进行了五折交叉验证,考虑到交叉验证可能存在的潜在数据偏差,所有实验重复10次并计算结果的平均值和标准差。模型在E.coli和S.cerevisia数据集上的结果如图2所示,在人类与小白鼠多个scRNA-seq数据集上的结果如图3、图4所示:
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (1)
1.一种基于多视角分层超图的基因调控网络推断方法,其特征在于:集成多元异质生物信息构建多类转录因子-靶基因二部图,将基因交互二部图转换为转录因子、靶基因分层超图;然后,利用超图卷积神经网络捕获高阶调控特征,并通过域内信息扩散机制建模不同视角下域内节点间相似性,利用域间信息传递机制建模转录因子和靶基因间相似性;最后,利用独特的通道注意力机制自适应学习不同视角下基因嵌入表示,并基于转录因子嵌入表示和靶基因嵌入表示预测交互概率,完成潜在调控关系推断,其具体步骤如下:
Step1、整合基因表达谱数据以及先验调控知识,构建多视角转录因子-靶基因二部图;
Step1.1、利用皮尔逊相关系数和斯皮尔曼相关系数对单细胞转录组测序数据进行共表达分析:给定一个转录因子和一个靶标基因/>,将表达关联性分析函数定义为,/>,基于皮尔逊相关系数与斯皮尔曼相关系数的关联性分析阈值均设为0.8,基因间广泛的共表达交互关系构成共表达网络,其邻接矩阵表示为:
(1);
其中,为基因共表达网络邻接矩阵的实体化表示,/>为基于基因表达谱数据进行共表达分析所使用的相关系数类型;
Step1.2、利用先验调控信息构建转录因子-靶基因调控二部图:将基因共表达网络中蕴含的基因表达关联与先验调控关系整合为一个多视角二部图,其中,表示N个转录因子的集合,/>表示M个靶基因的集合,/>,/>表示第/>个转录因子-靶基因二部图边的集合,/>表示本发明中包含/>类转录因子-靶基因交互;
Step2、将多视角基因交互二部图分别转换为转录因子、靶基因多视角分层超图:对于任意的转录因子/>和靶基因/>,其邻居节点为分别为/>和/>,利用超边连接节点及其所有邻居节点,得到第/>个视角下,转录因子-靶基因二部图所对应的转录因子超图/>和靶基因超图/>;重复以上操作/>次,最终得到转录因子多视角分层超图/>和靶基因多视角分层超图/>:
(2);
Step3、基于构建的多视角分层超图,利用超图卷积神经网络建模转录因子-靶基因多对多高阶调控关系,超图卷积算子的定义如下所示:
(3);
其中,为第/>层网络的第/>个视角下转录因子的特征表示矩阵,/>和分别为节点度矩阵和超边度矩阵,/>为超图关联矩阵,/>为单位矩阵,/>表示可学习的滤波器参数矩阵,其中/>和/>分别为超图卷积神经网络第层和/>层的输出维度;
Step3.1、通过迭代层超图卷积算子操作,可以得到转录因子多视角低维嵌入表示和靶基因多视角低维嵌入表示/>;
Step4、为了优化基因嵌入表示,利用域内耦合信息扩散机制、域间信息传递机制促进域内、域间基因信息共享;
Step4.1、利用域内耦合信息扩散机制对不同视角下的同一节点相似性进行建模,以转录因子多视角分层超图为例,耦合信息扩散层的关联矩阵为,其元素表示为:
(4);
其中,包含了转录因子节点在不同视角下所有的超边交互,/>表示超边;
在第层超图卷积网络下,多视角分层超图间耦合信息扩散机制描述为:
(5);
其中,为节点度矩阵,/>为超边度矩阵,/>表示可学习的转换矩阵,/>为第/>层网络的转录因子特征表示输出矩阵,/>为不同视角分层超图数目;
Step4.2、利用域间信息传递机制建模同一交互类型下转录因子和靶基因之间的相关性,其定义如下:
(6);
其中,为第/>层网络的第/>个超图下转录因子的低维嵌入表示,/>为第/>层网络的第/>个超图下靶基因的低维嵌入表示,/>和/>为关联矩阵的转置表示,/>和/>表示可学习的转换矩阵;
Step4.3、通过层网络的迭代,第/>个分层超图下转录因子和靶基因的嵌入表示如下所示:
(7);
Step4.4、利用通道注意力机制自适应学习基因多视角嵌入表示;
Step4.4.1、首先在空间维度对基因特征表示进行全局池化和平均池化的压缩,特征压缩的定义如下:
(8);
其中,为第/>层网络多个视角下转录因子的低维嵌入表示,为第/>层网络多个视角下靶基因的低维嵌入表示,压缩后的转录因子和靶基因特征表示分别为/>、/>;然后,采用一维卷积计算各通道的注意力分数,并通过激活层对注意力分数进行归一化:
(9);
其中,,/>,/>表示一维卷积,/>为卷积核的尺寸,/>为激活函数;
Step4.4.2、最后,将各通道原始特征与其对应的通道注意力分数相乘,并将每个通道的特征求和,得到转录因子和靶基因最终的嵌入表示:
(10);
其中,是转录因子的最终嵌入表示,/>是靶基因的最终嵌入表示,/>和/>为通道注意力分数;
Step5、预测转录因子与靶基因的交互概率;
Step5.1、根据Step4得到的转录因子最终特征表示矩阵和靶基因最终特征表示矩阵/>,计算调控关系概率:
(11);
其中,为转录因子/>的特征表示,/>为靶基因/>的特征表示,/>为基于/>和/>的内积评分函数;
Step5.2、将已存在的交互关系对作为正样本,并随机选取不存在的交互关系对作为负样本,利用Adam优化器来训练模型,采用交叉熵损失最大化正样本对的一致性,损失函数为:
(12);
其中,为转录因子-靶基因交互对,/>为正样本集,/>为转录因子-靶基因交互的预测概率得分,/>为负样本的数目;
Step5.3、模型性能评价;
Step5.3.1、评价指标:采用受试者工作特征曲线下面积(AUROC)和精确率-召回率曲线下面积(AUPRC)作为评估指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311113140.5A CN116844645B (zh) | 2023-08-31 | 2023-08-31 | 一种基于多视角分层超图的基因调控网络推断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311113140.5A CN116844645B (zh) | 2023-08-31 | 2023-08-31 | 一种基于多视角分层超图的基因调控网络推断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116844645A CN116844645A (zh) | 2023-10-03 |
CN116844645B true CN116844645B (zh) | 2023-11-17 |
Family
ID=88163855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311113140.5A Active CN116844645B (zh) | 2023-08-31 | 2023-08-31 | 一种基于多视角分层超图的基因调控网络推断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844645B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113919441A (zh) * | 2021-11-03 | 2022-01-11 | 北京工业大学 | 一种基于超图变换网络的分类方法 |
WO2022072717A1 (en) * | 2020-09-30 | 2022-04-07 | University Of Virginia Patent Foundation | Method and system for early efficient detection of co-evolutionary sites in evolving bio-networks |
CN114420203A (zh) * | 2021-12-08 | 2022-04-29 | 深圳大学 | 一种用于预测转录因子-靶基因相互作用的方法及模型 |
CN114927162A (zh) * | 2022-05-19 | 2022-08-19 | 大连理工大学 | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 |
CN115798598A (zh) * | 2022-11-16 | 2023-03-14 | 大连海事大学 | 一种基于超图的miRNA-疾病关联预测模型及方法 |
CN116129992A (zh) * | 2023-04-17 | 2023-05-16 | 之江实验室 | 基于图神经网络的基因调控网络构建方法及系统 |
CN116230070A (zh) * | 2023-03-03 | 2023-06-06 | 深圳理工大学(筹) | 一种转录因子靶基因关系预测方法、系统、设备和介质 |
CN116343927A (zh) * | 2023-02-14 | 2023-06-27 | 广东工业大学 | 基于增强的超图卷积自编码算法的miRNA-疾病关联预测方法 |
CN116340646A (zh) * | 2023-01-18 | 2023-06-27 | 云南师范大学 | 一种基于超图基序优化多元用户表示的推荐方法 |
CN116453585A (zh) * | 2023-02-23 | 2023-07-18 | 中南大学 | mRNA和药物关联的预测方法、装置、终端设备及介质 |
CN116486902A (zh) * | 2023-05-10 | 2023-07-25 | 清华大学 | 一种基于基因调控网络识别驱动调控因子的方法 |
CN116543832A (zh) * | 2023-04-12 | 2023-08-04 | 西北工业大学 | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2858446B1 (fr) * | 2003-08-01 | 2007-11-09 | Helios Biosciences | Methode d'analyse de reseaux d'interactions moleculaires biologiques |
EP4202725A1 (en) * | 2021-12-22 | 2023-06-28 | Naver Corporation | Joint personalized search and recommendation with hypergraph convolutional networks |
-
2023
- 2023-08-31 CN CN202311113140.5A patent/CN116844645B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022072717A1 (en) * | 2020-09-30 | 2022-04-07 | University Of Virginia Patent Foundation | Method and system for early efficient detection of co-evolutionary sites in evolving bio-networks |
CN113919441A (zh) * | 2021-11-03 | 2022-01-11 | 北京工业大学 | 一种基于超图变换网络的分类方法 |
CN114420203A (zh) * | 2021-12-08 | 2022-04-29 | 深圳大学 | 一种用于预测转录因子-靶基因相互作用的方法及模型 |
CN114927162A (zh) * | 2022-05-19 | 2022-08-19 | 大连理工大学 | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 |
CN115798598A (zh) * | 2022-11-16 | 2023-03-14 | 大连海事大学 | 一种基于超图的miRNA-疾病关联预测模型及方法 |
CN116340646A (zh) * | 2023-01-18 | 2023-06-27 | 云南师范大学 | 一种基于超图基序优化多元用户表示的推荐方法 |
CN116343927A (zh) * | 2023-02-14 | 2023-06-27 | 广东工业大学 | 基于增强的超图卷积自编码算法的miRNA-疾病关联预测方法 |
CN116453585A (zh) * | 2023-02-23 | 2023-07-18 | 中南大学 | mRNA和药物关联的预测方法、装置、终端设备及介质 |
CN116230070A (zh) * | 2023-03-03 | 2023-06-06 | 深圳理工大学(筹) | 一种转录因子靶基因关系预测方法、系统、设备和介质 |
CN116543832A (zh) * | 2023-04-12 | 2023-08-04 | 西北工业大学 | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 |
CN116129992A (zh) * | 2023-04-17 | 2023-05-16 | 之江实验室 | 基于图神经网络的基因调控网络构建方法及系统 |
CN116486902A (zh) * | 2023-05-10 | 2023-07-25 | 清华大学 | 一种基于基因调控网络识别驱动调控因子的方法 |
Non-Patent Citations (4)
Title |
---|
A Hyper-graph Approach for Analyzing Transcriptional Networks in Breast Cancer;Emad Ramadan等;《Proceedings of the First ACM International Conference on Bioinformatics and Computational Biology》;556-562 * |
Hypergraph convolution and hypergraph attention;Song Bai等;《Pattern Recognition》;第110卷;1-8 * |
基于布尔矩阵分解的蛋白质功能预测框架;刘琳等;《计算机研究与发展》;第56卷(第5期);1020-1033 * |
基于转录因子信号利用卷积神经网络识别基因的表达水平;杨彦超;《中国优秀硕士学位论文全文数据库 基础科学辑》(第12期);A006-312 * |
Also Published As
Publication number | Publication date |
---|---|
CN116844645A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363344B (zh) | 基于miv-gp算法优化bp神经网络的概率积分参数预测方法 | |
Liu et al. | A survey of adaptive sampling for global metamodeling in support of simulation-based complex engineering design | |
Jia et al. | An optimized RBF neural network algorithm based on partial least squares and genetic algorithm for classification of small sample | |
CN101271572B (zh) | 基于免疫克隆选择聚类的图像分割方法 | |
CN112966954B (zh) | 一种基于时间卷积网络的防洪调度方案优选方法 | |
CN110544011B (zh) | 一种智能化的体系作战效能评估和优化方法 | |
CN109214503B (zh) | 基于kpca-la-rbm的输变电工程造价预测方法 | |
CN107045569B (zh) | 基于聚类多目标分布估计算法的齿轮减速器优化设计方法 | |
CN111832101A (zh) | 一种水泥强度预测模型的构建方法及水泥强度预测方法 | |
Guo et al. | Towards accurate and compact architectures via neural architecture transformer | |
CN112784913A (zh) | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 | |
CN110046377B (zh) | 一种基于异构相似度的选择性集成即时学习软测量建模方法 | |
CN112949165A (zh) | 一种基于神经网络模型与nsga-ii遗传算法的射流泵多目标优化方法 | |
CN112733273A (zh) | 一种基于遗传算法和最大似然估计确定贝叶斯网络参数的方法 | |
CN114777192B (zh) | 基于数据关联和深度学习的二级网供热自主优化调控方法 | |
CN113743538A (zh) | 基于ipso-bp神经网络的智能楼宇能耗预测方法、设备和介质 | |
CN116844645B (zh) | 一种基于多视角分层超图的基因调控网络推断方法 | |
CN117093885A (zh) | 融合分层聚类和粒子群的联邦学习多目标优化方法 | |
CN115453867A (zh) | 一种鲁棒的自适应大规模气力输送控制方法 | |
CN113111308B (zh) | 基于数据驱动遗传编程算法的符号回归方法及系统 | |
CN115620046A (zh) | 一种基于半监督性能预测器的多目标神经架构搜索方法 | |
CN113762591A (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及系统 | |
Hu et al. | A classification surrogate model based evolutionary algorithm for neural network structure learning | |
Cao et al. | Adaptive elman model of gene regulation network based on time series data | |
CN117313554B (zh) | 炼焦生产多工段联合多目标优化方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |