CN116129992A - 基于图神经网络的基因调控网络构建方法及系统 - Google Patents
基于图神经网络的基因调控网络构建方法及系统 Download PDFInfo
- Publication number
- CN116129992A CN116129992A CN202310406420.9A CN202310406420A CN116129992A CN 116129992 A CN116129992 A CN 116129992A CN 202310406420 A CN202310406420 A CN 202310406420A CN 116129992 A CN116129992 A CN 116129992A
- Authority
- CN
- China
- Prior art keywords
- gene
- graph
- neural network
- node
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 204
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 82
- 238000010276 construction Methods 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 36
- 238000012163 sequencing technique Methods 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 abstract description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 7
- 239000003596 drug target Substances 0.000 abstract description 3
- 210000004027 cell Anatomy 0.000 description 20
- 238000012545 processing Methods 0.000 description 16
- 238000011160 research Methods 0.000 description 8
- 208000024827 Alzheimer disease Diseases 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000001105 regulatory effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 210000000274 microglia Anatomy 0.000 description 3
- 230000002025 microglial effect Effects 0.000 description 3
- 238000012174 single-cell RNA sequencing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101150037123 APOE gene Proteins 0.000 description 1
- 102100029470 Apolipoprotein E Human genes 0.000 description 1
- 108090000835 CX3C Chemokine Receptor 1 Proteins 0.000 description 1
- 101001120086 Homo sapiens P2Y purinoceptor 12 Proteins 0.000 description 1
- 108020005196 Mitochondrial DNA Proteins 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 208000025966 Neurological disease Diseases 0.000 description 1
- 102100026171 P2Y purinoceptor 12 Human genes 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 210000001130 astrocyte Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 210000002889 endothelial cell Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000001353 entorhinal cortex Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002757 inflammatory effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000535 oligodendrocyte precursor cell Anatomy 0.000 description 1
- 210000004248 oligodendroglia Anatomy 0.000 description 1
- 230000006919 peptide aggregation Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于图神经网络的基因调控网络构建方法及系统,本发明通过链接预测和图神经网络的方式构建基因调控网络,结合了封闭子图和封闭子图标签矩阵作为输入特征的一部分,取代基于强假设的启发式方法,可以避免假设失效带来的负面影响,同时使神经网络可以能识别每个节点在图中的重要作用,再使用高效的图卷积层和排序池化层可以显著提高图神经网络链接预测的准确度。通过本发明,可以构建疾病的基因调控网络以发现与疾病相关的基因,从而提供潜在的药物靶点,从而达到治疗该疾病的效果。
Description
技术领域
本发明涉及深度学习领域,具体涉及一种基于图神经网络的基因调控网络构建方法及系统。
背景技术
随着基因组研究的不断发展,探索基因调控网络成为基因组学的重大挑战之一,并成为生物学研究的主要焦点。基因调控网络主要描述了细胞内或一个基因组内的基因之间的相互作用,简单来说就是描述了生物体内控制基因表达的机制。研究基因调控网络可以为很多生物学领域提供保障,例如药物设计或其他医学相关领域。这些领域需要基因调控网络来提供对活细胞中细胞过程的清晰洞察和理解。这是因为基因及其产物之间的相互作用在许多分子过程中发挥着重要作用。同时,单细胞RNA测序技术允许在单细胞分辨率下解析基因表达,这极大的促进了转录组学的研究,也使得推断基因调控网络有了新方法。因此使用单细胞测序数据来构建基因调控网络成为了新的热点问题。
近些年来在使用单细胞RNA测序数据推断基因调控网络中取得不错效果的是基于线性常微分方程和线性回归领域的变换架构和基于熵的异构生物信息聚合评分方法。这些方法都未将图结构信息纳入到他们的方法中,使得丢失了重要的非欧几里得空间数据的特征。同时,近些年来,在人工智能领域,图神经网络开始得到广泛的研究和关注,不少研究学者提出了很多图神经网络模型,都取得良好的效果,这使得引入图神经网络研究基因调控网络成为可能。
随着人工智能领域的不断发展,全连接神经网络,卷积神经网络,注意力机制网络,强化学习等在图像处理,自然语言处理等领域得到广泛使用,但是现在提出的网络结构在非欧几里得空间中的数据的处理却不是很理想,所以为了解决从非欧几里得领域生成的数据的处理等一系列问题,从而诞生了图神经网络。因为在现实中,许多非欧几里得数据都表示为具有复杂关系和对象之间相互依赖的图形,例如社交网络,蛋白质结构等。图神经网络在推荐系统设计,机器视觉中点云的生成等方面得到了广泛的应用。图神经网络分为循环神经网络、图卷积神经网络、图自动编码器和时空图神经网络。其中由于图卷积神经网络有更有效且更方便与其他神经网络结合的优势,成为主流的研究方向,因此引入性能优异的基于图卷积神经网络对提升性能也十分重要。图卷积神经网络分为两类:基于频谱和基于空间的图卷积神经网络。基于频谱的图卷积神经网络通过从图信号处理的角度引入滤波器,其中图卷积操作被解释为从图信号中去除噪声。基于空间的图卷积神经网络继承了循环神经网络的思想,通过信息传播来定义图卷积。基于空间的图卷积神经网络因具有高效性、灵活性和通用性而在最近迅速发展。在图神经网络研究领域中,链接预测又是图神经网络中的典型任务之一。链接预测通常用于预测网络中两个节点之间的相互连通性。启发式链接预测方法通常因其简单和有效而受到青睐。这些启发式方法往往需要知道局部的网络结构,甚至有一些高阶启发式方法需要整个网络的信息,这种计算开销往往是不能接受的。不仅如此,启发式方法对链接节点施加了很强的假设,这在实际应用中的有些场景下是站不住脚的,并且会对预测性能产生不利影响。
发明内容
本发明的目的在于针对现有技术的不足,提出一种基于链接预测和图神经网络的基因调控网络构建方法。通过引入能很好处理非欧几里得数据的图神经网络和使用基于衰减理论的封闭子图代替启发式方法来提升链接预测的性能,从而构建获得基因调控网络。
本发明采用的技术方案具体如下:
一种基于图神经网络的基因调控网络构建方法,包括:
获取一个细胞或一个基因组的基因测序数据,基于获取的基因测序数据构建图表示;
提取感兴趣的中心基因,并基于图表示获取中心基因周围的链接基因,将中心基因与链接基因两两组成基因对;
构建每一基因对的输入特征,所述输入特征包括基因信息矩阵和图表示中的邻接矩阵,所述基因信息矩阵由特征信息矩阵、基因对的封闭子图和封闭子图标签矩阵拼接构成;所述特征信息矩阵由图表示中每一基因的显性特征和隐性特征拼接构成;
将每一基因对的输入特征输入至训练好的图神经网络,输出获得预测的基因对的链接关系,根据所有基因对的链接关系构建获得基因调控网络。
进一步地,基于图表示,采用广度优先搜索算法获取中心基因周围的链接基因。
进一步地,所述基因的显性特征为基因在细胞或基因组中的表达量,隐性特征为采用node2vec算法构建的节点嵌入特征。通过节点嵌入算法获得隐性特征,再将隐性特征和显性特征进行结合,可以获得更全面的节点信息。并且通过构建封闭子图以取代基于强假设的启发式方法以避免假设失效带来的负面影响,可以极大地提高神经网络的预测性能。
进一步地,所述基因对的封闭子图和封闭子图标签矩阵通过如下方法构建:
将基因对作为中心节点加入列表L的头部;
在图表示中寻找与任意一个中心节点距离为k的节点,k∈{1,2,…,h},加入到列表L的末尾,重复h次,每次重复k都会加1,构建获得封闭子图;
对封闭子图中的每个节点给予标签值,构建获得封闭子图标签矩阵。
进一步地,所述图神经网络由多个图卷积层、排序池化层、多个一维卷积层和全连接层组成。通过使用高效的图卷积层和排序池化层可以提高模型链接预测的准确度。
进一步地,所述训练好的图神经网络是基于收集的数据集,以最小化图神经网络输出的预测的基因对的链接关系与链接真值构建的损失函数为目标进行训练获得的。
一种基于图神经网络的基因调控网络构建系统,用于实现所述的基于图神经网络的基因调控网络构建方法,包括:
数据预处理模块,用于获取一个细胞或一个基因组的基因测序数据,基于获取的基因测序数据构建图表示;
基因对构建模块,用于提取感兴趣的中心基因,并基于图表示获取中心基因周围的链接基因,将中心基因与链接基因两两组成基因对;
输入特征构建模块,用于构建每一基因对的输入特征,所述输入特征包括基因信息矩阵和图表示中的邻接矩阵,所述基因信息矩阵由特征信息矩阵、基因对的封闭子图和封闭子图标签矩阵拼接构成;所述特征信息矩阵由图表示中每一基因的显性特征和隐性特征拼接构成;
基因调控网络构建模块,用于将每一基因对的输入特征输入至训练好的图神经网络,输出获得预测的基因对的链接关系,根据所有基因对的链接关系构建获得基因调控网络。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于图神经网络的基因调控网络构建方法。
一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现所述的基于图神经网络的基因调控网络构建方法。
本发明的有益效果是:
本发明通过链接预测和图神经网络的方式构建基因调控网络,结合了封闭子图和封闭子图标签矩阵作为输入特征的一部分,取代基于强假设的启发式方法,可以避免假设失效带来的负面影响,同时使神经网络能识别每个节点在图中的重要作用,再使用高效的图卷积层和排序池化层可以显著提高图神经网络链接预测的准确度。通过本发明,可以构建疾病的基因调控网络以发现与疾病相关的基因,从而提供潜在的药物靶点,从而达到治疗该疾病的效果。
附图说明
图1是本发明一种基于图神经网络的基因调控网络构建方法的流程图。
图2是一个具体实施例中构建图表示的流程图。
图3是图神经网络的功能划分图。
图4是本发明一种基于图神经网络的基因调控网络构建系统结构图。
图5是本发明提供的一种基于图神经网络的基因调控网络构建系统所在任意具备数据处理能力的电子设备的一种硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。
在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本实施例以阿尔兹海默症的基因调控网络构建为例进行具体阐述
图1示出为一种基于图神经网络的基因调控网络构建方法的流程图,如图1所示,本发明的一种基于图神经网络的基因调控网络构建方法,具体包括以下步骤:
步骤S1:获取一个细胞或一个基因组的基因测序数据,基于获取的基因测序数据构建图表示;
本实施例中,如图2所示,具体包括以下子步骤:
步骤S1.1:按照正常未患阿尔兹海默症和患阿尔滋海默症这两组收集单细胞RNA测序数据。
作为一种优选方案,该子步骤中还包括过滤无用基因和细胞,一般情况下,对于疾病诊断明显不起作用的基因可以认定为无用基因,例如统计中计数少于10个或者没有计数的基因、线粒体基因等。同理,对于疾病诊断明显不起作用的细胞认定为无用细胞,例如监测到基因数量在第5和第95个百分位之外的细胞等。
步骤S1.2:鉴别细胞类型,选取其中一个细胞的基因测序数据,基于获取的基因测序数据构建图表示。
作为一种可选的实施方案,可以使用BRETIGEA识别细胞类型。该工具引用的数据是经过充分验证且可靠的数据,与脑组织数据集相匹配,可以识别以下类别神经元:星形胶质细胞、少突胶质细胞、小胶质细胞、少突胶质前体细胞和内皮细胞。
作为一种可选的实施方案,可以采用UMAP分析或T检验等方法查看每种细胞数据对患病和不患病的分离性,选取与疾病高度相关的一个细胞的基因测序数据。有许多研究表明,小胶质细胞与阿尔兹海默症高度相关。小胶质细胞可以清除淀粉样蛋白肽并防止肽聚集,并显示出可以诱导免疫和炎症性神经系统疾病。鉴于以上小胶质细胞对于阿尔兹海默症的重要性,本实施例选取小胶质细胞的基因测序数据,基于获取的基因测序数据构建图表示G(V,E),V是非空集合,称为顶点集,其中的节点数量等于获取的基因测序数据的基因数量n,E是V中元素构成的无序二元组的集合,称为边集,也称为邻接矩阵。邻接矩阵表示为:
上述基于获取的基因测序数据构建图表示的方法为本领域的常规方法,例如可以采用A single-cell atlas of entorhinal cortex from individuals with Alzheimer’s disease reveals cell-type-specific gene expression regulation | NatureNeuroscience公开的方法。
步骤S2:提取感兴趣的中心基因,如APOE, P2RY12, CX3CR1基因等,并基于图表示获取中心基因周围的链接基因,将中心基因与链接基因两两组成基因对;其中,获取中心基因附近的链接基因可以采用广度优先搜索算法。
步骤S3:构建每一基因对的输入特征,所述输入特征包括基因信息矩阵和图表示中的邻接矩阵,所述基因信息矩阵由特征信息矩阵、基因对的封闭子图和封闭子图标签矩阵拼接构成,所述特征信息矩阵由图表示中每一基因的显性特征和隐性特征拼接构成;
基因信息矩阵表示为:
式中,表示基因对的封闭子图中的第i个节点即基因的第j个特征和封闭子图标签矩阵的第i个节点即基因的第j个特征以及第i个节点即基因的第j个显性特征和隐性特征的拼接,p表示基因对的封闭子图中的基因数,c0表示拼接后的特征维度。
作为一种可选的实施方案,选取每个基因在小胶质细胞中的表达量构建该基因的显性特征。一般情况下,可以计算z分数对表达量进行标准化,便于后续计算。在获取隐性特征方面,本实施例采用node2vec算法构建节点嵌入特征,并拼接在显性特征上,得到特征信息矩阵。
再构建基因对的封闭子图和封闭子图标签矩阵,作为一种可选的实施方案,具体如下:
对所有基因对提取h-hop封闭子图,并本实施例封闭子图的提取方法如下:
1.将中心节点加入列表L的头部。
2.在图表示中寻找与任意一个中心节点距离为k的节点,加入到列表L的末尾,该步重复h次构建获得封闭子图,其中k∈{1,2,…,h}(h=2,提取的即为2-hop封闭子图,本实施例中采用2-hop封闭子图),每次重复k都会加一,且其初始值为1。其中,在构建封闭子图的过程中,可以限制单个中心节点的探索范围以控制封闭子图的大小,例如可以限制单个中心节点的探索范围不超过400个节点。
步骤S4:将每一基因对的输入特征输入至训练好的图神经网络,输出获得预测的基因对的链接关系,根据所有基因对的链接关系构建获得基因调控网络。
本发明中的图神经网络可以采用常规的图神经网络,作为一种可选的实施方案,可以采用图卷积神经网络,主要由多个图卷积层、排序池化层、多个一维卷积层组成。表1为一示例性的图卷积神经网络的具体结构,包括4层图卷积层、1层排序池化层和3层一维卷积层和一层全连接层。
表1 图卷积神经网络的结构
不同的网络层构成了不同功能区对输入数据进行处理,如图3所示,具体如下:
由图卷积层构成的图卷积层功能区:
图卷积层功能区主要使用预定义的卷积操作进行空间卷积操作以聚合节点信息。以一层图卷积层为例,本发明使用的卷积操作如下:
其中,A代表图的邻接矩阵,那么代表的是基因信息矩阵,p是基因对的封闭子图中的基因数,c是每个节点的特征数。矩阵,是邻接矩阵加上自循环,I表示单位矩阵。矩阵是一个对角矩阵,其满足。表示矩阵中的第i行第j列的原数,矩阵是可训练网络参数,c1是下一层的输入通道数,f是非线性激活函数,是该层的输出矩阵。
图卷积操作可以分为四个步骤:
1)通过过滤器W对基因信息矩阵进行线性特征变换,使之映射到下一层的c1通道,过滤器W在全节点中共享。
4)通过非线性激活函数 f 输出卷积结果。
在堆叠多个图卷积层时,则是多次图卷积操作,通过多次图卷积操作可以达到聚合高层信息的目的。形式如下:
其中是第t层图卷积层的输出,Wt将ct通道映射到ct+1通道。在多个图卷积层之后,为了方便排序池化层的操作,需要链接各个层的输出从而形成串联输出。可以表示为:,其中m是图卷积层数。在串联输出中,每一行都可以看作成一个顶点的“特征描述符”,编码了多尺度局部子结构信息。
由排序池化层构成的排序池化层功能区:
该层不像传统的池化只对上一层的输出进行池化操作。该排序池化层功能区是对上个功能区的每个卷积层中获得的特征进行池化操作。具体思想是排序池化层将串联输出基于特征值从大至小进行排序。在图结构中,每个节点都可以根据其在网络中的结构进行排序。因此,神经网络可以顺序读取图节点并学习有意义的模型。该层接收从图卷积层得到的节点特征,利用节点信息对节点进行排序,当节点特征相同时,比较下一个特征,以此类推,直到打破平衡。不仅如此,为了确保输出的统一,会支持截断/扩充操作,该层通过截断或扩展操作控制的输出大小,其中K为用户自定义参数,表示每个图卷积层贡献的特征数之和。在实施例中使用的K会仅保留60%的节点信息,以适应不同节点数量的封闭子图。最终排序池化层输出的矩阵如下:
由一维卷积层和全连接层构成的剩余功能区:
剩余功能区主要是首先对排序池化层得到的特征执行扁平化操作,再利用几个一维卷积层进行一维卷积学习排序池化层得到的特征并利用全连接层输出分类结果。本发明使用的一维卷积层,严格要求其步长是每个节点的特征数,也就是所有图卷积层的特征总和,以保证学习到有效的信息。
通过构建数据集,以最小化图神经网络输出的预测的基因对的链接关系与链接真值构建的损失函数为目标进行训练,即可获得训练好的图神经网络。数据集的每一样本包含基因对的输入特征及链接真值。作为一个可选的方案,还可以设置测试集及验证集对训练好的图神经网络进行性能测试和验证,本实施例中随机采样4000个链接正例和4000个链接反例作为训练集,随机采样1000个链接正例和1000个链接反例作为测试集,随机采样1000个链接正例和1000个链接反例作为验证集。训练采用的损失函数为交叉熵损失函数。
最后,将每一基因对的输入特征输入至训练好的图神经网络,通过训练好的图神经网络三个功能区的依次执行处理,最终即可获得每一输入基因对的链接关系,根据所有基因对的链接关系构建获得基因调控网络。一般情况下,训练好的图神经网络输出的链接关系为链接概率,可通过设置阈值判断最终是否链接,本实施例中,取0.5作为阈值,大于阈值的认为是有链接的,反之则无,进而构建布尔类型基因调控网络。
本发明通过结合图表示构建封闭子图和封闭子图标签矩阵作为输入特征的一部分,取代基于强假设的启发式方法,可以避免假设失效带来的负面影响,同时使神经网络可以识别每个节点在图中的重要作用,再使用高效的图卷积层和排序池化层可以显著提高图神经网络链接预测的准确度。通过本发明,可以构建疾病的基因调控网络以发现与疾病相关的基因,从而提供潜在的药物靶点,从而达到治疗该疾病的效果。
与前述基于图神经网络的基因调控网络构建方法的实施例相对应,本发明还提供了基于图神经网络的基因调控网络构建系统的实施例。
参见图4,本发明实施例提供的一种基于图神经网络的基因调控网络构建系统,包括:
数据预处理模块,用于获取一个细胞或一个基因组的基因测序数据,基于获取的基因测序数据构建图表示;
基因对构建模块,用于提取感兴趣的中心基因,并基于图表示获取中心基因周围的链接基因,将中心基因与链接基因两两组成基因对;
输入特征构建模块,用于构建每一基因对的输入特征,所述输入特征包括基因信息矩阵和图表示中的邻接矩阵,所述基因信息矩阵由特征信息矩阵、基因对的封闭子图和封闭子图标签矩阵拼接构成;所述特征信息矩阵由图表示中每一基因的显性特征和隐性特征拼接构成;
基因调控网络构建模块,用于将每一基因对的输入特征输入至训练好的图神经网络,输出获得预测的基因对的链接关系,根据所有基因对的链接关系构建获得基因调控网络。
本发明基于图神经网络的基因调控网络构建系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。
系统实施例可以通过软件实现,也以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的从硬件层面而言,如图5所示,为本发明提供的一种基于图神经网络的基因调控网络构建系统所在任意具备数据处理能力的电子设备的一种硬件结构图,包括一个或多个处理器,用于实现上述实施例中的一种基于图神经网络的基因调控网络构建方法。除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中系统所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述系统中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于图神经网络的基因调控网络构建系统。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡( Smart Media Card,SMC ) 、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。
Claims (10)
1.一种基于图神经网络的基因调控网络构建方法,其特征在于,包括:
获取一个细胞或一个基因组的基因测序数据,基于获取的基因测序数据构建图表示;
提取感兴趣的中心基因,并基于图表示获取中心基因周围的链接基因,将中心基因与链接基因两两组成基因对;
构建每一基因对的输入特征,所述输入特征包括基因信息矩阵和图表示中的邻接矩阵,所述基因信息矩阵由特征信息矩阵、基因对的封闭子图和封闭子图标签矩阵拼接构成;所述特征信息矩阵由图表示中每一基因的显性特征和隐性特征拼接构成;
将每一基因对的输入特征输入至训练好的图神经网络,输出获得预测的基因对的链接关系,根据所有基因对的链接关系构建获得基因调控网络。
2.根据权利要求1所述的方法,其特征在于,基于图表示,采用广度优先搜索算法获取中心基因周围的链接基因。
3.根据权利要求1所述的方法,其特征在于,所述基因的显性特征为基因在细胞或基因组中的表达量,隐性特征为采用node2vec算法构建的节点嵌入特征。
4.根据权利要求1所述的方法,其特征在于,所述基因对的封闭子图和封闭子图标签矩阵通过如下方法构建:
将基因对作为中心节点加入列表L的头部;
在图表示中寻找与任意一个中心节点距离为k的节点,k∈{1,2,…,h},加入到列表L的末尾,重复h次,每次重复k都会加1,构建获得封闭子图;
对封闭子图中的每个节点给予标签值,构建获得封闭子图标签矩阵。
6.根据权利要求1所述的方法,其特征在于,所述图神经网络由多个图卷积层、排序池化层、多个一维卷积层和全连接层组成。
7.根据权利要求1所述的方法,其特征在于,所述训练好的图神经网络是基于收集的数据集,以最小化图神经网络输出的预测的基因对的链接关系与链接真值构建的损失函数为目标进行训练获得的。
8.一种基于图神经网络的基因调控网络构建系统,用于实现权利要求1-7任一项所述的基于图神经网络的基因调控网络构建方法,包括:
数据预处理模块,用于获取一个细胞或一个基因组的基因测序数据,基于获取的基因测序数据构建图表示;
基因对构建模块,用于提取感兴趣的中心基因,并基于图表示获取中心基因周围的链接基因,将中心基因与链接基因两两组成基因对;
输入特征构建模块,用于构建每一基因对的输入特征,所述输入特征包括基因信息矩阵和图表示中的邻接矩阵,所述基因信息矩阵由特征信息矩阵、基因对的封闭子图和封闭子图标签矩阵拼接构成;所述特征信息矩阵由图表示中每一基因的显性特征和隐性特征拼接构成;
基因调控网络构建模块,用于将每一基因对的输入特征输入至训练好的图神经网络,输出获得预测的基因对的链接关系,根据所有基因对的链接关系构建获得基因调控网络。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于图神经网络的基因调控网络构建方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-7任一项所述的基于图神经网络的基因调控网络构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406420.9A CN116129992A (zh) | 2023-04-17 | 2023-04-17 | 基于图神经网络的基因调控网络构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406420.9A CN116129992A (zh) | 2023-04-17 | 2023-04-17 | 基于图神经网络的基因调控网络构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129992A true CN116129992A (zh) | 2023-05-16 |
Family
ID=86312138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310406420.9A Pending CN116129992A (zh) | 2023-04-17 | 2023-04-17 | 基于图神经网络的基因调控网络构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129992A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116705194A (zh) * | 2023-06-06 | 2023-09-05 | 之江实验室 | 一种基于图神经网络的药物抑癌敏感性预测方法与装置 |
CN116825204A (zh) * | 2023-08-30 | 2023-09-29 | 鲁东大学 | 一种基于深度学习的单细胞rna序列基因调控推断方法 |
CN116844645A (zh) * | 2023-08-31 | 2023-10-03 | 云南师范大学 | 一种基于多视角分层超图的基因调控网络推断方法 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105841A (zh) * | 2007-02-12 | 2008-01-16 | 浙江大学 | 由大规模基因芯片表达谱数据构建基因调控亚网络的方法 |
CN102086473A (zh) * | 2010-05-12 | 2011-06-08 | 天津市泌尿外科研究所 | 人类多基因疾病关键基因的无向网络筛选方法 |
KR20140118259A (ko) * | 2013-03-28 | 2014-10-08 | 한국과학기술원 | 확장성 있는 바이오-시뮬레이션 방법 및 이를 위한 장치 |
CN109671468A (zh) * | 2018-12-13 | 2019-04-23 | 韶关学院 | 一种特征基因选择及癌症分类方法 |
CN110808083A (zh) * | 2019-10-23 | 2020-02-18 | 南通大学 | 基于scRNA-seq及动态时间规整的基因调控网络构建方法 |
CN112119412A (zh) * | 2018-05-18 | 2020-12-22 | 伯耐沃伦人工智能科技有限公司 | 具有注意力的图神经网络 |
CN112201346A (zh) * | 2020-10-12 | 2021-01-08 | 哈尔滨工业大学(深圳) | 癌症生存期预测方法、装置、计算设备及计算机可读存储介质 |
CN112232413A (zh) * | 2020-10-16 | 2021-01-15 | 东北大学 | 基于图神经网络与谱聚类的高维数据特征选择方法 |
CN112382411A (zh) * | 2020-11-13 | 2021-02-19 | 大连理工大学 | 一种基于异质图的药物-蛋白质靶向作用预测方法 |
CN113409892A (zh) * | 2021-05-13 | 2021-09-17 | 西安电子科技大学 | 基于图神经网络的miRNA-疾病关联关系预测方法 |
CN114154557A (zh) * | 2021-11-08 | 2022-03-08 | 中央财经大学 | 癌症组织分类方法、装置、电子设备及存储介质 |
CN114496084A (zh) * | 2022-02-08 | 2022-05-13 | 中南林业科技大学 | 一种circRNA和miRNA关联关系高效预测方法 |
CN114679372A (zh) * | 2022-03-17 | 2022-06-28 | 扬州大学 | 一种基于节点相似性的图注意力网络的链路预测方法 |
CN114897085A (zh) * | 2022-05-25 | 2022-08-12 | 江苏大学 | 一种基于封闭子图链路预测的聚类方法及计算机设备 |
CN114925837A (zh) * | 2022-03-23 | 2022-08-19 | 华中农业大学 | 基于混合熵优化互信息的基因调控网络构建方法 |
CN114999635A (zh) * | 2022-06-20 | 2022-09-02 | 桂林理工大学 | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 |
CN115171779A (zh) * | 2022-07-13 | 2022-10-11 | 浙江大学 | 基于图注意力网络和多组学融合的癌症驱动基因预测装置 |
CN115240777A (zh) * | 2022-08-10 | 2022-10-25 | 上海科技大学 | 基于图神经网络的合成致死基因预测方法、装置、终端及介质 |
CN115511076A (zh) * | 2022-09-28 | 2022-12-23 | 京东方科技集团股份有限公司 | 一种网络表示学习方法、装置、设备及存储介质 |
CN115730660A (zh) * | 2023-01-06 | 2023-03-03 | 粤港澳大湾区数字经济研究院(福田) | 基于因果解耦的链接生成方法和相关装置 |
CN115798602A (zh) * | 2023-02-03 | 2023-03-14 | 北京灵迅医药科技有限公司 | 基因调控网络构建方法、装置、设备及存储介质 |
-
2023
- 2023-04-17 CN CN202310406420.9A patent/CN116129992A/zh active Pending
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105841A (zh) * | 2007-02-12 | 2008-01-16 | 浙江大学 | 由大规模基因芯片表达谱数据构建基因调控亚网络的方法 |
CN102086473A (zh) * | 2010-05-12 | 2011-06-08 | 天津市泌尿外科研究所 | 人类多基因疾病关键基因的无向网络筛选方法 |
KR20140118259A (ko) * | 2013-03-28 | 2014-10-08 | 한국과학기술원 | 확장성 있는 바이오-시뮬레이션 방법 및 이를 위한 장치 |
CN112119412A (zh) * | 2018-05-18 | 2020-12-22 | 伯耐沃伦人工智能科技有限公司 | 具有注意力的图神经网络 |
CN109671468A (zh) * | 2018-12-13 | 2019-04-23 | 韶关学院 | 一种特征基因选择及癌症分类方法 |
CN110808083A (zh) * | 2019-10-23 | 2020-02-18 | 南通大学 | 基于scRNA-seq及动态时间规整的基因调控网络构建方法 |
CN112201346A (zh) * | 2020-10-12 | 2021-01-08 | 哈尔滨工业大学(深圳) | 癌症生存期预测方法、装置、计算设备及计算机可读存储介质 |
CN112232413A (zh) * | 2020-10-16 | 2021-01-15 | 东北大学 | 基于图神经网络与谱聚类的高维数据特征选择方法 |
CN112382411A (zh) * | 2020-11-13 | 2021-02-19 | 大连理工大学 | 一种基于异质图的药物-蛋白质靶向作用预测方法 |
CN113409892A (zh) * | 2021-05-13 | 2021-09-17 | 西安电子科技大学 | 基于图神经网络的miRNA-疾病关联关系预测方法 |
CN114154557A (zh) * | 2021-11-08 | 2022-03-08 | 中央财经大学 | 癌症组织分类方法、装置、电子设备及存储介质 |
CN114496084A (zh) * | 2022-02-08 | 2022-05-13 | 中南林业科技大学 | 一种circRNA和miRNA关联关系高效预测方法 |
CN114679372A (zh) * | 2022-03-17 | 2022-06-28 | 扬州大学 | 一种基于节点相似性的图注意力网络的链路预测方法 |
CN114925837A (zh) * | 2022-03-23 | 2022-08-19 | 华中农业大学 | 基于混合熵优化互信息的基因调控网络构建方法 |
CN114897085A (zh) * | 2022-05-25 | 2022-08-12 | 江苏大学 | 一种基于封闭子图链路预测的聚类方法及计算机设备 |
CN114999635A (zh) * | 2022-06-20 | 2022-09-02 | 桂林理工大学 | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 |
CN115171779A (zh) * | 2022-07-13 | 2022-10-11 | 浙江大学 | 基于图注意力网络和多组学融合的癌症驱动基因预测装置 |
CN115240777A (zh) * | 2022-08-10 | 2022-10-25 | 上海科技大学 | 基于图神经网络的合成致死基因预测方法、装置、终端及介质 |
CN115511076A (zh) * | 2022-09-28 | 2022-12-23 | 京东方科技集团股份有限公司 | 一种网络表示学习方法、装置、设备及存储介质 |
CN115730660A (zh) * | 2023-01-06 | 2023-03-03 | 粤港澳大湾区数字经济研究院(福田) | 基于因果解耦的链接生成方法和相关装置 |
CN115798602A (zh) * | 2023-02-03 | 2023-03-14 | 北京灵迅医药科技有限公司 | 基因调控网络构建方法、装置、设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
A. B. O. V. SILVA ET AL: "Graph Convolutional Auto-Encoders for Predicting Novel lncRNA-Disease Associations", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》, pages 2264 - 2271 * |
S. GANESHAMOORTHY ET AL: "Gene Regulatory Network Inference through Link Prediction using Graph Neural Network", 《2022 IEEE SIGNAL PROCESSING IN MEDICINE AND BIOLOGY SYMPOSIUM (SPMB)》, pages 1 * |
刘晓燕等: "基于组合模型的转录调控网络构建算法研究", 《计算机科学与探索》, vol. 12, no. 7, pages 1154 - 1161 * |
巨秉熠: "基于图神经网络预测miRNA-疾病关联关系", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, vol. 2022, no. 4, pages 4 - 3 * |
张林等: "基于卷积神经网络的链接表示及预测方法", 《浙江大学学报(工学版)》, vol. 52, no. 3, pages 552 - 559 * |
郑广强等: "NSCLC分类及生存分析预测的全基因组特征基因识别", 《基因组学与应用生物学》, vol. 34, no. 10, pages 2058 - 2066 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116705194A (zh) * | 2023-06-06 | 2023-09-05 | 之江实验室 | 一种基于图神经网络的药物抑癌敏感性预测方法与装置 |
CN116705194B (zh) * | 2023-06-06 | 2024-06-04 | 之江实验室 | 一种基于图神经网络的药物抑癌敏感性预测方法与装置 |
CN116825204A (zh) * | 2023-08-30 | 2023-09-29 | 鲁东大学 | 一种基于深度学习的单细胞rna序列基因调控推断方法 |
CN116825204B (zh) * | 2023-08-30 | 2023-11-07 | 鲁东大学 | 一种基于深度学习的单细胞rna序列基因调控推断方法 |
CN116844645A (zh) * | 2023-08-31 | 2023-10-03 | 云南师范大学 | 一种基于多视角分层超图的基因调控网络推断方法 |
CN116844645B (zh) * | 2023-08-31 | 2023-11-17 | 云南师范大学 | 一种基于多视角分层超图的基因调控网络推断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Srivastava | Improving neural networks with dropout | |
CN116129992A (zh) | 基于图神经网络的基因调控网络构建方法及系统 | |
CN110334843B (zh) | 一种时变注意力改进Bi-LSTM的住院就医行为预测方法及装置 | |
Srivastava et al. | Dropout: a simple way to prevent neural networks from overfitting | |
US11075008B2 (en) | Generating drug repositioning hypotheses based on integrating multiple aspects of drug similarity and disease similarity | |
CN111950596B (zh) | 一种用于神经网络的训练方法以及相关设备 | |
CN113705772A (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
CN113421652A (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
JP7522936B2 (ja) | グラフニューラルネットワークに基づく遺伝子表現型予測 | |
US20240079098A1 (en) | Device for predicting drug-target interaction by using self-attention-based deep neural network model, and method therefor | |
US20210406686A1 (en) | Method and system for balanced-weight sparse convolution processing | |
Abdel-Basset et al. | An efficient-assembler whale optimization algorithm for DNA fragment assembly problem: analysis and validations | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
Bhardwaj et al. | Computational biology in the lens of CNN | |
CN117611974B (zh) | 基于多种群交替进化神经结构搜索的图像识别方法及系统 | |
CN115240843A (zh) | 基于结构因果模型的公平性预测系统 | |
Conard et al. | A spectrum of explainable and interpretable machine learning approaches for genomic studies | |
Mahapatra et al. | MRMR-SSA: a hybrid approach for optimal feature selection | |
Nandhini et al. | An optimal stacked ResNet-BiLSTM-based accurate detection and classification of genetic disorders | |
Rajadhyaksha et al. | Graph Contrastive Learning for Multi-omics Data | |
Higa et al. | Growing seed genes from time series data and thresholded Boolean networks with perturbation | |
CN115511076A (zh) | 一种网络表示学习方法、装置、设备及存储介质 | |
CN115691817A (zh) | 一种基于融合神经网络的LncRNA-疾病关联预测方法 | |
CN115472305A (zh) | 一种预测微生物-药物关联作用的方法及系统 | |
Lanchantin et al. | Prototype Matching Networks for Large-Scale Multi-label Genomic Sequence Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230516 |
|
RJ01 | Rejection of invention patent application after publication |