CN113611366B - 基于图神经网络的基因模块挖掘方法、装置、计算机设备 - Google Patents
基于图神经网络的基因模块挖掘方法、装置、计算机设备 Download PDFInfo
- Publication number
- CN113611366B CN113611366B CN202110854545.9A CN202110854545A CN113611366B CN 113611366 B CN113611366 B CN 113611366B CN 202110854545 A CN202110854545 A CN 202110854545A CN 113611366 B CN113611366 B CN 113611366B
- Authority
- CN
- China
- Prior art keywords
- gene
- network
- expression
- paired
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图神经网络的基因模块挖掘方法、装置、计算机设备。其中,所述方法包括:根据基因表达谱数据,构造基因共表达网络,和基于该构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵,以及基于该配置的社区隶属度矩阵,通过设定阈值的方式,生成已知模块。通过上述方式,能够实现通过图神经网络表示学习的方式配置社区归属矩阵,再通过设定阈值的方式生成已知模块,实现在基因模块挖掘结果上能够允许有密集连接的多个基因可归属于不同的模块。
Description
技术领域
本发明涉及基因模块挖掘技术领域,尤其涉及一种基于图神经网络的基因模块挖掘方法、装置、计算机设备。
背景技术
相关技术中,随着高通量生物实验技术的快速发展,特别是基因芯片和新一代测序技术的发展,全基因组范围内的生物数据呈爆炸式增长。通过对这些实验数据的分析,可以得到一些不同类型的网络,比如基因表达调控网络,蛋白质相互作用网络,转录调控网络。分子生物网络在系统层面反映了生物分子的相互作用关系,因而在相当程度上有助于研究者深入理解生物细胞中各种生物分子是如何相互作用,进而行使生物功能的完整处理过程,为探索复杂生命活动提供了有力工具。对这些不同类型网络的分析表明,这些网络都具有模块性,而生物的功能往往也都是通过这些模块来得以实现的。对大型基因表达数据分析的关键步骤是使用模块检测方式将基因划分为多个具有相似属性的模块,这些模块可用于推断后续的转录调控关系,改善功能基因组的注释,因此,有必要对这些模块的识别和分析进行研究。
聚类方法是模块分析中最普遍和流行的方法,通过计算不同基因样本向量的欧式距离或者用相似度计算方法度量两个基因的相似度,将关系相近的基因划分为同一个模块,目前已经有许多聚类方法应用于基因表达谱数据分析任务中,例如k-means(k-meansclustering algorithm,K均值聚类算法),Hierarchical clustering(层次聚类)。也有一些方法通过构造基因相似度网络,然后在网络上使用图聚类的方法挖掘基因模块。谱聚类通过切图的方式使得同一个模块内的点距离尽可能地接近,不同模块间的点距离尽可能地远,从而达到聚类的目的。WGCNA(Weighted correlation network analysis,加权基因共表达网络分析)引入了软阈值的概念,通过对相似度矩阵中的元素取幂次运算,使构造出来的网络具有无标度特性,再使用层次聚类挖掘基因模块,目前WGCNN已经被封装成R包(由社区开发的功能和数据集的集合)的形式供研究人员使用。
在基因表达谱数据的挖掘任务中,聚类只关注了基因在所有样本中的共表达,而忽视了可能只存在于某些样本的局部表达关系,而且聚类只能将基因划分到单个模块中,但是已经有越来越多的证据表明,单个基因往往与多种功能或者代谢通路有关联,如何挖掘这种重叠的模块也是基因模块挖掘的一个难点,导致在基因模块挖掘结果上无法实现允许有密集连接的多个基因可归属于不同的模块。
发明内容
有鉴于此,本发明的目的在于提出一种基于图神经网络的基因模块挖掘方法、装置、计算机设备,能够实现通过图神经网络表示学习的方式配置社区归属矩阵,再通过设定阈值的方式生成已知模块,实现在基因模块挖掘结果上能够允许有密集连接的多个基因可归属于不同的模块。
根据本发明的一个方面,提供一种基于图神经网络的基因模块挖掘方法,包括:根据基因表达谱数据,构造基因共表达网络;基于所述构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵;基于所述配置的社区隶属度矩阵,通过设定阈值的方式,生成已知模块。
其中,所述根据基因表达谱数据,构造基因共表达网络,包括:根据基因表达谱数据,将每个基因的表达值规范化为均值为0和方差为1的表达向量,和选择皮尔逊相似系数来计算成对基因间的关联性,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,和基于所述选择的预设比例的对应最高相关性的成对关系作为共表达网络的边,构建K最近邻网络,并根据所述选择的预设比例的对应最高相关性的成对关系作为共表达网络的边和所述构建的K最近邻网络,构造基因共表达网络。
其中,所述选择皮尔逊相似系数来计算成对基因间的关联性,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,包括:选择皮尔逊相似系数来计算成对基因间的关联性,通过采用预设规模的小根堆,每次计算两两节点对相似度时都与所述小根堆的堆顶元素比较,如果大于所述小根堆的堆顶则交换小根堆堆顶元素与所述节点对,当扫描完一遍所有的节点对后,所述小根堆中剩余的元素即为所需要找的具有最高相似度的条节点对,根据所述具有最高相似度的条节点对,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边。
其中,所述基于所述构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵,包括:基于所述构造的基因共表达网络,通过图神经网络聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示方式,配置社区隶属度矩阵。
根据本发明的另一个方面,提供一种基于图神经网络的基因模块挖掘装置,包括:构造模块、配置模块和生成模块;所述构造模块,用于根据基因表达谱数据,构造基因共表达网络;所述配置模块,用于基于所述构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵;所述生成模块,用于基于所述配置的社区隶属度矩阵,通过设定阈值的方式,生成已知模块。
其中,所述构造模块,具体用于:根据基因表达谱数据,将每个基因的表达值规范化为均值为和方差为的表达向量,和选择皮尔逊相似系数来计算成对基因间的关联性,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,和基于所述选择的预设比例的对应最高相关性的成对关系作为共表达网络的边,构建K最近邻网络,并根据所述选择的预设比例的对应最高相关性的成对关系作为共表达网络的边和所述构建的K最近邻网络,构造基因共表达网络。
其中,所述构造模块,具体用于:选择皮尔逊相似系数来计算成对基因间的关联性,通过采用预设规模的小根堆,每次计算两两节点对相似度时都与所述小根堆的堆顶元素比较,如果大于所述小根堆的堆顶则交换小根堆堆顶元素与所述节点对,当扫描完一遍所有的节点对后,所述小根堆中剩余的元素即为所需要找的具有最高相似度的条节点对,根据所述具有最高相似度的条节点对,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边。
其中,所述配置模块,具体用于:基于所述构造的基因共表达网络,通过图神经网络聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示方式,配置社区隶属度矩阵。
根据本发明的又一个方面,提供一种计算机设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述任意一项所述的基于图神经网络的基因模块挖掘方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述的基于图神经网络的基因模块挖掘方法。
可以发现,以上方案,可以根据基因表达谱数据,构造基因共表达网络,和可以基于该构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵,以及可以基于该配置的社区隶属度矩阵,通过设定阈值的方式,生成已知模块,能够实现通过图神经网络表示学习的方式配置社区归属矩阵,再通过设定阈值的方式生成已知模块,实现在基因模块挖掘结果上能够允许有密集连接的多个基因可归属于不同的模块。
进一步的,以上方案,可以根据基因表达谱数据,将每个基因的表达值规范化为均值为0和方差为1的表达向量,和选择皮尔逊相似系数来计算成对基因间的关联性,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,和基于该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边,构建KNN(k-Nearest Neighbor,K最近邻)网络,并根据该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边和该构建的K最近邻网络,构造基因共表达网络,这样的好处是能够实现保障该构造的共表达网络中的基因都拥有至少一条边。
进一步的,以上方案,可以选择皮尔逊相似系数来计算成对基因间的关联性,通过采用预设规模的小根堆,每次计算两两节点对相似度时都与该小根堆的堆顶元素比较,如果大于该小根堆的堆顶则交换小根堆堆顶元素与该节点对,当扫描完一遍所有的节点对后,该小根堆中剩余的元素即为所需要找的具有最高相似度的条节点对,根据该具有最高相似度的条节点对,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,这样的好处是能够实现降低算法的时间复杂度,而且也不需要使用额外的空间去存储所有的边,能够降低空间复杂度。
进一步的,以上方案,可以基于该构造的基因共表达网络,通过图神经网络聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示方式,配置社区隶属度矩阵,这样的好处是能够实现将两个节点同属于同一个社区的概率转换为两个节点之间有边的概率,能够提高所处理数据集的规模同时又能具有较好的时间性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于图神经网络的基因模块挖掘方法一实施例的流程示意图;
图2是本发明基于图神经网络的基因模块挖掘装置一实施例的结构示意图;
图3是本发明计算机设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种基于图神经网络的基因模块挖掘方法,能够实现在基因模块挖掘结果上能够允许有密集连接的多个基因可归属于不同的模块。
请参见图1,图1是本发明基于图神经网络的基因模块挖掘方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:根据基因表达谱数据,构造基因共表达网络。
其中,该根据基因表达谱数据,构造基因共表达网络,可以包括:
根据基因表达谱数据,将每个基因的表达值规范化为均值为0和方差为1的表达向量,和选择皮尔逊相似系数来计算成对基因间的关联性,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,和基于该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边,构建KNN(k-Nearest Neighbor,K最近邻)网络,并根据该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边和该构建的K最近邻网络,构造基因共表达网络,这样的好处是能够实现保障该构造的共表达网络中的基因都拥有至少一条边。
其中,该选择皮尔逊相似系数来计算成对基因间的关联性,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,可以包括:
选择皮尔逊相似系数来计算成对基因间的关联性,通过采用预设规模的小根堆,每次计算两两节点对相似度时都与该小根堆的堆顶元素比较,如果大于该小根堆的堆顶则交换小根堆堆顶元素与该节点对,当扫描完一遍所有的节点对后,该小根堆中剩余的元素即为所需要找的具有最高相似度的条节点对,根据该具有最高相似度的条节点对,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,这样的好处是能够实现降低算法的时间复杂度,而且也不需要使用额外的空间去存储所有的边,能够降低空间复杂度。
在本实施例中,可以将每个基因的表达值规范化为均值为0,方差为1的表达向量,并选择了皮尔逊相似系数来计算成对基因间的关联性。和可以从所有成对关系中选择了一定比例的对应最高相关性的关系作为共表达网络的边,在这个基础上可以还构造了K最近邻网络,这是为了防止网络中有孤立的节点。和由于算法更倾向于将这些孤立的节点划分为同一个模块,虽然他们之间的相关性可能很弱,最后可以将这两个网络融合在一起,这样就保证了共表达网络中的基因都拥有至少一条边。
S102:基于该构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵。
其中,该基于该构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵,可以包括:
基于该构造的基因共表达网络,通过图神经网络聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示方式,配置社区隶属度矩阵,这样的好处是能够实现将两个节点同属于同一个社区的概率转换为两个节点之间有边的概率,能够提高所处理数据集的规模同时又能具有较好的时间性能。
在本实施例中,可以假设有一个无向图G=(V,E),其中V是图中的节点集合,E是图中的所有边的集合。该图用邻接矩阵可表示为An×n={aij}n×n,其中n是图中的顶点数目,如果两个顶点ni,nj间有边,则aij等于1,否则等于0。同时,每个节点又拥有自己的属性,可以将每个节点表示为d维的向量,所有的节点向量可以表示成X∈RN×d。
在本实施例中,社区发现任务可以可定义为:将节点集合V划分为C个子集合{V1,V2…,Vc},其中同一个集合中的所有节点更倾向于拥有更致密的连接,不同集合中的点则尽可能的不相连。如果是重叠的社区发现问题,则允许同一个节点可以同时属于大于或等于一个节点集合Vi。任务的目标是学习网络中所有元素的社区隶属度矩阵F∈{0,1}N×d,其中Fij表示节点i对于社区j的隶属度。
在本实施例中,可以通过概率模型将网络的社区隶属度矩阵F当作配置当前网络的潜在隐藏向量,用极大似然概率表示为:p(A|F),真实的F应该是能使上式最大化的值。当F给定的时候,就能计算图上任意两对节点(u,v)同属于同一个社区的概率已有的研究表明,如果两个节点在属性上属于同一个社区,或者说是拥有相同的标签,那么他们在图上则会有更大的概率会共享一条边。因此就可以将两个节点同属于同一个社区的概率转换为两个节点之间有边的概率,可以选用sigmoid函数来描述这种关系:这个函数通常在二分类的损失函数中使用,在任务中,它将节点之间拥有边的概率映射到了区间内。注意到当Xuv=0的时候,这可以通过设置一个偏置b来解决,但实际的结果显示这个偏置对结果影响不大,因此可以设置b=0。这样,可以将有边的节点对当作正例,没有边的节点对当作负例,并使用二元交叉熵损失函数来优化这个问题。由于现实世界的图模型中的边总是稀疏的,并且正例是远远大于负例的,可以在训练的每个batch中采样一定比例的正边和负边,并调整它们最终对损失函数的贡献来平衡正负样例。同时,在当前这个batch中可以将用于计算损失的正边从原始图中暂时删除,使得其不参与当前batch训练过程的领域采样和消息聚合,这是为了避免在训练过程中的消息泄露。最终的损失函数如下所示:
其中表示节点的第k层向量表示,N(v)表示所有v节点的邻居节点的集合,Wk是第k层神经网络的权值矩阵,这是可以学习的参数,σ表示非线性激活函数,本文使用的激活函数为Relu,因为神经网络学习到对每个社区的隶属度是一个概率值,它应该是非负的。图神经网络通过聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示,也就是说,网络中节点的向量表示是由上一层节点与其邻居节点共同决定的,通过这种对邻居节点的聚合,神经网络就能学习到图的结构信息。
S103:基于该配置的社区隶属度矩阵,通过设定阈值的方式,生成已知模块。
在本实施例中,该社区隶属度矩阵F={Fij}N×C的物理意义是节点i隶属于社区j的概率,因此一个最直接的方法是设定一个固定阈值h,当F中的对应元素Fij>h时表示节点i隶属于社区j,反之则节点i不属于社区j。可以注意到,这种方法并没有严格限制一个节点只能归属于一个社区,当节点稠密连接的时候,是有可能同时属于不同社区的,在本研究中,可以将这个阈值设定为h=0.5,此时使用这个参数将拥有最好的效果。
可以发现,在本实施例中,可以根据基因表达谱数据,构造基因共表达网络,和可以基于该构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵,以及可以基于该配置的社区隶属度矩阵,通过设定阈值的方式,生成已知模块,能够实现通过图神经网络表示学习的方式配置社区归属矩阵,再通过设定阈值的方式生成已知模块,实现在基因模块挖掘结果上能够允许有密集连接的多个基因可归属于不同的模块。
进一步的,在本实施例中,可以根据基因表达谱数据,将每个基因的表达值规范化为均值为0和方差为1的表达向量,和选择皮尔逊相似系数来计算成对基因间的关联性,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,和基于该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边,构建KNN(k-Nearest Neighbor,K最近邻)网络,并根据该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边和该构建的K最近邻网络,构造基因共表达网络,这样的好处是能够实现保障该构造的共表达网络中的基因都拥有至少一条边。
进一步的,在本实施例中,可以选择皮尔逊相似系数来计算成对基因间的关联性,通过采用预设规模的小根堆,每次计算两两节点对相似度时都与该小根堆的堆顶元素比较,如果大于该小根堆的堆顶则交换小根堆堆顶元素与该节点对,当扫描完一遍所有的节点对后,该小根堆中剩余的元素即为所需要找的具有最高相似度的条节点对,根据该具有最高相似度的条节点对,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,这样的好处是能够实现降低算法的时间复杂度,而且也不需要使用额外的空间去存储所有的边,能够降低空间复杂度。
进一步的,在本实施例中,可以基于该构造的基因共表达网络,通过图神经网络聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示方式,配置社区隶属度矩阵,这样的好处是能够实现将两个节点同属于同一个社区的概率转换为两个节点之间有边的概率,能够提高所处理数据集的规模同时又能具有较好的时间性能。
本发明还提供一种基于图神经网络的基因模块挖掘装置,能够实现在基因模块挖掘结果上能够允许有密集连接的多个基因可归属于不同的模块。
请参见图2,图2是本发明基于图神经网络的基因模块挖掘装置一实施例的结构示意图。本实施例中,该基于图神经网络的基因模块挖掘装置20包括构造模块21、配置模块22和生成模块23。
该构造模块21,用于根据基因表达谱数据,构造基因共表达网络。
该配置模块22,用于基于该构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵。
该生成模块23,用于基于该配置的社区隶属度矩阵,通过设定阈值的方式,生成已知模块。
可选地,该构造模块21,可以具体用于:
根据基因表达谱数据,将每个基因的表达值规范化为均值为0和方差为1的表达向量,和选择皮尔逊相似系数来计算成对基因间的关联性,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,和基于该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边,构建K最近邻网络,并根据该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边和该构建的K最近邻网络,构造基因共表达网络。
可选地,该构造模块21,可以具体用于:
选择皮尔逊相似系数来计算成对基因间的关联性,通过采用预设规模的小根堆,每次计算两两节点对相似度时都与该小根堆的堆顶元素比较,如果大于该小根堆的堆顶则交换小根堆堆顶元素与该节点对,当扫描完一遍所有的节点对后,该小根堆中剩余的元素即为所需要找的具有最高相似度的条节点对,根据该具有最高相似度的条节点对,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边。
可选地,该配置模块22,可以具体用于:
基于该构造的基因共表达网络,通过图神经网络聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示方式,配置社区隶属度矩阵。
该基于图神经网络的基因模块挖掘装置20的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种计算机设备,如图3所示,包括:至少一个处理器31;以及,与至少一个处理器31通信连接的存储器32;其中,存储器32存储有可被至少一个处理器31执行的指令,指令被至少一个处理器31执行,以使至少一个处理器31能够执行上述的基于图神经网络的基因模块挖掘方法。
其中,存储器32和处理器31采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器31和存储器32的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器31处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器31。
处理器31负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器32可以被用于存储处理器31在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以根据基因表达谱数据,构造基因共表达网络,和可以基于该构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵,以及可以基于该配置的社区隶属度矩阵,通过设定阈值的方式,生成已知模块,能够实现通过图神经网络表示学习的方式配置社区归属矩阵,再通过设定阈值的方式生成已知模块,实现在基因模块挖掘结果上能够允许有密集连接的多个基因可归属于不同的模块。
进一步的,以上方案,可以根据基因表达谱数据,将每个基因的表达值规范化为均值为0和方差为1的表达向量,和选择皮尔逊相似系数来计算成对基因间的关联性,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,和基于该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边,构建KNN(k-Nearest Neighbor,K最近邻)网络,并根据该选择的预设比例的对应最高相关性的成对关系作为共表达网络的边和该构建的K最近邻网络,构造基因共表达网络,这样的好处是能够实现保障该构造的共表达网络中的基因都拥有至少一条边。
进一步的,以上方案,可以选择皮尔逊相似系数来计算成对基因间的关联性,通过采用预设规模的小根堆,每次计算两两节点对相似度时都与该小根堆的堆顶元素比较,如果大于该小根堆的堆顶则交换小根堆堆顶元素与该节点对,当扫描完一遍所有的节点对后,该小根堆中剩余的元素即为所需要找的具有最高相似度的条节点对,根据该具有最高相似度的条节点对,从该计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,这样的好处是能够实现降低算法的时间复杂度,而且也不需要使用额外的空间去存储所有的边,能够降低空间复杂度。
进一步的,以上方案,可以基于该构造的基因共表达网络,通过图神经网络聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示方式,配置社区隶属度矩阵,这样的好处是能够实现将两个节点同属于同一个社区的概率转换为两个节点之间有边的概率,能够提高所处理数据集的规模同时又能具有较好的时间性能。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基于图神经网络的基因模块挖掘方法,其特征在于,包括:
根据基因表达谱数据,构造基因共表达网络;
基于所述构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵F;
基于所述配置的社区隶属度矩阵F,通过设定阈值的方式,生成已知模块;设定一个固定阈值h,当F中的对应元素Fij>h时表示节点i隶属于社区j,反之则节点i不属于社区j;
所述根据基因表达谱数据,构造基因共表达网络,包括:
根据基因表达谱数据,将每个基因的表达值规范化为均值为0和方差为1的表达向量,和选择皮尔逊相似系数来计算成对基因间的关联性,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,和基于所述选择的预设比例的对应最高相关性的成对关系作为共表达网络的边,构建K最近邻网络,并根据所述选择的预设比例的对应最高相关性的成对关系作为共表达网络的边和所述构建的K最近邻网络,构造基因共表达网络。
2.如权利要求1所述的基于图神经网络的基因模块挖掘方法,其特征在于,所述选择皮尔逊相似系数来计算成对基因间的关联性,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,包括:
选择皮尔逊相似系数来计算成对基因间的关联性,通过采用预设规模的小根堆,每次计算两两节点对相似度时都与所述小根堆的堆顶元素比较,如果大于所述小根堆的堆顶则交换小根堆堆顶元素与所述节点对,当扫描完一遍所有的节点对后,所述小根堆中剩余的元素即为所需要找的具有最高相似度的条节点对,根据所述具有最高相似度的条节点对,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边。
3.如权利要求1所述的基于图神经网络的基因模块挖掘方法,其特征在于,所述基于所述构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵,包括:
基于所述构造的基因共表达网络,通过图神经网络聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示方式,配置社区隶属度矩阵。
4.一种基于图神经网络的基因模块挖掘装置,其特征在于,包括:
构造模块、配置模块和生成模块;
所述构造模块,用于根据基因表达谱数据,构造基因共表达网络;
所述配置模块,用于基于所述构造的基因共表达网络,通过图神经网络方式,配置社区隶属度矩阵F;
所述生成模块,用于基于所述配置的社区隶属度矩阵F,通过设定阈值的方式,生成已知模块;设定一个固定阈值h,当F中的对应元素Fij>h时表示节点i隶属于社区j,反之则节点i不属于社区j;
所述构造模块,具体用于:
根据基因表达谱数据,将每个基因的表达值规范化为均值为和方差为的表达向量,和选择皮尔逊相似系数来计算成对基因间的关联性,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边,和基于所述选择的预设比例的对应最高相关性的成对关系作为共表达网络的边,构建K最近邻网络,并根据所述选择的预设比例的对应最高相关性的成对关系作为共表达网络的边和所述构建的K最近邻网络,构造基因共表达网络。
5.如权利要求4所述的基于图神经网络的基因模块挖掘装置,其特征在于,所述构造模块,具体用于:
选择皮尔逊相似系数来计算成对基因间的关联性,通过采用预设规模的小根堆,每次计算两两节点对相似度时都与所述小根堆的堆顶元素比较,如果大于所述小根堆的堆顶则交换小根堆堆顶元素与所述节点对,当扫描完一遍所有的节点对后,所述小根堆中剩余的元素即为所需要找的具有最高相似度的条节点对,根据所述具有最高相似度的条节点对,从所述计算出的成对基因间的关联性所对应的成对关系中选择预设比例的对应最高相关性的成对关系作为共表达网络的边。
6.如权利要求4所述的基于图神经网络的基因模块挖掘装置,其特征在于,所述配置模块,具体用于:
基于所述构造的基因共表达网络,通过图神经网络聚合邻居节点的向量与自身节点上一层的向量表示,配置节点下一层的向量表示方式,配置社区隶属度矩阵。
7.一种计算机设备,其特征在于,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如权利要求1至3任意一项所述的基于图神经网络的基因模块挖掘方法。
8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任意一项所述的基于图神经网络的基因模块挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854545.9A CN113611366B (zh) | 2021-07-26 | 2021-07-26 | 基于图神经网络的基因模块挖掘方法、装置、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854545.9A CN113611366B (zh) | 2021-07-26 | 2021-07-26 | 基于图神经网络的基因模块挖掘方法、装置、计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113611366A CN113611366A (zh) | 2021-11-05 |
CN113611366B true CN113611366B (zh) | 2022-04-29 |
Family
ID=78305717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110854545.9A Active CN113611366B (zh) | 2021-07-26 | 2021-07-26 | 基于图神经网络的基因模块挖掘方法、装置、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113611366B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240777B (zh) * | 2022-08-10 | 2024-02-02 | 上海科技大学 | 基于图神经网络的合成致死基因预测方法、装置、终端及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112216396A (zh) * | 2020-10-14 | 2021-01-12 | 复旦大学 | 一种基于图神经网络预测药物-副作用关系的方法 |
CN112364880A (zh) * | 2020-11-30 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 基于图神经网络的组学数据处理方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559426A (zh) * | 2013-11-06 | 2014-02-05 | 北京工业大学 | 一种针对多视图数据融合的蛋白质功能模块挖掘方法 |
CN107992720B (zh) * | 2017-12-14 | 2021-08-03 | 浙江工业大学 | 基于共表达网络的癌症靶向标志物测绘方法 |
CN108920678A (zh) * | 2018-07-10 | 2018-11-30 | 福州大学 | 一种基于谱聚类与模糊集的重叠社区发现方法 |
CN112085124B (zh) * | 2020-09-27 | 2022-08-09 | 西安交通大学 | 一种基于图注意力网络的复杂网络节点分类方法 |
CN112232413B (zh) * | 2020-10-16 | 2023-07-21 | 东北大学 | 基于图神经网络与谱聚类的高维数据特征选择方法 |
-
2021
- 2021-07-26 CN CN202110854545.9A patent/CN113611366B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112216396A (zh) * | 2020-10-14 | 2021-01-12 | 复旦大学 | 一种基于图神经网络预测药物-副作用关系的方法 |
CN112364880A (zh) * | 2020-11-30 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 基于图神经网络的组学数据处理方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113611366A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Flagel et al. | The unreasonable effectiveness of convolutional neural networks in population genetic inference | |
Schrider et al. | Supervised machine learning for population genetics: a new paradigm | |
Goldberger et al. | Training deep neural-networks using a noise adaptation layer | |
Kato et al. | Selective integration of multiple biological data for supervised network inference | |
Wang et al. | Evolutionary extreme learning machine ensembles with size control | |
Marinaki et al. | Honey bees mating optimization algorithm for financial classification problems | |
Ceci et al. | Semi-supervised multi-view learning for gene network reconstruction | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN105718999B (zh) | 一种启发式代谢共表达网络的构建方法及系统 | |
KR20020030744A (ko) | 멀티플 지지벡터장치를 사용하여 멀티플 데이터세트로부터의 지식발견 강화방법 | |
Firat et al. | Genetic clustering of social networks using random walks | |
CN102013040A (zh) | 信息处理设备、信息处理方法以及程序 | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
CN113611366B (zh) | 基于图神经网络的基因模块挖掘方法、装置、计算机设备 | |
Perera et al. | Generative moment matching networks for genotype simulation | |
Wang et al. | Single-cell RNA sequencing data clustering using graph convolutional networks | |
To et al. | A parallel genetic algorithm for single class pattern classification and its application for gene expression profiling in Streptomyces coelicolor | |
Ma et al. | Generalized dimension reduction approach for heterogeneous networked systems with time-delay | |
Anusha et al. | An empirical study on multi-objective genetic algorithms using clustering techniques | |
Zhen et al. | A novel framework for single-cell hi-c clustering based on graph-convolution-based imputation and two-phase-based feature extraction | |
CN115331754A (zh) | 基于哈希算法的分子分类方法 | |
Steponavičė et al. | Dynamic algorithm selection for pareto optimal set approximation | |
Yang | Clustering Models with Applications in Gene Expression Profiles | |
Schrider et al. | Machine Learning for Population Genetics: A New Paradigm | |
Tian et al. | A hybrid classification algorithm based on coevolutionary EBFNN and domain covering method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |