CN112232413A - 基于图神经网络与谱聚类的高维数据特征选择方法 - Google Patents

基于图神经网络与谱聚类的高维数据特征选择方法 Download PDF

Info

Publication number
CN112232413A
CN112232413A CN202011108087.6A CN202011108087A CN112232413A CN 112232413 A CN112232413 A CN 112232413A CN 202011108087 A CN202011108087 A CN 202011108087A CN 112232413 A CN112232413 A CN 112232413A
Authority
CN
China
Prior art keywords
node
gene
nodes
graph
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011108087.6A
Other languages
English (en)
Other versions
CN112232413B (zh
Inventor
栗伟
谢维冬
王林洁
覃文军
冯朝路
闵新�
于鲲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202011108087.6A priority Critical patent/CN112232413B/zh
Publication of CN112232413A publication Critical patent/CN112232413A/zh
Application granted granted Critical
Publication of CN112232413B publication Critical patent/CN112232413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Discrete Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于图神经网络与谱聚类的高维数据特征选择方法。首先将每个基因作为节点建立基因关系图结构模型,并将基因相互关系数据作为边信息添加到基因关系图中,然后利用图神经网络模型来获取节点的特征向量表示,在得到每个节点的特征向量表示之后,开始进行链接预测阶段,生成新的边,得到新的基因关系图,最后基于谱聚类在新的基因关系图中选择权重最高的节点作为特征节点,通过本发明最终选择的基因具有较小的冗余度同时实现了较好的模型效果,并支持生物角度的可解释性。

Description

基于图神经网络与谱聚类的高维数据特征选择方法
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于图神经网络与谱聚类的高维数据特征选择方法。
背景技术
在生物信息学领域中,处理的对象大多是多特征、高噪声、非线性的数据集。例如,研究人员利用基因芯片可以在一次实验中同时检测出成千上万个基因的表达值,从而获得大量的基因表达数据;还可以利用蛋白质质谱技术一次产出大量的蛋白质表达谱数据。但由于这些数据具有维数高、样本个数少的特点,常规的模式识别方法已不再适用。针对此类数据,如何剔除冗余特征、从海量数据中挖掘出隐藏的有用生物信息,成为研究识别与分类问题的关键。
在样本个数有限的情况下,随着特征数目的增加,分类问题的计算复杂度将呈指数增长,从而出现“维数灾难”。而特征选择方法可以达到以下四个目的:
①确定哪些是与输出相关的特征;
②降低输入空间的维数,缩小求解问题的规模,从而降低算法复杂度,减少训练时间;
③得到更好的决策函数,提高分类准确率;
④对数据的内在属性产生更深刻的认识。
特征选择是指对原始特征空间进行筛选,构造出一个特征空间的特征子空间,有效的特征选择可以提高学习算法的泛化性能,简化学习模型;以分类问题为背景,根据特征评价标准,传统的特征选择方法主要分为过滤法(Filter)和缠绕法(Wrapper)及嵌入式(Embedded)。除上述经典方法外,主流的改进方法是将经典方法进行优化、组合和进一步嵌入。但是,这些算法普遍假设样本间是相互独立的,或仅仅考虑数据间的特征关系,局限于在有限样本空间中寻找统计学层面的最佳解释,侧重了模型结果而忽略了生物学中仅因或蛋白之间的相互作用关系。
发明内容
针对现有技术的不足,本发明提出一种基于图神经网络与谱聚类的高维数据特征选择方法,包括以下步骤:
步骤1:基于先验知识构建基因关系图,包括:
步骤1.1:利用GPL平台,将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID,其中待处理基因微阵列数据S表示为S={X1,X2,…,Xi,…,XN},第i个样本Xi表示为
Figure BDA0002727650900000021
每个样本均对应一个标签,
Figure BDA0002727650900000026
表示第i个样本Xi中的第j个特征值,每个特征均对应一个探针名,N表示待处理基因微阵列数据S中的样本数,i=1,2,…,N,m表示每个样本中的特征数,j=1,2,…,m;
步骤1.2:将所有的基因ID输入到Cytoscape软件的GeneMANIA插件中,利用边缘关系数据Physical Interaction生成所有基因ID之间的关系矩阵R,其中关系矩阵R中包含数据S中任意两个基因ID之间的关系权重系数;
步骤1.3:利用得到的权重矩阵R构建基因关系图G=(v,ε),其中v表示基因关系图G中的所有节点,即v=(v1,v2,…vj,…,vm),每个节点代表一个基因ID,ε表示基因关系图G中的所有边,即ε∈(vj,vr)|vj,vr∈v,(vj,vr)表示同一条边上的两个节点,每条边代表所链接的两个基因ID之间的链接权重系数;
步骤2:利用图神经网络构建基因关系图G中每个节点的特征向量;
步骤3:基于图神经网络对基因关系图G进行链接预测,生成基因关系图G中新的边,得到新的基因关系图G*
步骤4:基于谱聚类在新的基因关系图G*中选择权重最高的节点作为特征节点。
所述步骤2包括:
步骤2.1:为每个节点vj设置一个初始的隐藏状态向量
Figure BDA0002727650900000022
定义节点vj的所有一阶邻域节点N(vj)所对应的初始隐藏状态向量为
Figure BDA0002727650900000023
步骤2.2:利用公式(1)所示的聚合操作,得到节点vj的所有一阶邻域节点N(vj)所对应的第k层的隐藏状态向量
Figure BDA0002727650900000024
Figure BDA0002727650900000025
式中,AGGREGATEk()表示第k层的聚合函数;
步骤2.3:利用公式(2)得到节点vj的第k层的隐藏状态向量
Figure BDA0002727650900000031
Figure BDA0002727650900000032
式中,σ()表示非线性激活函数,Wk表示第k层的权重矩阵,COUNCAT()表示拼接函数;
步骤2.4:利用公式(3)更新节点vj的第k层隐藏状态向量
Figure BDA0002727650900000033
的值
Figure BDA0002727650900000034
Figure BDA0002727650900000035
步骤2.5:令j=1,2,…,m,k=1,2,…,K,重复步骤2.2~步骤2.4,遍历计算出所有节点的第K层隐藏状态向量的值
Figure BDA0002727650900000036
K表示图神经网络的层数,
Figure BDA0002727650900000037
表示节点vj的第K层隐藏状态向量
Figure BDA0002727650900000038
的值;
步骤2.6:利用公式(4)将每个节点vj的第K层隐藏状态向量
Figure BDA0002727650900000039
的值
Figure BDA00027276509000000310
赋给
Figure BDA00027276509000000311
得到每个节点的特征向量
Figure BDA00027276509000000312
Figure BDA00027276509000000313
所述步骤3包括:
步骤3.1:将基因关系图G中已经存在的边标注为正样本,所有的正样本构成的集合称为正样本集Pos;
步骤3.2:删除基因关系图G中任意一对节点(vj,vr)之间的已有链接;
步骤3.3:分别以节点vj、vr为起始节点进行随机采样操作,当以节点vj为起始节点进行随机采集操作时,在基因关系图G中随机选择γ个节点并分别建立与节点vj之间的链接,组成新的边,并将新的边标记为负样本,当以节点vr为起始节点进行随机采集操作时,再次在基因关系图G中随机选择γ个节点并分别建立与节点vr之间的链接,组成新的边,并将新的边标记为负样本,所有的负样本构成的集合称为负样本集Neg;
步骤3.4:利用公式(5)计算任意两个节点(vj,vr)之间的相似度sim(vj,vr);
Figure BDA0002727650900000041
式中,
Figure BDA0002727650900000042
表示特征向量
Figure BDA0002727650900000043
的在第
Figure BDA0002727650900000044
维度上的值,
Figure BDA0002727650900000045
表示特征向量
Figure BDA0002727650900000046
的维度;
步骤3.5:利用正样本集中所有节点对的相似度平均值,以及所有负样本集中的所有节点对的相似度平均值构建如公式(6)所示的损失函数,
Figure BDA0002727650900000047
式中,L表示损失值,E表示取平均值操作,(vj,vr)∈Pos表示正样本集Pos中的两个节点,
Figure BDA0002727650900000048
表示以节点vj为起始节点进行随机采集操作时所选择的节点,
Figure BDA0002727650900000049
表示以节点vr为起始节点进行随机采集操作时所选择的节点,
Figure BDA00027276509000000410
表示负样本集Neg中的两个节点;
步骤3.6:利用随机梯度下降法训练损失函数,并计算每次训练时的损失值L,当相邻两次训练时的损失值之差的绝对值小于给定阈值δ时,停止迭代;
步骤3.7:利用公式(7)计算每次训练过程中生成的链接预测模型的平均倒数秩,将平均倒数秩最高的链接预测模型作为最优链接预测模型;
Figure BDA00027276509000000411
式中,MRR表示平均倒数秩,rankτ表示正样本集中的第τ个边对与负样本集中对应的γ个边进行评分时分数从大到小的排列序号;
步骤3.8:利用最优图神经网络模型,对基因关系图G进行链接预测,生成新的边,得到新的基因关系图G*
所述步骤4包括:
步骤4.1:定义新的基因关系图G*中所有节点为E,即E=(e1,e2,…,eζ),其中ζ表示基因关系图G*中的节点总数;
步骤4.2:利用公式(8)计算任意的两个节点(eρ1,eρ2)之间的相似度wρ1,ρ2,并将wρ1,ρ2组成ζ维的相似度矩阵W,
Figure BDA0002727650900000051
式中,Ω表示用于控制节点的邻域宽度;
步骤4.3:计算相似度矩阵W的每行中所有元素的和,得到{d1,d2,…,dη,…dζ},其中dη表示第η行中的所有元素之和,利用{d1,d2,…,dη,…dζ}构建维度为ζ的对角矩阵D;
步骤4.4:利用公式(9)计算拉普拉斯矩阵Lreym
Lreym=D-1/2(D-W)D-1/2 (9)
步骤4.5:计算拉普拉斯矩阵Lreym的特征值,并将特征值按照从小到大的顺序进行排序,根据聚类簇的数目μ,取前μ个特征值并计算对应的特征向量{χ12,…,χμ},利用μ个特征向量{χ12,…,χμ}构成ζ行μ列的矩阵U,即矩阵U={χ12,…,χμ};
步骤4.6:利用K-Means聚类算法将矩阵U每行中的特征向量聚类成簇,得到{C1,C2,…,Cν,…,Cμ},其中Cν表示第ν行中的特征向量聚类成的簇;
步骤4.7:根据得到的簇{C1,C2,…,Cν,…,Cμ},将新的基因关系图G*中的所有节点分为μ组,得到μ个子图,记为G*=[G1,G2,…,Gν,…,Gμ]=[(v'1,ε'1),(v'2,ε'2),…,(v'ν,ε'ν),…,(v'μ,ε'μ)],其中Gν表示第ν个子图,将第ν个子图表示为(v'ν,ε'ν),v'ν表示子图Gν中的所有节点集合,ε'ν表示子图Gν中的所有边,即ε'ν包含在v'ν中所有节点之间的链接;
步骤4.8:利用线性回归方法对每个子图Gν内的所有节点进行建模,得到每个节点的权重,将权重最高的节点作为每个子图中的特征节点。
本发明的有益效果是:
本发明提出了一种基于图神经网络与谱聚类的高维数据特征选择方法,利用图神经网络预测节点间的链接,采用谱聚类的方法将节点聚类以减少最终选择结果的冗余,并采用线性回归方法刷新节点权重,最终选择同一子类中的最佳节点作为最终选择的特征,这种方法最终选择的基因具有较小的冗余度同时实现了较好的模型效果,并支持生物角度的可解释性。
附图说明
图1为本发明中的基于图神经网络与谱聚类的高维数据特征选择方法流程图。
图2为本发明中基于图神经网络与谱聚类的高维数据特征选择示意图。
具体实施方式
下面结合附图和具体实施实例对发明做进一步说明。本发明首先将每个基因作为节点建立基因关系图结构模型,并将基因相互关系数据作为边信息添加都基因关系图中,需要说明的是基因相互关系有多种,如同源表达Co-expression、物理相互作用PhysicalInteraction和通路Pathway等,以其中物理相互作用Physical Interaction作为边缘关系为例,所构建的图结构模型是无向图,在基因关系图中,每个节点表示每个基因以及评分,每条边代表了每两个基因之间的相互关系,在该方法中节点被分为两类:孤立节点和正常节点。先验知识中没有涉及到的基因在图结构的建立过程中会形成孤立节点,然而孤立节点很有可能是重要的非冗余特征,因此本专利基于图神经网络对已建立的图结构进行链接预测建立孤立节点与其他节点间的联系,实现信息的进一步共享并为谱聚类的处理奠定良好的基础。
首先利用图神经网络模型来获取节点的特征向量表示。对于已建立的基因关系图,本方法先对邻居节点进行随机采样以降低计算复杂度,之后通过训练聚合邻居节点的信息获得该节点的表示,这样能够方便且准确地获得节点特征向量表示。这种方法不需要整张图的邻接矩阵表达,只需要获得节点周围被采样地邻居结点信息即可,进一步降低了模型的开销。
在得到每个节点的特征向量表示之后,开始进行链接预测阶段。为了训练链接预测模型,在基因关系图中构造负样本,利用构造的负样本来训练模型,再在基因关系图中随机加入节点链接并用该模型判断链接是否存在。首先在基因关系图中构造负样本,负样本是基因关系图中不存在边的一对节点,通过破坏正样本的头部或尾部节点以及一些随机采样的节点来生成指定个数的负样本,并给予每个样本0或1的标记。
在训练模型的过程中将模型性能最好的模型信息存储下来,最后做链接预测时使用该模型,并从中选取得分最高的若干条边使其能够包含图中部分节点。同时将最后样本的得分作为边的权重,以用作下一步的谱聚类,将链接预测后的图记为G*
以“子图间边权重和尽可能低,子图内边权重和尽可能高”为目标进行子图切割,其目的是使生成的子图内部节点拥有更多的边缘权重(特征之间冗余更大),而子图之间的节点拥有更少的边缘权重(特征之间冗余更小),从而根据给定的特征数量来生成μ个子图。
如图1~2所示,一种基于图神经网络与谱聚类的高维数据特征选择方法,包括如下步骤:
步骤1:先验知识包括:物理相互作用、同源表达、预测关系、共定位、通路、遗传相互作用、共享的蛋白质结构域,基于先验知识构建基因关系图,包括:
步骤1.1:利用GPL(Gene Platform简称GPL)平台,将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID(Gene Identity简称基因ID),其中待处理基因微阵列数据S表示为S={X1,X2,…,Xi,…,XN},第i个样本Xi表示为
Figure BDA0002727650900000061
每个样本均对应一个标签,
Figure BDA0002727650900000071
表示第i个样本Xi中的第j个特征值,每个特征均对应一个探针名,N表示待处理基因微阵列数据S中的样本数,i=1,2,…,N,m表示每个样本中的特征数,j=1,2,…,m;
步骤1.2:将所有的基因ID输入到Cytoscape软件的GeneMANIA插件中,利用边缘关系数据Physical Interaction生成所有基因ID之间的关系矩阵R,其中关系矩阵R中包含数据S中任意两个基因ID之间的关系权重系数;
步骤1.3:利用得到的权重矩阵R构建基因关系图G=(v,ε),其中v表示基因关系图G中的所有节点,即v=(v1,v2,…vj,…,vm),每个节点代表一个基因ID,ε表示基因关系图G中的所有边,即ε∈(vj,vr)|vj,vr∈v,(vj,vr)表示同一条边上的两个节点,每条边代表所链接的两个基因ID之间的链接权重系数;
步骤2:利用图神经网络构建基因关系图G中每个节点的特征向量,包括:
步骤2.1:为每个节点vj设置一个初始的隐藏状态向量
Figure BDA0002727650900000072
定义节点vj的所有一阶邻域节点N(vj)所对应的初始隐藏状态向量为
Figure BDA0002727650900000073
步骤2.2:利用公式(1)所示的聚合操作,得到节点vj的所有一阶邻域节点N(vj)所对应的第k层的隐藏状态向量
Figure BDA0002727650900000074
Figure BDA0002727650900000075
式中,AGGREGATEk()表示第k层的聚合函数,聚合函数AGGREGATEk()定义为平均聚合函数MEANk(),即对括号内的值取平均;
步骤2.3:利用公式(2)得到节点vj的第k层的隐藏状态向量
Figure BDA0002727650900000076
Figure BDA0002727650900000077
式中,σ()表示非线性激活函数,Wk表示第k层的权重矩阵,COUNCAT()表示拼接函数;
步骤2.2~2.3表示了将目标节点和其邻居节点的第k-1层向量拼接起来,然后对向量的每个维度进行求平均值的操作,将得到的结果做一次非线性变换产生目标顶点的第k层表示向量。
步骤2.4:利用公式(3)更新节点vj的第k层隐藏状态向量
Figure BDA0002727650900000081
的值
Figure BDA0002727650900000082
Figure BDA0002727650900000083
步骤2.5:令j=1,2,…,m,k=1,2,…,K,重复步骤2.2~步骤2.4,遍历计算出所有节点的第K层隐藏状态向量的值
Figure BDA0002727650900000084
K表示图神经网络的层数,
Figure BDA0002727650900000085
表示节点vj的第K层隐藏状态向量
Figure BDA0002727650900000086
的值;
步骤2.6:利用公式(4)将每个节点vj的第K层隐藏状态向量
Figure BDA0002727650900000087
的值
Figure BDA0002727650900000088
赋给
Figure BDA00027276509000000812
得到每个节点(基因)的特征向量
Figure BDA0002727650900000089
Figure BDA00027276509000000810
在得到每个节点的特征向量表示之后,开始进行链接预测阶段,链接预测的目标是预测基因关系图G中可能存在的节点之间的链接,为了进行链接预测首先需要训练一个链接预测模型,该模型用于判断图中是否存在链接。
步骤3:基于图神经网络对基因关系图G进行链接预测,生成基因关系图G中新的边,得到新的基因关系图G*,包括:
步骤3.1:将基因关系图G中已经存在的边标注为正样本,所有的正样本构成的集合称为正样本集Pos;
步骤3.2:删除基因关系图G中任意一对节点(vj,vr)之间的已有链接;
步骤3.3:分别以节点vj、vr为起始节点进行随机采样操作,当以节点vj为起始节点进行随机采集操作时,在基因关系图G中随机选择γ个节点并分别建立与节点vj之间的链接,组成新的边,并将新的边标记为负样本,当以节点vr为起始节点进行随机采集操作时,再次在基因关系图G中随机选择γ个节点并分别建立与节点vr之间的链接,组成新的边,并将新的边标记为负样本,所有的负样本构成的集合称为负样本集Neg;
步骤3.4:利用公式(5)计算任意两个节点(vj,vr)之间的相似度sim(vj,vr);
Figure BDA00027276509000000811
式中,
Figure BDA0002727650900000091
表示特征向量
Figure BDA0002727650900000092
的在第
Figure BDA0002727650900000093
维度上的值,
Figure BDA0002727650900000094
表示特征向量
Figure BDA0002727650900000095
的维度;
步骤3.5:利用正样本集中所有节点对的相似度平均值,以及所有负样本集中的所有节点对的相似度平均值构建如公式(6)所示的损失函数,
Figure BDA0002727650900000096
式中,L表示损失值,E表示取平均值操作,(vj,vr)∈Pos表示正样本集Pos中的两个节点,
Figure BDA0002727650900000097
表示以节点vj为起始节点进行随机采集操作时所选择的节点,
Figure BDA0002727650900000098
表示以节点vr为起始节点进行随机采集操作时所选择的节点,
Figure BDA0002727650900000099
表示负样本集Neg中的两个节点,整个公式表示的是正样本对应的余弦相似度得分减去对应的负样本的余弦相似度的负数的分数的和。上式的意义在于最大化正样本点之间的链接相似度,同时最小化负样本点之间的链接相似度,理想情况下,正边缘的相似性得分应该高于所有负边缘。
步骤3.6:利用随机梯度下降法训练损失函数,并计算每次训练时的损失值L,当相邻两次训练时的损失值之差的绝对值小于给定阈值δ时,停止迭代;
步骤3.7:利用公式(7)计算每次训练过程中生成的链接预测模型的平均倒数秩,将平均倒数秩最高的链接预测模型作为最优链接预测模型;
Figure BDA00027276509000000910
式中,MRR表示平均倒数秩,rankτ表示正样本集中的第τ个边对与负样本集中对应的γ个边进行评分时分数从大到小的排列序号;
步骤3.8:利用最优图神经网络模型,对基因关系图G进行链接预测,生成新的边,得到新的基因关系图G*
步骤4:基于谱聚类在新的基因关系图G*中选择权重最高的节点作为特征节点,包括:
步骤4.1:定义新的基因关系图G*中所有节点为E,即E=(e1,e2,…,eζ),其中ζ表示基因关系图G*中的节点总数;
步骤4.2:利用公式(8)计算任意的两个节点(eρ1,eρ2)之间的相似度wρ1,ρ2,并将wρ1,ρ2组成ζ维的相似度矩阵W,
Figure BDA00027276509000000911
式中,Ω表示用于控制节点的邻域宽度;
步骤4.3:计算相似度矩阵W的每行中所有元素的和,得到{d1,d2,…,dη,…dζ},其中dη表示第η行中的所有元素之和,利用{d1,d2,…,dη,…dζ}构建维度为ζ的对角矩阵D;
步骤4.4:利用公式(9)计算拉普拉斯矩阵Lreym
Lreym=D-1/2(D-W)D-1/2 (9)
步骤4.5:计算拉普拉斯矩阵Lreym的特征值,并将特征值按照从小到大的顺序进行排序,根据聚类簇的数目μ,取前μ个特征值并计算对应的特征向量{χ12,…,χμ},利用μ个特征向量{χ12,…,χμ}构成ζ行μ列的矩阵U,即矩阵U={χ12,…,χμ};
步骤4.6:利用K-Means聚类算法将矩阵U每行中的特征向量聚类成簇,得到{C1,C2,…,Cν,…,Cμ},其中Cν表示第ν行中的特征向量聚类成的簇;
步骤4.7:根据得到的簇{C1,C2,…,Cν,…,Cμ},将新的基因关系图G*中的所有节点分为μ组,得到μ个子图,记为G*=[G1,G2,…,Gν,…,Gμ]=[(v'1,ε'1),(v'2,ε'2),…,(v'ν,ε'ν),…,(v'μ,ε'μ)],其中Gν表示第ν个子图,将第ν个子图表示为(v'ν,ε'ν),v'ν表示子图Gν中的所有节点集合,ε'ν表示子图Gν中的所有边,即ε'ν包含在v'ν中所有节点之间的链接;
步骤4.8:利用线性回归方法对每个子图Gν内的所有节点进行建模,得到每个节点的权重,将权重最高的节点作为每个子图中的特征节点(或特征基因)。
在高维小样本数据集上进行特征选择时,以支持向量机模型作为分类器,本发明提出的方法能够在选取特征数目为10的时候提供不低于80%的分类准确率,优于相同条件下线性回归和谱聚类方法提供的分类准确度,而且本发明提出的方法考虑了基因相互作用关系,结果具有生物标志物选择的临床诊断意义。
本方法在四个国际公开数据集上进行了测试,分别是ALL3(急性淋巴细胞白血病)、DLBCL(弥漫性大B细胞性淋巴瘤基因数据)、Myeloma(骨髓瘤数据集)、Prostate(前列腺癌数据集);将提取的特征基因作为样本的新特征基因,并建立支持向量机(SVM)分类模型,通过SVM输出的正确率Acc如表1所示。
表1不同特征数下不同数据集对应的正确率Acc表
Figure BDA0002727650900000111
从表1中可以看出,本方法应用在不同测试集的多数特征数目下均能够取得较高的Acc值,其中在ALL3数据集中,特征数目为12时取得了最高的Acc为0.83;在DLBCL数据集中,特征数目为8时取得了最高的Acc值为0.96;在Myeloma数据集中,特征数目为5时取得了最高的Acc值为0.85;在Prostate数据集中,特征数为15时能够取得最佳的Acc值为0.98。

Claims (4)

1.一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,包括如下步骤:
步骤1:基于先验知识构建基因关系图,包括:
步骤1.1:利用GPL平台,将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID,其中待处理基因微阵列数据S表示为S={X1,X2,…,Xi,…,XN},第i个样本Xi表示为
Figure FDA0002727650890000011
每个样本均对应一个标签,
Figure FDA0002727650890000012
表示第i个样本Xi中的第j个特征值,每个特征均对应一个探针名,N表示待处理基因微阵列数据S中的样本数,i=1,2,…,N,m表示每个样本中的特征数,j=1,2,…,m;
步骤1.2:将所有的基因ID输入到Cytoscape软件的GeneMANIA插件中,利用边缘关系数据Physical Interaction生成所有基因ID之间的关系矩阵R,其中关系矩阵R中包含数据S中任意两个基因ID之间的关系权重系数;
步骤1.3:利用得到的权重矩阵R构建基因关系图G=(v,ε),其中v表示基因关系图G中的所有节点,即v=(v1,v2,…vj,…,vm),每个节点代表一个基因ID,ε表示基因关系图G中的所有边,即ε∈(vj,vr)|vj,vr∈v,(vj,vr)表示同一条边上的两个节点,每条边代表所连接的两个基因ID之间的连接权重系数;
步骤2:利用图神经网络构建基因关系图G中每个节点的特征向量;
步骤3:基于图神经网络对基因关系图G进行连接预测,生成基因关系图G中新的边,得到新的基因关系图G*
步骤4:基于谱聚类在新的基因关系图G*中选择权重最高的节点作为特征节点。
2.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,所述步骤2包括:
步骤2.1:为每个节点vj设置一个初始的隐藏状态向量
Figure FDA0002727650890000013
定义节点vj的所有一阶邻域节点N(vj)所对应的初始隐藏状态向量为
Figure FDA0002727650890000014
步骤2.2:利用公式(1)所示的聚合操作,得到节点vj的所有一阶邻域节点N(vj)所对应的第k层的隐藏状态向量
Figure FDA0002727650890000015
Figure FDA0002727650890000016
式中,AGGREGATEk()表示第k层的聚合函数;
步骤2.3:利用公式(2)得到节点vj的第k层的隐藏状态向量
Figure FDA0002727650890000021
Figure FDA0002727650890000022
式中,σ()表示非线性激活函数,Wk表示第k层的权重矩阵,COUNCAT()表示拼接函数;
步骤2.4:利用公式(3)更新节点vj的第k层隐藏状态向量
Figure FDA0002727650890000023
的值
Figure FDA0002727650890000024
Figure FDA0002727650890000025
步骤2.5:令j=1,2,…,m,k=1,2,…,K,重复步骤2.2~步骤2.4,遍历计算出所有节点的第K层隐藏状态向量的值
Figure FDA0002727650890000026
K表示图神经网络的层数,
Figure FDA0002727650890000027
表示节点vj的第K层隐藏状态向量
Figure FDA0002727650890000028
的值;
步骤2.6:利用公式(4)将每个节点vj的第K层隐藏状态向量
Figure FDA0002727650890000029
的值
Figure FDA00027276508900000210
赋给
Figure FDA00027276508900000211
得到每个节点的特征向量
Figure FDA00027276508900000212
Figure FDA00027276508900000213
3.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,所述步骤3包括:
步骤3.1:将基因关系图G中已经存在的边标注为正样本,所有的正样本构成的集合称为正样本集Pos;
步骤3.2:删除基因关系图G中任意一对节点(vj,vr)之间的已有连接;
步骤3.3:分别以节点vj、vr为起始节点进行随机采样操作,当以节点vj为起始节点进行随机采集操作时,在基因关系图G中随机选择γ个节点并分别建立与节点vj之间的连接,组成新的边,并将新的边标记为负样本,当以节点vr为起始节点进行随机采集操作时,再次在基因关系图G中随机选择γ个节点并分别建立与节点vr之间的连接,组成新的边,并将新的边标记为负样本,所有的负样本构成的集合称为负样本集Neg;
步骤3.4:利用公式(5)计算任意两个节点(vj,vr)之间的相似度sim(vj,vr);
Figure FDA0002727650890000031
式中,
Figure FDA0002727650890000032
表示特征向量
Figure FDA0002727650890000033
的在第
Figure FDA0002727650890000034
维度上的值,
Figure FDA0002727650890000035
表示特征向量
Figure FDA0002727650890000036
的维度;
步骤3.5:利用正样本集中所有节点对的相似度平均值,以及所有负样本集中的所有节点对的相似度平均值构建如公式(6)所示的损失函数,
Figure FDA0002727650890000037
式中,L表示损失值,E表示取平均值操作,(vj,vr)∈Pos表示正样本集Pos中的两个节点,
Figure FDA0002727650890000038
表示以节点vj为起始节点进行随机采集操作时所选择的节点,
Figure FDA0002727650890000039
表示以节点vr为起始节点进行随机采集操作时所选择的节点,
Figure FDA00027276508900000310
表示负样本集Neg中的两个节点;
步骤3.6:利用随机梯度下降法训练损失函数,并计算每次训练时的损失值L,当相邻两次训练时的损失值之差的绝对值小于给定阈值δ时,停止迭代;
步骤3.7:利用公式(7)计算每次训练过程中生成的链接预测模型的平均倒数秩,将平均倒数秩最高的链接预测模型作为最优链接预测模型;
Figure FDA00027276508900000311
式中,MRR表示平均倒数秩,rankτ表示正样本集中的第τ个边对与负样本集中对应的γ个边进行评分时分数从大到小的排列序号;
步骤3.8:利用最优图神经网络模型,对基因关系图G进行连接预测,生成新的边,得到新的基因关系图G*
4.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法,其特征在于,所述步骤4包括:
步骤4.1:定义新的基因关系图G*中所有节点为E,即E=(e1,e2,…,eζ),其中ζ表示基因关系图G*中的节点总数;
步骤4.2:利用公式(8)计算任意的两个节点(eρ1,eρ2)之间的相似度wρ1,ρ2,并将wρ1,ρ2组成ζ维的相似度矩阵W,
Figure FDA0002727650890000041
式中,Ω表示用于控制节点的邻域宽度;
步骤4.3:计算相似度矩阵W的每行中所有元素的和,得到{d1,d2,…,dη,…dζ},其中dη表示第η行中的所有元素之和,利用{d1,d2,…,dη,…dζ}构建维度为ζ的对角矩阵D;
步骤4.4:利用公式(9)计算拉普拉斯矩阵Lreym
Lreym=D-1/2(D-W)D-1/2 (9)
步骤4.5:计算拉普拉斯矩阵Lreym的特征值,并将特征值按照从小到大的顺序进行排序,根据聚类簇的数目μ,取前μ个特征值并计算对应的特征向量{χ12,…,χμ},利用μ个特征向量{χ12,…,χμ}构成ζ行μ列的矩阵U,即矩阵U={χ12,…,χμ};
步骤4.6:利用K-Means聚类算法将矩阵U每行中的特征向量聚类成簇,得到{C1,C2,…,Cν,…,Cμ},其中Cν表示第ν行中的特征向量聚类成的簇;
步骤4.7:根据得到的簇{C1,C2,…,Cν,…,Cμ},将新的基因关系图G*中的所有节点分为μ组,得到μ个子图,记为G*=[G1,G2,…,Gν,…,Gμ]=[(v′1,ε′1),(v'2,ε'2),…,(v′ν,ε′ν),…,(v'μ,ε'μ)],其中Gν表示第ν个子图,将第ν个子图表示为(v′ν,ε′ν),v′ν表示子图Gν中的所有节点集合,ε′ν表示子图Gν中的所有边,即ε′ν包含在v′ν中所有节点之间的连接;
步骤4.8:利用线性回归方法对每个子图Gν内的所有节点进行建模,得到每个节点的权重,将权重最高的节点作为每个子图中的特征节点。
CN202011108087.6A 2020-10-16 2020-10-16 基于图神经网络与谱聚类的高维数据特征选择方法 Active CN112232413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011108087.6A CN112232413B (zh) 2020-10-16 2020-10-16 基于图神经网络与谱聚类的高维数据特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011108087.6A CN112232413B (zh) 2020-10-16 2020-10-16 基于图神经网络与谱聚类的高维数据特征选择方法

Publications (2)

Publication Number Publication Date
CN112232413A true CN112232413A (zh) 2021-01-15
CN112232413B CN112232413B (zh) 2023-07-21

Family

ID=74119090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011108087.6A Active CN112232413B (zh) 2020-10-16 2020-10-16 基于图神经网络与谱聚类的高维数据特征选择方法

Country Status (1)

Country Link
CN (1) CN112232413B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733807A (zh) * 2021-02-22 2021-04-30 佳都新太科技股份有限公司 一种人脸比对的图卷积神经网络训练方法及装置
CN113160881A (zh) * 2021-05-14 2021-07-23 东北大学 一种基于mRMR和MBFA的高维数据特征选择方法
CN113177604A (zh) * 2021-05-14 2021-07-27 东北大学 一种基于改进l1正则化和聚类的高维数据特征选择方法
CN113611366A (zh) * 2021-07-26 2021-11-05 哈尔滨工业大学(深圳) 基于图神经网络的基因模块挖掘方法、装置、计算机设备
CN115240777A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质
CN115938486A (zh) * 2022-12-06 2023-04-07 内蒙古农业大学 基于图神经网络的抗菌性乳酸菌株筛选方法
CN116129992A (zh) * 2023-04-17 2023-05-16 之江实验室 基于图神经网络的基因调控网络构建方法及系统
WO2024065070A1 (zh) * 2022-09-26 2024-04-04 之江实验室 一种基于图聚类的基因编码育种预测方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100119128A1 (en) * 2008-08-14 2010-05-13 Bond University Ltd. Cancer diagnostic method and system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100119128A1 (en) * 2008-08-14 2010-05-13 Bond University Ltd. Cancer diagnostic method and system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QUAN DO等: "Candidate gene prioritization using graph embedding", 《 2020 RIVF INTERNATIONAL CONFERENCE ON COMPUTING AND COMMUNICATION TECHNOLOGIES (RIVF)》, pages 1 - 6 *
张轶雯;何冰;谢江;金翊;张武;: "单基因扰动实验的并行自适应灰关联聚类算法研究", 微电子学与计算机, no. 09, pages 113 - 115 *
李肃义;唐世杰;李凤;齐建卓;熊文激;: "基于深度学习的生物医学数据分析进展", 生物医学工程学杂志, vol. 37, no. 02, pages 349 - 357 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733807A (zh) * 2021-02-22 2021-04-30 佳都新太科技股份有限公司 一种人脸比对的图卷积神经网络训练方法及装置
CN113160881A (zh) * 2021-05-14 2021-07-23 东北大学 一种基于mRMR和MBFA的高维数据特征选择方法
CN113177604A (zh) * 2021-05-14 2021-07-27 东北大学 一种基于改进l1正则化和聚类的高维数据特征选择方法
CN113160881B (zh) * 2021-05-14 2023-10-20 东北大学 一种基于mRMR和MBFA的高维数据特征选择方法
CN113177604B (zh) * 2021-05-14 2024-04-16 东北大学 一种基于改进l1正则化和聚类的高维数据特征选择方法
CN113611366A (zh) * 2021-07-26 2021-11-05 哈尔滨工业大学(深圳) 基于图神经网络的基因模块挖掘方法、装置、计算机设备
CN115240777A (zh) * 2022-08-10 2022-10-25 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质
CN115240777B (zh) * 2022-08-10 2024-02-02 上海科技大学 基于图神经网络的合成致死基因预测方法、装置、终端及介质
WO2024065070A1 (zh) * 2022-09-26 2024-04-04 之江实验室 一种基于图聚类的基因编码育种预测方法和装置
CN115938486A (zh) * 2022-12-06 2023-04-07 内蒙古农业大学 基于图神经网络的抗菌性乳酸菌株筛选方法
CN115938486B (zh) * 2022-12-06 2023-11-10 内蒙古农业大学 基于图神经网络的抗菌性乳酸菌株筛选方法
CN116129992A (zh) * 2023-04-17 2023-05-16 之江实验室 基于图神经网络的基因调控网络构建方法及系统

Also Published As

Publication number Publication date
CN112232413B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Shrikumar et al. Technical note on transcription factor motif discovery from importance scores (TF-MoDISco) version 0.5. 6.5
CN106991296B (zh) 基于随机化贪心特征选择的集成分类方法
CN110827921B (zh) 一种单细胞聚类方法、装置、电子设备及存储介质
WO2023217290A1 (zh) 基于图神经网络的基因表型预测
CN111798935A (zh) 基于神经网络的普适性化合物结构-性质相关性预测方法
CN112784918A (zh) 基于无监督图表示学习的节点识别方法、系统、装置
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
Lamba et al. Feature Selection of Micro-array expression data (FSM)-A Review
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
CN114556364A (zh) 基于相似度运算符排序的神经架构搜索
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN115512772A (zh) 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统
Liu et al. A leave-one-feature-out wrapper method for feature selection in data classification
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
Pradana et al. Implementing binary particle swarm optimization and C4. 5 decision tree for cancer detection based on microarray data classification
CN107766887A (zh) 一种局部加权的不完整数据混杂聚类方法
CN116705192A (zh) 基于深度学习的药物虚拟筛选方法及装置
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
Gebert et al. Identifying genes of gene regulatory networks using formal concept analysis
Wali et al. m-CALP–Yet another way of generating handwritten data through evolution for pattern recognition
CN116992098B (zh) 引文网络数据处理方法及系统
CN115858629B (zh) 一种基于学习索引的knn查询方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant