CN112232413A

CN112232413A - 基于图神经网络与谱聚类的高维数据特征选择方法

Info

Publication number: CN112232413A
Application number: CN202011108087.6A
Authority: CN
Inventors: 栗伟; 谢维冬; 王林洁; 覃文军; 冯朝路; 闵新�; 于鲲
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-15
Anticipated expiration: 2040-10-16
Also published as: CN112232413B

Abstract

本发明提供一种基于图神经网络与谱聚类的高维数据特征选择方法。首先将每个基因作为节点建立基因关系图结构模型，并将基因相互关系数据作为边信息添加到基因关系图中，然后利用图神经网络模型来获取节点的特征向量表示，在得到每个节点的特征向量表示之后，开始进行链接预测阶段，生成新的边，得到新的基因关系图，最后基于谱聚类在新的基因关系图中选择权重最高的节点作为特征节点，通过本发明最终选择的基因具有较小的冗余度同时实现了较好的模型效果，并支持生物角度的可解释性。

Description

基于图神经网络与谱聚类的高维数据特征选择方法

技术领域

本发明涉及机器学习技术领域，具体涉及一种基于图神经网络与谱聚类的高维数据特征选择方法。

背景技术

在生物信息学领域中，处理的对象大多是多特征、高噪声、非线性的数据集。例如，研究人员利用基因芯片可以在一次实验中同时检测出成千上万个基因的表达值，从而获得大量的基因表达数据；还可以利用蛋白质质谱技术一次产出大量的蛋白质表达谱数据。但由于这些数据具有维数高、样本个数少的特点，常规的模式识别方法已不再适用。针对此类数据，如何剔除冗余特征、从海量数据中挖掘出隐藏的有用生物信息，成为研究识别与分类问题的关键。

在样本个数有限的情况下，随着特征数目的增加，分类问题的计算复杂度将呈指数增长，从而出现“维数灾难”。而特征选择方法可以达到以下四个目的：

①确定哪些是与输出相关的特征；

②降低输入空间的维数，缩小求解问题的规模，从而降低算法复杂度，减少训练时间；

③得到更好的决策函数，提高分类准确率；

④对数据的内在属性产生更深刻的认识。

特征选择是指对原始特征空间进行筛选，构造出一个特征空间的特征子空间，有效的特征选择可以提高学习算法的泛化性能，简化学习模型；以分类问题为背景，根据特征评价标准，传统的特征选择方法主要分为过滤法(Filter)和缠绕法(Wrapper)及嵌入式(Embedded)。除上述经典方法外，主流的改进方法是将经典方法进行优化、组合和进一步嵌入。但是，这些算法普遍假设样本间是相互独立的，或仅仅考虑数据间的特征关系，局限于在有限样本空间中寻找统计学层面的最佳解释，侧重了模型结果而忽略了生物学中仅因或蛋白之间的相互作用关系。

发明内容

针对现有技术的不足，本发明提出一种基于图神经网络与谱聚类的高维数据特征选择方法，包括以下步骤：

步骤1：基于先验知识构建基因关系图，包括：

步骤1.1：利用GPL平台，将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID，其中待处理基因微阵列数据S表示为S＝{X₁,X₂,…,X_i,…,X_N}，第i个样本X_i表示为

每个样本均对应一个标签，

表示第i个样本X_i中的第j个特征值，每个特征均对应一个探针名，N表示待处理基因微阵列数据S中的样本数，i＝1,2,…,N，m表示每个样本中的特征数，j＝1,2,…,m；

步骤1.2：将所有的基因ID输入到Cytoscape软件的GeneMANIA插件中，利用边缘关系数据Physical Interaction生成所有基因ID之间的关系矩阵R，其中关系矩阵R中包含数据S中任意两个基因ID之间的关系权重系数；

步骤1.3：利用得到的权重矩阵R构建基因关系图G＝(v,ε)，其中v表示基因关系图G中的所有节点，即v＝(v₁,v₂,…v_j,…,v_m)，每个节点代表一个基因ID，ε表示基因关系图G中的所有边，即ε∈(v_j,v_r)|v_j,v_r∈v，(v_j,v_r)表示同一条边上的两个节点，每条边代表所链接的两个基因ID之间的链接权重系数；

步骤2：利用图神经网络构建基因关系图G中每个节点的特征向量；

步骤3：基于图神经网络对基因关系图G进行链接预测，生成基因关系图G中新的边，得到新的基因关系图G^*；

步骤4：基于谱聚类在新的基因关系图G^*中选择权重最高的节点作为特征节点。

所述步骤2包括：

步骤2.1：为每个节点v_j设置一个初始的隐藏状态向量

定义节点v_j的所有一阶邻域节点N(v_j)所对应的初始隐藏状态向量为

步骤2.2：利用公式(1)所示的聚合操作，得到节点v_j的所有一阶邻域节点N(v_j)所对应的第k层的隐藏状态向量

式中，AGGREGATE_k()表示第k层的聚合函数；

步骤2.3：利用公式(2)得到节点v_j的第k层的隐藏状态向量

式中，σ()表示非线性激活函数，W^k表示第k层的权重矩阵，COUNCAT()表示拼接函数；

步骤2.4：利用公式(3)更新节点v_j的第k层隐藏状态向量

的值

步骤2.5：令j＝1,2,…,m，k＝1,2,…,K，重复步骤2.2～步骤2.4，遍历计算出所有节点的第K层隐藏状态向量的值

K表示图神经网络的层数，

表示节点v_j的第K层隐藏状态向量

的值；

步骤2.6：利用公式(4)将每个节点v_j的第K层隐藏状态向量

的值

赋给

得到每个节点的特征向量

所述步骤3包括：

步骤3.1：将基因关系图G中已经存在的边标注为正样本，所有的正样本构成的集合称为正样本集Pos；

步骤3.2：删除基因关系图G中任意一对节点(v_j,v_r)之间的已有链接；

步骤3.3：分别以节点v_j、v_r为起始节点进行随机采样操作，当以节点v_j为起始节点进行随机采集操作时，在基因关系图G中随机选择γ个节点并分别建立与节点v_j之间的链接，组成新的边，并将新的边标记为负样本，当以节点v_r为起始节点进行随机采集操作时，再次在基因关系图G中随机选择γ个节点并分别建立与节点v_r之间的链接，组成新的边，并将新的边标记为负样本，所有的负样本构成的集合称为负样本集Neg；

步骤3.4：利用公式(5)计算任意两个节点(v_j,v_r)之间的相似度sim(v_j,v_r)；

式中，

表示特征向量

的在第

维度上的值，

表示特征向量

的维度；

步骤3.5：利用正样本集中所有节点对的相似度平均值，以及所有负样本集中的所有节点对的相似度平均值构建如公式(6)所示的损失函数，

式中，L表示损失值，E表示取平均值操作，(v_j,v_r)∈Pos表示正样本集Pos中的两个节点，

表示以节点v_j为起始节点进行随机采集操作时所选择的节点，

表示以节点v_r为起始节点进行随机采集操作时所选择的节点，

表示负样本集Neg中的两个节点；

步骤3.6：利用随机梯度下降法训练损失函数，并计算每次训练时的损失值L，当相邻两次训练时的损失值之差的绝对值小于给定阈值δ时，停止迭代；

步骤3.7：利用公式(7)计算每次训练过程中生成的链接预测模型的平均倒数秩，将平均倒数秩最高的链接预测模型作为最优链接预测模型；

式中，MRR表示平均倒数秩，rank_τ表示正样本集中的第τ个边对与负样本集中对应的γ个边进行评分时分数从大到小的排列序号；

步骤3.8：利用最优图神经网络模型，对基因关系图G进行链接预测，生成新的边，得到新的基因关系图G^*。

所述步骤4包括：

步骤4.1：定义新的基因关系图G^*中所有节点为E，即E＝(e₁,e₂,…,e_ζ)，其中ζ表示基因关系图G^*中的节点总数；

步骤4.2：利用公式(8)计算任意的两个节点(e_ρ1,e_ρ2)之间的相似度w_ρ1,ρ2，并将w_ρ1,ρ2组成ζ维的相似度矩阵W，

式中，Ω表示用于控制节点的邻域宽度；

步骤4.3：计算相似度矩阵W的每行中所有元素的和，得到{d₁,d₂,…,d_η,…d_ζ}，其中d_η表示第η行中的所有元素之和，利用{d₁,d₂,…,d_η,…d_ζ}构建维度为ζ的对角矩阵D；

步骤4.4：利用公式(9)计算拉普拉斯矩阵L_reym，

L_reym＝D^-1/2(D-W)D^-1/2 (9)

步骤4.5：计算拉普拉斯矩阵L_reym的特征值，并将特征值按照从小到大的顺序进行排序，根据聚类簇的数目μ，取前μ个特征值并计算对应的特征向量{χ₁,χ₂,…,χ_μ}，利用μ个特征向量{χ₁,χ₂,…,χ_μ}构成ζ行μ列的矩阵U，即矩阵U＝{χ₁,χ₂,…,χ_μ}；

步骤4.6：利用K-Means聚类算法将矩阵U每行中的特征向量聚类成簇，得到{C₁,C₂,…,C_ν,…,C_μ}，其中C_ν表示第ν行中的特征向量聚类成的簇；

步骤4.7：根据得到的簇{C₁,C₂,…,C_ν,…,C_μ}，将新的基因关系图G^*中的所有节点分为μ组，得到μ个子图，记为G^*＝[G₁,G₂,…,G_ν,…,G_μ]＝[(v'₁,ε'₁),(v'₂,ε'₂),…,(v'_ν,ε'_ν),…,(v'_μ,ε'_μ)]，其中G_ν表示第ν个子图，将第ν个子图表示为(v'_ν,ε'_ν)，v'_ν表示子图G_ν中的所有节点集合，ε'_ν表示子图G_ν中的所有边，即ε'_ν包含在v'_ν中所有节点之间的链接；

步骤4.8：利用线性回归方法对每个子图G_ν内的所有节点进行建模，得到每个节点的权重，将权重最高的节点作为每个子图中的特征节点。

本发明的有益效果是：

本发明提出了一种基于图神经网络与谱聚类的高维数据特征选择方法，利用图神经网络预测节点间的链接，采用谱聚类的方法将节点聚类以减少最终选择结果的冗余，并采用线性回归方法刷新节点权重，最终选择同一子类中的最佳节点作为最终选择的特征，这种方法最终选择的基因具有较小的冗余度同时实现了较好的模型效果，并支持生物角度的可解释性。

附图说明

图1为本发明中的基于图神经网络与谱聚类的高维数据特征选择方法流程图。

图2为本发明中基于图神经网络与谱聚类的高维数据特征选择示意图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。本发明首先将每个基因作为节点建立基因关系图结构模型，并将基因相互关系数据作为边信息添加都基因关系图中，需要说明的是基因相互关系有多种，如同源表达Co-expression、物理相互作用PhysicalInteraction和通路Pathway等，以其中物理相互作用Physical Interaction作为边缘关系为例，所构建的图结构模型是无向图，在基因关系图中，每个节点表示每个基因以及评分，每条边代表了每两个基因之间的相互关系，在该方法中节点被分为两类：孤立节点和正常节点。先验知识中没有涉及到的基因在图结构的建立过程中会形成孤立节点，然而孤立节点很有可能是重要的非冗余特征，因此本专利基于图神经网络对已建立的图结构进行链接预测建立孤立节点与其他节点间的联系，实现信息的进一步共享并为谱聚类的处理奠定良好的基础。

首先利用图神经网络模型来获取节点的特征向量表示。对于已建立的基因关系图，本方法先对邻居节点进行随机采样以降低计算复杂度，之后通过训练聚合邻居节点的信息获得该节点的表示，这样能够方便且准确地获得节点特征向量表示。这种方法不需要整张图的邻接矩阵表达，只需要获得节点周围被采样地邻居结点信息即可，进一步降低了模型的开销。

在得到每个节点的特征向量表示之后，开始进行链接预测阶段。为了训练链接预测模型，在基因关系图中构造负样本，利用构造的负样本来训练模型，再在基因关系图中随机加入节点链接并用该模型判断链接是否存在。首先在基因关系图中构造负样本，负样本是基因关系图中不存在边的一对节点，通过破坏正样本的头部或尾部节点以及一些随机采样的节点来生成指定个数的负样本，并给予每个样本0或1的标记。

在训练模型的过程中将模型性能最好的模型信息存储下来，最后做链接预测时使用该模型，并从中选取得分最高的若干条边使其能够包含图中部分节点。同时将最后样本的得分作为边的权重，以用作下一步的谱聚类，将链接预测后的图记为G^*。

以“子图间边权重和尽可能低，子图内边权重和尽可能高”为目标进行子图切割，其目的是使生成的子图内部节点拥有更多的边缘权重(特征之间冗余更大)，而子图之间的节点拥有更少的边缘权重(特征之间冗余更小)，从而根据给定的特征数量来生成μ个子图。

如图1～2所示，一种基于图神经网络与谱聚类的高维数据特征选择方法，包括如下步骤：

步骤1：先验知识包括：物理相互作用、同源表达、预测关系、共定位、通路、遗传相互作用、共享的蛋白质结构域，基于先验知识构建基因关系图，包括：

步骤1.1：利用GPL(Gene Platform简称GPL)平台，将待处理基因微阵列数据S中的每个特征的探针名转换为对应的基因ID(Gene Identity简称基因ID)，其中待处理基因微阵列数据S表示为S＝{X₁,X₂,…,X_i,…,X_N}，第i个样本X_i表示为

每个样本均对应一个标签，

步骤2：利用图神经网络构建基因关系图G中每个节点的特征向量，包括：

步骤2.1：为每个节点v_j设置一个初始的隐藏状态向量

式中，AGGREGATE_k()表示第k层的聚合函数，聚合函数AGGREGATE_k()定义为平均聚合函数MEAN_k()，即对括号内的值取平均；

步骤2.3：利用公式(2)得到节点v_j的第k层的隐藏状态向量

步骤2.2～2.3表示了将目标节点和其邻居节点的第k-1层向量拼接起来，然后对向量的每个维度进行求平均值的操作，将得到的结果做一次非线性变换产生目标顶点的第k层表示向量。

步骤2.4：利用公式(3)更新节点v_j的第k层隐藏状态向量

的值

K表示图神经网络的层数，

表示节点v_j的第K层隐藏状态向量

的值；

步骤2.6：利用公式(4)将每个节点v_j的第K层隐藏状态向量

的值

赋给

得到每个节点(基因)的特征向量

在得到每个节点的特征向量表示之后，开始进行链接预测阶段，链接预测的目标是预测基因关系图G中可能存在的节点之间的链接，为了进行链接预测首先需要训练一个链接预测模型，该模型用于判断图中是否存在链接。

步骤3：基于图神经网络对基因关系图G进行链接预测，生成基因关系图G中新的边，得到新的基因关系图G^*，包括：

式中，

表示特征向量

的在第

维度上的值，

表示特征向量

的维度；

表示负样本集Neg中的两个节点，整个公式表示的是正样本对应的余弦相似度得分减去对应的负样本的余弦相似度的负数的分数的和。上式的意义在于最大化正样本点之间的链接相似度，同时最小化负样本点之间的链接相似度，理想情况下，正边缘的相似性得分应该高于所有负边缘。

步骤3.8：利用最优图神经网络模型，对基因关系图G进行链接预测，生成新的边，得到新的基因关系图G^*；

步骤4：基于谱聚类在新的基因关系图G^*中选择权重最高的节点作为特征节点，包括：

式中，Ω表示用于控制节点的邻域宽度；

步骤4.4：利用公式(9)计算拉普拉斯矩阵L_reym，

L_reym＝D^-1/2(D-W)D^-1/2 (9)

步骤4.8：利用线性回归方法对每个子图G_ν内的所有节点进行建模，得到每个节点的权重，将权重最高的节点作为每个子图中的特征节点(或特征基因)。

在高维小样本数据集上进行特征选择时，以支持向量机模型作为分类器，本发明提出的方法能够在选取特征数目为10的时候提供不低于80％的分类准确率，优于相同条件下线性回归和谱聚类方法提供的分类准确度，而且本发明提出的方法考虑了基因相互作用关系，结果具有生物标志物选择的临床诊断意义。

本方法在四个国际公开数据集上进行了测试，分别是ALL3(急性淋巴细胞白血病)、DLBCL(弥漫性大B细胞性淋巴瘤基因数据)、Myeloma(骨髓瘤数据集)、Prostate(前列腺癌数据集)；将提取的特征基因作为样本的新特征基因，并建立支持向量机(SVM)分类模型，通过SVM输出的正确率Acc如表1所示。

表1不同特征数下不同数据集对应的正确率Acc表

从表1中可以看出，本方法应用在不同测试集的多数特征数目下均能够取得较高的Acc值，其中在ALL3数据集中，特征数目为12时取得了最高的Acc为0.83；在DLBCL数据集中，特征数目为8时取得了最高的Acc值为0.96；在Myeloma数据集中，特征数目为5时取得了最高的Acc值为0.85；在Prostate数据集中，特征数为15时能够取得最佳的Acc值为0.98。

Claims

1.一种基于图神经网络与谱聚类的高维数据特征选择方法，其特征在于，包括如下步骤：

步骤1：基于先验知识构建基因关系图，包括：

每个样本均对应一个标签，

步骤1.3：利用得到的权重矩阵R构建基因关系图G＝(v,ε)，其中v表示基因关系图G中的所有节点，即v＝(v₁,v₂,…v_j,…,v_m)，每个节点代表一个基因ID，ε表示基因关系图G中的所有边，即ε∈(v_j,v_r)|v_j,v_r∈v，(v_j,v_r)表示同一条边上的两个节点，每条边代表所连接的两个基因ID之间的连接权重系数；

步骤3：基于图神经网络对基因关系图G进行连接预测，生成基因关系图G中新的边，得到新的基因关系图G^*；

2.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法，其特征在于，所述步骤2包括：

步骤2.1：为每个节点v_j设置一个初始的隐藏状态向量

式中，AGGREGATE_k()表示第k层的聚合函数；

步骤2.3：利用公式(2)得到节点v_j的第k层的隐藏状态向量

步骤2.4：利用公式(3)更新节点v_j的第k层隐藏状态向量

的值

K表示图神经网络的层数，

表示节点v_j的第K层隐藏状态向量

的值；

步骤2.6：利用公式(4)将每个节点v_j的第K层隐藏状态向量

的值

赋给

得到每个节点的特征向量

3.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法，其特征在于，所述步骤3包括：

步骤3.2：删除基因关系图G中任意一对节点(v_j,v_r)之间的已有连接；

步骤3.3：分别以节点v_j、v_r为起始节点进行随机采样操作，当以节点v_j为起始节点进行随机采集操作时，在基因关系图G中随机选择γ个节点并分别建立与节点v_j之间的连接，组成新的边，并将新的边标记为负样本，当以节点v_r为起始节点进行随机采集操作时，再次在基因关系图G中随机选择γ个节点并分别建立与节点v_r之间的连接，组成新的边，并将新的边标记为负样本，所有的负样本构成的集合称为负样本集Neg；

式中，

表示特征向量

的在第

维度上的值，

表示特征向量

的维度；

表示负样本集Neg中的两个节点；

步骤3.8：利用最优图神经网络模型，对基因关系图G进行连接预测，生成新的边，得到新的基因关系图G^*。

4.根据权利要求1所述的一种基于图神经网络与谱聚类的高维数据特征选择方法，其特征在于，所述步骤4包括：

式中，Ω表示用于控制节点的邻域宽度；

步骤4.4：利用公式(9)计算拉普拉斯矩阵L_reym，

L_reym＝D^-1/2(D-W)D^-1/2 (9)

步骤4.7：根据得到的簇{C₁,C₂,…,C_ν,…,C_μ}，将新的基因关系图G^*中的所有节点分为μ组，得到μ个子图，记为G^*＝[G₁,G₂,…,G_ν,…,G_μ]＝[(v′₁,ε′₁),(v'₂,ε'₂),…,(v′_ν,ε′_ν),…,(v'_μ,ε'_μ)]，其中G_ν表示第ν个子图，将第ν个子图表示为(v′_ν,ε′_ν)，v′_ν表示子图G_ν中的所有节点集合，ε′_ν表示子图G_ν中的所有边，即ε′_ν包含在v′_ν中所有节点之间的连接；