CN109215741A

CN109215741A - 基于双超图正则化的肿瘤基因表达谱数据双聚类方法

Info

Publication number: CN109215741A
Application number: CN201810948044.5A
Authority: CN
Inventors: 王雪松; 刘健; 程玉虎
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-01-15
Anticipated expiration: 2038-08-20
Also published as: CN109215741B

Abstract

本发明公开了一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法，通过对肿瘤基因表达谱数据的样本和基因分别进行聚类；然后，对肿瘤基因表达谱数据的样本和基因分别建立样本超图和基因超图，来获取样本和基因的固有几何结构；最后，将样本超图和基因超图分别作为主成分分析的样本超图正则项和基因超图正则项，确定优化目标函数，最后通过优化目标函数分别优化样本聚类矩阵和基因聚类矩阵，得到最终的样本聚类和基因聚类。本发明在基于主成分分析法的基础上，通过双超图正则化进行双聚类的优化，从而在保留主成分分析法的优点基础上更好的获取肿瘤基因表达谱数据中的复杂信息，最终提高获得聚类的精确性。

Description

基于双超图正则化的肿瘤基因表达谱数据双聚类方法

技术领域

本发明涉及一种肿瘤基因表达谱数据双聚类方法，具体是一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法。

背景技术

到目前为止，已经有超过100种不同的肿瘤危及人类健康。肿瘤基因表达谱数据中的样本类型可以通过肿瘤细胞中基因活性的分子模式来区分。近年来，随着DNA微阵列技术的快速发展，研究者能够同时观测数千个基因的表达水平，这样可以更加全面的研究肿瘤基因表达谱数据。当前的分子生物学的挑战是如何挖掘这些肿瘤基因表达谱数据中蕴含的重要信息，以了解肿瘤的生物过程和发生机理。由于模式识别和机器学习的发展，提出了许多有效的方法来分析肿瘤基因表达谱数据，其中，聚类是一类用于发现肿瘤基因表达谱数据中具有相似分子表达模式的样本或基因的典型算法。

许多传统的聚类方法，比如层次聚类，自组织映射，非负矩阵分解和主成分分析等已经成功应用于肿瘤基因表达谱数据聚类。层次聚类已成功应用于分析全基因组表达模式，识别不同类型的淋巴瘤等，然而，层次聚类的缺点是它对度量非常敏感，并且通常需要定义集群。自组织映射已成功用于识别白血病的亚型，但是由于自组织映射基于初始条件获得肿瘤基因表达谱数据的矩阵分解，因此其结果通常不稳定。通过实验对比，有学者证明了非负矩阵分解在肿瘤基因表达谱数据聚类中比层次聚类和自组织映射有更好的聚类精度和更稳定的实验结果。迄今为止，许多基于非负矩阵分解的算法提了出来分析肿瘤基因表达谱数据，例如稀疏非负矩阵分解方法，多图正则化非负矩阵分解方法，半监督非负矩阵分解方法等等。虽然基于非负矩阵分解的方法成功用于肿瘤基因表达谱数据聚类中，但是非负矩阵分解仅能处理非负的数据，这限制了其应用范围，比如，肿瘤基因表达谱数据中的负值也有相应的生物学含义，非负矩阵分解在处理肿瘤基因表达谱数据时忽略了这些有意义的负值。主成分分析是一种经典的降维算法，尽管是非凸的，它可以通过对数据计算奇异值分解得到全局最优解和很好的低秩表示。此外，主成分分析对所有数据类型都适用，因此，它被广泛应用到肿瘤基因表达谱数据聚类中。

上述方法都成功应用到了肿瘤基因表达谱数据聚类中，但是，这些传统聚类方法仅对样本进行聚类或者仅对基因进行聚类。在肿瘤基因表达谱数据中，样本可以根据它们在基因上的分布进行聚类，而基因可以根据它们在样本上的分布进行聚类。近年来，双聚类方法引起了越来越多的关注，并且许多双聚类算法被证明优于单侧聚类方法。比如，有学者提出三因子正交非负矩阵分解同时对数据的行和列进行聚类。

传统的双聚类算法都是基于非负矩阵分解的双聚类算法，目前也有利用主成分分析对肿瘤基因表达谱数据进行双聚类。假设高维空间中的所有数据点都位于多个低维线性子空间的组合上，则主成分分析方法可以很容易地获取数据中的低维结构。然而，在现实世界的数据集中，这种假设是无法保证的。例如，有学者通过将图正则化方法嵌入到非负矩阵分解中，在处理肿瘤基因表达谱数据中获得了比直接利用非负矩阵分解更好的结果，这表明高维基因表达数据可由非线性低维流型中采样得到。在这种情况下，主成分分析方法无法挖掘现实世界数据的固有几何结构。通常利用流形学习方法来获得数据的局部几何结构，例如局部线性嵌入，局部保持投影和拉普拉斯特征图。所有这些方法都启发于局部不变性的思想来估计数据中未知流型结构的几何特性和拓扑特性。假设如果两个数据点在本征流型结构中彼此靠近，那么它们在变换后的空间中的表示也应该相近的。图正则化的方法是一种常用的方法来考虑数据的局部流型结构。例如，已经提出的一种图正则化稀疏编码方法，用于进行稀疏表示。在传统的图模型中，每条边连接两个顶点，而超图是图的泛化形式，它的每条边链接的是多个顶点(超边)。也就是说，具有相似特征的顶点可以由一条超边表示，通过这种方法可以更好地获取数据中多个顶点间的复杂信息。对于聚类问题，将两个或多个数据点一起考虑是十分有必要的，这可以确定它们是否属于同一个类。因此，超图越来越引人瞩目。基于正则化的方法已被用于分析肿瘤基因表达谱数据，然而，超图在分析肿瘤基因表达谱数据中并未被运用，因此如何将超图和正则化结构后通过主成分分析的方式进行肿瘤基因表达谱数据双聚类是本行业亟需解决的问题。

发明内容

针对上述现有技术存在的问题，本发明提供一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法，在保留主成分分析法的优点基础上更好的获取肿瘤基因表达谱数据中的复杂信息，从而提高获得聚类的精确性。

为了实现上述目的，本发明采用的技术方案是：一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法，具体步骤为：

步骤Ⅰ：将肿瘤基因表达谱数据采用主成分分析方法分解为基因聚类矩阵和样本聚类矩阵；

步骤Ⅱ：根据肿瘤基因表达谱数据的样本构建样本超图；

步骤Ⅲ：根据肿瘤基因表达谱数据的基因构建基因超图；

步骤Ⅳ：将样本超图和基因超图作为分别作为主成分分析的样本超图正则项和基因超图正则项，确定优化目标函数的形式；

步骤Ⅴ：通过优化目标函数对步骤Ⅰ的样本聚类矩阵和基因聚类矩阵进行优化，得到优化后的样本聚类矩阵和基因聚类矩阵；

步骤Ⅶ：根据优化后的样本聚类矩阵和基因聚类矩阵实现样本聚类和基因聚类。

进一步：所述步骤Ⅰ中，给定肿瘤基因表达谱数据X＝(x₁，x₂，…，x_n)∈R^m×n，其中m为肿瘤基因表达谱数据的基因维数，n为肿瘤基因表达谱数据的样本个数。利用主成分分析法可以计算得到肿瘤基因表达谱数据X的主成分矩阵U∈R^m×k和样本映射矩阵V∈R^n×k，其中，U中包含k个主成分，V由对X进行映射到k维得到。则主成分分析法的目标函数可以表示为

式中，V^TV＝I表示样本映射矩阵V是正交矩阵。假设肿瘤基因表达谱数据包含k类，则可以根据优化后的主成分矩阵U进行基因聚类，根据优化后的样本映射矩阵V进行样本聚类，方便起见，主成分矩阵U和样本映射矩阵V被称为基因聚类矩阵和样本聚类矩阵。

进一步：所述步骤Ⅱ中，根据给定肿瘤基因表达谱数据X构建样本超图来更好地挖掘样本之间的复杂关系和固有几何结构。定义样本超图为G_s＝(V_s,E_s,W_s)，其中V_s是样本顶点的集合，E_s是样本超边的集合，W_s是样本超边的权值矩阵。设关联矩阵为其作用是表示样本超边与样本顶点之间的关系。H_s中的元素定义为

式中，x_·i表示V_s中的第i个顶点，e表示E_s中超边且每一个超边可由多个顶点构成，H_s用来判断第i个顶点是否属于超边e。

对于超边e，其权值矩阵W_s(e)定义为

式中，K是第j个顶点的近邻数目。根据H_s和W_s，每个顶点x_·i∈V_s的度可以表示为

每个超边e的度可以表示为

定义D_xs、D_es和D_Ws分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵，建立样本超图的拉普拉斯矩阵

进一步：所述步骤Ⅲ中，根据给定肿瘤基因表达谱数据X构建基因超图来更好地挖掘基因之间的复杂关系和固有几何结构。定义基因超图为G_g＝(V_g,E_g,W_g)，其中V_g是基因顶点的集合，E_g是基因超边的集合，W_g是基因超边的权值矩阵。设关联矩阵为其作用是表示基因超边与基因顶点之间的关系。H_g中的元素定义为

式中，x_i·表示V_g中的第i个顶点，e表示E_g中超边且每一个超边可由多个顶点构成，H_g用来判断第i个顶点是否属于超边e。

对于超边e，其权值矩阵W_g(e)定义为

式中，K是第j个顶点的近邻数目。根据H_g和W_g，每个顶点x_i·∈V_g的度可以表示为

每个超边e的度可以表示为

定义D_xg、D_eg和D_Wg分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵，建立样本超图的拉普拉斯矩阵

进一步：所述步骤Ⅳ中，将得到样本超图和基因超图作为分别作为主成分分析的样本超图正则项和基因超图正则项，提出目标函数的表达式为

式中，α和β是大于0的正则化参数。

进一步：所述步骤Ⅴ中，针对目标函数给出了一种有效的封闭解，最终通过优化目标函数，得到优化后的样本聚类矩阵和基因聚类矩阵。

首先，将目标函数展开为以下形式：

当固定V不变时，对上式进行求偏导数并使式子为0，通过线性代数可以计算得到优化后的U^*

简单起见，令U^*＝AXV，其中将U^*代入到目标函数中，得到关于V的函数为

对上式进行数学推导，结果如下

式中，简单起见，利用替代矩阵B代替即：由于B中的所有项都是已知的，关于V的函数可以表示为

因此，优化后的V^*可以通过计算B中最小的k个特征值得到，即：

V^*＝(b₁,b₂,…,b_k),

式中，b₁,b₂,…,b_k是B中最小的k个特征值。

最终，得到优化的样本聚类矩阵V^*和基因聚类矩阵U^*。

进一步：所述步骤Ⅵ中，根据优化后的样本聚类矩阵V^*∈R^n×k和基因聚类矩阵U^*∈R^m×k实现样本聚类和基因聚类。在样本聚类矩阵V^*∈R^n×k的每一个样本(每一行)中，如果第i个列的值是k个类(k个列)中的最大值，则将该样本聚到第i类；在基因聚类矩阵U^*∈R^m×k的每一个基因(每一行)中，如果第j个列的值是k个类(k个列)中的最大值，则将该样本聚到第j类。

与现有技术相比，本发明采用双超图正则化及主成分分析法相结合方式，通过对肿瘤基因表达谱数据的样本和基因分别进行聚类；然后，对肿瘤基因表达谱数据的样本和基因分别建立样本超图和基因超图，来获取样本和基因的固有几何结构；最后，将样本超图和基因超图分别作为主成分分析的样本超图正则项和基因超图正则项，确定优化目标函数，最后通过优化目标函数分别优化样本聚类矩阵和基因聚类矩阵，得到最终的样本聚类和基因聚类。本发明在基于主成分分析法的基础上，通过双超图正则化进行双聚类的优化，从而在保留主成分分析法的优点基础上更好的获取肿瘤基因表达谱数据中的复杂信息，最终提高获得聚类的精确性。

具体实施方式

下面将对本发明做进一步说明。

本发明的具体步骤为：

步骤Ⅱ：根据肿瘤基因表达谱数据的样本构建样本超图；

步骤Ⅲ：根据肿瘤基因表达谱数据的基因构建基因超图；

对于超边e，其权值矩阵W_s(e)定义为

每个超边e的度可以表示为

对于超边e，其权值矩阵W_g(e)定义为

每个超边e的度可以表示为

式中，α和β是大于0的正则化参数。

首先，将目标函数展开为以下形式：

对上式进行数学推导，结果如下

V^*＝(b₁,b₂,…,b_k),

式中，b₁,b₂,…,b_k是B中最小的k个特征值。

最终，得到优化的样本聚类矩阵V^*和基因聚类矩阵U^*。

Claims

1.一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法，其特征在于，具体步骤为：

步骤Ⅱ：根据肿瘤基因表达谱数据的样本构建样本超图；

步骤Ⅲ：根据肿瘤基因表达谱数据的基因构建基因超图；

步骤Ⅶ：根据优化后的样本聚类矩阵和基因聚类矩阵得出最终的样本聚类和基因聚类。

2.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法，其特征在于：所述步骤Ⅰ中，给定肿瘤基因表达谱数据X＝(x₁，x₂，…，x_n)∈R^m×n，其中m为肿瘤基因表达谱数据的基因维数，n为肿瘤基因表达谱数据的样本个数；利用主成分分析法计算得到肿瘤基因表达谱数据X的主成分矩阵U∈R^m×k和样本映射矩阵V∈R^n×k，其中，U中包含k个主成分，V由对X进行映射到k维得到；则主成分分析法的目标函数表示为

式中，V^TV＝I表示样本映射矩阵V是正交矩阵；设肿瘤基因表达谱数据包含k类，则主成分矩阵U和样本映射矩阵V分别被确定为基因聚类矩阵和样本聚类矩阵。

3.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法，其特征在于：所述步骤Ⅱ中，根据给定肿瘤基因表达谱数据X构建样本超图；定义样本超图为G_s＝(V_s,E_s,W_s)，其中V_s是样本顶点的集合，E_s是样本超边的集合，W_s是样本超边的权值矩阵；设关联矩阵为其作用是表示基因超边与基因顶点之间的关系；H_s中的元素定义为

式中，x_·i表示V_s中的第i个顶点，e表示E_s中超边且每一个超边可由多个顶点构成，H_s用来判断第i个顶点是否属于超边e；

对于超边e，其权值矩阵W_s(e)定义为

式中，K是第j个顶点的近邻数目；根据H_s和W_s，每个顶点x_·i∈V_s的度可以表示为

每个超边e的度可以表示为

4.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法，其特征在于：所述步骤Ⅲ中，根据给定肿瘤基因表达谱数据X构建基因超图；定义基因超图为G_g＝(V_g,E_g,W_g)，其中V_g是基因顶点的集合，E_g是基因超边的集合，W_g是基因超边的权值矩阵；设关联矩阵为其作用是表示基因超边与基因顶点之间的关系；H_g中的元素定义为

式中，x_i·表示V_g中的第i个顶点，e表示E_g中超边且每一个超边可由多个顶点构成，H_g用来判断第i个顶点是否属于超边e；

对于超边e，其权值矩阵W_g(e)定义为

式中，K是第j个顶点的近邻数目；根据H_g和W_g，每个顶点x_i·∈V_g的度可以表示为

每个超边e的度可以表示为

5.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法，其特征在于：所述步骤Ⅳ中，将得到样本超图和基因超图分别作为主成分分析的样本超图正则项和基因超图正则项，提出优化目标函数的表达式为

式中，α和β是大于0的正则化参数。

6.根据权利要求1所述一种基于双超图正则化主成分分析的肿瘤基因表达谱数据双聚类方法，其特征在于：所述步骤Ⅴ中，首先，将目标函数展开为以下形式：

当固定V不变时，对上式进行求偏导数并使式子为0，通过线性代数计算得到优化后的U^*

令U^*＝AXV，其中将U^*代入到目标函数中，得到关于V的函数为

对上式进行数学推导，结果如下

式中，利用替代矩阵B代替即：由于B中的所有项都是已知的，关于V的函数表示为

因此，优化后的V^*通过计算B中最小的k个特征值得到，即：

V^*＝(b₁,b₂,…,b_k),

式中，b₁,b₂,…,b_k是B中最小的k个特征值；

最终，得到优化的样本聚类矩阵V^*和基因聚类矩阵U^*。

7.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法，其特征在于：所述步骤Ⅵ中，在样本聚类矩阵V^*∈R^n×k的每一个样本中，如果第i个列的值是k个类中的最大值，则将该样本聚到第i类；在基因聚类矩阵U^*∈R^m×k的每一个基因中，如果第j个列的值是k个类中的最大值，则将该样本聚到第j类，最终完成样本聚类和基因聚类。