CN109215741A - 基于双超图正则化的肿瘤基因表达谱数据双聚类方法 - Google Patents

基于双超图正则化的肿瘤基因表达谱数据双聚类方法 Download PDF

Info

Publication number
CN109215741A
CN109215741A CN201810948044.5A CN201810948044A CN109215741A CN 109215741 A CN109215741 A CN 109215741A CN 201810948044 A CN201810948044 A CN 201810948044A CN 109215741 A CN109215741 A CN 109215741A
Authority
CN
China
Prior art keywords
sample
matrix
hypergraph
gene
oncogene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810948044.5A
Other languages
English (en)
Other versions
CN109215741B (zh
Inventor
王雪松
刘健
程玉虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201810948044.5A priority Critical patent/CN109215741B/zh
Publication of CN109215741A publication Critical patent/CN109215741A/zh
Application granted granted Critical
Publication of CN109215741B publication Critical patent/CN109215741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,通过对肿瘤基因表达谱数据的样本和基因分别进行聚类;然后,对肿瘤基因表达谱数据的样本和基因分别建立样本超图和基因超图,来获取样本和基因的固有几何结构;最后,将样本超图和基因超图分别作为主成分分析的样本超图正则项和基因超图正则项,确定优化目标函数,最后通过优化目标函数分别优化样本聚类矩阵和基因聚类矩阵,得到最终的样本聚类和基因聚类。本发明在基于主成分分析法的基础上,通过双超图正则化进行双聚类的优化,从而在保留主成分分析法的优点基础上更好的获取肿瘤基因表达谱数据中的复杂信息,最终提高获得聚类的精确性。

Description

基于双超图正则化的肿瘤基因表达谱数据双聚类方法
技术领域
本发明涉及一种肿瘤基因表达谱数据双聚类方法,具体是一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法。
背景技术
到目前为止,已经有超过100种不同的肿瘤危及人类健康。肿瘤基因表达谱数据中的样本类型可以通过肿瘤细胞中基因活性的分子模式来区分。近年来,随着DNA微阵列技术的快速发展,研究者能够同时观测数千个基因的表达水平,这样可以更加全面的研究肿瘤基因表达谱数据。当前的分子生物学的挑战是如何挖掘这些肿瘤基因表达谱数据中蕴含的重要信息,以了解肿瘤的生物过程和发生机理。由于模式识别和机器学习的发展,提出了许多有效的方法来分析肿瘤基因表达谱数据,其中,聚类是一类用于发现肿瘤基因表达谱数据中具有相似分子表达模式的样本或基因的典型算法。
许多传统的聚类方法,比如层次聚类,自组织映射,非负矩阵分解和主成分分析等已经成功应用于肿瘤基因表达谱数据聚类。层次聚类已成功应用于分析全基因组表达模式,识别不同类型的淋巴瘤等,然而,层次聚类的缺点是它对度量非常敏感,并且通常需要定义集群。自组织映射已成功用于识别白血病的亚型,但是由于自组织映射基于初始条件获得肿瘤基因表达谱数据的矩阵分解,因此其结果通常不稳定。通过实验对比,有学者证明了非负矩阵分解在肿瘤基因表达谱数据聚类中比层次聚类和自组织映射有更好的聚类精度和更稳定的实验结果。迄今为止,许多基于非负矩阵分解的算法提了出来分析肿瘤基因表达谱数据,例如稀疏非负矩阵分解方法,多图正则化非负矩阵分解方法,半监督非负矩阵分解方法等等。虽然基于非负矩阵分解的方法成功用于肿瘤基因表达谱数据聚类中,但是非负矩阵分解仅能处理非负的数据,这限制了其应用范围,比如,肿瘤基因表达谱数据中的负值也有相应的生物学含义,非负矩阵分解在处理肿瘤基因表达谱数据时忽略了这些有意义的负值。主成分分析是一种经典的降维算法,尽管是非凸的,它可以通过对数据计算奇异值分解得到全局最优解和很好的低秩表示。此外,主成分分析对所有数据类型都适用,因此,它被广泛应用到肿瘤基因表达谱数据聚类中。
上述方法都成功应用到了肿瘤基因表达谱数据聚类中,但是,这些传统聚类方法仅对样本进行聚类或者仅对基因进行聚类。在肿瘤基因表达谱数据中,样本可以根据它们在基因上的分布进行聚类,而基因可以根据它们在样本上的分布进行聚类。近年来,双聚类方法引起了越来越多的关注,并且许多双聚类算法被证明优于单侧聚类方法。比如,有学者提出三因子正交非负矩阵分解同时对数据的行和列进行聚类。
传统的双聚类算法都是基于非负矩阵分解的双聚类算法,目前也有利用主成分分析对肿瘤基因表达谱数据进行双聚类。假设高维空间中的所有数据点都位于多个低维线性子空间的组合上,则主成分分析方法可以很容易地获取数据中的低维结构。然而,在现实世界的数据集中,这种假设是无法保证的。例如,有学者通过将图正则化方法嵌入到非负矩阵分解中,在处理肿瘤基因表达谱数据中获得了比直接利用非负矩阵分解更好的结果,这表明高维基因表达数据可由非线性低维流型中采样得到。在这种情况下,主成分分析方法无法挖掘现实世界数据的固有几何结构。通常利用流形学习方法来获得数据的局部几何结构,例如局部线性嵌入,局部保持投影和拉普拉斯特征图。所有这些方法都启发于局部不变性的思想来估计数据中未知流型结构的几何特性和拓扑特性。假设如果两个数据点在本征流型结构中彼此靠近,那么它们在变换后的空间中的表示也应该相近的。图正则化的方法是一种常用的方法来考虑数据的局部流型结构。例如,已经提出的一种图正则化稀疏编码方法,用于进行稀疏表示。在传统的图模型中,每条边连接两个顶点,而超图是图的泛化形式,它的每条边链接的是多个顶点(超边)。也就是说,具有相似特征的顶点可以由一条超边表示,通过这种方法可以更好地获取数据中多个顶点间的复杂信息。对于聚类问题,将两个或多个数据点一起考虑是十分有必要的,这可以确定它们是否属于同一个类。因此,超图越来越引人瞩目。基于正则化的方法已被用于分析肿瘤基因表达谱数据,然而,超图在分析肿瘤基因表达谱数据中并未被运用,因此如何将超图和正则化结构后通过主成分分析的方式进行肿瘤基因表达谱数据双聚类是本行业亟需解决的问题。
发明内容
针对上述现有技术存在的问题,本发明提供一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,在保留主成分分析法的优点基础上更好的获取肿瘤基因表达谱数据中的复杂信息,从而提高获得聚类的精确性。
为了实现上述目的,本发明采用的技术方案是:一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,具体步骤为:
步骤Ⅰ:将肿瘤基因表达谱数据采用主成分分析方法分解为基因聚类矩阵和样本聚类矩阵;
步骤Ⅱ:根据肿瘤基因表达谱数据的样本构建样本超图;
步骤Ⅲ:根据肿瘤基因表达谱数据的基因构建基因超图;
步骤Ⅳ:将样本超图和基因超图作为分别作为主成分分析的样本超图正则项和基因超图正则项,确定优化目标函数的形式;
步骤Ⅴ:通过优化目标函数对步骤Ⅰ的样本聚类矩阵和基因聚类矩阵进行优化,得到优化后的样本聚类矩阵和基因聚类矩阵;
步骤Ⅶ:根据优化后的样本聚类矩阵和基因聚类矩阵实现样本聚类和基因聚类。
进一步:所述步骤Ⅰ中,给定肿瘤基因表达谱数据X=(x1,x2,…,xn)∈Rm×n,其中m为肿瘤基因表达谱数据的基因维数,n为肿瘤基因表达谱数据的样本个数。利用主成分分析法可以计算得到肿瘤基因表达谱数据X的主成分矩阵U∈Rm×k和样本映射矩阵V∈Rn×k,其中,U中包含k个主成分,V由对X进行映射到k维得到。则主成分分析法的目标函数可以表示为
式中,VTV=I表示样本映射矩阵V是正交矩阵。假设肿瘤基因表达谱数据包含k类,则可以根据优化后的主成分矩阵U进行基因聚类,根据优化后的样本映射矩阵V进行样本聚类,方便起见,主成分矩阵U和样本映射矩阵V被称为基因聚类矩阵和样本聚类矩阵。
进一步:所述步骤Ⅱ中,根据给定肿瘤基因表达谱数据X构建样本超图来更好地挖掘样本之间的复杂关系和固有几何结构。定义样本超图为Gs=(Vs,Es,Ws),其中Vs是样本顶点的集合,Es是样本超边的集合,Ws是样本超边的权值矩阵。设关联矩阵为其作用是表示样本超边与样本顶点之间的关系。Hs中的元素定义为
式中,x·i表示Vs中的第i个顶点,e表示Es中超边且每一个超边可由多个顶点构成,Hs用来判断第i个顶点是否属于超边e。
对于超边e,其权值矩阵Ws(e)定义为
式中,K是第j个顶点的近邻数目。根据Hs和Ws,每个顶点x·i∈Vs的度可以表示为
每个超边e的度可以表示为
定义Dxs、Des和DWs分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵,建立样本超图的拉普拉斯矩阵
进一步:所述步骤Ⅲ中,根据给定肿瘤基因表达谱数据X构建基因超图来更好地挖掘基因之间的复杂关系和固有几何结构。定义基因超图为Gg=(Vg,Eg,Wg),其中Vg是基因顶点的集合,Eg是基因超边的集合,Wg是基因超边的权值矩阵。设关联矩阵为其作用是表示基因超边与基因顶点之间的关系。Hg中的元素定义为
式中,x表示Vg中的第i个顶点,e表示Eg中超边且每一个超边可由多个顶点构成,Hg用来判断第i个顶点是否属于超边e。
对于超边e,其权值矩阵Wg(e)定义为
式中,K是第j个顶点的近邻数目。根据Hg和Wg,每个顶点x∈Vg的度可以表示为
每个超边e的度可以表示为
定义Dxg、Deg和DWg分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵,建立样本超图的拉普拉斯矩阵
进一步:所述步骤Ⅳ中,将得到样本超图和基因超图作为分别作为主成分分析的样本超图正则项和基因超图正则项,提出目标函数的表达式为
式中,α和β是大于0的正则化参数。
进一步:所述步骤Ⅴ中,针对目标函数给出了一种有效的封闭解,最终通过优化目标函数,得到优化后的样本聚类矩阵和基因聚类矩阵。
首先,将目标函数展开为以下形式:
当固定V不变时,对上式进行求偏导数并使式子为0,通过线性代数可以计算得到优化后的U*
简单起见,令U*=AXV,其中将U*代入到目标函数中,得到关于V的函数为
对上式进行数学推导,结果如下
式中,简单起见,利用替代矩阵B代替即:由于B中的所有项都是已知的,关于V的函数可以表示为
因此,优化后的V*可以通过计算B中最小的k个特征值得到,即:
V*=(b1,b2,…,bk),
式中,b1,b2,…,bk是B中最小的k个特征值。
最终,得到优化的样本聚类矩阵V*和基因聚类矩阵U*
进一步:所述步骤Ⅵ中,根据优化后的样本聚类矩阵V*∈Rn×k和基因聚类矩阵U*∈Rm×k实现样本聚类和基因聚类。在样本聚类矩阵V*∈Rn×k的每一个样本(每一行)中,如果第i个列的值是k个类(k个列)中的最大值,则将该样本聚到第i类;在基因聚类矩阵U*∈Rm×k的每一个基因(每一行)中,如果第j个列的值是k个类(k个列)中的最大值,则将该样本聚到第j类。
与现有技术相比,本发明采用双超图正则化及主成分分析法相结合方式,通过对肿瘤基因表达谱数据的样本和基因分别进行聚类;然后,对肿瘤基因表达谱数据的样本和基因分别建立样本超图和基因超图,来获取样本和基因的固有几何结构;最后,将样本超图和基因超图分别作为主成分分析的样本超图正则项和基因超图正则项,确定优化目标函数,最后通过优化目标函数分别优化样本聚类矩阵和基因聚类矩阵,得到最终的样本聚类和基因聚类。本发明在基于主成分分析法的基础上,通过双超图正则化进行双聚类的优化,从而在保留主成分分析法的优点基础上更好的获取肿瘤基因表达谱数据中的复杂信息,最终提高获得聚类的精确性。
具体实施方式
下面将对本发明做进一步说明。
本发明的具体步骤为:
步骤Ⅰ:将肿瘤基因表达谱数据采用主成分分析方法分解为基因聚类矩阵和样本聚类矩阵;
步骤Ⅱ:根据肿瘤基因表达谱数据的样本构建样本超图;
步骤Ⅲ:根据肿瘤基因表达谱数据的基因构建基因超图;
步骤Ⅳ:将样本超图和基因超图作为分别作为主成分分析的样本超图正则项和基因超图正则项,确定优化目标函数的形式;
步骤Ⅴ:通过优化目标函数对步骤Ⅰ的样本聚类矩阵和基因聚类矩阵进行优化,得到优化后的样本聚类矩阵和基因聚类矩阵;
步骤Ⅶ:根据优化后的样本聚类矩阵和基因聚类矩阵实现样本聚类和基因聚类。
进一步:所述步骤Ⅰ中,给定肿瘤基因表达谱数据X=(x1,x2,…,xn)∈Rm×n,其中m为肿瘤基因表达谱数据的基因维数,n为肿瘤基因表达谱数据的样本个数。利用主成分分析法可以计算得到肿瘤基因表达谱数据X的主成分矩阵U∈Rm×k和样本映射矩阵V∈Rn×k,其中,U中包含k个主成分,V由对X进行映射到k维得到。则主成分分析法的目标函数可以表示为
式中,VTV=I表示样本映射矩阵V是正交矩阵。假设肿瘤基因表达谱数据包含k类,则可以根据优化后的主成分矩阵U进行基因聚类,根据优化后的样本映射矩阵V进行样本聚类,方便起见,主成分矩阵U和样本映射矩阵V被称为基因聚类矩阵和样本聚类矩阵。
进一步:所述步骤Ⅱ中,根据给定肿瘤基因表达谱数据X构建样本超图来更好地挖掘样本之间的复杂关系和固有几何结构。定义样本超图为Gs=(Vs,Es,Ws),其中Vs是样本顶点的集合,Es是样本超边的集合,Ws是样本超边的权值矩阵。设关联矩阵为其作用是表示样本超边与样本顶点之间的关系。Hs中的元素定义为
式中,x·i表示Vs中的第i个顶点,e表示Es中超边且每一个超边可由多个顶点构成,Hs用来判断第i个顶点是否属于超边e。
对于超边e,其权值矩阵Ws(e)定义为
式中,K是第j个顶点的近邻数目。根据Hs和Ws,每个顶点x·i∈Vs的度可以表示为
每个超边e的度可以表示为
定义Dxs、Des和DWs分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵,建立样本超图的拉普拉斯矩阵
进一步:所述步骤Ⅲ中,根据给定肿瘤基因表达谱数据X构建基因超图来更好地挖掘基因之间的复杂关系和固有几何结构。定义基因超图为Gg=(Vg,Eg,Wg),其中Vg是基因顶点的集合,Eg是基因超边的集合,Wg是基因超边的权值矩阵。设关联矩阵为其作用是表示基因超边与基因顶点之间的关系。Hg中的元素定义为
式中,x表示Vg中的第i个顶点,e表示Eg中超边且每一个超边可由多个顶点构成,Hg用来判断第i个顶点是否属于超边e。
对于超边e,其权值矩阵Wg(e)定义为
式中,K是第j个顶点的近邻数目。根据Hg和Wg,每个顶点x∈Vg的度可以表示为
每个超边e的度可以表示为
定义Dxg、Deg和DWg分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵,建立样本超图的拉普拉斯矩阵
进一步:所述步骤Ⅳ中,将得到样本超图和基因超图作为分别作为主成分分析的样本超图正则项和基因超图正则项,提出目标函数的表达式为
式中,α和β是大于0的正则化参数。
进一步:所述步骤Ⅴ中,针对目标函数给出了一种有效的封闭解,最终通过优化目标函数,得到优化后的样本聚类矩阵和基因聚类矩阵。
首先,将目标函数展开为以下形式:
当固定V不变时,对上式进行求偏导数并使式子为0,通过线性代数可以计算得到优化后的U*
简单起见,令U*=AXV,其中将U*代入到目标函数中,得到关于V的函数为
对上式进行数学推导,结果如下
式中,简单起见,利用替代矩阵B代替即:由于B中的所有项都是已知的,关于V的函数可以表示为
因此,优化后的V*可以通过计算B中最小的k个特征值得到,即:
V*=(b1,b2,…,bk),
式中,b1,b2,…,bk是B中最小的k个特征值。
最终,得到优化的样本聚类矩阵V*和基因聚类矩阵U*
进一步:所述步骤Ⅵ中,根据优化后的样本聚类矩阵V*∈Rn×k和基因聚类矩阵U*∈Rm×k实现样本聚类和基因聚类。在样本聚类矩阵V*∈Rn×k的每一个样本(每一行)中,如果第i个列的值是k个类(k个列)中的最大值,则将该样本聚到第i类;在基因聚类矩阵U*∈Rm×k的每一个基因(每一行)中,如果第j个列的值是k个类(k个列)中的最大值,则将该样本聚到第j类。

Claims (7)

1.一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,其特征在于,具体步骤为:
步骤Ⅰ:将肿瘤基因表达谱数据采用主成分分析方法分解为基因聚类矩阵和样本聚类矩阵;
步骤Ⅱ:根据肿瘤基因表达谱数据的样本构建样本超图;
步骤Ⅲ:根据肿瘤基因表达谱数据的基因构建基因超图;
步骤Ⅳ:将样本超图和基因超图作为分别作为主成分分析的样本超图正则项和基因超图正则项,确定优化目标函数的形式;
步骤Ⅴ:通过优化目标函数对步骤Ⅰ的样本聚类矩阵和基因聚类矩阵进行优化,得到优化后的样本聚类矩阵和基因聚类矩阵;
步骤Ⅶ:根据优化后的样本聚类矩阵和基因聚类矩阵得出最终的样本聚类和基因聚类。
2.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,其特征在于:所述步骤Ⅰ中,给定肿瘤基因表达谱数据X=(x1,x2,…,xn)∈Rm×n,其中m为肿瘤基因表达谱数据的基因维数,n为肿瘤基因表达谱数据的样本个数;利用主成分分析法计算得到肿瘤基因表达谱数据X的主成分矩阵U∈Rm×k和样本映射矩阵V∈Rn×k,其中,U中包含k个主成分,V由对X进行映射到k维得到;则主成分分析法的目标函数表示为
式中,VTV=I表示样本映射矩阵V是正交矩阵;设肿瘤基因表达谱数据包含k类,则主成分矩阵U和样本映射矩阵V分别被确定为基因聚类矩阵和样本聚类矩阵。
3.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,其特征在于:所述步骤Ⅱ中,根据给定肿瘤基因表达谱数据X构建样本超图;定义样本超图为Gs=(Vs,Es,Ws),其中Vs是样本顶点的集合,Es是样本超边的集合,Ws是样本超边的权值矩阵;设关联矩阵为其作用是表示基因超边与基因顶点之间的关系;Hs中的元素定义为
式中,x·i表示Vs中的第i个顶点,e表示Es中超边且每一个超边可由多个顶点构成,Hs用来判断第i个顶点是否属于超边e;
对于超边e,其权值矩阵Ws(e)定义为
式中,K是第j个顶点的近邻数目;根据Hs和Ws,每个顶点x·i∈Vs的度可以表示为
每个超边e的度可以表示为
定义Dxs、Des和DWs分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵,建立样本超图的拉普拉斯矩阵
4.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,其特征在于:所述步骤Ⅲ中,根据给定肿瘤基因表达谱数据X构建基因超图;定义基因超图为Gg=(Vg,Eg,Wg),其中Vg是基因顶点的集合,Eg是基因超边的集合,Wg是基因超边的权值矩阵;设关联矩阵为其作用是表示基因超边与基因顶点之间的关系;Hg中的元素定义为
式中,x表示Vg中的第i个顶点,e表示Eg中超边且每一个超边可由多个顶点构成,Hg用来判断第i个顶点是否属于超边e;
对于超边e,其权值矩阵Wg(e)定义为
式中,K是第j个顶点的近邻数目;根据Hg和Wg,每个顶点x∈Vg的度可以表示为
每个超边e的度可以表示为
定义Dxg、Deg和DWg分别为顶点的度的对角矩阵、超边的度的对角矩阵和超边权值的对角矩阵,建立样本超图的拉普拉斯矩阵
5.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,其特征在于:所述步骤Ⅳ中,将得到样本超图和基因超图分别作为主成分分析的样本超图正则项和基因超图正则项,提出优化目标函数的表达式为
式中,α和β是大于0的正则化参数。
6.根据权利要求1所述一种基于双超图正则化主成分分析的肿瘤基因表达谱数据双聚类方法,其特征在于:所述步骤Ⅴ中,首先,将目标函数展开为以下形式:
当固定V不变时,对上式进行求偏导数并使式子为0,通过线性代数计算得到优化后的U*
令U*=AXV,其中将U*代入到目标函数中,得到关于V的函数为
对上式进行数学推导,结果如下
式中,利用替代矩阵B代替即:由于B中的所有项都是已知的,关于V的函数表示为
因此,优化后的V*通过计算B中最小的k个特征值得到,即:
V*=(b1,b2,…,bk),
式中,b1,b2,…,bk是B中最小的k个特征值;
最终,得到优化的样本聚类矩阵V*和基因聚类矩阵U*
7.根据权利要求1所述一种基于双超图正则化的肿瘤基因表达谱数据双聚类方法,其特征在于:所述步骤Ⅵ中,在样本聚类矩阵V*∈Rn×k的每一个样本中,如果第i个列的值是k个类中的最大值,则将该样本聚到第i类;在基因聚类矩阵U*∈Rm×k的每一个基因中,如果第j个列的值是k个类中的最大值,则将该样本聚到第j类,最终完成样本聚类和基因聚类。
CN201810948044.5A 2018-08-20 2018-08-20 基于双超图正则化的肿瘤基因表达谱数据双聚类方法 Active CN109215741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810948044.5A CN109215741B (zh) 2018-08-20 2018-08-20 基于双超图正则化的肿瘤基因表达谱数据双聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810948044.5A CN109215741B (zh) 2018-08-20 2018-08-20 基于双超图正则化的肿瘤基因表达谱数据双聚类方法

Publications (2)

Publication Number Publication Date
CN109215741A true CN109215741A (zh) 2019-01-15
CN109215741B CN109215741B (zh) 2022-02-08

Family

ID=64988766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810948044.5A Active CN109215741B (zh) 2018-08-20 2018-08-20 基于双超图正则化的肿瘤基因表达谱数据双聚类方法

Country Status (1)

Country Link
CN (1) CN109215741B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797089A (zh) * 2019-10-30 2020-02-14 华东交通大学 一种基于单细胞rna测序数据识别细胞类型的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024036A (zh) * 2010-11-29 2011-04-20 清华大学 基于超图的三维对象检索方法和装置
CN103544697A (zh) * 2013-09-30 2014-01-29 南京信息工程大学 一种基于超图谱分析的图像分割方法
CN106529165A (zh) * 2016-10-28 2017-03-22 合肥工业大学 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024036A (zh) * 2010-11-29 2011-04-20 清华大学 基于超图的三维对象检索方法和装置
CN103544697A (zh) * 2013-09-30 2014-01-29 南京信息工程大学 一种基于超图谱分析的图像分割方法
CN106529165A (zh) * 2016-10-28 2017-03-22 合肥工业大学 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
殷路: "基因表达数据的双聚类分析与研究", 《中国博士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797089A (zh) * 2019-10-30 2020-02-14 华东交通大学 一种基于单细胞rna测序数据识别细胞类型的方法
CN110797089B (zh) * 2019-10-30 2023-05-16 华东交通大学 一种基于单细胞rna测序数据识别细胞类型的方法

Also Published As

Publication number Publication date
CN109215741B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
Maji et al. Rough-fuzzy clustering for grouping functionally similar genes from microarray data
Kaytoue et al. Mining gene expression data with pattern structures in formal concept analysis
Nikkilä et al. Analysis and visualization of gene expression data using self-organizing maps
Hanczar et al. Ensemble methods for biclustering tasks
Maulik et al. Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data
Hanczar et al. Using the bagging approach for biclustering of gene expression data
Hussain et al. Biclustering of human cancer microarray data using co-similarity based co-clustering
Zhang et al. SCCLRR: a robust computational method for accurate clustering single cell RNA-seq data
Mabu et al. Mining gene expression data using data mining techniques: A critical review
CN109376790A (zh) 一种基于渗流分析的二元分类方法
CN103559642A (zh) 基于云计算的金融数据挖掘方法
Peña-Malavera et al. Comparison of algorithms to infer genetic population structure from unlinked molecular markers
CN109378039A (zh) 基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法
Carrieri et al. A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes
CN109215741A (zh) 基于双超图正则化的肿瘤基因表达谱数据双聚类方法
Fernandez et al. Improving cluster visualization in self-organizing maps: Application in gene expression data analysis
CN105335626A (zh) 一种基于网络分析的群lasso特征分群方法
Sarmiento et al. Pathway-based human disease clustering tool using self-organizing maps
Tian et al. scMelody: an enhanced consensus-based clustering model for single-cell methylation data by reconstructing cell-to-cell similarity
Liu et al. Detection of cell types from single-cell RNA-seq data using similarity via kernel preserving learning embedding
Naghieh et al. Microarray gene expression data mining: clustering analysis review
Mitra et al. Spatial Analysis of Tumor Heterogeneity Using Machine Learning Techniques
Padma et al. A modified algorithm for clustering based on particle swarm optimization and K-means
Sirbu et al. A dynamic approach for hierarchical clustering of gene expression data
Rodríguez-Casado et al. A priori groups based on Bhattacharyya distance and partitioning around medoids algorithm (PAM) with applications to metagenomics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant