CN110826635B - 基于整合非负矩阵分解的样本聚类和特征识别方法 - Google Patents

基于整合非负矩阵分解的样本聚类和特征识别方法 Download PDF

Info

Publication number
CN110826635B
CN110826635B CN201911097681.7A CN201911097681A CN110826635B CN 110826635 B CN110826635 B CN 110826635B CN 201911097681 A CN201911097681 A CN 201911097681A CN 110826635 B CN110826635 B CN 110826635B
Authority
CN
China
Prior art keywords
matrix
data
sample
feature
constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911097681.7A
Other languages
English (en)
Other versions
CN110826635A (zh
Inventor
代凌云
刘金星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qufu Normal University
Original Assignee
Qufu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qufu Normal University filed Critical Qufu Normal University
Priority to CN201911097681.7A priority Critical patent/CN110826635B/zh
Publication of CN110826635A publication Critical patent/CN110826635A/zh
Application granted granted Critical
Publication of CN110826635B publication Critical patent/CN110826635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基于整合非负矩阵分解的样本聚类和特征识别方法。1.X={X1,X2…XP}表示由同一种癌症的P个不同组学数据矩阵构成的多视图数据;2.构造对角矩阵Q;3.在整合非负矩阵分解框架中引入图正则和稀疏约束,得到目标函数O1和O2;4.求解目标函数O1,得到融合特征矩阵W和系数矩阵HI;求解目标函数O2,得到特征矩阵WI和融合样本矩阵H;5.根据融合特征矩阵W,构造评价向量
Figure DDA0002268836050000011
根据向量
Figure DDA0002268836050000012
辨识共差异特征;6.利用GeneCards对辨识的共差异特征进行功能解释;7.根据融合样本矩阵
Figure DDA0002268836050000013
进行样本聚类分析。本发明能够充分利用多组学数据的互补和差异性信息辨识共差异特征,并能够对多组学数据提供的样本数据进行聚类分析,为整合研究不同类型的组学数据提供计算方法上的依据。

Description

基于整合非负矩阵分解的样本聚类和特征识别方法
技术领域
本发明公开一种基于整合非负矩阵分解的样本聚类和特征识别方法,属于模式识别技术领域,可对多组学数据进行整合分析,为不同类型的异质性数据的整合提供方法上的依据。
背景技术
随着测序技术的发展,生物信息学面临多种多样的组学大数据的分析任务。海量组学数据的出现,为生物信息学研究者提供了丰富的数据来源,使研究者可以从不同的生物学层面进行研究。有效地对这些数据进行处理、分析和挖掘,才能充分发挥数据的价值。以往的研究多是关于针对单一组学数据(如基因表达谱)的分析,很少考虑不同组学数据之间的关联性和差异性。多组学数据的整合分析可以补偿任何单一组学数据中丢失或不可靠的信息,但是不同类型的组学数据具有不同的观测尺度和单位,不能简单汇总起来研究。多组学数据的整合分析需要同时处理来自不同平台的不同类型的数据,它们服从不同的统计分布,具有不同的语义。现有的多组学数据的整合分析方法可以分为基于数据的整合分析方法和基于模型的整合分析方法两大类。基于数据的整合分析方法是在构建整合模型之前,将来自相同样本的多个组学数据整合到一个矩阵中,这种方法的优势是可以利用现有的数据挖掘方法来处理,能够描述不同类型的数据之间的关联信息。基于模型的整合分析方法主要包括贝叶斯方法、矩阵分解的方法、基于网络的方法、基于核的方法等。其中基于矩阵分解的多组学数据整合分析方法是近年来的一个研究热点。Zhang等人提出了一种联合非负矩阵分解模型(jNMF)用于多组学数据的整合分析,将多组学数据投影到公共基空间,探索数据之间的相干模式;Yang等人提出整合非负矩阵分解模型(iNMF)挖掘跟卵巢癌发生密切相关的基因模块。现有的基于矩阵分解的方法在多组学数据整合分析方面取得了成功的应用,得到了大量有意义的发现。但是仍然存在一些不足,例如:研究发现,现实数据通常嵌入在高维空间中的低维流形上,如何充分利用这些低维特征发现观测数据的内在规律,提高整合分析方法的性能还需要进一步研究;现有的算法容易受到多组学数据中噪声和冗余信息的影响,如何充分利用异质性数据的互补性和差异性,提高算法的鲁棒性也需要进一步研究。
发明内容
发明目的:针对已有的多组学数据整合分析方法的不足,提出了一种基于稀疏和图正则约束整合非负矩阵分解的多组学数据聚类和特征识别分析方法(SG-jNMF)。在非负矩阵分解的目标函数中引入了图正则约束反映观测数据的内在规律,提高算法识别的准确性;引入L2,1范数稀疏约束提高算法对异常值和噪声的鲁棒性,设计合理的数据整合框架和优化求解方案,充分利用多组学数据提供的互补和差异性信息,将来自不同观测平台、不同类型的异质性多组学数据进行有效整合。技术思路:受已有的整合矩阵分解启发,首先在整合非负矩阵分解模型中引入图正则约束,利用观测数据的低维特征发现其内在规律,提高整合分析方法的性能;其次在整合分析模型中引入L2,1范数约束,提高算法的鲁棒性,最终形成稀疏和图正则约束整合非负矩阵分解的目标函数。该整合矩阵分析方法可以利用图正则和L2,1范数约束特征矩阵,并将多组学数据投影到公共的特征空间,利用得到的融合特征矩阵辨识共差异特征;该方法还可以利用图正则和L2,1范数约束样本矩阵,并将多组学数据投影到公共的样本空间,进行样本的聚类分析。实现方案如下:
一种基于整合非负矩阵分解的样本聚类和特征识别方法,其特征在于包括如下步骤:
(1)将多组学数据进行预处理:以矩阵形式记录这些数据,将多组学数据的特征看作变量,采集这些特征的个体看作样本,由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵XI∈Rm×n{I=1,…P},X={X1,X2…XP}表示由P个不同组学数据矩阵构成的多视图数据,将X中的所有元素都归一化到(0,1)上;
(2)将多组学数据投影到公共的特征空间:对特征矩阵W和载荷矩阵HI进行非负约束,对特征矩阵W进行图正则约束,保留原始组学数据的内在几何信息;并利用L2,1范数约束特征矩阵W来减小异常值和噪声的影响,构建整合非负矩阵分解的目标函数:
Figure BDA0002268836030000021
其中,W为融合特征矩阵,HI为载荷矩阵,LI为图拉普拉斯矩阵,|| ||2,1表示矩阵的L2,1范数,Tr(·)表示矩阵的迹,λI表示图正则约束项Tr(WLIWT)的权重,β表示稀疏约束项的权重,λI和β均为正数;
将多组学数据投影到公共的样本空间:对特征矩阵WI和载荷矩阵H进行非负约束,对载荷矩阵H进行图正则约束,保留原始组学数据的内在几何信息;并利用L2,1范数约束载荷矩阵H来减小异常值和噪声的影响,构建整合非负矩阵分解的目标函数:
Figure BDA0002268836030000022
其中,WI为特征矩阵,H为融合样本矩阵
(3)对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O1进行优化求解,实现对非负矩阵XI∈Rm×n进行分解,得到相应的融合特征矩阵
Figure BDA0002268836030000031
和载荷矩阵
Figure BDA0002268836030000032
其中
Figure BDA0002268836030000033
表示将多组学数据投影到一个公共特征空间得到的融合特征矩阵,其中wi表示第i个样本包含所有的组学数据信息,
Figure BDA0002268836030000034
表示低维实数空间Rm×K中全体非负矩阵构成的子集,m为基因的个数,K为降维的维数;
Figure BDA0002268836030000035
为各组学数据的系数矩阵,
Figure BDA0002268836030000036
表示实数空间Rn×K中全体非负矩阵构成的子集,n为样本的个数;对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O2进行优化求解,得到相应的特征矩阵
Figure BDA0002268836030000037
和融合样本矩阵
Figure BDA0002268836030000038
其中
Figure BDA0002268836030000039
表示各组学数据的特征矩阵,其中wIi表示第i个样本包含所有的组学数据信息;
Figure BDA00022688360300000310
表示将多组学数据投影到一个公共样本空间得到的融合样本矩阵;
(4)根据目标函数O1分解得到的融合特征矩阵
Figure BDA00022688360300000311
构造评价向量
Figure BDA00022688360300000312
(5)对向量
Figure BDA00022688360300000313
中的元素按照降序排列,由于向量
Figure BDA00022688360300000314
中元素值越大,对特征构成的优化超平面影响越大。因此,向量
Figure BDA00022688360300000315
中较大幅度的元素被辨识为共差异特征;
(6)利用GeneCards数据库对辨识的差异特征进行功能解释;
(7)对根据目标函数O2进行优化求解得到的融合样本矩阵
Figure BDA00022688360300000316
进行聚类分析。
特别地,步骤(3)中,目标函数O1的优化求解包括如下步骤:
3a)将融合特征矩阵
Figure BDA00022688360300000317
和载荷矩阵
Figure BDA00022688360300000318
中的元素全部初始化为(0,1)之间的随机数;
3b)选择降维维数K的值,图正则约束权重λ,稀疏约束权重β;
3c)设定最大迭代次数,利用迭代公式
Figure BDA00022688360300000319
更新融合特征矩阵
Figure BDA00022688360300000320
中的元素Wia,其中Q∈Rn×n为对角阵,其对角元素为
Figure BDA00022688360300000321
ε为无穷小的正数,利用
Figure BDA0002268836030000041
更新系数矩阵HI中的元素HIaj,其中i=1,2,…,m,j=1,2,…,n,k=1,2,…,K,UI为图正则约束中构造的权重矩阵,
Figure BDA0002268836030000042
为对称阵,DI为对角阵,且其对角线元素
Figure BDA0002268836030000043
采用交替更新融合特征矩阵W和系数矩阵HI的方法,得到局部最优解;
3d)算法收敛后得到融合特征矩阵
Figure BDA0002268836030000044
和系数矩阵HI
特别地,步骤(3)中,目标函数O2的优化求解包括如下步骤:
3i)将特征矩阵
Figure BDA0002268836030000045
和融合样本矩阵
Figure BDA0002268836030000046
中的元素全部初始化为(0,1)之间的随机数;
3ii)选择降维维数K的值,图正则约束权重λ,稀疏约束权重β;
3iii)设定最大迭代次数,利用迭代公式
Figure BDA0002268836030000047
更新特征矩阵
Figure BDA0002268836030000048
中的元素WIia,利用
Figure BDA0002268836030000049
更新融合样本矩阵H中的元素Haj,采用交替更新特征矩阵WI和融合样本矩阵H的方法,得到局部最优解;
3iv)算法收敛后得到特征矩阵WI和融合样本矩阵H。
本发明具有以下优点:
本发明将图正则约束引入整合矩阵分解的目标函数中,能够利用数据的低维特征发现观测数据的内在规律,提高整合分析方法的性能;利用L2,1范数约束减小了癌症多组学数据集中异常值和噪声的影响,提高了算法的鲁棒性。该方法充分利用了异质性多组学数据的互补性和差异性,两种形式的目标函数可以将多组学数据投影到公共的特征空间,来辨识共差异特征;还可以将多组学数据投影到公共的样本空间,对数据进行样本聚类分析。
附图说明
图1为本发明的流程图;
图2为本发明SG-jNMF中参数降维之后的维数K的值对算法性能的影响,图2说明参数K选择的依据;
图3为图正则约束权重λ对辨识误差的影响,图3说明参数λ选择的依据;
图4为稀疏约束权重β对算法性能的影响,参数β选择的依据。
具体实施方式
随着大规模测序计划的实施和完成,产生了海量组学数据,给研究者的分析和计算带来了巨大的挑战。因此,发展高效的多组学数据处理方法具有重要的理论意义和应用价值。
由于实验条件限制,实验样本通常只有几十到几百个,而测序技术可以同时监控上万个基因,因此,分析多组学数据面临的首要挑战就是数据特征维数远高于样本数。除此之外,现实的多组学数据中含有大量的噪声和冗余信息;需要同时处理来自不同平台的不同类型的数据,如测序的计数数据、微阵列的连续数据、遗传变异的二进制数据等都是多组学数据整合分析中亟需解决的问题。
为了解决组学数据的高维小样本问题,降低数据的复杂性,提高分析结果的准确性和解释性,通常采用矩阵分解方法进行降维。现有的降维方法可以分为线性和非线性两大类。线性降维方法主要包括:主成分分析(PCA)、线性判决分析(LDA)、奇异值分解(SVD)、逻辑回归分析(LR)等。非线性降维方法主要包括:非负矩阵分解(NMF)、局部线性嵌入(LLE)、核方法(核+线性)等。这些传统的建模方法已经在生物信息学领域得到了广泛应用。但是它们还存在一些不足之处。比如,对生物学数据进行特征选择时,以上方法得到的矩阵分解结果中仍然存在大量的噪声和冗余特征,容易造成重要信息淹没,很难给出生物学意义上的合理解释。稀疏建模能够有效的解决这一问题,得到更具解释性的结果,便于后续的数据分析。癌症多组学数据的整合分析需要同时处理来自不同平台的不同类型的数据,它们服从不同的统计分布,具有不同的语义。针对以上问题,本方法结合图正则约束、稀疏性和整合NMF算法进行分析;利用图正则约束保留观测数据的内在规律;利用L2,1范数再产生稀疏结果的同时减小了噪声和异常值的影响,提高了算法的鲁棒性;利用整合矩阵分解框架将不同类型的组学数据投影到同一数据空间进行分析。
TCGA数据库中收集并处理了包括胆管癌、肺癌、头颈鳞癌、乳腺癌等多种癌症的mRNA表达数据、microRNA表达数据、拷贝数变异、DNA甲基化数据等。本发明以胰腺癌(PAAD)、胆管癌(CHOL)、食道癌(ESCA)、结肠腺癌(COAD)为例,对其基因表达数据(GE)、DNA甲基化数据(DM)、拷贝数变异数据(CNV)进行整合分析。
结合图1,本发明的具体实施步骤如下:
步骤1,将人类PAAD、CHOL、ESCA、COAD四种癌症的基因表达数据、DNA甲基化数据、拷贝数变异数据进行预处理,表示为非负矩阵XI∈Rm×n,m表示特征,n表示样本。各组学数据集简要描述见表1。
表1各组学数据集的描述
Figure BDA0002268836030000061
1a)将矩阵XI中的值进行去负处理;
1b)将矩阵XI中所有元素归一化为(0,1)之间的数。
步骤2,构建近邻图权值矩阵UI∈Rn×n
2a)初始化特征矩阵W和载荷矩阵HI为(0,1)之间的随机数;
2b)结合图2设定低维维数K的值;
2c)结合图3设定以及图正则约束权重λ;
2d)结合图4设定稀疏约束权重β的值,设定迭代次数;
2e)构建近邻图权值矩阵UI∈Rn×n
Figure BDA0002268836030000062
即数据xIi,xIj看作近邻图中的两个节点,如果这两个数据在数据集中相邻,则在这两个节点之间连边,边的权值为1,否则为0。DI是一个对角阵,且其对角线元素等于UI的所有行元素或列元素之和,即对角线元素
Figure BDA0002268836030000063
从而得到图拉普拉斯矩阵LI=DI-UI,LI∈Rn×n
步骤3,构建基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O1
3a)为了减小异常值和噪声对特征分解的影响,得到稀疏的分解结果,采用L2,1范数约束特征项||W||2,1,其中||·||2,1表示矩阵的L2,1范数;
3b)为了考虑观测数据的内在规律,在特征项上引入图正则约束项。由拉普拉斯矩阵LI和特征矩阵W构建图正则约束项Tr(WTLIW),其中Tr(·)表示矩阵的迹;
3c)将误差项
Figure BDA0002268836030000064
图正则约束项Tr(WTLIW)、稀疏约束项||W||2,1加权构成基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O1:
Figure BDA0002268836030000065
其中,XI∈Rm×n为非负矩阵,经过整合分解得到相应的融合特征矩阵
Figure BDA0002268836030000066
和载荷矩阵
Figure BDA0002268836030000071
其中
Figure BDA0002268836030000072
表示将多组学数据投影到一个公共特征空间得到的融合特征矩阵,其中wi表示第i个样本包含所有的组学数据信息,
Figure BDA0002268836030000073
表示低维实数空间Rm×K中全体非负矩阵构成的子集,m为基因的个数,K为降维的维数;
Figure BDA0002268836030000074
为各组学数据的系数矩阵,
Figure BDA0002268836030000075
表示实数空间Rn×K中全体非负矩阵构成的子集,n为样本的个数。
LI为图拉普拉斯矩阵,|| ||2,1表示矩阵的L2,1范数,Tr(·)表示矩阵的迹,λ为控制平滑性的正则化参数,β为控制稀疏度的调节参数,可以控制稀疏约束的强度λ和β均为正数。
步骤4,对步骤1得到的非负矩阵利用本发明方法进行分解,将多组学数据投影到共同的特征空间,得到融合特征矩阵W和载荷矩阵HI。本发明对目标函数O1进行优化求解。步骤如下:
4a)引入拉格朗日乘子,构造拉格朗日函数,并对其求一阶偏导数,利用KKT条件可得到融合特征矩阵W和载荷矩阵HI的迭代准则
Figure BDA0002268836030000076
其中Wia为融合特征矩阵W中第i行第a列元素,HIaj为系数矩阵G中第a行第j列元素,i=1,2,…,m,j=1,2,…,n,k=1,2,…,K,UI为图正则约束中构造的权重矩阵,
Figure BDA0002268836030000077
为对称阵,DI是一个对角阵,且其对角线元素等于UI的所有行元素或列元素之和,即
Figure BDA0002268836030000078
4b)利用
Figure BDA0002268836030000079
对融合特征矩阵W中的元素进行迭代;
4c)利用
Figure BDA00022688360300000710
更新载荷矩阵HI中的元素,其中Q∈Rn×n为对角阵,其对角元素为
Figure BDA00022688360300000711
ε为无穷小的正数;
4d)当目标函数值达到预定的最大迭代次数时停止迭代,得到分解后的融合特征矩阵W和载荷矩阵HI,否则返回4b)。
通过上述迭代得到的融合特征矩阵
Figure BDA0002268836030000081
代表非负矩阵X的特征空间,其中
Figure BDA0002268836030000082
表示多各组学数据投影到同一个特征空间,第i个样本包含所有的特征信息,
Figure BDA0002268836030000083
表示m维向量空间Rm中全体非负向量构成的集合,m为特征的个数,K为降维的维数;系数矩阵
Figure BDA0002268836030000084
为第I个组学数据集的所有训练样本低维表示集合,
Figure BDA0002268836030000085
Figure BDA0002268836030000086
表示K维向量空间RK中全体非负向量构成的子集合,n为样本的个数。
步骤5,利用融合特征矩阵W辨识多组学数据的共差异特征:
5a)对融合特征矩阵W中的元素按行求和,构造评价向量
Figure BDA0002268836030000087
5b)对评价向量
Figure BDA0002268836030000088
中元素按降序排列,数值越大,对应的差异表达程度越高,特征矩阵W融合了多组学数据的共同特征,所以辨识得到的是共差异特征;
步骤6,构建基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O2
6a)为了得到稀疏的分解结果,提高样本聚类性能,采用L2,1范数约束特征项||H||2,1
6b)为了考虑样本数据的内在规律,在载荷矩阵引入图正则约束项。构建图正则约束项Tr(HTLIH);
6c)构造基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O2:
Figure BDA0002268836030000089
其中,特征矩阵
Figure BDA00022688360300000810
和公共载荷矩阵
Figure BDA00022688360300000811
其中
Figure BDA00022688360300000812
表示将多组学数据投影到一个公共样本空间得到的融合样本矩阵;
步骤7,本发明对目标函数O2进行优化求解。步骤如下:
7a)引入拉格朗日乘子,构造拉格朗日函数,并对其求一阶偏导数,利用KKT条件可得到特征矩阵WI和公共载荷矩阵H的迭代准则
Figure BDA00022688360300000813
利用以上迭代公式更新特征矩阵
Figure BDA00022688360300000814
中的元素WIia和融合样本矩阵H中的元素Haj,采用交替更新特征矩阵
Figure BDA0002268836030000091
和融合样本矩阵H的方法,得到局部最优解;
7b)当目标函数值达到预定的最大迭代次数时停止迭代,得到分解后的特征矩阵WI和公共载荷矩阵H,否则返回7a)。
通过上述迭代得到的公共载荷矩阵
Figure BDA0002268836030000092
代表多组学数据的公共样本空间,可根据公共载荷矩阵H对样本进行聚类分析。
步骤8,本发明的效果通过实验进行说明,在胰腺癌的基因表达数据(GE)、DNA甲基化数据(DM)、拷贝数变异数据(CNV)数据集上进行了共差异特征提取,并对辨识得到的共差异特征进行分析:
8a)实验使用matlab仿真软件,根据图2,图3,图4可选择相应的参数K,λ,β,本实验中,K=3,λ=1000,β=10,最大迭代次数100次;
8b)利用GeneCards对辨识的共差异特征进行分析,疾病相关得分最高的前6个基因如表2,已有研究证明CDKN2A,CCDN1,PTF1A的突变或缺失与胰腺癌的发生密切相关,GRP会对人类肠道和胰腺肽产生影响,因此SG-jNMF能够有效整合多组学数据,辨识共差异特征。
表2 SG-jNMF辨识的共差异特征
Figure BDA0002268836030000093
步骤9,本发明的效果通过实验进行说明,对胰腺癌(PAAD)、胆管癌(CHOL)、食道癌(ESCA)、结肠腺癌(COAD)四种癌症的基因表达数据(GE)、DNA甲基化数据(DM)、拷贝数变异数据(CNV)进行聚类分析:
9a)实验使用matlab仿真软件,根据图2,图3,图4可选择相应的参数K,λ,β,最大迭代次数100次,实验中为了降低随机初始化对结果的影响,算法运行50次取平均值;
9b)对公共载荷矩阵H进行样本聚类分析,通过比较精确度、召回率、准确度、F1得分来比较三种方法的聚类性能,结果如表3,由此可见,除了在ESCA数据集上的召回率,SG-jNMF在四种数据集上都具有最好的性能。稀疏约束和图正则约束对算法性能改善的贡献如表4。
表3不同整合分析方法的聚类性能比较
Figure BDA0002268836030000101
表4稀疏约束和图正则约束对算法性能改善的贡献
Figure BDA0002268836030000102

Claims (3)

1.一种基于整合非负矩阵分解的样本聚类和特征识别方法,其特征在于包括如下步骤:
(1)将多组学数据进行预处理,以矩阵形式记录这些数据,将多组学数据的特征看作变量,采集这些特征的个体看作样本,由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵XI∈Rm×n{I=1,…P},X={X1,X2…XP}表示由同一种癌症的P个不同组学数据矩阵构成的多视图数据,将X中的所有元素都归一化到(0,1)上;
(2)首先,将多组学数据投影到公共的特征空间:对特征矩阵W进行图正则约束,尽可能多的保留原始组学数据的内在几何信息;并利用L2,1范数约束特征矩阵W来减小异常值和噪声的影响,构建整合非负矩阵分解的目标函数:
Figure FDA0004119117010000011
其中,W为融合特征矩阵,HI为载荷矩阵,LI为图拉普拉斯矩阵,|| ||2,1表示矩阵的L2,1范数,Tr(·)表示矩阵的迹,λI表示图正则约束项Tr(WLIWT)的权重,β表示稀疏约束项的权重,λI和β均为正数;
其次,将多组学数据投影到公共的样本空间:对载荷矩阵H进行图正则约束,并利用L2,1范数约束载荷矩阵H,构建整合非负矩阵分解的目标函数:
Figure FDA0004119117010000012
其中,WI为特征矩阵,H为融合样本矩阵;
(3)对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O1进行优化求解,得到相应的融合特征矩阵
Figure FDA0004119117010000013
和载荷矩阵
Figure FDA0004119117010000014
其中
Figure FDA0004119117010000015
表示将多组学数据投影到一个公共特征空间得到的融合特征矩阵,其中wi表示第i个样本包含所有的组学数据信息,
Figure FDA0004119117010000016
为各组学数据的系数矩阵;
对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O2进行优化求解,得到相应的特征矩阵
Figure FDA0004119117010000017
和融合样本矩阵
Figure FDA0004119117010000018
其中
Figure FDA0004119117010000019
表示各组学数据的特征矩阵,
Figure FDA00041191170100000110
表示将多组学数据投影到一个公共样本空间得到的融合样本矩阵;
(4)根据目标函数O1分解得到的融合特征矩阵
Figure FDA00041191170100000111
构造评价向量
Figure FDA00041191170100000112
(5)对向量
Figure FDA0004119117010000021
中的元素按照降序排列,向量
Figure FDA0004119117010000022
中较大幅度的元素对应的特征被辨识为共差异特征;
(6)利用GeneCards数据库对辨识的差异特征进行功能解释;
(7)对根据目标函数O2进行优化求解得到的融合样本矩阵
Figure FDA0004119117010000023
进行样本聚类分析。
2.如权利要求1所述的基于整合非负矩阵分解的样本聚类和特征识别方法,其特征在于,步骤(3)中,目标函数O1的优化求解包括如下步骤:
3a)将融合特征矩阵
Figure FDA0004119117010000024
和载荷矩阵
Figure FDA0004119117010000025
中的元素全部初始化为(0,1)之间的随机数;
3b)选择降维之后的维数K的值,图正则约束权重λ,稀疏约束权重β;
3c)设定最大迭代次数,利用迭代公式
Figure FDA0004119117010000026
更新融合特征矩阵
Figure FDA0004119117010000027
中的元素Wia,其中Q∈Rn×n为对角阵,其对角元素为
Figure FDA0004119117010000028
ε为无穷小的正数,利用
Figure FDA0004119117010000029
更新系数矩阵HI中的元素HIaj,其中i=1,2,...,m,j=1,2,...,n,k=1,2,...,K,UI为图正则约束中构造的权重矩阵,
Figure FDA00041191170100000210
为对称阵,DI为对角阵,且其对角线元素
Figure FDA00041191170100000211
采用交替更新融合特征矩阵
Figure FDA00041191170100000212
和系数矩阵HI的方法,得到局部最优解;
3d)算法收敛后得到融合特征矩阵W和系数矩阵HI
3.如权利要求1所述的基于整合非负矩阵分解的样本聚类和特征识别方法,其特征在于,步骤(3)中,目标函数O2的优化求解包括如下步骤:
3i)将特征矩阵
Figure FDA00041191170100000213
和融合样本矩阵
Figure FDA00041191170100000214
中的元素全部初始化为(0,1)之间的随机数;
3ii)选择降维之后的维数K的值,图正则约束权重λ,稀疏约束权重β;
3iii)设定最大迭代次数,利用迭代公式
Figure FDA00041191170100000215
更新特征矩阵
Figure FDA00041191170100000217
中的元素WIia,利用
Figure FDA00041191170100000216
更新融合样本矩阵H中的元素Haj,采用交替更新特征矩阵
Figure FDA0004119117010000031
和融合样本矩阵H的方法,得到局部最优解;
3iv)算法收敛后得到特征矩阵WI和融合样本矩阵H。
CN201911097681.7A 2019-11-12 2019-11-12 基于整合非负矩阵分解的样本聚类和特征识别方法 Active CN110826635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911097681.7A CN110826635B (zh) 2019-11-12 2019-11-12 基于整合非负矩阵分解的样本聚类和特征识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911097681.7A CN110826635B (zh) 2019-11-12 2019-11-12 基于整合非负矩阵分解的样本聚类和特征识别方法

Publications (2)

Publication Number Publication Date
CN110826635A CN110826635A (zh) 2020-02-21
CN110826635B true CN110826635B (zh) 2023-04-18

Family

ID=69554088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911097681.7A Active CN110826635B (zh) 2019-11-12 2019-11-12 基于整合非负矩阵分解的样本聚类和特征识别方法

Country Status (1)

Country Link
CN (1) CN110826635B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131899B (zh) * 2020-09-28 2022-10-25 四川轻化工大学 一种欠定状态下rfid系统的防碰撞方法
CN112908420B (zh) * 2020-12-02 2023-07-04 中山大学 一种基于去噪网络正则化的多组学数据整合方法及系统
CN113035281A (zh) * 2021-05-24 2021-06-25 浙江中科华知科技股份有限公司 医疗数据的处理方法及装置
CN113889184B (zh) * 2021-09-27 2023-08-11 中国矿业大学 一种融合基因组特征的m6A甲基化局部功能谱分解方法
CN114550906A (zh) * 2022-01-14 2022-05-27 山东师范大学 基于多视图鲁棒表示的癌症亚型识别系统
CN116246712B (zh) * 2023-02-13 2024-03-26 中国人民解放军军事科学院军事医学研究院 带组稀疏约束多模态矩阵联合分解的数据亚型分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016048485A (ja) * 2014-08-28 2016-04-07 国立研究開発法人産業技術総合研究所 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN107066934A (zh) * 2017-01-23 2017-08-18 华东交通大学 胃部肿瘤细胞图像识别判定装置、方法及胃部肿瘤切片识别判定设备
CN109739991A (zh) * 2018-11-22 2019-05-10 国网天津市电力公司 基于共享特征空间的模态异质电力数据统一语义主题建模方法
CN109993198A (zh) * 2018-12-26 2019-07-09 中国科学院信息工程研究所 一种基于特征同构共享描述的多源异构离群点检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016048485A (ja) * 2014-08-28 2016-04-07 国立研究開発法人産業技術総合研究所 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN107066934A (zh) * 2017-01-23 2017-08-18 华东交通大学 胃部肿瘤细胞图像识别判定装置、方法及胃部肿瘤切片识别判定设备
CN107016261A (zh) * 2017-04-11 2017-08-04 曲阜师范大学 基于联合约束非负矩阵分解的差异表达基因辨识方法
CN109739991A (zh) * 2018-11-22 2019-05-10 国网天津市电力公司 基于共享特征空间的模态异质电力数据统一语义主题建模方法
CN109993198A (zh) * 2018-12-26 2019-07-09 中国科学院信息工程研究所 一种基于特征同构共享描述的多源异构离群点检测方法

Also Published As

Publication number Publication date
CN110826635A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110826635B (zh) 基于整合非负矩阵分解的样本聚类和特征识别方法
Chang et al. A genetic algorithm with gene rearrangement for K-means clustering
Maulik et al. Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Cirrincione et al. The GH-EXIN neural network for hierarchical clustering
Maulik Analysis of gene microarray data in a soft computing framework
Mukhopadhyay et al. Towards improving fuzzy clustering using support vector machine: Application to gene expression data
CN113889192B (zh) 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法
CN115019891B (zh) 一种基于半监督图神经网络的个体驱动基因预测方法
CN116741397B (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
Zhu et al. Deep-gknock: Nonlinear group-feature selection with deep neural networks
CN116386729A (zh) 一种基于图神经网络的scRNA-seq数据降维方法
McLachlan et al. The EM algorithm
CN115985503B (zh) 基于集成学习的癌症预测系统
CN117708628A (zh) 基于图深度学习的空间转录组学中空间域识别方法
Chatzilygeroudis et al. Feature Selection in single-cell RNA-seq data via a Genetic Algorithm
CN109215741B (zh) 基于双超图正则化的肿瘤基因表达谱数据双聚类方法
CN115618272A (zh) 一种基于深度残差生成算法自动识别单细胞类型的方法
CN114783526A (zh) 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法
Sheng et al. Advances in cluster analysis of microarray data
Liu et al. Fuzzy clustering for microarray data analysis: a review
CN113421614A (zh) 一种基于张量分解的lncRNA-疾病关联预测方法
Saha et al. Unsupervised and supervised learning approaches together for microarray analysis
CN112768001A (zh) 一种基于流形学习和主曲线的单细胞轨迹推断方法
CN112967755A (zh) 一种面向单细胞rna测序数据的细胞类型识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant