CN110826635B

CN110826635B - 基于整合非负矩阵分解的样本聚类和特征识别方法

Info

Publication number: CN110826635B
Application number: CN201911097681.7A
Authority: CN
Inventors: 代凌云; 刘金星
Original assignee: Qufu Normal University
Current assignee: Qufu Normal University
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2023-04-18
Anticipated expiration: 2039-11-12
Also published as: CN110826635A

Abstract

本发明公开一种基于整合非负矩阵分解的样本聚类和特征识别方法。1.X＝{X₁,X₂…X_P}表示由同一种癌症的P个不同组学数据矩阵构成的多视图数据；2.构造对角矩阵Q；3.在整合非负矩阵分解框架中引入图正则和稀疏约束，得到目标函数O₁和O₂；4.求解目标函数O₁，得到融合特征矩阵W和系数矩阵H_I；求解目标函数O₂，得到特征矩阵W_I和融合样本矩阵H；5.根据融合特征矩阵W，构造评价向量

根据向量

辨识共差异特征；6.利用GeneCards对辨识的共差异特征进行功能解释；7.根据融合样本矩阵

进行样本聚类分析。本发明能够充分利用多组学数据的互补和差异性信息辨识共差异特征，并能够对多组学数据提供的样本数据进行聚类分析，为整合研究不同类型的组学数据提供计算方法上的依据。

Description

基于整合非负矩阵分解的样本聚类和特征识别方法

技术领域

本发明公开一种基于整合非负矩阵分解的样本聚类和特征识别方法，属于模式识别技术领域，可对多组学数据进行整合分析，为不同类型的异质性数据的整合提供方法上的依据。

背景技术

随着测序技术的发展，生物信息学面临多种多样的组学大数据的分析任务。海量组学数据的出现，为生物信息学研究者提供了丰富的数据来源，使研究者可以从不同的生物学层面进行研究。有效地对这些数据进行处理、分析和挖掘，才能充分发挥数据的价值。以往的研究多是关于针对单一组学数据(如基因表达谱)的分析，很少考虑不同组学数据之间的关联性和差异性。多组学数据的整合分析可以补偿任何单一组学数据中丢失或不可靠的信息，但是不同类型的组学数据具有不同的观测尺度和单位，不能简单汇总起来研究。多组学数据的整合分析需要同时处理来自不同平台的不同类型的数据，它们服从不同的统计分布，具有不同的语义。现有的多组学数据的整合分析方法可以分为基于数据的整合分析方法和基于模型的整合分析方法两大类。基于数据的整合分析方法是在构建整合模型之前，将来自相同样本的多个组学数据整合到一个矩阵中，这种方法的优势是可以利用现有的数据挖掘方法来处理，能够描述不同类型的数据之间的关联信息。基于模型的整合分析方法主要包括贝叶斯方法、矩阵分解的方法、基于网络的方法、基于核的方法等。其中基于矩阵分解的多组学数据整合分析方法是近年来的一个研究热点。Zhang等人提出了一种联合非负矩阵分解模型(jNMF)用于多组学数据的整合分析，将多组学数据投影到公共基空间，探索数据之间的相干模式；Yang等人提出整合非负矩阵分解模型(iNMF)挖掘跟卵巢癌发生密切相关的基因模块。现有的基于矩阵分解的方法在多组学数据整合分析方面取得了成功的应用，得到了大量有意义的发现。但是仍然存在一些不足，例如：研究发现，现实数据通常嵌入在高维空间中的低维流形上，如何充分利用这些低维特征发现观测数据的内在规律，提高整合分析方法的性能还需要进一步研究；现有的算法容易受到多组学数据中噪声和冗余信息的影响，如何充分利用异质性数据的互补性和差异性，提高算法的鲁棒性也需要进一步研究。

发明内容

发明目的：针对已有的多组学数据整合分析方法的不足，提出了一种基于稀疏和图正则约束整合非负矩阵分解的多组学数据聚类和特征识别分析方法(SG-jNMF)。在非负矩阵分解的目标函数中引入了图正则约束反映观测数据的内在规律，提高算法识别的准确性；引入L_2,1范数稀疏约束提高算法对异常值和噪声的鲁棒性，设计合理的数据整合框架和优化求解方案，充分利用多组学数据提供的互补和差异性信息，将来自不同观测平台、不同类型的异质性多组学数据进行有效整合。技术思路：受已有的整合矩阵分解启发，首先在整合非负矩阵分解模型中引入图正则约束，利用观测数据的低维特征发现其内在规律，提高整合分析方法的性能；其次在整合分析模型中引入L_2,1范数约束，提高算法的鲁棒性，最终形成稀疏和图正则约束整合非负矩阵分解的目标函数。该整合矩阵分析方法可以利用图正则和L_2,1范数约束特征矩阵，并将多组学数据投影到公共的特征空间，利用得到的融合特征矩阵辨识共差异特征；该方法还可以利用图正则和L_2,1范数约束样本矩阵，并将多组学数据投影到公共的样本空间，进行样本的聚类分析。实现方案如下：

一种基于整合非负矩阵分解的样本聚类和特征识别方法，其特征在于包括如下步骤：

(1)将多组学数据进行预处理：以矩阵形式记录这些数据，将多组学数据的特征看作变量，采集这些特征的个体看作样本，由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵X_I∈R^m×n{I＝1,…P}，X＝{X₁,X₂…X_P}表示由P个不同组学数据矩阵构成的多视图数据，将X中的所有元素都归一化到(0,1)上；

(2)将多组学数据投影到公共的特征空间：对特征矩阵W和载荷矩阵H_I进行非负约束，对特征矩阵W进行图正则约束，保留原始组学数据的内在几何信息；并利用L_2,1范数约束特征矩阵W来减小异常值和噪声的影响，构建整合非负矩阵分解的目标函数：

其中，W为融合特征矩阵，H_I为载荷矩阵，L_I为图拉普拉斯矩阵，|| ||_2,1表示矩阵的L_2,1范数，Tr(·)表示矩阵的迹，λ_I表示图正则约束项Tr(WL_IW^T)的权重，β表示稀疏约束项的权重，λ_I和β均为正数；

将多组学数据投影到公共的样本空间：对特征矩阵W_I和载荷矩阵H进行非负约束，对载荷矩阵H进行图正则约束，保留原始组学数据的内在几何信息；并利用L_2,1范数约束载荷矩阵H来减小异常值和噪声的影响，构建整合非负矩阵分解的目标函数：

其中，W_I为特征矩阵，H为融合样本矩阵

(3)对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O₁进行优化求解，实现对非负矩阵X_I∈R^m×n进行分解，得到相应的融合特征矩阵

和载荷矩阵

其中

表示将多组学数据投影到一个公共特征空间得到的融合特征矩阵，其中w_i表示第i个样本包含所有的组学数据信息，

表示低维实数空间R^m×K中全体非负矩阵构成的子集，m为基因的个数，K为降维的维数；

为各组学数据的系数矩阵，

表示实数空间R^n×K中全体非负矩阵构成的子集，n为样本的个数；对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O₂进行优化求解，得到相应的特征矩阵

和融合样本矩阵

其中

表示各组学数据的特征矩阵，其中w_Ii表示第i个样本包含所有的组学数据信息；

表示将多组学数据投影到一个公共样本空间得到的融合样本矩阵；

(4)根据目标函数O₁分解得到的融合特征矩阵

构造评价向量

(5)对向量

中的元素按照降序排列，由于向量

中元素值越大，对特征构成的优化超平面影响越大。因此，向量

中较大幅度的元素被辨识为共差异特征；

(6)利用GeneCards数据库对辨识的差异特征进行功能解释；

(7)对根据目标函数O₂进行优化求解得到的融合样本矩阵

进行聚类分析。

特别地，步骤(3)中，目标函数O₁的优化求解包括如下步骤：

3a)将融合特征矩阵

和载荷矩阵

中的元素全部初始化为(0,1)之间的随机数；

3b)选择降维维数K的值，图正则约束权重λ，稀疏约束权重β；

3c)设定最大迭代次数,利用迭代公式

更新融合特征矩阵

中的元素W_ia，其中Q∈R^n×n为对角阵，其对角元素为

ε为无穷小的正数，利用

更新系数矩阵H_I中的元素H_Iaj，其中i＝1,2,…,m，j＝1,2,…,n，k＝1,2,…,K，U_I为图正则约束中构造的权重矩阵，

为对称阵，D_I为对角阵，且其对角线元素

采用交替更新融合特征矩阵W和系数矩阵H_I的方法，得到局部最优解；

3d)算法收敛后得到融合特征矩阵

和系数矩阵H_I。

特别地，步骤(3)中，目标函数O₂的优化求解包括如下步骤：

3i)将特征矩阵

和融合样本矩阵

中的元素全部初始化为(0,1)之间的随机数；

3ii)选择降维维数K的值，图正则约束权重λ，稀疏约束权重β；

3iii)设定最大迭代次数,利用迭代公式

更新特征矩阵

中的元素W_Iia，利用

更新融合样本矩阵H中的元素H_aj，采用交替更新特征矩阵W_I和融合样本矩阵H的方法，得到局部最优解；

3iv)算法收敛后得到特征矩阵W_I和融合样本矩阵H。

本发明具有以下优点：

本发明将图正则约束引入整合矩阵分解的目标函数中，能够利用数据的低维特征发现观测数据的内在规律，提高整合分析方法的性能；利用L_2,1范数约束减小了癌症多组学数据集中异常值和噪声的影响，提高了算法的鲁棒性。该方法充分利用了异质性多组学数据的互补性和差异性，两种形式的目标函数可以将多组学数据投影到公共的特征空间，来辨识共差异特征；还可以将多组学数据投影到公共的样本空间，对数据进行样本聚类分析。

附图说明

图1为本发明的流程图；

图2为本发明SG-jNMF中参数降维之后的维数K的值对算法性能的影响，图2说明参数K选择的依据；

图3为图正则约束权重λ对辨识误差的影响，图3说明参数λ选择的依据；

图4为稀疏约束权重β对算法性能的影响，参数β选择的依据。

具体实施方式

随着大规模测序计划的实施和完成，产生了海量组学数据，给研究者的分析和计算带来了巨大的挑战。因此，发展高效的多组学数据处理方法具有重要的理论意义和应用价值。

由于实验条件限制，实验样本通常只有几十到几百个，而测序技术可以同时监控上万个基因，因此，分析多组学数据面临的首要挑战就是数据特征维数远高于样本数。除此之外，现实的多组学数据中含有大量的噪声和冗余信息；需要同时处理来自不同平台的不同类型的数据，如测序的计数数据、微阵列的连续数据、遗传变异的二进制数据等都是多组学数据整合分析中亟需解决的问题。

为了解决组学数据的高维小样本问题，降低数据的复杂性，提高分析结果的准确性和解释性，通常采用矩阵分解方法进行降维。现有的降维方法可以分为线性和非线性两大类。线性降维方法主要包括：主成分分析(PCA)、线性判决分析(LDA)、奇异值分解(SVD)、逻辑回归分析(LR)等。非线性降维方法主要包括：非负矩阵分解(NMF)、局部线性嵌入(LLE)、核方法(核+线性)等。这些传统的建模方法已经在生物信息学领域得到了广泛应用。但是它们还存在一些不足之处。比如，对生物学数据进行特征选择时，以上方法得到的矩阵分解结果中仍然存在大量的噪声和冗余特征，容易造成重要信息淹没，很难给出生物学意义上的合理解释。稀疏建模能够有效的解决这一问题，得到更具解释性的结果，便于后续的数据分析。癌症多组学数据的整合分析需要同时处理来自不同平台的不同类型的数据，它们服从不同的统计分布，具有不同的语义。针对以上问题，本方法结合图正则约束、稀疏性和整合NMF算法进行分析；利用图正则约束保留观测数据的内在规律；利用L_2,1范数再产生稀疏结果的同时减小了噪声和异常值的影响，提高了算法的鲁棒性；利用整合矩阵分解框架将不同类型的组学数据投影到同一数据空间进行分析。

TCGA数据库中收集并处理了包括胆管癌、肺癌、头颈鳞癌、乳腺癌等多种癌症的mRNA表达数据、microRNA表达数据、拷贝数变异、DNA甲基化数据等。本发明以胰腺癌(PAAD)、胆管癌(CHOL)、食道癌(ESCA)、结肠腺癌(COAD)为例，对其基因表达数据(GE)、DNA甲基化数据(DM)、拷贝数变异数据(CNV)进行整合分析。

结合图1，本发明的具体实施步骤如下：

步骤1,将人类PAAD、CHOL、ESCA、COAD四种癌症的基因表达数据、DNA甲基化数据、拷贝数变异数据进行预处理，表示为非负矩阵X_I∈R^m×n，m表示特征，n表示样本。各组学数据集简要描述见表1。

表1各组学数据集的描述

1a)将矩阵X_I中的值进行去负处理；

1b)将矩阵X_I中所有元素归一化为(0,1)之间的数。

步骤2,构建近邻图权值矩阵U_I∈R^n×n：

2a)初始化特征矩阵W和载荷矩阵H_I为(0,1)之间的随机数；

2b)结合图2设定低维维数K的值；

2c)结合图3设定以及图正则约束权重λ；

2d)结合图4设定稀疏约束权重β的值，设定迭代次数；

2e)构建近邻图权值矩阵U_I∈R^n×n：

即数据x_Ii，x_Ij看作近邻图中的两个节点，如果这两个数据在数据集中相邻，则在这两个节点之间连边，边的权值为1，否则为0。D_I是一个对角阵，且其对角线元素等于U_I的所有行元素或列元素之和，即对角线元素

从而得到图拉普拉斯矩阵L_I＝D_I-U_I，L_I∈R^n×n。

步骤3，构建基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O₁：

3a)为了减小异常值和噪声对特征分解的影响，得到稀疏的分解结果，采用L_2,1范数约束特征项||W||_2,1，其中||·||_2，1表示矩阵的L_2,1范数；

3b)为了考虑观测数据的内在规律，在特征项上引入图正则约束项。由拉普拉斯矩阵L_I和特征矩阵W构建图正则约束项Tr(W^TL_IW)，其中Tr(·)表示矩阵的迹；

3c)将误差项

图正则约束项Tr(W^TL_IW)、稀疏约束项||W||_2,1加权构成基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O₁:

其中，X_I∈R^m×n为非负矩阵，经过整合分解得到相应的融合特征矩阵

和载荷矩阵

其中

为各组学数据的系数矩阵，

表示实数空间R^n×K中全体非负矩阵构成的子集，n为样本的个数。

L_I为图拉普拉斯矩阵，|| ||_2,1表示矩阵的L_2,1范数，Tr(·)表示矩阵的迹，λ为控制平滑性的正则化参数，β为控制稀疏度的调节参数，可以控制稀疏约束的强度λ和β均为正数。

步骤4，对步骤1得到的非负矩阵利用本发明方法进行分解，将多组学数据投影到共同的特征空间，得到融合特征矩阵W和载荷矩阵H_I。本发明对目标函数O₁进行优化求解。步骤如下：

4a)引入拉格朗日乘子，构造拉格朗日函数，并对其求一阶偏导数，利用KKT条件可得到融合特征矩阵W和载荷矩阵H_I的迭代准则

其中W_ia为融合特征矩阵W中第i行第a列元素，H_Iaj为系数矩阵G中第a行第j列元素，i＝1,2,…,m，j＝1,2,…,n，k＝1,2,…,K，U_I为图正则约束中构造的权重矩阵，

为对称阵，D_I是一个对角阵，且其对角线元素等于U_I的所有行元素或列元素之和，即

4b)利用

对融合特征矩阵W中的元素进行迭代；

4c)利用

更新载荷矩阵H_I中的元素，其中Q∈R^n×n为对角阵，其对角元素为

ε为无穷小的正数；

4d)当目标函数值达到预定的最大迭代次数时停止迭代，得到分解后的融合特征矩阵W和载荷矩阵H_I，否则返回4b)。

通过上述迭代得到的融合特征矩阵

代表非负矩阵X的特征空间，其中

表示多各组学数据投影到同一个特征空间，第i个样本包含所有的特征信息，

表示m维向量空间R^m中全体非负向量构成的集合，m为特征的个数，K为降维的维数；系数矩阵

为第I个组学数据集的所有训练样本低维表示集合，

表示K维向量空间R^K中全体非负向量构成的子集合，n为样本的个数。

步骤5,利用融合特征矩阵W辨识多组学数据的共差异特征：

5a)对融合特征矩阵W中的元素按行求和，构造评价向量

5b)对评价向量

中元素按降序排列，数值越大，对应的差异表达程度越高，特征矩阵W融合了多组学数据的共同特征，所以辨识得到的是共差异特征；

步骤6，构建基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O₂：

6a)为了得到稀疏的分解结果，提高样本聚类性能，采用L_2,1范数约束特征项||H||_2,1；

6b)为了考虑样本数据的内在规律，在载荷矩阵引入图正则约束项。构建图正则约束项Tr(H^TL_IH)；

6c)构造基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O₂:

其中，特征矩阵

和公共载荷矩阵

其中

步骤7，本发明对目标函数O₂进行优化求解。步骤如下：

7a)引入拉格朗日乘子，构造拉格朗日函数，并对其求一阶偏导数，利用KKT条件可得到特征矩阵W_I和公共载荷矩阵H的迭代准则

利用以上迭代公式更新特征矩阵

中的元素W_Iia和融合样本矩阵H中的元素H_aj，采用交替更新特征矩阵

和融合样本矩阵H的方法，得到局部最优解；

7b)当目标函数值达到预定的最大迭代次数时停止迭代，得到分解后的特征矩阵W_I和公共载荷矩阵H，否则返回7a)。

通过上述迭代得到的公共载荷矩阵

代表多组学数据的公共样本空间，可根据公共载荷矩阵H对样本进行聚类分析。

步骤8，本发明的效果通过实验进行说明，在胰腺癌的基因表达数据(GE)、DNA甲基化数据(DM)、拷贝数变异数据(CNV)数据集上进行了共差异特征提取，并对辨识得到的共差异特征进行分析：

8a)实验使用matlab仿真软件，根据图2，图3，图4可选择相应的参数K,λ,β，本实验中，K＝3，λ＝1000，β＝10，最大迭代次数100次；

8b)利用GeneCards对辨识的共差异特征进行分析，疾病相关得分最高的前6个基因如表2，已有研究证明CDKN2A，CCDN1，PTF1A的突变或缺失与胰腺癌的发生密切相关，GRP会对人类肠道和胰腺肽产生影响，因此SG-jNMF能够有效整合多组学数据，辨识共差异特征。

表2 SG-jNMF辨识的共差异特征

步骤9，本发明的效果通过实验进行说明，对胰腺癌(PAAD)、胆管癌(CHOL)、食道癌(ESCA)、结肠腺癌(COAD)四种癌症的基因表达数据(GE)、DNA甲基化数据(DM)、拷贝数变异数据(CNV)进行聚类分析：

9a)实验使用matlab仿真软件，根据图2，图3，图4可选择相应的参数K,λ,β，最大迭代次数100次，实验中为了降低随机初始化对结果的影响，算法运行50次取平均值；

9b)对公共载荷矩阵H进行样本聚类分析，通过比较精确度、召回率、准确度、F1得分来比较三种方法的聚类性能，结果如表3，由此可见，除了在ESCA数据集上的召回率，SG-jNMF在四种数据集上都具有最好的性能。稀疏约束和图正则约束对算法性能改善的贡献如表4。

表3不同整合分析方法的聚类性能比较

表4稀疏约束和图正则约束对算法性能改善的贡献

Claims

1.一种基于整合非负矩阵分解的样本聚类和特征识别方法，其特征在于包括如下步骤：

(1)将多组学数据进行预处理,以矩阵形式记录这些数据，将多组学数据的特征看作变量，采集这些特征的个体看作样本，由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵X_I∈R^m×n{I＝1,…P}，X＝{X₁,X₂…X_P}表示由同一种癌症的P个不同组学数据矩阵构成的多视图数据，将X中的所有元素都归一化到(0,1)上；

(2)首先，将多组学数据投影到公共的特征空间：对特征矩阵W进行图正则约束，尽可能多的保留原始组学数据的内在几何信息；并利用L_2,1范数约束特征矩阵W来减小异常值和噪声的影响，构建整合非负矩阵分解的目标函数：