CN105335626A

CN105335626A - 一种基于网络分析的群lasso特征分群方法

Info

Publication number: CN105335626A
Application number: CN201510703382.9A
Authority: CN
Inventors: 李钧涛; 王雅娣; 丁莹; 李明; 陈留院; 董文朋; 穆晓霞
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2016-02-17
Anticipated expiration: 2035-10-26
Also published as: CN105335626B

Abstract

本发明公开了一种基于网络分析的群lasso特征分群方法，主要用来解决生物工程中的相关表达基因的分群及用其构建群lasso模型。该方法首先将实验数据分为正、负两个数据集，并分别构建出其对应的加权共基因表达网络（邻接矩阵）；然后确定正、负样本所分别对应的重要网络模块；而后根据实验背景，利用负样本网络模块来简化正样本网络模块；最后根据简化后的网络模块将特征进行分群，并据此构建群lasso及其推广模型。本发明方法成功地将群lasso的特征分群与网络分析的模块选择进行有机的结合，易于操作，此分群方法可应用于肝再生细胞增殖中相关基因的筛选，对于模拟肝硬化、癌症等复杂疾病的细胞增殖过程，筛选新药具有重要的应用价值。

Description

一种基于网络分析的群lasso特征分群方法

技术领域

本发明属于生物工程技术领域，主要涉及生物信息学和生物数据挖掘，具体涉及一种基于网络分析的群lasso特征分群方法。

背景技术

生物工程是以生物学(主要是基因遗传学、细胞学和生物化学)的理论为基础，结合机械、电子计算机、化工等现代工程技术，充分运用分子生物学的最新成就，自觉操纵遗传物质，再对这些改造的工程细胞株进行培养，通过细胞增殖以生产大量有用代谢产物或发挥它们独特生理功能的一门新兴技术。其广泛的用途主要应用于医药卫生、食品轻工、农牧渔业、能源化工、冶金工业、环境保护等诸多方面。生物工程技术的合理应用将为解决人类面临的粮食、健康、环境、能源等重大问题开辟广阔的前景。

生物工程与计算器微电子技术、新材料、新能源等被列为21世纪科学技术的核心。由于生命科学和计算机科学的有机结合，从而可以通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

生物工程着眼于分子层面，是对基因进行改造和重组而后进行培养增殖。对于改造后的细胞植株要想快速培养应用于生物医药时，首先应从海量未知基因选择出并找到影响细胞增殖的相关基因，这也是整个工程中至关重要的一步。另外，对于基因进行有效地分群，了解其生物意义，还可以开发出基于这些基因的价格低廉的疾病基因芯片。

目前为止基因的选择方法可以分为：滤波法、包装方法、内含法。虽然这些方法成功地应用于联合的基因选择和微阵列分类，但是却不能较好的将其应用于较多的基因分群之中，也不能揭示出基因与基因之间的相互作用。为了成群地选择特征的同时并能够进行精度预测，2006年Yuan和Lin提出能按照预先分好的群进行基因选择的群lasso，Meleretal将其扩展到逻辑斯谛回归。为了能够同时产生分群的稀疏性和群内稀疏性，Simonetal提出了稀疏群lasso而且通过增广坐标下降算法发展了一个算法来拟合这个模型；Vincent等人将它拓展到了多项式稀疏群lasso和发展了求解算法。尽管群lasso，稀疏群lasso和它们的拓展已经成功地应用到微阵列分类和基因选择，但是它们高度赖于群的划分。传统的群lasso模型及其推广模型大多采用数据集中编写程序进行随机自动分群，常常出现分群只与数据有关，与实际应用背景无关(无生物学意义)。从生物学角度来说，很容易根据基因调控网络将基因成群地划分，然而对于复杂的生物过程却很难探测基因通路并构建调控网络。因此，对群lasso及其推广模型进行特征分群是生物信息学、计算生物学等领域的一个急需解决的挑战性问题。

发明内容

本发明的目的是克服上述方法中存在的缺陷，提出了一种具有可靠性的基于网络分析的群lasso及其推广模型的分群方法，以构建分层聚类树并利用动态树剪切算法识别出影响细胞增殖的重要变量模块，并根据精简的网络模块对特征进行分群，进而简化特征分群难度并提高模型进行特征选择的可靠性。

本发明为实现上述目的采用如下技术方案，通过对实验数据进行预处理将其分为两个数据集并通过相似性测量和幂邻接函数构建出邻接矩阵；然后利用差异性测量分别构建出两类样本的分层聚类树并利用动态剪切树算法，计算出不同数据样本中的重要模块；而后用负样本模块来简化正样本模块，得到精简模块；最后根据特征变量分群，构建稀疏群lasso模型。其实现步骤如下：

(1)对于具体实验所得到的“小样本，超高维”数据，为了降低数据运行程序的负担，依据实际实验背景，将原始数据中的异常数据，小关联数据筛选出来去掉，从而得到分群预处理数据集X＝[X_hj]_m×n；

(2)根据分类任务的类别，将分群预处理数据集X分为两类,即X⁺,X^-；通过相似性测量和幂邻接函数，分别构建出邻接矩阵

(3)将邻接矩阵转化为拓扑重叠矩阵，利用差异性测量分别构建正样本和负样本的分层聚类树；

(4)利用动态剪切树算法，分别计算出正样本中的重要模块和负样本中的重要模块；

(5)根据实际的实验背景，利用负样本中的模块来简化正样本中的模块，得到q个精简模块；根据精简后的网络模块，把相应的变量分为特征群，余下的每一个变量分别看作一个特征群，进而完成特征分群任务；

(6)根据上述分群策略将特征变量分成q个群，并构建稀疏群lasso模型：

\hat{β} (l a s s o) = \min_{β &Element; R^{p}} \frac{1}{2 m} | | y - Σ_{l = 1}^{q} X^{(l)} β^{(l)} | |_{2}^{2} + (1 - α) λ Σ_{l = 1}^{q} \sqrt{p_{l}} | | β^{(l)} | |_{2} + α λ | | β | |_{1} .

本发明在构建数据网络时，首先将实验测试的原始数据预处理，并分成两个数据集，便于网络的构建，此外也有利于以后根据动态聚类树显示的结果，将实验模块进行精简，将分群过程简化。

本发明在精简模块时，根据显示的正样本和负样本的分层聚类树图，选择出两个样本在分层聚类树中显示相同颜色的模块，比较出两样本中具有相同数据特征的变量，并筛选出来去掉，从而得出精简后的正样本模块，使得基于网络模块进行特征分群更具有生物意义。

附图说明

图1是本发明的总流程图；

图2是构建网络模块并据此对特征分群示意图；

图3是利用本发明对肝再生细胞增值数据构建的正样本模块分层聚类树图；

图4是利用本发明对肝再生细胞增值数据识别出的正样本模块重要性图；

图5是利用本发明对肝再生细胞增值数据识别出的简化正样本模块变量数目表；

图6是利用本发明识别出的部分与肝再生细胞增殖相关基因表。

具体实施方式

以下通过实施例对本发明的上述内容做进一步详细说明，但不应该将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明上述内容实现的技术均属于本发明的范围。

参照附图1，本发明的实施步骤如下：

步骤1：用基因探针探测出大鼠肝切除后肝细胞样本在2、6、12、24小时的基因表达谱数据，将其标记为正样本数据；同样方法可得未进行肝切除的对照组数据，将其标记为负样本数据；将原始数据中的基因变异、异常数据和小关联数据筛选出来去掉，从而得到分群预处理数据，其中未知变量(特征)为6995个。

步骤2：上述分群预处理数据，其为在4个时间节点采集的正负两类基因表达谱数据，每一类包含36个样本，每一个样本包含6995个变量(特征)，从而构建数据网络集

X^{+} = (x_{(i)}^{1}, x_{(i)}^{2}, x_{(i)}^{3}, . . . x_{(i)}^{6995}), (i = 1,2, . . . 36)

为实验样本数据集，

X^{-} = (x_{(i)}^{1}, x_{(i)}^{2}, x_{(i)}^{3}, . . . x_{(i)}^{6995}),

(i = 1,2, . . . 36)

为对照实验样本数据集。

步骤3：依据相似性测量和幂邻接函数，将预处理数据集X⁺,X^-转化为邻接网络矩阵

A^{+} = {[a_{h j}^{+}]}_{n_{1} \times n_{1}}, A^{-} = {[a_{h j}^{-}]}_{n_{2} \times n_{2}}, (n_{1}, n_{2} = 1, 2, ..., 6995) .

(3.1)依据相关性系数关系表达式:

s_{h j} = \frac{1 + c o r (x^{h}, x^{j})}{2}

x^h,x^j为预处理数据网络第h个变量和第j个变量的时间向量；cor(x^h,x^j)为第h个变量和第j个变量的相关系数；从而将原始数据网络转化为相关性系数网络矩阵s_(hj)(h,j＝1,2,…,6995)。

(3.2)利用幂邻接函数其中β′≥1并且h,j＝1,2…,6995，β′由近似的无标度拓扑准则，结合具体实验背景得β′＝9，计算出的矩阵A_hj(h,j＝1,2,…,6995)，即为邻接网络矩阵。

步骤4：由公式得到一个变量与群体变量的相关度矩阵，将K_j按照从大到小进行排序，分别在不同数据集中挑选出前3600个相关度较强的变量。

说明：K_j值越大说明此变量与其余变量相关性越强，在数据网络中越重要，此变量在群体变量中的份量越重，此变量即为所找的变量，所以要在前面m个K_j值较大的变量中进行分群。

步骤5：在上面选择的3600个变量中将邻接矩阵转化为拓扑重叠矩阵，计算出每个集合中的变量之间的相异系数构建出实验样本和对照样本分层聚类树；利用动态剪切树算法，分别识别出实验样本中的重要模块和对照样本中的重要模块；根据实际的实验背景，利用对照样本中的模块来简化实验样本中的模块，识别出简化的实验变量模块为12个；根据识别出的12个网络模块，把相应的3145个变量分为12个特征群，余下的每一个变量分别看作一个特征群，共计获得获得3862个特征群，进而完成特征分群任务；

参照附图2，根据本步骤按照特征群完成分群任务，具体实施如下：

(5.1)针对正、负样本的邻接矩阵，按照计算出网络中第h个变量与第j个变量的节点的拓扑矩阵。其中，如果ω_hj＝0，则表示第h个变量和第j个变量不共同拥有相同的邻接变量节点。将邻接矩阵转化为拓扑重叠矩阵，

Ω^{+} = {[ω_{hj}^{+}]}_{n_{1} \times n_{1}}, Ω^{-} = {[ω_{hj}^{-}]}_{n_{2} \times n_{2}};

(5.2)依据变量之间的相异系数构建出变量分层聚类树。

(5.3)利用动态剪切树算法分别识别出实验样本中和对照样本中的重要模块。

(5.4)选择出正、负样本在分层聚类树中显示相同颜色的模块，利用程序在正样本中比较出与负样本具有相同数据特征的变量，并筛选出来去掉；据此去掉455个特征后，得出精简后的12个网络模块。

(5.5)根据精简后的12个网络模块，把相应的3145个变量分为12个特征群，余下的每一个变量分别看作一个特征群，共计获得获得3862个特征群，进而完成特征分群任务；

说明：正样本网络模块为肝再生相关基因与伤口愈合等实验误差相关基因群，负样本网络模块为对照组相关基因组，精简后的网络模块为肝再生相关基因组。

参照附图3为利用本发明对上述具体正样本数据利用步骤5构建出的分层聚类树图；附图4是利用本发明根据分层聚类树用对照组简化后，识别出的正样本数据样本中的12个重要变量模块；附图5是本发明利用负样本重要网络模块简化正样本重要网络模块，获得的精简重要网络模块中不同颜色下包含的影响肝细胞增值的基因个数。为了更好的区分颜色，把12中颜色进行了编号，使之与颜色、模块对应。

步骤6：根据上述分群策略构建稀疏群lasso模型：

\hat{β} (l a s s o) = \min_{β &Element; R^{p}} \frac{1}{2 m} | | y - Σ_{l = 1}^{q} X^{(l)} β^{(l)} | |_{2}^{2} + (1 - α) λ Σ_{l = 1}^{q} \sqrt{p_{l}} | | β^{(l)} | |_{2} + α λ | | β | |_{1},

计算出回归系数，非零的回归系数对应肝再细胞增殖相关的重要基因，且回归系数的绝对值越大，该基因与细胞增殖的相关性也就越强。在上述模型中β为变量回归系数，m为正负样本总个数72，y＝(1,2,…,72)^T为时间响应向量，X^(l)为第l群的系统矩阵，q为特征群的总个数3862，α∈[0,1]为模型正则化系数(本实验中取值0.5)，λ为通过十重交叉检验方法取出的变量参数为2，p_l为第l群中的变量数目。

说明：p_l也即是附图5中显示的不同特征群中变量的数目，附图6是利用本发明进行特征分群，构建稀疏群lasso模型并求解得到的部分回归系数对应的重要基因，及其功能注释，即为与肝再生细胞增殖相关的部分基因说明表。

本专利的创新点分析说明如下：

(1)本发明公开一种易于操作的群lasso及其推广模型的特征分群方法，其主要创新体现在将网络分析中的模块选择与机器学习中lasso及其推广模型的特征分群进行有机结合；与传统的基于数据集随机自动分群方法相比，该方法更具有生物学意义；与基于基因调控网络的分群方法相比，该方法更易于在具有小样本、超高维特性的基因表达谱数据上操作。

(2)本发明通过精简网络模块减少了实验误差(伤口愈合、发炎等)对特征分群的影响。在精简模块中利用程序筛选出正、负样本的同色网络模块中所含有的共同特征变量，并在同色的正样本网络模块中将其去掉，同色网络模块所含有的共同特征变量是在肝再生过程中的伤口愈合等实验误差相关特征。

上述的分群运行结果，充分说明了本发明的有效性。以上实施例子仅用以说明而非限制本发明的技术思想，凡在本发明技术思想下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于网络分析的群lasso特征分群方法，其特征在于具体步骤为：

步骤(1)，用基因探针探测出大鼠2/3肝切除后肝细胞样本在2、6、12、24小时的基因表达谱数据，将其标记为正样本数据，同样方法可得未进行肝切除的对照组数据，将其标记为负样本数据，将原始数据中的基因变异、异常数据和小关联数据筛选出来去掉，从而得到分群预处理数据，其中未知变量(特征)为6995个；

步骤(2)，上述分群预处理数据，其为在4个时间节点采集的正负两类基因表达谱数据，每一类包含36个样本，每一个样本包含6995个变量(特征)，从而构建数据网络集

X^{+} = (x_{(i)}^{1}, x_{(i)}^{2}, x_{(i)}^{3}, ... x_{(i)}^{6995}), (i = 1, 2, ... 36)

为实验样本数据集，

X^{-} = (x_{(i)}^{1}, x_{(i)}^{2}, x_{(i)}^{3}, ... x_{(i)}^{6995}),

(i = 1,2, . . . 36)

为对照实验样本数据集；

步骤(3)，依据相似性测量和幂邻接函数，将预处理数据集X⁺,X^-转化为邻接网络矩阵

A^{+} = {[a_{h j}^{+}]}_{n_{1} \times n_{1}}, A^{-} = {[a_{n j}^{-}]}_{n_{2} \times n_{2}}, (n_{1}, n_{2} = 1, 2, ..., 6995);

步骤(4)，由公式K_j＝∑_ua_ju(j＝1,2,…,3600)得到一个变量与群体变量的相关度矩阵，将K_j按照从大到小进行排序，分别在两类数据集中挑选出前3600个相关度较强的变量；

步骤(5)，在上面选择的3600个变量中将邻接矩阵转化为拓扑重叠矩阵，计算出每个集合中的变量之间的相异系数构建出实验样本和对照样本分层聚类树，利用动态剪切树算法分别识别出实验样本中的重要模块和对照样本中的重要模块，根据实际的实验背景，利用对照样本中的模块来简化实验样本中的模块，识别出简化的实验变量模块为12个，根据识别出的12个网络模块，把相应的3145个变量分为12个特征群，余下的每一个变量分别看作一个特征群，共计获得获得3862个特征群，进而完成特征分群任务；

步骤(6)，根据上述分群策略构建稀疏群lasso模型：

\hat{β} (l a s s o) = \min_{β &Element; R^{p}} \frac{1}{2 m} | | y - Σ_{l = 1}^{q} X^{(l)} β^{(l)} | |_{2}^{2} + (1 - α) λ Σ_{l = 1}^{q} \sqrt{p_{l}} | | β^{(l)} | |_{2} + α λ | | β | |_{1},

计算出回归系数，非零的回归系数对应肝再细胞增殖相关的重要基因，且回归系数的绝对值越大，该基因与细胞增殖的相关性也就越强。在上述模型中β为变量回归系数，m为正负样本总个数72，y＝(1,2,…,72)^T为时间响应向量，X^(l)为第l群的系统矩阵，q为特征群的总个数3862，α∈[0,1]为模型正则化系数，λ为通过十重交叉检验方法取出的变量参数为2，p_l为第l群中的变量数目。

2.根据权利要求1所述的基于网络分析的群lasso特征分群方法，其特征在于步骤(5)的具体实施过程为：

(1)针对正、负样本的邻接矩阵，按照计算出网络中第h个变量与第j个变量的节点的拓扑矩阵，其中l_hj＝∑_ua_hua_uj(h,j＝1,2,…,3600)，如果ω_hj＝0，则表示第h个变量和第j个变量不共同拥有相同的邻接变量节点，进而将邻接矩阵转化为拓扑重叠矩阵，即

Ω^{+} = {[ω_{h j}^{+}]}_{n_{1} \times n_{1}}, Ω^{-} = {[ω_{h j}^{-}]}_{n_{2} \times n_{2}};

(2)依据变量之间的相异系数构建出变量分层聚类树；

(3)利用动态剪切树算法分别识别出实验样本中和对照样本中的重要模块；

(4)选择出正、负样本在分层聚类树中显示相同颜色的模块，利用程序在正样本中比较出与负样本具有相同数据特征的变量，并筛选出来去掉；据此去掉455个特征后，得出精简后的12个网络模块；

(5)根据精简后的12个网络模块，把相应的3145个变量分为12个特征群，余下的每一个变量分别看作一个特征群，共计获得3862个特征群，进而完成特征分群任务。