CN107301328B

CN107301328B - 基于数据流聚类的癌症亚型精准发现与演化分析方法

Info

Publication number: CN107301328B
Application number: CN201710355340.XA
Authority: CN
Inventors: 陈晋音; 郑海斌; 林翔; 熊晖; 李南; 应时彦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2021-04-06
Anticipated expiration: 2037-05-19
Also published as: CN107301328A

Abstract

一种基于数据流聚类的癌症亚型精准发现与演化分析方法，包括以下步骤：(a)基因表达数据流的初始化；(b)基因表达数据流在线实时聚类，将每个到达的数据点投入与之相对应的网格单元中，并在线维护网格；到达指定时间节点时，根据网格的密度信息对稀疏网格进行删除；(c)基因表达数据流离线精准聚类，将网格视作自带密度信息的虚拟数据点，采用基于密度‑距离分布的聚类方法对这些虚拟的数据点进行聚类，根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分，最终输出聚类结果；(d)类簇演化迁移分析。本发明提供一种精度较高的基于数据流聚类的癌症亚型精准发现与演化分析方法。

Description

基于数据流聚类的癌症亚型精准发现与演化分析方法

技术领域

本发明涉及一种基于数据流聚类的癌症亚型发现与演化分析方法。

背景技术

癌症亚型的鉴定在揭示疾病发病机理和促进个性化治疗方面起着重要的作用。经过几十年的研究，癌症的临床诊断和肿瘤特异性标志物的鉴定仍然存在不确定性。因此研究高效的生物数据挖掘方法已经成为生物信息学发展的重要方向和迫切需求。

聚类分析作为一种先进的数据分析和知识发现技术，已经在许多领域取得了成功应用。在生物信息领域，该技术也已显示出其巨大潜力。尤其是在基因表达数据分析方面，聚类分析已经得到了广泛的应用并成为主要技术手段之一。不管何种聚类算法，首先需要计算样本对象间的相似度，常用的基因表达模式相似度距离计算方法包括以下几种：(a)基于几何距离的相似度计算方法。几何距离可以衡量研究对象在空间上的距离远近关系，空间上相近的物体运用几何距离可以判断为同一类，而空间上较远的物体则判断为不同类。常见的几何距离有马氏距离、欧氏距离、切氏距离等。(b)线性相关系数。常用皮尔森相关系数来衡量基因表达模式的相似性。(c)非线性相关系数。某些在功能上有相关关系的基因虽然在表达上不具有严格的线性相关关系，但在时间点的波动趋势上却是相似的，在这种情况下可以用非线性相关模式来衡量基因间的距离。(d)互信息。线性与非线性相关系数都只能衡量基因间的单调相关关系，而对于那些在整个时间序列上基因间的表达没有单调升降关系的相似性可以用信息熵进行衡量。

广泛应用于基因表达数据的经典聚类算法有K均值聚类、层次聚类、基于模型聚类、自组织映射聚类(SMO)、模糊C均值聚类。由于基因组数据结构的复杂性和多组学数据的发展，这些经典聚类算法的应用受到了极大限制。在此基础上发展出针对癌症基因表达数据聚类的新方法，包括子空间聚类、投影聚类、双聚类等多种聚类技术。

(a)子空间聚类算法。基于距离的子空间聚类通常根据空间范式距离度量样本对象之间的相似性。其代表算法有CLIQUE算法和ENCLUS算法。CLIQUE算法能够自动发现任意子空间中的聚类结果，对数据集中的对象数和维数具有较好的可伸缩性，但对聚类结果维数的可伸缩性较差；ENCLUS算法使用信息熵作为单元格是否有助于聚类形成的度量，能够发现不同子空间中任意形状的重叠聚类。基于模式的子空间聚类算法有p-Clustering算法和Tri-Clustering算法。p-Clustering算法通过在不同实验条件下的表达模式差异来定义对象间的相似度，但它仅仅考虑了基因模式中垂直平移或成比例的模式，不能有效处理实验噪声；Tri-Clustering算法用于在三维微阵列矩阵中挖掘成比例模式，寻找满足条件的极大Tri-Cluster。

(b)投影聚类算法。投影聚类的概念和子空间聚类非常相似。一个投影聚类是一组在相关维形成的子空间中高度相似的对象集合。投影聚类要求从所有可能的样本划分和特征选择中发现一组使某个评估函数优化的聚类结果，这些结果互不相交。DOC和FastDOC是两种基于超立方体的投影聚类算法，在测试足够多的随机中心点时能得到较好的聚类效果，但是巨大的测试次数会降低算法的效率。同时，DOC和FastDOC算法对参数十分敏感。ORCLUS算法选择多个初始中心点形成初始对象集合，随后在迭代过程中合并相似的投影聚类成员，逐步形成最终的k个投影聚类。ORCLUS算法能发现任意形状的类簇，但是对于主成分分析的计算代价很大，在高维上的算法效率低。DPCLUS算法是基于分裂方式的投影聚类算法，涉及大量通过奇异值分解求解协方差矩阵特征值的计算，代价很大，且需要人为指定聚类结果的个数和每个聚类包含的最小维数。

(c)双聚类算法。双聚类与子空间聚类和投影聚类有着密切的联系。就每个单独聚类结果来看，双聚类与子空间聚类和投影聚类一样，都由对象子集和属性子集构成，具有局部特性；就聚类结果的相互关系和所用的技术特点来看，双聚类与子空间聚类和投影聚类又存在一定的区别。比较具有代表性的双聚类算法有Biclustering算法、FLOC算法和SAMBA算法。Biclustering算法通过将表达矩阵中每个投影值当做三个独立部分相互作用之和，引入平均平方剩余的概念来度量每一个子矩阵的内部一致性。Yang等人同时提出了一个基于启发式的算法FLOC，用来从给定的表达矩阵中发现满足要求的K个聚类。SAMBA算法是基于统计模型将双聚类问题转化成二分图中最大权重字图的搜索问题，为研究基因表达数据分析中的聚类技术开创了新的思路，局限性在于，限制每个顶点的“度”为一个常数，阻碍了包含较多对象或较高维数的聚类结果生产。

发明内容

为了克服已有基因表达数据聚类方式的精度较低的不足，本发明提供一种精度较高的基于数据流聚类的癌症亚型精准发现与演化分析方法。

本发明解决其技术问题所采用的技术方案是：

一种基于数据流聚类的癌症亚型精准发现与演化分析方法，包括以下步骤：

(a)基因表达数据流的初始化

对数据流的维度信息进行分析，并确定相似度距离计算方法；建立基因数据流对象的网格单元，并将数据按窗口投入网格中实现初始化；构建非均匀衰减模型，确定在线过程中数据流的非均匀衰减参数和网格密度信息更新方法；

(b)基因表达数据流在线实时聚类

将每个到达的数据点投入与之相对应的网格单元中，并在线维护网格；到达指定时间节点时，根据网格的密度信息对稀疏网格进行删除；

(c)基因表达数据流离线精准聚类

将网格视作自带密度信息的虚拟数据点，采用基于密度-距离分布的聚类方法对这些虚拟的数据点进行聚类，根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分，最终输出聚类结果；

(d)类簇演化迁移分析

将不同时间节点下的离线聚类结果按时间顺序进行保存，用以分析各个类簇随时间的变化情况，即基因表达数据的演化分析。

进一步，所述步骤(d)中，对于样本类簇的演化分析包括两方面的内容：一是对同一个类簇随时间的迁移变化情况进行分析，它反映了某一癌症亚型在一段时间内的自身属性结构变化；二是研究不同类簇之间的关联性随时间发生的变化，它表示在治疗过程中不同癌症亚型之间相互影响及转化关系的具体情况。；结合亚型演化的生物学意义，建立一个基于癌症亚型基因表达数据的动态调控时序网络模型，用以进一步分析亚型之间的转化情况和相互联系。

所述步骤(a)中，取基因数据流的初始数据流入在线聚类框架，建立首批在线网格，同时确立网格在线衰减模型的过程；网格的初始化包括确定每维属性的划分粒度、建立初始化网格和确定衰减模型参数。

所述步骤(b)中，采用非均匀衰减模型，根据当前时刻流入的数据的分散程度，使用不同的衰减系数λ对流入的数据进行衰减；

设数据流在t_p时刻流入的数据点落在n个网格内，此时系统存在密度不为0的网格总数为N，则定义该时刻下数据的分散程度为：

ω＝n/N (4)

可得ω∈(0,1]，ω的大小可以反映当前时刻流入数据的分布集中程度；设数据流流入网格后，所有网格的密度均值为D_ave，现设定参数μ，令：

其中，S_m表示所有密集网格的集合，S_p表示所有稀疏网格的集合，μ为阈值；

在非均匀衰减模型中，对于任意网格den，该网格从稀疏网格变为密集网格的最小时间为：

其中，λ_high为最大衰减系数，D_bd表示用于划分网格是否为高密度网格的网格阈值参数，根据公式(6)计算出的单位检测时间是在有效监控数据流实时变化的前提下的最大间隔时间；

采用最低权值检测机制，最低权值的阈值设定如下：

其中，t₀表示网格的创建时间，t_c表示当前时间；

是一个随时间t变化的递增函数。λ_low是最小衰减系数，此处将其作为最低权值阈值计算的一个参数；可以得到，当t_c＝t₀时，

值为0；且

说明网格存在时间越长，其期望权值就越高；若在t时刻，网格的密度小于

则从当前角度来看，该稀疏网格不大可能成长为密集网格，故将其删除。

所述步骤(c)中，利用选取置信区间的方式在与拟合曲线相应的正态分布曲线中寻找出奇异点的信息，此处奇异点表示落在置信区间以外的点，即是聚类的聚类中心，奇异点的个数代表了聚类中心的个数。采用正态曲线拟合并划定置信区间的方法自动确定聚类中心的个数，根据确定的聚类中心，将其余的点按密度快速划分一次扫描完成聚类，最终输出聚类结果。

本发明的技术构思为：随着二代测序技术的推广，高维基因表达谱数据不断增加，一方面来自不同癌症亚型的病患，另一方面来自于同一病患在诊疗过程中的不断跟踪检测；为了实现基于基因表达数据的癌症亚型精准发现，采用在线/离线双层数据流框架，设计一种基于网格的数据流快速聚类算法，对特征提取后的基因数据进行聚类分析，从而得到代表不同癌症亚型的样本类簇；每一个类簇表示一种潜在的癌症亚型，同一个类簇中的样本归为同一种癌症亚型。而类簇之间的差异则代表不同样本在基因层面的表达差异。进一步的，对这些类簇在“在线框架”中随时间的变化情况进行分析，研究每个类簇的演化特性和各个微簇之间的关联特性，在基因层面反映患者的病症变化情况。

本发明的有益效果主要表现在：精度较高。

附图说明

图1是面向基因表达数据的数据流聚类框架图。

图2是数据流初始化流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于数据流聚类的癌症亚型精准发现与演化分析方法，包括以下步骤：

(a)基因表达数据流的初始化。基因数据流数据预处理操作：对数据流的维度信息进行分析，并确定相似度距离计算方法；建立基因数据流对象的网格单元，并将数据按窗口投入网格中实现初始化；构建非均匀衰减模型，确定在线过程中数据流的非均匀衰减参数和网格密度信息更新方法。

(b)基因表达数据流在线实时聚类。为保证实时聚类要求，将每个到达的数据点投入与之相对应的网格单元中，并在线维护网格。到达指定时间节点时，根据网格的密度信息对稀疏网格进行删除。这种删除机制能够有效提高在线过程的抗噪能力，同时降低算法运行时所需的存储空间。在线过程对数据的快速处理有效地保持了网格信息的实时性和动态性。

(c)基因表达数据流离线精准聚类。将网格视作自带密度信息的虚拟数据点，采用基于密度-距离分布的聚类方法对这些虚拟的数据点进行聚类，根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分，最终输出聚类结果。

(d)类簇演化迁移分析。将不同时间节点下的离线聚类结果按时间顺序进行保存，用以分析各个类簇随时间的变化情况，即基因表达数据的演化分析。对于样本类簇的演化分析主要包括两方面的内容：一是对同一个类簇随时间的迁移变化情况进行分析，它反映了某一癌症亚型在一段时间内的自身属性结构变化；二是研究不同类簇之间的关联性随时间发生的变化，它表示在治疗过程中不同癌症亚型之间相互影响及转化关系的具体情况。结合亚型演化的生物学意义，可以建立一个基于癌症亚型基因表达数据的动态调控时序网络模型，用以进一步分析亚型之间的转化情况和相互联系。

基因数据流初始化，取基因数据流的初始数据流入在线聚类框架，建立首批在线网格，同时确立网格在线衰减模型的过程。网格的初始化包括确定每维属性的划分粒度、建立初始化网格和确定衰减模型参数三部分，具体操作流程如图2所示。

基因数据流的在线聚类，在HPStream的衰减模型中，衰减系数λ是人为设定的一个常量参数，不能对噪声点进行抑制，也不能对类簇的核心点进行信息保留。

采用非均匀衰减模型，其主要思路是：根据当前时刻流入的数据的分散程度，使用不同的衰减系数λ对流入的数据进行衰减，有效提高数据流聚类算法在在线过程中的抗噪能力。

ω＝n/N (4)

可得ω∈(0,1]，ω的大小可以反映当前时刻流入数据的分布集中程度。ω越小，表示流入的数据分布地越集中；ω越大，表示流入的数据分布地越分散。设数据流流入网格后，所有网格的密度均值为D_ave，现设定参数μ，令：

其中，S_m表示所有密集网格的集合，S_p表示所有稀疏网格的集合，μ为阈值。使用非均匀衰减模型的目的是抑制分布分散的噪声数据对在线聚类过程的干扰，同时加强对分布集中的核心点密度信息的保留，提高算法在在线聚类过程中的聚类性能。

在线聚类的网格更新与删除策略。在非均匀衰减模型中，对于任意网格den，该网格从稀疏网格变为密集网格的最小时间为：

其中，λ_high为最大衰减系数，D_bd表示用于划分网格是否为高密度网格的网格阈值参数。根据公式(6)计算出的单位检测时间是在有效监控数据流实时变化的前提下的最大间隔时间，能最大限度地相应减小网格列表的更新时间，降低算法的计算次数，提高算法的准确率。

为删除一些落入噪声点的网格，采用最低权值检测机制。最低权值的阈值设定如下：

其中，t₀表示网格的创建时间，t_c表示当前时间。

是一个随时间t变化的递增函数。λ_low是最小衰减系数，此处将其作为最低权值阈值计算的一个参数。可以得到，当t_c＝t₀时，

值为0；且

说明网格存在时间越长，其期望权值就越高。若在t时刻，网格的密度小于

数据流的离线精准聚类：设计了在给定密度半径下自动确定聚类中心的方法，实现密度半径自适应，最终得到了基于密度-距离的参数自适应聚类方法。利用选取置信区间的方式在与拟合曲线相应的正态分布曲线中寻找出奇异点的信息，此处奇异点表示落在置信区间以外的点，即是聚类的聚类中心，奇异点的个数代表了聚类中心的个数。采用正态曲线拟合并划定置信区间的方法自动确定聚类中心的个数，根据确定的聚类中心，将其余的点按密度快速划分一次扫描完成聚类，最终输出聚类结果。

基因数据的演化分析。通过演化分析可以定量描述各个类簇随时间的变化情况。对于患有疾病的样本，其病理特征在基因层面表现为多种癌症亚型，通过上述的数据流聚类方法能将具有相同癌症亚型的样本聚为一类，即一个类簇代表一种癌症亚型。在治疗期间，为探究一种药物对这些癌症亚型的影响，我们就需要分析在接受这种药物治疗之后，所有类簇的演化和迁移情况。类簇的演化迁移主要指类簇的特征发生了变化，如聚类中心位置的改变、类簇形状的变化等。常见的类簇演化形式主要有四种：类簇的产生、类簇的消失、类簇的合并和类簇的分裂。结合生物学意义，我们对这些演化情况进行深入研究，建立一个基于癌症亚型基因表达数据的动态调控时序网络模型，详细分析样本数据随时间的演化情况。

Claims

1.一种基于数据流聚类的癌症亚型精准发现与演化分析方法，其特征在于：包括以下步骤：

(a)基因表达数据流的初始化

对数据流的维度信息进行分析，并确定相似度距离计算方法；建立基因数据流对象的网格单元，并将数据按窗口投入网格中实现初始化；根据当前时刻流入的数据的分散程度，使用不同的衰减系数λ对流入的数据进行衰减,构建非均匀衰减模型，确定在线过程中数据流的非均匀衰减参数和网格密度信息更新方法；

(b)基因表达数据流在线实时聚类

(c)基因表达数据流离线精准聚类

(d)类簇演化迁移分析

2.如权利要求1所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法，其特征在于：所述步骤(d)中，对于样本类簇的演化分析包括两方面的内容：一是对同一个类簇随时间的迁移变化情况进行分析，它反映了某一癌症亚型在一段时间内的自身属性结构变化；二是研究不同类簇之间的关联性随时间发生的变化，它表示在治疗过程中不同癌症亚型之间相互影响及转化关系的具体情况；结合亚型演化的生物学意义，建立一个基于癌症亚型基因表达数据的动态调控时序网络模型，用以进一步分析亚型之间的转化情况和相互联系。

3.如权利要求1或2所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法，其特征在于：所述步骤(a)中，取基因数据流的初始数据流入在线聚类框架，建立首批在线网格，同时确立网格在线衰减模型的过程；网格的初始化包括确定每维属性的划分粒度、建立初始化网格和确定衰减模型参数。

4.如权利要求1或2所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法，其特征在于：所述步骤(b)中，采用非均匀衰减模型，根据当前时刻流入的数据的分散程度，使用不同的衰减系数λ对流入的数据进行衰减；

ω＝n/N (4)

其中，S_m表示所有密集网格的集合，S_p表示所有稀疏网格的集合，μ为阈值,D(den,t)表示任意网格den在t时刻大于等于设定的参数u乘以密度均值Dave时；

采用最低权值检测机制，最低权值的阈值设定如下：

其中，t₀表示网格的创建时间，t_c表示当前时间；

是一个随时间t变化的递增函数；λ_low是最小衰减系数，此处将其作为最低权值阈值计算的一个参数；可以得到，当t_c＝t₀时，

值为0；且

5.如权利要求1或2所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法，其特征在于：所述步骤(c)中，利用选取置信区间的方式在与拟合曲线相应的正态分布曲线中寻找出奇异点的信息，此处奇异点表示落在置信区间以外的点，即是聚类的聚类中心，奇异点的个数代表了聚类中心的个数；采用正态曲线拟合并划定置信区间的方法自动确定聚类中心的个数，根据确定的聚类中心，将其余的点按密度快速划分一次扫描完成聚类，最终输出聚类结果。