CN107301328B - 基于数据流聚类的癌症亚型精准发现与演化分析方法 - Google Patents

基于数据流聚类的癌症亚型精准发现与演化分析方法 Download PDF

Info

Publication number
CN107301328B
CN107301328B CN201710355340.XA CN201710355340A CN107301328B CN 107301328 B CN107301328 B CN 107301328B CN 201710355340 A CN201710355340 A CN 201710355340A CN 107301328 B CN107301328 B CN 107301328B
Authority
CN
China
Prior art keywords
clustering
data
grid
time
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710355340.XA
Other languages
English (en)
Other versions
CN107301328A (zh
Inventor
陈晋音
郑海斌
林翔
熊晖
李南
应时彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710355340.XA priority Critical patent/CN107301328B/zh
Publication of CN107301328A publication Critical patent/CN107301328A/zh
Application granted granted Critical
Publication of CN107301328B publication Critical patent/CN107301328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于数据流聚类的癌症亚型精准发现与演化分析方法,包括以下步骤:(a)基因表达数据流的初始化;(b)基因表达数据流在线实时聚类,将每个到达的数据点投入与之相对应的网格单元中,并在线维护网格;到达指定时间节点时,根据网格的密度信息对稀疏网格进行删除;(c)基因表达数据流离线精准聚类,将网格视作自带密度信息的虚拟数据点,采用基于密度‑距离分布的聚类方法对这些虚拟的数据点进行聚类,根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分,最终输出聚类结果;(d)类簇演化迁移分析。本发明提供一种精度较高的基于数据流聚类的癌症亚型精准发现与演化分析方法。

Description

基于数据流聚类的癌症亚型精准发现与演化分析方法
技术领域
本发明涉及一种基于数据流聚类的癌症亚型发现与演化分析方法。
背景技术
癌症亚型的鉴定在揭示疾病发病机理和促进个性化治疗方面起着重要的作用。经过几十年的研究,癌症的临床诊断和肿瘤特异性标志物的鉴定仍然存在不确定性。因此研究高效的生物数据挖掘方法已经成为生物信息学发展的重要方向和迫切需求。
聚类分析作为一种先进的数据分析和知识发现技术,已经在许多领域取得了成功应用。在生物信息领域,该技术也已显示出其巨大潜力。尤其是在基因表达数据分析方面,聚类分析已经得到了广泛的应用并成为主要技术手段之一。不管何种聚类算法,首先需要计算样本对象间的相似度,常用的基因表达模式相似度距离计算方法包括以下几种:(a)基于几何距离的相似度计算方法。几何距离可以衡量研究对象在空间上的距离远近关系,空间上相近的物体运用几何距离可以判断为同一类,而空间上较远的物体则判断为不同类。常见的几何距离有马氏距离、欧氏距离、切氏距离等。(b)线性相关系数。常用皮尔森相关系数来衡量基因表达模式的相似性。(c)非线性相关系数。某些在功能上有相关关系的基因虽然在表达上不具有严格的线性相关关系,但在时间点的波动趋势上却是相似的,在这种情况下可以用非线性相关模式来衡量基因间的距离。(d)互信息。线性与非线性相关系数都只能衡量基因间的单调相关关系,而对于那些在整个时间序列上基因间的表达没有单调升降关系的相似性可以用信息熵进行衡量。
广泛应用于基因表达数据的经典聚类算法有K均值聚类、层次聚类、基于模型聚类、自组织映射聚类(SMO)、模糊C均值聚类。由于基因组数据结构的复杂性和多组学数据的发展,这些经典聚类算法的应用受到了极大限制。在此基础上发展出针对癌症基因表达数据聚类的新方法,包括子空间聚类、投影聚类、双聚类等多种聚类技术。
(a)子空间聚类算法。基于距离的子空间聚类通常根据空间范式距离度量样本对象之间的相似性。其代表算法有CLIQUE算法和ENCLUS算法。CLIQUE算法能够自动发现任意子空间中的聚类结果,对数据集中的对象数和维数具有较好的可伸缩性,但对聚类结果维数的可伸缩性较差;ENCLUS算法使用信息熵作为单元格是否有助于聚类形成的度量,能够发现不同子空间中任意形状的重叠聚类。基于模式的子空间聚类算法有p-Clustering算法和Tri-Clustering算法。p-Clustering算法通过在不同实验条件下的表达模式差异来定义对象间的相似度,但它仅仅考虑了基因模式中垂直平移或成比例的模式,不能有效处理实验噪声;Tri-Clustering算法用于在三维微阵列矩阵中挖掘成比例模式,寻找满足条件的极大Tri-Cluster。
(b)投影聚类算法。投影聚类的概念和子空间聚类非常相似。一个投影聚类是一组在相关维形成的子空间中高度相似的对象集合。投影聚类要求从所有可能的样本划分和特征选择中发现一组使某个评估函数优化的聚类结果,这些结果互不相交。DOC和FastDOC是两种基于超立方体的投影聚类算法,在测试足够多的随机中心点时能得到较好的聚类效果,但是巨大的测试次数会降低算法的效率。同时,DOC和FastDOC算法对参数十分敏感。ORCLUS算法选择多个初始中心点形成初始对象集合,随后在迭代过程中合并相似的投影聚类成员,逐步形成最终的k个投影聚类。ORCLUS算法能发现任意形状的类簇,但是对于主成分分析的计算代价很大,在高维上的算法效率低。DPCLUS算法是基于分裂方式的投影聚类算法,涉及大量通过奇异值分解求解协方差矩阵特征值的计算,代价很大,且需要人为指定聚类结果的个数和每个聚类包含的最小维数。
(c)双聚类算法。双聚类与子空间聚类和投影聚类有着密切的联系。就每个单独聚类结果来看,双聚类与子空间聚类和投影聚类一样,都由对象子集和属性子集构成,具有局部特性;就聚类结果的相互关系和所用的技术特点来看,双聚类与子空间聚类和投影聚类又存在一定的区别。比较具有代表性的双聚类算法有Biclustering算法、FLOC算法和SAMBA算法。Biclustering算法通过将表达矩阵中每个投影值当做三个独立部分相互作用之和,引入平均平方剩余的概念来度量每一个子矩阵的内部一致性。Yang等人同时提出了一个基于启发式的算法FLOC,用来从给定的表达矩阵中发现满足要求的K个聚类。SAMBA算法是基于统计模型将双聚类问题转化成二分图中最大权重字图的搜索问题,为研究基因表达数据分析中的聚类技术开创了新的思路,局限性在于,限制每个顶点的“度”为一个常数,阻碍了包含较多对象或较高维数的聚类结果生产。
发明内容
为了克服已有基因表达数据聚类方式的精度较低的不足,本发明提供一种精度较高的基于数据流聚类的癌症亚型精准发现与演化分析方法。
本发明解决其技术问题所采用的技术方案是:
一种基于数据流聚类的癌症亚型精准发现与演化分析方法,包括以下步骤:
(a)基因表达数据流的初始化
对数据流的维度信息进行分析,并确定相似度距离计算方法;建立基因数据流对象的网格单元,并将数据按窗口投入网格中实现初始化;构建非均匀衰减模型,确定在线过程中数据流的非均匀衰减参数和网格密度信息更新方法;
(b)基因表达数据流在线实时聚类
将每个到达的数据点投入与之相对应的网格单元中,并在线维护网格;到达指定时间节点时,根据网格的密度信息对稀疏网格进行删除;
(c)基因表达数据流离线精准聚类
将网格视作自带密度信息的虚拟数据点,采用基于密度-距离分布的聚类方法对这些虚拟的数据点进行聚类,根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分,最终输出聚类结果;
(d)类簇演化迁移分析
将不同时间节点下的离线聚类结果按时间顺序进行保存,用以分析各个类簇随时间的变化情况,即基因表达数据的演化分析。
进一步,所述步骤(d)中,对于样本类簇的演化分析包括两方面的内容:一是对同一个类簇随时间的迁移变化情况进行分析,它反映了某一癌症亚型在一段时间内的自身属性结构变化;二是研究不同类簇之间的关联性随时间发生的变化,它表示在治疗过程中不同癌症亚型之间相互影响及转化关系的具体情况。;结合亚型演化的生物学意义,建立一个基于癌症亚型基因表达数据的动态调控时序网络模型,用以进一步分析亚型之间的转化情况和相互联系。
所述步骤(a)中,取基因数据流的初始数据流入在线聚类框架,建立首批在线网格,同时确立网格在线衰减模型的过程;网格的初始化包括确定每维属性的划分粒度、建立初始化网格和确定衰减模型参数。
所述步骤(b)中,采用非均匀衰减模型,根据当前时刻流入的数据的分散程度,使用不同的衰减系数λ对流入的数据进行衰减;
设数据流在tp时刻流入的数据点落在n个网格内,此时系统存在密度不为0的网格总数为N,则定义该时刻下数据的分散程度为:
ω=n/N (4)
可得ω∈(0,1],ω的大小可以反映当前时刻流入数据的分布集中程度;设数据流流入网格后,所有网格的密度均值为Dave,现设定参数μ,令:
Figure BDA0001298930120000041
其中,Sm表示所有密集网格的集合,Sp表示所有稀疏网格的集合,μ为阈值;
在非均匀衰减模型中,对于任意网格den,该网格从稀疏网格变为密集网格的最小时间为:
Figure BDA0001298930120000051
其中,λhigh为最大衰减系数,Dbd表示用于划分网格是否为高密度网格的网格阈值参数,根据公式(6)计算出的单位检测时间是在有效监控数据流实时变化的前提下的最大间隔时间;
采用最低权值检测机制,最低权值的阈值设定如下:
Figure BDA0001298930120000053
其中,t0表示网格的创建时间,tc表示当前时间;
Figure BDA0001298930120000054
是一个随时间t变化的递增函数。λlow是最小衰减系数,此处将其作为最低权值阈值计算的一个参数;可以得到,当tc=t0时,
Figure BDA0001298930120000055
值为0;且
Figure BDA0001298930120000052
说明网格存在时间越长,其期望权值就越高;若在t时刻,网格的密度小于
Figure BDA0001298930120000056
则从当前角度来看,该稀疏网格不大可能成长为密集网格,故将其删除。
所述步骤(c)中,利用选取置信区间的方式在与拟合曲线相应的正态分布曲线中寻找出奇异点的信息,此处奇异点表示落在置信区间以外的点,即是聚类的聚类中心,奇异点的个数代表了聚类中心的个数。采用正态曲线拟合并划定置信区间的方法自动确定聚类中心的个数,根据确定的聚类中心,将其余的点按密度快速划分一次扫描完成聚类,最终输出聚类结果。
本发明的技术构思为:随着二代测序技术的推广,高维基因表达谱数据不断增加,一方面来自不同癌症亚型的病患,另一方面来自于同一病患在诊疗过程中的不断跟踪检测;为了实现基于基因表达数据的癌症亚型精准发现,采用在线/离线双层数据流框架,设计一种基于网格的数据流快速聚类算法,对特征提取后的基因数据进行聚类分析,从而得到代表不同癌症亚型的样本类簇;每一个类簇表示一种潜在的癌症亚型,同一个类簇中的样本归为同一种癌症亚型。而类簇之间的差异则代表不同样本在基因层面的表达差异。进一步的,对这些类簇在“在线框架”中随时间的变化情况进行分析,研究每个类簇的演化特性和各个微簇之间的关联特性,在基因层面反映患者的病症变化情况。
本发明的有益效果主要表现在:精度较高。
附图说明
图1是面向基因表达数据的数据流聚类框架图。
图2是数据流初始化流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于数据流聚类的癌症亚型精准发现与演化分析方法,包括以下步骤:
(a)基因表达数据流的初始化。基因数据流数据预处理操作:对数据流的维度信息进行分析,并确定相似度距离计算方法;建立基因数据流对象的网格单元,并将数据按窗口投入网格中实现初始化;构建非均匀衰减模型,确定在线过程中数据流的非均匀衰减参数和网格密度信息更新方法。
(b)基因表达数据流在线实时聚类。为保证实时聚类要求,将每个到达的数据点投入与之相对应的网格单元中,并在线维护网格。到达指定时间节点时,根据网格的密度信息对稀疏网格进行删除。这种删除机制能够有效提高在线过程的抗噪能力,同时降低算法运行时所需的存储空间。在线过程对数据的快速处理有效地保持了网格信息的实时性和动态性。
(c)基因表达数据流离线精准聚类。将网格视作自带密度信息的虚拟数据点,采用基于密度-距离分布的聚类方法对这些虚拟的数据点进行聚类,根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分,最终输出聚类结果。
(d)类簇演化迁移分析。将不同时间节点下的离线聚类结果按时间顺序进行保存,用以分析各个类簇随时间的变化情况,即基因表达数据的演化分析。对于样本类簇的演化分析主要包括两方面的内容:一是对同一个类簇随时间的迁移变化情况进行分析,它反映了某一癌症亚型在一段时间内的自身属性结构变化;二是研究不同类簇之间的关联性随时间发生的变化,它表示在治疗过程中不同癌症亚型之间相互影响及转化关系的具体情况。结合亚型演化的生物学意义,可以建立一个基于癌症亚型基因表达数据的动态调控时序网络模型,用以进一步分析亚型之间的转化情况和相互联系。
基因数据流初始化,取基因数据流的初始数据流入在线聚类框架,建立首批在线网格,同时确立网格在线衰减模型的过程。网格的初始化包括确定每维属性的划分粒度、建立初始化网格和确定衰减模型参数三部分,具体操作流程如图2所示。
基因数据流的在线聚类,在HPStream的衰减模型中,衰减系数λ是人为设定的一个常量参数,不能对噪声点进行抑制,也不能对类簇的核心点进行信息保留。
采用非均匀衰减模型,其主要思路是:根据当前时刻流入的数据的分散程度,使用不同的衰减系数λ对流入的数据进行衰减,有效提高数据流聚类算法在在线过程中的抗噪能力。
设数据流在tp时刻流入的数据点落在n个网格内,此时系统存在密度不为0的网格总数为N,则定义该时刻下数据的分散程度为:
ω=n/N (4)
可得ω∈(0,1],ω的大小可以反映当前时刻流入数据的分布集中程度。ω越小,表示流入的数据分布地越集中;ω越大,表示流入的数据分布地越分散。设数据流流入网格后,所有网格的密度均值为Dave,现设定参数μ,令:
Figure BDA0001298930120000081
其中,Sm表示所有密集网格的集合,Sp表示所有稀疏网格的集合,μ为阈值。使用非均匀衰减模型的目的是抑制分布分散的噪声数据对在线聚类过程的干扰,同时加强对分布集中的核心点密度信息的保留,提高算法在在线聚类过程中的聚类性能。
在线聚类的网格更新与删除策略。在非均匀衰减模型中,对于任意网格den,该网格从稀疏网格变为密集网格的最小时间为:
Figure BDA0001298930120000082
其中,λhigh为最大衰减系数,Dbd表示用于划分网格是否为高密度网格的网格阈值参数。根据公式(6)计算出的单位检测时间是在有效监控数据流实时变化的前提下的最大间隔时间,能最大限度地相应减小网格列表的更新时间,降低算法的计算次数,提高算法的准确率。
为删除一些落入噪声点的网格,采用最低权值检测机制。最低权值的阈值设定如下:
Figure BDA0001298930120000083
其中,t0表示网格的创建时间,tc表示当前时间。
Figure BDA0001298930120000085
是一个随时间t变化的递增函数。λlow是最小衰减系数,此处将其作为最低权值阈值计算的一个参数。可以得到,当tc=t0时,
Figure BDA0001298930120000086
值为0;且
Figure BDA0001298930120000084
说明网格存在时间越长,其期望权值就越高。若在t时刻,网格的密度小于
Figure BDA0001298930120000087
则从当前角度来看,该稀疏网格不大可能成长为密集网格,故将其删除。
数据流的离线精准聚类:设计了在给定密度半径下自动确定聚类中心的方法,实现密度半径自适应,最终得到了基于密度-距离的参数自适应聚类方法。利用选取置信区间的方式在与拟合曲线相应的正态分布曲线中寻找出奇异点的信息,此处奇异点表示落在置信区间以外的点,即是聚类的聚类中心,奇异点的个数代表了聚类中心的个数。采用正态曲线拟合并划定置信区间的方法自动确定聚类中心的个数,根据确定的聚类中心,将其余的点按密度快速划分一次扫描完成聚类,最终输出聚类结果。
基因数据的演化分析。通过演化分析可以定量描述各个类簇随时间的变化情况。对于患有疾病的样本,其病理特征在基因层面表现为多种癌症亚型,通过上述的数据流聚类方法能将具有相同癌症亚型的样本聚为一类,即一个类簇代表一种癌症亚型。在治疗期间,为探究一种药物对这些癌症亚型的影响,我们就需要分析在接受这种药物治疗之后,所有类簇的演化和迁移情况。类簇的演化迁移主要指类簇的特征发生了变化,如聚类中心位置的改变、类簇形状的变化等。常见的类簇演化形式主要有四种:类簇的产生、类簇的消失、类簇的合并和类簇的分裂。结合生物学意义,我们对这些演化情况进行深入研究,建立一个基于癌症亚型基因表达数据的动态调控时序网络模型,详细分析样本数据随时间的演化情况。

Claims (5)

1.一种基于数据流聚类的癌症亚型精准发现与演化分析方法,其特征在于:包括以下步骤:
(a)基因表达数据流的初始化
对数据流的维度信息进行分析,并确定相似度距离计算方法;建立基因数据流对象的网格单元,并将数据按窗口投入网格中实现初始化;根据当前时刻流入的数据的分散程度,使用不同的衰减系数λ对流入的数据进行衰减,构建非均匀衰减模型,确定在线过程中数据流的非均匀衰减参数和网格密度信息更新方法;
(b)基因表达数据流在线实时聚类
将每个到达的数据点投入与之相对应的网格单元中,并在线维护网格;到达指定时间节点时,根据网格的密度信息对稀疏网格进行删除;
(c)基因表达数据流离线精准聚类
将网格视作自带密度信息的虚拟数据点,采用基于密度-距离分布的聚类方法对这些虚拟的数据点进行聚类,根据被确定的聚类中心点的密度信息对其他数据点进行快速的聚类划分,最终输出聚类结果;
(d)类簇演化迁移分析
将不同时间节点下的离线聚类结果按时间顺序进行保存,用以分析各个类簇随时间的变化情况,即基因表达数据的演化分析。
2.如权利要求1所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法,其特征在于:所述步骤(d)中,对于样本类簇的演化分析包括两方面的内容:一是对同一个类簇随时间的迁移变化情况进行分析,它反映了某一癌症亚型在一段时间内的自身属性结构变化;二是研究不同类簇之间的关联性随时间发生的变化,它表示在治疗过程中不同癌症亚型之间相互影响及转化关系的具体情况;结合亚型演化的生物学意义,建立一个基于癌症亚型基因表达数据的动态调控时序网络模型,用以进一步分析亚型之间的转化情况和相互联系。
3.如权利要求1或2所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法,其特征在于:所述步骤(a)中,取基因数据流的初始数据流入在线聚类框架,建立首批在线网格,同时确立网格在线衰减模型的过程;网格的初始化包括确定每维属性的划分粒度、建立初始化网格和确定衰减模型参数。
4.如权利要求1或2所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法,其特征在于:所述步骤(b)中,采用非均匀衰减模型,根据当前时刻流入的数据的分散程度,使用不同的衰减系数λ对流入的数据进行衰减;
设数据流在tp时刻流入的数据点落在n个网格内,此时系统存在密度不为0的网格总数为N,则定义该时刻下数据的分散程度为:
ω=n/N (4)
可得ω∈(0,1],ω的大小可以反映当前时刻流入数据的分布集中程度;设数据流流入网格后,所有网格的密度均值为Dave,现设定参数μ,令:
Figure FDA0002851017710000031
其中,Sm表示所有密集网格的集合,Sp表示所有稀疏网格的集合,μ为阈值,D(den,t)表示任意网格den在t时刻大于等于设定的参数u乘以密度均值Dave时;
在非均匀衰减模型中,对于任意网格den,该网格从稀疏网格变为密集网格的最小时间为:
Figure FDA0002851017710000032
其中,λhigh为最大衰减系数,Dbd表示用于划分网格是否为高密度网格的网格阈值参数,根据公式(6)计算出的单位检测时间是在有效监控数据流实时变化的前提下的最大间隔时间;
采用最低权值检测机制,最低权值的阈值设定如下:
Figure FDA0002851017710000033
其中,t0表示网格的创建时间,tc表示当前时间;
Figure FDA0002851017710000034
是一个随时间t变化的递增函数;λlow是最小衰减系数,此处将其作为最低权值阈值计算的一个参数;可以得到,当tc=t0时,
Figure FDA0002851017710000035
值为0;且
Figure FDA0002851017710000036
说明网格存在时间越长,其期望权值就越高;若在t时刻,网格的密度小于
Figure FDA0002851017710000037
则从当前角度来看,该稀疏网格不大可能成长为密集网格,故将其删除。
5.如权利要求1或2所述的一种基于数据流聚类的癌症亚型精准发现与演化分析方法,其特征在于:所述步骤(c)中,利用选取置信区间的方式在与拟合曲线相应的正态分布曲线中寻找出奇异点的信息,此处奇异点表示落在置信区间以外的点,即是聚类的聚类中心,奇异点的个数代表了聚类中心的个数;采用正态曲线拟合并划定置信区间的方法自动确定聚类中心的个数,根据确定的聚类中心,将其余的点按密度快速划分一次扫描完成聚类,最终输出聚类结果。
CN201710355340.XA 2017-05-19 2017-05-19 基于数据流聚类的癌症亚型精准发现与演化分析方法 Active CN107301328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710355340.XA CN107301328B (zh) 2017-05-19 2017-05-19 基于数据流聚类的癌症亚型精准发现与演化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710355340.XA CN107301328B (zh) 2017-05-19 2017-05-19 基于数据流聚类的癌症亚型精准发现与演化分析方法

Publications (2)

Publication Number Publication Date
CN107301328A CN107301328A (zh) 2017-10-27
CN107301328B true CN107301328B (zh) 2021-04-06

Family

ID=60137722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710355340.XA Active CN107301328B (zh) 2017-05-19 2017-05-19 基于数据流聚类的癌症亚型精准发现与演化分析方法

Country Status (1)

Country Link
CN (1) CN107301328B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243533B (zh) * 2018-07-26 2021-07-13 中山大学 一种用于计算基因的组织特异表达的鲁棒z-score打分方法
CN109975274B (zh) * 2019-04-16 2024-01-23 北京科技大学 一种高炉铁水硅含量在线快速检测装置
CN110379460B (zh) * 2019-06-14 2023-06-20 西安电子科技大学 一种基于多组学数据的癌症分型信息处理方法
CN110827924B (zh) * 2019-09-23 2024-05-07 平安科技(深圳)有限公司 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN113326509B (zh) * 2021-06-17 2022-07-19 浙江工业大学 基于互信息的深度学习模型中毒攻击检测方法及其装置
CN114786199A (zh) * 2022-04-21 2022-07-22 中国联合网络通信集团有限公司 一种网络问题点的确定方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268431A (zh) * 2013-05-21 2013-08-28 中山大学 一种基于学生t分布的癌症亚型生物标志物检测系统
CN105139035A (zh) * 2015-08-31 2015-12-09 浙江工业大学 基于密度的聚类中心自动确定的混合属性数据流聚类方法
CN106164296A (zh) * 2014-02-07 2016-11-23 阿尔玛克诊断有限公司 用于预测对抗血管生成药的应答和癌症预后的分子诊断测试
CN106484758A (zh) * 2016-08-09 2017-03-08 浙江经济职业技术学院 一种基于网格和聚类优化的实时数据流核密度估计方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122073B2 (en) * 2006-09-29 2012-02-21 The Invention Science Fund I Computational systems for biomedical data
US8959027B2 (en) * 2011-11-08 2015-02-17 Intermedhx, Llc Health portal data consolidation
CN106529165A (zh) * 2016-10-28 2017-03-22 合肥工业大学 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268431A (zh) * 2013-05-21 2013-08-28 中山大学 一种基于学生t分布的癌症亚型生物标志物检测系统
CN106164296A (zh) * 2014-02-07 2016-11-23 阿尔玛克诊断有限公司 用于预测对抗血管生成药的应答和癌症预后的分子诊断测试
CN105139035A (zh) * 2015-08-31 2015-12-09 浙江工业大学 基于密度的聚类中心自动确定的混合属性数据流聚类方法
CN106484758A (zh) * 2016-08-09 2017-03-08 浙江经济职业技术学院 一种基于网格和聚类优化的实时数据流核密度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CD44 isoforms are heterogeneously expressed in breast cancer and correlate with tumor subtypes and cancer stem cell markers;Eleonor Olsson等;《BMC Cancer》;20111231;第1-13页 *
基于基因组数据的癌症亚型发现聚类研究;许桃胜;《中国优秀硕士学位论文全文数据库医药卫生科技辑》;20170215;E072-3页 *

Also Published As

Publication number Publication date
CN107301328A (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN107301328B (zh) 基于数据流聚类的癌症亚型精准发现与演化分析方法
CN111242206B (zh) 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法
Jiang et al. DHC: a density-based hierarchical clustering method for time series gene expression data
Grover A study of various fuzzy clustering algorithms
Xia et al. Research on parallel adaptive canopy-k-means clustering algorithm for big data mining based on cloud platform
CN102227731A (zh) 基因聚类程序、基因聚类方法及基因聚类分析装置
Ghadiri et al. BigFCM: Fast, precise and scalable FCM on hadoop
CN108846261B (zh) 基于可视图算法的基因表达时序数据分类方法
de Arruda et al. A complex networks approach for data clustering
Wang et al. Hierarchical Dirichlet process model for gene expression clustering
CN113221065A (zh) 数据密度估计及回归方法、相应装置、电子设备、介质
CN114864003A (zh) 基于混合实验组和对照组单细胞样本的差异分析方法及系统
CN116629352A (zh) 一种亿级参数寻优平台
CN109545275A (zh) 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法
CN114386466B (zh) 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
Wilkins et al. Comparison of five clustering algorithms to classify phytoplankton from flow cytometry data
CN117078114A (zh) 引水工程影响下受水湖泊水质评价方法和系统
Sakthi et al. An enhanced K means clustering using improved Hopfield artificial neural network and genetic algorithm
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
Das et al. A pattern matching approach for clustering gene expression data
Priscilla et al. A semi-supervised hierarchical approach: Two-dimensional clustering of microarray gene expression data
Arnaldo et al. A new way to obtain the initial centroid clusters in Fuzzy C-Means algorithm
CN113205124A (zh) 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质
CN113868597A (zh) 一种用于年龄估计的回归公平性度量方法
Padma et al. A modified algorithm for clustering based on particle swarm optimization and K-means

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant