CN102184349A - 基于流形学习的基因表达数据的聚类系统及方法 - Google Patents

基于流形学习的基因表达数据的聚类系统及方法 Download PDF

Info

Publication number
CN102184349A
CN102184349A CN201110112132XA CN201110112132A CN102184349A CN 102184349 A CN102184349 A CN 102184349A CN 201110112132X A CN201110112132X A CN 201110112132XA CN 201110112132 A CN201110112132 A CN 201110112132A CN 102184349 A CN102184349 A CN 102184349A
Authority
CN
China
Prior art keywords
gene expression
expression data
matrix
clustering
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110112132XA
Other languages
English (en)
Inventor
孙周宝
韩立新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201110112132XA priority Critical patent/CN102184349A/zh
Publication of CN102184349A publication Critical patent/CN102184349A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于流形学习的基因表达数据的聚类方法,步骤为:通过获取系统获取基因表达数据矩阵A,采用局部线性平滑算法对其进行预处理;引入处理过的数据矩阵A,在三维空间中进行构建加权邻域图G;用两点间最短路径近似两点间测地线距离;用MDS计算二维嵌入坐标,将三维空间数据矩阵A映射到二维可视化空间;采用K均值聚类算法在映射后的二维可视化空间上进行聚类,得出聚类结果。此种聚类方法具有计算代价小、可以消除高阶冗余、适合于模式分类任务等特点,可以根据聚类结果有效区分细胞的当前状态、药物对恶性细胞的有效性等,获取生物体中基因的具体功能和表达调控信息。本发明还提供一种基于流形学习的基因表达数据的聚类系统。

Description

基于流形学习的基因表达数据的聚类系统及方法
技术领域
本发明属于数据挖掘处理领域,特别涉及一种基于流形学习的基因表达数据的聚类系统及方法。
背景技术
科学的进步,特别是生物信息学的迅速发展,把我们带入了一个崭新的时代,作为生命科学以及自然科学的核心、前沿领域之一,人类对于基因序列的奥秘还知之甚少,破解其生物信息以及相关的内容还有很长的路要走。高通量的微阵列检测技术是近几年生物学实验技术的一个显著突破,利用该技术可以同时对成千上万个基因的转录水平进行平行分析,根据转录产物的含量信息,从而产生了大规模的基因表达实验数据。由于细胞种类繁多,同时基因表达具有时空特异性,基因表达数据更为复杂,数据量更大,增长速度更快,如何将海量的数据中包含的丰富生物信息和知识进行迅速有效的组织、浓缩、提取、分类处理和存储就成了一个瓶颈。
面对海量的数据库以及大量繁杂的生物信息,机器学习、统计数据分析等方法在这个背景下迅速发展,巨大的计算量、复杂的噪声模式、海量的时变数据给传统的分析带来了巨大的困难。数据挖掘中的聚类分析是一种有效的数据分析工具,已广泛应用于数据处理、信号处理、图像分析等领域,而且可以用来提取、分类基因表达数据中有价值的生物信息,从而进一步提高生物信息的利用率。为了对基因表达数据进行有效的聚类,近些年来,大量的聚类算法(包括传统的聚类算法、双聚类算法等)相继被提出并应用到生物信息学的研究当中,但是目前的聚类方法主要是在二维空间上从相似性度量准则等方面进行聚类,而且假设基因表达数据存在的结构为全局线性结构,即各变量之间是独立无关的,虽然这些聚类方法的使用有助于对基因功能、细胞过程以及基因间相互调控关系的研究,但是,面对现有基因表达数据的高数据量、高维数、高增长率以及非结构化等特点,目前的这些聚类方法很难对高维的基因表达数据进行有效的聚类,发现其真实内在结构。
经对现有文献技术的检索发现,L.Zhao等人在Proceedings of the 2005 ACM SIGMOD International Conference on Management of Data,ACM,New York,NY,USA(ISBN:1-59593-060-4)中首次阐述了三维聚类方法Tricluster,并将其应用在基因表达数据上。Tricluster算法通过构建基因与样本的多重图得到双聚类结果从而再次构建双聚类与时间的多重图,进而得到三聚类结果。由此可以看出,Tricluster并不是对基因表达数据从三维上同时进行聚类操作。近年来的研究发现,真实世界中的数据往往是高维的,难以表示、理解和处理,需要采用数据降维以获得较容易分析理解的低维数据,尤其是非线性降维成为数据挖掘的一个重要手段,而且高维的基因表达数据属于本质上的低维流形,为此,研究人员将目光投向了非线性流形学习。
流形学习算法的研究是涉及拓扑学、机器学习、图论、信号处理等多个领域交叉的结果,作为一种新的非监督学习方法,它的目的是寻找嵌入在高维数据中的低维流形结构,发现高维数据分布的内在几何结构,挖掘隐藏在高维数据中的本征信息和内在规律,甚至找出产生数据集的内在变量,从而减少数据空间变化的自由度,达到维数约简或数据可视化的目的,然后通过传统的聚类算法聚类出结果,自2000年以来,学者们提出了很多流形学习算法,比如局部线性嵌入(Locally Linear Embedding,LLE),拉普拉斯映射(Laplacian Eigenmap,LE),局部保存投影(Locality Preserving Projection,LPP)等,可以直接获得数据点的低维映射结构,可视化效果非常出色。
上述的基因表达数据聚类算法中,传统聚类算法从单个方向进行聚类,无法发现数据的局部信息;双聚类算法可以有效地挖掘出局部信息,但无法适用于更高维的基因表达数据;而流形学习算法是一个比较新且应用前景非常广泛的技术,相比较而言,其能够克服基因表达数据的高维特征造成的影响。随着研究的不断深入及相关应用的推广,非线性流形学习也已经从最初的非监督学习发展到了监督和半监督学习,已成为机器学习相关领域的一个研究热点,针对流形学习的研究和应用也会越来越多,对生物信息学领域的研究也将更为有效及深入。
基于以上分析,本发明人将现有的聚类算法与流形算法进行有效结合,以期提高对数据的聚类效果,本案由此产生。
发明内容
本发明所要解决的技术问题,是针对前述背景技术中的缺陷和不足,提供一种基于流形学习的基因表达数据的聚类系统及方法,具有计算代价小、可以消除高阶冗余、适合于模式分类任务等特点,可以根据聚类结果有效区分细胞的当前状态(正常还是恶化)、药物对恶性细胞的有效性等,获取生物体中基因的具体功能和表达调控信息。
本发明为解决以上技术问题,所采用的技术方案是:
一种基于流形学习的基因表达数据的聚类系统,包括通过数据线相互连接的获取系统和计算机,其中,获取系统包括外壳、支架、透光载玻片、微阵列芯片、激光扫描仪、滴管和清洗装置,支架设于外壳内的底部,透光载玻片设于支架上,而微阵列芯片置于透光载玻片上;外壳内的顶部固定有激光扫描仪和滴管,而清洗装置嵌设于外壳的侧面。
上述激光扫描仪的头部嵌入外壳内。
一种基于前述基于流形学习的基因表达数据的聚类系统的方法,包括如下步骤:
(1)通过基因表达数据的获取系统获取基因表达数据矩阵A;
(2)采用局部线性平滑算法对数据矩阵A进行预处理;
(3)引入步骤(2)中处理过的数据矩阵A,在三维空间中进行构建加权邻域图G;
(4)计算最短路径,用两点间最短路径近似两点间测地线距离,距离较近的点直接用邻接矩阵DG中的权值距离代替,而距离比较远的点则通过迭代的Dijkstra算法方法计算得到;
(5)用多维尺度变换方法计算二维嵌入坐标,将三维空间数据矩阵A映射到二维可视化空间;
(6)采用k均值聚类算法在映射后的二维可视化空间上进行聚类,得出聚类结果。
上述步骤(2)的过程为:
21)确定样本点xi的k个(取值范围为20-30)近邻点xij,j=1,2......k,记作
Figure BDA0000058675920000051
22)采用迭代权值选取方法计算权值向量wi,并将其正交化∑jwi,j=1;
23)采用加权PCA方法计算样本点xi处切线空间的估计值:
Σ j w i , j | | x i j - ( x i ‾ w + U i θ j ( i ) ) | | 2 2 = min c , U , θ j Σ j w i , j | | x i j - ( c + U θ j ) | | 2 2
其中Rm×d是嵌入在m维欧几里得空间中的d维流形,d<m,U∈Rm×d是构成映射子空间的标准正交基,c∈Rm为映射空间的置换,||·||2为向量的欧几里得空间标准化,θj代表映射子空间中点的局部坐标;
24)将样本点xi投影到估计的切线空间内,得到样本点xi的估计值
Figure BDA0000058675920000053
其中
Figure BDA0000058675920000054
噪音数据所对应的权值较小。
上述步骤(3)中确定邻域图G的边的方法为:计算矩阵A中每个样本点xi同其余样本点之间的欧氏距离,当xj是xi的最近的k个邻近点中一个时,即认为它们彼此是相邻的,图G中存在边xixj
上述步骤(3)中确定邻域图G的边的方法为:当xi和xj的欧式距离小于固定值ε时,认为图G中有边xixj,并以样本点间的欧式距离作为权重赋予边xixj,由此可以得到邻接矩阵DG
上述步骤(4)的具体步骤为:
41)当邻域图G中存在边xixj时,设最短路径dG(xi,xj)=d(xi,xj),否则设dG(xi,xj)=∞;
42)对于空间中的所有样本点l=1,2......N,N为样本的个数,最短路径通过下式计算:
dG(xi,xj)=min{dG(xi,xj),dG(xi,xl)+dG(xl,xj)}
43)通过上式可得到描述基因表达数据全局流形结构的最短路径的距离矩阵
Figure BDA0000058675920000061
它由图G中所有样本点之间的最短路径的平方组成。
上述步骤(5)的具体步骤为:
51)假设f为三维空间到二维空间的映射函数,yi为样本点xi的二维投影:yi=f(xi),则该映射的目标函数即为保持映射前后样本点之间的最短路径,即:
f = arg min Σ i , j ( d G ( x i , x j ) - d ( f ( x i ) , f ( x j ) ) ) 2
其中d(f(xi),f(xj)为基因表达数据映射后二维空间中对应的欧式距离;
52)多维尺度变换方法把距离矩阵DG作为差异性矩阵,不失一般性,假设样本点被中心化,即
Figure BDA0000058675920000063
则有
Figure BDA0000058675920000064
其中e为单位列向量,使用DY表示降维后二维空间中的欧式距离矩阵,τ(DY)为对应的内积矩阵,则上一步中目标函数等价于:
Figure BDA0000058675920000065
其中
Figure BDA0000058675920000066
53)假设映射函数f(x)=uTx,则τ(DY)=YTY=XTuuTX,前述目标函数可转化为求解特征值与特征向量:X||τ(DG)||XTu=λXXTu,内积矩阵τ(DG)的两个最大特征值λ1和λ2以及对应的特征向量u1和u2所构成的映射转换矩阵为U=[u1,u2],那么T=diag(λ1 1/2,λ2 1/2)UT是二维嵌入的映射结果。
采用上述方案后,本发明采用非线性降维方法等距映射(ISOMAP)将通过微阵列技术获取的三维基因表达数据进行降维,将流形上邻近的点映射到二维可视化空间中的邻近点,不但可以保持样本的内在结构,直接得到三维基因表达数据在二维可视化空间的投影矩阵,大大降低计算成本,还可以更加准确的发现基因之间的共调控关系,提高聚类精确度。其优点主要体现在:
(1)去除了基因表达数据的奇异值以及噪声数据,从而使等距映射方法能够更有效的提取数据中的鉴别特征;
(2)保持了样本数据的流形结构信息,相比于传统的线性算法如PCA等基于全局欧式距离的假设,本发明克服了传统线性算法在处理非线性时问题时的缺点,能更好的保持样本数据的内在几何结构;
(3)可以有效处理三维甚至更高维的基因表达数据,能较好的获得二维空间的映射,计算代价小。
附图说明
图1是本发明聚类系统的结构示意图;
图2是本发明聚类方法的流程图;
图3是本发明聚类方法中基因表达数据预处理的流程图。
具体实施方式
以下将结合附图,对本发明的结构及工作流程进行详细说明。
如图1所示,本发明提供一种基于流形学习的基因表达数据的聚类系统,包括基因表达数据的获取系统S和计算机C,基因表达数据的获取系统S通过USB数据线8与计算机C连接,系统S包括一个中空的外壳7,所述外壳7的底部设置有支架6,支架6上放置有透光载玻片5,该透光载玻片5用于放置微阵列芯片2;而外壳7的顶部设置有激光扫描仪4,且激光扫描仪4的头部嵌入外壳7内;外壳7的顶部还设有滴管1,而外壳7的侧面则嵌入一个清洗装置3。
前述聚类系统的工作原理为:基因表达数据获取时,通过将滴管1中带有荧光标记的待测样品加入到微阵列芯片2上,与探针在65℃下杂交16小时,杂交反应完成后,使用装有清洗液的清洗装置3对杂交反应后的微阵列芯片2在室温下清洗5分钟,然后用激光扫描仪4扫描微阵列芯片2并获取荧光图像,将获得的图像通过USB数据线8输入到计算机C中,由计算机C对获得的图像进行分析,得到微阵列芯片2上每一点的荧光强度值,即基因表达数据,最后使用计算机C对基因表达数据进行预处理、聚类,得到聚类结果。
再请参考图2所示,基于以上聚类系统的一种基于流形学习的基因表达数据的聚类方法,其具体步骤如下:
(1)通过系统S获取基因表达数据矩阵A;
(2)采用局部线性平滑算法对基因表达数据矩阵A进行预处理,主要是采取局部加权主成分分析(Principal Component Analysis,PCA)方法以及迭代的权值选取规则达到实现鲁棒的局部线性平滑处理,去除奇异值与噪声数据,详细过程按下述步骤进行:
21)确定样本点xi的k(取值范围为20-30)个近邻点xij,其中j=1,2......k,则k个近邻点分别记作
Figure BDA0000058675920000081
22)采用迭代权值选取方法计算权值向量wi,并将其正交化∑jwi,j=1;
23)采用加权PCA方法计算样本点xi处切线空间的估计值:
Σ j w i , j | | x i j - ( x i ‾ w + U i θ j ( i ) ) | | 2 2 = min c , U , θ j Σ j w i , j | | x i j - ( c + U θ j ) | | 2 2
其中Rm×d是嵌入在m维欧几里得空间中的d维流形,d<m,U∈Rm×d是构成映射子空间的标准正交基,c∈Rm为映射空间的置换,||·||2为向量的欧几里得空间标准化,θj代表映射子空间中点的局部坐标;
24)将样本点xi投影到估计的切线空间内,得到样本点xi的估计值
Figure BDA0000058675920000092
其中
Figure BDA0000058675920000093
噪音数据所对应的权值较小;
(3)引入步骤(2)中处理过的数据矩阵A,在三维空间中进行构建加权邻域图G;
主要有两种方法确定邻域图G的边:一是采用k近邻方法,计算矩阵A中每个样本点xi同其余样本点之间的欧氏距离,当xj是xi的最近的k个邻近点中一个时,即认为它们彼此是相邻的,图G中存在边xixj;二是采用ε阈值法,当xi和xj的欧式距离小于固定值ε时,认为图G中有边xixj,并以样本点间的欧式距离作为权重赋予边xixj,由此可以得到邻接矩阵DG,本方案采用了k近邻方法;
(4)计算最短路径,用两点间最短路径近似两点间测地线距离,具体可以分为两种情况:距离较近的点直接用邻接矩阵DG中的权值距离代替,而距离比较远的点则通过迭代的Dijkstra算法方法计算得到。具体步骤如下:
41)当图G中存在边xixj时,设最短路径dG(xi,xj)=d(xi,xj),否则设dG(xi,xj)=∞;
42)对于空间中的所有样本点l=1,2,…,N,N为样本的个数,采用迭代的Dijkstra算法计算最短路径,最短路径通过下式计算:
dG(xi,xj)=min{dG(xi,xj),dG(xi,xl)+dG(xl,xj)}
43)通过上式可得到描述基因表达数据全局流形结构的最短路径的距离矩阵它由图G中所有样本点之间的最短路径的平方组成;
(5)用多维尺度变换方法计算二维嵌入坐标,将三维空间数据矩阵A映射到二维可视化空间。通过保持映射前后基因表达数据样本点之间的最短路径而给出目标函数,通过求解此目标函数求取基因表达数据矩阵二维映射矩阵,使目标函数的求解转化为特征值及其特征向量的求解问题;
51)假设f为三维空间到二维空间的映射函数,yi为样本点xi的二维投影:yi=f(xi),则该映射的目标函数即为保持映射前后样本点之间的最短路径,即:
f = arg min Σ i , j ( d G ( x i , x j ) - d ( f ( x i ) , f ( x j ) ) ) 2
其中d(f(xi),f(xj)为基因表达数据映射后二维空间中对应的欧式距离;
52)多维尺度变换方法把样本之间的距离矩阵DG作为差异性矩阵,不失一般性,假设样本点被中心化,即
Figure BDA0000058675920000103
则有
Figure BDA0000058675920000104
其中e为单位列向量,使用DY表示降维后二维空间中的欧式距离矩阵,τ(DY)为对应的内积矩阵,则上一步目标函数等价于:
Figure BDA0000058675920000111
其中
Figure BDA0000058675920000112
53)假设映射函数f(x)=uTx,则τ(DY)=YTY=XTuuTX,上述目标函数可转化为:X||τ(DG)||XTu=λXXTu,τ(DG)的两个最大特征值λ1和λ2以及对应的特征向量u1和u2所构成的映射转换矩阵为U=[u1,u2],那么T=diag(λ1 1/2,λ2 1/2)UT是二维嵌入的映射结果;
(6)采用k均值聚类算法在映射后的二维可视化空间上进行聚类,得出聚类结果。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (8)

1.一种基于流形学习的基因表达数据的聚类系统,其特征在于:包括通过数据线相互连接的获取系统和计算机,其中,获取系统包括外壳、支架、透光载玻片、微阵列芯片、激光扫描仪、滴管和清洗装置,支架设于外壳内的底部,透光载玻片设于支架上,而微阵列芯片置于透光载玻片上;外壳内的顶部固定有激光扫描仪和滴管,而清洗装置嵌设于外壳的侧面。
2.如权利要求1所述的基于流形学习的基因表达数据的聚类系统,其特征在于:所述激光扫描仪的头部嵌入外壳内。
3.一种基于如权利要求1所述的基于流形学习的基因表达数据的聚类系统的方法,其特征在于包括如下步骤:
(1)通过基因表达数据的获取系统获取基因表达数据矩阵A;
(2)采用局部线性平滑算法对数据矩阵A进行预处理;
(3)引入步骤(2)中处理过的数据矩阵A,在三维空间中进行构建加权邻域图G;
(4)计算最短路径,用两点间最短路径近似两点间测地线距离,距离较近的点直接用邻接矩阵DG中的权值距离代替,而距离比较远的点则通过迭代的Dijkstra算法方法计算得到;
(5)用多维尺度变换方法计算二维嵌入坐标,将三维空间数据矩阵A映射到二维可视化空间;
(6)采用k均值聚类算法在映射后的二维可视化空间上进行聚类,得出聚类结果。
4.如权利要求3所述的基于流形学习的基因表达数据的聚类方法,其特征在于所述步骤(2)的过程为:
21)确定样本点xi的k个(取值范围为20-30)近邻点xij,j=1,2......k,记作
22)采用迭代权值选取方法计算权值向量wi,并将其正交化∑jwi,j=1;
23)采用加权PCA方法计算样本点xi处切线空间的估计值:
Σ j w i , j | | x i j - ( x i ‾ w + U i θ j ( i ) ) | | 2 2 = min c , U , θ j Σ j w i , j | | x i j - ( c + U θ j ) | | 2 2
其中Rm×d是嵌入在m维欧几里得空间中的d维流形,d<m,U∈Rm×d是构成映射子空间的标准正交基,c∈Rm为映射空间的置换,||·||2为向量的欧几里得空间标准化,θj代表映射子空间中点的局部坐标;
24)将样本点xi投影到估计的切线空间内,得到样本点xi的估计值
Figure FDA0000058675910000023
其中
Figure FDA0000058675910000024
Figure FDA0000058675910000025
噪音数据所对应的权值较小。
5.如权利要求3所述的基于流形学习的基因表达数据的聚类方法,其特征在于所述步骤(3)中确定邻域图G的边的方法为:计算矩阵A中每个样本点xi同其余样本点之间的欧氏距离,当xj是xi的最近的k个邻近点中一个时,即认为它们彼此是相邻的,图G中存在边xixj
6.如权利要求3所述的基于流形学习的基因表达数据的聚类方法,其特征在于所述步骤(3)中确定邻域图G的边的方法为:当xi和xj的欧式距离小于固定值ε时,认为图G中有边xixj,并以样本点间的欧式距离作为权重赋予边xixj,由此可以得到邻接矩阵DG
7.如权利要求3所述的基于流形学习的基因表达数据的聚类方法,其特征在于所述步骤(4)的具体步骤为:
41)当邻域图G中存在边xixj时,设最短路径dG(xi,xj)=d(xi,xj),否则设dG(xi,xj)=∞;
42)对于空间中的所有样本点l=1,2......N,N为样本的个数,最短路径通过下式计算:
dG(xi,xj)=min{dG(xi,xj),dG(xi,xl)+dG(xl,xj)}
43)通过上式可得到描述基因表达数据全局流形结构的最短路径的距离矩阵它由图G中所有样本点之间的最短路径的平方组成。
8.如权利要求3所述的基于流形学习的基因表达数据的聚类方法,其特征在于所述步骤(5)的具体步骤为:
51)假设f为三维空间到二维空间的映射函数,yi为样本点xi的二维投影:yi=f(xi),则该映射的目标函数即为保持映射前后样本点之间的最短路径,即:
f = arg min Σ i , j ( d G ( x i , x j ) - d ( f ( x i ) , f ( x j ) ) ) 2
其中d(f(xi),f(xj)为基因表达数据映射后二维空间中对应的欧式距离;
52)多维尺度变换方法把距离矩阵DG作为差异性矩阵,不失一般性,假设样本点被中心化,即则有
Figure FDA0000058675910000034
其中e为单位列向量,使用DY表示降维后二维空间中的欧式距离矩阵,τ(DY)为对应的内积矩阵,则上一步中目标函数等价于:
Figure FDA0000058675910000041
其中
Figure FDA0000058675910000042
53)假设映射函数f(x)=uTx,则τ(DY)=YTY=XTuuTX,前述目标函数可转化为求解特征值与特征向量:X||τ(DG)||XTu=λXXTu,内积矩阵τ(DG)的两个最大特征值λ1和λ2以及对应的特征向量u1和u2所构成的映射转换矩阵为U=[u1,u2],那么T=diag(λ1 1/2,λ2 1/2)UT是二维嵌入的映射结果。
CN201110112132XA 2011-04-29 2011-04-29 基于流形学习的基因表达数据的聚类系统及方法 Pending CN102184349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110112132XA CN102184349A (zh) 2011-04-29 2011-04-29 基于流形学习的基因表达数据的聚类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110112132XA CN102184349A (zh) 2011-04-29 2011-04-29 基于流形学习的基因表达数据的聚类系统及方法

Publications (1)

Publication Number Publication Date
CN102184349A true CN102184349A (zh) 2011-09-14

Family

ID=44570524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110112132XA Pending CN102184349A (zh) 2011-04-29 2011-04-29 基于流形学习的基因表达数据的聚类系统及方法

Country Status (1)

Country Link
CN (1) CN102184349A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789490A (zh) * 2012-07-04 2012-11-21 苏州大学 一种数据可视化方法及系统
CN103106283A (zh) * 2013-02-28 2013-05-15 北京奇虎科技有限公司 去重处理方法及装置
CN103745137A (zh) * 2014-01-30 2014-04-23 思博奥科生物信息科技(北京)有限公司 一种跨芯片平台的基因表达数据整合方法
CN104200134A (zh) * 2014-08-30 2014-12-10 北京工业大学 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN105653670A (zh) * 2015-12-29 2016-06-08 中国电力科学研究院 一种基于流形学习聚类算法的智能用电数据挖掘方法
CN106055613A (zh) * 2016-05-26 2016-10-26 华东理工大学 一种基于混合范数的数据分类训练数据库清洗方法
CN106446603A (zh) * 2016-09-29 2017-02-22 福州大学 基于改进pso算法的基因表达数据聚类方法
CN107133496A (zh) * 2017-05-19 2017-09-05 浙江工业大学 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法
CN107157475A (zh) * 2017-05-11 2017-09-15 陈昕 心电图数据的显示方法和终端设备
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN107577923A (zh) * 2017-09-26 2018-01-12 广东美格基因科技有限公司 一种高度相似微生物的鉴定和分类方法
CN108763759A (zh) * 2018-05-29 2018-11-06 广东工业大学 一种基于isomap的固化热过程时空建模方法
CN109214268A (zh) * 2018-07-12 2019-01-15 浙江工业大学 一种基于集成流形学习的填料塔液泛状态在线监测方法
CN109342909A (zh) * 2018-12-14 2019-02-15 中国测试技术研究院电子研究所 一种基于slle的电缆附件局部放电模式识别方法
CN109961088A (zh) * 2019-02-13 2019-07-02 苏州大学 无监督非线性自适应流形学习方法
CN109978064A (zh) * 2019-03-29 2019-07-05 苏州大学 基于图像集的李群字典学习分类方法
CN110827924A (zh) * 2019-09-23 2020-02-21 平安科技(深圳)有限公司 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN110955809A (zh) * 2019-11-27 2020-04-03 南京大学 一种支持拓扑结构保持的高维数据可视化方法
CN111755066A (zh) * 2019-03-27 2020-10-09 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN112133370A (zh) * 2020-08-20 2020-12-25 中南大学湘雅医院 细胞分类方法、装置、计算机设备和存储介质
CN112926658A (zh) * 2021-02-26 2021-06-08 西安交通大学 基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备
CN113315757A (zh) * 2021-05-10 2021-08-27 内蒙古工业大学 一种面向边缘计算的数据免解码传输方法
CN116994071A (zh) * 2023-09-25 2023-11-03 云南联合视觉科技有限公司 一种基于自适应光谱残差的多光谱激光雷达点云分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101203790A (zh) * 2005-06-03 2008-06-18 博奥生物有限公司 一种微阵列芯片激光扫描仪光学系统
CN101799417A (zh) * 2009-02-11 2010-08-11 三星电子株式会社 生物芯片的扫描方法以及实施该扫描方法的装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101203790A (zh) * 2005-06-03 2008-06-18 博奥生物有限公司 一种微阵列芯片激光扫描仪光学系统
CN101799417A (zh) * 2009-02-11 2010-08-11 三星电子株式会社 生物芯片的扫描方法以及实施该扫描方法的装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOSHUA B. TENENBAUM ETC.: "A global geometric framework for nonlinear dimensionality reduction", 《SCIENCE》, vol. 290, 22 December 2000 (2000-12-22), pages 2319 - 2323, XP002971558, DOI: doi:10.1126/science.290.5500.2319 *
尹峻松: "流形学习理论与方法研究及在人脸识别中的应用", 《中国博士学位论文全文数据库》, 31 July 2009 (2009-07-31) *
黄伟等: "基于流形学习的聚类方法在基因芯片表达谱分析中的应用", 《中国生物医学工程学报》, vol. 29, no. 1, 28 February 2010 (2010-02-28), pages 77 - 85 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789490A (zh) * 2012-07-04 2012-11-21 苏州大学 一种数据可视化方法及系统
CN102789490B (zh) * 2012-07-04 2014-11-05 苏州大学 一种数据可视化方法及系统
CN103106283A (zh) * 2013-02-28 2013-05-15 北京奇虎科技有限公司 去重处理方法及装置
CN103106283B (zh) * 2013-02-28 2016-04-27 北京奇虎科技有限公司 去重处理方法及装置
CN103745137A (zh) * 2014-01-30 2014-04-23 思博奥科生物信息科技(北京)有限公司 一种跨芯片平台的基因表达数据整合方法
CN103745137B (zh) * 2014-01-30 2017-03-15 思博奥科生物信息科技(北京)有限公司 一种跨芯片平台的基因表达数据整合方法
CN104200134A (zh) * 2014-08-30 2014-12-10 北京工业大学 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN105653670A (zh) * 2015-12-29 2016-06-08 中国电力科学研究院 一种基于流形学习聚类算法的智能用电数据挖掘方法
CN105653670B (zh) * 2015-12-29 2020-12-29 中国电力科学研究院 一种基于流形学习聚类算法的智能用电数据挖掘方法
CN106055613A (zh) * 2016-05-26 2016-10-26 华东理工大学 一种基于混合范数的数据分类训练数据库清洗方法
CN106446603A (zh) * 2016-09-29 2017-02-22 福州大学 基于改进pso算法的基因表达数据聚类方法
CN107157475A (zh) * 2017-05-11 2017-09-15 陈昕 心电图数据的显示方法和终端设备
CN107133496A (zh) * 2017-05-19 2017-09-05 浙江工业大学 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法
CN107133496B (zh) * 2017-05-19 2020-08-25 浙江工业大学 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN107368707B (zh) * 2017-07-20 2020-07-10 东北大学 基于us-elm的基因芯片表达数据分析系统及方法
CN107577923A (zh) * 2017-09-26 2018-01-12 广东美格基因科技有限公司 一种高度相似微生物的鉴定和分类方法
CN108763759A (zh) * 2018-05-29 2018-11-06 广东工业大学 一种基于isomap的固化热过程时空建模方法
CN109214268A (zh) * 2018-07-12 2019-01-15 浙江工业大学 一种基于集成流形学习的填料塔液泛状态在线监测方法
CN109214268B (zh) * 2018-07-12 2021-08-03 浙江工业大学 一种基于集成流形学习的填料塔液泛状态在线监测方法
CN109342909A (zh) * 2018-12-14 2019-02-15 中国测试技术研究院电子研究所 一种基于slle的电缆附件局部放电模式识别方法
CN109342909B (zh) * 2018-12-14 2021-02-23 中国测试技术研究院电子研究所 一种基于slle的电缆附件局部放电模式识别方法
CN109961088A (zh) * 2019-02-13 2019-07-02 苏州大学 无监督非线性自适应流形学习方法
CN111755066B (zh) * 2019-03-27 2022-10-18 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN111755066A (zh) * 2019-03-27 2020-10-09 欧蒙医学诊断(中国)有限公司 一种拷贝数变异的检测方法和实施该方法的设备
CN109978064A (zh) * 2019-03-29 2019-07-05 苏州大学 基于图像集的李群字典学习分类方法
CN110827924A (zh) * 2019-09-23 2020-02-21 平安科技(深圳)有限公司 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN110827924B (zh) * 2019-09-23 2024-05-07 平安科技(深圳)有限公司 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN110955809A (zh) * 2019-11-27 2020-04-03 南京大学 一种支持拓扑结构保持的高维数据可视化方法
CN110955809B (zh) * 2019-11-27 2023-03-31 南京大学 一种支持拓扑结构保持的高维数据可视化方法
CN112133370A (zh) * 2020-08-20 2020-12-25 中南大学湘雅医院 细胞分类方法、装置、计算机设备和存储介质
CN112926658B (zh) * 2021-02-26 2023-03-21 西安交通大学 基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备
CN112926658A (zh) * 2021-02-26 2021-06-08 西安交通大学 基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备
CN113315757A (zh) * 2021-05-10 2021-08-27 内蒙古工业大学 一种面向边缘计算的数据免解码传输方法
CN116994071A (zh) * 2023-09-25 2023-11-03 云南联合视觉科技有限公司 一种基于自适应光谱残差的多光谱激光雷达点云分类方法

Similar Documents

Publication Publication Date Title
CN102184349A (zh) 基于流形学习的基因表达数据的聚类系统及方法
Akgundogdu et al. 3D image analysis and artificial intelligence for bone disease classification
Sarwar et al. A survey of big data analytics in healthcare
CN102722578B (zh) 一种基于拉普拉斯正则化无监督的聚类特征选取方法
Hasan et al. Linear regression–based feature selection for microarray data classification
Kumutha et al. An enhanced approach on handling missing values using bagging k-nn imputation
CN103793600A (zh) 结合独立分量分析和线性判别分析的癌症预测方法
Xu et al. Large-margin multi-view Gaussian process for image classification
Zhu et al. Integrative spatial single-cell analysis with graph-based feature learning
Saha et al. Application of data mining in protein sequence classification
Carrieri et al. A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes
Alvarez et al. A new protein graph model for function prediction
Gharehchopogh et al. Automatic data clustering using farmland fertility metaheuristic algorithm
Nguyen et al. Efficient agglomerative hierarchical clustering for biological sequence analysis
Horan et al. Predicting conserved protein motifs with Sub-HMMs
CN115394348A (zh) 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质
Chen et al. Similarity fusion via exploiting high order proximity for cancer subtyping
Zhang et al. Similarity assessment of mechanical parts based on integrated product information model
Chung et al. Mining gene expression datasets using density-based clustering
Bagyamani et al. Biological significance of gene expression data using similarity based biclustering algorithm
Zhang et al. ChromEDA: Chromosome classification by ensemble framework based domain adaptation
Ning et al. Intrusion detection research based on improved PSO and SVM
JP2009271874A (ja) トピック可視化装置、トピック可視化方法、トピック可視化プログラムおよびそのプログラムを記録した記録媒体
Abualigah et al. Boosting moth-flame optimization algorithm by arithmetic optimization algorithm for data clustering
CN116844649B (zh) 一种可解释的基于基因选择的细胞数据分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110914