CN100535913C - 一种用于芯片数据分析的可视化分析和展示方法 - Google Patents
一种用于芯片数据分析的可视化分析和展示方法 Download PDFInfo
- Publication number
- CN100535913C CN100535913C CNB2006100283487A CN200610028348A CN100535913C CN 100535913 C CN100535913 C CN 100535913C CN B2006100283487 A CNB2006100283487 A CN B2006100283487A CN 200610028348 A CN200610028348 A CN 200610028348A CN 100535913 C CN100535913 C CN 100535913C
- Authority
- CN
- China
- Prior art keywords
- self
- neuron
- data
- neural network
- chip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000000007 visual effect Effects 0.000 title claims abstract description 26
- 238000007405 data analysis Methods 0.000 title claims abstract description 25
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 210000002569 neuron Anatomy 0.000 claims description 55
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 26
- 230000001747 exhibiting effect Effects 0.000 claims description 21
- 239000000203 mixture Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 3
- 210000004205 output neuron Anatomy 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 10
- 210000005036 nerve Anatomy 0.000 abstract 2
- 239000000523 sample Substances 0.000 description 31
- 238000000018 DNA microarray Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000002068 genetic effect Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 208000031261 Acute myeloid leukaemia Diseases 0.000 description 5
- 208000029052 T-cell acute lymphoblastic leukemia Diseases 0.000 description 5
- 208000025321 B-lymphoblastic leukemia/lymphoma Diseases 0.000 description 4
- 208000009052 Precursor T-Cell Lymphoblastic Leukemia-Lymphoma Diseases 0.000 description 4
- 208000017414 Precursor T-cell acute lymphoblastic leukemia Diseases 0.000 description 4
- 208000017426 precursor B-cell acute lymphoblastic leukemia Diseases 0.000 description 4
- 208000024893 Acute lymphoblastic leukemia Diseases 0.000 description 2
- 208000014697 Acute lymphocytic leukaemia Diseases 0.000 description 2
- 208000033776 Myeloid Acute Leukemia Diseases 0.000 description 2
- 210000001744 T-lymphocyte Anatomy 0.000 description 2
- 210000003719 b-lymphocyte Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 244000144992 flock Species 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000025324 B-cell acute lymphoblastic leukemia Diseases 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/04—Recognition of patterns in DNA microarrays
Landscapes
- Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明公开了一种基因芯片数据的可视化分析和展示方法,它能提供直观的芯片可视化方法,能方便展示大规模的芯片数据。其技术方案为:该方法包括:(1)第一次利用自组织映射的神经网络来模拟和学习芯片数据;(2)利用组成分平面来展示步骤(1)得到的单个芯片/样本的数据,将所述神经网络中的多维神经元载体的单个组成分分离出来,同时用二维平面展示经步骤(1)学习到的数据结构;(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间,同时展示数据中样本和基因之间的关系。本发明应用于大规模基因芯片数据分析技术领域。
Description
技术领域
本发明涉及一种基因芯片数据分析的数据展示方法,尤其涉及一种大规模基因芯片数据集分析中的可视化分析和展示方法。
背景技术
基因芯片的出现是近年来高新技术领域中极具时代特征的重大进展,是物理学、微电子学与分子生物学综合交叉形成的高新技术。基因芯片技术是一种高通量的技术,其基本原理是通过微加工工艺在厘米见方的芯片上集成有数以万计的DNA探针,来实现对mRNA和DNA序列进行高效快捷的定量检测,在基因功能的阐述、疾病原因及机理的探索、可能的诊断及治疗靶点的发现等应用领域,基因芯片正发挥着越来越大的用途。
随着基因芯片技术的进步,该技术被越来越多应用到科研和实践中去,大规模涉及基因芯片的研究也变得可行,因而出现了许多单项研究中包括数百张芯片的情况。这些研究产生的高维度大内容的数据对试图挖掘其中内涵和有价值的表达模式(pattern)的研究人员来说是一个很大的挑战。
由于基因芯片技术的高通量的特性产生大规模的数据,深入挖掘内在信息的芯片数据分析成为了研究中最关键的步骤之一,而用图表等相关技术展示数据更有助于研究人员特别是生物技术人员和临床医师在复杂的数据中直观地发现一些对象相互间的关系或者表达模式,而无须深入了解计算机和数学知识,因此也可以说是数据分析的第一步。目前常用的芯片可视化分析方法有群集图(Clustergram)、平行坐标(Parallel Coordinates)、热图(Heat Maps)、散点图(Scatter Plots)、柱状图(Histograms)等等。在一些情况下这些工具相当有用,但当面对极大规模的芯片数据集来说,就显得有些力不从心,无法表现出数据中所有潜在的结构和模式。因为这些常用工具并不是专门用来解决大规模芯片数据分析的问题,有着许多难以克服的缺陷,比如,热点图(Heat Maps)被广泛的应用于工业界的财务与生命科学领域,是一类基于等级分类(hierarchical clustering)的展示数据集中每一个数据点的方法,透过颜色来表示是否为特定基因的上调和下调,这样当数据样本很多时造成树状图的上千个节点,让人觉得多得无从下手。平行坐标(ParallelCoordinates)应用在大规模数据集上则显得杂乱无章,难以揭示其中的内在。
因此,由于芯片数据可视化分析和展示方法在基因芯片数据分析技术领域的重要性以及现有方法的缺陷,建立一种新的更完善的适合于大规模芯片数据分析的可视化分析和展示方法,是基因芯片技术领域急需解决的问题。
发明内容
本发明的目的在于解决上述问题,提供了一种基因芯片数据的可视化分析和展示方法,它能提供直观的芯片可视化方法,能方便展示大规模的芯片数据,可以方便生物信息和统计专业人士快速了解数据的结构特性,从而为后续的数学建模分析提供依据。
本发明的技术方案为:一种用于芯片数据分析的可视化分析和展示方法,其中,所述方法包括:
(1)一次利用自组织映射的神经网络来模拟和学习芯片数据;
(2)利用组成分平面来展示步骤(1)得到的单个芯片或样本的数据,将所述神经网络中的多维神经元载体的单个组成分分离出来,同时用二维平面展示经步骤(1)学习到的数据结构;
(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组成分关系投射到二维空间,同时展示数据中样本和基因之间的关系,其进一步包括:
(3.1)构建另一自组织映射的神经网络,并将步骤(2)中的每个组成分的数值构成一个载体;
(3.2)进行第二次自组织映射神经网络的学习;
(3.3)通过步骤(3.2)的学习找出每个组成分在第二次自组织映射神经网络的神经元中所对应的最佳匹配单元;
(3.4)将每个组成分投射到自组织映射神经网络图谱中,该组成分平面的位置为步骤(3.3)得到的该图谱中相应的最佳匹配单元神经元的位置;
(3.5)将步骤(2)的每个组成分的可视化展示代入;
(3.6)在一幅自组织映射神经网络图谱中展示最终结果。
上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(1)进一步包括:
(1.1)构建自组织映射神经网络;
(1.2)所述自组织映射神经网络读取预处理好的各组芯片数据;
(1.3)找出和当前这组芯片数据最近的神经元,即为最佳匹配单元;
(1.4)所有在所述网络的拓扑结构中与步骤(1.3)的最佳匹配单元相邻的神经元象数据点进行移动;
(1.5)以下一组芯片数据取代当前这组芯片数据并重复步骤(1.3)-(1.4),直到所有的神经元都训练完毕。
(1.6)输出神经元的结果。
上述的用于芯片数据分析的可视化分析和展示方法,其中,所述步骤(1.3)中,根据公式||x-m*c||=mini{||x-mi||}来寻找最佳匹配单元,其中x代表输入样本向量,m代表神经元的模式向量,c代表最佳匹配单元,i代表第i个神经元,||.||表示一种计算距离的方法,t代表任一时间。
上述的用于芯片数据分析的可视化分析和展示方法,其中,所述步骤(1.4)中,根据公式mi(t+1)=mi+a(t)hci(r(t))[x(t)-mi(t)]对神经元象数据点进行移动,其中x代表输入样本向量,m代表神经元的模式向量,mi(t+1)代表单元i的加权向量,t代表任一时间,a(t)代表邻近核心函数,其为一递减函数且介于0与1之间,主要是用来对最佳匹配单元的所有邻近点作调整,hci(r(t))代表最佳匹配单元c附近的邻近核心,r(t)代表邻近半径。
上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(1.1)进一步包括:
设定输入载体和输出载体,每个神经元在自组织网络中有原型载体和网络载体两个位置,原型载体和网络载体分别为自组织网络训练样本的输入变量和输出结果,同时设定神经元数目;
设定拓扑结构和网络连接,所述网络连接为相邻神经元之间的关系。
上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(2)进一步包括:
(2.1)将神经元每一维的数值投射到平面上;
(2.2)用图形表示自组织映射的神经网络的拓扑结构,每个神经元用与拓扑结构对应的图形表示,神经元每个维度的数值用颜色来编码;
(2.3)组成分平面展示结果。
上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(3.4)中,当不同的样本投射到同一单元时,匹配值最低的样本将投射到第二匹配单元。
本发明对比现有技术有如下的有益效果:本发明的方法可以在一副图谱(map)中展示所有的芯片数据,同时能准确的将生物芯片数据的重要特征/结构展示出来。这种分析方法可以直接应用到生物芯片整合平台的制造以及生物芯片数据分析系统的开发中。同时,将使生物芯片数据分析技术变得直观,克服了生物芯片技术中的一个重要瓶颈,因此将有易于生物芯片技术的推广和普及。
附图说明
图1是本发明方法较佳实施例的总流程图。
图2是本发明方法中SOM训练方法的流程图。
图3是本发明方法中组成分平面展示方法的流程图。
图4是本发明方法中平面组分映射到单独图表方法的流程图。
图5是应用本发明的一个实施例的结果示意图。
图6是应用本发明的另一实施例的结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1示出了本发明方法的总流程。请参见图1所示,下面是对流程中每一步骤的详细描述。
步骤S1:第一次利用自组织映射(Self-Organizing Map,SOM)的神经网络来模拟和学习芯片数据。这种技术利用模拟神经元(neuron)来代替原始数据,是基于一种称为非监督式(Non-supervised)自组织网络映射的神经网络算法基础上提出的,模拟脑神经元细胞在大脑中的投射,可以达到减低数据密度,减少数据噪音的目的,同时也使后续的数据展示变得更容易。
图2示出了该步骤的子流程。请参见图2所示,下面的步骤S11-S16是对这些子流程的详细描述。
步骤S11:构建自组织映射神经网络。构建过程主要如下:
(1)设定输入载体和输出载体。每个神经元在自组织网络中都有两个位置-原型载体和网络载体,原型载体为自组织网络训练样本的输入变量,网络载体为网络的输出结果。它们的维数与生物芯片数据芯片维数相同,它们的神经元数目依据生物芯片具体数据来决定。
(2)设定拓扑结构。为了便于进一步展示,本实施例中的拓扑结构为二维的六边形结构,即每个神经元周围有六个相邻的神经元。
(3)设定网络连接。网络连接为相邻神经元之间的关系,本实施例中选用高斯函数来表示,其公式为exp(-||rc-ri||2/2σ2(t))。
步骤S12:自组织映射神经网络分组读取预处理好的基因芯片数据。将芯片数据分组,以一次一组的形式读入神经网络。
步骤S13:找出和当前这组芯片数据最近的神经元,即为最佳匹配单元(BestMatch Unit,BMU)。
在自组织映射神经网络中,每一项原始数据中具有许多属性,所有的原始数据均被视为由属性值所构成的输入向量,而被投射的二维平面则由许多的神经元(neuron)所构成,每一神经元同样是由向量所构成,构成神经元的向量称为模式向量。在学习的过程中,平面中的神经元会与所有的输入向量进行比较,最接近输入向量的神经元称为最佳匹配单元。
在本实施例中是根据公式||x-mc||=mini{||x-mi||}来寻找最佳匹配单元,其中x代表输入样本向量,m代表神经元的模式向量,c代表最佳匹配单元,i代表第i个神经元,||.||表示一种计算距离的方法,通常是欧式距离,t代表任一时间。当前这组芯片数据的最佳匹配单元就是满足上面公式的c。
步骤S14:所有在该网络的拓扑结构中与步骤S13中找到的最佳匹配单元相邻的神经元象数据点进行移动。
调整最佳匹配单元的神经元使其与输入向量更加接近,同时也对最佳匹配单元所有邻近的点进行调整,使得分群中的相似数据更加接近。具体是根据公式mi(t+1)=mi+a(t)hci(r(t))[x(t)-mi(t)]对神经元象数据点进行移动,其中x代表输入样本向量,m代表神经元的模式向量,mi(t+1)代表单元i的加权向量,t代表任一时间,a(t)代表邻近核心函数,其为一递减函数且介于0与1之间,主要是用来对最佳匹配单元的所有邻近点作调整,常用的有泡沫函数(bubble)和高斯函数(gaussian)两种,hci(r(t))代表最佳匹配单元c附近的邻近核心,r(t)代表邻近半径。
受调整的神经元的调整范围及调整率,为与最佳匹配单元间的距离。一般所采用的距离计算式如下式:exp(-||rc-ri||2/2σ2(t)),其中rc代表神经元在自组织图中的位置,sigma(t)是在t时刻的邻近半径。
步骤S15:判断当前处理的这组芯片数据是否为最后一组。如果是,则转入下一步,否则将下一组芯片数据取代当前这组数据并转入步骤S13进行相同的处理。
步骤S16:输出神经元的结果。
步骤S2:利用组成分平面来展示单张芯片/样本的数据。其原理是将上述的多维神经元载体(neuron vector)的单个组分分离出来,同时用二维的平面展示自组织网络学习到的数据结构。图3示出了组成分平面展示的子流程。请参见图3所示,下面的步骤S21-S23是对这些子流程的详细描述。
步骤S21:将第一次SOM的神经元每一维的数值投射到平面上。
步骤S22:用图形表示自组织映射神经网络的拓扑结构,每个神经元用与拓扑结构对应的图形表示,神经元每个维度的数值用颜色来编码。
在本实施例中,由于拓扑结构采用的是六边形结构,故用包含六边形的图谱来展示自组织网络的拓扑结构,即组平面是由六边形组成的,每个六边形代表自组织网络中的一个神经元。六边形的数值代表神经元在输出空间中的单个组成分(维度的数值),这些数值用颜色矩阵来表示,在本实施例中红色表示高值,蓝色表示低值。因此,每个组成分展示了自组织网络学习到的每个样本/芯片的数据特性。
步骤S23:组成分平面展示结果。
步骤S3:第二次利用自组织映射神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间,确定平面组分在展示图中的位置,同时展示数据中样本和基因之间的关系。
图4示出了该步骤S3的子流程。请参见图3所示,下面的步骤S31-S36是对这些子流程的详细描述。
步骤S31:构建第二个自组织映射的神经网络,并将步骤S2中的每个组成分/样本的数值构成一个载体。
为了减少数据的计算量,第二次自组织网络学习是建立在第一次自组织网络之上。在构建第二次自组织网络中,模拟神经元载体的维数等于第一次自组织网络中包含的神经元的数目,模拟神经元的数目将设置成大于组平面的数目。而第二次自组织网络用的距离公式与第一次不同,第一次采用欧式距离,第二次采用共相关系数来计算数据点之间的距离。
步骤S32:进行第二次自组织映射神经网络的学习。其学习过程与第一次自组织映射神经网络学习类同,在此不再重复描述。
步骤S33:通过步骤S32的学习找出每个组成分/样本在第二次自组织映射神经网络的神经元中所对应的最佳匹配单元。最佳匹配单元的寻找和处理方法类似步骤S13-S14。
步骤S34:将每个组成分/样本投射到自组织映射神经网络图谱中,该组成分平面的位置为步骤S33得到的该图谱中相应的最佳匹配单元神经元的位置。如果遇到不同的样本投射到同一单元,则匹配值最低的那个样本将会投射到第二匹配单元(next-best-matching)。所谓第二匹配单元,是指平面中的神经元与所有的输入向量进行比较后第二接近输入向量的神经元。
步骤S35:将步骤2中的每个组成分/样本的可视化展示代入。
步骤S36:在所有组成分/样本都处理完毕后,这幅自组织映射神经网络图谱将展示最终结果。
图5示出了本发明方法的一个应用实施例。请参见图5,应用本方法,按照不同的表达模式,在图中分开明显的三个区域,分别为A1l-T(T cell acutelymphoblastic leukemia,T型急性淋巴白血病)、ALL-B(B cell acutelymphoblastic leukemia,B型急性淋巴白血病)、AML(acute myeloid leukemia,急性粒细胞白血病)。通过分析结果可知,该图谱可以作为用来实现下列目标的有效工具。(1)为整个芯片数据提供一个鸟瞰图,以便于寻找数据中一些大规模的特性。比如在图5中,AML和ALL样本可以由它们各自在图中的位置和组成分的花式(pattern)轻易的分别开来。AML和ALL在图中各自聚集在一起。同时通过观察图5,可以发现ALL样本中间有一条清晰的,由空网格隔开的边界,这暗示着ALL类别中可能存在亚类。检视原始数据提供的病人样本信息可以发现,这两类样本分别为T细胞来源的ALL和B细胞来源的ALL。T细胞来源的ALL和B细胞来源的ALL在生物学上和临床治疗上有很大的区别。因此,它们在转录表达水平上的不同,暗示着它们可能为ALL的两个亚类。由上述分析可知,我们的结果能展示芯片数据中大尺度的特性,为进一步挖掘样本之间的关系提供便利。(2)可以用来寻找样本局部的联系,这些联系能提供宝贵的信息。进一步的观察T-ALL和B-ALL的基因表达谱不难发现:在所有的T-ALL组成分平面的右下角的基因跟B-ALL表达转况有很大的区别。这些区别表现在这些基因在T-ALL样本中,相对与B-ALL样本具有高水平的表达。暗示着这些基因可能代表了T-ALL和B-ALL的表达差异,它们可能用做区分这两类样本的标记基因(marker gene)。
图6示出了本发明方法的另一应用实施例。请参见图6,应用本方法,按照不同的表达模式,将样品中不同组织或者器官映射到各自的区域,各个区域具有明显的表达特征,聚集在一起的都为相同的组织样本,它们的表达谱具有相同的花式(pattern)和特性,图中也直观的反映了这些组织的的起源关系。因此,在我们的分析中证实了该方法非常利于观察复杂数据的结构,有利于研究人员快速寻找数据中感兴趣的特征。
综上,本发明利用SOM(Self-organizing Map,自组织映射)向量映射的特性,应用组分平面展示技术将高维的芯片表达数据转化为二维的带色彩的模式,在可视化分析生物样本之间的联系方面非常有用。然而在处理大规模数据时,组分之间寻找相似性和区别仍然十分麻烦。因此将平面组分组织并把它们映射到一个新的单独的图表上,使得能够展示和便利挖掘庞大数据集中基因和样品各自的自然类别和相关联的表达模式。对于生物技术研发人员和临床医师,使用本发明的方法不需要专业的数学和计算机知识,同时提供可靠的分析结果。该方法由于使用了先进的神经网络技术,使得生物芯片数据处理系统的处理能力大大增强,原本在大型机完成的任务,能轻松在个人PC机完成。因此本方法将有利于芯片分析平台和软件的研制,节省建立平台的成本,也有利于生物芯片产品的普及。
上述实施例是提供给本领域普通技术人员来实现或使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。
Claims (7)
1一种用于芯片数据分析的可视化分析和展示方法,其特征在于,所述方法包括:
(1)第一次利用自组织映射的神经网络来模拟和学习芯片数据;
(2)利用组成分平面来展示步骤(1)得到的单个芯片或样本的数据,将所述神经网络中的多维神经元载体的单个组成分分离出来,同时用二维平面展示经步骤(1)学习到的数据结构;
(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组成分关系投射到二维空间,同时展示数据中样本和基因之间的关系,其进一步包括:
(3.1)构建另一自组织映射的神经网络,并将步骤(2)中的每个组成分的数值构成一个载体;
(3.2)进行第二次自组织映射神经网络的学习;
(3.3)通过步骤(3.2)的学习找出每个组成分在第二次自组织映射神经网络的神经元中所对应的最佳匹配单元;
(3.4)将每个组成分/样本投射到自组织映射神经网络图谱中,该组成分平面的位置为步骤(3.3)得到的该图谱中相应的最佳匹配单元神经元的位置;
(3.5)将步骤(2)的每个组成分的可视化展示代入;
(3.6)在一幅自组织映射神经网络图谱中展示最终结果。
2根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,步骤(1)进一步包括:
(1.1)构建自组织映射神经网络;
(1.2)所述自组织映射神经网络读取预处理好的各组芯片数据;
(1.3)找出和当前这组芯片数据最近的神经元,即为最佳匹配单元;
(1.4)所有在所述网络的拓扑结构中与步骤(1.3)的最佳匹配单元相邻的神经元象数据点进行移动;
(1.5)以下一组芯片数据取代当前这组芯片数据并重复步骤(1.3)-(1.4),直到所有的神经元都训练完毕。
(1.6)输出神经元的结果。
3根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,所述步骤(1.3)中,根据公式‖x-m*c‖=mini{‖x-mi‖}来寻找最佳匹配单元,其中x代表输入样本向量,m代表神经元的模式向量,c代表最佳匹配单元,i代表第i个神经元,‖.‖表示一种计算距离的方法,t代表任一时间。
4根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,所述步骤(1.4)中,根据公式mi(t+1)=mi+a(t)hci(r(t))[x(t)-mi(t)]对神经元象数据点进行移动,其中x代表输入样本向量,m代表神经元的模式向量,mi(t+1)代表单元i的加权向量,t代表任一时间,a(t)代表邻近核心函数,其为一递减函数且介于0与1之间,用来对最佳匹配单元的所有邻近点作调整,hci(r(t))代表最佳匹配单元c附近的邻近核心,r(t)代表邻近半径。
5根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,步骤(1.1)进一步包括:
设定输入载体和输出载体,每个神经元在自组织网络中有原型载体和网络载体两个位置,原型载体和网络载体分别为自组织网络训练样本的输入变量和输出结果,同时设定神经元数目;
设定拓扑结构和网络连接,所述网络连接为相邻神经元之间的关系。
6根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,步骤(2)进一步包括:
(2.1)将神经元每一维的数值投射到平面上;
(2.2)用图形表示自组织映射的神经网络的拓扑结构,每个神经元用与拓扑结构对应的图形表示,神经元每个维度的数值用颜色来编码;
(2.3)组成分平面展示结果。
7根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,步骤(3.4)中,当不同的样本投射到同一单元时,匹配值最低的样本将投射到第二匹配单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100283487A CN100535913C (zh) | 2006-06-29 | 2006-06-29 | 一种用于芯片数据分析的可视化分析和展示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100283487A CN100535913C (zh) | 2006-06-29 | 2006-06-29 | 一种用于芯片数据分析的可视化分析和展示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101097585A CN101097585A (zh) | 2008-01-02 |
CN100535913C true CN100535913C (zh) | 2009-09-02 |
Family
ID=39011417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100283487A Expired - Fee Related CN100535913C (zh) | 2006-06-29 | 2006-06-29 | 一种用于芯片数据分析的可视化分析和展示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100535913C (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894296B (zh) * | 2010-07-05 | 2012-09-05 | 湖南大学 | 一种基于标准差与偏斜度的模拟电路故障诊断神经网络方法 |
CN107632998B (zh) * | 2017-07-24 | 2021-04-23 | 电子科技大学 | 一种基于人体形态的多维数据可视化方法 |
CN107704925B (zh) * | 2017-10-16 | 2020-04-14 | 清华大学 | 深度神经网络训练过程的可视分析系统及方法 |
CN108319569B (zh) * | 2018-01-17 | 2020-04-03 | 西南交通大学 | 一种基于维度重排序降低平行坐标可视化视觉杂乱的方法 |
CN110188886B (zh) * | 2018-08-17 | 2021-08-20 | 第四范式(北京)技术有限公司 | 对机器学习过程的数据处理步骤进行可视化的方法和系统 |
EP3844762A1 (en) * | 2018-08-28 | 2021-07-07 | Koninklijke Philips N.V. | Method and system for normalization of gene names in medical text |
CN109376217A (zh) * | 2018-10-08 | 2019-02-22 | 海南大学 | 基于价值的体系化全类型化频度标定数据图谱的节点集合及其拓扑结构确定方法 |
CN110782949A (zh) * | 2019-10-22 | 2020-02-11 | 王文婷 | 一种基于最大最小化序列搜索的多层基因加权分组方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1037158A2 (en) * | 1999-03-15 | 2000-09-20 | Whitehead Institute For Biomedical Research | Methods and apparatus for analyzing gene expression data |
US20020184569A1 (en) * | 2001-04-25 | 2002-12-05 | O'neill Michael | System and method for using neural nets for analyzing micro-arrays |
-
2006
- 2006-06-29 CN CNB2006100283487A patent/CN100535913C/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1037158A2 (en) * | 1999-03-15 | 2000-09-20 | Whitehead Institute For Biomedical Research | Methods and apparatus for analyzing gene expression data |
US20020184569A1 (en) * | 2001-04-25 | 2002-12-05 | O'neill Michael | System and method for using neural nets for analyzing micro-arrays |
Non-Patent Citations (3)
Title |
---|
Analysis and visualization of Gene Expression Microarray Datain Human Cancer Using Self-Organizing Maps. Sampsa Hartaniemi et al.Machine Learning,No.52. 2003 * |
Componnet plane presentation integrated self-organizing map for microarray data analysis. Li Xiao,Kankan Wang,Yue Teng,Ji Zhang.Federation of European Biochemical Societies,No.538. 2003 * |
基因芯片表达数据分析方法研究进展. 张彦琦,李辉智,易东.重庆医学,第34卷第12期. 2005 * |
Also Published As
Publication number | Publication date |
---|---|
CN101097585A (zh) | 2008-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100535913C (zh) | 一种用于芯片数据分析的可视化分析和展示方法 | |
CN106537422A (zh) | 用于捕获信息内的关系的系统和方法 | |
CN109492796A (zh) | 一种城市空间形态自动分区方法与系统 | |
Torkkola et al. | Self-organizing maps in mining gene expression data | |
CN102349075B (zh) | 发现曲线分析系统及其程序 | |
Meyer et al. | Visualization of data | |
Koua | Using self-organizing maps for information visualization and knowledge discovery in complex geospatial datasets | |
Cagas et al. | PreFIC: Predictability of faculty instructional performance through hybrid prediction model | |
Inkpen et al. | Using morphospaces to understand tafoni development | |
Inyang et al. | Unsupervised Characterization and Visualization of Students' Academic Performance Features. | |
Hoi et al. | Data. Information and Knowledge Visualization for Frequent Patterns | |
Saadatdoost et al. | Application of self organizing map for knowledge discovery based in higher education data | |
Koua et al. | Evaluating self-organizing maps for geovisualization | |
Lestari et al. | Clustering Model of Lecturers Performa in Publication Using K-Means for Decision Support Data | |
Guerrero-Bote et al. | Methods for the analysis of the uses of scientific information: the case of the University of Extremadura (1996–7) | |
Aouabed et al. | Visualizing biclustering results on gene expression data: A survey | |
Parkavi et al. | Pattern analysis of blooms knowledge level students performance using association rule mining | |
Ocampo et al. | Cluster Analysis for Data Processing in Educational Research | |
Tauscher et al. | Area cartograms in building product model visualization | |
Gáll | Determining the significance level of tourist regions in the Slovak Republic by cluster analysis | |
van Helden et al. | The arch-i-scan project: Artificial intelligence and 3d simulation for developing new approaches to roman foodways | |
Witt | Cartogramic metamorphologies; or, enter the RoweBot | |
Senapati et al. | Single-cell RNA sequence data analysing using fuzzy de based clustering technique | |
Kersting et al. | Measuring 3D tree imbalance of plant models using graph-theoretical approaches | |
Masopust et al. | Utilisation of EU employment data in lecturing data mining course |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090902 Termination date: 20160629 |
|
CF01 | Termination of patent right due to non-payment of annual fee |