CN101097585A - 一种用于芯片数据分析的可视化分析和展示方法 - Google Patents

一种用于芯片数据分析的可视化分析和展示方法 Download PDF

Info

Publication number
CN101097585A
CN101097585A CNA2006100283487A CN200610028348A CN101097585A CN 101097585 A CN101097585 A CN 101097585A CN A2006100283487 A CNA2006100283487 A CN A2006100283487A CN 200610028348 A CN200610028348 A CN 200610028348A CN 101097585 A CN101097585 A CN 101097585A
Authority
CN
China
Prior art keywords
self
neuron
sample
data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100283487A
Other languages
English (en)
Other versions
CN100535913C (zh
Inventor
金刚
王超
谢松旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institutes for Biological Sciences SIBS of CAS
Original Assignee
Shanghai Institutes for Biological Sciences SIBS of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institutes for Biological Sciences SIBS of CAS filed Critical Shanghai Institutes for Biological Sciences SIBS of CAS
Priority to CNB2006100283487A priority Critical patent/CN100535913C/zh
Publication of CN101097585A publication Critical patent/CN101097585A/zh
Application granted granted Critical
Publication of CN100535913C publication Critical patent/CN100535913C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/04Recognition of patterns in DNA microarrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种基因芯片数据的可视化分析和展示方法,它能提供直观的芯片可视化方法,能方便展示大规模的芯片数据。其技术方案为:该方法包括:(1)第一次利用自组织映射的神经网络来模拟和学习芯片数据;(2)利用组成分平面来展示步骤(1)得到的单个芯片/样本的数据,将所述神经网络中的多维神经元载体的单个组成分分离出来,同时用二维平面展示经步骤(1)学习到的数据结构;(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间,同时展示数据中样本和基因之间的关系。本发明应用于大规模基因芯片数据分析技术领域。

Description

一种用于芯片数据分析的可视化分析和展示方法
技术领域
本发明涉及一种基因芯片数据分析的数据展示方法,尤其涉及一种大规模基因芯片数据集分析中的可视化分析和展示方法。
背景技术
基因芯片的出现是近年来高新技术领域中极具时代特征的重大进展,是物理学、微电子学与分子生物学综合交叉形成的高新技术。基因芯片技术是一种高通量的技术,其基本原理是通过微加工工艺在厘米见方的芯片上集成有数以万计的DNA探针,来实现对mRNA和DNA序列进行高效快捷的定量检测,在基因功能的阐述、疾病原因及机理的探索、可能的诊断及治疗靶点的发现等应用领域,基因芯片正发挥着越来越大的用途。
随着基因芯片技术的进步,该技术被越来越多应用到科研和实践中去,大规模涉及基因芯片的研究也变得可行,因而出现了许多单项研究中包括数百张芯片的情况。这些研究产生的高维度大内容的数据对试图挖掘其中内涵和有价值的表达模式(pattern)的研究人员来说是一个很大的挑战。
由于基因芯片技术的高通量的特性产生大规模的数据,深入挖掘内在信息的芯片数据分析成为了研究中最关键的步骤之一,而用图表等相关技术展示数据更有助于研究人员特别是生物技术人员和临床医师在复杂的数据中直观地发现一些对象相互间的关系或者表达模式,而无须深入了解计算机和数学知识,因此也可以说是数据分析的第一步。目前常用的芯片可视化分析方法有群集图(Clustergram)、平行坐标(Parallel Coordinates)、热图(Heat Maps)、散点图(Scatter Plots)、柱状图(Histograms)等等。在一些情况下这些工具相当有用,但当面对极大规模的芯片数据集来说,就显得有些力不从心,无法表现出数据中所有潜在的结构和模式。因为这些常用工具并不是专门用来解决大规模芯片数据分析的问题,有着许多难以克服的缺陷,比如,热点图(Heat Maps)被广泛的应用于工业界的财务与生命科学领域,是一类基于等级分类(hierarchical clustering)的展示数据集中每一个数据点的方法,透过颜色来表示是否为特定基因的上调和下调,这样当数据样本很多时造成树状图的上千个节点,让人觉得多得无从下手。平行坐标(ParallelCoordinates)应用在大规模数据集上则显得杂乱无章,难以揭示其中的内在。
因此,由于芯片数据可视化分析和展示方法在基因芯片数据分析技术领域的重要性以及现有方法的缺陷,建立一种新的更完善的适合于大规模芯片数据分析的可视化分析和展示方法,是基因芯片技术领域急需解决的问题。
发明内容
本发明的目的在于解决上述问题,提供了一种基因芯片数据的可视化分析和展示方法,它能提供直观的芯片可视化方法,能方便展示大规模的芯片数据,可以方便生物信息和统计专业人士快速了解数据的结构特性,从而为后续的数学建模分析提供依据。
本发明的技术方案为:一种用于芯片数据分析的可视化分析和展示方法,其中,所述方法包括:
(1)一次利用自组织映射的神经网络来模拟和学习芯片数据;
(2)利用组成分平面来展示步骤(1)得到的单个芯片/样本的数据,将所述神经网络中的多维神经元载体的单个组成分分离出来,同时用二维平面展示经步骤(1)学习到的数据结构;
(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间,同时展示数据中样本和基因之间的关系。
上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(1)进一步包括:
(1.1)构建自组织映射神经网络;
(1.2)所述自组织映射神经网络读取预处理好的各组芯片数据;
(1.3)找出和当前这组芯片数据最近的神经元,即为最佳匹配单元;
(1.4)所有在所述网络的拓扑结构中与步骤(1.3)的最佳匹配单元相邻的神经元象数据点进行移动;
(1.5)以下一组芯片数据取代当前这组芯片数据并重复步骤(1.3)-(1.4),
直到所有的神经元都训练完毕。
(1.6)输出神经元的结果。
上述的用于芯片数据分析的可视化分析和展示方法,其中,所述步骤(1.3)中,  根据公式||x-mc||=mini{||x-mi||}来寻找最佳匹配单元,其中x代表输入样本向量,m代表神经元的模式向量,c代表最佳匹配单元,i代表第i个神经元,||.||表示一种计算距离的方法,t代表任一时间。
上述的用于芯片数据分析的可视化分析和展示方法,其中,所述步骤(1.4)中,根据公式mi(t+1)=mi+a(t)hci(r(t))[x(t)-mi(t)]对神经元象数据点进行移动,其中x代表输入样本向量,m代表神经元的模式向量,mi(t+1)代表单元i的加权向量,t代表任一时间,a(t)代表邻近核心函数,其为一递减函数且介于0与1之间,主要是用来对最佳匹配单元的所有邻近点作调整,hci(r(t))代表最佳匹配单元c附近的邻近核心,r(t)代表邻近半径。
上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(1.1)进一步包括:
设定输入载体和输出载体,每个神经元在自组织网络中有原型载体和网络载体两个位置,原型载体和网络载体分别为自组织网络训练样本的输入变量和输出结果,同时设定神经元数目;
设定拓扑结构和网络连接,所述网络连接为相邻神经元之间的关系。
上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(2)进一步包括:
(2.1)将神经元每一维的数值投射到平面上;
(2.2)用图形表示自组织映射的神经网络的拓扑结构,每个神经元用与拓扑结构对应的图形表示,神经元每个维度的数值用颜色来编码;
(2.3)组成分平面展示结果。
上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(3)进一步包括:
(3.1)构建另一自组织映射的神经网络,并将步骤(2)中的每个组成分/样本的数值构成一个载体;
(3.2)进行第二次自组织映射神经网络的学习;
(3.3)通过步骤(3.2)的学习找出每个组成分/样本在第二次自组织映射神经网络的神经元中所对应的最佳匹配单元;
(3.4)将每个组成分/样本投射到自组织映射神经网络图谱中,该组成分平面的位置为步骤(3.3)得到的该图谱中相应的最佳匹配单元神经元的位置;
(3.5)将步骤(2)的每个组成分/样本的可视化展示代入;
(3.6)在一幅自组织映射神经网络图谱中展示最终结果。
上述的用于芯片数据分析的可视化分析和展示方法,其中,步骤(3.4)中,当相同的样本投射到同一单元时,匹配值最低的样本将投射到第二匹配单元。
本发明对比现有技术有如下的有益效果:本发明的方法可以在一副图谱(map)中展示所有的芯片数据,同时能准确的将生物芯片数据的重要特征/结构展示出来。这种分析方法可以直接应用到生物芯片整合平台的制造以及生物芯片数据分析系统的开发中。同时,将使生物芯片数据分析技术变得直观,克服了生物芯片技术中的一个重要瓶颈,因此将有易于生物芯片技术的推广和普及。
附图说明
图1是本发明方法较佳实施例的总流程图。
图2是本发明方法中SOM训练方法的流程图。
图3是本发明方法中组成分平面展示方法的流程图。
图4是本发明方法中平面组分映射到单独图表方法的流程图。
图5是应用本发明的一个实施例的结果示意图。
图6是应用本发明的另一实施例的结果示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1示出了本发明方法的总流程。请参见图1所示,下面是对流程中每一步骤的详细描述。
步骤S1:第一次利用自组织映射(Self-Organizing Map,SOM)的神经网络来模拟和学习芯片数据。这种技术利用模拟神经元(neuron)来代替原始数据,是基于一种称为非监督式(Non-supervised)自组织网络映射的神经网络算法基础上提出的,模拟脑神经元细胞在大脑中的投射,可以达到减低数据密度,减少数据噪音的目的,同时也使后续的数据展示变得更容易。
图2示出了该步骤的子流程。请参见图2所示,下面的步骤S11-S16是对这些子流程的详细描述。
步骤S11:构建自组织映射神经网络。构建过程主要如下:
(1)设定输入载体和输出载体。每个神经元在自组织网络中都有两个位置-原型载体和网络载体,原型载体为自组织网络训练样本的输入变量,网络载体为网络的输出结果。它们的维数与生物芯片数据芯片维数相同,它们的神经元数目依据生物芯片具体数据来决定。
(2)设定拓扑结构。为了便于进一步展示,本实施例中的拓扑结构为二维的六边形结构,即每个神经元周围有六个相邻的神经元。
(3)设定网络连接。网络连接为相邻神经元之间的关系,本实施例中选用高斯函数来表示,其公式为exp(-||rc-ri||2/2σ2(t))。
步骤S12:自组织映射神经网络分组读取预处理好的基因芯片数据。将芯片数据分组,以一次一组的形式读入神经网络。
步骤S13:找出和当前这组芯片数据最近的神经元,即为最佳匹配单元(BestMatch Unit,BMU)。
在自组织映射神经网络中,每一项原始数据中具有许多属性,所有的原始数据均被视为由属性值所构成的输入向量,而被投射的二维平面则由许多的神经元(neuron)所构成,每一神经元同样是由向量所构成,构成神经元的向量称为模式向量。在学习的过程中,平面中的神经元会与所有的输入向量进行比较,最接近输入向量的神经元称为最佳匹配单元。
在本实施例中是根据公式||x-mc||=mini{||x-mi||}来寻找最佳匹配单元,其中x代表输入样本向量,m代表神经元的模式向量,c代表最佳匹配单元,i代表第i个神经元,||.||表示一种计算距离的方法,通常是欧式距离,t代表任一时间。当前这组芯片数据的最佳匹配单元就是满足上面公式的c。
步骤S14:所有在该网络的拓扑结构中与步骤S13中找到的最佳匹配单元相邻的神经元象数据点进行移动。
调整最佳匹配单元的神经元使其与输入向量更加接近,同时也对最佳匹配单元所有邻近的点进行调整,使得分群中的相似数据更加接近。具体是根据公式mi(t+1)=mi+a(t)hci(r(t))[x(t)-mi(t)]对神经元象数据点进行移动,其冲x代表输入样本向量,m代表神经元的模式向量,mi(t+1)代表单元i的加权向量,t代表任一时间,a(t)代表邻近核心函数,其为一递减函数且介于0与1之间,主要是用来对最佳匹配单元的所有邻近点作调整,常用的有泡沫函数(bubble)和高斯函数(gaussian)两种,hci(r(t))代表最佳匹配单元c附近的邻近核心,r(t)代表邻近半径。
受调整的神经元的调整范围及调整率,为与最佳匹配单元间的距离。一般所采用的距离计算式如下式:exp(-||rc-ri||2/2σ2(t)),其中rc代表神经元在自组织图中的位置,sigma(t)是在t时刻的邻近半径。
步骤S15:判断当前处理的这组芯片数据是否为最后一组。如果是,则转入下一步,否则将下一组芯片数据取代当前这组数据并转入步骤S13进行相同的处理。
步骤S16:输出神经元的结果。
步骤S2:利用组成分平面来展示单张芯片/样本的数据。其原理是将上述的多维神经元载体(neuron vector)的单个组分分离出来,同时用二维的平面展示自组织网络学习到的数据结构。图3示出了组成分平面展示的子流程。请参见图3所示,下面的步骤S21-S23是对这些子流程的详细描述。
步骤S21:将第一次SOM的神经元每一维的数值投射到平面上。
步骤S22:用图形表示自组织映射神经网络的拓扑结构,每个神经元用与拓扑结构对应的图形表示,神经元每个维度的数值用颜色来编码。
在本实施例中,由于拓扑结构采用的是六边形结构,故用包含六边形的图谱来展示自组织网络的拓扑结构,即组平面是由六边形组成的,每个六边形代表自组织网络中的一个神经元。六边形的数值代表神经元在输出空间中的单个组成分(维度的数值),这些数值用颜色矩阵来表示,在本实施例中红色表示高值,蓝色表示低值。因此,每个组成分展示了自组织网络学习到的每个样本/芯片的数据特性。
步骤S23:组成分平面展示结果。
步骤S3:第二次利用自组织映射神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间,确定平面组分在展示图中的位置,同时展示数据中样本和基因之间的关系。
图4示出了该步骤S3的子流程。请参见图3所示,下面的步骤S31-S36是对这些子流程的详细描述。
步骤S31:构建第二个自组织映射的神经网络,并将步骤S2中的每个组成分/样本的数值构成一个载体。
为了减少数据的计算量,第二次自组织网络学习是建立在第一次自组织网络之上。在构建第二次自组织网络中,模拟神经元载体的维数等于第一次自组织网络中包含的神经元的数目,模拟神经元的数目将设置成大于组平面的数目。而第二次自组织网络用的距离公式与第一次不同,第一次采用欧式距离,第二次采用共相关系数来计算数据点之间的距离。
步骤S32:进行第二次自组织映射神经网络的学习。其学习过程与第一次自组织映射神经网络学习类同,在此不再重复描述。
步骤S33:通过步骤S32的学习找出每个组成分/样本在第二次自组织映射神经网络的神经元中所对应的最佳匹配单元。最佳匹配单元的寻找和处理方法类似步骤S13-S14。
步骤S34:将每个组成分/样本投射到自组织映射神经网络图谱中,该组成分平面的位置为步骤S33得到的该图谱中相应的最佳匹配单元神经元的位置。如果遇到相同的样本投射到同一单元,则匹配值最低的那个样本将会投射到第二匹配单元(next-best-matching)。所谓第二匹配单元,是指平面中的神经元与所有的输入向量进行比较后第二接近输入向量的神经元。
步骤S35:将步骤2中的每个组成分/样本的可视化展示代入。
步骤S36:在所有组成分/样本都处理完毕后,这幅自组织映射神经网络图谱将展示最终结果。
图5示出了本发明方法的一个应用实施例。请参见图5,应用本方法,按照不同的表达模式,在图中分开明显的三个区域,分别为All-T(Tcell acutelymphoblastic leukemia,T型急性淋巴白血病)、ALL-B(B cell acutelymphoblastic leukemia,B型急性淋巴白血病)、AML(acute myeloid leukemia,急性粒细胞白血病)。通过分析结果可知,该图谱可以作为用来实现下列目标的有效工具。(1)为整个芯片数据提供一个鸟瞰图,以便于寻找数据中一些大规模的特性。比如在图5中,AML和ALL样本可以由它们各自在图中的位置和组成分的花式(pattern)轻易的分别开来。AML和ALL在图中各自聚集在一起。同时通过观察图5,可以发现ALL样本中间有一条清晰的,由空网格隔开的边界,这暗示着ALL类别中可能存在亚类。检视原始数据提供的病人样本信息可以发现,这两类样本分别为T细胞来源的ALL和B细胞来源的ALL。T细胞来源的ALL和B细胞来源的ALL在生物学上和临床治疗上有很大的区别。因此,它们在转录表达水平上的不同,暗示着它们可能为ALL的两个亚类。由上述分析可知,我们的结果能展示芯片数据中大尺度的特性,为进一步挖掘样本之间的关系提供便利。(2)可以用来寻找样本局部的联系,这些联系能提供宝贵的信息。进一步的观察T-ALL和B-ALL的基因表达谱不难发现:在所有的T-ALL组成分平面的右下角的基因跟B-ALL表达转况有很大的区别。这些区别表现在这些基因在T-ALL样本中,相对与B-ALL样本具有高水平的表达。暗示着这些基因可能代表了T-ALL和B-ALL的表达差异,它们可能用做区分这两类样本的标记基因(marker gene)。
图6示出了本发明方法的另一应用实施例。请参见图6,应用本方法,按照不同的表达模式,将样品中不同组织或者器官映射到各自的区域,各个区域具有明显的表达特征,聚集在一起的都为相同的组织样本,它们的表达谱具有相同的花式(pattern)和特性,图中也直观的反映了这些组织的的起源关系。因此,在我们的分析中证实了该方法非常利于观察复杂数据的结构,有利于研究人员快速寻找数据中感兴趣的特征。
综上,本发明利用SOM(Self-organizing Map,自组织映射)向量映射的特性,应用组分平面展示技术将高维的芯片表达数据转化为二维的带色彩的模式,在可视化分析生物样本之间的联系方面非常有用。然而在处理大规模数据时,组分之间寻找相似性和区别仍然十分麻烦。因此将平面组分组织并把它们映射到一个新的单独的图表上,使得能够展示和便利挖掘庞大数据集中基因和样品各自的自然类别和相关联的表达模式。对于生物技术研发人员和临床医师,使用本发明的方法不需要专业的数学和计算机知识,同时提供可靠的分析结果。该方法由于使用了先进的神经网络技术,使得生物芯片数据处理系统的处理能力大大增强,原本在大型机完成的任务,能轻松在个人PC机完成。因此本方法将有利于芯片分析平台和软件的研制,节省建立平台的成本,也有利于生物芯片产品的普及。
上述实施例是提供给本领域普通技术人员来实现或使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。

Claims (8)

1一种用于芯片数据分析的可视化分析和展示方法,其特征在于,所述方法包括:
(1)第一次利用自组织映射的神经网络来模拟和学习芯片数据;
(2)利用组成分平面来展示步骤(1)得到的单个芯片/样本的数据,将所述神经网络中的多维神经元载体的单个组成分分离出来,同时用二维平面展示经步骤(1)学习到的数据结构;
(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系,并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间,同时展示数据中样本和基因之间的关系。
2根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,步骤(1)进一步包括:
(1.1)构建自组织映射神经网络;
(1.2)所述自组织映射神经网络读取预处理好的各组芯片数据;
(1.3)找出和当前这组芯片数据最近的神经元,即为最佳匹配单元;
(1.4)所有在所述网络的拓扑结构中与步骤(1.3)的最佳匹配单元相邻的神经元象数据点进行移动;
(1.5)以下一组芯片数据取代当前这组芯片数据并重复步骤(1.3)-(1.4),直到所有的神经元都训练完毕。
(1.6)输出神经元的结果。
3根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,所述步骤(1.3)中,根据公式||x-mc||=mini{||x-mi||}来寻找最佳匹配单元,其中x代表输入样本向量,m代表神经元的模式向量,c代表最佳匹配单元,i代表第i个神经元,||.||表示一种计算距离的方法,t代表任一时间。
4根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,所述步骤(1.4)中,根据公式mi(t+1)=mi+a(t)hci(r(t))[x(t)-mi(t)]对神经元象数据点进行移动,其中x代表输入样本向量,m代表神经元的模式向量,mi(t+1)代表单元i的加权向量,t代表任一时间,a(t)代表邻近核心函数,其为一递减函数且介于0与1之间,主要是用来对最佳匹配单元的所有邻近点作调整,hci(r(t))代表最佳匹配单元c附近的邻近核心,r(t)代表邻近半径。
5根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,步骤(1.1)进一步包括:
设定输入载体和输出载体,每个神经元在自组织网络中有原型载体和网络载体两个位置,原型载体和网络载体分别为自组织网络训练样本的输入变量和输出结果,同时设定神经元数目;
设定拓扑结构和网络连接,所述网络连接为相邻神经元之间的关系。
6根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,步骤(2)进一步包括:
(2.1)将神经元每一维的数值投射到平面上;
(2.2)用图形表示自组织映射的神经网铬的拓扑结构,每个神经元用与拓扑结构对应的图形表示,神经元每个维度的数值用颜色来编码;
(2.3)组成分平面展示结果。
7根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,步骤(3)进一步包括:
(3.1)构建另一自组织映射的神经网络,并将步骤(2)中的每个组成分/样本的数值构成一个载体;
(3.2)进行第二次自组织映射神经网络的学习;
(3.3)通过步骤(3.2)的学习找出每个组成分/样本在第二次自组织映射神经网络的神经元中所对应的最佳匹配单元;
(3.4)将每个组成分/样本投射到自组织映射神经网络图谱中,该组成分平面的位置方步骤(3.3)得到的该图谱中相应的最佳匹配单元神经元的位置;
(3.5)将步骤(2)的每个组成分/样本的可视化展示代入;
(3.6)在一幅自组织映射神经网络图谱中展示最终结果。
8根据权利要求7所述的用于芯片数据分析的可视化分析和展示方法,其特征在于,步骤(3.4)中,当相同的样本投射到同一单元时,匹配值最低的样本将投射到第二匹配单元。
CNB2006100283487A 2006-06-29 2006-06-29 一种用于芯片数据分析的可视化分析和展示方法 Expired - Fee Related CN100535913C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100283487A CN100535913C (zh) 2006-06-29 2006-06-29 一种用于芯片数据分析的可视化分析和展示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100283487A CN100535913C (zh) 2006-06-29 2006-06-29 一种用于芯片数据分析的可视化分析和展示方法

Publications (2)

Publication Number Publication Date
CN101097585A true CN101097585A (zh) 2008-01-02
CN100535913C CN100535913C (zh) 2009-09-02

Family

ID=39011417

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100283487A Expired - Fee Related CN100535913C (zh) 2006-06-29 2006-06-29 一种用于芯片数据分析的可视化分析和展示方法

Country Status (1)

Country Link
CN (1) CN100535913C (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894296A (zh) * 2010-07-05 2010-11-24 湖南大学 一种基于标准差与偏斜度的模拟电路故障诊断神经网络方法
CN107632998A (zh) * 2017-07-24 2018-01-26 电子科技大学 一种基于人体形态的多维数据可视化方法
CN107704925A (zh) * 2017-10-16 2018-02-16 清华大学 深度神经网络训练过程的可视分析系统及方法
CN108319569A (zh) * 2018-01-17 2018-07-24 西南交通大学 一种基于维度重排序降低平行坐标可视化视觉杂乱的方法
CN109376217A (zh) * 2018-10-08 2019-02-22 海南大学 基于价值的体系化全类型化频度标定数据图谱的节点集合及其拓扑结构确定方法
CN110188886A (zh) * 2018-08-17 2019-08-30 第四范式(北京)技术有限公司 对机器学习过程的数据处理步骤进行可视化的方法和系统
CN110782949A (zh) * 2019-10-22 2020-02-11 王文婷 一种基于最大最小化序列搜索的多层基因加权分组方法
CN112955961A (zh) * 2018-08-28 2021-06-11 皇家飞利浦有限公司 医学文本中对基因名称的标准化的方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1037158A3 (en) * 1999-03-15 2003-06-18 Whitehead Institute For Biomedical Research Methods and apparatus for analyzing gene expression data
US20020184569A1 (en) * 2001-04-25 2002-12-05 O'neill Michael System and method for using neural nets for analyzing micro-arrays

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894296A (zh) * 2010-07-05 2010-11-24 湖南大学 一种基于标准差与偏斜度的模拟电路故障诊断神经网络方法
CN101894296B (zh) * 2010-07-05 2012-09-05 湖南大学 一种基于标准差与偏斜度的模拟电路故障诊断神经网络方法
CN107632998A (zh) * 2017-07-24 2018-01-26 电子科技大学 一种基于人体形态的多维数据可视化方法
CN107632998B (zh) * 2017-07-24 2021-04-23 电子科技大学 一种基于人体形态的多维数据可视化方法
CN107704925A (zh) * 2017-10-16 2018-02-16 清华大学 深度神经网络训练过程的可视分析系统及方法
CN107704925B (zh) * 2017-10-16 2020-04-14 清华大学 深度神经网络训练过程的可视分析系统及方法
CN108319569A (zh) * 2018-01-17 2018-07-24 西南交通大学 一种基于维度重排序降低平行坐标可视化视觉杂乱的方法
CN108319569B (zh) * 2018-01-17 2020-04-03 西南交通大学 一种基于维度重排序降低平行坐标可视化视觉杂乱的方法
CN110188886A (zh) * 2018-08-17 2019-08-30 第四范式(北京)技术有限公司 对机器学习过程的数据处理步骤进行可视化的方法和系统
CN112955961A (zh) * 2018-08-28 2021-06-11 皇家飞利浦有限公司 医学文本中对基因名称的标准化的方法和系统
CN109376217A (zh) * 2018-10-08 2019-02-22 海南大学 基于价值的体系化全类型化频度标定数据图谱的节点集合及其拓扑结构确定方法
CN110782949A (zh) * 2019-10-22 2020-02-11 王文婷 一种基于最大最小化序列搜索的多层基因加权分组方法

Also Published As

Publication number Publication date
CN100535913C (zh) 2009-09-02

Similar Documents

Publication Publication Date Title
CN100535913C (zh) 一种用于芯片数据分析的可视化分析和展示方法
CN106537422B (zh) 用于捕获信息内的关系的系统和方法
CN109492796A (zh) 一种城市空间形态自动分区方法与系统
Koua Using self-organizing maps for information visualization and knowledge discovery in complex geospatial datasets
Cagas et al. PreFIC: Predictability of faculty instructional performance through hybrid prediction model
CN102349075A (zh) 发现曲线分析系统及其程序
Inyang et al. Unsupervised Characterization and Visualization of Students' Academic Performance Features.
Inkpen et al. Using morphospaces to understand tafoni development
Hoi et al. Data. Information and Knowledge Visualization for Frequent Patterns
Koua et al. Evaluating self-organizing maps for geovisualization
Lestari et al. Clustering Model of Lecturers Performa in Publication Using K-Means for Decision Support Data
Guerrero-Bote et al. Methods for the analysis of the uses of scientific information: the case of the University of Extremadura (1996–7)
Rytkönen et al. Process dynamics of managing interdisciplinary, cross-organizational learning campus in change: case aalto university
Chakuma et al. Visualizing the optimization process for multi-objective optimization problems
Parkavi et al. Pattern analysis of blooms knowledge level students performance using association rule mining
Ocampo et al. Cluster Analysis for Data Processing in Educational Research
Aouabed et al. Visualizing biclustering results on gene expression data: A survey
Senapati et al. Single-Cell RNA Sequence Data Analysing Using Fuzzy de Based Clustering Technique
van Helden et al. The arch-i-scan project: Artificial intelligence and 3d simulation for developing new approaches to roman foodways
Witt Cartogramic metamorphologies; or, enter the RoweBot
Masopust et al. Utilisation of EU employment data in lecturing data mining course
CN109215741A (zh) 基于双超图正则化的肿瘤基因表达谱数据双聚类方法
Hanna Defining implicit objective functions for design problems
Atto et al. Data mining agents as means of communicating users in an e-learning environment
Chase et al. Evaluating the complexity of CAD models as a measure for student assessment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090902

Termination date: 20160629