CN100535913C

CN100535913C - 一种用于芯片数据分析的可视化分析和展示方法

Info

Publication number: CN100535913C
Application number: CNB2006100283487A
Authority: CN
Inventors: 金刚; 王超; 谢松旻
Original assignee: Shanghai Institutes for Biological Sciences SIBS of CAS
Current assignee: Shanghai Institutes for Biological Sciences SIBS of CAS
Priority date: 2006-06-29
Filing date: 2006-06-29
Publication date: 2009-09-02
Anticipated expiration: 2026-06-29
Also published as: CN101097585A

Abstract

本发明公开了一种基因芯片数据的可视化分析和展示方法，它能提供直观的芯片可视化方法，能方便展示大规模的芯片数据。其技术方案为：该方法包括：(1)第一次利用自组织映射的神经网络来模拟和学习芯片数据；(2)利用组成分平面来展示步骤(1)得到的单个芯片/样本的数据，将所述神经网络中的多维神经元载体的单个组成分分离出来，同时用二维平面展示经步骤(1)学习到的数据结构；(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系，并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间，同时展示数据中样本和基因之间的关系。本发明应用于大规模基因芯片数据分析技术领域。

Description

一种用于芯片数据分析的可视化分析和展示方法

技术领域

本发明涉及一种基因芯片数据分析的数据展示方法，尤其涉及一种大规模基因芯片数据集分析中的可视化分析和展示方法。

背景技术

基因芯片的出现是近年来高新技术领域中极具时代特征的重大进展，是物理学、微电子学与分子生物学综合交叉形成的高新技术。基因芯片技术是一种高通量的技术，其基本原理是通过微加工工艺在厘米见方的芯片上集成有数以万计的DNA探针，来实现对mRNA和DNA序列进行高效快捷的定量检测，在基因功能的阐述、疾病原因及机理的探索、可能的诊断及治疗靶点的发现等应用领域，基因芯片正发挥着越来越大的用途。

随着基因芯片技术的进步，该技术被越来越多应用到科研和实践中去，大规模涉及基因芯片的研究也变得可行，因而出现了许多单项研究中包括数百张芯片的情况。这些研究产生的高维度大内容的数据对试图挖掘其中内涵和有价值的表达模式(pattern)的研究人员来说是一个很大的挑战。

由于基因芯片技术的高通量的特性产生大规模的数据，深入挖掘内在信息的芯片数据分析成为了研究中最关键的步骤之一，而用图表等相关技术展示数据更有助于研究人员特别是生物技术人员和临床医师在复杂的数据中直观地发现一些对象相互间的关系或者表达模式，而无须深入了解计算机和数学知识，因此也可以说是数据分析的第一步。目前常用的芯片可视化分析方法有群集图(Clustergram)、平行坐标(Parallel Coordinates)、热图(Heat Maps)、散点图(Scatter Plots)、柱状图(Histograms)等等。在一些情况下这些工具相当有用，但当面对极大规模的芯片数据集来说，就显得有些力不从心，无法表现出数据中所有潜在的结构和模式。因为这些常用工具并不是专门用来解决大规模芯片数据分析的问题，有着许多难以克服的缺陷，比如，热点图(Heat Maps)被广泛的应用于工业界的财务与生命科学领域，是一类基于等级分类(hierarchical clustering)的展示数据集中每一个数据点的方法，透过颜色来表示是否为特定基因的上调和下调，这样当数据样本很多时造成树状图的上千个节点，让人觉得多得无从下手。平行坐标(ParallelCoordinates)应用在大规模数据集上则显得杂乱无章，难以揭示其中的内在。

因此，由于芯片数据可视化分析和展示方法在基因芯片数据分析技术领域的重要性以及现有方法的缺陷，建立一种新的更完善的适合于大规模芯片数据分析的可视化分析和展示方法，是基因芯片技术领域急需解决的问题。

发明内容

本发明的目的在于解决上述问题，提供了一种基因芯片数据的可视化分析和展示方法，它能提供直观的芯片可视化方法，能方便展示大规模的芯片数据，可以方便生物信息和统计专业人士快速了解数据的结构特性，从而为后续的数学建模分析提供依据。

本发明的技术方案为：一种用于芯片数据分析的可视化分析和展示方法，其中，所述方法包括：

(1)一次利用自组织映射的神经网络来模拟和学习芯片数据；

(2)利用组成分平面来展示步骤(1)得到的单个芯片或样本的数据，将所述神经网络中的多维神经元载体的单个组成分分离出来，同时用二维平面展示经步骤(1)学习到的数据结构；

(3)第二次利用自组织映射的神经网络来学习多个样本之间的关系，并利用最佳匹配单元原理将学习到的组成分关系投射到二维空间，同时展示数据中样本和基因之间的关系，其进一步包括：

(3.1)构建另一自组织映射的神经网络，并将步骤(2)中的每个组成分的数值构成一个载体；

(3.2)进行第二次自组织映射神经网络的学习；

(3.3)通过步骤(3.2)的学习找出每个组成分在第二次自组织映射神经网络的神经元中所对应的最佳匹配单元；

(3.4)将每个组成分投射到自组织映射神经网络图谱中，该组成分平面的位置为步骤(3.3)得到的该图谱中相应的最佳匹配单元神经元的位置；

(3.5)将步骤(2)的每个组成分的可视化展示代入；

(3.6)在一幅自组织映射神经网络图谱中展示最终结果。

上述的用于芯片数据分析的可视化分析和展示方法，其中，步骤(1)进一步包括：

(1.1)构建自组织映射神经网络；

(1.2)所述自组织映射神经网络读取预处理好的各组芯片数据；

(1.3)找出和当前这组芯片数据最近的神经元，即为最佳匹配单元；

(1.4)所有在所述网络的拓扑结构中与步骤(1.3)的最佳匹配单元相邻的神经元象数据点进行移动；

(1.5)以下一组芯片数据取代当前这组芯片数据并重复步骤(1.3)-(1.4)，直到所有的神经元都训练完毕。

(1.6)输出神经元的结果。

上述的用于芯片数据分析的可视化分析和展示方法，其中，所述步骤(1.3)中，根据公式||x-m*c||＝mini{||x-m_i||}来寻找最佳匹配单元，其中x代表输入样本向量，m代表神经元的模式向量，c代表最佳匹配单元，i代表第i个神经元，||.||表示一种计算距离的方法，t代表任一时间。

上述的用于芯片数据分析的可视化分析和展示方法，其中，所述步骤(1.4)中，根据公式m_i(t+1)＝m_i+a(t)hci(r(t))[x(t)-m_i(t)]对神经元象数据点进行移动，其中x代表输入样本向量，m代表神经元的模式向量，m_i(t+1)代表单元i的加权向量，t代表任一时间，a(t)代表邻近核心函数，其为一递减函数且介于0与1之间，主要是用来对最佳匹配单元的所有邻近点作调整，hci(r(t))代表最佳匹配单元c附近的邻近核心，r(t)代表邻近半径。

上述的用于芯片数据分析的可视化分析和展示方法，其中，步骤(1.1)进一步包括：

设定输入载体和输出载体，每个神经元在自组织网络中有原型载体和网络载体两个位置，原型载体和网络载体分别为自组织网络训练样本的输入变量和输出结果，同时设定神经元数目；

设定拓扑结构和网络连接，所述网络连接为相邻神经元之间的关系。

上述的用于芯片数据分析的可视化分析和展示方法，其中，步骤(2)进一步包括：

(2.1)将神经元每一维的数值投射到平面上；

(2.2)用图形表示自组织映射的神经网络的拓扑结构，每个神经元用与拓扑结构对应的图形表示，神经元每个维度的数值用颜色来编码；

(2.3)组成分平面展示结果。

上述的用于芯片数据分析的可视化分析和展示方法，其中，步骤(3.4)中，当不同的样本投射到同一单元时，匹配值最低的样本将投射到第二匹配单元。

本发明对比现有技术有如下的有益效果：本发明的方法可以在一副图谱(map)中展示所有的芯片数据，同时能准确的将生物芯片数据的重要特征/结构展示出来。这种分析方法可以直接应用到生物芯片整合平台的制造以及生物芯片数据分析系统的开发中。同时，将使生物芯片数据分析技术变得直观，克服了生物芯片技术中的一个重要瓶颈，因此将有易于生物芯片技术的推广和普及。

附图说明

图1是本发明方法较佳实施例的总流程图。

图2是本发明方法中SOM训练方法的流程图。

图3是本发明方法中组成分平面展示方法的流程图。

图4是本发明方法中平面组分映射到单独图表方法的流程图。

图5是应用本发明的一个实施例的结果示意图。

图6是应用本发明的另一实施例的结果示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1示出了本发明方法的总流程。请参见图1所示，下面是对流程中每一步骤的详细描述。

步骤S1：第一次利用自组织映射(Self-Organizing Map，SOM)的神经网络来模拟和学习芯片数据。这种技术利用模拟神经元(neuron)来代替原始数据，是基于一种称为非监督式(Non-supervised)自组织网络映射的神经网络算法基础上提出的，模拟脑神经元细胞在大脑中的投射，可以达到减低数据密度，减少数据噪音的目的，同时也使后续的数据展示变得更容易。

图2示出了该步骤的子流程。请参见图2所示，下面的步骤S11-S16是对这些子流程的详细描述。

步骤S11：构建自组织映射神经网络。构建过程主要如下：

(1)设定输入载体和输出载体。每个神经元在自组织网络中都有两个位置-原型载体和网络载体，原型载体为自组织网络训练样本的输入变量，网络载体为网络的输出结果。它们的维数与生物芯片数据芯片维数相同，它们的神经元数目依据生物芯片具体数据来决定。

(2)设定拓扑结构。为了便于进一步展示，本实施例中的拓扑结构为二维的六边形结构，即每个神经元周围有六个相邻的神经元。

(3)设定网络连接。网络连接为相邻神经元之间的关系，本实施例中选用高斯函数来表示，其公式为exp(-||r_c-r_i||²/2σ²(t))。

步骤S12：自组织映射神经网络分组读取预处理好的基因芯片数据。将芯片数据分组，以一次一组的形式读入神经网络。

步骤S13：找出和当前这组芯片数据最近的神经元，即为最佳匹配单元(BestMatch Unit，BMU)。

在自组织映射神经网络中，每一项原始数据中具有许多属性，所有的原始数据均被视为由属性值所构成的输入向量，而被投射的二维平面则由许多的神经元(neuron)所构成，每一神经元同样是由向量所构成，构成神经元的向量称为模式向量。在学习的过程中，平面中的神经元会与所有的输入向量进行比较，最接近输入向量的神经元称为最佳匹配单元。

在本实施例中是根据公式||x-mc||＝mini{||x-mi||}来寻找最佳匹配单元，其中x代表输入样本向量，m代表神经元的模式向量，c代表最佳匹配单元，i代表第i个神经元，||.||表示一种计算距离的方法，通常是欧式距离，t代表任一时间。当前这组芯片数据的最佳匹配单元就是满足上面公式的c。

步骤S14：所有在该网络的拓扑结构中与步骤S13中找到的最佳匹配单元相邻的神经元象数据点进行移动。

调整最佳匹配单元的神经元使其与输入向量更加接近，同时也对最佳匹配单元所有邻近的点进行调整，使得分群中的相似数据更加接近。具体是根据公式mi(t+1)＝mi+a(t)hci(r(t))[x(t)-mi(t)]对神经元象数据点进行移动，其中x代表输入样本向量，m代表神经元的模式向量，m_i(t+1)代表单元i的加权向量，t代表任一时间，a(t)代表邻近核心函数，其为一递减函数且介于0与1之间，主要是用来对最佳匹配单元的所有邻近点作调整，常用的有泡沫函数(bubble)和高斯函数(gaussian)两种，hci(r(t))代表最佳匹配单元c附近的邻近核心，r(t)代表邻近半径。

受调整的神经元的调整范围及调整率，为与最佳匹配单元间的距离。一般所采用的距离计算式如下式：exp(-||r_c-r_i||²/2σ²(t))，其中r_c代表神经元在自组织图中的位置，sigma(t)是在t时刻的邻近半径。

步骤S15：判断当前处理的这组芯片数据是否为最后一组。如果是，则转入下一步，否则将下一组芯片数据取代当前这组数据并转入步骤S13进行相同的处理。

步骤S16：输出神经元的结果。

步骤S2：利用组成分平面来展示单张芯片/样本的数据。其原理是将上述的多维神经元载体(neuron vector)的单个组分分离出来，同时用二维的平面展示自组织网络学习到的数据结构。图3示出了组成分平面展示的子流程。请参见图3所示，下面的步骤S21-S23是对这些子流程的详细描述。

步骤S21：将第一次SOM的神经元每一维的数值投射到平面上。

步骤S22：用图形表示自组织映射神经网络的拓扑结构，每个神经元用与拓扑结构对应的图形表示，神经元每个维度的数值用颜色来编码。

在本实施例中，由于拓扑结构采用的是六边形结构，故用包含六边形的图谱来展示自组织网络的拓扑结构，即组平面是由六边形组成的，每个六边形代表自组织网络中的一个神经元。六边形的数值代表神经元在输出空间中的单个组成分(维度的数值)，这些数值用颜色矩阵来表示，在本实施例中红色表示高值，蓝色表示低值。因此，每个组成分展示了自组织网络学习到的每个样本/芯片的数据特性。

步骤S23：组成分平面展示结果。

步骤S3：第二次利用自组织映射神经网络来学习多个样本之间的关系，并利用最佳匹配单元原理将学习到的组平面/样本关系投射到二维空间，确定平面组分在展示图中的位置，同时展示数据中样本和基因之间的关系。

图4示出了该步骤S3的子流程。请参见图3所示，下面的步骤S31-S36是对这些子流程的详细描述。

步骤S31：构建第二个自组织映射的神经网络，并将步骤S2中的每个组成分/样本的数值构成一个载体。

为了减少数据的计算量，第二次自组织网络学习是建立在第一次自组织网络之上。在构建第二次自组织网络中，模拟神经元载体的维数等于第一次自组织网络中包含的神经元的数目，模拟神经元的数目将设置成大于组平面的数目。而第二次自组织网络用的距离公式与第一次不同，第一次采用欧式距离，第二次采用共相关系数来计算数据点之间的距离。

步骤S32：进行第二次自组织映射神经网络的学习。其学习过程与第一次自组织映射神经网络学习类同，在此不再重复描述。

步骤S33：通过步骤S32的学习找出每个组成分/样本在第二次自组织映射神经网络的神经元中所对应的最佳匹配单元。最佳匹配单元的寻找和处理方法类似步骤S13-S14。

步骤S34：将每个组成分/样本投射到自组织映射神经网络图谱中，该组成分平面的位置为步骤S33得到的该图谱中相应的最佳匹配单元神经元的位置。如果遇到不同的样本投射到同一单元，则匹配值最低的那个样本将会投射到第二匹配单元(next-best-matching)。所谓第二匹配单元，是指平面中的神经元与所有的输入向量进行比较后第二接近输入向量的神经元。

步骤S35：将步骤2中的每个组成分/样本的可视化展示代入。

步骤S36：在所有组成分/样本都处理完毕后，这幅自组织映射神经网络图谱将展示最终结果。

图5示出了本发明方法的一个应用实施例。请参见图5，应用本方法，按照不同的表达模式，在图中分开明显的三个区域，分别为A1l-T(T cell acutelymphoblastic leukemia，T型急性淋巴白血病)、ALL-B(B cell acutelymphoblastic leukemia，B型急性淋巴白血病)、AML(acute myeloid leukemia，急性粒细胞白血病)。通过分析结果可知，该图谱可以作为用来实现下列目标的有效工具。(1)为整个芯片数据提供一个鸟瞰图，以便于寻找数据中一些大规模的特性。比如在图5中，AML和ALL样本可以由它们各自在图中的位置和组成分的花式(pattern)轻易的分别开来。AML和ALL在图中各自聚集在一起。同时通过观察图5，可以发现ALL样本中间有一条清晰的，由空网格隔开的边界，这暗示着ALL类别中可能存在亚类。检视原始数据提供的病人样本信息可以发现，这两类样本分别为T细胞来源的ALL和B细胞来源的ALL。T细胞来源的ALL和B细胞来源的ALL在生物学上和临床治疗上有很大的区别。因此，它们在转录表达水平上的不同，暗示着它们可能为ALL的两个亚类。由上述分析可知，我们的结果能展示芯片数据中大尺度的特性，为进一步挖掘样本之间的关系提供便利。(2)可以用来寻找样本局部的联系，这些联系能提供宝贵的信息。进一步的观察T-ALL和B-ALL的基因表达谱不难发现：在所有的T-ALL组成分平面的右下角的基因跟B-ALL表达转况有很大的区别。这些区别表现在这些基因在T-ALL样本中，相对与B-ALL样本具有高水平的表达。暗示着这些基因可能代表了T-ALL和B-ALL的表达差异，它们可能用做区分这两类样本的标记基因(marker gene)。

图6示出了本发明方法的另一应用实施例。请参见图6，应用本方法，按照不同的表达模式，将样品中不同组织或者器官映射到各自的区域，各个区域具有明显的表达特征，聚集在一起的都为相同的组织样本，它们的表达谱具有相同的花式(pattern)和特性，图中也直观的反映了这些组织的的起源关系。因此，在我们的分析中证实了该方法非常利于观察复杂数据的结构，有利于研究人员快速寻找数据中感兴趣的特征。

综上，本发明利用SOM(Self-organizing Map，自组织映射)向量映射的特性，应用组分平面展示技术将高维的芯片表达数据转化为二维的带色彩的模式，在可视化分析生物样本之间的联系方面非常有用。然而在处理大规模数据时，组分之间寻找相似性和区别仍然十分麻烦。因此将平面组分组织并把它们映射到一个新的单独的图表上，使得能够展示和便利挖掘庞大数据集中基因和样品各自的自然类别和相关联的表达模式。对于生物技术研发人员和临床医师，使用本发明的方法不需要专业的数学和计算机知识，同时提供可靠的分析结果。该方法由于使用了先进的神经网络技术，使得生物芯片数据处理系统的处理能力大大增强，原本在大型机完成的任务，能轻松在个人PC机完成。因此本方法将有利于芯片分析平台和软件的研制，节省建立平台的成本，也有利于生物芯片产品的普及。

上述实施例是提供给本领域普通技术人员来实现或使用本发明的，本领域普通技术人员可在不脱离本发明的发明思想的情况下，对上述实施例做出种种修改或变化，因而本发明的保护范围并不被上述实施例所限，而应该是符合权利要求书提到的创新性特征的最大范围。

Claims

1一种用于芯片数据分析的可视化分析和展示方法，其特征在于，所述方法包括：

(1)第一次利用自组织映射的神经网络来模拟和学习芯片数据；

(3.2)进行第二次自组织映射神经网络的学习；

(3.4)将每个组成分/样本投射到自组织映射神经网络图谱中，该组成分平面的位置为步骤(3.3)得到的该图谱中相应的最佳匹配单元神经元的位置；

(3.5)将步骤(2)的每个组成分的可视化展示代入；

(3.6)在一幅自组织映射神经网络图谱中展示最终结果。

2根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法，其特征在于，步骤(1)进一步包括：

(1.1)构建自组织映射神经网络；

(1.6)输出神经元的结果。

3根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法，其特征在于，所述步骤(1.3)中，根据公式‖x-m*c‖＝mini{‖x-m_i‖}来寻找最佳匹配单元，其中x代表输入样本向量，m代表神经元的模式向量，c代表最佳匹配单元，i代表第i个神经元，‖.‖表示一种计算距离的方法，t代表任一时间。

4根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法，其特征在于，所述步骤(1.4)中，根据公式m_i(t+1)＝m_i+a(t)hci(r(t))[x(t)-m_i(t)]对神经元象数据点进行移动，其中x代表输入样本向量，m代表神经元的模式向量，m_i(t+1)代表单元i的加权向量，t代表任一时间，a(t)代表邻近核心函数，其为一递减函数且介于0与1之间，用来对最佳匹配单元的所有邻近点作调整，hci(r(t))代表最佳匹配单元c附近的邻近核心，r(t)代表邻近半径。

5根据权利要求2所述的用于芯片数据分析的可视化分析和展示方法，其特征在于，步骤(1.1)进一步包括：

6根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法，其特征在于，步骤(2)进一步包括：

(2.1)将神经元每一维的数值投射到平面上；

(2.3)组成分平面展示结果。

7根据权利要求1所述的用于芯片数据分析的可视化分析和展示方法，其特征在于，步骤(3.4)中，当不同的样本投射到同一单元时，匹配值最低的样本将投射到第二匹配单元。