CN108846261B

CN108846261B - 基于可视图算法的基因表达时序数据分类方法

Info

Publication number: CN108846261B
Application number: CN201810386434.8A
Authority: CN
Inventors: 陈晋音; 郑海斌; 王桢; 应时彦; 李南
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2020-05-29
Anticipated expiration: 2038-04-26
Also published as: CN108846261A

Abstract

本发明公开了一种基于可视图算法的基因表达时序数据分类方法，包括：1)构建基础网络，根据已经进行预处理的基因表达时序数据选取数据条，通过可视图算法构建可视图与连接图，并确定共表达网络的基本结构；2)根据得到的基础网络提取相关传统特征；3)利用二阶随机行走与神经网络模型学习得到基础网络中各个基因节点的特征向量；4)整合基础网络的特征，通过密度聚类算法，基于得到的基础网络的特征使用不同策略，完成对基因表达时序数据的分类。本发明提供一种具有良好的精度和实用性能，采用可视图基础网络构建和节点特征向量提取以及密度聚类算法实现基因表达时序数据分类的方法。

Description

基于可视图算法的基因表达时序数据分类方法

技术领域

本发明属于生物信息技术领域，具体涉及一种基于可视图算法的基因表达时序数据分类方法。

背景技术

在当今医学研究领域与大数据分析领域中，基因数据作为数据基础起到了至关重要的作用。其中，基因表达数据作为基因转录产物mRNA在细胞中丰度的反映，可以用于基因表达变化、基因间相互关系以及影响基因表达的环境因素的分析。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面都有重要的应用。

目前，高通量检测基因组mRNA丰度的方法主要是cDNA微阵列、寡核苷酸芯片，随着cDNA微阵列和寡核苷酸芯片等高通量检测技术的发展，人们可以从全基因组水平定量或定性检测基因转录产物mRNA。由于生物体中的细胞种类繁多，同时基因表达具有时空特异性，因此，基因表达数据与普通基因组数据相比，复杂性更高，数据量更大，数据增长速度更快。

但是，时序数据通常具有高维度、大规模的特征，且存在噪音干扰，因此，传统数据分析、常用经典数据挖掘算法均不能很好地对结构复杂的时序数据进行挖掘与分析。这样，对时序数据的挖掘与分析方法进行创新与发现具有重要意义。

网络，作为对节点间相互关系、连接以及各类加权信息的可视化反映，提供了另一种研究复杂系统与数据的角度和切入点。即在研究一个复杂系统时，将其抽象成许多子系统的重合，这些子系统可视为网络中的节点，网络的边就是子系统间的相互联系。如此，通过对网络相关特征的总结与挖掘，可得到对应系统的相关规律与特征。

因此，深入理解时序数据的网络理论，并将其运用到实际的基因表示时序数据分析中，获取基因的功能类别和调控关系以及样本类别等重要信息，具有极其重要的理论与实践意义。

发明内容

针对基因表达时序数据的复杂性，本发明的目的是提供一种基于可视图算法的基因表达时序数据分类方法，以此来提高对基因表达时序数据分类的准确性。

为实现上述发明目的，本发明提供以下技术方案：

一种基于可视图算法的基因表达时序数据分类方法，包括以下步骤：

(1)对原始基因表达时序数据依次进行噪声清除、缺失数据补充以及三维坐标展示预处理，获得多个数据条，每个数据条表示每个样本的每个基因在全时间段下的表达数据值；

(2)针对每个数据条，利用可视图算法对数据条进行映射后，构建基因网络，在构建的基因网络中，每个节点表示与数据条对应的样本基因在每个时刻的表达数据值；

(3)根据构建的基因网络中的节点以及节点之间的连接关系，提取基因网络的节点平均度、平均路径长度以及聚类系数；

(4)利用弱随机游走模型获得基因网络中的每个节点的游走序列；

(5)以节点的游走序列对应的分布式特征向量作为输入，以构建的实数形式的分布式特征向量作为监督输出，对神经网络进行训练，训练结束后，将节点的游走序列对应的分布式特征向量与最终输入权重矩阵的乘积作为该节点的特征向量；

(6)将基因网络的节点平均度、平均路径长度以及聚类系数以各占一个维度的方式添加到每个节点的特征向量中，获得基因网络的特征；

(7)采用密度聚类算法对基因网络的特征进行聚类，实现对基因时序数据的基因分类和样本分类。

原始基因表达时序数据往往会存在很多缺陷，直接影响构建网络的精度和数据特征提取的准确性，因此，为提高对基因表达时序数据构建网络的精确度和提高提取的数据特征的准确度，需要对原始基因表达时序数据进行预处理。

具体地，所述步骤(1)包括：

(1-1)清除原始基因表达时序数据中表达水平明显异常的噪声数据，具体为：

首先，对于样本集在t时刻测量得到的基因表达数据，计算该基因表达数据在基因维度上的均值矩阵μ(j,t)与标准差矩阵σ(j,t)，计算公式如下：

式(1)和式(2)中，n_N表示正常样本数量，gE(i,j,t)为基因表达时序数据，表示第i个样本的第j个基因在t时刻的表达数据值，其中，i∈(1,n)，j∈(1,m)，t∈(1,T)；

然后，根据基因表达数据分布绘制对应的正态钟形曲线，并利用3σ原则，将置信区间外的基因表达数据视为噪声点并清除；

(1-2)补充原始基因表达时序数据中的缺失数据，具体为：

首先，对于样本集中的第i个样本的某一维度的第j个基因进行时间维度上的二次函数拟合，拟合公式为：

y_2nd(t)＝a_2ndx²+b_2ndx+c_2nd (3)

式(3)中，y_2nd(t)∈gE(i,j,t)，x∈t；

然后，通过计算系数值(a_2nd,b_2nd,c_2nd)进行缺失时刻的基因表达数据的拟合补充；

(1-3)将噪声清除、缺失数据补充后的基因表达时序数据进行三维坐标展示，具体为：

根据基因表达时序数据，构建三维坐标图，其中，三个维度分别为基因维度、样本维度与时间维度；

在三维坐标图中，每个坐标点表示某样本维度中的某个基因在相对应时间点的相对表达水平；一个样本的一个基因在全时间段下的表达数据值作为一个数据条，对于样本数量为n、基因数量为m的基因表达时序数据，经三维坐标展示后，可获得n*m个数据条。

网络理论包含着复杂系统，本发明构建每个数据条对应的基因网络，多个数据条对应的基因网络构成网络理论中的复杂系统，以此来呈现基因表达时序数据。

具体地，所述利用可视图算法对数据条进行映射后，构建基因网络包括：

构建可视图：

在平面内，将数据条中的每个数据点按照时间序列以直方条的形式进行呈现，直方条的高度代表每个数据点的表达数据值；如果两个直方条的顶端相互可视，则称这两个数据点可视，用直线将两个直方条的顶端相连且不穿越其他直方条，相对应的可视性准则如下：

式(4)中，(t_a,y_a)和(t_b,y_b)为时间序列中相互可视的数据点，(t_c,y_c)为满足条件t_a＜t_c＜t_b的任意数据点；

基于构建的可视图，构建连接图：

在平面内，将数据条中的各个数据点以实点的形式按照时间序列进行排列后，根据构建的可视图，将相互可视的两个数据点对应的实点连接，且每个实点不能与自身相连，以此形成的连接图作为基因网络。

由于基因网络中的节点以及节点之间的连接关系保留了基因表达数据的相关基础特征，因此，对基因网络的节点平均度、平均路径长度以及聚类系数进行提取，有助于后续对基因表达数据的分析与分类，具体地，所述步骤(3)包括：

(3-1)计算基因网络的节点平均度，具体公式如下：

式(5)中，N表示基因网络中的节点总数，v_i表示第i个节点的度，定义为与第i个节点相连接的所有节点的个数，Q为节点平均度；

(3-2)计算基因网络的平均路径长度，具体公式如下：

式(6)中，L为平均路径长度，d_ij为第i个节点与第j个节点之间的距离，定义为连接第i个节点与第j个节点的最短路径上的连边数量；

(3-3)计算基因网络的聚类系数，具体为：

首先，定义第i个节点的聚类系数C_i为：

C_i＝2E_i/(k_i(k_i-1)) (7)

式(7)中，k_i为与第i个节点直接连接的节点个数，E_i为将k_i个节点连接起来的边的条数；

然后，计算基因网络中所有节点的聚类系数的平均值，以该平均值作为基因网络的聚类系数。

其中，所述步骤(4)包括：

(4-1)利用弱随机游走模型对基因网络中的每个节点进行随机游走，K_i表示游走中的第i个节点，并以K_i＝n_u开始，n_u为游走的初始节点，K_i的生成满足一下分布条件：

式(8)中，s为当前停留的节点，y为下一步可能游走的节点，π_sy表示节点s与节点y间未标准化的转移概率，Z表示标准化常数；

对于K_i-2＝t，t表示已游走的上一个节点，定义π_sy＝f_π(Θ)作为新游走概率，其计算公式为：

f_π(Θ)＝log(d_ty+10*C_i+1) (9)

式(9)中，d_ty表示节点t与节点y间的最短路径，且d_ty∈{0,1,2}，C_i为基因网络中节点i的聚类系数；

若π_sy相等，则随机选择一个节点进行游走；

(4-2)利用步骤(4-1)中的方法，以基因网络中的每个节点作为初始节点进行游走，得到N条长度为l_random _walk的游走序列。

具体地，所述步骤(5)包括：

(5-1)去除节点的游走序列中重复游走的节点，获得处理后节点的游走序列：

(5-2)根据处理后的节点的游走序列，采用thermometer编码方式构建输入矩阵，该输入矩阵即为节点的游走序列对应的分布式特征向量；

(5-3)对输入矩阵与输入权重矩阵相乘后得到的矩阵进行加和求平均处理，获得输入层的输出矩阵；

(5-4)将输入层的输出矩阵作为隐藏层输入，并将输入层的输出矩阵与隐藏权重矩阵相乘获得的矩阵作为构建的实数形式的分布式特征向量；

(5-5)利用输入矩阵和构建的实数形式的分布式特征向量对神经网络进行训练，训练后获得最终输入权重矩阵；

(5-6)将节点的游走序列对应的分布式特征向量与最终输入权重矩阵的乘积作为该节点的特征向量。

步骤(5-1)中，按照游走顺序，将游走序列中排在后面的重复节点去除，以实现对游走序列的预处理。

其中，所述步骤(6)包括：

(6-1)基因分类：每次对一个样本中由m个基因得到的m组基因网络特征进行密度聚类，并记录聚类分布结果；在对n个样本依次进行密度聚类后，分析各个样本的聚类分布结果，观察获得基因在各个样本中的整体分布趋势，完成对基因的分类；

(6-2)样本分类：每次对n个样本中的由同一个基因得到的n组基因网络特征进行密度聚类，并记录聚类分布结果；在对m个基因都依次进行密度聚类后，分析各个基因的聚类分布结果，观察具有相似基因分布与结构的样本，完成对样本的分类。

本发明的技术构思为：基于可视图算法的基因表达时序数据分类方法，通过对基因表达时序数据的网络转化与特征提取，进行基因与样本的分类。首先构建基因网络，根据已经进行预处理的基因表达时序数据选取数据条，通过可视图算法构建可视图与连接图，并确定共表达网络的基本结构，然后根据得到的基因网络提取相关传统特征，再利用二阶随机游走与神经网络模型学习得到基因网络中各个基因节点的特征向量。整合基因网络的特征，通过密度聚类算法，基于得到的基因网络的特征使用不同策略，完成对基因表达时序数据的分类。

本发明的有益效果主要表现在：

通过可视图算法得到的网络结构完整，提取的网络特征准确度较高，说明该算法具有良好的适用性和精度。同时，基于所提取特征的数据分类与实际临床分析结果具有较高的吻合度，即本发明具有较好的生物信息可解释性，能够为生物学领域的数据挖掘与分析以及基因时序数据的处理与分类提供指导。

附图说明

图1是本发明提供的基于可视图算法的基因表达时序数据分类方法的流程图；

图2是本实施例提供的利用可视图算法的示意图，其中，图2(a)为构建的可视图，图2(b)为构建的连接图；

图3是本实施例构建的基因网络的结构示意图；

图4是本实施例提供的二阶随机游走的示意图；

图5是本实施例提供的神经网络的训练示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是本发明提供的基于可视图算法的基因表达时序数据分类方法的流程图，参见图1，本实施例提供的基于可视图算法的基因表达时序数据分类方法包括以下步骤：

S101，原始基因表达时序数据预处理，过程如下：

首先，清除表达水平明显异常的噪声数据，基因表达时序数据定义为GETD＝{gE(i,j,t)}，表示第i个样本的第j个基因在t时刻的表达值，其中i∈(1,n)，j∈(1,m)，t∈(1,T)；对于正常样本集(或异常样本集)在t时刻测量得到的基因表达数据，计算其基因维度上的均值矩阵μ(j,t)与标准差矩阵σ(j,t)，计算公式如下：

式(1)和式(2)中，n_N表示正常样本数量，然后根据数据分布绘制对应的正态钟形曲线，同时利用3σ原则，将置信区间外的数据视为噪声点，进行清除；

然后，补充缺失数据，对于正常样本集(或异常样本集)中的样本i，对于某一维度的基因j，进行时间维度上的二次函数拟合，拟合公式定义为：

y_2nd(t)＝a_2ndx²+b_2ndx+c_2nd (3)

式(3)中，y_2nd(t)∈gE(i,j,t)，x∈t，通过计算系数值(a_2nd,b_2nd,c_2nd)进行缺失时刻的基因表达数据的拟合补充；

最后，将已经经过预处理的基因表达时序数据在三个维度下展开，即基因维度、样本维度与时间维度；如图2(a)所示，经过预处理的基因表达时序数据可通过三维坐标图进行表现，坐标图中的一个坐标点表示了该样本维度中的某个基因在相对应时间点的相对表达水平；选取一个样本中的一个基因在全时间段下的表达数据作为一个数据条；则由样本数量为n，基因数量为m的已经经过预处理的基因表达时序数据可得到(n*m)个数据条；

S102，利用可视图算法对基因表达时序数据进行映射，并构建基因网络，过程如下：

S1021，将S101中得到的数据条作为网络构建的源数据，以一个数据条为例，数据条中的每个数据值代表对应时间点的表达数据值；

S1022，构建可视图，如图2(a)所示，在平面内，将数据条中的每个数据点按照时间序列以直方条的形式进行表现，直方条的高度代表每个时间点的数据值；如果两个直方条的顶端相互可视，则称这两个数据点可视，可用直线将两个直方条的顶端相连且不穿越其他直方条；相对应的可视性准则如下：

S1023，构建连接图，在平面内将数据条中的各个数据点以实点的形式按照时间序列进行排列，根据S1022构建的可视图，将相互可视的两个实点连接，且每个实点不能与自身相连，如图2(b)所示；

S1024，根据S1023构建的连接图确定基因网络的结构，如图3所示，由(n*m)个数据条即可构建(n*m)个相对应的基因网络。

S103，提取基因网络的节点平均度、平均路径长度以及聚类系数，具体如下：

S1031，节点平均度；定义基因网络中与某一个节点相连接的其他节点的个数定义为这个节点的度，记为v_i，对基因网络中全部节点的度求和并取平均值即为网络的节点平均度Q,即：

S1032，平均路径长度；定义基因网络中连接两个节点的最短路径上的连边数量为这两个节点之间的距离，记为d_ij，对网络中任意两个节点之间的距离求和并取平均值即为网络的平均路径长度L,即：

S1033，聚类系数；对于基因网络中的一个节点V_i，如果基因网络中还有外k_i个节点与其直接连接，且有E_i条边将这k_i个节点连接起来，则定义节点的聚类系数C_i，公式如下：

C_i＝2E_i/(k_i(k_i-1)) (7)

对基因网络中所有节点的聚类系数求和并取平均值即为网络的聚类系数C。

S104，利用弱随机游走模型获得基因网络中的每个节点的游走序列。具体如下：

S1041，如图4所示，利用弱随机游走模型对基因网络中的每个节点进行随机游走，节点总数表示为N，对于一个初始节点n_u，定义游走长度为l_Random _Walk，K_i表示游走中的第i个节点，并以K₀＝n_u开始。K_i的生成满足以下分布条件：

式(8)中，s为当前停留的节点，y为下一步可能游走的节点，π_sy表示节点s与y间未标准化的转移概率，Z表示标准化常数；对于K_i-2＝t，t表示已游走的上一个节点，定义π_sy＝α_pq(t,y)，其计算公式为：

f_π(Θ)＝log(d_ty+10*C_i+1) (9)

式(9)中，α表示偏置量，并携带p、q参数；d_ty表示节点t与y间的最短路径，且d_ty∈{0,1,2}；为了避免相邻节点间重复游走情况的发生并同时确保游走的范围尽可能大，可将参数p设置为一个较大值(一般取p＞1)，将q设置为一个较小值(一般取q＜1)；若π_sy相等，则随机选择一个节点进行游走；

S1042，根据S1041，将基因网络中的每个节点作为初始节点进行游走，得到N条长度为l_Random _Walk的游走序列。

S105，计算基因网路中的每个节点的特征向量。具体过程如下：

以实数形式的分布式特征向量(也就是下述的维度为1*|V|的矩阵)表示基因网络中的节点，同时使用游走序列中节点的分布式特征向量(也就是下述的输入矩阵)对网络节点间的连接概率函数进行表示；

以节点的游走序列作为神经网络模型的训练集，以一条游走序列为例，首先对游走序列进行预处理，即对于游走序列中重复游走的节点仅保留第一个，处理后得到新节点序列表示为{W₁,W₂,...,W_T}，W_T∈V，其中V是节点集合，即大小为N的有限集合；训练的最终目标使得该模型满足

训练结束的标准为：得到满足带惩罚项的训练序列的对数似然率最大的θ即：

神经网络模型由输入层，隐藏层和输出层构成；如图5所示，首先，根据节点的游走序列，使用thermometer编码方式对底层的单一节点进行表示，即将每一个单一节点表示成一个具有很大长度的向量，向量的分量只由1和0组成，其中第一个1在向量中所对应的位置就是该节点在经过预处理得到的新节点序列中的索引，并此位置值之后的所有值均为1，此为之前的所有值均为0，向量的长度为向量集的长度|V|，因此，由thermometer编码后可得到输入矩阵，其维度为T*|V|，其中T为新节点序列中的节点个数；然后，将输入矩阵与维度为|V|*M的输入权重矩阵H相乘，M为预先设置的特征数量，将所得的向量相加求平均作为隐藏层的输入，即获得维度为1*M的隐藏层的输入矩阵；最后，将隐藏层的输入矩阵乘以维度为M*|V|的输出权重矩阵H'得到的维度为1*|V|的矩阵作为输出层的输入，经过softmax(·)函数进行转换，得到最终的输出P为：

式(11)中，y＝Wx+C tanh(Ux+b)+z；双曲正切函数逐个应用于隐藏层的各个单元；当神经网络节点间没有直连的时候，W＝0，x是首尾相连的特征向量，即：

x＝(H(W_t-1),H(W_t-2),···,H(W_t-n+1)) (12)

训练结束后，节点的游走序列对应的分布式特征向量与最终输入权重矩阵H的乘积作为该节点的特征向量。

由于步骤(4)中得到的游走序列不能保证遍历整个基础网络，因此，预处理后的游走序列不包含基因网络中的所有节点，即得到的节点的特征向量不完整；为了能够尽可能多遍历网络节点，提高节点特征向量所包含的信息丰度，本发明对整个网络进行iter次重复游走，重复游走策略为：对于网络中的每一个节点，将其作为初始节点，经过重复游走得到iter条长度为l_Random _Walk的序列，将其进行去重和编码处理后作为训练集，对权重矩阵H和H'进行训练，提高神经网络的拟合能力。

S106，构建基因网络的特征，即将基因网络的节点平均度、平均路径长度以及聚类系数以各占一个维度的方式添加到每个节点的特征向量中，以获得基因网络的特征。

S107，采用密度聚类算法对基因网络的特征进行聚类，实现对基因时序数据的基因分类和样本分类。具体如下：

基因分类：每次对一个样本中由m个基因得到的m组基因网络特征进行密度聚类，并记录聚类分布结果；在对n个样本依次进行密度聚类后，分析各个样本的聚类分布结果，观察获得基因在各个样本中的整体分布趋势，完成对基因的分类；

样本分类：每次对n个样本中的由同一个基因得到的n组基因网络特征进行密度聚类，并记录聚类分布结果；在对m个基因都依次进行密度聚类后，分析各个基因的聚类分布结果，观察具有相似基因分布与结构的样本，完成对样本的分类。

在对具有n个样本及m个基因的数据集完成基础网络构建后，可得到(n*m)个基础网络；对每一个网络进行特征提取与整和，则每一个网络的特征被表示为矩阵形式，即得到(n*m)个矩阵，矩阵的维度取决与基因表达水平及相关参数的设定；并使用密度聚类算法进行基于网络特征的不同策略的聚类，完成对基因表达时序数据的分类。

本实施例中，可视图算法得到的网络结构完整，提取的网络特征准确度较高，说明该算法具有良好的适用性和精度。同时，基于所提取特征的数据分类与实际临床分析结果具有较高的吻合度，即本发明具有较好的生物信息可解释性，能够为生物学领域的数据挖掘与分析以及基因时序数据的处理与分类提供指导。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。