CN110136779A

CN110136779A - 一种生物网络关键差异节点的样本特征提取及预测方法

Info

Publication number: CN110136779A
Application number: CN201910463541.0A
Authority: CN
Inventors: 谢江; 王娇; 孙佳敏; 李嘉鑫; 杨伏长
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-08-16
Anticipated expiration: 2039-05-30
Also published as: CN110136779B

Abstract

本发明涉及一种生物网络关键差异节点的样本特征提取及预测方法，结合网络拓扑与分子表达特征预测生物网络关键差异节点。特征提取方法具体包括A数据预处理、B提取特征向量、C节点标记和D扩充正样本；预测方法上特征提取的基础上增加E随机森林模型训练和F预测关键节点。本发明可以提取同一细胞在不同状态下的生物网络特征，样本特征的提取可以更有效的利用样本，使得到的训练集更有普适性，该算法对解决问题具有更强的泛化能力。

Description

一种生物网络关键差异节点的样本特征提取及预测方法

技术领域

本发明涉及一种生物网络的机器学习预测方法，特别是涉及提取生物网络节点特征的方法。

背景技术

随着高通量生物测序技术的不断发展，生物学数据不断涌现，不断地促进生物信息学的发展。生物分子网络是一个有效的研究视角，可以深入有效地挖掘隐藏于生物学数据中丰富且有价值的信息。目前，研究人员普遍采用图来表示复杂网络，并以图论的方法来研究它们。对于生物分子网络而言，图中的节点表示生物分子，边表示生物分子之间的调控、相互作用等各种关系。生物分子包括基因、蛋白质等。

在复杂疾病的发展或者细胞发育命运决定的生命过程中，不同状态可建立不同的生物网络。这些网络的差异往往与某几个关键的生物分子的表达和密切相关。关键节点（生物分子）与生物标志物的发现在药物靶点与疾病预防中起到重要参考作用。

生命在不同状态下生物网络所具有的特异性，仅用图论的方法来研究关键差异节点是不够的，还面临着更多的问题，主要包括：（1）传统计算的方法往往难以提取出不同状态下的生物网络的特征。而机器学习方法在选择好合适的算法模型和训练集的前提下，一般可以提取出不同状态下的生物网络特征以训练出更加普适的模型。（2）在机器学习的过程中，如何构建出新的差异性特征提取方法，结合网络中节点的基因表达值和拓扑结构，将差异信息向量化，以便后续的训练及预测。（3）在生物网络中普遍存在正负样本不平衡问题，正负样本不平衡会使得对比例大的那部分样本造成过拟合，而在预测的过程中会偏向样本数量多的那个分类，从而降低模型的泛化能力。

目前，已有一些研究小组在进行这方面的研究，也开发了少量的工具。这些方法各有其优点，但也各有其局限性，无法满足系统生物学的需要。而这些局限性主要体现在传统关键基因预测方法难以提取不同状态下的生物网络特征，而对于不同状态的生物网络，结合网络拓扑与分子表达特征，将有效提高关键基因预测准确率。

发明内容

本发明要解决的就技术问题：针对传统计算的方法往往难以提取出不同状态下的生物网络的特征及生物网络中普遍存在正负样本不平衡问题，提供了一种结合网络拓扑与分子表达特征预测生物网络关键差异节点的特征提取方法。

为达到上述目的，本发明的构思是：首先预处理一组生物分子网络数据，查找网络中的各节点在相应状态下的生物分子表达水平数据，针对数据集查找文献中已支持的影响生命过程且与形成网络差异相关的生物分子（网络中为节点）；其次建立特征工程，结合网络拓扑与分子表达构造五维特征向量；再者，对训练集样本进行数据标记，用基于Pearson相关系数的正样本扩充方法平衡数据；然后使用准备好的训练集，对模型进行训练；最后，根据训练后的模型结果，对新的对照生物分子网络进行比对，预测出生物生命过程中的关键节点。

根据上述发明构思，对于相同节点的网络A（G_A）、网络B（G_B）及目标关键节点集T（G_t），本发明采用下述技术方案：

本发明采用下述技术方案：

一种生物网络关键差异节点的样本特征提取方法，包括以下步骤：

A、数据预处理：从生物网络数据库中找一组对照网络，网络A（G_A）、网络B（G_B），查找网络中各节点在相应状态下的生物分子表达值。从常见的生物数据库中找一组对照网络，常见的生物数据库包括GEO数据库、The Interactome数据库等；查找网络中各节点在相应状态下的生物分子表达水平数据，一般生物分子表达数据会从GEO等数据库中搜集；针对所选数据集，查找文献中已支持的影响生命过程且与形成网络差异有关的生物分子。

B、提取特征向量：从节点的表达值和拓扑结构两个方面将差异信息向量化，量化对照网络中的各个节点在不同状态下的差异。

C、标记节点：在数据和特征向量化完成之后就要开始对训练集的所有节点进行标记；节点将被划分为先验节点（1）或者未标记节点（0）两类。

D、扩充正样本：在文献中查出的关键节点数量一般较少，而会导致正负样本（先验节点与未标记节点）不平衡的问题。因此，在构建测试集的时候提出了一种正样本（先验节点）扩充方法来平衡正负样本（先验节点与未标记节点）的数量，计算所有先验节点特征向量与未标记节点特征向量的Pearson相关性系数，若是存在某个未标记节点与某个先验节点的Pearson相关性系数大于等于阀值ε，则把该未标记节点标记为先验节点。

所述对照网络为细胞在不同状态下的网络，包括健康状态、疾病状态以及细胞在发育过程中不同阶段的生物网络。

在步骤B中，计算生物分子（网络中为节点）表达差异。从数据库中获取对照生物网络中每个节点表达值，每个节点从数据库中采集至少三个表达值，以生物分子节点在不同状态网络中表达值集合的P-value作为节点特征向量的一个维度。生物分子表达值的变化是生物分子改变的直观表现。使用p-value来刻画生物分子表达的差异，这种差异是在整个数值群体中的，具有统计学意义的差异的显著性。

在步骤B中，节点在对照网络中的拓扑结构差异包括：度的差异、中介中心度的差异、接近中心度的差异或聚集系数的差异，将上述4种差异的一种、两种、三种或四种作为节点特征向量的维度。

以节点在对照网络中的4种拓扑结构差异及表达值差异构建五维特征向量，

,和分别表示两种状态下的生物分子网络中节点𝑣的度；

，分别表示两种状态下的生物分子网络中节点𝑣的中介中心度；

，分别表示两种状态下的生物分子网络中节点𝑣的接近中心度；

，分别表示两种状态下的生物分子网络中节点𝑣的聚集系数。

，𝐸和𝐸’分别表示在两种不同状态下，各生物分子的各生物分子的表达值集合。

在步骤C中，若从生物数据库获取某节点的生物分子已支持影响生命过程且与形成网络差异有关，则标记为先验节点，反之则为未标记节点。

在步骤D中阀值ε≥0.8。

一种生物网络关键差异节点的预测方法，其特征在于包括：

一、从生物网络数据库中获取训练集样本和测试集样本，每个样本包含一种细胞在不同状态下的两个对照网络；

二、量化样本中每个节点在两个对照网络中的表达值差异和拓扑结构差异，称为样本特征；

三、为训练集样本中的所有节点打上标签；

四、使用准备好的训练集，对随机森林模型进行训练：将经过步骤三得到训练集样本的样本特征和标签输入到机器学习算法模型中进行训练；。随机森林模型是一种基于树形结构集成的算法，它可以用作分类和回归。一个传统的随机森林模型是由几百个决策树组成，最终的预测结果由所有的决策树投票得来。

五、在模型训练好之后，便可对新的对照生物分子网络组进行比对，预测出另一生命过程中的关键性节点：向模型中输入测试集样本的节点差异，利用训练集的数据预测测试集样本节点的标签。

在步骤一至三中，具体按照上述生物网络关键差异节点的样本特征提取方法的A-D步骤获取训练集样本的节点差异和标签，按照样本特征提取方法所述A-B步骤获取测试集样本的节点差异。

所述机器学习算法模型为随机森林模型。

本发明与现有技术相比较，具有如下突出的实质性特点和显著优点：

1. 该方法使用了现有数据库文献中的先验知识，避免了以往算法不能合理利用先验知识而带来的计算的盲目性。

2. 模型构建新的差异性特征，从节点的生物分子表达值和拓扑结构两个方面将差异信息向量化，以便后续的训练及预测；除了比较重要的表达值差异以外，还以生物网络的拓扑结构差异为基础扩充了4个维度，每增加一个维度，都可以在一定程度上提高预测准确度。

3. 本发明可以提取同一细胞在不同状态下的生物网络特征，样本特征的提取可以更有效的利用样本，使得到的训练集更有普适性，将这些样本构成的训练集应用到不同的机器人算法中均可以显著提高预测的准确率。

4. 本发明采用随机森林法，在准确率性能上高于其他三种传统关键基因预测算法（DCloc、DiffRank、DEC），说明了该算法对解决问题具有更强的泛化能力。

附图说明

图1是本发明的结合网络拓扑与分子表达特征预测生物网络关键差异节点的特征提取方法的流程图。

图2是图1中步骤A所述的数据预处理的具体流程图。

图3是图1中步骤B所述的结合网络拓扑与分子表达提取五维特征向量的流程图。

图4是图1中步骤D所述的扩充正样本（先验节点）的流程图。

图5-图12是本发明的预测方法与同类方法对经典示例在不同系数下的模拟数据集的计算结果对比。

图13是训练集和测试集的四个网络情况，包括网络名称、网络节点数、网络边数、标记节点的个数。

图14是DNARF所输出的关于白血病疾病的5个关键基因。。

具体实施方式

以下结合附图对本发明的优选实施例进一步详细说明。

本实施例中，本发明的结合网络拓扑与分子表达特征预测生物网络关键差异节点的特征提取方法在上海大学系统生物技术研究所的集群计算机上完成，该集群由14台IBMHS21刀片服务器和2台x3650 服务器组成计算和管理节点，网络连接采用千兆以太网和infiniband 2.5G网。每个节点配置两个双核CPU和4GB内存，每个CPU为intel xeon51502.66GMhz主频。采用的算法基于python实现。

具体的样本特征提取方法如下：

A、数据预处理：数据集中需要一组对照生物分子网络（例如正常状态网络G_A和患病状态网络G_B）。具体步骤如下：

A1、从常见的生物数据库中找一组对照网络，常见的生物数据库包括GEO数据库、TheInteractome数据库等。

A2、查找网络中各节点在相应状态下的生物分子表达水平数据，一般生物分子表达数据会从GEO等数据库中搜集。

A3、针对所选数据集，查找文献中已支持影响生命过程且与形成网络差异有关的生物分子。

、提取特征向量：本方法结合网络拓扑与分子表达特征构造五维特征向量，量化网络中的各个节点在不同状态下的差异。

B1、计算节点的网络拓扑差异：根据多个网络拓扑指标，包括节点的度、中介中心度、聚集系数，计算各个节点的网络拓扑差异的变化

B11、计算节点的度的差异：Degree Centrality, (DC) 即节点的度。DC的差异是描述一个节点变化的最直观的方式，DC的表达方式

其中，𝐶_D (𝑣)和分别表示两种状态下的生物分子网络中节点𝑣的度。

B12、计算节点的中介中心度的差异：Betweenness Centrality(BC) ，即中介中心度。BC表示其余节点之间最短路径经过节点𝑣的数量。明显，若有多条节点的最短路径经过某个节点，那么这个节点一定具有较高的中心性，BC值的差异可以用来描述节点的这种“中心性”有没有改变。BC表达方式

𝜎_st表示经过节点𝑠和𝑡的最短路径的数量，，而𝜎_st (𝑣)是最短路中经过节点𝑣的数量因此其中，𝐶_B(𝑣)和𝐶_B’(𝑣)分别表示两种状态下的生物分子网络中节点𝑣的Betweenness Centrality。

B13、计算节点的接近中心度的差异Closeness Centrality(CC) ，即接近中心度。CC在一定程度上描述的是节点在邻居或者其所在的社团中的中心性，形式化描述如下:

其中，𝐶H(𝑣)表示节点𝑣的CC值，表示其他g − 1个节点的之间的直接联系的数量。如此测量的节点度中心性，不仅反映了每个节点与其它节点的关联性，而且也视网络规模（g）而定。也就是说，网络规模越大，度中心性的最大可能值就越高。为了消除网络规模变化对度中心性的影响，可以将公式转化为：

为了消除网络规模对这一特征的影响，本发明采用上述公式来表示CC。保守模块是生物分子网络中的重要研究目标，所以一个节点在模块或者社团中的地位也是具有生物学意义的，因此CC值的变化是可以真实反映出在生物过程中节点的变化情况的。第三个维度可以表述为：其中，分别表示两种状态下的生物分子网络中节点𝑣的Closeness Centrality。

B14、计算聚集系数的差异。Clustering Coefficient (CCo)，即聚集系数。CCo描述的是节点在其模块中的聚集程度。引申到生物分子网络中，一个节点的周围越聚集，其周边的调控关系就越多，其地位就越显著，在网络中就会起到一个核心的调控作用。表达式：，其中，𝑘表示节点𝑣的所有相邻的节点的个数，即节点𝑣的邻居。𝑛表示节点𝑣的所有相邻节点之间相互连接的边的个数，因此

分别表示两种状态下的生物分子网络中节点𝑣的聚集系数。

B2、计算生物分子（网络中为节点）表达差异。生物分子表达值

的变化是生物分子改变的直观表现。使用p-value来刻画生物分子表达的差异，这种差异是在整个数值群体中的，具有统计学意义的差异的显著性。

B21、计算生物分子（网络中为节点）的表达值差异。

= 𝑝 -𝑣𝑎𝑙𝑢𝑒 (𝐸, 𝐸’)。𝐸和𝐸’分别表示在两种不同状态下，各生物分子的表达值集合。𝐸和𝐸’的获取在步骤A2中得到，具体是通过在数据库中查询每种状态下各节点生物分子的表达值的得到，为了保证计算的有效性，一般每个节点至少要查询得到3个表达值。

B3、构造五维特征向量。结合网络拓扑与分子表达特征构造五维特征向量，对于节点𝑣给出其五维特征向量来量化网络中的各个节点（生物分子）在不同状态下（A网络和B

网络）的差异。在向量的构造过程中，这个五个维度不是必须的，可以任选其中2-5个来构件特征向量，但生物分子（网络中为节点）的表达值差异p-value是比较重要的。也可以再增加其他特征进来构成更多维度的特征向量。

、数据标记：在数据和特征向量化完成之后就要开始对训练集

的所有节点进行标记。具体包括：

C1、预测生物网络关键差异节点是一个二分类问题，根据本发明算法所研究的数据集的特点，节点将被划分为先验节点（1）或者未标记节点（0）两类。

C11、先验节点定义：通过文献查询，如果某个节点会影响某生命过程且与形成网络差异有关，那么该节点被认为是先验节点，标记为（1）。

C12、未被文献支持的节点定义：根据本发明算法所研究的数据集的特点，文献支持的节点被标记为先验节点，而未被文献标记的节点有可能是未被发现的关键节点，因此，未被文献查询到的节点暂标记为（0）。

、平衡正负样本（先验节点与未被文献支持节点）：在文献中查出的关键节点数量一般较少，而会导致正负样本（先验节点与未标记节点）不平衡的问题。因此当先验节点的数量和未标记节点的数量不平衡时需要平衡正负样本，当在构建测试集的时候提出了一种正样本（先验节点）扩充方法来平衡正负样本（先验节点与未被文献支持节点）的数量。具体平衡方法如下：

D1、将节点分为两个集合，即先验节点集合𝑅和未被文献支持的

节点集合𝑈。记已被文献标记为先验节点的集合为𝑅 = {𝑟₀, 𝑟₁, 𝑟₂,…, 𝑟_n}，未被文献支持的节点的集合为𝑈 = {𝑢₀, 𝑢₁, 𝑢₂,…, 𝑢_n}。

D2、计算所有𝑟_i∈ 𝑅的特征向量与所有𝑢_i∈ 𝑈的特征向量的

Pearson相关性系数。本发明使用Pearson相关性系数，计算方法如下：

D3、设定阈值ε扩充正样本（先验节点）。若是存在𝑟_x和𝑢_y的特

征向量的Pearson相关性系数大于等于阈值ε，则把生物分子𝑢_y也标记为先验节点，扩充正样本（先验节点）数量以平衡数据集。

D31、阈值ε设定原则：经过正样本（先验节点）扩充后，使得正

负样本（先验节点与未标记节点）数量尽可能平衡。

D32、阈值ε设定范围：为了保证生物学意义，我们建议阈值ε的

值应大于0.8。

通过A-D步骤完成训练集的样本特征采集后，就可以将训练集应用到机器学习算法中进行关键节点预测。本文采用随机森林算法进行关键节点预测，简称DNARF，步骤如下：

E、模型训练：使用准备好的训练集，对随机森林模型进行训练。

随机森林模型是一种基于树形结构集成的算法，它可以用作分类和回归。一个传统的随机森林模型是由几百个决策树组成，最终的预测结果由所有的决策树投票得来。在python中有预置的随机森林算法函数，直接调用即可，相关部分代码如下：

X_scale = preprocessing.scale(X)

clf=RandomForestClassifier(max_depth=10,n_estimators=100,min_samples_split=5)

clf.fit(X_scale, Y)

以上代码在不同的使用场景下参数设置可能不一样。

、预测关键节点：在模型训练好之后，便可对新的对照生物分子网络组进行比对，预测出另一生命过程中的关键性节点，对另一生命过程的关键性节点预测需要构建测试集，按照前述特征提取方法的步骤A-B构件测试集。

参照图5-图6，示出了本发明的结合网络拓扑与分子表达特征预测生物网络关键差异节点的特征提取方法与同类代表性方法，即DCloc、DiffRank、DEC，对于预测关键节点的计算结果对比。

采用《Incorporating prior information into differential networkanalysis using non-paranormal graphical models》（Bioinformatics,33(16),2017,2436–2445doi:10.1093/bioinformatics/btx208Advance Access Publication Date: 12April 2017Original Paper）所公开的模拟差异网络生成算法生成模拟数据对4种预测算法进行验证。模拟差异网络生成算法的输入参数有两个网络基因表达样本数𝑛₁和𝑛₂，基因数量𝑝，关键扰动基因位点数量𝑚，和扰动关键节点的边的比例系数𝜌。算法模拟了关键节点对整个网络进行扰动的过程，对𝑚个关键节点进行变化，并将这种变化所带来的扰动对周围进行传播，变化程度的大小由𝜌来控制，𝜌越大，网络的改变也就越明显。随后，算法会输出两个模拟生物分子网络，两组基因表达值数据和一个关键扰动节点的列表。

使用的模拟网络的参数为：𝑛₁ = 𝑛₂ = 100，𝑝 = 100，𝑚 = 10，

取了不同扰动系数𝜌来进行不同的实验。

本文将DNARF与其他三种经典的差异网络关键节点预测算法DCloc、DiffRank、DEC进行对比，来验证DNARF的预测准确性。其余三种方法都是基于传统数值计算的方法，无需训练集，只需要在测试集上直接计算便可得出所有基因的得分情况，然后默认得分最高的10个基因为该算法预测的关键基因。而DNARF算法需要首先生成一组模拟网络进行训练，训练好的模型才能在测试集上进行预测。

图5是不同扰动系数𝜌 = 0.1, 0.2, 0.3, 0.4, 0.5的模拟网络分别进行实验，每组实验重复10次的正确率。在扰动系数𝜌为0.2-0.5的情况下，DNARF的正确率都为100%，远远优于其它算法的性能。这是因为对于DNARF算法来说𝜌取值0.2-0.5的情况下网络的变化过于剧烈，非常容易识别。因此，继续探究，生成了101组𝜌 = 0.1的模拟数据，其中1组用于DNARF的训练集，其他100组作为四种算法的测试集。

图7至图10是所有4种方法所得结果的混淆矩阵。在混淆矩阵中，真实值为0，观测值为0的情况称为真阴性(TN)；真实值为0，观测值为1的情况称为伪阳性(FP)；真实值为1，观测值为0的情况称为伪阴性(FN)；真实值为1，观测值为1的情况称为真阴性(TP)。

单独地观察四个混淆矩阵无法直观地比较算法的优劣，因此我们引入以下二分类问题的评判指标来对算法模型进行评价：

准确率(Accuracy, ACC)：指分类模型所有判断正确的结果占所有观测值的比重。

精准率(Precision, PPV)：指模型预测为1的时候，预测正确的比重。

召回率(Recall, TPR)：也叫做灵敏度(Sensitivity)，指真实值是1的所有结果中，模型预测正确的比重。

特异度(Specificity, TNR)：指真实值是0的所有结果中，模型预测正确的比重。

F1-Score：统计学中衡量二分类模型精度的一个非常常用的指标，

兼顾了准确率和召回率，取值范围为0到1，分数越接近1则说明模型越优秀。

图11和图12是四种算法的量化结果， DNARF在五个评判指标性能上均优于其他三种差异网络分析算法，且DNARF的F1-Score取得了非常高的0.966，说明其在网络关键差异节点的预测上具有非常强的准确性。本文认为，传统计算方法对于问题并没有很强的泛化能力，它们往往只能找出特定的在某一指标差异较大的节点认为其是造成差异的关键节点。而在真实情况中，造成节点“关键”的原因可能会多种多样，因此DNARF方法能综合多种差异，根据现实情况对节点进行综合预测，从而取得更好的效果。

实施例：

A、数据预处理：参照图13 ，本算法从The Interactome 数据库(http://www.regulatorynetworks.org/)找到了两组对照网络。其中，数据库的生物分子（网络中的节点）为基因：正常星型胶质细胞基因调控网络(NHA，516个基因和9296个边)、神经母细胞瘤基因调控网络(SKNSH，508个基因和12761个边)对照组作为训练集；成年人正常血细胞基因调控网络(HMVEC_ dBlAd，520个基因和13510个边)、早幼粒细胞性白血病基因调控网络(NB4，525个基因和18960个边)对照组作为测试集。从GEO数据库中查找了各网络的基因表达数据样本。使用GSE99051的数据作为NHA的基因表达值数据；使用GSE112384的数据作为SKNSH的基因表达值数据；使用GSE12679的数据作为HMVEC_ dBlAd的基因表达值数据；使用GSE73157的数据作为NB4的基因表达值数据。

在差异网络分析中，两个不同网络中的差异的相同节点是我们非常关注的。因此，我们首先，筛选出两个网络中的相同节点，将端点带有非目标点集的边筛掉。本文筛选出SKNSH和NHA的486个共同节点作为训练集网络的目标点集，得到SKNSH网络含有12149条边，NHA网络含8649条边。对于HMVEC_ dBlAd网络和NB4网络作相同处理，得到含有247个相同节点HMVEC_ dBlAd网络的480条边和NB4网络的663条边。

B、提取特征向量：随后，使用特征提取方法，将训练组和测试组中的每一个节点的拓扑信息和基因表达差异信息向量化。在测试集中，目前先验基因的数量仅为23个，只占总基因的很小一部分比例，存在正负样本（先验节点与未被文献支持节点）不平衡的问题。因此通过Pearson相关性系数来扩充正样本（先验节点）的数量。根据本发明的阈值选择前提，本实施例取阈值ε = 0.9。经过扩充后，先验基因的数量为198个，未被文献支持的基因数量为288个。

C、标记节点：对于神经细胞瘤疾病，在14篇文献中找到了23个与疾病相关的先验基因，这些先验节点基因分别为TP53、BRCA1、MYCN、E2F1、FOXA1 、ZFX 、PRDM1 、BCL6、XBP1、ASCL1、TP73、ESR1、ZBTB33、PPARA、E2F2、BACH1、BACH2、PBX1、MEIS1、GATA3、HIF1A、ZNF148、BPTF，这些节点标记为（1），其余节点标记为（0）。

D、扩充正样本（先验节点）：在测试集中，目前先验基因的数量仅为23个，只占总基因的很小一部分比例，存在正负样本（先验节点与未被文献支持节点）不平衡的问题。因此通过Pearson相关性系数来扩充正样本（先验节点）的数量。根据本发明的阈值选择前提，本文取阈值ε = 0.9。经过扩充后，先验基因的数量为198个，未被文献支持的基因数量为288个。

E、模型训练：在经过了数据预处理之后，用SKNSH和NHA作为训练集来训练随机森林，得到一个分类器。

F、预测关键节点：在模型训练好之后，便可对新的对照生物分子网络组进行比对，预测出另一生命过程中的关键性节点，随后对HMVEC_ dBlAd网络和NB4网络进行测试，预测出白血病相关的关键基因。

图14是本次DNARF所输出的关于白血病疾病的5个关键基因。为了避免随机性对结果造成的误差，本文将训练-测试过程进行了100次并进行统计，随后发现了HES1基因在所有的100次中都被标记为关键基因；STAT1基因在所有的100次中都被标记为关键基因；RFXANK基因在所有的100次中都被标记为关键基因；TAL1基因在所有的100次中都被标记为关键基因；SPI1基因在100次判别中的97次被标记为关键基因。

本发明的结合网络拓扑与分子表达特征预测生物网络关键差异节点的特征提取方法，与同类代表性方法相比，其总体计算准确度更高，具有更强的泛化性，能更好地预测生物分子网络差异性关键节点。

本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员依据本发明的方法和思想得出的其它实施方式，同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。

Claims

1.一种生物网络关键差异节点的样本特征提取方法，其特征在于包括以下步骤：

A、数据预处理：从生物网络数据库中找一组对照网络，查找网络中各节点在相应状态下的生物分子表达值；

B、提取特征向量：从节点的表达值和拓扑结构两个方面将差异信息向量化，量化对照网络中的各个节点在不同状态下的差异；

C、标记节点：将节点划分为先验节点或者未标记节点两类。

2.根据权利要求1所述生物网络关键差异节点的样本特征提取方法，其特征在于：所述对照网络为细胞在不同状态下的网络，包括健康状态、疾病状态或细胞在发育过程中不同阶段的生物网络。

3.根据权利要求1所述生物网络关键差异节点的样本特征提取方法，其特征在于步骤C完成后执行步骤D扩充正样本：计算所有先验节点特征向量与未标记节点特征向量的Pearson相关性系数，若是存在某个未标记节点与某个先验节点的Pearson相关性系数大于等于阀值ε，则把该未标记节点标记为先验节点。

4.根据权利要求1所述生物网络关键差异节点的样本特征提取方法，其特征在于：在步骤B中，从数据库中获取对照生物网络中每个节点表达值，每个节点从数据库中采集三个以上表达值，以生物分子节点在不同状态网络中表达值集合的P-value作为节点特征向量的一个维度。

5.根据权利要求4所述生物网络关键差异节点的样本特征提取方法，其特征在于在步骤B中，节点在对照网络中的拓扑结构差异包括：度的差异、中介中心度的差异、接近中心度的差异或聚集系数的差异，将上述4种差异的一种、两种、三种或四种作为节点特征向量的维度。

6.根据权利要求5所述生物网络关键差异节点的样本特征提取方法，其特征在于：以节点在对照网络中的4种拓扑结构差异及表达值差异构建五维特征向量，

,和分别表示两种状态下的生物分子网络中节点𝑣的度；

，分别表示两种状态下的生物分子网络中节点𝑣的聚集系数；

7.根据权利要求1-6任一项所述生物网络关键差异节点的样本特征提取方法，其特征在于：在步骤C中，若从生物数据库获取某节点的生物分子已支持影响生命过程且与形成网络差异有关，则标记为先验节点，反之则为未标记节点。

8.根据权利要求7所述生物网络关键差异节点的样本特征提取方法，其特征在于：在步骤D中阀值ε≥0.8。

9.一种生物网络关键差异节点的预测方法，其特征在于包括：

从生物网络数据库中获取训练集样本和测试集样本，每个样本包含一种细胞在不同状态下的两个对照网络；

量化样本中每个节点在两个对照网络中的表达值差异和拓扑结构差异，称为样本特征；

为训练集样本中的所有节点打上标签；

将训练集样本的样本特征和标签输入到机器学习算法模型中进行训练；

向模型中输入测试集样本的节点差异，利用训练集的数据预测测试集样本节点的标签。

10.根据权利要求9所述生物网络关键差异节点的预测方法，其特征在于：

步骤一至三具体按照权利要求6所述方法步骤获取训练集样本的节点差异和标签，按照权利要求6所述A-B步骤获取测试集样本的节点差异。

11.根据权利要求9所述生物网络关键差异节点的预测方法，其特征在于：所述机器学习算法模型为随机森林模型。