CN103870720B

CN103870720B - 蛋白质信号转导子网的预测方法和装置

Info

Publication number: CN103870720B
Application number: CN201410102941.6A
Authority: CN
Inventors: 刘伟; 谢红卫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2014-03-19
Filing date: 2014-03-19
Publication date: 2017-02-08
Anticipated expiration: 2034-03-19
Also published as: CN103870720A

Abstract

本发明公开了一种蛋白质信号转导子网的预测方法和装置。其中，蛋白质信号转导子网的预测方法包括：建立步骤：建立信号转导网络；第一计算步骤：计算信号转导网络中每个节点和每条边的分值；第一获取步骤：获取信号转导网络中的目标节点及多个第一目标信号子网；第二计算步骤：计算每个第一目标信号子网的子网分值和显著性概率值；第二获取步骤：获取第一目标信号子网中的多个第二目标信号子网；以及确定步骤：确定多个第二目标信号子网中子网分值最高的第二目标信号子网为信号转导子网。通过本发明，解决了现有技术中蛋白质信号转导子网的预测精度低的问题，进而达到了降低预测复杂度、提高预测效率的效果。

Description

蛋白质信号转导子网的预测方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种蛋白质信号转导子网的预测方法和装置。

背景技术

信号转导网络中涉及很多蛋白质及蛋白质之间的相互作用。大部分分析方法都是基于静态的信号转导模型，即假定一对蛋白质能够发生相互作用，那么在这两个节点之间存在一个连接，网络的结构和特性不随着时间和条件的改变而改变。在实际系统中，信号转导网络时刻都在发生改变，也正是这种改变才使得生物体能够对外界刺激快速作出响应，完成各种复杂的生物学功能。因此，对信号转导网络进行动态的分析是揭示生物系统运行规律的关键。

静态网络提供了对于细胞内系统行为的定性描述，而蛋白质或基因表达数据可以提供分子在不同条件/时间/样本状态下的定量信息，因此，将这两种数据源结合起来可用于阐释细胞内系统的动态组织形式。目前，常用的方法是利用不同条件对应的基因表达谱来识别条件特异子网，用于帮助筛选疾病相关的生物标志物以及发现在不同表型之间通路的变化。条件特异的子网构建方法包括单基因差异分析、基因集差异分析以及基于聚类方法的基因共表达分析等。也有少数方法同时考虑单个基因的差异表达和基因对之间的变化相关性。

现有技术中一种基于基因表达数据发现条件特异的蛋白质相互作用子网的方法，详细步骤如下：

1)从蛋白质相互作用数据库HPRD中下载人的蛋白质相互作用数据集，构建静态蛋白质相互作用网络；

2)同时考虑网络中节点和边随条件的变化，定义综合打分函数；

3)建立全局优化算法COSINE，利用遗传算法提取条件特异的子网；

4)基于两个仿真数据集和三个真实的芯片数据集，发现目标疾病相关的特异子网；

5)将该方法筛选到的特异子网与其他方法得到的子网进行比较，评估预测方法的性能。

上述方式主要是基于基因表达信息，来预测条件特异的蛋白质相互作用子网，由于基因表达数据存在一定噪声，且与实验条件密切相关，使得该方法的预测精度不高，并且算法复杂性较大，运行速度较慢。

针对相关技术中蛋白质信号转导子网的预测精度低的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种蛋白质信号转导子网的预测方法和装置，以解决现有技术中蛋白质信号转导子网的预测精度低的问题。

根据本发明的一个方面，提供了一种蛋白质信号转导子网的预测方法。

根据本发明的蛋白质信号转导子网的预测方法包括：建立步骤：建立信号转导网络，其中，一种蛋白质为信号转导网络的一个节点，具有通信关系的两种蛋白质之间的通道为信号转导网络的一条边；第一计算步骤：计算信号转导网络中每个节点和每条边的分值；第一获取步骤：获取信号转导网络中的目标节点及多个第一目标信号子网，其中，目标节点为信号转导网络中节点分值最高的节点，第一目标信号子网为信号转导网络中与目标节点连通的信号子网；第二计算步骤：计算每个第一目标信号子网的子网分值和显著性概率值；第二获取步骤：获取第一目标信号子网中的多个第二目标信号子网，其中，第二目标信号子网为显著性概率值小于预设值的第一目标信号子网；以及确定步骤：确定多个第二目标信号子网中子网分值最高的第二目标信号子网为信号转导子网。

进一步地，采用以下方式计算每个节点的分值：获取节点i对应的蛋白质的实际丰度比和预设丰度比，其中，节点i为信号转导网络中的任一节点；以及根据节点i对应的实际丰度比和节点i对应预设丰度比，计算节点i的分值。

进一步地，根据实际丰度比和预设丰度比，计算节点i的分值包括：按照以下公式计算节点i的分值：

\{\begin{matrix} E_{i} = \frac{Σ_{k = 1}^{m} x_{i k}}{Σ_{j = 1}^{l} w_{i j}} \\ E_{i}^{'} = \frac{E_{i} - E_{\min}}{E_{\max} - E_{\min}} \\ E_{m i n} = \min {E_{1}, E_{2}, ..., E_{N}} \\ E_{m a x} = \max {E_{1}, E_{2}, ..., E_{N}} \end{matrix}

其中，Ei′为所述节点i的分值，x_ik为所述节点i对应的蛋白质在第k个实际样本中的实际丰度比，w_ij为所述节点i对应的蛋白质在第j个对照样本中的预设丰度比，m为实际样本的样本数，l为对照样本的样本数。

进一步地，采用以下方式计算每条边的分值：获取边i所连接的两个节点对应的蛋白质的实际丰度比，其中，边i为信号转导网络中的任一边；以及根据边i所连接的两个节点对应的蛋白质的实际丰度比，计算边i的分值。

进一步地，根据边i所连接的两个节点对应的蛋白质的实际丰度比，计算边i的分值包括：

按照公式计算边i的分值，其中，F_i′为边i的分值，x_ik为第一节点对应的蛋白质在第k个实际样本中的实际丰度比，y_ik为第二节点对应的蛋白质在第k个实际样本中的实际丰度比，m为实际样本的样本数，为第一节点对应的蛋白质在m个实际样本中的实际丰度比的平均值，为第二节点对应的蛋白质在m个实际样本中的实际丰度比的平均值，第一节点和第二节点为边i所连接的两个节点。

进一步地，按照以下公式计算每个第一目标信号子网的子网分值：

D_{i 2} = \frac{Σ_{i 1 = 1}^{p} E_{i 1}^{'}}{p} + λ \frac{Σ_{j 1 = 1}^{q} F_{j 1}^{'}}{q}

其中，D_i2为第一目标信号子网i2的子网分值，E′_i1为第一目标信号子网i2的第i1个节点的分值，F′_j1为第一目标信号子网i2的第j1条边的分值，p为第一目标信号子网i2中节点的个数，q为第一目标信号子网i2中边的条数，λ为预设系数，第一目标信号子网i2为多个第一目标信号子网中的任一信号子网。

进一步地，计算每个第一目标信号子网的显著性概率值包括：

从信号转导网络中获取预设数量的第三目标信号子网，其中，第三目标信号子网的节点的数量与第一目标信号子网i2的节点的数量相同，第三目标信号子网的边的数量与第一目标信号子网i2的边的数量相同；计算每个第三目标信号子网的子网分值；以及按照公式计算的第一目标信号子网i2的显著性概率值P，其中，N₂为第三目标信号子网的数量，N₁为子网分值大于第一目标信号子网i2的子网分值的第三目标信号子网的数量，第一目标信号子网i2为多个第一目标信号子网中的任一信号子网。

进一步地，在确定多个第二目标信号子网中子网分值最高的第二目标信号子网为信号转导子网之后，预测方法还包括：判断信号转导子网是否满足预设条件；以及在判断出信号转导子网不满足预设条件的情况下，调整预设值和预设数量，并再次执行第二计算步骤、第二获取步骤和确定步骤。

根据本发明的另一方面，提供了一种蛋白质信号转导子网的预测装置。

根据本发明的蛋白质信号转导子网的预测装置包括：建立单元，用于建立信号转导网络，其中，一种蛋白质为信号转导网络的一个节点，具有通信关系的两种蛋白质之间的通道为信号转导网络的一条边；第一计算单元，用于计算信号转导网络中每个节点和每条边的分值；第一获取单元，用于获取信号转导网络中的目标节点及多个第一目标信号子网，其中，目标节点为信号转导网络中节点分值最高的节点，第一目标信号子网为信号转导网络中与目标节点连通的信号子网；第二计算单元，用于计算每个第一目标信号子网的子网分值和显著性概率值；第二获取单元，用于获取第一目标信号子网中的多个第二目标信号子网，其中，第二目标信号子网为显著性概率值小于预设值的第一目标信号子网；以及确定单元，用于确定多个第二目标信号子网中子网分值最高的第二目标信号子网为信号转导子网。

进一步地，第一计算单元包括：第一获取模块，用于获取节点i对应的蛋白质的实际丰度比和预设丰度比，其中，节点i为信号转导网络中的任一节点；以及第一计算模块，用于根据节点i对应的实际丰度比和节点i对应预设丰度比，计算节点i的分值。

进一步地，第一计算模块用于按照以下公式计算节点i的分值：

\{\begin{matrix} E_{i} = \frac{Σ_{k = 1}^{m} x_{i k}}{Σ_{j = 1}^{l} w_{i j}} \\ E_{i}^{'} = \frac{E_{i} - E_{\min}}{E_{\max} - E_{\min}} \\ E_{m i n} = \min {E_{1}, E_{2}, ..., E_{N}} \\ E_{m a x} = \max {E_{1}, E_{2}, ..., E_{N}} \end{matrix}

其中，Ei′为节点i的分值，xik为节点i对应的蛋白质在第k个实际样本中的实际丰度比，w_ij为节点i对应的蛋白质在第j个对照样本中的预设丰度比，m为实际样本的样本数，l为对照样本的样本数。

进一步地，第一计算单元还包括：第二获取模块，用于获取边i所连接的两个节点对应的蛋白质的实际丰度比，其中，边i为信号转导网络中的任一边；以及第二计算模块，用于根据边i所连接的两个节点对应的蛋白质的实际丰度比，计算边i的分值。

进一步地，第二计算模块用于按照以下公式计算边i的分值：

\{\begin{matrix} F_{i} = \frac{Σ_{k = 1}^{m} (x_{i k} - \overset{&OverBar;}{x}) (y_{i k} - \overset{&OverBar;}{y})}{\sqrt{Σ_{k = 1}^{m} {(x_{i k} - \overset{&OverBar;}{x})}^{2} Σ_{k = 1}^{m} {(y_{i k} - \overset{&OverBar;}{y})}^{2}}} \\ F_{i}^{'} = \frac{F_{i} - F_{\min}}{F_{\max} - F_{\min}} \\ F_{m i n} = \min {F_{1}, F_{2}, ..., F_{N}} \\ F_{m a x} = \max {F_{1}, F_{2}, ..., F_{N}} \end{matrix}

其中，Fi′为边i的分值，xi_k为第一节点对应的蛋白质在第k个实际样本中的实际丰度比，yi_k为第二节点对应的蛋白质在第k个实际样本中的实际丰度比，m为实际样本的样本数，为第一节点对应的蛋白质在m个实际样本中的实际丰度比的平均值，为第二节点对应的蛋白质在m个实际样本中的实际丰度比的平均值，第一节点和第二节点为边i所连接的两个节点。

进一步地，第二计算单元用于按照以下公式计算每个第一目标信号子网的子网分值：

D_{i 2} = \frac{Σ_{i 1 = 1}^{p} E_{i 1}^{'}}{p} + λ \frac{Σ_{j 1 = 1}^{q} F_{j 1}^{'}}{q}

其中，Di2为第一目标信号子网i2的子网分值，E′_i1为第一目标信号子网i2的第i1个节点的分值，F′_j1为第一目标信号子网i2的第j1条边的分值，p为第一目标信号子网i2中节点的个数，q为第一目标信号子网i2中边的条数，λ为预设系数，第一目标信号子网i2为多个第一目标信号子网中的任一信号子网。

进一步地，第二计算单元包括：第三获取模块，用于从信号转导网络中获取预设数量的第三目标信号子网，其中，第三目标信号子网的节点的数量与第一目标信号子网i2的节点的数量相同，第三目标信号子网的边的数量与第一目标信号子网i2的边的数量相同；第三计算模块，用于计算每个第三目标信号子网的子网分值；以及第四计算模块，用于按照公式计算的第一目标信号子网i2的显著性概率值P，其中，N₂为第三目标信号子网的数量，N₁为子网分值大于第一目标信号子网i2的子网分值的第三目标信号子网的数量，第一目标信号子网i2为多个第一目标信号子网中的任一信号子网。

进一步地，预测装置还包括：判断单元，用于判断信号转导子网是否满足预设条件；以及调整单元，用于在判断出信号转导子网不满足预设条件的情况下，调整预设值和预设数量，以使第二计算单元、第二获取单元和确定单元再次确定信号转导子网。

在本发明中，采用建立步骤：建立信号转导网络，其中，一种蛋白质为信号转导网络的一个节点，具有通信关系的两种蛋白质之间的通道为信号转导网络的一条边；第一计算步骤：计算信号转导网络中每个节点和每条边的分值；第一获取步骤：获取信号转导网络中的目标节点及多个第一目标信号子网，其中，目标节点为信号转导网络中节点分值最高的节点，第一目标信号子网为信号转导网络中与目标节点连通的信号子网；第二计算步骤：计算每个第一目标信号子网的子网分值和显著性概率值；第二获取步骤：获取第一目标信号子网中的多个第二目标信号子网，其中，第二目标信号子网为显著性概率值小于预设值的第一目标信号子网；以及确定步骤：确定多个第二目标信号子网中子网分值最高的第二目标信号子网为信号转导子网。通过对信号转导网络中每个节点和每条边的分值进行计算，进而得到目标节点和第一目标信号子网，实现了不片面追求全局最优解，而是利用基于目标节点的动态规划方法来尽可能多的提供具有显著统计性的第一目标信号子网，进一步基于第一目标信号子网的子网分值和显著性概率值确定出信号转导子网，实现了高效快速地进行信号转导子网的预测，解决了现有技术中蛋白质信号转导子网的预测精度低的问题，进而达到了降低预测复杂度、提高预测效率的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的蛋白质信号转导子网的预测方法的流程图；

图2是根据本发明实施例的蛋白质信号转导子网的预测方法计算蛋白质丰度比的流程图；

图3a至图3d是根据本发明实施例的蛋白质信号转导子网的预测方法确定第一目标信号子网的示意图；

图4是根据本发明优选实施例的蛋白质信号转导子网的预测方法的流程图；

图5是根据本发明实施例的蛋白质信号转导子网的预测装置的示意图；以及

图6是根据本发明优选实施例的蛋白质信号转导子网的预测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例1

根据本发明实施例，可以提供了一种可以用于实施本申请装置实施例的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，提供了一种蛋白质信号转导子网的预测方法，以下对本发明实施例所提供的蛋白质信号转导子网的预测方法做具体介绍：

图1是根据本发明实施例的蛋白质信号转导子网的预测方法的流程图，如图1所示，该方法包括如下的步骤S102至步骤S112：

S102(建立步骤)：建立信号转导网络，其中，一种蛋白质为信号转导网络的一个节点，具有通信关系的两种蛋白质之间的通道为信号转导网络的一条边，对于信号转导网络，则主要是基于信号转导数据库所建立的一个静态网络。

S104(第一计算步骤)：计算信号转导网络中每个节点和每条边的分值，具体地，在本发明实施例中，主要是对蛋白质在某条件的第多少个样本中的表达量(即蛋白质丰度比)进行定量分析，然后，基于定量分析所得到的蛋白质丰度比来计算信号转导网络中每个节点和每条边的分值。

其中，主要采用以下两种方式中的任意一种，来对于蛋白质进行定量分析，得到蛋白质丰度比：

方式一，稳定同位素标记法：

稳定同位素标记法通过代谢、化学标记等方法在肽段上引入质量标签，在同一次实验中分析不同标记的混合样本，同时得到不同样本中肽段/蛋白质的响应信号，标记方法定量的精度较高。

定量数据处理由以下4步完成：

1)搜库鉴定。利用二级图谱进行数据库搜索，进行结果过滤和评估，鉴定肽段和蛋白质。

2)图谱定量信息提取与计算。肽段经过轻重标记后会附加质量不同的质量标签，它们在一级图谱中将表现为具有固定质荷比差异的谱峰，而峰的信号强度就是最基本的定量信息。这种情况下，定量信息主要隐藏在一级图谱中，大部分现有标记技术都属于这种情况，只有iTRAQ标记(同位素标记相对和绝对定量，isobaric tags for relative andabsolute quantitation，简称iTRAQ)的定量信息主要包含在二级图谱中。针对上述两种情况，图谱定量信息提取就需要从一级或二级图谱中提取特征峰的信号强度或相关信息量。例如，高精度质谱仪给出的是谱模式图谱，同位素峰簇面积与肽段丰度成正比，从而构成了定量信号。在提取出信号强度后，还需要进行噪声去除、面积积分等计算才能得到肽段的基本定量信息。

3)肽段丰度比计算。由于肽段的色谱峰会持续一段时间，在这个过程中肽段会被质谱仪多次加以分析，所以，需要将肽段色谱流出时间内提取的定量信息加以综合。一般通过构建肽段的离子流色谱峰，来综合表示流出时间内多个分析时刻包含的定量信息，并在此基础上计算与肽段丰度成正比的定量指标，进一步计算肽段的丰度比。

4)蛋白质丰度比计算。通过蛋白质与肽段的对应关系，从肽段丰度比推断得出蛋白质丰度比。

方式二，无标记定量法：

无标记定量对不同状态下的样本单独进行质谱分析，对实验的可重复性要求较高，但不需要进行稳定同位素标记，应用范围较广。

无标记定量方法是直接分析大规模鉴定蛋白时所产生的质谱数据，无需进行标定处理。根据其不同的实验策略，无标记定量主要有液相色谱-质谱联用技术(LC-MS)和液相色谱-串联质谱联用技术(LC-MS/MS)两种，其主要差别在于是否利用串联质谱分析来鉴定肽段和蛋白质。两种实验策略在数据分析流程上有很大不同，其计算流程分别对应于图2中的流程一和流程二。

无需鉴定结果的定量方法以一级图谱数据为处理对象，其定量数据处理主要包括以下6步：

1)数据预处理及谱峰检测。主要目的是从含有大量噪声的单张一级图谱中提取真实的肽段信号峰。

2)基于信号强度提取肽段定量信息。在保留时间轴上，构建肽段的离子流色谱峰(extracted ion chromatography，简称XIC)，并根据离子流色谱峰计算出肽段的丰度表征。

3)保留时间对齐。目的是为了消除不同实验中同一肽段的色谱保留时间偏差。

4)数据归一化。消除不同实验之间肽段信号强度的系统误差。

5)肽段/蛋白质序列匹配。无序列信息的目标肽段可以通过精确质量时间标签进行数据库搜索或通过靶标式LC-MS/MS分析匹配到肽段/蛋白质序列。

6)蛋白质丰度比计算及统计学分析。由肽段的定量值推断出对应蛋白质的丰度比，然后通过统计学分析找出显著性差异表达的蛋白质，从而确定候选生物标志物。

需要鉴定结果的定量方法是针对LC-MS/MS策略的实验数据处理方法，其数据处理步骤包括：

1)数据库搜索及结果质量控制。利用二级图谱，通过数据库搜索和结果质量控制，得到高可信度的肽段和蛋白质的鉴定结果。

2)定量信息提取。有两种不同方法——信号强度法和图谱计数法，分别对应图2中流程二的①和②。方法①利用肽段的鉴定信息返回到一级图谱中提取肽段的离子流色谱峰，并根据离子流色谱峰计算肽段的丰度表征；方法②则把蛋白质中肽段的鉴定图谱总数作为定量指标，只能定量蛋白质。

3)蛋白质丰度比计算及统计学分析。

S106(第一获取步骤)：获取信号转导网络中的目标节点及多个第一目标信号子网，其中，目标节点为信号转导网络中节点分值最高的节点，第一目标信号子网为信号转导网络中与目标节点连通的信号子网，具体地，在本发明实施例中，主要通过动态规划来搜索与目标节点相连接的多个第一目标信号子网，即，在可以与目标节点相连接的范围内，不断搜索分值最高的边和节点，直到达到允许的最大规模，即，直到第一目标信号子网中节点的数量达到预设的上限，或者不存在可连接的节点。图3a至图3d示出了一个第一目标信号子网的确定过程示意图，如图3a至图3d所示，图3a至图3d包含9个节点的连通网络，其节点和边的分值已标注，目标节点为A，限定子网的最大节点数为6。从目标节点A开始，按照节点和边的分值大小确定第一目标信号子网的扩展顺序为：A，B，C，D，E，F，连接到节点F达到限定的最大子网数目，搜索结束，确定搜索得到的信号子网即为第一目标信号子网，如图3d中黑色加粗部分。

S108(第二计算步骤)：计算每个第一目标信号子网的子网分值和显著性概率值。

S110(第二获取步骤)：获取第一目标信号子网中的多个第二目标信号子网，其中，第二目标信号子网为显著性概率值小于预设值的第一目标信号子网，在本发明实施例中，预设值可以取0.05。

S112(确定步骤)：确定多个第二目标信号子网中子网分值最高的第二目标信号子网为信号转导子网。

本发明实施例所提供的蛋白质信号转导子网的预测方法，通过对信号转导网络中每个节点和每条边的分值进行计算，进而得到目标节点和第一目标信号子网，实现了不片面追求全局最优解，而是利用基于目标节点的动态规划方法来尽可能多的提供具有显著统计性的第一目标信号子网，进一步基于第一目标信号子网的子网分值和显著性概率值确定出信号转导子网，实现了高效快速地进行信号转导子网的预测，解决了现有技术中蛋白质信号转导子网的预测精度低的问题，进而达到了降低预测复杂度、提高预测效率的效果；并且，本发明实施例所提供的蛋白质信号转导子网的预测方法，基于蛋白质表达数据来确定信号转导子网，相比现有技术中采用基因芯片数据的方式而言，更能够真实的记录蛋白质在特异条件下的表达情况，提高了所确定出的信号转导子网的精确度。

进一步地，在本发明实施例中，可以采用以下方式计算每个节点的分值：首先，获取节点i对应的蛋白质的实际丰度比和预设丰度比，其中，节点i为信号转导网络中的任一节点，实际丰度比是指蛋白质在实际样本中的丰度比，预设丰度比则是指蛋白质在对照样本中的丰度比；然后，根据节点i对应的实际丰度比和节点i对应预设丰度比，计算节点i的分值，具体地，可以按照公式计算节点i的分值，其中，E_i′为节点i的分值，x_ik为节点i对应的蛋白质在第k个实际样本中的实际丰度比，w_ij为节点i对应的蛋白质在第j个对照样本中的预设丰度比，m为实际样本的样本数，l为对照样本的样本数，通过公式对计算出的E_i进行转换，实现了将节点的分值控制在[0，1]之间。

进一步地，在本发明实施例中，可以采用以下方式计算每条边的分值：首先，获取边i所连接的两个节点对应的蛋白质的实际丰度比，其中，边i为信号转导网络中的任一边；然后，根据边i所连接的两个节点对应的蛋白质的实际丰度比，计算边i的分值，具体地，可以按照公式计算边i的分值，其中，F_i′为边i的分值，x_ik为第一节点对应的蛋白质在第k个实际样本中的实际丰度比，y_ik为第二节点对应的蛋白质在第k个实际样本中的实际丰度比，m为实际样本的样本数，为第一节点对应的蛋白质在m个实际样本中的实际丰度比的平均值，为第二节点对应的蛋白质在m个实际样本中的实际丰度比的平均值，第一节点和第二节点为边i所连接的两个节点，通过公式对计算出的F_i进行转换，实现了将边的分值控制在[0，1]之间。

进一步地，在本发明实施例中，可以按照公式计算每个第一目标信号子网的子网分值，其中，D_i2为第一目标信号子网i2的子网分值，E′_i1为第一目标信号子网i2的第i1个节点的分值，F′_j1为第一目标信号子网i2的第j1条边的分值，p为第一目标信号子网i2中节点的个数，q为第一目标信号子网i2中边的条数，第一目标信号子网i2为多个第一目标信号子网中的任一信号子网，λ为预设系数，可以根据实际情况进行确定，在本发明实施例中，可以取λ＝1。

进一步地，可以采用如下步骤S1至步骤S3来计算每个第一目标信号子网的显著性概率值：

S1：从信号转导网络中获取预设数量的第三目标信号子网，其中，第三目标信号子网的节点的数量与第一目标信号子网i2的节点的数量相同，第三目标信号子网的边的数量与第一目标信号子网i2的边的数量相同，即，从信号转导网络中获取与第一目标信号子网i2规模相同的预设数量的第三目标信号子网，在本发明实施例中，预设数量可以取1000，也即，从信号转导网络中获取1000个与第一目标信号子网i2规模相同的第三目标信号子网。需要说明的是，预设数量还可以根据实际需要进行取值。

S2：计算每个第三目标信号子网的子网分值，具体计算方式与上述计算每个第一目标信号子网的子网分值的方式相同，此处不再赘述。

S3：按照公式计算的第一目标信号子网i2的显著性概率值P，其中，N₂为第三目标信号子网的数量，N₁为子网分值大于第一目标信号子网i2的子网分值的第三目标信号子网的数量，第一目标信号子网i2为多个第一目标信号子网中的任一信号子网，即，确定子网分值大于第一目标信号子网i2的子网分值的第三目标信号子网，占整体的百分比为第一目标信号子网i2的显著性概率值P。

图4是根据本发明优选实施例的蛋白质信号转导子网的预测方法的流程图，如图4所示，在该优选实施例中，在确定多个第二目标信号子网中子网分值最高的第二目标信号子网为信号转导子网之后，蛋白质信号转导子网的预测方法还包括：判断信号转导子网是否满足预设条件，并在判断出信号转导子网不满足预设条件的情况下，调整预设值和预设数量，并再次执行第二计算步骤、第二获取步骤和确定步骤，其中，对信号转导子网是否满足预设条件的判断，主要是进行以下三方面的分析，一、通过分析信号转导子网中节点的功能注释，考察该信号转导子网中单个基因与实验条件(如某种疾病)的关联；二、将信号转导子网与仅基于节点和边的方法确定出的信号转导子网进行比较；三、分析信号转导子网中与边相关的信号通路，考察其与实验条件(如某种疾病)之间的关联。如果上述三个方面的分析结果均达到预期目标，则确定信号转导子网满足预设条件，反之，则不满足，需要进行预测方法的校正，通过调整预设值和预设数量，并再次执行第二计算步骤、第二获取步骤和确定步骤，来重新确定信号转导子网。

该优选实施例的蛋白质信号转导子网的预测方法，通过对确定出的信号转导子网进行判断，并调整预设值和预设数量以重新确定信号转导子网，达到了保证能够准确确定出信号转导子网，提高信号转导子网的精确度。

进一步地，在计算出信号转导网络中每个节点和每条边的分值之后，并且在获取多个第一目标信号子网之前，该优选实施例所提供的蛋白质信号转导子网的预测方法还包括：去掉分值小于指定阈值的节点和边，同时去掉孤立的节点和边，其中，指定阈值可以设定为0.1。

通过去掉信号转导网络中分值较小的节点和边，以及孤立的节点和边，减小了后续进行第一目标信号子网确定的过程中，需要搜索的节点和边的数量，达到了减少数据处理量，提高预测速度的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述蛋白质信号转导子网的预测方法的蛋白质信号转导子网的预测装置，该预测装置主要用于执行本发明实施例上述内容所提供的预测方法，以下对本发明实施例所提供的蛋白质信号转导子网的预测装置做具体介绍：

图5是根据本发明实施例的蛋白质信号转导子网的预测装置的示意图，如图5所示，该蛋白质信号转导子网的预测装置主要包括建立单元10、第一计算单元20、第一获取单元30、第二计算单元40、第二获取单元50和确定单元60，其中：

建立单元10用于建立信号转导网络，其中，一种蛋白质为信号转导网络的一个节点，具有通信关系的两种蛋白质之间的通道为信号转导网络的一条边，对于信号转导网络，则主要是基于信号转导数据库所建立的一个静态网络。

第一计算单元20用于计算信号转导网络中每个节点和每条边的分值，具体地，在本发明实施例中，主要是对蛋白质在某条件的第多少个样本中的表达量(即蛋白质丰度比)进行定量分析，然后，基于定量分析所得到的蛋白质丰度比来计算信号转导网络中每个节点和每条边的分值，其中，对于蛋白质进行定量分析方法与本发明实施例上述内容中介绍的相同，此处不再赘述。

第一获取单元30用于获取信号转导网络中的目标节点及多个第一目标信号子网，其中，目标节点为信号转导网络中节点分值最高的节点，第一目标信号子网为信号转导网络中与目标节点连通的信号子网，具体地，在本发明实施例中，主要通过动态规划来搜索与目标节点相连接的多个第一目标信号子网，即，在可以与目标节点相连接的范围内，不断搜索分值最高的边和节点，直到达到允许的最大规模，即，直到第一目标信号子网中节点的数量达到预设的上限，或者不存在可连接的节点。

第二计算单元40用于计算每个第一目标信号子网的子网分值和显著性概率值。

第二获取单元50用于获取第一目标信号子网中的多个第二目标信号子网，其中，第二目标信号子网为显著性概率值小于预设值的第一目标信号子网，在本发明实施例中，预设值可以取0.05。

确定单元60用于确定多个第二目标信号子网中子网分值最高的第二目标信号子网为信号转导子网。

本发明实施例所提供的蛋白质信号转导子网的预测装置，通过对信号转导网络中每个节点和每条边的分值进行计算，进而得到目标节点和第一目标信号子网，实现了不片面追求全局最优解，而是利用基于目标节点的动态规划方法来尽可能多的提供具有显著统计性的第一目标信号子网，进一步基于第一目标信号子网的子网分值和显著性概率值确定出信号转导子网，实现了高效快速地进行信号转导子网的预测，解决了现有技术中蛋白质信号转导子网的预测精度低的问题，进而达到了降低预测复杂度、提高预测效率的效果；并且，本发明实施例所提供的蛋白质信号转导子网的预测方法，基于蛋白质表达数据来确定信号转导子网，相比现有技术中采用基因芯片数据的方式而言，更能够真实的记录蛋白质在特异条件下的表达情况，提高了所确定出的信号转导子网的精确度。

进一步地，第一计算单元20主要包括第一获取模块和第一计算模块，其中，第一获取模块用于获取节点i对应的蛋白质的实际丰度比和预设丰度比，其中，节点i为信号转导网络中的任一节点，实际丰度比是指蛋白质在实际样本中的丰度比，预设丰度比则是指蛋白质在对照样本中的丰度比；第一计算模块用于根据节点i对应的实际丰度比和节点i对应预设丰度比，计算节点i的分值。具体地，第一计算模块可以按照公式计算节点i的分值，其中，E_i′为节点i的分值，x_ik为节点i对应的蛋白质在第k个实际样本中的实际丰度比，w_ij为节点i对应的蛋白质在第j个对照样本中的预设丰度比，m为实际样本的样本数，l为对照样本的样本数，通过公式对计算出的E_i进行转换，实现了将节点的分值控制在[0，1]之间。

进一步地，第一计算单元20还包括第二获取模块和第二计算模块，其中，第二获取模块用于获取边i所连接的两个节点对应的蛋白质的实际丰度比，其中，边i为信号转导网络中的任一边；第二计算模块用于根据边i所连接的两个节点对应的蛋白质的实际丰度比，计算边i的分值。具体地，第二计算模块可以按照公式计算边i的分值，其中，F_i′为边i的分值，x_ik为第一节点对应的蛋白质在第k个实际样本中的实际丰度比，y_ik为第二节点对应的蛋白质在第k个实际样本中的实际丰度比，m为实际样本的样本数，为第一节点对应的蛋白质在m个实际样本中的实际丰度比的平均值，为第二节点对应的蛋白质在m个实际样本中的实际丰度比的平均值，第一节点和第二节点为边i所连接的两个节点，通过公式对计算出的F_i进行转换，实现了将边的分值控制在[0，1]之间。

进一步地，第二计算单元40按照公式计算每个第一目标信号子网的子网分值，其中，D_i2为第一目标信号子网i2的子网分值，E′_i1为第一目标信号子网i2的第i1个节点的分值，F′_j1为第一目标信号子网i2的第j1条边的分值，p为第一目标信号子网i2中节点的个数，q为第一目标信号子网i2中边的条数，第一目标信号子网i2为多个第一目标信号子网中的任一信号子网，λ为预设系数，可以根据实际情况进行确定，在本发明实施例中，可以取λ＝1。

进一步地，第二计算单元40主要包括第三获取模块、第三计算模块和第四计算模块，其中：

第三获取模块用于从信号转导网络中获取预设数量的第三目标信号子网，其中，第三目标信号子网的节点的数量与第一目标信号子网i2的节点的数量相同，第三目标信号子网的边的数量与第一目标信号子网i2的边的数量相同，即，从信号转导网络中获取与第一目标信号子网i2规模相同的预设数量的第三目标信号子网，在本发明实施例中，预设数量可以取1000，也即，从信号转导网络中获取1000个与第一目标信号子网i2规模相同的第三目标信号子网。需要说明的是，预设数量还可以根据实际需要进行取值。

第三计算模块用于计算每个第三目标信号子网的子网分值，具体计算方式与上述计算每个第一目标信号子网的子网分值的方式相同，此处不再赘述。

第四计算模块用于按照公式计算的第一目标信号子网i2的显著性概率值P，其中，N₂为第三目标信号子网的数量，N₁为子网分值大于第一目标信号子网i2的子网分值的第三目标信号子网的数量，第一目标信号子网i2为多个第一目标信号子网中的任一信号子网，即，确定子网分值大于第一目标信号子网i2的子网分值的第三目标信号子网，占整体的百分比为第一目标信号子网i2的显著性概率值P。

图6是根据本发明优选实施例的蛋白质信号转导子网的预测装置的示意图，如图6所示，在该优选实施例中，预测装置还包括判断单元70和调整单元80，其中：

判断单元70用于判断信号转导子网是否满足预设条件；调整单元80用于在判断出信号转导子网不满足预设条件的情况下，调整预设值和预设数量，以使第二计算单元40、第二获取单元50和确定单元60再次确定信号转导子网。

判断单元70对信号转导子网是否满足预设条件的判断，主要是进行以下三方面的分析，一、通过分析信号转导子网中节点的功能注释，考察该信号转导子网中单个基因与实验条件(如某种疾病)的关联；二、将信号转导子网与仅基于节点和边的方法确定出的信号转导子网进行比较；三、分析信号转导子网中与边相关的信号通路，考察其与实验条件(如某种疾病)之间的关联。如果上述三个方面的分析结果均达到预期目标，则确定信号转导子网满足预设条件，反之，则不满足，需要进行校正，通过调整单元80调整预设值和预设数量，以使第二计算单元40、第二获取单元50和确定单元60再次确定信号转导子网。

该优选实施例的蛋白质信号转导子网的预测装置，通过对确定出的信号转导子网进行判断，并调整预设值和预设数量以重新确定信号转导子网，达到了保证能够准确确定出信号转导子网，提高信号转导子网的精确度。

进一步地，在第一计算单元20计算出信号转导网络中每个节点和每条边的分值之后，并且在第一获取单元30获取多个第一目标信号子网之前，该优选实施例所提供的蛋白质信号转导子网的预测装置还包括去掉单元，该去掉单元用于去掉分值小于指定阈值的节点和边，同时去掉孤立的节点和边，其中，指定阈值可以设定为0.1。

从以上的描述中，可以看出，本发明实现了高效快速地进行信号转导子网的预测，达到了降低预测复杂度、提高预测效率的效果；并且，本发明实施例所提供的蛋白质信号转导子网的预测方法和装置，基于蛋白质表达数据来确定信号转导子网，相比现有技术中采用基因芯片数据的方式而言，更能够真实的记录蛋白质在特异条件下的表达情况，提高了所确定出的信号转导子网的精确度。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种蛋白质信号转导子网的预测方法，其特征在于，包括：

建立步骤：建立信号转导网络，其中，一种蛋白质为所述信号转导网络的一个节点，具有通信关系的两种蛋白质之间的通道为所述信号转导网络的一条边；

第一计算步骤：计算所述信号转导网络中每个节点和每条边的分值；

第一获取步骤：获取所述信号转导网络中的目标节点及多个第一目标信号子网，其中，所述目标节点为所述信号转导网络中节点分值最高的节点，所述第一目标信号子网为所述信号转导网络中与所述目标节点连通的信号子网，通过动态规划来搜索与目标节点相连接的多个第一目标信号子网，直到第一目标信号子网中节点的数量达到预设的上限或者不存在可连接的节点；

第二计算步骤：计算每个所述第一目标信号子网的子网分值和显著性概率值；

第二获取步骤：获取所述第一目标信号子网中的多个第二目标信号子网，其中，所述第二目标信号子网为所述显著性概率值小于预设值的所述第一目标信号子网；以及

确定步骤：确定多个所述第二目标信号子网中子网分值最高的所述第二目标信号子网为所述信号转导子网；

按照以下公式计算每个所述第一目标信号子网的子网分值：

D_{i 2} = \frac{Σ_{i 1 = 1}^{p} E_{i 1}^{'}}{p} + λ \frac{Σ_{j 1 = 1}^{q} F_{j 1}^{'}}{q}

其中，D_i2为第一目标信号子网i2的子网分值，E′_i1为所述第一目标信号子网i2的第i1个节点的分值，F′_j1为所述第一目标信号子网i2的第j1条边的分值，p为所述第一目标信号子网i2中节点的个数，q为所述第一目标信号子网i2中边的条数，λ为预设系数，所述第一目标信号子网i2为多个所述第一目标信号子网中的任一信号子网；

计算每个所述第一目标信号子网的显著性概率值包括：

从所述信号转导网络中获取预设数量的第三目标信号子网，其中，所述第三目标信号子网的节点的数量与第一目标信号子网i2的节点的数量相同，所述第三目标信号子网的边的数量与所述第一目标信号子网i2的边的数量相同；计算每个所述第三目标信号子网的子网分值；以及

按照公式计算所述的第一目标信号子网i2的显著性概率值P，其中，N₂为所述第三目标信号子网的数量，N₁为子网分值大于所述第一目标信号子网i2的子网分值的所述第三目标信号子网的数量，所述第一目标信号子网i2为多个所述第一目标信号子网中的任一信号子网。

2.根据权利要求1所述的预测方法，其特征在于，采用以下方式计算每个节点的分值：

获取节点i对应的蛋白质的实际丰度比和预设丰度比，其中，所述节点i为所述信号转导网络中的任一节点，实际丰度比是指蛋白质在实际样本中的丰度比，预设丰度比则是指蛋白质在对照样本中的丰度比；以及

根据所述节点i对应的实际丰度比和所述节点i对应预设丰度比，计算所述节点i的分值；

根据所述实际丰度比和所述预设丰度比，计算所述节点i的分值包括：

按照公式计算所述节点i的分值，

其中，Ei′为所述节点i的分值，x_ik为所述节点i对应的蛋白质在第k个实际样本中的实际丰度比，w_ij为所述节点i对应的蛋白质在第j个对照样本中的预设丰度比，m为所述实际样本的样本数，l为所述对照样本的样本数。

3.根据权利要求1所述的预测方法，其特征在于，采用以下方式计算每条边的分值：

获取边i所连接的两个节点对应的蛋白质的实际丰度比，其中，所述边i为所述信号转导网络中的任一边；以及

根据所述边i所连接的两个节点对应的蛋白质的实际丰度比，计算所述边i的分值。

4.根据权利要求3所述的预测方法，其特征在于，根据所述边i所连接的两个节点对应的蛋白质的实际丰度比，计算所述边i的分值包括：

按照公式计算所述边i的分值，

其中，Fi′为所述边i的分值，x_ik为第一节点对应的蛋白质在第k个实际样本中的实际丰度比，y_ik为第二节点对应的蛋白质在所述第k个实际样本中的实际丰度比，m为所述实际样本的样本数，为所述第一节点对应的蛋白质在m个所述实际样本中的实际丰度比的平均值，为所述第二节点对应的蛋白质在m个所述实际样本中的实际丰度比的平均值，所述第一节点和所述第二节点为所述边i所连接的两个节点。

5.根据权利要求4所述的预测方法，其特征在于，在确定多个所述第二目标信号子网中子网分值最高的所述第二目标信号子网为所述信号转导子网之后，所述预测方法还包括：

判断所述信号转导子网是否满足预设条件；以及

在判断出所述信号转导子网不满足所述预设条件的情况下，调整所述预设值和所述预设数量，并再次执行所述第二计算步骤、所述第二获取步骤和所述确定步骤。

6.一种蛋白质信号转导子网的预测装置，其特征在于，包括：

建立单元，用于建立信号转导网络，其中，一种蛋白质为所述信号转导网络的一个节点，具有通信关系的两种蛋白质之间的通道为所述信号转导网络的一条边；

第一计算单元，用于计算所述信号转导网络中每个节点和每条边的分值；

第一获取单元，用于获取所述信号转导网络中的目标节点及多个第一目标信号子网，

其中，所述目标节点为所述信号转导网络中节点分值最高的节点，所述第一目标信号子网为所述信号转导网络中与所述目标节点连通的信号子网，通过动态规划来搜索与目标节点相连接的多个第一目标信号子网，直到第一目标信号子网中节点的数量达到预设的上限或者不存在可连接的节点；

第二计算单元，用于计算每个所述第一目标信号子网的子网分值和显著性概率值；

第二获取单元，用于获取所述第一目标信号子网中的多个第二目标信号子网，其中，所述第二目标信号子网为所述显著性概率值小于预设值的所述第一目标信号子网；以及

确定单元，用于确定多个所述第二目标信号子网中子网分值最高的所述第二目标信号子网为所述信号转导子网；

所述第二计算单元用于按照以下公式计算每个所述第一目标信号子网的子网分值：

D_{i 2} = \frac{Σ_{i 1 = 1}^{p} E_{i 1}^{'}}{p} + λ \frac{Σ_{j 1 = 1}^{q} F_{j 1}^{'}}{q}

所述第二计算单元包括：

第三获取模块，用于从所述信号转导网络中获取预设数量的第三目标信号子网，其中，

所述第三目标信号子网的节点的数量与第一目标信号子网i2的节点的数量相同，所述第三目标信号子网的边的数量与所述第一目标信号子网i2的边的数量相同；

第三计算模块，用于计算每个所述第三目标信号子网的子网分值；以及

第四计算模块，用于按照公式计算所述的第一目标信号子网i2的显著性概率值P，其中，N₂为所述第三目标信号子网的数量，N₁为子网分值大于所述第一目标信号子网i2的子网分值的所述第三目标信号子网的数量，所述第一目标信号子网i2为多个所述第一目标信号子网中的任一信号子网。

7.根据权利要求6所述的预测装置，其特征在于，所述第一计算单元包括：

第一获取模块，用于获取节点i对应的蛋白质的实际丰度比和预设丰度比，其中，

所述节点i为所述信号转导网络中的任一节点；以及

第一计算模块，用于根据所述节点i对应的实际丰度比和所述节点i对应预设丰度比，计算所述节点i的分值；

所述第一计算模块用于按照以下公式计算所述节点i的分值：

\{\begin{matrix} E_{i} = \frac{Σ_{k = 1}^{m} x_{i k}}{Σ_{j = 1}^{l} w_{i j}} \\ {E_{i}}^{'} = \frac{E_{i} - E_{m i n}}{E_{\max} - E_{m i n}} \\ E_{\min} = \min {E_{1}, E_{2}, ..., E_{N}} \\ E_{\max} = \max {E_{1}, E_{2}, ..., E_{N}} \end{matrix}

8.根据权利要求6所述的预测装置，其特征在于，所述第一计算单元还包括：

第二获取模块，用于获取边i所连接的两个节点对应的蛋白质的实际丰度比，其中，所述边i为所述信号转导网络中的任一边；以及

第二计算模块，用于根据所述边i所连接的两个节点对应的蛋白质的实际丰度比，

计算所述边i的分值。

9.根据权利要求6所述的预测装置，其特征在于，所述第二计算模块用于按照以下公式计算所述边i的分值：

\{\begin{matrix} F_{i} = \frac{Σ_{k = 1}^{m} (x_{i k} - \overset{&OverBar;}{x}) (y_{i k} - \overset{&OverBar;}{y})}{\sqrt{Σ_{k = 1}^{m} {(x_{i k} - \overset{&OverBar;}{x})}^{2} Σ_{k = 1}^{m} {(y_{i k} - \overset{&OverBar;}{y})}^{2}}} \\ {F_{i}}^{'} = \frac{F_{i} - F_{\min}}{F_{\max} - F_{m i n}} \\ F_{m i n} = \min {F_{1}, F_{2}, ..., F_{N}} \\ F_{\max} = m a x {F_{1}, F_{2}, ..., F_{N}} \end{matrix}

10.根据权利要求9所述的预测装置，其特征在于，所述预测装置还包括：

判断单元，用于判断所述信号转导子网是否满足预设条件；以及

调整单元，用于在判断出所述信号转导子网不满足所述预设条件的情况下，调整所述预设值和所述预设数量，以使所述第二计算单元、所述第二获取单元和所述确定单元再次确定所述信号转导子网。