CN103310126A

CN103310126A - 分类模型的建立方法及装置

Info

Publication number: CN103310126A
Application number: CN2013102794449A
Authority: CN
Inventors: 刘伟; 宫二玲; 孙志强; 谢红卫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2013-07-04
Filing date: 2013-07-04
Publication date: 2013-09-18

Abstract

本发明公开了一种分类模型的建立方法及装置，在上述方法中，建立蛋白质对之间调控关系的标准数据集，在标准数据集中获取蛋白质对中所包含的多个功能注释条目；按照激活和/或抑制调控关系对标准数据集进行分类；分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型。根据本发明提供的技术方案，进而降低了对蛋白质对之间的调控关系进行研究所付出的成本，提高了研究成果的准确性。

Description

分类模型的建立方法及装置

技术领域

本发明涉及生命科学领域，具体而言，涉及一种分类模型的建立方法及装置。

背景技术

目前，高通量实验技术的飞速发展已经产生了大规模、多物种的蛋白质相互作用数据，许多研究人员致力于研究上述已经产生的数据，以便更好地理解蛋白质的功能。蛋白质的基本单位是结构域，而且在蛋白质之间通常由结构域介导产生相互作用。因此，从结构域角度分析蛋白质的相互作用显得尤为重要。

在蛋白质相互作用网络中，通常可以假定相互作用是没有方向的。而实际上，在信号转导、转录调控、细胞循环或者代谢途径等多种生物网络中，发生相互作用的蛋白质之间广泛存在着调控关系，例如：激活和抑制。然而，仅有少数蛋白质相互作用被深入研究，而大部分相互作用的细节还是未知的，尤其是它们之间的调控关系还未被揭示。

用于蛋白质之间调控关系的实验技术主要是基因上位分析（Genetic epistasis analysis），其主要是通过比较单个基因敲除以及两个基因共同敲除时的不同表型来确定基因的功能关联。相关技术中提出了一种利用基因扰动实验发现蛋白质之间调控关系的技术方案，该技术方案主要公开了如下技术内容：

第一步、对于T细胞中的信号通路，采用流式细胞术计算正常情况下细胞中各蛋白质的数目；

第二步、对通路中的单个蛋白质依次进行扰动实验，即对其进行抑制处理，采用流式细胞术计算扰动情况下各蛋白质的数目；

第三步、根据受扰动时蛋白质数量上的变化，采用贝叶斯模型预测蛋白质之间的调控关系；

第四步、将预测模型与实际模型进行比较，评估预测效果。

然而，相关技术中提供的技术方案存在如下缺陷：基于生物学实验数据分析蛋白质对之间的调控关系，需要花费大量的人力、物力和财力，其结果容易出现错误，而且难以进行大规模的蛋白质相互作用调控关系的预测。

发明内容

本发明提供了一种分类模型的建立方法及装置，以至少解决相关技术中的基于生物学实验数据分析蛋白质对之间的调控关系花费代价高、准确性较低的问题。

根据本发明的一个方面，提供了一种分类模型的建立方法。

根据本发明的分类模型的建立方法包括：建立蛋白质对之间调控关系的标准数据集，在标准数据集中获取蛋白质对中所包含的多个功能注释条目；按照激活和/或抑制调控关系对标准数据集进行分类；分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型。

优选地，在标准数据集中构建蛋白质对中所包含的多个功能注释条目包括：从蛋白质对中提取该蛋白质对中的每个蛋白质所包含的一个或多个功能注释条目；根据每个蛋白质所包含的一个或多个功能注释条目计算多个功能注释条目。

优选地，分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型包括：分别计算多个功能注释条目在每种分类中的显著性富集打分和显著性P值；将显著性P值小于预设阈值的部分功能注释条目作为分类特征以及将显著性富集打分作为权重建立分类模型。

优选地，在分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型之后，还包括：采用交叉验证方法或者独立测试集对分类模型的分类结果进行评估。

优选地，分类模型包括以下之一：带有权重的投票法、线性分类器、支持向量机方法、决策树方法。

根据本发明的另一方面，提供了一种分类模型的建立装置。

根据本发明的分类模型的建立装置包括：获取模块，用于建立蛋白质对之间调控关系的标准数据集，在标准数据集中获取蛋白质对中所包含的多个功能注释条目；分类模块，用于按照激活和/或抑制调控关系对标准数据集进行分类；建立模块，用于分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型。

优选地，获取模块包括：提取单元，用于从蛋白质对中提取该蛋白质对中的每个蛋白质所包含的一个或多个功能注释条目；第一计算单元，用于根据每个蛋白质所包含的一个或多个功能注释条目计算多个功能注释条目。

优选地，建立模块包括：第二计算单元，用于分别计算多个功能注释条目在每种分类中的显著性富集打分和显著性P值；建立单元，用于将显著性P值小于预设阈值的部分功能注释条目作为分类特征以及将显著性富集打分作为权重建立分类模型。

优选地，上述装置还包括：评估模块，用于采用交叉验证方法或者独立测试集对分类模型的分类结果进行评估。

通过本发明，采用建立蛋白质对之间调控关系的标准数据集，在标准数据集中获取蛋白质对中所包含的多个功能注释条目；按照激活和/或抑制调控关系对标准数据集进行分类；分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型。根据本发明提供的技术方案所建立的分类模型，可以有效降低对分析蛋白质对之间的调控关系所花费的开销，并且可以提高分析结果的准确性，由此解决了相关技术中的基于生物学实验数据分析蛋白质对之间的调控关系花费代价高、准确性较低的问题，进而降低了对蛋白质对之间的调控关系进行研究所付出的成本，提高了研究成果的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的分类模型的建立方法的流程图；

图2是根据本发明优选实施例的分类模型的建立方法的流程图；

图3是根据本发明实施例的分类模型的建立装置的结构框图；

图4是根据本发明优选实施例的分类模型的建立装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在以下描述中，除非另外指明，否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。其中，计算机包括个人计算机、服务器、移动终端等各种产品，使用了CPU、单片机、DSP等具有处理芯片的设备均可以称为计算机。由此，可以理解，有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它，这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而，尽管在上述上下文中描述本发明，但它并不意味着限制性的，如本领域的技术人员所理解的，后文所描述的动作和操作的各方面也可用硬件来实现。

转向附图，其中相同的参考标号指代相同的元素，本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例，并且不应认为是关于此处未明确描述的替换实施例而限制本申请。

以下实施例可以应用到计算机中，例如：应用到PC中。也可以应用到目前采用了智能操作系统中的移动终端中，并且并不限于此。对于计算机或移动终端的操作系统并没有特殊要求，只要能够检测接触、确定该接触是否与预定规则相符合，以及根据该接触的属性实现相应功能即可。

图1是根据本发明实施例的分类模型的建立方法的流程图。如图1所示，该方法可以包括以下处理步骤：

步骤S102：建立蛋白质对之间调控关系的标准数据集，在标准数据集中获取蛋白质对中所包含的多个功能注释条目；

步骤S104：按照激活和/或抑制调控关系对标准数据集进行分类；

步骤S106：分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型。

相关技术中，基于生物学实验数据分析蛋白质对之间的调控关系花费代价高、准确性较低。采用如图1所示的方法，建立蛋白质对之间调控关系的标准数据集，在标准数据集中获取蛋白质对中所包含的多个功能注释条目；按照激活和/或抑制调控关系对标准数据集进行分类；分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型。根据本发明所提供的技术方案所建立的分类模型，可以有效降低对分析蛋白质对之间的调控关系所花费的开销，并且可以提高分析结果的准确性，由此解决了相关技术中的基于生物学实验数据分析蛋白质对之间的调控关系花费代价高、准确性较低的问题，进而降低了对蛋白质对之间的调控关系进行研究所付出的成本，提高了研究成果的准确性。

在优选实施过程中，上述分类模型可以包括但不限于以下之一：带有权重的投票法、线性分类器、支持向量机方法、决策树方法。

下面以带有权重的投票法为例加以说明。

投票法是一种最为简单的分类模型，即可以根据某一样本所包含的特征进行分类，如果大部分特征都属于某一类别，则可以判定该样本属于该类别。但是，此种方法假定所有特征的贡献都是一样的，而没有考虑到不同特征的重要性大小，而且其结果容易受到个别特征中噪声的影响。因此，可以将原始的投票法进行改进，为每个特征设置不同的权重，从而采用有权重投票方法建立了预测模型，用于判断未知样本的所属类别。

对于某个分类模型，存在L个可能的类别和S个分类特征。对于某个未知类别的样本，它的第i个特征在类别j中的权重为Wij（i=1,…,S，j=1,…,L）。那么，该样本在第j个类别中的打分为：

W_{j} = Σ_{i = 1}^{s} W_{ij}

可以选取打分最高的那一类为该样本所属的分类。如果存在多个类别的打分相同的情况，则需要酌情处理，如判定一个样本属于多个分类，或者可以根据其他相关考虑做进一步地判断。

优选地，在步骤S102中，在标准数据集中构建蛋白质对中所包含的多个功能注释条目可以包括以下操作：

步骤S1：从蛋白质对中提取该蛋白质对中的每个蛋白质所包含的一个或多个功能注释条目；

步骤S2：根据每个蛋白质所包含的一个或多个功能注释条目计算多个功能注释条目。

在优选实施例中，可以提取标准数据集中蛋白质对所包含的功能注释信息，其中，可以包括：基因本体（GO）注释条目和经过注释的蛋白质数据库（SwissProt）注释条目。GO注释提供了一种描述基因功能的标准化词汇，其中，可以包括：生物学通路、分子功能和细胞成分三大类别。同时，也可使用Swissprot数据库中的注释信息，其中，可以包括：UP_SEQ_FEATURE和SP_PIR_KEYWORDS。利用工具DAVID可以提取已知蛋白质的功能注释条目，即包括GO注释条目和Swissprot数据库中的注释信息。在该优选实施例中，主要考虑因素是发生相互作用的两个蛋白质的功能注释信息。假设蛋白质A和B能够发生相互作用，那么对于A和B而言，采用注释工具分别可以得到各自的一系列功能注释条目。如果A具有K条注释条目，表示为{Di，i=1,…,K}；B具有L条注释条目，表示为{Ei，i=1,…,L}。那么，由A的K条注释和B的L条注释即可组成K×L对功能注释。

优选地，在步骤S106中，分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型可以包括以下步骤：

步骤S3：分别计算多个功能注释条目在每种分类中的显著性富集打分和显著性P值；

步骤S4：将显著性P值小于预设阈值的部分功能注释条目作为分类特征以及将显著性富集打分作为权重建立分类模型。

分析功能注释信息的显著性通常可以采用基于超几何分布的假设检验方法，其计算公式如下：

S = \frac{\frac{m}{M}}{\frac{n}{N}}

……公式1

p - value = Σ_{m^{'} = m}^{n} \frac{(\begin{matrix} M \\ m^{'} \end{matrix}) (\begin{matrix} N - M \\ n - m^{'} \end{matrix})}{(\begin{matrix} N \\ n \end{matrix})} (S &GreaterEqual; 1)

……公式2

p - value = Σ_{m^{'} = 0}^{m} \frac{(\begin{matrix} M \\ m^{'} \end{matrix}) (\begin{matrix} N - M \\ n - m^{'} \end{matrix})}{(\begin{matrix} N \\ n \end{matrix})} (S < 1)

……公式3

对于某对功能注释条目Di和Ej，假定在全部分类的数据集中存储的蛋白质相互作用的数目为N，发生相互作用的蛋白质A和B分别注释为Di和Ej的蛋白质相互作用的数目为n；在某类（激活和/或抑制）数据集中存储的蛋白质相互作用的数目为M，在一类（激活和/或抑制）数据集中发生相互作用的蛋白质A和B分别注释为Di和Ej的所有蛋白质相互作用的数目为m。此外，S可以表示相对数据库中所有蛋白在该条目中的功能注释情况，在某类数据集的该注释条目中的富集程度。如果S>1，则表示相对富集；如果S<1，则表示相对缺乏。同时，还可以计算出相应的P值。通过限定显著性阈值，例如：P-value<0.01，可以发现多个与分类（激活和/或抑制）相关的功能注释信息。

在优选实施例中，可以计算由上述得到的所有功能注释条目对（即K×L对功能注释）在不同分类中（即上述建立的激活和/或抑制分类）的显著性富集打分S和显著性P值；然后将显著性P值小于预设阈值（例如：P<0.05）的功能注释条目对作为分类特征，将其显著性富集打分S作为权重建立分类模型。

优选地，在步骤S106，分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型之后，还可以包括以下处理：

步骤S5：采用交叉验证方法或者独立测试集对分类模型的分类结果进行评估。

在优选实施例中，可以采用交叉验证方法或者独立测试集对上述分类模型的分类效果进行评估。如果分类模型的评估结果令人满意，则表示分类模型建立成功，从而结束建模过程；否则，需要继续对分类模型进行校正。

下面结合图2所示的优选实施方式对上述优选实施过程做进一步的描述。

图2是根据本发明优选实施例的分类模型的建立方法的流程图。如图2所示，该方法可以包括以下处理步骤：

步骤S202：通过整理信号转导数据库，建立蛋白质对之间调控关系的标准数据集；

步骤S204：从蛋白质对中提取该蛋白质对中的每个蛋白质所包含的一个或多个功能注释条目，根据每个蛋白质所包含的一个或多个功能注释条目计算多个功能注释条目；

步骤S206：分别计算多个功能注释条目在每种分类中的显著性富集打分和显著性P值；

步骤S208：将显著性P值小于预设阈值的部分功能注释条目作为分类特征以及将显著性富集打分作为权重建立分类模型；

步骤S210：可以采用交叉验证方法或者独立测试集对上述分类模型的分类效果进行评估，判断分类模型的评估结果是否令人满意；如果是，则表示分类模型建立成功，从而结束建模过程；如果否，转到步骤S212；

步骤S212：继续对分类模型进行校正，转到步骤S208。

图3是根据本发明实施例的分类模型的建立装置的结构框图。如图3所示，该分类模型的建立装置可以包括：获取模块10，用于建立蛋白质对之间调控关系的标准数据集，在标准数据集中获取蛋白质对中所包含的多个功能注释条目；分类模块20，用于按照激活和/或抑制调控关系对标准数据集进行分类；建立模块30，用于分别对多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型。

采用如图3所示的装置，解决了相关技术中的基于生物学实验数据分析蛋白质对之间的调控关系花费代价高、准确性较低的问题，进而降低了对蛋白质对之间的调控关系进行研究所付出的成本，提高了研究成果的准确性。

优选地，如图4所示，获取模块10可以包括：提取单元100，用于从蛋白质对中提取该蛋白质对中的每个蛋白质所包含的一个或多个功能注释条目；第一计算单元102，用于根据每个蛋白质所包含的一个或多个功能注释条目计算多个功能注释条目。

优选地，如图4所示，建立模块30可以包括：第二计算单元300，用于分别计算多个功能注释条目在每种分类中的显著性富集打分和显著性P值；建立单元302，用于将显著性P值小于预设阈值的部分功能注释条目作为分类特征以及将显著性富集打分作为权重建立分类模型。

优选地，如图4所示，上述装置还可以包括：评估模块40，用于采用交叉验证方法或者独立测试集对分类模型的分类结果进行评估。

从以上的描述中，可以看出，上述实施例实现了如下技术效果（需要说明的是这些效果是某些优选实施例可以达到的效果）：本发明提供了一种基于结构域相互作用的蛋白质之间调控关系的预测方法，尤其是一种基于有权重的投票模型的蛋白质之间激活和/或抑制关系的预测方法。通过对功能注释条目的分析，建立合适的预测模型推断蛋白质相互作用之间的调控关系。利用已有实验数据和生物学知识推断蛋白质之间的调控关系，可以帮助阐释信号分子作用机制，辅助实验设计，节省大量的人力、物力和财力；本发明所提供的技术方案可以用于大规模的蛋白质相互作用网络中调控关系的构建；该方法简单实用，相比其他实验方法更加可靠。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分类模型的建立方法，其特征在于，包括：

建立蛋白质对之间调控关系的标准数据集，在所述标准数据集中获取所述蛋白质对中所包含的多个功能注释条目；

按照激活和/或抑制调控关系对所述标准数据集进行分类；

分别对所述多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型。

2.根据权利要求1所述的方法，其特征在于，在所述标准数据集中构建所述蛋白质对中所包含的所述多个功能注释条目包括：

从所述蛋白质对中提取该蛋白质对中的每个蛋白质所包含的一个或多个功能注释条目；

根据所述每个蛋白质所包含的所述一个或多个功能注释条目计算所述多个功能注释条目。

3.根据权利要求1所述的方法，其特征在于，分别对所述多个功能注释条目在所述每种分类中进行所述富集显著性分析，并根据所述分析结果建立所述分类模型包括：

分别计算所述多个功能注释条目在所述每种分类中的显著性富集打分和显著性P值；

将所述显著性P值小于预设阈值的部分功能注释条目作为分类特征以及将所述显著性富集打分作为权重建立所述分类模型。

4.根据权利要求1所述的方法，其特征在于，在分别对所述多个功能注释条目在所述每种分类中进行所述富集显著性分析，并根据所述分析结果建立所述分类模型之后，还包括：

采用交叉验证方法或者独立测试集对所述分类模型的分类结果进行评估。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述分类模型包括以下之一：

带有权重的投票法、线性分类器、支持向量机方法、决策树方法。

6.一种分类模型的建立装置，其特征在于，包括：

获取模块，用于建立蛋白质对之间调控关系的标准数据集，在所述标准数据集中获取所述蛋白质对中所包含的多个功能注释条目；

分类模块，用于按照激活和/或抑制调控关系对所述标准数据集进行分类；

建立模块，用于分别对所述多个功能注释条目在每种分类中进行富集显著性分析，并根据分析结果建立分类模型。

7.根据权利要求6所述的装置，其特征在于，所述获取模块包括：

提取单元，用于从所述蛋白质对中提取该蛋白质对中的每个蛋白质所包含的一个或多个功能注释条目；

第一计算单元，用于根据所述每个蛋白质所包含的所述一个或多个功能注释条目计算所述多个功能注释条目。

8.根据权利要求6所述的装置，其特征在于，所述建立模块包括：

第二计算单元，用于分别计算所述多个功能注释条目在所述每种分类中的显著性富集打分和显著性P值；

建立单元，用于将所述显著性P值小于预设阈值的部分功能注释条目作为分类特征以及将所述显著性富集打分作为权重建立所述分类模型。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

评估模块，用于采用交叉验证方法或者独立测试集对所述分类模型的分类结果进行评估。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述分类模型包括以下之一：