CN101517579A

CN101517579A - 蛋白质查找方法和设备

Info

Publication number: CN101517579A
Application number: CNA2007800339875A
Authority: CN
Inventors: 寺本礼仁; 皆川宏贵; 上條宪一
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-07-14
Filing date: 2007-07-09
Publication date: 2009-08-26
Also published as: US20090319450A1; WO2008007630A1; JPWO2008007630A1

Abstract

一种蛋白质查找方法，其中基于通过蛋白质组分析获得的蛋白质表达谱图数据查找与信息直接或间接相关的蛋白质作为目标蛋白质，该方法包括基于通过对谱图数据中的信息和蛋白质表达量的监督学习获得的蛋白质的显著性选择与信息有关的蛋白质作为目标蛋白质；以及基于评估数据评估目标蛋白质的性能。

Description

蛋白质查找方法和设备

技术领域

本发明涉及用于查找与诸如临床信息的信息直接或间接相关的蛋白质的方法和设备。

背景技术

近年来，称为蛋白质组分析的蛋白质综合分析技术的进步已经引起了对可用于疾病诊断和蛋白质的功能性分析的标志蛋白质的积极研究，所述蛋白质组分析使用质谱法、二维电泳法等。蛋白质组分析通常指下述分析，即从源于例如活组织检查的样本中，将存在于该样本中的各种蛋白质等分离为成分，并然后鉴定每个分离的成分。

蛋白质组分析的方法的一个实际示例涉及：首先制备样本，实施二维电泳以分离蛋白质，选择已经通过染色二维电泳中获得的凝胶而变得可见的点(spot)，并对通过进一步的酶处理等获得的提取物进行质谱(MS)分析以预测哪些蛋白质包括在样本中。已变得可见的点每个对应于分离的蛋白质。除了结合二维电泳和质谱的上述方法以外，蛋白质组分析的方法还包括下述处理：在实施适当的样本预处理后仅实施二维电泳法和质谱法中的一种。还有采用其它蛋白质鉴定方法的方法。

一种常用于蛋白质组分析的二维电泳的方法是2D-DIGE(二维荧光差异凝胶电泳)。2D-DIGE是用于使蛋白质的表达和修饰信息图谱化的技术并且适用于样本中蛋白质的定量比较。此外，蛋白质组分析中常采用的一种质谱法使用SELDI(表面增强激光解吸/离子化)芯片。使用SELDI芯片的质谱法是适用于蛋白质的图谱化的技术，并且通过使用该方法，基于质谱实施样本之间的蛋白质的定量比较。

然而，公知的是在包括人类的某些动物中，在从感染疾病的个体获得的样本中以及从正常的个体获得的样本中，特定蛋白质的表达中常常出现显著差异。

从个体获得的蛋白质的精确测量对于疾病的诊断是有效的。此外，为了进行这种诊断，关键的是针对每种疾病确定在已感染疾病的个体和正常个体之间的表达中存在显著差异的蛋白质。在正常个体和染病个体之间表达中发生显著差异的蛋白质称为“标志蛋白质”。查找标志蛋白质涉及对蛋白质的表达与诸如疾病状态或治疗记录的临床信息之间的关系进行研究以及查找表达与临床信息显著相关的蛋白质的统计处理的实施。

根据John M.Luk等人[B1]的方法是下述方法的一个示例：用于在来自染病个体的样本和来自正常个体的样本间进行蛋白质的定量比较。在Luk等人的方法中，在使用t-检验或ANOVA(方差分析)中使用的检验统计量作为指标的同时，对通过二维电泳法获得的蛋白质表达进行比较。Luk等人使用该方法仅关注具有三个最高的检验统计量的蛋白质以评估区分肝癌中癌变区域和非癌变区域的能力并评估与现有的标志蛋白质或临床信息的关联性。

作为本发明的相关技术，JP-A-2003-038377[A1]公开了设计用于使用RNA(核糖核酸)干扰现象的基因表现控制的功能性核酸序列的方法。在该方法中，从目标基因序列中提取寡核苷酸，所述目标基因序列为mRNA(信使RNA)，该序列被取为设计候选序列的输入数据，基于已知的训练序列和设计候选序列通过核方法进行特征性提取，并且进行监督学习从而预测用于目标基因的有效的功能性核酸序列。该训练序列是已视作在基因表现控制中有效的寡核苷酸序列。JP-A-2003-038377公开的方法实质上是通过比较已知的功能核酸序列而从设计候选序列预测功能性核酸序列，因此，即使用氨基酸序列代替核酸序列时，该方法也不能用于基于诸如临床信息的信息查找标志蛋白质的目的。

作为与本发明相关的技术，WO2002/047007[A2]公开了学习分类和预测遗传疾病的机器(machine)的使用。

O.Troyanskaya等人[B2]公开了基于最近邻算法的缺失值补充方法。JP-A-2004-126857[A3]类似地公开了使用k-最近邻算法估算基因表达数据中的缺失值。

是机器学习中的一种方法的随机梯度增强(boosting)是梯度增强的发展。在[B3]中描述了随机梯度增强，且在[B4]中描述了梯度增强。随机梯度增强和梯度增强均是集成学习的类型，集成学习的代表模式是[B5]中描述的增强和[B6]中描述的装袋(bagging)。决策树和回归树常用作集成学习的下位学习机，并且在[B7]中描述这些。

以下列出了本说明书中引用的参考文献：

[A1]JP-A2003-038377

[A2]WO2002/047007(JP-A-2004-524604)

[A3]JP-A-2004-126857

[B1]John M.Luk等人；“Proteomic profiling of hepatocellularcarcinoma in Chinese cohort reveals heat-shock proteins(Hsp27，Hsp70，GRP78)up-regulation and their associated prognostic values，”Proteomics，2006，6，1049-1057.

[B2]O.Troyanskaya，M.Cantor，G.Sherlock，P.Brown，T.Hastie，R.Tibshirani，D.Botstein，和R.B.Altman；“Missing value estimationmethods for DNA microarrays，”Bioinformatics，2001，17，520-525.

[B3]：J.Friedman；“Stochastic gradient boosting，”ComputationalStatistics and Data Analysis，2002，367-378.

[B4]：J.Friedman；“Greedy Function Approximation：A GradientBoosting Machine，”The Annals of Statistics，2001，1189-1232.

[B5]：Y.Freund，R.E.Schapire；“A decision-theoretic generalizationof on-line learning and an application to boosting，”Journal of Computerand System Sciences，1997，23-27.

[B6]：Leo Breiman；“Bagging Predictors，”Machine Learning，1996，123-140.

[B7]：Andreas Buja和Yung-Seop Lee；“Data mining criteria fortree-based regression and classification，”Proceedings of the seventh ACMSIGKDD international conference on knowledge discovery and datamining，pp.27-36，2001.

发明内容

本发明所要解决的问题：

诸如Luk等人[B1]的方法在来自正常个体的样本和来自染病个体的样本间进行蛋白质的定量比较的方法具有应从查找标志蛋白质的角度来解决的问题，如下所述。

首先，独立地检查组之间每种蛋白质的表达与临床信息之间的关联以确定与例如临床信息的关联的存在，从而在测试统计量中见到对阈值的依赖性，但是设置该阈值的基础的合理性极弱。此外，由于针对每种个体蛋白质进行独立的统计测试，因此当多种蛋白质的表达均与临床信息关联时，该方法不是有效的。已知的是，通常，多种生物分子复杂地牵涉到疾病状态的机理或药效，并且因此上述方法不能认为是用于查找标志蛋白质的方法。

当使用二维电泳法时，在获得对应于相同蛋白质的点的样本之间的关联时遇到困难，这是因为：实验中再现性降低的不可避免，噪声的渗入，以及进一步地，当电泳图像作为图片图像输入时处理过程中图像处理技术的限制。因此，能够在组之间进行比较的蛋白质的穷竭性(exhaustivity)有可能显著降低。此外，不清楚哪些蛋白质实际对应于下述点或峰，其中在蛋白质已经通过二维电泳法扩散的阶段观察到所述点，在借助于质谱法测量质谱的阶段观察到所述峰。结果，必须鉴定对应于点或峰的氨基酸序列以弄清楚蛋白质的身份，但是该操作需要大量的时间和工作。

此外，借助于蛋白质组分析，从一个样本中获得多种蛋白质的每一种表达的数据作为蛋白质表达谱图数据，但是可能发生数据缺失。数据缺失是不能获得与若干蛋白质相关的表达的数据，即使这些蛋白质应该实际上包含在样本中。可能出现这类缺失是因为以下原因，测量中分辨率不足，图像处理的限制，或者外来物质或噪声附在电泳图像上。查找标志蛋白质的穷竭性的改进需要考虑这类数据缺失，并且在某些情形中，需要补充缺失值。

鉴于上述问题，本发明的目的是提供新的分析方法，该分析方法使得能够基于诸如二维电泳中获得的蛋白质的数据表达数据的信息查找生物学中重要的蛋白质诸如标志蛋白质作为目标蛋白质。

鉴于上述问题，本发明的另一个目的是提供新的分析设备，该分析设备使得能够基于诸如二维电泳中获得的蛋白质的表达数据的信息查找生物学中重要的蛋白质诸如标志蛋白质作为目标蛋白质。

解决问题的方法：

根据本发明的蛋白质查找方法是下述蛋白质查找方法，用于基于通过蛋白质组分析获取的蛋白质表达谱图数据查找与信息直接或间接有关的蛋白质作为目标蛋白质，该蛋白质查找方法包括：基于通过使用从谱图数据中的蛋白质表达和信息的监督学习获得的蛋白质的显著性确定与信息相关的蛋白质作为目标蛋白质；并且借助于评估数据评估目标蛋白质的性能。

根据本发明的第一蛋白质查找设备是用于基于通过蛋白质组分析获取的蛋白质表达谱图数据查找与信息相关的蛋白质作为目标蛋白质的蛋白质查找设备，所述第一蛋白质查找设备包括：数据存储装置，用于存储通过蛋白质组分析获取的蛋白质表达数据和信息；目标蛋白质查找装置，用于使用从蛋白质表达数据和信息的监督学习确定目标蛋白质；目标蛋白质存储装置，用于存储所确定的目标蛋白质的表达；根据目标蛋白质的预测模型学习装置，用于使用所确定的目标蛋白质的表达和信息以学习预测模型；预测模型存储装置，用于存储预测模型；评估数据存储装置，用于存储用于评估预测模型的性能的数据；以及预测模型验证装置，用于借助于评估数据评估预测模型。

根据本发明的第二蛋白质查找设备是用于基于通过蛋白质组分析获取的蛋白质表达谱图数据查找与信息相关的蛋白质作为目标蛋白质的蛋白质查找设备，所述第二蛋白质查找设备包括：数据存储装置，用于存储通过蛋白质组分析获取的蛋白质表达数据和信息；数据划分装置，用于将蛋白质表达数据划分为目标蛋白质查找中使用的训练数据和验证数据；训练数据存储装置，用于存储训练数据；验证数据存储装置，用于存储验证数据；目标蛋白质查找装置，用于使用从训练数据和信息的监督学习确定目标蛋白质；目标蛋白质存储装置，用于存储所确定的目标蛋白质的表达；根据目标蛋白质的预测模型学习装置，用于使用所确定的目标蛋白质的表达和信息学习预测模型；预测模型存储装置，用于存储预测模型；以及预测模型验证装置，用于借助于验证数据评估预测模型。

根据本发明，作为一个示例，即使当多种蛋白质的表达与诸如临床信息的信息有关时，也能查找诸如标志蛋白质的目标蛋白质，并且进一步地，能够合理地确定用于确定蛋白质是否为目标蛋白质的阈值。

附图说明

图1是示出根据第一示例性实施例的标志蛋白质查找设备的构造的框图

图2是示出图1中所示的标志蛋白质查找设备中处理过程的示例的流程图；

图3是示出用于补充缺失值的处理过程的示例的流程图；

图4是示出随机梯度增强的处理过程的示例的流程图；

图5是示出根据第二示例性实施例的标志蛋白质查找设备的构造的框图；

图6是示出图5中所示的标志蛋白质查找设备中处理过程的示例的流程图；

图7是示出根据第三示例性实施例的标志蛋白质查找设备的构造的框图；以及

图8是示出图7中所示的标志蛋白质查找设备中处理过程的示例的流程图；

附图标记的说明：

1 输入设备；

2 数据处理设备；

3 存储设备；

4 输出设备；

21 缺失值补充单元；

22 数据划分单元；

23 标志蛋白质查找单元；

24 预测模型学习单元；

25 验证单元；

31 数据存储单元；

32 训练数据存储单元；

33 验证数据存储单元；

34 参数存储单元；

35 标志蛋白质存储单元；

36 预测模型存储单元；以及

37 评估数据存储单元。

具体实施方式

接下来说明本发明的示例性实施例。在以下描述中，给出了下述示例，其中对于与临床信息直接或间接相关的标志蛋白质进行全面查找，作为与信息直接或间接相关的蛋白质的目标蛋白质。在本发明中，通过使用对通过蛋白质组分析获得的蛋白质的表达进行集成学习来进行标志蛋白质的全面查找。

图1示出根据第一示例性实施例的标志蛋白质查找设备的构造。该标志蛋白质查找设备基于通过例如二维电泳法获得的蛋白质的表达数据进行生物学中重要的蛋白质，即标志蛋白质的查找。

图中所示的标志蛋白质查找设备通常由以下构成：输入设备1，诸如键盘或定位设备；数据处理设备2，其在程序的控制下运行；存储设备3，用于存储信息；以及输出设备4，诸如显示设备或打印机。

数据处理设备2设置有：缺失值补充单元21，用于补充已缺失的蛋白质表达的值；数据划分单元22，用于在训练数据和验证数据之间划分所有数据；标志蛋白质查找单元23，用于从训练数据查找标志蛋白质；预测模型学习单元24，用于使用标志蛋白质的表达以及例如，临床信息学习预测模型；以及验证单元25，用于基于验证数据评估预测模型的分类性能。这里，缺失值补充单元21又称为缺失值补充装置，数据划分单元22又称为数据划分装置，标志蛋白质查找单元23又称为目标蛋白质查找装置，预测模型学习单元24又称为预测模型学习装置，且验证单元25又称为预测模型验证装置。

存储设备3设置有：数据存储单元31，用于存储蛋白质表达和例如临床信息；训练数据存储单元32，用于存储已经通过数据划分单元22划分的训练数据；验证数据存储单元33，用于存储已经通过数据划分单元22划分的验证数据；参数存储单元34，用于存储标志蛋白质查找单元23查找标志蛋白质中使用的学习参数；标志蛋白质存储单元35，用于存储已经查找到的标志蛋白质信息和临床信息；以及预测模型存储单元36，用于存储通过使用训练数据中的标志蛋白质和临床信息而学习到的预测模型。这里，数据存储单元31还称为数据存储装置，训练数据存储单元32还称为训练数据存储装置，验证数据存储单元33还称为验证数据存储装置，标志蛋白质存储单元35还称为目标蛋白质存储装置，并且预测模型存储单元36还称为预测模型存储单元。

接下来的说明涉及使用图1所示的标志蛋白质查找设备查找标志蛋白质。图2是示出标志蛋白质查找的处理过程的示例的流程图。

在步骤A1中，借助于输入设备1将执行指令施加到标志蛋白质查找设备，并且借助于输入设备1输入蛋白质的表达作为数据存储单元31的输入。作为输入的接收到的表达被存储在数据存储单元31中。这里，蛋白质的表达由例如通过蛋白质组分析获取的蛋白质表达谱图数据获得。作为蛋白质组分析方法，能够使用采用二维电泳和/或质谱的方法。此外，诸如蛋白质的磷酸化作用或糖基化作用的反映诸如化学修饰的蛋白质的状态的信息可代替蛋白质表达使用或者与蛋白质表达组合使用。对应于蛋白质的表达的临床信息也借助于输入设备1和数据处理设备2存储在数据存储单元31中。当借助于蛋白质组分析分析某些样本时，获得蛋白质的表达，但是对应于蛋白质的表达的临床信息是与提供这些样本的个体有关的信息。临床信息总体而言指下述信息，即与这些临床数值有关的信息、与疾病状态有关的信息、与药效有关的信息、以及与存活时间(即样本采集后个体存活多久)有关的信息。

接下来在步骤A2中通过缺失值补充单元21补充蛋白质表达的缺失值，并且将已补充缺失值的蛋白质表达存储在数据存储单元31中。

接下来参照图3说明通过k-最近邻算法补充缺失值的实际方法。

首先，在步骤B1中将补充缺失值之前的蛋白质表达应用为从数据存储单元31到缺失值补充单元21的输入。在步骤B2中，缺失值补充单元21选择其表达已经以预定比例缺失的M个蛋白质，并且在步骤B3中，设置缺失值补充中使用的蛋白质的数目K。接下来，在步骤B4中，将m初始化为m＝1，然后在步骤B5中使用无缺失的样本中的表达计算欧氏距离并且查找K个邻近蛋白质，并且在步骤B6中，借助于相应于距离的加权平均补充缺失值。如果w_i是加权并且x_i是蛋白质表达，则加权平均通过以下求得：

\frac{Σ_{i = 1}^{K} w_{i} x_{i}}{Σ_{i = 1}^{K} w_{i}} - - - (1)

接下来，在步骤B7中，将“1”加到m，并且在步骤B8中确定m是否已经达到M。如果m＜M，则处理返回到步骤B5，而如果m＝M则结束。结果，对于表达缺失的M个蛋白质中的每个均进行步骤B4和B5中所示的处理。

当已经补充缺失值时，数据划分单元22从数据存储单元31接收补充缺失值后的所有样本的蛋白质表达数据。在步骤A3中，进行标志蛋白质的查找，并且在预测模型的学习中使用的训练数据和用于评估从所述训练数据学习到的预测模型的性能的验证数据之间划分这些标志蛋白质的蛋白质表达数据。训练数据存储在训练数据存储单元32中，并且验证数据存储在验证数据存储单元33中。

在步骤A4中，标志蛋白质查找单元23接下来从训练数据存储单元32接收训练数据的蛋白质表达和对应的临床信息，从参数存储单元34接收通过随机梯度增强的学习中所使用的参数，并且设置当下位学习机被取为回归树时的随机增强的参数。在这样设置参数后，标志蛋白质查找单元23通过监督学习为每种蛋白质计算是标志蛋白质的指标的显著性。在显著性的计算中，在步骤A5中通过随机增强实现学习，其中蛋白质表达被取为属性，而临床信息被取为监督学习中的目标函数。在通过随机增强的学习的处理中计算属性的显著性，如步骤A6中所示。然后在步骤A7中基于显著性选择属性。然后将已赋予显著性的蛋白质的表达与临床信息一起存储在标志蛋白质存储单元35中。

接下来参照图4，具体说明借助于随机梯度增强计算显著性的方法。

在步骤C1中，首先将蛋白质表达与临床信息的组合的集合D应用为从训练数据存储单元32到标志蛋白质查找单元23的输入。N是组合的数目，即获得的用于感兴趣的蛋白质的表达的样本的数目。

D＝{(x₁，y₁)，...，(x_N，y_N)} (2)

其中x是蛋白质表达且y是临床信息。临床信息包括，例如，疾病、常态或恶性、以及存活时间。接下来在步骤C2中设定压缩参数v、再抽样数s、学习的循环数M、和适于临床信息的类型的损失函数L。在区分诸如疾病和常态的类别的分类问题中，损失函数L可使用：

L＝log(1+exp(-2yF(x))) (3)

其中F(x)是判别函数。此外，在回归问题中，能够使用：

L＝(y-F(x))² (4)

或者

L＝|y-F(x)| (5)

换言之，当临床信息包括离散值时，可使用诸如对数函数的函数作为损失函数，而当临床信息包括连续值时，可使用真值与预测值之差的平方值或者真值与预测值之差的绝对值作为损失函数。当临床信息是存活时间时，可使用Cox比例风险模型作为损失函数。

再抽样数s和压缩参数v的大小范围为：

1＜＜s≤N (6)，

0＜v≤1 (7)。

这里，引入再抽样数s和压缩参数v以避免原始数据的过度学习。

接下来在步骤C3中初始化判别函数F₀和循环数m，如下所示：

F₀＝0 (8)，

m＝1 (9)。

在步骤C4中，如下所示通过是下位学习机的回归树初始化学习的数据项目数n：

n＝1 (10)。

在步骤C5中，通过以下等式计算损失函数L的梯度：

r_{n} = \frac{&PartialD;}{&PartialD; F (x_{n})} L (y_{n}, F (x_{n})) |_{F = F_{m - 1} (x_{n})} - - - (11) .

在步骤C5之后的步骤C6中，将“1”加到n，在步骤C7中确定n是否已经达到N，并且如果n＜N，则该处理返回到步骤C5，从而继续步骤C5中计算损失函数的梯度的操作直至n达到N。

当步骤C7中n＝N时，接下来进行s次数据的再抽样并且在步骤S8中产生复制数据集合，并且在步骤C9中，通过回归树T_m学习复制数据和损失函数的梯度的组合的集合R。

R = {(r_{n_{1}}, x_{n_{1}}), . . ., (r_{n_{s}}, x_{n_{s}})} - - - (12) .

在步骤C10中，如下更新判别函数：

F_m(T₁(x)，...，T_m(x))＝F_m-t(T₁(x)，...，T_m-1(x))+vT_m(x) (13)。

在步骤C10之后，在步骤C11中将“1”加到M，在步骤C12中确定m是否已经达到M，并且如果m＜M，则处理返回到步骤C4，从而继续步骤C5至步骤C10的操作直至m变为M。

在上述随机梯度增强的回归树的学习处理中通过以下等式计算蛋白质p的显著性V_p：

V_{F}^{2} = \frac{1}{M} Σ_{m = 1}^{M} V_{F}^{2} (T_{m}) - - - (14) .

此处，V_p(T_m)是学习第m个回归树时的显著性且其通过以下等式定义：

V_{F}^{2} (T_{m}) = Σ_{t = 1}^{J_{m} - 1} δ_{t}^{2} I [t = p] - - - (15) .

这里，J_m是第m个回归树的非终端节点的数目，I[t＝p]是当在节点t处分支的蛋白质为p时变为“1”的下标变量，且δ_t ²是当在节点t处划分时均方差的改善量。换言之，在学习处理的全部回归树中均缺乏分支变量的蛋白质具有“0”的显著性，意味着这些蛋白质对临床信息变量完全没有任何贡献并且与临床信息无关。

在该示例性实施例中，计算感兴趣的蛋白质的显著性的方法不限于本文描述的随机梯度增强，而还可以采用其它方法，包括集成学习诸如增强和装袋。然而，当有很少的数据的项目时，优选地使用随机梯度增强。

如在前面的说明中所描述的，如果在标志蛋白质查找单元23中从训练数据计算是作为标志蛋白质的每个蛋白质的指标的显著性，则接下来在步骤A8中预测模型学习单元24从训练数据存储单元32接收训练数据的蛋白质表达和临床信息并从标志蛋白质存储单元35接收蛋白质的表达，并且通过诸如支持向量机的监督学习或者诸如聚类的非监督学习来学习预测模型。学习后的预测模型存储在预测模型存储单元36中。

在步骤A9中，验证单元25从预测模型存储单元36接收预测模型并从验证数据存储单元33接收验证数据，并且对验证数据的临床信息进行预测。从输出设备4提供预测结果。

在上述第一示例性实施例的标志蛋白质查找设备中，缺失的蛋白质的表达的补充使得能够从较大量的蛋白质之中查找与临床信息有关的蛋白质，并因此具有提高发现以前未能发现的标志蛋白质的可能性的效果。

图5示出根据第二示例性实施例的标志蛋白质查找设备的构造。图5中所示的标志蛋白质查找设备适应于以下情形：能测量样本中蛋白质的全部表达；或者仅将能测量表达的那些蛋白质取为分析的对象。与图1中所示的第一示例性实施例的标志蛋白质查找设备相比，图5中所示的设备的不同之处在于其没有提供缺失值补充单元。图6是示出图5中所示的设备中标志蛋白质查找处理的示例的流程图，并且与图2中所示的第一示例性实施例中的处理相比，不同之处仅在于其没有提供缺失值补充处理。图5中所示的设备不进行表达中缺失值的补充，而另外地执行与图1中所示的设备相同的标志蛋白质查找处理。

图7示出根据第三示例性实施例的标志蛋白质查找设备的构造。图7中所示的标志蛋白质查找设备使用全部数据以查找标志蛋白质而没有在训练数据和评估数据之间划分表达谱图数据，并且借助于已分别准备的评估数据来评估通过标志蛋白质实现的预测性能。与图5中所示的设备相比，图7中所示的设备缺乏数据划分单元、训练数据存储单元、和验证数据存储单元，并且替代地，在存储设备3中设置有评估数据存储单元37。这里，标志蛋白质查找单元23，又称为目标蛋白质查找装置，使用监督学习以从存储在数据存储单元31中的蛋白质表达数据和临床信息确定标志蛋白质。评估数据存储单元37还称为评估数据存储装置并且存储用于评估预测模型的性能的评估数据。

图8是示出图7中所示的设备中标志蛋白质查找处理的示例的流程图。通过输入设备1给出执行指令，并且在步骤A1中，蛋白质的表达和对应的临床信息被施加为借助于输入设备1到数据存储单元31的输入并存储在数据存储单元31中。接下来，在步骤A4中，标志蛋白质查找单元23从数据存储单元31接收训练数据的蛋白质表达和对应的临床信息，从参数存储单元34接收随机梯度增强的学习中使用的参数，并且设定假设下位学习机为回归树时的随机增强的参数。在这样设定参数后，标志蛋白质查找单元23计算是作为标志蛋白质的每个标志的指标的显著性。在步骤A5中显著性的计算中，通过随机增强进行学习，而蛋白质表达作为属性且临床信息作为目标函数。在随机增强学习处理中，如步骤A6中所示，为属性计算显著性。

接下来在步骤A7中，标志蛋白质查找单元23基于显著性选择属性。然后将已赋予显著性的蛋白质的表达存储在标志蛋白质存储单元35中。然后在步骤A8中，预测模型学习单元24从数据存储单元31接收蛋白质表达和临床信息，从标志蛋白质存储单元35接收蛋白质的表达，并且进行诸如支持向量机的监督学习或者诸如聚类的非监督学习以学习预测模型。学习后的预测模型存储在预测模型存储单元36中。接下来在步骤A10中，验证单元25从预测模型存储单元36接收预测模型并从评估数据存储单元37接收评估数据以为临床信息进行评估数据的预测。从输出设备4提供预测的结果。

在第三示例性实施例中，如第一示例性实施例中一样，能够采用设置有缺失值补充单元21以补充缺失值的构造。

上述示例性实施例的每个的标志蛋白质查找方法均能通过以下方式实现：使诸如个人计算机或工作站的计算机读取用于实现标志蛋白质查找方法的计算机程序并然后执行所述程序。用于进行标志蛋白质查找的程序被通过诸如磁带或CD-ROM的记录介质或者通过网络读取到计算机。这种计算机由以下构成：CPU(中央处理单元)、用于存储程序和数据的外部存储设备、主存储器、诸如键盘或鼠标的输入设备、输出设备或诸如CRT(阴极射线管)或液晶显示设备(LCD)的显示设备、用于读取诸如磁带或CD-ROM的记录介质的读取设备、以及用于连接到网络的通信接口。将硬盘驱动器等用作外部存储设备。

在该计算机中，存储用于执行标志蛋白质查找的程序的记录介质装在读取设备上，该程序被从记录介质读取并存储在外部存储设备中，并且通过CPU执行存储在外部存储设备中的该程序，或者，借助于网络将程序下载到外部存储设备中并且通过CPU执行存储在外部存储设备中的程序，从而执行上述标志蛋白质查找方法。

根据上述示例性实施例中的每一个，即使当多种蛋白质的表达与临床信息相关时，也有可能查找到作为目标蛋白质的标志蛋白质并且能合乎逻辑地确定用于确定蛋白质是否为标志蛋白质的阈值。此外，该示例性实施例允许要通过质谱的氨基酸序列确定鉴定的标志蛋白质的有效确定，并且该示例性实施例进一步允许蛋白质鉴定所需的时间和工作的较大的减少。补充缺失值提高了能通过组比较的蛋白质的穷竭性并能获取更多的生物学信息。

在另一个示例性实施例的蛋白质查找方法中，可以进一步提供用于将谱图数据划分为在目标蛋白质查找中使用的训练数据和验证数据的阶段，从而在确定阶段中，可基于使用从训练数据中的蛋白质表达和临床信息的监督学习获得的蛋白质的显著性将与临床信息有关的蛋白质确定为目标蛋白质，并且在评估阶段中，验证数据可用作评估数据。此外，在又一示例性实施例中，可以包括另一阶段，其用于使用其它蛋白质的表达以补充蛋白质表达的缺失值。

本发明的又一目的在于提供蛋白质查找方法，该方法使得能够通过随机梯度增强来查找多种蛋白质的表达与临床信息之间的相关性而没有设置阈值，并且补充蛋白质表达的缺失值以提高能够通过组比较的蛋白质的穷竭性。

本发明的再一目的在于提供蛋白质查找设备，该设备能借助于随机梯度增强查找多种蛋白质的表达与临床信息之间的关联而没有设置阈值，并能进行蛋白质表达的缺失值补充并提高能在组中比较的蛋白质的穷竭性。

本专利申请要求基于2006年7月14日提交的日本专利申请No.2006-194065的优先权，其公开内容在此通过引用而整体地并入。

示例

接下来描述实施本发明的一个示例的结果。

借助于荧光二维差异凝胶电泳对肝中肝癌的癌变部分的样本和非癌变部分的样本进行蛋白质组分析。使用该蛋白质组分析的结果，使用第一示例性实施例中所述的过程查找蛋白质。当未进行缺失值补充时可作为结果分析的蛋白质的数目为101，而进行20％缺失值补充使得能分析658种蛋白质，即超过六倍的蛋白质，这显著改进了穷竭性。此外，当在查找标志蛋白质中使用随机梯度增强时，所述标志蛋白质对于区分癌变部分和非癌变部分是有效的，未进行缺失值补充时找到25种标志蛋白质，而20％的缺失值补充使得能够自动检测42种标志蛋白质。

尽管以上已经参照示例性实施例和示例描述了本发明，但是本发明不限于上述实施例和示例。对本领域技术人员来说显而易见的是，本发明的构造和细节允许在本发明范围内的各种修改。

Claims

1.一种蛋白质查找方法，用于基于通过蛋白质组分析获取的蛋白质表达谱图数据查找与信息直接或间接相关的蛋白质作为目标蛋白质，所述蛋白质查找方法包括：

基于通过使用从所述谱图数据中的蛋白质表达和所述信息的监督学习获得的蛋白质的显著性，确定与所述信息相关的蛋白质作为目标蛋白质；以及

借助于评估数据评估所述目标蛋白质的性能。

2.根据权利要求1所述的方法，进一步包括将所述谱图数据划分为目标蛋白质查找中使用的训练数据和验证数据；其中：

当确定与所述信息相关的蛋白质作为所述目标蛋白质时，基于通过使用从所述训练数据中的蛋白质表达和所述信息的监督学习获得的蛋白质的显著性，将与所述信息相关的蛋白质确定为所述目标蛋白质；并且

当评估所述目标蛋白质的性能时，将所述验证数据用作所述评估数据。

3.根据权利要求1或2所述的方法，进一步包括通过使用其它蛋白质的表达补充所述蛋白质表达的缺失值。

4.根据权利要求3所述的方法，其中通过k-最近邻算法补充蛋白质表达的缺失值。

5.根据权利要求1至4中任一项所述的方法，其中通过使用分支变量和目标变量的改善度来计算所述显著性，所述分支变量和目标变量是在通过集成学习的下位学习机的决策树或回归树的学习过程中产生的。

6.根据权利要求1至5中任一项所述的方法，其中使用增强、装袋、梯度增强和随机梯度增强中的一种来计算所述显著性。

7.根据权利要求1至6中任一项所述的方法，其中所述信息是临床信息，并且所述目标蛋白质是标志蛋白质。

8.根据权利要求7所述的方法，其中当所述临床信息包括离散值时，在所述监督学习中使用对数函数作为损失函数。

9.根据权利要求7所述的方法，其中当所述临床信息包括连续值时，将真值与预测值之差的平方值或者真值与预测值之差的绝对值用作损失函数。

10.根据权利要求7所述的方法，其中当所述临床信息是存活时间时，将Cox比例风险模型用于损失函数。

11.根据权利要求1至10中任一项所述的方法，其中通过质谱法和/或二维电泳法进行所述蛋白质组分析。

12.一种蛋白质查找设备，用于基于通过蛋白质组分析获取的蛋白质表达谱图数据查找与信息相关的蛋白质作为目标蛋白质，所述蛋白质查找设备包括：

数据存储装置，用于存储通过蛋白质组分析获取的蛋白质表达数据和信息；

目标蛋白质查找装置，用于使用从所述蛋白质表达数据和所述信息的监督学习确定目标蛋白质；

目标蛋白质存储装置，用于存储所述确定的目标蛋白质的表达；

根据目标蛋白质的预测模型学习装置，用于使用所述确定的目标蛋白质的所述表达和所述信息学习预测模型；

预测模型存储装置，用于存储所述预测模型；

评估数据存储装置，用于存储用于评估所述预测模型的性能的数据；以及

预测模型验证装置，用于借助于所述评估数据评估所述预测模型。

13.一种蛋白质查找设备，用于基于通过蛋白质组分析获取的蛋白质表达谱图数据查找与信息相关的蛋白质作为目标蛋白质，所述蛋白质查找设备包括：

数据划分装置，用于将所述蛋白质表达数据划分为目标蛋白质查找中使用的训练数据和验证数据；

训练数据存储装置，用于存储所述训练数据；

验证数据存储装置，用于存储所述验证数据；

目标蛋白质查找装置，用于使用从所述训练数据和所述信息的监督学习确定目标蛋白质；

根据目标蛋白质的预测模型学习装置，用于使用所述确定的目标蛋白质的表达和所述信息学习预测模型；

预测模型存储装置，用于存储所述预测模型；以及

预测模型验证装置，用于通过所述验证数据评估所述预测模型。

14.根据权利要求12或13所述的设备，进一步包括缺失值补充装置，用于通过使用其它蛋白质的表达补充所述目标蛋白质表达的缺失值。

15.根据权利要求12至14中任一项所述的设备，其中所述信息是临床信息，并且所述目标蛋白质是标志蛋白质。

16.一种可被计算机读取的记录介质，用于存储使计算机执行以下处理的程序：基于借助于蛋白质组分析获取的蛋白质表达谱图数据查找与信息直接或间接相关的蛋白质作为目标蛋白质；所述程序使所述计算机执行：基于通过使用从所述谱图数据中的蛋白质表达和所述信息的监督学习获得的蛋白质的显著性，确定与所述信息有关的蛋白质作为目标蛋白质的处理；以及借助于评估数据评估所述目标蛋白质的性能的处理。

17.一种可被计算机读取的记录介质，用于存储使计算机执行以下处理的程序：基于借助于蛋白质组分析获取的蛋白质表达谱图数据查找与临床信息直接或间接相关的蛋白质作为目标蛋白质；所述程序使所述计算机执行：将所述谱图数据划分为目标蛋白质查找中使用的训练数据和验证数据的处理；基于通过使用从所述训练数据中的蛋白质表达和所述信息的监督学习获得的蛋白质的显著性，确定与所述信息相关的蛋白质作为目标蛋白质的处理；以及借助于所述验证数据评估所述目标蛋白质的性能的处理。

18.根据权利要求16或17所述的记录介质，其中所述程序使所述计算机进一步执行通过使用其它蛋白质的表达补充所述蛋白质表达的缺失值的处理。

19.根据权利要求16至18中任一项所述的记录介质，其中所述信息是临床信息，并且所述目标蛋白质是标志蛋白质。