CN107924429B

CN107924429B - 用于预测蛋白质的至少一个适应度值的方法和电子系统

Info

Publication number: CN107924429B
Application number: CN201680027558.6A
Authority: CN
Inventors: N·冯塔因; F·卡德特
Original assignee: Cadet Frederic
Current assignee: Cadet Frederic
Priority date: 2015-04-14
Filing date: 2016-04-14
Publication date: 2022-12-09
Anticipated expiration: 2036-04-14
Also published as: AU2016247474A1; JP6744909B2; KR20170137106A; CN114882947A; US11749377B2; EP3082056B2; BR112017022196A2; CA2982608C; JP2018517219A; US20180096099A1; EP3082056B1; DK3082056T3; MX2017013195A; CN107924429A; CA2982608A1; IL254976B; WO2016166253A1; EP3082056A1; DK3082056T4; AU2016247474B2

Abstract

将用于预测蛋白质的至少一个适应度值的方法在计算机上执行，并且所述方法包括以下步骤：根据蛋白质数据库将所述蛋白质的氨基酸序列编码(100)成数值序列，所述数值序列包含序列中每个氨基酸的值；根据数值序列计算(110)蛋白质谱；以及对于每个适应度：将计算的蛋白质谱与预定数据库的蛋白质谱值进行比较(130)，所述数据库包含针对所述适应度的不同值的蛋白质谱值，根据比较步骤预测(130)所述适应度的值。

Description

用于预测蛋白质的至少一个适应度值的方法和电子系统

本发明涉及用于预测蛋白质的至少一个适应度值(fitness value)的方法和相关的电子系统，所述蛋白质包含氨基酸序列。本发明还涉及包括软件指令的计算机程序产品，所述程序产品被计算机执行，当被计算机执行时，所述程序产品执行这种方法。

发明背景

蛋白质是由至少一个氨基酸序列链组成的生物分子。蛋白质彼此相异主要在于它们的氨基酸序列，序列之间的差异被称为“突变”。

蛋白质工程的最终目标之一是具有所需性质(统称为“适应度”)的肽、酶、蛋白质或氨基酸序列的设计和构建。用工程化的氨基酸置换、氨基酸的缺失或插入或氨基酸嵌段(嵌合蛋白质)修饰的氨基酸序列(即“突变体”)的构建允许评估任何特定氨基酸在适应度中的作用以及了解蛋白质结构与其适应度之间的关系。

定量结构-功能/适应度关系分析的主要目的是调查和数学地描述蛋白质结构变化对其适应度的影响。突变的影响与不同氨基酸的物理化学和其它分子性质相关，并且可通过统计学分析来逼近。

探索适应度景观，调查n个单点置换的所有可能的组合(排列)是一项非常困难的任务。确实，突变体的数量增加非常快(表1)。

单点突变的数目	突变体的数目
		2	4
4	16
		6	64
8	256
		10	1024
12	4096
		14	16384
16	65536

40	1.1x10<sup>12</sup>

表1.针对n个突变的可能的突变体数目

探索所有可能的突变体在实验上是困难的，特别是当n增加时。在实践中，在湿实验室中用单点置换产生突变体是相当容易和便宜的。对于它们中的每一个来说，适应度都可以很容易地表征。

但在湿实验室中组合单点置换并不容易。产生被靶向的n个单点置换的所有可能的(2ⁿ)组合可以是非常荷求和昂贵的。大规模评估适应度是有问题的。

已经开发了混合的体外和电脑模拟方法来帮助蛋白质的定向进化过程。它们需要从湿实验室(通过定点、随机或组合诱变)构建突变体文库，以从文库中检索有限数量样本的序列和/或结构(称为“学习数据集”)并评估每个取样突变体的适应度。它们还要求从电脑模拟提取每个突变体的描述符，以使用多变量统计方法来建立描述符和适应度(学习阶段)之间的关系，并建立模型来对未经实验测试的突变体进行预测。

已经提出了基于3D结构的称为定量结构-功能关系(QFSR)的方法(Damborsky J,Prot.Eng.(1998)Jan；11(1):21-30)。提出了仅基于序列而不基于3D结构并使用统计建模进行电脑模拟合理筛选的其它方法(Fox R.等，Protein Eng.(2003)16(8):589-97；FoxR.,Journal of Theoretical Biology(2005),234:187–199；Minshull J.等，Curr OpinChem Biol.2005Apr；9(2):202-9；Fox R.等，Nature Biotechnology(2007),25(3):338-344；Fox R.and Huisman GW Trends Biotechnol.2008Mar；26(3):132-8)。最著名的是ProSAR(Fox R.,Journal of Theoretical Biology(2005),234:187–199；Fox R.等，Nature Biotechnology(2007),25(3):338-344)，其基于二进制编码(0或1)。

QSFR方法是有效的，并且考虑到与非变体残基可能相互作用的信息。然而，QSFR需要目前仍然有限的关于3D蛋白质结构的信息，并且该方法还慢。

相比之下，ProSAR不需要知道3D结构，因为它仅基于一级序列计算，并且可以使用线性和非线性模型。然而，ProSAR仍然有缺点，且其筛选能力有限。特别地，只有那些正在变化的残基被包括在建模中，因此，缺少关于突变残基和其他非变体残基之间可能的相互作用的信息。ProSAR依赖于不考虑氨基酸的物理化学或其他分子性质的突变的二进制编码(0或1)。另外，(i)可以测试的新序列只是在用于构建模型的学习集中使用的位置上具有突变或突变组合的序列；(ii)待筛选的新序列中突变的位置数目不能与训练集中的突变数目不同；和(iii)当在超级计算机上引入非线性项以建立模型时计算时间是非常长的(对于100个非线性项，直至2周)。

因此，仍然需要通用且快速的电脑模拟方法来帮助蛋白质定向进化过程。本发明提供了满足这些要求并且基于数字信号处理(DSP)的方法。

数字信号处理技术是分解和处理信号以揭示其中内含的信息的分析程序。信号可能是连续的(无休止的)，或离散的诸如蛋白质残基。在蛋白质中，傅里叶变换方法已被用于生物序列(DNA和蛋白质)比较，蛋白质家族的表征和模式识别、分类和其它基于结构的研究(诸如对称性和重复结构单元或模式的分析，二级/三级结构的预测，疏水核心、基序、保守结构域的预测，膜蛋白的预测，保守区域的预测，蛋白质亚细胞定位的预测)，用于氨基酸序列中二级结构含量的研究和用于蛋白质中的周期性的检测。最近提出了用于检测蛋白质结构中螺线管结构域的新方法。

数字信号处理技术帮助了蛋白质相互作用的分析(Cosic I.,IEEE Trans BiomedEng.(1994)41(12):1101-14)，并使生物学功能性可计算。这些研究已在Nwankwo N.和Seker H.(J Proteomics Bioinform(2011)4(12):260-268)中进行了详细的综述。

在这些方法中，首先使用来自数据库AAindex(Kawashima，S.和Kanehisa，M.Nucleic Acids Res.(2000)，28(1)：374；Kawashima，S等人，Nucleic Acids Res.Jan2008；36)的可用AAindex之一将蛋白质残基转化成数值序列，该数值序列代表每个氨基酸的生物化学性质或物理化学参数。然后通过离散傅立叶变换(DFT)处理这些数值序列，以信息谱的形式呈现蛋白质的生物学特征。该程序称为信息频谱法(ISM)(Veljkovic V.等，IEEE Trans Biomed Eng.1985May；32(5):337-41)。ISM程序已被用于研究钙结合蛋白(Viari A.等，Comput Appl Biosci.1990Apr；6(2):71-80)和流感病毒(Veljkovic V.，等BMC Struct Biol.2009Apr 7；9:21,Veljkovic V.等BMC Struct Biol.2009Sep 28；9:62)中的主要排列(principal arrangement)。

采用称为电子-离子相互作用电位(EIIP)的氨基酸参数的ISM的变体被称为共振识别模型(RRM)。在该程序中，生物功能性被呈现为频谱特征。这种物理数学过程基于以下事实：具有相同生物学特性的生物分子在其价电子振荡并随后在电磁场中反射(reverberate)时识别它们自己并生物关联于(bio-attach)它们自己(Cosic I.,IEEETrans Biomed Eng.(1994)41(12):1101-14；Cosic I.,The Resonant Recognition Modelof Macromolecular Bioactivity Birkhauser Verlag,1997)。

共振识别模型涉及四个步骤(参见Nwankwo N.和Seker H.,JProteomicsBioinform(2011)4(12):260-268)：

-步骤1：将蛋白质残基转化成电子-离子相互作用电位(EIIP)参数的数值。

-步骤2：补零/上采样。该过程使用补零来在任何位置上填充待分析的蛋白质的序列中的缺口，因为信号处理要求所有蛋白质的窗口长度相同。

-步骤3：使用快速傅里叶变换(FFT)处理数值序列以产生频谱特征(SC)，并在步骤4中将其逐点相乘以产生交叉频谱(CS)特征。

-步骤4：交叉频谱分析：交叉频谱(CS)分析表示频谱特征(SC)的逐点乘法。

因此，所述CS分析已经被定性地用于基于配体与受体频谱之间的共同频率(共振)来预测例如配体-受体结合。另一个实例是通过将RRM应用于Ha-ras p21蛋白质序列来预测ras样活性存在与否，即转化细胞的能力存在与否。

这些现有技术方法提供的信息是有用的，但又不足以鉴定通过定向进化产生的最有价值的蛋白质突变体。

发明概述

因此，本发明涉及用于预测蛋白质的至少一个适应度值的方法，该方法在计算机上执行，并且包括以下步骤：

-根据蛋白质数据库将蛋白质的氨基酸序列编码成数值序列，数值序列包含序列中每个氨基酸的值；

-根据数值序列计算蛋白质谱；和

对于每个适应度：

-将计算的蛋白质谱与预定数据库的蛋白质谱值进行比较，所述数据库包含针对所述适应度的不同值的蛋白质谱值，

-根据比较步骤预测所述适应度的值。

因此，本发明人开发的方法涉及对蛋白质谱的定量分析，这使得可能预测蛋白质的适应度值，而且还可能预测给定活性的存在与否。

根据本发明的其它有利方面，该方法包括单独地或根据所有技术上可能的组合采用的以下特征中的一个或多个特征：

-计算的蛋白质谱包括至少一个频率值，并将计算的蛋白质谱就每个频率值与所述蛋白质谱值进行比较；

-在蛋白质谱计算步骤期间，将傅里叶变换(诸如快速傅里叶变换)应用于编码步骤后获得的数值序列；

-每个蛋白质谱验证以下方程式：

其中j为蛋白质谱|f_j|的指数(index-number)；

数值序列包括指示x_k的N数值，其中0≤k≤N-1且N≥1；以及

i定义虚数，使i²＝-1；

-在编码步骤期间，蛋白质数据库包括生物化学或物理化学特性值的至少一个指数，每个特性值被赋予相应的氨基酸；并且对于每个氨基酸，数值序列中的值等于给定的指数中所述氨基酸的特性值；

-在编码步骤期间，蛋白质数据库包括特性值的几个指数；并且所述方法还包括基于样本蛋白质的测量的适应度值与根据每个指标对所述样本蛋白质预先获得的预测的适应度值的比较来选择最佳指标的步骤；然后使用所选择的指数进行编码步骤；

-在选择步骤期间，所选择的指数是具有最小均方根误差的指数，其中每个指数的均方根误差验证以下方程式：

其中y_i为第i个样本蛋白质的测量的适应度，

为第i个样本蛋白质用第j个指数预测的适应度，以及

S为样本蛋白质的数量；

-在选择步骤期间，所选择的指数是决定系数最接近1的指数，其中每个指数的决定系数验证以下方程式：

其中y_i为第i个样本蛋白质的测量的适应度，

为第i个样本蛋白质用第j个指数预测的适应度，

S为样本蛋白质的数量，

为S样本蛋白质的测量的适应度的平均值，

以及

为S样本蛋白质的预测的适应度的平均值；

-该方法还在编码步骤之后并且在蛋白质谱计算步骤之前包括以下步骤：

+通过将数值序列的每个值减去数值序列值的平均值对通过编码步骤获得的数值序列进行归一化；

然后对归一化的数值序列进行蛋白质谱计算步骤；

+通过在所述数值序列的一端添加M个零对通过编码步骤获得的数值序列进行补零，其中M等于(N-P)，其中N是预定整数，P是所述数值序列中的值的数目；

然后对补零步骤后获得的数值序列进行蛋白质谱计算步骤；

-比较步骤包括在针对所述适应度的不同值的蛋白质谱值的预定数据库中，根据预定标准确定与计算的蛋白质谱最接近的蛋白质谱值，所述适应度的预测值则等于在所述数据库中与确定的蛋白质谱值相关联的适应度值；

-在蛋白质谱计算步骤期间，根据几个频率范围计算所述蛋白质的几个蛋白质谱，且

其中，在预测步骤期间，根据比较步骤针对每个蛋白质谱估计适应度的中间值，然后使用中间适应度值来计算适应度的预测值，

优选利用对中间适应度值进行回归，诸如偏最小二乘回归来计算；以及

该方法包括以下步骤：

-根据计算的蛋白质谱分析蛋白质，以筛选突变体文库，

该分析优选使用多因辨别分析(factorial discriminant analysis)或主成分分析进行。

本发明还涉及包括软件指令的计算机程序产品，当所述指令通过计算机执行时，执行如上定义的方法。

本发明还涉及用于预测蛋白质的至少一个适应度值的电子预测系统，该预测系统包括：

-编码模块，其被配置用于根据蛋白质数据库将氨基酸序列编码为数值序列，所述数值序列包含序列中每个氨基酸的值；

-计算模块，其被配置用于根据所述数值序列计算蛋白质谱；和

-预测模块，对于每个适应度，其被配置用于：

+将计算的蛋白质谱与预定数据库的蛋白质谱值进行比较，所述数据库包含针对所述适应度的不同值的蛋白质谱值，以及

+根据所述比较预测所述适应度的值。

附图简述

在阅读以下仅通过实例并参照附图给出的描述后，本发明将被更好地理解，其中：

-图1是用于预测蛋白质的至少一个适应度值的电子预测系统的示意图，该预测系统包括被配置用于将氨基酸序列编码为数值序列的编码模块，被配置用于根据数值序列计算蛋白质谱的计算模块；以及被配置用于预测每个适应度的至少一个值的预测模块；

-图2是根据本发明的用于预测蛋白质的至少一个适应度值的方法的示意性流程图；

-图3表示针对人GLP1蛋白的天然和突变形式获得的蛋白质谱的曲线；

-图4是说明细胞色素P450家族的一组蛋白的热稳定性的预测值和测定值的一组点，每个点与相应的蛋白质相关，其中纵坐标对应于预测值，横坐标对应于测量值，使用蛋白质谱中包括的所有频率；

-图5和图6是分别针对来自细胞色素P450家族的蛋白质组的训练和验证子集获得的类似图4的图示，训练子集用于计算包含针对热稳定性的不同值的蛋白质谱值的数据库，验证子集与训练子集不同，并用于测试与相应测量值相比较的预测值的相关性；

-图7是关于一组GLP1突变体的结合亲和力的预测值和测量值的类似于图4的图示；

-图8是关于一组GLP1突变体的效力的预测值和测量值的类似于图4的图示；

-图9和图10是关于分别针对一组肠毒素SEE和SEA的训练和验证子集获得的热稳定性的预测值和测量值的类似于图4的图示，训练子集用于计算含有针对所述热稳定性的不同值的蛋白质谱值的数据库，所述验证子集与训练子集不同，并用于测试预测值的相关性；

-图11和12是关于分别针对一组TNF突变体的训练和验证子集获得的结合亲和力的预测值和测量值的类似于图4的图示，训练子集用于计算含有针对所述结合亲和力的不同值的蛋白质谱值的数据库，所述验证子集与所述训练子集不同，并用于测试所述预测值的相关性；

-图13是使用来自蛋白质谱的频率值的选择的类似于图4的图示；

-图14是关于一组环氧化物水解酶家族的蛋白的对映选择性的预测值和测量值的类似于图4的图示；

-图15表示512个环氧化物水解酶突变体的文库的筛选；

-图16表示使用多变量分析(主成分分析)进行蛋白质筛选来进行的10个环氧化物水解酶突变体的蛋白质谱的分类。

-图17是关于布鲁顿酪氨酸激酶变体的蛋白质表达水平的预测值和测量值的类似于图4的图示；

-图18是关于K562细胞系中RNA的mRNA表达水平的预测值和测量值的类似于图4的图示；

-图19是关于心脏细胞中蛋白质的蛋白质表达水平的预测值和测量值的类似于图4的图示；和

-图20是关于肾细胞中蛋白质的蛋白质表达水平的预测值和测量值的类似于图4的图示。

优选实施方案的详述

如本文中所用，“蛋白质”意指通过肽键连接在一起的至少2个氨基酸。术语“蛋白质”包括蛋白质、寡肽、多肽和肽。肽基可包含天然存在的氨基酸和肽键，或合成的拟肽结构，即“类似物”，诸如类肽。氨基酸可以是天然存在的或非天然存在的。在优选实施方案中，蛋白质包含至少10个氨基酸，但较少的氨基酸也可处理。

蛋白质的“适应度”是指其对标准诸如催化效力，催化活性，动力学常数，Km，Keq，结合亲和力，热稳定性，溶解度，聚集，效力，毒性，变应原性，免疫原性，热力学稳定性，柔性的适应，根据本发明，“适应度”也称为“活性”，并且在下面的描述中认为适应度和活性是指相同的特征。

催化效力通常以s^-1.M^-1表示，是指kcat/Km的比率。

催化活性通常以mol.s^-1表示，是指酶催化中的酶活性水平。

动力学常数kcat通常以s^-1表示，是指定量反应速度的数值参数。

Km通常以M表示，是指反应速度为其最大值的一半时的底物浓度。

Keq通常以(M、M^-1或无单位)表示，为表示化学反应中的化学平衡的量，

结合亲和力通常以M表示，是指一种或多种蛋白质与配体(肽或小化学分子)之间的相互作用的强度。

热稳定性通常以℃表示，通常是指测量的活性T₅₀，其定义为在10分钟的孵育时间后50％的蛋白质被不可逆变性时的温度。

溶解度通常以mol/L表示，是指在溶液变饱和之前每升溶液可溶解的物质(溶质)的摩尔数。

聚集通常使用聚合指数(来自280nm和340nm处的简单吸收测量)来表示，并且是指其中错误折叠的蛋白质在细胞内或细胞外聚集(即，堆集和簇集在一起)的生物学现象。

效力通常以M表示，是指以产生给定强度的效果所需的量表示的药物活性的量度。

毒性通常以M表示，是指物质(毒素或毒药)可对人或动物造成伤害的程度。

变应原性通常以生物等效变态反应单位/mL(BAU/mL)表示，是指抗原性物质产生立即超敏反应(变态反应)的能力。

免疫原性通常表示为样品中抗体量的单位，是指特定物质(诸如抗原或表位)在人或动物体内引发免疫应答的能力

稳定性通常表示为ΔΔG(kcal/mol-1)，是指蛋白质的快速、可逆和协同地解折叠和重折叠的热力学稳定性。

柔性通常以A°表示，是指蛋白质紊乱和构象变化。

在图1中，用于预测蛋白质的至少一个适应度值的电子预测系统20包括数据处理单元30、显示屏32和用于将数据输入数据处理单元30的输入装置34。

数据处理单元30由例如存储器40和与存储器40联接的处理器42组成。

显示屏32和输入装置34本身是已知的。

存储器40适用于存储编码计算机程序50(其被配置用于根据蛋白质数据库51将氨基酸序列编码为数值序列)和计算计算机程序52(其被配置用于根据数值序列计算下文所示的蛋白质谱|f_j|，其中j为蛋白质谱的指数号)。

存储器40还适用于存储建模计算机程序54，所述程序54被配置用于预先确定包含针对所述适应度的不同值的蛋白质谱值的蛋白质谱数据库55。

存储器40适用于存储预测计算机程序56，所述程序56被配置用于对于每个适应度，将计算的蛋白质谱与所述预定数据库的蛋白质谱值进行比较，以及用于根据所述比较预测所述适应度的值；以及任选地进一步用于筛选突变体文库。

可选地，存储器40适用于存储筛选计算机程序58，所述程序58被配置用于根据计算的蛋白质谱分析蛋白质，从而筛选突变体文库，该分析优选是多因辨别分析或主成分分析。

处理器42被配置用于执行编码、计算、建模、预测和筛选计算机程序50、52、54、56、58中的每一个。编码、计算、建模、预测和筛选计算机程序50、52、54、56、58，当由处理器42来执行它们时，分别形成用于根据蛋白质数据库将氨基酸序列编码成数值序列的编码模块；用于根据数值序列计算蛋白质谱的计算模块；用于预先确定含有蛋白质谱值的数据库的建模模块；用于将计算的蛋白质谱与所述预定数据库的蛋白质谱值进行比较，并根据所述比较预测所述适应度的值以及进行筛选的预测模块；以及用于根据计算的蛋白质谱分析蛋白质的筛选模块。

或者，编码模块50、计算模块52、建模模块54、预测模块56和筛选模块58以可编程逻辑组件的形式，或以专用集成电路的形式存在。

编码模块50适用于根据蛋白质数据库51将氨基酸序列编码成数值序列，数值序列包含序列的每个氨基酸的值x_k。数值序列由P值x_k构成，其中0≤k≤P-1，P≥1，k和P为整数。

将蛋白质数据库51例如存储在存储器40中。或者，将蛋白质数据库51存储在与存储器40不同的远程存储器(未显示的)中。

蛋白质数据库51优选为氨基酸指数数据库，也称为AAIndex。氨基酸指数数据库可从http://www.genome.jp/dbget-bin/www_bfind？aaindex(发布版9.1，8月6日)获得。

蛋白质数据库51包括生物化学或物理化学特性值的至少一个指数，每个特性值被赋予相应的氨基酸。蛋白质数据库51优选地包括生物化学或物理化学特性值的几个指数。每个指数对应于例如AAindex代码，如以下将根据各个实例所示的。用于编码氨基酸序列的选择的AAindex代码是例如：扩展结构的D归一化频率、D电子-离子相互作用电位值、总蛋白质的AA组成的D SD、来自IFH量表(scale)的D pK-C或D权重。

为了编码氨基酸序列，则使编码模块50适用于确定每个氨基酸在给定的指数中所述氨基酸的特性值，数值序列中的每个编码值x_k则等于相应的特性值。

另外，以任选的方式，当蛋白质数据库51包括特性值的几个指数时；编码模块50被进一步配置用于基于样本蛋白质的测量的适应度值与先前根据每个指数针对所述样本蛋白质获得的预测的适应度值的比较，选择最佳指标；然后用于使用所选择的指数编码氨基酸序列。

所选择的指数是例如具有最小均方根误差的指数，其中每个指数的均方根误差验证以下方程式：

其中y_i是第i个样本蛋白质的测量的适应度，

是第i个样本蛋白质用第j个指数预测的适应度

S样品蛋白质的数量。

或者，所选择的指数是具有最接近于1的决定系数的指数，其中每个指数的决定系数验证以下方程式：

其中y_i第i个样本蛋白质的测量的适应度，

是第i个样本蛋白质用第j个指数预测的适应度，

S是样品蛋白的数量，

是S样本蛋白质的测量的适应度的平均值，以及

是S样本蛋白质的预测的适应度的平均值。

另外，以任选的方式，编码模块50被进一步配置用于对所获得的数值序列进行归一化，例如通过将数值序列的每个值x_k减去数值序列值的平均值

换句话说，表示为

的每个归一化值验证以下方程式：

平均值

为例如算术平均值并且满足：

或者，平均值

是几何平均值、调和平均值或均方平均值。

另外，以任选的方式，编码模块50被进一步配置用于通过在所述数值序列的一端添加M个零来对所获得的数值序列进行补零，其中M等于(N-P)，其中N是预定整数并且P是所述数值序列中的值的初始数量。因此，N是补零后的数值序列中的值的总数。

计算模块52被配置用于根据数值序列计算蛋白质谱。计算的蛋白质谱包括至少一个频率值。

计算模块52被配置用于计算蛋白质谱|f_j|，优选地通过对所获得的数值序列应用傅里叶变换，诸如快速傅里叶变换。

每个蛋白质谱|f_j|因此验证例如以下方程：

其中j是蛋白质谱|f_j|的指数指数号；以及

i定义虚数，使得i²＝-1。

另外，当通过编码模块50对数值序列进行归一化时，计算模块52被进一步配置用于对归一化的数值序列进行蛋白质谱计算。

换句话说，在该情况下，每个蛋白质谱|f_j|因此验证例如以下方程式：

另外，当通过编码模块50对数值序列进行补零时，计算模块52被进一步配置用于对进一步获得以用于补零的数值序列计算蛋白质谱|f_j|。

另外，当通过编码模块50对数值序列进行归一化和补零时，计算模块52被进一步配置用于对进一步获得以用于补零的归一化数值序列计算蛋白质谱|f_j|。

建模模块54适用于根据从编码模块50下发的学习数据和从计算模块52下发的学习蛋白质谱，预先确定蛋白质谱数据库55(也称为模型)。学习蛋白质谱对应于学习数据并且学习数据各自与给定的适应度相关，并且优选地针对所述适应度的不同值。

蛋白质谱数据库55包含针对每个适应度的不同值的蛋白质谱值。优选地，使用至少10个蛋白质谱和10个不同的适应度来构建蛋白质谱数据库55。当然，蛋白质谱数量和相关蛋白质适应度越高；在适应度预测方面的结果越好。在下面的实例中，用作学习数据的蛋白质谱和适应度的数量范围为8至242个(242个蛋白质谱和242个蛋白质适应度；8个蛋白质谱和8个蛋白质适应度)。

对于每个适应度，预测模块56适用于将计算的蛋白质谱与蛋白质谱数据库55的蛋白质谱值进行比较，并根据所述比较来预测所述适应度的值。

预测模块56被进一步配置用于在蛋白质谱数据库55中根据预定标准确定最接近计算的蛋白质谱的蛋白质谱值，然后所述适应度的预测值等于在蛋白质谱数据库55中与所确定的蛋白质谱值相关联的适应度值。

预定标准是例如计算的蛋白质谱与蛋白质谱数据库55中包含的蛋白质频谱值之间的最小差异。或者，预定标准是计算的蛋白质谱与蛋白质谱数据库55中包含的蛋白质谱值之间的相关系数R或决定系数R2。

当蛋白质谱|f_j|包含几个频率值时，对于每个频率值将计算的蛋白质谱|f_j|与蛋白质谱值进行比较。

或者，仅将一些频率值考虑用于计算的蛋白质谱|f_j|与所述蛋白质谱值的比较。在该情况下，例如根据频率值与适应度的相关性来对频率值进行排序，并且仅将最佳频率值考虑用于计算的蛋白质谱的比较。

另外，以任选的方式，预测模块56被进一步配置用于在根据几个频率范围计算所述蛋白质的几个蛋白质谱时估计每个蛋白质谱的适应度的中间值。

然后，预测模块56被进一步配置用于通过对所述中间适应度值进行回归(诸如偏最小二乘回归，也称为PLSR的)来计算适应度的预测值。

或者，预测模块56被配置用于使用人工神经网络(ANN)来计算适应度的预测值，其中输入变量是所述中间适应度值，输出变量是适应度的预测值。

另外，以任选的方式，预测模块56允许获得突变体文库的筛选，因为将在下面在图15的图示中以对映选择性作为适应度来描述其。

另外，以任选的方式，筛选模块58适用于根据计算的蛋白质谱分析蛋白质，以及使用数学处理(诸如多因辨别分析(factorial discriminant analysis)或主成分分析，然后例如进行k-means)根据其各自的蛋白质谱对蛋白质序列进行分类。例如，可以进行分类，以确定在蛋白质谱家族中是否存在不同的组：具有高、中和低适应度的组；作为例子，具有适应度的表达的组和没有适应度的表达的组。在下文中，将根据图16进一步说明该筛选。

现在将参照图2描述根据本发明的电子预测系统20的操作，所述图2表示用于预测蛋白质的至少一个适应度值的方法的流程图。

在初始步骤100中，编码模块50根据蛋白质数据库51将蛋白质的氨基酸序列编码成数值序列。

编码步骤100可使用氨基酸指数数据库(也称为AAIndex)来进行。

在编码步骤100期间，编码模块50针对每个氨基酸确定给定的指数中(例如在给定的AAindex代码中)的所述氨基酸的特性值，然后下发等于所述特性值的编码值x_k。

另外，当蛋白质数据库51任选地包括几个特性值的指数时；编码模块50还基于样本蛋白质的测量的适应度值与先前根据每个指数针对所述样本蛋白质获得的预测的适应度值的比较，选择最佳指数；然后使用所选择的指数编码氨基酸序列。

例如，使用方程式(1)或方程式(2)选择最佳指数。

此外，编码模块50任选择地对所获得的数值序列进行归一化，例如通过根据方程式(3)将数值序列的每个值x_k减去数值序列值的平均值

另外，编码模块50任选地通过在所述数值序列的一端添加M个零来对所获得的数值序列进行补零。

在编码步骤100结束时，编码模块50将学习数值序列和验证数值序列传送至计算模块52，并将学习数据传送至建模模块54。

两个蛋白质频谱的实例示于图3中，第一曲线102表示人GLP1蛋白的天然形式的蛋白质谱，第二曲线104表示人GLP1蛋白的突变形式(单突变)的蛋白质谱。对于每个曲线102、104，蛋白质谱的连续离散值彼此相连。

在下一步骤110中，计算模块52计算从编码模块50下发的每个数值序列的蛋白质谱|f_j|。对应于学习数值序列的蛋白质谱也称为学习谱，对应于验证数值序列的蛋白质谱也称为验证谱。步骤110也称为谱变换步骤。蛋白质谱|f_j|优选地通过使用傅立叶变换诸如快速傅立叶变换，例如取决于任选的归一化和/或补零，根据方程式(5)至(8)中的方程式来计算。

然后，建模模块54在步骤120中根据在编码步骤100期间获得的学习数据和在谱变换步骤110期间获得的学习蛋白质谱，确定蛋白质谱数据库55。

在步骤130中，对于每个适应度，预测模块56将计算的蛋白质谱与从蛋白质谱数据库55中下发的蛋白质谱值进行比较，然后根据所述比较预测的适应度值。

更精确地，预测模块56在蛋白质谱数据库55中根据预定标准确定最接近计算的蛋白质谱的蛋白质谱值，然后预测的适应度值等于与蛋白质谱数据库55中确定的蛋白质谱值相关联的适应度值。

任选地，只将一些频率值考虑用于计算的蛋白质谱|f_j|与所述蛋白质谱值的比较。

另外，当根据几个频率范围任选地计算所述蛋白质的几个蛋白质谱时，预测模块56估计每个蛋白质谱的中间适应度值。然后，预测模块56通过对所述中间适应度值进行回归(诸如PLSR)来计算预测的适应度值。或者，人工神经网络(ANN)被预测模块56用于基于所述中间适应度值计算适应度的预测值。然后，预测模块56允许通过根据预测的适应度对蛋白质谱进行分级来进行蛋白质筛选。

最后和任选地，筛选模块58在步骤140中使用数学处理(诸如多因辨别分析或主成分分析)根据其各自的蛋白质谱对蛋白质序列进行分析、分类。

或者，例如通过与预定值进行比较，直接对计算的蛋白质谱进行分析以筛选突变体文库。

因此，其允许获得更好的突变体文库筛选。此步骤也称为多变量分析步骤。

应当注意，分析步骤140紧接谱变换步骤120，并且另外可在分析步骤140之后执行预测步骤130，以用于预测一些或所有分类的蛋白质的适应度值。

将潜在分量计算为原始变量的线性组合计算；选择潜在分量的数量以使RMSE(均方根误差)最小化。将潜在分量计算为原始变量(频率值)的线性组合；通过逐个添加分量来选择潜在分量的数量以最小化RMSE(均方根误差)。

实施例

将根据以下实施例来进一步说明本发明。

实施例1：细胞色素P450(图4至6)

在本实施例中，使用以下AAindex代码将细胞色素P450的氨基酸序列编码成数值序列：扩展结构的D归一化频率(Maxfield和Scheraga,Biochemistry.1976；15(23):5138-53)。

第一数据集(来自Li等人，2007:Nat Biotechnol 25(9):1051–1056.；Romero等，PNAS.2013:January 15，第11卷，n°3:E193-E201)来自围绕细胞色素P450家族，特别是细胞色素P450 BM3 A1、A2和A3的序列/稳定性-功能关系的研究，该研究旨在提高细胞色素的热稳定性。含有血红素的氧化还原酶的多功能细胞色素P450家族羟化广泛的底物，以产生具有重大医学和工业重要性的产品。利用从这三种不同亲本中的任一亲本继承的八个连续片段构建新的嵌合蛋白。测量的活性是T₅₀，其被定义为在10分钟的孵育时间后50％的蛋白质被不可逆地变性时的温度。输出数据集(out-coming dataset)由242个变体序列组成，其中T₅₀实验值范围为39.2至64.48℃。CYP102A1及其同源物CYP102A2(A2)和CYP102A3(A3)的血红素结构域的重组允许产生由八个片段组成的242个嵌合P450序列，每个片段选自三个亲本之一。根据片段组成书写嵌合体：例如，23121321代表继承亲本A2的第一片段、A3的第二片段、A1的第三个片段(依此类推)的蛋白质。

表2：CYTP450学习集

图4显示使用留一交叉验证(LOOCV)R2＝0.96和RMSE＝1.21对蛋白质序列的整个集合进行模型之后获得的结果。这表明可以使用这种方法捕获与蛋白质的适应度相关的信息。

嵌合体	T50	嵌合体	T50	嵌合体	T50
						11332212	47.8	31313232	51.9	22213223	50.8
32332231	49.4	23332221	46.4	21331332	52
						23313111	56.9	22111332	50.9	11313333	53.8
23333311	45.7	22332222	50.3	32311323	52
						31331331	47.3	21131121	53	23132311	44.5
21231233	50.6	21232232	49.5	21333211	55.9
						21112122	50.3	31212232	51	32312333	57.8
22113211	51.1	23213211	47.4	22312332	59.1
						23333233	51	32232131	43.9	22312333	63.5
13333211	45.7	22133212	47.2	12322333	47.9
						23213311	49.5	21313311	56.9	21312231	62.8
32332323	48.5	21332231	60	22311333	60.1
						22213212	50.5	21113312	53	21311231	63.2
22132212	46.6	22312223	56.2	21312211	59.3
						21111333	62.4	22232121	49.7	22212333	58.2
32113232	47.9	31332233	49.9

表3：CYTP450测试组

图5和图6给出了模型预测细胞色素P450的突变的组合的能力。此处，数据集被在196个序列中被分为学习序列，在46个序列中被分为验证序列。

实施例2：人胰高血糖素样肽-1(GLP1)预测的类似物(图7和8)

在本实施例中，使用以下AAindex代码将GLP1的氨基酸序列编码为数值序列：D电子-离子相互作用电位值(Cosic,IEEE Trans Biomed Eng.1994Dec；41(12):1101-14.)。

他司鲁肽和Extendin-4是GLP1类似物，其作为胰高血糖素样肽(GLP)受体的肽激动剂，并且正处于下用于治疗II型糖尿病的临床开发(他司鲁肽)中。

人GLP1	HAEGTFTSDVSSYLEGQAAKEFIAWLVKGR(SEQ ID NO:1)
		他司鲁肽	HAEGTFTSDVSSYLEGQAAKEFIAWLVKAR(SEQ ID NO:2)

已实施本发明的方法以提供相对于天然人GLP1和他司鲁肽提高结合亲和力(与受体的相互作用)和/或提高效力(受体-腺苷酸环化酶活性的激活)的GLP1受体的候选激动剂。

已经始于人GLP1的序列，通过进行单点位点饱和诱变：用19个其它天然氨基酸置换氨基酸序列的每个位置来通过电脑模拟设计突变体文库。因此，如果蛋白质序列由n＝30个氨基酸组成，则生成的文库将由30×19＝570个单点变体组成。已经运行单点突变的组合。

Adelhorst K等(J Biol Chem.1994Mar 4；269(9):6275-8)先前描述了通过Ala扫描(即通过用L-丙氨酸连续替换每个氨基酸以鉴定与GLP-1受体相互作用所需的侧链官能团)制备的一系列GLP-1类似物。在L-丙氨酸是亲本氨基酸的情况下，已用在胰高血糖素相应位置上发现的氨基酸进行了置换。已在针对大鼠GLP-1受体的结合测定(IC50)中测定了这些类似物，并已进一步监测了效力(通过检测腺苷酸环化酶活性EC50测量的受体激活)。将这些类似物(30个单突变体)及其报告的活性(分别与野生型人GLP1的IC50或EC50相比标准化的Log(IC50)和Log(EC50))用作学习数据集来建立预测模型(参见图7和图8)。

表4:GLP1学习集

测试肽	logIC50
		GLP1 T5A	0.54407
GLP1 L14A	0.23045
		GLP1 Q17A	0.04139
GLP1 F22A	2.54531

表5:GLP1测试序列(结合)

测试肽	logEC50
		GLP1 V10A	0.8451
GLP1 F22A	3.41497
		GLP1 V27A	0.30103
野生型GLP1	0.41497

表6:GLP1测试序列(效力)

对于结合亲和力，它们的活性范围为-0.62至2.55(logIC50)，对于效力，它们的活性范围为-0.30至4.00(logEC50)。

结果表明，对于结合亲和力(图7)，R2和RMSE分别为0.93和0.19，对于效力(图8)分别为0.94和0.28，因此表明可以以非常有效的方式捕获与两个适应度相关的信息。

针对人GLP1、他司鲁肽和最佳电脑模拟的类似物(基于预测模型)评估的结合和效力如表7所示：

	结合(IC50)nM	竞争力(EC50)nM
			人GLP1	0.27	2.6
他司鲁肽	0.79	0.39
			最佳电脑模拟的类似物	0.002	0.021

表7：对人GLP1和类似物评估的结合和效力

对于GLP1的肽配体类似物对其受体的结合亲和力实现了135倍的提高。获得124倍的效力提高。

这说明本发明的方法可以用于同时提高多个参数。

实施例3：环氧化物水解酶的对映选择性的演化(图14和15)

在本实施例中，使用以下AAindex代码：总蛋白质的AA组成的DSD(Nakashima等，Proteins.1990；8(2):173-8)将环氧化物水解酶的氨基酸序列编码成数值序列。

对映选择性是在化学反应中一种立体异构体相对于另一种的优先形成。对映选择性对于许多与工业相关的化学物质的合成很重要，并且难以实现。绿色化学利用重组酶(因为酶具有很高的特异性)来合成目标化学产品。因此，在绿色化学中特别寻求具有提高的效率的酶。

Reetz，等(Ang 2006Feb 13；45(8):1236-41)描述了来自黑曲霉(Aspergillusniger)的环氧化物水解酶的对映选择性突变体作为缩水甘油醚1的水解动力学拆分(其中形成二醇(R)-2和(S)-2)中的催化剂的定向进化。

该模型建立在Reetz等(同上)描述的一组10个学习序列上。

环氧化物水解酶	ΔΔG(kcal/mol)
		WT	-0.85
L215F	-1.50
		A217N	-1.17
R219S	-0.85
		L249Y	-0.85
T317W	-1.50
		T318V	-0.85
M329P	-1.08
		L330Y	-0.85
C350V	-0.97

表8：学习集

将湿实验室中产生的32个突变体的结果与使用我们的方法预测的结果进行了比较。定量值显示在图14的右侧：表示实验值和预测值。所获得的预测值非常接近实验值，平均偏差为-0.011kcal/mol。这表明即使对少量学习序列和学习数据，也可以获得具有提高的参数的良好突变体。

在图15中，构建并筛选了512个突变体的文库。在湿实验室中鉴定的最佳突变体确实是一个好的突变体(箭头150)，但不是最好的。

最好的突变体由图15中的椭圆160标识。箭头170指向野生型蛋白质。

表9：测试序列

实施例4：肠毒素SEA和SEE(图9和10)的热稳定性(Tm)的预测

在本实施例中，使用以下AAindex代码：D pK-C(Fasman，1976)将肠毒素的氨基酸序列编码成数值序列。

第四数据集(来自Cavallin A.等，2000:Biol Chem.Jan 21；275(3):1665-72.)与肠毒素SEE和SEA的热稳定性相关。超抗原(SAg)，诸如葡萄球菌肠毒素(SE)，是已知引起食物中毒或中毒性休克的非常强效的T细胞活化蛋白。通过将这些肠毒素与肿瘤反应性抗体融合，已经探索了将由它们诱导的强细胞毒性用于癌症治疗。Tm定义为变性温度EC50值，对于由12个蛋白质序列组成的数据集(WT SAE+WT SEE+10个突变体，包括形成1个单突变至21个多重突变)，范围为55.1至73.3℃。

表10.SEA和SEE的突变区的细节。SEE/Aa、-f、-h和-ah是分别具有来自SEA的区域a、f、a和a+h的SEE，而SEA/E-bdeg是具有来自SEE的区域b+d+e+g的SEA。

肠毒素	Tm
		SEA_D227A	55.1
SEA_H187A	57.5
		SEA_233aa(野生型)	61.4
SEA/E-bdeg	68.4
		SEE/A-h	69
SEE/A-a_D227A	69.3
		SEE_233aa(野生型)	71.3
SEE/A-a	75.3

表11:学习集

肠毒素	Tm
		SEE_A-f	70
SEE_A-ah	69.1
		SEE_D227A	67.4
SEA_D227A_F47A	55.4

表12：测试序列

将我们的预测与湿实验室结果进行了比较(Cavallin A.2000)。此处再次地，使用小的学习序列(8个学习序列)和学习数据，有可能捕获与热稳定性相关的信息，并预测新突变体的该参数。

应当注意，在对应于图10的验证集的蛋白质序列(4个蛋白质序列)中，2个在对应于图9的训练集中未被采样的位置处包含突变(具有7个新突变的1个序列，和具有超过2的1个新突变的1个序列(1sequence avec 1new mutation over 2))。因此，这些结果证实，有可能鉴定新的突变体，包括在训练集中未被采样的突变的位置。

结果表明，对于训练集(图9)，R2和RMSE分别为0.97和1.16，对于验证集(图10)，R2和RMSE分别为0.96和1.46，因此表明在该情况下可以高效地预测与热稳定性相关的信息。

实施例5：具有改变的受体选择性的突变型TNF(图11和12)

在本实施例中，使用以下AAindex代码：来自IFH量表的D权重(Jacobs and White,Biochemistry.1989；28(8):3421-37)将TNF的氨基酸序列编码为数值序列。

肿瘤坏死因子(TNF)是抑制致癌作用并排除感染性病原体以维持内环境稳定的重要细胞因子。TNF激活其两种受体，TNF受体TNFR1和TNFR2。

Mukai Y等(J Mol Biol.2009Jan 30；385(4):1221-9)产生了仅激活一种TNFR的受体选择性TNF突变体。

Mukai等(同上)公开的21个突变体的受体选择性已使用数据突变体(包括1个单突变至6个多重突变的WT+20个突变体)和在本文中公开为学习数据集进行了预测。

TNF多肽	受体选择性
		WT	0
K11M,K65S,K90P,K98R,K112N,K128P	0.079
		L29I	0.079
A84T,V85H,S86K,Q88P,T89Q	0.544
		A84S,V85K,S86T,Q88S,T89H	0.663
L29Q,R32W	0.826
		L29K,R31A,R32G,E146S,S147T	0.924
A84S,V85T,S86N,Q88N,T89G	0.869
		A84S,V85S,S86H,Q88R,T89F	1.079
A84S,V85P,S86L,Q88P,T89K	1.217
		A84T,V85S,S86A,Q88G,T89P	1.230
A84T,V85T,S86A,Q88S,T89G	1.310
		A145R,E146T,S147D	1.301
A145K,E146D,S147T	2.870
		A145R,E146E,S147T	2.228
A145A,E146D,S147D	1.949
		A145A,E146N,S147D	2.462

表13：TNF学习集

基于ELISA测量预测TNF与TNFR1(R1)和TNFR2(R2)的竞争性结合，如Mukai Y等在论文中所述的。使用R1和R2的相对亲和力(％Kd)来计算logR1/R2的比率。相对亲和力log₁₀(R1/R2)的范围为0至2.87。

在第一步中，该方法已被应用于整个数据集。对于TNF的结合亲和力，R2和RMSE分别等于0.97和0.11。这再次证明，该方法能够捕获与适应度相关的信息。

在第二步中，将17个突变体用作学习序列，4个用作验证序列。

TNF多肽	受体选择性
		L29T_R31G_R32Y	0.380
L29T_R31K_R32Y	1.127
		L29T_R32F_E146T	2.026
A84S_V85K_S86T_Q88T_T89H	0.924

表14：TNF测试序列

结果表明，对于训练集(图11)R2和RMSE分别为0.93和0.21，对于验证集(图12)R2和RMSE分别为0.99和0.17，因此表明有可能使用该方法对TNF突变体优先(比率R1/R2)与一种类型的受体结合的能力建模。

在所有上述实施例1至5中，为了进行预测，使用全蛋白质谱。在下面的实施例6中，我们证明了根据本发明的方法以非常高效的方式仅使用部分蛋白质谱进行工作。

实施例6：使用来自蛋白质谱的频率值的选择来预测细胞色素P450的热稳定性(图13)

在本实施例中，使用以下AAindex代码：扩展结构的D归一化频率(Maxfield和Scheraga,Biochemistry.1976；15(23):5138-53)将细胞色素P450的氨基酸序列编码成数值序列。

此处，使用来自蛋白质谱的最相关频率的选择来进行预测。根据其与适应度的相关性对频率值进行排序，并且仅考虑最佳频率值。

数据集与实施例1中的相同。

结果表明，R2和RMSE分别为0.91和1.75，从而表明，仅使用部分(选择)来自蛋白质谱的频率也可高效地预测适应度(此处为热稳定性)。

这说明可使用全蛋白质谱或来自蛋白质谱的部分(选择)频率来使用本发明的方法。

实施例7：使用多变量分析对蛋白质谱进行分类以进行蛋白质筛选(图16)

使用包括10个具有低适应度值和高适应度值(对映选择性)的蛋白质谱的环氧化物水解酶亚组(如在实施例3中)。进行了PCA(主成分分析)。适应度的低值和高值分别在小椭圆180和大椭圆190中，因此表明应用于蛋白质谱的多变量分析有助于蛋白质筛选。

X、Y和Z轴是从PCA产生的3个主要成分，并且考虑到58.28％(以惯用的X、Y和Z轴，分别为21.51％、19.72％和16.05％)的与蛋白质谱收集相关的全局信息。

因此，在上述实施例中获得的几个适应度的预测值与测量值之间的R2和RMSE表明，根据本发明的预测系统20和方法允许对不同蛋白质的不同适应度值进行高效预测。

另外，根据本发明的方法允许测试在其它位置上具有突变或突变的组合的新序列(验证/测试序列)，这些新序列用于学习序列集以用于建立模型。

该方法还允许测试新序列(验证/测试序列)，所述新序列具有与学习序列集中使用的突变位置数相比不同的突变位置数。

该方法还允许测试新序列，所述序列包括在训练集中未被采样的突变的位置。在该情况下，给出肠毒素作为实施该方法的实例。

另外，该方法还允许测试新序列(验证/测试序列)，所述序列具有与用于构建模型的学习序列集的长度相比不同的长度(在氨基酸数量方面)。

该方法使得能够使用相同的学习序列和一个或多个不同的编码AAindex和不同的适应度/活性值作为学习数据来预测用于学习序列或验证序列的适应度(验证/测试数据)：即使用该新方法预测蛋白质序列的2个或更多个活性/适应度的能力。GLP1在本文档中用作实例：作为实例，使用相同的AAindex进行对GLP1受体的结合亲和力的预测和效力的预测。

使用该方法，有可能使用非常小的学习序列和学习数据来实现非常好的预测以及获得具有提高的适应度的突变体。作为例子，给出其中仅使用10个蛋白质序列的环氧化物水解酶(Epoxyde Hydrolase)。

该方法还允许使用嵌合蛋白而不是具有单点突变或单点突变的组合的蛋白质序列。在本文档中将细胞色素P450作为实例给出。使用不同P450的片段组合。

本发明使得考虑到氨基酸序列中不同位置处的不同氨基酸之间的相互作用的作用成为可能。图3显示单点突变在每个频率下影响整个蛋白质谱。

另外，该方法非常高效，因此在用于预测适应度的编码步骤之后需要不超过10分钟，同时使用50个蛋白质序列用于学习序列以及20个蛋白质序列用于验证序列。

另外，蛋白质的“适应度”还指其对诸如蛋白质表达水平或mRNA表达水平的标准的适应。

因此，蛋白质的“适应度”是指其对标准诸如催化功效、催化活性、动力学常数、Km、Keq、结合亲和力、热稳定性、溶解度、聚集、效力、毒性、变应原性、免疫原性、热力学稳定性、柔性、蛋白表达水平和mRNA表达水平的适应。如上所述，“适应度”也称为“活性”，并且在本说明书中认为适应度和活性是指相同的特征。

根据以下实施例，将进一步说明适应度诸如蛋白质表达水平或mRNA表达水平。

实施例8：预测布鲁顿酪氨酸激酶变体的蛋白质表达水平(图17)

在本实施例中，布鲁顿酪氨酸激酶(BTK)是参与B细胞发育和成熟的关键蛋白。实际上，BTK诱导成熟B细胞产生抗体，有助于消除感染。此外，该蛋白的功能障碍可能引起疾病如X连锁无丙种球蛋白血症或布鲁顿无丙种球蛋白血症(B细胞未能成熟)。

将18种蛋白质变体(Futatani T.等1998,《Deficient expression of Bruton'styrosine kinase in monocytes from X-linked agammaglobulinemia as evaluated bya flow cytometric analysis and its clinical application to carrierdetection.》,Blood.1998Jan15；91(2):595-602；Kanegane H.等2000,《Detection ofBruton's tyrosine kinase mutations in hypogammaglobulinaemic males registeredas common variable immunodeficiency(CVID)in the Japanese ImmunodeficiencyRegistry》,Clin Exp Immunol.2000Jun；120(3):512-7)、野生型BTK用于本实施例，如下表15所示。

表15-BTK变体的序列和蛋白质表达水平值

在图17中，测量的活性对应于BTK的蛋白质表达水平的体外测量，预测的活性对应于通过根据本发明的方法对BTK的蛋白质表达水平预测的值。

该值以蛋白质表达水平的百分比给出，其中100％对应于野生型的蛋白质表达水平。

留一交叉验证(LOOCV)用于构建模型并预测蛋白质表达值。结果表明，R2和RMSE分别为0.98和1.5，从而表明适应度(此处为蛋白质表达水平)也可被高效预测。蛋白质序列使用优化的相对分配能量(Optimized relative partition energies)-方法B(Miyazawa-Jernigan,1999Self-consistent estimation of inter-residue protein contactenergies based on an equilibrium mixture approximation of residues.Proteins:Structure,Function,and Bioinformatics,34(1),49-68)编码。

来自EMBL-EBI(http://www.ebi.ac.uk/gxa)的表达图谱提供了关于不同细胞类型、生物体部位、发育阶段、疾病和其它病况的动物和植物样品中的基因和蛋白质表达水平的信息。关于哪些基因产物在“正常”条件(例如组织、细胞类型)下以多少丰度存在的信息，技术人员可参考Petryszak等,2016《Expression Atlas update—an integrateddatabase of gene and protein expression in humans,animals and plants.》,Nucl.Acids Res.(04January 2016)44(D1):D746-D752.doi:10.1093/nar/gkv1045。

实施例9：预测K562细胞系中的mRNA表达水平(图18)

根据本发明的方法还适用于预测K562细胞系中的mRNA表达水平值(Fonseca NA等2014RNA-Seq Gene Profiling-A Systematic Empirical Comparison.PLoS ONE 9(9):e107026.doi:10.1371/journal.pone.0107026)。由于RNA序列与蛋白质序列之间存在共线性，因此使用与每个基因相关的蛋白质序列来建立模型。蛋白质相异在于反映RNA序列和长度的氨基酸组成和长度。在下表16中提供了97种RNA的数据集(序列和蛋白表达水平)。

图18显示使用留一交叉验证(R2：0.81，RMSE：10.3)获得的结果，从而说明根据本发明的方法也适用于通过与RNA相关的蛋白质序列预测mRNA表达水平。

在双态模型中使用基于自我信息值(25％可达性)的亲水量表(Hydropathyscale)编码蛋白质序列(Naderi-Manesh等，2001Prediction of protein surfaceaccessibility with information theory.Proteins:Structure,Function,andBioinformatics,42(4),452-459)。

实施例10：预测心脏细胞中不同蛋白质的蛋白质表达水平(图19)

根据本发明的方法还用于预测心脏细胞中不同蛋白质的蛋白表达水平值。蛋白质相异在于氨基酸组成和长度。下表17提供了85个蛋白质的数据集(序列和蛋白质表达水平)。

图19显示使用留一交叉验证(LOOCV,R2:0.87,RMSE:20.22)获得的结果。在图19中，将值乘以10000。因此，根据本发明的方法也适用于预测心脏细胞中不同蛋白质的蛋白质表达水平值。

使用暴露残基的百分比编码蛋白质序列(Janin等，1978Conformation of aminoacid side-chains in proteins.Journal of molecular biology,125(3),357-386)。

实施例11：预测肾细胞中不同蛋白质的蛋白质表达水平(图20)

在本实施例中，根据本发明的方法还用于预测肾细胞中不同蛋白质的蛋白质表达水平值。蛋白质相异在于氨基酸组成和长度。在下表18中提供了数据集(序列和蛋白质表达水平)。

图20显示对于130个蛋白质序列使用留一交叉验证(LOOCV,R2:0.83,RMSE:1.75)获得的结果。因此，根据本发明的方法也适用于预测蛋白质(特别是对于肾脏细胞中的不同蛋白质)的表达水平值。

使用处于中间的相对偏好值(Richardson-Richardson,1988Amino acidpreferences for specific locations at the ends of alpha helices.Science,240(4859),1648-1652)编码蛋白质序列。

因此，在上述实施例中获得的几个适应度诸如蛋白质表达水平或mRNA表达水平的预测值与测量值之间的R2和RMSE表明，根据本发明的预测系统20和方法允许高效预测不同蛋白质或蛋白质变体的不同适应度值，也适用于预测蛋白质表达水平和mRNA表达水平。

SEQUENCE LISTING

<110> Cadet, Frédéric

<120> 用于预测蛋白质的至少一个适应度值的方法和电子系统、相关计算机程序产品

<130> BET16P0498

<150> EP15305552.0

<151> 2015-04-14

<160> 3

<170> PatentIn version 3.5

<210> 1

<211> 30

<212> PRT

<213> 人工序列

<220>

<223> 合成肽

<400> 1

His Ala Glu Gly Thr Phe Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly

1 5 10 15

Gln Ala Ala Lys Glu Phe Ile Ala Trp Leu Val Lys Gly Arg

20 25 30

<210> 2

<211> 30

<212> PRT

<213> 人工序列

<220>

<223> 合成肽

<400> 2

His Ala Glu Gly Thr Phe Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly

1 5 10 15

Gln Ala Ala Lys Glu Phe Ile Ala Trp Leu Val Lys Ala Arg

20 25 30

<210> 3

<211> 659

<212> PRT

<213> 智人

<400> 3

Met Ala Ala Val Ile Leu Glu Ser Ile Phe Leu Lys Arg Ser Gln Gln

1 5 10 15

Lys Lys Lys Thr Ser Pro Leu Asn Phe Lys Lys Arg Leu Phe Leu Leu

20 25 30

Thr Val His Lys Leu Ser Tyr Tyr Glu Tyr Asp Phe Glu Arg Gly Arg

35 40 45

Arg Gly Ser Lys Lys Gly Ser Ile Asp Val Glu Lys Ile Thr Cys Val

50 55 60

Glu Thr Val Val Pro Glu Lys Asn Pro Pro Pro Glu Arg Gln Ile Pro

65 70 75 80

Arg Arg Gly Glu Glu Ser Ser Glu Met Glu Gln Ile Ser Ile Ile Glu

85 90 95

Arg Phe Pro Tyr Pro Phe Gln Val Val Tyr Asp Glu Gly Pro Leu Tyr

100 105 110

Val Phe Ser Pro Thr Glu Glu Leu Arg Lys Arg Trp Ile His Gln Leu

115 120 125

Lys Asn Val Ile Arg Tyr Asn Ser Asp Leu Val Gln Lys Tyr His Pro

130 135 140

Cys Phe Trp Ile Asp Gly Gln Tyr Leu Cys Cys Ser Gln Thr Ala Lys

145 150 155 160

Asn Ala Met Gly Cys Gln Ile Leu Glu Asn Arg Asn Gly Ser Leu Lys

165 170 175

Pro Gly Ser Ser His Arg Lys Thr Lys Lys Pro Leu Pro Pro Thr Pro

180 185 190

Glu Glu Asp Gln Ile Leu Lys Lys Pro Leu Pro Pro Glu Pro Ala Ala

195 200 205

Ala Pro Val Ser Thr Ser Glu Leu Lys Lys Val Val Ala Leu Tyr Asp

210 215 220

Tyr Met Pro Met Asn Ala Asn Asp Leu Gln Leu Arg Lys Gly Asp Glu

225 230 235 240

Tyr Phe Ile Leu Glu Glu Ser Asn Leu Pro Trp Trp Arg Ala Arg Asp

245 250 255

Lys Asn Gly Gln Glu Gly Tyr Ile Pro Ser Asn Tyr Val Thr Glu Ala

260 265 270

Glu Asp Ser Ile Glu Met Tyr Glu Trp Tyr Ser Lys His Met Thr Arg

275 280 285

Ser Gln Ala Glu Gln Leu Leu Lys Gln Glu Gly Lys Glu Gly Gly Phe

290 295 300

Ile Val Arg Asp Ser Ser Lys Ala Gly Lys Tyr Thr Val Ser Val Phe

305 310 315 320

Ala Lys Ser Thr Gly Asp Pro Gln Gly Val Ile Arg His Tyr Val Val

325 330 335

Cys Ser Thr Pro Gln Ser Gln Tyr Tyr Leu Ala Glu Lys His Leu Phe

340 345 350

Ser Thr Ile Pro Glu Leu Ile Asn Tyr His Gln His Asn Ser Ala Gly

355 360 365

Leu Ile Ser Arg Leu Lys Tyr Pro Val Ser Gln Gln Asn Lys Asn Ala

370 375 380

Pro Ser Thr Ala Gly Leu Gly Tyr Gly Ser Trp Glu Ile Asp Pro Lys

385 390 395 400

Asp Leu Thr Phe Leu Lys Glu Leu Gly Thr Gly Gln Phe Gly Val Val

405 410 415

Lys Tyr Gly Lys Trp Arg Gly Gln Tyr Asp Val Ala Ile Lys Met Ile

420 425 430

Lys Glu Gly Ser Met Ser Glu Asp Glu Phe Ile Glu Glu Ala Lys Val

435 440 445

Met Met Asn Leu Ser His Glu Lys Leu Val Gln Leu Tyr Gly Val Cys

450 455 460

Thr Lys Gln Arg Pro Ile Phe Ile Ile Thr Glu Tyr Met Ala Asn Gly

465 470 475 480

Cys Leu Leu Asn Tyr Leu Arg Glu Met Arg His Arg Phe Gln Thr Gln

485 490 495

Gln Leu Leu Glu Met Cys Lys Asp Val Cys Glu Ala Met Glu Tyr Leu

500 505 510

Glu Ser Lys Gln Phe Leu His Arg Asp Leu Ala Ala Arg Asn Cys Leu

515 520 525

Val Asn Asp Gln Gly Val Val Lys Val Ser Asp Phe Gly Leu Ser Arg

530 535 540

Tyr Val Leu Asp Asp Glu Tyr Thr Ser Ser Val Gly Ser Lys Phe Pro

545 550 555 560

Val Arg Trp Ser Pro Pro Glu Val Leu Met Tyr Ser Lys Phe Ser Ser

565 570 575

Lys Ser Asp Ile Trp Ala Phe Gly Val Leu Met Trp Glu Ile Tyr Ser

580 585 590

Leu Gly Lys Met Pro Tyr Glu Arg Phe Thr Asn Ser Glu Thr Ala Glu

595 600 605

His Ile Ala Gln Gly Leu Arg Leu Tyr Arg Pro His Leu Ala Ser Glu

610 615 620

Lys Val Tyr Thr Ile Met Tyr Ser Cys Trp His Glu Lys Ala Asp Glu

625 630 635 640

Arg Pro Thr Phe Lys Ile Leu Leu Ser Asn Ile Leu Asp Val Met Asp

645 650 655

Glu Glu Ser

Claims

1.一种用于预测蛋白质的至少一个适应度值的方法，所述方法在计算机上执行，并且包括以下步骤：

根据蛋白质数据库(51)将所述蛋白质的氨基酸序列编码(100)成数值序列，所述数值序列包含所述序列中的每个氨基酸的值；

从所述数值序列的傅里叶变换计算(110)蛋白质谱，所述傅里叶变换被应用于编码步骤后获得的数值序列；以及

对于每个适应度：

将计算的蛋白质谱与预定数据库(55)的蛋白质谱值进行比较(130)，所述数据库包含针对所述适应度的不同值的蛋白质谱值，其中比较步骤(130)包括在针对所述适应度的不同值的蛋白质谱值的预定数据库(55)中，根据预定标准确定与计算的蛋白质谱最接近的蛋白质谱值，

根据比较步骤预测(130)所述适应度的值，所述适应度的预测值等于在所述数据库中与所述确定的蛋白质谱值相关联的适应度值，

其中，在所述编码步骤(100)期间，所述蛋白质数据库(51)包括生物化学或物理化学特性值的几个指数，每个特性值被赋予相应的氨基酸，并且对于每个氨基酸，所述数值序列中的值等于给定的指数中所述氨基酸的特性值；以及

其中所述方法还包括以下步骤：

基于样本蛋白质的测量的适应度值与根据每个指数对所述样本蛋白质预先获得的预测的适应度值的比较来选择最佳指数；

然后使用所选择的指数进行所述编码步骤(100)，

其中，在选择步骤期间，所选择的指数是决定系数最接近于1的指数，

其中每个指数的决定系数验证以下方程式：

其中y_i为第i个样本蛋白质的测量的适应度，

为第i个样本蛋白质用第j个指数预测的适应度，

S为样品蛋白的数量，

为所述S样本蛋白质的测量的适应度的平均值，以及

为所述S样本蛋白质的预测的适应度的平均值。

2.根据权利要求1的方法，其中计算的蛋白质谱包括至少一个频率值，并将计算的蛋白质谱与每个频率值的所述蛋白质谱值进行比较。

3.根据权利要求1或2的方法，其中每个蛋白质谱验证以下方程式：

其中j是蛋白质谱|f_j|的指数；

所述数值序列包括指示x_k的N数值，其中0≤k≤N-1且N≥1，k是整数，N是预定整数；以及

i定义虚数，使得i²＝-1。

4.根据权利要求1或2的方法，其中，在所述选择步骤期间，所选择的指数是具有最小均方根误差的指数，

其中每个指数的均方根误差验证以下方程式：

其中y_i为第i个样本蛋白质的测量的适应度，

为第i个样本蛋白质用第j个指数预测的适应度，且

S为样本蛋白质的数量。

5.根据权利要求1或2的方法，其中所述方法还在所述编码步骤之后并且在所述蛋白质谱计算步骤之前包括以下步骤：

通过将所述数值序列的每个值减去所述数值序列值的平均值，对通过所述编码步骤获得的数值序列进行归一化；

然后对所述归一化的数值序列进行蛋白质谱计算步骤。

6.根据权利要求1或2的方法，其中所述方法还在所述编码步骤之后并且在所述蛋白质谱计算步骤之前包括以下步骤：

通过在所述数值序列的一端添加M个零对通过所述编码步骤获得的数值序列进行补零，其中M等于(N-P)，其中N是预定整数，并且P是所述数值序列中的值的数目；

然后对补零步骤后获得的所述数值序列进行所述蛋白质谱计算步骤。

7.根据权利要求1或2的方法，其中，在所述蛋白质谱计算步骤(110)期间，根据几个频率范围计算所述蛋白质的几个蛋白质谱，以及

其中，在预测步骤期间，根据比较步骤估计每个蛋白质谱的适应度的中间值，然后使用中间适应度值来计算所述适应度的预测值。

8.根据权利要求7的方法，其中对所述中间适应度值进行回归计算所述适应度的预测值。

9.根据权利要求1或2的方法，其中所述方法包括以下步骤：

根据所述计算的蛋白质谱的蛋白质分析(140)，用于筛选突变体文库。

10.根据权利要求9的方法，其中所述分析使用多因辨别分析或主成分分析来进行。

11.一种用于预测蛋白质的至少一个适应度值的电子预测系统(20)，所述电子预测系统(20)包括：

编码模块(50)，其被配置用于根据蛋白质数据库(51)将所述蛋白质的氨基酸序列编码成数值序列，所述数值序列包含所述序列中的每个氨基酸的值；

计算模块(52)，其被配置用于从所述数值序列的傅里叶变换计算蛋白质谱，所述傅里叶变换被应用于通过编码模块(50)获得的数值序列；和

预测模块(56)，对于每个适应度，其被配置用于：

将所述计算的蛋白质谱与预定数据库(55)的蛋白质谱值进行比较，所述数据库包含针对所述适应度的不同值的蛋白质谱值，其中比较包括在针对所述适应度的不同值的蛋白质谱值的预定数据库(55)中，根据预定标准确定与计算的蛋白质谱最接近的蛋白质谱值，以及

根据比较预测所述适应度的值，所述适应度的预测值等于在所述数据库中与所述确定的蛋白质谱值相关联的适应度值，

其中，所述蛋白质数据库(51)包括生物化学或物理化学特性值的几个指数，每个特性值被赋予相应的氨基酸，并且对于每个氨基酸，所述数值序列中的值等于给定的指数中所述氨基酸的特性值；以及

其中，编码模块(50)被进一步配置用于基于样本蛋白质的测量的适应度值与根据每个指数针对所述样本蛋白质预先获得的预测的适应度值的比较来选择最佳指数；然后用于使用所选择的指数编码氨基酸序列，

其中每个指数的决定系数验证以下方程式：

其中y_i为第i个样本蛋白质的测量的适应度，

为第i个样本蛋白质用第j个指数预测的适应度，

S为样品蛋白的数量，

为所述S样本蛋白质的测量的适应度的平均值，以及

为所述S样本蛋白质的预测的适应度的平均值。