CN107924429B - 用于预测蛋白质的至少一个适应度值的方法和电子系统 - Google Patents

用于预测蛋白质的至少一个适应度值的方法和电子系统 Download PDF

Info

Publication number
CN107924429B
CN107924429B CN201680027558.6A CN201680027558A CN107924429B CN 107924429 B CN107924429 B CN 107924429B CN 201680027558 A CN201680027558 A CN 201680027558A CN 107924429 B CN107924429 B CN 107924429B
Authority
CN
China
Prior art keywords
protein
fitness
values
value
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680027558.6A
Other languages
English (en)
Other versions
CN107924429A (zh
Inventor
N·冯塔因
F·卡德特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cadet Frederic
Original Assignee
Cadet Frederic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=52875643&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN107924429(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Cadet Frederic filed Critical Cadet Frederic
Priority to CN202210595983.2A priority Critical patent/CN114882947A/zh
Publication of CN107924429A publication Critical patent/CN107924429A/zh
Application granted granted Critical
Publication of CN107924429B publication Critical patent/CN107924429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2/00Peptides of undefined number of amino acids; Derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/10Libraries containing peptides or polypeptides, or derivatives thereof

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Discrete Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)

Abstract

将用于预测蛋白质的至少一个适应度值的方法在计算机上执行,并且所述方法包括以下步骤:根据蛋白质数据库将所述蛋白质的氨基酸序列编码(100)成数值序列,所述数值序列包含序列中每个氨基酸的值;根据数值序列计算(110)蛋白质谱;以及对于每个适应度:将计算的蛋白质谱与预定数据库的蛋白质谱值进行比较(130),所述数据库包含针对所述适应度的不同值的蛋白质谱值,根据比较步骤预测(130)所述适应度的值。

Description

用于预测蛋白质的至少一个适应度值的方法和电子系统
本发明涉及用于预测蛋白质的至少一个适应度值(fitness value)的方法和相关的电子系统,所述蛋白质包含氨基酸序列。本发明还涉及包括软件指令的计算机程序产品,所述程序产品被计算机执行,当被计算机执行时,所述程序产品执行这种方法。
发明背景
蛋白质是由至少一个氨基酸序列链组成的生物分子。蛋白质彼此相异主要在于它们的氨基酸序列,序列之间的差异被称为“突变”。
蛋白质工程的最终目标之一是具有所需性质(统称为“适应度”)的肽、酶、蛋白质或氨基酸序列的设计和构建。用工程化的氨基酸置换、氨基酸的缺失或插入或氨基酸嵌段(嵌合蛋白质)修饰的氨基酸序列(即“突变体”)的构建允许评估任何特定氨基酸在适应度中的作用以及了解蛋白质结构与其适应度之间的关系。
定量结构-功能/适应度关系分析的主要目的是调查和数学地描述蛋白质结构变化对其适应度的影响。突变的影响与不同氨基酸的物理化学和其它分子性质相关,并且可通过统计学分析来逼近。
探索适应度景观,调查n个单点置换的所有可能的组合(排列)是一项非常困难的任务。确实,突变体的数量增加非常快(表1)。
单点突变的数目 突变体的数目
2 4
4 16
6 64
8 256
10 1024
12 4096
14 16384
16 65536
40 1.1x10<sup>12</sup>
表1.针对n个突变的可能的突变体数目
探索所有可能的突变体在实验上是困难的,特别是当n增加时。在实践中,在湿实验室中用单点置换产生突变体是相当容易和便宜的。对于它们中的每一个来说,适应度都可以很容易地表征。
但在湿实验室中组合单点置换并不容易。产生被靶向的n个单点置换的所有可能的(2n)组合可以是非常荷求和昂贵的。大规模评估适应度是有问题的。
已经开发了混合的体外和电脑模拟方法来帮助蛋白质的定向进化过程。它们需要从湿实验室(通过定点、随机或组合诱变)构建突变体文库,以从文库中检索有限数量样本的序列和/或结构(称为“学习数据集”)并评估每个取样突变体的适应度。它们还要求从电脑模拟提取每个突变体的描述符,以使用多变量统计方法来建立描述符和适应度(学习阶段)之间的关系,并建立模型来对未经实验测试的突变体进行预测。
已经提出了基于3D结构的称为定量结构-功能关系(QFSR)的方法(Damborsky J,Prot.Eng.(1998)Jan;11(1):21-30)。提出了仅基于序列而不基于3D结构并使用统计建模进行电脑模拟合理筛选的其它方法(Fox R.等,Protein Eng.(2003)16(8):589-97;FoxR.,Journal of Theoretical Biology(2005),234:187–199;Minshull J.等,Curr OpinChem Biol.2005Apr;9(2):202-9;Fox R.等,Nature Biotechnology(2007),25(3):338-344;Fox R.and Huisman GW Trends Biotechnol.2008Mar;26(3):132-8)。最著名的是ProSAR(Fox R.,Journal of Theoretical Biology(2005),234:187–199;Fox R.等,Nature Biotechnology(2007),25(3):338-344),其基于二进制编码(0或1)。
QSFR方法是有效的,并且考虑到与非变体残基可能相互作用的信息。然而,QSFR需要目前仍然有限的关于3D蛋白质结构的信息,并且该方法还慢。
相比之下,ProSAR不需要知道3D结构,因为它仅基于一级序列计算,并且可以使用线性和非线性模型。然而,ProSAR仍然有缺点,且其筛选能力有限。特别地,只有那些正在变化的残基被包括在建模中,因此,缺少关于突变残基和其他非变体残基之间可能的相互作用的信息。ProSAR依赖于不考虑氨基酸的物理化学或其他分子性质的突变的二进制编码(0或1)。另外,(i)可以测试的新序列只是在用于构建模型的学习集中使用的位置上具有突变或突变组合的序列;(ii)待筛选的新序列中突变的位置数目不能与训练集中的突变数目不同;和(iii)当在超级计算机上引入非线性项以建立模型时计算时间是非常长的(对于100个非线性项,直至2周)。
因此,仍然需要通用且快速的电脑模拟方法来帮助蛋白质定向进化过程。本发明提供了满足这些要求并且基于数字信号处理(DSP)的方法。
数字信号处理技术是分解和处理信号以揭示其中内含的信息的分析程序。信号可能是连续的(无休止的),或离散的诸如蛋白质残基。在蛋白质中,傅里叶变换方法已被用于生物序列(DNA和蛋白质)比较,蛋白质家族的表征和模式识别、分类和其它基于结构的研究(诸如对称性和重复结构单元或模式的分析,二级/三级结构的预测,疏水核心、基序、保守结构域的预测,膜蛋白的预测,保守区域的预测,蛋白质亚细胞定位的预测),用于氨基酸序列中二级结构含量的研究和用于蛋白质中的周期性的检测。最近提出了用于检测蛋白质结构中螺线管结构域的新方法。
数字信号处理技术帮助了蛋白质相互作用的分析(Cosic I.,IEEE Trans BiomedEng.(1994)41(12):1101-14),并使生物学功能性可计算。这些研究已在Nwankwo N.和Seker H.(J Proteomics Bioinform(2011)4(12):260-268)中进行了详细的综述。
在这些方法中,首先使用来自数据库AAindex(Kawashima,S.和Kanehisa,M.Nucleic Acids Res.(2000),28(1):374;Kawashima,S等人,Nucleic Acids Res.Jan2008;36)的可用AAindex之一将蛋白质残基转化成数值序列,该数值序列代表每个氨基酸的生物化学性质或物理化学参数。然后通过离散傅立叶变换(DFT)处理这些数值序列,以信息谱的形式呈现蛋白质的生物学特征。该程序称为信息频谱法(ISM)(Veljkovic V.等,IEEE Trans Biomed Eng.1985May;32(5):337-41)。ISM程序已被用于研究钙结合蛋白(Viari A.等,Comput Appl Biosci.1990Apr;6(2):71-80)和流感病毒(Veljkovic V.,等BMC Struct Biol.2009Apr 7;9:21,Veljkovic V.等BMC Struct Biol.2009Sep 28;9:62)中的主要排列(principal arrangement)。
采用称为电子-离子相互作用电位(EIIP)的氨基酸参数的ISM的变体被称为共振识别模型(RRM)。在该程序中,生物功能性被呈现为频谱特征。这种物理数学过程基于以下事实:具有相同生物学特性的生物分子在其价电子振荡并随后在电磁场中反射(reverberate)时识别它们自己并生物关联于(bio-attach)它们自己(Cosic I.,IEEETrans Biomed Eng.(1994)41(12):1101-14;Cosic I.,The Resonant Recognition Modelof Macromolecular Bioactivity Birkhauser Verlag,1997)。
共振识别模型涉及四个步骤(参见Nwankwo N.和Seker H.,JProteomicsBioinform(2011)4(12):260-268):
-步骤1:将蛋白质残基转化成电子-离子相互作用电位(EIIP)参数的数值。
-步骤2:补零/上采样。该过程使用补零来在任何位置上填充待分析的蛋白质的序列中的缺口,因为信号处理要求所有蛋白质的窗口长度相同。
-步骤3:使用快速傅里叶变换(FFT)处理数值序列以产生频谱特征(SC),并在步骤4中将其逐点相乘以产生交叉频谱(CS)特征。
-步骤4:交叉频谱分析:交叉频谱(CS)分析表示频谱特征(SC)的逐点乘法。
因此,所述CS分析已经被定性地用于基于配体与受体频谱之间的共同频率(共振)来预测例如配体-受体结合。另一个实例是通过将RRM应用于Ha-ras p21蛋白质序列来预测ras样活性存在与否,即转化细胞的能力存在与否。
这些现有技术方法提供的信息是有用的,但又不足以鉴定通过定向进化产生的最有价值的蛋白质突变体。
发明概述
因此,本发明涉及用于预测蛋白质的至少一个适应度值的方法,该方法在计算机上执行,并且包括以下步骤:
-根据蛋白质数据库将蛋白质的氨基酸序列编码成数值序列,数值序列包含序列中每个氨基酸的值;
-根据数值序列计算蛋白质谱;和
对于每个适应度:
-将计算的蛋白质谱与预定数据库的蛋白质谱值进行比较,所述数据库包含针对所述适应度的不同值的蛋白质谱值,
-根据比较步骤预测所述适应度的值。
因此,本发明人开发的方法涉及对蛋白质谱的定量分析,这使得可能预测蛋白质的适应度值,而且还可能预测给定活性的存在与否。
根据本发明的其它有利方面,该方法包括单独地或根据所有技术上可能的组合采用的以下特征中的一个或多个特征:
-计算的蛋白质谱包括至少一个频率值,并将计算的蛋白质谱就每个频率值与所述蛋白质谱值进行比较;
-在蛋白质谱计算步骤期间,将傅里叶变换(诸如快速傅里叶变换)应用于编码步骤后获得的数值序列;
-每个蛋白质谱验证以下方程式:
Figure GDA0003813925970000051
其中j为蛋白质谱|fj|的指数(index-number);
数值序列包括指示xk的N数值,其中0≤k≤N-1且N≥1;以及
i定义虚数,使i2=-1;
-在编码步骤期间,蛋白质数据库包括生物化学或物理化学特性值的至少一个指数,每个特性值被赋予相应的氨基酸;并且对于每个氨基酸,数值序列中的值等于给定的指数中所述氨基酸的特性值;
-在编码步骤期间,蛋白质数据库包括特性值的几个指数;并且所述方法还包括基于样本蛋白质的测量的适应度值与根据每个指标对所述样本蛋白质预先获得的预测的适应度值的比较来选择最佳指标的步骤;然后使用所选择的指数进行编码步骤;
-在选择步骤期间,所选择的指数是具有最小均方根误差的指数,其中每个指数的均方根误差验证以下方程式:
Figure GDA0003813925970000061
其中yi为第i个样本蛋白质的测量的适应度,
Figure GDA0003813925970000062
为第i个样本蛋白质用第j个指数预测的适应度,以及
S为样本蛋白质的数量;
-在选择步骤期间,所选择的指数是决定系数最接近1的指数,其中每个指数的决定系数验证以下方程式:
Figure GDA0003813925970000063
其中yi为第i个样本蛋白质的测量的适应度,
Figure GDA0003813925970000064
为第i个样本蛋白质用第j个指数预测的适应度,
S为样本蛋白质的数量,
Figure GDA0003813925970000065
为S样本蛋白质的测量的适应度的平均值,
以及
Figure GDA0003813925970000066
为S样本蛋白质的预测的适应度的平均值;
-该方法还在编码步骤之后并且在蛋白质谱计算步骤之前包括以下步骤:
+通过将数值序列的每个值减去数值序列值的平均值对通过编码步骤获得的数值序列进行归一化;
然后对归一化的数值序列进行蛋白质谱计算步骤;
-该方法还在编码步骤之后并且在蛋白质谱计算步骤之前包括以下步骤:
+通过在所述数值序列的一端添加M个零对通过编码步骤获得的数值序列进行补零,其中M等于(N-P),其中N是预定整数,P是所述数值序列中的值的数目;
然后对补零步骤后获得的数值序列进行蛋白质谱计算步骤;
-比较步骤包括在针对所述适应度的不同值的蛋白质谱值的预定数据库中,根据预定标准确定与计算的蛋白质谱最接近的蛋白质谱值,所述适应度的预测值则等于在所述数据库中与确定的蛋白质谱值相关联的适应度值;
-在蛋白质谱计算步骤期间,根据几个频率范围计算所述蛋白质的几个蛋白质谱,且
其中,在预测步骤期间,根据比较步骤针对每个蛋白质谱估计适应度的中间值,然后使用中间适应度值来计算适应度的预测值,
优选利用对中间适应度值进行回归,诸如偏最小二乘回归来计算;以及
该方法包括以下步骤:
-根据计算的蛋白质谱分析蛋白质,以筛选突变体文库,
该分析优选使用多因辨别分析(factorial discriminant analysis)或主成分分析进行。
本发明还涉及包括软件指令的计算机程序产品,当所述指令通过计算机执行时,执行如上定义的方法。
本发明还涉及用于预测蛋白质的至少一个适应度值的电子预测系统,该预测系统包括:
-编码模块,其被配置用于根据蛋白质数据库将氨基酸序列编码为数值序列,所述数值序列包含序列中每个氨基酸的值;
-计算模块,其被配置用于根据所述数值序列计算蛋白质谱;和
-预测模块,对于每个适应度,其被配置用于:
+将计算的蛋白质谱与预定数据库的蛋白质谱值进行比较,所述数据库包含针对所述适应度的不同值的蛋白质谱值,以及
+根据所述比较预测所述适应度的值。
附图简述
在阅读以下仅通过实例并参照附图给出的描述后,本发明将被更好地理解,其中:
-图1是用于预测蛋白质的至少一个适应度值的电子预测系统的示意图,该预测系统包括被配置用于将氨基酸序列编码为数值序列的编码模块,被配置用于根据数值序列计算蛋白质谱的计算模块;以及被配置用于预测每个适应度的至少一个值的预测模块;
-图2是根据本发明的用于预测蛋白质的至少一个适应度值的方法的示意性流程图;
-图3表示针对人GLP1蛋白的天然和突变形式获得的蛋白质谱的曲线;
-图4是说明细胞色素P450家族的一组蛋白的热稳定性的预测值和测定值的一组点,每个点与相应的蛋白质相关,其中纵坐标对应于预测值,横坐标对应于测量值,使用蛋白质谱中包括的所有频率;
-图5和图6是分别针对来自细胞色素P450家族的蛋白质组的训练和验证子集获得的类似图4的图示,训练子集用于计算包含针对热稳定性的不同值的蛋白质谱值的数据库,验证子集与训练子集不同,并用于测试与相应测量值相比较的预测值的相关性;
-图7是关于一组GLP1突变体的结合亲和力的预测值和测量值的类似于图4的图示;
-图8是关于一组GLP1突变体的效力的预测值和测量值的类似于图4的图示;
-图9和图10是关于分别针对一组肠毒素SEE和SEA的训练和验证子集获得的热稳定性的预测值和测量值的类似于图4的图示,训练子集用于计算含有针对所述热稳定性的不同值的蛋白质谱值的数据库,所述验证子集与训练子集不同,并用于测试预测值的相关性;
-图11和12是关于分别针对一组TNF突变体的训练和验证子集获得的结合亲和力的预测值和测量值的类似于图4的图示,训练子集用于计算含有针对所述结合亲和力的不同值的蛋白质谱值的数据库,所述验证子集与所述训练子集不同,并用于测试所述预测值的相关性;
-图13是使用来自蛋白质谱的频率值的选择的类似于图4的图示;
-图14是关于一组环氧化物水解酶家族的蛋白的对映选择性的预测值和测量值的类似于图4的图示;
-图15表示512个环氧化物水解酶突变体的文库的筛选;
-图16表示使用多变量分析(主成分分析)进行蛋白质筛选来进行的10个环氧化物水解酶突变体的蛋白质谱的分类。
-图17是关于布鲁顿酪氨酸激酶变体的蛋白质表达水平的预测值和测量值的类似于图4的图示;
-图18是关于K562细胞系中RNA的mRNA表达水平的预测值和测量值的类似于图4的图示;
-图19是关于心脏细胞中蛋白质的蛋白质表达水平的预测值和测量值的类似于图4的图示;和
-图20是关于肾细胞中蛋白质的蛋白质表达水平的预测值和测量值的类似于图4的图示。
优选实施方案的详述
如本文中所用,“蛋白质”意指通过肽键连接在一起的至少2个氨基酸。术语“蛋白质”包括蛋白质、寡肽、多肽和肽。肽基可包含天然存在的氨基酸和肽键,或合成的拟肽结构,即“类似物”,诸如类肽。氨基酸可以是天然存在的或非天然存在的。在优选实施方案中,蛋白质包含至少10个氨基酸,但较少的氨基酸也可处理。
蛋白质的“适应度”是指其对标准诸如催化效力,催化活性,动力学常数,Km,Keq,结合亲和力,热稳定性,溶解度,聚集,效力,毒性,变应原性,免疫原性,热力学稳定性,柔性的适应,根据本发明,“适应度”也称为“活性”,并且在下面的描述中认为适应度和活性是指相同的特征。
催化效力通常以s-1.M-1表示,是指kcat/Km的比率。
催化活性通常以mol.s-1表示,是指酶催化中的酶活性水平。
动力学常数kcat通常以s-1表示,是指定量反应速度的数值参数。
Km通常以M表示,是指反应速度为其最大值的一半时的底物浓度。
Keq通常以(M、M-1或无单位)表示,为表示化学反应中的化学平衡的量,
结合亲和力通常以M表示,是指一种或多种蛋白质与配体(肽或小化学分子)之间的相互作用的强度。
热稳定性通常以℃表示,通常是指测量的活性T50,其定义为在10分钟的孵育时间后50%的蛋白质被不可逆变性时的温度。
溶解度通常以mol/L表示,是指在溶液变饱和之前每升溶液可溶解的物质(溶质)的摩尔数。
聚集通常使用聚合指数(来自280nm和340nm处的简单吸收测量)来表示,并且是指其中错误折叠的蛋白质在细胞内或细胞外聚集(即,堆集和簇集在一起)的生物学现象。
效力通常以M表示,是指以产生给定强度的效果所需的量表示的药物活性的量度。
毒性通常以M表示,是指物质(毒素或毒药)可对人或动物造成伤害的程度。
变应原性通常以生物等效变态反应单位/mL(BAU/mL)表示,是指抗原性物质产生立即超敏反应(变态反应)的能力。
免疫原性通常表示为样品中抗体量的单位,是指特定物质(诸如抗原或表位)在人或动物体内引发免疫应答的能力
稳定性通常表示为ΔΔG(kcal/mol-1),是指蛋白质的快速、可逆和协同地解折叠和重折叠的热力学稳定性。
柔性通常以A°表示,是指蛋白质紊乱和构象变化。
在图1中,用于预测蛋白质的至少一个适应度值的电子预测系统20包括数据处理单元30、显示屏32和用于将数据输入数据处理单元30的输入装置34。
数据处理单元30由例如存储器40和与存储器40联接的处理器42组成。
显示屏32和输入装置34本身是已知的。
存储器40适用于存储编码计算机程序50(其被配置用于根据蛋白质数据库51将氨基酸序列编码为数值序列)和计算计算机程序52(其被配置用于根据数值序列计算下文所示的蛋白质谱|fj|,其中j为蛋白质谱的指数号)。
存储器40还适用于存储建模计算机程序54,所述程序54被配置用于预先确定包含针对所述适应度的不同值的蛋白质谱值的蛋白质谱数据库55。
存储器40适用于存储预测计算机程序56,所述程序56被配置用于对于每个适应度,将计算的蛋白质谱与所述预定数据库的蛋白质谱值进行比较,以及用于根据所述比较预测所述适应度的值;以及任选地进一步用于筛选突变体文库。
可选地,存储器40适用于存储筛选计算机程序58,所述程序58被配置用于根据计算的蛋白质谱分析蛋白质,从而筛选突变体文库,该分析优选是多因辨别分析或主成分分析。
处理器42被配置用于执行编码、计算、建模、预测和筛选计算机程序50、52、54、56、58中的每一个。编码、计算、建模、预测和筛选计算机程序50、52、54、56、58,当由处理器42来执行它们时,分别形成用于根据蛋白质数据库将氨基酸序列编码成数值序列的编码模块;用于根据数值序列计算蛋白质谱的计算模块;用于预先确定含有蛋白质谱值的数据库的建模模块;用于将计算的蛋白质谱与所述预定数据库的蛋白质谱值进行比较,并根据所述比较预测所述适应度的值以及进行筛选的预测模块;以及用于根据计算的蛋白质谱分析蛋白质的筛选模块。
或者,编码模块50、计算模块52、建模模块54、预测模块56和筛选模块58以可编程逻辑组件的形式,或以专用集成电路的形式存在。
编码模块50适用于根据蛋白质数据库51将氨基酸序列编码成数值序列,数值序列包含序列的每个氨基酸的值xk。数值序列由P值xk构成,其中0≤k≤P-1,P≥1,k和P为整数。
将蛋白质数据库51例如存储在存储器40中。或者,将蛋白质数据库51存储在与存储器40不同的远程存储器(未显示的)中。
蛋白质数据库51优选为氨基酸指数数据库,也称为AAIndex。氨基酸指数数据库可从http://www.genome.jp/dbget-bin/www_bfind?aaindex(发布版9.1,8月6日)获得。
蛋白质数据库51包括生物化学或物理化学特性值的至少一个指数,每个特性值被赋予相应的氨基酸。蛋白质数据库51优选地包括生物化学或物理化学特性值的几个指数。每个指数对应于例如AAindex代码,如以下将根据各个实例所示的。用于编码氨基酸序列的选择的AAindex代码是例如:扩展结构的D归一化频率、D电子-离子相互作用电位值、总蛋白质的AA组成的D SD、来自IFH量表(scale)的D pK-C或D权重。
为了编码氨基酸序列,则使编码模块50适用于确定每个氨基酸在给定的指数中所述氨基酸的特性值,数值序列中的每个编码值xk则等于相应的特性值。
另外,以任选的方式,当蛋白质数据库51包括特性值的几个指数时;编码模块50被进一步配置用于基于样本蛋白质的测量的适应度值与先前根据每个指数针对所述样本蛋白质获得的预测的适应度值的比较,选择最佳指标;然后用于使用所选择的指数编码氨基酸序列。
所选择的指数是例如具有最小均方根误差的指数,其中每个指数的均方根误差验证以下方程式:
Figure GDA0003813925970000121
其中yi是第i个样本蛋白质的测量的适应度,
Figure GDA0003813925970000122
是第i个样本蛋白质用第j个指数预测的适应度
S样品蛋白质的数量。
或者,所选择的指数是具有最接近于1的决定系数的指数,其中每个指数的决定系数验证以下方程式:
Figure GDA0003813925970000131
其中yi第i个样本蛋白质的测量的适应度,
Figure GDA0003813925970000132
是第i个样本蛋白质用第j个指数预测的适应度,
S是样品蛋白的数量,
Figure GDA0003813925970000133
是S样本蛋白质的测量的适应度的平均值,以及
Figure GDA0003813925970000134
是S样本蛋白质的预测的适应度的平均值。
另外,以任选的方式,编码模块50被进一步配置用于对所获得的数值序列进行归一化,例如通过将数值序列的每个值xk减去数值序列值的平均值
Figure GDA0003813925970000135
换句话说,表示为
Figure GDA00038139259700001311
的每个归一化值验证以下方程式:
Figure GDA0003813925970000136
平均值
Figure GDA0003813925970000137
为例如算术平均值并且满足:
Figure GDA0003813925970000138
或者,平均值
Figure GDA0003813925970000139
是几何平均值、调和平均值或均方平均值。
另外,以任选的方式,编码模块50被进一步配置用于通过在所述数值序列的一端添加M个零来对所获得的数值序列进行补零,其中M等于(N-P),其中N是预定整数并且P是所述数值序列中的值的初始数量。因此,N是补零后的数值序列中的值的总数。
计算模块52被配置用于根据数值序列计算蛋白质谱。计算的蛋白质谱包括至少一个频率值。
计算模块52被配置用于计算蛋白质谱|fj|,优选地通过对所获得的数值序列应用傅里叶变换,诸如快速傅里叶变换。
每个蛋白质谱|fj|因此验证例如以下方程:
Figure GDA00038139259700001310
其中j是蛋白质谱|fj|的指数指数号;以及
i定义虚数,使得i2=-1。
另外,当通过编码模块50对数值序列进行归一化时,计算模块52被进一步配置用于对归一化的数值序列进行蛋白质谱计算。
换句话说,在该情况下,每个蛋白质谱|fj|因此验证例如以下方程式:
Figure GDA0003813925970000141
另外,当通过编码模块50对数值序列进行补零时,计算模块52被进一步配置用于对进一步获得以用于补零的数值序列计算蛋白质谱|fj|。
换句话说,在该情况下,每个蛋白质谱|fj|因此验证例如以下方程式:
Figure GDA0003813925970000142
另外,当通过编码模块50对数值序列进行归一化和补零时,计算模块52被进一步配置用于对进一步获得以用于补零的归一化数值序列计算蛋白质谱|fj|。
换句话说,在该情况下,每个蛋白质谱|fj|因此验证例如以下方程式:
Figure GDA0003813925970000143
建模模块54适用于根据从编码模块50下发的学习数据和从计算模块52下发的学习蛋白质谱,预先确定蛋白质谱数据库55(也称为模型)。学习蛋白质谱对应于学习数据并且学习数据各自与给定的适应度相关,并且优选地针对所述适应度的不同值。
蛋白质谱数据库55包含针对每个适应度的不同值的蛋白质谱值。优选地,使用至少10个蛋白质谱和10个不同的适应度来构建蛋白质谱数据库55。当然,蛋白质谱数量和相关蛋白质适应度越高;在适应度预测方面的结果越好。在下面的实例中,用作学习数据的蛋白质谱和适应度的数量范围为8至242个(242个蛋白质谱和242个蛋白质适应度;8个蛋白质谱和8个蛋白质适应度)。
对于每个适应度,预测模块56适用于将计算的蛋白质谱与蛋白质谱数据库55的蛋白质谱值进行比较,并根据所述比较来预测所述适应度的值。
预测模块56被进一步配置用于在蛋白质谱数据库55中根据预定标准确定最接近计算的蛋白质谱的蛋白质谱值,然后所述适应度的预测值等于在蛋白质谱数据库55中与所确定的蛋白质谱值相关联的适应度值。
预定标准是例如计算的蛋白质谱与蛋白质谱数据库55中包含的蛋白质频谱值之间的最小差异。或者,预定标准是计算的蛋白质谱与蛋白质谱数据库55中包含的蛋白质谱值之间的相关系数R或决定系数R2。
当蛋白质谱|fj|包含几个频率值时,对于每个频率值将计算的蛋白质谱|fj|与蛋白质谱值进行比较。
或者,仅将一些频率值考虑用于计算的蛋白质谱|fj|与所述蛋白质谱值的比较。在该情况下,例如根据频率值与适应度的相关性来对频率值进行排序,并且仅将最佳频率值考虑用于计算的蛋白质谱的比较。
另外,以任选的方式,预测模块56被进一步配置用于在根据几个频率范围计算所述蛋白质的几个蛋白质谱时估计每个蛋白质谱的适应度的中间值。
然后,预测模块56被进一步配置用于通过对所述中间适应度值进行回归(诸如偏最小二乘回归,也称为PLSR的)来计算适应度的预测值。
或者,预测模块56被配置用于使用人工神经网络(ANN)来计算适应度的预测值,其中输入变量是所述中间适应度值,输出变量是适应度的预测值。
另外,以任选的方式,预测模块56允许获得突变体文库的筛选,因为将在下面在图15的图示中以对映选择性作为适应度来描述其。
另外,以任选的方式,筛选模块58适用于根据计算的蛋白质谱分析蛋白质,以及使用数学处理(诸如多因辨别分析(factorial discriminant analysis)或主成分分析,然后例如进行k-means)根据其各自的蛋白质谱对蛋白质序列进行分类。例如,可以进行分类,以确定在蛋白质谱家族中是否存在不同的组:具有高、中和低适应度的组;作为例子,具有适应度的表达的组和没有适应度的表达的组。在下文中,将根据图16进一步说明该筛选。
现在将参照图2描述根据本发明的电子预测系统20的操作,所述图2表示用于预测蛋白质的至少一个适应度值的方法的流程图。
在初始步骤100中,编码模块50根据蛋白质数据库51将蛋白质的氨基酸序列编码成数值序列。
编码步骤100可使用氨基酸指数数据库(也称为AAIndex)来进行。
在编码步骤100期间,编码模块50针对每个氨基酸确定给定的指数中(例如在给定的AAindex代码中)的所述氨基酸的特性值,然后下发等于所述特性值的编码值xk
另外,当蛋白质数据库51任选地包括几个特性值的指数时;编码模块50还基于样本蛋白质的测量的适应度值与先前根据每个指数针对所述样本蛋白质获得的预测的适应度值的比较,选择最佳指数;然后使用所选择的指数编码氨基酸序列。
例如,使用方程式(1)或方程式(2)选择最佳指数。
此外,编码模块50任选择地对所获得的数值序列进行归一化,例如通过根据方程式(3)将数值序列的每个值xk减去数值序列值的平均值
Figure GDA0003813925970000161
另外,编码模块50任选地通过在所述数值序列的一端添加M个零来对所获得的数值序列进行补零。
在编码步骤100结束时,编码模块50将学习数值序列和验证数值序列传送至计算模块52,并将学习数据传送至建模模块54。
两个蛋白质频谱的实例示于图3中,第一曲线102表示人GLP1蛋白的天然形式的蛋白质谱,第二曲线104表示人GLP1蛋白的突变形式(单突变)的蛋白质谱。对于每个曲线102、104,蛋白质谱的连续离散值彼此相连。
在下一步骤110中,计算模块52计算从编码模块50下发的每个数值序列的蛋白质谱|fj|。对应于学习数值序列的蛋白质谱也称为学习谱,对应于验证数值序列的蛋白质谱也称为验证谱。步骤110也称为谱变换步骤。蛋白质谱|fj|优选地通过使用傅立叶变换诸如快速傅立叶变换,例如取决于任选的归一化和/或补零,根据方程式(5)至(8)中的方程式来计算。
然后,建模模块54在步骤120中根据在编码步骤100期间获得的学习数据和在谱变换步骤110期间获得的学习蛋白质谱,确定蛋白质谱数据库55。
在步骤130中,对于每个适应度,预测模块56将计算的蛋白质谱与从蛋白质谱数据库55中下发的蛋白质谱值进行比较,然后根据所述比较预测的适应度值。
更精确地,预测模块56在蛋白质谱数据库55中根据预定标准确定最接近计算的蛋白质谱的蛋白质谱值,然后预测的适应度值等于与蛋白质谱数据库55中确定的蛋白质谱值相关联的适应度值。
任选地,只将一些频率值考虑用于计算的蛋白质谱|fj|与所述蛋白质谱值的比较。
另外,当根据几个频率范围任选地计算所述蛋白质的几个蛋白质谱时,预测模块56估计每个蛋白质谱的中间适应度值。然后,预测模块56通过对所述中间适应度值进行回归(诸如PLSR)来计算预测的适应度值。或者,人工神经网络(ANN)被预测模块56用于基于所述中间适应度值计算适应度的预测值。然后,预测模块56允许通过根据预测的适应度对蛋白质谱进行分级来进行蛋白质筛选。
最后和任选地,筛选模块58在步骤140中使用数学处理(诸如多因辨别分析或主成分分析)根据其各自的蛋白质谱对蛋白质序列进行分析、分类。
或者,例如通过与预定值进行比较,直接对计算的蛋白质谱进行分析以筛选突变体文库。
因此,其允许获得更好的突变体文库筛选。此步骤也称为多变量分析步骤。
应当注意,分析步骤140紧接谱变换步骤120,并且另外可在分析步骤140之后执行预测步骤130,以用于预测一些或所有分类的蛋白质的适应度值。
将潜在分量计算为原始变量的线性组合计算;选择潜在分量的数量以使RMSE(均方根误差)最小化。将潜在分量计算为原始变量(频率值)的线性组合;通过逐个添加分量来选择潜在分量的数量以最小化RMSE(均方根误差)。
实施例
将根据以下实施例来进一步说明本发明。
实施例1:细胞色素P450(图4至6)
在本实施例中,使用以下AAindex代码将细胞色素P450的氨基酸序列编码成数值序列:扩展结构的D归一化频率(Maxfield和Scheraga,Biochemistry.1976;15(23):5138-53)。
第一数据集(来自Li等人,2007:Nat Biotechnol 25(9):1051–1056.;Romero等,PNAS.2013:January 15,第11卷,n°3:E193-E201)来自围绕细胞色素P450家族,特别是细胞色素P450 BM3 A1、A2和A3的序列/稳定性-功能关系的研究,该研究旨在提高细胞色素的热稳定性。含有血红素的氧化还原酶的多功能细胞色素P450家族羟化广泛的底物,以产生具有重大医学和工业重要性的产品。利用从这三种不同亲本中的任一亲本继承的八个连续片段构建新的嵌合蛋白。测量的活性是T50,其被定义为在10分钟的孵育时间后50%的蛋白质被不可逆地变性时的温度。输出数据集(out-coming dataset)由242个变体序列组成,其中T50实验值范围为39.2至64.48℃。CYP102A1及其同源物CYP102A2(A2)和CYP102A3(A3)的血红素结构域的重组允许产生由八个片段组成的242个嵌合P450序列,每个片段选自三个亲本之一。根据片段组成书写嵌合体:例如,23121321代表继承亲本A2的第一片段、A3的第二片段、A1的第三个片段(依此类推)的蛋白质。
Figure GDA0003813925970000181
Figure GDA0003813925970000191
Figure GDA0003813925970000201
表2:CYTP450学习集
图4显示使用留一交叉验证(LOOCV)R2=0.96和RMSE=1.21对蛋白质序列的整个集合进行模型之后获得的结果。这表明可以使用这种方法捕获与蛋白质的适应度相关的信息。
嵌合体 T50 嵌合体 T50 嵌合体 T50
11332212 47.8 31313232 51.9 22213223 50.8
32332231 49.4 23332221 46.4 21331332 52
23313111 56.9 22111332 50.9 11313333 53.8
23333311 45.7 22332222 50.3 32311323 52
31331331 47.3 21131121 53 23132311 44.5
21231233 50.6 21232232 49.5 21333211 55.9
21112122 50.3 31212232 51 32312333 57.8
22113211 51.1 23213211 47.4 22312332 59.1
23333233 51 32232131 43.9 22312333 63.5
13333211 45.7 22133212 47.2 12322333 47.9
23213311 49.5 21313311 56.9 21312231 62.8
32332323 48.5 21332231 60 22311333 60.1
22213212 50.5 21113312 53 21311231 63.2
22132212 46.6 22312223 56.2 21312211 59.3
21111333 62.4 22232121 49.7 22212333 58.2
32113232 47.9 31332233 49.9
表3:CYTP450测试组
图5和图6给出了模型预测细胞色素P450的突变的组合的能力。此处,数据集被在196个序列中被分为学习序列,在46个序列中被分为验证序列。
实施例2:人胰高血糖素样肽-1(GLP1)预测的类似物(图7和8)
在本实施例中,使用以下AAindex代码将GLP1的氨基酸序列编码为数值序列:D电子-离子相互作用电位值(Cosic,IEEE Trans Biomed Eng.1994Dec;41(12):1101-14.)。
他司鲁肽和Extendin-4是GLP1类似物,其作为胰高血糖素样肽(GLP)受体的肽激动剂,并且正处于下用于治疗II型糖尿病的临床开发(他司鲁肽)中。
人GLP1 HAEGTFTSDVSSYLEGQAAKEFIAWLVKGR(SEQ ID NO:1)
他司鲁肽 HAEGTFTSDVSSYLEGQAAKEFIAWLVKAR(SEQ ID NO:2)
已实施本发明的方法以提供相对于天然人GLP1和他司鲁肽提高结合亲和力(与受体的相互作用)和/或提高效力(受体-腺苷酸环化酶活性的激活)的GLP1受体的候选激动剂。
已经始于人GLP1的序列,通过进行单点位点饱和诱变:用19个其它天然氨基酸置换氨基酸序列的每个位置来通过电脑模拟设计突变体文库。因此,如果蛋白质序列由n=30个氨基酸组成,则生成的文库将由30×19=570个单点变体组成。已经运行单点突变的组合。
Adelhorst K等(J Biol Chem.1994Mar 4;269(9):6275-8)先前描述了通过Ala扫描(即通过用L-丙氨酸连续替换每个氨基酸以鉴定与GLP-1受体相互作用所需的侧链官能团)制备的一系列GLP-1类似物。在L-丙氨酸是亲本氨基酸的情况下,已用在胰高血糖素相应位置上发现的氨基酸进行了置换。已在针对大鼠GLP-1受体的结合测定(IC50)中测定了这些类似物,并已进一步监测了效力(通过检测腺苷酸环化酶活性EC50测量的受体激活)。将这些类似物(30个单突变体)及其报告的活性(分别与野生型人GLP1的IC50或EC50相比标准化的Log(IC50)和Log(EC50))用作学习数据集来建立预测模型(参见图7和图8)。
Figure GDA0003813925970000211
Figure GDA0003813925970000221
表4:GLP1学习集
测试肽 logIC50
GLP1 T5A 0.54407
GLP1 L14A 0.23045
GLP1 Q17A 0.04139
GLP1 F22A 2.54531
表5:GLP1测试序列(结合)
测试肽 logEC50
GLP1 V10A 0.8451
GLP1 F22A 3.41497
GLP1 V27A 0.30103
野生型GLP1 0.41497
表6:GLP1测试序列(效力)
对于结合亲和力,它们的活性范围为-0.62至2.55(logIC50),对于效力,它们的活性范围为-0.30至4.00(logEC50)。
结果表明,对于结合亲和力(图7),R2和RMSE分别为0.93和0.19,对于效力(图8)分别为0.94和0.28,因此表明可以以非常有效的方式捕获与两个适应度相关的信息。
针对人GLP1、他司鲁肽和最佳电脑模拟的类似物(基于预测模型)评估的结合和效力如表7所示:
结合(IC50)nM 竞争力(EC50)nM
人GLP1 0.27 2.6
他司鲁肽 0.79 0.39
最佳电脑模拟的类似物 0.002 0.021
表7:对人GLP1和类似物评估的结合和效力
对于GLP1的肽配体类似物对其受体的结合亲和力实现了135倍的提高。获得124倍的效力提高。
这说明本发明的方法可以用于同时提高多个参数。
实施例3:环氧化物水解酶的对映选择性的演化(图14和15)
在本实施例中,使用以下AAindex代码:总蛋白质的AA组成的DSD(Nakashima等,Proteins.1990;8(2):173-8)将环氧化物水解酶的氨基酸序列编码成数值序列。
对映选择性是在化学反应中一种立体异构体相对于另一种的优先形成。对映选择性对于许多与工业相关的化学物质的合成很重要,并且难以实现。绿色化学利用重组酶(因为酶具有很高的特异性)来合成目标化学产品。因此,在绿色化学中特别寻求具有提高的效率的酶。
Reetz,等(Ang 2006Feb 13;45(8):1236-41)描述了来自黑曲霉(Aspergillusniger)的环氧化物水解酶的对映选择性突变体作为缩水甘油醚1的水解动力学拆分(其中形成二醇(R)-2和(S)-2)中的催化剂的定向进化。
该模型建立在Reetz等(同上)描述的一组10个学习序列上。
环氧化物水解酶 ΔΔG(kcal/mol)
WT -0.85
L215F -1.50
A217N -1.17
R219S -0.85
L249Y -0.85
T317W -1.50
T318V -0.85
M329P -1.08
L330Y -0.85
C350V -0.97
表8:学习集
将湿实验室中产生的32个突变体的结果与使用我们的方法预测的结果进行了比较。定量值显示在图14的右侧:表示实验值和预测值。所获得的预测值非常接近实验值,平均偏差为-0.011kcal/mol。这表明即使对少量学习序列和学习数据,也可以获得具有提高的参数的良好突变体。
在图15中,构建并筛选了512个突变体的文库。在湿实验室中鉴定的最佳突变体确实是一个好的突变体(箭头150),但不是最好的。
最好的突变体由图15中的椭圆160标识。箭头170指向野生型蛋白质。
Figure GDA0003813925970000241
Figure GDA0003813925970000251
表9:测试序列
实施例4:肠毒素SEA和SEE(图9和10)的热稳定性(Tm)的预测
在本实施例中,使用以下AAindex代码:D pK-C(Fasman,1976)将肠毒素的氨基酸序列编码成数值序列。
第四数据集(来自Cavallin A.等,2000:Biol Chem.Jan 21;275(3):1665-72.)与肠毒素SEE和SEA的热稳定性相关。超抗原(SAg),诸如葡萄球菌肠毒素(SE),是已知引起食物中毒或中毒性休克的非常强效的T细胞活化蛋白。通过将这些肠毒素与肿瘤反应性抗体融合,已经探索了将由它们诱导的强细胞毒性用于癌症治疗。Tm定义为变性温度EC50值,对于由12个蛋白质序列组成的数据集(WT SAE+WT SEE+10个突变体,包括形成1个单突变至21个多重突变),范围为55.1至73.3℃。
Figure GDA0003813925970000252
Figure GDA0003813925970000261
表10.SEA和SEE的突变区的细节。SEE/Aa、-f、-h和-ah是分别具有来自SEA的区域a、f、a和a+h的SEE,而SEA/E-bdeg是具有来自SEE的区域b+d+e+g的SEA。
肠毒素 Tm
SEA_D227A 55.1
SEA_H187A 57.5
SEA_233aa(野生型) 61.4
SEA/E-bdeg 68.4
SEE/A-h 69
SEE/A-a_D227A 69.3
SEE_233aa(野生型) 71.3
SEE/A-a 75.3
表11:学习集
肠毒素 Tm
SEE_A-f 70
SEE_A-ah 69.1
SEE_D227A 67.4
SEA_D227A_F47A 55.4
表12:测试序列
将我们的预测与湿实验室结果进行了比较(Cavallin A.2000)。此处再次地,使用小的学习序列(8个学习序列)和学习数据,有可能捕获与热稳定性相关的信息,并预测新突变体的该参数。
应当注意,在对应于图10的验证集的蛋白质序列(4个蛋白质序列)中,2个在对应于图9的训练集中未被采样的位置处包含突变(具有7个新突变的1个序列,和具有超过2的1个新突变的1个序列(1sequence avec 1new mutation over 2))。因此,这些结果证实,有可能鉴定新的突变体,包括在训练集中未被采样的突变的位置。
结果表明,对于训练集(图9),R2和RMSE分别为0.97和1.16,对于验证集(图10),R2和RMSE分别为0.96和1.46,因此表明在该情况下可以高效地预测与热稳定性相关的信息。
实施例5:具有改变的受体选择性的突变型TNF(图11和12)
在本实施例中,使用以下AAindex代码:来自IFH量表的D权重(Jacobs and White,Biochemistry.1989;28(8):3421-37)将TNF的氨基酸序列编码为数值序列。
肿瘤坏死因子(TNF)是抑制致癌作用并排除感染性病原体以维持内环境稳定的重要细胞因子。TNF激活其两种受体,TNF受体TNFR1和TNFR2。
Mukai Y等(J Mol Biol.2009Jan 30;385(4):1221-9)产生了仅激活一种TNFR的受体选择性TNF突变体。
Mukai等(同上)公开的21个突变体的受体选择性已使用数据突变体(包括1个单突变至6个多重突变的WT+20个突变体)和在本文中公开为学习数据集进行了预测。
TNF多肽 受体选择性
WT 0
K11M,K65S,K90P,K98R,K112N,K128P 0.079
L29I 0.079
A84T,V85H,S86K,Q88P,T89Q 0.544
A84S,V85K,S86T,Q88S,T89H 0.663
L29Q,R32W 0.826
L29K,R31A,R32G,E146S,S147T 0.924
A84S,V85T,S86N,Q88N,T89G 0.869
A84S,V85S,S86H,Q88R,T89F 1.079
A84S,V85P,S86L,Q88P,T89K 1.217
A84T,V85S,S86A,Q88G,T89P 1.230
A84T,V85T,S86A,Q88S,T89G 1.310
A145R,E146T,S147D 1.301
A145K,E146D,S147T 2.870
A145R,E146E,S147T 2.228
A145A,E146D,S147D 1.949
A145A,E146N,S147D 2.462
表13:TNF学习集
基于ELISA测量预测TNF与TNFR1(R1)和TNFR2(R2)的竞争性结合,如Mukai Y等在论文中所述的。使用R1和R2的相对亲和力(%Kd)来计算logR1/R2的比率。相对亲和力log10(R1/R2)的范围为0至2.87。
在第一步中,该方法已被应用于整个数据集。对于TNF的结合亲和力,R2和RMSE分别等于0.97和0.11。这再次证明,该方法能够捕获与适应度相关的信息。
在第二步中,将17个突变体用作学习序列,4个用作验证序列。
TNF多肽 受体选择性
L29T_R31G_R32Y 0.380
L29T_R31K_R32Y 1.127
L29T_R32F_E146T 2.026
A84S_V85K_S86T_Q88T_T89H 0.924
表14:TNF测试序列
结果表明,对于训练集(图11)R2和RMSE分别为0.93和0.21,对于验证集(图12)R2和RMSE分别为0.99和0.17,因此表明有可能使用该方法对TNF突变体优先(比率R1/R2)与一种类型的受体结合的能力建模。
在所有上述实施例1至5中,为了进行预测,使用全蛋白质谱。在下面的实施例6中,我们证明了根据本发明的方法以非常高效的方式仅使用部分蛋白质谱进行工作。
实施例6:使用来自蛋白质谱的频率值的选择来预测细胞色素P450的热稳定性(图13)
在本实施例中,使用以下AAindex代码:扩展结构的D归一化频率(Maxfield和Scheraga,Biochemistry.1976;15(23):5138-53)将细胞色素P450的氨基酸序列编码成数值序列。
此处,使用来自蛋白质谱的最相关频率的选择来进行预测。根据其与适应度的相关性对频率值进行排序,并且仅考虑最佳频率值。
数据集与实施例1中的相同。
结果表明,R2和RMSE分别为0.91和1.75,从而表明,仅使用部分(选择)来自蛋白质谱的频率也可高效地预测适应度(此处为热稳定性)。
这说明可使用全蛋白质谱或来自蛋白质谱的部分(选择)频率来使用本发明的方法。
实施例7:使用多变量分析对蛋白质谱进行分类以进行蛋白质筛选(图16)
使用包括10个具有低适应度值和高适应度值(对映选择性)的蛋白质谱的环氧化物水解酶亚组(如在实施例3中)。进行了PCA(主成分分析)。适应度的低值和高值分别在小椭圆180和大椭圆190中,因此表明应用于蛋白质谱的多变量分析有助于蛋白质筛选。
X、Y和Z轴是从PCA产生的3个主要成分,并且考虑到58.28%(以惯用的X、Y和Z轴,分别为21.51%、19.72%和16.05%)的与蛋白质谱收集相关的全局信息。
因此,在上述实施例中获得的几个适应度的预测值与测量值之间的R2和RMSE表明,根据本发明的预测系统20和方法允许对不同蛋白质的不同适应度值进行高效预测。
另外,根据本发明的方法允许测试在其它位置上具有突变或突变的组合的新序列(验证/测试序列),这些新序列用于学习序列集以用于建立模型。
该方法还允许测试新序列(验证/测试序列),所述新序列具有与学习序列集中使用的突变位置数相比不同的突变位置数。
该方法还允许测试新序列,所述序列包括在训练集中未被采样的突变的位置。在该情况下,给出肠毒素作为实施该方法的实例。
另外,该方法还允许测试新序列(验证/测试序列),所述序列具有与用于构建模型的学习序列集的长度相比不同的长度(在氨基酸数量方面)。
该方法使得能够使用相同的学习序列和一个或多个不同的编码AAindex和不同的适应度/活性值作为学习数据来预测用于学习序列或验证序列的适应度(验证/测试数据):即使用该新方法预测蛋白质序列的2个或更多个活性/适应度的能力。GLP1在本文档中用作实例:作为实例,使用相同的AAindex进行对GLP1受体的结合亲和力的预测和效力的预测。
使用该方法,有可能使用非常小的学习序列和学习数据来实现非常好的预测以及获得具有提高的适应度的突变体。作为例子,给出其中仅使用10个蛋白质序列的环氧化物水解酶(Epoxyde Hydrolase)。
该方法还允许使用嵌合蛋白而不是具有单点突变或单点突变的组合的蛋白质序列。在本文档中将细胞色素P450作为实例给出。使用不同P450的片段组合。
本发明使得考虑到氨基酸序列中不同位置处的不同氨基酸之间的相互作用的作用成为可能。图3显示单点突变在每个频率下影响整个蛋白质谱。
另外,该方法非常高效,因此在用于预测适应度的编码步骤之后需要不超过10分钟,同时使用50个蛋白质序列用于学习序列以及20个蛋白质序列用于验证序列。
另外,蛋白质的“适应度”还指其对诸如蛋白质表达水平或mRNA表达水平的标准的适应。
因此,蛋白质的“适应度”是指其对标准诸如催化功效、催化活性、动力学常数、Km、Keq、结合亲和力、热稳定性、溶解度、聚集、效力、毒性、变应原性、免疫原性、热力学稳定性、柔性、蛋白表达水平和mRNA表达水平的适应。如上所述,“适应度”也称为“活性”,并且在本说明书中认为适应度和活性是指相同的特征。
根据以下实施例,将进一步说明适应度诸如蛋白质表达水平或mRNA表达水平。
实施例8:预测布鲁顿酪氨酸激酶变体的蛋白质表达水平(图17)
在本实施例中,布鲁顿酪氨酸激酶(BTK)是参与B细胞发育和成熟的关键蛋白。实际上,BTK诱导成熟B细胞产生抗体,有助于消除感染。此外,该蛋白的功能障碍可能引起疾病如X连锁无丙种球蛋白血症或布鲁顿无丙种球蛋白血症(B细胞未能成熟)。
将18种蛋白质变体(Futatani T.等1998,《Deficient expression of Bruton'styrosine kinase in monocytes from X-linked agammaglobulinemia as evaluated bya flow cytometric analysis and its clinical application to carrierdetection.》,Blood.1998Jan15;91(2):595-602;Kanegane H.等2000,《Detection ofBruton's tyrosine kinase mutations in hypogammaglobulinaemic males registeredas common variable immunodeficiency(CVID)in the Japanese ImmunodeficiencyRegistry》,Clin Exp Immunol.2000Jun;120(3):512-7)、野生型BTK用于本实施例,如下表15所示。
Figure GDA0003813925970000311
表15-BTK变体的序列和蛋白质表达水平值
在图17中,测量的活性对应于BTK的蛋白质表达水平的体外测量,预测的活性对应于通过根据本发明的方法对BTK的蛋白质表达水平预测的值。
该值以蛋白质表达水平的百分比给出,其中100%对应于野生型的蛋白质表达水平。
留一交叉验证(LOOCV)用于构建模型并预测蛋白质表达值。结果表明,R2和RMSE分别为0.98和1.5,从而表明适应度(此处为蛋白质表达水平)也可被高效预测。蛋白质序列使用优化的相对分配能量(Optimized relative partition energies)-方法B(Miyazawa-Jernigan,1999Self-consistent estimation of inter-residue protein contactenergies based on an equilibrium mixture approximation of residues.Proteins:Structure,Function,and Bioinformatics,34(1),49-68)编码。
来自EMBL-EBI(http://www.ebi.ac.uk/gxa)的表达图谱提供了关于不同细胞类型、生物体部位、发育阶段、疾病和其它病况的动物和植物样品中的基因和蛋白质表达水平的信息。关于哪些基因产物在“正常”条件(例如组织、细胞类型)下以多少丰度存在的信息,技术人员可参考Petryszak等,2016《Expression Atlas update—an integrateddatabase of gene and protein expression in humans,animals and plants.》,Nucl.Acids Res.(04January 2016)44(D1):D746-D752.doi:10.1093/nar/gkv1045。
实施例9:预测K562细胞系中的mRNA表达水平(图18)
根据本发明的方法还适用于预测K562细胞系中的mRNA表达水平值(Fonseca NA等2014RNA-Seq Gene Profiling-A Systematic Empirical Comparison.PLoS ONE 9(9):e107026.doi:10.1371/journal.pone.0107026)。由于RNA序列与蛋白质序列之间存在共线性,因此使用与每个基因相关的蛋白质序列来建立模型。蛋白质相异在于反映RNA序列和长度的氨基酸组成和长度。在下表16中提供了97种RNA的数据集(序列和蛋白表达水平)。
Figure GDA0003813925970000331
Figure GDA0003813925970000341
Figure GDA0003813925970000351
Figure GDA0003813925970000361
Figure GDA0003813925970000371
图18显示使用留一交叉验证(R2:0.81,RMSE:10.3)获得的结果,从而说明根据本发明的方法也适用于通过与RNA相关的蛋白质序列预测mRNA表达水平。
在双态模型中使用基于自我信息值(25%可达性)的亲水量表(Hydropathyscale)编码蛋白质序列(Naderi-Manesh等,2001Prediction of protein surfaceaccessibility with information theory.Proteins:Structure,Function,andBioinformatics,42(4),452-459)。
实施例10:预测心脏细胞中不同蛋白质的蛋白质表达水平(图19)
根据本发明的方法还用于预测心脏细胞中不同蛋白质的蛋白表达水平值。蛋白质相异在于氨基酸组成和长度。下表17提供了85个蛋白质的数据集(序列和蛋白质表达水平)。
Figure GDA0003813925970000391
Figure GDA0003813925970000401
Figure GDA0003813925970000411
Figure GDA0003813925970000421
Figure GDA0003813925970000431
Figure GDA0003813925970000441
图19显示使用留一交叉验证(LOOCV,R2:0.87,RMSE:20.22)获得的结果。在图19中,将值乘以10000。因此,根据本发明的方法也适用于预测心脏细胞中不同蛋白质的蛋白质表达水平值。
使用暴露残基的百分比编码蛋白质序列(Janin等,1978Conformation of aminoacid side-chains in proteins.Journal of molecular biology,125(3),357-386)。
实施例11:预测肾细胞中不同蛋白质的蛋白质表达水平(图20)
在本实施例中,根据本发明的方法还用于预测肾细胞中不同蛋白质的蛋白质表达水平值。蛋白质相异在于氨基酸组成和长度。在下表18中提供了数据集(序列和蛋白质表达水平)。
Figure GDA0003813925970000461
Figure GDA0003813925970000471
Figure GDA0003813925970000481
Figure GDA0003813925970000491
Figure GDA0003813925970000501
Figure GDA0003813925970000511
图20显示对于130个蛋白质序列使用留一交叉验证(LOOCV,R2:0.83,RMSE:1.75)获得的结果。因此,根据本发明的方法也适用于预测蛋白质(特别是对于肾脏细胞中的不同蛋白质)的表达水平值。
使用处于中间的相对偏好值(Richardson-Richardson,1988Amino acidpreferences for specific locations at the ends of alpha helices.Science,240(4859),1648-1652)编码蛋白质序列。
因此,在上述实施例中获得的几个适应度诸如蛋白质表达水平或mRNA表达水平的预测值与测量值之间的R2和RMSE表明,根据本发明的预测系统20和方法允许高效预测不同蛋白质或蛋白质变体的不同适应度值,也适用于预测蛋白质表达水平和mRNA表达水平。
SEQUENCE LISTING
<110> Cadet, Frédéric
<120> 用于预测蛋白质的至少一个适应度值的方法和电子系统、相关计算机程序产品
<130> BET16P0498
<150> EP15305552.0
<151> 2015-04-14
<160> 3
<170> PatentIn version 3.5
<210> 1
<211> 30
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<400> 1
His Ala Glu Gly Thr Phe Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly
1 5 10 15
Gln Ala Ala Lys Glu Phe Ile Ala Trp Leu Val Lys Gly Arg
20 25 30
<210> 2
<211> 30
<212> PRT
<213> 人工序列
<220>
<223> 合成肽
<400> 2
His Ala Glu Gly Thr Phe Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly
1 5 10 15
Gln Ala Ala Lys Glu Phe Ile Ala Trp Leu Val Lys Ala Arg
20 25 30
<210> 3
<211> 659
<212> PRT
<213> 智人
<400> 3
Met Ala Ala Val Ile Leu Glu Ser Ile Phe Leu Lys Arg Ser Gln Gln
1 5 10 15
Lys Lys Lys Thr Ser Pro Leu Asn Phe Lys Lys Arg Leu Phe Leu Leu
20 25 30
Thr Val His Lys Leu Ser Tyr Tyr Glu Tyr Asp Phe Glu Arg Gly Arg
35 40 45
Arg Gly Ser Lys Lys Gly Ser Ile Asp Val Glu Lys Ile Thr Cys Val
50 55 60
Glu Thr Val Val Pro Glu Lys Asn Pro Pro Pro Glu Arg Gln Ile Pro
65 70 75 80
Arg Arg Gly Glu Glu Ser Ser Glu Met Glu Gln Ile Ser Ile Ile Glu
85 90 95
Arg Phe Pro Tyr Pro Phe Gln Val Val Tyr Asp Glu Gly Pro Leu Tyr
100 105 110
Val Phe Ser Pro Thr Glu Glu Leu Arg Lys Arg Trp Ile His Gln Leu
115 120 125
Lys Asn Val Ile Arg Tyr Asn Ser Asp Leu Val Gln Lys Tyr His Pro
130 135 140
Cys Phe Trp Ile Asp Gly Gln Tyr Leu Cys Cys Ser Gln Thr Ala Lys
145 150 155 160
Asn Ala Met Gly Cys Gln Ile Leu Glu Asn Arg Asn Gly Ser Leu Lys
165 170 175
Pro Gly Ser Ser His Arg Lys Thr Lys Lys Pro Leu Pro Pro Thr Pro
180 185 190
Glu Glu Asp Gln Ile Leu Lys Lys Pro Leu Pro Pro Glu Pro Ala Ala
195 200 205
Ala Pro Val Ser Thr Ser Glu Leu Lys Lys Val Val Ala Leu Tyr Asp
210 215 220
Tyr Met Pro Met Asn Ala Asn Asp Leu Gln Leu Arg Lys Gly Asp Glu
225 230 235 240
Tyr Phe Ile Leu Glu Glu Ser Asn Leu Pro Trp Trp Arg Ala Arg Asp
245 250 255
Lys Asn Gly Gln Glu Gly Tyr Ile Pro Ser Asn Tyr Val Thr Glu Ala
260 265 270
Glu Asp Ser Ile Glu Met Tyr Glu Trp Tyr Ser Lys His Met Thr Arg
275 280 285
Ser Gln Ala Glu Gln Leu Leu Lys Gln Glu Gly Lys Glu Gly Gly Phe
290 295 300
Ile Val Arg Asp Ser Ser Lys Ala Gly Lys Tyr Thr Val Ser Val Phe
305 310 315 320
Ala Lys Ser Thr Gly Asp Pro Gln Gly Val Ile Arg His Tyr Val Val
325 330 335
Cys Ser Thr Pro Gln Ser Gln Tyr Tyr Leu Ala Glu Lys His Leu Phe
340 345 350
Ser Thr Ile Pro Glu Leu Ile Asn Tyr His Gln His Asn Ser Ala Gly
355 360 365
Leu Ile Ser Arg Leu Lys Tyr Pro Val Ser Gln Gln Asn Lys Asn Ala
370 375 380
Pro Ser Thr Ala Gly Leu Gly Tyr Gly Ser Trp Glu Ile Asp Pro Lys
385 390 395 400
Asp Leu Thr Phe Leu Lys Glu Leu Gly Thr Gly Gln Phe Gly Val Val
405 410 415
Lys Tyr Gly Lys Trp Arg Gly Gln Tyr Asp Val Ala Ile Lys Met Ile
420 425 430
Lys Glu Gly Ser Met Ser Glu Asp Glu Phe Ile Glu Glu Ala Lys Val
435 440 445
Met Met Asn Leu Ser His Glu Lys Leu Val Gln Leu Tyr Gly Val Cys
450 455 460
Thr Lys Gln Arg Pro Ile Phe Ile Ile Thr Glu Tyr Met Ala Asn Gly
465 470 475 480
Cys Leu Leu Asn Tyr Leu Arg Glu Met Arg His Arg Phe Gln Thr Gln
485 490 495
Gln Leu Leu Glu Met Cys Lys Asp Val Cys Glu Ala Met Glu Tyr Leu
500 505 510
Glu Ser Lys Gln Phe Leu His Arg Asp Leu Ala Ala Arg Asn Cys Leu
515 520 525
Val Asn Asp Gln Gly Val Val Lys Val Ser Asp Phe Gly Leu Ser Arg
530 535 540
Tyr Val Leu Asp Asp Glu Tyr Thr Ser Ser Val Gly Ser Lys Phe Pro
545 550 555 560
Val Arg Trp Ser Pro Pro Glu Val Leu Met Tyr Ser Lys Phe Ser Ser
565 570 575
Lys Ser Asp Ile Trp Ala Phe Gly Val Leu Met Trp Glu Ile Tyr Ser
580 585 590
Leu Gly Lys Met Pro Tyr Glu Arg Phe Thr Asn Ser Glu Thr Ala Glu
595 600 605
His Ile Ala Gln Gly Leu Arg Leu Tyr Arg Pro His Leu Ala Ser Glu
610 615 620
Lys Val Tyr Thr Ile Met Tyr Ser Cys Trp His Glu Lys Ala Asp Glu
625 630 635 640
Arg Pro Thr Phe Lys Ile Leu Leu Ser Asn Ile Leu Asp Val Met Asp
645 650 655
Glu Glu Ser

Claims (11)

1.一种用于预测蛋白质的至少一个适应度值的方法,所述方法在计算机上执行,并且包括以下步骤:
根据蛋白质数据库(51)将所述蛋白质的氨基酸序列编码(100)成数值序列,所述数值序列包含所述序列中的每个氨基酸的值;
从所述数值序列的傅里叶变换计算(110)蛋白质谱,所述傅里叶变换被应用于编码步骤后获得的数值序列;以及
对于每个适应度:
将计算的蛋白质谱与预定数据库(55)的蛋白质谱值进行比较(130),所述数据库包含针对所述适应度的不同值的蛋白质谱值,其中比较步骤(130)包括在针对所述适应度的不同值的蛋白质谱值的预定数据库(55)中,根据预定标准确定与计算的蛋白质谱最接近的蛋白质谱值,
根据比较步骤预测(130)所述适应度的值,所述适应度的预测值等于在所述数据库中与所述确定的蛋白质谱值相关联的适应度值,
其中,在所述编码步骤(100)期间,所述蛋白质数据库(51)包括生物化学或物理化学特性值的几个指数,每个特性值被赋予相应的氨基酸,并且对于每个氨基酸,所述数值序列中的值等于给定的指数中所述氨基酸的特性值;以及
其中所述方法还包括以下步骤:
基于样本蛋白质的测量的适应度值与根据每个指数对所述样本蛋白质预先获得的预测的适应度值的比较来选择最佳指数;
然后使用所选择的指数进行所述编码步骤(100),
其中,在选择步骤期间,所选择的指数是决定系数最接近于1的指数,
其中每个指数的决定系数验证以下方程式:
Figure FDA0003813925960000021
其中yi为第i个样本蛋白质的测量的适应度,
Figure FDA0003813925960000022
为第i个样本蛋白质用第j个指数预测的适应度,
S为样品蛋白的数量,
Figure FDA0003813925960000023
为所述S样本蛋白质的测量的适应度的平均值,以及
Figure FDA0003813925960000024
为所述S样本蛋白质的预测的适应度的平均值。
2.根据权利要求1的方法,其中计算的蛋白质谱包括至少一个频率值,并将计算的蛋白质谱与每个频率值的所述蛋白质谱值进行比较。
3.根据权利要求1或2的方法,其中每个蛋白质谱验证以下方程式:
Figure FDA0003813925960000025
其中j是蛋白质谱|fj|的指数;
所述数值序列包括指示xk的N数值,其中0≤k≤N-1且N≥1,k是整数,N是预定整数;以及
i定义虚数,使得i2=-1。
4.根据权利要求1或2的方法,其中,在所述选择步骤期间,所选择的指数是具有最小均方根误差的指数,
其中每个指数的均方根误差验证以下方程式:
Figure FDA0003813925960000026
其中yi为第i个样本蛋白质的测量的适应度,
Figure FDA0003813925960000027
为第i个样本蛋白质用第j个指数预测的适应度,且
S为样本蛋白质的数量。
5.根据权利要求1或2的方法,其中所述方法还在所述编码步骤之后并且在所述蛋白质谱计算步骤之前包括以下步骤:
通过将所述数值序列的每个值减去所述数值序列值的平均值,对通过所述编码步骤获得的数值序列进行归一化;
然后对所述归一化的数值序列进行蛋白质谱计算步骤。
6.根据权利要求1或2的方法,其中所述方法还在所述编码步骤之后并且在所述蛋白质谱计算步骤之前包括以下步骤:
通过在所述数值序列的一端添加M个零对通过所述编码步骤获得的数值序列进行补零,其中M等于(N-P),其中N是预定整数,并且P是所述数值序列中的值的数目;
然后对补零步骤后获得的所述数值序列进行所述蛋白质谱计算步骤。
7.根据权利要求1或2的方法,其中,在所述蛋白质谱计算步骤(110)期间,根据几个频率范围计算所述蛋白质的几个蛋白质谱,以及
其中,在预测步骤期间,根据比较步骤估计每个蛋白质谱的适应度的中间值,然后使用中间适应度值来计算所述适应度的预测值。
8.根据权利要求7的方法,其中对所述中间适应度值进行回归计算所述适应度的预测值。
9.根据权利要求1或2的方法,其中所述方法包括以下步骤:
根据所述计算的蛋白质谱的蛋白质分析(140),用于筛选突变体文库。
10.根据权利要求9的方法,其中所述分析使用多因辨别分析或主成分分析来进行。
11.一种用于预测蛋白质的至少一个适应度值的电子预测系统(20),所述电子预测系统(20)包括:
编码模块(50),其被配置用于根据蛋白质数据库(51)将所述蛋白质的氨基酸序列编码成数值序列,所述数值序列包含所述序列中的每个氨基酸的值;
计算模块(52),其被配置用于从所述数值序列的傅里叶变换计算蛋白质谱,所述傅里叶变换被应用于通过编码模块(50)获得的数值序列;和
预测模块(56),对于每个适应度,其被配置用于:
将所述计算的蛋白质谱与预定数据库(55)的蛋白质谱值进行比较,所述数据库包含针对所述适应度的不同值的蛋白质谱值,其中比较包括在针对所述适应度的不同值的蛋白质谱值的预定数据库(55)中,根据预定标准确定与计算的蛋白质谱最接近的蛋白质谱值,以及
根据比较预测所述适应度的值,所述适应度的预测值等于在所述数据库中与所述确定的蛋白质谱值相关联的适应度值,
其中,所述蛋白质数据库(51)包括生物化学或物理化学特性值的几个指数,每个特性值被赋予相应的氨基酸,并且对于每个氨基酸,所述数值序列中的值等于给定的指数中所述氨基酸的特性值;以及
其中,编码模块(50)被进一步配置用于基于样本蛋白质的测量的适应度值与根据每个指数针对所述样本蛋白质预先获得的预测的适应度值的比较来选择最佳指数;然后用于使用所选择的指数编码氨基酸序列,
其中,在选择步骤期间,所选择的指数是决定系数最接近于1的指数,
其中每个指数的决定系数验证以下方程式:
Figure FDA0003813925960000051
其中yi为第i个样本蛋白质的测量的适应度,
Figure FDA0003813925960000052
为第i个样本蛋白质用第j个指数预测的适应度,
S为样品蛋白的数量,
Figure FDA0003813925960000053
为所述S样本蛋白质的测量的适应度的平均值,以及
Figure FDA0003813925960000054
为所述S样本蛋白质的预测的适应度的平均值。
CN201680027558.6A 2015-04-14 2016-04-14 用于预测蛋白质的至少一个适应度值的方法和电子系统 Active CN107924429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210595983.2A CN114882947A (zh) 2015-04-14 2016-04-14 用于预测蛋白质的至少一个适应度值的方法和电子系统、相关计算机程序产品

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15305552.0A EP3082056B2 (en) 2015-04-14 2015-04-14 Method and electronic system for predicting at least one fitness value of a protein, related computer program product
EP15305552.0 2015-04-14
PCT/EP2016/058287 WO2016166253A1 (en) 2015-04-14 2016-04-14 Method and electronic system for predicting at least one fitness value of a protein, related computer program product

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210595983.2A Division CN114882947A (zh) 2015-04-14 2016-04-14 用于预测蛋白质的至少一个适应度值的方法和电子系统、相关计算机程序产品

Publications (2)

Publication Number Publication Date
CN107924429A CN107924429A (zh) 2018-04-17
CN107924429B true CN107924429B (zh) 2022-12-09

Family

ID=52875643

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680027558.6A Active CN107924429B (zh) 2015-04-14 2016-04-14 用于预测蛋白质的至少一个适应度值的方法和电子系统
CN202210595983.2A Pending CN114882947A (zh) 2015-04-14 2016-04-14 用于预测蛋白质的至少一个适应度值的方法和电子系统、相关计算机程序产品

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202210595983.2A Pending CN114882947A (zh) 2015-04-14 2016-04-14 用于预测蛋白质的至少一个适应度值的方法和电子系统、相关计算机程序产品

Country Status (12)

Country Link
US (1) US11749377B2 (zh)
EP (1) EP3082056B2 (zh)
JP (1) JP6744909B2 (zh)
KR (1) KR20170137106A (zh)
CN (2) CN107924429B (zh)
AU (1) AU2016247474B2 (zh)
CA (1) CA2982608C (zh)
DK (1) DK3082056T4 (zh)
IL (1) IL254976B (zh)
MX (1) MX2017013195A (zh)
SG (1) SG11201708457VA (zh)
WO (1) WO2016166253A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050084907A1 (en) 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
WO2019178056A1 (en) * 2018-03-12 2019-09-19 Massachusetts Institute Of Technology Computational platform for in silico combinatorial sequence space exploration and artificial evolution of peptides
EP3598327B1 (en) * 2018-07-20 2021-05-05 Peaccel Method and electronic system for predicting at least one fitness value of a protein via an extended numerical sequence, related computer program product
CN115240763B (zh) * 2022-07-06 2024-06-11 上海人工智能创新中心 基于无偏课程学习的蛋白质热力学稳定性预测方法
CN117116336B (zh) * 2023-10-18 2024-01-23 深圳新锐基因科技有限公司 基于内部原子波动改善蛋白结构柔性弱点的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1239288A1 (en) * 1994-03-14 2002-09-11 University of Washington Identification of nucleotides, amino acids, or carbohydrates by mass spectrometry
CN101124581A (zh) * 2005-03-03 2008-02-13 伊利诺斯大学理事会 使用新的数据库检索模式鉴别和鉴定蛋白质
WO2008129458A1 (en) * 2007-04-18 2008-10-30 Koninklijke Philips Electronics N.V. A method for data mining dna frequency based spectra

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10021689A1 (de) * 2000-05-05 2001-12-06 Biotechnolog Forschung Gmbh Verfahren zur Untersuchung von Makromolekülen
US6728642B2 (en) * 2001-03-29 2004-04-27 E. I. Du Pont De Nemours And Company Method of non-linear analysis of biological sequence data
JP2008076406A (ja) * 2002-04-26 2008-04-03 Ajinomoto Co Inc タンパク質構造解析方法、タンパク質構造解析装置、プログラム、および、記録媒体
JPWO2006001397A1 (ja) * 2004-06-25 2008-04-17 独立行政法人産業技術総合研究所 細胞ネットワーク解析システム
WO2008065180A1 (en) * 2006-11-30 2008-06-05 Tibotec Pharmaceuticals Ltd. Phenotype prediction method
JP2013513790A (ja) * 2009-12-09 2013-04-22 アイティーアイ・スコットランド・リミテッド 検体の検出
CN103473483A (zh) * 2013-10-07 2013-12-25 谢华林 一种蛋白质结构与功能的在线预测方法
EP3598327B1 (en) * 2018-07-20 2021-05-05 Peaccel Method and electronic system for predicting at least one fitness value of a protein via an extended numerical sequence, related computer program product

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1239288A1 (en) * 1994-03-14 2002-09-11 University of Washington Identification of nucleotides, amino acids, or carbohydrates by mass spectrometry
CN101124581A (zh) * 2005-03-03 2008-02-13 伊利诺斯大学理事会 使用新的数据库检索模式鉴别和鉴定蛋白质
WO2008129458A1 (en) * 2007-04-18 2008-10-30 Koninklijke Philips Electronics N.V. A method for data mining dna frequency based spectra

Also Published As

Publication number Publication date
AU2016247474A1 (en) 2017-11-02
JP6744909B2 (ja) 2020-08-19
KR20170137106A (ko) 2017-12-12
CN114882947A (zh) 2022-08-09
US11749377B2 (en) 2023-09-05
EP3082056B2 (en) 2022-02-09
BR112017022196A2 (pt) 2019-04-16
CA2982608C (en) 2023-12-05
JP2018517219A (ja) 2018-06-28
US20180096099A1 (en) 2018-04-05
EP3082056B1 (en) 2019-03-27
DK3082056T3 (da) 2019-07-01
MX2017013195A (es) 2018-05-22
CN107924429A (zh) 2018-04-17
CA2982608A1 (en) 2016-10-20
IL254976B (en) 2021-10-31
WO2016166253A1 (en) 2016-10-20
EP3082056A1 (en) 2016-10-19
DK3082056T4 (da) 2022-05-02
AU2016247474B2 (en) 2020-07-30
SG11201708457VA (en) 2017-11-29
IL254976A0 (en) 2017-12-31

Similar Documents

Publication Publication Date Title
CN107924429B (zh) 用于预测蛋白质的至少一个适应度值的方法和电子系统
Fowler et al. High-resolution mapping of protein sequence-function relationships
Simm et al. 50 years of amino acid hydrophobicity scales: revisiting the capacity for peptide classification
Bondt et al. Human plasma IgG1 repertoires are simple, unique, and dynamic
Bogatyreva et al. Trend of amino acid composition of proteins of different taxa
Whitehead et al. Computational design of novel protein binders and experimental affinity maturation
Jost Lopez et al. Quantifying protein–protein interactions in molecular simulations
Wilcox et al. Determination of protein secondary structure from infrared spectra using partial least-squares regression
JP7425056B2 (ja) 拡張数値配列を介してタンパク質の少なくとも1つの適応度の値を予測するための方法および電子システム、関係するコンピュータプログラム
Wiederstein et al. Protein sequence randomization: efficient estimation of protein stability using knowledge-based potentials
Wales et al. Evolution of the potential energy landscape with static pulling force for two model proteins
Notin et al. Machine learning for functional protein design
Mari et al. Proteomic analysis in the identification of allergenic molecules
Kasahara et al. Comprehensive classification and diversity assessment of atomic contacts in protein–small ligand interactions
Li et al. Molecular dynamics simulations of 441 two-residue peptides in aqueous solution: Conformational preferences and neighboring residue effects with the Amber ff99SB-ildn-NMR force field
Harada et al. Temperature-shuffled structural dissimilarity sampling based on a root-mean-square deviation
KR102171681B1 (ko) 기계 학습 알고리즘을 이용하여 표적 단백질과 결합하는 후보 rna 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체 및 후보 rna 압타머를 생성하는 방법
Kalinowska et al. Hypothetical in silico model of the early-stage intermediate in protein folding
Yu et al. B-SIDER: computational algorithm for the design of complementary β-sheet sequences
Kumar et al. Multi‐perspectives and challenges in identifying B‐cell epitopes
Zhao et al. Structural changes in barley protein LTP1 isoforms at air–water interfaces
Bilodeau et al. Behavior of Water Near Multimodal Chromatography Ligands and Its Consequences for Modulating Protein–Ligand Interactions
BR112017022196B1 (pt) Método e sistema eletrônico para prever pelo menos um valor de ajuste de uma proteína
Pavlovicz et al. Efficient consideration of coordinated water molecules improves computational protein-protein and protein-ligand docking
Timmons et al. APPTEST is an innovative new method for the automatic prediction of peptide tertiary structures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1248339

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant