CN111653310B

CN111653310B - 含二硫键多肽的结构预测方法及装置

Info

Publication number: CN111653310B
Application number: CN202010606233.1A
Authority: CN
Inventors: 刘紫琳; 胡景皓; 蒋帆; 吴云东
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2023-06-20
Anticipated expiration: 2040-06-29
Also published as: CN111653310A

Abstract

本发明提供一种含二硫键多肽的结构预测方法及装置，该结构预测方法包括：序列比对步骤，候选模型筛选步骤，结构特征提取步骤，结构预测步骤。与现有技术相比，本发明至少具有如下有益效果之一：1)含二硫键多肽结构预测的准确度更高；2)能够准确预测二硫键连接模式；3)能够评估预测结构的准确度。

Description

含二硫键多肽的结构预测方法及装置

技术领域

本发明涉及结构预测技术领域，具体涉及含二硫键多肽的结构预测方法及装置。

背景技术

富含二硫键多肽因其高效的生物活性而广泛应用于生物医药领域。富含二硫键多肽在自然界中的存在形式多种多样，毒素多肽是其中重要的存在形式之一。利用毒液进行防御或捕猎的动物广泛存在于动物界中，包括脊椎动物、软体动物、节肢动物、环节动物和刺胞动物等。仅从芋螺科动物的毒液中便可以获得数十万种不同活性的毒素多肽。放眼自然界，其他动物拥有更多的种类数量，例如蜘蛛约48000种、蛇约3500种，以及蝎子约2000种，考虑到每种动物的毒液中含有多种毒素，因此，动物毒液是一个巨大的富含二硫键多肽药物宝库。

随着蛋白质组学和转录组学的进步，现在能够从毒液中获取几乎完整的毒素库，这种新型研究方式称为“毒液组学”(venomics)。随着新一代测序技术的迅猛发展，生物序列数据呈指数级持续增长。虽然现在序列信息已经能够相当快捷地获取，但是蛋白质结构的测定速度远低于测序。一般认为蛋白质的序列决定结构，而结构决定功能。为了更好地挖掘富含二硫键毒素多肽的药用价值，其结构信息是必不可少的。

目前，X射线晶体衍射(X-ray diffraction，X-ray)、核磁共振(nuclear magneticresonance，NMR)和冷冻电镜(cryogenic electron microscopy，cryo-EM)是确定蛋白质结构的三种主要实验手段。其中，X射线晶体衍射技术需要对生物分子进行结晶，实验周期长，且分子结晶的条件要求较高、难度较大；核磁共振技术可以获得蛋白质在溶液中的三维结构，能够分析蛋白质的动态变化，但其研究对象的分子量大小有限(通常难以超过20kDa)且实验结构的准确度较低；而冷冻电镜依靠近期发展起来的电子显微三维重构技术，可以获得分子量巨大(200kDa以上)的超分子复合体系的纳米分辨率三维结构，但其精度目前还较难达到原子级别的分辨率。尽管近年来蛋白质结构测定技术有了一定的进展，但还远不能达到高通量测定实验结构的水平，使得已知蛋白质结构的数量和已知序列数量之间的鸿沟越来越大。

目前已知结构的毒素数量仅占序列数量的不到10％，其中比例最高的蝎子仅为12.84％，而比例最低的蜈蚣仅为3.26％。连广泛应用于药物设计的芋螺毒素和蜘蛛毒素的已知结构比例也分别仅为7.11％和5.94％。

为了弥补这种差距，采用计算的方法从富含二硫键毒素多肽的序列直接预测其对应的三维结构成为了一个重要的科学问题。常用的结构预测方法主要可以分为从头预测(ab initio modeling)与基于模板建模(template-based modeling)两类方法。

1、从头预测方法

从头预测方法最初是指基于第一性原则构建蛋白质分子力场等物理模型，再通过构象搜索算法将无序的肽链折叠成接近天然态构象的三维结构。该方法仅凭氨基酸序列而不依靠其他信息来预测相应的三维结构。而如今涌现出许多利用其他信息(如蛋白质片段结构数据库)的预测方法也被认为是从头预测方法，又称为自由建模方法(freemodeling)。从头预测的关键是定义正确的能量函数、使用合适的构象搜索策略寻找能量最低构象。

近年来，人们用分子动力学(molecular dynamics，MD)模拟的方法从头预测多肽结构，并取得了一些突破。对于设计精良的分子力场来说，理论上位于能量景貌最低点的构象即为天然的折叠态构象。随着近几年计算机技术的快速发展，结合显式溶剂模型的全原子模拟也进展迅速，已经可以折叠小于80个残基的迷你蛋白质至天然态构象。MD模拟虽然也被应用于富含二硫键多肽结构的研究中，但大多数只是用于结构优化以及与受体相互作用的模拟，目前仍然无法准确地从头预测其结构。

此外，Izmailov等人尝试用一种简化的MD模型来模拟富含二硫键多肽的氧化折叠过程。他们移除游离态半胱氨酸残基侧链上巯基的氢原子，并在构象搜索的过程中，当两个游离态半胱氨酸侧链巯基上的硫原子相互靠近至距离小于

时，关闭这两个硫原子之间的L-J相互作用力；当硫原子继续靠近至距离小于/>

时，人为施加一种限制力，将两个原子逐渐拖拽至距离为/>

附近并固定，即形成了二硫键。该方法虽然能够使预测结构形成二硫键，但实际的预测结构与实验结构相去甚远，难以对准确预测富含二硫键多肽结构这一问题提供实质性的帮助。

基于碎片拼接的从头预测方法Rosetta也无法准确地预测富含二硫键多肽结构。即使指定了结构中所有正确的二硫键(理论上大幅降低了预测难度)，但Rosetta仍然无法得到准确的模拟结果。对于碎片拼接法，由于大多数蛋白质碎片结构中不含二硫键，除非在预测前指定结构中的各个二硫键连接，否则该方法预测的模型中难以形成正确的二硫键，因此无法得到准确的结构。

由此可见，利用从头预测方法准确预测富含二硫键多肽结构仍然是个难题。由于从头预测方法需要提前指定正确的二硫键连接，因此该方法首先需要突破的瓶颈在结构预测之前的二硫键连接模式的预测。

二硫键连接模式的预测分为两步：首先，由于序列中不一定所有的半胱氨酸都能够形成二硫键，因此首先需要对半胱氨酸的状态进行预测；然后，再预测形成二硫键的半胱氨酸(Cyx)之间的连接模式。近几年已经发展了许多利用机器学习预测二硫键连接模式的方法。例如，用支持向量机模型预测序列中的半胱氨酸状态，用支持向量机、神经网络和随机森林等机器学习模型预测二硫键连接模式。其中，预测半胱氨酸状态的方法已经较为成熟，其准确率可以达到90％以上。而预测二硫键连接模式的前沿方法准确率仍然无法有效辅助富含二硫键多肽结构的从头预测，尤其是当二硫键数量大于3对时，准确率最高仅为57.4％。

2、基于模板建模方法

基于模板建模的主要思想是先寻找一个与目标序列真实结构具有潜在相似性的已知结构作为模板，再基于该模板构建目标序列的三维模型。基于模板建模方法根据适用对象可分为两类：一类是同源建模法(homology modeling)，适用于能找到序列相似度较高模板的目标序列，又称为比较建模法(comparative modeling)。同源建模的基本假设为序列相似度越高的两条序列往往三维结构也越相似。在能够找到合适模板的前体下，同源建模方法被认为是预测准确度最高的结构预测方法。另一类是穿线法(threading)，适用于难以找到序列相似度较高模板的目标序列，又称为折叠辨识法(fold recognition)。穿线法通过某种策略将序列与结构进行比对，并评估将序列以各种匹配方式“安放”到模板三维结构上的“舒适”程度，以此来挑选用于建模的模板。

基于模板建模的研究最早可以追溯到上个世纪六十年代末期。Browne等人利用与牛α-乳清蛋白序列(目标蛋白)高度同源且已知实验结构的鸡蛋清溶菌酶(模板蛋白)，与目标蛋白的序列进行比对，然后根据比对结果在模板蛋白的结构中进行插入、删除和替换，最终构建出最早的基于模板建模结构。近几十年来发展了众多基于模板建模的蛋白质结构预测方法，许多方法以工具包或网页服务器的形式呈现，为不同领域研究人员的使用提供了极大的便捷，如MODELLER、Swiss-Model、CPHmodels、M4T、HHpred和3D-JIGSAW等。

对于富含二硫键多肽的结构预测，基于模板建模相对于从头预测方法最大的优势在于，目标多肽预测结构中的二硫键可以根据序列比对结果从模板结构中“继承”过来。但是现有的基于模板建模方法主要都是针对一般蛋白质设计的，在富含二硫键多肽结构体系上存在以下不足：

1)无法预测长度较短的富含二硫键多肽序列。Swiss-Model、ModWeb和Robetta分别无法预测序列长度小于30、30和27个残基的多肽结构；CPHmodels和M4T虽然没有目标序列最小长度限制，但是它们挑选的模板需满足E-value小于10^-4，而E-value的计算与目标多肽的序列长度相关，序列太短会导致合适的短序列模板与背景噪音难以区分。

2)序列比对方法没有针对二硫键进行优化。在富含二硫键多肽序列中，半胱氨酸残基出现的概率远高于在一般蛋白质中出现的概率，而现有的序列比对方法既没有区分Cys与Cyx，也没有突出Cyx在序列比对中的重要性，不利于目标-模板序列之间的Cyx比对上，导致目标多肽的预测结构难以继承模板的二硫键。

3)只基于序列信息挑选模板。由于多个二硫键纵横交错，使得富含二硫键多肽结构的序列一致性与结构相似度的之间关系更加复杂。即使是序列完全一致的富含二硫键多肽，也会因不同的二硫键连接模式而产生多种同分异构体。相反，序列一致性低但二硫键连接模式相同的两个富含二硫键多肽却可能具有相似结构。现有的方法主要是基于序列信息挑选用于建模的模板，因此难以为富含二硫键多肽目标序列找到合适的模板。

由于富含二硫键多肽的特殊性，发展准确的结构预测方法需针对其结构特点进行专门的优化，目前已报道两个与富含二硫键多肽相关的结构预测方法如下：

1、Kong,L.；Lee,B.T.K.；Tong,J.C.；Tan,T.W.；Ranganathan,S.,SDPMOD:AnAutomated Comparative Modeling Server for Small Disulfide-BondedProteins.Nucleic Acids Res.2004,32(suppl_2),W356-W359.

2004年，Kong等人专门针对含二硫键多肽开发了一种同源建模方法SDPMOD。该方法将PDB数据库(RCSB Protein Data Bank，本文简称PDB数据库)中所有序列长度小于100且含有两个半胱氨酸(不确定状态)的结构收集起来作为模板库，再从中统计和整理出一个新的氨基酸替换矩阵。SDPMOD首先在模板库中筛选与目标多肽的半胱氨酸数量一致的模板，然后利用新矩阵进行全局的序列比对，最后利用序列比对得分最高的模板进行建模。该研究的文章中未对SDPMOD的预测结果进行描述，而是称结果在其网站中公布(http://proline.bic.nus.edu.sg/sdpmod)。然而SDPMOD网页服务器多年前已下线且至今无法打开，该方法的数据与开发细节也未在文章中阐述，现已无从考证。

2、Gracy,J.；Chiche,L.,Optimizing Structural Modeling for a SpecificProtein Scaffold:Knottins or Inhibitor Cystine Knots.BMC Bioinformatics 2010,11(1),535.

2010年，Gracy等人开发了一种针对knottin家族(一类具有特定二硫键连接模式的富含二硫键多肽)的结构预测方法Knoter1D3D。该方法将PDB数据库中找到的155个knottins作为模板库，并从中选出34个序列一致性小于40％的knottins作为目标多肽。Knoter1D3D为每个目标多肽从模板库中挑选20个模板。挑选模板的方法为：首先，由于这些knottins的二硫键连接模式完全一致，因此该方法要求模板中相邻Cyx间隔(本文称为环区)的残基数目与目标多肽完全一致。若符合要求的模板数量不及20，则用序列一致性最高的模板进行补充；若还不够，则用与序列一致性最高模板的RMSD最小的其他模板进行补充至20。挑选完模板后，基于每个模板构建5个模型，再把三种模型质量打分函数对每个模型的分数进行线性组合得到评估分数，将分数最高的模型作为该方法的预测结构。遗憾的是，尽管Knoter1D3D的网站(http://pat2.cbs.cnrs.fr/cgi-bin/pat/new/wpat.pl？tool＝knoter1d3d)可以打开，但是该方法的结构预测服务器由于未知错误始终无法运行。

现有技术的缺陷至少包括：

以上两种方法不仅目前已经无法使用，而且从SDPMOD和Knoter1D3D的文章可以看出，这两种方法还存在以下几个问题：

1)SDPMOD将模板限制为必须与目标多肽中的半胱氨酸数量一致，Knoter1D3D将模板限制为必须拥有相同二硫键连接模式，且环区残基数也相同，这两种挑选模板的方法都极大限制了可用模板的数量。对于富含二硫键多肽体系，即使二硫键数量不一致，结构也可能很相似。以knottin为例，knottin中的三对二硫键连接为C1-C4、C2-C5、C3-C6。事实上即使没有C1-C4这对二硫键，自然界中也存在天然的毒素多肽与knottin的结构类似。可见SDPMOD和Knoter1D3D挑选模板的方法会导致损失许多合适的模板。

2)SDPMOD和Knoter1D3D都没有将其预测结果与其他结构预测方法进行对比，更没有独立测试的结果，因此难以评估它们方法的可靠性。再加上Knoter1D3D的目标多肽数量太少(仅34个)，且经过大量的人工调参来拟合结果，未经测试，极可能存在过拟合问题，实际的适用性有待考证。

3)SDPMOD将序列小于100且含有两个半胱氨酸(不确定状态)的结构都作为模板库，而没有查验这些结构中究竟有多少是含有二硫键的，用这样的模板预测出的结构很可能不含二硫键。

4)SDPMOD仅修改了序列比对的替换矩阵，挑选模板主要根据序列中的半胱氨酸数和比对分数，其余步骤与常规的同源建模方法无异。如前文所述，仅基于序列信息来挑选富含二硫键多肽的模板是不够的。

5)Knoter1D3D只针对了一类具有相同二硫键连接模式的多肽，无需预测二硫键连接模式，极大降低了预测难度，也限制了该方法的适用范围。

综上所述，从头预测和基于模板建模的方法虽然都可以用于预测富含二硫键多肽的结构，但是从头预测方法无法生成含有二硫键的结构，而且现有的二硫键连接模式预测准确度不高，再加上缺乏专门针对二硫键优化的能量函数，导致从头预测方法的准确度较低；基于模板建模则缺乏科学合理地针对富含二硫键多肽的序列比对方法与模板挑选方法，已有的两种相关方法存在较多问题且服务器均无法使用。因此，富含二硫键多肽的结构预测是一个重要却仍未解决的问题。

发明内容

根据第一方面，一种实施例中提供一种含二硫键多肽的结构预测方法，包括：

序列比对步骤，包括将待预测结构的目标多肽与含二硫键蛋白质的模板库中所有序列进行半胱氨酸特异性序列比对，提取序列特征；

候选模型构建步骤，包括将所述序列特征输入机器学习模型中，筛选得到候选模板，根据所述候选模板构建三维模型，得到候选模型；

结构特征提取步骤，包括从所述候选模型中提取结构特征；

结构预测步骤，包括将所述序列特征、结构特征输入机器学习模型中，输出模型，得到预测结构。

根据第二方面，一种实施例中提供一种用于预测含二硫键多肽结构的装置，包括：

序列比对模块，用于将待预测结构的目标多肽与含二硫键蛋白质的模板库中所有序列进行半胱氨酸特异性序列比对，提取序列特征；

候选模板筛选模块，用于将所述序列特征输入机器学习模型中，筛选得到候选模板，根据所述模板构建三维模型，得到候选模型；

结构特征提取模块，用于从所述候选模型中提取结构特征；

结构预测模块，用于将所述序列特征、结构特征输入机器学习模型中，输出模型，得到预测结构。

根据第三方面，一种实施例中提供一种装置，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如第一方面所述的预测方法。

根据第四方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如第一方面所述的预测方法。

与现有技术相比，本发明至少具有如下有益效果之一：

1)含二硫键多肽结构预测的准确度更高；

2)能够准确预测二硫键连接模式；

3)能够评估预测结构的准确度。

在一些实施方案中，本发明打破传统的先选模板再建模的思路，将基于模板建模与机器学习模型相结合，采用先建模再根据结构挑选预测结构的思路。半胱氨酸特异性序列比对方法。在序列比对的过程中将游离态半胱氨酸与形成二硫键的半胱氨酸进行区分，适当提高Cyx-Cyx的替换分数，使得构建的模型能形成更多的二硫键。

在一些实施方案中，本发明设计了多种与半胱氨酸和二硫键相关的特征，对含二硫键多肽的特点进行针对性地设计。

在一些实施方案中，本发明采用“排序”为训练目标训练机器学习模型选出预测结构，而采用“回归”为训练目标训练机器学习模型对预测结构的GDT-HA分数进行预测。

附图说明

图1显示为本发明一实施例中，序列比对中不同半胱氨酸配对结果对目标多肽基于模板建模结构形成的二硫键的影响。

图2显示为本发明一实施例中，同一富含二硫键多肽序列(含有2对二硫键)因具有不同二硫键连接模式而产生的三种同分异构体。

图3显示为本发明一实施例中CRiSP的结构预测流程图。

图4显示为本发明一实施例中第4～7个胱氨酸相关原始特征示意图。

图5显示为本发明一实施例中含二硫键蛋白质模板数据库的开发流程示意图。

图6显示为本发明一实施例中CRiSP和MODELLER对目标多肽2mfsA的预测结果图。

图7显示为本发明一实施例中CRiSP和RaptorX对目标序列3c05B的预测结果图。

图8显示为本发明一实施例中CRiSP、RaptorX、MODELLER、HHPred和FALCON@home对测试集中序列长度＞25的目标多肽(共82个)的预测结果图，图中的“FALCON”表示FALCON@home。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中，多肽是α－氨基酸以肽键连接在一起而形成的化合物，是蛋白质水解的中间产物。通常由10～100个氨基酸分子脱水缩合而成的化合物叫多肽。适用于本发明的多肽长度不受限制，优选为含有6-100个氨基酸，更优选为含有6-90个氨基酸，更优选为含有6-80个氨基酸分子，更优选为含有6-70个氨基酸分子，更优选为含有6-60个氨基酸分子，更优选为含有6-50个氨基酸分子，更优选为含有6-40个氨基酸分子，更优选为含有6-30个氨基酸分子，更优选为含有6-20个氨基酸分子。在一些实施例中，目标多肽含有的氨基酸分子具体可以是6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、32个、35个、36个、40个、42个、45个、48个、50个、54个、60个、70个、80个、90个、100个等等。

本文中“二硫键多肽”是指含有至少一对链内二硫键的多肽。在一些实施例中，富含二硫键多肽是指含有两对、三对或者更多链内二硫键的多肽。

在一些实施方案中，本发明适用于所有的二硫键多肽的结构预测，也即是说，适用于含有至少一对链内二硫键的多肽的结构预测。在一优选的实施方案中，本发明适用于富含二硫键多肽的结构预测，也即是说，适用于含有两对、三对或者更多链内二硫键的多肽的结构预测，例如，所述二硫键多肽可以是来自动物毒液的毒素多肽，毒素多肽所来自的动物包括但不限于脊椎动物、软体动物、节肢动物、环节动物、刺胞动物等等，又例如蜘蛛、蛇、蝎子等等，具体可以包括但不限于芋螺毒素ω-MⅦA、虎纹蜘蛛毒素HWTX-X、家蝇酚氧化酶抑制剂MdPOI等抑制剂半胱氨酸结(inhibitor cystine knot，简称ICK)家族(也称knottin家族)。

本文中，二硫键半胱氨酸简称Cyx，是指形成二硫键的半胱氨酸残基。

本文中，游离态半胱氨酸简称Cys，是指未形成二硫键的半胱氨酸残基。

本文中，二硫键半胱氨酸对简称Cyx-Cyx，是指当目标序列和模板序列中的形成二硫键的半胱氨酸残基在序列比对中的两两匹配，通常用于指示残基对的替换分数，例如，Cyx-Cyx在本发明一实施例中的替换分数为33。

本文中，游离态半胱氨酸对简称Cys-Cys，是指当目标序列和模板序列中的未形成二硫键的半胱氨酸残基在序列比对中的两两匹配，通常用于指示残基对的替换分数，例如，在一实施例中，Cys-Cys在BLOSUM62矩阵中的替换分数为9。

根据第一方面，在一些实施方案中，提供一种含二硫键多肽的结构预测方法，包括：

结构特征提取步骤，包括从所述候选模型中提取结构特征；

在一些实施方案中，所述模板库中的单链结构含有至少1对链内二硫键。

在一优选的实施方案中，所述模板库中的单链结构含有至少2对链内二硫键。

在一些实施方案中，所述序列特征包括原始特征、衍生特征中的至少一个。

在一些实施方案中，所述序列特征包括胱氨酸相关原始特征、序列比对原始特征中的至少一个。

在一些实施方案中，所述胱氨酸相关原始特征包括如下特征中的至少一个：

A1)目标多肽序列中Cyx的数量；

A2)模板序列中Cyx的数量；

A3)目标多肽序列Cyx与模板序列Cyx的数量差；

A4)序列比对中，目标多肽序列Cyx与模板序列Cyx匹配的数量；

A5)序列比对中，相邻的匹配Cyx之间的环区长度一致的数量；

A6)序列比对中，目标多肽序列Cyx与模板序列Cyx“成对”匹配的数量；

A7)序列比对中，相邻的“成对”匹配Cyx之间的环区长度一致的数量。

在一些实施方案中，如图4所示为胱氨酸相关原始特征A4)、A5)、A6)、A7)的示意图。

在一些实施方案中，所述序列比对原始特征包括如下特征中的至少一个：

B1)序列比对分数；

B2)非空位匹配的残基数；

B3)序列一致性；

B4)序列比对长度；

B5)目标多肽序列长度；

B6)模板序列长度；

B7)目标多肽序列插入的空位数量；

B8)模板序列插入的空位数量；

B9)序列比对中总空位数量；

B10)目标多肽序列首端插入的空位数量；

B11)目标多肽序列末端插入的空位数量；

B12)目标多肽序列中间插入的空位数量；

B13)模板序列首端插入的空位数量；

B14)模板序列末端插入的空位数量；

B15)模板序列中间插入的空位数量；

B16)除去首端和末端空位的目标多肽序列(含中间空位)长度；

B17)除去首端和末端空位的模板序列(含中间空位)长度。

在一些实施方案中，所述衍生特征是基于所述原始特征标准化处理得到。

在一些实施方案中，在目标多肽的序列比对中，二硫键半胱氨酸(Cyx)与游离态半胱氨酸(Cys)区分对待，而且替换矩阵中二硫键半胱氨酸对(Cyx-Cyx)的分数高于游离态半胱氨酸对(Cys-Cys)，才有利于更多的Cyx相互配对，使目标多肽的建模结构形成正确的二硫键。

在一些实施方案中，本发明的序列比对方法采用Smith-Waterman算法、Needleman-Wunch算法中的任一种，优选为Smith-Waterman算法。

在一些实施方案中，序列比对时，分数设置规则为：替换分数＞空位开放罚分＞空位延伸罚分。具体的分数可以根据需要进行设置。

在一优选的实施方案中，序列比对时，设置二硫键半胱氨酸对替换分数为33、空位开放罚分为-10和空位延伸罚分为-0.5，前述三个分数是根据训练集经过大量筛选后确定的最优数值，也可以根据需要设定其他数值。

在一些实施方案中，所述衍生特征包括由所述胱氨酸相关原始特征标准化处理得到的胱氨酸相关衍生特征，所述胱氨酸相关原始特征标准化处理方法包括如下方法中的至少一种：

P1)除以目标多肽序列中半胱氨酸的数量(胱氨酸相关原始特征A1)；

P2)除以模板序列中二硫键半胱氨酸的数量(胱氨酸相关原始特征A2)。

在一些实施方案中，得到所述胱氨酸相关衍生特征后，删去自除后等于1的特征。

在一些实施方案中，所述衍生特征还包括由所述胱氨酸相关原始特征和所述序列比对原始特征标准化处理得到的衍生特征，所述标准化处理方法包括如下方法中的至少一种：

Q1)除以目标多肽序列长度(序列比对原始特征B5)；

Q2)除以序列比对长度(序列比对原始特征B4)；

Q3)除以模板序列长度(序列比对原始特征B6)。

在一些实施方案中，得到所述衍生特征后，删去自除后等于1的特征。

在一些实施方案中，所述结构特征包括MODELLER程序目标函数特征、Rosetta能量项特征、模型质量评估打分特征中的至少一个。

在一些实施方案中，所述MODELLER程序目标函数特征包括如下特征中的至少一个：

C1)目标函数总值(The total value of the objective function)；

C2)二硫键距离约束(Disulfide distance restraints)；

C3)二硫键键角约束(Disulfide angle restraints)；

C4)二硫键二面角约束(Disulfide dihedral angle restraints)；

C5)键长势能(Bond length potential)；

C6)键角势能(Bond angle potential)；

C7)立体化学余弦扭转势能(Stereochemical cosine torsion potential)；

C8)立体化学不当扭转势能(Stereochemical improper torsion potential)；

C9)软球重叠约束(Soft-sphere overlap restraints)；

C10)Cα-Cα距离约束(Distance restraints 1 CA-CA)；

C11)N-O距离约束(Distance restraints 2 N-O)；

C12)侧链-主链距离约束(Distance restraints 3 SDCH-MNCH)；

C13)侧链-侧链距离约束(Distance restraints 4 SDCH-SDCH)；

C14)主链二面角ω约束(Mainchain Omega dihedral restraints)；

C15)侧链二面角χ₁约束(Sidechain Chi_1 dihedral restraints)；

C16)侧链二面角χ₂约束(Sidechain Chi_2 dihedral restraints)；

C17)侧链二面角χ₃约束(Sidechain Chi_3 dihedral restraints)；

C18)侧链二面角χ₄约束(Sidechain Chi_4 dihedral restraints)；

C19)二面角

/ψ对的约束(Phi/Psi pair of dihedral restraints)。

在一些实施方案中，所述Rosetta能量项特征包括如下特征中的至少一个：

D1)'ch_bond'(Carbon hydrogen bonds)；

D2)'ch_bond_bb_bb'(Backbond-backbone carbon hydrogen bonds)；

D3)'ch_bond_bb_sc'(Backbond-sidechain carbon hydrogen bonds)；

D4)'ch_bond_sc_sc'(Sidechain-sidechain carbon hydrogen bonds)；

D5)'dslf_ca_dih'(Cαdihedral score in current disulfide)；

D6)'dslf_cs_ang'(Csangles score in current disulfide)；

D7)'dslf_fa13'(Disulfide geometry potential.)；

D8)'dslf_ss_dih'(Dihedral score in current disulfide)；

D9)'dslf_ss_dst'(Distance score in current disulfide)；

D10)'dslfc_RT'(Disulfide matching term 1)；

D11)'dslfc_rot'(Disulfide matching term 2)；

D12)'dslfc_trans'(Disulfide matching term 3)；

D13)'fa_atr'(Lennard-Jones attractive between atoms in differentresidues.)；

D14)'fa_dun'(Internal energy of sidechain rotamers as derived fromDunbrack's statistics.)；

D15)'fa_elec'(Coulombic electrostatic potential with a distance-dependent dielectric.)；

D16)'fa_intra_rep'(Lennard-Jones repulsive between atoms in the sameresidue.)；

D17)'fa_pair_aro_aro'(Short-ranged context-independent two-body scoreterm 1)；

D18)'fa_pair_aro_pol'(Short-ranged context-independent two-body scoreterm 2)；

D19)'fa_pair_pol_pol'(Short-ranged context-independent two-body scoreterm 3)；

D20)'fa_rep'(Lennard-Jones repulsive between atoms in differentresidues.)；

D21)'fa_sol'(Lazaridis-Karplus solvation energy.)；

D22)'geom_sol'(Geometric solvation energy for polar atoms)；

D23)'hbond_bb_sc'(Sidechain-backbone hydrogen bond energy.)；

D24)'hbond_lr_bb'(Backbone-backbone hbonds distant in primarysequence.)；

D25)'hbond_lr_bb_sc'(Backbone-sidechain hbonds distant in primarysequence.)；

D26)'hbond_sc'(Sidechain-sidechain hydrogen bond energy.)；

D27)'hbond_sr_bb'(Backbone-backbone hbonds close in primarysequence.)；

D28)'hbond_sr_bb_sc'(Backbone-sidechain hbonds close in primarysequence.)；

D29)'omega'(Omega dihedral in the backbone.)；

D30)'p_aa_pp'(Probability of amino acid atΦ/Ψ.)；

D31)'peptide_bond'；

D32)'pro_close'(Proline ring closure energy and energy of psi angleof preceding residue.)；

D33)'rama'(Ramachandran preferences.)；

D34)'ref'(Reference energy for each amino acid.Balances internalenergy of amino acid terms.)；

D35)'rg'(Radius of gyration)。

在一些实施方案中，所述模型质量评估打分特征包括如下特征中的至少一个：

E1)'DOPE score'；

E2)'DOPE-HR score'；

E3)'Normalized DOPE score'；

E4)'GA341_0'；

E5)'GA341_1'；

E6)'GA341_2'；

E7)'GA341_3'；

E8)'GA341_4'；

E9)'GA341_5'；

E10)'GA341_6'；

E11)'GA341_7'；

E12)'pcons_d2'；

E13)'pcons_d3'；

E14)'pcons_d5'；

E15)'pcons_d6'。

在一些实施方案中，所述模板库中的单链结构序列长度≤500个残基。还可以是≤480个残基、≤450个残基、≤300个残基、≤250个残基、≤200个残基等等。

在一些实施方案中，所述模板库中的单链结构是经过蛋白质序列聚类工具CD-HIT进行去冗余得到。

在一些实施方案中，所述模板库的构建方法包括：

pdb文件拆分及链内二硫键判断步骤，包括从蛋白质数据库下载蛋白质结构的pdb文件，用Python脚本将每个pdb文件拆为单链，判断每条链的长度与二硫键数量，通过Python脚本根据pdb头文件中的“SSBOND”标签信息判断二硫键是否为链内(intra-chain)二硫键，以及判断该链的长度，仅保留序列长度≤500个残基且含≥2对链内二硫键的单链结构，另存为一个新的pdb文件；

去冗余步骤，包括用蛋白质序列聚类工具CD-HIT对链内二硫键判断步骤输出的所有蛋白质的序列进行去冗余，输出序列文件和聚类信息文件；

结构质量排序步骤：根据去冗余步骤输出的聚类信息文件，为每个聚类选取一个最佳质量的代表结构，利用Python脚本读取同一个聚类中所有序列对应的原始pdb文件，再将它们的结构质量从高到低进行排序；

格式规范处理步骤，根据结构质量排序步骤输出的pdb文件，利用Python脚本对不规范的pdb文件进行标准化处理，在标准化后的结构中，非天然氨基酸被替换为与之最接近的标准氨基酸，缺失部分原子坐标的残基被修补完整，残基序号被重新按顺序规范编号，最终得序列长度不超过500、含有至少2对二硫键、不含非天然氨基酸、去冗余且格式规范的模板结构，构成含二硫键蛋白质模板库。

在一些实施方案中，结构质量排序步骤是基于如下规则对结构质量从高到低进行排序：

a)X-ray结构优先级高于其他实验方法获得的结构；

b)根据X-ray结构的分辨率和R因子计算质量因子，用于比较同一序列的不同的X-ray结构。质量因子计算公式如下，质量因子越大，结构质量越高；

quality factor是指质量因子，resolution是指分辨率，R_value是指R因子；

c)对于非X-ray结构，则比较结构的解析日期，最近解析的结构优先级高于过去解析的结构；

d)如果以上信息都相同，则按字母顺序排名。

在一些实施方案中，所述去冗余步骤包括：首先，最长的序列成为第一个聚类的代表序列；然后，将每个剩余序列与现有聚类的代表序列进行比较，如果与任何代表序列的相似性高于给定阈值，则将其分组到该聚类中，否则，将以该序列为代表定义一个新聚类；输出序列文件和聚类信息文件。

在一些实施方案中，训练所述机器学习模型所使用的算法选自LightGBM、SVM、神经网络中的任一种。在一优选的实施方案中，训练所述机器学习模型所使用的算法为LightGBM。

在一些实施方案中，使用所述序列特征对候选模板筛选步骤的模板筛选器进行训练，以模型的GDT-HA为标签。

在一些实施方案中，所述结构预测步骤中，将所述序列特征、结构特征输入机器学习模型后，进行模型排序和模型准确度打分，输出得分最高的模型作为预测结构，并得到该结构的预测GDT-HA分数。

在一些实施方案中，所述结构预测步骤中，使用所述序列特征、结构特征训练模型排序器，以模型的A-score作为标签，训练目标是预测模型质量的排名(排序)。

在一些实施方案中，所述结构预测步骤中，使用所述序列特征、结构特征训练模型准确度打分器，以模型的GDT-HA作为标签。

在一些实施方案中，所述蛋白质结构数据库包括但不限于PDB数据库(http://www.rcsb.org/)。

候选模型构建模块，用于将所述序列特征输入机器学习模型中，筛选得到候选模板，根据所述候选模板构建三维模型，得到候选模型；

结构特征提取模块，用于从所述候选模型中提取结构特征；

在一些实施方案中，初次构建模型时，需要使用模板库构建模块，用于拆分蛋白质结构的pdb文件并筛选序列长度≤500个残基且含≥2对链内二硫键的单链结构，去冗余，结构质量排序，标准化处理，得到长度不超过500、含有至少2对二硫键、不含非天然氨基酸、去冗余且格式规范的模板结构，构成含二硫键蛋白质的模板库。构建好模型后，直接进行结构预测时，使用序列比对模块、候选模型构建模块、结构特征提取模块、结构预测模块，如果仅仅是用于结构预测，可以直接下载构建好的模板库用于结构预测，则装置可以只包含序列比对模块、候选模型构建模块、结构特征提取模块、结构预测模块。

根据第三方面，一种实施例中提供一种装置，包括：

存储器，用于存储程序；

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

在一些实施方案中，利用基于模板建模方法预测富含二硫键多肽结构有两个关键点需要注意：第一，在序列比对中，二硫键半胱氨酸(Cyx)与游离态半胱氨酸(Cys)这两种残基类型应区分对待。在富含二硫键多肽序列中，半胱氨酸残基所占比例大于10％，远高于一般蛋白质中出现的概率。因此，在序列比对时，不仅应对Cyx和Cys予以区分，而且还应适当提高Cyx-Cyx对的替换分数。这样有利于在目标-模板的序列比对中使更多的Cyx之间配对上，从而使目标多肽的建模结构继承模板结构中的二硫键连接(见图1)。第二，在富含二硫键多肽体系上，仅基于序列信息挑选模板是不够的。由于富含二硫键多肽结构中多个二硫键的纵横交错，使得该体系的序列一致性与结构相似度的关系更加复杂。高序列一致性并不一定意味着结构相似。即使是序列完全一致的富含二硫键多肽，也会由于不同的二硫键连接模式而产生各种同分异构体(见图2)。相反，序列一致性低但二硫键连接模式一致的两个富含二硫键多肽却可能具有相似结构。因此，为富含二硫键多肽挑选模板应考虑多方面因素，增加多元化特征，尤其是与二硫键相关的结构特征。

在一实施例中，如图1所示为序列比对中不同半胱氨酸配对结果对目标多肽基于模板建模结构形成的二硫键的影响。(A)目标多肽序列与模板序列，灰色连接线为二硫键连接；(B)该序列比对无法使目标多肽的结构形成二硫键，因为目标多肽序列中的4个半胱氨酸只有3个和模板中的Cyx匹配，且没有成对匹配模板序列中的Cyx；(C)该序列比对只能使目标多肽的结构形成1对二硫键。虽然目标多肽序列中的4个半胱氨酸均与模板中的Cyx相匹配，但目标多肽序列中只有1对半胱氨酸与模板序列中的Cyx“成对匹配”，因此只形成1对二硫键；(D)该序列比对可使目标多肽的结构形成2对正确的二硫键。目标多肽序列中的4个半胱氨酸不仅均与模板中的Cyx匹配，且均“成对匹配”，因此能形成2对二硫键，且与正确的连接模式一致。

在一实施例中，图2显示为同一富含二硫键多肽序列(含有2对二硫键)因具有不同二硫键连接模式而产生的三种同分异构体。

在一些实施方案中，本发明开发了一种新的基于模板建模方法CRiSP(Cystine-Rich peptide Structure Prediction，以下简称CRiSP)，用于预测富含二硫键多肽结构。首先，本发明专门构建了含二硫键蛋白质结构的模板数据库(disulfide-bonded proteinstructure template database)，里面的所有模板均含有两对及以上的二硫键，并从该库中筛选出用于训练和验证CRiSP的富含二硫键目标多肽数据集。还新开发了一种针对富含二硫键多肽进行优化的半胱氨酸特异性双序列比对(cystine-specific pairwisesequence alignment)方法，用于将目标多肽与模板库中的序列进行比对。另外，CRiSP挑选模板的思路与传统基于模板建模不同。传统方法是先序列比对后挑选其认为的最佳模板，然后用该模板建模。这种方式只能参考序列信息来挑选模板，难以适用于富含二硫键多肽体系。而CRiSP在序列比对后先淘汰比对结果很差的模板，并基于其余模板全部进行建模，最后用基于多种类型特征训练的机器学习模型对这些建模结构进行排名，直接选出最佳结构，并评估该结构的准确度。简而言之，传统方法先选最佳模板再建模，CRiSP先批量建模再直接选出最佳结构。这种思路不仅可以利用序列信息，还可以利用多种结构信息以进行更合理的模型挑选。

在一些实施方案中，如图3所示为CRiSP的结构预测流程图，CRiSP预测过程如下：首先，待预测结构的目标序列与含二硫键蛋白质的模板数据库中所有序列进行半胱氨酸特异性序列比对。然后从这些序列比对中提取105个序列特征输入到训练好的机器学习模型“模板筛选器”(template filter)中，筛选并保留427个候选模板。再基于这些模板使用MODELLER程序进行三维模型的构建。最后，从这些候选模型中提取69个结构特征，连同之前的105个序列特征，一起被输入到训练好的机器学习模型“模型排序器”(model ranking)和“模型准确度打分器”(model accuracy grader)中，输出排名第一的模型作为预测结构，并得到该结构的预测GDT-HA分数。

在一实施例中，提供一种结构预测方法，包括以下步骤：

1、构建含二硫键蛋白质的模板数据库

开发新的基于模板建模方法首先需要构建相应的模板数据库。一般的基于模板建模方法通常使用去冗余的PDB数据库作为模板库，但对于富含二硫键多肽结构，正如前文所述，只有模板蛋白中含有二硫键才能使目标多肽的建模结构继承模板的二硫键。因此，需专门构建一个含有二硫键蛋白质的模板数据库，才能有效保证预测结构中含有二硫键。本发明先从PDB数据库(http://www.rcsb.org/)中下载所有蛋白质结构的pdb文件(一种按照一定格式记录蛋白质分子坐标和蛋白质信息的文件)，仅保留序列长度≤500个残基且含≥2对链内二硫键的单链结构，并用蛋白质序列聚类工具CD-HIT进行去冗余，最终得到共计8548个序列长度不超过500、含有至少2对二硫键、去冗余且格式规范的模板结构，构成含二硫键蛋白质模板库。

在一实施例中，构建模板库的详细过程如图5所示，具体如下：

先从PDB数据库中下载所有蛋白质结构(下载日期为2018年，当时共计超过十四万个结构)的pdb文件(一种按照一定格式记录蛋白质分子坐标和蛋白质信息的文件)。然后按照以下四个步骤处理和筛选蛋白质结构：

1)用Python脚本将每个pdb文件拆为单链(chain)，判断每条链的长度与二硫键数量。由于一个pdb文件(NMR结构只分析第一个model)中可能含有多条链(如蛋白质复合物)，故需将潜在的富含二硫键多肽结构链与其他蛋白质结构链拆开。通过Python脚本根据pdb头文件中的“SSBOND”标签信息(用于记录该蛋白质中的二硫键连接情况，注明了每一对二硫键相连的Cyx所在的链序号和残基序号)判断二硫键是否为链内(intra-chain)二硫键，以及判断该链的长度，仅保留序列长度≤500个残基且含≥2对链内二硫键的单链结构，另存为一个新的pdb文件，命名为：原pdb ID(小写字母)+链序号(大写字母)。

2)用蛋白质序列聚类工具CD-HIT对步骤1)输出的所有蛋白质的序列进行去冗余。CD-HIT聚类算法的简要规则如下：首先，最长的序列成为第一个聚类的代表序列；然后，将每个剩余序列与现有聚类的代表序列进行比较。如果与任何代表序列的相似性高于给定阈值，则将其分组到该聚类中，否则，将以该序列为代表定义一个新聚类。本实施例使用CD-HIT聚类的具体设置为：较短序列能100％比对到代表序列上，且序列匹配部分占代表序列长度的50％以上，则聚类为一组。CD-HIT输出文件有两个，分别为fasta格式的序列文件和后缀名为clstr的聚类信息文件。

3)根据步骤2)输出的聚类信息文件，为每个聚类选取一个最佳质量的代表结构。利用Python脚本读取同一个聚类中所有序列对应的原始pdb文件(只有原始pdb的头文件中包含结构信息)，再基于如下规则将它们的结构质量从高到低进行排序：

a)X-ray结构优先级高于其他实验方法获得的结构；

quality factor是指质量因子，resolution是指分辨率，R_value是指R因子。

d)如果以上信息都相同，则按字母顺序排名。

4)检查并处理由步骤3)输出的代表结构中的非天然氨基酸、缺失残基、缺失部分原子坐标、残基序号乱序和残基序号不规范等pdb文件常见问题。原始pdb文件中注释了各链的原始序列信息(所有残基均以20个标准氨基酸的单字母形式呈现)，其中非天然氨基酸的单字母为与之最接近的标准氨基酸单字母。因此，利用Python脚本对不规范的pdb文件进行标准化处理。在标准化后的结构中，非天然氨基酸被替换为与之最接近的标准氨基酸，缺失部分原子坐标的残基被修补完整，残基序号被重新按顺序规范编号。最终得到共计8548个序列长度不超过500、含有至少2对二硫键、不含非天然氨基酸、去冗余且格式规范的模板结构，构成含二硫键蛋白质模板库。虽然存在极少数的非天然氨基酸被替换为与之最接近的标准氨基酸之后可能会对原始构象产生一点扰动的情况，但这并不影响这些结构作为模板提供骨架的功能，更何况含有非天然氨基酸的模板数量相对于模板库几乎可以忽略不计。

2、半胱氨酸特异性序列比对

在富含二硫键多肽的序列比对中，Cyx应与Cys区分对待，而且替换矩阵中二硫键半胱氨酸对(Cyx-Cyx)的分数应高于游离态半胱氨酸对(Cys-Cys)，才有利于更多的Cyx相互配对，使目标多肽的建模结构形成正确的二硫键。本发明的序列比对方法采用Smith-Waterman算法，并设置Cyx-Cyx替换分数为33、空位开放罚分为-10和空位延伸罚分为-0.5。

“Cyx-Cyx替换分数为33”是指，在本发明的序列比对中，当目标序列中的Cyx与模板序列中的Cyx相互匹配时，序列比对得分加33。该分值有利于Cyx的匹配。

空位开放罚分，又称起始空位罚分，是指一旦出现空位就给出一个罚分。

空位延伸罚分是指对连续出现的空位设定的得分。

3、提取105个序列特征

序列特征可以分为原始特征与衍生特征。

3.1、原始特征根据不同特点可以分为两类：胱氨酸相关原始特征(cystine-related features)与序列比对原始特征(alignment-derived features)。

胱氨酸相关原始特征共7个，分别是：

A1)目标多肽序列中Cyx的数量；

A2)模板序列中Cyx的数量；

A3)目标多肽序列Cyx与模板序列Cyx的数量差；

A4)序列比对中，目标多肽序列Cyx与模板序列Cyx匹配的数量；

A5)序列比对中，相邻的匹配Cyx之间的环区长度一致的数量；

序列比对原始特征共17个，分别是：

B1)序列比对分数；

B2)非空位匹配的残基数；

B3)序列一致性；

B4)序列比对长度；

B5)目标多肽序列长度；

B6)模板序列长度；

B7)目标多肽序列插入的空位数量；

B8)模板序列插入的空位数量；

B9)序列比对中总空位数量；

B10)目标多肽序列首端插入的空位数量；

B11)目标多肽序列末端插入的空位数量；

B12)目标多肽序列中间插入的空位数量；

B13)模板序列首端插入的空位数量；

B14)模板序列末端插入的空位数量；

B15)模板序列中间插入的空位数量；

B16)除去首端和末端空位的目标多肽序列(含中间空位)长度；

B17)除去首端和末端空位的模板序列(含中间空位)长度。

3.2、衍生特征是基于上述两类原始特征通过不同的标准化处理方式得到的。标准化方式分别为：

3.2.1)7个胱氨酸相关原始特征通过以下两种标准化处理后，分别得到7个胱氨酸相关衍生特征，删去自除后等于1的特征，共得到2×6个胱氨酸相关衍生特征。

3.2.1.1)除以目标多肽序列中半胱氨酸的数量(胱氨酸相关原始特征A1)；

3.2.1.2)除以模板序列中Cyx的数量(胱氨酸相关原始特征A2)。

3.2.2)24个原始特征(含7个胱氨酸相关原始特征和17个序列比对原始特征)通过以下三种标准化处理后分别得到24个衍生特征，删去自除后等于1的特征，共得到3×23个衍生特征。

3.2.2.1)除以目标多肽序列长度(序列比对原始特征B5)；

3.2.2.2)除以序列比对长度(序列比对原始特征B4)；

3.2.2.3)除以模板序列长度(序列比对原始特征B6)。

综上所述，共得到7(胱氨酸相关原始特征)+2×6(胱氨酸相关衍生特征)+17(序列比对原始特征)+3×23(衍生特征)＝105个序列特征。

4、提取69个结构特征

4.1)MODELLER程序目标函数特征(19个)：

C1)目标函数总值(The total value of the objective function)；

C2)二硫键距离约束(Disulfide distance restraints)；

C3)二硫键键角约束(Disulfide angle restraints)；

C4)二硫键二面角约束(Disulfide dihedral angle restraints)；

C5)键长势能(Bond length potential)；

C6)键角势能(Bond angle potential)；

C7)立体化学余弦扭转势能(Stereochemical cosine torsion potential)；

C8)立体化学不当扭转势能(Stereochemical improper torsion potential)；

C9)软球重叠约束(Soft-sphere overlap restraints)；

C10)Cα-Cα距离约束(Distance restraints 1 CA-CA)；

C11)N-O距离约束(Distance restraints 2 N-O)；

C12)侧链-主链距离约束(Distance restraints 3 SDCH-MNCH)；

C13)侧链-侧链距离约束(Distance restraints 4 SDCH-SDCH)；

C14)主链二面角ω约束(Mainchain Omega dihedral restraints)；

C15)侧链二面角χ₁约束(Sidechain Chi_1 dihedral restraints)；

C16)侧链二面角χ₂约束(Sidechain Chi_2 dihedral restraints)；

C17)侧链二面角χ₃约束(Sidechain Chi_3 dihedral restraints)；

C18)侧链二面角χ₄约束(Sidechain Chi_4 dihedral restraints)；

C19)二面角

/ψ对的约束(Phi/Psi pair of dihedral restraints)。

4.2)Rosetta能量项特征(35个)：

D1)'ch_bond'(Carbon hydrogen bonds)；

D2)'ch_bond_bb_bb'(Backbond-backbone carbon hydrogen bonds)；

D3)'ch_bond_bb_sc'(Backbond-sidechain carbon hydrogen bonds)；

D4)'ch_bond_sc_sc'(Sidechain-sidechain carbon hydrogen bonds)；

D5)'dslf_ca_dih'(Cαdihedral score in current disulfide)；

D6)'dslf_cs_ang'(Csangles score in current disulfide)；

D7)'dslf_fa13'(Disulfide geometry potential.)；

D8)'dslf_ss_dih'(Dihedral score in current disulfide)；

D9)'dslf_ss_dst'(Distance score in current disulfide)；

D10)'dslfc_RT'(Disulfide matching term 1)；

D11)'dslfc_rot'(Disulfide matching term 2)；

D12)'dslfc_trans'(Disulfide matching term 3)；

D13)'fa_atr'(Lennard-Jones attractive between atoms in differentresidues.)；

D17)'fa_pair_aro_aro'(Short-ranged context-independent two-body scoreterm 1)；

D18)'fa_pair_aro_pol'(Short-ranged context-independent two-body scoreterm 2)；

D19)'fa_pair_pol_pol'(Short-ranged context-independent two-body scoreterm 3)；

D20)'fa_rep'(Lennard-Jones repulsive between atoms in differentresidues.)；

D21)'fa_sol'(Lazaridis-Karplus solvation energy.)；

D22)'geom_sol'(Geometric solvation energy for polar atoms)；

D23)'hbond_bb_sc'(Sidechain-backbone hydrogen bond energy.)；

D24)'hbond_lr_bb'(Backbone-backbone hbonds distant in primarysequence.)；

D25)'hbond_lr_bb_sc'(Backbone-sidechain hbonds distant in primarysequence.)；

D26)'hbond_sc'(Sidechain-sidechain hydrogen bond energy.)；

D27)'hbond_sr_bb'(Backbone-backbone hbonds close in primarysequence.)；

D28)'hbond_sr_bb_sc'(Backbone-sidechain hbonds close in primarysequence.)；

D29)'omega'(Omega dihedral in the backbone.)；

D30)'p_aa_pp'(Probability of amino acid atΦ/Ψ.)；

D31)'peptide_bond'；

D33)'rama'(Ramachandran preferences.)；

D35)'rg'(Radius of gyration)。

4.3)模型质量评估打分特征(15个)：MODELLER程序内置的四种模型质量评估方法：DOPE(Discrete Optimized Protein Energy)、DOPE-HR(High Resolution)、normalized_DOPE和GA341，以及模型质量评估方法Pcons对模型的打分：

E1)'DOPE score'；

E2)'DOPE-HR score'；

E3)'Normalized DOPE score'；

E4)'GA341_0'；

E5)'GA341_1'；

E6)'GA341_2'；

E7)'GA341_3'；

E8)'GA341_4'；

E9)'GA341_5'；

E10)'GA341_6'；

E11)'GA341_7'；

E12)'pcons_d2'；

E13)'pcons_d3'；

E14)'pcons_d5'；

E15)'pcons_d6'。

5、机器学习模型

本实施例的机器学习模型均使用LightGBM框架进行训练。由于模板筛选器用在建模之前，因此仅用序列特征进行训练，以模型的GDT-HA为标签。模型排序器用于建模之后，因此除了序列特征之外，还加入了模型的结构特征进行训练，并以模型的A-score作为标签，训练目标是预测模型质量的排名(排序)。模型准确度打分器的训练也是利用序列特征和模型的结构特征，但以模型的GDT-HA作为标签。

实施例1

本实施例分析CRiSP结构预测中一个重要的环节——半胱氨酸特异性序列比对方法对预测结果的影响。图6展示了CRiSP和MODELLER对目标多肽2mfsA的预测结果，其中MODELLER对该目标多肽的预测结果为四种对比方法中最佳，因此不再赘述另外三种方法的预测结果。从MODELLER的序列比对可以看到，其找出的模板与目标多肽有13个残基相同，在序列比对中只插入了2个空位；而CRiSP找出的模板与目标多肽的序列仅有7个残基相同，而且在序列比对中共插入了4个空位。仅从上述序列比对结果来看MODELLER的模板明显好于CRiSP，但是，MODELLER的序列比对方法没有考虑二硫键的重要性，未将目标多肽中的半胱氨酸尽可能多地与模板序列中的Cyx相配对，使得构建的模型缺少了1对二硫键，导致预测结构与实验结构偏差较大；而CRiSP的半胱氨酸特异性序列比对优先匹配模板中的Cyx，虽然其序列比对中只有7个残基完全匹配，但其中6个都是Cyx，CRiSP预测结构继承了模板结构中的所有二硫键。即使其他残基不能完全匹配，但模板结构的整体框架通过二硫键的固定而得到很好的继承。可见，传统的序列比对方法不适用于富含二硫键多肽结构体系，而本实施例开发的半胱氨酸特异性序列比对优先考虑Cyx的配对，能使序列一致性虽低但二硫键连接模式正确且结构相似的模板从众多候选模板中脱颖而出，使得预测结构能形成正确的二硫键连接模式。

实施例2

本实施例分析CRiSP结构预测中另一个重要的环节——模型排序器对预测结果的影响。图7展示了CRiSP和RaptorX对目标多肽3c05B的预测结果，另外三种方法选择的模板和RaptorX相同，故不再赘述它们的预测结果。从RaptorX的序列比对可以看到，其找到的模板1l3xA与目标多肽的序列一致性高达88％，而且所有的半胱氨酸均已匹配，预测结构也继承了模板结构中的二硫键。从序列比对上看似合适的模板其预测结构却与实验结构的RMSD近

而CRiSP的模型排序器从候选模板中挑出了序列一致性为64％的另一模板4r5rA，虽然从序列比对上看该模板不如RaptorX的模板，但其预测结构与实验结构的RMSD仅为

二者的预测结构虽然都形成了4对二硫键，但是由于其连接模式不同导致结构大相径庭。经过分析发现，在只基于序列特征的模板筛选器中，模板1l3xA的预测GDT-HA分数最高；但是在同时利用了序列和结构信息的模型排序器中，模板1l3xA构建的结构只排在了第19位。这说明CRiSP的模型排序器能综合考虑多方面因素对候选模型的质量进行评估，从而选出更准确的预测结构。

实施例3

本实施例将CRiSP在测试集上的预测结果与四种基于模板建模工具：MODELLLER(9.21版本)、HHPred、RaptorX和FALCON@home进行对比。由于RaptorX和FALCON@home分别对于序列长度小于26和25的多肽无法进行结构预测，因此本实施例仅对比测试集中序列长度大于25的目标多肽(共82个)的预测结果。当某一基于模板建模工具在其模板库中仅能找到一个与目标多肽序列完全相同的模板时，该目标多肽被认为找不到模板，从而无法对其进行结构预测。为了避免这一情况出现导致有些目标多肽的预测结果出现空白值而影响评估该工具的表现，本实施例将这些目标多肽的结果用CRiSP对该目标多肽的预测结果来代替。

如图8所示，CRiSP预测结构的RMSD中位数为

而RaptorX、FALCON@home、MODELLER和HHPred的RMSD中位数分别为/>

和/>

说明在这些方法中CRiSP预测结构的整体准确度最高。CRiSP预测结构的GDT-TS中位数与平均值分别为83.8与76.5，而另外四种方法中最高的GDT-TS中位数与平均值仅为75(MODELLER)与71.6(RaptorX)。需要注意的是，RaptorX的预测结果看似仅次于CRiSP，但事实上在82个目标多肽中RaptorX有30.5％的目标多肽因无法找到模板而使用CRiSP的预测结果代替，所以才与CRiSP结果较为接近；在HHPred的结果中有8.5％的目标多肽也存在同样情况。

通常来说，GDT-TS分数大于50的预测结构意味着有较好的整体准确度，而GDT-TS分数大于80则认为是高精度预测结构。在CRiSP预测结构中，GDT-TS大于50分的数量占测试集的87％，GDT-TS大于80分的数量占测试集的59％，二者占比均为五种方法之最。可见CRiSP的结构预测准确度相较于另外四种方法有明显优势。

实施例4

如表1所示，CRiSP在测试集(test)的表现与4折交叉验证数据集(CV 1～CV 4)的表现十分接近，可见CRiSP不存在过拟合问题。

表1MODELLER和CRiSP的预测结构以及理论最优模型在交叉验证数据集(CV 1～4)与测试集(test)上的结果，其中N为对应数据集的目标多肽数量

^a从每个目标多肽构建的427个模型中，选出与实验结构最接近(A-score最高)的结构，称为理论最优模型(best)^b MODELLER预测的结构。

理想情况下，CRiSP模型排序器所预测的排名第一的结构应与理论最优模型一致，然而现实中二者必然存在一定差距，不同方法的预测结构与理论最优模型的差距能反映其挑选最优模板的能力。如表1所示，对于1048个目标多肽(total)，MODELLER预测结构的平均GDT-HA、GDT-TS和TM-score比理论最优模型相应分数分别低了10.90、9.16和9.26，而CRiSP预测结构的平均GDT-HA，GDT-TS和TM-score与理论最优模型相应分数分别只相差了4.44、3.84和3.93。由于CRiSP同样也使用MODELLER程序构建三维模型，可见CRiSP相较于MODELLER结构预测方法的优势在于能够为富含二硫键目标多肽找到更合适的模板。

与现有技术相比，本发明至少具有如下有益效果之一：

1)含二硫键多肽(尤其是富含二硫键的多肽)结构预测的准确度更高；

2)能够准确预测二硫键连接模式；

3)能够评估预测结构的准确度。

本发明打破传统的先选模板再建模的思路，将基于模板建模与机器学习模型相结合，采用先建模再根据结构挑选预测结构的思路。

在一些实施方案中，本发明的半胱氨酸特异性序列比对步骤，在序列比对的过程中将游离态半胱氨酸与形成二硫键的半胱氨酸进行区分，适当提高Cyx-Cyx的替换分数，使得构建的模型能形成更多的二硫键。

在一些实施方案中，本发明设计了多种与半胱氨酸和二硫键相关的特征，对含二硫键多肽(尤其是富含二硫键的多肽)的特点进行针对性地设计。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种含二硫键多肽的结构预测方法，其特征在于，包括：

结构特征提取步骤，包括从所述候选模型中提取结构特征；

结构预测步骤，包括将所述序列特征、结构特征输入机器学习模型中，输出模型，得到预测结构；

所述序列特征包括原始特征、衍生特征中的至少一个；

所述原始特征包括胱氨酸相关原始特征、序列比对原始特征中的至少一个；

所述胱氨酸相关原始特征包括如下特征中的至少一个：

A1）目标多肽序列中二硫键半胱氨酸的数量；

A2）模板序列中二硫键半胱氨酸的数量；

A3）目标多肽序列二硫键半胱氨酸与模板序列二硫键半胱氨酸的数量差；

A4）序列比对中，目标多肽序列二硫键半胱氨酸与模板序列二硫键半胱氨酸匹配的数量；

A5）序列比对中，相邻的匹配二硫键半胱氨酸之间的环区长度一致的数量；

A6）序列比对中，目标多肽序列二硫键半胱氨酸与模板序列二硫键半胱氨酸“成对”匹配的数量；

A7）序列比对中，相邻的“成对”匹配二硫键半胱氨酸之间的环区长度一致的数量；

和/或，所述序列比对原始特征包括如下特征中的至少一个：

B1）序列比对分数；

B2）非空位匹配的残基数；

B3）序列一致性；

B4）序列比对长度；

B5）目标多肽序列长度；

B6）模板序列长度；

B7）目标多肽序列插入的空位数量；

B8）模板序列插入的空位数量；

B9）序列比对中总空位数量；

B10）目标多肽序列首端插入的空位数量；

B11）目标多肽序列末端插入的空位数量；

B12）目标多肽序列中间插入的空位数量；

B13）模板序列首端插入的空位数量；

B14）模板序列末端插入的空位数量；

B15）模板序列中间插入的空位数量；

B16）除去首端和末端空位的目标多肽序列长度；

B17）除去首端和末端空位的模板序列长度。

2.如权利要求1所述的结构预测方法，其特征在于，所述模板库中的单链结构含有至少1对链内二硫键。

3.如权利要求1所述的结构预测方法，其特征在于，所述模板库中的单链结构含有至少2对链内二硫键。

4.如权利要求1所述的结构预测方法，其特征在于，在目标多肽的序列比对中，二硫键半胱氨酸与游离态半胱氨酸区分对待，而且替换矩阵中二硫键半胱氨酸对的分数高于游离态半胱氨酸对。

5.如权利要求1所述的结构预测方法，其特征在于，所述序列比对的方法采用Smith-Waterman算法、Needleman-Wunch算法中的任一种。

6.如权利要求1所述的结构预测方法，其特征在于，所述序列比对的方法采用Smith-Waterman算法。

7.如权利要求1所述的结构预测方法，其特征在于，序列比对时，分数设置规则为：替换分数＞空位开放罚分＞空位延伸罚分。

8.如权利要求1所述的结构预测方法，其特征在于，序列比对时，设置二硫键半胱氨酸对替换分数为33、空位开放罚分为-10、空位延伸罚分为-0.5。

9.如权利要求1所述的结构预测方法，其特征在于，所述衍生特征包括由所述胱氨酸相关原始特征标准化处理得到的胱氨酸相关衍生特征，所述胱氨酸相关原始特征标准化处理方法包括如下方法中的至少一种：

P1）除以目标多肽序列中半胱氨酸的数量；

P2）除以模板序列中二硫键半胱氨酸的数量；

和/或，得到所述胱氨酸相关衍生特征后，删去自除后等于1的特征；

和/或，所述衍生特征还包括由所述胱氨酸相关原始特征和所述序列比对原始特征标准化处理得到的衍生特征，所述标准化处理方法包括如下方法中的至少一种：

Q1）除以目标多肽序列长度；

Q2）除以序列比对长度；

Q3）除以模板序列长度；

和/或，得到所述衍生特征后，删去自除后等于1的特征。

10.如权利要求1所述的结构预测方法，其特征在于，所述结构特征包括MODELLER程序目标函数特征、Rosetta能量项特征、模型质量评估打分特征中的至少一个；

和/或，所述MODELLER程序目标函数特征包括如下特征中的至少一个：

C1）目标函数总值（The total value of the objective function）；

C2）二硫键距离约束（Disulfide distance restraints）；

C3）二硫键键角约束（Disulfide angle restraints）；

C4）二硫键二面角约束（Disulfide dihedral angle restraints）；

C5）键长势能（Bond length potential）；

C6）键角势能（Bond angle potential）；

C7）立体化学余弦扭转势能（Stereochemical cosine torsion potential）；

C8）立体化学不当扭转势能（Stereochemical improper torsion potential）；

C9）软球重叠约束（Soft-sphere overlap restraints）；

C10）Cα-Cα距离约束（Distance restraints 1 CA-CA）；

C11）N-O距离约束（Distance restraints 2 N-O）；

C12）侧链-主链距离约束（Distance restraints 3 SDCH-MNCH）；

C13）侧链-侧链距离约束（Distance restraints 4 SDCH-SDCH）；

C14）主链二面角ω约束（Mainchain Omega dihedral restraints）；

C15）侧链二面角χ₁约束（Sidechain Chi_1 dihedral restraints）；

C16）侧链二面角χ₂约束（Sidechain Chi_2 dihedral restraints）；

C17）侧链二面角χ₃约束（Sidechain Chi_3 dihedral restraints）；

C18）侧链二面角χ₄约束（Sidechain Chi_4 dihedral restraints）；

C19）二面角φ/ψ对的约束（Phi/Psi pair of dihedral restraints）；

和/或，所述Rosetta能量项特征包括如下特征中的至少一个：

D1）'ch_bond'（Carbon hydrogen bonds）；

D2）'ch_bond_bb_bb'（Backbond-backbone carbon hydrogen bonds）；

D3）'ch_bond_bb_sc'（Backbond-sidechain carbon hydrogen bonds）；

D4）'ch_bond_sc_sc'（Sidechain-sidechain carbon hydrogen bonds）；

D5）'dslf_ca_dih'（Cα dihedral score in current disulfide）；

D6）'dslf_cs_ang'（Csangles score in current disulfide）；

D7）'dslf_fa13'（Disulfide geometry potential.）；

D8）'dslf_ss_dih'（Dihedral score in current disulfide）；

D9）'dslf_ss_dst'（Distance score in current disulfide）；

D10）'dslfc_RT'（Disulfide matching term 1）；

D11）'dslfc_rot'（Disulfide matching term 2）；

D12）'dslfc_trans'（Disulfide matching term 3）；

D13）'fa_atr'（Lennard-Jones attractive between atoms in differentresidues.）；

D14）'fa_dun'（Internal energy of sidechain rotamers as derived fromDunbrack's statistics.）；

D15）'fa_elec'（Coulombic electrostatic potential with a distance-dependentdielectric.）；

D16）'fa_intra_rep'（Lennard-Jones repulsive between atoms in the sameresidue.）；

D17）'fa_pair_aro_aro'（Short-ranged context-independent two-body scoreterm 1）；

D18）'fa_pair_aro_pol'（Short-ranged context-independent two-body scoreterm 2）；

D19）'fa_pair_pol_pol'（Short-ranged context-independent two-body scoreterm 3）；

D20）'fa_rep'（Lennard-Jones repulsive between atoms in differentresidues.）；

D21）'fa_sol'（Lazaridis-Karplus solvation energy.）；

D22）'geom_sol'（Geometric solvation energy for polar atoms）；

D23）'hbond_bb_sc'（Sidechain-backbone hydrogen bond energy.）；

D24）'hbond_lr_bb'（Backbone-backbone hbonds distant in primary sequence.）；

D25）'hbond_lr_bb_sc'（Backbone-sidechain hbonds distant in primarysequence.）；

D26）'hbond_sc'（Sidechain-sidechain hydrogen bond energy.）；

D27）'hbond_sr_bb'（Backbone-backbone hbonds close in primary sequence.）；

D28）'hbond_sr_bb_sc'（Backbone-sidechain hbonds close in primarysequence.）；

D29）'omega'（Omega dihedral in the backbone.）；

D30）'p_aa_pp'（Probability of amino acid at Φ/Ψ.）；

D31）'peptide_bond'；

D32）'pro_close'（Proline ring closure energy and energy of psi angle ofpreceding residue.）；

D33）'rama'（Ramachandran preferences.）；

D34）'ref'（Reference energy for each amino acid. Balances internal energyof amino acid terms.）；

D35）'rg'（Radius of gyration）；

和/或，所述模型质量评估打分特征包括如下特征中的至少一个：

E1）'DOPE score'；

E2）'DOPE-HR score'；

E3）'Normalized DOPE score'；

E4）'GA341_0'；

E5）'GA341_1'；

E6）'GA341_2'；

E7）'GA341_3'；

E8）'GA341_4'；

E9）'GA341_5'；

E10）'GA341_6'；

E11）'GA341_7'；

E12）'pcons_d2'；

E13）'pcons_d3'；

E14）'pcons_d5'；

E15）'pcons_d6'。

11.如权利要求1所述的结构预测方法，其特征在于，所述模板库中的单链结构序列长度≤500个残基；

和/或，所述模板库中的单链结构是经过蛋白质序列聚类工具CD-HIT进行去冗余得到；

和/或，训练所述机器学习模型所使用的算法选自LightGBM、SVM、神经网络中的任一种；

和/或，候选模型筛选步骤中，使用所述序列特征训练模板筛选器，以模型的GDT-HA为标签；

和/或，所述结构预测步骤中，将所述序列特征、结构特征输入机器学习模型后，进行模型排序和模型准确度打分，输出得分最高的模型作为预测结构，并得到该结构的预测GDT-HA分数；

和/或，所述结构预测步骤中，使用所述序列特征、结构特征训练模型排序器，以模型的A-score作为标签，训练目标是预测模型质量的排序；

和/或，所述结构预测步骤中，使用所述序列特征、结构特征训练模型准确度打分器，以模型的GDT-HA作为标签。

12.一种用于预测含二硫键多肽结构的装置，其特征在于，包括：

结构特征提取模块，用于从所述候选模型中提取结构特征；

结构预测模块，用于将所述序列特征、结构特征输入机器学习模型中，输出模型，得到预测结构；

所述序列特征包括原始特征、衍生特征中的至少一个；

所述胱氨酸相关原始特征包括如下特征中的至少一个：

A1）目标多肽序列中二硫键半胱氨酸的数量；

A2）模板序列中二硫键半胱氨酸的数量；

和/或，所述序列比对原始特征包括如下特征中的至少一个：

B1）序列比对分数；

B2）非空位匹配的残基数；

B3）序列一致性；

B4）序列比对长度；

B5）目标多肽序列长度；

B6）模板序列长度；

B7）目标多肽序列插入的空位数量；

B8）模板序列插入的空位数量；

B9）序列比对中总空位数量；

B10）目标多肽序列首端插入的空位数量；

B11）目标多肽序列末端插入的空位数量；

B12）目标多肽序列中间插入的空位数量；

B13）模板序列首端插入的空位数量；

B14）模板序列末端插入的空位数量；

B15）模板序列中间插入的空位数量；

B16）除去首端和末端空位的目标多肽序列长度；

B17）除去首端和末端空位的模板序列长度。

13.一种用于预测含二硫键多肽结构的设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-11中任一项所述的预测方法。

14.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-11中任一项所述的预测方法。