CN111383721B

CN111383721B - 预测模型的构建方法、多肽合成难度的预测方法及装置

Info

Publication number: CN111383721B
Application number: CN201811616843.9A
Authority: CN
Inventors: 盛夏; 李英连; 王卫国
Original assignee: Jiangsu Genscript Biotech Co Ltd
Current assignee: Jiangsu Genscript Biotech Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2020-12-15
Anticipated expiration: 2038-12-27
Also published as: CN111383721A

Abstract

本申请提供了一种多肽合成难度预测模型的构建方法及装置、以及多肽合成难度的预测方法及装置，首先，获取多肽合成难度预测模型的训练数据和测试数据，分别将训练数据和测试数据导入预先选取的多个机器学习模型中，对多个机器学习模型进行训练，得到每个机器学习模型的训练结果评价指标值，依据每个机器学习模型的训练结果评价指标值，对每个机器学习模型的预测结果进行分析，并将预测结果最好的机器学习模型确定为多肽合成难度预测模型。然后，将待测试多肽的多肽序列、目标纯度、目标产量和特征信息输入到该多肽合成难度预测模型中进行处理，得到所述待测试多肽的合成难度，实现了对多肽合成难度的预测。

Description

预测模型的构建方法、多肽合成难度的预测方法及装置

技术领域

本发明涉及计算机技术领域，更具体的，涉及一种多肽合成难度预测模型的构建方法、多肽合成难度的预测方法及装置。

背景技术

多肽是多个氨基酸借由肽键连接起来的有机化合物，多肽合成为使用有机化学手段合成多肽的过程。工业化的多肽合成除了要求多肽产物的序列正确之外，对于产物的纯度、产量都有要求。

多肽固相合成是由一系列复杂的化学反应组成的，任何一个或几个反应出现问题，都可能造成产物的序列、纯度或产量不达标，需要重新设计合成路线，增加了多肽的合成成本，延长了多肽的合成时间。

这种使用常规手段无法一次合成达标的多肽，称为困难多肽。造成多肽合成困难的原因很多，比如多肽的长度，等电点，疏水度，需要添加的修饰基团的复杂度，多肽中的重复片段的长度，重复次数等等。这些因素对于多肽困难的影响是相互作用的，而且是非线性的，比如多肽长度长于30aa，会增加合成的困难，但是如果多肽长度过短，小于5aa，同样也会造成合成的困难。因而很难找到一套简单的标准，来判断多肽序列的合成难度。

发明内容

有鉴于此，本发明提供了一种多肽合成难度预测模型的构建方法、多肽合成难度的预测方法及装置，实现对多肽合成难度的预测。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种多肽合成难度预测模型的构建方法，包括：

获取多肽合成难度预测模型的训练数据和测试数据；

分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中，对多个机器学习模型进行训练，得到每个机器学习模型的训练结果评价指标值；

依据每个机器学习模型的训练结果评价指标值，对每个机器学习模型的预测结果进行分析，并将预测结果最好的机器学习模型确定为多肽合成难度预测模型。

可选的，所述获取多肽合成难度预测模型的训练数据和测试数据，包括：

选取多个多肽，以合成-纯化-中控质检作为一个合成轮次分别进行合成；

获取多个多肽的合成数据，所述合成数据包括：多肽序列、目标纯度、目标产品、特征信息和合成难度；

按预设比例随机将多个多肽的合成数据划分为训练数据和测试数据。

可选的，获取多个多肽的合成数据中的合成难度，包括：

获取每个多肽的合成轮次；

根据预先设定的合成轮次与合成难度之间映射关系，确定每个多肽的合成难度。

可选的，多肽的合成难度包括：普通和困难，在所述分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中之前，所述方法还包括：

利用过采样SMOTE方法对所述训练数据中合成难度为困难的样本数据进行过采样处理，增加所述训练数据中合成难度为困难的样本数据的数量。

可选的，所述依据每个机器学习模型的训练结果评价指标值，对每个机器学习模型的预测结果进行分析，包括：

依据每个所述训练结果评价指标值的权重，对每个所述机器学习模型的训练结果评价指标值进行加权计算，得到每个机器学习模型的预测结果评分，并将预测结果评分最高的机器学习模型确定为预测结果最好的机器学习模型，其中，所述训练结果评价指标值包括准确度、敏感度和特异度。

一种多肽合成难度的预测方法，包括：

获取待预测多肽的多肽序列、目标纯度、目标产量和特征信息；

将所述预测试多肽的多肽序列、目标纯度、目标产量和特征信息输入到预先构建的多肽合成难度预测模型中进行处理，得到所述待测试多肽的合成难度。

一种多肽合成难度预测模型的构建装置，包括：

数据获取单元，用于获取多肽合成难度预测模型的训练数据和测试数据；

模型训练单元，用于分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中，对多个机器学习模型进行训练，得到每个机器学习模型的训练结果评价指标值；

结果分析单元，用于依据每个机器学习模型的训练结果评价指标值，对每个机器学习模型的预测结果进行分析，并将预测结果最好的机器学习模型确定为多肽合成难度预测模型。

可选的，所述数据获取单元包括：

多肽合成子单元，用于选取多个多肽，以合成-纯化-中控质检作为一个合成轮次分别进行合成；

合成数据获取子单元，用于获取多个多肽的合成数据，所述合成数据包括：多肽序列、目标纯度、目标产品、特征信息和合成难度；

数据划分子单元，用于按预设比例随机将多个多肽的合成数据划分为训练数据和测试数据。

可选的，所述合成数据获取子单元包括：

合成难度数据确定子单元，用于获取每个多肽的合成轮次；根据预先设定的合成轮次与合成难度之间映射关系，确定每个多肽的合成难度。

可选的，多肽的合成难度包括：普通和困难，所述装置还包括：

采样处理单元，用于利用过采样SMOTE方法对所述训练数据中合成难度为困难的样本数据进行过采样处理，增加所述训练数据中合成难度为困难的样本数据的数量。

可选的，所述结果分析单元，具体用于依据每个所述训练结果评价指标值的权重，对每个所述机器学习模型的训练结果评价指标值进行加权计算，得到每个机器学习模型的预测结果评分，并将预测结果评分最高的机器学习模型确定为预测结果最好的机器学习模型，其中，所述训练结果评价指标值包括准确度、敏感度和特异度。

一种多肽合成难度的预测装置，包括：

待预测多肽获取单元，用于获取待预测多肽的多肽序列、目标纯度、目标产量和特征信息；

数据处理单元，用于将所述预测试多肽的多肽序列、目标纯度、目标产量和特征信息输入到预先构建的多肽合成难度预测模型中进行处理，得到所述待测试多肽的合成难度。

相对于现有技术，本发明的有益效果如下：

本发明公开的多肽合成难度预测模型的构建方法，通过将多肽合成难度预测模型的训练数据和测试数据分别导入预先选取的多个机器学习模型中，对多个机器学习模型进行训练，得到每个机器学习模型的训练结果评价指标值，进而对每个机器学习模型的预测结果进行分析，选取预测结果最好的机器学习模型作为多肽合成难度预测模型，保证了多肽合成难度预测模型得出预测结果的准确性。在此基础上，将待测试多肽的多肽序列、目标纯度、目标产量和特征信息输入到该多肽合成难度预测模型中进行处理，得到所述待测试多肽的合成难度，实现了对多肽合成难度的预测，对于不同合成难度的多肽，可以在合成开始前，根据其合成难度为其合理规划合成路径，减少合成失败时重复合成的成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种多肽合成难度预测模型的构建方法的流程示意图；

图2为本发明实施例公开的多肽合成难度预测模型的训练数据和测试数据的获取方法的流程示意图；

图3为本发明实施例公开的一种多肽合成难度的预测方法的流程示意图；

图4为本发明实施例公开的一种多肽合成难度预测模型的构建装置的结构示意图；

图5为本发明实施例公开的一种多肽合成难度的预测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例公开了一种多肽合成难度预测模型的构建方法，可以应用于服务器，具体的，请参阅图1，该方法具体包括以下步骤：

S101：获取多肽合成难度预测模型的训练数据和测试数据；

训练数据与测试数据的科学性，直接影响多肽合成难度预测模型的预测结果，本实施例通过选取多个多肽进行合成，从合成数据中提取训练数据和测试数据。

具体的，请参阅图2，获取多肽合成难度预测模型的训练数据和测试数据的过程如下：

S201：选取多个多肽，以合成-纯化-中控质检作为一个合成轮次分别进行合成；

具体的，合成不含其它化学修饰的多肽序列。

其中，合成、纯化和中控质检为多肽合成中的环节，在此不再赘述。

中控质检的结果为成功或失败，当多肽合成成功时多肽合成结束，否则再次以合成-纯化-中控质检作为一个合成轮次继续进行多肽合成，需要记录每个多肽的合成轮次。

S202：获取多个多肽的合成数据，所述合成数据包括：多肽序列、目标纯度、目标产品、特征信息和合成难度；

其中，特征信息包括等电点、疏水度、重复片段次数、重复片段长度、C端5aa以内ALIVES的数量等等共18个特征。

获取多个多肽的合成数据中的合成难度包括：

获取每个多肽的合成轮次；

其中一种可选的实施方式为：将合成轮次小于3次的多肽标记为普通多肽，对应的合成难度为普通；将合成轮次超过3次(包含3次)的多肽标记为合成困难的多肽，对应的合成难度为困难。

S203：按预设比例随机将多个多肽的合成数据划分为训练数据和测试数据。

需要说明的是，预设比例是预先设定的，如将多肽的合成数据的80％作为训练数据，将多肽的合成数据的20％作为测试数据，即训练数据与测试数据的比例为4:1。

在实践中多肽的合成难度为困难的占比较小，约占总数据量的10％，合成难度为困难的样本数据太少会影响机器学习模型的训练结果。为了解决这一问题，在分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中之前，所述方法还包括：

SMOTE(synthetic minority oversampling technique)，是针对训练集中少数类，如本实施例中合成难度为困难为少数类的一种采样处理方法。

具体的，设训练集的一个少数类的样本数为T，那么SMOTE算法将为这个少数类合成NT个新样本，这里要求N必须是正整数。

考虑该少数类的一个样本i，其特征向量为x_i，i∈{1,...,T}：

1.首先从该少数类的全部T个样本中找到样本x_i的k个近邻(例如用欧氏距离)，记为x_i(near)，x_i(near)∈{1,...,k}；

2.然后从这k个近邻中随机选择一个样本x_i(nn)，再生成一个0到1之间的随机数ζ₁，从而合成一个新样本x_i1：

x_i1＝x_i+ζ₁·(x_i(nn)-x_i)

3.将步骤2重复进行N次，从而可以合成N个新样本：x_inew，new∈{1,...,N}。

那么，对全部的N个少数类样本进行上述操作，便可为该少数类合成NT个新样本。

如果样本的特征维数是18维，那么每个样本都可以用一个18维的向量表示。SMOTE算法所合成出的一个新样本x_i1相当于是表示样本x_i和表示样本x_i(nn)之间一个向量。所以说该算法是基于“插值”来合成新样本。

S102：分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中，对多个机器学习模型进行训练，得到每个机器学习模型的训练结果评价指标值；

具体的，由于本实施例构建多肽合成难度预测模型的目的是：将多肽的相关数据输入多肽合成难度预测模型后可以输出该多肽的合成难度，即普通还是合成困难。因此，本实施例预先选取的多个机器学习模型均为监督型机器学习模型，即有输入数据和对应的输出数据，且均为分类型机器学习模型，即输出数据表示多肽的合成难度分类。同时为监督型机器学习模型且为分类型机器学习模型的机器学习模型包括：Stochastic GradientDescent，Random Forest，Ada Boost等10种机器学习模型。

S103：依据每个机器学习模型的训练结果评价指标值，对每个机器学习模型的预测结果进行分析，并将预测结果最好的机器学习模型确定为多肽合成难度预测模型。

优选的，机器学习模型的训练结果评价指标值包括：准确度(accuracy)、敏感度(sensitivity)和特异度(specificity)。

从模型输出的预测结果来看，如果模型预测某条多肽的合成难度为困难，则结果为阳性(positive)，如果预测某条多肽的合成难度为普通，则结果为阴性(negative)；从验证模型输出的预测结果的对错来看，实验验证模型预测正确则为true，实验验证模型预测错误则为false。因而，当模型预测某条多肽的合成难度为困难，实验验证这条多肽的合成难度确实为困难，就是真阳性(true positive)；如果模型预测某条多肽的合成难度为困难，实验验证这条多肽的合成难度为普通，就是假阳性(false positive)；如果模型预测某条多肽的合成难度为普通，实验验证这条多肽的合成难度确实为普通，就是真阴性(truenegative)；如果模型预测某条多肽的合成难度为普通，实验验证这条多肽的合成难度为困难，就是假阴性(false negative)。

其中，准确度表示实验验证模型预测正确的预测结果占所有预测结果的比例，具体为：true/(true+false)。

敏感度表示，所有实验验证合成难度为困难的多肽中(true positive+falsenegative)，被模型准确预测为合成难度为困难的多肽(true positive)比例，具体为：truepositive/(true positive+false negative)。

特异度表示，所有实验验证合成难度为普通的多肽中(true negative+falsepositive)，被模型准确预测为合成难度为普通的多肽(true negative)比例，具体为：truenegative/(true negative+false positive)。

预先为每个训练结果评价指标值设定权重，将敏感度作为主要评判标准，为其设定一个相对较大的权重。

依据每个所述训练结果评价指标值的权重，对每个所述机器学习模型的训练结果评价指标值进行加权计算，得到每个机器学习模型的预测结果评分，并将预测结果评分最高的机器学习模型确定为预测结果最好的机器学习模型。

基于上述论述，本实施例对多个机器学习模型进行训练，为了进一步阐述训练机器学习模型的过程，以下通过三个具体示例进行详细说明。

实施例1(预测结果最佳)：

取若干多肽，以合成-纯化-中控质检作为一个合成轮次分别进行合成，记录相关合成数据，包括多肽序列、目标纯度、目标产品、特征信息，以及最终的合成轮次数，将其中合成轮次数超过3次(包含3次)的多肽标记为合成困难的多肽，对应的合成难度为困难，其余多肽标记为普通多肽，对应的合成难度为普通。根据多肽的具体序列，计算等电点(使用perl的module bioperl中的等电点计算功能)，疏水度，重复片段次数，重复片段长度，C端5aa以内ALIVES的数量等等数据作为特征信息。使用python(版本号为2.7.6)的keras(版本号为2.2.4)神经网络模型进行训练，首先随机的将合成数据的20％选作测试集，80％选作训练集，由于困难多肽的占比较小，大约占总数据量的8％，因此在训练集上采用SMOTE方法(synthetic minority oversampling technique)对“少数类”进行上采样处理，即通过插值的方法使困难多肽的样本数量扩大至普通多肽样本数量的62.5％。神经网络的方法选用6层的BP神经算法，用分类的loss＝"mean_squared_error"作为评价模型的标准，采用Adam(自适应矩估计)作为神经网络的优化算法，取训练次数为200。在使用真实多肽合成数据(困难多肽的比例大概为8％)进行测试时，可以达到87.5％的特异性，61.2％的敏感度，85.8％的准确率，总体结果优于传统判断方法。

实施例2(预测结果接近最佳)：

取若干多肽，以合成-纯化-中控质检作为一个合成轮次分别进行合成，记录相关合成数据，包括多肽序列、目标纯度、目标产品、特征信息，以及最终的合成轮次数，将其中合成轮次数超过3次(包含3次)的多肽标记为合成困难的多肽，对应的合成难度为困难，其余多肽标记为普通多肽，对应的合成难度为普通。根据多肽的具体序列，计算等电点(使用perl的module bioperl中的等电点计算功能)，疏水度，重复片段次数，重复片段长度，C端5aa以内ALIVES的数量等等数据作为特征信息。使用python(版本号为2.7.6)的scikit-learn(版本号为0.14.1)机器学习模型进行训练，由于困难多肽的占比较小，占总数据量的10％，所以先对其使用SMOTE方法(synthetic minority oversampling technique)进行过采样处理，即通过插值的方法扩大困难多肽的样本数量。在此基础上，20％的数据被选作测试集，80％的数据作为训练集，训练集采用随机切分的方式做交叉验证，交叉验证中的验证集比例为30％。机器学习的方法选用StochasticGradientDescent算法，用分类的准确率作为评价模型的标准，应用网格搜索方法优化StochasticGradientDescent算法alpha参数，搜索范围为0.0001-0.01，使用该模型进行预测的结果，可以达到95％的特异性，34％的敏感度，在使用真实多肽合成数据(困难多肽的比例大概为10％)进行测试时，可以达到91％的准确率，高于传统判断方法。

实施例3(差异最大，结果最差)：

取若干多肽，以合成-纯化-中控质检作为一个合成轮次分别进行合成，记录相关合成数据，包括多肽序列、目标纯度、目标产品、特征信息，以及最终的合成轮次数，将其中合成轮次数超过3次(包含3次)的多肽标记为合成困难的多肽，对应的合成难度为困难，其余多肽标记为普通多肽，对应的合成难度为普通。根据多肽的具体序列，计算等电点(使用perl的module bioperl中的等电点计算功能)，疏水度，重复片段次数，重复片段长度，C端5aa以内ALIVES的数量等等数据作为特征信息。使用python(版本号为2.7.6)的keras(版本号为2.2.4)神经网络模型进行训练，首先随机的将数据的20％选作测试集，80％选作训练集。神经网络的方法选用6层的BP神经算法，用分类的loss＝"mean_absolute_percentage_error"作为评价模型的标准，采用Rmsprop作为神经网络的优化算法，取训练次数为200。在使用真实多肽合成数据(困难样本的比例大概为9％)进行测试时，可以达到95％的特异性，33％的敏感度，90％的准确率，因算法和数据不平衡等原因导致此方法得到的结果较差。

本实施例公开的多肽合成难度预测模型的构建方法，通过将多肽合成难度预测模型的训练数据和测试数据分别导入预先选取的多个机器学习模型中，对多个机器学习模型进行训练，得到每个机器学习模型的训练结果评价指标值，进而对每个机器学习模型的预测结果进行分析，选取预测结果最好的机器学习模型作为多肽合成难度预测模型，保证了多肽合成难度预测模型得出预测结果的准确性。

基于上述实施例公开的多肽合成难度预测模型的构建方法，请参阅图3，本实施例对应公开了一种多肽合成难度的预测方法，应用于上述实施例构建的多肽合成难度预测模型，该方法具体包括以下步骤：

S301：获取待预测多肽的多肽序列、目标纯度、目标产量和特征信息；

其中特征信息包括：等电点(使用perl的module bioperl中的等电点计算功能)，疏水度，重复片段次数，重复片段长度，C端5aa以内ALIVES的数量等等数据。

S302：将所述预测试多肽的多肽序列、目标纯度、目标产量和特征信息输入到预先构建的多肽合成难度预测模型中进行处理，得到所述待测试多肽的合成难度。

本实施例公开的多肽合成难度的预测方法，实现了对多肽合成难度的预测，对于不同合成难度的多肽，可以在合成开始前，根据其合成难度为其合理规划合成路径，减少合成失败时重复合成的成本。作为多肽定制化合成的供应商，还可以提高客户的满意度，提高合成订单的成功率。

基于上述实施例公开的多肽合成难度预测模型的构建方法，本实施例对应公开了一种多肽合成难度预测模型的构建装置，请参阅图4，该装置具体包括：

数据获取单元401，用于获取多肽合成难度预测模型的训练数据和测试数据；

模型训练单元402，用于分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中，对多个机器学习模型进行训练，得到每个机器学习模型的训练结果评价指标值；

结果分析单元403，用于依据每个机器学习模型的训练结果评价指标值，对每个机器学习模型的预测结果进行分析，并将预测结果最好的机器学习模型确定为多肽合成难度预测模型。

可选的，所述数据获取单元401包括：

可选的，所述合成数据获取子单元包括：

可选的，所述结果分析单元403，具体用于依据每个所述训练结果评价指标值的权重，对每个所述机器学习模型的训练结果评价指标值进行加权计算，得到每个机器学习模型的预测结果评分，并将预测结果评分最高的机器学习模型确定为预测结果最好的机器学习模型，其中，所述训练结果评价指标值包括准确度、敏感度和特异度。

本实施例公开的多肽合成难度预测模型的构建装置，通过将多肽合成难度预测模型的训练数据和测试数据分别导入预先选取的多个机器学习模型中，对多个机器学习模型进行训练，得到每个机器学习模型的训练结果评价指标值，进而对每个机器学习模型的预测结果进行分析，选取预测结果最好的机器学习模型作为多肽合成难度预测模型，保证了多肽合成难度预测模型得出预测结果的准确性。

基于上述实施例公开的多肽合成难度的预测方法，本实施例对应公开了一种多肽合成难度的预测装置，请参阅图5，该多肽合成难度的预测装置具体包括：

待预测多肽获取单元501，用于获取待预测多肽的多肽序列、目标纯度、目标产量和特征信息；

数据处理单元502，用于将所述预测试多肽的多肽序列、目标纯度、目标产量和特征信息输入到预先构建的多肽合成难度预测模型中进行处理，得到所述待测试多肽的合成难度。

本实施例公开的多肽合成难度的预测装置，实现了对多肽合成难度的预测，对于不同合成难度的多肽，可以在合成开始前，根据其合成难度为其合理规划合成路径，减少合成失败时重复合成的成本。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多肽合成难度预测模型的构建方法，其特征在于，包括：

按预设比例随机将多个多肽的合成数据划分为训练数据和测试数据；

2.根据权利要求1所述的方法，其特征在于，获取多个多肽的合成数据中的合成难度，包括：

获取每个多肽的合成轮次；

3.根据权利要求1所述的方法，其特征在于，多肽的合成难度包括：普通和困难，在所述分别将所述训练数据和所述测试数据导入预先选取的多个机器学习模型中之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述依据每个机器学习模型的训练结果评价指标值，对每个机器学习模型的预测结果进行分析，包括：

5.一种多肽合成难度的预测方法，其特征在于，包括：

将所述待预测多肽的多肽序列、目标纯度、目标产量和特征信息输入到预先构建的多肽合成难度预测模型中进行处理，得到所述待预测多肽的合成难度，所述多肽合成难度预测模型是根据权利要求1～4中任意一项所述的一种多肽合成难度预测模型的构建方法构建得到的。

6.一种多肽合成难度预测模型的构建装置，其特征在于，包括：

所述数据获取单元，包括：

数据划分子单元，用于按预设比例随机将多个多肽的合成数据划分为训练数据和测试数据；

7.根据权利要求6所述的装置，其特征在于，所述合成数据获取子单元包括：

8.一种多肽合成难度的预测装置，其特征在于，包括：

数据处理单元，用于将所述待预测多肽的多肽序列、目标纯度、目标产量和特征信息输入到预先构建的多肽合成难度预测模型中进行处理，得到所述待预测多肽的合成难度，所述多肽合成难度预测模型是根据权利要求1～4中任意一项所述的一种多肽合成难度预测模型的构建方法构建得到的。