CN104715166B

CN104715166B - 基于预测加权整合的农作物潜在过敏原检测实现方法

Info

Publication number: CN104715166B
Application number: CN201510096519.9A
Authority: CN
Inventors: 李婧
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-03-04
Filing date: 2015-03-04
Publication date: 2017-11-10
Anticipated expiration: 2035-03-04
Also published as: CN104715166A

Abstract

一种基于预测加权整合的农作物潜在过敏原检测实现方法，利用规范化的加权平均分(WAS，weighted average of the normalized scores)整合基于序列相似性的FAO/WHO规则1、规则2预测方法和基于SVM的PREAL算法，增加预测的性能和覆盖范围，通过把序列、二级结构等层面信息尽可能全面地引入我们的模型，我们可以更清楚地将过敏原与非过敏原区别开来，从而达到提高预测精确度的效果。

Description

基于预测加权整合的农作物潜在过敏原检测实现方法

技术领域

本发明涉及的是一种基因检测领域的技术，具体是一种基于预测加权整合的农作物潜在过敏原检测实现方法，用于为转基因作物进入食物链前的致敏性风险评估提供一个可靠的参考。

背景技术

食品过敏是指食物中的某些物质(多为蛋白质)进入了体内，被体内的免疫系统当成入侵的有害物，引发机体免疫，对人体造成一系列复杂的反应。全世界约有25％的人口受此困扰。目前，我国政府把生物技术作为未来解决中国粮食安全的重要途径之一，加强转基因作物进入食物链前的致敏性风险评估非常有必要。

目前，基于计算生物学来进行过敏原预测的方法主要有三种：

第一种是于2001年由联合国粮食与农业组织/世界卫生组织(FAO/WHO)提出的基于序列的预测方法，即FAO/WHO规则1，其包括两条规则：1)与已知过敏原有连续六个氨基酸相同；2)与已知过敏原在80个氨基酸范围内相似度达到35％及以上。只要满足其中一则就被预测为过敏原蛋白。FAO/WHO方法的优点在于敏感度高，而缺点在于假阳性高，大概每200个被它预测为过敏原的蛋白中只有1个是真的过敏蛋白。第二种是于2003年提出的基于motif(模体)的预测方法，即FAO/WHO规则2，它利用的是比较待测蛋白与过敏原特征motifs，该方法同基于序列的方法相比，一定程度上提高了特异性，减少了假阳性率，但由于已知过敏原的motif有限，所以该类方法的使用受到限制。第三种是于2006年提出的基于SVM(支持向量机)的预测方法，即PREAL(PREdiction of ALlergenic protein，蛋白质过敏原预测)方法，采用线性分类器，通过根据样本调整线性分类面函数的系数，所有训练样本被正确划分即完成迭代，这类算法通过训练过敏原和非过敏原的各种特征，获得分类函数，从而达到过敏原预测的目的。该方法大大提高了准确率，但无法得知过敏原特征信息。

经过对现有技术的检索发现，中国专利文献号CN103049679A公开(公告)日2013.04.17，公开了一种蛋白质潜在致敏性的预测方法，包括以下步骤：步骤一，制作训练正集和训练负集；步骤二，对蛋白质的各类属性进行编码，构建特征向量；步骤三，引用最大相关最小冗余方法进行特征排序，引用递增式的特征选择方法进行最优特征选择；步骤四，通过对选择出的特征进行统计分析，给出与蛋白质致敏特性显著相关的特征结果报告。该PREAL()技术采用的是基于SVM的预测方法，它囊括了蛋白的128维向量特征，在整体准确率与特异性方面比以往的算法有明显优势，并且提供与蛋白质致敏特性显著相关的特征。但该算法的检测敏感度低于FAO/WHO预测方法。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于预测加权整合的农作物潜在过敏原检测实现方法，克服FAO/WHO预测方法的假阳性高的不足，以及如果训练集内没有与待测样本特征相似的已知样本，PREAL的预测准确率会下降的不足。本发明利用规范化的加权平均分(WAS，weighted average of the normalized scores)整合基于序列的FAO/WHO预测方法和基于SVM的PREAL算法，增加预测的性能和覆盖范围，通过把序列、二级结构等层面信息尽可能全面地引入我们的模型，我们可以更清楚地将过敏原与非过敏原区别开来，从而达到提高预测精确度的效果。

本发明是通过以下技术方案实现的：

本发明包括以下步骤：

步骤一，构建过敏原蛋白作为训练正集、非过敏原蛋白作为训练负集。

步骤二，使用FAO/WHO预测方法和PREAL算法对训练正负集的蛋白进行潜在致敏性预测。

所述的预测是指：针对每个蛋白评估其在FAO/WHO规则1、FAO/WHO规则2以及PREAL规则下的过敏判断结果，当FAO/WHO规则1预测该蛋白为过敏原时则评价为1，非过敏原打分为0；FAO/WHO规则2的打分标准与FAO/WHO规则1相同；在PREAL规则下的打分区间为(0，1)且分值越接近1表示越可能是过敏原。

步骤三，对步骤二所得到的预测结果根据不同的预测方法赋予权重，并计算加权预测结果值。

所述的权重是指：当C_i＝1时，W_i＝1-P_ni；当C_i＝0时，W_i＝1-P_pi，其中：i为预测方法的编号，且i为1、2、3；S_i是当前蛋白用第i个方法时获得的打分；C_i表示当前蛋白是过敏原还是非过敏原，过敏原为1，非过敏原为0。

所述的综合预测结果是指：计算每个蛋白的加权预测结果值(WAS)。

步骤四，根据步骤三得到的训练正集和训练负集蛋白的WAS值进行预测测试，然后计算其10‐折叠交叉验证的性能参数，并通过绘制准确率‐敏感度曲线确定建议阈值。

所述的10‐折叠交叉验证性能参数包括：敏感度、特异性和准确率。

所述的建议阈值，通过绘制准确率‐敏感度曲线，根据曲线顶点确定，该准确率‐敏感度曲线的纵坐标为WAS值，横坐标为敏感度。

步骤五，对待测蛋白采用步骤二至步骤四的计算得到其加权预测结果值，当高于所述建议阈值，则认为该蛋白更可能为过敏原蛋白。

技术效果

与现有技术相比，本发明通过加权整合保留了PREAL准确率与特异性高的优势，同时也弥补了PREAL检测敏感度低于FAO/WHO预测方法的不足。本发明首次利用加权方式整合已有预测方法，可以更为准确地判断出过敏原蛋白。

附图说明

图1为FAO/WHO预测方法打分示意图。

图2为实施例PREAL算法的打分权重W_i依据累积分布图。

图3为实施例准确率‐敏感度曲线示意图。

图4为本发明实施例的流程示意图。

图5为本发明实施例提供的预测方法与现有预测方法的性能比较图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

如图4所示，本实施例包括以下步骤：

步骤1、训练正集(过敏原蛋白)和训练负集(非过敏原蛋白)：

过敏原蛋白数据集构建：其数据来源包括IUIS Allergen Nomenclature(国际免疫学会联盟‐过敏原命名表)；Allergome(过敏蛋白的分子数据库)，AllergenOnline(为风险评估提供某一蛋白质与已知过敏原及腹腔蛋白的比对服务的数据库)，Allfam(过敏原蛋白家族信息的数据库)，从中提取水稻、小麦、玉米、大豆四个物种的过敏原蛋白，去冗余后共得到957条过敏原蛋白信息，这些蛋白将作为训练模型时的正集；

非过敏原蛋白数据集构建：为构建一个可行的负集，采用如下步骤实现：

1.下载NCBI上Genpept和Refseq库中所有植物蛋白序列，从中提取水稻、小麦、玉米、大豆四个物种的全部蛋白序列298827条，移除所有同已知过敏原相似度>＝30％的序列；

2.移除所有长度小于80个氨基酸的序列；

3.从2的结果中随机选取同正集相同数目的蛋白序列作为负集。

表1训练正集(过敏原蛋白)和训练负集(非过敏原蛋白)

步骤2、不同预测方法分别计算：

步骤2.1、FAO/WHO预测方法

FAO/WHO规则1：与已知过敏原有连续六个氨基酸相同；

FAO/WHO规则2：与已知过敏原在80个氨基酸范围内相似度达到35％及以上。

如图1所示，当FAO/WHO规则1预测待测蛋白为过敏原打分为1，非过敏原打分为0；FAO/WHO规则2的打分标准同FAO/WHO规则1。

步骤2.2、PREAL算法

该算法采集的蛋白物理化学特征包括：1.氨基酸组成；2.分子量；3.二级结构倾向性；4.疏水性；5.极化性；6.可溶性；7.标准化的范德华体积；8.极性；9.序列长度。

氨基酸组成的计算公式为：氨基酸组成比例

二级结构倾向性、极化性、可溶性、标准化的范德华体积、极性，单个氨基酸的这六个属性可分为3个类别，采用类似的编码方式先重新编码，然后计算特征向量组成；

表2蛋白特征分类表

亚细胞定位：由于对真核生物蛋白来说，共有22个亚细胞位置，所以亚细胞定位属性由一个22维向量表示L＝(l₁,l₂,l₃,…,l₂₂)，其中l_i＝1表示蛋白位于第i个位置，否则l_i＝0。

随后利用SVM训练获得分类标准，当输入一个待测蛋白会先计算这128个属性然后根据分类标准，预测其为过敏原的可能性。PREAL的打分区间为(0，1)，分值越接近1表示越可能是过敏原。

步骤3、加权平均算法(WAS)与预测测试

这个加权分算法来源文献“Improving the Assessment of the Outcome ofNonsynonymous SNVs with a Consensus Deleteriousness Score，Condel”，被用于评估生物学问题单碱基变异(SNVs)中的非同义替换是良性还是恶性。

公式当C_i＝1时，W_i＝1-P_ni；当C_i＝0时，W_i＝1-P_pi，其中：i为预测方法的编号，且i为1、2、3…；S_i是当前蛋白用第i个方法时获得的打分；C_i表示当前蛋白是过敏原还是非过敏原，过敏原为1，非过敏原为0。

本发明基于每项方法打分的正确性给予相应的权重，具体为：

1)PREAL算法的打分权重W_i依据累积分布图如图2所示，其中：P_ni是大于S_i的所有样本中，是非过敏原的比例，P_pi是小于S_i的所有样本中，是过敏原的比例。1‐P_ni代表大于被测分数以上能找到的结果不是假阳性的概率。

2)由于FAO/WHO预测方法的打分服从二项分布，其打分权重W_i根据C_i的取值满足：

当C_i＝1时，

当C_i＝0时，

根据WAS公式，使数据集里每个蛋白都获得一个对应的WAS打分。利用蛋白WAS打分计算本发明的10‐折叠交叉验证性能参数：敏感度0.805、特异性0.929、准确率0.867。通过绘制准确率‐敏感度曲线如图3所示，根据曲线顶点确定判断待测蛋白是否为过敏原的阈值0.45。

实施效果比较：

我们对本发明预测方法和现有方法进行了性能上的比较，包括：FAO/WHO(联合国粮食与农业组织/世界卫生组织)的基于序列的方法、基于SVM(支持向量机)的PREAL算法。

经比较发现，FAO/WHO规则2有较高的敏感度，可以很好的防止过敏原蛋白的错失，但这点却以假阳性作为代价；基于SVM的PREAL算法，特异性达到90.4％；本发明的方法结合了FAO/WHO预测方法和PREAL算法的优势，无论是敏感度、准确率还是特异性都超过PREAL算法。因此，本发明的预测方法能更准确、有效地预测过敏原蛋白，比较结果见表3。

表3本发明与现有过敏原预测方法的性能比较

我们绘制出FAO/WHO规则1、规则2、PREAL算法及本发明的ROC曲线，然后分别计算各个方法的ROC曲线下的面积(AUC)并进行比较，AUC(Rule1)＝0.8506、AUC(Rule2)＝0.8323、AUC(PREAL)＝0.8668、AUC(Prefs)＝0.8804。通过Z检验P值<0.05，我们证明本发明与PREAL算法具有显著差异。各方法的ROC曲线如图5所示。

Claims

1.一种基于预测加权整合的农作物潜在过敏原检测实现方法，其特征在于，包括以下步骤：

步骤一，构建过敏原蛋白作为训练正集、非过敏原蛋白作为训练负集；

步骤二，使用FAO/WHO预测方法和PREAL算法对训练正负集的蛋白进行潜在致敏性预测；

步骤三，对步骤二所得到的预测结果根据不同的预测方法赋予权重，并计算加权预测结果值WAS；

步骤四，根据步骤三得到的训练正集和训练负集蛋白的WAS值进行预测测试，然后计算其10-折叠交叉验证的性能参数，并通过绘制准确率-敏感度曲线确定建议阈值；

步骤五，对待测蛋白采用步骤二至步骤四的计算得到其加权预测结果值，当高于所述建议阈值，则认为该蛋白更可能为过敏原蛋白；

所述的预测是指：针对每个蛋白评估其在FAO/WHO规则1、FAO/WHO规则2以及PREAL规则下的过敏判断结果，当规则1预测该蛋白为过敏原时则评价为1，非过敏原打分为0；FAO/WHO规则2的打分标准与FAO/WHO规则1相同；在PREAL规则下的打分区间为(0，1)且分值越接近1表示越可能是过敏原；

所述的权重是指：当C_i＝1时，W_i＝1-P_ni；当C_i＝0时，W_i＝1-P_pi，其中：i为预测方法的编号，且i为1、2、3；P_ni是大于S_i的所有样本中，是非过敏原的比例，P_pi是小于S_i的所有样本中，是过敏原的比例；S_i是当前蛋白用第i个方法时获得的打分；C_i表示当前蛋白是过敏原还是非过敏原，过敏原为1，非过敏原为0；

所述的加权预测结果是指：计算每个蛋白的加权预测结果值；

所述的10-折叠交叉验证性能参数包括：敏感度、特异性和准确率；

所述的建议阈值，通过绘制准确率-敏感度曲线，根据曲线顶点确定，该准确率-敏感度曲线的纵坐标为WAS值，横坐标为敏感度。