CN104715166B - 基于预测加权整合的农作物潜在过敏原检测实现方法 - Google Patents
基于预测加权整合的农作物潜在过敏原检测实现方法 Download PDFInfo
- Publication number
- CN104715166B CN104715166B CN201510096519.9A CN201510096519A CN104715166B CN 104715166 B CN104715166 B CN 104715166B CN 201510096519 A CN201510096519 A CN 201510096519A CN 104715166 B CN104715166 B CN 104715166B
- Authority
- CN
- China
- Prior art keywords
- anaphylactogen
- fao
- albumen
- training
- protein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Peptides Or Proteins (AREA)
Abstract
一种基于预测加权整合的农作物潜在过敏原检测实现方法,利用规范化的加权平均分(WAS,weighted average of the normalized scores)整合基于序列相似性的FAO/WHO规则1、规则2预测方法和基于SVM的PREAL算法,增加预测的性能和覆盖范围,通过把序列、二级结构等层面信息尽可能全面地引入我们的模型,我们可以更清楚地将过敏原与非过敏原区别开来,从而达到提高预测精确度的效果。
Description
技术领域
本发明涉及的是一种基因检测领域的技术,具体是一种基于预测加权整合的农作物潜在过敏原检测实现方法,用于为转基因作物进入食物链前的致敏性风险评估提供一个可靠的参考。
背景技术
食品过敏是指食物中的某些物质(多为蛋白质)进入了体内,被体内的免疫系统当成入侵的有害物,引发机体免疫,对人体造成一系列复杂的反应。全世界约有25%的人口受此困扰。目前,我国政府把生物技术作为未来解决中国粮食安全的重要途径之一,加强转基因作物进入食物链前的致敏性风险评估非常有必要。
目前,基于计算生物学来进行过敏原预测的方法主要有三种:
第一种是于2001年由联合国粮食与农业组织/世界卫生组织(FAO/WHO)提出的基于序列的预测方法,即FAO/WHO规则1,其包括两条规则:1)与已知过敏原有连续六个氨基酸相同;2)与已知过敏原在80个氨基酸范围内相似度达到35%及以上。只要满足其中一则就被预测为过敏原蛋白。FAO/WHO方法的优点在于敏感度高,而缺点在于假阳性高,大概每200个被它预测为过敏原的蛋白中只有1个是真的过敏蛋白。第二种是于2003年提出的基于motif(模体)的预测方法,即FAO/WHO规则2,它利用的是比较待测蛋白与过敏原特征motifs,该方法同基于序列的方法相比,一定程度上提高了特异性,减少了假阳性率,但由于已知过敏原的motif有限,所以该类方法的使用受到限制。第三种是于2006年提出的基于SVM(支持向量机)的预测方法,即PREAL(PREdiction of ALlergenic protein,蛋白质过敏原预测)方法,采用线性分类器,通过根据样本调整线性分类面函数的系数,所有训练样本被正确划分即完成迭代,这类算法通过训练过敏原和非过敏原的各种特征,获得分类函数,从而达到过敏原预测的目的。该方法大大提高了准确率,但无法得知过敏原特征信息。
经过对现有技术的检索发现,中国专利文献号CN103049679A公开(公告)日2013.04.17,公开了一种蛋白质潜在致敏性的预测方法,包括以下步骤:步骤一,制作训练正集和训练负集;步骤二,对蛋白质的各类属性进行编码,构建特征向量;步骤三,引用最大相关最小冗余方法进行特征排序,引用递增式的特征选择方法进行最优特征选择;步骤四,通过对选择出的特征进行统计分析,给出与蛋白质致敏特性显著相关的特征结果报告。该PREAL()技术采用的是基于SVM的预测方法,它囊括了蛋白的128维向量特征,在整体准确率与特异性方面比以往的算法有明显优势,并且提供与蛋白质致敏特性显著相关的特征。但该算法的检测敏感度低于FAO/WHO预测方法。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于预测加权整合的农作物潜在过敏原检测实现方法,克服FAO/WHO预测方法的假阳性高的不足,以及如果训练集内没有与待测样本特征相似的已知样本,PREAL的预测准确率会下降的不足。本发明利用规范化的加权平均分(WAS,weighted average of the normalized scores)整合基于序列的FAO/WHO预测方法和基于SVM的PREAL算法,增加预测的性能和覆盖范围,通过把序列、二级结构等层面信息尽可能全面地引入我们的模型,我们可以更清楚地将过敏原与非过敏原区别开来,从而达到提高预测精确度的效果。
本发明是通过以下技术方案实现的:
本发明包括以下步骤:
步骤一,构建过敏原蛋白作为训练正集、非过敏原蛋白作为训练负集。
步骤二,使用FAO/WHO预测方法和PREAL算法对训练正负集的蛋白进行潜在致敏性预测。
所述的预测是指:针对每个蛋白评估其在FAO/WHO规则1、FAO/WHO规则2以及PREAL规则下的过敏判断结果,当FAO/WHO规则1预测该蛋白为过敏原时则评价为1,非过敏原打分为0;FAO/WHO规则2的打分标准与FAO/WHO规则1相同;在PREAL规则下的打分区间为(0,1)且分值越接近1表示越可能是过敏原。
步骤三,对步骤二所得到的预测结果根据不同的预测方法赋予权重,并计算加权预测结果值。
所述的权重是指:当Ci=1时,Wi=1-Pni;当Ci=0时,Wi=1-Ppi,其中:i为预测方法的编号,且i为1、2、3;Si是当前蛋白用第i个方法时获得的打分;Ci表示当前蛋白是过敏原还是非过敏原,过敏原为1,非过敏原为0。
所述的综合预测结果是指:计算每个蛋白的加权预测结果值(WAS)。
步骤四,根据步骤三得到的训练正集和训练负集蛋白的WAS值进行预测测试,然后计算其10‐折叠交叉验证的性能参数,并通过绘制准确率‐敏感度曲线确定建议阈值。
所述的10‐折叠交叉验证性能参数包括:敏感度、特异性和准确率。
所述的建议阈值,通过绘制准确率‐敏感度曲线,根据曲线顶点确定,该准确率‐敏感度曲线的纵坐标为WAS值,横坐标为敏感度。
步骤五,对待测蛋白采用步骤二至步骤四的计算得到其加权预测结果值,当高于所述建议阈值,则认为该蛋白更可能为过敏原蛋白。
技术效果
与现有技术相比,本发明通过加权整合保留了PREAL准确率与特异性高的优势,同时也弥补了PREAL检测敏感度低于FAO/WHO预测方法的不足。本发明首次利用加权方式整合已有预测方法,可以更为准确地判断出过敏原蛋白。
附图说明
图1为FAO/WHO预测方法打分示意图。
图2为实施例PREAL算法的打分权重Wi依据累积分布图。
图3为实施例准确率‐敏感度曲线示意图。
图4为本发明实施例的流程示意图。
图5为本发明实施例提供的预测方法与现有预测方法的性能比较图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图4所示,本实施例包括以下步骤:
步骤1、训练正集(过敏原蛋白)和训练负集(非过敏原蛋白):
过敏原蛋白数据集构建:其数据来源包括IUIS Allergen Nomenclature(国际免疫学会联盟‐过敏原命名表);Allergome(过敏蛋白的分子数据库),AllergenOnline(为风险评估提供某一蛋白质与已知过敏原及腹腔蛋白的比对服务的数据库),Allfam(过敏原蛋白家族信息的数据库),从中提取水稻、小麦、玉米、大豆四个物种的过敏原蛋白,去冗余后共得到957条过敏原蛋白信息,这些蛋白将作为训练模型时的正集;
非过敏原蛋白数据集构建:为构建一个可行的负集,采用如下步骤实现:
1.下载NCBI上Genpept和Refseq库中所有植物蛋白序列,从中提取水稻、小麦、玉米、大豆四个物种的全部蛋白序列298827条,移除所有同已知过敏原相似度>=30%的序列;
2.移除所有长度小于80个氨基酸的序列;
3.从2的结果中随机选取同正集相同数目的蛋白序列作为负集。
表1训练正集(过敏原蛋白)和训练负集(非过敏原蛋白)
步骤2、不同预测方法分别计算:
步骤2.1、FAO/WHO预测方法
FAO/WHO规则1:与已知过敏原有连续六个氨基酸相同;
FAO/WHO规则2:与已知过敏原在80个氨基酸范围内相似度达到35%及以上。
如图1所示,当FAO/WHO规则1预测待测蛋白为过敏原打分为1,非过敏原打分为0;FAO/WHO规则2的打分标准同FAO/WHO规则1。
步骤2.2、PREAL算法
该算法采集的蛋白物理化学特征包括:1.氨基酸组成;2.分子量;3.二级结构倾向性;4.疏水性;5.极化性;6.可溶性;7.标准化的范德华体积;8.极性;9.序列长度。
氨基酸组成的计算公式为:氨基酸组成比例
二级结构倾向性、极化性、可溶性、标准化的范德华体积、极性,单个氨基酸的这六个属性可分为3个类别,采用类似的编码方式先重新编码,然后计算特征向量组成;
表2蛋白特征分类表
亚细胞定位:由于对真核生物蛋白来说,共有22个亚细胞位置,所以亚细胞定位属性由一个22维向量表示L=(l1,l2,l3,…,l22),其中li=1表示蛋白位于第i个位置,否则li=0。
随后利用SVM训练获得分类标准,当输入一个待测蛋白会先计算这128个属性然后根据分类标准,预测其为过敏原的可能性。PREAL的打分区间为(0,1),分值越接近1表示越可能是过敏原。
步骤3、加权平均算法(WAS)与预测测试
这个加权分算法来源文献“Improving the Assessment of the Outcome ofNonsynonymous SNVs with a Consensus Deleteriousness Score,Condel”,被用于评估生物学问题单碱基变异(SNVs)中的非同义替换是良性还是恶性。
公式当Ci=1时,Wi=1-Pni;当Ci=0时,Wi=1-Ppi,其中:i为预测方法的编号,且i为1、2、3…;Si是当前蛋白用第i个方法时获得的打分;Ci表示当前蛋白是过敏原还是非过敏原,过敏原为1,非过敏原为0。
本发明基于每项方法打分的正确性给予相应的权重,具体为:
1)PREAL算法的打分权重Wi依据累积分布图如图2所示,其中:Pni是大于Si的所有样本中,是非过敏原的比例,Ppi是小于Si的所有样本中,是过敏原的比例。1‐Pni代表大于被测分数以上能找到的结果不是假阳性的概率。
2)由于FAO/WHO预测方法的打分服从二项分布,其打分权重Wi根据Ci的取值满足:
当Ci=1时,
当Ci=0时,
根据WAS公式,使数据集里每个蛋白都获得一个对应的WAS打分。利用蛋白WAS打分计算本发明的10‐折叠交叉验证性能参数:敏感度0.805、特异性0.929、准确率0.867。通过绘制准确率‐敏感度曲线如图3所示,根据曲线顶点确定判断待测蛋白是否为过敏原的阈值0.45。
实施效果比较:
我们对本发明预测方法和现有方法进行了性能上的比较,包括:FAO/WHO(联合国粮食与农业组织/世界卫生组织)的基于序列的方法、基于SVM(支持向量机)的PREAL算法。
经比较发现,FAO/WHO规则2有较高的敏感度,可以很好的防止过敏原蛋白的错失,但这点却以假阳性作为代价;基于SVM的PREAL算法,特异性达到90.4%;本发明的方法结合了FAO/WHO预测方法和PREAL算法的优势,无论是敏感度、准确率还是特异性都超过PREAL算法。因此,本发明的预测方法能更准确、有效地预测过敏原蛋白,比较结果见表3。
表3本发明与现有过敏原预测方法的性能比较
我们绘制出FAO/WHO规则1、规则2、PREAL算法及本发明的ROC曲线,然后分别计算各个方法的ROC曲线下的面积(AUC)并进行比较,AUC(Rule1)=0.8506、AUC(Rule2)=0.8323、AUC(PREAL)=0.8668、AUC(Prefs)=0.8804。通过Z检验P值<0.05,我们证明本发明与PREAL算法具有显著差异。各方法的ROC曲线如图5所示。
Claims (1)
1.一种基于预测加权整合的农作物潜在过敏原检测实现方法,其特征在于,包括以下步骤:
步骤一,构建过敏原蛋白作为训练正集、非过敏原蛋白作为训练负集;
步骤二,使用FAO/WHO预测方法和PREAL算法对训练正负集的蛋白进行潜在致敏性预测;
步骤三,对步骤二所得到的预测结果根据不同的预测方法赋予权重,并计算加权预测结果值WAS;
步骤四,根据步骤三得到的训练正集和训练负集蛋白的WAS值进行预测测试,然后计算其10-折叠交叉验证的性能参数,并通过绘制准确率-敏感度曲线确定建议阈值;
步骤五,对待测蛋白采用步骤二至步骤四的计算得到其加权预测结果值,当高于所述建议阈值,则认为该蛋白更可能为过敏原蛋白;
所述的预测是指:针对每个蛋白评估其在FAO/WHO规则1、FAO/WHO规则2以及PREAL规则下的过敏判断结果,当规则1预测该蛋白为过敏原时则评价为1,非过敏原打分为0;FAO/WHO规则2的打分标准与FAO/WHO规则1相同;在PREAL规则下的打分区间为(0,1)且分值越接近1表示越可能是过敏原;
所述的权重是指:当Ci=1时,Wi=1-Pni;当Ci=0时,Wi=1-Ppi,其中:i为预测方法的编号,且i为1、2、3;Pni是大于Si的所有样本中,是非过敏原的比例,Ppi是小于Si的所有样本中,是过敏原的比例;Si是当前蛋白用第i个方法时获得的打分;Ci表示当前蛋白是过敏原还是非过敏原,过敏原为1,非过敏原为0;
所述的加权预测结果是指:计算每个蛋白的加权预测结果值;
所述的10-折叠交叉验证性能参数包括:敏感度、特异性和准确率;
所述的建议阈值,通过绘制准确率-敏感度曲线,根据曲线顶点确定,该准确率-敏感度曲线的纵坐标为WAS值,横坐标为敏感度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510096519.9A CN104715166B (zh) | 2015-03-04 | 2015-03-04 | 基于预测加权整合的农作物潜在过敏原检测实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510096519.9A CN104715166B (zh) | 2015-03-04 | 2015-03-04 | 基于预测加权整合的农作物潜在过敏原检测实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104715166A CN104715166A (zh) | 2015-06-17 |
CN104715166B true CN104715166B (zh) | 2017-11-10 |
Family
ID=53414489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510096519.9A Expired - Fee Related CN104715166B (zh) | 2015-03-04 | 2015-03-04 | 基于预测加权整合的农作物潜在过敏原检测实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104715166B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT201600098461A1 (it) * | 2016-09-30 | 2018-03-30 | Sifi Medtech Srl | Metodo per l’analisi bio-informatica per la valutazione del rischio di insorgenza della degenerazione maculare legata all’età |
CN109100470A (zh) * | 2018-06-29 | 2018-12-28 | 湖北海纳天鹰科技发展有限公司 | 一种空气中过敏原类型的判别方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049679A (zh) * | 2012-12-28 | 2013-04-17 | 上海交通大学 | 蛋白质潜在致敏性的预测方法 |
-
2015
- 2015-03-04 CN CN201510096519.9A patent/CN104715166B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049679A (zh) * | 2012-12-28 | 2013-04-17 | 上海交通大学 | 蛋白质潜在致敏性的预测方法 |
Non-Patent Citations (4)
Title |
---|
"Evaluation and integration of existing methods for computational prediction of allergens";Jing Wang等;《BMC Bioinformatics》;20130308;第14卷(第S4期);第1-9页 * |
"Improving Allergen Prediction in Main Crops Using a Weighted Integrative Method";Jing Li等;《Interdisciplinary Sciences: Computational Life Sciences》;20161012;第1-5页 * |
"Improving the Assessment of the Outcome of Nonsynonymous SNVs with a Consensus Deleteriousness Score, Condel";Abel Gonzalez-Perez等;《The American Journal of Human Genetics》;20110408;第88卷(第4期);第440-449页 * |
"PREAL:prediction of allergenic protein by maximum Relevance Minimum Redundancy (mRMR) feature selection";Jing Wang等;《BMC Systems Biology》;20131209;第7卷(第S5期);第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104715166A (zh) | 2015-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Karthik et al. | Learning distinctive filters for COVID-19 detection from chest X-ray using shuffled residual CNN | |
CN105023022B (zh) | 跌倒检测方法及系统 | |
CN111785328B (zh) | 基于门控循环单元神经网络的冠状病毒序列识别方法 | |
Pavlov | Differentiation of three species of the genus Upeneus (Mullidae) based on otolith shape analysis | |
Batmanghelich et al. | Joint modeling of imaging and genetics | |
CN111009321A (zh) | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 | |
CN108596009A (zh) | 一种用于农机自动驾驶的障碍物检测方法和系统 | |
CN104615894A (zh) | 一种基于k近邻标签特定权重特征的中医诊断方法及系统 | |
CN108171714A (zh) | 一种基于成对比较的骨折区域识别方法和系统 | |
CN104715166B (zh) | 基于预测加权整合的农作物潜在过敏原检测实现方法 | |
CN108009404A (zh) | 一种基于环境微生物数据的环境安全检测评估方法及系统 | |
CN105869354B (zh) | 一种基于吸引子传播算法的老人跌倒检测方法 | |
CN103049679A (zh) | 蛋白质潜在致敏性的预测方法 | |
CN102346817B (zh) | 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法 | |
Ibrahim et al. | Predictive analysis effectiveness in determining the epidemic disease infected area | |
CN106601271B (zh) | 一种语音异常信号检测系统 | |
CN105930906A (zh) | 一种基于特征加权和改进贝叶斯算法的摔倒检测方法 | |
Zhu et al. | Research on CBF-YOLO detection model for common soybean pests in complex environment | |
Hossen et al. | Wheat diseases detection and classification using convolutional neural network (CNN) | |
CN111709441A (zh) | 基于改进特征子集区分度的行为识别特征选择方法 | |
Muflikhah et al. | Profiling DNA sequence of SARS-Cov-2 virus using machine learning algorithm | |
CN116311347A (zh) | 人员在岗检测方法、电子设备和计算机可读存储介质 | |
Moffat et al. | Morphology delimits more species than molecular genetic clusters of invasive Pilosella | |
CN111798925B (zh) | 基于基因表达谱识别组织样本中细胞类型及组分的方法 | |
CN108990833A (zh) | 一种基于位置信息的动物运动行为判别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171110 Termination date: 20200304 |