CN102034029A - 一种基于贝叶斯网络的信号肽剪切位点预测方法 - Google Patents

一种基于贝叶斯网络的信号肽剪切位点预测方法 Download PDF

Info

Publication number
CN102034029A
CN102034029A CN 201010596834 CN201010596834A CN102034029A CN 102034029 A CN102034029 A CN 102034029A CN 201010596834 CN201010596834 CN 201010596834 CN 201010596834 A CN201010596834 A CN 201010596834A CN 102034029 A CN102034029 A CN 102034029A
Authority
CN
China
Prior art keywords
bayesian network
signal peptide
prediction
sample
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010596834
Other languages
English (en)
Inventor
孔祥增
张胜元
陈尤莺
陈丽萍
许力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN 201010596834 priority Critical patent/CN102034029A/zh
Publication of CN102034029A publication Critical patent/CN102034029A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明涉及一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;f.利用五折交叉法校验预测结果,并计算出预测的平均准确率,本发明所述方法不仅预测准确率高,而且算法运行速度快,算法结构简单,能有效满足对信号肽的预测。

Description

一种基于贝叶斯网络的信号肽剪切位点预测方法
技术领域
本发明涉及一种信号肽预测方法,特别设计一种基于贝叶斯网络的信号肽剪切位点预测方法。
背景技术
信号肽是一种短肽链,用于指导蛋白质的合成及运输,并已成为在寻找新的药物或用于基因治疗的细胞重新编程的重要工具。随着新的蛋白质序列在后基因组时代爆炸式地产生,识别出新的信号序列,在生物医学上成为了一项重要且紧迫的挑战。面对新蛋白质序列,为了及时将它们用于基础研究和药物发现,这急切需要开发快速并且准确的算法来鉴别信号序列和预测它们的剪切位点。其实,在这方面所作的努力已经很多了。根据不同的特征,几种机器学习方法已经被提出用于这个任务,如神经网络,隐马尔可夫模型,支持向量机。最近,沈和周开发了基于证据理论的两种算法Signal-3L和PrediSi来预测信号序列,并实现良好的效果。本发明提出一种基于贝叶斯网络的信号肽剪切位点预测方法,称为Signal-BNs。Signal-BNs的特点是有较高的预测准确性,相当有应用前景,它优于其他两个流行的信号肽预测方法Signal-3L和PrediSi。
发明内容
本发明的目的在于提供一种基于概率神经网络集成的信号肽预测方法,本发明具有很好的可行性和有效性,能有效满足对信号肽的预测。
本发明的特征在于:一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:
a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;
b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;
c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;
d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;
e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;
f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。
本发明的优点:本发明预测的准确率高,并且算法运行速度快,算法结构简洁,能有效满足对信号肽的预测。
附图说明
图1为本发明实施例的算法模型图。
具体实施方式
参考图1,一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:
a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;
b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;
c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;
d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;
e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;
f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。
其中步骤b中所述滑动窗口的大小为15。
步骤c中所述负样本的随机抽样过程为对负样本进行10%的随机过程抽样。
具体实施过程如下:
1.蛋白质样本数据集的预处理步骤:
1)读取所有的蛋白质数据集并编码蛋白质序列到矩阵中,由于蛋白质是由20种氨基酸组成的序列,所以用从1到21的整数来编码蛋白质序列(A = 1和C = 2,...,为Y = 20,空= 21);
2)选择大小为15的滑动窗口来切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;。
3)由于正负样本间存在极端的不平衡,负类样本数显著高于正类样本数,为平衡这个问题,对负类样本进行10%随机过程的抽样,则正类样本与抽样后得到的负类样本共同组成最终的样本集。
2.贝叶斯网络学习和推理算法步骤
贝叶斯网络是由Judea Pearl在1985年创造的,这是一种学习机,编码的一组变量                                               
Figure 2010105968345100002DEST_PATH_IMAGE002
的联合概率分布,得到一个有向无环图和条件概率表集(CPTs)。 
本发明采用滑动窗口的方法,用符号
Figure 2010105968345100002DEST_PATH_IMAGE004
标记,即滑动窗口用
Figure 2010105968345100002DEST_PATH_IMAGE006
连续标记,用于定义界定在一个滑动窗口内的蛋白质序列的氨基酸的位置,这样的段可以被用来作为“基准窗口”搜索沿着蛋白质序列的剪切位点和推断其相应信号肽。另一方面,一个
Figure 891110DEST_PATH_IMAGE004
序列一般可以表示为:
Figure 2010105968345100002DEST_PATH_IMAGE008
其中, 
Figure 2010105968345100002DEST_PATH_IMAGE010
代表了在位置上的氨基酸残基,
Figure 2010105968345100002DEST_PATH_IMAGE014
代表了在位置
Figure 2010105968345100002DEST_PATH_IMAGE016
上的氨基酸残基,等等。
1)确定贝叶斯网,利用Matlab贝叶斯软件包BNT中贝叶斯网络结构学习算法函数的K2 算法learn_struct_K2 ( )得到;
2)选择推理引擎,这里选用联合树推理引擎jttree_inf_engine();
3)输入推理证据,将样本集进行训练和学习得到贝叶斯网络。
4)求解后验概率,将待测数据集输入上述贝叶斯网络,预测其是否为信号肽,并将得到的预测结果采用五折交叉法进行校验,并计算出预测的平均准确率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (3)

1.一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:
a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;
b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;
c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;
d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;
e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;
f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。
2.根据权利要求1所述的一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:所述滑动窗口的大小为15。
3. 根据权利要求1所述的一种基于贝叶斯网络的信号肽剪切点位预测方法,其特征在于:所述负样本的随机抽样过程为对负样本进行10%的随机过程抽样。
CN 201010596834 2010-12-21 2010-12-21 一种基于贝叶斯网络的信号肽剪切位点预测方法 Pending CN102034029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010596834 CN102034029A (zh) 2010-12-21 2010-12-21 一种基于贝叶斯网络的信号肽剪切位点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010596834 CN102034029A (zh) 2010-12-21 2010-12-21 一种基于贝叶斯网络的信号肽剪切位点预测方法

Publications (1)

Publication Number Publication Date
CN102034029A true CN102034029A (zh) 2011-04-27

Family

ID=43886914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010596834 Pending CN102034029A (zh) 2010-12-21 2010-12-21 一种基于贝叶斯网络的信号肽剪切位点预测方法

Country Status (1)

Country Link
CN (1) CN102034029A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890201A (zh) * 2011-04-30 2013-01-23 深圳光启高等理工研究院 一种人工电磁材料单元的试验点选取方法及装置
CN106951735A (zh) * 2017-03-10 2017-07-14 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN111105374A (zh) * 2019-12-16 2020-05-05 山东工商学院 一种基于贝叶斯推理的gpr图像去噪方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1818916A (zh) * 2006-03-02 2006-08-16 上海交通大学 基于序列比对核函数预测信号肽及其断裂点位置实现方法
CN101280335A (zh) * 2008-05-29 2008-10-08 上海交通大学 牛分支杆菌免疫原性分泌型蛋白的筛选鉴定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1818916A (zh) * 2006-03-02 2006-08-16 上海交通大学 基于序列比对核函数预测信号肽及其断裂点位置实现方法
CN101280335A (zh) * 2008-05-29 2008-10-08 上海交通大学 牛分支杆菌免疫原性分泌型蛋白的筛选鉴定方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890201A (zh) * 2011-04-30 2013-01-23 深圳光启高等理工研究院 一种人工电磁材料单元的试验点选取方法及装置
CN102890201B (zh) * 2011-04-30 2015-06-24 深圳光启高等理工研究院 一种利用人工电磁材料单元的试验点进行试验的方法及装置
CN106951735A (zh) * 2017-03-10 2017-07-14 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN106951735B (zh) * 2017-03-10 2019-06-04 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN111105374A (zh) * 2019-12-16 2020-05-05 山东工商学院 一种基于贝叶斯推理的gpr图像去噪方法及系统
CN111105374B (zh) * 2019-12-16 2023-06-30 山东工商学院 一种基于贝叶斯推理的gpr图像去噪方法及系统

Similar Documents

Publication Publication Date Title
US20190156915A1 (en) Method, apparatus, device and storage medium for predicting protein binding site
Rasmussen et al. A Bayesian approach for fast and accurate gene tree reconstruction
CN104462190B (zh) 一种基于海量空间轨迹挖掘的在线的位置预测方法
Zhang et al. Artificial intelligence and its applications
Junior et al. A semi-supervised approach for the semantic segmentation of trajectories
Vert Support vector machine prediction of signal peptide cleavage site using a new class of kernels for strings
Cao et al. An integrated framework for human activity recognition
Hunter et al. Reduced-order modeling through machine learning and graph-theoretic approaches for brittle fracture applications
Pihera et al. Application of machine learning to algorithm selection for TSP
Zhang et al. Adaptive compressive learning for prediction of protein–protein interactions from primary sequence
WO2018034745A1 (en) Nanopore sequencing base calling
Cummins et al. Accelerating FAB-MAP with concentration inequalities
Verdier et al. Learning physical properties of anomalous random walks using graph neural networks
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN102034029A (zh) 一种基于贝叶斯网络的信号肽剪切位点预测方法
CN118038995B (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及系统
Li Using complexity measures of movement for automatically detecting movement types of unknown GPS trajectories
CN118018260A (zh) 网络攻击的检测方法、系统、设备及介质
Daniels et al. MRFy: remote homology detection for beta-structural proteins using Markov random fields and stochastic search
CN112259157A (zh) 一种蛋白质相互作用预测方法
Bagos et al. Finding beta-barrel outer membrane proteins with a markov chain model
Galpert et al. Surveying alignment-free features for Ortholog detection in related yeast proteomes by using supervised big data classifiers
Fu et al. LSTM-based lane change prediction using Waymo open motion dataset: The role of vehicle operating space
CN117037917A (zh) 细胞类型预测模型训练方法、细胞类型预测方法和装置
Bruno da Silva et al. Knots and θ-Curves Identification in Polymeric Chains and Native Proteins Using Neural Networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110427