CN102034029A - 一种基于贝叶斯网络的信号肽剪切位点预测方法 - Google Patents
一种基于贝叶斯网络的信号肽剪切位点预测方法 Download PDFInfo
- Publication number
- CN102034029A CN102034029A CN 201010596834 CN201010596834A CN102034029A CN 102034029 A CN102034029 A CN 102034029A CN 201010596834 CN201010596834 CN 201010596834 CN 201010596834 A CN201010596834 A CN 201010596834A CN 102034029 A CN102034029 A CN 102034029A
- Authority
- CN
- China
- Prior art keywords
- bayesian network
- signal peptide
- prediction
- sample
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 108010076504 Protein Sorting Signals Proteins 0.000 title claims abstract description 26
- 238000010008 shearing Methods 0.000 title claims abstract description 10
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 22
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 5
- 230000007030 peptide scission Effects 0.000 claims description 2
- 150000001413 amino acids Chemical group 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- -1 Amino Chemical group 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000001415 gene therapy Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明涉及一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;f.利用五折交叉法校验预测结果,并计算出预测的平均准确率,本发明所述方法不仅预测准确率高,而且算法运行速度快,算法结构简单,能有效满足对信号肽的预测。
Description
技术领域
本发明涉及一种信号肽预测方法,特别设计一种基于贝叶斯网络的信号肽剪切位点预测方法。
背景技术
信号肽是一种短肽链,用于指导蛋白质的合成及运输,并已成为在寻找新的药物或用于基因治疗的细胞重新编程的重要工具。随着新的蛋白质序列在后基因组时代爆炸式地产生,识别出新的信号序列,在生物医学上成为了一项重要且紧迫的挑战。面对新蛋白质序列,为了及时将它们用于基础研究和药物发现,这急切需要开发快速并且准确的算法来鉴别信号序列和预测它们的剪切位点。其实,在这方面所作的努力已经很多了。根据不同的特征,几种机器学习方法已经被提出用于这个任务,如神经网络,隐马尔可夫模型,支持向量机。最近,沈和周开发了基于证据理论的两种算法Signal-3L和PrediSi来预测信号序列,并实现良好的效果。本发明提出一种基于贝叶斯网络的信号肽剪切位点预测方法,称为Signal-BNs。Signal-BNs的特点是有较高的预测准确性,相当有应用前景,它优于其他两个流行的信号肽预测方法Signal-3L和PrediSi。
发明内容
本发明的目的在于提供一种基于概率神经网络集成的信号肽预测方法,本发明具有很好的可行性和有效性,能有效满足对信号肽的预测。
本发明的特征在于:一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:
a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;
b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;
c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;
d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;
e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;
f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。
本发明的优点:本发明预测的准确率高,并且算法运行速度快,算法结构简洁,能有效满足对信号肽的预测。
附图说明
图1为本发明实施例的算法模型图。
具体实施方式
参考图1,一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:
a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;
b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;
c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;
d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;
e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;
f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。
其中步骤b中所述滑动窗口的大小为15。
步骤c中所述负样本的随机抽样过程为对负样本进行10%的随机过程抽样。
具体实施过程如下:
1.蛋白质样本数据集的预处理步骤:
1)读取所有的蛋白质数据集并编码蛋白质序列到矩阵中,由于蛋白质是由20种氨基酸组成的序列,所以用从1到21的整数来编码蛋白质序列(A = 1和C = 2,...,为Y = 20,空= 21);
2)选择大小为15的滑动窗口来切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;。
3)由于正负样本间存在极端的不平衡,负类样本数显著高于正类样本数,为平衡这个问题,对负类样本进行10%随机过程的抽样,则正类样本与抽样后得到的负类样本共同组成最终的样本集。
2.贝叶斯网络学习和推理算法步骤
本发明采用滑动窗口的方法,用符号标记,即滑动窗口用连续标记,用于定义界定在一个滑动窗口内的蛋白质序列的氨基酸的位置,这样的段可以被用来作为“基准窗口”搜索沿着蛋白质序列的剪切位点和推断其相应信号肽。另一方面,一个序列一般可以表示为:
1)确定贝叶斯网,利用Matlab贝叶斯软件包BNT中贝叶斯网络结构学习算法函数的K2 算法learn_struct_K2 ( )得到;
2)选择推理引擎,这里选用联合树推理引擎jttree_inf_engine();
3)输入推理证据,将样本集进行训练和学习得到贝叶斯网络。
4)求解后验概率,将待测数据集输入上述贝叶斯网络,预测其是否为信号肽,并将得到的预测结果采用五折交叉法进行校验,并计算出预测的平均准确率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (3)
1.一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:按以下步骤进行:
a.读取所有的蛋白质数据集并将蛋白质序列编码到矩阵中;
b.利用滑动窗口原理切割蛋白质序列,将含有剪切位点的序列作为正类样本,没有剪切位点的序列作为负类样本;
c.对负类样本进行随机过程抽样,并将抽样后得到的负类样本与上述正类样本组成最终的样本集;
d.利用贝叶斯网络学习和推理算法对样本集进行学习得到贝叶斯网络;
e.将待测数据集作为该贝叶斯网络的输入数据,预测其是否为信号肽;
f.利用五折交叉法校验预测结果,并计算出预测的平均准确率。
2.根据权利要求1所述的一种基于贝叶斯网络的信号肽剪切位点预测方法,其特征在于:所述滑动窗口的大小为15。
3. 根据权利要求1所述的一种基于贝叶斯网络的信号肽剪切点位预测方法,其特征在于:所述负样本的随机抽样过程为对负样本进行10%的随机过程抽样。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010596834 CN102034029A (zh) | 2010-12-21 | 2010-12-21 | 一种基于贝叶斯网络的信号肽剪切位点预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010596834 CN102034029A (zh) | 2010-12-21 | 2010-12-21 | 一种基于贝叶斯网络的信号肽剪切位点预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102034029A true CN102034029A (zh) | 2011-04-27 |
Family
ID=43886914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010596834 Pending CN102034029A (zh) | 2010-12-21 | 2010-12-21 | 一种基于贝叶斯网络的信号肽剪切位点预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102034029A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890201A (zh) * | 2011-04-30 | 2013-01-23 | 深圳光启高等理工研究院 | 一种人工电磁材料单元的试验点选取方法及装置 |
CN106951735A (zh) * | 2017-03-10 | 2017-07-14 | 上海交通大学 | 一种基于分层混合模型的信号肽及其切割位点的预测方法 |
CN111105374A (zh) * | 2019-12-16 | 2020-05-05 | 山东工商学院 | 一种基于贝叶斯推理的gpr图像去噪方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1818916A (zh) * | 2006-03-02 | 2006-08-16 | 上海交通大学 | 基于序列比对核函数预测信号肽及其断裂点位置实现方法 |
CN101280335A (zh) * | 2008-05-29 | 2008-10-08 | 上海交通大学 | 牛分支杆菌免疫原性分泌型蛋白的筛选鉴定方法 |
-
2010
- 2010-12-21 CN CN 201010596834 patent/CN102034029A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1818916A (zh) * | 2006-03-02 | 2006-08-16 | 上海交通大学 | 基于序列比对核函数预测信号肽及其断裂点位置实现方法 |
CN101280335A (zh) * | 2008-05-29 | 2008-10-08 | 上海交通大学 | 牛分支杆菌免疫原性分泌型蛋白的筛选鉴定方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890201A (zh) * | 2011-04-30 | 2013-01-23 | 深圳光启高等理工研究院 | 一种人工电磁材料单元的试验点选取方法及装置 |
CN102890201B (zh) * | 2011-04-30 | 2015-06-24 | 深圳光启高等理工研究院 | 一种利用人工电磁材料单元的试验点进行试验的方法及装置 |
CN106951735A (zh) * | 2017-03-10 | 2017-07-14 | 上海交通大学 | 一种基于分层混合模型的信号肽及其切割位点的预测方法 |
CN106951735B (zh) * | 2017-03-10 | 2019-06-04 | 上海交通大学 | 一种基于分层混合模型的信号肽及其切割位点的预测方法 |
CN111105374A (zh) * | 2019-12-16 | 2020-05-05 | 山东工商学院 | 一种基于贝叶斯推理的gpr图像去噪方法及系统 |
CN111105374B (zh) * | 2019-12-16 | 2023-06-30 | 山东工商学院 | 一种基于贝叶斯推理的gpr图像去噪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190156915A1 (en) | Method, apparatus, device and storage medium for predicting protein binding site | |
Rasmussen et al. | A Bayesian approach for fast and accurate gene tree reconstruction | |
CN104462190B (zh) | 一种基于海量空间轨迹挖掘的在线的位置预测方法 | |
Zhang et al. | Artificial intelligence and its applications | |
Junior et al. | A semi-supervised approach for the semantic segmentation of trajectories | |
Vert | Support vector machine prediction of signal peptide cleavage site using a new class of kernels for strings | |
Cao et al. | An integrated framework for human activity recognition | |
Hunter et al. | Reduced-order modeling through machine learning and graph-theoretic approaches for brittle fracture applications | |
Pihera et al. | Application of machine learning to algorithm selection for TSP | |
Zhang et al. | Adaptive compressive learning for prediction of protein–protein interactions from primary sequence | |
WO2018034745A1 (en) | Nanopore sequencing base calling | |
Cummins et al. | Accelerating FAB-MAP with concentration inequalities | |
Verdier et al. | Learning physical properties of anomalous random walks using graph neural networks | |
CN112734803B (zh) | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 | |
CN102034029A (zh) | 一种基于贝叶斯网络的信号肽剪切位点预测方法 | |
CN118038995B (zh) | 非编码rna中小开放阅读窗编码多肽能力预测方法及系统 | |
Li | Using complexity measures of movement for automatically detecting movement types of unknown GPS trajectories | |
CN118018260A (zh) | 网络攻击的检测方法、系统、设备及介质 | |
Daniels et al. | MRFy: remote homology detection for beta-structural proteins using Markov random fields and stochastic search | |
CN112259157A (zh) | 一种蛋白质相互作用预测方法 | |
Bagos et al. | Finding beta-barrel outer membrane proteins with a markov chain model | |
Galpert et al. | Surveying alignment-free features for Ortholog detection in related yeast proteomes by using supervised big data classifiers | |
Fu et al. | LSTM-based lane change prediction using Waymo open motion dataset: The role of vehicle operating space | |
CN117037917A (zh) | 细胞类型预测模型训练方法、细胞类型预测方法和装置 | |
Bruno da Silva et al. | Knots and θ-Curves Identification in Polymeric Chains and Native Proteins Using Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110427 |