CN102012977A - 一种基于概率神经网络集成的信号肽预测方法 - Google Patents

一种基于概率神经网络集成的信号肽预测方法 Download PDF

Info

Publication number
CN102012977A
CN102012977A CN2010105967319A CN201010596731A CN102012977A CN 102012977 A CN102012977 A CN 102012977A CN 2010105967319 A CN2010105967319 A CN 2010105967319A CN 201010596731 A CN201010596731 A CN 201010596731A CN 102012977 A CN102012977 A CN 102012977A
Authority
CN
China
Prior art keywords
signal peptide
neural network
protein
probabilistic neural
protein sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105967319A
Other languages
English (en)
Inventor
孔祥增
王怡
郭躬德
陈丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN2010105967319A priority Critical patent/CN102012977A/zh
Publication of CN102012977A publication Critical patent/CN102012977A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种基于概率神经网络集成的信号肽预测方法,其特征在于,实现步骤如下:a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;b.建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后得到一组信号肽分类模型;c.利用得到的各个模型分类测试数据集;d.统计各模型输出的分类结果,产生信号肽剪切位点候选集;e.采用多数投票法决策确定信号肽的剪切位点;f.采用5折交叉验证预测结果。本发明比使用单分类器预测的准确率要高,并且算法运行速度快,算法结构简洁,能有效满足对信号肽的预测。

Description

一种基于概率神经网络集成的信号肽预测方法
技术领域
本发明涉及一种基于概率神经网络集成的信号肽预测方法,应用于对信号肽的检测。
背景技术
在人类基因组计划的实施下,蛋白质和核酸的测序数据以指数方式增加,通过对这些数据的分析, 人们可以挖掘出具有生物学意义的信息和知识。如何判断蛋白质序列是否含有信号肽部分,并确定信号肽的位置是当前生物信息学研究的重要领域。鉴于信号肽预测的重要性,目前已经出现了针对该问题的大量研究文献。von Heijne运用了权矩阵的方法预测信号肽,是目前应用最广泛的方法之一。Chou在权矩阵原理的基础上,提出了{-3,-1,+1}子位点耦合模型。Henrik Nielsen等人提出用隐马尔可夫模型HMM来分类信号肽。当前,对信号肽预测的主要方法还有人工神经网络、支持向量机和贝叶斯网络等。
发明内容
本发明的目的在于提供一种基于概率神经网络集成的信号肽预测方法,本发明具有很好的可行性和有效性,能有效满足对信号肽的预测。
本发明的特征在于:一种基于概率神经网络集成的信号肽预测方法,其特征在于,实现步骤如下:
a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;
b. 建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后得到一组信号肽分类模型;
c. 利用得到的各个模型分类测试数据集;
d. 统计各模型输出的分类结果,产生信号肽剪切位点候选集;
e. 采用多数投票法决策确定信号肽的剪切位点;
f. 采用5折交叉验证预测结果。
本发明的优点:本发明比使用单分类器预测的准确率要高,并且算法运行速度快,算法结构简洁,能有效满足对信号肽的预测。
附图说明
图1为本发明实施例算法模型。
图2为概率神经网络结构图。
具体实施方式
参考图1和图2,一种基于概率神经网络集成的信号肽预测方法,实现步骤如下:
a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;
b. 建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后得到一组信号肽分类模型;
c. 利用得到的各个模型分类测试数据集;
d. 统计各模型输出的分类结果,产生信号肽剪切位点候选集;
e. 采用多数投票法决策确定信号肽的剪切位点;
f. 采用5折交叉验证预测结果。
步骤a中的编码主要由以下三种方式,第一种编码方案,采用计算机能直接处理的数字序列来表示蛋白质序列;第二种编码方案,基于氨基酸残基物理化学特性来编码蛋白质;第三种编码方案,按照氨基酸的相对疏水值进行编码,转化成对应的十进制数;在经过编码之后,采用滑动窗口对编码后的蛋白质序列进行分割,并对样本分割后的样本进行抽样。
具体实施如下:
1.蛋白质序列编码及预处理
蛋白质序列编码是信号肽预测中,决定预测质量的关键因素,是指从一级序列中提取特征参数,把字母序列转换成数值序列。本发明用三种独立的蛋白质编码方案来学习氨基酸序列和信号肽剪切位点的映射。
第一种编码方案:采用计算机能直接处理的数字序列来表示蛋白质序列。用1到21的整数来编码蛋白质,即1到20分别表示20种氨基酸,21表示空输入。
第二种编码方案:基于氨基酸残基物理化学特性来编码蛋白质。氨基酸的侧链决定氨基酸的种类,20种氨基酸侧链在大小、正负电性以及疏水性等方面都存在差异。见表2-2,根据氨基酸残基的10个性质来编码,将20种氨基酸分别转换成十进制数。
第三种编码方案:按照氨基酸的相对疏水值进行编码,转化成对应的十进制数。
采用滑动窗口对编码后的蛋白质序列进行分割,并对样本分割后的样本进行抽样。
2.概率神经网络集成预测方法
概率神经网络(Probabilistic Neural Networks,PNN)是1989年由D. F. Specht提出的,是一种非线性分类方法,其本质是一种基于Bayes最小风险准则的并行算法。
基于概率神经网络的集成算法的详细步骤如下:
Step 1:建立一组概率神经网络子分类器,分别用训练集进行学习,生成分类模型;
Step 2:利用得到的各个模型分类测试数据集;
Step 3:统计各模型输出的分类结果,产生信号肽剪切位点候选集。
假设蛋白质P经过分类器识别出                                                
Figure 489274DEST_PATH_IMAGE001
个分泌可切片段:
Figure 264856DEST_PATH_IMAGE002
 
Figure 819334DEST_PATH_IMAGE003
Figure 687059DEST_PATH_IMAGE004
Figure 89746DEST_PATH_IMAGE005
间的位置为蛋白质P可能的剪切位点。
Figure 234681DEST_PATH_IMAGE006
为蛋白质P的剪切位点候选集;
Step 4:采用多数投票法决策确定信号肽的剪切位点;
蛋白质P有
Figure 71313DEST_PATH_IMAGE001
剪切位点候选集,表示在蛋白质P序列中有
Figure 426333DEST_PATH_IMAGE001
个不同的剪切位点:
对应
Figure 528027DEST_PATH_IMAGE001
个剪切位点采用多数投票统计其个数:
Figure 424308DEST_PATH_IMAGE008
对于
Figure 627143DEST_PATH_IMAGE009
,如果
Figure 758916DEST_PATH_IMAGE010
 ,则
Figure 363598DEST_PATH_IMAGE011
为蛋白质P的信号肽剪切位点。
Step 5:采用5折交叉验证预测结果。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (2)

1.一种基于概率神经网络集成的信号肽预测方法,其特征在于,实现步骤如下:
a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;
b. 建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后得到一组信号肽分类模型;
c. 利用得到的各个模型分类测试数据集;
d. 统计各模型输出的分类结果,产生信号肽剪切位点候选集;
e. 采用多数投票法决策确定信号肽的剪切位点;
f. 采用5折交叉验证预测结果。
2.根据权利要求1所述的一种基于概率神经网络集成的信号肽预测方法,其特征在于:步骤a中的编码主要由以下三种方式,第一种编码方案,采用计算机能直接处理的数字序列来表示蛋白质序列;第二种编码方案,基于氨基酸残基物理化学特性来编码蛋白质;第三种编码方案,按照氨基酸的相对疏水值进行编码,转化成对应的十进制数;在经过编码之后,采用滑动窗口对编码后的蛋白质序列进行分割,并对样本分割后的样本进行抽样。
CN2010105967319A 2010-12-21 2010-12-21 一种基于概率神经网络集成的信号肽预测方法 Pending CN102012977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105967319A CN102012977A (zh) 2010-12-21 2010-12-21 一种基于概率神经网络集成的信号肽预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105967319A CN102012977A (zh) 2010-12-21 2010-12-21 一种基于概率神经网络集成的信号肽预测方法

Publications (1)

Publication Number Publication Date
CN102012977A true CN102012977A (zh) 2011-04-13

Family

ID=43843150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105967319A Pending CN102012977A (zh) 2010-12-21 2010-12-21 一种基于概率神经网络集成的信号肽预测方法

Country Status (1)

Country Link
CN (1) CN102012977A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870720A (zh) * 2014-03-19 2014-06-18 中国人民解放军国防科学技术大学 蛋白质信号转导子网的预测方法和装置
CN104331642A (zh) * 2014-10-28 2015-02-04 山东大学 用于识别细胞外基质蛋白的集成学习方法
WO2016134659A1 (zh) * 2015-02-25 2016-09-01 苏州大学张家港工业技术研究院 一种利用文本数据构建蛋白质相互作用网络的方法
CN106951735A (zh) * 2017-03-10 2017-07-14 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN107169312A (zh) * 2017-05-27 2017-09-15 南开大学 一种低复杂度的天然无序蛋白质的预测方法
CN107886049A (zh) * 2017-10-16 2018-04-06 江苏省气象服务中心 一种基于摄像探头的能见度识别预警方法
CN108804867A (zh) * 2018-06-15 2018-11-13 中国人民解放军军事科学院军事医学研究院 基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法
CN111091871A (zh) * 2019-12-19 2020-05-01 上海交通大学 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法
CN113971985A (zh) * 2021-12-13 2022-01-25 电子科技大学长三角研究院(衢州) 基于集成学习的嗜热蛋白的识别方法、存储介质及设备
CN116705141A (zh) * 2022-12-15 2023-09-05 西北大学 一种基于cnn-lstm神经网络从核桃酶解产物中筛选阿尔兹海默症预防肽的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王猛: "基于统计学习理论的生物序列特征提取与识别", 《万方数据知识服务平台》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870720B (zh) * 2014-03-19 2017-02-08 中国人民解放军国防科学技术大学 蛋白质信号转导子网的预测方法和装置
CN103870720A (zh) * 2014-03-19 2014-06-18 中国人民解放军国防科学技术大学 蛋白质信号转导子网的预测方法和装置
CN104331642A (zh) * 2014-10-28 2015-02-04 山东大学 用于识别细胞外基质蛋白的集成学习方法
CN104331642B (zh) * 2014-10-28 2017-04-12 山东大学 用于识别细胞外基质蛋白的集成学习方法
WO2016134659A1 (zh) * 2015-02-25 2016-09-01 苏州大学张家港工业技术研究院 一种利用文本数据构建蛋白质相互作用网络的方法
CN106951735A (zh) * 2017-03-10 2017-07-14 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN106951735B (zh) * 2017-03-10 2019-06-04 上海交通大学 一种基于分层混合模型的信号肽及其切割位点的预测方法
CN107169312B (zh) * 2017-05-27 2020-05-08 南开大学 一种低复杂度的天然无序蛋白质的预测方法
CN107169312A (zh) * 2017-05-27 2017-09-15 南开大学 一种低复杂度的天然无序蛋白质的预测方法
CN107886049A (zh) * 2017-10-16 2018-04-06 江苏省气象服务中心 一种基于摄像探头的能见度识别预警方法
CN107886049B (zh) * 2017-10-16 2022-08-26 江苏省气象服务中心 一种基于摄像探头的能见度识别预警方法
CN108804867A (zh) * 2018-06-15 2018-11-13 中国人民解放军军事科学院军事医学研究院 基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法
CN111091871B (zh) * 2019-12-19 2022-02-18 上海交通大学 蛋白质信号肽及其切割位点预测实现方法
CN111091871A (zh) * 2019-12-19 2020-05-01 上海交通大学 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法
CN113971985A (zh) * 2021-12-13 2022-01-25 电子科技大学长三角研究院(衢州) 基于集成学习的嗜热蛋白的识别方法、存储介质及设备
CN116705141A (zh) * 2022-12-15 2023-09-05 西北大学 一种基于cnn-lstm神经网络从核桃酶解产物中筛选阿尔兹海默症预防肽的方法
CN116705141B (zh) * 2022-12-15 2024-01-09 西北大学 一种基于cnn-lstm神经网络从核桃酶解产物中筛选阿尔兹海默症预防肽的方法

Similar Documents

Publication Publication Date Title
CN102012977A (zh) 一种基于概率神经网络集成的信号肽预测方法
CN109034264B (zh) 交通事故严重性预测csp-cnn模型及其建模方法
CN111144496B (zh) 一种基于混合卷积神经网络的垃圾分类方法
CN111143550A (zh) 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN110119765A (zh) 一种基于Seq2seq框架的关键词提取方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN101604322B (zh) 一种决策级文本自动分类融合方法
CN110866536A (zh) 一种基于PU learning的跨区域企业偷漏税识别方法
CN110188192B (zh) 一种多任务网络构建与多尺度的罪名法条联合预测方法
CN108536756A (zh) 基于双语信息的情绪分类方法及系统
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN113779260B (zh) 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN110750974A (zh) 一种裁判文书结构化处理方法及系统
CN111460097B (zh) 一种基于tpn的小样本文本分类方法
CN111159336A (zh) 一种半监督司法实体及事件联合提取方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN106202274B (zh) 一种基于贝叶斯网络的缺陷数据自动文摘分类方法
CN112732921A (zh) 一种虚假用户评论检测方法及系统
CN114528395A (zh) 一种文本字词特征双线注意力融合的风险预测方法
CN104361015A (zh) 一种邮件分类识别方法
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN117591648A (zh) 基于情绪细微感知的电网客服共情对话回复生成方法
CN116933946A (zh) 一种基于客流去向结构的轨道交通od客流预测方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110413