CN102012977A - 一种基于概率神经网络集成的信号肽预测方法 - Google Patents
一种基于概率神经网络集成的信号肽预测方法 Download PDFInfo
- Publication number
- CN102012977A CN102012977A CN2010105967319A CN201010596731A CN102012977A CN 102012977 A CN102012977 A CN 102012977A CN 2010105967319 A CN2010105967319 A CN 2010105967319A CN 201010596731 A CN201010596731 A CN 201010596731A CN 102012977 A CN102012977 A CN 102012977A
- Authority
- CN
- China
- Prior art keywords
- signal peptide
- neural network
- protein
- probabilistic neural
- protein sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种基于概率神经网络集成的信号肽预测方法,其特征在于,实现步骤如下:a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;b.建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后得到一组信号肽分类模型;c.利用得到的各个模型分类测试数据集;d.统计各模型输出的分类结果,产生信号肽剪切位点候选集;e.采用多数投票法决策确定信号肽的剪切位点;f.采用5折交叉验证预测结果。本发明比使用单分类器预测的准确率要高,并且算法运行速度快,算法结构简洁,能有效满足对信号肽的预测。
Description
技术领域
本发明涉及一种基于概率神经网络集成的信号肽预测方法,应用于对信号肽的检测。
背景技术
在人类基因组计划的实施下,蛋白质和核酸的测序数据以指数方式增加,通过对这些数据的分析, 人们可以挖掘出具有生物学意义的信息和知识。如何判断蛋白质序列是否含有信号肽部分,并确定信号肽的位置是当前生物信息学研究的重要领域。鉴于信号肽预测的重要性,目前已经出现了针对该问题的大量研究文献。von Heijne运用了权矩阵的方法预测信号肽,是目前应用最广泛的方法之一。Chou在权矩阵原理的基础上,提出了{-3,-1,+1}子位点耦合模型。Henrik Nielsen等人提出用隐马尔可夫模型HMM来分类信号肽。当前,对信号肽预测的主要方法还有人工神经网络、支持向量机和贝叶斯网络等。
发明内容
本发明的目的在于提供一种基于概率神经网络集成的信号肽预测方法,本发明具有很好的可行性和有效性,能有效满足对信号肽的预测。
本发明的特征在于:一种基于概率神经网络集成的信号肽预测方法,其特征在于,实现步骤如下:
a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;
b. 建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后得到一组信号肽分类模型;
c. 利用得到的各个模型分类测试数据集;
d. 统计各模型输出的分类结果,产生信号肽剪切位点候选集;
e. 采用多数投票法决策确定信号肽的剪切位点;
f. 采用5折交叉验证预测结果。
本发明的优点:本发明比使用单分类器预测的准确率要高,并且算法运行速度快,算法结构简洁,能有效满足对信号肽的预测。
附图说明
图1为本发明实施例算法模型。
图2为概率神经网络结构图。
具体实施方式
参考图1和图2,一种基于概率神经网络集成的信号肽预测方法,实现步骤如下:
a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;
b. 建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后得到一组信号肽分类模型;
c. 利用得到的各个模型分类测试数据集;
d. 统计各模型输出的分类结果,产生信号肽剪切位点候选集;
e. 采用多数投票法决策确定信号肽的剪切位点;
f. 采用5折交叉验证预测结果。
步骤a中的编码主要由以下三种方式,第一种编码方案,采用计算机能直接处理的数字序列来表示蛋白质序列;第二种编码方案,基于氨基酸残基物理化学特性来编码蛋白质;第三种编码方案,按照氨基酸的相对疏水值进行编码,转化成对应的十进制数;在经过编码之后,采用滑动窗口对编码后的蛋白质序列进行分割,并对样本分割后的样本进行抽样。
具体实施如下:
1.蛋白质序列编码及预处理
蛋白质序列编码是信号肽预测中,决定预测质量的关键因素,是指从一级序列中提取特征参数,把字母序列转换成数值序列。本发明用三种独立的蛋白质编码方案来学习氨基酸序列和信号肽剪切位点的映射。
第一种编码方案:采用计算机能直接处理的数字序列来表示蛋白质序列。用1到21的整数来编码蛋白质,即1到20分别表示20种氨基酸,21表示空输入。
第二种编码方案:基于氨基酸残基物理化学特性来编码蛋白质。氨基酸的侧链决定氨基酸的种类,20种氨基酸侧链在大小、正负电性以及疏水性等方面都存在差异。见表2-2,根据氨基酸残基的10个性质来编码,将20种氨基酸分别转换成十进制数。
第三种编码方案:按照氨基酸的相对疏水值进行编码,转化成对应的十进制数。
采用滑动窗口对编码后的蛋白质序列进行分割,并对样本分割后的样本进行抽样。
2.概率神经网络集成预测方法
概率神经网络(Probabilistic Neural Networks,PNN)是1989年由D. F. Specht提出的,是一种非线性分类方法,其本质是一种基于Bayes最小风险准则的并行算法。
基于概率神经网络的集成算法的详细步骤如下:
Step 1:建立一组概率神经网络子分类器,分别用训练集进行学习,生成分类模型;
Step 2:利用得到的各个模型分类测试数据集;
Step 3:统计各模型输出的分类结果,产生信号肽剪切位点候选集。
Step 4:采用多数投票法决策确定信号肽的剪切位点;
Step 5:采用5折交叉验证预测结果。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (2)
1.一种基于概率神经网络集成的信号肽预测方法,其特征在于,实现步骤如下:
a.根据蛋白质性质对其进行编码,然后利用滑动窗口原理分割蛋白质序列;
b. 建立一组概率神经网络子分类器,分别用蛋白质序列样本进行分类训练,训练后得到一组信号肽分类模型;
c. 利用得到的各个模型分类测试数据集;
d. 统计各模型输出的分类结果,产生信号肽剪切位点候选集;
e. 采用多数投票法决策确定信号肽的剪切位点;
f. 采用5折交叉验证预测结果。
2.根据权利要求1所述的一种基于概率神经网络集成的信号肽预测方法,其特征在于:步骤a中的编码主要由以下三种方式,第一种编码方案,采用计算机能直接处理的数字序列来表示蛋白质序列;第二种编码方案,基于氨基酸残基物理化学特性来编码蛋白质;第三种编码方案,按照氨基酸的相对疏水值进行编码,转化成对应的十进制数;在经过编码之后,采用滑动窗口对编码后的蛋白质序列进行分割,并对样本分割后的样本进行抽样。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105967319A CN102012977A (zh) | 2010-12-21 | 2010-12-21 | 一种基于概率神经网络集成的信号肽预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105967319A CN102012977A (zh) | 2010-12-21 | 2010-12-21 | 一种基于概率神经网络集成的信号肽预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102012977A true CN102012977A (zh) | 2011-04-13 |
Family
ID=43843150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105967319A Pending CN102012977A (zh) | 2010-12-21 | 2010-12-21 | 一种基于概率神经网络集成的信号肽预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102012977A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870720A (zh) * | 2014-03-19 | 2014-06-18 | 中国人民解放军国防科学技术大学 | 蛋白质信号转导子网的预测方法和装置 |
CN104331642A (zh) * | 2014-10-28 | 2015-02-04 | 山东大学 | 用于识别细胞外基质蛋白的集成学习方法 |
WO2016134659A1 (zh) * | 2015-02-25 | 2016-09-01 | 苏州大学张家港工业技术研究院 | 一种利用文本数据构建蛋白质相互作用网络的方法 |
CN106951735A (zh) * | 2017-03-10 | 2017-07-14 | 上海交通大学 | 一种基于分层混合模型的信号肽及其切割位点的预测方法 |
CN107169312A (zh) * | 2017-05-27 | 2017-09-15 | 南开大学 | 一种低复杂度的天然无序蛋白质的预测方法 |
CN107886049A (zh) * | 2017-10-16 | 2018-04-06 | 江苏省气象服务中心 | 一种基于摄像探头的能见度识别预警方法 |
CN108804867A (zh) * | 2018-06-15 | 2018-11-13 | 中国人民解放军军事科学院军事医学研究院 | 基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN113971985A (zh) * | 2021-12-13 | 2022-01-25 | 电子科技大学长三角研究院(衢州) | 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 |
CN116705141A (zh) * | 2022-12-15 | 2023-09-05 | 西北大学 | 一种基于cnn-lstm神经网络从核桃酶解产物中筛选阿尔兹海默症预防肽的方法 |
-
2010
- 2010-12-21 CN CN2010105967319A patent/CN102012977A/zh active Pending
Non-Patent Citations (1)
Title |
---|
王猛: "基于统计学习理论的生物序列特征提取与识别", 《万方数据知识服务平台》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870720B (zh) * | 2014-03-19 | 2017-02-08 | 中国人民解放军国防科学技术大学 | 蛋白质信号转导子网的预测方法和装置 |
CN103870720A (zh) * | 2014-03-19 | 2014-06-18 | 中国人民解放军国防科学技术大学 | 蛋白质信号转导子网的预测方法和装置 |
CN104331642A (zh) * | 2014-10-28 | 2015-02-04 | 山东大学 | 用于识别细胞外基质蛋白的集成学习方法 |
CN104331642B (zh) * | 2014-10-28 | 2017-04-12 | 山东大学 | 用于识别细胞外基质蛋白的集成学习方法 |
WO2016134659A1 (zh) * | 2015-02-25 | 2016-09-01 | 苏州大学张家港工业技术研究院 | 一种利用文本数据构建蛋白质相互作用网络的方法 |
CN106951735A (zh) * | 2017-03-10 | 2017-07-14 | 上海交通大学 | 一种基于分层混合模型的信号肽及其切割位点的预测方法 |
CN106951735B (zh) * | 2017-03-10 | 2019-06-04 | 上海交通大学 | 一种基于分层混合模型的信号肽及其切割位点的预测方法 |
CN107169312B (zh) * | 2017-05-27 | 2020-05-08 | 南开大学 | 一种低复杂度的天然无序蛋白质的预测方法 |
CN107169312A (zh) * | 2017-05-27 | 2017-09-15 | 南开大学 | 一种低复杂度的天然无序蛋白质的预测方法 |
CN107886049A (zh) * | 2017-10-16 | 2018-04-06 | 江苏省气象服务中心 | 一种基于摄像探头的能见度识别预警方法 |
CN107886049B (zh) * | 2017-10-16 | 2022-08-26 | 江苏省气象服务中心 | 一种基于摄像探头的能见度识别预警方法 |
CN108804867A (zh) * | 2018-06-15 | 2018-11-13 | 中国人民解放军军事科学院军事医学研究院 | 基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法 |
CN111091871B (zh) * | 2019-12-19 | 2022-02-18 | 上海交通大学 | 蛋白质信号肽及其切割位点预测实现方法 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN113971985A (zh) * | 2021-12-13 | 2022-01-25 | 电子科技大学长三角研究院(衢州) | 基于集成学习的嗜热蛋白的识别方法、存储介质及设备 |
CN116705141A (zh) * | 2022-12-15 | 2023-09-05 | 西北大学 | 一种基于cnn-lstm神经网络从核桃酶解产物中筛选阿尔兹海默症预防肽的方法 |
CN116705141B (zh) * | 2022-12-15 | 2024-01-09 | 西北大学 | 一种基于cnn-lstm神经网络从核桃酶解产物中筛选阿尔兹海默症预防肽的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102012977A (zh) | 一种基于概率神经网络集成的信号肽预测方法 | |
CN109034264B (zh) | 交通事故严重性预测csp-cnn模型及其建模方法 | |
CN111144496B (zh) | 一种基于混合卷积神经网络的垃圾分类方法 | |
CN111143550A (zh) | 一种基于层次注意力神经网络模型的争议焦点自动识别方法 | |
CN110119765A (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
CN108664632A (zh) | 一种基于卷积神经网络和注意力机制的文本情感分类算法 | |
CN101604322B (zh) | 一种决策级文本自动分类融合方法 | |
CN110866536A (zh) | 一种基于PU learning的跨区域企业偷漏税识别方法 | |
CN110188192B (zh) | 一种多任务网络构建与多尺度的罪名法条联合预测方法 | |
CN108536756A (zh) | 基于双语信息的情绪分类方法及系统 | |
CN113806494B (zh) | 一种基于预训练语言模型的命名实体识别方法 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN113779260B (zh) | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN110750974A (zh) | 一种裁判文书结构化处理方法及系统 | |
CN111460097B (zh) | 一种基于tpn的小样本文本分类方法 | |
CN111159336A (zh) | 一种半监督司法实体及事件联合提取方法 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN106202274B (zh) | 一种基于贝叶斯网络的缺陷数据自动文摘分类方法 | |
CN112732921A (zh) | 一种虚假用户评论检测方法及系统 | |
CN114528395A (zh) | 一种文本字词特征双线注意力融合的风险预测方法 | |
CN104361015A (zh) | 一种邮件分类识别方法 | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN117591648A (zh) | 基于情绪细微感知的电网客服共情对话回复生成方法 | |
CN116933946A (zh) | 一种基于客流去向结构的轨道交通od客流预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110413 |