CN109308935A - 一种基于支持向量机预测非编码dna的方法及应用平台 - Google Patents

一种基于支持向量机预测非编码dna的方法及应用平台 Download PDF

Info

Publication number
CN109308935A
CN109308935A CN201811052055.1A CN201811052055A CN109308935A CN 109308935 A CN109308935 A CN 109308935A CN 201811052055 A CN201811052055 A CN 201811052055A CN 109308935 A CN109308935 A CN 109308935A
Authority
CN
China
Prior art keywords
dna
frequency
coding
sequence
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811052055.1A
Other languages
English (en)
Inventor
邹权
何文颖
郭菲
唐继军
魏乐义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201811052055.1A priority Critical patent/CN109308935A/zh
Publication of CN109308935A publication Critical patent/CN109308935A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于支持向量机预测非编码DNA的方法及应用平台,方法主要包括:数据收集;数据处理;特征提取;基于支持向量机的模型训练与评估。这种方法能够缓解实验方法费事费力的压力。利用上述方法开发应用平台,可以快速识别出cDNA和ncDNA,省时省力,提高识别的准确率,使得ncDNA的预测更好的推广应用。

Description

一种基于支持向量机预测非编码DNA的方法及应用平台
技术领域
本发明涉及基于高通量测序技术发展的背景,为挖掘编码DNA(cDNA)和非编码DNA(ncDNA)的信息与知识建立的理论分析和预测的新算法,具体涉及一种基于支持向量机预测非编码DNA的方法及应用平台。
背景技术
基因是生物体携带和传递遗传信息的基本单位。它的遗传表现不仅体现在编码区序列中,还隐藏在非编码区序列中。基因组研究表明,细菌中非编码区占到整个基因组序列的10%-20%,高等生物基因组中非编码区占到绝大部分。以往的研究大多数放在编码区的功能研究上,对非编码区的研究主要是对调控元件的研究。随着测序技术的发展,大量研究表明,生物的复杂性与非编码区域的长度相关,这些ncDNA在生理与疾病状态下特异性转录。大部份ncDNA的功能尚不可知,但一些研究表明,绝大多数癌症相关基因突变位于非编码区,但是它们具体如何影响肿瘤的生成还是一个亟待解决的问题。除此之外,基因组中的非编码序列在DNA修复、免疫作用和基因组的进化过程起着重要的作用。所以,ncDNA从之前被人们忽视的“垃圾”DNA逐渐成为功能组学的研究热点。
cDNA和ncDNA的识别主要依靠实验方法,然而传统的实验方法费事费力,并且基因组数据量庞大,序列类型复杂。在这种背景下,迫切需要建立准确和高效的预测方法,挖掘cDNA和ncDNA的信息和知识。
发明内容
本发明的目的是针对现有预测方法不足,提供了一种基于支持向量机预测非编码DNA的方法及应用平台。
为实现本发明的目的,本发明的技术方案是:
一种基于支持向量机预测非编码DNA的方法,包括如下步骤:
步骤1:数据的收集和数据集的建立
从Ensembl project
收集的酵母菌的注释数据,根据注释信息提取正样本集(ncDNA)和负样本集(cDNA),分别去除序列相似性高的DNA序列,得到非冗余数据集;
步骤2:特征提取
提取正负样本集的序列信息构造多维特征编码;
步骤3:模型构建
以支持向量机(SVM)为机器学习算法,整合不同的特征子集进行10-折交叉验证,并对预测模型进行评估,选择最优预测模型。
所述步骤1中的注释数据来源于Ensembl project,物种是酵母菌,数据是酵母菌的编码DNA和非编码DNA序列。负样本是从此数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中,截去cDNA后的序列片段。步骤1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75%的数据集。
所述步骤2中的特征编码为:4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对;DNA序列共有A,C,G,T四种碱基,所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码;所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码;所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码;任意两个碱基之间被k个任意碱基隔开之后出现的频率,也就是K-空格编码。对于每一个不同的k值,都可以获得16维的特征编码。
所述步骤3中的以SVM作为机器学习算法进行10-折交叉训练。10折交叉验证方法将样本集分成10份,每次选择其中一份来测试模型的性能,剩下的9份用来训练模型。并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标。
相应地,本发明是一种基于支持向量机预测非编码DNA的应用平台,基于最优模型开发方便用户使用的识别ncDNA的web-server。此web-server是基于支持向量机构建的最优模型采用MATLAB软件和JavaScript编程语言开发的预测平台ncDNAPred。
所述web-server平台ncDNAPred在用户提交至少一条FASTA格式的DNA序列,就可以快速的预测此序列的编码类型。
本发明从DNA的序列信息出发,提取正负样本集的编码特征,结合支持向量机构建ncDNA的预测模型。本发明开发的web-server实现了naDNA的快速、高效的预测,为cDNA和ncDNA的研究提供方便、快捷的重要参考工具。
附图说明
图1为本发明的方法流程图;
图2是为用户提供的例子展示。
图3是图2对应的预测结果。
具体实施方式
为了更好的理解本方案,下面结合实施例和附图对本发明作进一步描述。
实施例1
ncDNA是不能编码蛋白质的DNA序列。图1是一种基于支持向量机预测ncDNA的算法流程图,具体步骤如下:
步骤1:数据的收集和数据集的建立
从Ensembl project搜索的酵母菌的注释数据,负样本是数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中,截去cDNA后的序列片段。采用CD-HIT分别去除两个样本集中相似性大于75%的高相似性序列,得到非冗余的正负样本集。
步骤2:特征提取
DNA序列共有A,C,G,T四种碱基,提取正负样本集的序列信息构造多维特征编码;
4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对的频率;所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码得到4维特征向量;所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码得到16维特征向量;所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码得到64维特征向量。
任意两个碱基之间被k个任意碱基隔开之后出现的频率,也就是K-空格编码。对于每一个不同的k值,都可以获得16维的特征向量。以k=1为例,任意一个长为L的样本,其特征向量可表示为:
其中,分子中的N表示被k个任意碱基所隔开的此种碱基对的数量,分母L-k-1表示被k个任意碱基所隔开的所有碱基对的总数。
步骤3:模型构建
以支持向量机(SVM)为机器学习算法,整合不同的特征子集进行10折交叉验证,并对预测模型进行评估,选择最优预测模型。
以SVM作为机器学习算法进行10-折交叉训练。10折交叉验证方法将样本集分成10份,每次选择其中一份来测试模型的性能,剩下的9份用来训练模型。并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标:
其中,N+表示正样本的数量;N-表示负样本的数量;表示正样本被预测为负样本的数量;表示负样本被预测为正样本的数量。
实施例2
本实施例提供了是一种基于支持向量机预测非编码DNA的方法开发的应用平台ncDNAPred,平台是基于支持向量机构建的最优模型采用MATLAB软件和JavaScript编程语言开发的预测平台。用户提交至少一条FASTA格式的DNA序列,就可以快速的预测此序列的编码类型。
用户预测DNA序列是否为ncDNA序列,只需在平台ncDNAPred的预测界面中输入相应样本的FASTA格式序列:
通过点击“Submit”键,即可预测出该DNA序列的类型。用户预测的序列提交后,后台会自动进行特征编码以及SVM学习,最后输出预测的编码类型。平台界面为用户提供了样例,点击“example”后,可进行样例的预测。
图2是为用户提供的例子展示。
图3是对应的预测结果。
除此之外,平台也为用户提供了更多相关信息及先关数据集的下载链接。

Claims (7)

1.一种基于支持向量机预测非编码DNA的方法,其特征在于,所述方法依次含有以下步骤:
步骤1:数据的收集和数据集的建立
收集酵母菌的注释数据,根据注释信息提取正样本集(ncDNA)和负样本集(cDNA),分别去除序列相似性高的DNA序列,得到非冗余数据集;
步骤2:特征提取
提取正负样本集的序列信息构造多维特征编码;
步骤3:模型构建
以支持向量机(SVM)为机器学习算法,整合不同的特征子集进行10-折交叉验证,并对预测模型进行评估,选择最优预测模型。
2.根据权利要求1所述的基于支持向量机非预测编码DNA的方法,其特征在于,所述步骤1中的数据来源于Ensembl project,物种是酵母菌,数据是酵母菌的编码DNA和非编码DNA序列;负样本是从此数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中,截去cDNA后的序列片段。
3.根据权利要求1所述的基于支持向量机非预测编码DNA的方法,其特征在于,所述步骤1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75%的数据集。
4.根据权利要求1所述的基于支持向量机预测非编码DNA的方法,其特征在于,所述步骤2中的特征编码为:4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对;DNA序列共有A,C,G,T四种碱基,所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码;所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码;所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码;任意两个碱基之间被k个任意碱基隔开之后出现的频率,也就是K-空格编码,对于每一个不同的k值,都可以获得16维的特征编码。
5.根据权利要求1所述的基于支持向量机预测非编码DNA的方法,其特征在于,所述步骤3中的以SVM作为机器学习算法进行10-折交叉训练,10-折交叉验证方法将样本集分成10份,每次选择其中一份来测试模型的性能,剩下的9份用来训练模型,并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标。
6.一种基于支持向量机预测非编码DNA的应用平台,其特征在于,所述应用平台基于如权利要求1所述的最优预测模型开发,方便用户使用的识别ncDNA。
7.根据权利要求6所述的一种基于支持向量机预测非编码DNA的应用平台,其特征在于,所述应用平台采用MATLAB软件和JavaScript编程语言开发的预测平台ncDNAPred,在使用时,通过用户在ncDNAPred提交的至少一条FASTA格式的DNA序列,能够快速预测此序列的编码类型。
CN201811052055.1A 2018-09-10 2018-09-10 一种基于支持向量机预测非编码dna的方法及应用平台 Pending CN109308935A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811052055.1A CN109308935A (zh) 2018-09-10 2018-09-10 一种基于支持向量机预测非编码dna的方法及应用平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811052055.1A CN109308935A (zh) 2018-09-10 2018-09-10 一种基于支持向量机预测非编码dna的方法及应用平台

Publications (1)

Publication Number Publication Date
CN109308935A true CN109308935A (zh) 2019-02-05

Family

ID=65224459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811052055.1A Pending CN109308935A (zh) 2018-09-10 2018-09-10 一种基于支持向量机预测非编码dna的方法及应用平台

Country Status (1)

Country Link
CN (1) CN109308935A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070912A (zh) * 2019-04-15 2019-07-30 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN113345593A (zh) * 2021-03-17 2021-09-03 天津大学 一种在生物关联网络中进行疾病关联关系预测的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902853A (zh) * 2012-12-25 2014-07-02 中国科学院深圳先进技术研究院 基于支持向量机的剪接位点识别方法
CN104462870A (zh) * 2015-01-09 2015-03-25 苏州大学 一种人类基因启动子识别方法及装置
CN105893787A (zh) * 2016-06-21 2016-08-24 南昌大学 一种蛋白质翻译后修饰甲基化位点的预测方法
CN107463802A (zh) * 2017-08-02 2017-12-12 南昌大学 一种原核蛋白质乙酰化位点的预测方法
CN107463795A (zh) * 2017-08-02 2017-12-12 南昌大学 一种识别酪氨酸翻译后修饰位点的预测算法
CN107480474A (zh) * 2017-08-01 2017-12-15 山东师范大学 基于肠道菌群丰度的分类器建模评价校验方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902853A (zh) * 2012-12-25 2014-07-02 中国科学院深圳先进技术研究院 基于支持向量机的剪接位点识别方法
CN104462870A (zh) * 2015-01-09 2015-03-25 苏州大学 一种人类基因启动子识别方法及装置
CN105893787A (zh) * 2016-06-21 2016-08-24 南昌大学 一种蛋白质翻译后修饰甲基化位点的预测方法
CN107480474A (zh) * 2017-08-01 2017-12-15 山东师范大学 基于肠道菌群丰度的分类器建模评价校验方法及系统
CN107463802A (zh) * 2017-08-02 2017-12-12 南昌大学 一种原核蛋白质乙酰化位点的预测方法
CN107463795A (zh) * 2017-08-02 2017-12-12 南昌大学 一种识别酪氨酸翻译后修饰位点的预测算法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LEI SUN 等: "lncRScan-SVM: A Tool for Predicting Long Non-Coding RNAs Using Support Vector Machine", 《PLOS ONE》 *
于彬 等: "基于支持向量机的人类ncRNA基因预测", 《青岛科技大学学报(自然科学版)》 *
孙磊 等: "一种基于随机森林的长非编码RNA预测方法", 《扬州大学学报(自然科学版)》 *
胡敏菁 等: "面向蛋白质功能位点识别的机器学习平台构建", 《生物信息学》 *
赵英杰 等: "基于支持向量数据描述的非编码RNA基因识别", 《生物医学工程学杂志》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070912A (zh) * 2019-04-15 2019-07-30 桂林电子科技大学 一种CRISPR/Cas9脱靶效应的预测方法
CN113345593A (zh) * 2021-03-17 2021-09-03 天津大学 一种在生物关联网络中进行疾病关联关系预测的方法

Similar Documents

Publication Publication Date Title
Steinegger et al. Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold
You et al. GOLabeler: improving sequence-based large-scale protein function prediction by learning to rank
Graham et al. BinSanity: unsupervised clustering of environmental microbial assemblies using coverage and affinity propagation
Markowitz et al. IMG 4 version of the integrated microbial genomes comparative analysis system
Jansen Studying complex biological systems using multifactorial perturbation
CN113593639B (zh) 一种用于病毒基因组变异分析、监测方法和系统
Bhargava et al. DNA barcoding in plants: evolution and applications of in silico approaches and resources
Arendsee et al. phylostratr: A framework for phylostratigraphy
Portik et al. SuperCRUNCH: A bioinformatics toolkit for creating and manipulating supermatrices and other large phylogenetic datasets
CN109308935A (zh) 一种基于支持向量机预测非编码dna的方法及应用平台
Dylus et al. Inference of phylogenetic trees directly from raw sequencing reads using Read2Tree
Becquey et al. RNANet: an automatically built dual-source dataset integrating homologous sequences and RNA structures
Hickl et al. binny: an automated binning algorithm to recover high-quality genomes from complex metagenomic datasets
Jiang Overview of repeat annotation and de novo repeat identification
Ludwig et al. The use of rRNA gene sequence data in the classification and identification of prokaryotes
KR20140099189A (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN113889188A (zh) 一种疾病预测方法、系统、计算机设备及介质
Pandey et al. CANGS DB: a stand-alone web-based database tool for processing, managing and analyzing 454 data in biodiversity studies
Tammi et al. TRAP: Tandem Repeat Assembly Program produces improved shotgun assemblies of repetitive sequences
Dimitrov et al. Prediction of Bacterial Immunogenicity by Machine Learning Methods
CN111243661A (zh) 基于基因数据的基因体检系统
KR100513266B1 (ko) 클라이언트/서버 기반 est 서열 분석 시스템 및 방법
CN112562786B (zh) 一种基于遗传群体组装基因组的方法、装置及存储介质
Mirto et al. A grid-enabled protein secondary structure predictor
Sharma et al. Workflow management systems for gene sequence analysis and evolutionary studies–A Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination