CN109308935A - 一种基于支持向量机预测非编码dna的方法及应用平台 - Google Patents
一种基于支持向量机预测非编码dna的方法及应用平台 Download PDFInfo
- Publication number
- CN109308935A CN109308935A CN201811052055.1A CN201811052055A CN109308935A CN 109308935 A CN109308935 A CN 109308935A CN 201811052055 A CN201811052055 A CN 201811052055A CN 109308935 A CN109308935 A CN 109308935A
- Authority
- CN
- China
- Prior art keywords
- dna
- frequency
- coding
- sequence
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于支持向量机预测非编码DNA的方法及应用平台,方法主要包括:数据收集;数据处理;特征提取;基于支持向量机的模型训练与评估。这种方法能够缓解实验方法费事费力的压力。利用上述方法开发应用平台,可以快速识别出cDNA和ncDNA,省时省力,提高识别的准确率,使得ncDNA的预测更好的推广应用。
Description
技术领域
本发明涉及基于高通量测序技术发展的背景,为挖掘编码DNA(cDNA)和非编码DNA(ncDNA)的信息与知识建立的理论分析和预测的新算法,具体涉及一种基于支持向量机预测非编码DNA的方法及应用平台。
背景技术
基因是生物体携带和传递遗传信息的基本单位。它的遗传表现不仅体现在编码区序列中,还隐藏在非编码区序列中。基因组研究表明,细菌中非编码区占到整个基因组序列的10%-20%,高等生物基因组中非编码区占到绝大部分。以往的研究大多数放在编码区的功能研究上,对非编码区的研究主要是对调控元件的研究。随着测序技术的发展,大量研究表明,生物的复杂性与非编码区域的长度相关,这些ncDNA在生理与疾病状态下特异性转录。大部份ncDNA的功能尚不可知,但一些研究表明,绝大多数癌症相关基因突变位于非编码区,但是它们具体如何影响肿瘤的生成还是一个亟待解决的问题。除此之外,基因组中的非编码序列在DNA修复、免疫作用和基因组的进化过程起着重要的作用。所以,ncDNA从之前被人们忽视的“垃圾”DNA逐渐成为功能组学的研究热点。
cDNA和ncDNA的识别主要依靠实验方法,然而传统的实验方法费事费力,并且基因组数据量庞大,序列类型复杂。在这种背景下,迫切需要建立准确和高效的预测方法,挖掘cDNA和ncDNA的信息和知识。
发明内容
本发明的目的是针对现有预测方法不足,提供了一种基于支持向量机预测非编码DNA的方法及应用平台。
为实现本发明的目的,本发明的技术方案是:
一种基于支持向量机预测非编码DNA的方法,包括如下步骤:
步骤1:数据的收集和数据集的建立
从Ensembl project
收集的酵母菌的注释数据,根据注释信息提取正样本集(ncDNA)和负样本集(cDNA),分别去除序列相似性高的DNA序列,得到非冗余数据集;
步骤2:特征提取
提取正负样本集的序列信息构造多维特征编码;
步骤3:模型构建
以支持向量机(SVM)为机器学习算法,整合不同的特征子集进行10-折交叉验证,并对预测模型进行评估,选择最优预测模型。
所述步骤1中的注释数据来源于Ensembl project,物种是酵母菌,数据是酵母菌的编码DNA和非编码DNA序列。负样本是从此数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中,截去cDNA后的序列片段。步骤1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75%的数据集。
所述步骤2中的特征编码为:4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对;DNA序列共有A,C,G,T四种碱基,所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码;所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码;所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码;任意两个碱基之间被k个任意碱基隔开之后出现的频率,也就是K-空格编码。对于每一个不同的k值,都可以获得16维的特征编码。
所述步骤3中的以SVM作为机器学习算法进行10-折交叉训练。10折交叉验证方法将样本集分成10份,每次选择其中一份来测试模型的性能,剩下的9份用来训练模型。并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标。
相应地,本发明是一种基于支持向量机预测非编码DNA的应用平台,基于最优模型开发方便用户使用的识别ncDNA的web-server。此web-server是基于支持向量机构建的最优模型采用MATLAB软件和JavaScript编程语言开发的预测平台ncDNAPred。
所述web-server平台ncDNAPred在用户提交至少一条FASTA格式的DNA序列,就可以快速的预测此序列的编码类型。
本发明从DNA的序列信息出发,提取正负样本集的编码特征,结合支持向量机构建ncDNA的预测模型。本发明开发的web-server实现了naDNA的快速、高效的预测,为cDNA和ncDNA的研究提供方便、快捷的重要参考工具。
附图说明
图1为本发明的方法流程图;
图2是为用户提供的例子展示。
图3是图2对应的预测结果。
具体实施方式
为了更好的理解本方案,下面结合实施例和附图对本发明作进一步描述。
实施例1
ncDNA是不能编码蛋白质的DNA序列。图1是一种基于支持向量机预测ncDNA的算法流程图,具体步骤如下:
步骤1:数据的收集和数据集的建立
从Ensembl project搜索的酵母菌的注释数据,负样本是数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中,截去cDNA后的序列片段。采用CD-HIT分别去除两个样本集中相似性大于75%的高相似性序列,得到非冗余的正负样本集。
步骤2:特征提取
DNA序列共有A,C,G,T四种碱基,提取正负样本集的序列信息构造多维特征编码;
4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对的频率;所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码得到4维特征向量;所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码得到16维特征向量;所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码得到64维特征向量。
任意两个碱基之间被k个任意碱基隔开之后出现的频率,也就是K-空格编码。对于每一个不同的k值,都可以获得16维的特征向量。以k=1为例,任意一个长为L的样本,其特征向量可表示为:
其中,分子中的N表示被k个任意碱基所隔开的此种碱基对的数量,分母L-k-1表示被k个任意碱基所隔开的所有碱基对的总数。
步骤3:模型构建
以支持向量机(SVM)为机器学习算法,整合不同的特征子集进行10折交叉验证,并对预测模型进行评估,选择最优预测模型。
以SVM作为机器学习算法进行10-折交叉训练。10折交叉验证方法将样本集分成10份,每次选择其中一份来测试模型的性能,剩下的9份用来训练模型。并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标:
其中,N+表示正样本的数量;N-表示负样本的数量;表示正样本被预测为负样本的数量;表示负样本被预测为正样本的数量。
实施例2
本实施例提供了是一种基于支持向量机预测非编码DNA的方法开发的应用平台ncDNAPred,平台是基于支持向量机构建的最优模型采用MATLAB软件和JavaScript编程语言开发的预测平台。用户提交至少一条FASTA格式的DNA序列,就可以快速的预测此序列的编码类型。
用户预测DNA序列是否为ncDNA序列,只需在平台ncDNAPred的预测界面中输入相应样本的FASTA格式序列:
通过点击“Submit”键,即可预测出该DNA序列的类型。用户预测的序列提交后,后台会自动进行特征编码以及SVM学习,最后输出预测的编码类型。平台界面为用户提供了样例,点击“example”后,可进行样例的预测。
图2是为用户提供的例子展示。
图3是对应的预测结果。
除此之外,平台也为用户提供了更多相关信息及先关数据集的下载链接。
Claims (7)
1.一种基于支持向量机预测非编码DNA的方法,其特征在于,所述方法依次含有以下步骤:
步骤1:数据的收集和数据集的建立
收集酵母菌的注释数据,根据注释信息提取正样本集(ncDNA)和负样本集(cDNA),分别去除序列相似性高的DNA序列,得到非冗余数据集;
步骤2:特征提取
提取正负样本集的序列信息构造多维特征编码;
步骤3:模型构建
以支持向量机(SVM)为机器学习算法,整合不同的特征子集进行10-折交叉验证,并对预测模型进行评估,选择最优预测模型。
2.根据权利要求1所述的基于支持向量机非预测编码DNA的方法,其特征在于,所述步骤1中的数据来源于Ensembl project,物种是酵母菌,数据是酵母菌的编码DNA和非编码DNA序列;负样本是从此数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中,截去cDNA后的序列片段。
3.根据权利要求1所述的基于支持向量机非预测编码DNA的方法,其特征在于,所述步骤1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75%的数据集。
4.根据权利要求1所述的基于支持向量机预测非编码DNA的方法,其特征在于,所述步骤2中的特征编码为:4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对;DNA序列共有A,C,G,T四种碱基,所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码;所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码;所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码;任意两个碱基之间被k个任意碱基隔开之后出现的频率,也就是K-空格编码,对于每一个不同的k值,都可以获得16维的特征编码。
5.根据权利要求1所述的基于支持向量机预测非编码DNA的方法,其特征在于,所述步骤3中的以SVM作为机器学习算法进行10-折交叉训练,10-折交叉验证方法将样本集分成10份,每次选择其中一份来测试模型的性能,剩下的9份用来训练模型,并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标。
6.一种基于支持向量机预测非编码DNA的应用平台,其特征在于,所述应用平台基于如权利要求1所述的最优预测模型开发,方便用户使用的识别ncDNA。
7.根据权利要求6所述的一种基于支持向量机预测非编码DNA的应用平台,其特征在于,所述应用平台采用MATLAB软件和JavaScript编程语言开发的预测平台ncDNAPred,在使用时,通过用户在ncDNAPred提交的至少一条FASTA格式的DNA序列,能够快速预测此序列的编码类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811052055.1A CN109308935A (zh) | 2018-09-10 | 2018-09-10 | 一种基于支持向量机预测非编码dna的方法及应用平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811052055.1A CN109308935A (zh) | 2018-09-10 | 2018-09-10 | 一种基于支持向量机预测非编码dna的方法及应用平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109308935A true CN109308935A (zh) | 2019-02-05 |
Family
ID=65224459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811052055.1A Pending CN109308935A (zh) | 2018-09-10 | 2018-09-10 | 一种基于支持向量机预测非编码dna的方法及应用平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308935A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070912A (zh) * | 2019-04-15 | 2019-07-30 | 桂林电子科技大学 | 一种CRISPR/Cas9脱靶效应的预测方法 |
CN113345593A (zh) * | 2021-03-17 | 2021-09-03 | 天津大学 | 一种在生物关联网络中进行疾病关联关系预测的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902853A (zh) * | 2012-12-25 | 2014-07-02 | 中国科学院深圳先进技术研究院 | 基于支持向量机的剪接位点识别方法 |
CN104462870A (zh) * | 2015-01-09 | 2015-03-25 | 苏州大学 | 一种人类基因启动子识别方法及装置 |
CN105893787A (zh) * | 2016-06-21 | 2016-08-24 | 南昌大学 | 一种蛋白质翻译后修饰甲基化位点的预测方法 |
CN107463802A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种原核蛋白质乙酰化位点的预测方法 |
CN107463795A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种识别酪氨酸翻译后修饰位点的预测算法 |
CN107480474A (zh) * | 2017-08-01 | 2017-12-15 | 山东师范大学 | 基于肠道菌群丰度的分类器建模评价校验方法及系统 |
-
2018
- 2018-09-10 CN CN201811052055.1A patent/CN109308935A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902853A (zh) * | 2012-12-25 | 2014-07-02 | 中国科学院深圳先进技术研究院 | 基于支持向量机的剪接位点识别方法 |
CN104462870A (zh) * | 2015-01-09 | 2015-03-25 | 苏州大学 | 一种人类基因启动子识别方法及装置 |
CN105893787A (zh) * | 2016-06-21 | 2016-08-24 | 南昌大学 | 一种蛋白质翻译后修饰甲基化位点的预测方法 |
CN107480474A (zh) * | 2017-08-01 | 2017-12-15 | 山东师范大学 | 基于肠道菌群丰度的分类器建模评价校验方法及系统 |
CN107463802A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种原核蛋白质乙酰化位点的预测方法 |
CN107463795A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种识别酪氨酸翻译后修饰位点的预测算法 |
Non-Patent Citations (5)
Title |
---|
LEI SUN 等: "lncRScan-SVM: A Tool for Predicting Long Non-Coding RNAs Using Support Vector Machine", 《PLOS ONE》 * |
于彬 等: "基于支持向量机的人类ncRNA基因预测", 《青岛科技大学学报(自然科学版)》 * |
孙磊 等: "一种基于随机森林的长非编码RNA预测方法", 《扬州大学学报(自然科学版)》 * |
胡敏菁 等: "面向蛋白质功能位点识别的机器学习平台构建", 《生物信息学》 * |
赵英杰 等: "基于支持向量数据描述的非编码RNA基因识别", 《生物医学工程学杂志》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070912A (zh) * | 2019-04-15 | 2019-07-30 | 桂林电子科技大学 | 一种CRISPR/Cas9脱靶效应的预测方法 |
CN113345593A (zh) * | 2021-03-17 | 2021-09-03 | 天津大学 | 一种在生物关联网络中进行疾病关联关系预测的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Steinegger et al. | Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold | |
You et al. | GOLabeler: improving sequence-based large-scale protein function prediction by learning to rank | |
Graham et al. | BinSanity: unsupervised clustering of environmental microbial assemblies using coverage and affinity propagation | |
Markowitz et al. | IMG 4 version of the integrated microbial genomes comparative analysis system | |
Jansen | Studying complex biological systems using multifactorial perturbation | |
CN113593639B (zh) | 一种用于病毒基因组变异分析、监测方法和系统 | |
Bhargava et al. | DNA barcoding in plants: evolution and applications of in silico approaches and resources | |
Arendsee et al. | phylostratr: A framework for phylostratigraphy | |
Portik et al. | SuperCRUNCH: A bioinformatics toolkit for creating and manipulating supermatrices and other large phylogenetic datasets | |
CN109308935A (zh) | 一种基于支持向量机预测非编码dna的方法及应用平台 | |
Dylus et al. | Inference of phylogenetic trees directly from raw sequencing reads using Read2Tree | |
Becquey et al. | RNANet: an automatically built dual-source dataset integrating homologous sequences and RNA structures | |
Hickl et al. | binny: an automated binning algorithm to recover high-quality genomes from complex metagenomic datasets | |
Jiang | Overview of repeat annotation and de novo repeat identification | |
Ludwig et al. | The use of rRNA gene sequence data in the classification and identification of prokaryotes | |
KR20140099189A (ko) | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 | |
CN113889188A (zh) | 一种疾病预测方法、系统、计算机设备及介质 | |
Pandey et al. | CANGS DB: a stand-alone web-based database tool for processing, managing and analyzing 454 data in biodiversity studies | |
Tammi et al. | TRAP: Tandem Repeat Assembly Program produces improved shotgun assemblies of repetitive sequences | |
Dimitrov et al. | Prediction of Bacterial Immunogenicity by Machine Learning Methods | |
CN111243661A (zh) | 基于基因数据的基因体检系统 | |
KR100513266B1 (ko) | 클라이언트/서버 기반 est 서열 분석 시스템 및 방법 | |
CN112562786B (zh) | 一种基于遗传群体组装基因组的方法、装置及存储介质 | |
Mirto et al. | A grid-enabled protein secondary structure predictor | |
Sharma et al. | Workflow management systems for gene sequence analysis and evolutionary studies–A Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |