CN109308935A

CN109308935A - 一种基于支持向量机预测非编码dna的方法及应用平台

Info

Publication number: CN109308935A
Application number: CN201811052055.1A
Authority: CN
Inventors: 邹权; 何文颖; 郭菲; 唐继军; 魏乐义
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2019-02-05

Abstract

本发明公开了一种基于支持向量机预测非编码DNA的方法及应用平台，方法主要包括：数据收集；数据处理；特征提取；基于支持向量机的模型训练与评估。这种方法能够缓解实验方法费事费力的压力。利用上述方法开发应用平台，可以快速识别出cDNA和ncDNA，省时省力，提高识别的准确率，使得ncDNA的预测更好的推广应用。

Description

一种基于支持向量机预测非编码DNA的方法及应用平台

技术领域

本发明涉及基于高通量测序技术发展的背景，为挖掘编码DNA(cDNA)和非编码DNA(ncDNA)的信息与知识建立的理论分析和预测的新算法，具体涉及一种基于支持向量机预测非编码DNA的方法及应用平台。

背景技术

基因是生物体携带和传递遗传信息的基本单位。它的遗传表现不仅体现在编码区序列中，还隐藏在非编码区序列中。基因组研究表明，细菌中非编码区占到整个基因组序列的10％-20％，高等生物基因组中非编码区占到绝大部分。以往的研究大多数放在编码区的功能研究上，对非编码区的研究主要是对调控元件的研究。随着测序技术的发展，大量研究表明，生物的复杂性与非编码区域的长度相关，这些ncDNA在生理与疾病状态下特异性转录。大部份ncDNA的功能尚不可知，但一些研究表明，绝大多数癌症相关基因突变位于非编码区，但是它们具体如何影响肿瘤的生成还是一个亟待解决的问题。除此之外，基因组中的非编码序列在DNA修复、免疫作用和基因组的进化过程起着重要的作用。所以，ncDNA从之前被人们忽视的“垃圾”DNA逐渐成为功能组学的研究热点。

cDNA和ncDNA的识别主要依靠实验方法，然而传统的实验方法费事费力，并且基因组数据量庞大，序列类型复杂。在这种背景下，迫切需要建立准确和高效的预测方法，挖掘cDNA和ncDNA的信息和知识。

发明内容

本发明的目的是针对现有预测方法不足，提供了一种基于支持向量机预测非编码DNA的方法及应用平台。

为实现本发明的目的，本发明的技术方案是：

一种基于支持向量机预测非编码DNA的方法，包括如下步骤：

步骤1：数据的收集和数据集的建立

从Ensembl project

收集的酵母菌的注释数据，根据注释信息提取正样本集(ncDNA)和负样本集(cDNA)，分别去除序列相似性高的DNA序列，得到非冗余数据集；

步骤2：特征提取

提取正负样本集的序列信息构造多维特征编码；

步骤3：模型构建

以支持向量机(SVM)为机器学习算法，整合不同的特征子集进行10-折交叉验证，并对预测模型进行评估，选择最优预测模型。

所述步骤1中的注释数据来源于Ensembl project，物种是酵母菌，数据是酵母菌的编码DNA和非编码DNA序列。负样本是从此数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中，截去cDNA后的序列片段。步骤1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75％的数据集。

所述步骤2中的特征编码为：4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对；DNA序列共有A,C,G,T四种碱基，所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码；所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码；所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码；任意两个碱基之间被k个任意碱基隔开之后出现的频率，也就是K-空格编码。对于每一个不同的k值，都可以获得16维的特征编码。

所述步骤3中的以SVM作为机器学习算法进行10-折交叉训练。10折交叉验证方法将样本集分成10份，每次选择其中一份来测试模型的性能，剩下的9份用来训练模型。并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标。

相应地，本发明是一种基于支持向量机预测非编码DNA的应用平台，基于最优模型开发方便用户使用的识别ncDNA的web-server。此web-server是基于支持向量机构建的最优模型采用MATLAB软件和JavaScript编程语言开发的预测平台ncDNAPred。

所述web-server平台ncDNAPred在用户提交至少一条FASTA格式的DNA序列，就可以快速的预测此序列的编码类型。

本发明从DNA的序列信息出发，提取正负样本集的编码特征，结合支持向量机构建ncDNA的预测模型。本发明开发的web-server实现了naDNA的快速、高效的预测，为cDNA和ncDNA的研究提供方便、快捷的重要参考工具。

附图说明

图1为本发明的方法流程图；

图2是为用户提供的例子展示。

图3是图2对应的预测结果。

具体实施方式

为了更好的理解本方案，下面结合实施例和附图对本发明作进一步描述。

实施例1

ncDNA是不能编码蛋白质的DNA序列。图1是一种基于支持向量机预测ncDNA的算法流程图，具体步骤如下：

步骤1：数据的收集和数据集的建立

从Ensembl project搜索的酵母菌的注释数据，负样本是数据库中收集注释的实验验证的cDNA,正样本是相同DNA序列中，截去cDNA后的序列片段。采用CD-HIT分别去除两个样本集中相似性大于75％的高相似性序列，得到非冗余的正负样本集。

步骤2：特征提取

DNA序列共有A,C,G,T四种碱基，提取正负样本集的序列信息构造多维特征编码；

4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对的频率；所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码得到4维特征向量；所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码得到16维特征向量；所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码得到64维特征向量。

任意两个碱基之间被k个任意碱基隔开之后出现的频率，也就是K-空格编码。对于每一个不同的k值，都可以获得16维的特征向量。以k＝1为例，任意一个长为L的样本，其特征向量可表示为：

其中，分子中的N表示被k个任意碱基所隔开的此种碱基对的数量，分母L-k-1表示被k个任意碱基所隔开的所有碱基对的总数。

步骤3：模型构建

以支持向量机(SVM)为机器学习算法，整合不同的特征子集进行10折交叉验证，并对预测模型进行评估，选择最优预测模型。

以SVM作为机器学习算法进行10-折交叉训练。10折交叉验证方法将样本集分成10份，每次选择其中一份来测试模型的性能，剩下的9份用来训练模型。并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标：

其中，N⁺表示正样本的数量；N^-表示负样本的数量；表示正样本被预测为负样本的数量；表示负样本被预测为正样本的数量。

实施例2

本实施例提供了是一种基于支持向量机预测非编码DNA的方法开发的应用平台ncDNAPred，平台是基于支持向量机构建的最优模型采用MATLAB软件和JavaScript编程语言开发的预测平台。用户提交至少一条FASTA格式的DNA序列，就可以快速的预测此序列的编码类型。

用户预测DNA序列是否为ncDNA序列，只需在平台ncDNAPred的预测界面中输入相应样本的FASTA格式序列：

通过点击“Submit”键，即可预测出该DNA序列的类型。用户预测的序列提交后，后台会自动进行特征编码以及SVM学习，最后输出预测的编码类型。平台界面为用户提供了样例，点击“example”后，可进行样例的预测。

图2是为用户提供的例子展示。

图3是对应的预测结果。

除此之外，平台也为用户提供了更多相关信息及先关数据集的下载链接。

Claims

1.一种基于支持向量机预测非编码DNA的方法，其特征在于，所述方法依次含有以下步骤：

步骤1：数据的收集和数据集的建立

收集酵母菌的注释数据，根据注释信息提取正样本集(ncDNA)和负样本集(cDNA)，分别去除序列相似性高的DNA序列，得到非冗余数据集；

步骤2：特征提取

提取正负样本集的序列信息构造多维特征编码；

步骤3：模型构建

2.根据权利要求1所述的基于支持向量机非预测编码DNA的方法，其特征在于，所述步骤1中的数据来源于Ensembl project，物种是酵母菌，数据是酵母菌的编码DNA和非编码DNA序列；负样本是从此数据库中收集注释的实验验证的cDNA，正样本是相同DNA序列中，截去cDNA后的序列片段。

3.根据权利要求1所述的基于支持向量机非预测编码DNA的方法，其特征在于，所述步骤1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75％的数据集。

4.根据权利要求1所述的基于支持向量机预测非编码DNA的方法，其特征在于，所述步骤2中的特征编码为：4种碱基出现的频率、16种碱基对出现的频率、64组三联体密码子出现的频率和K-空格碱基对；DNA序列共有A,C,G,T四种碱基，所述碱基出现的频率是根据4种碱基在序列片段中出现的频率进行编码；所述碱基对出现的频率是根据16种碱基对在序列中出现的频率进行编码；所述三联体密码子出现的频率是根据64组三联体的出现的频率进行编码；任意两个碱基之间被k个任意碱基隔开之后出现的频率，也就是K-空格编码，对于每一个不同的k值，都可以获得16维的特征编码。

5.根据权利要求1所述的基于支持向量机预测非编码DNA的方法，其特征在于，所述步骤3中的以SVM作为机器学习算法进行10-折交叉训练，10-折交叉验证方法将样本集分成10份，每次选择其中一份来测试模型的性能，剩下的9份用来训练模型，并以灵敏度(Sn)、特异性(Sp)、准确率(Acc)和马氏相关系数(MCC)为模型性能的评价指标。

6.一种基于支持向量机预测非编码DNA的应用平台，其特征在于，所述应用平台基于如权利要求1所述的最优预测模型开发，方便用户使用的识别ncDNA。

7.根据权利要求6所述的一种基于支持向量机预测非编码DNA的应用平台，其特征在于，所述应用平台采用MATLAB软件和JavaScript编程语言开发的预测平台ncDNAPred，在使用时，通过用户在ncDNAPred提交的至少一条FASTA格式的DNA序列，能够快速预测此序列的编码类型。