CN114154396A

CN114154396A - 一种跨物种编码多肽sORF的预测方法

Info

Publication number: CN114154396A
Application number: CN202111305379.3A
Authority: CN
Inventors: 郭丽; 姜雯雯; 夏道良
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-03-08

Abstract

本发明属于生物信息领域，公开了一种跨物种编码多肽sORF的预测方法，整合了sORF数据库中人和小鼠、TAIR数据库中拟南芥以及NCBI数据库中部分原核生物的可编码蛋白的DNA序列，并通过数据过滤策略和负样本产生策略构建各物种相应的正负样本；提取序列特征，并利用最大相关最小冗余和增量选择的方法对训练集进行特征筛选，得到不同方法对应的最佳特征集，构建肽编码sORF预测模型；利用贪婪的网格搜索方法进行参数优化，构建基于支持向量机的最佳预测模型，并通过灵敏度、特异度、准确率和马修斯相关系数对预测模型经行评估。本方法有助于分类识别肽编码sORFs，对肽编码sORFs的研究和基因注释有重要意义。

Description

一种跨物种编码多肽sORF的预测方法

技术领域

本发明具体涉及一种跨物种编码多肽sORF的预测方法，属于生物信息领域。

背景技术

小开放阅读框(small Open Reading Frames,sORFs)是长度小于100个氨基酸的DNA序列，许多生物的基因组中均存在sORFs。在过去的十多年里，由于 sORFs序列长度短，表达水平低，且相关资料较少，研究人员往往在基因组注释中忽略了sORF。随着测序技术的发展，人们发现许多sORFs也能够编码蛋白质，且普遍存在于基因组各个区域。2016年，德克萨斯大学Eric教授等人发现，由sORF编码的小蛋白质DWORF对心肌收缩功能具有不可忽视的作用，这引起了研究人员对sORFs的重新思考与认识。

近年来，在细菌、酵母、人类中均能检测到由sORF编码的小蛋白质，这些小蛋白质在胚胎发育、肌肉功能、细胞凋亡等生命活动中发挥重要作用。因此，肽编码sORFs逐渐成为生物学领域的一个研究热点。然而传统序列分析方法，如基因组测序、转录组测序、蛋白质组测序(质谱分析)等手段在sORFs识别中表现甚微。近几年，核糖体谱成为继质谱分析等传统测序方法的新技术，并被广泛用于分类识别序列能否编码蛋白质，其主要内容是通过核糖体印记技术分析蛋白质的合成情况，但有证据显示许多ncRNA也能与核糖体结合，因此仅靠传统的测序方法分类识别肽编码sORF远远不够。目前，已有许多工具可用于区分编码RNA和ncRNA，例如：CPAT、CNCI、PLEK、CPC2、CPPred、LGC、 MePiped、DeepCPP以及CPPred-sORF等。这些方法均建立在一定数据集之上，且能较好地区分“普通”长度的编码RNA和ncRNA，但对于分类识别肽编码 sORF的准确性却不高。因此，发展有效的sORF分类识别技术意义重大。

发明内容

本发明的目的在于克服现有背景技术中的不足，提供一种跨物种编码多肽sORF的预测方法，解决样本数量不平衡的问题，便于提取稳健、高效的DNA 序列特征。

为达到上述目的，本发明是采用下述技术方案实现的：

一种跨物种编码多肽sORF(small Open Reading Frame，小开放阅读框)的预测方法，包括以下步骤：

将非编码序列产生策略应用于多个物种的肽编码sORFs的数据集，分别得到与之对应的非编码sORFs数据集；

将各物种的肽编码sORFs和非编码sORFs分别去冗余(Max-Relevance and Min-Redundancy，MRMR)，得到各物种相应的正负样本，构建训练集和测试集；

提取各数据集中相应的特征参数；结合MRMR策略和增量选择方法选取表现较好的特征，构建相应特征集；

构建基于向量机(Support Vector Machine，SVM)肽编码sORFs的预测模型，将训练集的特征集用于模型训练；利用贪婪的网格搜索方法对训练模型进一步优化，分别得到指定参数范围内的最佳预测模型；

利用预测模型对测试集进行预测，分析各数据集预测结果，比较评估不同特征选取策略的预测效率，得到表现最好的特征集和预测模型作为最佳的特征集和预测模型。

进一步的，从sORF数据库中下载人和小鼠的编码序列(Coding sequence， CDS)，从TAIR数据库中下载拟南芥的CDS，从NCBI数据库中下载部分原核生物基因组的CDS；根据数据过滤策略滤除“错误”序列，得到多个物种的肽编码sORFs的数据集。

进一步的，“错误”序列过滤策略：

滤除sORF长度≥100aa；

滤除序列长度不能被3整除的sORF；

滤除以终止密码子开头的sORF；

滤除不以终止密码子结尾的sORF；

滤除序列中带有终止密码子的sORF；

进一步的，非编码序列产生策略为：

固定起始密码子和终止密码子，随机打乱每个正sORF序列；

确保在序列末端的终止密码子之前没有任何终止密码子；

进一步的，去冗余方法为：

通过CDHit程序，将各物种的肽编码sORFs和非编码sORFs分别去冗余，得到各物种相应的正负样本，构建训练集和测试集；

去冗余阈值设为0.80，滤除相似度大于80％的DNA序列；

进一步的，根据9种不同的特征选取策略，提取各数据集中相应的特征参数；所述9种不同的特征选取策略分别为：CPPred、2mer、3mer、TN、ITN、Cylindrical、Spherical、Codon、Amino。

进一步的，利用PyCharm软件提取各数据集中DNA序列的特征参数；利用PyCharm软件pymrmr包实现MRMR策略和增量选择方法，完成特征排序，构建相应的特征集。

进一步的，网格搜索方法的参数设置：

cmin：惩罚参数c的变化范围的最小值；默认为-5；

cmax：惩罚参数c的变化范围的最大值；默认为5；

gmin：参数g的变化范围的最小值；默认为-5；

gmax：参数g的变化范围的最大值；默认为5；

v：交叉验证的参数；默认为3；

cstep：参数c步进的大小；默认为1；

gstep：参数g步进的大小；默认为1；

accstep：最后显示准确率图时的步进大小；默认为1.5。

进一步的，利用matlab的libsvm包，利用预测模型对测试集进行跨物种预测，根据Sn、Sp、ACC、MCC，4个指标分析预测结果，对预测模型进行比较评估，将表现最好的特征集和预测模型作为跨物种编码多肽sORF的预测方法的特征集和预测模型。

进一步的，评估指标计算公式如下：

其中，Sn为灵敏度，Sp为特异度，ACC为准确率，MCC为马修斯相关系数，TP为真正例，FN为假负例，TN为真负例，FP假正例。

有益效果

本发明提出的一种跨物种编码多肽sORF的预测方法，基于高通量测序数据，对人、小鼠、拟南芥以及部分原核生物基因组的肽编码sORFs进行整合筛选，结合严格的非编码sORFs产生策略，解决样本数量不平衡的问题，便于提取稳健、高效的DNA序列特征；

本发明基于支持向量机(SVM)，利用最大相关最小冗余(MRMR)策略和增量选择方法筛选DNA序列特征参数，构建预测的最佳特征集，有助于分类识别肽编码sORFs，发展一种跨物种编码多肽sORF的预测方法，对肽编码sORFs 的研究和基因注释有重要意义。

附图说明

图1为本发明实施例一种跨物种编码多肽sORF的预测方法的数据筛选策略；

图2是本发明实施例一种跨物种编码多肽sORF的预测方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，为本发明实施例一种跨物种编码多肽sORF的预测方法的数据筛选策略，包括如下步骤：

步骤1)从sORF数据库中下载人和小鼠的CDS，从TAIR数据库中下载拟南芥的CDS，从NCBI数据库中下载部分原核生物基因组的CDS；根据数据过滤策略滤除“错误”序列，得到各物种的肽编码sORFs的数据集；

本文构建了两个训练集：原核混合训练集(TR1)和真核混合训练集(TR2)； 8个测试集：拟南芥测试集1(Ara1)、拟南芥测试集2(Ara2)、人类测试集 1(Hum1)、人类测试集2(Hum2)、小鼠测试集1(Mou1)、小鼠测试集2 (Mou2)、原核测试集(Pro)、大肠杆菌测试集(Bac)。其中，TR2是从Ara1、 Hum1和Mou1三个数据集中分别随机抽取10％的序列组成的，Ara1、Hum1和 Mou1剩下的90％序列分别构成Ara2、Hum2和Mou2。

为构建TR1，从NCBI下载NC_009089、NC_003103、NC_012962、 NC_000913、NC_008380的CDS序列，保留长度小于等于100aa且具有明确功能的sORFs；为构建Ara1，Hum1和Mou1，从TAIR数据库下载了2888个拟南芥sORF，从sORF数据库分别下载了10000个人类sORF和10000个小鼠sORF；为构建Pro_6318-6318数据集，从56个原核基因组(表1)中筛选具有明确功能的sORF，其中，56个选定原核基因组的基因组GC含量为20％～70％； Bac_150-53数据集是由Hemm等人发布的经实验验证的数据集。

表1 56个原核基因组

根据数据过滤策略，滤除下载数据中的“错误”序列，得到各物种的肽编码sORFs的数据集；

“错误”序列过滤策略：

(i)滤除sORF长度≥100aa；

(ii)滤除序列长度不能被3整除的sORF；

(iii)滤除以终止密码子开头的sORF；

(iv)滤除不以终止密码子结尾的sORF；

(v)滤除序列中带有终止密码子的sORF；

步骤2)将非编码序列产生策略应用于步骤1中各物种肽编码sORFs的数据集，分别得到与之对应的非编码sORFs数据集；

非编码序列产生策略：

(i)固定起始密码子和终止密码子，随机打乱每个正sORF序列；

(ii)确保在序列末端的终止密码子之前没有任何终止密码子；

步骤3)通过CDHit程序，将各物种的肽编码sORFs和非编码sORFs分别去冗余，得到各物种相应的正负样本(表2)，构建训练集和测试集；

去冗余阈值设为0.80，滤除相似度大于80％的DNA序列；

表2数据集统计

图2是本发明实施例一种跨物种编码多肽sORF的预测方法的流程图，包括如下步骤：

步骤4)根据9种特征选取策略(CPPred、2mer、3mer、TN、ITN、Cylindrical、Spherical、Codon、Amino)，利用PyCharm软件提取各数据集中DNA序列的特征参数；利用PyCharm软件pymrmr包实现MRMR策略和增量选择方法，完成特征排序，构建相应的特征集；

(i)9种特征选取策略：

CPPred：CPPred-sORF为针对CPPred进行改进，可用于预测sORF编码潜力。在本项工作中，我们提取CPPred-sORF预测工具中涉及到的所有特征，包括序列长度(Length)、覆盖率(Coverage)、完整性(Intergrity)、Fickett得分、Hexamer得分、预测肽的等电点(pI)、预测肽的亲水性总平均值(Gravy)、预测肽的不稳定性(Instability)、全局描述符(CTD)、GC含量和11个注意密码子的含量(UAC、AAC、UAU、AUC、UUC、GAG、AAG、GAU、GAC、 AAU和GUG)，共计40个特征。其中，CTD一共含有30个特征：C表示核苷酸组成，有4个特征，描述了每个核苷酸在转录本序列中所占比例，可用A、T、 C、G表示；T表示核苷酸转换，包含6个特征，描述了四个核苷酸在相邻位置之间转换的百分比频率，可用AT、AG、AC、TG、TC和GC表示；D表示核苷酸分布，包含20给特征，描述了每个核苷酸在5个相对位置前所占比比例，分别为0(第一个)、25％、50％、75％和100％(最后一个)。

2mer、3mer：K-mer是长度为k的子序列，其中k为整数。对于任意一条 DNA序列，指定阅读框长度为K，步长为1，从第一个碱基开始移动至序列末尾，阅读框内截取的长度为K的子序列即为该DNA序列的K-mer特征。一般任意一条DNA序列含有4种碱基A、T、C、G，所以取不同的K值时，DNA 序列的K-mer数量不同，为4^K。考虑到序列长度大小，我们选取了K＝2和K＝3，并分析不同K值下，各DNA子序列所占比例，最终分别获得16和64个特征。

TN：TN曲线为一种基于三核苷酸的DNA序列三维图形表示方法。在本项工作中，我们提取每条DNA序列的TN曲线的6个参数作为序列特征。

ITN：I-TN曲线为根据TN曲线提出的一种改进的图形表示形式。在本项工作中，我们提取每条DNA序列的TN曲线的18个参数作为序列特征。

Cylindrical：Cylindrical为一种蛋白质序列的柱面表示方法。在本项工作中，我们将DNA序列转换为蛋白质序列，并将蛋白质序列的柱面表示方法中的参数作为序列特征。

Spherical：Spherical为一种蛋白质序列的球坐标表示方法。本项工作中，我们将DNA序列转换为蛋白质序列，并将蛋白质序列的柱球面表示方法中提到的每个氨基酸的物理化学性质作为序列特征。

Codon：64个密码子的百分含量。

Amino：20个氨基酸的百分含量。

(ii)MRMR和增量选择：

利用MRMR(最大相关最小冗余)方法分别对每种特征提取策略中的特征与编码潜力的相关性进行排序，即排名越靠前的特征与序列编码潜力相关性越大，且特征间的冗余度越低。

将排序后特征集通过增量选择的方法，即根据排序结果，依序选择前N个特征作为新的特征子集(N＝1，2，3...)，将每个特征子集做10倍交叉验证，分析平均预测准确率，选取准确率最高的特征子集作为此特征提取策略下的最佳特征集，用于模型训练。

步骤5)利用matlab的libsvm包，构建基于SVM的肽编码sORFs预测模型；利用训练集TR1的9个特征集构建基于原核训练预测模型，利用训练集TR2 的9个特征集构建基于真核训练预测模型；利用贪婪的网格搜索方法进一步优化预测模型，得到18个指定参数范围内的最佳预测模型；

网格搜索方法的参数设置：

cmin：惩罚参数c的变化范围的最小值(取以2为底的对数后)。默认为-5。

cmax：惩罚参数c的变化范围的最大值(取以2为底的对数后)。默认为5。

gmin：参数g的变化范围的最小值(取以2为底的对数后)。默认为-5。

gmax：参数g的变化范围的最大值(取以2为底的对数后)。默认为5。

v：交叉验证的参数。默认为3。

cstep：参数c步进的大小。默认为1。

gstep：参数g步进的大小。默认为1。

accstep：最后显示准确率图时的步进大小。默认为1.5。

步骤6)利用预测模型对测试集进行预测，分析各数据集预测结果的Sn、 Sp、ACC、MCC，比较评估不同特征选取策略的预测效率，得到表现最好的特征集和预测模型作为最佳的特征集和预测模型。

根据步骤5)得到的18个预测模型，利用matlab的libsvm包，对测试集进行跨物种预测，其中测试集Ara1、Hum1、Mou1、Pro和Bac在原核混合训练集训练的预测模型上进行预测，测试集Ara2、Hum2、Mou2、Pro和Bac在真混合训练集训练的预测模型上进行预测。

根据Sn、Sp、ACC、MCC，4个指标评估预测结果(表3，表4)，评估指标计算公式如下：

其中，Sn为灵敏度，Sp为特异度，ACC为准确率，MCC为马修斯相关系数， TP为真正例，FN为假负例，TN为真负例，FP假正例。表3基于原核混合训练集构建的预测模型的预测结果

表4基于原核混合训练集构建的预测模型的预测结果

根据预测结果，选取单独基于原核训练集和单独基于真核训练集分别构建原核生物肽编码sORFs预测模型和真核生物肽编码sORFs预测模型，对sORFs 实现同界跨物种预测。针对原核sORFs，选取Codon策略提取的最佳特征集训练的模型进行预测效果最好，预测准确率最高可达0.91；针对真核sORFs，选取3mer策略提取的最佳特征集训练的模型进行预测效果最好，预测准确率约为 0.83～0.87。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种跨物种编码多肽sORF的预测方法，其特征在于，包括以下步骤：

将非编码序列产生策略应用于多个物种的肽编码sORFs的数据集，分别得到与之对应的非编码sORFs数据集；将各物种的肽编码sORFs和非编码sORFs分别去冗余，得到各物种相应的正负样本，构建训练集和测试集；

提取各数据集中相应的特征参数；结合最大相关最小冗余策略和增量选择方法选取表现较好的特征，构建相应特征集；构建基于支持向量机肽编码sORFs的预测模型，将训练集的特征集用于模型训练；利用贪婪的网格搜索方法对训练模型进一步优化，分别得到指定参数范围内的最佳预测模型；

2.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，从sORF数据库中下载人和小鼠的编码序列，从TAIR数据库中下载拟南芥的CDS，从NCBI数据库中下载部分原核生物基因组的CDS；根据数据过滤策略滤除“错误”序列，得到多个物种的肽编码sORFs的数据集。

3.根据权利要求2所述的一种跨物种编码多肽sORF的预测方法，其特征在于，“错误”序列过滤策略为：

滤除sORF长度≥100aa；

滤除序列长度不能被3整除的sORF；

滤除以终止密码子开头的sORF；

滤除不以终止密码子结尾的sORF；

滤除序列中带有终止密码子的sORF。

4.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，

非编码序列产生策略为：固定起始密码子和终止密码子，随机打乱每个正sORF序列；

确保在序列末端的终止密码子之前没有任何终止密码子。

5.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，去冗余方法为：

去冗余阈值设为0.80，滤除相似度大于80％的DNA序列。

6.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，根据9种不同的特征选取策略，提取各数据集中相应的特征参数；所述9种不同的特征选取策略分别为：CPPred、2mer、3mer、TN、ITN、Cylindrical、Spherical、Codon、Amino。

7.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，利用PyCharm软件提取各数据集中DNA序列的特征参数；利用PyCharm软件pymrmr包实现MRMR策略和增量选择方法，完成特征排序，构建相应的特征集。

8.根据权利要求1所述的跨物种编码多肽sORF的预测方法，其特征在于，