CN114154396A - 一种跨物种编码多肽sORF的预测方法 - Google Patents

一种跨物种编码多肽sORF的预测方法 Download PDF

Info

Publication number
CN114154396A
CN114154396A CN202111305379.3A CN202111305379A CN114154396A CN 114154396 A CN114154396 A CN 114154396A CN 202111305379 A CN202111305379 A CN 202111305379A CN 114154396 A CN114154396 A CN 114154396A
Authority
CN
China
Prior art keywords
sorf
species
sorfs
prediction
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111305379.3A
Other languages
English (en)
Inventor
郭丽
姜雯雯
夏道良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202111305379.3A priority Critical patent/CN114154396A/zh
Publication of CN114154396A publication Critical patent/CN114154396A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息领域,公开了一种跨物种编码多肽sORF的预测方法,整合了sORF数据库中人和小鼠、TAIR数据库中拟南芥以及NCBI数据库中部分原核生物的可编码蛋白的DNA序列,并通过数据过滤策略和负样本产生策略构建各物种相应的正负样本;提取序列特征,并利用最大相关最小冗余和增量选择的方法对训练集进行特征筛选,得到不同方法对应的最佳特征集,构建肽编码sORF预测模型;利用贪婪的网格搜索方法进行参数优化,构建基于支持向量机的最佳预测模型,并通过灵敏度、特异度、准确率和马修斯相关系数对预测模型经行评估。本方法有助于分类识别肽编码sORFs,对肽编码sORFs的研究和基因注释有重要意义。

Description

一种跨物种编码多肽sORF的预测方法
技术领域
本发明具体涉及一种跨物种编码多肽sORF的预测方法,属于生物信息领域。
背景技术
小开放阅读框(small Open Reading Frames,sORFs)是长度小于100个氨基酸的DNA序列,许多生物的基因组中均存在sORFs。在过去的十多年里,由于 sORFs序列长度短,表达水平低,且相关资料较少,研究人员往往在基因组注释中忽略了sORF。随着测序技术的发展,人们发现许多sORFs也能够编码蛋白质,且普遍存在于基因组各个区域。2016年,德克萨斯大学Eric教授等人发现,由sORF编码的小蛋白质DWORF对心肌收缩功能具有不可忽视的作用,这引起了研究人员对sORFs的重新思考与认识。
近年来,在细菌、酵母、人类中均能检测到由sORF编码的小蛋白质,这些小蛋白质在胚胎发育、肌肉功能、细胞凋亡等生命活动中发挥重要作用。因此,肽编码sORFs逐渐成为生物学领域的一个研究热点。然而传统序列分析方法,如基因组测序、转录组测序、蛋白质组测序(质谱分析)等手段在sORFs识别中表现甚微。近几年,核糖体谱成为继质谱分析等传统测序方法的新技术,并被广泛用于分类识别序列能否编码蛋白质,其主要内容是通过核糖体印记技术分析蛋白质的合成情况,但有证据显示许多ncRNA也能与核糖体结合,因此仅靠传统的测序方法分类识别肽编码sORF远远不够。目前,已有许多工具可用于区分编码RNA和ncRNA,例如:CPAT、CNCI、PLEK、CPC2、CPPred、LGC、 MePiped、DeepCPP以及CPPred-sORF等。这些方法均建立在一定数据集之上,且能较好地区分“普通”长度的编码RNA和ncRNA,但对于分类识别肽编码 sORF的准确性却不高。因此,发展有效的sORF分类识别技术意义重大。
发明内容
本发明的目的在于克服现有背景技术中的不足,提供一种跨物种编码多肽sORF的预测方法,解决样本数量不平衡的问题,便于提取稳健、高效的DNA 序列特征。
为达到上述目的,本发明是采用下述技术方案实现的:
一种跨物种编码多肽sORF(small Open Reading Frame,小开放阅读框)的预测方法,包括以下步骤:
将非编码序列产生策略应用于多个物种的肽编码sORFs的数据集,分别得到与之对应的非编码sORFs数据集;
将各物种的肽编码sORFs和非编码sORFs分别去冗余(Max-Relevance and Min-Redundancy,MRMR),得到各物种相应的正负样本,构建训练集和测试集;
提取各数据集中相应的特征参数;结合MRMR策略和增量选择方法选取表现较好的特征,构建相应特征集;
构建基于向量机(Support Vector Machine,SVM)肽编码sORFs的预测模型,将训练集的特征集用于模型训练;利用贪婪的网格搜索方法对训练模型进一步优化,分别得到指定参数范围内的最佳预测模型;
利用预测模型对测试集进行预测,分析各数据集预测结果,比较评估不同特征选取策略的预测效率,得到表现最好的特征集和预测模型作为最佳的特征集和预测模型。
进一步的,从sORF数据库中下载人和小鼠的编码序列(Coding sequence, CDS),从TAIR数据库中下载拟南芥的CDS,从NCBI数据库中下载部分原核生物基因组的CDS;根据数据过滤策略滤除“错误”序列,得到多个物种的肽编码sORFs的数据集。
进一步的,“错误”序列过滤策略:
滤除sORF长度≥100aa;
滤除序列长度不能被3整除的sORF;
滤除以终止密码子开头的sORF;
滤除不以终止密码子结尾的sORF;
滤除序列中带有终止密码子的sORF;
进一步的,非编码序列产生策略为:
固定起始密码子和终止密码子,随机打乱每个正sORF序列;
确保在序列末端的终止密码子之前没有任何终止密码子;
进一步的,去冗余方法为:
通过CDHit程序,将各物种的肽编码sORFs和非编码sORFs分别去冗余,得到各物种相应的正负样本,构建训练集和测试集;
去冗余阈值设为0.80,滤除相似度大于80%的DNA序列;
进一步的,根据9种不同的特征选取策略,提取各数据集中相应的特征参数;所述9种不同的特征选取策略分别为:CPPred、2mer、3mer、TN、ITN、Cylindrical、Spherical、Codon、Amino。
进一步的,利用PyCharm软件提取各数据集中DNA序列的特征参数;利用PyCharm软件pymrmr包实现MRMR策略和增量选择方法,完成特征排序,构建相应的特征集。
进一步的,网格搜索方法的参数设置:
cmin:惩罚参数c的变化范围的最小值;默认为-5;
cmax:惩罚参数c的变化范围的最大值;默认为5;
gmin:参数g的变化范围的最小值;默认为-5;
gmax:参数g的变化范围的最大值;默认为5;
v:交叉验证的参数;默认为3;
cstep:参数c步进的大小;默认为1;
gstep:参数g步进的大小;默认为1;
accstep:最后显示准确率图时的步进大小;默认为1.5。
进一步的,利用matlab的libsvm包,利用预测模型对测试集进行跨物种预测,根据Sn、Sp、ACC、MCC,4个指标分析预测结果,对预测模型进行比较评估,将表现最好的特征集和预测模型作为跨物种编码多肽sORF的预测方法的特征集和预测模型。
进一步的,评估指标计算公式如下:
Figure BDA0003339915310000041
Figure BDA0003339915310000042
Figure BDA0003339915310000043
Figure BDA0003339915310000044
其中,Sn为灵敏度,Sp为特异度,ACC为准确率,MCC为马修斯相关系数,TP为真正例,FN为假负例,TN为真负例,FP假正例。
有益效果
本发明提出的一种跨物种编码多肽sORF的预测方法,基于高通量测序数据,对人、小鼠、拟南芥以及部分原核生物基因组的肽编码sORFs进行整合筛选,结合严格的非编码sORFs产生策略,解决样本数量不平衡的问题,便于提取稳健、高效的DNA序列特征;
本发明基于支持向量机(SVM),利用最大相关最小冗余(MRMR)策略和增量选择方法筛选DNA序列特征参数,构建预测的最佳特征集,有助于分类识别肽编码sORFs,发展一种跨物种编码多肽sORF的预测方法,对肽编码sORFs 的研究和基因注释有重要意义。
附图说明
图1为本发明实施例一种跨物种编码多肽sORF的预测方法的数据筛选策略;
图2是本发明实施例一种跨物种编码多肽sORF的预测方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,为本发明实施例一种跨物种编码多肽sORF的预测方法的数据筛选策略,包括如下步骤:
步骤1)从sORF数据库中下载人和小鼠的CDS,从TAIR数据库中下载拟南芥的CDS,从NCBI数据库中下载部分原核生物基因组的CDS;根据数据过滤策略滤除“错误”序列,得到各物种的肽编码sORFs的数据集;
本文构建了两个训练集:原核混合训练集(TR1)和真核混合训练集(TR2); 8个测试集:拟南芥测试集1(Ara1)、拟南芥测试集2(Ara2)、人类测试集 1(Hum1)、人类测试集2(Hum2)、小鼠测试集1(Mou1)、小鼠测试集2 (Mou2)、原核测试集(Pro)、大肠杆菌测试集(Bac)。其中,TR2是从Ara1、 Hum1和Mou1三个数据集中分别随机抽取10%的序列组成的,Ara1、Hum1和 Mou1剩下的90%序列分别构成Ara2、Hum2和Mou2。
为构建TR1,从NCBI下载NC_009089、NC_003103、NC_012962、 NC_000913、NC_008380的CDS序列,保留长度小于等于100aa且具有明确功能的sORFs;为构建Ara1,Hum1和Mou1,从TAIR数据库下载了2888个拟南芥sORF,从sORF数据库分别下载了10000个人类sORF和10000个小鼠sORF;为构建Pro_6318-6318数据集,从56个原核基因组(表1)中筛选具有明确功能的sORF,其中,56个选定原核基因组的基因组GC含量为20%~70%; Bac_150-53数据集是由Hemm等人发布的经实验验证的数据集。
表1 56个原核基因组
Figure BDA0003339915310000051
Figure BDA0003339915310000061
根据数据过滤策略,滤除下载数据中的“错误”序列,得到各物种的肽编码sORFs的数据集;
“错误”序列过滤策略:
(i)滤除sORF长度≥100aa;
(ii)滤除序列长度不能被3整除的sORF;
(iii)滤除以终止密码子开头的sORF;
(iv)滤除不以终止密码子结尾的sORF;
(v)滤除序列中带有终止密码子的sORF;
步骤2)将非编码序列产生策略应用于步骤1中各物种肽编码sORFs的数据集,分别得到与之对应的非编码sORFs数据集;
非编码序列产生策略:
(i)固定起始密码子和终止密码子,随机打乱每个正sORF序列;
(ii)确保在序列末端的终止密码子之前没有任何终止密码子;
步骤3)通过CDHit程序,将各物种的肽编码sORFs和非编码sORFs分别去冗余,得到各物种相应的正负样本(表2),构建训练集和测试集;
去冗余阈值设为0.80,滤除相似度大于80%的DNA序列;
表2数据集统计
Figure BDA0003339915310000071
图2是本发明实施例一种跨物种编码多肽sORF的预测方法的流程图,包括如下步骤:
步骤4)根据9种特征选取策略(CPPred、2mer、3mer、TN、ITN、Cylindrical、Spherical、Codon、Amino),利用PyCharm软件提取各数据集中DNA序列的特征参数;利用PyCharm软件pymrmr包实现MRMR策略和增量选择方法,完成特征排序,构建相应的特征集;
(i)9种特征选取策略:
CPPred:CPPred-sORF为针对CPPred进行改进,可用于预测sORF编码潜力。在本项工作中,我们提取CPPred-sORF预测工具中涉及到的所有特征,包括序列长度(Length)、覆盖率(Coverage)、完整性(Intergrity)、Fickett得分、Hexamer得分、预测肽的等电点(pI)、预测肽的亲水性总平均值(Gravy)、预测肽的不稳定性(Instability)、全局描述符(CTD)、GC含量和11个注意密码子的含量(UAC、AAC、UAU、AUC、UUC、GAG、AAG、GAU、GAC、 AAU和GUG),共计40个特征。其中,CTD一共含有30个特征:C表示核苷酸组成,有4个特征,描述了每个核苷酸在转录本序列中所占比例,可用A、T、 C、G表示;T表示核苷酸转换,包含6个特征,描述了四个核苷酸在相邻位置之间转换的百分比频率,可用AT、AG、AC、TG、TC和GC表示;D表示核苷酸分布,包含20给特征,描述了每个核苷酸在5个相对位置前所占比比例,分别为0(第一个)、25%、50%、75%和100%(最后一个)。
2mer、3mer:K-mer是长度为k的子序列,其中k为整数。对于任意一条 DNA序列,指定阅读框长度为K,步长为1,从第一个碱基开始移动至序列末尾,阅读框内截取的长度为K的子序列即为该DNA序列的K-mer特征。一般任意一条DNA序列含有4种碱基A、T、C、G,所以取不同的K值时,DNA 序列的K-mer数量不同,为4K。考虑到序列长度大小,我们选取了K=2和K=3,并分析不同K值下,各DNA子序列所占比例,最终分别获得16和64个特征。
TN:TN曲线为一种基于三核苷酸的DNA序列三维图形表示方法。在本项工作中,我们提取每条DNA序列的TN曲线的6个参数作为序列特征。
ITN:I-TN曲线为根据TN曲线提出的一种改进的图形表示形式。在本项工作中,我们提取每条DNA序列的TN曲线的18个参数作为序列特征。
Cylindrical:Cylindrical为一种蛋白质序列的柱面表示方法。在本项工作中,我们将DNA序列转换为蛋白质序列,并将蛋白质序列的柱面表示方法中的参数作为序列特征。
Spherical:Spherical为一种蛋白质序列的球坐标表示方法。本项工作中,我们将DNA序列转换为蛋白质序列,并将蛋白质序列的柱球面表示方法中提到的每个氨基酸的物理化学性质作为序列特征。
Codon:64个密码子的百分含量。
Amino:20个氨基酸的百分含量。
(ii)MRMR和增量选择:
利用MRMR(最大相关最小冗余)方法分别对每种特征提取策略中的特征与编码潜力的相关性进行排序,即排名越靠前的特征与序列编码潜力相关性越大,且特征间的冗余度越低。
将排序后特征集通过增量选择的方法,即根据排序结果,依序选择前N个特征作为新的特征子集(N=1,2,3...),将每个特征子集做10倍交叉验证,分析平均预测准确率,选取准确率最高的特征子集作为此特征提取策略下的最佳特征集,用于模型训练。
步骤5)利用matlab的libsvm包,构建基于SVM的肽编码sORFs预测模型;利用训练集TR1的9个特征集构建基于原核训练预测模型,利用训练集TR2 的9个特征集构建基于真核训练预测模型;利用贪婪的网格搜索方法进一步优化预测模型,得到18个指定参数范围内的最佳预测模型;
网格搜索方法的参数设置:
cmin:惩罚参数c的变化范围的最小值(取以2为底的对数后)。默认为-5。
cmax:惩罚参数c的变化范围的最大值(取以2为底的对数后)。默认为5。
gmin:参数g的变化范围的最小值(取以2为底的对数后)。默认为-5。
gmax:参数g的变化范围的最大值(取以2为底的对数后)。默认为5。
v:交叉验证的参数。默认为3。
cstep:参数c步进的大小。默认为1。
gstep:参数g步进的大小。默认为1。
accstep:最后显示准确率图时的步进大小。默认为1.5。
步骤6)利用预测模型对测试集进行预测,分析各数据集预测结果的Sn、 Sp、ACC、MCC,比较评估不同特征选取策略的预测效率,得到表现最好的特征集和预测模型作为最佳的特征集和预测模型。
根据步骤5)得到的18个预测模型,利用matlab的libsvm包,对测试集进行跨物种预测,其中测试集Ara1、Hum1、Mou1、Pro和Bac在原核混合训练集训练的预测模型上进行预测,测试集Ara2、Hum2、Mou2、Pro和Bac在真混合训练集训练的预测模型上进行预测。
根据Sn、Sp、ACC、MCC,4个指标评估预测结果(表3,表4),评估指标计算公式如下:
Figure BDA0003339915310000101
Figure BDA0003339915310000102
Figure BDA0003339915310000103
Figure BDA0003339915310000104
其中,Sn为灵敏度,Sp为特异度,ACC为准确率,MCC为马修斯相关系数, TP为真正例,FN为假负例,TN为真负例,FP假正例。表3基于原核混合训练集构建的预测模型的预测结果
Figure BDA0003339915310000105
Figure BDA0003339915310000111
表4基于原核混合训练集构建的预测模型的预测结果
Figure BDA0003339915310000112
根据预测结果,选取单独基于原核训练集和单独基于真核训练集分别构建原核生物肽编码sORFs预测模型和真核生物肽编码sORFs预测模型,对sORFs 实现同界跨物种预测。针对原核sORFs,选取Codon策略提取的最佳特征集训练的模型进行预测效果最好,预测准确率最高可达0.91;针对真核sORFs,选取3mer策略提取的最佳特征集训练的模型进行预测效果最好,预测准确率约为 0.83~0.87。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种跨物种编码多肽sORF的预测方法,其特征在于,包括以下步骤:
将非编码序列产生策略应用于多个物种的肽编码sORFs的数据集,分别得到与之对应的非编码sORFs数据集;将各物种的肽编码sORFs和非编码sORFs分别去冗余,得到各物种相应的正负样本,构建训练集和测试集;
提取各数据集中相应的特征参数;结合最大相关最小冗余策略和增量选择方法选取表现较好的特征,构建相应特征集;构建基于支持向量机肽编码sORFs的预测模型,将训练集的特征集用于模型训练;利用贪婪的网格搜索方法对训练模型进一步优化,分别得到指定参数范围内的最佳预测模型;
利用预测模型对测试集进行预测,分析各数据集预测结果,比较评估不同特征选取策略的预测效率,得到表现最好的特征集和预测模型作为最佳的特征集和预测模型。
2.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,从sORF数据库中下载人和小鼠的编码序列,从TAIR数据库中下载拟南芥的CDS,从NCBI数据库中下载部分原核生物基因组的CDS;根据数据过滤策略滤除“错误”序列,得到多个物种的肽编码sORFs的数据集。
3.根据权利要求2所述的一种跨物种编码多肽sORF的预测方法,其特征在于,“错误”序列过滤策略为:
滤除sORF长度≥100aa;
滤除序列长度不能被3整除的sORF;
滤除以终止密码子开头的sORF;
滤除不以终止密码子结尾的sORF;
滤除序列中带有终止密码子的sORF。
4.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,
非编码序列产生策略为:固定起始密码子和终止密码子,随机打乱每个正sORF序列;
确保在序列末端的终止密码子之前没有任何终止密码子。
5.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,去冗余方法为:
通过CDHit程序,将各物种的肽编码sORFs和非编码sORFs分别去冗余,得到各物种相应的正负样本,构建训练集和测试集;
去冗余阈值设为0.80,滤除相似度大于80%的DNA序列。
6.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,根据9种不同的特征选取策略,提取各数据集中相应的特征参数;所述9种不同的特征选取策略分别为:CPPred、2mer、3mer、TN、ITN、Cylindrical、Spherical、Codon、Amino。
7.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,利用PyCharm软件提取各数据集中DNA序列的特征参数;利用PyCharm软件pymrmr包实现MRMR策略和增量选择方法,完成特征排序,构建相应的特征集。
8.根据权利要求1所述的跨物种编码多肽sORF的预测方法,其特征在于,
网格搜索方法的参数设置:
cmin:惩罚参数c的变化范围的最小值;默认为-5;
cmax:惩罚参数c的变化范围的最大值;默认为5;
gmin:参数g的变化范围的最小值;默认为-5;
gmax:参数g的变化范围的最大值;默认为5;
v:交叉验证的参数;默认为3;
cstep:参数c步进的大小;默认为1;
gstep:参数g步进的大小;默认为1;
accstep:最后显示准确率图时的步进大小;默认为1.5。
9.根据权利要求1所述的一种跨物种编码多肽sORF的预测方法,其特征在于,利用matlab的libsvm包,利用预测模型对测试集进行跨物种预测,根据Sn、Sp、ACC、MCC,4个指标分析预测结果,对预测模型进行比较评估,将表现最好的特征集和预测模型作为跨物种编码多肽sORF的预测方法的特征集和预测模型。
10.根据权利要求9所述的一种跨物种编码多肽sORF的预测方法,评估指标计算公式如下:
Figure FDA0003339915300000031
Figure FDA0003339915300000032
Figure FDA0003339915300000033
Figure FDA0003339915300000034
其中,Sn为灵敏度,Sp为特异度,ACC为准确率,MCC为马修斯相关系数,TP为真正例,FN为假负例,TN为真负例,FP假正例。
CN202111305379.3A 2021-11-05 2021-11-05 一种跨物种编码多肽sORF的预测方法 Pending CN114154396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111305379.3A CN114154396A (zh) 2021-11-05 2021-11-05 一种跨物种编码多肽sORF的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111305379.3A CN114154396A (zh) 2021-11-05 2021-11-05 一种跨物种编码多肽sORF的预测方法

Publications (1)

Publication Number Publication Date
CN114154396A true CN114154396A (zh) 2022-03-08

Family

ID=80459639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111305379.3A Pending CN114154396A (zh) 2021-11-05 2021-11-05 一种跨物种编码多肽sORF的预测方法

Country Status (1)

Country Link
CN (1) CN114154396A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453599A (zh) * 2023-06-19 2023-07-18 深圳大学 开放阅读框预测方法、设备及存储介质
CN118038995A (zh) * 2024-01-23 2024-05-14 常州大学 非编码rna中小开放阅读窗编码多肽能力预测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453599A (zh) * 2023-06-19 2023-07-18 深圳大学 开放阅读框预测方法、设备及存储介质
CN116453599B (zh) * 2023-06-19 2024-03-19 深圳大学 开放阅读框预测方法、设备及存储介质
CN118038995A (zh) * 2024-01-23 2024-05-14 常州大学 非编码rna中小开放阅读窗编码多肽能力预测方法及系统

Similar Documents

Publication Publication Date Title
Vaishnav et al. The evolution, evolvability and engineering of gene regulatory DNA
CN114154396A (zh) 一种跨物种编码多肽sORF的预测方法
Baril et al. Earl Grey: a fully automated user-friendly transposable element annotation and analysis pipeline
CN112863599B (zh) 一种病毒测序序列的自动化分析方法及系统
CN109599149B (zh) 一种rna编码潜能的预测方法
CN111863121A (zh) 一种基于图卷积神经网络的蛋白质自相互作用预测方法
CN110556163A (zh) 一种基于翻译组的长链非编码rna翻译小肽的分析方法
CN113257337A (zh) 一种基于宏基因组的蛋白质多序列比对方法
Yu et al. Prediction of protein-coding small ORFs in multi-species using integrated sequence-derived features and the random forest model
CN114822694A (zh) 基于CatBoost算法的长非编码RNA识别方法
CN114694746A (zh) 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法
WO2023135151A1 (en) Synthetic promoters generated based on genomic dna sequences
CN114758721B (zh) 一种基于深度学习的转录因子结合位点定位方法
CN114627964B (zh) 一种基于多核学习预测增强子及其强度分类方法及分类设备
CN115240775A (zh) 基于stacking集成学习策略的Cas蛋白预测方法
CN116312783A (zh) 一种dna合成难度预测的系统及其应用
US20220199200A1 (en) Biological sequencing
CN114927163A (zh) 一种基于单细胞图谱预测遗传模型的方法和存储介质
Gustafsson et al. Exploration of sequence space for protein engineering
CN117746996A (zh) 基于特异和多态ssr序列的多种杜鹃花品种鉴定方法
Gustafsson et al. Clustering genomic signatures A new distance measure for variable length Markov chains
CN116153397A (zh) 基于蛋白质/基因序列数据的生物物种同源性分析系统
Henikoff Comparative methods for identifying functional domains in protein sequences
Tobiasson et al. Progress towards an integrated database ofthe mitoribosomal proteome
Fassetti et al. Discovering new proteins in plant mitochondria by RNA editing simulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination