CN114373508A - 一种基于16S rDNA序列的菌种鉴定方法 - Google Patents

一种基于16S rDNA序列的菌种鉴定方法 Download PDF

Info

Publication number
CN114373508A
CN114373508A CN202210078847.6A CN202210078847A CN114373508A CN 114373508 A CN114373508 A CN 114373508A CN 202210078847 A CN202210078847 A CN 202210078847A CN 114373508 A CN114373508 A CN 114373508A
Authority
CN
China
Prior art keywords
sequence
mer
sequences
query
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210078847.6A
Other languages
English (en)
Other versions
CN114373508B (zh
Inventor
王庭璋
刘淑艳
马云婷
郑小玲
王美霞
钟啸萍
陶巧凤
方序
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tianke High And New Technology Development Co ltd
Original Assignee
Zhejiang Tianke High And New Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Tianke High And New Technology Development Co ltd filed Critical Zhejiang Tianke High And New Technology Development Co ltd
Priority to CN202210078847.6A priority Critical patent/CN114373508B/zh
Publication of CN114373508A publication Critical patent/CN114373508A/zh
Application granted granted Critical
Publication of CN114373508B publication Critical patent/CN114373508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于16S rDNA序列的菌种鉴定方法,步骤包括:将参考16S rDNA序列按照引物序列确定参考序列方向;根据预定长度将确定方向后的参考序列进行k‑mer切分;将含有一定数量的简并碱基序列进行展开,构建参考序列的k‑mer索引库;将查询序列按照预定长度进行k‑mer切分,构建k‑mer序列集合;根据特定公式以及特定序列相似性值计算查询序列的最小比对k‑mer数(k min );比对参考序列k‑mer索引库,统计查询序列的每个k‑mer的比对情况;根据k min 筛选出符合条件的候选参考序列,分别将查询序列与候选参考序列进行两两比对,计算序列相似性,最终输出查询序列的比对结果。本发明可以缩短海量序列查询时间以及减少海量数据存储空间,并为菌株鉴定提供了一个新的高效的技术手段。

Description

一种基于16S rDNA序列的菌种鉴定方法
技术领域
本发明属于生物信息领域,具体地,本发明涉及一种基于16S rDNA序列的菌种鉴定方法。
背景技术
16S rDNA主要编码核糖体16S rRNA,约1500bp,其进化具有时钟性质,在结构与功能上具有保守性,有“细菌化石”之称。16S rDNA的序列中至少包含9个可变区和11个保守区。保守区是细菌共有的序列,具有高度同源性。而可变区中某些高变性质则能体现物种间的差异,研究表明高变区(V1-V9)存在与所有细菌中,可用于细菌的种类鉴定。
微生物污染是制药企业生产过程控制及药品质量评估的重要指标,也是影响消费者用药安全的关键因素。因此加强药品生产过程微生物监管和风险控制是保障药品质量、降低用药风险的重要途径。在药品生产的微生物质量控制中,实现微生物“属”及“种”水平的准确鉴定,对控制药品质量以及保障消费者用药安全具有重要意义。
随着分子生物学技术的快速发展,微生物鉴定技术也得到飞速发展。近年来,各种基因诊断技术在细菌检测中不断开发、利用,尤其是基于聚合酶链反应(PCR)的基因诊断技术发挥着越来越重要的作用。该技术主要有三个步骤:首先是基因组DNA的获得,其次是16srDNA基因片段的获得,最后是进行16s rDNA基因序列的分析。截止目前,使用16S rDNA基因序列对物种进行鉴定和分类的核心基础是利用BLAST局部比对算法进行快速分类,输出初始排名结果,随后使用双序列全局比对,给出在参考数据库中与待查询序列最为接近的排名序列,以此作为参考,对样本序列进行鉴定和分类。然而BLAST算法存在计算量较大,运算效率低以及资源消耗较高等问题。传统的索引在可扩展性上难以满足数据快速增长的需求,尤其当数据量极大,时间紧迫时,能否以最快的速度存取到所需的信息,是一个非常重要的挑战性问题。
发明内容
为了克服现有技术的不足,本发明的目的是提供一种基于16S rDNA序列的菌种鉴定方法,该方法应用于16S rDNA序列的菌种鉴定中,能明显提高鉴定速度并减少运算量,高效地获得序列的菌种鉴定信息。
本发明提供的菌种鉴定方法基于k-mer思想实现16S rDNA序列的菌种鉴定。具体的核心步骤如下:步骤一,构建参考序列k-mer索引库;步骤二,查询序列菌种鉴定分析;根据本发明实施例的上述鉴定方法通过k-mer切分模式,减少了比对的运算量,极大提高了鉴定速度。
根据本发明的实施例,上述方法进一步包括如下技术特征:
所述k-mer索引库构建是通过如下方式进行的:(1)序列方向确定:根据533R引物序列与参考数据库中序列比对以确定序列方向,其中533R引物序列为5’-TTACCGCGGCTGCTGGCAC-3’;
(2)k-mer切分:根据特定长度对所有序列进行k-mer切分;
(3)k-mer序列分类:根据简并碱基数量将k-mer序列分为3类,第一类为不包含简并碱基;第二类包含简并碱基并且数量小于等于2;第三类包含简并碱基并且数量大于2;
(4)展开简并碱基:针对上述第二类k-mer序列,即存在简并碱基并且数量小于等于2的k-mer序列,根据简并碱基对应的碱基进行逐步展开;
(5)k-mer索引构建:将上述第一类k-mer序列,第二类经过展开后的k-mer序列,以及第三类k-mer序列合并构建k-mer索引库,包含k-mer序列,出现频次,涉及的参考序列ID。
所述查询序列菌种鉴定分析实行步骤如下:
(1)k-mer切分:将16S rDNA查询序列按照特定长度进行k-mer切分,构建k-mer序列集合;
(2)K min 计算:根据特定公式以及特定序列相似性值计算查询序列的最小比对k- mer数(k min );
(3)比对k-mer索引库:将查询序列的k-mer序列集合与参考k-mer索引库进行比对,并统计查询序列每个k-mer的比对结果;
(4)k-mer统计:根据与索引库的比对情况,统计查询序列比对上相同参考序列的k-mer个数;
(5)候选参考序列筛选:根据k min 筛选出符合条件的候选参考序列;
(6)序列两两比对:将查询序列分别与候选参考序列进行两两比对,计算序列相似性以及序列联配结果
(7)结果输出:最终输出查询序列的比对结果。
所述k min 计算公式如下:
Figure 917183DEST_PATH_IMAGE002
其中,
L表示查询序列长度;
K表示指定k-mer长度;
S表示指定序列相似性值;
int表示数值取整。
所述指定序列相似性值设置如下:根据基因序列一般分析原则,相似性≥99%时,鉴定结果为种水平;相似性≥97%且<99%时,鉴定结果为属水平。
所述查询序列与候选参考序列进行两两比对采用全局比对方法。
所述最终输出结果包括序列相似性,物种拉丁名,物种菌株号。
本发明有益效果在于:
1)通过采取k-mer算法模式,大大的减少了数据库存储空间;
2)通过k-mer序列在索引库中查找,极大地缩短了查找时间的成本。
附图说明
图1为本发明实施例中的k-mer索引库构建示意图。
图2为本发明实施例中的序列鉴定模块示意图。
具体实施方式
为了更好的说明本发明,下面结合具体的实施例做进一步说明,所述实施例的示例在附图中展示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
根据本发明的实施例,所述方法可描述为:
1)16S rDNA参考序列k-mer索引库构建,如图1所示。具体步骤包括:
序列方向确定:根据533R引物序列与参考16S rDNA序列数据库中序列进行比对以确定序列方向,其中533R引物序列为5’-TTACCGCGGCTGCTGGCAC-3’。
k-mer切分:根据特定长度(K=31),对参考序列进行k-mer切分。
k-mer序列分类:根据简并碱基数量将k-mer序列分为3类,第一类为不包含简并碱基;第二类包含简并碱基并且数量小于等于2;第三类包含简并碱基并且数量大于2。
展开简并碱基:针对上述第二类k-mer序列,即存在简并碱基并且数量小于等于2的k-mer序列,根据简并碱基对应的碱基进行逐步展开。
k-mer索引构建:将上述第一类k-mer序列,第二类经过展开后的k-mer序列,以及第三类k-mer序列合并构建k-mer索引库,以哈希表存储,包含k-mer序列,出现频次和涉及的参考序列ID。
2)16S rDNA查询序列菌种鉴定分析,如图2所示。具体步骤包括:
k-mer切分:根据特定长度(K=31),对查询序列进行k-mer切分,构建k-mer序列集合。
k min 计算:并且根据特定公式以及特定序列相似性值计算查询序列的最小比对k- mer数(k min )。
k min 计算公式如下:
Figure 509969DEST_PATH_IMAGE002
其中,
L表示查询序列长度;
K表示指定k-mer长度;
S表示指定序列相似性值;
int表示数值取整。
如:查询序列长度为1428bp,鉴定结果达到种水平(相似性≥99%),根据公式计算:k min =1428-(31-1+31*int(1428/100)*(100-99))=964,通过计算可知当查询序列长度为1428bp时,至少需要有964个k-mer比对上同一条参考序列才能保证序列鉴定结果到种水平。
比对k-mer索引库:将查询序列的k-mer序列集合与参考k-mer索引库进行比对,并统计每个k-mer的比对结果。
k-mer统计:根据与索引库的比对情况统计比对上相同参考序列的k-mer个数。
候选参考序列筛选:根据k min 值筛选出符合条件的候选参考序列。
序列两两比对:将查询序列与候选参考序列进行两两比对,并计算相似性以及序列联配结果。
结果输出:根据序列比对结果输出序列相似性值,物种拉丁名,物种菌株号。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本领域技术人员而言,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,均属于本发明要求保护的范围。

Claims (5)

1.一种基于16S rDNA序列的菌种鉴定方法,其特征在于,包括以下步骤:
步骤1,构建参考序列k-mer索引库;
步骤1.1 序列方向确定:根据533R引物序列与16S rDNA参考数据库中序列进行比对以确定序列方向,其中533R引物序列为5’-TTACCGCGGCTGCTGGCAC-3’;
步骤1.2 k-mer切分:根据特定长度对所有序列进行k-mer切分;
步骤1.3 k-mer序列分类:根据简并碱基数量将k-mer序列分为3类,第一类为不包含简并碱基;第二类包含简并碱基并且数量小于等于2;第三类包含简并碱基并且数量大于2;
步骤1.4 展开简并碱基:针对上述第二类k-mer序列,即存在简并碱基并且数量小于等于2的k-mer序列,根据简并碱基对应的碱基进行逐步展开;
步骤1.5 k-mer索引构建:将上述第一类k-mer序列,第二类经过展开后的k-mer序列,以及第三类k-mer序列合并构建k-mer索引库,包含k-mer序列,出现频次和涉及的参考序列ID;
步骤2,查询序列菌种鉴定分析;
步骤2.1 k-mer切分:将16S rDNA查询序列按照特定长度进行k-mer切分,构建k-mer序列集合;
步骤2.2 k min 计算:根据特定公式以及特定序列相似性值计算查询序列的最小比对k- mer数(kmin);
步骤2.3 比对k-mer索引库:将查询序列的k-mer序列集合与参考k-mer索引库进行比对,并统计查询序列每个k-mer的比对情况;
步骤2.4 k-mer统计:根据与索引库的比对情况,统计查询序列比对上相同参考序列的k-mer个数;
步骤2.5 候选参考序列筛选:根据k min 筛选出符合条件的候选参考序列;
步骤2.6 序列两两比对:将查询序列分别与候选参考序列进行两两比对,计算序列相似性以及序列联配结果;
步骤2.7 结果输出:根据序列比对结果输出序列相似性值,物种拉丁名,物种菌株号。
2.如权利要求1所述的方法,其特征在于:所述特定长度为31个核苷酸碱基。
3.如权利要求1所述的方法,其特征在于,所述k min 计算公式如下:
Figure 456906DEST_PATH_IMAGE002
其中,
L表示查询序列长度;
K表示指定k-mer长度;
S表示指定序列相似性值;
int表示数值取整。
4.如权利要求1所述的方法,其特征在于,所述指定序列相似性值设置如下:根据基因序列一般分析原则,相似性≥99%时,鉴定结果为种水平;相似性≥97%且<99%时,鉴定结果为属水平。
5.如权利要求1所述的方法,其特征在于,查询序列与候选参考序列进行两两比对采用全局比对方法。
CN202210078847.6A 2022-01-24 2022-01-24 一种基于16S rDNA序列的菌种鉴定方法 Active CN114373508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210078847.6A CN114373508B (zh) 2022-01-24 2022-01-24 一种基于16S rDNA序列的菌种鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210078847.6A CN114373508B (zh) 2022-01-24 2022-01-24 一种基于16S rDNA序列的菌种鉴定方法

Publications (2)

Publication Number Publication Date
CN114373508A true CN114373508A (zh) 2022-04-19
CN114373508B CN114373508B (zh) 2024-02-02

Family

ID=81146027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210078847.6A Active CN114373508B (zh) 2022-01-24 2022-01-24 一种基于16S rDNA序列的菌种鉴定方法

Country Status (1)

Country Link
CN (1) CN114373508B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2668320A1 (en) * 2011-01-26 2013-12-04 Cosmosid Inc. Identification and measurement of relative populations of microorganisms with direct dna sequencing
CN105986013A (zh) * 2015-02-02 2016-10-05 广州华大基因医学检验所有限公司 确定微生物种类的方法和装置
CN106295250A (zh) * 2016-07-28 2017-01-04 北京百迈客医学检验所有限公司 二代测序短序列快速比对分析方法及装置
CN106951733A (zh) * 2017-02-21 2017-07-14 苏州普瑞森基因科技有限公司 一种优化的16SrDNA高通量测序物种比对方法
KR101798229B1 (ko) * 2016-12-27 2017-12-12 주식회사 천랩 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법
CN108611350A (zh) * 2018-05-04 2018-10-02 广州金域医学检验集团股份有限公司 16S rDNA微生物菌种鉴定用引物系统、试剂盒和应用
CN108949920A (zh) * 2018-08-01 2018-12-07 深圳市领治医学科技有限公司 一种疾病相关的菌群定量扩增方法
CN109355412A (zh) * 2018-12-11 2019-02-19 中国医科大学附属第医院 一种用于测定细菌与真菌种类和丰度比较的人工合成外源性参照分子
CN110111843A (zh) * 2018-01-05 2019-08-09 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质
CN110452974A (zh) * 2019-08-26 2019-11-15 北京群峰纳源健康科技有限公司 一种检测细菌16S rDNA全长的建库测序方法
CN110517726A (zh) * 2019-07-15 2019-11-29 西安电子科技大学 一种基于高通量测序数据的微生物成分及浓度检测方法
US20200011873A1 (en) * 2017-03-17 2020-01-09 Second Genome, Inc. Leveraging sequence-based fecal microbial community survey data to identify a composite biomarker for colorectal cancer
CN111154847A (zh) * 2020-01-15 2020-05-15 北京睿博兴科生物技术有限公司 一种基于细菌16S rDNA序列的快速核酸提取测序鉴定方法
CN111816258A (zh) * 2020-07-20 2020-10-23 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN112063702A (zh) * 2020-09-25 2020-12-11 南通大学附属医院 16S rRNA基因序列分析鉴定临床疑难菌种的方法
CN113160882A (zh) * 2021-05-24 2021-07-23 成都博欣医学检验实验室有限公司 一种基于三代测序的病原微生物宏基因组检测方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2668320A1 (en) * 2011-01-26 2013-12-04 Cosmosid Inc. Identification and measurement of relative populations of microorganisms with direct dna sequencing
CN105986013A (zh) * 2015-02-02 2016-10-05 广州华大基因医学检验所有限公司 确定微生物种类的方法和装置
CN106295250A (zh) * 2016-07-28 2017-01-04 北京百迈客医学检验所有限公司 二代测序短序列快速比对分析方法及装置
US20190119717A1 (en) * 2016-12-27 2019-04-25 Chunlab, Inc. Ribosomal rna sequence extraction method and microorganism identification method using extracted ribosomal rna sequence
KR101798229B1 (ko) * 2016-12-27 2017-12-12 주식회사 천랩 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법
CN106951733A (zh) * 2017-02-21 2017-07-14 苏州普瑞森基因科技有限公司 一种优化的16SrDNA高通量测序物种比对方法
US20200011873A1 (en) * 2017-03-17 2020-01-09 Second Genome, Inc. Leveraging sequence-based fecal microbial community survey data to identify a composite biomarker for colorectal cancer
CN110111843A (zh) * 2018-01-05 2019-08-09 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质
CN108611350A (zh) * 2018-05-04 2018-10-02 广州金域医学检验集团股份有限公司 16S rDNA微生物菌种鉴定用引物系统、试剂盒和应用
CN108949920A (zh) * 2018-08-01 2018-12-07 深圳市领治医学科技有限公司 一种疾病相关的菌群定量扩增方法
CN109355412A (zh) * 2018-12-11 2019-02-19 中国医科大学附属第医院 一种用于测定细菌与真菌种类和丰度比较的人工合成外源性参照分子
CN110517726A (zh) * 2019-07-15 2019-11-29 西安电子科技大学 一种基于高通量测序数据的微生物成分及浓度检测方法
CN110452974A (zh) * 2019-08-26 2019-11-15 北京群峰纳源健康科技有限公司 一种检测细菌16S rDNA全长的建库测序方法
CN111154847A (zh) * 2020-01-15 2020-05-15 北京睿博兴科生物技术有限公司 一种基于细菌16S rDNA序列的快速核酸提取测序鉴定方法
CN111816258A (zh) * 2020-07-20 2020-10-23 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN112063702A (zh) * 2020-09-25 2020-12-11 南通大学附属医院 16S rRNA基因序列分析鉴定临床疑难菌种的方法
CN113160882A (zh) * 2021-05-24 2021-07-23 成都博欣医学检验实验室有限公司 一种基于三代测序的病原微生物宏基因组检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ALEXANDER WY CHAN 等: "High-throughput DNA sequencing technologies for water and wastewater analysis", 《SCIENCE PROGRESS》, vol. 102, no. 04, pages 351 - 376 *
RAMYA SRINIVASAN 等: "Use of 16S rRNA Gene for Identification of a Broad Range of Clinically Relevant Bacterial Pathogens", 《PLOS ONE》, vol. 10, no. 02, pages 1 - 22 *
刘倩倩: "海洋沉积物中细菌的富集分离及三株拟杆菌新物种的多相分类", 《中国优秀硕士学位论文全文数据库 基础科学辑》, no. 2014, pages 006 - 80 *
刘颖: "梅山猪不同发育阶段肠道微生物变化及免疫调控机制分析", 《中国博士学位论文全文数据库 农业科技辑》, no. 2018, pages 050 - 87 *
束莹: "古井贡酒大曲中微生物群落结构的鉴定及分析", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》, no. 2014, pages 024 - 363 *
盛群英 等: "细菌16SrDNA测序分析妊娠晚期孕妇感染B族链球菌对阴道微生态及母婴结局的影响", 《国际检验医学杂志》, vol. 41, no. 20, pages 2528 - 2532 *
苏杭: "一些淡水藻株的分类鉴定及高脂藻株的筛选", 《中国博士学位论文全文数据库 基础科学辑》, no. 2020, pages 006 - 41 *

Also Published As

Publication number Publication date
CN114373508B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Liang et al. DeepMicrobes: taxonomic classification for metagenomics with deep learning
Bernard et al. Alignment-free inference of hierarchical and reticulate phylogenomic relationships
US20160364523A1 (en) Systems and methods for identifying microorganisms
EP2694669B1 (en) Methods for making or creating a synthetic microbial consortium identified by computational analysis of amplicon sequences
Bar-Joseph et al. Computational discovery of gene modules and regulatory networks
Brady et al. Phymm and PhymmBL: metagenomic phylogenetic classification with interpolated Markov models
Stranneheim et al. Classification of DNA sequences using Bloom filters
Bressin et al. TriPepSVM: de novo prediction of RNA-binding proteins based on short amino acid motifs
Karlicki et al. Tiara: deep learning-based classification system for eukaryotic sequences
Kawulok et al. CoMeta: classification of metagenomes using k-mers
Brāzma et al. Pattern discovery in biosequences
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
Wang et al. ARG-SHINE: improve antibiotic resistance class prediction by integrating sequence homology, functional information and deep convolutional neural network
Liu et al. Forensic STR allele extraction using a machine learning paradigm
CN114373508A (zh) 一种基于16S rDNA序列的菌种鉴定方法
CN113053461B (zh) 一种基于靶标的基因簇定向挖掘方法
Hoeppner et al. An introduction to RNA databases
Dotan et al. Effect of tokenization on transformers for biological sequences
Popic et al. GATTACA: lightweight metagenomic binning with compact indexing of kmer counts and minhash-based panel selection
Gong et al. BDLR: lncRNA identification using ensemble learning
Fu et al. Prediction of Type III Secreted Effectors Based on Word Embeddings for Protein Sequences
Jozashoori et al. AFDP: An Automated Function Description Prediction Approach to Improve Accuracy of Protein Function Predictions
Xue et al. RScan: fast searching structural similarities for structured RNAs in large databases
Folino et al. Clustering metagenome short reads using weighted proteins
Chegrane et al. Motif selection enables efficient sequence-based classification of non-coding RNA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant