CN114038500A - 一种识别非编码rna多肽的方法 - Google Patents

一种识别非编码rna多肽的方法 Download PDF

Info

Publication number
CN114038500A
CN114038500A CN202110996256.2A CN202110996256A CN114038500A CN 114038500 A CN114038500 A CN 114038500A CN 202110996256 A CN202110996256 A CN 202110996256A CN 114038500 A CN114038500 A CN 114038500A
Authority
CN
China
Prior art keywords
coding
sequence
coding rna
transcript
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110996256.2A
Other languages
English (en)
Inventor
李永生
徐娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Medical University
Hainan Medical College
Original Assignee
Harbin Medical University
Hainan Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Medical University, Hainan Medical College filed Critical Harbin Medical University
Priority to CN202110996256.2A priority Critical patent/CN114038500A/zh
Publication of CN114038500A publication Critical patent/CN114038500A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种识别非编码RNA多肽的方法,包括1)非编码RNA序列的获取;2)非编码RNA翻译的理论多肽的计算识别:使用生物信息软件包生成每个转录本的3框翻译的氨基酸序列,搜索序列中以起始密码子对应氨基酸开始,终止密码子结束的,长度大于10的氨基酸序列,通过氨基酸序列的起始终止位置,反推核苷酸序列的起始终止位置,并由所有的核苷酸编码序列并集求编码区间核苷酸序列长度,用编码区间核苷酸序列长度/转录本核苷酸序列的总长度来计算每个转录本的编码能力,数值越大代表该转录本的编码能力越强。本方法是国际上首个针对非编码RNA的多肽识别鉴定方法,可以基因组范围地预测非编码RNA,提供多肽的信息,为后续科学研究或多肽药物的开发提供候选。

Description

一种识别非编码RNA多肽的方法
技术领域
本发明涉及生物信息学技术领域,具体涉及一种识别非编码RNA多肽的方法。
背景技术
基因组学研究表明,哺乳动物基因中超过98%转录为非编码RNA(non-codingRNA,ncRNA)。非编码RNA是一类重要的普遍存在的转录本,给发育和人类复杂疾病的研究带来了新的启示。根据RNA分子环化情况,可以分为环形的RNA(circular RNA,circRNA)和线性RNA。线性RNA按其长度可分为长链ncRNA(longnon-coding RNA,lncRNA)和短链ncRNA。其中,microRNA(miRNA)是短链ncRNA的典型代表。虽然circRNA、lncRNA和miRNA在结构和长度上存在明显的差异,但是越来越多的研究显示,它们不仅调控生理过程中重要的生物学功能,同时也参与了包含癌症在内的复杂疾病的形成,甚至是某些疾病的主要成因,其中一些特异的非编码RNA也有望成为疾病诊断和治疗提供新的靶点和研发新的药物。因此,circRNA、lncRNA和miRNA作为重要的普遍参与恶性肿瘤形成的调控因子已达成共识,为人类恶性肿瘤发病机制解释带来全新的视角。
越来越多的研究表明,circRNA、lncRNA虽然不翻译成蛋白,但可以翻译生成一些短的多肽。多肽可作为“开关”分子,介导肿瘤细胞的代谢重编程等重要生物学过程,从而推动肿瘤的发生发展。多肽的表达丰度与癌症的诊断预后密切相关,可以作为恶性肿瘤的预后标记物。然而,以circRNA、lncRNA为代表的非编码RNA翻译生成的多肽还未被系统识别,也未被证实。
另一方面,很多多肽被设计成分子靶向药物,特别是靶向肿瘤的多肽药物开发和研究取得很大进展。多肽药物是由人工合成的或经分离纯化得到的活性多肽,先前研究发现一些小分子多肽在抑制肿瘤发生与发展中发挥重要的作用。例如,多肽HSP70-P/AFP-P在表达AFP的肿瘤中能够通过诱导T细胞免疫增强和增强抵抗力来发挥抗肿瘤的活性。肝素结合蛋白多肽可通过下调内皮细胞中包括ERL、FAK、AKT等在内的血管形成因子和侵袭因子的表达来显著地抑制乳腺癌细胞的生长。此外,还有文献报告有些小分子多肽能通过调控mRNA和lncRNA对肿瘤的生物学行为产生影响。
发明内容
鉴于此,本申请拟整合多组学数据开发一种识别非编码RNA多肽的方法,并结合核糖体测序、质谱等高通量技术检测的大数据来验证其存在的真实性,形成从预测-高通量实验验证的完善鉴定系统。
本发明技术方案主要包括以下内容:
一种识别非编码RNA多肽的方法,包括以下步骤:
1)非编码RNA序列的获取:基于非编码RNA的注释信息,获得其在染色体上的位置,结合基因组的参考序列,提取得到非编码RNA序列信息;相关参考序列及注释文件可从常规使用的数据库中获得。例如lncRNA的序列从GENCODE数据库获得,miRNA序列从miRBase获得,circRNA从circBase数据库获得。
2)非编码RNA翻译的理论多肽的计算识别:使用生物信息软件包生成每个转录本的3框翻译的氨基酸序列,搜索序列中以起始密码子对应氨基酸开始,终止密码子结束的,长度大于10的氨基酸序列,通过氨基酸序列的起始终止位置,反推核苷酸序列的起始终止位置,并由所有的核苷酸编码序列并集求编码区间核苷酸序列长度,用编码区间核苷酸序列长度/转录本核苷酸序列的总长度来计算每个转录本的编码能力,数值越大代表该转录本的编码能力越强。
本发明所取得的效果:
本发明为国际上首个针对非编码RNA的多肽识别鉴定方法,该方法可以基因组范围地预测和鉴定circRNA、lncRNA和miRNA多肽,并可以根据不同的组织提供多肽的信息,为后续科学研究或多肽药物的开发提供候选。该鉴定系统提供多种证据支撑非编码RNA多肽的可靠性,可以根据需要选择不同的证据,或者证据的组合去鉴定非编码RNA多肽。
具体实施方式
为了更好理解本发明技术内容,下面提供具体实施例,对本发明做进一步的说明。
实施例1:一种识别非编码RNA多肽的方法
1)非编码RNA序列的获取:基于lncRNA的注释信息,获得其在染色体上的位置,结合基因组的参考序列,提取得到非编码RNA序列信息;
2)非编码RNA翻译的理论多肽的计算识别:使用生物信息软件包生成每个转录本的3框翻译的氨基酸序列(Fframe1,Fframe2,Fframe3)(使用标准的哺乳动物密码子表),搜索序列中以起始密码子对应氨基酸(甲硫氨酸,M)开始,终止密码子(不对应氨基酸,-)结束的,长度大于10的氨基酸序列。通过氨基酸序列的起始终止位置,反推核苷酸序列的起始终止位置,并由所有的核苷酸编码序列并集求编码区间核苷酸序列长度,用编码区间核苷酸序列长度/转录本核苷酸序列的总长度来计算每个转录本的编码能力,数值越大代表该转录本的编码能力越强。
以LncRNA分子SOX2-OT为例,该lncRNA位于3号染色体:180,989,762-181,836,880,其中的一个转录本为ENST00000595084,长度850碱基,通过三框翻译,我们识别到该lncRNA能够翻译出846个多肽,其中一个多肽为OX2-OT-222-37aa,包含37个氨基酸序列如下:
MDILSLTLSPRLECSGAILAHCNRHFPGSSGSPASAS
经过反推,我们获得其对应的DNA序列为:
ATGGACATACTGAGTCTCACTCTGTCGCCCAGGTTGGAGTGCAGTGGCGCGATCTTGGCTCACTGCAACCGCCACTTCCCAGGTTCAAGTGGTTCTCCTGCCTCAGCCTCC
计算该lncRNA的编码能力为0.5518。
3)通过实验证据验证识别的非编码RNA多肽:
通过六方面来鉴定识别的非编码RNA多肽的可靠性,包括:
是否被手工注释的数据库收录过;
是否有预测出来的开放阅读框;
是否有核糖体的结合位点;
是否被ribo-seq高通量数据检测到;
是否有m6A修饰位点;
是否被质谱数据支持。
该方法应用到人、小鼠和大鼠三个物种的lncRNA多肽的鉴定,获知理论的lncRNA多肽583840条,至少被一种证据支撑的lncRNA多肽383,646条,其中被手工注释的数据库收录过的lncRNA多肽395条;预测出来的开放阅读框的lncRNA多肽41757条;有核糖体结合位点的lncRNA多肽1985条;被ribo-seq高通量数据检测到的lncRNA多肽332871条;有m6A修饰位点的lncRNA多肽157595条;被质谱数据支持的lncRNA多肽603条。
实施例2:一种识别非编码RNA多肽的方法
1)非编码RNA序列的获取:基于circRNA的注释信息,获得其在染色体上的位置,结合基因组的参考序列,提取得到非编码RNA序列信息;
2)非编码RNA翻译的理论多肽的计算识别:使用生物信息软件包生成每个转录本的3框翻译的氨基酸序列(Fframe1,Fframe2,Fframe3)(使用标准的哺乳动物密码子表),搜索序列中以起始密码子对应氨基酸(甲硫氨酸,M)开始,终止密码子(不对应氨基酸,-)结束的,长度大于10的氨基酸序列。通过氨基酸序列的起始终止位置,反推核苷酸序列的起始终止位置,并由所有的核苷酸编码序列并集求编码区间核苷酸序列长度,用编码区间核苷酸序列长度/转录本核苷酸序列的总长度来计算每个转录本的编码能力,数值越大代表该转录本的编码能力越强。
3)通过实验证据验证识别的非编码RNA多肽:
通过六方面来鉴定识别的非编码RNA多肽的可靠性,包括:
是否被手工注释的数据库收录过;
是否有预测出来的开放阅读框;
是否有核糖体的结合位点;
是否被ribo-seq高通量数据检测到;
是否有m6A修饰位点;
是否被质谱数据支持。
实施例3:一种识别非编码RNA多肽的方法
1)非编码RNA序列的获取:基于miRNA的注释信息,获得其在染色体上的位置,结合基因组的参考序列,提取得到非编码RNA序列信息;
2)非编码RNA翻译的理论多肽的计算识别:使用生物信息软件包生成每个转录本的3框翻译的氨基酸序列(Fframe1,Fframe2,Fframe3)(使用标准的哺乳动物密码子表),搜索序列中以起始密码子对应氨基酸(甲硫氨酸,M)开始,终止密码子(不对应氨基酸,-)结束的,长度大于10的氨基酸序列。通过氨基酸序列的起始终止位置,反推核苷酸序列的起始终止位置,并由所有的核苷酸编码序列并集求编码区间核苷酸序列长度,用编码区间核苷酸序列长度/转录本核苷酸序列的总长度来计算每个转录本的编码能力,数值越大代表该转录本的编码能力越强。
3)通过实验证据验证识别的非编码RNA多肽:
1)通过六方面来鉴定识别的非编码RNA多肽的可靠性,包括
2)是否被手工注释的数据库收录过;
3)是否有预测出来的开放阅读框;
4)是否有核糖体的结合位点;
5)是否被ribo-seq高通量数据检测到;
6)是否有m6A修饰位点;
7)是否被质谱数据支持。
以上所述仅为本发明的较佳实施例而已,但并不构成对本发明的限定,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种识别非编码RNA多肽的方法,其特征在于,包括以下步骤:
1)非编码RNA序列的获取:基于非编码RNA的注释信息,获得其在染色体上的位置,结合基因组的参考序列,提取得到非编码RNA序列信息;
2)非编码RNA翻译的理论多肽的计算识别:使用生物信息软件包生成每个转录本的3框翻译的氨基酸序列,搜索序列中以起始密码子对应氨基酸开始,终止密码子结束的,长度大于10的氨基酸序列,通过氨基酸序列的起始终止位置,反推核苷酸序列的起始终止位置,并由所有的核苷酸编码序列并集求编码区间核苷酸序列长度,用编码区间核苷酸序列长度/转录本核苷酸序列的总长度来计算每个转录本的编码能力,数值越大代表该转录本的编码能力越强。
2.根据权利要求1所述的识别非编码RNA多肽的方法,其特征在于,所述非编码RNA包括lncRNA、miRNA或circRNA。
3.验证权利要求1所识别的非编码RNA多肽的方法,其特征在于,通过以下六种方式之一进行验证:
1)被手工注释的数据库收录过;
2)有预测出来的开放阅读框;
3)有核糖体的结合位点;
4)被ribo-seq高通量数据检测到;
5)有m6A修饰位点;
6)被质谱数据支持。
CN202110996256.2A 2021-08-27 2021-08-27 一种识别非编码rna多肽的方法 Pending CN114038500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110996256.2A CN114038500A (zh) 2021-08-27 2021-08-27 一种识别非编码rna多肽的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110996256.2A CN114038500A (zh) 2021-08-27 2021-08-27 一种识别非编码rna多肽的方法

Publications (1)

Publication Number Publication Date
CN114038500A true CN114038500A (zh) 2022-02-11

Family

ID=80139964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110996256.2A Pending CN114038500A (zh) 2021-08-27 2021-08-27 一种识别非编码rna多肽的方法

Country Status (1)

Country Link
CN (1) CN114038500A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724628A (zh) * 2022-04-24 2022-07-08 华中农业大学 一种对多物种进行多核苷酸变异鉴定和注释的方法
CN114842916A (zh) * 2022-04-28 2022-08-02 北京未名拾光生物技术有限公司 高效构建生物多肽活性分子数据库的方法、设备及系统
CN116751257A (zh) * 2023-08-14 2023-09-15 江苏华肌生物科技有限公司 一种蔷薇多肽及其用于美白保湿的药品或者化妆品中的用途

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150011401A1 (en) * 2011-12-13 2015-01-08 Genomedx Biosciences, Inc. Cancer Diagnostics Using Non-Coding Transcripts
CN110556163A (zh) * 2019-09-04 2019-12-10 广州基迪奥生物科技有限公司 一种基于翻译组的长链非编码rna翻译小肽的分析方法
CN112201307A (zh) * 2020-09-23 2021-01-08 温州医科大学 一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150011401A1 (en) * 2011-12-13 2015-01-08 Genomedx Biosciences, Inc. Cancer Diagnostics Using Non-Coding Transcripts
CN110556163A (zh) * 2019-09-04 2019-12-10 广州基迪奥生物科技有限公司 一种基于翻译组的长链非编码rna翻译小肽的分析方法
CN112201307A (zh) * 2020-09-23 2021-01-08 温州医科大学 一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李俊豪 等: "生物信息学在长非编码RNA研究中的应用", 生理科学进展, vol. 47, no. 3, 25 June 2016 (2016-06-25), pages 168 - 176 *
黎秋慧 等: "LncRNA编码小肽的功能及研究现状", 中国生物化学与分子生物学报, vol. 37, no. 12, 1 June 2021 (2021-06-01), pages 1577 - 1583 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724628A (zh) * 2022-04-24 2022-07-08 华中农业大学 一种对多物种进行多核苷酸变异鉴定和注释的方法
CN114724628B (zh) * 2022-04-24 2022-11-08 华中农业大学 一种对多物种进行多核苷酸变异鉴定和注释的方法
CN114842916A (zh) * 2022-04-28 2022-08-02 北京未名拾光生物技术有限公司 高效构建生物多肽活性分子数据库的方法、设备及系统
CN116751257A (zh) * 2023-08-14 2023-09-15 江苏华肌生物科技有限公司 一种蔷薇多肽及其用于美白保湿的药品或者化妆品中的用途
CN116751257B (zh) * 2023-08-14 2023-10-20 江苏华肌生物科技有限公司 一种蔷薇多肽及其用于美白保湿的药品或者化妆品中的用途

Similar Documents

Publication Publication Date Title
CN114038500A (zh) 一种识别非编码rna多肽的方法
Loganathan et al. Non-coding RNAs in human health and disease: potential function as biomarkers and therapeutic targets
Sun et al. Principles and innovative technologies for decrypting noncoding RNAs: from discovery and functional prediction to clinical application
US7618814B2 (en) Microrna-related nucleic acids and uses thereof
US20110263687A1 (en) Rna molecules and uses thereof
Wang et al. RNA-DNA differences are generated in human cells within seconds after RNA exits polymerase II
EP3455379B1 (en) Ribonucleic acid (rna) interactions
CN113583982B (zh) 确定长链非编码核糖核酸相互作用蛋白的新方法
CN107881249A (zh) lncRNA及其靶基因在选育高品质畜禽品种中应用
CN108103206A (zh) 一种肌内脂肪相关的lncRNA及其应用
CN115698339A (zh) 不固定条形码
EP2333104A1 (en) RNA analytics method
CN112522267A (zh) 长链非编码rna在调控结直肠癌5-fu耐药的应用
WO2017035821A1 (zh) RNA 5mC重亚硫酸盐测序的文库构建方法及其应用
CN107904242B (zh) 一种猪肌内脂肪组织提取的新lncRNA及其应用
CN113913496A (zh) 羊毛囊发生发育相关circRNA表达谱及其构建方法和应用
Sosińska-Zawierucha et al. Prediction of secondary and tertiary structures of human BC200 RNA (BCYRN1) based on experimental and bioinformatic cross-validation
Sun et al. Variation and evolution of polyadenylation profiles in sauropsid mitochondrial mRNAs as deduced from the high-throughput RNA sequencing
US20160152977A1 (en) Analyzing method for micro rna id and biomarkers related to colon cancer through this method
CN108103207A (zh) Brca1、jaml及其调控基因在品种选育中的应用
KR101884989B1 (ko) 조절 miRNA ID의 검출방법 및 이를 이용한 유방암 바이오 마커
JP2022049709A (ja) Rna修飾を利用したがんの転移/原発性に関連する状態の分析・診断法
Lee Characterisation of novel transcripts in the 3’region of L-type calcium channel genes in human brain
Brady et al. In Vivo Interrogation of the Hypoxic Transcriptome of Solid Tumors: Optimizing Hypoxic Probe Labeling with Laser Capture Microdissection for Isolation of High-Quality RNA for Deep Sequencing Analysis
Nikolenko et al. The Drosophila Zinc Finger Proteins Aef1 and CG10543 Are Co-Localized with SAGA, SWI/SNF, and ORC Complexes on Gene Promoters and Involved in Transcription Regulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination