CN109280698A - 一种miRNA预测方法、miRNA系统及应用 - Google Patents

一种miRNA预测方法、miRNA系统及应用 Download PDF

Info

Publication number
CN109280698A
CN109280698A CN201710601597.9A CN201710601597A CN109280698A CN 109280698 A CN109280698 A CN 109280698A CN 201710601597 A CN201710601597 A CN 201710601597A CN 109280698 A CN109280698 A CN 109280698A
Authority
CN
China
Prior art keywords
mirna
sequence
collection
prediction
seed sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710601597.9A
Other languages
English (en)
Inventor
朱欠华
黎万顺
万胜青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201710601597.9A priority Critical patent/CN109280698A/zh
Publication of CN109280698A publication Critical patent/CN109280698A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/178Oligonucleotides characterized by their use miRNA, siRNA or ncRNA

Abstract

本申请公开了一种miRNA预测方法、miRNA系统及应用。本申请的miRNA预测方法包括,(1)设定种子序列长度;(2)按照设定的长度对A、T、C、G四种碱基进行全排列,形成种子序列集;(3)去除种子序列集中冗余序列;(4)搜索种子序列在基因组上的位置,得到位置集;(5)将种子序列位置集,从小到大排列;(6)按位置集的位置遍历,如果前后两个位置序列互补,且距离不大于设定前体序列长度,输出该段序列;(7)采用二级结构预测软件对输出序列进行二级结构预测,获得miRNA,生成该物种的miRNA集。本申请的miRNA预测方法,直接在基因组序列中搜索miRNA,获得的miRNA集更完整,并且,效率高、更便捷,为后续miRNA研究奠定了基础。

Description

一种miRNA预测方法、miRNA系统及应用
技术领域
本申请涉及核酸分析检测领域,特别是涉及一种miRNA预测方法,miRNA预测方法得到的miRNA系统,以及miRNA预测方法的应用。
背景技术
miRNA是一类由内源基因编码的长度约为22个核苷酸的非编码单链RNA分子,通过与基因完全或非完全互补结合,进行基因表达调控,进而引起形状、表型的差异。目前miRNA相关的数据库很多,诸如miRBase、Tarbase等,有利于对miRNA进行下游分析。但是,除了少部分模式生物外,大部分物种的已知miRNA数量非常有限,例如文昌鱼在miRBase中收录的miRNA只有173条,这在某种程度上局限了对miRNA的进一步研究,因此,对于潜在的新的miRNA的鉴定是至关重要的。
目前也有很多miRNA预测方法,如miRDeep2、miRA、mireap等;它们都是基于测序数据,再结合基因组上的比对结果,通过判断测序片段在基因上的侧翼序列是否能形成发夹结构,来推测潜在的miRNA分子。这些miRNA预测方法,都是基于单次测序结果进行预测,对于不同批次或不同实验室的数据平行分析,需要全部放在一起进行,不仅影响项目周期,也增加计算资源消耗;并且,现有的miRNA预测方法整体运行时间较长。
发明内容
本申请的目的是提供一种新的miRNA预测方法,该miRNA预测方法的应用,以及该miRNA预测方法获得的miRNA系统。
本申请采用了以下技术方案:
本申请的一方面公开了一种miRNA预测方法,包括以下步骤,
(1)设定种子序列长度;其中,种子序列长度是根据已知miRNA的前体序列发夹结构特征设计的,优选的,在对待测物种的miRNA进行预测时,是根据待测物种目前已经公开的miRNA前体序列发夹结构特征设计的;
需要说明的是,miRNA前体序列的发夹结构是目前预测miRNA的主要依赖特征,一般认为符合类似结构的序列,是潜在的miRNA分子;本申请根据miRNA前体序列的发夹结构特征设定种子序列长度,具体来说,就是根据待测物种已知miRNA前体序列的发夹结构长度或平均长度或最具代表性的长度,来定义种子序列的长度,而本申请的预测方法就是要找出和待测物种已知miRNA前体序列的发夹结构最接近的前体序列,将其作为潜在的miRNA分子,放入miRNA集中,实现miRNA预测;
(2)对A、T、C、G四种碱基进行步骤(1)设定的序列长度的全排列,形成种子序列集;
需要说明的是,四种碱基进行设定的序列长度的全排列,即每个碱基分别为A、T、C、G,如此排列形成种子序列集;例如,设定长度为7bp,即设定种子序列长度为7bp,则其中每个碱基分别为A、T、C、G进行排列,形成47条序列,所有序列构成种子序列集;
(3)去除种子序列集中的冗余种子序列,具体包括,如果一条种子序列与另一条种子序列的反向互补序列相同,则只保留其中一条;
(4)在步骤(3)剩余的种子序列中,搜索每一条种子序列和其反向互补序列在待测物种的基因组上的位置,得到种子序列位置集;
需要说明的是,如果种子序列或其反向互补序列在待测物种的基因组上没有相应的位置,则直接滤除该种子序列;
(5)将步骤(4)获得的种子序列位置集,在基因组上,按从小到大的顺序排列;
(6)按位置集的位置遍历,如果基因组上相邻的前后两个位置正好是互补序列,且两者的距离小于或等于设定前体序列长度,则输出前面位置对应的种子序列前50bp至后面位置对应的种子序列后50bp的一段核酸序列,作为初选前体序列;
需要说明的是,其中初选前体序列实际上就是包括两个种子序列、两个种子序列之间的序列,以及两个种子序列前后各50bp的一段基因组序列;其中,“设定前体序列长度”默认为500bp,这是参考目前大多数物种的前体序列长度而确定的,当然,根据具体分析的对象物种,统计其前体序列长度,可以对“设定前体序列长度”进行相应的调整,在此不做具体限定;
(7)采用二级结构预测软件对步骤(6)获得的初选前体序列进行二级结构预测,如果不能形成发夹结构,则弃用该初选前体序列;如果能形成发夹结构,则从发夹结构的起始点开始,逐个碱基向后推移的取20-25bp的片段及其互补序列片段作为预成熟体,对各个预成熟体进行打分,取其中分数最高者及其互补序列,并给出两者对应的二级结构;其中,对各成熟体进行打分的依据主要是碱基互补情况,即互补匹配数和空位数,匹配数越多,空位数越少,分数越高。
需要说明的是,虽然在筛选时初选前体序列的前后两个种子序列是互补的,但是,因为种子序列长度较短,所以筛选到的初选前体序列可能只有两个种子序列那段是互补的,而整条初选前体序列本身折叠不出二级结构;
需要说明的是,取其中分数最高者及其互补序列是因为,本申请的预测方法不能确认最终的miRNA序列是预测得到的成熟体序列还是其互补序列,因此,将分数最高的预成熟体序列及其对应的互补序列一起放入miRNA集中;
(8)合并步骤(7)获得的分数最高的成熟体序列及其对应的互补序列,以及各成熟体序列和其互补序列的二级结构,组成待测物种的miRNA集。
需要说明的是,本申请的miRNA预测方法,直接在待测物种的基因组序列中进行搜索,所获得的miRNA集,实际上包含了该待测物种所有可能的miRNA;而现有的miRNA分析方法通常只能得到待测物种某个组织特定时期的miRNA;相比之下,本申请的预测方法及其获得的miRNA集更加完整。可以理解,本申请的miRNA集,是包含了物种在各个时期所有可能存在的miRNA,一方面,这些miRNA可能只是理论预测存在的,并非全部都是真实存在的miRNA,本申请的预测方法提供所有可能存在的miRNA方便了后续研究;另一方面,本申请的预测方法只是能够相对其它方法,更准确的预测miRNA,但是,对于具体的真实的miRNA成熟体本身而言,差一个碱基就会导致完全不同的成熟体,因此,本申请预测的miRNA在具体位置上会与真实的miRNA存在一些差异,但是,其必然都包含在本申请所预测的前体序列内。因此,在步骤(7)中通过二级结构预测软件筛选获得能够形成发夹结构的前体序列,根据不同的使用需求,至此已经能够满足后续科研的使用需求,则无需进一步的列举所有可能的预成熟体并对其进行打分、筛选分数最高者。
还需要说明的是,现有的miRNA分析方法通常是单线程运行,即每个步骤串行运行,很少把中间某一部分拆开并行,因此整体运行时间较长;而本申请的miRNA预测方法,在将每条种子序列和其反向互补序列定位到基因组上后,可以统一输出所有可能的初选序列,然后各初选序列可以并行,同时进行二级结构预测,最终合并组成miRNA集,即可以采用多线程执行,能有效提升运行速度,缩短预测时间。
优选的,本申请的miRNA预测方法还包括步骤(9),将待测物种所有已知miRNA与步骤(8)生成的miRNA集比对,将比对上的已知miRNA在miRNA集中进行标注,将未比对上的已知miRNA加入miRNA集中形成新的miRNA集,并对新加入的已知miRNA进行标注。
优选的,步骤(1)中,设定种子序列长度为2-8bp。
更优选的,步骤(1)中,设定种子序列长度为7bp。
需要说明的是,理论上种子序列的长度只要小于或等于miRNA前体序列的发夹结构长度即可,这个长度通常为2-8bp,但考虑到运算效率,如果长度过小的话会有很多组合,运行比较慢;而种子序列太长的话,不一定能找到互补对,因为miRNA和对应的star序列并不是完全互补存在。因此,优选的默认设定种子序列长度为7bp,特别是待测物种可供参考的miRNA较少的情况下,默认设定为7bp,既保证一定能找到互补对,又能较快完成检索。
优选的,步骤(7)中,采用的二级结构预测软件为RNAfold。
本申请的另一面公开了本申请的miRNA预测方法在制备miRNA预测装置或miRNA预测系统中的应用。
可以理解,基于本申请的miRNA预测方法,完全可以制备一个独立的用于miRNA预测的装置或者系统,以方便miRNA的研究。
本申请的再一面公开了一种用于miRNA预测的装置,该装置按照本申请的miRNA预测方法进行miRNA预测。
本申请的再一面公开了一种用于miRNA预测的系统,该系统按照本申请的miRNA预测方法进行miRNA预测。
本申请的再一面公开了一种miRNA系统,该miRNA系统中包含由本申请的miRNA预测方法获得的miRNA集。
需要说明的是,本申请的miRNA系统中包含本申请的miRNA预测方法获得的miRNA集,由于该miRNA集能够涵盖待测物种更为完整的所有的miRNA信息,因此,更方便待测物种的miRNA研究。其中,本申请的miRNA系统可以包括一个或多个待测物种的miRNA集,或者本申请的miRNA系统也可以作为一个miRNA研究平台,包括某类物种或所有物种的miRNA集。
还需要说明的是,本申请中,miRNA预测系统跟miRNA系统可以是两个独立的运行系统,miRNA预测系统是基于本申请的miRNA预测方法构建的用于预测某个待测物种的miRNA集的系统,miRNA系统则是涵盖一个或多个物种的miRNA集的系统。
本申请的有益效果在于:
本申请的miRNA预测方法,直接在基因组序列中搜索miRNA,能够获得待测物种所有可能的miRNA,与现有的miRNA分析方法相比,本申请的miRNA预测方法所得到的miRNA集更完整。并且,本申请的miRNA预测方法效率高、更便捷,为后续的miRNA深入研究奠定了基础。
附图说明
图1是本申请实施例预测的miRNA二级结构。
具体实施方式
现有的miRNA预测方法都是基于单次测序结果进行的,或者将多次测序结果放在一起进行miRNA预测;一方面,基于测序结果的miRNA预测,周期较长,成本高;另一方面,基于单次或多次测序结果的miRNA预测,只能反映组织在某个或某几个特定时期的miRNA表达信息,该特定时期即采集测序样品时的组织所处的时期,因此,不能更全面的反映待测物种所有的miRNA表达信息。
基于以上问题,本申请提出了一种新的miRNA预测方法,本申请的预测方法,不需要依赖于测序,直接在待测物种的基因组序列中进行搜索,获得的miRNA集不是待测物种某个特定时期表达的miRNA,而是待测物种所有的可能的miRNA,因此,本申请的miRNA预测方法能够得到更完整的miRNA。并且,本申请的miRNA预测方法,不依赖于测序,可多线程执行,效率更高、更便捷,所获得的完整的miRNA集,更方便后续研究。
下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例将人的20条miRNA的前体用N连接起来作为模拟的基因组序列,对其进行miRNA预测,拼接获得的模拟基因组序列为Seq ID No.1所示序列,其长度为2566bp。
Seq ID No.1:
TGGGATGAGGTAGTAGGTTGTATAGTTTTAGGGTCACACCCACCACTGGGAGATAACTATACAATCTACTGTCTTTCCTANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNAGGTTGAGGTAGTAGGTTGTATAGTTTAGAATTACATCAAGGGAGATAACTGTACAGCCTCCTAGCTTTCCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCGGGGTGAGGTAGTAGGTTGTGTGGTTTCAGGGCAGTGATGTTGCCCCTCGGAAGATAACTATACAACCTACTGCCTTCCCTGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCATCCGGGTTGAGGTAGTAGGTTGTATGGTTTAGAGTTACACCCTGGGAGTTAACTGTACAACCTTCTAGCTTTCCTTGGAGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCTAGGAAGAGGTAGTAGGTTGCATAGTTTTAGGGCAGGGATTTTGCCCACAAGGAGGTAACTATACGACCTGCTGCCTTTCTTAGGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCCGGGCTGAGGTAGGAGGTTGTATAGTTGAGGAGGACACCCAAGGAGATCACTATACGGCCTCCTAGCTTTCCCCAGGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTCAGAGTGAGGTAGTAGATTGTATAGTTGTGGGGTAGTGATTTTACCCTGTTCAGGAGATAACTATACAATCTATTGCCTTCCCTGANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTGTGGGATGAGGTAGTAGATTGTATAGTTTTAGGGTCATACCCCATCTTGGAGATAACTATACAGTCTACTGTCTTTCCCACGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCCTTGGAGTAAAGTAGCAGCACATAATGGTTTGTGGATTTTGAAAAGGTGCAGGCCATATTGTGCTGCCTCAAAAATACAAGGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGTCAGCAGTGCCTTAGCAGCACGTAAATATTGGCGTTAAGATTCTAAAATTATCTCCAGTATTAACTGTGCTGCTGAAGTAAGGTTGACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGTCAGAATAATGTCAAAGTGCTTACAGTGCAGGTAGTGATATGTGCATCTACTGCAGTGAAGGCACTTGTAGCATTATGGTGACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTGTTCTAAGGTGCATCTAGTGCAGATAGTGAAGTAGATTAGCATCTACTGCCCTAAGTGCTCCTTCTGGCANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCAGTCCTCTGTTAGTTTTGCATAGTTGCACTACAAGAAGAATGTAGTTGTGCAAATCTATGCAAAACTGATGGTGGCCTGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCACTGTTCTATGGTTAGTTTTGCAGGTTTGCATCCAGCTGTGTGATATTCTGCTGTGCAAATCCATGCAAAACTGACTGTGGTAGTGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNACATTGCTACTTACAATTAGTTTTGCAGGTTTGCATTTCAGCGTATATATGTATATGTGGCTGTGCAAATCCATGCAAAACTGATTGTGATAATGTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGTAGCACTAAAGTGCTTATAGTGCAGGTAGTGTTTAGTTATCTACTGCATTATGAGCACTTAAAGTACTGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTGTCGGGTAGCTTATCAGACTGATGTTGACTGTTGAATCTCATGGCAACACCAGTCGATGGGCTGTCTGACANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGGCTGAGCCGCAGTAGTTCTTCAGTGGCAAGCTTTATGTCCTGACCCAGCTAAAGCTGCCAGTTGAAGAACTGTTGCCCTCTGCCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGGCCGGCTGGGGTTCCTGGGGATGGGATTTGCTTCCTGTCACAAATCACATTGCCAGGGATTTCCAACCGACCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCTCCGGTGCCTACTGAGCTGATATCAGTTCTCATTTTACACACTGGCTCAGTTCAGCAGGAACAGGAG
Seq ID No.1所示序列中“N”为随机序列。
本例的20条miRNA分别为:hsa-let-7a-5p、hsa-let-7a-2-3p、hsa-let-7b-5p、hsa-let-7c-5p、hsa-let-7d-5p、hsa-let-7e-5p、hsa-let-7f-5p、hsa-let-7f-2-3p、hsa-miR-15a-5p、hsa-miR-16-5p、hsa-miR-17-5p、hsa-miR-18a-5p、hsa-miR-19a-5p、hsa-miR-19b-1-5p、hsa-miR-19b-2-5p、hsa-miR-20a-5p、hsa-miR-21-5p、hsa-miR-22-5p、hsa-miR-23a-5p、hsa-miR-24-1-5p。
本例的miRNA预测方法具体如下:
(1)设定种子序列长度为7bp;
(2)对A、T、C、G四种碱基进行设定序列长度的全排列,获得4的七次方条种子序列,形成种子序列集;
(3)去除种子序列集中反向互补的种子序列,即如果一条种子序列与另一条种子序列的反向互补序列相同,则只保留其中一条;
(4)在步骤(3)剩余的种子序列中,搜索每一条种子序列和其反向互补序列在模拟序列上的位置,得到种子序列位置集;
(5)将步骤(4)获得的种子序列位置集,在模拟序列上,按从小到大的顺序排列;
(6)按位置集的位置遍历,如果模拟序列上相邻的前后两个位置正好是互补序列,且他们的距离小于或等于500时,输出前面位置对应的种子序列前50bp至后面位置对应的种子序列后50bp的一段该段核酸序列,作为初选前体序列;
(7)采用二级结构预测软件对步骤(6)获得的初选前体序列的输出序列进行二级结构预测,如果不能形成发夹结构,则弃用该输出初选前体序列;如果能形成发夹结构,则采用二级结构预测软件对该初选前体序列的每个可能的二级结构进行打分,最终给出最可能的成熟体序列和对应的互补序列,同时给出对应的二级结构图;
(8)合并步骤(7)获得的所有成熟体序列及其对应的互补序列,以及各成熟体序列和其互补序列的二级结构,组成miRNA集。
结果显示,本例的预测方法最终得到的miRNA集中,预测存在23条miRNA,本例待测的20条miRNA都包含在其中。可见,本例的miRNA预测方法能够有效的预测出所有存在的miRNA。本例预测的23条miRNA中,其中一条预测的miRNA,序列Seq ID No.2所示序列,二级结构如图1所示,该预测miRNA与hsa-let-7a-5p的折叠结构一致。
Seq ID No.2:
5’-TGGGATGAGGTAGTAGGTTGTATAGTTTTAGGGTCACACCCACCACTGGGAGATAACTATACAATCTACTGTCTTTCCTA-3’
需要说明的是,本申请的miRNA预测方法能够预测出所有可能存在的miRNA,即把所有可能都找出来,其中,当然会有假阳性的序列,即预测为miRNA但实际上并非miRNA,但这不影响后续的下游分析和研究。
另外,按照本申请的miRNA预测方法虽然能够预测出待测的20条miRNA,但是,对于部分成熟体的具体预测位置与miRNA的真实位置存在差异;在能够准确预测出所存在的miRNA的情况下,具体位置的差异可以根据后续试验进行调整,这并不影响后续的下游分析和研究。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
SEQUENCE LISTING
<110> 深圳华大基因科技服务有限公司
<120> 一种miRNA预测方法、miRNA系统及应用
<130> 17I24440
<160> 2
<170> PatentIn version 3.3
<210> 1
<211> 2566
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (81)..(130)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (203)..(252)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (336)..(385)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (470)..(519)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (607)..(656)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (736)..(785)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (873)..(922)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (1006)..(1055)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (1139)..(1188)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (1278)..(1327)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (1412)..(1461)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (1533)..(1582)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (1665)..(1714)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (1802)..(1851)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (1948)..(1997)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (2069)..(2118)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (2191)..(2240)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (2326)..(2375)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (2449)..(2498)
<223> n is a, c, g, or t
<400> 1
tgggatgagg tagtaggttg tatagtttta gggtcacacc caccactggg agataactat 60
acaatctact gtctttccta nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 120
nnnnnnnnnn aggttgaggt agtaggttgt atagtttaga attacatcaa gggagataac 180
tgtacagcct cctagctttc ctnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 240
nnnnnnnnnn nncggggtga ggtagtaggt tgtgtggttt cagggcagtg atgttgcccc 300
tcggaagata actatacaac ctactgcctt ccctgnnnnn nnnnnnnnnn nnnnnnnnnn 360
nnnnnnnnnn nnnnnnnnnn nnnnngcatc cgggttgagg tagtaggttg tatggtttag 420
agttacaccc tgggagttaa ctgtacaacc ttctagcttt ccttggagcn nnnnnnnnnn 480
nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnc ctaggaagag gtagtaggtt 540
gcatagtttt agggcaggga ttttgcccac aaggaggtaa ctatacgacc tgctgccttt 600
cttaggnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnncccg 660
ggctgaggta ggaggttgta tagttgagga ggacacccaa ggagatcact atacggcctc 720
ctagctttcc ccaggnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 780
nnnnntcaga gtgaggtagt agattgtata gttgtggggt agtgatttta ccctgttcag 840
gagataacta tacaatctat tgccttccct gannnnnnnn nnnnnnnnnn nnnnnnnnnn 900
nnnnnnnnnn nnnnnnnnnn nntgtgggat gaggtagtag attgtatagt tttagggtca 960
taccccatct tggagataac tatacagtct actgtctttc ccacgnnnnn nnnnnnnnnn 1020
nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnccttg gagtaaagta gcagcacata 1080
atggtttgtg gattttgaaa aggtgcaggc catattgtgc tgcctcaaaa atacaaggnn 1140
nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnngt cagcagtgcc 1200
ttagcagcac gtaaatattg gcgttaagat tctaaaatta tctccagtat taactgtgct 1260
gctgaagtaa ggttgacnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 1320
nnnnnnngtc agaataatgt caaagtgctt acagtgcagg tagtgatatg tgcatctact 1380
gcagtgaagg cacttgtagc attatggtga cnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 1440
nnnnnnnnnn nnnnnnnnnn ntgttctaag gtgcatctag tgcagatagt gaagtagatt 1500
agcatctact gccctaagtg ctccttctgg cannnnnnnn nnnnnnnnnn nnnnnnnnnn 1560
nnnnnnnnnn nnnnnnnnnn nngcagtcct ctgttagttt tgcatagttg cactacaaga 1620
agaatgtagt tgtgcaaatc tatgcaaaac tgatggtggc ctgcnnnnnn nnnnnnnnnn 1680
nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnncactgt tctatggtta gttttgcagg 1740
tttgcatcca gctgtgtgat attctgctgt gcaaatccat gcaaaactga ctgtggtagt 1800
gnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nacattgcta 1860
cttacaatta gttttgcagg tttgcatttc agcgtatata tgtatatgtg gctgtgcaaa 1920
tccatgcaaa actgattgtg ataatgtnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 1980
nnnnnnnnnn nnnnnnngta gcactaaagt gcttatagtg caggtagtgt ttagttatct 2040
actgcattat gagcacttaa agtactgcnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 2100
nnnnnnnnnn nnnnnnnntg tcgggtagct tatcagactg atgttgactg ttgaatctca 2160
tggcaacacc agtcgatggg ctgtctgaca nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 2220
nnnnnnnnnn nnnnnnnnnn ggctgagccg cagtagttct tcagtggcaa gctttatgtc 2280
ctgacccagc taaagctgcc agttgaagaa ctgttgccct ctgccnnnnn nnnnnnnnnn 2340
nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnggccg gctggggttc ctggggatgg 2400
gatttgcttc ctgtcacaaa tcacattgcc agggatttcc aaccgaccnn nnnnnnnnnn 2460
nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnct ccggtgccta ctgagctgat 2520
atcagttctc attttacaca ctggctcagt tcagcaggaa caggag 2566
<210> 2
<211> 80
<212> DNA
<213> 人工预测miRNA
<400> 2
tgggatgagg tagtaggttg tatagtttta gggtcacacc caccactggg agataactat 60
acaatctact gtctttccta 80

Claims (10)

1.一种miRNA预测方法,其特征在于:包括以下步骤,
(1)设定种子序列长度;
(2)对A、T、C、G四种碱基进行步骤(1)设定的种子序列长度的全排列,形成种子序列集;
(3)去除种子序列集中的冗余种子序列,具体包括,如果一条种子序列与另一条种子序列的反向互补序列相同,则只保留其中一条;
(4)在步骤(3)剩余的种子序列中,搜索每一条种子序列和其反向互补序列在待测物种的基因组上的位置,得到种子序列位置集;
(5)将步骤(4)获得的种子序列位置集,在基因组上,按从小到大的顺序排列;
(6)按位置集的位置遍历,如果基因组上相邻的前后两个位置正好是互补序列,且两者的距离小于或等于设定前体序列长度,则输出前面位置对应的种子序列前50bp至后面位置对应的种子序列后50bp的一段核酸序列,作为初选前体序列;
(7)采用二级结构预测软件对步骤(6)获得的初选前体序列进行二级结构预测,如果不能形成发夹结构,则弃用该初选前体序列;如果能形成发夹结构,则从发夹结构的起始点开始,逐个碱基向后推移的取20-25bp的片段及其互补序列片段作为预成熟体,对各个预成熟体进行打分,取其中分数最高者及其互补序列,并给出两者对应的二级结构;
(8)合并步骤(7)获得的分数最高的成熟体序列及其对应的互补序列,以及各成熟体序列和其互补序列的二级结构,组成待测物种的miRNA集。
2.根据权利要求1所述的miRNA预测方法,其特征在于:所述步骤(1)中,设定的种子序列长度为2-8bp。
3.根据权利要求1所述的miRNA预测方法,其特征在于:所述步骤(1)中,设定的种子序列长度为7bp。
4.根据权利要求1-3任一项所述的miRNA预测方法,其特征在于:还包括步骤(9),将待测物种所有已知miRNA与步骤(8)生成的miRNA集比对,将比对上的已知miRNA在所述miRNA集中进行标注,将未比对上的已知miRNA加入所述miRNA集中形成新的miRNA集,并对新加入的已知miRNA进行标注。
5.根据权利要求1-3任一项所述的miRNA预测方法,其特征在于:所述步骤(6)中,设定前体序列长度为500bp。
6.根据权利要求1-3任一项所述的miRNA预测方法,其特征在于:所述步骤(7)中,采用的二级结构预测软件为RNAfold。
7.根据权利要求1-6任一项所述的miRNA预测方法在制备miRNA预测装置或miRNA预测系统中的应用。
8.一种用于miRNA预测的装置,其特征在于:所述装置按照权利要求1-6任一项所述的miRNA预测方法进行miRNA预测。
9.一种用于miRNA预测的系统,其特征在于:所述系统按照权利要求1-6任一项所述的miRNA预测方法进行miRNA预测。
10.一种miRNA系统,其特征在于:所述miRNA系统中包含权利要求1-6任一项所述的miRNA预测方法获得的miRNA集。
CN201710601597.9A 2017-07-21 2017-07-21 一种miRNA预测方法、miRNA系统及应用 Pending CN109280698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710601597.9A CN109280698A (zh) 2017-07-21 2017-07-21 一种miRNA预测方法、miRNA系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710601597.9A CN109280698A (zh) 2017-07-21 2017-07-21 一种miRNA预测方法、miRNA系统及应用

Publications (1)

Publication Number Publication Date
CN109280698A true CN109280698A (zh) 2019-01-29

Family

ID=65185413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710601597.9A Pending CN109280698A (zh) 2017-07-21 2017-07-21 一种miRNA预测方法、miRNA系统及应用

Country Status (1)

Country Link
CN (1) CN109280698A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033830A (zh) * 2019-04-16 2019-07-19 苏州金唯智生物科技有限公司 一种数据发送方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009002462A1 (en) * 2007-06-22 2008-12-31 The Board Of Trustees Of The Leland Stanford Junior University Pre-mirna loop-modulated target regulation
CN101979540A (zh) * 2010-10-26 2011-02-23 南京大学 一种microRNA探针序列的设计方法
CN102108403A (zh) * 2010-12-03 2011-06-29 陈必成 带随机序列的茎环引物筛选微小rna的表达差异
CN102222175A (zh) * 2011-05-06 2011-10-19 西南大学 一种与miRNA相关的功能性分子标记的开发方法
CN102268474A (zh) * 2010-06-24 2011-12-07 上海聚类生物科技有限公司 一种非模式生物microRNA预测的方法
CN103194441A (zh) * 2013-04-17 2013-07-10 新疆农垦科学院 获取miRNA候选靶基因的方法及其专用反转录引物
CN103789197A (zh) * 2014-02-18 2014-05-14 上海缔达生物科技有限公司 一种提取微小rna的试剂盒及其提取方法
WO2014093305A2 (en) * 2012-12-13 2014-06-19 Ymir Genomics, Llc Micrornas and uses thereof
CN104805078A (zh) * 2014-01-28 2015-07-29 北京大学 用于高效基因组编辑的rna分子的设计、合成及其应用

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009002462A1 (en) * 2007-06-22 2008-12-31 The Board Of Trustees Of The Leland Stanford Junior University Pre-mirna loop-modulated target regulation
CN102268474A (zh) * 2010-06-24 2011-12-07 上海聚类生物科技有限公司 一种非模式生物microRNA预测的方法
CN101979540A (zh) * 2010-10-26 2011-02-23 南京大学 一种microRNA探针序列的设计方法
CN102108403A (zh) * 2010-12-03 2011-06-29 陈必成 带随机序列的茎环引物筛选微小rna的表达差异
CN102222175A (zh) * 2011-05-06 2011-10-19 西南大学 一种与miRNA相关的功能性分子标记的开发方法
WO2014093305A2 (en) * 2012-12-13 2014-06-19 Ymir Genomics, Llc Micrornas and uses thereof
CN103194441A (zh) * 2013-04-17 2013-07-10 新疆农垦科学院 获取miRNA候选靶基因的方法及其专用反转录引物
CN104805078A (zh) * 2014-01-28 2015-07-29 北京大学 用于高效基因组编辑的rna分子的设计、合成及其应用
CN103789197A (zh) * 2014-02-18 2014-05-14 上海缔达生物科技有限公司 一种提取微小rna的试剂盒及其提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BO QU等: "Computational identification and characterization of novel microRNA in the mammary gland of dairy goat (Capra hircus)", 《J GENET》 *
SEONGHO RYU等: "Discovery of Novel Human Breast Cancer MicroRNAs from Deep Sequencing Data by Analysis of Pri-MicroRNA Secondary Structures", 《PLOS ONE》 *
卢建、余应年、吴其夏: "《新编病理生理学 第3版》", 31 December 2011, 中国协和医科大学出版社 *
周顺伍: "《动物生物化学》", 31 August 2008 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033830A (zh) * 2019-04-16 2019-07-19 苏州金唯智生物科技有限公司 一种数据发送方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Kotopka et al. Model-driven generation of artificial yeast promoters
CN101665821B (zh) 一组特异识别金黄色葡萄球菌的寡核苷酸适配子及其应用
CN106086013A (zh) 一种用于核酸富集捕获的探针及设计方法
CN106566876A (zh) 一种寡核苷酸探针及其获得方法
CN1890370A (zh) RNAi潜能的预测方法
CN106991295B (zh) 一种基于多目标优化的蛋白质网络模块挖掘方法
Graybuck et al. Prospective, brain-wide labeling of neuronal subclasses with enhancer-driven AAVs
CN102899335A (zh) 一种高通量Small RNA测序获得番木瓜环斑病毒基因组序列的方法
AU2020203675A1 (en) Method for conducting population selective-breeding of mutton sheep
CN113066527A (zh) 一种siRNA敲减mRNA的靶点预测方法和系统
Emery et al. Multiple competition-based FDR control and its application to peptide detection
CN107506614A (zh) 一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法
CN108090327A (zh) 包含三维自由能的外源性miRNA调控靶基因预测方法
CN109280698A (zh) 一种miRNA预测方法、miRNA系统及应用
CN106471509A (zh) 用于组装来自一个或多个生物体的染色体段的方法、设备和计算机程序
Driller et al. Optimization of ddRAD-like data leads to high quality sets of reduced representation single copy orthologs (R2SCOs) in a sea turtle multi-species analysis
CN107523631A (zh) 一种基于生物基因组序列的microRNA预测方法
Schmøkel et al. Improved protocol for single-nucleus RNA-sequencing of frozen human bladder tumor biopsies
JPWO2019231856A5 (zh)
CN107665290A (zh) 一种数据处理的方法和装置
CN110706748B (zh) 一种竞争性内源rna网络调控分析系统和方法
Lobkovsky et al. Estimation of prokaryotic supergenome size and composition from gene frequency distributions
Tuggle et al. Methods for transcriptomic analyses of the porcine host immune response: application to Salmonella infection using microarrays
CN110600080B (zh) 一种基于多维度分析框架的功能核酸全面识别方法及其应用
US8014956B2 (en) MicroRNA precursors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190129

RJ01 Rejection of invention patent application after publication