CN110446788A - 用于序列数据标准化的新型内参寡核苷酸 - Google Patents

用于序列数据标准化的新型内参寡核苷酸 Download PDF

Info

Publication number
CN110446788A
CN110446788A CN201880012023.0A CN201880012023A CN110446788A CN 110446788 A CN110446788 A CN 110446788A CN 201880012023 A CN201880012023 A CN 201880012023A CN 110446788 A CN110446788 A CN 110446788A
Authority
CN
China
Prior art keywords
sequence
nucleotide
nucleic acid
rna
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880012023.0A
Other languages
English (en)
Other versions
CN110446788B (zh
Inventor
M·D·诺丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GMI GREGOR MENDEL INST fur MOL
Original Assignee
GMI GREGOR MENDEL INST fur MOL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GMI GREGOR MENDEL INST fur MOL filed Critical GMI GREGOR MENDEL INST fur MOL
Publication of CN110446788A publication Critical patent/CN110446788A/zh
Application granted granted Critical
Publication of CN110446788B publication Critical patent/CN110446788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/161Modifications characterised by incorporating target specific and non-target specific sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/179Modifications characterised by incorporating arbitrary or random nucleotide sequences
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/207Modifications characterised by siRNA, miRNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2545/00Reactions characterised by their quantitative nature
    • C12Q2545/10Reactions characterised by their quantitative nature the purpose being quantitative analysis
    • C12Q2545/101Reactions characterised by their quantitative nature the purpose being quantitative analysis with an internal standard/control

Abstract

本发明涉及特别地用于小RNA序列数据标准化的新型内参寡核苷酸。本发明特别地提供各自包括单链核酸分子的至少两个子集的多个集,每个核酸分子包括:5′磷酸、至少3个随机核苷酸的序列、至少8个核心核苷酸的含有与靶序列相比的至少一个错配的核心序列、至少3个随机核苷酸的序列、以及3′修饰,其中每个子集包括具有相同核心核苷酸序列和不同随机核苷酸的多个核酸分子,并且其中每个子集的核酸分子的区别在于核心核苷酸序列的至少一个核苷酸,及含有所述集的文库的生成。本发明还涉及核苷酸测序中的参考值和用于确定样本中靶序列量的方法。

Description

用于序列数据标准化的新型内参寡核苷酸
技术领域
本发明涉及用于核苷酸序列数据的定量标准化的新型内参(spike-in)寡核苷酸。本发明提供包括至少两个子集的集,每个子集包括多个单链核酸分子,其中每个单链核酸分子包括5′磷酸、至少3个随机核苷酸的序列、与靶序列不互补的至少8个核苷酸的核心序列、至少3个随机核苷酸的序列、以及3′修饰。子集的核酸分子在核心核苷酸序列的至少一个核苷酸上不同。本发明还涉及产生含有集的文库,并涉及核苷酸测序中的参考值,以及涉及用于确定样本中靶序列的量的方法。
背景技术
下一代测序(next-generation sequencing,NGS)是一种大规模并行测序或深度测序技术,自2005年首次进入市场以来,已经对基因组研究产生了巨大影响。下一代技术已用于诸如基因组测序和重测序的标准测序应用,以及用于先前未由Sanger测序探索的新应用。所有NGS平台并行地对数百万个DNA小片段进行测序,并因此显著提高了有成本效益的序列通量,但却以牺牲读段长度为代价。
小RNA NGS文库构建以小RNA作为输入并产生相应的cDNA的文库。这导致短的核苷酸序列,即读段。为了推断原始样本中存在哪些RNA分子,将读段映射或比对到参考基因组或转录组上,或者基于序列重叠从头组装。生物信息学分析用于通过将各个读段映射到参考基因组来将这些片段拼接在一起。
来自高通量小RNA测序(sRNA-Seq)实验的数据通常被标准化并报告为相对值,例如读段数/百万基因组匹配的读段(RPM)1。如果假设sRNA亚群在所分布的不同组织类型中具有相等的比例,则相对标准化效果良好。然而,这种假设通常是无效的,因为sRNA群在不同组织类型和各种突变体背景中经常是动态的2-7。例如,基于miRNA定量中的相同起始材料,分析证明cDNA构建中的替代方法得到完全不同的miRNA表达水平谱33。参与RNA末端修饰的酶是引起相对表达水平偏差的明显候选者,然而逆转录和PCR扩增的步骤也很可能显示出模板偏好,从而相比其他RNA有利于一些RNA的扩增。因此,比较相对标准化的sRNA-Seq值的标准实践可能产生误导结果。相比之下,sRNA-Seq数据的绝对标准化应能够在全基因组范围内准确比较不同细胞类型、突变组织或疾病状态中的小RNA水平。然而,先前使用外源sRNA寡核苷酸进行sRNA-Seq数据的绝对标准化的尝试具有不确定的成功率8-10,因此并未广泛使用。Locati等人使用两组不同的分别由11个和19个寡核糖核苷酸组成的合成RNA内参,监测sRNA-seq中的尺寸选择并进行sRNA-seq的数据标准化(Locati et al.NucleicAcids Res.2015年8月18日;43(14))。特定sRNA内参的不同测序效率很可能是由于它们的固有特性,例如影响它们在sRNA-Seq文库构建过程中的连接效率的可变二级结构和RNA-接头共折叠11-13。例如,先前需要额外的校正因子来扩展个体sRNA内参的量,以解释添加到样本中的外源sRNA内参的摩尔量与测序的相应读段数目之间的非线性关系10
因此,虽然NGS是新基因发现和微调转录分析的有力工具,但当前的可用技术仍有一些问题尚未解决:
-由于二级结构和潜在的核苷酸偏差,接头与小RNA的连接是有偏差的,因此,某些小RNA序列在最终数据集中可能过表现或低表现。一种解决方案是使用具有随机末端位置的接头,其与小RNA连接以产生数百万克隆的小RNA的“文库”。虽然这些有助于减少偏差,但不知道还存在多少偏差,这对任何小RNA-Seq实验都很重要。
-RNA-Seq仅报告小RNA水平的相对数(例如,读段数/百万基因组匹配的读段),而不是绝对数(例如分子数)。因此,不可能将来自不同组织的小RNA-Seq数据与动态小RNA群体(通常是这种情况)进行比较,也不可能在改变这些群体的突变体(例如扰乱不同小RNA的生物发生因子的已知突变体和未知突变体)之间进行比较。
Quail等人开发了SASI-Seq,一种将一组三个独特的条形码DNA片段添加到测序样本中的方法,以验证所有读段来自原始样本而非污染物(Quail et al.BMC Genomics2015,15:110)。
Jiang等人使用了具有不同长度和覆盖220浓度范围的GC含量的的96种合成RNA的池作为内参对照,以测量RNA-seq实验中的灵敏度、准确度和偏差,以及得出用于量化转录物丰度的标准曲线(Jiang et al.Genome Res.2011,21:1543-1551)。
WO2016/007951A1描述了使用人工参考序列作为过程中对照,用于在超深度测序中评估来自低拷贝数的稀有核酸序列变体。
WO2014/082032A1描述了一种用于核酸的标准化测序的方法,其中测量样本中至少一种核酸的至少一种天然靶测序事件与该核酸的相应竞争性内部扩增对照的比例关系,以提供核酸拷贝数的再现性。
WO2016/001736A1描述了使用包含确定摩尔比的合成核酸构建体的组合物,所述合成核酸构建体特别地是包含至少一种插入的野生型核酸序列或靶核酸序列的质粒,作为NGS或数字PCR的参考或对照。
WO2015/118513A1描述了可以加入到含有待通过NGS等进行分析的样本材料的反应容器中的对照核酸的用途。
Buschmann等人旨在通过建立用于实验设计和分析前样本处理、文库制备和测序反应的标准化的指南来标准化RNA-seq工作流程,并促进数据分析(Buschmann etal.Nucleic Acids Res.,2016Vol.44No.13,5995-6018)。
需要对高通量RNA和DNA测序数据进行标准化以比较不同样本中的RNA水平或DNA水平,特别是sRNA水平。通常使用的相对标准化方法会由于波动的RNA群体如组织间的小RNA群而导致错误的结论。因此,需要可以实现更准确的和可再现的评估的方法和产品,特别是对于序列数据的绝对标准化。
发明内容
上述问题通过本发明的主题得以解决。
本文提供一种包括单链核酸分子的至少两个子集的集,每个核酸分子从5′到3′方向包括:
a)5′磷酸,任选地为单磷酸、二磷酸和三磷酸,
b)至少3个随机核苷酸的序列,
c)与靶序列不互补的至少8个核苷酸的核心序列,
d)至少3个随机核苷酸的序列,和
e)3′修饰,任选地为2′-O-甲基化或羟基化,
其中每个子集包括具有相同核心核苷酸序列和不同随机核苷酸的多个单链核酸分子,并且其中每个子集的核酸分子的区别在于核心核苷酸序列的至少一个核苷酸。
根据一个实施方案,提供一种包括单链核酸分子的至少两个子集的集,每个核酸分子从5′到3′方向包括:
a)5′磷酸,任选地为单磷酸、二磷酸和三磷酸,
b)至少3个随机核苷酸的序列,
c)至少8个核苷酸的核心序列,所述核心序列含有与靶序列相比的两个或更多个错配,
d)至少3个随机核苷酸的序列,和
e)3′修饰,任选地为2′-O-甲基化或羟基化,
其中,每个子集包括具有相同核心核苷酸序列和不同随机核苷酸的多个核酸分子,并且其中每个子集的核酸分子的区别在于核心核苷酸序列的至少一个核苷酸。
本发明特别地提供一种sRNA内参寡核苷酸(sRNA内参)的集,其能够在独立的实验中对sRNA-Seq数据进行绝对定量标准化,并且在与mRNA内参寡核苷酸一同使用时能够实现sRNA:mRNA化学计量的全基因组评估。
样本中小RNA分子数目的绝对定量不仅可以在小RNA-Seq数据集之间进行比较,还可以在小RNA-Seq和mRNA-Seq数据集之间进行比较,这些数据集也使用外源内参如来自Life Tech的ERCC内参混合物。
本发明的小RNA内参集不仅用作sRNA-Seq实验的有用的内部对照(仅需要1-2%的可比对读段用于后续分析),但也可以用于标准化不同来源的sRNA-Seq数据,例如来自不同的治疗方法、组织类型或研究组的sRNA-Seq数据。此外,它们能够对sRNA分子进行绝对定量,这对于准确比较至关重要,还能够进行前体:sRNA和sRNA:靶的化学计量的全基因组评估,这对于在分子尺度上理解这些关系非常重要。本发明的sRNA内参集也可以用于评估和改进存在于各种sRNA-Seq文库生成方案中的克隆偏差。
所述sRNA内参物也可以与市售的mRNA内参寡核苷酸混合物组合使用,以比较由sRNA-Seq和mRNA-Seq产生的值。
根据本发明的具体实施方案,提供一种包括单链核酸分子的至少两个子集的集,每个核酸分子从5′到3′方向由以下组成:
a)5′磷酸,任选地为单磷酸、二磷酸和三磷酸,
b)至少3个随机核苷酸的序列,
c)至少8个核苷酸的核心序列,所述核心序列含有与靶序列相比的两个或更多个错配,
d)至少3个随机核苷酸的序列,和
e)3′修饰,任选地为2′-O-甲基化或羟基化,
其中每个子集包括具有相同核心核苷酸序列和不同随机核苷酸序列的多个核酸分子,并且其中每个子集的核酸分子的区别在于核心核苷酸序列的至少一个核苷酸。
在一个实施方案中,核心序列与靶序列不互补。
根据本发明的一个实施方案,随机核苷酸是A、C、G、U或A、C、G、T中的任何一种。
根据本发明的具体实施方案,多个核酸分子包括含有A、C、G、U或A、C、G、T的所有四种核苷酸组合的随机的核苷酸序列。
根据本发明的一个实施方案,核酸分子是RNA分子,特别是模拟小RNA,特别地,小RNA为siRNA、tasiRNA、snRNA、miRNA、snoRNA、piRNA、和tRNA、及其任何microRNA前体。
根据本发明的具体实施方案,核心核苷酸序列包括8至25个核苷酸,优选10至20个核苷酸,优选12至18个核苷酸,优选8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个核苷酸。不同子集的核心序列具体区别在于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸。
具体地,核心序列包括3个或更多个与靶序列相比错配的核碱基。
具体地,核心序列包括与相应靶序列相比的100%错配。例如,如果核心序列具有8个核苷酸的长度,则核心核苷酸序列包括与靶序列相比的8个,特别是7、5、4、3或2个错配的核碱基。作为另一个实例,25个核苷酸的核心寡核苷酸应包括与靶序列相比的25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、5、4、3或2个错配的核碱基。
本文还包括与感兴趣生物体的基因或基因组不同(即不互补)的一种核心核苷酸序列。具体地,该核心核苷酸序列包含与靶序列相比至少两个错配的核碱基,更具体地,该核心序列包含与感兴趣的生物体的基因或基因组相比100%、97.5%、95%、90%、85%、80%、75%、70%、65%、55%、50%、或更多的错配序列。
根据一个具体实施方案,随机核苷酸的序列包括3至7个核苷酸,优选3至5个核苷酸,优选4个核苷酸。或者,它包括3、4、5、6、7或更多个核苷酸。
本发明的集可以包括2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24个或更多个子集,特别是其量为每子集0.001amol至50000amol,特别是0.01amol至25000amol,特别是1amol至10000amol,特别是10amol至5000amol。
本发明使用的靶序列可以是任何感兴趣的序列,特别地,所述靶序列可以是生物体的基因组,源自病毒、细菌、动物、植物的序列,特别地,靶序列可以是转录组、RNA、小RNA、动态的小RNA群。
本发明的集还可以用于确定样本中一种或多种靶序列的量的方法中,所述样本特别是细胞样本、组织样本或器官样本。
另一方面,本文提供了一种用于生成在测序方法中使用的核酸文库的方法,所述核酸文库特别地包括小RNA或sRNA模拟物,其中本发明的一种或多种集与靶核酸分子混合。所述文库当然可以进一步扩增。
另一方面,本文提供了用于确定核苷酸测序中的参考值的方法,所述方法包括以下步骤:将本发明的一种或多种集添加至靶序列的混合物,从而生成核酸分子文库,将接头连接至核酸分子,任选地扩增所述文库,执行核苷酸测序方法,并确定每个子集的核酸分子的量作为参考值。
另一方面,本文提供了用于确定靶序列的绝对量的方法,其中将靶序列的量与参考值进行比较。
本发明还包括一种用于确定样本中核酸分子数目的方法,所述方法包括如下步骤:
a.将本发明的集添加到样本以获得核酸分子的混合物,从而生成核酸分子文库,
b.连接并任选地扩增所述文库,
c.执行所述文库的下一代测序,得到所述核酸分子的RNA序列读段,
d.确定来自集和样本的读段数目。
具体而言,上述方法可以用于样本中小RNA分子的绝对定量,更具体地,用于对不同来源的sRNA序列数据绝对标准化。
作为另一个实施方案,本发明提供了如下通式描述的寡核苷酸:
p-(N)m(X)n(N)m-2′-O-甲基,
其中,
N是A、U、G、C或A、T、G、C中任一个的随机核苷酸;
X是核苷酸序列,其包括A、U、G、C中的任一个,并且含有与靶序列相比的两个或更多个错配,
m是3、4或5,并且
n是8至67范围内的整数
p是磷酸。
在一个具体实施方案中,核心序列与靶序列不互补。
另一方面,本文提供了一种制备用于测序的内参方法,其中使用至少两种不同的寡核苷酸,特别是如上所述的多种寡核苷酸,特别是含有A、U、C、G的所有可能的核苷酸组合。
附图说明
图1:小RNA内参设计和其作为检查克隆偏差和评估小RNA绝对水平的工具的用途。(a)Col-0花(生物重复样品1)中与小RNA绝对水平(分子数/μg总RNA)相比较的小RNA内参相对水平(读段数/百万基因组匹配的读段)的散点图。标出了皮尔森r值(Pearson’s r),并标出了表示从绘制值得出的线性模型的虚线。(b)每μg总花芽RNA的个体miRNA家族分子的密度图。垂直虚线表示每个miRNA家族的分子的中位数。
图2:小RNA内参可以实现精确比较小RNA水平。(a和b)个体miRNA、tasiRNA和siRNA家族水平以相对单位(a)或绝对单位(b)的小提琴统计图。P值基于双样本Kolmogorov-Smirnov测试。分别用*、**和***表示P<0.05、P<0.01和P<0.001。小提琴统计图在每个样本中包括93个miRNA、14个tasiRNA、6,361个20-22nt siRNA和5,952个23-24nt siRNA家族(≥1RPM)。第25和第75百分位数由小提琴统计图中竖直黑条的底部和顶部表示,而中位数由垂直黑条内的白点表示。顶部和底部的须触线从垂直黑条延伸到1.5倍四分位距以内的最极值。小提琴的宽度与样本密度成比例。(c和d)Col-0花对Col-0叶(左)和Col-0花对dcl234叶(右)的miRNA家族水平的散点图(相对RPM(c)或绝对MPU(d))。全黑点表示分别显著增加和显著降低水平的miRNA家族。显著不同的miRNA水平被定义为具有≥2倍不同,并且基于双样本Student t检验的错误发现率调整的p值<0.05。
图3:小RNA和poly(A)RNA内参的组合使用使得能够直接比较小RNA-Seq和mRNA-Seq数据。(a)相对(转录物数/百万)和绝对(分子数/μg总RNA)ERCC poly(A)内参(LifeTech)水平的散点图。标出了皮尔森r值,并标出了代表从绘制值得出的线性模型的虚线。(b)Col-0叶、Col-0花和dcl234花中miRNA/miRNA前体和tasiRNA/tasiRNA前体水平的一维散点图。(c)Col-0叶、Col-0花和dcl234花中miRNA/靶水平和tasiRNA/靶水平的小提琴统计图。小提琴统计图如图2图例所述。P<0.01和P<0.001分别用**和***表示,并用双样本Kolmogorov-Smirnov检验计算。标出了所检查的miRNA:靶和tasiRNA:靶相互作用的数目(n)。
图4:小RNA群的长度分布。Col-0叶子(a)、Col-0花(b)和dcl234花(c)中不同尺寸类别的sRNA的RPM的堆积条形图。颜色表示以指示的核苷酸开始的sRNA-Seq的比例。
图5:用于评估每μg总RNA的mRNA分子数的标准曲线。由如下来源生成的mRNA-Seq文库的相对(转录物数/百万)和绝对(分子数/μg总RNA)ERCC poly(A)内参水平的散点图:(a)野生型(Col-0)花(生物重复样品1)、(b和c)Col-0叶(生物重复样品1和2)、以及(d和e)dcl234花(生物重复样品1和2)。标出了皮尔森r值,并标出了从绘制值得出的线性模型的虚线。
具体实施方式
在说明书全文中使用的具体术语具有以下含义。
这里使用的术语“包括”、“含有”、“具有”和“包括”可以同义使用,并且应理解为开放式定义,允许其他成员或部分或要素。“由……组成”视为封闭式定义,没有组成为所定义的特征以外的其他要素。因此“包括”更宽泛且涵盖“由……组成”的定义。
本文所用的术语“约”是指相同的值或与给定值相差+/-10%的值。
本文所用的“分子”是指由原子通过共价键构成的单个实体或颗粒。分子可以包括不同部分,其由单一一类物质或其组合构成。物质的类别例如是,但不限于,单链DNA(ssDNA)、单链RNA(ssRNA)(包括具有化学修饰的DNA和/或RNA)、肽或其他有机化合物。该分子可以具有不同的长度、尺寸或分子量,并且可以具有技术人员已知和/或期望的任何活性。
如本文所用,术语“核酸”、“多核苷酸”和“多核酸”可以互换使用,且指聚合形式的任何长度的核苷酸(核糖核苷酸、脱氧核糖核苷酸、化学修饰形式或核苷酸类似物,以及前述的组合)。核酸对细胞可以是外源的或内源的。核酸可以存在于无细胞环境中。核酸可以是基因或其片段。核酸可以是DNA。核酸可以是RNA。核酸可以包括一种或多种类似物(例如,改变的主链、糖或核碱基)。类似物的一些非限制性实例包括:5-溴尿嘧啶、肽核酸、异核酸(xeno nucleic acid)、吗啉代、锁核酸、乙二醇核酸、苏糖核酸、双脱氧核苷酸、3′-脱氧腺苷、7-脱氮-GTP、荧光团(例如罗丹明或与糖连接的荧光素)、含有硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫代尿苷、假尿苷、二氢尿苷、辫苷(queuosine)和怀俄苷(wyosine)。单链核酸也可以是变性双链DNA的一条链核酸。或者,其可以是非衍生自任何双链DNA的单链核酸。在一个方面,模板核酸是RNA。另一方面,模板是DNA。该术语包括RNA、cDNA、基因组DNA、及其合成形式和混合的聚合物的有义链和反义链。该术语还包括任何拓扑构象,包括单链(ss)和双链(ds)构象。
核酸可以包括一种或多种修饰(例如碱基修饰、骨架修饰),以为核酸提供新的或增强的特征(例如,改善的稳定性)。核酸可包括核酸亲和标签。核苷可以是碱基-糖组合。核苷的碱基部分可以是杂环碱基。这类杂环碱基的两种最常见的类别是嘌呤和嘧啶。
核苷酸可以是还包括与核苷的糖部分共价连接的磷酸基团的核苷。对于那些包括呋喃戊糖基糖的核苷,磷酸基团可以与糖的2′、3′或5′羟基部分连接。在形成核酸时,磷酸基团可以将相邻的核苷彼此共价连接以形成线性聚合化合物。在核酸内,磷酸基团通常可以被认为形成核酸的核苷间骨架。核酸的连接或骨架可以是3′至5′磷酸二酯键。核酸可以包括经修饰的骨架和/或经修饰的核苷间键。经修饰的骨架可以包括在骨架中保留有磷原子的骨架和骨架中不具有磷原子的骨架。其中含有磷原子的合适的经修饰的核酸骨架可以包括,例如:具有通常的3′-5′键的硫代磷酸酯,手性硫代磷酸酯,二硫代磷酸酯,磷酸三酯,氨基烷基磷酸三酯,甲基膦酸酯,和其他烷基膦酸酯、例如3′-亚烷基膦酸酯、5′-亚烷基膦酸酯,手性膦酸酯,次膦酸酯,氨基磷酸酯、包括3′-氨基氨基磷酸酯和氨基烷基氨基磷酸酯,二氨基磷酸酯(phosphoro-diamidate),硫羰基磷酰胺,硫羰基烷基膦酸酯,硫羰基烷基磷酸酯,硒代磷酸酯,以及硼烷磷酸酯;2′-5′键合的类似物;以及具有其中一个或多个核苷酸间键是3′至3′、5′至5′、或2′至2′键的反向极性的那些。
核酸可以包括由以下形成的多核苷酸骨架:短链烷基或环烷基核苷间键,混合的杂原子和烷基或环烷基核苷间键,或一个或多个短链杂原子或杂环核苷间键。这些骨架可以包括:具有吗啉代键(部分由核苷的糖部分形成)的骨架;硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰基和硫代甲酰基骨架;亚甲基甲酰基和硫代甲酰基骨架;核糖乙酰基(riboacetyl)骨架;含有烯烃的骨架;氨基磺酸骨架;亚甲基亚氨基和亚甲基肼基骨架;磺酸骨架和磺酰胺骨架;酰胺骨架;和具有混合的N、O、S和CH2组分部分的其他骨架。
核酸还可以包括核碱基(通常简称为“碱基”)修饰或取代。如本文所使用的,核碱基包括嘌呤碱基(例如腺嘌呤(A)和鸟嘌呤(G))和嘧啶碱基(例如胸腺嘧啶(T),胞嘧啶(C)和尿嘧啶(U))。
RNA模拟物是模拟天然内源RNA的化学修饰的双链RNA。miRNA模拟物模拟天然存在的成熟microRNA,例如,它们含有非天然的或人工的双链miRNA样的RNA片段。
动态小RNA是指在不同发育阶段、组织、细胞类型和细胞区室中不同表达的小RNA。
如本文所使用的,术语“核酸分子”旨在包括RNA分子、DNA分子、cDNA分子、寡核苷酸、多核苷酸、及其类似物或衍生物。该术语包括合成的核酸分子,例如化学合成的核酸分子、化学修饰的核酸分子或重组产生的核酸分子。合适的核酸分子是RNA,包括任何小RNA,但不限于此,例如mRNA、siRNA、tasiRNA、snRNA、miRNA、snoRNA、piRNA和tRNA。
本发明的核酸分子特别是单链(ss)。具体地,单链核酸分子是RNA分子。单链核酸分子可以是有义链或反义链。
本文所使用的术语“寡核苷酸”表示核苷酸的单链多聚体,其长度为约2至200个核苷酸,特别是2至100个核苷酸,特别是2至75个核苷酸。寡核苷酸可以是合成的或可以酶促制备的。寡核苷酸可以含有核糖核苷酸单体(即可以是寡核糖核苷酸)或脱氧核糖核苷酸单体,或含有核糖核苷酸单体和脱氧核糖核苷酸单体。寡核苷酸的长度可以为但不限于2至75、4至50、5至40、10至35、15至30、17至25、20、21、22、23、24、25、25、27、28、29、30个核苷酸。
小RNA模拟物也可以用于本发明的寡核苷酸集,并且可以是具有不同的5′和3′修饰的小RNA,含有5′单磷酸、二磷酸或三磷酸,含有3′OH或O-甲基或2′O-甲基。小RNA模拟物含有少于200个核苷酸,特别是少于100个核苷酸,特别是少于75个核苷酸,特别是少于50个核苷酸,特别是8至50个核苷酸,更特别是20至35个核苷酸。模拟植物RNA的人工RNA寡核苷酸可以是例如含有5’单磷酸和3′OH的寡核苷酸。
本发明的寡核苷酸的特征可以是如下通式:
p-(N)m(X)(N)n2′-O-甲基,
其中,p是磷酸,
N是A、U、G、C或A、T、G、C中任一个的随机核苷酸,
X是核心序列,所述核心序列包括与靶序列相比的两个或更多个错配,长度为8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67,包括A、U、G、C或A、T、G、C中的任一个;且
m、n为3、4或5。
具体而言,错配的数目以得到与靶序列不互补的核心序列的方式确定。
术语“化学修饰的核苷酸”是指这样的核苷酸,其化学结构与常规核苷酸不同,具有对碱基、糖和/或磷酸的化学结构的修饰。核苷酸可以在其结构的任何位置修饰。修饰的核碱基可以包括其他合成的和天然的核碱基,如5-甲基胞嘧啶(5-me-C);5-羟甲基胞嘧啶;黄嘌呤;次黄嘌呤;2-氨基腺嘌呤;腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物;腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物;2-硫尿嘧啶;2-硫代胸腺嘧啶和2-硫代胞嘧啶;5-卤代尿嘧啶和5-卤代胞嘧啶;5-丙炔基(—C═C—CH3)尿嘧啶和胞嘧啶以及其他嘧啶碱基的炔基衍生物;6-偶氮尿嘧啶、6-偶氮胞嘧啶和6-偶氮胸腺嘧啶;5-尿嘧啶(假尿嘧啶);4-硫尿嘧啶;8-卤代、8-氨基、8-硫醇、8-硫代烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤;5-卤代特别是5-溴取代的、5-三氟甲基取代的和其他5-取代的尿嘧啶和胞嘧啶;7-甲基鸟嘌呤和7-甲基腺嘌呤;2-F-腺嘌呤;2-氨基腺嘌呤;8-氮杂鸟嘌呤和8-氮杂腺嘌呤;7-脱氮鸟嘌呤和7-脱氮腺嘌呤;以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。修饰的核碱基可以包括:三环嘧啶,如吩噁嗪胞啶(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮),吩噻嗪胞啶(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮);G-clamps,如经取代的吩噁嗪胞啶(例如9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞啶(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞啶(H-吡啶并(3′,2′:4,5)吡咯并[2,3-d]嘧啶-2-酮)。
本文所使用的术语“接头序列”与术语“接头(adapter或adaptor)”同义使用,是指一种短的、化学合成的双链DNA分子,用于连接其他DNA分子的末端,特别是用于捕捉未知的DNA序列。作为一个实施方案,短序列连接于靶序列的片段的末端并且连接于本发明的集中所包括的寡核苷酸。接头序列可以用于对DNA的随机片段进行测序。短核苷酸序列的添加使得任何DNA片段均能够与流动池结合用于下一代测序。使用接头序列的文库构建方法的实例描述于Head S.et al.,2015(Biotechniques,56(2),61-passim)。示例性地,接头如以下用户手册所述进行使用:NEBNEXT Small RNA Library Prep set for Illumina(Multiplex Compatible,https://www.neb.com/~/media/Catalog/All-Products/7D06 45075EAA4A07843194C69EB391A7/Datacards%20or%20Manuals/manualE7330.pdf),特别地,3′接头的序列如下:
5′-rAppAGATCGGAAGAGCACACGTCT-NH2-3′(SEQ ID NO 9),
5′接头的序列如下:
5′-rGrUrUrCrArGrArGrUrUrCrUrArCrArGrUrCrCrGrArCrGrArUrC-3`(SEQ ID NO10)。作为替代方案,可以使用本领域技术人员可以提供的任何其他接头。
本文所用的术语“互补性”或“互补(的)”是指一个核酸序列和另一个核酸序列之间通过传统的Watson-Crick或本文描述的其他非传统类型的键合形成或存在氢键。完美互补或100%互补意指核酸序列的所有连续残基(核碱基)与第二互补核酸序列中相同数量的连续残基氢键结合。根据一个具体的方面,第一核酸序列的连续残基数与第二序列的连续核酸数相同。“非互补性”包括核酸分子中的多种错配或非碱基配对核苷酸(例如,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个错配、非核苷酸连接体或非碱基配对核苷酸),这会导致两个核酸序列之间的凸起、成环或突出端。这种非互补性可以表示为互补性%,所述互补性%由所涉及的核苷酸总数内的非碱基配对的核苷酸的数目确定,即约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%等。出于完整性的原因,本文还包括反向互补性。
本文中,核心序列的术语“不互补(的)”可以由互补性%表示,所述互补性%由非碱基配对的核苷酸数目确定,即意指至少50%、特别是至少55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%非碱基配对的核苷酸,或核心序列相对于所感兴趣的靶序列至少25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%的序列错配。
本文所用的术语“氢键”是指在电负性原子与连接于超过碳的电负性的第二原子的氢原子之间的缔合形式。具有与氢原子共用的自由电子对的电负性原子是所谓的氢键受体,并且可以是氮、氧、硫或氟。与电负性原子结合的氢原子通常称为氢键供体。本领域技术人员容易理解本文所用的术语电负性和电正性,意指原子吸引共价键中电子对从而导致电子的不对称分布并因此形成偶极矩的趋势。氢键比范德华相互作用强,但弱于共价键或离子键。
术语“杂交”或“退火”是指核酸链在特定杂交条件下以平行或优选反平行取向聚集在一起的能力。核酸链通过相对链上的碱基之间的氢键相互作用,并形成稳定或准稳定的双链螺旋结构,或者可以导致形成三链体或其他更高级的结构。尽管通常在腺嘌呤与胸腺嘧啶或尿嘧啶(A和T或U)之间或在胞嘧啶与鸟嘌呤(C和G)之间形成氢键,但也可以形成其他碱基对(例如,Adams et al.,The Biochemistry of the Nucleic Acids,11th ed.,1992)。两个核苷酸序列彼此杂交的能力是基于这两个核苷酸序列的互补程度,该互补程度反过来又基于匹配的互补核苷酸对的分数。给定序列中与另一个序列互补的核苷酸越多,杂交的条件可以越严格,并且这两个序列的结合就越具特异性。通过升高温度、增加共溶剂的比例、降低盐浓度等来实现增加的严格性。
如本领域技术人员所能够理解的,严格条件是序列依赖的,并且在不同情况下是不同的。例如,较长的片段可能比短片段需要更高的杂交温度用于特异性杂交。因为其他因素如互补链的碱基组成和长度、有机溶剂和离子的存在、以及碱基错配的程度可以影响杂交的严格性,参数的组合会比单独的任何一个参数的绝对测量更重要。在一些实施方案中,可以使杂交在高严格条件下发生,例如高温或0.1X SCC。高严格条件的实例是本领域已知的,参见例如,Sambrook et al.,Molecular Cloning:A Laboratory Manual,2d Edition,1989和Short Protocols in Molecular Biology,ed.Ausubel et al.。通常,升高杂交进行的温度会增加严格性。因此,本文所述的杂交反应可以根据所需的杂交严格性在不同的温度下进行。杂交温度可以低至5℃或甚至低于5℃,但通常高于22℃,更通常高于约30℃,甚至更通常超过37℃。在其他实施方案中,通过添加或去除缓冲溶液的组分可以进一步改变杂交的严格性。在一些实施方案中,杂交允许在中等严格条件下进行。在其他实施方案中,杂交允许在低严格条件下进行。在一些实施方案中,在杂交分子之间或分子的杂交部分之间存在两个或更多个错配。
在两个或更多个核酸序列的上下文中,术语“同一性”或“相同的”是指,在比较和比对以获得最大对应性时,具有指定百分比的相同核苷酸的两个或更多个序列或子序列,使用下述的序列比较算法之一(例如BLAST、BLAST-2、BLASTN、ALIGN、ALIGN-2、Megalign(DNASTAR),或Needle成对序列比对(EMBOSS软件),或技术人员可得的其他算法)或通过目视检查来测量。根据应用,“同一性”百分比可以存在于整个被比较的序列区域上,例如,存在于待比较的两个序列的整个长度上。对于序列比较,通常一个序列作为与测试序列进行比较的参考序列。当使用序列比较算法时,将测试序列和参考序列输入计算机,如果需要,指定子序列坐标,并指定序列算法的程序参数。然后,序列比较算法基于指定的程序参数计算测试序列相对于参考序列的序列同一性百分比。用于比较的序列的最佳比对可以通过以下方式进行:例如,Smith&Waterman,Adv.Appl.Math.2:482(1981)的局部同源性算法,Needleman&Wunsch,J.Mol.Biol.48:443(1970)的同源性比对算法,Pearson&Lipman,Proc.Nat’l.Acad.Sci.USA 85:2444(1988)的相似性搜索方法,这些算法的计算机执行(Wisconsin遗传学软件包中的GAP、BESTFIT、FASTA和TFASTA(Genetics Computer Group,575Science Dr.,Madison,Wis.)),或视觉检查(通常参见Ausubel et al.,见下文)。
不相同意味着核酸序列同一性小于100%,即来自第一序列的至少2、3、4、5或更多个核苷酸不同于来自第二序列的核苷酸。或者,序列同一性为80%、75%、70%、65%、60%、55%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%或更少。
如本文所使用,术语“基因”涉及具有转录形成一个或多个转录物的序列的基因核苷酸。具体而言,基因是指下述的DNA的基因座(或区域),其由在与适当的调节序列可操作地连接时在体外或体内转录(DNA)为RNA的核苷酸组成。基因可以包括编码区域之前和之后的调节区,例如,5′非翻译(5′UTR)或“前导”序列和3′UTR或“尾随”序列,以及各个编码区段(外显子)之间的间插序列(内含子)。特别地,基因编码蛋白质(例如mRNA),但也规定非蛋白质编码转录物,例如调控性或催化性RNA,包括microRNA、snoRNA或rRNA及其前体pre-microRNA和pre-rRNA。
术语“感兴趣的基因”或“感兴趣的基因组”是指源自任何生物体样本的基因、或基因的部分或功能片段、或基因组,或源自任何生物体的任何合成基因或修饰基因,所述生物体例如但不限于病毒、细菌、真菌、植物、动物等。
术语“转录组”是指在给定样本或生物体中的转录物的总集,例如信使RNA(mRNA)分子、小干扰RNA(siRNA)分子、转运RNA(tRNA)分子、核糖体RNA(rRNA)分子,或指特定细胞类型中存在的转录物的特定子集。与对于给定细胞系大致固定的基因组(不包括突变)不同,转录组可以随外部环境条件变化而变化。由于转录组包括细胞中的所有转录物,因此所述转录组反映了在任何给定时间活跃表达的基因,mRNA降解现象例如转录衰减除外。在一些实施方案中,转录组不仅指转录物的种类,例如mRNA种类,还指样本中每个种类的量。在一些实施方案中,转录组包括样本中的每个mRNA分子,例如单个细胞中的所有mRNA分子。
“靶序列”是指感兴趣的核苷酸序列,包括感兴趣的核酸分子、感兴趣的基因或感兴趣的基因组或其任何部分、其衍生物或片段,例如但不限于,源自或衍生自病毒、细菌、真菌、动物、植物的核苷酸序列。靶序列还可以是来自任何来源的转录组、RNA序列或其片段,特别是RNA、总RNA、尺寸选择的总RNA、小RNA和动态小RNA。特别地,靶序列是非编码序列或编码序列或其组合。特别地,靶序列编码或调节代谢或生物合成途径或这种途径的一部分,例如,这种途径的相应酶或调节因子。特别地,靶序列编码单个生物分子如酶,或配体结合蛋白,抗体,结构蛋白,或具有其他功能的蛋白,核酶,核糖开关,调节RNA,或任何其他RNA分子,或形成细胞途径、调节网络、代谢途径或细胞子系统或任何前述的一部分的一组生物分子。
在各种实施方案中,核酸被扩增。可以使用本领域已知的任何扩增方法。可以使用的扩增技术的实例包括但不限于,PCR、定量PCR、定量荧光PCR(QF-PCR)、多重荧光PCR(MF-PCR)、实时PCR(RT-PCR)、单细胞PCR、限制性片段长度多态性PCR(PCR-RFLP)、热启动PCR、巢式PCR、原位polony PCR、原位滚环扩增(RCA)、桥式PCR、picotiter PCR和乳液PCR。其他合适的扩增方法包括:连接酶链式反应(LCR)、转录扩增、自维持序列复制、靶多核苷酸序列的选择性扩增、共有序列引物聚合酶链式反应(CP-PCR)、随机引物聚合酶链反应(AP-PCR)、简并寡核苷酸引物PCR(DOP-PCR)和基于核酸的序列扩增(NABSA)。
术语“测序”包括确定核酸序列的任何方法。这些方法包括Maxam-Gilbert测序、链终止方法、鸟枪测序、PCR测序、桥式PCR、大规模平行签名测序(MPSS)、Polony测序、焦磷酸测序、Illumina(Solexa)测序、SOLiD测序、离子半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序、Nanopore DNA测序、杂交测序、质谱测序、微流体Sanger测序、基于显微镜的技术、RNAP测序、(体外病毒)高通量测序(HTS)。
术语“下一代测序(NGS)”是指所谓的平行化的合成测序或由Illumina、LifeTechnologies和Roche等目前使用的连接平台测序。下一代测序方法还可以包括纳米孔测序方法或基于电子检测的方法,例如Life Technologies商业化的Ion Torrent技术。
具体而言,NGS是指高通量测序技术,该技术可以平行地执行数千或数百万个测序反应。虽然不同的NGS平台使用不同的测定化学,但它们都从对大量模板同时运行的大量测序反应来产生序列数据。通常,序列数据使用扫描仪收集,然后组装并进行生物信息学分析。因此,测序反应被并行执行、读取、组装和分析,参见例如Behjati S and Tarpey,P.,2013(Arch.Di.Child Educ Pract Ed 2013,98,236-238);Head S.et al.,2015(Biotechniques,56(2),61-passim)。
一些NGS方法需要模板扩增,有些则不需要。需要扩增的方法包括焦磷酸测序(例如,美国专利第6,258,568号;由Roche商业化);Solexa/Illumina平台(例如,美国专利第6,833,246、7,115,400和6,969,488号);以及SOLiD(Supported Oligonucleotide Ligationand Detection)平台(Applied Biosystems;例如,美国专利第5,912,148和6,130,073号)。不需要扩增的方法,例如单分子测序方法,包括纳米孔测序;HeliScope(美国专利第7,169,560、7,282,337、7,482,120、7,501,245、6,818,395、6,911,345和7,501,245号);实时合成测序(参见,例如,美国专利第7,329,492号);使用零模波导孔(ZMW)的单分子实时(SMRT)DNA测序方法;以及其他方法,包括美国专利第7,170,050、7,302,146、7,313,308、和7,476,503号、US20130274147、US20140038831、和Metzker,Nat Rev Genet 11(1):31-46(2010)记载的方法。或者,也可以使用基于杂交的测序方法或其他高通量方法,例如微阵列分析、NANOSTRING、ILLUMINA或其他测序平台。
术语“子集”是指如本文所述的具有相同核心序列和不同的随机核苷酸的单链核酸分子。每个集的核酸分子也可以在3′位点和/或5′位点具有相同或不同的修饰。具体而言,一个集的核酸分子含有相同的3′和5′修饰。子集还指具有相同核心序列的特定量或数目的核酸分子。
每个子集可以包括如下量的核酸分子:约0.001amol至50000amol,1amol至10000amol,约1amol至8000amol,10amol至5000amol。具体而言,子集可以包括如下量的核酸分子:约0.001amol、0.01amol、0.1amol、1amol、10amol、25amol、30amol、40amol、50amol、60amol、70amol、80amol、90amol、100amol、150amol、200amol、250amol、300amol、350amol、400amol、450amol、500amol、550amol、600amol、650amol、700amol、750amol、800amol、850amol、900amol、950amol、1000amol、1500amol、2000amol、2500amol、3000amol、3500amol、4000amol、4500amol、5000amol、5500amol、6000amol、6500amol、7000amol、7500amol、8000amol、8500amol、9000amol、9500amol、10000amol。
术语“集”是指核酸分子的两个或更多个子集,其可以含有相同或不同量的寡核苷酸。一个集的子集数目可以是2、3、4、5、6、7、8、9、10或更多,且不受限制。一个或多个集可以用于一次测序。
如本文所用的“多个”核酸分子含有至少2个成员。在某些情况下,多个可以至少具有至少2个、至少5个、至少8个、至少10个、至少100个、至少1,000个、至少10,000个、至少100,000个、至少106个、至少107个、至少107个、至少108个、或至少109、或更多个成员。具体而言,术语多个是指5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100或更多个成员。
本发明的集可以用作内参探针,其是在实验中(特别是在诸如NGS的测序方法中)用于校准测量的RNA转录物。内参是样本集中恒定水平的外部参考。内参是可以促进不同数据集之间的客观标准化的合成寡核苷酸,RNA或DNA序列。设计本发明的优化的内参,使得这些内参不与靶序列的特定序列或区域杂交或显示出低杂交性。在制备过程中,将已知量的本发明的集或寡核苷酸与感兴趣的序列混合。含有不同量子集的内参可以用作内参混合物。有利地,在样本制备初期,特别是在接头连接或检测或定量方法之前,加入内参,特别地作为参考集,使得该参考集在全部或大多数样本制备步骤中存在。测序后,内参序列的读段数用于确定读段数和靶序列之间的直接对应关系。因此,对于定量,表示实验基因、外显子或靶序列的表达水平的信号强度(读段数)与含有已知量且定义为绝对参考的标准值相关。在发育研究中,这一技术用于确定转录动力学。通过使用本发明的发明集,可以提供合适的对照,避免由于使用内部RNA标准而导致的任何错误,因为这些基因在发育的所有阶段很少以相同水平表达。
“错配”是指与模板核苷酸序列、特别是靶核苷酸序列相比的核碱基变化。特别地,核心核苷酸序列是半随机序列。特别地,核碱基错配或点突变(特别是引入核心核苷酸序列的那些)选自由以下组成的组:至少两个核碱基或核苷酸的替换、插入或缺失、密码子替换、或其组合,特别地,核碱基错配可以是单错配、双重错配或三重错配、连续错配。
术语“随机(化)”或“随机序列”应指预定区域中的特定核苷酸序列修饰。随机化产生核酸的所有组成成分。随机化是用于描述在给定长度上原则上具有任何可能序列的核酸区段的术语。根据需要,随机序列可以具有各种长度,范围为约2个至超过100个核苷酸。由于可能存在的未知偏差或核苷酸偏好,产生随机序列区段的化学或酶促反应可能不会产生数学上的随机序列。在目前已知的技术中,例如连续化学合成,不知道会发生大的偏差。对于20个或更少核苷酸的短区段,可能存在的任何微小偏差产生的后果可以忽略。单一合成的序列越长,任意偏差的影响越大。
随机核酸可以以多种方式获得。例如,完整或部分的序列随机化可以通过核酸(或其部分)的直接化学合成容易地实现,或通过模板的合成容易地实现,通过使用适当的酶可以从所述模板制备核酸(或其部分)。在非限制性浓度的所有四种核苷酸三磷酸存在下,由末端转移酶催化的末端添加可以将随机序列添加至区段。
核酸中的序列可变性也可以通过使用大的天然核酸(例如基因组DNA制剂或细胞RNA制剂)的部分消化(或以其他方式切割)的制剂的尺寸选择片段来实现。30个核苷酸的随机序列包括计算的1018个不同候选序列。
本发明的随机序列表示为“N”。N包括2、3、4、5、6、7、8或更多个不同核苷酸的随机寡核苷酸序列。优选≤6、特别是≤5、特别是≤4的随机序列。长度为X的可能的核苷酸序列的数目是4X,因此即使短长度的随机核苷酸区段也可以编码许多可能的独特核苷酸序列。N可以是核苷酸A、C、G、U、T中的任何一种。
随机序列使得每个合成模板寡核苷酸能够被精确定量。在扩增合成模板寡核苷酸的池后,在测序输出中观察到的每个独特的随机核苷酸序列代表单个输入材料分子。因此,添加到扩增反应中的合成模板寡核苷酸的输入数量可以通过计数独特的随机核苷酸序列的数目来确定。此外,合成模板寡核苷酸的输入数目与特定条形码相关联。
半随机序列可以通过不同方法生成。示例性地,可以生成由最高度丰度miRNA的核心序列的miRNA位置(从该miRNA的5’末端计数)的碱基标识的比例组成的矩阵,并且所述矩阵可用于半随机选择几百个且一直到1000个或更多个特定长度(例如,长度为8至21个,特别是13个核苷酸)的序列。与感兴趣的基因组不完全匹配的序列可以进一步考虑,并且可以将所有可能的4-碱基组合作为随机序列添加到5′和3′末端,从而产生每个集的全部序列。可以使用本领域已知的方法测定所有合成的RNA的最小自由能。可以检查这些最小自由能的分布,并且可以选择和合成具有与注释miRNA类似的分布的RNA序列的集。
根据一个实施方案,核心序列含有通过半随机化产生的核苷酸序列。
还可以使用半随机序列文库,其由变体寡核苷酸池组成,每个变体寡核苷酸因单个核苷酸改变而不同。
本发明提供用于序列数据的绝对标准化的方法和寡核苷酸子集的集,所述序列数据特别是小RNA序列数据,所述集包括单链核酸分子的至少两个子集,每个核酸分子从5′到3′方向包括:
a)5′磷酸,
b)至少3个随机核苷酸的序列,
c)至少8个核心核苷酸的核心序列,所述序列含有与靶序列相比的至少两个错配,
d)至少3个随机核苷酸的序列,和
e)3′修饰,
其中每个子集包括具有相同核心核苷酸序列和不同随机核苷酸的多个核酸分子,并且
其中每个子集的核酸分子的区别在于核苷酸序列的至少一个核苷酸。
在一个优选的实施方案中,核心序列与靶序列不互补。具体而言,核心序列与靶序列不杂交或不结合。
5′磷酸可以是单磷酸、二磷酸或三磷酸。
3′修饰可以是2′-O-甲基化,即2′-O-甲基基团偶联至3′末端,或羟基化,即羟基偶联至寡核苷酸的3′末端。
尽管核心核苷酸序列可以具有适合用作测序用的内参的任何长度,但优选长度为8至25个核苷酸,优选10至20个核苷酸,优选12至18个核苷酸,优选12个、13个、14个、15个、16个、17个或18个核苷酸。
在一个具体的实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)m(X)n(N)m-2′-O-甲基,
其中,
p是单磷酸;
N是A、U、G、C中任一个的随机核苷酸;
X是A、U、G、C中的任一个;
m是3、4或5;
n是8、9、10、11、12、13、14、15、16、17、18、19或20。
在一个具体的实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)m(X)n(N)m-2′-O-甲基,
其中,
p是单磷酸;
N是A、T、G、C中任一个的随机核苷酸;
X是A、T、G、C中的任一个;
m是3、4或5;
n是8、9、10、11、12、13、14、15、16、17、18、19或20。
在另一个具体的实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)m(X)n(N)m-2′-O-甲基,
其中,
p是单磷酸;
N是A、U、G、C中任一个的随机核苷酸;
X是A、U、G、C中的任一个;
m是4;
n是8、9、10、11、12、13、14、15、16、17、18、19或20。
在另一个具体的实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)m(X)n(N)m-2′-O-甲基,
其中,
p是单磷酸;
N是A、T、G、C中任一个的随机核苷酸;
X是A、T、G、C中的任一个;
m是4;
n是8、9、10、11、12、13、14、15、16、17、18、19或20。
在另一个具体实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)mXXXXXXXXXXXXX(N)m-2′-O-甲基,
其中,
p是单磷酸,
N是A、U、G、C中任一个的随机核苷酸;
X彼此独立地为A、U、G、C中的任一个;
m是4。
在另一个具体实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)mXXXXXXXXXXXXX(N)m-2′-O-甲基,
其中,
p是单磷酸,
N是A、T、G、C中任一个的随机核苷酸;
X彼此独立地为A、T、G、C中的任一个;
m是4。
根据本发明的一个实施方案,(X)n或(X)13是核心序列,所述序列含有与靶序列相比的至少两个错配,例如,与靶序列不互补或不相同,特别地,所述序列是半随机序列。
包括一个或多个上文列出的子集的集可以用作内参,模拟内源植物小RNA或DNA。
具体地,每个集包括SEQ ID NO:1至SEQ ID NO:8之一。
在又一个替代实施方案中,本发明的子集特别地从5′到3′方向包括下列通式的核酸分子:
p-(N)m(X)n(N)m-OH
其中,
p是二磷酸或三磷酸;
N是A、U、G、C中任一个的随机核苷酸;
X彼此独立地为A、U、G、C中的任一个;
m是3、4或5;
n是8、9、10、11、12、13、14、15、16、17、18、19或20。
在一个具体的实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)m(X)n(N)m-OH,
其中,
p是二磷酸或三磷酸;
N是A、T、G、C中任一个的随机核苷酸;
X是A、T、G、C中的任一个;
m是3、4或5;
n是8、9、10、11、12、13、14、15、16、17、18、19或20。
在另一个具体的实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)m(X)n(N)m-OH,
其中,
p是二磷酸或三磷酸;
N是A、U、G、C中任一个的随机核苷酸;
X是A、U、G、C中的任一个;
m是4;
n是8、9、10、11、12、13、14、15、16、17、18、19或20。
在另一个具体的实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)m(X)n(N)m-OH,
其中,
p是二磷酸或三磷酸;
N是A、T、G、C中任一个的随机核苷酸;
X是A、T、G、C中的任一个;
m是4;
n是8、9、10、11、12、13、14、15、16、17、18、19或20。
在另一个具体实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)mXXXXXXXXXXXXX(N)m-OH,
其中,
p是二磷酸或三磷酸,
N是A、U、G、C中任一个的随机核苷酸;
X彼此独立地为A、U、G、C中的任一个;
m是4。
在另一个具体实施方案中,本发明的子集特别地从5′到3′方向包括以下通式的核酸分子:
p-(N)mXXXXXXXXXXXXX(N)m-2′-O-甲基,
其中,
p是二磷酸或三磷酸,
N是A、T、G、C中任一个的随机核苷酸;
X彼此独立地为A、T、G、C中的任一个;
m是4。
根据本发明的一个实施方案,(X)n或(X)13是核心序列,所述核心序列包括与靶序列相比的至少两个错配,例如,与靶序列不互补或不相同,特别地,所述序列是半随机序列。
包括一种或多种上文列出的子集的集可以用作内参,模拟内源动物或植物小RNA或DNA。
用于测序方法的核酸文库可以通过如下方式构建:将一个或多个含有寡核苷酸的集与靶核酸分子的片段或所需长度的靶序列混合,将核酸链转化为双链DNA,将接头连接到片段/寡核苷酸的末端并定量最终用于测序的文库产物。
核苷酸测序中的参考值可以通过以下步骤确定:将本发明的包括子集的集以不同的量加入感兴趣的靶序列的混合物中,从而生成核酸分子文库;将接头连接到核酸分子;扩增文库的核酸分子;对核酸分子进行测序并确定每个子集的核酸分子的绝对量作为参考值;任选地随后将靶核酸分子的量与该参考值比较。
有利地,文库捕获整个转录组,包括具有高完整性的编码RNA、非编码RNA、反义RNA和基因间RNA。或者,该文库仅包括编码mRNA转录物,或者作为另一种选择,小RNA被分析,例如miRNA、snoRNA、piRNA、snRNA和tRNA。
小RNA的长度<500nt(核苷酸),通常是非编码RNA分子。RNA沉默通常是这些分子的功能,最常见和研究充分的例子是RNA干扰(RNAi),其中内源表达的microRNA(miRNA)或外源衍生的小干扰RNA(siRNA)诱导互补的信使RNA降解。已经识别了其他类型的小RNA,包括piwi相互作用RNA(piRNA)、小核仁RNA(snoRNA)、tRNA衍生的小RNA(tsRNA)、小rDNA衍生的RNA(srRNA)、小核RNA及其亚种重复相关小干扰RNA(rasiRNA)、信号识别粒子RNA(SRPRNA)、7SK小核RNA、RNase和MRP RNA。
在制备测序文库时,主要目标是减少偏差。
偏差可以定义为由于实验设计导致的数据的系统失真。本发明的集及其用途有利地极大地减少或消除了偏差。通过提供一种可以确定绝对数例如分子数量的方法,可以将来自多种组织的小RNA序列数据与动态小RNA群或改变这些群的突变进行比较。
因此,本发明的内参和方法特别有利于比较不同细胞类型的小RNA分子的拷贝数。因此,例如,可以比较不同器官或组织或区室的sRNA亚群,并且所述方法可以用于数据标准化。具体地,可以确定来自具有不同小RNA群的组织、器官或区室的sRNA-序列数据的绝对标准化,从而能够准确地比较单个sRNA水平和总sRNA水平。
本发明提供一种用于确定样本中核酸分子数目的新方法,其中,将本发明的寡核苷酸集加入样本中以获得核酸分子的混合物,从而生成核酸分子文库;将接头连接至文库的核酸分子;任选地扩增文库并执行所述扩增的文库的下一代测序,从而由所述核酸分子得到RNA序列读段;并且确定来自集和来自样本的读段数目。集的读段数目随后可以与来自感兴趣的基因组的靶序列序列进行比对,并且任选地将包括相同核心序列的读段分为一组用于进一步分析。
可以确定样本中一种或多种靶序列的量,并且任选地可以确定样本中核酸分子的相对定量(例如,读段数/百万)或样本中核酸分子的绝对定量(分子数/微克)。
本发明用于确定参考值的方法可以进一步用于标准化不同来源的sRNA序列数据并用于评估在sRNA文库制备期间发生的克隆偏差。
本发明还包括以下方案:
1.一种包括单链核酸分子的至少两个子集的集,每个核酸分子从5′至3′方向包括:
a)5′磷酸,
b)至少3个随机核苷酸的序列,
c)至少8个核苷酸的核心序列,包括与靶序列相比的两个或更多个错配,
d)至少3个随机核苷酸的序列,和
e)3′修饰,
其中每个子集包括具有相同核心核苷酸序列和不同随机核苷酸的多个核酸分子,并且其中每个子集的核酸分子的区别在于核心核苷酸序列的至少一个核苷酸。
2.一种包括单链核酸分子的至少两个子集的集,每个核酸分子从5′至3′方向包括:
a)5′磷酸,
b)至少3个随机核苷酸的序列,
c)至少8个核苷酸的核心序列,包括与靶序列相比的两个或更多个错配,
d)至少3个随机核苷酸的序列,和
e)3′修饰,
其中每个子集包括具有相同核心核苷酸序列和不同随机核苷酸的多个核酸分子,并且其中每个子集的核酸分子的区别在于核心核苷酸序列的至少一个核苷酸。
3.一种包括单链核酸分子的至少两个子集的集,每个核酸分子由以下组成:
a)5′磷酸,
b)至少3个随机核苷酸的序列,
c)至少8个核苷酸的核心序列,包括与靶序列相比的两个或更多个错配,
d)至少3个随机核苷酸的序列,和
e)3′修饰,
其中每个子集包括具有相同核心核苷酸序列和不同随机核苷酸的多个核酸分子,并且其中每个子集的核酸分子的区别在于核心核苷酸序列的至少一个核苷酸。
4.根据方案1至3中任一项所述的集,其中,随机核苷酸序列是A、C、G、U或A、C、G、T中的任一个。
5.根据方案1至4中任一项所述的集,其中,多个核酸分子包括含有A、C、G、U或A、C、G、T的所有四种核苷酸的组合的随机核苷酸序列。
6.根据方案1至5中任一项所述的集,其中,核酸分子是RNA分子,特别是模拟小RNA。
7.根据方案1至6中任一项所述的集,其中,小RNA选自siRNA、tasiRNA、snRNA、miRNA、snoRNA、piRNA、以及tRNA、或其任何前体。
8.根据方案1至7中任一项所述的集,其中,核心核苷酸序列包括8至25个核苷酸,优选10至20个核苷酸,优选12至18个核苷酸,优选13个核苷酸。
9.根据方案1至8中任一项所述的集,其中,每个子集的核心核苷酸序列的区别在于1、2、3、4、5、6、7、8、9、10个或更多个核苷酸。
10.根据方案1至9中任一项所述的集,其中,核心核苷酸序列是半随机序列。
11.根据方案1至10中任一项所述的集,其中,核心核苷酸序列不同于感兴趣生物体的基因组或转录组。
12.根据方案1至11中任一项所述的集,其中,随机核苷酸的序列包括3至7个核苷酸,优选3至5个核苷酸,优选4个核苷酸。
13.根据方案1至12中任一项所述的集,其中5′磷酸选自单磷酸、二磷酸和三磷酸。
14.根据方案1至13中任一项所述的集,其中,3′修饰选自2′-O-甲基化和羟基化。
15.根据方案1至14中任一项所述的集,包括3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24个或更多个子集。
16.根据方案1至15中任一项所述的集,其中,子集的存在量为1amol至10000amol,优选10amol至5000amol。
17.根据方案1至16中任一项所述的集,其包括不同量的各个子集。
18.根据方案1至17中任一项所述的集,其中,所述靶序列可以是任何感兴趣的序列,特别是生物体的基因组或转录组,源自病毒、细菌、动物、植物的序列,所述靶序列特别是RNA,特别是小RNA,特别是动态小RNA。
19.根据方案1至18中任一项所述的集作为内参探针用于标准化测序数据的用途。
20.一种使用根据方案1至18中任一项所述的集确定样本中一个或多个靶序列的绝对量的方法,所述样本特别地是细胞样本、组织样本或器官样本。
21.一种用于生成在测序方法中使用的核酸文库的方法,其中,一种或多种根据方案1至18中任一项所述的集与靶核酸分子混合。
22.根据方案21所述的方法,其中,所述核酸文库包括小RNA。
23.根据方案21或22所述的方法,进一步扩增文库。
24.一种用于确定核苷酸测序中的参考值的方法,包括如下步骤:
-将根据方案1至18中任一项所述的集加入靶序列的混合物,从而生成核酸分子文库,
-将接头连接到库,
-任选地扩增所述文库,
-执行核苷酸测序方法,
-确定每个子集的核酸分子的量作为参考值。
25.一种用于确定靶序列的绝对量的方法,其中,将靶序列的量与通过方案24的方法获得的参考值进行比较。
26.根据方案25所述的方法,其中,比较不同细胞类型的小RNA分子的拷贝数。
27.一种用于确定样本中核酸分子数目的方法,包括如下步骤:
a)将根据方案1至18中任一项所述的集加入样本中,以获得核酸分子的混合物,从而生成核酸分子文库,
b)扩增所述文库,
c)执行所述文库的下一代测序,得到所述核酸分子的RNA序列读段,
d)确定集和样本的读段数目。
28.根据方案26所述的方法,其中,将集的读段数目与靶序列比对,所述靶序列例如来自感兴趣的基因组,并且将包括相同核心序列的读段任选地分为一组用于进一步分析。
29.根据方案24至28中任一项所述的方法,用于确定样本中一个或多个靶序列的量。
30.根据方案24至28中任一项所述的方法,用于样本中小RNA分子的绝对定量。
31.根据方案24至28中任一项所述的方法,用于标准化不同来源的sRNA序列数据。
32.根据方案24至28中任一项所述的方法用于评估在sRNA文库制备期间发生的克隆偏差的用途。
33.一种如下通式表示的寡核苷酸:
p-(N)m(X)(N)m-2′-O-甲基,其中
N是A、U、G、C中任一个的随机核苷酸;
X是核心序列,其包括与靶序列相比的一个或多个错配,并且长度为8、9、10、11、12、13、14、15、16、17或18个核苷酸,包括A、U、G、C中的任一个;
m是3、4或5。
34.一种制备用于测序的内参的方法,其中使用至少两种不同的根据方案33所述的寡核苷酸。
35.根据方案34所述的方法,其中,内参包括多个根据方案32的寡核苷酸,其包括A、U、C、G的所有可能的核苷酸组合。
本发明通过以下实施例进一步说明,但不限于此。
实施例
方法
植物材料
如已有技术所描述的,dcl234突变体由dcl2-1、dcl3-1和dcl4-2t等位基因组成17。植物在20℃-22℃的受控生长室中生长,进行16小时光照/8小时黑暗循环。Col-0叶样本来自分离自4-6周龄植物的莲座丛和茎生叶。未开放的花蕾收集自与叶样本(Col-0花)相同的植物或在相同条件下生长的dcl234植物(dcl234花)。
sRNA内参设计
产生由前50个最高丰度miRNA的miRNA位置5-17(从miRNA的5’末端计数)的碱基标识的比例组成的矩阵,并且所述矩阵用于半随机地选择1000个13nt序列。与拟南芥(Arabidopsis thaliana)Col-0基因组不完美比对的252个序列被进一步考虑,并且将所有256种可能的4-碱基组合添加到5′和3′末端,产生65,536个总序列/集。使用RNAfold25测定252个集(65,536个序列/集)中所有21nt RNA的最小自由能。然后检测最小自由能分布,选择与注释miRNA类似分布的21nt RNA序列的8个集用于合成,并从Integrated DNATechnologies(IDT)订购。设定混合比以覆盖注释的拟南芥miRNA的动态范围。
小RNA内参寡核苷酸的设计。小RNA内参的关键特征以对应于关键特征的粗体或斜体表示。在括号中示出了每μg总RNA添加的寡核苷酸的摩尔量。
具有5′磷酸和2′-O-甲基的RNA寡核苷酸模拟内源性小RNA;这一实例适用于典型的植物小RNA和动物siRNA,但2′-O-甲基基团可以用羟基代替,以模拟经典的动物microRNA。
5′和3′末端的四个随机核苷酸,每个寡核苷酸具有48(65,536)种可能的组合,这使得能够产生准确的标准曲线(用于绝对的分子定量)和检测克隆偏差。
半随机非基因组匹配核心13mer。上述设计是针对拟南芥的,且可能适用于许多其他植物,但也可以针对任何生物体进行改造。
RNA测序
将图1a中所示的sRNA内参混合物稀释两倍,并加入至500ng总RNA,然后进行聚丙烯酰胺凝胶尺寸选择,再使用用于Illumina的NEBnext小RNA文库制备试剂盒(NEB)进行sRNA克隆。将ERCC内参混合物(LifeTech)稀释200倍,并将1μl加入至500ng总RNA中。如Picelli等人26所述,使用10ng总RNA生成mRNA-Seq文库。样本在Illumina Hi-Seq 2500测序仪上以50bp单端读段(sRNA-Seq)或50bp双端读段(mRNA-Seq)模式测序。
数据分析
去除接头序列后,使用Bowtie短读段比对器27(需要完美匹配,并且每个读段允许最多100个比对)将sRNA-Seq读段与具有sRNA内参的拟南芥Col-0基因组(TAIR10)进行比对(表1和表2)。然后将包含sRNA内参的共同13nt序列的读段分组用于进一步分析。
表1:sRNA-Seq文库的数据
a#1和#2分别表示生物重复样品1和2。
b基因组匹配读段数也包括映射到ERCC或sRNA内参的读段数目。
表2:mRNA-Seq文库的数据
a#1和#2分别表示生物重复样品1和2。
b基因组匹配读段数也包括映射到ERCC或sRNA内参的读段数目。
然后,将小RNA-Seq读段分配至成熟miRNA或tasiRNA,前提是它们的长度为20-22nt,并且根据miRBase21 28和Allen等人29中的注释,并且分别被包含在该miRNA和tasiRNA的有义链的±2nt内。然后,将属于相同家族的各个miRNA或tasiRNA的值加在一起,获得各个家族的读段总量。长度为20-22nt或23-24nt并且与TAIR10注释的转座子(即转座因子和转座因子基因)的任一链重叠的小RNA读段根据其所映射的转座子进行分组。使用RSEM30将双末端mRNA-Seq读段与拟南芥Col-0基因组(TAIR10)和ERCC内参比对。保留最多达20个比对的读段,并将该读段基于Araport11注释31分配给ERCC内参或转录模型。用R进行统计分析和图形32
为了产生用于sRNA-Seq数据的绝对标准化的外源sRNA内参的集,我们设计了具有三个主要特征的21个核苷酸(nt)RNA寡核苷酸(图1a)。首先,该sRNA内参含有5’单磷酸和2′-O-甲基,以模拟内源植物小RNA。2′-O-甲基基团是植物小RNA所共有的14,但是如果研究例如动物的miRNA,则可以省略这种修饰。其次,该sRNA内参含有与感兴趣的基因组(例如在该研究中的拟南芥)不匹配的半随机13nt核心序列。第三,这些半随机13nt核心序列在5′和3′末端均侧接一组(四个)随机核苷酸。设计了具有不同13nt核心序列的8个sRNA内参,并以特定的摩尔比混合,如图1a所示。在sRNA-Seq文库制备之前将这些添加到总RNA中。测序后,使用非基因组匹配的13nt独特标签来量化特别源自每个sRNA内参的读段。这13nt核心序列中的每一个可以由最高达65,536个可能的21nt序列来表现。由于个体sRNA序列具有使其表现在最终的sRNA-Seq文库11-13中出现偏差的可变特性(例如二级结构),预期可以分配给sRNA内参的每个13nt核心序列的大量不同序列会整体上减少每个内参集的克隆偏差。因此,sRNA内参在分子数/μg总RNA(MPU)方面能够实现用于绝对数据标准化的标准曲线的稳健生成(图1b)。当绘制由sRNA-Seq报告的相对RPM水平和添加到每个样本中的sRNA内参的已知的绝对MPU量的图时,观察到几乎完美的正相关(所有的皮尔森r值≥0.99且P<7.42×10-6)(图1b)。作为概念证明,相对值和绝对值之间的高度线性关系用于生成线性模型以预测从野生型(Col-0)花中分离的每μg总RNA的miRNA分子数(图1c)。
因为sRNA内参能够实现准确的数据标准化(图1),我们比较了相对RPM和绝对MPU的sRNA亚群,以确定两个标准化程序是否产生不同的结果。尽管可以对任何物种进行类似的分析,但我们使用拟南芥来测试sRNA内参的效用,这是因为拟南芥的注释良好的sRNA和转录物、容易获得的不同组织类型和主要sRNA亚群中缺乏活突变体。植物sRNA群由四个主要类别组成:20-22nt microRNA(miRNA)和反式作用siRNA(tasiRNA),其倾向于转录后调节蛋白质编码基因;以及20-22nt和23-24nt小干扰RNA(siRNA),其通常来自沉默转座子15。花和叶中sRNA亚群的比例不同(图4),这使得对相对标准化的叶和花的sRNA水平的比较易于出错。例如,分别为30%和53%的Col-0花和Col-0叶的sRNA群由20-22nt序列组成(图4a-c),但不能确定叶中是否存在绝对更多的20-22nt sRNA,或者这种相对增加是否仅仅是由于与花组织相比叶中降低的23-24nt的siRNA水平。使用sRNA内参,我们在Col-0花和叶中的sRNA亚群上比较了相对和绝对的标准化方法。这两种标准化方法产生了不同的结果。例如,尽管与Col-0花相比,Col-0叶中的总miRNA水平具有显著更高的RPM(1.7倍;P=3.2×10-3;双样本Student t检验),但是与Col-0花相比,Col-0叶中的miRNA的绝对数量非显著地减少至1/1.5(P=0.13;双样本Student t检验)(图4e、4f)。此外,绝对的但非相对的标准化表明,与Col-0叶相比,Col-0花中miRNA家族具有显著增加的水平(图2a、2b)(P=4.1×10-3;双样本Kolmogorov-Smirnov检验)。因此,sRNA-Seq数据的相对标准化以及随后进行组织类型之间的比较会产生使人产生误解的结果,该结果通过使用sRNA内参会得到缓解。
为了进一步测试sRNA群中的变化如何能够影响相对标准化,我们从siRNA缺陷的花中生成了sRNA-Seq文库,并将它们与Col-0花的数据集进行比较。更具体而言,我们从编码DICER-LIKE2(DCL2)、DCL3和DCL4核糖核酸酶的三个基因中具有无效突变的花(即dcl234花)生成了sRNA-Seq文库。DCL3和DCL4分别是23-24nt siRNA和tasiRNA生物合成所需的16-20(图4c)。因此,预期dcl234花具有降低的tasiRNA和23-24nt siRNA水平。在20-24nt siRNA水平上对相对的和绝对的标准化方法的比较产生了类似的结果(图4d、4e和图2a、2b)。然而,与Col-0花相比,dcl234花中的总tasiRNA的相对RPM水平没有显著降低;然而,总tasiRNA的绝对MPU显著降低(PRPM=0.08,PMPU=0.04;双样本Student t检验)(图4d、4e)。dcl234花中的相对和绝对标准化的tasiRNA家族水平均显著降低,但该降低在使用绝对值时更明显(PRPM=1.0×10-3,PMPU=1.6×10-4;双样本Kolmogorov-Smirnov检验)(图2a、2b)。我们还发现,与Col-0花相比,dcl234花中miRNA的总量具有显著更高的RPM和MPU(PRPM=0.04,PMPU=0.02;双样本Student t检验)(图4a、4b)。因此,在不存在siRNA的情况下,miRNA增加,如先前所提出的那样21
通常在来自各种组织的整个sRNA-Seq数据集中比较个体sRNA的水平,以确定在何时和何处的具体sRNA具有最大丰度。我们比较了Col-0花相对于Col-0叶或dcl234花中的93个miRNA家族的相对和绝对标准化的值,以确定这两种标准化方法是否产生不同的结果。实际上,基于RPM值的比较表明,与Col-0花相比,Col-0叶中13个和6个miRNA家族分别具有增加的和降低的水平(图2c)。相反,由于花中较高的绝对miRNA水平(图4e和图2b),基于MPU值的比较表明,与花比,在Col-0叶中没有miRNA家族增加,并且在Col-0叶中19个miRNA家族降低(图2d)。此外,基于RPM值,在dcl234相对于Col-0花中,35个miRNA家族具有增加的水平;而当使用MPU值进行比较时,与Col-0花相比,dcl234花中仅有16个miRNA家族增加(图2c、2d)。基于我们的结果,来自具有不同潜在小RNA群的组织的sRNA-Seq数据的绝对标准化使得能够更准确地比较总sRNA水平和个体sRNA水平。
sRNA水平与其前体或靶的丰度之间的关系对于理解miRNA生物合成和功能是重要的。由于小RNA及其较长的RNA前体/靶需要不同程序进行选择和克隆到RNA-Seq文库中,所以不可能使用相对标准化方法来评估sRNA与其前体或靶之间的化学计量。我们测试了sRNA内参和市售可得的mRNA内参(ERCC内参混合物;LifeTech)是否能够实现sRNA-Seq和mRNA-Seq数据集之间的交叉比较。更具体地,我们从用于生成上述sRNA-Seq数据的相同总RNA样本中生成了mRNA-Seq数据集,并在mRNA-Seq文库构建之前将ERCC内参混合物添加至总RNA。对于皮尔森r值为至少0.96且P<1.44×10-12的所有六个数据集,观察到ERCC转录物的相对数目(转录物数/千碱基百万,TPM)与每μg总RNA添加的已知数目的分子数之间的强正相关性(图3a和图5a至5e)。然后,我们使用这些关系生成线性模型,并将这些模型应用于TPM≥1.0的mRNA,以评估所有六个数据集中全基因组的mRNA MPU。这使得我们能够随后将成熟的sRNA MPU与来自其前体或靶的MPU进行比较。我们发现,Col-0叶、Col-0花和dcl234花中的miRNA/前体比率相似,各自的中值miRNA/前体水平为2.1、1.6和1.5(图3b)。Col-0叶和Col-0花的tasiRNA及其前体之间的比率比miRNA/前体比率更高,但没有显著差异,其中Col-0叶和Col-0花的中值tasiRNA/前体比率分别为3.7和4.4(图3b)。相比之下,在dcl234花中,tasiRNA前体比成熟的tasiRNA水平更丰富,其中前体的中值是tasiRNA的42.4倍(图3b)。这与用于tasiRNA生物合成的DCL4的已知需求以及且dcl234组织中tasiRNA前体水平的相应增加一致16-18,20,22
然后,我们研究了miRNA与其全基因组的靶之间的化学计量。我们使用了公众可得的来自Col-0花的sRNA切割产物的数据集(即降解组数据集)来选择miRNA和tasiRNA靶23,24。Col-0和dcl234花中miRNA与其靶之间的比率没有显著差异,并且中值分别为3.9和0.63。相比之下,如所预期的,Col-0和dcl234花中tasiRNA/靶的比率显著不同(P=5.0e-16;双样本Kolmogorov-Smirnov检验),并且Col-0和dcl234花中的靶MPU分别是tasiRNA MPU的1.5倍和210.8倍(图3c)。因此,结合mRNA内参,sRNA内参使得能够对前体:sRNA和sRNA:靶的化学计量进行全基因组的评估。
小RNA内参不仅作为sRNA-Seq实验的有用内部对照,仅需1-2%的可比对读段用于后续分析,而且还可以用于标准化来自不同处理、组织类型或研究小组的sRNA-Seq数据。此外,它们能够实现对sRNA分子进行绝对定量,这对于准确比较至关重要,并且还能够实现对于前体:sRNA和sRNA:靶的化学计量进行全基因组的评估,这对于在分子尺度上理解这些关系非常重要。最后,sRNA内参可以用于评估和改善存在于各种sRNA-Seq文库生成方案中的克隆偏差。
参考文献
1.Meyer,S.U.,Pfaffl,M.W.&Ulbrich,S.E.Biotechnol Lett 32,1777–1788(2010).
2.Malone,C.D.et al.Cell 137,522–535(2009).
3.Farh,K.K.et al.Science 310,1817–1821(2005).
4.Stark,A.,Brennecke,J.,Bushati,N.,Russell,R.B.&Cohen,S.M.Cell 123,1133–1146(2005).
5.Breakfield,N.W.et al.Genome Research 22,163–176(2012).
6.Rajagopalan,R.,Vaucheret,H.,Trejo,J.&Bartel,D.P.Genes & Development3407–3425(2006).
7.Martínez,G.,Panda,K.,Kohler,C.&Slotkin,R.K.Nature Plants 1–8(2016).
8.Fahlgren,N.et al.RNA 15,992–1002(2009).
9.Powers,J.T.et al.Nature 535,246–251(2016).
10.Locati,M.D.et al.Nucleic Acids Research 43,e89–e89(2015).
11.Hafner,M.et al.RNA 17,1697–1712(2011).
12.Jayaprakash,A.D.,Jabado,O.,Brown,B.D.&Sachidanandam,R.NucleicAcids Research 39,e141–e141(2011).
13.Sorefan,K.et al.Silence 3,1–1(2012).
14.Yu,B.et al.Science 307,932–935(2005).
15.Matzke,M.A.&Mosher,R.A.Nature Reviews Genetics 15,394–408(2014).
16.Gasciolli,V.,Mallory,A.C.,Bartel,D.P.& Vaucheret,H.Current Biology15,1494–1500(2005).
17.Henderson,I.R.et al.Nat Genet 38,721–725(2006).
18.Howell,M.D.et al.The Plant Cell 19,926–942(2007).
19.Yoshikawa,M.Genes&Development 19,2164–2175(2005).
20.Xie,Z.et al.PLoS Biology 2,0642–0652(2004).
21.Yu,B.et al.Nucleic Acids Research 38,5844–5850(2010).
22.Yoshikawa,M.,Peragine,A.,Park,M.Y.& Poethig,R.S.Genes &Development 19,2164–2175(2005).
23.Addo-Quaye,C.,Eshoo,T.W.,Bartel,D.P.& Axtell,M.J.Current Biology18,758–762(2008).
24.Addo-Quaye,C.,Miller,W.& Axtell,M.J.Bioinformatics 25,130–131(2008).
25.Lorenz,R.et al.Algorithms for Molecular Biology 6,1–14(2011).
26.Picelli,S.et al.Nat Meth 10,1096–1098(2013).
27.Langmead,B.,Trapnell,C.,Pop,M.& Salzberg,S.L.Genome Biol 10,R25(2009).
28.Kozomara,A.& Griffiths-Jones,S.Nucleic Acids Research 42,D68–D73(2013).
29.Allen,E.,Xie,Z.,Gustafson,A.M.& Carrington,J.C.Cell121,207–221(2005).
30.Li,B.& Dewey,C.N.BMC Bioinformatics 12,323(2011).
31.Cheng,C.-Y.,Krishnakumar,V.,Chan,A.,Schobel,S.&Town,C.D.(2016).doi:10.1101/047308.
32.R Core Team.www.R-project.org(2016).at http://www.R-project.org/.
33.Raabe,C.,Tang,T-H.,Brosius J.,Rozhdestvensky T.S.,Nucleic AcidResearch,42,3,1414-1426(2014).

Claims (15)

1.一种包括单链核酸分子的至少两个子集的集,每个核酸分子从5′到3′方向包括:
a)5′磷酸,
b)至少3个随机核苷酸的序列,
c)至少8个核苷酸的核心序列,所述序列含有与靶序列相比的两个或更多个错配,
d)至少3个随机核苷酸的序列,和
e)3′修饰,
其中每个子集包括具有相同核心核苷酸序列和不同随机核苷酸的多个核酸分子,并且
其中每个子集的核酸分子的区别在于所述核心核苷酸序列的至少一个核苷酸。
2.根据权利要求1所述的集,其中,所述多个核酸分子包括含有A、C、G、U或A、C、G、T的所有四种核苷酸组合的随机核苷酸序列。
3.根据权利要求1至2中任一项所述的集,其中,所述核酸分子是RNA分子,特别是模拟小RNA,所述小RNA特别地选自由以下组成的组:siRNA、tasiRNA、snRNA、miRNA、snoRNA、piRNA、以及tRNA、及其任何前体。
4.根据权利要求1至3中任一项所述的集,其中,所述核心核苷酸序列包括8至25个核苷酸,优选10至20个核苷酸,优选12至18个核苷酸,优选13个核苷酸。
5.根据权利要求1至4中任一项所述的集,其中,所述随机核苷酸的序列包括3至7个核苷酸,优选3至5个核苷酸,优选4个核苷酸。
6.根据权利要求1至5中任一项所述的集,其中,所述5′磷酸选自单磷酸、二磷酸和三磷酸,并且其中,3′修饰选自由以下组成的组:2′-O-甲基化[2’-O-甲基基团]和羟基化[羟基基团]。
7.根据权利要求1至6中任一项所述的集,其中,所述子集以1amol至10000amol的量存在,优选以10amol至5000amol的量存在,特别地包括不同量的每个子集。
8.根据权利要求1至7中任一项所述的集,其中,所述靶序列可以是任何感兴趣的序列,特别是生物体的基因组或转录组,源自病毒、细菌、动物、植物的序列,特别地所述靶序列是RNA、小RNA、动态小RNA群。
9.根据权利要求1至8中任一项所述的集作为内参探针用于标准化测序数据的用途。
10.一种使用根据权利要求1至9中任一项所述的集确定样本中一个或多个靶序列的绝对量的方法,所述样本特别地是细胞样本、组织样本或器官样本。
11.一种用于确定核苷酸测序中的参考值的方法,包括步骤:
-将根据权利要求1至9中任一项所述的集添加至靶序列的混合物中,从而生成核酸分子文库,
-将接头连接到所述文库,
-任选地扩增所述文库,
-执行核苷酸测序方法,
-确定每个子集的核酸分子的量作为参考值。
12.根据权利要求11所述的方法,其中比较来自不同细胞类型的小RNA分子的拷贝数。
13.一种用于确定样本中核酸分子数目的方法,包括以下步骤:
a)将根据权利要求1至9中任一项所述的集添加到样本中,以获得核酸分子的混合物,从而生成核酸分子文库,
b)任选地扩增所述文库,
c)执行所述文库的下一代测序,得到来自所述核酸分子的RNA序列读段,
d)确定来自集和来自样本的读段数目。
14.根据权利要求10至13中任一项所述的方法用于评估在sRNA文库制备期间发生的克隆偏差的用途。
15.一种具有如下通式的寡核苷酸:
p-(N)m(X)(N)m-2′-O-甲基,
其中,
p是磷酸;
N是A、U、G、C中任一个的随机核苷酸;
X是含有与靶序列相比的至少两个错配的核心序列,其长度为8、9、10、11、12、13、14、15、16、17或18个核苷酸,所述核苷酸包括A、U、G、C中任一个,
m是3、4或5。
CN201880012023.0A 2017-01-30 2018-01-29 用于序列数据标准化的新型内参寡核苷酸 Active CN110446788B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17153689.9 2017-01-30
EP17153689.9A EP3354746B1 (en) 2017-01-30 2017-01-30 Novel spike-in oligonucleotides for normalization of sequence data
PCT/EP2018/052127 WO2018138334A1 (en) 2017-01-30 2018-01-29 Novel spike-in oligonucleotides for normalization of sequence data

Publications (2)

Publication Number Publication Date
CN110446788A true CN110446788A (zh) 2019-11-12
CN110446788B CN110446788B (zh) 2024-02-23

Family

ID=57965671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880012023.0A Active CN110446788B (zh) 2017-01-30 2018-01-29 用于序列数据标准化的新型内参寡核苷酸

Country Status (7)

Country Link
US (1) US20200040393A1 (zh)
EP (1) EP3354746B1 (zh)
JP (1) JP7044270B2 (zh)
CN (1) CN110446788B (zh)
CA (1) CA3051720A1 (zh)
DK (1) DK3354746T3 (zh)
WO (1) WO2018138334A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111235244A (zh) * 2019-11-28 2020-06-05 广州微远基因科技有限公司 测序内标分子及其制备方法和应用
CN111607639A (zh) * 2020-05-08 2020-09-01 深圳华大因源医药科技有限公司 基于内参进行宏基因组病原定量检测的方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020041449A1 (en) * 2018-08-21 2020-02-27 Zymo Research Corporation Methods and compositions for tracking sample quality
WO2024017613A1 (en) * 2022-07-20 2024-01-25 Hummingbird Diagnostics Gmbh Artificial small rna spike-in cocktail for process control and normalization

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070130653A1 (en) * 2005-06-17 2007-06-07 Pioneer Hi-Bred International, Inc. Methods and compositions for gene silencing
WO2008040355A2 (en) * 2006-10-06 2008-04-10 Exiqon A/S Novel methods for quantification of micrornas and small interfering rnas
US20140243213A1 (en) * 2011-07-29 2014-08-28 University Of East Anglia Analysing Sequencing Bias
WO2016007951A1 (en) * 2014-07-11 2016-01-14 KARNAKIS, Jennifer A. Compositions and methods for detecting rare sequence variants in nucleic acid sequencing
CN105648078A (zh) * 2016-03-01 2016-06-08 浙江农林大学 一种山核桃嫁接过程中小rna测序分析方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5637459A (en) * 1990-06-11 1997-06-10 Nexstar Pharmaceuticals, Inc. Systematic evolution of ligands by exponential enrichment: chimeric selex
DE69528706T2 (de) 1994-08-19 2003-06-12 Pe Corp Ny Foster City Gekoppeltes ampflikation- und ligationverfahren
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
WO2002004680A2 (en) 2000-07-07 2002-01-17 Visigen Biotechnologies, Inc. Real-time sequence determination
EP1394251A1 (en) * 2002-08-23 2004-03-03 Direvo Biotech AG Method for the selective randomization of polynucleotides
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
US7482120B2 (en) 2005-01-28 2009-01-27 Helicos Biosciences Corporation Methods and compositions for improving fidelity in a nucleic acid synthesis reaction
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
EP2566985A4 (en) 2010-05-06 2014-08-06 Ibis Biosciences Inc INTEGRATED SAMPLE PREPARATION SYSTEMS AND MIXTURES OF STABILIZED ENZYMES
US10155941B2 (en) 2012-08-01 2018-12-18 Bernhard Suter High throughput yeast two-hybrid screening method and reagent kit
CA2949622C (en) * 2012-11-26 2019-07-02 The University Of Toledo Methods for standardized sequencing of nucleic acids and uses thereof
GB201402249D0 (en) * 2014-02-10 2014-03-26 Vela Operations Pte Ltd NGS systems control and methods involving the same
GB201411603D0 (en) * 2014-06-30 2014-08-13 Vela Operations Pte Ltd Compositions for quantitative and/or semiquantitative mutation detection methods
WO2016084848A1 (ja) * 2014-11-26 2016-06-02 東レ株式会社 小型rnaの発現量の補正方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070130653A1 (en) * 2005-06-17 2007-06-07 Pioneer Hi-Bred International, Inc. Methods and compositions for gene silencing
WO2008040355A2 (en) * 2006-10-06 2008-04-10 Exiqon A/S Novel methods for quantification of micrornas and small interfering rnas
US20140243213A1 (en) * 2011-07-29 2014-08-28 University Of East Anglia Analysing Sequencing Bias
WO2016007951A1 (en) * 2014-07-11 2016-01-14 KARNAKIS, Jennifer A. Compositions and methods for detecting rare sequence variants in nucleic acid sequencing
CN105648078A (zh) * 2016-03-01 2016-06-08 浙江农林大学 一种山核桃嫁接过程中小rna测序分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FANGLEI ZHUANG 等: "Small RNA expression profiling by high-throughput sequencing: implications of enzymatic manipulation", 《J NUCLEIC ACIDS》 *
MARKUS HAFNER 等: "Barcoded cDNA library preparation for small RNA profiling by next-generation sequencing", 《METHODS》 *
杨斌 等: "高通量测序分析胆囊结石患者microRNA 表达谱差异", 《天津医药》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111235244A (zh) * 2019-11-28 2020-06-05 广州微远基因科技有限公司 测序内标分子及其制备方法和应用
CN111607639A (zh) * 2020-05-08 2020-09-01 深圳华大因源医药科技有限公司 基于内参进行宏基因组病原定量检测的方法和装置

Also Published As

Publication number Publication date
WO2018138334A1 (en) 2018-08-02
JP2020519256A (ja) 2020-07-02
CA3051720A1 (en) 2018-08-02
US20200040393A1 (en) 2020-02-06
CN110446788B (zh) 2024-02-23
EP3354746B1 (en) 2019-05-29
JP7044270B2 (ja) 2022-03-30
DK3354746T3 (da) 2019-09-02
EP3354746A1 (en) 2018-08-01

Similar Documents

Publication Publication Date Title
US10301677B2 (en) Normalization of nucleic acid libraries
Blythe et al. The ins and outs of lncRNA structure: How, why and what comes next?
Graf et al. From structure to function: Route to understanding lncRNA mechanism
Sorefan et al. Reducing ligation bias of small RNAs in libraries for next generation sequencing
Watters et al. Characterizing RNA structures in vitro and in vivo with selective 2′-hydroxyl acylation analyzed by primer extension sequencing (SHAPE-Seq)
CN110446788A (zh) 用于序列数据标准化的新型内参寡核苷酸
Novikova et al. Sizing up long non-coding RNAs: do lncRNAs have secondary and tertiary structure?
ES2873850T3 (es) Bibliotecas de secuenciación de próxima generación
Wang et al. An RNA-cleaving threose nucleic acid enzyme capable of single point mutation discrimination
Oliveira et al. Improving aptamer performance with nucleic acid mimics: de novo and post-SELEX approaches
US20220349013A1 (en) Detection and treatment of residual disease using circulating tumor dna analysis
CN113337501B (zh) 一种发卡型接头及其在双端index建库中的应用
Bai et al. Toward a next-generation atlas of RNA secondary structure
CN109661466A (zh) 用于适配子对选择的方法
US20210284997A1 (en) Parallel analysis of rna 5&#39; ends from low-input rna
Kong et al. Evolutionary outcomes of diversely functionalized aptamers isolated from in vitro evolution
IT201900015914A1 (it) Procedimento per preparare un campione di rna per il sequenziamento e relativo kit
JP7141165B1 (ja) 変異プロファイリングのためのrnaプローブ及びその使用
CN114507721B (zh) 一种全转录组rna结构探测的方法及其应用
WO2023247658A1 (en) Methods and compositions for nucleic acid sequencing
WO2022099670A1 (zh) 一种全转录组rna结构探测的方法及其应用
CN116287167A (zh) 核酸分子的测序方法
Baronti Conformational dynamics in microRNAs: The example of miR-34a targeting Sirt1 mRNA
O'Leary Uncovering the structure and function of RNAs using computational and experimental approaches
Keightley et al. Experimental approaches to studying the nature and impact of splicing variation in zebrafish

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant