CN110418850A - 鉴定和使用小rna预测因子的方法 - Google Patents

鉴定和使用小rna预测因子的方法 Download PDF

Info

Publication number
CN110418850A
CN110418850A CN201880018238.3A CN201880018238A CN110418850A CN 110418850 A CN110418850 A CN 110418850A CN 201880018238 A CN201880018238 A CN 201880018238A CN 110418850 A CN110418850 A CN 110418850A
Authority
CN
China
Prior art keywords
srna
group
sample
disease
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880018238.3A
Other languages
English (en)
Other versions
CN110418850B (zh
Inventor
D.萨尔兹曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Small Molecule Rna Analysis Co Ltd
Original Assignee
Small Molecule Rna Analysis Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Small Molecule Rna Analysis Co Ltd filed Critical Small Molecule Rna Analysis Co Ltd
Publication of CN110418850A publication Critical patent/CN110418850A/zh
Application granted granted Critical
Publication of CN110418850B publication Critical patent/CN110418850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/178Oligonucleotides characterized by their use miRNA, siRNA or ncRNA

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种鉴定或检测疾病或病状的小RNA(sRNA)预测因子的方法。所述方法包括鉴定存在于实验组群的一个或多个样品中而不存在于比较组群中的一个或多个sRNA序列;并且任选地鉴定存在于比较组群的一个或多个样品中而不存在于实验组群中的一个或多个sRNA序列。与鉴定失调的非编码RNA(诸如上调或下调的miR)截然不同,本发明鉴定作为双重预测因子,即存在于一个组群(例如,实验组群)而不存在于另一个组群(例如,比较组群)中的sRNA。进一步地,通过量化单个序列(例如,iso‑miR)的读段,无需将读段合并为带注释的参考序列,本发明揭示了miR和其它sRNA的诊断效用。

Description

鉴定和使用小RNA预测因子的方法
优先权
本申请案要求保护2017年1月23日提交的美国临时申请第62/449,275号的权益和优先权,该临时申请的内容据此通过引用整体并入。
发明背景
微RNA(缩写为miRNA或miR)是在植物和动物在发现的在RNA沉默和基因表达的转录后调节方面起作用的非编码小RNA分子(长度为约22个核苷酸)。miRNA位于细胞以及循环和细胞外环境内,并且可以在生物流体中检测到。
分析脊椎动物中高度保守的miRNA显示,每一个都具有大约400个保守性信使RNA(mRNA)靶标。因此,特定的miRNA可以降低数以百计的独特mRNA的稳定性,并且可以抑制数以百计的蛋白质的生成。这种抑制往往相对温和,例如,通常低于2倍。人类疾病可与miRNA的反调节(deregulation)或失调(dysregulation)相关,正如对于慢性淋巴细胞性白血病和其它B细胞恶性肿瘤所证明的那样。人工精选的、公开可用的数据库,即miR2Disease,记录了miRNA水平(上调或下调的miRNA)和人类疾病之间的已知关系。
然而,尽管miRNA和其它非编码小RNA在细胞生物学及其与人类疾病的关联中具有明确的作用,但它们的诊断潜力尚未被实现。本发明的目的是揭示miRNA和其它非编码小RNA(sRNA)的诊断潜力。
发明内容
在各个方面和实施方案中,本发明提供了一种鉴定或检测疾病或病状的小RNA(sRNA)预测因子的方法。所述方法包括鉴定存在于实验样品组群的一个或多个样品中而不存在于比较组群的样品中的一个或多个sRNA序列(“阳性sRNA预测因子”)。在一些实施方案中,所述方法还包括鉴定存在于比较样品组群的一个或多个样品中而不存在于实验组群的样品中的一个或多个sRNA序列(“阴性sRNA预测因子”)。与鉴定失调的小RNA(诸如上调或下调的微RNA(miRNA或miR))截然不同,本发明鉴定作为双重预测因子,即存在于一个组群(例如,实验组群)而不存在于另一个组群(例如,比较组群)中的sRNA。进一步地,通过量化单个序列(例如,iso-miR)的读段(read),无需将读段合并为带注释的参考序列,本发明揭示了miR和其它sRNA的诊断效用。在一些实施方案中,在与从中发现sRNA预测因子的实验和比较样品不同的实验和比较样品的独立组群中验证所述一个或多个sRNA预测因子,或一套sRNA预测因子,以评价所述sRNA预测因子区分实验和比较样品的能力。
在各个实施方案中,从sRNA测序数据中鉴定出sRNA预测因子。具体地说,例如,使用任何下一代测序平台,为实验组群和比较组群内的样品生成或提供sRNA测序数据。可以在来自于任何类型的生物样品(包括固体组织、生物流体(例如,脑脊髓液和血液),或在一些实施方案中,包括培养的细胞)的序列数据中鉴定出sRNA预测因子。本发明适用于各种类型的真核和原核细胞和包括动物、植物和微生物在内的生物。
通常,可以鉴定sRNA预测因子用于了解细胞或生物状态的各种效用,包括人类和动物健康以及农业中的效用。例如,本发明可用于诊断、预后、药物发现、毒理学和治疗学,包括个性化医疗。在一些实施方案中,本发明提供人或动物疾病的诊断或分层。例如,可以定义实验组群的病状包括神经退行性疾病、心血管疾病、炎性和/或免疫性疾病和癌症。此外,可以鉴定sRNA预测因子用于检测疾病状态,包括早期或无症状期疾病(例如,在出现明显或实质性症状之前),或区分表现出相似症状的疾病或病状。示例性病状包括神经退行性病状,诸如阿尔茨海默氏病(Alzheimer’s Disease)、帕金森氏病(Parkinson’s Disease)、亨廷顿病(Huntington’s Disease)、肌萎缩性侧索硬化和多发性硬化的诊断(包括早期诊断)或分层。
sRNA预测因子可以通过软件程序鉴定,该软件程序量化实验组群和比较组群的每个样品中每个独特sRNA序列的读段的数量。在各个实施方案中,软件程序从单个序列中修剪掉衔接子序列,以便鉴定单个sRNA,包括miR和iso-miR。以这种方式,在其它sRNA中鉴定出在3'-末端和5'-末端具有模板化和非模板化变异的iso-miR。
修剪后,可以将来自实验组群和比较组群的序列读段各自编译成字典,并进行比较,以鉴定存在于一个组群中但不存在于另一个组群中的序列。对实验组群中的每个样品或样品组的独特序列和独特读段的量(即读段计数)进行注释。不将sRNA序列与参考序列进行比对,因此,可以在样品间单独量化每个序列。
在一些实施方案中,选择sRNA预测因子,其在来自于实验组群的对于所述sRNA预测因子而言为阳性的样品中具有至少为5或至少为约50的读段计数。在其它实施方案中,所述sRNA预测因子存在于至少约7%的实验组群样品中,或存在于至少约10%的比较样品中。在一些实施方案中,在实验组群和/或比较组群中鉴定出几个sRNA预测因子(诸如四个或更多个),并且可以选择所述sRNA预测因子以包括在sRNA预测因子小组中。例如,在实验组群中鉴定的双重预测因子是阳性预测因子,而在比较组群中鉴定的双重预测因子是阴性预测因子。
在一些实施方案中,选择一小组的sRNA预测因子用于验证或检测独立样品中的病状。例如,可以选择1至约200个、或1至约100个、或1至约50个sRNA、或1至约10个预测因子的小组,其中一个或多个阳性预测因子的存在(任选地,一个或多个阴性预测因子不存在)预测定义实验组群的病状。在一些实施方案中,来自该小组的1、2、3、4、5、6、7、8、9或10个阳性预测因子的存在,任选地整个阴性预测因子小组不存在,预测该病状。虽然并非每个实验样品对于每个阳性预测因子而言都将是阳性的,但是该小组足够大以提供对实验组群或独立样品(例如群体)中的病状的几乎完全覆盖。例如,样品中存在1至约100个、或1至约50个、或1至约20个、或1至约10个sRNA阳性预测因子可预测定义实验组群的病状。验证样品可以通过sRNA测序评价,或者通过RT-PCR(包括实时PCR或任何定量或定性PCR形式)或其它sRNA检测测定来评价。
在各个实施方案中,将sRNA预测因子的检测迁移至各种检测平台之一,所述检测平台可以利用逆转录和扩增,和/或可检测探针(例如荧光探针)的杂交。示例性形式是TAQMAN实时PCR测定。可替代地,通过杂交测定来检测小组中的sRNA预测因子或其扩增子。
在其它方面,本发明提供了一种试剂盒,其包含1至约200个、或1至约100个、或1至50个sRNA预测因子测定的小组,所述预测因子测定可包括阳性和阴性预测因子中的一种或两种。此类测定可包括对检测带注释的序列上的sRNA预测因子,以及其它(非预测性)5’-和/或3’-模板化和/或非模板化变异有特异性的扩增引物和/或探针。在一些实施方案中,试剂盒是阵列的形式,并且可以含有对通过杂交来检测sRNA预测因子有特异性的探针。大多数或所有sRNA预测因子是其中任何miRNA预测因子均含有与参考miRNA序列的变异的sRNA。
在其它方面,本发明提供了一种确定受试者的病状的方法。所述包括获得生物流体样品,并鉴定根据本文所述的方法在RNA序列数据中鉴定的一个或多个sRNA预测因子存在或不存在,其中样品中一个或多个阳性sRNA预测因子的存在,和任选地一个或多个阴性预测因子不存在,是对所述病状的预测或诊断。在一些实施方案中,通过检测技术在来自于人类患者的样品中鉴定所述sRNA预测因子,所述检测技术涉及扩增和/或探针杂交,诸如实时PCR(例如,TAQMAN)测定。来自患者的生物流体样品可以是血液、血清、血浆、尿液、唾液或脑脊髓液。
在各个实施方案中,所述患者被怀疑患有神经退行性疾病、心血管疾病、炎性和/或免疫性疾病或癌症。例如,所述患者正展示出所述病状的一种或多种症状。在一些实施方案中,所述患者被怀疑患有选自肌萎缩性侧索硬化(ALS)、帕金森氏病、阿尔茨海默氏病、亨廷顿病或多发性硬化的神经退行性疾病。
在一小组的sRNA检测测定中,诸如1至约100个、或约4至100个sRNA的检测测定中对样品进行测试,并且在一些实施方案中,在患者样品中检测到的大多数sRNA(或在患者样品中检测到的所有sRNA)都不是带注释的参考miRNA。然而该小组可以包括一个或多个用于检测的miRNA用作对照。
在本发明的其它方面,可以采用阳性和/或阴性预测因子通过具有可检测或生物学影响的基因的靶向表达,对体内或离体的混合细胞群进行分类。例如,所需蛋白可以从基因构建体(诸如质粒)表达,或者从递送至体内或离体细胞的mRNA表达。在这些实施方案中,基因在对所述一个或多个小RNA预测因子有特异性的靶位点的调节控制下递送。靶位点(用于与预测因子特异性杂交的靶位点)可以置于非编码区段诸如3’和/或5’UTR中,使得编码的蛋白仅在所需预测因子不存在于所述细胞时以生物学显著量表达。由构建体编码的蛋白可以是报告蛋白、转录激活因子、转录抑制因子、促凋亡蛋白、促存活蛋白、裂解蛋白、酶、细胞因子、毒素或细胞表面受体。在这些方面,预测因子可用于靶向所需蛋白的表达以用于治疗性影响,靶向患病细胞以便杀伤,或保护非患病细胞免受毒性损伤。
从以下实施例中,本发明的其它方面和实施方案将显而易见。
附图说明
图1A和1B说明了用于分析来自本发明实施方案的小RNA测序数据的标准方法。标准方法的目的是使用靶向测定诸如定量PCR(例如TAQMAN)鉴定较大组群中用于验证的失调sRNA(上调或下调)。对于序列分析,修剪衔接子序列,将读段与参考进行比对,并为每个参考sRNA量化读段。基于样品和/或样品组之间的差异性表达水平来选择诊断性sRNA。图1A是显示与参考进行比对的映射小RNA序列读段(在这种情况下为miRNA、miR-X)的说明性实例。如图所示,miR-X存在于疾病和对照样品中,并且不是同源序列,而是全部映射到相同区域的异源系列的iso-miR。表示序列读段的线条有阴影以描绘各种iso-miR序列。浅灰色方框突出显示带注释的miR-X参考序列。图1B是如何压缩和量化来自图1A的miR-X的映射测序数据的说明性实例,其是miR-X的所有iso-miR的总和。在该特定实例中,miR-X将被认为具有诊断价值/潜力,因为当比较疾病和对照样品时在表达上存在2倍的差异。
图2说明了源自于取自亨廷顿病患者(SRR1759249)或非患病的健康对照(SRR1759213)的额皮质(BA9区)组织样品的人miRNA即miR-10b的测序数据。显示的参考中突出显示了带注释的miR-10b序列。显示了每个序列的读段数量。在该特定实例中,除了在这些样品中发现的带注释的miR-10b序列之外,还存在8种miR-10b iso-miR。亨廷顿病和健康对照样品的总读段数量分别为1670和336。因此,与健康对照比较时,亨廷顿病样品中‘总’miR-10b的量高5倍。
图3A和3B说明了如何根据本发明的实施方案对样品中的miRNA测序数据进行分选和量化。图3A说明了根据本发明的方法,其中iso-miR(或其它sRNA)通过其各自的iso-miR序列来分选,因此不需要与参考比对。表示序列读段的线条有阴影以描绘相同的iso-miR序列。图3B显示了如何基于它们的独特序列,而不是通过与参考比对来量化iso-miR(或其它sRNA)的序列读段。
图4说明了本文所述的用于鉴定小RNA测序数据中的阳性和阴性预测因子的分析方法。正如对于miR-X所描绘的那样,在疾病样品中存在2个双重阳性预测因子,在对照样品中有1个双重阴性预测因子。这些阳性和阴性预测因子可用于诊断小组中以对其中它们已被鉴定的病状进行测试。此外,图4说明miR-X注释序列在疾病和对照样品中以相等的量存在,因此是非诊断性的。另外,图4说明miR-X iso-miR以2.5倍的差异存在于疾病和对照样品中,然而因为这种iso-miR不是双重的,因此未将其包括在诊断小组中。
图5说明可以设计定量PCR测定(例如,基于TAQMAN形式),该定量PCR测定对iso-miR或其它目标sRNA产生>99.9%的特异性。此处,针对指定的带注释的miR即iso-miR 1(其具有附加的3’-末端尿苷)或iso-miR2(其具有附加的3’-末端胍)设计发夹-RT TAQMANqPCR测定。如所示,使用靶向发夹-RT引物逆转录合成RNA。在对每种RNA序列有特异性的TAQMAN探针的存在下,通过qPCR扩增cDNA。显示了TAQMAN测定法检测每种合成RNA的相对检测百分比。
图6是热图,其中使用具有不完全连锁的Ward凝聚聚类使在亨廷顿病(上)、健康对照(下)以及亨廷顿病和健康对照两者(中)中发现的前335种最高频率的小RNA聚类。
图7显示了使用基于逆转录(RT)发夹的TAQMAN定量聚合酶链反应(qPCR)测定(ThermoFisher Scientific)在亨廷顿病样品中鉴定出的八种阳性小RNA预测因子的实验验证。揭示了临床信息(疾病与非疾病,以及疾病等级)并且将样品解码并为健康对照和亨廷顿病的Ct值绘图。
图8显示了使用Box-Whisker图对Ct与疾病等级相关性的八种生物标志物的分析。通过方差分析(ANOVA)将称为亨廷顿病生物标志物-4(HDB-4)、HDB-5、HDB-7的三种生物标志物的Ct值与疾病等级相关联。
图9是热图,其中使用具有不完全连锁的Ward凝聚聚类使在帕金森氏病(上)、健康对照(下)以及帕金森氏病和健康对照两者(中)中发现的前335种最高频率的小RNA聚类。显示了对来自额皮质(BA9区)、CSF(脑脊髓液)和血清的组织的分析。
图10说明了帕金森氏病预测因子的组织特异性生物标志物重叠。(TIS表示组织,CSF表示脑脊髓液,SER表示血清)。
图11是热图,其中使用具有不完全连锁的Ward凝聚聚类使在阿尔茨海默氏病(上)、健康对照(下)以及阿尔茨海默氏病和健康对照两者(中)中发现的前335种最高频率的小RNA聚类。显示了对CSF、血清和全血(WB)的分析。
图12说明了阿尔茨海默氏病的组织特异性生物标志物重叠(TIS表示组织,CSF表示脑脊髓液,SER表示血清,WB表示全血)。
图13是热图,其中使用具有不完全连锁的Ward凝聚聚类使在乳腺癌组织(上)、健康对照(下)以及乳腺癌组织和健康对照两者(中)中发现的前335种最高频率的小RNA聚类。
具体实施方式
在各个方面和实施方案中,本发明提供了鉴定或检测疾病或病症的双重小RNA(sRNA)预测因子的方法。该方法包括鉴定存在于实验组群的一个或多个样品中而不存在于比较组群的任何样品中的一个或多个sRNA序列(“阳性sRNA预测因子”)。在一些实施方案中,该方法还包括鉴定存在于比较组群的一个或多个样品中而不存在于实验组群的任何样品中的一个或多个sRNA序列(“阴性sRNA预测因子”)。与鉴定失调的sRNA(诸如上调或下调的miRNA)截然不同,本发明鉴定作为双重预测因子的sRNA,即存在于一个组群(例如,实验组群)而不存在于另一个组群(例如,比较组群)中的sRNA。进一步地,通过量化单个序列(例如,iso-miR)的读段,无需将读段合并为带注释的参考序列,本发明揭示了miR和其它sRNA的诊断效用。
在一些实施方案中,在实验和比较样品的独立组群中测试所述一个或多个sRNA预测因子(阳性和/或阴性预测因子)的存在,以评价所述sRNA预测因子区分样品的能力,从而验证所述sRNA预测因子的诊断、预测或其它效用。检测样品中的一种或一小组sRNA预测因子(阳性和/或阴性预测因子)的诊断试剂盒可以以包括定量或定性PCR或基于杂交的测定在内的任何所需的检测形式制备,如本文更全面地描述的那样。
在各个实施方案中,由实验组群和比较组群的一种样品或一组样品生成或提供sRNA测序数据,并且根据以下公开内容在RNA测序数据中鉴定出sRNA预测因子。
sRNA测序使小RNA物质富集并对其进行测序,小RNA物质诸如微RNA(miRNA)、Piwi相互作用RNA(piRNA)、小干扰RNA(siRNA)、穹窿体RNA(vtRNA)、小核仁RNA(snoRNA)、转运RNA来源的小RNA(tsRNA)、核糖体RNA来源的小RNA片段(rsRNA)、小rRNA来源的RNA(srRNA)和小核RNA(U-RNA)。例如,在提供sRNA测序数据时,可以使输入材料富集小RNA。根据采用的高通量测序平台,使用几种方法或市售试剂盒中的任一种,用富含sRNA的材料进行序列文库构建。通常,sRNA测序文库制备包括从样品中分离总RNA,大小分级,测序衔接子的连接,逆转录和PCR扩增,以及DNA测序。
更具体地,在给定样品中,提取并分离所有RNA(即总RNA)。通过大小分级,例如,通过使分离的RNA在变性聚丙烯酰胺凝胶上跑胶(或使用各种市售试剂盒中的任一种)来分离小RNA。然后连接步骤将衔接子添加到小RNA的两个末端,所述衔接子在逆转录和PCR扩增期间充当引物结合位点。例如,使用连接酶诸如T4 RNA连接酶2截短型(T4 Rnl2tr K227Q)将后面是5’-衔接子的预腺苷酸化单链DNA 3’-衔接子连接至小RNA。设计衔接子以捕获具有经生物加工的小RNA(例如,微RNA)特有的5’-磷酸和3’-羟基的小RNA,而不捕获具有5’羟基和3’磷酸基团的RNA降解产物。然后通过PCR使sRNA文库逆转录和扩增。该步骤将小衔接子连接的RNA转化为作为测序反应的模板的cDNA克隆。经设计具有独特核苷酸标签的引物也可用于该步骤,以在合并的文库多重测序中产生ID标签(即条形码)。
可以采用任何DNA测序平台,包括任何下一代测序平台诸如焦磷酸测序(例如,454Life Sciences)、基于聚合酶的边合成边测序(例如,Illumina),或连接法测序(例如,ABI固体测序平台)等。
在各个实施方案中,可以从历史研究中生成和/或提供测序数据,并根据以下公开内容评价sRNA预测因子。
测序数据可以是任何格式,诸如FASTA或FASTQ格式。FASTA格式是用于表示核苷酸序列的基于文本的格式,其中核苷酸使用单字母代码表示。该格式还允许序列名称和注释位于序列之前。FASTQ格式包括相应的质量评分。为简洁起见,序列字母和质量评分均用单个ASCII字符编码。
可以在包括固体组织和/或生物液体在内的任何生物样品中鉴定出sRNA预测因子。可以在原核或真核生物中鉴定出sRNA预测因子,所述原核或真核生物包括动物(例如,脊椎动物和无脊椎动物)、植物、微生物(例如,细菌和酵母),或在一些实施方案中,包括源自这些来源的培养的细胞。例如,在一些实施方案中,实验和比较样品是来自人或动物受试者(例如,哺乳动物受试者)的生物流体样品,诸如血液、血清、血浆、尿液、唾液或脑脊髓液。可以在生物液体中发现miRNA,这是可能在细胞间信号传导中起重要作用的分泌机制的结果。参见Kosaka N等,Circulating microRNA in body fluid:a new potential biomarker for cancer diagnosis and prognosis,Cancer Sci.2010;101:2087-2092)。已经根据常规方法对来自脑脊髓液和血清的miR进行了分析,其目的是针对疾病状态和病理特征对患者进行分层。Burgos K等,Profiles of Extracellular miRNA in Cerebrospinal Fluid and Serum from Patients with Alzheimer’s and Parkinson’s Diseases Correlate with Disease Status and Features of Pathology,PLOS ONE第9卷,第5期(2014)。因此,实验组群和比较组群中的样品可以是生物流体样品,诸如血液、血清、血浆、尿液、唾液或脑脊髓液。在一些实施方案中,在至少两种不同类型的流体样品中鉴定出sRNA预测因子。例如,关于神经退行性疾病的检测,可以在血液(或血清)和脑脊髓液中鉴定出sRNA预测因子。
实验组群是具有定义病状的样品的集合。实验组群可以是来自人或动物受试者或患者的样品的集合。在一些实施方案中,病状包括神经退行性疾病、心血管疾病、炎性和/或免疫性疾病和癌症,包括下文更全面描述的特定病状。可以基于晚期或早期疾病、或疾病进展过程、接受的治疗和患者对治疗的响应来进一步定义实验组群。实验组群通常包括多个样品,但在各个实施方案中,包括至少1个样品、或至少约5个样品、或至少约10个样品、或至少约15个样品、或至少约20个样品、或至少约25个样品、或至少约50个样品、或至少约75个样品、或至少约100个样品、或至少约150个样品、或至少约200个样品、或至少约250个样品。在一些实施方案中,优选较大的实验组群(例如,至少100个样品)。
比较组群是不具有定义实验组群的病状的样品的集合。例如,比较组群可以包括来自被鉴定为健康比较者,或者另外患有不同病状或疾病(包括具有与目标疾病或病状相似但不同的症状(例如,与定义实验组群样品的疾病或病状相似的症状)的病状或疾病)的受试者或患者的样品。比较组群通常包括多个样品,但在各个实施方案中,包括至少1个样品、或至少约5个样品、或至少约10个样品、或至少约15个样品、或至少约20个样品、或至少约25个样品、或至少约50个样品、或至少约75个样品、或至少约100个样品、或至少约150个样品、或至少约200个样品、或至少约250个样品。在一些实施方案中,优选较大的比较组群(例如,至少100个样品),然而比较组群的大小与实验组群相比可以相似或者更小。在一些实施方案中,在患者构成方面,例如就年龄、性别和/或种族而言,比较组群与实验组群相似。
可以鉴定sRNA预测因子用于了解细胞或生物状态的各种效用,包括人类和动物健康以及农业中的效用。例如,本发明可用于诊断、预后、药物发现、毒理学和治疗学,包括个性化医疗。在一些实施方案中,本发明提供人或动物疾病的诊断或分层。例如,可以鉴定sRNA预测因子用于检测疾病状态,包括早期或无症状期疾病(例如,在出现明显或实质性症状之前)或区分表现出相似症状的疾病或病状。在其它实施方案中,鉴定的sRNA预测因子区分疾病过程,诸如缓慢和快速进展的疾病状态,或疾病亚型(例如,复发缓解型MS、继发进展型MS、原发进展型MS或进展复发型MS),或针对疾病严重程度进行分层。在这些实施方案中,基于每种患者疾病在两种或更多种状态间的分类,设计实验组群和比较组群以区分所述两种或更多种疾病状态。在其它实施方案中,sRNA预测因子鉴定患者对一种或多种可用治疗方案的响应。在这些实施方案中,设计实验组群和比较组群以区分对治疗的响应(例如,通过基于每个患者接受的治疗和/或实现的响应对患者样品进行分类)。在一些实施方案中,鉴定了区分对环境或药剂有毒性响应的sRNA预测因子。
在一些实施方案中,通过在临床试验期间或在治疗期间评价患者样品中sRNA预测因子的存在和/或不存在,将sRNA预测因子的存在和/或不存在用作替代终点以确定候选药剂的安全性和/或功效,或用于治疗监测。例如,阳性预测因子可以在用候选药剂治疗之前被发现,并且可以通过成功的药物治疗而减少或消除。可替代地,或另外,阴性预测因子在治疗前可能不存在,但可能在成功治疗期间出现。
关于人或动物诊断,可以根据各个实施方案来评价各种类型的疾病和病状,包括神经退行性疾病、心血管疾病、炎性和/或免疫性疾病和癌症。
神经退行性疾病是神经元结构或功能逐渐丧失(包括神经元的死亡)的涵盖性术语。示例性神经退行性疾病包括阿尔茨海默氏病、肌萎缩性侧索硬化(ALS)、亨廷顿病、多发性硬化、帕金森氏病和各种类型的痴呆(例如,额颞叶痴呆、路易体痴呆(Lewy BodyDementia)或血管性痴呆)。神经退行性病状通常导致神经元细胞的进行性变性和/或死亡。在一些实施方案中,神经退行性疾病在至少大部分患者中导致痴呆。在一些实施方案中,神经退行性疾病在至少大部分患者中导致运动障碍。尽管病状可以是晚发型,但在一些实施方案中,所述疾病可以表现为早发型(例如,在约50岁之前)。
在一些实施方案中,在阿尔茨海默氏病(AD)样品的组群中鉴定sRNA预测因子。AD的特征在于大脑皮质和某些皮质下区域中的神经元和突触损失。这种损失导致受影响区域的严重萎缩,包括颞叶和顶叶以及部分额皮质和扣带回的变性。已将阿尔茨海默氏病假设为一种蛋白质错误折叠的疾病,由脑部中异常折叠的淀粉样β蛋白和Tau蛋白的积聚引起。在一些实施方案中,实验组群样品是来自诊断为患有AD的患者的生物流体样品。比较组群样品可以是被鉴定为未患AD的患者,并且可以任选地包括患有其它(非AD)神经退行性或炎性疾病的患者。
在一些实施方案中,在帕金森氏病(PD)样品的组群中鉴定sRNA预测因子。PD表现为运动徐缓、僵硬、静止性震颤和姿势不稳定。PD是中枢神经系统的退行性病症,其涉及黑质(中脑的一个区域)中的多巴胺生成细胞的死亡。PD中脑细胞损失的机制可能涉及与受损细胞中的遍在蛋白结合的蛋白质α-突触核蛋白的异常积聚。α-突触核蛋白-遍在蛋白复合物不能被导向蛋白酶体。这种蛋白质积聚形成称为路易体的蛋白质胞质内含物。在一些实施方案中,实验组群样品是来自被诊断为患有PD的患者的生物流体样品。比较组群样品可以是被鉴定为未患PD的患者,并且可以任选地包括患有其它(非PD)神经退行性或炎性疾病的患者。
在一些实施方案中,在亨廷顿病(HD)样品的组群中鉴定sRNA预测因子。HD引起星形胶质细胞增生和中型多刺神经元的损失。脑部区域根据其结构和它们所含神经元的类型而受到影响,随着它们累积性地损失细胞而减小尺寸。受影响的区域主要在纹状体中,但也在额叶和颞叶皮质中。突变亨廷顿蛋白(Huntington)是一种聚集倾向蛋白。在一些实施方案中,实验组群样品是来自被诊断为患有HD的患者的生物流体样品。比较组群样品可以是被鉴定为未患HD的患者,并且可以任选地包括患有其它(非HD)神经退行性或炎性疾病的患者。
在一些实施方案中,在肌萎缩性侧索硬化(ALS)样品的组群中鉴定sRNA预测因子。ALS是其中运动神经元被选择性地靶向变性的疾病。一些患有家族性ALS的患者在编码抗氧化酶Cu/Zn超氧化物歧化酶1(SOD1)的基因中具有错义突变。在该疾病的一些病例中已经牵涉到TDP-43和FUS蛋白聚集体,并且认为9号染色体(C9orf72)的突变是散发性ALS最常见的已知原因。在一些实施方案中,实验组群样品是来自被诊断为患有ALS的患者的生物流体样品。比较组群样品可以是被鉴定为未患ALS的患者,并且可以任选地包括患有其它(非ALS)神经退行性疾病的患者。
在一些实施方案中,在来自偏头痛受试者的样品(诸如来自偏头痛受试者的生物流体样品)的组群中鉴定sRNA预测因子。在一些实施方案中,偏头痛是发作性偏头痛、慢性偏头痛或丛集性头痛。这些实施方案中的sRNA预测因子可用于评价受试者的病状,或者可替代地或另外,可用于选择适当的治疗。比较组群样品可以是被鉴定为未患偏头痛的受试者,并且可以任选地包括患有其他非偏头痛病状或来自实验组群的不同形式的偏头痛的患者。
心血管疾病(CVD)是一类涉及心脏或血管的疾病。心血管疾病包括冠状动脉病(CAD),诸如心绞痛和心肌梗塞。其它CVD是中风、心力衰竭、高血压性心脏病、风湿性心脏病、心肌病、心律失常、先天性心脏病、瓣膜性心脏病、心炎、主动脉瘤、外周动脉疾病和静脉血栓形成。
冠状动脉疾病、中风和外周动脉疾病的潜在机制涉及动脉粥样硬化,其可能是由高血压、吸烟、糖尿病、缺乏运动、肥胖、高血胆固醇、不良饮食和过量饮酒等引起的。据估计,90%的CVD可以通过以下方式改善风险因素得以预防:例如,健康饮食、运动、避免烟草烟雾、限制酒精摄入以及治疗高血压。在一些实施方案中,实验组群包括来自患有冠状动脉疾病、外周动脉疾病、脑血管疾病、心肌病、高血压性心脏病、心力衰竭(例如,充血性心力衰竭)、肺心病、心律失常、炎性心脏病、心内膜炎、心肌炎、炎性心肥大、瓣膜性心脏病、先天性心脏病或风湿性心脏病的患者的样品。比较组群可以包括来自未患CVD或来自实验组群的不同CVD的患者的样品。
在一些实施方案中,鉴定sRNA预测因子以针对与CVD相关的急性事件(诸如心肌梗塞或中风)的风险来对患者进行分层。现有的心血管疾病或先前的心血管事件诸如心脏病发作或中风是未来心血管事件的最强预测因子。年龄、性别、吸烟、血压、血脂和糖尿病是不知道患有心血管疾病的人未来心血管疾病的重要预测因子。这些量度,有时还有其它量度,可以合并为综合风险评分,以估计个人未来的心血管疾病风险。存在许多风险评分,但它们各自的优点存在争议。其它诊断试验和生物标志物仍在评估中,但目前这些缺乏明确的证据来支持其常规使用(例如,家族史、冠状动脉钙化评分、高敏C反应蛋白(hs-CRP)、踝臂指数、脂蛋白亚类和颗粒浓度、脂蛋白(a)、载脂蛋白A-I和B、纤维蛋白原、白细胞计数、同型半胱氨酸、N-末端B型利钠肽原(NT-proBNP)和肾功能标志物)。在一些实施方案中,实验组群包括处于心肌梗塞或中风的高风险中(例如,风险评分的前25%或前20%或前10%)的患者,比较组群包括对于心肌梗塞或中风而言具有相对低的风险评分(例如,最低四分位数或更小)的患者。
在一些实施方案中,sRNA预测因子鉴定或评价免疫学或炎性疾病。例如,在一些实施方案中,所述病状是自身免疫性或炎性病症诸如狼疮(SLE)、硬皮病、脉管炎、糖尿病(例如,1型或2型)、格雷夫斯病(Graves’disease)、类风湿性关节炎、多发性硬化、纤维肌痛、银屑病、克罗恩病(Crohn’s Disease)、乳糜泻、COPD或纤维化病状(诸如肺纤维化(例如,IPF))。在一些实施方案中,所述病状是炎性病状,其可表现为I型超敏反应、II型超敏反应、III型超敏反应和/或IV型超敏反应。炎性病状可能是慢性的。在一些实施方案中,实验组群样品是来自被诊断为患有特定炎性疾病的患者的生物流体样品。比较组群样品可以是被鉴定为未患特定炎性疾病的患者,并且可以任选地包括患有其它炎性疾病的患者。在一些实施方案中,比较组群包括对特定治疗方案具有阳性或阴性(或甚至毒性)响应的患者。
在一些实施方案中,sRNA预测因子预测癌症的存在,或侵袭性癌症的存在,或预测缓解或复发、转移、无进展间期、总生存期或对治疗(例如,放射疗法、化学疗法,或用选自抗-CTLA4、PD-1、PD-L1、IDO或CAR T-细胞疗法的检查点抑制剂进行的治疗)的响应。在一些实施方案中,sRNA预测因子预测用特定药剂治疗后的高毒性。在一些实施方案中,sRNA预测因子预测特定癌症对特定治疗的完全响应。所述癌症可以是癌、肉瘤、淋巴瘤、生殖细胞瘤或胚细胞瘤。所述癌症可以发生在包括但不限于肺、皮肤、乳房、卵巢、肠、胰腺、骨和脑部等部位。在一些实施方案中,所述癌症是I期或II期癌症。在其它实施方案中,所述癌症是III期或IV期。
说明性癌症包括但不限于基底细胞癌、胆道癌;膀胱癌;骨癌;脑和中枢神经系统癌症;乳腺癌;腹膜癌;宫颈癌;绒毛膜癌;结直肠癌;结缔组织癌;消化系统癌症;子宫内膜癌;食道癌;眼癌;头颈癌;胃癌(包括胃肠癌);胶质母细胞瘤;肝癌;肝细胞瘤;上皮内瘤;肾癌或肾脏癌;喉癌;白血病;肝癌;肺癌(例如,小细胞肺癌、非小细胞肺癌、肺腺癌和肺鳞癌);黑素瘤;骨髓瘤;神经母细胞瘤;口腔癌(唇、舌、口和咽);卵巢癌;胰腺癌;前列腺癌;视网膜母细胞瘤;横纹肌肉瘤;直肠癌;呼吸系统癌症;唾液腺癌;肉瘤;皮肤癌;鳞状细胞癌;胃癌;睾丸癌;甲状腺癌;子宫或子宫内膜癌;泌尿系统癌症;外阴癌;淋巴瘤,包括霍奇金淋巴瘤(Hodgkin's lymphoma)和非霍奇金淋巴瘤(non-Hodgkin's lymphoma),以及B细胞淋巴瘤(包括低级/滤泡性非霍奇金淋巴瘤(NHL);小淋巴细胞性(SL)NHL;中级/滤泡性NHL;中级弥漫性NHL;高级免疫母细胞NHL;高级淋巴细胞性NHL;高级小无裂细胞型NHL;肿块性疾病NHL;套细胞淋巴瘤;AIDS相关淋巴瘤;和华氏巨球蛋白血症(Waldenstrom'sMacroglobulinemia);慢性淋巴细胞性白血病(CLL);急性淋巴细胞性白血病(ALL);毛细胞白血病;慢性成髓细胞性白血病;以及其它癌和肉瘤;和移植后淋巴组织增生性疾病(PTLD),以及与斑痣性错构瘤病(phakomatoses)相关的异常血管增生、水肿(例如与脑肿瘤相关的水肿)和梅格斯氏综合征(Meigs'syndrome)。在一些实施方案中,实验组群样品是来自被诊断为患有特殊定义的癌症的患者的生物流体样品。比较组群样品可以是被鉴定为未患癌症的患者,并且可以任选地包括患有其它非癌性疾病或病状的患者。
sRNA预测因子可以通过软件程序鉴定,该软件程序量化实验组群和比较组群的每个样品中每个独特sRNA序列的读段的数量。在各个实施方案中,软件程序从单个序列中修剪掉衔接子序列,以便鉴定单个sRNA,包括miR和iso-miR以及其它sRNA。以这种方式,鉴定出在3'-末端和5'-末端具有模板化和非模板化变异的iso-miR。
“iso-miR”是指那些相对于参考miRNA序列(例如,如miRBase所使用的)具有变异的序列。在miRBase中,每个miRNA与miRNA前体和与一个或两个成熟miRNA(-5p和-3p)相关。深度测序已经检测到miRNA生物发生的大量可变性,这意味着可以由相同的miRNA前体产生许多不同的序列。iso-miR有四种主要变异:(1)5'修剪,其中5'裂解位点位于参考miRNA序列的上游或下游;(2)3'修剪,其中3'裂解位点位于参考miRNA序列的上游或下游;(3)3'核苷酸添加,其中将核苷酸添加到参考miRNA的3'末端;及(4)核苷酸取代,其中核苷酸从miRNA前体改变。
在一些实施方案中,软件程序从sRNA序列读段中修剪掉用户定义的3’测序衔接子。衔接子由用户根据测序平台定义。通过去除衔接子序列,可以在样品中鉴定和量化iso-miR和其它sRNA。例如,在一些实施例中,软件程序搜索对应于用户定义的3’衔接子的正则表达式,并将它们从sRNA序列读段中删除,所述3’衔接子的正则表达式如下:
a.衔接子序列
b.容许1个通配符(wild-card)的衔接子序列
c.容许1个插入的衔接子序列
d.容许1个缺失的衔接子序列
e.容许2个缺失的衔接子序列
f.容许1个缺失和1个通配符的衔接子序列
g.容许1个插入和1个通配符的衔接子序列
h.容许2个通配符的衔接子序列
i.容许3个通配符的衔接子序列
j.容许4个通配符的衔接子序列。
将通配符定义为4种脱氧核糖核酸中的任何一种:(A)腺嘌呤、(T)胸腺嘧啶、(G)鸟嘌呤或(C)胞嘧啶。然而,用户指定的3’衔接子序列的5’末端处的第一个核苷酸未改变(例如,不认为是插入或缺失或另外经受通配符变化),从而在sRNA的3’末端核苷酸与3’衔接子的5’末端核苷酸连接的接点处保留了sRNA序列。如果用户指定的3’衔接子的5’末端核苷酸与用户指定的不一致,则不修剪3’衔接子序列,但是如果需要可以单独验证。
在一些实施方案中,考虑将长度为至少15个核苷酸或至少20个核苷酸(修剪后)的sRNA用于分析。
修剪后,可以将来自实验组群和比较组群的序列读段各自编译成字典,并进行比较,以鉴定存在于实验组群的样品中但不存在于比较组群中的序列(例如阳性预测因子),和/或鉴定存在于比较组群中但不存在于实验组群中的序列(例如阴性预测因子)。丢弃存在于两个组群中的序列读段,并将对实验组群或比较组群而言独特的序列读段添加到输出文件中,独特读段是候选sRNA预测因子。输出文件注释了所述独特序列以及组群中每个样品或样品组的独特读段的计数。在各个实施方案中,未通过质量评分来过滤序列读段。进一步地,未将sRNA序列与参考序列进行比对,因此,可以在样品间单独量化每个序列。
在一些实施方案中,选择sRNA预测因子,其在对于所述预测因子而言为阳性的样品中(例如,对于阳性预测因子而言是在实验组群中或对于阴性预测因子而言是在比较组群中)具有至少为5、至少为10、至少为20、至少为50、至少为75、至少为100、至少为200、至少为500或至少为1000读段的计数(或平均计数)。在一些实施方案中,一个或多个(或所有)阳性sRNA预测因子存在于至少约5%或至少约10%的实验组群样品中,或至少约15%的实验组群样品中,或至少约20%的实验组群样品中,或至少约30%的实验组群样品中,或至少约40%或至少约50%的实验组群样品中。在一些实施方案中,在实验组群中鉴定出至少1个、或至少约5个、或至少约10个、或至少约20个、或至少约30个、或至少约40个、或至少约50个、或至少约100个阳性sRNA预测因子,并且可以选择其中的多个(例如,1至100个或1至50个、或1至10个)以包括在sRNA预测因子小组中。在一些实施方案中,选择4至100个、或10至100个、或20至100个阳性sRNA预测因子以包括在所述小组中。
在一些实施方案中,阴性sRNA预测因子存在于至少约5%的比较组群样品中,或至少约10%的比较组群样品中,或至少约15%的比较组群样品中,或至少约20%的比较组群样品中,或至少约30%的比较组群样品中,或至少约40%或至少约50%的比较组群样品中。在一些实施方案中,在比较组群中鉴定出至少1个、或至少约5个、或至少约10个、或至少约20个、或至少约30个、或至少约40个、或至少约50个、或至少约100个阴性sRNA预测因子,并且可以选择其中的多个(例如,1至100个、或1至50个、或1至10个)以包括在sRNA预测因子小组中。在一些实施方案中,选择4至100个、或10至100个、或20至100个阴性sRNA预测因子以包括在所述小组中。
选择一小组的sRNA预测因子用于验证或检测独立样品中的病状。例如,可以选择2至约100个sRNA预测因子的小组,其中任何一个阳性预测因子的存在和所有阴性预测因子的不存在预测定义实验组群的病状。在一些实施方案中,任何2、3、4、5、6、7、8、9或10个阳性sRNA预测因子的存在预测所述病状,任选地阴性预测因子的不存在预测所述病状。在一些实施方案中,选择2至约40个sRNA预测因子的小组,或选择2至约30个、或2至约20个、或2至约10个sRNA预测因子以包括在所述小组中。在一些实施方案中,选择4至约100个、或4至约50个、或4至约20个、或4至约15个、或4至约10个sRNA预测因子以包括在所述小组中。在这些实施方案中,所述小组可任选地包含至少5个、或至少10个、或至少20个sRNA预测因子。虽然并非每个实验样品对于每个阳性预测因子而言都将是阳性的,但是该小组足够大以提供对实验组群或独立样品中的病状至少约75%、至少约80%、至少约85%、至少约90%、至少约95%或至少约100%的覆盖。即,样品中存在1至10个阳性sRNA预测因子(例如,任何一个或两者)可预测定义实验组群的病状。样品还可对于阴性预测因子小组(例如,1至10个或1至5个阴性预测因子)而言为阴性。验证样品可以通过sRNA测序评价,或者可替代地通过RT-PCR或其它测定来评价。
在各个实施方案中,将sRNA预测因子的检测迁移至各种检测平台之一(例如,除RNA测序以外),所述检测平台可以利用逆转录、扩增和/或探针的杂交,包括定量或定性PCR,或实时PCR。PCR检测形式在一些实施方案中可以采用用于RT-PCR的茎-环RT引物,并且任选地连同荧光标记探针一起采用。
通常,实时聚合酶链反应(qPCR)在PCR期间(即实时)监测靶DNA分子的扩增。实时PCR可以定量和半定量地使用。在实时PCR中检测PCR产物的两种常用方法是:(1)嵌入任何双链DNA的非特异性荧光染料(例如,SYBR Green(I或II)),和(2)由荧光报告因子标记的寡核苷酸组成的序列特异性DNA探针,所述荧光报告因子只有在探针与其互补序列(例如TAQMAN)杂交后才能检测到。
在一些实施方案中,测定形式是TAQMAN实时PCR。TAQMAN探针是为提高定量PCR的特异性而设计的水解探针。TAQMAN探针原理依赖于Taq聚合酶的5'至3'核酸外切酶活性,以在与互补靶序列杂交期间裂解双重标记探针,基于荧光团进行检测。TAQMAN探针用荧光团和猝灭剂双重标记,并且当荧光团通过Taq外切核酸酶活性从寡核苷酸探针裂解时,检测到荧光团信号(例如,信号不再被标记的接近性猝灭)。如在其它定量PCR方法中一样,所得荧光信号容许定量测量PCR指数期的产物积聚。TAQMAN探针形式提供了检测的高灵敏度和高特异性。
在一些实施方案中,使用特异性引物(例如,茎-环引物)将样品中存在的sRNA预测因子转化为cDNA。然后可以例如,通过检测来自荧光报告分子的信号实时量化cDNA的扩增,其中信号强度与每个扩增循环的DNA水平相关联。
可替代地,通过杂交检测小组中的sRNA预测因子或其扩增子。示例性平台包括表面等离子体共振(SPR)和微阵列技术。在一些实施方案中,检测平台可以使用微流体,以便于样品处理和sRNA检测。
通常,可以采用任何确定样品中sRNA的存在的方法。此类方法还包括基于核酸序列的扩增(NASBA)、基于瓣状内切核酸酶的测定、以及用分支DNA进行的直接RNA捕获(QuantiGeneTM)、Hybrid CaptureTM(Digene)或nCounterTMmiRNA检测(nanostring)。除了确定miRNA和其它sRNA的存在之外,所述测定形式还可以提供尤其是对固有信号强度变化的控制。此类控制可包括,例如对背景信号强度和/或样品处理的控制,和/或杂交效率的控制,以及用于检测患者样品中的sRNA的其它期望控制(例如,统称为“标准化控制”)。
在一些实施方案中,所述测定形式是基于瓣状内切核酸酶的形式,诸如InvaderTM测定(Third Wave Technologies)。在使用侵入者方法的情况下,制备含有对靶位点3′的区域有特异性的序列的侵入者探针,和含有对模板的靶位点5′的区域有特异性的序列和无关瓣状序列的一级探针。然后使裂解酶在这些探针、靶分子以及含有与瓣状序列互补的序列和用荧光染料和猝灭剂标记的自身互补序列的FRET探针的存在下起作用。当一级探针与模板杂交时,侵入者探针的3'末端穿透靶位点,该结构被裂解酶裂解,导致瓣解离。瓣与FRET探针结合并且荧光染料部分被裂解酶裂解,导致荧光发射。
在一些实施方案中,在sRNA处理之前从样品中提取RNA用于检测。RNA可以使用多种标准方法纯化,所述标准方法例如在RNA Methodologies,A laboratory guide for isolation and characterization,第2版,1998,Robert E.Farrell,Jr.编辑,AcademicPress中所述。另外,还存在各种商业上可用于分离小分子量RNA的方法以及产品,包括mirVANATMParis miRNA分离试剂盒(Ambion)、miRNeasyTM试剂盒(Qiagen)、MagMAXTM试剂盒(Life Technologies)和Pure LinkTM试剂盒(Life Technologies)。例如,可以通过有机萃取,然后在玻璃纤维滤器上纯化来分离小分子量RNA。用于分离miRNA的替代方法包括与磁珠杂交。可替代地,用于检测(例如,cDNA合成)的miRNA处理可以在生物流体样品中进行,即,无需RNA提取步骤。
通常,可以构建测定,使得每种测定对带注释的序列上的sRNA(例如,iso-miR)和/或其它非预测性iso-miR具有至少80%、或至少85%、或至少90%、或至少95%、或至少98%的特异性。可以参考miRBase确定带注释的序列。例如,在准备sRNA预测因子特异性实时PCR测定时,可以制备PCR引物和荧光探针并测试其特异性水平。可以在探针中采用双环核苷酸(例如,LNA、cET和MOE)或其它核苷酸修饰(包括碱基修饰)以增加检测的灵敏度或特异性。
在一些实施方案中,本发明提供了一种试剂盒,其包含2至约100个sRNA预测因子测定,或约2至约75个sRNA预测因子测定,或2至约40个sRNA预测因子测定,或2至约30个、或2至约20个、或2至约10个sRNA预测因子测定的小组。在这些实施方案中,试剂盒可包含至少5个、至少10个、至少20个sRNA预测因子测定(例如,用于此类测定的试剂)。例如,试剂盒可包含至少一个阳性预测因子和至少一个阴性预测因子。在各个实施方案中,试剂盒包含至少5个阳性预测因子和至少2个阴性预测因子。在一些实施方案中,试剂盒包含4至约20个、或4至约15个、或4至约10个sRNA预测因子测定的小组。此类测定可包括逆转录(RT)引物、扩增引物和探针(诸如荧光探针或双重标记探针),其对带注释的序列上的sRNA预测因子以及其它(非预测性)5’-和/或3’-模板化和/或非模板化变异具有特异性。在一些实施方案中,试剂盒是含有用于通过杂交来检测sRNA预测因子的探针的阵列或其它基质形式。
在其它方面,本发明提供了确定细胞或生物(包括关于动物、植物和微生物)的病状的方法。在一些实施方案中,本发明提供了评价受试者或患者的病状的方法。在一些实施方案中,该方法包括获得生物样品(例如来自受试者或患者的生物流体样品),并鉴定一个或多个sRNA预测因子(根据上述方法鉴定)的存在或不存在,从而确定细胞或生物的病状(例如,患者的病状)。例如,所鉴定的病状是相对于比较组群,定义实验组群的病状。在一些实施方案中,在受试者或患者样品中通过涉及扩增和/或探针杂交的检测技术诸如RT-PCR或TAQMAN测定或其它检测形式来鉴定sRNA预测因子。
在各个实施方案中,样品是来自患者的生物流体样品,并且选自血液、血清、血浆、尿液、唾液或脑脊髓液。例如,样品可以是血液样品或源自其中的样品。在一些实施方案中,测试至少两种生物样品,其可以选自血液、血清、血浆、尿液、唾液和脑脊髓液。
在各个实施方案中,患者被怀疑患有神经退行性疾病、心血管疾病、炎性和/或免疫性疾病或癌症。例如,患者可能正表现出上述疾病的一种或多种症状。
在一些实施方案中,患者被怀疑患有选自肌萎缩性侧索硬化(ALS)、帕金森氏病(PD)、阿尔茨海默氏病(AD)、亨廷顿病(HD)或多发性硬化(MS)的神经退行性疾病。在一些实施方案中,患者具有痴呆或运动障碍的体征,或CNS病变。
在一些实施方案中,患者患有或被怀疑患有心血管疾病(CVD)或处于心血管疾病(CVD)的风险中,所述心血管疾病(CVD)任选地选自冠状动脉疾病(CAD)(诸如心绞痛和心肌梗塞)、中风、充血性心力衰竭、高血压性心脏病、风湿性心脏病、心肌病、心律失常、先天性心脏病、瓣膜性心脏病、心炎、主动脉瘤、外周动脉疾病和静脉血栓形成。在一些实施方案中,患者具有心脏病发作或中风的高风险评分。
在一些实施方案中,患者显示出免疫性或炎性病症诸如狼疮(SLE)、硬皮病、脉管炎、糖尿病(例如,1型或2型)、格雷夫斯病、类风湿性关节炎、多发性硬化、纤维肌痛、银屑病、克罗恩病、乳糜泻、COPD或纤维化病状(例如,IPF)的症状。在一些实施方案中,所述病状是炎性病状,其可表现为I型超敏反应、II型超敏反应、III型超敏反应和/或IV型超敏反应。
在一些实施方案中,患者患有癌症,被怀疑患有癌症,或正在筛查癌症。癌症可能是肠癌、肺癌、皮肤癌、卵巢癌、乳腺癌等。在一些实施方案中,癌症是I期或II期癌症。在其它实施方案中,癌症是III期或IV期。在一些实施方案中,患者是用检查点抑制剂或CAR-T疗法、化学疗法、新辅助疗法或放射疗法治疗的候选者。
说明性癌症包括但不限于基底细胞癌、胆道癌;膀胱癌;骨癌;脑和中枢神经系统癌症;乳腺癌;腹膜癌;宫颈癌;绒毛膜癌;结直肠癌;结缔组织癌;消化系统癌症;子宫内膜癌;食道癌;眼癌;头颈癌;胃癌(包括胃肠癌);胶质母细胞瘤;肝癌;肝细胞瘤;上皮内瘤;肾癌或肾脏癌;喉癌;白血病;肝癌;肺癌(例如,小细胞肺癌、非小细胞肺癌、肺腺癌和肺鳞癌);黑素瘤;骨髓瘤;神经母细胞瘤;口腔癌(唇、舌、口和咽);卵巢癌;胰腺癌;前列腺癌;视网膜母细胞瘤;横纹肌肉瘤;直肠癌;呼吸系统癌症;唾液腺癌;肉瘤;皮肤癌;鳞状细胞癌;胃癌;睾丸癌;甲状腺癌;子宫或子宫内膜癌;泌尿系统癌症;外阴癌;淋巴瘤,包括霍奇金淋巴瘤和非霍奇金淋巴瘤,以及B细胞淋巴瘤(包括低级/滤泡性非霍奇金淋巴瘤(NHL);小淋巴细胞性(SL)NHL;中级/滤泡性NHL;中级弥漫性NHL;高级免疫母细胞NHL;高级淋巴细胞性NHL;高级小无裂细胞型NHL;肿块性疾病NHL;套细胞淋巴瘤;AIDS相关淋巴瘤;和华氏巨球蛋白血症;慢性淋巴细胞性白血病(CLL);急性淋巴细胞性白血病(ALL);毛细胞白血病;慢性成髓细胞性白血病;以及其它癌和肉瘤;和移植后淋巴组织增生性疾病(PTLD),以及与斑痣性错构瘤病相关的异常血管增生、水肿(例如与脑肿瘤相关的水肿)和梅格斯氏综合征。
在一些实施方案中,测试样品中至少约2个、或至少约5个、或至少约10个、或至少约20个、或至少约30个、或至少约40个、或至少约50个sRNA预测因子(例如,4至50个sRNA预测因子)的存在或不存在,其中1至约10个阳性预测因子(或1至5个sRNA阳性预测因子)的存在表明有所述病状。任选地,1至10个阴性预测因子不存在进一步表明有所述病状。在一些实施方案中,对小组中阳性预测因子的存在和小组中阴性预测因子的不存在进行评分以确定患者患有目标病状的概率。
然后可以进一步诊断对目标病状测试为阳性的患者和/或相应地针对定义病状进行治疗。
在本发明的其它方面,可以采用阳性和/或阴性预测因子通过具有可检测或生物学影响的基因的靶向表达,对体内或离体的混合细胞群进行分类。例如,所需蛋白可以从基因构建体(使用载体诸如质粒或病毒载体)表达,或者从递送至体内或离体细胞的mRNA表达。在这些实施方案中,基因在对所述一个或多个小RNA预测因子的靶位点的调节控制下递送。靶位点(用于与预测因子杂交的靶位点)可以置于非编码区段,诸如3’和/或5’UTR中,使得编码的蛋白仅在所需预测因子不存在于所述细胞时以生物学显著量表达。由构建体编码的蛋白可以是报告蛋白、转录激活因子、转录抑制因子、促凋亡蛋白、促存活蛋白、裂解蛋白、酶、细胞因子、毒素或细胞表面受体。
例如,编码的蛋白可以是荧光蛋白质或能够进行可检测反应的酶(例如β-半乳糖苷酶、碱性磷酸酶、荧光素酶或辣根过氧化物酶)。在这些实施方案中,表达阳性或阴性预测因子的所有细胞将与其它细胞区分开,允许离体或在体内准确鉴定细胞亚群。在一些实施方案中,遗传构建体使得能够鉴定用于例如通过荧光细胞分选而分离的特定细胞群,诸如所需免疫细胞类型或具有所需干细胞表型的细胞。在体内,此类可检测的构建体还可用于例如通过帮助精确手术切除癌症或靶向放射疗法或化学疗法来治疗癌症。
在一些实施方案中,编码的蛋白可以调节细胞的细胞途径或活性。例如,细胞活性的改变可以引起或改变凋亡性细胞死亡、复制(例如,DNA或细胞复制)、细胞分化或细胞迁移。例如,细胞凋亡可以是死亡受体(例如,FasR或TNFR)、死亡受体配体(例如,FasL或TNF)、半胱天冬酶(例如,半胱天冬酶3或半胱天冬酶9)、细胞色素-c、含BH3的促凋亡蛋白(例如,BAX、BAD、BID或BIM)、凋亡诱导因子(AIF)或蛋白质毒素表达的结果。可替代地,生长停滞可以是蛋白质诸如p21、p19ARF、p53或RB蛋白或肿瘤抑制蛋白表达的结果。在一些实施方案中,编码的蛋白是生长因子或细胞因子,为炎性或抗炎细胞因子。
在一些实施方案中,将遗传构建体(无论是DNA还是RNA)施用给患有癌症、免疫性病症(诸如自身免疫性疾病)、神经退行性病症、心血管病症、代谢病症或感染(细菌、病毒或寄生虫感染)的受试者。遗传构建体的施用基于内部分子线索(存在或不存在一个或多个预测因子)精确地靶向单个细胞。
在一些实施方案中,构建体含有对阴性sRNA预测因子有特异性的靶位点,以避免编码的蛋白在非患病细胞中表达(其中将存在阴性预测因子)。在一些实施方案中,编码的蛋白在不表达阴性预测因子的细胞中诱导细胞死亡或凋亡。在一些实施方案中,所述蛋白质是诱导凋亡或细胞死亡的毒素或蛋白质。
在其它实施方案中,构建体含有对阳性sRNA预测因子有特异性的靶位点,以避免编码的蛋白在患病细胞中的表达。例如,编码的蛋白可以保护细胞免受损伤(例如,促存活蛋白),诸如化学疗法、放射或免疫肿瘤学形式的损伤。在这些实施方案中,编码的蛋白可以处于仅存在于患病细胞中的小RNA预测因子(阳性预测因子)的靶位点的调节控制下。在这些实施方案中,构建体将被表达并限制非病变细胞中的损伤和毒性。
从以下实施例中,本发明的其它方面和实施方案将显而易见。
实施例
用于诊断用途的miRNA序列分析的常规方法涉及通常参考带注释的序列,鉴定上调或下调的miRNA。对于数据处理和分析,目标是使用靶向测定(诸如基于TAQMAN的qPCR)在较大组群中鉴定失调的miRNA(上调或下调)以进行验证。
例如,从样品中提取/分离小RNA部分,将3’和5’衔接子连接到sRNA上,并对sRNA进行逆转录、扩增和测序。在处理期间,修剪衔接子序列(通常使用Smith-Waterman算法或其近似衍生算法),并将读段与参考序列进行比对。有时通过预测程序分析残留序列以鉴定新的miRNA。对每个参考miRNA量化读段数量。参见图1A,说明了常规方法。目前的数据分析方法分析样品之间的倍数变化(图1B)。通常,增量为约1.8倍至5倍,这对于有意义的诊断试验是不够的。
此外,术语miRNA用词不当。对于任何给定的miRNA,存在多个在5’和/或3’末端具有模板化和/或非模板化核苷酸的iso-miR(参见图2和图3)。用于分析miRNA序列数据的常规方法‘掩蔽’iso-miR数据,因为将修剪的序列读段与miRNA序列的参考列表进行反向比对(例如,来自正在进行研究的任何物种的所有克隆miRNA的综合列表),通常来源于miRBase,一种miRNA序列库(depository))。此外,用于下游验证的TAQMAN分析对于它们经设计用于检测的序列具有高度特异性,并且它们是针对来自miRBase的相同miRNA参考列表设计的。因此,这些TAQMAN测定仅检测带注释的miRNA,而不是带注释的miRNA的密切相关的序列变体(包括iso-miR)。参见,Chen C等,Real-time quantification ofmicroRNAs by stem- loop RT-PCR,Nucleic Acids Res.2005,33(20)e179。另外,参见图5,其显示了TAQMAN测定针对密切相关的变体的特异性。
在本文所述方法的实施方案中,通过鉴定和去除3’衔接子序列来修剪原始测序数据。待修剪的3’衔接子序列是用户指定的,因此可以使用从任何RNA序列平台生成的RNA测序数据。例如,该软件可以采用“模式匹配”来鉴定正则表达式(即用户指定的3’衔接子),并且如果需要,鉴定用户指定的3’衔接子的限定级别的变异,然后将其删除。在这种方法中,没有如Smith-Waterman算法所示的“模糊修剪”,因为这里仅修剪正则表达式,并且如果需要,修剪用户指定的正则表达式的变异级别。进一步区别于Smith-Waterman算法,最5’的核苷酸(即定义小RNA和3’衔接子之间的接点的核苷酸)必须存在于读段中,以便正则表达式被软件程序识别和修剪。该软件的实施方案最多容纳:5个通配符、1个插入、2个缺失、1个插入+1个通配符和1个缺失+1个通配符。该程序可以修剪近100%的序列数据,而大多数程序只能修剪80%到85%。未将修剪的序列数据与参考进行比对,从而保留了单独的iso-miR数据,以及将以其它方式被消除的许多其它小RNA家族,诸如:参考中未列出的miRNA、Piwi相互作用RNA(piRNA)、小干扰RNA(siRNA)、穹窿体RNA(vtRNA)、小核仁RNA(snoRNA)、转运RNA来源的小RNA(tsRNA)、核糖体RNA来源的小RNA片段(rsRNA)、小rDNA来源的RNA(srRNA)和小核RNA(U-RNA)。
基于单个序列读段对数据进行分选,并将每个序列读段压缩为单行并进行量化。使用经过压缩/量化的数据,该过程使用一种程序来查找仅存在于目标组群中的‘独特’或‘双重’RNA序列。例如,为了鉴定阳性预测因子,将B组(即比较组群)的序列读段内容编译成字典,并将A组(即实验组群)中每个样品的序列读段内容与字典进行比较并执行以下等式:A组-B组。将组群A中发现的阳性预测因子(即独特/双重读段)输出到新文件中并进行量化。为了鉴定阴性预测因子,将A组(即实验组群)的序列读段内容编译成字典,并将B组(即比较组群)中每个样品的序列读段内容与字典进行比较并执行以下等式:B组-A组。将组群B中发现的阴性预测因子(即独特/双重读段)输出到新文件中并进行量化。在鉴定阳性预测因子和阴性预测因子时,丢弃B和A两者中均发现的序列。也就是说,根据本公开的实施方案,丢弃了传统方法使用的唯一数据。如果>1个样品中存在阳性和/或阴性预测因子,则可以将每个样品的数据编译在同一输出文件中,并计算所有样品的总读段计数。还计算了读段频率(出现特定双重序列的样品的%)。由于被鉴定的序列对于特定的群或组群是100%独特的,因此它们是‘完美的预测因子’。
一旦鉴定出双重预测因子,就可以针对任何目标序列设计基于茎-环-RT的TAQMANqPCR测定。基于茎-环-RT的TAQMAN qPCR测定具有超特异性并且提供单核苷酸分辨率(图5)。当测定不能提供100%特异性时,将化学修饰引入茎-环-RT引物和/或qPCR引物和/或TAQMAN探针可以增加碱基配对特异性和/或提高退火的解链温度(Tm)。基于茎-环-RT的TAQMAN qPCR测定可以检测样品中少至7个拷贝的小RNA。
实施例1:亨廷顿病
从GEO数据库获得来自GSE64977的小RNA测序数据。Hoss AG等,miR-10b-5p expression in Huntington's disease brain relates to age of onset and the extent of striatal involvement.BMC Med Genomics,2015年3月1日;8:10。
使用SRA Toolkit v2.8.0.1)将序列读段存档(.sra)文件转换为.fastq格式。使用以下列衔接子序列描述的方法修剪原始小RNA测序数据:TGGAATTCTCGGGTGCCAAGGAACTC(SEQ ID NO:1)。修剪后,所得生物标志物必须等于或大于20个核苷酸才考虑用于下游分析。
通过比较(28个)亨廷顿病样品与(36个)健康对照样品来鉴定阳性和阴性预测因子。生物标志物必须等于或大于20个核苷酸,并且必须以等于或大于群体的10%的频率出现才被加以考虑。
使用具有不完全连锁的Ward凝聚聚类使在亨廷顿病、健康对照以及亨廷顿病和健康对照两者中发现的前335种最高频率的小RNA聚类(图6)。
选择8个阳性小RNA预测因子(仅发现于亨廷顿病患者中)进行实验验证。设计基于逆转录(RT)发夹的TaqMan定量聚合酶链反应(qPCR)测定(ThermoFisher Scientific)以特异性靶向那些小RNA。
使用来自Qiagen的miRNeasy纯化试剂盒(目录号:217004)从32名健康对照和32名亨廷顿病患者的额皮质(BA9区)中提取总RNA,所述患者在死后验证了病理学和疾病等级。根据制造商的方案,使用TaqMan微RNA逆转录试剂盒(ThermoFisher Scientific,目录号:4366596)和合并的RT引物,从1000ng总RNA多重逆转录cDNA文库。将所得cDNA文库用10mMTris pH 8.0(Millipore,目录号:648314)以1:500稀释。
在5ul反应中使用靶向引物和探针以及Universal Master Mix II(ThermoFisherScientific,目录号:4440043)通过TaqMan qPCR,从一式三份2ul cDNA中分析小RNA预测因子,在配有384孔加热块的ABI 7900HT快速实时PCR系统中热循环50次。
将以下验收标准逐步应用于原始循环阈值(Ct):
(1)将超过39.999999的Ct值从分析中排除,
(2)样品必须至少有2个一式两份,才能考虑进行分析,
(3)方差系数(%CV)必须小于5%;允许掩蔽1个一式三份以满足%CV验收标准(无法掩蔽仅有2个一式两份的样品)。
揭示了临床信息(疾病与非疾病,以及疾病等级)并且将样品解码并为健康对照和亨廷顿病的Ct值绘图(图7)。使用Box-Whisker图分析八种生物标志物的Ct与疾病等级的相关性。通过方差分析(ANOVA)将称为亨廷顿病生物标志物-4(HDB-4)、HDB-5、HDB-7的三种生物标志物的Ct值与疾病等级相关联(图8)。
实施例2:帕金森氏病
从GEO数据库获得来自GSE72962和GSE64977的小RNA测序数据。Hoss AG等,microRNA Profiles in Parkinson's Disease Prefrontal Cortex,Front AgingNeurosci.2016年3月1日;8:36。
从dbGAP数据库获得来自phs000727.v1.p1的小RNA测序数据。使用SRA Toolkitv2.8.0将序列读段存档(.sra)文件转换为.fastq格式。使用以下列衔接子序列描述的方法修剪原始小RNA测序数据:TGGAATTCTCGGGTGCCAAGGAACTC(SEQ ID NO:1)。修剪后,所得生物标志物必须等于或大于20个核苷酸才考虑用于下游分析。
为鉴定额皮质(BA9区)中的阳性和阴性双重预测因子,将29个帕金森氏病样品与36个健康对照样品进行比较。生物标志物必须等于或大于20个核苷酸,并且必须以等于或大于群体的10%的频率出现才被加以考虑。
为鉴定脑脊髓液中的阳性和阴性双重预测因子,将66个帕金森氏病样品与68个健康对照进行比较。生物标志物必须等于或大于20个核苷酸,并且必须以等于或大于群体的10%的频率出现才被加以考虑。
为鉴定血清中的阳性和阴性双重预测因子,将60个帕金森氏病样品与70个健康对照进行比较。生物标志物必须等于或大于20个核苷酸,并且必须以等于或大于群体的10%的频率出现才被加以考虑。
使用具有不完全连锁的Ward凝聚聚类使在帕金森氏病、健康对照以及帕金森氏病和健康对照两者中发现的前335种最高频率的小RNA聚类(图9)。测定组织特异性生物标志物重叠;仅考虑频率高于10%的生物标志物用于分析(图10)。如图10所示,可以在多种组织和生物流体(包括血清)中发现sRNA预测因子,因此可以开发作为神经退行性疾病(诸如PD)的合宜标志物。
实施例3:阿尔茨海默氏病
从GEO数据库获得来自GSE46579的小RNA测序数据。Burgos K等,Profiles of extracellular miRNA in cerebrospinal fluid and serum from patients with Alzheimer's and Parkinson's diseases correlate with disease status and features of pathology,2014年5月5日;9(5):e94839;Leidinger P等,A blood based 12-miRNA signature of Alzheimer disease patientsPLoS One(2014);GenomeBiol.2013年6月29日;14(7):R78。
从dbGAP数据库获得来自phs000727.v1.p1的小RNA测序数据。使用SRA Toolkitv2.8.0将序列读段存档(.sra)文件转换为.fastq格式。使用以下列衔接子序列描述的方法修剪原始小RNA测序数据:TGGAATTCTCGGGTGCCAAGGAACTC(SEQ ID NO:1)。修剪后,所得生物标志物必须等于或大于20个核苷酸才考虑用于下游分析。
为鉴定脑脊髓液中的阳性和阴性双重预测因子,将67个阿尔茨海默氏病样品与68个健康对照进行比较。生物标志物必须等于或大于20个核苷酸,并且必须以等于或大于群体的10%的频率出现才被加以考虑。
为鉴定血清中的阳性和阴性双重预测因子,将62个阿尔茨海默氏病样品与70个健康对照进行比较。生物标志物必须等于或大于20个核苷酸,并且必须以等于或大于群体的10%的频率出现才被加以考虑。
为鉴定PAXgene(全血)中的阳性和阴性双重预测因子,将48个阿尔茨海默氏病样品与22个健康对照样品进行比较。生物标志物必须等于或大于20个核苷酸,并且必须以等于或大于群体的10%的频率出现才被加以考虑。
使用具有不完全连锁的Ward凝聚聚类使在阿尔茨海默氏病、健康对照以及阿尔茨海默氏病和健康对照两者中发现的前335种最高频率的小RNA聚类(图11)。测定组织特异性生物标志物重叠;仅考虑频率高于10%的生物标志物用于分析(图12)。如图12所示,可以在多种组织和生物流体中发现预测因子。
实施例4:乳腺癌
从GEO数据库获得来自GSE29173的小RNA测序数据。Farazi TA等,MicroRNA sequence and expression analysis in breast tumors by deep sequencing,CancerRes.2011年7月1日;71(13):4443-53。
使用SRA Toolkit v2.8.0将序列读段存档(.sra)文件转换为.fastq格式。使用以下列衔接子序列描述的方法修剪原始小RNA测序数据:TGGAATTCTCGGGTGCCAAGGAACTC(SEQID NO:1),接着对每个序列读段上的5-mer条形码进行后续修剪。修剪后,所得生物标志物必须等于或大于20个核苷酸才考虑用于下游分析。
为鉴定乳腺癌组织中的阳性和阴性双重预测因子,将229个乳腺癌组织样品与16个健康对照进行比较。生物标志物必须等于或大于20个核苷酸,并且必须以等于或大于群体的10%的频率出现才被加以考虑。使用具有不完全连锁的Ward凝聚聚类使在乳腺癌、健康对照以及乳腺癌和健康对照两者中发现的前335种最高频率的小RNA聚类(图13)。

Claims (53)

1.一种鉴定小RNA(sRNA)预测因子的方法,其包括:
鉴定存在于实验组群的一个或多个生物样品中而不存在于比较组群的样品中的一个或多个sRNA序列,从而鉴定出阳性sRNA预测因子。
2.根据权利要求1所述的方法,其还包括鉴定存在于比较组群的一个或多个样品中而不存在于实验组群的样品中的一个或多个sRNA序列,从而鉴定出阴性sRNA预测因子。
3.根据权利要求1或2所述的方法,其中使用所述实验组群和比较组群的RNA测序数据鉴定所述一个或多个sRNA序列。
4.根据权利要求1至3中任一项所述的方法,其还包括检测独立的实验和/或比较样品中的所述sRNA预测因子。
5.根据权利要求4所述的方法,其中在独立组群中使用定量或定性PCR测定来检测所述sRNA预测因子。
6.根据权利要求1至5中任一项所述的方法,其中所述生物样品是固体组织、生物流体或培养的细胞。
7.根据权利要求6所述的方法,其中所述生物样品是来自动物、植物或微生物的样品。
8.根据权利要求6所述的方法,其中所述生物样品是选自血液、血清、血浆、尿液、唾液或脑脊髓液的生物流体样品。
9.根据权利要求1至8中任一项所述的方法,其中所述实验组群和所述比较组群各自具有至少10个样品。
10.根据权利要求9所述的方法,其中所述实验组群和所述比较组群各自具有至少100个样品。
11.根据权利要求1至10中任一项所述的方法,其中所述实验组群包括来自被诊断为患有神经退行性疾病、心血管疾病、炎性或免疫性疾病或癌症的患者的样品。
12.根据权利要求11所述的方法,其中所述实验组群中的患者被诊断为患有选自阿尔茨海默氏病、帕金森氏病、肌萎缩性侧索硬化、亨廷顿病或多发性硬化的神经退行性疾病。
13.根据权利要求1至12中任一项所述的方法,其中通过量化所述实验组群的每个样品中每个独特sRNA序列的读段数量来鉴定所述阳性sRNA预测因子;并且通过量化所述比较组群的每个样品中每个独特sRNA序列的读段数量来鉴定所述阴性sRNA预测因子。
14.根据权利要求13所述的方法,其中从所述序列读段中修剪掉用户定义的3’测序衔接子。
15.根据权利要求14所述的方法,其中删除所述3’测序衔接子的以下正则表达式:
a.衔接子序列
b.容许1个通配符的衔接子序列
c.容许1个插入的衔接子序列
d.容许1个缺失的衔接子序列
e.容许2个缺失的衔接子序列
f.容许1个缺失和1个通配符的衔接子序列
g.容许1个插入和1个通配符的衔接子序列
h.容许2个通配符的衔接子序列
i.容许3个通配符的衔接子序列
j.容许4个通配符的衔接子序列
其中:将通配符定义为4种脱氧核糖核酸中的任何1种:(A)腺嘌呤、(T)胸腺嘧啶、(G)鸟嘌呤或(C)胞嘧啶;所述3’衔接子序列的5’末端处的第一个核苷酸没有插入、缺失或经受通配符变化,条件是如果所述3’衔接子的所述第一个核苷酸不存在,则不修剪所述序列。
16.根据权利要求13至15中任一项所述的方法,其中编译并比较来自所述实验组群和所述比较组群的所述序列读段;并且其中丢弃存在于两个组群中的序列读段,并且对所述实验组群或所述比较组群而言独特的序列读段是候选sRNA预测因子。
17.根据权利要求16所述的方法,其中输出文件注释了所述独特序列,并且注释了所述实验组群和比较组群中每个样品或样品组的所述独特读段的计数。
18.根据权利要求17所述的方法,其中未通过质量评分来过滤序列读段。
19.根据权利要求13至18中任一项所述的方法,其中未将sRNA序列与参考序列进行比对。
20.根据权利要求17至19中任一项所述的方法,其中选择sRNA预测因子,其在对于所述预测因子而言为阳性的大部分样品中具有至少为5的序列读段计数。
21.根据权利要求20所述的方法,其中选择所述sRNA预测因子,其在对于所述预测因子而言为阳性的大部分样品中具有至少为50的计数。
22.根据权利要求20或21所述的方法,其中选择存在于所述实验组群中至少7%的样品中的阳性sRNA预测因子。
23.根据权利要求20或21所述的方法,其中选择存在于所述实验组群中至少20%的样品中的阳性sRNA预测因子。
24.根据权利要求22或23所述的方法,其中选择2至50个sRNA预测因子以包括在sRNA预测因子小组中。
25.根据权利要求24所述的方法,其中选择4至20个sRNA预测因子以包括在sRNA预测因子小组中。
26.根据权利要求24或25所述的方法中,其中所述阳性sRNA预测因子中的1至5个在样品中存在,且任选地所述1至10个阴性预测因子全部在所述样品中不存在,指示由所述实验组群定义的所述病状。
27.根据权利要求24至26中任一项所述的方法,其中所述小组中的所述sRNA预测因子不是带注释的miRNA。
28.根据权利要求24至27中任一项所述的方法,其还包括准备定性或定量PCR测定以检测所述独立样品中所述小组中的所述sRNA预测因子。
29.一种试剂盒,其包含一套用于通过PCR特异性检测权利要求24至27中任一项中鉴定的所述sRNA预测因子小组的PCR引物和可检测探针。
30.根据权利要求29所述的试剂盒,其中所述探针包含荧光团。
31.根据权利要求30所述的试剂盒,其中所述探针包含猝灭剂。
32.根据权利要求29至31中任一项所述的试剂盒,其中所述试剂盒还包含用于所述sRNA预测因子的扩增的茎-环RT引物。
33.一种确定受试者的病状的方法,其包括:提供生物样品,并鉴定根据权利要求1至27中任一项所述的方法,或通过使用权利要求28至32中任一项所述的试剂盒鉴定的所述sRNA预测因子存在或不存在,从而确定所述受试者的所述病状。
34.根据权利要求33所述的方法,其中所述样品是生物流体样品。
35.根据权利要求34所述的方法,其中所述生物流体样品选自血液、血清、血浆、尿液、唾液或脑脊髓液。
36.根据权利要求33至35中任一项所述的方法,其中所述病状由所述实验组群定义。
37.根据权利要求33至36中任一项所述的方法,其中所述受试者对于所述病状而言为阳性,其中所述样品对于一个或多个阳性预测因子测试为阳性,而对于所有阴性预测因子为阴性。
38.根据权利要求33至37中任一项所述的方法,其中所述患者被怀疑患有神经退行性疾病、心血管疾病、炎性或免疫性疾病或癌症或表现出所述疾病的症状。
39.根据权利要求38所述的方法,其中所述患者显示出痴呆或运动障碍。
40.根据权利要求39所述的方法,其中所述患者被怀疑患有选自阿尔茨海默氏病、帕金森氏病、肌萎缩性侧索硬化、亨廷顿病和多发性硬化的神经退行性疾病或表现出所述神经退行性疾病的症状。
41.根据权利要求33至40中任一项所述的方法,其中在所述生物样品中通过定性或定量PCR测定来鉴定所述sRNA预测因子。
42.根据权利要求41所述的方法,其中所述PCR测定涉及荧光标记的探针。
43.一种将混合细胞群分类的方法,其包括将基因构建体引入所述细胞,所述基因构建体包含处于对阳性或阴性sRNA预测因子有特异性的靶位点的调节控制下的编码的蛋白。
44.根据权利要求43所述的方法,其中将所述基因构建体引入体内或离体细胞内。
45.根据权利要求43或44所述的方法,其中所述基因构建体是质粒或病毒载体。
46.根据权利要求43或44所述的方法,其中所述基因构建体是mRNA。
47.根据权利要求43至46中任一项所述的方法,其中将所述靶位点置于非编码区段内。
48.根据权利要求47所述的方法,其中所述非编码区段是3’和/或5’UTR。
49.根据权利要求48所述的方法,其中所述编码的蛋白仅在所述sRNA预测因子不存在于所述细胞时以生物显著量表达。
50.根据权利要求43至49中任一项所述的方法,其中所述编码的蛋白可检测或对所述细胞具有生物学影响。
51.根据权利要求50所述的方法,其中所述编码的蛋白是报告蛋白、转录激活因子、转录抑制因子、促凋亡蛋白、促存活蛋白、裂解蛋白、酶、细胞因子、生长因子、毒素或细胞表面受体。
52.根据权利要求43至51中任一项所述的方法,其中所述构建体含有对阴性sRNA预测因子有特异性的靶位点以避免所述编码的蛋白在非患病细胞中表达,其中所述编码的蛋白任选地在不表达所述阴性预测因子的细胞中诱导细胞死亡或凋亡。
53.根据权利要求43至51中任一项所述的方法,其中所述构建体含有对阳性sRNA预测因子有特异性的靶位点以避免所述编码的蛋白在患病细胞中表达,其中所述编码的蛋白任选地保护不表达所述阳性预测因子的细胞免于损伤。
CN201880018238.3A 2017-01-23 2018-01-23 鉴定和使用小rna预测因子的方法 Active CN110418850B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762449275P 2017-01-23 2017-01-23
US62/449,275 2017-01-23
PCT/US2018/014856 WO2018136936A1 (en) 2017-01-23 2018-01-23 Methods for identifying and using small rna predictors

Publications (2)

Publication Number Publication Date
CN110418850A true CN110418850A (zh) 2019-11-05
CN110418850B CN110418850B (zh) 2024-04-16

Family

ID=62909150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880018238.3A Active CN110418850B (zh) 2017-01-23 2018-01-23 鉴定和使用小rna预测因子的方法

Country Status (7)

Country Link
US (3) US10889862B2 (zh)
EP (1) EP3571315A4 (zh)
CN (1) CN110418850B (zh)
AU (1) AU2018210552B2 (zh)
CA (1) CA3062917A1 (zh)
IL (1) IL268209A (zh)
WO (1) WO2018136936A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023116490A1 (zh) * 2021-12-21 2023-06-29 中国科学院上海营养与健康研究所 小rna的新型检测方法及其应用

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019014375A1 (en) 2017-07-11 2019-01-17 Srnalytics, Inc. SMALL RNA PREDICTORS FOR HUNTINGTON'S DISEASE
WO2019147764A1 (en) * 2018-01-25 2019-08-01 Srnalytics, Inc. Small rna predictor guided therapeutics
US20210292840A1 (en) 2018-07-25 2021-09-23 Srnalytics, Inc. Small rna predictors for alzheimer's disease
WO2021150990A1 (en) * 2020-01-22 2021-07-29 Srnalytics, Inc. Small rna disease classifiers
CA3181389A1 (en) * 2020-04-29 2021-11-04 Freenome Holdings, Inc. Rna markers and methods for identifying colon cell proliferative disorders

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060263798A1 (en) * 2005-02-11 2006-11-23 International Business Machines Corporation System and method for identification of MicroRNA precursor sequences and corresponding mature MicroRNA sequences from genomic sequences
CN102102130A (zh) * 2009-12-18 2011-06-22 霍夫曼-拉罗奇有限公司 检测rna分子的方法、试剂盒及其相关用途
US20120088687A1 (en) * 2010-10-08 2012-04-12 Baylor Research Institute MicroRNAs (miRNA) as Biomarkers for the Identification of Familial and Non-Familial Colorectal Cancer
US20150315659A1 (en) * 2014-05-02 2015-11-05 Ruprecht-Karls-Universitat CIRCULATING miRNAs AS EARLY DETECTION MARKER AND PROGNOSTIC MARKER

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100167948A1 (en) * 2007-05-22 2010-07-01 The Brigham And Women's Hospital, Inc. MicroRNA Expression Profiling of Cerebrospinal Fluid
WO2011163214A2 (en) * 2010-06-21 2011-12-29 Diogenix, Inc. Microrna profiles for evaluating multiple sclerosis
WO2013036936A1 (en) * 2011-09-09 2013-03-14 Van Andel Research Institute Microrna biomarkers for diagnosing parkinson's disease
US11293064B2 (en) * 2013-05-02 2022-04-05 Thomas Jefferson University Human miRNAs for use in diagnosis, prognosis, and therapy of human conditions and diseases
US11473140B2 (en) * 2013-11-26 2022-10-18 Lc Sciences Lc Highly selective omega primer amplification of nucleic acid sequences
US11905563B2 (en) * 2016-10-21 2024-02-20 Thomas Jefferson University Leveraging the presence or absence of miRNA isoforms for recommending therapy in cancer patients
WO2019094780A2 (en) 2017-11-12 2019-05-16 The Regents Of The University Of California Non-coding rna for detection of cancer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060263798A1 (en) * 2005-02-11 2006-11-23 International Business Machines Corporation System and method for identification of MicroRNA precursor sequences and corresponding mature MicroRNA sequences from genomic sequences
CN102102130A (zh) * 2009-12-18 2011-06-22 霍夫曼-拉罗奇有限公司 检测rna分子的方法、试剂盒及其相关用途
US20120088687A1 (en) * 2010-10-08 2012-04-12 Baylor Research Institute MicroRNAs (miRNA) as Biomarkers for the Identification of Familial and Non-Familial Colorectal Cancer
US20150315659A1 (en) * 2014-05-02 2015-11-05 Ruprecht-Karls-Universitat CIRCULATING miRNAs AS EARLY DETECTION MARKER AND PROGNOSTIC MARKER

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
祁双等: "microRNA检测方法的优缺点评价", 《国际检验医学杂志》 *
胡舜钦等: "miRNA传感检测技术的研究进展", 《湖南城市学院学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023116490A1 (zh) * 2021-12-21 2023-06-29 中国科学院上海营养与健康研究所 小rna的新型检测方法及其应用

Also Published As

Publication number Publication date
AU2018210552B2 (en) 2024-06-13
WO2018136936A1 (en) 2018-07-26
CN110418850B (zh) 2024-04-16
AU2018210552A1 (en) 2019-08-15
EP3571315A4 (en) 2020-11-11
US20180258486A1 (en) 2018-09-13
US11028440B2 (en) 2021-06-08
US20180305763A1 (en) 2018-10-25
EP3571315A1 (en) 2019-11-27
CA3062917A1 (en) 2018-07-26
US10889862B2 (en) 2021-01-12
IL268209A (en) 2019-09-26
US20210262034A1 (en) 2021-08-26

Similar Documents

Publication Publication Date Title
US20210222253A1 (en) Identification of biomarkers of glioblastoma and methods of using the same
CN110418850A (zh) 鉴定和使用小rna预测因子的方法
US9758829B2 (en) Molecular malignancy in melanocytic lesions
JP5634360B2 (ja) 乳癌の予後診断方法およびキット
CN101910414B (zh) 用于评估b细胞淋巴瘤对抗cd40抗体治疗的响应性的方法和组合物
KR101464386B1 (ko) 자가면역 장애를 검출하기 위한 방법 및 조성물
US20040146921A1 (en) Expression profiles for colon cancer and methods of use
US8911940B2 (en) Methods of assessing a risk of cancer progression
US20120142544A1 (en) Diagnostic transcriptomic biomarkers in inflammatory cardiomyopathies
CA2985683A1 (en) Methods and compositions for diagnosing or detecting lung cancers
EP1945800A2 (en) Methods and compositions for detecting autoimmune disorders
US20130116132A1 (en) Alzheimer's probe kit
KR20190143058A (ko) 뇌 종양의 예후 예측 방법
Chen et al. cDNA microarray analysis and immunohistochemistry reveal a distinct molecular phenotype in serous endometrial cancer compared to endometrioid endometrial cancer
KR101895767B1 (ko) 동맥경화증 진단용 바이오 마커 조성물
KR20190143417A (ko) 뇌 종양의 예후 예측 방법
CN110331207A (zh) 肺腺癌生物标志物及相关应用
BR112020012280A2 (pt) composições e métodos para diagnosticar cânceres de pulmão usando perfis de expressão de gene
KR100552494B1 (ko) 간암 유전자 마커 및 이를 이용한 간암 진단킷트
WO2019147764A1 (en) Small rna predictor guided therapeutics
CN108220427B (zh) 一种用于鉴别诊断BHD综合征与原发性自发性气胸的血浆microRNA标记物及应用
Fazekas et al. Molecular Correlates of Prostate Cancer Visibility on Multiparametric Magnetic Resonance Imaging: A Systematic Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Massachusetts

Applicant after: Gatehouse Biotechnology Co.,Ltd.

Address before: Massachusetts

Applicant before: SRNALYTICS, Inc.

GR01 Patent grant
GR01 Patent grant