CN101292044A - 寡核苷酸设计和/或核酸检测的方法和/或装置 - Google Patents

寡核苷酸设计和/或核酸检测的方法和/或装置 Download PDF

Info

Publication number
CN101292044A
CN101292044A CNA2006800369768A CN200680036976A CN101292044A CN 101292044 A CN101292044 A CN 101292044A CN A2006800369768 A CNA2006800369768 A CN A2006800369768A CN 200680036976 A CN200680036976 A CN 200680036976A CN 101292044 A CN101292044 A CN 101292044A
Authority
CN
China
Prior art keywords
nucleic acid
probe
target nucleic
oligonucleotide
primer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800369768A
Other languages
English (en)
Other versions
CN101292044B (zh
Inventor
C·W·C·黄
宋永健
李华星
L·D·米勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Agency for Science Technology and Research Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency for Science Technology and Research Singapore filed Critical Agency for Science Technology and Research Singapore
Publication of CN101292044A publication Critical patent/CN101292044A/zh
Application granted granted Critical
Publication of CN101292044B publication Critical patent/CN101292044B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了设计至少一种用于核酸检测的寡核苷酸的方法,该方法包括任意顺序的以下步骤:(I)确定和/或选择至少一种靶核酸的待扩增区域,该区域的扩增效率(AE)高于平均AE;和(II)设计至少一种能够与所选区域进行杂交的寡核苷酸。本发明还提供了检测至少一种靶核酸的方法,该方法包括以下步骤:(i)提供至少一种生物样品;(ii)对该生物样品中所包含的核酸进行扩增;(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸;和(iv)使所述寡核苷酸与扩增的核酸进行接触并检测与所述靶核酸杂交的寡核苷酸。尤其是,本方法用于检测在至少一种人生物样品中存在的至少一种病原体,例如病毒。探针可以被放置在支持物上,例如微阵列上。

Description

寡核苷酸设计和/或核酸检测的方法和/或装置
技术领域
本发明涉及寡核苷酸设计和/或核酸检测的领域。本发明的方法、装置和/或产物可以用于检测病原体,例如用于检测病毒。
背景技术
精确而迅速地检测人类患者和人群中的病毒病原体和细菌病原体具有极其重要的医学及流行病学意义。以往,诊断技术依赖于细胞培养传代和多种免疫学测定法或染色方法。目前精确并灵敏地检测传染病因子仍然是困难的,尽管该领域内的进展相当大。培养和基于抗体检测的常规方法仍然在微生物学实验室中发挥核心作用,尽管存在疾病表现与诊断间的滞后问题,以及由这些方法可以检测的生物种类数目有限的问题。更迅速地诊断感染将降低发病率和死亡率,例如,通过更早的实施适宜的抗微生物治疗。在过去数十年间,已经提出多种方法以实现此目的;基于核酸检测的那些方法,包括基于聚合酶链式反应(PCR)及微阵列的技术,似乎最有前景。尤其是,基于PCR的测定法已经得到实施,这使得能以更高的检测灵敏度、更迅速地诊断可疑病原体。然而在临床实践中,病因学因子常常无法确定,以复杂方式规避检测。例如,某些病毒不可培养。而有时候,患者样品的质量可能很差或对于通过常规技术检测病原体而言,其滴度不足。此外,基于PCR的方法和基于抗体的方法均仅因天然遗传多样性导致了PCR引物结合位点的改变及抗原漂移可能不能识别可疑病原体。
具有同时检测多种病原体能力的DNA微阵列和寡核苷酸微阵列已经得到描述(Wang等,2002;Urisman等,2005)。然而,未解决的技术问题妨碍它们在临床情况下的例行使用。例如,如何根据扩增和交叉杂交的人为产物来选择提供包含最多病原体“标签”的信息的探针?何种强度的荧光信号及标签探针才构成检测到的病原体?何谓优化检测算法的精确性和灵敏性?(Striebel等,2003;Bodrossy和Sessitsch,2004;Vora等,2004)。
因此,本技术领域内需要检测核酸的替代方法及改良方法。尤其是,需要用于检测病原体的替代诊断方法和/或改良诊断方法。
发明内容
本发明的目的是为了解决上述问题,并且具体提供设计寡核苷酸的方法、装置和/或产物。尤其是,本发明提供设计寡核苷酸探针和/或引物的方法、装置和/或产物。还提供核酸检测的方法、装置和/或产物。
根据第一方面,本发明提供了设计至少一种用于核酸检测的寡核苷酸的方法,该方法包括任意顺序的以下步骤:
(I)确定和/或选择至少一种靶核酸的至少一个待扩增区域,该区域的扩增效率(AE)高于平均AE;和
(II)设计至少一种能够与所选择的区域进行杂交的寡核苷酸。
所述至少一种寡核苷酸可以是至少一种探针和/或引物。
尤其是,在步骤(I)中,对全长靶核酸或其至少一个区域内的每个位置i确定AE得分,并且随后得到平均AE得分。可以选择AE得分高于平均AE得分的那些区域作为靶核酸的待扩增区域。更尤其是,所选区域的AE可以被计算为扩增效率得分(AES),AES是正向引物ri可能与靶核酸的位置i结合并且反向引物rj可能在靶核酸的位置j处结合的概率,|i-j|是靶核酸的想要扩增的区域。区域|i-j|可以优选为≤10000bp,更优选为≤5000bp,或≤1000bp,例如≤500bp。尤其是,正向引物和反向引物可以是随机引物。
根据另一方面,步骤(I)包括确定几何级扩增偏倚对靶核酸内每个位置的影响,和选择至少一个待扩增区域作为扩增效率高于平均扩增效率的区域。例如,几何级扩增偏倚是PCR偏倚。
可以根据本领域已知的任何寡核苷酸设计技术实现设计至少一种能够与在步骤(I)中所选择的区域杂交的寡核苷酸的步骤(II)。尤其是,可以根据以下标准中的至少一种选择和设计能够与所选择的区域杂交的寡核苷酸:
(a)选择CG含量为40%至60%的寡核苷酸;
(b)选择具有根据最邻近模型(Nearest-Neighbor model)计算的最高自由能的寡核苷酸;
(c)假定寡核苷酸sa和寡核苷酸sb分别是靶核酸va和vb的子串,则根据sa与长度为m的任意子串sb之间的汉明距离和/或sa与寡核苷酸sb的最长公共子串来选择sa
(d)就靶核酸va特异性的长度为m的任何寡核苷酸sa而言,若寡核苷酸sa与异于靶核酸的核酸的任何区域无任何标的(hit),则选择寡核苷酸sa;如果长度为m的寡核苷酸sa与异于靶核酸的核酸有标的,则选择长度为m的具有最小的最大比对长度和/或具有最小标的数的寡核苷酸sa;和
(e)如果预测pi能杂交到所述扩增的靶核酸的位置i上,则选择在靶核酸的位置i上的寡核苷酸pi
尤其是,所述寡核苷酸可以是探针和/或引物。
因此,可以采用两项或多项上述标准设计所述寡核苷酸。例如,可以通过应用(a)至(e)中所有的标准设计所述寡核苷酸。也可以使用在本文中没有明确地提及但为本领域技术人员所知的其它标准。
尤其是,根据标准(e),如果P(pi|va)>λ,其中λ为0.5并且P(pi|va)为pi杂交到靶核酸va的位置i上的概率,则选择在靶核酸va的位置i上的寡核苷酸pi。λ更优选为0.8。
尤其是, P ( p i | v a ) ≈ P ( X ≤ x i ) = c i k , 其中X为代表va的全部寡核苷酸的扩增效率得分(AES)的随机变量,k为va中寡核苷酸的数目,并且ci为AES值≤xi的寡核苷酸的数目。
根据本发明的另一方面,设计如上所述寡核苷酸的方法还包括制备选择及设计的寡核苷酸的步骤。可以根据本领域已知的任何标准方法,例如通过化学合成或光蚀刻技术,可以制备可以是至少一种探针和/或引物的寡核苷酸。
根据另一方面,本发明提供检测至少一种靶核酸的方法,该方法包括以下步骤:
(i)提供至少一种生物样品;
(ii)对该生物样品中包含的核酸进行扩增;
(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸,其中,使用根据本文中所述的本发明的任何方面的方法设计和/或制备该寡核苷酸;和
(iv)使该寡核苷酸接触扩增的核酸和/或检测与靶核酸杂交的寡核苷酸。
尤其是,所述寡核苷酸是探针。
扩增步骤(ii)可以在随机引物的存在下实施。例如,扩增步骤(ii)是在存在至少一种正向随机引物和/或至少一种反向随机引物的条件下进行的。可以使用本领域已知的任何扩增方法。例如,扩增方法是逆转录-聚合酶链式反应(RT-PCR)。
尤其是,与靶核酸va的位置i结合的正向随机引物和与靶核酸va的位置j结合的反向随机引物选自对靶核酸va的每个位置i具有如下扩增效率得分(AESI)的引物:
AES i = Σ j = i - Z i { P f ( j ) × Σ k = max ( i + 1 , j + 500 ) j + Z P r ( k ) } ,
其中, Σ k = max ( i + 1 , j + 500 ) j + Z P r ( k ) = P r ( i + 1 ) + P r ( i + 2 ) + . . . . . . P r ( j + Z ) ,
Pf(i)和Pr(i)为随机引物ri作为正向引物和反向引物分别与va的位置i结合的概率,并且Z≤10000bp是想要扩增的va的区域。更尤其是,Z可以是≤5000bp、≤1000bp或≤500bp。
扩增步骤可以包括正向引物和反向引物,并且正向引物和反向引物中的每种引物在5’-3’方向上包含固定的引物头部和可变的引物尾部,并且其中至少可变的尾部与靶核酸va的一部分杂交。尤其是,扩增步骤可以包括具有SEQ ID NO:1所示的核苷酸序列或该核苷酸序列的变体或衍生物的正向随机引物和/或反向随机引物。
生物样品可以是采自哺乳动物的任何样品,例如来自人类。生物样品可以是组织、血清、鼻咽冲洗液、唾液、任何其它体液、血液、尿、粪便等。生物样品可以是在实施扩增步骤前被处理以释放生物样品中包含的核酸。靶核酸可以是想要检测的任何核酸。待检测的靶核酸可以是至少对生物样品的核酸为外源的核酸。因此,若生物样品来自人,则待检测的外源靶核酸(若其存在于生物样品中)是非人源的核酸。根据本发明的方面,待检测的靶核酸至少是病原体的基因组或基因组片段。病原体核酸可以是来自病毒、寄生虫或细菌的至少一种核酸或核酸片段。
因此,本发明提供检测假定存在于生物样品中的至少一种靶核酸的方法。该方法可以是用于检测生物样品中病原体存在的诊断方法。例如,若生物样品从人类得到,则假定存在于生物样品中的靶核酸为非人源的。
根据本发明的任何方法所设计和/或制备的寡核苷酸可以在溶液中被使用或可以被放置不溶性支持物上。例如,寡核苷酸探针可以根据本领域已知的任何技术而涂到、滴到或刷到(print)不溶性支持物上。支持物可以是微阵列、生物芯片、膜/合成性表面、固体支持物或凝胶。
随后将探针与生物样品的核酸接触,若靶核酸存在,则它与探针杂交,从而检测出存在的靶核酸。尤其是,在检测步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600231
va的信号强度的均值,则表明生物样品中存在va
更尤其是,在检测步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针va的信号强度的均值,并且该方法还包括如下步骤:计算具有高信号强度的探针va的比例与在检测方法内所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针
Figure A20068003697600234
va的信号强度的密度分布更为正偏,则表明生物样品中存在va
例如,在检测步骤(iv)中,生物样品中的至少一种靶核酸得到检测,若靶核酸的探针信号强度的密度分布不是正态性的,即更为正偏,这是由安德森-塔林(Anderson-Darling)检验值≤0.05和/或t-检验值≤0.1和/或加权相对熵(Weighted Kullback-Leibler,WKL)≥1.0、优选≥5.0表示。最尤其是,t-检验值≤0.05。
尤其是,检测步骤(iv)的方法还包括通过计算加权相对熵得分的分布,评估在每个病原体特异性标签探针组(SPS)中的探针对靶核酸va的探测信号强度:
Figure A20068003697600235
其中Qa(j)是在Pa中的探针的信号强度的累积分布函数,且Pa是在组bj中找到的;Qa(j)是在Pa中的探针的信号强度的累积分布函数,且Pa是组bj中所找到。Pa是病毒va的探针组并且Pa=P-Pa
每个标签探针组(SPS)具有正态性分布的信号强度(由安德森-塔林检验值≤0.05评定)和/或得分小于5的加权相对熵(WKL<5),则表明不存在靶核酸va。每个标签探针组(SPS)具有正偏的信号强度分布和/或大于5的加权相对熵得分(WKL>5),则表明存在至少一种靶核酸va
所述方法还可以包括对WKL得分的分布进行安德森-塔林检验,其中,P>0.05的结果表示不存在靶核酸va,或P<0.05的结果表示存在靶核酸va。此外,还可以进行安德森-塔林检验,表明存在其它共感染性靶核酸。根据另一方面,本发明提供确定靶核酸va存在的方法,该方法包括检测至少一种寡核苷酸探针(该探针是根据本领域内的任何已知方法且不必要限于本发明方法选择和设计的)与至少一种靶核酸va的杂交,并且,其中与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600241
va的信号强度的均值,则表明存在va。尤其是,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600242
va的信号强度的均值,并且该方法还包括以下步骤:计算具有高信号强度的探针va的比例与在检测方法中所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针
Figure A20068003697600244
va的信号强度的密度分布更为正偏,则表明生物样品中存在va。更尤其是,t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵≥1.0、优选≥5.0时表示生物样品中存在靶核酸。例如,t-检验值可以是≤0.05。
根据另一方面,本发明提供检测至少一种靶核酸的方法,该方法包扩以下步骤:
(i)提供至少一种生物样品;
(ii)对该生物样品中包含的至少一种核酸进行扩增;
(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸杂交的至少一种寡核苷酸;和
(iv)使所述寡核苷酸与扩增的核酸进行接触并且检测与靶核酸杂交的寡核苷酸,其中,与va杂交的寡核苷酸的信号强度的均值在统计学上高于寡核苷酸
Figure A20068003697600251
va的均值,则表明在生物样品中存在va
尤其是,所述寡核苷酸是寡核苷酸探针。
在步骤(iv)内,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600252
va的信号强度的均值,并且该方法还包括以下步骤:计算具有高信号强度的探针va的比例与在检测方法内所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针
Figure A20068003697600254
va的信号强度的密度分布更为正偏,则表明生物样品中存在va。尤其是,在步骤(iv)中,t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵值≥1.0、优选≥5.0时表示生物样品中存在至少一种靶核酸。t-检验值可以是≤0.05。相对于生物样品的核酸,待检测的核酸为外源的核酸。待检测的靶核酸可以是至少一种病原体基因组或基因组片段。病原体核酸可以是来自病毒、寄生虫或细菌的至少一种核酸或核酸片段。尤其是,当生物样品从人类得到时,且如果在该生物样品中存在靶核酸,则该靶核酸为非人源的基因组。探针可以被置于不溶性支持物上。支持物可以是微阵列、生物芯片或/合成的表面。
本发明提供一种装置,该装置包括用于实施本发明的方法的装置。尤其是,所述装置可以用于设计用来检测和/或扩增核酸的寡核苷酸,其中,所述装置被配置成确定和/或选择至少一种靶核酸的至少一个待扩增区域,其中,所述区域的扩增效率(AE)高于平均的AE;并且设计能够与所确定和/或选择的区域进行杂交的至少一种寡核苷酸。更尤其是,所述装置可以被配置成检测至少一种靶核酸,包括以下步骤中的任一步骤:提供至少一种生物样品;扩增该生物样品中包含的核酸;提供至少一种能够与至少一种假定存在生物样品中的靶核酸杂交的寡核苷酸,其中寡核苷酸根据本发明所配置的装置进行设计和/或制备;并使寡核苷酸与扩增的核酸进行接触和/或检测与靶核酸杂交的寡核苷酸。
本发明还提供被配置成用于实施本发明的方法的至少一种计算机程序产品。本发明还提供至少一种存贮本发明装置的配置的电子存储介质。根据一个方面,本发明提供被配置成包括实施本发明方法的软件的可移动的电子存储介质。尤其是,所述可移动的电子存储介质可以包含软件,其中该软件被配置成确定WKL得分和/或安德森-塔林检验以便设计至少一种寡核苷酸探针和/或引物,和/或检测至少一种靶核酸。更尤其是,包含软件编译程序的可移动的电子存储介质可以包含如本发明定义的WKL、安德森-塔林检验、探针的设计和/或靶核酸的检测。因此,本发明还提供被配置成如上所述的设计的软件。
附图说明
图1表示一对随机引物对病毒序列(SEQ ID NOS:1至9)的RT-PCR结合过程。图1的标记如下所示:
A:逆转录(RT)。引物与模板结合。
B:生成标记的RT产物(具体是用假定的病毒序列模板和假定的特定的随机引物)。
C:第二链合成完成,掺入标签。
D:使用PCR引物GTTTCCCAGTCACGATA(SEQ ID NO:8)扩增标记的RT产物;
图2表示用于RSV(呼吸道合胞体病毒)B基因组的扩增效率得分(AES)图;
图3表示实施例1的寡核苷酸探针对RSV B的信号强度;
图4(A,B)。图4A表示被测样品的病毒的信号强度的密度分布。箭头指出该分布的正偏性。虽然存在噪音,但是也显著存在真实信号。图4B表示样品中不存在病毒的信号强度的密度分布。该分布是噪音占优势的;
图5表示病原体检测芯片数据的分析流程图;
图6是寡核苷酸探针设计示意图。该示意图说明由NC 001781人呼吸道合胞体病毒(RSV)的基因组所产生的嵌搭探针(tiling probe)。数字代表每个探针的起始位置和终止位置。合成了1948个探针以覆盖完整的15225bpRSV基因组。该过程重复用于其余34种病毒的基因组;
图7是(A、B、C)微阵列短线标记的检索表:
  病毒科   病毒属/种
正粘病毒科   重症急性呼吸综合症(Sars)新加坡变种2500OC41型病毒229E型病毒
冠状病毒毒科   流感病毒(Flu)A流感病毒B
微RNA病毒科   肠道病毒(Entero)D肠道病毒C致肠细胞病变人孤儿病毒(Echo)1肠道病毒B肠道病毒A鼻病毒(Rhino)89鼻病毒B甲型肝炎病毒(Hep A)口蹄疫病毒C
布尼安病毒科   汉坦病毒(Hantaan)辛诺柏病毒(Sin Nombre)
  黄病毒科   西尼罗病毒
  日本脑炎病毒登革病毒3登革病毒1登革病毒2登革病毒4黄热病毒
副粘病毒科   副流感病毒1副流感病毒3Nipah(聂帕病毒)副流感病毒2新城疫病毒呼吸道合胞病毒(RSV)(B1)偏肺炎病毒
其它病毒科   人乳头瘤病毒(HPV)型10人免疫缺陷症病毒(HIV)1乙型肝炎病毒(Hep B)风疹病毒淋巴细胞脉络从脑膜炎病毒(LCMV)-SLCMV-L辣椒温和斑点病毒(PMMV)人对照
从SARS Sin850-感染的细胞系(A)或登革病毒I-感染的细胞系(B)中分离的RNA杂交到病原体微阵列上,随后分别进行SARS-特异性RT-PCR或登革病毒I-特异性RT-PCR。SARS与其它冠状病毒科基因组交叉杂交(以黑色表示),特别与基因组中高度保守的中央部分交叉杂交(Ruan等,2003)。登革病毒I与探针交叉杂交,其中所述的探针是根据登革病毒I与黄病毒科和其它基因组序列相似性而从黄病毒科和其它基因组获得的。通过检查汉明距离(HD)和最大连续匹配(MCM)得分,我们建立了预测交叉杂交是否会发生的阈值并利用该信息生成计算机模拟(in silico)杂交标签。(C)使用随机RT-PCR进行扩增从诊断患有RSV的临床患者中分离的RNA并杂交到病原体微阵列上;
图8:探针汉明距离(HD)、探针最大连续匹配(MCM)与探针信号强度间的关系。平均探针信号强度随HD增加及MCM降低而减少。这与可检测探针的百分数降低相关(信号强度>均值+2SD)。在最佳交叉杂交阈值HD≤4或MCM≥18(阴影部分)上,可以检测到大于98%的探针。在HD=5或MCM=17上,检测率下降到85%;
图9(A,B):从RSV感染的患者中分离的RNA杂交到病原体检测阵列上。(A)全部53,555个探针的探测信号强度的分布显示出正态分布(灰色实线)。当在基因组特异性水平上检查时,非RSV探针例如副流感病毒-1(灰色点线)也显示出正态分布。RSV-特异性探针的信号强度具有正偏性,在分布的尾部具有更高信号强度(黑色实线)。(B)对35个SPS的WKL得分的分布频率,大部分分布在-5与3之间。然而,对RSV基因组的WKL得分是17,因此该分布不是正态性的(安德森-塔林检验P<0.05)。排除异常(outlier)基因组产生正态分布。从该计算中,得出的结论是RSV存在于杂交的样品中;
图10:AES指示探针的扩增效率。可在高于超过5个实验的信号强度阈值上检测到更高比例的具有高AES的探针;
图11表示使用微阵列检测病原体所需的过程的示意图;
图12:杂交信号强度与扩增效率得分(AES)的相关,P=2.2×10-16。将RSV患者的样品杂交至微阵列上,并且将每个探针的信号强度与计算的AES作图。用于在一般阵列上高置信度检测的信号阈值由绿线表示;
图13:使用AES-优化的引物标签进行随机RT-PCR,AES增加10-30倍。预测优化的引物对表现在微阵列上的所有35个基因组都具有相同性能。大部分患者的样品使用AES-优化的引物A2进行扩增;
  SEQ ID NO:   引物   核苷酸序列
  10   A1   GTTTCCCAGTCACGATA
  11   A2   GATGAGGGAAGATGGGG
  12   A3   CTCATGCACGACCCAAA
  13   A4   AGATCCATTCCACCCCA
图14(A,B)是微阵列短线标记的检索表:
Figure A20068003697600301
Figure A20068003697600311
在随机RT-PCR中引物标签的选择对PCR效率有显著影响。热图显示探针与临床的hMPV样品杂交,随后使用Bohlander等1992所述的原始引物(A)或使用根据PCR建模设计的旨在确保高效扩增表现在微阵列上的所有基因组(高AES)的引物(B)进行RT-PCR;
图15:对RSV患者#412的诊断性PCR结果证实该患者没有被冠状病毒感染。(A)使用泛冠状病毒引物的PCR。泳道1:OC43冠状病毒阳性对照;泳道2:229E冠状病毒阳性对照;泳道3:RSV患者#412,泳道4:PCR引物和仅作为阴性对照的试剂。1kb序列梯。(B)使用OC43特异性引物的PCR。泳道1:OC43冠状病毒阳性对照;泳道2:RSV患者#412;泳道3:来自ATCC的纯化RSV;泳道4:PCR阴性对照。50bp序列梯。(C)使用229E特异性引物的PCR。泳道1:229E冠状病毒阳性对照;泳道2:RSV患者#412,泳道3:PCR阴性对照。1kb序列梯。
具体实施方式
为方便起见,本说明书中提及的参考文献以参考文献列表形式列出并附加在实施例的结尾。这些参考文献的完整内容引入本文作为参考。
本发明解决了现有技术的的问题,特别是提供设计寡核苷酸的至少一种方法、装置和/或产物。具体而言,本发明提供设计探针和/或引物的方法、装置和/或产物。本发明还提供核酸检测的方法、装置和/或产物。
尽管已经提出了使用寡核苷酸杂交微阵列作为确定病原体存在的工具的概念,然而仍存在明显的障碍,从而妨碍这些微阵列的常规使用(Striebel,H.M.,2003)。这些障碍包括探针设计和数据分析(Striebel,H.M.,2003;Bodrossy,L.& Sessitsch,A.,2004;Vora,G.J.,等,2004)。本发明的发明人在一种试验性微阵列中观察到尽管仔细选择探针,然而计算机模拟设计的最佳探针不一定与患者样品良好地杂交。本发明人认识到要产生与患者材料始终良好地杂交的探针,必须开发新的和/或探针设计改良的方法以便确定最佳设计预测值。尤其是,如实施例部分中所述,本发明人创造了包含重叠性40聚体(mer)探针的微阵列,其中所述探针在35种病毒基因组范围内嵌搭(tiled)。不过,本发明不限于这种具体应用、探针长度和靶核酸类型。
根据本发明的具体方面,本发明的发明人描述如何优化支持物,尤其是微阵列平台,以使该支持物在靶核酸检测,尤其是病原体检测中成为可行的工具。本发明人还确定了探针设计预测值,包括解链温度、探针的GC含量、二级结构、汉明距离、与人基因组的相似性、PCR引物标签在随机PCR扩增效率方面的影响和/或序列多态性的影响。将这些结果视作和/或纳入探针和/或引物设计方法和标准的开发中。根据更具体的方面,本发明人开发了可以精确预测靶核酸存在的数据分析算法,其中靶核酸可能是病原体或可能不是病原体。例如病原体可以是,但不限于病毒,细菌和/或寄生虫。即使探针不是理想地设计的,也可以使用该算法。这种结合探针设计方法学检测算法显著改善预测的置信度水平(见表6和7)。
根据具体方面,本发明的方法可以不需要预测可能的病原体,但是或许能够以非偏倚方式检测到大部分已知的人病毒、细菌和/或寄生虫,以及一些新物种。将基因组或基因组片段定义为生物染色体中的全部遗传材料。来源于特定生物染色体的遗传材料中的DNA是基因组DNA。基因组文库是克隆的集合,其中克隆由一套随机生成的代表生物完整基因组的重叠性DNA片段产生的。在本发明的这种检测平台背后的逻辑基础是病毒、细菌和/或寄生虫的每个物种在它们基因组的原始序列中均含有独特的分子标签。鉴定这些识别性区域使设计的合理的寡核苷酸探针能够用于特异性地鉴定单个物种以及(在某些情况下)单个株。同时设计和/或制备代表科成员及属成员间最高度保守性区域的寡核苷酸(寡)探针将能够检测并部分表征某些新的病原体。此外,在单个支持物上包含此类全部探针可以使检测同时共感染临床样品的多种病毒、细菌和/或寄生虫。支持物可以是不溶性支持物,尤其是固体支持物,例如微阵列或生物分析芯片。
根据具体方面,本发明可以用作诊断工具,这取决于设计寡核苷酸探针的方式,和/或如何解读并分析由微阵列生成的数据。
扩增效率的确定
根据第一方面,本发明提供设计用于核酸检测的寡核苷酸探针的方法,该方法包括任意顺序的以下步骤:
(i)确定和/或选择至少一种靶核酸的至少一个待扩增区域,该区域的扩增效率(AE)高于平均的AE;和
(ii)设计至少一种能够与所确定和/或选择的区域进行杂交的寡核苷酸探针。
尤其是,在步骤(I)中,对全长靶核酸上或其区域内的每个位置i确定AE得分并且获得平均AE。选择AE高于平均值的那些区域作为靶核酸的待扩增区域。尤其是,所选区域的AE可以被计算为扩增效率得分(AES),其中AES是正向引物ri可能与靶核酸的位置i结合并且反向引物rj可能在靶核酸的位置j处结合的概率,|i-j|是靶核酸的想要的扩增区域。区域|i-j|可以优选为≤10000bp,更优选为≤5000bp或≤1000bp,例如≤500bp。尤其是,正向引物和/或反向引物可以是随机引物。根据另一方面,确定和/或选择靶核酸的待扩增区域的步骤(i)包含确定几何级扩增偏倚对靶核酸中每个位置的影响,并且选择待扩增区域作为扩增效率高于平均扩增效率的区域。几何级扩增偏倚可以被定义为核酸内某些区域的扩增的能力比其它区域的扩增的能力更高。例如,几何级扩增偏倚是PCR偏倚。
扩增效率的建模
由于不知道何种靶核酸(例如病原体)存在于患者样品内,因此可以在扩增步骤和/或逆转录(RT)过程中使用随机引物,以确保使存在的全部RNA无偏倚地逆转录成DNA。本领域已知的任何随机扩增方法可以用于本发明的目。在本说明书中,随机扩增方法可以是RT-PCR。然而,技术人员将明白本发明的方法不限于RT-PCR。RT-PCR方法可能易受RT-PCR方法中引物二聚体结合及较差扩增效率所致的信号不精确性的影响(Bustin,S.A.等,2004)。为克服此问题,本发明人已经通过使用随机引物对RT-PCR方法建模。
根据本发明的具体方面,扩增步骤包括正向引物和反向引物,并且正向引物和反向引物中的每种引物在5’-3’方向上包含固定的引物头部和可变的引物尾部,并且其中至少可变的尾部与靶核酸va的一部分杂交。固定的引物头部和可变的引物尾部的尺寸可以是以mer为单位的适合本发明方法的目的任何尺寸。固定的头部可以是10-30mer,优选为5-25mer,例如17mer。可变尾部可以是1-20mer,优选为5-15mer,例如9mer。这些正向引物和反向引物的实例如图1所示。更尤其是,扩增步骤可以包括具有核苷酸序列5’-GTTTCCCAGTCACGATANNNNNNNNN-3’(SEQ ID NO:1)的正向随机引物和/或反向随机引物,其中,N是A、T、C和G及它们的衍生物中的任意一种。
根据具体实施方案,仍如图1所示,本发明的发明人按照下列方法建立了随机RT-PCR方法模型。设va是样品中实际病毒。在RT-PCR方法中所用的随机引物优选为具有固定的17mer头部和可变的9mer尾部的26mer引物,即(5’-GTTTCCCAGTCACGATANNNNNNNN-3’)(SEQ ID NO:1,尤其为SEQ ID NOS:2-7)。然而,对于技术人员来说,本发明的引物显然不限于SEQID NOS:1-7和图1的序列。实际上,引物的核苷酸数,尤其是头部及可变尾部的核苷酸数,可以变化并且在以上所讨论的范围内加以选择。为在va的位置i与j间的区域内得到RT-PCR产物,本发明人需要(1)结合至位置i的正向引物,(2)|i-j|≤10000以及(3)结合至位置j的反向引物。作为靶核酸内想要扩增区域的|i-j|优选为≤5000bp,更优选为≤1000,例如≤500bp。RT-PCR产物的质量取决于正向引物和/或反向引物与va结合得的情况。一些随机引物可以比其它随机引物更好地与va结合。确定此类引物并确定它们在哪里与va结合提示了va的特定区域有多大可能被扩增。使用这种方法,提供对va的每个位置计算扩增效率得分(AES)的扩增效率模型。
对于靶核酸va的特定位置i,Pf(i)和Pr(i)是随机引物ri作为正向引物和反向引物分别可以与va的位置i结合的概率。为简便起见,假设随机引物仅当该随机引物的最后9个核苷酸是va的反向互补物(正向引物)的子串或是va(反向引物)的子串时才可以与va结合。这如图1所示。基于非常确定的引物设计标准(Wu,D.Y.,等,1991),若ri形成明显的引物二聚体或具有极端的解链温度,则Pf(i)被评定为低。另一方面,若ri未形成任何明显的引物二聚体并具有最佳的解链温度,则Pf(i)将被评定为高。需要注意的是,若随机引物的头部与va相似,这也可以辅助结合并因此产生更高的Pf(i)。类似地,计算了Pr(i)。
随机引物ri作为正向引物在va的位置i的结合影响位置i上游至少10000个核苷酸的RT-PCR产物的质量。随机引物ri作为反向引物在va的位置i的结合影响位置i下游至少10000个核苷酸的RT-PCR产物的质量。因此,对va的每个位置i的扩增效率得分AESi可以通过考虑用于扩增位置i的所有正向引物和反向引物对的总效果计算:
AES i = Σ j = i - Z i { P f ( j ) × Σ k = max ( i + 1 , j + 500 ) j + Z P r ( k ) }
其中 Σ k = max ( i + 1 , j + 500 ) j + Z P r ( k ) = P r ( i + 1 ) + P r ( i + 2 ) + . . . . . . P r ( j + Z )
Pf(i)和Pr(i)是随机引物ri作为正向引物和反向引物分别与va的位置i结合的概率,并且Z≤10000bp是va的欲扩增的区域。
因此,Z可以是≤10000bp、≤5000bp、≤1000bp或≤500bp。
为验证由病毒的不同区域所表现的信号强度上的变异是否与所述区域的相应扩增效率得分直接相关,进行了几个对常见的感染人的病原体即人呼吸道合胞体病毒B(RSV B)的微阵列实验(在这种具体情况下,总计5个微阵列实验)。
对扩增效率建立RT-PCR模型
本发明的方法是采用引物用于改良的逆转录的方法(Sung等,2003,CSB),该方法包括固定的寡核苷酸标签(头部)和随机寡核苷酸尾部。理论上,随机寡核苷酸尾部应当不加区分地与患者样品内的全部核酸结合,启动第一链合成。在第二链合成后,全部逆转录的序列将在两端具有固定的寡核苷酸标签(头部)。这些序列使用固定的寡核苷酸标签(头部)作为引物,通过PCR扩增以生成长度至少为10000bp的PCR产物。尤其是,所扩增的PCR产物的长度大部分在500-1000bp之间。根据所述特定实施方案,用于逆转录的(RT)26mer引物包含固定的17mer标签和9mer的随机尾部:5’-GTTTCCCAGTCACGATANNNNNNNNN-3’(SEQ ID NO:1)。
在我们的模型中,va代表临床样品中的病原体。为了在基因组内的任何区域中生成至少一种由va的位置i和j所定义的PCR产物,例如500-1000bp,需要结合至位置i的正向引物和以反义方向结合至位置j的反向引物,且使500≤|i-j|≤10000,尤其是500≤|i-j|≤1000。引物的结合亲和力由至少两种因素决定:(1)引物二聚体形成,和(2)引物对病毒va的杂交亲和力。通过对如图1所示的va的每个位置计算扩增效率得分(AES)可以预测在10000个核苷酸范围内,尤其在1000个或500个核苷酸范围内因具有理想引物结合位置而被成功扩增的基因组区域。
扩增效率得分(AES)
对va的每个位置i,设Pf(i)和Pr(i)是随机引物ri作为正向引物和反向引物分别与va的位置i可能结合的概率。为简便起见,我们假设随机引物仅当该引物的随即尾部(例如,如图1内所示随机引物的最后9个核苷酸)是va的反向互补物(正向引物)的子串或是va(反向引物;图1)的子串时才可以与va结合。基于非常确定的引物设计标准(Wu,and Ugozzoli,1991),若ri形成明显的引物二聚体或具有极端的解链温度,则我们评定Pf(i)为低。另一方面,若ri未形成任何明显的引物二聚体并具有最佳的解链温度,则Pf(i)将被评定为高。若随机引物的固定的寡核苷酸标签(头部)(例如,图1所示固定的17mer标签)与va相似,这也可以辅助结合并且因此产生更高的Pf(i)。类似地,我们计算了Pr(i)。
随机引物ri作为正向引物在va的位置i的结合影响位置i上游的核苷酸(例如位置i上游500至1000个核苷酸)的RT-PCR产物的质量。类似地,随机引物ri作为反向引物在va的位置i的结合影响位置i下游的核苷酸(例如位置i下游500至1000个核苷酸)的RT-PCR产物的质量和覆盖度。假定va有位置x。位于位置i和j内的全部有效引物对分别影响在x处的RT-PCR产物的质量。需要注意的是i≥x≥j并且i-j≤10000。例如,500≤i-j≤1000,因为我们的RT-PCR产物的长度是500至1000碱基对。因此,对va的每个位置x的扩增效率得分AESx可以是通过考虑用于扩增位置x的全部引物对的总效果计算:
AES x = Σ j = x - 1000 x { P f ( j ) × Σ k = max ( x + 1 , j + 500 ) j + 1000 P r ( k ) }
预测成功的RT-PCR的AES阈值
用于病毒va的探针选择的扩增增效率得分的阈值由va的AES值的累积分布函数测定。设X是代表va的所有探针的AES值的随机变量。设k是va探针的数目。随后,我们指定AES值小于或等于x的概率是P(X≤x)=c/k,其中c是具有小于或等于x的AES值的探针的数目。对于在va的位置i的探针pi,设xi是该探针的相应AES值。由于探针的信号强度与它的AES值高度相关,我们认为P(pi|va),即pi在va存在下具有高信号强度的概率,是P(X≤xi)。因此,
P ( p i | v a ) ≈ P ( X ≤ x i ) = c i k
其中ci是AES值小于或等于xi的探针的数目。
对于探针的选择而言,若P(pi|va)>λ,则选择探针pi。在我们的实验中,设定λ=0.8。在该阈值(AES的最高20%),观察到多于50%的预期探针可重复地与不同临床样品杂交。当使用具有更高AES(例如,AES的最高10%)的探针将改善可重复性,与此同时这将在物种水平上降低对某些基因组仍为独特的探针的数目至<10,因此有损此阵列特异性鉴定病原体的能力。因此使用AES的最高20%。
在病原体检测微阵列上实验性地测定交叉杂交阈值:
探针的设计
设计能够与所选区域杂交的寡核苷酸探针的步骤(ii)可以选择为任何一种本领域内已知的探针设计技术。以下描述涉及探针设计,然而,对于技术人员来说,显然还可采用相同的原理用于设计引物,尤其用于RT-PCR设计引物。
例如,给定一套靶核酸(例如,病毒基因组)V={v1,v2...,vn},对于每个vi∈V,可以考虑设计一套长度为m的满足以下条件,例如至少一种以下条件,的探针(其是vi的子串):
(a)已建立的探针设计标准,即同质性、灵敏性和特异性(Sung,W.K.等,2003,CSB);
(b)与人基因组无显著的序列相似性;和
(c)使用AE得分高效扩增,例如通过如本文中所述的RT-PCR。
由交叉杂交人为产物所致的噪音性信号对于解读微阵列数据、特别对鉴定存在于复杂核酸混合物内的稀有病原体序列设置了巨大障碍。例如,在临床标本中,那些来自宿主组织中的核酸序列等污染的核酸序列,将在序列互补性的某阈值以上与病原体特异性微阵列探针交叉杂交。这可能产生导致错误结论的假阳性信号。类似地,病原体序列除了结合它的特异性探针外,还可以与其它非靶探针(即设计旨在检测其它病原体的探针)交叉杂交。尽管后一现象似乎带来问题,却可能为病原体鉴定提供有用信息以可以精确预测交叉杂交。由于微阵列探针具有评定复性潜能和序列特异性的诸多优点,因此通常将它设计为确保(对已知靶的)最大的特异性杂交,同时具有(对非特异性序列的)最小的交叉杂交。然而实践中,我们发现尽管使用最佳计算机模拟参数来设计,因未知原因,众多探针未如预期那样表现性能。
为了系统研究基于阵列的病原体检测的动力学,我们使用宁布勒根(Nimblegen)阵列合成技术(Nuwaysir等,2002)创造寡核苷酸阵列。使用40mer探针而设计的所述阵列检测多达35种RNA病毒,其中,所述的探针以平均8个碱基的解析度在每种基因组全部长度范围内嵌搭(tiled)(53,555个探针;图6,表1)。
表1在病原体检测微阵列上代表的基因组列表。
(第1列)对微阵列上合成的每种基因组的探针的数目。(第2列)应用探针设计筛选程序(filter)后剩下的对每种基因组的探针的数目。(第3列)对每种基因组的探针的数目,其中所述探针对所述基因组是独特的并且不与人的基因组交叉杂交。
基因组 探针的原始数目(1)   筛选后探针的数目(2) 独特探针(3) NCBI GI编号 参考类型 编号 描述
1 1948 537 271 9629198 RefSeq NC_001781.1   人呼吸道合胞体病毒,全基因组
2 1995 550 295 19718363 RefSeq NC_003461.1   人副流感病毒1株华盛顿/1964,全基因组
3 2002 762 474 19525721 RefSeq NC_003443.1   人副流感病毒2,全基因组
4 1979 701 345 10937870 RefSeq NC_001796.2   人副流感病毒3,全基因组
5 3805 588 444 30468042 Genbank AY283794.1   SARS冠状病毒Sin2500,全基因组
6 3937 604 356 38018022 RefSeq NC_005147.1   人冠状病毒OC43,全基因组
7 3495 182 112 12175745 RefSeq NC_002645.1   人冠状病毒229E,全基因组
8 1705 292 177 46852132 RefSeq NC_004148.2   人偏肺炎病毒,全基因组
9 296 118 101 8486138 RefSeq NC_002023.1   甲型流感病毒RNA片段1,全序列
10 282 69 42 8486136 RefSeq NC_002022.1   甲型流感病毒RNA片段3,全序列
10 296 81 54 8486134 RefSeq NC_002021.1   甲型流感病毒RNA片段2,全序列
10 110 69 57 8486131 RefSeq NC_002020.1   甲型流感病毒RNA片段8,全序列
10 196 71 62 8486129 RefSeq NC_002019.1   甲型流感病毒RNA片段5,全序列
10 177 75 59 8486127 RefSeq NC_002018.1   甲型流感病毒RNA片段6,全序列
10 225 70 51 8486125 RefSeq NC_002017.1   甲型流感病毒RNA片段4,全序列
10 300 105 48 8486164 RefSeq NC_002204.1   乙型流感病毒RNA-1,全序列
10 293 113 74 8486148 RefSeq NC_002205.1   乙型流感病毒RNA-2,全序列
10 279 94 59 8486150 RefSeq NC_002206.1   乙型流感病毒RNA-3,全序列
10 237 70 53 8486152 RefSeq NC_002207.1   乙型流感病毒RNA-4,全序列
10 232 90 82 8486154 RefSeq NC_002208.1   乙型流感病毒RNA-5,全序列
10 195 64 32 8486156 RefSeq NC_002209.1   乙型流感病毒RNA-6,全序列
10 150 47 37 8486159 RefSeq NC_002210.1   乙型流感病毒RNA-7,全序列
10 136 59 50 8486161 RefSeq NC_002211.1   乙型流感病毒RNA-8,全序列
  11   1401   85   54   11528013   RefSeq   NC_001563.2   西尼罗病毒,全基因组
  12   1389   145   123   9627244   RefSeq   NC_002031.1   黄热病毒,全基因组
13 2335 235 171 13559808 RefSeq NC_002728.1   聂帕病毒(Nipah),全基因组
  14   1943   244   211   11545722   RefSeq   NC_002617.1   新城疫病毒,全基因组
15 1174 208 128 9629357 RefSeq NC_001802.1   人免疫缺陷症病毒1,全基因组
  16   409   134   106   21326584   RefSeq   NC_003977.1   乙型肝炎病毒,全基因组
17 1011 169 135 9627257 RefSeq NC_001576.1   人乳头瘤病毒型10,全基因组
  18   1036   325   299   10445391   RefSeq   NC_002554.1   口蹄疫病毒C,全基因组
  19   1246   211   209   9790308   RefSeq   NC_001545.1   风疹病毒,全基因组
  20   955   309   72   9626732   RefSeq   NC_001489.1   甲型肝炎病毒,全基因组
  21   834   103   29   38371716  RefSeq   NC_005222.1  汉坦病毒,全基因组
  22   837   188   98   38371727  RefSeq   NC_005217.1  辛诺柏病毒,全基因组
23 430 100 86 23334588 RefSeq NC_004294.1  淋巴细胞脉络丛脑膜炎病毒片段S,全序列
23 853 455 286 23334585 RefSeq NC_004291.1  淋巴细胞脉络丛脑膜炎病毒片段L,全序列
  24   1404   204   122   9626460  RefSeq   NC_001437.1  日本脑炎病毒,基因组
25 1370 284 91 51850386  日本DNA数据库 AB189128.1  登革病毒病毒3型基因组RNA,全基因组,株:98902890 DF DV-3
26 1361 130 57 12659201  基因银行(Genbank) AF326573.1  登革病毒病毒4型,株814669,全基因组
27 1370 142 21 19744844 Genbank AF489932.1  登革病毒病毒2型,株BR64022,全基因组
28 1370 152 52 323660 Genbank M87512.1  DENT1SEQ登革病毒病毒1型,全基因组
  29   944   175   87   9626436  RefSeq   NC_001430.1  人肠道病毒D,全基因组
  30   945   183   122   9626433  RefSeq   NC_001428.1  人肠道病毒C,全基因组
  31   946   196   148   9627719  RefSeq   NC_001612.1  人肠道病毒A,全基因组
32 945 364 154 21363125 RefSeq NC_003986.1  致肠细胞病变人孤儿病毒1,全基因组
  33   944   94   12   9626677  RefSeq   NC_001472.1  人肠道病毒B,全基因组
  34   913   283   190   9627730  RefSeq   NC_001617.1  人鼻病毒89,全基因组
  35   920   426   291   9626735  RefSeq   NC_001490.1  人鼻病毒B,全基因组
包括对每种病毒探针的7个重复探针,和用于阵列合成及杂交(如下所述)的对照序列,该阵列总共含有390,482个探针。
同质性、灵敏性和特异性
同质性需要选择具有相似解链温度的探针。据发现低CG含量的探针不会产生可靠的杂交信号强度,而高CG含量的探针通过非特异性结合易于产生高信号强度。因此,可能建立的是所选探针的CG含量应当是40%至60%。
因此,本发明提供设计用于核酸检测的寡核苷酸探针的方法,该方法包括选择CG含量为40%至60%的探针。
术语“杂交”是指其中寡探针非共价地与靶核酸或其部分结合以形成稳定双链的过程。三链杂交在理论上也是可能的。杂交探针是能够以碱基特异性方式与靶核酸的互补链结合的寡核苷酸。特异性杂交是指,当序列存在于DNA或RNA的复杂混合物中(例如总细胞的)时,在严格条件下分子基本上与或仅与特定的核苷酸序列或序列结合、形成双链体或杂交。杂交,例如等位基因特异性探针杂交,通常在严格条件下进行。例如,其中盐浓度不高于约1摩尔浓度(M)并且温度是至少25℃的条件是严格条件,所述盐浓度为,例如750mMNaCl,50mM磷酸钠,5mM EDTA,pH 7.4(5倍浓度SSPE);所述温度为约25℃至约30℃。杂交通常在严格条件下进行,例如在盐浓度不高于1M并且温度至少25℃下。对于严格条件,还可参考,例如,Sambrook和Russel,Molecular Cloning:A Laboratory Manual,Cold Springs HarborLaboratory,New York(2001),为以上的所有目的将该文献全部内容引入本文作为参考。
灵敏性需要选择不能形成大量的二级结构的探针,以便检测低丰度的mRNA。因此,根据最邻近模型计算的最高自由能选择探针(SantaLucia,J.,Jr.等,1996)。
因此本发明提供设计至少一种用于核酸检测的寡核苷酸探针的方法,其中,根据最邻近模型计算的最高自由能选择探针。
特异性需要选择对病毒基因组最独特的探针。这将使探针与其它非靶核酸(例如,病毒基因组)的交叉杂交最小化。假定探针sa和探针sb分别是靶核酸va和vb的子串,则根据sa与来自靶核酸vb的长度为m的任意子串sb之间的汉明距离和/或sa与探针sb的最长公共子串来选择sa。尤其,设sa和sb分别是来自病毒基因组va和vb的长度为m的子串,其中va≠vb
待设计的探针的长度可以是对本发明的目的有用的任何长度。探针可以小于100mer,例如20至80mer;25至60mer,例如40mer。汉明距离和/或最长公共子串也可以变化。
根据凯恩氏(Kane’s)标准(Kane,M.D.,等,2000),sa对va是特异性的,若:
(a)sa与来自病毒基因组vb的长度为m的任意子串sb间的汉明距离大于0.25m;
(b)sa和sb的最长公共子串小于15。
用于汉明距离的界限值可以根据所需的严格性进行选择。对于任何技术人员来说,如何根据所需的特定严格性选择汉明距离界限是显而易见的。根据本文中所述的探针设计的具体实例,本发明人对特异性探针使用相对其它靶核酸的>10的汉明距离界限值,并且对保守性探针使用<10、优选<5的汉明距离界限值。对于特异性探针而言,这表示仅与特异性靶核酸杂交的探针,而对于保守性探针而言,这表示可以与靶核酸家族的任何成员杂交的探针。
因此,本发明还提供设计用于核酸检测的寡核苷酸探针的方法,其中,假定探针sa和探针sb分别是生物样品中包含的靶核酸va和vb的子串,若sa与来自靶核酸vb的长度为m的任意子串sb间的汉明距离大于0.25m,并且sa与探针sb的最长公共子串小于15,则选择sa
为了在没有来自人RNA的交叉杂交复杂情况下研究阵列杂交动力学,将SARS冠状病毒及登革病毒血清型1的病毒RNA从感染细胞系的培养基中纯化、逆转录并使用病毒特异性引物进行PCR扩增(Wong,等,2004)。每种基因组cDNA被完整地扩增(通过测序证实),用Cy3标记并在微阵列上分别杂交。SARS样品很好地与SARS嵌搭探针杂交,全部3,805个SARS特异性探针显示远高于检测阈值(检测阈值由探针信号强度在阵列信号强度均值之上>2标准差而确定;图7A)的荧光(Cy3)信号。与其它病原体探针组的交叉杂交极少,仅对冠状病毒科其它成员和微RNA病毒科和副粘病毒科的几个物种观察到交叉杂交,这同SARS与其它已知病毒很少有序列同源性的观察相一致(Ksiazek等,2003)。另一方面,登革病毒1的杂交模式更为复杂(图7B)。首先,由于序列多态性,我们观察到与登革病毒1探针组的杂交是局部不完整的(即区域无信号)。在阵列上杂交的登革病毒1样品是从1944年的夏威夷分离株(ATCC登记号#VR-1254)中培养出来,而阵列探针组以1990年在新加坡分离的S275/90株(Fu等,1992)的序列为基础。未与cDNA靶杂交的登革病毒1探针分别含有对靶序列的至少3个错配(在15碱基的片段内)。其次,我们观察到在某种程度上与阵列上存在的几乎全部病毒探针组,尤其与其它黄病毒科成员的探针发生交叉杂交,这与4种登革病毒血清型共享60-70%同源性的事实相一致。为理解杂交信号输出与复性特异性间的关系,我们使用2种相似性度量:即探针汉明距离(HD)与最大连续匹配(MCM),首先将全部探针序列与每种病毒基因组比较。HD测量两种序列的整体相似性距离,对相似序列产生低得分(Hamming,1950)。MCM测量完全匹配的连续碱基数目,对相似序列产生高得分(Kane等,2000)。
我们计算每个探针相对于夏威夷登革病毒1分离株的HD和MCM得分并且观察到这些得分分别反向地并且直接地与探测信号强度相关。阵列上与夏威夷登革病毒I基因组具有高相似性即HD=2(n=942)或MCM=27(n=627)的所有探针以高于背景3个对数值的中等信号强度发生杂交。虽然98%的探针在0-4的低HD范围内或18-40的高MCM范围内是可检测到的,然而中等探测信号强度随序列距离的每个增量而下降。中等信号强度在HD=7和MCM=15急剧下降至背景水平,分别具有43%和46%的可检测探针。绝大多数探针(>96%,n>51,000)具有8-21的HD得分和/或0-15的MCM得分,其中可分别检测到1.23%和1.57%的这些探针。
理想的交叉杂交相似性阈值为这样的值,即其中鉴定特定病原体的所有探针总是具有高于背景噪音的可检测信号强度,即使在病原体序列内存在多态性时也是如此。在最佳的相似性阈值HD=4和MCM=18,>98%的探针可以以高于背景2个对数值的中等信号强度被检测到,而调整阈值下降1级至HD=5和MCM=17将仅产生~85%探针检测和高于背景~1.2个对数值的中等信号强度(图8)。
使用这些最佳HD和MCM阈值来预测交叉杂交,我们将全部探针分成最有可能检测给定病原体的组。我们将这些组称作特异性标签探针组(SPSs),并且我们为阵列上所代表的35种病原体基因组中的每种基因组定义了SPSs(表2)。
表2每种病原体标签探针组(SPS)包含具有最高的20%的AES的探针[第(1)列]。剔除了GC含量不为40-60%的探针[第(2)列]或与人基因组具有高度相似性的探针[第(3)列]。将来自于其它病原体的、根据HD和MCM将与该病原体交叉杂交的探针[第(4)列]添加至SPS[第(5)列]。
病原体 总的嵌搭探针 AES(1)   GC含量筛选程序(2)   人基因组筛选程序(3) 筛选留下的探针的数目 预测的交叉杂交性探针的数目(HD≤4和MCM≥18)(4) SPS内的探针的数目(5)
  1   LCMV   砂粒病毒科   1283   574   1   18   555  0   555
  2   汉坦病毒   布尼安病毒科   834   131   6   22   103  2   105
  3   辛诺柏病毒   布尼安病毒科   837   225   8   29   188  3   191
  4   229E   冠状病毒科   3495   196   2   12   182  2   184
  5   OC43   冠状病毒科   3937   663   16   43   604  3   607
  6   SARS   冠状病毒科   3805   672   6   78   588  3   591
  7   登革病毒血清型1   黄病毒科   1370   201   2   47   152  50   202
  8   登革病毒血清型2   黄病毒科   1370   178   0   36   142  71   213
  9   登革病毒血清型3   黄病毒科   1370   336   1   51   284  69   353
  10   登革病毒血清型4   黄病毒科   1361   172   1   41   130  44   174
  11  日本肝炎病毒  黄病毒科  1404   274   6   64   204   40  244
  12  西尼罗病毒  黄病毒科  1401   111   4   22   85   22  107
  13  黄热病毒  黄病毒科  1389   151   0   6   145   10  155
  14  乙型肝炎病毒  嗜肝DNA病毒科  409   146   2   10   134   0  134
  15  甲型流感病毒  正粘病毒科  1582   601   2   46   553   0  553
  16  乙型流感病毒  正粘病毒科  1822   718   7   69   642   2  644
  17  人乳头瘤病毒型10  乳多空病毒科  1011   177   1   7   169   0  169
  18  hMPV  副粘病毒科  1705   375   23   60   292   8  300
  9  新城疫病毒  副粘病毒科  1943   252   0   8   244   0  244
  20  Nipah  副粘病毒科  2335   274   22   17   235   0  235
  21  副流感病毒1  副粘病毒科  1995   625   13   62   550   3  553
  22  副流感病毒2  副粘病毒科  2002   838   31   45   762   0  762
  23  副流感病毒3  副粘病毒科  1979   834   29   104   701   9  710
  24  RSV B  副粘病毒科  1948   655   52   66   537   4  541
  25  致肠道细胞病变人孤儿病毒1  微RNA病毒毒科  945   439   3   72   364   59  423
  26  肠道病毒A  微RNA病毒科  946   205   0   9   196   21  217
  27  肠道病毒B  微RNA病毒科  944   109   0   15   94   47  141
  28  肠道病毒C  微RNA病毒科  945   202   0   19   183   31  214
  29  肠道病毒D  微RNA病毒科  944   191   0   16   175   15  190
  30  口蹄疫病毒  微RNA病毒科  1036   356   26   5   325   0  325
  31  甲型肝炎病毒  微RNA病毒科  955   355   9   37   309   0  309
  32  鼻病毒A(型89)  微RNA病毒科  913   333   2   48   283   13  296
  33  鼻病毒B  微RNA病毒科  920   464   3   35   426   11  437
  34  HIV 1  逆转录病毒科  1174   229   4   17   208   0  208
  35  风疹病毒  披盖病毒科  1246   748   534   3   211   0  211
 总计  53555   10955  11497
每种病原体的SPS包含从其基因组序列中衍生的嵌搭探针(HD=0,MCM=40)以及从其它病原体中衍生的交叉杂交性探针(HD=4,MCM=18)。
随后,我们考虑了可能影响我们的SPS探针性能的其它非特异性杂交现象。例如,我们观察到探针信号与%GC含量间的一般关系。与先前观察一致,我们发现GC含量<40%的探针产生减弱的信号强度,而GC含量>60%的探针显示更高的信号强度(Wong等,2004;Maskos和Southern,1993)。因此,我们利用%GC含量作为额外的选择筛选程序,而从我们的SPS中排除GC含量<40%及GC含量>60%的探针,尽管这些探针具有最佳的HD和MCM值。
与人基因组的序列相似性
在待检测的靶核酸从人提取的情况下(例如,含有病毒基因组的人样品),还应当避免使用与人基因组具有高度同源性的探针。因此,就对靶核酸va为特异的长度为m的任何探针sa而言,若探针sa与异于靶核酸的核酸的任何区域无任何标的,则选择探针sa,若长度为m的探针sa与异于靶核酸的核酸有标的,则选择长度为m的具有最小的最大比对长度和/或具有最低标的数的探针sa。尤其是,对于任何长度为m的探针sa,用BLAST算法找到sa对人基因组的标的(Altschul,S.F.等,1997)。使用BLAST字段大小(W=15)和期望值100来找到全部标的。若sa与人基因组无任何标的,则选择sa,也就是说,sa对va是特异性的。然而,若va的长度为m的全部子串与人基因组有标的,则选择具有最小的最大比对长度和具有最低标的数的那些子串。
此外由于与人序列的交叉杂交也可能使结果混乱,我们通过BLAST使用字段大小为15(Altschul等,1997)将全部探针与人基因组装配物(build17)(Intemational Human Genome Sequencing Consortium.Initial sequencingand analysis of the human genome.Nature 409(6822),860-921(2001).)进行比较。从SPS中进一步筛选具有期望值为100的探针(见上表2)。
因此,本发明提供设计用于核酸检测的寡核苷酸探针的方法,其中,就对靶核酸va特异的长度为m的任何探针sa而言,若探针sa与异于靶核酸的核酸的任何区域无任何标的,则选择探针sa,并且若长度为m的探针sa与异于靶核酸的核酸有标的,则选择长度为m的具有最小的最大比对长度和/或具有最低标的数的探针sa
此外,寡核苷酸探针设计还可以通过本发明的AES实施。尤其是,本发明提供选择和/或设计探针的方法,其中,若预测pi与所扩增靶核酸的位置i杂交,则选择在靶核酸的位置i的探针pi
尤其是,能够与所选区域杂交的寡核苷酸探针可以根据至少一种以下标准进行选择和/或设计:
(a)选择CG含量为40%至60%的探针;
(b)选择具有根据最邻近模型计算的最高自由能的探针;
(c)假定探针sa和探针sb分别是靶核酸va和vb的子串,则根据sa与来自靶核酸vb的长度为m的任意子串sb的汉明距离和/或sa与探针sb的最长公共子串来选择sa
(d)对靶核酸va特异性长度为m的任何探针sa而言,若探针sa与异于靶核酸的核酸的任何区域无任何标的,则选择探针sa,并且若长度为m的探针sa与异于靶核酸的核酸有标的,则选择长度为m的具有最小的最大比对长度和/或具有最低命标的数的探针sa;和/或
(e)若预测pi与所扩增靶核酸的位置i杂交,则选择在靶核酸的位置i的探针pi
根据本发明的具体方面,可以使用以上所述标准中的两项或多项设计寡核苷酸探针。例如,探针可以通过应用全部标准(a)至(e)进行设计。也可以使用在本文中没有明确提及但本领域技术人员知道的其它标准。
尤其是,根据标准(e),选择在靶核酸va的位置i的探针pi,若P(pi|va)>λ,其中λ是0.5并且P(pi|va)是pi应当与靶核酸va的位置i杂交的概率。更尤其是,λ是0.8。
根据另一方面,本发明提供如上所述的方法,其中, P ( p i | v a ) ≈ P ( X ≤ x i ) = c i k , 其中,X是代表va的所有探针的扩增效率得分(AES)值的随机变量,k是va中探针的数目,并且ci是其AES值≤xi的探针的数目。
根据另一方面,AES还可以用来设计随机引物标签以辅助通过随机PCR对样品进行随机扩增(这种应用如检测病原体、检测基因表达、构建克隆性DNA文库,和技术人员会采用随机PCR的其它应用)。
在支持物上合成寡核苷酸探针
根据本发明的另一方面,选择和/或设计如上所述的至少一种寡核苷酸探针的方法还包括制备选择的和/或设计的探针的步骤。设计探针包含通过任何合适的手段,例如通过使用软件,了解该探针的序列和/或设计该探针。制备探针的步骤包含实际地制备探针。可以根据本领域已知的任何标准方法制备探针。例如,探针可以是化学合成的或通过克隆法制备的。例如,如Sambrook和Russel,2001所述。
本发明还提供根据本发明的任何实施方案所制备的支持物,例如微阵列或生物芯片。
根据本发明的任何方法所设计和制备的探针可以在溶液中使用或可以被置于不溶性支持物上。例如,可以根据本领域已知的任何技术将探针施加到、点滴到或刷在不溶性支持物上。支持物可以是固体支持物或凝胶。被施加探针的支持物可以是微阵列或生物芯片。
更具体地,本发明提供用于从PCR扩增的cDNA中快速检测并鉴定病原体(例如病毒和/或细菌病原体)的基于寡微阵列杂交的方法,其中所述的cDNA是从原始组织样品中制备的。尤其是,该方法应用于从随机PCR扩增的cDNA中快速检测并鉴定病原体。
在以下描述中,探针的制备具体参考微阵列而进行。然而,支持物以及探针可以根据本申请的全部内容中的任何描述制备。尤其是,“阵列”是有目的创造的可以通过合成或生物合成制备的分子集合。阵列中的分子可以是彼此相同或不同的。阵列可以采用多种形式,例如,可溶性分子的文库;与树脂珠连接的化合物的文库、二氧化硅芯片或其它固体支持物。阵列平台或平台是具有多个阵列的物体,在该物体上每个阵列由抗液体通过的物理屏障与其它阵列分隔并形成区域及空间,称为“孔”。
样品制备和杂交到微阵列上
生物样品可以是采自哺乳动物的任何样品,例如来自人类。生物样品可以是血液、体液、唾液、尿、粪便等。生物样品可以是在实施扩增步骤前被处理以释放生物样品中包含的核酸。靶核酸可以是想要检测的任何核酸。待检测的靶核酸可以至少是对生物样品的核酸为外源的核酸。因此,若生物样品来自人,待检测的外源靶核酸(若其存在于生物样品内)是非人源的核酸。根据本发明的方面,待检测的靶核酸至少是病原体的基因组或基因组片段。病原体核酸可以至少是来自病毒、寄生虫或细菌的核酸或核酸片段。
根据本发明的一个方面,本发明提供靶核酸检测分析的方法。该方法可以是用于检测生物样品内病原体存在的诊断方法。来自生物样品的想要检测的靶核酸可以是任何靶核酸、RNA和/或DNA。例如,mRNA和/或cDNA。更具体地,待检测的靶核酸可以是病原体或非病原体。例如,它可以是至少一种病毒、至少一种细菌和/或至少一种寄生虫的基因组或基因组片段。对于本领域技术人员来说,可以根据已知的任何标准技术将选择和/或制备的探针放置、施加和/或固定在支持物上。支持物可以是不溶性支持物,例如固体支持物,尤其是微阵列和/或生物芯片。
根据具体实施例,使用已建立的方法和商业试剂盒从患者样品,例如组织、血清、鼻咽冲洗液、粪便,中提取RNA和DNA。例如,可以使用用于提取核酸的Qiagen Kit。或者,酚/氯仿法也可以用于提取DNA和/或RNA。可以使用本领域已知的任何技术,例如,如在Sambrook和Russel,2001中所述的技术。根据Bohlander等,1992和Wang等,2003描述的方法,使用标记的随机引物,将RNA逆转录成cDNA。cDNA随后通过随机PCR进行扩增。按照Wong等2004所述进行样品的片段化、标记以及将样品杂交至微阵列上。
微阵列合成
根据实施例部分所述的具体实验,本发明的发明人选择了代表在新加坡的病毒疾病中最常见病因的数种病毒基因组。使用从Genbank下载的全基因组序列,合成在全基因组范围内嵌搭并以5碱基解析度重叠的40mer探针。使用宁布勒根技术(Nuwaysir,E.F.,等,2002)在微阵列上直接合成每种病毒探针的7个复制品。探针在微阵列上随机分布,旨在使杂交人为产物的影响最小化。为控制样品对探针的非特异性杂交,设计并在微阵列上合成10,000个寡核苷酸探针。这10,000个寡核苷酸与人基因组或与病原体基因组没有任何序列相似性。它们是具有40-60%CG含量的随机探针。测量这些探针背景信号强度。作为阳性对照,在阵列上合成针对人基因的400个寡核苷酸探针,其中所述的人基因在免疫应答中具有已知或推测的功能。包含植物病毒PMMV作为对总计大约380,000个探针的阴性对照。在以下描述中,本发明将参考病原体检测芯片分析(又称作PDC)进行更具体地说明。然而,分析(方法)不限于这种具体实施方案,但包括在本申请的全部内容中所述的本发明数个方面。
检测靶核酸的方法
根据另一方面,本发明提供检测至少一种靶核酸的方法,该方法包括以下步骤:
(i)提供生物样品;
(ii)对该生物样品中所包含的核酸进行扩增;
(iii)提供能够与至少一种假定存在于生物样品中的靶核酸杂交的至少一种寡核苷酸,其中该探针是通过使用本文中所述的本发明任何方面的方法制备的;
(iv)使该探针与扩增的核酸接触和/或检测与至少一种靶核酸杂交的探针。
扩增步骤(ii)可以在随机引物、部分随机引物(即包含固定的部分和随机的部分)或特异性引物存在下进行。尤其是,扩增步骤(ii)可以在至少一种随机引物存在下进行。更尤其是,在至少一种随机正向引物和/或至少一种随机反向引物存在下进行。例如,扩增步骤(ii)可以在多于两种随机引物的存在下进行。可以使用本领域已知的任何扩增方法。例如,扩增方法是RT-PCR。
尤其是,本发明的发明人基于扩增效率得分(AES)开发了检测与靶核酸杂交的探针的方法。在本文中,该方法也可以称作本发明的算法。尤其是,与靶核酸va的位置i结合的正向随机引物和与靶核酸va的位置j结合的反向随机引物选自对靶核酸va的每个位置i具有以下扩增效率得分(AESI)的引物:
AES i = Σ j = i - Z i { P f ( j ) × Σ k = max ( i + 1 , j + 500 ) j + Z P r ( k ) } ,
其中 Σ k = max ( i + 1 , j + 500 ) j + Z P r ( k ) = P r ( i + 1 ) + P r ( i + 2 ) + . . . . . . P r ( j + Z )
Pf(i)和Pr(i)是随机引物ri作为正向引物和反向引物分别与va的位置i结合的概率,并且Z≤10000bp是va内欲扩增的区域。更尤其是,Z可以是≤5000bp、≤1000bp或≤500bp。
扩增步骤可以包含正向引物和反向引物,并且正向引物和反向引物中的每种引物可以在5’-3’方向上包含固定的引物头部和可变的引物尾部,并且,其中至少可变的尾部与靶核酸va的一部分杂交。尤其是,扩增步骤可以包含具有SEQ ID NO:1-7中任意的核苷酸序列或该核苷酸序列的变体或衍生物的正向随机引物和/或反向随机引物。
生物样品可以采自哺乳动物的任何样品,例如来自人类。生物样品可以是组织、血清、鼻咽冲洗液、唾液、任何其它体液、血液、尿、粪便等。生物样品可以在进行扩增步骤前被处理以释放生物样品中包含的核酸。靶核酸可以是想要检测的任何核酸。待检测的靶核酸可以至少是对生物样品的核酸为外源的核酸。因此,若生物样品来自人,则待检测的外源靶核酸(若其存在于生物样品中)是非人源的核酸。根据本发明的方面,待检测的靶核酸至少是病原体的基因组或基因组片段。病原体核酸可以至少是来自病毒、寄生虫或细菌的核酸或核酸片段。
因此,本发明提供检测生物样品中的至少一种靶核酸(若存在)的方法。该方法可以是用于检测生物样品中存在病原体的诊断方法。例如,若生物样品从人类得到,且如果该生物样品存在靶核酸,则该靶核酸为非人源的。
根据本发明的任何方法所设计和/或制备的探针可以在溶液中使用或可以被放置在不溶性支持物上。例如,可以根据本领域已知的任何技术将探针施加到、点滴到或刷在不溶性支持物上。所述支持物可以是固体支持物或凝胶。尤其是,被施加探针的支持物可以是微阵列或生物芯片。
随后将探针与生物样品的核酸接触,并且靶核酸(若存在)与探针杂交,并且检测靶核酸的存在。尤其是,在检测步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600551
va的信号强度的均值,则表明生物样品中存在va
更尤其是,在检测步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600552
va的信号强度的均值,并且该方法还包括以下步骤:计算具有高信号强度的探针va的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针
Figure A20068003697600554
va的信号强度的密度分布更为正偏,则表明生物样品中存在va
例如,在检测步骤(iv)中,t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵≥1.0、优选≥5.0时表示生物样品中存在靶核酸。尤其是,t-检验值≤0.05。
根据另一方面,本发明提供确定靶核酸va存在的方法,该方法包括检测探针与靶核酸va的杂交,并且其中与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600561
va的信号强度的均值,则表明存在va。尤其是,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600562
va的信号强度的均值,并且该方法还包括以下步骤:计算具有高信号强度的探针
Figure A20068003697600563
va的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针
Figure A20068003697600564
va的信号强度的密度分布更为正偏,则表明生物样品中存在va。更尤其是,t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵≥1.0、优选≥5.0时表示生物样品中存在靶核酸。例如,t-检验值可以是≤0.05。
根据另一方面,本发明提供检测至少一种靶核酸方法,该方法包扩以下步骤:
(i)提供至少一种生物样品;
(ii)对该生物样品中包含的核酸进行扩增;
(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸杂交的至少一种寡核苷酸;
(iv)使该探针与扩增的核酸接触并且检测与靶核酸杂交的探针,其中与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600565
va的信号强度的均值,则表明生物样品中存在va
在步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600566
va的信号强度的均值,并且该方法还包括以下步骤:计算具有高信号强度的探针
Figure A20068003697600567
va的比例与检测方法内所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针
Figure A20068003697600568
va的信号强度的密度分布更为正偏,则表明生物样品中存在va。尤其是,在检测步骤(iv)中,t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵≥1.0、优选≥5.0时表示生物样品中存在靶核酸。t-检验值可以是≤0.05。待检测的靶核酸可以至少是对生物样品的核酸为外源的核酸。待检测的靶核酸可以至少是病原体的基因组或基因组片段。病原体核酸可以至少是来自病毒、寄生虫或细菌的核酸或核酸片段。尤其是,当样品从人类得到时,且该生物样品中存在靶核酸,则该靶核酸为非人源的基因组。探针可以被放置在不溶性支持物上。支持物可以是微阵列或生物芯片。
使用RSV B模板序列的测试
为验证在病毒的不同区域所表现的信号强度上的变异是否与它们相应的扩增效率得分直接相关,对感染人的常见病原体,人呼吸道合胞体病毒B(RSV B),上进行总计5个微阵列实验。
其次,将上述的探针设计标准应用到从NCBI得到的RSV B的模板序列(NC_001781)。这产生了在每个阵列上点滴的1948个探针。在实际实验前还对RSV B的扩增效率图进行计算并表示在图2中。该图表示出具有高于平均AES的AES并显示具有更高扩增概率的RSV B的区域的峰。
使用5种含有人呼吸道合胞体病毒B(RSV B)的样品,进行独立的微阵列实验。将每个这种实验得到的信号强度表示在图3中。
对于每一个实验,将1948个探针的信号强度以递减顺序排序并与探针的对应AES值建立联系。发现p-值平均<2.2e-16。这表明在RSV B的位置i的探针的信号强度与AESi间的相关性并不是随机性的。进一步研究揭示在全部5个实验中始终产生高信号强度的约300个探针具有第90百分位水平上的扩增效率得分。
在已经说明所述描述的扩增效率模型对RSV B基因组工作良好后,还需要说明的是本发明的模型可以延伸用于其它病毒基因组。对人偏肺炎病毒(HMPV)进行另一个微阵列实验。此次在微阵列上存在1705个探针。再次计算对HMPV的扩增效率图。在本次实验中,信号强度与扩增效率得分的相关性检验产生1.335e-9的p-值。
因此,本发明的扩增效率模型能够预测在所述的实验方案中由病毒基因组的不同区域所产生的信号的相对强度。来自扩增效率得分低的区域中的探针极易于不产生信号强度或产生低信号强度。这将在微阵列上导致假阴性。此类探针将使微阵列数据的分析变得复杂,并且因为低信号强度的探针可能由于其靶基因组不存在或仅由于该探针未被扩增将使微阵列数据的分析变得更复杂。因此,应当选择区域内具有合理高的扩增效率得分的探针,以便使由于使用随机引物的RT-PCR方法所致的不精确性最小化。
用于病毒va的探针选择的扩增增效率得分阈值由va的AES值的累积分布函数确定。设X是代表va的全部探针的AES值的随机变量。设k是va中探针的数目。随后,我们指定AES值小于或等于x的概率是P(X≤x)=c/k,其中,c是具有小于或等于x的AES值的探针的数目。对于在va的位置i的探针pi,设xi是该探针的相应AES值。由于探针的信号强度与它的AES值高度相关,我们估计P(pi|va),即pi在va存在下具有高信号强度的概率,是P(X≤xi)。因此,
P ( p i | v a ) ≈ P ( X ≤ x i ) = c i k
其中ci是其AES值小于或等于xi的探针的数目。
对于探针选择而言,若P(pi|va)>λ,则选择探针pi。在本实验中,将λ设定为λ=0.8。
因此,本发明还提供探针设计的方法和/或靶核酸检测的方法,其中,若P(pi|va)>λ,其中λ是0.75并且P(pi|va)是pi在va存在下具有高信号强度的概率,则选择在靶核酸va的位置i上的探针pi。更尤其是, P ( p i | v a ) ≈ P ( X ≤ x i ) = c i k , 其中X是代表va的全部探针的扩增增效率得分(AES)值的随机变量,k是va的探针的数目并且ci是其AES值小于或等于xi的探针的数目。
靶核酸检测分析
在以下描述中,将参考病原体检测芯片分析(又称作PDC)更具体地说明本发明。然而,分析(方法)不局限于这种具体实施方案,但包括在本申请全部内容中所述的本发明的数个方面。因此,尤其是,假定使用一套长度为m的探针P={p1,p2,...,pl}的PDC,其中所述探针设计用于一套病毒基因组V={v1,v2,...,vn},则病原体检测芯片分析问题将是根据芯片数据检测样品中存在的病毒。这里的芯片数据是指由PDC上的探针信号提供的综合信息。因此,芯片数据D={d1,d2,...,dx}是PDC上的探针组P的对应信号组。
给定一种样品,不知道何种病原体存在该样品中,存在多少种不同病原体(如果确实存在)。然而如果病毒va确实存在于样品内,则va的探针的信号强度应当与来自其它病毒的探针的信号强度明显不同。具体而言,与其它病毒相比,更高比例的va的探针应当具有高信号强度。因此,可以预测va的探针的信号强度的均值在统计学上应当高于探针va的信号强度的均值。
因此,本发明提供与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A20068003697600592
va的信号强度的均值从而可能表示生物样品中存在va的方法。
然而,具有统计学上更高的均值仍可能不足以得出va存在于样品中的结论。优选地,可能需要额外的步骤。我们需要计算具有高信号强度的探针
Figure A20068003697600593
va的比例与检测方法内所用的具有高信号强度的探针的比例的相对差异。这是根据观察到探针∈va的信号强度的密度分布比探针
Figure A20068003697600594
va的信号强度的密度分布更为正偏的现象(见图4A中的箭头。为了比较,见图4B)。
基于以上观察,对病毒存在的芯片数据D按照以下分析。对于每种病毒va∈V,我们使用单尾T检验(Goulden,C.H.,1956)来确定探针∈va的信号强度的均值是否在统计学上高于探针
Figure A20068003697600595
va的信号强度的均值。因此,计算t-统计量:
t i = μ a - μ a ′ σ a 2 n a + σ a ′ 2 n a ′
其中μa、σa 2和na分别是探针∈va的信号强度的均值、方差和大小并且μa′、σa′ 2和na’分别是探针
Figure A20068003697600602
va的信号强度的均值、方差和大小。
为检验差异的显著性,将显著性水平设定为0.05。这意指当ta的p-值<0.05,才可接受探针∈va的信号强度的均值高于探针
Figure A20068003697600603
va的信号强度的均值的假定。在此情况下,va有可能存在于样品内。
单凭使本发明人知道病毒的信号强度分布是否不同于其它病毒的信号强度分布的t-检验可能不足以确定特定的病毒是否存在于样品内。还必须知道两种分布相似或不同到何种程度。可以用来测量真实分布与模型分布之间相似性的度量是相对熵(Kullback-Leiber,KL)(Kullback和Leiber,1951)。在本申请中,va中的探针的信号强度的概率分布是真实分布,而P中全部探针的信号强度的概率分布是模型分布。设Pa是va中的探针组。Pa和P的信号强度的概率分布的相对熵是:
KL ( P a | | P ) = Σ μ ≤ x ≤ max ( D ) f a ( x ) log ( f a ( x ) f ( x ) )
其中μ是P内的探针的信号强度的均值;fa(x)是Pa内的具有信号强度x的探针的分数;并且f(x)是P内的具有信号强度x的探针的分数。接着,若KL(Pa||P)=0,则Pa的概率分布与P的概率分布完全相同。否则,它们不相同。
由于样品内存在的病毒具有高于群体信号强度的信号强度,这表明若KL(Pa||P)>0,则va有可能存在于样品内。因此,KL值(Pa||P)越大,两种概率分布差异越大并且va确实存在于样品内的可能性越高。
值得注意的是,相对熵是在两种概率分布的全部x范围内的整体差异(collective difference)。因此,尽管相对熵擅长找到概率分布内的漂移,但它并非总是善于找到对概率分布的尾部影响更大的发散。如图4(A,B)所述,概率分布的尾部提供病毒是否存在于样品中的最多信息。因此,相对熵统计量必须进行改良以更精确地反映此类观察。
为提高相对熵在尾部上的灵敏性,我们向相对熵中引入稳定化或加权的统计量即安德森-塔林统计量(Stephens,M.A.(1974).EDF Statistics forGoodness of Fit and Some Comparisons,Journal of the American StatisticalAssociation,第69卷,第730-737页)。因此加权相对熵是:
WKL ( P a | | P ) = Σ μ ≤ x ≤ max ( D ) f a ( x ) log f a ( x ) f ( x ) Q ( x ) [ 1 - Q ( x ) ]
其中Q(x)是P内探针的信号强度的累积分布函数。
实验检测表明在不存在病毒的样品中,通过显著水平0.05的t-检验的病毒具有WKL<5.0。在确实存在病毒的样品中,实际病毒不仅通过显著水平0.05的t-检验,而且正是具有WKL≥5.0的病毒。因此,我们对存在于样品内的病毒设定加权相对熵阈值为5.0。该分析流程图如图5所示。
实施本发明方法的装置和/或产品
对本领域技术人员来说,如何配置可以实施本发明所提供的算法和/或方法的软件是熟知的。因此,本发明还提供被配置成实施根据本发明任何实施方案的算法和/或方法的软件和/或计算机程序产品。还提供至少一种电子存储介质。电子存储介质可以是计算机硬盘驱动器、光盘驱动器(CD-ROM)、闪存装置(例如,通用串行总线(USB)拇指驱动器(thumbdrive))、软盘或本领域内任何其它电子存储介质。软件可以在个人计算机、电脑主机和任何计算处理单元上运行,并且具体的配置是本领域技术人员公知的。
应当理解的是仅通过举例的方式描述了本发明,在设计中可以进行各种修改并不违背本发明的宗旨和范围。
在对本发明进行概括地描述后,将通过参考以下以说明方式提供的实施例使本发明更容易理解,但这并不是用来限制本发明的。
实施例
本领域内已知并且未进行具体描述的标准分子生物学技术通常遵循如Sambrook和Russel,Molecular Cloning:A Laboratory Manual,Cold SpringsHarbor Laboratory,New York(2001)中所述的内容。
微阵列合成
我们选择代表在新加坡病毒疾病的最常见病因的35种病毒基因组(见上表1)。
全基因组序列从NCBI分类学数据库(NCBI Taxonomy Database)(http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/)下载以产生在全基因组范围内嵌搭的并以平均8碱基解析度重叠的40mer探针序列。使用Nimblegen专利技术(Nuwaysir,E.F.,等,2002)在微阵列上直接合成每种病毒探针的7个复制品。探针在微阵列上随机分布,旨在使杂交人为产物的影响最小化。为控制样品对探针的非特异性杂交并测量背景信号,设计并在微阵列上合成10,000个寡核苷酸探针。它们是具有40-60%CG含量的与人基因组或与病原体基因组无序列相似性的随机探针。作为阳性对照,在阵列上合成针对人基因的400个寡核苷酸探针,其中所述的人基因在免疫应答中具有已知或推测的功能。包含植物病毒PMMV作为对总计390,482个探针的阴性对照。
样品制备、微阵列杂交和染色
登革病毒细胞系(ATCC#VR-1254)根据ATCC推荐进行培养,而Sin850SARS细胞系如Vega等(Vega等2004)所述进行培养。临床标本(鼻咽冲洗液)从印度尼西亚小儿群体中得到并储存在-80℃的RNAzol中(Leedo MedicalLaboratories,Inc.,Friendswood,TX)。全部疑似肺炎患者的年龄在7至38月龄间,表现呼吸道疾病的特异性临床征状。RNA用RNAzol根据制造商说明书进行提取(Smalling等2002;Tang等1999)。提取的RNA重悬于RNA贮藏液(Ambion,USA)中并在-80℃储存直至需要。根据Bohlander等和Wang等(Wang等2002;Bohlander等1992)描述的方法,使用标记的随机引物将RNA逆转录成cDNA。随后,cDNA如前所述(Wong等2002)通过随机PCR进行扩增、片段化、用生物素标记末端、杂交至微阵列上以及染色。在初始实验中,我们发现探针的GC含量可能在信号强度检测中产生人为现象,即信号的增加直接与探针的GC含量成正比。添加0.82M氯化四甲基铵(TMAC)至Nimblegen的专利TMAC杂交缓冲液内则消除这种人为现象。
用于RSV和hMPV的实时诊断性RT-PCR
20μl反应混合物含有2μl纯化的患者RNA,5U MuLV逆转录酶,8U重组RNA酶抑制剂,10μl无UNG的2X通用PCR主混合物(均来自AppliedBiosystems),0.9μM引物和0.2μM探针。实时RT-PCR在ABI Prism 7900HTSequence Detection System(Applied Biosystems)中进行。RT在48℃进行30分钟,随后为激活DNA聚合酶,在95℃维持10分钟。RT产物的扩增通过95℃保持15秒并在60℃保持1分钟的40个循环实现。每个PCR测定法内包括阴性对照和质粒克隆的系列稀释物(阳性对照)。扩增期间,在每个热循环上监测荧光发射。阈值(CT)代表首次检测到明显荧光的循环。使用浓度已知的对照质粒,将CT值转换成拷贝数。对于RSV,2.61×109个拷贝具有CT值为11.897,而对于hMPV,7.51×109个拷贝具有CT值为10.51。
用于冠状病毒和鼻病毒的1-步诊断性RT-PCR
人冠状病毒OC43、229E和鼻病毒16的冷冻活培养物从ATCC(货号VR-1558、VR-740、VR-283)购买,用作阳性对照。使用RNA Mini Kit(Qiagen,Germany)根据制造商说明书从这些培养物中提取RNA。使用以下诊断性引物对:泛冠状病毒(Cor-FW,Cor-RV),OC43(OC43-FW,OC43-RV),229E(229E-FW,229E-RV),鼻病毒(扩增引物1(Amplimer 1),扩增引物2(Amplimer 2))(
Figure A20068003697600641
等2005;Deffernez等2004),如前所述扩增样品。
病原体微阵列数据的分析
我们的病原体微阵列含有一套40mer探针P={p1,p2,...,ps},分组为针对35种病毒基因组V={v1,v2,...,v35}的明显不同的探针杂交标签。在杂交病原体核酸时,产生与探针组P对应的一组探测信号强度数据D={d1,d2,...,ds}。
单尾T检验
若病毒va存在,则包含病毒的杂交标签的探针(探针∈va)应当在统计学上具有比探针
Figure A20068003697600642
va更高的由以下t-统计量(单尾T检验)所确定的信号强度:
t i = μ a - μ a ′ σ a 2 n a + σ a ′ 2 n a ′
其中μa、σa 2和na分别是探针∈va的信号强度的均值、方差和大小并且μa′、σa′ 2和na’分别是探针
Figure A20068003697600644
va的信号强度的均值、方差和大小。
将显著性水平设定成0.05。这意味当ta的p-值<0.05,我们才会接受探针∈va的信号强度的均值高于探针
Figure A20068003697600651
va的信号强度的均值的假定。在此情况下,va有可能存在于样品内。然而,检测的T-检验法产生了许多假阳性信号(calls)。
PDA v.1
PDA v.1包含一系列统计检验,始于加权相对熵检验和Z-得分转换(WKL得分),随后是用于正态性的安德森-塔林检验。
假定病毒为va。设Pa是病毒va的探针组并且Pa=P-Pa。设[r,r]是信号强度范围。我们将信号强度对j=0,1,...,c-1分成c个组
Figure A20068003697600652
未改良的加权相对熵可以由下式计算
KL ( P a | P a ‾ ) = Σ j = 0 c - 1 f a ( j ) log ( f a ( j ) f a ‾ ( j ) )
其中na j
Figure A20068003697600654
分别是包含于组bj内的在Pa内探针的数目和在Pa内探针的数目。 f a ( j ) = n a j Σ h = 0 c - 1 n a h 是在组bj中所找到Pa内探针的分数;和 f a ‾ ( j ) = n j a Σ h = 0 c - 1 n a ‾ h 是在组bj中所找到Pa内探针的分数。
为比较概率分布的尾部的信号差异,我们设定r=μa,即Pa内探针的平均信号强度,并且r=最大信号强度。我们设定组的默认数目c=20。
为进一步稳定和/或增加相对熵在概率分布的尾部上的灵敏性,做了两处改良。首先,我们将安德森-塔林型加权函数导入相对熵。这赋予分布的尾部比分布的中间部分更多的权重。其次,我们对这两种相应的累积分布函数使用统计量代替它们的概率密度函数。我们将改良的相对熵称作加权相对熵(WKL得分):
Figure A20068003697600661
其中Qa(j)是在组bj中找到Pa内的探针的信号强度的累积分布函数;Qa(j)是在组bj中所找到Pa内的探针的信号强度的累积分布函数。
因此,对于每种杂交的样品,我们计算每种病毒va∈V的WKL得分。其次,我们断言若样品内不存在病毒,则全部病毒va∈V的WKL得分的分布大致是正态性的。我们通过引导方法(bootstraping process)实验性验证了我们的断言是否正确:设n是V内病毒的数目。对于每种病毒vk∈V,其中k=1,...,n,我们从真实数据组D中选择|vk|探针信号强度|vk|以随机替换方式形成vk的“扰动性”信号强度分布。这种分布可以模拟病毒vk不存在于样品D中的情况。此后,产生对n个病毒组的n个WKL得分。其次,我们通过对正态性在95%置信度区间的安德森-塔林检验核对n个WKL得分是否服从正态分布。重复引导方法100,000次。在大于99%的次数中发现分布是正态性的(注意:由于在我们的微阵列上代表35种病毒基因组,故n=35)。
根据以上讨论,我们通过建立以下无假设和择一假设可以测试样品是否含有病毒:
H0:WKL得分的分布是正态性的,即病毒不存在于样品内。
H1:WKL得分的分布不是正态性的,即至少1个病毒存在于样品内。
定义  将安德森-塔林检验定义为:
H0:数据服从特定的分布。
Ha:数据不服从特定的分布。
检验统计量:将安德森-塔林检验统计量定义为
A2=-N-S
其中
S = Σ i = 1 N ( 2 i - 1 ) N [ ln F ( Y i ) + ln ( 1 - F ( Y N + 1 - i ) ) ]
F是特定分布的累积分布函数。注意Yi是有序数据。
显著水平:α
临界区:安德森-塔林检验的临界值取决于被检验的具体分布。用表格表示的值和公式已经发表(Stephens,1974,1976,1977,1979)用于几种特定分布(正态分布、对数正态分布、指数分布、Weibull、对数分布、1型极值分布)。检验是单侧检验并且若检验统计量A大于临界值,则分布具有特定形式的假设被放弃。
我们开始应用安德森-塔林检验验证WKL得分的分布的正态性以放弃具有95%置信度区间的H0。若WKL得分的分布不是正态性的,则我们排除具有异常(outlying)WKL得分的病毒,并再次应用安德森-塔林检验。重复该过程(以鉴定共感染性病原体的存在)直到接受H0为止。
我们指定接受H0时的WKL得分的分布是背景WKL分布。因此,被排除的病毒很有可能存在于样品中,因为它们的WKL得分不服从背景WKL分布。
在我们的实验中,观察到含有病毒的样品内的P,即非正态分布因随机偶然性对给定WKL得分发生的概率,是极低的,即P<1.0×10-6(通过WKL得分的Z-得分转换而得到)。表1显示用于我们的病毒检测算法的伪码。
表1:病毒检测算法
  给予病毒组V和探针组P病原体微阵列数据D设V存在=F设DWKL是对全部v∈V的WKL(Pv||Pv)组;1.以安德森-塔林检验来验证正态性以确定DWKL的正态性。若DWKL具有显著水平0.05的正态分布,返回V存在。否则,进入步骤2。2.从DWKL中找到具有最高WKL(Pa||Pa’)的病毒va。设V存在=V存在∪{va};DWKL=DWKL-{WKL(Pa||Pa’)};进入步骤1。3.剔除检测到的SPS并验证WKL分布是正态性的。4.若该分布不是正态性的,返回步骤2以找到共感染性病原体。
预测全基因组的扩增偏倚
为鉴定临床标本内的未知病原体,优选采用随机引物扩增,而不是引物特异性扩增。然而,在使用随机引发扩增来鉴定已知病原体的初始实验中,我们经常观察到通过序列多态性无法解释的遍及基因组区域的不完全杂交(图7C)。基因组二级结构、探针二级结构和探针GC含量也无法解释这些低信号强度的探针。因此,我们假设不完全杂交可能归因于PCR偏倚,其中所述的PCR偏倚来源于随机引物在逆转录(RT)步骤中与病毒基因组结合的差异性能力。我们实验中所用的随机引物是26mer,其包含以固定的17mer序列(5’-GTTTCCCAGTCACGATA)(SEQ ID NO:1)为标签的随机九聚物(3’)(仍见图1),其中固定的5’标签的目的是为了促进RT产物的PCR,产生小于10000bp的PCR片段,尤其是500-1000bp PCR片段(Pang等2005;Wang等2002;Wang等2003)。为研究此现象,我们设计一种算法(AES)使用实验数据以模拟RT-PCR方法。成功的RT-PCR取决于引物与模板的结合。已知引物内二级结构的形成,如两个模板间形成的二聚体和发夹,引物内二级结构的形成,如标签与九聚体间形成的二聚体和发夹,及探针的解链温度影响结合效率(Nguyen和Southern,2000;Ratushna等2005)。
假设随机引物混合物内的九聚体与病毒基因组序列完美互补,则该算法确定可以从基因组内每个可能的起始位置中产生500-1000bp产物的概率。因此,对于1000碱基的滑动窗口内的每个核苷酸而言,该核苷酸成功地被扩增的概率在它的扩增效率得分(AES;见上文“扩增效率得分”)中被反映出来。为证实算法的有效性,我们将针对RSV基因组的全部1,948个SPS探针的杂交信号强度分级,并将SPS探针的杂交信号强度与SPS探针的AES值比较。在整个RSV基因组范围内,我们观察到AES与杂交信号强度充分相关(Fisher’s精确概率法检验P=2.2×10-16),这表明AES与探针检测间的强相关性(图12)。另一个使用针对偏肺炎病毒的1,705个SPS探针的比较显示了类似结果,P=1.3×10-9。图10表示了AES在预测临床样品内的SPS探针检测中的重要性。值得注意的是,我们观察到更高的AES值与更高比例的可检测探针相关,尤其是AES值的最高的20%。因此,尽管HD、MCM、%GC及序列独特性是探针性能重要的参数,然而它们没有考虑PCR偏倚,因此在缺少AES下考虑时,它们不能充分预测探针性能。在选择病原体SPS中使用最高的第20百分位的AES作为第一筛选程序明显地改进了病原体的预测,这由更高WKL得分和消除假阳性信号证明(表3)。
表3:仅使用平均探针信号强度检测病原体(T-检验)产生大量的假阳性信号。优化的杂交标签和与人基因组交叉杂交的探针的剔除(筛选)减少了假阳性信号,但是这对检测精确性仍是不充分的。使用完整的未筛选的探针组,PDA v.1能够作出准确诊断。若WKL得分>5,则“检测”到病毒。使用优化的杂交标签(筛选)增加了WKL得分,这与诊断置信度提高相对应。病毒CT值:检测到病毒时的实时PCR循环(见上文)。
Figure A20068003697600701
将阵列上所杂交的全部患者样品的数据表示在下文表4中。
表4.杂交到病原体微阵列上的临床患者的完整列表
阵列   患者ID WKL P-值   PDA v.1诊断   临床诊断*   初始PCR诊断   PCRCT值   病毒拷贝数   RT-PCR引物
35179 122 8.439216   1.34×10-71 hMPV LRTI hMPV 24.8   5.0×104   A1
35887 122 18.312077   2.98×10-22 hMPV LRTI hMPV 24.8   5.0×104   A2
71180 133 17.359597   2.42×10-37 hMPV LRTI hMPV 25.1159   4.0×104   A2
66691 165 8.56786   1.84×10-4 hMPV 肺炎 hMPV 27.9   3.9×103   A2
70935 254 21.348515   8.70×10-30 hMPV LRTI hMPV 21.9518   5.4×105   A2
  63781   283   16.680752   3.97×10-12   hMPV   肺炎   未知   A2
73067 769 24.006323   1.34×10-51 hMPV LRTI hMPV 25.6715   2.5×104   A2
  66690   853   未检测到   肺炎   hMPV   36   0.5   A2
  68359   892   12.534284   5.66×10-5   鼻病毒属 肺炎 hMPV 33.8 27 A2
35915 111   未检测到   阴性对照1 None A1
70927 818   未检测到   阴性对照1 None A2
66701 312   未检测到 肺炎 RSV A 33.7 44 A2
71006 321   未检测到 肺炎 RSV A 31.1 340 A2
66702 368   未检测到 肺炎 未知 A2
71025 414 25.406289   3.80×10-24 RSVB 肺炎 RSVA 22.3 3.9×105 A2
71027 478   未检测到 肺炎 RSV A 34.8 18 A2
73068 832 59.275233   1.91×10-102 RSV属 LRTI RSV A 23.7681 1.2×105 A2
71028 913 25.897084   3.23×10-30 RS V B 肺炎 RSV A 19.1 4.7×106 A2
66703 924 12.673149   9.71×10-6 RSV属 肺炎 RSV A 31.5 250 A2
35259 324 20.61147   3.55×10-94 RSV B LRTI RSV B 21.4366   3.0×106   A1
35662 355 17.999418   2.97×10-40 RSV B LRTI RSV B 20.2642   6.7×106   A1
66695 374   未检测到 肺炎 RSV B 34.1 500 A2
70933 378 13.81578   7.77×10-17 RSV B LRTI RSV B 23.9204 5.4×105 A2
36042 412 17.531234   4.58×10-55 RSV B LRTI RSV B 23.5804 6.9×105 A1
35890 412 17.214556   1.05×10-43 RSV B LRTI RSV B 23.5804 6.9×105 A2+A3
36053 483 12.168025   1.47×10-12 RSV B LRTI RSV B 24.834 2.9×105 A1
70997 554 76.54718354.013223   1.83×10-1192.45×10-61   鼻病毒属;肠道病毒科 肺炎 RSV B 35.1 240 A2
35253 841 12.069138   4.86×10-26 RSV B 肺炎 RSV B 20.8619   4.4×106   A1
73070 841 22.108575.708560   6.80×10-505.66×10-6   RSV B,hMPV共同感染 肺炎 RSV B/hMPV 20.861935.4 4.4×1068 A2
68360 841 21.3695169.647188   2.09×10-251.23×10-8   RSV B,hMPV共同感染 肺炎 RSV B/hMPV 20.861935.4 4.4×1068 A2
66696 185   未检测到 肺炎 未知 A2
66697 261   未检测到 肺炎 未知   A2
66698 331   未检测到 肺炎 未知   A2
71189 393   未检测到 肺炎 未知 A2
66699 461   未检测到 肺炎 未知 A2
66700 573 41.39705127.444893 3.97×10-231.34×10-11   鼻病毒属;肠道病毒科 肺炎 未知 A2
71182 639   未检测到 肺炎 未知 A2
71007 699   未检测到 肺炎 未知 A2
71188 859   未检测到 肺炎 未知 A2
*LRTI:下呼吸道感染
AES的重要性表明扩增效率和随后的探针检测可以通过使用优化的RT-PCR引物标签被改善。因此,我们使用随机生成的17mer标签序列计算AES得分,并选择前三位差异最大的导致最全面地增加AES得分的引物(图13)。使用AES优化的引物,我们从临床样品中扩增了偏肺炎病毒和RSV,具有改良的PCR效率和检测灵敏性(图14,表5)。
表5:用患者样品#412和#122比较E-Predict与PDAv.1算法。阵列35179使用在结果中所述的原始PCR引物进行扩增。阵列36731和35887使用引物A2进行扩增,阵列35890使用两种引物A2和A3进行扩增。PDAv.1在所有情况下都只反馈了正确的病原体。E-Predict的作者使用P<0.01作为其平台的显著性界限值(Urisman等2005)。若使用该算法来分析我们的阵列数据,则似乎需要更低界限值。使用两种算法(阵列35179与35887)中的任何一种算法,由PCR建模所设计的新引物均产生更好的预测得分。在PCR过程期间使用了第二种引物在WKL得分和P-值方面表现出增加的改良(阵列36731与35890)。
Figure A20068003697600731
Figure A20068003697600741
Figure A20068003697600751
PDA v.1-用于检测病原体的算法
对基因组扩增而言,临床标本往往是次优的:它们可能具有低病毒滴度,具有与阵列上参考株不同的序列多态性,或具有共感染性病原体。微阵列还具有来自非特异性杂交和其它人为产物的固有噪音。因此,解读微阵列数据不仅仅是使探测信号强度曲线与SPS匹配,或使用简单的统计方法(例如,T-检验,ANOVA等)。为解决此问题,我们建立了加强的统计软件PDAv.1,相对于计算机模拟预测的SPS,该软件分析探针信号强度的分布来鉴定在杂交的样品内存在的病原体(见上文)。
基于我们的观察,即尽管对阵列上全部探针的信号强度处于正态分布,然而包含存在于样品内的病原体SPS的大部分探针具有非常强烈的产生向右偏斜的分布信号强度;我们推断通过分析探针信号强度的分布可能检测到病原体的存在(图9A)。检验每个SPS的信号强度分布的尾部还能够使我们鉴定样品内共感染性病原体的存在。
因此,PDA v.1包含2个部分:(1)用于评估每种病原体SPS内探针的探针信号强度的增强的加权相对熵(WKL;我们的增强相对熵检验),和(2)用于确定每种SPS的WKL得分的分布是否是正态的安德森-塔林检验。
原来的相对熵不能可靠地确定概率分布尾部内的差异,并且高度依赖探针/基因组的数目及每个信号强度组的大小(Kullback和Leibler,1951)。我们通过以下方式克服这些缺陷,即通过引入安德森-塔林统计量以给予每个分布的尾部更大权重,和通过使用累积分布函数替代原有的概率分布(Anderson和Darling,1952)。我们称增强的KL发散度为加权相对熵(WKL):
Figure A20068003697600761
其中Qa(j)是在组bj中找到Pa内的探针的信号强度的累积分布函数;Qa(j)是在组bj中所找到Pa内的探针的信号强度的累积分布函数。代表无病原体的SPS应当具有正态的信号强度分布并且因此具有相对低的WKL得分,而代表有病原体的那些SPS应当具有高的统计学显著的异常WKL得分(图9B)。在PDA v.1的第二部分中,使WKL得分的分布接受安德森-塔林检验处理以评价正态性。若P<0.05,认为WKL分布不是正态的,表明具有异常WKL得分的病原体存在。鉴定病原体时,在缺少病原体的WKL得分下进行独立的安德森-塔林检验以检测共感染性病原体的存在。以这种方式,反复进行该过程直至仅剩下正态分布(即P>0.05;见上表3和表4)。PDA v.1是极其迅速的,能够在约10秒内从杂交的微阵列中作出诊断。
对33份临床患者样品的病原体诊断
根据图11中所示的工作流程,我们通过将33份临床标本杂交至病原体微阵列平台上评估我们的平台。这些临床标本中的27份标本先前已经被诊断为感染RSV A、RSV B或偏肺炎病毒。我们的平台从21/27样品中精确地检测到病原体。没有检测到病毒(假阴性)的6份样品处在通过实时PCR(<10个病毒拷贝/反应)所确定的检测界限值上,并且如此低的病毒负荷不可能成为导致患者严重疾病的病因学病原。这6份样品中的2份由微阵列正确地诊断为感染鼻病毒。在另一个因未知病原体所致的严重呼吸道疾病的6位患者的筛查中,微阵列鉴定出在一份样品中存在病因学病原(鼻病毒)(上表4)。这些结果通过实时PCR进行验证。如所预期,当我们杂交从无病毒病因学的肺炎患者中提取的样品时,未检测到任何病原体。
数据分析
使用Axon 4000b扫描仪和Genepix 4软件(Axon Instruments)以5μm解析度扫描微阵列。使用Nimblescan 2.1软件(NimbleGen Systems)提取信号强度,使用自动化脚本,我们从每个探针的7个复制品中计算出中等信号强度(以消除杂交人为产物)和标准差。探针信号强度根据基因组进行分组并按序列顺序排列,随后再格式化成CDT格式,以便在Java Treeview(http://jtreeview.sourceforge.net)中以图形方式观察使信号强度。平行地,使用PDA v.1分析探针的中等信号强度来确定哪种病原体存在和相关的预测置信度水平。本发明的发明人通过实验来证实探针设计对实验结果的影响并随后显示本发明分析算法鲁棒性。
探针设计对实验结果的影响
将含有来自35种病毒的53555个40mer探针的PDC用于4个独立的微阵列实验。这53555个探针是根据每种病毒的5-bp嵌搭(tiling)进行选择的并且不经过我们的任何探针设计标准处理。因此,我们预期因CG含量、交叉杂交和低效率扩增所产生的错误显著多于设计良好的探针的PDC的错误。我们将4个实验处于这种不利的环境下测试我们的分析算法。
在该实施例中,具有未知病原体的人样品使用随机探针通过RT-PCR方法进行扩增并随后杂交至PDC上。我们使PDC上35种病毒中每种病毒的探针接受显著水平0.05的单尾T-检验,并计算探针的信号强度相对于芯片上全部探针的信号强度的加权相对熵,以对每一个实验确定哪种病毒存在于样品内。证实我们程序的分析精确性是通过增压舱(wet-lab)PCR以鉴定样品内的实际病毒实现。在表6中我们提供了对表6内4个实验的分析结果以及它们相应的PCR验证结果。
表6:对未应用探针设计标准的PDC进行分析产生的结果。由我们的分析算法确定是样品中实际病毒的病毒用浅灰颜色标出,其中所述的样品对每个实验进行测试的。
Figure A20068003697600781
Figure A20068003697600791
Figure A20068003697600801
这些结果表明该分析算法精确推断出前3个实验中的所测试样品内的实际病毒(结果示表示在上表6内)。此外,我们能够推断在最后一个实验中的样品无病毒。值得注意的是若我们仅使用显著性水平0.05的t-检验,则在下表7中表示出对每份样品中检测存在的病毒的数目。
表7:仅使用t-检验推断出的病毒的假阳性检测
  样品名称   35259_324   35179_122   35253_841   35915_111
  使用T-检验所检测的病毒 9 14 9 10
  假阳性   8   13   8   10
  最大KL发散度(>5.0) 16.391 5.76 10.85 -
  使用T-检验随后用KL发散度所检测的病毒 1 1 1 0
对通过t-检验的病毒使用加权相对熵,我们能够剔除全部假阳性病毒并鉴定实际病毒。因此,我们的分析算法可以在高水平噪音下稳定地确定病毒。
然后,我们研究使用具有探针设计标准的PDC对我们的分析结果带来的影响。首先,对35种病毒的每种病毒计算扩增效率图。随后,使原始PDC上的实际53555个探针经受探针设计标准处理。从芯片中剔除具有极端水平CG含量、与人和非靶病毒相似性高和扩增效率得分低的探针。为第二组实验留下总计10955个探针。使用在第一组实验内所用的样品,我们用新芯片重复下表8内的4个实验。实验结果列在表8中。
表8:对应用探针设计标准的PDC分析产生的结果。由我们的分析算法确定是样品内实际病毒的病毒用浅灰颜色标出,其中所述的样品对每个实验进行测试。
Figure A20068003697600811
Figure A20068003697600821
在以下的实验组中,分析算法正确地检测到3份样品内的实际病毒并且还检测出阴性样品。在为我们的芯片设计优异的探针后,实验1、2和3内实际病毒的加权相对熵大于无探针设计的相应实验的实际病毒的加权相对熵。这意味来自实际病毒的信号强度比PDC内的背景噪音相对更高。这证实我们的探针设计标准已经从PDC中剔除一些不良探针,这产生更精确的分析。
若我们仅使用显著性水平0.05的T-检验,我们再一次将4个实验的结果列在下表9中。此时,对每份样品中检测存在的病毒的数目列在表9中:
表9:在具有探针设计的PDC中仅使用t-检验推断的病毒的假阳性检测。
 样品名称   35259_324   35179_122   35253_841   35915_111
 使用T-检验所检测的病毒 6 9 9 10
 假阳性   5   8   8   10
 最大KL发散度(>5.0)   18.54859   9.324785   11.17914   -
 使用T-检验随后用KL发散度所检测的病毒 1 1 1 0
从表9中,可以看到探针设计已经减少由t-检验对样品35259_324和35179_122所检测到的假阳性病毒的数目。更重要的观察是实际病毒的加权相对熵对全部4个样品均增加。这意味当探针设计标准应用于PDC时,实际病毒的信号比背景信号具有更大差别。
总之,我们证实使用显著水平0.05的单尾t-检验,随后对每种病毒的信号强度计算加权相对熵,能够精确分析PDC上的数据并高概率地确定样品内的实际病原体。尽管该分析算法甚至在高水平噪音下运行良好,然而我们证实该通过使用上述探针设计标准为PDC选择优异探针组可以改善分析的精确性。
用于探针设计和病原体检测的备选方法
非常少的算法可用于预测微阵列上的交叉杂交,仅1种算法,即E-预测法(E-predict)已经被报道并被验证在微阵列上检测病原体的有效性(Urisman等2005;Li等2005)。E-预测使杂交标签与预测的标签匹配,其中预测的标签从对每种微阵列探针的杂交的理论自由能中产生。然而,使用E-预测法分析我们的微阵列产生许多假阳性信号(见上表5)。例如,E-预测法在RSV患者412内检测到冠状病毒(图15)。使用泛冠状病毒引物以及OC43和229E冠状病毒特异性诊断引物的诊断性PCR证实患者412中无冠状病毒(见上表4)。我们假设使用E-预测法导致的假阳性信号由与人基因组或RSV基因组交叉杂交的冠状病毒探针中产生。实际上,预测85%的具有最高信号强度的50个冠状病毒探针与人基因组交叉杂交和65%的所述探针具有相对于RSV的小于17的HD,其中所述HD仅高于我们用于家族的交叉杂交的HD阈值12。此外,优化E-预测法以在含有病毒基因组区域间高度保守的探针的微阵列上工作,而不是在其中与人基因组交叉杂交将是重要考虑因素的嵌搭(tiling)阵列上工作。因此,有可能这两种因素——不同的微阵列设计策略和与人基因组交叉杂交——造成E-预测法在我们的平台上表现不佳。从我们使用E-预测法的经验来看,将PDA v1与其它算法比较对我们而言是不合理的,因为后者针对不同的探针长度进行设计并针对其它的应用和平台进行优化的。
结论
通过实验地确定交叉杂交阈值,我们产生了计算机模拟的病原体标签探针组,该探针组仅包含与临床样品内存在的特定病毒良好杂交的探针。AES算法使我们可以设计高效扩增完整病毒基因组的通用引物标签。连同PDAv.1检测算法,我们可以确定无疑地鉴定来自于临床样品中的由微阵列上所代表的任何病原体。这种方法不需要实验性验证每种病原体杂交标签的有效性并使含有针对>10000种病原体的探针的其它微阵列成为病原体鉴定的有力诊断性平台。
我们已经优化了对病原体检测微阵列的设计和分析,便于它们在医院环境中使用。我们发现随机PCR内例行所用的引物标签是偏倚性的,这导致病原体基因组的非均一性扩增。这种偏倚可以通过使用我们的AES算法设计引物被避免。我们的计算机模拟的标签探针组使我们精确预测哪些探针将与阵列上所代表的任何病原体杂交。连同PDA v.1检测算法,这种方法不需要实验性验证每种病原体杂交标签的有效性并使含有针对>10000种病原体的探针的其它微阵列成为病原体鉴定的有力诊断性平台。
本文中,我们报道了使用定制设计的微阵列平台以系统地研究病毒扩增效率、杂交信号输出、靶-探针复性特异性与病原体检测的可重复性间复杂关系的结果。我们的发现形成了用于计算机模拟预测最佳病原体标签探针组(SPS)的新方法学的基础,(在微阵列杂交前)揭示决定病毒扩增效率的因素并且证实病毒扩增效率得分(AES)与最佳探针选择间的重要联系。最后,我们描述了新的基于统计的病原体检测算法(PDA),它可以快速并可重复地鉴定临床标本中一系列病毒滴度范围内的病原体。
我们已经证实当存在至少4000个病毒拷贝时,使用从公众可用的数据库中得到的病毒基因组序列以高度的确定性检测临床样品内病毒的可行性(见上表3)。该算法的灵敏性接近抗原检测法的灵敏性,从而使本算法成为临床上有关的检测工具(Liu等2005;Marra等2003)。通过计算机模拟精确预测病原体杂交标签的能力的确具有胜过现有微阵列方法的明显优势,其中现有微阵列方法需要通过首先将阵列与纯的病原体样品杂交而实验性验证有效性。除了特异性鉴定阵列上所代表的病原体以外,PDA v.1还使对阵列上没有得到具体代表的那些基因组鉴定病原体的纲、科或属(通过放宽HD和MCM的阈值)。这种信息对于临床中的治疗决策往往是足够的。使用AES优化的标签,我们能够鉴定在使用非AES优化的标签进行扩增时从临床样品中先前不能检测到的病毒。因此,选择AES优化的标签提高PCR效率和灵敏性。本发明的算法可以适用于其它基于标签的PCR应用,如生成DNA文库和富集用于再测序的RNA。
参考文献
Altschul SF,Madden TL,Schaffer AA,Zhang J,Zhang Z,et al.(1997)Gapped BLAST and PSI-BLAST:a new generation of protein database searchprograms.Nucleic Acids Res 25:3389-3402.
Anderson TW,Darling DA(1952)Asymptotic theory of certain goodnessof fit criteria based on stochastic processes.Annals of Mathematical Statistic23:192-212.
Bodrossy L,Sessitsch A(2004)Oligonucleotide microarrays in microbialdiagnostics.CurrOpin Microbiol 7:245-254.
Bohlander SK,Espinosa I,Rafael,Le Beau MM,Rowley JD,Diaz MO(1992)A method for the rapid sequence-independent amplification ofmicrodissected chromosomal material.Genomics 13:1322-1324.
Bustin,S.A.& Nolan,T.(2004)Pitfalls of quantitative real-timereverse-transcription polymerase chain reaction.J Biomol Tech 15,155-166.
Deffernez C,Wunderli W,Thomas Y,Yerly S,Perrin L,et al.(2004)Amplicon Sequencing and Improved Detection of Human Rhinovirus inRespiratory Samples 10.1128/JCM.42.7.3212-3218.2004.J Clin Microbiol 42:3212-3218.
Fu J,Tan BH,Yap EH,Chan YC,Tan YH(1992)Full-length cDNAsequence of dengue type 1virus(Singapore strain S275/90).Virology 188:953-958.
Goulden,C.H.Methods of Statistical Analysis,End.2nd.(John Wiley &Sons,Inc.,New York;1956).
Hanming RW(1950)Error Detecting and Error Correcting Codes.BellSystem TechnicalJournal 29:147-160.
International Human Genome Sequencing Consortium.Initial sequencingand analysis of the human genome.Nature 409(6822),860-921(2001).
Kane MD,Jatkoe TA,Stumpf CR,Lu J,Thomas JD,et al.(2000)Assessment of the sensitivity and specificity of oligonucleotide(50mer)microarrays.Nucleic Acids Res 28:4552-4557.
Kane,M.D.et al.Assessment of the sensitivity and specificity ofoligonucleotide(50mer)microarrays.Nucleic Acids Res 28,4552-4557(2000).
Ksiazek TG,Erdman D,Goldsmith CS,Zaki SR,Peret T,et al.(2003)Anovel coronavirus associated with severe acute respiratory syndrome.N Engl JMed 348:1953-1966.
Kullback S,Leibler RA(1951)On information and sufficiency.Annals ofMathematical Statistic 22:79-86.
Li X,He Z,Zhou J(2005)Selection of optimal oligonucleotide probes formicroarrays using multiple criteria,global alignment and parameter estination.Nucl Acids Res 33:6114-6123.
Liu J,Lim SL,Ruan Y,Ling AE,Ng LF,et al.(2005)SARS transmissionpattern in Singapore reassessed by viral sequence variation analysis.PLoS Med2(2),162-168.
Marra MA,Jones SJ,Astell CR,Holt RA,Brooks-Wilson A,et al.(2003)The Genome sequence of the SARS-associated coronavirus.Science 300:1399-1404.
Maskos U,Southern EM(1993)A study of oligonucleotide reassociationusing large arrays of oligonucleotides synthesised on a glass support.NucleicAcids Res 21:4663-4669.
Figure A20068003697600871
E,Vijgen L,Keyaerts E,Zlateva K,Li S,et al.(2005)A novelpancoronavirus RT-PCR assay:frequent detection of human coronavirus NL63in children hospitalized with respiratory tract infections in Belgium.BMCInfect Dis 5:6.
Nguyen HK,Southern EM(2000)Minimising the secondary structure ofDNA targets by incorporation of a modified deoxynucleoside:implications fornucleic acid analysis by hybridisation.Nucleic Acids Res 28:3904-3909.
Nuwaysir EF,Huang W,Albert TJ,Singh J,Nuwaysir K,et al.(2002)Gene expression analysis using oligonucleotide arrays produced by masklessphotolithography.Genome Res 12:1749-1755.
Pang XL,Preiksaitis JK,Lee B(2005)Multiplex real time RT-PCR for thedetection and quantitation of norovirus genogroups I and II in patients withacute gastrcenteritis.J Clin Virol 33:168-171.
Ratushna VG,Weller JW,Gibas CJ(2005)Secondary structure in thetarget as a confounding factor in synthetic oligomer microarray design.BMCGenomics 6:31.
Ruan YJ,Wei CL,Ee AL,Vega VB,Thoreau H,et al.(2003)Comparativefull-length genome sequence analysis of 14 SARS coronavirus isolates andcommon mutations associated with putative origins of infection.Lancet 361:1779-1785.
Sambrook and Russel,(2001)Molecular Cloning:A Laboratory Manual,Cold Springs Harbor Laboratory,New York.
SantaLucia,J.,Jr.,Allawi,H.T.& Seneviratne,P.A.(1996)Improvednearest-neighbor parameters for predicting DNA duplex stability.Biochemistry35,3555-3562.
Smalling TW,Sefers SE,Li H,Tang YW(2002)Molecular approaches todetecting herpes simplex virus and enteroviruses in the central nervous system.J Clin Microbiol 40:2317-2322.
Stephens,M.A.(1974).EDF Statistics for Goodness of Fit and SomeComparisons,Journal of the American Statistical Association,Vol.69,pp.730-737.
Striebel HM,Birch-Hirschfeld E,Egerer R,Foldes-Papp Z(2003)Virusdiagnostics on microarrays.Curr Pharm Biotechnol 4:401-415.
Sung,W.K.& Lee,W.H.Fast and Accurate Probe Selection Algorithm forLarge Genomes.CSB(2003).
Sung,W.K.& Lee,W.H.(2003)in IEEE Computational SystemsBioinfornatics ConferenceStanferd University,Stanford,CA.
Urisman A,Fischer KF,Chiu CY,Kistler AL,Beck S,et al.(2005)E-Predict:a computational strategy for species identification based on observedDNA microarray hybridization patterns.Genome Biol 6:R78.
Vega VB,Ruan Y,Liu J,Lee WH,Wei CL,et al.(2004)Mutationaldynamics of the SARS coronavirus in cell culture and human populationsisolated in 2003.BMC Infect Dis 4:32.
Vora GJ,Meador CE,Stenger DA,Andreadis JD(2004)Nucleic acidamplification strategies for DNA microarray-based pathogen detection.ApplEnviron Microbiol 70:3047-3054.
Wang D,Coscoy L,Zylberberg M,Avila PC,Boushey HA,et al.(2002)Microarray-based detection and genotyping of viral pathogens.Proc Natl AcadSci U S A 99:15687-15692.
Wang D,Urisman A,Liu YT,Springer M,Ksiazek TG,et al.(2003)Viraldiscovery and sequence recovery using DNA microarrays.PLoS Biol 1:E2.
Wong CW,Albert TJ,Vega VB,Norton JE,Cutler DJ,et al.(2004)Tracking the Evolution of the SARS Coronavirus Using High-Throughput,High-Density Resequencing Arrays.Genome Res 14:398-405.
Wu,D.Y,Ugozzoli,L.,Pal,B.K.,Qian,J.&Wallace,R.B.(1991)Theeffect of temperature and oligonucleotide primer length on the specificity andefficiency of amplification by the polymerase chain reaction.DNA Cell Biol 10,233-238.
序列表
<110>新加坡科技研究局
<120>寡核苷酸设计和/或核酸检测的方法和/或装置
<130>FP3143
<140>11/202,023
<141>2005-08-12
<160>13
<170>PatentIn version 3.3
<210>1
<211>26
<212>DNA
<213>人工序列
<220>
<223>正向和/或反向随机引物(图1A)
<220>
<221>misc_feature
<222>(18)..(26)
<223>n为a,c,g,或t
<400>1
gtttcccagtcacgatannn nnnnnn                        26
<210>2
<211>26
<212>DNA
<213>人工序列
<220>
<223>随机正向引物(图1B)
<400>2
gtttcccagt cacgatagca tgaggg                       26
<210>3
<211>26
<212>DNA
<213>人工序列
<220>
<223>随机反向引物(图1B)
<400>3
gtttcccagtcacgatacga atagct                            26
<210>4
<211>22
<212>DNA
<213>人工序列
<220>
<223>病毒序列的片段(图1B中的病毒序列的上面最左边的链)
<400>4
acgatatccg cgaatagcta ga                               22
<210>5
<211>23
<212>DNA
<213>人工序列
<220>
<223>病毒序列的片段(图1B中的病毒序列的上面最右边的链)
<400>5
catccctcat gcatggggca att                              23
<210>6
<211>22
<212>DNA
<213>人工序列
<220>
<223>病毒序列的片段(图1B中的病毒序列的下面最左边的链)
<400>6
tgctataggc gcttatcgat ct                               22
<210>7
<211>23
<212>DNA
<213>人工序列
<220>
<223>病毒序列的片段(图1B中的病毒序列的下面最右边的链)
<400>7
gtagggagta cgtaccccgt taa                                23
<210>8
<211>17
<212>DNA
<213>人工序列
<220>
<223>随机引物标签(图1C和1D的上面的链)
<400>8
gtttcccagt cacgata                                       17
<210>9
<211>17
<212>DNA
<213>人工序列
<220>
<223>随机引物标签(图1C和1D的下面的链)
<400>9
caaagggtca gtgctat                                       17
<210>10
<211>17
<212>DNA
<213>人工序列
<220>
<223>引物A1(图13)
<400>10
gtttcccagt cacgata                                       17
<210>11
<211>17
<212>DNA
<213>人工序列
<220>
<223>引物A2(图13)
<400>11
gatgagggaa gatgggg                        17
<210>12
<211>17
<212>DNA
<213>人工序列
<220>
<223>引物A3(图13)
<400>12
ctcatgcacg acccaaa                        17
<210>13
<211>17
<212>DNA
<213>人工序列
<220>
<223>引物A4(图13)
<400>13
agatccattc cacccca                        17

Claims (93)

1、设计至少一种用于核酸检测的寡核苷酸的方法,该方法包括任意顺序的以下步骤:
(I)确定和/或选择至少一种靶核酸的至少一个待扩增区域,该区域的扩增效率高于平均扩增效率;和
(II)设计至少一种能够与所确定和/或选择的区域进行杂交的寡核苷酸。
2、根据权利要求1所述的方法,其中,所选择的区域的扩增效率被计算为扩增效率得分,该扩增效率得分是正向引物ri可能与靶核酸的位置i结合并且反向引物rj可能在靶核酸的位置j处结合的概率,|i-j|为靶核酸的想要扩增的区域。
3、根据权利要求2所述的方法,其中,|i-j|为≤10000bp。
4、根据权利要求2所述的方法,其中,|i-j|为1000bp。
5、根据权利要求2所述的方法,其中,|i-j|为≤500bp。
6、根据前述权利要求中的任意一项所述的方法,其中,步骤(I)包括确定几何级扩增偏倚对靶核酸的每个位置的影响,并且选择至少一个待扩增区域作为扩增效率高于平均扩增效率的区域。
7、根据权利要求6所述的方法,其中,所述几何级扩增偏倚为聚合酶链式反应偏倚。
8、根据前述权利要求中的任意一项所述的方法,其中,至少一种能够与所选择的区域进行杂交的寡核苷酸是根据以下标准中的至少一种进行选择和设计的:
(a)选择CG含量为40%至60%的寡核苷酸;
(b)选择具有根据最邻近模型计算的最高自由能的寡核苷酸;
(c)假定寡核苷酸sa和寡核苷酸sb分别为靶核酸va和vb的子串,则根据sa与来自靶核酸vb的长度为m的任意子串sb之间的汉明距离和/或根据sa与寡核苷酸sb的最长公共子串来选择sa
(d)就靶核酸va特异性的长度为m的任何寡核苷酸sa而言,若寡核苷酸sa与异于靶核酸的核酸的任何区域无任何标的,则选择该寡核苷酸sa;若长度为m的寡核苷酸sa与异于靶核酸的核酸有标的,则选择长度为m的具有最小的最大比对长度和/或具有最低标的数的寡核苷酸sa;和
(e)如果预测p1杂交到所扩增的靶核酸的位置i上,则选择在靶核酸的位置i上的寡核苷酸pi
9、根据权利要求8所述的方法,其中,根据标准(e),若P(pi|va)>λ,其中λ为0.5并且P(pi|va)为pi杂交到靶核酸va的位置i上的概率,则选择在靶核酸va的位置i上的寡核苷酸pi
10、根据权利要求9所述的方法,其中,λ为0.8。
11、根据前述权利要求中的任意一项所述的方法,其中, P ( p i | v a ) &ap; P ( X &le; x i ) = c i k , 其中X为代表va的全部寡核苷酸的扩增效率得分值的随机变量,k为va中的寡核苷酸的数目,并且ci为扩增效率得分值≤xi的寡核苷酸的数目。
12、根据前述权利要求中的任意一项所述的方法,其中,该方法还包括制备所选择和/或设计的寡核苷酸的步骤。
13、检测至少一种靶核酸的方法,该方法包括以下步骤:
(i)提供至少一种生物样品;
(ii)对该生物样品中包含的核酸进行扩增;
(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸,其中,该寡核苷酸是根据权利要求1至12中的任意一项所述的方法进行设计和/或制备的;和
(iv)使该寡核苷酸与扩增的核酸进行接触和/或检测与靶核酸杂交的寡核苷酸。
14、根据前述权利要求中的任意一项所述的方法,其中,所述至少一种寡核苷酸为至少一种寡核苷酸探针或引物。
15、根据前述权利要求中的任意一项所述的方法,其中,所述扩增步骤是在存在至少一种正向随机引物和/或至少一种反向随机引物的条件下进行的。
16、根据前述权利要求中的任意一项所述的方法,其中,所述扩增步骤为逆转录-聚合酶链式反应。
17、根据权利要求2至16中的任意一项所述的方法,其中,与靶核酸va的位置i结合的正向随机引物和与靶核酸va的位置j结合的反向随机引物选自对靶核酸va的每个位置i具有如下扩增效率得分的引物:
AES i = &Sigma; j = i - Z i { P f ( j ) &times; &Sigma; k = max ( i + 1 , j + 500 ) j + Z P r ( k ) }
其中 &Sigma; k = max ( i + 1 , j + 500 ) j + Z P r ( k ) = P r ( i + 1 ) + P r ( i + 2 ) + . . . . . . P r ( j + Z ) ;
Pf(i)和Pr(i)为随机引物ri作为正向引物和反向引物分别与va的位置i结合的概率,并且Z≤10000bp为va的想要扩增的区域。
18、根据前述权利要求中的任意一项所述的方法,其中,所述扩增步骤包括正向引物和反向引物,并且该正向引物和反向引物中的每种引物在5’-3’方向上包含固定的引物头部和可变的引物尾部,并且其中至少该可变的尾部与靶核酸va的一部分进行杂交。
19、根据前述权利要求中的任意一项所述的方法,其中,所述扩增步骤包括具有如SEQ ID NO:1所示的核苷酸序列、或该核苷酸序列的变体或衍生物的正向随机引物和/或反向随机引物。
20、根据前述权利要求中的任意一项所述的方法,其中,相对于生物样品的核酸,待检测的靶核酸为外源的核酸。
21、根据前述权利要求中的任意一项所述的方法,其中,所述待检测的靶核酸至少为病原体基因组或基因组片段。
22、根据权利要求21所述的方法,其中,病原体核酸至少为来自病毒、寄生虫或细菌的核酸或核酸片段。
23、根据前述权利要求中的任意一项所述的方法,其中,所述生物样品从人类得到,并且假定存在于所述生物样品中的靶核酸为非人源的。
24、根据前述权利要求中的任意一项所述的方法,其中,所述探针被放置在不溶性支持物上。
25、根据权利要求24所述的方法,其中,所述不溶性支持物是微阵列。
26、根据权利要求13至25中的任意一项所述的方法,其中,在检测步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A2006800369760006C1
的信号强度的均值,则表明所述生物样品内存在va
27、根据权利要求13至25中的任意一项所述的方法,其中,在检测步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A2006800369760006C2
的信号强度的均值,并且该方法还包括以下步骤:计算具有高信号强度的探针
Figure A2006800369760006C3
的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针
Figure A2006800369760006C4
的信号强度的密度分布更正偏,则表明所述生物样品内存在va
28、根据权利要求13至25中的任意一项所述的方法,其中,在检测步骤(iv)中,t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵值≥1.0时,表明所述生物样品内存在至少一种靶核酸。
29、根据权利要求28所述的方法,其中,t-检验值≤0.05。
30、根据权利要求28或29所述的方法,其中,加权相对熵值≥5.0。
31、根据权利要求13至25中的任意一项所述的方法,其中,检测步骤(iv)包括通过计算加权相对熵得分的分布而对靶核酸va评估每个标签探针组中的探针信号强度:
Figure A2006800369760007C1
其中,Qa(j)是在组bj中所找到的Pa内的探针的信号强度的累积分布函数;Qa(j)是在组bj中所找到的Pa内的探针的信号强度的累积分布函数,Pa为病毒va的探针组,Pa=P-Pa
32、根据权利要求31所述的方法,其中,每个标签探针组具有正态分布的信号强度和/或小于5的加权相对熵得分,则表明不存在靶核酸va
33、根据权利要求32所述的方法,其中,每个标签探针组具有正偏的信号强度分布和/或大于5的加权相对熵得分,则表明存在至少一种靶核酸va
34、根据权利要求31至33中的任意一项所述的方法,该方法还包括对加权相对熵得分的分布进行安德森-塔林检验,其中,P>0.05的结果表示不存在靶核酸va
35、根据权利要求31至33中的任意一项所述的方法,该方法还包括对加权相对熵得分的分布进行安德森-塔林检验,其中,P<0.05的结果表示存在靶核酸va
36、根据权利要求35所述的方法,其中,再进行安德森-塔林检验,由此表明存在其它共感染性靶核酸。
37、确定至少一种靶核酸va的存在的方法,该方法包括检测至少一种寡核苷酸探针与至少一种靶核酸va的杂交,其中与va杂交的探针的信号强度的均值在统计学上高于探针的信号强度的均值,则表明存在va
38、根据权利要求37所述的方法,其中,与va杂交的探针的信号强度的均值在统计学上高于探针的信号强度的均值,并且该方法还包括以下步骤:计算具有高信号强度的探针
Figure A2006800369760008C3
的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针
Figure A2006800369760008C4
的信号强度的密度分布更为正偏,则表明存在va
39、根据权利要求37或38所述的方法,其中,t-检验值≤0.1和/安德森-塔林检验值≤0.05和/或加权相对熵值≥1.0时,表明生物样品中存在至少一种靶核酸。
40、根据权利要求39所述的方法,其中,t-检验值≤0.05。
41、根据权利要求39或40所述的方法,其中,加权相对熵值≥5.0。
42、检测至少一种靶核酸的方法,该方法包括以下步骤:
(i)提供至少一种生物样品;
(ii)对该生物样品中包含的至少一种核酸进行扩增;
(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸探针;和
(iv)使该探针与扩增的核酸进行接触和/或检测与靶核酸杂交的探针,其中与va杂交的探针的信号强度的均值在统计学上高于探针的信号强度的均值,则表明该生物样品中存在va
43、根据权利要求42所述的方法,其中,在步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A2006800369760009C2
的信号强度的均值,并且该方法还包括以下步骤:计算具有高信号强度的探针
Figure A2006800369760009C3
的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针
Figure A2006800369760009C4
的信号强度的密度分布更正偏,则表明所述生物样品中存在va
44、根据权利要求42或43所述的方法,其中,在检测步骤(iv)中,t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵值≥1.0时,表明所述生物样品中存在至少一种靶核酸。
45、根据权利要求44所述的方法,其中,t-检验值≤0.05。
46、根据权利要求44或45所述的方法,其中,加权相对熵值≥5.0。
47、根据权利要求37至46中的任意一项所述的方法,其中,相对于所述生物样品的核酸,待检测的靶核酸为外源的核酸。
48、根据权利要求37至47中的任意一项所述的方法,其中,所述待检测的靶核酸为至少一种病原体基因组或基因组片段。
49、根据权利要求48所述的方法,其中,病原体核酸为至少一种来自病毒、寄生虫或细菌的核酸或核酸片段。
50、根据权利要求37至47中的任意一项所述的方法,其中,所述生物样品从人类得到,并且假定存在于所述生物样品中的靶核酸为非人源的。
51、根据权利要求37至48中的任意一项所述的方法,其中,至少一种探针被放置在不溶性支持物上。
52、根据权利要求51所述的方法,其中,所述支持物为微阵列。
53、用于设计用于核酸检测的至少一种寡核苷酸的装置,该装置被配置为:
(I)确定和/或选择至少一种靶核酸的至少一个待扩增区域,该区域的扩增效率高于平均扩增效率;和
(II)设计能够与所确定和/或选择的区域进行杂交的至少一种寡核苷酸。
54、根据权利要求53所述的装置,其中,所选择的区域的扩增效率被计算为扩增效率得分,该扩增效率得分是正向引物ri可能与靶核酸的位置i结合并且反向引物rj可能在靶核酸的位置j处结合的概率,|i-j|为靶核酸的想要扩增的区域。
55、根据权利要求54所述的装置,其中,|i-j|≤10000bp、≤1000bp或≤500bp。
56、根据权利要求53至55中的任意一项所述的装置,其中,步骤(I)包括确定几何级扩增偏倚对靶核酸的每个位置的影响,并且选择至少一个待扩增区域作为扩增效率高于平均扩增效率的区域。
57、根据权利要求56所述的装置,其中,所述几何级扩增偏倚为聚合酶链式反应偏倚。
58、根据权利要求53至57中的任意一项所述的装置,其中,所述能够与所选择的区域进行杂交的寡核苷酸是根据以下标准中的至少一种进行选择和/或设计的:
(a)选择CG含量为40%至60%的寡核苷酸;
(b)选择具有根据最邻近模型计算的最高自由能的寡核苷酸;
(c)假定寡核苷酸sa和寡核苷酸sb分别为靶核酸va和vb的子串,则根据sa与来自靶核酸vb的长度为m的任意子串sb之间的汉明距离和/或根据sa与寡核苷酸sb的最长公共子串选择sa
(d)就靶核酸va特异性的长度为m的任何寡核苷酸sa而言,若寡核苷酸sa与异于靶核酸的核酸的任何区域无任何标的,则选择寡核苷酸sa;若长度为m的寡核苷酸sa与异于靶核酸的核酸有标的,则选择长度为m的具有最小的最大比对长度和/或具有最低标的数的寡核苷酸sa;和
(e)若预测pi杂交到所扩增靶核酸的位置i上,则选择在靶核酸的位置i上的至少一种寡核苷酸pi
59、根据权利要求58所述的装置,其中,根据标准(e),若P(pi|va)>λ,其中λ为0.5并且P(pi|va)为pi杂交到靶核酸va的位置i上的概率,则选择在靶核酸va的位置i上的寡核苷酸pi
60、根据权利要求59所述的装置,其中,λ为0.8。
61、根据权利要求53至60中的任意一项所述的装置,其中, P ( p i | v a ) &ap; P ( X &le; x i ) = c i k , 其中X为代表va的全部寡核苷酸的扩增效率得分值的随机变量,k为va中的寡核苷酸的数目,并且ci为扩增效率得分值≤xi的寡核苷酸的数目。
62、根据权利要求53至61中的任意一项所述的装置,其中,所述配置还包括制备所选择和/或设计的寡核苷酸的步骤。
63、根据权利要求53至62中的任意一项所述的装置,其中,所述至少一种寡核苷酸为至少一种寡核苷酸探针和/或引物。
64、配置为检测至少一种靶核酸的装置,该装置包括以下步骤中的任何一步:
(i)提供至少一种生物样品;
(ii)对该生物样品中包含的核酸进行扩增;
(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸,其中该寡核苷酸是根据权利要求53至63中的任意一项所述的装置设计和/或制备的;和
(iv)使寡核苷酸与扩增的核酸进行接触和/或检测与靶核酸杂交的寡核苷酸。
65、根据权利要求53至64中的任意一项所述的装置,其中,所述扩增步骤是在存在至少一种正向随机引物和/或至少一种反向随机引物的条件下进行的。
66、根据权利要求53至65中的任意一项所述的装置,其中,所述扩增步骤为逆转录-聚合酶链式反应。
67、根据权利要求53至66中的任意一项所述的装置,其中,与靶核酸va的位置i结合的正向随机引物和与靶核酸va的位置j结合的反向随机引物选自对靶核酸va的每个位置i具有以下扩增效率得分的引物:
AES i = &Sigma; j = i - Z i { P f ( j ) &times; &Sigma; k = max ( i + 1 , j + 500 ) j + Z P r ( k ) }
其中, &Sigma; k = max ( i + 1 , j + 500 ) j + Z P r ( k ) = P r ( i + 1 ) + P r ( i + 2 ) + . . . . . . P r ( j + Z ) ;
Pf(i)和Pr(i)为随机引物ri作为正向引物和反向引物分别与va的位置i结合的概率,Z≤10000bp为va的想要扩增的区域。
68、根据权利要求53至67中的任意一项所述的装置,其中,所述扩增步骤包括正向引物和反向引物,并且该正向引物和反向引物中的每种引物在5’-3’方向上包含固定的引物头部和可变的引物尾部,其中至少该可变的尾部与靶核酸va的一部分杂交。
69、根据权利要求53至68中的任意一项所述的装置,其中,所述扩增步骤包括具有如SEQ ID NO:1所示的核苷酸序列或该核苷酸序列的变体或衍生物的正向随机引物和/或反向随机引物。
70、根据权利要求任53至69中的任意一项所述的装置,其中,相对于所述生物样品的核酸,待检测的靶核酸为至少一种外源的核酸。
71、根据权利要求53至69中的任意一项所述的装置,其中,待检测的靶核酸为至少一种病原体基因组或基因组片段。
72、根据权利要求71所述的装置,其中,病原体核酸为至少一种来自病毒、寄生虫或细菌的核酸或核酸片段。
73、根据权利要求53至72中的任意一项所述的装置,其中,所述生物样品从人类得到,并且假定存在于所述生物样品中的靶核酸为非人源的。
74、根据权利要求53至73中的任意一项所述的装置,其中,该装置包括至少一种不溶性支持物,在该不溶性支持物上放置有至少一种探针。
75、根据权利要求74所述的装置,其中,所述不溶性支持物为微阵列。
76、根据权利要求64至75中的任意一项所述的装置,其中,在检测步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针
Figure A2006800369760014C1
的信号强度的均值,则表明生物样品中存在va
77、根据权利要求64至75中的任意一项所述的装置,其中,在检测步骤(iv)中,与va杂交的探针的信号强度的均值在统计学上高于探针的信号强度的均值,该装置被配置为还包含以下步骤:计算具有高信号强度的探针
Figure A2006800369760014C3
的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异,探针va的信号强度的密度分布比探针的信号强度的密度分布更正偏,则表明所述生物样品中存在va
78、根据权利要求64至75中的任意一项所述的装置,其中,在检测步骤(iv)中,t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权加权相对熵值≥1.0时,表明所述生物样品中存在靶核酸。
79、根据权利要求78所述的装置,其中,t-检验值≤0.05。
80、根据权利要求78或79所述的装置,其中,加权相对熵值≥5.0。
81、根据权利要求64至75中的任意一项所述的装置,其中,检测步骤(iv)包括通过计算加权相对熵得分的分布而对靶核酸评估每个标签探针组内的探针信号强度:
Figure A2006800369760015C1
其中,Qa(j)为在组bj中所找到的Pa内的探针的信号强度的累积分布函数;Qa(j)为在组bj中所找到的Pa内的探针的信号强度的累积分布函数,Pa为病毒va的探针组,Pa=P-Pa
82、根据权利要求81所述的装置,其中,代表不存在靶核酸va的每个标签探针组具有正态分布的信号强度和/或小于5的加权相对熵得分。
83、根据权利要求81所述的装置,其中,代表存在至少一种靶核酸va的每个标签探针组具有正偏的信号强度分布和/或大于5的加权相对熵得分。
84、根据权利要求81至83中的任意一项所述的装置,该装置还包括对加权相对熵得分的分布进行安德森-塔林检验,其中P>0.05的结果表明不存在靶核酸va
85、根据权利要求81至83中的任意一项所述的装置,该装置还包括对加权相对熵得分的分布安德森-塔林检验,其中P<0.05的结果表明存在靶核酸va
86、根据权利要求85所述的装置,其中,再进行安德森-塔林检验,由此表明存在其它共感染性靶核酸。
87、根据权利要求53至86中的任意一项所述的装置,其中,所述配置被存贮在至少一种电子存储介质上。
88、一种计算机程序产品,该产品被配置为执行权利要求1至52中的任意一项所述的方法。
89、一种包含软件的计算机程序产品,该软件被配置为确定加权相对熵得分和/或安德森-塔林检验以设计至少一种寡核苷酸和/或检测至少一种靶核酸。
90、根据权利要求89所述的计算机程序产品,其中,加权相对熵、安德森-塔林检验、寡核苷酸探针的设计、寡核苷酸引物的设计和/或靶核酸的检测如权利要求1至52中的任意一项所限定。
91、一种包含软件的可移动的电子存储介质,该软件被配置为执行权利要求1至52中的任意一项所述的方法。
92、一种包含软件的可移动的电子存储介质,该软件被配置为确定加权相对熵得分和/或安德森-塔林检验以设计至少一种寡核苷酸探针、设计寡核苷酸引物和/或检测至少一种靶核酸。
93、根据权利要求92所述的可移动的电子存储介质,其中,加权相对熵、安德森-塔林检验、寡核苷酸探针的设计、寡核苷酸引物的设计和/或靶核酸的检测如权利要求1至52中的任意一项所限定。
CN2006800369768A 2005-08-12 2006-08-08 寡核苷酸设计和/或核酸检测的方法和/或装置 Expired - Fee Related CN101292044B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/202,023 US20070042388A1 (en) 2005-08-12 2005-08-12 Method of probe design and/or of nucleic acids detection
US11/202,023 2005-08-12
PCT/SG2006/000224 WO2007021250A2 (en) 2005-08-12 2006-08-08 Method and/or apparatus of oligonucleotide design and/or nucleic acid detection

Publications (2)

Publication Number Publication Date
CN101292044A true CN101292044A (zh) 2008-10-22
CN101292044B CN101292044B (zh) 2012-11-07

Family

ID=37757981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800369768A Expired - Fee Related CN101292044B (zh) 2005-08-12 2006-08-08 寡核苷酸设计和/或核酸检测的方法和/或装置

Country Status (7)

Country Link
US (3) US20070042388A1 (zh)
EP (1) EP1922418A4 (zh)
JP (1) JP2009504153A (zh)
KR (1) KR20080052585A (zh)
CN (1) CN101292044B (zh)
AU (1) AU2006280489B2 (zh)
WO (1) WO2007021250A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105780129A (zh) * 2014-12-15 2016-07-20 天津华大基因科技有限公司 目标区域测序文库构建方法
CN107586832A (zh) * 2012-05-08 2018-01-16 适应生物技术公司 用于测量和校准多重pcr反应中的扩增偏倚的组合物和方法
CN109097450A (zh) * 2018-08-30 2018-12-28 江苏省疾病预防控制中心 一种核酸序列非依赖的全rna扩增方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101138864B1 (ko) * 2005-03-08 2012-05-14 삼성전자주식회사 프라이머 및 프로브 세트를 설계하는 방법, 그에 의하여 설계된 프라이머 및 프로브 세트, 상기 세트를 포함하는 키트, 상기 방법을 컴퓨터가 수행할 수 있도록 하는 프로그램을기록한 컴퓨터 판독가능한 매체 및 상기 세트를 이용한 표적 서열의 동정 방법
US20070042388A1 (en) * 2005-08-12 2007-02-22 Wong Christopher W Method of probe design and/or of nucleic acids detection
US20100159533A1 (en) * 2008-11-24 2010-06-24 Helicos Biosciences Corporation Simplified sample preparation for rna analysis
US20120264637A1 (en) * 2009-06-26 2012-10-18 The Regents Of The University Of California Methods and systems for phylogenetic analysis
US20110152109A1 (en) * 2009-12-21 2011-06-23 Gardner Shea N Biological sample target classification, detection and selection methods, and related arrays and oligonucleotide probes
WO2012173636A1 (en) * 2011-06-16 2012-12-20 University Of Rochester Hiv incidence assays with high sensitivity and specificity
US11319602B2 (en) 2017-02-07 2022-05-03 Tcm Biotech Internationl Corp. Probe combination for detection of cancer
US10787699B2 (en) * 2017-02-08 2020-09-29 Microsoft Technology Licensing, Llc Generating pluralities of primer and payload designs for retrieval of stored nucleotides
JP6995604B2 (ja) * 2017-12-15 2022-01-14 東洋鋼鈑株式会社 一塩基多型検出用プローブの設計方法及びプローブセット
KR102020614B1 (ko) * 2018-09-11 2019-09-11 한국과학기술정보연구원 결핵 진단용 프라이머 세트 및 이의 용도
WO2020054906A1 (ko) * 2018-09-11 2020-03-19 한국과학기술정보연구원 목표 유전자를 검출하기 위한 프라이머의 설계 방법
CN115101128B (zh) * 2022-06-29 2023-09-15 纳昂达(南京)生物科技有限公司 一种杂交捕获探针脱靶危险性评估的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194554A (ja) * 1998-12-25 2000-07-14 Nec Corp 演算処理装置
US20030096986A1 (en) * 2001-10-25 2003-05-22 Affymetrix, Incorporated Methods and computer software products for selecting nucleic acid probes
GB2377017A (en) * 2001-06-28 2002-12-31 Animal Health Inst Detection of foot and mouth disease virus
JP3980030B2 (ja) * 2002-08-12 2007-09-19 株式会社日立ハイテクノロジーズ Dnaマイクロアレイを用いた核酸検出方法及び核酸検出装置
US20040259124A1 (en) * 2003-02-19 2004-12-23 Affymetrix, Inc. Methods for oligonucleotide probe design
US20070042388A1 (en) * 2005-08-12 2007-02-22 Wong Christopher W Method of probe design and/or of nucleic acids detection

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107586832A (zh) * 2012-05-08 2018-01-16 适应生物技术公司 用于测量和校准多重pcr反应中的扩增偏倚的组合物和方法
US10894977B2 (en) 2012-05-08 2021-01-19 Adaptive Biotechnologies Corporation Compositions and methods for measuring and calibrating amplification bias in multiplexed PCR reactions
CN107586832B (zh) * 2012-05-08 2021-03-30 适应生物技术公司 用于测量和校准多重pcr反应中的扩增偏倚的组合物和方法
CN105780129A (zh) * 2014-12-15 2016-07-20 天津华大基因科技有限公司 目标区域测序文库构建方法
CN105780129B (zh) * 2014-12-15 2019-06-11 天津华大基因科技有限公司 目标区域测序文库构建方法
CN109097450A (zh) * 2018-08-30 2018-12-28 江苏省疾病预防控制中心 一种核酸序列非依赖的全rna扩增方法
CN109097450B (zh) * 2018-08-30 2022-05-13 江苏省疾病预防控制中心 一种核酸序列非依赖的全rna扩增方法

Also Published As

Publication number Publication date
JP2009504153A (ja) 2009-02-05
AU2006280489B2 (en) 2012-05-24
CN101292044B (zh) 2012-11-07
US20120309643A1 (en) 2012-12-06
EP1922418A2 (en) 2008-05-21
WO2007021250A3 (en) 2007-07-05
US20070042388A1 (en) 2007-02-22
US20090053708A1 (en) 2009-02-26
KR20080052585A (ko) 2008-06-11
US8234079B2 (en) 2012-07-31
EP1922418A4 (en) 2010-02-03
WO2007021250A2 (en) 2007-02-22
AU2006280489A1 (en) 2007-02-22

Similar Documents

Publication Publication Date Title
CN101292044B (zh) 寡核苷酸设计和/或核酸检测的方法和/或装置
Banada et al. A simple reverse transcriptase PCR melting-temperature assay to rapidly screen for widely circulating SARS-CoV-2 variants
O'Flaherty et al. Comprehensive viral enrichment enables sensitive respiratory virus genomic identification and analysis by next generation sequencing
Sengupta et al. Molecular detection and identification of influenza viruses by oligonucleotide microarray hybridization
Maertzdorf et al. Real-time reverse transcriptase PCR assay for detection of human metapneumoviruses from all known genetic lineages
Gardner et al. A microbial detection array (MDA) for viral and bacterial detection
Wong et al. Optimization and clinical validation of a pathogen detection microarray
US9434997B2 (en) Methods, compounds and systems for detecting a microorganism in a sample
US8232058B2 (en) Multiplex detection of respiratory pathogens
EP1778881A2 (en) Resequencing pathogen microarray
CN108064315B (zh) 检测流感的方法
Chou et al. Design of microarray probes for virus identification and detection of emerging viruses at the genus level
EP4118239A1 (en) Compositions and methods for detecting severe acute respiratory syndrome coronavirus 2 (sars-cov-2), influenza a and influenza b
Chiu et al. Next‐generation sequencing
US20110143358A1 (en) Compositions for use in identification of tick-borne pathogens
Wang et al. Resequencing microarray probe design for typing genetically diverse viruses: human rhinoviruses and enteroviruses
WO2022029157A2 (en) Compositions and methods for the detection of severe acute respiratory syndrome coronavirus 2 (sars-2), influenza a, and influenza b
CA3173190A1 (en) Assays for detecting pathogens
JP4535266B2 (ja) Dnaコンピュータ技術による核酸の定量検出方法
US20110177515A1 (en) Compositions for use in identification of francisella
Alhussien et al. Analysis of Mutations in Conserved and Susceptible Regions Across the Whole Genome Sequencing Analysis for SARS-CoV-2 in Iraqi Patients
Sahahjpal et al. COVID-19 RT-PCR diagnostic assay sensitivity and SARS-CoV-2 transmission: A missing link?
Jabado et al. Nonparametric methods for the analysis of single-color pathogen microarrays
Giles et al. Development of a DNA-based microarray for the detection of zoonotic pathogens in rodent species
Jothikumar et al. Development and evaluation of a ligation-free sequence-independent, single-primer amplification (LF-SISPA) assay for whole genome characterization of viruses

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121107

Termination date: 20130808