CN101292044A

CN101292044A - 寡核苷酸设计和/或核酸检测的方法和/或装置

Info

Publication number: CN101292044A
Application number: CNA2006800369768A
Authority: CN
Inventors: C·W·C·黄; 宋永健; 李华星; L·D·米勒
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2005-08-12
Filing date: 2006-08-08
Publication date: 2008-10-22
Anticipated expiration: 2026-08-08
Also published as: JP2009504153A; AU2006280489B2; CN101292044B; US20120309643A1; EP1922418A2; WO2007021250A3; US20070042388A1; US20090053708A1; KR20080052585A; US8234079B2; EP1922418A4; WO2007021250A2; AU2006280489A1

Abstract

本发明提供了设计至少一种用于核酸检测的寡核苷酸的方法，该方法包括任意顺序的以下步骤：(I)确定和/或选择至少一种靶核酸的待扩增区域，该区域的扩增效率(AE)高于平均AE；和(II)设计至少一种能够与所选区域进行杂交的寡核苷酸。本发明还提供了检测至少一种靶核酸的方法，该方法包括以下步骤：(i)提供至少一种生物样品；(ii)对该生物样品中所包含的核酸进行扩增；(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸；和(iv)使所述寡核苷酸与扩增的核酸进行接触并检测与所述靶核酸杂交的寡核苷酸。尤其是，本方法用于检测在至少一种人生物样品中存在的至少一种病原体，例如病毒。探针可以被放置在支持物上，例如微阵列上。

Description

寡核苷酸设计和/或核酸检测的方法和/或装置

技术领域

本发明涉及寡核苷酸设计和/或核酸检测的领域。本发明的方法、装置和/或产物可以用于检测病原体，例如用于检测病毒。

背景技术

精确而迅速地检测人类患者和人群中的病毒病原体和细菌病原体具有极其重要的医学及流行病学意义。以往，诊断技术依赖于细胞培养传代和多种免疫学测定法或染色方法。目前精确并灵敏地检测传染病因子仍然是困难的，尽管该领域内的进展相当大。培养和基于抗体检测的常规方法仍然在微生物学实验室中发挥核心作用，尽管存在疾病表现与诊断间的滞后问题，以及由这些方法可以检测的生物种类数目有限的问题。更迅速地诊断感染将降低发病率和死亡率，例如，通过更早的实施适宜的抗微生物治疗。在过去数十年间，已经提出多种方法以实现此目的；基于核酸检测的那些方法，包括基于聚合酶链式反应(PCR)及微阵列的技术，似乎最有前景。尤其是，基于PCR的测定法已经得到实施，这使得能以更高的检测灵敏度、更迅速地诊断可疑病原体。然而在临床实践中，病因学因子常常无法确定，以复杂方式规避检测。例如，某些病毒不可培养。而有时候，患者样品的质量可能很差或对于通过常规技术检测病原体而言，其滴度不足。此外，基于PCR的方法和基于抗体的方法均仅因天然遗传多样性导致了PCR引物结合位点的改变及抗原漂移可能不能识别可疑病原体。

具有同时检测多种病原体能力的DNA微阵列和寡核苷酸微阵列已经得到描述(Wang等，2002；Urisman等，2005)。然而，未解决的技术问题妨碍它们在临床情况下的例行使用。例如，如何根据扩增和交叉杂交的人为产物来选择提供包含最多病原体“标签”的信息的探针？何种强度的荧光信号及标签探针才构成检测到的病原体？何谓优化检测算法的精确性和灵敏性？(Striebel等，2003；Bodrossy和Sessitsch，2004；Vora等，2004)。

因此，本技术领域内需要检测核酸的替代方法及改良方法。尤其是，需要用于检测病原体的替代诊断方法和/或改良诊断方法。

发明内容

本发明的目的是为了解决上述问题，并且具体提供设计寡核苷酸的方法、装置和/或产物。尤其是，本发明提供设计寡核苷酸探针和/或引物的方法、装置和/或产物。还提供核酸检测的方法、装置和/或产物。

根据第一方面，本发明提供了设计至少一种用于核酸检测的寡核苷酸的方法，该方法包括任意顺序的以下步骤：

(I)确定和/或选择至少一种靶核酸的至少一个待扩增区域，该区域的扩增效率(AE)高于平均AE；和

(II)设计至少一种能够与所选择的区域进行杂交的寡核苷酸。

所述至少一种寡核苷酸可以是至少一种探针和/或引物。

尤其是，在步骤(I)中，对全长靶核酸或其至少一个区域内的每个位置i确定AE得分，并且随后得到平均AE得分。可以选择AE得分高于平均AE得分的那些区域作为靶核酸的待扩增区域。更尤其是，所选区域的AE可以被计算为扩增效率得分(AES)，AES是正向引物r_i可能与靶核酸的位置i结合并且反向引物r_j可能在靶核酸的位置j处结合的概率，|i-j|是靶核酸的想要扩增的区域。区域|i-j|可以优选为≤10000bp，更优选为≤5000bp，或≤1000bp，例如≤500bp。尤其是，正向引物和反向引物可以是随机引物。

根据另一方面，步骤(I)包括确定几何级扩增偏倚对靶核酸内每个位置的影响，和选择至少一个待扩增区域作为扩增效率高于平均扩增效率的区域。例如，几何级扩增偏倚是PCR偏倚。

可以根据本领域已知的任何寡核苷酸设计技术实现设计至少一种能够与在步骤(I)中所选择的区域杂交的寡核苷酸的步骤(II)。尤其是，可以根据以下标准中的至少一种选择和设计能够与所选择的区域杂交的寡核苷酸：

(a)选择CG含量为40％至60％的寡核苷酸；

(b)选择具有根据最邻近模型(Nearest-Neighbor model)计算的最高自由能的寡核苷酸；

(c)假定寡核苷酸s_a和寡核苷酸s_b分别是靶核酸v_a和v_b的子串，则根据s_a与长度为m的任意子串s_b之间的汉明距离和/或s_a与寡核苷酸s_b的最长公共子串来选择s_a。

(d)就靶核酸v_a特异性的长度为m的任何寡核苷酸s_a而言，若寡核苷酸s_a与异于靶核酸的核酸的任何区域无任何标的(hit)，则选择寡核苷酸s_a；如果长度为m的寡核苷酸s_a与异于靶核酸的核酸有标的，则选择长度为m的具有最小的最大比对长度和/或具有最小标的数的寡核苷酸s_a；和

(e)如果预测p_i能杂交到所述扩增的靶核酸的位置i上，则选择在靶核酸的位置i上的寡核苷酸p_i。

尤其是，所述寡核苷酸可以是探针和/或引物。

因此，可以采用两项或多项上述标准设计所述寡核苷酸。例如，可以通过应用(a)至(e)中所有的标准设计所述寡核苷酸。也可以使用在本文中没有明确地提及但为本领域技术人员所知的其它标准。

尤其是，根据标准(e)，如果P(p_i|v_a)＞λ，其中λ为0.5并且P(p_i|v_a)为p_i杂交到靶核酸v_a的位置i上的概率，则选择在靶核酸v_a的位置i上的寡核苷酸p_i。λ更优选为0.8。

尤其是，

P (p_{i} | v_{a}) \approx P (X \leq x_{i}) = \frac{c_{i}}{k},

其中X为代表v_a的全部寡核苷酸的扩增效率得分(AES)的随机变量，k为v_a中寡核苷酸的数目，并且c_i为AES值≤x_i的寡核苷酸的数目。

根据本发明的另一方面，设计如上所述寡核苷酸的方法还包括制备选择及设计的寡核苷酸的步骤。可以根据本领域已知的任何标准方法，例如通过化学合成或光蚀刻技术，可以制备可以是至少一种探针和/或引物的寡核苷酸。

根据另一方面，本发明提供检测至少一种靶核酸的方法，该方法包括以下步骤：

(i)提供至少一种生物样品；

(ii)对该生物样品中包含的核酸进行扩增；

(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸，其中，使用根据本文中所述的本发明的任何方面的方法设计和/或制备该寡核苷酸；和

(iv)使该寡核苷酸接触扩增的核酸和/或检测与靶核酸杂交的寡核苷酸。

尤其是，所述寡核苷酸是探针。

扩增步骤(ii)可以在随机引物的存在下实施。例如，扩增步骤(ii)是在存在至少一种正向随机引物和/或至少一种反向随机引物的条件下进行的。可以使用本领域已知的任何扩增方法。例如，扩增方法是逆转录-聚合酶链式反应(RT-PCR)。

尤其是，与靶核酸v_a的位置i结合的正向随机引物和与靶核酸v_a的位置j结合的反向随机引物选自对靶核酸v_a的每个位置i具有如下扩增效率得分(AES_I)的引物：

{AES}_{i} = Σ_{j = i - Z}^{i} {P^{f} (j) \times Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k)},

其中，

Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k) = P^{r} (i + 1) + P^{r} (i + 2) + . . . . . . P^{r} (j + Z),

P^f(i)和P^r(i)为随机引物r_i作为正向引物和反向引物分别与v_a的位置i结合的概率，并且Z≤10000bp是想要扩增的v_a的区域。更尤其是，Z可以是≤5000bp、≤1000bp或≤500bp。

扩增步骤可以包括正向引物和反向引物，并且正向引物和反向引物中的每种引物在5’-3’方向上包含固定的引物头部和可变的引物尾部，并且其中至少可变的尾部与靶核酸v_a的一部分杂交。尤其是，扩增步骤可以包括具有SEQ ID NO：1所示的核苷酸序列或该核苷酸序列的变体或衍生物的正向随机引物和/或反向随机引物。

生物样品可以是采自哺乳动物的任何样品，例如来自人类。生物样品可以是组织、血清、鼻咽冲洗液、唾液、任何其它体液、血液、尿、粪便等。生物样品可以是在实施扩增步骤前被处理以释放生物样品中包含的核酸。靶核酸可以是想要检测的任何核酸。待检测的靶核酸可以是至少对生物样品的核酸为外源的核酸。因此，若生物样品来自人，则待检测的外源靶核酸(若其存在于生物样品中)是非人源的核酸。根据本发明的方面，待检测的靶核酸至少是病原体的基因组或基因组片段。病原体核酸可以是来自病毒、寄生虫或细菌的至少一种核酸或核酸片段。

因此，本发明提供检测假定存在于生物样品中的至少一种靶核酸的方法。该方法可以是用于检测生物样品中病原体存在的诊断方法。例如，若生物样品从人类得到，则假定存在于生物样品中的靶核酸为非人源的。

根据本发明的任何方法所设计和/或制备的寡核苷酸可以在溶液中被使用或可以被放置不溶性支持物上。例如，寡核苷酸探针可以根据本领域已知的任何技术而涂到、滴到或刷到(print)不溶性支持物上。支持物可以是微阵列、生物芯片、膜/合成性表面、固体支持物或凝胶。

随后将探针与生物样品的核酸接触，若靶核酸存在，则它与探针杂交，从而检测出存在的靶核酸。尤其是，在检测步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的信号强度的均值，则表明生物样品中存在v_a。

更尤其是，在检测步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针v_a的信号强度的均值，并且该方法还包括如下步骤：计算具有高信号强度的探针v_a的比例与在检测方法内所用的具有高信号强度的探针的比例的相对差异，探针v_a的信号强度的密度分布比探针

v_a的信号强度的密度分布更为正偏，则表明生物样品中存在v_a。

例如，在检测步骤(iv)中，生物样品中的至少一种靶核酸得到检测，若靶核酸的探针信号强度的密度分布不是正态性的，即更为正偏，这是由安德森-塔林(Anderson-Darling)检验值≤0.05和/或t-检验值≤0.1和/或加权相对熵(Weighted Kullback-Leibler，WKL)≥1.0、优选≥5.0表示。最尤其是，t-检验值≤0.05。

尤其是，检测步骤(iv)的方法还包括通过计算加权相对熵得分的分布，评估在每个病原体特异性标签探针组(SPS)中的探针对靶核酸v_a的探测信号强度：

其中Q_a(j)是在P_a中的探针的信号强度的累积分布函数，且P_a是在组b_j中找到的；Q_a(j)是在P_a中的探针的信号强度的累积分布函数，且P_a是组b_j中所找到。P_a是病毒v_a的探针组并且P_a＝P-P_a。

每个标签探针组(SPS)具有正态性分布的信号强度(由安德森-塔林检验值≤0.05评定)和/或得分小于5的加权相对熵(WKL＜5)，则表明不存在靶核酸v_a。每个标签探针组(SPS)具有正偏的信号强度分布和/或大于5的加权相对熵得分(WKL＞5)，则表明存在至少一种靶核酸v_a。

所述方法还可以包括对WKL得分的分布进行安德森-塔林检验，其中，P＞0.05的结果表示不存在靶核酸v_a，或P＜0.05的结果表示存在靶核酸v_a。此外，还可以进行安德森-塔林检验，表明存在其它共感染性靶核酸。根据另一方面，本发明提供确定靶核酸v_a存在的方法，该方法包括检测至少一种寡核苷酸探针(该探针是根据本领域内的任何已知方法且不必要限于本发明方法选择和设计的)与至少一种靶核酸v_a的杂交，并且，其中与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的信号强度的均值，则表明存在v_a。尤其是，与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的信号强度的均值，并且该方法还包括以下步骤：计算具有高信号强度的探针v_a的比例与在检测方法中所用的具有高信号强度的探针的比例的相对差异，探针v_a的信号强度的密度分布比探针

v_a的信号强度的密度分布更为正偏，则表明生物样品中存在v_a。更尤其是，t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵≥1.0、优选≥5.0时表示生物样品中存在靶核酸。例如，t-检验值可以是≤0.05。

根据另一方面，本发明提供检测至少一种靶核酸的方法，该方法包扩以下步骤：

(i)提供至少一种生物样品；

(ii)对该生物样品中包含的至少一种核酸进行扩增；

(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸杂交的至少一种寡核苷酸；和

(iv)使所述寡核苷酸与扩增的核酸进行接触并且检测与靶核酸杂交的寡核苷酸，其中，与v_a杂交的寡核苷酸的信号强度的均值在统计学上高于寡核苷酸

v_a的均值，则表明在生物样品中存在v_a。

尤其是，所述寡核苷酸是寡核苷酸探针。

在步骤(iv)内，与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的信号强度的均值，并且该方法还包括以下步骤：计算具有高信号强度的探针v_a的比例与在检测方法内所用的具有高信号强度的探针的比例的相对差异，探针v_a的信号强度的密度分布比探针

v_a的信号强度的密度分布更为正偏，则表明生物样品中存在v_a。尤其是，在步骤(iv)中，t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵值≥1.0、优选≥5.0时表示生物样品中存在至少一种靶核酸。t-检验值可以是≤0.05。相对于生物样品的核酸，待检测的核酸为外源的核酸。待检测的靶核酸可以是至少一种病原体基因组或基因组片段。病原体核酸可以是来自病毒、寄生虫或细菌的至少一种核酸或核酸片段。尤其是，当生物样品从人类得到时，且如果在该生物样品中存在靶核酸，则该靶核酸为非人源的基因组。探针可以被置于不溶性支持物上。支持物可以是微阵列、生物芯片或/合成的表面。

本发明提供一种装置，该装置包括用于实施本发明的方法的装置。尤其是，所述装置可以用于设计用来检测和/或扩增核酸的寡核苷酸，其中，所述装置被配置成确定和/或选择至少一种靶核酸的至少一个待扩增区域，其中，所述区域的扩增效率(AE)高于平均的AE；并且设计能够与所确定和/或选择的区域进行杂交的至少一种寡核苷酸。更尤其是，所述装置可以被配置成检测至少一种靶核酸，包括以下步骤中的任一步骤：提供至少一种生物样品；扩增该生物样品中包含的核酸；提供至少一种能够与至少一种假定存在生物样品中的靶核酸杂交的寡核苷酸，其中寡核苷酸根据本发明所配置的装置进行设计和/或制备；并使寡核苷酸与扩增的核酸进行接触和/或检测与靶核酸杂交的寡核苷酸。

本发明还提供被配置成用于实施本发明的方法的至少一种计算机程序产品。本发明还提供至少一种存贮本发明装置的配置的电子存储介质。根据一个方面，本发明提供被配置成包括实施本发明方法的软件的可移动的电子存储介质。尤其是，所述可移动的电子存储介质可以包含软件，其中该软件被配置成确定WKL得分和/或安德森-塔林检验以便设计至少一种寡核苷酸探针和/或引物，和/或检测至少一种靶核酸。更尤其是，包含软件编译程序的可移动的电子存储介质可以包含如本发明定义的WKL、安德森-塔林检验、探针的设计和/或靶核酸的检测。因此，本发明还提供被配置成如上所述的设计的软件。

附图说明

图1表示一对随机引物对病毒序列(SEQ ID NOS：1至9)的RT-PCR结合过程。图1的标记如下所示：

A：逆转录(RT)。引物与模板结合。

B：生成标记的RT产物(具体是用假定的病毒序列模板和假定的特定的随机引物)。

C：第二链合成完成，掺入标签。

D：使用PCR引物GTTTCCCAGTCACGATA(SEQ ID NO：8)扩增标记的RT产物；

图2表示用于RSV(呼吸道合胞体病毒)B基因组的扩增效率得分(AES)图；

图3表示实施例1的寡核苷酸探针对RSV B的信号强度；

图4(A，B)。图4A表示被测样品的病毒的信号强度的密度分布。箭头指出该分布的正偏性。虽然存在噪音，但是也显著存在真实信号。图4B表示样品中不存在病毒的信号强度的密度分布。该分布是噪音占优势的；

图5表示病原体检测芯片数据的分析流程图；

图6是寡核苷酸探针设计示意图。该示意图说明由NC 001781人呼吸道合胞体病毒(RSV)的基因组所产生的嵌搭探针(tiling probe)。数字代表每个探针的起始位置和终止位置。合成了1948个探针以覆盖完整的15225bpRSV基因组。该过程重复用于其余34种病毒的基因组；

图7是(A、B、C)微阵列短线标记的检索表：

病毒科	病毒属/种
病毒科	病毒属/种	正粘病毒科	重症急性呼吸综合症(Sars)新加坡变种2500OC41型病毒229E型病毒
冠状病毒毒科	流感病毒(Flu)A流感病毒B	正粘病毒科	重症急性呼吸综合症(Sars)新加坡变种2500OC41型病毒229E型病毒
冠状病毒毒科	流感病毒(Flu)A流感病毒B	微RNA病毒科	肠道病毒(Entero)D肠道病毒C致肠细胞病变人孤儿病毒(Echo)1肠道病毒B肠道病毒A鼻病毒(Rhino)89鼻病毒B甲型肝炎病毒(Hep A)口蹄疫病毒C
布尼安病毒科	汉坦病毒(Hantaan)辛诺柏病毒(Sin Nombre)	微RNA病毒科
布尼安病毒科	汉坦病毒(Hantaan)辛诺柏病毒(Sin Nombre)	黄病毒科	西尼罗病毒

	日本脑炎病毒登革病毒3登革病毒1登革病毒2登革病毒4黄热病毒
	日本脑炎病毒登革病毒3登革病毒1登革病毒2登革病毒4黄热病毒	副粘病毒科	副流感病毒1副流感病毒3Nipah(聂帕病毒)副流感病毒2新城疫病毒呼吸道合胞病毒(RSV)(B1)偏肺炎病毒
其它病毒科	人乳头瘤病毒(HPV)型10人免疫缺陷症病毒(HIV)1乙型肝炎病毒(Hep B)风疹病毒淋巴细胞脉络从脑膜炎病毒(LCMV)-SLCMV-L辣椒温和斑点病毒(PMMV)人对照	副粘病毒科	副流感病毒1副流感病毒3Nipah(聂帕病毒)副流感病毒2新城疫病毒呼吸道合胞病毒(RSV)(B1)偏肺炎病毒

从SARS Sin850-感染的细胞系(A)或登革病毒I-感染的细胞系(B)中分离的RNA杂交到病原体微阵列上，随后分别进行SARS-特异性RT-PCR或登革病毒I-特异性RT-PCR。SARS与其它冠状病毒科基因组交叉杂交(以黑色表示)，特别与基因组中高度保守的中央部分交叉杂交(Ruan等，2003)。登革病毒I与探针交叉杂交，其中所述的探针是根据登革病毒I与黄病毒科和其它基因组序列相似性而从黄病毒科和其它基因组获得的。通过检查汉明距离(HD)和最大连续匹配(MCM)得分，我们建立了预测交叉杂交是否会发生的阈值并利用该信息生成计算机模拟(in silico)杂交标签。(C)使用随机RT-PCR进行扩增从诊断患有RSV的临床患者中分离的RNA并杂交到病原体微阵列上；

图8：探针汉明距离(HD)、探针最大连续匹配(MCM)与探针信号强度间的关系。平均探针信号强度随HD增加及MCM降低而减少。这与可检测探针的百分数降低相关(信号强度＞均值+2SD)。在最佳交叉杂交阈值HD≤4或MCM≥18(阴影部分)上，可以检测到大于98％的探针。在HD＝5或MCM＝17上，检测率下降到85％；

图9(A，B)：从RSV感染的患者中分离的RNA杂交到病原体检测阵列上。(A)全部53,555个探针的探测信号强度的分布显示出正态分布(灰色实线)。当在基因组特异性水平上检查时，非RSV探针例如副流感病毒-1(灰色点线)也显示出正态分布。RSV-特异性探针的信号强度具有正偏性，在分布的尾部具有更高信号强度(黑色实线)。(B)对35个SPS的WKL得分的分布频率，大部分分布在-5与3之间。然而，对RSV基因组的WKL得分是17，因此该分布不是正态性的(安德森-塔林检验P＜0.05)。排除异常(outlier)基因组产生正态分布。从该计算中，得出的结论是RSV存在于杂交的样品中；

图10：AES指示探针的扩增效率。可在高于超过5个实验的信号强度阈值上检测到更高比例的具有高AES的探针；

图11表示使用微阵列检测病原体所需的过程的示意图；

图12：杂交信号强度与扩增效率得分(AES)的相关，P＝2.2×10^-16。将RSV患者的样品杂交至微阵列上，并且将每个探针的信号强度与计算的AES作图。用于在一般阵列上高置信度检测的信号阈值由绿线表示；

图13：使用AES-优化的引物标签进行随机RT-PCR，AES增加10-30倍。预测优化的引物对表现在微阵列上的所有35个基因组都具有相同性能。大部分患者的样品使用AES-优化的引物A2进行扩增；

SEQ ID NO：	引物	核苷酸序列
SEQ ID NO：	引物	核苷酸序列	10	A1	GTTTCCCAGTCACGATA
11	A2	GATGAGGGAAGATGGGG	10	A1	GTTTCCCAGTCACGATA
11	A2	GATGAGGGAAGATGGGG	12	A3	CTCATGCACGACCCAAA
13	A4	AGATCCATTCCACCCCA	12	A3	CTCATGCACGACCCAAA

图14(A，B)是微阵列短线标记的检索表：

在随机RT-PCR中引物标签的选择对PCR效率有显著影响。热图显示探针与临床的hMPV样品杂交，随后使用Bohlander等1992所述的原始引物(A)或使用根据PCR建模设计的旨在确保高效扩增表现在微阵列上的所有基因组(高AES)的引物(B)进行RT-PCR；

图15：对RSV患者#412的诊断性PCR结果证实该患者没有被冠状病毒感染。(A)使用泛冠状病毒引物的PCR。泳道1：OC43冠状病毒阳性对照；泳道2：229E冠状病毒阳性对照；泳道3：RSV患者#412，泳道4：PCR引物和仅作为阴性对照的试剂。1kb序列梯。(B)使用OC43特异性引物的PCR。泳道1：OC43冠状病毒阳性对照；泳道2：RSV患者#412；泳道3：来自ATCC的纯化RSV；泳道4：PCR阴性对照。50bp序列梯。(C)使用229E特异性引物的PCR。泳道1：229E冠状病毒阳性对照；泳道2：RSV患者#412，泳道3：PCR阴性对照。1kb序列梯。

具体实施方式

为方便起见，本说明书中提及的参考文献以参考文献列表形式列出并附加在实施例的结尾。这些参考文献的完整内容引入本文作为参考。

本发明解决了现有技术的的问题，特别是提供设计寡核苷酸的至少一种方法、装置和/或产物。具体而言，本发明提供设计探针和/或引物的方法、装置和/或产物。本发明还提供核酸检测的方法、装置和/或产物。

尽管已经提出了使用寡核苷酸杂交微阵列作为确定病原体存在的工具的概念，然而仍存在明显的障碍，从而妨碍这些微阵列的常规使用(Striebel，H.M.，2003)。这些障碍包括探针设计和数据分析(Striebel，H.M.，2003；Bodrossy，L.& Sessitsch，A.，2004；Vora，G.J.，等，2004)。本发明的发明人在一种试验性微阵列中观察到尽管仔细选择探针，然而计算机模拟设计的最佳探针不一定与患者样品良好地杂交。本发明人认识到要产生与患者材料始终良好地杂交的探针，必须开发新的和/或探针设计改良的方法以便确定最佳设计预测值。尤其是，如实施例部分中所述，本发明人创造了包含重叠性40聚体(mer)探针的微阵列，其中所述探针在35种病毒基因组范围内嵌搭(tiled)。不过，本发明不限于这种具体应用、探针长度和靶核酸类型。

根据本发明的具体方面，本发明的发明人描述如何优化支持物，尤其是微阵列平台，以使该支持物在靶核酸检测，尤其是病原体检测中成为可行的工具。本发明人还确定了探针设计预测值，包括解链温度、探针的GC含量、二级结构、汉明距离、与人基因组的相似性、PCR引物标签在随机PCR扩增效率方面的影响和/或序列多态性的影响。将这些结果视作和/或纳入探针和/或引物设计方法和标准的开发中。根据更具体的方面，本发明人开发了可以精确预测靶核酸存在的数据分析算法，其中靶核酸可能是病原体或可能不是病原体。例如病原体可以是，但不限于病毒，细菌和/或寄生虫。即使探针不是理想地设计的，也可以使用该算法。这种结合探针设计方法学检测算法显著改善预测的置信度水平(见表6和7)。

根据具体方面，本发明的方法可以不需要预测可能的病原体，但是或许能够以非偏倚方式检测到大部分已知的人病毒、细菌和/或寄生虫，以及一些新物种。将基因组或基因组片段定义为生物染色体中的全部遗传材料。来源于特定生物染色体的遗传材料中的DNA是基因组DNA。基因组文库是克隆的集合，其中克隆由一套随机生成的代表生物完整基因组的重叠性DNA片段产生的。在本发明的这种检测平台背后的逻辑基础是病毒、细菌和/或寄生虫的每个物种在它们基因组的原始序列中均含有独特的分子标签。鉴定这些识别性区域使设计的合理的寡核苷酸探针能够用于特异性地鉴定单个物种以及(在某些情况下)单个株。同时设计和/或制备代表科成员及属成员间最高度保守性区域的寡核苷酸(寡)探针将能够检测并部分表征某些新的病原体。此外，在单个支持物上包含此类全部探针可以使检测同时共感染临床样品的多种病毒、细菌和/或寄生虫。支持物可以是不溶性支持物，尤其是固体支持物，例如微阵列或生物分析芯片。

根据具体方面，本发明可以用作诊断工具，这取决于设计寡核苷酸探针的方式，和/或如何解读并分析由微阵列生成的数据。

扩增效率的确定

根据第一方面，本发明提供设计用于核酸检测的寡核苷酸探针的方法，该方法包括任意顺序的以下步骤：

(i)确定和/或选择至少一种靶核酸的至少一个待扩增区域，该区域的扩增效率(AE)高于平均的AE；和

(ii)设计至少一种能够与所确定和/或选择的区域进行杂交的寡核苷酸探针。

尤其是，在步骤(I)中，对全长靶核酸上或其区域内的每个位置i确定AE得分并且获得平均AE。选择AE高于平均值的那些区域作为靶核酸的待扩增区域。尤其是，所选区域的AE可以被计算为扩增效率得分(AES)，其中AES是正向引物r_i可能与靶核酸的位置i结合并且反向引物r_j可能在靶核酸的位置j处结合的概率，|i-j|是靶核酸的想要的扩增区域。区域|i-j|可以优选为≤10000bp，更优选为≤5000bp或≤1000bp，例如≤500bp。尤其是，正向引物和/或反向引物可以是随机引物。根据另一方面，确定和/或选择靶核酸的待扩增区域的步骤(i)包含确定几何级扩增偏倚对靶核酸中每个位置的影响，并且选择待扩增区域作为扩增效率高于平均扩增效率的区域。几何级扩增偏倚可以被定义为核酸内某些区域的扩增的能力比其它区域的扩增的能力更高。例如，几何级扩增偏倚是PCR偏倚。

扩增效率的建模

由于不知道何种靶核酸(例如病原体)存在于患者样品内，因此可以在扩增步骤和/或逆转录(RT)过程中使用随机引物，以确保使存在的全部RNA无偏倚地逆转录成DNA。本领域已知的任何随机扩增方法可以用于本发明的目。在本说明书中，随机扩增方法可以是RT-PCR。然而，技术人员将明白本发明的方法不限于RT-PCR。RT-PCR方法可能易受RT-PCR方法中引物二聚体结合及较差扩增效率所致的信号不精确性的影响(Bustin，S.A.等，2004)。为克服此问题，本发明人已经通过使用随机引物对RT-PCR方法建模。

根据本发明的具体方面，扩增步骤包括正向引物和反向引物，并且正向引物和反向引物中的每种引物在5’-3’方向上包含固定的引物头部和可变的引物尾部，并且其中至少可变的尾部与靶核酸v_a的一部分杂交。固定的引物头部和可变的引物尾部的尺寸可以是以mer为单位的适合本发明方法的目的任何尺寸。固定的头部可以是10-30mer，优选为5-25mer，例如17mer。可变尾部可以是1-20mer，优选为5-15mer，例如9mer。这些正向引物和反向引物的实例如图1所示。更尤其是，扩增步骤可以包括具有核苷酸序列5’-GTTTCCCAGTCACGATANNNNNNNNN-3’(SEQ ID NO：1)的正向随机引物和/或反向随机引物，其中，N是A、T、C和G及它们的衍生物中的任意一种。

根据具体实施方案，仍如图1所示，本发明的发明人按照下列方法建立了随机RT-PCR方法模型。设v_a是样品中实际病毒。在RT-PCR方法中所用的随机引物优选为具有固定的17mer头部和可变的9mer尾部的26mer引物，即(5’-GTTTCCCAGTCACGATANNNNNNNN-3’)(SEQ ID NO：1，尤其为SEQ ID NOS：2-7)。然而，对于技术人员来说，本发明的引物显然不限于SEQID NOS：1-7和图1的序列。实际上，引物的核苷酸数，尤其是头部及可变尾部的核苷酸数，可以变化并且在以上所讨论的范围内加以选择。为在v_a的位置i与j间的区域内得到RT-PCR产物，本发明人需要(1)结合至位置i的正向引物，(2)|i-j|≤10000以及(3)结合至位置j的反向引物。作为靶核酸内想要扩增区域的|i-j|优选为≤5000bp，更优选为≤1000，例如≤500bp。RT-PCR产物的质量取决于正向引物和/或反向引物与v_a结合得的情况。一些随机引物可以比其它随机引物更好地与v_a结合。确定此类引物并确定它们在哪里与v_a结合提示了v_a的特定区域有多大可能被扩增。使用这种方法，提供对v_a的每个位置计算扩增效率得分(AES)的扩增效率模型。

对于靶核酸v_a的特定位置i，P^f(i)和P^r(i)是随机引物r_i作为正向引物和反向引物分别可以与v_a的位置i结合的概率。为简便起见，假设随机引物仅当该随机引物的最后9个核苷酸是v_a的反向互补物(正向引物)的子串或是v_a(反向引物)的子串时才可以与v_a结合。这如图1所示。基于非常确定的引物设计标准(Wu，D.Y.，等，1991)，若r_i形成明显的引物二聚体或具有极端的解链温度，则P^f(i)被评定为低。另一方面，若r_i未形成任何明显的引物二聚体并具有最佳的解链温度，则P^f(i)将被评定为高。需要注意的是，若随机引物的头部与v_a相似，这也可以辅助结合并因此产生更高的P^f(i)。类似地，计算了P^r(i)。

随机引物r_i作为正向引物在v_a的位置i的结合影响位置i上游至少10000个核苷酸的RT-PCR产物的质量。随机引物r_i作为反向引物在v_a的位置i的结合影响位置i下游至少10000个核苷酸的RT-PCR产物的质量。因此，对v_a的每个位置i的扩增效率得分AES_i可以通过考虑用于扩增位置i的所有正向引物和反向引物对的总效果计算：

{AES}_{i} = Σ_{j = i - Z}^{i} {P^{f} (j) \times Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k)}

其中

Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k) = P^{r} (i + 1) + P^{r} (i + 2) + . . . . . . P^{r} (j + Z)

P^f(i)和P^r(i)是随机引物r_i作为正向引物和反向引物分别与v_a的位置i结合的概率，并且Z≤10000bp是v_a的欲扩增的区域。

因此，Z可以是≤10000bp、≤5000bp、≤1000bp或≤500bp。

为验证由病毒的不同区域所表现的信号强度上的变异是否与所述区域的相应扩增效率得分直接相关，进行了几个对常见的感染人的病原体即人呼吸道合胞体病毒B(RSV B)的微阵列实验(在这种具体情况下，总计5个微阵列实验)。

对扩增效率建立RT-PCR模型

本发明的方法是采用引物用于改良的逆转录的方法(Sung等，2003，CSB)，该方法包括固定的寡核苷酸标签(头部)和随机寡核苷酸尾部。理论上，随机寡核苷酸尾部应当不加区分地与患者样品内的全部核酸结合，启动第一链合成。在第二链合成后，全部逆转录的序列将在两端具有固定的寡核苷酸标签(头部)。这些序列使用固定的寡核苷酸标签(头部)作为引物，通过PCR扩增以生成长度至少为10000bp的PCR产物。尤其是，所扩增的PCR产物的长度大部分在500-1000bp之间。根据所述特定实施方案，用于逆转录的(RT)26mer引物包含固定的17mer标签和9mer的随机尾部：5’-GTTTCCCAGTCACGATANNNNNNNNN-3’(SEQ ID NO：1)。

在我们的模型中，v_a代表临床样品中的病原体。为了在基因组内的任何区域中生成至少一种由v_a的位置i和j所定义的PCR产物，例如500-1000bp，需要结合至位置i的正向引物和以反义方向结合至位置j的反向引物，且使500≤|i-j|≤10000，尤其是500≤|i-j|≤1000。引物的结合亲和力由至少两种因素决定：(1)引物二聚体形成，和(2)引物对病毒v_a的杂交亲和力。通过对如图1所示的v_a的每个位置计算扩增效率得分(AES)可以预测在10000个核苷酸范围内，尤其在1000个或500个核苷酸范围内因具有理想引物结合位置而被成功扩增的基因组区域。

扩增效率得分(AES)

对v_a的每个位置i，设P^f(i)和P^r(i)是随机引物r_i作为正向引物和反向引物分别与v_a的位置i可能结合的概率。为简便起见，我们假设随机引物仅当该引物的随即尾部(例如，如图1内所示随机引物的最后9个核苷酸)是v_a的反向互补物(正向引物)的子串或是v_a(反向引物；图1)的子串时才可以与v_a结合。基于非常确定的引物设计标准(Wu，and Ugozzoli，1991)，若r_i形成明显的引物二聚体或具有极端的解链温度，则我们评定P^f(i)为低。另一方面，若r_i未形成任何明显的引物二聚体并具有最佳的解链温度，则P^f(i)将被评定为高。若随机引物的固定的寡核苷酸标签(头部)(例如，图1所示固定的17mer标签)与v_a相似，这也可以辅助结合并且因此产生更高的P^f(i)。类似地，我们计算了P^r(i)。

随机引物r_i作为正向引物在v_a的位置i的结合影响位置i上游的核苷酸(例如位置i上游500至1000个核苷酸)的RT-PCR产物的质量。类似地，随机引物r_i作为反向引物在v_a的位置i的结合影响位置i下游的核苷酸(例如位置i下游500至1000个核苷酸)的RT-PCR产物的质量和覆盖度。假定v_a有位置x。位于位置i和j内的全部有效引物对分别影响在x处的RT-PCR产物的质量。需要注意的是i≥x≥j并且i-j≤10000。例如，500≤i-j≤1000，因为我们的RT-PCR产物的长度是500至1000碱基对。因此，对v_a的每个位置x的扩增效率得分AESx可以是通过考虑用于扩增位置x的全部引物对的总效果计算：

{AES}_{x} = Σ_{j = x - 1000}^{x} {P^{f} (j) \times Σ_{k = \max (x + 1, j + 500)}^{j + 1000} P^{r} (k)}

预测成功的RT-PCR的AES阈值

用于病毒v_a的探针选择的扩增增效率得分的阈值由v_a的AES值的累积分布函数测定。设X是代表v_a的所有探针的AES值的随机变量。设k是v_a探针的数目。随后，我们指定AES值小于或等于x的概率是P(X≤x)＝c/k，其中c是具有小于或等于x的AES值的探针的数目。对于在v_a的位置i的探针p_i，设x_i是该探针的相应AES值。由于探针的信号强度与它的AES值高度相关，我们认为P(p_i|v_a)，即p_i在v_a存在下具有高信号强度的概率，是P(X≤x_i)。因此，

P (p_{i} | v_{a}) \approx P (X \leq x_{i}) = \frac{c_{i}}{k}

其中c_i是AES值小于或等于x_i的探针的数目。

对于探针的选择而言，若P(p_i|v_a)＞λ，则选择探针p_i。在我们的实验中，设定λ＝0.8。在该阈值(AES的最高20％)，观察到多于50％的预期探针可重复地与不同临床样品杂交。当使用具有更高AES(例如，AES的最高10％)的探针将改善可重复性，与此同时这将在物种水平上降低对某些基因组仍为独特的探针的数目至＜10，因此有损此阵列特异性鉴定病原体的能力。因此使用AES的最高20％。

在病原体检测微阵列上实验性地测定交叉杂交阈值：

探针的设计

设计能够与所选区域杂交的寡核苷酸探针的步骤(ii)可以选择为任何一种本领域内已知的探针设计技术。以下描述涉及探针设计，然而，对于技术人员来说，显然还可采用相同的原理用于设计引物，尤其用于RT-PCR设计引物。

例如，给定一套靶核酸(例如，病毒基因组)V＝{v₁，v₂...，v_n}，对于每个v_i∈V，可以考虑设计一套长度为m的满足以下条件，例如至少一种以下条件，的探针(其是v_i的子串)：

(a)已建立的探针设计标准，即同质性、灵敏性和特异性(Sung，W.K.等，2003，CSB)；

(b)与人基因组无显著的序列相似性；和

(c)使用AE得分高效扩增，例如通过如本文中所述的RT-PCR。

由交叉杂交人为产物所致的噪音性信号对于解读微阵列数据、特别对鉴定存在于复杂核酸混合物内的稀有病原体序列设置了巨大障碍。例如，在临床标本中，那些来自宿主组织中的核酸序列等污染的核酸序列，将在序列互补性的某阈值以上与病原体特异性微阵列探针交叉杂交。这可能产生导致错误结论的假阳性信号。类似地，病原体序列除了结合它的特异性探针外，还可以与其它非靶探针(即设计旨在检测其它病原体的探针)交叉杂交。尽管后一现象似乎带来问题，却可能为病原体鉴定提供有用信息以可以精确预测交叉杂交。由于微阵列探针具有评定复性潜能和序列特异性的诸多优点，因此通常将它设计为确保(对已知靶的)最大的特异性杂交，同时具有(对非特异性序列的)最小的交叉杂交。然而实践中，我们发现尽管使用最佳计算机模拟参数来设计，因未知原因，众多探针未如预期那样表现性能。

为了系统研究基于阵列的病原体检测的动力学，我们使用宁布勒根(Nimblegen)阵列合成技术(Nuwaysir等，2002)创造寡核苷酸阵列。使用40mer探针而设计的所述阵列检测多达35种RNA病毒，其中，所述的探针以平均8个碱基的解析度在每种基因组全部长度范围内嵌搭(tiled)(53,555个探针；图6，表1)。

表1在病原体检测微阵列上代表的基因组列表。

(第1列)对微阵列上合成的每种基因组的探针的数目。(第2列)应用探针设计筛选程序(filter)后剩下的对每种基因组的探针的数目。(第3列)对每种基因组的探针的数目，其中所述探针对所述基因组是独特的并且不与人的基因组交叉杂交。

基因组	探针的原始数目(1)	筛选后探针的数目(2)	独特探针(3)	NCBI GI编号	参考类型	编号	描述
基因组	探针的原始数目(1)	筛选后探针的数目(2)	独特探针(3)	NCBI GI编号	参考类型	编号	描述	1	1948	537	271	9629198	RefSeq	NC_001781.1	人呼吸道合胞体病毒，全基因组
2	1995	550	295	19718363	RefSeq	NC_003461.1	人副流感病毒1株华盛顿/1964，全基因组	1	1948	537	271	9629198	RefSeq	NC_001781.1	人呼吸道合胞体病毒，全基因组
2	1995	550	295	19718363	RefSeq	NC_003461.1	人副流感病毒1株华盛顿/1964，全基因组	3	2002	762	474	19525721	RefSeq	NC_003443.1	人副流感病毒2，全基因组
4	1979	701	345	10937870	RefSeq	NC_001796.2	人副流感病毒3，全基因组	3	2002	762	474	19525721	RefSeq	NC_003443.1	人副流感病毒2，全基因组
4	1979	701	345	10937870	RefSeq	NC_001796.2	人副流感病毒3，全基因组	5	3805	588	444	30468042	Genbank	AY283794.1	SARS冠状病毒Sin2500，全基因组
6	3937	604	356	38018022	RefSeq	NC_005147.1	人冠状病毒OC43，全基因组	5	3805	588	444	30468042	Genbank	AY283794.1	SARS冠状病毒Sin2500，全基因组
6	3937	604	356	38018022	RefSeq	NC_005147.1	人冠状病毒OC43，全基因组	7	3495	182	112	12175745	RefSeq	NC_002645.1	人冠状病毒229E，全基因组
8	1705	292	177	46852132	RefSeq	NC_004148.2	人偏肺炎病毒，全基因组	7	3495	182	112	12175745	RefSeq	NC_002645.1	人冠状病毒229E，全基因组
8	1705	292	177	46852132	RefSeq	NC_004148.2	人偏肺炎病毒，全基因组	9	296	118	101	8486138	RefSeq	NC_002023.1	甲型流感病毒RNA片段1，全序列
10	282	69	42	8486136	RefSeq	NC_002022.1	甲型流感病毒RNA片段3，全序列	9	296	118	101	8486138	RefSeq	NC_002023.1	甲型流感病毒RNA片段1，全序列
10	282	69	42	8486136	RefSeq	NC_002022.1	甲型流感病毒RNA片段3，全序列	10	296	81	54	8486134	RefSeq	NC_002021.1	甲型流感病毒RNA片段2，全序列
10	110	69	57	8486131	RefSeq	NC_002020.1	甲型流感病毒RNA片段8，全序列	10	296	81	54	8486134	RefSeq	NC_002021.1	甲型流感病毒RNA片段2，全序列
10	110	69	57	8486131	RefSeq	NC_002020.1	甲型流感病毒RNA片段8，全序列	10	196	71	62	8486129	RefSeq	NC_002019.1	甲型流感病毒RNA片段5，全序列

10	177	75	59	8486127	RefSeq	NC_002018.1	甲型流感病毒RNA片段6，全序列
10	177	75	59	8486127	RefSeq	NC_002018.1	甲型流感病毒RNA片段6，全序列	10	225	70	51	8486125	RefSeq	NC_002017.1	甲型流感病毒RNA片段4，全序列
10	300	105	48	8486164	RefSeq	NC_002204.1	乙型流感病毒RNA-1，全序列	10	225	70	51	8486125	RefSeq	NC_002017.1	甲型流感病毒RNA片段4，全序列
10	300	105	48	8486164	RefSeq	NC_002204.1	乙型流感病毒RNA-1，全序列	10	293	113	74	8486148	RefSeq	NC_002205.1	乙型流感病毒RNA-2，全序列
10	279	94	59	8486150	RefSeq	NC_002206.1	乙型流感病毒RNA-3，全序列	10	293	113	74	8486148	RefSeq	NC_002205.1	乙型流感病毒RNA-2，全序列
10	279	94	59	8486150	RefSeq	NC_002206.1	乙型流感病毒RNA-3，全序列	10	237	70	53	8486152	RefSeq	NC_002207.1	乙型流感病毒RNA-4，全序列
10	232	90	82	8486154	RefSeq	NC_002208.1	乙型流感病毒RNA-5，全序列	10	237	70	53	8486152	RefSeq	NC_002207.1	乙型流感病毒RNA-4，全序列
10	232	90	82	8486154	RefSeq	NC_002208.1	乙型流感病毒RNA-5，全序列	10	195	64	32	8486156	RefSeq	NC_002209.1	乙型流感病毒RNA-6，全序列
10	150	47	37	8486159	RefSeq	NC_002210.1	乙型流感病毒RNA-7，全序列	10	195	64	32	8486156	RefSeq	NC_002209.1	乙型流感病毒RNA-6，全序列
10	150	47	37	8486159	RefSeq	NC_002210.1	乙型流感病毒RNA-7，全序列	10	136	59	50	8486161	RefSeq	NC_002211.1	乙型流感病毒RNA-8，全序列
11	1401	85	54	11528013	RefSeq	NC_001563.2	西尼罗病毒，全基因组	10	136	59	50	8486161	RefSeq	NC_002211.1	乙型流感病毒RNA-8，全序列
11	1401	85	54	11528013	RefSeq	NC_001563.2	西尼罗病毒，全基因组	12	1389	145	123	9627244	RefSeq	NC_002031.1	黄热病毒，全基因组
13	2335	235	171	13559808	RefSeq	NC_002728.1	聂帕病毒(Nipah)，全基因组	12	1389	145	123	9627244	RefSeq	NC_002031.1	黄热病毒，全基因组
13	2335	235	171	13559808	RefSeq	NC_002728.1	聂帕病毒(Nipah)，全基因组	14	1943	244	211	11545722	RefSeq	NC_002617.1	新城疫病毒，全基因组
15	1174	208	128	9629357	RefSeq	NC_001802.1	人免疫缺陷症病毒1，全基因组	14	1943	244	211	11545722	RefSeq	NC_002617.1	新城疫病毒，全基因组
15	1174	208	128	9629357	RefSeq	NC_001802.1	人免疫缺陷症病毒1，全基因组	16	409	134	106	21326584	RefSeq	NC_003977.1	乙型肝炎病毒，全基因组
17	1011	169	135	9627257	RefSeq	NC_001576.1	人乳头瘤病毒型10，全基因组	16	409	134	106	21326584	RefSeq	NC_003977.1	乙型肝炎病毒，全基因组
17	1011	169	135	9627257	RefSeq	NC_001576.1	人乳头瘤病毒型10，全基因组	18	1036	325	299	10445391	RefSeq	NC_002554.1	口蹄疫病毒C，全基因组
19	1246	211	209	9790308	RefSeq	NC_001545.1	风疹病毒，全基因组	18	1036	325	299	10445391	RefSeq	NC_002554.1	口蹄疫病毒C，全基因组
19	1246	211	209	9790308	RefSeq	NC_001545.1	风疹病毒，全基因组	20	955	309	72	9626732	RefSeq	NC_001489.1	甲型肝炎病毒，全基因组

21	834	103	29	38371716	RefSeq	NC_005222.1	汉坦病毒，全基因组
21	834	103	29	38371716	RefSeq	NC_005222.1	汉坦病毒，全基因组	22	837	188	98	38371727	RefSeq	NC_005217.1	辛诺柏病毒，全基因组
23	430	100	86	23334588	RefSeq	NC_004294.1	淋巴细胞脉络丛脑膜炎病毒片段S，全序列	22	837	188	98	38371727	RefSeq	NC_005217.1	辛诺柏病毒，全基因组
23	430	100	86	23334588	RefSeq	NC_004294.1	淋巴细胞脉络丛脑膜炎病毒片段S，全序列	23	853	455	286	23334585	RefSeq	NC_004291.1	淋巴细胞脉络丛脑膜炎病毒片段L，全序列
24	1404	204	122	9626460	RefSeq	NC_001437.1	日本脑炎病毒，基因组	23	853	455	286	23334585	RefSeq	NC_004291.1	淋巴细胞脉络丛脑膜炎病毒片段L，全序列
24	1404	204	122	9626460	RefSeq	NC_001437.1	日本脑炎病毒，基因组	25	1370	284	91	51850386	日本DNA数据库	AB189128.1	登革病毒病毒3型基因组RNA，全基因组，株：98902890 DF DV-3
26	1361	130	57	12659201	基因银行(Genbank)	AF326573.1	登革病毒病毒4型，株814669，全基因组	25	1370	284	91	51850386	日本DNA数据库	AB189128.1	登革病毒病毒3型基因组RNA，全基因组，株：98902890 DF DV-3
26	1361	130	57	12659201	基因银行(Genbank)	AF326573.1	登革病毒病毒4型，株814669，全基因组	27	1370	142	21	19744844	Genbank	AF489932.1	登革病毒病毒2型，株BR64022，全基因组
28	1370	152	52	323660	Genbank	M87512.1	DENT1SEQ登革病毒病毒1型，全基因组	27	1370	142	21	19744844	Genbank	AF489932.1	登革病毒病毒2型，株BR64022，全基因组
28	1370	152	52	323660	Genbank	M87512.1	DENT1SEQ登革病毒病毒1型，全基因组	29	944	175	87	9626436	RefSeq	NC_001430.1	人肠道病毒D，全基因组
30	945	183	122	9626433	RefSeq	NC_001428.1	人肠道病毒C，全基因组	29	944	175	87	9626436	RefSeq	NC_001430.1	人肠道病毒D，全基因组
30	945	183	122	9626433	RefSeq	NC_001428.1	人肠道病毒C，全基因组	31	946	196	148	9627719	RefSeq	NC_001612.1	人肠道病毒A，全基因组
32	945	364	154	21363125	RefSeq	NC_003986.1	致肠细胞病变人孤儿病毒1，全基因组	31	946	196	148	9627719	RefSeq	NC_001612.1	人肠道病毒A，全基因组
32	945	364	154	21363125	RefSeq	NC_003986.1	致肠细胞病变人孤儿病毒1，全基因组	33	944	94	12	9626677	RefSeq	NC_001472.1	人肠道病毒B，全基因组
34	913	283	190	9627730	RefSeq	NC_001617.1	人鼻病毒89，全基因组	33	944	94	12	9626677	RefSeq	NC_001472.1	人肠道病毒B，全基因组
34	913	283	190	9627730	RefSeq	NC_001617.1	人鼻病毒89，全基因组	35	920	426	291	9626735	RefSeq	NC_001490.1	人鼻病毒B，全基因组

包括对每种病毒探针的7个重复探针，和用于阵列合成及杂交(如下所述)的对照序列，该阵列总共含有390,482个探针。

同质性、灵敏性和特异性

同质性需要选择具有相似解链温度的探针。据发现低CG含量的探针不会产生可靠的杂交信号强度，而高CG含量的探针通过非特异性结合易于产生高信号强度。因此，可能建立的是所选探针的CG含量应当是40％至60％。

因此，本发明提供设计用于核酸检测的寡核苷酸探针的方法，该方法包括选择CG含量为40％至60％的探针。

术语“杂交”是指其中寡探针非共价地与靶核酸或其部分结合以形成稳定双链的过程。三链杂交在理论上也是可能的。杂交探针是能够以碱基特异性方式与靶核酸的互补链结合的寡核苷酸。特异性杂交是指，当序列存在于DNA或RNA的复杂混合物中(例如总细胞的)时，在严格条件下分子基本上与或仅与特定的核苷酸序列或序列结合、形成双链体或杂交。杂交，例如等位基因特异性探针杂交，通常在严格条件下进行。例如，其中盐浓度不高于约1摩尔浓度(M)并且温度是至少25℃的条件是严格条件，所述盐浓度为，例如750mMNaCl，50mM磷酸钠，5mM EDTA，pH 7.4(5倍浓度SSPE)；所述温度为约25℃至约30℃。杂交通常在严格条件下进行，例如在盐浓度不高于1M并且温度至少25℃下。对于严格条件，还可参考，例如，Sambrook和Russel，Molecular Cloning：A Laboratory Manual，Cold Springs HarborLaboratory，New York(2001)，为以上的所有目的将该文献全部内容引入本文作为参考。

灵敏性需要选择不能形成大量的二级结构的探针，以便检测低丰度的mRNA。因此，根据最邻近模型计算的最高自由能选择探针(SantaLucia，J.，Jr.等，1996)。

因此本发明提供设计至少一种用于核酸检测的寡核苷酸探针的方法，其中，根据最邻近模型计算的最高自由能选择探针。

特异性需要选择对病毒基因组最独特的探针。这将使探针与其它非靶核酸(例如，病毒基因组)的交叉杂交最小化。假定探针s_a和探针s_b分别是靶核酸v_a和v_b的子串，则根据s_a与来自靶核酸v_b的长度为m的任意子串s_b之间的汉明距离和/或s_a与探针s_b的最长公共子串来选择s_a。尤其，设s_a和s_b分别是来自病毒基因组v_a和v_b的长度为m的子串，其中v_a≠v_b。

待设计的探针的长度可以是对本发明的目的有用的任何长度。探针可以小于100mer，例如20至80mer；25至60mer，例如40mer。汉明距离和/或最长公共子串也可以变化。

根据凯恩氏(Kane’s)标准(Kane，M.D.，等，2000)，s_a对v_a是特异性的，若：

(a)s_a与来自病毒基因组v_b的长度为m的任意子串s_b间的汉明距离大于0.25m；

(b)s_a和s_b的最长公共子串小于15。

用于汉明距离的界限值可以根据所需的严格性进行选择。对于任何技术人员来说，如何根据所需的特定严格性选择汉明距离界限是显而易见的。根据本文中所述的探针设计的具体实例，本发明人对特异性探针使用相对其它靶核酸的＞10的汉明距离界限值，并且对保守性探针使用＜10、优选＜5的汉明距离界限值。对于特异性探针而言，这表示仅与特异性靶核酸杂交的探针，而对于保守性探针而言，这表示可以与靶核酸家族的任何成员杂交的探针。

因此，本发明还提供设计用于核酸检测的寡核苷酸探针的方法，其中，假定探针s_a和探针s_b分别是生物样品中包含的靶核酸v_a和v_b的子串，若s_a与来自靶核酸v_b的长度为m的任意子串s_b间的汉明距离大于0.25m，并且s_a与探针s_b的最长公共子串小于15，则选择s_a。

为了在没有来自人RNA的交叉杂交复杂情况下研究阵列杂交动力学，将SARS冠状病毒及登革病毒血清型1的病毒RNA从感染细胞系的培养基中纯化、逆转录并使用病毒特异性引物进行PCR扩增(Wong，等，2004)。每种基因组cDNA被完整地扩增(通过测序证实)，用Cy3标记并在微阵列上分别杂交。SARS样品很好地与SARS嵌搭探针杂交，全部3,805个SARS特异性探针显示远高于检测阈值(检测阈值由探针信号强度在阵列信号强度均值之上＞2标准差而确定；图7A)的荧光(Cy3)信号。与其它病原体探针组的交叉杂交极少，仅对冠状病毒科其它成员和微RNA病毒科和副粘病毒科的几个物种观察到交叉杂交，这同SARS与其它已知病毒很少有序列同源性的观察相一致(Ksiazek等，2003)。另一方面，登革病毒1的杂交模式更为复杂(图7B)。首先，由于序列多态性，我们观察到与登革病毒1探针组的杂交是局部不完整的(即区域无信号)。在阵列上杂交的登革病毒1样品是从1944年的夏威夷分离株(ATCC登记号#VR-1254)中培养出来，而阵列探针组以1990年在新加坡分离的S275/90株(Fu等，1992)的序列为基础。未与cDNA靶杂交的登革病毒1探针分别含有对靶序列的至少3个错配(在15碱基的片段内)。其次，我们观察到在某种程度上与阵列上存在的几乎全部病毒探针组，尤其与其它黄病毒科成员的探针发生交叉杂交，这与4种登革病毒血清型共享60-70％同源性的事实相一致。为理解杂交信号输出与复性特异性间的关系，我们使用2种相似性度量：即探针汉明距离(HD)与最大连续匹配(MCM)，首先将全部探针序列与每种病毒基因组比较。HD测量两种序列的整体相似性距离，对相似序列产生低得分(Hamming，1950)。MCM测量完全匹配的连续碱基数目，对相似序列产生高得分(Kane等，2000)。

我们计算每个探针相对于夏威夷登革病毒1分离株的HD和MCM得分并且观察到这些得分分别反向地并且直接地与探测信号强度相关。阵列上与夏威夷登革病毒I基因组具有高相似性即HD＝2(n＝942)或MCM＝27(n＝627)的所有探针以高于背景3个对数值的中等信号强度发生杂交。虽然98％的探针在0-4的低HD范围内或18-40的高MCM范围内是可检测到的，然而中等探测信号强度随序列距离的每个增量而下降。中等信号强度在HD＝7和MCM＝15急剧下降至背景水平，分别具有43％和46％的可检测探针。绝大多数探针(＞96％，n＞51,000)具有8-21的HD得分和/或0-15的MCM得分，其中可分别检测到1.23％和1.57％的这些探针。

理想的交叉杂交相似性阈值为这样的值，即其中鉴定特定病原体的所有探针总是具有高于背景噪音的可检测信号强度，即使在病原体序列内存在多态性时也是如此。在最佳的相似性阈值HD＝4和MCM＝18，＞98％的探针可以以高于背景2个对数值的中等信号强度被检测到，而调整阈值下降1级至HD＝5和MCM＝17将仅产生～85％探针检测和高于背景～1.2个对数值的中等信号强度(图8)。

使用这些最佳HD和MCM阈值来预测交叉杂交，我们将全部探针分成最有可能检测给定病原体的组。我们将这些组称作特异性标签探针组(SPSs)，并且我们为阵列上所代表的35种病原体基因组中的每种基因组定义了SPSs(表2)。

表2每种病原体标签探针组(SPS)包含具有最高的20％的AES的探针[第(1)列]。剔除了GC含量不为40-60％的探针[第(2)列]或与人基因组具有高度相似性的探针[第(3)列]。将来自于其它病原体的、根据HD和MCM将与该病原体交叉杂交的探针[第(4)列]添加至SPS[第(5)列]。

	病原体	科	总的嵌搭探针	AES(1)	GC含量筛选程序(2)	人基因组筛选程序(3)	筛选留下的探针的数目	预测的交叉杂交性探针的数目(HD≤4和MCM≥18)(4)	SPS内的探针的数目(5)
	病原体	科	总的嵌搭探针	AES(1)	GC含量筛选程序(2)	人基因组筛选程序(3)	筛选留下的探针的数目	预测的交叉杂交性探针的数目(HD≤4和MCM≥18)(4)	SPS内的探针的数目(5)	1	LCMV	砂粒病毒科	1283	574	1	18	555	0	555
2	汉坦病毒	布尼安病毒科	834	131	6	22	103	2	105	1	LCMV	砂粒病毒科	1283	574	1	18	555	0	555
2	汉坦病毒	布尼安病毒科	834	131	6	22	103	2	105	3	辛诺柏病毒	布尼安病毒科	837	225	8	29	188	3	191
4	229E	冠状病毒科	3495	196	2	12	182	2	184	3	辛诺柏病毒	布尼安病毒科	837	225	8	29	188	3	191
4	229E	冠状病毒科	3495	196	2	12	182	2	184	5	OC43	冠状病毒科	3937	663	16	43	604	3	607
6	SARS	冠状病毒科	3805	672	6	78	588	3	591	5	OC43	冠状病毒科	3937	663	16	43	604	3	607
6	SARS	冠状病毒科	3805	672	6	78	588	3	591	7	登革病毒血清型1	黄病毒科	1370	201	2	47	152	50	202
8	登革病毒血清型2	黄病毒科	1370	178	0	36	142	71	213	7	登革病毒血清型1	黄病毒科	1370	201	2	47	152	50	202
8	登革病毒血清型2	黄病毒科	1370	178	0	36	142	71	213	9	登革病毒血清型3	黄病毒科	1370	336	1	51	284	69	353
10	登革病毒血清型4	黄病毒科	1361	172	1	41	130	44	174	9	登革病毒血清型3	黄病毒科	1370	336	1	51	284	69	353

11	日本肝炎病毒	黄病毒科	1404	274	6	64	204	40	244
11	日本肝炎病毒	黄病毒科	1404	274	6	64	204	40	244	12	西尼罗病毒	黄病毒科	1401	111	4	22	85	22	107
13	黄热病毒	黄病毒科	1389	151	0	6	145	10	155	12	西尼罗病毒	黄病毒科	1401	111	4	22	85	22	107
13	黄热病毒	黄病毒科	1389	151	0	6	145	10	155	14	乙型肝炎病毒	嗜肝DNA病毒科	409	146	2	10	134	0	134
15	甲型流感病毒	正粘病毒科	1582	601	2	46	553	0	553	14	乙型肝炎病毒	嗜肝DNA病毒科	409	146	2	10	134	0	134
15	甲型流感病毒	正粘病毒科	1582	601	2	46	553	0	553	16	乙型流感病毒	正粘病毒科	1822	718	7	69	642	2	644
17	人乳头瘤病毒型10	乳多空病毒科	1011	177	1	7	169	0	169	16	乙型流感病毒	正粘病毒科	1822	718	7	69	642	2	644
17	人乳头瘤病毒型10	乳多空病毒科	1011	177	1	7	169	0	169	18	hMPV	副粘病毒科	1705	375	23	60	292	8	300
9	新城疫病毒	副粘病毒科	1943	252	0	8	244	0	244	18	hMPV	副粘病毒科	1705	375	23	60	292	8	300
9	新城疫病毒	副粘病毒科	1943	252	0	8	244	0	244	20	Nipah	副粘病毒科	2335	274	22	17	235	0	235
21	副流感病毒1	副粘病毒科	1995	625	13	62	550	3	553	20	Nipah	副粘病毒科	2335	274	22	17	235	0	235
21	副流感病毒1	副粘病毒科	1995	625	13	62	550	3	553	22	副流感病毒2	副粘病毒科	2002	838	31	45	762	0	762
23	副流感病毒3	副粘病毒科	1979	834	29	104	701	9	710	22	副流感病毒2	副粘病毒科	2002	838	31	45	762	0	762
23	副流感病毒3	副粘病毒科	1979	834	29	104	701	9	710	24	RSV B	副粘病毒科	1948	655	52	66	537	4	541
25	致肠道细胞病变人孤儿病毒1	微RNA病毒毒科	945	439	3	72	364	59	423	24	RSV B	副粘病毒科	1948	655	52	66	537	4	541
25	致肠道细胞病变人孤儿病毒1	微RNA病毒毒科	945	439	3	72	364	59	423	26	肠道病毒A	微RNA病毒科	946	205	0	9	196	21	217
27	肠道病毒B	微RNA病毒科	944	109	0	15	94	47	141	26	肠道病毒A	微RNA病毒科	946	205	0	9	196	21	217
27	肠道病毒B	微RNA病毒科	944	109	0	15	94	47	141	28	肠道病毒C	微RNA病毒科	945	202	0	19	183	31	214
29	肠道病毒D	微RNA病毒科	944	191	0	16	175	15	190	28	肠道病毒C	微RNA病毒科	945	202	0	19	183	31	214
29	肠道病毒D	微RNA病毒科	944	191	0	16	175	15	190	30	口蹄疫病毒	微RNA病毒科	1036	356	26	5	325	0	325
31	甲型肝炎病毒	微RNA病毒科	955	355	9	37	309	0	309	30	口蹄疫病毒	微RNA病毒科	1036	356	26	5	325	0	325
31	甲型肝炎病毒	微RNA病毒科	955	355	9	37	309	0	309	32	鼻病毒A(型89)	微RNA病毒科	913	333	2	48	283	13	296
33	鼻病毒B	微RNA病毒科	920	464	3	35	426	11	437	32	鼻病毒A(型89)	微RNA病毒科	913	333	2	48	283	13	296
33	鼻病毒B	微RNA病毒科	920	464	3	35	426	11	437	34	HIV 1	逆转录病毒科	1174	229	4	17	208	0	208
35	风疹病毒	披盖病毒科	1246	748	534	3	211	0	211	34	HIV 1	逆转录病毒科	1174	229	4	17	208	0	208
35	风疹病毒	披盖病毒科	1246	748	534	3	211	0	211			总计	53555				10955		11497

每种病原体的SPS包含从其基因组序列中衍生的嵌搭探针(HD＝0，MCM＝40)以及从其它病原体中衍生的交叉杂交性探针(HD＝4，MCM＝18)。

随后，我们考虑了可能影响我们的SPS探针性能的其它非特异性杂交现象。例如，我们观察到探针信号与％GC含量间的一般关系。与先前观察一致，我们发现GC含量＜40％的探针产生减弱的信号强度，而GC含量＞60％的探针显示更高的信号强度(Wong等，2004；Maskos和Southern，1993)。因此，我们利用％GC含量作为额外的选择筛选程序，而从我们的SPS中排除GC含量＜40％及GC含量＞60％的探针，尽管这些探针具有最佳的HD和MCM值。

与人基因组的序列相似性

在待检测的靶核酸从人提取的情况下(例如，含有病毒基因组的人样品)，还应当避免使用与人基因组具有高度同源性的探针。因此，就对靶核酸v_a为特异的长度为m的任何探针s_a而言，若探针s_a与异于靶核酸的核酸的任何区域无任何标的，则选择探针s_a，若长度为m的探针s_a与异于靶核酸的核酸有标的，则选择长度为m的具有最小的最大比对长度和/或具有最低标的数的探针s_a。尤其是，对于任何长度为m的探针s_a，用BLAST算法找到s_a对人基因组的标的(Altschul，S.F.等，1997)。使用BLAST字段大小(W＝15)和期望值100来找到全部标的。若s_a与人基因组无任何标的，则选择s_a，也就是说，s_a对v_a是特异性的。然而，若v_a的长度为m的全部子串与人基因组有标的，则选择具有最小的最大比对长度和具有最低标的数的那些子串。

此外由于与人序列的交叉杂交也可能使结果混乱，我们通过BLAST使用字段大小为15(Altschul等，1997)将全部探针与人基因组装配物(build17)(Intemational Human Genome Sequencing Consortium.Initial sequencingand analysis of the human genome.Nature 409(6822)，860-921(2001).)进行比较。从SPS中进一步筛选具有期望值为100的探针(见上表2)。

因此，本发明提供设计用于核酸检测的寡核苷酸探针的方法，其中，就对靶核酸v_a特异的长度为m的任何探针s_a而言，若探针s_a与异于靶核酸的核酸的任何区域无任何标的，则选择探针s_a，并且若长度为m的探针s_a与异于靶核酸的核酸有标的，则选择长度为m的具有最小的最大比对长度和/或具有最低标的数的探针s_a。

此外，寡核苷酸探针设计还可以通过本发明的AES实施。尤其是，本发明提供选择和/或设计探针的方法，其中，若预测p_i与所扩增靶核酸的位置i杂交，则选择在靶核酸的位置i的探针p_i。

尤其是，能够与所选区域杂交的寡核苷酸探针可以根据至少一种以下标准进行选择和/或设计：

(a)选择CG含量为40％至60％的探针；

(b)选择具有根据最邻近模型计算的最高自由能的探针；

(c)假定探针s_a和探针s_b分别是靶核酸v_a和v_b的子串，则根据s_a与来自靶核酸v_b的长度为m的任意子串s_b的汉明距离和/或s_a与探针s_b的最长公共子串来选择s_a；

(d)对靶核酸v_a特异性长度为m的任何探针s_a而言，若探针s_a与异于靶核酸的核酸的任何区域无任何标的，则选择探针s_a，并且若长度为m的探针s_a与异于靶核酸的核酸有标的，则选择长度为m的具有最小的最大比对长度和/或具有最低命标的数的探针s_a；和/或

(e)若预测p_i与所扩增靶核酸的位置i杂交，则选择在靶核酸的位置i的探针p_i。

根据本发明的具体方面，可以使用以上所述标准中的两项或多项设计寡核苷酸探针。例如，探针可以通过应用全部标准(a)至(e)进行设计。也可以使用在本文中没有明确提及但本领域技术人员知道的其它标准。

尤其是，根据标准(e)，选择在靶核酸v_a的位置i的探针p_i，若P(p_i|v_a)＞λ，其中λ是0.5并且P(p_i|v_a)是p_i应当与靶核酸v_a的位置i杂交的概率。更尤其是，λ是0.8。

根据另一方面，本发明提供如上所述的方法，其中，

P (p_{i} | v_{a}) \approx P (X \leq x_{i}) = \frac{c_{i}}{k},

其中，X是代表v_a的所有探针的扩增效率得分(AES)值的随机变量，k是v_a中探针的数目，并且c_i是其AES值≤x_i的探针的数目。

根据另一方面，AES还可以用来设计随机引物标签以辅助通过随机PCR对样品进行随机扩增(这种应用如检测病原体、检测基因表达、构建克隆性DNA文库，和技术人员会采用随机PCR的其它应用)。

在支持物上合成寡核苷酸探针

根据本发明的另一方面，选择和/或设计如上所述的至少一种寡核苷酸探针的方法还包括制备选择的和/或设计的探针的步骤。设计探针包含通过任何合适的手段，例如通过使用软件，了解该探针的序列和/或设计该探针。制备探针的步骤包含实际地制备探针。可以根据本领域已知的任何标准方法制备探针。例如，探针可以是化学合成的或通过克隆法制备的。例如，如Sambrook和Russel，2001所述。

本发明还提供根据本发明的任何实施方案所制备的支持物，例如微阵列或生物芯片。

根据本发明的任何方法所设计和制备的探针可以在溶液中使用或可以被置于不溶性支持物上。例如，可以根据本领域已知的任何技术将探针施加到、点滴到或刷在不溶性支持物上。支持物可以是固体支持物或凝胶。被施加探针的支持物可以是微阵列或生物芯片。

更具体地，本发明提供用于从PCR扩增的cDNA中快速检测并鉴定病原体(例如病毒和/或细菌病原体)的基于寡微阵列杂交的方法，其中所述的cDNA是从原始组织样品中制备的。尤其是，该方法应用于从随机PCR扩增的cDNA中快速检测并鉴定病原体。

在以下描述中，探针的制备具体参考微阵列而进行。然而，支持物以及探针可以根据本申请的全部内容中的任何描述制备。尤其是，“阵列”是有目的创造的可以通过合成或生物合成制备的分子集合。阵列中的分子可以是彼此相同或不同的。阵列可以采用多种形式，例如，可溶性分子的文库；与树脂珠连接的化合物的文库、二氧化硅芯片或其它固体支持物。阵列平台或平台是具有多个阵列的物体，在该物体上每个阵列由抗液体通过的物理屏障与其它阵列分隔并形成区域及空间，称为“孔”。

样品制备和杂交到微阵列上

生物样品可以是采自哺乳动物的任何样品，例如来自人类。生物样品可以是血液、体液、唾液、尿、粪便等。生物样品可以是在实施扩增步骤前被处理以释放生物样品中包含的核酸。靶核酸可以是想要检测的任何核酸。待检测的靶核酸可以至少是对生物样品的核酸为外源的核酸。因此，若生物样品来自人，待检测的外源靶核酸(若其存在于生物样品内)是非人源的核酸。根据本发明的方面，待检测的靶核酸至少是病原体的基因组或基因组片段。病原体核酸可以至少是来自病毒、寄生虫或细菌的核酸或核酸片段。

根据本发明的一个方面，本发明提供靶核酸检测分析的方法。该方法可以是用于检测生物样品内病原体存在的诊断方法。来自生物样品的想要检测的靶核酸可以是任何靶核酸、RNA和/或DNA。例如，mRNA和/或cDNA。更具体地，待检测的靶核酸可以是病原体或非病原体。例如，它可以是至少一种病毒、至少一种细菌和/或至少一种寄生虫的基因组或基因组片段。对于本领域技术人员来说，可以根据已知的任何标准技术将选择和/或制备的探针放置、施加和/或固定在支持物上。支持物可以是不溶性支持物，例如固体支持物，尤其是微阵列和/或生物芯片。

根据具体实施例，使用已建立的方法和商业试剂盒从患者样品，例如组织、血清、鼻咽冲洗液、粪便，中提取RNA和DNA。例如，可以使用用于提取核酸的Qiagen Kit。或者，酚/氯仿法也可以用于提取DNA和/或RNA。可以使用本领域已知的任何技术，例如，如在Sambrook和Russel，2001中所述的技术。根据Bohlander等，1992和Wang等，2003描述的方法，使用标记的随机引物，将RNA逆转录成cDNA。cDNA随后通过随机PCR进行扩增。按照Wong等2004所述进行样品的片段化、标记以及将样品杂交至微阵列上。

微阵列合成

根据实施例部分所述的具体实验，本发明的发明人选择了代表在新加坡的病毒疾病中最常见病因的数种病毒基因组。使用从Genbank下载的全基因组序列，合成在全基因组范围内嵌搭并以5碱基解析度重叠的40mer探针。使用宁布勒根技术(Nuwaysir，E.F.，等，2002)在微阵列上直接合成每种病毒探针的7个复制品。探针在微阵列上随机分布，旨在使杂交人为产物的影响最小化。为控制样品对探针的非特异性杂交，设计并在微阵列上合成10,000个寡核苷酸探针。这10,000个寡核苷酸与人基因组或与病原体基因组没有任何序列相似性。它们是具有40-60％CG含量的随机探针。测量这些探针背景信号强度。作为阳性对照，在阵列上合成针对人基因的400个寡核苷酸探针，其中所述的人基因在免疫应答中具有已知或推测的功能。包含植物病毒PMMV作为对总计大约380,000个探针的阴性对照。在以下描述中，本发明将参考病原体检测芯片分析(又称作PDC)进行更具体地说明。然而，分析(方法)不限于这种具体实施方案，但包括在本申请的全部内容中所述的本发明数个方面。

检测靶核酸的方法

(i)提供生物样品；

(ii)对该生物样品中所包含的核酸进行扩增；

(iii)提供能够与至少一种假定存在于生物样品中的靶核酸杂交的至少一种寡核苷酸，其中该探针是通过使用本文中所述的本发明任何方面的方法制备的；

(iv)使该探针与扩增的核酸接触和/或检测与至少一种靶核酸杂交的探针。

扩增步骤(ii)可以在随机引物、部分随机引物(即包含固定的部分和随机的部分)或特异性引物存在下进行。尤其是，扩增步骤(ii)可以在至少一种随机引物存在下进行。更尤其是，在至少一种随机正向引物和/或至少一种随机反向引物存在下进行。例如，扩增步骤(ii)可以在多于两种随机引物的存在下进行。可以使用本领域已知的任何扩增方法。例如，扩增方法是RT-PCR。

尤其是，本发明的发明人基于扩增效率得分(AES)开发了检测与靶核酸杂交的探针的方法。在本文中，该方法也可以称作本发明的算法。尤其是，与靶核酸v_a的位置i结合的正向随机引物和与靶核酸v_a的位置j结合的反向随机引物选自对靶核酸v_a的每个位置i具有以下扩增效率得分(AES_I)的引物：

{AES}_{i} = Σ_{j = i - Z}^{i} {P^{f} (j) \times Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k)},

其中

Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k) = P^{r} (i + 1) + P^{r} (i + 2) + . . . . . . P^{r} (j + Z)

P^f(i)和P^r(i)是随机引物r_i作为正向引物和反向引物分别与v_a的位置i结合的概率，并且Z≤10000bp是v_a内欲扩增的区域。更尤其是，Z可以是≤5000bp、≤1000bp或≤500bp。

扩增步骤可以包含正向引物和反向引物，并且正向引物和反向引物中的每种引物可以在5’-3’方向上包含固定的引物头部和可变的引物尾部，并且，其中至少可变的尾部与靶核酸v_a的一部分杂交。尤其是，扩增步骤可以包含具有SEQ ID NO：1-7中任意的核苷酸序列或该核苷酸序列的变体或衍生物的正向随机引物和/或反向随机引物。

生物样品可以采自哺乳动物的任何样品，例如来自人类。生物样品可以是组织、血清、鼻咽冲洗液、唾液、任何其它体液、血液、尿、粪便等。生物样品可以在进行扩增步骤前被处理以释放生物样品中包含的核酸。靶核酸可以是想要检测的任何核酸。待检测的靶核酸可以至少是对生物样品的核酸为外源的核酸。因此，若生物样品来自人，则待检测的外源靶核酸(若其存在于生物样品中)是非人源的核酸。根据本发明的方面，待检测的靶核酸至少是病原体的基因组或基因组片段。病原体核酸可以至少是来自病毒、寄生虫或细菌的核酸或核酸片段。

因此，本发明提供检测生物样品中的至少一种靶核酸(若存在)的方法。该方法可以是用于检测生物样品中存在病原体的诊断方法。例如，若生物样品从人类得到，且如果该生物样品存在靶核酸，则该靶核酸为非人源的。

根据本发明的任何方法所设计和/或制备的探针可以在溶液中使用或可以被放置在不溶性支持物上。例如，可以根据本领域已知的任何技术将探针施加到、点滴到或刷在不溶性支持物上。所述支持物可以是固体支持物或凝胶。尤其是，被施加探针的支持物可以是微阵列或生物芯片。

随后将探针与生物样品的核酸接触，并且靶核酸(若存在)与探针杂交，并且检测靶核酸的存在。尤其是，在检测步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的信号强度的均值，则表明生物样品中存在v_a。

更尤其是，在检测步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的信号强度的均值，并且该方法还包括以下步骤：计算具有高信号强度的探针v_a的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异，探针v_a的信号强度的密度分布比探针

例如，在检测步骤(iv)中，t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵≥1.0、优选≥5.0时表示生物样品中存在靶核酸。尤其是，t-检验值≤0.05。

根据另一方面，本发明提供确定靶核酸v_a存在的方法，该方法包括检测探针与靶核酸v_a的杂交，并且其中与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的信号强度的均值，并且该方法还包括以下步骤：计算具有高信号强度的探针

v_a的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异，探针v_a的信号强度的密度分布比探针

根据另一方面，本发明提供检测至少一种靶核酸方法，该方法包扩以下步骤：

(i)提供至少一种生物样品；

(ii)对该生物样品中包含的核酸进行扩增；

(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸杂交的至少一种寡核苷酸；

(iv)使该探针与扩增的核酸接触并且检测与靶核酸杂交的探针，其中与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的信号强度的均值，则表明生物样品中存在v_a。

在步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的比例与检测方法内所用的具有高信号强度的探针的比例的相对差异，探针v_a的信号强度的密度分布比探针

v_a的信号强度的密度分布更为正偏，则表明生物样品中存在v_a。尤其是，在检测步骤(iv)中，t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵≥1.0、优选≥5.0时表示生物样品中存在靶核酸。t-检验值可以是≤0.05。待检测的靶核酸可以至少是对生物样品的核酸为外源的核酸。待检测的靶核酸可以至少是病原体的基因组或基因组片段。病原体核酸可以至少是来自病毒、寄生虫或细菌的核酸或核酸片段。尤其是，当样品从人类得到时，且该生物样品中存在靶核酸，则该靶核酸为非人源的基因组。探针可以被放置在不溶性支持物上。支持物可以是微阵列或生物芯片。

使用RSV B模板序列的测试

为验证在病毒的不同区域所表现的信号强度上的变异是否与它们相应的扩增效率得分直接相关，对感染人的常见病原体，人呼吸道合胞体病毒B(RSV B)，上进行总计5个微阵列实验。

其次，将上述的探针设计标准应用到从NCBI得到的RSV B的模板序列(NC_001781)。这产生了在每个阵列上点滴的1948个探针。在实际实验前还对RSV B的扩增效率图进行计算并表示在图2中。该图表示出具有高于平均AES的AES并显示具有更高扩增概率的RSV B的区域的峰。

使用5种含有人呼吸道合胞体病毒B(RSV B)的样品，进行独立的微阵列实验。将每个这种实验得到的信号强度表示在图3中。

对于每一个实验，将1948个探针的信号强度以递减顺序排序并与探针的对应AES值建立联系。发现p-值平均＜2.2e^-16。这表明在RSV B的位置i的探针的信号强度与AES_i间的相关性并不是随机性的。进一步研究揭示在全部5个实验中始终产生高信号强度的约300个探针具有第90百分位水平上的扩增效率得分。

在已经说明所述描述的扩增效率模型对RSV B基因组工作良好后，还需要说明的是本发明的模型可以延伸用于其它病毒基因组。对人偏肺炎病毒(HMPV)进行另一个微阵列实验。此次在微阵列上存在1705个探针。再次计算对HMPV的扩增效率图。在本次实验中，信号强度与扩增效率得分的相关性检验产生1.335e^-9的p-值。

因此，本发明的扩增效率模型能够预测在所述的实验方案中由病毒基因组的不同区域所产生的信号的相对强度。来自扩增效率得分低的区域中的探针极易于不产生信号强度或产生低信号强度。这将在微阵列上导致假阴性。此类探针将使微阵列数据的分析变得复杂，并且因为低信号强度的探针可能由于其靶基因组不存在或仅由于该探针未被扩增将使微阵列数据的分析变得更复杂。因此，应当选择区域内具有合理高的扩增效率得分的探针，以便使由于使用随机引物的RT-PCR方法所致的不精确性最小化。

用于病毒v_a的探针选择的扩增增效率得分阈值由v_a的AES值的累积分布函数确定。设X是代表v_a的全部探针的AES值的随机变量。设k是v_a中探针的数目。随后，我们指定AES值小于或等于x的概率是P(X≤x)＝c/k，其中，c是具有小于或等于x的AES值的探针的数目。对于在v_a的位置i的探针p_i，设x_i是该探针的相应AES值。由于探针的信号强度与它的AES值高度相关，我们估计P(p_i|v_a)，即p_i在v_a存在下具有高信号强度的概率，是P(X≤x_i)。因此，

P (p_{i} | v_{a}) \approx P (X \leq x_{i}) = \frac{c_{i}}{k}

其中c_i是其AES值小于或等于x_i的探针的数目。

对于探针选择而言，若P(p_i|v_a)＞λ，则选择探针p_i。在本实验中，将λ设定为λ＝0.8。

因此，本发明还提供探针设计的方法和/或靶核酸检测的方法，其中，若P(p_i|v_a)＞λ，其中λ是0.75并且P(p_i|v_a)是p_i在v_a存在下具有高信号强度的概率，则选择在靶核酸v_a的位置i上的探针p_i。更尤其是，

P (p_{i} | v_{a}) \approx P (X \leq x_{i}) = \frac{c_{i}}{k},

其中X是代表v_a的全部探针的扩增增效率得分(AES)值的随机变量，k是v_a的探针的数目并且c_i是其AES值小于或等于x_i的探针的数目。

靶核酸检测分析

在以下描述中，将参考病原体检测芯片分析(又称作PDC)更具体地说明本发明。然而，分析(方法)不局限于这种具体实施方案，但包括在本申请全部内容中所述的本发明的数个方面。因此，尤其是，假定使用一套长度为m的探针P＝{p₁，p₂，...，p_l}的PDC，其中所述探针设计用于一套病毒基因组V＝{v₁，v₂，...，v_n}，则病原体检测芯片分析问题将是根据芯片数据检测样品中存在的病毒。这里的芯片数据是指由PDC上的探针信号提供的综合信息。因此，芯片数据D＝{d₁，d₂，...，d_x}是PDC上的探针组P的对应信号组。

给定一种样品，不知道何种病原体存在该样品中，存在多少种不同病原体(如果确实存在)。然而如果病毒v_a确实存在于样品内，则v_a的探针的信号强度应当与来自其它病毒的探针的信号强度明显不同。具体而言，与其它病毒相比，更高比例的v_a的探针应当具有高信号强度。因此，可以预测v_a的探针的信号强度的均值在统计学上应当高于探针v_a的信号强度的均值。

因此，本发明提供与v_a杂交的探针的信号强度的均值在统计学上高于探针

v_a的信号强度的均值从而可能表示生物样品中存在v_a的方法。

然而，具有统计学上更高的均值仍可能不足以得出v_a存在于样品中的结论。优选地，可能需要额外的步骤。我们需要计算具有高信号强度的探针

v_a的比例与检测方法内所用的具有高信号强度的探针的比例的相对差异。这是根据观察到探针∈v_a的信号强度的密度分布比探针

v_a的信号强度的密度分布更为正偏的现象(见图4A中的箭头。为了比较，见图4B)。

基于以上观察，对病毒存在的芯片数据D按照以下分析。对于每种病毒v_a∈V，我们使用单尾T检验(Goulden，C.H.，1956)来确定探针∈v_a的信号强度的均值是否在统计学上高于探针

v_a的信号强度的均值。因此，计算t-统计量：

t_{i} = \frac{μ_{a} - μ_{a^{'}}}{\sqrt{\frac{σ_{a}^{2}}{n_{a}} + \frac{σ_{a^{'}}^{2}}{n_{a^{'}}}}}

其中μ_a、σ_a ²和n_a分别是探针∈v_a的信号强度的均值、方差和大小并且μ_a′、σ_a′ ²和n_a’分别是探针

v_a的信号强度的均值、方差和大小。

为检验差异的显著性，将显著性水平设定为0.05。这意指当t_a的p-值＜0.05，才可接受探针∈v_a的信号强度的均值高于探针

v_a的信号强度的均值的假定。在此情况下，v_a有可能存在于样品内。

单凭使本发明人知道病毒的信号强度分布是否不同于其它病毒的信号强度分布的t-检验可能不足以确定特定的病毒是否存在于样品内。还必须知道两种分布相似或不同到何种程度。可以用来测量真实分布与模型分布之间相似性的度量是相对熵(Kullback-Leiber，KL)(Kullback和Leiber，1951)。在本申请中，v_a中的探针的信号强度的概率分布是真实分布，而P中全部探针的信号强度的概率分布是模型分布。设P_a是v_a中的探针组。P_a和P的信号强度的概率分布的相对熵是：

KL (P_{a} | | P) = \underset{μ \leq x \leq \max (D)}{Σ} f_{a} (x) \log (\frac{f_{a} (x)}{f (x)})

其中μ是P内的探针的信号强度的均值；f_a(x)是P_a内的具有信号强度x的探针的分数；并且f(x)是P内的具有信号强度x的探针的分数。接着，若KL(P_a||P)＝0，则P_a的概率分布与P的概率分布完全相同。否则，它们不相同。

由于样品内存在的病毒具有高于群体信号强度的信号强度，这表明若KL(P_a||P)＞0，则v_a有可能存在于样品内。因此，KL值(P_a||P)越大，两种概率分布差异越大并且v_a确实存在于样品内的可能性越高。

值得注意的是，相对熵是在两种概率分布的全部x范围内的整体差异(collective difference)。因此，尽管相对熵擅长找到概率分布内的漂移，但它并非总是善于找到对概率分布的尾部影响更大的发散。如图4(A，B)所述，概率分布的尾部提供病毒是否存在于样品中的最多信息。因此，相对熵统计量必须进行改良以更精确地反映此类观察。

为提高相对熵在尾部上的灵敏性，我们向相对熵中引入稳定化或加权的统计量即安德森-塔林统计量(Stephens，M.A.(1974).EDF Statistics forGoodness of Fit and Some Comparisons，Journal of the American StatisticalAssociation，第69卷，第730-737页)。因此加权相对熵是：

WKL (P_{a} | | P) = \underset{μ \leq x \leq \max (D)}{Σ} \frac{f_{a} (x) \log \frac{f_{a} (x)}{f (x)}}{\sqrt{Q (x) [1 - Q (x)]}}

其中Q(x)是P内探针的信号强度的累积分布函数。

实验检测表明在不存在病毒的样品中，通过显著水平0.05的t-检验的病毒具有WKL＜5.0。在确实存在病毒的样品中，实际病毒不仅通过显著水平0.05的t-检验，而且正是具有WKL≥5.0的病毒。因此，我们对存在于样品内的病毒设定加权相对熵阈值为5.0。该分析流程图如图5所示。

实施本发明方法的装置和/或产品

对本领域技术人员来说，如何配置可以实施本发明所提供的算法和/或方法的软件是熟知的。因此，本发明还提供被配置成实施根据本发明任何实施方案的算法和/或方法的软件和/或计算机程序产品。还提供至少一种电子存储介质。电子存储介质可以是计算机硬盘驱动器、光盘驱动器(CD-ROM)、闪存装置(例如，通用串行总线(USB)拇指驱动器(thumbdrive))、软盘或本领域内任何其它电子存储介质。软件可以在个人计算机、电脑主机和任何计算处理单元上运行，并且具体的配置是本领域技术人员公知的。

应当理解的是仅通过举例的方式描述了本发明，在设计中可以进行各种修改并不违背本发明的宗旨和范围。

在对本发明进行概括地描述后，将通过参考以下以说明方式提供的实施例使本发明更容易理解，但这并不是用来限制本发明的。

实施例

本领域内已知并且未进行具体描述的标准分子生物学技术通常遵循如Sambrook和Russel，Molecular Cloning：A Laboratory Manual，Cold SpringsHarbor Laboratory，New York(2001)中所述的内容。

微阵列合成

我们选择代表在新加坡病毒疾病的最常见病因的35种病毒基因组(见上表1)。

全基因组序列从NCBI分类学数据库(NCBI Taxonomy Database)(http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/)下载以产生在全基因组范围内嵌搭的并以平均8碱基解析度重叠的40mer探针序列。使用Nimblegen专利技术(Nuwaysir，E.F.，等，2002)在微阵列上直接合成每种病毒探针的7个复制品。探针在微阵列上随机分布，旨在使杂交人为产物的影响最小化。为控制样品对探针的非特异性杂交并测量背景信号，设计并在微阵列上合成10,000个寡核苷酸探针。它们是具有40-60％CG含量的与人基因组或与病原体基因组无序列相似性的随机探针。作为阳性对照，在阵列上合成针对人基因的400个寡核苷酸探针，其中所述的人基因在免疫应答中具有已知或推测的功能。包含植物病毒PMMV作为对总计390,482个探针的阴性对照。

样品制备、微阵列杂交和染色

登革病毒细胞系(ATCC#VR-1254)根据ATCC推荐进行培养，而Sin850SARS细胞系如Vega等(Vega等2004)所述进行培养。临床标本(鼻咽冲洗液)从印度尼西亚小儿群体中得到并储存在-80℃的RNAzol中(Leedo MedicalLaboratories，Inc.，Friendswood，TX)。全部疑似肺炎患者的年龄在7至38月龄间，表现呼吸道疾病的特异性临床征状。RNA用RNAzol根据制造商说明书进行提取(Smalling等2002；Tang等1999)。提取的RNA重悬于RNA贮藏液(Ambion，USA)中并在-80℃储存直至需要。根据Bohlander等和Wang等(Wang等2002；Bohlander等1992)描述的方法，使用标记的随机引物将RNA逆转录成cDNA。随后，cDNA如前所述(Wong等2002)通过随机PCR进行扩增、片段化、用生物素标记末端、杂交至微阵列上以及染色。在初始实验中，我们发现探针的GC含量可能在信号强度检测中产生人为现象，即信号的增加直接与探针的GC含量成正比。添加0.82M氯化四甲基铵(TMAC)至Nimblegen的专利TMAC杂交缓冲液内则消除这种人为现象。

用于RSV和hMPV的实时诊断性RT-PCR

20μl反应混合物含有2μl纯化的患者RNA，5U MuLV逆转录酶，8U重组RNA酶抑制剂，10μl无UNG的2X通用PCR主混合物(均来自AppliedBiosystems)，0.9μM引物和0.2μM探针。实时RT-PCR在ABI Prism 7900HTSequence Detection System(Applied Biosystems)中进行。RT在48℃进行30分钟，随后为激活DNA聚合酶，在95℃维持10分钟。RT产物的扩增通过95℃保持15秒并在60℃保持1分钟的40个循环实现。每个PCR测定法内包括阴性对照和质粒克隆的系列稀释物(阳性对照)。扩增期间，在每个热循环上监测荧光发射。阈值(CT)代表首次检测到明显荧光的循环。使用浓度已知的对照质粒，将CT值转换成拷贝数。对于RSV，2.61×10⁹个拷贝具有CT值为11.897，而对于hMPV，7.51×10⁹个拷贝具有CT值为10.51。

用于冠状病毒和鼻病毒的1-步诊断性RT-PCR

人冠状病毒OC43、229E和鼻病毒16的冷冻活培养物从ATCC(货号VR-1558、VR-740、VR-283)购买，用作阳性对照。使用RNA Mini Kit(Qiagen，Germany)根据制造商说明书从这些培养物中提取RNA。使用以下诊断性引物对：泛冠状病毒(Cor-FW，Cor-RV)，OC43(OC43-FW，OC43-RV)，229E(229E-FW，229E-RV)，鼻病毒(扩增引物1(Amplimer 1)，扩增引物2(Amplimer 2))(

等2005；Deffernez等2004)，如前所述扩增样品。

病原体微阵列数据的分析

我们的病原体微阵列含有一套40mer探针P＝{p₁，p₂，...，p_s}，分组为针对35种病毒基因组V＝{v₁，v₂，...，v₃₅}的明显不同的探针杂交标签。在杂交病原体核酸时，产生与探针组P对应的一组探测信号强度数据D＝{d₁，d₂，...，d_s}。

单尾T检验

若病毒v_a存在，则包含病毒的杂交标签的探针(探针∈v_a)应当在统计学上具有比探针

v_a更高的由以下t-统计量(单尾T检验)所确定的信号强度：

t_{i} = \frac{μ_{a} - μ_{a^{'}}}{\sqrt{\frac{σ_{a}^{2}}{n_{a}} + \frac{σ_{a^{'}}^{2}}{n_{a^{'}}}}}

v_a的信号强度的均值、方差和大小。

将显著性水平设定成0.05。这意味当t_a的p-值＜0.05，我们才会接受探针∈v_a的信号强度的均值高于探针

v_a的信号强度的均值的假定。在此情况下，v_a有可能存在于样品内。然而，检测的T-检验法产生了许多假阳性信号(calls)。

PDA v.1

PDA v.1包含一系列统计检验，始于加权相对熵检验和Z-得分转换(WKL得分)，随后是用于正态性的安德森-塔林检验。

假定病毒为v_a。设P_a是病毒v_a的探针组并且P_a＝P-P_a。设[r_低，r_高]是信号强度范围。我们将信号强度对j＝0，1，...，c-1分成c个组

未改良的加权相对熵可以由下式计算

KL (P_{a} | \overset{&OverBar;}{P_{a}}) = Σ_{j = 0}^{c - 1} f_{a} (j) \log (\frac{f_{a} (j)}{f_{\overset{&OverBar;}{a}} (j)})

其中n_a ^j和

分别是包含于组b_j内的在P_a内探针的数目和在P_a内探针的数目。

f_{a} (j) = \frac{n_{a}^{j}}{Σ_{h = 0}^{c - 1} n_{a}^{h}}

是在组b_j中所找到P_a内探针的分数；和

f_{\overset{&OverBar;}{a}} (j) = \frac{n \frac{j}{a}}{Σ_{h = 0}^{c - 1} n_{\overset{&OverBar;}{a}}^{h}}

是在组b_j中所找到P_a内探针的分数。

为比较概率分布的尾部的信号差异，我们设定r_低＝μ_a，即P_a内探针的平均信号强度，并且r_高＝最大信号强度。我们设定组的默认数目c＝20。

为进一步稳定和/或增加相对熵在概率分布的尾部上的灵敏性，做了两处改良。首先，我们将安德森-塔林型加权函数导入相对熵。这赋予分布的尾部比分布的中间部分更多的权重。其次，我们对这两种相应的累积分布函数使用统计量代替它们的概率密度函数。我们将改良的相对熵称作加权相对熵(WKL得分)：

其中Q_a(j)是在组b_j中找到Pa内的探针的信号强度的累积分布函数；Q_a(j)是在组b_j中所找到P_a内的探针的信号强度的累积分布函数。

因此，对于每种杂交的样品，我们计算每种病毒v_a∈V的WKL得分。其次，我们断言若样品内不存在病毒，则全部病毒v_a∈V的WKL得分的分布大致是正态性的。我们通过引导方法(bootstraping process)实验性验证了我们的断言是否正确：设n是V内病毒的数目。对于每种病毒v_k∈V，其中k＝1，...，n，我们从真实数据组D中选择|v_k|探针信号强度|v_k|以随机替换方式形成v_k的“扰动性”信号强度分布。这种分布可以模拟病毒v_k不存在于样品D中的情况。此后，产生对n个病毒组的n个WKL得分。其次，我们通过对正态性在95％置信度区间的安德森-塔林检验核对n个WKL得分是否服从正态分布。重复引导方法100,000次。在大于99％的次数中发现分布是正态性的(注意：由于在我们的微阵列上代表35种病毒基因组，故n＝35)。

根据以上讨论，我们通过建立以下无假设和择一假设可以测试样品是否含有病毒：

H₀：WKL得分的分布是正态性的，即病毒不存在于样品内。

H₁：WKL得分的分布不是正态性的，即至少1个病毒存在于样品内。

定义将安德森-塔林检验定义为：

H₀：数据服从特定的分布。

H_a：数据不服从特定的分布。

检验统计量：将安德森-塔林检验统计量定义为

A²＝-N-S

其中

S = Σ_{i = 1}^{N} \frac{(2 i - 1)}{N} [\ln F (Y_{i}) + \ln (1 - F (Y_{N + 1 - i}))]

F是特定分布的累积分布函数。注意Y_i是有序数据。

显著水平：α

临界区：安德森-塔林检验的临界值取决于被检验的具体分布。用表格表示的值和公式已经发表(Stephens，1974，1976，1977，1979)用于几种特定分布(正态分布、对数正态分布、指数分布、Weibull、对数分布、1型极值分布)。检验是单侧检验并且若检验统计量A大于临界值，则分布具有特定形式的假设被放弃。

我们开始应用安德森-塔林检验验证WKL得分的分布的正态性以放弃具有95％置信度区间的H₀。若WKL得分的分布不是正态性的，则我们排除具有异常(outlying)WKL得分的病毒，并再次应用安德森-塔林检验。重复该过程(以鉴定共感染性病原体的存在)直到接受H₀为止。

我们指定接受H₀时的WKL得分的分布是背景WKL分布。因此，被排除的病毒很有可能存在于样品中，因为它们的WKL得分不服从背景WKL分布。

在我们的实验中，观察到含有病毒的样品内的P，即非正态分布因随机偶然性对给定WKL得分发生的概率，是极低的，即P＜1.0×10^-6(通过WKL得分的Z-得分转换而得到)。表1显示用于我们的病毒检测算法的伪码。

表1：病毒检测算法

给予病毒组V和探针组P病原体微阵列数据D设V_存在＝F设D_WKL是对全部v∈V的WKL(P_v||P_v)组；1.以安德森-塔林检验来验证正态性以确定D_WKL的正态性。若D_WKL具有显著水平0.05的正态分布，返回V_存在。否则，进入步骤2。2.从D_WKL中找到具有最高WKL(P_a||P_a’)的病毒v_a。设V_存在＝V_存在∪{v_a}；D_WKL＝D_WKL-{WKL(P_a||P_a’)}；进入步骤1。3.剔除检测到的SPS并验证WKL分布是正态性的。4.若该分布不是正态性的，返回步骤2以找到共感染性病原体。

预测全基因组的扩增偏倚

为鉴定临床标本内的未知病原体，优选采用随机引物扩增，而不是引物特异性扩增。然而，在使用随机引发扩增来鉴定已知病原体的初始实验中，我们经常观察到通过序列多态性无法解释的遍及基因组区域的不完全杂交(图7C)。基因组二级结构、探针二级结构和探针GC含量也无法解释这些低信号强度的探针。因此，我们假设不完全杂交可能归因于PCR偏倚，其中所述的PCR偏倚来源于随机引物在逆转录(RT)步骤中与病毒基因组结合的差异性能力。我们实验中所用的随机引物是26mer，其包含以固定的17mer序列(5’-GTTTCCCAGTCACGATA)(SEQ ID NO：1)为标签的随机九聚物(3’)(仍见图1)，其中固定的5’标签的目的是为了促进RT产物的PCR，产生小于10000bp的PCR片段，尤其是500-1000bp PCR片段(Pang等2005；Wang等2002；Wang等2003)。为研究此现象，我们设计一种算法(AES)使用实验数据以模拟RT-PCR方法。成功的RT-PCR取决于引物与模板的结合。已知引物内二级结构的形成，如两个模板间形成的二聚体和发夹，引物内二级结构的形成，如标签与九聚体间形成的二聚体和发夹，及探针的解链温度影响结合效率(Nguyen和Southern，2000；Ratushna等2005)。

假设随机引物混合物内的九聚体与病毒基因组序列完美互补，则该算法确定可以从基因组内每个可能的起始位置中产生500-1000bp产物的概率。因此，对于1000碱基的滑动窗口内的每个核苷酸而言，该核苷酸成功地被扩增的概率在它的扩增效率得分(AES；见上文“扩增效率得分”)中被反映出来。为证实算法的有效性，我们将针对RSV基因组的全部1,948个SPS探针的杂交信号强度分级，并将SPS探针的杂交信号强度与SPS探针的AES值比较。在整个RSV基因组范围内，我们观察到AES与杂交信号强度充分相关(Fisher’s精确概率法检验P＝2.2×10^-16)，这表明AES与探针检测间的强相关性(图12)。另一个使用针对偏肺炎病毒的1,705个SPS探针的比较显示了类似结果，P＝1.3×10^-9。图10表示了AES在预测临床样品内的SPS探针检测中的重要性。值得注意的是，我们观察到更高的AES值与更高比例的可检测探针相关，尤其是AES值的最高的20％。因此，尽管HD、MCM、％GC及序列独特性是探针性能重要的参数，然而它们没有考虑PCR偏倚，因此在缺少AES下考虑时，它们不能充分预测探针性能。在选择病原体SPS中使用最高的第20百分位的AES作为第一筛选程序明显地改进了病原体的预测，这由更高WKL得分和消除假阳性信号证明(表3)。

表3：仅使用平均探针信号强度检测病原体(T-检验)产生大量的假阳性信号。优化的杂交标签和与人基因组交叉杂交的探针的剔除(筛选)减少了假阳性信号，但是这对检测精确性仍是不充分的。使用完整的未筛选的探针组，PDA v.1能够作出准确诊断。若WKL得分＞5，则“检测”到病毒。使用优化的杂交标签(筛选)增加了WKL得分，这与诊断置信度提高相对应。病毒CT值：检测到病毒时的实时PCR循环(见上文)。

将阵列上所杂交的全部患者样品的数据表示在下文表4中。

表4.杂交到病原体微阵列上的临床患者的完整列表

阵列	患者ID	WKL	P-值	PDA v.1诊断	临床诊断*	初始PCR诊断	PCRCT值	病毒拷贝数	RT-PCR引物
阵列	患者ID	WKL	P-值	PDA v.1诊断	临床诊断*	初始PCR诊断	PCRCT值	病毒拷贝数	RT-PCR引物	35179	122	8.439216	1.34×10^-71	hMPV	LRTI	hMPV	24.8	5.0×10⁴	A1
35887	122	18.312077	2.98×10^-22	hMPV	LRTI	hMPV	24.8	5.0×10⁴	A2	35179	122	8.439216	1.34×10^-71	hMPV	LRTI	hMPV	24.8	5.0×10⁴	A1
35887	122	18.312077	2.98×10^-22	hMPV	LRTI	hMPV	24.8	5.0×10⁴	A2	71180	133	17.359597	2.42×10^-37	hMPV	LRTI	hMPV	25.1159	4.0×10⁴	A2
66691	165	8.56786	1.84×10^-4	hMPV	肺炎	hMPV	27.9	3.9×10³	A2	71180	133	17.359597	2.42×10^-37	hMPV	LRTI	hMPV	25.1159	4.0×10⁴	A2
66691	165	8.56786	1.84×10^-4	hMPV	肺炎	hMPV	27.9	3.9×10³	A2	70935	254	21.348515	8.70×10^-30	hMPV	LRTI	hMPV	21.9518	5.4×10⁵	A2
63781	283	16.680752	3.97×10^-12	hMPV	肺炎	未知			A2	70935	254	21.348515	8.70×10^-30	hMPV	LRTI	hMPV	21.9518	5.4×10⁵	A2
63781	283	16.680752	3.97×10^-12	hMPV	肺炎	未知			A2	73067	769	24.006323	1.34×10^-51	hMPV	LRTI	hMPV	25.6715	2.5×10⁴	A2

66690	853			未检测到	肺炎	hMPV	36	0.5	A2
66690	853			未检测到	肺炎	hMPV	36	0.5	A2	68359	892	12.534284	5.66×10^-5	鼻病毒属	肺炎	hMPV	33.8	27	A2
35915	111			未检测到	阴性对照1	None			A1	68359	892	12.534284	5.66×10^-5	鼻病毒属	肺炎	hMPV	33.8	27	A2
35915	111			未检测到	阴性对照1	None			A1	70927	818			未检测到	阴性对照1	None			A2
66701	312			未检测到	肺炎	RSV A	33.7	44	A2	70927	818			未检测到	阴性对照1	None			A2
66701	312			未检测到	肺炎	RSV A	33.7	44	A2	71006	321			未检测到	肺炎	RSV A	31.1	340	A2
66702	368			未检测到	肺炎	未知			A2	71006	321			未检测到	肺炎	RSV A	31.1	340	A2
66702	368			未检测到	肺炎	未知			A2	71025	414	25.406289	3.80×10^-24	RSVB	肺炎	RSVA	22.3	3.9×10⁵	A2
71027	478			未检测到	肺炎	RSV A	34.8	18	A2	71025	414	25.406289	3.80×10^-24	RSVB	肺炎	RSVA	22.3	3.9×10⁵	A2
71027	478			未检测到	肺炎	RSV A	34.8	18	A2	73068	832	59.275233	1.91×10^-102	RSV属	LRTI	RSV A	23.7681	1.2×10⁵	A2
71028	913	25.897084	3.23×10^-30	RS V B	肺炎	RSV A	19.1	4.7×10⁶	A2	73068	832	59.275233	1.91×10^-102	RSV属	LRTI	RSV A	23.7681	1.2×10⁵	A2
71028	913	25.897084	3.23×10^-30	RS V B	肺炎	RSV A	19.1	4.7×10⁶	A2	66703	924	12.673149	9.71×10^-6	RSV属	肺炎	RSV A	31.5	250	A2
35259	324	20.61147	3.55×10^-94	RSV B	LRTI	RSV B	21.4366	3.0×10⁶	A1	66703	924	12.673149	9.71×10^-6	RSV属	肺炎	RSV A	31.5	250	A2
35259	324	20.61147	3.55×10^-94	RSV B	LRTI	RSV B	21.4366	3.0×10⁶	A1	35662	355	17.999418	2.97×10^-40	RSV B	LRTI	RSV B	20.2642	6.7×10⁶	A1
66695	374			未检测到	肺炎	RSV B	34.1	500	A2	35662	355	17.999418	2.97×10^-40	RSV B	LRTI	RSV B	20.2642	6.7×10⁶	A1
66695	374			未检测到	肺炎	RSV B	34.1	500	A2	70933	378	13.81578	7.77×10^-17	RSV B	LRTI	RSV B	23.9204	5.4×10⁵	A2
36042	412	17.531234	4.58×10^-55	RSV B	LRTI	RSV B	23.5804	6.9×10⁵	A1	70933	378	13.81578	7.77×10^-17	RSV B	LRTI	RSV B	23.9204	5.4×10⁵	A2
36042	412	17.531234	4.58×10^-55	RSV B	LRTI	RSV B	23.5804	6.9×10⁵	A1	35890	412	17.214556	1.05×10^-43	RSV B	LRTI	RSV B	23.5804	6.9×10⁵	A2+A3
36053	483	12.168025	1.47×10^-12	RSV B	LRTI	RSV B	24.834	2.9×10⁵	A1	35890	412	17.214556	1.05×10^-43	RSV B	LRTI	RSV B	23.5804	6.9×10⁵	A2+A3

70997	554	76.54718354.013223	1.83×10^-1192.45×10^-61	鼻病毒属；肠道病毒科	肺炎	RSV B	35.1	240	A2
70997	554	76.54718354.013223	1.83×10^-1192.45×10^-61	鼻病毒属；肠道病毒科	肺炎	RSV B	35.1	240	A2	35253	841	12.069138	4.86×10^-26	RSV B	肺炎	RSV B	20.8619	4.4×10⁶	A1
73070	841	22.108575.708560	6.80×10^-505.66×10^-6	RSV B，hMPV共同感染	肺炎	RSV B/hMPV	20.861935.4	4.4×10⁶8	A2	35253	841	12.069138	4.86×10^-26	RSV B	肺炎	RSV B	20.8619	4.4×10⁶	A1
73070	841	22.108575.708560	6.80×10^-505.66×10^-6	RSV B，hMPV共同感染	肺炎	RSV B/hMPV	20.861935.4	4.4×10⁶8	A2	68360	841	21.3695169.647188	2.09×10^-251.23×10^-8	RSV B，hMPV共同感染	肺炎	RSV B/hMPV	20.861935.4	4.4×10⁶8	A2
66696	185			未检测到	肺炎	未知			A2	68360	841	21.3695169.647188	2.09×10^-251.23×10^-8	RSV B，hMPV共同感染	肺炎	RSV B/hMPV	20.861935.4	4.4×10⁶8	A2
66696	185			未检测到	肺炎	未知			A2	66697	261			未检测到	肺炎	未知			A2
66698	331			未检测到	肺炎	未知			A2	66697	261			未检测到	肺炎	未知			A2
66698	331			未检测到	肺炎	未知			A2	71189	393			未检测到	肺炎	未知			A2
66699	461			未检测到	肺炎	未知			A2	71189	393			未检测到	肺炎	未知			A2
66699	461			未检测到	肺炎	未知			A2	66700	573	41.39705127.444893	3.97×10^-231.34×10^-11	鼻病毒属；肠道病毒科	肺炎	未知			A2
71182	639			未检测到	肺炎	未知			A2	66700	573	41.39705127.444893	3.97×10^-231.34×10^-11	鼻病毒属；肠道病毒科	肺炎	未知			A2
71182	639			未检测到	肺炎	未知			A2	71007	699			未检测到	肺炎	未知			A2
71188	859			未检测到	肺炎	未知			A2	71007	699			未检测到	肺炎	未知			A2

^*LRTI：下呼吸道感染

AES的重要性表明扩增效率和随后的探针检测可以通过使用优化的RT-PCR引物标签被改善。因此，我们使用随机生成的17mer标签序列计算AES得分，并选择前三位差异最大的导致最全面地增加AES得分的引物(图13)。使用AES优化的引物，我们从临床样品中扩增了偏肺炎病毒和RSV，具有改良的PCR效率和检测灵敏性(图14，表5)。

表5：用患者样品#412和#122比较E-Predict与PDAv.1算法。阵列35179使用在结果中所述的原始PCR引物进行扩增。阵列36731和35887使用引物A2进行扩增，阵列35890使用两种引物A2和A3进行扩增。PDAv.1在所有情况下都只反馈了正确的病原体。E-Predict的作者使用P＜0.01作为其平台的显著性界限值(Urisman等2005)。若使用该算法来分析我们的阵列数据，则似乎需要更低界限值。使用两种算法(阵列35179与35887)中的任何一种算法，由PCR建模所设计的新引物均产生更好的预测得分。在PCR过程期间使用了第二种引物在WKL得分和P-值方面表现出增加的改良(阵列36731与35890)。

PDA v.1-用于检测病原体的算法

对基因组扩增而言，临床标本往往是次优的：它们可能具有低病毒滴度，具有与阵列上参考株不同的序列多态性，或具有共感染性病原体。微阵列还具有来自非特异性杂交和其它人为产物的固有噪音。因此，解读微阵列数据不仅仅是使探测信号强度曲线与SPS匹配，或使用简单的统计方法(例如，T-检验，ANOVA等)。为解决此问题，我们建立了加强的统计软件PDAv.1，相对于计算机模拟预测的SPS，该软件分析探针信号强度的分布来鉴定在杂交的样品内存在的病原体(见上文)。

基于我们的观察，即尽管对阵列上全部探针的信号强度处于正态分布，然而包含存在于样品内的病原体SPS的大部分探针具有非常强烈的产生向右偏斜的分布信号强度；我们推断通过分析探针信号强度的分布可能检测到病原体的存在(图9A)。检验每个SPS的信号强度分布的尾部还能够使我们鉴定样品内共感染性病原体的存在。

因此，PDA v.1包含2个部分：(1)用于评估每种病原体SPS内探针的探针信号强度的增强的加权相对熵(WKL；我们的增强相对熵检验)，和(2)用于确定每种SPS的WKL得分的分布是否是正态的安德森-塔林检验。

原来的相对熵不能可靠地确定概率分布尾部内的差异，并且高度依赖探针/基因组的数目及每个信号强度组的大小(Kullback和Leibler，1951)。我们通过以下方式克服这些缺陷，即通过引入安德森-塔林统计量以给予每个分布的尾部更大权重，和通过使用累积分布函数替代原有的概率分布(Anderson和Darling，1952)。我们称增强的KL发散度为加权相对熵(WKL)：

其中Q_a(j)是在组b_j中找到P_a内的探针的信号强度的累积分布函数；Q_a(j)是在组bj中所找到P_a内的探针的信号强度的累积分布函数。代表无病原体的SPS应当具有正态的信号强度分布并且因此具有相对低的WKL得分，而代表有病原体的那些SPS应当具有高的统计学显著的异常WKL得分(图9B)。在PDA v.1的第二部分中，使WKL得分的分布接受安德森-塔林检验处理以评价正态性。若P＜0.05，认为WKL分布不是正态的，表明具有异常WKL得分的病原体存在。鉴定病原体时，在缺少病原体的WKL得分下进行独立的安德森-塔林检验以检测共感染性病原体的存在。以这种方式，反复进行该过程直至仅剩下正态分布(即P＞0.05；见上表3和表4)。PDA v.1是极其迅速的，能够在约10秒内从杂交的微阵列中作出诊断。

对33份临床患者样品的病原体诊断

根据图11中所示的工作流程，我们通过将33份临床标本杂交至病原体微阵列平台上评估我们的平台。这些临床标本中的27份标本先前已经被诊断为感染RSV A、RSV B或偏肺炎病毒。我们的平台从21/27样品中精确地检测到病原体。没有检测到病毒(假阴性)的6份样品处在通过实时PCR(＜10个病毒拷贝/反应)所确定的检测界限值上，并且如此低的病毒负荷不可能成为导致患者严重疾病的病因学病原。这6份样品中的2份由微阵列正确地诊断为感染鼻病毒。在另一个因未知病原体所致的严重呼吸道疾病的6位患者的筛查中，微阵列鉴定出在一份样品中存在病因学病原(鼻病毒)(上表4)。这些结果通过实时PCR进行验证。如所预期，当我们杂交从无病毒病因学的肺炎患者中提取的样品时，未检测到任何病原体。

数据分析

使用Axon 4000b扫描仪和Genepix 4软件(Axon Instruments)以5μm解析度扫描微阵列。使用Nimblescan 2.1软件(NimbleGen Systems)提取信号强度，使用自动化脚本，我们从每个探针的7个复制品中计算出中等信号强度(以消除杂交人为产物)和标准差。探针信号强度根据基因组进行分组并按序列顺序排列，随后再格式化成CDT格式，以便在Java Treeview(http://jtreeview.sourceforge.net)中以图形方式观察使信号强度。平行地，使用PDA v.1分析探针的中等信号强度来确定哪种病原体存在和相关的预测置信度水平。本发明的发明人通过实验来证实探针设计对实验结果的影响并随后显示本发明分析算法鲁棒性。

探针设计对实验结果的影响

将含有来自35种病毒的53555个40mer探针的PDC用于4个独立的微阵列实验。这53555个探针是根据每种病毒的5-bp嵌搭(tiling)进行选择的并且不经过我们的任何探针设计标准处理。因此，我们预期因CG含量、交叉杂交和低效率扩增所产生的错误显著多于设计良好的探针的PDC的错误。我们将4个实验处于这种不利的环境下测试我们的分析算法。

在该实施例中，具有未知病原体的人样品使用随机探针通过RT-PCR方法进行扩增并随后杂交至PDC上。我们使PDC上35种病毒中每种病毒的探针接受显著水平0.05的单尾T-检验，并计算探针的信号强度相对于芯片上全部探针的信号强度的加权相对熵，以对每一个实验确定哪种病毒存在于样品内。证实我们程序的分析精确性是通过增压舱(wet-lab)PCR以鉴定样品内的实际病毒实现。在表6中我们提供了对表6内4个实验的分析结果以及它们相应的PCR验证结果。

表6：对未应用探针设计标准的PDC进行分析产生的结果。由我们的分析算法确定是样品中实际病毒的病毒用浅灰颜色标出，其中所述的样品对每个实验进行测试的。

这些结果表明该分析算法精确推断出前3个实验中的所测试样品内的实际病毒(结果示表示在上表6内)。此外，我们能够推断在最后一个实验中的样品无病毒。值得注意的是若我们仅使用显著性水平0.05的t-检验，则在下表7中表示出对每份样品中检测存在的病毒的数目。

表7：仅使用t-检验推断出的病毒的假阳性检测

样品名称	35259_324	35179_122	35253_841	35915_111
样品名称	35259_324	35179_122	35253_841	35915_111	使用T-检验所检测的病毒	9	14	9	10
假阳性	8	13	8	10	使用T-检验所检测的病毒	9	14	9	10
假阳性	8	13	8	10	最大KL发散度(＞5.0)	16.391	5.76	10.85	-
使用T-检验随后用KL发散度所检测的病毒	1	1	1	0	最大KL发散度(＞5.0)	16.391	5.76	10.85	-

对通过t-检验的病毒使用加权相对熵，我们能够剔除全部假阳性病毒并鉴定实际病毒。因此，我们的分析算法可以在高水平噪音下稳定地确定病毒。

然后，我们研究使用具有探针设计标准的PDC对我们的分析结果带来的影响。首先，对35种病毒的每种病毒计算扩增效率图。随后，使原始PDC上的实际53555个探针经受探针设计标准处理。从芯片中剔除具有极端水平CG含量、与人和非靶病毒相似性高和扩增效率得分低的探针。为第二组实验留下总计10955个探针。使用在第一组实验内所用的样品，我们用新芯片重复下表8内的4个实验。实验结果列在表8中。

表8：对应用探针设计标准的PDC分析产生的结果。由我们的分析算法确定是样品内实际病毒的病毒用浅灰颜色标出，其中所述的样品对每个实验进行测试。

在以下的实验组中，分析算法正确地检测到3份样品内的实际病毒并且还检测出阴性样品。在为我们的芯片设计优异的探针后，实验1、2和3内实际病毒的加权相对熵大于无探针设计的相应实验的实际病毒的加权相对熵。这意味来自实际病毒的信号强度比PDC内的背景噪音相对更高。这证实我们的探针设计标准已经从PDC中剔除一些不良探针，这产生更精确的分析。

若我们仅使用显著性水平0.05的T-检验，我们再一次将4个实验的结果列在下表9中。此时，对每份样品中检测存在的病毒的数目列在表9中：

表9：在具有探针设计的PDC中仅使用t-检验推断的病毒的假阳性检测。

样品名称	35259_324	35179_122	35253_841	35915_111
样品名称	35259_324	35179_122	35253_841	35915_111	使用T-检验所检测的病毒	6	9	9	10
假阳性	5	8	8	10	使用T-检验所检测的病毒	6	9	9	10
假阳性	5	8	8	10	最大KL发散度(＞5.0)	18.54859	9.324785	11.17914	-
使用T-检验随后用KL发散度所检测的病毒	1	1	1	0	最大KL发散度(＞5.0)	18.54859	9.324785	11.17914	-

从表9中，可以看到探针设计已经减少由t-检验对样品35259_324和35179_122所检测到的假阳性病毒的数目。更重要的观察是实际病毒的加权相对熵对全部4个样品均增加。这意味当探针设计标准应用于PDC时，实际病毒的信号比背景信号具有更大差别。

总之，我们证实使用显著水平0.05的单尾t-检验，随后对每种病毒的信号强度计算加权相对熵，能够精确分析PDC上的数据并高概率地确定样品内的实际病原体。尽管该分析算法甚至在高水平噪音下运行良好，然而我们证实该通过使用上述探针设计标准为PDC选择优异探针组可以改善分析的精确性。

用于探针设计和病原体检测的备选方法

非常少的算法可用于预测微阵列上的交叉杂交，仅1种算法，即E-预测法(E-predict)已经被报道并被验证在微阵列上检测病原体的有效性(Urisman等2005；Li等2005)。E-预测使杂交标签与预测的标签匹配，其中预测的标签从对每种微阵列探针的杂交的理论自由能中产生。然而，使用E-预测法分析我们的微阵列产生许多假阳性信号(见上表5)。例如，E-预测法在RSV患者412内检测到冠状病毒(图15)。使用泛冠状病毒引物以及OC43和229E冠状病毒特异性诊断引物的诊断性PCR证实患者412中无冠状病毒(见上表4)。我们假设使用E-预测法导致的假阳性信号由与人基因组或RSV基因组交叉杂交的冠状病毒探针中产生。实际上，预测85％的具有最高信号强度的50个冠状病毒探针与人基因组交叉杂交和65％的所述探针具有相对于RSV的小于17的HD，其中所述HD仅高于我们用于家族的交叉杂交的HD阈值12。此外，优化E-预测法以在含有病毒基因组区域间高度保守的探针的微阵列上工作，而不是在其中与人基因组交叉杂交将是重要考虑因素的嵌搭(tiling)阵列上工作。因此，有可能这两种因素——不同的微阵列设计策略和与人基因组交叉杂交——造成E-预测法在我们的平台上表现不佳。从我们使用E-预测法的经验来看，将PDA v1与其它算法比较对我们而言是不合理的，因为后者针对不同的探针长度进行设计并针对其它的应用和平台进行优化的。

结论

通过实验地确定交叉杂交阈值，我们产生了计算机模拟的病原体标签探针组，该探针组仅包含与临床样品内存在的特定病毒良好杂交的探针。AES算法使我们可以设计高效扩增完整病毒基因组的通用引物标签。连同PDAv.1检测算法，我们可以确定无疑地鉴定来自于临床样品中的由微阵列上所代表的任何病原体。这种方法不需要实验性验证每种病原体杂交标签的有效性并使含有针对＞10000种病原体的探针的其它微阵列成为病原体鉴定的有力诊断性平台。

我们已经优化了对病原体检测微阵列的设计和分析，便于它们在医院环境中使用。我们发现随机PCR内例行所用的引物标签是偏倚性的，这导致病原体基因组的非均一性扩增。这种偏倚可以通过使用我们的AES算法设计引物被避免。我们的计算机模拟的标签探针组使我们精确预测哪些探针将与阵列上所代表的任何病原体杂交。连同PDA v.1检测算法，这种方法不需要实验性验证每种病原体杂交标签的有效性并使含有针对＞10000种病原体的探针的其它微阵列成为病原体鉴定的有力诊断性平台。

本文中，我们报道了使用定制设计的微阵列平台以系统地研究病毒扩增效率、杂交信号输出、靶-探针复性特异性与病原体检测的可重复性间复杂关系的结果。我们的发现形成了用于计算机模拟预测最佳病原体标签探针组(SPS)的新方法学的基础，(在微阵列杂交前)揭示决定病毒扩增效率的因素并且证实病毒扩增效率得分(AES)与最佳探针选择间的重要联系。最后，我们描述了新的基于统计的病原体检测算法(PDA)，它可以快速并可重复地鉴定临床标本中一系列病毒滴度范围内的病原体。

我们已经证实当存在至少4000个病毒拷贝时，使用从公众可用的数据库中得到的病毒基因组序列以高度的确定性检测临床样品内病毒的可行性(见上表3)。该算法的灵敏性接近抗原检测法的灵敏性，从而使本算法成为临床上有关的检测工具(Liu等2005；Marra等2003)。通过计算机模拟精确预测病原体杂交标签的能力的确具有胜过现有微阵列方法的明显优势，其中现有微阵列方法需要通过首先将阵列与纯的病原体样品杂交而实验性验证有效性。除了特异性鉴定阵列上所代表的病原体以外，PDA v.1还使对阵列上没有得到具体代表的那些基因组鉴定病原体的纲、科或属(通过放宽HD和MCM的阈值)。这种信息对于临床中的治疗决策往往是足够的。使用AES优化的标签，我们能够鉴定在使用非AES优化的标签进行扩增时从临床样品中先前不能检测到的病毒。因此，选择AES优化的标签提高PCR效率和灵敏性。本发明的算法可以适用于其它基于标签的PCR应用，如生成DNA文库和富集用于再测序的RNA。

参考文献

Altschul SF，Madden TL，Schaffer AA，Zhang J，Zhang Z，et al.(1997)Gapped BLAST and PSI-BLAST：a new generation of protein database searchprograms.Nucleic Acids Res 25：3389-3402.

Anderson TW，Darling DA(1952)Asymptotic theory of certain goodnessof fit criteria based on stochastic processes.Annals of Mathematical Statistic23：192-212.

Bodrossy L，Sessitsch A(2004)Oligonucleotide microarrays in microbialdiagnostics.CurrOpin Microbiol 7：245-254.

Bohlander SK，Espinosa I，Rafael，Le Beau MM，Rowley JD，Diaz MO(1992)A method for the rapid sequence-independent amplification ofmicrodissected chromosomal material.Genomics 13：1322-1324.

Bustin，S.A.& Nolan，T.(2004)Pitfalls of quantitative real-timereverse-transcription polymerase chain reaction.J Biomol Tech 15，155-166.

Deffernez C，Wunderli W，Thomas Y，Yerly S，Perrin L，et al.(2004)Amplicon Sequencing and Improved Detection of Human Rhinovirus inRespiratory Samples 10.1128/JCM.42.7.3212-3218.2004.J Clin Microbiol 42：3212-3218.

Fu J，Tan BH，Yap EH，Chan YC，Tan YH(1992)Full-length cDNAsequence of dengue type 1virus(Singapore strain S275/90).Virology 188：953-958.

Goulden，C.H.Methods of Statistical Analysis，End.2nd.(John Wiley &Sons，Inc.，New York；1956).

Hanming RW(1950)Error Detecting and Error Correcting Codes.BellSystem TechnicalJournal 29：147-160.

International Human Genome Sequencing Consortium.Initial sequencingand analysis of the human genome.Nature 409(6822)，860-921(2001).

Kane MD，Jatkoe TA，Stumpf CR，Lu J，Thomas JD，et al.(2000)Assessment of the sensitivity and specificity of oligonucleotide(50mer)microarrays.Nucleic Acids Res 28：4552-4557.

Kane，M.D.et al.Assessment of the sensitivity and specificity ofoligonucleotide(50mer)microarrays.Nucleic Acids Res 28，4552-4557(2000).

Ksiazek TG，Erdman D，Goldsmith CS，Zaki SR，Peret T，et al.(2003)Anovel coronavirus associated with severe acute respiratory syndrome.N Engl JMed 348：1953-1966.

Kullback S，Leibler RA(1951)On information and sufficiency.Annals ofMathematical Statistic 22：79-86.

Li X，He Z，Zhou J(2005)Selection of optimal oligonucleotide probes formicroarrays using multiple criteria，global alignment and parameter estination.Nucl Acids Res 33：6114-6123.

Liu J，Lim SL，Ruan Y，Ling AE，Ng LF，et al.(2005)SARS transmissionpattern in Singapore reassessed by viral sequence variation analysis.PLoS Med2(2)，162-168.

Marra MA，Jones SJ，Astell CR，Holt RA，Brooks-Wilson A，et al.(2003)The Genome sequence of the SARS-associated coronavirus.Science 300：1399-1404.

Maskos U，Southern EM(1993)A study of oligonucleotide reassociationusing large arrays of oligonucleotides synthesised on a glass support.NucleicAcids Res 21：4663-4669.

E，Vijgen L，Keyaerts E，Zlateva K，Li S，et al.(2005)A novelpancoronavirus RT-PCR assay：frequent detection of human coronavirus NL63in children hospitalized with respiratory tract infections in Belgium.BMCInfect Dis 5：6.

Nguyen HK，Southern EM(2000)Minimising the secondary structure ofDNA targets by incorporation of a modified deoxynucleoside：implications fornucleic acid analysis by hybridisation.Nucleic Acids Res 28：3904-3909.

Nuwaysir EF，Huang W，Albert TJ，Singh J，Nuwaysir K，et al.(2002)Gene expression analysis using oligonucleotide arrays produced by masklessphotolithography.Genome Res 12：1749-1755.

Pang XL，Preiksaitis JK，Lee B(2005)Multiplex real time RT-PCR for thedetection and quantitation of norovirus genogroups I and II in patients withacute gastrcenteritis.J Clin Virol 33：168-171.

Ratushna VG，Weller JW，Gibas CJ(2005)Secondary structure in thetarget as a confounding factor in synthetic oligomer microarray design.BMCGenomics 6：31.

Ruan YJ，Wei CL，Ee AL，Vega VB，Thoreau H，et al.(2003)Comparativefull-length genome sequence analysis of 14 SARS coronavirus isolates andcommon mutations associated with putative origins of infection.Lancet 361：1779-1785.

Sambrook and Russel，(2001)Molecular Cloning：A Laboratory Manual，Cold Springs Harbor Laboratory，New York.

SantaLucia，J.，Jr.，Allawi，H.T.& Seneviratne，P.A.(1996)Improvednearest-neighbor parameters for predicting DNA duplex stability.Biochemistry35，3555-3562.

Smalling TW，Sefers SE，Li H，Tang YW(2002)Molecular approaches todetecting herpes simplex virus and enteroviruses in the central nervous system.J Clin Microbiol 40：2317-2322.

Stephens，M.A.(1974).EDF Statistics for Goodness of Fit and SomeComparisons，Journal of the American Statistical Association，Vol.69，pp.730-737.

Striebel HM，Birch-Hirschfeld E，Egerer R，Foldes-Papp Z(2003)Virusdiagnostics on microarrays.Curr Pharm Biotechnol 4：401-415.

Sung，W.K.& Lee，W.H.Fast and Accurate Probe Selection Algorithm forLarge Genomes.CSB(2003).

Sung，W.K.& Lee，W.H.(2003)in IEEE Computational SystemsBioinfornatics ConferenceStanferd University，Stanford，CA.

Urisman A，Fischer KF，Chiu CY，Kistler AL，Beck S，et al.(2005)E-Predict：a computational strategy for species identification based on observedDNA microarray hybridization patterns.Genome Biol 6：R78.

Vega VB，Ruan Y，Liu J，Lee WH，Wei CL，et al.(2004)Mutationaldynamics of the SARS coronavirus in cell culture and human populationsisolated in 2003.BMC Infect Dis 4：32.

Vora GJ，Meador CE，Stenger DA，Andreadis JD(2004)Nucleic acidamplification strategies for DNA microarray-based pathogen detection.ApplEnviron Microbiol 70：3047-3054.

Wang D，Coscoy L，Zylberberg M，Avila PC，Boushey HA，et al.(2002)Microarray-based detection and genotyping of viral pathogens.Proc Natl AcadSci U S A 99：15687-15692.

Wang D，Urisman A，Liu YT，Springer M，Ksiazek TG，et al.(2003)Viraldiscovery and sequence recovery using DNA microarrays.PLoS Biol 1：E2.

Wong CW，Albert TJ，Vega VB，Norton JE，Cutler DJ，et al.(2004)Tracking the Evolution of the SARS Coronavirus Using High-Throughput，High-Density Resequencing Arrays.Genome Res 14：398-405.

Wu，D.Y，Ugozzoli，L.，Pal，B.K.，Qian，J.&Wallace，R.B.(1991)Theeffect of temperature and oligonucleotide primer length on the specificity andefficiency of amplification by the polymerase chain reaction.DNA Cell Biol 10，233-238.

序列表

<110>新加坡科技研究局

<120>寡核苷酸设计和/或核酸检测的方法和/或装置

<130>FP3143

<140>11/202,023

<141>2005-08-12

<160>13

<170>PatentIn version 3.3

<210>1

<211>26

<212>DNA

<213>人工序列

<220>

<223>正向和/或反向随机引物(图1A)

<220>

<221>misc_feature

<222>(18)..(26)

<223>n为a，c，g，或t

<400>1

gtttcccagtcacgatannn nnnnnn 26

<210>2

<211>26

<212>DNA

<213>人工序列

<220>

<223>随机正向引物(图1B)

<400>2

gtttcccagt cacgatagca tgaggg 26

<210>3

<211>26

<212>DNA

<213>人工序列

<220>

<223>随机反向引物(图1B)

<400>3

gtttcccagtcacgatacga atagct 26

<210>4

<211>22

<212>DNA

<213>人工序列

<220>

<223>病毒序列的片段(图1B中的病毒序列的上面最左边的链)

<400>4

acgatatccg cgaatagcta ga 22

<210>5

<211>23

<212>DNA

<213>人工序列

<220>

<223>病毒序列的片段(图1B中的病毒序列的上面最右边的链)

<400>5

catccctcat gcatggggca att 23

<210>6

<211>22

<212>DNA

<213>人工序列

<220>

<223>病毒序列的片段(图1B中的病毒序列的下面最左边的链)

<400>6

tgctataggc gcttatcgat ct 22

<210>7

<211>23

<212>DNA

<213>人工序列

<220>

<223>病毒序列的片段(图1B中的病毒序列的下面最右边的链)

<400>7

gtagggagta cgtaccccgt taa 23

<210>8

<211>17

<212>DNA

<213>人工序列

<220>

<223>随机引物标签(图1C和1D的上面的链)

<400>8

gtttcccagt cacgata 17

<210>9

<211>17

<212>DNA

<213>人工序列

<220>

<223>随机引物标签(图1C和1D的下面的链)

<400>9

caaagggtca gtgctat 17

<210>10

<211>17

<212>DNA

<213>人工序列

<220>

<223>引物A1(图13)

<400>10

gtttcccagt cacgata 17

<210>11

<211>17

<212>DNA

<213>人工序列

<220>

<223>引物A2(图13)

<400>11

gatgagggaa gatgggg 17

<210>12

<211>17

<212>DNA

<213>人工序列

<220>

<223>引物A3(图13)

<400>12

ctcatgcacg acccaaa 17

<210>13

<211>17

<212>DNA

<213>人工序列

<220>

<223>引物A4(图13)

<400>13

agatccattc cacccca 17

Claims

1、设计至少一种用于核酸检测的寡核苷酸的方法，该方法包括任意顺序的以下步骤：

(I)确定和/或选择至少一种靶核酸的至少一个待扩增区域，该区域的扩增效率高于平均扩增效率；和

(II)设计至少一种能够与所确定和/或选择的区域进行杂交的寡核苷酸。

2、根据权利要求1所述的方法，其中，所选择的区域的扩增效率被计算为扩增效率得分，该扩增效率得分是正向引物r_i可能与靶核酸的位置i结合并且反向引物r_j可能在靶核酸的位置j处结合的概率，|i-j|为靶核酸的想要扩增的区域。

3、根据权利要求2所述的方法，其中，|i-j|为≤10000bp。

4、根据权利要求2所述的方法，其中，|i-j|为1000bp。

5、根据权利要求2所述的方法，其中，|i-j|为≤500bp。

6、根据前述权利要求中的任意一项所述的方法，其中，步骤(I)包括确定几何级扩增偏倚对靶核酸的每个位置的影响，并且选择至少一个待扩增区域作为扩增效率高于平均扩增效率的区域。

7、根据权利要求6所述的方法，其中，所述几何级扩增偏倚为聚合酶链式反应偏倚。

8、根据前述权利要求中的任意一项所述的方法，其中，至少一种能够与所选择的区域进行杂交的寡核苷酸是根据以下标准中的至少一种进行选择和设计的：

(a)选择CG含量为40％至60％的寡核苷酸；

(b)选择具有根据最邻近模型计算的最高自由能的寡核苷酸；

(c)假定寡核苷酸s_a和寡核苷酸s_b分别为靶核酸v_a和v_b的子串，则根据s_a与来自靶核酸v_b的长度为m的任意子串s_b之间的汉明距离和/或根据s_a与寡核苷酸s_b的最长公共子串来选择s_a；

(d)就靶核酸v_a特异性的长度为m的任何寡核苷酸s_a而言，若寡核苷酸s_a与异于靶核酸的核酸的任何区域无任何标的，则选择该寡核苷酸s_a；若长度为m的寡核苷酸s_a与异于靶核酸的核酸有标的，则选择长度为m的具有最小的最大比对长度和/或具有最低标的数的寡核苷酸s_a；和

(e)如果预测p₁杂交到所扩增的靶核酸的位置i上，则选择在靶核酸的位置i上的寡核苷酸p_i。

9、根据权利要求8所述的方法，其中，根据标准(e)，若P(p_i|v_a)＞λ，其中λ为0.5并且P(p_i|v_a)为p_i杂交到靶核酸v_a的位置i上的概率，则选择在靶核酸v_a的位置i上的寡核苷酸p_i。

10、根据权利要求9所述的方法，其中，λ为0.8。

11、根据前述权利要求中的任意一项所述的方法，其中，

P (p_{i} | v_{a}) \approx P (X \leq x_{i}) = \frac{c_{i}}{k},

其中X为代表v_a的全部寡核苷酸的扩增效率得分值的随机变量，k为v_a中的寡核苷酸的数目，并且c_i为扩增效率得分值≤x_i的寡核苷酸的数目。

12、根据前述权利要求中的任意一项所述的方法，其中，该方法还包括制备所选择和/或设计的寡核苷酸的步骤。

13、检测至少一种靶核酸的方法，该方法包括以下步骤：

(i)提供至少一种生物样品；

(ii)对该生物样品中包含的核酸进行扩增；

(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸，其中，该寡核苷酸是根据权利要求1至12中的任意一项所述的方法进行设计和/或制备的；和

(iv)使该寡核苷酸与扩增的核酸进行接触和/或检测与靶核酸杂交的寡核苷酸。

14、根据前述权利要求中的任意一项所述的方法，其中，所述至少一种寡核苷酸为至少一种寡核苷酸探针或引物。

15、根据前述权利要求中的任意一项所述的方法，其中，所述扩增步骤是在存在至少一种正向随机引物和/或至少一种反向随机引物的条件下进行的。

16、根据前述权利要求中的任意一项所述的方法，其中，所述扩增步骤为逆转录-聚合酶链式反应。

17、根据权利要求2至16中的任意一项所述的方法，其中，与靶核酸v_a的位置i结合的正向随机引物和与靶核酸v_a的位置j结合的反向随机引物选自对靶核酸v_a的每个位置i具有如下扩增效率得分的引物：

{AES}_{i} = Σ_{j = i - Z}^{i} {P^{f} (j) \times Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k)}

其中

Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k) = P^{r} (i + 1) + P^{r} (i + 2) + . . . . . . P^{r} (j + Z);

P^f(i)和P^r(i)为随机引物r_i作为正向引物和反向引物分别与v_a的位置i结合的概率，并且Z≤10000bp为v_a的想要扩增的区域。

18、根据前述权利要求中的任意一项所述的方法，其中，所述扩增步骤包括正向引物和反向引物，并且该正向引物和反向引物中的每种引物在5’-3’方向上包含固定的引物头部和可变的引物尾部，并且其中至少该可变的尾部与靶核酸v_a的一部分进行杂交。

19、根据前述权利要求中的任意一项所述的方法，其中，所述扩增步骤包括具有如SEQ ID NO：1所示的核苷酸序列、或该核苷酸序列的变体或衍生物的正向随机引物和/或反向随机引物。

20、根据前述权利要求中的任意一项所述的方法，其中，相对于生物样品的核酸，待检测的靶核酸为外源的核酸。

21、根据前述权利要求中的任意一项所述的方法，其中，所述待检测的靶核酸至少为病原体基因组或基因组片段。

22、根据权利要求21所述的方法，其中，病原体核酸至少为来自病毒、寄生虫或细菌的核酸或核酸片段。

23、根据前述权利要求中的任意一项所述的方法，其中，所述生物样品从人类得到，并且假定存在于所述生物样品中的靶核酸为非人源的。

24、根据前述权利要求中的任意一项所述的方法，其中，所述探针被放置在不溶性支持物上。

25、根据权利要求24所述的方法，其中，所述不溶性支持物是微阵列。

26、根据权利要求13至25中的任意一项所述的方法，其中，在检测步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针

的信号强度的均值，则表明所述生物样品内存在v_a。

27、根据权利要求13至25中的任意一项所述的方法，其中，在检测步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针

的信号强度的均值，并且该方法还包括以下步骤：计算具有高信号强度的探针

的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异，探针v_a的信号强度的密度分布比探针

的信号强度的密度分布更正偏，则表明所述生物样品内存在v_a。

28、根据权利要求13至25中的任意一项所述的方法，其中，在检测步骤(iv)中，t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵值≥1.0时，表明所述生物样品内存在至少一种靶核酸。

29、根据权利要求28所述的方法，其中，t-检验值≤0.05。

30、根据权利要求28或29所述的方法，其中，加权相对熵值≥5.0。

31、根据权利要求13至25中的任意一项所述的方法，其中，检测步骤(iv)包括通过计算加权相对熵得分的分布而对靶核酸v_a评估每个标签探针组中的探针信号强度：

其中，Q_a(j)是在组b_j中所找到的P_a内的探针的信号强度的累积分布函数；Q_a(j)是在组bj中所找到的P_a内的探针的信号强度的累积分布函数，P_a为病毒v_a的探针组，P_a＝P-P_a。

32、根据权利要求31所述的方法，其中，每个标签探针组具有正态分布的信号强度和/或小于5的加权相对熵得分，则表明不存在靶核酸v_a。

33、根据权利要求32所述的方法，其中，每个标签探针组具有正偏的信号强度分布和/或大于5的加权相对熵得分，则表明存在至少一种靶核酸v_a。

34、根据权利要求31至33中的任意一项所述的方法，该方法还包括对加权相对熵得分的分布进行安德森-塔林检验，其中，P＞0.05的结果表示不存在靶核酸v_a。

35、根据权利要求31至33中的任意一项所述的方法，该方法还包括对加权相对熵得分的分布进行安德森-塔林检验，其中，P＜0.05的结果表示存在靶核酸v_a。

36、根据权利要求35所述的方法，其中，再进行安德森-塔林检验，由此表明存在其它共感染性靶核酸。

37、确定至少一种靶核酸v_a的存在的方法，该方法包括检测至少一种寡核苷酸探针与至少一种靶核酸v_a的杂交，其中与v_a杂交的探针的信号强度的均值在统计学上高于探针的信号强度的均值，则表明存在v_a。

38、根据权利要求37所述的方法，其中，与v_a杂交的探针的信号强度的均值在统计学上高于探针的信号强度的均值，并且该方法还包括以下步骤：计算具有高信号强度的探针

的信号强度的密度分布更为正偏，则表明存在v_a。

39、根据权利要求37或38所述的方法，其中，t-检验值≤0.1和/安德森-塔林检验值≤0.05和/或加权相对熵值≥1.0时，表明生物样品中存在至少一种靶核酸。

40、根据权利要求39所述的方法，其中，t-检验值≤0.05。

41、根据权利要求39或40所述的方法，其中，加权相对熵值≥5.0。

42、检测至少一种靶核酸的方法，该方法包括以下步骤：

(i)提供至少一种生物样品；

(ii)对该生物样品中包含的至少一种核酸进行扩增；

(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸探针；和

(iv)使该探针与扩增的核酸进行接触和/或检测与靶核酸杂交的探针，其中与v_a杂交的探针的信号强度的均值在统计学上高于探针的信号强度的均值，则表明该生物样品中存在v_a。

43、根据权利要求42所述的方法，其中，在步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针

的信号强度的密度分布更正偏，则表明所述生物样品中存在v_a。

44、根据权利要求42或43所述的方法，其中，在检测步骤(iv)中，t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权相对熵值≥1.0时，表明所述生物样品中存在至少一种靶核酸。

45、根据权利要求44所述的方法，其中，t-检验值≤0.05。

46、根据权利要求44或45所述的方法，其中，加权相对熵值≥5.0。

47、根据权利要求37至46中的任意一项所述的方法，其中，相对于所述生物样品的核酸，待检测的靶核酸为外源的核酸。

48、根据权利要求37至47中的任意一项所述的方法，其中，所述待检测的靶核酸为至少一种病原体基因组或基因组片段。

49、根据权利要求48所述的方法，其中，病原体核酸为至少一种来自病毒、寄生虫或细菌的核酸或核酸片段。

50、根据权利要求37至47中的任意一项所述的方法，其中，所述生物样品从人类得到，并且假定存在于所述生物样品中的靶核酸为非人源的。

51、根据权利要求37至48中的任意一项所述的方法，其中，至少一种探针被放置在不溶性支持物上。

52、根据权利要求51所述的方法，其中，所述支持物为微阵列。

53、用于设计用于核酸检测的至少一种寡核苷酸的装置，该装置被配置为：

(II)设计能够与所确定和/或选择的区域进行杂交的至少一种寡核苷酸。

54、根据权利要求53所述的装置，其中，所选择的区域的扩增效率被计算为扩增效率得分，该扩增效率得分是正向引物r_i可能与靶核酸的位置i结合并且反向引物r_j可能在靶核酸的位置j处结合的概率，|i-j|为靶核酸的想要扩增的区域。

55、根据权利要求54所述的装置，其中，|i-j|≤10000bp、≤1000bp或≤500bp。

56、根据权利要求53至55中的任意一项所述的装置，其中，步骤(I)包括确定几何级扩增偏倚对靶核酸的每个位置的影响，并且选择至少一个待扩增区域作为扩增效率高于平均扩增效率的区域。

57、根据权利要求56所述的装置，其中，所述几何级扩增偏倚为聚合酶链式反应偏倚。

58、根据权利要求53至57中的任意一项所述的装置，其中，所述能够与所选择的区域进行杂交的寡核苷酸是根据以下标准中的至少一种进行选择和/或设计的：

(a)选择CG含量为40％至60％的寡核苷酸；

(b)选择具有根据最邻近模型计算的最高自由能的寡核苷酸；

(c)假定寡核苷酸s_a和寡核苷酸s_b分别为靶核酸v_a和v_b的子串，则根据s_a与来自靶核酸v_b的长度为m的任意子串s_b之间的汉明距离和/或根据s_a与寡核苷酸s_b的最长公共子串选择s_a；

(d)就靶核酸v_a特异性的长度为m的任何寡核苷酸s_a而言，若寡核苷酸s_a与异于靶核酸的核酸的任何区域无任何标的，则选择寡核苷酸s_a；若长度为m的寡核苷酸s_a与异于靶核酸的核酸有标的，则选择长度为m的具有最小的最大比对长度和/或具有最低标的数的寡核苷酸s_a；和

(e)若预测p_i杂交到所扩增靶核酸的位置i上，则选择在靶核酸的位置i上的至少一种寡核苷酸p_i。

59、根据权利要求58所述的装置，其中，根据标准(e)，若P(p_i|v_a)＞λ，其中λ为0.5并且P(p_i|v_a)为p_i杂交到靶核酸v_a的位置i上的概率，则选择在靶核酸v_a的位置i上的寡核苷酸p_i。

60、根据权利要求59所述的装置，其中，λ为0.8。

61、根据权利要求53至60中的任意一项所述的装置，其中，

P (p_{i} | v_{a}) \approx P (X \leq x_{i}) = \frac{c_{i}}{k},

62、根据权利要求53至61中的任意一项所述的装置，其中，所述配置还包括制备所选择和/或设计的寡核苷酸的步骤。

63、根据权利要求53至62中的任意一项所述的装置，其中，所述至少一种寡核苷酸为至少一种寡核苷酸探针和/或引物。

64、配置为检测至少一种靶核酸的装置，该装置包括以下步骤中的任何一步：

(i)提供至少一种生物样品；

(ii)对该生物样品中包含的核酸进行扩增；

(iii)提供能够与至少一种假定存在于该生物样品中的靶核酸进行杂交的至少一种寡核苷酸，其中该寡核苷酸是根据权利要求53至63中的任意一项所述的装置设计和/或制备的；和

(iv)使寡核苷酸与扩增的核酸进行接触和/或检测与靶核酸杂交的寡核苷酸。

65、根据权利要求53至64中的任意一项所述的装置，其中，所述扩增步骤是在存在至少一种正向随机引物和/或至少一种反向随机引物的条件下进行的。

66、根据权利要求53至65中的任意一项所述的装置，其中，所述扩增步骤为逆转录-聚合酶链式反应。

67、根据权利要求53至66中的任意一项所述的装置，其中，与靶核酸v_a的位置i结合的正向随机引物和与靶核酸v_a的位置j结合的反向随机引物选自对靶核酸v_a的每个位置i具有以下扩增效率得分的引物：

{AES}_{i} = Σ_{j = i - Z}^{i} {P^{f} (j) \times Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k)}

其中，

Σ_{k = \max (i + 1, j + 500)}^{j + Z} P^{r} (k) = P^{r} (i + 1) + P^{r} (i + 2) + . . . . . . P^{r} (j + Z);

P^f(i)和P^r(i)为随机引物r_i作为正向引物和反向引物分别与v_a的位置i结合的概率，Z≤10000bp为v_a的想要扩增的区域。

68、根据权利要求53至67中的任意一项所述的装置，其中，所述扩增步骤包括正向引物和反向引物，并且该正向引物和反向引物中的每种引物在5’-3’方向上包含固定的引物头部和可变的引物尾部，其中至少该可变的尾部与靶核酸v_a的一部分杂交。

69、根据权利要求53至68中的任意一项所述的装置，其中，所述扩增步骤包括具有如SEQ ID NO：1所示的核苷酸序列或该核苷酸序列的变体或衍生物的正向随机引物和/或反向随机引物。

70、根据权利要求任53至69中的任意一项所述的装置，其中，相对于所述生物样品的核酸，待检测的靶核酸为至少一种外源的核酸。

71、根据权利要求53至69中的任意一项所述的装置，其中，待检测的靶核酸为至少一种病原体基因组或基因组片段。

72、根据权利要求71所述的装置，其中，病原体核酸为至少一种来自病毒、寄生虫或细菌的核酸或核酸片段。

73、根据权利要求53至72中的任意一项所述的装置，其中，所述生物样品从人类得到，并且假定存在于所述生物样品中的靶核酸为非人源的。

74、根据权利要求53至73中的任意一项所述的装置，其中，该装置包括至少一种不溶性支持物，在该不溶性支持物上放置有至少一种探针。

75、根据权利要求74所述的装置，其中，所述不溶性支持物为微阵列。

76、根据权利要求64至75中的任意一项所述的装置，其中，在检测步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针

的信号强度的均值，则表明生物样品中存在v_a。

77、根据权利要求64至75中的任意一项所述的装置，其中，在检测步骤(iv)中，与v_a杂交的探针的信号强度的均值在统计学上高于探针的信号强度的均值，该装置被配置为还包含以下步骤：计算具有高信号强度的探针

的比例与检测方法中所用的具有高信号强度的探针的比例的相对差异，探针v_a的信号强度的密度分布比探针的信号强度的密度分布更正偏，则表明所述生物样品中存在v_a。

78、根据权利要求64至75中的任意一项所述的装置，其中，在检测步骤(iv)中，t-检验值≤0.1和/或安德森-塔林检验值≤0.05和/或加权加权相对熵值≥1.0时，表明所述生物样品中存在靶核酸。

79、根据权利要求78所述的装置，其中，t-检验值≤0.05。

80、根据权利要求78或79所述的装置，其中，加权相对熵值≥5.0。

81、根据权利要求64至75中的任意一项所述的装置，其中，检测步骤(iv)包括通过计算加权相对熵得分的分布而对靶核酸评估每个标签探针组内的探针信号强度：

其中，Q_a(j)为在组b_j中所找到的P_a内的探针的信号强度的累积分布函数；Q_a(j)为在组b_j中所找到的P_a内的探针的信号强度的累积分布函数，P_a为病毒v_a的探针组，P_a＝P-P_a。

82、根据权利要求81所述的装置，其中，代表不存在靶核酸v_a的每个标签探针组具有正态分布的信号强度和/或小于5的加权相对熵得分。

83、根据权利要求81所述的装置，其中，代表存在至少一种靶核酸v_a的每个标签探针组具有正偏的信号强度分布和/或大于5的加权相对熵得分。

84、根据权利要求81至83中的任意一项所述的装置，该装置还包括对加权相对熵得分的分布进行安德森-塔林检验，其中P＞0.05的结果表明不存在靶核酸v_a。

85、根据权利要求81至83中的任意一项所述的装置，该装置还包括对加权相对熵得分的分布安德森-塔林检验，其中P＜0.05的结果表明存在靶核酸v_a。

86、根据权利要求85所述的装置，其中，再进行安德森-塔林检验，由此表明存在其它共感染性靶核酸。

87、根据权利要求53至86中的任意一项所述的装置，其中，所述配置被存贮在至少一种电子存储介质上。

88、一种计算机程序产品，该产品被配置为执行权利要求1至52中的任意一项所述的方法。

89、一种包含软件的计算机程序产品，该软件被配置为确定加权相对熵得分和/或安德森-塔林检验以设计至少一种寡核苷酸和/或检测至少一种靶核酸。

90、根据权利要求89所述的计算机程序产品，其中，加权相对熵、安德森-塔林检验、寡核苷酸探针的设计、寡核苷酸引物的设计和/或靶核酸的检测如权利要求1至52中的任意一项所限定。

91、一种包含软件的可移动的电子存储介质，该软件被配置为执行权利要求1至52中的任意一项所述的方法。

92、一种包含软件的可移动的电子存储介质，该软件被配置为确定加权相对熵得分和/或安德森-塔林检验以设计至少一种寡核苷酸探针、设计寡核苷酸引物和/或检测至少一种靶核酸。

93、根据权利要求92所述的可移动的电子存储介质，其中，加权相对熵、安德森-塔林检验、寡核苷酸探针的设计、寡核苷酸引物的设计和/或靶核酸的检测如权利要求1至52中的任意一项所限定。