CN101535802B

CN101535802B - 用于序列解析性生物检测及鉴定的遗传靶的设计和选择

Info

Publication number: CN101535802B
Application number: CN2007800310843A
Authority: CN
Inventors: 安东尼·P.·马拉诺斯基; 王峥; 林宝川; 大卫·A.·斯滕格; 乔尔·M.·施努尔
Original assignee: US Government
Current assignee: US Government; US Department of Navy
Priority date: 2006-08-22
Filing date: 2007-08-22
Publication date: 2013-09-11
Anticipated expiration: 2027-08-22
Also published as: WO2008024827A2; KR20090060303A; JP5112435B2; CA2657448A1; KR101205619B1; EP2054719A2; AU2007286734A1; AU2007286734B2; NO20091192L; EP2054719A4; EP2054719B1; JP2010509904A; WO2008024827A3; CN101535802A; NZ574942A

Abstract

如下是一种计算机执行的方法。提供与生物列表中一种或多种生物相关的靶序列列表。提供疑似与一个或多个所述靶序列杂交的候选原型序列列表。生成与每个候选原型序列相对应的探针集合，每个探针集合具有针对每个子序列的探针组，所述的子序列具有相应候选原型序列的预定、固定的子序列长度。所述探针组由相应子序列和通过变动相应子序列的中央核苷酸所形成的相应子序列的每一变异组成。生成与每个靶序列相对应的片段组，每一片段组包含具有相应靶序列的预定、固定片段长度的每个片段。计算每个片段与该片段的完全互补性序列的结合自由能。若任何结合自由能高于预定的固定阈值，则将该片段一次延伸一个核苷酸直至所述结合自由能低于该阈值或该片段具有与所述探针相同的长度，生成延伸片段组。确定哪个延伸片段是针对任意探针的完全匹配物。装配与每个候选原型序列相对应的碱基响应序列。该碱基响应序列具有与相应原型序列的每个探针的中央核苷酸相对应的碱基响应，其中所述的探针是针对任何延伸片段的完全匹配物，但对于该碱基响应而言含有所述完全匹配探针的该探针组的其余成员不是针对任何延伸片段的完全匹配物；和在全部其它环境下的非碱基响应。

Description

用于序列解析性生物检测及鉴定的遗传靶的设计和选择

本申请要求保护2006年8月22日提交的美国临时专利申请号60/823,101和2006年8月25日提交的美国临时专利申请号60/823,510的权益。本申请是以下申请的部分连续申请案：2005年7月22日提交的美国专利申请号11/177,646、2005年7月2日提交的美国专利申请号11/177,647、2005年11月7日提交的美国专利申请号11/268,373、2006年6月6日提交的美国专利申请号11/422,425、2006年6月6日提交的美国专利申请号11/422,431和2006年11月14日提交的美国专利申请号11/559,513。这些申请要求保护以下临时专利申请的优先权：2004年7月2日提交的美国临时专利申请号60/590,931、2004年9月15日提交的美国临时专利申请号60/609,918、2004年11月5日提交的美国临时专利申请号60/626,500、2004年11月29日提交的美国临时专利申请号60/631,437、2004年11月29日提交的美国临时专利申请号60/631,460、2005年11月14日提交的美国临时专利申请号60/735,824、2005年11月14日提交的美国临时专利申请号60/735,876、2006年3月22日提交的美国临时专利申请号60/743,639和2005年6月16日提交的美国临时专利申请号60/691,768。

技术领域

本发明一般地涉及再测序微阵列设计。

背景技术

随着基于DNA的检测方法流行日盛，拥有设计、测试和改善测定法分析的计算机(in silico)方法变得更加重要。尤其，日益需要高度多重性病原体检测法并且该检测法在成本、所需样品体积、时间及测定时间方面比多重单独的测试法可能更有效。然而，初始开发、设计和验证可以对数性地变得复杂、昂贵和耗时。使用新近可用遗传序列信息的针对微生物的精确模拟模型可以潜在地使开发这些高度多重性测定法的成本和时间最小化。

基于核酸的全部测定法的设计标准具有相似的整体约束条件。在选定靶生物后，必须使用方法来选择仅极特异地识别靶生物物种并且仍说明该物种中全部遗传性变异(即株或亚型)的探针。已经用模型(对于每个模型具有相似要求)开发计算机设计方法用于PCR和点式寡核苷酸微阵列(Cleland等(2004)开发用于微生物病原体的合理设计的核酸标签(Development of rationallydesigned nucleic acid signatures for microbial pathogens).分子诊断专家述评(Expert Rev Mol Diagn)，4.303-315；Gardner等(2005)用于DNA和蛋白质诊断标签开发的草拟及完善序列数据(Draft versus finished sequence data for DNAand protein diagnostic signature development).核酸研究(Nucleic Acids Res)，33，5838-5850；Rychlik等(1989)一种选择最佳寡核苷酸用于DNA的滤膜杂交、测序及体外扩增的计算机程序(A computer program for choosing optimaloligonucleotides for filter hybridization，sequencing and in vitro amplification ofDNA).核酸研究(Nucleic Acids Res)，17，8543-8551；Fitch等(2002)核酸诊断法的快速发展(Rapid development of nucleic acid diagnostics)。IEEE进展(Proceedings of the IEEE)，90，1708-1721)，用于测定法和寡核苷酸微阵列(Herold等(2003)寡聚物设计：一种用于开发寡核苷酸微阵列的探针的计算机程序(Oligo Design：a computer program for development of probes foroligonucleotide microarrays).生物技术(Biotechniques)，35，1216-1221；Mehlmann等(2006)用来开发针对流感病毒的流感芯片(FluChip)诊断微阵列的耐用序列选择方法(Robust sequence selection method used to develop theFluChip diagnostic microarray for influenza virus).临床微生物学杂志(J ClinMicrobiol)，44，2857-2862)。因为探针、靶和干扰片段的可能集合是如此庞大，故优选以最小计算产生最大靶特异性的模型。在PCR引物或寡核苷酸微阵列的常见设计算法中，计数探针与靶序列或背景生物序列之间的碱基匹配数。若超过阈匹配数，则假定存在杂交(Herold等.(2003)寡聚物设计：一种用于开发寡核苷酸微阵列的探针的计算机程序(Oligo Design：a computer program fordevelopment of probes for oligonucleotide microarrays).生物技术(Biotechniques)，35，1216-1221；Mehlmann等(2006)用来开发针对流感病毒的FluChip诊断微阵列的耐用序列选择方法(Robust sequence selection methodused to develop the FluChip diagnostic microarray for influenza virus).临床微生物学杂志(J Clin Microbiol)，44，2857-2862.)。这种水平的模拟是不完整的，因为对探针-靶杂交的最终检测依赖于单一信号强度(通常是荧光)，其可能与预测的单一信号强度不相关。这导致无法确定所选探针效果如何直至开展实验工作以验证该选择并且建立杂交事件的强度临界值。

已经使用更详细的热动力学模拟和计算来更好理解匹配-错配和单一匹配微阵列并且提供对强度的预测(Matveeva等(2003)用于寡探针设计的热动力学计算和统计相关(Thermodynamic calculations and statistical correlations foroligo-probes design).核酸研究(Nucleic Acids Res)，31，4211-4217；Held等(2003)利用杂交的物理特性模拟DNA微阵列数据(Modeling of DNAmicroarray data by using physical properties of hybridization).美国科学院院刊(Proc Natl Acad Sci U SA)，100，7575-7580；Naef等(2003)解决亮错配之谜：寡核苷酸阵列中的标记和有效结合(Solving the riddle of the bright mismatches：Labeling and effective binding in oligonucleotide arrays).物理评论E(PhysicalReview E)，68，011906；Zhang等(2003)短寡核苷酸微阵列上的分子相互作用模型(A model of molecular interactions on short oligonucleotide microarrays).自然：生物技术(Nat Biotechnol)，21，818-821；Wu等(2005)在短寡聚物微阵列上交叉杂交的序列依赖性(Sequence dependence of cross-hybridization on shortoligo microarrays).核酸研究(Nucleic Acids Res)，33，e84)。建模方法说明了几个重要事项，如探针与表面连接以及实现片段的二聚体形成或片段依赖于碱基含量的环形成。当仅一个或两个探针可能与靶标杂交时，对这些事项的说明是相对简单明了的。然而，模型中这种增加的细节以计算要求同样提高为代价。

与简单的寡核苷酸微阵列相反，使用再测序微阵列的最近工作证实再测序微阵列是检验多种病原体(包括共感染)和开展密切相关病原体的详细鉴别和/或追踪病原体突变的可行替代品(Wang等(2006)用再测序微阵列鉴定流感病毒(Identifying Influenza Viruses with Resequencing Microarrays).新发传染病杂志(Emerg Infect Dis)，12，638-646；Lin等(2006)使用再测序DNA微阵列的广谱呼吸道病原体鉴定法(Broad-spectrum respiratory tract pathogenidentification using resequencing DNA microarrays).基因组研究(Genome Res)，16，527-535)。

因为使用4个(或如还包括反义，则是8个)短探针的组，其中每个探针组代表所需序列的一部分和中央核苷酸位置的全部变异，则来自单一探针的绝对信号强度的重要性比不上遍及所述完整探针组的差异结合作用/强度。在有义或反义方向得到证实的这种信息仅用来以高置信度确定特定碱基是存在的。需要重叠探针组的这种用途来直接确定靶生物的核苷酸序列，而非基于假定特异性探针的单一荧光信号强度推测性地确定所述核苷酸序列(Malanoski等(2006)从再测序DNA微阵列中自动化鉴定多种微生物(Automatedidentification of multiple micro-organisms from resequencing DNA microarrays).核酸研究(Nucleic Acids Res)，34，5300-5311)。

再测序微阵列对广谱检测各种水平的生物鉴别(organism discrimination)的有效性可能依赖于用来选择置于微阵列上的参考序列或靶序列的方法。权衡专用于某种生物的空间量与可能的鉴别水平必须对所考虑的每种生物进行平衡。此外，当特异性或半特异性引物用于生物富集时，这些引物的选择可以影响选择可能的参考序列。

整体设计过程可以表征为一系列步骤。第一，选择生物和针对每种生物的所需鉴别水平并且必须测试核酸标记是否有特异性。第二，从已知序列数据中确定序列区域以从所述序列区域中选择参考序列。第三，选择参考序列并检查可能的冲突。第四，选择引物。第五，序列选择的改进。这些步骤中若干步骤的顺序可以相互交换并且所述的改进由产生变化后重复这些步骤中若干步骤组成。第一步骤总是选择生物和每种生物的所需鉴别水平，这代表对于设计的约束条件。待使用的微阵列的尺寸详述了对设计问题所设置的其它约束条件。不改变一个或多个所述约束条件则不可能有解决方案。不过，全部后续步骤旨在满足这些要求。

发明内容

本发明包括一种计算机执行的方法，该方法包括：提供与生物列表中一种或多种生物相关的靶序列列表；提供疑似与一个或多个所述靶序列杂交的候选原型序列列表；生成与每个候选原型序列相对应的探针集合，每个探针集合具有针对每个子序列的探针组，所述的子序列具有相应候选原型序列的预定、固定的子序列长度。所述探针组由相应子序列和通过变动相应子序列的中央核苷酸所形成的相应子序列的每一变异组成；生成与每个靶序列相对应的片段组，每一片段组包含具有相应靶序列的预定、固定片段长度的每个片段；计算每个片段与该片段的完全互补性序列的结合自由能；并且若任何结合自由能高于预定的固定阈值，则将该片段一次延伸一个核苷酸直至所述结合自由能低于该阈值或该片段具有与所述探针相同的长度，生成延伸片段组，并确定哪个延伸片段是针对任意探针的完全匹配物，以及装配与每个候选原型序列相对应的碱基响应序列，其中所述候选原型序列具有与相应原型序列的每个探针的中央核苷酸相对应的碱基响应，其中所述的探针是针对任何延伸片段的完全匹配物，但对于该碱基响应而言含有所述完全匹配探针的该探针组的其余成员不是针对任何延伸片段的完全匹配物；和在全部其它环境下的非碱基响应。

附图简述

对本发明的更完整理解将参考以下对示例实施方案的描述和附图而轻易地获得。

图1显示使用从23至13不同值m的模型的示例结果。原型序列(用来产生探针组)和样品序列用星号在两种序列中均配对的碱基上方显示。还显示了每个探针组针对不同值m的再装配模拟碱基响应结果。区域A具有20个连续碱基，从而对大于20的m，探针组没有在该区域中的配对。较长区域B具有在m＝23时产生碱基响应的探针组。对于每个区域，m增加1或2导致在终止产生碱基响应的每个边缘处产生1或2个碱基响应。这些碱基响应取决于这样的片段，其对探针的一半具有多于对所述探针另一半的配对。区域C具有含9个及12个碱基的两个连续区域，在所述区域之间有一个单核苷酸多态性(SNP)。含所述SNP组的一个探针具有在样品中配对的22个碱基，不过在该区域内任何探针组中的其它探针均不具备大于12的匹配，并且因此全部探针在N上在全部值处均是N响应。

图2显示来自引物的解析碱基响应的频率，作为引物中的位置的函数。●-全部，GC含量：▲-小于50％，

-大于50％。

图3显示来自引物的解析碱基响应的频率，作为引物中的位置的函数。ΔG(空心符号指示具有少于12000个数据点的二进制数(bin))：*＞-13、-13＞■□-16、-16＞◆◇-19、-19＞▲△＞-22、-25＞●○。

图4显示FluBHA的原型序列和来自常规测序、来自RPMv.l微阵列和来自模型预测的流感病毒B Victoria系样品的结果。区域A代表部分序列，其中SNP相距甚远或紧靠在一起，并且模型数据与微阵列数据良好符合。区域B序列具有居间频率的SNP并且模型与实验之间的符合性下降。观察为样品与样品之间差异百分数的这种特性上升高于4％。区域C情况相似，尽管观察到的碱基响应数高得多并且这些情况仅在10％上观察到。

图5显示是假设的标称靶、靶列表和原型序列列表。

图6显示假设的探针集合。

图7显示片段及延伸片段的假设列表。

图8显示探针与延伸片段之间的完全匹配物。

图9显示假设的碱基响应序列。

图10显示每一候选原型的匹配性生物和最终靶标列表的形成。

实施本发明的模式

在以下描述中出于解释目的而非限制目的，阐述具体细节以提供对本发明的透彻理解。然而，对于本领域技术人员显而易见的是本发明可以在相异于这些具体细节的其它实施方案中实行。在其它情况下，省略对熟知方法及装置的详细描述，从而在没有多余细节下不难理解对本发明的描述。

从最近发表的大量文献中显而易见基于DNA的检测方法(尤其用于多种病原体检测)的流行。因此，拥有辅助设计、初始测试和改进这些方法的计算机方法变得重要，原因是这些方法的开发变得更复杂、昂贵和耗时。使用再测序微阵列的最近研究工作证实再测序微阵列是检验多种病原体(包括共感染)和开展密切相关病原体的详细鉴别和/或追踪病原体突变的可行替代品。然而，再测序阵列的品质要求需要不同标准用于在个体探针水平上模拟再测序阵列的性能。此外，用可能数百个原型靶优化设计这些测定法超越了现有方法的能力。为解决这些问题，成功地开发了用于对再测序微阵列预测碱基响应(basecalling)的高效计算模型，该模型始于简单假设以预测杂交并且随后仅根据需要增加复杂性。随同昂飞用户定制序列(Affymetrix CustomSeq)微阵列的针对生物和短寡核苷酸杂交及碱基响应的庞大数据组允许测试并验证该模型。

披露了适用于预测碱基响应的再测序微阵列的模型，其中所述的碱基响应将对位于该微阵列的指定原型序列上的样品序列出现。“原型”序列是对用来生成置于再测序阵列上的探针组的基因组序列的命名，其中所述的探针组允许所选范围的病原体靶序列至少部分地杂交。尽管与在设计其它阵列中所用原则相似的原则是提供迅速计算的出发点，然而并入更详细的热动力学信息。通过针对生物及短寡核苷酸杂交和在昂飞(Affymetrix)再测序微阵列上碱基响应的庞大数据组测试而促进模型开发。该模型成功预测来自庞大种类的靶生物序列杂交中的碱基响应。它还可以用来预测微阵列上所代表的原型序列将针对各种靶病原体组而如何良好地表现。这有助于简化再测序微阵列设计并且减少开发针对特定用途的再测序微阵列所需要的时间和成本。

模型概念-在实验上，若某片段与探针组的一个探针更好地结合，则该探针组将仅表明存在特定碱基。为模拟这种行为，所产生的中心假设是当探针和样品序列具有m个互补连续碱基时，则出现可观察的杂交信号。这是最粗略的模拟，其代表不同序列针对某探针的结合强度的差异并代表最简单的模型。这种模拟的其余部分由以下步骤组成：从原型序列中生成探针并且从样品中生成潜在结合性片段，并随后使用核心假设将所述探针组相互比较。

第一步骤将生成探针组和样品片段。把选为原型序列的序列分成重叠的4探针组，其中所述探针组的探针各自例如长25碱基并且在中央碱基处不同(即对于含L个碱基的序列，产生L-24个探针组)。这代表可以在微阵列上实际存在的探针。对于样品序列而言，生成了长m个碱基的全部独特片段(即对于含K个碱基的序列，可以产生至多K-m+1个独特片段)。实验中的片段可以比所述独特片段长(平均100个碱基)。该模型仅要求最少m个碱基应当存在于片段中。

既然已经生成微阵列探针和样品片段，则每个探针组的每个探针针对来自样品序列的全部片段进行测试，以确定完全互补性配对是否出现。标出具有配对的探针。探针组产生碱基响应的能力通过考察该探针组的探针的结果进行评估。若该探针组中仅一个探针在样品序列中具有配对物，则这个配对物是赋予该探针组的碱基响应，并且检验下一个探针组。当样品片段均不是探针组中任何成员的配对物时，则赋予代表模糊碱基身份的N。在探针组中多于一个探针具有配对物的情况下，从样品序列中生成较长片段并随后对其比较。将源自样品序列中的每个片段的相邻碱基以5′-3′方向一次添加一个直至与适宜探针的错配出现。若这些片段中的一个片段现在比其余片段长，则赋予这种碱基，否则赋予N。

在测试了全部探针组后，将源自每个探针组的碱基响应(A、C、T、G或N)再装配成序列。图1显示使用从23至13的不同值m的模型的示例结果(不使用小于13的诸长度，因为它们可以非特异性地结合，即便有可能使用这些长度)并且指出在各种条件下所产生的一些碱基响应。虽然实验结果清楚地表明为产生特异性碱基响应，片段不需要与探针的全部25个或甚至21个碱基互补，然而在没有进一步实验输入量的情况下，难以确定什么长度对于m是最适宜的。

短寡聚物-使用用于样品扩增的多重特异性引物，从呼吸道病原体微阵列版本1(RPMv.1)(Lin等(2006)使用再测序DNA微阵列的广谱呼吸道病原体鉴定法(Broad-spectrum respiratory tract pathogen identification usingresequencing DNA microarrays).基因组研究(Genome Res)，16，527-535)实验中可获得有关短寡核苷酸杂交的大量数据。因为杂交前没有从样品中除去未使用的引物并且这些引物的大部分位于原型序列内，故有可能研究16-27碱基长度的大量短寡聚物与再测序微阵列的结合。数据集是针对两种多重混合物的，一种混合物含有117种引物(777个实验)并且另一种混合物(906个实验)由作为前述117种引物混合物的子集的66种引物组成。存在从原型序列中可获得的多个探针组，其中所述的探针组与相同引物杂交，不过具有不同数目的可用于杂交的精确配对的碱基(从13个碱基至引物长度或探针长度，即25个碱基)。例如，在引物寡聚物的任意末端处的碱基具有这样的探针组，其可以确定所述碱基的身份，不过仅以13碱基杂交为基础。在该分析中不包括对任何原型序列内的完整原型序列显示优于50％杂交的引物，因为这些引物代表未使用的引物与被掺入靶的扩增子内的引物杂交。从可用的引物寡聚物集合中，对于13-21的每个长度存在约3×10⁵个数据点，对于长度22存在约2×10⁵个数据点，对于长度23存在约1.5×10⁵个数据点并且对于24和25的每个长度存在约7.5×10⁴个数据点。碱基响应由先前研究中所用的GDAS程序设置(Lin等(2006)使用再测序DNA微阵列的广谱呼吸道病原体鉴定法(Broad-spectrum respiratory tract pathogen identification using resequencingDNA microarrays).基因组研究(Genome Res)，16，527-535)进行。

图2显示清晰碱基响应的频率与引物的数量，其中所述的引物可以基于引物GC含量与针对全部引物和两组引物的探针杂交。第一位置具有频率33％，这表明三分之一的仅匹配探针内25个碱基中13个碱基的DNA片段能够特异性及强烈地结合，足以生成独特的碱基响应。当可用于杂交的碱基长度增加时，观察到碱基响应频率增加并且该频率在长度16时达到50％或更高。为进一步理解结合频率，基于多重引物的GC含量，将多重引物杂交的结果分成两组。以GC含量分组，显示引物的结合频率平均值小于50％并且大于或等于50％。对于至多达22的长度而言，这种划分大致使位于下限的样品数目2倍于位于上限的样品数目。当长度从13上升至14时，碱基响应频率的差异最大。对于大于50％的GC含量，从23至25的比率和趋势具有更大的不确定性，因为在这些界限中存在明显更少的探针样品。

为更好理解引物组成的影响，图3显示在基于△G的独立组中具有各种长度的引物，其中所述的△G由nn模型(SantaLucia(1998)聚合物、哑铃和寡核苷酸DNA最邻近热动力学之统一观点(A unified view of polymer，dumbbell，and oligonucleotide DNA nearest-neighbor thermodynamics).美国科学院院刊(Proc.Nail.Acad.Sci.USA)，95，1460-1465；SantaLucia等(2004)DNA结构性基序的热动力学(The thermodynamics of DNA structural motifs).生物物理和生物分子结构年鉴(Annu.Rev.Biophys.Biomol.Struct.)，33，415-440)计算。这些集合(bins)中的某些集合具有极少样品并且那些结果显示更大的不确定性。然而，可以观察到如此趋势，即整体上随着△G降低，频率增加，与长度无关。有趣的特征是当使用一个完全匹配探针和三个错配探针时，高碱基响应频率对于明显短于探针长度(24碱基)的寡聚物长度而言是可能的。仅在阵列上显然具有低碱基响应频率的探针具备长度13和14以及大于-13千卡/摩尔(kcal/mol)的△G。具有低于-16kcal/mol△G的引物平均具备50％或更大机会以杂交并产生碱基响应。

改进的模型概念-来自结合频率趋势的实验证据表明在不考虑任何其它因素时，大于16的长度很可能经常生成解析的碱基响应。对于较短长度，探针的△G在决定解析碱基响应的明显机会是否存在方面是重要的。改进该模型以测定从m＝13的样品中所生成片段的△G。若所述片段的自由能差异低于-14.5kcal/mol临界值，则接受该片段。在片段的自由能差异高于所述临界值的情况下，增加该片段的长度直至该片段的能量低于该临界值或该片段达到探针长度25。随后将所得的片段列表与已经提及的每个探针组比较。

扩增、杂交和序列测定-呼吸道病原体微阵列版本1(RPM v.l)设计和实验方法的细节已经在先前研究工作中加以讨论(Wang等(2006)用再测序微阵列鉴定流感病毒(Identifying Influenza Viruses with Resequencing Microarrays).新发传染病杂志(Emerg Infect Dis)，12，638-646；Lin等(2006)使用再测序DNA微阵列的广谱呼吸道病原体鉴定法(Broad-spectrum respiratory tractpathogen identification using resequencing DNA microarrays).基因组研究(Genome Res)，16，527-535；Davignon等(2005)再测序寡核苷酸微阵列鉴定化脓性链球菌(Streptococcus pyogenes)和相关抗生素耐药性决定因子的用途(Use of resequencing oligonucleotide microarrays for identification ofStreptococcus pyogenes and associated antibiotic resistance determinants).临床微生物学杂志(J Clin Microbiol)，43，5690-5695；Lin等(2007)使用再测序微阵列作为多重呼吸道病原体检测测定法(Using a Resequencing Microarray as aMultiple Respiratory Pathogen Detection Assay).临床微生物学杂志(J ClinMicrobiol)，45(2)，443-452)。把来自含有诊断区域的基因的部分序列平铺(tiled)用于检测这些病原体。使用多重RT-PCR扩增方案从临床样品中获得用于初始引物分析的实验微阵列数据。使用不同的多重方法获得针对引物试验和California系样品的结果(Lin等(2007)临床微生物学杂志(J Clin Microbiol)，45(2)，443-452)。对其余流感病毒样品使用随机方法(Wang等，(2006)新发传染病杂志(Emerg Infect Dis)，12，638-646)。使用GCOS^TM软件1.3版(昂飞公司，圣克拉拉，加利福尼亚(Affymetrix Inc.，Santa Clara，CA))来确定探针的强度并且使用GDAS软件3.0.2.8版(Affymetrix Inc.，Santa Clara，CA)产生碱基响应。

实例1：预测引物干扰--所述模型算法的第一试验用途是理解出现在使用新引物组的带空白样品(不添加核酸)的42个微阵列实验中的碱基响应，其中所述的新引物尽量使引物与原型序列的相互作用最小化。由于各引物仍然存在，故它们作为样品序列集合受到处理并且使用所述模型针对位于芯片上的每个原型序列进行测试。所述模型准确地预测到在实验中出现的来自引物的碱基响应，其中所述的引物仍位于原型序列上。也观察到对原型序列的中心处位置的额外结合且其与实验结果符合。针对密切相关性生物的原型序列所设计的引物引起这些碱基响应。例如，腺病毒4El A基因原型序列使得20个预测碱基中19个预测碱基在97％时间上响应，其中所述的19个预测碱基距离该序列的起点393个碱基。预测在该区域边缘处作为单核苷酸多态性(SNP)的一个碱基将响应，但是在实验中仅在12％时间上观察到响应。与其它原型序列比较时，该区域是针对腺病毒7El A原型区域所选择的引物区域的配对物。对由该模型所预测的其余47个区域观察到类似的符合性。

实例2：对长序列的模型预测-在成功证实该模型在较短片段上的准确性之后，检验了对完整原型序列的预测。表1中报告在所述模型中使用常规测序样品的结果，其中所述的结果与实验性微阵列结果就4个数据集进行比较；流感病毒A/H3N2类福建(Fujian)系、流感病毒A/H3N2类加利福尼亚系、流感病毒B山县/16/88(Yamagata/16/88)系和流感病毒B维多利亚/2/87(Victoria/2/87)。该结果报告了例如对流感病毒A/H3N2类Fujian样品具有巨大相似性的样品的一般水平，所述试验的平均碱基响应率是85％，而模型预测平均是97％。原型与常规序列之间的平均SNP数是9.8(1％)。尽管模型预测将解析9.2个SNP，在实验中仅观察到6.3个SNP。模型预测到8.8个N响应，而实验对其具有特异性碱基响应，并且微阵列具有94.9个N响应，而模型对其预测应当是特异性碱基响应。因此平均而言，在模型和微阵列结果之间匹配14.3个N响应。

表1-针对可以基于谱系分在独立组内的流感病毒血凝素基因的平均模型结果和实验性微阵列结果的汇总。

*括号内的数字是相对于常规结果的偏差数目

表2显示来自类Fujian系样品的一个特定分离株(鉴定为A/尼泊尔/1727/2004(A/Nepal/1727/2004))。在微阵列上解析出6个SNP中每个SNP的位置，并且在长25碱基窗口中称作N的额外碱基的数目以所述SNP为中心。总碱基响应率对于所述模型是97.4％并且对于微阵列是88.4％。使用该信息对N响应分组，46个N响应与SNP密切相关，而29个N响应均匀地遍及微阵列分布并且大多由所解析碱基包围的单一N响应或两个连续N响应的若干事件或在三碱基组中的两个N响应组成。在比较常规序列和原型序列时，样品总计具有8个SNP，并且在微阵列上没有鉴定出的两个SNP均位于所鉴定的其它SNP附近。模型和微阵列在位于7个不同SNP附近的12个N响应上符合，不过模型中预测到的在SNP附近的另外6个N响应在实验中被解析并且因此代表在模型中的偏差。

表2-与FluAHA3原型序列比较的流感病毒A株的SNP的位置

位置	靶碱基	实际碱基	局部区域内的N响应(芯片)	局部区域内的N响应(模型)
					99	G	A	10	1
313	G	A	8	1
					352	A	C	10	8
393	A	T	2	3
					483	G	A	5	0
593	G	A	8	3
					596	T	C	8	3
698	C	A	3	4

对于流感病毒A/H3N2类California系样品而言，原型序列与样品序列相差达1.5％，而对于流感病毒B Yamagata/16/88系样品而言相差达3.7％，以及对于流感病毒B Victoria/2/87系样品而言相差达9.8％。这些结果与第一组样品也不同，其原因是在常规测序与微阵列碱基响应之间存在除N响应之外的偏差。在与流感病毒A/H3N2类Fujian系相同的方法下处理的流感病毒B样品具有1个(Yamagata系)和4个(Victoria系)碱基响应差异。这些碱基响应均出现在距离含所解析众多碱基响应的任何区域至少3个N响应的区域中，并且所述模型在这些位置预测到N碱基响应。流感病毒A/H3N2类California样品采用不同方法，并且尽管所述偏差在其附近具有众多N响应，然而它们不是始终如一地以至少3个N响应将所述偏差与含所解析众多碱基的区域隔开。这种在碱基响应上99.87％的准确度是从单一微阵列实验中确定碱基响应时可预期的合理误差。

该模型对预测与原型序列相异1％-4％的样品的碱基响应百分数具有相似表现并且在差异增加到约10％时似乎具有略微更好的符合性。然而，整体碱基响应百分数可以是模型性能的误导性指标。N响应可以分成三组；在模型中预测到而未观察到的N响应、观察到而未预测到的N响应和既观察到且预测到的N响应。检验这种趋势后，对于接受相同方法处理的三个样品组可以看到当变异量从1％增加至10％时，与观察到的N响应匹配的预测N响应增加至最大量，这反映所述模型是准确的。观察到而未预测到的N响应保持大致稳定。在模型中产生而在芯片上作为所解析碱基响应的N响应也增加。在10％上观察到的碱基响应百分数的改良符合性因整体碱基响应增加引起。整体而言，另一种流感病毒A/H3N2样品以与其余数据集相似的方式作出反应并且在一些细节上的差异可能反映所用方法的差异。即便该模型在SNP更频繁地出现时不如以往那样准确，然而正确地鉴定到具有较低频率的区域并且这些区域是在我们现有的病原体鉴定分析中所用的区域。图4显示来自相异达10％的流感病毒B样品的一个部分。一些特点(如大段的N响应或解析响应)存在于全部样品组中。来自这些区域的碱基响应最常用于分析程序CIBSI v.2中。图4的B区域代表在预测的N响应区域中散在的碱基响应并且存在于具有4％或更高变异的样品组中。图4中的C区域类似于B区域，除了在这种情况下在该区域中实验方式解析的众多碱基响应被预测为N。仅在具有10％变异的样品中观察到这种类型的响应。

当使用来自基因组序列数据库的代表性序列而不是样品的常规测序结果时，该模型可以用来理解生物的特点。实例是使用流感病毒A/波多黎各/8/34(A/Puerto Rico/8/34)株在微阵列上作为测试中的示踪物，并且所述的实验仅在神经氨酸酶和基质蛋白原型序列上具有明显的碱基响应率。这与模型模拟相一致，其中所述的模型模拟正确地鉴定到在这两种原型序列中将生成明显碱基响应的区域并且预测因流感病毒A/Puerto Rico/8/34株与原型序列之间的差异，微小数目的碱基响应将出现在血凝素原型序列中。

使用充分定义的短寡聚物探针检验再测序微阵列探针组的庞大集合已经清楚地证实仅具有16个连续互补性碱基的短片段可以在显著时间分量上产生准确的碱基鉴别。这种杂交不依赖于GC含量或计算的△G，并且当GC含量或△G有利时，短至13个碱基的节段将产生响应。当假定特异性结合仅需要13个完全匹配性连续碱基时，在本研究中开发的用于预测杂交模式的简单模型与所观察的实验结果具有优异的符合性。更好的符合性通过还要求结合性片段△G的预测大小应当满足最低大小要求而达到。对于再测序微阵列的意义是伴随所得的核苷酸碱基响应，这样的片段出现明显量的特异性杂交，其中所述片段与探针具有少于25碱基的一个完全匹配。对引物的测试显示在高度多重的系统中难以消除引物与原型序列的全部潜在性交叉杂交。然而，因为可以预测在微阵列上的探针-靶杂交，故在分析结果时，对交叉杂交效应的解释简洁明了并且不需要实质地消除交叉杂交。该模型表现得相当好，尤其对于推动其开发的应用而言，并且该模型提供对这种检测方法为何在复杂混合物中奏效的理解。这应当适用于预测其它微阵列(如Affymetrix作图阵列和基因分型阵列)的响应，其中所述的其它微阵列使用完全匹配-错配探针组，以不同标准来选择探针组。

当考察流感病毒B样品时，显而易见在需要13个连续互补性碱基用于杂交时，可能丢失一些可与探针潜在结合的片段。证据也提示含有一个如此错配的片段可以产生碱基响应，其中所述的错配具有极强的结合能。然而，目前可获得的很少流感病毒B样品不可能试图确立片段在其含有错配时必须具有何种能量。该模型的另一个缺点涉及它不能预测与SNP不密切相关的N响应。实验性微阵列结果仅提供每个样品的一个微阵列结果。因此，不能确定散在的N响应是重复出现还或随机出现，因为众多因素可能影响这种响应。消除了模型中作为主导因素的自身环结构形成，原因是自身环结构的掺入不导致预测与所观察实验模式匹配。

当前模型可以用来预测对于目的病原体而言足量碱基响应是否将出现在所选的原型序列中，以使用分析程序CIBSI V2.0(Malanoski等(2006)从再测序DNA微阵列中自动化鉴定多种微生物(Automated identification of multiplemicroorganisms from resequencing DNA microarrays).核酸研究(Nucleic AcidsRes).，34，5300-5311)进行鉴定。可以形成这样的经验法则，即与探针序列相异大于80％的序列少有这样的情况，其中足够匹配性碱基呈连续以产生明显数量的碱基响应，并且该序列将绝不因我们的方法而形成生物鉴定。这有效地快速估计了探针序列可以检测到的最大参考株数的上界。所开发的模型可以适用于处在该范围内的序列以更准确地预测可以检测哪种生物并预测原型序列的性能。

建模的结果可以用于选择在微阵列上包含的原型。整体设计过程可以在用于生物威胁因子特异性和地区(例如非洲)生物特异性微阵列的下一个微阵列设计中实行。对来自生物的区域的确定可以单纯是或可以不单纯是文献检索。文献检索仍是对于较大基因组靶的重要工具，但对于具有较小基因组的病毒生物可能是不必要的。适用于任何设计的生物检测方法学设计可以表征为一系列步骤：第一，序列列表将包括靶序列和来自近缘遗传邻居的任何序列，从而可以检验它们与参考序列杂交的效果。对杂交的总体预测可以从匹配比对方法(BLAST)的碱基百分数中获得。通过使用在常提供最小可用杂交程序的百分数以下的临界值标准，有可能从BLAST询问中构建可以潜在杂交于不同区域中的序列的列表。这个序列列表将包括靶序列和来自近缘遗传邻居的任何序列，从而可以检验它们与参考序列杂交的效果。第二，通过将序列选择与分类学信息联合，每个区域可以就以下方面进行评估，即所述区域是否可以产生想要的鉴别水平以及是否将检测仅限于或不限于想要的靶。这将提供参考序列可以有效检测的可能生物数量的最接近上限。第三，此后，使用上述方法确定最佳候选区域。第四，产生可以检测到每个株的株数列表并将其用作选择参考株的标准。第五，将检测到最多其它株的株从该列表中移出并用作第一参考株。从该列表中也移出由第一参考株能够检测到的全部株。在剩下的株中，选择检测到最多其它株的株作为下一个参考株。在一般方式中，并非限定仅用靶标与序列比较，需要被检测的每个序列作为潜在的参考序列受到测试。将从使用BLAST的询问中获得可以由所述每个序列潜在鉴定到的其它生物序列，以确定该序列的哪个子集具有杂交机会。该子集用更详细的模型模拟以预测杂交。使用开发意在对真实芯片上的杂交分类的检测算法而非先前所用更简单标准评估所得的杂交。对于每个潜在的参考序列，现在可以建立分别可检测到的靶序列数目和非靶序列数目的改良上界。随后对所用参考序列的选择将以如此方式进行，从而使用最小空间来提供所需的鉴别水平。在已经选择序列后，随后进行引物选择。

该方法可以具有以下特点。该方法不单纯依赖文献来决定参考序列的选择，因为文献可能自发表后因添加新的生物序列而过时。所述设计方案提供了在实施制造之前对所选参考序列有效度的独立检验。这种独立检验可以改进所选的参考序列，基于先前芯片设计的性能，这仅在微阵列设计之间是可能的。本方法可以确定最小参考序列列表，其可以提供指定的鉴别水平，无需先行验证。所述方法可以提供靶基因选择的自动化过程并且缩短芯片设计的周转时间。

在已经描述本发明后，给出以下具体实施例以说明本发明的具体应用。这些具体实施例不意在限制本申请中所述的本发明范围。

实施例1

具有短序列的假设实施例-下文使用人工短序列说明所披露的方法，其中所述的人工短序列将不对应于任何具体的真实物种。需要制造用于检测物种A、B、C、D和E的再测序微阵列。如本文中所用，“物种”可以指分类学物种及单一物种的不同型(type)或株(strain)以及它们的组合。已知标称靶1(图5)存在于这些物种至少之一的基因组中。使用数据库如BLAST进行相似性序列搜索以产生靶列表。最小相似性百分数(例如70％)可以用来滤除结果。若过多靶或来自过多物种(如遗传远缘物种)的靶被报道，则可以提高最小相似性百分数以缩小列表的大小。另外，可以手工检查所述列表以除去特定的不利靶。

图5显示靶10-40的假设列表(参考编号范围如“10-40”仅包括这种形式的数字，而非从10到40的每个数字)。将这个靶列表提供给计算机系统，所述计算机系统可以是用来产生所述列表的同一台计算机。所述列表和随后描述的全部数据在本实施例中至少直至装配碱基响应序列时存储在计算机存储器或存储介质中。本实施例中的候选原型序列100-400列表与靶10-40列表相同，尽管这不作要求。

图6显示从候选原型序列100-400衍生的假设探针集合111-434。选择探针的子序列长度是7，尽管可以使用其它值。探针111-134从候选原型100等中衍生。探针111是候选原型100的头7个碱基。探针112-114是探针111在中央位置处的单核苷酸多态性。探针111-114构成一个探针组。探针121和131也是候选原型100的7碱基子序列，每个子序列向右移动一个碱基。因此，候选原型100的全部三种可能的7碱基子序列均位于探针集合中。探针122-124和132-134分别是探针121和131的单核苷酸多态性。

图7显示从靶10-40衍生的片段11-46的假设列表。选择片段长度是4，尽管可以使用其它值。因此，具有长度9的靶具有6种可能片段。还显示延伸片段11′-46′的列表，其中所述的延伸片段含有一些原始片段和通过添加来自所述靶的额外碱基而产生的一些片段。通过计算每个片段与该片段的完全互补性序列的结合自由能而产生延伸片段。若对某片段的结合自由能高于预定的固定阈值，则将该片段一次延伸一个核苷酸直至所述结合自由能低于该阈值或该片段与所述探针等长。

一种计算结合自由能的合适方法是寡核苷酸最近邻模型，尽管可以使用其它方法。随昂飞(Affymetrix)再测序阵列使用的合适结合自由能阈值是约-14.5kcal/mol，尽管可以使用其它值(因为该实施例是说明性的，故没有对该实施例进行实际计算)。

图8显示探针与延伸片段之间的全部完全匹配物。从111、131、211、221、231、321、411和421开始的探针组仅含有匹配任何延伸片段的一个探针。当装配碱基响应序列时，这些探针组产生与所述组的第一(非多态性)探针的中央碱基相同的碱基响应。从121、311、331和431开始的探针组含有匹配任何延伸片段的多于一个的探针。将非碱基响应(“N”)赋予这些探针组。若存在无匹配的任何探针组，则也赋予这些探针组为非碱基响应。在图9中显示针对每个候选原型序列的碱基响应序列以及从候选原型序列中衍生的探针组。

图10显示每个候选原型的匹配性生物列表。被检验的生物含有相应的候选原型。这可以通过参考外部数据库加以确定。选择最小碱基响应数是2，尽管可以使用较大数目，如50。同样，不需要对候选原型300产生匹配性生物列表，因为候选原型300的碱基响应序列(NGN)仅含有一个碱基响应。当候选原型300匹配绝大多数生物时，情况是这样。候选原型400匹配绝大多数生物(A、B和E)。将候选原型400添加至最终原型列表中并从候选原型列表中移出。A、B和E从所述生物列表中移出。在此时，候选原型100匹配剩余生物中的两种(C和D)，而候选原型200仅匹配一种生物(C)。将候选原型100添加至最终原型列表中并从候选原型列表中移出。将C和D从所述生物列表中移出。由于所述生物列表现在是空的，故没有更多的原型被移至最终原型列表中。

可以制造含有与每个最终原型序列相对应的每个探针组的再测序微阵列。这里，所述微阵列将含有探针111、112、113、114、121、122、123、124、131、132、133、134、411、412、413、414、421、422、423、424、431、432、433和434。该探针组将检测每种生物，即便该探针不检测每个靶。所述微阵列也可以含有与这些探针中每个探针互补的序列。

该实施例基于单一的标称靶，但是可以使用多于一个的标称靶。靶序列可以与生物的子集中共有的单一基因相对应，并且所述生物列表可以包含单一物种的多个株。若所得的最终原型列表不能检测全部生物，则可以用不同参数(如靶、候选原型、探针长度、片段长度和最小碱基响应数目)重复所述方法或其部分。

实施例2

肠病毒和腺病毒-使用肠病毒和腺病毒作为生物列表实行所述方法。最终原型序列确定为SEQ ID NOS：14-51。产生了含有从这些原型中生成的探针组的再测序微阵列并且命名为RPMv.3。

显然，在上文教授内容的影响下有可能产生本发明的众多修改和变异。因此将理解的是可以实施所要求保护的发明，除非具体说明。对单数形式(使用冠词“a”、“an”、“the”或“所述”)的权利要求要素的任何称谓不得解释为将该要素限于单数。

Claims

1.一种计算机执行的方法，其包括：

提供与生物列表中一种或多种生物相关的靶序列列表；

提供疑似与一个或多个所述靶序列杂交的候选原型序列列表；

生成与每个候选原型序列相对应的探针集合，每个探针集合包含针对每个子序列的探针组，所述的子序列具有相应候选原型序列的预定、固定的子序列长度，所述探针组由相应子序列和通过变动相应子序列的中央核苷酸所形成的相应子序列的每一变异组成；

生成与每个靶序列相对应的片段组，每一片段组包含具有相应靶序列的预定、固定片段长度的每个片段；

计算每个片段与该片段的完全互补性序列的结合自由能，并且若任何结合自由能高于预定的固定阈值，则将该片段一次延伸一个核苷酸直至所述结合自由能低于该阈值或该片段与所述探针等长，生成延伸片段组；和

确定哪个延伸片段是针对任意探针的完全匹配物；和

装配与每个候选原型序列相对应的碱基响应序列，包含：

与相应原型序列的每个探针的中央核苷酸相对应的碱基响应，其中所述的探针是针对任何延伸片段的完全匹配物，但对于该碱基响应而言，含有所述完全匹配探针的该探针组的其余成员不是针对任何延伸片段的完全匹配物；和

在全部其它环境下的非碱基响应；

针对每个候选原型序列生成含有该候选原型序列的匹配性生物列表，其中，与该候选原型序列相对应的碱基响应序列包含固定的最小碱基响应数；

将与匹配性生物最长列表相对应的候选原型序列移至最终原型序列列表；

从所述生物列表中消除与所移动原型序列相对应的匹配性生物；并且

重复所述的移动及消除过程直至所述生物列表为空；

制造含有与每个最终原型序列相对应的每个探针组的再测序微阵列。

2.根据权利要求1所述的方法，其中，所述靶序列的子集对应于所述生物的子集共有的单一基因。

3.根据权利要求1所述的方法，其中，所述生物列表包含单一物种的多个株。

4.根据权利要求1所述的方法，该方法还包括：

选择已知在所述生物至少之一中存在的标称靶序列；

针对已知序列的数据库进行相似性搜索以添加与标称靶序列具有至少预定相似性程度的额外靶序列；和

生成与靶序列列表相同的候选原型序列列表。

5.根据权利要求1所述的方法，其中，所述的子序列长度是25。

6.根据权利要求1所述的方法，其中，所述的片段长度是13。

7.根据权利要求1所述的方法，其中，所述的结合自由能根据寡核苷酸最近邻模型计算。

8.根据权利要求1所述的方法，其中，所述的结合自由能阈值是约-14.5kcal/mol。

9.根据权利要求1所述的方法，其中，最小碱基响应数是50。

10.根据权利要求1所述的方法，其中，制造所述的微阵列还包含使微阵列上含有与每个探针互补的序列。