CN101133164A

CN101133164A - 再测序病原菌微阵列

Info

Publication number: CN101133164A
Application number: CNA2005800296423A
Authority: CN
Inventors: 布赖恩·艾格; 埃里克·H·汉森; 拉塞尔·P·克鲁泽洛克; 林宝钏; 罗伯·罗利; 司徒登; 大卫·斯坦杰; 詹尼弗·约翰逊; 克拉克·蒂贝特斯; 德宗·撒奇; 加里·沃拉; 伊丽莎白·沃特; 王征
Original assignee: Government Of United States, As Represented By Secretary O
Current assignee: Government Of United States, As Represented By Secretary O; US Department of Navy
Priority date: 2004-07-02
Filing date: 2005-07-05
Publication date: 2008-02-27
Anticipated expiration: 2025-07-05
Also published as: JP2011200250A; WO2006088493A3; CN101133164B; US20120035857A1; EP2383670A1; EP1778881A2; JP5517996B2; US9430610B2; WO2006088493A8; WO2006088493A2; US8032310B2; CA2823727A1; SG156616A1; JP2011204261A; CA2572617C; NZ579206A; CN103224942A; EP1778881A4; US20060210967A1; AU2005327520B2

Abstract

本发明是关于通过采用DNA再测序微阵列进行病原菌探测和鉴别的方法。本发明也提供了再测序微阵列芯片，用于生物样本中存在的病原菌的区分诊断和血清类型分类。本发明进一步提供了探测生物样本中存在病原菌和鉴别病原菌的方法。本发明也提供了计算机实施生物序列辨识器(CIBSI)系统和依据至少一种筛选参数从生物序列数据中筛选子序列的方法。至少一种筛选参数对应从类似的筛选中获得有意义结果的一种可能性。

Description

再测序病原菌微阵列

相关申请

本发明要求了2004年7月2日提出的美国临时申请第60/590,931号，2004年9月15日提出的美国临时申请第60/609,918号，2004年11月29日提出的美国临时申请第60/631,437号，2004年11月29日提出的美国临时申请第60/631,460号和2005年6月16日提出的美国临时申请第60/691,768号的优先权。

联邦资助项目声明

根据来自国防威胁降低局(DTRA；Interagency Cost ReimbursementOrder(IACRO#02-4118)，MIPR numbers 01-2817，02-2292，02-2219，和02-2887)，美国空军军医长办公室(HQ USAF SGR；MIPR NumbersNMIPR035203650、NMIPRONMIPRO35203881、NMIPRONMIPRO35203881)、美陆军医学研究(Contract #DAMD17-03-2-0089)，国防高级研究计划局(DARPA；MIPR NumberM189/02)，和美国海军研究总署(NRL Work Unit 6456)的基金，美国政府拥有本发明的权益。

序列列表

本申请包括附属光盘上序列列表，该光盘含有文件名为NC97416.txt，2005年7月15日生产，容量大小639KB，和另外标记：

申请人：美利坚合众国政府，由海军部长所代表

题目为：再测序病原菌微阵列

文件引用号：NC 97,416

附属光盘的全部内容通过在此引述而合并于本申请中。

技术领域

本发明提供了采用DNA再测序微阵列进行病原菌检测。优选，本发明提供了多个病原菌的同时测定方法。本发明也提供了再测序微阵列和区分诊断用的微阵列芯片和生物样本中紧密相关病原菌间的细微区别。本发明进一步提供了检测生物样本中病原菌的存在和识别的方法。本发明能够诊断和监视已知病原菌序列和由于未预期序列突变而被确定的病原菌，以及这种病原菌的混合物。联合一些扩增策略，再测序允许同时临床诊断和血清类型分类的传统监测试验、抗生素耐药性、遗传漂变/遗传漂移分析、法医、和生物恐怖事件的快速探测。

本发明也是关于多种自动筛选体系，该体系包括采用可供选择的生成核酸或蛋白序列的任意方法自动子序列筛选体系。该系统适用于自动筛选由再测序DNA微阵列获得的不完全核苷酸序列数据的子序列，依据系统预先确定的参数或使用者确定的参数，采用一种或一种以上相似性搜索算法来筛选最适于对比预先确定数据库序列收集的序列子集。本发明的实施方案也能够进一步分析和表达由一种或一种以上子序列提交的相似搜索得到的相关结果。这里描述的本发明的主题分辨序列标记的组合，该序列标记组合源于多个序列靶点(例如，微生物)的混合或源于单个靶点内序列的重排。基于DNA微阵列的相对信号强度值，本方法的实施方案也能分配相对丰富的混合靶点序列。此外，本发明的一种主题为采用“原型”序列块表达相关靶点序列(例如，病原菌)的范围，设计再测序DNA微阵列的迭代程序的完整组成组分。

背景技术

由于我们正在经历人类基因组工程的生物技术时代，已经将额外费用投入到发展获得和分析序列信息的高产量方法学中。为了满足这种需要，多功能DNA微阵列平台已经拥有导致应用方法中应用爆发性增长的显著名声。

更重要的，世界事件的发展和主流社会中生物恐怖行动的出现已经引起科学团体增长的情绪并且使人们必须发展用于鉴别和清除生物威胁的新颖、快速并准确的技术。用于广谱病原菌鉴别的微阵列的概念对医疗实践和国家防御都具有相当大的和显而易见的吸引力。在这个构架中，本发明者已经做出了努力。

迄今，通常依赖于微阵列表面上的固定“探针”DNA序列与互补基因组“靶点”的杂交能力来实现鉴别病原菌的目的，该互补基因组“靶点”独一无二鉴别特殊种类或特异性细菌病原菌。针对该目的已经发展了不同的微阵列技术，这些技术在探针密度和试验完成需要的时间范围上有所不同。

由于在获得具有足够量病原菌核酸样本中的困难，产生了用微阵列进行病原菌检测的技术挑战。因此，对于大部分样本类型，某些种类的靶点扩增将有可能需要提供用于经微阵列杂交进行检测的病原菌基因标记的足够拷贝。不幸的是，扩增的惯常方法与放置于微阵列芯片上的探针数量相比标度不好。然而，提供足够量的基因组靶点检测杂交的更普遍采用的方式依赖于基因型鉴定方法，该基因型鉴定方法利用分子生物学技术，例如聚合酶链反应(PCR)。这些技术比惯常微生物学方法具有一些潜在优势。核酸扩增策略病原菌鉴定基于有机体内的基因信息的检测，例如不需要培养有机体。

尽管PCR测试灵敏、准确并且快速，这些方法也带来新的问题。成功的鉴定完全依赖于适当的选择引物，如PCR测试要求假设靶点有机物固有的精确序列。因此，迫切需要先进的诊断体系以检测假定的和不可预料的病原菌序列。DNA微阵列能够查询数千个遗传因素，处理该紧要的需求。术语“微阵列”统指一类在单个位点具有高度复制能力(10²到10⁶)的平面底物或固体瓷球，每一种核酸探针设计用于选择性地捕获互补链的靶点(例如病原菌或宿主)核酸。

然而，文库内描述的大部分病原菌鉴定微阵列采用寡核苷酸制备得到，该寡核苷酸被机械设备控制点样于衍生的玻璃表面上(一般为3x1英寸载波片)。这种方法使得寡核苷酸的尺寸具有最大的灵活度，该寡核苷酸被沉淀下来，范围从20-mers到几千个碱基对(bp)的cDNA PCR产物。无一例外，检测结果为在具有荧光团标记的靶点核酸的杂交之后污点产生的加强的荧光。

Argonne国家实验室(DOE，USA)和Engelhard分子生物学研究所在Andrei Mirzabekov领导下共同努力已经使固定在丙烯酰胺衬垫内的短寡核苷酸(14-25mer)广泛用于与病原菌鉴定中(参见Strizhkov et al.，2000；Vasiliskov et al.，1999)。此外，低密度微阵列(几百个3x1英寸载波片)已经用于抗药物决定因素的确定(参见Volokhov et al.，2003)。该工作主要部分的一个不同方面是使用了探针固定的三维聚合物矩阵代替二维平面。

目前，Cherkasova等人描述了玻璃固定短寡核苷酸点样微阵列，使用重叠14-25mer探针来描绘脊髓灰质炎病毒突变(Cherkasova et al.，2003)。这种方法的两个改变已经进行使用：(1)再测序微阵列和序列异质性(MARSH)试验，和(2)病毒重组的微阵列分析(MAVR)试验。MARSH使用了一组重叠的单个基因序列(半长度)核苷酸探针。杂交方式使得单点突变或取代或缺失成为半个探针长(如，7-10bp)解决方法而不考虑位点的准确检测或不变的性质。因此，惯常的DNA测序技术后来一定被用于检测这些改变。MAVR使用以150nt间距覆盖整个基因组的有机体-特异性寡核苷酸探针并且用于检测大规模遗传重组。

UCSF的DeRisi组开拓了使用长(70-mer)寡核苷酸探针微阵列用于光谱病原菌鉴定(Wang et al.，2002；Wang et al.，2003)的方法。长(70nt)寡核苷酸的使用具有绝对优势和劣势。一种优势是相对于较短探针(例如，7-10)而言通常能由70-mer探针得到更高程度的灵敏性。然而，因为70-mer靶点/探针杂交一般对显著性数量的单碱基不匹配不灵敏而减少了特异性，然而，较短探针提供了更大的序列特异性。

DeRisi′s工作组描述使用具有1,600个不同的70-mer寡核苷酸探针的点样微阵列来鉴定引发普通呼吸感染的多种病毒(Wang et al.，2002)。采用算法定位于已知病毒基因组列表中的鉴别序列，为每个病原菌选择的探针。先前描述的方法和后来PCR/Klenow片断基扩增的一系列组合被用于获得病毒KNA和DNA的无偏扩增，生成足够量的成功微阵列杂交的靶点扩增子并且经荧光标记检测。(N.B.这个草案被置于DeRisi实验室网址的公共领域中(http://derisilab.ucsf.edu)′)。为得到结果进行样本准备需要的时间约24个小时。因为确定序列信息从这个阵列得不到，病原菌鉴定是以杂交方式为基础的，杂交方式能凭经验确定每个或每一株病原菌。在同一研究组的相关报告中(Wang et al.，2003)，采用高度保守序列制备类似微阵列努力从样本中捕获尽可能多的微生物种类。随后从微阵列中物理除去病原菌序列，克隆该序列并使用惯常DNA测序技术进行测序。在DeRisi研究组的工作中没有提供临床样本中病原菌检测的分析/临床灵敏性或特异性的测量。

相对于上面提到的使用点样微阵列的方法，Affymetrix，Inc.(SantaClara，CA)使用高度密度探针制备技术在被测序的每个核苷酸碱基的正义和反义方向采用4个探针来构建″拼接″微阵列。因此，单碱基取代通过杂交模式直接被检测出(额外信息参见Affymetrix CustomSeq design manual)。一些工作组描述可使用病原菌基因型拼接微阵列。(Kozal et al.，1996)利用这种类型的微阵列测量HIV内突变漂移，而Gingeras等人(Gingeras et al.，1998；Troesch et al.，1999)使用65,000低聚物探针的tiled阵列进行再测序并精确鉴定27个分枝杆菌的70个临床分离物和15个耐利福平结核分枝杆菌株。目前，Andersen等人(Wilson et al.，2002b)描述了使用tiledAffymetrix微阵列鉴定生化战试剂。他们的方法完全依赖于实施特异性PCR反应的使用同时生成微阵列杂交用的足够病原菌靶点DNA。在所有上述列出的情况中，特异性PCR引物用于在微阵列杂交之前扩增DNA靶点，通过使用保守引物位点，在多井格式中执行～150个不同PCR反应并且共有扩增子。

美国专利6,228,575 B1描述了如Gingeras(Gingeras et al.，1998)和Troesch(Troesch et al.，1999)描述的相同的数据。在该专利中，靶点病原菌序列被拼接到阵列中。因为病原菌序列中的一些类型的变异(esp.插入/缺失或频繁多重取代)能扰动杂交模式，Gingeras等人使用特异性病原菌杂交模式的不同测量方法来鉴定单个分枝杆菌变异体。那就是说，鉴定需要杂交模式的先验知识，该杂交模式在陆地实测试验中被经验确定出。

如同上面阐述的，迫切需求先进的诊断系统来探测抑制和病原菌基因组序列以及这些序列的变异。更特殊的是，迫切需要快速可信的DNA微阵列技术，而且此微阵列技术没有迄今已经被采用的PCR方法的系统偏差。

生物学与工程和计算机科学的融合导致生物技术和生物信息学的出现，其目的之一在于迅速获得和分析疾病诊断用的基因组和蛋白质组序列信息。这种方法的实验活性和普遍可用性主要基于DNA微阵列的出现(Stenger et al.，2002)。

一般来说，微阵列制备应用微处理器制造业的方法来制备能迅速可信鉴定生物样本中的DNA序列或蛋白质的“基因芯片”。术语“微阵列”统指任意类型的平面底物或可供选择的矩阵，在单个位点具有高度复制能力(10²到10⁶)，每个存在的探针(固定核酸或抗体)被设计选择性捕获溶液中互补链的靶点(例如，基因或基因转录)分析物。经设计，DNA微阵列能同时审查几千个基因或基因转录因素。

在使用再测序DNA微阵列进行遗传分析中，含有扩增和荧光标记遗传靶点的溶液经过微阵列，该微阵列由大量“拼接”格式的寡核苷酸探针组成(Kozal et al.，1996)。样本中的互补序列结合相应的微阵列上含有的探针。然后，使用如激光扫描仪分析微阵列，该激光扫描仪记录微阵列探针光发射强度。然后，采用用于生成“碱基响应”的阵列特异性软件分析被记录的强度，阵列特异性软件为描述鉴定生物样本中核酸(腺嘌呤；A，胸腺嘧啶；T，胞核嘧啶；C，或鸟嘌呤；G)某种程度的概率确定性序列的计算方法。广泛IUPAC定义代码也用于描述了不准确地碱基响应(参见，2004年7月2日提出的美国临时申请序列号60/590,931题目为“再测序病原菌微阵列”，补充资料，Appendix J″gdas_manual.pdf page 255)。如果靶点序列与再测序序列的适宜拼接区域充分一致(每25个碱基有小于1-2个碱基取代)，那么靶点的全部再测序是有可能的。然而，当靶点序列包含插入、缺失或碱基取代在靶点序列每25个碱基大于2个取代次数时，拼接区域的杂交被中断。“无[碱基]响应”的结果由微阵列拼接区域上的相应序列中得到。当溶液中靶点核酸浓度低或当存在干扰水平的杂交溶液中竞争底物核酸时，也导致N响应。不完全生物序列信息也能由许多其他核酸或蛋白质序列技术产生。

再测序的主要应用是为了检测低概率单核苷酸多态性(SNPs)或靶点序列限制范围内的突变。然而，尽管在工业中目前没有惯用的实施方法，微阵列序列输出也能与序列数据库对比来鉴定靶点序列。目前使用的序列数据的最普遍比对方法，或类似性搜索算法为基本的局部比对搜索工具，普遍以″BLAST.″著称并且这里统称为″BLAST.″。它存在许多变体，包括华盛顿大学BLAST(WU-BLAST)、NCBI-BLAST、FASTA、MPsrch、Scanps、和BestFit(Korf，Yandell&Bedell，2003)。依据测试样本包括已知序列的匹配生物主体的确定性，一般这种比对产生许多可能匹配(概率性测量)。微阵列密度分析序列产量经常与包括生物主体的已知序列进行比对，该生物主体包括病原菌微生物。然而，本发明技术领域中的普通技术人员不能从视觉上确定拼接区域中的最好序列部分，该拼接区域包含经过改变无响应(N)的数量介入和在一些情况下受支配的A、C、T和G碱基响应。

用于遗传测序和鉴定用微阵列预期提高了一种研究者从生物样本中提取大量序列数据比对大量先前测序的有机体和生物质的能力。然而，研究者不能利用有效时间信息。对研究者因过度等待时间提交的比对样本序列，模糊结果也是令人困惑的难题并且差结果与尝试匹配模糊结果相关。因此，对研究者来说从序列比对中获得更相关结果的广泛使用的方法是分析搜索子序列的序列输出，该子序列具有获得相关结果的较高概率。特别的，许多研究者经常发现自己手动并主观筛选，或视觉分析某些子序列，与序列数据库中子序列比对。结果，研究者消耗了时间和资源提交的类似性搜索是相对缓慢并且主观优化的序列数据。因此，上面提到的资源利用问题的目前解决方案导致了研究者要求的额外时间和资源要求必备的条件。此外，如同目前解决方案具有主观性以及时间密集型的，促进基因组研究发展(或加速)的净收益至多是不确定的。

然而，如同上面提到的，已知生物序列的巨大储存库通常包含在共享计算资源中。这些共享计算资源要求大量数据存储能力，以及具有与数据库中序列比对提交序列的强大工具。由于研究者生成的大量序列数据改善了一般研究使用的微阵列并增强了其可用性，主要任务在于利用宽带共享数据库(和相关系统)并且处理要求显著性提高了。换句话说，广泛使用微阵列可能得到的数据增加通常导致更难有效利用共享生物信息计算资源。

例如，如果提交的序列含有大百分比的不确定序列数据，序列数据库计算资源将设法找出与固有的不确定序列相匹配的序列，导致所有低确定性的可能类似性搜索结果。图10(a)为说明目前可能采用工业可用方法执行工艺的示范流程图。在这个实施例中，采用类似性搜索109，提交对应于主体序列的核苷酸或氨基酸序列数据103与已知序列数据库进行比对。

当与数据库记录比对时提交序列103，109可能或不可能获得统计学显著或有意义结果。因此，经定义，使用大量确定类似性算法中的任何一种，采用“比对”方法对序列记录数据库执行查询序列的类似性搜索(例如BLAST)。上述“可比”序列与至少数据库中的一种序列具有足够程度的类似得到至少一种统计学上显著性结果(使用者定义)。对终端用户来说，视觉鉴定和选择连续性核苷酸碱基响应(仅由A、T、C、或G残基组成)或可比较的氨基酸。然而，由于含在靶点序列内的″Ns″的数量或百分比提高，对终端用户更加困难凭视觉确定完整序列或其中的子序列的可比性。

结果111包括高概率匹配111a，较低概率匹配111b，和有效量的统计学上无显著性结果111c，结果111c导致与数据库偶然匹配。经类似性搜索算法Ns处理为″aNy″(wild card)特性，意味着当使用缺省参数时，N可为四个碱基残基中的任何一种或间隙。在再测序DNA输出中，N说明再测序算法不能解决响应并且能对应四个碱基残基(A、T、C或G)的任何一种或对应空腔(Korf et al.，2003)。在在提交序列中包括许多无响应(Ns)的情况下，类似性搜索(如BLAST)将计算出E值比认可E值(如1.0e-9)高，说明偶然性更大，返回的序列不是独一无二的。类似地，短序列可能具有较高E值，说明确定独一无二的DNA存在中，终端用户缺乏使用短序列。结果111包括许多不确定结果111c，那么剩下的结果111成为研究者分析的113。

在图10(a)中，显示出其他用户将碱基响应序列提交给共享序列数据库109，处理这些局部排列搜索的附加要求。如上面描述的，多个用户提交不确定序列给共享序列排列资源经常导致可用计算资源仅服务于一小部分序列提交。

图10(b)说明这个可供选择情况经常在工业实施中发现，研究者时间消耗是使人困惑的难题。相对于先前说明的情况，在研究者手动实施的119切割和粘贴操作中改变103序列数据。更特殊的是，研究者经常目测扫描原始数据输出并且主观拷贝和粘贴119原始数据输出子集，119原始数据明显包含较少的″Ns″并且提交这些主观筛选121比对109。然而，如主观实施子集筛选并且重复大量原始数据，人筛选的提交物121通常包括可比的121a和不可比的121b数据。因此，BLAST比对123的结果仍包括一系列可能匹配，范围从高概率匹配123a到低概率匹配123b，其经常由筛选引起，而筛选中存在许多无响应123c而不存在由无类似性的序列匹配引起的低概率匹配的预期结果。

根据上面讨论的，图10(c)是在有线或无线网络128上，与计算机终端的序列数据库服务器作用的这个系统设计的示意图。在一些情况中，序列数据库(和相关服务器)127远离终端用户129。可供选择地，一些设备定制序列数据库133，数据库133可进入局部终端131。然而，上面提到的时间和共享资源消耗的问题在时间消耗较大增加的公共数据库水平的设备配置中是显著性的。

许多不同因素能导致再排序DNA微阵列不能产生确定碱基响应。在纯净靶点样本中，碱基响应的杂交模式(Cutler et al.，2001；Kozal et al.，1996)被中断。一种靶点序列完全不同于探针序列，该探针序列拼接在微阵列表面上。这在再测序微阵列输出文档的阻断位中引入了N响应。当样本不纯而含有不同量的其他核酸分子，发生了相同效应，该核酸分子能低亲和力非特异性结合拼接探针，导致经探针装置较低信噪比的杂交(荧光)信号。为说明这些因素怎么能确定是否序列是可比较的或不可比较的数据，图10(d)显示了当发生不完全杂交时发生了再测序DNA微阵列输出文档的实施例。在该说明情况中，序列135是FASTA形式，然而可供选择的序列数据格式同样适于，包括，但不限于plain、EMBL、GCG、GenBank、和IG。在实施例中，序列136为序列子集140(子序列)。实施例子序列140包括具有大量无响应(Ns)137的子序列，子序列太短而不能从类似性搜索如BLAST 139中返回有效结果，并且子序列可能生成有效结果143。此外，由aliase产生多重序列，其位于序列标头138，涉及存在于微阵列表面上的探针拼接装置。

总的来说，上面提到的目前工业实施的问题基本关于研究者时间消耗和共享资源分配。更特殊地，样本中得到的增加量的子序列数据导致共享资源，如序列比对数据库利用的迅速增加。这种迅速增加成为逐渐增加的群体(研究者和数据)效率使用的必要条件。为了更有效使用共享资源，现在研究者面临着需要耗费时间和资源来主观手动筛选比对序列子集。

根据上面陈述的，迫切需要先进的诊断体系以迅速探测出已知和未预料到的序列。更特殊地，迫切需要DNA微阵列技术，尤其在共享类似性搜索数据库和系统的利用中，该DNA微阵列技术减少了人工输出的需要并且提高了共享资源利用的效率。

除了上面描述的工业中存在关于更有效率使用研究者和共享计算资源的问题，世界事件的发展和传染性疾病的出现以及主流社会中生化恐怖事件在科学团体中引发了逐渐增长的情绪并且使人们发展鉴别出威胁和消除威胁的新颖、迅速并且准确技术。用于广谱病原菌鉴别的微阵列的概念对医疗实践和国家防御都具有相当大的和显而易见的吸引力。在这个构架中，本发明者已经在努力。此外，不管序列数据的来源，需要更有准备和强有力确定混合物和生物序列数据的生物样本中组合。

发明内容

本发明的目的是提供下列优选实施方案：

在本发明的一种实施方案中，多组寡核苷酸引物的再测序DNA微阵列固定在固相支撑物上，该寡核苷酸引物长度范围在13至70个核苷酸，其中每组寡核苷酸引物被选择跨参考序列的特殊区域，占用阵列(如，拼接)的不连续区，并且包括至少芯片上平行方式安排的四组引物：1)第一组与参考序列互补；和2)三组额外引物，除了中心位置上的核苷酸之外，每一组与第一组引物一致，这三组的各自的中心位置上的核苷酸也相互都不同，使得所有四个常规核苷酸碱基出现在上述阵列中。

a.在本实施方案的一个优选方面中，寡核苷酸引物的长度为25个核苷酸。

b.在本实施方案的一种优选方面中，寡核苷酸引物跨越的参考序列区域经(n+1)个核苷酸穿过参考序列进行移动，参考序列的每个邻近拼接区域穿过微阵列表面。

c.在本实施方案的一种优选方面中，再测序DNA微阵列包含18x18微米特点。

d.在本实施方案的一种优选方面中，再测序DNA微阵列包含8x8微米特点。

e.在本实施方案的一种优选方面中，筛选出用于拼接的序列为单基因或子序列，该子序列可能代表更广类型的有机物类、种类和亚种类。

f.在本实施方案的一种优选方面中，筛选出用于拼接的序列为“原型”，该原型代表病原菌家族的基因型。

g.在本实施方案的一种优选方面中，筛选出用于拼接的序列为“原型”，该原型代表腺病毒家族或腺病毒组。

h.在本实施方案的一种优选方面中，筛选出用于拼接的序列为“原型”，该原型代表流行感冒病毒家族或流行感冒病毒组。

i.在本实施方案的一种优选方面中，筛选出用于拼接的序列为单基因或子序列，该子序列对单个病原毒株是独一无二的。

j.在本实施方案的一种优选方面中，筛选出用于拼接的序列编码耐药标记。

k.在本实施方案的一种优选方面中，再测序DNA微阵列为呼吸病原菌微阵列版本1(RPMV1)。

l.在本实施方案的一种优选方面中，再测序DNA微阵列为呼吸病原菌微阵列版本2(RPMV2)。

m.在本实施方案的一种优选方面中，至少一种普通病原菌和至少一种生物恐怖药剂在同一芯片上。

n.在本实施方案的一种优选方面中，再测序DNA微阵列包括前述方面的任何组合。

在本发明的一种实施方案中，试剂盒包含(a)前述再测序DNA微阵列，和(b)适于靶标序列与上述再测序DNA微阵列上的探针序列进行特异性杂交的试剂。

本发明的一种实施方案为检测微生物或属于特殊类型有机物种或亚种类的微生物中存在耐药标记的方法，其中该方法包括：(1)提供了上面描述的再测序DNA微阵列；(2)接触上述再测序DNA微阵列未知样本；(3)在适宜条件下，将上述未知样本与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间；(4)检测微生物或属于特殊类型有机物种或亚种类的微生物中耐药标记的存在和/或同源性，和(5)检测足够量的病原菌序列从而为病原菌可能来源进行法医学鉴定

a.在本实施方案的一种优选方面中，本方法用于检测特殊病原菌种类的存在。

b.在本实施方案的一种优选方面中，本方法用于检测耐药标记的存在。

c.在本实施方案的一种优选方面中，杂交时间范围在15分钟到24小时。

d.在本实施方案的一种优选方面中，未知样本为生物样本，包括鼻腔冲洗液样本、喉咙拭子标本、血液样本、和唾液样本，或环境样本，包括土壤样本、空气样本和水样本。

e.在本实施方案的一种优选方面中，杂交前，未知样本经过下列一种或一种以上步骤：(1)分离，(2)富集主体靶点序列，(3)扩增，(4)标记，和(5)杂交(例如，消减杂交)。

f.在本实施方案的一种优选方面中，杂交前，未知样本中主体的靶点核酸经特异性反转录(RT)、PCR、多重PCR、和/或随机PCR进行扩增。

g.在本实施方案的一种优选方面中，杂交主体靶点核酸之前，未知样本经随机扩增策略(例如，随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶、串联扩增、多重PCR、和全部扩增)。

h.在本实施方案的一种优选方面中，对上述未知样本中的DNA进行富集。

i.在本实施方案的一种优选方面中，上述未知样本中主体靶点核酸经消减从上述未知样本中背景核酸进行富集。

j.在本实施方案的一种优选方面中，通过从包含核酸的未知样品混合物中选择性除去靶点核酸，从而富集未知样品中的目标核酸。

k.在本实施方案的一种优选方面中，上述未知样本中主体靶点核酸经具有完整或部分序列同源性的探针筛选性捕获进行富集，随即进行扩增和杂交到微阵列上。

l.在本实施方案的一种优选方面中，上述探测存在和/或同源性是通过(a)根据上述未知样本的主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应进行碱基配对和(b)通过将杂交区序列和序列数据库内序列进行比较确定相应全长基因或基因组片段的序列。

i.在特别优选方面中，碱基响应经Affymetrix GDAS软件在“许可”设置下生成。

ii.在特别优选方面中，序列鉴定是经再测序病原菌辨识器(REPI)软件进行(参见2004年9月15日提出的美国临时申请序列第60/609,918号和2004年11月29日提出的美国临时申请序列第60/609,918号)。

iii.在特别优选方面中，序列数据库为GenBank。

本发明的一种实施方案为采用上面C方法常规诊断普通呼吸病原菌和/或生物恐怖药剂的方法。

本发明的一种实施方案为十三个在本发明日期时未知的腺病毒株的基因组序列，包括：Ad3、Ad3FS_navy、Ad4、Ad4vaccine、Ad4FS_navy、Ad4FS_AF、Ad5FS、Ad7、Ad7FS_navy、Ad7 vaccine、Ad 16、Ad1、和Ad21和其片段。

本发明的一种实施方案为采用上面C方法监视普通呼吸病原菌和/或生物恐怖药剂的方法。

本发明的一种实施方案为评估生物样本中相对量的病原菌的方法，该生物样本包含提供上面描述的再测序DNA微阵列同一组成；(2)接触上述再测序DNA微阵列生物样本；(3)在适宜的条件下，将上述未知样本与固定在上述再测序DNA微阵列上的探针序列杂交适宜的时间；和(4)量化上述未知样本中微生物或属于特殊类型有机物种类或亚种类的微生物中的耐药标记的存在和/或同源性。

a.在本实施方案的一种优选方面中，上述定量通过确定芯片上杂交信号的绝对强度进行。

b.在本实施方案的一种优选方面中，通过确定碱基响应的百分比进行上述定量。所述碱基响应百分比即可以视作总拼接区域尺寸的百分比又可以视作满足滑窗算法(例如，REPI)的筛选子序列内的碱基响应百分比。

本发明的另一种方面提供了计算机实施生物序列辨识器(CIBSI)系统和依据至少一种筛选参数从生物序列数据中筛选子序列的方法。至少一种筛选参数对应于从类似性搜索返回有效结果的可能性。

本发明的附加实施方案提供了自动筛选最佳序列或子序列的系统，该子序列用于比对一组预先确定的未知序列。选择性地，系统自动用Ns分布高度片段的序列，并且筛选可比对能从类似性搜索中返回有效结果的子序列。

选择性地，该系统利用滑窗型算法筛选子序列。随后，该系统自动从类似性搜索返回输出给终端用户，使得随机分配对应预先确定序列的给定碱基响应。

在本发明的附加实施方案中，源自碱基响应算法的序列信息，如应用于微阵列杂交模式，用于鉴定测试样本中的单个生物体。选择性地，微阵列的再测序探针确定的靶点序列采用类似性搜索算法查询数据库。类似搜索算法包括，但不限于，普遍使用的局部比对(例如，Smith-Waterman，BLASTN)序列比对算法来统计学上确定给定靶点序列对应数据库中特异性序列的概率。(Korf et al，2003)

此外，本发明的另外实施方案给用户提交了类似性搜索的结果关于是否样本中存在至少一种靶点序列。

在本发明的另一种实施方案中，信号强度数据(例如，从微阵列中得到的数据)由系统处理并且与序列数据相关。收集类似性搜索的结果或提炼给用户显示出生物体(包括，但不限于，病原菌)存在与否。此外，由于相对充足的生物体(包括，但不限于，病原菌)，强度与上述结果相关。选择性地，系统提供给终端用户再测序微阵列试验中检测出的病原菌相关量的推测。

本发明的另一种方面鉴定了序列的混合物和表示重组的序列。在一种实施方案中，系统自动检测出微阵列不同拼接区域上重叠或同源序列片段，推测序列的混合物。在另一种实施方案中，该系统确定了不同拼接区域序列结果不重叠而对应于用于推断遗传重组的连续序列。选择性地，该系统在不同序列间的不同遗传重组间进行鉴别。

本发明的另一种方面提供了设计再测序DNA微阵列“原型”区域(参见，美国临时申请序列第60/590,931号)的方法。在这个情况中，一组相关靶点序列采用多重序列比对算法如ClustalW或Clustal_X(Thompson etal.，1997；Thompson，Higgins&Gibson，1994)或搜索部分保守区域如HMMer(Eddy，1998)序列数据库的另一种方法进行比对，用于生成由比对柱给定残基位点的最常用核苷酸组成的一致序列。一致序列由一致碱基响应和无响应(Ns)的混合物组成，比对柱内的每个残基位点不一致。

选择性地，本发明的一种实施方案通过鉴定具有保守核苷酸和变异核苷酸平衡的那些区域来搜索候选区，拼接到再测序DNA微阵列上，使靶点杂交到再测序微阵列拼接区域上，但还要考虑足够的序列可变性。这使得靶点序列的序列类似性搜索鉴定，包括用于生成一致的比对算法成为可能。

在可供选择的实施方案中，核苷酸或氨基酸序列来自交替型序列发生器，包括(Shendure et al.，2004)中描述的那些，并且局部氨基酸序列可组成蛋白质序列。该系统经选择的实施方案处理氨基酸或蛋白质序列，序列中相关位点为保守型的。

在其他经选择的实施方案中，核苷酸序列包括蛋白质合成用编码的核糖核酸(RNA)转录。在鉴定抗靶点核酸重组的混合物的类似方法中，RNA转录混合物能被杂交并因此在拼接微阵列上再测序生成原始数据，根据与转录编辑和可供选择的剪接重组进行对比，该原始数据可采用本发明进行分析来鉴定相对量的不同RNA转录(Leipzig，Pevzner&Heber，2004)。

本发明的附加实施方案可适用于核苷酸、转录产物、氨基酸、或其任何混合物。此外，本发明也适用于在本领域中众所周知的程度上使用不同类型的序列数据库和类似性搜索算法。而且，本发明的实施方案适合于或适应于大范围的方法和/或装置，这些方法和/或装置生成序列数据，包括但不限于人工或自动Sanger测序、常规微阵列、再测序微阵列、微电泳测序、杂交测序(SBH)、Ednian降解和其变型、扩增分子上循环阵列测序、和非循环、单分子、实时方法如纳米孔测序(Shendure et al.，2004)。

上述目的强调了本发明的某一方面。后面的具体实时方式中描述了本发明的另外目标、方面和实施方案。经过下列附图说明和具体实施方式的描述，本发明的其他系统、方法、特征和优势将对本技术领域中的技术人员来说是显而易见的。所有附加系统、方法、特征、和优势都包括在本发明中，在本发明界定的范围内，并且受到所附权利要求的保护。

附图说明

经过参考下列附图和下面详细的描述，更容易获得本发明更完整评价和许多优势，同时，可以更好的理解本发明。

图1是对版本1呼吸病原菌微阵列(RPMV1)的图形化描述。针对每个病原菌的所有拼接区域的几何分布由着色表示出(公正的)。Affymetrixspike-in对照在微阵列的顶部(白色的)。分布在拼接区域间的黑色区域不包含探针。

图2显示出根据实施例1中描述的，将纯化的原型4腺病毒(登录号AY594253)DNA杂交到RPMV1上，随后使用(A)简并引物PCR(Lin et al.，2004)或(B)GenomiPhi靶点DNA的全部扩增来分离和扩增核酸。简并引物PCR(A)导致保守引物位点覆盖的拼接区域内靶点的杂交。全部扩增(B)导致整个Ad4拼接区域的靶点杂交。两个方法均不产生显著性的微阵列交互杂交。在每个方案中，REPI鉴定了所有扩增子被杂交的Ad4拼接区域，除了在一种情况外(实施例1中进行描述的)，正确的腺病毒4(AY594253)株具有最高的BLAST(″基本的局部比对搜索工具″)的比值。

图3显示根据实施例3中描述的，纯化的腺病毒5地方株(Ad5FS，登录号AY601635)(A，B)和原型腺病毒7(登录号AY594255)(C，D)DNA杂交RPMV1，随后采用(A，C)简并引物PCR(Lin et al.，2004)或如实施例3中描述的(B，D)GenomiPhi靶点DNA的全部扩增来分离和扩增核酸。简并引物PCR(A，C)导致Ad5FS和原型Ad7内保守引物位点覆盖的拼接区域内靶点的杂交。全部扩增(B，D)导致整个Ad5和Ad7拼接区域的靶点杂交。两个方法均不产生显著性微阵列的交互杂交。在每个方案中，REPI鉴定了所有拼接区域正确的腺病毒5(Ad5FS，登录号AY601635)株或腺病毒7(登录号AY594255)，扩增子被杂交。对于腺病毒7，原型Ad7被安排在Ad7疫苗拼接区，正确区别于源自拼接区的Ad7疫苗株(AY594256)。也值得提到的是所有腺病毒扩增用的简并引物溶液被小量的Ad4和Ad7原型污染(由实时PCR反应产生的污染不认为是阳性的)。污染物不引起容易辨别的杂交(如图3中显示的)但遗传数据分析软件(GDAS)生成碱基响应(配有微阵列阅读器形成Affymetrix，Santa Clara，CA)和再测序病原菌辨别器(REPI)分配所有非故意碱基响应给正确的污染物。GenomiPhi溶液没被污染，各自试验中，在Ad5和Ad7拼接区外的腺病毒拼接区上无碱基响应。

图4显示出如实施例4中描述的腺病毒4、5突破菌株。患有发热性呼吸道疾病(以前接种过抗腺病毒疫苗)患者咽喉拭子培养物中的等量纯化核酸采用保守/简并引物进行扩增，根据(Lin et al.，2004)的描述，另外依据Affymetrix CustomSeq标准策略实施。患者经血清分型抗体中和诊断为Ad4阳性，并且经六邻体序列分析诊断为Ad5阳性。本发明者获得多重靶点杂交，导致所有腺病毒5和腺病毒7原型拼接区上的碱基响应。REPI分析揭示鉴别出了高置信度的腺病毒，例如Ad5(Ad5FS，登录号AY601635)，而多重原型Ad7区域给出B亚群种类而非Ad7，即Ad21。再值得注意的是，如在图3中显示的情况，用于所有腺病毒扩增的简并引物溶液无意间被小量的Ad4和Ad7原型污染。该污染物不引起在Ad4拼接(如图4中显示的)中的易辨识的杂交，但由GDAS和REPI引起的碱基响应被分配给正确的污染物(腺病毒4原型；登录号AY594253)，不给基本军训地中传播的地方株。此外，在Ad7拼接中获得的最高比值不是原型Ad7(不管低水平污染物)而是腺病毒型21((Ad 21；AY601633)，Ad7原型(AY594255)代表B亚群腺病毒的另一种成员。采用Ad5常规DNA测序、Ad21扩增子测序、和点样微阵列结果证实了该样本中的Ad5和Ad21的混合物的观察(Lin et al.，2004)。然而，经单个拼接区子序列中的高比值检测出原型Ad7的低水平污染物并且对其进行鉴别。因此，在该实施例中，意外受小量Ad4和原型Ad7(在地方样本中没有发现)污染，由Ad5和Ad21组成的意外混合的腺病毒样本被完全鉴别出。没有这类事件和探针设计成果，使用其他类型微阵列(如，点样)不可能有这么详尽的辨别。

图5显示根据实施例5描述的方法鉴定流行感冒A株的结果。等量流行感冒A株发热性患者鼻腔冲洗物(经标准病毒细胞培养技术证实)，在2003-2004流行感冒季节采用(A)通用的(Hoffmann et al.，2001)或(B)多路(Offringa et al.，2000)RT/PCR进行免疫，并且按照标准AffymetrixCustomSeq策略进行处理。因为两个方案生成全部HA、NA、和M基因的扩增子，微阵列上各自拼接区域在两个方案中几乎完全杂交。两个方案的REPI输出显示出Fujian/411/2002流行感冒病毒株获得了HA3最高比值(ISDN38157_流行性感冒A/Fujian/411/2002_红血球凝聚素_1042)，该Fujian/411/2002流行感冒病毒株在2003-2004流行感冒季节没有进行疫苗包括。用于定义HA3拼接区的原型流行感冒A HA序列不在HA拼接碱基响应的REPI输出中。因此，流行感冒A预期株的原型区鉴定了未预期株。

图6显示出依据实施例6中描述的减少杂交时间试验的结果。在这个实施例中，鼻腔冲洗物被证实经微阵列探试所有靶点为阴性，除了耐红霉素标记物SPYERMB、SPYERMTR、和SPYMEFAE每个都经过特异性多重PCR反应。然后，将扩增子杂交到分离的微阵列上或者16个小时(A)或者15分钟(B)，另外依照Affymetrix CustomSeq策略进行处理。相比较，15分钟杂交微阵列(B)信号强度低于对照组16小时微阵列(A)的信号强度(注意对(B)中微阵列顶部的Affymetrix对照组探针进行不完全杂交)。然而，三个拼接区的REPI输出显示了对于(A)和(B)，每个区域的最高比值是相同的，尽管比值和预期值在较少杂交时间的情况下是较低的。30分钟和1小时杂交也获得类似结果，增加杂交时间得到的碱基响应的数量提高了。然而，这个实施例清晰地说明了具有不同杂交模式的靶点之间进行精密鉴别方法的稳健性。

图7显示了实施例7中描述的消减杂交方法的功效。(A)显示了依照在Lackland AFB患有发热性呼吸疾病患者的等量鼻腔冲洗物中分离核酸的总扩增得到杂交模式。每微升10⁴个遗传拷贝的估计效价，样本相对于Ad4为阳性的。高背景杂交穿微阵列抑制了GDAS生成碱基响应即使腺病毒4区显示的可分辨信号高于全部背景信号。如针对GDAS生成的无碱基响应，(A)中获得的同一组全部扩增子与COT-1部分人基因组DNA(B)共杂交得到小量提高。(C)显示了在全部扩增之前，单独使用磁性玻璃珠消减不导致足够量的碱基响应进行类似性搜索。然而，通过结合使用玻璃球基消减(链霉素涂覆玻璃珠结合生物素化COT-I人DNA)与液相COT-1人DNA(D)共杂交的联合使用，足够碱基响应可明确排列Ad4HEXON拼接区内辨别的三个序列的每个中的最高腺病毒4空军本地株(登录号AY599837)。此外，实施用2微升起始样本材料代替1微升(E)的同一组组合步骤，碱基响应除了Ad4HEXON-1外，深入到Ad4FIBER拼接区，使得在Ad4HEXON-1拼接和几个Ad4FIBER子序列中排序的Ad4本地株有高的比值。

图8显示了流行感冒病毒A靶点的杂交(Fujian 411/2002)，掺入到正常鼻腔冲洗物中，其次采用无偏差扩增RNA基因组靶点方案(Wang et al.，2003)的最近描述的修改(Kessler et al.，2004)进行扩增。图8(A-C)显示了10⁵、10³、和10¹个溶菌斑形成单位(pfu)剂量掺料的各自杂交模式(参见实施例9)。这些结果说明甚至在使用无偏差扩增方案时能获得本方法的功效。这应将全部方法延伸到未知RNA靶点的制备并且将特殊方案结合用于再测序微阵列的RNA和DNA病原菌靶点的通用扩增。

图9显示了本发明实施方案的流程图，其中RNA和DNA路径汇聚在一点。

图10(a)为说明工业中目前使用方法的示范流程图。

图10(b)说明了工业实施中通常存在的可供选择的方案。

图10(c)为与比对数据库和服务器相互作用的一般系统设计的示意图。

图10(d)显示了分析微阵列证实不良杂交的序列输出的实施例。

图11(a)为系统的一种实施例的示范示意图。

图11(b)为再测序病原菌识别器(REPI)的一种实施例的示范示意图。

图11(c)为ASP接触面的示范屏幕拍摄。

图12为描述ASP一般功能性的流程图。

图13为对照组检查步骤地示范流程图。

图14(a)为提取子序列步骤的流程图。

图14(b)为依照系统的一种实施方案的滑窗实施例。

图15为系统实施更详细剔除功能的示范流程图。

图16显示了描述检验长度步骤中示范流程图。

图17显示了计算百分比步骤地示范流程图。

图18(a)为描述分析步骤中系统更详细活动的示范流程图。

图18(b)说明本发明的一种实施方案的示范输出。

图19为描述系统的附加实施方案的示范流程图。

图20为本发明的实施方案可被执行的计算机系统(或服务器)的方框图。

图21为辨别混合物和再重组的实施方案的示范流程图。

图22为合并数据给用户提供决策质量信息的实施方案的程式化示范示意图。

图23为说明设计最优化再测序微阵列的方法的示范流程图。

图24为说明设计或最优化再测序微阵列的附加示范流程图。

图25为系统树图的实施例。

图26为多重比对的示范性图形表示。

图27为多重比对生成的一致序列的实施例。

图28为多重比对包括一致序列的另一种示范性图形表示。

图29说明了修饰的一致序列的实施例。

图30为本发明的一种实施方案的示范性结果。

图31为依照本发明的实施方案模拟杂交结果的实施例。

图32说明了一致序列的另一种实施例。

图33为依据本发明的实施方案格式化再测序阵列数据的示范流程图。

附图中的各部分不一定是成比例的，主要是为了清晰地说明本发明的原理。此外，在附图中，同一数字指出了贯穿几个图形的对应部分。

具体实施方式

除非特殊定义，这里使用的所有技术和科学术语具有酶学、生物化学、细胞生物学、生物信息学、和医药科学中的技术人员普遍理解的相同含义。

类似于或等同于这里描述的方法和原料能在本发明的实施或测试中使用，只要采用这里描述的合适的方法和原料。在冲突的情况下，将以本说明书，包括定义部分为准。此外，原料、方法和实施例仅具有说明性，并不是限制性的，除非另外说明。

众所周知，DNA微阵列可用于分析用于诊断或监视目的的病原菌中靶点核酸的序列。寡核苷酸探针序列筛选、长度、表面上的位置、结合的生理化学性、和标记技术的影响是过去10年中大规模研究的主题。采用的方法几乎专有涉及单寡核苷酸探针(13-70mers)的使用，该单寡核苷酸特定设计与具有高度特异性单个可识别病原菌靶点序列(13-25mers)杂交或与具有较低特异性的较长病原菌靶点(70mers)杂交。这些微阵列以点样微阵列普遍周知，但相同内容的点样微阵列除了二维平面之外也能以其他形式具体化，一种实施例就是玻璃珠阵列(Ferguson，Steemers&Walt，2000)。

已经有许多对使用Affymetrix再测序微阵列鉴别和表征病原菌的简单描述。Kozal(Kozal et al.，1996)测量HIV中突变漂移并且采用再测序阵列，Gingeras(Gingeras et al.，1998；Gingeras et al.，2001)、和Troesch(Troesch etal.，1999)鉴别了分枝杆菌种类并且单核苷酸多形性(SNPs)与耐抗生素有关。Wilson et al.(Wilson et al.，2002a)采用核糖体RNA，使用相同类型阵列鉴别细菌并且检测多重生物战药剂(Wilson et al.，2002b)。

使用再测序微阵列用于同时病原菌鉴别和监视有超过单寡核苷酸方法的基础优势，因为详细靶点序列信息作为原始微阵列数据的部分直接可用。经定义，具有10²到10⁴个寡核苷酸探针的点样微阵列不能辨别细微序列变异，大于10-1000碱基对的全部靶点序列，即使采用拼接方案设计阵列。因此，点样寡核苷酸微阵列需要采用常规DNA测序技术进行鉴定，需要特殊的设备、操作人员、和几天的时间，该点样寡核苷酸微阵列方便了宽谱个体株或SNP水平(Cherkasova et al.，2003；Wang et al.，2002；Wang et al.，2003)病原菌的鉴别

因此，本发明通常关于采用DNA微阵列技术检测和鉴别细菌、病毒和原生动物病原菌和毒性标记物。本发明也关于设计、测试和分析具有定义区的再测序微阵列，该再测序微阵列可用于大量的特异性病原菌基因型和病原菌混合物分配数字检测概率。此外，它关于需要处理上述微阵列的简单和复杂(例如，临床的和环境的)样本的方法。

更特别的，本发明关于使用高度多元再测序微阵列作为包括传染性疾病药剂诊断和病原菌检测为目的的一类新设备。特殊的，它适合于DNA微阵列，该DNA微阵列采用来自靶点基因组序列的大量筛选的“原型”核酸序列区域(每个典型具有250-2000碱基对)来检测和鉴别较大对数的无关和紧密相关的(菌种水平)微生物病原菌。更特别地，本发明关于设计制备微阵列采用“拼接”探针方法再测序靶点核酸。然而甚至更特别地，本发明关注采用拼接探针设计Affymetrix再测序微阵列，该拼接探针将能够分析等于10⁵到10⁶个碱基对的靶点序列。

在特殊的实施方案中，本发明提供了经过检测他们的核酸序列和使被检测序列经自动类似性搜索公共结构域和专用数据库来同时分析大量病原菌的方法。经非明显调节商业技术(Affymetrix CustomSeq^TM)实施该目标。设计采用该程序，CustomSeq^TM，经再测序靶点DNA检测单核苷酸多形性(SNPs)该所谓的SNP检测要求：(1)碱基响应误差率远低于突变自然发生率(人类中约每10⁸碱基对中有一个)，(2)在采用特异性PCR引物进行微阵列杂交之前，以每微升10⁶基因组拷贝，扩增纯化起始原料，和(3)采用算法组合和处理复制样本的多重芯片，该算法限制了那些具有一定程度置信度的碱基响应，低频SNPs的存在能被推导出。本发明证实了在时间量程内和样本制备复杂性水平内，Affymetrix再测序技术能适合于插入到高度多样性传染性疾病诊断和病原菌检测的完整系统，使床旁诊断应用成为可能。该系统实质上不同于Affymetrix技术的具体用途，对于微阵列技术的典型技术人员不是显而易见的。

目前，鉴别病原菌的Affymetrix再测序技术应用的相关文献描述很少。从这个设计.试验和分析观点，采用再测序，本法明具有超过病原菌表征的现有技术。Kozal(Kozal et al.，1996)测量了HIV中的突变漂移，并且Gingeras(Gingeras et al.，1998；Gingeras et al.，2001)和Troesch(Troesch etal.，1999)采用再测序阵列，鉴别了分枝杆菌种类并且单核苷酸多形性(SNPs)与耐抗生素有关。在每个方案中，筛选最佳序列用于拼接，基于可能靶点序列的分析。设计特异性PCR引物扩增杂交靶点。未知临床分离鉴定采用以经验确定不同杂交模式的模式识别算法制成阵列。同样地，该方法依赖于全长靶点序列的扩增和杂交，不适合于：(1)危险的非特异性结合导致丢失碱基响应，(2)由于低同源性引起的低靶点浓度或孔隙穿过靶点长度的不完全杂交，和(3)临床或环境样本的未知靶点序列的无偏差(全部)扩增诱导的降低了杂交完整性。

本发明者优选的方法不存在现有采用再测序微阵列技术中公开的相同限制。此外，拥有至少一种用途的技术方法，即同时检测大量的多样病原菌种类，仅最近经引入CustomSeq^TM RPMV1芯片用Affymetrix微阵列(18x18微米)和高密度(8x8微米)呼吸微阵列版本2(RPMV2)而产生，分别将29.7kb和300kb拼接再测序。然而，本发明提供的最重要改进为使用了具有序列长度无关类似性搜索的增加密度芯片(BLASTN)，提供了在筛选拼接用序列之前产生的许多较小假定。此外，使用长度无关类似性搜索(BLASTN)去掉了特殊已知子序列完全被再测序的限制，使得该方法对靶点浓度的变化和非特异性结合导致丢失碱基响应的影响具有抗性。

因此，在本发明中，拼接用筛选的序列为“原型”，这是在单个基因或子序列可代表更广类型的有机体种类和亚种类(可供选择的类型、菌株、变异体或突变体)的意义上而言。根据单个病原菌和菌株的基因型中的较小改变，该方法是稳健的，并且能在大量候补病原菌中进行检测和鉴别，该候补病原菌不能在试验芯片设计中明确表示出。

芯片设计也利用了部分过余拼接组(在设计过程中，受到厂商指导方针和厂商的阻止)，单个病原菌株，和多重类似或多样性病原菌类型间的基因内和基因间变异。然而，本发明者已经确定了冗余对提升结果置信度和最小化错误阳性结果和错误阴性结果的可能性是重要的。该设计/分析方法的优势将允许掺入基因组保守和超变区，便于鉴别组、类型和菌株水平。

仅存在很少的一些文献报道描述用于微生物病原菌微阵列分析的基因类扩增策略。Wang et al.(Wang et al.，2002)描述了在70mer寡核苷酸阵列上杂交之前，进行RNA病原菌靶点扩增，随即连续PCR反应和Klenow片段扩增的多重步骤方法。扩增要求的时间和/或技术步骤数量不是指定的但同一组的后续论文报道约24个小时。也没详细说明扩增步骤导致检测效率提高。我们研究组(Vora et al.，2004)的最近报道描述了许多单独使用和联合使用非特异性核酸扩增技术杂交到70mer寡核苷酸阵列上。没有任何已知的现有技术报道过纯化的或者在复杂混合物(例如，临床样本)中非特异性扩增DNA靶点与再测序微阵列的杂交。

本发明在几个方面领先于经微阵列进行病原菌检测的基因扩增技术：(1)为得到高密度短(25mer)Affymetrix再测序微阵列，详细描述了经纯化或高度富集病原菌核酸的全部扩增的特殊方法，既不是先前描述的也不显而易见，因为该方法很大程度偏离了规定的Affymetrix方案，和(2)描述了新颖并可供选择的使用酶处理、竞争性杂交、和磁性玻璃球基消减和富集步骤来减少背景和后续无偏差(如，全部)扩增和微阵列杂交的方法。

本发明体现了一组特殊的设计和处理方法，该方法利用再测序微阵列大规模鉴别和表征病原菌。特别地，本发明允许在单阵列中精确、灵敏、和高置信度鉴别大量(成千的)多样性的病原菌。

本发明的一种实施方案为多组寡核苷酸引物的再测序DNA微阵列，该寡核苷酸引物长度范围在13到70个核苷酸之间(优选25个核苷酸，尽管可能和在本发明界定范围内使用相对于陈述范围内每个整数值长度引物)固定在固相支撑物上，其中每组寡核苷酸引物被筛选扩越参考序列的特殊区，占据阵列的不连续区域(例如，拼接区)，并且包括至少四组引物以平行方式安排在芯片上：1)第一组，与参考序列互补，和2)三个附加组引物，除了中心位置的核苷酸，每个组都与第一组引物同源，而这三组的每一组中的中心位置的核苷酸也各不相同，以至于所有四个常规核苷酸碱基存在于上述阵列上。

本发明进一步提供了处理复杂临床样本(如，鼻腔冲洗液)的方法，要求最小限度核酸分离/扩增步骤。

本发明区别于绝对多数的微阵列基病原菌检测方案，应为它使用高密度“拼接”微阵列来确定病原菌遗传靶点的实际序列。许多重要区域内的其他再测序病原菌鉴别策略，包括结合：(1)高度多样性的异型病原菌“原型”靶点区域，该靶点区域显示出很少或无可辨别的交互杂交或彼此干扰，(2)紧密相关病原菌内较高序列冗余允许较高置信度鉴别特异株(例如，腺病毒或流行感冒病毒)，(3)一类病原菌典型的较大拼接片断的“原型”区域允许精确鉴别特异性病原菌株和使用特殊设计软件来分析和排列序列片段提呈给类似性搜索(例如，BLAST)算法，辨别病原菌混合物和病原菌之间的重组，代替更限制性拼接筛选和在最紧密相关现有技术(美国专利6,228,575)中描述的微分算法，(4)最低限度的偏性核酸扩增策略，在无显著性干扰或交互杂交情况下，允许精确、高置信度病原菌靶点再测序，和(5)样本处理方法学，允许再测序阵列联合复杂临床样本的最低限度偏性氨基酸扩增策略而使用。

这些方法的组合可以使一种合格的技术员在24小时内，优选在4小时内，更优选2小时，最优选在30分钟内同时检测和鉴别临床样本的高度多样性病原菌。

因此，由于该实施方案，本发明支持：(a)样本收集的几个小时内，临床传染病的常规诊断，(b)同时查询样本少见感染性疾病迹象(例如，未预料的病原菌、耐抗生素模式或生物战争药剂)，(c)常规分子病原菌监视，(d)疫苗质量控制和(e)自然遗传变异、药物治疗、故意操作、或其他情况引起的监测病原菌的遗传改变。

高密度再测序微阵列

经DNA低聚物的光导组合合成制备高密度微阵列(HDMs)(Kozal et al.，1996)。在这些位点上合成的DNA低聚物通常具有20-30碱基长度。采用高分辨率半导体光刻胶对该方法进行后续改进，Affymetrix证实了制备具有分辨率接近1μm²特性的HDMs，使探针特征密度比mat在RPMV1证实的大10-100倍。到此为止，关于病原菌鉴别的HDM设计以“拼接”策略为基础。因此，等长的四个探针被合成正义和反义方向的每个碱基，需要所有8个25-met探针用作给定参考序列中的每个碱基对。每个方向上的一种探针确实互补参考序列而其他三个单个碱基在查询碱基位上错配。因此，拼接HDM能有效“再测序”靶点核酸。

以这种方式，未知靶点的碱基响应在四个可能碱基位中的每一个都可以被查出(每四个可能碱基对中的一个在拼接25mer探针内的第13位处改变)，直读阵列相应位点的靶点序列。在CustomSeq阵列中，GCOS(Version1.1)软件被用于使原始图像(.DAT)文件为指定每个相应探针位密度的简化文件格式(.CEL file)。最后，GDAS(Version 2.0)软件用于运用嵌入式ABACUS(Cutler et al.，2001)算法来生成正确碱基响应评价，比较正义和反义探针组的密度。GDAS的可用输出文件类型之一为再测序阵列拼接区域生成的FASTA形式碱基响应。

在一系列采用培养的微生物，包括HIV(Kozal et al.，1996)的体外试验中，上述的HDMs类型用于鉴别病原菌种类和检测耐药性-相关突变。Troesch等人(Troesch et al.，1999)设计HDMs在54之间分析不同于检测分枝杆菌类和耐利福平的分枝杆菌肺结核。65,000个低聚物探针的拼接阵列用于精确再测序70个临床隔离群的27株分枝杆菌类和15株耐利福平结核分枝杆菌株。最近，特异性序列鉴别F.tularensis和Y.pestis采用拼接HDMs(Wilson et al.，2002b)在环境样本中得到证实。这些通常方法依赖于特异性杂交模式，以野外实测(对照组)测量方法为基础。此外，作者没有提供了指导定量比较怎样针对紧密相关或未预料有机物的起始浓度，该起始浓度可改变六个数量级。

阵列类型

本发明采用Affymetrix CustomSeq再测序微阵列形成。为了讨论再测序微阵列，技术人员可见U.S.6,228,575。然而，本发明不在概念上被限制于采用特殊制备方案生成微阵列。原则上，再测序能以任何技术描述的规模实施，该技术能产生相当大密度的微阵列。理论上，能采用寡核苷酸打印技术完成，但采用光学光刻法更可能完成。然而，Affymetrix再测序芯片以采用分离的光刻掩模后续步骤为基础，该光刻掩模对应于每一步骤，可供选择的方法可采用无掩模光刻技术(Albert et al.，2003；Nuwaysir et al.，2002)或通过纳米光刻法(Ginger，Zhang&Mirkin，2004)。更普遍地，任何生成以确定可用靶点序列为目的的多数寡核苷酸探针。甚至玻璃珠“阵列”不是2维形式(Ferguson et al.，2000)。

探针可由DNA变异体组成，即RNA或低聚物肽-核酸(PNA)。探针能制成对酶消化具有敏感性，然后接受后续处理。在优选实施方案中，探针将加入dUTP代替dTTP，使它们对尿嘧啶-DNA-糖基化酶具有灵敏性。这将使它们用于选择性降解随后捕获靶点。此外，在本发明界定的范围内，也可能固定RNA并获得其互补序列识别。固定RNA将需要RNA的化学稳定性。在更普遍意义上，探针能由化学修饰核酸制成，该化学修饰核酸使它们或多或少易受到后续化学处理步骤的影响。

阵列设计

采用RPMV1微阵列，本发明举例说明拼接原型序列能在没有假定特异性病原菌鉴别需要特异性杂交模式的情况下鉴别更多种类的特异性病原菌株。在目前的设备中，拼接区域的原型，尤其腺病毒4、5和7，分别凭经验被选择代表腺病毒子群E、C、和B。

该设计的更优选和更系统的方法包括使用多重序列分析来生成一致序列，一致序列定义为分析位上那些表示最常用碱基。在优选实施方案中，分析算法将产生单个病原菌株中靶点基因序列或病原菌家族群的等级系统发生树。采用适当的算法，一致序列将首先形成每个树结点成员或树结点群成员，距离测量落在阈值范围之内(Lee，2003)。实际靶点序列将与一致序列单独比对，并且由一致序列定义杂交到拼接微阵列区域上的功效将被模拟。已知功效如碱基插入或缺失，以及寡核苷酸探针区域内多重碱基取代的功效将确定为模拟杂交的规则。生成杂交的后续分析和碱基响应模式将说明所提拼接适于作为给定范围病原菌的原型。这个过程将重复直到最合适组的原型区域被确定覆盖给定组病原菌。在一种优选实施方案中，该过程将用于最大化芯片的空间利用率，导致最大减少再测序微阵列的实际尺寸，并且因此，最大减少每个微阵列上的产品费用。

在一种优选实施方案中，再测序阵列将被设计联合另一种简单固相捕捉器(阵列、凝胶、或其他的)，该固相捕捉器将最初用于排列再测序阵列。例如，由多样性较长寡核苷酸探针组成的阵列将最初用于通过识别病原菌家族内的保守序列来检测病原菌。再测序阵列能用于查询与初始阵列上保守探针相关的可变区，提供了病源体上详细的序列信息。在非常优选实施方案中，样本制备普遍用于固相捕捉器和再测序微阵列。然而在另一种非常优选实施方案中，初始阵列将用于捕捉靶点，该靶点将被隔离并采用无偏扩增技术进行扩增提给再测序阵列。

该用途的总体设计基本原理

本发明利用从不同公共和/或私有资源的病原菌基因组信息来设计、制备、评估、验证和一体化先进诊断平台作为有效生物防御监视部分和操作医学系统。流行病爆发监控(EOS)程序生物防御模型是完整的，该系统经采用广泛分布设备将被最有效激活，这些设备将发现传染性疾病的常规诊断学中的效用，尤其在传染性呼吸疾病诊断中的效用(参见国防科学会2006夏季研究报告及健康科学生物防御系统(HSBS)简报)。该设备(例如，微阵列)将提供可供选择的有成本效益的常规方法诊断、处理和监视传染性疾病，最显著的呼吸传染病是具有重要性的。采用设计和分析信息学支持设备并且确保来自那个设备的判定质量信息可遗传的并且可被许多就诊单位、公共卫生官员、和决策者解释。因此，也是本发明的重要目的，设备为由局部床旁诊断设备组成的完整系统的重要组成，该局部床旁诊断设备在就诊单位、公共卫生官员、和决策者之间提供了自动、双向数据共享(这或许交叉对照阵列中商业模型专利)。这里描述的本发明可至少两个途径实施其作用：(1)经减少阵列尺寸(例如，较低费用)，自动化处理，和利用处理再测序阵列便携式硬件，本发明可为床旁设备的目标，和(2)如果存在低成本或易自动化微阵列，再测序阵列可成为诊断/监视流水线中较高梯队组成。在后面的方案中，低成本可供选择设备将提供初始样本处理、病原菌靶点富集、扩增、床旁判定信息，而必要时，再测序通过促进更详细查询样本提供了顺次测定性能。

再测序微阵列芯片设计的一般策略

依据本发明，设计再测序微阵列芯片的过程通过筛选病原菌基因组序列被执行，该病原菌基因组序列具有使它们对于少量(理论数量)病原菌是唯一的序列性质，或者是高度保守的，使它们检测许多类型的微生物种类家族或属级，或适度保守并筛选为“原型”区域。原型区域将具有跨域一组微生物种类的中级序列同源性并且考虑有效杂交和独一无二鉴别大部分或所有亚类型病原菌。设计再测序拼接的策略包括通过分析类似序列和应用一致探针序列拼接到芯片上产生巨大影响。一致序列可能不与任何筛选的病原菌同源，但将与许多类似病原菌基因组作用。真实病原菌基因组序列与一致的序列完美匹配和不完美匹配的模式将提供诊断的个体识别力。

本发明的特别实施方案为设计再测序微阵列芯片的一般方案，该再测序微阵列芯片可在样本(例如，部分纯化的样本，纯化的样本，富集的样本、生物样本，等等)中鉴别和标明病原菌。该设计和验证方案的多方面在随后的第6“阶段”中进行了具体化。

阶段1：病原菌鉴别：

a.病原菌列表(例如：腺病毒；流行性感冒；化脓性链球菌)-由病原菌专家或公开领域提供

b.属/种类(新病原菌例如.冠状病毒严重急性呼吸综合症变异)

c.种类/亚种(流行病学追踪；取证)

d.病原菌独一无二片断(交互杂交结果)

e.遗传漂移/漂变问题(例如.流行性感冒、HIV)

f.耐药性标记物

g.致病相关基因或毒性标记(有利于诊断和预后目的)

h.基因工程特征标记

i.质粒DNA序列(Bluescript，PUC etc.)

i.多克隆位点

ii.耐药标记物(氨比西林，卡那霉素，盘尼西林等)(或可列为：Amp，Kan，PBP，等)

iii.毒素(肉毒毒素；蓖麻毒素等)

阶段2：关于样本来源的病原菌鉴别：

a.常见呼吸病原菌(和近缘病原菌)

b.生物成胁药剂：(经疾病控制中心鉴别)

c.背景或寄生物考虑：

i.临床样本(鼻腔冲洗液、拭子、粪便标本，等)

ii.载体(例如.蚊子)

iii.环境(水、食物、土壤)

阶段3：基因鉴别(病原菌设计相关的最复杂问题)

a.序列同源性(相对于病原菌鉴别)

a.新颖的或未预期的高度保守鉴别(属/种鉴别)

i.鉴别新颖的/未预期的有机物

1.嵌合体(细菌基因交换)

2.遗传漂移/漂变(例如.流行性感冒)

3.人工的

ii.辨别复杂病原菌家族

1.鼻病毒(许多完全不同变异体)

b.较少保守超变量(种类/亚种)

c.病原菌独一无二序列片断(交互杂交)

i.全部扩增方法的潜在重要的

b.功能序列(相对于致病性和患者管理)

a.共生细菌中耐药基因

b.致病性相关基因

i.毒素基因

ii.传播(传染性)相关基因

iii.致病岛

iv.毒力因素

c.其他宿主-病原菌作用基因

i.免疫反应

ii.肿瘤形成

iii.DNA修复

阶段4：基因筛选(什么序列应置于芯片上)

a.鉴别基因登录号

a.完整基因

b.侧翼序列病原菌基因组(对照组)

c.最近/流行可用变异体

i.快速培育病原菌尤其重要(流行性感冒)

b.BLAST搜索：(纳入/排除标准)

a.人序列同源性(排除标准)

b.相关病原菌序列

i.可能的排除/注释标准

ii.如果同源性＞90％，序列仅需要发表一次

1.使用一致序列鉴别和注释

iii.鉴别病原菌特异性基因/序列

c.实用问题

a.细菌中水平基因转移问题

b.病原菌中基因拷贝数量

c.人序列的同源序列(交互杂交)

d.较少致病菌的序列同源性(例如.杆状菌；天花[痘])

阶段5：RPM芯片优先处理

a.确定芯片“有效面积”(全部表达序列)

a.靶点基因拼接尺寸

i.拼接相关登录号

ii.一致序列相关登录号

b.参考优先顺序标准的主要目标。主要问题包括：

a.病原菌流行取决于靶点人群、地理位置、季节、和其他疾病传播因素

b.临床、操作、和公共卫生相关性

c.芯片功能性问题：

i.混合病原菌

ii.数据注释和提交给终端用户

阶段6.微阵列验证：

a.设计对照组

a.套式引物组：

i.外引子组：形成对照组

ii.内引子组：测试阳性对照组

iii.对照组和RPM序列应为100％的序列匹配

b.形成对照组克隆

c.用于匹配性验证的对照组克隆序列

b.形成病原菌芯片注释图解：

a.较差杂交位点

i.较差信号

ii.错误信号

b.交互杂交位点

i.人交互杂交

ii.其他病原菌(尤其生物恐怖行动药剂和毒素)

c.序列特异性水平

i.鉴别亚种/变异体的标记物

1.形成取证数据库基础

ii.仅鉴别属和种的标记物

iii.鉴别发现的新变异标记物

c.芯片验证试验框架：

a.检测交互杂交区域的人杂交

b.质粒验证计划：

i.滴定质粒试验PCR灵敏性

ii.滴定法测量RPM检测灵敏度

iii.改变浓度评估碱基响应精确性

1.注释任何错误

c.培养验证技术

i.滴定病毒

1.核酸分离效率

2.芯片杂交灵敏性/特异性

a.总扩增灵敏性/特异性

b.PCR比对

3.滴定培养物的芯片杂交灵敏性

4.培养菌序列的验证

d.将病原菌掺入到复杂介质中

i.将病毒滴到溶液中

ii.杂交到芯片上(背景干扰)

iii.如果与培养病原菌比较不同验证病毒序列

e.评估复合矩阵中靶点浓度

i.鼻腔冲洗液

ii.棉拭子

1.鼻腔拭子

2.咽喉拭子

iii.溶液中病毒的稳定性

1.鼻腔冲洗液

2.拭子

iv.病毒溶液的冷冻/解冻影响

v.靶点病原菌的序列验证

下表(表1)代表一组优选(但非限制性)的病原菌(病毒和细菌)，该病原菌可按照监测和诊断普通呼吸病原菌的设计在本发明的背景下使用：

表1微阵列病原菌

病毒病原菌细菌病原菌

腺病毒(血清分型/属极) 化脓性链球菌(emm类型/抗性)

流行性感冒A和B(株) 肺炎支原体

冠状病毒/SARS 百日咳杆菌

副流感病毒1，2，3，4 肺炎衣原体

呼吸道合胞病毒肺炎链球菌

偏肺病毒军团菌(属级)

鼻病毒卡他莫拉菌

柯萨奇病毒流感嗜血杆菌

伊科病毒脑膜炎双球菌

西尼罗病毒结核分支杆菌

水痘(HHV-3) 金黄色葡萄球菌

汉坦病毒溶血隐秘杆菌

风疹鹦鹉热衣原体

1型和2型单纯疱疹

肠道病毒(腮腺炎、脊髓灰质炎)

细小病毒

为了广泛分布内置监控生物恐怖药剂的呼吸诊断设备的用途，选择病原菌列表加入到芯片上将也包括从美国疾病控制(CDC)中心筛选出的那些A、B、和C类生物恐怖药剂。这些是最周知的，但不限于此，包括：

CDC A 类

炭疽热细菌(靶点：致命因素、保护性抗原)

鼠疫杆菌

天花(大天花)

土拉弗朗西斯菌

病毒性出血热(丝状病毒[例如.埃博拉病毒、马尔堡病毒]和沙状病毒[例如.拉沙热、马丘波病毒]

CDC B类

流产布鲁氏杆菌(2308 B37)，羊布鲁氏杆菌(F6145)，猪布鲁氏杆菌(A44)

鼻疽假单胞菌(马鼻疽)

类鼻疽伯克氏菌(类鼻疽)

鹦鹉热(鹦鹉热衣原体)

流行性斑疹伤寒(摩氏立克次氏体)

病毒性脑炎(甲病毒[例如.，委内瑞拉马脑炎，东部马脑炎，西部马脑炎])

CDC C类

出现传染性疾病如尼帕病毒和汉他病毒

这些药剂的完整和更新列表可在CDC网址(http://www.cdc.gov/)上找到。为了说明本发明，两个再测序微阵列芯片(RPMV1和RPMV2)将在下面进行描述。

再测序呼吸病原菌微阵列版本1(RPMV1芯片)：

采用高密度Affymetrix微阵列制备方法制得RPMV1，该RPMV1具有个体探针尺寸18x18微米。在这个密度下，29.7kb全部病原菌靶点序列进行拼接用于再测序。作为部分试制β试验Affymetrix商业产品(CustomSeq)进行制作，该Affymetrix商业产品用于随机收集序列中的SNP检测。

下列全面设计方案用于RPMV1：

遵循Affymetrix CustomSeq设计方案。虽然在项目协作组内对于非特异性扩增微阵列分析靶点进行了许多努力，本发明者则努力在阵列上拼接序列，该阵列可查询常规(成对特异性引物)PCR扩增子。任何可能时，成对引物形成或适合于保守序列，该保守序列位于拼接微阵列探针可进行查询的可变区的侧翼。这允许具有的能力：(1)直接采用存在硬盘平台进行扩增(例如，RAPID Light Cycler、Idaho Technologies)，(2)提供用种属或全部扩增策略比对的控制测量法，这些种属或全部扩增策略是立即见效的。一般来说，我们的策略是为了让杂交模式与特异性有机体匹配并且检测对应于致病性和耐药性的序列中存在细微变化。

4、5、和7型腺病毒(双链DNA病毒)各自指定为E、C和B的“原型”。特殊地，本发明者假定了原型拼接区域上再测序将监测和鉴别亚群成员之间细微序列变化。三个靶点基因区域被筛选出，尤其从E1A、六邻体、和纤维基因中筛选出。然而，不能假设或不能预期的是任何拼接的哪个区域或哪个部分将进行独一无二的鉴别。

作为流行病爆发监控程序的一部分，十三个腺病毒基因组进行完全测序。名称、登录号和来源记录在实施例部分的表6中。进行多重序列分析确定保守序列位于侧面的E1A、六邻体、和纤维基因可变区，该保守序列可被用于用单组简并引物扩增多重腺病毒(Lin et al，2004)。E1A、六邻体、和纤维基因的共有区得到3个原型腺病毒中的每一种，该3个原型腺病毒与呼吸疾病有关：7(B子群)、5(C子群)、和4(E子群)被提交给Affymetrix作为拼接在RPMV1微阵列上的29.7kb全部病原菌靶点序列的一部分。

腺病毒分类：

B子群：3、7、11、14、21、34、35和50

C子群：1、2、5、和6

E子群：4

本发明者进行了假设，如果为了原型代表子群，7、5、和4型(分别为B、C、和E子群)，他们将三个基因(E1A、六邻体、和纤维基因)拼接到阵列上，将能够通过杂交模式的变异鉴别任何完全测序型(上面列出的)，该杂交模型比对其序列差异。

用红血球凝聚素(HA)神经氨酸酶(NA)和基质(M)的原型区域表示流行性感冒A和B病毒，该流行性感冒A和B病毒为负极性单链RNA病毒(ssRNA)。这些基因表示为三种类型的流行性感冒A(H1N1、H3N2和H5N1)和流行性感冒B。流行性感冒为原型模式系统最好的实施例之一，如数百个，要不然数千个流行性感冒菌株至少部分测序，并且大多数已经测序红血球凝聚素和神经氨酸酶片断。

原型流行性感冒HA、NA和M基因从菌株中选出，该菌株为任一等同于紧密相关的三个疫苗株，该三个疫苗株经世界卫生组织推荐给北半球；

·A/New Caledonia/20/99/(H1N1)

·A/Moscow/10/99/(H3N2)

·B/Hong Kong/330/2001

这些序列可从Los Alamos国家实验室流行性感冒因特网数据库中得到。本发明者假定，如果靶点足够类似到可以进行类似性搜索查询，原型拼接区域上未知流行性感冒A或B的序列响应将能鉴别靶点。

RPMV1的残余物由多种普通呼吸病原菌拼接构成，第一组为病毒：

鼻病毒A(pos)SSRNA

鼻病毒B(pos)SSRNA

冠状病毒(pos)SSRNA；无DNA中间体

副流感病毒(neg)SSRNA

RSV(neg)SSRNA

相对于腺病毒和流行性感冒，这些病毒性病原菌具有相对小的可用序列，同时采用原型序列鉴别大量相关菌株的进行模拟试验。

也选择常见细菌性病原菌：

化脓性链球菌

肺炎支原体

百日咳杆菌

肺炎衣原体菌

肺炎链球菌

脑膜炎双球菌

此外，下列质粒决定的耐抗生素基因在RPMV1芯片上被表示出：

ermA

ermB

ermTR

大环内酯类外排决定簇(mef)A

下列生物威胁药物也包括在RPMV1芯片上：

炭疽热细菌(靶点：致命性因素、保护性抗原)

鼠疫耶尔辛氏杆菌

天花(大天花)

土拉弗朗西斯菌

病毒性出血热(丝状病毒[例如.埃博拉病毒、马尔堡病]和沙状病毒[例如.拉沙热、马丘波病毒])

除了Affymetrix规定的杂交对照组(参见CustomSeq方案)，可认为包括内部加工对照来检验靶点分离、反转录(RT)和cDNA/DNA扩增。因此，我们包括含有植物拟南芥基因插入物的专用载体(Yang et al.，2002)并且提供了阵列上拼接区域给载体的几个基因插入物。

为了所有靶点除了腺病毒和流行性感冒，本发明者从含有诊断区域的基因公开文献资料(例如.，NCBI GenBank)中筛选出靶点并且拼接诊断区域或含有那个区域的较大编码区域。所有靶点基因、PCR引物位点和RPMV1引物的全部列表在表8(在下面)和序列附表中显示出。提交给拼接和制备芯片的序列在表7(在下面)和序列附表中进行了总结

然而，本发明并不局限于上面列出的特异性序列和/或微生物(细菌或病毒)。在技术人员能力范围内为满足指定领域试验的特殊要求来定制“病原菌芯片”。这种剪裁可能按基因水平或按微生物水平。很明显地，技术人员将从上面通用方案中得到更大帮助。

再测序微阵列芯片版本2(RPMV2芯片)

RPMV2建立在具有指定尺寸8x8微米的高密度Affymetrix微阵列上。在这个密度下，约300kb靶点序列信息将拼接用于再测序。

通用设计策略在表2-4(下面)中进行了描述。RPM V2设计使得RPMV2序列含量为RPMV1序列含量的约10倍，因此包含大量病原菌，包括延伸表示RPMV1上所有病原菌、许多其他呼吸病原菌、和整组的CDC A、B、和C类生物恐怖药剂。RPMV2内容的全部列表在实施例8中提供了。RPMV2设计经包括探针，如emm型化脓性链球菌，延伸了分子流行病学性能。这个特性将给流行病学专家/公共卫生专业人员提供了确定可能疾病病例和研究人群(监狱、宿舍、疗养院、部队兵营，等)带有病原菌的传播的能力。这些探针也可预测病原菌毒性和人群中疾病的临床表现。

被表示的病原菌的数量也能采用增加微阵列每单位面积上探针而被扩大。本发明的芯片利用了较高密度同时探测和在可能存在于单个临床样本中的大量候补病原菌之间进行分析。

也值得注意的是基因表达标记能概念上以同一种方式被拼接到阵列上成为基因组标记。因此，序列表达病原菌转录(RNA模板编码蛋白合成)能同时与那些再测序的基因组标记一起安置在阵列上。这将使微阵列不仅能够检测病原菌的存在，也将能确定其生活力，因为转录标记将仅存在于完整的病原菌中。

表2：RPMV2设计(名称)

呼吸病原菌种类/亚种类/亚种类/亚种属/种 Rx Res

名称种种

BT试剂名称(CDC A；B；C)

腺病毒

亚群A 六邻体纤毛 E1A

亚群B1

腺病毒3 六邻体纤毛 E1A

腺病毒7 六邻体纤毛 E1A

腺病毒16 六邻体纤毛 E1A

腺病毒21 六邻体纤毛 E1A

亚群B2

腺病毒11 六邻体纤毛 E1A

腺病毒35 六邻体纤毛 E1A

亚群C

腺病毒1 六邻体纤毛

腺病毒2 六邻体纤毛 E1A

腺病毒5 六邻体纤毛 E1A

腺病毒6 六邻体纤毛 E1A

亚群D E1A

亚群E

腺病毒4 六邻体纤毛 E1A

亚群F 六邻体纤毛 E1A

流行性感冒

流行性感冒A

血球凝集素1 神经氨酸酶1 神经氨酸酶1 基体

(全部) (全部) (H5N1)

血球凝集素2 神经氨酸酶2

(全部)

血球凝集素3 神经氨酸酶3

(全部)

血球凝集素4 神经氨酸酶4

血球凝集素5 神经氨酸酶5

血球凝集素6 神经氨酸酶6

血球凝集素7 神经氨酸酶7

血球凝集素8 神经氨酸酶8

血球凝集素9 神经氨酸酶9

血球凝集素10

血球凝集素11

血球凝集素12

血球凝集素13

血球凝集素14

血球凝集素15 基体

流行性感冒B 血球凝集素B 神经氨酸酶B 基体

流行性感冒C 血球凝集素

副流行性感冒

副流行性感冒1 血球凝集素- 基体

神经氨酸酶

副流行性感冒2 血球凝集素- 基体

神经氨酸酶

副流行性感冒3 血球凝集素- 基体

神经氨酸酶

副流行性感冒4A 血球凝集素- 基体

神经氨酸酶

鼻病毒 5′NCR HRV 5′NCR HRV21 5′NCR HRV29 5′NCR 5′NCR

9501468 HRV HRV62

9501821

5′NCR HRV1A 5′NCR HRV58 5′NCR HRV14 HRV87

冠状病毒

膜

糖蛋白基体

血球凝集素-

酯酶

表面

糖蛋白

呼吸道合胞

病毒

1型(RSV A) 壳包核酸基体

2型(RSV B) 壳包核酸基体

链球菌属

链球菌属 emm 1 ST2035 ST4529L ST4532 ST4264 ST4547 GyrA Erm(A)；Erm(B)；

Erm(TR)；Mef A；

MefE;prtF1;;put.Rx

emm 75 emm13L ST3018 U92492 ST14973 STCMUK16 resist prat.；tet(O)

ST2267 U50338 ST2980 ST230-2 ST436

ST448L ST3365 ST1135 ST1161 ST1432

ST6949 ST1160

emm1 emm2 emm3 emm4 emm5

emm6 emm7 emm8 emm9 emm10

emm11 emm12 emm13 emm14 emm15

emm16 emm17 emm18 emm19 emm20

emm21 emm22 emm23 emm24 emm25

emm26 emm27 emm28 emm29 emm30

emm31 emm32 emm33 emm34 emm35

emm36 emm37 emm38 emm39 emm40

emm41 emm42 emm43 emm44 emm45

emm46 cmm47 emm48 emm49 emm50

emm51 emm52 emm53 emm54 emm55

副流行性感冒 emm61 emm62 emm63 emm64 emm65

副流行性感冒1 emm66 emm67 emm68 emm69 emm70

emm71 emm72 emm73 emm74 emm75

副流行性感冒2 emm76 emm77 emm78 emm79 emm80

emm81 emm82 emm83 emm84 emm85

副流行性感冒3 emm86 emm87 emm88 emm89 emm90

emm91 emm92 emm93 emm94 emm95

副流行性感冒4A emm96 emm97 emm98 emm99 emm100

emm101 emm102 emm103 emm104 emm105

emm106 emm107 emm108 emm109 emm110

U74320

Csr R&Csr S sic SpeB

肺炎链球菌属 ponA(Pbp1 A) GyrA GyrB；ParC

金黄色葡萄球菌属 entQ entK tst seb GyrA MSR(A)；mecR1；VanA

；BlaZ；dfrA；qacC

肺炎支原体属 P1基因 GyrA

百日咳博德特氏菌百日咳毒素 PmA

衣原体属

肺炎衣原体属 OmpB DNA促旋酶

鹦鹉热衣原体 OmpA SigA

脑膜炎奈瑟氏球菌 MviN GyrA

杆菌

炭疽热细菌保护性抗原 rpoB 致命因素 adema GyrA

因素

(Cya)

腊样芽胞杆菌 rpoB

苏云金杆菌 cry rpoB

枯草杆菌 rpoB

rpoB

鼠疫耶尔森氏菌属 OmpA cve2155序列 GyrA

天花(大天花) 血球凝集素 SOD 化学增活

猴痘血球凝集素 IA 结合蛋白

血球凝集素

土拉弗朗西斯菌 TUL4 不同 mdh

区域(RD1)

丝状病毒

埃博拉病毒 L基因 NP蛋白

马尔堡病毒 L基因 NP蛋白

沙状病毒

拉沙热病毒 L基因 NP蛋白

马秋波病毒 L基因 NP蛋白

伯克霍尔德氏菌

鼻疽假单胞菌 PenA WaaF

(马鼻疽)

类鼻疽伯克氏菌 PenA WaaF

(类鼻疽)

洋葱伯克霍尔德菌 recA

流行性斑疹伤寒 Ompl GyrA ermB

(摩氏立克次氏体)

GyrA

甲型病毒

委内瑞拉马脑炎非结构性的

多蛋白

东方型马脑炎非结构性的

多蛋白

西方型马脑炎非结构性的

多蛋白

布鲁氏菌 Omp25 Omp2 RB51_WBOA_IS711J

流产布鲁氏菌(2308B37) INSERT

马耳他布鲁氏杆菌(F6145)

猪布鲁氏杆菌(A44) GyrA

犬布鲁氏菌

羊布氏杆菌

鼠布鲁氏菌

溶血隐秘杆菌 16S rRNA pld

流感嗜血杆菌 OmpP5(OmpA- GyrA

家族)

莫拉克斯氏菌属血球凝集素 GyrA

分支杆菌属 Omp A GyrA

痨病

杆菌

肉毒杆菌 Ntnh Bont

产气荚膜梭菌 TmpC ε-毒素 GyrA

破伤风杆菌 L&H链 GyrA A

G

yrA

贝氏考克斯菌 ToIC GyrA

小球隐孢子虫 Sod CP2

E.coli 0157：H7 Omp A 志贺氏毒素I 志贺氏毒素II GyrA

蓖麻子篦麻毒素

沙门氏菌属

肠道沙门氏菌 OmpA GyrA

鼠伤寒沙门氏菌 OmpA前体

志贺氏菌属

痢疾志贺氏杆菌 OmpA

弗氏志贺菌 OmpA GyrA

霍乱弧菌 OmpA CtxA&CtxB GyrA

尼帕病毒壳包核酸 Matrix

汉坦病毒 GyrA

未名病毒壳包核酸糖蛋白 GyrA

嗜肺军团菌 MompS GyrA

荚膜组织胞浆菌 M抗原 H抗原

皮炎芽生菌 WI-1 Bysl

球孢子菌 Bg12 Ag2

水痘

水痘HHV-6 主要衣壳蛋白主要抗原结构蛋白

水痘HHV-3 主要衣壳蛋白即早转录数活因子

埃-巴二氏病毒主要衣壳蛋白即早转录激活因子

棒状杆菌属

白喉杆菌 Dtx基因 GyrA

肠病毒(属) 肠病毒

柯萨基病毒(亚群) 柯萨基病毒

埃可病毒(亚群) 埃可病毒

骨髓灰质炎病毒(亚群) 骨髓灰质炎病毒

副粘病毒科

副粘病毒科血球凝聚素基体

麻疹病毒(Rubeola)

新城病毒血球凝聚素- 基体

沙门氏菌属神经氨酸酶

西尼罗河病毒荚囊非结构蛋白5

黄热病荚囊非结构蛋白5

偏肺病毒壳包核酸

诺沃克病毒 RNA-dependent 壳包核酸基体

RNA聚合酶

登革热病毒壳蛋白^ pre-M蛋白

手足口病 VPI基因 3D基因

圣路易斯脑炎病毒多蛋白 NS5 基体

立夫特谷热核蛋白非结构蛋白 GyrA

糖蛋白 GyrA

尤苏它病毒多蛋白

恙虫热 GroEL tsa

金迪普拉病毒 G糖蛋白基体

人造插入序列 Bluescript II(KS+) pUC pGEM

多重克隆位点

耐Rx标记物

表3：RPMV2设计(名称)

呼吸病原菌种类/亚种类/亚种类/亚种种类/亚种属/钟 Rx Res

名称种种

BT试剂名称(CDC A；B；C)

腺病毒

亚群A NC_001460 NC_001460 NC_001460

亚群B1

腺病毒3 AF542129 AY224415 AF492352

腺病毒7 X76551 Z48954 AY495969

腺病毒16 X74662 U06106

腺病毒21 AB053166 U06107 AF492353

亚群B2

腺病毒11 AF532578 L08232 BK001453

腺病毒35 AB052912 AB098563 AY128640

亚群C

腺病毒1 AF534906 AB108423 AF534906

腺病毒2 AY224391 AY224410 BK000407

腺病毒5 AF542130 AY224411 AY147066

腺病毒6 X67710 AB108424 E1A

亚群D NC_002067 NC_002067 NC_002067_

亚群E

腺病毒4 X84646 X76547 E1A

亚群F NC_001454 NC_001454 NC_001454

流行性感冒 Crieria：Human；Swine；Avian

流行性感冒A

AJ344014 AJ518092 AY52746 AJ458301

(疫苗)

L11125 U42776

ISDN38157 AY300947

(疫苗)

ISDN13277 K01030

(疫苗)

AF285885

AY526745 M24740

AJ507203 AF285887

AY338459 AY340079

AF310988 AY300948

AY294658 AY180830

AF311750

AF310986

AF310990

M26089

M35997

L43916

流行性感冒B AB126838 AY139074 AB036877

流行性感冒C AB093473 AB086809

副流行性感冒

副流行性感冒1 NC 003461 NC_003461

副流行性感冒2 NC 003443 NC_003443

副流行性感冒3 AY283063 NC_001796

副流行性感冒4A E02727 E03809

鼻病毒 AF108164 AF108180 AF542420 AF542420 AF108184

AF108179 AF108183 AF108186 AF108187

冠状病毒

SARS AY323974 AY365036 AY429079 AY390556

OC43 M76373 NC_005147 L14643

229E NC_002645 X51325 X16816

呼吸道合胞病毒

1型(RSV A) AF035006 AF035006

2型(RSV B) AF013254 AF013254

-

链球菌属 emm source

化脓性链球菌属 ST2035 ST4529L ST4532 ST4264 ST4547 AE006557 Erm(A)；

AY357120；

Erm(TR)；

emm13L ST3018 U92492 ST14973 STCMUK16 U70055；MefE；

ST2267 U50338 ST2980 ST230-2 ST436 prtF1；

ST448L ST3365 ST1135 ST1161 ST1432 AE006513

ST6949 ST1160

emm1 emm2 emm3 emm4 emm5

emm6 emm7 emm8 emm9 emm10

emm11 emm12 emm13 emm14 emm15

emm16 emm17 emm18 emm19 emm20

emm21 emm22 emm23 emm24 emm25

emm26 emm27 emm28 emm29 emm30

emm31 emm32 emm33 emm34 emm35

emm36 emm37 emm38 emm39 emm40

emm41 emm42 emm43 emm44 emm45

emm46 emm47 emm48 emm49 emm50

emm51 emm52 emm53 emm54 emm55

emm56 emm57 emm58 emm59 emm60

emm61 emm62 emm63 emm64 emm65

emm66 emm67 emm68 emm69 emm70

emm71 emm72 emm73 emm74 emm75

emm76 emm77 emm78 emm79 emm80

emm81 emm82 emm83 emm84 emm85

emm86 emm87 emm88 emm89 emm90

emm96 emm97 emm98 emm99 emm100

emm101 emm102 emm103 emm104 emm105

emm106 emm107 emm108 emm109 emm110

U74320

U11966 AF095713 AY229859 AB051298

肺炎链球菌属 X67867 AY157689

金黄色葡萄球菌属 U93688 U93688 U93688 M11118 D 10489

肺炎支原体属 AF290002 X53555

百日咳博德特氏菌 M13223 AJ507642 BX640413(密码子

286253)

衣原体属

肺炎衣原体属 X53511 AB 103388

鹦鹉热衣原体 AF269281 U04442 -

脑膜炎奈瑟氏球菌 AE002384 AE002487

杆菌

炭疽杆菌 AF306783 AF205335 M29081 M24074 AY291534

腊样芽胞杆菌 AF205342

苏云金芽孢杆菌 AF278797 AF205349

枯草杆菌 AF205356 X02369(orf 821)

鼠疫杆菌 NC_003143 AF350077 AE013898

天花(大天花) L22579 L22579 L22579

猴痘

水痘

土拉弗朗西斯菌 M32059 AF469619 AF513319

丝状病毒

埃博拉病毒 NC_004161 NC_004161

马尔堡病毒 NC_001608 NC_001608

沙状病毒

沙拉热病毒 NC_004297 NC_004296

马丘博病毒 NC_005079 NC_005078

伯克霍尔德菌

鼻疽假单胞菌 AY032868 AY124769

类鼻疽伯克氏菌 AY032869 AF097748

(类鼻疽)

洋葱伯克霍尔德菌 U70431

斑疹伤寒(摩氏立克次氏体) AJ235270 AJ235270(密码子 AJ235270

250672)

甲型病毒

委内瑞拉马脑炎 L04653 L04653

东方型马脑炎 NC003899 NC003899

西方型马脑炎 NC003908 NC003908

布鲁氏菌一致一致一致

流产布鲁氏菌(2308B37)

马耳他布鲁氏杆菌(F6145)

猪布鲁氏杆菌(A44) AE014411

犬布鲁氏菌

羊布氏杆菌 -

鼠布鲁氏菌

溶血隐秘杆菌 X73952 L16583

流感嗜血杆菌 L20309 U32806

卡他莫拉菌 AY077637 AF056196

分枝杆菌 BX842574 AE006915

痨病

杆菌

肉毒杆菌 Y13630 X62683

产气荚膜梭菌 AP003191 X60694 AP003185

破伤风杆菌 X04436

贝氏考克斯菌 AE016960 AE016960

小球隐孢子虫 AF529280 AY471868

E.coli 0157：H7 AE005582 AB083044 AB048837 NC_002655

蓖麻子 X52908

沙门氏菌属

肠道沙门氏菌 AL627269 AE016836(密码子

鼠伤寒沙门氏菌 AE008746 70224)

志贺氏菌属

痢疾志贺氏杆菌 V01344

弗氏志贺菌 AE015125 AE016986

霍乱弧菌 AF030977 Gary Custom NC_002505

尼帕病毒 NC_002728 NC_002728

汉坦病毒

未名病毒 NC_005216 L33474

嗜肺军团菌 AF078136 AY091594

荚膜组织胞浆菌 AF026268 U20346

AE014411

皮炎芽生菌 S63772 AF277079

-

粗球霉菌 AF022893 U32518

水痘

水痘HHV-6 NC_001664 NC_001664

水痘HHV-3 NC_001348 NC_001348

埃-巴二氏病毒 NC_001345 NC_001345

棒状杆菌属

白喉杆菌 A04646 BX248354

肠病毒(属) NC_001612

柯萨基病毒(亚群) AF499635

埃可病毒(亚群) NC_003986

骨髓灰质炎病毒(亚群) NC_002058

副粘病毒科

副粘病毒科 AY523581 NC_001498

麻疹病毒〔Rubeola〕

新城病毒 AY510092 NC_002617

西尼罗河病毒 AF346319 AF208017

黄热病 AY359908 AF013417

偏肺病毒 AY145272 AY145271

肠道沙门氏菌 AL627269

诺沃克病毒 NC_001959 NC_001959

NC_001474 NC_001474 NC_001474

手足口病 NC_004004 NC_004004

圣路易斯脑炎病毒 AY289618 AF013416

立夫特谷热 X53771 X53771

尤苏它病毒 AF452643

恙虫热 AY191589 AY283180

金迪普拉病毒 J04350 AF128868

人造插入序列 Stratagene Provided X06404 X65312

多重克隆位点

耐Rx标记物

表4：RPMV2设计(尺寸)

呼吸病原菌种类/亚种类/亚种类/亚种属/钟 Rx Res

名称种种

BT试剂名称(CDC A；B；C)

腺病毒 836 860 597

亚群A

亚群B1 685 829 880

腺病毒3 605 829 880

腺病毒7 673 906

腺病毒16 759 637 819

腺病毒21

亚群B2

腺病毒11 629 1025 789

腺病毒35 641 711 789

亚群C

腺病毒1 667 802 870

腺病毒2 789 698 870

腺病毒5 684 826 1055

腺病毒6 785 578

亚群D 644 783 579

亚群F

腺病毒4 2281 1375 616

亚群F 828 659 909

流行性感冒

流行性感冒A

1692 1459 575 734

757 1410

1042 804

1323 257

303 865

839 691

770 795

849 444

553

727

680

690

813

715

745

流行性感冒B 737 761 715

流行性感冒C 401 862

副流行性感冒

副流行性感冒1 1649 910

副流行性感冒2 1646 693

副流行性感冒3 1581 498

副流行性感冒4A 638 807

鼻病毒 508 499 338 503 501

511 504 520 506

冠状病毒

SARS 666 1269 3768 666

OC43 828 557 1042

229E 753 789 1393

呼吸道合胞病毒

1型(RSV A) 907 958

2型(RSV B) 554 826

链球菌属

化脓性链球菌属 675 425 713 661 340 815 Erm(A)；

763；732；

200 316 371 415 680 563；

413 384 401 688 350 MefE；

355 554 619 475 664 prtF1

650 635

325 360 391 337 490

437 emm7 emm8 509 emm10

500 364 emm13 439 652

emm16 187 emm18 381 emm20

emm21 620 258 421 561

936 317 333 328 265

339 299 328 340 emm35

410 270 481 369 340

488 408 306 391 Emm45

315 331 489 485 287

423 499 414 293 405

389 338 391 433 452

325 334 429 538 640

528 335 526 566 440

300 256 328 306 451

353 450 415 322 354

432 497 421 324 448

404 420 346 379 483

393 363 403 516 408

358 357 351 372 340

350 354 emm103 emm104 emm105

cmm106 emm107 emm108 emm109 emm110

533

292 904 1008 681

肺炎链球菌属 1237 815 GyrB；

ParC

400；652；

金黄色葡萄球菌 771 729 705 713 821 1032；

846；##；

肺炎枝原体 2526 809 ##

百日咳博德特氏菌 824 730 815

衣原体属

肺炎衣原体 982 824

鹦鹉热衣原体 991 835

脑膜炎奈瑟氏球菌 856 941

杆菌

炭疽杆菌 551 777 638 985 732

腊样芽胞杆菌 777

苏云金芽孢杆菌 805 777

枯草杆菌 780 812

Bacillus globigii

鼠疫杆菌 913 517 812

天花(大天花) 942 378 762

猴痘 764

水痘

土拉弗朗西斯菌 786 3322 960

丝状病毒

埃博拉病毒 752 758

马尔堡病毒 1170 799

沙状病毒

拉沙热病毒 973 703

马丘波病毒 1540 715

伯克霍尔德菌

鼻疽假单胞菌 1117

(鼻疽)

类鼻疽伯克氏菌 1117 1100

(类鼻疽)

洋葱伯克霍尔德菌 563

斑疹伤寒(摩氏立克次氏体) 985 968 1560

甲型病毒

委内瑞拉马脑炎 923 1512

东方型马脑炎 1312 975

西方型马脑炎 878 902

布鲁氏菌 582 2428 1291

流产布鲁氏菌(2308B37)

马耳他布鲁氏杆菌(F6145) 995

猪布鲁氏杆菌(A44)

犬布鲁氏菌

羊布氏杆菌

鼠布鲁氏菌

溶血隐秘杆菌 1489 1111

流感嗜血杆菌 937 896

卡他莫拉菌 653 321

分枝杆菌 932

痨病 818

杆菌

肉毒杆菌 499 1000

产气荚膜梭菌 1113 572

破伤风杆菌 1138 810

贝氏考克斯菌 1851 812

小球隐孢子虫 375 2304

E.coli 0157：H7 660 948 960 812

蓖麻子 1133

沙门氏菌属

肠道沙门氏菌 904

鼠伤寒沙门氏菌 904 812

志贺氏菌属

痢疾志贺氏杆菌 907

弗氏志贺菌 898 812

霍乱弧菌 942 984 887

尼帕病毒 858 1359

汉坦病毒

未名病毒 639

嗜肺军团菌 1157 236

荚膜组织胞浆菌 919 1082

皮炎芽生菌 942 912

粗球霉菌 965 1234

水痘

水痘HHV-6 890 1236

水痘HHV-3 822 781

埃-巴二氏病毒 971 1317

-

棒状杆菌属

白喉杆菌 913

818

肠病毒(属) 1758

柯萨基病毒(亚群) 920

埃可病毒(亚群) 1277

骨髓灰质炎病毒(亚群) 1226

副粘病毒科

副粘病毒科 1854

麻疹病毒(Rubeola) 1008

新城病毒 1734 1232

西尼罗河病毒 1504 917

黄热病 1547 1035

偏肺病毒 1185 765

诺沃克病毒 961 712

登革热病毒 300 498

手足口病 633 799

圣路易斯脑炎病毒 679 1035

立夫特谷热 738 798

尤苏它病毒 1035

恙虫热 546 1011

金迪普拉病毒 704 755

人造插入序列 2961 3914 2912

多重克隆位点

耐Rx标记物

芯片尺寸 293826

提交给RPMV2拼接和芯片制备的序列是基于表5中总结的Affymetrix说明书文件，对应于如SEQ ID NOs：50-421显示的序列。

表5：RPMV2拼接和芯片制备的Affymetrix说明书文件

名称	Alias	起始	结束	序列号	起始序列	终止序列
名称	Alias	起始	结束	序列号	起始序列	终止序列	ATTIM1	ATTIM1	1	523	59	ACATCGAC	GAGCTTGC
Ad3E1A	Ad3E1A	1	879	60	TGAGACAC	GGCAATGA	ATTIM1	ATTIM1	1	523	59	ACATCGAC	GAGCTTGC
Ad3E1A	Ad3E1A	1	879	60	TGAGACAC	GGCAATGA	Ad3HEXON	Ad3HEXON	1	595	61	CCAGCACA	CATGTGGT
Ad3FIBER	Ad3FIBER	1	746	62	AAGCGGCT	AACCCTCA	Ad3HEXON	Ad3HEXON	1	595	61	CCAGCACA	CATGTGGT
Ad3FIBER	Ad3FIBER	1	746	62	AAGCGGCT	AACCCTCA	Ad7E1A	Ad7E1A	1	868	63	TGAGACAC	AAACTGCC
Ad7HEXON	Ad7HEXON	1	513	64	CCAGCACA	TGCTGACG	Ad7E1A	Ad7E1A	1	868	63	TGAGACAC	AAACTGCC
Ad7HEXON	Ad7HEXON	1	513	64	CCAGCACA	TGCTGACG	Ad7FIBER	Ad7FIBER	1	977	65	TGACCAAG	ACGACTGA
Ad7NAVYE1A	Ad7NAVYE1A	1	879	66	ATGAGACA	AGGCAATA	Ad7FIBER	Ad7FIBER	1	977	65	TGACCAAG	ACGACTGA
Ad7NAVYE1A	Ad7NAVYE1A	1	879	66	ATGAGACA	AGGCAATA	Ad7NAVYHEXON	Ad7NAVYHEXON	1	504	67	CCAGCACA	TGCTGACG
Ad7NAVYFIBER	Ad7NAVYFIBER	1	975	68	TGGCTTTA	CCCCACGC	Ad7NAVYHEXON	Ad7NAVYHEXON	1	504	67	CCAGCACA	TGCTGACG
Ad7NAVYFIBER	Ad7NAVYFIBER	1	975	68	TGGCTTTA	CCCCACGC	Ad16E1A	Ad16E1A	1	878	69	TGAGACAC	GGCAATGA
Ad16HEXON	Ad16HEXON	1	667	70	CGTTGACC	AGGACACC	Ad16E1A	Ad16E1A	1	878	69	TGAGACAC	GGCAATGA
Ad16HEXON	Ad16HEXON	1	667	70	CGTTGACC	AGGACACC	Ad16FIBER	Ad16FIBER	1	652	71	GGGAGATG	AGGAAGCC
Ad21E1A	Ad21E1A	1	878	72	TGAGACAC	GACAATGA	Ad16FIBER	Ad16FIBER	1	652	71	GGGAGATG	AGGAAGCC
Ad21E1A	Ad21E1A	1	878	72	TGAGACAC	GACAATGA	Ad21HEXON	Ad21HEXON	1	807	73	CGCCACAG	GTGTACAA
Ad21FIBER	Ad21FIBER	1	685	74	GCTCAGTG	CCTTTATG	Ad21HEXON	Ad21HEXON	1	807	73	CGCCACAG	GTGTACAA
Ad21FIBER	Ad21FIBER	1	685	74	GCTCAGTG	CCTTTATG	Ad11E1A	Ad11E1A	1	872	75	TGAGAGAT	GACAATAA
Ad11HEXON	Ad11HEXON	1	677	76	CGCCACAG	TCAGAAAG	Ad11E1A	Ad11E1A	1	872	75	TGAGAGAT	GACAATAA
Ad11HEXON	Ad11HEXON	1	677	76	CGCCACAG	TCAGAAAG	Ad11FIBER	Ad11FIBER	1	977	77	TGACCAAG	ACGACTGA
Ad35E1A	Ad35E1A	1	872	78	TGAGAGAT	GACAATAA	Ad11FIBER	Ad11FIBER	1	977	77	TGACCAAG	ACGACTGA
Ad35E1A	Ad35E1A	1	872	78	TGAGAGAT	GACAATAA	Ad35HEXON	Ad35HEXON	1	689	79	CGCCACAG	TGAAAAAA
Ad35FIBER	Ad35FIBER	1	971	80	TGACCAAG	ACAACTAA	Ad35HEXON	Ad35HEXON	1	689	79	CGCCACAG	TGAAAAAA
Ad35FIBER	Ad35FIBER	1	971	80	TGACCAAG	ACAACTAA	Ad1E1A	Ad1E1A	1	986	81	TGAGACAT	GGCCATAA
Ad1HEXON	Ad1HEXON	1	715	82	AGTGGTCT	TGCTACGG	Ad1E1A	Ad1E1A	1	986	81	TGAGACAT	GGCCATAA

Ad1FIBER	Ad1FIBER	1	750	83	GATGCTGT	AAGAATAA
Ad1FIBER	Ad1FIBER	1	750	83	GATGCTGT	AAGAATAA	Ad2E1A	Ad2E1A	1	983	84	TGAGACAT	GGCCATAA
Ad2HEXON	Ad2HEXON	1	837	85	AGTGGTCT	CGACCGGC	Ad2E1A	Ad2E1A	1	983	84	TGAGACAT	GGCCATAA
Ad2HEXON	Ad2HEXON	1	837	85	AGTGGTCT	CGACCGGC	Ad2FIBER	Ad2FIBER	1	750	86	ATAGCTAT	AGGAATAA
Ad5E1A	Ad5E1A	1	985	87	TGAGACAT	GGCCATAA	Ad2FIBER	Ad2FIBER	1	750	86	ATAGCTAT	AGGAATAA
Ad5E1A	Ad5E1A	1	985	87	TGAGACAT	GGCCATAA	Ad5HEXON	Ad5HEXON	1	732	88	AGTGGTCT	TGTAAAGC
Ad5FIBER	Ad5FIBER	1	747	89	ACAGCCAT	AAGAATAA	Ad5HEXON	Ad5HEXON	1	732	88	AGTGGTCT	TGTAAAGC
Ad5FIBER	Ad5FIBER	1	747	89	ACAGCCAT	AAGAATAA	Ad6E1A	Ad6E1A	1	985	90	TGAGACAT	GGCCATAA
Ad6HEXON	Ad6HEXON	1	833	91	GAATGAAG	AATTGGGA	Ad6E1A	Ad6E1A	1	985	90	TGAGACAT	GGCCATAA
Ad6HEXON	Ad6HEXON	1	833	91	GAATGAAG	AATTGGGA	Ad6FIBER	Ad6FIBER	1	750	92	TCCTCAAA	CAGAAAAT
Ad4E1A	Ad4E1A	1	865	93	TGAGGCAC	GGCATTAA	Ad6FIBER	Ad6FIBER	1	750	92	TCCTCAAA	CAGAAAAT
Ad4E1A	Ad4E1A	1	865	93	TGAGGCAC	GGCATTAA	Ad4HEXON	Ad4HEXON	1	2810	94	TGGCCACC	CCACATAA
Ad4FIBER	Ad4FIBER	1	1277	95	TGTCCAAA	AACAATAA	Ad4HEXON	Ad4HEXON	1	2810	94	TGGCCACC	CCACATAA
Ad4FIBER	Ad4FIBER	1	1277	95	TGTCCAAA	AACAATAA	Ad4AFE1A	Ad4AFE1A	1	832	96	TGAGGCAC	GACATTAA
Ad4AFHEXON	Ad4AFHEXON	1	2810	97	TGGCCACC	CCACATAA	Ad4AFE1A	Ad4AFE1A	1	832	96	TGAGGCAC	GACATTAA
Ad4AFHEXON	Ad4AFHEXON	1	2810	97	TGGCCACC	CCACATAA	Ad4AFFIBER	Ad4AFFIBER	1	1277	98	TGTCCAAA	AAGAATAA
Ad12E1A	Ad12E1A	1	597	99	ATGAGAAC	GGAGGTGA	Ad4AFFIBER	Ad4AFFIBER	1	1277	98	TGTCCAAA	AAGAATAA
Ad12E1A	Ad12E1A	1	597	99	ATGAGAAC	GGAGGTGA	Ad12HEXON	Ad12HEXON	1	884	100	CCTACTTC	TGCAAGAC
Ad12FIBER	Ad12FIBER	1	908	101	CAGCAGAA	CGTTGCCG	Ad12HEXON	Ad12HEXON	1	884	100	CCTACTTC	TGCAAGAC
Ad12FIBER	Ad12FIBER	1	908	101	CAGCAGAA	CGTTGCCG	Ad17E1A	Ad17E1A	1	579	102	ATGAGACA	GAGGCTGA
Ad17HEXON	Ad17HEXON	1	692	103	CTTCAGCC	GAAGAATA	Ad17E1A	Ad17E1A	1	579	102	ATGAGACA	GAGGCTGA
Ad17HEXON	Ad17HEXON	1	692	103	CTTCAGCC	GAAGAATA	Ad17FIBER	Ad17FIBER	1	829	104	TCCTGTCA	TATCAGCC
Ad40E1A	Ad40E1A	1	824	105	CTTGAGTG	ATAGAAGA	Ad17FIBER	Ad17FIBER	1	829	104	TCCTGTCA	TATCAGCC
Ad40E1A	Ad40E1A	1	824	105	CTTGAGTG	ATAGAAGA	Ad40HEXON	Ad40HEXON	1	876	106	CGCAATGG	TAATTACA
Ad40FIBER	Ad40FIBER	1	707	107	CACTGACA	TCAGTGTC	Ad40HEXON	Ad40HEXON	1	876	106	CGCAATGG	TAATTACA
Ad40FIBER	Ad40FIBER	1	707	107	CACTGACA	TCAGTGTC	FluAHA1	FluAHA1	1	1692	108	ATGAAAGC	GAATATGC
FluAHA2	FluAHA2	1	805	109	AAGGTCGA	TTTGGGAG	FluAHA1	FluAHA1	1	1692	108	ATGAAAGC	GAATATGC
FluAHA2	FluAHA2	1	805	109	AAGGTCGA	TTTGGGAG	FluAHA3	FluAHA3	1	1042	110	CAAAAACT	AATGGTGG
FluAHA4	FluAHA4	1	1371	111	AGGAAATC	GACAAAGG	FluAHA3	FluAHA3	1	1042	110	CAAAAACT	AATGGTGG

FluAHA5	FluAHA5	1	303	112	ATGCCCCA	TTTAACAA
FluAHA5	FluAHA5	1	303	112	ATGCCCCA	TTTAACAA	FluAHA6	FluAHA6	1	887	113	CCGTCACA	GACTAAGA
FluAHA7	FluAHA7	1	818	114	AAATCCTG	TGGGAATT	FluAHA6	FluAHA6	1	887	113	CCGTCACA	GACTAAGA
FluAHA7	FluAHA7	1	818	114	AAATCCTG	TGGGAATT	FluAHA8	FluAHA8	1	897	115	CTCTTGGC	GCAAACCC
FluAHA9	FluAHA9	1	601	116	ACTCCACA	CCAAGGCC	FluAHA8	FluAHA8	1	897	115	CTCTTGGC	GCAAACCC
FluAHA9	FluAHA9	1	601	116	ACTCCACA	CCAAGGCC	FluAHA10	FluAHA10	1	775	117	CCTGGAGC	GTATGGTT
FluAHA11	FluAHA11	1	728	118	CTGCATTC	AGAGGCAA	FluAHA10	FluAHA10	1	775	117	CCTGGAGC	GTATGGTT
FluAHA11	FluAHA11	1	728	118	CTGCATTC	AGAGGCAA	FluAHA12	FluAHA12	1	738	119	CACTGTTC	GGCCAAAC
FluAHA13	FluAHA13	1	1765	120	AGCAAAAG	TTTCTACT	FluAHA12	FluAHA12	1	738	119	CACTGTTC	GGCCAAAC
FluAHA13	FluAHA13	1	1765	120	AGCAAAAG	TTTCTACT	FluAHA14	FluAHA14	1	763	121	CACAAATG	CAAGAGGC
FluAHA15	FluAHA15	1	793	122	ACGGAGAC	CCCTTTGC	FluAHA14	FluAHA14	1	763	121	CACAAATG	CAAGAGGC
FluAHA15	FluAHA15	1	793	122	ACGGAGAC	CCCTTTGC	FluANA1-1	FluANA1-1	1	1459	123	CAAAAGCA	TTTCTACT
FluANA1-2	FluANA1-2	1	575	124	TGCCATGA	ATGATTTG	FluANA1-1	FluANA1-1	1	1459	123	CAAAAGCA	TTTCTACT
FluANA1-2	FluANA1-2	1	575	124	TGCCATGA	ATGATTTG	FluANA2	FluANA2	1	1062	125	TCATGCGA	TTTTAGAA
FluANA3	FluANA3	1	852	126	GCCCTTTC	TGAAGTCA	FluANA2	FluANA2	1	1062	125	TCATGCGA	TTTTAGAA
FluANA3	FluANA3	1	852	126	GCCCTTTC	TGAAGTCA	FluANA4	FluANA4	1	257	127	AGCAAAAG	CAGCCCCC
FluANA5	FluANA5	1	913	128	CGGTGAGA	GCGGGAAG	FluANA4	FluANA4	1	257	127	AGCAAAAG	CAGCCCCC
FluANA5	FluANA5	1	913	128	CGGTGAGA	GCGGGAAG	FluANA6	FluANA6	1	739	129	AGAGGATG	TTGCATTC
FluANA7	FluANA7	1	994	130	AGCAGGGT	ACACCAGC	FluANA6	FluANA6	1	739	129	AGAGGATG	TTGCATTC
FluANA7	FluANA7	1	994	130	AGCAGGGT	ACACCAGC	FluANA8	FluANA8	1	843	131	CAATACAG	ATTAGCAG
FluANA9	FluANA9	1	444	132	AACCTGAA	GTCAATAT	FluANA8	FluANA8	1	843	131	CAATACAG	ATTAGCAG
FluANA9	FluANA9	1	444	132	AACCTGAA	GTCAATAT	FluAH1N1MATRIX	FluAH1N1MATRIX	1	734	133	ATGGAATG	TAAACACG
FluAH5N1MATRIX	FluAH5N1MATRIX	1	657	134	AGACCAAT	TTGCACTT	FluAH1N1MATRIX	FluAH1N1MATRIX	1	734	133	ATGGAATG	TAAACACG
FluAH5N1MATRIX	FluAH5N1MATRIX	1	657	134	AGACCAAT	TTGCACTT	FluBHA	FluBHA	1	785	135	GGGAAGTC	AGGTAATA
FluBNA	FluBNA	1	809	136	GCCCTCAT	CTCGAACG	FluBHA	FluBHA	1	785	135	GGGAAGTC	AGGTAATA
FluBNA	FluBNA	1	809	136	GCCCTCAT	CTCGAACG	FluBMATRIX	FluBMATRIX	1	763	137	GGAGAAGG	ATGGCTTG
FluCHA	FluCHA	1	401	138	CTTCTTGC	ATGATCAT	FluBMATRIX	FluBMATRIX	1	763	137	GGAGAAGG	ATGGCTTG
FluCHA	FluCHA	1	401	138	CTTCTTGC	ATGATCAT	FluCMATRIX	FluCMATRIX	1	862	139	ATGTCCGA	TTATATAA
PIV1HN	PIV1HN	1	1728	140	ATGGCTGA	CATCTTGA	FluCMATRIX	FluCMATRIX	1	862	139	ATGTCCGA	TTATATAA

PIV1MATRIX	PIV1MATRIX	1	958	141	CCGGAGAA	CAGTAGAA
PIV1MATRIX	PIV1MATRIX	1	958	141	CCGGAGAA	CAGTAGAA	PIV1NC	PIV1NC	1	1682	142	AGGGTTAA	AAGAAAAA
PIV2HN	PIV2HN	1	1716	143	ATGGAAGA	TACCTTAA	PIV1NC	PIV1NC	1	1682	142	AGGGTTAA	AAGAAAAA
PIV2HN	PIV2HN	1	1716	143	ATGGAAGA	TACCTTAA	PIV2MATRIX	PIV2MATRIX	1	741	144	CTTGCCTC	CAGGTCGG
PIV2NC	PIV2NC	1	1849	145	AGATTCGG	AGAAAAAA	PIV2MATRIX	PIV2MATRIX	1	741	144	CTTGCCTC	CAGGTCGG
PIV2NC	PIV2NC	1	1849	145	AGATTCGG	AGAAAAAA	PIV3HN	PIV3HN	1	1725	146	ATGGAATA	AATCATAA
PIV3MATRIX	PIV3MATRIX	1	544	147	CCAACAAA	CCTGGCGA	PIV3HN	PIV3HN	1	1725	146	ATGGAATA	AATCATAA
PIV3MATRIX	PIV3MATRIX	1	544	147	CCAACAAA	CCTGGCGA	PIV3NC	PIV3NC	1	1548	148	ATGTTGAG	GCAACTAA
PIV4HN	PIV4HN	1	686	149	GACGGGAG	AAAGATTG	PIV3NC	PIV3NC	1	1548	148	ATGTTGAG	GCAACTAA
PIV4HN	PIV4HN	1	686	149	GACGGGAG	AAAGATTG	PIV4MATRIX	PIV4MATRIX	1	855	150	GGAACGGT	TTGGCTCA
HRV14NCR	HRV14NCR	1	520	151	TGATGTAC	GTTTCTCA	PIV4MATRIX	PIV4MATRIX	1	855	150	GGAACGGT	TTGGCTCA
HRV14NCR	HRV14NCR	1	520	151	TGATGTAC	GTTTCTCA	HRV1ANCR	HRV1ANCR	1	511	152	TTCCGGTA	GTTTCACT
HRV21NCR	HRV21NCR	1	499	153	TTCCGGTA	GTTTCACT	HRV1ANCR	HRV1ANCR	1	511	152	TTCCGGTA	GTTTCACT
HRV21NCR	HRV21NCR	1	499	153	TTCCGGTA	GTTTCACT	HRV29NCR	HRV29NCR	1	676	154	CGAAAACA	TTGGGTGT
HRV58NCR	HRV58NCR	1	504	155	TCACGGTA	GTTTCCTG	HRV29NCR	HRV29NCR	1	676	154	CGAAAACA	TTGGGTGT
HRV58NCR	HRV58NCR	1	504	155	TCACGGTA	GTTTCCTG	HRV62NCR	HRV62NCR	1	501	156	TTCCGGTA	GTTTCACT
HRV87NCR	HRV87NCR	1	506	157	TCTTGGTA	GTTTCACT	HRV62NCR	HRV62NCR	1	501	156	TTCCGGTA	GTTTCACT
HRV87NCR	HRV87NCR	1	506	157	TCTTGGTA	GTTTCACT	HRV95NCR	HRV95NCR	1	508	158	TTCCGGTA	GTTTCTTG
RSVABL	RSVABL	1	379	159	AAGTGCTC	AAGCAAAC	HRV95NCR	HRV95NCR	1	508	158	TTCCGGTA	GTTTCTTG
RSVABL	RSVABL	1	379	159	AAGTGCTC	AAGCAAAC	RSVAMATRIX	RSVAMATRIX	1	958	160	GGGGCAAA	ATAAAAAA
RSVANC	RSVANC	1	955	161	TCCAACGG	CCGAGGAA	RSVAMATRIX	RSVAMATRIX	1	958	160	GGGGCAAA	ATAAAAAA
RSVANC	RSVANC	1	955	161	TCCAACGG	CCGAGGAA	RSVBMATRIX	RSVBMATRIX	1	770	162	ATGGAAAC	GAGGATTA
RSVBNC	RSVBNC	1	602	163	GATGGGAG	TACGCCAA	RSVBMATRIX	RSVBMATRIX	1	770	162	ATGGAAAC	GAGGATTA
RSVBNC	RSVBNC	1	602	163	GATGGGAG	TACGCCAA	HCV229ESPIKE	HCV229ESPIKE	1	1534	164	GTTGATTG	GCCGTGGT
HCV229EMEM	HCV229EMEM	1	678	165	ATGTCAAA	TTTTCTAA	HCV229ESPIKE	HCV229ESPIKE	1	1534	164	GTTGATTG	GCCGTGGT
HCV229EMEM	HCV229EMEM	1	678	165	ATGTCAAA	TTTTCTAA	HCV229ENC	HCV229ENC	1	924	166	ATGGCTAC	GTCACATT
HCVOC43SPIKE	HCVOC43SPIKE	1	1456	167	ATTGATTG	GCCTTGGT	HCV229ENC	HCV229ENC	1	924	166	ATGGCTAC	GTCACATT
HCVOC43SPIKE	HCVOC43SPIKE	1	1456	167	ATTGATTG	GCCTTGGT	HCVOC43MEM	HCVOC43MEM	1	693	168	ATGAGTAG	ATATCTAA
HCVOC43NC	HCVOC43NC	1	966	169	AGAGCTCA	GTACACTT	HCVOC43MEM	HCVOC43MEM	1	693	168	ATGAGTAG	ATATCTAA

SARSSPIKE	SARSSPIKE	1	1438	170	GTAGATTG	GCCTTGGT
SARSSPIKE	SARSSPIKE	1	1438	170	GTAGATTG	GCCTTGGT	SARSMEM	SARSMEM	1	666	171	ATGGCAGA	TACAGTAA
SARSNC	SARSNC	1	932	172	ATGGGGCA	ACAAAGAT	SARSMEM	SARSMEM	1	666	171	ATGGCAGA	TACAGTAA
SARSNC	SARSNC	1	932	172	ATGGGGCA	ACAAAGAT	HCVNL63SPIKE	HCVNL63SPIKE	1	1534	173	GTTGATTG	GCCTTGGT
HCVNL63ORF3	HCVNL63ORF3	1	678	174	ATGCCTTT	TTAATTGA	HCVNL63SPIKE	HCVNL63SPIKE	1	1534	173	GTTGATTG	GCCTTGGT
HCVNL63ORF3	HCVNL63ORF3	1	678	174	ATGCCTTT	TTAATTGA	HCVNL63MEM	HCVNL63MEM	1	681	175	ATGTCTAA	TAATCTAA
HCVNL63NC	HCVNL63NC	1	879	176	ATGGCTAG	GTGAGGTT	HCVNL63MEM	HCVNL63MEM	1	681	175	ATGTCTAA	TAATCTAA
HCVNL63NC	HCVNL63NC	1	879	176	ATGGCTAG	GTGAGGTT	MPVMATRIX	MPVMATRIX	1	765	177	ATGGAGTC	CCAGATAA
MPVNC	MPVNC	1	1185	178	ATGTCTCT	ATGAGTAA	MPVMATRIX	MPVMATRIX	1	765	177	ATGGAGTC	CCAGATAA
MPVNC	MPVNC	1	1185	178	ATGTCTCT	ATGAGTAA	HHV1L	HHV1L	1	1061	179	TACCAGGG	AAGCGCCT
HHV1CAPSID	HHV1CAPSID	1	993	180	CGGGCGCC	GTGGGCGT	HHV1L	HHV1L	1	1061	179	TACCAGGG	AAGCGCCT
HHV1CAPSID	HHV1CAPSID	1	993	180	CGGGCGCC	GTGGGCGT	HHV3L	HHV3L	1	1061	181	TATAAAGG	CGTCGCTT
HHV3CAPSID	HHV3CAPSID	1	993	182	CGGGAGCC	ATGGGCAT	HHV3L	HHV3L	1	1061	181	TATAAAGG	CGTCGCTT
HHV3CAPSID	HHV3CAPSID	1	993	182	CGGGAGCC	ATGGGCAT	HHV4L	HHV4L	1	1067	183	TACCAGGG	ACCCAGAT
HHV4CAPSID	HHV4CAPSID	1	992	184	CGCCGACA	CTGGGCAT	HHV4L	HHV4L	1	1067	183	TACCAGGG	ACCCAGAT
HHV4CAPSID	HHV4CAPSID	1	992	184	CGCCGACA	CTGGGCAT	HHV5L	HHV5L	1	1136	185	TACCAGGG	TCTAACCT
HHV5CAPSID	HHV5CAPSID	1	998	186	CGCGCAGC	CTGGGCCT	HHV5L	HHV5L	1	1136	185	TACCAGGG	TCTAACCT
HHV5CAPSID	HHV5CAPSID	1	998	186	CGCGCAGC	CTGGGCCT	HHV6L	HHV6L	1	1058	187	TACAAAGG	CCGAATCT
HHV6CAPSID	HHV6CAPSID	1	1001	188	CGCGCAGC	TTGGGCAT	HHV6L	HHV6L	1	1058	187	TACAAAGG	CCGAATCT
HHV6CAPSID	HHV6CAPSID	1	1001	188	CGCGCAGC	TTGGGCAT	ENTEROVIRUS	ENTEROVIRUS	1	1758	189	CACCAATG	GATAGATA
COXSACKIEVIRUS	COXSACKIEVIRUS	1	920	190	CAATGCAA	TCTTGAGG	ENTEROVIRUS	ENTEROVIRUS	1	1758	189	CACCAATG	GATAGATA
COXSACKIEVIRUS	COXSACKIEVIRUS	1	920	190	CAATGCAA	TCTTGAGG	ECHO	ECHO	1	1277	191	CACTTGCC	ACAAAGAG
POLIO	POLIO	1	1226	192	TGGATAGT	ACTTATGT	ECHO	ECHO	1	1277	191	CACTTGCC	ACAAAGAG
POLIO	POLIO	1	1226	192	TGGATAGT	ACTTATGT	POLIO1NCR	POLIO1NCR	1	436	193	CAAGCACT	TGACAATC
POLIO2NCR	POLIO2NCR	1	437	194	CAAGCACT	TGACAATC	POLIO1NCR	POLIO1NCR	1	436	193	CAAGCACT	TGACAATC
POLIO2NCR	POLIO2NCR	1	437	194	CAAGCACT	TGACAATC	POLIO3NCR	POLIO3NCR	1	437	195	CAAGCACT	TGACAATC
MEASLESHA	MEASLESHA	1	1854	196	ATGTCACC	GCGGATAG	POLIO3NCR	POLIO3NCR	1	437	195	CAAGCACT	TGACAATC
MEASLESHA	MEASLESHA	1	1854	196	ATGTCACC	GCGGATAG	MEASLESMATRIX	MEASLESMATRIX	1	1008	197	ATGACAGA	TTCTGTAG
NEWCASTLEHN	NEWCASTLEHN	1	1734	198	ATGGACCG	CTGGCTAG	MEASLESMATRIX	MEASLESMATRIX	1	1008	197	ATGACAGA	TTCTGTAG

NEWCASTLEMATRIX	NEWCASTLEMATRIX	1	1232	199	ACGGGTAG	CATCAAGT
NEWCASTLEMATRIX	NEWCASTLEMATRIX	1	1232	199	ACGGGTAG	CATCAAGT	WNE	WNE	1	1504	200	TTCAACTG	GCACGCTG
WNNS	WNNS	1	917	201	GGCTGCTG	GGGAAGGA	WNE	WNE	1	1504	200	TTCAACTG	GCACGCTG
WNNS	WNNS	1	917	201	GGCTGCTG	GGGAAGGA	WNCM	WNCM	1	432	202	GGCCAATA	TGATCCAG
YFE	YFE	1	1547	203	CTGCATTG	TAGAGACT	WNCM	WNCM	1	432	202	GGCCAATA	TGATCCAG
YFE	YFE	1	1547	203	CTGCATTG	TAGAGACT	YFNS	YFNS	1	1035	204	AAGCTGTC	AGGGAGAG
VMVG3R	VMVG3R	1	762	205	ATGAAACA	GTGTCTGA	YFNS	YFNS	1	1035	204	AAGCTGTC	AGGGAGAG
VMVG3R	VMVG3R	1	762	205	ATGAAACA	GTGTCTGA	VMVHA	VMVHA	1	942	206	ATGACACG	AAGTCTAG
VMVSOD	VMVSOD	1	378	207	ATGGCTGT	GCGTTTGA	VMVHA	VMVHA	1	942	206	ATGACACG	AAGTCTAG
VMVSOD	VMVSOD	1	378	207	ATGGCTGT	GCGTTTGA	VMVCRMB	VMVCRMB	1	291	208	TCGGGAAC	CGTCTGTT
MONKEYPOX	MONKEYPOX	1	812	209	GTGAATGC	TTTCGACG	VMVCRMB	VMVCRMB	1	291	208	TCGGGAAC	CGTCTGTT
MONKEYPOX	MONKEYPOX	1	812	209	GTGAATGC	TTTCGACG	EBOLAL	EBOLAL	1	800	210	AGTTGGAC	GAAACACG
EBOLANP	EBOLANP	1	806	211	AGGAGTAA	CGACAATC	EBOLAL	EBOLAL	1	800	210	AGTTGGAC	GAAACACG
EBOLANP	EBOLANP	1	806	211	AGGAGTAA	CGACAATC	EBOLAMATRIX	EBOLAMATRIX	1	1498	212	GATGAAGA	AAGAAAAA
MARBURGL	MARBURGL	1	1218	213	GCGGCACT	CAATTGAC	EBOLAMATRIX	EBOLAMATRIX	1	1498	212	GATGAAGA	AAGAAAAA
MARBURGL	MARBURGL	1	1218	213	GCGGCACT	CAATTGAC	MARBURGNP	MARBURGNP	1	847	214	TCACAGAA	GTCATTTG
LASSAL	LASSAL	1	1021	215	GCATCTGG	ACTACCTC	MARBURGNP	MARBURGNP	1	847	214	TCACAGAA	GTCATTTG
LASSAL	LASSAL	1	1021	215	GCATCTGG	ACTACCTC	LASSANP	LASSANP	1	751	216	ATGGAGTG	AGTTCAGG
LASSAGP	LASSAGP	1	1476	217	ATGGGACA	AGAGATGA	LASSANP	LASSANP	1	751	216	ATGGAGTG	AGTTCAGG
LASSAGP	LASSAGP	1	1476	217	ATGGGACA	AGAGATGA	MACHUPOL	MACHUPOL	1	1588	218	GTGGCTGA	GAGGCTAA
MACHUPONP	MACHUPONP	1	763	219	TTGAAGAC	GGCACTAT	MACHUPOL	MACHUPOL	1	1588	218	GTGGCTGA	GAGGCTAA
MACHUPONP	MACHUPONP	1	763	219	TTGAAGAC	GGCACTAT	MACHUPOG	MACHUPOG	1	1491	220	ATGGGGCA	GACATTAA
VEEVNS	VEEVNS	1	923	221	GACAGCCC	AAAGTGAC	MACHUPOG	MACHUPOG	1	1491	220	ATGGGGCA	GACATTAA
VEEVNS	VEEVNS	1	923	221	GACAGCCC	AAAGTGAC	VEEVNC	VEEVNC	1	1512	222	GGCCACCT	AGCATATC
EEEVNS	EEEVNS	1	1312	223	GAGATAGA	ATTGCGTC	VEEVNC	VEEVNC	1	1512	222	GGCCACCT	AGCATATC
EEEVNS	EEEVNS	1	1312	223	GAGATAGA	ATTGCGTC	EEEVNC	EEEVNC	1	975	224	CCTGACTT	TCAGCTAT
WEEVNS	WEEVNS	1	878	225	CGTATGTC	CCACAATG	EEEVNC	EEEVNC	1	975	224	CCTGACTT	TCAGCTAT
WEEVNS	WEEVNS	1	878	225	CGTATGTC	CCACAATG	WEEVNC	WEEVNC	1	902	226	TGTTCTAG	TGGCGACT
NIPAHMATRIX	NIPAHMATRIX	1	1359	227	AGGAGACA	ACAAAAAA	WEEVNC	WEEVNC	1	902	226	TGTTCTAG	TGGCGACT

NIPAHN	NIPAHN	1	858	228	AGGAATCT	CAATCAGC
NIPAHN	NIPAHN	1	858	228	AGGAATCT	CAATCAGC	SINNOMBREGP	SINNOMBREGP	1	1293	229	ATAGCTGG	GGATGGAT
SINNOMBRENC	SINNOMBRENC	1	639	230	TCACTCTC	TGTGATTG	SINNOMBREGP	SINNOMBREGP	1	1293	229	ATAGCTGG	GGATGGAT
SINNOMBRENC	SINNOMBRENC	1	639	230	TCACTCTC	TGTGATTG	NORWALKL	NORWALKL	1	739	231	TTCTCCAT	ATTCGTAA
NORWALKCAPSID	NORWALKCAPSID	1	760	232	TGGTACCG	CTGGATGG	NORWALKL	NORWALKL	1	739	231	TTCTCCAT	ATTCGTAA
NORWALKCAPSID	NORWALKCAPSID	1	760	232	TGGTACCG	CTGGATGG	DENGUECAPSID	DENGUECAPSID	1	300	233	ATGAATGA	GACGTAGA
DENGUEM	DENGUEM	1	498	234	TTTCATCT	CAATGACA	DENGUECAPSID	DENGUECAPSID	1	300	233	ATGAATGA	GACGTAGA
DENGUEM	DENGUEM	1	498	234	TTTCATCT	CAATGACA	DENGUE1NCR	DENGUE1NCR	1	157	235	GGTTAGAG	GCTGTCTC
DENGUE2NCR	DENGUE2NCR	1	159	236	GGTTAGAG	GCTGTCTC	DENGUE1NCR	DENGUE1NCR	1	157	235	GGTTAGAG	GCTGTCTC
DENGUE2NCR	DENGUE2NCR	1	159	236	GGTTAGAG	GCTGTCTC	DENGUE3NCR	DENGUE3NCR	1	156	237	GGTTAGAG	GCTGTCTC
DENGUE5NCR	DENGUE5NCR	1	162	238	GGTTAGAG	GCTGTCTC	DENGUE3NCR	DENGUE3NCR	1	156	237	GGTTAGAG	GCTGTCTC
DENGUE5NCR	DENGUE5NCR	1	162	238	GGTTAGAG	GCTGTCTC	FMDVVP1	FMDVVP1	1	633	239	ACCACCTC	CAAAACAG
FMDV3D	FMDV3D	1	846	240	GTTGATCG	ACGGAGCA	FMDVVP1	FMDVVP1	1	633	239	ACCACCTC	CAAAACAG
FMDV3D	FMDV3D	1	846	240	GTTGATCG	ACGGAGCA	SLEVNS5	SLEVNS5	1	1035	241	AAGACTGG	AGGGTGAG
SLEVPP	SLEVPP	1	727	242	CTCGGTAG	GTTTCACG	SLEVNS5	SLEVNS5	1	1035	241	AAGACTGG	AGGGTGAG
SLEVPP	SLEVPP	1	727	242	CTCGGTAG	GTTTCACG	RVFVN	RVFVN	1	738	243	ATGGACAA	CAGCCTAA
RVFVNS	RVFVNS	1	798	244	ATGGATTA	TTGATTAG	RVFVN	RVFVN	1	738	243	ATGGACAA	CAGCCTAA
RVFVNS	RVFVNS	1	798	244	ATGGATTA	TTGATTAG	USUTUPP	USUTUPP	1	1035	245	AAGCTCGG	CAGGTGAG
JEVPP	JEVPP	1	1035	246	AAGCCTGG	AAGGAGAG	USUTUPP	USUTUPP	1	1035	245	AAGCTCGG	CAGGTGAG
JEVPP	JEVPP	1	1035	246	AAGCCTGG	AAGGAGAG	CHANDIPURAMATRIX	CHANDIPURAMATRIX	1	755	247	AACAGAAA	GAAAAAAA
CHANDIPURAGP	CHANDIPURAGP	1	752	248	ATCACTCT	GTAGTTGT	CHANDIPURAMATRIX	CHANDIPURAMATRIX	1	755	247	AACAGAAA	GAAAAAAA
CHANDIPURAGP	CHANDIPURAGP	1	752	248	ATCACTCT	GTAGTTGT	ATIM2	ATTIM2	1	523	249	ACATCGAC	GAGCTTGC
ATTIM3	ATTIM3	1	523	250	ACATCGAC	GAGCTTGC	ATIM2	ATTIM2	1	523	249	ACATCGAC	GAGCTTGC
ATTIM3	ATTIM3	1	523	250	ACATCGAC	GAGCTTGC	SPYEMM1	SPYEMM1	1	398	251	GCTTCAGT	CAGGCAAG
SPYEMM2	SPYEMM2	1	360	252	GCATCCGT	GAGAAGTC	SPYEMM1	SPYEMM1	1	398	251	GCTTCAGT	CAGGCAAG
SPYEMM2	SPYEMM2	1	360	252	GCATCCGT	GAGAAGTC	SPYEMM3	SPYEMM3	1	391	253	ACGGCTTC	GGAATATC
SPYEMM4	SPYEMM4	1	337	254	AGCATCAG	GTCAATAT	SPYEMM3	SPYEMM3	1	391	253	ACGGCTTC	GGAATATC
SPYEMM4	SPYEMM4	1	337	254	AGCATCAG	GTCAATAT	SPYEMM5	SPYEMM5	1	490	255	ACTGCATC	AAAAGATA
SPYEMM6	SPYEMM6	1	437	256	TACTGCAT	CTTAAAAA	SPYEMM5	SPYEMM5	1	490	255	ACTGCATC	AAAAGATA

SPYEMM9	SPYEMM9	1	509	257	CAGGTACA	CTGCTCTT
SPYEMM9	SPYEMM9	1	509	257	CAGGTACA	CTGCTCTT	SPYEMM11	SPYEMM11	1	500	258	GCATCCGT	AATCACCA
SPYEMM12	SPYEMM12	1	364	259	GCTTCAGT	AAATGATG	SPYEMM11	SPYEMM11	1	500	258	GCATCCGT	AATCACCA
SPYEMM12	SPYEMM12	1	364	259	GCTTCAGT	AAATGATG	SPYEMM13L	SPYEMM13L	1	325	260	CAGCATCC	AAAAATCA
SPYEMM18	SPYEMM18	1	524	261	ACTGCTTC	GAAGAACA	SPYEMM13L	SPYEMM13L	1	325	260	CAGCATCC	AAAAATCA
SPYEMM18	SPYEMM18	1	524	261	ACTGCTTC	GAAGAACA	SPYEMM22	SPYEMM22	1	620	262	GCATCAGT	GACGCAAG
SPYEMM28	SPYEMM28	1	333	263	CAGCATCC	AGAACGTC	SPYEMM22	SPYEMM22	1	620	262	GCATCAGT	GACGCAAG
SPYEMM28	SPYEMM28	1	333	263	CAGCATCC	AGAACGTC	SPYEMM29	SPYEMM29	1	328	264	TGCATCAG	AAGAACAG
SPYEMM44	SPYEMM44	1	391	265	CAGCATCA	CAAGAACA	SPYEMM29	SPYEMM29	1	328	264	TGCATCAG	AAGAACAG
SPYEMM44	SPYEMM44	1	391	265	CAGCATCA	CAAGAACA	SPYEMM61	SPYEMM61	1	325	266	GCATCAGT	AGAACGTC
SPYEMM75	SPYEMM75	1	451	267	TCCGTAGC	AAGCCGTG	SPYEMM61	SPYEMM61	1	325	266	GCATCAGT	AGAACGTC
SPYEMM75	SPYEMM75	1	451	267	TCCGTAGC	AAGCCGTG	SPYEMM77	SPYEMM77	1	450	268	GCTCAGTA	AGCTGAGC
SPYEMM89	SPYEMM89	1	378	269	CATCAGTA	AGAAAAGC	SPYEMM77	SPYEMM77	1	450	268	GCTCAGTA	AGCTGAGC
SPYEMM89	SPYEMM89	1	378	269	CATCAGTA	AGAAAAGC	SPYEMM94	SPYEMM94	1	516	270	GCATCAGT	CAGACGCA
SPYCSR	SPYCSR	1	952	271	TGGTCCTA	CCCAGGCT	SPYEMM94	SPYEMM94	1	516	270	GCATCAGT	CAGACGCA
SPYCSR	SPYCSR	1	952	271	TGGTCCTA	CCCAGGCT	SPYSFB1	SPYSFB1	1	615	272	AGAACCTG	GGCATGAG
SPYSPEB	SPYSPEB	1	729	273	ACTCTACC	TATCGATG	SPYSFB1	SPYSFB1	1	615	272	AGAACCTG	GGCATGAG
SPYSPEB	SPYSPEB	1	729	273	ACTCTACC	TATCGATG	SPNGYRA	SPNGYRA	1	815	274	GAGGATTT	ACTGATAC
SPNLYTA	SPNLYTA	1	125	275	TATCGAAC	CTCAGACC	SPNGYRA	SPNGYRA	1	815	274	GAGGATTT	ACTGATAC
SPNLYTA	SPNLYTA	1	125	275	TATCGAAC	CTCAGACC	SPNPLY	SPNPLY	1	99	276	GGTTTGGC	ATCAAGAT
SAUGYRA	SAUGYRA	1	821	277	GAAGACTT	ACTAATGC	SPNPLY	SPNPLY	1	99	276	GGTTTGGC	ATCAAGAT
SAUGYRA	SAUGYRA	1	821	277	GAAGACTT	ACTAATGC	SAUTST	SAUTST	1	705	278	ATGAATAA	TTAATTAA
SAUENTK	SAUENTK	1	729	279	ATGAAAAA	CGATATAA	SAUTST	SAUTST	1	705	278	ATGAATAA	TTAATTAA
SAUENTK	SAUENTK	1	729	279	ATGAAAAA	CGATATAA	SAUENTQ	SAUENTQ	1	771	280	ATGCCTAT	CTGAATAA
CPNGYRA	CPNGYRA	1	824	281	GAAGACAT	TCGAGTCA	SAUENTQ	SAUENTQ	1	771	280	ATGCCTAT	CTGAATAA
CPNGYRA	CPNGYRA	1	824	281	GAAGACAT	TCGAGTCA	CPNOMPB	CPNOMPB	1	1030	282	GCGAAGCT	TCAGGTCC
CPNMOMPVD4	CPNMOMPVD4	1	150	283	ATGCTGAT	TCAGATCA	CPNOMPB	CPNOMPB	1	1030	282	GCGAAGCT	TCAGGTCC
CPNMOMPVD4	CPNMOMPVD4	1	150	283	ATGCTGAT	TCAGATCA	CPNMOMPVD2	CPNMOMPVD2	1	133	284	AGCGTTCA	TAGGCGCT
CPNRPOB	CPNRPOB	1	346	285	AAGGACTT	CTGCAGGC	CPNMOMPVD2	CPNMOMPVD2	1	133	284	AGCGTTCA	TAGGCGCT

CPSOMPA	CPSOMPA	1	991	286	GGAACCCA	TCGATTCA
CPSOMPA	CPSOMPA	1	991	286	GGAACCCA	TCGATTCA	CPSSIGA	CPSSIGA	1	883	287	CGCAAGCT	GGTTCAGC
CDIDTX	CDIDTX	1	913	288	GACGTGGT	TTCTCCGG	CPSSIGA	CPSSIGA	1	883	287	CGCAAGCT	GGTTCAGC
CDIDTX	CDIDTX	1	913	288	GACGTGGT	TTCTCCGG	CDIGYRA	CDIGYRA	1	818	289	GAAGACCT	ACCTCCGC
CDIDTXR	CDIDTXR	1	1124	290	AATGAGTG	GCGCCTGT	CDIGYRA	CDIGYRA	1	818	289	GAAGACCT	ACCTCCGC
CDIDTXR	CDIDTXR	1	1124	290	AATGAGTG	GCGCCTGT	HINGYRA	HINGYRA	1	896	291	GAAGATTT	ACTGATGC
HINOMPA	HINOMPA	1	937	292	GCGTTAAA	CCAGACCG	HINGYRA	HINGYRA	1	896	291	GAAGATTT	ACTGATGC
HINOMPA	HINOMPA	1	937	292	GCGTTAAA	CCAGACCG	LPNGYRA	LPNGYRA	1	236	293	GATGTCGG	GACCGTCG
LPNMOMPS	LPNMOMPS	1	1157	294	GTCCTTAC	TCATTAGA	LPNGYRA	LPNGYRA	1	236	293	GATGTCGG	GACCGTCG
LPNMOMPS	LPNMOMPS	1	1157	294	GTCCTTAC	TCATTAGA	MCAGYRA	MCAGYRA	1	321	295	AACTGGAA	AGATTCCC
MCAHA	MCAHA	1	653	296	GATCAATC	AATGGTCA	MCAGYRA	MCAGYRA	1	321	295	AACTGGAA	AGATTCCC
MCAHA	MCAHA	1	653	296	GATCAATC	AATGGTCA	MTUGYRA	MTUGYRA	1	818	297	GAGGATTT	ACTTCCGG
MTUOMPA	MTUOMPA	1	932	298	GACGAACT	TCAACTAA	MTUGYRA	MTUGYRA	1	818	297	GAGGATTT	ACTTCCGG
MTUOMPA	MTUOMPA	1	932	298	GACGAACT	TCAACTAA	MTURPOB	MTURPOB	1	411	299	TACGGTCG	ACGCCGTA
MPNGYRA	MPNGYRA	1	809	300	GAGGACTT	TCTTCAGC	MTURPOB	MTURPOB	1	411	299	TACGGTCG	ACGCCGTA
MPNGYRA	MPNGYRA	1	809	300	GAGGACTT	TCTTCAGC	MPNP1	MPNP1	1	2570	301	CAGTTGCA	ACGCGAGC
NMEGYRA	NMEGYRA	1	941	302	GAAGACCT	ACCAGCGG	MPNP1	MPNP1	1	2570	301	CAGTTGCA	ACGCGAGC
NMEGYRA	NMEGYRA	1	941	302	GAAGACCT	ACCAGCGG	NMEMVIN	NMEMVIN	1	904	303	GATGAATA	ATACGGAA
NMECTRA	NMECTRA	1	135	304	TTGGATGC	TTTGCTG	NMEMVIN	NMEMVIN	1	904	303	GATGAATA	ATACGGAA
NMECTRA	NMECTRA	1	135	304	TTGGATGC	TTTGCTG	NMECRGA	NMECRGA	1	254	305	GGTGCTGC	TGCCGGTC
AHE16S	AHE16S	1	1489	306	CGAACGCT	CCGGAAGG	NMECRGA	NMECRGA	1	254	305	GGTGCTGC	TGCCGGTC
AHE16S	AHE16S	1	1489	306	CGAACGCT	CCGGAAGG	AHEPLD	AHEPLD	1	1111	307	GCAAAGTG	CTCCTTTT
BANGYRA	BANGYRA	1	732	308	GAAGACTT	AGACTTGT	AHEPLD	AHEPLD	1	1111	307	GCAAAGTG	CTCCTTTT
BANGYRA	BANGYRA	1	732	308	GAAGACTT	AGACTTGT	BANLEF	BANLEF	1	685	309	ATATCGAG	CTAGGTGC
BANPAG	BANPAG	1	599	310	CAGAAGTG	GGATAGCG	BANLEF	BANLEF	1	685	309	ATATCGAG	CTAGGTGC
BANPAG	BANPAG	1	599	310	CAGAAGTG	GGATAGCG	BANRPOB	BANRPOB	1	777	311	TAGTTCGC	AGGGGATA
BANCYA	BANCYA	1	545	312	GCGATGAT	CTGTCGAG	BANRPOB	BANRPOB	1	777	311	TAGTTCGC	AGGGGATA
BANCYA	BANCYA	1	545	312	GCGATGAT	CTGTCGAG	BANCAPB	BANCAPB	1	246	313	TTACACGT	ACCTATTA
BCERPOB	BCERPOB	1	777	314	TAGTTCGC	AGGGGATA	BANCAPB	BANCAPB	1	246	313	TTACACGT	ACCTATTA

BSUGYRA	BSUGYRA	1	812	315	GAAGATCT	ACAGCTAG
BSUGYRA	BSUGYRA	1	812	315	GAAGATCT	ACAGCTAG	BSURPOB	BSURPOB	1	780	316	TTGTTCGG	AGGCGACA
BTHCRY	BTHCRY	1	853	317	AGAACACA	ATCGCATC	BSURPOB	BSURPOB	1	780	316	TTGTTCGG	AGGCGACA
BTHCRY	BTHCRY	1	853	317	AGAACACA	ATCGCATC	BTHRPOB	BTHRPOB	1	777	318	TAGTTCGC	AGGGGATA
BPEGYRA	BPEGYRA	1	815	319	GAAGACCT	ACCACCGG	BTHRPOB	BTHRPOB	1	777	318	TAGTTCGC	AGGGGATA
BPEGYRA	BPEGYRA	1	815	319	GAAGACCT	ACCACCGG	BPEPRNA	BPEPRNA	1	777	320	GGTTCAAG	CGCCGACA
BMEGYRA	BMEGYRA	1	995	321	GAAGACCT	TCGGATGG	BPEPRNA	BPEPRNA	1	777	320	GGTTCAAG	CGCCGACA
BMEGYRA	BMEGYRA	1	995	321	GAAGACCT	TCGGATGG	BABRB51	BABRB51	1	1339	322	ATCCCATA	AGCTAGTA
BABOMP25	BABOMP25	1	630	323	AAGTCTCT	AGTTCTAA	BABRB51	BABRB51	1	1339	322	ATCCCATA	AGCTAGTA
BABOMP25	BABOMP25	1	630	323	AAGTCTCT	AGTTCTAA	BABOMP2	BABOMP2	1	1434	324	TGTTCTTC	GAGAGCAG
BCAOMP2	BCAOMP2	1	1434	325	TGTTCTTC	GAGAGCAG	BABOMP2	BABOMP2	1	1434	324	TGTTCTTC	GAGAGCAG
BCAOMP2	BCAOMP2	1	1434	325	TGTTCTTC	GAGAGCAG	BMEOMP2	BMEOMP2	1	1434	326	TGTTCTTC	GAGAGCAG
BNEOMP2	BNEOMP2	1	1434	327	TGTTCTTC	GAGAGCAG	BMEOMP2	BMEOMP2	1	1434	326	TGTTCTTC	GAGAGCAG
BNEOMP2	BNEOMP2	1	1434	327	TGTTCTTC	GAGAGCAG	BOVOMP2	BOVOMP2	1	1449	328	TGTTCTTC	GAGAGCAG
BSUIOMP2	BSUIOMMP2	1	1434	329	TGTTCTTC	GAGAGCAG	BOVOMP2	BOVOMP2	1	1449	328	TGTTCTTC	GAGAGCAG
BSUIOMP2	BSUIOMMP2	1	1434	329	TGTTCTTC	GAGAGCAG	BMAPENA	BMAPENA	1	1117	330	GAGAGCTG	AAGGTTCA
BMAWAAF	BMAWAAF	1	1015	331	CGTTGGTT	GGGATGCT	BMAPENA	BMAPENA	1	1117	330	GAGAGCTG	AAGGTTCA
BMAWAAF	BMAWAAF	1	1015	331	CGTTGGTT	GGGATGCT	BPSPENA	BPSPENA	1	1117	332	GAGAGCTG	AAGGTTCA
BPSWAAF	BPSWAAF	1	1100	333	AGCGCGGC	GTCCGCGG	BPSPENA	BPSPENA	1	1117	332	GAGAGCTG	AAGGTTCA
BPSWAAF	BPSWAAF	1	1100	333	AGCGCGGC	GTCCGCGG	BCEPRECA	BCEPRECA	1	611	334	CATGGAAG	CAACCAGA
CPEGYRA	CPEGYRA	1	810	335	GAAGACTT	ATAAATAG	BCEPRECA	BCEPRECA	1	611	334	CATGGAAG	CAACCAGA
CPEGYRA	CPEGYRA	1	810	335	GAAGACTT	ATAAATAG	CPETMPC	CPETMPC	1	1113	336	ATGAAAAA	TAAATTAA
CBUGYRA	CBUGYRA	1	812	337	GAAGATTT	AGTGATAA	CPETMPC	CPETMPC	1	1113	336	ATGAAAAA	TAAATTAA
CBUGYRA	CBUGYRA	1	812	337	GAAGATTT	AGTGATAA	CBUTOLC	CBUTOLC	1	745	338	ATTTAGAC	CTAGGAAA
FTURD1A	FTURD1A	1	531	339	ATGAAAAA	CAATTTAG	CBUTOLC	CBUTOLC	1	745	338	ATTTAGAC	CTAGGAAA
FTURD1A	FTURD1A	1	531	339	ATGAAAAA	CAATTTAG	FTURD1B	FTURD1B	1	285	340	ATGGCTTT	TAGACTAG
FTUTUL4	FTUTUL4	1	834	341	GGCGAGTG	CCAACCAC	FTURD1B	FTURD1B	1	285	340	ATGGCTTT	TAGACTAG
FTUTUL4	FTUTUL4	1	834	341	GGCGAGTG	CCAACCAC	FTUMDH	FTUMDH	1	960	342	ATGGCTAG	CAAAATAA
FTU13KD	FTU13KD	1	431	343	ATCGTAAT	TAAGTATG	FTUMDH	FTUMDH	1	960	342	ATGGCTAG	CAAAATAA

FTUFOPA	FTUFOPA	1	111	344	CAGATATA	GATACTAC
FTUFOPA	FTUFOPA	1	111	344	CAGATATA	GATACTAC	OTSGROEL	OTSGROEL	1	546	345	GTTGAAGT	AAGAAAAA
OTSSTA56	OTSSTA56	1	1059	346	CTAGTGCA	AGCAGTAG	OTSGROEL	OTSGROEL	1	546	345	GTTGAAGT	AAGAAAAA
OTSSTA56	OTSSTA56	1	1059	346	CTAGTGCA	AGCAGTAG	RPRGYRA	RPRGYRA	1	968	347	GAAGATTT	ACAAATAG
RPROMP1	RPROMP1	1	985	348	TATATAAA	ACAAGCTA	RPRGYRA	RPRGYRA	1	968	347	GAAGATTT	ACAAATAG
RPROMP1	RPROMP1	1	985	348	TATATAAA	ACAAGCTA	YPEGYRA	YPEGYRA	1	812	349	GAAGACCT	ACTGATGC
YPEOMPA	YPEOMPA	1	913	350	GTGGTAAA	CCAGATCG	YPEGYRA	YPEGYRA	1	812	349	GAAGACCT	ACTGATGC
YPEOMPA	YPEOMPA	1	913	350	GTGGTAAA	CCAGATCG	YPECVE	YPECVE	1	517	351	GTACAGAT	TGAGGTAC
YPECAF1	YPECAF1	1	525	352	TATGAAAA	ATATAGAT	YPECVE	YPECVE	1	517	351	GTACAGAT	TGAGGTAC
YPECAF1	YPECAF1	1	525	352	TATGAAAA	ATATAGAT	ACAHAG	ACAHAG	1	1082	353	GGTTGCGC	TGCTCTCG
ACAMAG	ACAMAG	1	919	354	CCGTCTGT	GTCATGTA	ACAHAG	ACAHAG	1	1082	353	GGTTGCGC	TGCTCTCG
ACAMAG	ACAMAG	1	919	354	CCGTCTGT	GTCATGTA	ACAGH17	ACAGH17	1	810	355	ACACAGCA	AAAAAAAA
BDEWI-1	BDEWI-1	1	942	356	GGATCCAT	TTTTTGTG	ACAGH17	ACAGH17	1	810	355	ACACAGCA	AAAAAAAA
BDEWI-1	BDEWI-1	1	942	356	GGATCCAT	TTTTTGTG	BDEBYS1	BDEBYS1	1	912	357	ATGCATCT	ATGATAAC
CIMAG2	CIMAG2	1	1234	358	CTCTCCCT	TTTTGTTA	BDEBYS1	BDEBYS1	1	912	357	ATGCATCT	ATGATAAC
CIMAG2	CIMAG2	1	1234	358	CTCTCCCT	TTTTGTTA	CIMBG12	CIMBG12	1	965	359	ATAGAGGG	GAAACGAT
CPACP2	CPACP2	1	735	360	CTGAGGAA	TTCAAAAA	CIMBG12	CIMBG12	1	965	359	ATAGAGGG	GAAACGAT
CPACP2	CPACP2	1	735	360	CTGAGGAA	TTCAAAAA	CPASOD	CPASOD	1	375	361	TTGAATTC	GTGATGTA
ECOGYRA	ECOGYRA	1	812	362	GAAGATCT	ACCGATGC	CPASOD	CPASOD	1	375	361	TTGAATTC	GTGATGTA
ECOGYRA	ECOGYRA	1	812	362	GAAGATCT	ACCGATGC	ECOOMPA	ECOOMPA	1	660	363	ATGAAGAA	CGCTGTAA
SENGYRA	SENGYRA	1	812	364	GAAGATCT	ACGGATGC	ECOOMPA	ECOOMPA	1	660	363	ATGAAGAA	CGCTGTAA
SENGYRA	SENGYRA	1	812	364	GAAGATCT	ACGGATGC	SENOMPA	SENOMPA	1	904	365	GTGCTAAA	CCGGATCG
SDYOMPA	SDYOMPA	1	907	366	GTGCTAAA	CCGGATCG	SENOMPA	SENOMPA	1	904	365	GTGCTAAA	CCGGATCG
SDYOMPA	SDYOMPA	1	907	366	GTGCTAAA	CCGGATCG	SFLGYRA	SFLGYRA	1	812	367	GAAGATCT	ACCGATGC
SFLOMPA	SFLOMPA	1	898	368	GTGCTAAA	CCGGATCG	SFLGYRA	SFLGYRA	1	812	367	GAAGATCT	ACCGATGC
SFLOMPA	SFLOMPA	1	898	368	GTGCTAAA	CCGGATCG	VCHGYRA	VCHGYRA	1	887	369	GAAGAGCT	ACCAATGC
VCHOMPA	VCHOMPA	1	942	370	ATGAAAAA	TCCCTGAA	VCHGYRA	VCHGYRA	1	887	369	GAAGAGCT	ACCAATGC
VCHOMPA	VCHOMPA	1	942	370	ATGAAAAA	TCCCTGAA	MSRA	MSRA	1	400	371	GCAAATGG	ATCACATG
MECR1	MECR1	1	652	372	ATGGAGGT	GAATCGAT	MSRA	MSRA	1	400	371	GCAAATGG	ATCACATG

MEFA	MEFA	1	611	373	AATATGGG	ACTACGGC
MEFA	MEFA	1	611	373	AATATGGG	ACTACGGC	ERMTR	ERMTR	1	732	374	ATGAAACA	TTCAATAA
ERMB	ERMB	1	763	375	GATGTATC	GGAAATAA	ERMTR	ERMTR	1	732	374	ATGAAACA	TTCAATAA
ERMB	ERMB	1	763	375	GATGTATC	GGAAATAA	EMRB	EMRB	1	1560	376	ATGCCAAA	TTCACTAA
GYRB	GYRB	1	1947	377	ATGACAGA	ATGTCTAA	EMRB	EMRB	1	1560	376	ATGCCAAA	TTCACTAA
GYRB	GYRB	1	1947	377	ATGACAGA	ATGTCTAA	PARC	PARC	1	2637	378	GAGTTTGC	AATATAAG
PARE	PARE	1	2008	379	AAAATTTT	TGTTTTAA	PARC	PARC	1	2637	378	GAGTTTGC	AATATAAG
PARE	PARE	1	2008	379	AAAATTTT	TGTTTTAA	PBP1	PBP1	1	1282	380	TTCGACCA	ACGAGCTA
PBP5	PBP5	1	668	381	TGACGATC	AACGAGCA	PBP1	PBP1	1	1282	380	TTCGACCA	ACGAGCTA
PBP5	PBP5	1	668	381	TGACGATC	AACGAGCA	MECA	MECA	1	729	382	ATCGATGG	ATGAATAA
BLAZ	BLAZ	1	846	383	TTGAAAAA	AATTTTAA	MECA	MECA	1	729	382	ATCGATGG	ATGAATAA
BLAZ	BLAZ	1	846	383	TTGAAAAA	AATTTTAA	DFRA	DFRA	1	486	384	ATGACATT	GGAAATAG
VANA	VANA	1	1032	385	ATGAATAG	AGGGGTGA	DFRA	DFRA	1	486	384	ATGACATT	GGAAATAG
VANA	VANA	1	1032	385	ATGAATAG	AGGGGTGA	QACC	QACC	1	324	386	ATGCCTTA	CGCATTAA
RMTB	RMTB	1	756	387	ATGAACAT	ATGGATAA	QACC	QACC	1	324	386	ATGCCTTA	CGCATTAA
RMTB	RMTB	1	756	387	ATGAACAT	ATGGATAA	STRA	STRA	1	804	388	TTGAATCG	GGGGTTGA
STRB	STRB	1	837	389	ATGTTCAT	CATACTAG	STRA	STRA	1	804	388	TTGAATCG	GGGGTTGA
STRB	STRB	1	837	389	ATGTTCAT	CATACTAG	AADA1	AADA1	1	792	390	ATGAGGGA	GCAAATAA
SULII	SULII	1	816	391	ATGAATAA	TTCGTTAA	AADA1	AADA1	1	792	390	ATGAGGGA	GCAAATAA
SULII	SULII	1	816	391	ATGAATAA	TTCGTTAA	CTXM	CTXM	1	436	392	CAAGAAGA	ATGGCACC
KPC2	KPC2	1	918	393	CGTTGATG	CCACCACC	CTXM	CTXM	1	436	392	CAAGAAGA	ATGGCACC
KPC2	KPC2	1	918	393	CGTTGATG	CCACCACC	AMPC	AMPC	1	1140	394	ATGAAAAA	TGGAATAA
BLACMY2	BLACMY2	1	1146	395	ATGATGAA	TGGAATAA	AMPC	AMPC	1	1140	394	ATGAAAAA	TGGAATAA
BLACMY2	BLACMY2	1	1146	395	ATGATGAA	TGGAATAA	AMPR	AMPR	1	876	396	ATGGTCAG	CGGCGTAA
SULI	SULI	1	840	397	ATGGTGAC	ATGCCTAG	AMPR	AMPR	1	876	396	ATGGTCAG	CGGCGTAA
SULI	SULI	1	840	397	ATGGTGAC	ATGCCTAG	AACAAPHD	AACAAPHD	1	1440	398	ATGAATAT	AAGATTGA
FLOR	FLOR	1	1215	399	ATGACCAC	TCGTCTAA	AACAAPHD	AACAAPHD	1	1440	398	ATGAATAT	AAGATTGA
FLOR	FLOR	1	1215	399	ATGACCAC	TCGTCTAA	TETM	TETM	1	536	400	CACGCCAG	CGGAAATG
TETC	TETC	1	502	401	TATCGTCC	CAGTCAGC	TETM	TETM	1	536	400	CACGCCAG	CGGAAATG

TETS	TETS	1	555	402	GCTACATT	GGCATTCA
TETS	TETS	1	555	402	GCTACATT	GGCATTCA	TETA	TETA	1	494	403	TGGCATTC	GCTATACG
TETG	TETG	1	550	404	CTCGGTGG	GGCTTTGC	TETA	TETA	1	494	403	TGGCATTC	GCTATACG
TETG	TETG	1	550	404	CTCGGTGG	GGCTTTGC	TETL	TETL	1	548	405	CTGGGTGA	ATTCCTGA
TETB	TETB	1	571	406	AGTGCTGT	TCCAAGCC	TETL	TETL	1	548	405	CTGGGTGA	ATTCCTGA
TETB	TETB	1	571	406	AGTGCTGT	TCCAAGCC	PTX	PTX	1	872	407	ATCACTAC	CAGGAGCT
BONT	BONT	1	792	408	TGATGGAA	TTCTACGG	PTX	PTX	1	872	407	ATCACTAC	CAGGAGCT
BONT	BONT	1	792	408	TGATGGAA	TTCTACGG	NTNH	NTNH	1	496	409	AATATTTG	AATATGGT
BOTE	BOTE	1	1000	410	GATAAAAT	TAACTATG	NTNH	NTNH	1	496	409	AATATTTG	AATATGGT
BOTE	BOTE	1	1000	410	GATAAAAT	TAACTATG	EPSILON	EPSILON	1	620	411	ATGCGAAA	GGAGGAGC
TETANUS	TETANUS	1	1185	412	CCTGATAA	CTAACGGA	EPSILON	EPSILON	1	620	411	ATGCGAAA	GGAGGAGC
TETANUS	TETANUS	1	1185	412	CCTGATAA	CTAACGGA	STX1A	STX1A	1	948	413	ATGAAAAT	GCAGTTGA
STX2A	STX2A	1	960	414	ATGAAGTG	GTAAATAA	STX1A	STX1A	1	948	413	ATGAAAAT	GCAGTTGA
STX2A	STX2A	1	960	414	ATGAAGTG	GTAAATAA	RICINUSTOXIN	RICINUSTOXIN	1	1133	415	ATGGTCCA	CATCGGAT
CTXAB	CTXAB	1	984	416	CGGGCAGA	CCTGAGGA	RICINUSTOXIN	RICINUSTOXIN	1	1133	415	ATGGTCCA	CATCGGAT
CTXAB	CTXAB	1	984	416	CGGGCAGA	CCTGAGGA	PBLUEVEC	PBLUEVEC	1	236	417	CTGCAGGA	TGCGTTGC
PGEMVEC	PGEMVEC	1	226	418	GAATATGC	TGCGTTGC	PBLUEVEC	PBLUEVEC	1	236	417	CTGCAGGA	TGCGTTGC
PGEMVEC	PGEMVEC	1	226	418	GAATATGC	TGCGTTGC	PUCVEC	PUCVEC	1	252	419	AGACAGTT	TGCGTTGC
ATTIM4	ATTIM4	1	523	420	ACATCGAC	GAGCTTGC	PUCVEC	PUCVEC	1	252	419	AGACAGTT	TGCGTTGC

样本制备

在本发明的一些实施方案中，靶点核酸(DNA和/或RNA)可包含在生物样本中。这里使用的术语“生物样本”统指生物体或生物体组成(例如，细胞)中获得的样本。样本可为任何生物组织或液体。可供选择地，样本可为从环境(空气、土壤或水)中得到的样本。生物样本常常为源自患者的“临床样本”。这种样本包括，但不限于，唾液、鼻腔冲洗液、咽喉拭子、血液、血液细胞(例如，白细胞)、组织或针刺切片样本、尿、腹水、内脏液体、和胸积液、或那里的细胞。在本发明的背景下，临床样本优选鼻腔冲洗液、鼻腔吸出物或咽喉拭子。在尤其优选的实施方案中，临床样本为鼻腔冲洗液。生物样本也可包括组织部分如组织学用途的冷冻切片，或来自非人类动物、植物，或环境资源如水、空气或土壤。

为了采用微阵列进行检测，靶点核酸可能需要一定程度的处理。为了这个目的，将涉及一种或一种以上下列靶点处理步骤：(1)分离，(2)富集主体靶点序列，(3)扩增，(4)标记，和(5)杂交。对应于每个处理策略的优选实施方案在下面进行了描述。然而，本发明目的不是被限制。为了这个目标，技术人员将容易评价出可供选择的方法对应于上述处理策略，这些处理策略都以普遍在使用的那些和按照U.S.6,638,717、U.S.6,376,191、U.S.5,759,778、U.S.6,268,133、和U.S.6,613,516中描述的为基础。

靶点核酸分离

在本发明的一种实施方案中，被测定的靶点核酸(DNA和/或RNA)在相同扩增之前被分离出。分离核酸的方法对技术人员是众所周知的。

在一种优选实施方案中，靶点核酸分离将使用MasterPure^TM DNA纯化试剂盒(Epicentre Technologies，Madison，WI)乙醇提纯方法(按厂商用法说明书)来完成。在另一种优选实施方案中，靶点核酸将采用快速微量离心技术进行分离，如在使用Xtra Amp试剂盒(XTRANA，Inc.Broomfield，CO)。然而在另一种优选实施方案中，核酸将采用自动化设备为上述目的进行分离，例如GeneXpert(Cepheid，Sunnyvale，CA)或采用磁性玻璃珠分离的自动机械进行分离(例如Qiagen或Beckman)。

许多其他商业产品可利用，这些产品面向从复合矩阵中纯化和浓缩核酸。除了上面描述的方法和在本发明中，备选方案包括：

QIAamp DNA微型试剂盒(Qiagen)-

(用于基因组、线粒体、细菌、寄生虫、或病毒DNA的提纯)

QIAamp DNA微型试剂盒采用快速自旋柱或真空技术从人组织样本中简化分离DNA。DNA特异性结合QIAamp硅凝胶膜然而污染物透过。PCR抑制剂如二价阳离子和蛋白在二个有效冲洗步骤中完全被除去，剩下纯净DNA在用试剂盒盛着的水中获缓冲液中进行洗提。QIAamp DNA技术从准备在PCR和印迹方法过程使用的人组织样本中生成基因组、线粒体、细菌、寄生虫、或病毒DNA。

RNeasy微型试剂盒(Ambion)-

RNeasy微型试剂盒从非常少量的组织或细胞中有效提纯全部RNA。全部RNA很容易从动物细胞或组织、革兰阳性菌或革兰阴性菌、或酵母中提纯出。RNeasy技术经结合严格的异硫氰酸胍水解，采用快速提纯硅凝胶膜纯化简化全部RNA分离。

UltraClean^TM组织DNA试剂盒(Mo Bio Laboratories，Inc.)-

新鲜或冷冻组织样本采用珠粒搅打(bead-beating)技术水解细胞被均化。溶解产物被负载到硅旋转过滤器上。在瞬时旋转期间，DNA选择性结合到硅膜上而污染物透过。剩余的污染物和酶抑制剂经冲洗步骤被除去。纯净的DNA被洗提到被鉴定的不含DNA的三羟甲基氨基甲烷缓冲液。

UltraClean^TM组织RNA试剂盒(Mo Bio Laboratories，Inc.)-

制备的新鲜或冷冻组织，在水解液存在情况下，采用组织均化器或研钵和研棒进行均化。RNA在硅膜旋转过滤器上被捕获而污染物经离心过滤透过过滤器。冲洗过滤器除去一些剩余污染物和盐。然后，RNA被洗提到被鉴定的不含RNase的水中(被提供)。RNA具有较高质量并且准备用于一些下面的应用中。

Wizard^基因组DNA提纯试剂盒(Promega)-

Wizard^基因组DNA提纯试剂盒被设计用于从血液细胞、组织培养物和动物组织、植物组织、酵母、革兰阳性菌和革兰阴性菌中分离DNA。Wizard^基因组DNA提纯试剂盒是以四步方法为基础的。提纯方法中的第一步水解细胞和核。为从血液白细胞中分离DNA，这步骤设计水解细胞水解液中的血液红细胞，随即水解血液白细胞和核水解液中的细胞核。RNase消解步骤可同时包括在内；它对一些应用是非必须的。然后，通过盐析步骤除去细胞蛋白，析出蛋白但在溶液中剩下高分子量的基因组DNA。最后，浓缩基因组DNA并经异丙醇沉淀脱盐。

SV全部RNA分离体系(Promega)-

SV全部RNA分离体系提供了从组织、细胞培养物和血液白细胞中快速简单制备纯化的和完整的全部RNA。该体系加入直接在微型柱的膜上处理DNase的步骤。提纯为没有使用苯酚情况下进行：氯仿萃取或乙醇析出，并且在最终RNA制备中没有DNase携带(carryover)。

RNAqueous技术(Ambion，Inc.)-

RNAqueous试剂盒能被用于从许多不同组织和细胞中提纯全部RNA。细胞和组织在硫氰酸胍溶液中被裂解；该裂解剂有效水解细胞和不活泼的内生核糖核酸酶。然后，用乙醇溶液稀释溶解产物并将其应用于RNA结合玻璃纤维过滤器。蛋白质、DNA和其他污染物在三个快速冲洗步骤中被除去，然后洗提浓缩形式的结合型RNA。

核酸分离自动装置

除了上面描述的那些方法，一些厂商(例如，PSS BIO Instruments，Roche Diagnsotics，Qiagen，Caliper)制造小的(benchtop)和/或高生产能力液体处理自动装置和相关试剂，该试剂能代替上面描述的手工方法被采用。在一种优选实施方案中，一种或一种以上这种自动装置和其相关试剂将用于自动分离后续加工(背景排除和扩增)用的核酸。

靶点扩增

因为获得具有足够量的病原菌核酸的样本存在困难，出现了一组采用微阵列检测病原菌的技术挑战。因此，对于多数样本类型，一些类型的扩增将可能被要求提供病原菌基因标记的足够拷贝用于微阵列杂交检测。作为微阵列准备步骤，多重PCR实际上被限制在十个不同引物对，不是数千个，引物对的数量增加导致假扩增子数量改变。然而，当标记扩增子被要求杂交到阵列表面的特异性探针上时进行分析，假扩增子经微阵列试验不能被检测出(Chizhikov et al.，2001)。

多重PCR

保守(简并)多重PCR减少特殊的PCR方案产生的系统偏差，该PCR方案设计一系列被筛选出的引物以保守区为靶点，保守区位于被探试到的基因物种特异性可变区的侧翼。在本发明的实施例中，对E1A、纤毛、和六邻体基因已经进行了说明；然而，技术人员可扩大这个策略以任何基因为靶点，这些基因跨广谱物种为保守的，但仍具有物种特异性可变区。为了这个目标，候补基因和特异性区域(保守和可变区)能很容易经过全部或局部同源搜索被鉴定出(例如，序列分析)。

申请人描述了下面筛选靶点的常用策略和引物设计：

如这里使用的，术语“引物”(和通常在本领域中能被理解的)统指在催化合成多聚核苷酸互补引物扩张产物的条件下，能起到沿着互补链多聚核苷酸合成的起始点作用的寡核甘酸。典型的多聚核苷酸合成条件包括在适当的缓冲溶液(“缓冲溶液”包括取代物，这些取代物为辅助因素，或其它影响pH、离子强度的物质，等)中，适宜的温度下，存在四个不同核苷三磷酸或核甘酸类似物和催化聚合作用的一种或一种以上的酶(例如，DNA聚合酶和/或逆转录酶)

为了方便特异性PCR反应、扩增引物一般从13到25个核苷酸范围变化，优选从20到25个核苷酸。为了便于杂交，引物的核苷酸序列一定与靶点有充分的序列互补性。尽管互补程度将很大部分取决于引物长度，互补程度一般至少为80％，优选至少90％，更优选至少95％。

对于随机PCR方案，优选引物长度从6到10个核苷酸。序列将包括六聚体(2⁶置换)到十聚体(2¹⁰置换)的所有取代。

对于“原型”区域设计，优选方案将具有保守引物，该引物位于靶点基因可变区的侧翼。这个是腺病毒的RPMV1中的方案并且被本发明者用于流行性感冒A(采用流行性感冒A片段的保守3′和5′末端的血球凝集素(HA)、神经氨酸酶(NA)和间质(M)。这个概念能延伸到任何大量病原菌类型，因为高度保守区在实质上是普遍存在的并且能为那些序列设计简并引物。

当靶点不选作“原型”时，与原型区域对比，芯片上实际面积的量能很大程度减少。这些方案的目标不一定是鉴定特殊株物种或物种亚变种，而可以是允许足够的碱基响应来获得非模糊的统计学评估，从而证实序列对应于主体病原菌，但不对应于紧密相关的物种或无毒菌株。对于这种多重、较小靶点的芯片设计，设计和最优化被需要的大量特异性PCR反应是不可行的，并且全部扩增变为最佳扩增策略。

核苷酸或氨基酸序列的同源性、序列类似性或序列鉴定可采用已知的软件或计算机程序如BestFit或Gap pairwise比对程序GCG WisconsinPackage，Genetics Computer Group，575 Science Drive，Madison，Wisconsin53711)进行常规确定。BestFit采用局部同源性算法(Smith and Waterman，Advances in Applied Mathematics 2：482-489(1981))，来发现两个序列之间的等同性或类似性的最好片段。Gap采用先前描述的方法(Needleman&Wunsch，1970)执行全局分析：一种序列全部和另一种类似序列的全部。当采用序列分析程序如BestFit时，可采用缺省设置，或适宜的记分矩阵可被选择用于优化鉴别、类似性或同源性记录。类似地，当采用一种程序如BestFit来确定两个不同氨基酸序列之间的序列等同性、类似性或同源性时，可采用缺省设置，或适宜的记分矩阵，如blosum45或blosum80可被选择用于优化鉴别、类似性或同源性记录。

采用联合特异性PCR试剂可对靶点进行扩增，这统称为“多重PCR”。在这个策略中，RPM上所有靶点区域的PCR引物对被结合到一种反应混合物中。这是一种优选方法，一种或一种以上病原菌浓度很低以至于不能单独采用随机扩增策略检测出(下面描述的)。

随机扩增策略

不管与PCR扩增相关的灵敏性和特异性，固有偏差和该方法的限制高通量限制了下游微阵列应用的主要优势。如成功鉴别几乎完全依赖于适当的被选引物位，所有PCR测试需要关于污染有机体鉴别的先验知识。同样地，也必需先进的诊断系统，这个诊断系统能快速筛选出无偏差特定预期序列的临床和环境样本。微阵列检测的优势在于它能联合无偏差核酸扩增策略与后续的微阵列分析性能，导致高灵敏性、特异性和通量性能。

发明者已经通过使用可供选择的方法记录下上述问题并且观察到四个前端扩增策略：随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶和多重PCR反应(Vora et al.，2004)。

Klenow扩增-DNA聚合酶I的Klenow片段能用于采用随机八聚体寡核苷酸引物对进行靶点DNA未知序列的等温、随机扩增。对于本发明，能采用BioPrime^DNA标记系统(Invitrogen)进行实施。依据厂商提供的标记方案进行较小改动制得生物素化扩增子。这个方法一般在37℃下反应4个小时。Klenow扩增生成了一些高分子量的扩增产物，但大部分扩增子长度为50-450碱基对。同样地，这些扩增子适用于直接杂交DNA微阵列。

随机PCR扩增-随机PCR(rPCR)扩增子能采用来自Invitrogen BioPrimeDNA标记系统的2.5X随机引物溶液和10X dNTP混合物制得。反应组成典型包括：1XPCR缓冲液(Qiagen)、2.5mM MgCl₂、1XdNTP混合物(含生物素-14-dCTP)、5μl 2.5X随机八聚体和5U Taq DNA聚合酶(Qiagen)。采用下列条件：94℃保持30秒、26℃保持2分钟、72℃保持1分钟，将扩增反应35轮。

29扩增-用随机六聚体采用TempliPhi^TM100扩增试剂盒(AmershamBiosciences Corp.，Piscataway，NJ)实施等温Φ29 DNA聚合酶扩增。按照厂商提供的方案进行较小改动生成生物素化扩增子(14.4μl扩增反应包含0.4μl酶混合物和3μl350μM生物素-14-dCTP并在30℃下培养16个小时)。

大部分rPCR和Φ29 DNA聚合酶扩增产物太大以至于不能移进电泳凝胶(＞1500bp)中。由于空间限制(Vora et al.，2004)较大扩增产物很难杂交到二维表面的固定探针上。因此，rPCR和Φ29 DNA聚合酶扩增产物用DNaseI降解缓冲液酶切得到扩增子尺寸相当于Klenow和杂交前多重扩增子尺寸。

串联扩增

病原菌靶点的增强灵敏性能联合上面描述的随机扩增策略而得到。串联[Klenow+Klenow]和[29+Klenow]串联随机扩增策略能比多重PCR提供给富集病原菌靶点更好的灵敏性。相同的随机扩增策略也能检测外加环境水样中的被诊断基因组靶点，该水样过量含有63倍的被污染DNA(Voraet al.，2004)。得到的结果加强了使用随机扩增方法和开始系统记录从环境资源中无偏差病原菌检测方法多功能性的可行性。

联合靶点富集和随机扩增

随机扩增方法导致非靶点DNA以及靶点DNA的扩增。因此，发明者在这里描述了在扩增之前富集病原菌诊断靶点序列的多种方法。这对于提高复合基质如临床(例如鼻腔冲洗液或咽喉拭子)或环境(例如，水、土壤、空气收集器)样本中分析物检测的灵敏性和/或特异性

复合样本(临床和环境的)包含显著性、绝大多数未知基因组和非主体基因组(非特异性背景)。减少非特异性背景的一种方法是让核酸接触酶过程，该酶过程选择性酶切背景基因组序列。该方法在下面的实施例中进行了描述。

减少非病原菌基因组含量的另一种策略是使用已知对有机体呈阴性的复合体系的背景基因组序列并且使用它直接除去背景基因组序列。这种“消减”方法能包括：(1)将背景基因组固定在固相表面如凝胶或玻璃珠上，随即用测试样本杂交来消减样本中的背景基因组。在杂交微阵列上靶点期间，也能采用未标记背景基因组来阻断非特异性结合功效。这种阻断方法具有一定优势因为它在试验期间不需要附加步骤。这两种方法在实施例部分中也进行了描述。

也能可供选择地或同时在随机扩增之前使用选择性富集病原菌靶点核酸的策略。从样本中直接筛选的一种可能性(阳性筛选)是使用固相靶点支撑物(磁性玻璃珠或凝胶基质)上的固定探针来选择性富集主体基因组靶点。实际上，固相支撑物上的探针在阵列上不能检测到的，因为它们将导致错误信号如果富集分子被运载出或无意被扩增。同样地，玻璃珠上的探针将通过邻接区域或稍微重叠分析物基因组区域来筛选微阵列上被查询的靶点基因组。如在探针序列和阵列上可被检测的分析物序列之间稍微重叠，那么被查询区域在电子分析期间应被遮蔽。如果预期富集探针与微阵列上序列是同源的，那么那些探针应被构成以至于不经过后续扩增，或制成对扩增之前的选择性酶切具有敏感性。如果有必要时依据样本属性和主体应用，可使用上面组合和其他策略。

可供选择的消减或富集方法

免疫沉淀反应是另一种富集病原菌核酸的方法。主体病原菌抗体能与临床样本混合，然后用抗IgG沉淀来减少病原菌，从而除去背景基因组DNA。当希望得到单个病原菌的相关特异性基因组特征时，如抗生素抗性标记物或有意遗传操作的指示剂，这将具有特殊重要性。

尺寸排除是另一种方法，通过该方法减少或富集病原菌DNA。示意尺寸排除法包括：梯度离心、柱、或离心过滤器单元。梯度离心或柱分离方法是耗时并且需要在实验室内特殊组装。使用“离心过滤器单元”分离高到低分子量物种不一致和通常回收率低。这些方法每一种都需要大量起始原料。其他的尺寸排除方法包括：流式细胞术或电泳方法，例如荧光激活细胞拣选法(FACS)或采用Agilent生物分析器中使用的特殊电泳芯片。

常规靶点富集和扩增策略

本发明者已经描述了从鼻腔冲洗液中消减“正常”人和微生物核酸的方法。这个相同原理也可应用于任何来源(临床的或环境的)的样本，核酸的代表性“正常”混合物能被收集、集中，并且制成消减试剂。

许多方法也能应用于富集病原菌或特殊靶点，该靶点在执行完全扩增策略之前被拼接到阵列上。这样一种方法将使用拼接在阵列上的固定变异体的序列。这些变异体将结合用于分离的固相成分(玻璃珠、基质，等)和在它们自己没有被扩增的情况下富集将被扩增靶点。制备对酶降解敏感的富集探针可以执行这个或它们可能由不可扩增的修饰核酸组成。

一种更优选的实施方案将利用识别序列的探针，该序列邻接靶点基因序列并且不在芯片的拼接区域上表示出。以这种方式，无偏差扩增策略中的扩增将不产生人为产物。

依据常规DNA测序技术被认为基础研究中全部信息收集过程的一部分，因此被描述的再测序方法被认为全部病原菌检测/表征方案的一种组成。Wang et al.(Wang et al，2003)描述的方法采用点样DNA微阵列，这种点样DNA微阵列由识别保守序列的较长寡核苷酸(70-mers)组成，保守序列在病原菌家族内。结合这些位点的靶点序列被分离并在常规DNA测序方法中使用进一步进行表征。以类似的方式，一种非常优选实施方案将涉及使用再测序阵列取代与可供选择的DNA测序类型有关的步骤，因此用几个小时内代替几天内提供出特异性病原菌特征并且启动了有效生物防御系统。

本发明的方法优选不使用特异性序列进行扩增(PCR)。本发明举例说明了富集病原菌核酸的供替换的方法，例如：在采用降低偏差，和等温(例如，随机引物Klenow或链置换扩增)扩增之前，使用固相支撑物分离载体分离。在一种优选实施方案中，常规实验室安装的技术人员采用一套最少自动化步骤执行微阵列试验，将能制备时间短和费用低廉的样本。在一种高度优选实施方案中，在本领域环境中的最低程度技术人员将能采用手持式仪器手动分离/富集病原菌靶点核酸并且用很少的试剂和技术步骤实施病原菌靶点的等温扩增。

背景消减后的扩增和杂交

除了随机RT-PCR使用的引物D：GTTTCCCAGTCACGATCNNNNNNNNN(SEQ ID NO：573)，和引物E：GTTTCCCAGTCA CGATC(SEQ ID NO：574)(Kessler et al.，2004)之外，类似的，以前描述的引物(Wanget al.，2002)，那些引物的变异体，和/或从RNA病毒(病原菌)合成第一种链的cDNA的随机引物(6-9mers)可被采用。可在第一种链cDNA合成后采用消减杂交方案，在复合样本(例如，临床或环境)样本经过一种或一种以上DNA扩增步骤之前，第一种链cDNA合成完全消减临床样本中背景DNA数量。

一种方法采用COT-1人DNA直接消减杂交溶液中的扩增产物(第一种链cDNA合成，然后全部扩增)的背景基因组DNA(大量由快速退火重复单元构成)。另一种方法是第一种链cDNA合成之后和DNA扩增步骤之前，从临床样本中玻璃珠消减背景基因组DNA。

第三个方法是联合上述方法。第一种链cDNA合成之后和DNA扩增步骤之前，采用玻璃珠消减将复合样本中的人基因组背景DNA消减。随后，采用设计用于选择性捕获人DNA和RNA的序列进一步消解杂交溶液中复合样本的背景DNA。DNA扩增可能针对在随机RT步骤中特定或非特定形成的扩增cDNA产物或经联合这些方法扩增两个特异性引物位标记的RT-PCR产物以及病原菌基因组DNA靶点和其他不来自随机RT-PCR步骤的非cDNA靶点。这样做的方法将一种特异性引物序列结合病原菌DNA基因组靶点(这个可能为与被采用附着于cDNA产物相同或为个别的引物)，使单一PCR步骤扩增所有RNA和DNA病原菌靶点。

RNA消减

在使用单独加工处理路径检测RNA和DNA病原菌的地方可以使用下面的方法。为了形成RNA加工处理路径，外加临床(鼻腔冲洗液和咽喉拭子)流行性感冒A阳性样本采用不同的方法(随机、全体的、和多重PCR)进行处理。然而，采用随机扩增方法获得的可接受水平灵敏性，人信使RNA和核糖体RNA应采用MICROBEnrich^TM试剂盒(Ambion，Inc.，Austin，TX)依照厂商使用说明书进行消减。根据先前描述的方法改进的优选的随机扩增策略可能被采用(Wang et al.，2002)。

经本发明者发现，经过采用这个方法，在浓度低至0.45-3.75pfu/150μL的16/19的不同培养物阳性Flu A鼻腔冲洗液和咽喉拭子样本中可进行H3N2检测和H1NlFlu A检测。可进一步确定的是，消减人RNA之后，低浓度范围内6/8的样本中可能检测Flu A。

采用随机扩增方法，在没有背景消减的情况下，流感灵敏性在鼻腔冲洗物中为约0.25pfu/μl(1ng/μl)。在临床样本中，没有消减情况下的灵敏性估计约为1-10pfu/μl。

DNA消减

DNA样本的随机扩增可采用抗菌素29 DNA聚合酶或者以前公开论文中改进的随机扩增方案(Wang et al. 2002；Wang et al.2003)进行实施。简要地说，利用抗菌素29 DNA聚合酶和随机六聚体的DNA扩增可依据GenomiPhi^TM DNA扩增试剂盒(Amersham Biosciences Corp.，Sunnyvale，CA)的使用说明书进行实施。然后，扩增产物依据厂商推荐方案用乙醇进行沉淀。利用改进的随机扩增进行DNA扩增可能采用Sequenase^TM version 2.0DNA聚合酶(United States Biochemical，ClevElAnd，OH)，使用引物D，在第一轮DNA合成中进行实施，随即采用引物E进行PCR扩增。对于RNA扩增，病毒样本经改进版的随机PCR方案(Wang et al.2002；Wang et al.2003；Kessler et al.2004)进行扩增。简要地说，10μl全部RNA能通过采用引物D和superscript III反转录酶(Invitrogen Corp.Carlsbad，CA)进行反转录，然后采用引物E经PCR反应进行扩增。

RNA和DNA路径的会聚

RNA和DNA路径的合并在图9中进行了描述。在本发明的一种实施方案中，RNA和DNA路径合并在一起。这个方案根据加利福尼亚旧金山大学Joseph DeRisi实验室(http://derisilab.ucsf.edu/pdfs/Round A B C.pdf)进行改进并且随机将单一、固定序列PCR引物结合位点加入到所有病原菌DNA或cDNA分子中，采用常规PCR热循环方案使它们都在随后步骤中被扩增。

数据获得和处理

Affymetrix/微阵列设备

总的来说，“微阵列”为优选分散区域的线性或二维阵列，每一种区域具有确定面积，在固体载体表面上形成。微阵列上分散区域密度通过单一固相载体上被检测的不同靶点聚核苷酸的总数进行确定，优选至少约10²/cm²，更优选至少约10⁴/cm²，甚至更优选至少约10⁶/cm²，仍更优选约10⁸/cm²。如这里使用的，DNA微阵列为置于芯片上或用于检测和/或分离靶点聚核苷酸的其他表面上的寡核苷酸引物的阵列。因为阵列中引物的每个特殊基位点是已知的，靶点聚核苷酸的鉴别可基于它们结合微阵列中特殊位点来进行确定。

本发明的一种实施方案利用标准Affymetrix部件(Agilent GeneChipScanner(被淘汰的)和Affymetrix扫描仪3000 workstation和Fluidics Station450。原则上，被描述的发明不需要这个设备。用于定量基因表达和高置信度SNP检测的给定用途的GeneChip系统，现有的设备对于信号强度的动力学范围或本发明固有的背景干扰来说不是最佳的。因此，优选的实施方案加入了使用图像获取方法，包括使用空间频率过滤器和图像增强技术，利用特征维数固有规律性加强过滤算法(例如，边缘增强、卷积，等)更好对比于噪声图像。

Affymetrix CustomSeq方案

在本发明的一种实施方案中，样本处理通过采用标准AffymetrixCustomSeq^TM方案完成。一般来说，这个方法需要：(a)扩增含DNA探针材料，(b)集中和测量扩增产物数量，(c)扩增产物片段法和标记，(d)靶点杂交，和(e)冲洗，着色和扫描被杂交靶点。Affymetrix CustomSeq^TM方案的详细描述可在从厂商中得到的产物手册和方案指南中找到。

在标准的Affymetrix CustomSeq^TM方案中，步骤(a)需要长程PCR或者短程PCR，长程PCR为优选扩增策略。对于这些扩增策略的每一种，厂商推荐的PCR DNA聚合酶为Taq变异体，AmpliTaq Gold DNA聚合酶(短程PCR)和LA Taq DNA聚合酶(长程PCR)。尽管厂商不特殊推荐，一些DNA聚合酶可用于步骤(a)只要被采用的DNA聚合酶为高保真DNA聚合酶。

为了推动DNA扩增步骤(a)，标准的Affymetrix CustomSeq^TM方案采用特异性PCR引物。然而，特异性PCR引物的使用显著性限制了发明技术的广泛应用由于引入系统偏差，该系统偏差由迄今已经采用的特异性PCR方法产生。因此，在本发明步骤(a)的一种优选实施方案中，AffymetrixCustomSeq^TM方案由可供选择的扩增策略取代，如多重PCR、全部扩增(GenomiPhi^TM)，或随机RT/PCR。这些可供选择的策略在上文中进行了描述。每个厂商推荐的PCR策略的最佳PCR扩增条件，以及本发明的优选策略，能通过技术人员进行的常规试验进行确定。

因为PCR反应之间存在可变性，Affymetrix CustomSeq^TM方案陈述了试验性能可大大降低如果杂交中扩增子浓度改变大于两倍。因此，Affymetrix CustomSeq^TM方案的步骤(b)需要集中PCR反应并且分光光度法定量确保等摩尔样本应用于微阵列

然而，本发明得到了超过Affymetrix CustomSeq^TM方法的SNP检测定制的方案的一些优势，在本发明中使用具有序列长度无关类似性搜索(BLASTN)的高密度芯片提供了在筛选拼接用序列之前必须做出较少假设。此外，使用长度无关类似性搜索(BLASTN)除去了特殊的已知子序列成功再测序的限制，使该方法对靶点浓缩物中的变异体更具有抗性和非特异性结合的影响导致失去碱基响应。因此，在本发明范围内，AffymetrixCustomSeq^TM方案的步骤(b)是非必须的并且可被省略。

在DNA扩增之后，得到的DNA分子太长以至于不能与阵列表面的短探针进行杂交。因此，Affymetrix CustomSeq^TM方案的步骤(c)涉及片段法和后续用荧光物质标记片段。该方法和片段法试剂和标记没有特殊限制；然而标记必须与再测序微阵列的检测仪器兼容。为了这个目的，厂商推荐的试剂和条件可能被采用。

Affymetrix方案的可供选择的改变

荧光标记可能有利于这里描述的方法，因为这些为常规使用自动化使用仪器同时高通量分析多个样本，包括Cy荧光团，罗丹明荧光团：TARAM、ROX、JOE、和FAM；BigDye^TM荧光团(Applied Biosystems，Inc.)、丹磺酰基、荧光素和取代荧光素衍生物、吖啶衍生物、香豆素衍生物、金色染料、四甲基若丹明、Texas Red^TM、9-(羧乙基)-3-羟基-6-氧代-6H-氧杂蒽、DABCYL^TM、BODIPY^TM、和ALEXA^TM荧光素(分子探针，Eugene，Oregon)。

此外，有许多标记而荧光团，荧光团将适合并且或许在许多情况中更优选。这些标记物包括，但不限于：共振光散射(RLS)颗粒(InVitrogen，Carlsbad，CA)、量子点(Quantum Dot Corp.)和其他具有预期光学性质的纳米级颗粒。

靶点杂交(步骤(d))可能按照Affymetrix CustomSeq^TM方案中描述的执行。这个步骤重点部分是含有片段和标记DNA的样本经高温(例如，85-100℃，优选95℃)培养变性，随即进行杂交温度(如，45℃)平衡。一旦含有DNA样本平衡，样本用于再测序阵列。厂商推荐实施杂交反应16个小时；然而，如上述陈述的，本发明的方法不使其性能依赖于提高灵敏性来产生适宜的碱基响应。因此，较短的培养时间适于靶点杂交。在本发明的背景中，靶点杂交培养时间可从15分钟的短时间到24小时的长时间范围内变化。很明显，希望这个范围时间包含每个间隔时间仿佛它们被明确规定一样。值得注意的优选时间为15分钟、30分钟、1个小时、2个小时、4个小时、12个小时、和16个小时。

Affymetrix CustomSeq^TM方案的最后步骤需要使用Affymetrix FluidicsStation冲洗被杂交的阵列并且采用Agilent GeneArray^TM扫描仪进行扫描。这个仪器简单自动化了将手动执行的标记和冲洗步骤。因此，将能够时控输送和收回毫升量的标记物和冲洗介质一些仪器将适合供选择。这里描述的本发明将用于一些Affymetrix提供的后续硬件改变。此外，从这里描述类型的再测序微阵列中获得数据可从一些制造商的微阵列处理设备中得到。

关于病原菌检测的生物信息学问题

依赖于用于病原菌微阵列检测的终点，生物信息学问题的重点是非常不同的。生物信息学工具对有效设计和筛选出微阵列形成的特异性互补核酸探针序列是不可缺少的。例如，靶点病原菌基因组核酸序列通常在微阵列分析之前被扩增并且生物信息学很明显在引物设计(评估T_m/T_n，二级结构，自身互补度，和特异性问题)用于分析试验对有机体和菌株具有特异性基因中起作用(Kampke，Kieninger&Mecklenburg，2001)。这些相同分析测试也必须适合于微阵列探针设计。

在实验设计的初始阶段期间，假设与靶点病原菌相关的遗传信号的引物和探针对那个病原菌或病原菌家族具有特异性。应了解，扩增子的生成或使用特殊设计的引物或探针进行的阳性杂交反应将分别说明靶点病原菌的指定分子特征的检测；然而，这不必要是正确的。细菌和病毒遗传混乱，微生物倾向于交换遗传物质，造成单一物种或菌株特异性探针形成中的困难(Ochman，Lawrence&Groisman，2000)。因此，优选引物和探针设计方法学需要使用生物信息工具来：(a)在不同有机体或菌株之间执行多重序列分子并且设计适当的具有示意生物学性质的引物，(b)将这些序列与注册在序列数据库中那些序列进行比对来确定特殊序列的唯一性和交叉反应的电位，和(c)推断出基于遗传保守水平的靶点特异性的概率和主要遗传序列仍没有被阐明的其他病原和非病原物种遗传相关性。

公开发明的一种非常重要的生物信息学方面涉及组合、注释和输入到微阵列中数据库的病原菌诊断靶点的筛选，以及微阵列上相关探测这种数据库的伴随任务。本发明的一种优势为公共用数据库中的信息正在提高，因此进一步提高了本发明的稳健性质。本发明描述了从公开发表的文库中(例如，GenBank)中自动筛选病原菌靶点序列的方法和/或确定公开发表的文库中经验辨别的诊断靶点序列的方法。描述的方法具有联合科学家们的优势，大量病原菌种中每一种类的的处理专家能提供相关病患菌诊断信息，将这些信息掺入到自动阵列设计方法中，不特殊考虑特异性探针、试剂、扩增、和样本制备方法。

在一种非常优选的实施方案中，大量不相关病原菌中的每一种的必备领域知识将经网络门户数据库保持最新技术。因此，影响深远的团队，由特异性病原菌单个研究员构成，将能够通过″pathogen page″格式网络门户提供最新注释靶点序列信息，类似于细胞信号传导联盟(AfCS)采用的″molecular page″样式。AfCS数据库保持着包含在分子内信号转导体系中的数千个分子上的不可理解数量的特异性信息。以这种格式，没有单个信号转导分子特殊知识的单个研究者能使用详细的参数，这些参数能在信号转导数值模拟中使用。因此，在另一种非常优选的实施方案中，单个病原菌的注释靶点序列数据被安排在自动化数据管道内，其中将在病原菌数据库全部信息内容之上加强用户自定义设计限制(例如，探针特征数量、病原菌靶点数量、阵列实施要求的灵敏性和特异性水平，等)，允许自动化，最优化靶点筛选，并且将这些靶点以微阵列制备必要格式提交给供应商。

在又一种非常优选的实施方案中，由先前方法确定的被筛选靶点序列将与微阵列实际使用中收集的数据有关。使得概率和质量的度量将用于判定。实施这种自动化流水线数据和算法的两种优选方法为VIBE (可视化集成生物信息学环境)软件(Incogen，Inc.，Williamsburg，VA)和iNquiry(BioTeam，Boston，MA)，这两种软件代表一类集成生物信息学环境，两种软件相对于该用途具有相同的效果。

数据获得-

再测序微阵列芯片的原始序列数据由与Affymetrix微阵列阅读器一起包装的遗传数据分析软件version 2.0(GDAS)提供。

Affymetrix再测序阵列包含规定数量的探针细胞或部件。在扫描期间，软件将每个部件分为亚单位方块或像素(3x3μm)。每个部件包含规定顺序的独一无二的25个碱基寡核苷酸探针的许多拷贝，然而一系列的八个部件查询已知参考序列中的特异性位点。四个部件询问正义链并且包含一些探针，这些探针除了中心碱基是A、C、G、或T之外是同源的，四个部件查询反义链并且包含一些探针，这些探针除了中心碱基是A、C、G、或T之外是同源的。

GDAS使用细胞强度数据来生成再测序阵列上表示的每个碱基位的碱基响应。在GDAS的厂商设定下，算法采用多重样本中的强度数据来提高碱基响应的精确度并且为每个响应分配质量得分。

GDAS碱基响应是基于先前描述的碱基响应算法，ABACUS，在(Cutleret al.，2001))详细进行了描述。该模型假设，特征的像素灰度是独立的并且正常分布的。该算法计算出估计平均背景和正义链和反义链特征的改变。碱基响应算法也拟定样本(单倍体或多倍体)中存在或缺少的不同基因类型的模型。许多碱基响应算法参数能由用户(GDAS操作手册/用户指南，Affymetrix)确定而获得碱基响应百分比和精确度之间的平衡。

关于GDAS的算法和能被修改的参数的补充说明在GDAS用户手册中能够找到。参数的描述在GDAS 2.0版手册中的第207-217中能找到。推荐(缺省)的GDAS设置是集中于最高水平精确度的“保守性”设置。相反，本发明的目标是为了提高碱基响应的百分率。为了达到这个目标，本发明者调整了参数允许如下面列出的高度许可碱基响应(提高百分率)：

“许可”碱基响应算法设置-

-过滤器条件

·无信号阈值＝0.500(默认值＝1.000000)

·弱信号倍数阈值＝20000.000(默认值＝20.000000)

·大信噪比阈值＝20.000000(默认值＝20.000000)

-算法参数

·链质量阈值＝0.000(默认值＝0.000000)

·总链质量阈值＝25.0000(默认值＝75.000000)

·杂合子响应的最大值＝0.99000(默认值＝0.900000)

·模拟类型(0＝杂合子，1＝纯合子)＝0

·完美响应质量阈值＝0.500(默认值＝2.000000)

-最终可靠性规则

·临近探针响应的最小值＝1.0000(关闭过滤器)

·样本响应的最小值＝1.0000(关闭过滤器)

上述设置在本应用中是重要的，因为通过默认牺牲生成的碱基响应数量目的为了生成最精确响应(例如，信噪比检测)建立起碱基响应算法。在本发明的应用中，该技术很少关注于获得信噪比检测要求的相同程度的精确度而代替的是扩大生成响应的数量使得经GDAS制备出最长段的邻接序列而保持必要特异性。

可以理解的，在本发明界定的范围内，上述列出的许可设置能个别改变或按照执行者的需要全部改变来获得最佳灵敏性/特异性协定。此外，可以理解的，上述设置是示范性的并且在没有改变本发明预期结果的情况下，每个设置可改变10％或更多(随参数而定)。

再测序病原菌辨识器(REPT)和备选、修改、研制

也依据本发明，它为来自碱基响应算法的序列信息，如应用于微阵列杂交模式，微阵列杂交模式用于鉴别单个病原菌。优选地，经再测序探针确定的靶点序列用于采用类似性搜索算法查询数据库。更优选地，该算法通常采用已使用的局部分析(例如，Smith-Waterman，BLASTN)序列分析算法来统计学上确定给定靶点序列对应于数据库记录中的特异性序列的概率(Korf，Yandell Sc Bedell，2003)。甚至更优选地，自定义算法确定了最适用于针对数据库记录产生有意义类似性搜索的子序列，数据库记录确定出自动提呈给类似性搜索的一套序列。然而，甚至更优选地，自动子序列分析算法为在本发明中描述的再测序病原菌辨识器(REPI)算法并且该序列数据库记录将存在于公众领域(例如，GenBank)和私人领域中。核酸序列类似性搜索算法的变化适合于在指定发明中使用，包括，但不限于华盛顿大学BLAST(WU-BLAST)、NCBI-BLAST、FastA、MPsrch、Scanps、和BestFit(Korf et al.，2003)。

REPI备选和变异

在描述的发明中，REPI(再测序病原菌辨识器)软件(参见，2004年9月15日提出的美国申请Serial No.60/609,918，和2004年11月29日提出的美国申请Serial No.60/631,460)被用于确定CustomSeq/GCOS/GDAS过程的碱基响应子序列将可能通过使用自定义滑窗算法返回显著性BLAST结果。随后，REPI自动返回BLAST输出给终端用户，随机安排对应于特殊微生物序列的给定碱基响应的可能性。低水平软件功能性类似于UNIX“核心”或UNIX计算机操作系统，因为所有较高水平功能和用户界面必须通过它进行再测序芯片分析。

REPI提供的低水平功能性将成为许多较大生物信息学任务的中枢，较高生物信息学任务将利用核酸的分散片断，或甚至氨基酸序列。在下列实施例中，本发明者提供了显示序列片段能自动连接单个病原菌的数据。在一些更优选的实施方案中，这种方法能被精确至病原菌混合物之间和病原菌之间的遗传重组之间进行更好地分析。在一种非常优选的实施方案中，分析软件将考虑自动检测在阵列的不同拼接区域上的重叠或同源序列片段，推断出病原菌的混合物。在一种甚至更精确的实施方案中，分析软件将确定不同拼接区域的序列输出，这些拼接区域不重叠但对应于可用于推断遗传重组发生的邻接序列。

例如，两株病毒的交叉传染可能产生基因重组，这个基因与病毒株除了5′端之外是同源的，所述5′端用另一种病毒株基因的对应部分取代。当这个新重组病毒基因组在再测序微阵列上被杂交，从相应的两个区域的产生信号。将需要自组装算法来构建显示出所有部分结合在一起形成完成靶点的病原菌模型。如果两个具有显著性重叠部分，可断定可能存在混合物。但如果没有重叠部分，将存在重组的可能性。重叠的程度(或缺乏重叠)将受到低浓度靶点和相对较小量的被填充拼接的影响。同样的原理甚至更容易应用，并得到更大的影响，在病毒上重组稳定并重复发生，如在流行性感冒中，病毒片断之间的重组规律性导致新病毒株的形成。事实上，这个被描述的REPI功能性将成为辨别病原菌混合物对重组的基础。

在另一种非常优选的实施方案中，REPI算法将考虑分析转录标记物(例如，RNA)，这种转录标记物采用目前描述的类型微阵列进行再测序(经RNA杂交或互补cDNA)。在类似于上述描述的推论基因重组发生的方法中，转录序列也可被组装来确定病原菌存活能力和能作为传染标记物的转录编辑结果。

另一种REPI备选(估计样本中病原菌靶点数量)

不仅是本发明的方法能够在病原菌混合物和给定病原菌(本文中的别处描述的)范围内重组之间区分，它也将很有价值地提供给终端用户在再测序微阵列试验中被检测出的相对量病原菌的评价。尤其是，当病原菌基因组信号被检测出，临床医生(技师)指明原因和功效时，这将具有重大效用。

两种类型的数据可用于这个目的。首先是芯片上杂交的绝对强度。溶液中靶点的量和实际杂交的量和生成的信号之间存在非线性关系。然而，样本中靶点核酸量的评估可能经比对空白条件下制备的标准曲线来得到。信号强度数据容易从Affymetrix数据结构中的.CEL文件中得到，并且尽管.CEL文件内容在这个公开中没有使用，REPI的输出能容易修改包括.CEL文件的强度值。第二，碱基响应的百分率，如全部拼接区域尺寸的百分率和如筛选的满足滑窗算法的子序列范围内碱基响应的百分率，能用作浓度的测量。我们的结果显示出两种百分比度量随着靶点浓度降低而降低，尽管正确病原菌仍能被鉴别出。

病原菌检测的一般用途

在一种优选实施方案中，这里描述的本发明将用于病床装置(床上或床旁)中常见呼吸病原菌的常规诊断和监视。易于得到的样本(例如，鼻腔冲洗液、鼻腔拭子、咽喉拭子、唾液、或血液)将以简单方式进行处理来生成核酸分离，采用吸附法分离核酸，富集病原菌特异性靶点，采用无偏差(或全部)扩增法或多重PCR方法进行扩增，并且在洗涤和成像之前，在再测序微阵列上杂交最少时间。全部过程足够简单使得技术人员(普通医学技术人员)将能够在没有重大中断情况下以常规工作模式执行该试验。碱基响应将采用自定义算法或采用开发商指定的步骤来生成。REPI或其一些变异，将用于自动分析由微阵列生成的碱基响应，并且提供终端用户(例如，医师、疗养院、公共卫生官员、或其它决策者)传染性病原菌管理质量信息决定(例如，诊断、处理、预见和爆发控制/污染测量)，这些传染性病原菌成为疾病综合症和并发症的原因。这个分析将经使用嵌入式序列数据库而局部发生，嵌入式数据库经REPI被查询(例如，局部专有BLAST服务器)。除了提供常规诊断动能之外，微阵列也将携带标记物给高度不可能(例如，生物恐怖行动)病原菌，这种高度不可能病原菌将成为连累其他如公共健康官员的原因。然而，可以理解的，鼻腔冲洗液或咽喉拭子不可能成为生物恐怖试剂诊断的最佳样本类型并且可能需要分离样本类型。

同样在本发明界定的范围内，进一步证实了利用微阵列和本发明的方法，包括：

细节1：

患者借助T＞100.5医学器械并具有呼吸道病症。取出鼻腔冲洗液和/或咽喉拭子。能通过这种路线鉴别的病原菌包括常见发生的病原菌，列在表1中。发热已经发现成为经培养分离呼吸病原菌重要标准并且文献证实在发热期间，病原菌浓度一般为峰值浓度。

对于生物恐怖试剂，文献中可利用的关于生物试剂集中释放之后，在呼吸分泌物中传染性滴度的信息很少。令人怀疑的是，气雾释放生物恐怖试剂在接触后的第一个24小时内将导致可检测滴度的生物体。在接触后的第一个24小时内的个体中，微阵列将适合鉴别常见病原菌的目的，这些常见病原菌可能被错误的怀疑为来自BT/BW试剂。接触显著性气雾释放的一部分个体将迅速显示出症状并且将在鼻孔中保留检测用的BT/BW试剂。对于疾病，例如天花，症状发作的潜伏期是比较长的，但病毒能从咽喉培养物分离出几天。

细节2：

个体已经病了几天并且最初不去门诊部，而选择自己用药医治。患者可能最初没有注意到发烧，但现在已经发烧并且有呼吸病症，担心不退烧。保健医生(HCP)察看患者并且确定适当的临床样本。如果患者显示出更严重，那么可进行胸透X-ray观察。引发较低呼吸道传染的常规有机体包括，但不限于：肺炎支原体、肺炎双球菌、肺炎衣原体、嗜肺军团菌、化脓性链球菌、流行性感冒A/B、RSV、副流感、金葡菌属、SARS。在关注的BT/BW试剂中，不正常的胸透x-ray能发现炭疽芽孢杆菌、天花、鼠疫杆菌、土拉热弗朗西斯菌。

对于常见呼吸道生物体，鼻腔冲洗液/咽喉拭子仍是适宜的样本技术，尽管一些从业者选择发送唾液样本。对于BT/BW试剂，唾液和血液是适宜的样本技术。

细节3：

正在爆发的已知试剂。微阵列能连续用于检测其他常见病原菌，但也可用于采用一些类型的适当样本筛选已知BT/BW试剂。其他的试验可能证明很便宜，但微阵列在病原菌鉴别的同时能提供法医信息和抗生素抗性数据

全面商业模式

再测序DNA微阵列和相关装置(包括其他类型的低容量微阵列或可供选择的序列探测器)将仅为一类综合病原菌诊断/监视系统的元件。这个系统将由诊断、信息学、流行病学成分构成。在诊断水平上，RPM(和辅助设备)将提供快速费用低廉的方法来提供传染性呼吸疾病的诊断、患者特殊治疗信息和预后信息(基于毒力和抵抗力标记)。这将表现出临床猜测的相应病症的一种或一些病原菌(例如，肺炎支原体和其他具有“步行性肺炎”表象的病原菌将通过获得细菌培养物进行测定，存在那种病原菌抗体，等等)诊断重点的改变和通过多重DNA微阵列实施以症状和器官系统或受影响系统为基础的不同测试。单一高度多重DNA阵列将附加地提供关于病原菌组群的诊断信息来治疗(例如，细菌，病毒，寄生虫，和真菌病原菌)，通过减少因猜测因果剂而开出的药方的数量(例如，针对病毒性呼吸感染开出的抗生素将不起作用)产生丰富利润。附加的诊断应用可包括影响器官或器官系统(例如，呼吸系统、泌尿生殖系统、中枢神经系统，等)的所有病原菌，综合征(例如，在没有鉴别原因来排除所有潜在传染性疾病诱因的情况下，医院内评估的持续两周且原因不明的发烧)，症状(例如，引发风疹或发痒皮疹，或咳嗽等的所有病原菌)，四周收集地理位置存在的病原菌或威胁，或功能类别(例如，以耐抗菌剂的所有有机体为基础分组或其他受限定位像监狱或疗养院)。高度多重不同诊断测试将通过确定传染病病因、药剂抗菌感受性、和关于药剂性质的基因组序列特异性线索来实施，使得有大量机会被确定来提高临床治疗的功效和效率。

然而，因为进行大量特异性分子查询，大量病原菌被发现，每种具有先前难以达到的详细水平。同样地，作为现在正在与诊断同时执行的“监视”活动的一部分，避免需要通常要求临床水平的繁重且花费大的任务用于监视支持，大量试验(培养、按血清分类，和PCR确认)被随后和偶尔实施。这将与以某种方式对RNA病毒(例如，流行性感冒和SARS)变异体诊断和监视密切相关，当取决于特异性寡核苷酸探针位点时，这种方式将相当复杂。

在这里描述的特殊实施方案中，拥有诊断微阵列将高度有利，微阵列的制备将不取决于大量靶点序列的可利用性和采用它们制备阵列的方法。更重要地，不限制靶点序列是不变的假设是关键的。在没有要求重设计特异性寡核苷酸探针和阵列重新制作的情况下，DNA微阵列的诊断将鉴别特异性但非预期的模式病原菌基因组变异体。对于表征传染性疾病以时效性方式暴发的能力是关键性的。例如，在没有要求分离病原菌，进行培养，和采用常规方法测序的情况下，这种微阵列能用于快速检测出流行性感冒或SARS病毒的新型变异；如果病原菌是容易培养的，这个过程将需要几个星期到几个月时间。

本发明也包括监测病原菌混合物的应用，尤其当没有初步证据说明提示该混合物可能通过特异性试剂(例如，PCR引物)进行问诊。因此，本发明提供了一种方法来影响确定疾病病原学中影响病原菌的互补作用的能力。然而，在应用中例如病毒或细菌原种质量控制和病毒疫苗生产的评价，涉及本地株的内部混合物和生成重组的可培养病毒。从而，本发明能够提出疫苗功效的正确适宜表位。

该系统的信息学组成将提供必要组成来实施局部(床旁诊断)、自动化微阵列数据分析以及协同多方向信息传递。“上游”流信息将从再测序芯片，优选以FASTA形式，和所有相关局部处理结果，转移特异性序列碱基响应到地方、区域、国家和国际水平。信息的“测流”将涉及特异性序列碱基响应地交换和其他局部床旁医疗设备的相关局部处理结果。“下游”流信息定义为区域和地方卫生部门的国家级数据集成。

像临床样本，环境样本可包含少量的来源不明的高度基因组背景中的靶点核酸。但不像给定类型的临床样本，环境样本(例如，土壤，水，或气溶胶粒子收集器中收集到的)中发现的背景可能显示出取决于地理位置、季节、和环境条件的异质成分。因此，上述提到的扩增、富集和/或消减策略可用于获得可靠的碱基响应。

法医和环境应用

RPM提供的详细序列信息的数量将能用于多种应用除了医疗诊断和监视。因此，该设备性能扩展到特异性病原菌株的法医指纹识别。这种性能实现了传染性疾病病因学的预先诊断，作为确定诊断分析的可供选择的常规工作。在有意传染、投毒、或生物恐怖活动的事件中，再测序病原菌检测微阵列将考虑用于详细的菌株识别来确定事件的可能主因和通过实施公共卫生防范措施迅速缓解事件(例如，确定传染性能力，抗微生物抗性，或对有机体的基因工程改变)，作为疾病发作研究过程的第一步，直接鉴别菌株病原菌。

本发明进一步提出了自动化和最优化迭代和自适应设计、制备和确认阵列，包括派生的子阵列的方法和步骤。在一种非常优选的实施方案中，企业级、病原菌专家团队将操作支持web portal数据库。该团队将具有鉴别和毒力的病原菌靶点序列。

本发明中描述的同一技术能用于非临床样本，包括从空气、水、土壤或表面拭子收集的样本。本发明中描述的进行必要的修改对于核酸提取和背景核酸的除去是必要的，如果消减方法随后进行遗传扩增是理想的方法。

人群中多重病原菌监视

本发明进一步提供了一种特殊执行，这种执行验证了其在现实操作设置中的能力。这个执行是关于急性呼吸疾病的流行性爆发，这种急性呼吸疾病包括常见和不常见病因学，而且同时评估在单独作用中恶意病原菌的可能表现(纵使有也是罕见的)。因此，发明提供了执行导致传染性发作的多数具有传染性病原菌的近实时监视的方法。这种监视可被验证并最终变成在“现实实验床”上进行操作。在一种优选实施方案中，现实实验床为人群，这种人群规律性地遭遇许多呼吸病原菌。在一种优选实施方案中，人群由部队人员构成。在一种优选实施方案中，人群由现役军人构成。

终端用户具体应用

微阵列设计和试验的综合过程将仅需要将序列提供给微阵列厂商，不涉及辅助试剂(例如，特异性PCR用的辅助试剂)。因此，终端用户不具备基因组的详细知识，将能够确定微阵列试验的定性作用，并且自动化生物信息学流水线将用于筛选提呈给再测序微阵列厂商的适宜靶点基因子序列。这将使用于特殊地理位置战区的新颖微阵列设计迅速发展。因此，本发明综合的设计/分析能力将普遍适用于除这里列出的其他想象到的应用。

腺病毒序列-

本发明的另一种实施方案为十三株腺病毒的基因组序列，其在本发明日期时未知，。十三株腺病毒为：Ad3、Ad3FS_navy、Ad4、Ad4vaccine、Ad4FS_navy、Ad4FS_AF、Ad5FS、Ad7、Ad7FS_navy、Ad7 vaccine、Ad16、Ad1、和Ad21。这些基因组序列已经被指定了GenBank登录号，在实施例的表6中表示出。全部GenBank记录，包括部分注释，这些序列的每一种可在序列附表中找到。

如这里使用的“多肽”可被理解为是指一些肽键结合的氨基酸残基的序列。这种氨基酸在本领域中是众所周知的并且包括未修饰和修饰的氨基酸。此外，一种或一种以上本领域中周知的修饰如糖基化、磷酸化等可修饰多肽。

术语“分离的”意指从其自然环境中被分离出。这个术语是为了也包括术语“纯化的”(100％纯净)和“大体上纯化的”(至少90％纯净)。

术语“聚核苷酸”一般统指多聚核糖核苷酸和多脱氧糖核核苷酸，并且能表示未修饰RNA或DNA或修饰的RNA或DNA。

如这里使用的术语“同源的”可理解为意指两个或多个聚核苷酸或同一物种或不同物种的蛋白之间的序列类似性。在这个术语的含义内，依据本发明，当候选序列的核苷酸碱基(氨基酸)组成至少70％，优选至少80％，最优选至少90％对应于该序列时，上述两个或多个聚核苷酸(或蛋白质)是同源的。依据本发明，“同源蛋白质”可理解为保持至少50％，优选至少75％，更优选至少85％，最优选至少95％的本发明序列的活性。如这里使用的“对应”可理解为对应氨基酸或者是同样的或者是相互同源的氨基酸。表达为“同源氨基酸”表示具有相应性质，尤其关于其电荷、憎水性、位阻性质等。相同命名法能用于描述编码相应蛋白质的基因序列的DNA或RNA序列同源性。

在这里使用的术语“同源片段”可理解为来自同一种类或不同种类的两个或多个聚核苷酸或蛋白质。在上下文中，可预期的是，当这个片段与具有至少50个氨基酸的片段至少40％同源，那么这个片段是同源的。更优选的，同源片段与具有至少50个氨基酸的片段至少60％同源，至少70％同源，至少80％同源，至少90％同源，或至少95％同源。因此，同源片段包括在本发明的范围内。对于同源的聚核苷酸，可以理解的，相同同源性范围在本发明的预想之内但超过1000个核苷酸的范，包括所有整数(例如，150、250、300、500、750，等)。

同源性，核苷酸或氨基酸序列的序列相似性或序列同一性可采用已知软件或计算机程序如BestFit或Gap成对比对程序(GCG Wisconsin Package，Genetics Computer Group，575 Science Drive，Madison，Wisconsin 53711)常规确定出。BestFit使用Smith和Waterman的局部同源性算法(Advances inApplied Mathematics 2：482-489(1981))来找出两个序列之间的同一性或相似性的最佳片断。Gap采用Needleman和Wunsch的方法(the method ofNeedleman and Wunsch，J.MoI.Biol.48：443-453(1970))执行全局分析：一种序列的全部和另一种相似序列的全部。当采用序列分析程序如BestFit，确定序列同源性、相似性或同一性的时候，可采用缺省设置，或者适当的记分矩阵可筛选最佳同一性、相似性或同源性分数。相似性，当采用程序如BestFit确定两个氨基酸序列之间的序列同一性、类似性或同源性时，可使用缺省设置，或者适当的记分矩阵，例如blosum45或blosum80，可筛选最佳同一性、相似性或同源性分数。

本发明也关于包含完整基因的聚核苷酸，通过开放阅读框鉴别出该完整基因。在序列附表中可找到包括在本发明内的优选基因的实施例包括E1A、六邻体、和纤毛，以及本发明范围内的其他优选聚核苷酸序列。本发明也包括上述基因片段和聚核苷酸和其片段，聚核苷酸和其片段能通过用探针杂交相应基因库进行筛选而获得，该探针包含上述寡核苷酸或其片段的序列，和上述DNA序列的分离物。

本发明也关于编码DNA序列，该DNA序列由遗传密码的变性得到。此外，本领域中的技术人员也明白保守氨基酸取代如在蛋白质中丙胺酸取代甘氨酸或用谷氨酸取代天冬氨酸，如“同义突变”不导致蛋白质活性的任何基础改变，例如功能上中性的。也应知道，蛋白质N-和/或C-末端的改变大体上不削弱其功能，并且甚至可能稳定上述功能。

依据本发明的寡核苷酸序列适合作为RNA、cDNA和DNA的杂交探针，为了分离这些cDNAs或基因，cDNAs或基因显示出高度相似性探针序列。

依据本发明的寡核苷酸序列适合作为聚合酶链反应(PCR)的引物用于生产编码活性酶的DNA。

寡核苷酸如那些作为探针或引物，能包含多于30个，优选等于30个，更优选等于20个，甚至更优选至少15个，最优选至少13个连续核苷酸。长度至少40个到50个核苷酸的寡核苷酸也适合。

杂交方案在本技术领域中是周知的并且在如in Sambrook et al.，MolecularCloning：A Laboratory Manual，Cold Spring Harbor Laboratory，New York(1989)中进行了公开。然而，如这里使用的，严格杂交条件是在聚核苷酸之间进行杂交的那些条件，采用常规同源性程序确定的这些寡核苷酸为75％、80％、85％、90％、95％或98％同源的，常规同源性程序的一种实施例为Wisconsin大学的UWGCG序列分析程序(Devereux，Haeberli&Smithies，1984)。通常地，严格条件为，pH值为7.0到8.3时，盐浓度小于约1.5M Na离子，通常约0.01到1.0M Na离子浓度(或其他盐)并且对于短探针(例如，10到50个核苷酸)，温度至少约30℃，并且对于长探针(例如，大于50个核苷酸)，温度至少约60℃。严格条件也可外加破稳定剂如甲酰胺而得到。示范性低严谨条件包括在37℃下，采用30到35％甲酰胺缓冲溶液，1M NaCl，1％SDS(十二烷基硫酸钠)进行杂交，并且在50到55℃下，1X到2X SSC(20X SSC＝3.0M NaCl/0.3 M柠檬酸三钠)进行洗涤。示范性适度严谨条件包括在37℃下，在40到45％甲酰胺，1M NaCl，1％SDS中进行杂交，并且在55到60℃下，在0.5X到1X SSC中进行洗涤。示范性严谨条件包括在37℃下，在50％甲酰胺，1M NaCl，1％SDS中进行杂交，并且在60到65℃下，在0.1X SSC中进行洗涤。

特异性通常为杂交后洗涤的功能，关键性因素为离子强度和最终洗涤溶液的温度。对于DNA--DNA杂交，Tm能接近于Meinkoth和WaM方程，(Meinkoth&WaM，1984)：Tm＝81.5℃+16.6(log M)+0.41(％GC)-0.61(％form)-500/L；M为单价阳离子摩尔浓度，％GC为DNA中鸟嘌呤核苷和胞嘧啶核苷酸的百分比，％form为杂交溶液中甲酰胺的百分比，并且L为碱基对中杂交的长度。Tm为在50％的互补靶点序列杂交到完美匹配的探针的温度(在规定离子强度和pH下)。每1％的错配，Tm减少约1℃；因此，Tm，杂交和/或洗涤条件能调整来杂交预期同一性的序列。例如，如果约90％同一性的序列被查询，Tm能降低10℃。通常地，选择的严谨条件比特异性序列热熔点(Tm)低约5℃，并且它的补体在规定离子强度和pH值条件下。然而，严格的严谨条件能在比热熔点(Tm)低1、2、3、或4℃下，进行杂交和/或洗涤；适度的严谨条件能在比热熔点(Tm)低6、7、8、9、或10℃下，进行杂交和/或洗涤；低严谨条件能在比热熔点(Tm)低11、12、13、14、15、或20℃下，进行杂交和/或洗涤。采用这个方程式，杂交和洗涤组合物，并且预期的Tm，那些普通技术人员将了解到，杂交和/或洗涤溶液的严谨条件的变化被描述出。如果预期程度的错配导致小于45℃(水溶液)或32℃(甲酰胺溶液)的Tm，优选增加SSC浓度使得较高温度能被采用。核酸杂交的广泛性指南在分子生物学，第2章中的通用方案中找到，Ausubel，et al.，Eds.，Greene Publishing and Wiley-Interscience，New York(2000)。

本发明中的“引物”或“探针”意指合成或生物制备得到的聚核苷酸，尤其寡核苷酸，包括特异性核苷酸序列并且杂交到含有靶点核苷酸序列的片段。

指定的引物或探针，以及所有其他的寡核苷酸和本发明的聚核苷酸，可通过任何一些众所周知的方法制备得到，这些方法包括采用氰乙基-亚磷酰胺引物的自动化固相化学合成。其他构建合成引物/寡核苷酸的众所周知的方法当然可被采用。J.Sambrook，E.F.Fritsch and T.Maniatis，MolecularCloning 11(2d ed.1989)。

用于扩增样本核酸的引物可连接到可被检测的基团上。这种可被检测基团的一种优选实施例为荧光素，其为采用激光作为检测体系，在核酸测序系统中使用的标准标记。其他可被检测标记也能被采用，包括其他荧光团、放射性标记、化学耦联剂如能用链亲和素链接酶检测的生物素，和表位附加标记如采用抗体检测的地高辛素。引物可被修饰，通过加入另一种核苷酸，除去，或取代寡核苷酸中至少一种核苷酸。引入已知标记如放射性物质、酶、荧光物质，等。合成寡核苷酸也包括在内。

相似地，探针/寡核苷酸编码用于与编码本发明多肽的聚核苷酸杂交，例如，给了检测这种聚核苷酸，可连接可检测基团。

如在这里使用的，术语“增加”意指增加植物细胞和/或植物中的一种或一种以上酶的分子内活性，该植物由相应的DNA编码。增加能通过不同处理细菌细胞而获得。为了获得增加，尤其过渡表达，相应基因拷贝的数量能被增加，能使用强大的启动子，或启动子-和调控区或核糖体结合位点，该核糖体结合位点位于可突变的结构基因上游。加入到结构基因上游的表达框以同样的方式活动。此外，通过采用诱导启动子可能增加表达。编码具有高度活性的相应酶的基因也能被使用。也能通过扩大mRNA的生命力的措施提高表达。此外，阻止酶的变性总体上提高了酶活性。此外，这些措施能选择性地以任何理想方式进行组合。

编码相应或具有高度活性的变异体的基因也能被使用。优选地，相应的酶比天然形式的酶具有更大活性，更优选地至少在5％、10％、25％、或50％范围内的更大活性，最优选大于天然形式酶活性的两倍。

本发明的上面描述提供了制备和使用它的方式和方法使得本技术领域中任何技术人员能够制备出和使用相同的，这个方法特别提供为附加权利要求的主旨，构成独创性描述的一部分。

如在这里使用的，短语“选自由构成的组”、“选自”、和类似短语包括指定材料的混合物。

数字限制或范围在这里进行了陈述，端点包括在内，数字限制或范围内的所有值和子区明确包括在内，明确写出。

上述被提出的描述使本领域中的技术人员能获得和使用本发明，并且在特殊应用和其要求的背景中被给出。优选实施方案的不同修改将对本技术领域中的那些技术人员是显而易见的，并且在没有背离本发明界定的精神和范围的情况下，这里确定的遗传原理可用于其他实施方案和应用中。因此，本发明并不被实施例描述的限制，而是为了符合于这里公开的最宽范围一致的原理和特征。

根据这里对本发明的描述，通过参考某些特异性实施例能进一步了解本发明，这里提供的特异性实施例仅为了举例说明，除非另外详细说明不是为了限制本发明。

实施例

原料和方法-

表6(下面)列出了下面实施例中引用的腺病毒菌株。GenBank登录号统指分配给每个菌株的基因组序列号。这些序列在发明时间公众不能利用，并且这些序列形成了本发明的实施方案，以及相同的片段。

表6：

GenBank名称	登录号	基因组尺寸	来源
GenBank名称	登录号	基因组尺寸	来源	Ad3	AY599834	35,345	ATCC#，GB株
Ad3FS_navy	AY 599836	35,265	来自 NTC Great Lakes，IL11/07/97的Ad3FS NHRC#1276	Ad3	AY599834	35,345	ATCC#，GB株
Ad3FS_navy	AY 599836	35,265	来自 NTC Great Lakes，IL11/07/97的Ad3FS NHRC#1276	Ad4	AY 594253	35,990	NTCC#VR-4，RI-67株
Ad4vaccine	AY 594254	35,994	加利福尼亚公众健康(经KevinRussell/NHRC)	Ad4	AY 594253	35,990	NTCC#VR-4，RI-67株
Ad4vaccine	AY 594254	35,994	加利福尼亚公众健康(经KevinRussell/NHRC)	Ad4FS_navy	AY 599835	35,965	来自Ft Jackson，SC 04/02/03的Ad4FS NHRC#42066

Ad4FS_AF	AY 599837	35,964	Linda Canas，Brooks AFB，Lackland AFB AF#3 2002
Ad4FS_AF	AY 599837	35,964	Linda Canas，Brooks AFB，Lackland AFB AF#3 2002	Ad5FS	AY 601635	35,931	来自Ft Jackson，SC 01/06/98的Ad5FS NHRC#7151
Ad7	AY 594255	35,305	ATCC#AV-HAD7_AFIP，Gomen株	Ad5FS	AY 601635	35,931	来自Ft Jackson，SC 01/06/98的Ad5FS NHRC#7151
Ad7	AY 594255	35,305	ATCC#AV-HAD7_AFIP，Gomen株	Ad7FS_navy	AY 601634	35,198	来自NTC Great Lakes，IL11/07/97的Ad7FS NHRC#1315
Ad7 vaccine	AY 5944256	35,236	NHRC疫苗药片 (MargaretRyan，Kevin Russell/NHRC)	Ad7FS_navy	AY 601634	35,198	来自NTC Great Lakes，IL11/07/97的Ad7FS NHRC#1315
Ad7 vaccine	AY 5944256	35,236	NHRC疫苗药片 (MargaretRyan，Kevin Russell/NHRC)	Ad16	AY 601636	35,522	ATCC#VR-17，ch79株
Ad1	AF 534906	36,001	ATCC#VR-1，Adenoid71 株1953	Ad16	AY 601636	35,522	ATCC#VR-17，ch79株
Ad1	AF 534906	36,001	ATCC#VR-1，Adenoid71 株1953	Ad21	AY 601633	35,382	ATCC#NIAID V-221-002-014，NIH研究试剂，1963年11月制

ATCC＝美国典型培养物保藏中心(Manassas，VA)

NHRC＝海军健康研究中心(San Diego，CA)

NIH＝国家健康研究所(Bethesda，MD)

这些中每一种的全部GenBank记录，包括局部注释，在序列附录中找到。

流行性感冒包含物

由RPMV1上的拼接表示的原形流行性感冒类型为：

甲型流行性感冒病毒(A/New Caledonia/20/99)血球凝集素1的H1 HA基因，

FluAHA3甲型流行性感冒病毒(A/Fujian/411/02)血球凝集素3的H3N2基因，

FluAHA5甲型流行性感冒病毒(A/HongKong/156/97/H5N1)，血球凝集素5

FIuANA1流行性感冒(A/Chile/1/83)，神经氨酸酶1

FluANA2甲型流行性感冒病毒(A/Panama/2007/99/H3N2)神经氨酸酶2的NA基因，

FluAMATRIX流行性感冒A/NWS/33/H1N1基体蛋白(M)

FIuBNA乙型流行性感冒病毒(B/Yamagata/16/88)，神经氨酸酶糖蛋白基因

FIuBNA乙型流行性感冒病毒(B/Yamanashi/166/98)血球凝集素1亚单位(HA)

FluBMATRIX乙型流行性感冒病毒(B/Yamagata/16/88)M1基体蛋白(M)

前述序列中每一种的登录号，以及存储的病原菌靶点序列，从公共领域和个人信息中得到，列在表9中。

制备实施例1：RPM版本1芯片设计

DNA序列提呈给Affymetrix制备下列实施例中利用的再测序微阵列芯片(RPM版本1芯片)。DNA序列的提交和Affymetrix使用说明是依据厂商说明书CustomSeq^TM阵列方案和产品参考文献。探针长度正常为25个核苷酸并且包含正义和反义方向的各自四个可能变异体(A、C、T或G)的可变(查询点)主要核苷酸。

上面列出的筛选给RPMV1病原菌的靶点基因在表8中显示出的版本1设计中进行了描述并且序列列表连同各自PCR引物用于相同的扩增。提呈给拼接和芯片制备的序列是以表7中总结的Affymetrix说明书为基础，对应于SEQ ID NOs：1-58中出现的序列。相应“说明书”列出了每个拼接区域的其他指示符(e.g.FluAHA5)并且提供了″FASTA″形式的靶点基因序列(这能成为全长靶点基因的全部或部分)。

表7：RPMV1拼接和芯片制备的Affymetrix说明书文件

名称	Alias	起始	结束	序列号	起始序列	终止序列	设计
名称	Alias	起始	结束	序列号	起始序列	终止序列	设计	FluAHA1	FluAHA1	1	699	1	TTGAGAAG	ATGGTATG	1
FluAHA3	F1uAHA3	1	794	2	GATAGTGA	AAGCATTC	1	FluAHA1	FluAHA1	1	699	1	TTGAGAAG	ATGGTATG	1
FluAHA3	F1uAHA3	1	794	2	GATAGTGA	AAGCATTC	1	FluAHA5	FluAHA5	1	524	3	AATCCACT	GCTCCAAT	1
FluANA1	FluANA1	1	1360	4	AAAAGCAG	TTTTGTGG	1	FluAHA5	FluAHA5	1	524	3	AATCCACT	GCTCCAAT	1
FluANA1	FluANA1	1	1360	4	AAAAGCAG	TTTTGTGG	1	FluANA2	FluANA2	1	1449	5	GCAAAAGC	TAGAAAAA	1
FluAMATRIX	FluAMATRIX	1	923	6	AGCAAAAG	TGCCAGAG	1	FluANA2	FluANA2	1	1449	5	GCAAAAGC	TAGAAAAA	1
FluAMATRIX	FluAMATRIX	1	923	6	AGCAAAAG	TGCCAGAG	1	FluBHA	FluBHA	1	684	7	TTACATCC	AGCCATAG	1
FluBNA	FluBNA	1	896	8	ATGAACAA	CAGTTACA	1	FluBHA	FluBHA	1	684	7	TTACATCC	AGCCATAG	1
FluBNA	FluBNA	1	896	8	ATGAACAA	CAGTTACA	1	FluBMATRIX	FluBMATRIX	1	362	9	ATGTCGCT	CATGAAAG	1
Ad4HEXON	Ad4HEXON-1	1	1096	10	GTGGCGCC	TAAAGTTA	1	FluBMATRIX	FluBMATRIX	1	362	9	ATGTCGCT	CATGAAAG	1
Ad4HEXON	Ad4HEXON-1	1	1096	10	GTGGCGCC	TAAAGTTA	1	Ad4HEXON	Ad4HEXON-2	2226	2504	10	CGAGGTTA	GCCCACGC	1
Ad4FIBER	Ad4FIBER	1	1258	11	CGACCCCG	ACCCTGCA	1	Ad4HEXON	Ad4HEXON-2	2226	2504	10	CGAGGTTA	GCCCACGC	1
Ad4FIBER	Ad4FIBER	1	1258	11	CGACCCCG	ACCCTGCA	1	Ad4E1A	Ad4E1A	1	1326	12	GCGGGGCA	CCCAGGCA	1
Ad5HEXON	Ad5HEXON-1	1	843	13	GTGGCGCC	ATTGCTTT	1	Ad4E1A	Ad4E1A	1	1326	12	GCGGGGCA	CCCAGGCA	1
Ad5HEXON	Ad5HEXON-1	1	843	13	GTGGCGCC	ATTGCTTT	1	Ad5HEXON	Ad5HEXON-2	1655	1846	13	GACCTAAG	CCAACGTG	1
Ad5FIBER	Ad5FIBER	1	2012	14	TTCTGTCC	AGATCACC	1	Ad5HEXON	Ad5HEXON-2	1655	1846	13	GACCTAAG	CCAACGTG	1
Ad5FIBER	Ad5FIBER	1	2012	14	TTCTGTCC	AGATCACC	1	Ad5E1A	Ad5E1A	1	616	15	AGCCGGAG	CTGTGGAA	1
Ad7HEXON	Ad7HEXON-1	1	807	16	GTGGCGCC	ATTGGCTT	1	Ad5E1A	Ad5E1A	1	616	15	AGCCGGAG	CTGTGGAA	1
Ad7HEXON	Ad7HEXON-1	1	807	16	GTGGCGCC	ATTGGCTT	1	Ad7HEXON	Ad7HEXON-2	1652	2245	16	TCTGTATG	AATTACAC	1
Ad7FIBER	Ad7FIBER	1	712	17	CCTTCAAC	AATGTTAA	1	Ad7HEXON	Ad7HEXON-2	1652	2245	16	TCTGTATG	AATTACAC	1
Ad7FIBER	Ad7FIBER	1	712	17	CCTTCAAC	AATGTTAA	1	Ad7E1A	Ad7E1A	1	615	18	AAGAGTTT	ACTGCCAC	1
PIVIHN	PIVHN	1	204	19	TAGACCCA	TATAGGGA	1	Ad7E1A	Ad7E1A	1	615	18	AAGAGTTT	ACTGCCAC	1
PIVIHN	PIVHN	1	204	19	TAGACCCA	TATAGGGA	1	PIVIIIHN	PIVIIIHN	1	213	20	CAAATCTA	TGAAAGAT	1
PIVIIINCFP	PIVIII5NCFP	1	230	21	ACTTAGGA	TTACAACC	1	PIVIIIHN	PIVIIIHN	1	213	20	CAAATCTA	TGAAAGAT	1
PIVIIINCFP	PIVIII5NCFP	1	230	21	ACTTAGGA	TTACAACC	1	HRV5NT	HRV5NT	1	412	22	GTCAAAGG	TCCTGTTT	1
RSVABL	RSVABL	1	379	23	AAGTGCTC	AAGCAAAC	1	HRV5NT	HRV5NT	1	412	22	GTCAAAGG	TCCTGTTT	1
RSVABL	RSVABL	1	379	23	AAGTGCTC	AAGCAAAC	1	RSVAN	RSVAN	1	106	24	AATACAAA	AGATAGTA	1

RSVBN	RSVBN	1	128	25	GGCAAATA	CAATTATG	1
RSVBN	RSVBN	1	128	25	GGCAAATA	CAATTATG	1	WNVCPRM	WNVCPRM	1	432	26	GGCCAATA	TGATCCAG	1
WNVE	WNVE	1	94	27	ATTTGGCT	TTTGTGTG	1	WNVCPRM	WNVCPRM	1	432	26	GGCCAATA	TGATCCAG	1
WNVE	WNVE	1	94	27	ATTTGGCT	TTTGTGTG	1	WNVNS1	WNVNS1	1	153	28	GAAGCTTG	GGGTACAA	1
HCV229EMG	HCV229EMG	1	598	29	TAGAACAG	TAACCTAC	1	WNVNS1	WNVNS1	1	153	28	GAAGCTTG	GGGTACAA	1
HCV229EMG	HCV229EMG	1	598	29	TAGAACAG	TAACCTAC	1	HCVOC43MG	HCVOC43MG	1	358	30	TGATTATT	TATATGAC	1
SPNLYTA	SPNLYTA	1	125	31	TATCGAAC	CTCAGACC	1	HCVOC43MG	HCVOC43MG	1	358	30	TGATTATT	TATATGAC	1
SPNLYTA	SPNLYTA	1	125	31	TATCGAAC	CTCAGACC	1	SPNPLY	SPNPLY	1	99	32	GGTTTGGC	ATCAAGAT	1
SPYSPEB	SPYSPEB	1	281	33	AATCTTTT	TAGACATG	1	SPNPLY	SPNPLY	1	99	32	GGTTTGGC	ATCAAGAT	1
SPYSPEB	SPYSPEB	1	281	33	AATCTTTT	TAGACATG	1	SPYMEFAE	SPYMEFAE	1	370	34	GGCAGGGC	TTACGAAA	1
SPYERMB	SPYERMB	1	248	35	AACTGATT	TAGAATCC	1	SPYMEFAE	SPYMEFAE	1	370	34	GGCAGGGC	TTACGAAA	1
SPYERMB	SPYERMB	1	248	35	AACTGATT	TAGAATCC	1	SPYERMTR	SPYERMTR	1	176	36	CAACGGGT	GATATTGT	1
MPP1	MPP1	1	369	37	AGGGGGTT	ACTATGTT	1	SPYERMTR	SPYERMTR	1	176	36	CAACGGGT	GATATTGT	1
MPP1	MPP1	1	369	37	AGGGGGTT	ACTATGTT	1	NMCTRA	NMCTRA	1	135	38	TTGGATGC	TTTTGCTG	1
NMCRGA	NMCRGA	1	254	39	GGTGCTGC	TGCCGGTC	1	NMCTRA	NMCTRA	1	135	38	TTGGATGC	TTTTGCTG	1
NMCRGA	NMCRGA	1	254	39	GGTGCTGC	TGCCGGTC	1	BPPTXP	BPPTXP	1	305	40	GAAGTAGC	CAAACCGC	1
BPPTXS1	BPPTXS1	1	222	41	CGGCGCAT	AGGCCGAA	1	BPPTXP	BPPTXP	1	305	40	GAAGTAGC	CAAACCGC	1
BPPTXS1	BPPTXS1	1	222	41	CGGCGCAT	AGGCCGAA	1	CPMOMPVD4	CPMOMPVD4	1	150	42	ATGCTGAT	TCAGATCA	1
CPMOMPVD2	CPMOMPVD2	1	133	43	AGCGTTCA	TAGGCGCT	1	CPMOMPVD4	CPMOMPVD4	1	150	42	ATGCTGAT	TCAGATCA	1
CPMOMPVD2	CPMOMPVD2	1	133	43	AGCGTTCA	TAGGCGCT	1	CPRPOB	CPRPOB	1	346	44	AAGGACTT	CTGCAGGC	1
BARPOB	BARPOB	1	199	45	CGTCCTGG	GGCAGAAG	1	CPRPOB	CPRPOB	1	346	44	AAGGACTT	CTGCAGGC	1
BARPOB	BARPOB	1	199	45	CGTCCTGG	GGCAGAAG	1	BAPAGA	BAPAG	1	354	46	TAGCGGCG	TAATTCGT	1
BACAPB	BACAPB	1	246	47	TTACACGT	ACCTATTA	1	BAPAGA	BAPAG	1	354	46	TAGCGGCG	TAATTCGT	1
BACAPB	BACAPB	1	246	47	TTACACGT	ACCTATTA	1	VMVHA	VMVHA	1	510	48	AACTATTA	TCACCAAC	1
VMVCRMB	VMVCRMB	1	291	49	TCGGGAAC	CGTCTGTT	1	VMVHA	VMVHA	1	510	48	AACTATTA	TCACCAAC	1
VMVCRMB	VMVCRMB	1	291	49	TCGGGAAC	CGTCTGTT	1	ZEVL	ZEVL	1	443	50	TACTACCA	TCACACTG	1
LVGPC	LVGPC	1	351	51	GCGCACCG	GTGGGCAA	1	ZEVL	ZEVL	1	443	50	TACTACCA	TCACACTG	1
LVGPC	LVGPC	1	351	51	GCGCACCG	GTGGGCAA	1	FTLP	FTLP	1	431	52	ATCGTAAT	TAAGTATG	1
FTFOPA	FTFOPA	1	111	53	CAGATATA	GATACTAC	1	FTLP	FTLP	1	431	52	ATCGTAAT	TAAGTATG	1

YPCVE	YPCVE	1	265	54	ATAAAGGG	AGGCGGGG	1
YPCVE	YPCVE	1	265	54	ATAAAGGG	AGGCGGGG	1	YPCAF1	YPCAF1	1	525	55	TATGAAAA	ATATAGAT	1
ATTIM	ATTIM	1	523	56	ACATCGAC	GAGCTTGC	1	YPCAF1	YPCAF1	1	525	55	TATGAAAA	ATATAGAT	1
ATTIM	ATTIM	1	523	56	ACATCGAC	GAGCTTGC	1	ATNAC1	ATNAC1	1	543	57	TATATGTA	ATTGTACA	1
Ad7HEXVAC	Ad7HEXVAC	168	383	58	GGTGCTTG	AAGCCCAT	1	ATNAC1	ATNAC1	1	543	57	TATATGTA	ATTGTACA	1

表8：RPMV1设计，通过扩增用的各自PCR引物进行

序列前导逆向 Taqman

扩增中引物探针探针

有机体基因名称子探针基因 (SEQ ID NO：) Size ％GC Tm (SEQ ID NO：) Size ％GC Tm (SEQ ID NO：) Size ％GC Tm

流行性感冒A 血球凝集素1 675 699 1 439 23 47.8 54.8 505 24 33.3 55.6

流行性感冒A 血球凝集素3 770 794 2 440 24 33.3 57.6 506 22 36.4 55.9

流行性感冒A 血球凝集素5 500 524 3 441 26 42.3 59.8 507 26 42.3 58.7

流行性感冒A 血球凝集素5 219 442 26 30.8 58.9 508 24 45.8 58.5

流行性感冒A 神经氨酸酶1 1336 1360 4 443 22 22.7 54.2 509 18 55.6 53.5

流行性感冒A 神经氨酸酶2 1434 1449 5 444 22 45.5 57.9 510 23 39.1 57.8

流行性感冒A 基体基因 911 923 6 445 20 40 55 511 571 20 55 62

流行性感冒B 血球凝集素 660 684 7 446 22 45.5 55.5 512 24 47.9 57.5

流行性感冒B 神经氨酸酶 881 896 8 447 25 32 56.3 513 22 45.5 56

流行性感冒B 基体基因 338 362 9 448 24 45.8 59.9 514 25 36 59.6 572 22 54.5 63.4

腺病毒5 六邻体 819 843 13 449 515

腺病毒5 六邻体 168 192 13 450 24 45.8 57.6 516 24 54.2 58.5

腺病毒5 纤毛 1988 2012 14 451 22 45.5 55.9 517 20 60 61

腺病毒5 E1A 171 452 24 54.2 61.5 518 21 66.7 61.3

腺病毒5 E1A 431 616 15 453 23 56.5 59.7 519 21 57.1 57.3

腺病毒4 六邻体 764 1096 10 454 520

腺病毒4 六邻体 255 279 10 455 18 61.1 63 521 18 66.7 62

腺病毒4 六邻体 511 456 19 57.1 66 522 18 50 64

腺病毒4 纤毛 967 457 20 55 57.8 523 21 47.6 54.9

腺病毒4 纤毛 435 1258 11 458 524

腺病毒4 E1A 844 459 22 45.5 57.1 525 19 59.9 59.6

腺病毒4 E1A 878 460 23 56.5 612 526 25 48 60.6

腺病毒4 E1A 409 1326 12 461

腺病毒7 六邻体 744 798 16 462 527

腺病毒7 六邻体 570 594 16 463 24 61.6 60.5 528 24 50 60.3

腺病毒7 纤毛 688 712 17 464 23 41.3 54.7 529 23 47.8 58.2

腺病毒7 E1A 205 465 20 65 62 530 23 60.9 61.3

腺病毒7 E1A 428 615 18 466 531

腺病毒7 HEXVAC

副流行性感冒病毒

1 HN 180 204 19 467 27 48.1 62.8 532 28 35.7 58.2

副流行性感冒病毒 HN 189 213 20 468 21 47.6 48.5 533 21 42.9 49.5

III

副流行性感冒病毒融合蛋白5′无 206 230 21 469 21 38.1 46.3 534 20 40 48

III 编码区

人鼻病毒 5′无编码区 388 412 22 470 16 56.2 44.9 535 16 56.2 43.8

RSV(A，B) L-聚合酶 355 379 23 471 19 36.8 43.9 536 19 36.8 42.9

RSV(A) 大壳包核酸，N 82 106 24 472 26 38.5 57.3 537 21 47.6 54.3

RSV (B) 大壳包核酸，N 104 128 25 473 26 38.5 58 538 30 33.3 59.1

西尼罗病毒 C和prM 408 432 26 474 25 48 62.6 539 25 56 64.9

西尼罗病毒 E 70 94 27 475 21 52.4 53.8 540 21 52.4 53.8

西尼罗病毒 NS1 129 153 28 476 21 52.4 53.2 541 21 47.6 54.3

人冠状病毒膜 574 598 29 477 20 40 53.7 542 20 50 51.9

(229E) 糖蛋白

人冠状病毒膜 334 358 30 20 55 55 543 20 45 53.7

(OC43) 糖蛋白

肺炎链球菌属

自溶素，lytA 105 125 31 478 21 47.6 52.7 544 21 42.9 53.2

肺炎链球菌属

肺松解术，ply 75 99 32 479 22 50 56.3 545 23 43.5 58

肺炎支原菌属细胞粘附素P1

蛋白 345 369 37 480 24 58.3 63.8 546 25 52 60.8

脑膜炎荚膜转移蛋白

奈瑟氏球菌 (ctrA)基因 111 135 38 481 19 57.9 53.2 547 20 45 54.4

脑膜炎调控蛋白，

奈瑟氏球菌 crgA 230 254 39 482 25 60 73.6 548 24 62.5 69.4

百日咳博德特氏菌百日咳毒素

启动子区域 281 305 40 483 22 72.7 69.6 549 20 55 59.1

百日咳博德特氏菌百日咳毒素S1

亚单位ptxS1 198 222 41 484 18 61.1 56.2 550 19 63.2 58.6

肺炎衣原体属大外层膜蛋白

(MOMP)VD4 126 150 42 485 16 62.5 50.3 551 25 32 55.5

DNA定向

肺炎衣原体属 RNA聚合酶

(rpoB) 322 346 44 486 21 42.9 52 552 20 50 49.2

肺炎衣原菌属大外层膜蛋白

(MOMP)VD2

酿脓致热外毒素B

链球菌 (speB)

大环内酯外排

酿脓决定簇

链球菌 (mefA，mefE)

红霉素

酿脓耐药

链球菌甲基酶(ermB)

酿脓

链球菌 erm(TR)

RNA聚合酶

β-亚单位

炭疽杆菌 (rpoB)

保护性抗原

炭疽杆菌 (pag)

聚(D-麸胺基酸)

荚膜

炭疽杆菌 (capB)

血球凝集素

大天花病毒 (HA)

细胞因子反应

修饰物B(crm

大天花病毒

P)

埃博拉病毒 L基因

沙拉热病毒 GPC基因

土拉弗朗西斯菌

13-kDa脂蛋白

土拉弗朗西斯菌

FopA

鼠疫杆菌 cve2155序列响应

鼠疫杆菌

Arabisopsis thaliana TIM

Arabisopsis thaliana NACl

说明书参考了相同的其他指示符，但进一步指定出实际子序列，该子序列实际上被拼接到阵列上。在最可能情况中，这个表示序列表中的整个序列但在其他情况中(例如，FluBMATRIX)仅全部序列的核苷酸1-362用于拼接。表9提供了在说明书中介绍的信息。

表9(下面)：RPM V1设计说明书的用法说明。其他指示符为分配给每个不连续“拼接”区域(例如，微阵列含有所有探针组合得几何区域，该探针组合为一段病原菌基因组序列再测序所必需的)的名称。病原菌，序列登录号，和每个拼接区域的拼接尺寸被列出。说明书，以Affymetrix提交形式进行修改，在表7中列出。说明书参考了全部靶点基因的全部或部分序列，该全部靶点基因可在序列附表中显示的SEQ ID NOs：1-58中找到。

表9：RPMV1芯片表

ALIAS	名称	基因名称	登录号	长度
ALIAS	名称	基因名称	登录号	长度	ATNAC1	Arabisopsisthaliana	NAC1		543
ATTIM	Arabisopsisthaliana	TIM		523	ATNAC1	Arabisopsisthaliana	NAC1		543
ATTIM	Arabisopsisthaliana	TIM		523	Ad4E1A	腺病毒4	E1A	AF594253(draft)	1326
Ad4FIBER	腺病毒4	纤毛	AF594253(draft)	1258	Ad4E1A	腺病毒4	E1A	AF594253(draft)	1326
Ad4FIBER	腺病毒4	纤毛	AF594253(draft)	1258	Ad4HEXON-1	腺病毒4	六邻体	AF594253(draft)	1096
Ad4HEXON-2	腺病毒4	六邻体	AF594253(draft)	279	Ad4HEXON-1	腺病毒4	六邻体	AF594253(draft)	1096
Ad4HEXON-2	腺病毒4	六邻体	AF594253(draft)	279	Ad5E1A	腺病毒5	E1A	AY147066	616
Ad5FIBER	腺病毒5	纤毛	M18369	2012	Ad5E1A	腺病毒5	E1A	AY147066	616
Ad5FIBER	腺病毒5	纤毛	M18369	2012	Ad5HEXON-1	腺病毒5	六邻体	AF542130	843
Ad5HEXON-2	腺病毒5	六邻体	AF542130	192	Ad5HEXON-1	腺病毒5	六邻体	AF542130	843
Ad5HEXON-2	腺病毒5	六邻体	AF542130	192	Ad7E1A	腺病毒7	E1A	AY594255(draft)	615
Ad7FIBER	腺病毒7	纤毛	AY594255(draft)	712	Ad7E1A	腺病毒7	E1A	AY594255(draft)	615
Ad7FIBER	腺病毒7	纤毛	AY594255(draft)	712	Ad7HEXON-1	腺病毒7	六邻体	AY594255(draft)	807
Ad7HEXON-2	腺病毒7	六邻体	AY594255(draft)	594	Ad7HEXON-1	腺病毒7	六邻体	AY594255(draft)	807
Ad7HEXON-2	腺病毒7	六邻体	AY594255(draft)	594	Ad7HEXVAC	腺病毒7	六邻体	AY594256(draft)	216

BACAPB	炭疽杆菌	聚(D-谷氨酸)荚膜(capB)	M24150	246
BACAPB	炭疽杆菌	聚(D-谷氨酸)荚膜(capB)	M24150	246	BAPAG	炭疽杆菌	保护性抗原(pag)	M22589	354
BARPOB	炭疽杆菌	RNA聚合酶β-亚单位(rpoB)	AF205323	199	BAPAG	炭疽杆菌	保护性抗原(pag)	M22589	354
BARPOB	炭疽杆菌	RNA聚合酶β-亚单位(rpoB)	AF205323	199	BPPTXP	百日咳博德特氏菌	百日咳毒素启动子区	M13223	305
BPPTXS1	百日咳博德特氏菌	百日咳毒素S1亚单位ptx S1	M13223.1	222	BPPTXP	百日咳博德特氏菌	百日咳毒素启动子区	M13223	305
BPPTXS1	百日咳博德特氏菌	百日咳毒素S1亚单位ptx S1	M13223.1	222	CPMOMPVD2	肺炎衣原体	大外层膜蛋白(MOMP)VD2	CP0694	133
CPMOMPVD5	肺炎衣原体	大外层膜蛋白(MOMP)VD4	M69230	150	CPMOMPVD2	肺炎衣原体	大外层膜蛋白(MOMP)VD2	CP0694	133
CPMOMPVD5	肺炎衣原体	大外层膜蛋白(MOMP)VD4	M69230	150	CPRPOB	肺炎衣原体	DNA定向RNA聚合酶(rpoB)	NT01CP0714	346
FluAHA1	流行性感冒A	血球凝集素1	AJ344014	699	CPRPOB	肺炎衣原体	DNA定向RNA聚合酶(rpoB)	NT01CP0714	346
FluAHA1	流行性感冒A	血球凝集素1	AJ344014	699	FluAHA3	流行性感冒A	血球凝集素3	专有通讯	794
FluAHA5	流行性感冒A	血球凝集素5	AF028709	524	FluAHA3	流行性感冒A	血球凝集素3	专有通讯	794
FluAHA5	流行性感冒A	血球凝集素5	AF028709	524	FluAMATRIX	流行性感冒A	基体基因	L25814	923
FluANA1	流行性感冒A	神经氨酸酶1	M24783	1360	FluAMATRIX	流行性感冒A	基体基因	L25814	923
FluANA1	流行性感冒A	神经氨酸酶1	M24783	1360	FluANA2	流行性感冒A	神经氨酸酶2	AJ457937	1449
FluBHA	流行性感冒B	血球凝集素	AF100355	684	FluANA2	流行性感冒A	神经氨酸酶2	AJ457937	1449
FluBHA	流行性感冒B	血球凝集素	AF100355	684	FluBMATRIX	流行性感冒B	基体基因	AF100378	362
FluBNA	流行性感冒B	神经氨酸酶	AY139081	896	FluBMATRIX	流行性感冒B	基体基因	AF100378	362
FluBNA	流行性感冒B	神经氨酸酶	AY139081	896	FTFOPA	土拉弗朗西斯菌	FopA	AF097542	111
FTLP	土拉弗朗西斯菌	13-kDa脂蛋白	M32059	431	FTFOPA	土拉弗朗西斯菌	FopA	AF097542	111
FTLP	土拉弗朗西斯菌	13-kDa脂蛋白	M32059	431	HCV229EMG	人冠状病毒(229E)	膜糖蛋白	AF304460	598
HCVOC43MG	人冠状病毒(OC43)	膜糖蛋白	M93390	358	HCV229EMG	人冠状病毒(229E)	膜糖蛋白	AF304460	598
HCVOC43MG	人冠状病毒(OC43)	膜糖蛋白	M93390	358	HRV5NT	人鼻病毒	5′无编码区	NC_001617	412

LVGPC	拉沙热病毒	GPC基因	M15076	351
LVGPC	拉沙热病毒	GPC基因	M15076	351	MPP1	肺炎枝原体	细胞粘附素P1蛋白	M18639	369
NMCRGA	脑膜炎奈瑟氏球菌	调控蛋白，crgA	AF190471	254	MPP1	肺炎枝原体	细胞粘附素P1蛋白	M18639	369
NMCRGA	脑膜炎奈瑟氏球菌	调控蛋白，crgA	AF190471	254	NMCTRA	脑膜炎奈瑟氏球菌	荚膜转移蛋白(ctrA)	NMB0071	135
PIVIHN	副流行性感冒病毒I	HN	U70948	204	NMCTRA	脑膜炎奈瑟氏球菌	荚膜转移蛋白(ctrA)	NMB0071	135
PIVIHN	副流行性感冒病毒I	HN	U70948	204	PIVIII5NCFP	副流行性感冒病毒III	5′无编码区	Z11575	213
PIVIIIHN	副流行性感冒病毒III	HN	M18764	230	PIVIII5NCFP	副流行性感冒病毒III	5′无编码区	Z11575	213
PIVIIIHN	副流行性感冒病毒III	HN	M18764	230	RSVABL	RSV	L-聚合酶	AF254574	379
RSVAN	RSVA	大壳包核酸，	M11486	106	RSVABL	RSV	L-聚合酶	AF254574	379
RSVAN	RSVA	大壳包核酸，	M11486	106	RSVBN	RSVB	大壳包核酸，	D00736	128
SPNLYTA	化脓性链球菌	自溶素，lytA	SP1937	125	RSVBN	RSVB	大壳包核酸，	D00736	128
SPNLYTA	化脓性链球菌	自溶素，lytA	SP1937	125	SPNPLY	化脓性链球菌	肺松解术，ply	SP1923	99
SPYERMB	化脓性链球菌	红霉素耐药甲基酶(ermB)	X52632	248	SPNPLY	化脓性链球菌	肺松解术，ply	SP1923	99
SPYERMB	化脓性链球菌	红霉素耐药甲基酶(ermB)	X52632	248	SPYERMTR	化脓性链球菌	erm(TR)	AF002716	176
SPYMEFAE	化脓性链球菌	大环内酯外排决定簇(mefA，mefE)	U70055	370	SPYERMTR	化脓性链球菌	erm(TR)	AF002716	176
SPYMEFAE	化脓性链球菌	大环内酯外排决定簇(mefA，mefE)	U70055	370	SPYSPEB	化脓性链球菌	致热外毒素B(speB)	NT01SP1804	281
VMVCRMB	大天花病毒	细胞因子反应修饰物	U88145	291	SPYSPEB	化脓性链球菌	致热外毒素B(speB)	NT01SP1804	281
VMVCRMB	大天花病毒	细胞因子反应修饰物	U88145	291	VMVHA	大天花病毒	血球凝集素(HA)	X65516	510
WNVCPRM	西尼罗河病毒	C和prM	AF196835	432	VMVHA	大天花病毒	血球凝集素(HA)	X65516	510
WNVCPRM	西尼罗河病毒	C和prM	AF196835	432	WNVE	西尼罗河病毒	E	AF196835	94
WNVNS1	西尼罗河病毒	NS1	AF196835	153	WNVE	西尼罗河病毒	E	AF196835	94
WNVNS1	西尼罗河病毒	NS1	AF196835	153	YPCAF1	鼠疫杆菌	Caf1	X61996	525

YPCVE	鼠疫杆菌	cve2155序列	AF350077	265
YPCVE	鼠疫杆菌	cve2155序列	AF350077	265	ZEVL	埃博拉病毒	L基因	AF086833	443
				29569	ZEVL	埃博拉病毒	L基因	AF086833	443

Affymetrix芯片设计团队采用上述信息的组合和相应序列文件信息来产生芯片设计。图1显示出芯片设计的纵览，一些给定病原菌的基因序列在下列实施例中采用的再测序芯片上密集生长(RPM版本1芯片)，该图和芯片设计仅为了说明分配给RPMV1不同病原菌的有效面积，不是为了以任何方式进行限制。技术人员将容易理解专属于芯片上每个病原菌丛的相对顺序和序列数量可在对芯片的利用上没有本质上的有害作用的情况下进行改变。

重点注意的，拼接策略指出每个不连续拼接区域的前端第12个和末端12个序列不通过拼接策略的再测序微阵列进行查询，因为他们被用作最初和最后的25-mer探针成分，该探针在第13位被改变。

用于芯片的腺病毒区域(Ad4、Ad5、Ad7和Ad7疫苗)的序列都源自经本发明测序的基因组的早期挑选。对应于用于被拼接区域的基因组的GenBank在表6中列出。因为提呈给Affymetrix序列原型是以基因组的早期挑选为基础的，可观察到这些早期序列和提呈给Genbank的最终序列之间的差异。这些差异的列表在表10中给出。

表10：RPMV1拼接序列和表6中提交给Genbank的最终序列之间观察到的不相符值

Contig for Ad4

靶点长度序列碱基靶点

# 遗漏序列

E1A 2004 554 A

658 C T

697 G A

698 A G

851 C T

1460 C T

1675 C T

1777 A G

2002 遗漏 T

六邻体 2813 18319 C G

18330 遗漏 T

18331 遗漏 G

18332 遗漏 G

18385 A G

18451 C T

18523 T C

18547 T C

18571 C T

18586 T C

18617 T C

18640 T C

18659 G T

18662 A G

18687 T C

18700 A C

18843 A G

18889 T A

18901 C T

18940 G T

18965 A C

18997 T C

19013 G A

95

19020 A C

19113 A C

19237 A G

19325 T C

19327 A G

19330 C T

19447 A G

19542 C A

19714 T C

19732 A C

19759 C T

19762 A G

19765 A G

19795 C A

19796 T A

19798 C T

19816 T C

19819 C T

19881 A 遗漏

19897 C T

19906 C T

19911 A G

19915 T C

19916 T C

19936 T C

19976 T C

20038 C T

20050 C T

20128 C C

20149 A C

20158 A C

20176 T C

20206 C G

20210 G A

20239 遗漏 C

20245 C 遗漏

20246 T A

20285 T C

20297 T C

20336 T C

20363 T C

20366 A C

20429 T C

20435 T C

20447 G C

20459 G A

20499 T C

20511 T C

20519 T C

20528 T C

20570 T C

20579 T C

20658 C G

20660 T C

20663 T C

20666 G A

96

20684 T C

20687 C T

20690 T A

20713 G A

20753 T C

20759 A G

20768 C T

20819 T C

20864 T C

20939 T C

21008 C T

21038 G A

纤毛 1386 31602 遗漏 C

31611 遗漏 C

31616 遗漏 C

31652 遗漏 A

31672 G 遗漏

31714 遗漏 C

31746 T 遗漏

31790 遗漏 C

31798 C 遗漏

31799 C 遗漏

31816 遗漏 C

31923 T 遗漏

31943 C 遗漏

32003 G 遗漏

32047 T 遗漏

32051 遗漏 T

32260 T 遗漏

32262 G T

32266 遗漏 G

32473 A T

32475 T A

32618 T C

32619 C T

32934 遗漏 C

Contig for Ad5_canji

E1 60 无

六邻体 60 19020 G 遗漏

19023 A 遗漏

19024 C 遗漏

19025 A 遗漏

纤毛 60 无

Contig for Ad7

E1A 60 无

六邻体 60 无

纤毛 60 无

Contig for Ad7_Navy

E1A 60 590 C T

六邻体 60 18109 A G

纤毛 60 无

Contig for

Ad7_Vaccine

E1A 60 559 C G

586 C T

六邻体 60 18142 A G

纤毛 60 无

这个相对少量的不一致不干扰芯片生成碱基响应的能力，碱基与正确的有机体相关，除了在4型腺病毒的特殊情况中，在实施例中进行了描述。全面地，本发明的再测序微阵列技术确证了关于碱基取代的拼接基因的精确的最终序列，确证了我们方法的鲁棒性。

制备实施例2：PCR引物设计和扩增方案

简并PCR引物设计-

支持保守(简并)多重PCR的引物筛选的目标是设计引物，该引物是以位于E1A、纤毛和六邻体基因的特殊种类可变区翼侧的保守区域为靶点。总的来说，这个方法可用于任何有机体，因为物种内的保守序列在自然中无处不在。这些靶点基因基于线性腺病毒基因组内功能和位置被筛选出。E1A位于腺病毒基因组5′端并且编码反式转录调节因子，该反式转录调节因子对早期基因的转录激活是必要的。位于腺病毒基因组中间和3′端的六联体和纤毛基因各自编码抗原决定簇ε和γ，确定病毒血清型。因此，ARD诱发腺病毒的检测和按血清分型能通过靶标核酸决定簇来完成，靶标核酸决定簇引发血清分型。从而，引物提供了腺病毒内的特异性扩增而可变区提供了正确的物种鉴别的特异性血清型特征。

下列实施例中用于保守(简并)多重PCR的引物分别基于E1A、纤毛和六林体基因序列的全局分析，从GenBank(GenBank登录号在圆括号内给出)：E1A-AdB(NC_004001)、AdC(NC_001405)、Ad3(AF492352)、Ad4(M14918)、Ad7(X03000)；纤毛--Ad2(AJ278921)、Ad5(M18369)、Ad3(X01998)、Ad4(X76547)、Ad7(M23696)、Ad16(U06106、Ad21(U06107)；六联体-Ad3(X76549)、Ad4(X84646)、Ad6(AF161560、X67710、Y17245)、Ad7(AF053087，X76551)、Ad16(X74662)、Ad21(AB053166)。E1A基因引物设计的全局序列分析使用了Ad3、Ad4、Ad7、Ad21、AdB、和AdC血清型的E1A基因序列。纤毛基因引物设计的全局序列分析使用了Ad2、Ad3、Ad4、Ad5、Ad7、Ad16、和Ad21血清型的纤毛基因序列。六联体基因引物设计的全局序列分析使用了Ad3、Ad4、Ad6、Ad7、Ad16、和Ad21血清型的六联体基因序列。

全局序列分析之后，引物对基于扩增血清型3、4、6、7、16和21的E1A、纤毛和六联体基因的能力被筛选出(无数据)。表11显示出在下列实施例中采用的引物对。

表11：

引物	基因	序列(5’→3’)	扩增子大小(bp)
引物	基因	序列(5’→3’)	扩增子大小(bp)	AdE1A-F	E1A	CGC TGC ACG ATC TGT ATG AT(SEQ ID NO：421)
AdE1A-R	E1A	TCT CAT ATA GCA AAG CGC ACA(SEQ ID NO：422)	409-446	AdE1A-F	E1A	CGC TGC ACG ATC TGT ATG AT(SEQ ID NO：421)
AdE1A-R	E1A	TCT CAT ATA GCA AAG CGC ACA(SEQ ID NO：422)	409-446	AdB1^*	纤毛	TST ACC CYT ATG AAG ATG AAA GC(SEQ ID NO：423)
AdB2^*	纤毛	GGA TAA GCT GTA GTR CTK GGC AT(SEQ ID NO：424)	670-772	AdB1^*	纤毛	TST ACC CYT ATG AAG ATG AAA GC(SEQ ID NO：423)
AdB2^*	纤毛	GGA TAA GCT GTA GTR CTK GGC AT(SEQ ID NO：424)	670-772	AdFib-F3	纤毛	ACT GTA KCW GYT TTG GYT GT(SEQ ID NO：425)
AdFib-R3	纤毛	TTA TTS YTG GGC WAT GTA KGA(SEQ ID NO：426)	430-437	AdFib-F3	纤毛	ACT GTA KCW GYT TTG GYT GT(SEQ ID NO：425)
AdFib-R3	纤毛	TTA TTS YTG GGC WAT GTA KGA(SEQ ID NO：426)	430-437	AdHex-F7	六邻体	CAC GAY GTG ACC ACM GAC CG(SEQ ID NO：427)
AdHex-R5	六邻体	TTK GGT CTG TTW GGC ATK GCY TG(SEQ ID NO：428)	770-815	AdHex-F7	六邻体	CAC GAY GTG ACC ACM GAC CG(SEQ ID NO：427)

多重简并引物PCR方案-

引物对(Lin et al.，2004)在不同的多重组合中进行评价来获得腺病毒血清型3、4、6、7、16、和21的扩增。在含有20mM Tris-HCl(pH 8.4)，50mM KCl，每一种200μM dNTPs，200nM AdB1、AdB2引物；500nMAdhex-F7，Adhex-R5引物，2U Platinum Taq DNA聚合酶(Invitrogen)，和10⁶个拷贝的DNA模板的50μl体积中实施PCR。采用Peltier ThermalCycler-PTC225(MJ Research)实施扩增反应，在94℃初步变性30秒，在50℃退火30秒，在72℃延伸40秒，并且在72℃最终延伸10分钟。菌属多重PCR试验将扩增所有six ARD的所有三个基因，引发腺病毒即使Ad4的六联体基因在琼脂糖凝胶上显示出非常弱的条带。

总扩增方案-

采用商业可用的GenomiPhi^TM DNA扩增试剂盒(Amersham Biosciences)进行总扩增来典型扩增线性基因组DNA(下文中统称为″GenomiPhi总扩增″)。在GenomiPhi总扩增方法中采用的扩增方法利用抗菌素Phi29DNA聚合酶通过链替代扩增反应以指数倍率方式扩增单链-或双链线性DNA模板。起始样本不确定数量，而是直接使用。

制备实施例3：REPI软件

再测序阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传分析软件version 2.0(GDAS)来提供。GDAS碱基响应基于先前描述的碱基响应算法(Cutler et al.，2001)。包含从GDAS软件得到的碱基响应的每一种FASTA输出文件采用专属软件(REPI)进行分析，该专属软件(REPI)是本发明者开发的。

在本发明的情况中，GDAS的序列输出大部分通常为邻近序列响应(A、T、C或G)的分散混合物，邻近序列响应(A、T、C或G)点缀着不同量的无响应(n′s)，由于缺少扩增、芯片上的弱杂交信号和/或非特异性结合导致的高背景杂交，GDAS软件不产生碱基响应(Cutler et al.，2001)。Ad4FIBER拼接区域的原型4腺病毒样本的GDAS输出的一种实施例输出在下面显示出(SEQ ID NO：429)：

＞Ad4FIBER:CustemSeq-腺病毒4 开始＝12 终点＝1245

nnnnnnnnnnnnnnncnnncncngaccgngnnnttcannaacnctcccntcgnnctcttcagatg

nattnnaagaaaagcccctgggggtgttgtccnnannnnnnngccgaccctgtcncnnnaagaat

gnnnaaattannnnnaagctgngngagggggtnnnncttgacgactcgggaaaactcnttgcaan

cacagtaaacaaggccattgcnnctctcagnttttnccaacaacaccatttnnnnttaacatgga

tacccctttatacaccaaagntggaaaactanccttacaagtttctnccaccattaagtatatta

aaatcaacaattttgaatacnnnnnnnnnagcttttggntcaggtttnggactcagtnnnngcgc

ccnngcagtananttagnctcnccacttacatttgntgataaagggaatanaaagattacccnaa

anagnnnnttgcatgttanaacaggagntgcaattgaaagcaacatcagttgggctaaaggtnta

aaattngaagatggtgccatagctacaaacattggtaannnnnnnnnnntnnnaaccagnngtnc

agaannannagnnannaangcttatccaatccaannnnnnnntgncnctggtctcagctttgaca

gcacaggagccataatgnctggcaataaagnctatgataaattaactttgtggacaacgcctgac

ccatcaccaaactgncaaatncttgcagaaaatgntgcaaaactaacactttgnnnnnnnnanng

nnacagncaaatactggccactgtancngntttggntgttagaagnggaaacttaaacccaatta

ctggcacagtaagcagtgctcaagnttttcnncgntttgatgcaaatggtgnncntntnacagaa

cactctanncnnaaaaaatnntggggcnanaagcaangagatagnatagatggcactccatacac

caatgctgttggttttatgccaaattcaacagcttntnnaaagacncaaagttctnctnctaaaa

ataatntagtgggtcaagtatacatgantnnagntgtttnanannncatgnttcttnctataact

cttaatggtnctgatgacaccaccngtgcatnctcaatgncattttcatacacctggactaacgg

aagctatatcggagcaacatttggagctaactcatacaccttctcntacatngcccannannnn

类似搜索算法如BLAST(Korf et al.，2003)使用无碱基响应(类似于通配符)但含有太多无碱基响应导致无法接受的模糊程度。如果那样的话，将返回无意义BLAST结果。

REPI软件被设计分析FASTA文件筛选和编辑的输出结果，采用NCBIBLASTN算法，模型数据被编辑成适合于序列类似性搜索格式。为了完成这个目标，REPI运行一系列文件尽可能小地修改数据而提取可用的，FASTA文件的″BLASTable″数据。由于再测序微阵列的自身性质，序列经常包含大量的无碱基响应(n′s)。BLAST不能返回具有大量的无碱基响应的重要的类似性序列。因此，原始数据必须经过滤提取最可能返回显著类似性的那些片段。

预期序列遇到的第一种过滤器是控制检验。加入到微阵列中的对照序列被特异性设计为随机序列；因此，将不返回显著类似性。下一步为″BLASTable″数据评估序列。采用滑窗算法，用户输入窗口尺寸参数，这些参数表示碱基响应数量。该算法将同时进行评估。从第一种碱基响应开始评估序列，窗口沿着序列滑动搜索含有相关数据的第一种区域，采用记分方法进行评估，所有有效碱基给出一种分数并且所有无碱基响应给出0分。如果分数大于或等于预先确定的阈值(这里采用25％)，程序在窗口的起始点作记号作为可用数据的开始。一旦可用数据起始点被确定出，程序对换其参数并从可用数据库的末端开始搜索。对于每个序列，REPI搜索最大连续列的可用数据，将表示序列的初始子序列。

这个子序列将被修剪开始无碱基响应和尾部无碱基响应。进行修剪是必要的，因为先前过滤器使用起始窗口的起始位点作为子序列的起始点和末端窗口的最后位点，因此，尽管窗口记分是可接受的，可能存在无碱基响应超前子序列或尾部子序列。子序列经过的下一种过滤器评估长度。子序列长于50个核苷酸可以继续，子序列短于20个核苷酸被排除，并且子序列在20到50个核苷酸之间按照如下再评估。由于这些子序列的长度，采用先前描述的相同积分系统把它们记录下来。具有大于60％无碱基响应的子序列是被排除掉的；所有其他的允许继续采用BLAST算法针对GenBank，或自己的修饰数据库被搜索。

一旦类似性算法是完整的REPI计算机计算许多子序列的统计量，这些统计量包括靶点序列的子序列百分比，子序列长度，子序列碱基响应数量和子序列碱基响应百分比。靶点序列的子序列百分比和子序列长度显示出靶点病原菌的哪个片短被鉴别出。子序列长度和子序列碱基响应的百分比使我们能监控过滤算法过滤器以及GDAS阈值参数。REPI保存了所有BLASTN算法返回的统计结果使用户操作那个结果被显示在图形用户界面上。

在提供的实施例中，REPI经CGI(Perl)界面连接到局部BLAST(NCBIGenBank)数据库(包含在具有4.5GB随机存取存储器的苹果G5单一处理器(1.8Ghz)计算机上)。显示的结果包括所有预期值(E-值)阈值1.0e-9的数据库序列。E-值表示在随机给定搜索距离尺寸、记分矩阵、和空位罚分的预期分析数量；E-值越低数据库类似性搜索匹配越不可能进行随机鉴别。经确定e＝2.71828182845904523536028747135。

REPI输出由(BLASTable)子序列命名、长度、E-值构成和比值以降序排列显示每个子序列。名称报告为GenBank记录FASTA定义列并且包括序列长度。得分为记分矩阵和空位罚分计算出的标准分数，分数越高类似性越高。

上面列出的实施例的REPI输出在下面显示出。每个″BLASTable″子序列，REPI返回(以降序排列比值)所有具有预期值小于1.0e-9的GenBank数据记录。获得的最高比值是4型腺病毒(AY594253)，穿过这个连续部分，4型腺病毒是遗传不可区分于Ad4疫苗株(AY594254)，而较低的比值适合区分来自空军和海军培训基地的本地株(SEQ ID NO：430)。

＞Ad4FIBER:CustemSeq-腺病毒4开始＝12终点＝1245

子序列：

cnnncncngaccgngnnnttcannaacnctcccntcgnnctcttcagatgnattnnaagaaaagcc

cctgggggtgttgtccnnannnnnnngccgaccctgtcncnnnaagaatgnnnaaattannnnnaa

gctgngngagggggtnnnncttgacgactcgggaaaactcnttgcaancacagtaaacaaggccat

tgcnnctctcagnttttnccaacaacaccatttnnnnttaacatggatacccctttatacaccaaa

gntggaaaactanccttacaagtttctnccaccattaagtatattaaaatcaacaattttgaatac

nnnnnnnnnagcttttggntcaggtttnggactcagtnnnngcgcccnngcagtananttagnctc

nccacttacatttgntgataaagggaatanaaagattacccnaaanagnnnnttgcatgttanaac

aggagntgcaattgaaagcaacatcagttgggctaaaggtntaaaattngaagatggtgccatagc

tacaaacattggtaannnnnnnnnntnnnaaccagnngtncagaannannagnnannaangct ta

tccaatccaannnnnnnntgncnctggtctcagctttgacagcacaggagccataatgnctggcaa

taaagnctatgataaattaactttgtggacaacgcctgacccatcaccaaactgncaaatncttgc

agaaaatgntgcaaaactaacactttgnnnnnnnnanngnnacagncaaatactggccactgtanc

ngntttggntgttagaagnggaaacttaaacccaattactggcacagtaagcagtgctcaagnttt

tcnncgntttgatgcaaatggtgnncntntnacagaacactctanncnnaaaaaatnntggggcna

naagcaangagatagnatagatggcactccatacaccaatgctgttggttttatgccaaattcaac

agcttntnnaaagacncaaagttctnctnctaaaaataatntagtgggtcaagtatacatgantnn

agntgtttnanannncatgnttcttnctataactcttaatggtnctgatgacaccaccngtgcatn

ctcaatgncattttcatacacctggactaacggaagctatatcggagcaacatttggagctaactc

atacaccttctcntacatngcccanna

子序列靶点百分率：98％

子序列长度：1215

子序列碱基响应数量：1020

子序列碱基响应百分率：84％

1c1|AY594254|血清4型人腺病毒，疫苗株#135,994bp；长度＝35994

Ad4FIBER evalue：0.0，score：751.806

1c1|AY594253|血清4型人腺病毒|35,990bp；长度＝35990

Ad4FIBER evalue：0.0，score：751.806

gi|303967|gb|L19194.1|ADRFIBERX纤毛蛋白质h4哺乳动物腺病毒，完整编码序列；长度＝1346

Ad4FIBER evalue：0.0，score：743.877

gi|22796371|emb|AJ315930.1|HAD3159304型人腺病毒DNA；长度＝12718

Ad4FIBER evalue：0.0，score：735.947

1c1|AY599837|血清4型人腺病毒，美国空军本地株|35,964bp；长度＝35964

Ad4FIBER evalue：0.0，score：704.23

1c1AY599835|血清4型人腺病毒，美国海军本地株|35,965bp；长度＝35965

Ad4FIBER evalue：0.0，score：696.3

gi|434913|emb|X76547.1|AV4FIB1纤毛蛋白质4型腺病毒基因；长度＝1375

Ad4FIBER evalue：2.32306E-154，score：553.571

gi|17105037|gb)AF394196.1|AF394196猴腺病毒25，全基因组；长度＝36521

Ad4FIBER evalue：6.5072E-53，score：216.57

gi|33694802|tpg|BK000413.1|TPA：猴腺病毒25，全基因组；长度＝36519

Ad4FIBER evalue：6.5072E-53，score：216.57

依据2004年9月15日提出的美国申请Serial No.60/609,918，和2004年11月29日提出的美国申请Serial No.60/631,460中给出的描述生成和处理应用REPI程序Java归档(jar)文件。

实施例1-碱基响应算法设置和采用保守(简并)PCR引物和GenomiPhi 总扩增BLAST分析腺病毒4的碱基响应

再测序微阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传数据分析软件version 2.0(GDAS)提供。GDAS碱基响应基于先前描述的碱基响应算法，ABACUS，先前描述的(Cutler et al.，2001)。许多碱基响应算法参数能通过用户(GDAS操作手册)确定来得到碱基响应百分比和精确度之间的协定。

参数的描述可在GDAS手册第207-217页中找到。推荐的(缺省)GDAS设置是“保守”设置，这种“保守”设置集中在高水平精确度上。相反，本发明的目标是提高碱基响应的百分率。为了达到这个目标，本发明者调整参数实现高度许可碱基响应(提高百分率)，如列在下面：

″许可″碱基响应算法设置--

-过滤器条件

·无信号阈＝0.500(默认值＝1.000000)

·弱信号倍数阈值＝20000.000(默认值＝20.000000)

·大信噪比阈值＝20.000000(默认值＝20.000000)

-算法参数

·链质量阈值＝0.000(默认值＝0.000000)

·总链质量阈值＝25.0000(默认值＝75.000000)

·杂合子响应的最大值＝0.99000(默认值＝0.900000)

·模拟类型(0＝杂合子，1＝纯合子)＝0

·完美响应质量阈值＝0.500(默认值＝2.000000)

-最终可靠性规则

·临近探针响应的最小值＝1.0000(关闭过滤器)

·样本响应的最小值＝1.0000(关闭过滤器)

用适当的方法制备样本用于RPM V1微阵列分析，每微升10⁶个基因组拷贝起始浓度的原型4腺病毒采用简并引物PCR(Lin et al.，2004)或(B)GenomiPhi等温法进行扩增。对于总扩增试验，DNA从培养腺病毒中分离出并以每微升10⁶个拷贝浓度分装。采用总扩增策略(GenomiPhi，Amersham)进行扩增，然后依据标准Affymetrix CustomSeq^TM方案(从厂商处得到)进行处理。

图2中显示出杂交微阵列的图像。对比于保守(简并)多重PCR生成的更限制区域，GenomiPhi总扩增再测序整个拼接区域(增强灵敏性)。由于GenomiPhi总扩增不取决于拼接片段内的特异性引物序列的事实，产生这个结果。然而，十分重要的是注意到不顾采用的哪个扩增策略，例如，保守(简并)多重PCR或GenomiPhi总扩增，生成探针Ad4响应。这些方法之间的一致性是重要的，在不需要选择性富集的情况下，当保守引物可能具有更直接应用，把复合样本中的同一家族的病原菌成员按血清类型分类。

基于相应GDAS输出(采用“许可”设置)，REPI确定出返回给V1RPM微阵列的E1A、纤毛和六联体-1拼接区域的保守PCR扩增策略的下列列表(注意：从这个列表中省略的是几个4型腺病毒GenBank记录，具有几乎同源序列如Ad4同源和Ad4疫苗株)。

表12：Ad4E1A：CustemSeq-腺病毒4

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	AY594254	血清型4人腺病毒，疫苗株	1.04808E-107	396.964
AY594253	血清型4人腺病毒	1.04808E-107	396.964	AY594254	血清型4人腺病毒，疫苗株	1.04808E-107	396.964
AY594253	血清型4人腺病毒	1.04808E-107	396.964	AY599837	血清型4人腺病毒，USAF本地株	8.34268E-53	214.587
AY599835	血清型4人腺病毒，美国海军本地株	8.34268E-53	214.587	AY599837	血清型4人腺病毒，USAF本地株	8.34268E-53	214.587

表13：Ad4FIBER：CustemSeq-腺病毒4

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	AY594254	血清型4人腺病毒，疫苗株	0.0	751.806
AY594253	血清型4人腺病毒	0.0	751.806	AY594254	血清型4人腺病毒，疫苗株	0.0	751.806
AY594253	血清型4人腺病毒	0.0	751.806	AY599837	血清型4人腺病毒，USAF本地株	0.0	704.23
AY599835	血清型4人腺病毒，美国海军本地株	0.0	696.3	AY599837	血清型4人腺病毒，USAF本地株	0.0	704.23

表14：Ad4HEXON：CustemSeq-腺病毒4

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	AY594254	血清型4人腺病毒，疫苗株	0.0	751.806
AY594253	血清型4人腺病毒	0.0	751.806	AY594254	血清型4人腺病毒，疫苗株	0.0	751.806
AY594253	血清型4人腺病毒	0.0	751.806	AY599833	血清型4人腺病毒，美国海军本地株	1.73046E-169	603.13
AY599837	血清型4人腺病毒，USAF本地株	4.2185E-167	595.2	AY599833	血清型4人腺病毒，美国海军本地株	1.73046E-169	603.13

在上面显示的每个情况中，原型4腺病毒(AY594253)和疫苗株(AY594254)返回了保守PCR扩增得到的杂交原型4腺病毒扩增子的最高期望值和比值。这是被预期到的，因为原型株用于疫苗生产并且序列被确定具有同源性。在每个情况中，返回值以紧密相关空军(AY599837)和海军(AY599835)腺病毒4本地株的类似性顺序进行辨别。

下面列出的为4型原型腺病毒的GenomiPhi扩增反应取代保守PCR反应的相应输出(注意：不显示的为比值比空军和海军本地株高的几个紧密相关腺病毒)：

表15：Ad4E1A：腺病毒4GenomiPhi3

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	AY594253	血清型4人腺病毒	0.0	868.765
AY594254	血清型4人腺病毒，疫苗株	0.0	868.765	AY594253	血清型4人腺病毒	0.0	868.765
AY594254	血清型4人腺病毒，疫苗株	0.0	868.765	gi\|209874\|gb\|M14918.1	ADRDE1AA 4型腺病毒E1A区	0.0	860.836

表16：Ad4FIBER：腺病毒4GenomiPhi3

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	gi\|434913\|emb\|X76547.1	纤毛蛋白质AV4FIB14型腺病毒基因	0.0	1031.32
AY594254	血清型4人腺病毒，疫苗株	0.0	926.254	gi\|434913\|emb\|X76547.1	纤毛蛋白质AV4FIB14型腺病毒基因	0.0	1031.32
AY594254	血清型4人腺病毒，疫苗株	0.0	926.254	AY594253	血清型4人腺病毒	0.0	926.254
AY599837	血清型4人腺病毒，USAF本地株	0.0	743.877	AY594253	血清型4人腺病毒	0.0	926.254

表17：Ad4HEXON-1：腺病毒4GenomiPhi3

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	AY594254	血清型4人腺病毒，疫苗株	0.0	1065.02
AY594253	血清型4人腺病毒	0.0	1065.02	AY594254	血清型4人腺病毒，疫苗株	0.0	1065.02
AY594253	血清型4人腺病毒	0.0	1065.02	gi\|11693508\|gb\|AF065062.2\|AF065062	RI-67pVI核蛋白质4型人腺病毒株	0.0	1065.02
AY599835	血清型4人腺病毒，美国海军本地株	2.96209E-147	529.782	gi\|11693508\|gb\|AF065062.2\|AF065062	RI-67pVI核蛋白质4型人腺病毒株	0.0	1065.02

基于图2中显示的结果，对比于保守(简并)多重PCR生成的更限制区域，GenomiPhi总扩增再测序整个拼接区域(增强灵敏性)。由于GenomiPhi总扩增不取决于拼接片段内的特异性引物序列的事实，产生这个结果。REPI列出了适当的腺病毒类型(AY594254或AY594253)作为最高得到返回给除了Ad4FIBER之外的每个拼接区域。通过观察到4型原型腺病毒的早期序列草图包含错误，随后分辨出该差异，该错误引起用于鉴定Ad4FIBER的序列和不同4型腺病毒株(gi|11693508|gb|AF065062.2|AF065062)的GenBank记录之间稍微较高同源性。

就这一例外而言，十分重要的是注意到不论采用哪个扩增策略，例如，保守(简并)多重PCR或GenomiPhi总扩增，生成了正确的探针Ad4响应(除了由于拼接序列错误，由GenomiPhi产生Ad4FIBER)。这些方法之间的一致性是重要的，在不需要选择性富集的情况下，当保守引物可能具有更直接应用，把复合样本中的同一家族的病原菌成员按血清类型分类。

实施例2-Ad4稀释物系列

在本实施例中，杂交和碱基响应作为保守(简并)多重PCR反应的靶点子序列初始浓度的函数被测试。此外，该实施例也在GDAS软件内：(a)“许可”(说明书中描述的)和(b)“保守”(缺省)设置内对两个不同碱基响应策略进行比较。在这个实施例中采用的生物样本为4原型腺病毒。

杂交和碱基响应作为保守(简并)多重PCR反应的靶点子序列初始浓度的函数被测试。4原型腺病毒(ATCC)一系列稀释液被制备成每微升具有10⁵、10³、和10¹个基因组拷贝。为了这个目的，遵循Affymetrix CustomSeq方案，除了从上述稀释液分装的样本采用E1A、纤毛和六联体的保守(简并)多重腺病毒引物策略进行扩增。

表18-20证实RPMV1芯片采用REPI分析来检测取决于无论“保守”(缺省GDAS)或“许可”(来自实施例1)碱基响应设置的适当4型病原菌靶点(对菌株无特异性)被采用的能力。当REPI返回一种或一种以上4型腺病毒靶点的GenBank(或局部)数据库记录作为最高BLAST比值值时，计算阳性检测。在每个情况中，当满足滑窗算法的条件时，“长度”对应于REPI筛选的子序列中的碱基响应数量。

表18：

	Ad4纤毛
	Ad4纤毛										稀释	保守的					许可的
	Expt.	评分	Eval	名称	长度	Expt.	评分	Eval	名称	长度	稀释	保守的					许可的
	Expt.	评分	Eval	名称	长度	Expt.	评分	Eval	名称	长度	10⁵	11-21-31-4	835.0651015.46297.846839.03	E-0.0E-0.0E-780.0	Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白	12279904511059	11-21-31-4	1623.971447.89703.6261605.08	0.00.00.00.0	Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白	12279975121215
10³	22-2^*2-32-4	448.153232.429	E-134n/dE-58n/d	Ad4纤毛蛋白-Ad4纤毛蛋白-	1208-421-	22-22-32-4	1559.2405.389	0.0n/dE-110n/d	Ad4纤毛蛋白-Ad4纤毛蛋白-	1220-444-	10⁵	11-21-31-4	835.0651015.46297.846839.03	E-0.0E-0.0E-780.0	Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白	12279904511059	11-21-31-4	1623.971447.89703.6261605.08	0.00.00.00.0	Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白	12279975121215
10³	22-2^*2-32-4	448.153232.429	E-134n/dE-58n/d	Ad4纤毛蛋白-Ad4纤毛蛋白-	1208-421-	22-22-32-4	1559.2405.389	0.0n/dE-110n/d	Ad4纤毛蛋白-Ad4纤毛蛋白-	1220-444-	10¹	33-2^*3-33-4	172.95899.61	E-40n/dn/dE-19	Ad4纤毛蛋白--Ad4纤毛蛋白	294--93	33-23-33-4	301.101118.758116.39	E-79-E-24E-24	Ad4纤毛蛋白-Ad4纤毛蛋白Ad4纤毛蛋白	442-27995

^*表示降解模板；n/d表示由于碱基响应不充分而“不确定的”

表19：

	Ad4E1A
	Ad4E1A										稀释	保守的					许可的
	Expt	评分	Eval	名称	长度	Expt	评分	Eval	名称	长度	稀释	保守的					许可的
	Expt	评分	Eval	名称	长度	Expt	评分	Eval	名称	长度	10⁵	11-21-31-4	448.5420.8353.4	E-123E-115n/dE-94	Ad4E1A区域Ad4E1A区域-Ad4E1A区域	553422-424	11-21-31-4	775.595691.471561.5589.253	E-0.0E-0.0E-157E-165	Ad4E1A区域Ad4E1A区域Ad4E1A区域Ad4E1A区域	556444413424
10³	22-2^*2-32-4	341.5194.8	E-91n/dE-47n/d	Ad4E1A区域-Ad4E1A区域-	399-404-	22-22-32-4	607.1470.774	E-171n/dE-130n/d	Ad4E1A区域-Ad4E1A区域-	412-421-	10⁵	11-21-31-4	448.5420.8353.4	E-123E-115n/dE-94	Ad4E1A区域Ad4E1A区域-Ad4E1A区域	553422-424	11-21-31-4	775.595691.471561.5589.253	E-0.0E-0.0E-157E-165	Ad4E1A区域Ad4E1A区域Ad4E1A区域Ad4E1A区域	556444413424
10³	22-2^*2-32-4	341.5194.8	E-91n/dE-47n/d	Ad4E1A区域-Ad4E1A区域-	399-404-	22-22-32-4	607.1470.774	E-171n/dE-130n/d	Ad4E1A区域-Ad4E1A区域-	412-421-	10¹	33-2^*3-33-4	412.8	n/dn/dn/dE-112	---Ad4E1A区域	---397	33-23-33-4	385.836199.58640.794	E-104n/dE-48E-0.0	Ad4E1A区域-Ad4E1A区域Ad4E1A区域	405-403398

表20：

	Ad4六邻体
	Ad4六邻体										稀释	保守的					许可的
	Expt.	评分	Eval	名称	长度	Expt.	评分	Eval	名称	长度	稀释	保守的					许可的
	Expt.	评分	Eval	名称	长度	Expt.	评分	Eval	名称	长度	10⁵	11-21-31-4	377.1603.13107.5498.1	E-101E-0.0E-21E-138	Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因	760760262760	11-21-31-4	893.45941.874246.762920.916	0.0E-0.0E-62E-0.0	Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因	769768497762
10³	22-2^*2-32-4	383.1	E-103n/dn/dn/d	Ad4六邻体基因---	759---	22-22-32-4	826.865	E-0.0n/dn/dn/d	Ad4六邻体基因---	759---	10⁵	11-21-31-4	377.1603.13107.5498.1	E-101E-0.0E-21E-138	Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因	760760262760	11-21-31-4	893.45941.874246.762920.916	0.0E-0.0E-62E-0.0	Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因	769768497762
10³	22-2^*2-32-4	383.1	E-103n/dn/dn/d	Ad4六邻体基因---	759---	22-22-32-4	826.865	E-0.0n/dn/dn/d	Ad4六邻体基因---	759---	10¹	33-2^*3-33-4	71.86	n/dE-11n/dn/d	-Ad4六邻体基因--	-65--	33-23-33-4	78.8677107.54149.17	E-12E-21n/dE-33	Ad4六邻体基因Ad4六邻体基因-Ad4六邻体基因	14372-209

跨稀释液的范围，“许可”碱基响应设置产生GDAS输出，GDAS输出经REPI采用始终如一地生成比信噪比检测的缺省GDAS碱基响应设置更高的子序列长度和比值。在几个情况中，“许可”碱基响应设置导致足够量的REPI碱基响应来检测靶点然而缺省设置不会这样。这个实施例证实通过GDAS降低碱基限制并将输出结合REPI算法，得到病原菌之间的较高灵敏性和辨识力(菌株鉴别)。

这里特别注意的是，在一些情况中，在图像、GDAS输出、和REPI分析中存在证据，具有痕量腺病毒7和腺病毒5的变性引物混合液的非故意污染物(由特异性实时PCR反应证实)。因为原型腺病毒的拼接区域之间没有显著性交互杂交，这个污染物不导致扰乱碱基响应或导致腺病毒4拼接区域。证实了这里描述的执行定量分离紧密相关病原菌混合物的方法的鲁棒性。

值得注意的，Lawrence Livermore国家实验室的Andersen团队描述了在特异性PCR扩增反应之后使用能检测低浓度(～10¹拷贝)的Affymetrix再测序芯片。然而，怎样确定灵敏性或这些结果受紧密相关微生物物种杂交影响的到什么程度没有被公开或提出。论文中的重点为能被使用的探针对的百分率，不是当他们通过芯片响应的实际序列。因此，技术人员没有任何由公开所致的期望。技术人员将不能推断来自先前专利或相关公开(Gingeras et al.，1998)的可能性因为这些参考文献不能揭示或提出指定方法的鲁棒性，该方法模式识别浓度差异、拼接区域序列定义中的误差，或其他形式干扰。

实施例3-碱基响应算法设置和采用保守(简并)PCR引物和GenomiPhi 总扩增对腺病毒5本地株(Ad5FS：AY6016351和腺病毒7原型株(Ad7； AY594255″)的碱基响应进行BLAST分析

这个实施例与实施例1类似，除非用5型腺病毒本地株(Ad5FS；AY601635)或7型腺病毒原型(AY594255)采用或者(a)保守(简并)多重PCR或者(b)GenomiPhi总扩增(图3)探查制备实施例1中描述的上面再测序微阵列芯片(RPMV1)。基于(RPMV1)输出(采用“许可”设置)，REPI用Ad5原型和Ad7原型中的每一种来鉴别下列保守PCR反应和总扩增策略的3个最高“点击”。毫无例外，当5型腺病毒(Ad5FS；登录号AY601635)使用保守PCR反应或总(GenomiPhi)扩增的时候，5型腺病毒拼接区域(Ad5E1A、Ad5FIBER、Ad5FIBER、Ad5HEXON-1和Ad5HEXON-2)响应的每个序列列出最高“点击”(最高BLAST比值)。

也毫无例外，当采用PCR反应或总(GenomiPhi)扩增的时候，7型腺病毒拼接区域(Ad7E1A、Ad7FIBER、Ad5HEXON-1和Ad5HEXON-2)的这种序列列出最高“点击”(最高BLAST比值)与7型腺病毒正确的原型菌株一样。此外，GenomiPhi扩增导致Ad4E1A区域和Ad7疫苗区域的碱基响应，两者导致分配给正确Ad7原型菌株的最高比值。

得到的5型腺病毒和7型腺病毒原型的结果证实4型腺病毒的结果。特殊地，在图3A-D中显示的结果显示出对比于保守(简并)多重PCR反应产生的更加限制区域。GenomiPhi总扩增使完全拼接区域(增加的灵敏性)被再测序。更重要地，这些结果证实不管采用什么扩增方案，例如保守(简并)多重PCR反应或GenomiPhi总扩增，生成正确的Ad5或Ad7响应。

实施例4-Ad4-5突破株作为再测序微阵列可检测的混合传染病模型

这个实施例的样本可由海军保健研究中心(San Diego)提供。存档样本为初级新兵的鼻腔冲洗液，该新兵以前接受过腺病毒(采用Ad4/Ad7疫苗)免疫并且随后诊断为腺病毒传染和发热性呼吸疾病。不管先前接种过疫苗，传染相关菌株广泛统称为“突破株”。在这个病例中，假设单一变异形式的腺病毒是病原。这里描述的样本被统称为Ad4-5突破因为非决定的培养和血清学试验显示出两种4型腺病毒的性质，而六联体基因(血清型腺病毒的抗原决定簇之一)的测序显示出5型腺病毒的性质。

依据制备实施例1中描述的多重变性引物PCR方案处理该样本。这个方法说明(Lin et al 2004)成功扩增与发热性呼吸传染相关所有腺病毒的六联体和纤毛基因上超变区(以及相对E1A可变区域)。另外，标准AffymetrixCustomSeq方案被采用。

得到的杂交模式显示在图4中。基于GDAS输出(采用“许可”设置)。REPI经多重PCR鉴别出下列所有扩增方案的3个最高“点击”。(参见表21-24)。

表21：Ad5FIBER：Ad 4-5突破株

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	1c1\|AY601035	血清型5人腺病毒，本地株	5.01036E-76	291.899
gi\|33694637\|tpg\|BK000408.1	TPA：5型人腺病毒	5.01036E-76	291.899	1c1\|AY601035	血清型5人腺病毒，本地株	5.01036E-76	291.899
gi\|33694637\|tpg\|BK000408.1	TPA：5型人腺病毒	5.01036E-76	291.899	gi\|32127287\|gb\|AY224398.1	KNIH 99/5纤毛基因5型人腺病毒株	5.01036E-76	291.899

表22：Ad5HEXON-1：Ad 4-5突破株

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	1c1\|AY601035	血清型5人腺病毒，本地株	0.0	644.759
gi\|33694637\|tpg\|BK000408.1	TPA：5型人腺病毒	1.81596E-172	613.041	1c1\|AY601035	血清型5人腺病毒，本地株	0.0	644.759
gi\|33694637\|tpg\|BK000408.1	TPA：5型人腺病毒	1.81596E-172	613.041	gi32127287\|gb\|AY224398.1	KNIH 99/5纤毛基因5型人腺病毒株	2.63084E-165	589.253

表23：Ad7E1A：Ad 4-5突破株

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	gi\|4127293\|emb\|AJ005536.1\|ACA005536	腺病毒临床分离物，基因组DNA的克隆B44	3.18875E-83	315.688
1c1\|AY601633	血清型21人腺病毒	4.97873E-82	311.723	gi\|4127293\|emb\|AJ005536.1\|ACA005536	腺病毒临床分离物，基因组DNA的克隆B44	3.18875E-83	315.688
1c1\|AY601633	血清型21人腺病毒	4.97873E-82	311.723	gi\|21311720\|gb\|AF492353.1	21型人腺病毒E1A13S蛋白质基因	1.21371E-79	303.794
1c1\|AY601634	血清型7人腺病毒，美国海军本地株	2.95877E-77	295.864	gi\|21311720\|gb\|AF492353.1	21型人腺病毒E1A13S蛋白质基因	1.21371E-79	303.794

表24：Ad7HEXON-1：Ad 4-5突破株

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	1c1\|AY601633	血清型21人腺病毒	6.98074E-24	117.452
gi\|13919592\|gb\|AY008279.1	21型人腺病毒六邻体蛋白质基因	6.98074E-24	117.452	1c1\|AY601633	血清型21人腺病毒	6.98074E-24	117.452
gi\|13919592\|gb\|AY008279.1	21型人腺病毒六邻体蛋白质基因	6.98074E-24	117.452	gi\|21311720\|gb\|AF492353.1	50型人腺病毒	6.98074E-24	117.452
1c1\|AY594255	血清型7人腺病毒	6.0101E-12	77.8048	gi\|21311720\|gb\|AF492353.1	50型人腺病毒	6.98074E-24	117.452
1c1\|AY594255	血清型7人腺病毒	6.0101E-12	77.8048	1c1\|AY601634	血清型7人腺病毒，美国海军本地株	6.0101E-12	77.8048

筛选的REPI返回值给RPMV1上腺病毒4，5突破株。这个“菌株”由几个无关方法确定为5型腺病毒和B子群成员的混合物，最可能为21型腺病毒。这在联合的杂交结果和REPI分析中被证实，5型腺病毒被证实在所有腺病毒5拼接上，而B子群原型(腺病毒7；AY594255)拼接返回21型腺病毒的最高比值，21型腺病毒为B子群的不同成员。

常规DNA测序揭示出全部腺病毒5基因组被重新得到并且不能被组合的其他序列存在因为腺病毒5模型假设要求的。然而，显著量的确证被收集来支持Ad5/Ad 21交叉感染的结论，包括用70-mer寡核苷酸阵列(Linet al 2004)实施的平行试验中得到的类似结论，该类似结论显示出Ad 5/Ad21混合物或交叉感染的证据，和采用常规方法测序扩增子都支持了Ad5和Ad 21的存在。随后指导的腺病毒突破株的扩展研究显示出许多这种菌株实际上由较少腺病毒的混合物构成(制备加工图)。

有一些重要方面和优势隐含在这个发现中：

1.在没有特殊先验设计或在样本中发现Ad 21的预处理的情况下，原型区域(B子群的Ad 7)能用于成功鉴定不同的B子群成员(Ad 21)的实证。

2.由于空间分辨力，微阵列辨别混合的病原菌的实证。该混合物使常规DNA测序方法混乱，该常规DNA测序方法取决于以单一有机体的假设为基础的连续片段的组装。

实施例5-采用原型区域鉴别流行性感冒A株

未知血清型的流行性感冒A阳性临床样本在2002-2003和2003-2004流感季节由Dr.E1izabeth Walter收集并提供给Dr.Zheng Wang如冷冻的鼻腔冲洗液。

样本被加工处理用于病原菌芯片分析如下：

EPICENTRE MasterPure^TM提纯试剂盒(Madison，Wisconsin)用于在没有经过RNase处理情况下，从50μl鼻腔冲洗液(样本NW20031114-05-02)中提取全部核酸。样本NW20031114-05-02于2003年11月14日在空军基地(San Antonio，TX)被收集到。患者在2003年11月10接受疫苗接种。全部核酸悬浮在20μl核酸酶游离水中。两步RT-PCR被用于扩增每一种病毒基因片段。

简要地，4μl总核酸中的RNA采用SuperScript^TMIII反转录酶(Invitrogen，Carlsbad，CA)依据厂商提供的方案和20μl 100pmol Uni3引物被转录到cDNA中。RT(逆转录)反应在42℃下实施1小时，然后在70℃下培养15分钟。2μl RT-反应被用于cDNA扩增。采用TaqPlus Long System(Stratagene，La Jolla，CA)依据提供的方案扩增cDNA。两个不同的PCR反应条件用于扩增。对于通用的PCR，通用的引物uni3和uni5被用于扩增红血球凝聚素(HA)、神经氨酸苷酶(NA)和基质(M)所有的八个片段(参见Hoffman et al，2001)。对于多重PCR，经过混合三个片段特异性引物对(Bm-HA-1/Bm-NS-890R，BA-Na-1/Ba-Na-1413R和Bm-M-1/Bm-M-1027R)扩增片段。Mg²⁺离子的最终浓度为2mM并且最终引物浓度为1μM。通用扩增的PCR条件为：94℃反应2分钟，随即94℃下进行29轮反应1分钟，在40℃反应2分钟，72℃反应3分钟，在72℃最后延伸10分钟。多重PCR反应条件基本相同除了退火温度提升到58℃。PCR反应产物经Qiagen PCR提纯试剂盒进行提纯。依据Affymetrix方案，500ng通用扩增PCR产物和1000ng多重PCR产物各自被用于两个V1病原菌芯片进行杂交

引物(来自Hoffman et al，2001)-

Uni3： AGCAAAAAGCAGG(SEQ ID NO：431)Uni5： AGTAGAAACAAG(SEQ ID NO：432)Bm-HA-1： TATTCGTCTCAGGGAGCAAAAGCAGGGG(SEQ ID NO：433)Bm-NS-890R： ATATCGTCTCGTATTAGTAGAAACAAGGGTGTTIT(SEQ ID NO：434)Ba-Na-1： TATTGGTCTCAGGGAGCAAAAGCAGGAGT(SEQ ID NO：435)Ba-Na-1413R：ATATGGTCTCGTATTAGTAGAAACAAGGAGTITTTIT(SEQ ID NO：436)Bm-M-1： TATTCGTCTCAGGGAGCAAAAGCAGGTAG(SEQ ID NO：437)Bm-M-1027R： ATATCGTCTCGTATTAGTAGAAACAAGGTAGTITIT(SEQ ID NO：438)

两种扩增方案的每一种的芯片扫描结果被显示出：(a)通用引物PCR反应和(b)多重PCR反应(图5)。基于GDAS输出(采用“许可”设置)，REPI鉴别出下列通用引物(Hoffman et al.，2001)扩增方法的3个最高“点击”和采用Ad5原型和特殊多重PCR方法中每一种的总扩增方案。

为了这个试验，本发明者得到流感菌株HA基因的序列，这种流感菌株避免了2003-2004疫苗并引发了大范围疾病，即Fujian/411/2002(注意：仅HA序列可用于Fujian/411/2002)并且把那个掺入到REPI搜索的数据库中。两种扩增方法的每一种有效生成相同结果，尽管比值s稍微改变。特殊地，在REPI输出文件中，Fujian 411/2002返回FluAHA3的最高比值。Moscow 10/99，菌株用于在2003年疫苗接种，不返回FluAHA3的REPI输出。

表25：FluAHA3：NW20031114-05-02ACID04-B2

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	1c1\|ISDN38157	流行性感冒A/Fujian/411/2002血球凝集素104	0.0	1431.75
gi\|37530025\|gb\|AY389356.1	流行性感冒A病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因	0.0	1431.75	1c1\|ISDN38157	流行性感冒A/Fujian/411/2002血球凝集素104	0.0	1431.75
gi\|37530025\|gb\|AY389356.1	流行性感冒A病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因	0.0	1431.75	gi\|37530033\|gb\|AY389360.1	流行性感冒A病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因	0.0	1423.83

gi|37530031|gb|AY389359.1

流行性感冒A病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因

0.0

1423.83

HA3最高BLAST比值是(流行性感冒A/Fuujian/411/2002红血球凝聚素104)，在美国2003-2004流行性感冒爆发的H3N2病原因子，在美国没有进行接种疫苗保护。HA3不能辨别的病毒序列也得到相同的比值。超过500个GenBank记录被返回给HA3，所有具有预期值0.0和从上面显示的到993.636之间范围内变化的比值。疫苗株，(A/Panama/2007/99(H3N2))，不在被返回的HA3区域内流行性感冒A株的列表中。注意：流行性感冒A/Fujian/411/2002_红血球凝聚素_104仅对HA有用，因此这里的其他区域不进行比对。

尽管没有显示，本发明者已经能鉴别出2002-2003流感季节的H1N1发作菌株。

实施例6-减少的杂交时间

Affymetrix CustomSeq方案指出杂交步骤至少需要16个小时促进最大化杂交。对于诊断效能的目的，这是相当长的时间。因此，对本方法缩短杂交时间的适用性和功效进行评估。

在本实施例中，采用样本实施杂交和碱基响应，该样本经特异性PCR反应试剂进行扩增，然后在制备实施例1中描述的再测序微阵列芯片(RPMV1)上杂交1个小时、30分钟、或15分钟。为了对比性研究，除了改变杂交时间之外，执行Affymetrix CustomSeq方案。在被显示的实施例数据(图6)中，鼻腔冲洗液对用微阵列探测的除了红霉素抗性标记物SPYERMB、SPYERMTR、和SPYMEFAE之外的所有靶点是阴性的，鼻腔冲洗液经过每一种标记物的特异性PCR反应。然后，将扩增子杂交来分离微阵列16个小时或者15分钟，然后另外按Affymetrix方案规定的进行处理。

结果出现在图6A[16小时；ex-6a])和图6B[2小时；ex-6b]中。基于GDAS输出(采用“许可”设置)，REP1鉴别出下列各自杂交16小时和杂交15分钟的最高“点击”。

相应的GDAS和REP1分析显示出生成的碱基响应的数量在15分钟杂交中小于16个小时杂交中的碱基响应数量(参见表26-31)。例如，经16个小时杂交，SPYERMB拼接区域产生子序列长度219bp区域(拼接区域的98％，95％碱基响应在子序列中生成)，而15分钟杂交的不连续杂交模式导致拼接片段(45％的拼接区域，99％碱基响应在子序列中生成)进入长度100bp和87bp(39％的拼接区域，99％碱基响应在子序列中生成)的两个子序列中。

表26：SPYERMB：BL_JMS_020604_TW_3c(16小时杂交)

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	gi\|21886737\|gb\|AF516335.1	粪肠球菌质粒体pUW786耐抗生素基因簇	1.90377E-98	365.247

表27：SPYERMB：BL_JMS_020604_TW_3b(15分钟杂交)

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	gi\|21886737\|gb\|AF516335.1	粪肠球菌质粒体pUW786耐抗生素基因簇	1.6409E-47	194.764

表28：SPYERMTR：BL_JMS_020604_TW_3c(16小时杂交)

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	gi\|2190969\|gb\|AF002716.1\|AF002716	化脓性链球菌引导肽1(lpg1)和2(lpg2)，红霉素耐甲基酶(ermTR)基因	3.18989E-13	79.787

表29：SPYERMTR：BL_JMS_ _020604_TW_(15分钟杂交)

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	无响应	N/A	N/A	N/A

表30：SPYMEFAE：BL_JMS_020604_TW_3c(16小时杂交)

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	gi\|22121182\|gb\|AY071836.1	链球菌6大环内酯外排决定簇基因(mefA)	1.01677E-60	240.358

表31：SPYMEFAE：BL_JMS_020604_TW_3b(15分钟杂交)

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	gi\|22121182\|gb\|AY071836.1	链球菌6大环内酯外排决定簇基因(mefA)	3.331E-36	159.081

上面的表显示出实施例6中，16小时杂交时间相对于15分钟杂交时间，被描述的三个不同抗生素抗性标记物的比较性最高顺序。尽管SPYERMTR拼接区域不产生足够量的碱基响应进行15分钟杂交后的鉴别。SPYERMB和SPYMEFAE都返回给包括拼接区域的抗生素抗性标记物相同变异体较高比值(在表9中被鉴别出)。

然而，三个拼接区域中每一种的REPI输出显示出每个区域中最高比值s是相同的(除了缺少15分钟杂交的足够碱基响应的SPYERMTR之外)，尽管比值s和预期值在每个例子中是不同的。得到30分钟和1个小时杂交的类似结果，增加杂交时间生成的碱基响应数量得到增加。此外，这个实施例清楚地说明在不同杂交模式范围内的靶点之间做出精确辨别的方法的鲁棒性。

实施例7-消减杂交

当采用总扩增时，许多方法可用于减少临床样本中背景人DNA的数量。一种方法是采用COT-1片段人基因组DNA从杂交溶液中的扩增产物中直接消减背景基因组DNA，该COT-1片段人基因组DNA大量地由迅速退火重复单元组成。另一种方法为在从扩增之前从临床样本中玻璃珠消减背景基因组DNA。第三个方法为联合上述方法，在总扩增之间，使用玻璃球消减从临床样本中消减基因组背景DNA，随即背景DNA可进一步使用COT-1人DNA从杂交溶液中的临床样本中被消减。

图7A和7B的方法

从临床样本中收集鼻腔冲洗液并采用MasterPure^TM DNA提纯试剂盒(Epicentre)分离全部核酸。在37℃，采用McrBc(切割在一种或两个链上含有甲基胞嘧啶DNA的内切酶)将核酸简化1个小时，并且加热到65℃使酶变性。随后，样本被分为两组并采用GenomiPhi DNA扩增试剂盒(AmershamBiosciences)进行扩增。依据Affymetrix CustomSeq方案，扩增产物被分割成片段并被标记。

对于这个对比性研究，Affymetrix CustomSeq方案被执行除了下面改变之外。依据Affymetrix CustomSeq方案(图7A)使用标准杂交溶液或依据Affymetrix推荐的(图7B)，采用含有12μg鲱精DNA和10μg COT-1人DNA(Roche，Indianapolis，IN)的杂交混合物取代22μg鲱精DNA将临床样本杂交到再测序微阵列芯片(RPMV1)上。

图7C和7D的方法

本实施例描述了当采用总扩增时，玻璃珠消减和玻璃珠消减和消减杂交方法联合提高病原菌特异性信噪比

COT-1人DNA，大量由迅速退火重复单元组成，采用末端转移酶(Tdt)(NEB)在3′-端被生物素化生成生物素化消减探针(BSPs)。分组的～400ngBSPs在4xSSC和0.2％SDS中用临床鼻腔冲洗液(诊断为Ad4阳性临床样本)的核酸提取物于95℃下培养10分钟，该临床鼻腔冲洗液用McrBC于37℃下简化1个小时，然后缓慢冷却至65℃，用HMB交互杂交1个小时。杂交之后，BSP-HMB复合物在室温下于IXPBS、0.1％BSA中用BcMag链霉亲和素磁性玻璃珠(SMBs，Bioclone)培养30分钟。采用磁选器从上层清液中将玻璃珠分离出。然后，将悬浮液转移到新试管中并且采用1XPBS、0.1％BSA将磁性玻璃珠洗涤一次。将上层清液混合在一起并用乙醇进行沉淀。用核酸酶游离水(Ambion)将DNA小珠再悬浮，然后分为两组并依据厂商推荐的方案，用GenomiPhi DNA扩增试剂盒(Amersham Biosciences)进行扩增。简要地，用9μl样本缓冲液于95℃下将1ml DNA模板变性处理3分钟，冷却至4℃。在分离的试管中，1μl酶与9μl反应缓冲液混合，然后将混合物加入到变性的DNA模板上。然后于30℃下在温度循环反应器-PTC225(MJ Research Inc.，Reno，NV)中实施反应18个小时。

对于这个对比性研究，依据Affymetrix CustomSeq方案(图7C)使用标准杂交溶液或依据Affymetrix推荐的(图7D)，采用含有12μg鲱精DNA和10μg COT-1人DNA的杂交混合物取代22μg鲱精DNA将扩增样本杂交到再测序微阵列芯片(RPMV1)上。

图7E的方法

采用两倍用量的初始原料重复联合玻璃珠消减和消减杂交方法，图7E中的结果证明本发明者能从用于在制备实施例1中描述的再测序微阵列芯片(RPM Version 1芯片)的临床样本中消减人背景来分辨临床样本中Ad4六联体和纤毛基因的存在和对其进行鉴别。

消减杂交结果

消减杂交方法的结果显示在图7中。如图7中显示的，分离核酸的总扩增导致对RPMV1微阵列的显著性背景杂交。尽管4型腺病毒区域显示出比全部背景更高的可辨识信号，GDAS不能够生成足够碱基响应满足REPI中滑窗条件，因此，没有生成BLAST数据。用COT-1人基因组DNA交互杂交同一组的总扩增子没有提高这个(图7B)并且没有碱基响应生成。图7C显示出在总扩增之前，单独使用磁性玻璃珠消减不产生足够量的碱基响应进行类似性搜索。

然而，经扩增之前联合使用玻璃珠消减和用COT-1人DNA进行交互杂交，生成足够的碱基响应来鉴别和在Ad4HEXON-1拼接区域中三个被鉴别的序列中的每一种内，腺病毒4本地株(没有辨别的海军和空军)比疫苗和腺病毒4原型株排列更高(图7D和表32)。

表32：Ad4HEXON-1：BL_818141_030503_NW_4

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	AY599837	血清型4人腺病毒，USAF本地株	6.14232E-37	161.064
AY599835	血清型4人腺病毒，美国海军本地株	6.14232E-37	161.064	AY599837	血清型4人腺病毒，USAF本地株	6.14232E-37	161.064
AY599835	血清型4人腺病毒，美国海军本地株	6.14232E-37	161.064	AY594254	血清型4人腺病毒，疫苗株	1.49737E-34	153.134
AY594253	血清型4人腺病毒	1.49737E-34	153.134	AY594254	血清型4人腺病毒，疫苗株	1.49737E-34	153.134

此外，通过使用2微升起始样本原料取代1微升(图7E)实施同一组组合步骤，碱基响应被延伸到Ad4FIBER拼接区域内(参见表33)除了Ad4HEXON-1(参见表34)，在几个Ad4FIBER子序列中进行Ad4本地株(尽管在空军和海军本地株之间不进行辨别)对原型(AY594253)或疫苗菌株(AY594254)的高bit-score排序。然而，在Ad4HEXON-1拼接中能从海军本地株(AY599835)将Ad4空军本地株(登录号.AY599837)辨别出，因为提高碱基响应的数量实现了更完整的序列比对并增强了比值辨别力。

表33：Ad4FIBER：BL_818141_030503_NW_9b

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	AY599837	血清型4人腺病毒，USAF本地株	3.51948E-22	111.505
AY599835	血清型4人腺病毒，美国海军本地株	3.51948E-22	111.505	AY599837	血清型4人腺病毒，USAF本地株	3.51948E-22	111.505
AY599835	血清型4人腺病毒，美国海军本地株	3.51948E-22	111.505	AY594254	血清型4人腺病毒，疫苗株	8.57976E-20	103.575
AY594253	血清型4人腺病毒	8.57976E-20	103.575	AY594254	血清型4人腺病毒，疫苗株	8.57976E-20	103.575

表34：Ad4HEXON-1：BL_818141_030503_NW_9b

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	AY599837	血清型4人腺病毒，USAF本地株	1.59752E-70	274.058
AY599835	血清型4人腺病毒，美国海军本地株	9.49375E-66	258.199	AY599837	血清型4人腺病毒，USAF本地株	1.59752E-70	274.058
AY599835	血清型4人腺病毒，美国海军本地株	9.49375E-66	258.199	AY594254	血清型4人腺病毒，疫苗株	5.64196E-61	242.34
AY594253	血清型4人腺病毒	5.64196E-61	242.34	AY594254	血清型4人腺病毒，疫苗株	5.64196E-61	242.34

实施例8-RPMV2芯片和其设计

RPM V2芯片的序列拼接列表在下面(表35)中被列出。这表示出RPM V1芯片的容量提高约10倍。

表35：RPMV2芯片表

Alias 有机体基因名称登录号：Seq Num 长度 SEQ ID NO：

ATTIM1 Arabidopsis thaliana(1) 磷酸丙糖异构酶(TIM)

Ad3E1A 腺病毒3 E1A AY599834：

Ad3六邻体腺病毒3 六邻体 AY599834：

Ad3纤毛腺病毒3 纤毛 AY599834：

Ad7E1A 腺病毒7 E1A AY594255：

Ad7六邻体腺病毒7 六邻体 AY594255：

Ad7纤毛腺病毒7 纤毛 AY594255：

海军Ad7E1A 腺病毒7FS Navy E1A AY601634：

海军Ad7六邻体腺病毒7FS Navy 六邻体 AY601634：

海军Ad7纤毛腺病毒7FS Navy 纤毛 AY601634：

Ad16E1A 腺病毒16 E1A AY601636：

Ad16六邻体腺病毒16 六邻体 AY601636：

Ad16纤毛腺病毒16 纤毛 AY601636：

Ad21E1A 腺病毒21 E1A AY601633：

Ad21六邻体腺病毒21 六邻体 AY601633：

Ad21纤毛腺病毒21 纤毛 AY601633：

Ad11E1A 腺病毒11 E1A

Ad11六邻体腺病毒11 六邻体

Ad11纤毛腺病毒11 纤毛

Ad35E1A 腺病毒35 E1A

Ad35六邻体腺病毒35 六邻体

Ad35纤毛腺病毒35 纤毛

Ad1E1A 腺病毒1 E1A

Ad1六邻体腺病毒1 六邻体

Ad1纤毛腺病毒1 纤毛

Ad2E1A 腺病毒2 E1A

Ad2六邻体腺病毒2 六邻体

Ad2纤毛腺病毒2 纤毛

Ad5E1A 腺病毒5 E1A

Ad5六邻体腺病毒5 六邻体

Ad5纤毛腺病毒5 纤毛

Ad6E1A 腺病毒6 E1A

Ad6六邻体腺病毒6 六邻体登录号：Seq Num 长度 SEQ ID NO：

Ad6纤毛腺病毒6 纤毛

Ad4E1A 腺病毒4 E1A

Ad4六邻体腺病毒4 六邻体

Ad4纤毛腺病毒4 纤毛

Ad4AF E1A 腺病毒4FS AF E1A

Ad4AF六邻体腺病毒4FS AF 六邻体

Ad4AF纤毛腺病毒4FS AF 纤毛

Ad12E1A 腺病毒12 E1A

Ad12六邻体腺病毒12 六邻体

Ad12纤毛腺病毒12 纤毛

Ad17E1A 腺病毒17 E1A

Ad17六邻体腺病毒17 六邻体

Ad17纤毛腺病毒17 纤毛

Ad40E1A 腺病毒40 E1A

Ad40六邻体腺病毒40 六邻体

Ad40纤毛腺病毒40 纤毛

FluAHA1 甲型流行性感冒H1N1(New Caledonia Like) 血球凝集素1

FluAHA2 甲型流行性感冒H2N2(berkley) 血球凝集素2

FluAHA3 甲型流行性感冒H3N2(Fujian) 血球凝集素3

FluAHA4 甲型流行性感冒H4N6(Swine：Ontario) 血球凝集素4

FluAHA5 甲型流行性感冒H5N1(Vietnam) 血球凝集素5

FluAHA6 甲型流行性感冒H6N2(Turkey；Germany) 血球凝集素6

FluAHA7 甲型流行性感冒H7N7(Netherlands) 血球凝集素7

FluAHA8 甲型流行性感冒H8N4(Duck；Alberta) 血球凝集素8

FluAHA9 甲型流行性感冒H9N2(Swine：China) 血球凝集素9

FluAHA10 甲型流行性感冒H10(Shorebird) 血球凝集素10

FluAHA11 甲型流行性感冒H11(Duck；Taiwan) 血球凝集素11

FluAHA12 甲型流行性感冒H12N4(Kuuuy Iumslone，D

E1Awogs 血球凝集素12

FluAHA13 甲型流行性感冒H13N6(Gull；Astrakan) 血球凝集素13

FluAHA14 甲型流行性感冒H14(mallard；Gurjev) 血球凝集素14

FluAHA15 甲型流行性感冒H15N8(Duck；Australia) 血球凝集素15

FluANA1-1 甲型流行性感冒H1N1(New Caledonia Like) 神经氨酸酶1

FluANA1-2 甲型流行性感冒H5N1(Vietnam) 神经氨酸酶1

FluANA2 甲型流行性感冒H3N2(IrElAnd) 神经氨酸酶2登录号：Seq Num 长度 SEQ ID NO：

FluANA3 甲型流行性感冒H5N3(chicken：TX) 神经氨酸酶3

FluANA4 甲型流行性感冒H8N4(Duck：Alberta) 神经氨酸酶4

FluANA5 甲型流行性感冒H6N5(Shearwater) 神经氨酸酶5

FluANA6 甲型流行性感冒H4N6(Swine：Ontario) 神经氨酸酶6

FluANA7 甲型流行性感冒H7N7(Netherlands) 神经氨酸酶7

FluANA8 甲型流行性感冒H5N8(Duck：NY) 神经氨酸酶8

FluANA9 甲型流行性感冒H2N9(Duck：nanchang) 神经氨酸酶9

FluAH1N1MATRIX 甲型流行性感冒H1N1(New Caledonia Like) 基体

FluAH5N1MATRIX 甲型流行性感冒H5N1(Vietnam) 基体

FluBHA 乙型流行性感冒血球凝集素B

FluBHA 乙型流行性感冒神经氨酸酶B

FluBMATRIX 乙型流行性感冒基体

FluCHA 丙型流行性感冒血球凝集素-酯酶

FluCMATRIX 丙型流行性感冒基体

PIV1HN 副流行性感冒1 血球凝集素-神经氨酸酶

PIV1MATRIX 副流行性感冒1 基体

PIV1NC 副流行性感冒1 壳包核酸

PIV2HN 副流行性感冒2 血球凝集素-神经氨酸酶gi

PIV2MATRIX 副流行性感冒2 基体

PIV2NC 副流行性感冒2 壳包核酸

PIV3HN 副流行性感冒3 血球凝集素-神经氨酸酶

PIV3MATRIX 副流行性感冒3 基体

PIV3NC 副流行性感冒3 壳包核酸

PIV4HN 副流行性感冒4 血球凝集素-神经氨酸酶

PIV4MATRIX 副流行性感冒4 基体

HRV14NCR 鼻病毒14 5′NCR

HRV1ANCR 鼻病毒1A 5′NCR

HRV21NCR 鼻病毒21 5′NCR

HRV29NCR 鼻病毒29 5′NCR

HRV58NCR 鼻病毒58 5′NCR

HRV62NCR 鼻病毒62 5′NCR

HRV87NCR 鼻病毒87 5′NCR

HRV95NCR 鼻病毒95-01468 5′NCR

RSVABL RSV A&B 聚合酶L

RSVAMATRIX RSV A 基体登录号：Seq Num 长度 SEQ ID NO：

RSVANC RSV A 壳包核酸

RSVBMATRIX RSV B 基体

RSVBNC RSV B 壳包核酸

HCV229ESPIKE 冠状病毒229E Spike

HCV229EMEM 冠状病毒229E 膜蛋白

HCV229ENC 冠状病毒229E 壳包核酸

HCVOC43SPIKE 冠状病毒OC43 Spike

HCVOC43MEM 冠状病毒OC43 膜蛋白

HCVOC43NC 冠状病毒OC43 壳包核酸

SARSSPIKE 冠状病毒SARS(Urbani) Spike

SARS MEM 冠状病毒SARS(Urbani) 膜糖蛋白

SARS NC 冠状病毒SARS(Urbani) 壳包核酸

HCVNL63SPIKE 冠状病毒NL63 Spike

HCVNL63ORF3 冠状病毒NL63 ORF3

HCVNL63MEM 冠状病毒NL63 膜蛋白

HCVNL63NC 冠状病毒NL63 壳包核酸

MPVMATRIX 偏肺病毒基体

MPVNC 偏肺病毒壳包核酸

HHV1L 人疱疹病毒1(Simplex) DNA聚合酶

POLIO3NCR Sabin3型骨髓灰质炎 5′NCR 登录号：Seq Num 长度 SEO ID NO：

副粘液病毒属中的麻疹病

MEASLESHA 血球凝集素

毒(Rubeola)

副粘液病毒属中的麻疹病

MEASLESMATRIX 基体

毒(Rubeola)

NEWCASTLEHN 新城病毒血球凝集素-神经氨酸酶

NEWCASTLEMATRIX 新城疾病基体

WNE 西尼罗河病毒外层

WNNS 西尼罗河病毒非结构蛋白质5

WNCM 西尼罗河病毒 C和prM

YFE 黄热病外层

YFNS 黄热病非结构蛋白质5

VMVG3R 大天花病毒 G3R

VMVHA 大天花病毒血球凝集素

VMVSOD 大天花病毒 SOD

VMVCRMB 大天花病毒 CrmB

MONKEYPOX 猴痘病毒包涵体人体蛋白质

EBOLAL Reston埃博拉 L

EBOLANP Reston埃博拉 NP

EBOLAMATRIX Reston埃博拉基体

MARBURGL 马尔堡病毒 L蛋白

MARBURGNP 马尔堡病毒 NP

LASSAL 拉沙热病毒 L

SINNOMBRENC 未名病毒壳包核酸登录号：Sea Num 长度 SEQ ID NO：

NORWALKL 诺沃克病毒 RNA无关的RNA聚合酶

NORWALKCAPSID 诺沃克病毒壳蛋白

DENGUECAPSID 登革热病毒壳蛋白

DENGUEM 登革热病毒 pre-M蛋白

DENGUE1NCR 1型登革热 3′NCR

DENGUE2NCR 2型登革热 3′NCR

DENGUE3NCR 3型登革热 3′NCR

DENGUE5NCR 4型登革热 3′NCR

FMDVVP1 手足和口疾病病毒 VP1

FMDV3D 手足和口疾病病毒 3D

SLEVNS5 圣路易斯脑炎病毒 NS5

SLEVPP 圣路易斯脑炎病毒多蛋白前体

RVFVN 立夫特谷热病毒 N

RVFVNS 立夫特谷热病毒 NS

尤苏它病毒PP 尤苏它病毒病毒多蛋白前体

JEVPP 日本脑炎病毒多蛋白前体

金迪普拉病毒MATRIX 金迪普拉病毒基体

金迪普拉病毒GP 金迪普拉病毒糖蛋白

ATTIM2 Arabidopsis thaliaba(2) 磷酸丙糖异构酶(TIM)

ATTIM3 Arabidopsis thaliana(3) 磷酸丙糖异构酶(TIM)

SPYEMM44 化脓性链球菌 Emm44 登录号：Seq Num 长度 SEQ ID NO：

SPYEMM61 化脓性链球菌 emm61

SPYEMM75 化脓性链球菌 Emm75

SPYEMM77 化脓性链球菌 Emm77

SPYEMM89 化脓性链球菌 Emm89

SPYEMM94 化脓性链球菌 Emm94

SPYCSR 化脓性链球菌 Csr R&CsrS

SPYSFB1 化脓性链球菌 sfb1

SPYSPEB 化脓性链球菌 SpeB

SPNGYRA 肺炎链球菌 GyrA

SPNPLYTA 肺炎链球菌自溶素，lytA

SPNPLY 肺炎链球菌肺松术，ply

SAUGYRA 金黄色葡萄球菌 GyrA

SAUTST 金黄色葡萄球菌 tst

SAUENT-K 金黄色葡萄球菌 EntK

SAUENTQ 金黄色葡萄球菌 EntQ

CPNGYRA 肺炎衣原体 GyrA

CPNOMPB 肺炎衣原体 OmpB

CPNMOMPVD4 肺炎衣原体 MOMP VD4

MTURPOB 结核分枝杆菌 RpoB 登录号：Seq Num 长度 SEQ ID NO：

MPNGYRA 肺炎衣原体 GyrA

MPNP1 肺炎衣原体 P1基因

NMEGYRA 脑膜炎奈瑟氏球菌 GyrA

NMEMVIN 脑膜炎奈瑟氏球菌 MviN

NMECTRA 脑膜炎奈瑟氏球菌荚膜转移蛋白(ctrA)

NMECRGA 脑膜炎奈瑟氏球菌 crgA

AHEl6S 溶血隐秘杆菌 16S rRNA

AHEPLD 溶血隐秘杆菌 pld

BANGYRA 炭疽杆菌 GyrA

BANLEF 炭疽杆菌致命因素

BANPAG 炭疽杆菌保护性抗原

BANRPOB 炭疽杆菌 rpoB

BANCYA 炭疽杆菌 Cya

BANCAPB 炭疽杆菌荚囊蛋白基因B(capB)

BCERPOB 腊样芽胞杆菌 rpoB

BSUGYRA 枯草杆菌 GyrA

BSURPOB 枯草杆菌 rpoB

BTHCRY 苏云金芽孢杆菌 cry

BTHRPOB 苏云金芽孢杆菌 rpoB

BPEGYRA 百日咳博德特氏菌 GyrA

BCEPRECA 洋葱伯克霍尔德菌 RecA 登录号：Seq Num 长度 SEQ ID NO：

CPEGYPC 产气荚膜梭菌 GyrA

CPETMPC 产气荚膜梭菌 TmpC

CBUGYRA 贝氏考克斯菌 GyrA

CBUTOLC 贝氏考克斯菌 ToIC

FTURD1A 土拉弗朗西斯菌亚种土拉菌株 RD1-A

FTURD1B 土拉弗朗西斯菌亚种土拉菌株 RD1-B

FTUTUL4 土拉弗朗西斯菌 TUL4

FTUMDH 土拉弗朗西斯菌 mdh

FTU13KD 土拉弗朗西斯菌 13-kDa蛋白

FTUFOPA 土拉弗朗西斯菌外层膜蛋白FopA

OTSGROEL 恙虫病东方体 GroEL

OTSSTA56 恙虫病东方体 sta56

RPRGARA 普氏立克次体 GyrA

PAPOMP1 普氏立克次体 Omp1

YPEGYRA 鼠疫杆菌 GyrA

YPEOMPA 鼠疫杆菌 OmpA

YPECVE 鼠疫杆菌 cve2155序列

YPECAF1 鼠疫杆菌 caf1

ACAHAG 荚膜阿杰罗菌属 H抗原

ACAMAG 荚膜阿杰罗菌属 M抗原

VCHGYRA 霍乱弧菌 GyrA 登录号：Seq Num 长度 SEQ ID NO：

VCHOMPA 霍乱弧菌 OmpA

MSRA 金黄色链球菌 MSR(A)

MECR1 金黄色链球菌 mecR1

MEFA 化脓性链球菌 MefA

ERMTR 化脓性链球菌 Erm(TR)

ERMB 化脓性链球菌 ErmB

ERMB 普氏立克次体 EmrB

GYRB 肺炎链球菌 GyrB

PARC 肺炎链球菌 ParC

PARE 肺炎链球菌 parE

PBP1 肺炎链球菌 ponA(PbplA)

PBP5 屎肠球菌 pbp5

MECA 金黄色链球菌pUB110 mecA

BLAZ 金黄色链球菌质粒pLW043 blaz

DFRA 金黄色链球菌质粒pLW043 dfrA

VANA 金黄色链球菌质粒pLW043 vanA

QACC 金黄色链球菌质粒pLW043 qacC

RMTB 大肠杆菌 rmtB

STRA 大肠杆菌pMBSF1质粒 strA

TETG 假单胞菌属sp.质粒pPSTG2 (tetG) 登录号：Seq Num 长度 SEQ ID NO：

TETL 猪葡萄球菌(质粒pSTE1) tet(L)

TETB 转位子Tn 10 tet(B) AY599834：

PTX 百日咳博德特氏菌百日咳毒素 AY599834：

BONT 肉毒杆菌 bonT AY599834：

NTNH 肉毒杆菌 ntnh AY594255：

BOTE 肉毒杆菌 botE AY594255：

EPSILON 产气荚膜梭菌质粒体 epsilon-toxin AY594255：

TETANUS 破伤风杆菌破伤风毒素 AY601634：

STX1A E.coli 0157：H7 stx1A AY601634：

STX2A E.coli 0157：H7 Stx2A AY601634：

RICINUSTOXIN 蓖麻子蓖麻子toxin AY601636：

CTXAB 霍乱弧菌 ctxA+ctxB AY601636：

PBLUEVEC pBluescript IIKS(+) AY601636：

PGEMVEC pGEM-9Zf(-) AY601633：

PUCVEC pUC4KAN AY601633：

ATTIM4 Arabidopsis thaliana(4) 磷酸丙糖异构酶(TIM) AY601633：

实施例9-采用随机RT-PCR方法鉴别流行性感冒A株

这个实施例是为了介绍新改进的随机RT-PCR方案的应用，该新改进的随机RT-PCR方案是关于被加入到正常鼻腔冲洗液样本中的被分离的流行性感冒A(Fujan/411/2002 strain)核酸。随机RT-PCR方案已经被DeRisi′s研究室采用扩增病毒病原菌用于微阵列查询(Wang et al.，2003)。对该方案的改进被最近报道用于扩增培养流行性感冒病毒(Kessler et al.，2004)。然而。改进的方案没有被报道扩增临床样本中病毒靶点。

流行性感冒A病毒培养物(H1N1&H3N2)由空军健康研究所(AFIOH)提供并送到Virapure，LLC在研究之前进行扩增和量化。依据化验证明书，在1μg/ml TPCK处理胰岛素存在下，病毒在早期传代MDCK细胞上被扩增两轮。在感染48小时后，收集病毒上层清液并调节含有含有3％蔗糖，20mM Tris，pH值7.1和pH稳定剂。在输送之前，带有螺纹的瓶中装满200-300μl分装的上层清液。依据方法AM110，滴定每个样本小瓶执行流行性感冒的病毒空斑形成试验。流行性感冒A H3N2、K0717 SV5/SV40 RMK的滴定量为1.2X10⁷PFU/ml，流行性感冒A/California/2935/03/H1N1的滴定量为5X10⁶PFU/ml。

为了生成临床采集对照组，从Lackland AFB先进诊断实验室临床部的无症状成员得到鼻腔冲洗液(0.9％生理盐水)。从每个Virapure量化前滴定量，流行性感冒鼻腔吸出物的10倍/6组稀释液被生成以每个菌株的Virapure群开始并包括每个菌株的Virapure群。采用EPICENTRE定量供给的MasterPure总核酸提取物，全部100μl的每个流行性感冒鼻腔吸出物从稀释液中被加工处理。在执行这个方案期间，150μl的2XT和含有蛋白酶K的C裂解液被加入到每100μl被掺入的鼻腔冲洗液的稀释液中，充分混合并于65℃下培养15分钟。下一步，将样本置于冰上5分钟随即加入150μl的MPC蛋白沉淀剂。将样本充分剧烈混合10秒。然后以10,000xg离心过滤10分钟将混合物沉淀并将上层清液转移至微量离心管内。为了重新获得上层清液，加入500μl异丙醇并颠倒(30-40)次。

于4℃下将混合物离心10分钟并不移动小球倒出异丙醇。随后，用75％乙醇冲洗小球两次并在室温下干燥。一旦干燥，将核酸小球在35μl TEBuffer中再悬浮。每个样本被正确标记并且在装运到海军研究实验室之前置于干冰上。

三个100μl正常鼻腔冲洗液分组的每一种被加入的流行性感冒AH3N2病毒培养物的一系列稀释液(范围从10⁵pfu到10¹pfu)。依据被描述的(Kessler et al.，2004)，采用如实施例5中的EPICENTRE MasterPure^TMDNA提纯试剂盒(Madison，Wisconsin)提取总核酸，并且悬浮在40μl中。随机RT-PCR反应应用如下：

采用1μl引物D(40 pmol/μl；5′-GTT TCC CAG TCA CGA TCN NNNNNN NN；SEQ ID NO：573)和20μl内含有1μl SuperScript^TMIII反转录酶(50units/μl；Invitrogen，Carlsbad，CA)，将2μl总核酸反转录。于42℃下，RT(反转录)反应进行1小时，然后于70℃下失活15分钟。然后用1μl引物E(100pmol/μl；5′-GTT TCC CAG TCA CGA TC；SEQ ID NO：574)和50μl内含有2.5单位的TaqPlus长聚合酶(5 urnitst/μl，Stratagene，La Jolla，CA)，扩增10μl RT产物。PCR反应被执行35轮，94℃30秒，40℃30秒，和72℃160秒，随即在72℃下额外进行7分钟。依据Affymetrix Customseq方案，10⁵、10³和10¹pfu流感外加样本的PCR产物被用于三个不同V1RPM病原菌微阵列进行杂交

V1RPM芯片扫描三个外加样本，10⁵、10³、和10¹pfu，经随机RT-PCR方法扩增，各自显示在图8 A-C中。所有样本在至少少许流行性感冒A拼接区域内生成清晰的序列响应，表明随机RT-PCR方案甚至在没有人基因组DNA的干扰下成功地在峰值样本中扩增流感基因组。基于GDAS输出(采用“许可”设置)，REPI鉴别出下列每个样本的4个最高“点击”(表36-38)。10⁵(表36)和10³pfu(表37)样本的最高4个点击对应于正确的Fujian/411/2002菌株的最高排序并且与获得的Fujian/411/2002(+)临床样本NW20031114-05-02 ACID04-B2的最高排序相同，经流行性感冒通用引物进行扩增(在表25中显示出)。这个结果表明随机RT-PCR具有扩增能力类似于样本中具有相对较高滴定量病毒的流行性感冒A特异性PCR反应。较低滴定量的流感病毒(10¹pfu)，杂交拼接区域的百分率和碱基响应的百分率降低了。这导致排序稍微偏移，使Fujian 411/2002受限于第二高排列菌株。然而，V1RPM仍能读出外加病毒如H3N2 Pretoria菌株，最初源自Fujian/411/2002菌株同源并几乎与Fujian/411/2002菌株同源。

因为在这个试验中成功实施了随机RT-PCR反应，应相信的，这个方案将运用在流感临床样本和其他病原菌病毒中。

表36：FluAHA3：甲型流行性感冒H3N2加入样本(10⁵pfu)

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	1c1\|ISDN38157	甲型流行性感冒/Fujian/411/2002_血球凝集素_104	0.0	1400.04
gi\|37530025\|gb\|AY389356.1	甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因	0.0	1400.04	1c1\|ISDN38157	甲型流行性感冒/Fujian/411/2002_血球凝集素_104	0.0	1400.04
gi\|37530025\|gb\|AY389356.1	甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因	0.0	1400.04	gi\|37530033\|gb\|AY389360.1	甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因	0.0	1392.11
gi\|37530031\|gb\|	甲型流行性感冒病毒	0.0	1392.11	gi\|37530033\|gb\|AY389360.1	甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因	0.0	1392.11

AY389359.1

(A/pretoria/16/03(H3N2))血球凝集素(HA)基因

表37：FluAHA：甲型流行性感冒H3N2加入样本(10³pfu)

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	1c1\|ISDN38157	甲型流行性感冒/Fujian/411/2002_血球凝集素_104	0.0	1471.4
gi\|37530025\|gb\|AY389356.1	甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因	0.0	1471.4	1c1\|ISDN38157	甲型流行性感冒/Fujian/411/2002_血球凝集素_104	0.0	1471.4
gi\|37530025\|gb\|AY389356.1	甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因	0.0	1471.4	gi\|37530033\|gb\|AY389360.1	甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因	0.0	1463.47
gi\|37530031\|gb\|AY389359.1	甲型流行性感冒病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因	0.0	1463.47	gi\|37530033\|gb\|AY389360.1	甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因	0.0	1463.47

表38：FluAHA3：甲型流行性感冒H3N2加入样本(10¹pfu)

登录号#	名称	E值	比值：
登录号#	名称	E值	比值：	gi\|37530033\|gb\|AY389360.1	甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因	0.0	686.389
gi\|37530031\|gb\|AY389359.1	甲型流行性感冒病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因	0.0	686.389	gi\|37530033\|gb\|AY389360.1	甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因	0.0	686.389
gi\|37530031\|gb\|AY389359.1	甲型流行性感冒病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因	0.0	686.389	gi\|37530029\|gb\|AY389358.1	甲型流行性感冒病毒(A/pretoria/2/03(H3N2))血球凝集素(HA)基因	0.0	686.389
gi\|37530025\|gb\|AY389356.1	甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因	0.0	686.389	gi\|37530029\|gb\|AY389358.1	甲型流行性感冒病毒(A/pretoria/2/03(H3N2))血球凝集素(HA)基因	0.0	686.389
gi\|37530025\|gb\|AY389356.1	甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因	0.0	686.389	1c1\|ISDN38157	甲型流行性感冒/Fujian/411/2002_血球凝集素_104	0.0	678.459

这个实施例是重要的，因为它显示出完全无偏差扩增方法，来自2001年6月公共领域方案，可用作再测序微阵列制备步骤，导致PCR-水平灵敏性(101靶点拷贝)。尽管这个扩增方案已经用于长低聚物(70-mer)微阵列试验的一些公开实施例，它将满足再测序微阵列方法不是显而易见的。依据上述教导，本发明的许多改进和变化是可能的。因此，可理解的，在附属权利要求书界定的范围内，可按不同于这里明确描述的方法来实施本发明

实施例10：其他病原菌测试：

总的来说，下列病原菌在RPMV1上从实验室和/或临床样本中被检测出/辨别出，(总表达＞180测试芯片)鉴别和输入个体100％一致，除了表达类型变异菌株之间同源序列的序列拼接部分之外，无类型交互杂交：

人腺病毒群C Ad5原型 Ad5USA本地株

人腺病毒群E Ad4原型 Ad4AF本地株

Ad4疫苗 Ad4USN本地株

人腺病毒群B Ad3原型 Ad3USN本地株

Ad7原型 Ad7USN本地株

Ad7疫苗

Ad16原型

Ad21原型 Ad21本地株

流行性感冒A H1N1 H3N2

大天花或(天花)

拉沙病毒

埃博拉病毒

肺炎链球菌

化脓性链球菌

肺炎衣原体

肺炎支原体

脑膜炎双球菌

炭疽芽孢杆菌

鼠疫耶尔辛氏杆菌

弗朗西斯氏菌

制备的非传染性大天花(天花)、埃博拉病毒、炭疽芽胞杆菌、鼠疫杆菌和土拉热弗朗西斯菌实验室样本的RPMV1微阵列结果的筛选实施例已经被实施，但在这里没有显示出。采用特异性PCR引物制备大天花(天花)、埃博拉病毒、和鼠疫杆菌样本。采用GenomiPhi试剂扩增炭疽芽胞杆菌和鼠疫杆菌样本(如实施例3中描述的)。

实施例11：腺病毒序列的性质

下列表列出序列特性和表6中出现的测序腺病毒的推定基因产物和SEQ ID NOs：575-587。

表39：Ad3(登录号NO.AY599834；SEQ ID NO：575)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..134
启动子	480..485	“E1A基因的TATA框符”		重复区域	1..134
启动子	480..485	“E1A基因的TATA框符”		CDS	结合(576..662，1250..1351)	基因＝“E1A”	“6KD蛋白质”
CDS	结合(576..1155，1250..1455)	基因＝“E1A”	“29.1KD蛋白质”	CDS	结合(576..662，1250..1351)	基因＝“E1A”	“6KD蛋白质”
CDS	结合(576..1155，1250..1455)	基因＝“E1A”	“29.1KD蛋白质”	CDS	结合(576..1062，1250..1455)	基因＝“E1A”	“25K蛋白质”
多A-位点	1494..1499	“E1A的多A-位点”		CDS	结合(576..1062，1250..1455)	基因＝“E1A”	“25K蛋白质”
多A-位点	1494..1499	“E1A的多A-位点”		启动子	1549..1554	“E1B基因”的TATA框符
CDS	1603..2139	基因＝“E1B”	“19KD小型T抗原”	启动子	1549..1554	“E1B基因”的TATA框符
CDS	1603..2139	基因＝“E1B”	“19KD小型T抗原”	CDS	1908..3386	基因＝“E1B”	55K蛋白质
启动子	3384..3389	“pIX的TATA框符”		CDS	1908..3386	基因＝“E1B”	55K蛋白质
启动子	3384..3389	“pIX的TATA框符”		多A-位点	3450..3455	“E1B的多A-位点”
CDS	3480..3896	基因＝“蛋白质IX”	“蛋白质IX”	多A-位点	3450..3455	“E1B的多A-位点”
CDS	3480..3896	基因＝“蛋白质IX”	“蛋白质IX”	多A-位点	3913..3918	“pIX的多A-位点”
多A-位点	互补(3925..3930)	“E2B的多A-位点”		多A-位点	3913..3918	“pIX的多A-位点”

CDS	互补(连接(3948..5281，5560..5572))	基因＝“E2B”	IVA2成熟蛋白质
CDS	互补(连接(3948..5281，5560..5572))	基因＝“E2B”	IVA2成熟蛋白质	CDS	互补(5051..8419)	基因＝“E2B”	“DNA聚合酶”
CDS	5123..5692	基因＝“假设”	“假设20.6KD早期蛋白质”	CDS	互补(5051..8419)	基因＝“E2B”	“DNA聚合酶”
CDS	5123..5692	基因＝“假设”	“假设20.6KD早期蛋白质”	启动子	5872..5877	“主要晚期启动子的TATA框符”
CDS	互补(6868..7389)	基因	“假设”＝“假设19KD蛋白质”	启动子	5872..5877	“主要晚期启动子的TATA框符”
CDS	互补(6868..7389)	基因	“假设”＝“假设19KD蛋白质”	CDS	7829..8425	基因＝“L1”	“可能的DNA结合病毒蛋白”
CDS	互补(连接(8422..10389，13848..13856))	基因＝“pTP”	“DNA末端蛋白质前体”	CDS	7829..8425	基因＝“L1”	“可能的DNA结合病毒蛋白”
CDS	互补(连接(8422..10389，13848..13856))	基因＝“pTP”	“DNA末端蛋白质前体”	CDS	9757..10032	基因＝“假设”	“假设9.7KD蛋白质”
misc_RNA	10422..10595	“病毒相关RNAI”		CDS	9757..10032	基因＝“假设”	“假设9.7KD蛋白质”
misc_RNA	10422..10595	“病毒相关RNAI”		CDS	10890..12026	基因＝“L1”	“55KD蛋白质”
CDS	12051..13817	基因＝“L1”	“pIIIa蛋白质”	CDS	10890..12026	基因＝“L1”	“55KD蛋白质”
CDS	12051..13817	基因＝“L1”	“pIIIa蛋白质”	多A-位点	13830..13835	“L1的多A-位点”
CDS	13905..15539	基因＝“L2”	“五邻体碱基蛋白质”	多A-位点	13830..13835	“L1的多A-位点”
CDS	13905..15539	基因＝“L2”	“五邻体碱基蛋白质”	CDS	15553..16131	基因＝“L2”	“pVII”
CDS	16174..17223	基因＝“L2”	“蛋白质V”	CDS	15553..16131	基因＝“L2”	“pVII”
CDS	16174..17223	基因＝“L2”	“蛋白质V”	多A-位点	17498..17503	“L2的多A-位点”
CDS	17555..18001	基因＝“L3”	“蛋白质VI”	多A-位点	17498..17503	“L2的多A-位点”
CDS	17555..18001	基因＝“L3”	“蛋白质VI”	CDS	18420..21254	基因＝“L3”	“六邻体蛋白质”
CDS	21291..21920	基因＝“L3”	“25K蛋白质酶”	CDS	18420..21254	基因＝“L3”	“六邻体蛋白质”

多A-位点	21940..21945	“L3的多A-位点”
多A-位点	21940..21945	“L3的多A-位点”		多A-位点	互补(21952..21957)	“E2A的多A-位点”
CDS	互补(22006..23559)	基因＝“E2A”	“DNA结合蛋白质”	多A-位点	互补(21952..21957)	“E2A的多A-位点”
CDS	互补(22006..23559)	基因＝“E2A”	“DNA结合蛋白质”	CDS	23590..26076	基因＝“L4”	“六邻体组合相关的100KD蛋白质”
CDS	25778..26375	基因＝“L4”	“22K蛋白质”	CDS	23590..26076	基因＝“L4”	“六邻体组合相关的100KD蛋白质”
CDS	25778..26375	基因＝“L4”	“22K蛋白质”	CDS	连接(25778..26159，26296..26651)	基因＝“L4”	“33KD蛋白质”
CDS	26722..27405	基因＝“L4”	“蛋白质VIII”	CDS	连接(25778..26159，26296..26651)	基因＝“L4”	“33KD蛋白质”
CDS	26722..27405	基因＝“L4”	“蛋白质VIII”	启动子	27087..27092	“E3基因”的TATA框符
CDS	27405..27725	基因＝“E3”	“12.5KD蛋白质”	启动子	27087..27092	“E3基因”的TATA框符
CDS	27405..27725	基因＝“E3”	“12.5KD蛋白质”	CDS	27679..28002	基因＝“E3”	“16KD糖蛋白”
CDS	28104..28622	基因＝“E3”	“18.5蛋白质”	CDS	27679..28002	基因＝“E3”	“16KD糖蛋白”
CDS	28104..28622	基因＝“E3”	“18.5蛋白质”	CDS	28652..29191	基因＝“E3”	“20.1KD蛋白质”
CDS	29204..29773	基因＝“E3”	“20.1KD蛋白质”，复制拷贝	CDS	28652..29191	基因＝“E3”	“20.1KD蛋白质”
CDS	29204..29773	基因＝“E3”	“20.1KD蛋白质”，复制拷贝	CDS	29788..30021	基因＝“E3”	“9K糖蛋白”
CDS	30063..30338	基因＝“E3”	“10.3KD蛋白质”	CDS	29788..30021	基因＝“E3”	“9K糖蛋白”
CDS	30063..30338	基因＝“E3”	“10.3KD蛋白质”	CDS	30310..30747	基因＝“E3”	“14.9KD蛋白质”
CDS	30740..31150	基因＝“E3”	“14KD蛋白质”	CDS	30310..30747	基因＝“E3”	“14.9KD蛋白质”
CDS	30740..31150	基因＝“E3”	“14KD蛋白质”	多A-位点	31183..31188	“E3的多A-位点”
CDS	互补(31194..31355)	基因＝“U”	“U蛋白”	多A-位点	31183..31188	“E3的多A-位点”
CDS	互补(31194..31355)	基因＝“U”	“U蛋白”	CDS	31370..32329	基因＝“L5”	“纤毛蛋白”

多A-位点	互补(32354..32359)	“E4的多A信号”
多A-位点	互补(32354..32359)	“E4的多A信号”		CDS	互补(32370..32621)	基因＝“E4”	“ORF6/7”
CDS	互补(32618..33517)	基因＝“E4”	“33.2KD蛋白质”	CDS	互补(32370..32621)	基因＝“E4”	“ORF6/7”
CDS	互补(32618..33517)	基因＝“E4”	“33.2KD蛋白质”	CDS	互补(33420..33788)	基因＝“E4”	“13.6KD蛋白质”
CDS	33643..34152	基因＝“L5”	“病毒蛋白”	CDS	互补(33420..33788)	基因＝“E4”	“13.6KD蛋白质”
CDS	33643..34152	基因＝“L5”	“病毒蛋白”	CDS	互补(33797..34150)	基因＝“E4”	“11KD蛋白质”
CDS	互补(34147..34536)	基因＝“E4”	“14.3KD蛋白质”	CDS	互补(33797..34150)	基因＝“E4”	“11KD蛋白质”
CDS	互补(34147..34536)	基因＝“E4”	“14.3KD蛋白质”	多A-位点	34561..34566	“L5的多A-位点”
CDS	互补(34578..34955)	基因＝“E4”	“13.9KD蛋白质”	多A-位点	34561..34566	“L5的多A-位点”
CDS	互补(34578..34955)	基因＝“E4”	“13.9KD蛋白质”	启动子	互补(35037..35042)	“E4启动子TATA框符”
重复区	互补(35212..35345)	“倒转末端重复”		启动子	互补(35037..35042)	“E4启动子TATA框符”

表40：Ad3FS_navy(登录No.AY599836；SEQ ID NO：576)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..111	“倒转末端重复”
启动子	480..485	“E1A的TATA框符”		重复区域	1..111	“倒转末端重复”
启动子	480..485	“E1A的TATA框符”		CDS	结合(576..647，1248..1349)	基因＝“E1A”	“6.9K蛋白质”
CDS	结合(576..1062，1248..1453)	基因＝“E1A”	“25K蛋白质”	CDS	结合(576..647，1248..1349)	基因＝“E1A”	“6.9K蛋白质”
CDS	结合(576..1062，1248..1453)	基因＝“E1A”	“25K蛋白质”	CDS	结合(576..1155，1248..1453)	基因＝“E1A”	“29K蛋白质”
多A-位点	1492..1497	“E1A的多A-位点”		CDS	结合(576..1155，1248..1453)	基因＝“E1A”	“29K蛋白质”
多A-位点	1492..1497	“E1A的多A-位点”		启动子	1547..1552	“E1B的TATA框符”
CDS	1601..2137	基因＝“E1B”	“19K小型T抗原蛋白”	启动子	1547..1552	“E1B的TATA框符”
CDS	1601..2137	基因＝“E1B”	“19K小型T抗原蛋白”	CDS	1906..3384	基因＝“E1B”	“55K大型T抗

			原蛋白”
			原蛋白”	启动子	3428..3433	“pIX的TATA框符”
多A-位点	3448..3453	“E1B的多A-信号”		启动子	3428..3433	“pIX的TATA框符”
多A-位点	3448..3453	“E1B的多A-信号”		CDS	3478..3894	基因＝“pIX”	“蛋白质IX”
多A-位点	3907..3912	“pIX的多A-信号”		CDS	3478..3894	基因＝“pIX”	“蛋白质IX”
多A-位点	3907..3912	“pIX的多A-信号”		多A-位点	互补(3923..3928)	“E2B的多A-信号”
CDS	互补(连接(3946..5279，5558..5570))	基因＝“E2B”	“IVa2蛋白质”	多A-位点	互补(3923..3928)	“E2B的多A-信号”
CDS	互补(连接(3946..5279，5558..5570))	基因＝“E2B”	“IVa2蛋白质”	CDS	互补(5049..8417)	基因＝“E2B”	“DNA聚合酶”
CDS	5123..5692	基因＝“假设”	“假设20.6KD早期蛋白质”	CDS	互补(5049..8417)	基因＝“E2B”	“DNA聚合酶”
CDS	5123..5692	基因＝“假设”	“假设20.6KD早期蛋白质”	启动子	5870..5875	“主要晚期启动子的TATA框符”
CDS	6142..6462	基因＝“假设”	“假设11.5K早期蛋白质”	启动子	5870..5875	“主要晚期启动子的TATA框符”
CDS	6142..6462	基因＝“假设”	“假设11.5K早期蛋白质”	CDS	7131..7418	基因＝“假设”	“假设10.4K早期蛋白质”
CDS	7827..8423	基因＝“L1”	“可能的DNA结合病毒蛋白”	CDS	7131..7418	基因＝“假设”	“假设10.4K早期蛋白质”
CDS	7827..8423	基因＝“L1”	“可能的DNA结合病毒蛋白”	CDS	连接(8427..8562)	基因＝“E2B”	“假设12.6K早期蛋白质”
CDS	互补(连接(8420..10387，13840..13848))	基因＝“E2B”	“末端蛋白质前体，akaBettet′s蛋白质”	CDS	连接(8427..8562)	基因＝“E2B”	“假设12.6K早期蛋白质”
CDS	互补(连接(8420..10387，13840..13848))	基因＝“E2B”	“末端蛋白质前体，akaBettet′s蛋白质”	CDS	连接(9532..9846)	基因＝“假设”	“11.3K早期蛋白质”
CDS	9746..10021	基因＝“假设”	“9.7K早期蛋白质”	CDS	连接(9532..9846)	基因＝“假设”	“11.3K早期蛋白质”
CDS	9746..10021	基因＝“假设”	“9.7K早期蛋白质”	misc_RNA	10411..10584	“VA RNA I”
misc_RNA	10422..10595	“VA RNA II”		misc_RNA	10411..10584	“VA RNA I”

CDS	10861..12018	基因＝“L1”	“55K蛋白质”
CDS	10861..12018	基因＝“L1”	“55K蛋白质”	CDS	12043..13809	基因＝“L1”	“六邻体相关蛋白质IIIa前体”
多A-位点	13822..13827	“L1的多A-信号”		CDS	12043..13809	基因＝“L1”	“六邻体相关蛋白质IIIa前体”
多A-位点	13822..13827	“L1的多A-信号”		CDS	13897..15531	基因＝“L2”	“五邻体碱基蛋白质”
CDS	15545..16123	基因＝“L2”	“pVII 21K蛋白质”	CDS	13897..15531	基因＝“L2”	“五邻体碱基蛋白质”
CDS	15545..16123	基因＝“L2”	“pVII 21K蛋白质”	CDS	16166..17218	基因＝“L2”	“L2蛋白质V”
多A-位点	17493..17498	“L2的多A-信号”		CDS	16166..17218	基因＝“L2”	“L2蛋白质V”
多A-位点	17493..17498	“L2的多A-信号”		CDS	17550..18302	基因＝“L3”	“pVI”
CDS	18415..21243	基因＝“L3”	“六邻体蛋白质”	CDS	17550..18302	基因＝“L3”	“pVI”
CDS	18415..21243	基因＝“L3”	“六邻体蛋白质”	CDS	21286..21915	基因＝“L3”	“23K蛋白质酶”
多A-位点	21935..21940	“L3的多A-信号”		CDS	21286..21915	基因＝“L3”	“23K蛋白质酶”
多A-位点	21935..21940	“L3的多A-信号”		CDS	互补(21947..21952)
CDS	互补(22002..23552)	“E2A”	“DNA结合蛋白质”	CDS	互补(21947..21952)
CDS	互补(22002..23552)	“E2A”	“DNA结合蛋白质”	CDS	23583..26057	基因＝“L4”	“100K蛋白质”
CDS	25759..26358	基因＝“L4”	“22K蛋白质”	CDS	23583..26057	基因＝“L4”	“100K蛋白质”
CDS	25759..26358	基因＝“L4”	“22K蛋白质”	CDS	连接(25759..26107，26289..26632)	基因＝“L4”	“33K蛋白质”
CDS	26772..27405	基因＝“L4”	“蛋白质VIII，六邻体相关蛋白质前体”	CDS	连接(25759..26107，26289..26632)	基因＝“L4”	“33K蛋白质”
CDS	26772..27405	基因＝“L4”	“蛋白质VIII，六邻体相关蛋白质前体”	启动子	27067..27072	“E3基因”的TATA框符
CDS	27385..27705	基因＝“E3”	“12.2K糖蛋白”	启动子	27067..27072	“E3基因”的TATA框符
CDS	27385..27705	基因＝“E3”	“12.2K糖蛋白”	CDS	27659..28099	基因＝“E3”	“16K糖蛋白”
CDS	28084..28602	基因＝“E3”	“18.5K糖蛋白”	CDS	27659..28099	基因＝“E3”	“16K糖蛋白”

CDS	28632..29171	基因＝“E3”	“20.1K糖蛋白”
CDS	28632..29171	基因＝“E3”	“20.1K糖蛋白”	CDS	29184..29753	基因＝“E3”	“20.1K糖蛋白”
CDS	29985..30260	基因＝“E3”	“10.3K糖蛋白”	CDS	29184..29753	基因＝“E3”	“20.1K糖蛋白”
CDS	29985..30260	基因＝“E3”	“10.3K糖蛋白”	CDS	30232..30669	基因＝“E3”	“14.9K糖蛋白”
CDS	30662..31072	基因＝“E3”	“15.3K蛋白质”	CDS	30232..30669	基因＝“E3”	“14.9K糖蛋白”
CDS	30662..31072	基因＝“E3”	“15.3K蛋白质”	多A-位点	31105..31110	“E3的多A-信号”
CDS	互补(31116..31277)	基因＝“U外显子”	“U外显子蛋白”	多A-位点	31105..31110	“E3的多A-信号”
CDS	互补(31116..31277)	基因＝“U外显子”	“U外显子蛋白”	CDS	31292..32251	基因＝“L5”	“纤毛蛋白”
多A-位点	互补(32276..32281)	“E4的多A信号”		CDS	31292..32251	基因＝“L5”	“纤毛蛋白”
多A-位点	互补(32276..32281)	“E4的多A信号”		CDS	互补(32292..32543)	基因＝“E4”	“ORF6/7”
CDS	互补(32540..33439)	基因＝“E4”	“34K蛋白质”	CDS	互补(32292..32543)	基因＝“E4”	“ORF6/7”
CDS	互补(32540..33439)	基因＝“E4”	“34K蛋白质”	CDS	互补(33342..33710)	基因＝“E4”	“13.6K蛋白质”
CDS	33565..34074	基因＝“L5”	“DNA结合病毒蛋白”	CDS	互补(33342..33710)	基因＝“E4”	“13.6K蛋白质”
CDS	33565..34074	基因＝“L5”	“DNA结合病毒蛋白”	CDS	互补(33719..34072)	基因＝“E4”	“ORF3”
CDS	互补(34069..34458)	基因＝“E4”	“14.3K蛋白质”	CDS	互补(33719..34072)	基因＝“E4”	“ORF3”
CDS	互补(34069..34458)	基因＝“E4”	“14.3K蛋白质”	多A-位点	34483..34488	“L5的多A-信号”
CDS	互补(34500..34877)	基因＝“E4”	“13.9K蛋白质”	多A-位点	34483..34488	“L5的多A-信号”
CDS	互补(34500..34877)	基因＝“E4”	“13.9K蛋白质”	启动子	互补(34959..34964)	“E4基因的TATA框符”	启动子
重复区	互补(35155..35265)	“倒转末端重复”	重复区域	启动子	互补(34959..34964)	“E4基因的TATA框符”	启动子

表41：Ad4(登录No.AY594253；SEQ+ ID NO：577)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..116	“ITR”

启动子	472..511	“E1A”
启动子	472..511	“E1A”		CDS	576..1154	基因＝“E1A”	“ORF1：假设性”
CDS	结合(576..650，1236..1340)	基因＝“E1A”	“早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白，GI：17227344	CDS	576..1154	基因＝“E1A”	“ORF1：假设性”
CDS	结合(576..650，1236..1340)	基因＝“E1A”	“早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白，GI：17227344	CDS	结合(576..1142，1235..1441)	基因＝“E1A”	“早期E1A 28KD蛋白”相似于猴腺病毒2528.2kDa蛋白，GI：17227342
CDS	结合(576..1049，1235..1441)	基因＝“E1A”	“早期E1A 24.6KD蛋白”相似于猴腺病毒2524.8kDa蛋白，GI：17227343	CDS	结合(576..1142，1235..1441)	基因＝“E1A”	“早期E1A 28KD蛋白”相似于猴腺病毒2528.2kDa蛋白，GI：17227342
CDS	结合(576..1049，1235..1441)	基因＝“E1A”	“早期E1A 24.6KD蛋白”相似于猴腺病毒2524.8kDa蛋白，GI：17227343	多A-信号	1499..1504	“E1A”
启动子	1553..1592	“E1B”		多A-信号	1499..1504	“E1A”
启动子	1553..1592	“E1B”		CDS	结合(1600..2001，2003..2029)	基因＝“E1B”	“小型T抗原蛋白(E1B19K)”
CDS	1600..2115	基因＝“E1B”	“早期E1B 20KD蛋白”相似于猴腺病毒2520.5kDa蛋白，GI：17227345	CDS	结合(1600..2001，2003..2029)	基因＝“E1B”	“小型T抗原蛋白(E1B19K)”
CDS	1600..2115	基因＝“E1B”	“早期E1B 20KD蛋白”相似于猴腺病毒2520.5kDa蛋白，GI：17227345	CDS	结合(1905..2123，3259..3276)	基因＝“E1B”	“早期E1B 8.2KD蛋白”相似于猴腺病毒2510.1kDa蛋白，GI：17227348
CDS	1905..3356	基因＝“E1B”	“大型T抗原”相似于猴腺病毒2554.7kDa蛋白，GI：17227347	CDS	结合(1905..2123，3259..3276)	基因＝“E1B”	“早期E1B 8.2KD蛋白”相似于猴腺病毒2510.1kDa蛋白，GI：17227348
CDS	1905..3356	基因＝“E1B”	“大型T抗原”相似于猴腺病毒2554.7kDa蛋白，GI：17227347	CDS	结合(1905..2123，3141..3356)	基因＝“E1B”	“早期E1B 16.8KD蛋白”相似于猴腺病毒2518.5kDa蛋白，GI：17227346
CDS	3141..3869	基因＝“IX”	“蛋白质IX(六邻体相关蛋白质)”相似于猴腺病毒25pIX，GI：17227349	CDS	结合(1905..2123，3141..3356)	基因＝“E1B”	“早期E1B 16.8KD蛋白”相似于猴腺病毒2518.5kDa蛋白，GI：17227346
CDS	3141..3869	基因＝“IX”	“蛋白质IX(六邻体相关蛋白质)”相似于猴腺病毒25pIX，GI：17227349	多A-位点	3880..3885	“E1B和IX”

多A-位点	互补(3902..3907)	“E2B和IVa2”
多A-位点	互补(3902..3907)	“E2B和IVa2”		CDS	互补(连接(3930..5263，5542..5554))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”相似于猴腺病毒25pIVa2，GI：17227350
CDS	互补(连接(5033..8605，12212..12220))	基因＝“E2B(POL)”	“DNA聚合酶”相似于猴腺病毒25TPA：pol，GI：33694808	CDS	互补(连接(3930..5263，5542..5554))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”相似于猴腺病毒25pIVa2，GI：17227350
CDS	互补(连接(5033..8605，12212..12220))	基因＝“E2B(POL)”	“DNA聚合酶”相似于猴腺病毒25TPA：pol，GI：33694808	CDS	5105..5674	基因＝“E2B”	“19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白，GI：58522
CDS	6126..6446	基因＝“E2B”	“11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白，GI：58524	CDS	5105..5674	基因＝“E2B”	“19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白，GI：58522
CDS	6126..6446	基因＝“E2B”	“11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白，GI：58524	CDS	7814..8407	基因＝“L1”	“DNA结合蛋白质(病毒蛋白)”相似于猴腺病毒21.9KD蛋白，GI：17227351
CDS	连接(7814..7819，8536..8928)	基因＝“E2B”	“14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白，GI：58528	CDS	7814..8407	基因＝“L1”	“DNA结合蛋白质(病毒蛋白)”相似于猴腺病毒21.9KD蛋白，GI：17227351
CDS	连接(7814..7819，8536..8928)	基因＝“E2B”	“14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白，GI：58528	CDS	互补(连接(8404..10323，12212..12220))	基因＝“E2B(pTP)”	“前体末端蛋白质”相似于猴腺病毒25TPA：pTP，GI：33694809
misc_RNA	10356..10514	“病毒相关RNAI”	“VA RNAI，159nt”	CDS	互补(连接(8404..10323，12212..12220))	基因＝“E2B(pTP)”	“前体末端蛋白质”相似于猴腺病毒25TPA：pTP，GI：33694809
misc_RNA	10356..10514	“病毒相关RNAI”	“VA RNAI，159nt”	启动子	互补(10457..10496)	“E2B”
启动子	10541..10580	“L1”		启动子	互补(10457..10496)	“E2B”
启动子	10541..10580	“L1”		misc_RNA	10575..10743	“病毒相关RNAII”	“VA RNA-II，169nt”
CDS	10765..11937	基因＝“L1(52k)”	“52K蛋白”相似于猴腺病毒2542.9kDa(52k)蛋白，GI：17227352	misc_RNA	10575..10743	“病毒相关RNAII”	“VA RNA-II，169nt”
CDS	10765..11937	基因＝“L1(52k)”	“52K蛋白”相似于猴腺病毒2542.9kDa(52k)蛋白，GI：17227352	多A-信号	11942..11947	“L1(52k)”
CDS	11961..13736	基因＝“L1(IIIa)”	“蛋白质IIIa”相似于	多A-信号	11942..11947	“L1(52k)”

			猴腺病毒25TPA：pIIIa，GI：33694811
			猴腺病毒25TPA：pIIIa，GI：33694811	多A-信号	13749..13754	“L1(IIIa)”
启动子	13758..13797	“L2”		多A-信号	13749..13754	“L1(IIIa)”
启动子	13758..13797	“L2”		CDS	13815..15422	基因＝“L2(五邻体)”	“五邻体蛋白质(蛋白质III)”相似于猴腺病毒25p III，GI：17227353
多A-信号	15425..15430	“L2(五邻体)”		CDS	13815..15422	基因＝“L2(五邻体)”	“五邻体蛋白质(蛋白质III)”相似于猴腺病毒25p III，GI：17227353
多A-信号	15425..15430	“L2(五邻体)”		CDS	15426..16007	基因＝“L2(pVII)”	“大核蛋白质(蛋白质VII)”相似于猴腺病毒25pVII，GI：17227354
CDS	16055..17080	基因＝“L2(pV)”	“小核蛋白质(蛋白质V)”相似于猴腺病毒25TPA：pV，GI：33694814	CDS	15426..16007	基因＝“L2(pVII)”	“大核蛋白质(蛋白质VII)”相似于猴腺病毒25pVII，GI：17227354
CDS	16055..17080	基因＝“L2(pV)”	“小核蛋白质(蛋白质V)”相似于猴腺病毒25TPA：pV，GI：33694814	CDS	17103..17336	基因＝“L2(pX)”	“蛋白质X(蛋白质mu)”相似于猴腺病毒25TPA：pX，GI：33694815
多A-信号	17357..17362	“L2(pX)”		CDS	17103..17336	基因＝“L2(pX)”	“蛋白质X(蛋白质mu)”相似于猴腺病毒25TPA：pX，GI：33694815
多A-信号	17357..17362	“L2(pX)”		CDS	17368..18141	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白质)”相似于猴腺病毒25pVI，GI：17227356
CDS	18248..21058	基因＝“L3(六邻体)”	“六邻体蛋白质(蛋白质II)”相似于猴腺病毒25pII(六邻体)，GI：17227357	CDS	17368..18141	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白质)”相似于猴腺病毒25pVI，GI：17227356
CDS	18248..21058	基因＝“L3(六邻体)”	“六邻体蛋白质(蛋白质II)”相似于猴腺病毒25pII(六邻体)，GI：17227357	CDS	21082..21702	基因＝“L3(23k)”	“后期L323k蛋白酶(Adenain)”相似于猴腺病毒25蛋白酶类，GI：33694818
多A-信号	21725..21730	“L3”		CDS	21082..21702	基因＝“L3(23k)”	“后期L323k蛋白酶(Adenain)”相似于猴腺病毒25蛋白酶类，GI：33694818
多A-信号	21725..21730	“L3”		多A-信号	互补(21767..21772)	“E2A”
CDS	互补(21774..23312)	基因＝“E2A(DBP)”	“早期E2A DNA结合蛋白”相似于猴腺病	多A-信号	互补(21767..21772)	“E2A”

			毒25DNA结合蛋白，GI：17227358
			毒25DNA结合蛋白，GI：17227358	CDS	23341..25716	基因＝“L4(100k)”	“100k蛋白质”相似于猴腺病毒25TPA：100k，GI：33694820
启动子	互补(23345..23384)	“E2A”		CDS	23341..25716	基因＝“L4(100k)”	“100k蛋白质”相似于猴腺病毒25TPA：100k，GI：33694820
启动子	互补(23345..23384)	“E2A”		CDS	25439..25978	基因＝“L4(22k)”	“22k蛋白质”相似于猴腺病毒25TPA：22k，GI：33694822
CDS	连接(25439..25756，25926..26249)	基因＝“L4(33k)”	“33k蛋白质”相似于猴腺病毒25TPA：33k(24.3kDa)，GI：17227359	CDS	25439..25978	基因＝“L4(22k)”	“22k蛋白质”相似于猴腺病毒25TPA：22k，GI：33694822
CDS	连接(25439..25756，25926..26249)	基因＝“L4(33k)”	“33k蛋白质”相似于猴腺病毒25TPA：33k(24.3kDa)，GI：17227359	CDS	26318..27001	基因＝“L4(pVIII)”	“L4蛋白质VIII”相似于猴腺病毒25pVIII，GI：17227360
CDS	27002..27322	基因＝“E3”	“E312.1kDa蛋白质”相似于猴腺病毒2511.6kDa蛋白质，GI：17227361	CDS	26318..27001	基因＝“L4(pVIII)”	“L4蛋白质VIII”相似于猴腺病毒25pVIII，GI：17227360
CDS	27002..27322	基因＝“E3”	“E312.1kDa蛋白质”相似于猴腺病毒2511.6kDa蛋白质，GI：17227361	CDS	27276..27908	基因＝“E3”	“E323.3kDa蛋白质”相似于猴腺病毒25TPA：E3CR1-α1，GI：33694825
CDS	27890..28414	基因＝“E3”	“E319kDa蛋白质”相似于猴腺病毒25TPA：E3gp19k(19.3kDa)，GI：33694826	CDS	27276..27908	基因＝“E3”	“E323.3kDa蛋白质”相似于猴腺病毒25TPA：E3CR1-α1，GI：33694825
CDS	27890..28414	基因＝“E3”	“E319kDa蛋白质”相似于猴腺病毒25TPA：E3gp19k(19.3kDa)，GI：33694826	CDS	28445..29107	基因＝“E3”	“E324.8kDa蛋白质”相似于猴腺病毒2522.3kDa蛋白质，TPA：E3CR1-γ1，GI：17227364
CDS	29275..29439	基因＝“E3”	“E36.3kDa蛋白质”	CDS	28445..29107	基因＝“E3”	“E324.8kDa蛋白质”相似于猴腺病毒2522.3kDa蛋白质，TPA：E3CR1-γ1，GI：17227364
CDS	29275..29439	基因＝“E3”	“E36.3kDa蛋白质”	CDS	29436..30260	基因＝“E3”	“E329.7kDa蛋白质”相似于猴腺病毒25TPA：E3CR1-δ1，GI：33694829

CDS	30269..30544	基因＝“E3”	“E310.4kDa蛋白质”相似于猴腺病毒259.9kDa蛋白质，GI：17227365
CDS	30269..30544	基因＝“E3”	“E310.4kDa蛋白质”相似于猴腺病毒259.9kDa蛋白质，GI：17227365	CDS	30550..30990	基因＝“E3”	“E314.5kDa蛋白质”相似于猴腺病毒2515.6kDa蛋白质，GI：17227366
CDS	30983..31384	基因＝“E3”	“E314.7kDa蛋白质”相似于猴腺病毒2514.7kDa蛋白质，GI：17227367	CDS	30550..30990	基因＝“E3”	“E314.5kDa蛋白质”相似于猴腺病毒2515.6kDa蛋白质，GI：17227366
CDS	30983..31384	基因＝“E3”	“E314.7kDa蛋白质”相似于猴腺病毒2514.7kDa蛋白质，GI：17227367	多A-信号	31424..31429	“E3”
启动子	31473..31512	“L5”		多A-信号	31424..31429	“E3”
启动子	31473..31512	“L5”		CDS	31645..32922	基因＝“L5(纤毛)”	“纤毛蛋白质”相似于猴腺病毒25pIV(TPA：纤毛)，GI：17227368
多A-信号	32982..32987	“L5”		CDS	31645..32922	基因＝“L5(纤毛)”	“纤毛蛋白质”相似于猴腺病毒25pIV(TPA：纤毛)，GI：17227368
多A-信号	32982..32987	“L5”		多A-信号	互补(32998..33003)	“E4”
CDS	互补(33018..33212)	基因＝“E4”	“E47.4KDa蛋白质”相似于猴腺病毒25Ad9类ORF7蛋白质，GI：17227369	多A-信号	互补(32998..33003)	“E4”
CDS	互补(33018..33212)	基因＝“E4”	“E47.4KDa蛋白质”相似于猴腺病毒25Ad9类ORF7蛋白质，GI：17227369	CDS	互补(连接(33018..33266，33992..34165))	基因＝“E4”	“E415.9KD蛋白质”相似于猴腺病毒25TPA：E4ORF6/7，GI：33694835
CDS	互补(33266..34165)	基因＝“E4”	“E434.6KD蛋白质”相似于猴腺病毒2533kDa蛋白质，GI：17227370	CDS	互补(连接(33018..33266，33992..34165))	基因＝“E4”	“E415.9KD蛋白质”相似于猴腺病毒25TPA：E4ORF6/7，GI：33694835
CDS	互补(33266..34165)	基因＝“E4”	“E434.6KD蛋白质”相似于猴腺病毒2533kDa蛋白质，GI：17227370	CDS	互补(34068..34436)	基因＝“E4”	“E414.1KD蛋白质”相似于猴腺病毒2513.2kDa蛋白质，GI：17227371
多A-信号	互补(34388..34393)	“E4”		CDS	互补(34068..34436)	基因＝“E4”	“E414.1KD蛋白质”相似于猴腺病毒2513.2kDa蛋白质，GI：17227371
多A-信号	互补(34388..34393)	“E4”		CDS	互补	基因＝“E4”	“E413.7KD蛋白质”

	(34445..34798)		相似于猴腺病毒2512.8kDa蛋白质，GI：17227372
	(34445..34798)		相似于猴腺病毒2512.8kDa蛋白质，GI：17227372	CDS	互补(34795..35184)	基因＝“E4”	“E414.6KD蛋白质”相似于猴腺病毒2514.2kDa蛋白质，GI：17227373
CDS	互补(35232..35606)	基因＝“E4”	“E413.5KD蛋白质”相似于猴腺病毒25TPA：E4ORF1，GI：33694840	CDS	互补(34795..35184)	基因＝“E4”	“E414.6KD蛋白质”相似于猴腺病毒2514.2kDa蛋白质，GI：17227373
CDS	互补(35232..35606)	基因＝“E4”	“E413.5KD蛋白质”相似于猴腺病毒25TPA：E4ORF1，GI：33694840	重复单元	互补(35875..35990)	“ITR”

表42：Ad4vaccine(登录号No.AY594254；SEQ ID NO：578)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..116	“ITR”
启动子	472..511	“E1A”		重复区域	1..116	“ITR”
启动子	472..511	“E1A”		CDS	576..1154	基因＝“E1A”	“ORF1：假设性”
CDS	结合(576..650，1236..1340)	基因＝“E1A”	“早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白，GI：17227344	CDS	576..1154	基因＝“E1A”	“ORF1：假设性”
CDS	结合(576..650，1236..1340)	基因＝“E1A”	“早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白，GI：17227344	CDS	结合(576..1142，1235..1441)	基因＝“E1A”	“早期E1A 28KD蛋白”相似于猴腺病毒2528.2kDa蛋白，GI：17227342
CDS	结合(576..1049，1235..1441)	基因＝“E1A”	“早期E1A 24.6KD蛋白”相似于猴腺病毒2524.8kDa蛋白，GI：17227343	CDS	结合(576..1142，1235..1441)	基因＝“E1A”	“早期E1A 28KD蛋白”相似于猴腺病毒2528.2kDa蛋白，GI：17227342
CDS	结合(576..1049，1235..1441)	基因＝“E1A”	“早期E1A 24.6KD蛋白”相似于猴腺病毒2524.8kDa蛋白，GI：17227343	多A-信号	1499..1504	“E1A”
启动子	1553..1592	“E1B”		多A-信号	1499..1504	“E1A”
启动子	1553..1592	“E1B”		CDS	结合(1600..2001，2003..2029)	基因＝“E1B”	“小型T抗原蛋白(E1B 19K)”
CDS	1600..2115	基因＝“E1B”	“早期E1B 20KD蛋白”相似于猴腺病毒2520.5kDa蛋白，GI：	CDS	结合(1600..2001，2003..2029)	基因＝“E1B”	“小型T抗原蛋白(E1B 19K)”

			17227345
			17227345	CDS	结合(1905..2153，3259..3276)	基因＝“E1B”	“早期E1B 8.2KD蛋白”相似于猴腺病毒2510.1kDa蛋白，GI：17227348
CDS	1905..3356	基因＝“E1B”	“大型T抗原”相似于猴腺病毒2554.7kDa蛋白，GI：17227347	CDS	结合(1905..2153，3259..3276)	基因＝“E1B”	“早期E1B 8.2KD蛋白”相似于猴腺病毒2510.1kDa蛋白，GI：17227348
CDS	1905..3356	基因＝“E1B”	“大型T抗原”相似于猴腺病毒2554.7kDa蛋白，GI：17227347	CDS	结合(1905..2153，3141..3356)	基因＝“E1B”	“早期E1B 16.8KD蛋白”相似于猴腺病毒2518.5kDa蛋白，GI：17227346
CDS	3141..3869	基因＝“IX”	“蛋白质IX(六邻体相关蛋白质)”相似于猴腺病毒25pIX，GI：17227349	CDS	结合(1905..2153，3141..3356)	基因＝“E1B”	“早期E1B 16.8KD蛋白”相似于猴腺病毒2518.5kDa蛋白，GI：17227346
CDS	3141..3869	基因＝“IX”	“蛋白质IX(六邻体相关蛋白质)”相似于猴腺病毒25pIX，GI：17227349	多A-位点	3880..3885	“E1B和IX”
多A-位点	互补(3902..3907)	“E2B和IVa2”		多A-位点	3880..3885	“E1B和IX”
多A-位点	互补(3902..3907)	“E2B和IVa2”		CDS	互补(连接(3930..5263，5542..5554))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”相似于猴腺病毒25pIVa2，GI：17227350
CDS	互补(连接(5033..8605，12212..12220))	基因＝“E2B(POL)”	“DNA聚合酶”相似于猴腺病毒25TPA：pol，GI：33694808	CDS	互补(连接(3930..5263，5542..5554))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”相似于猴腺病毒25pIVa2，GI：17227350
CDS	互补(连接(5033..8605，12212..12220))	基因＝“E2B(POL)”	“DNA聚合酶”相似于猴腺病毒25TPA：pol，GI：33694808	CDS	5105..5674	基因＝“E2B”	“19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白，GI：58522
CDS	6126..6446	基因＝“E2B”	“11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白，GI：58524	CDS	5105..5674	基因＝“E2B”	“19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白，GI：58522
CDS	6126..6446	基因＝“E2B”	“11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白，GI：58524	CDS	7814..8407	基因＝“L1”	“DNA结合蛋白质(病毒蛋白)”相似于猴腺病毒21.9KD蛋白，GI：17227351
CDS	连接(7814..7819，8536..8928)	基因＝“E2B”	“14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白，GI：	CDS	7814..8407	基因＝“L1”	“DNA结合蛋白质(病毒蛋白)”相似于猴腺病毒21.9KD蛋白，GI：17227351

			58528
			58528	CDS	互补(连接(8404..10323，12212..12220))	基因＝“E2B(pTP)”	“前体末端蛋白质”相似于猴腺病毒25TPA：pTP，GI：33694809
misc_RNA	10356..10514	“病毒相关RNAI”	“VARNAI，159nt”	CDS	互补(连接(8404..10323，12212..12220))	基因＝“E2B(pTP)”	“前体末端蛋白质”相似于猴腺病毒25TPA：pTP，GI：33694809
misc_RNA	10356..10514	“病毒相关RNAI”	“VARNAI，159nt”	启动子	互补(10457..10496)	“E2B”
启动子	10541..10580	“L1”		启动子	互补(10457..10496)	“E2B”
启动子	10541..10580	“L1”		misc_RNA	10575..10743	“病毒相关RNAII”	“VA RNA-II，169nt”
CDS	10765..11937	基因＝“L1(52k)”	“52K蛋白”相似于猴腺病毒2542.9kDa(52k)蛋白，GI：17227352	misc_RNA	10575..10743	“病毒相关RNAII”	“VA RNA-II，169nt”
CDS	10765..11937	基因＝“L1(52k)”	“52K蛋白”相似于猴腺病毒2542.9kDa(52k)蛋白，GI：17227352	多A-信号	11942..11947	“L1(52k)”
CDS	11961..13736	基因＝“L1(IIIa)”	“蛋白质IIIa”相似于猴腺病毒25TPA：pIIIa，GI：33694811	多A-信号	11942..11947	“L1(52k)”
CDS	11961..13736	基因＝“L1(IIIa)”	“蛋白质IIIa”相似于猴腺病毒25TPA：pIIIa，GI：33694811	多A-信号	13749..13754	“L1(IIIa)”
启动子	13758..13797	“L2”		多A-信号	13749..13754	“L1(IIIa)”
启动子	13758..13797	“L2”		CDS	13815..15422	基因＝“L2(五邻体)”	“五邻体蛋白质(蛋白质III)”相似于猴腺病毒25p III，GI：17227353
多A-信号	15425..15430	“L2(五邻体)”		CDS	13815..15422	基因＝“L2(五邻体)”	“五邻体蛋白质(蛋白质III)”相似于猴腺病毒25p III，GI：17227353
多A-信号	15425..15430	“L2(五邻体)”		CDS	15426..16007	基因＝“L2(pVII)”	“大核蛋白质(蛋白质VII)”相似于猴腺病毒25pVII，GI：17227354
CDS	16055..17080	基因＝“L2(pV)”	“小核蛋白质(蛋白质V)”相似于猴腺病毒25TPA：pV，GI：33694814	CDS	15426..16007	基因＝“L2(pVII)”	“大核蛋白质(蛋白质VII)”相似于猴腺病毒25pVII，GI：17227354
CDS	16055..17080	基因＝“L2(pV)”	“小核蛋白质(蛋白质V)”相似于猴腺病毒25TPA：pV，GI：33694814	CDS	17103..17336	基因＝“L2(pX)”	“蛋白质X(蛋白质mu)”相似于猴腺病毒25TPA：pX，GI：33694815
多A-信号	17357..17362	“L2(pX)”		CDS	17103..17336	基因＝“L2(pX)”	“蛋白质X(蛋白质mu)”相似于猴腺病毒25TPA：pX，GI：33694815

CDS	17368..18141	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白质)”相似于猴腺病毒25pVI，GI：17227356
CDS	17368..18141	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白质)”相似于猴腺病毒25pVI，GI：17227356	CDS	18248..21058	基因＝“L3(六邻体)”	“六邻体蛋白质(蛋白质II)”相似于猴腺病毒25pII(六邻体)，GI：17227357
CDS	21082..21702	基因＝“L3(23k)”	“后期L323k蛋白酶(Adenain)”相似于猴腺病毒25蛋白酶类，GI：33694818	CDS	18248..21058	基因＝“L3(六邻体)”	“六邻体蛋白质(蛋白质II)”相似于猴腺病毒25pII(六邻体)，GI：17227357
CDS	21082..21702	基因＝“L3(23k)”	“后期L323k蛋白酶(Adenain)”相似于猴腺病毒25蛋白酶类，GI：33694818	多A-信号	21725..21730	“L3”
多A-信号	互补(21767..21772)	“E2A”		多A-信号	21725..21730	“L3”
多A-信号	互补(21767..21772)	“E2A”		CDS	互补(21774..23312)	基因＝“E2A(DBP)”	“早期E2A DNA结合蛋白”相似于猴腺病毒25DNA结合蛋白，GI：17227358
CDS	23341..25716	基因＝“L4(100k)”	“100k蛋白质”相似于猴腺病毒25TPA：100k，GI：33694820	CDS	互补(21774..23312)	基因＝“E2A(DBP)”	“早期E2A DNA结合蛋白”相似于猴腺病毒25DNA结合蛋白，GI：17227358
CDS	23341..25716	基因＝“L4(100k)”	“100k蛋白质”相似于猴腺病毒25TPA：100k，GI：33694820	启动子	互补(23345..23384)	“E2A”
CDS	25439..25978	基因＝“L4(22k)”	“22k蛋白质”相似于猴腺病毒25TPA：22k，GI：33694822	启动子	互补(23345..23384)	“E2A”
CDS	25439..25978	基因＝“L4(22k)”	“22k蛋白质”相似于猴腺病毒25TPA：22k，GI：33694822	CDS	连接(25439..25756，25926..26252)	基因＝“L4(33k)”	“33k蛋白质”相似于猴腺病毒25TPA：33k(24.3kDa)，GI：17227359
CDS	26321..27004	基因＝“L4(pVIII)”	“L4蛋白质VIII”相似于猴腺病毒25pVIII，GI：17227360	CDS	连接(25439..25756，25926..26252)	基因＝“L4(33k)”	“33k蛋白质”相似于猴腺病毒25TPA：33k(24.3kDa)，GI：17227359
CDS	26321..27004	基因＝“L4(pVIII)”	“L4蛋白质VIII”相似于猴腺病毒25pVIII，GI：17227360	CDS	27005..27325	基因＝“E3”	“E312.1kDa蛋白质”相似于猴腺病毒2511.6kDa蛋白质，GI：17227361
CDS	27279..27911	基因＝“E3”	“E323.3kDa蛋白质”	CDS	27005..27325	基因＝“E3”	“E312.1kDa蛋白质”相似于猴腺病毒2511.6kDa蛋白质，GI：17227361

			相似于猴腺病毒25TPA：E3CR1-α1，GI：33694825
			相似于猴腺病毒25TPA：E3CR1-α1，GI：33694825	CDS	27893..28417	基因＝“E3”	“E319kDa蛋白质”相似于猴腺病毒25TPA：E3gp19k(19.3kDa)，GI：33694826
CDS	28449..29111	基因＝“E3”	“E324.8kDa蛋白质”相似于猴腺病毒2522.3kDa蛋白质，TPA：E3CR1-γ1，GI：17227364	CDS	27893..28417	基因＝“E3”	“E319kDa蛋白质”相似于猴腺病毒25TPA：E3gp19k(19.3kDa)，GI：33694826
CDS	28449..29111	基因＝“E3”	“E324.8kDa蛋白质”相似于猴腺病毒2522.3kDa蛋白质，TPA：E3CR1-γ1，GI：17227364	CDS	29279..29443	基因＝“E3”	“E36.3kDa蛋白质”
CDS	29440..30264	基因＝“E3”	“E329.7kDa蛋白质”相似于猴腺病毒25TPA：E3CR1-δ1，GI：33694829	CDS	29279..29443	基因＝“E3”	“E36.3kDa蛋白质”
CDS	29440..30264	基因＝“E3”	“E329.7kDa蛋白质”相似于猴腺病毒25TPA：E3CR1-δ1，GI：33694829	CDS	30273..30548	基因＝“E3”	“E310.4kDa蛋白质”相似于猴腺病毒259.9kDa蛋白质，GI：17227365
CDS	30554..30994	基因＝“E3”	“E314.5kDa蛋白质”相似于猴腺病毒2515.6kDa蛋白质，GI：17227366	CDS	30273..30548	基因＝“E3”	“E310.4kDa蛋白质”相似于猴腺病毒259.9kDa蛋白质，GI：17227365
CDS	30554..30994	基因＝“E3”	“E314.5kDa蛋白质”相似于猴腺病毒2515.6kDa蛋白质，GI：17227366	CDS	30987..31388	基因＝“E3”	“E314.7kDa蛋白质”相似于猴腺病毒2514.7kDa蛋白质，GI：17227367
多A-信号	31428..31433	“E3”		CDS	30987..31388	基因＝“E3”	“E314.7kDa蛋白质”相似于猴腺病毒2514.7kDa蛋白质，GI：17227367
多A-信号	31428..31433	“E3”		启动子	31477..31516	“L5”
CDS	31649..32926	基因＝“L5(纤毛)”	“纤毛蛋白质”相似于猴腺病毒25pIV(TPA：纤毛)，GI：17227368	启动子	31477..31516	“L5”
CDS	31649..32926	基因＝“L5(纤毛)”	“纤毛蛋白质”相似于猴腺病毒25pIV(TPA：纤毛)，GI：17227368	多A-信号	32986..32991	“L5”
多A-信号	互补(33002..33007)	“E4”		多A-信号	32986..32991	“L5”
多A-信号	互补(33002..33007)	“E4”		CDS	互补(33022..33216)	基因＝“E4”	“E47.4KDa蛋白质”相似于猴腺病毒25

			Ad9类ORF7蛋白质，GI：17227369
			Ad9类ORF7蛋白质，GI：17227369	CDS	互补(连接(33022..33270，33996..34169))	基因＝“E4”	“E415.9KD蛋白质”相似于猴腺病毒25TPA：E4ORF6/7，GI：33694835
CDS	互补(33270..34169)	基因＝“E4”	“E434.6KD蛋白质”相似于猴腺病毒2533kDa蛋白质，GI：17227370	CDS	互补(连接(33022..33270，33996..34169))	基因＝“E4”	“E415.9KD蛋白质”相似于猴腺病毒25TPA：E4ORF6/7，GI：33694835
CDS	互补(33270..34169)	基因＝“E4”	“E434.6KD蛋白质”相似于猴腺病毒2533kDa蛋白质，GI：17227370	CDS	互补(34072..34440)	基因＝“E4”	“E414.1KD蛋白质”相似于猴腺病毒2513.2kDa蛋白质，GI：17227371
多A-信号	互补(34392..34397)	“E4”		CDS	互补(34072..34440)	基因＝“E4”	“E414.1KD蛋白质”相似于猴腺病毒2513.2kDa蛋白质，GI：17227371
多A-信号	互补(34392..34397)	“E4”		CDS	互补(34449..34802)	基因＝“E4”	“E413.7KD蛋白质”相似于猴腺病毒2512.8kDa蛋白质，GI：17227372
CDS	互补(34799..35188)	基因＝“E4”	“E414.6KD蛋白质”相似于猴腺病毒2514.2kDa蛋白质，GI：17227373	CDS	互补(34449..34802)	基因＝“E4”	“E413.7KD蛋白质”相似于猴腺病毒2512.8kDa蛋白质，GI：17227372
CDS	互补(34799..35188)	基因＝“E4”	“E414.6KD蛋白质”相似于猴腺病毒2514.2kDa蛋白质，GI：17227373	CDS	互补(35236..35610)	基因＝“E4”	“E413.5KD蛋白质”相似于猴腺病毒25TPA：E40RF1，GI：33694840
重复单元	互补(35879..35994)	“ITR”		CDS	互补(35236..35610)	基因＝“E4”	“E413.5KD蛋白质”相似于猴腺病毒25TPA：E40RF1，GI：33694840

表43：Ad4FS_navy(登录号No.AY599835；SEQ ID NO：579)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..208	“ITR”
CDS	576..1121	基因＝“E1A”	“ORF1：假设性”	重复区域	1..208	“ITR”
CDS	576..1121	基因＝“E1A”	“ORF1：假设性”	CDS	结合(576..650，1203..1307)	基因＝“E1A”	“早期E1A 6.8KD蛋白”相似于猴腺病毒25 11kDa蛋白，GI：17227344

CDS	结合(576..1109，202..1408)	基因＝“E1A”	“早期E1A 27KD蛋白”相似于猴腺病毒2528.2kDa蛋白，GI：17227342
CDS	结合(576..1109，202..1408)	基因＝“E1A”	“早期E1A 27KD蛋白”相似于猴腺病毒2528.2kDa蛋白，GI：17227342	CDS	结合(576..1016，202..1408)	基因＝“E1A”	“早期E1A 23.5KD蛋白”相似于猴腺病毒2524.8kDa蛋白，GI：17227343
多A-信号	1464..1469	“E1A”		CDS	结合(576..1016，202..1408)	基因＝“E1A”	“早期E1A 23.5KD蛋白”相似于猴腺病毒2524.8kDa蛋白，GI：17227343
多A-信号	1464..1469	“E1A”		启动子	1518..1557	“E1B”
CDS	结合(1565..1966，1968..1994)	基因＝“E1B”	“小型T抗原”	启动子	1518..1557	“E1B”
CDS	结合(1565..1966，1968..1994)	基因＝“E1B”	“小型T抗原”	CDS	1565..2119	基因＝“E1B”	“早期E1B 21.5KD蛋白”标准命名-猴腺病毒2520.5kDa蛋白，GI：17227345
CDS	连接(1870..2127，3145..3360)	基因＝“E1B”	“早期E1B 9KD蛋白”相似于猴腺病毒2510.1kDa蛋白，GI：17227348	CDS	1565..2119	基因＝“E1B”	“早期E1B 21.5KD蛋白”标准命名-猴腺病毒2520.5kDa蛋白，GI：17227345
CDS	连接(1870..2127，3145..3360)	基因＝“E1B”	“早期E1B 9KD蛋白”相似于猴腺病毒2510.1kDa蛋白，GI：17227348	CDS	1870..3360	基因＝“E1B”	“大型T抗原”相似于猴腺病毒2554.7kDa蛋白，GI：17227347
CDS	结合(1870..2157，3145..3360)	基因＝“E1B”	“早期E1B 17.9KD蛋白”相似于猴腺病毒2518.5kDa蛋白，GI：17227346	CDS	1870..3360	基因＝“E1B”	“大型T抗原”相似于猴腺病毒2554.7kDa蛋白，GI：17227347
CDS	结合(1870..2157，3145..3360)	基因＝“E1B”	“早期E1B 17.9KD蛋白”相似于猴腺病毒2518.5kDa蛋白，GI：17227346	CDS	3444..3872	基因＝“IX”	“蛋白质IX(六邻体相关蛋白质)”
多A-信号	3882..3887	“E1B和IX”		CDS	3444..3872	基因＝“IX”	“蛋白质IX(六邻体相关蛋白质)”
多A-信号	3882..3887	“E1B和IX”		多A-信号	互补(3904..3909)	“E2B和IVa2”
CDS	互补(连接(3935..5268，5547..5559))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”	多A-信号	互补(3904..3909)	“E2B和IVa2”
CDS	互补(连接(3935..5268，5547..5559))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”	CDS	互补(连接(5038..8610，12152..12160))	基因＝“E2B(POL)”	“DNA聚合酶”
CDS	5110..5679	基因＝“E2B”	“19.4KD早期蛋白”相	CDS	互补(连接(5038..8610，12152..12160))	基因＝“E2B(POL)”	“DNA聚合酶”

			似于人腺病毒7假设20.6KD早期蛋白，GI：58522
			似于人腺病毒7假设20.6KD早期蛋白，GI：58522	CDS	6131..6451	基因＝“E2B”	“11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白，GI：58524
CDS	7819..8412	基因＝“L1”	“DNA结合蛋白质(agnoprotein)”相似于猴腺病毒21.9KD蛋白，GI：17227351	CDS	6131..6451	基因＝“E2B”	“11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白，GI：58524
CDS	7819..8412	基因＝“L1”	“DNA结合蛋白质(agnoprotein)”相似于猴腺病毒21.9KD蛋白，GI：17227351	CDS	连接(7819..7824，8541..8933)	基因＝“E2B”	“14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白，GI：58528
CDS	互补(连接(8409..10328，12152..12160))	基因＝“E2B(pTP)”	“前体末端蛋白质”	CDS	连接(7819..7824，8541..8933)	基因＝“E2B”	“14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白，GI：58528
CDS	互补(连接(8409..10328，12152..12160))	基因＝“E2B(pTP)”	“前体末端蛋白质”	misc_RNA	10361..10519	“病毒相关RNAI”	“VA RNAI，159nt”
启动子	互补(10462..10501)	“E2B”		misc_RNA	10361..10519	“病毒相关RNAI”	“VA RNAI，159nt”
启动子	互补(10462..10501)	“E2B”		启动子	10542..10581	“L1”
misc_RNA	10584..10684	“病毒相关RNAII”	“VA RNA-II，10Int”	启动子	10542..10581	“L1”
misc_RNA	10584..10684	“病毒相关RNAII”	“VA RNA-II，10Int”	CDS	10705..11877	基因＝“L1(52k)”	“52K蛋白”
多A-信号	11882..11887	“L1(52k)”		CDS	10705..11877	基因＝“L1(52k)”	“52K蛋白”
多A-信号	11882..11887	“L1(52k)”		CDS	11901..13682	基因＝“L1(IIIa)”	“蛋白质IIIa”
多A-信号	13696..13701	“L1(IIIa)”		CDS	11901..13682	基因＝“L1(IIIa)”	“蛋白质IIIa”
多A-信号	13696..13701	“L1(IIIa)”		启动子	13755..13794	“L2”
CDS	13762..15369	基因＝“L2(五邻体)”	“五邻体蛋白质(蛋白质III)”	启动子	13755..13794	“L2”
CDS	13762..15369	基因＝“L2(五邻体)”	“五邻体蛋白质(蛋白质III)”	多A-信号	15372..15377	“L2(五邻体)”
CDS	15373..15954	基因＝“L2(pVII)”	“大核蛋白质(蛋白质VII)”	多A-信号	15372..15377	“L2(五邻体)”
CDS	15373..15954	基因＝“L2(pVII)”	“大核蛋白质(蛋白质VII)”	CDS	16002..17027	基因＝“L2(pV)”	“小核蛋白质(蛋白质V)”
CDS	17050..17283	基因＝“L2(pX)”	“蛋白质X(蛋白质mu)”	CDS	16002..17027	基因＝“L2(pV)”	“小核蛋白质(蛋白质V)”

CDS	17343..18074	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白质)”
CDS	17343..18074	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白质)”	CDS	18181..20991	基因＝“L3(六邻体)”	“六邻体蛋白质(蛋白质II)”
CDS	21015..21635	基因＝“L3(23k)”	“23k蛋白酶类”	CDS	18181..20991	基因＝“L3(六邻体)”	“六邻体蛋白质(蛋白质II)”
CDS	21015..21635	基因＝“L3(23k)”	“23k蛋白酶类”	多A-信号	21661..21666	“L3”
多A-信号	互补(21703..21708)	“E2A”		多A-信号	21661..21666	“L3”
多A-信号	互补(21703..21708)	“E2A”		CDS	互补(21710..23242)	基因＝“E2A(DBP)”	“早期E2A DNA结合蛋白”
启动子	互补(23345..23384)	“E2A”		CDS	互补(21710..23242)	基因＝“E2A(DBP)”	“早期E2A DNA结合蛋白”
启动子	互补(23345..23384)	“E2A”		启动子	23211..23250	“L4”
CDS	23271..25634	基因＝“L4(100k)”	“100k蛋白质”	启动子	23211..23250	“L4”
CDS	23271..25634	基因＝“L4(100k)”	“100k蛋白质”	CDS	25369..25884	基因＝“L4(22k)”	“22k蛋白质”
CDS	连接(25369..25674，25844..26158)	基因＝“L4(33k)”	“33k蛋白质”	CDS	25369..25884	基因＝“L4(22k)”	“22k蛋白质”
CDS	连接(25369..25674，25844..26158)	基因＝“L4(33k)”	“33k蛋白质”	CDS	26226..26909	基因＝“L4(pVIII)”	“L4蛋白质VIII”
CDS	26910..27230	基因＝“E3”	“E312.1kDa蛋白质”	CDS	26226..26909	基因＝“L4(pVIII)”	“L4蛋白质VIII”
CDS	26910..27230	基因＝“E3”	“E312.1kDa蛋白质”	CDS	27184..27816	基因＝“E3”	“E323.3kDa蛋白质”
CDS	27798..28322	基因＝“E3”	“E319kDa蛋白质”	CDS	27184..27816	基因＝“E3”	“E323.3kDa蛋白质”
CDS	27798..28322	基因＝“E3”	“E319kDa蛋白质”	CDS	28352..28987	基因＝“E3”	“E324.8kDa蛋白质”
CDS	29296..30105	基因＝“E3”	“E329.7kDa蛋白质”	CDS	28352..28987	基因＝“E3”	“E324.8kDa蛋白质”
CDS	29296..30105	基因＝“E3”	“E329.7kDa蛋白质”	CDS	30114..30389	基因＝“E3”	“E310.4kDa蛋白质”
CDS	30395..30835	基因＝“E3”	“E314.5kDa蛋白质”	CDS	30114..30389	基因＝“E3”	“E310.4kDa蛋白质”
CDS	30395..30835	基因＝“E3”	“E314.5kDa蛋白质”	CDS	30828..31229	基因＝“E3”	“E314.7kDa蛋白质”
多A-信号	31279..31284	“E3”		CDS	30828..31229	基因＝“E3”	“E314.7kDa蛋白质”
多A-信号	31279..31284	“E3”		启动子	31292..31331	“L5”
CDS	31464..32741	基因＝“L5(纤毛)”	“纤毛蛋白质”	启动子	31292..31331	“L5”
CDS	31464..32741	基因＝“L5(纤毛)”	“纤毛蛋白质”	多A-信号	32801..32806	“L5”
多A-信号	互补(32817..32822)	“E4”		多A-信号	32801..32806	“L5”

CDS	互补(32837..33031)	基因＝“E4”	“E47.4KDa蛋白质”
CDS	互补(32837..33031)	基因＝“E4”	“E47.4KDa蛋白质”	CDS	互补(连接(32837..33085，33811..33984))	基因＝“E4”	“E415.9KD蛋白质”
CDS	互补(33085..33984)	基因＝“E4”	“E434.6KD蛋白质”	CDS	互补(连接(32837..33085，33811..33984))	基因＝“E4”	“E415.9KD蛋白质”
CDS	互补(33085..33984)	基因＝“E4”	“E434.6KD蛋白质”	CDS	互补(33887..34255)	基因＝“E4”	“E414.1KD蛋白质”
多A-信号	互补(34207..34212)	“E4”		CDS	互补(33887..34255)	基因＝“E4”	“E414.1KD蛋白质”
多A-信号	互补(34207..34212)	“E4”		CDS	互补(34264..34617)	基因＝“E4”	“E413.7KD蛋白质”
CDS	互补(34614..35003)	基因＝“E4”	“E414.6KD蛋白质”	CDS	互补(34264..34617)	基因＝“E4”	“E413.7KD蛋白质”
CDS	互补(34614..35003)	基因＝“E4”	“E414.6KD蛋白质”	CDS	互补(35051..35425)	基因＝“E4”	“E413.5KD蛋白质”
重复单元	互补(35758..35965)	“ITR”		CDS	互补(35051..35425)	基因＝“E4”	“E413.5KD蛋白质”

表44：Ad4FS_AF(登录号No.AY599837；SEQ ID NO：580)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..208	“ITR”
CDS	575..1120	基因＝“E1A”	“ORF1：假设性”	重复区域	1..208	“ITR”
CDS	575..1120	基因＝“E1A”	“ORF1：假设性”	CDS	结合(575..649，1202..1306)	基因＝“E1A”	“早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白，GI：17227344
CDS	结合(575..1108，1201..1407)	基因＝“E1A”	“早期E1A 27KD蛋白”相似于猴腺病毒2528.2kDa蛋白，GI：17227342	CDS	结合(575..649，1202..1306)	基因＝“E1A”	“早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白，GI：17227344
CDS	结合(575..1108，1201..1407)	基因＝“E1A”	“早期E1A 27KD蛋白”相似于猴腺病毒2528.2kDa蛋白，GI：17227342	CDS	结合(576..1016，1202..1407)	基因＝“E1A”	“早期E1A 23.5KD蛋白”相似于猴腺病毒2524.8kDa蛋白，GI：17227343
多A-信号	1463..1468	“E1A”		CDS	结合(576..1016，1202..1407)	基因＝“E1A”	“早期E1A 23.5KD蛋白”相似于猴腺病毒2524.8kDa蛋白，GI：17227343

启动子	1517..1556	“E1B”
启动子	1517..1556	“E1B”		CDS	结合(1564..1965，1976..1993)	基因＝“E1B”	“小型T抗原(16.5kDa)”
CDS	1564..2115	基因＝“E1B”	“早期E1B 21.5KD蛋白”标准命名-猴腺病毒2520.5kDa蛋白，GI：17227345	CDS	结合(1564..1965，1976..1993)	基因＝“E1B”	“小型T抗原(16.5kDa)”
CDS	1564..2115	基因＝“E1B”	“早期E1B 21.5KD蛋白”标准命名-猴腺病毒2520.5kDa蛋白，GI：17227345	CDS	连接(1869..2123，3258..3269)	基因＝“E1B”	“早期E1B 9KD蛋白”相似于猴腺病毒2510.1kDa蛋白，GI：17227348
CDS	连接(1869..2615，2618..3355)	基因＝“E1B”	“大型T抗原(55KD)”相似于猴腺病毒2554.7kDa蛋白，GI：17227347	CDS	连接(1869..2123，3258..3269)	基因＝“E1B”	“早期E1B 9KD蛋白”相似于猴腺病毒2510.1kDa蛋白，GI：17227348
CDS	连接(1869..2615，2618..3355)	基因＝“E1B”	“大型T抗原(55KD)”相似于猴腺病毒2554.7kDa蛋白，GI：17227347	CDS	结合(1869..2153，3140..3355)	基因＝“E1B”	“早期E1B 17.9KD蛋白”相似于猴腺病毒2518.5kDa蛋白，GI：17227346
CDS	3439..3867	基因＝“IX”	“蛋白质IX(六邻体相关蛋白质)”	CDS	结合(1869..2153，3140..3355)	基因＝“E1B”	“早期E1B 17.9KD蛋白”相似于猴腺病毒2518.5kDa蛋白，GI：17227346
CDS	3439..3867	基因＝“IX”	“蛋白质IX(六邻体相关蛋白质)”	多A-信号	3877..3882	“E1B和IX”
多A-信号	互补(3899..3904)	“E2B和IVa2”		多A-信号	3877..3882	“E1B和IX”
多A-信号	互补(3899..3904)	“E2B和IVa2”		CDS	互补(连接(3931..5264，5543..5555))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”
CDS	互补(连接(5034..8606，12151..12159))	基因＝“E2B(POL)”	“DNA聚合酶”	CDS	互补(连接(3931..5264，5543..5555))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”
CDS	互补(连接(5034..8606，12151..12159))	基因＝“E2B(POL)”	“DNA聚合酶”	CDS	5106..5675	基因＝“E2B”	“19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白，GI：58522
CDS	6127..6447	基因＝“E2B”	“11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白，GI：58524	CDS	5106..5675	基因＝“E2B”	“19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白，GI：58522
CDS	6127..6447	基因＝“E2B”	“11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白，GI：58524	CDS	7815..8408	基因＝“L1”	“DNA结合蛋白质(病毒蛋白)”相似于猴腺

			猴腺病毒21.9KD蛋白，GI：17227351
			猴腺病毒21.9KD蛋白，GI：17227351	CDS	连接(7815..7820，8537..8929)	基因＝“E2B”	“14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白，GI：58528
CDS	互补(连接(8405..10324，12151..12159))	基因＝“E2B(pTP)”	“前体末端蛋白质”	CDS	连接(7815..7820，8537..8929)	基因＝“E2B”	“14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白，GI：58528
CDS	互补(连接(8405..10324，12151..12159))	基因＝“E2B(pTP)”	“前体末端蛋白质”	misc_RNA	10357..10515	“病毒相关RNAI”	“VA RNAI，159nt”
启动子	互补(10458..10497)	“E2B”		misc_RNA	10357..10515	“病毒相关RNAI”	“VA RNAI，159nt”
启动子	互补(10458..10497)	“E2B”		启动子	10541..10580	“L1”
misc_RNA	10583..10683	“病毒相关RNAII”	“VA RNA-II，101nt”	启动子	10541..10580	“L1”
misc_RNA	10583..10683	“病毒相关RNAII”	“VA RNA-II，101nt”	CDS	10704..11876	基因＝“L1(52k)”	“52K蛋白”
多A-信号	11881..11886	“L1(52k)”		CDS	10704..11876	基因＝“L1(52k)”	“52K蛋白”
多A-信号	11881..11886	“L1(52k)”		CDS	11900..13681	基因＝“L1(IIIa)”	“蛋白质IIIa”
多A-信号	13695..13700	“L1(IIIa)”		CDS	11900..13681	基因＝“L1(IIIa)”	“蛋白质IIIa”
多A-信号	13695..13700	“L1(IIIa)”		启动子	13754..13793	“L2”
CDS	13761..15368	基因＝“L2(五邻体)”	“五邻体蛋白质(蛋白质III)”	启动子	13754..13793	“L2”
CDS	13761..15368	基因＝“L2(五邻体)”	“五邻体蛋白质(蛋白质III)”	多A-信号	15371..15376	“L2(五邻体)”
CDS	15372..15953	基因＝“L2(pVII)”	“大核蛋白质(蛋白质VII)”	多A-信号	15371..15376	“L2(五邻体)”
CDS	15372..15953	基因＝“L2(pVII)”	“大核蛋白质(蛋白质VII)”	CDS	16001..17026	基因＝“L2(pV)”	“小核蛋白质(蛋白质V)”
CDS	17049..17282	基因＝“L2(pX)”	“蛋白质X(蛋白质mu)”	CDS	16001..17026	基因＝“L2(pV)”	“小核蛋白质(蛋白质V)”
CDS	17049..17282	基因＝“L2(pX)”	“蛋白质X(蛋白质mu)”	CDS	17314..18072	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白质)”
CDS	18179..20989	基因＝“L3(六邻体)”	“六邻体蛋白质(蛋白质II)”	CDS	17314..18072	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白质)”
CDS	18179..20989	基因＝“L3(六邻体)”	“六邻体蛋白质(蛋白质II)”	CDS	21013..21633	基因＝“L3(23k)”	“L323k蛋白酶类(Adenain)”
多A-信号	21659..21664	“L3”		CDS	21013..21633	基因＝“L3(23k)”	“L323k蛋白酶类(Adenain)”

多A-信号	互补(21701..21706)	“E2A”
多A-信号	互补(21701..21706)	“E2A”		CDS	互补(21708..23240)	基因＝“E2A(DBP)”	“早期E2A DNA结合蛋白”
启动子	互补(23165..23207)	“E2A”		CDS	互补(21708..23240)	基因＝“E2A(DBP)”	“早期E2A DNA结合蛋白”
启动子	互补(23165..23207)	“E2A”		启动子	23209..23248	“L4”
CDS	23269..25632	基因＝“L4(100k)”	“100k蛋白质”	启动子	23209..23248	“L4”
CDS	23269..25632	基因＝“L4(100k)”	“100k蛋白质”	CDS	25367..25882	基因＝“L4(22k)”	“22k蛋白质”
CDS	连接(25367..25672，25842..26156)	基因＝“L4(33k)”	“33k蛋白质”	CDS	25367..25882	基因＝“L4(22k)”	“22k蛋白质”
CDS	连接(25367..25672，25842..26156)	基因＝“L4(33k)”	“33k蛋白质”	CDS	26224..26907	基因＝“L4(pVIII)”	“L4蛋白质VIII”
CDS	26908..27228	基因＝“E3”	“E312.1kDa蛋白质”	CDS	26224..26907	基因＝“L4(pVIII)”	“L4蛋白质VIII”
CDS	26908..27228	基因＝“E3”	“E312.1kDa蛋白质”	CDS	27182..27814	基因＝“E3”	“E323.3kDa蛋白质”
CDS	27796..28320	基因＝“E3”	“E319kDa蛋白质”	CDS	27182..27814	基因＝“E3”	“E323.3kDa蛋白质”
CDS	27796..28320	基因＝“E3”	“E319kDa蛋白质”	CDS	28350..28985	基因＝“E3”	“E324.8kDa蛋白质”
CDS	29295..30104	基因＝“E3”	“E329.7kDa蛋白质”	CDS	28350..28985	基因＝“E3”	“E324.8kDa蛋白质”
CDS	29295..30104	基因＝“E3”	“E329.7kDa蛋白质”	CDS	30113..30388	基因＝“E3”	“E310.4kDa蛋白质”
CDS	30394..30834	基因＝“E3”	“E314.5kDa蛋白质”	CDS	30113..30388	基因＝“E3”	“E310.4kDa蛋白质”
CDS	30394..30834	基因＝“E3”	“E314.5kDa蛋白质”	CDS	30827..31228	基因＝“E3”	“E314.7kDa蛋白质”
多A-信号	31278..31283	“E3”		CDS	30827..31228	基因＝“E3”	“E314.7kDa蛋白质”
多A-信号	31278..31283	“E3”		启动子	31291..31330	“L5”
CDS	31463..32740	基因＝“L5(纤毛)”	“纤毛蛋白质”	启动子	31291..31330	“L5”
CDS	31463..32740	基因＝“L5(纤毛)”	“纤毛蛋白质”	多A-信号	32800..32805	“L5”
多A-信号	互补(32816..32821)	“E4”		多A-信号	32800..32805	“L5”
多A-信号	互补(32816..32821)	“E4”		CDS	互补(32836..33030)	基因＝“E4”	“E47.4KDa蛋白质”
CDS	互补(连接(32836..33084，33810..33983))	基因＝“E4”	“E415.9KD蛋白质”	CDS	互补(32836..33030)	基因＝“E4”	“E47.4KDa蛋白质”
CDS	互补(连接(32836..33084，33810..33983))	基因＝“E4”	“E415.9KD蛋白质”	CDS	互补(33084..33983)	基因＝“E4”	“E434.6KD蛋白质”

CDS	互补(33886..34254)	基因＝“E4”	“E414.1KD蛋白质”
CDS	互补(33886..34254)	基因＝“E4”	“E414.1KD蛋白质”	多A-信号	互补(34206..34211)	“E4”
CDS	互补(34263..34616)	基因＝“E4”	“E413.7KD蛋白质”	多A-信号	互补(34206..34211)	“E4”
CDS	互补(34263..34616)	基因＝“E4”	“E413.7KD蛋白质”	CDS	互补(34613..35002)	基因＝“E4”	“E414.6KD蛋白质”
CDS	互补(35050..35424)	基因＝“E4”	“E413.5KD蛋白质”	CDS	互补(34613..35002)	基因＝“E4”	“E414.6KD蛋白质”
CDS	互补(35050..35424)	基因＝“E4”	“E413.5KD蛋白质”	重复单元	互补(35757..35964)	“ITR”

表45：Ad5FS(登录号No.AY601635；SEQ ID NO：581)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	CDS	11565..12297	“52/55K蛋白质基因”	蛋白质_id＝“AAA96406.1”
CDS	12318..14075	产物＝“蛋白质IIIa”	蛋白质_id＝“AAA96407.1”	CDS	11565..12297	“52/55K蛋白质基因”	蛋白质_id＝“AAA96406.1”
CDS	12318..14075	产物＝“蛋白质IIIa”	蛋白质_id＝“AAA96407.1”	CDS	16286..16474	产物＝“蛋白质pVII”	蛋白质_id＝“AAA96408.1”
CDS	16544..17650	产物＝“蛋白质V”	蛋白质_id＝“AAA96409.1”	CDS	16286..16474	产物＝“蛋白质pVII”	蛋白质_id＝“AAA96408.1”
CDS	16544..17650	产物＝“蛋白质V”	蛋白质_id＝“AAA96409.1”	CDS	17774..17920	产物＝“蛋白质5前体”	蛋白质_id＝“AAA96410.1”
CDS	18003..18755	产物＝“蛋白质pVI”	蛋白质_id＝“AAA96411.1”	CDS	17774..17920	产物＝“蛋白质5前体”	蛋白质_id＝“AAA96410.1”
CDS	18003..18755	产物＝“蛋白质pVI”	蛋白质_id＝“AAA96411.1”	CDS	25819..26484	“100k蛋白质”	蛋白质_idd＝“AAA96412.1”
外显子	26485..26514	“33k蛋白质的外显子”		CDS	25819..26484	“100k蛋白质”	蛋白质_idd＝“AAA96412.1”
外显子	26485..26514	“33k蛋白质的外显子”		外显子	26713..27083	“33k蛋白质的外显子”
CDS	27174..27857	产物＝“蛋白质pVIII”	蛋白质_id＝“AAA96413.1”	外显子	26713..27083	“33k蛋白质的外显子”

表46：Ad7(登录No.AY594255；SEQ ID NO：582)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..108	“倒转末端重复”
启动子	481..486	“E1A的TATA框符”		重复区域	1..108	“倒转末端重复”
启动子	481..486	“E1A的TATA框符”		CDS	结合(577..648，1250..1351)	基因＝“E1A”	“6KD蛋白质”
CDS	结合(577..1156，1250..1455)	基因＝“E1A”	“E1A 28KD蛋白质”	CDS	结合(577..648，1250..1351)	基因＝“E1A”	“6KD蛋白质”
CDS	结合(577..1156，1250..1455)	基因＝“E1A”	“E1A 28KD蛋白质”	CDS	结合(577..1063，1250..1455)	基因＝“E1A”	“mRNAII 产物与gi\|209784同源”
多A-位点	1494..1499	“E1A基因的多A-位点。GenScan推算”		CDS	结合(577..1063，1250..1455)	基因＝“E1A”	“mRNAII 产物与gi\|209784同源”
多A-位点	1494..1499	“E1A基因的多A-位点。GenScan推算”		启动子	1549..1554	“E1B的TATA框符”
CDS	1603..2139	基因＝“E1B”	“19kD小型T抗原蛋白与Ad7中未命名蛋白质gi\|58518同源”	启动子	1549..1554	“E1B的TATA框符”
CDS	1603..2139	基因＝“E1B”	“19kD小型T抗原蛋白与Ad7中未命名蛋白质gi\|58518同源”	CDS	1908..3386	基因＝“E1B”	“55kD蛋白与Ad7中gi\|58519同源”
启动子	3384..3389	“pIX 的TATA框符”		CDS	1908..3386	基因＝“E1B”	“55kD蛋白与Ad7中gi\|58519同源”
启动子	3384..3389	“pIX 的TATA框符”		多A-位点	3405..3410	“E1B 基因的GenScan推算多A-位点”
多A-位点	互补(3928..3933)	“E2B 基因的GenScan推算多A-位点”		多A-位点	3405..3410	“E1B 基因的GenScan推算多A-位点”
多A-位点	互补(3928..3933)	“E2B 基因的GenScan推算多A-位点”		CDS	互补(连接(3950..5283，5562..5574))	基因＝“IVa2”	“IVa2成熟蛋白质”
CDS	互补(5053..8421)	基因＝“E2B”	“DNA聚合酶”	CDS	互补(连接(3950..5283，5562..5574))	基因＝“IVa2”	“IVa2成熟蛋白质”
CDS	互补(5053..8421)	基因＝“E2B”	“DNA聚合酶”	启动子	5874..5879	“主要晚期启动子的TATA框符”
CDS	7987..8427	基因＝“L1”	“DNA结合蛋白质与E型腺病毒中蛋白质	启动子	5874..5879	“主要晚期启动子的TATA框符”

			gi\|17227351同源”
			gi\|17227351同源”	CDS	互补(8231..8575)	基因＝“E2B”	“假设12.6kD早期蛋白质，Ad7中gi\|139931”
CDS	互补(8424..10346)	基因＝“E2B”	“末端蛋白质前体，Ad7中同源物为gi\|74214”	CDS	互补(8231..8575)	基因＝“E2B”	“假设12.6kD早期蛋白质，Ad7中gi\|139931”
CDS	互补(8424..10346)	基因＝“E2B”	“末端蛋白质前体，Ad7中同源物为gi\|74214”	CDS	8550..8951	基因＝“L1”	“假设14.5kD蛋白质”
CDS	互补(9545..9859)	基因＝“E2B”	“11.3kD早期蛋白质，Ad7中同源物为gi\|139914”	CDS	8550..8951	基因＝“L1”	“假设14.5kD蛋白质”
CDS	互补(9545..9859)	基因＝“E2B”	“11.3kD早期蛋白质，Ad7中同源物为gi\|139914”	CDS	9759..10034	基因＝“L1”	“9.7kD假设蛋白质，Ad7中同源物为gi\|140138”
misc_RNA	10423..10592	“VA RNA I”		CDS	9759..10034	基因＝“L1”	“9.7kD假设蛋白质，Ad7中同源物为gi\|140138”
misc_RNA	10423..10592	“VA RNA I”		misc_RNA	10668..10838	“VA RNA II”
CDS	10890..12026	基因＝“L1”	“55kD蛋白质”	misc_RNA	10668..10838	“VA RNA II”
CDS	10890..12026	基因＝“L1”	“55kD蛋白质”	CDS	12051..13817	基因＝“L1”	“peri五邻体al六邻体相关蛋白质IIIa”
多A-位点	13830..13835	“L1的GenScan推算多A-位点”		CDS	12051..13817	基因＝“L1”	“peri五邻体al六邻体相关蛋白质IIIa”
多A-位点	13830..13835	“L1的GenScan推算多A-位点”		CDS	13905..15539	基因＝“L2”	“五邻体碱基蛋白质(III)”
多A-位点	15545..15550	“L2的GenScan推算多A-位点”		CDS	13905..15539	基因＝“L2”	“五邻体碱基蛋白质(III)”
多A-位点	15545..15550	“L2的GenScan推算多A-位点”		CDS	15550..16128	基因＝“L2”	“蛋白质VII前体”
CDS	16171..17000	基因＝“L2”	“小核蛋白，蛋白质V”	CDS	15550..16128	基因＝“L2”	“蛋白质VII前体”
CDS	16171..17000	基因＝“L2”	“小核蛋白，蛋白质V”	多A-位点	17497..17502	“L2的GenScan推算多A-位点”
CDS	17554..18306	基因＝“L3”	“蛋白质VI前体”	多A-位点	17497..17502	“L2的GenScan推算多A-位点”
CDS	17554..18306	基因＝“L3”	“蛋白质VI前体”	CDS	18419..21232	基因＝“L3”	“六邻体蛋白质”
CDS	21269..21898	基因＝“L3”	“23K蛋白质酶”	CDS	18419..21232	基因＝“L3”	“六邻体蛋白质”
CDS	21269..21898	基因＝“L3”	“23K蛋白质酶”	多A-位点	21918..21923	“L3的GenScan推算多A-位点”
多A-位点	互补(21930..21935)	“E2A的GenScan推算多A-位点”		多A-位点	21918..21923	“L3的GenScan推算多A-位点”
多A-位点	互补(21930..21935)	“E2A的GenScan推算多A-位点”		CDS	互补	“E2A”	“DNA结合蛋白质”

	(21985..23538)
	(21985..23538)			CDS	23569..26055	基因＝“L4”	“100K六邻体组合相关蛋白质”
CDS	互补(24924..25133)	基因＝“假设”	“假设蛋白质”	CDS	23569..26055	基因＝“L4”	“100K六邻体组合相关蛋白质”
CDS	互补(24924..25133)	基因＝“假设”	“假设蛋白质”	CDS	25757..26356	基因＝“L4”	“22K蛋白质”
CDS	连接(25850..26225，26275..26630)	基因＝“L4”	“33kD蛋白质”	CDS	25757..26356	基因＝“L4”	“22K蛋白质”
CDS	连接(25850..26225，26275..26630)	基因＝“L4”	“33kD蛋白质”	多A-位点	26662..26667	“L4的”
CDS	26700..27383	基因＝“L4”	“蛋白质VIII，六邻体相关蛋白质前体”	多A-位点	26662..26667	“L4的”
CDS	26700..27383	基因＝“L4”	“蛋白质VIII，六邻体相关蛋白质前体”	启动子	27065..27070	“E3的TATA框符”
CDS	27383..27703	基因＝“E3”	“12.1kD糖蛋白”	启动子	27065..27070	“E3的TATA框符”
CDS	27383..27703	基因＝“E3”	“12.1kD糖蛋白”	CDS	27657..28097	基因＝“E3”	“16.1kD蛋白”
CDS	28082..28600	基因＝“E3”	“19.3kD MHC I类抗原结合糖蛋白前体”	CDS	27657..28097	基因＝“E3”	“16.1kD蛋白”
CDS	28082..28600	基因＝“E3”	“19.3kD MHC I类抗原结合糖蛋白前体”	CDS	28630..29169	基因＝“E3”	“假设20.6kD蛋白”
CDS	29182..29751	基因＝“E3”	“20.6kD蛋白”	CDS	28630..29169	基因＝“E3”	“假设20.6kD蛋白”
CDS	29182..29751	基因＝“E3”	“20.6kD蛋白”	CDS	29766..29966	基因＝“E3”	“7.7kD蛋白”
CDS	30083..30313	基因＝“E3”	“10.3kD蛋白”	CDS	29766..29966	基因＝“E3”	“7.7kD蛋白”
CDS	30083..30313	基因＝“E3”	“10.3kD蛋白”	CDS	30285..30722	基因＝“E3”	“14.9kD蛋白”
CDS	30715..31122	基因＝“E3”	“14.7kD蛋白质”	CDS	30285..30722	基因＝“E3”	“14.9kD蛋白”
CDS	30715..31122	基因＝“E3”	“14.7kD蛋白质”	多A-位点	31128..31133	“E3的GenScan推算多A-位点”
CDS	互补(31141..31305)	基因＝“”	“U蛋白”	多A-位点	31128..31133	“E3的GenScan推算多A-位点”
CDS	互补(31141..31305)	基因＝“”	“U蛋白”	CDS	31320..32297	基因＝“L5”	“纤毛蛋白”
多A-位点	互补(32317..32322)	“E4的GenScan推算多A-位点”		CDS	31320..32297	基因＝“L5”	“纤毛蛋白”
多A-位点	互补(32317..32322)	“E4的GenScan推算多A-位点”		CDS	互补(32333..32584)	基因＝“E4”	“ORF6/7蛋白质”
CDS	互补(32581..33480)	基因＝“E4”	“33.2kD蛋白质”	CDS	互补(32333..32584)	基因＝“E4”	“ORF6/7蛋白质”

CDS	互补(33383..33751)	基因＝“E4”	“13.6kD蛋白质”
CDS	互补(33383..33751)	基因＝“E4”	“13.6kD蛋白质”	CDS	33606..34115	基因＝“L5”	“病毒蛋白”
CDS	互补(33760..34113)	基因＝“E4”	“34kD蛋白质”	CDS	33606..34115	基因＝“L5”	“病毒蛋白”
CDS	互补(33760..34113)	基因＝“E4”	“34kD蛋白质”	CDS	互补(34110..34499)	基因＝“E4”	“130aa蛋白质”
多A-位点	34122..34127	“L5基因的可能多A-信号”		CDS	互补(34110..34499)	基因＝“E4”	“130aa蛋白质”
多A-位点	34122..34127	“L5基因的可能多A-信号”		CDS	互补(34541..34918)	基因＝“E4”	“13.9kD蛋白质”
启动子	互补(35000..35005)	“E4的TATA框符”		CDS	互补(34541..34918)	基因＝“E4”	“13.9kD蛋白质”
启动子	互补(35000..35005)	“E4的TATA框符”		重复区	互补(35199..35306)	“倒转末端重复”

表47：Ad7FS_navy(登录No.AY601634；SEQ ID NO：583)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..135	“倒转末端重复”
启动子	479..484	“E1A的TATA框符”		重复区域	1..135	“倒转末端重复”
启动子	479..484	“E1A的TATA框符”		CDS	575..1168	基因＝“E1A”	“假设E1A蛋白质”
CDS	结合(575..646，1249..1350)	基因＝“E1A”	“6KD蛋白质”	CDS	575..1168	基因＝“E1A”	“假设E1A蛋白质”
CDS	结合(575..646，1249..1350)	基因＝“E1A”	“6KD蛋白质”	CDS	结合(575..1154，1249..1454)	基因＝“E1A”	“mRNAI，28KD E1A蛋白质”
CDS	结合(575..1061，1249..1454)	基因＝“E1A”	“mRNAII蛋白质”	CDS	结合(575..1154，1249..1454)	基因＝“E1A”	“mRNAI，28KD E1A蛋白质”
CDS	结合(575..1061，1249..1454)	基因＝“E1A”	“mRNAII蛋白质”	多A-信号	1493..1498	“E1A基因的多A-信号”
启动子	1548..1553	“E1B的TATA框符”		多A-信号	1493..1498	“E1A基因的多A-信号”
启动子	1548..1553	“E1B的TATA框符”		CDS	1602..2138	基因＝“E1B”	“20kD小型T抗原蛋白”

CDS	1907..3385	基因＝“E1B”	“转化相关的55kD蛋白”
CDS	1907..3385	基因＝“E1B”	“转化相关的55kD蛋白”	启动子	3383..3388	“pIX的TATA框符”
多A-信号	3401..3406	“E1B基因的多A-信号”		启动子	3383..3388	“pIX的TATA框符”
多A-信号	3401..3406	“E1B基因的多A-信号”		多A-信号	互补(3926..3931)	“E2B基因的可能多A-信号”
CDS	互补(连接(5560..5572，3948..5281))	基因＝“E2B”	“IVa2成熟蛋白质”	多A-信号	互补(3926..3931)	“E2B基因的可能多A-信号”
CDS	互补(连接(5560..5572，3948..5281))	基因＝“E2B”	“IVa2成熟蛋白质”	CDS	互补(5051..8419)	基因＝“E2B”	“DNA聚合酶”
启动子	5872..5877	“主要晚期启动子的TATA框符”		CDS	互补(5051..8419)	基因＝“E2B”	“DNA聚合酶”
启动子	5872..5877	“主要晚期启动子的TATA框符”		CDS	6144..6464	基因＝“假设”	“假设的蛋白质A-106”
CDS	互补(6868..7389)	基因＝“E2B”	“假设19kD蛋白质”	CDS	6144..6464	基因＝“假设”	“假设的蛋白质A-106”
CDS	互补(6868..7389)	基因＝“E2B”	“假设19kD蛋白质”	CDS	7133..7420	基因＝“L1”	“假设10.4kD蛋白质”
CDS	7829..8425	基因＝“L1”	“15.3kD病毒蛋白”	CDS	7133..7420	基因＝“L1”	“假设10.4kD蛋白质”
CDS	7829..8425	基因＝“L1”	“15.3kD病毒蛋白”	CDS	互补(8328..8573)	基因＝“E2B”	“假设的12.6kD早期蛋白质”
CDS	互补(8422..10344)	基因＝“E2B”	“五邻体DNA结合蛋白质”	CDS	互补(8328..8573)	基因＝“E2B”	“假设的12.6kD早期蛋白质”
CDS	互补(8422..10344)	基因＝“E2B”	“五邻体DNA结合蛋白质”	CDS	8548..8949	基因＝“假设”	“假设的14.5kD早期蛋白质”
CDS	9757..10032	基因＝“假设”	“假设9.7kD蛋白质”	CDS	8548..8949	基因＝“假设”	“假设的14.5kD早期蛋白质”
CDS	9757..10032	基因＝“假设”	“假设9.7kD蛋白质”	misc_RNA	10424..10584	“VA RNA I”
misc_RNA	10655..10829	“VA RNA II”		misc_RNA	10424..10584	“VA RNA I”
misc_RNA	10655..10829	“VA RNA II”		CDS	10806..11975	基因＝“L1”	“55kD蛋白质”
CDS	12000..13766	基因＝“L1”	“peri五邻体al六邻体相关蛋白质IIIA”	CDS	10806..11975	基因＝“L1”	“55kD蛋白质”
CDS	12000..13766	基因＝“L1”	“peri五邻体al六邻体相关蛋白质IIIA”	多A-位点	13799..13784	“L1的多A-信号”
CDS	13854..15488	基因＝“L2”	“五邻体碱基蛋白质”	多A-位点	13799..13784	“L1的多A-信号”
CDS	13854..15488	基因＝“L2”	“五邻体碱基蛋白质”	CDS	15500..16078	基因＝“L2”	“大核蛋白前体pVII”

CDS	16121..17173	基因＝“L2”	“小核蛋白前体pV”
CDS	16121..17173	基因＝“L2”	“小核蛋白前体pV”	多A-位点	17488..17453	“L2的可能多A-信号”
CDS	17505..18239	基因＝“L3”	“pVI前体”	多A-位点	17488..17453	“L2的可能多A-信号”
CDS	17505..18239	基因＝“L3”	“pVI前体”	CDS	18352..21156	基因＝“L3”	“六邻体蛋白质”
CDS	21193..21822	基因＝“L3”	“23KD蛋白质酶”	CDS	18352..21156	基因＝“L3”	“六邻体蛋白质”
CDS	21193..21822	基因＝“L3”	“23KD蛋白质酶”	多A-信号	21842..21847	“L3的可能多A-信号”
多A-信号	互补(21854..21859)	“E2A的可能多A-信号”		多A-信号	21842..21847	“L3的可能多A-信号”
多A-信号	互补(21854..21859)	“E2A的可能多A-信号”		CDS	互补(21911..23464)	基因＝“E2A”	“DNA结合蛋白质”
CDS	23495..25984	基因＝“L4”	“100KD蛋白质”	CDS	互补(21911..23464)	基因＝“E2A”	“DNA结合蛋白质”
CDS	23495..25984	基因＝“L4”	“100KD蛋白质”	CDS	25686..26285	基因＝“假设”	“22K蛋白质”
CDS	连接(25686..26034，26204..26559)	基因＝“L4”	“33kD蛋白质”	CDS	25686..26285	基因＝“假设”	“22K蛋白质”
CDS	连接(25686..26034，26204..26559)	基因＝“L4”	“33kD蛋白质”	CDS	26719..27312	基因＝“L4”	“pVIII蛋白质”
启动子	26994..26999	“E3基因的假设性TATA框符”		CDS	26719..27312	基因＝“L4”	“pVIII蛋白质”
启动子	26994..26999	“E3基因的假设性TATA框符”		CDS	27312..27632	基因＝“E3A”	“12.IkD糖蛋白”
多A-信号	27391..27396	“L4的可能多A-信号”		CDS	27312..27632	基因＝“E3A”	“12.IkD糖蛋白”
多A-信号	27391..27396	“L4的可能多A-信号”		CDS	27586..28026	基因＝“E3A”	“16.1kD蛋白”
CDS	28011..28529	基因＝“E3A”	“19kD MHC I类抗原结合糖蛋白前体”	CDS	27586..28026	基因＝“E3A”	“16.1kD蛋白”
CDS	28011..28529	基因＝“E3A”	“19kD MHC I类抗原结合糖蛋白前体”	CDS	28559..29083	基因＝“E3A”	“20.3kD糖蛋白”
CDS	29110..29679	基因＝“E3A”	“20.3kD蛋白”	CDS	28559..29083	基因＝“E3A”	“20.3kD糖蛋白”
CDS	29110..29679	基因＝“E3A”	“20.3kD蛋白”	CDS	29694..29819	基因＝“E3A”	“7.7kD蛋白”
CDS	29931..30206	基因＝“E3A”	“10.3kD蛋白”	CDS	29694..29819	基因＝“E3A”	“7.7kD蛋白”
CDS	29931..30206	基因＝“E3A”	“10.3kD蛋白”	CDS	30178..30615	基因＝“E3A”	“14.9kD蛋白”
CDS	30608..31015	基因＝“E3A”	“15.3kD蛋白质”	CDS	30178..30615	基因＝“E3A”	“14.9kD蛋白”
CDS	30608..31015	基因＝“E3A”	“15.3kD蛋白质”	多A-信号	31021..31026	“E3的假设性多A-信号”

CDS	31213..32190	基因＝“L5”	“纤毛蛋白”
CDS	31213..32190	基因＝“L5”	“纤毛蛋白”	多A-信号	互补(32209..32214)	“E4基因的可能多A-信号”
CDS	互补(32225..32476)	基因＝“E4”	“ORF6/7”	多A-信号	互补(32209..32214)	“E4基因的可能多A-信号”
CDS	互补(32225..32476)	基因＝“E4”	“ORF6/7”	CDS	互补(32473..33372)	基因＝“E4”	“32kD蛋白质”
CDS	互补(33275..33643)	基因＝“E4”	“13.6kD蛋白质”	CDS	互补(32473..33372)	基因＝“E4”	“32kD蛋白质”
CDS	互补(33275..33643)	基因＝“E4”	“13.6kD蛋白质”	CDS	33498..34007	基因＝“L5”	“病毒蛋白”
CDS	互补(33652..34005)	基因＝“E4”	“13kD蛋白质”	CDS	33498..34007	基因＝“L5”	“病毒蛋白”
CDS	互补(33652..34005)	基因＝“E4”	“13kD蛋白质”	CDS	互补(34002..34391)	基因＝“E4”	“130aa蛋白质”
CDS	互补(34433..34810)	基因＝“E4”	“13.9kD蛋白质”	CDS	互补(34002..34391)	基因＝“E4”	“130aa蛋白质”
CDS	互补(34433..34810)	基因＝“E4”	“13.9kD蛋白质”	启动子	互补(34891..34896)	“E4基因的TATA框符”
重复区	互补(35062..35197)	“倒转末端重复”		启动子	互补(34891..34896)	“E4基因的TATA框符”

表48：Ad7vaccine(登录No.AY594256；SEQ ID NO：584)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..136	“倒转末端重复”
启动子	476..481	“E1A基因的TATA框符”		重复区域	1..136	“倒转末端重复”
启动子	476..481	“E1A基因的TATA框符”		CDS	结合(572..647，1247..1348)	基因＝“E1A”	“E1A 6KD蛋白质”
CDS	结合(572..1157，1246..1452)	基因＝“E1A”	“E1A mRNAI蛋白质与Ad11中29.1KD蛋白质同源”	CDS	结合(572..647，1247..1348)	基因＝“E1A”	“E1A 6KD蛋白质”
CDS	结合(572..1157，1246..1452)	基因＝“E1A”	“E1A mRNAI蛋白质与Ad11中29.1KD蛋白质同源”	CDS	结合(572..1067，1246..1452)	基因＝“E1A”	“E1A mRNAII蛋白质与Ad11中25.7KD蛋白质同源”
多A-位点	1490..1495			CDS	结合(572..1067，1246..1452)	基因＝“E1A”	“E1A mRNAII蛋白质与Ad11中25.7KD蛋白质同源”

启动子	1545..1550	“E1B的TATA框符”
启动子	1545..1550	“E1B的TATA框符”		CDS	1599..2136	基因＝“E1B”	“20kD蛋白，小型T抗原”
CDS	1904..3382	基因＝“E1B”	“55kD蛋白”	CDS	1599..2136	基因＝“E1B”	“20kD蛋白，小型T抗原”
CDS	1904..3382	基因＝“E1B”	“55kD蛋白”	启动子	3380..3385	“pIX的TATA框符”
CDS	3476..3892	基因＝“IX”	“蛋白质IX”	启动子	3380..3385	“pIX的TATA框符”
CDS	3476..3892	基因＝“IX”	“蛋白质IX”	多A-信号	3905..3910
多A-信号	互补(3923..3928)			多A-信号	3905..3910
多A-信号	互补(3923..3928)			CDS	互补(连接(3945..5278，5557..5569))	基因＝“E2B”	“pIVa2”
CDS	互补(5048..8416)	基因＝“E2B”	“DNA聚合酶”	CDS	互补(连接(3945..5278，5557..5569))	基因＝“E2B”	“pIVa2”
CDS	互补(5048..8416)	基因＝“E2B”	“DNA聚合酶”	启动子	5869..5874	“主要晚期启动子的TATA 框符”
CDS	6141..6461	基因＝“假设”	“A-106假设的蛋白质”	启动子	5869..5874	“主要晚期启动子的TATA 框符”
CDS	6141..6461	基因＝“假设”	“A-106假设的蛋白质”	CDS	7826..8422	基因＝“病毒蛋白基因”	“13.6kD病毒蛋白”
CDS	互补(8419..10341)	基因＝“E2B”	“DNA末端蛋白质”	CDS	7826..8422	基因＝“病毒蛋白基因”	“13.6kD病毒蛋白”
CDS	互补(8419..10341)	基因＝“E2B”	“DNA末端蛋白质”	CDS	互补(9540..9854)	基因＝“假设”	“11.3kD假设蛋白质”
CDS	9754..10029	基因＝“假设”	“蛋白质＝9.7kD假设蛋白质”	CDS	互补(9540..9854)	基因＝“假设”	“11.3kD假设蛋白质”
CDS	9754..10029	基因＝“假设”	“蛋白质＝9.7kD假设蛋白质”	misc_RNA	10403..10821	“VA RNA，由于25bp缺失变短”	“VA RNA”
CDS	10828..11997	基因＝“L1”	“55kD蛋白质”	misc_RNA	10403..10821	“VA RNA，由于25bp缺失变短”	“VA RNA”
CDS	10828..11997	基因＝“L1”	“55kD蛋白质”	CDS	12022..13788	基因＝“L1”	“pIIIA前体”
CDS	13876..15510	“L2”	“五邻体蛋白质III前体”	CDS	12022..13788	基因＝“L1”	“pIIIA前体”
CDS	13876..15510	“L2”	“五邻体蛋白质III前体”	多A-位点	15512..15517
CDS	15520..16098	基因＝“L2”	“蛋白pVII前体”	多A-位点	15512..15517
CDS	15520..16098	基因＝“L2”	“蛋白pVII前体”	CDS	16121..17173	基因＝“L2”	“蛋白pV”
多A-位点	17467..17472			CDS	16121..17173	基因＝“L2”	“蛋白pV”
多A-位点	17467..17472			CDS	17523..18275	基因＝“L3”	“蛋白质VI前体”

CDS	18388..21192	基因＝“L3”	“六邻体”
CDS	18388..21192	基因＝“L3”	“六邻体”	CDS	21229..21858	基因＝“L3”	“23K蛋白质酶”
多A-信号	21878..21883			CDS	21229..21858	基因＝“L3”	“23K蛋白质酶”
多A-信号	21878..21883			多A-信号	互补(21890..21895)
CDS	互补(21911..23464)	基因＝“E2A”	“DNA结合蛋白质”	多A-信号	互补(21890..21895)
CDS	互补(21911..23464)	基因＝“E2A”	“DNA结合蛋白质”	CDS	23531..26020	基因＝“L4”	“六邻体蛋白质”
CDS	25722..26321	基因＝“L4”	“33KD蛋白质”	CDS	23531..26020	基因＝“L4”	“六邻体蛋白质”
CDS	25722..26321	基因＝“L4”	“33KD蛋白质”	CDS	连接(25722..26070.26252..26595)	基因＝“L4”	“33kD蛋白质”
CDS	26665..27348	基因＝“L4”	“pIII蛋白质”	CDS	连接(25722..26070.26252..26595)	基因＝“L4”	“33kD蛋白质”
CDS	26665..27348	基因＝“L4”	“pIII蛋白质”	启动子	27030..27035	“E3的TATA框符”
CDS	27348..27668	基因＝“E3”	“12.1kD糖蛋白”	启动子	27030..27035	“E3的TATA框符”
CDS	27348..27668	基因＝“E3”	“12.1kD糖蛋白”	CDS	27622..28062	基因＝“E3”	“16.1kD蛋白”
CDS	28047..28565	基因＝“E3”	“18.3kD糖蛋白前体”	CDS	27622..28062	基因＝“E3”	“16.1kD蛋白”
CDS	28047..28565	基因＝“E3”	“18.3kD糖蛋白前体”	CDS	28595..29134	基因＝“E3”	“E320.1kD蛋白”
CDS	29147..29716	基因＝“E3”	“E320.6kD蛋白复制”	CDS	28595..29134	基因＝“E3”	“E320.1kD蛋白”
CDS	29147..29716	基因＝“E3”	“E320.6kD蛋白复制”	CDS	29731..29856	基因＝“E3”	“E37.7kD蛋白”
CDS	29969..30244	基因＝“E3”	“E310.3kD蛋白”	CDS	29731..29856	基因＝“E3”	“E37.7kD蛋白”
CDS	29969..30244	基因＝“E3”	“E310.3kD蛋白”	CDS	30249..30653	基因＝“E3B”	“E3B 14.9kD蛋白质前体”
CDS	30646..31053	基因＝“E3B”	“E3B 14.7kD蛋白质”	CDS	30249..30653	基因＝“E3B”	“E3B 14.9kD蛋白质前体”
CDS	30646..31053	基因＝“E3B”	“E3B 14.7kD蛋白质”	多A-位点	31059..31064
CDS	31251..32228	基因＝“L5”	“L5纤毛蛋白”	多A-位点	31059..31064
CDS	31251..32228	基因＝“L5”	“L5纤毛蛋白”	多A-位点	互补(32247..32252)
CDS	互补(32263..32514)	基因＝“E4”	“E4ORF6/7”	多A-位点	互补(32247..32252)
CDS	互补(32263..32514)	基因＝“E4”	“E4ORF6/7”	多A-位点	32764..32769
CDS	互补(33313..33681)	基因＝“E4”	“E413.6kD蛋白质”	多A-位点	32764..32769

CDS	33536..34045	基因＝“可能的病毒蛋白基因”	“可能的病毒蛋白”
CDS	33536..34045	基因＝“可能的病毒蛋白基因”	“可能的病毒蛋白”	CDS	互补(33690..34043)	基因＝“E4”	“E413kD蛋白质”
CDS	互补(34040..34429)	基因＝“E4”	“13.9kD蛋白质”	CDS	互补(33690..34043)	基因＝“E4”	“E413kD蛋白质”
CDS	互补(34040..34429)	基因＝“E4”	“13.9kD蛋白质”	CDS	互补(34471..34848)	基因＝“E4”	“假设蛋白质”

表49：Ad16(登录No.AY594256；SEQ ID NO：585)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..114	“倒转末端重复”
启动子	478..483	“E1启动子的TATA框符”		重复区域	1..114	“倒转末端重复”
启动子	478..483	“E1启动子的TATA框符”		CDS	结合(574..645，1247..1348)	基因＝“E1A”	“6.3KDa蛋白质”
CDS	结合(574..1060，1247..1452)	基因＝“E1A”	“25.7KDa蛋白质”	CDS	结合(574..645，1247..1348)	基因＝“E1A”	“6.3KDa蛋白质”
CDS	结合(574..1060，1247..1452)	基因＝“E1A”	“25.7KDa蛋白质”	CDS	结合(574..1153，1247..1452)	基因＝“E1A”	“28KDa蛋白质”
多A-信号	1489..1494	“E1A的多A信号”		CDS	结合(574..1153，1247..1452)	基因＝“E1A”	“28KDa蛋白质”
多A-信号	1489..1494	“E1A的多A信号”		启动子	1544..1549	“E1B基因的TATA框符”
CDS	1598..2134	基因＝“E1B”	“19K小型T抗原蛋白”	启动子	1544..1549	“E1B基因的TATA框符”
CDS	1598..2134	基因＝“E1B”	“19K小型T抗原蛋白”	CDS	1903..3381	基因＝“E1B”	“55K大型T抗原蛋白”
启动子	3444..3449	“pIX的TATA框符”		CDS	1903..3381	基因＝“E1B”	“55K大型T抗原蛋白”
启动子	3444..3449	“pIX的TATA框符”		CDS	3476..3892	基因＝“pIX”	“蛋白质IX”
多A-位点	3905..3910	“pIX的多A-信号”		CDS	3476..3892	基因＝“pIX”	“蛋白质IX”
多A-位点	3905..3910	“pIX的多A-信号”		多A-	互补(3923..3928)	“E2B的多A-信号”

位点
位点				CDS	互补(连接(3945..5278，5557..5569))	基因＝“E2B”	“成熟蛋白质pIVa2”
CDS	互补(5048..8416)	基因＝“E2B”	“DNA聚合酶”	CDS	互补(连接(3945..5278，5557..5569))	基因＝“E2B”	“成熟蛋白质pIVa2”
CDS	互补(5048..8416)	基因＝“E2B”	“DNA聚合酶”	启动子	5869..5874	“主要晚期启动子的TATA框符”
CDS	7130..7417	基因＝“假设”	“假设10.4K早期蛋白质”	启动子	5869..5874	“主要晚期启动子的TATA框符”
CDS	7130..7417	基因＝“假设”	“假设10.4K早期蛋白质”	CDS	7826..8422	基因＝“L1”	“可能的DNA结合病毒蛋白”
CDS	结合(8426..8570)	基因＝“E2B”	“假设12.6K早期蛋白质”	CDS	7826..8422	基因＝“L1”	“可能的DNA结合病毒蛋白”
CDS	结合(8426..8570)	基因＝“E2B”	“假设12.6K早期蛋白质”	CDS	互补(连接(8419..10386，13843..13851))	基因＝“E2B”	“末端蛋白质前体”
CDS	10851..12020	基因＝“L1”	“55K蛋白质”	CDS	互补(连接(8419..10386，13843..13851))	基因＝“E2B”	“末端蛋白质前体”
CDS	10851..12020	基因＝“L1”	“55K蛋白质”	CDS	12045..13811	基因＝“L1”	“蛋白质IIIa前体”
多A-信号	13825..13830	“L1的多A-信号”		CDS	12045..13811	基因＝“L1”	“蛋白质IIIa前体”
多A-信号	13825..13830	“L1的多A-信号”		CDS	13902..15569	基因＝“L2”	“五邻体碱基蛋白质”
CDS	15582..16160	基因＝“L2”	“蛋白质VII前体”	CDS	13902..15569	基因＝“L2”	“五邻体碱基蛋白质”
CDS	15582..16160	基因＝“L2”	“蛋白质VII前体”	CDS	16203..17255	基因＝“L2”	“32K蛋白质V”
CDS	17284..17511	基因＝“L2”	“蛋白质X”	CDS	16203..17255	基因＝“L2”	“32K蛋白质V”
CDS	17284..17511	基因＝“L2”	“蛋白质X”	多A-位点	17529..17534	“L2的多A-信号”
CDS	17586..18284	基因＝“L3”	“pVI前体”	多A-位点	17529..17534	“L2的多A-信号”
CDS	17586..18284	基因＝“L3”	“pVI前体”	CDS	18450..21272	基因＝“L3”	“六邻体蛋白质”
CDS	21309..21938	基因＝“L3”	“23K蛋白质酶”	CDS	18450..21272	基因＝“L3”	“六邻体蛋白质”
CDS	21309..21938	基因＝“L3”	“23K蛋白质酶”	多A-位点	21958..21963	“L3的多A-信号”
多A-位点	互补(21970..21975)	“E2A的多A-信号”		多A-位点	21958..21963	“L3的多A-信号”
多A-位点	互补(21970..21975)	“E2A的多A-信号”		CDS	互补(22027..23580)	“E2A”	“早期DNA结合蛋白质”
CDS	23611..26097	基因＝“L4”	“100K蛋白质”	CDS	互补(22027..23580)	“E2A”	“早期DNA结合蛋白质”

CDS	25799..26398	基因＝“L4”	“22K蛋白质”
CDS	25799..26398	基因＝“L4”	“22K蛋白质”	CDS	连接(25799..26147，26317..26672)	“33K蛋白质”	基因＝“L4”
CDS	26742..27425	基因＝“L4”	“蛋白质VIII前体”	CDS	连接(25799..26147，26317..26672)	“33K蛋白质”	基因＝“L4”
CDS	26742..27425	基因＝“L4”	“蛋白质VIII前体”	启动子	27107..27112	“E3的TATA框符”
CDS	27425..27745	基因＝“E3A”	“12.2K糖蛋白”	启动子	27107..27112	“E3的TATA框符”
CDS	27425..27745	基因＝“E3A”	“12.2K糖蛋白”	CDS	27699..28139	基因＝“E3A”	“16.1K膜蛋白”
多A-信号	27734..27739	“L4的可能多A-信号”		CDS	27699..28139	基因＝“E3A”	“16.1K膜蛋白”
多A-信号	27734..27739	“L4的可能多A-信号”		CDS	28124..28642	基因＝“E3”	“18.5K糖蛋白前体”
CDS	28672..29211	基因＝“E3”	“20.1K蛋白”	CDS	28124..28642	基因＝“E3”	“18.5K糖蛋白前体”
CDS	28672..29211	基因＝“E3”	“20.1K蛋白”	CDS	29224..29793	基因＝“E3”	“20.5K糖蛋白”
CDS	29808..30023	基因＝“E3”	“7.7K蛋白”	CDS	29224..29793	基因＝“E3”	“20.5K糖蛋白”
CDS	29808..30023	基因＝“E3”	“7.7K蛋白”	CDS	30133..30408	基因＝“E3”	“10.3K蛋白”
CDS	30380..30817	基因＝“E3”	“14.9K蛋白”	CDS	30133..30408	基因＝“E3”	“10.3K蛋白”
CDS	30380..30817	基因＝“E3”	“14.9K蛋白”	CDS	30810..31217	基因＝“E3”	“14.7K蛋白质”
多A-信号	31258..31263	“E3的多A-信号”		CDS	30810..31217	基因＝“E3”	“14.7K蛋白质”
多A-信号	31258..31263	“E3的多A-信号”		CDS	互补(31269..31433)	基因＝“U”	“U外显子蛋白”
CDS	31448..32509	基因＝“L5”	“纤毛蛋白”	CDS	互补(31269..31433)	基因＝“U”	“U外显子蛋白”
CDS	31448..32509	基因＝“L5”	“纤毛蛋白”	多A-信号	互补(32276..32281)	“E4的多A信号”
多A-信号	32520..32525	“L5的可能多A-信号”		多A-信号	互补(32276..32281)	“E4的多A信号”
多A-信号	32520..32525	“L5的可能多A-信号”		CDS	互补(32552..32803)	基因＝“E4”	“ORF6/7”
CDS	互补(32800..33696)	基因＝“E4”	“34K蛋白质”	CDS	互补(32552..32803)	基因＝“E4”	“ORF6/7”
CDS	互补(32800..33696)	基因＝“E4”	“34K蛋白质”	CDS	互补(33599..33967)	基因＝“E4”	“13.6K蛋白质”
CDS	33822..34331	基因＝“L5”	“DNA结合病毒蛋白”	CDS	互补(33599..33967)	基因＝“E4”	“13.6K蛋白质”
CDS	33822..34331	基因＝“L5”	“DNA结合病毒蛋白”	CDS	互补(33976..34239)	基因＝“E4”	“13K蛋白质”

CDS	互补(34757..35134)	基因＝“E4”	“13.9K蛋白质”
CDS	互补(34757..35134)	基因＝“E4”	“13.9K蛋白质”	启动子	互补(35216..35221)	“E4的TATA框符”
重复区	互补(35409..35522)	“倒转末端重复”		启动子	互补(35216..35221)	“E4的TATA框符”

表50：Ad1(登录No.AY534906；SEQ ID NO：586)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	CDS	连接(560..1112，1230..1546)	基因＝“E1a”	“32kDa蛋白质”
CDS	连接(560..976，1232..1546)	基因＝“E1a”	“26kDa蛋白质”	CDS	连接(560..1112，1230..1546)	基因＝“E1a”	“32kDa蛋白质”
CDS	连接(560..976，1232..1546)	基因＝“E1a”	“26kDa蛋白质”	CDS	连接(560..643，1236..1319)	基因＝“E1a”	“6kDa蛋白质”
CDS	1717..2259	基因＝“E1a”	“21kDa蛋白质”	CDS	连接(560..643，1236..1319)	基因＝“E1a”	“6kDa蛋白质”
CDS	1717..2259	基因＝“E1a”	“21kDa蛋白质”	CDS	2022..3524	基因＝“E1b”	“转化相关的55kD蛋白”
CDS	连接(2022..2270，3291..3524)	基因＝“E1b”	“E1b”	CDS	2022..3524	基因＝“E1b”	“转化相关的55kD蛋白”
CDS	连接(2022..2270，3291..3524)	基因＝“E1b”	“E1b”	CDS	连接(2022..2270，3233..3277)	基因＝“E1b”	“E1b”
CDS	3261..4043	基因＝“IX”	“14.5kDa六邻体蛋白质”	CDS	连接(2022..2270，3233..3277)	基因＝“E1b”	“E1b”
CDS	3261..4043	基因＝“IX”	“14.5kDa六邻体蛋白质”	CDS	互补(4102..5460)	基因＝“IVa2”	“病毒体形态相关21kDa蛋白质”
CDS	互补(5208..8378)	基因＝“IVa2”	“120kDa DNA聚合酶”	CDS	互补(4102..5460)	基因＝“IVa2”	“病毒体形态相关21kDa蛋白质”
CDS	互补(5208..8378)	基因＝“IVa2”	“120kDa DNA聚合酶”	CDS	7989..8438	基因＝“L1”	“16.7kDa蛋白质”
CDS	互补(8594..10552)	基因＝“E2b”	“末端75kDa蛋白质”	CDS	7989..8438	基因＝“L1”	“16.7kDa蛋白质”
CDS	互补(8594..10552)	基因＝“E2b”	“末端75kDa蛋白质”	CDS	互补(10598..10996)	“未知”
CDS	11059..12306	基因＝“L1”	“47kDa蛋白质”	CDS	互补(10598..10996)	“未知”
CDS	11059..12306	基因＝“L1”	“47kDa蛋白质”	CDS	12327..14084	基因＝“IIIa”	“peri五邻体al六邻体相关65kDa蛋白质”
CDS	14166..15890	基因＝“L31”	“64kDa五邻体蛋白质”	CDS	12327..14084	基因＝“IIIa”	“peri五邻体al六邻体相关65kDa蛋白质”

CDS	15897..16493	基因＝“pro-VII”	“22kDa大核蛋白前体”
CDS	15897..16493	基因＝“pro-VII”	“22kDa大核蛋白前体”	CDS	16563..17669	基因＝“pV”	“42kDa小核蛋白前体”
CDS	17793..17939	基因＝“L2”	“pmu 8.8kDa”	CDS	16563..17669	基因＝“pV”	“42kDa小核蛋白前体”
CDS	17793..17939	基因＝“L2”	“pmu 8.8kDa”	CDS	18022..18774	基因＝“pVI”	“六邻体相关27kDa蛋白质前体”
CDS	18861..21775	基因＝“L4”	“109kDa六邻体蛋白质”	CDS	18022..18774	基因＝“pVI”	“六邻体相关27kDa蛋白质前体”
CDS	18861..21775	基因＝“L4”	“109kDa六邻体蛋白质”	CDS	21788..22402	基因＝“L3_1”	“23kDa肽链内断酶”
CDS	互补(22500..24089)	基因＝“E2a_1”	“59kDa DNA结合蛋白质”	CDS	21788..22402	基因＝“L3_1”	“23kDa肽链内断酶”
CDS	互补(22500..24089)	基因＝“E2a_1”	“59kDa DNA结合蛋白质”	CDS	24118..26541	基因＝“L5”	“90K六邻体组合相关蛋白质”
CDS	连接(26252..26566，26769..27137)	基因＝“E2a_2”	“病毒体形态相关25kDa蛋白质”	CDS	24118..26541	基因＝“L5”	“90K六邻体组合相关蛋白质”
CDS	连接(26252..26566，26769..27137)	基因＝“E2a_2”	“病毒体形态相关25kDa蛋白质”	CDS	27225..27908	基因＝“pVIII”	“六邻体相关25kDa蛋白质”
CDS	27909..28232	基因＝“E3A”	“12kDa蛋白质”	CDS	27225..27908	基因＝“pVIII”	“六邻体相关25kDa蛋白质”
CDS	27909..28232	基因＝“E3A”	“12kDa蛋白质”	CDS	28775..29257	基因＝“E3”	“18.6kDa糖化膜蛋白”
CDS	29532..29816	基因＝“E3”	“10.7kDa蛋白质”	CDS	28775..29257	基因＝“E3”	“18.6kDa糖化膜蛋白”
CDS	29532..29816	基因＝“E3”	“10.7kDa蛋白质”	CDS	30106..30507	基因＝“E3”	“14.9kDa蛋白质”
CDS	31101..32849	基因＝“L5”	“62kDa纤毛蛋白”	CDS	30106..30507	基因＝“E3”	“14.9kDa蛋白质”
CDS	31101..32849	基因＝“L5”	“62kDa纤毛蛋白”	CDS	互补(连接(33976..34063，34768..34865，35232..35594))	基因＝“E4”	“20kDa蛋白质”
CDS	互补(连接(33976..34063，34768..35054，35232..35594))	基因＝“E4”	“27kDa蛋白质”	CDS	互补(连接(33976..34063，34768..34865，35232..35594))	基因＝“E4”	“20kDa蛋白质”
CDS	互补(连接(33976..34063，34768..35054，35232..35594))	基因＝“E4”	“27kDa蛋白质”	CDS	互补(连接(33976..34063，34768..35168，35232..35594))	基因＝“E4”	“32kDa蛋白质”
CDS	互补(连接(34764..34865，	基因＝“E4”	“17kDa蛋白质”	CDS	互补(连接(33976..34063，34768..35168，35232..35594))	基因＝“E4”	“32kDa蛋白质”

	35232..35594))
	35232..35594))			CDS	互补(连接(34764..35054，35232..35594))	基因＝“E4”	“24kDa蛋白质”
CDS	互补(连接(34764..35168，35232..35594))	基因＝“E4”	“28.6kDa蛋白质”	CDS	互补(连接(34764..35054，35232..35594))	基因＝“E4”	“24kDa蛋白质”

表51：Ad21(登录号No.AY601633；SEQ ID NO：587)序列特征和假设性基因产物

特征类型	位置	注释或基因位点	产物
特征类型	位置	注释或基因位点	产物	重复区域	1..114	“倒转末端重复”
CDS	结合(574..645，1247..1348)	基因＝“E1A”	“E1A 6.8KDa蛋白质”	重复区域	1..114	“倒转末端重复”
CDS	结合(574..645，1247..1348)	基因＝“E1A”	“E1A 6.8KDa蛋白质”	CDS	结合(574..1155，1249..1452)	基因＝“E1A”	“E1A 28.4KDa蛋白质”
CDS	结合(574..1062，1249..1452)	基因＝“E1A”	“E1A 24.6KDa蛋白质”	CDS	结合(574..1155，1249..1452)	基因＝“E1A”	“E1A 28.4KDa蛋白质”
CDS	结合(574..1062，1249..1452)	基因＝“E1A”	“E1A 24.6KDa蛋白质”	多A-信号	1491..1496	“E1A”
启动子	1541..1580	“E1B和IX”		多A-信号	1491..1496	“E1A”
启动子	1541..1580	“E1B和IX”		CDS	1905..3383	基因＝“E1B”	“E1B小型T抗原”
CDS	3477..3893	基因＝“IX”	“蛋白质IX(六邻体相关蛋白)”	CDS	1905..3383	基因＝“E1B”	“E1B小型T抗原”
CDS	3477..3893	基因＝“IX”	“蛋白质IX(六邻体相关蛋白)”	多A-信号	3906..3911	“E1B和IX”
多A-信号	3476..3892	“E2B和IVa2”		多A-信号	3906..3911	“E1B和IX”
多A-信号	3476..3892	“E2B和IVa2”		CDS	互补(连接(3946..5279，5558..5570))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”
CDS	互补(5049..8417)	基因＝“E2B(POL)”	“DNA聚合酶”	CDS	互补(连接(3946..5279，5558..5570))	基因＝“IVa2”	“IVa2蛋白质(成熟蛋白质)”
CDS	互补(5049..8417)	基因＝“E2B(POL)”	“DNA聚合酶”	CDS	6142..6462	基因＝“未赋值”	“假设11.5KDa蛋白质”
CDS	互补(6866..7387)	基因＝“未赋值”	“假设19KDa蛋白质”	CDS	6142..6462	基因＝“未赋值”	“假设11.5KDa蛋白质”
CDS	互补(6866..7387)	基因＝“未赋值”	“假设19KDa蛋白质”	CDS	7131..7418	基因＝“未赋值”	“假设10.4KDa蛋白质”
CDS	连接(7827..8228，9478..9495)	基因＝“未赋值”	“DNA结合蛋白质”	CDS	7131..7418	基因＝“未赋值”	“假设10.4KDa蛋白质”
CDS	连接(7827..8228，9478..9495)	基因＝“未赋值”	“DNA结合蛋白质”	CDS	互补(8227..8571)	基因＝“未赋值”	“假设12.6KDa蛋白质”

CDS	互补(8420..10342)	基因＝“E2B(pTP)”	“DNA末端蛋白质”
CDS	互补(8420..10342)	基因＝“E2B(pTP)”	“DNA末端蛋白质”	CDS	8546..8947	基因＝“未赋值”	“假设14.5KDa蛋白质”
CDS	互补(9541..9855)	基因＝“未赋值”	“假设11.5KDa蛋白质”	CDS	8546..8947	基因＝“未赋值”	“假设14.5KDa蛋白质”
CDS	互补(9541..9855)	基因＝“未赋值”	“假设11.5KDa蛋白质”	CDS	9755..10030	基因＝“未赋值”	“假设9.7KDa蛋白质”
启动子	互补(10521..10560)	“E2B和IVa2”		CDS	9755..10030	基因＝“未赋值”	“假设9.7KDa蛋白质”
启动子	互补(10521..10560)	“E2B和IVa2”		启动子	10576..10615	“L1”
CDS	10587..12026	基因＝“L1(52K)”	“L152K蛋白质”	启动子	10576..10615	“L1”
CDS	10587..12026	基因＝“L1(52K)”	“L152K蛋白质”	CDS	12054..13805	基因＝“L1(IIIa)”	“蛋白质IIIa”
CDS	13878..15563	基因＝“L1(五邻体)”	“五邻体蛋白质(蛋白质III)”	CDS	12054..13805	基因＝“L1(IIIa)”	“蛋白质IIIa”
CDS	13878..15563	基因＝“L1(五邻体)”	“五邻体蛋白质(蛋白质III)”	多A-信号	15565..15570	“L2(五邻体)”
CDS	15572..16150	基因＝“L2(pVII)”	“大核蛋白(蛋白质pVII)”	多A-信号	15565..15570	“L2(五邻体)”
CDS	15572..16150	基因＝“L2(pVII)”	“大核蛋白(蛋白质pVII)”	CDS	16190..17251	基因＝“L2(pV)”	“大核蛋白(蛋白质pV)”
CDS	17280..17510	基因＝“L2(pX)”	“蛋白质X(蛋白质mu)”	CDS	16190..17251	基因＝“L2(pV)”	“大核蛋白(蛋白质pV)”
CDS	17280..17510	基因＝“L2(pX)”	“蛋白质X(蛋白质mu)”	多A-信号	17528..17533	“L2(X)”
启动子	17542..17581	“L3”		多A-信号	17528..17533	“L2(X)”
启动子	17542..17581	“L3”		CDS	17583..16150	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白)”
CDS	18454..21303	基因＝“L3(六邻体)”	“六邻体蛋白(蛋白质II)”	CDS	17583..16150	基因＝“L3(pVI)”	“蛋白质VI(六邻体相关蛋白)”
CDS	18454..21303	基因＝“L3(六邻体)”	“六邻体蛋白(蛋白质II)”	CDS	21340..21969	基因＝“L3(23K)”	“23K蛋白酶(Adenain)”
多A-信号	21989..21944	“L3”		CDS	21340..21969	基因＝“L3(23K)”	“23K蛋白酶(Adenain)”
多A-信号	21989..21944	“L3”		多A-信号	互补(22001..22006)	“E2A”
CDS	互补(22058..23611)	基因＝“E2A(DBP)”	“早期E2A DNA结合蛋白”	多A-信号	互补(22001..22006)	“E2A”
CDS	互补(22058..23611)	基因＝“E2A(DBP)”	“早期E2A DNA结合蛋白”	启动子	互补(23560..23599)	“E2A”

启动子	23601..23641	“L4”
启动子	23601..23641	“L4”		CDS	23642..26414	基因＝“L4(100K)”	“100K蛋白质”
CDS	25815..26113	基因＝“L4(22K)”	“22K蛋白质”	CDS	23642..26414	基因＝“L4(100K)”	“100K蛋白质”
CDS	25815..26113	基因＝“L4(22K)”	“22K蛋白质”	CDS	连接(25815..26163，26354..26688)	基因＝“L4(33K)”	“33K蛋白质”
多A-信号	26559..26564	“L4(100K和22K)”		CDS	连接(25815..26163，26354..26688)	基因＝“L4(33K)”	“33K蛋白质”
多A-信号	26559..26564	“L4(100K和22K)”		CDS	26758..27441	基因＝“L4(pVIII)”	“L4蛋白质VIII”
CDS	27441..27761	基因＝“E3”	“E312.1kD蛋白”	CDS	26758..27441	基因＝“L4(pVIII)”	“L4蛋白质VIII”
CDS	27441..27761	基因＝“E3”	“E312.1kD蛋白”	CDS	27715..28155	基因＝“E3”	“E316kD蛋白”
多A-信号	27750..27755	“E3”		CDS	27715..28155	基因＝“E3”	“E316kD蛋白”
多A-信号	27750..27755	“E3”		CDS	28140..28658	基因＝“E3”	“E319.2kD蛋白”
CDS	28688..29277	基因＝“E3”	“E320kD蛋白”	CDS	28140..28658	基因＝“E3”	“E319.2kD蛋白”
CDS	28688..29277	基因＝“E3”	“E320kD蛋白”	CDS	29240..29287	基因＝“E3”	“E321.2kD蛋白”
CDS	29857..30084	基因＝“E3”	“E38.8kD蛋白”	CDS	29240..29287	基因＝“E3”	“E321.2kD蛋白”
CDS	29857..30084	基因＝“E3”	“E38.8kD蛋白”	CDS	30124..30399	基因＝“E3”	“E310.3kD蛋白”
CDS	30371..30808	基因＝“E3”	“E316.6kD蛋白”	CDS	30124..30399	基因＝“E3”	“E310.3kD蛋白”
CDS	30371..30808	基因＝“E3”	“E316.6kD蛋白”	CDS	31406..32377	基因＝“L5(纤毛)”	“纤毛蛋白”
多A-信号	32380..32385	“L5”		CDS	31406..32377	基因＝“L5(纤毛)”	“纤毛蛋白”
多A-信号	32380..32385	“L5”		多A-信号	互补(32397..32402)	“E4”
CDS	互补(连接(32409..32660，33383..33556))	基因＝“E4”	“E416kD蛋白”	多A-信号	互补(32397..32402)	“E4”
CDS	互补(连接(32409..32660，33383..33556))	基因＝“E4”	“E416kD蛋白”	CDS	互补(32657..33556)	基因＝“E4”	“E434.7kD蛋白”
CDS	互补(33459..33827)	基因＝“E4”	“E414.3kD蛋白”	CDS	互补(32657..33556)	基因＝“E4”	“E434.7kD蛋白”
CDS	互补(33459..33827)	基因＝“E4”	“E414.3kD蛋白”	CDS	33682..34191	基因＝“未赋值”	agonoprotein相似于人腺病毒Bagonoprotein，GI：329670

			54
			54	CDS	互补(33836..34189)	基因＝“E4”	“E413.6kD蛋白”
CDS	互补(34186..34575)	基因＝“E4”	“E414.4kD蛋白”	CDS	互补(33836..34189)	基因＝“E4”	“E413.6kD蛋白”
CDS	互补(34186..34575)	基因＝“E4”	“E414.4kD蛋白”	CDS	互补(34617..34994)	基因＝“E4”	“E414.2kD蛋白”
CDS	互补(35269..35382)	“ITR”		CDS	互补(34617..34994)	基因＝“E4”	“E414.2kD蛋白”

为了上面表39-51中指定的产物，本发明者注意到，普适遗传密码将“定位”柱中被鉴别的核酸序列导入相应的氨基酸序列中。同样地，“产物”柱中指定的氨基酸序列没有被明确列出。

现在参照附图，其中相同数字指定贯穿几个图像中的相同或相应部分。在这里，“有意义”一般是关于预先确定水平的统计学显著性或结果的确定性。可供选择地，有意义表明对于用户得出关于存在特异性生物实体或一群实体结论的预先确定水平的有效性。例如，BLAST返回E值(相应概率)，数据库内已知序列数量的E值对应于序列数据库记录的总数，该序列数据库记录返回被查询子序列的同样类似值(比值)。如果重排提交的测序序列返回相同的E值，最初结果是无意义的。另外，这里使用的术语“可比较的”一般统指包括足够量的有效碱基响应的数据，该数据从类似性搜索返回有意义结果。此外，关于使用该数据从类似性搜索返回给用户的有效性结果的术语“可比较的”可被交换使用。相反地，术语“无可比较的”一般统指包括足够量的无碱基响应(Ns)的数据，该数据导致类似性搜索的无意义或不确定结果。

该体系，包括REPI(再测序病原菌鉴别器)，通过筛选和编辑序列数据到更适于序列类似性搜索的子序列中，被设计自动化和按算法分析不完整核苷酸或多肽序列的输出。为了完成这个目的，系统包括一些功能步骤，或过滤器，当从序列数据中提取可比较数据时尽可能小地修改数据。如上面描述的，由于再测序微阵列的特性，序列通常包含大量的无碱基响应(Ns)。类似性搜索如BLAST典型地返回不确定结果或具有大量无碱基响应的序列。模糊结果的实施例包括，但不限于低比值或不预测唯一类似性搜索的预期(E)值。因此，本系统的实施方案提取原始序列的那些片段，或子序列，该原始序列最可能从类似性搜索中返回有意义结果。

图11(a)为本发明实施方案的示范性示意图。通过系统208的自动化子序列分析模块209首先处理序列数据203。ASP 209过滤序列数据203并仅筛选可能导致预期确定概率匹配211a(例如，BLAST预期值＜1.0E-9)的那些子集。然后，采用如类似性搜索算法将这些子集比对数据库109，结果返回给系统用于进一步分析和概述214。然后，将生成的搜索总结213提交给用户用于更深层分析215。因为分身不能返回统计学相关(例如，BLAST预期值＜1.0e^-9)搜索结果的序列子集通过ASP排除掉，返回给用户的结果213通常包括比提交未分析序列的常规方法更高比例的显著性匹配213a。采用BLAST或BLAST类类似性搜索算法的特殊实施方案中，1.0e^-150到2之间的预期值是优选的。更优选地，涉及BLAST的实施方案包括执行唯一鉴别单一病原菌数据库记录的比值和预期值。选择性地，系统208进一步过滤归纳出的结果仅显示出满足用户设定或系统预先确定标准的那些匹配子序列。这些标准包括但不限于：比值、预期值(另一种序列能导致同样结果的偶然性)，或来自子序列或用于生成碱基响应的微阵列信号强度的区域的另一种得分。图11(a)也说明，提高共享序列数据库和比对资源109在网络连接217范围内提供结果给附加用户219的能力。

图11(b)为REPI的示范性实施方案，系统的一种实施方案。通过REPI208′的自动化子序列分析模块(ASP)209′首先序列数据库203′。ASP

209′过滤序列数据203′并仅筛选可能导致预期确定概率匹配211a′的那些子集。然后，采用如类似性搜索算法将这些子集比对数据库109′，结果返回给系统用于进一步分析和概述214′。然后，将生成的搜索总结213′提交给用户用于更深层分析215′。因为分身不能返回统计学相关搜索结果的序列子集通过ASP排除掉，返回给用户的结果213′通常包括比提交未分析序列的常规方法更高比例的显著性匹配213a′。选择性地，REPI 208′进一步过滤归纳出的结果仅显示出满足用户设定或系统预先确定标准的那些匹配子序列。图11(b)也说明，提高共享序列数据库和比对资源109′在网络连接217′范围内提供结果给附加用户219的能力。

FIG.11(c)为软件中一种系统实施方案界面的示范性筛选屏幕(这个例子中的图像用户)。这个特殊实施方案能连接网络和局部BLAST服务器(任一或两者)，并能修改一些常用BLAST参数251。此外，如下面细节中描述的，分析算法253特异性参数，如窗口尺寸，对用户可来说是非必须的。

图12为描述CIBSI，包括ASP的全面功能性的流程图。在开始CIBSI操作S301，CIBSI得到“原始”序列。REPI可得到许多格式，包括但不限于FASTA、MSF、GCG、Clustal、BLC、PIR、MSP、PFAM、POSTAL、和JNET的序列数据。在常规和再策略微阵列中，序列数据典型性采取对应于微阵列多重拼接区域的碱基响应的FASTA形式多重序列。

除了关于序列数据格式的灵活性，系统从多种不同来源类型接收数据。如上面描述的，这些类型包括，但不限于，手动或自动的Sanger测序法、shotgun测序法、常规微阵列、再测序微阵列、微电泳测序法、杂交测序法(SBH)、Edman简并和其变异、扩增分子上循环阵列测序法、单一分子上循环阵列测序法、和无循环、单分子、实时方法如纳米孔测序法。可供选择地，原是序列S301可由转录核酸(信使核糖核酸(mRNA)或用于病毒转录和翻译的中间相序列。例如，本发明的一种实施方案是关于RNA转录，RNA在其片段化(用Affymetrix基因表达阵列完成)后直接杂交到阵列上或使用反转录酶转变成DNA。该区域由基因组的外显子区构建而成并且再测序阵列用于分析这些序列的哪个使其进入转录子中。在可供选择的实施方案中，在图12中描述的方法对应于氨基酸序列，一组原始序列S301可描述氨基酸的直接读序或从氨基酸组合中推断出的序列如高分辨质谱测定的。选择性地，原始氨基酸或蛋白质数据被分析出包括相对位置数据，其中相对位置不是保守的。

在再测序微阵列中，经再测序拼接的全部构成内的局部序列位置间接表明全部基因序列构成。例如，再测序阵列可能仅同时给出5-10个连续碱基响应的读序，每个读序被连续无碱基响应隔开。图33描绘了这个概念的更普遍描述，这个概念被应用于局部序列读序的任何集合。因此，核苷酸碱基响应的任何集合或彼此无明显关联的氨基酸序列首先与“病毒序列”进行比较，针对可探测的较短序列进行比较。那么，连续碱基响应，或局部序列作为集合序列的个体部分是有关联的。因此，为了微阵列的局部序列数据或更有效和通过CIBSI有效加工处理的任何其他序列生成平台，局部序列首先连接成集合安排、或组合序列。为了确定哪个局部序列应被结合和被取代，采用类似性搜索用存储器中存储的一群参考序列比对每个可检测子序列。当与参考序列中的一种进行比对时得到符合条件匹配的局部序列作为组合序列部分被存储起来提交给CIBSI用于分析。

格式化从再测序微阵列中提取的序列数据的方法在图33中显示的流程图中进行了描绘。从再测序微阵列或任何其他核苷酸或多肽测序平台S2403中提取的序列信息，并被加工处理来探测被连续无碱基响应S2405隔离的局部序列。探测局部序列的步骤可通过窗口功能被执行，窗口功能一经检测到碱基响应就启动观察窗口并且当另一组无碱基响应被探测到就关闭观察窗口。因此，在局部序列数据周围建立一种窗口，并且隔离局部序列读序无碱基响应被剔除。扫描操作也可在序列数据上执行，该扫描操作识别每个连续无碱基响应，从而指出对应于局部序列的一组碱基响应。

然后，每个被鉴别的局部序列与存储参考序列S2409进行比对来确定是否局部序列符合存储的参考序列中的一种。这个比对将产生表明存储参考序列和局部序列之间类似性的统计值。然后，如果统计值在预先确定阈值之外，局部序列被存储为S2413与其他局部序列SS2415结合。可供选择地，如果统计值低于预先确定阈值，局部序列被排除掉。这个过程持续到所有局部序列都被比对，因此生成一组混合数据被提交给CIBSI，如下面被讨论的。

然后，该系统在提取候选子序列S305之前执行对照组检验S303。在提取候选子序列之后，系统从候选子序列S307的前端和末端剔除无响应(Ns)。然后，该系统检验被剔除的候选子序列S309的长度来确定是否可供选择序列或自序列应被筛选出S311，候选子序列随时转到类似性搜索服务器上并被加到类似性搜索队列S315上，或者是否百分率或子序列中正确碱基响应的附加检验满足可接受的阈值而对其进行比较(采用类似性搜索)。可供选择的序列或子序列S311的筛选通过使用滑窗算法在一种实施例中完成。为了那些与S315比对的序列，系统聚集类似性搜索服务器返回的结果，对这些结果进行统计分析并且依据用户参数选择S317将其过滤给用户。选择性地，该系统将类似性搜索结果完全地返回给被提交的子序列。当生成更明显的下面描述的给定示范性实施方案时，在可供选择的实施方案中能重新安排或修改算法步骤。另外，也如下面更详细描述的，系统的行为经系统预先确定或经用户选择性地确定。

下列段落更详细地描述了图12中显示的每个主要功能性步骤

图13为执行对照检验步骤S303的对照检验模块的示范性流程图。因此，序列首先被检验察看是否它是微阵列S403通常输出的对照组序列，微阵列S403不符合生物样本，但相反证实微阵列运行正常。被加入到微阵列的对照组序列被特定设计为无义，唯一可确认的，或非自然发生序列；因此，经缺省，对照组序列将不返回显著类似性。如果序列不是对照组，在继续下一步S409之前，系统可选择性地检验是否序列匹配可供选择的自定义参数标记S407。万一序列被识别当作对照组或匹配自定义参数，系统选择性地执行对应于自定义参数的辅助功能或移动指令到下一种序列S405上。

图14为提取子序列步骤S305的示范性流程图。初步筛选序列S501，该系统在窗口尺寸背景内检查序列S503，Z为对应于许多被返回的碱基响应的窗口尺寸参数。这个“观察窗口”一般小于典型序列尺寸并且可在序列的任何点形成。然后，该系统计算窗口内存在实际碱基响应的百分率(无无响应)S505。在被说明的实施例中，通过将″1″设为有效碱基，″0″设为所有无响应，执行该计算。在一种实施方案中，窗口尺寸Z从两个碱基响应之间优选范围和半个长度的最小靶点或输入序列中筛选出。当窗口尺寸增加时，筛选包括更多无碱基响应的候选子序列的模块变得更被允许的。

然后，将计算的百分率与最初的跳跃阈值参数A(例如，25％)进行比对，最初的跳跃阈值参数可被系统预先确定或被用户选择S507。如果窗口内的实际碱基响应的计算百分率不符合最初的跳跃阈值参数A确定的标准，系统增加了碱基响应的窗口数量S509，依据最初窗口跳跃参数，X，该最初窗口跳跃参数也可能由系统预先确定或由用户选择，但是优选在1和Z之间，Z为窗口尺寸参数。增加这点或任何其他点上窗口能在任何方向上发生(例如，向序列末端)。在窗口内的实际碱基响应的计算百分率符合由最初的跳跃阈值参数A确定的标准的情况下，系统在滑窗起始处的候选子序列的起点做标记S511。然后，依据第二个窗口跳跃参数，Y，该窗口被增量移动许多碱基响应S513，并且在每个滑动增量处，计算出窗口内实际碱基响应的百分率S515。如果，候选序列内实际碱基响应的百分率不能满足第二个窗口跳跃阈值B设置的标准，系统在对应于窗口末端处碱基响应的序列碱基响应处的候选子序列末端作标记，系统搜索连续的最大可用数据。当系统跳跃参数X和Y增加时，筛选具有更多无碱基响应的候选子序列的模块变得更被允许的。当跳跃阈值A和B增加，其他条件不变时，模块变得较少被许可。

图14(b)为滑窗算法的一种实施例，依据本发明的实施方法。滑窗551的起始端和末端确定了候选序列553的长度和内容。这个子序列在下面描述的剔除功能中被剔除。

图15为系统执行的剔除功能S307中更详细描述的示范性流程图。在这个特殊功能模块中，系统探测到候选子序列S603的起初Ns并且随后剔除了候选子序列S605的起始Ns。然后，该系统识别出候选子序列的实际起点已经改变S607并且调整了候选子序列的位置和内容。一组类似行为被执行来除去候选子序列S613、S617末端的Ns。因为这里描述的滑窗方法允许序列以Ns为起始端并以Ns为末端，剔除提高了算法的最优性。可供选择地，滑窗功能能适合于或被替代探测和回避Ns和候选子序列的起始和/或末端，因此消除了对这个步骤的需求。

该体系的下一种功能为长度评估S309。图16显示出详细设计执行检验长度步骤的方法的示范性流程图S309。候选子序列的长度为计算出来S703并且与最初长度阈值参数，E进行比较S705。如果候选子序列的长度不大于E(例如，20个核苷酸)，系统返回到提取子序列步骤S305。如果满足了最初长度阈值E，候选子序列的长度与第二个长度阈值参数，F(例如，50个核苷酸)进行比较S709。如果候选子序列长度超过F，候选子序列被提交给类似性搜索(比对)服务器或被加到经服务器批处理被筛选子序列的队列上S711。在候选子序列超过E但没有超过F的情况中，系统移动指令到检验中等长度(例如，长度在20个核苷酸和50个核苷酸之间的子序列)候选自序列内的实际碱基响应的百分率步骤上S713。最初和第二个长度阈值参数E和F能在与最大可供搜索的子序列一样宽的范围内改变。另外，由于E和F降低，模块变得更被允许的。

图17显示出计算百分率功能的示范性流程图。在这个功能范围内，计算中等长度候选子序列的实际碱基响应百分率S803。这个被计算的百分率与中间百分率阈值H进行比较S805，中间百分率阈值H由用户选择或由系统预先确定。如果实际碱基响应的计算百分率小于中间百分率阈值H(例如，60％)，系统返回到提取子序列步骤S807搜索可供选择的候选子序列。如果计算百分率超过H，中等长度候选序列被提交给批处理子序列的队列上或直接被提交到类似性搜索服务器上S809。由于中间百分率得分阈值参数增加，模块成为具有大量无碱基响应的子序列较少被许可。

除了被提交的子序列的类似性搜索中得到的结果之外，系统选择性地提供了被提交的子序列的进一步分析。图18(a)为更详细描述图12的模块S317内系统活动的示范性流程图。这个模块在子序列或子序列群与S901进行比较后产生。在这点上，系统读出类似性搜索输出S903并分析该输出结果，运算关于被提交子序列的附加描述统计，被提交的子序列由用户选择或由系统预先确定S905。

由系统执行并运行统计的分析包括，但不限于，被筛选的子序列长度如碱基响应内序列百分率和子序列长度，两者一起用于说明靶点生物实体基因的哪个部分被鉴定。这个子序列长度和子序列碱基响应的百分率使研究者监控系统算法和功能步骤。另外，在再测序微阵列中，包括，但不限于GDAS的碱基响应分析的阈值参数被监控。在可供选择的实施方案中，系统收到并格式化类似性搜索返回的统计结果，用户使用图形用户界面操作和组织这些结果。图18(b)为根据本发明实施方案输出结果数据的实施例。

选择性地，系统能存储所有由类似性搜索和上面描述的分析返回的输出结果，包括，例如BLAST结果。该系统也选择性地显示S909给用户由类似性搜索返回的和/或由该系统运算的所有结果或结果子集。本发明的某些实施方案将这些结果发送和保存用于存档或转移S911。

下列表说明上面描述的一些示范性参数和阈值的示范性区间和优选子区间。

优选子区间：

表52

参数阈值
参数阈值					预期值阈值		1.0E-9	1.0E-8-1.0E-10	1.0E-7-1.0E-11
窗口尺寸	Z	20	10-30	1-^*	预期值阈值		1.0E-9	1.0E-8-1.0E-10	1.0E-7-1.0E-11
窗口尺寸	Z	20	10-30	1-^*	第一种跳跃阈值	A	25％	15％-35％	1％-99％
第一种窗口跳跃	X	1	1-5	1-^*	第一种跳跃阈值	A	25％	15％-35％	1％-99％
第一种窗口跳跃	X	1	1-5	1-^*	第二个窗口跳跃	Y	1	1-5	1-^*
第二个跳跃阈值	B	25％	15％-35％	1％-99％	第二个窗口跳跃	Y	1	1-5	1-^*
第二个跳跃阈值	B	25％	15％-35％	1％-99％	第一种长度阈值	E	20	10-30	1-^*
第二个长度阈值	F	50	40-60	1-^*	第一种长度阈值	E	20	10-30	1-^*
第二个长度阈值	F	50	40-60	1-^*	中间百分比阈值	H	60％	50％-70％	1％-99％
受到系统参数如随机存取存储器、处理器速度等限制					中间百分比阈值	H	60％	50％-70％	1％-99％

在该系统的另一种实施方案中，搜索(比对)输出可被分析最优化参数，J，S913。如上面描述的，系统的参数和阈值，包括，但不限于A、B、X、Y、E、F、和H，由用户设置或由系统预先确定。可供选择地，系统的一种实施方案能通过系统或通过使用互补功能模块最优化这些变量中的一种或几个。例如，最优化参数或阈值能依据已知的最优化方法(例如，SIMPLEX线性程序)或人工智能(包括状态空间搜索方法如随机搜索或启发式搜索)技术在多种应用系统操作或“传送”期间通过分析被记录的系统性能进行实施。相应的最优化参数，J，可被用于，例如，改变先前步骤中使用的多种参数和阈值并且再次使用这些新的最优化参数运行这个过程S917。可供选择地，代替再次从原始数据文件开始，最优化参数J能被用于通过使用最优化参数J提炼被筛选出的子序列的输出S915而改变与参数相关的如与系统联合的类似性搜索算法的行为或功能。最优化参数能由用户或系统调整来提高系统性能，如速度或相关/有意义的类似性搜索结果。

图19为描述本发明的另一种实施方案的示范性流程图，本发明利用其延伸的核心本质。特殊地，系统分析1017被用于最优化或改变对应于类似性搜索算法的操作或行为的参数1009。例如，这个改变可能与在分析结果中运算或插值的上面描述的最优化参数J相关1017。改变类似性搜索参数(例如，BLAST参数)改变该方法和典型用在类似性搜索中评分系统。特殊地，举例说明的迭代分析法可能导致提示测试序列与已知序列可能匹配的最高阈值或最低阈值，因此改变或最优化系统输出1019。

本发明的描述进一步由下列详细实施例支持。下列详细实施例对应于本发明的示范性实施方案并不是为了提出限制本发明的系统措作、参数设定、序列数据，等。

REPI的一种实施方案用于确定CustomSeq/GCOS/GDAS方法中的哪个碱基响应子序列通过使用自定义滑窗算法将可能返回显著性BLAST结果。随后地，REPI自动返回BLAST输出给终端用户，该终端用户概率性分配给定组碱基响应对应特殊生物序列的可能性。此外，REPI自动将序列片段连接到个体病原菌上。

再测序阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传分析软件version 2.0(GDAS)来提供。GDAS碱基响应基于先前描述的碱基响应算法(Cutler et al.，2001)。包含从GDAS软件得到的碱基响应的每一种FASTA输出文件采用专属软件(REPI)进行分析，该专属软件(REPI)是这里描述的本发明的一种示范性实施方案。

在本发明的情况中，GDAS的序列输出大部分通常为邻近序列响应(A、T、C或G)的分散混合物，邻近序列响应(A、T、C或G)点缀着不同量的无响应(n′s)，由于缺少扩增、芯片上的弱杂交信号和/或非特异性结合导致的高背景杂交，GDAS软件不产生碱基响应(Cutler et al.，2001)。Ad4FIBER拼接区域的4(+)腺病毒临床样本的GDAS输出的一种实施例输出在下面显示出：

＞Ad4FTBER：609124A2-8.7.03-2小时杂交开始＝12终点＝1245

tcccnacgatgcagncnncnnncgacnangcccttcatcaaccctcccttcgnnctcttcagntggnttc

caagaaaagcccctgggggtgttgnccntaggnnntnnncgaccctgncncnccangaatggggaaanca

cncnnantntggngnannnngtggaccttgacgnctcgggaaanctcnttgcaancncagncnnnaagnn

cattgnnnctnntagnttttnccancaacnccattnnnnnttaacatggnnncccctttanncnccaaag

ntggaaanctnnccttncaagnttctnncnccattaagtatattnngnnnnnnnnntnnnnnntnnntnn

nctnnncttttngctcaggtttnggacngnnnngnagngntnngncagtacagttagcctctncncttnc

atttgnngnnaaagggaananaaagnttnnnntnnntnnnggnttgcatgttacaacaggaantgcaatt

gaaagcaacattagntgggctnaaggtnnaaaatttgaagatggtgccanagcnncaaacattggtaagn

nntnnnnnntnnnaaccagnagnncagaancaggagntaanaangcttnnccaanccaagntaaanttgn

atctggncncagctttgncagcncaggagnnntaatgnctggcaataaagncnnngananattanctttg

tggacaacgcctgacccatcannaaactgncaaatnctngcngaaaangangcaaanctancnctttgct

tnacnnagnnngnnagncaaatnctggccactgnancagntttqqntantagaaanaanancntaaaccc

aattnctggcacagnaagcagngctcaagnttttcnncgntttgatgcaancngtgntcttttancngan

cactcnannnnnaaaaaatactggggctacnggnaaggagatagcatagatggcactncatacaccaatg

ctgttggntncntgccaaattcancagcttntnnaaagacncaaagttctnctnntaaaaataatntann

nngncaagnatnnatgaatggngntgtttnaaaacccangcttcttnctatanctcttaatggnnctgnt

gacaccaccagtgcatnntnnntttnattttcntncacctggactaacggaagctanatcggagcaacat

ttggagctaactcatacaccttcncntacanngcccannaannn

在提供的实施例中，REPI经CGI(Perl)界面连接到局部BLAST(NCBInt)数据库(包含在具有4.5GB随机存取存储器的苹果G5单一处理器(1.8Ghz)计算机上)。显示的结果包括所有预期值(E-值)阈值1.0e-9的数据库序列。E-值表示在随机给定搜索空间、记分矩阵、和空位罚分的预期分析数量；E-值越低数据库类似性搜索匹配越不可能进行随机鉴别。

REPI输出由(可比较)子序列命名、长度、E-值和每个匹配的bits scores构成，以bits scores的降序排列显示每个子序列。名称报告为GenBank记录FASTA定义列并且包括序列长度。得分为记分矩阵和空位罚分计算出的标准分数，分数越高类似性越高。

上面列出的实施例的REPI输出在下面显示出。对于每个可比较子序列，REPI返回(以比值等级的降序排列)所有具有预期值小于评估阈值，通常为1.0E-9的GenBank数据记录。获得的最高比值是4型腺病毒，而较低的比值s适合区分来自空军和海军培训基地的本地株。

＞Ad4FIBER：609124A2-8.7.03-2小时杂交开始＝12终点＝1245

子序列：

tcccnacgatgcagncnncnnncgacnangcccttcatcaaccctcccttcgnnctcttcagntg

gnttccaagaaaagcccctgggggtgttgnccntaggnnntnnncgaccctgncncnccangaat

ggggaaancacncnnantntggngnannnngtggaccttgacgnctcgggaaanctcnttgcaan

cncagncnnnaagnncattgnnnctnntagnttttnccancaacnccattnnnnnttaacatggn

nncccctttanncnccaaagntggaaanctnnccttncaagnttctnncnccattaagtatattn

ngnnnnnnnnnt

靶点子序列百分率：27％

子序列长度：337

子序列碱基响应数量：249

子序列碱基响应百分率：74％

gi|434913I emb|X76547.1|AV4FIB1纤毛蛋白质4型腺病毒基因；长度＝1375

Ad4FIBER evalue：3.35737E-33，score：149.17

Ic1|AY599837|血清4型人腺病毒，美国空军本地株|35,964bp；长度＝35964

Ad4FIBER evalue：4.51313E-20，score：105.558

IcI|AY599835|血清4型人腺病毒，美国海军本地株|35；965bp；长度＝35965

Ad4FIBER evalue：4.51313E-20，score：105.558

IcI|AY594254|血清4型人腺病毒，疫苗株#|35,994bp；长度＝35994

Ad4FIBER evalue：4.34733E-17，score：95.646

1c1|AY594253|血清4型人腺病毒|35,990bp；长度＝35990

Ad4FIBER evalue：4.34733E-17，score：95.646

gi|17105037|gb|AF394196.1|AF394196猴腺病毒25，全基因组；长度＝36521

Ad4FIBER evalue：2.58354E-12，score：79.7872

gi|33694802|tpg|BK000413.11TPA：猴腺病毒25，全基因组；长度＝36519

Ad4FIBER evalue：2.58354E-12，score：79.7872

gi|22796371|emb|AJ315930.1|HAD3159304型人腺病毒DNA；长度＝12718

Ad4FlBER evalue：2.58354E-12，score：79.7872

子序列：

tnnntnnnctnnncttttngctcaggtttnggacngnnnngnagngntnngncagtacagttagc

ctctncncttncatttgnngnnaaagggaananaaagnttnnnntnnntnnnggnttgcatgtta

caacaggaantgcaattgaaagcaacattagntgggctnaaggtnnaaaatttgaagatggtgcc

anagcnncaaacattggtaagnnntnnnnnntnnnaaccagnagnncagaancaggagntaanaa

ngcttnnccaanccaagntaaanttgnatctggncncagctttgncagcncaggagnnntaatgn

ctggcaataaagncnnngananattanctttgtggacaacgcctgacccatcannaaactgncaa

atnctngcngaaaangangcaaanctancnctttgcttnacnnagnnngnnagncaaatnctggc

cactgnancagntttggntgntagaagnggnancntaaacccaattnctggcacagnaagcagng

ctcaagnttttcnncgntttgatgcaancngtgntcttttancngancactcnannnnnaaaaaa

tactggggctacnggnaaggagatagcatagatggcactncatacaccaatgctgttggntncnt

gccaaattcancagcttntnnaaagacncaaagttctnctnntaaaaataatntannnngncaag

natnnatgaatggngntgtttnaaaacccangcttcttnctatanctcttaatggnnctgntgac

accaccagtgcatnntnnntttnattttcntncacctggactaacggaagctanatcggagcaac

atttggagctaactcatacaccttcncntacanngcccannaa

靶点子序列百分率：72％

子序列长度：888

子序列碱基响应数量：701

子序列碱基响应百分率：79％

Ad4FIBER evalue：3.29583E-171，score：609.077

Ad4FIBER evalue：7.18119E-160，score：571.412

1c1|AY599835|血清4型人腺病毒，美国海军本地株|35,965bp；长度＝35965

Ad4FIBER evalue：1.75062E-157，score：563.482

1c1|AY594254|血清4型人腺病毒，疫苗株#I 35,994bp；长度＝35994

Ad4FIBER evalue：6.18269E-148，score：531.765

1c1|AY594253|血清4型人腺病毒|35,990bp；长度＝35990

Ad4FIBER evalue：6.18269E-148，score：531.765

Ad4FIBER evalue：1.50721E-145，score：523.835

gi|227963711emb|AJ315930.1|HAD3159304型人腺病毒DNA；长度＝12718

Ad4FIBER evalue：3.67425E-143，score：515.906

Ad4FIBER evalue：2.91419E-51，score：210.623

gi|33694802|tpg|BK000413.1|TPA：猴腺病毒25，全基因组；长度＝36519

Ad4FIBER evalue：2.91419E-51，score：210.623

在这个详细的实施例中，REPI参数设置如下：

表53

参数阈值
参数阈值			预期值阈值		1.0E-9
窗口尺寸	Z	20	预期值阈值		1.0E-9
窗口尺寸	Z	20	第一跳跃阈值	A	25％
第一窗口跳跃	X	1	第一跳跃阈值	A	25％
第一窗口跳跃	X	1	第二窗口跳跃	Y	1
第二跳跃阈值	B	25％	第二窗口跳跃	Y	1
第二跳跃阈值	B	25％	第一长度阈值	E	20
第二长度阈值	F	50	第一长度阈值	E	20
第二长度阈值	F	50	中间百分比阈值	H	60％

除了上面描述的实施方案，系统的可延伸性能允许随时调整许多较高生物信息学任务，该较高生物信息学任务利用核酸的分散片断，或氨基酸序列。这些辅助应用的一些实施例在下面进行了描述。

在先前的实施例中，本发明者提供了显示出序列片段能自动连接单个病原菌的数据。在一些更优选的实施方案中，这种方法在垂直同源生物靶点序列组内混合物和重组之间进行分析。因此，直向同源基因通常被鉴别为不同物种内的相同基因，通常表示共同遗传起源。

更特殊地，系统自动分析来自再测序微阵列的不同拼接区域的序列响应来探测阵列不同拼接区域上存在同源序列片段。选择性地，该系统进一步确定不同拼接区域的描述垂直同源基因的序列输出不是垂直同源基因的混合物而对应于邻接序列，该邻接序列由两个或多个垂直同源基因之间的发生的遗传重组引起产生。

在一种这种附加实施方案中，该系统将考虑自动检测在阵列的不同拼接区域上的高度重叠或同源序列片段，推断出靶点序列的混合物。进一步，该系统将选择性地确定不同拼接区域的序列输出不高度重叠但对应于邻接序列，该邻接序列可能登录在已知靶点序列的内来推断遗传重组发生。

FIG.21举例说明了依据本系统的实施方案，在测试样本中不同靶点混合物和靶点内重组之间进行辨别的方法的一种示范性实施方案。这些实施例方法能归并到或采用上面描述的关于图12方法进行补充，这些实施例方法也用于在蛋白混合物和杂交蛋白质之间进行辨别。在这个实施例中，系统确定了由编码蛋白质的完全核苷酸序列的再测序微阵列(采用或不采用初始类似性搜索)探测的基因子序列的相对位置S1201。相对位置通常对应于全序列内子序列的位置。全序列在数据库中可用，该数据库由公共序列和/或专属序列记录组成。例如，子序列能被确定对应于全序列的前端(例如，5′)、中部、或末端(例如，3′)。此外，这个确定位置由候选子序列或筛选子序列组成。其次，该系统执行分析方法依据它们的位置来比对和匹配子序列S1203。用于执行S1203算法可以为用于两个序列间局部序列两两比对算法(例如，BLASTN、BLASTP、或BLASTX)，在多重序列间同时执行分析的算法(例如，ClustalW or Clustal_X(Thompson et al.，1997；Thompson et al.，1994))，或从公共结构域或经专属发展得到的可供选择的算法。在一种实施方案中，系统聚集对应于类似序列的前端、中部和末端的子序列。随后，系统评估聚集的子序列彼此的拟合度S1205。

子序列间的拟合度能被评估出，例如，通过探测序列间重叠的适当量。在一种实施方案中，相对于无重叠序列，拟合度是同源重叠区长度(或比值)内的定量关系，每一种与给定蛋白质的完整基因的全部序列的关系。除了评估重叠生物序列的传统方法之外，系统采用应用于类比及数位通讯的同步探测方法选择性地分析序列重叠。此外，鉴别重叠序列的问题不像由数字通讯中初始同步引起的问题。因此，依据本发明，一种可能被采用的方法是使用滑移相关器。在滑移相关器中，两个序列(数据序列，和假设序列)对比两个序列彼此相关性。两个序列被移动到彼此相关的位置，仅当相关性结果被探测到具有上面预先确定的水平时停止移动。实际上，用于减少搜索范围如同步前导序列传递的一些其他方法之前加上滑移相关器。同样地，依照本发明，子序列间已经探测到的重叠可以被用作前导序列目的为了限制同步过程需要的时间量。这个类型的同步已经进行了描述，参见Bhargva，et al.″Digital Communications By Satellite″John Wiley andSons，Chapter 9，pages 269-291。同样地，其他同步或捕获算法可被采用例如在§8.22 of Sklar，B.″Digital Communications Fundamentals andApplications″，Prentice Hall，1988，pages 453，460中进行描述的那些。基于误获取的最低概率，筛选出获取标准。既然这样，获取标准可能具有概率10％的误探测，即使9％、8％、7％、6％也包括在内，降至0.1％可以被采用。

如果子序列不超过预先确定的拟合度阈值，系统开始分析可供选择的序列S1207。就是说，如果两个或多个潜在同源性或垂直同源子序列不符合混合物或重组模型，该系统开始搜索其他子序列S1201。采用类似性搜索算法将收集的分组子序列与完整(靶点)序列进行比较1211。在这种情况中，被连接的子序列和靶点序列之间的类似性水平S1213提供了一些数据，这些数据指示是否被探测生物序列来自不同生物实体或者是否被探测序列指示一种重组。可供选择地，系统采用检验点的方法来评估子序列片段之间的重叠杂交。检验点方法沿着子序列的多个点执行这种评估S1209。在这个方法中，检验点的数量与阈值S1215进行比较来提供在生物混合物和重组之间进行辨别的证据。

例如，同类型的两个病毒的交叉感染可能在一种基因中产生重组，这个基因与一种病毒除了5′端之外是同源的，单个基因被同一蛋白质的第二个病毒基因的对应片段取代。当这个新的重组病毒基因组被杂交到再测序微阵烈上时，它可能产生来自再测序拼接区域对应部分的信号。本发明的一种实施方案包括构建靶点序列模型的组装算法，该靶点序列显示出哪个片段可能结合形成完整靶点。如果这两个具有显著性重叠(例如，证实同源性大于某个阈值)，可以得出可能存在混合物。但如果很少重叠或没有重叠，将没有存在重组的可能性。重叠的程度(或缺少)可能受到靶点低浓度影响，该靶点具有较少量的被填充的拼接区域。同样原理甚至能容易被采用，并且具有更大影响，在病毒上重组是稳定并重复发生，作为逆转录酶病毒，病毒间的重组导致形成新病毒株。事实上，这种被描述的功能性对靶点序列混合物对靶点序列间重组是必需的。此外，这个附加功能性也可用于更快速探测被检测到的(可能地)新重组内共有区并且帮助设计PCR引物来辅助更广泛研究由系统探测到的重组。

不仅本发明方法能在生物实体的混合物和给定实体内(这里另外描述的)的重组之间进行辨别，系统的附加实施方案有利地提供给终端用户相对量靶点序列的定量评估，该靶点序列在再测序微阵列中被探测到。当多种病原菌基因组信号被探测到时临床医师或临床试验室技术员指出原因和影响的时候，这种决策质量信息具有增强的效用。另外，关于生物物质存在的补充数据提供了额外背景用于终端用户制定决策，该生物物质具有关于丰富生物物质的资料。另外，该系统的实施方案被设计自动分析和比对这种“存在”和“丰富”资料来提供决策质量信息给终端用户。

该系统的实施方案被设计利用提供丰富信息的两种类型数据。第一种为芯片上杂交信号的绝对强度。溶液中靶点数量和实际杂交和生成信号的数量之间存在非线性关系。然而，样本中靶点核酸数量的评估通过用空白条件下制备的标准曲线进行比较而得到。例如，信号强度数据容易从Affymetrix数据结构中的.CEL文件中得到，并且典型用于基因表达改变的定量评估。该系统的一种实施方案提供了含有强度值的数据，输入、输出和操作。第二，碱基响应百分率，如全部拼接区域尺寸的百分率和被筛选子序列内的碱基百分率满足滑窗算法，被用作浓度测量。由发明者执行测试的结果显示出降低靶点浓度，这些百分率度量都降低，尽管正确靶点序列仍能被鉴别出。

图22为CIBSI的一种实施方案的示范性说明，该CIBSI加入了类似性搜索结果的强度数据来提供决策质量信息给终端用户。强度数据1314由微阵列的光谱分析工具输入。在类似性搜索结果的背景中分析强度数据更鲁棒性分析1319被探测到的序列并且从而提供给终端用户决策质量信息1321。决策质量信息包括，如相对丰富的对应于相关生物实体的被探测的序列或子序列的测量。另外的实施方案加入强度数据1314在先前描述的混合物和重组之间的辨别中。在这种情况中的强度数据1314将提供额外方面的信息，当应用数字通讯方法翻译类似性搜索返回的序列数据。

在另一种非常优选的实施方案中，系统分析转录标记物(例如，RNA)，该转录标记物采用目前描述类型的微阵列(经RNA或互补cDNA的杂交)对RNA进行再测序。在类似于上面描述的推断基因组重组的方法中，转录序列也可被组合确定生物实体生存能力和能作为感染标记物的转录编辑活动。

另外，系统被必须的适应于使用生物序列非核酸和它们的相关转录产物如蛋白质的氨基酸序列。通常，本发明的蛋白质组应用与处理生物序列数据和最优化与已知序列比对的这些数据的系统能力一致。基因表达和蛋白质进化研究导致规模相似的氨基酸序列库并且如同上面描述的遗传序列数据库一样可被访问。此外，测序蛋白质用的质谱方法返回的光谱资料分析有助于详细阐述本发明的实施方案。例如，蛋白质序列光谱数据包括类似于微阵列分析中使用的强度数据。如上面描述的关于其他类似序列，本发明的先进实施方案提供给终端用户处理和利用这种强度数据来提供更高质量信息。

除了诊断应用中使用该系统，系统的可供选择的实施方案促进设计系统诊断实施方案用的更有效和有效率的再测序微阵列。选择和设计微阵列上探针的一种更有效方法不可避免的导致给定微阵列上有效面积的更有效使用。随后，微阵列能被制成精确探测更多钟给定尺寸的生物序列，或者特异性应用定制的微阵列通过减少微阵列上探针的规定数量而被制成更便宜更易被访问，这提高了尺寸缩小和高产量的可能性。设计微阵列的一种重要动力是辨别率。通常，在这里描述的辨别力统指在生物实体紧密相关菌株之间进行区别的辨别率。例如，一些应用可能要求空军腺病毒株和海军腺病毒株之间进行区别的辨别力，而另一种应用仅要求辨别存在腺病毒。下面描述的实施方案说明使用该系统使设计者能更客观更系统第平衡辨别率和微阵列尺寸/密度。

图23说明了使用系统加速设计和进行制备再测序微阵列或其他探针或阵列测试的方法的一种示范性实施方案。为了设计，筛选符合多种类型的生物序列(依次，对应于包括病原菌的生物实体)的测试序列，该生物序列目的是通过微阵列S1403被探测到。多于一种已知或可估计的生物序列的优选的组合可为紧密相关或不为紧密相关的，被筛选的序列能经过多种方法包括但不限于，系统发生树和隐马尔可夫模型(Eddy，1998)被选出。这些被筛选的测试序列使用多种分析算法如CLUSTALW S1405接受多种分析。执行多种分析导致得到一致序列S1407，典型对应于测序序列的共同区，公共性通过与某一类似性阈值(例如，CLUSTALW重量、CLUSTALW参数设置百分率开确定一致性)进行比较而被确定。得到的一致性序列然后被输入到本发明的实施方案中生成一致序列的一种或一种以上子序列，该一致序列作为很可能生成类似性搜索S1409的有意义结果而被确定。在一种方法中，一致序列的自叙列与最初被筛选的测试序列通过模拟进行杂交，模拟方法是模拟如Affymetrix再测序微阵列S1413的行为和限制性。杂交规律，包括，但不限于耐受性和插入、缺失、和全序列内不同量碱基对或不同位置上进行取代的规律。然后，得到模拟测试序列和一致序列间杂交模式的输出结果S1415，随后提高给系统采用类似性搜索进行自动化比对S1417。类似性搜索的结果与最初被筛选的测试序列进行比较S1419。一般地，类似性搜索返回至少一种已知生物实体和相关可能性，该可能性为被提交的序列或子序列来自那个已知实体。因此，比对类似性搜索结果能确定或否定基于一致序列相关部分的探针，该探针在正确杂交，从而鉴别用户所关注的收集的测试序列。如果结果确定一致序列(或其子集)有效性，那个序列能在再测序微阵列S1421的一种区域内被实现。可供选择地，如果比对间接表明关注的测试序列将不会被充分探测到，那么该系统在新探针S1423进一步的重新设计中被使用。这种重新设计过程的一种实施方案包括重新估计几个最初设计过程中的几个步骤，一些在图23中进行了说明。例如，这些结果受到被筛选测试序列范围的多样性和依据环境中其流行程度的测试序列加权的影响S1427。此外，一致算法加权是可调整的S1427以及为系统相关的功能参数S1429。此外，在模拟杂交中执行的不同方法是可调整的，包括全面改变算法和信噪比阈值S1431。

因此，与主观选择探针的常规方法对比，系统的功能性提供了加速或更有效的设计再测序微阵列。

上面关于设计的主题进一步通过下列发明者实施的实施例进行说明。在这个实施例中，方法被描述用于制备用作微阵列上靶点序列的一致序列，微阵列能鉴别那些用于制备它的测试序列。如24说明了下面描述方法的一种示范性实施方案。

以15个病原菌六联体基因组序列开始，依据系统发生树图排列这些序列(例如，参见图25)。系统树图用于图形表示和评估被筛选测试序列间的遗传关系。尽管Ad1和Ad5是关于其他序列的最大的局外点，所有15个被显示出的六联体基因序列在这个实施例中被筛选出作为初始组的测试序列S1503。初始组的测试序列S1503的筛选由预先确定的系统或用户指定参数选择性地自动化提供完成。例如，系统树图内序列间的距离提供了数字阈值组，该数字阈值组确定候选一致序列内结合序列要求的最小具体或最大距离。

下一步，所有筛选的测试序列接受多序列排比分析S1505例如ClustalW(Thompson et al.，1994)，图26中显示出样本输出结果。然后，一致序列在这个序列排比S1507中计算出。实施例举例说明了图27中Cons(EMBOSS连接ClustalW)执行的这个步骤，Cons以低“多元”运行，参数使Cons用户设置了低于无一致性的阳性匹配数量的切断。特殊地，较低多元使较少匹配建立一致性，因此建立起具有较少空位和无响应得一致性。

一旦候选一致序列被运算出，将被输入到REPI内(或者，可供选择地，本发明的另一种实施方案)初始评估其作为靶点序列的潜在功效，采用返回预期匹配的一种预期阈值1e-9 S1511。在这一点上，REPI与初始组的测试序列S1513进行比较如，初始组的测试序列百分率存在于REPI结果中。如果由REPI结果鉴别的初始测试序列的百分率大于阈值(系统预先确定或，可供选择地，由用户指定)，候选一致序列为最可能有例的大范围靶点序列，并且该方法转向模拟杂交S1527。在被说明的实施例中，上面对比阈值为100％，对应条件为当超过预期阈值时所有初始测试序列必须由REPI返回。降低对比阈值导致系统更允许靶点序列识别错或不能鉴别某一数量或百分率的预期组测试序列。

另外，如果初始组测试序列的每一种不是全部存在于REPI结果中，丢失的测试序列采用候选一致序列个别地进行评估。候选一致序列也联合先前步骤中建立的多重比对被评估来鉴别任何丢失的序列片段，这些丢失的序列片段对一致性内的鉴别是关键性的。在没有丢失初始序列共性的情况下，下一步的目标是增量式添加必要序列信息到初始候选一致序列内。

因此，再次执行多重比对S1515。这时，多重比对包括目前的一致序列。随后，候选一致序列中的空位被鉴别出S1517。候选一致序列与测试序列比对中的空隙是丢失序列数据的可能位置，将增量式序列信息添加到丢失测试信息的候选一致序列中可能是有利的。

图28说明了第二个多重比对结果中空位的实施例。在这个实施例中，存在两个位置，一致序列遗漏了Ad1和Ad5的序列信息，先前注释为初始测试序列筛选过程(参见图25)中两个最大系统发生树局外点。对应于空位的丢失序列片段被添加、或“剪切”到初始一致序列代替空隙S1519而形成″拼接″一致序列。图29说明拼接候选一致序列内的剪切序列数据。依据本发明的实施方案，剪切由用户手动完成。选择性地，依据对应于空位鉴别和从剪切进空位的丢失测试信息中筛选序列信息的参数(由系统先前确定或由用户设置)，该系统提供自动剪切。

剪切S1519之后，拼接候选一致序列再次被提交给REPI评估上述操作的影响S1521。选择性地，系统或用户确定另外的可接受阈值，另外的可接受阈值对应于现在正确鉴别S1523的丢失测试序列的数量(或百分率)或先前鉴别的而现在由REPI结果错误鉴别的测试序列S1525。这种阈值一般对应于改进或降低与初始候选一致序列相关的拼接一致序列功效的耐受性。在说明的实施例中，在没有失去任何先前鉴别的测试序列的情况下，添加两种序列片段是添加Ad1和Ad5到REPI点击列表上。

在另一种方面，如果剪切操作不能将丢失病原菌类型添加到被鉴别类型的列表上，或者其他序列hits在这个过程中丢失，新的一致序列将被放弃，Ad1和Ad5被分离出并且余下序列被重评估S1524。可供选择地，如果剪切操作不能满足可接受阈值，重评估被执行。因此，初始组测试序列间的序列差异不能满足可接受阈值(例如，上面直接描述的那些)，两个或多个候选一致序列可能对于提供靶点序列时必要的，该靶点序列能鉴别预期百分率的初始组测试序列。选择性地，系统并行地考虑和评估这种附加候选一致序列。

如果所有初始序列已经在REPI结果(参见如30)中被鉴别，最终一致序列已经形成并且每个初始测试序列的杂交潜力能被确定。图31显示出杂交/结合模拟程序用于执行该步骤。每个初始序列与新的一致序列拼接。该模拟过程采用由b12seq比对程序生成的输出比对文件，并评估每25mer最高记分比对中差异数量。选择性地，程序评估较长间隔的差异数量或较短间隔差异数量。然后，系统建立生成序列(如Ad4的图31中显示)仅基于25mer′s具有小于2个错配的位点。另外，错配耐受的分离阈值由系统选择性地给出。

图31中显示的序列为与目前一致序列杂交的测试序列的模拟表达。每个序列与最终一致序列的杂交潜力被评估出1527。在这个实施例中，程序HybBind用于生成每个测试序列的杂交模拟序列S1529。一旦杂交模拟序列全部生成，它们每个经REPI运行，好像它们已获得实际芯片S1531。

如果所有模拟序列高评分或高“点击”匹配其各自序列(基于比值和/或预期值的类似性评分)，那么潜在一致序列通过评估过程，能用作靶点序列来通过类型鉴别那些用于制备它的序列S1535。可供选择地，如果所有模拟序列按照高评分S1535不匹配各自序列，或者高评分和E-值匹配多重序列S1533，潜在一致性错误评估，序列被分解成多组并送回进行再评估S1534。

不能正确鉴别其各自序列(Ad1、Ad50、Ad34、Ad3)的潜在序列被送回第一步进行重新评估一种或一种以上一致性S1534。按照高评分和E-值不能正确鉴别其各自序列潜在序列Ad4、Ad21、Ad16、Ad7、Ad5被聚集在一起并被送回，经过上面描述的过程，以制备多重比对开始，在没有使用失败并不能正确鉴别S1536的那些序列的情况下，建立新的候选一致序列。新的候选一致序列(例如，参见图32)经同样阈值和评估b12seq、REPI、

和REPI进行运行。当Hybbind最终模拟序列经REPI被运行用于确认按照高评分和E-值，所有序列能依据类型鉴别其各自序列，因此，这个潜在一致序列已经通过所有评估并能被用作Ad4、Ad21、Ad16、Ad7、和Ad5序列的靶点。

然而，在另一种实施方案中，系统为序列分析中时间趋势的追踪和分析作准备。通过随时间重复地或连续地执行和记录类似于上面描述的分析，遗传或蛋白质组进化和/或突变比采用常规方法更容易被追踪到。

在一种关于病原菌探测的特异性实施方案中，这里描述的本发明用于常规诊断和常见呼吸病原菌的临床(在床旁或近床旁)监控。容易得到的样本(例如，鼻腔冲洗液、咽喉拭子、唾液、血液、食物、土壤、水或空气)以简单方式被处理来制备核酸分离物，该分离物采用吸附方法得到，富集病原菌特异性靶点，采用无偏差(如全部)或多重PCR扩增方法进行扩增，洗涤和影像之前在再测序微阵列上杂交一段规定时间。全部过程是非常简单使得技术人员(医药技术人员水平)常规模式中没有重要中断的情况下将能在实施该试验。采用常见算法或采用由供应商规定的步骤生成碱基响应。REPI或其一些改变被用于自动分析微阵列生成的碱基响应，并提供给终端用户(例如，医师、疗养院、公共卫生官员、或其它决策者)传染性病原菌管理质量信息决定(例如，诊断、处理、预见和爆发控制/污染测量)，这些传染性病原菌成为疾病综合症和并发症的原因。这个分析将经使用嵌入式序列数据库而局部发生，嵌入式数据库经REPI被查询(例如，局部专有BLAST服务器)。除了提供常规诊断功能之外，微阵列也将携带标记物给高度不可能(例如，禽流感或生物恐怖行动)病原菌，这种高度不可能病原菌将成为包含的其他原因，如公共健康官员。

在本发明的一些实施方案中，CIBSI输出被安排在多层中。在一种特殊实施方案中，CIBSI输出被安排以三层提供给用户或数据注释。输出的第一层提供了“物种水平”信息，输出第二层提供了“血清类型/菌株水平”信息，第三层提供了“低水平”信息。物种的实施例包括，但不限于，流行性感冒A、流行性感冒B、腺病毒、化脓性链球菌、炭疽芽孢杆菌、和土拉热弗朗西斯菌。尽管物种水平层首先提交给用户或数据注释，用户或数据注释能筛选和通过如用户输入、预先确定显示设置、或指定方案观察其他层。可供选择的实施方案提供了检索、组织、和提交对应于每个层内预先确定水平的数据的规则和算法。

在一种实施方案中，对于一级阳性的规定是如果一种物种多重拼接区域的任何一种产生具有预期值1.0e^-9或小于1.0e^-9的阳性子序列或产生单一病原菌数据库记录的高比值)，那么结果为那个物种级的阳性。这建立起完全自发的第一层细节。用户能制造更多信息，第一层信息经过如人为干预步骤进入第二层或第三层信息。包括“血清类型/菌株水平”信息的第二层输出使用户查看序列数据库(如，GenBank)记录名称和评分在预先确定阈值的辨识器来确定血清类型和/或菌株。选择性地，下一种搜索算法可被应用没有精确命名协定的序列数据库来自动给出血清类型/菌株级信息(例如，经过搜索和分析GenBank资料)。可供选择地，通过选择显示领域后的选项，系统提供由用户或数据注释被制成第一层信息的附录(例如，腺病毒4、空军本地株或流行性感冒A、H3N2、Fujian 411)。第三层输出包括原始CIBSI输出。选择性地，算法可以被用于原始CIBSI输出。本发明的其他实施方案使附加信息移动到第一层输出中。

图20为针对执行本发明的一种实施方案的计算机系统(或服务器)2001的结构图。然后，应注意到，本系统不需要以个人电脑(PC)配置为基础，但更适合自定义处理器系统，该自定义处理器系统不包括也可被使用的普通用途计算机的特征。然而，因为用于支持本发明的实际硬件配置，不是为了限制，PC系统的一种实施例现在被给出。计算机系统2001包括bus 2002或其他通讯信息的通讯机制，处理器2003联合bus 2002一起处理信息。计算机系统2001也包括主存储器2004，如随机存储器(RAM)或其他动态储存器(例如，动态RAM(DRAM)、静态RAM(SRAM)、和同步DRAM(SDRAM))，联合bus 2002一起存储信息和由处理器2003执行的指令。此外，主存储器2004可用于存储临时变量或处理器2003执行指令期间的其他中间信息。计算机系统2004进一步包括只读存储器(ROM)2005或其他静态存储设备(例如，可编程ROM(PROM)、可擦除PROM(EPROM)、和电擦除PROM(EEPROM))联合bus 2002一起存储静态信息和处理器2003的指令。

计算机系统2001也包括磁盘控制器2006联合bus 2002一起控制一种或一种以上存储设备来存储信息和指令，如硬磁盘2007、和可移动媒体驱动机2008(如，软磁盘机、只读光盘驱动器、读/写光盘驱动器、光盘自动唱片点唱机、磁带驱动器、和只读磁光盘驱动器)。使用适当的驱动器接口(例如，小型计算机系统接口(SCSI)、集成设备电子部件(IDE)、加强型IDE(E-IDE)、直接内存存储(DMA)、或ultra-DMA)存储设备可被加入到计算机系统2001中。

计算机系统2001也可包括特殊用途逻辑器件(例如，专用集成电路(ASICs))或可配置逻辑设备(例如，简单的可编成逻辑设备(SPLDs)、复杂可编成逻辑设备(CPLDs)、和现场可编程门阵列(FPGAs))。

计算机系统2001也可包括显示控制器2009联合bus 2002一起管理显示器2010，例如阴极射线管(CRT)，显示信息给计算机用户。计算机系统包括输入设备，如键盘2011和定位设备2012，与计算机用户连接并提供信息给处理器2003。定位设备2012，例如，可为鼠标、追踪球、或触控点用于与处理器2003交流方向信息和命令选择。此外，打印机提供了由计算机系统2001存储和/或产生的信息的打印列表。

计算机2001执行本发明处理器2003执行存储器，例如主存储器2004中含有的一种或一种以上指令的一种或一种以上序列的部分或全部处理步骤。这种指令可被读入另一种计算机可读媒体如硬盘2007或可移动媒体驱动机2008的主存储器2004。多重处理安排的一种或一种以上处理器也可用于主存储器中执行指令序列。在可供选择的实施方案中，硬体线路可被使用取代或联合软件指令。因此，实施方案不被限制硬件电路或软件任何特殊联合。

如上所述，计算机系统2001包括至少一种计算机可读媒体或存储器依据本发明的教导支持程序指令并包含数据结构、工作台、记录、或其他这里描述的数据。计算机可读媒体的实施例为磁盘、硬磁盘、软盘、磁带、磁光盘、PROMs(EPROM、EEPROM、flash EPROM)、DRAM、SRAM、SDRAM、或任何其他磁介质、光碟(例如，CD-ROM)、或任何其他光学介质、穿孔卡片、纸袋、或其他孔洞模式物理介质、载波(下面描述的)、或任何其他计算机可读的介质。

存储在任何一种或计算机可读媒体上，本发明包括操作计算机系统2001、驱动一种设备或执行本发明设备的软件，和使计算机系统2001支持个人用户(例如，打印人员)的软件。这种软件可包括，但不限于，设备驱动器、操作系统、开发工具、和应用软件。这种计算机可读媒体进一步包括实现本发明中执行处理的所有或部分(如果处理是分布式的)计算机程序产品。

本发明的计算机编码器可以为任何能翻译的或可执行的代码操作机制，包括但不限于译本、解释性程序、动态链接库(DLLs)、Java类、和完全可执行程序。此外，本发明部分处理可用于提高性能、可靠性、和/或费用上。

这里使用的术语“计算机可读媒体”统指任何参与提供指令给处理器2003用于执行的任何媒体。一种计算机可读媒体可以任何形式，包括但不限于，非易失性媒体、易失性媒体、和传输媒介。非易失性的媒体包括，例如光盘、磁盘、和磁光盘，如硬盘2007或可读媒体驱动器2008。易失性媒体包括动态存储器，如主存储器2004。传输媒介包括同轴电缆、铜丝和光导纤维，包括构成bus 2002的金属丝。传输媒介也包括声波形式或光波形式，例如在电磁波和红外数据通讯期间产生的。

不同形式的计算机可读媒体可涉及处理器2003执行的执行一种多个序列的一种或一种以上指令。例如，该指令可以最初在远程计算机的磁盘上执行。远程计算机可远程将执行本发明的全部或部分的指令输入到动态存储器中并通过电话线采用调制解调器发送指令。计算机程序2001的一种局部调制解调器可以收到通过电话线传送的数据并采用红外发射机将数据转换成红外信号。结合bus 2002的红外探测器能收到红外信号传送的数据并将数据输入bus 2002中。bus 2002将数据传送到主存储器2004中，处理器2003检索并执行该指令。由主存储器2004收到的指令可被必须地在处理器2003执行前或执行后存储在存储设备2007或2008上。

计算机系统2001也包括与bus 2002连接的通讯接口2013。通讯接口2013提供双向数据通讯连接网络链接2014，例如被连接到如局域网(LAN)2015，或另一种通讯网络2016如因特网。例如，通讯接口2013可为连接在任何包交换LAN的网路卡。如另一种实施例，通讯接口2013可为非对称数字用户线(ADSL)卡，综合业务数字网(ISDN)卡或提供数据通讯连接到相应类型的通信线路的调制解调器。无线电线路也可被实现。在这种执行中，通讯接口2013发送和接收运送代表不同类型信息的数字数据流电信号、电磁信号或光信号。

网络链接2014典型地经一种或一种以上网络或其它数据设备提供数据通讯。例如，网络链接2014可以经过局域网2015(例如，LAN)或经服务提供上操作的设备连接另一种计算机，通过通讯网络2016提供通讯服务。局域网2014和通讯网络2016使用，如运送数字数据流的电信号、电磁信号或光信号，和相关物理层(例如，CAT5电缆、同轴电缆、光导纤维，等)。经不同网络的信号和网络链接2014和经通讯接口2013的信号，将数字信号输送到计算机系统2001和输送来自计算机系统2001中的数字信号，或许在基带信号或载波信号中实现。基带信号传送数字信号如未调整的电脉冲，该未调整的电脉冲为描述的一串数字数据位，术语“位”广泛解释为普通符号，每个符号传达至少一种或一种以上信息位。数字数据也可用于如用振幅、在导电性媒质上传播的相和/或频率漂移键控信号调节载波。因此，数字数据可作为未调整的基带数据经“有线”通讯电路被发送和/或在经调整载波不同于基带的预先确定的波段内被发送。计算机系统2001能通过网络2015和2016、网络链接2014、和通讯接口2013传送和接收数据，包括程序码。此外，网络链接2014可以经LAN 2015连接到移动设备2017如个人数位助理(PDA)膝上型计算机，或移动电话。

本发明的一些实施方案的系统能在硬件、软件、韧件，或其组合中执行。在优选的实施方案中，系统在软件中执行，该软件存储在存储器中并由适宜的指令执行系统执行。如果在硬件中执行，如在可供选择的实施方案中，该系统能采用一些本领域中周知的技术来执行。

在流程图中描述的一些过程或草图应理解为代表模块、片段、或包括用于执行该过程中特殊逻辑功能或步骤的一种或一种以上可执行指令的部分编码，并且交替执行也包括在本发明优选的实施方案范围内，其中功能可以按显示的或讨论的非正常顺序执行，包括同时执行或次序颠倒执行，取决于设计的功能性，依据本发明领域中技术人员可理解的。

应强调的是，上面描述的本发明实施方案，尤其一些“优选”实施方案，仅是执行的可能实施例，仅为清楚理解本发明的原理而被阐述。在没有背离本发明界定的精神和原理的前提下可以对上述描述的本发明实施方案进行一些变化和修改。所有这种修改和变化是为了包括在该公开和本发明的范围内并被下列权利要求书描述。

参考文献

Albert，T.J.，Norton，J.，Ott，M.，Richmond，T.，Nuwaysir，K.，Nuwaysir，E.F.，Stengele，K.P.，Green，R.D.2003.Light-directed 5′--＞3′synthesis of complex oligonucleotide microarrays.Nucleic Acids Res 31：e35

Bohlhlander，S.K.，Espinosa，R.，3rd，Le Beau，M.M.，Rowley，J.D.，Diaz，M.O.1992.A method for the rapidsequence-independent amplification of microdissected chromosomal material.Genomics 13：1322-4

Cherkasova，E.，Laassri，M.，Chizhikov，V.，Korotkova，E.，Dragunsky，E.，Agol，V.I.，Chumakov，K.2003.Microarray analysis of evolution of RNA viruses：evidence of circulation of virulent highly divergentvaccine-derived polioviruses.Proc Natl Acad Sci USA 100：9398-403

Chizhikov，V.，Rasooly，A.，Chumakov，K.，Levy，D.D.2001.Microarray analysis of microbial virulence factors.Appl Environ Microbiol 67：3258-63

Cutler，D.J.，Zwick，M.E.，Carrasquillo，M.M.，Yohn，C.T.，Tobin，K.P.，Kashuk，C.，Mathews，D.J.，Shah，N.A.，Eichler，E.E.，Warrington，J.A.，Chakravarti，A.2001.High-throughput variation detection andgenotyping using microarrays.Genome Res 11：1913-25

Devereux，J.，Haeberli，P.，Smithies，O.1984.A comprehensive set of sequence analysis programs for the VAX.Nucleic Acids Res 12：387-95

Eddy，S.R.1998.Profile Hidden Markov Models.Bioinformatics 14：755-763

Ferguson，J.A.，Steemers，F.J.，Walt，D.R.2000.High-density fiber-optic DNA random microsphere array.AnalChem 72：5618-24

Ginger，D.S.，Zhang，H.，Mirkin，C.A.2004.The evolution of dip-pen nanolithography.Angew Chem Int Ed Engl43：30-45

Gingeras，T.R.，Ghandour，G.，Wang，E.，Berno，A.，Small，P.M.，Drobniewski，F.，Alland，D.，Desmond，E.，Holodniy，M.，Drenkow，J.1998.Simultaneous genotyping and species identification using hybridizationpattern recognition analysis of generic Mycobacterium DNA arrays.Genome Res 8：435-48

Gingeras，T.R.，Mack，D.，Chee，M.S.，Berno，A.J.，Small，P.M.，Drobniewski，F.，Alland，D.，Desmond，E.，Holodniy，M.，Drenkow，J.2001.Chip-Based Species Identification and Phenotype Characterization ofMicroorganisms.Affymetrix，Inc.，US

Hoffmann，E.，Stech，J.，Guan，Y.，Webster，R.G.，Perez，D.R.2001.Universal primer set for the full-lengthamplification of all influenza A viruses.Arch Virol 146：2275-89

Kampke，T.，Kieninger，M.，Mecklenburg，M.2001.Efficient primer design algorithms.Bioinformatics 17：214-25

Kessler，N.，Ferraris，O.，Palmer，K.，Marsh，W.，Steel，A.2004.Use of the DNA Flow-Thru Chip，a Three-Dimensional Biochip，for Typing and Subtyping of Influenza Viruses.J Clin Microbiol 42：2173-2185

Korf，I.，Yandell，M.，Bedell，J.2003.BLAST.O′Reilly and Associates，Sebastopol，CA

Kozal，M.J.，Shab，N.，Shen，N.，Yang，R.，Fucini，R.，Merigan，T.C.，Richman，D.D.，Morris，D.，Hubbell，E.，Chee，M.，Gingeras，T.R.1996.Extensive polymorphisms observed in HIV-1 clade B protease geneusing high-density oligonucleotide arrays.Nat Med 2：753-9

Lee，C.2003.Generating consensus sequences from partial order multiple sequence alignment graphs.

Bioinformatics 19：999-1008

Leipzig，J.，Pevzner，P.，Heber，S.2004.The Altemative Splicing Gallery(ASG)：bridging the gap betweengenome and transcriptome.Nucleic Acids Research 32：3977-3983

Lin，B.，Vora，G.J.，Thach，D.，Walrer，E.，Metzgar，D.，Tibbetts，C.，Stenger，D.A.2004.Rapid detection andserotyping of acute respiratory disease-associated adenoviruses with oligonucleotide microarrays.

Journal of Clinical Microbiology in press

Meinkoth，J.，Wahl，G.1984.Hybridization of nucleic acids immobilized on solid supports.Anal Biochem138：267-84

Needleman，S.B.，Wunsch，C.D.1970.A general method applicable to the search for similarities in the amino acidsequence of two proteins.J Mol Biol 48：443-53

Nuwaysir，E.F.，Huang，W.，Albert，T.J.，Singh，J.，Nuwaysir，K.，Pitas，A.，Richmond，T.，Gorski，T.，Berg，J.P.，Ballin，J.，McComfick，M.，Norton，J.，Pollock，T.，Sumwalt，T.，Butcher，L.，Porter，D.，Molla，M.，Hall，C.，Blattner，F.，Sussman，M.R.，Wallace，R.L.，Cerrina，F.，Green，R.D.2002.Gene expression analysisusing oligonucleotide arrays produced by maskless photolithography.Genome Res 12：1749-55

Ochman，H.，Lawrence，J.G.，Groisman，E.A.2000.Lateral gene transfer and the nature of bacterial innovation.

Nature 405：299-304

Offfinga，D.P.，Tyson-Medlock，V.，Ye，Z.，Levandowski，R.A.2000.A comprehensive systematic approach toidentification of influenza A virus genotype using RT-PCR and RFLP.J Virol Methods 88：15-24

Shendure，J.，Mitra，R.D.，Varma，C.，Church，GM.2004.Advanced sequencing technologies：methods and goals.

Nat Rev Genet 5：335-44

Stenger，D.A.，Andreadis，J.D.，Vora，G.J.，Pancrazio，J.J.2002.Potential applications of DNA microarrays inbiodefense-related diagnostics.Curr Opin Biotechnol 13：208-12

Strizhkov，B.N.，Drobyshev，A.L.，Mikhailovich，V.M.，Mirzabekov，A.D.2000.PCR amplification on amicroarray of gel-immobilized oligonucleotides：detection of bacterial toxin-and drug-resistant genesand their mutations.Biotechniques 29：844-8，850-2，854 passim

Thompson，J.D.，Gibson，T.J.，Plewniak，F.，Jeanmougin，F.，Higgins，D.G.1997.The CLUSTAL_X windowsinterface：flexible strategies for multiple sequence alignment aided by quality analysis tools.NucleicAcids Res 25：4876-82

Thompson，J.D.，Higgins，D.G.，Gibson，T.J.1994.CLUSTAL W：improving the sensitivity of progressivemultiple sequence alignment through sequence weighting，position-specific gap penalties and weightmatrix choice.Nucleic Acids Res 22：4673-80

Troesch，A.，Nguyen，H.，Miyada，C.G.，Desvarenne，S.，Gingeras，T.R.，Kaplan，P.M.，Cros，P.，Mabilat，C.1999.Mycobacterium species identification and rifampin resistance testing with high-density DNA probearrays.J Clin Microbiol 37：49-55

Vasiliskov，A.V.，Timofeev，E.N.，Surzhikov，S.A.，Drobyshey，A.L.，Shick，V.V.，Mirzabekov，A.D.1999.Fabrication of microarray of gel-immobilized compounds on a chip by copolymerization.Bioteehniques27：592-4，596-8，600 passim

Volokhov，D.，Chizhikov，V.，Chumakov，K.，Rasooly，A.2003.Microarray analysis of erythromycin resistancedeterminants.J Appl Microbiol 95：787-98

Vora，G.J.，Meador，C.E.，Stenger，D.A.，Andreadis，J.D.2004.Nucleic Acid amplification strategies for DNAmicroarray-based pathogen detection.Appl Environ Microbiol 70：3047-54

Wang，D.，Coscoy，L.，Zylberberg，M.，Avila，P.C.，Boushey，H.A.，Ganem，D.，DeRisi，J.L.2002.Microarray-based detection and genotyping of viral pathogens.Proc Natl Acad Sci US A99：15687-92

Wang，D.，Urisman，A.，Liu，Y.T.，Springer，M.，Ksiazek，T.G.，Erdman，D.D.，Mardis，E.R.，Hickenbotham，M.，Magrini，V.，Eldred，J.，Latreille，J.P.，Wilson，R.K.，Ganem，D.，DeRisi，J.L.2003.Viral discovery andsequence recovery using DNA microarrays.PLoS Biol 1：E2

Wilson，K.H.，Wilson，W.J.，Radosevich，J.L.，DeSantis，T.Z.，Viswanathan，V.S.，Kuczmarski，T.A.，Andersen，G.L.2002a.High-density microarray of small-subunit ribosomal DNA probes.Appl Environ Microbiol68：2535-41

Wilson，W.J.，Strout，C.L.，DeSantis，T.Z.，Stilwell，J.L.，Carrano，A.V.，Andersen，G.L.2002b.Sequence-specificidentification of 18 pathogenic microorganisms using microarray technology.Mol Cell Probes 16：119-27

Yang，I.V.，Chen，E.，Hasseman，J.P.，Liang，W.，Frank，B.C.，Wang，S.，Sharov，V.，Saeed，A.I.，White，J.，Li，J.，Lee，N.H.，Yeatman，T.J.，Quackenbush，J.2002.Within the fold：assessing differential expressionmeasures and reproducibility in microarray assays.Genome Biol 3：research0062

Claims

1.再测序DNA微阵列，包括多组固定在固相支撑体上长度范围在13到70个核苷酸的寡核苷酸引物，其中每组寡核苷酸引物为：

(a)被选择跨特定参考序列的特殊区域，

(b)占用被称为拼接区阵列的不连续区，和

(c)包括至少四组引物，在芯片上以平行方式安排在上述阵列的不连续区内，其中所述四组引物选自：

1)第一组引物与参考序列正确互补；和

2)另外三组引物，除了中心位置上的核苷酸，每一组与第一组引物一致，且这三组引物中心位置的核苷酸都不相同，使得所有四个常规核苷酸碱基出现在上述阵列中。

2.依据权利要求1所述的再测序DNA微阵列，其中寡核苷酸引物的长度为25个核苷酸。

3.依据权利要求1所述的再测序DNA微阵列，其中寡核苷酸引物跨越的参考序列的区域经(n+1)个核苷酸穿过参考序列进行移动，每个邻近拼接区域穿过微阵列表面。

4.依据权利要求1所述的再测序DNA微阵列，其中再测序DNA微阵列包含18×18微米部件。

5.依据权利要求1所述的再测序DNA微阵列，其中再测序DNA微阵列包含8×8微米部件。

6.依据权利要求1所述的再测序DNA微阵列，其中筛选出用于拼接的序列为单基因或子序列，该子序列可能代表更广类型的有机物类、种和亚种。

7.依据权利要求1所述的再测序DNA微阵列，其中筛选出用于拼接的序列为“原型”，该原型代表病原菌家族的基因型。

8.依据权利要求1所述的再测序DNA微阵列，其中筛选出用于拼接的序列为“原型”，该原型代表腺病毒家族或腺病毒组。

9.依据权利要求1所述的再测序DNA微阵列，其中筛选出用于拼接的序列为“原型”，该原型代表流行感冒病毒家族或流行感冒病毒组。

10.依据权利要求1所述的再测序DNA微阵列，其中筛选出用于拼接的序列为对单个病原菌株是独一无二的单基因或子序列。

11.依据权利要求1所述的再测序DNA微阵列，其中筛选出用于拼接的序列编码耐药标记。

12.依据权利要求1所述的再测序DNA微阵列，其中再测序DNA微阵列为RPMV1。

13.依据权利要求1所述的再测序DNA微阵列，其中再测序DNA微阵列为RPMV2。

14.依据权利要求1所述的再测序DNA微阵列，其中上述再测序DNA微阵列包含至少一种常见病原菌的参考序列和至少一种生物恐怖药剂。

15.一种试剂盒包括：

(a)依据权利要求1所述的再测序DNA微阵列，和

(b)适于靶点序列与上述再测序DNA微阵列上的探针序列进行特异性杂交的试剂。

16.检测微生物中存在耐药标记物的方法，其中该方法包括：

(a)提供了依据权利要求1所述的再测序DNA微阵列；

(b)包括遗传材料的未知样本接触上述再测序DNA微阵列；

(c)在适宜条件下，将上述未知样本与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间；和

(d)检测上述未知样本中微生物中存在耐药标记物。

17.根据权利要求16所述的方法，其中上述方法进一步包括通过在由上述方法鉴别的耐药标记物的DNA序列和已知抗性标记物之间进行序列比对确定耐药标记物的同源性。

18.根据权利要求16所述的方法，其中上述杂交时间范围在15分钟到24小时。

19.根据权利要求16所述的方法，其中未知样本为生物样本。

20.根据权利要求19所述的方法，其中上述生物样本为选自由鼻腔冲洗液样本、鼻腔抽取液样本、咽喉拭子标本、血液样本、唾液样本、血液细胞、组织样本、穿刺活检样本、尿液标本、腹腔液样本、内脏积液样本和胸积液样本或其细胞组成的组。

21.根据权利要求16所述的方法，其中上述未知样本为选自由土壤样本、空气样本和水样本所组成的组的环境样本。

22.根据权利要求16所述的方法，其中上述杂交前，未知样本经过至少一种过程，该过程选自由下列过程所组成的组：

(i)上述样本中遗传材料的分离，

(ii)富集上述样本中的主体靶点序列，

(iii)扩增包含在上述样本中的遗传材料

(iv)标记上述样本中的遗传材料，和

(v)消减杂交。

23.根据权利要求16所述的方法，其中上述杂交前，未知样本中一种或一种以上主体靶点核酸经至少选自由特异性反转录(RT)、PCR、多重PCR、和随机PCR组成组的一种方法进行扩增。

24.根据权利要求16所述的方法，其中杂交未知样本中的一种或一种以上主体靶点核酸之前，未知样本经选自由随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶、串联扩增、多重PCR和全部扩增组成组的至少一种随机扩增策略进行扩增。

25.根据权利要求16所述的方法，其中对上述未知样本中遗传材料进行富集。

26.根据权利要求16所述的方法，其中上述未知样本中一种或一种以上主体靶点核酸经从上述样本中消减背景核酸进行富集。

27.根据权利要求16所述的方法，其中上述未知样本中一种或一种以上主体靶点核酸经反转录酶消减杂交进行富集。

28.根据权利要求16所述的方法，其中上述未知样本中一种或一种以上主体靶点核酸通过选择性除去上述未知样本中的核酸混合物中上述靶点核酸被富集。

29.根据权利要求16所述的方法，其中上述探测是通过：

(i)上述未知样本中主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应生成碱基响应，和

(ii)通过杂交区序列和序列数据库内序列进行比对确定相应全长基因序列或基因组片段序列。

30.根据权利要求29所述的方法，其中碱基响应经Affymetrix GDAS软件在“许可”设置下生成。

31.根据权利要求29所述的方法，其中序列鉴定是经再测序病原菌辨识器(REPI)软件进行。

32.根据权利要求29所述的方法，其中序列数据库为GenBank。

33.通过执行权利要求16所述的方法进行常规诊断常见呼吸病原菌的方法，其中上述未知样本从需要进行常见呼吸病原菌常规诊断的患者中得到。

34.根据权利要求33所述的方法，其中上述未知样本在体检过程中得到。

35.通过执行权利要求16所述的方法监控常见呼吸病原菌的方法，其中上述未知样本从需要进行常见呼吸病原菌监控的患者中得到。

36.根据权利要求35所述的方法，其中需要常见呼吸病原菌监控的上述患者具有呼吸病原菌感染的历史。

37.通过执行权利要求16所述的方法监控一种或一种以上生物恐怖药剂的方法，其中上述未知样本从需要监控上述生物控制药剂的患者中得到。

38.根据权利要求37所述的方法，其中需要监控生物恐怖药剂的上述患者怀疑接触了上述生物恐怖药剂。

39.检测存在属于未知样本中的特殊类型有机物种或亚种类的微生物的方法，其中该方法包括：

(a)提供了根据权利要求1所述的再测序DNA微阵列；

(b)将包括遗传材料的未知样本接触上述再测序DNA微阵列；

(c)在适宜条件下，将上述未知样本中物质与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间；和

(d)检测存在属于未知样本中的特殊类型有机物种或亚种类的微生物。

40.根据权利要求39所述的方法，其中上述方法进一步包括通过由上述方法鉴别DNA序列和基因组数据库中已知序列之间进行序列比对确定特殊类型有机物种或亚种类的同源性。

41.根据权利要求40所述的方法，其中上述确定包括探测足够量的病原菌序列目的为了评估病原菌的可能来源。

42.根据权利要求39所述的方法，其中上杂交时间范围在15分钟到24小时。

43.根据权利要求39所述的方法，其中未知样本为生物样本。

44.根据权利要求43所述的方法，其中上述生物样本为选自由包括鼻腔冲洗液样本、鼻腔抽取液样本、咽喉拭子标本、血液样本、和唾液样本、血液细胞、组织样本、穿刺活检样本、尿液标本、腹腔液样本、内脏积液样本和胸积液样本或其细胞组成的组。

45.根据权利要求39所述的方法，其中上述未知样本为选自由土壤样本、空气样本和水样本的组成的组的环境样本。

46.根据权利要求39所述的方法，其中上述杂交前，未知样本经过至少一种过程，该过程选自下列过程组成的组：

(i)上述样本中遗传材料的分离，

(ii)富集上述样本中的主体靶点序列，

(iii)扩增包含在上述样本中的遗传材料

(iv)标记上述样本中的遗传材料，和

(v)消减杂交。

47.根据权利要求39所述的方法，其中上述杂交前，未知样本中一种或一种以上主体靶点核酸经至少选自由特异性反转录(RT)、PCR、多重PCR、和随机PCR组成组的一种方法进行扩增。

48.根据权利要求39所述的方法，其中杂交未知样本中的一种或一种以上主体靶点核酸之前，未知样本经选自由随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶、串联扩增、多重PCR、和全部扩增组成组的至少一种随机扩增策略进行扩增。

49.根据权利要求39所述的方法，其中对上述未知样本中遗传材料进行富集。

50.根据权利要求39所述的方法，其中上述未知样本中一种或一种以上主体靶点核梭经从上述样本中消减背景核酸进行富集。

51.根据权利要求39所述的方法，其中上述未知样本中一种或一种以上主体靶点核酸经反转录酶消减杂交进行富集。

52.根据权利要求39所述的方法，其中上述未知样本中一种或一种以上主体靶点核酸通过选择性除去上述未知样本中的核酸混合物中上述靶点核酸被富集。

53.根据权利要求39所述的方法，其中上述探测是通过：

54.根据权利要求53所述的方法，其中碱基响应经Affymetrix GDAS软件在“许可”设置下生成。

55.根据权利要求53所述的方法，其中序列鉴定是经再测序病原菌辨识器(REPI)软件进行。

56.根据权利要求53所述的方法，其中序列数据库为GenBank。

57.通过执行权利要求39所述的方法进行常规诊断常见呼吸病原菌的方法，其中上述未知样本从需要进行常见呼吸病原菌常规诊断的患者中得到。

58.根据权利要求57所述的方法，其中上述未知样本在体格检查过程中得到。

59.通过执行权利要求39所述的方法监控常见呼吸病原菌的方法，其中上述未知样本从需要进行常见呼吸病原菌监控的患者中得到。

60.根据权利要求59所述的方法，其中需要常见呼吸病原菌监控的上述患者具有呼吸病原菌感染的历史。

61.通过执行权利要求39所述的方法监控一种或一种以上生物恐怖药剂的方法，其中上述未知样本从需要监控上述生物控制药剂的患者中得到。

62.根据权利要求61所述的方法，其中需要监控生物恐怖药剂的上述患者怀疑接触了上述生物恐怖药剂。

63.评估含有相同病原菌的生物样本中病原菌相对量的方法，该方法包括：

(a)提供了根据权利要求1所述的再测序DNA微阵列；

(b)将上述生物样本接触上述再测序DNA微阵列；

(d)量化上述未知样本中微生物或属于特殊类型有机物种类或亚种类的微生物中的耐药标记的存在和/或同源性。

64.根据权利要求63所述的方法，其中上述定量通过确定上述再测序DNA微阵列上杂交信号的绝对强度进行。

65.根据权利要求63所述的方法，其中依据总拼接区域尺寸的百分比和满足滑窗算法的筛选子序列内的碱基响应百分比，通过确定碱基响应的百分比进行上述定量。

66.根据权利要求65所述的方法，其中上述定量通过再测序病原菌辨识器(REPI)软件进行。

67.腺病毒株的基因组序列，选自由Ad3、Ad3FS navy、Ad4、Ad4vaccine、Ad4FS navy、Ad4FS AF、Ad5FS、Ad7、Ad7FS navy、Ad7 vaccine、Ad16、Ad1、和Ad21和其片段组成的组。

68.计算机实施的方法，该方法用于筛选输入查询的生物子序列来鉴别预先确定的生物水平序列，包括步骤：用处理器实施方法筛选来自存储器中存储的生物序列数据中的子序列；和提交子序列进行查询来鉴别具有最初预先确定置信水平的预先确定的生物序列，其中最初预先确定置信水平在筛选阈值之上。

69.根据权利要求68所述的计算机实施的方法，进一步包括：以FASTA、MSF、GCG、Clustal、BLC、PIR、MSP、PFAM、POSTAL和JNET格式中的一种格式存储生物序列数据。

70.根据权利要求69所述的计算机实施的方法，进一步包括：确定生物序列数据是否符合生物序列或对照组序列中的一种。

71.根据权利要求68所述的计算机实施的方法，其中筛选步骤包括：筛选对应于生物序列数据中碱基响应数量的窗口尺寸参数；并计算出生物序列数据的观察窗口内有效碱基响应的百分率。对应于筛选步骤中筛选出的窗口尺寸参数的窗口尺寸。

72.根据权利要求71所述的计算机实施的方法，其中筛选步骤包括：当计算步骤中计算的百分率不满足预先确定的阈值时，滑动观察窗口到生物序列内的另一种数量的碱基响应；并且计算生物序列中含在另一种数量的碱基响应内的有效碱基响应的百分率。

73.根据权利要求71所述的计算机实施的方法，其中筛选步骤包括：当计算的百分率满足预先确定的阈值时，按照提交给查询的子序列，在观察窗口内筛选碱基响应的子序列。

74.根据权利要求73所述的计算机实施的方法，进一步包括在被筛选子序列在提交步骤中被提交之前，从碱基响应的被筛选子序列中剔除无效碱基响应。

75.根据权利要求68所述的计算机实施的方法，进一步包括将子序列与大量的预先确定的序列比对；并且生成对应于至少一种上述预先确定序列的比对结果。

76.根据权利要求75所述的计算机实施的方法，其中比对步骤的比对结果包括表明子序列和至少一种上述预先确定序列之间预先确定水平的一致的统计值。

77.根据权利要求68所述的计算机实施的方法，进一步包括将信号强度与生物序列数据结合在一起；并评估至少一种靶点序列的浓度。

78.根据权利要求77所述的计算机实施的方法，进一步包括：依据至少一个筛选参数，探测来自生物序列数据的至少两个子序列；并且探测混合物和重组事件的至少一种。

79.根据权利要求78所述的计算机实施的方法，其中至少两个序列对应于微阵列的不同区域。

80.根据权利要求77所述的计算机实施的方法，进一步包括：在类似性序列的混合物和不同序列之间的重组之间进行辨别；其中类似性序列具有预先确定水平的相似性。

81.根据权利要求77所述的计算机实施的方法，进一步包括：

在混合物和重组之间进行辨别，包括

评估微阵列第一区域的第一信号和微阵列第二区域的第二信号，并且

将第一信号与第二信号比对生成至少一种特征参数，至少一种特征参数对应于一种概率，第一信号和第二信号表明混合物和重组中的一种。

82.根据权利要求68所述的计算机实施的方法，进一步包括：

鉴别至少一种一致序列对应于大量测试序列；

筛选出至少一种一致序列中的子序列；

将至少一种子序列与至少一种预先确定的序列比对；

生成比对结果；计算比对结果与大量测试序列之间的差异；

并且生成至少一种候选一致序列。

83.根据权利要求82所述的计算机实施的方法，进一步包括：

依据至少一种候选一致序列制备微阵列探针。

84.根据权利要求82所述的计算机实施的方法，进一步包括：

依据拼接参数，修饰至少一种一致序列，拼接参数对应于至少大量测试序列中的至少一种测试序列的至少一种部分。

85.根据权利要求82所述的计算机实施的方法，进一步包括：

依据至少一种杂交参数，模拟至少一种候选一致序列和大量测试序列之间的杂交。

86.根据权利要求82所述的计算机实施的方法，其中生物序列数据包括至少核酸、转录单体、转录产物、DNA、和RNA中的一种。

87.根据权利要求68所述的计算机实施的方法，其中生物序列数据包括空位和不确定子序列中的至少一种。

88.根据权利要求68所述的计算机实施的方法，进一步包括：计算生物序列数据的相对位置，其中生物序列数据包括氨基酸和蛋白质中的至少一种。

89.根据权利要求68所述的计算机实施的方法，进一步包括：

通过人工Sanger测序、自动Sanger测序、鸟枪法测序、常规微阵列、再测序微阵列、微电泳测序、杂交测序(SBH)、Ednian降解、扩增分子上循环阵列测序、单分子上循环阵列测序和纳米孔测序中的至少一种获得生物序列数据。

90.根据权利要求68所述的计算机实施的方法，其中生物序列数据为核苷酸序列和蛋白质序列中的至少一种。

91.计算机可读存储媒体，为计算机上执行的存储计算机可读指令的配置，计算机可读指令，当由计算机执行时，设置执行鉴别预先确定生物序列的方法，该方法包括：采用处理器实施方法从存储在存储器中的生物数据中筛选出子序列；并且提交查询中的子序列来鉴别具有最初预先确定置信水平的生物序列，其中最初置信水平在筛选阈值之上。

92.一种设备，通过输入查询鉴别预先确定生物序列筛选生物子序列，该设备包括：

从存储在存储器中的生物序列数据中筛选子序列的装置；提交查询中的子序列鉴别具有最初预先确定置信水平的生物序列，其中最初置信水平在筛选阈值之上。

93.一种计算机实施方法，通过输入查询鉴别预先确定生物序列，产生生物序列数据，该方法包括的步骤为：采用处理器实施方法，鉴别存储在存储器中的生物序列数据的大量局部序列；用大量参考序列比对探测步骤中被探测到的每个局部序列；将局部序列组合为混合组的序列数据，这些序列数据是以比对步骤结果为基础；筛选混合组序列数据的被提交查询的子序列来鉴别预先确定置信水平内的预先确定生物序列。

94.根据权利要求93所述的计算机实施方法，其中探测步骤包括：扫描生物序列数据探测出位于连续系列无碱基响应内的一系列碱基响应；并提取该序列碱基响应作为大量局部序列中的碱基响应。

95.根据权利要求93所述的计算机实施方法，其中探测步骤包括：在探测到有效碱响应位置开始查询窗口；延伸查询窗口尺寸来扩大连续序列的无碱基响应；并提取窗口系列的碱基响应作为大量局部序列中的一种碱基响应。

96.根据权利要求93所述的计算机实施方法，其中局部序列包括大量有效和无效碱基响应。

97.根据权利要求93所述的计算机实施方法，其中比对步骤包括：在大量局部序列中每一种局部序列和大量参考序列中的至少一种参考序列之间确定统计水平的相似性，其中统计水平的相似性表明在大量局部序列中每一种局部序列和大量参考序列中的至少一种参考序列之间的一致水平。

98.根据权利要求97所述的计算机实施方法，其中组合步骤包括：提取大量局部序列中的每一种局部序列，这一种局部序列被确定出与预先确定阈值上的大量参考序列中的至少一种参考序列具有统计水平的相似性；线性组合大量被提取序列中的一种来生成混合组的序列数据。

99.根据权利要求93所述的计算机实施方法，其中筛选步骤进一步包括：

筛选出对应于混合组序列数据中碱基响应的窗口尺寸参数；计算包含在观察窗口的混合组序列数据内的有效碱基响应的百分率，窗口尺寸对应于在筛选步骤中筛选出的窗口尺寸参数。

100.根据权利要求99所述的计算机实施方法，其中筛选步骤进一步包括：

当计算步骤中计算的百分率不满足预先确定的阈值时，滑动观察窗口到混合组序列数据内的另一种数量的碱基响应；并且计算混合组序列数据中含在另一种数量的碱基响应内的有效碱基响应的百分率。

101.根据权利要求99所述的计算机实施方法，其中筛选步骤进一步包括：

当计算百分率满足预先确定的阈值时，子序列被提交查询中时，在观察窗口内筛选子序列的碱基响应。

102.根据权利要求101所述的计算机实施方法，进一步包括的步骤为：在筛选子序列被提交查询中之前，从被筛选子序列中剔除无效碱基响应。

103.根据权利要求93所述的计算机实施方法，进一步包括：用大量预先确定序列比对子序列；并且生成对应于上述预先确定序列中至少一种序列的比对结果。

104.根据权利要求103所述的计算机实施方法，其中比对步骤中的比对结果包括表示子序列和上述预先确定序列中至少一种序列之间的预先确定水平的一致性的统计值。

105.计算机可读存储媒体，为在计算机上执行的存储计算机可读指令而配置，计算机可读指令，当由计算机执行时，被设置执行输入查询生成的生物序列来鉴别预先确定生物序列的方法，该方法包括：

采用处理器实施方法，鉴别存储在存储器中的生物序列数据的大量局部序列；

用大量参考序列比对探测步骤中被探测到的每个局部序列；

以比对步骤结果为基础，将局部序列组合为混合组的序列数据；

筛选被提交查询的混合组序列数据的子序列来鉴别预先确定置信水平内的预先确定生物序列。

106.一种设备，通过输入查询生成的生物序列数据鉴别预先确定生物序列，该设备包括：

采用处理器实施方法，探测存储在存储器中的生物序列数据中的大部分局部序列的装置；

比对由用大量参考序列进行探测的设备探测到的每个局部序列的设备；

基于比对设备得到的结果，混合局部序列为混合组序列数据的设备；

筛选混合组被提交查询的序列数据的子序列来鉴别预先确定置信水平内的预先确定生物序列的设备。