CN101133164A - 再测序病原菌微阵列 - Google Patents

再测序病原菌微阵列 Download PDF

Info

Publication number
CN101133164A
CN101133164A CNA2005800296423A CN200580029642A CN101133164A CN 101133164 A CN101133164 A CN 101133164A CN A2005800296423 A CNA2005800296423 A CN A2005800296423A CN 200580029642 A CN200580029642 A CN 200580029642A CN 101133164 A CN101133164 A CN 101133164A
Authority
CN
China
Prior art keywords
sequence
mentioned
microarray
sample
subsequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800296423A
Other languages
English (en)
Other versions
CN101133164B (zh
Inventor
布赖恩·艾格
埃里克·H·汉森
拉塞尔·P·克鲁泽洛克
林宝钏
罗伯·罗利
司徒登
大卫·斯坦杰
詹尼弗·约翰逊
克拉克·蒂贝特斯
德宗·撒奇
加里·沃拉
伊丽莎白·沃特
王征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Government Of United States, As Represented By Secretary O
US Department of Navy
Original Assignee
Government Of United States, As Represented By Secretary O
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Government Of United States, As Represented By Secretary O filed Critical Government Of United States, As Represented By Secretary O
Publication of CN101133164A publication Critical patent/CN101133164A/zh
Application granted granted Critical
Publication of CN101133164B publication Critical patent/CN101133164B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/6893Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for protozoa
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Tropical Medicine & Parasitology (AREA)
  • Virology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是关于通过采用DNA再测序微阵列进行病原菌探测和鉴别的方法。本发明也提供了再测序微阵列芯片,用于生物样本中存在的病原菌的区分诊断和血清类型分类。本发明进一步提供了探测生物样本中存在病原菌和鉴别病原菌的方法。本发明也提供了计算机实施生物序列辨识器(CIBSI)系统和依据至少一种筛选参数从生物序列数据中筛选子序列的方法。至少一种筛选参数对应从类似的筛选中获得有意义结果的一种可能性。

Description

再测序病原菌微阵列
相关申请
本发明要求了2004年7月2日提出的美国临时申请第60/590,931号,2004年9月15日提出的美国临时申请第60/609,918号,2004年11月29日提出的美国临时申请第60/631,437号,2004年11月29日提出的美国临时申请第60/631,460号和2005年6月16日提出的美国临时申请第60/691,768号的优先权。
联邦资助项目声明
根据来自国防威胁降低局(DTRA;Interagency Cost ReimbursementOrder(IACRO#02-4118),MIPR numbers 01-2817,02-2292,02-2219,和02-2887),美国空军军医长办公室(HQ USAF SGR;MIPR NumbersNMIPR035203650、NMIPRONMIPRO35203881、NMIPRONMIPRO35203881)、美陆军医学研究(Contract #DAMD17-03-2-0089),国防高级研究计划局(DARPA;MIPR NumberM189/02),和美国海军研究总署(NRL Work Unit 6456)的基金,美国政府拥有本发明的权益。
版权声明
专利文件的公开部分包含了受到版权保护的材料。当它以美国专利商标局专利文件或记录中公开时,版权所有者不反对他人影印复制美国专利商标局公开的专利文件或记载,但在其它的方面保留所有版权。
序列列表
本申请包括附属光盘上序列列表,该光盘含有文件名为NC97416.txt,2005年7月15日生产,容量大小639KB,和另外标记:
申请人:美利坚合众国政府,由海军部长所代表
题目为:再测序病原菌微阵列
文件引用号:NC 97,416
附属光盘的全部内容通过在此引述而合并于本申请中。
技术领域
本发明提供了采用DNA再测序微阵列进行病原菌检测。优选,本发明提供了多个病原菌的同时测定方法。本发明也提供了再测序微阵列和区分诊断用的微阵列芯片和生物样本中紧密相关病原菌间的细微区别。本发明进一步提供了检测生物样本中病原菌的存在和识别的方法。本发明能够诊断和监视已知病原菌序列和由于未预期序列突变而被确定的病原菌,以及这种病原菌的混合物。联合一些扩增策略,再测序允许同时临床诊断和血清类型分类的传统监测试验、抗生素耐药性、遗传漂变/遗传漂移分析、法医、和生物恐怖事件的快速探测。
本发明也是关于多种自动筛选体系,该体系包括采用可供选择的生成核酸或蛋白序列的任意方法自动子序列筛选体系。该系统适用于自动筛选由再测序DNA微阵列获得的不完全核苷酸序列数据的子序列,依据系统预先确定的参数或使用者确定的参数,采用一种或一种以上相似性搜索算法来筛选最适于对比预先确定数据库序列收集的序列子集。本发明的实施方案也能够进一步分析和表达由一种或一种以上子序列提交的相似搜索得到的相关结果。这里描述的本发明的主题分辨序列标记的组合,该序列标记组合源于多个序列靶点(例如,微生物)的混合或源于单个靶点内序列的重排。基于DNA微阵列的相对信号强度值,本方法的实施方案也能分配相对丰富的混合靶点序列。此外,本发明的一种主题为采用“原型”序列块表达相关靶点序列(例如,病原菌)的范围,设计再测序DNA微阵列的迭代程序的完整组成组分。
背景技术
由于我们正在经历人类基因组工程的生物技术时代,已经将额外费用投入到发展获得和分析序列信息的高产量方法学中。为了满足这种需要,多功能DNA微阵列平台已经拥有导致应用方法中应用爆发性增长的显著名声。
更重要的,世界事件的发展和主流社会中生物恐怖行动的出现已经引起科学团体增长的情绪并且使人们必须发展用于鉴别和清除生物威胁的新颖、快速并准确的技术。用于广谱病原菌鉴别的微阵列的概念对医疗实践和国家防御都具有相当大的和显而易见的吸引力。在这个构架中,本发明者已经做出了努力。
迄今,通常依赖于微阵列表面上的固定“探针”DNA序列与互补基因组“靶点”的杂交能力来实现鉴别病原菌的目的,该互补基因组“靶点”独一无二鉴别特殊种类或特异性细菌病原菌。针对该目的已经发展了不同的微阵列技术,这些技术在探针密度和试验完成需要的时间范围上有所不同。
由于在获得具有足够量病原菌核酸样本中的困难,产生了用微阵列进行病原菌检测的技术挑战。因此,对于大部分样本类型,某些种类的靶点扩增将有可能需要提供用于经微阵列杂交进行检测的病原菌基因标记的足够拷贝。不幸的是,扩增的惯常方法与放置于微阵列芯片上的探针数量相比标度不好。然而,提供足够量的基因组靶点检测杂交的更普遍采用的方式依赖于基因型鉴定方法,该基因型鉴定方法利用分子生物学技术,例如聚合酶链反应(PCR)。这些技术比惯常微生物学方法具有一些潜在优势。核酸扩增策略病原菌鉴定基于有机体内的基因信息的检测,例如不需要培养有机体。
尽管PCR测试灵敏、准确并且快速,这些方法也带来新的问题。成功的鉴定完全依赖于适当的选择引物,如PCR测试要求假设靶点有机物固有的精确序列。因此,迫切需要先进的诊断体系以检测假定的和不可预料的病原菌序列。DNA微阵列能够查询数千个遗传因素,处理该紧要的需求。术语“微阵列”统指一类在单个位点具有高度复制能力(102到106)的平面底物或固体瓷球,每一种核酸探针设计用于选择性地捕获互补链的靶点(例如病原菌或宿主)核酸。
然而,文库内描述的大部分病原菌鉴定微阵列采用寡核苷酸制备得到,该寡核苷酸被机械设备控制点样于衍生的玻璃表面上(一般为3x1英寸载波片)。这种方法使得寡核苷酸的尺寸具有最大的灵活度,该寡核苷酸被沉淀下来,范围从20-mers到几千个碱基对(bp)的cDNA PCR产物。无一例外,检测结果为在具有荧光团标记的靶点核酸的杂交之后污点产生的加强的荧光。
Argonne国家实验室(DOE,USA)和Engelhard分子生物学研究所在Andrei Mirzabekov领导下共同努力已经使固定在丙烯酰胺衬垫内的短寡核苷酸(14-25mer)广泛用于与病原菌鉴定中(参见Strizhkov et al.,2000;Vasiliskov et al.,1999)。此外,低密度微阵列(几百个3x1英寸载波片)已经用于抗药物决定因素的确定(参见Volokhov et al.,2003)。该工作主要部分的一个不同方面是使用了探针固定的三维聚合物矩阵代替二维平面。
目前,Cherkasova等人描述了玻璃固定短寡核苷酸点样微阵列,使用重叠14-25mer探针来描绘脊髓灰质炎病毒突变(Cherkasova et al.,2003)。这种方法的两个改变已经进行使用:(1)再测序微阵列和序列异质性(MARSH)试验,和(2)病毒重组的微阵列分析(MAVR)试验。MARSH使用了一组重叠的单个基因序列(半长度)核苷酸探针。杂交方式使得单点突变或取代或缺失成为半个探针长(如,7-10bp)解决方法而不考虑位点的准确检测或不变的性质。因此,惯常的DNA测序技术后来一定被用于检测这些改变。MAVR使用以150nt间距覆盖整个基因组的有机体-特异性寡核苷酸探针并且用于检测大规模遗传重组。
UCSF的DeRisi组开拓了使用长(70-mer)寡核苷酸探针微阵列用于光谱病原菌鉴定(Wang et al.,2002;Wang et al.,2003)的方法。长(70nt)寡核苷酸的使用具有绝对优势和劣势。一种优势是相对于较短探针(例如,7-10)而言通常能由70-mer探针得到更高程度的灵敏性。然而,因为70-mer靶点/探针杂交一般对显著性数量的单碱基不匹配不灵敏而减少了特异性,然而,较短探针提供了更大的序列特异性。
DeRisi′s工作组描述使用具有1,600个不同的70-mer寡核苷酸探针的点样微阵列来鉴定引发普通呼吸感染的多种病毒(Wang et al.,2002)。采用算法定位于已知病毒基因组列表中的鉴别序列,为每个病原菌选择的探针。先前描述的方法和后来PCR/Klenow片断基扩增的一系列组合被用于获得病毒KNA和DNA的无偏扩增,生成足够量的成功微阵列杂交的靶点扩增子并且经荧光标记检测。(N.B.这个草案被置于DeRisi实验室网址的公共领域中(http://derisilab.ucsf.edu)′)。为得到结果进行样本准备需要的时间约24个小时。因为确定序列信息从这个阵列得不到,病原菌鉴定是以杂交方式为基础的,杂交方式能凭经验确定每个或每一株病原菌。在同一研究组的相关报告中(Wang et al.,2003),采用高度保守序列制备类似微阵列努力从样本中捕获尽可能多的微生物种类。随后从微阵列中物理除去病原菌序列,克隆该序列并使用惯常DNA测序技术进行测序。在DeRisi研究组的工作中没有提供临床样本中病原菌检测的分析/临床灵敏性或特异性的测量。
相对于上面提到的使用点样微阵列的方法,Affymetrix,Inc.(SantaClara,CA)使用高度密度探针制备技术在被测序的每个核苷酸碱基的正义和反义方向采用4个探针来构建″拼接″微阵列。因此,单碱基取代通过杂交模式直接被检测出(额外信息参见Affymetrix CustomSeq design manual)。一些工作组描述可使用病原菌基因型拼接微阵列。(Kozal et al.,1996)利用这种类型的微阵列测量HIV内突变漂移,而Gingeras等人(Gingeras et al.,1998;Troesch et al.,1999)使用65,000低聚物探针的tiled阵列进行再测序并精确鉴定27个分枝杆菌的70个临床分离物和15个耐利福平结核分枝杆菌株。目前,Andersen等人(Wilson et al.,2002b)描述了使用tiledAffymetrix微阵列鉴定生化战试剂。他们的方法完全依赖于实施特异性PCR反应的使用同时生成微阵列杂交用的足够病原菌靶点DNA。在所有上述列出的情况中,特异性PCR引物用于在微阵列杂交之前扩增DNA靶点,通过使用保守引物位点,在多井格式中执行~150个不同PCR反应并且共有扩增子。
美国专利6,228,575 B1描述了如Gingeras(Gingeras et al.,1998)和Troesch(Troesch et al.,1999)描述的相同的数据。在该专利中,靶点病原菌序列被拼接到阵列中。因为病原菌序列中的一些类型的变异(esp.插入/缺失或频繁多重取代)能扰动杂交模式,Gingeras等人使用特异性病原菌杂交模式的不同测量方法来鉴定单个分枝杆菌变异体。那就是说,鉴定需要杂交模式的先验知识,该杂交模式在陆地实测试验中被经验确定出。
如同上面阐述的,迫切需求先进的诊断系统来探测抑制和病原菌基因组序列以及这些序列的变异。更特殊的是,迫切需要快速可信的DNA微阵列技术,而且此微阵列技术没有迄今已经被采用的PCR方法的系统偏差。
生物学与工程和计算机科学的融合导致生物技术和生物信息学的出现,其目的之一在于迅速获得和分析疾病诊断用的基因组和蛋白质组序列信息。这种方法的实验活性和普遍可用性主要基于DNA微阵列的出现(Stenger et al.,2002)。
一般来说,微阵列制备应用微处理器制造业的方法来制备能迅速可信鉴定生物样本中的DNA序列或蛋白质的“基因芯片”。术语“微阵列”统指任意类型的平面底物或可供选择的矩阵,在单个位点具有高度复制能力(102到106),每个存在的探针(固定核酸或抗体)被设计选择性捕获溶液中互补链的靶点(例如,基因或基因转录)分析物。经设计,DNA微阵列能同时审查几千个基因或基因转录因素。
在使用再测序DNA微阵列进行遗传分析中,含有扩增和荧光标记遗传靶点的溶液经过微阵列,该微阵列由大量“拼接”格式的寡核苷酸探针组成(Kozal et al.,1996)。样本中的互补序列结合相应的微阵列上含有的探针。然后,使用如激光扫描仪分析微阵列,该激光扫描仪记录微阵列探针光发射强度。然后,采用用于生成“碱基响应”的阵列特异性软件分析被记录的强度,阵列特异性软件为描述鉴定生物样本中核酸(腺嘌呤;A,胸腺嘧啶;T,胞核嘧啶;C,或鸟嘌呤;G)某种程度的概率确定性序列的计算方法。广泛IUPAC定义代码也用于描述了不准确地碱基响应(参见,2004年7月2日提出的美国临时申请序列号60/590,931题目为“再测序病原菌微阵列”,补充资料,Appendix J″gdas_manual.pdf page 255)。如果靶点序列与再测序序列的适宜拼接区域充分一致(每25个碱基有小于1-2个碱基取代),那么靶点的全部再测序是有可能的。然而,当靶点序列包含插入、缺失或碱基取代在靶点序列每25个碱基大于2个取代次数时,拼接区域的杂交被中断。“无[碱基]响应”的结果由微阵列拼接区域上的相应序列中得到。当溶液中靶点核酸浓度低或当存在干扰水平的杂交溶液中竞争底物核酸时,也导致N响应。不完全生物序列信息也能由许多其他核酸或蛋白质序列技术产生。
再测序的主要应用是为了检测低概率单核苷酸多态性(SNPs)或靶点序列限制范围内的突变。然而,尽管在工业中目前没有惯用的实施方法,微阵列序列输出也能与序列数据库对比来鉴定靶点序列。目前使用的序列数据的最普遍比对方法,或类似性搜索算法为基本的局部比对搜索工具,普遍以″BLAST.″著称并且这里统称为″BLAST.″。它存在许多变体,包括华盛顿大学BLAST(WU-BLAST)、NCBI-BLAST、FASTA、MPsrch、Scanps、和BestFit(Korf,Yandell&Bedell,2003)。依据测试样本包括已知序列的匹配生物主体的确定性,一般这种比对产生许多可能匹配(概率性测量)。微阵列密度分析序列产量经常与包括生物主体的已知序列进行比对,该生物主体包括病原菌微生物。然而,本发明技术领域中的普通技术人员不能从视觉上确定拼接区域中的最好序列部分,该拼接区域包含经过改变无响应(N)的数量介入和在一些情况下受支配的A、C、T和G碱基响应。
用于遗传测序和鉴定用微阵列预期提高了一种研究者从生物样本中提取大量序列数据比对大量先前测序的有机体和生物质的能力。然而,研究者不能利用有效时间信息。对研究者因过度等待时间提交的比对样本序列,模糊结果也是令人困惑的难题并且差结果与尝试匹配模糊结果相关。因此,对研究者来说从序列比对中获得更相关结果的广泛使用的方法是分析搜索子序列的序列输出,该子序列具有获得相关结果的较高概率。特别的,许多研究者经常发现自己手动并主观筛选,或视觉分析某些子序列,与序列数据库中子序列比对。结果,研究者消耗了时间和资源提交的类似性搜索是相对缓慢并且主观优化的序列数据。因此,上面提到的资源利用问题的目前解决方案导致了研究者要求的额外时间和资源要求必备的条件。此外,如同目前解决方案具有主观性以及时间密集型的,促进基因组研究发展(或加速)的净收益至多是不确定的。
然而,如同上面提到的,已知生物序列的巨大储存库通常包含在共享计算资源中。这些共享计算资源要求大量数据存储能力,以及具有与数据库中序列比对提交序列的强大工具。由于研究者生成的大量序列数据改善了一般研究使用的微阵列并增强了其可用性,主要任务在于利用宽带共享数据库(和相关系统)并且处理要求显著性提高了。换句话说,广泛使用微阵列可能得到的数据增加通常导致更难有效利用共享生物信息计算资源。
例如,如果提交的序列含有大百分比的不确定序列数据,序列数据库计算资源将设法找出与固有的不确定序列相匹配的序列,导致所有低确定性的可能类似性搜索结果。图10(a)为说明目前可能采用工业可用方法执行工艺的示范流程图。在这个实施例中,采用类似性搜索109,提交对应于主体序列的核苷酸或氨基酸序列数据103与已知序列数据库进行比对。
当与数据库记录比对时提交序列103,109可能或不可能获得统计学显著或有意义结果。因此,经定义,使用大量确定类似性算法中的任何一种,采用“比对”方法对序列记录数据库执行查询序列的类似性搜索(例如BLAST)。上述“可比”序列与至少数据库中的一种序列具有足够程度的类似得到至少一种统计学上显著性结果(使用者定义)。对终端用户来说,视觉鉴定和选择连续性核苷酸碱基响应(仅由A、T、C、或G残基组成)或可比较的氨基酸。然而,由于含在靶点序列内的″Ns″的数量或百分比提高,对终端用户更加困难凭视觉确定完整序列或其中的子序列的可比性。
结果111包括高概率匹配111a,较低概率匹配111b,和有效量的统计学上无显著性结果111c,结果111c导致与数据库偶然匹配。经类似性搜索算法Ns处理为″aNy″(wild card)特性,意味着当使用缺省参数时,N可为四个碱基残基中的任何一种或间隙。在再测序DNA输出中,N说明再测序算法不能解决响应并且能对应四个碱基残基(A、T、C或G)的任何一种或对应空腔(Korf et al.,2003)。在在提交序列中包括许多无响应(Ns)的情况下,类似性搜索(如BLAST)将计算出E值比认可E值(如1.0e-9)高,说明偶然性更大,返回的序列不是独一无二的。类似地,短序列可能具有较高E值,说明确定独一无二的DNA存在中,终端用户缺乏使用短序列。结果111包括许多不确定结果111c,那么剩下的结果111成为研究者分析的113。
在图10(a)中,显示出其他用户将碱基响应序列提交给共享序列数据库109,处理这些局部排列搜索的附加要求。如上面描述的,多个用户提交不确定序列给共享序列排列资源经常导致可用计算资源仅服务于一小部分序列提交。
图10(b)说明这个可供选择情况经常在工业实施中发现,研究者时间消耗是使人困惑的难题。相对于先前说明的情况,在研究者手动实施的119切割和粘贴操作中改变103序列数据。更特殊的是,研究者经常目测扫描原始数据输出并且主观拷贝和粘贴119原始数据输出子集,119原始数据明显包含较少的″Ns″并且提交这些主观筛选121比对109。然而,如主观实施子集筛选并且重复大量原始数据,人筛选的提交物121通常包括可比的121a和不可比的121b数据。因此,BLAST比对123的结果仍包括一系列可能匹配,范围从高概率匹配123a到低概率匹配123b,其经常由筛选引起,而筛选中存在许多无响应123c而不存在由无类似性的序列匹配引起的低概率匹配的预期结果。
根据上面讨论的,图10(c)是在有线或无线网络128上,与计算机终端的序列数据库服务器作用的这个系统设计的示意图。在一些情况中,序列数据库(和相关服务器)127远离终端用户129。可供选择地,一些设备定制序列数据库133,数据库133可进入局部终端131。然而,上面提到的时间和共享资源消耗的问题在时间消耗较大增加的公共数据库水平的设备配置中是显著性的。
许多不同因素能导致再排序DNA微阵列不能产生确定碱基响应。在纯净靶点样本中,碱基响应的杂交模式(Cutler et al.,2001;Kozal et al.,1996)被中断。一种靶点序列完全不同于探针序列,该探针序列拼接在微阵列表面上。这在再测序微阵列输出文档的阻断位中引入了N响应。当样本不纯而含有不同量的其他核酸分子,发生了相同效应,该核酸分子能低亲和力非特异性结合拼接探针,导致经探针装置较低信噪比的杂交(荧光)信号。为说明这些因素怎么能确定是否序列是可比较的或不可比较的数据,图10(d)显示了当发生不完全杂交时发生了再测序DNA微阵列输出文档的实施例。在该说明情况中,序列135是FASTA形式,然而可供选择的序列数据格式同样适于,包括,但不限于plain、EMBL、GCG、GenBank、和IG。在实施例中,序列136为序列子集140(子序列)。实施例子序列140包括具有大量无响应(Ns)137的子序列,子序列太短而不能从类似性搜索如BLAST 139中返回有效结果,并且子序列可能生成有效结果143。此外,由aliase产生多重序列,其位于序列标头138,涉及存在于微阵列表面上的探针拼接装置。
总的来说,上面提到的目前工业实施的问题基本关于研究者时间消耗和共享资源分配。更特殊地,样本中得到的增加量的子序列数据导致共享资源,如序列比对数据库利用的迅速增加。这种迅速增加成为逐渐增加的群体(研究者和数据)效率使用的必要条件。为了更有效使用共享资源,现在研究者面临着需要耗费时间和资源来主观手动筛选比对序列子集。
根据上面陈述的,迫切需要先进的诊断体系以迅速探测出已知和未预料到的序列。更特殊地,迫切需要DNA微阵列技术,尤其在共享类似性搜索数据库和系统的利用中,该DNA微阵列技术减少了人工输出的需要并且提高了共享资源利用的效率。
除了上面描述的工业中存在关于更有效率使用研究者和共享计算资源的问题,世界事件的发展和传染性疾病的出现以及主流社会中生化恐怖事件在科学团体中引发了逐渐增长的情绪并且使人们发展鉴别出威胁和消除威胁的新颖、迅速并且准确技术。用于广谱病原菌鉴别的微阵列的概念对医疗实践和国家防御都具有相当大的和显而易见的吸引力。在这个构架中,本发明者已经在努力。此外,不管序列数据的来源,需要更有准备和强有力确定混合物和生物序列数据的生物样本中组合。
发明内容
本发明的目的是提供下列优选实施方案:
在本发明的一种实施方案中,多组寡核苷酸引物的再测序DNA微阵列固定在固相支撑物上,该寡核苷酸引物长度范围在13至70个核苷酸,其中每组寡核苷酸引物被选择跨参考序列的特殊区域,占用阵列(如,拼接)的不连续区,并且包括至少芯片上平行方式安排的四组引物:1)第一组与参考序列互补;和2)三组额外引物,除了中心位置上的核苷酸之外,每一组与第一组引物一致,这三组的各自的中心位置上的核苷酸也相互都不同,使得所有四个常规核苷酸碱基出现在上述阵列中。
a.在本实施方案的一个优选方面中,寡核苷酸引物的长度为25个核苷酸。
b.在本实施方案的一种优选方面中,寡核苷酸引物跨越的参考序列区域经(n+1)个核苷酸穿过参考序列进行移动,参考序列的每个邻近拼接区域穿过微阵列表面。
c.在本实施方案的一种优选方面中,再测序DNA微阵列包含18x18微米特点。
d.在本实施方案的一种优选方面中,再测序DNA微阵列包含8x8微米特点。
e.在本实施方案的一种优选方面中,筛选出用于拼接的序列为单基因或子序列,该子序列可能代表更广类型的有机物类、种类和亚种类。
f.在本实施方案的一种优选方面中,筛选出用于拼接的序列为“原型”,该原型代表病原菌家族的基因型。
g.在本实施方案的一种优选方面中,筛选出用于拼接的序列为“原型”,该原型代表腺病毒家族或腺病毒组。
h.在本实施方案的一种优选方面中,筛选出用于拼接的序列为“原型”,该原型代表流行感冒病毒家族或流行感冒病毒组。
i.在本实施方案的一种优选方面中,筛选出用于拼接的序列为单基因或子序列,该子序列对单个病原毒株是独一无二的。
j.在本实施方案的一种优选方面中,筛选出用于拼接的序列编码耐药标记。
k.在本实施方案的一种优选方面中,再测序DNA微阵列为呼吸病原菌微阵列版本1(RPMV1)。
l.在本实施方案的一种优选方面中,再测序DNA微阵列为呼吸病原菌微阵列版本2(RPMV2)。
m.在本实施方案的一种优选方面中,至少一种普通病原菌和至少一种生物恐怖药剂在同一芯片上。
n.在本实施方案的一种优选方面中,再测序DNA微阵列包括前述方面的任何组合。
在本发明的一种实施方案中,试剂盒包含(a)前述再测序DNA微阵列,和(b)适于靶标序列与上述再测序DNA微阵列上的探针序列进行特异性杂交的试剂。
本发明的一种实施方案为检测微生物或属于特殊类型有机物种或亚种类的微生物中存在耐药标记的方法,其中该方法包括:(1)提供了上面描述的再测序DNA微阵列;(2)接触上述再测序DNA微阵列未知样本;(3)在适宜条件下,将上述未知样本与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间;(4)检测微生物或属于特殊类型有机物种或亚种类的微生物中耐药标记的存在和/或同源性,和(5)检测足够量的病原菌序列从而为病原菌可能来源进行法医学鉴定
a.在本实施方案的一种优选方面中,本方法用于检测特殊病原菌种类的存在。
b.在本实施方案的一种优选方面中,本方法用于检测耐药标记的存在。
c.在本实施方案的一种优选方面中,杂交时间范围在15分钟到24小时。
d.在本实施方案的一种优选方面中,未知样本为生物样本,包括鼻腔冲洗液样本、喉咙拭子标本、血液样本、和唾液样本,或环境样本,包括土壤样本、空气样本和水样本。
e.在本实施方案的一种优选方面中,杂交前,未知样本经过下列一种或一种以上步骤:(1)分离,(2)富集主体靶点序列,(3)扩增,(4)标记,和(5)杂交(例如,消减杂交)。
f.在本实施方案的一种优选方面中,杂交前,未知样本中主体的靶点核酸经特异性反转录(RT)、PCR、多重PCR、和/或随机PCR进行扩增。
g.在本实施方案的一种优选方面中,杂交主体靶点核酸之前,未知样本经随机扩增策略(例如,随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶、串联扩增、多重PCR、和全部扩增)。
h.在本实施方案的一种优选方面中,对上述未知样本中的DNA进行富集。
i.在本实施方案的一种优选方面中,上述未知样本中主体靶点核酸经消减从上述未知样本中背景核酸进行富集。
j.在本实施方案的一种优选方面中,通过从包含核酸的未知样品混合物中选择性除去靶点核酸,从而富集未知样品中的目标核酸。
k.在本实施方案的一种优选方面中,上述未知样本中主体靶点核酸经具有完整或部分序列同源性的探针筛选性捕获进行富集,随即进行扩增和杂交到微阵列上。
l.在本实施方案的一种优选方面中,上述探测存在和/或同源性是通过(a)根据上述未知样本的主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应进行碱基配对和(b)通过将杂交区序列和序列数据库内序列进行比较确定相应全长基因或基因组片段的序列。
i.在特别优选方面中,碱基响应经Affymetrix GDAS软件在“许可”设置下生成。
ii.在特别优选方面中,序列鉴定是经再测序病原菌辨识器(REPI)软件进行(参见2004年9月15日提出的美国临时申请序列第60/609,918号和2004年11月29日提出的美国临时申请序列第60/609,918号)。
iii.在特别优选方面中,序列数据库为GenBank。
本发明的一种实施方案为采用上面C方法常规诊断普通呼吸病原菌和/或生物恐怖药剂的方法。
本发明的一种实施方案为十三个在本发明日期时未知的腺病毒株的基因组序列,包括:Ad3、Ad3FS_navy、Ad4、Ad4vaccine、Ad4FS_navy、Ad4FS_AF、Ad5FS、Ad7、Ad7FS_navy、Ad7 vaccine、Ad 16、Ad1、和Ad21和其片段。
本发明的一种实施方案为采用上面C方法监视普通呼吸病原菌和/或生物恐怖药剂的方法。
本发明的一种实施方案为评估生物样本中相对量的病原菌的方法,该生物样本包含提供上面描述的再测序DNA微阵列同一组成;(2)接触上述再测序DNA微阵列生物样本;(3)在适宜的条件下,将上述未知样本与固定在上述再测序DNA微阵列上的探针序列杂交适宜的时间;和(4)量化上述未知样本中微生物或属于特殊类型有机物种类或亚种类的微生物中的耐药标记的存在和/或同源性。
a.在本实施方案的一种优选方面中,上述定量通过确定芯片上杂交信号的绝对强度进行。
b.在本实施方案的一种优选方面中,通过确定碱基响应的百分比进行上述定量。所述碱基响应百分比即可以视作总拼接区域尺寸的百分比又可以视作满足滑窗算法(例如,REPI)的筛选子序列内的碱基响应百分比。
本发明的另一种方面提供了计算机实施生物序列辨识器(CIBSI)系统和依据至少一种筛选参数从生物序列数据中筛选子序列的方法。至少一种筛选参数对应于从类似性搜索返回有效结果的可能性。
本发明的附加实施方案提供了自动筛选最佳序列或子序列的系统,该子序列用于比对一组预先确定的未知序列。选择性地,系统自动用Ns分布高度片段的序列,并且筛选可比对能从类似性搜索中返回有效结果的子序列。
选择性地,该系统利用滑窗型算法筛选子序列。随后,该系统自动从类似性搜索返回输出给终端用户,使得随机分配对应预先确定序列的给定碱基响应。
在本发明的附加实施方案中,源自碱基响应算法的序列信息,如应用于微阵列杂交模式,用于鉴定测试样本中的单个生物体。选择性地,微阵列的再测序探针确定的靶点序列采用类似性搜索算法查询数据库。类似搜索算法包括,但不限于,普遍使用的局部比对(例如,Smith-Waterman,BLASTN)序列比对算法来统计学上确定给定靶点序列对应数据库中特异性序列的概率。(Korf et al,2003)
此外,本发明的另外实施方案给用户提交了类似性搜索的结果关于是否样本中存在至少一种靶点序列。
在本发明的另一种实施方案中,信号强度数据(例如,从微阵列中得到的数据)由系统处理并且与序列数据相关。收集类似性搜索的结果或提炼给用户显示出生物体(包括,但不限于,病原菌)存在与否。此外,由于相对充足的生物体(包括,但不限于,病原菌),强度与上述结果相关。选择性地,系统提供给终端用户再测序微阵列试验中检测出的病原菌相关量的推测。
本发明的另一种方面鉴定了序列的混合物和表示重组的序列。在一种实施方案中,系统自动检测出微阵列不同拼接区域上重叠或同源序列片段,推测序列的混合物。在另一种实施方案中,该系统确定了不同拼接区域序列结果不重叠而对应于用于推断遗传重组的连续序列。选择性地,该系统在不同序列间的不同遗传重组间进行鉴别。
本发明的另一种方面提供了设计再测序DNA微阵列“原型”区域(参见,美国临时申请序列第60/590,931号)的方法。在这个情况中,一组相关靶点序列采用多重序列比对算法如ClustalW或Clustal_X(Thompson etal.,1997;Thompson,Higgins&Gibson,1994)或搜索部分保守区域如HMMer(Eddy,1998)序列数据库的另一种方法进行比对,用于生成由比对柱给定残基位点的最常用核苷酸组成的一致序列。一致序列由一致碱基响应和无响应(Ns)的混合物组成,比对柱内的每个残基位点不一致。
选择性地,本发明的一种实施方案通过鉴定具有保守核苷酸和变异核苷酸平衡的那些区域来搜索候选区,拼接到再测序DNA微阵列上,使靶点杂交到再测序微阵列拼接区域上,但还要考虑足够的序列可变性。这使得靶点序列的序列类似性搜索鉴定,包括用于生成一致的比对算法成为可能。
在可供选择的实施方案中,核苷酸或氨基酸序列来自交替型序列发生器,包括(Shendure et al.,2004)中描述的那些,并且局部氨基酸序列可组成蛋白质序列。该系统经选择的实施方案处理氨基酸或蛋白质序列,序列中相关位点为保守型的。
在其他经选择的实施方案中,核苷酸序列包括蛋白质合成用编码的核糖核酸(RNA)转录。在鉴定抗靶点核酸重组的混合物的类似方法中,RNA转录混合物能被杂交并因此在拼接微阵列上再测序生成原始数据,根据与转录编辑和可供选择的剪接重组进行对比,该原始数据可采用本发明进行分析来鉴定相对量的不同RNA转录(Leipzig,Pevzner&Heber,2004)。
本发明的附加实施方案可适用于核苷酸、转录产物、氨基酸、或其任何混合物。此外,本发明也适用于在本领域中众所周知的程度上使用不同类型的序列数据库和类似性搜索算法。而且,本发明的实施方案适合于或适应于大范围的方法和/或装置,这些方法和/或装置生成序列数据,包括但不限于人工或自动Sanger测序、常规微阵列、再测序微阵列、微电泳测序、杂交测序(SBH)、Ednian降解和其变型、扩增分子上循环阵列测序、和非循环、单分子、实时方法如纳米孔测序(Shendure et al.,2004)。
上述目的强调了本发明的某一方面。后面的具体实时方式中描述了本发明的另外目标、方面和实施方案。经过下列附图说明和具体实施方式的描述,本发明的其他系统、方法、特征和优势将对本技术领域中的技术人员来说是显而易见的。所有附加系统、方法、特征、和优势都包括在本发明中,在本发明界定的范围内,并且受到所附权利要求的保护。
附图说明
经过参考下列附图和下面详细的描述,更容易获得本发明更完整评价和许多优势,同时,可以更好的理解本发明。
图1是对版本1呼吸病原菌微阵列(RPMV1)的图形化描述。针对每个病原菌的所有拼接区域的几何分布由着色表示出(公正的)。Affymetrixspike-in对照在微阵列的顶部(白色的)。分布在拼接区域间的黑色区域不包含探针。
图2显示出根据实施例1中描述的,将纯化的原型4腺病毒(登录号AY594253)DNA杂交到RPMV1上,随后使用(A)简并引物PCR(Lin et al.,2004)或(B)GenomiPhi靶点DNA的全部扩增来分离和扩增核酸。简并引物PCR(A)导致保守引物位点覆盖的拼接区域内靶点的杂交。全部扩增(B)导致整个Ad4拼接区域的靶点杂交。两个方法均不产生显著性的微阵列交互杂交。在每个方案中,REPI鉴定了所有扩增子被杂交的Ad4拼接区域,除了在一种情况外(实施例1中进行描述的),正确的腺病毒4(AY594253)株具有最高的BLAST(″基本的局部比对搜索工具″)的比值。
图3显示根据实施例3中描述的,纯化的腺病毒5地方株(Ad5FS,登录号AY601635)(A,B)和原型腺病毒7(登录号AY594255)(C,D)DNA杂交RPMV1,随后采用(A,C)简并引物PCR(Lin et al.,2004)或如实施例3中描述的(B,D)GenomiPhi靶点DNA的全部扩增来分离和扩增核酸。简并引物PCR(A,C)导致Ad5FS和原型Ad7内保守引物位点覆盖的拼接区域内靶点的杂交。全部扩增(B,D)导致整个Ad5和Ad7拼接区域的靶点杂交。两个方法均不产生显著性微阵列的交互杂交。在每个方案中,REPI鉴定了所有拼接区域正确的腺病毒5(Ad5FS,登录号AY601635)株或腺病毒7(登录号AY594255),扩增子被杂交。对于腺病毒7,原型Ad7被安排在Ad7疫苗拼接区,正确区别于源自拼接区的Ad7疫苗株(AY594256)。也值得提到的是所有腺病毒扩增用的简并引物溶液被小量的Ad4和Ad7原型污染(由实时PCR反应产生的污染不认为是阳性的)。污染物不引起容易辨别的杂交(如图3中显示的)但遗传数据分析软件(GDAS)生成碱基响应(配有微阵列阅读器形成Affymetrix,Santa Clara,CA)和再测序病原菌辨别器(REPI)分配所有非故意碱基响应给正确的污染物。GenomiPhi溶液没被污染,各自试验中,在Ad5和Ad7拼接区外的腺病毒拼接区上无碱基响应。
图4显示出如实施例4中描述的腺病毒4、5突破菌株。患有发热性呼吸道疾病(以前接种过抗腺病毒疫苗)患者咽喉拭子培养物中的等量纯化核酸采用保守/简并引物进行扩增,根据(Lin et al.,2004)的描述,另外依据Affymetrix CustomSeq标准策略实施。患者经血清分型抗体中和诊断为Ad4阳性,并且经六邻体序列分析诊断为Ad5阳性。本发明者获得多重靶点杂交,导致所有腺病毒5和腺病毒7原型拼接区上的碱基响应。REPI分析揭示鉴别出了高置信度的腺病毒,例如Ad5(Ad5FS,登录号AY601635),而多重原型Ad7区域给出B亚群种类而非Ad7,即Ad21。再值得注意的是,如在图3中显示的情况,用于所有腺病毒扩增的简并引物溶液无意间被小量的Ad4和Ad7原型污染。该污染物不引起在Ad4拼接(如图4中显示的)中的易辨识的杂交,但由GDAS和REPI引起的碱基响应被分配给正确的污染物(腺病毒4原型;登录号AY594253),不给基本军训地中传播的地方株。此外,在Ad7拼接中获得的最高比值不是原型Ad7(不管低水平污染物)而是腺病毒型21((Ad 21;AY601633),Ad7原型(AY594255)代表B亚群腺病毒的另一种成员。采用Ad5常规DNA测序、Ad21扩增子测序、和点样微阵列结果证实了该样本中的Ad5和Ad21的混合物的观察(Lin et al.,2004)。然而,经单个拼接区子序列中的高比值检测出原型Ad7的低水平污染物并且对其进行鉴别。因此,在该实施例中,意外受小量Ad4和原型Ad7(在地方样本中没有发现)污染,由Ad5和Ad21组成的意外混合的腺病毒样本被完全鉴别出。没有这类事件和探针设计成果,使用其他类型微阵列(如,点样)不可能有这么详尽的辨别。
图5显示根据实施例5描述的方法鉴定流行感冒A株的结果。等量流行感冒A株发热性患者鼻腔冲洗物(经标准病毒细胞培养技术证实),在2003-2004流行感冒季节采用(A)通用的(Hoffmann et al.,2001)或(B)多路(Offringa et al.,2000)RT/PCR进行免疫,并且按照标准AffymetrixCustomSeq策略进行处理。因为两个方案生成全部HA、NA、和M基因的扩增子,微阵列上各自拼接区域在两个方案中几乎完全杂交。两个方案的REPI输出显示出Fujian/411/2002流行感冒病毒株获得了HA3最高比值(ISDN38157_流行性感冒A/Fujian/411/2002_红血球凝聚素_1042),该Fujian/411/2002流行感冒病毒株在2003-2004流行感冒季节没有进行疫苗包括。用于定义HA3拼接区的原型流行感冒A HA序列不在HA拼接碱基响应的REPI输出中。因此,流行感冒A预期株的原型区鉴定了未预期株。
图6显示出依据实施例6中描述的减少杂交时间试验的结果。在这个实施例中,鼻腔冲洗物被证实经微阵列探试所有靶点为阴性,除了耐红霉素标记物SPYERMB、SPYERMTR、和SPYMEFAE每个都经过特异性多重PCR反应。然后,将扩增子杂交到分离的微阵列上或者16个小时(A)或者15分钟(B),另外依照Affymetrix CustomSeq策略进行处理。相比较,15分钟杂交微阵列(B)信号强度低于对照组16小时微阵列(A)的信号强度(注意对(B)中微阵列顶部的Affymetrix对照组探针进行不完全杂交)。然而,三个拼接区的REPI输出显示了对于(A)和(B),每个区域的最高比值是相同的,尽管比值和预期值在较少杂交时间的情况下是较低的。30分钟和1小时杂交也获得类似结果,增加杂交时间得到的碱基响应的数量提高了。然而,这个实施例清晰地说明了具有不同杂交模式的靶点之间进行精密鉴别方法的稳健性。
图7显示了实施例7中描述的消减杂交方法的功效。(A)显示了依照在Lackland AFB患有发热性呼吸疾病患者的等量鼻腔冲洗物中分离核酸的总扩增得到杂交模式。每微升104个遗传拷贝的估计效价,样本相对于Ad4为阳性的。高背景杂交穿微阵列抑制了GDAS生成碱基响应即使腺病毒4区显示的可分辨信号高于全部背景信号。如针对GDAS生成的无碱基响应,(A)中获得的同一组全部扩增子与COT-1部分人基因组DNA(B)共杂交得到小量提高。(C)显示了在全部扩增之前,单独使用磁性玻璃珠消减不导致足够量的碱基响应进行类似性搜索。然而,通过结合使用玻璃球基消减(链霉素涂覆玻璃珠结合生物素化COT-I人DNA)与液相COT-1人DNA(D)共杂交的联合使用,足够碱基响应可明确排列Ad4HEXON拼接区内辨别的三个序列的每个中的最高腺病毒4空军本地株(登录号AY599837)。此外,实施用2微升起始样本材料代替1微升(E)的同一组组合步骤,碱基响应除了Ad4HEXON-1外,深入到Ad4FIBER拼接区,使得在Ad4HEXON-1拼接和几个Ad4FIBER子序列中排序的Ad4本地株有高的比值。
图8显示了流行感冒病毒A靶点的杂交(Fujian 411/2002),掺入到正常鼻腔冲洗物中,其次采用无偏差扩增RNA基因组靶点方案(Wang et al.,2003)的最近描述的修改(Kessler et al.,2004)进行扩增。图8(A-C)显示了105、103、和101个溶菌斑形成单位(pfu)剂量掺料的各自杂交模式(参见实施例9)。这些结果说明甚至在使用无偏差扩增方案时能获得本方法的功效。这应将全部方法延伸到未知RNA靶点的制备并且将特殊方案结合用于再测序微阵列的RNA和DNA病原菌靶点的通用扩增。
图9显示了本发明实施方案的流程图,其中RNA和DNA路径汇聚在一点。
图10(a)为说明工业中目前使用方法的示范流程图。
图10(b)说明了工业实施中通常存在的可供选择的方案。
图10(c)为与比对数据库和服务器相互作用的一般系统设计的示意图。
图10(d)显示了分析微阵列证实不良杂交的序列输出的实施例。
图11(a)为系统的一种实施例的示范示意图。
图11(b)为再测序病原菌识别器(REPI)的一种实施例的示范示意图。
图11(c)为ASP接触面的示范屏幕拍摄。
图12为描述ASP一般功能性的流程图。
图13为对照组检查步骤地示范流程图。
图14(a)为提取子序列步骤的流程图。
图14(b)为依照系统的一种实施方案的滑窗实施例。
图15为系统实施更详细剔除功能的示范流程图。
图16显示了描述检验长度步骤中示范流程图。
图17显示了计算百分比步骤地示范流程图。
图18(a)为描述分析步骤中系统更详细活动的示范流程图。
图18(b)说明本发明的一种实施方案的示范输出。
图19为描述系统的附加实施方案的示范流程图。
图20为本发明的实施方案可被执行的计算机系统(或服务器)的方框图。
图21为辨别混合物和再重组的实施方案的示范流程图。
图22为合并数据给用户提供决策质量信息的实施方案的程式化示范示意图。
图23为说明设计最优化再测序微阵列的方法的示范流程图。
图24为说明设计或最优化再测序微阵列的附加示范流程图。
图25为系统树图的实施例。
图26为多重比对的示范性图形表示。
图27为多重比对生成的一致序列的实施例。
图28为多重比对包括一致序列的另一种示范性图形表示。
图29说明了修饰的一致序列的实施例。
图30为本发明的一种实施方案的示范性结果。
图31为依照本发明的实施方案模拟杂交结果的实施例。
图32说明了一致序列的另一种实施例。
图33为依据本发明的实施方案格式化再测序阵列数据的示范流程图。
附图中的各部分不一定是成比例的,主要是为了清晰地说明本发明的原理。此外,在附图中,同一数字指出了贯穿几个图形的对应部分。
具体实施方式
除非特殊定义,这里使用的所有技术和科学术语具有酶学、生物化学、细胞生物学、生物信息学、和医药科学中的技术人员普遍理解的相同含义。
类似于或等同于这里描述的方法和原料能在本发明的实施或测试中使用,只要采用这里描述的合适的方法和原料。在冲突的情况下,将以本说明书,包括定义部分为准。此外,原料、方法和实施例仅具有说明性,并不是限制性的,除非另外说明。
众所周知,DNA微阵列可用于分析用于诊断或监视目的的病原菌中靶点核酸的序列。寡核苷酸探针序列筛选、长度、表面上的位置、结合的生理化学性、和标记技术的影响是过去10年中大规模研究的主题。采用的方法几乎专有涉及单寡核苷酸探针(13-70mers)的使用,该单寡核苷酸特定设计与具有高度特异性单个可识别病原菌靶点序列(13-25mers)杂交或与具有较低特异性的较长病原菌靶点(70mers)杂交。这些微阵列以点样微阵列普遍周知,但相同内容的点样微阵列除了二维平面之外也能以其他形式具体化,一种实施例就是玻璃珠阵列(Ferguson,Steemers&Walt,2000)。
已经有许多对使用Affymetrix再测序微阵列鉴别和表征病原菌的简单描述。Kozal(Kozal et al.,1996)测量HIV中突变漂移并且采用再测序阵列,Gingeras(Gingeras et al.,1998;Gingeras et al.,2001)、和Troesch(Troesch etal.,1999)鉴别了分枝杆菌种类并且单核苷酸多形性(SNPs)与耐抗生素有关。Wilson et al.(Wilson et al.,2002a)采用核糖体RNA,使用相同类型阵列鉴别细菌并且检测多重生物战药剂(Wilson et al.,2002b)。
使用再测序微阵列用于同时病原菌鉴别和监视有超过单寡核苷酸方法的基础优势,因为详细靶点序列信息作为原始微阵列数据的部分直接可用。经定义,具有102到104个寡核苷酸探针的点样微阵列不能辨别细微序列变异,大于10-1000碱基对的全部靶点序列,即使采用拼接方案设计阵列。因此,点样寡核苷酸微阵列需要采用常规DNA测序技术进行鉴定,需要特殊的设备、操作人员、和几天的时间,该点样寡核苷酸微阵列方便了宽谱个体株或SNP水平(Cherkasova et al.,2003;Wang et al.,2002;Wang et al.,2003)病原菌的鉴别
因此,本发明通常关于采用DNA微阵列技术检测和鉴别细菌、病毒和原生动物病原菌和毒性标记物。本发明也关于设计、测试和分析具有定义区的再测序微阵列,该再测序微阵列可用于大量的特异性病原菌基因型和病原菌混合物分配数字检测概率。此外,它关于需要处理上述微阵列的简单和复杂(例如,临床的和环境的)样本的方法。
更特别的,本发明关于使用高度多元再测序微阵列作为包括传染性疾病药剂诊断和病原菌检测为目的的一类新设备。特殊的,它适合于DNA微阵列,该DNA微阵列采用来自靶点基因组序列的大量筛选的“原型”核酸序列区域(每个典型具有250-2000碱基对)来检测和鉴别较大对数的无关和紧密相关的(菌种水平)微生物病原菌。更特别地,本发明关于设计制备微阵列采用“拼接”探针方法再测序靶点核酸。然而甚至更特别地,本发明关注采用拼接探针设计Affymetrix再测序微阵列,该拼接探针将能够分析等于105到106个碱基对的靶点序列。
在特殊的实施方案中,本发明提供了经过检测他们的核酸序列和使被检测序列经自动类似性搜索公共结构域和专用数据库来同时分析大量病原菌的方法。经非明显调节商业技术(Affymetrix CustomSeqTM)实施该目标。设计采用该程序,CustomSeqTM,经再测序靶点DNA检测单核苷酸多形性(SNPs)该所谓的SNP检测要求:(1)碱基响应误差率远低于突变自然发生率(人类中约每108碱基对中有一个),(2)在采用特异性PCR引物进行微阵列杂交之前,以每微升106基因组拷贝,扩增纯化起始原料,和(3)采用算法组合和处理复制样本的多重芯片,该算法限制了那些具有一定程度置信度的碱基响应,低频SNPs的存在能被推导出。本发明证实了在时间量程内和样本制备复杂性水平内,Affymetrix再测序技术能适合于插入到高度多样性传染性疾病诊断和病原菌检测的完整系统,使床旁诊断应用成为可能。该系统实质上不同于Affymetrix技术的具体用途,对于微阵列技术的典型技术人员不是显而易见的。
目前,鉴别病原菌的Affymetrix再测序技术应用的相关文献描述很少。从这个设计.试验和分析观点,采用再测序,本法明具有超过病原菌表征的现有技术。Kozal(Kozal et al.,1996)测量了HIV中的突变漂移,并且Gingeras(Gingeras et al.,1998;Gingeras et al.,2001)和Troesch(Troesch etal.,1999)采用再测序阵列,鉴别了分枝杆菌种类并且单核苷酸多形性(SNPs)与耐抗生素有关。在每个方案中,筛选最佳序列用于拼接,基于可能靶点序列的分析。设计特异性PCR引物扩增杂交靶点。未知临床分离鉴定采用以经验确定不同杂交模式的模式识别算法制成阵列。同样地,该方法依赖于全长靶点序列的扩增和杂交,不适合于:(1)危险的非特异性结合导致丢失碱基响应,(2)由于低同源性引起的低靶点浓度或孔隙穿过靶点长度的不完全杂交,和(3)临床或环境样本的未知靶点序列的无偏差(全部)扩增诱导的降低了杂交完整性。
本发明者优选的方法不存在现有采用再测序微阵列技术中公开的相同限制。此外,拥有至少一种用途的技术方法,即同时检测大量的多样病原菌种类,仅最近经引入CustomSeqTM RPMV1芯片用Affymetrix微阵列(18x18微米)和高密度(8x8微米)呼吸微阵列版本2(RPMV2)而产生,分别将29.7kb和300kb拼接再测序。然而,本发明提供的最重要改进为使用了具有序列长度无关类似性搜索的增加密度芯片(BLASTN),提供了在筛选拼接用序列之前产生的许多较小假定。此外,使用长度无关类似性搜索(BLASTN)去掉了特殊已知子序列完全被再测序的限制,使得该方法对靶点浓度的变化和非特异性结合导致丢失碱基响应的影响具有抗性。
因此,在本发明中,拼接用筛选的序列为“原型”,这是在单个基因或子序列可代表更广类型的有机体种类和亚种类(可供选择的类型、菌株、变异体或突变体)的意义上而言。根据单个病原菌和菌株的基因型中的较小改变,该方法是稳健的,并且能在大量候补病原菌中进行检测和鉴别,该候补病原菌不能在试验芯片设计中明确表示出。
芯片设计也利用了部分过余拼接组(在设计过程中,受到厂商指导方针和厂商的阻止),单个病原菌株,和多重类似或多样性病原菌类型间的基因内和基因间变异。然而,本发明者已经确定了冗余对提升结果置信度和最小化错误阳性结果和错误阴性结果的可能性是重要的。该设计/分析方法的优势将允许掺入基因组保守和超变区,便于鉴别组、类型和菌株水平。
仅存在很少的一些文献报道描述用于微生物病原菌微阵列分析的基因类扩增策略。Wang et al.(Wang et al.,2002)描述了在70mer寡核苷酸阵列上杂交之前,进行RNA病原菌靶点扩增,随即连续PCR反应和Klenow片段扩增的多重步骤方法。扩增要求的时间和/或技术步骤数量不是指定的但同一组的后续论文报道约24个小时。也没详细说明扩增步骤导致检测效率提高。我们研究组(Vora et al.,2004)的最近报道描述了许多单独使用和联合使用非特异性核酸扩增技术杂交到70mer寡核苷酸阵列上。没有任何已知的现有技术报道过纯化的或者在复杂混合物(例如,临床样本)中非特异性扩增DNA靶点与再测序微阵列的杂交。
本发明在几个方面领先于经微阵列进行病原菌检测的基因扩增技术:(1)为得到高密度短(25mer)Affymetrix再测序微阵列,详细描述了经纯化或高度富集病原菌核酸的全部扩增的特殊方法,既不是先前描述的也不显而易见,因为该方法很大程度偏离了规定的Affymetrix方案,和(2)描述了新颖并可供选择的使用酶处理、竞争性杂交、和磁性玻璃球基消减和富集步骤来减少背景和后续无偏差(如,全部)扩增和微阵列杂交的方法。
本发明体现了一组特殊的设计和处理方法,该方法利用再测序微阵列大规模鉴别和表征病原菌。特别地,本发明允许在单阵列中精确、灵敏、和高置信度鉴别大量(成千的)多样性的病原菌。
本发明的一种实施方案为多组寡核苷酸引物的再测序DNA微阵列,该寡核苷酸引物长度范围在13到70个核苷酸之间(优选25个核苷酸,尽管可能和在本发明界定范围内使用相对于陈述范围内每个整数值长度引物)固定在固相支撑物上,其中每组寡核苷酸引物被筛选扩越参考序列的特殊区,占据阵列的不连续区域(例如,拼接区),并且包括至少四组引物以平行方式安排在芯片上:1)第一组,与参考序列互补,和2)三个附加组引物,除了中心位置的核苷酸,每个组都与第一组引物同源,而这三组的每一组中的中心位置的核苷酸也各不相同,以至于所有四个常规核苷酸碱基存在于上述阵列上。
本发明进一步提供了处理复杂临床样本(如,鼻腔冲洗液)的方法,要求最小限度核酸分离/扩增步骤。
本发明区别于绝对多数的微阵列基病原菌检测方案,应为它使用高密度“拼接”微阵列来确定病原菌遗传靶点的实际序列。许多重要区域内的其他再测序病原菌鉴别策略,包括结合:(1)高度多样性的异型病原菌“原型”靶点区域,该靶点区域显示出很少或无可辨别的交互杂交或彼此干扰,(2)紧密相关病原菌内较高序列冗余允许较高置信度鉴别特异株(例如,腺病毒或流行感冒病毒),(3)一类病原菌典型的较大拼接片断的“原型”区域允许精确鉴别特异性病原菌株和使用特殊设计软件来分析和排列序列片段提呈给类似性搜索(例如,BLAST)算法,辨别病原菌混合物和病原菌之间的重组,代替更限制性拼接筛选和在最紧密相关现有技术(美国专利6,228,575)中描述的微分算法,(4)最低限度的偏性核酸扩增策略,在无显著性干扰或交互杂交情况下,允许精确、高置信度病原菌靶点再测序,和(5)样本处理方法学,允许再测序阵列联合复杂临床样本的最低限度偏性氨基酸扩增策略而使用。
这些方法的组合可以使一种合格的技术员在24小时内,优选在4小时内,更优选2小时,最优选在30分钟内同时检测和鉴别临床样本的高度多样性病原菌。
因此,由于该实施方案,本发明支持:(a)样本收集的几个小时内,临床传染病的常规诊断,(b)同时查询样本少见感染性疾病迹象(例如,未预料的病原菌、耐抗生素模式或生物战争药剂),(c)常规分子病原菌监视,(d)疫苗质量控制和(e)自然遗传变异、药物治疗、故意操作、或其他情况引起的监测病原菌的遗传改变。
高密度再测序微阵列
经DNA低聚物的光导组合合成制备高密度微阵列(HDMs)(Kozal et al.,1996)。在这些位点上合成的DNA低聚物通常具有20-30碱基长度。采用高分辨率半导体光刻胶对该方法进行后续改进,Affymetrix证实了制备具有分辨率接近1μm2特性的HDMs,使探针特征密度比mat在RPMV1证实的大10-100倍。到此为止,关于病原菌鉴别的HDM设计以“拼接”策略为基础。因此,等长的四个探针被合成正义和反义方向的每个碱基,需要所有8个25-met探针用作给定参考序列中的每个碱基对。每个方向上的一种探针确实互补参考序列而其他三个单个碱基在查询碱基位上错配。因此,拼接HDM能有效“再测序”靶点核酸。
以这种方式,未知靶点的碱基响应在四个可能碱基位中的每一个都可以被查出(每四个可能碱基对中的一个在拼接25mer探针内的第13位处改变),直读阵列相应位点的靶点序列。在CustomSeq阵列中,GCOS(Version1.1)软件被用于使原始图像(.DAT)文件为指定每个相应探针位密度的简化文件格式(.CEL file)。最后,GDAS(Version 2.0)软件用于运用嵌入式ABACUS(Cutler et al.,2001)算法来生成正确碱基响应评价,比较正义和反义探针组的密度。GDAS的可用输出文件类型之一为再测序阵列拼接区域生成的FASTA形式碱基响应。
在一系列采用培养的微生物,包括HIV(Kozal et al.,1996)的体外试验中,上述的HDMs类型用于鉴别病原菌种类和检测耐药性-相关突变。Troesch等人(Troesch et al.,1999)设计HDMs在54之间分析不同于检测分枝杆菌类和耐利福平的分枝杆菌肺结核。65,000个低聚物探针的拼接阵列用于精确再测序70个临床隔离群的27株分枝杆菌类和15株耐利福平结核分枝杆菌株。最近,特异性序列鉴别F.tularensis和Y.pestis采用拼接HDMs(Wilson et al.,2002b)在环境样本中得到证实。这些通常方法依赖于特异性杂交模式,以野外实测(对照组)测量方法为基础。此外,作者没有提供了指导定量比较怎样针对紧密相关或未预料有机物的起始浓度,该起始浓度可改变六个数量级。
阵列类型
本发明采用Affymetrix CustomSeq再测序微阵列形成。为了讨论再测序微阵列,技术人员可见U.S.6,228,575。然而,本发明不在概念上被限制于采用特殊制备方案生成微阵列。原则上,再测序能以任何技术描述的规模实施,该技术能产生相当大密度的微阵列。理论上,能采用寡核苷酸打印技术完成,但采用光学光刻法更可能完成。然而,Affymetrix再测序芯片以采用分离的光刻掩模后续步骤为基础,该光刻掩模对应于每一步骤,可供选择的方法可采用无掩模光刻技术(Albert et al.,2003;Nuwaysir et al.,2002)或通过纳米光刻法(Ginger,Zhang&Mirkin,2004)。更普遍地,任何生成以确定可用靶点序列为目的的多数寡核苷酸探针。甚至玻璃珠“阵列”不是2维形式(Ferguson et al.,2000)。
探针可由DNA变异体组成,即RNA或低聚物肽-核酸(PNA)。探针能制成对酶消化具有敏感性,然后接受后续处理。在优选实施方案中,探针将加入dUTP代替dTTP,使它们对尿嘧啶-DNA-糖基化酶具有灵敏性。这将使它们用于选择性降解随后捕获靶点。此外,在本发明界定的范围内,也可能固定RNA并获得其互补序列识别。固定RNA将需要RNA的化学稳定性。在更普遍意义上,探针能由化学修饰核酸制成,该化学修饰核酸使它们或多或少易受到后续化学处理步骤的影响。
阵列设计
采用RPMV1微阵列,本发明举例说明拼接原型序列能在没有假定特异性病原菌鉴别需要特异性杂交模式的情况下鉴别更多种类的特异性病原菌株。在目前的设备中,拼接区域的原型,尤其腺病毒4、5和7,分别凭经验被选择代表腺病毒子群E、C、和B。
该设计的更优选和更系统的方法包括使用多重序列分析来生成一致序列,一致序列定义为分析位上那些表示最常用碱基。在优选实施方案中,分析算法将产生单个病原菌株中靶点基因序列或病原菌家族群的等级系统发生树。采用适当的算法,一致序列将首先形成每个树结点成员或树结点群成员,距离测量落在阈值范围之内(Lee,2003)。实际靶点序列将与一致序列单独比对,并且由一致序列定义杂交到拼接微阵列区域上的功效将被模拟。已知功效如碱基插入或缺失,以及寡核苷酸探针区域内多重碱基取代的功效将确定为模拟杂交的规则。生成杂交的后续分析和碱基响应模式将说明所提拼接适于作为给定范围病原菌的原型。这个过程将重复直到最合适组的原型区域被确定覆盖给定组病原菌。在一种优选实施方案中,该过程将用于最大化芯片的空间利用率,导致最大减少再测序微阵列的实际尺寸,并且因此,最大减少每个微阵列上的产品费用。
在一种优选实施方案中,再测序阵列将被设计联合另一种简单固相捕捉器(阵列、凝胶、或其他的),该固相捕捉器将最初用于排列再测序阵列。例如,由多样性较长寡核苷酸探针组成的阵列将最初用于通过识别病原菌家族内的保守序列来检测病原菌。再测序阵列能用于查询与初始阵列上保守探针相关的可变区,提供了病源体上详细的序列信息。在非常优选实施方案中,样本制备普遍用于固相捕捉器和再测序微阵列。然而在另一种非常优选实施方案中,初始阵列将用于捕捉靶点,该靶点将被隔离并采用无偏扩增技术进行扩增提给再测序阵列。
该用途的总体设计基本原理
本发明利用从不同公共和/或私有资源的病原菌基因组信息来设计、制备、评估、验证和一体化先进诊断平台作为有效生物防御监视部分和操作医学系统。流行病爆发监控(EOS)程序生物防御模型是完整的,该系统经采用广泛分布设备将被最有效激活,这些设备将发现传染性疾病的常规诊断学中的效用,尤其在传染性呼吸疾病诊断中的效用(参见国防科学会2006夏季研究报告及健康科学生物防御系统(HSBS)简报)。该设备(例如,微阵列)将提供可供选择的有成本效益的常规方法诊断、处理和监视传染性疾病,最显著的呼吸传染病是具有重要性的。采用设计和分析信息学支持设备并且确保来自那个设备的判定质量信息可遗传的并且可被许多就诊单位、公共卫生官员、和决策者解释。因此,也是本发明的重要目的,设备为由局部床旁诊断设备组成的完整系统的重要组成,该局部床旁诊断设备在就诊单位、公共卫生官员、和决策者之间提供了自动、双向数据共享(这或许交叉对照阵列中商业模型专利)。这里描述的本发明可至少两个途径实施其作用:(1)经减少阵列尺寸(例如,较低费用),自动化处理,和利用处理再测序阵列便携式硬件,本发明可为床旁设备的目标,和(2)如果存在低成本或易自动化微阵列,再测序阵列可成为诊断/监视流水线中较高梯队组成。在后面的方案中,低成本可供选择设备将提供初始样本处理、病原菌靶点富集、扩增、床旁判定信息,而必要时,再测序通过促进更详细查询样本提供了顺次测定性能。
再测序微阵列芯片设计的一般策略
依据本发明,设计再测序微阵列芯片的过程通过筛选病原菌基因组序列被执行,该病原菌基因组序列具有使它们对于少量(理论数量)病原菌是唯一的序列性质,或者是高度保守的,使它们检测许多类型的微生物种类家族或属级,或适度保守并筛选为“原型”区域。原型区域将具有跨域一组微生物种类的中级序列同源性并且考虑有效杂交和独一无二鉴别大部分或所有亚类型病原菌。设计再测序拼接的策略包括通过分析类似序列和应用一致探针序列拼接到芯片上产生巨大影响。一致序列可能不与任何筛选的病原菌同源,但将与许多类似病原菌基因组作用。真实病原菌基因组序列与一致的序列完美匹配和不完美匹配的模式将提供诊断的个体识别力。
本发明的特别实施方案为设计再测序微阵列芯片的一般方案,该再测序微阵列芯片可在样本(例如,部分纯化的样本,纯化的样本,富集的样本、生物样本,等等)中鉴别和标明病原菌。该设计和验证方案的多方面在随后的第6“阶段”中进行了具体化。
阶段1:病原菌鉴别:
a.病原菌列表(例如:腺病毒;流行性感冒;化脓性链球菌)-由病原菌专家或公开领域提供
b.属/种类(新病原菌例如.冠状病毒严重急性呼吸综合症变异)
c.种类/亚种(流行病学追踪;取证)
d.病原菌独一无二片断(交互杂交结果)
e.遗传漂移/漂变问题(例如.流行性感冒、HIV)
f.耐药性标记物
g.致病相关基因或毒性标记(有利于诊断和预后目的)
h.基因工程特征标记
i.质粒DNA序列(Bluescript,PUC etc.)
i.多克隆位点
ii.耐药标记物(氨比西林,卡那霉素,盘尼西林等)(或可列为:Amp,Kan,PBP,等)
iii.毒素(肉毒毒素;蓖麻毒素等)
阶段2:关于样本来源的病原菌鉴别:
a.常见呼吸病原菌(和近缘病原菌)
b.生物成胁药剂:(经疾病控制中心鉴别)
c.背景或寄生物考虑:
i.临床样本(鼻腔冲洗液、拭子、粪便标本,等)
ii.载体(例如.蚊子)
iii.环境(水、食物、土壤)
阶段3:基因鉴别(病原菌设计相关的最复杂问题)
a.序列同源性(相对于病原菌鉴别)
a.新颖的或未预期的高度保守鉴别(属/种鉴别)
i.鉴别新颖的/未预期的有机物
1.嵌合体(细菌基因交换)
2.遗传漂移/漂变(例如.流行性感冒)
3.人工的
ii.辨别复杂病原菌家族
1.鼻病毒(许多完全不同变异体)
b.较少保守超变量(种类/亚种)
c.病原菌独一无二序列片断(交互杂交)
i.全部扩增方法的潜在重要的
b.功能序列(相对于致病性和患者管理)
a.共生细菌中耐药基因
b.致病性相关基因
i.毒素基因
ii.传播(传染性)相关基因
iii.致病岛
iv.毒力因素
c.其他宿主-病原菌作用基因
i.免疫反应
ii.肿瘤形成
iii.DNA修复
阶段4:基因筛选(什么序列应置于芯片上)
a.鉴别基因登录号
a.完整基因
b.侧翼序列病原菌基因组(对照组)
c.最近/流行可用变异体
i.快速培育病原菌尤其重要(流行性感冒)
b.BLAST搜索:(纳入/排除标准)
a.人序列同源性(排除标准)
b.相关病原菌序列
i.可能的排除/注释标准
ii.如果同源性>90%,序列仅需要发表一次
1.使用一致序列鉴别和注释
iii.鉴别病原菌特异性基因/序列
c.实用问题
a.细菌中水平基因转移问题
b.病原菌中基因拷贝数量
c.人序列的同源序列(交互杂交)
d.较少致病菌的序列同源性(例如.杆状菌;天花[痘])
阶段5:RPM芯片优先处理
a.确定芯片“有效面积”(全部表达序列)
a.靶点基因拼接尺寸
i.拼接相关登录号
ii.一致序列相关登录号
b.参考优先顺序标准的主要目标。主要问题包括:
a.病原菌流行取决于靶点人群、地理位置、季节、和其他疾病传播因素
b.临床、操作、和公共卫生相关性
c.芯片功能性问题:
i.混合病原菌
ii.数据注释和提交给终端用户
阶段6.微阵列验证:
a.设计对照组
a.套式引物组:
i.外引子组:形成对照组
ii.内引子组:测试阳性对照组
iii.对照组和RPM序列应为100%的序列匹配
b.形成对照组克隆
c.用于匹配性验证的对照组克隆序列
b.形成病原菌芯片注释图解:
a.较差杂交位点
i.较差信号
ii.错误信号
b.交互杂交位点
i.人交互杂交
ii.其他病原菌(尤其生物恐怖行动药剂和毒素)
c.序列特异性水平
i.鉴别亚种/变异体的标记物
1.形成取证数据库基础
ii.仅鉴别属和种的标记物
iii.鉴别发现的新变异标记物
c.芯片验证试验框架:
a.检测交互杂交区域的人杂交
b.质粒验证计划:
i.滴定质粒试验PCR灵敏性
ii.滴定法测量RPM检测灵敏度
iii.改变浓度评估碱基响应精确性
1.注释任何错误
c.培养验证技术
i.滴定病毒
1.核酸分离效率
2.芯片杂交灵敏性/特异性
a.总扩增灵敏性/特异性
b.PCR比对
3.滴定培养物的芯片杂交灵敏性
4.培养菌序列的验证
d.将病原菌掺入到复杂介质中
i.将病毒滴到溶液中
ii.杂交到芯片上(背景干扰)
iii.如果与培养病原菌比较不同验证病毒序列
e.评估复合矩阵中靶点浓度
i.鼻腔冲洗液
ii.棉拭子
1.鼻腔拭子
2.咽喉拭子
iii.溶液中病毒的稳定性
1.鼻腔冲洗液
2.拭子
iv.病毒溶液的冷冻/解冻影响
v.靶点病原菌的序列验证
下表(表1)代表一组优选(但非限制性)的病原菌(病毒和细菌),该病原菌可按照监测和诊断普通呼吸病原菌的设计在本发明的背景下使用:
表1微阵列病原菌
病毒病原菌              细菌病原菌
腺病毒(血清分型/属极)   化脓性链球菌(emm类型/抗性)
流行性感冒A和B(株)      肺炎支原体
冠状病毒/SARS           百日咳杆菌
副流感病毒1,2,3,4    肺炎衣原体
呼吸道合胞病毒          肺炎链球菌
偏肺病毒                军团菌(属级)
鼻病毒                  卡他莫拉菌
柯萨奇病毒              流感嗜血杆菌
伊科病毒                脑膜炎双球菌
西尼罗病毒              结核分支杆菌
水痘(HHV-3)             金黄色葡萄球菌
汉坦病毒                溶血隐秘杆菌
风疹                    鹦鹉热衣原体
1型和2型单纯疱疹
肠道病毒(腮腺炎、脊髓灰质炎)
细小病毒
为了广泛分布内置监控生物恐怖药剂的呼吸诊断设备的用途,选择病原菌列表加入到芯片上将也包括从美国疾病控制(CDC)中心筛选出的那些A、B、和C类生物恐怖药剂。这些是最周知的,但不限于此,包括:
CDC A 类
炭疽热细菌(靶点:致命因素、保护性抗原)
鼠疫杆菌
天花(大天花)
土拉弗朗西斯菌
病毒性出血热(丝状病毒[例如.埃博拉病毒、马尔堡病毒]和沙状病毒[例如.拉沙热、马丘波病毒]
CDC B类
流产布鲁氏杆菌(2308 B37),羊布鲁氏杆菌(F6145),猪布鲁氏杆菌(A44)
鼻疽假单胞菌(马鼻疽)
类鼻疽伯克氏菌(类鼻疽)
鹦鹉热(鹦鹉热衣原体)
流行性斑疹伤寒(摩氏立克次氏体)
病毒性脑炎(甲病毒[例如.,委内瑞拉马脑炎,东部马脑炎,西部马脑炎])
CDC C类
出现传染性疾病如尼帕病毒和汉他病毒
这些药剂的完整和更新列表可在CDC网址(http://www.cdc.gov/)上找到。为了说明本发明,两个再测序微阵列芯片(RPMV1和RPMV2)将在下面进行描述。
再测序呼吸病原菌微阵列版本1(RPMV1芯片):
采用高密度Affymetrix微阵列制备方法制得RPMV1,该RPMV1具有个体探针尺寸18x18微米。在这个密度下,29.7kb全部病原菌靶点序列进行拼接用于再测序。作为部分试制β试验Affymetrix商业产品(CustomSeq)进行制作,该Affymetrix商业产品用于随机收集序列中的SNP检测。
下列全面设计方案用于RPMV1:
遵循Affymetrix CustomSeq设计方案。虽然在项目协作组内对于非特异性扩增微阵列分析靶点进行了许多努力,本发明者则努力在阵列上拼接序列,该阵列可查询常规(成对特异性引物)PCR扩增子。任何可能时,成对引物形成或适合于保守序列,该保守序列位于拼接微阵列探针可进行查询的可变区的侧翼。这允许具有的能力:(1)直接采用存在硬盘平台进行扩增(例如,RAPID Light Cycler、Idaho Technologies),(2)提供用种属或全部扩增策略比对的控制测量法,这些种属或全部扩增策略是立即见效的。一般来说,我们的策略是为了让杂交模式与特异性有机体匹配并且检测对应于致病性和耐药性的序列中存在细微变化。
4、5、和7型腺病毒(双链DNA病毒)各自指定为E、C和B的“原型”。特殊地,本发明者假定了原型拼接区域上再测序将监测和鉴别亚群成员之间细微序列变化。三个靶点基因区域被筛选出,尤其从E1A、六邻体、和纤维基因中筛选出。然而,不能假设或不能预期的是任何拼接的哪个区域或哪个部分将进行独一无二的鉴别。
作为流行病爆发监控程序的一部分,十三个腺病毒基因组进行完全测序。名称、登录号和来源记录在实施例部分的表6中。进行多重序列分析确定保守序列位于侧面的E1A、六邻体、和纤维基因可变区,该保守序列可被用于用单组简并引物扩增多重腺病毒(Lin et al,2004)。E1A、六邻体、和纤维基因的共有区得到3个原型腺病毒中的每一种,该3个原型腺病毒与呼吸疾病有关:7(B子群)、5(C子群)、和4(E子群)被提交给Affymetrix作为拼接在RPMV1微阵列上的29.7kb全部病原菌靶点序列的一部分。
腺病毒分类
B子群:3、7、11、14、21、34、35和50
C子群:1、2、5、和6
E子群:4
本发明者进行了假设,如果为了原型代表子群,7、5、和4型(分别为B、C、和E子群),他们将三个基因(E1A、六邻体、和纤维基因)拼接到阵列上,将能够通过杂交模式的变异鉴别任何完全测序型(上面列出的),该杂交模型比对其序列差异。
用红血球凝聚素(HA)神经氨酸酶(NA)和基质(M)的原型区域表示流行性感冒A和B病毒,该流行性感冒A和B病毒为负极性单链RNA病毒(ssRNA)。这些基因表示为三种类型的流行性感冒A(H1N1、H3N2和H5N1)和流行性感冒B。流行性感冒为原型模式系统最好的实施例之一,如数百个,要不然数千个流行性感冒菌株至少部分测序,并且大多数已经测序红血球凝聚素和神经氨酸酶片断。
原型流行性感冒HA、NA和M基因从菌株中选出,该菌株为任一等同于紧密相关的三个疫苗株,该三个疫苗株经世界卫生组织推荐给北半球;
·A/New Caledonia/20/99/(H1N1)
·A/Moscow/10/99/(H3N2)
·B/Hong Kong/330/2001
这些序列可从Los Alamos国家实验室流行性感冒因特网数据库中得到。本发明者假定,如果靶点足够类似到可以进行类似性搜索查询,原型拼接区域上未知流行性感冒A或B的序列响应将能鉴别靶点。
RPMV1的残余物由多种普通呼吸病原菌拼接构成,第一组为病毒:
鼻病毒A(pos)SSRNA
鼻病毒B(pos)SSRNA
冠状病毒(pos)SSRNA;无DNA中间体
副流感病毒(neg)SSRNA
RSV(neg)SSRNA
相对于腺病毒和流行性感冒,这些病毒性病原菌具有相对小的可用序列,同时采用原型序列鉴别大量相关菌株的进行模拟试验。
也选择常见细菌性病原菌:
化脓性链球菌
肺炎支原体
百日咳杆菌
肺炎衣原体菌
肺炎链球菌
脑膜炎双球菌
此外,下列质粒决定的耐抗生素基因在RPMV1芯片上被表示出:
ermA
ermB
ermTR
大环内酯类外排决定簇(mef)A
下列生物威胁药物也包括在RPMV1芯片上:
炭疽热细菌(靶点:致命性因素、保护性抗原)
鼠疫耶尔辛氏杆菌
天花(大天花)
土拉弗朗西斯菌
病毒性出血热(丝状病毒[例如.埃博拉病毒、马尔堡病]和沙状病毒[例如.拉沙热、马丘波病毒])
除了Affymetrix规定的杂交对照组(参见CustomSeq方案),可认为包括内部加工对照来检验靶点分离、反转录(RT)和cDNA/DNA扩增。因此,我们包括含有植物拟南芥基因插入物的专用载体(Yang et al.,2002)并且提供了阵列上拼接区域给载体的几个基因插入物。
为了所有靶点除了腺病毒和流行性感冒,本发明者从含有诊断区域的基因公开文献资料(例如.,NCBI GenBank)中筛选出靶点并且拼接诊断区域或含有那个区域的较大编码区域。所有靶点基因、PCR引物位点和RPMV1引物的全部列表在表8(在下面)和序列附表中显示出。提交给拼接和制备芯片的序列在表7(在下面)和序列附表中进行了总结
然而,本发明并不局限于上面列出的特异性序列和/或微生物(细菌或病毒)。在技术人员能力范围内为满足指定领域试验的特殊要求来定制“病原菌芯片”。这种剪裁可能按基因水平或按微生物水平。很明显地,技术人员将从上面通用方案中得到更大帮助。
再测序微阵列芯片版本2(RPMV2芯片)
RPMV2建立在具有指定尺寸8x8微米的高密度Affymetrix微阵列上。在这个密度下,约300kb靶点序列信息将拼接用于再测序。
通用设计策略在表2-4(下面)中进行了描述。RPM V2设计使得RPMV2序列含量为RPMV1序列含量的约10倍,因此包含大量病原菌,包括延伸表示RPMV1上所有病原菌、许多其他呼吸病原菌、和整组的CDC A、B、和C类生物恐怖药剂。RPMV2内容的全部列表在实施例8中提供了。RPMV2设计经包括探针,如emm型化脓性链球菌,延伸了分子流行病学性能。这个特性将给流行病学专家/公共卫生专业人员提供了确定可能疾病病例和研究人群(监狱、宿舍、疗养院、部队兵营,等)带有病原菌的传播的能力。这些探针也可预测病原菌毒性和人群中疾病的临床表现。
被表示的病原菌的数量也能采用增加微阵列每单位面积上探针而被扩大。本发明的芯片利用了较高密度同时探测和在可能存在于单个临床样本中的大量候补病原菌之间进行分析。
也值得注意的是基因表达标记能概念上以同一种方式被拼接到阵列上成为基因组标记。因此,序列表达病原菌转录(RNA模板编码蛋白合成)能同时与那些再测序的基因组标记一起安置在阵列上。这将使微阵列不仅能够检测病原菌的存在,也将能确定其生活力,因为转录标记将仅存在于完整的病原菌中。
表2:RPMV2设计(名称)
呼吸病原菌                  种类/亚          种类/亚        种类/亚种       属/种    Rx Res
名称                        种               种
BT试剂名称(CDC A;B;C)
腺病毒
亚群A                       六邻体           纤毛                           E1A
亚群B1
腺病毒3                     六邻体           纤毛                           E1A
腺病毒7                     六邻体           纤毛                           E1A
腺病毒16                    六邻体           纤毛                           E1A
腺病毒21                    六邻体           纤毛                           E1A
亚群B2
腺病毒11                    六邻体           纤毛                           E1A
腺病毒35                    六邻体           纤毛                           E1A
亚群C
腺病毒1                     六邻体           纤毛
腺病毒2                     六邻体           纤毛                           E1A
腺病毒5                     六邻体           纤毛                           E1A
腺病毒6                     六邻体           纤毛                           E1A
亚群D                                                                       E1A
亚群E
腺病毒4                     六邻体           纤毛                           E1A
亚群F                       六邻体           纤毛                           E1A
流行性感冒
流行性感冒A
                            血球凝集素1      神经氨酸酶1    神经氨酸酶1     基体
                            (全部)           (全部)         (H5N1)
                            血球凝集素2      神经氨酸酶2
                            (全部)
                            血球凝集素3      神经氨酸酶3
                            (全部)
                            血球凝集素4      神经氨酸酶4
                            血球凝集素5      神经氨酸酶5
                            血球凝集素6      神经氨酸酶6
                            血球凝集素7      神经氨酸酶7
                            血球凝集素8      神经氨酸酶8
                            血球凝集素9      神经氨酸酶9
                            血球凝集素10
                            血球凝集素11
                            血球凝集素12
                            血球凝集素13
                            血球凝集素14
                            血球凝集素15                                    基体
流行性感冒B                 血球凝集素B      神经氨酸酶B                    基体
流行性感冒C                 血球凝集素
副流行性感冒
副流行性感冒1    血球凝集素-                                                                    基体
                 神经氨酸酶
副流行性感冒2    血球凝集素-                                                                    基体
                 神经氨酸酶
副流行性感冒3    血球凝集素-                                                                    基体
                 神经氨酸酶
副流行性感冒4A   血球凝集素-                                                                    基体
                 神经氨酸酶
鼻病毒           5′NCR HRV     5′NCR HRV21    5′NCR HRV29    5′NCR    5′NCR
                 9501468                                        HRV       HRV62
                                                                9501821
                 5′NCR HRV1A   5′NCR HRV58    5′NCR HRV14    HRV87
冠状病毒
                 膜
                 糖蛋白                                                                         基体
                 血球凝集素-
                 酯酶
                 表面
                 糖蛋白
呼吸道合胞
病毒
1型(RSV A)       壳包核酸                                                                       基体
2型(RSV B)       壳包核酸                                                                       基体
链球菌属
链球菌属         emm 1         ST2035          ST4529L         ST4532     ST4264      ST4547  GyrA  Erm(A);Erm(B);
                                                                                                    Erm(TR);Mef A;
                                                                                                    MefE;prtF1;;put.Rx
                 emm 75        emm13L          ST3018          U92492     ST14973     STCMUK16      resist prat.;tet(O)
                               ST2267          U50338          ST2980     ST230-2     ST436
                               ST448L          ST3365          ST1135     ST1161      ST1432
                               ST6949          ST1160
                               emm1            emm2            emm3       emm4        emm5
                               emm6            emm7            emm8       emm9        emm10
                               emm11           emm12           emm13      emm14       emm15
                               emm16           emm17           emm18      emm19       emm20
                               emm21           emm22           emm23      emm24       emm25
                               emm26           emm27           emm28      emm29       emm30
                               emm31           emm32           emm33      emm34       emm35
                               emm36           emm37           emm38      emm39       emm40
                               emm41           emm42           emm43      emm44       emm45
                               emm46           cmm47           emm48      emm49       emm50
                               emm51           emm52           emm53      emm54       emm55
副流行性感冒                     emm61          emm62       emm63    emm64    emm65
副流行性感冒1                    emm66          emm67       emm68    emm69    emm70
                                 emm71          emm72       emm73    emm74    emm75
副流行性感冒2                    emm76          emm77       emm78    emm79    emm80
                                 emm81          emm82       emm83    emm84    emm85
副流行性感冒3                    emm86          emm87       emm88    emm89    emm90
                                 emm91          emm92       emm93    emm94    emm95
副流行性感冒4A                   emm96          emm97       emm98    emm99    emm100
                                 emm101         emm102      emm103   emm104   emm105
                                 emm106         emm107      emm108   emm109   emm110
                                 U74320
                                 Csr R&Csr S    sic         SpeB
肺炎链球菌属       ponA(Pbp1 A)                                                             GyrA   GyrB;ParC
金黄色葡萄球菌属   entQ          entK           tst         seb                             GyrA   MSR(A);mecR1;VanA
                                                                                                   ;BlaZ;dfrA;qacC
肺炎支原体属       P1基因                                                                   GyrA
百日咳博德特氏菌   百日咳毒素    PmA
衣原体属
肺炎衣原体属       OmpB                                                                              DNA促旋酶
鹦鹉热衣原体       OmpA          SigA
脑膜炎奈瑟氏球菌   MviN                                                                     GyrA
杆菌
炭疽热细菌         保护性抗原    rpoB           致命因素    adema                           GyrA
                                                            因素
                                                            (Cya)
腊样芽胞杆菌                     rpoB
苏云金杆菌         cry           rpoB
枯草杆菌                         rpoB
                                 rpoB
鼠疫耶尔森氏菌属   OmpA          cve2155序列                                                  GyrA
天花(大天花)       血球凝集素    SOD                                                          化学增活
猴痘               血球凝集素    IA                                                           结合蛋白
                   血球凝集素
土拉弗朗西斯菌     TUL4          不同                                                         mdh
                                 区域(RD1)
丝状病毒
埃博拉病毒            L基因          NP蛋白
马尔堡病毒            L基因          NP蛋白
沙状病毒
拉沙热病毒            L基因          NP蛋白
马秋波病毒            L基因          NP蛋白
伯克霍尔德氏菌
鼻疽假单胞菌          PenA                                           WaaF
(马鼻疽)
类鼻疽伯克氏菌        PenA                                           WaaF
(类鼻疽)
洋葱伯克霍尔德菌      recA
流行性斑疹伤寒        Ompl                                           GyrA     ermB
(摩氏立克次氏体)
                                                                     GyrA
甲型病毒
委内瑞拉马脑炎        非结构性的
                      多蛋白
东方型马脑炎          非结构性的
                      多蛋白
西方型马脑炎          非结构性的
多蛋白
布鲁氏菌              Omp25         Omp2     RB51_WBOA_IS711J
流产布鲁氏菌(2308B37)                        INSERT
马耳他布鲁氏杆菌(F6145)
猪布鲁氏杆菌(A44)                                                    GyrA
犬布鲁氏菌
羊布氏杆菌
鼠布鲁氏菌
溶血隐秘杆菌          16S rRNA      pld
流感嗜血杆菌          OmpP5(OmpA-                                    GyrA
                      家族)
莫拉克斯氏菌属        血球凝集素                                     GyrA
分支杆菌属            Omp A                                          GyrA
痨病
杆菌
肉毒杆菌            Ntnh            Bont
产气荚膜梭菌        TmpC            ε-毒素                        GyrA
破伤风杆菌          L&H链                                          GyrA A
                                                                        G
                                                                   yrA
贝氏考克斯菌        ToIC                                           GyrA
小球隐孢子虫        Sod             CP2
E.coli 0157:H7     Omp A           志贺氏毒素I    志贺氏毒素II    GyrA
蓖麻子              篦麻毒素
沙门氏菌属
肠道沙门氏菌        OmpA            GyrA
鼠伤寒沙门氏菌      OmpA前体
志贺氏菌属
痢疾志贺氏杆菌      OmpA
弗氏志贺菌          OmpA            GyrA
霍乱弧菌            OmpA            CtxA&CtxB                      GyrA
尼帕病毒            壳包核酸                                       Matrix
汉坦病毒                                                                          GyrA
未名病毒            壳包核酸        糖蛋白                                        GyrA
嗜肺军团菌          MompS                                          GyrA
荚膜组织胞浆菌      M抗原           H抗原
皮炎芽生菌          WI-1            Bysl
球孢子菌            Bg12            Ag2
水痘
水痘HHV-6           主要衣壳蛋白    主要抗原结构蛋白
水痘HHV-3           主要衣壳蛋白    即早转录数活因子
埃-巴二氏病毒       主要衣壳蛋白    即早转录激活因子
棒状杆菌属
白喉杆菌               Dtx基因                                     GyrA
肠病毒(属)             肠病毒
柯萨基病毒(亚群)       柯萨基病毒
埃可病毒(亚群)         埃可病毒
骨髓灰质炎病毒(亚群)   骨髓灰质炎病毒
副粘病毒科
副粘病毒科             血球凝聚素                                  基体
麻疹病毒(Rubeola)
新城病毒               血球凝聚素-                                 基体
沙门氏菌属             神经氨酸酶
西尼罗河病毒           荚囊                  非结构蛋白5
黄热病                 荚囊                  非结构蛋白5
偏肺病毒               壳包核酸
诺沃克病毒             RNA-dependent         壳包核酸              基体
RNA聚合酶
登革热病毒             壳蛋白              pre-M蛋白
手足口病               VPI基因               3D基因
圣路易斯脑炎病毒       多蛋白                NS5                   基体
立夫特谷热             核蛋白                非结构蛋白                         GyrA
                                             糖蛋白                             GyrA
尤苏它病毒             多蛋白
恙虫热                 GroEL                 tsa
金迪普拉病毒           G糖蛋白                                     基体
人造插入序列           Bluescript II(KS+)    pUC          pGEM
多重克隆位点
耐Rx标记物
表3:RPMV2设计(名称)
呼吸病原菌                 种类/亚                 种类/亚       种类/亚种    种类/亚种    属/钟    Rx Res
名称                       种                      种
BT试剂名称(CDC A;B;C)
腺病毒
亚群A                      NC_001460               NC_001460                               NC_001460
亚群B1
腺病毒3                    AF542129                AY224415                                AF492352
腺病毒7                    X76551                  Z48954                                  AY495969
腺病毒16                   X74662                  U06106
腺病毒21                   AB053166                U06107                                  AF492353
亚群B2
腺病毒11                   AF532578                L08232                                  BK001453
腺病毒35                   AB052912                AB098563                                AY128640
亚群C
腺病毒1                    AF534906                AB108423                                AF534906
腺病毒2                    AY224391                AY224410                                BK000407
腺病毒5                    AF542130                AY224411                                AY147066
腺病毒6                    X67710                  AB108424                                E1A
亚群D                      NC_002067               NC_002067                               NC_002067_
亚群E
腺病毒4                    X84646                  X76547                                  E1A
亚群F                      NC_001454               NC_001454                               NC_001454
流行性感冒                 Crieria:Human;Swine;Avian
流行性感冒A
                           AJ344014                AJ518092              AY52746           AJ458301
                           (疫苗)
                           L11125                  U42776
                           ISDN38157               AY300947
                           (疫苗)
                           ISDN13277               K01030
                           (疫苗)
                           AF285885
                           AY526745                M24740
                           AJ507203                AF285887
                           AY338459                AY340079
                           AF310988                AY300948
                           AY294658                AY180830
                           AF311750
                           AF310986
                           AF310990
                           M26089
                           M35997
                           L43916
流行性感冒B                AB126838                AY139074                                AB036877
流行性感冒C      AB093473                                                     AB086809
副流行性感冒
副流行性感冒1    NC 003461                                                    NC_003461
副流行性感冒2    NC 003443                                                    NC_003443
副流行性感冒3    AY283063                                                     NC_001796
副流行性感冒4A   E02727                                                       E03809
鼻病毒           AF108164     AF108180                AF542420    AF542420    AF108184
AF108179         AF108183     AF108186                AF108187
冠状病毒
SARS             AY323974     AY365036                AY429079                AY390556
OC43             M76373       NC_005147               L14643
229E             NC_002645    X51325                  X16816
呼吸道合胞病毒
1型(RSV A)       AF035006                                                     AF035006
2型(RSV B)       AF013254                                                     AF013254
                                                                              -
链球菌属         emm source
化脓性链球菌属   ST2035       ST4529L     ST4532      ST4264      ST4547      AE006557       Erm(A);
                                                                                             AY357120;
                                                                                             Erm(TR);
                 emm13L       ST3018      U92492      ST14973     STCMUK16                   U70055;MefE;
                 ST2267       U50338      ST2980      ST230-2     ST436                      prtF1;
                 ST448L       ST3365      ST1135      ST1161      ST1432                     AE006513
                 ST6949       ST1160
                 emm1         emm2        emm3        emm4        emm5
                 emm6         emm7        emm8        emm9        emm10
                 emm11        emm12       emm13       emm14       emm15
                 emm16        emm17       emm18       emm19       emm20
                 emm21        emm22       emm23       emm24       emm25
                 emm26        emm27       emm28       emm29       emm30
                 emm31        emm32       emm33       emm34       emm35
                 emm36        emm37       emm38       emm39       emm40
                 emm41        emm42       emm43       emm44       emm45
                 emm46        emm47       emm48       emm49       emm50
                 emm51        emm52       emm53       emm54       emm55
                 emm56        emm57       emm58       emm59       emm60
                 emm61        emm62       emm63       emm64       emm65
                 emm66        emm67       emm68       emm69       emm70
                 emm71        emm72       emm73       emm74       emm75
                 emm76        emm77       emm78       emm79       emm80
                 emm81        emm82       emm83       emm84       emm85
                 emm86        emm87       emm88       emm89       emm90
                 emm96       emm97       emm98     emm99     emm100
                 emm101      emm102      emm103    emm104    emm105
                 emm106      emm107      emm108    emm109    emm110
                 U74320
                 U11966      AF095713    AY229859  AB051298
肺炎链球菌属     X67867                                                       AY157689
金黄色葡萄球菌属 U93688      U93688      U93688    M11118                     D 10489
肺炎支原体属     AF290002                                                     X53555
百日咳博德特氏菌 M13223      AJ507642                                         BX640413(密码子
                                                                              286253)
衣原体属
肺炎衣原体属     X53511                                                       AB 103388
鹦鹉热衣原体     AF269281    U04442                                           -
脑膜炎奈瑟氏球菌 AE002384                                                     AE002487
杆菌
炭疽杆菌         AF306783    AF205335    M29081    M24074                     AY291534
腊样芽胞杆菌                 AF205342
苏云金芽孢杆菌   AF278797    AF205349
枯草杆菌                     AF205356                                         X02369(orf 821)
鼠疫杆菌         NC_003143   AF350077                                         AE013898
天花(大天花)     L22579      L22579                                           L22579
猴痘
水痘
土拉弗朗西斯菌   M32059      AF469619                                         AF513319
丝状病毒
埃博拉病毒       NC_004161   NC_004161
马尔堡病毒       NC_001608   NC_001608
沙状病毒
沙拉热病毒       NC_004297   NC_004296
马丘博病毒       NC_005079   NC_005078
伯克霍尔德菌
鼻疽假单胞菌     AY032868                                                     AY124769
类鼻疽伯克氏菌              AY032869                                  AF097748
(类鼻疽)
洋葱伯克霍尔德菌            U70431
斑疹伤寒(摩氏立克次氏体)    AJ235270                                  AJ235270(密码子    AJ235270
250672)
甲型病毒
委内瑞拉马脑炎              L04653      L04653
东方型马脑炎                NC003899    NC003899
西方型马脑炎                NC003908    NC003908
布鲁氏菌                    一致        一致            一致
流产布鲁氏菌(2308B37)
马耳他布鲁氏杆菌(F6145)
猪布鲁氏杆菌(A44)                                                     AE014411
犬布鲁氏菌
羊布氏杆菌                                                            -
鼠布鲁氏菌
溶血隐秘杆菌               X73952      L16583
流感嗜血杆菌               L20309                                     U32806
卡他莫拉菌                 AY077637                                   AF056196
分枝杆菌                   BX842574                                   AE006915
痨病
杆菌
肉毒杆菌                   Y13630      X62683
产气荚膜梭菌               AP003191    X60694                         AP003185
破伤风杆菌                 X04436
贝氏考克斯菌               AE016960                                   AE016960
小球隐孢子虫               AF529280    AY471868
E.coli 0157:H7            AE005582    AB083044       AB048837        NC_002655
蓖麻子                     X52908
沙门氏菌属
肠道沙门氏菌            AL627269                     AE016836(密码子
鼠伤寒沙门氏菌          AE008746                     70224)
志贺氏菌属
痢疾志贺氏杆菌          V01344
弗氏志贺菌              AE015125                     AE016986
霍乱弧菌                AF030977      Gary Custom    NC_002505
尼帕病毒                NC_002728                    NC_002728
汉坦病毒
未名病毒                NC_005216     L33474
嗜肺军团菌              AF078136                     AY091594
荚膜组织胞浆菌          AF026268      U20346
                                                     AE014411
皮炎芽生菌              S63772        AF277079
                                                     -
粗球霉菌                AF022893      U32518
水痘
水痘HHV-6               NC_001664     NC_001664
水痘HHV-3               NC_001348     NC_001348
埃-巴二氏病毒           NC_001345     NC_001345
棒状杆菌属
白喉杆菌                A04646                       BX248354
肠病毒(属)              NC_001612
柯萨基病毒(亚群)        AF499635
埃可病毒(亚群)          NC_003986
骨髓灰质炎病毒(亚群)    NC_002058
副粘病毒科
副粘病毒科              AY523581                     NC_001498
麻疹病毒〔Rubeola〕
新城病毒                AY510092                     NC_002617
西尼罗河病毒            AF346319      AF208017
黄热病                  AY359908      AF013417
偏肺病毒                AY145272                     AY145271
肠道沙门氏菌            AL627269
诺沃克病毒         NC_001959              NC_001959
NC_001474          NC_001474              NC_001474
手足口病           NC_004004              NC_004004
圣路易斯脑炎病毒   AY289618               AF013416
立夫特谷热         X53771                 X53771
尤苏它病毒         AF452643
恙虫热             AY191589               AY283180
金迪普拉病毒       J04350                                           AF128868
人造插入序列       Stratagene Provided    X06404         X65312
多重克隆位点
耐Rx标记物
表4:RPMV2设计(尺寸)
呼吸病原菌                  种类/亚       种类/亚      种类/亚种      属/钟      Rx Res
名称                        种            种
BT试剂名称(CDC A;B;C)
腺病毒                      836           860                         597
亚群A
亚群B1                      685           829                         880
腺病毒3                     605           829                         880
腺病毒7                     673           906
腺病毒16                    759           637                         819
腺病毒21
亚群B2
腺病毒11                    629           1025                        789
腺病毒35                    641           711                         789
亚群C
腺病毒1                     667           802                         870
腺病毒2                     789           698                         870
腺病毒5                     684           826                         1055
腺病毒6                     785           578
亚群D                       644           783                         579
亚群F
腺病毒4                     2281          1375                        616
亚群F                       828           659                         909
流行性感冒
流行性感冒A
                            1692          1459         575            734
                            757           1410
                            1042          804
                            1323          257
                            303           865
                            839           691
                            770           795
                            849           444
                            553
                            727
                            680
                            690
                            813
                            715
                            745
流行性感冒B                 737           761                         715
流行性感冒C                 401                                       862
副流行性感冒
副流行性感冒1               1649                                      910
副流行性感冒2        1646                                        693
副流行性感冒3        1581                                        498
副流行性感冒4A       638                                         807
鼻病毒               508      499      338      503    501
                     511      504      520      506
冠状病毒
SARS                 666      1269     3768                      666
OC43                 828      557      1042
229E                 753      789      1393
呼吸道合胞病毒
1型(RSV A)           907                                         958
2型(RSV B)           554                                         826
链球菌属
化脓性链球菌属       675      425      713      661    340       815      Erm(A);
                                                                          763;732;
                     200      316      371      415    680                563;
                     413      384      401      688    350                MefE;
                     355      554      619      475    664                prtF1
                     650      635
                     325      360      391      337    490
                     437      emm7     emm8     509    emm10
                     500      364      emm13    439    652
                     emm16    187      emm18    381    emm20
                     emm21    620      258      421    561
                     936      317      333      328    265
                     339      299      328      340    emm35
                     410      270      481      369    340
                     488      408      306      391    Emm45
                     315      331      489      485    287
                     423      499      414      293    405
                     389      338      391      433    452
                     325      334      429      538    640
                     528      335      526      566    440
                     300      256      328      306    451
                     353      450      415      322    354
                     432      497      421      324    448
                     404      420      346      379    483
                     393      363      403      516    408
                     358      357      351      372    340
                     350      354      emm103   emm104 emm105
                     cmm106   emm107   emm108   emm109 emm110
                     533
                     292      904      1008     681
肺炎链球菌属                1237                                815      GyrB;
                                                                         ParC
                                                                         400;652;
金黄色葡萄球菌              771      729      705      713      821      1032;
                                                                         846;##;
肺炎枝原体                  2526                                809      ##
百日咳博德特氏菌            824      730                        815
衣原体属
肺炎衣原体                  982                                 824
鹦鹉热衣原体                991      835
脑膜炎奈瑟氏球菌            856                                 941
杆菌
炭疽杆菌                    551      777      638      985      732
腊样芽胞杆菌                777
苏云金芽孢杆菌              805      777
枯草杆菌                    780                                 812
Bacillus globigii
鼠疫杆菌                    913      517                        812
天花(大天花)                942      378                        762
猴痘                        764
水痘
土拉弗朗西斯菌              786      3322                       960
丝状病毒
埃博拉病毒                  752      758
马尔堡病毒                  1170     799
沙状病毒
拉沙热病毒                  973      703
马丘波病毒                  1540     715
伯克霍尔德菌
鼻疽假单胞菌                1117
(鼻疽)
类鼻疽伯克氏菌              1117                                1100
(类鼻疽)
洋葱伯克霍尔德菌            563
斑疹伤寒(摩氏立克次氏体)    985                                 968      1560
甲型病毒
委内瑞拉马脑炎             923         1512
东方型马脑炎               1312        975
西方型马脑炎               878         902
布鲁氏菌                   582         2428          1291
流产布鲁氏菌(2308B37)
马耳他布鲁氏杆菌(F6145)                                             995
猪布鲁氏杆菌(A44)
犬布鲁氏菌
羊布氏杆菌
鼠布鲁氏菌
溶血隐秘杆菌               1489        1111
流感嗜血杆菌               937                                      896
卡他莫拉菌                 653                                      321
分枝杆菌                   932
痨病                                                                818
杆菌
肉毒杆菌                   499         1000
产气荚膜梭菌               1113        572
破伤风杆菌                 1138                                     810
贝氏考克斯菌               1851                                     812
小球隐孢子虫               375         2304
E.coli 0157:H7            660          948          960            812
蓖麻子                     1133
沙门氏菌属
肠道沙门氏菌               904
鼠伤寒沙门氏菌             904                                      812
志贺氏菌属
痢疾志贺氏杆菌             907
弗氏志贺菌                 898                                      812
霍乱弧菌              942    984        887
尼帕病毒              858               1359
汉坦病毒
未名病毒              639
嗜肺军团菌            1157              236
荚膜组织胞浆菌        919     1082
皮炎芽生菌            942     912
粗球霉菌              965     1234
水痘
水痘HHV-6             890     1236
水痘HHV-3             822     781
埃-巴二氏病毒         971     1317
                                         -
棒状杆菌属
白喉杆菌              913
                                         818
肠病毒(属)            1758
柯萨基病毒(亚群)      920
埃可病毒(亚群)        1277
骨髓灰质炎病毒(亚群)  1226
副粘病毒科
副粘病毒科                               1854
麻疹病毒(Rubeola)                        1008
新城病毒              1734    1232
西尼罗河病毒          1504    917
黄热病                1547    1035
偏肺病毒              1185               765
诺沃克病毒            961     712
登革热病毒            300     498
手足口病              633     799
圣路易斯脑炎病毒      679     1035
立夫特谷热            738     798
尤苏它病毒      1035
恙虫热          546     1011
金迪普拉病毒    704                            755
人造插入序列    2961    3914    2912
多重克隆位点
耐Rx标记物
芯片尺寸                                       293826
提交给RPMV2拼接和芯片制备的序列是基于表5中总结的Affymetrix说明书文件,对应于如SEQ ID NOs:50-421显示的序列。
表5:RPMV2拼接和芯片制备的Affymetrix说明书文件
  名称   Alias   起始   结束   序列号   起始序列   终止序列
  ATTIM1   ATTIM1   1   523   59   ACATCGAC   GAGCTTGC
  Ad3E1A   Ad3E1A   1   879   60   TGAGACAC   GGCAATGA
  Ad3HEXON   Ad3HEXON   1   595   61   CCAGCACA   CATGTGGT
  Ad3FIBER   Ad3FIBER   1   746   62   AAGCGGCT   AACCCTCA
  Ad7E1A   Ad7E1A   1   868   63   TGAGACAC   AAACTGCC
  Ad7HEXON   Ad7HEXON   1   513   64   CCAGCACA   TGCTGACG
  Ad7FIBER   Ad7FIBER   1   977   65   TGACCAAG   ACGACTGA
  Ad7NAVYE1A   Ad7NAVYE1A   1   879   66   ATGAGACA   AGGCAATA
  Ad7NAVYHEXON   Ad7NAVYHEXON   1   504   67   CCAGCACA   TGCTGACG
  Ad7NAVYFIBER   Ad7NAVYFIBER   1   975   68   TGGCTTTA   CCCCACGC
  Ad16E1A   Ad16E1A   1   878   69   TGAGACAC   GGCAATGA
  Ad16HEXON   Ad16HEXON   1   667   70   CGTTGACC   AGGACACC
  Ad16FIBER   Ad16FIBER   1   652   71   GGGAGATG   AGGAAGCC
  Ad21E1A   Ad21E1A   1   878   72   TGAGACAC   GACAATGA
  Ad21HEXON   Ad21HEXON   1   807   73   CGCCACAG   GTGTACAA
  Ad21FIBER   Ad21FIBER   1   685   74   GCTCAGTG   CCTTTATG
  Ad11E1A   Ad11E1A   1   872   75   TGAGAGAT   GACAATAA
  Ad11HEXON   Ad11HEXON   1   677   76   CGCCACAG   TCAGAAAG
  Ad11FIBER   Ad11FIBER   1   977   77   TGACCAAG   ACGACTGA
  Ad35E1A   Ad35E1A   1   872   78   TGAGAGAT   GACAATAA
  Ad35HEXON   Ad35HEXON   1   689   79   CGCCACAG   TGAAAAAA
  Ad35FIBER   Ad35FIBER   1   971   80   TGACCAAG   ACAACTAA
  Ad1E1A   Ad1E1A   1   986   81   TGAGACAT   GGCCATAA
  Ad1HEXON   Ad1HEXON   1   715   82   AGTGGTCT   TGCTACGG
  Ad1FIBER   Ad1FIBER   1   750   83   GATGCTGT   AAGAATAA
  Ad2E1A   Ad2E1A   1   983   84   TGAGACAT   GGCCATAA
  Ad2HEXON   Ad2HEXON   1   837   85   AGTGGTCT   CGACCGGC
  Ad2FIBER   Ad2FIBER   1   750   86   ATAGCTAT   AGGAATAA
  Ad5E1A   Ad5E1A   1   985   87   TGAGACAT   GGCCATAA
  Ad5HEXON   Ad5HEXON   1   732   88   AGTGGTCT   TGTAAAGC
  Ad5FIBER   Ad5FIBER   1   747   89   ACAGCCAT   AAGAATAA
  Ad6E1A   Ad6E1A   1   985   90   TGAGACAT   GGCCATAA
  Ad6HEXON   Ad6HEXON   1   833   91   GAATGAAG   AATTGGGA
  Ad6FIBER   Ad6FIBER   1   750   92   TCCTCAAA   CAGAAAAT
  Ad4E1A   Ad4E1A   1   865   93   TGAGGCAC   GGCATTAA
  Ad4HEXON   Ad4HEXON   1   2810   94   TGGCCACC   CCACATAA
  Ad4FIBER   Ad4FIBER   1   1277   95   TGTCCAAA   AACAATAA
  Ad4AFE1A   Ad4AFE1A   1   832   96   TGAGGCAC   GACATTAA
  Ad4AFHEXON   Ad4AFHEXON   1   2810   97   TGGCCACC   CCACATAA
  Ad4AFFIBER   Ad4AFFIBER   1   1277   98   TGTCCAAA   AAGAATAA
  Ad12E1A   Ad12E1A   1   597   99   ATGAGAAC   GGAGGTGA
  Ad12HEXON   Ad12HEXON   1   884   100   CCTACTTC   TGCAAGAC
  Ad12FIBER   Ad12FIBER   1   908   101   CAGCAGAA   CGTTGCCG
  Ad17E1A   Ad17E1A   1   579   102   ATGAGACA   GAGGCTGA
  Ad17HEXON   Ad17HEXON   1   692   103   CTTCAGCC   GAAGAATA
  Ad17FIBER   Ad17FIBER   1   829   104   TCCTGTCA   TATCAGCC
  Ad40E1A   Ad40E1A   1   824   105   CTTGAGTG   ATAGAAGA
  Ad40HEXON   Ad40HEXON   1   876   106   CGCAATGG   TAATTACA
  Ad40FIBER   Ad40FIBER   1   707   107   CACTGACA   TCAGTGTC
  FluAHA1   FluAHA1   1   1692   108   ATGAAAGC   GAATATGC
  FluAHA2   FluAHA2   1   805   109   AAGGTCGA   TTTGGGAG
  FluAHA3   FluAHA3   1   1042   110   CAAAAACT   AATGGTGG
  FluAHA4   FluAHA4   1   1371   111   AGGAAATC   GACAAAGG
  FluAHA5   FluAHA5   1   303   112   ATGCCCCA   TTTAACAA
  FluAHA6   FluAHA6   1   887   113   CCGTCACA   GACTAAGA
  FluAHA7   FluAHA7   1   818   114   AAATCCTG   TGGGAATT
  FluAHA8   FluAHA8   1   897   115   CTCTTGGC   GCAAACCC
  FluAHA9   FluAHA9   1   601   116   ACTCCACA   CCAAGGCC
  FluAHA10   FluAHA10   1   775   117   CCTGGAGC   GTATGGTT
  FluAHA11   FluAHA11   1   728   118   CTGCATTC   AGAGGCAA
  FluAHA12   FluAHA12   1   738   119   CACTGTTC   GGCCAAAC
  FluAHA13   FluAHA13   1   1765   120   AGCAAAAG   TTTCTACT
  FluAHA14   FluAHA14   1   763   121   CACAAATG   CAAGAGGC
  FluAHA15   FluAHA15   1   793   122   ACGGAGAC   CCCTTTGC
  FluANA1-1   FluANA1-1   1   1459   123   CAAAAGCA   TTTCTACT
  FluANA1-2   FluANA1-2   1   575   124   TGCCATGA   ATGATTTG
  FluANA2   FluANA2   1   1062   125   TCATGCGA   TTTTAGAA
  FluANA3   FluANA3   1   852   126   GCCCTTTC   TGAAGTCA
  FluANA4   FluANA4   1   257   127   AGCAAAAG   CAGCCCCC
  FluANA5   FluANA5   1   913   128   CGGTGAGA   GCGGGAAG
  FluANA6   FluANA6   1   739   129   AGAGGATG   TTGCATTC
  FluANA7   FluANA7   1   994   130   AGCAGGGT   ACACCAGC
  FluANA8   FluANA8   1   843   131   CAATACAG   ATTAGCAG
  FluANA9   FluANA9   1   444   132   AACCTGAA   GTCAATAT
  FluAH1N1MATRIX   FluAH1N1MATRIX   1   734   133   ATGGAATG   TAAACACG
  FluAH5N1MATRIX   FluAH5N1MATRIX   1   657   134   AGACCAAT   TTGCACTT
  FluBHA   FluBHA   1   785   135   GGGAAGTC   AGGTAATA
FluBNA FluBNA 1 809 136 GCCCTCAT CTCGAACG
  FluBMATRIX   FluBMATRIX   1   763   137   GGAGAAGG   ATGGCTTG
  FluCHA   FluCHA   1   401   138   CTTCTTGC   ATGATCAT
  FluCMATRIX   FluCMATRIX   1   862   139   ATGTCCGA   TTATATAA
  PIV1HN   PIV1HN   1   1728   140   ATGGCTGA   CATCTTGA
  PIV1MATRIX   PIV1MATRIX   1   958   141   CCGGAGAA   CAGTAGAA
  PIV1NC   PIV1NC   1   1682   142   AGGGTTAA   AAGAAAAA
  PIV2HN   PIV2HN   1   1716   143   ATGGAAGA   TACCTTAA
  PIV2MATRIX   PIV2MATRIX   1   741   144   CTTGCCTC   CAGGTCGG
  PIV2NC   PIV2NC   1   1849   145   AGATTCGG   AGAAAAAA
  PIV3HN   PIV3HN   1   1725   146   ATGGAATA   AATCATAA
  PIV3MATRIX   PIV3MATRIX   1   544   147   CCAACAAA   CCTGGCGA
  PIV3NC   PIV3NC   1   1548   148   ATGTTGAG   GCAACTAA
  PIV4HN   PIV4HN   1   686   149   GACGGGAG   AAAGATTG
  PIV4MATRIX   PIV4MATRIX   1   855   150   GGAACGGT   TTGGCTCA
  HRV14NCR   HRV14NCR   1   520   151   TGATGTAC   GTTTCTCA
  HRV1ANCR   HRV1ANCR   1   511   152   TTCCGGTA   GTTTCACT
  HRV21NCR   HRV21NCR   1   499   153   TTCCGGTA   GTTTCACT
  HRV29NCR   HRV29NCR   1   676   154   CGAAAACA   TTGGGTGT
  HRV58NCR   HRV58NCR   1   504   155   TCACGGTA   GTTTCCTG
  HRV62NCR   HRV62NCR   1   501   156   TTCCGGTA   GTTTCACT
  HRV87NCR   HRV87NCR   1   506   157   TCTTGGTA   GTTTCACT
  HRV95NCR   HRV95NCR   1   508   158   TTCCGGTA   GTTTCTTG
  RSVABL   RSVABL   1   379   159   AAGTGCTC   AAGCAAAC
  RSVAMATRIX   RSVAMATRIX   1   958   160   GGGGCAAA   ATAAAAAA
  RSVANC   RSVANC   1   955   161   TCCAACGG   CCGAGGAA
  RSVBMATRIX   RSVBMATRIX   1   770   162   ATGGAAAC   GAGGATTA
  RSVBNC   RSVBNC   1   602   163   GATGGGAG   TACGCCAA
  HCV229ESPIKE   HCV229ESPIKE   1   1534   164   GTTGATTG   GCCGTGGT
  HCV229EMEM   HCV229EMEM   1   678   165   ATGTCAAA   TTTTCTAA
  HCV229ENC   HCV229ENC   1   924   166   ATGGCTAC   GTCACATT
  HCVOC43SPIKE   HCVOC43SPIKE   1   1456   167   ATTGATTG   GCCTTGGT
  HCVOC43MEM   HCVOC43MEM   1   693   168   ATGAGTAG   ATATCTAA
  HCVOC43NC   HCVOC43NC   1   966   169   AGAGCTCA   GTACACTT
  SARSSPIKE   SARSSPIKE   1   1438   170   GTAGATTG   GCCTTGGT
  SARSMEM   SARSMEM   1   666   171   ATGGCAGA   TACAGTAA
  SARSNC   SARSNC   1   932   172   ATGGGGCA   ACAAAGAT
  HCVNL63SPIKE   HCVNL63SPIKE   1   1534   173   GTTGATTG   GCCTTGGT
  HCVNL63ORF3   HCVNL63ORF3   1   678   174   ATGCCTTT   TTAATTGA
  HCVNL63MEM   HCVNL63MEM   1   681   175   ATGTCTAA   TAATCTAA
  HCVNL63NC   HCVNL63NC   1   879   176   ATGGCTAG   GTGAGGTT
  MPVMATRIX   MPVMATRIX   1   765   177   ATGGAGTC   CCAGATAA
  MPVNC   MPVNC   1   1185   178   ATGTCTCT   ATGAGTAA
  HHV1L   HHV1L   1   1061   179   TACCAGGG   AAGCGCCT
  HHV1CAPSID   HHV1CAPSID   1   993   180   CGGGCGCC   GTGGGCGT
  HHV3L   HHV3L   1   1061   181   TATAAAGG   CGTCGCTT
  HHV3CAPSID   HHV3CAPSID   1   993   182   CGGGAGCC   ATGGGCAT
  HHV4L   HHV4L   1   1067   183   TACCAGGG   ACCCAGAT
  HHV4CAPSID   HHV4CAPSID   1   992   184   CGCCGACA   CTGGGCAT
  HHV5L   HHV5L   1   1136   185   TACCAGGG   TCTAACCT
  HHV5CAPSID   HHV5CAPSID   1   998   186   CGCGCAGC   CTGGGCCT
  HHV6L   HHV6L   1   1058   187   TACAAAGG   CCGAATCT
  HHV6CAPSID   HHV6CAPSID   1   1001   188   CGCGCAGC   TTGGGCAT
  ENTEROVIRUS   ENTEROVIRUS   1   1758   189   CACCAATG   GATAGATA
  COXSACKIEVIRUS   COXSACKIEVIRUS   1   920   190   CAATGCAA   TCTTGAGG
  ECHO   ECHO   1   1277   191   CACTTGCC   ACAAAGAG
  POLIO   POLIO   1   1226   192   TGGATAGT   ACTTATGT
  POLIO1NCR   POLIO1NCR   1   436   193   CAAGCACT   TGACAATC
  POLIO2NCR   POLIO2NCR   1   437   194   CAAGCACT   TGACAATC
  POLIO3NCR   POLIO3NCR   1   437   195   CAAGCACT   TGACAATC
  MEASLESHA   MEASLESHA   1   1854   196   ATGTCACC   GCGGATAG
  MEASLESMATRIX   MEASLESMATRIX   1   1008   197   ATGACAGA   TTCTGTAG
  NEWCASTLEHN   NEWCASTLEHN   1   1734   198   ATGGACCG   CTGGCTAG
  NEWCASTLEMATRIX   NEWCASTLEMATRIX   1   1232 199   ACGGGTAG   CATCAAGT
  WNE   WNE   1   1504   200   TTCAACTG   GCACGCTG
  WNNS   WNNS   1   917   201   GGCTGCTG   GGGAAGGA
  WNCM   WNCM   1   432   202   GGCCAATA   TGATCCAG
  YFE   YFE   1   1547   203   CTGCATTG   TAGAGACT
  YFNS   YFNS   1   1035   204   AAGCTGTC   AGGGAGAG
  VMVG3R   VMVG3R   1   762   205   ATGAAACA   GTGTCTGA
  VMVHA   VMVHA   1   942   206   ATGACACG   AAGTCTAG
  VMVSOD   VMVSOD   1   378   207   ATGGCTGT   GCGTTTGA
  VMVCRMB   VMVCRMB   1   291   208   TCGGGAAC   CGTCTGTT
  MONKEYPOX   MONKEYPOX   1   812   209   GTGAATGC   TTTCGACG
  EBOLAL   EBOLAL   1   800   210   AGTTGGAC   GAAACACG
  EBOLANP   EBOLANP   1   806   211   AGGAGTAA   CGACAATC
  EBOLAMATRIX   EBOLAMATRIX   1   1498   212   GATGAAGA   AAGAAAAA
  MARBURGL   MARBURGL   1   1218   213   GCGGCACT   CAATTGAC
  MARBURGNP   MARBURGNP   1   847   214   TCACAGAA   GTCATTTG
  LASSAL   LASSAL   1   1021   215   GCATCTGG   ACTACCTC
  LASSANP   LASSANP   1   751   216   ATGGAGTG   AGTTCAGG
  LASSAGP   LASSAGP   1   1476   217   ATGGGACA   AGAGATGA
  MACHUPOL   MACHUPOL   1   1588   218   GTGGCTGA   GAGGCTAA
  MACHUPONP   MACHUPONP   1   763   219   TTGAAGAC   GGCACTAT
  MACHUPOG   MACHUPOG   1   1491   220   ATGGGGCA   GACATTAA
  VEEVNS   VEEVNS   1   923   221   GACAGCCC   AAAGTGAC
  VEEVNC   VEEVNC   1   1512   222   GGCCACCT   AGCATATC
  EEEVNS   EEEVNS   1   1312   223   GAGATAGA   ATTGCGTC
  EEEVNC   EEEVNC   1   975   224   CCTGACTT   TCAGCTAT
  WEEVNS   WEEVNS   1   878   225   CGTATGTC   CCACAATG
  WEEVNC   WEEVNC   1   902   226   TGTTCTAG   TGGCGACT
  NIPAHMATRIX   NIPAHMATRIX   1   1359   227   AGGAGACA   ACAAAAAA
  NIPAHN   NIPAHN   1   858   228   AGGAATCT   CAATCAGC
  SINNOMBREGP   SINNOMBREGP   1   1293   229   ATAGCTGG   GGATGGAT
  SINNOMBRENC   SINNOMBRENC   1   639   230   TCACTCTC   TGTGATTG
  NORWALKL   NORWALKL   1   739   231   TTCTCCAT   ATTCGTAA
  NORWALKCAPSID   NORWALKCAPSID   1   760   232   TGGTACCG   CTGGATGG
  DENGUECAPSID   DENGUECAPSID   1   300   233   ATGAATGA   GACGTAGA
  DENGUEM   DENGUEM   1   498   234   TTTCATCT   CAATGACA
  DENGUE1NCR   DENGUE1NCR   1   157   235   GGTTAGAG   GCTGTCTC
  DENGUE2NCR   DENGUE2NCR   1   159   236   GGTTAGAG   GCTGTCTC
  DENGUE3NCR   DENGUE3NCR   1   156   237   GGTTAGAG   GCTGTCTC
  DENGUE5NCR   DENGUE5NCR   1   162   238   GGTTAGAG   GCTGTCTC
  FMDVVP1   FMDVVP1   1   633   239   ACCACCTC   CAAAACAG
  FMDV3D   FMDV3D   1   846   240   GTTGATCG   ACGGAGCA
  SLEVNS5   SLEVNS5   1   1035   241   AAGACTGG   AGGGTGAG
  SLEVPP   SLEVPP   1   727   242   CTCGGTAG   GTTTCACG
  RVFVN   RVFVN   1   738   243   ATGGACAA   CAGCCTAA
  RVFVNS   RVFVNS   1   798   244   ATGGATTA   TTGATTAG
  USUTUPP   USUTUPP   1   1035   245   AAGCTCGG   CAGGTGAG
  JEVPP   JEVPP   1   1035   246   AAGCCTGG   AAGGAGAG
  CHANDIPURAMATRIX   CHANDIPURAMATRIX   1   755   247   AACAGAAA   GAAAAAAA
  CHANDIPURAGP   CHANDIPURAGP   1   752   248   ATCACTCT   GTAGTTGT
  ATIM2   ATTIM2   1   523   249   ACATCGAC   GAGCTTGC
  ATTIM3   ATTIM3   1   523   250   ACATCGAC   GAGCTTGC
  SPYEMM1   SPYEMM1   1   398   251   GCTTCAGT   CAGGCAAG
  SPYEMM2   SPYEMM2   1   360   252   GCATCCGT   GAGAAGTC
  SPYEMM3   SPYEMM3   1   391   253   ACGGCTTC   GGAATATC
  SPYEMM4   SPYEMM4   1   337   254   AGCATCAG   GTCAATAT
  SPYEMM5   SPYEMM5   1   490   255   ACTGCATC   AAAAGATA
  SPYEMM6   SPYEMM6   1   437   256   TACTGCAT   CTTAAAAA
  SPYEMM9   SPYEMM9   1   509   257   CAGGTACA   CTGCTCTT
  SPYEMM11   SPYEMM11   1   500   258   GCATCCGT   AATCACCA
  SPYEMM12   SPYEMM12   1   364   259   GCTTCAGT   AAATGATG
  SPYEMM13L   SPYEMM13L   1   325   260   CAGCATCC   AAAAATCA
  SPYEMM18   SPYEMM18   1   524   261   ACTGCTTC   GAAGAACA
  SPYEMM22   SPYEMM22   1   620   262   GCATCAGT   GACGCAAG
  SPYEMM28   SPYEMM28   1   333   263   CAGCATCC   AGAACGTC
  SPYEMM29   SPYEMM29   1   328   264   TGCATCAG   AAGAACAG
  SPYEMM44   SPYEMM44   1   391   265   CAGCATCA   CAAGAACA
  SPYEMM61   SPYEMM61   1   325   266   GCATCAGT   AGAACGTC
  SPYEMM75   SPYEMM75   1   451   267   TCCGTAGC   AAGCCGTG
  SPYEMM77   SPYEMM77   1   450   268   GCTCAGTA   AGCTGAGC
  SPYEMM89   SPYEMM89   1   378   269   CATCAGTA   AGAAAAGC
  SPYEMM94   SPYEMM94   1   516   270   GCATCAGT   CAGACGCA
  SPYCSR   SPYCSR   1   952   271   TGGTCCTA   CCCAGGCT
  SPYSFB1   SPYSFB1   1   615   272   AGAACCTG   GGCATGAG
  SPYSPEB   SPYSPEB   1   729   273   ACTCTACC   TATCGATG
  SPNGYRA   SPNGYRA   1   815   274   GAGGATTT   ACTGATAC
  SPNLYTA   SPNLYTA   1   125   275   TATCGAAC   CTCAGACC
  SPNPLY   SPNPLY   1   99   276   GGTTTGGC   ATCAAGAT
  SAUGYRA   SAUGYRA   1   821   277   GAAGACTT   ACTAATGC
  SAUTST   SAUTST   1   705   278   ATGAATAA   TTAATTAA
  SAUENTK   SAUENTK   1   729   279   ATGAAAAA   CGATATAA
  SAUENTQ   SAUENTQ   1   771   280   ATGCCTAT   CTGAATAA
  CPNGYRA   CPNGYRA   1   824   281   GAAGACAT   TCGAGTCA
  CPNOMPB   CPNOMPB   1   1030   282   GCGAAGCT   TCAGGTCC
  CPNMOMPVD4   CPNMOMPVD4   1   150   283   ATGCTGAT   TCAGATCA
  CPNMOMPVD2   CPNMOMPVD2   1   133   284   AGCGTTCA   TAGGCGCT
  CPNRPOB   CPNRPOB   1   346   285   AAGGACTT   CTGCAGGC
  CPSOMPA   CPSOMPA   1   991   286   GGAACCCA   TCGATTCA
  CPSSIGA   CPSSIGA   1   883   287   CGCAAGCT   GGTTCAGC
  CDIDTX   CDIDTX   1   913   288   GACGTGGT   TTCTCCGG
  CDIGYRA   CDIGYRA   1   818   289   GAAGACCT   ACCTCCGC
  CDIDTXR   CDIDTXR   1   1124   290   AATGAGTG   GCGCCTGT
  HINGYRA   HINGYRA   1   896   291   GAAGATTT   ACTGATGC
  HINOMPA   HINOMPA   1   937   292   GCGTTAAA   CCAGACCG
  LPNGYRA   LPNGYRA   1   236   293   GATGTCGG   GACCGTCG
  LPNMOMPS   LPNMOMPS   1   1157   294   GTCCTTAC   TCATTAGA
  MCAGYRA   MCAGYRA   1   321   295   AACTGGAA   AGATTCCC
  MCAHA   MCAHA   1   653   296   GATCAATC   AATGGTCA
  MTUGYRA   MTUGYRA   1   818   297   GAGGATTT   ACTTCCGG
  MTUOMPA   MTUOMPA   1   932   298   GACGAACT   TCAACTAA
  MTURPOB   MTURPOB   1   411   299   TACGGTCG   ACGCCGTA
  MPNGYRA   MPNGYRA   1   809   300   GAGGACTT   TCTTCAGC
  MPNP1   MPNP1   1   2570   301   CAGTTGCA   ACGCGAGC
  NMEGYRA   NMEGYRA   1   941   302   GAAGACCT   ACCAGCGG
  NMEMVIN   NMEMVIN   1   904   303   GATGAATA   ATACGGAA
  NMECTRA   NMECTRA   1   135   304   TTGGATGC   TTTGCTG
  NMECRGA   NMECRGA   1   254   305   GGTGCTGC   TGCCGGTC
  AHE16S   AHE16S   1   1489   306   CGAACGCT   CCGGAAGG
  AHEPLD   AHEPLD   1   1111   307   GCAAAGTG   CTCCTTTT
  BANGYRA   BANGYRA   1   732   308   GAAGACTT   AGACTTGT
  BANLEF   BANLEF   1   685   309   ATATCGAG   CTAGGTGC
  BANPAG   BANPAG   1   599   310   CAGAAGTG   GGATAGCG
  BANRPOB   BANRPOB   1   777   311   TAGTTCGC   AGGGGATA
  BANCYA   BANCYA   1   545   312   GCGATGAT   CTGTCGAG
  BANCAPB   BANCAPB   1   246   313   TTACACGT   ACCTATTA
  BCERPOB   BCERPOB   1   777   314   TAGTTCGC   AGGGGATA
  BSUGYRA   BSUGYRA   1   812   315   GAAGATCT   ACAGCTAG
  BSURPOB   BSURPOB   1   780   316   TTGTTCGG   AGGCGACA
  BTHCRY   BTHCRY   1   853   317   AGAACACA   ATCGCATC
  BTHRPOB   BTHRPOB   1   777   318   TAGTTCGC   AGGGGATA
  BPEGYRA   BPEGYRA   1   815   319   GAAGACCT   ACCACCGG
  BPEPRNA   BPEPRNA   1   777   320   GGTTCAAG   CGCCGACA
  BMEGYRA   BMEGYRA   1   995   321   GAAGACCT   TCGGATGG
  BABRB51   BABRB51   1   1339   322   ATCCCATA   AGCTAGTA
  BABOMP25   BABOMP25   1   630   323   AAGTCTCT   AGTTCTAA
  BABOMP2   BABOMP2   1   1434   324   TGTTCTTC   GAGAGCAG
  BCAOMP2   BCAOMP2   1   1434   325   TGTTCTTC   GAGAGCAG
  BMEOMP2   BMEOMP2   1   1434   326   TGTTCTTC   GAGAGCAG
  BNEOMP2   BNEOMP2   1   1434   327   TGTTCTTC   GAGAGCAG
  BOVOMP2   BOVOMP2   1   1449   328   TGTTCTTC   GAGAGCAG
  BSUIOMP2   BSUIOMMP2   1   1434   329   TGTTCTTC   GAGAGCAG
  BMAPENA   BMAPENA   1   1117   330   GAGAGCTG   AAGGTTCA
  BMAWAAF   BMAWAAF   1   1015   331   CGTTGGTT   GGGATGCT
  BPSPENA   BPSPENA   1   1117   332   GAGAGCTG   AAGGTTCA
  BPSWAAF   BPSWAAF   1   1100   333   AGCGCGGC   GTCCGCGG
  BCEPRECA   BCEPRECA   1   611   334   CATGGAAG   CAACCAGA
  CPEGYRA   CPEGYRA   1   810   335   GAAGACTT   ATAAATAG
  CPETMPC   CPETMPC   1   1113   336   ATGAAAAA   TAAATTAA
  CBUGYRA   CBUGYRA   1   812   337   GAAGATTT   AGTGATAA
  CBUTOLC   CBUTOLC   1   745   338   ATTTAGAC   CTAGGAAA
  FTURD1A   FTURD1A   1   531   339   ATGAAAAA   CAATTTAG
  FTURD1B   FTURD1B   1   285   340   ATGGCTTT   TAGACTAG
  FTUTUL4   FTUTUL4   1   834   341   GGCGAGTG   CCAACCAC
  FTUMDH   FTUMDH   1   960   342   ATGGCTAG   CAAAATAA
  FTU13KD   FTU13KD   1   431   343   ATCGTAAT   TAAGTATG
  FTUFOPA   FTUFOPA   1   111   344   CAGATATA   GATACTAC
  OTSGROEL   OTSGROEL   1   546   345   GTTGAAGT   AAGAAAAA
  OTSSTA56   OTSSTA56   1   1059   346   CTAGTGCA   AGCAGTAG
  RPRGYRA   RPRGYRA   1   968   347   GAAGATTT   ACAAATAG
  RPROMP1   RPROMP1   1   985   348   TATATAAA   ACAAGCTA
  YPEGYRA   YPEGYRA   1   812   349   GAAGACCT   ACTGATGC
  YPEOMPA   YPEOMPA   1   913   350   GTGGTAAA   CCAGATCG
  YPECVE   YPECVE   1   517   351   GTACAGAT   TGAGGTAC
  YPECAF1   YPECAF1   1   525   352   TATGAAAA   ATATAGAT
  ACAHAG   ACAHAG   1   1082   353   GGTTGCGC   TGCTCTCG
  ACAMAG   ACAMAG   1   919   354   CCGTCTGT   GTCATGTA
  ACAGH17   ACAGH17   1   810   355   ACACAGCA   AAAAAAAA
  BDEWI-1   BDEWI-1   1   942   356   GGATCCAT   TTTTTGTG
  BDEBYS1   BDEBYS1   1   912   357   ATGCATCT   ATGATAAC
  CIMAG2   CIMAG2   1   1234   358   CTCTCCCT   TTTTGTTA
  CIMBG12   CIMBG12   1   965   359   ATAGAGGG   GAAACGAT
  CPACP2   CPACP2   1   735   360   CTGAGGAA   TTCAAAAA
  CPASOD   CPASOD   1   375   361   TTGAATTC   GTGATGTA
  ECOGYRA   ECOGYRA   1   812   362   GAAGATCT   ACCGATGC
  ECOOMPA   ECOOMPA   1   660   363   ATGAAGAA   CGCTGTAA
  SENGYRA   SENGYRA   1   812   364   GAAGATCT   ACGGATGC
  SENOMPA   SENOMPA   1   904   365   GTGCTAAA   CCGGATCG
  SDYOMPA   SDYOMPA   1   907   366   GTGCTAAA   CCGGATCG
  SFLGYRA   SFLGYRA   1   812   367   GAAGATCT   ACCGATGC
  SFLOMPA   SFLOMPA   1   898   368   GTGCTAAA   CCGGATCG
  VCHGYRA   VCHGYRA   1   887   369   GAAGAGCT   ACCAATGC
  VCHOMPA   VCHOMPA   1   942   370   ATGAAAAA   TCCCTGAA
  MSRA   MSRA   1   400   371   GCAAATGG   ATCACATG
  MECR1   MECR1   1   652   372   ATGGAGGT   GAATCGAT
  MEFA   MEFA   1   611   373   AATATGGG   ACTACGGC
  ERMTR   ERMTR   1   732   374   ATGAAACA   TTCAATAA
  ERMB   ERMB   1   763   375   GATGTATC   GGAAATAA
  EMRB   EMRB   1   1560   376   ATGCCAAA   TTCACTAA
  GYRB   GYRB   1   1947   377   ATGACAGA   ATGTCTAA
  PARC   PARC   1   2637   378   GAGTTTGC   AATATAAG
  PARE   PARE   1   2008   379   AAAATTTT   TGTTTTAA
  PBP1   PBP1   1   1282   380   TTCGACCA   ACGAGCTA
  PBP5   PBP5   1   668   381   TGACGATC   AACGAGCA
  MECA   MECA   1   729   382   ATCGATGG   ATGAATAA
  BLAZ   BLAZ   1   846   383   TTGAAAAA   AATTTTAA
  DFRA   DFRA   1   486   384   ATGACATT   GGAAATAG
  VANA   VANA   1   1032   385   ATGAATAG   AGGGGTGA
  QACC   QACC   1   324   386   ATGCCTTA   CGCATTAA
  RMTB   RMTB   1   756   387   ATGAACAT   ATGGATAA
  STRA   STRA   1   804   388   TTGAATCG   GGGGTTGA
  STRB   STRB   1   837   389   ATGTTCAT   CATACTAG
  AADA1   AADA1   1   792   390   ATGAGGGA   GCAAATAA
  SULII   SULII   1   816   391   ATGAATAA   TTCGTTAA
  CTXM   CTXM   1   436   392   CAAGAAGA   ATGGCACC
  KPC2   KPC2   1   918   393   CGTTGATG   CCACCACC
  AMPC   AMPC   1   1140   394   ATGAAAAA   TGGAATAA
  BLACMY2   BLACMY2   1   1146   395   ATGATGAA   TGGAATAA
  AMPR   AMPR   1   876   396   ATGGTCAG   CGGCGTAA
  SULI   SULI   1   840   397   ATGGTGAC   ATGCCTAG
  AACAAPHD   AACAAPHD   1   1440   398   ATGAATAT   AAGATTGA
  FLOR   FLOR   1   1215   399   ATGACCAC   TCGTCTAA
  TETM   TETM   1   536   400   CACGCCAG   CGGAAATG
  TETC   TETC   1   502   401   TATCGTCC   CAGTCAGC
  TETS   TETS   1   555   402   GCTACATT   GGCATTCA
  TETA   TETA   1   494   403   TGGCATTC   GCTATACG
  TETG   TETG   1   550   404   CTCGGTGG   GGCTTTGC
  TETL   TETL   1   548   405   CTGGGTGA   ATTCCTGA
  TETB   TETB   1   571   406   AGTGCTGT   TCCAAGCC
  PTX   PTX   1   872   407   ATCACTAC   CAGGAGCT
  BONT   BONT   1   792   408   TGATGGAA   TTCTACGG
  NTNH   NTNH   1   496   409   AATATTTG   AATATGGT
  BOTE   BOTE   1   1000   410   GATAAAAT   TAACTATG
  EPSILON   EPSILON   1   620   411   ATGCGAAA   GGAGGAGC
  TETANUS   TETANUS   1   1185   412   CCTGATAA   CTAACGGA
  STX1A   STX1A   1   948   413   ATGAAAAT   GCAGTTGA
  STX2A   STX2A   1   960   414   ATGAAGTG   GTAAATAA
  RICINUSTOXIN   RICINUSTOXIN   1   1133   415   ATGGTCCA   CATCGGAT
  CTXAB   CTXAB   1   984   416   CGGGCAGA   CCTGAGGA
  PBLUEVEC   PBLUEVEC   1   236   417   CTGCAGGA   TGCGTTGC
  PGEMVEC   PGEMVEC   1   226   418   GAATATGC   TGCGTTGC
  PUCVEC   PUCVEC   1   252   419   AGACAGTT   TGCGTTGC
  ATTIM4   ATTIM4   1   523   420   ACATCGAC   GAGCTTGC
样本制备
在本发明的一些实施方案中,靶点核酸(DNA和/或RNA)可包含在生物样本中。这里使用的术语“生物样本”统指生物体或生物体组成(例如,细胞)中获得的样本。样本可为任何生物组织或液体。可供选择地,样本可为从环境(空气、土壤或水)中得到的样本。生物样本常常为源自患者的“临床样本”。这种样本包括,但不限于,唾液、鼻腔冲洗液、咽喉拭子、血液、血液细胞(例如,白细胞)、组织或针刺切片样本、尿、腹水、内脏液体、和胸积液、或那里的细胞。在本发明的背景下,临床样本优选鼻腔冲洗液、鼻腔吸出物或咽喉拭子。在尤其优选的实施方案中,临床样本为鼻腔冲洗液。生物样本也可包括组织部分如组织学用途的冷冻切片,或来自非人类动物、植物,或环境资源如水、空气或土壤。
为了采用微阵列进行检测,靶点核酸可能需要一定程度的处理。为了这个目的,将涉及一种或一种以上下列靶点处理步骤:(1)分离,(2)富集主体靶点序列,(3)扩增,(4)标记,和(5)杂交。对应于每个处理策略的优选实施方案在下面进行了描述。然而,本发明目的不是被限制。为了这个目标,技术人员将容易评价出可供选择的方法对应于上述处理策略,这些处理策略都以普遍在使用的那些和按照U.S.6,638,717、U.S.6,376,191、U.S.5,759,778、U.S.6,268,133、和U.S.6,613,516中描述的为基础。
靶点核酸分离
在本发明的一种实施方案中,被测定的靶点核酸(DNA和/或RNA)在相同扩增之前被分离出。分离核酸的方法对技术人员是众所周知的。
在一种优选实施方案中,靶点核酸分离将使用MasterPureTM DNA纯化试剂盒(Epicentre Technologies,Madison,WI)乙醇提纯方法(按厂商用法说明书)来完成。在另一种优选实施方案中,靶点核酸将采用快速微量离心技术进行分离,如在使用Xtra Amp试剂盒(XTRANA,Inc.Broomfield,CO)。然而在另一种优选实施方案中,核酸将采用自动化设备为上述目的进行分离,例如GeneXpert(Cepheid,Sunnyvale,CA)或采用磁性玻璃珠分离的自动机械进行分离(例如Qiagen或Beckman)。
许多其他商业产品可利用,这些产品面向从复合矩阵中纯化和浓缩核酸。除了上面描述的方法和在本发明中,备选方案包括:
QIAamp DNA微型试剂盒(Qiagen)-
(用于基因组、线粒体、细菌、寄生虫、或病毒DNA的提纯)
QIAamp DNA微型试剂盒采用快速自旋柱或真空技术从人组织样本中简化分离DNA。DNA特异性结合QIAamp硅凝胶膜然而污染物透过。PCR抑制剂如二价阳离子和蛋白在二个有效冲洗步骤中完全被除去,剩下纯净DNA在用试剂盒盛着的水中获缓冲液中进行洗提。QIAamp DNA技术从准备在PCR和印迹方法过程使用的人组织样本中生成基因组、线粒体、细菌、寄生虫、或病毒DNA。
RNeasy微型试剂盒(Ambion)-
RNeasy微型试剂盒从非常少量的组织或细胞中有效提纯全部RNA。全部RNA很容易从动物细胞或组织、革兰阳性菌或革兰阴性菌、或酵母中提纯出。RNeasy技术经结合严格的异硫氰酸胍水解,采用快速提纯硅凝胶膜纯化简化全部RNA分离。
UltraCleanTM组织DNA试剂盒(Mo Bio Laboratories,Inc.)-
新鲜或冷冻组织样本采用珠粒搅打(bead-beating)技术水解细胞被均化。溶解产物被负载到硅旋转过滤器上。在瞬时旋转期间,DNA选择性结合到硅膜上而污染物透过。剩余的污染物和酶抑制剂经冲洗步骤被除去。纯净的DNA被洗提到被鉴定的不含DNA的三羟甲基氨基甲烷缓冲液。
UltraCleanTM组织RNA试剂盒(Mo Bio Laboratories,Inc.)-
制备的新鲜或冷冻组织,在水解液存在情况下,采用组织均化器或研钵和研棒进行均化。RNA在硅膜旋转过滤器上被捕获而污染物经离心过滤透过过滤器。冲洗过滤器除去一些剩余污染物和盐。然后,RNA被洗提到被鉴定的不含RNase的水中(被提供)。RNA具有较高质量并且准备用于一些下面的应用中。
Wizard基因组DNA提纯试剂盒(Promega)-
Wizard基因组DNA提纯试剂盒被设计用于从血液细胞、组织培养物和动物组织、植物组织、酵母、革兰阳性菌和革兰阴性菌中分离DNA。Wizard基因组DNA提纯试剂盒是以四步方法为基础的。提纯方法中的第一步水解细胞和核。为从血液白细胞中分离DNA,这步骤设计水解细胞水解液中的血液红细胞,随即水解血液白细胞和核水解液中的细胞核。RNase消解步骤可同时包括在内;它对一些应用是非必须的。然后,通过盐析步骤除去细胞蛋白,析出蛋白但在溶液中剩下高分子量的基因组DNA。最后,浓缩基因组DNA并经异丙醇沉淀脱盐。
SV全部RNA分离体系(Promega)-
SV全部RNA分离体系提供了从组织、细胞培养物和血液白细胞中快速简单制备纯化的和完整的全部RNA。该体系加入直接在微型柱的膜上处理DNase的步骤。提纯为没有使用苯酚情况下进行:氯仿萃取或乙醇析出,并且在最终RNA制备中没有DNase携带(carryover)。
RNAqueous技术(Ambion,Inc.)-
RNAqueous试剂盒能被用于从许多不同组织和细胞中提纯全部RNA。细胞和组织在硫氰酸胍溶液中被裂解;该裂解剂有效水解细胞和不活泼的内生核糖核酸酶。然后,用乙醇溶液稀释溶解产物并将其应用于RNA结合玻璃纤维过滤器。蛋白质、DNA和其他污染物在三个快速冲洗步骤中被除去,然后洗提浓缩形式的结合型RNA。
核酸分离自动装置
除了上面描述的那些方法,一些厂商(例如,PSS BIO Instruments,Roche Diagnsotics,Qiagen,Caliper)制造小的(benchtop)和/或高生产能力液体处理自动装置和相关试剂,该试剂能代替上面描述的手工方法被采用。在一种优选实施方案中,一种或一种以上这种自动装置和其相关试剂将用于自动分离后续加工(背景排除和扩增)用的核酸。
靶点扩增
因为获得具有足够量的病原菌核酸的样本存在困难,出现了一组采用微阵列检测病原菌的技术挑战。因此,对于多数样本类型,一些类型的扩增将可能被要求提供病原菌基因标记的足够拷贝用于微阵列杂交检测。作为微阵列准备步骤,多重PCR实际上被限制在十个不同引物对,不是数千个,引物对的数量增加导致假扩增子数量改变。然而,当标记扩增子被要求杂交到阵列表面的特异性探针上时进行分析,假扩增子经微阵列试验不能被检测出(Chizhikov et al.,2001)。
多重PCR
保守(简并)多重PCR减少特殊的PCR方案产生的系统偏差,该PCR方案设计一系列被筛选出的引物以保守区为靶点,保守区位于被探试到的基因物种特异性可变区的侧翼。在本发明的实施例中,对E1A、纤毛、和六邻体基因已经进行了说明;然而,技术人员可扩大这个策略以任何基因为靶点,这些基因跨广谱物种为保守的,但仍具有物种特异性可变区。为了这个目标,候补基因和特异性区域(保守和可变区)能很容易经过全部或局部同源搜索被鉴定出(例如,序列分析)。
申请人描述了下面筛选靶点的常用策略和引物设计:
如这里使用的,术语“引物”(和通常在本领域中能被理解的)统指在催化合成多聚核苷酸互补引物扩张产物的条件下,能起到沿着互补链多聚核苷酸合成的起始点作用的寡核甘酸。典型的多聚核苷酸合成条件包括在适当的缓冲溶液(“缓冲溶液”包括取代物,这些取代物为辅助因素,或其它影响pH、离子强度的物质,等)中,适宜的温度下,存在四个不同核苷三磷酸或核甘酸类似物和催化聚合作用的一种或一种以上的酶(例如,DNA聚合酶和/或逆转录酶)
为了方便特异性PCR反应、扩增引物一般从13到25个核苷酸范围变化,优选从20到25个核苷酸。为了便于杂交,引物的核苷酸序列一定与靶点有充分的序列互补性。尽管互补程度将很大部分取决于引物长度,互补程度一般至少为80%,优选至少90%,更优选至少95%。
对于随机PCR方案,优选引物长度从6到10个核苷酸。序列将包括六聚体(26置换)到十聚体(210置换)的所有取代。
对于“原型”区域设计,优选方案将具有保守引物,该引物位于靶点基因可变区的侧翼。这个是腺病毒的RPMV1中的方案并且被本发明者用于流行性感冒A(采用流行性感冒A片段的保守3′和5′末端的血球凝集素(HA)、神经氨酸酶(NA)和间质(M)。这个概念能延伸到任何大量病原菌类型,因为高度保守区在实质上是普遍存在的并且能为那些序列设计简并引物。
当靶点不选作“原型”时,与原型区域对比,芯片上实际面积的量能很大程度减少。这些方案的目标不一定是鉴定特殊株物种或物种亚变种,而可以是允许足够的碱基响应来获得非模糊的统计学评估,从而证实序列对应于主体病原菌,但不对应于紧密相关的物种或无毒菌株。对于这种多重、较小靶点的芯片设计,设计和最优化被需要的大量特异性PCR反应是不可行的,并且全部扩增变为最佳扩增策略。
核苷酸或氨基酸序列的同源性、序列类似性或序列鉴定可采用已知的软件或计算机程序如BestFit或Gap pairwise比对程序GCG WisconsinPackage,Genetics Computer Group,575 Science Drive,Madison,Wisconsin53711)进行常规确定。BestFit采用局部同源性算法(Smith and Waterman,Advances in Applied Mathematics 2:482-489(1981)),来发现两个序列之间的等同性或类似性的最好片段。Gap采用先前描述的方法(Needleman&Wunsch,1970)执行全局分析:一种序列全部和另一种类似序列的全部。当采用序列分析程序如BestFit时,可采用缺省设置,或适宜的记分矩阵可被选择用于优化鉴别、类似性或同源性记录。类似地,当采用一种程序如BestFit来确定两个不同氨基酸序列之间的序列等同性、类似性或同源性时,可采用缺省设置,或适宜的记分矩阵,如blosum45或blosum80可被选择用于优化鉴别、类似性或同源性记录。
采用联合特异性PCR试剂可对靶点进行扩增,这统称为“多重PCR”。在这个策略中,RPM上所有靶点区域的PCR引物对被结合到一种反应混合物中。这是一种优选方法,一种或一种以上病原菌浓度很低以至于不能单独采用随机扩增策略检测出(下面描述的)。
随机扩增策略
不管与PCR扩增相关的灵敏性和特异性,固有偏差和该方法的限制高通量限制了下游微阵列应用的主要优势。如成功鉴别几乎完全依赖于适当的被选引物位,所有PCR测试需要关于污染有机体鉴别的先验知识。同样地,也必需先进的诊断系统,这个诊断系统能快速筛选出无偏差特定预期序列的临床和环境样本。微阵列检测的优势在于它能联合无偏差核酸扩增策略与后续的微阵列分析性能,导致高灵敏性、特异性和通量性能。
发明者已经通过使用可供选择的方法记录下上述问题并且观察到四个前端扩增策略:随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶和多重PCR反应(Vora et al.,2004)。
Klenow扩增-DNA聚合酶I的Klenow片段能用于采用随机八聚体寡核苷酸引物对进行靶点DNA未知序列的等温、随机扩增。对于本发明,能采用BioPrimeDNA标记系统(Invitrogen)进行实施。依据厂商提供的标记方案进行较小改动制得生物素化扩增子。这个方法一般在37℃下反应4个小时。Klenow扩增生成了一些高分子量的扩增产物,但大部分扩增子长度为50-450碱基对。同样地,这些扩增子适用于直接杂交DNA微阵列。
随机PCR扩增-随机PCR(rPCR)扩增子能采用来自Invitrogen BioPrimeDNA标记系统的2.5X随机引物溶液和10X dNTP混合物制得。反应组成典型包括:1XPCR缓冲液(Qiagen)、2.5mM MgCl2、1XdNTP混合物(含生物素-14-dCTP)、5μl 2.5X随机八聚体和5U Taq DNA聚合酶(Qiagen)。采用下列条件:94℃保持30秒、26℃保持2分钟、72℃保持1分钟,将扩增反应35轮。
29扩增-用随机六聚体采用TempliPhiTM100扩增试剂盒(AmershamBiosciences Corp.,Piscataway,NJ)实施等温Φ29 DNA聚合酶扩增。按照厂商提供的方案进行较小改动生成生物素化扩增子(14.4μl扩增反应包含0.4μl酶混合物和3μl350μM生物素-14-dCTP并在30℃下培养16个小时)。
大部分rPCR和Φ29 DNA聚合酶扩增产物太大以至于不能移进电泳凝胶(>1500bp)中。由于空间限制(Vora et al.,2004)较大扩增产物很难杂交到二维表面的固定探针上。因此,rPCR和Φ29 DNA聚合酶扩增产物用DNaseI降解缓冲液酶切得到扩增子尺寸相当于Klenow和杂交前多重扩增子尺寸。
串联扩增
病原菌靶点的增强灵敏性能联合上面描述的随机扩增策略而得到。串联[Klenow+Klenow]和[29+Klenow]串联随机扩增策略能比多重PCR提供给富集病原菌靶点更好的灵敏性。相同的随机扩增策略也能检测外加环境水样中的被诊断基因组靶点,该水样过量含有63倍的被污染DNA(Voraet al.,2004)。得到的结果加强了使用随机扩增方法和开始系统记录从环境资源中无偏差病原菌检测方法多功能性的可行性。
联合靶点富集和随机扩增
随机扩增方法导致非靶点DNA以及靶点DNA的扩增。因此,发明者在这里描述了在扩增之前富集病原菌诊断靶点序列的多种方法。这对于提高复合基质如临床(例如鼻腔冲洗液或咽喉拭子)或环境(例如,水、土壤、空气收集器)样本中分析物检测的灵敏性和/或特异性
复合样本(临床和环境的)包含显著性、绝大多数未知基因组和非主体基因组(非特异性背景)。减少非特异性背景的一种方法是让核酸接触酶过程,该酶过程选择性酶切背景基因组序列。该方法在下面的实施例中进行了描述。
减少非病原菌基因组含量的另一种策略是使用已知对有机体呈阴性的复合体系的背景基因组序列并且使用它直接除去背景基因组序列。这种“消减”方法能包括:(1)将背景基因组固定在固相表面如凝胶或玻璃珠上,随即用测试样本杂交来消减样本中的背景基因组。在杂交微阵列上靶点期间,也能采用未标记背景基因组来阻断非特异性结合功效。这种阻断方法具有一定优势因为它在试验期间不需要附加步骤。这两种方法在实施例部分中也进行了描述。
也能可供选择地或同时在随机扩增之前使用选择性富集病原菌靶点核酸的策略。从样本中直接筛选的一种可能性(阳性筛选)是使用固相靶点支撑物(磁性玻璃珠或凝胶基质)上的固定探针来选择性富集主体基因组靶点。实际上,固相支撑物上的探针在阵列上不能检测到的,因为它们将导致错误信号如果富集分子被运载出或无意被扩增。同样地,玻璃珠上的探针将通过邻接区域或稍微重叠分析物基因组区域来筛选微阵列上被查询的靶点基因组。如在探针序列和阵列上可被检测的分析物序列之间稍微重叠,那么被查询区域在电子分析期间应被遮蔽。如果预期富集探针与微阵列上序列是同源的,那么那些探针应被构成以至于不经过后续扩增,或制成对扩增之前的选择性酶切具有敏感性。如果有必要时依据样本属性和主体应用,可使用上面组合和其他策略。
可供选择的消减或富集方法
免疫沉淀反应是另一种富集病原菌核酸的方法。主体病原菌抗体能与临床样本混合,然后用抗IgG沉淀来减少病原菌,从而除去背景基因组DNA。当希望得到单个病原菌的相关特异性基因组特征时,如抗生素抗性标记物或有意遗传操作的指示剂,这将具有特殊重要性。
尺寸排除是另一种方法,通过该方法减少或富集病原菌DNA。示意尺寸排除法包括:梯度离心、柱、或离心过滤器单元。梯度离心或柱分离方法是耗时并且需要在实验室内特殊组装。使用“离心过滤器单元”分离高到低分子量物种不一致和通常回收率低。这些方法每一种都需要大量起始原料。其他的尺寸排除方法包括:流式细胞术或电泳方法,例如荧光激活细胞拣选法(FACS)或采用Agilent生物分析器中使用的特殊电泳芯片。
常规靶点富集和扩增策略
本发明者已经描述了从鼻腔冲洗液中消减“正常”人和微生物核酸的方法。这个相同原理也可应用于任何来源(临床的或环境的)的样本,核酸的代表性“正常”混合物能被收集、集中,并且制成消减试剂。
许多方法也能应用于富集病原菌或特殊靶点,该靶点在执行完全扩增策略之前被拼接到阵列上。这样一种方法将使用拼接在阵列上的固定变异体的序列。这些变异体将结合用于分离的固相成分(玻璃珠、基质,等)和在它们自己没有被扩增的情况下富集将被扩增靶点。制备对酶降解敏感的富集探针可以执行这个或它们可能由不可扩增的修饰核酸组成。
一种更优选的实施方案将利用识别序列的探针,该序列邻接靶点基因序列并且不在芯片的拼接区域上表示出。以这种方式,无偏差扩增策略中的扩增将不产生人为产物。
依据常规DNA测序技术被认为基础研究中全部信息收集过程的一部分,因此被描述的再测序方法被认为全部病原菌检测/表征方案的一种组成。Wang et al.(Wang et al,2003)描述的方法采用点样DNA微阵列,这种点样DNA微阵列由识别保守序列的较长寡核苷酸(70-mers)组成,保守序列在病原菌家族内。结合这些位点的靶点序列被分离并在常规DNA测序方法中使用进一步进行表征。以类似的方式,一种非常优选实施方案将涉及使用再测序阵列取代与可供选择的DNA测序类型有关的步骤,因此用几个小时内代替几天内提供出特异性病原菌特征并且启动了有效生物防御系统。
本发明的方法优选不使用特异性序列进行扩增(PCR)。本发明举例说明了富集病原菌核酸的供替换的方法,例如:在采用降低偏差,和等温(例如,随机引物Klenow或链置换扩增)扩增之前,使用固相支撑物分离载体分离。在一种优选实施方案中,常规实验室安装的技术人员采用一套最少自动化步骤执行微阵列试验,将能制备时间短和费用低廉的样本。在一种高度优选实施方案中,在本领域环境中的最低程度技术人员将能采用手持式仪器手动分离/富集病原菌靶点核酸并且用很少的试剂和技术步骤实施病原菌靶点的等温扩增。
背景消减后的扩增和杂交
除了随机RT-PCR使用的引物D:GTTTCCCAGTCACGATCNNNNNNNNN(SEQ ID NO:573),和引物E:GTTTCCCAGTCA CGATC(SEQ ID NO:574)(Kessler et al.,2004)之外,类似的,以前描述的引物(Wanget al.,2002),那些引物的变异体,和/或从RNA病毒(病原菌)合成第一种链的cDNA的随机引物(6-9mers)可被采用。可在第一种链cDNA合成后采用消减杂交方案,在复合样本(例如,临床或环境)样本经过一种或一种以上DNA扩增步骤之前,第一种链cDNA合成完全消减临床样本中背景DNA数量。
一种方法采用COT-1人DNA直接消减杂交溶液中的扩增产物(第一种链cDNA合成,然后全部扩增)的背景基因组DNA(大量由快速退火重复单元构成)。另一种方法是第一种链cDNA合成之后和DNA扩增步骤之前,从临床样本中玻璃珠消减背景基因组DNA。
第三个方法是联合上述方法。第一种链cDNA合成之后和DNA扩增步骤之前,采用玻璃珠消减将复合样本中的人基因组背景DNA消减。随后,采用设计用于选择性捕获人DNA和RNA的序列进一步消解杂交溶液中复合样本的背景DNA。DNA扩增可能针对在随机RT步骤中特定或非特定形成的扩增cDNA产物或经联合这些方法扩增两个特异性引物位标记的RT-PCR产物以及病原菌基因组DNA靶点和其他不来自随机RT-PCR步骤的非cDNA靶点。这样做的方法将一种特异性引物序列结合病原菌DNA基因组靶点(这个可能为与被采用附着于cDNA产物相同或为个别的引物),使单一PCR步骤扩增所有RNA和DNA病原菌靶点。
RNA消减
在使用单独加工处理路径检测RNA和DNA病原菌的地方可以使用下面的方法。为了形成RNA加工处理路径,外加临床(鼻腔冲洗液和咽喉拭子)流行性感冒A阳性样本采用不同的方法(随机、全体的、和多重PCR)进行处理。然而,采用随机扩增方法获得的可接受水平灵敏性,人信使RNA和核糖体RNA应采用MICROBEnrichTM试剂盒(Ambion,Inc.,Austin,TX)依照厂商使用说明书进行消减。根据先前描述的方法改进的优选的随机扩增策略可能被采用(Wang et al.,2002)。
经本发明者发现,经过采用这个方法,在浓度低至0.45-3.75pfu/150μL的16/19的不同培养物阳性Flu A鼻腔冲洗液和咽喉拭子样本中可进行H3N2检测和H1NlFlu A检测。可进一步确定的是,消减人RNA之后,低浓度范围内6/8的样本中可能检测Flu A。
采用随机扩增方法,在没有背景消减的情况下,流感灵敏性在鼻腔冲洗物中为约0.25pfu/μl(1ng/μl)。在临床样本中,没有消减情况下的灵敏性估计约为1-10pfu/μl。
DNA消减
DNA样本的随机扩增可采用抗菌素29 DNA聚合酶或者以前公开论文中改进的随机扩增方案(Wang et al. 2002;Wang et al.2003)进行实施。简要地说,利用抗菌素29 DNA聚合酶和随机六聚体的DNA扩增可依据GenomiPhiTM DNA扩增试剂盒(Amersham Biosciences Corp.,Sunnyvale,CA)的使用说明书进行实施。然后,扩增产物依据厂商推荐方案用乙醇进行沉淀。利用改进的随机扩增进行DNA扩增可能采用SequenaseTM version 2.0DNA聚合酶(United States Biochemical,ClevElAnd,OH),使用引物D,在第一轮DNA合成中进行实施,随即采用引物E进行PCR扩增。对于RNA扩增,病毒样本经改进版的随机PCR方案(Wang et al.2002;Wang et al.2003;Kessler et al.2004)进行扩增。简要地说,10μl全部RNA能通过采用引物D和superscript III反转录酶(Invitrogen Corp.Carlsbad,CA)进行反转录,然后采用引物E经PCR反应进行扩增。
RNA和DNA路径的会聚
RNA和DNA路径的合并在图9中进行了描述。在本发明的一种实施方案中,RNA和DNA路径合并在一起。这个方案根据加利福尼亚旧金山大学Joseph DeRisi实验室(http://derisilab.ucsf.edu/pdfs/Round A B C.pdf)进行改进并且随机将单一、固定序列PCR引物结合位点加入到所有病原菌DNA或cDNA分子中,采用常规PCR热循环方案使它们都在随后步骤中被扩增。
数据获得和处理
Affymetrix/微阵列设备
总的来说,“微阵列”为优选分散区域的线性或二维阵列,每一种区域具有确定面积,在固体载体表面上形成。微阵列上分散区域密度通过单一固相载体上被检测的不同靶点聚核苷酸的总数进行确定,优选至少约102/cm2,更优选至少约104/cm2,甚至更优选至少约106/cm2,仍更优选约108/cm2。如这里使用的,DNA微阵列为置于芯片上或用于检测和/或分离靶点聚核苷酸的其他表面上的寡核苷酸引物的阵列。因为阵列中引物的每个特殊基位点是已知的,靶点聚核苷酸的鉴别可基于它们结合微阵列中特殊位点来进行确定。
本发明的一种实施方案利用标准Affymetrix部件(Agilent GeneChipScanner(被淘汰的)和Affymetrix扫描仪3000 workstation和Fluidics Station450。原则上,被描述的发明不需要这个设备。用于定量基因表达和高置信度SNP检测的给定用途的GeneChip系统,现有的设备对于信号强度的动力学范围或本发明固有的背景干扰来说不是最佳的。因此,优选的实施方案加入了使用图像获取方法,包括使用空间频率过滤器和图像增强技术,利用特征维数固有规律性加强过滤算法(例如,边缘增强、卷积,等)更好对比于噪声图像。
Affymetrix CustomSeq方案
在本发明的一种实施方案中,样本处理通过采用标准AffymetrixCustomSeqTM方案完成。一般来说,这个方法需要:(a)扩增含DNA探针材料,(b)集中和测量扩增产物数量,(c)扩增产物片段法和标记,(d)靶点杂交,和(e)冲洗,着色和扫描被杂交靶点。Affymetrix CustomSeqTM方案的详细描述可在从厂商中得到的产物手册和方案指南中找到。
在标准的Affymetrix CustomSeqTM方案中,步骤(a)需要长程PCR或者短程PCR,长程PCR为优选扩增策略。对于这些扩增策略的每一种,厂商推荐的PCR DNA聚合酶为Taq变异体,AmpliTaq Gold DNA聚合酶(短程PCR)和LA Taq DNA聚合酶(长程PCR)。尽管厂商不特殊推荐,一些DNA聚合酶可用于步骤(a)只要被采用的DNA聚合酶为高保真DNA聚合酶。
为了推动DNA扩增步骤(a),标准的Affymetrix CustomSeqTM方案采用特异性PCR引物。然而,特异性PCR引物的使用显著性限制了发明技术的广泛应用由于引入系统偏差,该系统偏差由迄今已经采用的特异性PCR方法产生。因此,在本发明步骤(a)的一种优选实施方案中,AffymetrixCustomSeqTM方案由可供选择的扩增策略取代,如多重PCR、全部扩增(GenomiPhiTM),或随机RT/PCR。这些可供选择的策略在上文中进行了描述。每个厂商推荐的PCR策略的最佳PCR扩增条件,以及本发明的优选策略,能通过技术人员进行的常规试验进行确定。
因为PCR反应之间存在可变性,Affymetrix CustomSeqTM方案陈述了试验性能可大大降低如果杂交中扩增子浓度改变大于两倍。因此,Affymetrix CustomSeqTM方案的步骤(b)需要集中PCR反应并且分光光度法定量确保等摩尔样本应用于微阵列
然而,本发明得到了超过Affymetrix CustomSeqTM方法的SNP检测定制的方案的一些优势,在本发明中使用具有序列长度无关类似性搜索(BLASTN)的高密度芯片提供了在筛选拼接用序列之前必须做出较少假设。此外,使用长度无关类似性搜索(BLASTN)除去了特殊的已知子序列成功再测序的限制,使该方法对靶点浓缩物中的变异体更具有抗性和非特异性结合的影响导致失去碱基响应。因此,在本发明范围内,AffymetrixCustomSeqTM方案的步骤(b)是非必须的并且可被省略。
在DNA扩增之后,得到的DNA分子太长以至于不能与阵列表面的短探针进行杂交。因此,Affymetrix CustomSeqTM方案的步骤(c)涉及片段法和后续用荧光物质标记片段。该方法和片段法试剂和标记没有特殊限制;然而标记必须与再测序微阵列的检测仪器兼容。为了这个目的,厂商推荐的试剂和条件可能被采用。
Affymetrix方案的可供选择的改变
荧光标记可能有利于这里描述的方法,因为这些为常规使用自动化使用仪器同时高通量分析多个样本,包括Cy荧光团,罗丹明荧光团:TARAM、ROX、JOE、和FAM;BigDyeTM荧光团(Applied Biosystems,Inc.)、丹磺酰基、荧光素和取代荧光素衍生物、吖啶衍生物、香豆素衍生物、金色染料、四甲基若丹明、Texas RedTM、9-(羧乙基)-3-羟基-6-氧代-6H-氧杂蒽、DABCYLTM、BODIPYTM、和ALEXATM荧光素(分子探针,Eugene,Oregon)。
此外,有许多标记而荧光团,荧光团将适合并且或许在许多情况中更优选。这些标记物包括,但不限于:共振光散射(RLS)颗粒(InVitrogen,Carlsbad,CA)、量子点(Quantum Dot Corp.)和其他具有预期光学性质的纳米级颗粒。
靶点杂交(步骤(d))可能按照Affymetrix CustomSeqTM方案中描述的执行。这个步骤重点部分是含有片段和标记DNA的样本经高温(例如,85-100℃,优选95℃)培养变性,随即进行杂交温度(如,45℃)平衡。一旦含有DNA样本平衡,样本用于再测序阵列。厂商推荐实施杂交反应16个小时;然而,如上述陈述的,本发明的方法不使其性能依赖于提高灵敏性来产生适宜的碱基响应。因此,较短的培养时间适于靶点杂交。在本发明的背景中,靶点杂交培养时间可从15分钟的短时间到24小时的长时间范围内变化。很明显,希望这个范围时间包含每个间隔时间仿佛它们被明确规定一样。值得注意的优选时间为15分钟、30分钟、1个小时、2个小时、4个小时、12个小时、和16个小时。
Affymetrix CustomSeqTM方案的最后步骤需要使用Affymetrix FluidicsStation冲洗被杂交的阵列并且采用Agilent GeneArrayTM扫描仪进行扫描。这个仪器简单自动化了将手动执行的标记和冲洗步骤。因此,将能够时控输送和收回毫升量的标记物和冲洗介质一些仪器将适合供选择。这里描述的本发明将用于一些Affymetrix提供的后续硬件改变。此外,从这里描述类型的再测序微阵列中获得数据可从一些制造商的微阵列处理设备中得到。
关于病原菌检测的生物信息学问题
依赖于用于病原菌微阵列检测的终点,生物信息学问题的重点是非常不同的。生物信息学工具对有效设计和筛选出微阵列形成的特异性互补核酸探针序列是不可缺少的。例如,靶点病原菌基因组核酸序列通常在微阵列分析之前被扩增并且生物信息学很明显在引物设计(评估Tm/Tn,二级结构,自身互补度,和特异性问题)用于分析试验对有机体和菌株具有特异性基因中起作用(Kampke,Kieninger&Mecklenburg,2001)。这些相同分析测试也必须适合于微阵列探针设计。
在实验设计的初始阶段期间,假设与靶点病原菌相关的遗传信号的引物和探针对那个病原菌或病原菌家族具有特异性。应了解,扩增子的生成或使用特殊设计的引物或探针进行的阳性杂交反应将分别说明靶点病原菌的指定分子特征的检测;然而,这不必要是正确的。细菌和病毒遗传混乱,微生物倾向于交换遗传物质,造成单一物种或菌株特异性探针形成中的困难(Ochman,Lawrence&Groisman,2000)。因此,优选引物和探针设计方法学需要使用生物信息工具来:(a)在不同有机体或菌株之间执行多重序列分子并且设计适当的具有示意生物学性质的引物,(b)将这些序列与注册在序列数据库中那些序列进行比对来确定特殊序列的唯一性和交叉反应的电位,和(c)推断出基于遗传保守水平的靶点特异性的概率和主要遗传序列仍没有被阐明的其他病原和非病原物种遗传相关性。
公开发明的一种非常重要的生物信息学方面涉及组合、注释和输入到微阵列中数据库的病原菌诊断靶点的筛选,以及微阵列上相关探测这种数据库的伴随任务。本发明的一种优势为公共用数据库中的信息正在提高,因此进一步提高了本发明的稳健性质。本发明描述了从公开发表的文库中(例如,GenBank)中自动筛选病原菌靶点序列的方法和/或确定公开发表的文库中经验辨别的诊断靶点序列的方法。描述的方法具有联合科学家们的优势,大量病原菌种中每一种类的的处理专家能提供相关病患菌诊断信息,将这些信息掺入到自动阵列设计方法中,不特殊考虑特异性探针、试剂、扩增、和样本制备方法。
在一种非常优选的实施方案中,大量不相关病原菌中的每一种的必备领域知识将经网络门户数据库保持最新技术。因此,影响深远的团队,由特异性病原菌单个研究员构成,将能够通过″pathogen page″格式网络门户提供最新注释靶点序列信息,类似于细胞信号传导联盟(AfCS)采用的″molecular page″样式。AfCS数据库保持着包含在分子内信号转导体系中的数千个分子上的不可理解数量的特异性信息。以这种格式,没有单个信号转导分子特殊知识的单个研究者能使用详细的参数,这些参数能在信号转导数值模拟中使用。因此,在另一种非常优选的实施方案中,单个病原菌的注释靶点序列数据被安排在自动化数据管道内,其中将在病原菌数据库全部信息内容之上加强用户自定义设计限制(例如,探针特征数量、病原菌靶点数量、阵列实施要求的灵敏性和特异性水平,等),允许自动化,最优化靶点筛选,并且将这些靶点以微阵列制备必要格式提交给供应商。
在又一种非常优选的实施方案中,由先前方法确定的被筛选靶点序列将与微阵列实际使用中收集的数据有关。使得概率和质量的度量将用于判定。实施这种自动化流水线数据和算法的两种优选方法为VIBE (可视化集成生物信息学环境)软件(Incogen,Inc.,Williamsburg,VA)和iNquiry(BioTeam,Boston,MA),这两种软件代表一类集成生物信息学环境,两种软件相对于该用途具有相同的效果。
数据获得-
再测序微阵列芯片的原始序列数据由与Affymetrix微阵列阅读器一起包装的遗传数据分析软件version 2.0(GDAS)提供。
Affymetrix再测序阵列包含规定数量的探针细胞或部件。在扫描期间,软件将每个部件分为亚单位方块或像素(3x3μm)。每个部件包含规定顺序的独一无二的25个碱基寡核苷酸探针的许多拷贝,然而一系列的八个部件查询已知参考序列中的特异性位点。四个部件询问正义链并且包含一些探针,这些探针除了中心碱基是A、C、G、或T之外是同源的,四个部件查询反义链并且包含一些探针,这些探针除了中心碱基是A、C、G、或T之外是同源的。
GDAS使用细胞强度数据来生成再测序阵列上表示的每个碱基位的碱基响应。在GDAS的厂商设定下,算法采用多重样本中的强度数据来提高碱基响应的精确度并且为每个响应分配质量得分。
GDAS碱基响应是基于先前描述的碱基响应算法,ABACUS,在(Cutleret al.,2001))详细进行了描述。该模型假设,特征的像素灰度是独立的并且正常分布的。该算法计算出估计平均背景和正义链和反义链特征的改变。碱基响应算法也拟定样本(单倍体或多倍体)中存在或缺少的不同基因类型的模型。许多碱基响应算法参数能由用户(GDAS操作手册/用户指南,Affymetrix)确定而获得碱基响应百分比和精确度之间的平衡。
关于GDAS的算法和能被修改的参数的补充说明在GDAS用户手册中能够找到。参数的描述在GDAS 2.0版手册中的第207-217中能找到。推荐(缺省)的GDAS设置是集中于最高水平精确度的“保守性”设置。相反,本发明的目标是为了提高碱基响应的百分率。为了达到这个目标,本发明者调整了参数允许如下面列出的高度许可碱基响应(提高百分率):
“许可”碱基响应算法设置-
-过滤器条件
·无信号阈值=0.500(默认值=1.000000)
·弱信号倍数阈值=20000.000(默认值=20.000000)
·大信噪比阈值=20.000000(默认值=20.000000)
-算法参数
·链质量阈值=0.000(默认值=0.000000)
·总链质量阈值=25.0000(默认值=75.000000)
·杂合子响应的最大值=0.99000(默认值=0.900000)
·模拟类型(0=杂合子,1=纯合子)=0
·完美响应质量阈值=0.500(默认值=2.000000)
-最终可靠性规则
·临近探针响应的最小值=1.0000(关闭过滤器)
·样本响应的最小值=1.0000(关闭过滤器)
上述设置在本应用中是重要的,因为通过默认牺牲生成的碱基响应数量目的为了生成最精确响应(例如,信噪比检测)建立起碱基响应算法。在本发明的应用中,该技术很少关注于获得信噪比检测要求的相同程度的精确度而代替的是扩大生成响应的数量使得经GDAS制备出最长段的邻接序列而保持必要特异性。
可以理解的,在本发明界定的范围内,上述列出的许可设置能个别改变或按照执行者的需要全部改变来获得最佳灵敏性/特异性协定。此外,可以理解的,上述设置是示范性的并且在没有改变本发明预期结果的情况下,每个设置可改变10%或更多(随参数而定)。
再测序病原菌辨识器(REPT)和备选、修改、研制
也依据本发明,它为来自碱基响应算法的序列信息,如应用于微阵列杂交模式,微阵列杂交模式用于鉴别单个病原菌。优选地,经再测序探针确定的靶点序列用于采用类似性搜索算法查询数据库。更优选地,该算法通常采用已使用的局部分析(例如,Smith-Waterman,BLASTN)序列分析算法来统计学上确定给定靶点序列对应于数据库记录中的特异性序列的概率(Korf,Yandell Sc Bedell,2003)。甚至更优选地,自定义算法确定了最适用于针对数据库记录产生有意义类似性搜索的子序列,数据库记录确定出自动提呈给类似性搜索的一套序列。然而,甚至更优选地,自动子序列分析算法为在本发明中描述的再测序病原菌辨识器(REPI)算法并且该序列数据库记录将存在于公众领域(例如,GenBank)和私人领域中。核酸序列类似性搜索算法的变化适合于在指定发明中使用,包括,但不限于华盛顿大学BLAST(WU-BLAST)、NCBI-BLAST、FastA、MPsrch、Scanps、和BestFit(Korf et al.,2003)。
REPI备选和变异
在描述的发明中,REPI(再测序病原菌辨识器)软件(参见,2004年9月15日提出的美国申请Serial No.60/609,918,和2004年11月29日提出的美国申请Serial No.60/631,460)被用于确定CustomSeq/GCOS/GDAS过程的碱基响应子序列将可能通过使用自定义滑窗算法返回显著性BLAST结果。随后,REPI自动返回BLAST输出给终端用户,随机安排对应于特殊微生物序列的给定碱基响应的可能性。低水平软件功能性类似于UNIX“核心”或UNIX计算机操作系统,因为所有较高水平功能和用户界面必须通过它进行再测序芯片分析。
REPI提供的低水平功能性将成为许多较大生物信息学任务的中枢,较高生物信息学任务将利用核酸的分散片断,或甚至氨基酸序列。在下列实施例中,本发明者提供了显示序列片段能自动连接单个病原菌的数据。在一些更优选的实施方案中,这种方法能被精确至病原菌混合物之间和病原菌之间的遗传重组之间进行更好地分析。在一种非常优选的实施方案中,分析软件将考虑自动检测在阵列的不同拼接区域上的重叠或同源序列片段,推断出病原菌的混合物。在一种甚至更精确的实施方案中,分析软件将确定不同拼接区域的序列输出,这些拼接区域不重叠但对应于可用于推断遗传重组发生的邻接序列。
例如,两株病毒的交叉传染可能产生基因重组,这个基因与病毒株除了5′端之外是同源的,所述5′端用另一种病毒株基因的对应部分取代。当这个新重组病毒基因组在再测序微阵列上被杂交,从相应的两个区域的产生信号。将需要自组装算法来构建显示出所有部分结合在一起形成完成靶点的病原菌模型。如果两个具有显著性重叠部分,可断定可能存在混合物。但如果没有重叠部分,将存在重组的可能性。重叠的程度(或缺乏重叠)将受到低浓度靶点和相对较小量的被填充拼接的影响。同样的原理甚至更容易应用,并得到更大的影响,在病毒上重组稳定并重复发生,如在流行性感冒中,病毒片断之间的重组规律性导致新病毒株的形成。事实上,这个被描述的REPI功能性将成为辨别病原菌混合物对重组的基础。
在另一种非常优选的实施方案中,REPI算法将考虑分析转录标记物(例如,RNA),这种转录标记物采用目前描述的类型微阵列进行再测序(经RNA杂交或互补cDNA)。在类似于上述描述的推论基因重组发生的方法中,转录序列也可被组装来确定病原菌存活能力和能作为传染标记物的转录编辑结果。
另一种REPI备选(估计样本中病原菌靶点数量)
不仅是本发明的方法能够在病原菌混合物和给定病原菌(本文中的别处描述的)范围内重组之间区分,它也将很有价值地提供给终端用户在再测序微阵列试验中被检测出的相对量病原菌的评价。尤其是,当病原菌基因组信号被检测出,临床医生(技师)指明原因和功效时,这将具有重大效用。
两种类型的数据可用于这个目的。首先是芯片上杂交的绝对强度。溶液中靶点的量和实际杂交的量和生成的信号之间存在非线性关系。然而,样本中靶点核酸量的评估可能经比对空白条件下制备的标准曲线来得到。信号强度数据容易从Affymetrix数据结构中的.CEL文件中得到,并且尽管.CEL文件内容在这个公开中没有使用,REPI的输出能容易修改包括.CEL文件的强度值。第二,碱基响应的百分率,如全部拼接区域尺寸的百分率和如筛选的满足滑窗算法的子序列范围内碱基响应的百分率,能用作浓度的测量。我们的结果显示出两种百分比度量随着靶点浓度降低而降低,尽管正确病原菌仍能被鉴别出。
病原菌检测的一般用途
在一种优选实施方案中,这里描述的本发明将用于病床装置(床上或床旁)中常见呼吸病原菌的常规诊断和监视。易于得到的样本(例如,鼻腔冲洗液、鼻腔拭子、咽喉拭子、唾液、或血液)将以简单方式进行处理来生成核酸分离,采用吸附法分离核酸,富集病原菌特异性靶点,采用无偏差(或全部)扩增法或多重PCR方法进行扩增,并且在洗涤和成像之前,在再测序微阵列上杂交最少时间。全部过程足够简单使得技术人员(普通医学技术人员)将能够在没有重大中断情况下以常规工作模式执行该试验。碱基响应将采用自定义算法或采用开发商指定的步骤来生成。REPI或其一些变异,将用于自动分析由微阵列生成的碱基响应,并且提供终端用户(例如,医师、疗养院、公共卫生官员、或其它决策者)传染性病原菌管理质量信息决定(例如,诊断、处理、  预见和爆发控制/污染测量),这些传染性病原菌成为疾病综合症和并发症的原因。这个分析将经使用嵌入式序列数据库而局部发生,嵌入式数据库经REPI被查询(例如,局部专有BLAST服务器)。除了提供常规诊断动能之外,微阵列也将携带标记物给高度不可能(例如,生物恐怖行动)病原菌,这种高度不可能病原菌将成为连累其他如公共健康官员的原因。然而,可以理解的,鼻腔冲洗液或咽喉拭子不可能成为生物恐怖试剂诊断的最佳样本类型并且可能需要分离样本类型。
同样在本发明界定的范围内,进一步证实了利用微阵列和本发明的方法,包括:
细节1:
患者借助T>100.5医学器械并具有呼吸道病症。取出鼻腔冲洗液和/或咽喉拭子。能通过这种路线鉴别的病原菌包括常见发生的病原菌,列在表1中。发热已经发现成为经培养分离呼吸病原菌重要标准并且文献证实在发热期间,病原菌浓度一般为峰值浓度。
对于生物恐怖试剂,文献中可利用的关于生物试剂集中释放之后,在呼吸分泌物中传染性滴度的信息很少。令人怀疑的是,气雾释放生物恐怖试剂在接触后的第一个24小时内将导致可检测滴度的生物体。在接触后的第一个24小时内的个体中,微阵列将适合鉴别常见病原菌的目的,这些常见病原菌可能被错误的怀疑为来自BT/BW试剂。接触显著性气雾释放的一部分个体将迅速显示出症状并且将在鼻孔中保留检测用的BT/BW试剂。对于疾病,例如天花,症状发作的潜伏期是比较长的,但病毒能从咽喉培养物分离出几天。
细节2:
个体已经病了几天并且最初不去门诊部,而选择自己用药医治。患者可能最初没有注意到发烧,但现在已经发烧并且有呼吸病症,担心不退烧。保健医生(HCP)察看患者并且确定适当的临床样本。如果患者显示出更严重,那么可进行胸透X-ray观察。引发较低呼吸道传染的常规有机体包括,但不限于:肺炎支原体、肺炎双球菌、肺炎衣原体、嗜肺军团菌、化脓性链球菌、流行性感冒A/B、RSV、副流感、金葡菌属、SARS。在关注的BT/BW试剂中,不正常的胸透x-ray能发现炭疽芽孢杆菌、天花、鼠疫杆菌、土拉热弗朗西斯菌。
对于常见呼吸道生物体,鼻腔冲洗液/咽喉拭子仍是适宜的样本技术,尽管一些从业者选择发送唾液样本。对于BT/BW试剂,唾液和血液是适宜的样本技术。
细节3:
正在爆发的已知试剂。微阵列能连续用于检测其他常见病原菌,但也可用于采用一些类型的适当样本筛选已知BT/BW试剂。其他的试验可能证明很便宜,但微阵列在病原菌鉴别的同时能提供法医信息和抗生素抗性数据
全面商业模式
再测序DNA微阵列和相关装置(包括其他类型的低容量微阵列或可供选择的序列探测器)将仅为一类综合病原菌诊断/监视系统的元件。这个系统将由诊断、信息学、流行病学成分构成。在诊断水平上,RPM(和辅助设备)将提供快速费用低廉的方法来提供传染性呼吸疾病的诊断、患者特殊治疗信息和预后信息(基于毒力和抵抗力标记)。这将表现出临床猜测的相应病症的一种或一些病原菌(例如,肺炎支原体和其他具有“步行性肺炎”表象的病原菌将通过获得细菌培养物进行测定,存在那种病原菌抗体,等等)诊断重点的改变和通过多重DNA微阵列实施以症状和器官系统或受影响系统为基础的不同测试。单一高度多重DNA阵列将附加地提供关于病原菌组群的诊断信息来治疗(例如,细菌,病毒,寄生虫,和真菌病原菌),通过减少因猜测因果剂而开出的药方的数量(例如,针对病毒性呼吸感染开出的抗生素将不起作用)产生丰富利润。附加的诊断应用可包括影响器官或器官系统(例如,呼吸系统、泌尿生殖系统、中枢神经系统,等)的所有病原菌,综合征(例如,在没有鉴别原因来排除所有潜在传染性疾病诱因的情况下,医院内评估的持续两周且原因不明的发烧),症状(例如,引发风疹或发痒皮疹,或咳嗽等的所有病原菌),四周收集地理位置存在的病原菌或威胁,或功能类别(例如,以耐抗菌剂的所有有机体为基础分组或其他受限定位像监狱或疗养院)。高度多重不同诊断测试将通过确定传染病病因、药剂抗菌感受性、和关于药剂性质的基因组序列特异性线索来实施,使得有大量机会被确定来提高临床治疗的功效和效率。
然而,因为进行大量特异性分子查询,大量病原菌被发现,每种具有先前难以达到的详细水平。同样地,作为现在正在与诊断同时执行的“监视”活动的一部分,避免需要通常要求临床水平的繁重且花费大的任务用于监视支持,大量试验(培养、按血清分类,和PCR确认)被随后和偶尔实施。这将与以某种方式对RNA病毒(例如,流行性感冒和SARS)变异体诊断和监视密切相关,当取决于特异性寡核苷酸探针位点时,这种方式将相当复杂。
在这里描述的特殊实施方案中,拥有诊断微阵列将高度有利,微阵列的制备将不取决于大量靶点序列的可利用性和采用它们制备阵列的方法。更重要地,不限制靶点序列是不变的假设是关键的。在没有要求重设计特异性寡核苷酸探针和阵列重新制作的情况下,DNA微阵列的诊断将鉴别特异性但非预期的模式病原菌基因组变异体。对于表征传染性疾病以时效性方式暴发的能力是关键性的。例如,在没有要求分离病原菌,进行培养,和采用常规方法测序的情况下,这种微阵列能用于快速检测出流行性感冒或SARS病毒的新型变异;如果病原菌是容易培养的,这个过程将需要几个星期到几个月时间。
本发明也包括监测病原菌混合物的应用,尤其当没有初步证据说明提示该混合物可能通过特异性试剂(例如,PCR引物)进行问诊。因此,本发明提供了一种方法来影响确定疾病病原学中影响病原菌的互补作用的能力。然而,在应用中例如病毒或细菌原种质量控制和病毒疫苗生产的评价,涉及本地株的内部混合物和生成重组的可培养病毒。从而,本发明能够提出疫苗功效的正确适宜表位。
该系统的信息学组成将提供必要组成来实施局部(床旁诊断)、自动化微阵列数据分析以及协同多方向信息传递。“上游”流信息将从再测序芯片,优选以FASTA形式,和所有相关局部处理结果,转移特异性序列碱基响应到地方、区域、国家和国际水平。信息的“测流”将涉及特异性序列碱基响应地交换和其他局部床旁医疗设备的相关局部处理结果。“下游”流信息定义为区域和地方卫生部门的国家级数据集成。
像临床样本,环境样本可包含少量的来源不明的高度基因组背景中的靶点核酸。但不像给定类型的临床样本,环境样本(例如,土壤,水,或气溶胶粒子收集器中收集到的)中发现的背景可能显示出取决于地理位置、季节、和环境条件的异质成分。因此,上述提到的扩增、富集和/或消减策略可用于获得可靠的碱基响应。
法医和环境应用
RPM提供的详细序列信息的数量将能用于多种应用除了医疗诊断和监视。因此,该设备性能扩展到特异性病原菌株的法医指纹识别。这种性能实现了传染性疾病病因学的预先诊断,作为确定诊断分析的可供选择的常规工作。在有意传染、投毒、或生物恐怖活动的事件中,再测序病原菌检测微阵列将考虑用于详细的菌株识别来确定事件的可能主因和通过实施公共卫生防范措施迅速缓解事件(例如,确定传染性能力,抗微生物抗性,或对有机体的基因工程改变),作为疾病发作研究过程的第一步,直接鉴别菌株病原菌。
本发明进一步提出了自动化和最优化迭代和自适应设计、制备和确认阵列,包括派生的子阵列的方法和步骤。在一种非常优选的实施方案中,企业级、病原菌专家团队将操作支持web portal数据库。该团队将具有鉴别和毒力的病原菌靶点序列。
本发明中描述的同一技术能用于非临床样本,包括从空气、水、土壤或表面拭子收集的样本。本发明中描述的进行必要的修改对于核酸提取和背景核酸的除去是必要的,如果消减方法随后进行遗传扩增是理想的方法。
人群中多重病原菌监视
本发明进一步提供了一种特殊执行,这种执行验证了其在现实操作设置中的能力。这个执行是关于急性呼吸疾病的流行性爆发,这种急性呼吸疾病包括常见和不常见病因学,而且同时评估在单独作用中恶意病原菌的可能表现(纵使有也是罕见的)。因此,发明提供了执行导致传染性发作的多数具有传染性病原菌的近实时监视的方法。这种监视可被验证并最终变成在“现实实验床”上进行操作。在一种优选实施方案中,现实实验床为人群,这种人群规律性地遭遇许多呼吸病原菌。在一种优选实施方案中,人群由部队人员构成。在一种优选实施方案中,人群由现役军人构成。
终端用户具体应用
微阵列设计和试验的综合过程将仅需要将序列提供给微阵列厂商,不涉及辅助试剂(例如,特异性PCR用的辅助试剂)。因此,终端用户不具备基因组的详细知识,将能够确定微阵列试验的定性作用,并且自动化生物信息学流水线将用于筛选提呈给再测序微阵列厂商的适宜靶点基因子序列。这将使用于特殊地理位置战区的新颖微阵列设计迅速发展。因此,本发明综合的设计/分析能力将普遍适用于除这里列出的其他想象到的应用。
腺病毒序列-
本发明的另一种实施方案为十三株腺病毒的基因组序列,其在本发明日期时未知,。十三株腺病毒为:Ad3、Ad3FS_navy、Ad4、Ad4vaccine、Ad4FS_navy、Ad4FS_AF、Ad5FS、Ad7、Ad7FS_navy、Ad7 vaccine、Ad16、Ad1、和Ad21。这些基因组序列已经被指定了GenBank登录号,在实施例的表6中表示出。全部GenBank记录,包括部分注释,这些序列的每一种可在序列附表中找到。
如这里使用的“多肽”可被理解为是指一些肽键结合的氨基酸残基的序列。这种氨基酸在本领域中是众所周知的并且包括未修饰和修饰的氨基酸。此外,一种或一种以上本领域中周知的修饰如糖基化、磷酸化等可修饰多肽。
术语“分离的”意指从其自然环境中被分离出。这个术语是为了也包括术语“纯化的”(100%纯净)和“大体上纯化的”(至少90%纯净)。
术语“聚核苷酸”一般统指多聚核糖核苷酸和多脱氧糖核核苷酸,并且能表示未修饰RNA或DNA或修饰的RNA或DNA。
如这里使用的术语“同源的”可理解为意指两个或多个聚核苷酸或同一物种或不同物种的蛋白之间的序列类似性。在这个术语的含义内,依据本发明,当候选序列的核苷酸碱基(氨基酸)组成至少70%,优选至少80%,最优选至少90%对应于该序列时,上述两个或多个聚核苷酸(或蛋白质)是同源的。依据本发明,“同源蛋白质”可理解为保持至少50%,优选至少75%,更优选至少85%,最优选至少95%的本发明序列的活性。如这里使用的“对应”可理解为对应氨基酸或者是同样的或者是相互同源的氨基酸。表达为“同源氨基酸”表示具有相应性质,尤其关于其电荷、憎水性、位阻性质等。相同命名法能用于描述编码相应蛋白质的基因序列的DNA或RNA序列同源性。
在这里使用的术语“同源片段”可理解为来自同一种类或不同种类的两个或多个聚核苷酸或蛋白质。在上下文中,可预期的是,当这个片段与具有至少50个氨基酸的片段至少40%同源,那么这个片段是同源的。更优选的,同源片段与具有至少50个氨基酸的片段至少60%同源,至少70%同源,至少80%同源,至少90%同源,或至少95%同源。因此,同源片段包括在本发明的范围内。对于同源的聚核苷酸,可以理解的,相同同源性范围在本发明的预想之内但超过1000个核苷酸的范,包括所有整数(例如,150、250、300、500、750,等)。
同源性,核苷酸或氨基酸序列的序列相似性或序列同一性可采用已知软件或计算机程序如BestFit或Gap成对比对程序(GCG Wisconsin Package,Genetics Computer Group,575 Science Drive,Madison,Wisconsin 53711)常规确定出。BestFit使用Smith和Waterman的局部同源性算法(Advances inApplied Mathematics 2:482-489(1981))来找出两个序列之间的同一性或相似性的最佳片断。Gap采用Needleman和Wunsch的方法(the method ofNeedleman and Wunsch,J.MoI.Biol.48:443-453(1970))执行全局分析:一种序列的全部和另一种相似序列的全部。当采用序列分析程序如BestFit,确定序列同源性、相似性或同一性的时候,可采用缺省设置,或者适当的记分矩阵可筛选最佳同一性、相似性或同源性分数。相似性,当采用程序如BestFit确定两个氨基酸序列之间的序列同一性、类似性或同源性时,可使用缺省设置,或者适当的记分矩阵,例如blosum45或blosum80,可筛选最佳同一性、相似性或同源性分数。
本发明也关于包含完整基因的聚核苷酸,通过开放阅读框鉴别出该完整基因。在序列附表中可找到包括在本发明内的优选基因的实施例包括E1A、六邻体、和纤毛,以及本发明范围内的其他优选聚核苷酸序列。本发明也包括上述基因片段和聚核苷酸和其片段,聚核苷酸和其片段能通过用探针杂交相应基因库进行筛选而获得,该探针包含上述寡核苷酸或其片段的序列,和上述DNA序列的分离物。
本发明也关于编码DNA序列,该DNA序列由遗传密码的变性得到。此外,本领域中的技术人员也明白保守氨基酸取代如在蛋白质中丙胺酸取代甘氨酸或用谷氨酸取代天冬氨酸,如“同义突变”不导致蛋白质活性的任何基础改变,例如功能上中性的。也应知道,蛋白质N-和/或C-末端的改变大体上不削弱其功能,并且甚至可能稳定上述功能。
依据本发明的寡核苷酸序列适合作为RNA、cDNA和DNA的杂交探针,为了分离这些cDNAs或基因,cDNAs或基因显示出高度相似性探针序列。
依据本发明的寡核苷酸序列适合作为聚合酶链反应(PCR)的引物用于生产编码活性酶的DNA。
寡核苷酸如那些作为探针或引物,能包含多于30个,优选等于30个,更优选等于20个,甚至更优选至少15个,最优选至少13个连续核苷酸。长度至少40个到50个核苷酸的寡核苷酸也适合。
杂交方案在本技术领域中是周知的并且在如in Sambrook et al.,MolecularCloning:A Laboratory Manual,Cold Spring Harbor Laboratory,New York(1989)中进行了公开。然而,如这里使用的,严格杂交条件是在聚核苷酸之间进行杂交的那些条件,采用常规同源性程序确定的这些寡核苷酸为75%、80%、85%、90%、95%或98%同源的,常规同源性程序的一种实施例为Wisconsin大学的UWGCG序列分析程序(Devereux,Haeberli&Smithies,1984)。通常地,严格条件为,pH值为7.0到8.3时,盐浓度小于约1.5M Na离子,通常约0.01到1.0M Na离子浓度(或其他盐)并且对于短探针(例如,10到50个核苷酸),温度至少约30℃,并且对于长探针(例如,大于50个核苷酸),温度至少约60℃。严格条件也可外加破稳定剂如甲酰胺而得到。示范性低严谨条件包括在37℃下,采用30到35%甲酰胺缓冲溶液,1M NaCl,1%SDS(十二烷基硫酸钠)进行杂交,并且在50到55℃下,1X到2X SSC(20X SSC=3.0M NaCl/0.3 M柠檬酸三钠)进行洗涤。示范性适度严谨条件包括在37℃下,在40到45%甲酰胺,1M NaCl,1%SDS中进行杂交,并且在55到60℃下,在0.5X到1X SSC中进行洗涤。示范性严谨条件包括在37℃下,在50%甲酰胺,1M NaCl,1%SDS中进行杂交,并且在60到65℃下,在0.1X SSC中进行洗涤。
特异性通常为杂交后洗涤的功能,关键性因素为离子强度和最终洗涤溶液的温度。对于DNA--DNA杂交,Tm能接近于Meinkoth和WaM方程,(Meinkoth&WaM,1984):Tm=81.5℃+16.6(log M)+0.41(%GC)-0.61(%form)-500/L;M为单价阳离子摩尔浓度,%GC为DNA中鸟嘌呤核苷和胞嘧啶核苷酸的百分比,%form为杂交溶液中甲酰胺的百分比,并且L为碱基对中杂交的长度。Tm为在50%的互补靶点序列杂交到完美匹配的探针的温度(在规定离子强度和pH下)。每1%的错配,Tm减少约1℃;因此,Tm,杂交和/或洗涤条件能调整来杂交预期同一性的序列。例如,如果约90%同一性的序列被查询,Tm能降低10℃。通常地,选择的严谨条件比特异性序列热熔点(Tm)低约5℃,并且它的补体在规定离子强度和pH值条件下。然而,严格的严谨条件能在比热熔点(Tm)低1、2、3、或4℃下,进行杂交和/或洗涤;适度的严谨条件能在比热熔点(Tm)低6、7、8、9、或10℃下,进行杂交和/或洗涤;低严谨条件能在比热熔点(Tm)低11、12、13、14、15、或20℃下,进行杂交和/或洗涤。采用这个方程式,杂交和洗涤组合物,并且预期的Tm,那些普通技术人员将了解到,杂交和/或洗涤溶液的严谨条件的变化被描述出。如果预期程度的错配导致小于45℃(水溶液)或32℃(甲酰胺溶液)的Tm,优选增加SSC浓度使得较高温度能被采用。核酸杂交的广泛性指南在分子生物学,第2章中的通用方案中找到,Ausubel,et al.,Eds.,Greene Publishing and Wiley-Interscience,New York(2000)。
本发明中的“引物”或“探针”意指合成或生物制备得到的聚核苷酸,尤其寡核苷酸,包括特异性核苷酸序列并且杂交到含有靶点核苷酸序列的片段。
指定的引物或探针,以及所有其他的寡核苷酸和本发明的聚核苷酸,可通过任何一些众所周知的方法制备得到,这些方法包括采用氰乙基-亚磷酰胺引物的自动化固相化学合成。其他构建合成引物/寡核苷酸的众所周知的方法当然可被采用。J.Sambrook,E.F.Fritsch and T.Maniatis,MolecularCloning 11(2d ed.1989)。
用于扩增样本核酸的引物可连接到可被检测的基团上。这种可被检测基团的一种优选实施例为荧光素,其为采用激光作为检测体系,在核酸测序系统中使用的标准标记。其他可被检测标记也能被采用,包括其他荧光团、放射性标记、化学耦联剂如能用链亲和素链接酶检测的生物素,和表位附加标记如采用抗体检测的地高辛素。引物可被修饰,通过加入另一种核苷酸,除去,或取代寡核苷酸中至少一种核苷酸。引入已知标记如放射性物质、酶、荧光物质,等。合成寡核苷酸也包括在内。
相似地,探针/寡核苷酸编码用于与编码本发明多肽的聚核苷酸杂交,例如,给了检测这种聚核苷酸,可连接可检测基团。
如在这里使用的,术语“增加”意指增加植物细胞和/或植物中的一种或一种以上酶的分子内活性,该植物由相应的DNA编码。增加能通过不同处理细菌细胞而获得。为了获得增加,尤其过渡表达,相应基因拷贝的数量能被增加,能使用强大的启动子,或启动子-和调控区或核糖体结合位点,该核糖体结合位点位于可突变的结构基因上游。加入到结构基因上游的表达框以同样的方式活动。此外,通过采用诱导启动子可能增加表达。编码具有高度活性的相应酶的基因也能被使用。也能通过扩大mRNA的生命力的措施提高表达。此外,阻止酶的变性总体上提高了酶活性。此外,这些措施能选择性地以任何理想方式进行组合。
编码相应或具有高度活性的变异体的基因也能被使用。优选地,相应的酶比天然形式的酶具有更大活性,更优选地至少在5%、10%、25%、或50%范围内的更大活性,最优选大于天然形式酶活性的两倍。
本发明的上面描述提供了制备和使用它的方式和方法使得本技术领域中任何技术人员能够制备出和使用相同的,这个方法特别提供为附加权利要求的主旨,构成独创性描述的一部分。
如在这里使用的,短语“选自由构成的组”、“选自”、和类似短语包括指定材料的混合物。
数字限制或范围在这里进行了陈述,端点包括在内,数字限制或范围内的所有值和子区明确包括在内,明确写出。
上述被提出的描述使本领域中的技术人员能获得和使用本发明,并且在特殊应用和其要求的背景中被给出。优选实施方案的不同修改将对本技术领域中的那些技术人员是显而易见的,并且在没有背离本发明界定的精神和范围的情况下,这里确定的遗传原理可用于其他实施方案和应用中。因此,本发明并不被实施例描述的限制,而是为了符合于这里公开的最宽范围一致的原理和特征。
根据这里对本发明的描述,通过参考某些特异性实施例能进一步了解本发明,这里提供的特异性实施例仅为了举例说明,除非另外详细说明不是为了限制本发明。
实施例
原料和方法-
表6(下面)列出了下面实施例中引用的腺病毒菌株。GenBank登录号统指分配给每个菌株的基因组序列号。这些序列在发明时间公众不能利用,并且这些序列形成了本发明的实施方案,以及相同的片段。
表6:
GenBank名称   登录号   基因组尺寸   来源
Ad3   AY599834   35,345   ATCC#,GB株
Ad3FS_navy   AY 599836   35,265   来自  NTC Great Lakes,IL11/07/97的Ad3FS NHRC#1276
Ad4   AY 594253   35,990   NTCC#VR-4,RI-67株
Ad4vaccine   AY 594254   35,994   加利福尼亚公众健康(经KevinRussell/NHRC)
Ad4FS_navy   AY 599835   35,965   来自Ft Jackson,SC 04/02/03的Ad4FS NHRC#42066
  Ad4FS_AF   AY 599837     35,964 Linda Canas,Brooks AFB,Lackland AFB AF#3 2002
  Ad5FS   AY 601635     35,931 来自Ft Jackson,SC 01/06/98的Ad5FS NHRC#7151
  Ad7   AY 594255     35,305 ATCC#AV-HAD7_AFIP,Gomen株
  Ad7FS_navy   AY 601634     35,198 来自NTC Great Lakes,IL11/07/97的Ad7FS NHRC#1315
  Ad7 vaccine   AY 5944256     35,236 NHRC疫苗药片  (MargaretRyan,Kevin Russell/NHRC)
  Ad16   AY 601636     35,522 ATCC#VR-17,ch79株
  Ad1   AF 534906     36,001 ATCC#VR-1,Adenoid71    株1953
  Ad21   AY 601633     35,382 ATCC#NIAID  V-221-002-014,NIH研究试剂,1963年11月制
ATCC=美国典型培养物保藏中心(Manassas,VA)
NHRC=海军健康研究中心(San Diego,CA)
NIH=国家健康研究所(Bethesda,MD)
这些中每一种的全部GenBank记录,包括局部注释,在序列附录中找到。
流行性感冒包含物
由RPMV1上的拼接表示的原形流行性感冒类型为:
甲型流行性感冒病毒(A/New Caledonia/20/99)血球凝集素1的H1 HA基因,
FluAHA3甲型流行性感冒病毒(A/Fujian/411/02)血球凝集素3的H3N2基因,
FluAHA5甲型流行性感冒病毒(A/HongKong/156/97/H5N1),血球凝集素5
FIuANA1流行性感冒(A/Chile/1/83),神经氨酸酶1
FluANA2甲型流行性感冒病毒(A/Panama/2007/99/H3N2)神经氨酸酶2的NA基因,
FluAMATRIX流行性感冒A/NWS/33/H1N1基体蛋白(M)
FIuBNA乙型流行性感冒病毒(B/Yamagata/16/88),神经氨酸酶糖蛋白基因
FIuBNA乙型流行性感冒病毒(B/Yamanashi/166/98)血球凝集素1亚单位(HA)
FluBMATRIX乙型流行性感冒病毒(B/Yamagata/16/88)M1基体蛋白(M)
前述序列中每一种的登录号,以及存储的病原菌靶点序列,从公共领域和个人信息中得到,列在表9中。
制备实施例1:RPM版本1芯片设计
DNA序列提呈给Affymetrix制备下列实施例中利用的再测序微阵列芯片(RPM版本1芯片)。DNA序列的提交和Affymetrix使用说明是依据厂商说明书CustomSeqTM阵列方案和产品参考文献。探针长度正常为25个核苷酸并且包含正义和反义方向的各自四个可能变异体(A、C、T或G)的可变(查询点)主要核苷酸。
上面列出的筛选给RPMV1病原菌的靶点基因在表8中显示出的版本1设计中进行了描述并且序列列表连同各自PCR引物用于相同的扩增。提呈给拼接和芯片制备的序列是以表7中总结的Affymetrix说明书为基础,对应于SEQ ID NOs:1-58中出现的序列。相应“说明书”列出了每个拼接区域的其他指示符(e.g.FluAHA5)并且提供了″FASTA″形式的靶点基因序列(这能成为全长靶点基因的全部或部分)。
表7:RPMV1拼接和芯片制备的Affymetrix说明书文件
  名称   Alias   起始   结束   序列号   起始序列   终止序列   设计
  FluAHA1   FluAHA1   1   699   1   TTGAGAAG   ATGGTATG   1
  FluAHA3   F1uAHA3   1   794   2   GATAGTGA   AAGCATTC   1
  FluAHA5   FluAHA5   1   524   3   AATCCACT   GCTCCAAT   1
  FluANA1   FluANA1   1   1360   4   AAAAGCAG   TTTTGTGG   1
  FluANA2   FluANA2   1   1449   5   GCAAAAGC   TAGAAAAA   1
  FluAMATRIX   FluAMATRIX   1   923   6   AGCAAAAG   TGCCAGAG   1
  FluBHA   FluBHA   1   684   7   TTACATCC   AGCCATAG   1
  FluBNA   FluBNA   1   896   8   ATGAACAA   CAGTTACA   1
  FluBMATRIX   FluBMATRIX   1   362   9   ATGTCGCT   CATGAAAG   1
  Ad4HEXON   Ad4HEXON-1   1   1096   10   GTGGCGCC   TAAAGTTA   1
  Ad4HEXON   Ad4HEXON-2   2226   2504   10   CGAGGTTA   GCCCACGC   1
  Ad4FIBER   Ad4FIBER   1   1258   11   CGACCCCG   ACCCTGCA   1
  Ad4E1A   Ad4E1A   1   1326   12   GCGGGGCA   CCCAGGCA   1
  Ad5HEXON   Ad5HEXON-1   1   843   13   GTGGCGCC   ATTGCTTT   1
  Ad5HEXON   Ad5HEXON-2   1655   1846   13   GACCTAAG   CCAACGTG   1
  Ad5FIBER   Ad5FIBER   1   2012   14   TTCTGTCC   AGATCACC   1
  Ad5E1A   Ad5E1A   1   616   15   AGCCGGAG   CTGTGGAA   1
  Ad7HEXON   Ad7HEXON-1   1   807   16   GTGGCGCC   ATTGGCTT   1
  Ad7HEXON   Ad7HEXON-2   1652   2245   16   TCTGTATG   AATTACAC   1
  Ad7FIBER   Ad7FIBER   1   712   17   CCTTCAAC   AATGTTAA   1
  Ad7E1A   Ad7E1A   1   615   18   AAGAGTTT   ACTGCCAC   1
  PIVIHN   PIVHN   1   204   19   TAGACCCA   TATAGGGA   1
  PIVIIIHN   PIVIIIHN   1   213   20   CAAATCTA   TGAAAGAT   1
  PIVIIINCFP   PIVIII5NCFP   1   230   21   ACTTAGGA   TTACAACC   1
  HRV5NT   HRV5NT   1   412   22   GTCAAAGG   TCCTGTTT   1
  RSVABL   RSVABL   1   379   23   AAGTGCTC   AAGCAAAC   1
  RSVAN   RSVAN   1   106   24   AATACAAA   AGATAGTA   1
  RSVBN   RSVBN   1   128   25   GGCAAATA   CAATTATG   1
  WNVCPRM   WNVCPRM   1   432   26   GGCCAATA   TGATCCAG   1
  WNVE   WNVE   1   94   27   ATTTGGCT   TTTGTGTG   1
  WNVNS1   WNVNS1   1   153   28   GAAGCTTG   GGGTACAA   1
  HCV229EMG   HCV229EMG   1   598   29   TAGAACAG   TAACCTAC   1
  HCVOC43MG   HCVOC43MG   1   358   30   TGATTATT   TATATGAC   1
  SPNLYTA   SPNLYTA   1   125   31   TATCGAAC   CTCAGACC   1
  SPNPLY   SPNPLY   1   99   32   GGTTTGGC   ATCAAGAT   1
  SPYSPEB   SPYSPEB   1   281   33   AATCTTTT   TAGACATG   1
  SPYMEFAE   SPYMEFAE   1   370   34   GGCAGGGC   TTACGAAA   1
  SPYERMB   SPYERMB   1   248   35   AACTGATT   TAGAATCC   1
  SPYERMTR   SPYERMTR   1   176   36   CAACGGGT   GATATTGT   1
  MPP1   MPP1   1   369   37   AGGGGGTT   ACTATGTT   1
  NMCTRA   NMCTRA   1   135   38   TTGGATGC   TTTTGCTG   1
  NMCRGA   NMCRGA   1   254   39   GGTGCTGC   TGCCGGTC   1
  BPPTXP   BPPTXP   1   305   40   GAAGTAGC   CAAACCGC   1
  BPPTXS1   BPPTXS1   1   222   41   CGGCGCAT   AGGCCGAA   1
  CPMOMPVD4   CPMOMPVD4   1   150   42   ATGCTGAT   TCAGATCA   1
  CPMOMPVD2   CPMOMPVD2   1   133   43   AGCGTTCA   TAGGCGCT   1
  CPRPOB   CPRPOB   1   346   44   AAGGACTT   CTGCAGGC   1
  BARPOB   BARPOB   1   199   45   CGTCCTGG   GGCAGAAG   1
  BAPAGA   BAPAG   1   354   46   TAGCGGCG   TAATTCGT   1
  BACAPB   BACAPB   1   246   47   TTACACGT   ACCTATTA   1
  VMVHA   VMVHA   1   510   48   AACTATTA   TCACCAAC   1
  VMVCRMB   VMVCRMB   1   291   49   TCGGGAAC   CGTCTGTT   1
  ZEVL   ZEVL   1   443   50   TACTACCA   TCACACTG   1
  LVGPC   LVGPC   1   351   51   GCGCACCG   GTGGGCAA   1
  FTLP   FTLP   1   431   52   ATCGTAAT   TAAGTATG   1
  FTFOPA   FTFOPA   1   111   53   CAGATATA   GATACTAC   1
  YPCVE   YPCVE   1   265   54   ATAAAGGG   AGGCGGGG   1
  YPCAF1   YPCAF1   1   525   55   TATGAAAA   ATATAGAT   1
  ATTIM   ATTIM   1   523   56   ACATCGAC   GAGCTTGC   1
  ATNAC1   ATNAC1   1   543   57   TATATGTA   ATTGTACA   1
  Ad7HEXVAC   Ad7HEXVAC   168   383   58   GGTGCTTG   AAGCCCAT   1
表8:RPMV1设计,通过扩增用的各自PCR引物进行
                                               序列  前导                               逆向                              Taqman
                                 扩增          中    引物                               探针                              探针
有机体             基因名称      子     探针   基因  (SEQ ID NO:)  Size  %GC    Tm    (SEQ ID NO:)  Size  %GC  Tm     (SEQ ID NO:)  Size    %GC     Tm
流行性感冒A        血球凝集素1   675    699    1     439            23    47.8    54.8  505            24    33.3  55.6
流行性感冒A        血球凝集素3   770    794    2     440            24    33.3    57.6  506            22    36.4  55.9
流行性感冒A        血球凝集素5   500    524    3     441            26    42.3    59.8  507            26    42.3  58.7
流行性感冒A        血球凝集素5   219    442    26    30.8           58.9  508     24    45.8           58.5
流行性感冒A        神经氨酸酶1   1336   1360   4     443            22    22.7    54.2  509            18    55.6  53.5
流行性感冒A        神经氨酸酶2   1434   1449   5     444            22    45.5    57.9  510            23    39.1  57.8
流行性感冒A        基体基因      911    923    6     445            20    40      55    511                               571            20      55      62
流行性感冒B        血球凝集素    660    684    7     446            22    45.5    55.5  512            24    47.9  57.5
流行性感冒B        神经氨酸酶    881    896    8     447            25    32      56.3  513            22    45.5  56
流行性感冒B        基体基因      338    362    9     448            24    45.8    59.9  514            25    36    59.6   572            22      54.5     63.4
腺病毒5            六邻体        819    843    13    449            515
腺病毒5            六邻体        168    192    13    450            24    45.8    57.6  516            24    54.2  58.5
腺病毒5            纤毛          1988   2012   14    451            22    45.5    55.9  517            20    60    61
腺病毒5            E1A           171    452    24    54.2           61.5  518     21    66.7           61.3
腺病毒5            E1A           431    616    15    453            23    56.5    59.7  519            21    57.1  57.3
腺病毒4            六邻体        764    1096   10    454            520
腺病毒4            六邻体        255    279    10    455            18    61.1    63    521            18    66.7  62
腺病毒4            六邻体        511    456    19    57.1           66    522     18    50             64
腺病毒4            纤毛          967    457    20    55             57.8  523     21    47.6           54.9
腺病毒4            纤毛          435    1258   11    458            524
腺病毒4            E1A           844    459    22    45.5           57.1  525     19    59.9           59.6
腺病毒4            E1A           878    460    23    56.5           612   526     25    48             60.6
腺病毒4            E1A           409    1326   12    461
腺病毒7            六邻体        744    798    16    462            527
腺病毒7            六邻体        570    594    16    463            24    61.6    60.5  528            24    50    60.3
腺病毒7            纤毛          688    712    17    464            23    41.3    54.7  529            23    47.8  58.2
腺病毒7            E1A           205    465    20    65             62    530     23    60.9           61.3
腺病毒7            E1A           428    615    18    466                  531
腺病毒7            HEXVAC
副流行性感冒病毒
1                  HN            180    204    19    467            27    48.1    62.8  532            28    35.7  58.2
副流行性感冒病毒   HN            189    213    20    468            21    47.6    48.5  533            21    42.9  49.5
III
副流行性感冒病毒    融合蛋白5′无   206     230  21    469    21    38.1  46.3  534    20    40    48
III                 编码区
人鼻病毒            5′无编码区     388     412  22    470    16    56.2  44.9  535    16    56.2  43.8
RSV(A,B)           L-聚合酶        355     379  23    471    19    36.8  43.9  536    19    36.8  42.9
RSV(A)              大壳包核酸,N   82      106  24    472    26    38.5  57.3  537    21    47.6  54.3
RSV (B)             大壳包核酸,N   104     128  25    473    26    38.5  58    538    30    33.3  59.1
西尼罗病毒          C和prM          408     432  26    474    25    48    62.6  539    25    56    64.9
西尼罗病毒          E               70      94   27    475    21    52.4  53.8  540    21    52.4  53.8
西尼罗病毒          NS1             129     153  28    476    21    52.4  53.2  541    21    47.6  54.3
人冠状病毒          膜              574     598  29    477    20    40    53.7  542    20    50    51.9
(229E)              糖蛋白
人冠状病毒          膜              334     358  30           20    55     55    543   20    45    53.7
(OC43)              糖蛋白
肺炎链球菌属
                    自溶素,lytA    105     125  31    478    21    47.6  52.7  544    21    42.9  53.2
肺炎链球菌属
                    肺松解术,ply   75      99   32    479    22    50    56.3  545    23    43.5  58
肺炎支原菌属        细胞粘附素P1
                    蛋白            345     369  37    480    24    58.3  63.8  546    25    52    60.8
脑膜炎              荚膜转移蛋白
奈瑟氏球菌          (ctrA)基因      111     135  38    481    19    57.9  53.2  547    20    45    54.4
脑膜炎              调控蛋白,
奈瑟氏球菌          crgA            230     254  39    482    25    60    73.6  548    24    62.5  69.4
百日咳博德特氏菌    百日咳毒素
                    启动子区域      281     305  40    483    22    72.7  69.6  549    20    55    59.1
百日咳博德特氏菌    百日咳毒素S1
                    亚单位ptxS1     198     222  41    484    18    61.1  56.2  550    19    63.2  58.6
肺炎衣原体属        大外层膜蛋白
                    (MOMP)VD4       126     150  42    485    16    62.5  50.3  551    25    32    55.5
                    DNA定向
肺炎衣原体属        RNA聚合酶
                    (rpoB)          322     346  44    486    21    42.9  52    552   20     50    49.2
肺炎衣原菌属          大外层膜蛋白
                      (MOMP)VD2
酿脓                  致热外毒素B
链球菌                (speB)
                      大环内酯外排
酿脓决定簇
链球菌                (mefA,mefE)
                      红霉素
酿脓                  耐药
链球菌                甲基酶(ermB)
酿脓
链球菌                erm(TR)
                      RNA聚合酶
                      β-亚单位
炭疽杆菌              (rpoB)
                      保护性抗原
炭疽杆菌              (pag)
                      聚(D-麸胺基酸)
                      荚膜
炭疽杆菌              (capB)
                      血球凝集素
大天花病毒            (HA)
                      细胞因子反应
                      修饰物B(crm
大天花病毒
                      P)
埃博拉病毒            L基因
沙拉热病毒            GPC基因
土拉弗朗西斯菌
                      13-kDa脂蛋白
土拉弗朗西斯菌
                      FopA
鼠疫杆菌              cve2155序列响应
鼠疫杆菌
Arabisopsis thaliana  TIM
Arabisopsis thaliana  NACl
说明书参考了相同的其他指示符,但进一步指定出实际子序列,该子序列实际上被拼接到阵列上。在最可能情况中,这个表示序列表中的整个序列但在其他情况中(例如,FluBMATRIX)仅全部序列的核苷酸1-362用于拼接。表9提供了在说明书中介绍的信息。
表9(下面):RPM V1设计说明书的用法说明。其他指示符为分配给每个不连续“拼接”区域(例如,微阵列含有所有探针组合得几何区域,该探针组合为一段病原菌基因组序列再测序所必需的)的名称。病原菌,序列登录号,和每个拼接区域的拼接尺寸被列出。说明书,以Affymetrix提交形式进行修改,在表7中列出。说明书参考了全部靶点基因的全部或部分序列,该全部靶点基因可在序列附表中显示的SEQ ID NOs:1-58中找到。
表9:RPMV1芯片表
  ALIAS   名称   基因名称   登录号   长度
  ATNAC1   Arabisopsisthaliana   NAC1   543
  ATTIM   Arabisopsisthaliana   TIM   523
  Ad4E1A   腺病毒4   E1A   AF594253(draft)   1326
  Ad4FIBER   腺病毒4   纤毛   AF594253(draft)   1258
  Ad4HEXON-1   腺病毒4   六邻体   AF594253(draft)   1096
  Ad4HEXON-2   腺病毒4   六邻体   AF594253(draft)   279
  Ad5E1A   腺病毒5   E1A   AY147066   616
  Ad5FIBER   腺病毒5   纤毛   M18369   2012
  Ad5HEXON-1   腺病毒5   六邻体   AF542130   843
  Ad5HEXON-2   腺病毒5   六邻体   AF542130   192
  Ad7E1A   腺病毒7   E1A   AY594255(draft)   615
  Ad7FIBER   腺病毒7   纤毛   AY594255(draft)   712
  Ad7HEXON-1   腺病毒7   六邻体   AY594255(draft)   807
  Ad7HEXON-2   腺病毒7   六邻体   AY594255(draft)   594
  Ad7HEXVAC   腺病毒7   六邻体   AY594256(draft)   216
  BACAPB   炭疽杆菌   聚(D-谷氨酸)荚膜(capB)   M24150   246
  BAPAG   炭疽杆菌   保护性抗原(pag)   M22589   354
  BARPOB   炭疽杆菌   RNA聚合酶β-亚单位(rpoB)   AF205323   199
  BPPTXP   百日咳博德特氏菌   百日咳毒素启动子区   M13223   305
  BPPTXS1   百日咳博德特氏菌   百日咳毒素S1亚单位ptx S1   M13223.1   222
  CPMOMPVD2   肺炎衣原体   大外层膜蛋白(MOMP)VD2   CP0694   133
  CPMOMPVD5   肺炎衣原体   大外层膜蛋白(MOMP)VD4   M69230   150
  CPRPOB   肺炎衣原体   DNA定向RNA聚合酶(rpoB)   NT01CP0714   346
  FluAHA1   流行性感冒A   血球凝集素1   AJ344014   699
  FluAHA3   流行性感冒A   血球凝集素3   专有通讯   794
  FluAHA5   流行性感冒A   血球凝集素5   AF028709   524
  FluAMATRIX   流行性感冒A   基体基因   L25814   923
  FluANA1   流行性感冒A   神经氨酸酶1   M24783   1360
  FluANA2   流行性感冒A   神经氨酸酶2   AJ457937   1449
  FluBHA   流行性感冒B   血球凝集素   AF100355   684
  FluBMATRIX   流行性感冒B   基体基因   AF100378   362
  FluBNA   流行性感冒B   神经氨酸酶   AY139081   896
  FTFOPA   土拉弗朗西斯菌   FopA   AF097542   111
  FTLP   土拉弗朗西斯菌   13-kDa脂蛋白   M32059   431
  HCV229EMG   人冠状病毒(229E)   膜糖蛋白   AF304460   598
  HCVOC43MG   人冠状病毒(OC43)   膜糖蛋白   M93390   358
  HRV5NT   人鼻病毒   5′无编码区   NC_001617   412
  LVGPC   拉沙热病毒   GPC基因   M15076   351
  MPP1   肺炎枝原体   细胞粘附素P1蛋白   M18639   369
  NMCRGA   脑膜炎奈瑟氏球菌   调控蛋白,crgA   AF190471   254
  NMCTRA   脑膜炎奈瑟氏球菌   荚膜转移蛋白(ctrA)   NMB0071   135
  PIVIHN   副流行性感冒病毒I   HN   U70948   204
  PIVIII5NCFP   副流行性感冒病毒III   5′无编码区   Z11575   213
  PIVIIIHN   副流行性感冒病毒III   HN   M18764   230
  RSVABL   RSV   L-聚合酶   AF254574   379
  RSVAN   RSVA   大壳包核酸,   M11486   106
  RSVBN   RSVB   大壳包核酸,   D00736   128
  SPNLYTA   化脓性链球菌   自溶素,lytA   SP1937   125
  SPNPLY   化脓性链球菌   肺松解术,ply   SP1923   99
  SPYERMB   化脓性链球菌   红霉素耐药甲基酶(ermB)   X52632   248
  SPYERMTR   化脓性链球菌   erm(TR)   AF002716   176
  SPYMEFAE   化脓性链球菌   大环内酯外排决定簇(mefA,mefE)   U70055   370
  SPYSPEB   化脓性链球菌   致热外毒素B(speB)   NT01SP1804   281
  VMVCRMB   大天花病毒   细胞因子反应修饰物   U88145   291
  VMVHA   大天花病毒   血球凝集素(HA)   X65516   510
  WNVCPRM   西尼罗河病毒   C和prM   AF196835   432
  WNVE   西尼罗河病毒   E   AF196835   94
  WNVNS1   西尼罗河病毒   NS1   AF196835   153
  YPCAF1   鼠疫杆菌   Caf1   X61996   525
  YPCVE   鼠疫杆菌  cve2155序列   AF350077   265
  ZEVL   埃博拉病毒  L基因   AF086833   443
  29569
Affymetrix芯片设计团队采用上述信息的组合和相应序列文件信息来产生芯片设计。图1显示出芯片设计的纵览,一些给定病原菌的基因序列在下列实施例中采用的再测序芯片上密集生长(RPM版本1芯片),该图和芯片设计仅为了说明分配给RPMV1不同病原菌的有效面积,不是为了以任何方式进行限制。技术人员将容易理解专属于芯片上每个病原菌丛的相对顺序和序列数量可在对芯片的利用上没有本质上的有害作用的情况下进行改变。
重点注意的,拼接策略指出每个不连续拼接区域的前端第12个和末端12个序列不通过拼接策略的再测序微阵列进行查询,因为他们被用作最初和最后的25-mer探针成分,该探针在第13位被改变。
用于芯片的腺病毒区域(Ad4、Ad5、Ad7和Ad7疫苗)的序列都源自经本发明测序的基因组的早期挑选。对应于用于被拼接区域的基因组的GenBank在表6中列出。因为提呈给Affymetrix序列原型是以基因组的早期挑选为基础的,可观察到这些早期序列和提呈给Genbank的最终序列之间的差异。这些差异的列表在表10中给出。
表10:RPMV1拼接序列和表6中提交给Genbank的最终序列之间观察到的不相符值
Contig for Ad4
          靶点长度    序列碱基    靶点
                        #         遗漏   序列
E1A       2004          554              A
                        658       C      T
                        697       G      A
                        698       A      G
                        851       C      T
                        1460      C      T
                        1675      C      T
                        1777      A      G
                        2002      遗漏   T
六邻体    2813          18319     C      G
                        18330     遗漏   T
                        18331     遗漏   G
                        18332     遗漏   G
                        18385     A      G
                        18451     C      T
                        18523     T      C
                        18547     T      C
                        18571     C      T
                        18586     T      C
                        18617     T      C
                        18640     T      C
                        18659     G      T
                        18662     A      G
                        18687     T      C
                        18700     A      C
                        18843     A      G
                        18889     T      A
                        18901     C      T
                        18940     G      T
                        18965     A      C
                        18997     T      C
                        19013     G      A
                        95
19020     A    C
19113     A    C
19237     A    G
19325     T    C
19327     A    G
19330     C    T
19447     A    G
19542     C    A
19714     T    C
19732     A    C
19759     C    T
19762     A    G
19765     A    G
19795     C    A
19796     T    A
19798     C    T
19816     T    C
19819     C    T
19881     A    遗漏
19897     C    T
19906     C    T
19911     A    G
19915     T    C
19916     T    C
19936     T    C
19976     T    C
20038     C    T
20050     C    T
20128     C    C
20149     A    C
20158     A    C
20176     T    C
20206     C    G
20210     G    A
20239     遗漏 C
20245     C    遗漏
20246     T    A
20285     T    C
20297     T    C
20336     T    C
20363     T    C
20366     A    C
20429     T    C
20435     T    C
20447     G    C
20459     G    A
20499     T    C
20511     T    C
20519     T    C
20528     T    C
20570     T    C
20579     T    C
20658     C    G
20660     T    C
20663     T    C
20666     G    A
96
                                  20684     T      C
                                  20687     C      T
                                  20690     T      A
                                  20713     G      A
                                  20753     T      C
                                  20759     A      G
                                  20768     C      T
                                  20819     T      C
                                  20864     T      C
                                  20939     T      C
                                  21008     C      T
                                  21038     G      A
纤毛                     1386     31602     遗漏   C
                                  31611     遗漏   C
                                  31616     遗漏   C
                                  31652     遗漏   A
                                  31672     G      遗漏
                                  31714     遗漏   C
                                  31746     T      遗漏
                                  31790     遗漏   C
                                  31798     C      遗漏
                                  31799     C      遗漏
                                  31816     遗漏   C
                                  31923     T      遗漏
                                  31943     C      遗漏
                                  32003     G      遗漏
                                  32047     T      遗漏
                                  32051     遗漏   T
                                  32260     T      遗漏
                                  32262     G      T
                                  32266     遗漏   G
                                  32473     A      T
                                  32475     T      A
                                  32618     T      C
                                  32619     C      T
                                  32934     遗漏   C
Contig for Ad5_canji
 E1                     60        无
六邻体                  60        19020     G      遗漏
                                  19023     A      遗漏
                                  19024     C      遗漏
                                  19025      A     遗漏
纤毛                    60        无
Contig for Ad7
E1A                     60        无
六邻体                  60        无
纤毛                    60        无
Contig for Ad7_Navy
E1A                     60        590       C       T
六邻体                  60        18109     A       G
纤毛                    60        无
Contig for
Ad7_Vaccine
E1A      60    559    C    G
               586    C    T
六邻体   60    18142  A    G
纤毛     60    无
这个相对少量的不一致不干扰芯片生成碱基响应的能力,碱基与正确的有机体相关,除了在4型腺病毒的特殊情况中,在实施例中进行了描述。全面地,本发明的再测序微阵列技术确证了关于碱基取代的拼接基因的精确的最终序列,确证了我们方法的鲁棒性。
制备实施例2:PCR引物设计和扩增方案
简并PCR引物设计-
支持保守(简并)多重PCR的引物筛选的目标是设计引物,该引物是以位于E1A、纤毛和六邻体基因的特殊种类可变区翼侧的保守区域为靶点。总的来说,这个方法可用于任何有机体,因为物种内的保守序列在自然中无处不在。这些靶点基因基于线性腺病毒基因组内功能和位置被筛选出。E1A位于腺病毒基因组5′端并且编码反式转录调节因子,该反式转录调节因子对早期基因的转录激活是必要的。位于腺病毒基因组中间和3′端的六联体和纤毛基因各自编码抗原决定簇ε和γ,确定病毒血清型。因此,ARD诱发腺病毒的检测和按血清分型能通过靶标核酸决定簇来完成,靶标核酸决定簇引发血清分型。从而,引物提供了腺病毒内的特异性扩增而可变区提供了正确的物种鉴别的特异性血清型特征。
下列实施例中用于保守(简并)多重PCR的引物分别基于E1A、纤毛和六林体基因序列的全局分析,从GenBank(GenBank登录号在圆括号内给出):E1A-AdB(NC_004001)、AdC(NC_001405)、Ad3(AF492352)、Ad4(M14918)、Ad7(X03000);纤毛--Ad2(AJ278921)、Ad5(M18369)、Ad3(X01998)、Ad4(X76547)、Ad7(M23696)、Ad16(U06106、Ad21(U06107);六联体-Ad3(X76549)、Ad4(X84646)、Ad6(AF161560、X67710、Y17245)、Ad7(AF053087,X76551)、Ad16(X74662)、Ad21(AB053166)。E1A基因引物设计的全局序列分析使用了Ad3、Ad4、Ad7、Ad21、AdB、和AdC血清型的E1A基因序列。纤毛基因引物设计的全局序列分析使用了Ad2、Ad3、Ad4、Ad5、Ad7、Ad16、和Ad21血清型的纤毛基因序列。六联体基因引物设计的全局序列分析使用了Ad3、Ad4、Ad6、Ad7、Ad16、和Ad21血清型的六联体基因序列。
全局序列分析之后,引物对基于扩增血清型3、4、6、7、16和21的E1A、纤毛和六联体基因的能力被筛选出(无数据)。表11显示出在下列实施例中采用的引物对。
表11:
  引物   基因 序列(5’→3’)   扩增子大小(bp)
  AdE1A-F   E1A CGC TGC ACG ATC TGT ATG AT(SEQ ID NO:421)
  AdE1A-R   E1A TCT CAT ATA GCA AAG CGC ACA(SEQ ID NO:422) 409-446
  AdB1*   纤毛 TST ACC CYT ATG AAG ATG AAA GC(SEQ ID NO:423)
  AdB2*   纤毛 GGA TAA GCT GTA GTR CTK GGC AT(SEQ ID NO:424) 670-772
  AdFib-F3   纤毛 ACT GTA KCW GYT TTG GYT GT(SEQ ID NO:425)
  AdFib-R3   纤毛 TTA TTS YTG GGC WAT GTA KGA(SEQ ID NO:426) 430-437
  AdHex-F7   六邻体 CAC GAY GTG ACC ACM GAC CG(SEQ ID NO:427)
  AdHex-R5   六邻体 TTK GGT CTG TTW GGC ATK GCY TG(SEQ ID NO:428) 770-815
多重简并引物PCR方案-
引物对(Lin et al.,2004)在不同的多重组合中进行评价来获得腺病毒血清型3、4、6、7、16、和21的扩增。在含有20mM Tris-HCl(pH 8.4),50mM KCl,每一种200μM dNTPs,200nM AdB1、AdB2引物;500nMAdhex-F7,Adhex-R5引物,2U Platinum Taq DNA聚合酶(Invitrogen),和106个拷贝的DNA模板的50μl体积中实施PCR。采用Peltier ThermalCycler-PTC225(MJ Research)实施扩增反应,在94℃初步变性30秒,在50℃退火30秒,在72℃延伸40秒,并且在72℃最终延伸10分钟。菌属多重PCR试验将扩增所有six ARD的所有三个基因,引发腺病毒即使Ad4的六联体基因在琼脂糖凝胶上显示出非常弱的条带。
总扩增方案-
采用商业可用的GenomiPhiTM DNA扩增试剂盒(Amersham Biosciences)进行总扩增来典型扩增线性基因组DNA(下文中统称为″GenomiPhi总扩增″)。在GenomiPhi总扩增方法中采用的扩增方法利用抗菌素Phi29DNA聚合酶通过链替代扩增反应以指数倍率方式扩增单链-或双链线性DNA模板。起始样本不确定数量,而是直接使用。
制备实施例3:REPI软件
再测序阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传分析软件version 2.0(GDAS)来提供。GDAS碱基响应基于先前描述的碱基响应算法(Cutler et al.,2001)。包含从GDAS软件得到的碱基响应的每一种FASTA输出文件采用专属软件(REPI)进行分析,该专属软件(REPI)是本发明者开发的。
在本发明的情况中,GDAS的序列输出大部分通常为邻近序列响应(A、T、C或G)的分散混合物,邻近序列响应(A、T、C或G)点缀着不同量的无响应(n′s),由于缺少扩增、芯片上的弱杂交信号和/或非特异性结合导致的高背景杂交,GDAS软件不产生碱基响应(Cutler et al.,2001)。Ad4FIBER拼接区域的原型4腺病毒样本的GDAS输出的一种实施例输出在下面显示出(SEQ ID NO:429):
>Ad4FIBER:CustemSeq-腺病毒4  开始=12  终点=1245
nnnnnnnnnnnnnnncnnncncngaccgngnnnttcannaacnctcccntcgnnctcttcagatg
nattnnaagaaaagcccctgggggtgttgtccnnannnnnnngccgaccctgtcncnnnaagaat
gnnnaaattannnnnaagctgngngagggggtnnnncttgacgactcgggaaaactcnttgcaan
cacagtaaacaaggccattgcnnctctcagnttttnccaacaacaccatttnnnnttaacatgga
tacccctttatacaccaaagntggaaaactanccttacaagtttctnccaccattaagtatatta
aaatcaacaattttgaatacnnnnnnnnnagcttttggntcaggtttnggactcagtnnnngcgc
ccnngcagtananttagnctcnccacttacatttgntgataaagggaatanaaagattacccnaa
anagnnnnttgcatgttanaacaggagntgcaattgaaagcaacatcagttgggctaaaggtnta
aaattngaagatggtgccatagctacaaacattggtaannnnnnnnnnntnnnaaccagnngtnc
agaannannagnnannaangcttatccaatccaannnnnnnntgncnctggtctcagctttgaca
gcacaggagccataatgnctggcaataaagnctatgataaattaactttgtggacaacgcctgac
ccatcaccaaactgncaaatncttgcagaaaatgntgcaaaactaacactttgnnnnnnnnanng
nnacagncaaatactggccactgtancngntttggntgttagaagnggaaacttaaacccaatta
ctggcacagtaagcagtgctcaagnttttcnncgntttgatgcaaatggtgnncntntnacagaa
cactctanncnnaaaaaatnntggggcnanaagcaangagatagnatagatggcactccatacac
caatgctgttggttttatgccaaattcaacagcttntnnaaagacncaaagttctnctnctaaaa
ataatntagtgggtcaagtatacatgantnnagntgtttnanannncatgnttcttnctataact
cttaatggtnctgatgacaccaccngtgcatnctcaatgncattttcatacacctggactaacgg
aagctatatcggagcaacatttggagctaactcatacaccttctcntacatngcccannannnn
类似搜索算法如BLAST(Korf et al.,2003)使用无碱基响应(类似于通配符)但含有太多无碱基响应导致无法接受的模糊程度。如果那样的话,将返回无意义BLAST结果。
REPI软件被设计分析FASTA文件筛选和编辑的输出结果,采用NCBIBLASTN算法,模型数据被编辑成适合于序列类似性搜索格式。为了完成这个目标,REPI运行一系列文件尽可能小地修改数据而提取可用的,FASTA文件的″BLASTable″数据。由于再测序微阵列的自身性质,序列经常包含大量的无碱基响应(n′s)。BLAST不能返回具有大量的无碱基响应的重要的类似性序列。因此,原始数据必须经过滤提取最可能返回显著类似性的那些片段。
预期序列遇到的第一种过滤器是控制检验。加入到微阵列中的对照序列被特异性设计为随机序列;因此,将不返回显著类似性。下一步为″BLASTable″数据评估序列。采用滑窗算法,用户输入窗口尺寸参数,这些参数表示碱基响应数量。该算法将同时进行评估。从第一种碱基响应开始评估序列,窗口沿着序列滑动搜索含有相关数据的第一种区域,采用记分方法进行评估,所有有效碱基给出一种分数并且所有无碱基响应给出0分。如果分数大于或等于预先确定的阈值(这里采用25%),程序在窗口的起始点作记号作为可用数据的开始。一旦可用数据起始点被确定出,程序对换其参数并从可用数据库的末端开始搜索。对于每个序列,REPI搜索最大连续列的可用数据,将表示序列的初始子序列。
这个子序列将被修剪开始无碱基响应和尾部无碱基响应。进行修剪是必要的,因为先前过滤器使用起始窗口的起始位点作为子序列的起始点和末端窗口的最后位点,因此,尽管窗口记分是可接受的,可能存在无碱基响应超前子序列或尾部子序列。子序列经过的下一种过滤器评估长度。子序列长于50个核苷酸可以继续,子序列短于20个核苷酸被排除,并且子序列在20到50个核苷酸之间按照如下再评估。由于这些子序列的长度,采用先前描述的相同积分系统把它们记录下来。具有大于60%无碱基响应的子序列是被排除掉的;所有其他的允许继续采用BLAST算法针对GenBank,或自己的修饰数据库被搜索。
一旦类似性算法是完整的REPI计算机计算许多子序列的统计量,这些统计量包括靶点序列的子序列百分比,子序列长度,子序列碱基响应数量和子序列碱基响应百分比。靶点序列的子序列百分比和子序列长度显示出靶点病原菌的哪个片短被鉴别出。子序列长度和子序列碱基响应的百分比使我们能监控过滤算法过滤器以及GDAS阈值参数。REPI保存了所有BLASTN算法返回的统计结果使用户操作那个结果被显示在图形用户界面上。
在提供的实施例中,REPI经CGI(Perl)界面连接到局部BLAST(NCBIGenBank)数据库(包含在具有4.5GB随机存取存储器的苹果G5单一处理器(1.8Ghz)计算机上)。显示的结果包括所有预期值(E-值)阈值1.0e-9的数据库序列。E-值表示在随机给定搜索距离尺寸、记分矩阵、和空位罚分的预期分析数量;E-值越低数据库类似性搜索匹配越不可能进行随机鉴别。经确定e=2.71828182845904523536028747135。
REPI输出由(BLASTable)子序列命名、长度、E-值构成和比值以降序排列显示每个子序列。名称报告为GenBank记录FASTA定义列并且包括序列长度。得分为记分矩阵和空位罚分计算出的标准分数,分数越高类似性越高。
上面列出的实施例的REPI输出在下面显示出。每个″BLASTable″子序列,REPI返回(以降序排列比值)所有具有预期值小于1.0e-9的GenBank数据记录。获得的最高比值是4型腺病毒(AY594253),穿过这个连续部分,4型腺病毒是遗传不可区分于Ad4疫苗株(AY594254),而较低的比值适合区分来自空军和海军培训基地的本地株(SEQ ID NO:430)。
>Ad4FIBER:CustemSeq-腺病毒4开始=12终点=1245
子序列:
cnnncncngaccgngnnnttcannaacnctcccntcgnnctcttcagatgnattnnaagaaaagcc
cctgggggtgttgtccnnannnnnnngccgaccctgtcncnnnaagaatgnnnaaattannnnnaa
gctgngngagggggtnnnncttgacgactcgggaaaactcnttgcaancacagtaaacaaggccat
tgcnnctctcagnttttnccaacaacaccatttnnnnttaacatggatacccctttatacaccaaa
gntggaaaactanccttacaagtttctnccaccattaagtatattaaaatcaacaattttgaatac
nnnnnnnnnagcttttggntcaggtttnggactcagtnnnngcgcccnngcagtananttagnctc
nccacttacatttgntgataaagggaatanaaagattacccnaaanagnnnnttgcatgttanaac
aggagntgcaattgaaagcaacatcagttgggctaaaggtntaaaattngaagatggtgccatagc
tacaaacattggtaannnnnnnnnntnnnaaccagnngtncagaannannagnnannaangct ta
tccaatccaannnnnnnntgncnctggtctcagctttgacagcacaggagccataatgnctggcaa
taaagnctatgataaattaactttgtggacaacgcctgacccatcaccaaactgncaaatncttgc
agaaaatgntgcaaaactaacactttgnnnnnnnnanngnnacagncaaatactggccactgtanc
ngntttggntgttagaagnggaaacttaaacccaattactggcacagtaagcagtgctcaagnttt
tcnncgntttgatgcaaatggtgnncntntnacagaacactctanncnnaaaaaatnntggggcna
naagcaangagatagnatagatggcactccatacaccaatgctgttggttttatgccaaattcaac
agcttntnnaaagacncaaagttctnctnctaaaaataatntagtgggtcaagtatacatgantnn
agntgtttnanannncatgnttcttnctataactcttaatggtnctgatgacaccaccngtgcatn
ctcaatgncattttcatacacctggactaacggaagctatatcggagcaacatttggagctaactc
atacaccttctcntacatngcccanna
子序列靶点百分率:98%
子序列长度:1215
子序列碱基响应数量:1020
子序列碱基响应百分率:84%
1c1|AY594254|血清4型人腺病毒,疫苗株#135,994bp;长度=35994
Ad4FIBER evalue:0.0,score:751.806
1c1|AY594253|血清4型人腺病毒|35,990bp;长度=35990
Ad4FIBER evalue:0.0,score:751.806
gi|303967|gb|L19194.1|ADRFIBERX纤毛蛋白质h4哺乳动物腺病毒,完整编码序列;长度=1346
Ad4FIBER evalue:0.0,score:743.877
gi|22796371|emb|AJ315930.1|HAD3159304型人腺病毒DNA;长度=12718
Ad4FIBER evalue:0.0,score:735.947
1c1|AY599837|血清4型人腺病毒,美国空军本地株|35,964bp;长度=35964
Ad4FIBER evalue:0.0,score:704.23
1c1AY599835|血清4型人腺病毒,美国海军本地株|35,965bp;长度=35965
Ad4FIBER evalue:0.0,score:696.3
gi|434913|emb|X76547.1|AV4FIB1纤毛蛋白质4型腺病毒基因;长度=1375
Ad4FIBER evalue:2.32306E-154,score:553.571
gi|17105037|gb)AF394196.1|AF394196猴腺病毒25,全基因组;长度=36521
Ad4FIBER evalue:6.5072E-53,score:216.57
gi|33694802|tpg|BK000413.1|TPA:猴腺病毒25,全基因组;长度=36519
Ad4FIBER evalue:6.5072E-53,score:216.57
依据2004年9月15日提出的美国申请Serial No.60/609,918,和2004年11月29日提出的美国申请Serial No.60/631,460中给出的描述生成和处理应用REPI程序Java归档(jar)文件。
实施例1-碱基响应算法设置和采用保守(简并)PCR引物和GenomiPhi 总扩增BLAST分析腺病毒4的碱基响应
再测序微阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传数据分析软件version 2.0(GDAS)提供。GDAS碱基响应基于先前描述的碱基响应算法,ABACUS,先前描述的(Cutler et al.,2001)。许多碱基响应算法参数能通过用户(GDAS操作手册)确定来得到碱基响应百分比和精确度之间的协定。
参数的描述可在GDAS手册第207-217页中找到。推荐的(缺省)GDAS设置是“保守”设置,这种“保守”设置集中在高水平精确度上。相反,本发明的目标是提高碱基响应的百分率。为了达到这个目标,本发明者调整参数实现高度许可碱基响应(提高百分率),如列在下面:
″许可″碱基响应算法设置--
-过滤器条件
·无信号阈=0.500(默认值=1.000000)
·弱信号倍数阈值=20000.000(默认值=20.000000)
·大信噪比阈值=20.000000(默认值=20.000000)
-算法参数
·链质量阈值=0.000(默认值=0.000000)
·总链质量阈值=25.0000(默认值=75.000000)
·杂合子响应的最大值=0.99000(默认值=0.900000)
·模拟类型(0=杂合子,1=纯合子)=0
·完美响应质量阈值=0.500(默认值=2.000000)
-最终可靠性规则
·临近探针响应的最小值=1.0000(关闭过滤器)
·样本响应的最小值=1.0000(关闭过滤器)
上述设置在本应用中是重要的,因为通过默认牺牲生成的碱基响应数量目的为了生成最精确响应(例如,信噪比检测)建立起碱基响应算法。在本发明的应用中,该技术很少关注于获得信噪比检测要求的相同程度的精确度而代替的是扩大生成响应的数量使得经GDAS制备出最长段的邻接序列而保持必要特异性。
用适当的方法制备样本用于RPM V1微阵列分析,每微升106个基因组拷贝起始浓度的原型4腺病毒采用简并引物PCR(Lin et al.,2004)或(B)GenomiPhi等温法进行扩增。对于总扩增试验,DNA从培养腺病毒中分离出并以每微升106个拷贝浓度分装。采用总扩增策略(GenomiPhi,Amersham)进行扩增,然后依据标准Affymetrix CustomSeqTM方案(从厂商处得到)进行处理。
图2中显示出杂交微阵列的图像。对比于保守(简并)多重PCR生成的更限制区域,GenomiPhi总扩增再测序整个拼接区域(增强灵敏性)。由于GenomiPhi总扩增不取决于拼接片段内的特异性引物序列的事实,产生这个结果。然而,十分重要的是注意到不顾采用的哪个扩增策略,例如,保守(简并)多重PCR或GenomiPhi总扩增,生成探针Ad4响应。这些方法之间的一致性是重要的,在不需要选择性富集的情况下,当保守引物可能具有更直接应用,把复合样本中的同一家族的病原菌成员按血清类型分类。
基于相应GDAS输出(采用“许可”设置),REPI确定出返回给V1RPM微阵列的E1A、纤毛和六联体-1拼接区域的保守PCR扩增策略的下列列表(注意:从这个列表中省略的是几个4型腺病毒GenBank记录,具有几乎同源序列如Ad4同源和Ad4疫苗株)。
表12:Ad4E1A:CustemSeq-腺病毒4
  登录号#  名称   E值   比值:
  AY594254  血清型4人腺病毒,疫苗株   1.04808E-107   396.964
  AY594253  血清型4人腺病毒   1.04808E-107   396.964
  AY599837  血清型4人腺病毒,USAF本地株   8.34268E-53   214.587
  AY599835  血清型4人腺病毒,美国海军本地株   8.34268E-53   214.587
表13:Ad4FIBER:CustemSeq-腺病毒4
  登录号#  名称   E值   比值:
  AY594254  血清型4人腺病毒,疫苗株   0.0   751.806
  AY594253  血清型4人腺病毒   0.0   751.806
  AY599837  血清型4人腺病毒,USAF本地株   0.0   704.23
  AY599835  血清型4人腺病毒,美国海军本地株   0.0   696.3
表14:Ad4HEXON:CustemSeq-腺病毒4
  登录号#  名称   E值   比值:
  AY594254  血清型4人腺病毒,疫苗株   0.0   751.806
  AY594253  血清型4人腺病毒   0.0   751.806
  AY599833  血清型4人腺病毒,美国海军本地株   1.73046E-169   603.13
  AY599837  血清型4人腺病毒,USAF本地株   4.2185E-167   595.2
在上面显示的每个情况中,原型4腺病毒(AY594253)和疫苗株(AY594254)返回了保守PCR扩增得到的杂交原型4腺病毒扩增子的最高期望值和比值。这是被预期到的,因为原型株用于疫苗生产并且序列被确定具有同源性。在每个情况中,返回值以紧密相关空军(AY599837)和海军(AY599835)腺病毒4本地株的类似性顺序进行辨别。
下面列出的为4型原型腺病毒的GenomiPhi扩增反应取代保守PCR反应的相应输出(注意:不显示的为比值比空军和海军本地株高的几个紧密相关腺病毒):
表15:Ad4E1A:腺病毒4GenomiPhi3
登录号#  名称   E值   比值:
AY594253  血清型4人腺病毒   0.0   868.765
AY594254  血清型4人腺病毒,疫苗株   0.0   868.765
gi|209874|gb|M14918.1  ADRDE1AA 4型腺病毒E1A区   0.0   860.836
表16:Ad4FIBER:腺病毒4GenomiPhi3
  登录号#  名称   E值   比值:
  gi|434913|emb|X76547.1  纤毛蛋白质AV4FIB14型腺病毒基因   0.0   1031.32
  AY594254  血清型4人腺病毒,疫苗株   0.0   926.254
  AY594253  血清型4人腺病毒   0.0   926.254
  AY599837  血清型4人腺病毒,USAF本地株   0.0   743.877
表17:Ad4HEXON-1:腺病毒4GenomiPhi3
  登录号#   名称   E值   比值:
  AY594254   血清型4人腺病毒,疫苗株   0.0   1065.02
  AY594253   血清型4人腺病毒   0.0   1065.02
  gi|11693508|gb|AF065062.2|AF065062   RI-67pVI核蛋白质4型人腺病毒株   0.0   1065.02
  AY599835   血清型4人腺病毒,美国海军本地株   2.96209E-147   529.782
基于图2中显示的结果,对比于保守(简并)多重PCR生成的更限制区域,GenomiPhi总扩增再测序整个拼接区域(增强灵敏性)。由于GenomiPhi总扩增不取决于拼接片段内的特异性引物序列的事实,产生这个结果。REPI列出了适当的腺病毒类型(AY594254或AY594253)作为最高得到返回给除了Ad4FIBER之外的每个拼接区域。通过观察到4型原型腺病毒的早期序列草图包含错误,随后分辨出该差异,该错误引起用于鉴定Ad4FIBER的序列和不同4型腺病毒株(gi|11693508|gb|AF065062.2|AF065062)的GenBank记录之间稍微较高同源性。
就这一例外而言,十分重要的是注意到不论采用哪个扩增策略,例如,保守(简并)多重PCR或GenomiPhi总扩增,生成了正确的探针Ad4响应(除了由于拼接序列错误,由GenomiPhi产生Ad4FIBER)。这些方法之间的一致性是重要的,在不需要选择性富集的情况下,当保守引物可能具有更直接应用,把复合样本中的同一家族的病原菌成员按血清类型分类。
实施例2-Ad4稀释物系列
在本实施例中,杂交和碱基响应作为保守(简并)多重PCR反应的靶点子序列初始浓度的函数被测试。此外,该实施例也在GDAS软件内:(a)“许可”(说明书中描述的)和(b)“保守”(缺省)设置内对两个不同碱基响应策略进行比较。在这个实施例中采用的生物样本为4原型腺病毒。
杂交和碱基响应作为保守(简并)多重PCR反应的靶点子序列初始浓度的函数被测试。4原型腺病毒(ATCC)一系列稀释液被制备成每微升具有105、103、和101个基因组拷贝。为了这个目的,遵循Affymetrix CustomSeq方案,除了从上述稀释液分装的样本采用E1A、纤毛和六联体的保守(简并)多重腺病毒引物策略进行扩增。
表18-20证实RPMV1芯片采用REPI分析来检测取决于无论“保守”(缺省GDAS)或“许可”(来自实施例1)碱基响应设置的适当4型病原菌靶点(对菌株无特异性)被采用的能力。当REPI返回一种或一种以上4型腺病毒靶点的GenBank(或局部)数据库记录作为最高BLAST比值值时,计算阳性检测。在每个情况中,当满足滑窗算法的条件时,“长度”对应于REPI筛选的子序列中的碱基响应数量。
表18:
  Ad4纤毛
  稀释   保守的   许可的
  Expt.   评分   Eval   名称   长度   Expt.   评分   Eval   名称   长度
105   11-21-31-4   835.0651015.46297.846839.03   E-0.0E-0.0E-780.0   Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白   12279904511059   11-21-31-4   1623.971447.89703.6261605.08   0.00.00.00.0   Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白   12279975121215
103   22-2*2-32-4   448.153232.429   E-134n/dE-58n/d   Ad4纤毛蛋白-Ad4纤毛蛋白-   1208-421-   22-22-32-4   1559.2405.389   0.0n/dE-110n/d   Ad4纤毛蛋白-Ad4纤毛蛋白-   1220-444-
  101   33-2*3-33-4   172.95899.61   E-40n/dn/dE-19   Ad4纤毛蛋白--Ad4纤毛蛋白   294--93   33-23-33-4   301.101118.758116.39   E-79-E-24E-24   Ad4纤毛蛋白-Ad4纤毛蛋白Ad4纤毛蛋白   442-27995
*表示降解模板;n/d表示由于碱基响应不充分而“不确定的”
表19:
  Ad4E1A
  稀释   保守的   许可的
  Expt   评分   Eval   名称   长度   Expt   评分   Eval   名称   长度
105   11-21-31-4   448.5420.8353.4   E-123E-115n/dE-94   Ad4E1A区域Ad4E1A区域-Ad4E1A区域   553422-424   11-21-31-4   775.595691.471561.5589.253   E-0.0E-0.0E-157E-165   Ad4E1A区域Ad4E1A区域Ad4E1A区域Ad4E1A区域   556444413424
103   22-2*2-32-4   341.5194.8   E-91n/dE-47n/d   Ad4E1A区域-Ad4E1A区域-   399-404-   22-22-32-4   607.1470.774   E-171n/dE-130n/d   Ad4E1A区域-Ad4E1A区域-   412-421-
  101   33-2*3-33-4 412.8   n/dn/dn/dE-112   ---Ad4E1A区域   ---397   33-23-33-4   385.836199.58640.794   E-104n/dE-48E-0.0   Ad4E1A区域-Ad4E1A区域Ad4E1A区域   405-403398
表20:
  Ad4六邻体
  稀释   保守的   许可的
  Expt.   评分   Eval   名称   长度   Expt.   评分   Eval   名称   长度
105   11-21-31-4   377.1603.13107.5498.1   E-101E-0.0E-21E-138   Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因   760760262760   11-21-31-4   893.45941.874246.762920.916   0.0E-0.0E-62E-0.0   Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因 769768497762
103   22-2*2-32-4   383.1   E-103n/dn/dn/d   Ad4六邻体基因---   759---   22-22-32-4   826.865   E-0.0n/dn/dn/d   Ad4六邻体基因--- 759---
  101   33-2*3-33-4 71.86   n/dE-11n/dn/d   -Ad4六邻体基因--   -65--   33-23-33-4   78.8677107.54149.17   E-12E-21n/dE-33   Ad4六邻体基因Ad4六邻体基因-Ad4六邻体基因 14372-209
*表示降解模板;n/d表示由于碱基响应不充分而“不确定的”
跨稀释液的范围,“许可”碱基响应设置产生GDAS输出,GDAS输出经REPI采用始终如一地生成比信噪比检测的缺省GDAS碱基响应设置更高的子序列长度和比值。在几个情况中,“许可”碱基响应设置导致足够量的REPI碱基响应来检测靶点然而缺省设置不会这样。这个实施例证实通过GDAS降低碱基限制并将输出结合REPI算法,得到病原菌之间的较高灵敏性和辨识力(菌株鉴别)。
这里特别注意的是,在一些情况中,在图像、GDAS输出、和REPI分析中存在证据,具有痕量腺病毒7和腺病毒5的变性引物混合液的非故意污染物(由特异性实时PCR反应证实)。因为原型腺病毒的拼接区域之间没有显著性交互杂交,这个污染物不导致扰乱碱基响应或导致腺病毒4拼接区域。证实了这里描述的执行定量分离紧密相关病原菌混合物的方法的鲁棒性。
值得注意的,Lawrence Livermore国家实验室的Andersen团队描述了在特异性PCR扩增反应之后使用能检测低浓度(~101拷贝)的Affymetrix再测序芯片。然而,怎样确定灵敏性或这些结果受紧密相关微生物物种杂交影响的到什么程度没有被公开或提出。论文中的重点为能被使用的探针对的百分率,不是当他们通过芯片响应的实际序列。因此,技术人员没有任何由公开所致的期望。技术人员将不能推断来自先前专利或相关公开(Gingeras et al.,1998)的可能性因为这些参考文献不能揭示或提出指定方法的鲁棒性,该方法模式识别浓度差异、拼接区域序列定义中的误差,或其他形式干扰。
实施例3-碱基响应算法设置和采用保守(简并)PCR引物和GenomiPhi 总扩增对腺病毒5本地株(Ad5FS:AY6016351和腺病毒7原型株(Ad7; AY594255″)的碱基响应进行BLAST分析
这个实施例与实施例1类似,除非用5型腺病毒本地株(Ad5FS;AY601635)或7型腺病毒原型(AY594255)采用或者(a)保守(简并)多重PCR或者(b)GenomiPhi总扩增(图3)探查制备实施例1中描述的上面再测序微阵列芯片(RPMV1)。基于(RPMV1)输出(采用“许可”设置),REPI用Ad5原型和Ad7原型中的每一种来鉴别下列保守PCR反应和总扩增策略的3个最高“点击”。毫无例外,当5型腺病毒(Ad5FS;登录号AY601635)使用保守PCR反应或总(GenomiPhi)扩增的时候,5型腺病毒拼接区域(Ad5E1A、Ad5FIBER、Ad5FIBER、Ad5HEXON-1和Ad5HEXON-2)响应的每个序列列出最高“点击”(最高BLAST比值)。
也毫无例外,当采用PCR反应或总(GenomiPhi)扩增的时候,7型腺病毒拼接区域(Ad7E1A、Ad7FIBER、Ad5HEXON-1和Ad5HEXON-2)的这种序列列出最高“点击”(最高BLAST比值)与7型腺病毒正确的原型菌株一样。此外,GenomiPhi扩增导致Ad4E1A区域和Ad7疫苗区域的碱基响应,两者导致分配给正确Ad7原型菌株的最高比值。
得到的5型腺病毒和7型腺病毒原型的结果证实4型腺病毒的结果。特殊地,在图3A-D中显示的结果显示出对比于保守(简并)多重PCR反应产生的更加限制区域。GenomiPhi总扩增使完全拼接区域(增加的灵敏性)被再测序。更重要地,这些结果证实不管采用什么扩增方案,例如保守(简并)多重PCR反应或GenomiPhi总扩增,生成正确的Ad5或Ad7响应。
实施例4-Ad4-5突破株作为再测序微阵列可检测的混合传染病模型
这个实施例的样本可由海军保健研究中心(San Diego)提供。存档样本为初级新兵的鼻腔冲洗液,该新兵以前接受过腺病毒(采用Ad4/Ad7疫苗)免疫并且随后诊断为腺病毒传染和发热性呼吸疾病。不管先前接种过疫苗,传染相关菌株广泛统称为“突破株”。在这个病例中,假设单一变异形式的腺病毒是病原。这里描述的样本被统称为Ad4-5突破因为非决定的培养和血清学试验显示出两种4型腺病毒的性质,而六联体基因(血清型腺病毒的抗原决定簇之一)的测序显示出5型腺病毒的性质。
依据制备实施例1中描述的多重变性引物PCR方案处理该样本。这个方法说明(Lin et al 2004)成功扩增与发热性呼吸传染相关所有腺病毒的六联体和纤毛基因上超变区(以及相对E1A可变区域)。另外,标准AffymetrixCustomSeq方案被采用。
得到的杂交模式显示在图4中。基于GDAS输出(采用“许可”设置)。REPI经多重PCR鉴别出下列所有扩增方案的3个最高“点击”。(参见表21-24)。
表21:Ad5FIBER:Ad 4-5突破株
  登录号#   名称   E值   比值:
  1c1|AY601035   血清型5人腺病毒,本地株   5.01036E-76   291.899
  gi|33694637|tpg|BK000408.1   TPA:5型人腺病毒   5.01036E-76   291.899
  gi|32127287|gb|AY224398.1   KNIH 99/5纤毛基因5型人腺病毒株   5.01036E-76   291.899
表22:Ad5HEXON-1:Ad 4-5突破株
 登录号#   名称   E值   比值:
 1c1|AY601035   血清型5人腺病毒,本地株   0.0   644.759
 gi|33694637|tpg|BK000408.1   TPA:5型人腺病毒   1.81596E-172   613.041
 gi32127287|gb|AY224398.1   KNIH 99/5纤毛基因5型人腺病毒株   2.63084E-165   589.253
表23:Ad7E1A:Ad 4-5突破株
  登录号#   名称   E值   比值:
  gi|4127293|emb|AJ005536.1|ACA005536   腺病毒临床分离物,基因组DNA的克隆B44   3.18875E-83   315.688
  1c1|AY601633   血清型21人腺病毒   4.97873E-82   311.723
  gi|21311720|gb|AF492353.1   21型人腺病毒E1A13S蛋白质基因   1.21371E-79   303.794
  1c1|AY601634   血清型7人腺病毒,美国海军本地株   2.95877E-77   295.864
表24:Ad7HEXON-1:Ad 4-5突破株
  登录号#   名称   E值   比值:
  1c1|AY601633   血清型21人腺病毒   6.98074E-24   117.452
  gi|13919592|gb|AY008279.1   21型人腺病毒六邻体蛋白质基因   6.98074E-24   117.452
  gi|21311720|gb|AF492353.1   50型人腺病毒   6.98074E-24   117.452
  1c1|AY594255   血清型7人腺病毒   6.0101E-12   77.8048
  1c1|AY601634   血清型7人腺病毒,美国海军本地株   6.0101E-12   77.8048
筛选的REPI返回值给RPMV1上腺病毒4,5突破株。这个“菌株”由几个无关方法确定为5型腺病毒和B子群成员的混合物,最可能为21型腺病毒。这在联合的杂交结果和REPI分析中被证实,5型腺病毒被证实在所有腺病毒5拼接上,而B子群原型(腺病毒7;AY594255)拼接返回21型腺病毒的最高比值,21型腺病毒为B子群的不同成员。
常规DNA测序揭示出全部腺病毒5基因组被重新得到并且不能被组合的其他序列存在因为腺病毒5模型假设要求的。然而,显著量的确证被收集来支持Ad5/Ad 21交叉感染的结论,包括用70-mer寡核苷酸阵列(Linet al 2004)实施的平行试验中得到的类似结论,该类似结论显示出Ad 5/Ad21混合物或交叉感染的证据,和采用常规方法测序扩增子都支持了Ad5和Ad 21的存在。随后指导的腺病毒突破株的扩展研究显示出许多这种菌株实际上由较少腺病毒的混合物构成(制备加工图)。
有一些重要方面和优势隐含在这个发现中:
1.在没有特殊先验设计或在样本中发现Ad 21的预处理的情况下,原型区域(B子群的Ad 7)能用于成功鉴定不同的B子群成员(Ad 21)的实证。
2.由于空间分辨力,微阵列辨别混合的病原菌的实证。该混合物使常规DNA测序方法混乱,该常规DNA测序方法取决于以单一有机体的假设为基础的连续片段的组装。
实施例5-采用原型区域鉴别流行性感冒A株
未知血清型的流行性感冒A阳性临床样本在2002-2003和2003-2004流感季节由Dr.E1izabeth Walter收集并提供给Dr.Zheng Wang如冷冻的鼻腔冲洗液。
样本被加工处理用于病原菌芯片分析如下:
EPICENTRE MasterPureTM提纯试剂盒(Madison,Wisconsin)用于在没有经过RNase处理情况下,从50μl鼻腔冲洗液(样本NW20031114-05-02)中提取全部核酸。样本NW20031114-05-02于2003年11月14日在空军基地(San Antonio,TX)被收集到。患者在2003年11月10接受疫苗接种。全部核酸悬浮在20μl核酸酶游离水中。两步RT-PCR被用于扩增每一种病毒基因片段。
简要地,4μl总核酸中的RNA采用SuperScriptTMIII反转录酶(Invitrogen,Carlsbad,CA)依据厂商提供的方案和20μl 100pmol Uni3引物被转录到cDNA中。RT(逆转录)反应在42℃下实施1小时,然后在70℃下培养15分钟。2μl RT-反应被用于cDNA扩增。采用TaqPlus Long System(Stratagene,La Jolla,CA)依据提供的方案扩增cDNA。两个不同的PCR反应条件用于扩增。对于通用的PCR,通用的引物uni3和uni5被用于扩增红血球凝聚素(HA)、神经氨酸苷酶(NA)和基质(M)所有的八个片段(参见Hoffman et al,2001)。对于多重PCR,经过混合三个片段特异性引物对(Bm-HA-1/Bm-NS-890R,BA-Na-1/Ba-Na-1413R和Bm-M-1/Bm-M-1027R)扩增片段。Mg2+离子的最终浓度为2mM并且最终引物浓度为1μM。通用扩增的PCR条件为:94℃反应2分钟,随即94℃下进行29轮反应1分钟,在40℃反应2分钟,72℃反应3分钟,在72℃最后延伸10分钟。多重PCR反应条件基本相同除了退火温度提升到58℃。PCR反应产物经Qiagen PCR提纯试剂盒进行提纯。依据Affymetrix方案,500ng通用扩增PCR产物和1000ng多重PCR产物各自被用于两个V1病原菌芯片进行杂交
引物(来自Hoffman et al,2001)-
  Uni3:       AGCAAAAAGCAGG(SEQ ID NO:431)Uni5:       AGTAGAAACAAG(SEQ ID NO:432)Bm-HA-1:    TATTCGTCTCAGGGAGCAAAAGCAGGGG(SEQ ID NO:433)Bm-NS-890R: ATATCGTCTCGTATTAGTAGAAACAAGGGTGTTIT(SEQ ID NO:434)Ba-Na-1:    TATTGGTCTCAGGGAGCAAAAGCAGGAGT(SEQ ID NO:435)Ba-Na-1413R:ATATGGTCTCGTATTAGTAGAAACAAGGAGTITTTIT(SEQ ID NO:436)Bm-M-1:     TATTCGTCTCAGGGAGCAAAAGCAGGTAG(SEQ ID NO:437)Bm-M-1027R: ATATCGTCTCGTATTAGTAGAAACAAGGTAGTITIT(SEQ ID NO:438)
两种扩增方案的每一种的芯片扫描结果被显示出:(a)通用引物PCR反应和(b)多重PCR反应(图5)。基于GDAS输出(采用“许可”设置),REPI鉴别出下列通用引物(Hoffman et al.,2001)扩增方法的3个最高“点击”和采用Ad5原型和特殊多重PCR方法中每一种的总扩增方案。
为了这个试验,本发明者得到流感菌株HA基因的序列,这种流感菌株避免了2003-2004疫苗并引发了大范围疾病,即Fujian/411/2002(注意:仅HA序列可用于Fujian/411/2002)并且把那个掺入到REPI搜索的数据库中。两种扩增方法的每一种有效生成相同结果,尽管比值s稍微改变。特殊地,在REPI输出文件中,Fujian 411/2002返回FluAHA3的最高比值。Moscow 10/99,菌株用于在2003年疫苗接种,不返回FluAHA3的REPI输出。
表25:FluAHA3:NW20031114-05-02ACID04-B2
  登录号#   名称   E值   比值:
  1c1|ISDN38157   流行性感冒A/Fujian/411/2002血球凝集素104   0.0   1431.75
  gi|37530025|gb|AY389356.1   流行性感冒A病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因   0.0   1431.75
  gi|37530033|gb|AY389360.1   流行性感冒A病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因   0.0   1423.83
  gi|37530031|gb|AY389359.1   流行性感冒A病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因   0.0   1423.83
HA3最高BLAST比值是(流行性感冒A/Fuujian/411/2002红血球凝聚素104),在美国2003-2004流行性感冒爆发的H3N2病原因子,在美国没有进行接种疫苗保护。HA3不能辨别的病毒序列也得到相同的比值。超过500个GenBank记录被返回给HA3,所有具有预期值0.0和从上面显示的到993.636之间范围内变化的比值。疫苗株,(A/Panama/2007/99(H3N2)),不在被返回的HA3区域内流行性感冒A株的列表中。注意:流行性感冒A/Fujian/411/2002_红血球凝聚素_104仅对HA有用,因此这里的其他区域不进行比对。
尽管没有显示,本发明者已经能鉴别出2002-2003流感季节的H1N1发作菌株。
实施例6-减少的杂交时间
Affymetrix CustomSeq方案指出杂交步骤至少需要16个小时促进最大化杂交。对于诊断效能的目的,这是相当长的时间。因此,对本方法缩短杂交时间的适用性和功效进行评估。
在本实施例中,采用样本实施杂交和碱基响应,该样本经特异性PCR反应试剂进行扩增,然后在制备实施例1中描述的再测序微阵列芯片(RPMV1)上杂交1个小时、30分钟、或15分钟。为了对比性研究,除了改变杂交时间之外,执行Affymetrix CustomSeq方案。在被显示的实施例数据(图6)中,鼻腔冲洗液对用微阵列探测的除了红霉素抗性标记物SPYERMB、SPYERMTR、和SPYMEFAE之外的所有靶点是阴性的,鼻腔冲洗液经过每一种标记物的特异性PCR反应。然后,将扩增子杂交来分离微阵列16个小时或者15分钟,然后另外按Affymetrix方案规定的进行处理。
结果出现在图6A[16小时;ex-6a])和图6B[2小时;ex-6b]中。基于GDAS输出(采用“许可”设置),REP1鉴别出下列各自杂交16小时和杂交15分钟的最高“点击”。
相应的GDAS和REP1分析显示出生成的碱基响应的数量在15分钟杂交中小于16个小时杂交中的碱基响应数量(参见表26-31)。例如,经16个小时杂交,SPYERMB拼接区域产生子序列长度219bp区域(拼接区域的98%,95%碱基响应在子序列中生成),而15分钟杂交的不连续杂交模式导致拼接片段(45%的拼接区域,99%碱基响应在子序列中生成)进入长度100bp和87bp(39%的拼接区域,99%碱基响应在子序列中生成)的两个子序列中。
表26:SPYERMB:BL_JMS_020604_TW_3c(16小时杂交)
  登录号#   名称   E值   比值:
  gi|21886737|gb|AF516335.1   粪肠球菌质粒体pUW786耐抗生素基因簇   1.90377E-98   365.247
表27:SPYERMB:BL_JMS_020604_TW_3b(15分钟杂交)
  登录号#   名称   E值   比值:
  gi|21886737|gb|AF516335.1   粪肠球菌质粒体pUW786耐抗生素基因簇   1.6409E-47   194.764
表28:SPYERMTR:BL_JMS_020604_TW_3c(16小时杂交)
  登录号#   名称   E值   比值:
  gi|2190969|gb|AF002716.1|AF002716   化脓性链球菌引导肽1(lpg1)和2(lpg2),红霉素耐甲基酶(ermTR)基因   3.18989E-13   79.787
表29:SPYERMTR:BL_JMS_ _020604_TW_(15分钟杂交)
 登录号#   名称   E值   比值:
 无响应   N/A   N/A   N/A
表30:SPYMEFAE:BL_JMS_020604_TW_3c(16小时杂交)
  登录号#  名称   E值   比值:
  gi|22121182|gb|AY071836.1  链球菌6大环内酯外排决定簇基因(mefA)   1.01677E-60   240.358
表31:SPYMEFAE:BL_JMS_020604_TW_3b(15分钟杂交)
  登录号#  名称   E值   比值:
  gi|22121182|gb|AY071836.1  链球菌6大环内酯外排决定簇基因(mefA)   3.331E-36   159.081
上面的表显示出实施例6中,16小时杂交时间相对于15分钟杂交时间,被描述的三个不同抗生素抗性标记物的比较性最高顺序。尽管SPYERMTR拼接区域不产生足够量的碱基响应进行15分钟杂交后的鉴别。SPYERMB和SPYMEFAE都返回给包括拼接区域的抗生素抗性标记物相同变异体较高比值(在表9中被鉴别出)。
然而,三个拼接区域中每一种的REPI输出显示出每个区域中最高比值s是相同的(除了缺少15分钟杂交的足够碱基响应的SPYERMTR之外),尽管比值s和预期值在每个例子中是不同的。得到30分钟和1个小时杂交的类似结果,增加杂交时间生成的碱基响应数量得到增加。此外,这个实施例清楚地说明在不同杂交模式范围内的靶点之间做出精确辨别的方法的鲁棒性。
实施例7-消减杂交
当采用总扩增时,许多方法可用于减少临床样本中背景人DNA的数量。一种方法是采用COT-1片段人基因组DNA从杂交溶液中的扩增产物中直接消减背景基因组DNA,该COT-1片段人基因组DNA大量地由迅速退火重复单元组成。另一种方法为在从扩增之前从临床样本中玻璃珠消减背景基因组DNA。第三个方法为联合上述方法,在总扩增之间,使用玻璃球消减从临床样本中消减基因组背景DNA,随即背景DNA可进一步使用COT-1人DNA从杂交溶液中的临床样本中被消减。
图7A和7B的方法
从临床样本中收集鼻腔冲洗液并采用MasterPureTM DNA提纯试剂盒(Epicentre)分离全部核酸。在37℃,采用McrBc(切割在一种或两个链上含有甲基胞嘧啶DNA的内切酶)将核酸简化1个小时,并且加热到65℃使酶变性。随后,样本被分为两组并采用GenomiPhi DNA扩增试剂盒(AmershamBiosciences)进行扩增。依据Affymetrix CustomSeq方案,扩增产物被分割成片段并被标记。
对于这个对比性研究,Affymetrix CustomSeq方案被执行除了下面改变之外。依据Affymetrix CustomSeq方案(图7A)使用标准杂交溶液或依据Affymetrix推荐的(图7B),采用含有12μg鲱精DNA和10μg COT-1人DNA(Roche,Indianapolis,IN)的杂交混合物取代22μg鲱精DNA将临床样本杂交到再测序微阵列芯片(RPMV1)上。
图7C和7D的方法
本实施例描述了当采用总扩增时,玻璃珠消减和玻璃珠消减和消减杂交方法联合提高病原菌特异性信噪比
COT-1人DNA,大量由迅速退火重复单元组成,采用末端转移酶(Tdt)(NEB)在3′-端被生物素化生成生物素化消减探针(BSPs)。分组的~400ngBSPs在4xSSC和0.2%SDS中用临床鼻腔冲洗液(诊断为Ad4阳性临床样本)的核酸提取物于95℃下培养10分钟,该临床鼻腔冲洗液用McrBC于37℃下简化1个小时,然后缓慢冷却至65℃,用HMB交互杂交1个小时。杂交之后,BSP-HMB复合物在室温下于IXPBS、0.1%BSA中用BcMag链霉亲和素磁性玻璃珠(SMBs,Bioclone)培养30分钟。采用磁选器从上层清液中将玻璃珠分离出。然后,将悬浮液转移到新试管中并且采用1XPBS、0.1%BSA将磁性玻璃珠洗涤一次。将上层清液混合在一起并用乙醇进行沉淀。用核酸酶游离水(Ambion)将DNA小珠再悬浮,然后分为两组并依据厂商推荐的方案,用GenomiPhi DNA扩增试剂盒(Amersham Biosciences)进行扩增。简要地,用9μl样本缓冲液于95℃下将1ml DNA模板变性处理3分钟,冷却至4℃。在分离的试管中,1μl酶与9μl反应缓冲液混合,然后将混合物加入到变性的DNA模板上。然后于30℃下在温度循环反应器-PTC225(MJ Research Inc.,Reno,NV)中实施反应18个小时。
对于这个对比性研究,依据Affymetrix CustomSeq方案(图7C)使用标准杂交溶液或依据Affymetrix推荐的(图7D),采用含有12μg鲱精DNA和10μg COT-1人DNA的杂交混合物取代22μg鲱精DNA将扩增样本杂交到再测序微阵列芯片(RPMV1)上。
图7E的方法
采用两倍用量的初始原料重复联合玻璃珠消减和消减杂交方法,图7E中的结果证明本发明者能从用于在制备实施例1中描述的再测序微阵列芯片(RPM Version 1芯片)的临床样本中消减人背景来分辨临床样本中Ad4六联体和纤毛基因的存在和对其进行鉴别。
消减杂交结果
消减杂交方法的结果显示在图7中。如图7中显示的,分离核酸的总扩增导致对RPMV1微阵列的显著性背景杂交。尽管4型腺病毒区域显示出比全部背景更高的可辨识信号,GDAS不能够生成足够碱基响应满足REPI中滑窗条件,因此,没有生成BLAST数据。用COT-1人基因组DNA交互杂交同一组的总扩增子没有提高这个(图7B)并且没有碱基响应生成。图7C显示出在总扩增之前,单独使用磁性玻璃珠消减不产生足够量的碱基响应进行类似性搜索。
然而,经扩增之前联合使用玻璃珠消减和用COT-1人DNA进行交互杂交,生成足够的碱基响应来鉴别和在Ad4HEXON-1拼接区域中三个被鉴别的序列中的每一种内,腺病毒4本地株(没有辨别的海军和空军)比疫苗和腺病毒4原型株排列更高(图7D和表32)。
表32:Ad4HEXON-1:BL_818141_030503_NW_4
  登录号#  名称   E值   比值:
  AY599837  血清型4人腺病毒,USAF本地株   6.14232E-37   161.064
  AY599835  血清型4人腺病毒,美国海军本地株   6.14232E-37   161.064
  AY594254  血清型4人腺病毒,疫苗株   1.49737E-34   153.134
  AY594253  血清型4人腺病毒   1.49737E-34   153.134
此外,通过使用2微升起始样本原料取代1微升(图7E)实施同一组组合步骤,碱基响应被延伸到Ad4FIBER拼接区域内(参见表33)除了Ad4HEXON-1(参见表34),在几个Ad4FIBER子序列中进行Ad4本地株(尽管在空军和海军本地株之间不进行辨别)对原型(AY594253)或疫苗菌株(AY594254)的高bit-score排序。然而,在Ad4HEXON-1拼接中能从海军本地株(AY599835)将Ad4空军本地株(登录号.AY599837)辨别出,因为提高碱基响应的数量实现了更完整的序列比对并增强了比值辨别力。
表33:Ad4FIBER:BL_818141_030503_NW_9b
  登录号#  名称   E值   比值:
  AY599837  血清型4人腺病毒,USAF本地株   3.51948E-22   111.505
  AY599835  血清型4人腺病毒,美国海军本地株   3.51948E-22   111.505
  AY594254  血清型4人腺病毒,疫苗株   8.57976E-20   103.575
  AY594253  血清型4人腺病毒   8.57976E-20   103.575
表34:Ad4HEXON-1:BL_818141_030503_NW_9b
  登录号#  名称   E值   比值:
  AY599837  血清型4人腺病毒,USAF本地株   1.59752E-70   274.058
  AY599835  血清型4人腺病毒,美国海军本地株   9.49375E-66   258.199
  AY594254  血清型4人腺病毒,疫苗株   5.64196E-61   242.34
  AY594253  血清型4人腺病毒   5.64196E-61   242.34
实施例8-RPMV2芯片和其设计
RPM V2芯片的序列拼接列表在下面(表35)中被列出。这表示出RPM V1芯片的容量提高约10倍。
表35:RPMV2芯片表
Alias            有机体                      基因名称              登录号:Seq Num      长度     SEQ ID NO:
ATTIM1           Arabidopsis thaliana(1)     磷酸丙糖异构酶(TIM)
Ad3E1A           腺病毒3                     E1A                   AY599834:
Ad3六邻体        腺病毒3                     六邻体                AY599834:
Ad3纤毛          腺病毒3                     纤毛                  AY599834:
Ad7E1A           腺病毒7                     E1A                   AY594255:
Ad7六邻体        腺病毒7                     六邻体                AY594255:
Ad7纤毛          腺病毒7                     纤毛                  AY594255:
海军Ad7E1A       腺病毒7FS Navy              E1A                   AY601634:
海军Ad7六邻体    腺病毒7FS Navy              六邻体                AY601634:
海军Ad7纤毛      腺病毒7FS Navy              纤毛                  AY601634:
Ad16E1A          腺病毒16                    E1A                   AY601636:
Ad16六邻体       腺病毒16                    六邻体                AY601636:
Ad16纤毛         腺病毒16                    纤毛                  AY601636:
Ad21E1A          腺病毒21                    E1A                   AY601633:
Ad21六邻体       腺病毒21                    六邻体                AY601633:
Ad21纤毛         腺病毒21                    纤毛                  AY601633:
Ad11E1A          腺病毒11                    E1A
Ad11六邻体       腺病毒11                    六邻体
Ad11纤毛         腺病毒11                    纤毛
Ad35E1A          腺病毒35                    E1A
Ad35六邻体       腺病毒35                    六邻体
Ad35纤毛         腺病毒35                    纤毛
Ad1E1A           腺病毒1                     E1A
Ad1六邻体        腺病毒1                     六邻体
Ad1纤毛          腺病毒1                     纤毛
Ad2E1A           腺病毒2                     E1A
Ad2六邻体        腺病毒2                     六邻体
Ad2纤毛          腺病毒2                     纤毛
Ad5E1A           腺病毒5                     E1A
Ad5六邻体        腺病毒5                     六邻体
Ad5纤毛          腺病毒5                     纤毛
Ad6E1A           腺病毒6                     E1A
Ad6六邻体    腺病毒6                                     六邻体        登录号:Seq Num      长度     SEQ ID NO:
Ad6纤毛      腺病毒6                                     纤毛
Ad4E1A       腺病毒4                                     E1A
Ad4六邻体    腺病毒4                                     六邻体
Ad4纤毛      腺病毒4                                     纤毛
Ad4AF E1A    腺病毒4FS AF                                E1A
Ad4AF六邻体  腺病毒4FS AF                                六邻体
Ad4AF纤毛    腺病毒4FS AF                                纤毛
Ad12E1A      腺病毒12                                    E1A
Ad12六邻体   腺病毒12                                    六邻体
Ad12纤毛     腺病毒12                                    纤毛
Ad17E1A      腺病毒17                                    E1A
Ad17六邻体   腺病毒17                                    六邻体
Ad17纤毛     腺病毒17                                    纤毛
Ad40E1A      腺病毒40                                    E1A
Ad40六邻体   腺病毒40                                    六邻体
Ad40纤毛     腺病毒40                                    纤毛
FluAHA1      甲型流行性感冒H1N1(New Caledonia Like)      血球凝集素1
FluAHA2      甲型流行性感冒H2N2(berkley)                 血球凝集素2
FluAHA3      甲型流行性感冒H3N2(Fujian)                  血球凝集素3
FluAHA4      甲型流行性感冒H4N6(Swine:Ontario)          血球凝集素4
FluAHA5      甲型流行性感冒H5N1(Vietnam)                 血球凝集素5
FluAHA6      甲型流行性感冒H6N2(Turkey;Germany)         血球凝集素6
FluAHA7      甲型流行性感冒H7N7(Netherlands)             血球凝集素7
FluAHA8      甲型流行性感冒H8N4(Duck;Alberta)           血球凝集素8
FluAHA9      甲型流行性感冒H9N2(Swine:China)            血球凝集素9
FluAHA10     甲型流行性感冒H10(Shorebird)                血球凝集素10
FluAHA11     甲型流行性感冒H11(Duck;Taiwan)             血球凝集素11
FluAHA12     甲型流行性感冒H12N4(Kuuuy Iumslone,D
             E1Awogs                                     血球凝集素12
FluAHA13     甲型流行性感冒H13N6(Gull;Astrakan)         血球凝集素13
FluAHA14     甲型流行性感冒H14(mallard;Gurjev)          血球凝集素14
FluAHA15     甲型流行性感冒H15N8(Duck;Australia)        血球凝集素15
FluANA1-1    甲型流行性感冒H1N1(New Caledonia Like)      神经氨酸酶1
FluANA1-2    甲型流行性感冒H5N1(Vietnam)                 神经氨酸酶1
FluANA2             甲型流行性感冒H3N2(IrElAnd)             神经氨酸酶2登录号:Seq Num    长度     SEQ ID NO:
FluANA3             甲型流行性感冒H5N3(chicken:TX)         神经氨酸酶3
FluANA4             甲型流行性感冒H8N4(Duck:Alberta)       神经氨酸酶4
FluANA5             甲型流行性感冒H6N5(Shearwater)          神经氨酸酶5
FluANA6             甲型流行性感冒H4N6(Swine:Ontario)      神经氨酸酶6
FluANA7             甲型流行性感冒H7N7(Netherlands)         神经氨酸酶7
FluANA8             甲型流行性感冒H5N8(Duck:NY)            神经氨酸酶8
FluANA9             甲型流行性感冒H2N9(Duck:nanchang)      神经氨酸酶9
FluAH1N1MATRIX      甲型流行性感冒H1N1(New Caledonia Like)  基体
FluAH5N1MATRIX      甲型流行性感冒H5N1(Vietnam)             基体
FluBHA              乙型流行性感冒                          血球凝集素B
FluBHA              乙型流行性感冒                          神经氨酸酶B
FluBMATRIX          乙型流行性感冒                          基体
FluCHA              丙型流行性感冒                          血球凝集素-酯酶
FluCMATRIX          丙型流行性感冒                          基体
PIV1HN              副流行性感冒1                           血球凝集素-神经氨酸酶
PIV1MATRIX          副流行性感冒1                           基体
PIV1NC              副流行性感冒1                           壳包核酸
PIV2HN              副流行性感冒2                           血球凝集素-神经氨酸酶gi
PIV2MATRIX          副流行性感冒2                           基体
PIV2NC              副流行性感冒2                           壳包核酸
PIV3HN              副流行性感冒3                           血球凝集素-神经氨酸酶
PIV3MATRIX          副流行性感冒3                           基体
PIV3NC              副流行性感冒3                           壳包核酸
PIV4HN              副流行性感冒4                           血球凝集素-神经氨酸酶
PIV4MATRIX          副流行性感冒4                           基体
HRV14NCR            鼻病毒14                                5′NCR
HRV1ANCR            鼻病毒1A                                5′NCR
HRV21NCR            鼻病毒21                                5′NCR
HRV29NCR            鼻病毒29                                5′NCR
HRV58NCR            鼻病毒58                                5′NCR
HRV62NCR            鼻病毒62                                5′NCR
HRV87NCR            鼻病毒87                                5′NCR
HRV95NCR            鼻病毒95-01468                          5′NCR
RSVABL              RSV A&B                                 聚合酶L
RSVAMATRIX      RSV A                      基体          登录号:Seq Num    长度    SEQ ID NO:
RSVANC          RSV A                      壳包核酸
RSVBMATRIX      RSV B                      基体
RSVBNC          RSV B                      壳包核酸
HCV229ESPIKE    冠状病毒229E               Spike
HCV229EMEM      冠状病毒229E               膜蛋白
HCV229ENC       冠状病毒229E               壳包核酸
HCVOC43SPIKE    冠状病毒OC43               Spike
HCVOC43MEM      冠状病毒OC43               膜蛋白
HCVOC43NC       冠状病毒OC43               壳包核酸
SARSSPIKE       冠状病毒SARS(Urbani)       Spike
SARS MEM        冠状病毒SARS(Urbani)       膜糖蛋白
SARS NC         冠状病毒SARS(Urbani)       壳包核酸
HCVNL63SPIKE    冠状病毒NL63               Spike
HCVNL63ORF3     冠状病毒NL63               ORF3
HCVNL63MEM      冠状病毒NL63               膜蛋白
HCVNL63NC       冠状病毒NL63               壳包核酸
MPVMATRIX       偏肺病毒                   基体
MPVNC           偏肺病毒                   壳包核酸
HHV1L           人疱疹病毒1(Simplex)       DNA聚合酶
POLIO3NCR          Sabin3型骨髓灰质炎          5′NCR      登录号:Seq Num      长度       SEO ID NO:
                   副粘液病毒属中的麻疹病
MEASLESHA                                      血球凝集素
                   毒(Rubeola)
                   副粘液病毒属中的麻疹病
MEASLESMATRIX                                  基体
                   毒(Rubeola)
NEWCASTLEHN        新城病毒                    血球凝集素-神经氨酸酶
NEWCASTLEMATRIX    新城疾病                    基体
WNE                西尼罗河病毒                外层
WNNS               西尼罗河病毒                非结构蛋白质5
WNCM               西尼罗河病毒                C和prM
YFE                黄热病                      外层
YFNS               黄热病                      非结构蛋白质5
VMVG3R             大天花病毒                   G3R
VMVHA              大天花病毒                   血球凝集素
VMVSOD             大天花病毒                   SOD
VMVCRMB            大天花病毒                   CrmB
MONKEYPOX          猴痘病毒                     包涵体人体蛋白质
EBOLAL             Reston埃博拉                 L
EBOLANP            Reston埃博拉                 NP
EBOLAMATRIX        Reston埃博拉                 基体
MARBURGL           马尔堡病毒                   L蛋白
MARBURGNP          马尔堡病毒                   NP
LASSAL             拉沙热病毒                   L
SINNOMBRENC           未名病毒                    壳包核酸            登录号:Sea Num       长度    SEQ ID NO:
NORWALKL              诺沃克病毒                  RNA无关的RNA聚合酶
NORWALKCAPSID         诺沃克病毒                  壳蛋白
DENGUECAPSID          登革热病毒                  壳蛋白
DENGUEM               登革热病毒                  pre-M蛋白
DENGUE1NCR            1型登革热                   3′NCR
DENGUE2NCR            2型登革热                   3′NCR
DENGUE3NCR            3型登革热                   3′NCR
DENGUE5NCR            4型登革热                   3′NCR
FMDVVP1               手足和口疾病病毒            VP1
FMDV3D                手足和口疾病病毒            3D
SLEVNS5               圣路易斯脑炎病毒            NS5
SLEVPP                圣路易斯脑炎病毒            多蛋白前体
RVFVN                 立夫特谷热病毒              N
RVFVNS                立夫特谷热病毒              NS
尤苏它病毒PP          尤苏它病毒病毒              多蛋白前体
JEVPP                 日本脑炎病毒                多蛋白前体
金迪普拉病毒MATRIX    金迪普拉病毒                基体
金迪普拉病毒GP        金迪普拉病毒                糖蛋白
ATTIM2                Arabidopsis thaliaba(2)     磷酸丙糖异构酶(TIM)
ATTIM3                Arabidopsis thaliana(3)     磷酸丙糖异构酶(TIM)
SPYEMM44    化脓性链球菌     Emm44       登录号:Seq Num    长度     SEQ ID NO:
SPYEMM61    化脓性链球菌     emm61
SPYEMM75    化脓性链球菌     Emm75
SPYEMM77    化脓性链球菌     Emm77
SPYEMM89    化脓性链球菌     Emm89
SPYEMM94    化脓性链球菌     Emm94
SPYCSR      化脓性链球菌     Csr R&CsrS
SPYSFB1     化脓性链球菌     sfb1
SPYSPEB     化脓性链球菌     SpeB
SPNGYRA     肺炎链球菌       GyrA
SPNPLYTA    肺炎链球菌       自溶素,lytA
SPNPLY      肺炎链球菌       肺松术,ply
SAUGYRA     金黄色葡萄球菌   GyrA
SAUTST      金黄色葡萄球菌   tst
SAUENT-K    金黄色葡萄球菌   EntK
SAUENTQ     金黄色葡萄球菌   EntQ
CPNGYRA     肺炎衣原体       GyrA
CPNOMPB     肺炎衣原体       OmpB
CPNMOMPVD4  肺炎衣原体       MOMP VD4
MTURPOB    结核分枝杆菌                  RpoB      登录号:Seq Num    长度    SEQ ID NO:
MPNGYRA    肺炎衣原体                    GyrA
MPNP1      肺炎衣原体                    P1基因
NMEGYRA    脑膜炎奈瑟氏球菌              GyrA
NMEMVIN    脑膜炎奈瑟氏球菌              MviN
NMECTRA    脑膜炎奈瑟氏球菌              荚膜转移蛋白(ctrA)
NMECRGA    脑膜炎奈瑟氏球菌              crgA
AHEl6S     溶血隐秘杆菌                  16S rRNA
AHEPLD     溶血隐秘杆菌                  pld
BANGYRA    炭疽杆菌                      GyrA
BANLEF     炭疽杆菌                      致命因素
BANPAG     炭疽杆菌                      保护性抗原
BANRPOB    炭疽杆菌                      rpoB
BANCYA     炭疽杆菌                      Cya
BANCAPB    炭疽杆菌                      荚囊蛋白基因B(capB)
BCERPOB    腊样芽胞杆菌                  rpoB
BSUGYRA    枯草杆菌                      GyrA
BSURPOB    枯草杆菌                      rpoB
BTHCRY     苏云金芽孢杆菌                cry
BTHRPOB    苏云金芽孢杆菌                rpoB
BPEGYRA    百日咳博德特氏菌              GyrA
BCEPRECA    洋葱伯克霍尔德菌              RecA         登录号:Seq Num    长度     SEQ ID NO:
CPEGYPC     产气荚膜梭菌                  GyrA
CPETMPC     产气荚膜梭菌                  TmpC
CBUGYRA     贝氏考克斯菌                  GyrA
CBUTOLC     贝氏考克斯菌                  ToIC
FTURD1A     土拉弗朗西斯菌亚种土拉菌株    RD1-A
FTURD1B     土拉弗朗西斯菌亚种土拉菌株    RD1-B
FTUTUL4     土拉弗朗西斯菌                TUL4
FTUMDH      土拉弗朗西斯菌                mdh
FTU13KD     土拉弗朗西斯菌                13-kDa蛋白
FTUFOPA     土拉弗朗西斯菌                外层膜蛋白FopA
OTSGROEL    恙虫病东方体                  GroEL
OTSSTA56    恙虫病东方体                  sta56
RPRGARA     普氏立克次体                  GyrA
PAPOMP1     普氏立克次体                  Omp1
YPEGYRA     鼠疫杆菌                      GyrA
YPEOMPA     鼠疫杆菌                      OmpA
YPECVE      鼠疫杆菌                      cve2155序列
YPECAF1     鼠疫杆菌                      caf1
ACAHAG      荚膜阿杰罗菌属                H抗原
ACAMAG      荚膜阿杰罗菌属                M抗原
VCHGYRA    霍乱弧菌                   GyrA        登录号:Seq Num      长度      SEQ ID NO:
VCHOMPA    霍乱弧菌                   OmpA
MSRA       金黄色链球菌               MSR(A)
MECR1      金黄色链球菌               mecR1
MEFA       化脓性链球菌               MefA
ERMTR      化脓性链球菌               Erm(TR)
ERMB       化脓性链球菌               ErmB
ERMB       普氏立克次体               EmrB
GYRB       肺炎链球菌                 GyrB
PARC       肺炎链球菌                 ParC
PARE       肺炎链球菌                 parE
PBP1       肺炎链球菌                 ponA(PbplA)
PBP5       屎肠球菌                   pbp5
MECA       金黄色链球菌pUB110         mecA
BLAZ       金黄色链球菌质粒pLW043     blaz
DFRA       金黄色链球菌质粒pLW043     dfrA
VANA       金黄色链球菌质粒pLW043     vanA
QACC       金黄色链球菌质粒pLW043     qacC
RMTB       大肠杆菌                   rmtB
STRA       大肠杆菌pMBSF1质粒         strA
TETG            假单胞菌属sp.质粒pPSTG2     (tetG)                 登录号:Seq Num    长度      SEQ ID NO:
TETL            猪葡萄球菌(质粒pSTE1)      tet(L)
TETB            转位子Tn 10                tet(B)                 AY599834:
PTX             百日咳博德特氏菌           百日咳毒素             AY599834:
BONT            肉毒杆菌                   bonT                   AY599834:
NTNH            肉毒杆菌                   ntnh                   AY594255:
BOTE            肉毒杆菌                   botE                   AY594255:
EPSILON         产气荚膜梭菌质粒体         epsilon-toxin          AY594255:
TETANUS         破伤风杆菌                 破伤风毒素             AY601634:
STX1A           E.coli 0157:H7            stx1A                  AY601634:
STX2A           E.coli 0157:H7            Stx2A                  AY601634:
RICINUSTOXIN    蓖麻子                     蓖麻子toxin            AY601636:
CTXAB           霍乱弧菌                   ctxA+ctxB              AY601636:
PBLUEVEC        pBluescript IIKS(+)                               AY601636:
PGEMVEC         pGEM-9Zf(-)                                       AY601633:
PUCVEC          pUC4KAN                                           AY601633:
ATTIM4          Arabidopsis thaliana(4)    磷酸丙糖异构酶(TIM)    AY601633:
实施例9-采用随机RT-PCR方法鉴别流行性感冒A株
这个实施例是为了介绍新改进的随机RT-PCR方案的应用,该新改进的随机RT-PCR方案是关于被加入到正常鼻腔冲洗液样本中的被分离的流行性感冒A(Fujan/411/2002 strain)核酸。随机RT-PCR方案已经被DeRisi′s研究室采用扩增病毒病原菌用于微阵列查询(Wang et al.,2003)。对该方案的改进被最近报道用于扩增培养流行性感冒病毒(Kessler et al.,2004)。然而。改进的方案没有被报道扩增临床样本中病毒靶点。
流行性感冒A病毒培养物(H1N1&H3N2)由空军健康研究所(AFIOH)提供并送到Virapure,LLC在研究之前进行扩增和量化。依据化验证明书,在1μg/ml TPCK处理胰岛素存在下,病毒在早期传代MDCK细胞上被扩增两轮。在感染48小时后,收集病毒上层清液并调节含有含有3%蔗糖,20mM Tris,pH值7.1和pH稳定剂。在输送之前,带有螺纹的瓶中装满200-300μl分装的上层清液。依据方法AM110,滴定每个样本小瓶执行流行性感冒的病毒空斑形成试验。流行性感冒A H3N2、K0717 SV5/SV40 RMK的滴定量为1.2X107PFU/ml,流行性感冒A/California/2935/03/H1N1的滴定量为5X106PFU/ml。
为了生成临床采集对照组,从Lackland AFB先进诊断实验室临床部的无症状成员得到鼻腔冲洗液(0.9%生理盐水)。从每个Virapure量化前滴定量,流行性感冒鼻腔吸出物的10倍/6组稀释液被生成以每个菌株的Virapure群开始并包括每个菌株的Virapure群。采用EPICENTRE定量供给的MasterPure总核酸提取物,全部100μl的每个流行性感冒鼻腔吸出物从稀释液中被加工处理。在执行这个方案期间,150μl的2XT和含有蛋白酶K的C裂解液被加入到每100μl被掺入的鼻腔冲洗液的稀释液中,充分混合并于65℃下培养15分钟。下一步,将样本置于冰上5分钟随即加入150μl的MPC蛋白沉淀剂。将样本充分剧烈混合10秒。然后以10,000xg离心过滤10分钟将混合物沉淀并将上层清液转移至微量离心管内。为了重新获得上层清液,加入500μl异丙醇并颠倒(30-40)次。
于4℃下将混合物离心10分钟并不移动小球倒出异丙醇。随后,用75%乙醇冲洗小球两次并在室温下干燥。一旦干燥,将核酸小球在35μl TEBuffer中再悬浮。每个样本被正确标记并且在装运到海军研究实验室之前置于干冰上。
三个100μl正常鼻腔冲洗液分组的每一种被加入的流行性感冒AH3N2病毒培养物的一系列稀释液(范围从105pfu到101pfu)。依据被描述的(Kessler et al.,2004),采用如实施例5中的EPICENTRE MasterPureTMDNA提纯试剂盒(Madison,Wisconsin)提取总核酸,并且悬浮在40μl中。随机RT-PCR反应应用如下:
采用1μl引物D(40 pmol/μl;5′-GTT TCC CAG TCA CGA TCN NNNNNN NN;SEQ ID NO:573)和20μl内含有1μl SuperScriptTMIII反转录酶(50units/μl;Invitrogen,Carlsbad,CA),将2μl总核酸反转录。于42℃下,RT(反转录)反应进行1小时,然后于70℃下失活15分钟。然后用1μl引物E(100pmol/μl;5′-GTT TCC CAG TCA CGA TC;SEQ ID NO:574)和50μl内含有2.5单位的TaqPlus长聚合酶(5 urnitst/μl,Stratagene,La Jolla,CA),扩增10μl RT产物。PCR反应被执行35轮,94℃30秒,40℃30秒,和72℃160秒,随即在72℃下额外进行7分钟。依据Affymetrix Customseq方案,105、103和101pfu流感外加样本的PCR产物被用于三个不同V1RPM病原菌微阵列进行杂交
V1RPM芯片扫描三个外加样本,105、103、和101pfu,经随机RT-PCR方法扩增,各自显示在图8 A-C中。所有样本在至少少许流行性感冒A拼接区域内生成清晰的序列响应,表明随机RT-PCR方案甚至在没有人基因组DNA的干扰下成功地在峰值样本中扩增流感基因组。基于GDAS输出(采用“许可”设置),REPI鉴别出下列每个样本的4个最高“点击”(表36-38)。105(表36)和103pfu(表37)样本的最高4个点击对应于正确的Fujian/411/2002菌株的最高排序并且与获得的Fujian/411/2002(+)临床样本NW20031114-05-02 ACID04-B2的最高排序相同,经流行性感冒通用引物进行扩增(在表25中显示出)。这个结果表明随机RT-PCR具有扩增能力类似于样本中具有相对较高滴定量病毒的流行性感冒A特异性PCR反应。较低滴定量的流感病毒(101pfu),杂交拼接区域的百分率和碱基响应的百分率降低了。这导致排序稍微偏移,使Fujian 411/2002受限于第二高排列菌株。然而,V1RPM仍能读出外加病毒如H3N2 Pretoria菌株,最初源自Fujian/411/2002菌株同源并几乎与Fujian/411/2002菌株同源。
因为在这个试验中成功实施了随机RT-PCR反应,应相信的,这个方案将运用在流感临床样本和其他病原菌病毒中。
表36:FluAHA3:甲型流行性感冒H3N2加入样本(105pfu)
登录号# 名称 E值  比值:
1c1|ISDN38157 甲型流行性感冒/Fujian/411/2002_血球凝集素_104 0.0  1400.04
gi|37530025|gb|AY389356.1 甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因 0.0  1400.04
gi|37530033|gb|AY389360.1 甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因 0.0  1392.11
gi|37530031|gb| 甲型流行性感冒病毒 0.0  1392.11
  AY389359.1 (A/pretoria/16/03(H3N2))血球凝集素(HA)基因
表37:FluAHA:甲型流行性感冒H3N2加入样本(103pfu)
  登录号#   名称   E值   比值:
  1c1|ISDN38157   甲型流行性感冒/Fujian/411/2002_血球凝集素_104   0.0   1471.4
  gi|37530025|gb|AY389356.1   甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因   0.0   1471.4
  gi|37530033|gb|AY389360.1   甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因   0.0   1463.47
  gi|37530031|gb|AY389359.1   甲型流行性感冒病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因   0.0   1463.47
表38:FluAHA3:甲型流行性感冒H3N2加入样本(101pfu)
  登录号#   名称 E值 比值:
  gi|37530033|gb|AY389360.1   甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因   0.0   686.389
  gi|37530031|gb|AY389359.1   甲型流行性感冒病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因   0.0   686.389
  gi|37530029|gb|AY389358.1   甲型流行性感冒病毒(A/pretoria/2/03(H3N2))血球凝集素(HA)基因   0.0   686.389
  gi|37530025|gb|AY389356.1   甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因   0.0   686.389
  1c1|ISDN38157   甲型流行性感冒/Fujian/411/2002_血球凝集素_104   0.0   678.459
这个实施例是重要的,因为它显示出完全无偏差扩增方法,来自2001年6月公共领域方案,可用作再测序微阵列制备步骤,导致PCR-水平灵敏性(101靶点拷贝)。尽管这个扩增方案已经用于长低聚物(70-mer)微阵列试验的一些公开实施例,它将满足再测序微阵列方法不是显而易见的。依据上述教导,本发明的许多改进和变化是可能的。因此,可理解的,在附属权利要求书界定的范围内,可按不同于这里明确描述的方法来实施本发明
实施例10:其他病原菌测试:
总的来说,下列病原菌在RPMV1上从实验室和/或临床样本中被检测出/辨别出,(总表达>180测试芯片)鉴别和输入个体100%一致,除了表达类型变异菌株之间同源序列的序列拼接部分之外,无类型交互杂交:
人腺病毒群C    Ad5原型        Ad5USA本地株
人腺病毒群E    Ad4原型        Ad4AF本地株
               Ad4疫苗        Ad4USN本地株
人腺病毒群B    Ad3原型        Ad3USN本地株
               Ad7原型        Ad7USN本地株
               Ad7疫苗
               Ad16原型
               Ad21原型       Ad21本地株
流行性感冒A    H1N1           H3N2
大天花或(天花)
拉沙病毒
埃博拉病毒
肺炎链球菌
化脓性链球菌
肺炎衣原体
肺炎支原体
脑膜炎双球菌
炭疽芽孢杆菌
鼠疫耶尔辛氏杆菌
弗朗西斯氏菌
制备的非传染性大天花(天花)、埃博拉病毒、炭疽芽胞杆菌、鼠疫杆菌和土拉热弗朗西斯菌实验室样本的RPMV1微阵列结果的筛选实施例已经被实施,但在这里没有显示出。采用特异性PCR引物制备大天花(天花)、埃博拉病毒、和鼠疫杆菌样本。采用GenomiPhi试剂扩增炭疽芽胞杆菌和鼠疫杆菌样本(如实施例3中描述的)。
实施例11:腺病毒序列的性质
下列表列出序列特性和表6中出现的测序腺病毒的推定基因产物和SEQ ID NOs:575-587。
表39:Ad3(登录号NO.AY599834;SEQ ID NO:575)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点  产物
  重复区域   1..134
  启动子   480..485   “E1A基因的TATA框符”
  CDS   结合(576..662,1250..1351)   基因=“E1A”  “6KD蛋白质”
  CDS   结合(576..1155,1250..1455)   基因=“E1A”  “29.1KD蛋白质”
  CDS   结合(576..1062,1250..1455)   基因=“E1A”  “25K蛋白质”
  多A-位点   1494..1499   “E1A的多A-位点”
  启动子   1549..1554   “E1B基因”的TATA框符
  CDS   1603..2139   基因=“E1B”  “19KD小型T抗原”
  CDS   1908..3386   基因=“E1B”  55K蛋白质
  启动子   3384..3389   “pIX的TATA框符”
  多A-位点   3450..3455   “E1B的多A-位点”
  CDS   3480..3896   基因=“蛋白质IX”  “蛋白质IX”
  多A-位点   3913..3918   “pIX的多A-位点”
  多A-位点   互补(3925..3930)   “E2B的多A-位点”
  CDS   互补(连接(3948..5281,5560..5572))  基因=“E2B”   IVA2成熟蛋白质
  CDS   互补(5051..8419)  基因=“E2B”   “DNA聚合酶”
  CDS   5123..5692  基因=“假设”   “假设20.6KD早期蛋白质”
  启动子   5872..5877  “主要晚期启动子的TATA框符”
  CDS   互补(6868..7389)  基因   “假设”=“假设19KD蛋白质”
  CDS   7829..8425  基因=“L1”   “可能的DNA结合病毒蛋白”
  CDS   互补(连接(8422..10389,13848..13856))  基因=“pTP”   “DNA末端蛋白质前体”
  CDS   9757..10032  基因=“假设”   “假设9.7KD蛋白质”
  misc_RNA   10422..10595  “病毒相关RNAI”
  CDS   10890..12026  基因=“L1”   “55KD蛋白质”
  CDS   12051..13817  基因=“L1”   “pIIIa蛋白质”
  多A-位点   13830..13835  “L1的多A-位点”
  CDS   13905..15539  基因=“L2”   “五邻体碱基蛋白质”
  CDS   15553..16131  基因=“L2”   “pVII”
  CDS   16174..17223  基因=“L2”   “蛋白质V”
  多A-位点   17498..17503  “L2的多A-位点”
  CDS   17555..18001  基因=“L3”   “蛋白质VI”
  CDS   18420..21254  基因=“L3”   “六邻体蛋白质”
  CDS   21291..21920  基因=“L3”   “25K蛋白质酶”
  多A-位点   21940..21945   “L3的多A-位点”
  多A-位点   互补(21952..21957)   “E2A的多A-位点”
  CDS   互补(22006..23559)   基因=“E2A”   “DNA结合蛋白质”
  CDS   23590..26076   基因=“L4”   “六邻体组合相关的100KD蛋白质”
  CDS   25778..26375   基因=“L4”   “22K蛋白质”
  CDS   连接(25778..26159,26296..26651)   基因=“L4”   “33KD蛋白质”
  CDS   26722..27405   基因=“L4”   “蛋白质VIII”
  启动子   27087..27092   “E3基因”的TATA框符
  CDS   27405..27725   基因=“E3”   “12.5KD蛋白质”
  CDS   27679..28002   基因=“E3”   “16KD糖蛋白”
  CDS   28104..28622   基因=“E3”   “18.5蛋白质”
  CDS   28652..29191   基因=“E3”   “20.1KD蛋白质”
  CDS   29204..29773   基因=“E3”   “20.1KD蛋白质”,复制拷贝
  CDS   29788..30021   基因=“E3”   “9K糖蛋白”
  CDS   30063..30338   基因=“E3”   “10.3KD蛋白质”
  CDS   30310..30747   基因=“E3”   “14.9KD蛋白质”
  CDS   30740..31150   基因=“E3”   “14KD蛋白质”
  多A-位点   31183..31188   “E3的多A-位点”
  CDS   互补(31194..31355)   基因=“U”   “U蛋白”
  CDS   31370..32329   基因=“L5”   “纤毛蛋白”
  多A-位点   互补(32354..32359)   “E4的多A信号”
  CDS   互补(32370..32621)   基因=“E4”   “ORF6/7”
  CDS   互补(32618..33517)   基因=“E4”   “33.2KD蛋白质”
  CDS   互补(33420..33788)   基因=“E4”   “13.6KD蛋白质”
  CDS   33643..34152   基因=“L5”   “病毒蛋白”
  CDS   互补(33797..34150)   基因=“E4”   “11KD蛋白质”
  CDS   互补(34147..34536)   基因=“E4”   “14.3KD蛋白质”
  多A-位点   34561..34566   “L5的多A-位点”
  CDS   互补(34578..34955)   基因=“E4”   “13.9KD蛋白质”
  启动子   互补(35037..35042)   “E4启动子TATA框符”
  重复区   互补(35212..35345)   “倒转末端重复”
表40:Ad3FS_navy(登录No.AY599836;SEQ ID NO:576)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  重复区域   1..111   “倒转末端重复”
  启动子   480..485   “E1A的TATA框符”
  CDS   结合(576..647,1248..1349)   基因=“E1A”   “6.9K蛋白质”
  CDS   结合(576..1062,1248..1453)   基因=“E1A”   “25K蛋白质”
  CDS   结合(576..1155,1248..1453)   基因=“E1A”   “29K蛋白质”
  多A-位点   1492..1497   “E1A的多A-位点”
  启动子   1547..1552   “E1B的TATA框符”
  CDS   1601..2137   基因=“E1B”   “19K小型T抗原蛋白”
  CDS   1906..3384   基因=“E1B”   “55K大型T抗
  原蛋白”
  启动子   3428..3433   “pIX的TATA框符”
  多A-位点   3448..3453   “E1B的多A-信号”
  CDS   3478..3894   基因=“pIX”   “蛋白质IX”
  多A-位点   3907..3912   “pIX的多A-信号”
  多A-位点   互补(3923..3928)   “E2B的多A-信号”
  CDS   互补(连接(3946..5279,5558..5570))   基因=“E2B”   “IVa2蛋白质”
  CDS   互补(5049..8417)   基因=“E2B”   “DNA聚合酶”
  CDS   5123..5692   基因=“假设”   “假设20.6KD早期蛋白质”
  启动子   5870..5875   “主要晚期启动子的TATA框符”
  CDS   6142..6462   基因=“假设”   “假设11.5K早期蛋白质”
  CDS   7131..7418   基因=“假设”   “假设10.4K早期蛋白质”
  CDS   7827..8423   基因=“L1”   “可能的DNA结合病毒蛋白”
  CDS   连接(8427..8562)   基因=“E2B”   “假设12.6K早期蛋白质”
  CDS   互补(连接(8420..10387,13840..13848))   基因=“E2B”   “末端蛋白质前体,akaBettet′s蛋白质”
  CDS   连接(9532..9846)   基因=“假设”   “11.3K早期蛋白质”
  CDS   9746..10021   基因=“假设”   “9.7K早期蛋白质”
  misc_RNA   10411..10584   “VA RNA I”
  misc_RNA   10422..10595   “VA RNA II”
  CDS   10861..12018   基因=“L1”   “55K蛋白质”
  CDS   12043..13809   基因=“L1”   “六邻体相关蛋白质IIIa前体”
  多A-位点   13822..13827   “L1的多A-信号”
  CDS   13897..15531   基因=“L2”   “五邻体碱基蛋白质”
  CDS   15545..16123   基因=“L2”   “pVII 21K蛋白质”
  CDS   16166..17218   基因=“L2”   “L2蛋白质V”
  多A-位点   17493..17498   “L2的多A-信号”
  CDS   17550..18302   基因=“L3”   “pVI”
  CDS   18415..21243   基因=“L3”   “六邻体蛋白质”
  CDS   21286..21915   基因=“L3”   “23K蛋白质酶”
  多A-位点   21935..21940   “L3的多A-信号”
  CDS   互补(21947..21952)
  CDS   互补(22002..23552)   “E2A”   “DNA结合蛋白质”
  CDS   23583..26057   基因=“L4”   “100K蛋白质”
  CDS   25759..26358   基因=“L4”   “22K蛋白质”
  CDS   连接(25759..26107,26289..26632)   基因=“L4”   “33K蛋白质”
  CDS   26772..27405   基因=“L4”   “蛋白质VIII,六邻体相关蛋白质前体”
  启动子   27067..27072   “E3基因”的TATA框符
  CDS   27385..27705   基因=“E3”   “12.2K糖蛋白”
  CDS   27659..28099   基因=“E3”   “16K糖蛋白”
  CDS   28084..28602   基因=“E3”   “18.5K糖蛋白”
  CDS   28632..29171  基因=“E3”  “20.1K糖蛋白”
  CDS   29184..29753  基因=“E3”  “20.1K糖蛋白”
  CDS   29985..30260  基因=“E3”  “10.3K糖蛋白”
  CDS   30232..30669  基因=“E3”  “14.9K糖蛋白”
  CDS   30662..31072  基因=“E3”  “15.3K蛋白质”
  多A-位点   31105..31110  “E3的多A-信号”
  CDS   互补(31116..31277)  基因=“U外显子”  “U外显子蛋白”
  CDS   31292..32251  基因=“L5”  “纤毛蛋白”
  多A-位点   互补(32276..32281)  “E4的多A信号”
  CDS   互补(32292..32543)  基因=“E4”  “ORF6/7”
  CDS   互补(32540..33439)  基因=“E4”  “34K蛋白质”
  CDS   互补(33342..33710)  基因=“E4”  “13.6K蛋白质”
  CDS   33565..34074  基因=“L5”  “DNA结合病毒蛋白”
  CDS   互补(33719..34072)  基因=“E4”  “ORF3”
  CDS   互补(34069..34458)  基因=“E4”  “14.3K蛋白质”
  多A-位点   34483..34488  “L5的多A-信号”
  CDS   互补(34500..34877)  基因=“E4”  “13.9K蛋白质”
  启动子   互补(34959..34964)  “E4基因的TATA框符”  启动子
  重复区   互补(35155..35265)  “倒转末端重复”  重复区域
表41:Ad4(登录No.AY594253;SEQ+ ID NO:577)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  重复区域   1..116   “ITR”
  启动子   472..511  “E1A”
  CDS   576..1154  基因=“E1A”   “ORF1:假设性”
  CDS   结合(576..650,1236..1340)  基因=“E1A”   “早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白,GI:17227344
  CDS   结合(576..1142,1235..1441)  基因=“E1A”   “早期E1A 28KD蛋白”相似于猴腺病毒2528.2kDa蛋白,GI:17227342
  CDS   结合(576..1049,1235..1441)  基因=“E1A”   “早期E1A 24.6KD蛋白”相似于猴腺病毒2524.8kDa蛋白,GI:17227343
  多A-信号   1499..1504  “E1A”
  启动子   1553..1592  “E1B”
  CDS   结合(1600..2001,2003..2029)  基因=“E1B”   “小型T抗原蛋白(E1B19K)”
  CDS   1600..2115  基因=“E1B”   “早期E1B 20KD蛋白”相似于猴腺病毒2520.5kDa蛋白,GI:17227345
  CDS   结合(1905..2123,3259..3276)  基因=“E1B”   “早期E1B 8.2KD蛋白”相似于猴腺病毒2510.1kDa蛋白,GI:17227348
  CDS   1905..3356  基因=“E1B”   “大型T抗原”相似于猴腺病毒2554.7kDa蛋白,GI:17227347
  CDS   结合(1905..2123,3141..3356)  基因=“E1B”   “早期E1B 16.8KD蛋白”相似于猴腺病毒2518.5kDa蛋白,GI:17227346
  CDS   3141..3869  基因=“IX”   “蛋白质IX(六邻体相关蛋白质)”相似于猴腺病毒25pIX,GI:17227349
  多A-位点   3880..3885  “E1B和IX”
  多A-位点   互补(3902..3907)   “E2B和IVa2”
  CDS   互补(连接(3930..5263,5542..5554))   基因=“IVa2”   “IVa2蛋白质(成熟蛋白质)”相似于猴腺病毒25pIVa2,GI:17227350
  CDS   互补(连接(5033..8605,12212..12220))   基因=“E2B(POL)”   “DNA聚合酶”相似于猴腺病毒25TPA:pol,GI:33694808
  CDS   5105..5674   基因=“E2B”   “19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白,GI:58522
  CDS   6126..6446   基因=“E2B”   “11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白,GI:58524
  CDS   7814..8407   基因=“L1”   “DNA结合蛋白质(病毒蛋白)”相似于猴腺病毒21.9KD蛋白,GI:17227351
  CDS   连接(7814..7819,8536..8928)   基因=“E2B”   “14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白,GI:58528
  CDS   互补(连接(8404..10323,12212..12220))   基因=“E2B(pTP)”   “前体末端蛋白质”相似于猴腺病毒25TPA:pTP,GI:33694809
  misc_RNA   10356..10514   “病毒相关RNAI”   “VA RNAI,159nt”
  启动子   互补(10457..10496)   “E2B”
  启动子   10541..10580   “L1”
  misc_RNA   10575..10743   “病毒相关RNAII”   “VA RNA-II,169nt”
  CDS   10765..11937   基因=“L1(52k)”   “52K蛋白”相似于猴腺病毒2542.9kDa(52k)蛋白,GI:17227352
  多A-信号   11942..11947   “L1(52k)”
  CDS   11961..13736   基因=“L1(IIIa)”   “蛋白质IIIa”相似于
  猴腺病毒25TPA:pIIIa,GI:33694811
  多A-信号   13749..13754 “L1(IIIa)”
  启动子   13758..13797 “L2”
  CDS   13815..15422 基因=“L2(五邻体)”   “五邻体蛋白质(蛋白质III)”相似于猴腺病毒25p III,GI:17227353
  多A-信号   15425..15430 “L2(五邻体)”
  CDS   15426..16007 基因=“L2(pVII)”   “大核蛋白质(蛋白质VII)”相似于猴腺病毒25pVII,GI:17227354
  CDS   16055..17080 基因=“L2(pV)”   “小核蛋白质(蛋白质V)”相似于猴腺病毒25TPA:pV,GI:33694814
  CDS   17103..17336 基因=“L2(pX)”   “蛋白质X(蛋白质mu)”相似于猴腺病毒25TPA:pX,GI:33694815
  多A-信号   17357..17362 “L2(pX)”
  CDS   17368..18141 基因=“L3(pVI)”   “蛋白质VI(六邻体相关蛋白质)”相似于猴腺病毒25pVI,GI:17227356
  CDS   18248..21058 基因=“L3(六邻体)”   “六邻体蛋白质(蛋白质II)”相似于猴腺病毒25pII(六邻体),GI:17227357
  CDS   21082..21702 基因=“L3(23k)”   “后期L323k蛋白酶(Adenain)”相似于猴腺病毒25蛋白酶类,GI:33694818
  多A-信号   21725..21730 “L3”
  多A-信号   互补(21767..21772) “E2A”
  CDS   互补(21774..23312) 基因=“E2A(DBP)”   “早期E2A DNA结合蛋白”相似于猴腺病
  毒25DNA结合蛋白,GI:17227358
  CDS   23341..25716  基因=“L4(100k)”   “100k蛋白质”相似于猴腺病毒25TPA:100k,GI:33694820
  启动子   互补(23345..23384)  “E2A”
  CDS   25439..25978  基因=“L4(22k)”   “22k蛋白质”相似于猴腺病毒25TPA:22k,GI:33694822
  CDS   连接(25439..25756,25926..26249)  基因=“L4(33k)”   “33k蛋白质”相似于猴腺病毒25TPA:33k(24.3kDa),GI:17227359
  CDS   26318..27001  基因=“L4(pVIII)”   “L4蛋白质VIII”相似于猴腺病毒25pVIII,GI:17227360
  CDS   27002..27322  基因=“E3”   “E312.1kDa蛋白质”相似于猴腺病毒2511.6kDa蛋白质,GI:17227361
  CDS   27276..27908  基因=“E3”   “E323.3kDa蛋白质”相似于猴腺病毒25TPA:E3CR1-α1,GI:33694825
  CDS   27890..28414  基因=“E3”   “E319kDa蛋白质”相似于猴腺病毒25TPA:E3gp19k(19.3kDa),GI:33694826
  CDS   28445..29107  基因=“E3”   “E324.8kDa蛋白质”相似于猴腺病毒2522.3kDa蛋白质,TPA:E3CR1-γ1,GI:17227364
  CDS   29275..29439  基因=“E3”   “E36.3kDa蛋白质”
  CDS   29436..30260  基因=“E3”   “E329.7kDa蛋白质”相似于猴腺病毒25TPA:E3CR1-δ1,GI:33694829
  CDS   30269..30544   基因=“E3”   “E310.4kDa蛋白质”相似于猴腺病毒259.9kDa蛋白质,GI:17227365
  CDS   30550..30990   基因=“E3”   “E314.5kDa蛋白质”相似于猴腺病毒2515.6kDa蛋白质,GI:17227366
  CDS   30983..31384   基因=“E3”   “E314.7kDa蛋白质”相似于猴腺病毒2514.7kDa蛋白质,GI:17227367
  多A-信号   31424..31429   “E3”
  启动子   31473..31512   “L5”
  CDS   31645..32922   基因=“L5(纤毛)”   “纤毛蛋白质”相似于猴腺病毒25pIV(TPA:纤毛),GI:17227368
  多A-信号   32982..32987   “L5”
  多A-信号   互补(32998..33003)   “E4”
  CDS   互补(33018..33212)   基因=“E4”   “E47.4KDa蛋白质”相似于猴腺病毒25Ad9类ORF7蛋白质,GI:17227369
  CDS   互补(连接(33018..33266,33992..34165))   基因=“E4”   “E415.9KD蛋白质”相似于猴腺病毒25TPA:E4ORF6/7,GI:33694835
  CDS   互补(33266..34165)   基因=“E4”   “E434.6KD蛋白质”相似于猴腺病毒2533kDa蛋白质,GI:17227370
  CDS   互补(34068..34436)   基因=“E4”   “E414.1KD蛋白质”相似于猴腺病毒2513.2kDa蛋白质,GI:17227371
  多A-信号   互补(34388..34393)   “E4”
  CDS   互补   基因=“E4”   “E413.7KD蛋白质”
  (34445..34798)   相似于猴腺病毒2512.8kDa蛋白质,GI:17227372
  CDS   互补(34795..35184) 基因=“E4”   “E414.6KD蛋白质”相似于猴腺病毒2514.2kDa蛋白质,GI:17227373
  CDS   互补(35232..35606) 基因=“E4”   “E413.5KD蛋白质”相似于猴腺病毒25TPA:E4ORF1,GI:33694840
  重复单元   互补(35875..35990) “ITR”
表42:Ad4vaccine(登录号No.AY594254;SEQ ID NO:578)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  重复区域   1..116   “ITR”
  启动子   472..511   “E1A”
  CDS   576..1154   基因=“E1A”   “ORF1:假设性”
  CDS   结合(576..650,1236..1340)   基因=“E1A”   “早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白,GI:17227344
  CDS   结合(576..1142,1235..1441)   基因=“E1A”   “早期E1A 28KD蛋白”相似于猴腺病毒2528.2kDa蛋白,GI:17227342
  CDS   结合(576..1049,1235..1441)   基因=“E1A”   “早期E1A 24.6KD蛋白”相似于猴腺病毒2524.8kDa蛋白,GI:17227343
  多A-信号   1499..1504   “E1A”
  启动子   1553..1592   “E1B”
  CDS   结合(1600..2001,2003..2029)   基因=“E1B”   “小型T抗原蛋白(E1B 19K)”
  CDS   1600..2115   基因=“E1B”   “早期E1B 20KD蛋白”相似于猴腺病毒2520.5kDa蛋白,GI:
  17227345
  CDS   结合(1905..2153,3259..3276)   基因=“E1B”   “早期E1B 8.2KD蛋白”相似于猴腺病毒2510.1kDa蛋白,GI:17227348
  CDS   1905..3356   基因=“E1B”   “大型T抗原”相似于猴腺病毒2554.7kDa蛋白,GI:17227347
  CDS   结合(1905..2153,3141..3356)   基因=“E1B”   “早期E1B 16.8KD蛋白”相似于猴腺病毒2518.5kDa蛋白,GI:17227346
  CDS   3141..3869   基因=“IX”   “蛋白质IX(六邻体相关蛋白质)”相似于猴腺病毒25pIX,GI:17227349
  多A-位点   3880..3885   “E1B和IX”
  多A-位点   互补(3902..3907)   “E2B和IVa2”
  CDS   互补(连接(3930..5263,5542..5554))   基因=“IVa2”   “IVa2蛋白质(成熟蛋白质)”相似于猴腺病毒25pIVa2,GI:17227350
  CDS   互补(连接(5033..8605,12212..12220))   基因=“E2B(POL)”   “DNA聚合酶”相似于猴腺病毒25TPA:pol,GI:33694808
  CDS   5105..5674   基因=“E2B”   “19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白,GI:58522
  CDS   6126..6446   基因=“E2B”   “11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白,GI:58524
  CDS   7814..8407   基因=“L1”   “DNA结合蛋白质(病毒蛋白)”相似于猴腺病毒21.9KD蛋白,GI:17227351
  CDS   连接(7814..7819,8536..8928)   基因=“E2B”   “14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白,GI:
  58528
  CDS   互补(连接(8404..10323,12212..12220))   基因=“E2B(pTP)”   “前体末端蛋白质”相似于猴腺病毒25TPA:pTP,GI:33694809
  misc_RNA   10356..10514   “病毒相关RNAI”   “VARNAI,159nt”
  启动子   互补(10457..10496)   “E2B”
  启动子   10541..10580   “L1”
  misc_RNA   10575..10743   “病毒相关RNAII”   “VA RNA-II,169nt”
  CDS   10765..11937   基因=“L1(52k)”   “52K蛋白”相似于猴腺病毒2542.9kDa(52k)蛋白,GI:17227352
  多A-信号   11942..11947   “L1(52k)”
  CDS   11961..13736   基因=“L1(IIIa)”   “蛋白质IIIa”相似于猴腺病毒25TPA:pIIIa,GI:33694811
  多A-信号   13749..13754   “L1(IIIa)”
  启动子   13758..13797   “L2”
  CDS   13815..15422   基因=“L2(五邻体)”   “五邻体蛋白质(蛋白质III)”相似于猴腺病毒25p III,GI:17227353
  多A-信号   15425..15430   “L2(五邻体)”
  CDS   15426..16007   基因=“L2(pVII)”   “大核蛋白质(蛋白质VII)”相似于猴腺病毒25pVII,GI:17227354
  CDS   16055..17080   基因=“L2(pV)”   “小核蛋白质(蛋白质V)”相似于猴腺病毒25TPA:pV,GI:33694814
  CDS   17103..17336   基因=“L2(pX)”   “蛋白质X(蛋白质mu)”相似于猴腺病毒25TPA:pX,GI:33694815
  多A-信号   17357..17362   “L2(pX)”
  CDS   17368..18141 基因=“L3(pVI)”   “蛋白质VI(六邻体相关蛋白质)”相似于猴腺病毒25pVI,GI:17227356
  CDS   18248..21058 基因=“L3(六邻体)”   “六邻体蛋白质(蛋白质II)”相似于猴腺病毒25pII(六邻体),GI:17227357
  CDS   21082..21702 基因=“L3(23k)”   “后期L323k蛋白酶(Adenain)”相似于猴腺病毒25蛋白酶类,GI:33694818
  多A-信号   21725..21730 “L3”
  多A-信号   互补(21767..21772) “E2A”
  CDS   互补(21774..23312) 基因=“E2A(DBP)”   “早期E2A DNA结合蛋白”相似于猴腺病毒25DNA结合蛋白,GI:17227358
  CDS   23341..25716 基因=“L4(100k)”   “100k蛋白质”相似于猴腺病毒25TPA:100k,GI:33694820
  启动子   互补(23345..23384) “E2A”
  CDS   25439..25978 基因=“L4(22k)”   “22k蛋白质”相似于猴腺病毒25TPA:22k,GI:33694822
  CDS   连接(25439..25756,25926..26252) 基因=“L4(33k)”   “33k蛋白质”相似于猴腺病毒25TPA:33k(24.3kDa),GI:17227359
  CDS   26321..27004 基因=“L4(pVIII)”   “L4蛋白质VIII”相似于猴腺病毒25pVIII,GI:17227360
  CDS   27005..27325 基因=“E3”   “E312.1kDa蛋白质”相似于猴腺病毒2511.6kDa蛋白质,GI:17227361
  CDS   27279..27911 基因=“E3”   “E323.3kDa蛋白质”
  相似于猴腺病毒25TPA:E3CR1-α1,GI:33694825
  CDS   27893..28417 基因=“E3”   “E319kDa蛋白质”相似于猴腺病毒25TPA:E3gp19k(19.3kDa),GI:33694826
  CDS   28449..29111 基因=“E3”   “E324.8kDa蛋白质”相似于猴腺病毒2522.3kDa蛋白质,TPA:E3CR1-γ1,GI:17227364
  CDS   29279..29443 基因=“E3”   “E36.3kDa蛋白质”
  CDS   29440..30264 基因=“E3”   “E329.7kDa蛋白质”相似于猴腺病毒25TPA:E3CR1-δ1,GI:33694829
  CDS   30273..30548 基因=“E3”   “E310.4kDa蛋白质”相似于猴腺病毒259.9kDa蛋白质,GI:17227365
  CDS   30554..30994 基因=“E3”   “E314.5kDa蛋白质”相似于猴腺病毒2515.6kDa蛋白质,GI:17227366
  CDS   30987..31388 基因=“E3”   “E314.7kDa蛋白质”相似于猴腺病毒2514.7kDa蛋白质,GI:17227367
  多A-信号   31428..31433 “E3”
  启动子   31477..31516 “L5”
  CDS   31649..32926 基因=“L5(纤毛)”   “纤毛蛋白质”相似于猴腺病毒25pIV(TPA:纤毛),GI:17227368
  多A-信号   32986..32991 “L5”
  多A-信号   互补(33002..33007) “E4”
  CDS   互补(33022..33216) 基因=“E4”   “E47.4KDa蛋白质”相似于猴腺病毒25
  Ad9类ORF7蛋白质,GI:17227369
  CDS   互补(连接(33022..33270,33996..34169))   基因=“E4”   “E415.9KD蛋白质”相似于猴腺病毒25TPA:E4ORF6/7,GI:33694835
  CDS   互补(33270..34169)   基因=“E4”   “E434.6KD蛋白质”相似于猴腺病毒2533kDa蛋白质,GI:17227370
  CDS   互补(34072..34440)   基因=“E4”   “E414.1KD蛋白质”相似于猴腺病毒2513.2kDa蛋白质,GI:17227371
  多A-信号   互补(34392..34397)   “E4”
  CDS   互补(34449..34802)   基因=“E4”   “E413.7KD蛋白质”相似于猴腺病毒2512.8kDa蛋白质,GI:17227372
  CDS   互补(34799..35188)   基因=“E4”   “E414.6KD蛋白质”相似于猴腺病毒2514.2kDa蛋白质,GI:17227373
  CDS   互补(35236..35610)   基因=“E4”   “E413.5KD蛋白质”相似于猴腺病毒25TPA:E40RF1,GI:33694840
  重复单元   互补(35879..35994)   “ITR”
表43:Ad4FS_navy(登录号No.AY599835;SEQ ID NO:579)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  重复区域   1..208   “ITR”
  CDS   576..1121   基因=“E1A”   “ORF1:假设性”
  CDS   结合(576..650,1203..1307)   基因=“E1A”   “早期E1A 6.8KD蛋白”相似于猴腺病毒25 11kDa蛋白,GI:17227344
  CDS   结合(576..1109,202..1408) 基因=“E1A”   “早期E1A 27KD蛋白”相似于猴腺病毒2528.2kDa蛋白,GI:17227342
  CDS   结合(576..1016,202..1408) 基因=“E1A”   “早期E1A 23.5KD蛋白”相似于猴腺病毒2524.8kDa蛋白,GI:17227343
  多A-信号   1464..1469 “E1A”
  启动子   1518..1557 “E1B”
  CDS   结合(1565..1966,1968..1994) 基因=“E1B”   “小型T抗原”
  CDS   1565..2119 基因=“E1B”   “早期E1B 21.5KD蛋白”标准命名-猴腺病毒2520.5kDa蛋白,GI:17227345
  CDS   连接(1870..2127,3145..3360) 基因=“E1B”   “早期E1B 9KD蛋白”相似于猴腺病毒2510.1kDa蛋白,GI:17227348
  CDS   1870..3360 基因=“E1B”   “大型T抗原”相似于猴腺病毒2554.7kDa蛋白,GI:17227347
  CDS   结合(1870..2157,3145..3360) 基因=“E1B”   “早期E1B 17.9KD蛋白”相似于猴腺病毒2518.5kDa蛋白,GI:17227346
  CDS   3444..3872 基因=“IX”   “蛋白质IX(六邻体相关蛋白质)”
  多A-信号   3882..3887 “E1B和IX”
  多A-信号   互补(3904..3909) “E2B和IVa2”
  CDS   互补(连接(3935..5268,5547..5559)) 基因=“IVa2”   “IVa2蛋白质(成熟蛋白质)”
  CDS   互补(连接(5038..8610,12152..12160)) 基因=“E2B(POL)”   “DNA聚合酶”
  CDS   5110..5679 基因=“E2B”   “19.4KD早期蛋白”相
  似于人腺病毒7假设20.6KD早期蛋白,GI:58522
  CDS   6131..6451 基因=“E2B”   “11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白,GI:58524
  CDS   7819..8412 基因=“L1”   “DNA结合蛋白质(agnoprotein)”相似于猴腺病毒21.9KD蛋白,GI:17227351
  CDS   连接(7819..7824,8541..8933) 基因=“E2B”   “14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白,GI:58528
  CDS   互补(连接(8409..10328,12152..12160)) 基因=“E2B(pTP)”   “前体末端蛋白质”
  misc_RNA   10361..10519 “病毒相关RNAI”   “VA RNAI,159nt”
  启动子   互补(10462..10501) “E2B”
  启动子   10542..10581 “L1”
  misc_RNA   10584..10684 “病毒相关RNAII”   “VA RNA-II,10Int”
  CDS   10705..11877 基因=“L1(52k)”   “52K蛋白”
  多A-信号   11882..11887 “L1(52k)”
  CDS   11901..13682 基因=“L1(IIIa)”   “蛋白质IIIa”
  多A-信号   13696..13701 “L1(IIIa)”
  启动子   13755..13794 “L2”
  CDS   13762..15369 基因=“L2(五邻体)”   “五邻体蛋白质(蛋白质III)”
  多A-信号   15372..15377 “L2(五邻体)”
  CDS   15373..15954 基因=“L2(pVII)”   “大核蛋白质(蛋白质VII)”
  CDS   16002..17027 基因=“L2(pV)”   “小核蛋白质(蛋白质V)”
  CDS   17050..17283 基因=“L2(pX)”   “蛋白质X(蛋白质mu)”
  CDS   17343..18074 基因=“L3(pVI)”   “蛋白质VI(六邻体相关蛋白质)”
  CDS   18181..20991 基因=“L3(六邻体)”   “六邻体蛋白质(蛋白质II)”
  CDS   21015..21635 基因=“L3(23k)”   “23k蛋白酶类”
  多A-信号   21661..21666 “L3”
  多A-信号   互补(21703..21708) “E2A”
  CDS   互补(21710..23242) 基因=“E2A(DBP)”   “早期E2A DNA结合蛋白”
  启动子   互补(23345..23384) “E2A”
  启动子   23211..23250 “L4”
  CDS   23271..25634 基因=“L4(100k)”   “100k蛋白质”
  CDS   25369..25884 基因=“L4(22k)”   “22k蛋白质”
  CDS   连接(25369..25674,25844..26158) 基因=“L4(33k)”   “33k蛋白质”
  CDS   26226..26909 基因=“L4(pVIII)”   “L4蛋白质VIII”
  CDS   26910..27230 基因=“E3”   “E312.1kDa蛋白质”
  CDS   27184..27816 基因=“E3”   “E323.3kDa蛋白质”
  CDS   27798..28322 基因=“E3”   “E319kDa蛋白质”
  CDS   28352..28987 基因=“E3”   “E324.8kDa蛋白质”
  CDS   29296..30105 基因=“E3”   “E329.7kDa蛋白质”
  CDS   30114..30389 基因=“E3”   “E310.4kDa蛋白质”
  CDS   30395..30835 基因=“E3”   “E314.5kDa蛋白质”
  CDS   30828..31229 基因=“E3”   “E314.7kDa蛋白质”
  多A-信号   31279..31284 “E3”
  启动子   31292..31331 “L5”
  CDS   31464..32741 基因=“L5(纤毛)”   “纤毛蛋白质”
  多A-信号   32801..32806 “L5”
  多A-信号   互补(32817..32822) “E4”
  CDS   互补(32837..33031)   基因=“E4”   “E47.4KDa蛋白质”
  CDS   互补(连接(32837..33085,33811..33984))   基因=“E4”   “E415.9KD蛋白质”
  CDS   互补(33085..33984)   基因=“E4”   “E434.6KD蛋白质”
  CDS   互补(33887..34255)   基因=“E4”   “E414.1KD蛋白质”
  多A-信号   互补(34207..34212)   “E4”
  CDS   互补(34264..34617)   基因=“E4”   “E413.7KD蛋白质”
  CDS   互补(34614..35003)   基因=“E4”   “E414.6KD蛋白质”
  CDS   互补(35051..35425)   基因=“E4”   “E413.5KD蛋白质”
  重复单元   互补(35758..35965)   “ITR”
表44:Ad4FS_AF(登录号No.AY599837;SEQ ID NO:580)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  重复区域   1..208   “ITR”
  CDS   575..1120   基因=“E1A”   “ORF1:假设性”
  CDS   结合(575..649,1202..1306)   基因=“E1A”   “早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白,GI:17227344
  CDS   结合(575..1108,1201..1407)   基因=“E1A”   “早期E1A 27KD蛋白”相似于猴腺病毒2528.2kDa蛋白,GI:17227342
  CDS   结合(576..1016,1202..1407)   基因=“E1A”   “早期E1A 23.5KD蛋白”相似于猴腺病毒2524.8kDa蛋白,GI:17227343
  多A-信号   1463..1468   “E1A”
  启动子   1517..1556 “E1B”
  CDS   结合(1564..1965,1976..1993) 基因=“E1B”   “小型T抗原(16.5kDa)”
  CDS   1564..2115 基因=“E1B”   “早期E1B 21.5KD蛋白”标准命名-猴腺病毒2520.5kDa蛋白,GI:17227345
  CDS   连接(1869..2123,3258..3269) 基因=“E1B”   “早期E1B 9KD蛋白”相似于猴腺病毒2510.1kDa蛋白,GI:17227348
  CDS   连接(1869..2615,2618..3355) 基因=“E1B”   “大型T抗原(55KD)”相似于猴腺病毒2554.7kDa蛋白,GI:17227347
  CDS   结合(1869..2153,3140..3355) 基因=“E1B”   “早期E1B 17.9KD蛋白”相似于猴腺病毒2518.5kDa蛋白,GI:17227346
  CDS   3439..3867 基因=“IX”   “蛋白质IX(六邻体相关蛋白质)”
  多A-信号   3877..3882 “E1B和IX”
  多A-信号   互补(3899..3904) “E2B和IVa2”
  CDS   互补(连接(3931..5264,5543..5555)) 基因=“IVa2”   “IVa2蛋白质(成熟蛋白质)”
  CDS   互补(连接(5034..8606,12151..12159)) 基因=“E2B(POL)”   “DNA聚合酶”
  CDS   5106..5675 基因=“E2B”   “19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白,GI:58522
  CDS   6127..6447 基因=“E2B”   “11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白,GI:58524
  CDS   7815..8408 基因=“L1”   “DNA结合蛋白质(病毒蛋白)”相似于猴腺
  猴腺病毒21.9KD蛋白,GI:17227351
  CDS   连接(7815..7820,8537..8929) 基因=“E2B”   “14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白,GI:58528
  CDS   互补(连接(8405..10324,12151..12159)) 基因=“E2B(pTP)”   “前体末端蛋白质”
  misc_RNA   10357..10515 “病毒相关RNAI”   “VA RNAI,159nt”
  启动子   互补(10458..10497) “E2B”
  启动子   10541..10580 “L1”
  misc_RNA   10583..10683 “病毒相关RNAII”   “VA RNA-II,101nt”
  CDS   10704..11876 基因=“L1(52k)”   “52K蛋白”
  多A-信号   11881..11886 “L1(52k)”
  CDS   11900..13681 基因=“L1(IIIa)”   “蛋白质IIIa”
  多A-信号   13695..13700 “L1(IIIa)”
  启动子   13754..13793 “L2”
  CDS   13761..15368 基因=“L2(五邻体)”   “五邻体蛋白质(蛋白质III)”
  多A-信号   15371..15376 “L2(五邻体)”
  CDS   15372..15953 基因=“L2(pVII)”   “大核蛋白质(蛋白质VII)”
  CDS   16001..17026 基因=“L2(pV)”   “小核蛋白质(蛋白质V)”
  CDS   17049..17282 基因=“L2(pX)”   “蛋白质X(蛋白质mu)”
  CDS   17314..18072 基因=“L3(pVI)”   “蛋白质VI(六邻体相关蛋白质)”
  CDS   18179..20989 基因=“L3(六邻体)”   “六邻体蛋白质(蛋白质II)”
  CDS   21013..21633 基因=“L3(23k)”   “L323k蛋白酶类(Adenain)”
  多A-信号   21659..21664 “L3”
  多A-信号   互补(21701..21706) “E2A”
  CDS   互补(21708..23240) 基因=“E2A(DBP)”   “早期E2A DNA结合蛋白”
  启动子   互补(23165..23207) “E2A”
  启动子   23209..23248 “L4”
  CDS   23269..25632 基因=“L4(100k)”   “100k蛋白质”
  CDS   25367..25882 基因=“L4(22k)”   “22k蛋白质”
  CDS   连接(25367..25672,25842..26156) 基因=“L4(33k)”   “33k蛋白质”
  CDS   26224..26907 基因=“L4(pVIII)”   “L4蛋白质VIII”
  CDS   26908..27228 基因=“E3”   “E312.1kDa蛋白质”
  CDS   27182..27814 基因=“E3”   “E323.3kDa蛋白质”
  CDS   27796..28320 基因=“E3”   “E319kDa蛋白质”
  CDS   28350..28985 基因=“E3”   “E324.8kDa蛋白质”
  CDS   29295..30104 基因=“E3”   “E329.7kDa蛋白质”
  CDS   30113..30388 基因=“E3”   “E310.4kDa蛋白质”
  CDS   30394..30834 基因=“E3”   “E314.5kDa蛋白质”
  CDS   30827..31228 基因=“E3”   “E314.7kDa蛋白质”
  多A-信号   31278..31283 “E3”
  启动子   31291..31330 “L5”
  CDS   31463..32740 基因=“L5(纤毛)”   “纤毛蛋白质”
  多A-信号   32800..32805 “L5”
  多A-信号   互补(32816..32821) “E4”
  CDS   互补(32836..33030) 基因=“E4”   “E47.4KDa蛋白质”
  CDS   互补(连接(32836..33084,33810..33983)) 基因=“E4”   “E415.9KD蛋白质”
  CDS   互补(33084..33983) 基因=“E4”   “E434.6KD蛋白质”
  CDS   互补(33886..34254)   基因=“E4”   “E414.1KD蛋白质”
  多A-信号   互补(34206..34211)   “E4”
  CDS   互补(34263..34616)   基因=“E4”   “E413.7KD蛋白质”
  CDS   互补(34613..35002)   基因=“E4”   “E414.6KD蛋白质”
  CDS   互补(35050..35424)   基因=“E4”   “E413.5KD蛋白质”
  重复单元   互补(35757..35964)   “ITR”
表45:Ad5FS(登录号No.AY601635;SEQ ID NO:581)序列特征和假设性基因产物
  特征类型   位置 注释或基因位点   产物
  CDS   11565..12297 “52/55K蛋白质基因”   蛋白质_id=“AAA96406.1”
  CDS   12318..14075 产物=“蛋白质IIIa”   蛋白质_id=“AAA96407.1”
  CDS   16286..16474 产物=“蛋白质pVII”   蛋白质_id=“AAA96408.1”
  CDS   16544..17650 产物=“蛋白质V”   蛋白质_id=“AAA96409.1”
  CDS   17774..17920 产物=“蛋白质5前体”   蛋白质_id=“AAA96410.1”
  CDS   18003..18755 产物=“蛋白质pVI”   蛋白质_id=“AAA96411.1”
  CDS   25819..26484 “100k蛋白质”   蛋白质_idd=“AAA96412.1”
  外显子   26485..26514 “33k蛋白质的外显子”
  外显子   26713..27083 “33k蛋白质的外显子”
  CDS   27174..27857 产物=“蛋白质pVIII”   蛋白质_id=“AAA96413.1”
表46:Ad7(登录No.AY594255;SEQ ID NO:582)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点  产物
  重复区域   1..108   “倒转末端重复”
  启动子   481..486   “E1A的TATA框符”
  CDS   结合(577..648,1250..1351)   基因=“E1A”  “6KD蛋白质”
  CDS   结合(577..1156,1250..1455)   基因=“E1A”  “E1A 28KD蛋白质”
  CDS   结合(577..1063,1250..1455)   基因=“E1A”  “mRNAII  产物与gi|209784同源”
  多A-位点   1494..1499   “E1A基因的多A-位点。GenScan推算”
  启动子   1549..1554   “E1B的TATA框符”
  CDS   1603..2139   基因=“E1B”  “19kD小型T抗原蛋白与Ad7中未命名蛋白质gi|58518同源”
  CDS   1908..3386   基因=“E1B”  “55kD蛋白与Ad7中gi|58519同源”
  启动子   3384..3389   “pIX 的TATA框符”
  多A-位点   3405..3410   “E1B  基因的GenScan推算多A-位点”
  多A-位点   互补(3928..3933)   “E2B  基因的GenScan推算多A-位点”
  CDS   互补(连接(3950..5283,5562..5574))   基因=“IVa2”  “IVa2成熟蛋白质”
  CDS   互补(5053..8421)   基因=“E2B”  “DNA聚合酶”
  启动子   5874..5879   “主要晚期启动子的TATA框符”
  CDS   7987..8427   基因=“L1”  “DNA结合蛋白质与E型腺病毒中蛋白质
gi|17227351同源”
  CDS   互补(8231..8575)   基因=“E2B” “假设12.6kD早期蛋白质,Ad7中gi|139931”
  CDS   互补(8424..10346)   基因=“E2B” “末端蛋白质前体,Ad7中同源物为gi|74214”
  CDS   8550..8951   基因=“L1” “假设14.5kD蛋白质”
  CDS   互补(9545..9859)   基因=“E2B” “11.3kD早期蛋白质,Ad7中同源物为gi|139914”
  CDS   9759..10034   基因=“L1” “9.7kD假设蛋白质,Ad7中同源物为gi|140138”
  misc_RNA   10423..10592   “VA RNA I”
  misc_RNA   10668..10838   “VA RNA II”
  CDS   10890..12026   基因=“L1” “55kD蛋白质”
  CDS   12051..13817   基因=“L1” “peri五邻体al六邻体相关蛋白质IIIa”
  多A-位点   13830..13835   “L1的GenScan推算多A-位点”
  CDS   13905..15539   基因=“L2” “五邻体碱基蛋白质(III)”
  多A-位点   15545..15550   “L2的GenScan推算多A-位点”
  CDS   15550..16128   基因=“L2” “蛋白质VII前体”
  CDS   16171..17000   基因=“L2” “小核蛋白,蛋白质V”
  多A-位点   17497..17502   “L2的GenScan推算多A-位点”
  CDS   17554..18306   基因=“L3” “蛋白质VI前体”
  CDS   18419..21232   基因=“L3” “六邻体蛋白质”
  CDS   21269..21898   基因=“L3” “23K蛋白质酶”
  多A-位点   21918..21923   “L3的GenScan推算多A-位点”
  多A-位点   互补(21930..21935)   “E2A的GenScan推算多A-位点”
  CDS   互补   “E2A” “DNA结合蛋白质”
  (21985..23538)
  CDS   23569..26055   基因=“L4”   “100K六邻体组合相关蛋白质”
  CDS   互补(24924..25133)   基因=“假设”   “假设蛋白质”
  CDS   25757..26356   基因=“L4”   “22K蛋白质”
  CDS   连接(25850..26225,26275..26630)   基因=“L4”   “33kD蛋白质”
  多A-位点   26662..26667   “L4的”
  CDS   26700..27383   基因=“L4”   “蛋白质VIII,六邻体相关蛋白质前体”
  启动子   27065..27070   “E3的TATA框符”
  CDS   27383..27703   基因=“E3”   “12.1kD糖蛋白”
  CDS   27657..28097   基因=“E3”   “16.1kD蛋白”
  CDS   28082..28600   基因=“E3”   “19.3kD MHC  I类抗原结合糖蛋白前体”
  CDS   28630..29169   基因=“E3”   “假设20.6kD蛋白”
  CDS   29182..29751   基因=“E3”   “20.6kD蛋白”
  CDS   29766..29966   基因=“E3”   “7.7kD蛋白”
  CDS   30083..30313   基因=“E3”   “10.3kD蛋白”
  CDS   30285..30722   基因=“E3”   “14.9kD蛋白”
  CDS   30715..31122   基因=“E3”   “14.7kD蛋白质”
  多A-位点   31128..31133   “E3的GenScan推算多A-位点”
  CDS   互补(31141..31305)   基因=“”   “U蛋白”
  CDS   31320..32297   基因=“L5”   “纤毛蛋白”
  多A-位点   互补(32317..32322)   “E4的GenScan推算多A-位点”
  CDS   互补(32333..32584)   基因=“E4”   “ORF6/7蛋白质”
  CDS   互补(32581..33480)   基因=“E4”   “33.2kD蛋白质”
  CDS   互补(33383..33751)   基因=“E4”   “13.6kD蛋白质”
  CDS   33606..34115   基因=“L5”   “病毒蛋白”
  CDS   互补(33760..34113)   基因=“E4”   “34kD蛋白质”
  CDS   互补(34110..34499)   基因=“E4”   “130aa蛋白质”
  多A-位点   34122..34127   “L5基因的可能多A-信号”
  CDS   互补(34541..34918)   基因=“E4”   “13.9kD蛋白质”
  启动子   互补(35000..35005)   “E4的TATA框符”
  重复区   互补(35199..35306)   “倒转末端重复”
表47:Ad7FS_navy(登录No.AY601634;SEQ ID NO:583)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  重复区域   1..135   “倒转末端重复”
  启动子   479..484   “E1A的TATA框符”
  CDS   575..1168   基因=“E1A”   “假设E1A蛋白质”
  CDS   结合(575..646,1249..1350)   基因=“E1A”   “6KD蛋白质”
  CDS   结合(575..1154,1249..1454)   基因=“E1A”   “mRNAI,28KD E1A蛋白质”
  CDS   结合(575..1061,1249..1454)   基因=“E1A”   “mRNAII蛋白质”
  多A-信号   1493..1498   “E1A基因的多A-信号”
  启动子   1548..1553   “E1B的TATA框符”
  CDS   1602..2138   基因=“E1B”   “20kD小型T抗原蛋白”
  CDS   1907..3385   基因=“E1B”   “转化相关的55kD蛋白”
  启动子   3383..3388   “pIX的TATA框符”
  多A-信号   3401..3406   “E1B基因的多A-信号”
  多A-信号   互补(3926..3931)   “E2B基因的可能多A-信号”
  CDS   互补(连接(5560..5572,3948..5281))   基因=“E2B”   “IVa2成熟蛋白质”
  CDS   互补(5051..8419)   基因=“E2B”   “DNA聚合酶”
  启动子   5872..5877   “主要晚期启动子的TATA框符”
  CDS   6144..6464   基因=“假设”   “假设的蛋白质A-106”
  CDS   互补(6868..7389)   基因=“E2B”   “假设19kD蛋白质”
  CDS   7133..7420   基因=“L1”   “假设10.4kD蛋白质”
  CDS   7829..8425   基因=“L1”   “15.3kD病毒蛋白”
  CDS   互补(8328..8573)   基因=“E2B”   “假设的12.6kD早期蛋白质”
  CDS   互补(8422..10344)   基因=“E2B”   “五邻体DNA结合蛋白质”
  CDS   8548..8949   基因=“假设”   “假设的14.5kD早期蛋白质”
  CDS   9757..10032   基因=“假设”   “假设9.7kD蛋白质”
  misc_RNA   10424..10584   “VA RNA I”
  misc_RNA   10655..10829   “VA RNA II”
  CDS   10806..11975   基因=“L1”   “55kD蛋白质”
  CDS   12000..13766   基因=“L1”   “peri五邻体al六邻体相关蛋白质IIIA”
  多A-位点   13799..13784   “L1的多A-信号”
  CDS   13854..15488   基因=“L2”   “五邻体碱基蛋白质”
  CDS   15500..16078   基因=“L2”   “大核蛋白前体pVII”
  CDS   16121..17173   基因=“L2”   “小核蛋白前体pV”
  多A-位点   17488..17453   “L2的可能多A-信号”
  CDS   17505..18239   基因=“L3”   “pVI前体”
  CDS   18352..21156   基因=“L3”   “六邻体蛋白质”
  CDS   21193..21822   基因=“L3”   “23KD蛋白质酶”
  多A-信号   21842..21847   “L3的可能多A-信号”
  多A-信号   互补(21854..21859)   “E2A的可能多A-信号”
  CDS   互补(21911..23464)   基因=“E2A”   “DNA结合蛋白质”
  CDS   23495..25984   基因=“L4”   “100KD蛋白质”
  CDS   25686..26285   基因=“假设”   “22K蛋白质”
  CDS   连接(25686..26034,26204..26559)   基因=“L4”   “33kD蛋白质”
  CDS   26719..27312   基因=“L4”   “pVIII蛋白质”
  启动子   26994..26999   “E3基因的假设性TATA框符”
  CDS   27312..27632   基因=“E3A”   “12.IkD糖蛋白”
  多A-信号   27391..27396   “L4的可能多A-信号”
  CDS   27586..28026   基因=“E3A”   “16.1kD蛋白”
  CDS   28011..28529   基因=“E3A”   “19kD MHC  I类抗原结合糖蛋白前体”
  CDS   28559..29083   基因=“E3A”   “20.3kD糖蛋白”
  CDS   29110..29679   基因=“E3A”   “20.3kD蛋白”
  CDS   29694..29819   基因=“E3A”   “7.7kD蛋白”
  CDS   29931..30206   基因=“E3A”   “10.3kD蛋白”
  CDS   30178..30615   基因=“E3A”   “14.9kD蛋白”
  CDS   30608..31015   基因=“E3A”   “15.3kD蛋白质”
  多A-信号   31021..31026   “E3的假设性多A-信号”
  CDS   31213..32190   基因=“L5”   “纤毛蛋白”
  多A-信号   互补(32209..32214)   “E4基因的可能多A-信号”
  CDS   互补(32225..32476)   基因=“E4”   “ORF6/7”
  CDS   互补(32473..33372)   基因=“E4”   “32kD蛋白质”
  CDS   互补(33275..33643)   基因=“E4”   “13.6kD蛋白质”
  CDS   33498..34007   基因=“L5”   “病毒蛋白”
  CDS   互补(33652..34005)   基因=“E4”   “13kD蛋白质”
  CDS   互补(34002..34391)   基因=“E4”   “130aa蛋白质”
  CDS   互补(34433..34810)   基因=“E4”   “13.9kD蛋白质”
  启动子   互补(34891..34896)   “E4基因的TATA框符”
  重复区   互补(35062..35197)   “倒转末端重复”
表48:Ad7vaccine(登录No.AY594256;SEQ ID NO:584)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  重复区域   1..136   “倒转末端重复”
  启动子   476..481   “E1A基因的TATA框符”
  CDS   结合(572..647,1247..1348)   基因=“E1A”   “E1A 6KD蛋白质”
  CDS   结合(572..1157,1246..1452)   基因=“E1A”   “E1A mRNAI蛋白质与Ad11中29.1KD蛋白质同源”
  CDS   结合(572..1067,1246..1452)   基因=“E1A”   “E1A mRNAII蛋白质与Ad11中25.7KD蛋白质同源”
  多A-位点   1490..1495
  启动子   1545..1550   “E1B的TATA框符”
  CDS   1599..2136   基因=“E1B”   “20kD蛋白,小型T抗原”
  CDS   1904..3382   基因=“E1B”   “55kD蛋白”
  启动子   3380..3385   “pIX的TATA框符”
  CDS   3476..3892   基因=“IX”   “蛋白质IX”
  多A-信号   3905..3910
  多A-信号   互补(3923..3928)
  CDS   互补(连接(3945..5278,5557..5569))   基因=“E2B”   “pIVa2”
  CDS   互补(5048..8416)   基因=“E2B”   “DNA聚合酶”
  启动子   5869..5874   “主要晚期启动子的TATA  框符”
  CDS   6141..6461   基因=“假设”   “A-106假设的蛋白质”
  CDS   7826..8422   基因=“病毒蛋白基因”   “13.6kD病毒蛋白”
  CDS   互补(8419..10341)   基因=“E2B”   “DNA末端蛋白质”
  CDS   互补(9540..9854)   基因=“假设”   “11.3kD假设蛋白质”
  CDS   9754..10029   基因=“假设”   “蛋白质=9.7kD假设蛋白质”
  misc_RNA   10403..10821   “VA RNA,由于25bp缺失变短”   “VA RNA”
  CDS   10828..11997   基因=“L1”   “55kD蛋白质”
  CDS   12022..13788   基因=“L1”   “pIIIA前体”
  CDS   13876..15510   “L2”   “五邻体蛋白质III前体”
  多A-位点   15512..15517
  CDS   15520..16098   基因=“L2”   “蛋白pVII前体”
  CDS   16121..17173   基因=“L2”   “蛋白pV”
  多A-位点   17467..17472
  CDS   17523..18275   基因=“L3”   “蛋白质VI前体”
  CDS   18388..21192   基因=“L3”   “六邻体”
  CDS   21229..21858   基因=“L3”   “23K蛋白质酶”
  多A-信号   21878..21883
  多A-信号   互补(21890..21895)
  CDS   互补(21911..23464)   基因=“E2A”   “DNA结合蛋白质”
  CDS   23531..26020   基因=“L4”   “六邻体蛋白质”
  CDS   25722..26321   基因=“L4”   “33KD蛋白质”
  CDS   连接(25722..26070.26252..26595)   基因=“L4”   “33kD蛋白质”
  CDS   26665..27348   基因=“L4”   “pIII蛋白质”
  启动子   27030..27035   “E3的TATA框符”
  CDS   27348..27668   基因=“E3”   “12.1kD糖蛋白”
  CDS   27622..28062   基因=“E3”   “16.1kD蛋白”
  CDS   28047..28565   基因=“E3”   “18.3kD糖蛋白前体”
  CDS   28595..29134   基因=“E3”   “E320.1kD蛋白”
  CDS   29147..29716   基因=“E3”   “E320.6kD蛋白复制”
  CDS   29731..29856   基因=“E3”   “E37.7kD蛋白”
  CDS   29969..30244   基因=“E3”   “E310.3kD蛋白”
  CDS   30249..30653   基因=“E3B”   “E3B 14.9kD蛋白质前体”
  CDS   30646..31053   基因=“E3B”   “E3B 14.7kD蛋白质”
  多A-位点   31059..31064
  CDS   31251..32228   基因=“L5”   “L5纤毛蛋白”
  多A-位点   互补(32247..32252)
  CDS   互补(32263..32514)   基因=“E4”   “E4ORF6/7”
  多A-位点   32764..32769
  CDS   互补(33313..33681)   基因=“E4”   “E413.6kD蛋白质”
 CDS   33536..34045 基因=“可能的病毒蛋白基因”   “可能的病毒蛋白”
 CDS   互补(33690..34043) 基因=“E4”   “E413kD蛋白质”
 CDS   互补(34040..34429) 基因=“E4”   “13.9kD蛋白质”
 CDS   互补(34471..34848) 基因=“E4”   “假设蛋白质”
表49:Ad16(登录No.AY594256;SEQ ID NO:585)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  重复区域   1..114   “倒转末端重复”
  启动子   478..483   “E1启动子的TATA框符”
  CDS   结合(574..645,1247..1348)   基因=“E1A”   “6.3KDa蛋白质”
  CDS   结合(574..1060,1247..1452)   基因=“E1A”   “25.7KDa蛋白质”
  CDS   结合(574..1153,1247..1452)   基因=“E1A”   “28KDa蛋白质”
  多A-信号   1489..1494   “E1A的多A信号”
  启动子   1544..1549   “E1B基因的TATA框符”
  CDS   1598..2134   基因=“E1B”   “19K小型T抗原蛋白”
  CDS   1903..3381   基因=“E1B”   “55K大型T抗原蛋白”
  启动子   3444..3449   “pIX的TATA框符”
  CDS   3476..3892   基因=“pIX”   “蛋白质IX”
  多A-位点   3905..3910   “pIX的多A-信号”
  多A-   互补(3923..3928)   “E2B的多A-信号”
位点
  CDS   互补(连接(3945..5278,5557..5569))   基因=“E2B”   “成熟蛋白质pIVa2”
  CDS   互补(5048..8416)   基因=“E2B”   “DNA聚合酶”
  启动子   5869..5874   “主要晚期启动子的TATA框符”
  CDS   7130..7417   基因=“假设”   “假设10.4K早期蛋白质”
  CDS   7826..8422   基因=“L1”   “可能的DNA结合病毒蛋白”
  CDS   结合(8426..8570)   基因=“E2B”   “假设12.6K早期蛋白质”
  CDS   互补(连接(8419..10386,13843..13851))   基因=“E2B”   “末端蛋白质前体”
  CDS   10851..12020   基因=“L1”   “55K蛋白质”
  CDS   12045..13811   基因=“L1”   “蛋白质IIIa前体”
  多A-信号   13825..13830   “L1的多A-信号”
  CDS   13902..15569   基因=“L2”   “五邻体碱基蛋白质”
  CDS   15582..16160   基因=“L2”   “蛋白质VII前体”
  CDS   16203..17255   基因=“L2”   “32K蛋白质V”
  CDS   17284..17511   基因=“L2”   “蛋白质X”
  多A-位点   17529..17534   “L2的多A-信号”
  CDS   17586..18284   基因=“L3”   “pVI前体”
  CDS   18450..21272   基因=“L3”   “六邻体蛋白质”
  CDS   21309..21938   基因=“L3”   “23K蛋白质酶”
  多A-位点   21958..21963   “L3的多A-信号”
  多A-位点   互补(21970..21975)   “E2A的多A-信号”
  CDS   互补(22027..23580)   “E2A”   “早期DNA结合蛋白质”
  CDS   23611..26097   基因=“L4”   “100K蛋白质”
  CDS   25799..26398   基因=“L4”   “22K蛋白质”
  CDS   连接(25799..26147,26317..26672)   “33K蛋白质”   基因=“L4”
  CDS   26742..27425   基因=“L4”   “蛋白质VIII前体”
  启动子   27107..27112   “E3的TATA框符”
  CDS   27425..27745   基因=“E3A”   “12.2K糖蛋白”
  CDS   27699..28139   基因=“E3A”   “16.1K膜蛋白”
  多A-信号   27734..27739   “L4的可能多A-信号”
  CDS   28124..28642   基因=“E3”   “18.5K糖蛋白前体”
  CDS   28672..29211   基因=“E3”   “20.1K蛋白”
  CDS   29224..29793   基因=“E3”   “20.5K糖蛋白”
  CDS   29808..30023   基因=“E3”   “7.7K蛋白”
  CDS   30133..30408   基因=“E3”   “10.3K蛋白”
  CDS   30380..30817   基因=“E3”   “14.9K蛋白”
  CDS   30810..31217   基因=“E3”   “14.7K蛋白质”
  多A-信号   31258..31263   “E3的多A-信号”
  CDS   互补(31269..31433)   基因=“U”   “U外显子蛋白”
  CDS   31448..32509   基因=“L5”   “纤毛蛋白”
  多A-信号   互补(32276..32281)   “E4的多A信号”
  多A-信号   32520..32525   “L5的可能多A-信号”
  CDS   互补(32552..32803)   基因=“E4”   “ORF6/7”
  CDS   互补(32800..33696)   基因=“E4”   “34K蛋白质”
  CDS   互补(33599..33967)   基因=“E4”   “13.6K蛋白质”
  CDS   33822..34331   基因=“L5”   “DNA结合病毒蛋白”
  CDS   互补(33976..34239)   基因=“E4”   “13K蛋白质”
  CDS   互补(34757..35134)   基因=“E4”   “13.9K蛋白质”
  启动子   互补(35216..35221)   “E4的TATA框符”
  重复区   互补(35409..35522)   “倒转末端重复”
表50:Ad1(登录No.AY534906;SEQ ID NO:586)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  CDS   连接(560..1112,1230..1546)   基因=“E1a”   “32kDa蛋白质”
  CDS   连接(560..976,1232..1546)   基因=“E1a”   “26kDa蛋白质”
  CDS   连接(560..643,1236..1319)   基因=“E1a”   “6kDa蛋白质”
  CDS   1717..2259   基因=“E1a”   “21kDa蛋白质”
  CDS   2022..3524   基因=“E1b”   “转化相关的55kD蛋白”
  CDS   连接(2022..2270,3291..3524)   基因=“E1b”   “E1b”
  CDS   连接(2022..2270,3233..3277)   基因=“E1b”   “E1b”
  CDS   3261..4043   基因=“IX”   “14.5kDa六邻体蛋白质”
  CDS   互补(4102..5460)   基因=“IVa2”   “病毒体形态相关21kDa蛋白质”
  CDS   互补(5208..8378)   基因=“IVa2”   “120kDa DNA聚合酶”
  CDS   7989..8438   基因=“L1”   “16.7kDa蛋白质”
  CDS   互补(8594..10552)   基因=“E2b”   “末端75kDa蛋白质”
  CDS   互补(10598..10996)   “未知”
  CDS   11059..12306   基因=“L1”   “47kDa蛋白质”
  CDS   12327..14084   基因=“IIIa”   “peri五邻体al六邻体相关65kDa蛋白质”
  CDS   14166..15890   基因=“L31”   “64kDa五邻体蛋白质”
 CDS   15897..16493   基因=“pro-VII”   “22kDa大核蛋白前体”
 CDS   16563..17669   基因=“pV”   “42kDa小核蛋白前体”
 CDS   17793..17939   基因=“L2”   “pmu 8.8kDa”
 CDS   18022..18774   基因=“pVI”   “六邻体相关27kDa蛋白质前体”
 CDS   18861..21775   基因=“L4”   “109kDa六邻体蛋白质”
 CDS   21788..22402   基因=“L3_1”   “23kDa肽链内断酶”
 CDS   互补(22500..24089)   基因=“E2a_1”   “59kDa DNA结合蛋白质”
 CDS   24118..26541   基因=“L5”   “90K六邻体组合相关蛋白质”
 CDS   连接(26252..26566,26769..27137)   基因=“E2a_2”   “病毒体形态相关25kDa蛋白质”
 CDS   27225..27908   基因=“pVIII”   “六邻体相关25kDa蛋白质”
 CDS   27909..28232   基因=“E3A”   “12kDa蛋白质”
 CDS   28775..29257   基因=“E3”   “18.6kDa糖化膜蛋白”
 CDS   29532..29816   基因=“E3”   “10.7kDa蛋白质”
 CDS   30106..30507   基因=“E3”   “14.9kDa蛋白质”
 CDS   31101..32849   基因=“L5”   “62kDa纤毛蛋白”
 CDS   互补(连接(33976..34063,34768..34865,35232..35594))   基因=“E4”   “20kDa蛋白质”
 CDS   互补(连接(33976..34063,34768..35054,35232..35594))   基因=“E4”   “27kDa蛋白质”
 CDS   互补(连接(33976..34063,34768..35168,35232..35594))   基因=“E4”   “32kDa蛋白质”
 CDS   互补(连接(34764..34865,   基因=“E4”   “17kDa蛋白质”
  35232..35594))
 CDS   互补(连接(34764..35054,35232..35594))   基因=“E4”   “24kDa蛋白质”
 CDS   互补(连接(34764..35168,35232..35594))   基因=“E4”   “28.6kDa蛋白质”
表51:Ad21(登录号No.AY601633;SEQ ID NO:587)序列特征和假设性基因产物
  特征类型   位置   注释或基因位点   产物
  重复区域   1..114   “倒转末端重复”
  CDS   结合(574..645,1247..1348)   基因=“E1A”   “E1A 6.8KDa蛋白质”
  CDS   结合(574..1155,1249..1452)   基因=“E1A”   “E1A 28.4KDa蛋白质”
  CDS   结合(574..1062,1249..1452)   基因=“E1A”   “E1A 24.6KDa蛋白质”
  多A-信号   1491..1496   “E1A”
  启动子   1541..1580   “E1B和IX”
  CDS   1905..3383   基因=“E1B”   “E1B小型T抗原”
  CDS   3477..3893   基因=“IX”   “蛋白质IX(六邻体相关蛋白)”
  多A-信号   3906..3911   “E1B和IX”
  多A-信号   3476..3892   “E2B和IVa2”
  CDS   互补(连接(3946..5279,5558..5570))   基因=“IVa2”   “IVa2蛋白质(成熟蛋白质)”
  CDS   互补(5049..8417)   基因=“E2B(POL)”   “DNA聚合酶”
  CDS   6142..6462   基因=“未赋值”   “假设11.5KDa蛋白质”
  CDS   互补(6866..7387)   基因=“未赋值”   “假设19KDa蛋白质”
  CDS   7131..7418   基因=“未赋值”   “假设10.4KDa蛋白质”
  CDS   连接(7827..8228,9478..9495)   基因=“未赋值”   “DNA结合蛋白质”
  CDS   互补(8227..8571)   基因=“未赋值”   “假设12.6KDa蛋白质”
  CDS   互补(8420..10342) 基因=“E2B(pTP)”   “DNA末端蛋白质”
  CDS   8546..8947 基因=“未赋值”   “假设14.5KDa蛋白质”
  CDS   互补(9541..9855) 基因=“未赋值”   “假设11.5KDa蛋白质”
  CDS   9755..10030 基因=“未赋值”   “假设9.7KDa蛋白质”
  启动子   互补(10521..10560) “E2B和IVa2”
  启动子   10576..10615 “L1”
  CDS   10587..12026 基因=“L1(52K)”   “L152K蛋白质”
  CDS   12054..13805 基因=“L1(IIIa)”   “蛋白质IIIa”
  CDS   13878..15563 基因=“L1(五邻体)”   “五邻体蛋白质(蛋白质III)”
  多A-信号   15565..15570 “L2(五邻体)”
  CDS   15572..16150 基因=“L2(pVII)”   “大核蛋白(蛋白质pVII)”
  CDS   16190..17251 基因=“L2(pV)”   “大核蛋白(蛋白质pV)”
  CDS   17280..17510 基因=“L2(pX)”   “蛋白质X(蛋白质mu)”
  多A-信号   17528..17533 “L2(X)”
  启动子   17542..17581 “L3”
  CDS   17583..16150 基因=“L3(pVI)”   “蛋白质VI(六邻体相关蛋白)”
  CDS   18454..21303 基因=“L3(六邻体)”   “六邻体蛋白(蛋白质II)”
  CDS   21340..21969 基因=“L3(23K)”   “23K蛋白酶(Adenain)”
  多A-信号   21989..21944 “L3”
  多A-信号   互补(22001..22006) “E2A”
  CDS   互补(22058..23611) 基因=“E2A(DBP)”   “早期E2A DNA结合蛋白”
  启动子   互补(23560..23599) “E2A”
  启动子   23601..23641 “L4”
  CDS   23642..26414 基因=“L4(100K)”   “100K蛋白质”
  CDS   25815..26113 基因=“L4(22K)”   “22K蛋白质”
  CDS   连接(25815..26163,26354..26688) 基因=“L4(33K)”   “33K蛋白质”
  多A-信号   26559..26564 “L4(100K和22K)”
  CDS   26758..27441 基因=“L4(pVIII)”   “L4蛋白质VIII”
  CDS   27441..27761 基因=“E3”   “E312.1kD蛋白”
  CDS   27715..28155 基因=“E3”   “E316kD蛋白”
  多A-信号   27750..27755 “E3”
  CDS   28140..28658 基因=“E3”   “E319.2kD蛋白”
  CDS   28688..29277 基因=“E3”   “E320kD蛋白”
  CDS   29240..29287 基因=“E3”   “E321.2kD蛋白”
  CDS   29857..30084 基因=“E3”   “E38.8kD蛋白”
  CDS   30124..30399 基因=“E3”   “E310.3kD蛋白”
  CDS   30371..30808 基因=“E3”   “E316.6kD蛋白”
  CDS   31406..32377 基因=“L5(纤毛)”   “纤毛蛋白”
  多A-信号   32380..32385 “L5”
  多A-信号   互补(32397..32402) “E4”
  CDS   互补(连接(32409..32660,33383..33556)) 基因=“E4”   “E416kD蛋白”
  CDS   互补(32657..33556) 基因=“E4”   “E434.7kD蛋白”
  CDS   互补(33459..33827) 基因=“E4”   “E414.3kD蛋白”
  CDS   33682..34191 基因=“未赋值”   agonoprotein相似于人腺病毒Bagonoprotein,GI:329670
  54
  CDS   互补(33836..34189) 基因=“E4”   “E413.6kD蛋白”
  CDS   互补(34186..34575) 基因=“E4”   “E414.4kD蛋白”
  CDS   互补(34617..34994) 基因=“E4”   “E414.2kD蛋白”
  CDS   互补(35269..35382) “ITR”
为了上面表39-51中指定的产物,本发明者注意到,普适遗传密码将“定位”柱中被鉴别的核酸序列导入相应的氨基酸序列中。同样地,“产物”柱中指定的氨基酸序列没有被明确列出。
现在参照附图,其中相同数字指定贯穿几个图像中的相同或相应部分。在这里,“有意义”一般是关于预先确定水平的统计学显著性或结果的确定性。可供选择地,有意义表明对于用户得出关于存在特异性生物实体或一群实体结论的预先确定水平的有效性。例如,BLAST返回E值(相应概率),数据库内已知序列数量的E值对应于序列数据库记录的总数,该序列数据库记录返回被查询子序列的同样类似值(比值)。如果重排提交的测序序列返回相同的E值,最初结果是无意义的。另外,这里使用的术语“可比较的”一般统指包括足够量的有效碱基响应的数据,该数据从类似性搜索返回有意义结果。此外,关于使用该数据从类似性搜索返回给用户的有效性结果的术语“可比较的”可被交换使用。相反地,术语“无可比较的”一般统指包括足够量的无碱基响应(Ns)的数据,该数据导致类似性搜索的无意义或不确定结果。
该体系,包括REPI(再测序病原菌鉴别器),通过筛选和编辑序列数据到更适于序列类似性搜索的子序列中,被设计自动化和按算法分析不完整核苷酸或多肽序列的输出。为了完成这个目的,系统包括一些功能步骤,或过滤器,当从序列数据中提取可比较数据时尽可能小地修改数据。如上面描述的,由于再测序微阵列的特性,序列通常包含大量的无碱基响应(Ns)。类似性搜索如BLAST典型地返回不确定结果或具有大量无碱基响应的序列。模糊结果的实施例包括,但不限于低比值或不预测唯一类似性搜索的预期(E)值。因此,本系统的实施方案提取原始序列的那些片段,或子序列,该原始序列最可能从类似性搜索中返回有意义结果。
图11(a)为本发明实施方案的示范性示意图。通过系统208的自动化子序列分析模块209首先处理序列数据203。ASP 209过滤序列数据203并仅筛选可能导致预期确定概率匹配211a(例如,BLAST预期值<1.0E-9)的那些子集。然后,采用如类似性搜索算法将这些子集比对数据库109,结果返回给系统用于进一步分析和概述214。然后,将生成的搜索总结213提交给用户用于更深层分析215。因为分身不能返回统计学相关(例如,BLAST预期值<1.0e-9)搜索结果的序列子集通过ASP排除掉,返回给用户的结果213通常包括比提交未分析序列的常规方法更高比例的显著性匹配213a。采用BLAST或BLAST类类似性搜索算法的特殊实施方案中,1.0e-150到2之间的预期值是优选的。更优选地,涉及BLAST的实施方案包括执行唯一鉴别单一病原菌数据库记录的比值和预期值。选择性地,系统208进一步过滤归纳出的结果仅显示出满足用户设定或系统预先确定标准的那些匹配子序列。这些标准包括但不限于:比值、预期值(另一种序列能导致同样结果的偶然性),或来自子序列或用于生成碱基响应的微阵列信号强度的区域的另一种得分。图11(a)也说明,提高共享序列数据库和比对资源109在网络连接217范围内提供结果给附加用户219的能力。
图11(b)为REPI的示范性实施方案,系统的一种实施方案。通过REPI208′的自动化子序列分析模块(ASP)209′首先序列数据库203′。ASP
209′过滤序列数据203′并仅筛选可能导致预期确定概率匹配211a′的那些子集。然后,采用如类似性搜索算法将这些子集比对数据库109′,结果返回给系统用于进一步分析和概述214′。然后,将生成的搜索总结213′提交给用户用于更深层分析215′。因为分身不能返回统计学相关搜索结果的序列子集通过ASP排除掉,返回给用户的结果213′通常包括比提交未分析序列的常规方法更高比例的显著性匹配213a′。选择性地,REPI 208′进一步过滤归纳出的结果仅显示出满足用户设定或系统预先确定标准的那些匹配子序列。图11(b)也说明,提高共享序列数据库和比对资源109′在网络连接217′范围内提供结果给附加用户219的能力。
FIG.11(c)为软件中一种系统实施方案界面的示范性筛选屏幕(这个例子中的图像用户)。这个特殊实施方案能连接网络和局部BLAST服务器(任一或两者),并能修改一些常用BLAST参数251。此外,如下面细节中描述的,分析算法253特异性参数,如窗口尺寸,对用户可来说是非必须的。
图12为描述CIBSI,包括ASP的全面功能性的流程图。在开始CIBSI操作S301,CIBSI得到“原始”序列。REPI可得到许多格式,包括但不限于FASTA、MSF、GCG、Clustal、BLC、PIR、MSP、PFAM、POSTAL、和JNET的序列数据。在常规和再策略微阵列中,序列数据典型性采取对应于微阵列多重拼接区域的碱基响应的FASTA形式多重序列。
除了关于序列数据格式的灵活性,系统从多种不同来源类型接收数据。如上面描述的,这些类型包括,但不限于,手动或自动的Sanger测序法、shotgun测序法、常规微阵列、再测序微阵列、微电泳测序法、杂交测序法(SBH)、Edman简并和其变异、扩增分子上循环阵列测序法、单一分子上循环阵列测序法、和无循环、单分子、实时方法如纳米孔测序法。可供选择地,原是序列S301可由转录核酸(信使核糖核酸(mRNA)或用于病毒转录和翻译的中间相序列。例如,本发明的一种实施方案是关于RNA转录,RNA在其片段化(用Affymetrix基因表达阵列完成)后直接杂交到阵列上或使用反转录酶转变成DNA。该区域由基因组的外显子区构建而成并且再测序阵列用于分析这些序列的哪个使其进入转录子中。在可供选择的实施方案中,在图12中描述的方法对应于氨基酸序列,一组原始序列S301可描述氨基酸的直接读序或从氨基酸组合中推断出的序列如高分辨质谱测定的。选择性地,原始氨基酸或蛋白质数据被分析出包括相对位置数据,其中相对位置不是保守的。
在再测序微阵列中,经再测序拼接的全部构成内的局部序列位置间接表明全部基因序列构成。例如,再测序阵列可能仅同时给出5-10个连续碱基响应的读序,每个读序被连续无碱基响应隔开。图33描绘了这个概念的更普遍描述,这个概念被应用于局部序列读序的任何集合。因此,核苷酸碱基响应的任何集合或彼此无明显关联的氨基酸序列首先与“病毒序列”进行比较,针对可探测的较短序列进行比较。那么,连续碱基响应,或局部序列作为集合序列的个体部分是有关联的。因此,为了微阵列的局部序列数据或更有效和通过CIBSI有效加工处理的任何其他序列生成平台,局部序列首先连接成集合安排、或组合序列。为了确定哪个局部序列应被结合和被取代,采用类似性搜索用存储器中存储的一群参考序列比对每个可检测子序列。当与参考序列中的一种进行比对时得到符合条件匹配的局部序列作为组合序列部分被存储起来提交给CIBSI用于分析。
格式化从再测序微阵列中提取的序列数据的方法在图33中显示的流程图中进行了描绘。从再测序微阵列或任何其他核苷酸或多肽测序平台S2403中提取的序列信息,并被加工处理来探测被连续无碱基响应S2405隔离的局部序列。探测局部序列的步骤可通过窗口功能被执行,窗口功能一经检测到碱基响应就启动观察窗口并且当另一组无碱基响应被探测到就关闭观察窗口。因此,在局部序列数据周围建立一种窗口,并且隔离局部序列读序无碱基响应被剔除。扫描操作也可在序列数据上执行,该扫描操作识别每个连续无碱基响应,从而指出对应于局部序列的一组碱基响应。
然后,每个被鉴别的局部序列与存储参考序列S2409进行比对来确定是否局部序列符合存储的参考序列中的一种。这个比对将产生表明存储参考序列和局部序列之间类似性的统计值。然后,如果统计值在预先确定阈值之外,局部序列被存储为S2413与其他局部序列SS2415结合。可供选择地,如果统计值低于预先确定阈值,局部序列被排除掉。这个过程持续到所有局部序列都被比对,因此生成一组混合数据被提交给CIBSI,如下面被讨论的。
然后,该系统在提取候选子序列S305之前执行对照组检验S303。在提取候选子序列之后,系统从候选子序列S307的前端和末端剔除无响应(Ns)。然后,该系统检验被剔除的候选子序列S309的长度来确定是否可供选择序列或自序列应被筛选出S311,候选子序列随时转到类似性搜索服务器上并被加到类似性搜索队列S315上,或者是否百分率或子序列中正确碱基响应的附加检验满足可接受的阈值而对其进行比较(采用类似性搜索)。可供选择的序列或子序列S311的筛选通过使用滑窗算法在一种实施例中完成。为了那些与S315比对的序列,系统聚集类似性搜索服务器返回的结果,对这些结果进行统计分析并且依据用户参数选择S317将其过滤给用户。选择性地,该系统将类似性搜索结果完全地返回给被提交的子序列。当生成更明显的下面描述的给定示范性实施方案时,在可供选择的实施方案中能重新安排或修改算法步骤。另外,也如下面更详细描述的,系统的行为经系统预先确定或经用户选择性地确定。
下列段落更详细地描述了图12中显示的每个主要功能性步骤
图13为执行对照检验步骤S303的对照检验模块的示范性流程图。因此,序列首先被检验察看是否它是微阵列S403通常输出的对照组序列,微阵列S403不符合生物样本,但相反证实微阵列运行正常。被加入到微阵列的对照组序列被特定设计为无义,唯一可确认的,或非自然发生序列;因此,经缺省,对照组序列将不返回显著类似性。如果序列不是对照组,在继续下一步S409之前,系统可选择性地检验是否序列匹配可供选择的自定义参数标记S407。万一序列被识别当作对照组或匹配自定义参数,系统选择性地执行对应于自定义参数的辅助功能或移动指令到下一种序列S405上。
图14为提取子序列步骤S305的示范性流程图。初步筛选序列S501,该系统在窗口尺寸背景内检查序列S503,Z为对应于许多被返回的碱基响应的窗口尺寸参数。这个“观察窗口”一般小于典型序列尺寸并且可在序列的任何点形成。然后,该系统计算窗口内存在实际碱基响应的百分率(无无响应)S505。在被说明的实施例中,通过将″1″设为有效碱基,″0″设为所有无响应,执行该计算。在一种实施方案中,窗口尺寸Z从两个碱基响应之间优选范围和半个长度的最小靶点或输入序列中筛选出。当窗口尺寸增加时,筛选包括更多无碱基响应的候选子序列的模块变得更被允许的。
然后,将计算的百分率与最初的跳跃阈值参数A(例如,25%)进行比对,最初的跳跃阈值参数可被系统预先确定或被用户选择S507。如果窗口内的实际碱基响应的计算百分率不符合最初的跳跃阈值参数A确定的标准,系统增加了碱基响应的窗口数量S509,依据最初窗口跳跃参数,X,该最初窗口跳跃参数也可能由系统预先确定或由用户选择,但是优选在1和Z之间,Z为窗口尺寸参数。增加这点或任何其他点上窗口能在任何方向上发生(例如,向序列末端)。在窗口内的实际碱基响应的计算百分率符合由最初的跳跃阈值参数A确定的标准的情况下,系统在滑窗起始处的候选子序列的起点做标记S511。然后,依据第二个窗口跳跃参数,Y,该窗口被增量移动许多碱基响应S513,并且在每个滑动增量处,计算出窗口内实际碱基响应的百分率S515。如果,候选序列内实际碱基响应的百分率不能满足第二个窗口跳跃阈值B设置的标准,系统在对应于窗口末端处碱基响应的序列碱基响应处的候选子序列末端作标记,系统搜索连续的最大可用数据。当系统跳跃参数X和Y增加时,筛选具有更多无碱基响应的候选子序列的模块变得更被允许的。当跳跃阈值A和B增加,其他条件不变时,模块变得较少被许可。
图14(b)为滑窗算法的一种实施例,依据本发明的实施方法。滑窗551的起始端和末端确定了候选序列553的长度和内容。这个子序列在下面描述的剔除功能中被剔除。
图15为系统执行的剔除功能S307中更详细描述的示范性流程图。在这个特殊功能模块中,系统探测到候选子序列S603的起初Ns并且随后剔除了候选子序列S605的起始Ns。然后,该系统识别出候选子序列的实际起点已经改变S607并且调整了候选子序列的位置和内容。一组类似行为被执行来除去候选子序列S613、S617末端的Ns。因为这里描述的滑窗方法允许序列以Ns为起始端并以Ns为末端,剔除提高了算法的最优性。可供选择地,滑窗功能能适合于或被替代探测和回避Ns和候选子序列的起始和/或末端,因此消除了对这个步骤的需求。
该体系的下一种功能为长度评估S309。图16显示出详细设计执行检验长度步骤的方法的示范性流程图S309。候选子序列的长度为计算出来S703并且与最初长度阈值参数,E进行比较S705。如果候选子序列的长度不大于E(例如,20个核苷酸),系统返回到提取子序列步骤S305。如果满足了最初长度阈值E,候选子序列的长度与第二个长度阈值参数,F(例如,50个核苷酸)进行比较S709。如果候选子序列长度超过F,候选子序列被提交给类似性搜索(比对)服务器或被加到经服务器批处理被筛选子序列的队列上S711。在候选子序列超过E但没有超过F的情况中,系统移动指令到检验中等长度(例如,长度在20个核苷酸和50个核苷酸之间的子序列)候选自序列内的实际碱基响应的百分率步骤上S713。最初和第二个长度阈值参数E和F能在与最大可供搜索的子序列一样宽的范围内改变。另外,由于E和F降低,模块变得更被允许的。
图17显示出计算百分率功能的示范性流程图。在这个功能范围内,计算中等长度候选子序列的实际碱基响应百分率S803。这个被计算的百分率与中间百分率阈值H进行比较S805,中间百分率阈值H由用户选择或由系统预先确定。如果实际碱基响应的计算百分率小于中间百分率阈值H(例如,60%),系统返回到提取子序列步骤S807搜索可供选择的候选子序列。如果计算百分率超过H,中等长度候选序列被提交给批处理子序列的队列上或直接被提交到类似性搜索服务器上S809。由于中间百分率得分阈值参数增加,模块成为具有大量无碱基响应的子序列较少被许可。
除了被提交的子序列的类似性搜索中得到的结果之外,系统选择性地提供了被提交的子序列的进一步分析。图18(a)为更详细描述图12的模块S317内系统活动的示范性流程图。这个模块在子序列或子序列群与S901进行比较后产生。在这点上,系统读出类似性搜索输出S903并分析该输出结果,运算关于被提交子序列的附加描述统计,被提交的子序列由用户选择或由系统预先确定S905。
由系统执行并运行统计的分析包括,但不限于,被筛选的子序列长度如碱基响应内序列百分率和子序列长度,两者一起用于说明靶点生物实体基因的哪个部分被鉴定。这个子序列长度和子序列碱基响应的百分率使研究者监控系统算法和功能步骤。另外,在再测序微阵列中,包括,但不限于GDAS的碱基响应分析的阈值参数被监控。在可供选择的实施方案中,系统收到并格式化类似性搜索返回的统计结果,用户使用图形用户界面操作和组织这些结果。图18(b)为根据本发明实施方案输出结果数据的实施例。
选择性地,系统能存储所有由类似性搜索和上面描述的分析返回的输出结果,包括,例如BLAST结果。该系统也选择性地显示S909给用户由类似性搜索返回的和/或由该系统运算的所有结果或结果子集。本发明的某些实施方案将这些结果发送和保存用于存档或转移S911。
下列表说明上面描述的一些示范性参数和阈值的示范性区间和优选子区间。
优选子区间:
表52
  参数阈值
  预期值阈值   1.0E-9   1.0E-8-1.0E-10   1.0E-7-1.0E-11
  窗口尺寸  Z   20   10-30   1-*
  第一种跳跃阈值  A   25%   15%-35%   1%-99%
  第一种窗口跳跃  X   1   1-5   1-*
  第二个窗口跳跃  Y   1   1-5   1-*
  第二个跳跃阈值  B   25%   15%-35%   1%-99%
  第一种长度阈值  E   20   10-30   1-*
  第二个长度阈值  F   50   40-60   1-*
  中间百分比阈值  H   60%   50%-70%   1%-99%
  受到系统参数如随机存取存储器、处理器速度等限制
在该系统的另一种实施方案中,搜索(比对)输出可被分析最优化参数,J,S913。如上面描述的,系统的参数和阈值,包括,但不限于A、B、X、Y、E、F、和H,由用户设置或由系统预先确定。可供选择地,系统的一种实施方案能通过系统或通过使用互补功能模块最优化这些变量中的一种或几个。例如,最优化参数或阈值能依据已知的最优化方法(例如,SIMPLEX线性程序)或人工智能(包括状态空间搜索方法如随机搜索或启发式搜索)技术在多种应用系统操作或“传送”期间通过分析被记录的系统性能进行实施。相应的最优化参数,J,可被用于,例如,改变先前步骤中使用的多种参数和阈值并且再次使用这些新的最优化参数运行这个过程S917。可供选择地,代替再次从原始数据文件开始,最优化参数J能被用于通过使用最优化参数J提炼被筛选出的子序列的输出S915而改变与参数相关的如与系统联合的类似性搜索算法的行为或功能。最优化参数能由用户或系统调整来提高系统性能,如速度或相关/有意义的类似性搜索结果。
图19为描述本发明的另一种实施方案的示范性流程图,本发明利用其延伸的核心本质。特殊地,系统分析1017被用于最优化或改变对应于类似性搜索算法的操作或行为的参数1009。例如,这个改变可能与在分析结果中运算或插值的上面描述的最优化参数J相关1017。改变类似性搜索参数(例如,BLAST参数)改变该方法和典型用在类似性搜索中评分系统。特殊地,举例说明的迭代分析法可能导致提示测试序列与已知序列可能匹配的最高阈值或最低阈值,因此改变或最优化系统输出1019。
本发明的描述进一步由下列详细实施例支持。下列详细实施例对应于本发明的示范性实施方案并不是为了提出限制本发明的系统措作、参数设定、序列数据,等。
REPI的一种实施方案用于确定CustomSeq/GCOS/GDAS方法中的哪个碱基响应子序列通过使用自定义滑窗算法将可能返回显著性BLAST结果。随后地,REPI自动返回BLAST输出给终端用户,该终端用户概率性分配给定组碱基响应对应特殊生物序列的可能性。此外,REPI自动将序列片段连接到个体病原菌上。
再测序阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传分析软件version 2.0(GDAS)来提供。GDAS碱基响应基于先前描述的碱基响应算法(Cutler et al.,2001)。包含从GDAS软件得到的碱基响应的每一种FASTA输出文件采用专属软件(REPI)进行分析,该专属软件(REPI)是这里描述的本发明的一种示范性实施方案。
在本发明的情况中,GDAS的序列输出大部分通常为邻近序列响应(A、T、C或G)的分散混合物,邻近序列响应(A、T、C或G)点缀着不同量的无响应(n′s),由于缺少扩增、芯片上的弱杂交信号和/或非特异性结合导致的高背景杂交,GDAS软件不产生碱基响应(Cutler et al.,2001)。Ad4FIBER拼接区域的4(+)腺病毒临床样本的GDAS输出的一种实施例输出在下面显示出:
>Ad4FTBER:609124A2-8.7.03-2小时杂交开始=12终点=1245
tcccnacgatgcagncnncnnncgacnangcccttcatcaaccctcccttcgnnctcttcagntggnttc
caagaaaagcccctgggggtgttgnccntaggnnntnnncgaccctgncncnccangaatggggaaanca
cncnnantntggngnannnngtggaccttgacgnctcgggaaanctcnttgcaancncagncnnnaagnn
cattgnnnctnntagnttttnccancaacnccattnnnnnttaacatggnnncccctttanncnccaaag
ntggaaanctnnccttncaagnttctnncnccattaagtatattnngnnnnnnnnntnnnnnntnnntnn
nctnnncttttngctcaggtttnggacngnnnngnagngntnngncagtacagttagcctctncncttnc
atttgnngnnaaagggaananaaagnttnnnntnnntnnnggnttgcatgttacaacaggaantgcaatt
gaaagcaacattagntgggctnaaggtnnaaaatttgaagatggtgccanagcnncaaacattggtaagn
nntnnnnnntnnnaaccagnagnncagaancaggagntaanaangcttnnccaanccaagntaaanttgn
atctggncncagctttgncagcncaggagnnntaatgnctggcaataaagncnnngananattanctttg
tggacaacgcctgacccatcannaaactgncaaatnctngcngaaaangangcaaanctancnctttgct
tnacnnagnnngnnagncaaatnctggccactgnancagntttqqntantagaaanaanancntaaaccc
aattnctggcacagnaagcagngctcaagnttttcnncgntttgatgcaancngtgntcttttancngan
cactcnannnnnaaaaaatactggggctacnggnaaggagatagcatagatggcactncatacaccaatg
ctgttggntncntgccaaattcancagcttntnnaaagacncaaagttctnctnntaaaaataatntann
nngncaagnatnnatgaatggngntgtttnaaaacccangcttcttnctatanctcttaatggnnctgnt
gacaccaccagtgcatnntnnntttnattttcntncacctggactaacggaagctanatcggagcaacat
ttggagctaactcatacaccttcncntacanngcccannaannn
在提供的实施例中,REPI经CGI(Perl)界面连接到局部BLAST(NCBInt)数据库(包含在具有4.5GB随机存取存储器的苹果G5单一处理器(1.8Ghz)计算机上)。显示的结果包括所有预期值(E-值)阈值1.0e-9的数据库序列。E-值表示在随机给定搜索空间、记分矩阵、和空位罚分的预期分析数量;E-值越低数据库类似性搜索匹配越不可能进行随机鉴别。
REPI输出由(可比较)子序列命名、长度、E-值和每个匹配的bits scores构成,以bits scores的降序排列显示每个子序列。名称报告为GenBank记录FASTA定义列并且包括序列长度。得分为记分矩阵和空位罚分计算出的标准分数,分数越高类似性越高。
上面列出的实施例的REPI输出在下面显示出。对于每个可比较子序列,REPI返回(以比值等级的降序排列)所有具有预期值小于评估阈值,通常为1.0E-9的GenBank数据记录。获得的最高比值是4型腺病毒,而较低的比值s适合区分来自空军和海军培训基地的本地株。
>Ad4FIBER:609124A2-8.7.03-2小时杂交开始=12终点=1245
子序列:
tcccnacgatgcagncnncnnncgacnangcccttcatcaaccctcccttcgnnctcttcagntg
gnttccaagaaaagcccctgggggtgttgnccntaggnnntnnncgaccctgncncnccangaat
ggggaaancacncnnantntggngnannnngtggaccttgacgnctcgggaaanctcnttgcaan
cncagncnnnaagnncattgnnnctnntagnttttnccancaacnccattnnnnnttaacatggn
nncccctttanncnccaaagntggaaanctnnccttncaagnttctnncnccattaagtatattn
ngnnnnnnnnnt
靶点子序列百分率:27%
子序列长度:337
子序列碱基响应数量:249
子序列碱基响应百分率:74%
gi|434913I emb|X76547.1|AV4FIB1纤毛蛋白质4型腺病毒基因;长度=1375
Ad4FIBER evalue:3.35737E-33,score:149.17
Ic1|AY599837|血清4型人腺病毒,美国空军本地株|35,964bp;长度=35964
Ad4FIBER evalue:4.51313E-20,score:105.558
IcI|AY599835|血清4型人腺病毒,美国海军本地株|35;965bp;长度=35965
Ad4FIBER evalue:4.51313E-20,score:105.558
IcI|AY594254|血清4型人腺病毒,疫苗株#|35,994bp;长度=35994
Ad4FIBER evalue:4.34733E-17,score:95.646
1c1|AY594253|血清4型人腺病毒|35,990bp;长度=35990
Ad4FIBER evalue:4.34733E-17,score:95.646
gi|17105037|gb|AF394196.1|AF394196猴腺病毒25,全基因组;长度=36521
Ad4FIBER evalue:2.58354E-12,score:79.7872
gi|33694802|tpg|BK000413.11TPA:猴腺病毒25,全基因组;长度=36519
Ad4FIBER evalue:2.58354E-12,score:79.7872
gi|22796371|emb|AJ315930.1|HAD3159304型人腺病毒DNA;长度=12718
Ad4FlBER evalue:2.58354E-12,score:79.7872
子序列:
tnnntnnnctnnncttttngctcaggtttnggacngnnnngnagngntnngncagtacagttagc
ctctncncttncatttgnngnnaaagggaananaaagnttnnnntnnntnnnggnttgcatgtta
caacaggaantgcaattgaaagcaacattagntgggctnaaggtnnaaaatttgaagatggtgcc
anagcnncaaacattggtaagnnntnnnnnntnnnaaccagnagnncagaancaggagntaanaa
ngcttnnccaanccaagntaaanttgnatctggncncagctttgncagcncaggagnnntaatgn
ctggcaataaagncnnngananattanctttgtggacaacgcctgacccatcannaaactgncaa
atnctngcngaaaangangcaaanctancnctttgcttnacnnagnnngnnagncaaatnctggc
cactgnancagntttggntgntagaagnggnancntaaacccaattnctggcacagnaagcagng
ctcaagnttttcnncgntttgatgcaancngtgntcttttancngancactcnannnnnaaaaaa
tactggggctacnggnaaggagatagcatagatggcactncatacaccaatgctgttggntncnt
gccaaattcancagcttntnnaaagacncaaagttctnctnntaaaaataatntannnngncaag
natnnatgaatggngntgtttnaaaacccangcttcttnctatanctcttaatggnnctgntgac
accaccagtgcatnntnnntttnattttcntncacctggactaacggaagctanatcggagcaac
atttggagctaactcatacaccttcncntacanngcccannaa
靶点子序列百分率:72%
子序列长度:888
子序列碱基响应数量:701
子序列碱基响应百分率:79%
gi|434913|emb|X76547.1|AV4FIB1纤毛蛋白质4型腺病毒基因;长度=1375
Ad4FIBER evalue:3.29583E-171,score:609.077
1c1|AY599837|血清4型人腺病毒,美国空军本地株|35,964bp;长度=35964
Ad4FIBER evalue:7.18119E-160,score:571.412
1c1|AY599835|血清4型人腺病毒,美国海军本地株|35,965bp;长度=35965
Ad4FIBER evalue:1.75062E-157,score:563.482
1c1|AY594254|血清4型人腺病毒,疫苗株#I 35,994bp;长度=35994
Ad4FIBER evalue:6.18269E-148,score:531.765
1c1|AY594253|血清4型人腺病毒|35,990bp;长度=35990
Ad4FIBER evalue:6.18269E-148,score:531.765
gi|303967|gb|L19194.1|ADRFIBERX纤毛蛋白质h4哺乳动物腺病毒,完整编码序列;长度=1346
Ad4FIBER evalue:1.50721E-145,score:523.835
gi|227963711emb|AJ315930.1|HAD3159304型人腺病毒DNA;长度=12718
Ad4FIBER evalue:3.67425E-143,score:515.906
gi|17105037|gb)AF394196.1|AF394196猴腺病毒25,全基因组;长度=36521
Ad4FIBER evalue:2.91419E-51,score:210.623
gi|33694802|tpg|BK000413.1|TPA:猴腺病毒25,全基因组;长度=36519
Ad4FIBER evalue:2.91419E-51,score:210.623
在这个详细的实施例中,REPI参数设置如下:
表53
  参数阈值
  预期值阈值   1.0E-9
  窗口尺寸  Z   20
  第一跳跃阈值  A   25%
  第一窗口跳跃  X   1
  第二窗口跳跃  Y   1
  第二跳跃阈值  B   25%
  第一长度阈值  E   20
  第二长度阈值  F   50
  中间百分比阈值  H   60%
除了上面描述的实施方案,系统的可延伸性能允许随时调整许多较高生物信息学任务,该较高生物信息学任务利用核酸的分散片断,或氨基酸序列。这些辅助应用的一些实施例在下面进行了描述。
在先前的实施例中,本发明者提供了显示出序列片段能自动连接单个病原菌的数据。在一些更优选的实施方案中,这种方法在垂直同源生物靶点序列组内混合物和重组之间进行分析。因此,直向同源基因通常被鉴别为不同物种内的相同基因,通常表示共同遗传起源。
更特殊地,系统自动分析来自再测序微阵列的不同拼接区域的序列响应来探测阵列不同拼接区域上存在同源序列片段。选择性地,该系统进一步确定不同拼接区域的描述垂直同源基因的序列输出不是垂直同源基因的混合物而对应于邻接序列,该邻接序列由两个或多个垂直同源基因之间的发生的遗传重组引起产生。
在一种这种附加实施方案中,该系统将考虑自动检测在阵列的不同拼接区域上的高度重叠或同源序列片段,推断出靶点序列的混合物。进一步,该系统将选择性地确定不同拼接区域的序列输出不高度重叠但对应于邻接序列,该邻接序列可能登录在已知靶点序列的内来推断遗传重组发生。
FIG.21举例说明了依据本系统的实施方案,在测试样本中不同靶点混合物和靶点内重组之间进行辨别的方法的一种示范性实施方案。这些实施例方法能归并到或采用上面描述的关于图12方法进行补充,这些实施例方法也用于在蛋白混合物和杂交蛋白质之间进行辨别。在这个实施例中,系统确定了由编码蛋白质的完全核苷酸序列的再测序微阵列(采用或不采用初始类似性搜索)探测的基因子序列的相对位置S1201。相对位置通常对应于全序列内子序列的位置。全序列在数据库中可用,该数据库由公共序列和/或专属序列记录组成。例如,子序列能被确定对应于全序列的前端(例如,5′)、中部、或末端(例如,3′)。此外,这个确定位置由候选子序列或筛选子序列组成。其次,该系统执行分析方法依据它们的位置来比对和匹配子序列S1203。用于执行S1203算法可以为用于两个序列间局部序列两两比对算法(例如,BLASTN、BLASTP、或BLASTX),在多重序列间同时执行分析的算法(例如,ClustalW or Clustal_X(Thompson et al.,1997;Thompson et al.,1994)),或从公共结构域或经专属发展得到的可供选择的算法。在一种实施方案中,系统聚集对应于类似序列的前端、中部和末端的子序列。随后,系统评估聚集的子序列彼此的拟合度S1205。
子序列间的拟合度能被评估出,例如,通过探测序列间重叠的适当量。在一种实施方案中,相对于无重叠序列,拟合度是同源重叠区长度(或比值)内的定量关系,每一种与给定蛋白质的完整基因的全部序列的关系。除了评估重叠生物序列的传统方法之外,系统采用应用于类比及数位通讯的同步探测方法选择性地分析序列重叠。此外,鉴别重叠序列的问题不像由数字通讯中初始同步引起的问题。因此,依据本发明,一种可能被采用的方法是使用滑移相关器。在滑移相关器中,两个序列(数据序列,和假设序列)对比两个序列彼此相关性。两个序列被移动到彼此相关的位置,仅当相关性结果被探测到具有上面预先确定的水平时停止移动。实际上,用于减少搜索范围如同步前导序列传递的一些其他方法之前加上滑移相关器。同样地,依照本发明,子序列间已经探测到的重叠可以被用作前导序列目的为了限制同步过程需要的时间量。这个类型的同步已经进行了描述,参见Bhargva,et al.″Digital Communications By Satellite″John Wiley andSons,Chapter 9,pages 269-291。同样地,其他同步或捕获算法可被采用例如在§8.22 of Sklar,B.″Digital Communications Fundamentals andApplications″,Prentice Hall,1988,pages 453,460中进行描述的那些。基于误获取的最低概率,筛选出获取标准。既然这样,获取标准可能具有概率10%的误探测,即使9%、8%、7%、6%也包括在内,降至0.1%可以被采用。
如果子序列不超过预先确定的拟合度阈值,系统开始分析可供选择的序列S1207。就是说,如果两个或多个潜在同源性或垂直同源子序列不符合混合物或重组模型,该系统开始搜索其他子序列S1201。采用类似性搜索算法将收集的分组子序列与完整(靶点)序列进行比较1211。在这种情况中,被连接的子序列和靶点序列之间的类似性水平S1213提供了一些数据,这些数据指示是否被探测生物序列来自不同生物实体或者是否被探测序列指示一种重组。可供选择地,系统采用检验点的方法来评估子序列片段之间的重叠杂交。检验点方法沿着子序列的多个点执行这种评估S1209。在这个方法中,检验点的数量与阈值S1215进行比较来提供在生物混合物和重组之间进行辨别的证据。
例如,同类型的两个病毒的交叉感染可能在一种基因中产生重组,这个基因与一种病毒除了5′端之外是同源的,单个基因被同一蛋白质的第二个病毒基因的对应片段取代。当这个新的重组病毒基因组被杂交到再测序微阵烈上时,它可能产生来自再测序拼接区域对应部分的信号。本发明的一种实施方案包括构建靶点序列模型的组装算法,该靶点序列显示出哪个片段可能结合形成完整靶点。如果这两个具有显著性重叠(例如,证实同源性大于某个阈值),可以得出可能存在混合物。但如果很少重叠或没有重叠,将没有存在重组的可能性。重叠的程度(或缺少)可能受到靶点低浓度影响,该靶点具有较少量的被填充的拼接区域。同样原理甚至能容易被采用,并且具有更大影响,在病毒上重组是稳定并重复发生,作为逆转录酶病毒,病毒间的重组导致形成新病毒株。事实上,这种被描述的功能性对靶点序列混合物对靶点序列间重组是必需的。此外,这个附加功能性也可用于更快速探测被检测到的(可能地)新重组内共有区并且帮助设计PCR引物来辅助更广泛研究由系统探测到的重组。
不仅本发明方法能在生物实体的混合物和给定实体内(这里另外描述的)的重组之间进行辨别,系统的附加实施方案有利地提供给终端用户相对量靶点序列的定量评估,该靶点序列在再测序微阵列中被探测到。当多种病原菌基因组信号被探测到时临床医师或临床试验室技术员指出原因和影响的时候,这种决策质量信息具有增强的效用。另外,关于生物物质存在的补充数据提供了额外背景用于终端用户制定决策,该生物物质具有关于丰富生物物质的资料。另外,该系统的实施方案被设计自动分析和比对这种“存在”和“丰富”资料来提供决策质量信息给终端用户。
该系统的实施方案被设计利用提供丰富信息的两种类型数据。第一种为芯片上杂交信号的绝对强度。溶液中靶点数量和实际杂交和生成信号的数量之间存在非线性关系。然而,样本中靶点核酸数量的评估通过用空白条件下制备的标准曲线进行比较而得到。例如,信号强度数据容易从Affymetrix数据结构中的.CEL文件中得到,并且典型用于基因表达改变的定量评估。该系统的一种实施方案提供了含有强度值的数据,输入、输出和操作。第二,碱基响应百分率,如全部拼接区域尺寸的百分率和被筛选子序列内的碱基百分率满足滑窗算法,被用作浓度测量。由发明者执行测试的结果显示出降低靶点浓度,这些百分率度量都降低,尽管正确靶点序列仍能被鉴别出。
图22为CIBSI的一种实施方案的示范性说明,该CIBSI加入了类似性搜索结果的强度数据来提供决策质量信息给终端用户。强度数据1314由微阵列的光谱分析工具输入。在类似性搜索结果的背景中分析强度数据更鲁棒性分析1319被探测到的序列并且从而提供给终端用户决策质量信息1321。决策质量信息包括,如相对丰富的对应于相关生物实体的被探测的序列或子序列的测量。另外的实施方案加入强度数据1314在先前描述的混合物和重组之间的辨别中。在这种情况中的强度数据1314将提供额外方面的信息,当应用数字通讯方法翻译类似性搜索返回的序列数据。
在另一种非常优选的实施方案中,系统分析转录标记物(例如,RNA),该转录标记物采用目前描述类型的微阵列(经RNA或互补cDNA的杂交)对RNA进行再测序。在类似于上面描述的推断基因组重组的方法中,转录序列也可被组合确定生物实体生存能力和能作为感染标记物的转录编辑活动。
另外,系统被必须的适应于使用生物序列非核酸和它们的相关转录产物如蛋白质的氨基酸序列。通常,本发明的蛋白质组应用与处理生物序列数据和最优化与已知序列比对的这些数据的系统能力一致。基因表达和蛋白质进化研究导致规模相似的氨基酸序列库并且如同上面描述的遗传序列数据库一样可被访问。此外,测序蛋白质用的质谱方法返回的光谱资料分析有助于详细阐述本发明的实施方案。例如,蛋白质序列光谱数据包括类似于微阵列分析中使用的强度数据。如上面描述的关于其他类似序列,本发明的先进实施方案提供给终端用户处理和利用这种强度数据来提供更高质量信息。
除了诊断应用中使用该系统,系统的可供选择的实施方案促进设计系统诊断实施方案用的更有效和有效率的再测序微阵列。选择和设计微阵列上探针的一种更有效方法不可避免的导致给定微阵列上有效面积的更有效使用。随后,微阵列能被制成精确探测更多钟给定尺寸的生物序列,或者特异性应用定制的微阵列通过减少微阵列上探针的规定数量而被制成更便宜更易被访问,这提高了尺寸缩小和高产量的可能性。设计微阵列的一种重要动力是辨别率。通常,在这里描述的辨别力统指在生物实体紧密相关菌株之间进行区别的辨别率。例如,一些应用可能要求空军腺病毒株和海军腺病毒株之间进行区别的辨别力,而另一种应用仅要求辨别存在腺病毒。下面描述的实施方案说明使用该系统使设计者能更客观更系统第平衡辨别率和微阵列尺寸/密度。
图23说明了使用系统加速设计和进行制备再测序微阵列或其他探针或阵列测试的方法的一种示范性实施方案。为了设计,筛选符合多种类型的生物序列(依次,对应于包括病原菌的生物实体)的测试序列,该生物序列目的是通过微阵列S1403被探测到。多于一种已知或可估计的生物序列的优选的组合可为紧密相关或不为紧密相关的,被筛选的序列能经过多种方法包括但不限于,系统发生树和隐马尔可夫模型(Eddy,1998)被选出。这些被筛选的测试序列使用多种分析算法如CLUSTALW S1405接受多种分析。执行多种分析导致得到一致序列S1407,典型对应于测序序列的共同区,公共性通过与某一类似性阈值(例如,CLUSTALW重量、CLUSTALW参数设置百分率开确定一致性)进行比较而被确定。得到的一致性序列然后被输入到本发明的实施方案中生成一致序列的一种或一种以上子序列,该一致序列作为很可能生成类似性搜索S1409的有意义结果而被确定。在一种方法中,一致序列的自叙列与最初被筛选的测试序列通过模拟进行杂交,模拟方法是模拟如Affymetrix再测序微阵列S1413的行为和限制性。杂交规律,包括,但不限于耐受性和插入、缺失、和全序列内不同量碱基对或不同位置上进行取代的规律。然后,得到模拟测试序列和一致序列间杂交模式的输出结果S1415,随后提高给系统采用类似性搜索进行自动化比对S1417。类似性搜索的结果与最初被筛选的测试序列进行比较S1419。一般地,类似性搜索返回至少一种已知生物实体和相关可能性,该可能性为被提交的序列或子序列来自那个已知实体。因此,比对类似性搜索结果能确定或否定基于一致序列相关部分的探针,该探针在正确杂交,从而鉴别用户所关注的收集的测试序列。如果结果确定一致序列(或其子集)有效性,那个序列能在再测序微阵列S1421的一种区域内被实现。可供选择地,如果比对间接表明关注的测试序列将不会被充分探测到,那么该系统在新探针S1423进一步的重新设计中被使用。这种重新设计过程的一种实施方案包括重新估计几个最初设计过程中的几个步骤,一些在图23中进行了说明。例如,这些结果受到被筛选测试序列范围的多样性和依据环境中其流行程度的测试序列加权的影响S1427。此外,一致算法加权是可调整的S1427以及为系统相关的功能参数S1429。此外,在模拟杂交中执行的不同方法是可调整的,包括全面改变算法和信噪比阈值S1431。
因此,与主观选择探针的常规方法对比,系统的功能性提供了加速或更有效的设计再测序微阵列。
上面关于设计的主题进一步通过下列发明者实施的实施例进行说明。在这个实施例中,方法被描述用于制备用作微阵列上靶点序列的一致序列,微阵列能鉴别那些用于制备它的测试序列。如24说明了下面描述方法的一种示范性实施方案。
以15个病原菌六联体基因组序列开始,依据系统发生树图排列这些序列(例如,参见图25)。系统树图用于图形表示和评估被筛选测试序列间的遗传关系。尽管Ad1和Ad5是关于其他序列的最大的局外点,所有15个被显示出的六联体基因序列在这个实施例中被筛选出作为初始组的测试序列S1503。初始组的测试序列S1503的筛选由预先确定的系统或用户指定参数选择性地自动化提供完成。例如,系统树图内序列间的距离提供了数字阈值组,该数字阈值组确定候选一致序列内结合序列要求的最小具体或最大距离。
下一步,所有筛选的测试序列接受多序列排比分析S1505例如ClustalW(Thompson et al.,1994),图26中显示出样本输出结果。然后,一致序列在这个序列排比S1507中计算出。实施例举例说明了图27中Cons(EMBOSS连接ClustalW)执行的这个步骤,Cons以低“多元”运行,参数使Cons用户设置了低于无一致性的阳性匹配数量的切断。特殊地,较低多元使较少匹配建立一致性,因此建立起具有较少空位和无响应得一致性。
一旦候选一致序列被运算出,将被输入到REPI内(或者,可供选择地,本发明的另一种实施方案)初始评估其作为靶点序列的潜在功效,采用返回预期匹配的一种预期阈值1e-9 S1511。在这一点上,REPI与初始组的测试序列S1513进行比较如,初始组的测试序列百分率存在于REPI结果中。如果由REPI结果鉴别的初始测试序列的百分率大于阈值(系统预先确定或,可供选择地,由用户指定),候选一致序列为最可能有例的大范围靶点序列,并且该方法转向模拟杂交S1527。在被说明的实施例中,上面对比阈值为100%,对应条件为当超过预期阈值时所有初始测试序列必须由REPI返回。降低对比阈值导致系统更允许靶点序列识别错或不能鉴别某一数量或百分率的预期组测试序列。
另外,如果初始组测试序列的每一种不是全部存在于REPI结果中,丢失的测试序列采用候选一致序列个别地进行评估。候选一致序列也联合先前步骤中建立的多重比对被评估来鉴别任何丢失的序列片段,这些丢失的序列片段对一致性内的鉴别是关键性的。在没有丢失初始序列共性的情况下,下一步的目标是增量式添加必要序列信息到初始候选一致序列内。
因此,再次执行多重比对S1515。这时,多重比对包括目前的一致序列。随后,候选一致序列中的空位被鉴别出S1517。候选一致序列与测试序列比对中的空隙是丢失序列数据的可能位置,将增量式序列信息添加到丢失测试信息的候选一致序列中可能是有利的。
图28说明了第二个多重比对结果中空位的实施例。在这个实施例中,存在两个位置,一致序列遗漏了Ad1和Ad5的序列信息,先前注释为初始测试序列筛选过程(参见图25)中两个最大系统发生树局外点。对应于空位的丢失序列片段被添加、或“剪切”到初始一致序列代替空隙S1519而形成″拼接″一致序列。图29说明拼接候选一致序列内的剪切序列数据。依据本发明的实施方案,剪切由用户手动完成。选择性地,依据对应于空位鉴别和从剪切进空位的丢失测试信息中筛选序列信息的参数(由系统先前确定或由用户设置),该系统提供自动剪切。
剪切S1519之后,拼接候选一致序列再次被提交给REPI评估上述操作的影响S1521。选择性地,系统或用户确定另外的可接受阈值,另外的可接受阈值对应于现在正确鉴别S1523的丢失测试序列的数量(或百分率)或先前鉴别的而现在由REPI结果错误鉴别的测试序列S1525。这种阈值一般对应于改进或降低与初始候选一致序列相关的拼接一致序列功效的耐受性。在说明的实施例中,在没有失去任何先前鉴别的测试序列的情况下,添加两种序列片段是添加Ad1和Ad5到REPI点击列表上。
在另一种方面,如果剪切操作不能将丢失病原菌类型添加到被鉴别类型的列表上,或者其他序列hits在这个过程中丢失,新的一致序列将被放弃,Ad1和Ad5被分离出并且余下序列被重评估S1524。可供选择地,如果剪切操作不能满足可接受阈值,重评估被执行。因此,初始组测试序列间的序列差异不能满足可接受阈值(例如,上面直接描述的那些),两个或多个候选一致序列可能对于提供靶点序列时必要的,该靶点序列能鉴别预期百分率的初始组测试序列。选择性地,系统并行地考虑和评估这种附加候选一致序列。
如果所有初始序列已经在REPI结果(参见如30)中被鉴别,最终一致序列已经形成并且每个初始测试序列的杂交潜力能被确定。图31显示出杂交/结合模拟程序用于执行该步骤。每个初始序列与新的一致序列拼接。该模拟过程采用由b12seq比对程序生成的输出比对文件,并评估每25mer最高记分比对中差异数量。选择性地,程序评估较长间隔的差异数量或较短间隔差异数量。然后,系统建立生成序列(如Ad4的图31中显示)仅基于25mer′s具有小于2个错配的位点。另外,错配耐受的分离阈值由系统选择性地给出。
图31中显示的序列为与目前一致序列杂交的测试序列的模拟表达。每个序列与最终一致序列的杂交潜力被评估出1527。在这个实施例中,程序HybBind用于生成每个测试序列的杂交模拟序列S1529。一旦杂交模拟序列全部生成,它们每个经REPI运行,好像它们已获得实际芯片S1531。
如果所有模拟序列高评分或高“点击”匹配其各自序列(基于比值和/或预期值的类似性评分),那么潜在一致序列通过评估过程,能用作靶点序列来通过类型鉴别那些用于制备它的序列S1535。可供选择地,如果所有模拟序列按照高评分S1535不匹配各自序列,或者高评分和E-值匹配多重序列S1533,潜在一致性错误评估,序列被分解成多组并送回进行再评估S1534。
不能正确鉴别其各自序列(Ad1、Ad50、Ad34、Ad3)的潜在序列被送回第一步进行重新评估一种或一种以上一致性S1534。按照高评分和E-值不能正确鉴别其各自序列潜在序列Ad4、Ad21、Ad16、Ad7、Ad5被聚集在一起并被送回,经过上面描述的过程,以制备多重比对开始,在没有使用失败并不能正确鉴别S1536的那些序列的情况下,建立新的候选一致序列。新的候选一致序列(例如,参见图32)经同样阈值和评估b12seq、REPI、
Figure A20058002964202121
和REPI进行运行。当Hybbind最终模拟序列经REPI被运行用于确认按照高评分和E-值,所有序列能依据类型鉴别其各自序列,因此,这个潜在一致序列已经通过所有评估并能被用作Ad4、Ad21、Ad16、Ad7、和Ad5序列的靶点。
然而,在另一种实施方案中,系统为序列分析中时间趋势的追踪和分析作准备。通过随时间重复地或连续地执行和记录类似于上面描述的分析,遗传或蛋白质组进化和/或突变比采用常规方法更容易被追踪到。
在一种关于病原菌探测的特异性实施方案中,这里描述的本发明用于常规诊断和常见呼吸病原菌的临床(在床旁或近床旁)监控。容易得到的样本(例如,鼻腔冲洗液、咽喉拭子、唾液、血液、食物、土壤、水或空气)以简单方式被处理来制备核酸分离物,该分离物采用吸附方法得到,富集病原菌特异性靶点,采用无偏差(如全部)或多重PCR扩增方法进行扩增,洗涤和影像之前在再测序微阵列上杂交一段规定时间。全部过程是非常简单使得技术人员(医药技术人员水平)常规模式中没有重要中断的情况下将能在实施该试验。采用常见算法或采用由供应商规定的步骤生成碱基响应。REPI或其一些改变被用于自动分析微阵列生成的碱基响应,并提供给终端用户(例如,医师、疗养院、公共卫生官员、或其它决策者)传染性病原菌管理质量信息决定(例如,诊断、处理、预见和爆发控制/污染测量),这些传染性病原菌成为疾病综合症和并发症的原因。这个分析将经使用嵌入式序列数据库而局部发生,嵌入式数据库经REPI被查询(例如,局部专有BLAST服务器)。除了提供常规诊断功能之外,微阵列也将携带标记物给高度不可能(例如,禽流感或生物恐怖行动)病原菌,这种高度不可能病原菌将成为包含的其他原因,如公共健康官员。
在本发明的一些实施方案中,CIBSI输出被安排在多层中。在一种特殊实施方案中,CIBSI输出被安排以三层提供给用户或数据注释。输出的第一层提供了“物种水平”信息,输出第二层提供了“血清类型/菌株水平”信息,第三层提供了“低水平”信息。物种的实施例包括,但不限于,流行性感冒A、流行性感冒B、腺病毒、化脓性链球菌、炭疽芽孢杆菌、和土拉热弗朗西斯菌。尽管物种水平层首先提交给用户或数据注释,用户或数据注释能筛选和通过如用户输入、预先确定显示设置、或指定方案观察其他层。可供选择的实施方案提供了检索、组织、和提交对应于每个层内预先确定水平的数据的规则和算法。
在一种实施方案中,对于一级阳性的规定是如果一种物种多重拼接区域的任何一种产生具有预期值1.0e-9或小于1.0e-9的阳性子序列或产生单一病原菌数据库记录的高比值),那么结果为那个物种级的阳性。这建立起完全自发的第一层细节。用户能制造更多信息,第一层信息经过如人为干预步骤进入第二层或第三层信息。包括“血清类型/菌株水平”信息的第二层输出使用户查看序列数据库(如,GenBank)记录名称和评分在预先确定阈值的辨识器来确定血清类型和/或菌株。选择性地,下一种搜索算法可被应用没有精确命名协定的序列数据库来自动给出血清类型/菌株级信息(例如,经过搜索和分析GenBank资料)。可供选择地,通过选择显示领域后的选项,系统提供由用户或数据注释被制成第一层信息的附录(例如,腺病毒4、空军本地株或流行性感冒A、H3N2、Fujian 411)。第三层输出包括原始CIBSI输出。选择性地,算法可以被用于原始CIBSI输出。本发明的其他实施方案使附加信息移动到第一层输出中。
图20为针对执行本发明的一种实施方案的计算机系统(或服务器)2001的结构图。然后,应注意到,本系统不需要以个人电脑(PC)配置为基础,但更适合自定义处理器系统,该自定义处理器系统不包括也可被使用的普通用途计算机的特征。然而,因为用于支持本发明的实际硬件配置,不是为了限制,PC系统的一种实施例现在被给出。计算机系统2001包括bus 2002或其他通讯信息的通讯机制,处理器2003联合bus 2002一起处理信息。计算机系统2001也包括主存储器2004,如随机存储器(RAM)或其他动态储存器(例如,动态RAM(DRAM)、静态RAM(SRAM)、和同步DRAM(SDRAM)),联合bus 2002一起存储信息和由处理器2003执行的指令。此外,主存储器2004可用于存储临时变量或处理器2003执行指令期间的其他中间信息。计算机系统2004进一步包括只读存储器(ROM)2005或其他静态存储设备(例如,可编程ROM(PROM)、可擦除PROM(EPROM)、和电擦除PROM(EEPROM))联合bus 2002一起存储静态信息和处理器2003的指令。
计算机系统2001也包括磁盘控制器2006联合bus 2002一起控制一种或一种以上存储设备来存储信息和指令,如硬磁盘2007、和可移动媒体驱动机2008(如,软磁盘机、只读光盘驱动器、读/写光盘驱动器、光盘自动唱片点唱机、磁带驱动器、和只读磁光盘驱动器)。使用适当的驱动器接口(例如,小型计算机系统接口(SCSI)、集成设备电子部件(IDE)、加强型IDE(E-IDE)、直接内存存储(DMA)、或ultra-DMA)存储设备可被加入到计算机系统2001中。
计算机系统2001也可包括特殊用途逻辑器件(例如,专用集成电路(ASICs))或可配置逻辑设备(例如,简单的可编成逻辑设备(SPLDs)、复杂可编成逻辑设备(CPLDs)、和现场可编程门阵列(FPGAs))。
计算机系统2001也可包括显示控制器2009联合bus 2002一起管理显示器2010,例如阴极射线管(CRT),显示信息给计算机用户。计算机系统包括输入设备,如键盘2011和定位设备2012,与计算机用户连接并提供信息给处理器2003。定位设备2012,例如,可为鼠标、追踪球、或触控点用于与处理器2003交流方向信息和命令选择。此外,打印机提供了由计算机系统2001存储和/或产生的信息的打印列表。
计算机2001执行本发明处理器2003执行存储器,例如主存储器2004中含有的一种或一种以上指令的一种或一种以上序列的部分或全部处理步骤。这种指令可被读入另一种计算机可读媒体如硬盘2007或可移动媒体驱动机2008的主存储器2004。多重处理安排的一种或一种以上处理器也可用于主存储器中执行指令序列。在可供选择的实施方案中,硬体线路可被使用取代或联合软件指令。因此,实施方案不被限制硬件电路或软件任何特殊联合。
如上所述,计算机系统2001包括至少一种计算机可读媒体或存储器依据本发明的教导支持程序指令并包含数据结构、工作台、记录、或其他这里描述的数据。计算机可读媒体的实施例为磁盘、硬磁盘、软盘、磁带、磁光盘、PROMs(EPROM、EEPROM、flash EPROM)、DRAM、SRAM、SDRAM、或任何其他磁介质、光碟(例如,CD-ROM)、或任何其他光学介质、穿孔卡片、纸袋、或其他孔洞模式物理介质、载波(下面描述的)、或任何其他计算机可读的介质。
存储在任何一种或计算机可读媒体上,本发明包括操作计算机系统2001、驱动一种设备或执行本发明设备的软件,和使计算机系统2001支持个人用户(例如,打印人员)的软件。这种软件可包括,但不限于,设备驱动器、操作系统、开发工具、和应用软件。这种计算机可读媒体进一步包括实现本发明中执行处理的所有或部分(如果处理是分布式的)计算机程序产品。
本发明的计算机编码器可以为任何能翻译的或可执行的代码操作机制,包括但不限于译本、解释性程序、动态链接库(DLLs)、Java类、和完全可执行程序。此外,本发明部分处理可用于提高性能、可靠性、和/或费用上。
这里使用的术语“计算机可读媒体”统指任何参与提供指令给处理器2003用于执行的任何媒体。一种计算机可读媒体可以任何形式,包括但不限于,非易失性媒体、易失性媒体、和传输媒介。非易失性的媒体包括,例如光盘、磁盘、和磁光盘,如硬盘2007或可读媒体驱动器2008。易失性媒体包括动态存储器,如主存储器2004。传输媒介包括同轴电缆、铜丝和光导纤维,包括构成bus 2002的金属丝。传输媒介也包括声波形式或光波形式,例如在电磁波和红外数据通讯期间产生的。
不同形式的计算机可读媒体可涉及处理器2003执行的执行一种多个序列的一种或一种以上指令。例如,该指令可以最初在远程计算机的磁盘上执行。远程计算机可远程将执行本发明的全部或部分的指令输入到动态存储器中并通过电话线采用调制解调器发送指令。计算机程序2001的一种局部调制解调器可以收到通过电话线传送的数据并采用红外发射机将数据转换成红外信号。结合bus 2002的红外探测器能收到红外信号传送的数据并将数据输入bus 2002中。bus 2002将数据传送到主存储器2004中,处理器2003检索并执行该指令。由主存储器2004收到的指令可被必须地在处理器2003执行前或执行后存储在存储设备2007或2008上。
计算机系统2001也包括与bus 2002连接的通讯接口2013。通讯接口2013提供双向数据通讯连接网络链接2014,例如被连接到如局域网(LAN)2015,或另一种通讯网络2016如因特网。例如,通讯接口2013可为连接在任何包交换LAN的网路卡。如另一种实施例,通讯接口2013可为非对称数字用户线(ADSL)卡,综合业务数字网(ISDN)卡或提供数据通讯连接到相应类型的通信线路的调制解调器。无线电线路也可被实现。在这种执行中,通讯接口2013发送和接收运送代表不同类型信息的数字数据流电信号、电磁信号或光信号。
网络链接2014典型地经一种或一种以上网络或其它数据设备提供数据通讯。例如,网络链接2014可以经过局域网2015(例如,LAN)或经服务提供上操作的设备连接另一种计算机,通过通讯网络2016提供通讯服务。局域网2014和通讯网络2016使用,如运送数字数据流的电信号、电磁信号或光信号,和相关物理层(例如,CAT5电缆、同轴电缆、光导纤维,等)。经不同网络的信号和网络链接2014和经通讯接口2013的信号,将数字信号输送到计算机系统2001和输送来自计算机系统2001中的数字信号,或许在基带信号或载波信号中实现。基带信号传送数字信号如未调整的电脉冲,该未调整的电脉冲为描述的一串数字数据位,术语“位”广泛解释为普通符号,每个符号传达至少一种或一种以上信息位。数字数据也可用于如用振幅、在导电性媒质上传播的相和/或频率漂移键控信号调节载波。因此,数字数据可作为未调整的基带数据经“有线”通讯电路被发送和/或在经调整载波不同于基带的预先确定的波段内被发送。计算机系统2001能通过网络2015和2016、网络链接2014、和通讯接口2013传送和接收数据,包括程序码。此外,网络链接2014可以经LAN 2015连接到移动设备2017如个人数位助理(PDA)膝上型计算机,或移动电话。
本发明的一些实施方案的系统能在硬件、软件、韧件,或其组合中执行。在优选的实施方案中,系统在软件中执行,该软件存储在存储器中并由适宜的指令执行系统执行。如果在硬件中执行,如在可供选择的实施方案中,该系统能采用一些本领域中周知的技术来执行。
在流程图中描述的一些过程或草图应理解为代表模块、片段、或包括用于执行该过程中特殊逻辑功能或步骤的一种或一种以上可执行指令的部分编码,并且交替执行也包括在本发明优选的实施方案范围内,其中功能可以按显示的或讨论的非正常顺序执行,包括同时执行或次序颠倒执行,取决于设计的功能性,依据本发明领域中技术人员可理解的。
应强调的是,上面描述的本发明实施方案,尤其一些“优选”实施方案,仅是执行的可能实施例,仅为清楚理解本发明的原理而被阐述。在没有背离本发明界定的精神和原理的前提下可以对上述描述的本发明实施方案进行一些变化和修改。所有这种修改和变化是为了包括在该公开和本发明的范围内并被下列权利要求书描述。
参考文献
Albert,T.J.,Norton,J.,Ott,M.,Richmond,T.,Nuwaysir,K.,Nuwaysir,E.F.,Stengele,K.P.,Green,R.D.2003.Light-directed 5′-->3′synthesis of complex oligonucleotide microarrays.Nucleic Acids Res 31:e35
Bohlhlander,S.K.,Espinosa,R.,3rd,Le Beau,M.M.,Rowley,J.D.,Diaz,M.O.1992.A method for the rapidsequence-independent amplification of microdissected chromosomal material.Genomics 13:1322-4
Cherkasova,E.,Laassri,M.,Chizhikov,V.,Korotkova,E.,Dragunsky,E.,Agol,V.I.,Chumakov,K.2003.Microarray analysis of evolution of RNA viruses:evidence of circulation of virulent highly divergentvaccine-derived polioviruses.Proc Natl Acad Sci USA 100:9398-403
Chizhikov,V.,Rasooly,A.,Chumakov,K.,Levy,D.D.2001.Microarray analysis of microbial virulence factors.Appl Environ Microbiol 67:3258-63
Cutler,D.J.,Zwick,M.E.,Carrasquillo,M.M.,Yohn,C.T.,Tobin,K.P.,Kashuk,C.,Mathews,D.J.,Shah,N.A.,Eichler,E.E.,Warrington,J.A.,Chakravarti,A.2001.High-throughput variation detection andgenotyping using microarrays.Genome Res 11:1913-25
Cutler,D.J.,Zwick,M.E.,Carrasquillo,M.M.,Yohn,C.T.,Tobin,K.P.,Kashuk,C.,Mathews,D.J.,Shah,N.A.,Eichler,E.E.,Warrington,J.A.,Chakravarti,A.2001.High-throughput variation detection andgenotyping using microarrays.Genome Res 11:1913-25
Devereux,J.,Haeberli,P.,Smithies,O.1984.A comprehensive set of sequence analysis programs for the VAX.Nucleic Acids Res 12:387-95
Eddy,S.R.1998.Profile Hidden Markov Models.Bioinformatics 14:755-763
Ferguson,J.A.,Steemers,F.J.,Walt,D.R.2000.High-density fiber-optic DNA random microsphere array.AnalChem 72:5618-24
Ginger,D.S.,Zhang,H.,Mirkin,C.A.2004.The evolution of dip-pen nanolithography.Angew Chem Int Ed Engl43:30-45
Gingeras,T.R.,Ghandour,G.,Wang,E.,Berno,A.,Small,P.M.,Drobniewski,F.,Alland,D.,Desmond,E.,Holodniy,M.,Drenkow,J.1998.Simultaneous genotyping and species identification using hybridizationpattern recognition analysis of generic Mycobacterium DNA arrays.Genome Res 8:435-48
Gingeras,T.R.,Mack,D.,Chee,M.S.,Berno,A.J.,Small,P.M.,Drobniewski,F.,Alland,D.,Desmond,E.,Holodniy,M.,Drenkow,J.2001.Chip-Based Species Identification and Phenotype Characterization ofMicroorganisms.Affymetrix,Inc.,US
Hoffmann,E.,Stech,J.,Guan,Y.,Webster,R.G.,Perez,D.R.2001.Universal primer set for the full-lengthamplification of all influenza A viruses.Arch Virol 146:2275-89
Kampke,T.,Kieninger,M.,Mecklenburg,M.2001.Efficient primer design algorithms.Bioinformatics 17:214-25
Kessler,N.,Ferraris,O.,Palmer,K.,Marsh,W.,Steel,A.2004.Use of the DNA Flow-Thru Chip,a Three-Dimensional Biochip,for Typing and Subtyping of Influenza Viruses.J Clin Microbiol 42:2173-2185
Korf,I.,Yandell,M.,Bedell,J.2003.BLAST.O′Reilly and Associates,Sebastopol,CA
Kozal,M.J.,Shab,N.,Shen,N.,Yang,R.,Fucini,R.,Merigan,T.C.,Richman,D.D.,Morris,D.,Hubbell,E.,Chee,M.,Gingeras,T.R.1996.Extensive polymorphisms observed in HIV-1 clade B protease geneusing high-density oligonucleotide arrays.Nat Med 2:753-9
Lee,C.2003.Generating consensus sequences from partial order multiple sequence alignment graphs.
Bioinformatics 19:999-1008
Leipzig,J.,Pevzner,P.,Heber,S.2004.The Altemative Splicing Gallery(ASG):bridging the gap betweengenome and transcriptome.Nucleic Acids Research 32:3977-3983
Lin,B.,Vora,G.J.,Thach,D.,Walrer,E.,Metzgar,D.,Tibbetts,C.,Stenger,D.A.2004.Rapid detection andserotyping of acute respiratory disease-associated adenoviruses with oligonucleotide microarrays.
Journal of Clinical Microbiology in press
Meinkoth,J.,Wahl,G.1984.Hybridization of nucleic acids immobilized on solid supports.Anal Biochem138:267-84
Needleman,S.B.,Wunsch,C.D.1970.A general method applicable to the search for similarities in the amino acidsequence of two proteins.J Mol Biol 48:443-53
Nuwaysir,E.F.,Huang,W.,Albert,T.J.,Singh,J.,Nuwaysir,K.,Pitas,A.,Richmond,T.,Gorski,T.,Berg,J.P.,Ballin,J.,McComfick,M.,Norton,J.,Pollock,T.,Sumwalt,T.,Butcher,L.,Porter,D.,Molla,M.,Hall,C.,Blattner,F.,Sussman,M.R.,Wallace,R.L.,Cerrina,F.,Green,R.D.2002.Gene expression analysisusing oligonucleotide arrays produced by maskless photolithography.Genome Res 12:1749-55
Ochman,H.,Lawrence,J.G.,Groisman,E.A.2000.Lateral gene transfer and the nature of bacterial innovation.
Nature 405:299-304
Offfinga,D.P.,Tyson-Medlock,V.,Ye,Z.,Levandowski,R.A.2000.A comprehensive systematic approach toidentification of influenza A virus genotype using RT-PCR and RFLP.J Virol Methods 88:15-24
Shendure,J.,Mitra,R.D.,Varma,C.,Church,GM.2004.Advanced sequencing technologies:methods and goals.
Nat Rev Genet 5:335-44
Stenger,D.A.,Andreadis,J.D.,Vora,G.J.,Pancrazio,J.J.2002.Potential applications of DNA microarrays inbiodefense-related diagnostics.Curr Opin Biotechnol 13:208-12
Strizhkov,B.N.,Drobyshev,A.L.,Mikhailovich,V.M.,Mirzabekov,A.D.2000.PCR amplification on amicroarray of gel-immobilized oligonucleotides:detection of bacterial toxin-and drug-resistant genesand their mutations.Biotechniques 29:844-8,850-2,854 passim
Thompson,J.D.,Gibson,T.J.,Plewniak,F.,Jeanmougin,F.,Higgins,D.G.1997.The CLUSTAL_X windowsinterface:flexible strategies for multiple sequence alignment aided by quality analysis tools.NucleicAcids Res 25:4876-82
Thompson,J.D.,Higgins,D.G.,Gibson,T.J.1994.CLUSTAL W:improving the sensitivity of progressivemultiple sequence alignment through sequence weighting,position-specific gap penalties and weightmatrix choice.Nucleic Acids Res 22:4673-80
Troesch,A.,Nguyen,H.,Miyada,C.G.,Desvarenne,S.,Gingeras,T.R.,Kaplan,P.M.,Cros,P.,Mabilat,C.1999.Mycobacterium species identification and rifampin resistance testing with high-density DNA probearrays.J Clin Microbiol 37:49-55
Vasiliskov,A.V.,Timofeev,E.N.,Surzhikov,S.A.,Drobyshey,A.L.,Shick,V.V.,Mirzabekov,A.D.1999.Fabrication of microarray of gel-immobilized compounds on a chip by copolymerization.Bioteehniques27:592-4,596-8,600 passim
Volokhov,D.,Chizhikov,V.,Chumakov,K.,Rasooly,A.2003.Microarray analysis of erythromycin resistancedeterminants.J Appl Microbiol 95:787-98
Vora,G.J.,Meador,C.E.,Stenger,D.A.,Andreadis,J.D.2004.Nucleic Acid amplification strategies for DNAmicroarray-based pathogen detection.Appl Environ Microbiol 70:3047-54
Wang,D.,Coscoy,L.,Zylberberg,M.,Avila,P.C.,Boushey,H.A.,Ganem,D.,DeRisi,J.L.2002.Microarray-based detection and genotyping of viral pathogens.Proc Natl Acad Sci US A99:15687-92
Wang,D.,Urisman,A.,Liu,Y.T.,Springer,M.,Ksiazek,T.G.,Erdman,D.D.,Mardis,E.R.,Hickenbotham,M.,Magrini,V.,Eldred,J.,Latreille,J.P.,Wilson,R.K.,Ganem,D.,DeRisi,J.L.2003.Viral discovery andsequence recovery using DNA microarrays.PLoS Biol 1:E2
Wilson,K.H.,Wilson,W.J.,Radosevich,J.L.,DeSantis,T.Z.,Viswanathan,V.S.,Kuczmarski,T.A.,Andersen,G.L.2002a.High-density microarray of small-subunit ribosomal DNA probes.Appl Environ Microbiol68:2535-41
Wilson,W.J.,Strout,C.L.,DeSantis,T.Z.,Stilwell,J.L.,Carrano,A.V.,Andersen,G.L.2002b.Sequence-specificidentification of 18 pathogenic microorganisms using microarray technology.Mol Cell Probes 16:119-27
Yang,I.V.,Chen,E.,Hasseman,J.P.,Liang,W.,Frank,B.C.,Wang,S.,Sharov,V.,Saeed,A.I.,White,J.,Li,J.,Lee,N.H.,Yeatman,T.J.,Quackenbush,J.2002.Within the fold:assessing differential expressionmeasures and reproducibility in microarray assays.Genome Biol 3:research0062

Claims (106)

1.再测序DNA微阵列,包括多组固定在固相支撑体上长度范围在13到70个核苷酸的寡核苷酸引物,其中每组寡核苷酸引物为:
(a)被选择跨特定参考序列的特殊区域,
(b)占用被称为拼接区阵列的不连续区,和
(c)包括至少四组引物,在芯片上以平行方式安排在上述阵列的不连续区内,其中所述四组引物选自:
1)第一组引物与参考序列正确互补;和
2)另外三组引物,除了中心位置上的核苷酸,每一组与第一组引物一致,且这三组引物中心位置的核苷酸都不相同,使得所有四个常规核苷酸碱基出现在上述阵列中。
2.依据权利要求1所述的再测序DNA微阵列,其中寡核苷酸引物的长度为25个核苷酸。
3.依据权利要求1所述的再测序DNA微阵列,其中寡核苷酸引物跨越的参考序列的区域经(n+1)个核苷酸穿过参考序列进行移动,每个邻近拼接区域穿过微阵列表面。
4.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列包含18×18微米部件。
5.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列包含8×8微米部件。
6.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为单基因或子序列,该子序列可能代表更广类型的有机物类、种和亚种。
7.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为“原型”,该原型代表病原菌家族的基因型。
8.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为“原型”,该原型代表腺病毒家族或腺病毒组。
9.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为“原型”,该原型代表流行感冒病毒家族或流行感冒病毒组。
10.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为对单个病原菌株是独一无二的单基因或子序列。
11.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列编码耐药标记。
12.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列为RPMV1。
13.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列为RPMV2。
14.依据权利要求1所述的再测序DNA微阵列,其中上述再测序DNA微阵列包含至少一种常见病原菌的参考序列和至少一种生物恐怖药剂。
15.一种试剂盒包括:
(a)依据权利要求1所述的再测序DNA微阵列,和
(b)适于靶点序列与上述再测序DNA微阵列上的探针序列进行特异性杂交的试剂。
16.检测微生物中存在耐药标记物的方法,其中该方法包括:
(a)提供了依据权利要求1所述的再测序DNA微阵列;
(b)包括遗传材料的未知样本接触上述再测序DNA微阵列;
(c)在适宜条件下,将上述未知样本与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间;和
(d)检测上述未知样本中微生物中存在耐药标记物。
17.根据权利要求16所述的方法,其中上述方法进一步包括通过在由上述方法鉴别的耐药标记物的DNA序列和已知抗性标记物之间进行序列比对确定耐药标记物的同源性。
18.根据权利要求16所述的方法,其中上述杂交时间范围在15分钟到24小时。
19.根据权利要求16所述的方法,其中未知样本为生物样本。
20.根据权利要求19所述的方法,其中上述生物样本为选自由鼻腔冲洗液样本、鼻腔抽取液样本、咽喉拭子标本、血液样本、唾液样本、血液细胞、组织样本、穿刺活检样本、尿液标本、腹腔液样本、内脏积液样本和胸积液样本或其细胞组成的组。
21.根据权利要求16所述的方法,其中上述未知样本为选自由土壤样本、空气样本和水样本所组成的组的环境样本。
22.根据权利要求16所述的方法,其中上述杂交前,未知样本经过至少一种过程,该过程选自由下列过程所组成的组:
(i)上述样本中遗传材料的分离,
(ii)富集上述样本中的主体靶点序列,
(iii)扩增包含在上述样本中的遗传材料
(iv)标记上述样本中的遗传材料,和
(v)消减杂交。
23.根据权利要求16所述的方法,其中上述杂交前,未知样本中一种或一种以上主体靶点核酸经至少选自由特异性反转录(RT)、PCR、多重PCR、和随机PCR组成组的一种方法进行扩增。
24.根据权利要求16所述的方法,其中杂交未知样本中的一种或一种以上主体靶点核酸之前,未知样本经选自由随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶、串联扩增、多重PCR和全部扩增组成组的至少一种随机扩增策略进行扩增。
25.根据权利要求16所述的方法,其中对上述未知样本中遗传材料进行富集。
26.根据权利要求16所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸经从上述样本中消减背景核酸进行富集。
27.根据权利要求16所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸经反转录酶消减杂交进行富集。
28.根据权利要求16所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸通过选择性除去上述未知样本中的核酸混合物中上述靶点核酸被富集。
29.根据权利要求16所述的方法,其中上述探测是通过:
(i)上述未知样本中主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应生成碱基响应,和
(ii)通过杂交区序列和序列数据库内序列进行比对确定相应全长基因序列或基因组片段序列。
30.根据权利要求29所述的方法,其中碱基响应经Affymetrix GDAS软件在“许可”设置下生成。
31.根据权利要求29所述的方法,其中序列鉴定是经再测序病原菌辨识器(REPI)软件进行。
32.根据权利要求29所述的方法,其中序列数据库为GenBank。
33.通过执行权利要求16所述的方法进行常规诊断常见呼吸病原菌的方法,其中上述未知样本从需要进行常见呼吸病原菌常规诊断的患者中得到。
34.根据权利要求33所述的方法,其中上述未知样本在体检过程中得到。
35.通过执行权利要求16所述的方法监控常见呼吸病原菌的方法,其中上述未知样本从需要进行常见呼吸病原菌监控的患者中得到。
36.根据权利要求35所述的方法,其中需要常见呼吸病原菌监控的上述患者具有呼吸病原菌感染的历史。
37.通过执行权利要求16所述的方法监控一种或一种以上生物恐怖药剂的方法,其中上述未知样本从需要监控上述生物控制药剂的患者中得到。
38.根据权利要求37所述的方法,其中需要监控生物恐怖药剂的上述患者怀疑接触了上述生物恐怖药剂。
39.检测存在属于未知样本中的特殊类型有机物种或亚种类的微生物的方法,其中该方法包括:
(a)提供了根据权利要求1所述的再测序DNA微阵列;
(b)将包括遗传材料的未知样本接触上述再测序DNA微阵列;
(c)在适宜条件下,将上述未知样本中物质与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间;和
(d)检测存在属于未知样本中的特殊类型有机物种或亚种类的微生物。
40.根据权利要求39所述的方法,其中上述方法进一步包括通过由上述方法鉴别DNA序列和基因组数据库中已知序列之间进行序列比对确定特殊类型有机物种或亚种类的同源性。
41.根据权利要求40所述的方法,其中上述确定包括探测足够量的病原菌序列目的为了评估病原菌的可能来源。
42.根据权利要求39所述的方法,其中上杂交时间范围在15分钟到24小时。
43.根据权利要求39所述的方法,其中未知样本为生物样本。
44.根据权利要求43所述的方法,其中上述生物样本为选自由包括鼻腔冲洗液样本、鼻腔抽取液样本、咽喉拭子标本、血液样本、和唾液样本、血液细胞、组织样本、穿刺活检样本、尿液标本、腹腔液样本、内脏积液样本和胸积液样本或其细胞组成的组。
45.根据权利要求39所述的方法,其中上述未知样本为选自由土壤样本、空气样本和水样本的组成的组的环境样本。
46.根据权利要求39所述的方法,其中上述杂交前,未知样本经过至少一种过程,该过程选自下列过程组成的组:
(i)上述样本中遗传材料的分离,
(ii)富集上述样本中的主体靶点序列,
(iii)扩增包含在上述样本中的遗传材料
(iv)标记上述样本中的遗传材料,和
(v)消减杂交。
47.根据权利要求39所述的方法,其中上述杂交前,未知样本中一种或一种以上主体靶点核酸经至少选自由特异性反转录(RT)、PCR、多重PCR、和随机PCR组成组的一种方法进行扩增。
48.根据权利要求39所述的方法,其中杂交未知样本中的一种或一种以上主体靶点核酸之前,未知样本经选自由随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶、串联扩增、多重PCR、和全部扩增组成组的至少一种随机扩增策略进行扩增。
49.根据权利要求39所述的方法,其中对上述未知样本中遗传材料进行富集。
50.根据权利要求39所述的方法,其中上述未知样本中一种或一种以上主体靶点核梭经从上述样本中消减背景核酸进行富集。
51.根据权利要求39所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸经反转录酶消减杂交进行富集。
52.根据权利要求39所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸通过选择性除去上述未知样本中的核酸混合物中上述靶点核酸被富集。
53.根据权利要求39所述的方法,其中上述探测是通过:
(i)上述未知样本中主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应生成碱基响应,和
(ii)通过杂交区序列和序列数据库内序列进行比对确定相应全长基因序列或基因组片段序列。
54.根据权利要求53所述的方法,其中碱基响应经Affymetrix GDAS软件在“许可”设置下生成。
55.根据权利要求53所述的方法,其中序列鉴定是经再测序病原菌辨识器(REPI)软件进行。
56.根据权利要求53所述的方法,其中序列数据库为GenBank。
57.通过执行权利要求39所述的方法进行常规诊断常见呼吸病原菌的方法,其中上述未知样本从需要进行常见呼吸病原菌常规诊断的患者中得到。
58.根据权利要求57所述的方法,其中上述未知样本在体格检查过程中得到。
59.通过执行权利要求39所述的方法监控常见呼吸病原菌的方法,其中上述未知样本从需要进行常见呼吸病原菌监控的患者中得到。
60.根据权利要求59所述的方法,其中需要常见呼吸病原菌监控的上述患者具有呼吸病原菌感染的历史。
61.通过执行权利要求39所述的方法监控一种或一种以上生物恐怖药剂的方法,其中上述未知样本从需要监控上述生物控制药剂的患者中得到。
62.根据权利要求61所述的方法,其中需要监控生物恐怖药剂的上述患者怀疑接触了上述生物恐怖药剂。
63.评估含有相同病原菌的生物样本中病原菌相对量的方法,该方法包括:
(a)提供了根据权利要求1所述的再测序DNA微阵列;
(b)将上述生物样本接触上述再测序DNA微阵列;
(c)在适宜条件下,将上述未知样本中物质与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间;和
(d)量化上述未知样本中微生物或属于特殊类型有机物种类或亚种类的微生物中的耐药标记的存在和/或同源性。
64.根据权利要求63所述的方法,其中上述定量通过确定上述再测序DNA微阵列上杂交信号的绝对强度进行。
65.根据权利要求63所述的方法,其中依据总拼接区域尺寸的百分比和满足滑窗算法的筛选子序列内的碱基响应百分比,通过确定碱基响应的百分比进行上述定量。
66.根据权利要求65所述的方法,其中上述定量通过再测序病原菌辨识器(REPI)软件进行。
67.腺病毒株的基因组序列,选自由Ad3、Ad3FS navy、Ad4、Ad4vaccine、Ad4FS navy、Ad4FS AF、Ad5FS、Ad7、Ad7FS navy、Ad7 vaccine、Ad16、Ad1、和Ad21和其片段组成的组。
68.计算机实施的方法,该方法用于筛选输入查询的生物子序列来鉴别预先确定的生物水平序列,包括步骤:用处理器实施方法筛选来自存储器中存储的生物序列数据中的子序列;和提交子序列进行查询来鉴别具有最初预先确定置信水平的预先确定的生物序列,其中最初预先确定置信水平在筛选阈值之上。
69.根据权利要求68所述的计算机实施的方法,进一步包括:以FASTA、MSF、GCG、Clustal、BLC、PIR、MSP、PFAM、POSTAL和JNET格式中的一种格式存储生物序列数据。
70.根据权利要求69所述的计算机实施的方法,进一步包括:确定生物序列数据是否符合生物序列或对照组序列中的一种。
71.根据权利要求68所述的计算机实施的方法,其中筛选步骤包括:筛选对应于生物序列数据中碱基响应数量的窗口尺寸参数;并计算出生物序列数据的观察窗口内有效碱基响应的百分率。对应于筛选步骤中筛选出的窗口尺寸参数的窗口尺寸。
72.根据权利要求71所述的计算机实施的方法,其中筛选步骤包括:当计算步骤中计算的百分率不满足预先确定的阈值时,滑动观察窗口到生物序列内的另一种数量的碱基响应;并且计算生物序列中含在另一种数量的碱基响应内的有效碱基响应的百分率。
73.根据权利要求71所述的计算机实施的方法,其中筛选步骤包括:当计算的百分率满足预先确定的阈值时,按照提交给查询的子序列,在观察窗口内筛选碱基响应的子序列。
74.根据权利要求73所述的计算机实施的方法,进一步包括在被筛选子序列在提交步骤中被提交之前,从碱基响应的被筛选子序列中剔除无效碱基响应。
75.根据权利要求68所述的计算机实施的方法,进一步包括将子序列与大量的预先确定的序列比对;并且生成对应于至少一种上述预先确定序列的比对结果。
76.根据权利要求75所述的计算机实施的方法,其中比对步骤的比对结果包括表明子序列和至少一种上述预先确定序列之间预先确定水平的一致的统计值。
77.根据权利要求68所述的计算机实施的方法,进一步包括将信号强度与生物序列数据结合在一起;并评估至少一种靶点序列的浓度。
78.根据权利要求77所述的计算机实施的方法,进一步包括:依据至少一个筛选参数,探测来自生物序列数据的至少两个子序列;并且探测混合物和重组事件的至少一种。
79.根据权利要求78所述的计算机实施的方法,其中至少两个序列对应于微阵列的不同区域。
80.根据权利要求77所述的计算机实施的方法,进一步包括:在类似性序列的混合物和不同序列之间的重组之间进行辨别;其中类似性序列具有预先确定水平的相似性。
81.根据权利要求77所述的计算机实施的方法,进一步包括:
在混合物和重组之间进行辨别,包括
评估微阵列第一区域的第一信号和微阵列第二区域的第二信号,并且
将第一信号与第二信号比对生成至少一种特征参数,至少一种特征参数对应于一种概率,第一信号和第二信号表明混合物和重组中的一种。
82.根据权利要求68所述的计算机实施的方法,进一步包括:
鉴别至少一种一致序列对应于大量测试序列;
筛选出至少一种一致序列中的子序列;
将至少一种子序列与至少一种预先确定的序列比对;
生成比对结果;计算比对结果与大量测试序列之间的差异;
并且生成至少一种候选一致序列。
83.根据权利要求82所述的计算机实施的方法,进一步包括:
依据至少一种候选一致序列制备微阵列探针。
84.根据权利要求82所述的计算机实施的方法,进一步包括:
依据拼接参数,修饰至少一种一致序列,拼接参数对应于至少大量测试序列中的至少一种测试序列的至少一种部分。
85.根据权利要求82所述的计算机实施的方法,进一步包括:
依据至少一种杂交参数,模拟至少一种候选一致序列和大量测试序列之间的杂交。
86.根据权利要求82所述的计算机实施的方法,其中生物序列数据包括至少核酸、转录单体、转录产物、DNA、和RNA中的一种。
87.根据权利要求68所述的计算机实施的方法,其中生物序列数据包括空位和不确定子序列中的至少一种。
88.根据权利要求68所述的计算机实施的方法,进一步包括:计算生物序列数据的相对位置,其中生物序列数据包括氨基酸和蛋白质中的至少一种。
89.根据权利要求68所述的计算机实施的方法,进一步包括:
通过人工Sanger测序、自动Sanger测序、鸟枪法测序、常规微阵列、再测序微阵列、微电泳测序、杂交测序(SBH)、Ednian降解、扩增分子上循环阵列测序、单分子上循环阵列测序和纳米孔测序中的至少一种获得生物序列数据。
90.根据权利要求68所述的计算机实施的方法,其中生物序列数据为核苷酸序列和蛋白质序列中的至少一种。
91.计算机可读存储媒体,为计算机上执行的存储计算机可读指令的配置,计算机可读指令,当由计算机执行时,设置执行鉴别预先确定生物序列的方法,该方法包括:采用处理器实施方法从存储在存储器中的生物数据中筛选出子序列;并且提交查询中的子序列来鉴别具有最初预先确定置信水平的生物序列,其中最初置信水平在筛选阈值之上。
92.一种设备,通过输入查询鉴别预先确定生物序列筛选生物子序列,该设备包括:
从存储在存储器中的生物序列数据中筛选子序列的装置;提交查询中的子序列鉴别具有最初预先确定置信水平的生物序列,其中最初置信水平在筛选阈值之上。
93.一种计算机实施方法,通过输入查询鉴别预先确定生物序列,产生生物序列数据,该方法包括的步骤为:采用处理器实施方法,鉴别存储在存储器中的生物序列数据的大量局部序列;用大量参考序列比对探测步骤中被探测到的每个局部序列;将局部序列组合为混合组的序列数据,这些序列数据是以比对步骤结果为基础;筛选混合组序列数据的被提交查询的子序列来鉴别预先确定置信水平内的预先确定生物序列。
94.根据权利要求93所述的计算机实施方法,其中探测步骤包括:扫描生物序列数据探测出位于连续系列无碱基响应内的一系列碱基响应;并提取该序列碱基响应作为大量局部序列中的碱基响应。
95.根据权利要求93所述的计算机实施方法,其中探测步骤包括:在探测到有效碱响应位置开始查询窗口;延伸查询窗口尺寸来扩大连续序列的无碱基响应;并提取窗口系列的碱基响应作为大量局部序列中的一种碱基响应。
96.根据权利要求93所述的计算机实施方法,其中局部序列包括大量有效和无效碱基响应。
97.根据权利要求93所述的计算机实施方法,其中比对步骤包括:在大量局部序列中每一种局部序列和大量参考序列中的至少一种参考序列之间确定统计水平的相似性,其中统计水平的相似性表明在大量局部序列中每一种局部序列和大量参考序列中的至少一种参考序列之间的一致水平。
98.根据权利要求97所述的计算机实施方法,其中组合步骤包括:提取大量局部序列中的每一种局部序列,这一种局部序列被确定出与预先确定阈值上的大量参考序列中的至少一种参考序列具有统计水平的相似性;线性组合大量被提取序列中的一种来生成混合组的序列数据。
99.根据权利要求93所述的计算机实施方法,其中筛选步骤进一步包括:
筛选出对应于混合组序列数据中碱基响应的窗口尺寸参数;计算包含在观察窗口的混合组序列数据内的有效碱基响应的百分率,窗口尺寸对应于在筛选步骤中筛选出的窗口尺寸参数。
100.根据权利要求99所述的计算机实施方法,其中筛选步骤进一步包括:
当计算步骤中计算的百分率不满足预先确定的阈值时,滑动观察窗口到混合组序列数据内的另一种数量的碱基响应;并且计算混合组序列数据中含在另一种数量的碱基响应内的有效碱基响应的百分率。
101.根据权利要求99所述的计算机实施方法,其中筛选步骤进一步包括:
当计算百分率满足预先确定的阈值时,子序列被提交查询中时,在观察窗口内筛选子序列的碱基响应。
102.根据权利要求101所述的计算机实施方法,进一步包括的步骤为:在筛选子序列被提交查询中之前,从被筛选子序列中剔除无效碱基响应。
103.根据权利要求93所述的计算机实施方法,进一步包括:用大量预先确定序列比对子序列;并且生成对应于上述预先确定序列中至少一种序列的比对结果。
104.根据权利要求103所述的计算机实施方法,其中比对步骤中的比对结果包括表示子序列和上述预先确定序列中至少一种序列之间的预先确定水平的一致性的统计值。
105.计算机可读存储媒体,为在计算机上执行的存储计算机可读指令而配置,计算机可读指令,当由计算机执行时,被设置执行输入查询生成的生物序列来鉴别预先确定生物序列的方法,该方法包括:
采用处理器实施方法,鉴别存储在存储器中的生物序列数据的大量局部序列;
用大量参考序列比对探测步骤中被探测到的每个局部序列;
以比对步骤结果为基础,将局部序列组合为混合组的序列数据;
筛选被提交查询的混合组序列数据的子序列来鉴别预先确定置信水平内的预先确定生物序列。
106.一种设备,通过输入查询生成的生物序列数据鉴别预先确定生物序列,该设备包括:
采用处理器实施方法,探测存储在存储器中的生物序列数据中的大部分局部序列的装置;
比对由用大量参考序列进行探测的设备探测到的每个局部序列的设备;
基于比对设备得到的结果,混合局部序列为混合组序列数据的设备;
筛选混合组被提交查询的序列数据的子序列来鉴别预先确定置信水平内的预先确定生物序列的设备。
CN200580029642.3A 2004-07-02 2005-07-05 再测序病原菌微阵列 Expired - Fee Related CN101133164B (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US59093104P 2004-07-02 2004-07-02
US60/590,931 2004-07-02
US60991804P 2004-09-15 2004-09-15
US60/609,918 2004-09-15
US63146004P 2004-11-29 2004-11-29
US63143704P 2004-11-29 2004-11-29
US60/631,437 2004-11-29
US60/631,460 2004-11-29
US69176805P 2005-06-16 2005-06-16
US60/691,768 2005-06-16
PCT/US2005/024054 WO2006088493A2 (en) 2004-07-02 2005-07-05 Resequencing pathogen microarray

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2013101120186A Division CN103224942A (zh) 2004-07-02 2005-07-05 再测序病原菌微阵列

Publications (2)

Publication Number Publication Date
CN101133164A true CN101133164A (zh) 2008-02-27
CN101133164B CN101133164B (zh) 2014-01-22

Family

ID=36916882

Family Applications (2)

Application Number Title Priority Date Filing Date
CN200580029642.3A Expired - Fee Related CN101133164B (zh) 2004-07-02 2005-07-05 再测序病原菌微阵列
CN2013101120186A Pending CN103224942A (zh) 2004-07-02 2005-07-05 再测序病原菌微阵列

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2013101120186A Pending CN103224942A (zh) 2004-07-02 2005-07-05 再测序病原菌微阵列

Country Status (11)

Country Link
US (4) US20060210967A1 (zh)
EP (3) EP2383670A1 (zh)
JP (3) JP2008504844A (zh)
CN (2) CN101133164B (zh)
AU (1) AU2005327520B2 (zh)
CA (2) CA2823727A1 (zh)
HK (1) HK1118081A1 (zh)
NO (1) NO20070611L (zh)
NZ (2) NZ579206A (zh)
SG (1) SG156616A1 (zh)
WO (1) WO2006088493A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014140381A1 (en) * 2013-03-15 2014-09-18 Nexidia Methods for immunocapture and concentration of bacteria in a sample
CN105593865A (zh) * 2013-07-17 2016-05-18 西门子股份公司 用于确定对抗生素药物的细菌抗性的方法和系统
CN108348166A (zh) * 2015-09-09 2018-07-31 优比欧迈公司 用于与抗生素使用相关的感染性疾病及其它健康状况的源自微生物群系的诊断及治疗方法和系统
CN108342509A (zh) * 2018-02-08 2018-07-31 北京宏微特斯生物科技有限公司 用于富集脊椎动物病毒核酸的方法

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002233382A (ja) * 2001-02-09 2002-08-20 Sapporo Breweries Ltd ビール酵母の識別方法
US20060190184A1 (en) * 2005-02-23 2006-08-24 Incogen, Inc. System and method using a visual or audio-visual programming environment to enable and optimize systems-level research in life sciences
US20090305248A1 (en) * 2005-12-15 2009-12-10 Lander Eric G Methods for increasing accuracy of nucleic acid sequencing
AU2007314214A1 (en) * 2006-01-18 2008-05-08 Regents Of The University Of Colorado DNA array analysis as a diagnostic for current and emerging strains of influenza
WO2008140494A2 (en) * 2006-11-22 2008-11-20 The Board Of Trustees Of Michigan State University High throughput screening using microarrays
SG143090A1 (en) * 2006-11-27 2008-06-27 Agency Science Tech & Res Influenza b virus detection method and kit therefor
US20090092969A1 (en) 2007-10-09 2009-04-09 Michael Aye Detection of atypical pneumonia
WO2009102369A2 (en) * 2007-11-20 2009-08-20 Autogenomics, Inc. Multiplex assay for respiratory viruses
US8354230B2 (en) * 2007-12-21 2013-01-15 Quest Diagnostics Investments Inc. Multiplex detection assay for influenza and RSV viruses
US20110097704A1 (en) * 2008-01-29 2011-04-28 Ibis Biosciences, Inc. Compositions for use in identification of picornaviruses
US8080971B2 (en) * 2008-06-12 2011-12-20 Northern Illinois University Active electrical power flow control system for optimization of power delivery in electric hybrid vehicles
US20100048423A1 (en) * 2008-08-19 2010-02-25 Animal Health Research Institute, Council Of Agriculture, Executive Yuan Simultaneous detection, differentiation and typing system of newcastle disease and avian influenza viruses
JP5809978B2 (ja) 2008-10-31 2015-11-11 ザ・トラステイーズ・オブ・ザ・ユニバーシテイ・オブ・ペンシルベニア サルアデノウイルスSAdV−43、−45、−46、−47、−48、−49および−50ならびにそれらの用途
EP2359289A4 (en) * 2008-11-26 2015-11-11 Illumina Inc METHODS AND SYSTEMS FOR ANALYZING SEQUENCING DATA
US8926904B2 (en) * 2009-05-12 2015-01-06 Daniel Wai-Cheong So Method and apparatus for the analysis and identification of molecules
WO2010147989A1 (en) * 2009-06-15 2010-12-23 Ibis Biosciences, Inc. Compositions and methods for the isolation of nucleic acid
US20120191364A1 (en) * 2009-09-29 2012-07-26 Wing Cheong Christopher Wong Methods and arrays for dna sequencing
WO2011106556A2 (en) * 2010-02-24 2011-09-01 Life Technologies Corporation Systems and methods for adaptive recursive sequencing
TW201207118A (en) * 2010-07-29 2012-02-16 Bigtec Private Ltd Probes and primers for detection of dengue
EP2616555B1 (en) * 2010-09-16 2017-11-08 Gen-Probe Incorporated Capture probes immobilizable via l-nucleotide tail
US20150006532A1 (en) * 2012-01-18 2015-01-01 Dow Agrosciences Llc Stable pair-wise e-value
WO2013144663A2 (en) * 2012-03-27 2013-10-03 Rudjer Boskovic Institute Method of determination of neutral dna sequences in the genome, system for targeting sequences obtained thereby and methods for use thereof
US9201916B2 (en) * 2012-06-13 2015-12-01 Infosys Limited Method, system, and computer-readable medium for providing a scalable bio-informatics sequence search on cloud
JP2015524670A (ja) * 2012-08-16 2015-08-27 エヌブイエス テクノロジーズ,インコーポレイティド アッセイ方法及び系
US9003529B2 (en) 2012-08-29 2015-04-07 The Johns Hopkins University Apparatus and method for identifying related code variants in binaries
US9111095B2 (en) 2012-08-29 2015-08-18 The Johns Hopkins University Apparatus and method for identifying similarity via dynamic decimation of token sequence n-grams
US20140089328A1 (en) * 2012-09-27 2014-03-27 International Business Machines Corporation Association of data to a biological sequence
US9146248B2 (en) 2013-03-14 2015-09-29 Intelligent Bio-Systems, Inc. Apparatus and methods for purging flow cells in nucleic acid sequencing instruments
US9591268B2 (en) 2013-03-15 2017-03-07 Qiagen Waltham, Inc. Flow cell alignment methods and systems
CN106687965B (zh) * 2013-11-13 2019-10-01 凡弗3基因组有限公司 用于传送并且预处理测序数据的系统和方法
WO2015085105A1 (en) * 2013-12-04 2015-06-11 University Of Alaska Fairbanks Methods and compositions for enriching non-host sequences in host samples
US10342861B2 (en) 2014-05-27 2019-07-09 University Of Rochester Arenavirus vaccine
EP3161153B1 (en) 2014-06-30 2019-08-21 Dow Global Technologies LLC Method and reagents for detecting water contamination
CN105631239B (zh) * 2014-10-30 2018-08-17 国际商业机器公司 用于管理基因序列的方法和装置
US9805099B2 (en) * 2014-10-30 2017-10-31 The Johns Hopkins University Apparatus and method for efficient identification of code similarity
CA2968527C (en) * 2014-11-21 2019-01-29 Nantomics, Llc Systems and methods for identification and differentiation of viral infection
US20160178905A1 (en) * 2014-12-19 2016-06-23 Intel Corporation Facilitating improved viewing capabitlies for glass displays
CN107111693A (zh) * 2014-12-29 2017-08-29 考希尔股份有限公司 用于确定高同源性区域中的基因型的方法
WO2017004448A1 (en) * 2015-07-02 2017-01-05 Indevr, Inc. Methods of processing and classifying microarray data for the detection and characterization of pathogens
US10597736B2 (en) * 2016-01-29 2020-03-24 Washington University Compositions and methods for detecting viruses in a sample
JPWO2017145739A1 (ja) * 2016-02-24 2018-09-20 富士フイルム株式会社 染色体数定量方法
US10629291B2 (en) * 2016-03-10 2020-04-21 Koninklijke Philips N.V. Antibiotic resistance causation identification
EP3519097A4 (en) 2016-10-03 2020-04-29 Genvida Technology Company Limited METHOD AND DEVICE FOR ANALYZING AND IDENTIFYING MOLECULES
EP3339446A1 (en) 2016-12-21 2018-06-27 Siemens Healthcare GmbH Amplification-integrated genetic material depletion of non-target organisms using differentially abundant k-mers
US20190057134A1 (en) * 2017-08-21 2019-02-21 Eitan Moshe Akirav System and method for automated microarray information citation analysis
US11232852B2 (en) 2018-12-06 2022-01-25 Battelle Memorial Institute Technologies for nucleotide sequence screening
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
RU2712418C1 (ru) * 2019-11-08 2020-01-28 Илья Юрьевич Емельянов Вычислительное устройство
US20220364157A1 (en) * 2020-03-27 2022-11-17 Pathogendx, Inc. Methods for Detecting Low Levels of Covid-19 Virus
CN113470742B (zh) * 2020-03-31 2024-08-09 浙江省疾病预防控制中心 数据处理方法、装置、存储介质及计算机设备
WO2022020259A1 (en) * 2020-07-19 2022-01-27 Centrillion Technologies, Inc. Methods and devices for detecting and sequencing sars-cov-2
CN113284560B (zh) * 2021-04-28 2022-05-17 广州微远基因科技有限公司 病原检测背景微生物判断方法及应用
WO2023173114A2 (en) * 2022-03-10 2023-09-14 Technovax, Inc. Recombinant virus-like particle capsid vaccines against adenoviruses and compositions, methods, and use thereof
CN115547414B (zh) * 2022-10-25 2023-04-14 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质
CN115992265B (zh) * 2023-03-22 2023-07-14 中山大学 一种石斑鱼全基因组液相芯片及其应用

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5932220A (en) * 1995-05-08 1999-08-03 Board Of Regents University Of Texas System Diagnostic tests for a new spirochete, Borrelia lonestari sp. nov.
US5701256A (en) * 1995-05-31 1997-12-23 Cold Spring Harbor Laboratory Method and apparatus for biological sequence comparison
EP0880598A4 (en) * 1996-01-23 2005-02-23 Affymetrix Inc RAPID EVALUATION OF NUCLEIC ACID ABUNDANCE DIFFERENCE, WITH A HIGH-DENSITY OLIGONUCLEOTIDE SYSTEM
US6228575B1 (en) * 1996-02-08 2001-05-08 Affymetrix, Inc. Chip-based species identification and phenotypic characterization of microorganisms
US6519583B1 (en) * 1997-05-15 2003-02-11 Incyte Pharmaceuticals, Inc. Graphical viewer for biomolecular sequence data
US7024312B1 (en) * 1999-01-19 2006-04-04 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
EP1103911A1 (en) * 1999-11-25 2001-05-30 Applied Research Systems ARS Holding N.V. Automated method for identifying related biomolecular sequences
US6996477B2 (en) * 2001-04-19 2006-02-07 Dana Farber Cancer Institute, Inc. Computational subtraction method
EP1402254A1 (en) * 2001-05-04 2004-03-31 Paracel, Inc. Method and apparatus for high-speed approximate sub-string searches
JP3871301B2 (ja) * 2001-05-15 2007-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース検索装置、及びプログラム
US6881835B2 (en) * 2002-01-04 2005-04-19 Dr. Chip Biotechnology Inc. Detection of respiratory viruses
EP1339006A1 (en) * 2002-02-14 2003-08-27 AgeLab Pharma GmbH Method for the detection of a functional protein sequence and an apparatus therefor
AU2003233451A1 (en) * 2002-03-26 2003-10-13 Massachusetts Institute Of Technology Targets, methods, and reagents for diagnosis and treatment of schizophrenia
US7695941B2 (en) * 2005-06-16 2010-04-13 The United States Of America As Represented By The Secretary Of The Navy Multiplexed polymerase chain reaction for genetic sequence analysis

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014140381A1 (en) * 2013-03-15 2014-09-18 Nexidia Methods for immunocapture and concentration of bacteria in a sample
CN105593865A (zh) * 2013-07-17 2016-05-18 西门子股份公司 用于确定对抗生素药物的细菌抗性的方法和系统
CN108348166A (zh) * 2015-09-09 2018-07-31 优比欧迈公司 用于与抗生素使用相关的感染性疾病及其它健康状况的源自微生物群系的诊断及治疗方法和系统
CN108342509A (zh) * 2018-02-08 2018-07-31 北京宏微特斯生物科技有限公司 用于富集脊椎动物病毒核酸的方法

Also Published As

Publication number Publication date
JP2011200250A (ja) 2011-10-13
WO2006088493A3 (en) 2007-05-31
CN101133164B (zh) 2014-01-22
US20120035857A1 (en) 2012-02-09
EP2383670A1 (en) 2011-11-02
EP1778881A2 (en) 2007-05-02
JP5517996B2 (ja) 2014-06-11
US9430610B2 (en) 2016-08-30
WO2006088493A8 (en) 2007-08-09
WO2006088493A2 (en) 2006-08-24
US8032310B2 (en) 2011-10-04
CA2823727A1 (en) 2006-08-24
SG156616A1 (en) 2009-11-26
JP2011204261A (ja) 2011-10-13
CA2572617C (en) 2013-10-29
NZ579206A (en) 2011-04-29
CN103224942A (zh) 2013-07-31
EP1778881A4 (en) 2008-12-10
US20060210967A1 (en) 2006-09-21
AU2005327520B2 (en) 2011-04-28
US20070065832A1 (en) 2007-03-22
NO20070611L (no) 2007-03-29
HK1118081A1 (zh) 2009-01-30
JP5455977B2 (ja) 2014-03-26
JP2008504844A (ja) 2008-02-21
AU2005327520A1 (en) 2006-08-24
CA2572617A1 (en) 2006-08-24
EP2385477A1 (en) 2011-11-09
NZ552432A (en) 2009-11-27
US20090170717A1 (en) 2009-07-02

Similar Documents

Publication Publication Date Title
CN101133164B (zh) 再测序病原菌微阵列
Lehmann et al. Leptospiral pathogenomics
Gundi et al. Validation of partial rpoB gene sequence analysis for the identification of clinically important and emerging Acinetobacter species
Catara et al. Trends in molecular diagnosis and diversity studies for phytosanitary regulated Xanthomonas
Portier et al. Updated taxonomy of Pectobacterium genus in the CIRM-CFBP bacterial collection: when newly described species reveal “old” endemic population
Bertasio et al. Serological survey and molecular typing reveal new Leptospira serogroup Pomona strains among pigs of northern Italy
Tan et al. Rapid, unbiased PRRSV strain detection using MinION direct RNA sequencing and bioinformatics tools
Silva et al. Molecular characterization of a new virus species identified in yam (Dioscorea spp.) by high-throughput sequencing
Pappas et al. Virus bioinformatics
Moubset et al. Virion-associated nucleic acid-based metagenomics: a decade of advances in molecular characterization of plant viruses
US20110152109A1 (en) Biological sample target classification, detection and selection methods, and related arrays and oligonucleotide probes
Suleimanova et al. Identification of Pantoea phytate-hydrolyzing rhizobacteria based on their phenotypic features and multilocus sequence analysis (MLSA)
Cigna et al. European Population of Pectobacterium punjabense: Genomic diversity, tuber maceration capacity and a detection tool for this rarely occurring potato pathogen
Hu et al. Genetic divergence and population structure of Xanthomonas albilineans strains infecting Saccharum spp. Hybrid and Saccharum officinarum
Bai et al. Identification of secreted protein gene-based snp markers associated with virulence phenotypes of Puccinia striiformis f. sp. tritici, the wheat stripe rust pathogen
Jilani et al. Phylogeographic characterization of Burkholderia pseudomallei isolated from Bangladesh
Salamzade et al. zol & fai: large-scale targeted detection and evolutionary investigation of gene clusters
Bannister et al. Development and assessment of a diagnostic DNA oligonucleotide microarray for detection and typing of meningitis-associated bacterial species
Luigi et al. Development, validation, and application of reverse transcription Real-Time and droplet digital PCR assays for the detection of the Potyviruses watermelon mosaic virus and zucchini yellow mosaic virus in cucurbits
Ndiaye et al. Genomic Epidemiology of SARS-CoV-2 in urban settings in Senegal
Fiori et al. A naturally occurring microhomology-mediated deletion of three genes in African swine fever virus isolated from two Sardinian wild boars
Willner et al. Metagenomics and community profiling: culture-independent techniques in the clinical laboratory
Vafadoost Development of bioinformatics tools for the characterization and classification of low abundant microbes at the strain level, with a study case of SARS-CoV2
Zhu et al. Evaluation of Metagenomics Next-Generation Sequencing as a Diagnostic Tool for Influenza Virus-Positive Respiratory Samples in Retired Fitness Players
AU2011203297B2 (en) Computer-Implemented Biological Sequence Identifier System and Method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1118081

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1118081

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140122

Termination date: 20150705

EXPY Termination of patent right or utility model