CN101133164A - 再测序病原菌微阵列 - Google Patents
再测序病原菌微阵列 Download PDFInfo
- Publication number
- CN101133164A CN101133164A CNA2005800296423A CN200580029642A CN101133164A CN 101133164 A CN101133164 A CN 101133164A CN A2005800296423 A CNA2005800296423 A CN A2005800296423A CN 200580029642 A CN200580029642 A CN 200580029642A CN 101133164 A CN101133164 A CN 101133164A
- Authority
- CN
- China
- Prior art keywords
- sequence
- mentioned
- microarray
- sample
- subsequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/689—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/6893—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for protozoa
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/70—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
- C12Q1/701—Specific hybridization probes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Tropical Medicine & Parasitology (AREA)
- Virology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是关于通过采用DNA再测序微阵列进行病原菌探测和鉴别的方法。本发明也提供了再测序微阵列芯片,用于生物样本中存在的病原菌的区分诊断和血清类型分类。本发明进一步提供了探测生物样本中存在病原菌和鉴别病原菌的方法。本发明也提供了计算机实施生物序列辨识器(CIBSI)系统和依据至少一种筛选参数从生物序列数据中筛选子序列的方法。至少一种筛选参数对应从类似的筛选中获得有意义结果的一种可能性。
Description
相关申请
本发明要求了2004年7月2日提出的美国临时申请第60/590,931号,2004年9月15日提出的美国临时申请第60/609,918号,2004年11月29日提出的美国临时申请第60/631,437号,2004年11月29日提出的美国临时申请第60/631,460号和2005年6月16日提出的美国临时申请第60/691,768号的优先权。
联邦资助项目声明
根据来自国防威胁降低局(DTRA;Interagency Cost ReimbursementOrder(IACRO#02-4118),MIPR numbers 01-2817,02-2292,02-2219,和02-2887),美国空军军医长办公室(HQ USAF SGR;MIPR NumbersNMIPR035203650、NMIPRONMIPRO35203881、NMIPRONMIPRO35203881)、美陆军医学研究(Contract #DAMD17-03-2-0089),国防高级研究计划局(DARPA;MIPR NumberM189/02),和美国海军研究总署(NRL Work Unit 6456)的基金,美国政府拥有本发明的权益。
版权声明
专利文件的公开部分包含了受到版权保护的材料。当它以美国专利商标局专利文件或记录中公开时,版权所有者不反对他人影印复制美国专利商标局公开的专利文件或记载,但在其它的方面保留所有版权。
序列列表
本申请包括附属光盘上序列列表,该光盘含有文件名为NC97416.txt,2005年7月15日生产,容量大小639KB,和另外标记:
申请人:美利坚合众国政府,由海军部长所代表
题目为:再测序病原菌微阵列
文件引用号:NC 97,416
附属光盘的全部内容通过在此引述而合并于本申请中。
技术领域
本发明提供了采用DNA再测序微阵列进行病原菌检测。优选,本发明提供了多个病原菌的同时测定方法。本发明也提供了再测序微阵列和区分诊断用的微阵列芯片和生物样本中紧密相关病原菌间的细微区别。本发明进一步提供了检测生物样本中病原菌的存在和识别的方法。本发明能够诊断和监视已知病原菌序列和由于未预期序列突变而被确定的病原菌,以及这种病原菌的混合物。联合一些扩增策略,再测序允许同时临床诊断和血清类型分类的传统监测试验、抗生素耐药性、遗传漂变/遗传漂移分析、法医、和生物恐怖事件的快速探测。
本发明也是关于多种自动筛选体系,该体系包括采用可供选择的生成核酸或蛋白序列的任意方法自动子序列筛选体系。该系统适用于自动筛选由再测序DNA微阵列获得的不完全核苷酸序列数据的子序列,依据系统预先确定的参数或使用者确定的参数,采用一种或一种以上相似性搜索算法来筛选最适于对比预先确定数据库序列收集的序列子集。本发明的实施方案也能够进一步分析和表达由一种或一种以上子序列提交的相似搜索得到的相关结果。这里描述的本发明的主题分辨序列标记的组合,该序列标记组合源于多个序列靶点(例如,微生物)的混合或源于单个靶点内序列的重排。基于DNA微阵列的相对信号强度值,本方法的实施方案也能分配相对丰富的混合靶点序列。此外,本发明的一种主题为采用“原型”序列块表达相关靶点序列(例如,病原菌)的范围,设计再测序DNA微阵列的迭代程序的完整组成组分。
背景技术
由于我们正在经历人类基因组工程的生物技术时代,已经将额外费用投入到发展获得和分析序列信息的高产量方法学中。为了满足这种需要,多功能DNA微阵列平台已经拥有导致应用方法中应用爆发性增长的显著名声。
更重要的,世界事件的发展和主流社会中生物恐怖行动的出现已经引起科学团体增长的情绪并且使人们必须发展用于鉴别和清除生物威胁的新颖、快速并准确的技术。用于广谱病原菌鉴别的微阵列的概念对医疗实践和国家防御都具有相当大的和显而易见的吸引力。在这个构架中,本发明者已经做出了努力。
迄今,通常依赖于微阵列表面上的固定“探针”DNA序列与互补基因组“靶点”的杂交能力来实现鉴别病原菌的目的,该互补基因组“靶点”独一无二鉴别特殊种类或特异性细菌病原菌。针对该目的已经发展了不同的微阵列技术,这些技术在探针密度和试验完成需要的时间范围上有所不同。
由于在获得具有足够量病原菌核酸样本中的困难,产生了用微阵列进行病原菌检测的技术挑战。因此,对于大部分样本类型,某些种类的靶点扩增将有可能需要提供用于经微阵列杂交进行检测的病原菌基因标记的足够拷贝。不幸的是,扩增的惯常方法与放置于微阵列芯片上的探针数量相比标度不好。然而,提供足够量的基因组靶点检测杂交的更普遍采用的方式依赖于基因型鉴定方法,该基因型鉴定方法利用分子生物学技术,例如聚合酶链反应(PCR)。这些技术比惯常微生物学方法具有一些潜在优势。核酸扩增策略病原菌鉴定基于有机体内的基因信息的检测,例如不需要培养有机体。
尽管PCR测试灵敏、准确并且快速,这些方法也带来新的问题。成功的鉴定完全依赖于适当的选择引物,如PCR测试要求假设靶点有机物固有的精确序列。因此,迫切需要先进的诊断体系以检测假定的和不可预料的病原菌序列。DNA微阵列能够查询数千个遗传因素,处理该紧要的需求。术语“微阵列”统指一类在单个位点具有高度复制能力(102到106)的平面底物或固体瓷球,每一种核酸探针设计用于选择性地捕获互补链的靶点(例如病原菌或宿主)核酸。
然而,文库内描述的大部分病原菌鉴定微阵列采用寡核苷酸制备得到,该寡核苷酸被机械设备控制点样于衍生的玻璃表面上(一般为3x1英寸载波片)。这种方法使得寡核苷酸的尺寸具有最大的灵活度,该寡核苷酸被沉淀下来,范围从20-mers到几千个碱基对(bp)的cDNA PCR产物。无一例外,检测结果为在具有荧光团标记的靶点核酸的杂交之后污点产生的加强的荧光。
Argonne国家实验室(DOE,USA)和Engelhard分子生物学研究所在Andrei Mirzabekov领导下共同努力已经使固定在丙烯酰胺衬垫内的短寡核苷酸(14-25mer)广泛用于与病原菌鉴定中(参见Strizhkov et al.,2000;Vasiliskov et al.,1999)。此外,低密度微阵列(几百个3x1英寸载波片)已经用于抗药物决定因素的确定(参见Volokhov et al.,2003)。该工作主要部分的一个不同方面是使用了探针固定的三维聚合物矩阵代替二维平面。
目前,Cherkasova等人描述了玻璃固定短寡核苷酸点样微阵列,使用重叠14-25mer探针来描绘脊髓灰质炎病毒突变(Cherkasova et al.,2003)。这种方法的两个改变已经进行使用:(1)再测序微阵列和序列异质性(MARSH)试验,和(2)病毒重组的微阵列分析(MAVR)试验。MARSH使用了一组重叠的单个基因序列(半长度)核苷酸探针。杂交方式使得单点突变或取代或缺失成为半个探针长(如,7-10bp)解决方法而不考虑位点的准确检测或不变的性质。因此,惯常的DNA测序技术后来一定被用于检测这些改变。MAVR使用以150nt间距覆盖整个基因组的有机体-特异性寡核苷酸探针并且用于检测大规模遗传重组。
UCSF的DeRisi组开拓了使用长(70-mer)寡核苷酸探针微阵列用于光谱病原菌鉴定(Wang et al.,2002;Wang et al.,2003)的方法。长(70nt)寡核苷酸的使用具有绝对优势和劣势。一种优势是相对于较短探针(例如,7-10)而言通常能由70-mer探针得到更高程度的灵敏性。然而,因为70-mer靶点/探针杂交一般对显著性数量的单碱基不匹配不灵敏而减少了特异性,然而,较短探针提供了更大的序列特异性。
DeRisi′s工作组描述使用具有1,600个不同的70-mer寡核苷酸探针的点样微阵列来鉴定引发普通呼吸感染的多种病毒(Wang et al.,2002)。采用算法定位于已知病毒基因组列表中的鉴别序列,为每个病原菌选择的探针。先前描述的方法和后来PCR/Klenow片断基扩增的一系列组合被用于获得病毒KNA和DNA的无偏扩增,生成足够量的成功微阵列杂交的靶点扩增子并且经荧光标记检测。(N.B.这个草案被置于DeRisi实验室网址的公共领域中(http://derisilab.ucsf.edu)′)。为得到结果进行样本准备需要的时间约24个小时。因为确定序列信息从这个阵列得不到,病原菌鉴定是以杂交方式为基础的,杂交方式能凭经验确定每个或每一株病原菌。在同一研究组的相关报告中(Wang et al.,2003),采用高度保守序列制备类似微阵列努力从样本中捕获尽可能多的微生物种类。随后从微阵列中物理除去病原菌序列,克隆该序列并使用惯常DNA测序技术进行测序。在DeRisi研究组的工作中没有提供临床样本中病原菌检测的分析/临床灵敏性或特异性的测量。
相对于上面提到的使用点样微阵列的方法,Affymetrix,Inc.(SantaClara,CA)使用高度密度探针制备技术在被测序的每个核苷酸碱基的正义和反义方向采用4个探针来构建″拼接″微阵列。因此,单碱基取代通过杂交模式直接被检测出(额外信息参见Affymetrix CustomSeq design manual)。一些工作组描述可使用病原菌基因型拼接微阵列。(Kozal et al.,1996)利用这种类型的微阵列测量HIV内突变漂移,而Gingeras等人(Gingeras et al.,1998;Troesch et al.,1999)使用65,000低聚物探针的tiled阵列进行再测序并精确鉴定27个分枝杆菌的70个临床分离物和15个耐利福平结核分枝杆菌株。目前,Andersen等人(Wilson et al.,2002b)描述了使用tiledAffymetrix微阵列鉴定生化战试剂。他们的方法完全依赖于实施特异性PCR反应的使用同时生成微阵列杂交用的足够病原菌靶点DNA。在所有上述列出的情况中,特异性PCR引物用于在微阵列杂交之前扩增DNA靶点,通过使用保守引物位点,在多井格式中执行~150个不同PCR反应并且共有扩增子。
美国专利6,228,575 B1描述了如Gingeras(Gingeras et al.,1998)和Troesch(Troesch et al.,1999)描述的相同的数据。在该专利中,靶点病原菌序列被拼接到阵列中。因为病原菌序列中的一些类型的变异(esp.插入/缺失或频繁多重取代)能扰动杂交模式,Gingeras等人使用特异性病原菌杂交模式的不同测量方法来鉴定单个分枝杆菌变异体。那就是说,鉴定需要杂交模式的先验知识,该杂交模式在陆地实测试验中被经验确定出。
如同上面阐述的,迫切需求先进的诊断系统来探测抑制和病原菌基因组序列以及这些序列的变异。更特殊的是,迫切需要快速可信的DNA微阵列技术,而且此微阵列技术没有迄今已经被采用的PCR方法的系统偏差。
生物学与工程和计算机科学的融合导致生物技术和生物信息学的出现,其目的之一在于迅速获得和分析疾病诊断用的基因组和蛋白质组序列信息。这种方法的实验活性和普遍可用性主要基于DNA微阵列的出现(Stenger et al.,2002)。
一般来说,微阵列制备应用微处理器制造业的方法来制备能迅速可信鉴定生物样本中的DNA序列或蛋白质的“基因芯片”。术语“微阵列”统指任意类型的平面底物或可供选择的矩阵,在单个位点具有高度复制能力(102到106),每个存在的探针(固定核酸或抗体)被设计选择性捕获溶液中互补链的靶点(例如,基因或基因转录)分析物。经设计,DNA微阵列能同时审查几千个基因或基因转录因素。
在使用再测序DNA微阵列进行遗传分析中,含有扩增和荧光标记遗传靶点的溶液经过微阵列,该微阵列由大量“拼接”格式的寡核苷酸探针组成(Kozal et al.,1996)。样本中的互补序列结合相应的微阵列上含有的探针。然后,使用如激光扫描仪分析微阵列,该激光扫描仪记录微阵列探针光发射强度。然后,采用用于生成“碱基响应”的阵列特异性软件分析被记录的强度,阵列特异性软件为描述鉴定生物样本中核酸(腺嘌呤;A,胸腺嘧啶;T,胞核嘧啶;C,或鸟嘌呤;G)某种程度的概率确定性序列的计算方法。广泛IUPAC定义代码也用于描述了不准确地碱基响应(参见,2004年7月2日提出的美国临时申请序列号60/590,931题目为“再测序病原菌微阵列”,补充资料,Appendix J″gdas_manual.pdf page 255)。如果靶点序列与再测序序列的适宜拼接区域充分一致(每25个碱基有小于1-2个碱基取代),那么靶点的全部再测序是有可能的。然而,当靶点序列包含插入、缺失或碱基取代在靶点序列每25个碱基大于2个取代次数时,拼接区域的杂交被中断。“无[碱基]响应”的结果由微阵列拼接区域上的相应序列中得到。当溶液中靶点核酸浓度低或当存在干扰水平的杂交溶液中竞争底物核酸时,也导致N响应。不完全生物序列信息也能由许多其他核酸或蛋白质序列技术产生。
再测序的主要应用是为了检测低概率单核苷酸多态性(SNPs)或靶点序列限制范围内的突变。然而,尽管在工业中目前没有惯用的实施方法,微阵列序列输出也能与序列数据库对比来鉴定靶点序列。目前使用的序列数据的最普遍比对方法,或类似性搜索算法为基本的局部比对搜索工具,普遍以″BLAST.″著称并且这里统称为″BLAST.″。它存在许多变体,包括华盛顿大学BLAST(WU-BLAST)、NCBI-BLAST、FASTA、MPsrch、Scanps、和BestFit(Korf,Yandell&Bedell,2003)。依据测试样本包括已知序列的匹配生物主体的确定性,一般这种比对产生许多可能匹配(概率性测量)。微阵列密度分析序列产量经常与包括生物主体的已知序列进行比对,该生物主体包括病原菌微生物。然而,本发明技术领域中的普通技术人员不能从视觉上确定拼接区域中的最好序列部分,该拼接区域包含经过改变无响应(N)的数量介入和在一些情况下受支配的A、C、T和G碱基响应。
用于遗传测序和鉴定用微阵列预期提高了一种研究者从生物样本中提取大量序列数据比对大量先前测序的有机体和生物质的能力。然而,研究者不能利用有效时间信息。对研究者因过度等待时间提交的比对样本序列,模糊结果也是令人困惑的难题并且差结果与尝试匹配模糊结果相关。因此,对研究者来说从序列比对中获得更相关结果的广泛使用的方法是分析搜索子序列的序列输出,该子序列具有获得相关结果的较高概率。特别的,许多研究者经常发现自己手动并主观筛选,或视觉分析某些子序列,与序列数据库中子序列比对。结果,研究者消耗了时间和资源提交的类似性搜索是相对缓慢并且主观优化的序列数据。因此,上面提到的资源利用问题的目前解决方案导致了研究者要求的额外时间和资源要求必备的条件。此外,如同目前解决方案具有主观性以及时间密集型的,促进基因组研究发展(或加速)的净收益至多是不确定的。
然而,如同上面提到的,已知生物序列的巨大储存库通常包含在共享计算资源中。这些共享计算资源要求大量数据存储能力,以及具有与数据库中序列比对提交序列的强大工具。由于研究者生成的大量序列数据改善了一般研究使用的微阵列并增强了其可用性,主要任务在于利用宽带共享数据库(和相关系统)并且处理要求显著性提高了。换句话说,广泛使用微阵列可能得到的数据增加通常导致更难有效利用共享生物信息计算资源。
例如,如果提交的序列含有大百分比的不确定序列数据,序列数据库计算资源将设法找出与固有的不确定序列相匹配的序列,导致所有低确定性的可能类似性搜索结果。图10(a)为说明目前可能采用工业可用方法执行工艺的示范流程图。在这个实施例中,采用类似性搜索109,提交对应于主体序列的核苷酸或氨基酸序列数据103与已知序列数据库进行比对。
当与数据库记录比对时提交序列103,109可能或不可能获得统计学显著或有意义结果。因此,经定义,使用大量确定类似性算法中的任何一种,采用“比对”方法对序列记录数据库执行查询序列的类似性搜索(例如BLAST)。上述“可比”序列与至少数据库中的一种序列具有足够程度的类似得到至少一种统计学上显著性结果(使用者定义)。对终端用户来说,视觉鉴定和选择连续性核苷酸碱基响应(仅由A、T、C、或G残基组成)或可比较的氨基酸。然而,由于含在靶点序列内的″Ns″的数量或百分比提高,对终端用户更加困难凭视觉确定完整序列或其中的子序列的可比性。
结果111包括高概率匹配111a,较低概率匹配111b,和有效量的统计学上无显著性结果111c,结果111c导致与数据库偶然匹配。经类似性搜索算法Ns处理为″aNy″(wild card)特性,意味着当使用缺省参数时,N可为四个碱基残基中的任何一种或间隙。在再测序DNA输出中,N说明再测序算法不能解决响应并且能对应四个碱基残基(A、T、C或G)的任何一种或对应空腔(Korf et al.,2003)。在在提交序列中包括许多无响应(Ns)的情况下,类似性搜索(如BLAST)将计算出E值比认可E值(如1.0e-9)高,说明偶然性更大,返回的序列不是独一无二的。类似地,短序列可能具有较高E值,说明确定独一无二的DNA存在中,终端用户缺乏使用短序列。结果111包括许多不确定结果111c,那么剩下的结果111成为研究者分析的113。
在图10(a)中,显示出其他用户将碱基响应序列提交给共享序列数据库109,处理这些局部排列搜索的附加要求。如上面描述的,多个用户提交不确定序列给共享序列排列资源经常导致可用计算资源仅服务于一小部分序列提交。
图10(b)说明这个可供选择情况经常在工业实施中发现,研究者时间消耗是使人困惑的难题。相对于先前说明的情况,在研究者手动实施的119切割和粘贴操作中改变103序列数据。更特殊的是,研究者经常目测扫描原始数据输出并且主观拷贝和粘贴119原始数据输出子集,119原始数据明显包含较少的″Ns″并且提交这些主观筛选121比对109。然而,如主观实施子集筛选并且重复大量原始数据,人筛选的提交物121通常包括可比的121a和不可比的121b数据。因此,BLAST比对123的结果仍包括一系列可能匹配,范围从高概率匹配123a到低概率匹配123b,其经常由筛选引起,而筛选中存在许多无响应123c而不存在由无类似性的序列匹配引起的低概率匹配的预期结果。
根据上面讨论的,图10(c)是在有线或无线网络128上,与计算机终端的序列数据库服务器作用的这个系统设计的示意图。在一些情况中,序列数据库(和相关服务器)127远离终端用户129。可供选择地,一些设备定制序列数据库133,数据库133可进入局部终端131。然而,上面提到的时间和共享资源消耗的问题在时间消耗较大增加的公共数据库水平的设备配置中是显著性的。
许多不同因素能导致再排序DNA微阵列不能产生确定碱基响应。在纯净靶点样本中,碱基响应的杂交模式(Cutler et al.,2001;Kozal et al.,1996)被中断。一种靶点序列完全不同于探针序列,该探针序列拼接在微阵列表面上。这在再测序微阵列输出文档的阻断位中引入了N响应。当样本不纯而含有不同量的其他核酸分子,发生了相同效应,该核酸分子能低亲和力非特异性结合拼接探针,导致经探针装置较低信噪比的杂交(荧光)信号。为说明这些因素怎么能确定是否序列是可比较的或不可比较的数据,图10(d)显示了当发生不完全杂交时发生了再测序DNA微阵列输出文档的实施例。在该说明情况中,序列135是FASTA形式,然而可供选择的序列数据格式同样适于,包括,但不限于plain、EMBL、GCG、GenBank、和IG。在实施例中,序列136为序列子集140(子序列)。实施例子序列140包括具有大量无响应(Ns)137的子序列,子序列太短而不能从类似性搜索如BLAST 139中返回有效结果,并且子序列可能生成有效结果143。此外,由aliase产生多重序列,其位于序列标头138,涉及存在于微阵列表面上的探针拼接装置。
总的来说,上面提到的目前工业实施的问题基本关于研究者时间消耗和共享资源分配。更特殊地,样本中得到的增加量的子序列数据导致共享资源,如序列比对数据库利用的迅速增加。这种迅速增加成为逐渐增加的群体(研究者和数据)效率使用的必要条件。为了更有效使用共享资源,现在研究者面临着需要耗费时间和资源来主观手动筛选比对序列子集。
根据上面陈述的,迫切需要先进的诊断体系以迅速探测出已知和未预料到的序列。更特殊地,迫切需要DNA微阵列技术,尤其在共享类似性搜索数据库和系统的利用中,该DNA微阵列技术减少了人工输出的需要并且提高了共享资源利用的效率。
除了上面描述的工业中存在关于更有效率使用研究者和共享计算资源的问题,世界事件的发展和传染性疾病的出现以及主流社会中生化恐怖事件在科学团体中引发了逐渐增长的情绪并且使人们发展鉴别出威胁和消除威胁的新颖、迅速并且准确技术。用于广谱病原菌鉴别的微阵列的概念对医疗实践和国家防御都具有相当大的和显而易见的吸引力。在这个构架中,本发明者已经在努力。此外,不管序列数据的来源,需要更有准备和强有力确定混合物和生物序列数据的生物样本中组合。
发明内容
本发明的目的是提供下列优选实施方案:
在本发明的一种实施方案中,多组寡核苷酸引物的再测序DNA微阵列固定在固相支撑物上,该寡核苷酸引物长度范围在13至70个核苷酸,其中每组寡核苷酸引物被选择跨参考序列的特殊区域,占用阵列(如,拼接)的不连续区,并且包括至少芯片上平行方式安排的四组引物:1)第一组与参考序列互补;和2)三组额外引物,除了中心位置上的核苷酸之外,每一组与第一组引物一致,这三组的各自的中心位置上的核苷酸也相互都不同,使得所有四个常规核苷酸碱基出现在上述阵列中。
a.在本实施方案的一个优选方面中,寡核苷酸引物的长度为25个核苷酸。
b.在本实施方案的一种优选方面中,寡核苷酸引物跨越的参考序列区域经(n+1)个核苷酸穿过参考序列进行移动,参考序列的每个邻近拼接区域穿过微阵列表面。
c.在本实施方案的一种优选方面中,再测序DNA微阵列包含18x18微米特点。
d.在本实施方案的一种优选方面中,再测序DNA微阵列包含8x8微米特点。
e.在本实施方案的一种优选方面中,筛选出用于拼接的序列为单基因或子序列,该子序列可能代表更广类型的有机物类、种类和亚种类。
f.在本实施方案的一种优选方面中,筛选出用于拼接的序列为“原型”,该原型代表病原菌家族的基因型。
g.在本实施方案的一种优选方面中,筛选出用于拼接的序列为“原型”,该原型代表腺病毒家族或腺病毒组。
h.在本实施方案的一种优选方面中,筛选出用于拼接的序列为“原型”,该原型代表流行感冒病毒家族或流行感冒病毒组。
i.在本实施方案的一种优选方面中,筛选出用于拼接的序列为单基因或子序列,该子序列对单个病原毒株是独一无二的。
j.在本实施方案的一种优选方面中,筛选出用于拼接的序列编码耐药标记。
k.在本实施方案的一种优选方面中,再测序DNA微阵列为呼吸病原菌微阵列版本1(RPMV1)。
l.在本实施方案的一种优选方面中,再测序DNA微阵列为呼吸病原菌微阵列版本2(RPMV2)。
m.在本实施方案的一种优选方面中,至少一种普通病原菌和至少一种生物恐怖药剂在同一芯片上。
n.在本实施方案的一种优选方面中,再测序DNA微阵列包括前述方面的任何组合。
在本发明的一种实施方案中,试剂盒包含(a)前述再测序DNA微阵列,和(b)适于靶标序列与上述再测序DNA微阵列上的探针序列进行特异性杂交的试剂。
本发明的一种实施方案为检测微生物或属于特殊类型有机物种或亚种类的微生物中存在耐药标记的方法,其中该方法包括:(1)提供了上面描述的再测序DNA微阵列;(2)接触上述再测序DNA微阵列未知样本;(3)在适宜条件下,将上述未知样本与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间;(4)检测微生物或属于特殊类型有机物种或亚种类的微生物中耐药标记的存在和/或同源性,和(5)检测足够量的病原菌序列从而为病原菌可能来源进行法医学鉴定
a.在本实施方案的一种优选方面中,本方法用于检测特殊病原菌种类的存在。
b.在本实施方案的一种优选方面中,本方法用于检测耐药标记的存在。
c.在本实施方案的一种优选方面中,杂交时间范围在15分钟到24小时。
d.在本实施方案的一种优选方面中,未知样本为生物样本,包括鼻腔冲洗液样本、喉咙拭子标本、血液样本、和唾液样本,或环境样本,包括土壤样本、空气样本和水样本。
e.在本实施方案的一种优选方面中,杂交前,未知样本经过下列一种或一种以上步骤:(1)分离,(2)富集主体靶点序列,(3)扩增,(4)标记,和(5)杂交(例如,消减杂交)。
f.在本实施方案的一种优选方面中,杂交前,未知样本中主体的靶点核酸经特异性反转录(RT)、PCR、多重PCR、和/或随机PCR进行扩增。
g.在本实施方案的一种优选方面中,杂交主体靶点核酸之前,未知样本经随机扩增策略(例如,随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶、串联扩增、多重PCR、和全部扩增)。
h.在本实施方案的一种优选方面中,对上述未知样本中的DNA进行富集。
i.在本实施方案的一种优选方面中,上述未知样本中主体靶点核酸经消减从上述未知样本中背景核酸进行富集。
j.在本实施方案的一种优选方面中,通过从包含核酸的未知样品混合物中选择性除去靶点核酸,从而富集未知样品中的目标核酸。
k.在本实施方案的一种优选方面中,上述未知样本中主体靶点核酸经具有完整或部分序列同源性的探针筛选性捕获进行富集,随即进行扩增和杂交到微阵列上。
l.在本实施方案的一种优选方面中,上述探测存在和/或同源性是通过(a)根据上述未知样本的主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应进行碱基配对和(b)通过将杂交区序列和序列数据库内序列进行比较确定相应全长基因或基因组片段的序列。
i.在特别优选方面中,碱基响应经Affymetrix GDAS软件在“许可”设置下生成。
ii.在特别优选方面中,序列鉴定是经再测序病原菌辨识器(REPI)软件进行(参见2004年9月15日提出的美国临时申请序列第60/609,918号和2004年11月29日提出的美国临时申请序列第60/609,918号)。
iii.在特别优选方面中,序列数据库为GenBank。
本发明的一种实施方案为采用上面C方法常规诊断普通呼吸病原菌和/或生物恐怖药剂的方法。
本发明的一种实施方案为十三个在本发明日期时未知的腺病毒株的基因组序列,包括:Ad3、Ad3FS_navy、Ad4、Ad4vaccine、Ad4FS_navy、Ad4FS_AF、Ad5FS、Ad7、Ad7FS_navy、Ad7 vaccine、Ad 16、Ad1、和Ad21和其片段。
本发明的一种实施方案为采用上面C方法监视普通呼吸病原菌和/或生物恐怖药剂的方法。
本发明的一种实施方案为评估生物样本中相对量的病原菌的方法,该生物样本包含提供上面描述的再测序DNA微阵列同一组成;(2)接触上述再测序DNA微阵列生物样本;(3)在适宜的条件下,将上述未知样本与固定在上述再测序DNA微阵列上的探针序列杂交适宜的时间;和(4)量化上述未知样本中微生物或属于特殊类型有机物种类或亚种类的微生物中的耐药标记的存在和/或同源性。
a.在本实施方案的一种优选方面中,上述定量通过确定芯片上杂交信号的绝对强度进行。
b.在本实施方案的一种优选方面中,通过确定碱基响应的百分比进行上述定量。所述碱基响应百分比即可以视作总拼接区域尺寸的百分比又可以视作满足滑窗算法(例如,REPI)的筛选子序列内的碱基响应百分比。
本发明的另一种方面提供了计算机实施生物序列辨识器(CIBSI)系统和依据至少一种筛选参数从生物序列数据中筛选子序列的方法。至少一种筛选参数对应于从类似性搜索返回有效结果的可能性。
本发明的附加实施方案提供了自动筛选最佳序列或子序列的系统,该子序列用于比对一组预先确定的未知序列。选择性地,系统自动用Ns分布高度片段的序列,并且筛选可比对能从类似性搜索中返回有效结果的子序列。
选择性地,该系统利用滑窗型算法筛选子序列。随后,该系统自动从类似性搜索返回输出给终端用户,使得随机分配对应预先确定序列的给定碱基响应。
在本发明的附加实施方案中,源自碱基响应算法的序列信息,如应用于微阵列杂交模式,用于鉴定测试样本中的单个生物体。选择性地,微阵列的再测序探针确定的靶点序列采用类似性搜索算法查询数据库。类似搜索算法包括,但不限于,普遍使用的局部比对(例如,Smith-Waterman,BLASTN)序列比对算法来统计学上确定给定靶点序列对应数据库中特异性序列的概率。(Korf et al,2003)
此外,本发明的另外实施方案给用户提交了类似性搜索的结果关于是否样本中存在至少一种靶点序列。
在本发明的另一种实施方案中,信号强度数据(例如,从微阵列中得到的数据)由系统处理并且与序列数据相关。收集类似性搜索的结果或提炼给用户显示出生物体(包括,但不限于,病原菌)存在与否。此外,由于相对充足的生物体(包括,但不限于,病原菌),强度与上述结果相关。选择性地,系统提供给终端用户再测序微阵列试验中检测出的病原菌相关量的推测。
本发明的另一种方面鉴定了序列的混合物和表示重组的序列。在一种实施方案中,系统自动检测出微阵列不同拼接区域上重叠或同源序列片段,推测序列的混合物。在另一种实施方案中,该系统确定了不同拼接区域序列结果不重叠而对应于用于推断遗传重组的连续序列。选择性地,该系统在不同序列间的不同遗传重组间进行鉴别。
本发明的另一种方面提供了设计再测序DNA微阵列“原型”区域(参见,美国临时申请序列第60/590,931号)的方法。在这个情况中,一组相关靶点序列采用多重序列比对算法如ClustalW或Clustal_X(Thompson etal.,1997;Thompson,Higgins&Gibson,1994)或搜索部分保守区域如HMMer(Eddy,1998)序列数据库的另一种方法进行比对,用于生成由比对柱给定残基位点的最常用核苷酸组成的一致序列。一致序列由一致碱基响应和无响应(Ns)的混合物组成,比对柱内的每个残基位点不一致。
选择性地,本发明的一种实施方案通过鉴定具有保守核苷酸和变异核苷酸平衡的那些区域来搜索候选区,拼接到再测序DNA微阵列上,使靶点杂交到再测序微阵列拼接区域上,但还要考虑足够的序列可变性。这使得靶点序列的序列类似性搜索鉴定,包括用于生成一致的比对算法成为可能。
在可供选择的实施方案中,核苷酸或氨基酸序列来自交替型序列发生器,包括(Shendure et al.,2004)中描述的那些,并且局部氨基酸序列可组成蛋白质序列。该系统经选择的实施方案处理氨基酸或蛋白质序列,序列中相关位点为保守型的。
在其他经选择的实施方案中,核苷酸序列包括蛋白质合成用编码的核糖核酸(RNA)转录。在鉴定抗靶点核酸重组的混合物的类似方法中,RNA转录混合物能被杂交并因此在拼接微阵列上再测序生成原始数据,根据与转录编辑和可供选择的剪接重组进行对比,该原始数据可采用本发明进行分析来鉴定相对量的不同RNA转录(Leipzig,Pevzner&Heber,2004)。
本发明的附加实施方案可适用于核苷酸、转录产物、氨基酸、或其任何混合物。此外,本发明也适用于在本领域中众所周知的程度上使用不同类型的序列数据库和类似性搜索算法。而且,本发明的实施方案适合于或适应于大范围的方法和/或装置,这些方法和/或装置生成序列数据,包括但不限于人工或自动Sanger测序、常规微阵列、再测序微阵列、微电泳测序、杂交测序(SBH)、Ednian降解和其变型、扩增分子上循环阵列测序、和非循环、单分子、实时方法如纳米孔测序(Shendure et al.,2004)。
上述目的强调了本发明的某一方面。后面的具体实时方式中描述了本发明的另外目标、方面和实施方案。经过下列附图说明和具体实施方式的描述,本发明的其他系统、方法、特征和优势将对本技术领域中的技术人员来说是显而易见的。所有附加系统、方法、特征、和优势都包括在本发明中,在本发明界定的范围内,并且受到所附权利要求的保护。
附图说明
经过参考下列附图和下面详细的描述,更容易获得本发明更完整评价和许多优势,同时,可以更好的理解本发明。
图1是对版本1呼吸病原菌微阵列(RPMV1)的图形化描述。针对每个病原菌的所有拼接区域的几何分布由着色表示出(公正的)。Affymetrixspike-in对照在微阵列的顶部(白色的)。分布在拼接区域间的黑色区域不包含探针。
图2显示出根据实施例1中描述的,将纯化的原型4腺病毒(登录号AY594253)DNA杂交到RPMV1上,随后使用(A)简并引物PCR(Lin et al.,2004)或(B)GenomiPhi靶点DNA的全部扩增来分离和扩增核酸。简并引物PCR(A)导致保守引物位点覆盖的拼接区域内靶点的杂交。全部扩增(B)导致整个Ad4拼接区域的靶点杂交。两个方法均不产生显著性的微阵列交互杂交。在每个方案中,REPI鉴定了所有扩增子被杂交的Ad4拼接区域,除了在一种情况外(实施例1中进行描述的),正确的腺病毒4(AY594253)株具有最高的BLAST(″基本的局部比对搜索工具″)的比值。
图3显示根据实施例3中描述的,纯化的腺病毒5地方株(Ad5FS,登录号AY601635)(A,B)和原型腺病毒7(登录号AY594255)(C,D)DNA杂交RPMV1,随后采用(A,C)简并引物PCR(Lin et al.,2004)或如实施例3中描述的(B,D)GenomiPhi靶点DNA的全部扩增来分离和扩增核酸。简并引物PCR(A,C)导致Ad5FS和原型Ad7内保守引物位点覆盖的拼接区域内靶点的杂交。全部扩增(B,D)导致整个Ad5和Ad7拼接区域的靶点杂交。两个方法均不产生显著性微阵列的交互杂交。在每个方案中,REPI鉴定了所有拼接区域正确的腺病毒5(Ad5FS,登录号AY601635)株或腺病毒7(登录号AY594255),扩增子被杂交。对于腺病毒7,原型Ad7被安排在Ad7疫苗拼接区,正确区别于源自拼接区的Ad7疫苗株(AY594256)。也值得提到的是所有腺病毒扩增用的简并引物溶液被小量的Ad4和Ad7原型污染(由实时PCR反应产生的污染不认为是阳性的)。污染物不引起容易辨别的杂交(如图3中显示的)但遗传数据分析软件(GDAS)生成碱基响应(配有微阵列阅读器形成Affymetrix,Santa Clara,CA)和再测序病原菌辨别器(REPI)分配所有非故意碱基响应给正确的污染物。GenomiPhi溶液没被污染,各自试验中,在Ad5和Ad7拼接区外的腺病毒拼接区上无碱基响应。
图4显示出如实施例4中描述的腺病毒4、5突破菌株。患有发热性呼吸道疾病(以前接种过抗腺病毒疫苗)患者咽喉拭子培养物中的等量纯化核酸采用保守/简并引物进行扩增,根据(Lin et al.,2004)的描述,另外依据Affymetrix CustomSeq标准策略实施。患者经血清分型抗体中和诊断为Ad4阳性,并且经六邻体序列分析诊断为Ad5阳性。本发明者获得多重靶点杂交,导致所有腺病毒5和腺病毒7原型拼接区上的碱基响应。REPI分析揭示鉴别出了高置信度的腺病毒,例如Ad5(Ad5FS,登录号AY601635),而多重原型Ad7区域给出B亚群种类而非Ad7,即Ad21。再值得注意的是,如在图3中显示的情况,用于所有腺病毒扩增的简并引物溶液无意间被小量的Ad4和Ad7原型污染。该污染物不引起在Ad4拼接(如图4中显示的)中的易辨识的杂交,但由GDAS和REPI引起的碱基响应被分配给正确的污染物(腺病毒4原型;登录号AY594253),不给基本军训地中传播的地方株。此外,在Ad7拼接中获得的最高比值不是原型Ad7(不管低水平污染物)而是腺病毒型21((Ad 21;AY601633),Ad7原型(AY594255)代表B亚群腺病毒的另一种成员。采用Ad5常规DNA测序、Ad21扩增子测序、和点样微阵列结果证实了该样本中的Ad5和Ad21的混合物的观察(Lin et al.,2004)。然而,经单个拼接区子序列中的高比值检测出原型Ad7的低水平污染物并且对其进行鉴别。因此,在该实施例中,意外受小量Ad4和原型Ad7(在地方样本中没有发现)污染,由Ad5和Ad21组成的意外混合的腺病毒样本被完全鉴别出。没有这类事件和探针设计成果,使用其他类型微阵列(如,点样)不可能有这么详尽的辨别。
图5显示根据实施例5描述的方法鉴定流行感冒A株的结果。等量流行感冒A株发热性患者鼻腔冲洗物(经标准病毒细胞培养技术证实),在2003-2004流行感冒季节采用(A)通用的(Hoffmann et al.,2001)或(B)多路(Offringa et al.,2000)RT/PCR进行免疫,并且按照标准AffymetrixCustomSeq策略进行处理。因为两个方案生成全部HA、NA、和M基因的扩增子,微阵列上各自拼接区域在两个方案中几乎完全杂交。两个方案的REPI输出显示出Fujian/411/2002流行感冒病毒株获得了HA3最高比值(ISDN38157_流行性感冒A/Fujian/411/2002_红血球凝聚素_1042),该Fujian/411/2002流行感冒病毒株在2003-2004流行感冒季节没有进行疫苗包括。用于定义HA3拼接区的原型流行感冒A HA序列不在HA拼接碱基响应的REPI输出中。因此,流行感冒A预期株的原型区鉴定了未预期株。
图6显示出依据实施例6中描述的减少杂交时间试验的结果。在这个实施例中,鼻腔冲洗物被证实经微阵列探试所有靶点为阴性,除了耐红霉素标记物SPYERMB、SPYERMTR、和SPYMEFAE每个都经过特异性多重PCR反应。然后,将扩增子杂交到分离的微阵列上或者16个小时(A)或者15分钟(B),另外依照Affymetrix CustomSeq策略进行处理。相比较,15分钟杂交微阵列(B)信号强度低于对照组16小时微阵列(A)的信号强度(注意对(B)中微阵列顶部的Affymetrix对照组探针进行不完全杂交)。然而,三个拼接区的REPI输出显示了对于(A)和(B),每个区域的最高比值是相同的,尽管比值和预期值在较少杂交时间的情况下是较低的。30分钟和1小时杂交也获得类似结果,增加杂交时间得到的碱基响应的数量提高了。然而,这个实施例清晰地说明了具有不同杂交模式的靶点之间进行精密鉴别方法的稳健性。
图7显示了实施例7中描述的消减杂交方法的功效。(A)显示了依照在Lackland AFB患有发热性呼吸疾病患者的等量鼻腔冲洗物中分离核酸的总扩增得到杂交模式。每微升104个遗传拷贝的估计效价,样本相对于Ad4为阳性的。高背景杂交穿微阵列抑制了GDAS生成碱基响应即使腺病毒4区显示的可分辨信号高于全部背景信号。如针对GDAS生成的无碱基响应,(A)中获得的同一组全部扩增子与COT-1部分人基因组DNA(B)共杂交得到小量提高。(C)显示了在全部扩增之前,单独使用磁性玻璃珠消减不导致足够量的碱基响应进行类似性搜索。然而,通过结合使用玻璃球基消减(链霉素涂覆玻璃珠结合生物素化COT-I人DNA)与液相COT-1人DNA(D)共杂交的联合使用,足够碱基响应可明确排列Ad4HEXON拼接区内辨别的三个序列的每个中的最高腺病毒4空军本地株(登录号AY599837)。此外,实施用2微升起始样本材料代替1微升(E)的同一组组合步骤,碱基响应除了Ad4HEXON-1外,深入到Ad4FIBER拼接区,使得在Ad4HEXON-1拼接和几个Ad4FIBER子序列中排序的Ad4本地株有高的比值。
图8显示了流行感冒病毒A靶点的杂交(Fujian 411/2002),掺入到正常鼻腔冲洗物中,其次采用无偏差扩增RNA基因组靶点方案(Wang et al.,2003)的最近描述的修改(Kessler et al.,2004)进行扩增。图8(A-C)显示了105、103、和101个溶菌斑形成单位(pfu)剂量掺料的各自杂交模式(参见实施例9)。这些结果说明甚至在使用无偏差扩增方案时能获得本方法的功效。这应将全部方法延伸到未知RNA靶点的制备并且将特殊方案结合用于再测序微阵列的RNA和DNA病原菌靶点的通用扩增。
图9显示了本发明实施方案的流程图,其中RNA和DNA路径汇聚在一点。
图10(a)为说明工业中目前使用方法的示范流程图。
图10(b)说明了工业实施中通常存在的可供选择的方案。
图10(c)为与比对数据库和服务器相互作用的一般系统设计的示意图。
图10(d)显示了分析微阵列证实不良杂交的序列输出的实施例。
图11(a)为系统的一种实施例的示范示意图。
图11(b)为再测序病原菌识别器(REPI)的一种实施例的示范示意图。
图11(c)为ASP接触面的示范屏幕拍摄。
图12为描述ASP一般功能性的流程图。
图13为对照组检查步骤地示范流程图。
图14(a)为提取子序列步骤的流程图。
图14(b)为依照系统的一种实施方案的滑窗实施例。
图15为系统实施更详细剔除功能的示范流程图。
图16显示了描述检验长度步骤中示范流程图。
图17显示了计算百分比步骤地示范流程图。
图18(a)为描述分析步骤中系统更详细活动的示范流程图。
图18(b)说明本发明的一种实施方案的示范输出。
图19为描述系统的附加实施方案的示范流程图。
图20为本发明的实施方案可被执行的计算机系统(或服务器)的方框图。
图21为辨别混合物和再重组的实施方案的示范流程图。
图22为合并数据给用户提供决策质量信息的实施方案的程式化示范示意图。
图23为说明设计最优化再测序微阵列的方法的示范流程图。
图24为说明设计或最优化再测序微阵列的附加示范流程图。
图25为系统树图的实施例。
图26为多重比对的示范性图形表示。
图27为多重比对生成的一致序列的实施例。
图28为多重比对包括一致序列的另一种示范性图形表示。
图29说明了修饰的一致序列的实施例。
图30为本发明的一种实施方案的示范性结果。
图31为依照本发明的实施方案模拟杂交结果的实施例。
图32说明了一致序列的另一种实施例。
图33为依据本发明的实施方案格式化再测序阵列数据的示范流程图。
附图中的各部分不一定是成比例的,主要是为了清晰地说明本发明的原理。此外,在附图中,同一数字指出了贯穿几个图形的对应部分。
具体实施方式
除非特殊定义,这里使用的所有技术和科学术语具有酶学、生物化学、细胞生物学、生物信息学、和医药科学中的技术人员普遍理解的相同含义。
类似于或等同于这里描述的方法和原料能在本发明的实施或测试中使用,只要采用这里描述的合适的方法和原料。在冲突的情况下,将以本说明书,包括定义部分为准。此外,原料、方法和实施例仅具有说明性,并不是限制性的,除非另外说明。
众所周知,DNA微阵列可用于分析用于诊断或监视目的的病原菌中靶点核酸的序列。寡核苷酸探针序列筛选、长度、表面上的位置、结合的生理化学性、和标记技术的影响是过去10年中大规模研究的主题。采用的方法几乎专有涉及单寡核苷酸探针(13-70mers)的使用,该单寡核苷酸特定设计与具有高度特异性单个可识别病原菌靶点序列(13-25mers)杂交或与具有较低特异性的较长病原菌靶点(70mers)杂交。这些微阵列以点样微阵列普遍周知,但相同内容的点样微阵列除了二维平面之外也能以其他形式具体化,一种实施例就是玻璃珠阵列(Ferguson,Steemers&Walt,2000)。
已经有许多对使用Affymetrix再测序微阵列鉴别和表征病原菌的简单描述。Kozal(Kozal et al.,1996)测量HIV中突变漂移并且采用再测序阵列,Gingeras(Gingeras et al.,1998;Gingeras et al.,2001)、和Troesch(Troesch etal.,1999)鉴别了分枝杆菌种类并且单核苷酸多形性(SNPs)与耐抗生素有关。Wilson et al.(Wilson et al.,2002a)采用核糖体RNA,使用相同类型阵列鉴别细菌并且检测多重生物战药剂(Wilson et al.,2002b)。
使用再测序微阵列用于同时病原菌鉴别和监视有超过单寡核苷酸方法的基础优势,因为详细靶点序列信息作为原始微阵列数据的部分直接可用。经定义,具有102到104个寡核苷酸探针的点样微阵列不能辨别细微序列变异,大于10-1000碱基对的全部靶点序列,即使采用拼接方案设计阵列。因此,点样寡核苷酸微阵列需要采用常规DNA测序技术进行鉴定,需要特殊的设备、操作人员、和几天的时间,该点样寡核苷酸微阵列方便了宽谱个体株或SNP水平(Cherkasova et al.,2003;Wang et al.,2002;Wang et al.,2003)病原菌的鉴别
因此,本发明通常关于采用DNA微阵列技术检测和鉴别细菌、病毒和原生动物病原菌和毒性标记物。本发明也关于设计、测试和分析具有定义区的再测序微阵列,该再测序微阵列可用于大量的特异性病原菌基因型和病原菌混合物分配数字检测概率。此外,它关于需要处理上述微阵列的简单和复杂(例如,临床的和环境的)样本的方法。
更特别的,本发明关于使用高度多元再测序微阵列作为包括传染性疾病药剂诊断和病原菌检测为目的的一类新设备。特殊的,它适合于DNA微阵列,该DNA微阵列采用来自靶点基因组序列的大量筛选的“原型”核酸序列区域(每个典型具有250-2000碱基对)来检测和鉴别较大对数的无关和紧密相关的(菌种水平)微生物病原菌。更特别地,本发明关于设计制备微阵列采用“拼接”探针方法再测序靶点核酸。然而甚至更特别地,本发明关注采用拼接探针设计Affymetrix再测序微阵列,该拼接探针将能够分析等于105到106个碱基对的靶点序列。
在特殊的实施方案中,本发明提供了经过检测他们的核酸序列和使被检测序列经自动类似性搜索公共结构域和专用数据库来同时分析大量病原菌的方法。经非明显调节商业技术(Affymetrix CustomSeqTM)实施该目标。设计采用该程序,CustomSeqTM,经再测序靶点DNA检测单核苷酸多形性(SNPs)该所谓的SNP检测要求:(1)碱基响应误差率远低于突变自然发生率(人类中约每108碱基对中有一个),(2)在采用特异性PCR引物进行微阵列杂交之前,以每微升106基因组拷贝,扩增纯化起始原料,和(3)采用算法组合和处理复制样本的多重芯片,该算法限制了那些具有一定程度置信度的碱基响应,低频SNPs的存在能被推导出。本发明证实了在时间量程内和样本制备复杂性水平内,Affymetrix再测序技术能适合于插入到高度多样性传染性疾病诊断和病原菌检测的完整系统,使床旁诊断应用成为可能。该系统实质上不同于Affymetrix技术的具体用途,对于微阵列技术的典型技术人员不是显而易见的。
目前,鉴别病原菌的Affymetrix再测序技术应用的相关文献描述很少。从这个设计.试验和分析观点,采用再测序,本法明具有超过病原菌表征的现有技术。Kozal(Kozal et al.,1996)测量了HIV中的突变漂移,并且Gingeras(Gingeras et al.,1998;Gingeras et al.,2001)和Troesch(Troesch etal.,1999)采用再测序阵列,鉴别了分枝杆菌种类并且单核苷酸多形性(SNPs)与耐抗生素有关。在每个方案中,筛选最佳序列用于拼接,基于可能靶点序列的分析。设计特异性PCR引物扩增杂交靶点。未知临床分离鉴定采用以经验确定不同杂交模式的模式识别算法制成阵列。同样地,该方法依赖于全长靶点序列的扩增和杂交,不适合于:(1)危险的非特异性结合导致丢失碱基响应,(2)由于低同源性引起的低靶点浓度或孔隙穿过靶点长度的不完全杂交,和(3)临床或环境样本的未知靶点序列的无偏差(全部)扩增诱导的降低了杂交完整性。
本发明者优选的方法不存在现有采用再测序微阵列技术中公开的相同限制。此外,拥有至少一种用途的技术方法,即同时检测大量的多样病原菌种类,仅最近经引入CustomSeqTM RPMV1芯片用Affymetrix微阵列(18x18微米)和高密度(8x8微米)呼吸微阵列版本2(RPMV2)而产生,分别将29.7kb和300kb拼接再测序。然而,本发明提供的最重要改进为使用了具有序列长度无关类似性搜索的增加密度芯片(BLASTN),提供了在筛选拼接用序列之前产生的许多较小假定。此外,使用长度无关类似性搜索(BLASTN)去掉了特殊已知子序列完全被再测序的限制,使得该方法对靶点浓度的变化和非特异性结合导致丢失碱基响应的影响具有抗性。
因此,在本发明中,拼接用筛选的序列为“原型”,这是在单个基因或子序列可代表更广类型的有机体种类和亚种类(可供选择的类型、菌株、变异体或突变体)的意义上而言。根据单个病原菌和菌株的基因型中的较小改变,该方法是稳健的,并且能在大量候补病原菌中进行检测和鉴别,该候补病原菌不能在试验芯片设计中明确表示出。
芯片设计也利用了部分过余拼接组(在设计过程中,受到厂商指导方针和厂商的阻止),单个病原菌株,和多重类似或多样性病原菌类型间的基因内和基因间变异。然而,本发明者已经确定了冗余对提升结果置信度和最小化错误阳性结果和错误阴性结果的可能性是重要的。该设计/分析方法的优势将允许掺入基因组保守和超变区,便于鉴别组、类型和菌株水平。
仅存在很少的一些文献报道描述用于微生物病原菌微阵列分析的基因类扩增策略。Wang et al.(Wang et al.,2002)描述了在70mer寡核苷酸阵列上杂交之前,进行RNA病原菌靶点扩增,随即连续PCR反应和Klenow片段扩增的多重步骤方法。扩增要求的时间和/或技术步骤数量不是指定的但同一组的后续论文报道约24个小时。也没详细说明扩增步骤导致检测效率提高。我们研究组(Vora et al.,2004)的最近报道描述了许多单独使用和联合使用非特异性核酸扩增技术杂交到70mer寡核苷酸阵列上。没有任何已知的现有技术报道过纯化的或者在复杂混合物(例如,临床样本)中非特异性扩增DNA靶点与再测序微阵列的杂交。
本发明在几个方面领先于经微阵列进行病原菌检测的基因扩增技术:(1)为得到高密度短(25mer)Affymetrix再测序微阵列,详细描述了经纯化或高度富集病原菌核酸的全部扩增的特殊方法,既不是先前描述的也不显而易见,因为该方法很大程度偏离了规定的Affymetrix方案,和(2)描述了新颖并可供选择的使用酶处理、竞争性杂交、和磁性玻璃球基消减和富集步骤来减少背景和后续无偏差(如,全部)扩增和微阵列杂交的方法。
本发明体现了一组特殊的设计和处理方法,该方法利用再测序微阵列大规模鉴别和表征病原菌。特别地,本发明允许在单阵列中精确、灵敏、和高置信度鉴别大量(成千的)多样性的病原菌。
本发明的一种实施方案为多组寡核苷酸引物的再测序DNA微阵列,该寡核苷酸引物长度范围在13到70个核苷酸之间(优选25个核苷酸,尽管可能和在本发明界定范围内使用相对于陈述范围内每个整数值长度引物)固定在固相支撑物上,其中每组寡核苷酸引物被筛选扩越参考序列的特殊区,占据阵列的不连续区域(例如,拼接区),并且包括至少四组引物以平行方式安排在芯片上:1)第一组,与参考序列互补,和2)三个附加组引物,除了中心位置的核苷酸,每个组都与第一组引物同源,而这三组的每一组中的中心位置的核苷酸也各不相同,以至于所有四个常规核苷酸碱基存在于上述阵列上。
本发明进一步提供了处理复杂临床样本(如,鼻腔冲洗液)的方法,要求最小限度核酸分离/扩增步骤。
本发明区别于绝对多数的微阵列基病原菌检测方案,应为它使用高密度“拼接”微阵列来确定病原菌遗传靶点的实际序列。许多重要区域内的其他再测序病原菌鉴别策略,包括结合:(1)高度多样性的异型病原菌“原型”靶点区域,该靶点区域显示出很少或无可辨别的交互杂交或彼此干扰,(2)紧密相关病原菌内较高序列冗余允许较高置信度鉴别特异株(例如,腺病毒或流行感冒病毒),(3)一类病原菌典型的较大拼接片断的“原型”区域允许精确鉴别特异性病原菌株和使用特殊设计软件来分析和排列序列片段提呈给类似性搜索(例如,BLAST)算法,辨别病原菌混合物和病原菌之间的重组,代替更限制性拼接筛选和在最紧密相关现有技术(美国专利6,228,575)中描述的微分算法,(4)最低限度的偏性核酸扩增策略,在无显著性干扰或交互杂交情况下,允许精确、高置信度病原菌靶点再测序,和(5)样本处理方法学,允许再测序阵列联合复杂临床样本的最低限度偏性氨基酸扩增策略而使用。
这些方法的组合可以使一种合格的技术员在24小时内,优选在4小时内,更优选2小时,最优选在30分钟内同时检测和鉴别临床样本的高度多样性病原菌。
因此,由于该实施方案,本发明支持:(a)样本收集的几个小时内,临床传染病的常规诊断,(b)同时查询样本少见感染性疾病迹象(例如,未预料的病原菌、耐抗生素模式或生物战争药剂),(c)常规分子病原菌监视,(d)疫苗质量控制和(e)自然遗传变异、药物治疗、故意操作、或其他情况引起的监测病原菌的遗传改变。
高密度再测序微阵列
经DNA低聚物的光导组合合成制备高密度微阵列(HDMs)(Kozal et al.,1996)。在这些位点上合成的DNA低聚物通常具有20-30碱基长度。采用高分辨率半导体光刻胶对该方法进行后续改进,Affymetrix证实了制备具有分辨率接近1μm2特性的HDMs,使探针特征密度比mat在RPMV1证实的大10-100倍。到此为止,关于病原菌鉴别的HDM设计以“拼接”策略为基础。因此,等长的四个探针被合成正义和反义方向的每个碱基,需要所有8个25-met探针用作给定参考序列中的每个碱基对。每个方向上的一种探针确实互补参考序列而其他三个单个碱基在查询碱基位上错配。因此,拼接HDM能有效“再测序”靶点核酸。
以这种方式,未知靶点的碱基响应在四个可能碱基位中的每一个都可以被查出(每四个可能碱基对中的一个在拼接25mer探针内的第13位处改变),直读阵列相应位点的靶点序列。在CustomSeq阵列中,GCOS(Version1.1)软件被用于使原始图像(.DAT)文件为指定每个相应探针位密度的简化文件格式(.CEL file)。最后,GDAS(Version 2.0)软件用于运用嵌入式ABACUS(Cutler et al.,2001)算法来生成正确碱基响应评价,比较正义和反义探针组的密度。GDAS的可用输出文件类型之一为再测序阵列拼接区域生成的FASTA形式碱基响应。
在一系列采用培养的微生物,包括HIV(Kozal et al.,1996)的体外试验中,上述的HDMs类型用于鉴别病原菌种类和检测耐药性-相关突变。Troesch等人(Troesch et al.,1999)设计HDMs在54之间分析不同于检测分枝杆菌类和耐利福平的分枝杆菌肺结核。65,000个低聚物探针的拼接阵列用于精确再测序70个临床隔离群的27株分枝杆菌类和15株耐利福平结核分枝杆菌株。最近,特异性序列鉴别F.tularensis和Y.pestis采用拼接HDMs(Wilson et al.,2002b)在环境样本中得到证实。这些通常方法依赖于特异性杂交模式,以野外实测(对照组)测量方法为基础。此外,作者没有提供了指导定量比较怎样针对紧密相关或未预料有机物的起始浓度,该起始浓度可改变六个数量级。
阵列类型
本发明采用Affymetrix CustomSeq再测序微阵列形成。为了讨论再测序微阵列,技术人员可见U.S.6,228,575。然而,本发明不在概念上被限制于采用特殊制备方案生成微阵列。原则上,再测序能以任何技术描述的规模实施,该技术能产生相当大密度的微阵列。理论上,能采用寡核苷酸打印技术完成,但采用光学光刻法更可能完成。然而,Affymetrix再测序芯片以采用分离的光刻掩模后续步骤为基础,该光刻掩模对应于每一步骤,可供选择的方法可采用无掩模光刻技术(Albert et al.,2003;Nuwaysir et al.,2002)或通过纳米光刻法(Ginger,Zhang&Mirkin,2004)。更普遍地,任何生成以确定可用靶点序列为目的的多数寡核苷酸探针。甚至玻璃珠“阵列”不是2维形式(Ferguson et al.,2000)。
探针可由DNA变异体组成,即RNA或低聚物肽-核酸(PNA)。探针能制成对酶消化具有敏感性,然后接受后续处理。在优选实施方案中,探针将加入dUTP代替dTTP,使它们对尿嘧啶-DNA-糖基化酶具有灵敏性。这将使它们用于选择性降解随后捕获靶点。此外,在本发明界定的范围内,也可能固定RNA并获得其互补序列识别。固定RNA将需要RNA的化学稳定性。在更普遍意义上,探针能由化学修饰核酸制成,该化学修饰核酸使它们或多或少易受到后续化学处理步骤的影响。
阵列设计
采用RPMV1微阵列,本发明举例说明拼接原型序列能在没有假定特异性病原菌鉴别需要特异性杂交模式的情况下鉴别更多种类的特异性病原菌株。在目前的设备中,拼接区域的原型,尤其腺病毒4、5和7,分别凭经验被选择代表腺病毒子群E、C、和B。
该设计的更优选和更系统的方法包括使用多重序列分析来生成一致序列,一致序列定义为分析位上那些表示最常用碱基。在优选实施方案中,分析算法将产生单个病原菌株中靶点基因序列或病原菌家族群的等级系统发生树。采用适当的算法,一致序列将首先形成每个树结点成员或树结点群成员,距离测量落在阈值范围之内(Lee,2003)。实际靶点序列将与一致序列单独比对,并且由一致序列定义杂交到拼接微阵列区域上的功效将被模拟。已知功效如碱基插入或缺失,以及寡核苷酸探针区域内多重碱基取代的功效将确定为模拟杂交的规则。生成杂交的后续分析和碱基响应模式将说明所提拼接适于作为给定范围病原菌的原型。这个过程将重复直到最合适组的原型区域被确定覆盖给定组病原菌。在一种优选实施方案中,该过程将用于最大化芯片的空间利用率,导致最大减少再测序微阵列的实际尺寸,并且因此,最大减少每个微阵列上的产品费用。
在一种优选实施方案中,再测序阵列将被设计联合另一种简单固相捕捉器(阵列、凝胶、或其他的),该固相捕捉器将最初用于排列再测序阵列。例如,由多样性较长寡核苷酸探针组成的阵列将最初用于通过识别病原菌家族内的保守序列来检测病原菌。再测序阵列能用于查询与初始阵列上保守探针相关的可变区,提供了病源体上详细的序列信息。在非常优选实施方案中,样本制备普遍用于固相捕捉器和再测序微阵列。然而在另一种非常优选实施方案中,初始阵列将用于捕捉靶点,该靶点将被隔离并采用无偏扩增技术进行扩增提给再测序阵列。
该用途的总体设计基本原理
本发明利用从不同公共和/或私有资源的病原菌基因组信息来设计、制备、评估、验证和一体化先进诊断平台作为有效生物防御监视部分和操作医学系统。流行病爆发监控(EOS)程序生物防御模型是完整的,该系统经采用广泛分布设备将被最有效激活,这些设备将发现传染性疾病的常规诊断学中的效用,尤其在传染性呼吸疾病诊断中的效用(参见国防科学会2006夏季研究报告及健康科学生物防御系统(HSBS)简报)。该设备(例如,微阵列)将提供可供选择的有成本效益的常规方法诊断、处理和监视传染性疾病,最显著的呼吸传染病是具有重要性的。采用设计和分析信息学支持设备并且确保来自那个设备的判定质量信息可遗传的并且可被许多就诊单位、公共卫生官员、和决策者解释。因此,也是本发明的重要目的,设备为由局部床旁诊断设备组成的完整系统的重要组成,该局部床旁诊断设备在就诊单位、公共卫生官员、和决策者之间提供了自动、双向数据共享(这或许交叉对照阵列中商业模型专利)。这里描述的本发明可至少两个途径实施其作用:(1)经减少阵列尺寸(例如,较低费用),自动化处理,和利用处理再测序阵列便携式硬件,本发明可为床旁设备的目标,和(2)如果存在低成本或易自动化微阵列,再测序阵列可成为诊断/监视流水线中较高梯队组成。在后面的方案中,低成本可供选择设备将提供初始样本处理、病原菌靶点富集、扩增、床旁判定信息,而必要时,再测序通过促进更详细查询样本提供了顺次测定性能。
再测序微阵列芯片设计的一般策略
依据本发明,设计再测序微阵列芯片的过程通过筛选病原菌基因组序列被执行,该病原菌基因组序列具有使它们对于少量(理论数量)病原菌是唯一的序列性质,或者是高度保守的,使它们检测许多类型的微生物种类家族或属级,或适度保守并筛选为“原型”区域。原型区域将具有跨域一组微生物种类的中级序列同源性并且考虑有效杂交和独一无二鉴别大部分或所有亚类型病原菌。设计再测序拼接的策略包括通过分析类似序列和应用一致探针序列拼接到芯片上产生巨大影响。一致序列可能不与任何筛选的病原菌同源,但将与许多类似病原菌基因组作用。真实病原菌基因组序列与一致的序列完美匹配和不完美匹配的模式将提供诊断的个体识别力。
本发明的特别实施方案为设计再测序微阵列芯片的一般方案,该再测序微阵列芯片可在样本(例如,部分纯化的样本,纯化的样本,富集的样本、生物样本,等等)中鉴别和标明病原菌。该设计和验证方案的多方面在随后的第6“阶段”中进行了具体化。
阶段1:病原菌鉴别:
a.病原菌列表(例如:腺病毒;流行性感冒;化脓性链球菌)-由病原菌专家或公开领域提供
b.属/种类(新病原菌例如.冠状病毒严重急性呼吸综合症变异)
c.种类/亚种(流行病学追踪;取证)
d.病原菌独一无二片断(交互杂交结果)
e.遗传漂移/漂变问题(例如.流行性感冒、HIV)
f.耐药性标记物
g.致病相关基因或毒性标记(有利于诊断和预后目的)
h.基因工程特征标记
i.质粒DNA序列(Bluescript,PUC etc.)
i.多克隆位点
ii.耐药标记物(氨比西林,卡那霉素,盘尼西林等)(或可列为:Amp,Kan,PBP,等)
iii.毒素(肉毒毒素;蓖麻毒素等)
阶段2:关于样本来源的病原菌鉴别:
a.常见呼吸病原菌(和近缘病原菌)
b.生物成胁药剂:(经疾病控制中心鉴别)
c.背景或寄生物考虑:
i.临床样本(鼻腔冲洗液、拭子、粪便标本,等)
ii.载体(例如.蚊子)
iii.环境(水、食物、土壤)
阶段3:基因鉴别(病原菌设计相关的最复杂问题)
a.序列同源性(相对于病原菌鉴别)
a.新颖的或未预期的高度保守鉴别(属/种鉴别)
i.鉴别新颖的/未预期的有机物
1.嵌合体(细菌基因交换)
2.遗传漂移/漂变(例如.流行性感冒)
3.人工的
ii.辨别复杂病原菌家族
1.鼻病毒(许多完全不同变异体)
b.较少保守超变量(种类/亚种)
c.病原菌独一无二序列片断(交互杂交)
i.全部扩增方法的潜在重要的
b.功能序列(相对于致病性和患者管理)
a.共生细菌中耐药基因
b.致病性相关基因
i.毒素基因
ii.传播(传染性)相关基因
iii.致病岛
iv.毒力因素
c.其他宿主-病原菌作用基因
i.免疫反应
ii.肿瘤形成
iii.DNA修复
阶段4:基因筛选(什么序列应置于芯片上)
a.鉴别基因登录号
a.完整基因
b.侧翼序列病原菌基因组(对照组)
c.最近/流行可用变异体
i.快速培育病原菌尤其重要(流行性感冒)
b.BLAST搜索:(纳入/排除标准)
a.人序列同源性(排除标准)
b.相关病原菌序列
i.可能的排除/注释标准
ii.如果同源性>90%,序列仅需要发表一次
1.使用一致序列鉴别和注释
iii.鉴别病原菌特异性基因/序列
c.实用问题
a.细菌中水平基因转移问题
b.病原菌中基因拷贝数量
c.人序列的同源序列(交互杂交)
d.较少致病菌的序列同源性(例如.杆状菌;天花[痘])
阶段5:RPM芯片优先处理
a.确定芯片“有效面积”(全部表达序列)
a.靶点基因拼接尺寸
i.拼接相关登录号
ii.一致序列相关登录号
b.参考优先顺序标准的主要目标。主要问题包括:
a.病原菌流行取决于靶点人群、地理位置、季节、和其他疾病传播因素
b.临床、操作、和公共卫生相关性
c.芯片功能性问题:
i.混合病原菌
ii.数据注释和提交给终端用户
阶段6.微阵列验证:
a.设计对照组
a.套式引物组:
i.外引子组:形成对照组
ii.内引子组:测试阳性对照组
iii.对照组和RPM序列应为100%的序列匹配
b.形成对照组克隆
c.用于匹配性验证的对照组克隆序列
b.形成病原菌芯片注释图解:
a.较差杂交位点
i.较差信号
ii.错误信号
b.交互杂交位点
i.人交互杂交
ii.其他病原菌(尤其生物恐怖行动药剂和毒素)
c.序列特异性水平
i.鉴别亚种/变异体的标记物
1.形成取证数据库基础
ii.仅鉴别属和种的标记物
iii.鉴别发现的新变异标记物
c.芯片验证试验框架:
a.检测交互杂交区域的人杂交
b.质粒验证计划:
i.滴定质粒试验PCR灵敏性
ii.滴定法测量RPM检测灵敏度
iii.改变浓度评估碱基响应精确性
1.注释任何错误
c.培养验证技术
i.滴定病毒
1.核酸分离效率
2.芯片杂交灵敏性/特异性
a.总扩增灵敏性/特异性
b.PCR比对
3.滴定培养物的芯片杂交灵敏性
4.培养菌序列的验证
d.将病原菌掺入到复杂介质中
i.将病毒滴到溶液中
ii.杂交到芯片上(背景干扰)
iii.如果与培养病原菌比较不同验证病毒序列
e.评估复合矩阵中靶点浓度
i.鼻腔冲洗液
ii.棉拭子
1.鼻腔拭子
2.咽喉拭子
iii.溶液中病毒的稳定性
1.鼻腔冲洗液
2.拭子
iv.病毒溶液的冷冻/解冻影响
v.靶点病原菌的序列验证
下表(表1)代表一组优选(但非限制性)的病原菌(病毒和细菌),该病原菌可按照监测和诊断普通呼吸病原菌的设计在本发明的背景下使用:
表1微阵列病原菌
病毒病原菌 细菌病原菌
腺病毒(血清分型/属极) 化脓性链球菌(emm类型/抗性)
流行性感冒A和B(株) 肺炎支原体
冠状病毒/SARS 百日咳杆菌
副流感病毒1,2,3,4 肺炎衣原体
呼吸道合胞病毒 肺炎链球菌
偏肺病毒 军团菌(属级)
鼻病毒 卡他莫拉菌
柯萨奇病毒 流感嗜血杆菌
伊科病毒 脑膜炎双球菌
西尼罗病毒 结核分支杆菌
水痘(HHV-3) 金黄色葡萄球菌
汉坦病毒 溶血隐秘杆菌
风疹 鹦鹉热衣原体
1型和2型单纯疱疹
肠道病毒(腮腺炎、脊髓灰质炎)
细小病毒
为了广泛分布内置监控生物恐怖药剂的呼吸诊断设备的用途,选择病原菌列表加入到芯片上将也包括从美国疾病控制(CDC)中心筛选出的那些A、B、和C类生物恐怖药剂。这些是最周知的,但不限于此,包括:
CDC A 类
炭疽热细菌(靶点:致命因素、保护性抗原)
鼠疫杆菌
天花(大天花)
土拉弗朗西斯菌
病毒性出血热(丝状病毒[例如.埃博拉病毒、马尔堡病毒]和沙状病毒[例如.拉沙热、马丘波病毒]
CDC B类
流产布鲁氏杆菌(2308 B37),羊布鲁氏杆菌(F6145),猪布鲁氏杆菌(A44)
鼻疽假单胞菌(马鼻疽)
类鼻疽伯克氏菌(类鼻疽)
鹦鹉热(鹦鹉热衣原体)
流行性斑疹伤寒(摩氏立克次氏体)
病毒性脑炎(甲病毒[例如.,委内瑞拉马脑炎,东部马脑炎,西部马脑炎])
CDC C类
出现传染性疾病如尼帕病毒和汉他病毒
这些药剂的完整和更新列表可在CDC网址(http://www.cdc.gov/)上找到。为了说明本发明,两个再测序微阵列芯片(RPMV1和RPMV2)将在下面进行描述。
再测序呼吸病原菌微阵列版本1(RPMV1芯片):
采用高密度Affymetrix微阵列制备方法制得RPMV1,该RPMV1具有个体探针尺寸18x18微米。在这个密度下,29.7kb全部病原菌靶点序列进行拼接用于再测序。作为部分试制β试验Affymetrix商业产品(CustomSeq)进行制作,该Affymetrix商业产品用于随机收集序列中的SNP检测。
下列全面设计方案用于RPMV1:
遵循Affymetrix CustomSeq设计方案。虽然在项目协作组内对于非特异性扩增微阵列分析靶点进行了许多努力,本发明者则努力在阵列上拼接序列,该阵列可查询常规(成对特异性引物)PCR扩增子。任何可能时,成对引物形成或适合于保守序列,该保守序列位于拼接微阵列探针可进行查询的可变区的侧翼。这允许具有的能力:(1)直接采用存在硬盘平台进行扩增(例如,RAPID Light Cycler、Idaho Technologies),(2)提供用种属或全部扩增策略比对的控制测量法,这些种属或全部扩增策略是立即见效的。一般来说,我们的策略是为了让杂交模式与特异性有机体匹配并且检测对应于致病性和耐药性的序列中存在细微变化。
4、5、和7型腺病毒(双链DNA病毒)各自指定为E、C和B的“原型”。特殊地,本发明者假定了原型拼接区域上再测序将监测和鉴别亚群成员之间细微序列变化。三个靶点基因区域被筛选出,尤其从E1A、六邻体、和纤维基因中筛选出。然而,不能假设或不能预期的是任何拼接的哪个区域或哪个部分将进行独一无二的鉴别。
作为流行病爆发监控程序的一部分,十三个腺病毒基因组进行完全测序。名称、登录号和来源记录在实施例部分的表6中。进行多重序列分析确定保守序列位于侧面的E1A、六邻体、和纤维基因可变区,该保守序列可被用于用单组简并引物扩增多重腺病毒(Lin et al,2004)。E1A、六邻体、和纤维基因的共有区得到3个原型腺病毒中的每一种,该3个原型腺病毒与呼吸疾病有关:7(B子群)、5(C子群)、和4(E子群)被提交给Affymetrix作为拼接在RPMV1微阵列上的29.7kb全部病原菌靶点序列的一部分。
腺病毒分类:
B子群:3、7、11、14、21、34、35和50
C子群:1、2、5、和6
E子群:4
本发明者进行了假设,如果为了原型代表子群,7、5、和4型(分别为B、C、和E子群),他们将三个基因(E1A、六邻体、和纤维基因)拼接到阵列上,将能够通过杂交模式的变异鉴别任何完全测序型(上面列出的),该杂交模型比对其序列差异。
用红血球凝聚素(HA)神经氨酸酶(NA)和基质(M)的原型区域表示流行性感冒A和B病毒,该流行性感冒A和B病毒为负极性单链RNA病毒(ssRNA)。这些基因表示为三种类型的流行性感冒A(H1N1、H3N2和H5N1)和流行性感冒B。流行性感冒为原型模式系统最好的实施例之一,如数百个,要不然数千个流行性感冒菌株至少部分测序,并且大多数已经测序红血球凝聚素和神经氨酸酶片断。
原型流行性感冒HA、NA和M基因从菌株中选出,该菌株为任一等同于紧密相关的三个疫苗株,该三个疫苗株经世界卫生组织推荐给北半球;
·A/New Caledonia/20/99/(H1N1)
·A/Moscow/10/99/(H3N2)
·B/Hong Kong/330/2001
这些序列可从Los Alamos国家实验室流行性感冒因特网数据库中得到。本发明者假定,如果靶点足够类似到可以进行类似性搜索查询,原型拼接区域上未知流行性感冒A或B的序列响应将能鉴别靶点。
RPMV1的残余物由多种普通呼吸病原菌拼接构成,第一组为病毒:
鼻病毒A(pos)SSRNA
鼻病毒B(pos)SSRNA
冠状病毒(pos)SSRNA;无DNA中间体
副流感病毒(neg)SSRNA
RSV(neg)SSRNA
相对于腺病毒和流行性感冒,这些病毒性病原菌具有相对小的可用序列,同时采用原型序列鉴别大量相关菌株的进行模拟试验。
也选择常见细菌性病原菌:
化脓性链球菌
肺炎支原体
百日咳杆菌
肺炎衣原体菌
肺炎链球菌
脑膜炎双球菌
此外,下列质粒决定的耐抗生素基因在RPMV1芯片上被表示出:
ermA
ermB
ermTR
大环内酯类外排决定簇(mef)A
下列生物威胁药物也包括在RPMV1芯片上:
炭疽热细菌(靶点:致命性因素、保护性抗原)
鼠疫耶尔辛氏杆菌
天花(大天花)
土拉弗朗西斯菌
病毒性出血热(丝状病毒[例如.埃博拉病毒、马尔堡病]和沙状病毒[例如.拉沙热、马丘波病毒])
除了Affymetrix规定的杂交对照组(参见CustomSeq方案),可认为包括内部加工对照来检验靶点分离、反转录(RT)和cDNA/DNA扩增。因此,我们包括含有植物拟南芥基因插入物的专用载体(Yang et al.,2002)并且提供了阵列上拼接区域给载体的几个基因插入物。
为了所有靶点除了腺病毒和流行性感冒,本发明者从含有诊断区域的基因公开文献资料(例如.,NCBI GenBank)中筛选出靶点并且拼接诊断区域或含有那个区域的较大编码区域。所有靶点基因、PCR引物位点和RPMV1引物的全部列表在表8(在下面)和序列附表中显示出。提交给拼接和制备芯片的序列在表7(在下面)和序列附表中进行了总结
然而,本发明并不局限于上面列出的特异性序列和/或微生物(细菌或病毒)。在技术人员能力范围内为满足指定领域试验的特殊要求来定制“病原菌芯片”。这种剪裁可能按基因水平或按微生物水平。很明显地,技术人员将从上面通用方案中得到更大帮助。
再测序微阵列芯片版本2(RPMV2芯片)
RPMV2建立在具有指定尺寸8x8微米的高密度Affymetrix微阵列上。在这个密度下,约300kb靶点序列信息将拼接用于再测序。
通用设计策略在表2-4(下面)中进行了描述。RPM V2设计使得RPMV2序列含量为RPMV1序列含量的约10倍,因此包含大量病原菌,包括延伸表示RPMV1上所有病原菌、许多其他呼吸病原菌、和整组的CDC A、B、和C类生物恐怖药剂。RPMV2内容的全部列表在实施例8中提供了。RPMV2设计经包括探针,如emm型化脓性链球菌,延伸了分子流行病学性能。这个特性将给流行病学专家/公共卫生专业人员提供了确定可能疾病病例和研究人群(监狱、宿舍、疗养院、部队兵营,等)带有病原菌的传播的能力。这些探针也可预测病原菌毒性和人群中疾病的临床表现。
被表示的病原菌的数量也能采用增加微阵列每单位面积上探针而被扩大。本发明的芯片利用了较高密度同时探测和在可能存在于单个临床样本中的大量候补病原菌之间进行分析。
也值得注意的是基因表达标记能概念上以同一种方式被拼接到阵列上成为基因组标记。因此,序列表达病原菌转录(RNA模板编码蛋白合成)能同时与那些再测序的基因组标记一起安置在阵列上。这将使微阵列不仅能够检测病原菌的存在,也将能确定其生活力,因为转录标记将仅存在于完整的病原菌中。
表2:RPMV2设计(名称)
呼吸病原菌 种类/亚 种类/亚 种类/亚种 属/种 Rx Res
名称 种 种
BT试剂名称(CDC A;B;C)
腺病毒
亚群A 六邻体 纤毛 E1A
亚群B1
腺病毒3 六邻体 纤毛 E1A
腺病毒7 六邻体 纤毛 E1A
腺病毒16 六邻体 纤毛 E1A
腺病毒21 六邻体 纤毛 E1A
亚群B2
腺病毒11 六邻体 纤毛 E1A
腺病毒35 六邻体 纤毛 E1A
亚群C
腺病毒1 六邻体 纤毛
腺病毒2 六邻体 纤毛 E1A
腺病毒5 六邻体 纤毛 E1A
腺病毒6 六邻体 纤毛 E1A
亚群D E1A
亚群E
腺病毒4 六邻体 纤毛 E1A
亚群F 六邻体 纤毛 E1A
流行性感冒
流行性感冒A
血球凝集素1 神经氨酸酶1 神经氨酸酶1 基体
(全部) (全部) (H5N1)
血球凝集素2 神经氨酸酶2
(全部)
血球凝集素3 神经氨酸酶3
(全部)
血球凝集素4 神经氨酸酶4
血球凝集素5 神经氨酸酶5
血球凝集素6 神经氨酸酶6
血球凝集素7 神经氨酸酶7
血球凝集素8 神经氨酸酶8
血球凝集素9 神经氨酸酶9
血球凝集素10
血球凝集素11
血球凝集素12
血球凝集素13
血球凝集素14
血球凝集素15 基体
流行性感冒B 血球凝集素B 神经氨酸酶B 基体
流行性感冒C 血球凝集素
副流行性感冒
副流行性感冒1 血球凝集素- 基体
神经氨酸酶
副流行性感冒2 血球凝集素- 基体
神经氨酸酶
副流行性感冒3 血球凝集素- 基体
神经氨酸酶
副流行性感冒4A 血球凝集素- 基体
神经氨酸酶
鼻病毒 5′NCR HRV 5′NCR HRV21 5′NCR HRV29 5′NCR 5′NCR
9501468 HRV HRV62
9501821
5′NCR HRV1A 5′NCR HRV58 5′NCR HRV14 HRV87
冠状病毒
膜
糖蛋白 基体
血球凝集素-
酯酶
表面
糖蛋白
呼吸道合胞
病毒
1型(RSV A) 壳包核酸 基体
2型(RSV B) 壳包核酸 基体
链球菌属
链球菌属 emm 1 ST2035 ST4529L ST4532 ST4264 ST4547 GyrA Erm(A);Erm(B);
Erm(TR);Mef A;
MefE;prtF1;;put.Rx
emm 75 emm13L ST3018 U92492 ST14973 STCMUK16 resist prat.;tet(O)
ST2267 U50338 ST2980 ST230-2 ST436
ST448L ST3365 ST1135 ST1161 ST1432
ST6949 ST1160
emm1 emm2 emm3 emm4 emm5
emm6 emm7 emm8 emm9 emm10
emm11 emm12 emm13 emm14 emm15
emm16 emm17 emm18 emm19 emm20
emm21 emm22 emm23 emm24 emm25
emm26 emm27 emm28 emm29 emm30
emm31 emm32 emm33 emm34 emm35
emm36 emm37 emm38 emm39 emm40
emm41 emm42 emm43 emm44 emm45
emm46 cmm47 emm48 emm49 emm50
emm51 emm52 emm53 emm54 emm55
副流行性感冒 emm61 emm62 emm63 emm64 emm65
副流行性感冒1 emm66 emm67 emm68 emm69 emm70
emm71 emm72 emm73 emm74 emm75
副流行性感冒2 emm76 emm77 emm78 emm79 emm80
emm81 emm82 emm83 emm84 emm85
副流行性感冒3 emm86 emm87 emm88 emm89 emm90
emm91 emm92 emm93 emm94 emm95
副流行性感冒4A emm96 emm97 emm98 emm99 emm100
emm101 emm102 emm103 emm104 emm105
emm106 emm107 emm108 emm109 emm110
U74320
Csr R&Csr S sic SpeB
肺炎链球菌属 ponA(Pbp1 A) GyrA GyrB;ParC
金黄色葡萄球菌属 entQ entK tst seb GyrA MSR(A);mecR1;VanA
;BlaZ;dfrA;qacC
肺炎支原体属 P1基因 GyrA
百日咳博德特氏菌 百日咳毒素 PmA
衣原体属
肺炎衣原体属 OmpB DNA促旋酶
鹦鹉热衣原体 OmpA SigA
脑膜炎奈瑟氏球菌 MviN GyrA
杆菌
炭疽热细菌 保护性抗原 rpoB 致命因素 adema GyrA
因素
(Cya)
腊样芽胞杆菌 rpoB
苏云金杆菌 cry rpoB
枯草杆菌 rpoB
rpoB
鼠疫耶尔森氏菌属 OmpA cve2155序列 GyrA
天花(大天花) 血球凝集素 SOD 化学增活
猴痘 血球凝集素 IA 结合蛋白
血球凝集素
土拉弗朗西斯菌 TUL4 不同 mdh
区域(RD1)
丝状病毒
埃博拉病毒 L基因 NP蛋白
马尔堡病毒 L基因 NP蛋白
沙状病毒
拉沙热病毒 L基因 NP蛋白
马秋波病毒 L基因 NP蛋白
伯克霍尔德氏菌
鼻疽假单胞菌 PenA WaaF
(马鼻疽)
类鼻疽伯克氏菌 PenA WaaF
(类鼻疽)
洋葱伯克霍尔德菌 recA
流行性斑疹伤寒 Ompl GyrA ermB
(摩氏立克次氏体)
GyrA
甲型病毒
委内瑞拉马脑炎 非结构性的
多蛋白
东方型马脑炎 非结构性的
多蛋白
西方型马脑炎 非结构性的
多蛋白
布鲁氏菌 Omp25 Omp2 RB51_WBOA_IS711J
流产布鲁氏菌(2308B37) INSERT
马耳他布鲁氏杆菌(F6145)
猪布鲁氏杆菌(A44) GyrA
犬布鲁氏菌
羊布氏杆菌
鼠布鲁氏菌
溶血隐秘杆菌 16S rRNA pld
流感嗜血杆菌 OmpP5(OmpA- GyrA
家族)
莫拉克斯氏菌属 血球凝集素 GyrA
分支杆菌属 Omp A GyrA
痨病
杆菌
肉毒杆菌 Ntnh Bont
产气荚膜梭菌 TmpC ε-毒素 GyrA
破伤风杆菌 L&H链 GyrA A
G
yrA
贝氏考克斯菌 ToIC GyrA
小球隐孢子虫 Sod CP2
E.coli 0157:H7 Omp A 志贺氏毒素I 志贺氏毒素II GyrA
蓖麻子 篦麻毒素
沙门氏菌属
肠道沙门氏菌 OmpA GyrA
鼠伤寒沙门氏菌 OmpA前体
志贺氏菌属
痢疾志贺氏杆菌 OmpA
弗氏志贺菌 OmpA GyrA
霍乱弧菌 OmpA CtxA&CtxB GyrA
尼帕病毒 壳包核酸 Matrix
汉坦病毒 GyrA
未名病毒 壳包核酸 糖蛋白 GyrA
嗜肺军团菌 MompS GyrA
荚膜组织胞浆菌 M抗原 H抗原
皮炎芽生菌 WI-1 Bysl
球孢子菌 Bg12 Ag2
水痘
水痘HHV-6 主要衣壳蛋白 主要抗原结构蛋白
水痘HHV-3 主要衣壳蛋白 即早转录数活因子
埃-巴二氏病毒 主要衣壳蛋白 即早转录激活因子
棒状杆菌属
白喉杆菌 Dtx基因 GyrA
肠病毒(属) 肠病毒
柯萨基病毒(亚群) 柯萨基病毒
埃可病毒(亚群) 埃可病毒
骨髓灰质炎病毒(亚群) 骨髓灰质炎病毒
副粘病毒科
副粘病毒科 血球凝聚素 基体
麻疹病毒(Rubeola)
新城病毒 血球凝聚素- 基体
沙门氏菌属 神经氨酸酶
西尼罗河病毒 荚囊 非结构蛋白5
黄热病 荚囊 非结构蛋白5
偏肺病毒 壳包核酸
诺沃克病毒 RNA-dependent 壳包核酸 基体
RNA聚合酶
登革热病毒 壳蛋白 pre-M蛋白
手足口病 VPI基因 3D基因
圣路易斯脑炎病毒 多蛋白 NS5 基体
立夫特谷热 核蛋白 非结构蛋白 GyrA
糖蛋白 GyrA
尤苏它病毒 多蛋白
恙虫热 GroEL tsa
金迪普拉病毒 G糖蛋白 基体
人造插入序列 Bluescript II(KS+) pUC pGEM
多重克隆位点
耐Rx标记物
表3:RPMV2设计(名称)
呼吸病原菌 种类/亚 种类/亚 种类/亚种 种类/亚种 属/钟 Rx Res
名称 种 种
BT试剂名称(CDC A;B;C)
腺病毒
亚群A NC_001460 NC_001460 NC_001460
亚群B1
腺病毒3 AF542129 AY224415 AF492352
腺病毒7 X76551 Z48954 AY495969
腺病毒16 X74662 U06106
腺病毒21 AB053166 U06107 AF492353
亚群B2
腺病毒11 AF532578 L08232 BK001453
腺病毒35 AB052912 AB098563 AY128640
亚群C
腺病毒1 AF534906 AB108423 AF534906
腺病毒2 AY224391 AY224410 BK000407
腺病毒5 AF542130 AY224411 AY147066
腺病毒6 X67710 AB108424 E1A
亚群D NC_002067 NC_002067 NC_002067_
亚群E
腺病毒4 X84646 X76547 E1A
亚群F NC_001454 NC_001454 NC_001454
流行性感冒 Crieria:Human;Swine;Avian
流行性感冒A
AJ344014 AJ518092 AY52746 AJ458301
(疫苗)
L11125 U42776
ISDN38157 AY300947
(疫苗)
ISDN13277 K01030
(疫苗)
AF285885
AY526745 M24740
AJ507203 AF285887
AY338459 AY340079
AF310988 AY300948
AY294658 AY180830
AF311750
AF310986
AF310990
M26089
M35997
L43916
流行性感冒B AB126838 AY139074 AB036877
流行性感冒C AB093473 AB086809
副流行性感冒
副流行性感冒1 NC 003461 NC_003461
副流行性感冒2 NC 003443 NC_003443
副流行性感冒3 AY283063 NC_001796
副流行性感冒4A E02727 E03809
鼻病毒 AF108164 AF108180 AF542420 AF542420 AF108184
AF108179 AF108183 AF108186 AF108187
冠状病毒
SARS AY323974 AY365036 AY429079 AY390556
OC43 M76373 NC_005147 L14643
229E NC_002645 X51325 X16816
呼吸道合胞病毒
1型(RSV A) AF035006 AF035006
2型(RSV B) AF013254 AF013254
-
链球菌属 emm source
化脓性链球菌属 ST2035 ST4529L ST4532 ST4264 ST4547 AE006557 Erm(A);
AY357120;
Erm(TR);
emm13L ST3018 U92492 ST14973 STCMUK16 U70055;MefE;
ST2267 U50338 ST2980 ST230-2 ST436 prtF1;
ST448L ST3365 ST1135 ST1161 ST1432 AE006513
ST6949 ST1160
emm1 emm2 emm3 emm4 emm5
emm6 emm7 emm8 emm9 emm10
emm11 emm12 emm13 emm14 emm15
emm16 emm17 emm18 emm19 emm20
emm21 emm22 emm23 emm24 emm25
emm26 emm27 emm28 emm29 emm30
emm31 emm32 emm33 emm34 emm35
emm36 emm37 emm38 emm39 emm40
emm41 emm42 emm43 emm44 emm45
emm46 emm47 emm48 emm49 emm50
emm51 emm52 emm53 emm54 emm55
emm56 emm57 emm58 emm59 emm60
emm61 emm62 emm63 emm64 emm65
emm66 emm67 emm68 emm69 emm70
emm71 emm72 emm73 emm74 emm75
emm76 emm77 emm78 emm79 emm80
emm81 emm82 emm83 emm84 emm85
emm86 emm87 emm88 emm89 emm90
emm96 emm97 emm98 emm99 emm100
emm101 emm102 emm103 emm104 emm105
emm106 emm107 emm108 emm109 emm110
U74320
U11966 AF095713 AY229859 AB051298
肺炎链球菌属 X67867 AY157689
金黄色葡萄球菌属 U93688 U93688 U93688 M11118 D 10489
肺炎支原体属 AF290002 X53555
百日咳博德特氏菌 M13223 AJ507642 BX640413(密码子
286253)
衣原体属
肺炎衣原体属 X53511 AB 103388
鹦鹉热衣原体 AF269281 U04442 -
脑膜炎奈瑟氏球菌 AE002384 AE002487
杆菌
炭疽杆菌 AF306783 AF205335 M29081 M24074 AY291534
腊样芽胞杆菌 AF205342
苏云金芽孢杆菌 AF278797 AF205349
枯草杆菌 AF205356 X02369(orf 821)
鼠疫杆菌 NC_003143 AF350077 AE013898
天花(大天花) L22579 L22579 L22579
猴痘
水痘
土拉弗朗西斯菌 M32059 AF469619 AF513319
丝状病毒
埃博拉病毒 NC_004161 NC_004161
马尔堡病毒 NC_001608 NC_001608
沙状病毒
沙拉热病毒 NC_004297 NC_004296
马丘博病毒 NC_005079 NC_005078
伯克霍尔德菌
鼻疽假单胞菌 AY032868 AY124769
类鼻疽伯克氏菌 AY032869 AF097748
(类鼻疽)
洋葱伯克霍尔德菌 U70431
斑疹伤寒(摩氏立克次氏体) AJ235270 AJ235270(密码子 AJ235270
250672)
甲型病毒
委内瑞拉马脑炎 L04653 L04653
东方型马脑炎 NC003899 NC003899
西方型马脑炎 NC003908 NC003908
布鲁氏菌 一致 一致 一致
流产布鲁氏菌(2308B37)
马耳他布鲁氏杆菌(F6145)
猪布鲁氏杆菌(A44) AE014411
犬布鲁氏菌
羊布氏杆菌 -
鼠布鲁氏菌
溶血隐秘杆菌 X73952 L16583
流感嗜血杆菌 L20309 U32806
卡他莫拉菌 AY077637 AF056196
分枝杆菌 BX842574 AE006915
痨病
杆菌
肉毒杆菌 Y13630 X62683
产气荚膜梭菌 AP003191 X60694 AP003185
破伤风杆菌 X04436
贝氏考克斯菌 AE016960 AE016960
小球隐孢子虫 AF529280 AY471868
E.coli 0157:H7 AE005582 AB083044 AB048837 NC_002655
蓖麻子 X52908
沙门氏菌属
肠道沙门氏菌 AL627269 AE016836(密码子
鼠伤寒沙门氏菌 AE008746 70224)
志贺氏菌属
痢疾志贺氏杆菌 V01344
弗氏志贺菌 AE015125 AE016986
霍乱弧菌 AF030977 Gary Custom NC_002505
尼帕病毒 NC_002728 NC_002728
汉坦病毒
未名病毒 NC_005216 L33474
嗜肺军团菌 AF078136 AY091594
荚膜组织胞浆菌 AF026268 U20346
AE014411
皮炎芽生菌 S63772 AF277079
-
粗球霉菌 AF022893 U32518
水痘
水痘HHV-6 NC_001664 NC_001664
水痘HHV-3 NC_001348 NC_001348
埃-巴二氏病毒 NC_001345 NC_001345
棒状杆菌属
白喉杆菌 A04646 BX248354
肠病毒(属) NC_001612
柯萨基病毒(亚群) AF499635
埃可病毒(亚群) NC_003986
骨髓灰质炎病毒(亚群) NC_002058
副粘病毒科
副粘病毒科 AY523581 NC_001498
麻疹病毒〔Rubeola〕
新城病毒 AY510092 NC_002617
西尼罗河病毒 AF346319 AF208017
黄热病 AY359908 AF013417
偏肺病毒 AY145272 AY145271
肠道沙门氏菌 AL627269
诺沃克病毒 NC_001959 NC_001959
NC_001474 NC_001474 NC_001474
手足口病 NC_004004 NC_004004
圣路易斯脑炎病毒 AY289618 AF013416
立夫特谷热 X53771 X53771
尤苏它病毒 AF452643
恙虫热 AY191589 AY283180
金迪普拉病毒 J04350 AF128868
人造插入序列 Stratagene Provided X06404 X65312
多重克隆位点
耐Rx标记物
表4:RPMV2设计(尺寸)
呼吸病原菌 种类/亚 种类/亚 种类/亚种 属/钟 Rx Res
名称 种 种
BT试剂名称(CDC A;B;C)
腺病毒 836 860 597
亚群A
亚群B1 685 829 880
腺病毒3 605 829 880
腺病毒7 673 906
腺病毒16 759 637 819
腺病毒21
亚群B2
腺病毒11 629 1025 789
腺病毒35 641 711 789
亚群C
腺病毒1 667 802 870
腺病毒2 789 698 870
腺病毒5 684 826 1055
腺病毒6 785 578
亚群D 644 783 579
亚群F
腺病毒4 2281 1375 616
亚群F 828 659 909
流行性感冒
流行性感冒A
1692 1459 575 734
757 1410
1042 804
1323 257
303 865
839 691
770 795
849 444
553
727
680
690
813
715
745
流行性感冒B 737 761 715
流行性感冒C 401 862
副流行性感冒
副流行性感冒1 1649 910
副流行性感冒2 1646 693
副流行性感冒3 1581 498
副流行性感冒4A 638 807
鼻病毒 508 499 338 503 501
511 504 520 506
冠状病毒
SARS 666 1269 3768 666
OC43 828 557 1042
229E 753 789 1393
呼吸道合胞病毒
1型(RSV A) 907 958
2型(RSV B) 554 826
链球菌属
化脓性链球菌属 675 425 713 661 340 815 Erm(A);
763;732;
200 316 371 415 680 563;
413 384 401 688 350 MefE;
355 554 619 475 664 prtF1
650 635
325 360 391 337 490
437 emm7 emm8 509 emm10
500 364 emm13 439 652
emm16 187 emm18 381 emm20
emm21 620 258 421 561
936 317 333 328 265
339 299 328 340 emm35
410 270 481 369 340
488 408 306 391 Emm45
315 331 489 485 287
423 499 414 293 405
389 338 391 433 452
325 334 429 538 640
528 335 526 566 440
300 256 328 306 451
353 450 415 322 354
432 497 421 324 448
404 420 346 379 483
393 363 403 516 408
358 357 351 372 340
350 354 emm103 emm104 emm105
cmm106 emm107 emm108 emm109 emm110
533
292 904 1008 681
肺炎链球菌属 1237 815 GyrB;
ParC
400;652;
金黄色葡萄球菌 771 729 705 713 821 1032;
846;##;
肺炎枝原体 2526 809 ##
百日咳博德特氏菌 824 730 815
衣原体属
肺炎衣原体 982 824
鹦鹉热衣原体 991 835
脑膜炎奈瑟氏球菌 856 941
杆菌
炭疽杆菌 551 777 638 985 732
腊样芽胞杆菌 777
苏云金芽孢杆菌 805 777
枯草杆菌 780 812
Bacillus globigii
鼠疫杆菌 913 517 812
天花(大天花) 942 378 762
猴痘 764
水痘
土拉弗朗西斯菌 786 3322 960
丝状病毒
埃博拉病毒 752 758
马尔堡病毒 1170 799
沙状病毒
拉沙热病毒 973 703
马丘波病毒 1540 715
伯克霍尔德菌
鼻疽假单胞菌 1117
(鼻疽)
类鼻疽伯克氏菌 1117 1100
(类鼻疽)
洋葱伯克霍尔德菌 563
斑疹伤寒(摩氏立克次氏体) 985 968 1560
甲型病毒
委内瑞拉马脑炎 923 1512
东方型马脑炎 1312 975
西方型马脑炎 878 902
布鲁氏菌 582 2428 1291
流产布鲁氏菌(2308B37)
马耳他布鲁氏杆菌(F6145) 995
猪布鲁氏杆菌(A44)
犬布鲁氏菌
羊布氏杆菌
鼠布鲁氏菌
溶血隐秘杆菌 1489 1111
流感嗜血杆菌 937 896
卡他莫拉菌 653 321
分枝杆菌 932
痨病 818
杆菌
肉毒杆菌 499 1000
产气荚膜梭菌 1113 572
破伤风杆菌 1138 810
贝氏考克斯菌 1851 812
小球隐孢子虫 375 2304
E.coli 0157:H7 660 948 960 812
蓖麻子 1133
沙门氏菌属
肠道沙门氏菌 904
鼠伤寒沙门氏菌 904 812
志贺氏菌属
痢疾志贺氏杆菌 907
弗氏志贺菌 898 812
霍乱弧菌 942 984 887
尼帕病毒 858 1359
汉坦病毒
未名病毒 639
嗜肺军团菌 1157 236
荚膜组织胞浆菌 919 1082
皮炎芽生菌 942 912
粗球霉菌 965 1234
水痘
水痘HHV-6 890 1236
水痘HHV-3 822 781
埃-巴二氏病毒 971 1317
-
棒状杆菌属
白喉杆菌 913
818
肠病毒(属) 1758
柯萨基病毒(亚群) 920
埃可病毒(亚群) 1277
骨髓灰质炎病毒(亚群) 1226
副粘病毒科
副粘病毒科 1854
麻疹病毒(Rubeola) 1008
新城病毒 1734 1232
西尼罗河病毒 1504 917
黄热病 1547 1035
偏肺病毒 1185 765
诺沃克病毒 961 712
登革热病毒 300 498
手足口病 633 799
圣路易斯脑炎病毒 679 1035
立夫特谷热 738 798
尤苏它病毒 1035
恙虫热 546 1011
金迪普拉病毒 704 755
人造插入序列 2961 3914 2912
多重克隆位点
耐Rx标记物
芯片尺寸 293826
提交给RPMV2拼接和芯片制备的序列是基于表5中总结的Affymetrix说明书文件,对应于如SEQ ID NOs:50-421显示的序列。
表5:RPMV2拼接和芯片制备的Affymetrix说明书文件
名称 | Alias | 起始 | 结束 | 序列号 | 起始序列 | 终止序列 |
ATTIM1 | ATTIM1 | 1 | 523 | 59 | ACATCGAC | GAGCTTGC |
Ad3E1A | Ad3E1A | 1 | 879 | 60 | TGAGACAC | GGCAATGA |
Ad3HEXON | Ad3HEXON | 1 | 595 | 61 | CCAGCACA | CATGTGGT |
Ad3FIBER | Ad3FIBER | 1 | 746 | 62 | AAGCGGCT | AACCCTCA |
Ad7E1A | Ad7E1A | 1 | 868 | 63 | TGAGACAC | AAACTGCC |
Ad7HEXON | Ad7HEXON | 1 | 513 | 64 | CCAGCACA | TGCTGACG |
Ad7FIBER | Ad7FIBER | 1 | 977 | 65 | TGACCAAG | ACGACTGA |
Ad7NAVYE1A | Ad7NAVYE1A | 1 | 879 | 66 | ATGAGACA | AGGCAATA |
Ad7NAVYHEXON | Ad7NAVYHEXON | 1 | 504 | 67 | CCAGCACA | TGCTGACG |
Ad7NAVYFIBER | Ad7NAVYFIBER | 1 | 975 | 68 | TGGCTTTA | CCCCACGC |
Ad16E1A | Ad16E1A | 1 | 878 | 69 | TGAGACAC | GGCAATGA |
Ad16HEXON | Ad16HEXON | 1 | 667 | 70 | CGTTGACC | AGGACACC |
Ad16FIBER | Ad16FIBER | 1 | 652 | 71 | GGGAGATG | AGGAAGCC |
Ad21E1A | Ad21E1A | 1 | 878 | 72 | TGAGACAC | GACAATGA |
Ad21HEXON | Ad21HEXON | 1 | 807 | 73 | CGCCACAG | GTGTACAA |
Ad21FIBER | Ad21FIBER | 1 | 685 | 74 | GCTCAGTG | CCTTTATG |
Ad11E1A | Ad11E1A | 1 | 872 | 75 | TGAGAGAT | GACAATAA |
Ad11HEXON | Ad11HEXON | 1 | 677 | 76 | CGCCACAG | TCAGAAAG |
Ad11FIBER | Ad11FIBER | 1 | 977 | 77 | TGACCAAG | ACGACTGA |
Ad35E1A | Ad35E1A | 1 | 872 | 78 | TGAGAGAT | GACAATAA |
Ad35HEXON | Ad35HEXON | 1 | 689 | 79 | CGCCACAG | TGAAAAAA |
Ad35FIBER | Ad35FIBER | 1 | 971 | 80 | TGACCAAG | ACAACTAA |
Ad1E1A | Ad1E1A | 1 | 986 | 81 | TGAGACAT | GGCCATAA |
Ad1HEXON | Ad1HEXON | 1 | 715 | 82 | AGTGGTCT | TGCTACGG |
Ad1FIBER | Ad1FIBER | 1 | 750 | 83 | GATGCTGT | AAGAATAA |
Ad2E1A | Ad2E1A | 1 | 983 | 84 | TGAGACAT | GGCCATAA |
Ad2HEXON | Ad2HEXON | 1 | 837 | 85 | AGTGGTCT | CGACCGGC |
Ad2FIBER | Ad2FIBER | 1 | 750 | 86 | ATAGCTAT | AGGAATAA |
Ad5E1A | Ad5E1A | 1 | 985 | 87 | TGAGACAT | GGCCATAA |
Ad5HEXON | Ad5HEXON | 1 | 732 | 88 | AGTGGTCT | TGTAAAGC |
Ad5FIBER | Ad5FIBER | 1 | 747 | 89 | ACAGCCAT | AAGAATAA |
Ad6E1A | Ad6E1A | 1 | 985 | 90 | TGAGACAT | GGCCATAA |
Ad6HEXON | Ad6HEXON | 1 | 833 | 91 | GAATGAAG | AATTGGGA |
Ad6FIBER | Ad6FIBER | 1 | 750 | 92 | TCCTCAAA | CAGAAAAT |
Ad4E1A | Ad4E1A | 1 | 865 | 93 | TGAGGCAC | GGCATTAA |
Ad4HEXON | Ad4HEXON | 1 | 2810 | 94 | TGGCCACC | CCACATAA |
Ad4FIBER | Ad4FIBER | 1 | 1277 | 95 | TGTCCAAA | AACAATAA |
Ad4AFE1A | Ad4AFE1A | 1 | 832 | 96 | TGAGGCAC | GACATTAA |
Ad4AFHEXON | Ad4AFHEXON | 1 | 2810 | 97 | TGGCCACC | CCACATAA |
Ad4AFFIBER | Ad4AFFIBER | 1 | 1277 | 98 | TGTCCAAA | AAGAATAA |
Ad12E1A | Ad12E1A | 1 | 597 | 99 | ATGAGAAC | GGAGGTGA |
Ad12HEXON | Ad12HEXON | 1 | 884 | 100 | CCTACTTC | TGCAAGAC |
Ad12FIBER | Ad12FIBER | 1 | 908 | 101 | CAGCAGAA | CGTTGCCG |
Ad17E1A | Ad17E1A | 1 | 579 | 102 | ATGAGACA | GAGGCTGA |
Ad17HEXON | Ad17HEXON | 1 | 692 | 103 | CTTCAGCC | GAAGAATA |
Ad17FIBER | Ad17FIBER | 1 | 829 | 104 | TCCTGTCA | TATCAGCC |
Ad40E1A | Ad40E1A | 1 | 824 | 105 | CTTGAGTG | ATAGAAGA |
Ad40HEXON | Ad40HEXON | 1 | 876 | 106 | CGCAATGG | TAATTACA |
Ad40FIBER | Ad40FIBER | 1 | 707 | 107 | CACTGACA | TCAGTGTC |
FluAHA1 | FluAHA1 | 1 | 1692 | 108 | ATGAAAGC | GAATATGC |
FluAHA2 | FluAHA2 | 1 | 805 | 109 | AAGGTCGA | TTTGGGAG |
FluAHA3 | FluAHA3 | 1 | 1042 | 110 | CAAAAACT | AATGGTGG |
FluAHA4 | FluAHA4 | 1 | 1371 | 111 | AGGAAATC | GACAAAGG |
FluAHA5 | FluAHA5 | 1 | 303 | 112 | ATGCCCCA | TTTAACAA |
FluAHA6 | FluAHA6 | 1 | 887 | 113 | CCGTCACA | GACTAAGA |
FluAHA7 | FluAHA7 | 1 | 818 | 114 | AAATCCTG | TGGGAATT |
FluAHA8 | FluAHA8 | 1 | 897 | 115 | CTCTTGGC | GCAAACCC |
FluAHA9 | FluAHA9 | 1 | 601 | 116 | ACTCCACA | CCAAGGCC |
FluAHA10 | FluAHA10 | 1 | 775 | 117 | CCTGGAGC | GTATGGTT |
FluAHA11 | FluAHA11 | 1 | 728 | 118 | CTGCATTC | AGAGGCAA |
FluAHA12 | FluAHA12 | 1 | 738 | 119 | CACTGTTC | GGCCAAAC |
FluAHA13 | FluAHA13 | 1 | 1765 | 120 | AGCAAAAG | TTTCTACT |
FluAHA14 | FluAHA14 | 1 | 763 | 121 | CACAAATG | CAAGAGGC |
FluAHA15 | FluAHA15 | 1 | 793 | 122 | ACGGAGAC | CCCTTTGC |
FluANA1-1 | FluANA1-1 | 1 | 1459 | 123 | CAAAAGCA | TTTCTACT |
FluANA1-2 | FluANA1-2 | 1 | 575 | 124 | TGCCATGA | ATGATTTG |
FluANA2 | FluANA2 | 1 | 1062 | 125 | TCATGCGA | TTTTAGAA |
FluANA3 | FluANA3 | 1 | 852 | 126 | GCCCTTTC | TGAAGTCA |
FluANA4 | FluANA4 | 1 | 257 | 127 | AGCAAAAG | CAGCCCCC |
FluANA5 | FluANA5 | 1 | 913 | 128 | CGGTGAGA | GCGGGAAG |
FluANA6 | FluANA6 | 1 | 739 | 129 | AGAGGATG | TTGCATTC |
FluANA7 | FluANA7 | 1 | 994 | 130 | AGCAGGGT | ACACCAGC |
FluANA8 | FluANA8 | 1 | 843 | 131 | CAATACAG | ATTAGCAG |
FluANA9 | FluANA9 | 1 | 444 | 132 | AACCTGAA | GTCAATAT |
FluAH1N1MATRIX | FluAH1N1MATRIX | 1 | 734 | 133 | ATGGAATG | TAAACACG |
FluAH5N1MATRIX | FluAH5N1MATRIX | 1 | 657 | 134 | AGACCAAT | TTGCACTT |
FluBHA | FluBHA | 1 | 785 | 135 | GGGAAGTC | AGGTAATA |
FluBNA | FluBNA | 1 | 809 | 136 | GCCCTCAT | CTCGAACG |
FluBMATRIX | FluBMATRIX | 1 | 763 | 137 | GGAGAAGG | ATGGCTTG |
FluCHA | FluCHA | 1 | 401 | 138 | CTTCTTGC | ATGATCAT |
FluCMATRIX | FluCMATRIX | 1 | 862 | 139 | ATGTCCGA | TTATATAA |
PIV1HN | PIV1HN | 1 | 1728 | 140 | ATGGCTGA | CATCTTGA |
PIV1MATRIX | PIV1MATRIX | 1 | 958 | 141 | CCGGAGAA | CAGTAGAA |
PIV1NC | PIV1NC | 1 | 1682 | 142 | AGGGTTAA | AAGAAAAA |
PIV2HN | PIV2HN | 1 | 1716 | 143 | ATGGAAGA | TACCTTAA |
PIV2MATRIX | PIV2MATRIX | 1 | 741 | 144 | CTTGCCTC | CAGGTCGG |
PIV2NC | PIV2NC | 1 | 1849 | 145 | AGATTCGG | AGAAAAAA |
PIV3HN | PIV3HN | 1 | 1725 | 146 | ATGGAATA | AATCATAA |
PIV3MATRIX | PIV3MATRIX | 1 | 544 | 147 | CCAACAAA | CCTGGCGA |
PIV3NC | PIV3NC | 1 | 1548 | 148 | ATGTTGAG | GCAACTAA |
PIV4HN | PIV4HN | 1 | 686 | 149 | GACGGGAG | AAAGATTG |
PIV4MATRIX | PIV4MATRIX | 1 | 855 | 150 | GGAACGGT | TTGGCTCA |
HRV14NCR | HRV14NCR | 1 | 520 | 151 | TGATGTAC | GTTTCTCA |
HRV1ANCR | HRV1ANCR | 1 | 511 | 152 | TTCCGGTA | GTTTCACT |
HRV21NCR | HRV21NCR | 1 | 499 | 153 | TTCCGGTA | GTTTCACT |
HRV29NCR | HRV29NCR | 1 | 676 | 154 | CGAAAACA | TTGGGTGT |
HRV58NCR | HRV58NCR | 1 | 504 | 155 | TCACGGTA | GTTTCCTG |
HRV62NCR | HRV62NCR | 1 | 501 | 156 | TTCCGGTA | GTTTCACT |
HRV87NCR | HRV87NCR | 1 | 506 | 157 | TCTTGGTA | GTTTCACT |
HRV95NCR | HRV95NCR | 1 | 508 | 158 | TTCCGGTA | GTTTCTTG |
RSVABL | RSVABL | 1 | 379 | 159 | AAGTGCTC | AAGCAAAC |
RSVAMATRIX | RSVAMATRIX | 1 | 958 | 160 | GGGGCAAA | ATAAAAAA |
RSVANC | RSVANC | 1 | 955 | 161 | TCCAACGG | CCGAGGAA |
RSVBMATRIX | RSVBMATRIX | 1 | 770 | 162 | ATGGAAAC | GAGGATTA |
RSVBNC | RSVBNC | 1 | 602 | 163 | GATGGGAG | TACGCCAA |
HCV229ESPIKE | HCV229ESPIKE | 1 | 1534 | 164 | GTTGATTG | GCCGTGGT |
HCV229EMEM | HCV229EMEM | 1 | 678 | 165 | ATGTCAAA | TTTTCTAA |
HCV229ENC | HCV229ENC | 1 | 924 | 166 | ATGGCTAC | GTCACATT |
HCVOC43SPIKE | HCVOC43SPIKE | 1 | 1456 | 167 | ATTGATTG | GCCTTGGT |
HCVOC43MEM | HCVOC43MEM | 1 | 693 | 168 | ATGAGTAG | ATATCTAA |
HCVOC43NC | HCVOC43NC | 1 | 966 | 169 | AGAGCTCA | GTACACTT |
SARSSPIKE | SARSSPIKE | 1 | 1438 | 170 | GTAGATTG | GCCTTGGT |
SARSMEM | SARSMEM | 1 | 666 | 171 | ATGGCAGA | TACAGTAA |
SARSNC | SARSNC | 1 | 932 | 172 | ATGGGGCA | ACAAAGAT |
HCVNL63SPIKE | HCVNL63SPIKE | 1 | 1534 | 173 | GTTGATTG | GCCTTGGT |
HCVNL63ORF3 | HCVNL63ORF3 | 1 | 678 | 174 | ATGCCTTT | TTAATTGA |
HCVNL63MEM | HCVNL63MEM | 1 | 681 | 175 | ATGTCTAA | TAATCTAA |
HCVNL63NC | HCVNL63NC | 1 | 879 | 176 | ATGGCTAG | GTGAGGTT |
MPVMATRIX | MPVMATRIX | 1 | 765 | 177 | ATGGAGTC | CCAGATAA |
MPVNC | MPVNC | 1 | 1185 | 178 | ATGTCTCT | ATGAGTAA |
HHV1L | HHV1L | 1 | 1061 | 179 | TACCAGGG | AAGCGCCT |
HHV1CAPSID | HHV1CAPSID | 1 | 993 | 180 | CGGGCGCC | GTGGGCGT |
HHV3L | HHV3L | 1 | 1061 | 181 | TATAAAGG | CGTCGCTT |
HHV3CAPSID | HHV3CAPSID | 1 | 993 | 182 | CGGGAGCC | ATGGGCAT |
HHV4L | HHV4L | 1 | 1067 | 183 | TACCAGGG | ACCCAGAT |
HHV4CAPSID | HHV4CAPSID | 1 | 992 | 184 | CGCCGACA | CTGGGCAT |
HHV5L | HHV5L | 1 | 1136 | 185 | TACCAGGG | TCTAACCT |
HHV5CAPSID | HHV5CAPSID | 1 | 998 | 186 | CGCGCAGC | CTGGGCCT |
HHV6L | HHV6L | 1 | 1058 | 187 | TACAAAGG | CCGAATCT |
HHV6CAPSID | HHV6CAPSID | 1 | 1001 | 188 | CGCGCAGC | TTGGGCAT |
ENTEROVIRUS | ENTEROVIRUS | 1 | 1758 | 189 | CACCAATG | GATAGATA |
COXSACKIEVIRUS | COXSACKIEVIRUS | 1 | 920 | 190 | CAATGCAA | TCTTGAGG |
ECHO | ECHO | 1 | 1277 | 191 | CACTTGCC | ACAAAGAG |
POLIO | POLIO | 1 | 1226 | 192 | TGGATAGT | ACTTATGT |
POLIO1NCR | POLIO1NCR | 1 | 436 | 193 | CAAGCACT | TGACAATC |
POLIO2NCR | POLIO2NCR | 1 | 437 | 194 | CAAGCACT | TGACAATC |
POLIO3NCR | POLIO3NCR | 1 | 437 | 195 | CAAGCACT | TGACAATC |
MEASLESHA | MEASLESHA | 1 | 1854 | 196 | ATGTCACC | GCGGATAG |
MEASLESMATRIX | MEASLESMATRIX | 1 | 1008 | 197 | ATGACAGA | TTCTGTAG |
NEWCASTLEHN | NEWCASTLEHN | 1 | 1734 | 198 | ATGGACCG | CTGGCTAG |
NEWCASTLEMATRIX | NEWCASTLEMATRIX | 1 | 1232 | 199 | ACGGGTAG | CATCAAGT |
WNE | WNE | 1 | 1504 | 200 | TTCAACTG | GCACGCTG |
WNNS | WNNS | 1 | 917 | 201 | GGCTGCTG | GGGAAGGA |
WNCM | WNCM | 1 | 432 | 202 | GGCCAATA | TGATCCAG |
YFE | YFE | 1 | 1547 | 203 | CTGCATTG | TAGAGACT |
YFNS | YFNS | 1 | 1035 | 204 | AAGCTGTC | AGGGAGAG |
VMVG3R | VMVG3R | 1 | 762 | 205 | ATGAAACA | GTGTCTGA |
VMVHA | VMVHA | 1 | 942 | 206 | ATGACACG | AAGTCTAG |
VMVSOD | VMVSOD | 1 | 378 | 207 | ATGGCTGT | GCGTTTGA |
VMVCRMB | VMVCRMB | 1 | 291 | 208 | TCGGGAAC | CGTCTGTT |
MONKEYPOX | MONKEYPOX | 1 | 812 | 209 | GTGAATGC | TTTCGACG |
EBOLAL | EBOLAL | 1 | 800 | 210 | AGTTGGAC | GAAACACG |
EBOLANP | EBOLANP | 1 | 806 | 211 | AGGAGTAA | CGACAATC |
EBOLAMATRIX | EBOLAMATRIX | 1 | 1498 | 212 | GATGAAGA | AAGAAAAA |
MARBURGL | MARBURGL | 1 | 1218 | 213 | GCGGCACT | CAATTGAC |
MARBURGNP | MARBURGNP | 1 | 847 | 214 | TCACAGAA | GTCATTTG |
LASSAL | LASSAL | 1 | 1021 | 215 | GCATCTGG | ACTACCTC |
LASSANP | LASSANP | 1 | 751 | 216 | ATGGAGTG | AGTTCAGG |
LASSAGP | LASSAGP | 1 | 1476 | 217 | ATGGGACA | AGAGATGA |
MACHUPOL | MACHUPOL | 1 | 1588 | 218 | GTGGCTGA | GAGGCTAA |
MACHUPONP | MACHUPONP | 1 | 763 | 219 | TTGAAGAC | GGCACTAT |
MACHUPOG | MACHUPOG | 1 | 1491 | 220 | ATGGGGCA | GACATTAA |
VEEVNS | VEEVNS | 1 | 923 | 221 | GACAGCCC | AAAGTGAC |
VEEVNC | VEEVNC | 1 | 1512 | 222 | GGCCACCT | AGCATATC |
EEEVNS | EEEVNS | 1 | 1312 | 223 | GAGATAGA | ATTGCGTC |
EEEVNC | EEEVNC | 1 | 975 | 224 | CCTGACTT | TCAGCTAT |
WEEVNS | WEEVNS | 1 | 878 | 225 | CGTATGTC | CCACAATG |
WEEVNC | WEEVNC | 1 | 902 | 226 | TGTTCTAG | TGGCGACT |
NIPAHMATRIX | NIPAHMATRIX | 1 | 1359 | 227 | AGGAGACA | ACAAAAAA |
NIPAHN | NIPAHN | 1 | 858 | 228 | AGGAATCT | CAATCAGC |
SINNOMBREGP | SINNOMBREGP | 1 | 1293 | 229 | ATAGCTGG | GGATGGAT |
SINNOMBRENC | SINNOMBRENC | 1 | 639 | 230 | TCACTCTC | TGTGATTG |
NORWALKL | NORWALKL | 1 | 739 | 231 | TTCTCCAT | ATTCGTAA |
NORWALKCAPSID | NORWALKCAPSID | 1 | 760 | 232 | TGGTACCG | CTGGATGG |
DENGUECAPSID | DENGUECAPSID | 1 | 300 | 233 | ATGAATGA | GACGTAGA |
DENGUEM | DENGUEM | 1 | 498 | 234 | TTTCATCT | CAATGACA |
DENGUE1NCR | DENGUE1NCR | 1 | 157 | 235 | GGTTAGAG | GCTGTCTC |
DENGUE2NCR | DENGUE2NCR | 1 | 159 | 236 | GGTTAGAG | GCTGTCTC |
DENGUE3NCR | DENGUE3NCR | 1 | 156 | 237 | GGTTAGAG | GCTGTCTC |
DENGUE5NCR | DENGUE5NCR | 1 | 162 | 238 | GGTTAGAG | GCTGTCTC |
FMDVVP1 | FMDVVP1 | 1 | 633 | 239 | ACCACCTC | CAAAACAG |
FMDV3D | FMDV3D | 1 | 846 | 240 | GTTGATCG | ACGGAGCA |
SLEVNS5 | SLEVNS5 | 1 | 1035 | 241 | AAGACTGG | AGGGTGAG |
SLEVPP | SLEVPP | 1 | 727 | 242 | CTCGGTAG | GTTTCACG |
RVFVN | RVFVN | 1 | 738 | 243 | ATGGACAA | CAGCCTAA |
RVFVNS | RVFVNS | 1 | 798 | 244 | ATGGATTA | TTGATTAG |
USUTUPP | USUTUPP | 1 | 1035 | 245 | AAGCTCGG | CAGGTGAG |
JEVPP | JEVPP | 1 | 1035 | 246 | AAGCCTGG | AAGGAGAG |
CHANDIPURAMATRIX | CHANDIPURAMATRIX | 1 | 755 | 247 | AACAGAAA | GAAAAAAA |
CHANDIPURAGP | CHANDIPURAGP | 1 | 752 | 248 | ATCACTCT | GTAGTTGT |
ATIM2 | ATTIM2 | 1 | 523 | 249 | ACATCGAC | GAGCTTGC |
ATTIM3 | ATTIM3 | 1 | 523 | 250 | ACATCGAC | GAGCTTGC |
SPYEMM1 | SPYEMM1 | 1 | 398 | 251 | GCTTCAGT | CAGGCAAG |
SPYEMM2 | SPYEMM2 | 1 | 360 | 252 | GCATCCGT | GAGAAGTC |
SPYEMM3 | SPYEMM3 | 1 | 391 | 253 | ACGGCTTC | GGAATATC |
SPYEMM4 | SPYEMM4 | 1 | 337 | 254 | AGCATCAG | GTCAATAT |
SPYEMM5 | SPYEMM5 | 1 | 490 | 255 | ACTGCATC | AAAAGATA |
SPYEMM6 | SPYEMM6 | 1 | 437 | 256 | TACTGCAT | CTTAAAAA |
SPYEMM9 | SPYEMM9 | 1 | 509 | 257 | CAGGTACA | CTGCTCTT |
SPYEMM11 | SPYEMM11 | 1 | 500 | 258 | GCATCCGT | AATCACCA |
SPYEMM12 | SPYEMM12 | 1 | 364 | 259 | GCTTCAGT | AAATGATG |
SPYEMM13L | SPYEMM13L | 1 | 325 | 260 | CAGCATCC | AAAAATCA |
SPYEMM18 | SPYEMM18 | 1 | 524 | 261 | ACTGCTTC | GAAGAACA |
SPYEMM22 | SPYEMM22 | 1 | 620 | 262 | GCATCAGT | GACGCAAG |
SPYEMM28 | SPYEMM28 | 1 | 333 | 263 | CAGCATCC | AGAACGTC |
SPYEMM29 | SPYEMM29 | 1 | 328 | 264 | TGCATCAG | AAGAACAG |
SPYEMM44 | SPYEMM44 | 1 | 391 | 265 | CAGCATCA | CAAGAACA |
SPYEMM61 | SPYEMM61 | 1 | 325 | 266 | GCATCAGT | AGAACGTC |
SPYEMM75 | SPYEMM75 | 1 | 451 | 267 | TCCGTAGC | AAGCCGTG |
SPYEMM77 | SPYEMM77 | 1 | 450 | 268 | GCTCAGTA | AGCTGAGC |
SPYEMM89 | SPYEMM89 | 1 | 378 | 269 | CATCAGTA | AGAAAAGC |
SPYEMM94 | SPYEMM94 | 1 | 516 | 270 | GCATCAGT | CAGACGCA |
SPYCSR | SPYCSR | 1 | 952 | 271 | TGGTCCTA | CCCAGGCT |
SPYSFB1 | SPYSFB1 | 1 | 615 | 272 | AGAACCTG | GGCATGAG |
SPYSPEB | SPYSPEB | 1 | 729 | 273 | ACTCTACC | TATCGATG |
SPNGYRA | SPNGYRA | 1 | 815 | 274 | GAGGATTT | ACTGATAC |
SPNLYTA | SPNLYTA | 1 | 125 | 275 | TATCGAAC | CTCAGACC |
SPNPLY | SPNPLY | 1 | 99 | 276 | GGTTTGGC | ATCAAGAT |
SAUGYRA | SAUGYRA | 1 | 821 | 277 | GAAGACTT | ACTAATGC |
SAUTST | SAUTST | 1 | 705 | 278 | ATGAATAA | TTAATTAA |
SAUENTK | SAUENTK | 1 | 729 | 279 | ATGAAAAA | CGATATAA |
SAUENTQ | SAUENTQ | 1 | 771 | 280 | ATGCCTAT | CTGAATAA |
CPNGYRA | CPNGYRA | 1 | 824 | 281 | GAAGACAT | TCGAGTCA |
CPNOMPB | CPNOMPB | 1 | 1030 | 282 | GCGAAGCT | TCAGGTCC |
CPNMOMPVD4 | CPNMOMPVD4 | 1 | 150 | 283 | ATGCTGAT | TCAGATCA |
CPNMOMPVD2 | CPNMOMPVD2 | 1 | 133 | 284 | AGCGTTCA | TAGGCGCT |
CPNRPOB | CPNRPOB | 1 | 346 | 285 | AAGGACTT | CTGCAGGC |
CPSOMPA | CPSOMPA | 1 | 991 | 286 | GGAACCCA | TCGATTCA |
CPSSIGA | CPSSIGA | 1 | 883 | 287 | CGCAAGCT | GGTTCAGC |
CDIDTX | CDIDTX | 1 | 913 | 288 | GACGTGGT | TTCTCCGG |
CDIGYRA | CDIGYRA | 1 | 818 | 289 | GAAGACCT | ACCTCCGC |
CDIDTXR | CDIDTXR | 1 | 1124 | 290 | AATGAGTG | GCGCCTGT |
HINGYRA | HINGYRA | 1 | 896 | 291 | GAAGATTT | ACTGATGC |
HINOMPA | HINOMPA | 1 | 937 | 292 | GCGTTAAA | CCAGACCG |
LPNGYRA | LPNGYRA | 1 | 236 | 293 | GATGTCGG | GACCGTCG |
LPNMOMPS | LPNMOMPS | 1 | 1157 | 294 | GTCCTTAC | TCATTAGA |
MCAGYRA | MCAGYRA | 1 | 321 | 295 | AACTGGAA | AGATTCCC |
MCAHA | MCAHA | 1 | 653 | 296 | GATCAATC | AATGGTCA |
MTUGYRA | MTUGYRA | 1 | 818 | 297 | GAGGATTT | ACTTCCGG |
MTUOMPA | MTUOMPA | 1 | 932 | 298 | GACGAACT | TCAACTAA |
MTURPOB | MTURPOB | 1 | 411 | 299 | TACGGTCG | ACGCCGTA |
MPNGYRA | MPNGYRA | 1 | 809 | 300 | GAGGACTT | TCTTCAGC |
MPNP1 | MPNP1 | 1 | 2570 | 301 | CAGTTGCA | ACGCGAGC |
NMEGYRA | NMEGYRA | 1 | 941 | 302 | GAAGACCT | ACCAGCGG |
NMEMVIN | NMEMVIN | 1 | 904 | 303 | GATGAATA | ATACGGAA |
NMECTRA | NMECTRA | 1 | 135 | 304 | TTGGATGC | TTTGCTG |
NMECRGA | NMECRGA | 1 | 254 | 305 | GGTGCTGC | TGCCGGTC |
AHE16S | AHE16S | 1 | 1489 | 306 | CGAACGCT | CCGGAAGG |
AHEPLD | AHEPLD | 1 | 1111 | 307 | GCAAAGTG | CTCCTTTT |
BANGYRA | BANGYRA | 1 | 732 | 308 | GAAGACTT | AGACTTGT |
BANLEF | BANLEF | 1 | 685 | 309 | ATATCGAG | CTAGGTGC |
BANPAG | BANPAG | 1 | 599 | 310 | CAGAAGTG | GGATAGCG |
BANRPOB | BANRPOB | 1 | 777 | 311 | TAGTTCGC | AGGGGATA |
BANCYA | BANCYA | 1 | 545 | 312 | GCGATGAT | CTGTCGAG |
BANCAPB | BANCAPB | 1 | 246 | 313 | TTACACGT | ACCTATTA |
BCERPOB | BCERPOB | 1 | 777 | 314 | TAGTTCGC | AGGGGATA |
BSUGYRA | BSUGYRA | 1 | 812 | 315 | GAAGATCT | ACAGCTAG |
BSURPOB | BSURPOB | 1 | 780 | 316 | TTGTTCGG | AGGCGACA |
BTHCRY | BTHCRY | 1 | 853 | 317 | AGAACACA | ATCGCATC |
BTHRPOB | BTHRPOB | 1 | 777 | 318 | TAGTTCGC | AGGGGATA |
BPEGYRA | BPEGYRA | 1 | 815 | 319 | GAAGACCT | ACCACCGG |
BPEPRNA | BPEPRNA | 1 | 777 | 320 | GGTTCAAG | CGCCGACA |
BMEGYRA | BMEGYRA | 1 | 995 | 321 | GAAGACCT | TCGGATGG |
BABRB51 | BABRB51 | 1 | 1339 | 322 | ATCCCATA | AGCTAGTA |
BABOMP25 | BABOMP25 | 1 | 630 | 323 | AAGTCTCT | AGTTCTAA |
BABOMP2 | BABOMP2 | 1 | 1434 | 324 | TGTTCTTC | GAGAGCAG |
BCAOMP2 | BCAOMP2 | 1 | 1434 | 325 | TGTTCTTC | GAGAGCAG |
BMEOMP2 | BMEOMP2 | 1 | 1434 | 326 | TGTTCTTC | GAGAGCAG |
BNEOMP2 | BNEOMP2 | 1 | 1434 | 327 | TGTTCTTC | GAGAGCAG |
BOVOMP2 | BOVOMP2 | 1 | 1449 | 328 | TGTTCTTC | GAGAGCAG |
BSUIOMP2 | BSUIOMMP2 | 1 | 1434 | 329 | TGTTCTTC | GAGAGCAG |
BMAPENA | BMAPENA | 1 | 1117 | 330 | GAGAGCTG | AAGGTTCA |
BMAWAAF | BMAWAAF | 1 | 1015 | 331 | CGTTGGTT | GGGATGCT |
BPSPENA | BPSPENA | 1 | 1117 | 332 | GAGAGCTG | AAGGTTCA |
BPSWAAF | BPSWAAF | 1 | 1100 | 333 | AGCGCGGC | GTCCGCGG |
BCEPRECA | BCEPRECA | 1 | 611 | 334 | CATGGAAG | CAACCAGA |
CPEGYRA | CPEGYRA | 1 | 810 | 335 | GAAGACTT | ATAAATAG |
CPETMPC | CPETMPC | 1 | 1113 | 336 | ATGAAAAA | TAAATTAA |
CBUGYRA | CBUGYRA | 1 | 812 | 337 | GAAGATTT | AGTGATAA |
CBUTOLC | CBUTOLC | 1 | 745 | 338 | ATTTAGAC | CTAGGAAA |
FTURD1A | FTURD1A | 1 | 531 | 339 | ATGAAAAA | CAATTTAG |
FTURD1B | FTURD1B | 1 | 285 | 340 | ATGGCTTT | TAGACTAG |
FTUTUL4 | FTUTUL4 | 1 | 834 | 341 | GGCGAGTG | CCAACCAC |
FTUMDH | FTUMDH | 1 | 960 | 342 | ATGGCTAG | CAAAATAA |
FTU13KD | FTU13KD | 1 | 431 | 343 | ATCGTAAT | TAAGTATG |
FTUFOPA | FTUFOPA | 1 | 111 | 344 | CAGATATA | GATACTAC |
OTSGROEL | OTSGROEL | 1 | 546 | 345 | GTTGAAGT | AAGAAAAA |
OTSSTA56 | OTSSTA56 | 1 | 1059 | 346 | CTAGTGCA | AGCAGTAG |
RPRGYRA | RPRGYRA | 1 | 968 | 347 | GAAGATTT | ACAAATAG |
RPROMP1 | RPROMP1 | 1 | 985 | 348 | TATATAAA | ACAAGCTA |
YPEGYRA | YPEGYRA | 1 | 812 | 349 | GAAGACCT | ACTGATGC |
YPEOMPA | YPEOMPA | 1 | 913 | 350 | GTGGTAAA | CCAGATCG |
YPECVE | YPECVE | 1 | 517 | 351 | GTACAGAT | TGAGGTAC |
YPECAF1 | YPECAF1 | 1 | 525 | 352 | TATGAAAA | ATATAGAT |
ACAHAG | ACAHAG | 1 | 1082 | 353 | GGTTGCGC | TGCTCTCG |
ACAMAG | ACAMAG | 1 | 919 | 354 | CCGTCTGT | GTCATGTA |
ACAGH17 | ACAGH17 | 1 | 810 | 355 | ACACAGCA | AAAAAAAA |
BDEWI-1 | BDEWI-1 | 1 | 942 | 356 | GGATCCAT | TTTTTGTG |
BDEBYS1 | BDEBYS1 | 1 | 912 | 357 | ATGCATCT | ATGATAAC |
CIMAG2 | CIMAG2 | 1 | 1234 | 358 | CTCTCCCT | TTTTGTTA |
CIMBG12 | CIMBG12 | 1 | 965 | 359 | ATAGAGGG | GAAACGAT |
CPACP2 | CPACP2 | 1 | 735 | 360 | CTGAGGAA | TTCAAAAA |
CPASOD | CPASOD | 1 | 375 | 361 | TTGAATTC | GTGATGTA |
ECOGYRA | ECOGYRA | 1 | 812 | 362 | GAAGATCT | ACCGATGC |
ECOOMPA | ECOOMPA | 1 | 660 | 363 | ATGAAGAA | CGCTGTAA |
SENGYRA | SENGYRA | 1 | 812 | 364 | GAAGATCT | ACGGATGC |
SENOMPA | SENOMPA | 1 | 904 | 365 | GTGCTAAA | CCGGATCG |
SDYOMPA | SDYOMPA | 1 | 907 | 366 | GTGCTAAA | CCGGATCG |
SFLGYRA | SFLGYRA | 1 | 812 | 367 | GAAGATCT | ACCGATGC |
SFLOMPA | SFLOMPA | 1 | 898 | 368 | GTGCTAAA | CCGGATCG |
VCHGYRA | VCHGYRA | 1 | 887 | 369 | GAAGAGCT | ACCAATGC |
VCHOMPA | VCHOMPA | 1 | 942 | 370 | ATGAAAAA | TCCCTGAA |
MSRA | MSRA | 1 | 400 | 371 | GCAAATGG | ATCACATG |
MECR1 | MECR1 | 1 | 652 | 372 | ATGGAGGT | GAATCGAT |
MEFA | MEFA | 1 | 611 | 373 | AATATGGG | ACTACGGC |
ERMTR | ERMTR | 1 | 732 | 374 | ATGAAACA | TTCAATAA |
ERMB | ERMB | 1 | 763 | 375 | GATGTATC | GGAAATAA |
EMRB | EMRB | 1 | 1560 | 376 | ATGCCAAA | TTCACTAA |
GYRB | GYRB | 1 | 1947 | 377 | ATGACAGA | ATGTCTAA |
PARC | PARC | 1 | 2637 | 378 | GAGTTTGC | AATATAAG |
PARE | PARE | 1 | 2008 | 379 | AAAATTTT | TGTTTTAA |
PBP1 | PBP1 | 1 | 1282 | 380 | TTCGACCA | ACGAGCTA |
PBP5 | PBP5 | 1 | 668 | 381 | TGACGATC | AACGAGCA |
MECA | MECA | 1 | 729 | 382 | ATCGATGG | ATGAATAA |
BLAZ | BLAZ | 1 | 846 | 383 | TTGAAAAA | AATTTTAA |
DFRA | DFRA | 1 | 486 | 384 | ATGACATT | GGAAATAG |
VANA | VANA | 1 | 1032 | 385 | ATGAATAG | AGGGGTGA |
QACC | QACC | 1 | 324 | 386 | ATGCCTTA | CGCATTAA |
RMTB | RMTB | 1 | 756 | 387 | ATGAACAT | ATGGATAA |
STRA | STRA | 1 | 804 | 388 | TTGAATCG | GGGGTTGA |
STRB | STRB | 1 | 837 | 389 | ATGTTCAT | CATACTAG |
AADA1 | AADA1 | 1 | 792 | 390 | ATGAGGGA | GCAAATAA |
SULII | SULII | 1 | 816 | 391 | ATGAATAA | TTCGTTAA |
CTXM | CTXM | 1 | 436 | 392 | CAAGAAGA | ATGGCACC |
KPC2 | KPC2 | 1 | 918 | 393 | CGTTGATG | CCACCACC |
AMPC | AMPC | 1 | 1140 | 394 | ATGAAAAA | TGGAATAA |
BLACMY2 | BLACMY2 | 1 | 1146 | 395 | ATGATGAA | TGGAATAA |
AMPR | AMPR | 1 | 876 | 396 | ATGGTCAG | CGGCGTAA |
SULI | SULI | 1 | 840 | 397 | ATGGTGAC | ATGCCTAG |
AACAAPHD | AACAAPHD | 1 | 1440 | 398 | ATGAATAT | AAGATTGA |
FLOR | FLOR | 1 | 1215 | 399 | ATGACCAC | TCGTCTAA |
TETM | TETM | 1 | 536 | 400 | CACGCCAG | CGGAAATG |
TETC | TETC | 1 | 502 | 401 | TATCGTCC | CAGTCAGC |
TETS | TETS | 1 | 555 | 402 | GCTACATT | GGCATTCA |
TETA | TETA | 1 | 494 | 403 | TGGCATTC | GCTATACG |
TETG | TETG | 1 | 550 | 404 | CTCGGTGG | GGCTTTGC |
TETL | TETL | 1 | 548 | 405 | CTGGGTGA | ATTCCTGA |
TETB | TETB | 1 | 571 | 406 | AGTGCTGT | TCCAAGCC |
PTX | PTX | 1 | 872 | 407 | ATCACTAC | CAGGAGCT |
BONT | BONT | 1 | 792 | 408 | TGATGGAA | TTCTACGG |
NTNH | NTNH | 1 | 496 | 409 | AATATTTG | AATATGGT |
BOTE | BOTE | 1 | 1000 | 410 | GATAAAAT | TAACTATG |
EPSILON | EPSILON | 1 | 620 | 411 | ATGCGAAA | GGAGGAGC |
TETANUS | TETANUS | 1 | 1185 | 412 | CCTGATAA | CTAACGGA |
STX1A | STX1A | 1 | 948 | 413 | ATGAAAAT | GCAGTTGA |
STX2A | STX2A | 1 | 960 | 414 | ATGAAGTG | GTAAATAA |
RICINUSTOXIN | RICINUSTOXIN | 1 | 1133 | 415 | ATGGTCCA | CATCGGAT |
CTXAB | CTXAB | 1 | 984 | 416 | CGGGCAGA | CCTGAGGA |
PBLUEVEC | PBLUEVEC | 1 | 236 | 417 | CTGCAGGA | TGCGTTGC |
PGEMVEC | PGEMVEC | 1 | 226 | 418 | GAATATGC | TGCGTTGC |
PUCVEC | PUCVEC | 1 | 252 | 419 | AGACAGTT | TGCGTTGC |
ATTIM4 | ATTIM4 | 1 | 523 | 420 | ACATCGAC | GAGCTTGC |
样本制备
在本发明的一些实施方案中,靶点核酸(DNA和/或RNA)可包含在生物样本中。这里使用的术语“生物样本”统指生物体或生物体组成(例如,细胞)中获得的样本。样本可为任何生物组织或液体。可供选择地,样本可为从环境(空气、土壤或水)中得到的样本。生物样本常常为源自患者的“临床样本”。这种样本包括,但不限于,唾液、鼻腔冲洗液、咽喉拭子、血液、血液细胞(例如,白细胞)、组织或针刺切片样本、尿、腹水、内脏液体、和胸积液、或那里的细胞。在本发明的背景下,临床样本优选鼻腔冲洗液、鼻腔吸出物或咽喉拭子。在尤其优选的实施方案中,临床样本为鼻腔冲洗液。生物样本也可包括组织部分如组织学用途的冷冻切片,或来自非人类动物、植物,或环境资源如水、空气或土壤。
为了采用微阵列进行检测,靶点核酸可能需要一定程度的处理。为了这个目的,将涉及一种或一种以上下列靶点处理步骤:(1)分离,(2)富集主体靶点序列,(3)扩增,(4)标记,和(5)杂交。对应于每个处理策略的优选实施方案在下面进行了描述。然而,本发明目的不是被限制。为了这个目标,技术人员将容易评价出可供选择的方法对应于上述处理策略,这些处理策略都以普遍在使用的那些和按照U.S.6,638,717、U.S.6,376,191、U.S.5,759,778、U.S.6,268,133、和U.S.6,613,516中描述的为基础。
靶点核酸分离
在本发明的一种实施方案中,被测定的靶点核酸(DNA和/或RNA)在相同扩增之前被分离出。分离核酸的方法对技术人员是众所周知的。
在一种优选实施方案中,靶点核酸分离将使用MasterPureTM DNA纯化试剂盒(Epicentre Technologies,Madison,WI)乙醇提纯方法(按厂商用法说明书)来完成。在另一种优选实施方案中,靶点核酸将采用快速微量离心技术进行分离,如在使用Xtra Amp试剂盒(XTRANA,Inc.Broomfield,CO)。然而在另一种优选实施方案中,核酸将采用自动化设备为上述目的进行分离,例如GeneXpert(Cepheid,Sunnyvale,CA)或采用磁性玻璃珠分离的自动机械进行分离(例如Qiagen或Beckman)。
许多其他商业产品可利用,这些产品面向从复合矩阵中纯化和浓缩核酸。除了上面描述的方法和在本发明中,备选方案包括:
QIAamp DNA微型试剂盒(Qiagen)-
(用于基因组、线粒体、细菌、寄生虫、或病毒DNA的提纯)
QIAamp DNA微型试剂盒采用快速自旋柱或真空技术从人组织样本中简化分离DNA。DNA特异性结合QIAamp硅凝胶膜然而污染物透过。PCR抑制剂如二价阳离子和蛋白在二个有效冲洗步骤中完全被除去,剩下纯净DNA在用试剂盒盛着的水中获缓冲液中进行洗提。QIAamp DNA技术从准备在PCR和印迹方法过程使用的人组织样本中生成基因组、线粒体、细菌、寄生虫、或病毒DNA。
RNeasy微型试剂盒(Ambion)-
RNeasy微型试剂盒从非常少量的组织或细胞中有效提纯全部RNA。全部RNA很容易从动物细胞或组织、革兰阳性菌或革兰阴性菌、或酵母中提纯出。RNeasy技术经结合严格的异硫氰酸胍水解,采用快速提纯硅凝胶膜纯化简化全部RNA分离。
UltraCleanTM组织DNA试剂盒(Mo Bio Laboratories,Inc.)-
新鲜或冷冻组织样本采用珠粒搅打(bead-beating)技术水解细胞被均化。溶解产物被负载到硅旋转过滤器上。在瞬时旋转期间,DNA选择性结合到硅膜上而污染物透过。剩余的污染物和酶抑制剂经冲洗步骤被除去。纯净的DNA被洗提到被鉴定的不含DNA的三羟甲基氨基甲烷缓冲液。
UltraCleanTM组织RNA试剂盒(Mo Bio Laboratories,Inc.)-
制备的新鲜或冷冻组织,在水解液存在情况下,采用组织均化器或研钵和研棒进行均化。RNA在硅膜旋转过滤器上被捕获而污染物经离心过滤透过过滤器。冲洗过滤器除去一些剩余污染物和盐。然后,RNA被洗提到被鉴定的不含RNase的水中(被提供)。RNA具有较高质量并且准备用于一些下面的应用中。
Wizard基因组DNA提纯试剂盒(Promega)-
Wizard基因组DNA提纯试剂盒被设计用于从血液细胞、组织培养物和动物组织、植物组织、酵母、革兰阳性菌和革兰阴性菌中分离DNA。Wizard基因组DNA提纯试剂盒是以四步方法为基础的。提纯方法中的第一步水解细胞和核。为从血液白细胞中分离DNA,这步骤设计水解细胞水解液中的血液红细胞,随即水解血液白细胞和核水解液中的细胞核。RNase消解步骤可同时包括在内;它对一些应用是非必须的。然后,通过盐析步骤除去细胞蛋白,析出蛋白但在溶液中剩下高分子量的基因组DNA。最后,浓缩基因组DNA并经异丙醇沉淀脱盐。
SV全部RNA分离体系(Promega)-
SV全部RNA分离体系提供了从组织、细胞培养物和血液白细胞中快速简单制备纯化的和完整的全部RNA。该体系加入直接在微型柱的膜上处理DNase的步骤。提纯为没有使用苯酚情况下进行:氯仿萃取或乙醇析出,并且在最终RNA制备中没有DNase携带(carryover)。
RNAqueous技术(Ambion,Inc.)-
RNAqueous试剂盒能被用于从许多不同组织和细胞中提纯全部RNA。细胞和组织在硫氰酸胍溶液中被裂解;该裂解剂有效水解细胞和不活泼的内生核糖核酸酶。然后,用乙醇溶液稀释溶解产物并将其应用于RNA结合玻璃纤维过滤器。蛋白质、DNA和其他污染物在三个快速冲洗步骤中被除去,然后洗提浓缩形式的结合型RNA。
核酸分离自动装置
除了上面描述的那些方法,一些厂商(例如,PSS BIO Instruments,Roche Diagnsotics,Qiagen,Caliper)制造小的(benchtop)和/或高生产能力液体处理自动装置和相关试剂,该试剂能代替上面描述的手工方法被采用。在一种优选实施方案中,一种或一种以上这种自动装置和其相关试剂将用于自动分离后续加工(背景排除和扩增)用的核酸。
靶点扩增
因为获得具有足够量的病原菌核酸的样本存在困难,出现了一组采用微阵列检测病原菌的技术挑战。因此,对于多数样本类型,一些类型的扩增将可能被要求提供病原菌基因标记的足够拷贝用于微阵列杂交检测。作为微阵列准备步骤,多重PCR实际上被限制在十个不同引物对,不是数千个,引物对的数量增加导致假扩增子数量改变。然而,当标记扩增子被要求杂交到阵列表面的特异性探针上时进行分析,假扩增子经微阵列试验不能被检测出(Chizhikov et al.,2001)。
多重PCR
保守(简并)多重PCR减少特殊的PCR方案产生的系统偏差,该PCR方案设计一系列被筛选出的引物以保守区为靶点,保守区位于被探试到的基因物种特异性可变区的侧翼。在本发明的实施例中,对E1A、纤毛、和六邻体基因已经进行了说明;然而,技术人员可扩大这个策略以任何基因为靶点,这些基因跨广谱物种为保守的,但仍具有物种特异性可变区。为了这个目标,候补基因和特异性区域(保守和可变区)能很容易经过全部或局部同源搜索被鉴定出(例如,序列分析)。
申请人描述了下面筛选靶点的常用策略和引物设计:
如这里使用的,术语“引物”(和通常在本领域中能被理解的)统指在催化合成多聚核苷酸互补引物扩张产物的条件下,能起到沿着互补链多聚核苷酸合成的起始点作用的寡核甘酸。典型的多聚核苷酸合成条件包括在适当的缓冲溶液(“缓冲溶液”包括取代物,这些取代物为辅助因素,或其它影响pH、离子强度的物质,等)中,适宜的温度下,存在四个不同核苷三磷酸或核甘酸类似物和催化聚合作用的一种或一种以上的酶(例如,DNA聚合酶和/或逆转录酶)
为了方便特异性PCR反应、扩增引物一般从13到25个核苷酸范围变化,优选从20到25个核苷酸。为了便于杂交,引物的核苷酸序列一定与靶点有充分的序列互补性。尽管互补程度将很大部分取决于引物长度,互补程度一般至少为80%,优选至少90%,更优选至少95%。
对于随机PCR方案,优选引物长度从6到10个核苷酸。序列将包括六聚体(26置换)到十聚体(210置换)的所有取代。
对于“原型”区域设计,优选方案将具有保守引物,该引物位于靶点基因可变区的侧翼。这个是腺病毒的RPMV1中的方案并且被本发明者用于流行性感冒A(采用流行性感冒A片段的保守3′和5′末端的血球凝集素(HA)、神经氨酸酶(NA)和间质(M)。这个概念能延伸到任何大量病原菌类型,因为高度保守区在实质上是普遍存在的并且能为那些序列设计简并引物。
当靶点不选作“原型”时,与原型区域对比,芯片上实际面积的量能很大程度减少。这些方案的目标不一定是鉴定特殊株物种或物种亚变种,而可以是允许足够的碱基响应来获得非模糊的统计学评估,从而证实序列对应于主体病原菌,但不对应于紧密相关的物种或无毒菌株。对于这种多重、较小靶点的芯片设计,设计和最优化被需要的大量特异性PCR反应是不可行的,并且全部扩增变为最佳扩增策略。
核苷酸或氨基酸序列的同源性、序列类似性或序列鉴定可采用已知的软件或计算机程序如BestFit或Gap pairwise比对程序GCG WisconsinPackage,Genetics Computer Group,575 Science Drive,Madison,Wisconsin53711)进行常规确定。BestFit采用局部同源性算法(Smith and Waterman,Advances in Applied Mathematics 2:482-489(1981)),来发现两个序列之间的等同性或类似性的最好片段。Gap采用先前描述的方法(Needleman&Wunsch,1970)执行全局分析:一种序列全部和另一种类似序列的全部。当采用序列分析程序如BestFit时,可采用缺省设置,或适宜的记分矩阵可被选择用于优化鉴别、类似性或同源性记录。类似地,当采用一种程序如BestFit来确定两个不同氨基酸序列之间的序列等同性、类似性或同源性时,可采用缺省设置,或适宜的记分矩阵,如blosum45或blosum80可被选择用于优化鉴别、类似性或同源性记录。
采用联合特异性PCR试剂可对靶点进行扩增,这统称为“多重PCR”。在这个策略中,RPM上所有靶点区域的PCR引物对被结合到一种反应混合物中。这是一种优选方法,一种或一种以上病原菌浓度很低以至于不能单独采用随机扩增策略检测出(下面描述的)。
随机扩增策略
不管与PCR扩增相关的灵敏性和特异性,固有偏差和该方法的限制高通量限制了下游微阵列应用的主要优势。如成功鉴别几乎完全依赖于适当的被选引物位,所有PCR测试需要关于污染有机体鉴别的先验知识。同样地,也必需先进的诊断系统,这个诊断系统能快速筛选出无偏差特定预期序列的临床和环境样本。微阵列检测的优势在于它能联合无偏差核酸扩增策略与后续的微阵列分析性能,导致高灵敏性、特异性和通量性能。
发明者已经通过使用可供选择的方法记录下上述问题并且观察到四个前端扩增策略:随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶和多重PCR反应(Vora et al.,2004)。
Klenow扩增-DNA聚合酶I的Klenow片段能用于采用随机八聚体寡核苷酸引物对进行靶点DNA未知序列的等温、随机扩增。对于本发明,能采用BioPrimeDNA标记系统(Invitrogen)进行实施。依据厂商提供的标记方案进行较小改动制得生物素化扩增子。这个方法一般在37℃下反应4个小时。Klenow扩增生成了一些高分子量的扩增产物,但大部分扩增子长度为50-450碱基对。同样地,这些扩增子适用于直接杂交DNA微阵列。
随机PCR扩增-随机PCR(rPCR)扩增子能采用来自Invitrogen BioPrimeDNA标记系统的2.5X随机引物溶液和10X dNTP混合物制得。反应组成典型包括:1XPCR缓冲液(Qiagen)、2.5mM MgCl2、1XdNTP混合物(含生物素-14-dCTP)、5μl 2.5X随机八聚体和5U Taq DNA聚合酶(Qiagen)。采用下列条件:94℃保持30秒、26℃保持2分钟、72℃保持1分钟,将扩增反应35轮。
29扩增-用随机六聚体采用TempliPhiTM100扩增试剂盒(AmershamBiosciences Corp.,Piscataway,NJ)实施等温Φ29 DNA聚合酶扩增。按照厂商提供的方案进行较小改动生成生物素化扩增子(14.4μl扩增反应包含0.4μl酶混合物和3μl350μM生物素-14-dCTP并在30℃下培养16个小时)。
大部分rPCR和Φ29 DNA聚合酶扩增产物太大以至于不能移进电泳凝胶(>1500bp)中。由于空间限制(Vora et al.,2004)较大扩增产物很难杂交到二维表面的固定探针上。因此,rPCR和Φ29 DNA聚合酶扩增产物用DNaseI降解缓冲液酶切得到扩增子尺寸相当于Klenow和杂交前多重扩增子尺寸。
串联扩增
病原菌靶点的增强灵敏性能联合上面描述的随机扩增策略而得到。串联[Klenow+Klenow]和[29+Klenow]串联随机扩增策略能比多重PCR提供给富集病原菌靶点更好的灵敏性。相同的随机扩增策略也能检测外加环境水样中的被诊断基因组靶点,该水样过量含有63倍的被污染DNA(Voraet al.,2004)。得到的结果加强了使用随机扩增方法和开始系统记录从环境资源中无偏差病原菌检测方法多功能性的可行性。
联合靶点富集和随机扩增
随机扩增方法导致非靶点DNA以及靶点DNA的扩增。因此,发明者在这里描述了在扩增之前富集病原菌诊断靶点序列的多种方法。这对于提高复合基质如临床(例如鼻腔冲洗液或咽喉拭子)或环境(例如,水、土壤、空气收集器)样本中分析物检测的灵敏性和/或特异性
复合样本(临床和环境的)包含显著性、绝大多数未知基因组和非主体基因组(非特异性背景)。减少非特异性背景的一种方法是让核酸接触酶过程,该酶过程选择性酶切背景基因组序列。该方法在下面的实施例中进行了描述。
减少非病原菌基因组含量的另一种策略是使用已知对有机体呈阴性的复合体系的背景基因组序列并且使用它直接除去背景基因组序列。这种“消减”方法能包括:(1)将背景基因组固定在固相表面如凝胶或玻璃珠上,随即用测试样本杂交来消减样本中的背景基因组。在杂交微阵列上靶点期间,也能采用未标记背景基因组来阻断非特异性结合功效。这种阻断方法具有一定优势因为它在试验期间不需要附加步骤。这两种方法在实施例部分中也进行了描述。
也能可供选择地或同时在随机扩增之前使用选择性富集病原菌靶点核酸的策略。从样本中直接筛选的一种可能性(阳性筛选)是使用固相靶点支撑物(磁性玻璃珠或凝胶基质)上的固定探针来选择性富集主体基因组靶点。实际上,固相支撑物上的探针在阵列上不能检测到的,因为它们将导致错误信号如果富集分子被运载出或无意被扩增。同样地,玻璃珠上的探针将通过邻接区域或稍微重叠分析物基因组区域来筛选微阵列上被查询的靶点基因组。如在探针序列和阵列上可被检测的分析物序列之间稍微重叠,那么被查询区域在电子分析期间应被遮蔽。如果预期富集探针与微阵列上序列是同源的,那么那些探针应被构成以至于不经过后续扩增,或制成对扩增之前的选择性酶切具有敏感性。如果有必要时依据样本属性和主体应用,可使用上面组合和其他策略。
可供选择的消减或富集方法
免疫沉淀反应是另一种富集病原菌核酸的方法。主体病原菌抗体能与临床样本混合,然后用抗IgG沉淀来减少病原菌,从而除去背景基因组DNA。当希望得到单个病原菌的相关特异性基因组特征时,如抗生素抗性标记物或有意遗传操作的指示剂,这将具有特殊重要性。
尺寸排除是另一种方法,通过该方法减少或富集病原菌DNA。示意尺寸排除法包括:梯度离心、柱、或离心过滤器单元。梯度离心或柱分离方法是耗时并且需要在实验室内特殊组装。使用“离心过滤器单元”分离高到低分子量物种不一致和通常回收率低。这些方法每一种都需要大量起始原料。其他的尺寸排除方法包括:流式细胞术或电泳方法,例如荧光激活细胞拣选法(FACS)或采用Agilent生物分析器中使用的特殊电泳芯片。
常规靶点富集和扩增策略
本发明者已经描述了从鼻腔冲洗液中消减“正常”人和微生物核酸的方法。这个相同原理也可应用于任何来源(临床的或环境的)的样本,核酸的代表性“正常”混合物能被收集、集中,并且制成消减试剂。
许多方法也能应用于富集病原菌或特殊靶点,该靶点在执行完全扩增策略之前被拼接到阵列上。这样一种方法将使用拼接在阵列上的固定变异体的序列。这些变异体将结合用于分离的固相成分(玻璃珠、基质,等)和在它们自己没有被扩增的情况下富集将被扩增靶点。制备对酶降解敏感的富集探针可以执行这个或它们可能由不可扩增的修饰核酸组成。
一种更优选的实施方案将利用识别序列的探针,该序列邻接靶点基因序列并且不在芯片的拼接区域上表示出。以这种方式,无偏差扩增策略中的扩增将不产生人为产物。
依据常规DNA测序技术被认为基础研究中全部信息收集过程的一部分,因此被描述的再测序方法被认为全部病原菌检测/表征方案的一种组成。Wang et al.(Wang et al,2003)描述的方法采用点样DNA微阵列,这种点样DNA微阵列由识别保守序列的较长寡核苷酸(70-mers)组成,保守序列在病原菌家族内。结合这些位点的靶点序列被分离并在常规DNA测序方法中使用进一步进行表征。以类似的方式,一种非常优选实施方案将涉及使用再测序阵列取代与可供选择的DNA测序类型有关的步骤,因此用几个小时内代替几天内提供出特异性病原菌特征并且启动了有效生物防御系统。
本发明的方法优选不使用特异性序列进行扩增(PCR)。本发明举例说明了富集病原菌核酸的供替换的方法,例如:在采用降低偏差,和等温(例如,随机引物Klenow或链置换扩增)扩增之前,使用固相支撑物分离载体分离。在一种优选实施方案中,常规实验室安装的技术人员采用一套最少自动化步骤执行微阵列试验,将能制备时间短和费用低廉的样本。在一种高度优选实施方案中,在本领域环境中的最低程度技术人员将能采用手持式仪器手动分离/富集病原菌靶点核酸并且用很少的试剂和技术步骤实施病原菌靶点的等温扩增。
背景消减后的扩增和杂交
除了随机RT-PCR使用的引物D:GTTTCCCAGTCACGATCNNNNNNNNN(SEQ ID NO:573),和引物E:GTTTCCCAGTCA CGATC(SEQ ID NO:574)(Kessler et al.,2004)之外,类似的,以前描述的引物(Wanget al.,2002),那些引物的变异体,和/或从RNA病毒(病原菌)合成第一种链的cDNA的随机引物(6-9mers)可被采用。可在第一种链cDNA合成后采用消减杂交方案,在复合样本(例如,临床或环境)样本经过一种或一种以上DNA扩增步骤之前,第一种链cDNA合成完全消减临床样本中背景DNA数量。
一种方法采用COT-1人DNA直接消减杂交溶液中的扩增产物(第一种链cDNA合成,然后全部扩增)的背景基因组DNA(大量由快速退火重复单元构成)。另一种方法是第一种链cDNA合成之后和DNA扩增步骤之前,从临床样本中玻璃珠消减背景基因组DNA。
第三个方法是联合上述方法。第一种链cDNA合成之后和DNA扩增步骤之前,采用玻璃珠消减将复合样本中的人基因组背景DNA消减。随后,采用设计用于选择性捕获人DNA和RNA的序列进一步消解杂交溶液中复合样本的背景DNA。DNA扩增可能针对在随机RT步骤中特定或非特定形成的扩增cDNA产物或经联合这些方法扩增两个特异性引物位标记的RT-PCR产物以及病原菌基因组DNA靶点和其他不来自随机RT-PCR步骤的非cDNA靶点。这样做的方法将一种特异性引物序列结合病原菌DNA基因组靶点(这个可能为与被采用附着于cDNA产物相同或为个别的引物),使单一PCR步骤扩增所有RNA和DNA病原菌靶点。
RNA消减
在使用单独加工处理路径检测RNA和DNA病原菌的地方可以使用下面的方法。为了形成RNA加工处理路径,外加临床(鼻腔冲洗液和咽喉拭子)流行性感冒A阳性样本采用不同的方法(随机、全体的、和多重PCR)进行处理。然而,采用随机扩增方法获得的可接受水平灵敏性,人信使RNA和核糖体RNA应采用MICROBEnrichTM试剂盒(Ambion,Inc.,Austin,TX)依照厂商使用说明书进行消减。根据先前描述的方法改进的优选的随机扩增策略可能被采用(Wang et al.,2002)。
经本发明者发现,经过采用这个方法,在浓度低至0.45-3.75pfu/150μL的16/19的不同培养物阳性Flu A鼻腔冲洗液和咽喉拭子样本中可进行H3N2检测和H1NlFlu A检测。可进一步确定的是,消减人RNA之后,低浓度范围内6/8的样本中可能检测Flu A。
采用随机扩增方法,在没有背景消减的情况下,流感灵敏性在鼻腔冲洗物中为约0.25pfu/μl(1ng/μl)。在临床样本中,没有消减情况下的灵敏性估计约为1-10pfu/μl。
DNA消减
DNA样本的随机扩增可采用抗菌素29 DNA聚合酶或者以前公开论文中改进的随机扩增方案(Wang et al. 2002;Wang et al.2003)进行实施。简要地说,利用抗菌素29 DNA聚合酶和随机六聚体的DNA扩增可依据GenomiPhiTM DNA扩增试剂盒(Amersham Biosciences Corp.,Sunnyvale,CA)的使用说明书进行实施。然后,扩增产物依据厂商推荐方案用乙醇进行沉淀。利用改进的随机扩增进行DNA扩增可能采用SequenaseTM version 2.0DNA聚合酶(United States Biochemical,ClevElAnd,OH),使用引物D,在第一轮DNA合成中进行实施,随即采用引物E进行PCR扩增。对于RNA扩增,病毒样本经改进版的随机PCR方案(Wang et al.2002;Wang et al.2003;Kessler et al.2004)进行扩增。简要地说,10μl全部RNA能通过采用引物D和superscript III反转录酶(Invitrogen Corp.Carlsbad,CA)进行反转录,然后采用引物E经PCR反应进行扩增。
RNA和DNA路径的会聚
RNA和DNA路径的合并在图9中进行了描述。在本发明的一种实施方案中,RNA和DNA路径合并在一起。这个方案根据加利福尼亚旧金山大学Joseph DeRisi实验室(http://derisilab.ucsf.edu/pdfs/Round A B C.pdf)进行改进并且随机将单一、固定序列PCR引物结合位点加入到所有病原菌DNA或cDNA分子中,采用常规PCR热循环方案使它们都在随后步骤中被扩增。
数据获得和处理
Affymetrix/微阵列设备
总的来说,“微阵列”为优选分散区域的线性或二维阵列,每一种区域具有确定面积,在固体载体表面上形成。微阵列上分散区域密度通过单一固相载体上被检测的不同靶点聚核苷酸的总数进行确定,优选至少约102/cm2,更优选至少约104/cm2,甚至更优选至少约106/cm2,仍更优选约108/cm2。如这里使用的,DNA微阵列为置于芯片上或用于检测和/或分离靶点聚核苷酸的其他表面上的寡核苷酸引物的阵列。因为阵列中引物的每个特殊基位点是已知的,靶点聚核苷酸的鉴别可基于它们结合微阵列中特殊位点来进行确定。
本发明的一种实施方案利用标准Affymetrix部件(Agilent GeneChipScanner(被淘汰的)和Affymetrix扫描仪3000 workstation和Fluidics Station450。原则上,被描述的发明不需要这个设备。用于定量基因表达和高置信度SNP检测的给定用途的GeneChip系统,现有的设备对于信号强度的动力学范围或本发明固有的背景干扰来说不是最佳的。因此,优选的实施方案加入了使用图像获取方法,包括使用空间频率过滤器和图像增强技术,利用特征维数固有规律性加强过滤算法(例如,边缘增强、卷积,等)更好对比于噪声图像。
Affymetrix CustomSeq方案
在本发明的一种实施方案中,样本处理通过采用标准AffymetrixCustomSeqTM方案完成。一般来说,这个方法需要:(a)扩增含DNA探针材料,(b)集中和测量扩增产物数量,(c)扩增产物片段法和标记,(d)靶点杂交,和(e)冲洗,着色和扫描被杂交靶点。Affymetrix CustomSeqTM方案的详细描述可在从厂商中得到的产物手册和方案指南中找到。
在标准的Affymetrix CustomSeqTM方案中,步骤(a)需要长程PCR或者短程PCR,长程PCR为优选扩增策略。对于这些扩增策略的每一种,厂商推荐的PCR DNA聚合酶为Taq变异体,AmpliTaq Gold DNA聚合酶(短程PCR)和LA Taq DNA聚合酶(长程PCR)。尽管厂商不特殊推荐,一些DNA聚合酶可用于步骤(a)只要被采用的DNA聚合酶为高保真DNA聚合酶。
为了推动DNA扩增步骤(a),标准的Affymetrix CustomSeqTM方案采用特异性PCR引物。然而,特异性PCR引物的使用显著性限制了发明技术的广泛应用由于引入系统偏差,该系统偏差由迄今已经采用的特异性PCR方法产生。因此,在本发明步骤(a)的一种优选实施方案中,AffymetrixCustomSeqTM方案由可供选择的扩增策略取代,如多重PCR、全部扩增(GenomiPhiTM),或随机RT/PCR。这些可供选择的策略在上文中进行了描述。每个厂商推荐的PCR策略的最佳PCR扩增条件,以及本发明的优选策略,能通过技术人员进行的常规试验进行确定。
因为PCR反应之间存在可变性,Affymetrix CustomSeqTM方案陈述了试验性能可大大降低如果杂交中扩增子浓度改变大于两倍。因此,Affymetrix CustomSeqTM方案的步骤(b)需要集中PCR反应并且分光光度法定量确保等摩尔样本应用于微阵列
然而,本发明得到了超过Affymetrix CustomSeqTM方法的SNP检测定制的方案的一些优势,在本发明中使用具有序列长度无关类似性搜索(BLASTN)的高密度芯片提供了在筛选拼接用序列之前必须做出较少假设。此外,使用长度无关类似性搜索(BLASTN)除去了特殊的已知子序列成功再测序的限制,使该方法对靶点浓缩物中的变异体更具有抗性和非特异性结合的影响导致失去碱基响应。因此,在本发明范围内,AffymetrixCustomSeqTM方案的步骤(b)是非必须的并且可被省略。
在DNA扩增之后,得到的DNA分子太长以至于不能与阵列表面的短探针进行杂交。因此,Affymetrix CustomSeqTM方案的步骤(c)涉及片段法和后续用荧光物质标记片段。该方法和片段法试剂和标记没有特殊限制;然而标记必须与再测序微阵列的检测仪器兼容。为了这个目的,厂商推荐的试剂和条件可能被采用。
Affymetrix方案的可供选择的改变
荧光标记可能有利于这里描述的方法,因为这些为常规使用自动化使用仪器同时高通量分析多个样本,包括Cy荧光团,罗丹明荧光团:TARAM、ROX、JOE、和FAM;BigDyeTM荧光团(Applied Biosystems,Inc.)、丹磺酰基、荧光素和取代荧光素衍生物、吖啶衍生物、香豆素衍生物、金色染料、四甲基若丹明、Texas RedTM、9-(羧乙基)-3-羟基-6-氧代-6H-氧杂蒽、DABCYLTM、BODIPYTM、和ALEXATM荧光素(分子探针,Eugene,Oregon)。
此外,有许多标记而荧光团,荧光团将适合并且或许在许多情况中更优选。这些标记物包括,但不限于:共振光散射(RLS)颗粒(InVitrogen,Carlsbad,CA)、量子点(Quantum Dot Corp.)和其他具有预期光学性质的纳米级颗粒。
靶点杂交(步骤(d))可能按照Affymetrix CustomSeqTM方案中描述的执行。这个步骤重点部分是含有片段和标记DNA的样本经高温(例如,85-100℃,优选95℃)培养变性,随即进行杂交温度(如,45℃)平衡。一旦含有DNA样本平衡,样本用于再测序阵列。厂商推荐实施杂交反应16个小时;然而,如上述陈述的,本发明的方法不使其性能依赖于提高灵敏性来产生适宜的碱基响应。因此,较短的培养时间适于靶点杂交。在本发明的背景中,靶点杂交培养时间可从15分钟的短时间到24小时的长时间范围内变化。很明显,希望这个范围时间包含每个间隔时间仿佛它们被明确规定一样。值得注意的优选时间为15分钟、30分钟、1个小时、2个小时、4个小时、12个小时、和16个小时。
Affymetrix CustomSeqTM方案的最后步骤需要使用Affymetrix FluidicsStation冲洗被杂交的阵列并且采用Agilent GeneArrayTM扫描仪进行扫描。这个仪器简单自动化了将手动执行的标记和冲洗步骤。因此,将能够时控输送和收回毫升量的标记物和冲洗介质一些仪器将适合供选择。这里描述的本发明将用于一些Affymetrix提供的后续硬件改变。此外,从这里描述类型的再测序微阵列中获得数据可从一些制造商的微阵列处理设备中得到。
关于病原菌检测的生物信息学问题
依赖于用于病原菌微阵列检测的终点,生物信息学问题的重点是非常不同的。生物信息学工具对有效设计和筛选出微阵列形成的特异性互补核酸探针序列是不可缺少的。例如,靶点病原菌基因组核酸序列通常在微阵列分析之前被扩增并且生物信息学很明显在引物设计(评估Tm/Tn,二级结构,自身互补度,和特异性问题)用于分析试验对有机体和菌株具有特异性基因中起作用(Kampke,Kieninger&Mecklenburg,2001)。这些相同分析测试也必须适合于微阵列探针设计。
在实验设计的初始阶段期间,假设与靶点病原菌相关的遗传信号的引物和探针对那个病原菌或病原菌家族具有特异性。应了解,扩增子的生成或使用特殊设计的引物或探针进行的阳性杂交反应将分别说明靶点病原菌的指定分子特征的检测;然而,这不必要是正确的。细菌和病毒遗传混乱,微生物倾向于交换遗传物质,造成单一物种或菌株特异性探针形成中的困难(Ochman,Lawrence&Groisman,2000)。因此,优选引物和探针设计方法学需要使用生物信息工具来:(a)在不同有机体或菌株之间执行多重序列分子并且设计适当的具有示意生物学性质的引物,(b)将这些序列与注册在序列数据库中那些序列进行比对来确定特殊序列的唯一性和交叉反应的电位,和(c)推断出基于遗传保守水平的靶点特异性的概率和主要遗传序列仍没有被阐明的其他病原和非病原物种遗传相关性。
公开发明的一种非常重要的生物信息学方面涉及组合、注释和输入到微阵列中数据库的病原菌诊断靶点的筛选,以及微阵列上相关探测这种数据库的伴随任务。本发明的一种优势为公共用数据库中的信息正在提高,因此进一步提高了本发明的稳健性质。本发明描述了从公开发表的文库中(例如,GenBank)中自动筛选病原菌靶点序列的方法和/或确定公开发表的文库中经验辨别的诊断靶点序列的方法。描述的方法具有联合科学家们的优势,大量病原菌种中每一种类的的处理专家能提供相关病患菌诊断信息,将这些信息掺入到自动阵列设计方法中,不特殊考虑特异性探针、试剂、扩增、和样本制备方法。
在一种非常优选的实施方案中,大量不相关病原菌中的每一种的必备领域知识将经网络门户数据库保持最新技术。因此,影响深远的团队,由特异性病原菌单个研究员构成,将能够通过″pathogen page″格式网络门户提供最新注释靶点序列信息,类似于细胞信号传导联盟(AfCS)采用的″molecular page″样式。AfCS数据库保持着包含在分子内信号转导体系中的数千个分子上的不可理解数量的特异性信息。以这种格式,没有单个信号转导分子特殊知识的单个研究者能使用详细的参数,这些参数能在信号转导数值模拟中使用。因此,在另一种非常优选的实施方案中,单个病原菌的注释靶点序列数据被安排在自动化数据管道内,其中将在病原菌数据库全部信息内容之上加强用户自定义设计限制(例如,探针特征数量、病原菌靶点数量、阵列实施要求的灵敏性和特异性水平,等),允许自动化,最优化靶点筛选,并且将这些靶点以微阵列制备必要格式提交给供应商。
在又一种非常优选的实施方案中,由先前方法确定的被筛选靶点序列将与微阵列实际使用中收集的数据有关。使得概率和质量的度量将用于判定。实施这种自动化流水线数据和算法的两种优选方法为VIBE (可视化集成生物信息学环境)软件(Incogen,Inc.,Williamsburg,VA)和iNquiry(BioTeam,Boston,MA),这两种软件代表一类集成生物信息学环境,两种软件相对于该用途具有相同的效果。
数据获得-
再测序微阵列芯片的原始序列数据由与Affymetrix微阵列阅读器一起包装的遗传数据分析软件version 2.0(GDAS)提供。
Affymetrix再测序阵列包含规定数量的探针细胞或部件。在扫描期间,软件将每个部件分为亚单位方块或像素(3x3μm)。每个部件包含规定顺序的独一无二的25个碱基寡核苷酸探针的许多拷贝,然而一系列的八个部件查询已知参考序列中的特异性位点。四个部件询问正义链并且包含一些探针,这些探针除了中心碱基是A、C、G、或T之外是同源的,四个部件查询反义链并且包含一些探针,这些探针除了中心碱基是A、C、G、或T之外是同源的。
GDAS使用细胞强度数据来生成再测序阵列上表示的每个碱基位的碱基响应。在GDAS的厂商设定下,算法采用多重样本中的强度数据来提高碱基响应的精确度并且为每个响应分配质量得分。
GDAS碱基响应是基于先前描述的碱基响应算法,ABACUS,在(Cutleret al.,2001))详细进行了描述。该模型假设,特征的像素灰度是独立的并且正常分布的。该算法计算出估计平均背景和正义链和反义链特征的改变。碱基响应算法也拟定样本(单倍体或多倍体)中存在或缺少的不同基因类型的模型。许多碱基响应算法参数能由用户(GDAS操作手册/用户指南,Affymetrix)确定而获得碱基响应百分比和精确度之间的平衡。
关于GDAS的算法和能被修改的参数的补充说明在GDAS用户手册中能够找到。参数的描述在GDAS 2.0版手册中的第207-217中能找到。推荐(缺省)的GDAS设置是集中于最高水平精确度的“保守性”设置。相反,本发明的目标是为了提高碱基响应的百分率。为了达到这个目标,本发明者调整了参数允许如下面列出的高度许可碱基响应(提高百分率):
“许可”碱基响应算法设置-
-过滤器条件
·无信号阈值=0.500(默认值=1.000000)
·弱信号倍数阈值=20000.000(默认值=20.000000)
·大信噪比阈值=20.000000(默认值=20.000000)
-算法参数
·链质量阈值=0.000(默认值=0.000000)
·总链质量阈值=25.0000(默认值=75.000000)
·杂合子响应的最大值=0.99000(默认值=0.900000)
·模拟类型(0=杂合子,1=纯合子)=0
·完美响应质量阈值=0.500(默认值=2.000000)
-最终可靠性规则
·临近探针响应的最小值=1.0000(关闭过滤器)
·样本响应的最小值=1.0000(关闭过滤器)
上述设置在本应用中是重要的,因为通过默认牺牲生成的碱基响应数量目的为了生成最精确响应(例如,信噪比检测)建立起碱基响应算法。在本发明的应用中,该技术很少关注于获得信噪比检测要求的相同程度的精确度而代替的是扩大生成响应的数量使得经GDAS制备出最长段的邻接序列而保持必要特异性。
可以理解的,在本发明界定的范围内,上述列出的许可设置能个别改变或按照执行者的需要全部改变来获得最佳灵敏性/特异性协定。此外,可以理解的,上述设置是示范性的并且在没有改变本发明预期结果的情况下,每个设置可改变10%或更多(随参数而定)。
再测序病原菌辨识器(REPT)和备选、修改、研制
也依据本发明,它为来自碱基响应算法的序列信息,如应用于微阵列杂交模式,微阵列杂交模式用于鉴别单个病原菌。优选地,经再测序探针确定的靶点序列用于采用类似性搜索算法查询数据库。更优选地,该算法通常采用已使用的局部分析(例如,Smith-Waterman,BLASTN)序列分析算法来统计学上确定给定靶点序列对应于数据库记录中的特异性序列的概率(Korf,Yandell Sc Bedell,2003)。甚至更优选地,自定义算法确定了最适用于针对数据库记录产生有意义类似性搜索的子序列,数据库记录确定出自动提呈给类似性搜索的一套序列。然而,甚至更优选地,自动子序列分析算法为在本发明中描述的再测序病原菌辨识器(REPI)算法并且该序列数据库记录将存在于公众领域(例如,GenBank)和私人领域中。核酸序列类似性搜索算法的变化适合于在指定发明中使用,包括,但不限于华盛顿大学BLAST(WU-BLAST)、NCBI-BLAST、FastA、MPsrch、Scanps、和BestFit(Korf et al.,2003)。
REPI备选和变异
在描述的发明中,REPI(再测序病原菌辨识器)软件(参见,2004年9月15日提出的美国申请Serial No.60/609,918,和2004年11月29日提出的美国申请Serial No.60/631,460)被用于确定CustomSeq/GCOS/GDAS过程的碱基响应子序列将可能通过使用自定义滑窗算法返回显著性BLAST结果。随后,REPI自动返回BLAST输出给终端用户,随机安排对应于特殊微生物序列的给定碱基响应的可能性。低水平软件功能性类似于UNIX“核心”或UNIX计算机操作系统,因为所有较高水平功能和用户界面必须通过它进行再测序芯片分析。
REPI提供的低水平功能性将成为许多较大生物信息学任务的中枢,较高生物信息学任务将利用核酸的分散片断,或甚至氨基酸序列。在下列实施例中,本发明者提供了显示序列片段能自动连接单个病原菌的数据。在一些更优选的实施方案中,这种方法能被精确至病原菌混合物之间和病原菌之间的遗传重组之间进行更好地分析。在一种非常优选的实施方案中,分析软件将考虑自动检测在阵列的不同拼接区域上的重叠或同源序列片段,推断出病原菌的混合物。在一种甚至更精确的实施方案中,分析软件将确定不同拼接区域的序列输出,这些拼接区域不重叠但对应于可用于推断遗传重组发生的邻接序列。
例如,两株病毒的交叉传染可能产生基因重组,这个基因与病毒株除了5′端之外是同源的,所述5′端用另一种病毒株基因的对应部分取代。当这个新重组病毒基因组在再测序微阵列上被杂交,从相应的两个区域的产生信号。将需要自组装算法来构建显示出所有部分结合在一起形成完成靶点的病原菌模型。如果两个具有显著性重叠部分,可断定可能存在混合物。但如果没有重叠部分,将存在重组的可能性。重叠的程度(或缺乏重叠)将受到低浓度靶点和相对较小量的被填充拼接的影响。同样的原理甚至更容易应用,并得到更大的影响,在病毒上重组稳定并重复发生,如在流行性感冒中,病毒片断之间的重组规律性导致新病毒株的形成。事实上,这个被描述的REPI功能性将成为辨别病原菌混合物对重组的基础。
在另一种非常优选的实施方案中,REPI算法将考虑分析转录标记物(例如,RNA),这种转录标记物采用目前描述的类型微阵列进行再测序(经RNA杂交或互补cDNA)。在类似于上述描述的推论基因重组发生的方法中,转录序列也可被组装来确定病原菌存活能力和能作为传染标记物的转录编辑结果。
另一种REPI备选(估计样本中病原菌靶点数量)
不仅是本发明的方法能够在病原菌混合物和给定病原菌(本文中的别处描述的)范围内重组之间区分,它也将很有价值地提供给终端用户在再测序微阵列试验中被检测出的相对量病原菌的评价。尤其是,当病原菌基因组信号被检测出,临床医生(技师)指明原因和功效时,这将具有重大效用。
两种类型的数据可用于这个目的。首先是芯片上杂交的绝对强度。溶液中靶点的量和实际杂交的量和生成的信号之间存在非线性关系。然而,样本中靶点核酸量的评估可能经比对空白条件下制备的标准曲线来得到。信号强度数据容易从Affymetrix数据结构中的.CEL文件中得到,并且尽管.CEL文件内容在这个公开中没有使用,REPI的输出能容易修改包括.CEL文件的强度值。第二,碱基响应的百分率,如全部拼接区域尺寸的百分率和如筛选的满足滑窗算法的子序列范围内碱基响应的百分率,能用作浓度的测量。我们的结果显示出两种百分比度量随着靶点浓度降低而降低,尽管正确病原菌仍能被鉴别出。
病原菌检测的一般用途
在一种优选实施方案中,这里描述的本发明将用于病床装置(床上或床旁)中常见呼吸病原菌的常规诊断和监视。易于得到的样本(例如,鼻腔冲洗液、鼻腔拭子、咽喉拭子、唾液、或血液)将以简单方式进行处理来生成核酸分离,采用吸附法分离核酸,富集病原菌特异性靶点,采用无偏差(或全部)扩增法或多重PCR方法进行扩增,并且在洗涤和成像之前,在再测序微阵列上杂交最少时间。全部过程足够简单使得技术人员(普通医学技术人员)将能够在没有重大中断情况下以常规工作模式执行该试验。碱基响应将采用自定义算法或采用开发商指定的步骤来生成。REPI或其一些变异,将用于自动分析由微阵列生成的碱基响应,并且提供终端用户(例如,医师、疗养院、公共卫生官员、或其它决策者)传染性病原菌管理质量信息决定(例如,诊断、处理、 预见和爆发控制/污染测量),这些传染性病原菌成为疾病综合症和并发症的原因。这个分析将经使用嵌入式序列数据库而局部发生,嵌入式数据库经REPI被查询(例如,局部专有BLAST服务器)。除了提供常规诊断动能之外,微阵列也将携带标记物给高度不可能(例如,生物恐怖行动)病原菌,这种高度不可能病原菌将成为连累其他如公共健康官员的原因。然而,可以理解的,鼻腔冲洗液或咽喉拭子不可能成为生物恐怖试剂诊断的最佳样本类型并且可能需要分离样本类型。
同样在本发明界定的范围内,进一步证实了利用微阵列和本发明的方法,包括:
细节1:
患者借助T>100.5医学器械并具有呼吸道病症。取出鼻腔冲洗液和/或咽喉拭子。能通过这种路线鉴别的病原菌包括常见发生的病原菌,列在表1中。发热已经发现成为经培养分离呼吸病原菌重要标准并且文献证实在发热期间,病原菌浓度一般为峰值浓度。
对于生物恐怖试剂,文献中可利用的关于生物试剂集中释放之后,在呼吸分泌物中传染性滴度的信息很少。令人怀疑的是,气雾释放生物恐怖试剂在接触后的第一个24小时内将导致可检测滴度的生物体。在接触后的第一个24小时内的个体中,微阵列将适合鉴别常见病原菌的目的,这些常见病原菌可能被错误的怀疑为来自BT/BW试剂。接触显著性气雾释放的一部分个体将迅速显示出症状并且将在鼻孔中保留检测用的BT/BW试剂。对于疾病,例如天花,症状发作的潜伏期是比较长的,但病毒能从咽喉培养物分离出几天。
细节2:
个体已经病了几天并且最初不去门诊部,而选择自己用药医治。患者可能最初没有注意到发烧,但现在已经发烧并且有呼吸病症,担心不退烧。保健医生(HCP)察看患者并且确定适当的临床样本。如果患者显示出更严重,那么可进行胸透X-ray观察。引发较低呼吸道传染的常规有机体包括,但不限于:肺炎支原体、肺炎双球菌、肺炎衣原体、嗜肺军团菌、化脓性链球菌、流行性感冒A/B、RSV、副流感、金葡菌属、SARS。在关注的BT/BW试剂中,不正常的胸透x-ray能发现炭疽芽孢杆菌、天花、鼠疫杆菌、土拉热弗朗西斯菌。
对于常见呼吸道生物体,鼻腔冲洗液/咽喉拭子仍是适宜的样本技术,尽管一些从业者选择发送唾液样本。对于BT/BW试剂,唾液和血液是适宜的样本技术。
细节3:
正在爆发的已知试剂。微阵列能连续用于检测其他常见病原菌,但也可用于采用一些类型的适当样本筛选已知BT/BW试剂。其他的试验可能证明很便宜,但微阵列在病原菌鉴别的同时能提供法医信息和抗生素抗性数据
全面商业模式
再测序DNA微阵列和相关装置(包括其他类型的低容量微阵列或可供选择的序列探测器)将仅为一类综合病原菌诊断/监视系统的元件。这个系统将由诊断、信息学、流行病学成分构成。在诊断水平上,RPM(和辅助设备)将提供快速费用低廉的方法来提供传染性呼吸疾病的诊断、患者特殊治疗信息和预后信息(基于毒力和抵抗力标记)。这将表现出临床猜测的相应病症的一种或一些病原菌(例如,肺炎支原体和其他具有“步行性肺炎”表象的病原菌将通过获得细菌培养物进行测定,存在那种病原菌抗体,等等)诊断重点的改变和通过多重DNA微阵列实施以症状和器官系统或受影响系统为基础的不同测试。单一高度多重DNA阵列将附加地提供关于病原菌组群的诊断信息来治疗(例如,细菌,病毒,寄生虫,和真菌病原菌),通过减少因猜测因果剂而开出的药方的数量(例如,针对病毒性呼吸感染开出的抗生素将不起作用)产生丰富利润。附加的诊断应用可包括影响器官或器官系统(例如,呼吸系统、泌尿生殖系统、中枢神经系统,等)的所有病原菌,综合征(例如,在没有鉴别原因来排除所有潜在传染性疾病诱因的情况下,医院内评估的持续两周且原因不明的发烧),症状(例如,引发风疹或发痒皮疹,或咳嗽等的所有病原菌),四周收集地理位置存在的病原菌或威胁,或功能类别(例如,以耐抗菌剂的所有有机体为基础分组或其他受限定位像监狱或疗养院)。高度多重不同诊断测试将通过确定传染病病因、药剂抗菌感受性、和关于药剂性质的基因组序列特异性线索来实施,使得有大量机会被确定来提高临床治疗的功效和效率。
然而,因为进行大量特异性分子查询,大量病原菌被发现,每种具有先前难以达到的详细水平。同样地,作为现在正在与诊断同时执行的“监视”活动的一部分,避免需要通常要求临床水平的繁重且花费大的任务用于监视支持,大量试验(培养、按血清分类,和PCR确认)被随后和偶尔实施。这将与以某种方式对RNA病毒(例如,流行性感冒和SARS)变异体诊断和监视密切相关,当取决于特异性寡核苷酸探针位点时,这种方式将相当复杂。
在这里描述的特殊实施方案中,拥有诊断微阵列将高度有利,微阵列的制备将不取决于大量靶点序列的可利用性和采用它们制备阵列的方法。更重要地,不限制靶点序列是不变的假设是关键的。在没有要求重设计特异性寡核苷酸探针和阵列重新制作的情况下,DNA微阵列的诊断将鉴别特异性但非预期的模式病原菌基因组变异体。对于表征传染性疾病以时效性方式暴发的能力是关键性的。例如,在没有要求分离病原菌,进行培养,和采用常规方法测序的情况下,这种微阵列能用于快速检测出流行性感冒或SARS病毒的新型变异;如果病原菌是容易培养的,这个过程将需要几个星期到几个月时间。
本发明也包括监测病原菌混合物的应用,尤其当没有初步证据说明提示该混合物可能通过特异性试剂(例如,PCR引物)进行问诊。因此,本发明提供了一种方法来影响确定疾病病原学中影响病原菌的互补作用的能力。然而,在应用中例如病毒或细菌原种质量控制和病毒疫苗生产的评价,涉及本地株的内部混合物和生成重组的可培养病毒。从而,本发明能够提出疫苗功效的正确适宜表位。
该系统的信息学组成将提供必要组成来实施局部(床旁诊断)、自动化微阵列数据分析以及协同多方向信息传递。“上游”流信息将从再测序芯片,优选以FASTA形式,和所有相关局部处理结果,转移特异性序列碱基响应到地方、区域、国家和国际水平。信息的“测流”将涉及特异性序列碱基响应地交换和其他局部床旁医疗设备的相关局部处理结果。“下游”流信息定义为区域和地方卫生部门的国家级数据集成。
像临床样本,环境样本可包含少量的来源不明的高度基因组背景中的靶点核酸。但不像给定类型的临床样本,环境样本(例如,土壤,水,或气溶胶粒子收集器中收集到的)中发现的背景可能显示出取决于地理位置、季节、和环境条件的异质成分。因此,上述提到的扩增、富集和/或消减策略可用于获得可靠的碱基响应。
法医和环境应用
RPM提供的详细序列信息的数量将能用于多种应用除了医疗诊断和监视。因此,该设备性能扩展到特异性病原菌株的法医指纹识别。这种性能实现了传染性疾病病因学的预先诊断,作为确定诊断分析的可供选择的常规工作。在有意传染、投毒、或生物恐怖活动的事件中,再测序病原菌检测微阵列将考虑用于详细的菌株识别来确定事件的可能主因和通过实施公共卫生防范措施迅速缓解事件(例如,确定传染性能力,抗微生物抗性,或对有机体的基因工程改变),作为疾病发作研究过程的第一步,直接鉴别菌株病原菌。
本发明进一步提出了自动化和最优化迭代和自适应设计、制备和确认阵列,包括派生的子阵列的方法和步骤。在一种非常优选的实施方案中,企业级、病原菌专家团队将操作支持web portal数据库。该团队将具有鉴别和毒力的病原菌靶点序列。
本发明中描述的同一技术能用于非临床样本,包括从空气、水、土壤或表面拭子收集的样本。本发明中描述的进行必要的修改对于核酸提取和背景核酸的除去是必要的,如果消减方法随后进行遗传扩增是理想的方法。
人群中多重病原菌监视
本发明进一步提供了一种特殊执行,这种执行验证了其在现实操作设置中的能力。这个执行是关于急性呼吸疾病的流行性爆发,这种急性呼吸疾病包括常见和不常见病因学,而且同时评估在单独作用中恶意病原菌的可能表现(纵使有也是罕见的)。因此,发明提供了执行导致传染性发作的多数具有传染性病原菌的近实时监视的方法。这种监视可被验证并最终变成在“现实实验床”上进行操作。在一种优选实施方案中,现实实验床为人群,这种人群规律性地遭遇许多呼吸病原菌。在一种优选实施方案中,人群由部队人员构成。在一种优选实施方案中,人群由现役军人构成。
终端用户具体应用
微阵列设计和试验的综合过程将仅需要将序列提供给微阵列厂商,不涉及辅助试剂(例如,特异性PCR用的辅助试剂)。因此,终端用户不具备基因组的详细知识,将能够确定微阵列试验的定性作用,并且自动化生物信息学流水线将用于筛选提呈给再测序微阵列厂商的适宜靶点基因子序列。这将使用于特殊地理位置战区的新颖微阵列设计迅速发展。因此,本发明综合的设计/分析能力将普遍适用于除这里列出的其他想象到的应用。
腺病毒序列-
本发明的另一种实施方案为十三株腺病毒的基因组序列,其在本发明日期时未知,。十三株腺病毒为:Ad3、Ad3FS_navy、Ad4、Ad4vaccine、Ad4FS_navy、Ad4FS_AF、Ad5FS、Ad7、Ad7FS_navy、Ad7 vaccine、Ad16、Ad1、和Ad21。这些基因组序列已经被指定了GenBank登录号,在实施例的表6中表示出。全部GenBank记录,包括部分注释,这些序列的每一种可在序列附表中找到。
如这里使用的“多肽”可被理解为是指一些肽键结合的氨基酸残基的序列。这种氨基酸在本领域中是众所周知的并且包括未修饰和修饰的氨基酸。此外,一种或一种以上本领域中周知的修饰如糖基化、磷酸化等可修饰多肽。
术语“分离的”意指从其自然环境中被分离出。这个术语是为了也包括术语“纯化的”(100%纯净)和“大体上纯化的”(至少90%纯净)。
术语“聚核苷酸”一般统指多聚核糖核苷酸和多脱氧糖核核苷酸,并且能表示未修饰RNA或DNA或修饰的RNA或DNA。
如这里使用的术语“同源的”可理解为意指两个或多个聚核苷酸或同一物种或不同物种的蛋白之间的序列类似性。在这个术语的含义内,依据本发明,当候选序列的核苷酸碱基(氨基酸)组成至少70%,优选至少80%,最优选至少90%对应于该序列时,上述两个或多个聚核苷酸(或蛋白质)是同源的。依据本发明,“同源蛋白质”可理解为保持至少50%,优选至少75%,更优选至少85%,最优选至少95%的本发明序列的活性。如这里使用的“对应”可理解为对应氨基酸或者是同样的或者是相互同源的氨基酸。表达为“同源氨基酸”表示具有相应性质,尤其关于其电荷、憎水性、位阻性质等。相同命名法能用于描述编码相应蛋白质的基因序列的DNA或RNA序列同源性。
在这里使用的术语“同源片段”可理解为来自同一种类或不同种类的两个或多个聚核苷酸或蛋白质。在上下文中,可预期的是,当这个片段与具有至少50个氨基酸的片段至少40%同源,那么这个片段是同源的。更优选的,同源片段与具有至少50个氨基酸的片段至少60%同源,至少70%同源,至少80%同源,至少90%同源,或至少95%同源。因此,同源片段包括在本发明的范围内。对于同源的聚核苷酸,可以理解的,相同同源性范围在本发明的预想之内但超过1000个核苷酸的范,包括所有整数(例如,150、250、300、500、750,等)。
同源性,核苷酸或氨基酸序列的序列相似性或序列同一性可采用已知软件或计算机程序如BestFit或Gap成对比对程序(GCG Wisconsin Package,Genetics Computer Group,575 Science Drive,Madison,Wisconsin 53711)常规确定出。BestFit使用Smith和Waterman的局部同源性算法(Advances inApplied Mathematics 2:482-489(1981))来找出两个序列之间的同一性或相似性的最佳片断。Gap采用Needleman和Wunsch的方法(the method ofNeedleman and Wunsch,J.MoI.Biol.48:443-453(1970))执行全局分析:一种序列的全部和另一种相似序列的全部。当采用序列分析程序如BestFit,确定序列同源性、相似性或同一性的时候,可采用缺省设置,或者适当的记分矩阵可筛选最佳同一性、相似性或同源性分数。相似性,当采用程序如BestFit确定两个氨基酸序列之间的序列同一性、类似性或同源性时,可使用缺省设置,或者适当的记分矩阵,例如blosum45或blosum80,可筛选最佳同一性、相似性或同源性分数。
本发明也关于包含完整基因的聚核苷酸,通过开放阅读框鉴别出该完整基因。在序列附表中可找到包括在本发明内的优选基因的实施例包括E1A、六邻体、和纤毛,以及本发明范围内的其他优选聚核苷酸序列。本发明也包括上述基因片段和聚核苷酸和其片段,聚核苷酸和其片段能通过用探针杂交相应基因库进行筛选而获得,该探针包含上述寡核苷酸或其片段的序列,和上述DNA序列的分离物。
本发明也关于编码DNA序列,该DNA序列由遗传密码的变性得到。此外,本领域中的技术人员也明白保守氨基酸取代如在蛋白质中丙胺酸取代甘氨酸或用谷氨酸取代天冬氨酸,如“同义突变”不导致蛋白质活性的任何基础改变,例如功能上中性的。也应知道,蛋白质N-和/或C-末端的改变大体上不削弱其功能,并且甚至可能稳定上述功能。
依据本发明的寡核苷酸序列适合作为RNA、cDNA和DNA的杂交探针,为了分离这些cDNAs或基因,cDNAs或基因显示出高度相似性探针序列。
依据本发明的寡核苷酸序列适合作为聚合酶链反应(PCR)的引物用于生产编码活性酶的DNA。
寡核苷酸如那些作为探针或引物,能包含多于30个,优选等于30个,更优选等于20个,甚至更优选至少15个,最优选至少13个连续核苷酸。长度至少40个到50个核苷酸的寡核苷酸也适合。
杂交方案在本技术领域中是周知的并且在如in Sambrook et al.,MolecularCloning:A Laboratory Manual,Cold Spring Harbor Laboratory,New York(1989)中进行了公开。然而,如这里使用的,严格杂交条件是在聚核苷酸之间进行杂交的那些条件,采用常规同源性程序确定的这些寡核苷酸为75%、80%、85%、90%、95%或98%同源的,常规同源性程序的一种实施例为Wisconsin大学的UWGCG序列分析程序(Devereux,Haeberli&Smithies,1984)。通常地,严格条件为,pH值为7.0到8.3时,盐浓度小于约1.5M Na离子,通常约0.01到1.0M Na离子浓度(或其他盐)并且对于短探针(例如,10到50个核苷酸),温度至少约30℃,并且对于长探针(例如,大于50个核苷酸),温度至少约60℃。严格条件也可外加破稳定剂如甲酰胺而得到。示范性低严谨条件包括在37℃下,采用30到35%甲酰胺缓冲溶液,1M NaCl,1%SDS(十二烷基硫酸钠)进行杂交,并且在50到55℃下,1X到2X SSC(20X SSC=3.0M NaCl/0.3 M柠檬酸三钠)进行洗涤。示范性适度严谨条件包括在37℃下,在40到45%甲酰胺,1M NaCl,1%SDS中进行杂交,并且在55到60℃下,在0.5X到1X SSC中进行洗涤。示范性严谨条件包括在37℃下,在50%甲酰胺,1M NaCl,1%SDS中进行杂交,并且在60到65℃下,在0.1X SSC中进行洗涤。
特异性通常为杂交后洗涤的功能,关键性因素为离子强度和最终洗涤溶液的温度。对于DNA--DNA杂交,Tm能接近于Meinkoth和WaM方程,(Meinkoth&WaM,1984):Tm=81.5℃+16.6(log M)+0.41(%GC)-0.61(%form)-500/L;M为单价阳离子摩尔浓度,%GC为DNA中鸟嘌呤核苷和胞嘧啶核苷酸的百分比,%form为杂交溶液中甲酰胺的百分比,并且L为碱基对中杂交的长度。Tm为在50%的互补靶点序列杂交到完美匹配的探针的温度(在规定离子强度和pH下)。每1%的错配,Tm减少约1℃;因此,Tm,杂交和/或洗涤条件能调整来杂交预期同一性的序列。例如,如果约90%同一性的序列被查询,Tm能降低10℃。通常地,选择的严谨条件比特异性序列热熔点(Tm)低约5℃,并且它的补体在规定离子强度和pH值条件下。然而,严格的严谨条件能在比热熔点(Tm)低1、2、3、或4℃下,进行杂交和/或洗涤;适度的严谨条件能在比热熔点(Tm)低6、7、8、9、或10℃下,进行杂交和/或洗涤;低严谨条件能在比热熔点(Tm)低11、12、13、14、15、或20℃下,进行杂交和/或洗涤。采用这个方程式,杂交和洗涤组合物,并且预期的Tm,那些普通技术人员将了解到,杂交和/或洗涤溶液的严谨条件的变化被描述出。如果预期程度的错配导致小于45℃(水溶液)或32℃(甲酰胺溶液)的Tm,优选增加SSC浓度使得较高温度能被采用。核酸杂交的广泛性指南在分子生物学,第2章中的通用方案中找到,Ausubel,et al.,Eds.,Greene Publishing and Wiley-Interscience,New York(2000)。
本发明中的“引物”或“探针”意指合成或生物制备得到的聚核苷酸,尤其寡核苷酸,包括特异性核苷酸序列并且杂交到含有靶点核苷酸序列的片段。
指定的引物或探针,以及所有其他的寡核苷酸和本发明的聚核苷酸,可通过任何一些众所周知的方法制备得到,这些方法包括采用氰乙基-亚磷酰胺引物的自动化固相化学合成。其他构建合成引物/寡核苷酸的众所周知的方法当然可被采用。J.Sambrook,E.F.Fritsch and T.Maniatis,MolecularCloning 11(2d ed.1989)。
用于扩增样本核酸的引物可连接到可被检测的基团上。这种可被检测基团的一种优选实施例为荧光素,其为采用激光作为检测体系,在核酸测序系统中使用的标准标记。其他可被检测标记也能被采用,包括其他荧光团、放射性标记、化学耦联剂如能用链亲和素链接酶检测的生物素,和表位附加标记如采用抗体检测的地高辛素。引物可被修饰,通过加入另一种核苷酸,除去,或取代寡核苷酸中至少一种核苷酸。引入已知标记如放射性物质、酶、荧光物质,等。合成寡核苷酸也包括在内。
相似地,探针/寡核苷酸编码用于与编码本发明多肽的聚核苷酸杂交,例如,给了检测这种聚核苷酸,可连接可检测基团。
如在这里使用的,术语“增加”意指增加植物细胞和/或植物中的一种或一种以上酶的分子内活性,该植物由相应的DNA编码。增加能通过不同处理细菌细胞而获得。为了获得增加,尤其过渡表达,相应基因拷贝的数量能被增加,能使用强大的启动子,或启动子-和调控区或核糖体结合位点,该核糖体结合位点位于可突变的结构基因上游。加入到结构基因上游的表达框以同样的方式活动。此外,通过采用诱导启动子可能增加表达。编码具有高度活性的相应酶的基因也能被使用。也能通过扩大mRNA的生命力的措施提高表达。此外,阻止酶的变性总体上提高了酶活性。此外,这些措施能选择性地以任何理想方式进行组合。
编码相应或具有高度活性的变异体的基因也能被使用。优选地,相应的酶比天然形式的酶具有更大活性,更优选地至少在5%、10%、25%、或50%范围内的更大活性,最优选大于天然形式酶活性的两倍。
本发明的上面描述提供了制备和使用它的方式和方法使得本技术领域中任何技术人员能够制备出和使用相同的,这个方法特别提供为附加权利要求的主旨,构成独创性描述的一部分。
如在这里使用的,短语“选自由构成的组”、“选自”、和类似短语包括指定材料的混合物。
数字限制或范围在这里进行了陈述,端点包括在内,数字限制或范围内的所有值和子区明确包括在内,明确写出。
上述被提出的描述使本领域中的技术人员能获得和使用本发明,并且在特殊应用和其要求的背景中被给出。优选实施方案的不同修改将对本技术领域中的那些技术人员是显而易见的,并且在没有背离本发明界定的精神和范围的情况下,这里确定的遗传原理可用于其他实施方案和应用中。因此,本发明并不被实施例描述的限制,而是为了符合于这里公开的最宽范围一致的原理和特征。
根据这里对本发明的描述,通过参考某些特异性实施例能进一步了解本发明,这里提供的特异性实施例仅为了举例说明,除非另外详细说明不是为了限制本发明。
实施例
原料和方法-
表6(下面)列出了下面实施例中引用的腺病毒菌株。GenBank登录号统指分配给每个菌株的基因组序列号。这些序列在发明时间公众不能利用,并且这些序列形成了本发明的实施方案,以及相同的片段。
表6:
GenBank名称 | 登录号 | 基因组尺寸 | 来源 |
Ad3 | AY599834 | 35,345 | ATCC#,GB株 |
Ad3FS_navy | AY 599836 | 35,265 | 来自 NTC Great Lakes,IL11/07/97的Ad3FS NHRC#1276 |
Ad4 | AY 594253 | 35,990 | NTCC#VR-4,RI-67株 |
Ad4vaccine | AY 594254 | 35,994 | 加利福尼亚公众健康(经KevinRussell/NHRC) |
Ad4FS_navy | AY 599835 | 35,965 | 来自Ft Jackson,SC 04/02/03的Ad4FS NHRC#42066 |
Ad4FS_AF | AY 599837 | 35,964 | Linda Canas,Brooks AFB,Lackland AFB AF#3 2002 |
Ad5FS | AY 601635 | 35,931 | 来自Ft Jackson,SC 01/06/98的Ad5FS NHRC#7151 |
Ad7 | AY 594255 | 35,305 | ATCC#AV-HAD7_AFIP,Gomen株 |
Ad7FS_navy | AY 601634 | 35,198 | 来自NTC Great Lakes,IL11/07/97的Ad7FS NHRC#1315 |
Ad7 vaccine | AY 5944256 | 35,236 | NHRC疫苗药片 (MargaretRyan,Kevin Russell/NHRC) |
Ad16 | AY 601636 | 35,522 | ATCC#VR-17,ch79株 |
Ad1 | AF 534906 | 36,001 | ATCC#VR-1,Adenoid71 株1953 |
Ad21 | AY 601633 | 35,382 | ATCC#NIAID V-221-002-014,NIH研究试剂,1963年11月制 |
ATCC=美国典型培养物保藏中心(Manassas,VA)
NHRC=海军健康研究中心(San Diego,CA)
NIH=国家健康研究所(Bethesda,MD)
这些中每一种的全部GenBank记录,包括局部注释,在序列附录中找到。
流行性感冒包含物
由RPMV1上的拼接表示的原形流行性感冒类型为:
甲型流行性感冒病毒(A/New Caledonia/20/99)血球凝集素1的H1 HA基因,
FluAHA3甲型流行性感冒病毒(A/Fujian/411/02)血球凝集素3的H3N2基因,
FluAHA5甲型流行性感冒病毒(A/HongKong/156/97/H5N1),血球凝集素5
FIuANA1流行性感冒(A/Chile/1/83),神经氨酸酶1
FluANA2甲型流行性感冒病毒(A/Panama/2007/99/H3N2)神经氨酸酶2的NA基因,
FluAMATRIX流行性感冒A/NWS/33/H1N1基体蛋白(M)
FIuBNA乙型流行性感冒病毒(B/Yamagata/16/88),神经氨酸酶糖蛋白基因
FIuBNA乙型流行性感冒病毒(B/Yamanashi/166/98)血球凝集素1亚单位(HA)
FluBMATRIX乙型流行性感冒病毒(B/Yamagata/16/88)M1基体蛋白(M)
前述序列中每一种的登录号,以及存储的病原菌靶点序列,从公共领域和个人信息中得到,列在表9中。
制备实施例1:RPM版本1芯片设计
DNA序列提呈给Affymetrix制备下列实施例中利用的再测序微阵列芯片(RPM版本1芯片)。DNA序列的提交和Affymetrix使用说明是依据厂商说明书CustomSeqTM阵列方案和产品参考文献。探针长度正常为25个核苷酸并且包含正义和反义方向的各自四个可能变异体(A、C、T或G)的可变(查询点)主要核苷酸。
上面列出的筛选给RPMV1病原菌的靶点基因在表8中显示出的版本1设计中进行了描述并且序列列表连同各自PCR引物用于相同的扩增。提呈给拼接和芯片制备的序列是以表7中总结的Affymetrix说明书为基础,对应于SEQ ID NOs:1-58中出现的序列。相应“说明书”列出了每个拼接区域的其他指示符(e.g.FluAHA5)并且提供了″FASTA″形式的靶点基因序列(这能成为全长靶点基因的全部或部分)。
表7:RPMV1拼接和芯片制备的Affymetrix说明书文件
名称 | Alias | 起始 | 结束 | 序列号 | 起始序列 | 终止序列 | 设计 |
FluAHA1 | FluAHA1 | 1 | 699 | 1 | TTGAGAAG | ATGGTATG | 1 |
FluAHA3 | F1uAHA3 | 1 | 794 | 2 | GATAGTGA | AAGCATTC | 1 |
FluAHA5 | FluAHA5 | 1 | 524 | 3 | AATCCACT | GCTCCAAT | 1 |
FluANA1 | FluANA1 | 1 | 1360 | 4 | AAAAGCAG | TTTTGTGG | 1 |
FluANA2 | FluANA2 | 1 | 1449 | 5 | GCAAAAGC | TAGAAAAA | 1 |
FluAMATRIX | FluAMATRIX | 1 | 923 | 6 | AGCAAAAG | TGCCAGAG | 1 |
FluBHA | FluBHA | 1 | 684 | 7 | TTACATCC | AGCCATAG | 1 |
FluBNA | FluBNA | 1 | 896 | 8 | ATGAACAA | CAGTTACA | 1 |
FluBMATRIX | FluBMATRIX | 1 | 362 | 9 | ATGTCGCT | CATGAAAG | 1 |
Ad4HEXON | Ad4HEXON-1 | 1 | 1096 | 10 | GTGGCGCC | TAAAGTTA | 1 |
Ad4HEXON | Ad4HEXON-2 | 2226 | 2504 | 10 | CGAGGTTA | GCCCACGC | 1 |
Ad4FIBER | Ad4FIBER | 1 | 1258 | 11 | CGACCCCG | ACCCTGCA | 1 |
Ad4E1A | Ad4E1A | 1 | 1326 | 12 | GCGGGGCA | CCCAGGCA | 1 |
Ad5HEXON | Ad5HEXON-1 | 1 | 843 | 13 | GTGGCGCC | ATTGCTTT | 1 |
Ad5HEXON | Ad5HEXON-2 | 1655 | 1846 | 13 | GACCTAAG | CCAACGTG | 1 |
Ad5FIBER | Ad5FIBER | 1 | 2012 | 14 | TTCTGTCC | AGATCACC | 1 |
Ad5E1A | Ad5E1A | 1 | 616 | 15 | AGCCGGAG | CTGTGGAA | 1 |
Ad7HEXON | Ad7HEXON-1 | 1 | 807 | 16 | GTGGCGCC | ATTGGCTT | 1 |
Ad7HEXON | Ad7HEXON-2 | 1652 | 2245 | 16 | TCTGTATG | AATTACAC | 1 |
Ad7FIBER | Ad7FIBER | 1 | 712 | 17 | CCTTCAAC | AATGTTAA | 1 |
Ad7E1A | Ad7E1A | 1 | 615 | 18 | AAGAGTTT | ACTGCCAC | 1 |
PIVIHN | PIVHN | 1 | 204 | 19 | TAGACCCA | TATAGGGA | 1 |
PIVIIIHN | PIVIIIHN | 1 | 213 | 20 | CAAATCTA | TGAAAGAT | 1 |
PIVIIINCFP | PIVIII5NCFP | 1 | 230 | 21 | ACTTAGGA | TTACAACC | 1 |
HRV5NT | HRV5NT | 1 | 412 | 22 | GTCAAAGG | TCCTGTTT | 1 |
RSVABL | RSVABL | 1 | 379 | 23 | AAGTGCTC | AAGCAAAC | 1 |
RSVAN | RSVAN | 1 | 106 | 24 | AATACAAA | AGATAGTA | 1 |
RSVBN | RSVBN | 1 | 128 | 25 | GGCAAATA | CAATTATG | 1 |
WNVCPRM | WNVCPRM | 1 | 432 | 26 | GGCCAATA | TGATCCAG | 1 |
WNVE | WNVE | 1 | 94 | 27 | ATTTGGCT | TTTGTGTG | 1 |
WNVNS1 | WNVNS1 | 1 | 153 | 28 | GAAGCTTG | GGGTACAA | 1 |
HCV229EMG | HCV229EMG | 1 | 598 | 29 | TAGAACAG | TAACCTAC | 1 |
HCVOC43MG | HCVOC43MG | 1 | 358 | 30 | TGATTATT | TATATGAC | 1 |
SPNLYTA | SPNLYTA | 1 | 125 | 31 | TATCGAAC | CTCAGACC | 1 |
SPNPLY | SPNPLY | 1 | 99 | 32 | GGTTTGGC | ATCAAGAT | 1 |
SPYSPEB | SPYSPEB | 1 | 281 | 33 | AATCTTTT | TAGACATG | 1 |
SPYMEFAE | SPYMEFAE | 1 | 370 | 34 | GGCAGGGC | TTACGAAA | 1 |
SPYERMB | SPYERMB | 1 | 248 | 35 | AACTGATT | TAGAATCC | 1 |
SPYERMTR | SPYERMTR | 1 | 176 | 36 | CAACGGGT | GATATTGT | 1 |
MPP1 | MPP1 | 1 | 369 | 37 | AGGGGGTT | ACTATGTT | 1 |
NMCTRA | NMCTRA | 1 | 135 | 38 | TTGGATGC | TTTTGCTG | 1 |
NMCRGA | NMCRGA | 1 | 254 | 39 | GGTGCTGC | TGCCGGTC | 1 |
BPPTXP | BPPTXP | 1 | 305 | 40 | GAAGTAGC | CAAACCGC | 1 |
BPPTXS1 | BPPTXS1 | 1 | 222 | 41 | CGGCGCAT | AGGCCGAA | 1 |
CPMOMPVD4 | CPMOMPVD4 | 1 | 150 | 42 | ATGCTGAT | TCAGATCA | 1 |
CPMOMPVD2 | CPMOMPVD2 | 1 | 133 | 43 | AGCGTTCA | TAGGCGCT | 1 |
CPRPOB | CPRPOB | 1 | 346 | 44 | AAGGACTT | CTGCAGGC | 1 |
BARPOB | BARPOB | 1 | 199 | 45 | CGTCCTGG | GGCAGAAG | 1 |
BAPAGA | BAPAG | 1 | 354 | 46 | TAGCGGCG | TAATTCGT | 1 |
BACAPB | BACAPB | 1 | 246 | 47 | TTACACGT | ACCTATTA | 1 |
VMVHA | VMVHA | 1 | 510 | 48 | AACTATTA | TCACCAAC | 1 |
VMVCRMB | VMVCRMB | 1 | 291 | 49 | TCGGGAAC | CGTCTGTT | 1 |
ZEVL | ZEVL | 1 | 443 | 50 | TACTACCA | TCACACTG | 1 |
LVGPC | LVGPC | 1 | 351 | 51 | GCGCACCG | GTGGGCAA | 1 |
FTLP | FTLP | 1 | 431 | 52 | ATCGTAAT | TAAGTATG | 1 |
FTFOPA | FTFOPA | 1 | 111 | 53 | CAGATATA | GATACTAC | 1 |
YPCVE | YPCVE | 1 | 265 | 54 | ATAAAGGG | AGGCGGGG | 1 |
YPCAF1 | YPCAF1 | 1 | 525 | 55 | TATGAAAA | ATATAGAT | 1 |
ATTIM | ATTIM | 1 | 523 | 56 | ACATCGAC | GAGCTTGC | 1 |
ATNAC1 | ATNAC1 | 1 | 543 | 57 | TATATGTA | ATTGTACA | 1 |
Ad7HEXVAC | Ad7HEXVAC | 168 | 383 | 58 | GGTGCTTG | AAGCCCAT | 1 |
表8:RPMV1设计,通过扩增用的各自PCR引物进行
序列 前导 逆向 Taqman
扩增 中 引物 探针 探针
有机体 基因名称 子 探针 基因 (SEQ ID NO:) Size %GC Tm (SEQ ID NO:) Size %GC Tm (SEQ ID NO:) Size %GC Tm
流行性感冒A 血球凝集素1 675 699 1 439 23 47.8 54.8 505 24 33.3 55.6
流行性感冒A 血球凝集素3 770 794 2 440 24 33.3 57.6 506 22 36.4 55.9
流行性感冒A 血球凝集素5 500 524 3 441 26 42.3 59.8 507 26 42.3 58.7
流行性感冒A 血球凝集素5 219 442 26 30.8 58.9 508 24 45.8 58.5
流行性感冒A 神经氨酸酶1 1336 1360 4 443 22 22.7 54.2 509 18 55.6 53.5
流行性感冒A 神经氨酸酶2 1434 1449 5 444 22 45.5 57.9 510 23 39.1 57.8
流行性感冒A 基体基因 911 923 6 445 20 40 55 511 571 20 55 62
流行性感冒B 血球凝集素 660 684 7 446 22 45.5 55.5 512 24 47.9 57.5
流行性感冒B 神经氨酸酶 881 896 8 447 25 32 56.3 513 22 45.5 56
流行性感冒B 基体基因 338 362 9 448 24 45.8 59.9 514 25 36 59.6 572 22 54.5 63.4
腺病毒5 六邻体 819 843 13 449 515
腺病毒5 六邻体 168 192 13 450 24 45.8 57.6 516 24 54.2 58.5
腺病毒5 纤毛 1988 2012 14 451 22 45.5 55.9 517 20 60 61
腺病毒5 E1A 171 452 24 54.2 61.5 518 21 66.7 61.3
腺病毒5 E1A 431 616 15 453 23 56.5 59.7 519 21 57.1 57.3
腺病毒4 六邻体 764 1096 10 454 520
腺病毒4 六邻体 255 279 10 455 18 61.1 63 521 18 66.7 62
腺病毒4 六邻体 511 456 19 57.1 66 522 18 50 64
腺病毒4 纤毛 967 457 20 55 57.8 523 21 47.6 54.9
腺病毒4 纤毛 435 1258 11 458 524
腺病毒4 E1A 844 459 22 45.5 57.1 525 19 59.9 59.6
腺病毒4 E1A 878 460 23 56.5 612 526 25 48 60.6
腺病毒4 E1A 409 1326 12 461
腺病毒7 六邻体 744 798 16 462 527
腺病毒7 六邻体 570 594 16 463 24 61.6 60.5 528 24 50 60.3
腺病毒7 纤毛 688 712 17 464 23 41.3 54.7 529 23 47.8 58.2
腺病毒7 E1A 205 465 20 65 62 530 23 60.9 61.3
腺病毒7 E1A 428 615 18 466 531
腺病毒7 HEXVAC
副流行性感冒病毒
1 HN 180 204 19 467 27 48.1 62.8 532 28 35.7 58.2
副流行性感冒病毒 HN 189 213 20 468 21 47.6 48.5 533 21 42.9 49.5
III
副流行性感冒病毒 融合蛋白5′无 206 230 21 469 21 38.1 46.3 534 20 40 48
III 编码区
人鼻病毒 5′无编码区 388 412 22 470 16 56.2 44.9 535 16 56.2 43.8
RSV(A,B) L-聚合酶 355 379 23 471 19 36.8 43.9 536 19 36.8 42.9
RSV(A) 大壳包核酸,N 82 106 24 472 26 38.5 57.3 537 21 47.6 54.3
RSV (B) 大壳包核酸,N 104 128 25 473 26 38.5 58 538 30 33.3 59.1
西尼罗病毒 C和prM 408 432 26 474 25 48 62.6 539 25 56 64.9
西尼罗病毒 E 70 94 27 475 21 52.4 53.8 540 21 52.4 53.8
西尼罗病毒 NS1 129 153 28 476 21 52.4 53.2 541 21 47.6 54.3
人冠状病毒 膜 574 598 29 477 20 40 53.7 542 20 50 51.9
(229E) 糖蛋白
人冠状病毒 膜 334 358 30 20 55 55 543 20 45 53.7
(OC43) 糖蛋白
肺炎链球菌属
自溶素,lytA 105 125 31 478 21 47.6 52.7 544 21 42.9 53.2
肺炎链球菌属
肺松解术,ply 75 99 32 479 22 50 56.3 545 23 43.5 58
肺炎支原菌属 细胞粘附素P1
蛋白 345 369 37 480 24 58.3 63.8 546 25 52 60.8
脑膜炎 荚膜转移蛋白
奈瑟氏球菌 (ctrA)基因 111 135 38 481 19 57.9 53.2 547 20 45 54.4
脑膜炎 调控蛋白,
奈瑟氏球菌 crgA 230 254 39 482 25 60 73.6 548 24 62.5 69.4
百日咳博德特氏菌 百日咳毒素
启动子区域 281 305 40 483 22 72.7 69.6 549 20 55 59.1
百日咳博德特氏菌 百日咳毒素S1
亚单位ptxS1 198 222 41 484 18 61.1 56.2 550 19 63.2 58.6
肺炎衣原体属 大外层膜蛋白
(MOMP)VD4 126 150 42 485 16 62.5 50.3 551 25 32 55.5
DNA定向
肺炎衣原体属 RNA聚合酶
(rpoB) 322 346 44 486 21 42.9 52 552 20 50 49.2
肺炎衣原菌属 大外层膜蛋白
(MOMP)VD2
酿脓 致热外毒素B
链球菌 (speB)
大环内酯外排
酿脓决定簇
链球菌 (mefA,mefE)
红霉素
酿脓 耐药
链球菌 甲基酶(ermB)
酿脓
链球菌 erm(TR)
RNA聚合酶
β-亚单位
炭疽杆菌 (rpoB)
保护性抗原
炭疽杆菌 (pag)
聚(D-麸胺基酸)
荚膜
炭疽杆菌 (capB)
血球凝集素
大天花病毒 (HA)
细胞因子反应
修饰物B(crm
大天花病毒
P)
埃博拉病毒 L基因
沙拉热病毒 GPC基因
土拉弗朗西斯菌
13-kDa脂蛋白
土拉弗朗西斯菌
FopA
鼠疫杆菌 cve2155序列响应
鼠疫杆菌
Arabisopsis thaliana TIM
Arabisopsis thaliana NACl
说明书参考了相同的其他指示符,但进一步指定出实际子序列,该子序列实际上被拼接到阵列上。在最可能情况中,这个表示序列表中的整个序列但在其他情况中(例如,FluBMATRIX)仅全部序列的核苷酸1-362用于拼接。表9提供了在说明书中介绍的信息。
表9(下面):RPM V1设计说明书的用法说明。其他指示符为分配给每个不连续“拼接”区域(例如,微阵列含有所有探针组合得几何区域,该探针组合为一段病原菌基因组序列再测序所必需的)的名称。病原菌,序列登录号,和每个拼接区域的拼接尺寸被列出。说明书,以Affymetrix提交形式进行修改,在表7中列出。说明书参考了全部靶点基因的全部或部分序列,该全部靶点基因可在序列附表中显示的SEQ ID NOs:1-58中找到。
表9:RPMV1芯片表
ALIAS | 名称 | 基因名称 | 登录号 | 长度 |
ATNAC1 | Arabisopsisthaliana | NAC1 | 543 | |
ATTIM | Arabisopsisthaliana | TIM | 523 | |
Ad4E1A | 腺病毒4 | E1A | AF594253(draft) | 1326 |
Ad4FIBER | 腺病毒4 | 纤毛 | AF594253(draft) | 1258 |
Ad4HEXON-1 | 腺病毒4 | 六邻体 | AF594253(draft) | 1096 |
Ad4HEXON-2 | 腺病毒4 | 六邻体 | AF594253(draft) | 279 |
Ad5E1A | 腺病毒5 | E1A | AY147066 | 616 |
Ad5FIBER | 腺病毒5 | 纤毛 | M18369 | 2012 |
Ad5HEXON-1 | 腺病毒5 | 六邻体 | AF542130 | 843 |
Ad5HEXON-2 | 腺病毒5 | 六邻体 | AF542130 | 192 |
Ad7E1A | 腺病毒7 | E1A | AY594255(draft) | 615 |
Ad7FIBER | 腺病毒7 | 纤毛 | AY594255(draft) | 712 |
Ad7HEXON-1 | 腺病毒7 | 六邻体 | AY594255(draft) | 807 |
Ad7HEXON-2 | 腺病毒7 | 六邻体 | AY594255(draft) | 594 |
Ad7HEXVAC | 腺病毒7 | 六邻体 | AY594256(draft) | 216 |
BACAPB | 炭疽杆菌 | 聚(D-谷氨酸)荚膜(capB) | M24150 | 246 |
BAPAG | 炭疽杆菌 | 保护性抗原(pag) | M22589 | 354 |
BARPOB | 炭疽杆菌 | RNA聚合酶β-亚单位(rpoB) | AF205323 | 199 |
BPPTXP | 百日咳博德特氏菌 | 百日咳毒素启动子区 | M13223 | 305 |
BPPTXS1 | 百日咳博德特氏菌 | 百日咳毒素S1亚单位ptx S1 | M13223.1 | 222 |
CPMOMPVD2 | 肺炎衣原体 | 大外层膜蛋白(MOMP)VD2 | CP0694 | 133 |
CPMOMPVD5 | 肺炎衣原体 | 大外层膜蛋白(MOMP)VD4 | M69230 | 150 |
CPRPOB | 肺炎衣原体 | DNA定向RNA聚合酶(rpoB) | NT01CP0714 | 346 |
FluAHA1 | 流行性感冒A | 血球凝集素1 | AJ344014 | 699 |
FluAHA3 | 流行性感冒A | 血球凝集素3 | 专有通讯 | 794 |
FluAHA5 | 流行性感冒A | 血球凝集素5 | AF028709 | 524 |
FluAMATRIX | 流行性感冒A | 基体基因 | L25814 | 923 |
FluANA1 | 流行性感冒A | 神经氨酸酶1 | M24783 | 1360 |
FluANA2 | 流行性感冒A | 神经氨酸酶2 | AJ457937 | 1449 |
FluBHA | 流行性感冒B | 血球凝集素 | AF100355 | 684 |
FluBMATRIX | 流行性感冒B | 基体基因 | AF100378 | 362 |
FluBNA | 流行性感冒B | 神经氨酸酶 | AY139081 | 896 |
FTFOPA | 土拉弗朗西斯菌 | FopA | AF097542 | 111 |
FTLP | 土拉弗朗西斯菌 | 13-kDa脂蛋白 | M32059 | 431 |
HCV229EMG | 人冠状病毒(229E) | 膜糖蛋白 | AF304460 | 598 |
HCVOC43MG | 人冠状病毒(OC43) | 膜糖蛋白 | M93390 | 358 |
HRV5NT | 人鼻病毒 | 5′无编码区 | NC_001617 | 412 |
LVGPC | 拉沙热病毒 | GPC基因 | M15076 | 351 |
MPP1 | 肺炎枝原体 | 细胞粘附素P1蛋白 | M18639 | 369 |
NMCRGA | 脑膜炎奈瑟氏球菌 | 调控蛋白,crgA | AF190471 | 254 |
NMCTRA | 脑膜炎奈瑟氏球菌 | 荚膜转移蛋白(ctrA) | NMB0071 | 135 |
PIVIHN | 副流行性感冒病毒I | HN | U70948 | 204 |
PIVIII5NCFP | 副流行性感冒病毒III | 5′无编码区 | Z11575 | 213 |
PIVIIIHN | 副流行性感冒病毒III | HN | M18764 | 230 |
RSVABL | RSV | L-聚合酶 | AF254574 | 379 |
RSVAN | RSVA | 大壳包核酸, | M11486 | 106 |
RSVBN | RSVB | 大壳包核酸, | D00736 | 128 |
SPNLYTA | 化脓性链球菌 | 自溶素,lytA | SP1937 | 125 |
SPNPLY | 化脓性链球菌 | 肺松解术,ply | SP1923 | 99 |
SPYERMB | 化脓性链球菌 | 红霉素耐药甲基酶(ermB) | X52632 | 248 |
SPYERMTR | 化脓性链球菌 | erm(TR) | AF002716 | 176 |
SPYMEFAE | 化脓性链球菌 | 大环内酯外排决定簇(mefA,mefE) | U70055 | 370 |
SPYSPEB | 化脓性链球菌 | 致热外毒素B(speB) | NT01SP1804 | 281 |
VMVCRMB | 大天花病毒 | 细胞因子反应修饰物 | U88145 | 291 |
VMVHA | 大天花病毒 | 血球凝集素(HA) | X65516 | 510 |
WNVCPRM | 西尼罗河病毒 | C和prM | AF196835 | 432 |
WNVE | 西尼罗河病毒 | E | AF196835 | 94 |
WNVNS1 | 西尼罗河病毒 | NS1 | AF196835 | 153 |
YPCAF1 | 鼠疫杆菌 | Caf1 | X61996 | 525 |
YPCVE | 鼠疫杆菌 | cve2155序列 | AF350077 | 265 |
ZEVL | 埃博拉病毒 | L基因 | AF086833 | 443 |
29569 |
Affymetrix芯片设计团队采用上述信息的组合和相应序列文件信息来产生芯片设计。图1显示出芯片设计的纵览,一些给定病原菌的基因序列在下列实施例中采用的再测序芯片上密集生长(RPM版本1芯片),该图和芯片设计仅为了说明分配给RPMV1不同病原菌的有效面积,不是为了以任何方式进行限制。技术人员将容易理解专属于芯片上每个病原菌丛的相对顺序和序列数量可在对芯片的利用上没有本质上的有害作用的情况下进行改变。
重点注意的,拼接策略指出每个不连续拼接区域的前端第12个和末端12个序列不通过拼接策略的再测序微阵列进行查询,因为他们被用作最初和最后的25-mer探针成分,该探针在第13位被改变。
用于芯片的腺病毒区域(Ad4、Ad5、Ad7和Ad7疫苗)的序列都源自经本发明测序的基因组的早期挑选。对应于用于被拼接区域的基因组的GenBank在表6中列出。因为提呈给Affymetrix序列原型是以基因组的早期挑选为基础的,可观察到这些早期序列和提呈给Genbank的最终序列之间的差异。这些差异的列表在表10中给出。
表10:RPMV1拼接序列和表6中提交给Genbank的最终序列之间观察到的不相符值
Contig for Ad4
靶点长度 序列碱基 靶点
# 遗漏 序列
E1A 2004 554 A
658 C T
697 G A
698 A G
851 C T
1460 C T
1675 C T
1777 A G
2002 遗漏 T
六邻体 2813 18319 C G
18330 遗漏 T
18331 遗漏 G
18332 遗漏 G
18385 A G
18451 C T
18523 T C
18547 T C
18571 C T
18586 T C
18617 T C
18640 T C
18659 G T
18662 A G
18687 T C
18700 A C
18843 A G
18889 T A
18901 C T
18940 G T
18965 A C
18997 T C
19013 G A
95
19020 A C
19113 A C
19237 A G
19325 T C
19327 A G
19330 C T
19447 A G
19542 C A
19714 T C
19732 A C
19759 C T
19762 A G
19765 A G
19795 C A
19796 T A
19798 C T
19816 T C
19819 C T
19881 A 遗漏
19897 C T
19906 C T
19911 A G
19915 T C
19916 T C
19936 T C
19976 T C
20038 C T
20050 C T
20128 C C
20149 A C
20158 A C
20176 T C
20206 C G
20210 G A
20239 遗漏 C
20245 C 遗漏
20246 T A
20285 T C
20297 T C
20336 T C
20363 T C
20366 A C
20429 T C
20435 T C
20447 G C
20459 G A
20499 T C
20511 T C
20519 T C
20528 T C
20570 T C
20579 T C
20658 C G
20660 T C
20663 T C
20666 G A
96
20684 T C
20687 C T
20690 T A
20713 G A
20753 T C
20759 A G
20768 C T
20819 T C
20864 T C
20939 T C
21008 C T
21038 G A
纤毛 1386 31602 遗漏 C
31611 遗漏 C
31616 遗漏 C
31652 遗漏 A
31672 G 遗漏
31714 遗漏 C
31746 T 遗漏
31790 遗漏 C
31798 C 遗漏
31799 C 遗漏
31816 遗漏 C
31923 T 遗漏
31943 C 遗漏
32003 G 遗漏
32047 T 遗漏
32051 遗漏 T
32260 T 遗漏
32262 G T
32266 遗漏 G
32473 A T
32475 T A
32618 T C
32619 C T
32934 遗漏 C
Contig for Ad5_canji
E1 60 无
六邻体 60 19020 G 遗漏
19023 A 遗漏
19024 C 遗漏
19025 A 遗漏
纤毛 60 无
Contig for Ad7
E1A 60 无
六邻体 60 无
纤毛 60 无
Contig for Ad7_Navy
E1A 60 590 C T
六邻体 60 18109 A G
纤毛 60 无
Contig for
Ad7_Vaccine
E1A 60 559 C G
586 C T
六邻体 60 18142 A G
纤毛 60 无
这个相对少量的不一致不干扰芯片生成碱基响应的能力,碱基与正确的有机体相关,除了在4型腺病毒的特殊情况中,在实施例中进行了描述。全面地,本发明的再测序微阵列技术确证了关于碱基取代的拼接基因的精确的最终序列,确证了我们方法的鲁棒性。
制备实施例2:PCR引物设计和扩增方案
简并PCR引物设计-
支持保守(简并)多重PCR的引物筛选的目标是设计引物,该引物是以位于E1A、纤毛和六邻体基因的特殊种类可变区翼侧的保守区域为靶点。总的来说,这个方法可用于任何有机体,因为物种内的保守序列在自然中无处不在。这些靶点基因基于线性腺病毒基因组内功能和位置被筛选出。E1A位于腺病毒基因组5′端并且编码反式转录调节因子,该反式转录调节因子对早期基因的转录激活是必要的。位于腺病毒基因组中间和3′端的六联体和纤毛基因各自编码抗原决定簇ε和γ,确定病毒血清型。因此,ARD诱发腺病毒的检测和按血清分型能通过靶标核酸决定簇来完成,靶标核酸决定簇引发血清分型。从而,引物提供了腺病毒内的特异性扩增而可变区提供了正确的物种鉴别的特异性血清型特征。
下列实施例中用于保守(简并)多重PCR的引物分别基于E1A、纤毛和六林体基因序列的全局分析,从GenBank(GenBank登录号在圆括号内给出):E1A-AdB(NC_004001)、AdC(NC_001405)、Ad3(AF492352)、Ad4(M14918)、Ad7(X03000);纤毛--Ad2(AJ278921)、Ad5(M18369)、Ad3(X01998)、Ad4(X76547)、Ad7(M23696)、Ad16(U06106、Ad21(U06107);六联体-Ad3(X76549)、Ad4(X84646)、Ad6(AF161560、X67710、Y17245)、Ad7(AF053087,X76551)、Ad16(X74662)、Ad21(AB053166)。E1A基因引物设计的全局序列分析使用了Ad3、Ad4、Ad7、Ad21、AdB、和AdC血清型的E1A基因序列。纤毛基因引物设计的全局序列分析使用了Ad2、Ad3、Ad4、Ad5、Ad7、Ad16、和Ad21血清型的纤毛基因序列。六联体基因引物设计的全局序列分析使用了Ad3、Ad4、Ad6、Ad7、Ad16、和Ad21血清型的六联体基因序列。
全局序列分析之后,引物对基于扩增血清型3、4、6、7、16和21的E1A、纤毛和六联体基因的能力被筛选出(无数据)。表11显示出在下列实施例中采用的引物对。
表11:
引物 | 基因 | 序列(5’→3’) | 扩增子大小(bp) |
AdE1A-F | E1A | CGC TGC ACG ATC TGT ATG AT(SEQ ID NO:421) | |
AdE1A-R | E1A | TCT CAT ATA GCA AAG CGC ACA(SEQ ID NO:422) | 409-446 |
AdB1* | 纤毛 | TST ACC CYT ATG AAG ATG AAA GC(SEQ ID NO:423) | |
AdB2* | 纤毛 | GGA TAA GCT GTA GTR CTK GGC AT(SEQ ID NO:424) | 670-772 |
AdFib-F3 | 纤毛 | ACT GTA KCW GYT TTG GYT GT(SEQ ID NO:425) | |
AdFib-R3 | 纤毛 | TTA TTS YTG GGC WAT GTA KGA(SEQ ID NO:426) | 430-437 |
AdHex-F7 | 六邻体 | CAC GAY GTG ACC ACM GAC CG(SEQ ID NO:427) | |
AdHex-R5 | 六邻体 | TTK GGT CTG TTW GGC ATK GCY TG(SEQ ID NO:428) | 770-815 |
多重简并引物PCR方案-
引物对(Lin et al.,2004)在不同的多重组合中进行评价来获得腺病毒血清型3、4、6、7、16、和21的扩增。在含有20mM Tris-HCl(pH 8.4),50mM KCl,每一种200μM dNTPs,200nM AdB1、AdB2引物;500nMAdhex-F7,Adhex-R5引物,2U Platinum Taq DNA聚合酶(Invitrogen),和106个拷贝的DNA模板的50μl体积中实施PCR。采用Peltier ThermalCycler-PTC225(MJ Research)实施扩增反应,在94℃初步变性30秒,在50℃退火30秒,在72℃延伸40秒,并且在72℃最终延伸10分钟。菌属多重PCR试验将扩增所有six ARD的所有三个基因,引发腺病毒即使Ad4的六联体基因在琼脂糖凝胶上显示出非常弱的条带。
总扩增方案-
采用商业可用的GenomiPhiTM DNA扩增试剂盒(Amersham Biosciences)进行总扩增来典型扩增线性基因组DNA(下文中统称为″GenomiPhi总扩增″)。在GenomiPhi总扩增方法中采用的扩增方法利用抗菌素Phi29DNA聚合酶通过链替代扩增反应以指数倍率方式扩增单链-或双链线性DNA模板。起始样本不确定数量,而是直接使用。
制备实施例3:REPI软件
再测序阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传分析软件version 2.0(GDAS)来提供。GDAS碱基响应基于先前描述的碱基响应算法(Cutler et al.,2001)。包含从GDAS软件得到的碱基响应的每一种FASTA输出文件采用专属软件(REPI)进行分析,该专属软件(REPI)是本发明者开发的。
在本发明的情况中,GDAS的序列输出大部分通常为邻近序列响应(A、T、C或G)的分散混合物,邻近序列响应(A、T、C或G)点缀着不同量的无响应(n′s),由于缺少扩增、芯片上的弱杂交信号和/或非特异性结合导致的高背景杂交,GDAS软件不产生碱基响应(Cutler et al.,2001)。Ad4FIBER拼接区域的原型4腺病毒样本的GDAS输出的一种实施例输出在下面显示出(SEQ ID NO:429):
>Ad4FIBER:CustemSeq-腺病毒4 开始=12 终点=1245
nnnnnnnnnnnnnnncnnncncngaccgngnnnttcannaacnctcccntcgnnctcttcagatg
nattnnaagaaaagcccctgggggtgttgtccnnannnnnnngccgaccctgtcncnnnaagaat
gnnnaaattannnnnaagctgngngagggggtnnnncttgacgactcgggaaaactcnttgcaan
cacagtaaacaaggccattgcnnctctcagnttttnccaacaacaccatttnnnnttaacatgga
tacccctttatacaccaaagntggaaaactanccttacaagtttctnccaccattaagtatatta
aaatcaacaattttgaatacnnnnnnnnnagcttttggntcaggtttnggactcagtnnnngcgc
ccnngcagtananttagnctcnccacttacatttgntgataaagggaatanaaagattacccnaa
anagnnnnttgcatgttanaacaggagntgcaattgaaagcaacatcagttgggctaaaggtnta
aaattngaagatggtgccatagctacaaacattggtaannnnnnnnnnntnnnaaccagnngtnc
agaannannagnnannaangcttatccaatccaannnnnnnntgncnctggtctcagctttgaca
gcacaggagccataatgnctggcaataaagnctatgataaattaactttgtggacaacgcctgac
ccatcaccaaactgncaaatncttgcagaaaatgntgcaaaactaacactttgnnnnnnnnanng
nnacagncaaatactggccactgtancngntttggntgttagaagnggaaacttaaacccaatta
ctggcacagtaagcagtgctcaagnttttcnncgntttgatgcaaatggtgnncntntnacagaa
cactctanncnnaaaaaatnntggggcnanaagcaangagatagnatagatggcactccatacac
caatgctgttggttttatgccaaattcaacagcttntnnaaagacncaaagttctnctnctaaaa
ataatntagtgggtcaagtatacatgantnnagntgtttnanannncatgnttcttnctataact
cttaatggtnctgatgacaccaccngtgcatnctcaatgncattttcatacacctggactaacgg
aagctatatcggagcaacatttggagctaactcatacaccttctcntacatngcccannannnn
类似搜索算法如BLAST(Korf et al.,2003)使用无碱基响应(类似于通配符)但含有太多无碱基响应导致无法接受的模糊程度。如果那样的话,将返回无意义BLAST结果。
REPI软件被设计分析FASTA文件筛选和编辑的输出结果,采用NCBIBLASTN算法,模型数据被编辑成适合于序列类似性搜索格式。为了完成这个目标,REPI运行一系列文件尽可能小地修改数据而提取可用的,FASTA文件的″BLASTable″数据。由于再测序微阵列的自身性质,序列经常包含大量的无碱基响应(n′s)。BLAST不能返回具有大量的无碱基响应的重要的类似性序列。因此,原始数据必须经过滤提取最可能返回显著类似性的那些片段。
预期序列遇到的第一种过滤器是控制检验。加入到微阵列中的对照序列被特异性设计为随机序列;因此,将不返回显著类似性。下一步为″BLASTable″数据评估序列。采用滑窗算法,用户输入窗口尺寸参数,这些参数表示碱基响应数量。该算法将同时进行评估。从第一种碱基响应开始评估序列,窗口沿着序列滑动搜索含有相关数据的第一种区域,采用记分方法进行评估,所有有效碱基给出一种分数并且所有无碱基响应给出0分。如果分数大于或等于预先确定的阈值(这里采用25%),程序在窗口的起始点作记号作为可用数据的开始。一旦可用数据起始点被确定出,程序对换其参数并从可用数据库的末端开始搜索。对于每个序列,REPI搜索最大连续列的可用数据,将表示序列的初始子序列。
这个子序列将被修剪开始无碱基响应和尾部无碱基响应。进行修剪是必要的,因为先前过滤器使用起始窗口的起始位点作为子序列的起始点和末端窗口的最后位点,因此,尽管窗口记分是可接受的,可能存在无碱基响应超前子序列或尾部子序列。子序列经过的下一种过滤器评估长度。子序列长于50个核苷酸可以继续,子序列短于20个核苷酸被排除,并且子序列在20到50个核苷酸之间按照如下再评估。由于这些子序列的长度,采用先前描述的相同积分系统把它们记录下来。具有大于60%无碱基响应的子序列是被排除掉的;所有其他的允许继续采用BLAST算法针对GenBank,或自己的修饰数据库被搜索。
一旦类似性算法是完整的REPI计算机计算许多子序列的统计量,这些统计量包括靶点序列的子序列百分比,子序列长度,子序列碱基响应数量和子序列碱基响应百分比。靶点序列的子序列百分比和子序列长度显示出靶点病原菌的哪个片短被鉴别出。子序列长度和子序列碱基响应的百分比使我们能监控过滤算法过滤器以及GDAS阈值参数。REPI保存了所有BLASTN算法返回的统计结果使用户操作那个结果被显示在图形用户界面上。
在提供的实施例中,REPI经CGI(Perl)界面连接到局部BLAST(NCBIGenBank)数据库(包含在具有4.5GB随机存取存储器的苹果G5单一处理器(1.8Ghz)计算机上)。显示的结果包括所有预期值(E-值)阈值1.0e-9的数据库序列。E-值表示在随机给定搜索距离尺寸、记分矩阵、和空位罚分的预期分析数量;E-值越低数据库类似性搜索匹配越不可能进行随机鉴别。经确定e=2.71828182845904523536028747135。
REPI输出由(BLASTable)子序列命名、长度、E-值构成和比值以降序排列显示每个子序列。名称报告为GenBank记录FASTA定义列并且包括序列长度。得分为记分矩阵和空位罚分计算出的标准分数,分数越高类似性越高。
上面列出的实施例的REPI输出在下面显示出。每个″BLASTable″子序列,REPI返回(以降序排列比值)所有具有预期值小于1.0e-9的GenBank数据记录。获得的最高比值是4型腺病毒(AY594253),穿过这个连续部分,4型腺病毒是遗传不可区分于Ad4疫苗株(AY594254),而较低的比值适合区分来自空军和海军培训基地的本地株(SEQ ID NO:430)。
>Ad4FIBER:CustemSeq-腺病毒4开始=12终点=1245
子序列:
cnnncncngaccgngnnnttcannaacnctcccntcgnnctcttcagatgnattnnaagaaaagcc
cctgggggtgttgtccnnannnnnnngccgaccctgtcncnnnaagaatgnnnaaattannnnnaa
gctgngngagggggtnnnncttgacgactcgggaaaactcnttgcaancacagtaaacaaggccat
tgcnnctctcagnttttnccaacaacaccatttnnnnttaacatggatacccctttatacaccaaa
gntggaaaactanccttacaagtttctnccaccattaagtatattaaaatcaacaattttgaatac
nnnnnnnnnagcttttggntcaggtttnggactcagtnnnngcgcccnngcagtananttagnctc
nccacttacatttgntgataaagggaatanaaagattacccnaaanagnnnnttgcatgttanaac
aggagntgcaattgaaagcaacatcagttgggctaaaggtntaaaattngaagatggtgccatagc
tacaaacattggtaannnnnnnnnntnnnaaccagnngtncagaannannagnnannaangct ta
tccaatccaannnnnnnntgncnctggtctcagctttgacagcacaggagccataatgnctggcaa
taaagnctatgataaattaactttgtggacaacgcctgacccatcaccaaactgncaaatncttgc
agaaaatgntgcaaaactaacactttgnnnnnnnnanngnnacagncaaatactggccactgtanc
ngntttggntgttagaagnggaaacttaaacccaattactggcacagtaagcagtgctcaagnttt
tcnncgntttgatgcaaatggtgnncntntnacagaacactctanncnnaaaaaatnntggggcna
naagcaangagatagnatagatggcactccatacaccaatgctgttggttttatgccaaattcaac
agcttntnnaaagacncaaagttctnctnctaaaaataatntagtgggtcaagtatacatgantnn
agntgtttnanannncatgnttcttnctataactcttaatggtnctgatgacaccaccngtgcatn
ctcaatgncattttcatacacctggactaacggaagctatatcggagcaacatttggagctaactc
atacaccttctcntacatngcccanna
子序列靶点百分率:98%
子序列长度:1215
子序列碱基响应数量:1020
子序列碱基响应百分率:84%
1c1|AY594254|血清4型人腺病毒,疫苗株#135,994bp;长度=35994
Ad4FIBER evalue:0.0,score:751.806
1c1|AY594253|血清4型人腺病毒|35,990bp;长度=35990
Ad4FIBER evalue:0.0,score:751.806
gi|303967|gb|L19194.1|ADRFIBERX纤毛蛋白质h4哺乳动物腺病毒,完整编码序列;长度=1346
Ad4FIBER evalue:0.0,score:743.877
gi|22796371|emb|AJ315930.1|HAD3159304型人腺病毒DNA;长度=12718
Ad4FIBER evalue:0.0,score:735.947
1c1|AY599837|血清4型人腺病毒,美国空军本地株|35,964bp;长度=35964
Ad4FIBER evalue:0.0,score:704.23
1c1AY599835|血清4型人腺病毒,美国海军本地株|35,965bp;长度=35965
Ad4FIBER evalue:0.0,score:696.3
gi|434913|emb|X76547.1|AV4FIB1纤毛蛋白质4型腺病毒基因;长度=1375
Ad4FIBER evalue:2.32306E-154,score:553.571
gi|17105037|gb)AF394196.1|AF394196猴腺病毒25,全基因组;长度=36521
Ad4FIBER evalue:6.5072E-53,score:216.57
gi|33694802|tpg|BK000413.1|TPA:猴腺病毒25,全基因组;长度=36519
Ad4FIBER evalue:6.5072E-53,score:216.57
依据2004年9月15日提出的美国申请Serial No.60/609,918,和2004年11月29日提出的美国申请Serial No.60/631,460中给出的描述生成和处理应用REPI程序Java归档(jar)文件。
实施例1-碱基响应算法设置和采用保守(简并)PCR引物和GenomiPhi
总扩增BLAST分析腺病毒4的碱基响应
再测序微阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传数据分析软件version 2.0(GDAS)提供。GDAS碱基响应基于先前描述的碱基响应算法,ABACUS,先前描述的(Cutler et al.,2001)。许多碱基响应算法参数能通过用户(GDAS操作手册)确定来得到碱基响应百分比和精确度之间的协定。
参数的描述可在GDAS手册第207-217页中找到。推荐的(缺省)GDAS设置是“保守”设置,这种“保守”设置集中在高水平精确度上。相反,本发明的目标是提高碱基响应的百分率。为了达到这个目标,本发明者调整参数实现高度许可碱基响应(提高百分率),如列在下面:
″许可″碱基响应算法设置--
-过滤器条件
·无信号阈=0.500(默认值=1.000000)
·弱信号倍数阈值=20000.000(默认值=20.000000)
·大信噪比阈值=20.000000(默认值=20.000000)
-算法参数
·链质量阈值=0.000(默认值=0.000000)
·总链质量阈值=25.0000(默认值=75.000000)
·杂合子响应的最大值=0.99000(默认值=0.900000)
·模拟类型(0=杂合子,1=纯合子)=0
·完美响应质量阈值=0.500(默认值=2.000000)
-最终可靠性规则
·临近探针响应的最小值=1.0000(关闭过滤器)
·样本响应的最小值=1.0000(关闭过滤器)
上述设置在本应用中是重要的,因为通过默认牺牲生成的碱基响应数量目的为了生成最精确响应(例如,信噪比检测)建立起碱基响应算法。在本发明的应用中,该技术很少关注于获得信噪比检测要求的相同程度的精确度而代替的是扩大生成响应的数量使得经GDAS制备出最长段的邻接序列而保持必要特异性。
用适当的方法制备样本用于RPM V1微阵列分析,每微升106个基因组拷贝起始浓度的原型4腺病毒采用简并引物PCR(Lin et al.,2004)或(B)GenomiPhi等温法进行扩增。对于总扩增试验,DNA从培养腺病毒中分离出并以每微升106个拷贝浓度分装。采用总扩增策略(GenomiPhi,Amersham)进行扩增,然后依据标准Affymetrix CustomSeqTM方案(从厂商处得到)进行处理。
图2中显示出杂交微阵列的图像。对比于保守(简并)多重PCR生成的更限制区域,GenomiPhi总扩增再测序整个拼接区域(增强灵敏性)。由于GenomiPhi总扩增不取决于拼接片段内的特异性引物序列的事实,产生这个结果。然而,十分重要的是注意到不顾采用的哪个扩增策略,例如,保守(简并)多重PCR或GenomiPhi总扩增,生成探针Ad4响应。这些方法之间的一致性是重要的,在不需要选择性富集的情况下,当保守引物可能具有更直接应用,把复合样本中的同一家族的病原菌成员按血清类型分类。
基于相应GDAS输出(采用“许可”设置),REPI确定出返回给V1RPM微阵列的E1A、纤毛和六联体-1拼接区域的保守PCR扩增策略的下列列表(注意:从这个列表中省略的是几个4型腺病毒GenBank记录,具有几乎同源序列如Ad4同源和Ad4疫苗株)。
表12:Ad4E1A:CustemSeq-腺病毒4
登录号# | 名称 | E值 | 比值: |
AY594254 | 血清型4人腺病毒,疫苗株 | 1.04808E-107 | 396.964 |
AY594253 | 血清型4人腺病毒 | 1.04808E-107 | 396.964 |
AY599837 | 血清型4人腺病毒,USAF本地株 | 8.34268E-53 | 214.587 |
AY599835 | 血清型4人腺病毒,美国海军本地株 | 8.34268E-53 | 214.587 |
表13:Ad4FIBER:CustemSeq-腺病毒4
登录号# | 名称 | E值 | 比值: |
AY594254 | 血清型4人腺病毒,疫苗株 | 0.0 | 751.806 |
AY594253 | 血清型4人腺病毒 | 0.0 | 751.806 |
AY599837 | 血清型4人腺病毒,USAF本地株 | 0.0 | 704.23 |
AY599835 | 血清型4人腺病毒,美国海军本地株 | 0.0 | 696.3 |
表14:Ad4HEXON:CustemSeq-腺病毒4
登录号# | 名称 | E值 | 比值: |
AY594254 | 血清型4人腺病毒,疫苗株 | 0.0 | 751.806 |
AY594253 | 血清型4人腺病毒 | 0.0 | 751.806 |
AY599833 | 血清型4人腺病毒,美国海军本地株 | 1.73046E-169 | 603.13 |
AY599837 | 血清型4人腺病毒,USAF本地株 | 4.2185E-167 | 595.2 |
在上面显示的每个情况中,原型4腺病毒(AY594253)和疫苗株(AY594254)返回了保守PCR扩增得到的杂交原型4腺病毒扩增子的最高期望值和比值。这是被预期到的,因为原型株用于疫苗生产并且序列被确定具有同源性。在每个情况中,返回值以紧密相关空军(AY599837)和海军(AY599835)腺病毒4本地株的类似性顺序进行辨别。
下面列出的为4型原型腺病毒的GenomiPhi扩增反应取代保守PCR反应的相应输出(注意:不显示的为比值比空军和海军本地株高的几个紧密相关腺病毒):
表15:Ad4E1A:腺病毒4GenomiPhi3
登录号# | 名称 | E值 | 比值: |
AY594253 | 血清型4人腺病毒 | 0.0 | 868.765 |
AY594254 | 血清型4人腺病毒,疫苗株 | 0.0 | 868.765 |
gi|209874|gb|M14918.1 | ADRDE1AA 4型腺病毒E1A区 | 0.0 | 860.836 |
表16:Ad4FIBER:腺病毒4GenomiPhi3
登录号# | 名称 | E值 | 比值: |
gi|434913|emb|X76547.1 | 纤毛蛋白质AV4FIB14型腺病毒基因 | 0.0 | 1031.32 |
AY594254 | 血清型4人腺病毒,疫苗株 | 0.0 | 926.254 |
AY594253 | 血清型4人腺病毒 | 0.0 | 926.254 |
AY599837 | 血清型4人腺病毒,USAF本地株 | 0.0 | 743.877 |
表17:Ad4HEXON-1:腺病毒4GenomiPhi3
登录号# | 名称 | E值 | 比值: |
AY594254 | 血清型4人腺病毒,疫苗株 | 0.0 | 1065.02 |
AY594253 | 血清型4人腺病毒 | 0.0 | 1065.02 |
gi|11693508|gb|AF065062.2|AF065062 | RI-67pVI核蛋白质4型人腺病毒株 | 0.0 | 1065.02 |
AY599835 | 血清型4人腺病毒,美国海军本地株 | 2.96209E-147 | 529.782 |
基于图2中显示的结果,对比于保守(简并)多重PCR生成的更限制区域,GenomiPhi总扩增再测序整个拼接区域(增强灵敏性)。由于GenomiPhi总扩增不取决于拼接片段内的特异性引物序列的事实,产生这个结果。REPI列出了适当的腺病毒类型(AY594254或AY594253)作为最高得到返回给除了Ad4FIBER之外的每个拼接区域。通过观察到4型原型腺病毒的早期序列草图包含错误,随后分辨出该差异,该错误引起用于鉴定Ad4FIBER的序列和不同4型腺病毒株(gi|11693508|gb|AF065062.2|AF065062)的GenBank记录之间稍微较高同源性。
就这一例外而言,十分重要的是注意到不论采用哪个扩增策略,例如,保守(简并)多重PCR或GenomiPhi总扩增,生成了正确的探针Ad4响应(除了由于拼接序列错误,由GenomiPhi产生Ad4FIBER)。这些方法之间的一致性是重要的,在不需要选择性富集的情况下,当保守引物可能具有更直接应用,把复合样本中的同一家族的病原菌成员按血清类型分类。
实施例2-Ad4稀释物系列
在本实施例中,杂交和碱基响应作为保守(简并)多重PCR反应的靶点子序列初始浓度的函数被测试。此外,该实施例也在GDAS软件内:(a)“许可”(说明书中描述的)和(b)“保守”(缺省)设置内对两个不同碱基响应策略进行比较。在这个实施例中采用的生物样本为4原型腺病毒。
杂交和碱基响应作为保守(简并)多重PCR反应的靶点子序列初始浓度的函数被测试。4原型腺病毒(ATCC)一系列稀释液被制备成每微升具有105、103、和101个基因组拷贝。为了这个目的,遵循Affymetrix CustomSeq方案,除了从上述稀释液分装的样本采用E1A、纤毛和六联体的保守(简并)多重腺病毒引物策略进行扩增。
表18-20证实RPMV1芯片采用REPI分析来检测取决于无论“保守”(缺省GDAS)或“许可”(来自实施例1)碱基响应设置的适当4型病原菌靶点(对菌株无特异性)被采用的能力。当REPI返回一种或一种以上4型腺病毒靶点的GenBank(或局部)数据库记录作为最高BLAST比值值时,计算阳性检测。在每个情况中,当满足滑窗算法的条件时,“长度”对应于REPI筛选的子序列中的碱基响应数量。
表18:
Ad4纤毛 | ||||||||||
稀释 | 保守的 | 许可的 | ||||||||
Expt. | 评分 | Eval | 名称 | 长度 | Expt. | 评分 | Eval | 名称 | 长度 | |
105 | 11-21-31-4 | 835.0651015.46297.846839.03 | E-0.0E-0.0E-780.0 | Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白 | 12279904511059 | 11-21-31-4 | 1623.971447.89703.6261605.08 | 0.00.00.00.0 | Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白Ad4纤毛蛋白 | 12279975121215 |
103 | 22-2*2-32-4 | 448.153232.429 | E-134n/dE-58n/d | Ad4纤毛蛋白-Ad4纤毛蛋白- | 1208-421- | 22-22-32-4 | 1559.2405.389 | 0.0n/dE-110n/d | Ad4纤毛蛋白-Ad4纤毛蛋白- | 1220-444- |
101 | 33-2*3-33-4 | 172.95899.61 | E-40n/dn/dE-19 | Ad4纤毛蛋白--Ad4纤毛蛋白 | 294--93 | 33-23-33-4 | 301.101118.758116.39 | E-79-E-24E-24 | Ad4纤毛蛋白-Ad4纤毛蛋白Ad4纤毛蛋白 | 442-27995 |
*表示降解模板;n/d表示由于碱基响应不充分而“不确定的”
表19:
Ad4E1A | ||||||||||
稀释 | 保守的 | 许可的 | ||||||||
Expt | 评分 | Eval | 名称 | 长度 | Expt | 评分 | Eval | 名称 | 长度 | |
105 | 11-21-31-4 | 448.5420.8353.4 | E-123E-115n/dE-94 | Ad4E1A区域Ad4E1A区域-Ad4E1A区域 | 553422-424 | 11-21-31-4 | 775.595691.471561.5589.253 | E-0.0E-0.0E-157E-165 | Ad4E1A区域Ad4E1A区域Ad4E1A区域Ad4E1A区域 | 556444413424 |
103 | 22-2*2-32-4 | 341.5194.8 | E-91n/dE-47n/d | Ad4E1A区域-Ad4E1A区域- | 399-404- | 22-22-32-4 | 607.1470.774 | E-171n/dE-130n/d | Ad4E1A区域-Ad4E1A区域- | 412-421- |
101 | 33-2*3-33-4 | 412.8 | n/dn/dn/dE-112 | ---Ad4E1A区域 | ---397 | 33-23-33-4 | 385.836199.58640.794 | E-104n/dE-48E-0.0 | Ad4E1A区域-Ad4E1A区域Ad4E1A区域 | 405-403398 |
表20:
Ad4六邻体 | ||||||||||
稀释 | 保守的 | 许可的 | ||||||||
Expt. | 评分 | Eval | 名称 | 长度 | Expt. | 评分 | Eval | 名称 | 长度 | |
105 | 11-21-31-4 | 377.1603.13107.5498.1 | E-101E-0.0E-21E-138 | Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因 | 760760262760 | 11-21-31-4 | 893.45941.874246.762920.916 | 0.0E-0.0E-62E-0.0 | Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因Ad4六邻体基因 | 769768497762 |
103 | 22-2*2-32-4 | 383.1 | E-103n/dn/dn/d | Ad4六邻体基因--- | 759--- | 22-22-32-4 | 826.865 | E-0.0n/dn/dn/d | Ad4六邻体基因--- | 759--- |
101 | 33-2*3-33-4 | 71.86 | n/dE-11n/dn/d | -Ad4六邻体基因-- | -65-- | 33-23-33-4 | 78.8677107.54149.17 | E-12E-21n/dE-33 | Ad4六邻体基因Ad4六邻体基因-Ad4六邻体基因 | 14372-209 |
*表示降解模板;n/d表示由于碱基响应不充分而“不确定的”
跨稀释液的范围,“许可”碱基响应设置产生GDAS输出,GDAS输出经REPI采用始终如一地生成比信噪比检测的缺省GDAS碱基响应设置更高的子序列长度和比值。在几个情况中,“许可”碱基响应设置导致足够量的REPI碱基响应来检测靶点然而缺省设置不会这样。这个实施例证实通过GDAS降低碱基限制并将输出结合REPI算法,得到病原菌之间的较高灵敏性和辨识力(菌株鉴别)。
这里特别注意的是,在一些情况中,在图像、GDAS输出、和REPI分析中存在证据,具有痕量腺病毒7和腺病毒5的变性引物混合液的非故意污染物(由特异性实时PCR反应证实)。因为原型腺病毒的拼接区域之间没有显著性交互杂交,这个污染物不导致扰乱碱基响应或导致腺病毒4拼接区域。证实了这里描述的执行定量分离紧密相关病原菌混合物的方法的鲁棒性。
值得注意的,Lawrence Livermore国家实验室的Andersen团队描述了在特异性PCR扩增反应之后使用能检测低浓度(~101拷贝)的Affymetrix再测序芯片。然而,怎样确定灵敏性或这些结果受紧密相关微生物物种杂交影响的到什么程度没有被公开或提出。论文中的重点为能被使用的探针对的百分率,不是当他们通过芯片响应的实际序列。因此,技术人员没有任何由公开所致的期望。技术人员将不能推断来自先前专利或相关公开(Gingeras et al.,1998)的可能性因为这些参考文献不能揭示或提出指定方法的鲁棒性,该方法模式识别浓度差异、拼接区域序列定义中的误差,或其他形式干扰。
实施例3-碱基响应算法设置和采用保守(简并)PCR引物和GenomiPhi
总扩增对腺病毒5本地株(Ad5FS:AY6016351和腺病毒7原型株(Ad7;
AY594255″)的碱基响应进行BLAST分析
这个实施例与实施例1类似,除非用5型腺病毒本地株(Ad5FS;AY601635)或7型腺病毒原型(AY594255)采用或者(a)保守(简并)多重PCR或者(b)GenomiPhi总扩增(图3)探查制备实施例1中描述的上面再测序微阵列芯片(RPMV1)。基于(RPMV1)输出(采用“许可”设置),REPI用Ad5原型和Ad7原型中的每一种来鉴别下列保守PCR反应和总扩增策略的3个最高“点击”。毫无例外,当5型腺病毒(Ad5FS;登录号AY601635)使用保守PCR反应或总(GenomiPhi)扩增的时候,5型腺病毒拼接区域(Ad5E1A、Ad5FIBER、Ad5FIBER、Ad5HEXON-1和Ad5HEXON-2)响应的每个序列列出最高“点击”(最高BLAST比值)。
也毫无例外,当采用PCR反应或总(GenomiPhi)扩增的时候,7型腺病毒拼接区域(Ad7E1A、Ad7FIBER、Ad5HEXON-1和Ad5HEXON-2)的这种序列列出最高“点击”(最高BLAST比值)与7型腺病毒正确的原型菌株一样。此外,GenomiPhi扩增导致Ad4E1A区域和Ad7疫苗区域的碱基响应,两者导致分配给正确Ad7原型菌株的最高比值。
得到的5型腺病毒和7型腺病毒原型的结果证实4型腺病毒的结果。特殊地,在图3A-D中显示的结果显示出对比于保守(简并)多重PCR反应产生的更加限制区域。GenomiPhi总扩增使完全拼接区域(增加的灵敏性)被再测序。更重要地,这些结果证实不管采用什么扩增方案,例如保守(简并)多重PCR反应或GenomiPhi总扩增,生成正确的Ad5或Ad7响应。
实施例4-Ad4-5突破株作为再测序微阵列可检测的混合传染病模型
这个实施例的样本可由海军保健研究中心(San Diego)提供。存档样本为初级新兵的鼻腔冲洗液,该新兵以前接受过腺病毒(采用Ad4/Ad7疫苗)免疫并且随后诊断为腺病毒传染和发热性呼吸疾病。不管先前接种过疫苗,传染相关菌株广泛统称为“突破株”。在这个病例中,假设单一变异形式的腺病毒是病原。这里描述的样本被统称为Ad4-5突破因为非决定的培养和血清学试验显示出两种4型腺病毒的性质,而六联体基因(血清型腺病毒的抗原决定簇之一)的测序显示出5型腺病毒的性质。
依据制备实施例1中描述的多重变性引物PCR方案处理该样本。这个方法说明(Lin et al 2004)成功扩增与发热性呼吸传染相关所有腺病毒的六联体和纤毛基因上超变区(以及相对E1A可变区域)。另外,标准AffymetrixCustomSeq方案被采用。
得到的杂交模式显示在图4中。基于GDAS输出(采用“许可”设置)。REPI经多重PCR鉴别出下列所有扩增方案的3个最高“点击”。(参见表21-24)。
表21:Ad5FIBER:Ad 4-5突破株
登录号# | 名称 | E值 | 比值: |
1c1|AY601035 | 血清型5人腺病毒,本地株 | 5.01036E-76 | 291.899 |
gi|33694637|tpg|BK000408.1 | TPA:5型人腺病毒 | 5.01036E-76 | 291.899 |
gi|32127287|gb|AY224398.1 | KNIH 99/5纤毛基因5型人腺病毒株 | 5.01036E-76 | 291.899 |
表22:Ad5HEXON-1:Ad 4-5突破株
登录号# | 名称 | E值 | 比值: |
1c1|AY601035 | 血清型5人腺病毒,本地株 | 0.0 | 644.759 |
gi|33694637|tpg|BK000408.1 | TPA:5型人腺病毒 | 1.81596E-172 | 613.041 |
gi32127287|gb|AY224398.1 | KNIH 99/5纤毛基因5型人腺病毒株 | 2.63084E-165 | 589.253 |
表23:Ad7E1A:Ad 4-5突破株
登录号# | 名称 | E值 | 比值: |
gi|4127293|emb|AJ005536.1|ACA005536 | 腺病毒临床分离物,基因组DNA的克隆B44 | 3.18875E-83 | 315.688 |
1c1|AY601633 | 血清型21人腺病毒 | 4.97873E-82 | 311.723 |
gi|21311720|gb|AF492353.1 | 21型人腺病毒E1A13S蛋白质基因 | 1.21371E-79 | 303.794 |
1c1|AY601634 | 血清型7人腺病毒,美国海军本地株 | 2.95877E-77 | 295.864 |
表24:Ad7HEXON-1:Ad 4-5突破株
登录号# | 名称 | E值 | 比值: |
1c1|AY601633 | 血清型21人腺病毒 | 6.98074E-24 | 117.452 |
gi|13919592|gb|AY008279.1 | 21型人腺病毒六邻体蛋白质基因 | 6.98074E-24 | 117.452 |
gi|21311720|gb|AF492353.1 | 50型人腺病毒 | 6.98074E-24 | 117.452 |
1c1|AY594255 | 血清型7人腺病毒 | 6.0101E-12 | 77.8048 |
1c1|AY601634 | 血清型7人腺病毒,美国海军本地株 | 6.0101E-12 | 77.8048 |
筛选的REPI返回值给RPMV1上腺病毒4,5突破株。这个“菌株”由几个无关方法确定为5型腺病毒和B子群成员的混合物,最可能为21型腺病毒。这在联合的杂交结果和REPI分析中被证实,5型腺病毒被证实在所有腺病毒5拼接上,而B子群原型(腺病毒7;AY594255)拼接返回21型腺病毒的最高比值,21型腺病毒为B子群的不同成员。
常规DNA测序揭示出全部腺病毒5基因组被重新得到并且不能被组合的其他序列存在因为腺病毒5模型假设要求的。然而,显著量的确证被收集来支持Ad5/Ad 21交叉感染的结论,包括用70-mer寡核苷酸阵列(Linet al 2004)实施的平行试验中得到的类似结论,该类似结论显示出Ad 5/Ad21混合物或交叉感染的证据,和采用常规方法测序扩增子都支持了Ad5和Ad 21的存在。随后指导的腺病毒突破株的扩展研究显示出许多这种菌株实际上由较少腺病毒的混合物构成(制备加工图)。
有一些重要方面和优势隐含在这个发现中:
1.在没有特殊先验设计或在样本中发现Ad 21的预处理的情况下,原型区域(B子群的Ad 7)能用于成功鉴定不同的B子群成员(Ad 21)的实证。
2.由于空间分辨力,微阵列辨别混合的病原菌的实证。该混合物使常规DNA测序方法混乱,该常规DNA测序方法取决于以单一有机体的假设为基础的连续片段的组装。
实施例5-采用原型区域鉴别流行性感冒A株
未知血清型的流行性感冒A阳性临床样本在2002-2003和2003-2004流感季节由Dr.E1izabeth Walter收集并提供给Dr.Zheng Wang如冷冻的鼻腔冲洗液。
样本被加工处理用于病原菌芯片分析如下:
EPICENTRE MasterPureTM提纯试剂盒(Madison,Wisconsin)用于在没有经过RNase处理情况下,从50μl鼻腔冲洗液(样本NW20031114-05-02)中提取全部核酸。样本NW20031114-05-02于2003年11月14日在空军基地(San Antonio,TX)被收集到。患者在2003年11月10接受疫苗接种。全部核酸悬浮在20μl核酸酶游离水中。两步RT-PCR被用于扩增每一种病毒基因片段。
简要地,4μl总核酸中的RNA采用SuperScriptTMIII反转录酶(Invitrogen,Carlsbad,CA)依据厂商提供的方案和20μl 100pmol Uni3引物被转录到cDNA中。RT(逆转录)反应在42℃下实施1小时,然后在70℃下培养15分钟。2μl RT-反应被用于cDNA扩增。采用TaqPlus Long System(Stratagene,La Jolla,CA)依据提供的方案扩增cDNA。两个不同的PCR反应条件用于扩增。对于通用的PCR,通用的引物uni3和uni5被用于扩增红血球凝聚素(HA)、神经氨酸苷酶(NA)和基质(M)所有的八个片段(参见Hoffman et al,2001)。对于多重PCR,经过混合三个片段特异性引物对(Bm-HA-1/Bm-NS-890R,BA-Na-1/Ba-Na-1413R和Bm-M-1/Bm-M-1027R)扩增片段。Mg2+离子的最终浓度为2mM并且最终引物浓度为1μM。通用扩增的PCR条件为:94℃反应2分钟,随即94℃下进行29轮反应1分钟,在40℃反应2分钟,72℃反应3分钟,在72℃最后延伸10分钟。多重PCR反应条件基本相同除了退火温度提升到58℃。PCR反应产物经Qiagen PCR提纯试剂盒进行提纯。依据Affymetrix方案,500ng通用扩增PCR产物和1000ng多重PCR产物各自被用于两个V1病原菌芯片进行杂交
引物(来自Hoffman et al,2001)-
Uni3: AGCAAAAAGCAGG(SEQ ID NO:431)Uni5: AGTAGAAACAAG(SEQ ID NO:432)Bm-HA-1: TATTCGTCTCAGGGAGCAAAAGCAGGGG(SEQ ID NO:433)Bm-NS-890R: ATATCGTCTCGTATTAGTAGAAACAAGGGTGTTIT(SEQ ID NO:434)Ba-Na-1: TATTGGTCTCAGGGAGCAAAAGCAGGAGT(SEQ ID NO:435)Ba-Na-1413R:ATATGGTCTCGTATTAGTAGAAACAAGGAGTITTTIT(SEQ ID NO:436)Bm-M-1: TATTCGTCTCAGGGAGCAAAAGCAGGTAG(SEQ ID NO:437)Bm-M-1027R: ATATCGTCTCGTATTAGTAGAAACAAGGTAGTITIT(SEQ ID NO:438) |
两种扩增方案的每一种的芯片扫描结果被显示出:(a)通用引物PCR反应和(b)多重PCR反应(图5)。基于GDAS输出(采用“许可”设置),REPI鉴别出下列通用引物(Hoffman et al.,2001)扩增方法的3个最高“点击”和采用Ad5原型和特殊多重PCR方法中每一种的总扩增方案。
为了这个试验,本发明者得到流感菌株HA基因的序列,这种流感菌株避免了2003-2004疫苗并引发了大范围疾病,即Fujian/411/2002(注意:仅HA序列可用于Fujian/411/2002)并且把那个掺入到REPI搜索的数据库中。两种扩增方法的每一种有效生成相同结果,尽管比值s稍微改变。特殊地,在REPI输出文件中,Fujian 411/2002返回FluAHA3的最高比值。Moscow 10/99,菌株用于在2003年疫苗接种,不返回FluAHA3的REPI输出。
表25:FluAHA3:NW20031114-05-02ACID04-B2
登录号# | 名称 | E值 | 比值: |
1c1|ISDN38157 | 流行性感冒A/Fujian/411/2002血球凝集素104 | 0.0 | 1431.75 |
gi|37530025|gb|AY389356.1 | 流行性感冒A病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因 | 0.0 | 1431.75 |
gi|37530033|gb|AY389360.1 | 流行性感冒A病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因 | 0.0 | 1423.83 |
gi|37530031|gb|AY389359.1 | 流行性感冒A病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因 | 0.0 | 1423.83 |
HA3最高BLAST比值是(流行性感冒A/Fuujian/411/2002红血球凝聚素104),在美国2003-2004流行性感冒爆发的H3N2病原因子,在美国没有进行接种疫苗保护。HA3不能辨别的病毒序列也得到相同的比值。超过500个GenBank记录被返回给HA3,所有具有预期值0.0和从上面显示的到993.636之间范围内变化的比值。疫苗株,(A/Panama/2007/99(H3N2)),不在被返回的HA3区域内流行性感冒A株的列表中。注意:流行性感冒A/Fujian/411/2002_红血球凝聚素_104仅对HA有用,因此这里的其他区域不进行比对。
尽管没有显示,本发明者已经能鉴别出2002-2003流感季节的H1N1发作菌株。
实施例6-减少的杂交时间
Affymetrix CustomSeq方案指出杂交步骤至少需要16个小时促进最大化杂交。对于诊断效能的目的,这是相当长的时间。因此,对本方法缩短杂交时间的适用性和功效进行评估。
在本实施例中,采用样本实施杂交和碱基响应,该样本经特异性PCR反应试剂进行扩增,然后在制备实施例1中描述的再测序微阵列芯片(RPMV1)上杂交1个小时、30分钟、或15分钟。为了对比性研究,除了改变杂交时间之外,执行Affymetrix CustomSeq方案。在被显示的实施例数据(图6)中,鼻腔冲洗液对用微阵列探测的除了红霉素抗性标记物SPYERMB、SPYERMTR、和SPYMEFAE之外的所有靶点是阴性的,鼻腔冲洗液经过每一种标记物的特异性PCR反应。然后,将扩增子杂交来分离微阵列16个小时或者15分钟,然后另外按Affymetrix方案规定的进行处理。
结果出现在图6A[16小时;ex-6a])和图6B[2小时;ex-6b]中。基于GDAS输出(采用“许可”设置),REP1鉴别出下列各自杂交16小时和杂交15分钟的最高“点击”。
相应的GDAS和REP1分析显示出生成的碱基响应的数量在15分钟杂交中小于16个小时杂交中的碱基响应数量(参见表26-31)。例如,经16个小时杂交,SPYERMB拼接区域产生子序列长度219bp区域(拼接区域的98%,95%碱基响应在子序列中生成),而15分钟杂交的不连续杂交模式导致拼接片段(45%的拼接区域,99%碱基响应在子序列中生成)进入长度100bp和87bp(39%的拼接区域,99%碱基响应在子序列中生成)的两个子序列中。
表26:SPYERMB:BL_JMS_020604_TW_3c(16小时杂交)
登录号# | 名称 | E值 | 比值: |
gi|21886737|gb|AF516335.1 | 粪肠球菌质粒体pUW786耐抗生素基因簇 | 1.90377E-98 | 365.247 |
表27:SPYERMB:BL_JMS_020604_TW_3b(15分钟杂交)
登录号# | 名称 | E值 | 比值: |
gi|21886737|gb|AF516335.1 | 粪肠球菌质粒体pUW786耐抗生素基因簇 | 1.6409E-47 | 194.764 |
表28:SPYERMTR:BL_JMS_020604_TW_3c(16小时杂交)
登录号# | 名称 | E值 | 比值: |
gi|2190969|gb|AF002716.1|AF002716 | 化脓性链球菌引导肽1(lpg1)和2(lpg2),红霉素耐甲基酶(ermTR)基因 | 3.18989E-13 | 79.787 |
表29:SPYERMTR:BL_JMS_ _020604_TW_(15分钟杂交)
登录号# | 名称 | E值 | 比值: |
无响应 | N/A | N/A | N/A |
表30:SPYMEFAE:BL_JMS_020604_TW_3c(16小时杂交)
登录号# | 名称 | E值 | 比值: |
gi|22121182|gb|AY071836.1 | 链球菌6大环内酯外排决定簇基因(mefA) | 1.01677E-60 | 240.358 |
表31:SPYMEFAE:BL_JMS_020604_TW_3b(15分钟杂交)
登录号# | 名称 | E值 | 比值: |
gi|22121182|gb|AY071836.1 | 链球菌6大环内酯外排决定簇基因(mefA) | 3.331E-36 | 159.081 |
上面的表显示出实施例6中,16小时杂交时间相对于15分钟杂交时间,被描述的三个不同抗生素抗性标记物的比较性最高顺序。尽管SPYERMTR拼接区域不产生足够量的碱基响应进行15分钟杂交后的鉴别。SPYERMB和SPYMEFAE都返回给包括拼接区域的抗生素抗性标记物相同变异体较高比值(在表9中被鉴别出)。
然而,三个拼接区域中每一种的REPI输出显示出每个区域中最高比值s是相同的(除了缺少15分钟杂交的足够碱基响应的SPYERMTR之外),尽管比值s和预期值在每个例子中是不同的。得到30分钟和1个小时杂交的类似结果,增加杂交时间生成的碱基响应数量得到增加。此外,这个实施例清楚地说明在不同杂交模式范围内的靶点之间做出精确辨别的方法的鲁棒性。
实施例7-消减杂交
当采用总扩增时,许多方法可用于减少临床样本中背景人DNA的数量。一种方法是采用COT-1片段人基因组DNA从杂交溶液中的扩增产物中直接消减背景基因组DNA,该COT-1片段人基因组DNA大量地由迅速退火重复单元组成。另一种方法为在从扩增之前从临床样本中玻璃珠消减背景基因组DNA。第三个方法为联合上述方法,在总扩增之间,使用玻璃球消减从临床样本中消减基因组背景DNA,随即背景DNA可进一步使用COT-1人DNA从杂交溶液中的临床样本中被消减。
图7A和7B的方法
从临床样本中收集鼻腔冲洗液并采用MasterPureTM DNA提纯试剂盒(Epicentre)分离全部核酸。在37℃,采用McrBc(切割在一种或两个链上含有甲基胞嘧啶DNA的内切酶)将核酸简化1个小时,并且加热到65℃使酶变性。随后,样本被分为两组并采用GenomiPhi DNA扩增试剂盒(AmershamBiosciences)进行扩增。依据Affymetrix CustomSeq方案,扩增产物被分割成片段并被标记。
对于这个对比性研究,Affymetrix CustomSeq方案被执行除了下面改变之外。依据Affymetrix CustomSeq方案(图7A)使用标准杂交溶液或依据Affymetrix推荐的(图7B),采用含有12μg鲱精DNA和10μg COT-1人DNA(Roche,Indianapolis,IN)的杂交混合物取代22μg鲱精DNA将临床样本杂交到再测序微阵列芯片(RPMV1)上。
图7C和7D的方法
本实施例描述了当采用总扩增时,玻璃珠消减和玻璃珠消减和消减杂交方法联合提高病原菌特异性信噪比
COT-1人DNA,大量由迅速退火重复单元组成,采用末端转移酶(Tdt)(NEB)在3′-端被生物素化生成生物素化消减探针(BSPs)。分组的~400ngBSPs在4xSSC和0.2%SDS中用临床鼻腔冲洗液(诊断为Ad4阳性临床样本)的核酸提取物于95℃下培养10分钟,该临床鼻腔冲洗液用McrBC于37℃下简化1个小时,然后缓慢冷却至65℃,用HMB交互杂交1个小时。杂交之后,BSP-HMB复合物在室温下于IXPBS、0.1%BSA中用BcMag链霉亲和素磁性玻璃珠(SMBs,Bioclone)培养30分钟。采用磁选器从上层清液中将玻璃珠分离出。然后,将悬浮液转移到新试管中并且采用1XPBS、0.1%BSA将磁性玻璃珠洗涤一次。将上层清液混合在一起并用乙醇进行沉淀。用核酸酶游离水(Ambion)将DNA小珠再悬浮,然后分为两组并依据厂商推荐的方案,用GenomiPhi DNA扩增试剂盒(Amersham Biosciences)进行扩增。简要地,用9μl样本缓冲液于95℃下将1ml DNA模板变性处理3分钟,冷却至4℃。在分离的试管中,1μl酶与9μl反应缓冲液混合,然后将混合物加入到变性的DNA模板上。然后于30℃下在温度循环反应器-PTC225(MJ Research Inc.,Reno,NV)中实施反应18个小时。
对于这个对比性研究,依据Affymetrix CustomSeq方案(图7C)使用标准杂交溶液或依据Affymetrix推荐的(图7D),采用含有12μg鲱精DNA和10μg COT-1人DNA的杂交混合物取代22μg鲱精DNA将扩增样本杂交到再测序微阵列芯片(RPMV1)上。
图7E的方法
采用两倍用量的初始原料重复联合玻璃珠消减和消减杂交方法,图7E中的结果证明本发明者能从用于在制备实施例1中描述的再测序微阵列芯片(RPM Version 1芯片)的临床样本中消减人背景来分辨临床样本中Ad4六联体和纤毛基因的存在和对其进行鉴别。
消减杂交结果
消减杂交方法的结果显示在图7中。如图7中显示的,分离核酸的总扩增导致对RPMV1微阵列的显著性背景杂交。尽管4型腺病毒区域显示出比全部背景更高的可辨识信号,GDAS不能够生成足够碱基响应满足REPI中滑窗条件,因此,没有生成BLAST数据。用COT-1人基因组DNA交互杂交同一组的总扩增子没有提高这个(图7B)并且没有碱基响应生成。图7C显示出在总扩增之前,单独使用磁性玻璃珠消减不产生足够量的碱基响应进行类似性搜索。
然而,经扩增之前联合使用玻璃珠消减和用COT-1人DNA进行交互杂交,生成足够的碱基响应来鉴别和在Ad4HEXON-1拼接区域中三个被鉴别的序列中的每一种内,腺病毒4本地株(没有辨别的海军和空军)比疫苗和腺病毒4原型株排列更高(图7D和表32)。
表32:Ad4HEXON-1:BL_818141_030503_NW_4
登录号# | 名称 | E值 | 比值: |
AY599837 | 血清型4人腺病毒,USAF本地株 | 6.14232E-37 | 161.064 |
AY599835 | 血清型4人腺病毒,美国海军本地株 | 6.14232E-37 | 161.064 |
AY594254 | 血清型4人腺病毒,疫苗株 | 1.49737E-34 | 153.134 |
AY594253 | 血清型4人腺病毒 | 1.49737E-34 | 153.134 |
此外,通过使用2微升起始样本原料取代1微升(图7E)实施同一组组合步骤,碱基响应被延伸到Ad4FIBER拼接区域内(参见表33)除了Ad4HEXON-1(参见表34),在几个Ad4FIBER子序列中进行Ad4本地株(尽管在空军和海军本地株之间不进行辨别)对原型(AY594253)或疫苗菌株(AY594254)的高bit-score排序。然而,在Ad4HEXON-1拼接中能从海军本地株(AY599835)将Ad4空军本地株(登录号.AY599837)辨别出,因为提高碱基响应的数量实现了更完整的序列比对并增强了比值辨别力。
表33:Ad4FIBER:BL_818141_030503_NW_9b
登录号# | 名称 | E值 | 比值: |
AY599837 | 血清型4人腺病毒,USAF本地株 | 3.51948E-22 | 111.505 |
AY599835 | 血清型4人腺病毒,美国海军本地株 | 3.51948E-22 | 111.505 |
AY594254 | 血清型4人腺病毒,疫苗株 | 8.57976E-20 | 103.575 |
AY594253 | 血清型4人腺病毒 | 8.57976E-20 | 103.575 |
表34:Ad4HEXON-1:BL_818141_030503_NW_9b
登录号# | 名称 | E值 | 比值: |
AY599837 | 血清型4人腺病毒,USAF本地株 | 1.59752E-70 | 274.058 |
AY599835 | 血清型4人腺病毒,美国海军本地株 | 9.49375E-66 | 258.199 |
AY594254 | 血清型4人腺病毒,疫苗株 | 5.64196E-61 | 242.34 |
AY594253 | 血清型4人腺病毒 | 5.64196E-61 | 242.34 |
实施例8-RPMV2芯片和其设计
RPM V2芯片的序列拼接列表在下面(表35)中被列出。这表示出RPM V1芯片的容量提高约10倍。
表35:RPMV2芯片表
Alias 有机体 基因名称 登录号:Seq Num 长度 SEQ ID NO:
ATTIM1 Arabidopsis thaliana(1) 磷酸丙糖异构酶(TIM)
Ad3E1A 腺病毒3 E1A AY599834:
Ad3六邻体 腺病毒3 六邻体 AY599834:
Ad3纤毛 腺病毒3 纤毛 AY599834:
Ad7E1A 腺病毒7 E1A AY594255:
Ad7六邻体 腺病毒7 六邻体 AY594255:
Ad7纤毛 腺病毒7 纤毛 AY594255:
海军Ad7E1A 腺病毒7FS Navy E1A AY601634:
海军Ad7六邻体 腺病毒7FS Navy 六邻体 AY601634:
海军Ad7纤毛 腺病毒7FS Navy 纤毛 AY601634:
Ad16E1A 腺病毒16 E1A AY601636:
Ad16六邻体 腺病毒16 六邻体 AY601636:
Ad16纤毛 腺病毒16 纤毛 AY601636:
Ad21E1A 腺病毒21 E1A AY601633:
Ad21六邻体 腺病毒21 六邻体 AY601633:
Ad21纤毛 腺病毒21 纤毛 AY601633:
Ad11E1A 腺病毒11 E1A
Ad11六邻体 腺病毒11 六邻体
Ad11纤毛 腺病毒11 纤毛
Ad35E1A 腺病毒35 E1A
Ad35六邻体 腺病毒35 六邻体
Ad35纤毛 腺病毒35 纤毛
Ad1E1A 腺病毒1 E1A
Ad1六邻体 腺病毒1 六邻体
Ad1纤毛 腺病毒1 纤毛
Ad2E1A 腺病毒2 E1A
Ad2六邻体 腺病毒2 六邻体
Ad2纤毛 腺病毒2 纤毛
Ad5E1A 腺病毒5 E1A
Ad5六邻体 腺病毒5 六邻体
Ad5纤毛 腺病毒5 纤毛
Ad6E1A 腺病毒6 E1A
Ad6六邻体 腺病毒6 六邻体 登录号:Seq Num 长度 SEQ ID NO:
Ad6纤毛 腺病毒6 纤毛
Ad4E1A 腺病毒4 E1A
Ad4六邻体 腺病毒4 六邻体
Ad4纤毛 腺病毒4 纤毛
Ad4AF E1A 腺病毒4FS AF E1A
Ad4AF六邻体 腺病毒4FS AF 六邻体
Ad4AF纤毛 腺病毒4FS AF 纤毛
Ad12E1A 腺病毒12 E1A
Ad12六邻体 腺病毒12 六邻体
Ad12纤毛 腺病毒12 纤毛
Ad17E1A 腺病毒17 E1A
Ad17六邻体 腺病毒17 六邻体
Ad17纤毛 腺病毒17 纤毛
Ad40E1A 腺病毒40 E1A
Ad40六邻体 腺病毒40 六邻体
Ad40纤毛 腺病毒40 纤毛
FluAHA1 甲型流行性感冒H1N1(New Caledonia Like) 血球凝集素1
FluAHA2 甲型流行性感冒H2N2(berkley) 血球凝集素2
FluAHA3 甲型流行性感冒H3N2(Fujian) 血球凝集素3
FluAHA4 甲型流行性感冒H4N6(Swine:Ontario) 血球凝集素4
FluAHA5 甲型流行性感冒H5N1(Vietnam) 血球凝集素5
FluAHA6 甲型流行性感冒H6N2(Turkey;Germany) 血球凝集素6
FluAHA7 甲型流行性感冒H7N7(Netherlands) 血球凝集素7
FluAHA8 甲型流行性感冒H8N4(Duck;Alberta) 血球凝集素8
FluAHA9 甲型流行性感冒H9N2(Swine:China) 血球凝集素9
FluAHA10 甲型流行性感冒H10(Shorebird) 血球凝集素10
FluAHA11 甲型流行性感冒H11(Duck;Taiwan) 血球凝集素11
FluAHA12 甲型流行性感冒H12N4(Kuuuy Iumslone,D
E1Awogs 血球凝集素12
FluAHA13 甲型流行性感冒H13N6(Gull;Astrakan) 血球凝集素13
FluAHA14 甲型流行性感冒H14(mallard;Gurjev) 血球凝集素14
FluAHA15 甲型流行性感冒H15N8(Duck;Australia) 血球凝集素15
FluANA1-1 甲型流行性感冒H1N1(New Caledonia Like) 神经氨酸酶1
FluANA1-2 甲型流行性感冒H5N1(Vietnam) 神经氨酸酶1
FluANA2 甲型流行性感冒H3N2(IrElAnd) 神经氨酸酶2登录号:Seq Num 长度 SEQ ID NO:
FluANA3 甲型流行性感冒H5N3(chicken:TX) 神经氨酸酶3
FluANA4 甲型流行性感冒H8N4(Duck:Alberta) 神经氨酸酶4
FluANA5 甲型流行性感冒H6N5(Shearwater) 神经氨酸酶5
FluANA6 甲型流行性感冒H4N6(Swine:Ontario) 神经氨酸酶6
FluANA7 甲型流行性感冒H7N7(Netherlands) 神经氨酸酶7
FluANA8 甲型流行性感冒H5N8(Duck:NY) 神经氨酸酶8
FluANA9 甲型流行性感冒H2N9(Duck:nanchang) 神经氨酸酶9
FluAH1N1MATRIX 甲型流行性感冒H1N1(New Caledonia Like) 基体
FluAH5N1MATRIX 甲型流行性感冒H5N1(Vietnam) 基体
FluBHA 乙型流行性感冒 血球凝集素B
FluBHA 乙型流行性感冒 神经氨酸酶B
FluBMATRIX 乙型流行性感冒 基体
FluCHA 丙型流行性感冒 血球凝集素-酯酶
FluCMATRIX 丙型流行性感冒 基体
PIV1HN 副流行性感冒1 血球凝集素-神经氨酸酶
PIV1MATRIX 副流行性感冒1 基体
PIV1NC 副流行性感冒1 壳包核酸
PIV2HN 副流行性感冒2 血球凝集素-神经氨酸酶gi
PIV2MATRIX 副流行性感冒2 基体
PIV2NC 副流行性感冒2 壳包核酸
PIV3HN 副流行性感冒3 血球凝集素-神经氨酸酶
PIV3MATRIX 副流行性感冒3 基体
PIV3NC 副流行性感冒3 壳包核酸
PIV4HN 副流行性感冒4 血球凝集素-神经氨酸酶
PIV4MATRIX 副流行性感冒4 基体
HRV14NCR 鼻病毒14 5′NCR
HRV1ANCR 鼻病毒1A 5′NCR
HRV21NCR 鼻病毒21 5′NCR
HRV29NCR 鼻病毒29 5′NCR
HRV58NCR 鼻病毒58 5′NCR
HRV62NCR 鼻病毒62 5′NCR
HRV87NCR 鼻病毒87 5′NCR
HRV95NCR 鼻病毒95-01468 5′NCR
RSVABL RSV A&B 聚合酶L
RSVAMATRIX RSV A 基体 登录号:Seq Num 长度 SEQ ID NO:
RSVANC RSV A 壳包核酸
RSVBMATRIX RSV B 基体
RSVBNC RSV B 壳包核酸
HCV229ESPIKE 冠状病毒229E Spike
HCV229EMEM 冠状病毒229E 膜蛋白
HCV229ENC 冠状病毒229E 壳包核酸
HCVOC43SPIKE 冠状病毒OC43 Spike
HCVOC43MEM 冠状病毒OC43 膜蛋白
HCVOC43NC 冠状病毒OC43 壳包核酸
SARSSPIKE 冠状病毒SARS(Urbani) Spike
SARS MEM 冠状病毒SARS(Urbani) 膜糖蛋白
SARS NC 冠状病毒SARS(Urbani) 壳包核酸
HCVNL63SPIKE 冠状病毒NL63 Spike
HCVNL63ORF3 冠状病毒NL63 ORF3
HCVNL63MEM 冠状病毒NL63 膜蛋白
HCVNL63NC 冠状病毒NL63 壳包核酸
MPVMATRIX 偏肺病毒 基体
MPVNC 偏肺病毒 壳包核酸
HHV1L 人疱疹病毒1(Simplex) DNA聚合酶
POLIO3NCR Sabin3型骨髓灰质炎 5′NCR 登录号:Seq Num 长度 SEO ID NO:
副粘液病毒属中的麻疹病
MEASLESHA 血球凝集素
毒(Rubeola)
副粘液病毒属中的麻疹病
MEASLESMATRIX 基体
毒(Rubeola)
NEWCASTLEHN 新城病毒 血球凝集素-神经氨酸酶
NEWCASTLEMATRIX 新城疾病 基体
WNE 西尼罗河病毒 外层
WNNS 西尼罗河病毒 非结构蛋白质5
WNCM 西尼罗河病毒 C和prM
YFE 黄热病 外层
YFNS 黄热病 非结构蛋白质5
VMVG3R 大天花病毒 G3R
VMVHA 大天花病毒 血球凝集素
VMVSOD 大天花病毒 SOD
VMVCRMB 大天花病毒 CrmB
MONKEYPOX 猴痘病毒 包涵体人体蛋白质
EBOLAL Reston埃博拉 L
EBOLANP Reston埃博拉 NP
EBOLAMATRIX Reston埃博拉 基体
MARBURGL 马尔堡病毒 L蛋白
MARBURGNP 马尔堡病毒 NP
LASSAL 拉沙热病毒 L
SINNOMBRENC 未名病毒 壳包核酸 登录号:Sea Num 长度 SEQ ID NO:
NORWALKL 诺沃克病毒 RNA无关的RNA聚合酶
NORWALKCAPSID 诺沃克病毒 壳蛋白
DENGUECAPSID 登革热病毒 壳蛋白
DENGUEM 登革热病毒 pre-M蛋白
DENGUE1NCR 1型登革热 3′NCR
DENGUE2NCR 2型登革热 3′NCR
DENGUE3NCR 3型登革热 3′NCR
DENGUE5NCR 4型登革热 3′NCR
FMDVVP1 手足和口疾病病毒 VP1
FMDV3D 手足和口疾病病毒 3D
SLEVNS5 圣路易斯脑炎病毒 NS5
SLEVPP 圣路易斯脑炎病毒 多蛋白前体
RVFVN 立夫特谷热病毒 N
RVFVNS 立夫特谷热病毒 NS
尤苏它病毒PP 尤苏它病毒病毒 多蛋白前体
JEVPP 日本脑炎病毒 多蛋白前体
金迪普拉病毒MATRIX 金迪普拉病毒 基体
金迪普拉病毒GP 金迪普拉病毒 糖蛋白
ATTIM2 Arabidopsis thaliaba(2) 磷酸丙糖异构酶(TIM)
ATTIM3 Arabidopsis thaliana(3) 磷酸丙糖异构酶(TIM)
SPYEMM44 化脓性链球菌 Emm44 登录号:Seq Num 长度 SEQ ID NO:
SPYEMM61 化脓性链球菌 emm61
SPYEMM75 化脓性链球菌 Emm75
SPYEMM77 化脓性链球菌 Emm77
SPYEMM89 化脓性链球菌 Emm89
SPYEMM94 化脓性链球菌 Emm94
SPYCSR 化脓性链球菌 Csr R&CsrS
SPYSFB1 化脓性链球菌 sfb1
SPYSPEB 化脓性链球菌 SpeB
SPNGYRA 肺炎链球菌 GyrA
SPNPLYTA 肺炎链球菌 自溶素,lytA
SPNPLY 肺炎链球菌 肺松术,ply
SAUGYRA 金黄色葡萄球菌 GyrA
SAUTST 金黄色葡萄球菌 tst
SAUENT-K 金黄色葡萄球菌 EntK
SAUENTQ 金黄色葡萄球菌 EntQ
CPNGYRA 肺炎衣原体 GyrA
CPNOMPB 肺炎衣原体 OmpB
CPNMOMPVD4 肺炎衣原体 MOMP VD4
MTURPOB 结核分枝杆菌 RpoB 登录号:Seq Num 长度 SEQ ID NO:
MPNGYRA 肺炎衣原体 GyrA
MPNP1 肺炎衣原体 P1基因
NMEGYRA 脑膜炎奈瑟氏球菌 GyrA
NMEMVIN 脑膜炎奈瑟氏球菌 MviN
NMECTRA 脑膜炎奈瑟氏球菌 荚膜转移蛋白(ctrA)
NMECRGA 脑膜炎奈瑟氏球菌 crgA
AHEl6S 溶血隐秘杆菌 16S rRNA
AHEPLD 溶血隐秘杆菌 pld
BANGYRA 炭疽杆菌 GyrA
BANLEF 炭疽杆菌 致命因素
BANPAG 炭疽杆菌 保护性抗原
BANRPOB 炭疽杆菌 rpoB
BANCYA 炭疽杆菌 Cya
BANCAPB 炭疽杆菌 荚囊蛋白基因B(capB)
BCERPOB 腊样芽胞杆菌 rpoB
BSUGYRA 枯草杆菌 GyrA
BSURPOB 枯草杆菌 rpoB
BTHCRY 苏云金芽孢杆菌 cry
BTHRPOB 苏云金芽孢杆菌 rpoB
BPEGYRA 百日咳博德特氏菌 GyrA
BCEPRECA 洋葱伯克霍尔德菌 RecA 登录号:Seq Num 长度 SEQ ID NO:
CPEGYPC 产气荚膜梭菌 GyrA
CPETMPC 产气荚膜梭菌 TmpC
CBUGYRA 贝氏考克斯菌 GyrA
CBUTOLC 贝氏考克斯菌 ToIC
FTURD1A 土拉弗朗西斯菌亚种土拉菌株 RD1-A
FTURD1B 土拉弗朗西斯菌亚种土拉菌株 RD1-B
FTUTUL4 土拉弗朗西斯菌 TUL4
FTUMDH 土拉弗朗西斯菌 mdh
FTU13KD 土拉弗朗西斯菌 13-kDa蛋白
FTUFOPA 土拉弗朗西斯菌 外层膜蛋白FopA
OTSGROEL 恙虫病东方体 GroEL
OTSSTA56 恙虫病东方体 sta56
RPRGARA 普氏立克次体 GyrA
PAPOMP1 普氏立克次体 Omp1
YPEGYRA 鼠疫杆菌 GyrA
YPEOMPA 鼠疫杆菌 OmpA
YPECVE 鼠疫杆菌 cve2155序列
YPECAF1 鼠疫杆菌 caf1
ACAHAG 荚膜阿杰罗菌属 H抗原
ACAMAG 荚膜阿杰罗菌属 M抗原
VCHGYRA 霍乱弧菌 GyrA 登录号:Seq Num 长度 SEQ ID NO:
VCHOMPA 霍乱弧菌 OmpA
MSRA 金黄色链球菌 MSR(A)
MECR1 金黄色链球菌 mecR1
MEFA 化脓性链球菌 MefA
ERMTR 化脓性链球菌 Erm(TR)
ERMB 化脓性链球菌 ErmB
ERMB 普氏立克次体 EmrB
GYRB 肺炎链球菌 GyrB
PARC 肺炎链球菌 ParC
PARE 肺炎链球菌 parE
PBP1 肺炎链球菌 ponA(PbplA)
PBP5 屎肠球菌 pbp5
MECA 金黄色链球菌pUB110 mecA
BLAZ 金黄色链球菌质粒pLW043 blaz
DFRA 金黄色链球菌质粒pLW043 dfrA
VANA 金黄色链球菌质粒pLW043 vanA
QACC 金黄色链球菌质粒pLW043 qacC
RMTB 大肠杆菌 rmtB
STRA 大肠杆菌pMBSF1质粒 strA
TETG 假单胞菌属sp.质粒pPSTG2 (tetG) 登录号:Seq Num 长度 SEQ ID NO:
TETL 猪葡萄球菌(质粒pSTE1) tet(L)
TETB 转位子Tn 10 tet(B) AY599834:
PTX 百日咳博德特氏菌 百日咳毒素 AY599834:
BONT 肉毒杆菌 bonT AY599834:
NTNH 肉毒杆菌 ntnh AY594255:
BOTE 肉毒杆菌 botE AY594255:
EPSILON 产气荚膜梭菌质粒体 epsilon-toxin AY594255:
TETANUS 破伤风杆菌 破伤风毒素 AY601634:
STX1A E.coli 0157:H7 stx1A AY601634:
STX2A E.coli 0157:H7 Stx2A AY601634:
RICINUSTOXIN 蓖麻子 蓖麻子toxin AY601636:
CTXAB 霍乱弧菌 ctxA+ctxB AY601636:
PBLUEVEC pBluescript IIKS(+) AY601636:
PGEMVEC pGEM-9Zf(-) AY601633:
PUCVEC pUC4KAN AY601633:
ATTIM4 Arabidopsis thaliana(4) 磷酸丙糖异构酶(TIM) AY601633:
实施例9-采用随机RT-PCR方法鉴别流行性感冒A株
这个实施例是为了介绍新改进的随机RT-PCR方案的应用,该新改进的随机RT-PCR方案是关于被加入到正常鼻腔冲洗液样本中的被分离的流行性感冒A(Fujan/411/2002 strain)核酸。随机RT-PCR方案已经被DeRisi′s研究室采用扩增病毒病原菌用于微阵列查询(Wang et al.,2003)。对该方案的改进被最近报道用于扩增培养流行性感冒病毒(Kessler et al.,2004)。然而。改进的方案没有被报道扩增临床样本中病毒靶点。
流行性感冒A病毒培养物(H1N1&H3N2)由空军健康研究所(AFIOH)提供并送到Virapure,LLC在研究之前进行扩增和量化。依据化验证明书,在1μg/ml TPCK处理胰岛素存在下,病毒在早期传代MDCK细胞上被扩增两轮。在感染48小时后,收集病毒上层清液并调节含有含有3%蔗糖,20mM Tris,pH值7.1和pH稳定剂。在输送之前,带有螺纹的瓶中装满200-300μl分装的上层清液。依据方法AM110,滴定每个样本小瓶执行流行性感冒的病毒空斑形成试验。流行性感冒A H3N2、K0717 SV5/SV40 RMK的滴定量为1.2X107PFU/ml,流行性感冒A/California/2935/03/H1N1的滴定量为5X106PFU/ml。
为了生成临床采集对照组,从Lackland AFB先进诊断实验室临床部的无症状成员得到鼻腔冲洗液(0.9%生理盐水)。从每个Virapure量化前滴定量,流行性感冒鼻腔吸出物的10倍/6组稀释液被生成以每个菌株的Virapure群开始并包括每个菌株的Virapure群。采用EPICENTRE定量供给的MasterPure总核酸提取物,全部100μl的每个流行性感冒鼻腔吸出物从稀释液中被加工处理。在执行这个方案期间,150μl的2XT和含有蛋白酶K的C裂解液被加入到每100μl被掺入的鼻腔冲洗液的稀释液中,充分混合并于65℃下培养15分钟。下一步,将样本置于冰上5分钟随即加入150μl的MPC蛋白沉淀剂。将样本充分剧烈混合10秒。然后以10,000xg离心过滤10分钟将混合物沉淀并将上层清液转移至微量离心管内。为了重新获得上层清液,加入500μl异丙醇并颠倒(30-40)次。
于4℃下将混合物离心10分钟并不移动小球倒出异丙醇。随后,用75%乙醇冲洗小球两次并在室温下干燥。一旦干燥,将核酸小球在35μl TEBuffer中再悬浮。每个样本被正确标记并且在装运到海军研究实验室之前置于干冰上。
三个100μl正常鼻腔冲洗液分组的每一种被加入的流行性感冒AH3N2病毒培养物的一系列稀释液(范围从105pfu到101pfu)。依据被描述的(Kessler et al.,2004),采用如实施例5中的EPICENTRE MasterPureTMDNA提纯试剂盒(Madison,Wisconsin)提取总核酸,并且悬浮在40μl中。随机RT-PCR反应应用如下:
采用1μl引物D(40 pmol/μl;5′-GTT TCC CAG TCA CGA TCN NNNNNN NN;SEQ ID NO:573)和20μl内含有1μl SuperScriptTMIII反转录酶(50units/μl;Invitrogen,Carlsbad,CA),将2μl总核酸反转录。于42℃下,RT(反转录)反应进行1小时,然后于70℃下失活15分钟。然后用1μl引物E(100pmol/μl;5′-GTT TCC CAG TCA CGA TC;SEQ ID NO:574)和50μl内含有2.5单位的TaqPlus长聚合酶(5 urnitst/μl,Stratagene,La Jolla,CA),扩增10μl RT产物。PCR反应被执行35轮,94℃30秒,40℃30秒,和72℃160秒,随即在72℃下额外进行7分钟。依据Affymetrix Customseq方案,105、103和101pfu流感外加样本的PCR产物被用于三个不同V1RPM病原菌微阵列进行杂交
V1RPM芯片扫描三个外加样本,105、103、和101pfu,经随机RT-PCR方法扩增,各自显示在图8 A-C中。所有样本在至少少许流行性感冒A拼接区域内生成清晰的序列响应,表明随机RT-PCR方案甚至在没有人基因组DNA的干扰下成功地在峰值样本中扩增流感基因组。基于GDAS输出(采用“许可”设置),REPI鉴别出下列每个样本的4个最高“点击”(表36-38)。105(表36)和103pfu(表37)样本的最高4个点击对应于正确的Fujian/411/2002菌株的最高排序并且与获得的Fujian/411/2002(+)临床样本NW20031114-05-02 ACID04-B2的最高排序相同,经流行性感冒通用引物进行扩增(在表25中显示出)。这个结果表明随机RT-PCR具有扩增能力类似于样本中具有相对较高滴定量病毒的流行性感冒A特异性PCR反应。较低滴定量的流感病毒(101pfu),杂交拼接区域的百分率和碱基响应的百分率降低了。这导致排序稍微偏移,使Fujian 411/2002受限于第二高排列菌株。然而,V1RPM仍能读出外加病毒如H3N2 Pretoria菌株,最初源自Fujian/411/2002菌株同源并几乎与Fujian/411/2002菌株同源。
因为在这个试验中成功实施了随机RT-PCR反应,应相信的,这个方案将运用在流感临床样本和其他病原菌病毒中。
表36:FluAHA3:甲型流行性感冒H3N2加入样本(105pfu)
登录号# | 名称 | E值 | 比值: |
1c1|ISDN38157 | 甲型流行性感冒/Fujian/411/2002_血球凝集素_104 | 0.0 | 1400.04 |
gi|37530025|gb|AY389356.1 | 甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因 | 0.0 | 1400.04 |
gi|37530033|gb|AY389360.1 | 甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因 | 0.0 | 1392.11 |
gi|37530031|gb| | 甲型流行性感冒病毒 | 0.0 | 1392.11 |
AY389359.1 | (A/pretoria/16/03(H3N2))血球凝集素(HA)基因 |
表37:FluAHA:甲型流行性感冒H3N2加入样本(103pfu)
登录号# | 名称 | E值 | 比值: |
1c1|ISDN38157 | 甲型流行性感冒/Fujian/411/2002_血球凝集素_104 | 0.0 | 1471.4 |
gi|37530025|gb|AY389356.1 | 甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因 | 0.0 | 1471.4 |
gi|37530033|gb|AY389360.1 | 甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因 | 0.0 | 1463.47 |
gi|37530031|gb|AY389359.1 | 甲型流行性感冒病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因 | 0.0 | 1463.47 |
表38:FluAHA3:甲型流行性感冒H3N2加入样本(101pfu)
登录号# | 名称 | E值 | 比值: |
gi|37530033|gb|AY389360.1 | 甲型流行性感冒病毒(A/pretoria/17/03(H3N2))血球凝集素(HA)基因 | 0.0 | 686.389 |
gi|37530031|gb|AY389359.1 | 甲型流行性感冒病毒(A/pretoria/16/03(H3N2))血球凝集素(HA)基因 | 0.0 | 686.389 |
gi|37530029|gb|AY389358.1 | 甲型流行性感冒病毒(A/pretoria/2/03(H3N2))血球凝集素(HA)基因 | 0.0 | 686.389 |
gi|37530025|gb|AY389356.1 | 甲型流行性感冒病毒(A/Middleburg/41/03(H3N2))血球凝集素(HA)基因 | 0.0 | 686.389 |
1c1|ISDN38157 | 甲型流行性感冒/Fujian/411/2002_血球凝集素_104 | 0.0 | 678.459 |
这个实施例是重要的,因为它显示出完全无偏差扩增方法,来自2001年6月公共领域方案,可用作再测序微阵列制备步骤,导致PCR-水平灵敏性(101靶点拷贝)。尽管这个扩增方案已经用于长低聚物(70-mer)微阵列试验的一些公开实施例,它将满足再测序微阵列方法不是显而易见的。依据上述教导,本发明的许多改进和变化是可能的。因此,可理解的,在附属权利要求书界定的范围内,可按不同于这里明确描述的方法来实施本发明
实施例10:其他病原菌测试:
总的来说,下列病原菌在RPMV1上从实验室和/或临床样本中被检测出/辨别出,(总表达>180测试芯片)鉴别和输入个体100%一致,除了表达类型变异菌株之间同源序列的序列拼接部分之外,无类型交互杂交:
人腺病毒群C Ad5原型 Ad5USA本地株
人腺病毒群E Ad4原型 Ad4AF本地株
Ad4疫苗 Ad4USN本地株
人腺病毒群B Ad3原型 Ad3USN本地株
Ad7原型 Ad7USN本地株
Ad7疫苗
Ad16原型
Ad21原型 Ad21本地株
流行性感冒A H1N1 H3N2
大天花或(天花)
拉沙病毒
埃博拉病毒
肺炎链球菌
化脓性链球菌
肺炎衣原体
肺炎支原体
脑膜炎双球菌
炭疽芽孢杆菌
鼠疫耶尔辛氏杆菌
弗朗西斯氏菌
制备的非传染性大天花(天花)、埃博拉病毒、炭疽芽胞杆菌、鼠疫杆菌和土拉热弗朗西斯菌实验室样本的RPMV1微阵列结果的筛选实施例已经被实施,但在这里没有显示出。采用特异性PCR引物制备大天花(天花)、埃博拉病毒、和鼠疫杆菌样本。采用GenomiPhi试剂扩增炭疽芽胞杆菌和鼠疫杆菌样本(如实施例3中描述的)。
实施例11:腺病毒序列的性质
下列表列出序列特性和表6中出现的测序腺病毒的推定基因产物和SEQ ID NOs:575-587。
表39:Ad3(登录号NO.AY599834;SEQ ID NO:575)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..134 | ||
启动子 | 480..485 | “E1A基因的TATA框符” | |
CDS | 结合(576..662,1250..1351) | 基因=“E1A” | “6KD蛋白质” |
CDS | 结合(576..1155,1250..1455) | 基因=“E1A” | “29.1KD蛋白质” |
CDS | 结合(576..1062,1250..1455) | 基因=“E1A” | “25K蛋白质” |
多A-位点 | 1494..1499 | “E1A的多A-位点” | |
启动子 | 1549..1554 | “E1B基因”的TATA框符 | |
CDS | 1603..2139 | 基因=“E1B” | “19KD小型T抗原” |
CDS | 1908..3386 | 基因=“E1B” | 55K蛋白质 |
启动子 | 3384..3389 | “pIX的TATA框符” | |
多A-位点 | 3450..3455 | “E1B的多A-位点” | |
CDS | 3480..3896 | 基因=“蛋白质IX” | “蛋白质IX” |
多A-位点 | 3913..3918 | “pIX的多A-位点” | |
多A-位点 | 互补(3925..3930) | “E2B的多A-位点” |
CDS | 互补(连接(3948..5281,5560..5572)) | 基因=“E2B” | IVA2成熟蛋白质 |
CDS | 互补(5051..8419) | 基因=“E2B” | “DNA聚合酶” |
CDS | 5123..5692 | 基因=“假设” | “假设20.6KD早期蛋白质” |
启动子 | 5872..5877 | “主要晚期启动子的TATA框符” | |
CDS | 互补(6868..7389) | 基因 | “假设”=“假设19KD蛋白质” |
CDS | 7829..8425 | 基因=“L1” | “可能的DNA结合病毒蛋白” |
CDS | 互补(连接(8422..10389,13848..13856)) | 基因=“pTP” | “DNA末端蛋白质前体” |
CDS | 9757..10032 | 基因=“假设” | “假设9.7KD蛋白质” |
misc_RNA | 10422..10595 | “病毒相关RNAI” | |
CDS | 10890..12026 | 基因=“L1” | “55KD蛋白质” |
CDS | 12051..13817 | 基因=“L1” | “pIIIa蛋白质” |
多A-位点 | 13830..13835 | “L1的多A-位点” | |
CDS | 13905..15539 | 基因=“L2” | “五邻体碱基蛋白质” |
CDS | 15553..16131 | 基因=“L2” | “pVII” |
CDS | 16174..17223 | 基因=“L2” | “蛋白质V” |
多A-位点 | 17498..17503 | “L2的多A-位点” | |
CDS | 17555..18001 | 基因=“L3” | “蛋白质VI” |
CDS | 18420..21254 | 基因=“L3” | “六邻体蛋白质” |
CDS | 21291..21920 | 基因=“L3” | “25K蛋白质酶” |
多A-位点 | 21940..21945 | “L3的多A-位点” | |
多A-位点 | 互补(21952..21957) | “E2A的多A-位点” | |
CDS | 互补(22006..23559) | 基因=“E2A” | “DNA结合蛋白质” |
CDS | 23590..26076 | 基因=“L4” | “六邻体组合相关的100KD蛋白质” |
CDS | 25778..26375 | 基因=“L4” | “22K蛋白质” |
CDS | 连接(25778..26159,26296..26651) | 基因=“L4” | “33KD蛋白质” |
CDS | 26722..27405 | 基因=“L4” | “蛋白质VIII” |
启动子 | 27087..27092 | “E3基因”的TATA框符 | |
CDS | 27405..27725 | 基因=“E3” | “12.5KD蛋白质” |
CDS | 27679..28002 | 基因=“E3” | “16KD糖蛋白” |
CDS | 28104..28622 | 基因=“E3” | “18.5蛋白质” |
CDS | 28652..29191 | 基因=“E3” | “20.1KD蛋白质” |
CDS | 29204..29773 | 基因=“E3” | “20.1KD蛋白质”,复制拷贝 |
CDS | 29788..30021 | 基因=“E3” | “9K糖蛋白” |
CDS | 30063..30338 | 基因=“E3” | “10.3KD蛋白质” |
CDS | 30310..30747 | 基因=“E3” | “14.9KD蛋白质” |
CDS | 30740..31150 | 基因=“E3” | “14KD蛋白质” |
多A-位点 | 31183..31188 | “E3的多A-位点” | |
CDS | 互补(31194..31355) | 基因=“U” | “U蛋白” |
CDS | 31370..32329 | 基因=“L5” | “纤毛蛋白” |
多A-位点 | 互补(32354..32359) | “E4的多A信号” | |
CDS | 互补(32370..32621) | 基因=“E4” | “ORF6/7” |
CDS | 互补(32618..33517) | 基因=“E4” | “33.2KD蛋白质” |
CDS | 互补(33420..33788) | 基因=“E4” | “13.6KD蛋白质” |
CDS | 33643..34152 | 基因=“L5” | “病毒蛋白” |
CDS | 互补(33797..34150) | 基因=“E4” | “11KD蛋白质” |
CDS | 互补(34147..34536) | 基因=“E4” | “14.3KD蛋白质” |
多A-位点 | 34561..34566 | “L5的多A-位点” | |
CDS | 互补(34578..34955) | 基因=“E4” | “13.9KD蛋白质” |
启动子 | 互补(35037..35042) | “E4启动子TATA框符” | |
重复区 | 互补(35212..35345) | “倒转末端重复” |
表40:Ad3FS_navy(登录No.AY599836;SEQ ID NO:576)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..111 | “倒转末端重复” | |
启动子 | 480..485 | “E1A的TATA框符” | |
CDS | 结合(576..647,1248..1349) | 基因=“E1A” | “6.9K蛋白质” |
CDS | 结合(576..1062,1248..1453) | 基因=“E1A” | “25K蛋白质” |
CDS | 结合(576..1155,1248..1453) | 基因=“E1A” | “29K蛋白质” |
多A-位点 | 1492..1497 | “E1A的多A-位点” | |
启动子 | 1547..1552 | “E1B的TATA框符” | |
CDS | 1601..2137 | 基因=“E1B” | “19K小型T抗原蛋白” |
CDS | 1906..3384 | 基因=“E1B” | “55K大型T抗 |
原蛋白” | |||
启动子 | 3428..3433 | “pIX的TATA框符” | |
多A-位点 | 3448..3453 | “E1B的多A-信号” | |
CDS | 3478..3894 | 基因=“pIX” | “蛋白质IX” |
多A-位点 | 3907..3912 | “pIX的多A-信号” | |
多A-位点 | 互补(3923..3928) | “E2B的多A-信号” | |
CDS | 互补(连接(3946..5279,5558..5570)) | 基因=“E2B” | “IVa2蛋白质” |
CDS | 互补(5049..8417) | 基因=“E2B” | “DNA聚合酶” |
CDS | 5123..5692 | 基因=“假设” | “假设20.6KD早期蛋白质” |
启动子 | 5870..5875 | “主要晚期启动子的TATA框符” | |
CDS | 6142..6462 | 基因=“假设” | “假设11.5K早期蛋白质” |
CDS | 7131..7418 | 基因=“假设” | “假设10.4K早期蛋白质” |
CDS | 7827..8423 | 基因=“L1” | “可能的DNA结合病毒蛋白” |
CDS | 连接(8427..8562) | 基因=“E2B” | “假设12.6K早期蛋白质” |
CDS | 互补(连接(8420..10387,13840..13848)) | 基因=“E2B” | “末端蛋白质前体,akaBettet′s蛋白质” |
CDS | 连接(9532..9846) | 基因=“假设” | “11.3K早期蛋白质” |
CDS | 9746..10021 | 基因=“假设” | “9.7K早期蛋白质” |
misc_RNA | 10411..10584 | “VA RNA I” | |
misc_RNA | 10422..10595 | “VA RNA II” |
CDS | 10861..12018 | 基因=“L1” | “55K蛋白质” |
CDS | 12043..13809 | 基因=“L1” | “六邻体相关蛋白质IIIa前体” |
多A-位点 | 13822..13827 | “L1的多A-信号” | |
CDS | 13897..15531 | 基因=“L2” | “五邻体碱基蛋白质” |
CDS | 15545..16123 | 基因=“L2” | “pVII 21K蛋白质” |
CDS | 16166..17218 | 基因=“L2” | “L2蛋白质V” |
多A-位点 | 17493..17498 | “L2的多A-信号” | |
CDS | 17550..18302 | 基因=“L3” | “pVI” |
CDS | 18415..21243 | 基因=“L3” | “六邻体蛋白质” |
CDS | 21286..21915 | 基因=“L3” | “23K蛋白质酶” |
多A-位点 | 21935..21940 | “L3的多A-信号” | |
CDS | 互补(21947..21952) | ||
CDS | 互补(22002..23552) | “E2A” | “DNA结合蛋白质” |
CDS | 23583..26057 | 基因=“L4” | “100K蛋白质” |
CDS | 25759..26358 | 基因=“L4” | “22K蛋白质” |
CDS | 连接(25759..26107,26289..26632) | 基因=“L4” | “33K蛋白质” |
CDS | 26772..27405 | 基因=“L4” | “蛋白质VIII,六邻体相关蛋白质前体” |
启动子 | 27067..27072 | “E3基因”的TATA框符 | |
CDS | 27385..27705 | 基因=“E3” | “12.2K糖蛋白” |
CDS | 27659..28099 | 基因=“E3” | “16K糖蛋白” |
CDS | 28084..28602 | 基因=“E3” | “18.5K糖蛋白” |
CDS | 28632..29171 | 基因=“E3” | “20.1K糖蛋白” |
CDS | 29184..29753 | 基因=“E3” | “20.1K糖蛋白” |
CDS | 29985..30260 | 基因=“E3” | “10.3K糖蛋白” |
CDS | 30232..30669 | 基因=“E3” | “14.9K糖蛋白” |
CDS | 30662..31072 | 基因=“E3” | “15.3K蛋白质” |
多A-位点 | 31105..31110 | “E3的多A-信号” | |
CDS | 互补(31116..31277) | 基因=“U外显子” | “U外显子蛋白” |
CDS | 31292..32251 | 基因=“L5” | “纤毛蛋白” |
多A-位点 | 互补(32276..32281) | “E4的多A信号” | |
CDS | 互补(32292..32543) | 基因=“E4” | “ORF6/7” |
CDS | 互补(32540..33439) | 基因=“E4” | “34K蛋白质” |
CDS | 互补(33342..33710) | 基因=“E4” | “13.6K蛋白质” |
CDS | 33565..34074 | 基因=“L5” | “DNA结合病毒蛋白” |
CDS | 互补(33719..34072) | 基因=“E4” | “ORF3” |
CDS | 互补(34069..34458) | 基因=“E4” | “14.3K蛋白质” |
多A-位点 | 34483..34488 | “L5的多A-信号” | |
CDS | 互补(34500..34877) | 基因=“E4” | “13.9K蛋白质” |
启动子 | 互补(34959..34964) | “E4基因的TATA框符” | 启动子 |
重复区 | 互补(35155..35265) | “倒转末端重复” | 重复区域 |
表41:Ad4(登录No.AY594253;SEQ+ ID NO:577)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..116 | “ITR” |
启动子 | 472..511 | “E1A” | |
CDS | 576..1154 | 基因=“E1A” | “ORF1:假设性” |
CDS | 结合(576..650,1236..1340) | 基因=“E1A” | “早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白,GI:17227344 |
CDS | 结合(576..1142,1235..1441) | 基因=“E1A” | “早期E1A 28KD蛋白”相似于猴腺病毒2528.2kDa蛋白,GI:17227342 |
CDS | 结合(576..1049,1235..1441) | 基因=“E1A” | “早期E1A 24.6KD蛋白”相似于猴腺病毒2524.8kDa蛋白,GI:17227343 |
多A-信号 | 1499..1504 | “E1A” | |
启动子 | 1553..1592 | “E1B” | |
CDS | 结合(1600..2001,2003..2029) | 基因=“E1B” | “小型T抗原蛋白(E1B19K)” |
CDS | 1600..2115 | 基因=“E1B” | “早期E1B 20KD蛋白”相似于猴腺病毒2520.5kDa蛋白,GI:17227345 |
CDS | 结合(1905..2123,3259..3276) | 基因=“E1B” | “早期E1B 8.2KD蛋白”相似于猴腺病毒2510.1kDa蛋白,GI:17227348 |
CDS | 1905..3356 | 基因=“E1B” | “大型T抗原”相似于猴腺病毒2554.7kDa蛋白,GI:17227347 |
CDS | 结合(1905..2123,3141..3356) | 基因=“E1B” | “早期E1B 16.8KD蛋白”相似于猴腺病毒2518.5kDa蛋白,GI:17227346 |
CDS | 3141..3869 | 基因=“IX” | “蛋白质IX(六邻体相关蛋白质)”相似于猴腺病毒25pIX,GI:17227349 |
多A-位点 | 3880..3885 | “E1B和IX” |
多A-位点 | 互补(3902..3907) | “E2B和IVa2” | |
CDS | 互补(连接(3930..5263,5542..5554)) | 基因=“IVa2” | “IVa2蛋白质(成熟蛋白质)”相似于猴腺病毒25pIVa2,GI:17227350 |
CDS | 互补(连接(5033..8605,12212..12220)) | 基因=“E2B(POL)” | “DNA聚合酶”相似于猴腺病毒25TPA:pol,GI:33694808 |
CDS | 5105..5674 | 基因=“E2B” | “19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白,GI:58522 |
CDS | 6126..6446 | 基因=“E2B” | “11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白,GI:58524 |
CDS | 7814..8407 | 基因=“L1” | “DNA结合蛋白质(病毒蛋白)”相似于猴腺病毒21.9KD蛋白,GI:17227351 |
CDS | 连接(7814..7819,8536..8928) | 基因=“E2B” | “14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白,GI:58528 |
CDS | 互补(连接(8404..10323,12212..12220)) | 基因=“E2B(pTP)” | “前体末端蛋白质”相似于猴腺病毒25TPA:pTP,GI:33694809 |
misc_RNA | 10356..10514 | “病毒相关RNAI” | “VA RNAI,159nt” |
启动子 | 互补(10457..10496) | “E2B” | |
启动子 | 10541..10580 | “L1” | |
misc_RNA | 10575..10743 | “病毒相关RNAII” | “VA RNA-II,169nt” |
CDS | 10765..11937 | 基因=“L1(52k)” | “52K蛋白”相似于猴腺病毒2542.9kDa(52k)蛋白,GI:17227352 |
多A-信号 | 11942..11947 | “L1(52k)” | |
CDS | 11961..13736 | 基因=“L1(IIIa)” | “蛋白质IIIa”相似于 |
猴腺病毒25TPA:pIIIa,GI:33694811 | |||
多A-信号 | 13749..13754 | “L1(IIIa)” | |
启动子 | 13758..13797 | “L2” | |
CDS | 13815..15422 | 基因=“L2(五邻体)” | “五邻体蛋白质(蛋白质III)”相似于猴腺病毒25p III,GI:17227353 |
多A-信号 | 15425..15430 | “L2(五邻体)” | |
CDS | 15426..16007 | 基因=“L2(pVII)” | “大核蛋白质(蛋白质VII)”相似于猴腺病毒25pVII,GI:17227354 |
CDS | 16055..17080 | 基因=“L2(pV)” | “小核蛋白质(蛋白质V)”相似于猴腺病毒25TPA:pV,GI:33694814 |
CDS | 17103..17336 | 基因=“L2(pX)” | “蛋白质X(蛋白质mu)”相似于猴腺病毒25TPA:pX,GI:33694815 |
多A-信号 | 17357..17362 | “L2(pX)” | |
CDS | 17368..18141 | 基因=“L3(pVI)” | “蛋白质VI(六邻体相关蛋白质)”相似于猴腺病毒25pVI,GI:17227356 |
CDS | 18248..21058 | 基因=“L3(六邻体)” | “六邻体蛋白质(蛋白质II)”相似于猴腺病毒25pII(六邻体),GI:17227357 |
CDS | 21082..21702 | 基因=“L3(23k)” | “后期L323k蛋白酶(Adenain)”相似于猴腺病毒25蛋白酶类,GI:33694818 |
多A-信号 | 21725..21730 | “L3” | |
多A-信号 | 互补(21767..21772) | “E2A” | |
CDS | 互补(21774..23312) | 基因=“E2A(DBP)” | “早期E2A DNA结合蛋白”相似于猴腺病 |
毒25DNA结合蛋白,GI:17227358 | |||
CDS | 23341..25716 | 基因=“L4(100k)” | “100k蛋白质”相似于猴腺病毒25TPA:100k,GI:33694820 |
启动子 | 互补(23345..23384) | “E2A” | |
CDS | 25439..25978 | 基因=“L4(22k)” | “22k蛋白质”相似于猴腺病毒25TPA:22k,GI:33694822 |
CDS | 连接(25439..25756,25926..26249) | 基因=“L4(33k)” | “33k蛋白质”相似于猴腺病毒25TPA:33k(24.3kDa),GI:17227359 |
CDS | 26318..27001 | 基因=“L4(pVIII)” | “L4蛋白质VIII”相似于猴腺病毒25pVIII,GI:17227360 |
CDS | 27002..27322 | 基因=“E3” | “E312.1kDa蛋白质”相似于猴腺病毒2511.6kDa蛋白质,GI:17227361 |
CDS | 27276..27908 | 基因=“E3” | “E323.3kDa蛋白质”相似于猴腺病毒25TPA:E3CR1-α1,GI:33694825 |
CDS | 27890..28414 | 基因=“E3” | “E319kDa蛋白质”相似于猴腺病毒25TPA:E3gp19k(19.3kDa),GI:33694826 |
CDS | 28445..29107 | 基因=“E3” | “E324.8kDa蛋白质”相似于猴腺病毒2522.3kDa蛋白质,TPA:E3CR1-γ1,GI:17227364 |
CDS | 29275..29439 | 基因=“E3” | “E36.3kDa蛋白质” |
CDS | 29436..30260 | 基因=“E3” | “E329.7kDa蛋白质”相似于猴腺病毒25TPA:E3CR1-δ1,GI:33694829 |
CDS | 30269..30544 | 基因=“E3” | “E310.4kDa蛋白质”相似于猴腺病毒259.9kDa蛋白质,GI:17227365 |
CDS | 30550..30990 | 基因=“E3” | “E314.5kDa蛋白质”相似于猴腺病毒2515.6kDa蛋白质,GI:17227366 |
CDS | 30983..31384 | 基因=“E3” | “E314.7kDa蛋白质”相似于猴腺病毒2514.7kDa蛋白质,GI:17227367 |
多A-信号 | 31424..31429 | “E3” | |
启动子 | 31473..31512 | “L5” | |
CDS | 31645..32922 | 基因=“L5(纤毛)” | “纤毛蛋白质”相似于猴腺病毒25pIV(TPA:纤毛),GI:17227368 |
多A-信号 | 32982..32987 | “L5” | |
多A-信号 | 互补(32998..33003) | “E4” | |
CDS | 互补(33018..33212) | 基因=“E4” | “E47.4KDa蛋白质”相似于猴腺病毒25Ad9类ORF7蛋白质,GI:17227369 |
CDS | 互补(连接(33018..33266,33992..34165)) | 基因=“E4” | “E415.9KD蛋白质”相似于猴腺病毒25TPA:E4ORF6/7,GI:33694835 |
CDS | 互补(33266..34165) | 基因=“E4” | “E434.6KD蛋白质”相似于猴腺病毒2533kDa蛋白质,GI:17227370 |
CDS | 互补(34068..34436) | 基因=“E4” | “E414.1KD蛋白质”相似于猴腺病毒2513.2kDa蛋白质,GI:17227371 |
多A-信号 | 互补(34388..34393) | “E4” | |
CDS | 互补 | 基因=“E4” | “E413.7KD蛋白质” |
(34445..34798) | 相似于猴腺病毒2512.8kDa蛋白质,GI:17227372 | ||
CDS | 互补(34795..35184) | 基因=“E4” | “E414.6KD蛋白质”相似于猴腺病毒2514.2kDa蛋白质,GI:17227373 |
CDS | 互补(35232..35606) | 基因=“E4” | “E413.5KD蛋白质”相似于猴腺病毒25TPA:E4ORF1,GI:33694840 |
重复单元 | 互补(35875..35990) | “ITR” |
表42:Ad4vaccine(登录号No.AY594254;SEQ ID NO:578)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..116 | “ITR” | |
启动子 | 472..511 | “E1A” | |
CDS | 576..1154 | 基因=“E1A” | “ORF1:假设性” |
CDS | 结合(576..650,1236..1340) | 基因=“E1A” | “早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白,GI:17227344 |
CDS | 结合(576..1142,1235..1441) | 基因=“E1A” | “早期E1A 28KD蛋白”相似于猴腺病毒2528.2kDa蛋白,GI:17227342 |
CDS | 结合(576..1049,1235..1441) | 基因=“E1A” | “早期E1A 24.6KD蛋白”相似于猴腺病毒2524.8kDa蛋白,GI:17227343 |
多A-信号 | 1499..1504 | “E1A” | |
启动子 | 1553..1592 | “E1B” | |
CDS | 结合(1600..2001,2003..2029) | 基因=“E1B” | “小型T抗原蛋白(E1B 19K)” |
CDS | 1600..2115 | 基因=“E1B” | “早期E1B 20KD蛋白”相似于猴腺病毒2520.5kDa蛋白,GI: |
17227345 | |||
CDS | 结合(1905..2153,3259..3276) | 基因=“E1B” | “早期E1B 8.2KD蛋白”相似于猴腺病毒2510.1kDa蛋白,GI:17227348 |
CDS | 1905..3356 | 基因=“E1B” | “大型T抗原”相似于猴腺病毒2554.7kDa蛋白,GI:17227347 |
CDS | 结合(1905..2153,3141..3356) | 基因=“E1B” | “早期E1B 16.8KD蛋白”相似于猴腺病毒2518.5kDa蛋白,GI:17227346 |
CDS | 3141..3869 | 基因=“IX” | “蛋白质IX(六邻体相关蛋白质)”相似于猴腺病毒25pIX,GI:17227349 |
多A-位点 | 3880..3885 | “E1B和IX” | |
多A-位点 | 互补(3902..3907) | “E2B和IVa2” | |
CDS | 互补(连接(3930..5263,5542..5554)) | 基因=“IVa2” | “IVa2蛋白质(成熟蛋白质)”相似于猴腺病毒25pIVa2,GI:17227350 |
CDS | 互补(连接(5033..8605,12212..12220)) | 基因=“E2B(POL)” | “DNA聚合酶”相似于猴腺病毒25TPA:pol,GI:33694808 |
CDS | 5105..5674 | 基因=“E2B” | “19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白,GI:58522 |
CDS | 6126..6446 | 基因=“E2B” | “11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白,GI:58524 |
CDS | 7814..8407 | 基因=“L1” | “DNA结合蛋白质(病毒蛋白)”相似于猴腺病毒21.9KD蛋白,GI:17227351 |
CDS | 连接(7814..7819,8536..8928) | 基因=“E2B” | “14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白,GI: |
58528 | |||
CDS | 互补(连接(8404..10323,12212..12220)) | 基因=“E2B(pTP)” | “前体末端蛋白质”相似于猴腺病毒25TPA:pTP,GI:33694809 |
misc_RNA | 10356..10514 | “病毒相关RNAI” | “VARNAI,159nt” |
启动子 | 互补(10457..10496) | “E2B” | |
启动子 | 10541..10580 | “L1” | |
misc_RNA | 10575..10743 | “病毒相关RNAII” | “VA RNA-II,169nt” |
CDS | 10765..11937 | 基因=“L1(52k)” | “52K蛋白”相似于猴腺病毒2542.9kDa(52k)蛋白,GI:17227352 |
多A-信号 | 11942..11947 | “L1(52k)” | |
CDS | 11961..13736 | 基因=“L1(IIIa)” | “蛋白质IIIa”相似于猴腺病毒25TPA:pIIIa,GI:33694811 |
多A-信号 | 13749..13754 | “L1(IIIa)” | |
启动子 | 13758..13797 | “L2” | |
CDS | 13815..15422 | 基因=“L2(五邻体)” | “五邻体蛋白质(蛋白质III)”相似于猴腺病毒25p III,GI:17227353 |
多A-信号 | 15425..15430 | “L2(五邻体)” | |
CDS | 15426..16007 | 基因=“L2(pVII)” | “大核蛋白质(蛋白质VII)”相似于猴腺病毒25pVII,GI:17227354 |
CDS | 16055..17080 | 基因=“L2(pV)” | “小核蛋白质(蛋白质V)”相似于猴腺病毒25TPA:pV,GI:33694814 |
CDS | 17103..17336 | 基因=“L2(pX)” | “蛋白质X(蛋白质mu)”相似于猴腺病毒25TPA:pX,GI:33694815 |
多A-信号 | 17357..17362 | “L2(pX)” |
CDS | 17368..18141 | 基因=“L3(pVI)” | “蛋白质VI(六邻体相关蛋白质)”相似于猴腺病毒25pVI,GI:17227356 |
CDS | 18248..21058 | 基因=“L3(六邻体)” | “六邻体蛋白质(蛋白质II)”相似于猴腺病毒25pII(六邻体),GI:17227357 |
CDS | 21082..21702 | 基因=“L3(23k)” | “后期L323k蛋白酶(Adenain)”相似于猴腺病毒25蛋白酶类,GI:33694818 |
多A-信号 | 21725..21730 | “L3” | |
多A-信号 | 互补(21767..21772) | “E2A” | |
CDS | 互补(21774..23312) | 基因=“E2A(DBP)” | “早期E2A DNA结合蛋白”相似于猴腺病毒25DNA结合蛋白,GI:17227358 |
CDS | 23341..25716 | 基因=“L4(100k)” | “100k蛋白质”相似于猴腺病毒25TPA:100k,GI:33694820 |
启动子 | 互补(23345..23384) | “E2A” | |
CDS | 25439..25978 | 基因=“L4(22k)” | “22k蛋白质”相似于猴腺病毒25TPA:22k,GI:33694822 |
CDS | 连接(25439..25756,25926..26252) | 基因=“L4(33k)” | “33k蛋白质”相似于猴腺病毒25TPA:33k(24.3kDa),GI:17227359 |
CDS | 26321..27004 | 基因=“L4(pVIII)” | “L4蛋白质VIII”相似于猴腺病毒25pVIII,GI:17227360 |
CDS | 27005..27325 | 基因=“E3” | “E312.1kDa蛋白质”相似于猴腺病毒2511.6kDa蛋白质,GI:17227361 |
CDS | 27279..27911 | 基因=“E3” | “E323.3kDa蛋白质” |
相似于猴腺病毒25TPA:E3CR1-α1,GI:33694825 | |||
CDS | 27893..28417 | 基因=“E3” | “E319kDa蛋白质”相似于猴腺病毒25TPA:E3gp19k(19.3kDa),GI:33694826 |
CDS | 28449..29111 | 基因=“E3” | “E324.8kDa蛋白质”相似于猴腺病毒2522.3kDa蛋白质,TPA:E3CR1-γ1,GI:17227364 |
CDS | 29279..29443 | 基因=“E3” | “E36.3kDa蛋白质” |
CDS | 29440..30264 | 基因=“E3” | “E329.7kDa蛋白质”相似于猴腺病毒25TPA:E3CR1-δ1,GI:33694829 |
CDS | 30273..30548 | 基因=“E3” | “E310.4kDa蛋白质”相似于猴腺病毒259.9kDa蛋白质,GI:17227365 |
CDS | 30554..30994 | 基因=“E3” | “E314.5kDa蛋白质”相似于猴腺病毒2515.6kDa蛋白质,GI:17227366 |
CDS | 30987..31388 | 基因=“E3” | “E314.7kDa蛋白质”相似于猴腺病毒2514.7kDa蛋白质,GI:17227367 |
多A-信号 | 31428..31433 | “E3” | |
启动子 | 31477..31516 | “L5” | |
CDS | 31649..32926 | 基因=“L5(纤毛)” | “纤毛蛋白质”相似于猴腺病毒25pIV(TPA:纤毛),GI:17227368 |
多A-信号 | 32986..32991 | “L5” | |
多A-信号 | 互补(33002..33007) | “E4” | |
CDS | 互补(33022..33216) | 基因=“E4” | “E47.4KDa蛋白质”相似于猴腺病毒25 |
Ad9类ORF7蛋白质,GI:17227369 | |||
CDS | 互补(连接(33022..33270,33996..34169)) | 基因=“E4” | “E415.9KD蛋白质”相似于猴腺病毒25TPA:E4ORF6/7,GI:33694835 |
CDS | 互补(33270..34169) | 基因=“E4” | “E434.6KD蛋白质”相似于猴腺病毒2533kDa蛋白质,GI:17227370 |
CDS | 互补(34072..34440) | 基因=“E4” | “E414.1KD蛋白质”相似于猴腺病毒2513.2kDa蛋白质,GI:17227371 |
多A-信号 | 互补(34392..34397) | “E4” | |
CDS | 互补(34449..34802) | 基因=“E4” | “E413.7KD蛋白质”相似于猴腺病毒2512.8kDa蛋白质,GI:17227372 |
CDS | 互补(34799..35188) | 基因=“E4” | “E414.6KD蛋白质”相似于猴腺病毒2514.2kDa蛋白质,GI:17227373 |
CDS | 互补(35236..35610) | 基因=“E4” | “E413.5KD蛋白质”相似于猴腺病毒25TPA:E40RF1,GI:33694840 |
重复单元 | 互补(35879..35994) | “ITR” |
表43:Ad4FS_navy(登录号No.AY599835;SEQ ID NO:579)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..208 | “ITR” | |
CDS | 576..1121 | 基因=“E1A” | “ORF1:假设性” |
CDS | 结合(576..650,1203..1307) | 基因=“E1A” | “早期E1A 6.8KD蛋白”相似于猴腺病毒25 11kDa蛋白,GI:17227344 |
CDS | 结合(576..1109,202..1408) | 基因=“E1A” | “早期E1A 27KD蛋白”相似于猴腺病毒2528.2kDa蛋白,GI:17227342 |
CDS | 结合(576..1016,202..1408) | 基因=“E1A” | “早期E1A 23.5KD蛋白”相似于猴腺病毒2524.8kDa蛋白,GI:17227343 |
多A-信号 | 1464..1469 | “E1A” | |
启动子 | 1518..1557 | “E1B” | |
CDS | 结合(1565..1966,1968..1994) | 基因=“E1B” | “小型T抗原” |
CDS | 1565..2119 | 基因=“E1B” | “早期E1B 21.5KD蛋白”标准命名-猴腺病毒2520.5kDa蛋白,GI:17227345 |
CDS | 连接(1870..2127,3145..3360) | 基因=“E1B” | “早期E1B 9KD蛋白”相似于猴腺病毒2510.1kDa蛋白,GI:17227348 |
CDS | 1870..3360 | 基因=“E1B” | “大型T抗原”相似于猴腺病毒2554.7kDa蛋白,GI:17227347 |
CDS | 结合(1870..2157,3145..3360) | 基因=“E1B” | “早期E1B 17.9KD蛋白”相似于猴腺病毒2518.5kDa蛋白,GI:17227346 |
CDS | 3444..3872 | 基因=“IX” | “蛋白质IX(六邻体相关蛋白质)” |
多A-信号 | 3882..3887 | “E1B和IX” | |
多A-信号 | 互补(3904..3909) | “E2B和IVa2” | |
CDS | 互补(连接(3935..5268,5547..5559)) | 基因=“IVa2” | “IVa2蛋白质(成熟蛋白质)” |
CDS | 互补(连接(5038..8610,12152..12160)) | 基因=“E2B(POL)” | “DNA聚合酶” |
CDS | 5110..5679 | 基因=“E2B” | “19.4KD早期蛋白”相 |
似于人腺病毒7假设20.6KD早期蛋白,GI:58522 | |||
CDS | 6131..6451 | 基因=“E2B” | “11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白,GI:58524 |
CDS | 7819..8412 | 基因=“L1” | “DNA结合蛋白质(agnoprotein)”相似于猴腺病毒21.9KD蛋白,GI:17227351 |
CDS | 连接(7819..7824,8541..8933) | 基因=“E2B” | “14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白,GI:58528 |
CDS | 互补(连接(8409..10328,12152..12160)) | 基因=“E2B(pTP)” | “前体末端蛋白质” |
misc_RNA | 10361..10519 | “病毒相关RNAI” | “VA RNAI,159nt” |
启动子 | 互补(10462..10501) | “E2B” | |
启动子 | 10542..10581 | “L1” | |
misc_RNA | 10584..10684 | “病毒相关RNAII” | “VA RNA-II,10Int” |
CDS | 10705..11877 | 基因=“L1(52k)” | “52K蛋白” |
多A-信号 | 11882..11887 | “L1(52k)” | |
CDS | 11901..13682 | 基因=“L1(IIIa)” | “蛋白质IIIa” |
多A-信号 | 13696..13701 | “L1(IIIa)” | |
启动子 | 13755..13794 | “L2” | |
CDS | 13762..15369 | 基因=“L2(五邻体)” | “五邻体蛋白质(蛋白质III)” |
多A-信号 | 15372..15377 | “L2(五邻体)” | |
CDS | 15373..15954 | 基因=“L2(pVII)” | “大核蛋白质(蛋白质VII)” |
CDS | 16002..17027 | 基因=“L2(pV)” | “小核蛋白质(蛋白质V)” |
CDS | 17050..17283 | 基因=“L2(pX)” | “蛋白质X(蛋白质mu)” |
CDS | 17343..18074 | 基因=“L3(pVI)” | “蛋白质VI(六邻体相关蛋白质)” |
CDS | 18181..20991 | 基因=“L3(六邻体)” | “六邻体蛋白质(蛋白质II)” |
CDS | 21015..21635 | 基因=“L3(23k)” | “23k蛋白酶类” |
多A-信号 | 21661..21666 | “L3” | |
多A-信号 | 互补(21703..21708) | “E2A” | |
CDS | 互补(21710..23242) | 基因=“E2A(DBP)” | “早期E2A DNA结合蛋白” |
启动子 | 互补(23345..23384) | “E2A” | |
启动子 | 23211..23250 | “L4” | |
CDS | 23271..25634 | 基因=“L4(100k)” | “100k蛋白质” |
CDS | 25369..25884 | 基因=“L4(22k)” | “22k蛋白质” |
CDS | 连接(25369..25674,25844..26158) | 基因=“L4(33k)” | “33k蛋白质” |
CDS | 26226..26909 | 基因=“L4(pVIII)” | “L4蛋白质VIII” |
CDS | 26910..27230 | 基因=“E3” | “E312.1kDa蛋白质” |
CDS | 27184..27816 | 基因=“E3” | “E323.3kDa蛋白质” |
CDS | 27798..28322 | 基因=“E3” | “E319kDa蛋白质” |
CDS | 28352..28987 | 基因=“E3” | “E324.8kDa蛋白质” |
CDS | 29296..30105 | 基因=“E3” | “E329.7kDa蛋白质” |
CDS | 30114..30389 | 基因=“E3” | “E310.4kDa蛋白质” |
CDS | 30395..30835 | 基因=“E3” | “E314.5kDa蛋白质” |
CDS | 30828..31229 | 基因=“E3” | “E314.7kDa蛋白质” |
多A-信号 | 31279..31284 | “E3” | |
启动子 | 31292..31331 | “L5” | |
CDS | 31464..32741 | 基因=“L5(纤毛)” | “纤毛蛋白质” |
多A-信号 | 32801..32806 | “L5” | |
多A-信号 | 互补(32817..32822) | “E4” |
CDS | 互补(32837..33031) | 基因=“E4” | “E47.4KDa蛋白质” |
CDS | 互补(连接(32837..33085,33811..33984)) | 基因=“E4” | “E415.9KD蛋白质” |
CDS | 互补(33085..33984) | 基因=“E4” | “E434.6KD蛋白质” |
CDS | 互补(33887..34255) | 基因=“E4” | “E414.1KD蛋白质” |
多A-信号 | 互补(34207..34212) | “E4” | |
CDS | 互补(34264..34617) | 基因=“E4” | “E413.7KD蛋白质” |
CDS | 互补(34614..35003) | 基因=“E4” | “E414.6KD蛋白质” |
CDS | 互补(35051..35425) | 基因=“E4” | “E413.5KD蛋白质” |
重复单元 | 互补(35758..35965) | “ITR” |
表44:Ad4FS_AF(登录号No.AY599837;SEQ ID NO:580)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..208 | “ITR” | |
CDS | 575..1120 | 基因=“E1A” | “ORF1:假设性” |
CDS | 结合(575..649,1202..1306) | 基因=“E1A” | “早期E1A 6.8KD蛋白”相似于猴腺病毒2511kDa蛋白,GI:17227344 |
CDS | 结合(575..1108,1201..1407) | 基因=“E1A” | “早期E1A 27KD蛋白”相似于猴腺病毒2528.2kDa蛋白,GI:17227342 |
CDS | 结合(576..1016,1202..1407) | 基因=“E1A” | “早期E1A 23.5KD蛋白”相似于猴腺病毒2524.8kDa蛋白,GI:17227343 |
多A-信号 | 1463..1468 | “E1A” |
启动子 | 1517..1556 | “E1B” | |
CDS | 结合(1564..1965,1976..1993) | 基因=“E1B” | “小型T抗原(16.5kDa)” |
CDS | 1564..2115 | 基因=“E1B” | “早期E1B 21.5KD蛋白”标准命名-猴腺病毒2520.5kDa蛋白,GI:17227345 |
CDS | 连接(1869..2123,3258..3269) | 基因=“E1B” | “早期E1B 9KD蛋白”相似于猴腺病毒2510.1kDa蛋白,GI:17227348 |
CDS | 连接(1869..2615,2618..3355) | 基因=“E1B” | “大型T抗原(55KD)”相似于猴腺病毒2554.7kDa蛋白,GI:17227347 |
CDS | 结合(1869..2153,3140..3355) | 基因=“E1B” | “早期E1B 17.9KD蛋白”相似于猴腺病毒2518.5kDa蛋白,GI:17227346 |
CDS | 3439..3867 | 基因=“IX” | “蛋白质IX(六邻体相关蛋白质)” |
多A-信号 | 3877..3882 | “E1B和IX” | |
多A-信号 | 互补(3899..3904) | “E2B和IVa2” | |
CDS | 互补(连接(3931..5264,5543..5555)) | 基因=“IVa2” | “IVa2蛋白质(成熟蛋白质)” |
CDS | 互补(连接(5034..8606,12151..12159)) | 基因=“E2B(POL)” | “DNA聚合酶” |
CDS | 5106..5675 | 基因=“E2B” | “19.4KD早期蛋白”相似于人腺病毒7假设20.6KD早期蛋白,GI:58522 |
CDS | 6127..6447 | 基因=“E2B” | “11.5KD早期蛋白”相似于人腺病毒7假设11.5KD早期蛋白,GI:58524 |
CDS | 7815..8408 | 基因=“L1” | “DNA结合蛋白质(病毒蛋白)”相似于猴腺 |
猴腺病毒21.9KD蛋白,GI:17227351 | |||
CDS | 连接(7815..7820,8537..8929) | 基因=“E2B” | “14.1KD早期蛋白”相似于人腺病毒7假设14.5KD早期蛋白,GI:58528 |
CDS | 互补(连接(8405..10324,12151..12159)) | 基因=“E2B(pTP)” | “前体末端蛋白质” |
misc_RNA | 10357..10515 | “病毒相关RNAI” | “VA RNAI,159nt” |
启动子 | 互补(10458..10497) | “E2B” | |
启动子 | 10541..10580 | “L1” | |
misc_RNA | 10583..10683 | “病毒相关RNAII” | “VA RNA-II,101nt” |
CDS | 10704..11876 | 基因=“L1(52k)” | “52K蛋白” |
多A-信号 | 11881..11886 | “L1(52k)” | |
CDS | 11900..13681 | 基因=“L1(IIIa)” | “蛋白质IIIa” |
多A-信号 | 13695..13700 | “L1(IIIa)” | |
启动子 | 13754..13793 | “L2” | |
CDS | 13761..15368 | 基因=“L2(五邻体)” | “五邻体蛋白质(蛋白质III)” |
多A-信号 | 15371..15376 | “L2(五邻体)” | |
CDS | 15372..15953 | 基因=“L2(pVII)” | “大核蛋白质(蛋白质VII)” |
CDS | 16001..17026 | 基因=“L2(pV)” | “小核蛋白质(蛋白质V)” |
CDS | 17049..17282 | 基因=“L2(pX)” | “蛋白质X(蛋白质mu)” |
CDS | 17314..18072 | 基因=“L3(pVI)” | “蛋白质VI(六邻体相关蛋白质)” |
CDS | 18179..20989 | 基因=“L3(六邻体)” | “六邻体蛋白质(蛋白质II)” |
CDS | 21013..21633 | 基因=“L3(23k)” | “L323k蛋白酶类(Adenain)” |
多A-信号 | 21659..21664 | “L3” |
多A-信号 | 互补(21701..21706) | “E2A” | |
CDS | 互补(21708..23240) | 基因=“E2A(DBP)” | “早期E2A DNA结合蛋白” |
启动子 | 互补(23165..23207) | “E2A” | |
启动子 | 23209..23248 | “L4” | |
CDS | 23269..25632 | 基因=“L4(100k)” | “100k蛋白质” |
CDS | 25367..25882 | 基因=“L4(22k)” | “22k蛋白质” |
CDS | 连接(25367..25672,25842..26156) | 基因=“L4(33k)” | “33k蛋白质” |
CDS | 26224..26907 | 基因=“L4(pVIII)” | “L4蛋白质VIII” |
CDS | 26908..27228 | 基因=“E3” | “E312.1kDa蛋白质” |
CDS | 27182..27814 | 基因=“E3” | “E323.3kDa蛋白质” |
CDS | 27796..28320 | 基因=“E3” | “E319kDa蛋白质” |
CDS | 28350..28985 | 基因=“E3” | “E324.8kDa蛋白质” |
CDS | 29295..30104 | 基因=“E3” | “E329.7kDa蛋白质” |
CDS | 30113..30388 | 基因=“E3” | “E310.4kDa蛋白质” |
CDS | 30394..30834 | 基因=“E3” | “E314.5kDa蛋白质” |
CDS | 30827..31228 | 基因=“E3” | “E314.7kDa蛋白质” |
多A-信号 | 31278..31283 | “E3” | |
启动子 | 31291..31330 | “L5” | |
CDS | 31463..32740 | 基因=“L5(纤毛)” | “纤毛蛋白质” |
多A-信号 | 32800..32805 | “L5” | |
多A-信号 | 互补(32816..32821) | “E4” | |
CDS | 互补(32836..33030) | 基因=“E4” | “E47.4KDa蛋白质” |
CDS | 互补(连接(32836..33084,33810..33983)) | 基因=“E4” | “E415.9KD蛋白质” |
CDS | 互补(33084..33983) | 基因=“E4” | “E434.6KD蛋白质” |
CDS | 互补(33886..34254) | 基因=“E4” | “E414.1KD蛋白质” |
多A-信号 | 互补(34206..34211) | “E4” | |
CDS | 互补(34263..34616) | 基因=“E4” | “E413.7KD蛋白质” |
CDS | 互补(34613..35002) | 基因=“E4” | “E414.6KD蛋白质” |
CDS | 互补(35050..35424) | 基因=“E4” | “E413.5KD蛋白质” |
重复单元 | 互补(35757..35964) | “ITR” |
表45:Ad5FS(登录号No.AY601635;SEQ ID NO:581)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
CDS | 11565..12297 | “52/55K蛋白质基因” | 蛋白质_id=“AAA96406.1” |
CDS | 12318..14075 | 产物=“蛋白质IIIa” | 蛋白质_id=“AAA96407.1” |
CDS | 16286..16474 | 产物=“蛋白质pVII” | 蛋白质_id=“AAA96408.1” |
CDS | 16544..17650 | 产物=“蛋白质V” | 蛋白质_id=“AAA96409.1” |
CDS | 17774..17920 | 产物=“蛋白质5前体” | 蛋白质_id=“AAA96410.1” |
CDS | 18003..18755 | 产物=“蛋白质pVI” | 蛋白质_id=“AAA96411.1” |
CDS | 25819..26484 | “100k蛋白质” | 蛋白质_idd=“AAA96412.1” |
外显子 | 26485..26514 | “33k蛋白质的外显子” | |
外显子 | 26713..27083 | “33k蛋白质的外显子” | |
CDS | 27174..27857 | 产物=“蛋白质pVIII” | 蛋白质_id=“AAA96413.1” |
表46:Ad7(登录No.AY594255;SEQ ID NO:582)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..108 | “倒转末端重复” | |
启动子 | 481..486 | “E1A的TATA框符” | |
CDS | 结合(577..648,1250..1351) | 基因=“E1A” | “6KD蛋白质” |
CDS | 结合(577..1156,1250..1455) | 基因=“E1A” | “E1A 28KD蛋白质” |
CDS | 结合(577..1063,1250..1455) | 基因=“E1A” | “mRNAII 产物与gi|209784同源” |
多A-位点 | 1494..1499 | “E1A基因的多A-位点。GenScan推算” | |
启动子 | 1549..1554 | “E1B的TATA框符” | |
CDS | 1603..2139 | 基因=“E1B” | “19kD小型T抗原蛋白与Ad7中未命名蛋白质gi|58518同源” |
CDS | 1908..3386 | 基因=“E1B” | “55kD蛋白与Ad7中gi|58519同源” |
启动子 | 3384..3389 | “pIX 的TATA框符” | |
多A-位点 | 3405..3410 | “E1B 基因的GenScan推算多A-位点” | |
多A-位点 | 互补(3928..3933) | “E2B 基因的GenScan推算多A-位点” | |
CDS | 互补(连接(3950..5283,5562..5574)) | 基因=“IVa2” | “IVa2成熟蛋白质” |
CDS | 互补(5053..8421) | 基因=“E2B” | “DNA聚合酶” |
启动子 | 5874..5879 | “主要晚期启动子的TATA框符” | |
CDS | 7987..8427 | 基因=“L1” | “DNA结合蛋白质与E型腺病毒中蛋白质 |
gi|17227351同源” | |||
CDS | 互补(8231..8575) | 基因=“E2B” | “假设12.6kD早期蛋白质,Ad7中gi|139931” |
CDS | 互补(8424..10346) | 基因=“E2B” | “末端蛋白质前体,Ad7中同源物为gi|74214” |
CDS | 8550..8951 | 基因=“L1” | “假设14.5kD蛋白质” |
CDS | 互补(9545..9859) | 基因=“E2B” | “11.3kD早期蛋白质,Ad7中同源物为gi|139914” |
CDS | 9759..10034 | 基因=“L1” | “9.7kD假设蛋白质,Ad7中同源物为gi|140138” |
misc_RNA | 10423..10592 | “VA RNA I” | |
misc_RNA | 10668..10838 | “VA RNA II” | |
CDS | 10890..12026 | 基因=“L1” | “55kD蛋白质” |
CDS | 12051..13817 | 基因=“L1” | “peri五邻体al六邻体相关蛋白质IIIa” |
多A-位点 | 13830..13835 | “L1的GenScan推算多A-位点” | |
CDS | 13905..15539 | 基因=“L2” | “五邻体碱基蛋白质(III)” |
多A-位点 | 15545..15550 | “L2的GenScan推算多A-位点” | |
CDS | 15550..16128 | 基因=“L2” | “蛋白质VII前体” |
CDS | 16171..17000 | 基因=“L2” | “小核蛋白,蛋白质V” |
多A-位点 | 17497..17502 | “L2的GenScan推算多A-位点” | |
CDS | 17554..18306 | 基因=“L3” | “蛋白质VI前体” |
CDS | 18419..21232 | 基因=“L3” | “六邻体蛋白质” |
CDS | 21269..21898 | 基因=“L3” | “23K蛋白质酶” |
多A-位点 | 21918..21923 | “L3的GenScan推算多A-位点” | |
多A-位点 | 互补(21930..21935) | “E2A的GenScan推算多A-位点” | |
CDS | 互补 | “E2A” | “DNA结合蛋白质” |
(21985..23538) | |||
CDS | 23569..26055 | 基因=“L4” | “100K六邻体组合相关蛋白质” |
CDS | 互补(24924..25133) | 基因=“假设” | “假设蛋白质” |
CDS | 25757..26356 | 基因=“L4” | “22K蛋白质” |
CDS | 连接(25850..26225,26275..26630) | 基因=“L4” | “33kD蛋白质” |
多A-位点 | 26662..26667 | “L4的” | |
CDS | 26700..27383 | 基因=“L4” | “蛋白质VIII,六邻体相关蛋白质前体” |
启动子 | 27065..27070 | “E3的TATA框符” | |
CDS | 27383..27703 | 基因=“E3” | “12.1kD糖蛋白” |
CDS | 27657..28097 | 基因=“E3” | “16.1kD蛋白” |
CDS | 28082..28600 | 基因=“E3” | “19.3kD MHC I类抗原结合糖蛋白前体” |
CDS | 28630..29169 | 基因=“E3” | “假设20.6kD蛋白” |
CDS | 29182..29751 | 基因=“E3” | “20.6kD蛋白” |
CDS | 29766..29966 | 基因=“E3” | “7.7kD蛋白” |
CDS | 30083..30313 | 基因=“E3” | “10.3kD蛋白” |
CDS | 30285..30722 | 基因=“E3” | “14.9kD蛋白” |
CDS | 30715..31122 | 基因=“E3” | “14.7kD蛋白质” |
多A-位点 | 31128..31133 | “E3的GenScan推算多A-位点” | |
CDS | 互补(31141..31305) | 基因=“” | “U蛋白” |
CDS | 31320..32297 | 基因=“L5” | “纤毛蛋白” |
多A-位点 | 互补(32317..32322) | “E4的GenScan推算多A-位点” | |
CDS | 互补(32333..32584) | 基因=“E4” | “ORF6/7蛋白质” |
CDS | 互补(32581..33480) | 基因=“E4” | “33.2kD蛋白质” |
CDS | 互补(33383..33751) | 基因=“E4” | “13.6kD蛋白质” |
CDS | 33606..34115 | 基因=“L5” | “病毒蛋白” |
CDS | 互补(33760..34113) | 基因=“E4” | “34kD蛋白质” |
CDS | 互补(34110..34499) | 基因=“E4” | “130aa蛋白质” |
多A-位点 | 34122..34127 | “L5基因的可能多A-信号” | |
CDS | 互补(34541..34918) | 基因=“E4” | “13.9kD蛋白质” |
启动子 | 互补(35000..35005) | “E4的TATA框符” | |
重复区 | 互补(35199..35306) | “倒转末端重复” |
表47:Ad7FS_navy(登录No.AY601634;SEQ ID NO:583)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..135 | “倒转末端重复” | |
启动子 | 479..484 | “E1A的TATA框符” | |
CDS | 575..1168 | 基因=“E1A” | “假设E1A蛋白质” |
CDS | 结合(575..646,1249..1350) | 基因=“E1A” | “6KD蛋白质” |
CDS | 结合(575..1154,1249..1454) | 基因=“E1A” | “mRNAI,28KD E1A蛋白质” |
CDS | 结合(575..1061,1249..1454) | 基因=“E1A” | “mRNAII蛋白质” |
多A-信号 | 1493..1498 | “E1A基因的多A-信号” | |
启动子 | 1548..1553 | “E1B的TATA框符” | |
CDS | 1602..2138 | 基因=“E1B” | “20kD小型T抗原蛋白” |
CDS | 1907..3385 | 基因=“E1B” | “转化相关的55kD蛋白” |
启动子 | 3383..3388 | “pIX的TATA框符” | |
多A-信号 | 3401..3406 | “E1B基因的多A-信号” | |
多A-信号 | 互补(3926..3931) | “E2B基因的可能多A-信号” | |
CDS | 互补(连接(5560..5572,3948..5281)) | 基因=“E2B” | “IVa2成熟蛋白质” |
CDS | 互补(5051..8419) | 基因=“E2B” | “DNA聚合酶” |
启动子 | 5872..5877 | “主要晚期启动子的TATA框符” | |
CDS | 6144..6464 | 基因=“假设” | “假设的蛋白质A-106” |
CDS | 互补(6868..7389) | 基因=“E2B” | “假设19kD蛋白质” |
CDS | 7133..7420 | 基因=“L1” | “假设10.4kD蛋白质” |
CDS | 7829..8425 | 基因=“L1” | “15.3kD病毒蛋白” |
CDS | 互补(8328..8573) | 基因=“E2B” | “假设的12.6kD早期蛋白质” |
CDS | 互补(8422..10344) | 基因=“E2B” | “五邻体DNA结合蛋白质” |
CDS | 8548..8949 | 基因=“假设” | “假设的14.5kD早期蛋白质” |
CDS | 9757..10032 | 基因=“假设” | “假设9.7kD蛋白质” |
misc_RNA | 10424..10584 | “VA RNA I” | |
misc_RNA | 10655..10829 | “VA RNA II” | |
CDS | 10806..11975 | 基因=“L1” | “55kD蛋白质” |
CDS | 12000..13766 | 基因=“L1” | “peri五邻体al六邻体相关蛋白质IIIA” |
多A-位点 | 13799..13784 | “L1的多A-信号” | |
CDS | 13854..15488 | 基因=“L2” | “五邻体碱基蛋白质” |
CDS | 15500..16078 | 基因=“L2” | “大核蛋白前体pVII” |
CDS | 16121..17173 | 基因=“L2” | “小核蛋白前体pV” |
多A-位点 | 17488..17453 | “L2的可能多A-信号” | |
CDS | 17505..18239 | 基因=“L3” | “pVI前体” |
CDS | 18352..21156 | 基因=“L3” | “六邻体蛋白质” |
CDS | 21193..21822 | 基因=“L3” | “23KD蛋白质酶” |
多A-信号 | 21842..21847 | “L3的可能多A-信号” | |
多A-信号 | 互补(21854..21859) | “E2A的可能多A-信号” | |
CDS | 互补(21911..23464) | 基因=“E2A” | “DNA结合蛋白质” |
CDS | 23495..25984 | 基因=“L4” | “100KD蛋白质” |
CDS | 25686..26285 | 基因=“假设” | “22K蛋白质” |
CDS | 连接(25686..26034,26204..26559) | 基因=“L4” | “33kD蛋白质” |
CDS | 26719..27312 | 基因=“L4” | “pVIII蛋白质” |
启动子 | 26994..26999 | “E3基因的假设性TATA框符” | |
CDS | 27312..27632 | 基因=“E3A” | “12.IkD糖蛋白” |
多A-信号 | 27391..27396 | “L4的可能多A-信号” | |
CDS | 27586..28026 | 基因=“E3A” | “16.1kD蛋白” |
CDS | 28011..28529 | 基因=“E3A” | “19kD MHC I类抗原结合糖蛋白前体” |
CDS | 28559..29083 | 基因=“E3A” | “20.3kD糖蛋白” |
CDS | 29110..29679 | 基因=“E3A” | “20.3kD蛋白” |
CDS | 29694..29819 | 基因=“E3A” | “7.7kD蛋白” |
CDS | 29931..30206 | 基因=“E3A” | “10.3kD蛋白” |
CDS | 30178..30615 | 基因=“E3A” | “14.9kD蛋白” |
CDS | 30608..31015 | 基因=“E3A” | “15.3kD蛋白质” |
多A-信号 | 31021..31026 | “E3的假设性多A-信号” |
CDS | 31213..32190 | 基因=“L5” | “纤毛蛋白” |
多A-信号 | 互补(32209..32214) | “E4基因的可能多A-信号” | |
CDS | 互补(32225..32476) | 基因=“E4” | “ORF6/7” |
CDS | 互补(32473..33372) | 基因=“E4” | “32kD蛋白质” |
CDS | 互补(33275..33643) | 基因=“E4” | “13.6kD蛋白质” |
CDS | 33498..34007 | 基因=“L5” | “病毒蛋白” |
CDS | 互补(33652..34005) | 基因=“E4” | “13kD蛋白质” |
CDS | 互补(34002..34391) | 基因=“E4” | “130aa蛋白质” |
CDS | 互补(34433..34810) | 基因=“E4” | “13.9kD蛋白质” |
启动子 | 互补(34891..34896) | “E4基因的TATA框符” | |
重复区 | 互补(35062..35197) | “倒转末端重复” |
表48:Ad7vaccine(登录No.AY594256;SEQ ID NO:584)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..136 | “倒转末端重复” | |
启动子 | 476..481 | “E1A基因的TATA框符” | |
CDS | 结合(572..647,1247..1348) | 基因=“E1A” | “E1A 6KD蛋白质” |
CDS | 结合(572..1157,1246..1452) | 基因=“E1A” | “E1A mRNAI蛋白质与Ad11中29.1KD蛋白质同源” |
CDS | 结合(572..1067,1246..1452) | 基因=“E1A” | “E1A mRNAII蛋白质与Ad11中25.7KD蛋白质同源” |
多A-位点 | 1490..1495 |
启动子 | 1545..1550 | “E1B的TATA框符” | |
CDS | 1599..2136 | 基因=“E1B” | “20kD蛋白,小型T抗原” |
CDS | 1904..3382 | 基因=“E1B” | “55kD蛋白” |
启动子 | 3380..3385 | “pIX的TATA框符” | |
CDS | 3476..3892 | 基因=“IX” | “蛋白质IX” |
多A-信号 | 3905..3910 | ||
多A-信号 | 互补(3923..3928) | ||
CDS | 互补(连接(3945..5278,5557..5569)) | 基因=“E2B” | “pIVa2” |
CDS | 互补(5048..8416) | 基因=“E2B” | “DNA聚合酶” |
启动子 | 5869..5874 | “主要晚期启动子的TATA 框符” | |
CDS | 6141..6461 | 基因=“假设” | “A-106假设的蛋白质” |
CDS | 7826..8422 | 基因=“病毒蛋白基因” | “13.6kD病毒蛋白” |
CDS | 互补(8419..10341) | 基因=“E2B” | “DNA末端蛋白质” |
CDS | 互补(9540..9854) | 基因=“假设” | “11.3kD假设蛋白质” |
CDS | 9754..10029 | 基因=“假设” | “蛋白质=9.7kD假设蛋白质” |
misc_RNA | 10403..10821 | “VA RNA,由于25bp缺失变短” | “VA RNA” |
CDS | 10828..11997 | 基因=“L1” | “55kD蛋白质” |
CDS | 12022..13788 | 基因=“L1” | “pIIIA前体” |
CDS | 13876..15510 | “L2” | “五邻体蛋白质III前体” |
多A-位点 | 15512..15517 | ||
CDS | 15520..16098 | 基因=“L2” | “蛋白pVII前体” |
CDS | 16121..17173 | 基因=“L2” | “蛋白pV” |
多A-位点 | 17467..17472 | ||
CDS | 17523..18275 | 基因=“L3” | “蛋白质VI前体” |
CDS | 18388..21192 | 基因=“L3” | “六邻体” |
CDS | 21229..21858 | 基因=“L3” | “23K蛋白质酶” |
多A-信号 | 21878..21883 | ||
多A-信号 | 互补(21890..21895) | ||
CDS | 互补(21911..23464) | 基因=“E2A” | “DNA结合蛋白质” |
CDS | 23531..26020 | 基因=“L4” | “六邻体蛋白质” |
CDS | 25722..26321 | 基因=“L4” | “33KD蛋白质” |
CDS | 连接(25722..26070.26252..26595) | 基因=“L4” | “33kD蛋白质” |
CDS | 26665..27348 | 基因=“L4” | “pIII蛋白质” |
启动子 | 27030..27035 | “E3的TATA框符” | |
CDS | 27348..27668 | 基因=“E3” | “12.1kD糖蛋白” |
CDS | 27622..28062 | 基因=“E3” | “16.1kD蛋白” |
CDS | 28047..28565 | 基因=“E3” | “18.3kD糖蛋白前体” |
CDS | 28595..29134 | 基因=“E3” | “E320.1kD蛋白” |
CDS | 29147..29716 | 基因=“E3” | “E320.6kD蛋白复制” |
CDS | 29731..29856 | 基因=“E3” | “E37.7kD蛋白” |
CDS | 29969..30244 | 基因=“E3” | “E310.3kD蛋白” |
CDS | 30249..30653 | 基因=“E3B” | “E3B 14.9kD蛋白质前体” |
CDS | 30646..31053 | 基因=“E3B” | “E3B 14.7kD蛋白质” |
多A-位点 | 31059..31064 | ||
CDS | 31251..32228 | 基因=“L5” | “L5纤毛蛋白” |
多A-位点 | 互补(32247..32252) | ||
CDS | 互补(32263..32514) | 基因=“E4” | “E4ORF6/7” |
多A-位点 | 32764..32769 | ||
CDS | 互补(33313..33681) | 基因=“E4” | “E413.6kD蛋白质” |
CDS | 33536..34045 | 基因=“可能的病毒蛋白基因” | “可能的病毒蛋白” |
CDS | 互补(33690..34043) | 基因=“E4” | “E413kD蛋白质” |
CDS | 互补(34040..34429) | 基因=“E4” | “13.9kD蛋白质” |
CDS | 互补(34471..34848) | 基因=“E4” | “假设蛋白质” |
表49:Ad16(登录No.AY594256;SEQ ID NO:585)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..114 | “倒转末端重复” | |
启动子 | 478..483 | “E1启动子的TATA框符” | |
CDS | 结合(574..645,1247..1348) | 基因=“E1A” | “6.3KDa蛋白质” |
CDS | 结合(574..1060,1247..1452) | 基因=“E1A” | “25.7KDa蛋白质” |
CDS | 结合(574..1153,1247..1452) | 基因=“E1A” | “28KDa蛋白质” |
多A-信号 | 1489..1494 | “E1A的多A信号” | |
启动子 | 1544..1549 | “E1B基因的TATA框符” | |
CDS | 1598..2134 | 基因=“E1B” | “19K小型T抗原蛋白” |
CDS | 1903..3381 | 基因=“E1B” | “55K大型T抗原蛋白” |
启动子 | 3444..3449 | “pIX的TATA框符” | |
CDS | 3476..3892 | 基因=“pIX” | “蛋白质IX” |
多A-位点 | 3905..3910 | “pIX的多A-信号” | |
多A- | 互补(3923..3928) | “E2B的多A-信号” |
位点 | |||
CDS | 互补(连接(3945..5278,5557..5569)) | 基因=“E2B” | “成熟蛋白质pIVa2” |
CDS | 互补(5048..8416) | 基因=“E2B” | “DNA聚合酶” |
启动子 | 5869..5874 | “主要晚期启动子的TATA框符” | |
CDS | 7130..7417 | 基因=“假设” | “假设10.4K早期蛋白质” |
CDS | 7826..8422 | 基因=“L1” | “可能的DNA结合病毒蛋白” |
CDS | 结合(8426..8570) | 基因=“E2B” | “假设12.6K早期蛋白质” |
CDS | 互补(连接(8419..10386,13843..13851)) | 基因=“E2B” | “末端蛋白质前体” |
CDS | 10851..12020 | 基因=“L1” | “55K蛋白质” |
CDS | 12045..13811 | 基因=“L1” | “蛋白质IIIa前体” |
多A-信号 | 13825..13830 | “L1的多A-信号” | |
CDS | 13902..15569 | 基因=“L2” | “五邻体碱基蛋白质” |
CDS | 15582..16160 | 基因=“L2” | “蛋白质VII前体” |
CDS | 16203..17255 | 基因=“L2” | “32K蛋白质V” |
CDS | 17284..17511 | 基因=“L2” | “蛋白质X” |
多A-位点 | 17529..17534 | “L2的多A-信号” | |
CDS | 17586..18284 | 基因=“L3” | “pVI前体” |
CDS | 18450..21272 | 基因=“L3” | “六邻体蛋白质” |
CDS | 21309..21938 | 基因=“L3” | “23K蛋白质酶” |
多A-位点 | 21958..21963 | “L3的多A-信号” | |
多A-位点 | 互补(21970..21975) | “E2A的多A-信号” | |
CDS | 互补(22027..23580) | “E2A” | “早期DNA结合蛋白质” |
CDS | 23611..26097 | 基因=“L4” | “100K蛋白质” |
CDS | 25799..26398 | 基因=“L4” | “22K蛋白质” |
CDS | 连接(25799..26147,26317..26672) | “33K蛋白质” | 基因=“L4” |
CDS | 26742..27425 | 基因=“L4” | “蛋白质VIII前体” |
启动子 | 27107..27112 | “E3的TATA框符” | |
CDS | 27425..27745 | 基因=“E3A” | “12.2K糖蛋白” |
CDS | 27699..28139 | 基因=“E3A” | “16.1K膜蛋白” |
多A-信号 | 27734..27739 | “L4的可能多A-信号” | |
CDS | 28124..28642 | 基因=“E3” | “18.5K糖蛋白前体” |
CDS | 28672..29211 | 基因=“E3” | “20.1K蛋白” |
CDS | 29224..29793 | 基因=“E3” | “20.5K糖蛋白” |
CDS | 29808..30023 | 基因=“E3” | “7.7K蛋白” |
CDS | 30133..30408 | 基因=“E3” | “10.3K蛋白” |
CDS | 30380..30817 | 基因=“E3” | “14.9K蛋白” |
CDS | 30810..31217 | 基因=“E3” | “14.7K蛋白质” |
多A-信号 | 31258..31263 | “E3的多A-信号” | |
CDS | 互补(31269..31433) | 基因=“U” | “U外显子蛋白” |
CDS | 31448..32509 | 基因=“L5” | “纤毛蛋白” |
多A-信号 | 互补(32276..32281) | “E4的多A信号” | |
多A-信号 | 32520..32525 | “L5的可能多A-信号” | |
CDS | 互补(32552..32803) | 基因=“E4” | “ORF6/7” |
CDS | 互补(32800..33696) | 基因=“E4” | “34K蛋白质” |
CDS | 互补(33599..33967) | 基因=“E4” | “13.6K蛋白质” |
CDS | 33822..34331 | 基因=“L5” | “DNA结合病毒蛋白” |
CDS | 互补(33976..34239) | 基因=“E4” | “13K蛋白质” |
CDS | 互补(34757..35134) | 基因=“E4” | “13.9K蛋白质” |
启动子 | 互补(35216..35221) | “E4的TATA框符” | |
重复区 | 互补(35409..35522) | “倒转末端重复” |
表50:Ad1(登录No.AY534906;SEQ ID NO:586)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
CDS | 连接(560..1112,1230..1546) | 基因=“E1a” | “32kDa蛋白质” |
CDS | 连接(560..976,1232..1546) | 基因=“E1a” | “26kDa蛋白质” |
CDS | 连接(560..643,1236..1319) | 基因=“E1a” | “6kDa蛋白质” |
CDS | 1717..2259 | 基因=“E1a” | “21kDa蛋白质” |
CDS | 2022..3524 | 基因=“E1b” | “转化相关的55kD蛋白” |
CDS | 连接(2022..2270,3291..3524) | 基因=“E1b” | “E1b” |
CDS | 连接(2022..2270,3233..3277) | 基因=“E1b” | “E1b” |
CDS | 3261..4043 | 基因=“IX” | “14.5kDa六邻体蛋白质” |
CDS | 互补(4102..5460) | 基因=“IVa2” | “病毒体形态相关21kDa蛋白质” |
CDS | 互补(5208..8378) | 基因=“IVa2” | “120kDa DNA聚合酶” |
CDS | 7989..8438 | 基因=“L1” | “16.7kDa蛋白质” |
CDS | 互补(8594..10552) | 基因=“E2b” | “末端75kDa蛋白质” |
CDS | 互补(10598..10996) | “未知” | |
CDS | 11059..12306 | 基因=“L1” | “47kDa蛋白质” |
CDS | 12327..14084 | 基因=“IIIa” | “peri五邻体al六邻体相关65kDa蛋白质” |
CDS | 14166..15890 | 基因=“L31” | “64kDa五邻体蛋白质” |
CDS | 15897..16493 | 基因=“pro-VII” | “22kDa大核蛋白前体” |
CDS | 16563..17669 | 基因=“pV” | “42kDa小核蛋白前体” |
CDS | 17793..17939 | 基因=“L2” | “pmu 8.8kDa” |
CDS | 18022..18774 | 基因=“pVI” | “六邻体相关27kDa蛋白质前体” |
CDS | 18861..21775 | 基因=“L4” | “109kDa六邻体蛋白质” |
CDS | 21788..22402 | 基因=“L3_1” | “23kDa肽链内断酶” |
CDS | 互补(22500..24089) | 基因=“E2a_1” | “59kDa DNA结合蛋白质” |
CDS | 24118..26541 | 基因=“L5” | “90K六邻体组合相关蛋白质” |
CDS | 连接(26252..26566,26769..27137) | 基因=“E2a_2” | “病毒体形态相关25kDa蛋白质” |
CDS | 27225..27908 | 基因=“pVIII” | “六邻体相关25kDa蛋白质” |
CDS | 27909..28232 | 基因=“E3A” | “12kDa蛋白质” |
CDS | 28775..29257 | 基因=“E3” | “18.6kDa糖化膜蛋白” |
CDS | 29532..29816 | 基因=“E3” | “10.7kDa蛋白质” |
CDS | 30106..30507 | 基因=“E3” | “14.9kDa蛋白质” |
CDS | 31101..32849 | 基因=“L5” | “62kDa纤毛蛋白” |
CDS | 互补(连接(33976..34063,34768..34865,35232..35594)) | 基因=“E4” | “20kDa蛋白质” |
CDS | 互补(连接(33976..34063,34768..35054,35232..35594)) | 基因=“E4” | “27kDa蛋白质” |
CDS | 互补(连接(33976..34063,34768..35168,35232..35594)) | 基因=“E4” | “32kDa蛋白质” |
CDS | 互补(连接(34764..34865, | 基因=“E4” | “17kDa蛋白质” |
35232..35594)) | |||
CDS | 互补(连接(34764..35054,35232..35594)) | 基因=“E4” | “24kDa蛋白质” |
CDS | 互补(连接(34764..35168,35232..35594)) | 基因=“E4” | “28.6kDa蛋白质” |
表51:Ad21(登录号No.AY601633;SEQ ID NO:587)序列特征和假设性基因产物
特征类型 | 位置 | 注释或基因位点 | 产物 |
重复区域 | 1..114 | “倒转末端重复” | |
CDS | 结合(574..645,1247..1348) | 基因=“E1A” | “E1A 6.8KDa蛋白质” |
CDS | 结合(574..1155,1249..1452) | 基因=“E1A” | “E1A 28.4KDa蛋白质” |
CDS | 结合(574..1062,1249..1452) | 基因=“E1A” | “E1A 24.6KDa蛋白质” |
多A-信号 | 1491..1496 | “E1A” | |
启动子 | 1541..1580 | “E1B和IX” | |
CDS | 1905..3383 | 基因=“E1B” | “E1B小型T抗原” |
CDS | 3477..3893 | 基因=“IX” | “蛋白质IX(六邻体相关蛋白)” |
多A-信号 | 3906..3911 | “E1B和IX” | |
多A-信号 | 3476..3892 | “E2B和IVa2” | |
CDS | 互补(连接(3946..5279,5558..5570)) | 基因=“IVa2” | “IVa2蛋白质(成熟蛋白质)” |
CDS | 互补(5049..8417) | 基因=“E2B(POL)” | “DNA聚合酶” |
CDS | 6142..6462 | 基因=“未赋值” | “假设11.5KDa蛋白质” |
CDS | 互补(6866..7387) | 基因=“未赋值” | “假设19KDa蛋白质” |
CDS | 7131..7418 | 基因=“未赋值” | “假设10.4KDa蛋白质” |
CDS | 连接(7827..8228,9478..9495) | 基因=“未赋值” | “DNA结合蛋白质” |
CDS | 互补(8227..8571) | 基因=“未赋值” | “假设12.6KDa蛋白质” |
CDS | 互补(8420..10342) | 基因=“E2B(pTP)” | “DNA末端蛋白质” |
CDS | 8546..8947 | 基因=“未赋值” | “假设14.5KDa蛋白质” |
CDS | 互补(9541..9855) | 基因=“未赋值” | “假设11.5KDa蛋白质” |
CDS | 9755..10030 | 基因=“未赋值” | “假设9.7KDa蛋白质” |
启动子 | 互补(10521..10560) | “E2B和IVa2” | |
启动子 | 10576..10615 | “L1” | |
CDS | 10587..12026 | 基因=“L1(52K)” | “L152K蛋白质” |
CDS | 12054..13805 | 基因=“L1(IIIa)” | “蛋白质IIIa” |
CDS | 13878..15563 | 基因=“L1(五邻体)” | “五邻体蛋白质(蛋白质III)” |
多A-信号 | 15565..15570 | “L2(五邻体)” | |
CDS | 15572..16150 | 基因=“L2(pVII)” | “大核蛋白(蛋白质pVII)” |
CDS | 16190..17251 | 基因=“L2(pV)” | “大核蛋白(蛋白质pV)” |
CDS | 17280..17510 | 基因=“L2(pX)” | “蛋白质X(蛋白质mu)” |
多A-信号 | 17528..17533 | “L2(X)” | |
启动子 | 17542..17581 | “L3” | |
CDS | 17583..16150 | 基因=“L3(pVI)” | “蛋白质VI(六邻体相关蛋白)” |
CDS | 18454..21303 | 基因=“L3(六邻体)” | “六邻体蛋白(蛋白质II)” |
CDS | 21340..21969 | 基因=“L3(23K)” | “23K蛋白酶(Adenain)” |
多A-信号 | 21989..21944 | “L3” | |
多A-信号 | 互补(22001..22006) | “E2A” | |
CDS | 互补(22058..23611) | 基因=“E2A(DBP)” | “早期E2A DNA结合蛋白” |
启动子 | 互补(23560..23599) | “E2A” |
启动子 | 23601..23641 | “L4” | |
CDS | 23642..26414 | 基因=“L4(100K)” | “100K蛋白质” |
CDS | 25815..26113 | 基因=“L4(22K)” | “22K蛋白质” |
CDS | 连接(25815..26163,26354..26688) | 基因=“L4(33K)” | “33K蛋白质” |
多A-信号 | 26559..26564 | “L4(100K和22K)” | |
CDS | 26758..27441 | 基因=“L4(pVIII)” | “L4蛋白质VIII” |
CDS | 27441..27761 | 基因=“E3” | “E312.1kD蛋白” |
CDS | 27715..28155 | 基因=“E3” | “E316kD蛋白” |
多A-信号 | 27750..27755 | “E3” | |
CDS | 28140..28658 | 基因=“E3” | “E319.2kD蛋白” |
CDS | 28688..29277 | 基因=“E3” | “E320kD蛋白” |
CDS | 29240..29287 | 基因=“E3” | “E321.2kD蛋白” |
CDS | 29857..30084 | 基因=“E3” | “E38.8kD蛋白” |
CDS | 30124..30399 | 基因=“E3” | “E310.3kD蛋白” |
CDS | 30371..30808 | 基因=“E3” | “E316.6kD蛋白” |
CDS | 31406..32377 | 基因=“L5(纤毛)” | “纤毛蛋白” |
多A-信号 | 32380..32385 | “L5” | |
多A-信号 | 互补(32397..32402) | “E4” | |
CDS | 互补(连接(32409..32660,33383..33556)) | 基因=“E4” | “E416kD蛋白” |
CDS | 互补(32657..33556) | 基因=“E4” | “E434.7kD蛋白” |
CDS | 互补(33459..33827) | 基因=“E4” | “E414.3kD蛋白” |
CDS | 33682..34191 | 基因=“未赋值” | agonoprotein相似于人腺病毒Bagonoprotein,GI:329670 |
54 | |||
CDS | 互补(33836..34189) | 基因=“E4” | “E413.6kD蛋白” |
CDS | 互补(34186..34575) | 基因=“E4” | “E414.4kD蛋白” |
CDS | 互补(34617..34994) | 基因=“E4” | “E414.2kD蛋白” |
CDS | 互补(35269..35382) | “ITR” |
为了上面表39-51中指定的产物,本发明者注意到,普适遗传密码将“定位”柱中被鉴别的核酸序列导入相应的氨基酸序列中。同样地,“产物”柱中指定的氨基酸序列没有被明确列出。
现在参照附图,其中相同数字指定贯穿几个图像中的相同或相应部分。在这里,“有意义”一般是关于预先确定水平的统计学显著性或结果的确定性。可供选择地,有意义表明对于用户得出关于存在特异性生物实体或一群实体结论的预先确定水平的有效性。例如,BLAST返回E值(相应概率),数据库内已知序列数量的E值对应于序列数据库记录的总数,该序列数据库记录返回被查询子序列的同样类似值(比值)。如果重排提交的测序序列返回相同的E值,最初结果是无意义的。另外,这里使用的术语“可比较的”一般统指包括足够量的有效碱基响应的数据,该数据从类似性搜索返回有意义结果。此外,关于使用该数据从类似性搜索返回给用户的有效性结果的术语“可比较的”可被交换使用。相反地,术语“无可比较的”一般统指包括足够量的无碱基响应(Ns)的数据,该数据导致类似性搜索的无意义或不确定结果。
该体系,包括REPI(再测序病原菌鉴别器),通过筛选和编辑序列数据到更适于序列类似性搜索的子序列中,被设计自动化和按算法分析不完整核苷酸或多肽序列的输出。为了完成这个目的,系统包括一些功能步骤,或过滤器,当从序列数据中提取可比较数据时尽可能小地修改数据。如上面描述的,由于再测序微阵列的特性,序列通常包含大量的无碱基响应(Ns)。类似性搜索如BLAST典型地返回不确定结果或具有大量无碱基响应的序列。模糊结果的实施例包括,但不限于低比值或不预测唯一类似性搜索的预期(E)值。因此,本系统的实施方案提取原始序列的那些片段,或子序列,该原始序列最可能从类似性搜索中返回有意义结果。
图11(a)为本发明实施方案的示范性示意图。通过系统208的自动化子序列分析模块209首先处理序列数据203。ASP 209过滤序列数据203并仅筛选可能导致预期确定概率匹配211a(例如,BLAST预期值<1.0E-9)的那些子集。然后,采用如类似性搜索算法将这些子集比对数据库109,结果返回给系统用于进一步分析和概述214。然后,将生成的搜索总结213提交给用户用于更深层分析215。因为分身不能返回统计学相关(例如,BLAST预期值<1.0e-9)搜索结果的序列子集通过ASP排除掉,返回给用户的结果213通常包括比提交未分析序列的常规方法更高比例的显著性匹配213a。采用BLAST或BLAST类类似性搜索算法的特殊实施方案中,1.0e-150到2之间的预期值是优选的。更优选地,涉及BLAST的实施方案包括执行唯一鉴别单一病原菌数据库记录的比值和预期值。选择性地,系统208进一步过滤归纳出的结果仅显示出满足用户设定或系统预先确定标准的那些匹配子序列。这些标准包括但不限于:比值、预期值(另一种序列能导致同样结果的偶然性),或来自子序列或用于生成碱基响应的微阵列信号强度的区域的另一种得分。图11(a)也说明,提高共享序列数据库和比对资源109在网络连接217范围内提供结果给附加用户219的能力。
图11(b)为REPI的示范性实施方案,系统的一种实施方案。通过REPI208′的自动化子序列分析模块(ASP)209′首先序列数据库203′。ASP
209′过滤序列数据203′并仅筛选可能导致预期确定概率匹配211a′的那些子集。然后,采用如类似性搜索算法将这些子集比对数据库109′,结果返回给系统用于进一步分析和概述214′。然后,将生成的搜索总结213′提交给用户用于更深层分析215′。因为分身不能返回统计学相关搜索结果的序列子集通过ASP排除掉,返回给用户的结果213′通常包括比提交未分析序列的常规方法更高比例的显著性匹配213a′。选择性地,REPI 208′进一步过滤归纳出的结果仅显示出满足用户设定或系统预先确定标准的那些匹配子序列。图11(b)也说明,提高共享序列数据库和比对资源109′在网络连接217′范围内提供结果给附加用户219的能力。
FIG.11(c)为软件中一种系统实施方案界面的示范性筛选屏幕(这个例子中的图像用户)。这个特殊实施方案能连接网络和局部BLAST服务器(任一或两者),并能修改一些常用BLAST参数251。此外,如下面细节中描述的,分析算法253特异性参数,如窗口尺寸,对用户可来说是非必须的。
图12为描述CIBSI,包括ASP的全面功能性的流程图。在开始CIBSI操作S301,CIBSI得到“原始”序列。REPI可得到许多格式,包括但不限于FASTA、MSF、GCG、Clustal、BLC、PIR、MSP、PFAM、POSTAL、和JNET的序列数据。在常规和再策略微阵列中,序列数据典型性采取对应于微阵列多重拼接区域的碱基响应的FASTA形式多重序列。
除了关于序列数据格式的灵活性,系统从多种不同来源类型接收数据。如上面描述的,这些类型包括,但不限于,手动或自动的Sanger测序法、shotgun测序法、常规微阵列、再测序微阵列、微电泳测序法、杂交测序法(SBH)、Edman简并和其变异、扩增分子上循环阵列测序法、单一分子上循环阵列测序法、和无循环、单分子、实时方法如纳米孔测序法。可供选择地,原是序列S301可由转录核酸(信使核糖核酸(mRNA)或用于病毒转录和翻译的中间相序列。例如,本发明的一种实施方案是关于RNA转录,RNA在其片段化(用Affymetrix基因表达阵列完成)后直接杂交到阵列上或使用反转录酶转变成DNA。该区域由基因组的外显子区构建而成并且再测序阵列用于分析这些序列的哪个使其进入转录子中。在可供选择的实施方案中,在图12中描述的方法对应于氨基酸序列,一组原始序列S301可描述氨基酸的直接读序或从氨基酸组合中推断出的序列如高分辨质谱测定的。选择性地,原始氨基酸或蛋白质数据被分析出包括相对位置数据,其中相对位置不是保守的。
在再测序微阵列中,经再测序拼接的全部构成内的局部序列位置间接表明全部基因序列构成。例如,再测序阵列可能仅同时给出5-10个连续碱基响应的读序,每个读序被连续无碱基响应隔开。图33描绘了这个概念的更普遍描述,这个概念被应用于局部序列读序的任何集合。因此,核苷酸碱基响应的任何集合或彼此无明显关联的氨基酸序列首先与“病毒序列”进行比较,针对可探测的较短序列进行比较。那么,连续碱基响应,或局部序列作为集合序列的个体部分是有关联的。因此,为了微阵列的局部序列数据或更有效和通过CIBSI有效加工处理的任何其他序列生成平台,局部序列首先连接成集合安排、或组合序列。为了确定哪个局部序列应被结合和被取代,采用类似性搜索用存储器中存储的一群参考序列比对每个可检测子序列。当与参考序列中的一种进行比对时得到符合条件匹配的局部序列作为组合序列部分被存储起来提交给CIBSI用于分析。
格式化从再测序微阵列中提取的序列数据的方法在图33中显示的流程图中进行了描绘。从再测序微阵列或任何其他核苷酸或多肽测序平台S2403中提取的序列信息,并被加工处理来探测被连续无碱基响应S2405隔离的局部序列。探测局部序列的步骤可通过窗口功能被执行,窗口功能一经检测到碱基响应就启动观察窗口并且当另一组无碱基响应被探测到就关闭观察窗口。因此,在局部序列数据周围建立一种窗口,并且隔离局部序列读序无碱基响应被剔除。扫描操作也可在序列数据上执行,该扫描操作识别每个连续无碱基响应,从而指出对应于局部序列的一组碱基响应。
然后,每个被鉴别的局部序列与存储参考序列S2409进行比对来确定是否局部序列符合存储的参考序列中的一种。这个比对将产生表明存储参考序列和局部序列之间类似性的统计值。然后,如果统计值在预先确定阈值之外,局部序列被存储为S2413与其他局部序列SS2415结合。可供选择地,如果统计值低于预先确定阈值,局部序列被排除掉。这个过程持续到所有局部序列都被比对,因此生成一组混合数据被提交给CIBSI,如下面被讨论的。
然后,该系统在提取候选子序列S305之前执行对照组检验S303。在提取候选子序列之后,系统从候选子序列S307的前端和末端剔除无响应(Ns)。然后,该系统检验被剔除的候选子序列S309的长度来确定是否可供选择序列或自序列应被筛选出S311,候选子序列随时转到类似性搜索服务器上并被加到类似性搜索队列S315上,或者是否百分率或子序列中正确碱基响应的附加检验满足可接受的阈值而对其进行比较(采用类似性搜索)。可供选择的序列或子序列S311的筛选通过使用滑窗算法在一种实施例中完成。为了那些与S315比对的序列,系统聚集类似性搜索服务器返回的结果,对这些结果进行统计分析并且依据用户参数选择S317将其过滤给用户。选择性地,该系统将类似性搜索结果完全地返回给被提交的子序列。当生成更明显的下面描述的给定示范性实施方案时,在可供选择的实施方案中能重新安排或修改算法步骤。另外,也如下面更详细描述的,系统的行为经系统预先确定或经用户选择性地确定。
下列段落更详细地描述了图12中显示的每个主要功能性步骤
图13为执行对照检验步骤S303的对照检验模块的示范性流程图。因此,序列首先被检验察看是否它是微阵列S403通常输出的对照组序列,微阵列S403不符合生物样本,但相反证实微阵列运行正常。被加入到微阵列的对照组序列被特定设计为无义,唯一可确认的,或非自然发生序列;因此,经缺省,对照组序列将不返回显著类似性。如果序列不是对照组,在继续下一步S409之前,系统可选择性地检验是否序列匹配可供选择的自定义参数标记S407。万一序列被识别当作对照组或匹配自定义参数,系统选择性地执行对应于自定义参数的辅助功能或移动指令到下一种序列S405上。
图14为提取子序列步骤S305的示范性流程图。初步筛选序列S501,该系统在窗口尺寸背景内检查序列S503,Z为对应于许多被返回的碱基响应的窗口尺寸参数。这个“观察窗口”一般小于典型序列尺寸并且可在序列的任何点形成。然后,该系统计算窗口内存在实际碱基响应的百分率(无无响应)S505。在被说明的实施例中,通过将″1″设为有效碱基,″0″设为所有无响应,执行该计算。在一种实施方案中,窗口尺寸Z从两个碱基响应之间优选范围和半个长度的最小靶点或输入序列中筛选出。当窗口尺寸增加时,筛选包括更多无碱基响应的候选子序列的模块变得更被允许的。
然后,将计算的百分率与最初的跳跃阈值参数A(例如,25%)进行比对,最初的跳跃阈值参数可被系统预先确定或被用户选择S507。如果窗口内的实际碱基响应的计算百分率不符合最初的跳跃阈值参数A确定的标准,系统增加了碱基响应的窗口数量S509,依据最初窗口跳跃参数,X,该最初窗口跳跃参数也可能由系统预先确定或由用户选择,但是优选在1和Z之间,Z为窗口尺寸参数。增加这点或任何其他点上窗口能在任何方向上发生(例如,向序列末端)。在窗口内的实际碱基响应的计算百分率符合由最初的跳跃阈值参数A确定的标准的情况下,系统在滑窗起始处的候选子序列的起点做标记S511。然后,依据第二个窗口跳跃参数,Y,该窗口被增量移动许多碱基响应S513,并且在每个滑动增量处,计算出窗口内实际碱基响应的百分率S515。如果,候选序列内实际碱基响应的百分率不能满足第二个窗口跳跃阈值B设置的标准,系统在对应于窗口末端处碱基响应的序列碱基响应处的候选子序列末端作标记,系统搜索连续的最大可用数据。当系统跳跃参数X和Y增加时,筛选具有更多无碱基响应的候选子序列的模块变得更被允许的。当跳跃阈值A和B增加,其他条件不变时,模块变得较少被许可。
图14(b)为滑窗算法的一种实施例,依据本发明的实施方法。滑窗551的起始端和末端确定了候选序列553的长度和内容。这个子序列在下面描述的剔除功能中被剔除。
图15为系统执行的剔除功能S307中更详细描述的示范性流程图。在这个特殊功能模块中,系统探测到候选子序列S603的起初Ns并且随后剔除了候选子序列S605的起始Ns。然后,该系统识别出候选子序列的实际起点已经改变S607并且调整了候选子序列的位置和内容。一组类似行为被执行来除去候选子序列S613、S617末端的Ns。因为这里描述的滑窗方法允许序列以Ns为起始端并以Ns为末端,剔除提高了算法的最优性。可供选择地,滑窗功能能适合于或被替代探测和回避Ns和候选子序列的起始和/或末端,因此消除了对这个步骤的需求。
该体系的下一种功能为长度评估S309。图16显示出详细设计执行检验长度步骤的方法的示范性流程图S309。候选子序列的长度为计算出来S703并且与最初长度阈值参数,E进行比较S705。如果候选子序列的长度不大于E(例如,20个核苷酸),系统返回到提取子序列步骤S305。如果满足了最初长度阈值E,候选子序列的长度与第二个长度阈值参数,F(例如,50个核苷酸)进行比较S709。如果候选子序列长度超过F,候选子序列被提交给类似性搜索(比对)服务器或被加到经服务器批处理被筛选子序列的队列上S711。在候选子序列超过E但没有超过F的情况中,系统移动指令到检验中等长度(例如,长度在20个核苷酸和50个核苷酸之间的子序列)候选自序列内的实际碱基响应的百分率步骤上S713。最初和第二个长度阈值参数E和F能在与最大可供搜索的子序列一样宽的范围内改变。另外,由于E和F降低,模块变得更被允许的。
图17显示出计算百分率功能的示范性流程图。在这个功能范围内,计算中等长度候选子序列的实际碱基响应百分率S803。这个被计算的百分率与中间百分率阈值H进行比较S805,中间百分率阈值H由用户选择或由系统预先确定。如果实际碱基响应的计算百分率小于中间百分率阈值H(例如,60%),系统返回到提取子序列步骤S807搜索可供选择的候选子序列。如果计算百分率超过H,中等长度候选序列被提交给批处理子序列的队列上或直接被提交到类似性搜索服务器上S809。由于中间百分率得分阈值参数增加,模块成为具有大量无碱基响应的子序列较少被许可。
除了被提交的子序列的类似性搜索中得到的结果之外,系统选择性地提供了被提交的子序列的进一步分析。图18(a)为更详细描述图12的模块S317内系统活动的示范性流程图。这个模块在子序列或子序列群与S901进行比较后产生。在这点上,系统读出类似性搜索输出S903并分析该输出结果,运算关于被提交子序列的附加描述统计,被提交的子序列由用户选择或由系统预先确定S905。
由系统执行并运行统计的分析包括,但不限于,被筛选的子序列长度如碱基响应内序列百分率和子序列长度,两者一起用于说明靶点生物实体基因的哪个部分被鉴定。这个子序列长度和子序列碱基响应的百分率使研究者监控系统算法和功能步骤。另外,在再测序微阵列中,包括,但不限于GDAS的碱基响应分析的阈值参数被监控。在可供选择的实施方案中,系统收到并格式化类似性搜索返回的统计结果,用户使用图形用户界面操作和组织这些结果。图18(b)为根据本发明实施方案输出结果数据的实施例。
选择性地,系统能存储所有由类似性搜索和上面描述的分析返回的输出结果,包括,例如BLAST结果。该系统也选择性地显示S909给用户由类似性搜索返回的和/或由该系统运算的所有结果或结果子集。本发明的某些实施方案将这些结果发送和保存用于存档或转移S911。
下列表说明上面描述的一些示范性参数和阈值的示范性区间和优选子区间。
优选子区间:
表52
参数阈值 | ||||
预期值阈值 | 1.0E-9 | 1.0E-8-1.0E-10 | 1.0E-7-1.0E-11 | |
窗口尺寸 | Z | 20 | 10-30 | 1-* |
第一种跳跃阈值 | A | 25% | 15%-35% | 1%-99% |
第一种窗口跳跃 | X | 1 | 1-5 | 1-* |
第二个窗口跳跃 | Y | 1 | 1-5 | 1-* |
第二个跳跃阈值 | B | 25% | 15%-35% | 1%-99% |
第一种长度阈值 | E | 20 | 10-30 | 1-* |
第二个长度阈值 | F | 50 | 40-60 | 1-* |
中间百分比阈值 | H | 60% | 50%-70% | 1%-99% |
受到系统参数如随机存取存储器、处理器速度等限制 |
在该系统的另一种实施方案中,搜索(比对)输出可被分析最优化参数,J,S913。如上面描述的,系统的参数和阈值,包括,但不限于A、B、X、Y、E、F、和H,由用户设置或由系统预先确定。可供选择地,系统的一种实施方案能通过系统或通过使用互补功能模块最优化这些变量中的一种或几个。例如,最优化参数或阈值能依据已知的最优化方法(例如,SIMPLEX线性程序)或人工智能(包括状态空间搜索方法如随机搜索或启发式搜索)技术在多种应用系统操作或“传送”期间通过分析被记录的系统性能进行实施。相应的最优化参数,J,可被用于,例如,改变先前步骤中使用的多种参数和阈值并且再次使用这些新的最优化参数运行这个过程S917。可供选择地,代替再次从原始数据文件开始,最优化参数J能被用于通过使用最优化参数J提炼被筛选出的子序列的输出S915而改变与参数相关的如与系统联合的类似性搜索算法的行为或功能。最优化参数能由用户或系统调整来提高系统性能,如速度或相关/有意义的类似性搜索结果。
图19为描述本发明的另一种实施方案的示范性流程图,本发明利用其延伸的核心本质。特殊地,系统分析1017被用于最优化或改变对应于类似性搜索算法的操作或行为的参数1009。例如,这个改变可能与在分析结果中运算或插值的上面描述的最优化参数J相关1017。改变类似性搜索参数(例如,BLAST参数)改变该方法和典型用在类似性搜索中评分系统。特殊地,举例说明的迭代分析法可能导致提示测试序列与已知序列可能匹配的最高阈值或最低阈值,因此改变或最优化系统输出1019。
本发明的描述进一步由下列详细实施例支持。下列详细实施例对应于本发明的示范性实施方案并不是为了提出限制本发明的系统措作、参数设定、序列数据,等。
REPI的一种实施方案用于确定CustomSeq/GCOS/GDAS方法中的哪个碱基响应子序列通过使用自定义滑窗算法将可能返回显著性BLAST结果。随后地,REPI自动返回BLAST输出给终端用户,该终端用户概率性分配给定组碱基响应对应特殊生物序列的可能性。此外,REPI自动将序列片段连接到个体病原菌上。
再测序阵列芯片的原始序列数据由包装有Affymetrix微阵列阅读器的遗传分析软件version 2.0(GDAS)来提供。GDAS碱基响应基于先前描述的碱基响应算法(Cutler et al.,2001)。包含从GDAS软件得到的碱基响应的每一种FASTA输出文件采用专属软件(REPI)进行分析,该专属软件(REPI)是这里描述的本发明的一种示范性实施方案。
在本发明的情况中,GDAS的序列输出大部分通常为邻近序列响应(A、T、C或G)的分散混合物,邻近序列响应(A、T、C或G)点缀着不同量的无响应(n′s),由于缺少扩增、芯片上的弱杂交信号和/或非特异性结合导致的高背景杂交,GDAS软件不产生碱基响应(Cutler et al.,2001)。Ad4FIBER拼接区域的4(+)腺病毒临床样本的GDAS输出的一种实施例输出在下面显示出:
>Ad4FTBER:609124A2-8.7.03-2小时杂交开始=12终点=1245
tcccnacgatgcagncnncnnncgacnangcccttcatcaaccctcccttcgnnctcttcagntggnttc
caagaaaagcccctgggggtgttgnccntaggnnntnnncgaccctgncncnccangaatggggaaanca
cncnnantntggngnannnngtggaccttgacgnctcgggaaanctcnttgcaancncagncnnnaagnn
cattgnnnctnntagnttttnccancaacnccattnnnnnttaacatggnnncccctttanncnccaaag
ntggaaanctnnccttncaagnttctnncnccattaagtatattnngnnnnnnnnntnnnnnntnnntnn
nctnnncttttngctcaggtttnggacngnnnngnagngntnngncagtacagttagcctctncncttnc
atttgnngnnaaagggaananaaagnttnnnntnnntnnnggnttgcatgttacaacaggaantgcaatt
gaaagcaacattagntgggctnaaggtnnaaaatttgaagatggtgccanagcnncaaacattggtaagn
nntnnnnnntnnnaaccagnagnncagaancaggagntaanaangcttnnccaanccaagntaaanttgn
atctggncncagctttgncagcncaggagnnntaatgnctggcaataaagncnnngananattanctttg
tggacaacgcctgacccatcannaaactgncaaatnctngcngaaaangangcaaanctancnctttgct
tnacnnagnnngnnagncaaatnctggccactgnancagntttqqntantagaaanaanancntaaaccc
aattnctggcacagnaagcagngctcaagnttttcnncgntttgatgcaancngtgntcttttancngan
cactcnannnnnaaaaaatactggggctacnggnaaggagatagcatagatggcactncatacaccaatg
ctgttggntncntgccaaattcancagcttntnnaaagacncaaagttctnctnntaaaaataatntann
nngncaagnatnnatgaatggngntgtttnaaaacccangcttcttnctatanctcttaatggnnctgnt
gacaccaccagtgcatnntnnntttnattttcntncacctggactaacggaagctanatcggagcaacat
ttggagctaactcatacaccttcncntacanngcccannaannn
在提供的实施例中,REPI经CGI(Perl)界面连接到局部BLAST(NCBInt)数据库(包含在具有4.5GB随机存取存储器的苹果G5单一处理器(1.8Ghz)计算机上)。显示的结果包括所有预期值(E-值)阈值1.0e-9的数据库序列。E-值表示在随机给定搜索空间、记分矩阵、和空位罚分的预期分析数量;E-值越低数据库类似性搜索匹配越不可能进行随机鉴别。
REPI输出由(可比较)子序列命名、长度、E-值和每个匹配的bits scores构成,以bits scores的降序排列显示每个子序列。名称报告为GenBank记录FASTA定义列并且包括序列长度。得分为记分矩阵和空位罚分计算出的标准分数,分数越高类似性越高。
上面列出的实施例的REPI输出在下面显示出。对于每个可比较子序列,REPI返回(以比值等级的降序排列)所有具有预期值小于评估阈值,通常为1.0E-9的GenBank数据记录。获得的最高比值是4型腺病毒,而较低的比值s适合区分来自空军和海军培训基地的本地株。
>Ad4FIBER:609124A2-8.7.03-2小时杂交开始=12终点=1245
子序列:
tcccnacgatgcagncnncnnncgacnangcccttcatcaaccctcccttcgnnctcttcagntg
gnttccaagaaaagcccctgggggtgttgnccntaggnnntnnncgaccctgncncnccangaat
ggggaaancacncnnantntggngnannnngtggaccttgacgnctcgggaaanctcnttgcaan
cncagncnnnaagnncattgnnnctnntagnttttnccancaacnccattnnnnnttaacatggn
nncccctttanncnccaaagntggaaanctnnccttncaagnttctnncnccattaagtatattn
ngnnnnnnnnnt
靶点子序列百分率:27%
子序列长度:337
子序列碱基响应数量:249
子序列碱基响应百分率:74%
gi|434913I emb|X76547.1|AV4FIB1纤毛蛋白质4型腺病毒基因;长度=1375
Ad4FIBER evalue:3.35737E-33,score:149.17
Ic1|AY599837|血清4型人腺病毒,美国空军本地株|35,964bp;长度=35964
Ad4FIBER evalue:4.51313E-20,score:105.558
IcI|AY599835|血清4型人腺病毒,美国海军本地株|35;965bp;长度=35965
Ad4FIBER evalue:4.51313E-20,score:105.558
IcI|AY594254|血清4型人腺病毒,疫苗株#|35,994bp;长度=35994
Ad4FIBER evalue:4.34733E-17,score:95.646
1c1|AY594253|血清4型人腺病毒|35,990bp;长度=35990
Ad4FIBER evalue:4.34733E-17,score:95.646
gi|17105037|gb|AF394196.1|AF394196猴腺病毒25,全基因组;长度=36521
Ad4FIBER evalue:2.58354E-12,score:79.7872
gi|33694802|tpg|BK000413.11TPA:猴腺病毒25,全基因组;长度=36519
Ad4FIBER evalue:2.58354E-12,score:79.7872
gi|22796371|emb|AJ315930.1|HAD3159304型人腺病毒DNA;长度=12718
Ad4FlBER evalue:2.58354E-12,score:79.7872
子序列:
tnnntnnnctnnncttttngctcaggtttnggacngnnnngnagngntnngncagtacagttagc
ctctncncttncatttgnngnnaaagggaananaaagnttnnnntnnntnnnggnttgcatgtta
caacaggaantgcaattgaaagcaacattagntgggctnaaggtnnaaaatttgaagatggtgcc
anagcnncaaacattggtaagnnntnnnnnntnnnaaccagnagnncagaancaggagntaanaa
ngcttnnccaanccaagntaaanttgnatctggncncagctttgncagcncaggagnnntaatgn
ctggcaataaagncnnngananattanctttgtggacaacgcctgacccatcannaaactgncaa
atnctngcngaaaangangcaaanctancnctttgcttnacnnagnnngnnagncaaatnctggc
cactgnancagntttggntgntagaagnggnancntaaacccaattnctggcacagnaagcagng
ctcaagnttttcnncgntttgatgcaancngtgntcttttancngancactcnannnnnaaaaaa
tactggggctacnggnaaggagatagcatagatggcactncatacaccaatgctgttggntncnt
gccaaattcancagcttntnnaaagacncaaagttctnctnntaaaaataatntannnngncaag
natnnatgaatggngntgtttnaaaacccangcttcttnctatanctcttaatggnnctgntgac
accaccagtgcatnntnnntttnattttcntncacctggactaacggaagctanatcggagcaac
atttggagctaactcatacaccttcncntacanngcccannaa
靶点子序列百分率:72%
子序列长度:888
子序列碱基响应数量:701
子序列碱基响应百分率:79%
gi|434913|emb|X76547.1|AV4FIB1纤毛蛋白质4型腺病毒基因;长度=1375
Ad4FIBER evalue:3.29583E-171,score:609.077
1c1|AY599837|血清4型人腺病毒,美国空军本地株|35,964bp;长度=35964
Ad4FIBER evalue:7.18119E-160,score:571.412
1c1|AY599835|血清4型人腺病毒,美国海军本地株|35,965bp;长度=35965
Ad4FIBER evalue:1.75062E-157,score:563.482
1c1|AY594254|血清4型人腺病毒,疫苗株#I 35,994bp;长度=35994
Ad4FIBER evalue:6.18269E-148,score:531.765
1c1|AY594253|血清4型人腺病毒|35,990bp;长度=35990
Ad4FIBER evalue:6.18269E-148,score:531.765
gi|303967|gb|L19194.1|ADRFIBERX纤毛蛋白质h4哺乳动物腺病毒,完整编码序列;长度=1346
Ad4FIBER evalue:1.50721E-145,score:523.835
gi|227963711emb|AJ315930.1|HAD3159304型人腺病毒DNA;长度=12718
Ad4FIBER evalue:3.67425E-143,score:515.906
gi|17105037|gb)AF394196.1|AF394196猴腺病毒25,全基因组;长度=36521
Ad4FIBER evalue:2.91419E-51,score:210.623
gi|33694802|tpg|BK000413.1|TPA:猴腺病毒25,全基因组;长度=36519
Ad4FIBER evalue:2.91419E-51,score:210.623
在这个详细的实施例中,REPI参数设置如下:
表53
参数阈值 | ||
预期值阈值 | 1.0E-9 | |
窗口尺寸 | Z | 20 |
第一跳跃阈值 | A | 25% |
第一窗口跳跃 | X | 1 |
第二窗口跳跃 | Y | 1 |
第二跳跃阈值 | B | 25% |
第一长度阈值 | E | 20 |
第二长度阈值 | F | 50 |
中间百分比阈值 | H | 60% |
除了上面描述的实施方案,系统的可延伸性能允许随时调整许多较高生物信息学任务,该较高生物信息学任务利用核酸的分散片断,或氨基酸序列。这些辅助应用的一些实施例在下面进行了描述。
在先前的实施例中,本发明者提供了显示出序列片段能自动连接单个病原菌的数据。在一些更优选的实施方案中,这种方法在垂直同源生物靶点序列组内混合物和重组之间进行分析。因此,直向同源基因通常被鉴别为不同物种内的相同基因,通常表示共同遗传起源。
更特殊地,系统自动分析来自再测序微阵列的不同拼接区域的序列响应来探测阵列不同拼接区域上存在同源序列片段。选择性地,该系统进一步确定不同拼接区域的描述垂直同源基因的序列输出不是垂直同源基因的混合物而对应于邻接序列,该邻接序列由两个或多个垂直同源基因之间的发生的遗传重组引起产生。
在一种这种附加实施方案中,该系统将考虑自动检测在阵列的不同拼接区域上的高度重叠或同源序列片段,推断出靶点序列的混合物。进一步,该系统将选择性地确定不同拼接区域的序列输出不高度重叠但对应于邻接序列,该邻接序列可能登录在已知靶点序列的内来推断遗传重组发生。
FIG.21举例说明了依据本系统的实施方案,在测试样本中不同靶点混合物和靶点内重组之间进行辨别的方法的一种示范性实施方案。这些实施例方法能归并到或采用上面描述的关于图12方法进行补充,这些实施例方法也用于在蛋白混合物和杂交蛋白质之间进行辨别。在这个实施例中,系统确定了由编码蛋白质的完全核苷酸序列的再测序微阵列(采用或不采用初始类似性搜索)探测的基因子序列的相对位置S1201。相对位置通常对应于全序列内子序列的位置。全序列在数据库中可用,该数据库由公共序列和/或专属序列记录组成。例如,子序列能被确定对应于全序列的前端(例如,5′)、中部、或末端(例如,3′)。此外,这个确定位置由候选子序列或筛选子序列组成。其次,该系统执行分析方法依据它们的位置来比对和匹配子序列S1203。用于执行S1203算法可以为用于两个序列间局部序列两两比对算法(例如,BLASTN、BLASTP、或BLASTX),在多重序列间同时执行分析的算法(例如,ClustalW or Clustal_X(Thompson et al.,1997;Thompson et al.,1994)),或从公共结构域或经专属发展得到的可供选择的算法。在一种实施方案中,系统聚集对应于类似序列的前端、中部和末端的子序列。随后,系统评估聚集的子序列彼此的拟合度S1205。
子序列间的拟合度能被评估出,例如,通过探测序列间重叠的适当量。在一种实施方案中,相对于无重叠序列,拟合度是同源重叠区长度(或比值)内的定量关系,每一种与给定蛋白质的完整基因的全部序列的关系。除了评估重叠生物序列的传统方法之外,系统采用应用于类比及数位通讯的同步探测方法选择性地分析序列重叠。此外,鉴别重叠序列的问题不像由数字通讯中初始同步引起的问题。因此,依据本发明,一种可能被采用的方法是使用滑移相关器。在滑移相关器中,两个序列(数据序列,和假设序列)对比两个序列彼此相关性。两个序列被移动到彼此相关的位置,仅当相关性结果被探测到具有上面预先确定的水平时停止移动。实际上,用于减少搜索范围如同步前导序列传递的一些其他方法之前加上滑移相关器。同样地,依照本发明,子序列间已经探测到的重叠可以被用作前导序列目的为了限制同步过程需要的时间量。这个类型的同步已经进行了描述,参见Bhargva,et al.″Digital Communications By Satellite″John Wiley andSons,Chapter 9,pages 269-291。同样地,其他同步或捕获算法可被采用例如在§8.22 of Sklar,B.″Digital Communications Fundamentals andApplications″,Prentice Hall,1988,pages 453,460中进行描述的那些。基于误获取的最低概率,筛选出获取标准。既然这样,获取标准可能具有概率10%的误探测,即使9%、8%、7%、6%也包括在内,降至0.1%可以被采用。
如果子序列不超过预先确定的拟合度阈值,系统开始分析可供选择的序列S1207。就是说,如果两个或多个潜在同源性或垂直同源子序列不符合混合物或重组模型,该系统开始搜索其他子序列S1201。采用类似性搜索算法将收集的分组子序列与完整(靶点)序列进行比较1211。在这种情况中,被连接的子序列和靶点序列之间的类似性水平S1213提供了一些数据,这些数据指示是否被探测生物序列来自不同生物实体或者是否被探测序列指示一种重组。可供选择地,系统采用检验点的方法来评估子序列片段之间的重叠杂交。检验点方法沿着子序列的多个点执行这种评估S1209。在这个方法中,检验点的数量与阈值S1215进行比较来提供在生物混合物和重组之间进行辨别的证据。
例如,同类型的两个病毒的交叉感染可能在一种基因中产生重组,这个基因与一种病毒除了5′端之外是同源的,单个基因被同一蛋白质的第二个病毒基因的对应片段取代。当这个新的重组病毒基因组被杂交到再测序微阵烈上时,它可能产生来自再测序拼接区域对应部分的信号。本发明的一种实施方案包括构建靶点序列模型的组装算法,该靶点序列显示出哪个片段可能结合形成完整靶点。如果这两个具有显著性重叠(例如,证实同源性大于某个阈值),可以得出可能存在混合物。但如果很少重叠或没有重叠,将没有存在重组的可能性。重叠的程度(或缺少)可能受到靶点低浓度影响,该靶点具有较少量的被填充的拼接区域。同样原理甚至能容易被采用,并且具有更大影响,在病毒上重组是稳定并重复发生,作为逆转录酶病毒,病毒间的重组导致形成新病毒株。事实上,这种被描述的功能性对靶点序列混合物对靶点序列间重组是必需的。此外,这个附加功能性也可用于更快速探测被检测到的(可能地)新重组内共有区并且帮助设计PCR引物来辅助更广泛研究由系统探测到的重组。
不仅本发明方法能在生物实体的混合物和给定实体内(这里另外描述的)的重组之间进行辨别,系统的附加实施方案有利地提供给终端用户相对量靶点序列的定量评估,该靶点序列在再测序微阵列中被探测到。当多种病原菌基因组信号被探测到时临床医师或临床试验室技术员指出原因和影响的时候,这种决策质量信息具有增强的效用。另外,关于生物物质存在的补充数据提供了额外背景用于终端用户制定决策,该生物物质具有关于丰富生物物质的资料。另外,该系统的实施方案被设计自动分析和比对这种“存在”和“丰富”资料来提供决策质量信息给终端用户。
该系统的实施方案被设计利用提供丰富信息的两种类型数据。第一种为芯片上杂交信号的绝对强度。溶液中靶点数量和实际杂交和生成信号的数量之间存在非线性关系。然而,样本中靶点核酸数量的评估通过用空白条件下制备的标准曲线进行比较而得到。例如,信号强度数据容易从Affymetrix数据结构中的.CEL文件中得到,并且典型用于基因表达改变的定量评估。该系统的一种实施方案提供了含有强度值的数据,输入、输出和操作。第二,碱基响应百分率,如全部拼接区域尺寸的百分率和被筛选子序列内的碱基百分率满足滑窗算法,被用作浓度测量。由发明者执行测试的结果显示出降低靶点浓度,这些百分率度量都降低,尽管正确靶点序列仍能被鉴别出。
图22为CIBSI的一种实施方案的示范性说明,该CIBSI加入了类似性搜索结果的强度数据来提供决策质量信息给终端用户。强度数据1314由微阵列的光谱分析工具输入。在类似性搜索结果的背景中分析强度数据更鲁棒性分析1319被探测到的序列并且从而提供给终端用户决策质量信息1321。决策质量信息包括,如相对丰富的对应于相关生物实体的被探测的序列或子序列的测量。另外的实施方案加入强度数据1314在先前描述的混合物和重组之间的辨别中。在这种情况中的强度数据1314将提供额外方面的信息,当应用数字通讯方法翻译类似性搜索返回的序列数据。
在另一种非常优选的实施方案中,系统分析转录标记物(例如,RNA),该转录标记物采用目前描述类型的微阵列(经RNA或互补cDNA的杂交)对RNA进行再测序。在类似于上面描述的推断基因组重组的方法中,转录序列也可被组合确定生物实体生存能力和能作为感染标记物的转录编辑活动。
另外,系统被必须的适应于使用生物序列非核酸和它们的相关转录产物如蛋白质的氨基酸序列。通常,本发明的蛋白质组应用与处理生物序列数据和最优化与已知序列比对的这些数据的系统能力一致。基因表达和蛋白质进化研究导致规模相似的氨基酸序列库并且如同上面描述的遗传序列数据库一样可被访问。此外,测序蛋白质用的质谱方法返回的光谱资料分析有助于详细阐述本发明的实施方案。例如,蛋白质序列光谱数据包括类似于微阵列分析中使用的强度数据。如上面描述的关于其他类似序列,本发明的先进实施方案提供给终端用户处理和利用这种强度数据来提供更高质量信息。
除了诊断应用中使用该系统,系统的可供选择的实施方案促进设计系统诊断实施方案用的更有效和有效率的再测序微阵列。选择和设计微阵列上探针的一种更有效方法不可避免的导致给定微阵列上有效面积的更有效使用。随后,微阵列能被制成精确探测更多钟给定尺寸的生物序列,或者特异性应用定制的微阵列通过减少微阵列上探针的规定数量而被制成更便宜更易被访问,这提高了尺寸缩小和高产量的可能性。设计微阵列的一种重要动力是辨别率。通常,在这里描述的辨别力统指在生物实体紧密相关菌株之间进行区别的辨别率。例如,一些应用可能要求空军腺病毒株和海军腺病毒株之间进行区别的辨别力,而另一种应用仅要求辨别存在腺病毒。下面描述的实施方案说明使用该系统使设计者能更客观更系统第平衡辨别率和微阵列尺寸/密度。
图23说明了使用系统加速设计和进行制备再测序微阵列或其他探针或阵列测试的方法的一种示范性实施方案。为了设计,筛选符合多种类型的生物序列(依次,对应于包括病原菌的生物实体)的测试序列,该生物序列目的是通过微阵列S1403被探测到。多于一种已知或可估计的生物序列的优选的组合可为紧密相关或不为紧密相关的,被筛选的序列能经过多种方法包括但不限于,系统发生树和隐马尔可夫模型(Eddy,1998)被选出。这些被筛选的测试序列使用多种分析算法如CLUSTALW S1405接受多种分析。执行多种分析导致得到一致序列S1407,典型对应于测序序列的共同区,公共性通过与某一类似性阈值(例如,CLUSTALW重量、CLUSTALW参数设置百分率开确定一致性)进行比较而被确定。得到的一致性序列然后被输入到本发明的实施方案中生成一致序列的一种或一种以上子序列,该一致序列作为很可能生成类似性搜索S1409的有意义结果而被确定。在一种方法中,一致序列的自叙列与最初被筛选的测试序列通过模拟进行杂交,模拟方法是模拟如Affymetrix再测序微阵列S1413的行为和限制性。杂交规律,包括,但不限于耐受性和插入、缺失、和全序列内不同量碱基对或不同位置上进行取代的规律。然后,得到模拟测试序列和一致序列间杂交模式的输出结果S1415,随后提高给系统采用类似性搜索进行自动化比对S1417。类似性搜索的结果与最初被筛选的测试序列进行比较S1419。一般地,类似性搜索返回至少一种已知生物实体和相关可能性,该可能性为被提交的序列或子序列来自那个已知实体。因此,比对类似性搜索结果能确定或否定基于一致序列相关部分的探针,该探针在正确杂交,从而鉴别用户所关注的收集的测试序列。如果结果确定一致序列(或其子集)有效性,那个序列能在再测序微阵列S1421的一种区域内被实现。可供选择地,如果比对间接表明关注的测试序列将不会被充分探测到,那么该系统在新探针S1423进一步的重新设计中被使用。这种重新设计过程的一种实施方案包括重新估计几个最初设计过程中的几个步骤,一些在图23中进行了说明。例如,这些结果受到被筛选测试序列范围的多样性和依据环境中其流行程度的测试序列加权的影响S1427。此外,一致算法加权是可调整的S1427以及为系统相关的功能参数S1429。此外,在模拟杂交中执行的不同方法是可调整的,包括全面改变算法和信噪比阈值S1431。
因此,与主观选择探针的常规方法对比,系统的功能性提供了加速或更有效的设计再测序微阵列。
上面关于设计的主题进一步通过下列发明者实施的实施例进行说明。在这个实施例中,方法被描述用于制备用作微阵列上靶点序列的一致序列,微阵列能鉴别那些用于制备它的测试序列。如24说明了下面描述方法的一种示范性实施方案。
以15个病原菌六联体基因组序列开始,依据系统发生树图排列这些序列(例如,参见图25)。系统树图用于图形表示和评估被筛选测试序列间的遗传关系。尽管Ad1和Ad5是关于其他序列的最大的局外点,所有15个被显示出的六联体基因序列在这个实施例中被筛选出作为初始组的测试序列S1503。初始组的测试序列S1503的筛选由预先确定的系统或用户指定参数选择性地自动化提供完成。例如,系统树图内序列间的距离提供了数字阈值组,该数字阈值组确定候选一致序列内结合序列要求的最小具体或最大距离。
下一步,所有筛选的测试序列接受多序列排比分析S1505例如ClustalW(Thompson et al.,1994),图26中显示出样本输出结果。然后,一致序列在这个序列排比S1507中计算出。实施例举例说明了图27中Cons(EMBOSS连接ClustalW)执行的这个步骤,Cons以低“多元”运行,参数使Cons用户设置了低于无一致性的阳性匹配数量的切断。特殊地,较低多元使较少匹配建立一致性,因此建立起具有较少空位和无响应得一致性。
一旦候选一致序列被运算出,将被输入到REPI内(或者,可供选择地,本发明的另一种实施方案)初始评估其作为靶点序列的潜在功效,采用返回预期匹配的一种预期阈值1e-9 S1511。在这一点上,REPI与初始组的测试序列S1513进行比较如,初始组的测试序列百分率存在于REPI结果中。如果由REPI结果鉴别的初始测试序列的百分率大于阈值(系统预先确定或,可供选择地,由用户指定),候选一致序列为最可能有例的大范围靶点序列,并且该方法转向模拟杂交S1527。在被说明的实施例中,上面对比阈值为100%,对应条件为当超过预期阈值时所有初始测试序列必须由REPI返回。降低对比阈值导致系统更允许靶点序列识别错或不能鉴别某一数量或百分率的预期组测试序列。
另外,如果初始组测试序列的每一种不是全部存在于REPI结果中,丢失的测试序列采用候选一致序列个别地进行评估。候选一致序列也联合先前步骤中建立的多重比对被评估来鉴别任何丢失的序列片段,这些丢失的序列片段对一致性内的鉴别是关键性的。在没有丢失初始序列共性的情况下,下一步的目标是增量式添加必要序列信息到初始候选一致序列内。
因此,再次执行多重比对S1515。这时,多重比对包括目前的一致序列。随后,候选一致序列中的空位被鉴别出S1517。候选一致序列与测试序列比对中的空隙是丢失序列数据的可能位置,将增量式序列信息添加到丢失测试信息的候选一致序列中可能是有利的。
图28说明了第二个多重比对结果中空位的实施例。在这个实施例中,存在两个位置,一致序列遗漏了Ad1和Ad5的序列信息,先前注释为初始测试序列筛选过程(参见图25)中两个最大系统发生树局外点。对应于空位的丢失序列片段被添加、或“剪切”到初始一致序列代替空隙S1519而形成″拼接″一致序列。图29说明拼接候选一致序列内的剪切序列数据。依据本发明的实施方案,剪切由用户手动完成。选择性地,依据对应于空位鉴别和从剪切进空位的丢失测试信息中筛选序列信息的参数(由系统先前确定或由用户设置),该系统提供自动剪切。
剪切S1519之后,拼接候选一致序列再次被提交给REPI评估上述操作的影响S1521。选择性地,系统或用户确定另外的可接受阈值,另外的可接受阈值对应于现在正确鉴别S1523的丢失测试序列的数量(或百分率)或先前鉴别的而现在由REPI结果错误鉴别的测试序列S1525。这种阈值一般对应于改进或降低与初始候选一致序列相关的拼接一致序列功效的耐受性。在说明的实施例中,在没有失去任何先前鉴别的测试序列的情况下,添加两种序列片段是添加Ad1和Ad5到REPI点击列表上。
在另一种方面,如果剪切操作不能将丢失病原菌类型添加到被鉴别类型的列表上,或者其他序列hits在这个过程中丢失,新的一致序列将被放弃,Ad1和Ad5被分离出并且余下序列被重评估S1524。可供选择地,如果剪切操作不能满足可接受阈值,重评估被执行。因此,初始组测试序列间的序列差异不能满足可接受阈值(例如,上面直接描述的那些),两个或多个候选一致序列可能对于提供靶点序列时必要的,该靶点序列能鉴别预期百分率的初始组测试序列。选择性地,系统并行地考虑和评估这种附加候选一致序列。
如果所有初始序列已经在REPI结果(参见如30)中被鉴别,最终一致序列已经形成并且每个初始测试序列的杂交潜力能被确定。图31显示出杂交/结合模拟程序用于执行该步骤。每个初始序列与新的一致序列拼接。该模拟过程采用由b12seq比对程序生成的输出比对文件,并评估每25mer最高记分比对中差异数量。选择性地,程序评估较长间隔的差异数量或较短间隔差异数量。然后,系统建立生成序列(如Ad4的图31中显示)仅基于25mer′s具有小于2个错配的位点。另外,错配耐受的分离阈值由系统选择性地给出。
图31中显示的序列为与目前一致序列杂交的测试序列的模拟表达。每个序列与最终一致序列的杂交潜力被评估出1527。在这个实施例中,程序HybBind用于生成每个测试序列的杂交模拟序列S1529。一旦杂交模拟序列全部生成,它们每个经REPI运行,好像它们已获得实际芯片S1531。
如果所有模拟序列高评分或高“点击”匹配其各自序列(基于比值和/或预期值的类似性评分),那么潜在一致序列通过评估过程,能用作靶点序列来通过类型鉴别那些用于制备它的序列S1535。可供选择地,如果所有模拟序列按照高评分S1535不匹配各自序列,或者高评分和E-值匹配多重序列S1533,潜在一致性错误评估,序列被分解成多组并送回进行再评估S1534。
不能正确鉴别其各自序列(Ad1、Ad50、Ad34、Ad3)的潜在序列被送回第一步进行重新评估一种或一种以上一致性S1534。按照高评分和E-值不能正确鉴别其各自序列潜在序列Ad4、Ad21、Ad16、Ad7、Ad5被聚集在一起并被送回,经过上面描述的过程,以制备多重比对开始,在没有使用失败并不能正确鉴别S1536的那些序列的情况下,建立新的候选一致序列。新的候选一致序列(例如,参见图32)经同样阈值和评估b12seq、REPI、和REPI进行运行。当Hybbind最终模拟序列经REPI被运行用于确认按照高评分和E-值,所有序列能依据类型鉴别其各自序列,因此,这个潜在一致序列已经通过所有评估并能被用作Ad4、Ad21、Ad16、Ad7、和Ad5序列的靶点。
然而,在另一种实施方案中,系统为序列分析中时间趋势的追踪和分析作准备。通过随时间重复地或连续地执行和记录类似于上面描述的分析,遗传或蛋白质组进化和/或突变比采用常规方法更容易被追踪到。
在一种关于病原菌探测的特异性实施方案中,这里描述的本发明用于常规诊断和常见呼吸病原菌的临床(在床旁或近床旁)监控。容易得到的样本(例如,鼻腔冲洗液、咽喉拭子、唾液、血液、食物、土壤、水或空气)以简单方式被处理来制备核酸分离物,该分离物采用吸附方法得到,富集病原菌特异性靶点,采用无偏差(如全部)或多重PCR扩增方法进行扩增,洗涤和影像之前在再测序微阵列上杂交一段规定时间。全部过程是非常简单使得技术人员(医药技术人员水平)常规模式中没有重要中断的情况下将能在实施该试验。采用常见算法或采用由供应商规定的步骤生成碱基响应。REPI或其一些改变被用于自动分析微阵列生成的碱基响应,并提供给终端用户(例如,医师、疗养院、公共卫生官员、或其它决策者)传染性病原菌管理质量信息决定(例如,诊断、处理、预见和爆发控制/污染测量),这些传染性病原菌成为疾病综合症和并发症的原因。这个分析将经使用嵌入式序列数据库而局部发生,嵌入式数据库经REPI被查询(例如,局部专有BLAST服务器)。除了提供常规诊断功能之外,微阵列也将携带标记物给高度不可能(例如,禽流感或生物恐怖行动)病原菌,这种高度不可能病原菌将成为包含的其他原因,如公共健康官员。
在本发明的一些实施方案中,CIBSI输出被安排在多层中。在一种特殊实施方案中,CIBSI输出被安排以三层提供给用户或数据注释。输出的第一层提供了“物种水平”信息,输出第二层提供了“血清类型/菌株水平”信息,第三层提供了“低水平”信息。物种的实施例包括,但不限于,流行性感冒A、流行性感冒B、腺病毒、化脓性链球菌、炭疽芽孢杆菌、和土拉热弗朗西斯菌。尽管物种水平层首先提交给用户或数据注释,用户或数据注释能筛选和通过如用户输入、预先确定显示设置、或指定方案观察其他层。可供选择的实施方案提供了检索、组织、和提交对应于每个层内预先确定水平的数据的规则和算法。
在一种实施方案中,对于一级阳性的规定是如果一种物种多重拼接区域的任何一种产生具有预期值1.0e-9或小于1.0e-9的阳性子序列或产生单一病原菌数据库记录的高比值),那么结果为那个物种级的阳性。这建立起完全自发的第一层细节。用户能制造更多信息,第一层信息经过如人为干预步骤进入第二层或第三层信息。包括“血清类型/菌株水平”信息的第二层输出使用户查看序列数据库(如,GenBank)记录名称和评分在预先确定阈值的辨识器来确定血清类型和/或菌株。选择性地,下一种搜索算法可被应用没有精确命名协定的序列数据库来自动给出血清类型/菌株级信息(例如,经过搜索和分析GenBank资料)。可供选择地,通过选择显示领域后的选项,系统提供由用户或数据注释被制成第一层信息的附录(例如,腺病毒4、空军本地株或流行性感冒A、H3N2、Fujian 411)。第三层输出包括原始CIBSI输出。选择性地,算法可以被用于原始CIBSI输出。本发明的其他实施方案使附加信息移动到第一层输出中。
图20为针对执行本发明的一种实施方案的计算机系统(或服务器)2001的结构图。然后,应注意到,本系统不需要以个人电脑(PC)配置为基础,但更适合自定义处理器系统,该自定义处理器系统不包括也可被使用的普通用途计算机的特征。然而,因为用于支持本发明的实际硬件配置,不是为了限制,PC系统的一种实施例现在被给出。计算机系统2001包括bus 2002或其他通讯信息的通讯机制,处理器2003联合bus 2002一起处理信息。计算机系统2001也包括主存储器2004,如随机存储器(RAM)或其他动态储存器(例如,动态RAM(DRAM)、静态RAM(SRAM)、和同步DRAM(SDRAM)),联合bus 2002一起存储信息和由处理器2003执行的指令。此外,主存储器2004可用于存储临时变量或处理器2003执行指令期间的其他中间信息。计算机系统2004进一步包括只读存储器(ROM)2005或其他静态存储设备(例如,可编程ROM(PROM)、可擦除PROM(EPROM)、和电擦除PROM(EEPROM))联合bus 2002一起存储静态信息和处理器2003的指令。
计算机系统2001也包括磁盘控制器2006联合bus 2002一起控制一种或一种以上存储设备来存储信息和指令,如硬磁盘2007、和可移动媒体驱动机2008(如,软磁盘机、只读光盘驱动器、读/写光盘驱动器、光盘自动唱片点唱机、磁带驱动器、和只读磁光盘驱动器)。使用适当的驱动器接口(例如,小型计算机系统接口(SCSI)、集成设备电子部件(IDE)、加强型IDE(E-IDE)、直接内存存储(DMA)、或ultra-DMA)存储设备可被加入到计算机系统2001中。
计算机系统2001也可包括特殊用途逻辑器件(例如,专用集成电路(ASICs))或可配置逻辑设备(例如,简单的可编成逻辑设备(SPLDs)、复杂可编成逻辑设备(CPLDs)、和现场可编程门阵列(FPGAs))。
计算机系统2001也可包括显示控制器2009联合bus 2002一起管理显示器2010,例如阴极射线管(CRT),显示信息给计算机用户。计算机系统包括输入设备,如键盘2011和定位设备2012,与计算机用户连接并提供信息给处理器2003。定位设备2012,例如,可为鼠标、追踪球、或触控点用于与处理器2003交流方向信息和命令选择。此外,打印机提供了由计算机系统2001存储和/或产生的信息的打印列表。
计算机2001执行本发明处理器2003执行存储器,例如主存储器2004中含有的一种或一种以上指令的一种或一种以上序列的部分或全部处理步骤。这种指令可被读入另一种计算机可读媒体如硬盘2007或可移动媒体驱动机2008的主存储器2004。多重处理安排的一种或一种以上处理器也可用于主存储器中执行指令序列。在可供选择的实施方案中,硬体线路可被使用取代或联合软件指令。因此,实施方案不被限制硬件电路或软件任何特殊联合。
如上所述,计算机系统2001包括至少一种计算机可读媒体或存储器依据本发明的教导支持程序指令并包含数据结构、工作台、记录、或其他这里描述的数据。计算机可读媒体的实施例为磁盘、硬磁盘、软盘、磁带、磁光盘、PROMs(EPROM、EEPROM、flash EPROM)、DRAM、SRAM、SDRAM、或任何其他磁介质、光碟(例如,CD-ROM)、或任何其他光学介质、穿孔卡片、纸袋、或其他孔洞模式物理介质、载波(下面描述的)、或任何其他计算机可读的介质。
存储在任何一种或计算机可读媒体上,本发明包括操作计算机系统2001、驱动一种设备或执行本发明设备的软件,和使计算机系统2001支持个人用户(例如,打印人员)的软件。这种软件可包括,但不限于,设备驱动器、操作系统、开发工具、和应用软件。这种计算机可读媒体进一步包括实现本发明中执行处理的所有或部分(如果处理是分布式的)计算机程序产品。
本发明的计算机编码器可以为任何能翻译的或可执行的代码操作机制,包括但不限于译本、解释性程序、动态链接库(DLLs)、Java类、和完全可执行程序。此外,本发明部分处理可用于提高性能、可靠性、和/或费用上。
这里使用的术语“计算机可读媒体”统指任何参与提供指令给处理器2003用于执行的任何媒体。一种计算机可读媒体可以任何形式,包括但不限于,非易失性媒体、易失性媒体、和传输媒介。非易失性的媒体包括,例如光盘、磁盘、和磁光盘,如硬盘2007或可读媒体驱动器2008。易失性媒体包括动态存储器,如主存储器2004。传输媒介包括同轴电缆、铜丝和光导纤维,包括构成bus 2002的金属丝。传输媒介也包括声波形式或光波形式,例如在电磁波和红外数据通讯期间产生的。
不同形式的计算机可读媒体可涉及处理器2003执行的执行一种多个序列的一种或一种以上指令。例如,该指令可以最初在远程计算机的磁盘上执行。远程计算机可远程将执行本发明的全部或部分的指令输入到动态存储器中并通过电话线采用调制解调器发送指令。计算机程序2001的一种局部调制解调器可以收到通过电话线传送的数据并采用红外发射机将数据转换成红外信号。结合bus 2002的红外探测器能收到红外信号传送的数据并将数据输入bus 2002中。bus 2002将数据传送到主存储器2004中,处理器2003检索并执行该指令。由主存储器2004收到的指令可被必须地在处理器2003执行前或执行后存储在存储设备2007或2008上。
计算机系统2001也包括与bus 2002连接的通讯接口2013。通讯接口2013提供双向数据通讯连接网络链接2014,例如被连接到如局域网(LAN)2015,或另一种通讯网络2016如因特网。例如,通讯接口2013可为连接在任何包交换LAN的网路卡。如另一种实施例,通讯接口2013可为非对称数字用户线(ADSL)卡,综合业务数字网(ISDN)卡或提供数据通讯连接到相应类型的通信线路的调制解调器。无线电线路也可被实现。在这种执行中,通讯接口2013发送和接收运送代表不同类型信息的数字数据流电信号、电磁信号或光信号。
网络链接2014典型地经一种或一种以上网络或其它数据设备提供数据通讯。例如,网络链接2014可以经过局域网2015(例如,LAN)或经服务提供上操作的设备连接另一种计算机,通过通讯网络2016提供通讯服务。局域网2014和通讯网络2016使用,如运送数字数据流的电信号、电磁信号或光信号,和相关物理层(例如,CAT5电缆、同轴电缆、光导纤维,等)。经不同网络的信号和网络链接2014和经通讯接口2013的信号,将数字信号输送到计算机系统2001和输送来自计算机系统2001中的数字信号,或许在基带信号或载波信号中实现。基带信号传送数字信号如未调整的电脉冲,该未调整的电脉冲为描述的一串数字数据位,术语“位”广泛解释为普通符号,每个符号传达至少一种或一种以上信息位。数字数据也可用于如用振幅、在导电性媒质上传播的相和/或频率漂移键控信号调节载波。因此,数字数据可作为未调整的基带数据经“有线”通讯电路被发送和/或在经调整载波不同于基带的预先确定的波段内被发送。计算机系统2001能通过网络2015和2016、网络链接2014、和通讯接口2013传送和接收数据,包括程序码。此外,网络链接2014可以经LAN 2015连接到移动设备2017如个人数位助理(PDA)膝上型计算机,或移动电话。
本发明的一些实施方案的系统能在硬件、软件、韧件,或其组合中执行。在优选的实施方案中,系统在软件中执行,该软件存储在存储器中并由适宜的指令执行系统执行。如果在硬件中执行,如在可供选择的实施方案中,该系统能采用一些本领域中周知的技术来执行。
在流程图中描述的一些过程或草图应理解为代表模块、片段、或包括用于执行该过程中特殊逻辑功能或步骤的一种或一种以上可执行指令的部分编码,并且交替执行也包括在本发明优选的实施方案范围内,其中功能可以按显示的或讨论的非正常顺序执行,包括同时执行或次序颠倒执行,取决于设计的功能性,依据本发明领域中技术人员可理解的。
应强调的是,上面描述的本发明实施方案,尤其一些“优选”实施方案,仅是执行的可能实施例,仅为清楚理解本发明的原理而被阐述。在没有背离本发明界定的精神和原理的前提下可以对上述描述的本发明实施方案进行一些变化和修改。所有这种修改和变化是为了包括在该公开和本发明的范围内并被下列权利要求书描述。
参考文献
Albert,T.J.,Norton,J.,Ott,M.,Richmond,T.,Nuwaysir,K.,Nuwaysir,E.F.,Stengele,K.P.,Green,R.D.2003.Light-directed 5′-->3′synthesis of complex oligonucleotide microarrays.Nucleic Acids Res 31:e35
Bohlhlander,S.K.,Espinosa,R.,3rd,Le Beau,M.M.,Rowley,J.D.,Diaz,M.O.1992.A method for the rapidsequence-independent amplification of microdissected chromosomal material.Genomics 13:1322-4
Cherkasova,E.,Laassri,M.,Chizhikov,V.,Korotkova,E.,Dragunsky,E.,Agol,V.I.,Chumakov,K.2003.Microarray analysis of evolution of RNA viruses:evidence of circulation of virulent highly divergentvaccine-derived polioviruses.Proc Natl Acad Sci USA 100:9398-403
Chizhikov,V.,Rasooly,A.,Chumakov,K.,Levy,D.D.2001.Microarray analysis of microbial virulence factors.Appl Environ Microbiol 67:3258-63
Cutler,D.J.,Zwick,M.E.,Carrasquillo,M.M.,Yohn,C.T.,Tobin,K.P.,Kashuk,C.,Mathews,D.J.,Shah,N.A.,Eichler,E.E.,Warrington,J.A.,Chakravarti,A.2001.High-throughput variation detection andgenotyping using microarrays.Genome Res 11:1913-25
Cutler,D.J.,Zwick,M.E.,Carrasquillo,M.M.,Yohn,C.T.,Tobin,K.P.,Kashuk,C.,Mathews,D.J.,Shah,N.A.,Eichler,E.E.,Warrington,J.A.,Chakravarti,A.2001.High-throughput variation detection andgenotyping using microarrays.Genome Res 11:1913-25
Devereux,J.,Haeberli,P.,Smithies,O.1984.A comprehensive set of sequence analysis programs for the VAX.Nucleic Acids Res 12:387-95
Eddy,S.R.1998.Profile Hidden Markov Models.Bioinformatics 14:755-763
Ferguson,J.A.,Steemers,F.J.,Walt,D.R.2000.High-density fiber-optic DNA random microsphere array.AnalChem 72:5618-24
Ginger,D.S.,Zhang,H.,Mirkin,C.A.2004.The evolution of dip-pen nanolithography.Angew Chem Int Ed Engl43:30-45
Gingeras,T.R.,Ghandour,G.,Wang,E.,Berno,A.,Small,P.M.,Drobniewski,F.,Alland,D.,Desmond,E.,Holodniy,M.,Drenkow,J.1998.Simultaneous genotyping and species identification using hybridizationpattern recognition analysis of generic Mycobacterium DNA arrays.Genome Res 8:435-48
Gingeras,T.R.,Mack,D.,Chee,M.S.,Berno,A.J.,Small,P.M.,Drobniewski,F.,Alland,D.,Desmond,E.,Holodniy,M.,Drenkow,J.2001.Chip-Based Species Identification and Phenotype Characterization ofMicroorganisms.Affymetrix,Inc.,US
Hoffmann,E.,Stech,J.,Guan,Y.,Webster,R.G.,Perez,D.R.2001.Universal primer set for the full-lengthamplification of all influenza A viruses.Arch Virol 146:2275-89
Kampke,T.,Kieninger,M.,Mecklenburg,M.2001.Efficient primer design algorithms.Bioinformatics 17:214-25
Kessler,N.,Ferraris,O.,Palmer,K.,Marsh,W.,Steel,A.2004.Use of the DNA Flow-Thru Chip,a Three-Dimensional Biochip,for Typing and Subtyping of Influenza Viruses.J Clin Microbiol 42:2173-2185
Korf,I.,Yandell,M.,Bedell,J.2003.BLAST.O′Reilly and Associates,Sebastopol,CA
Kozal,M.J.,Shab,N.,Shen,N.,Yang,R.,Fucini,R.,Merigan,T.C.,Richman,D.D.,Morris,D.,Hubbell,E.,Chee,M.,Gingeras,T.R.1996.Extensive polymorphisms observed in HIV-1 clade B protease geneusing high-density oligonucleotide arrays.Nat Med 2:753-9
Lee,C.2003.Generating consensus sequences from partial order multiple sequence alignment graphs.
Bioinformatics 19:999-1008
Leipzig,J.,Pevzner,P.,Heber,S.2004.The Altemative Splicing Gallery(ASG):bridging the gap betweengenome and transcriptome.Nucleic Acids Research 32:3977-3983
Lin,B.,Vora,G.J.,Thach,D.,Walrer,E.,Metzgar,D.,Tibbetts,C.,Stenger,D.A.2004.Rapid detection andserotyping of acute respiratory disease-associated adenoviruses with oligonucleotide microarrays.
Journal of Clinical Microbiology in press
Meinkoth,J.,Wahl,G.1984.Hybridization of nucleic acids immobilized on solid supports.Anal Biochem138:267-84
Needleman,S.B.,Wunsch,C.D.1970.A general method applicable to the search for similarities in the amino acidsequence of two proteins.J Mol Biol 48:443-53
Nuwaysir,E.F.,Huang,W.,Albert,T.J.,Singh,J.,Nuwaysir,K.,Pitas,A.,Richmond,T.,Gorski,T.,Berg,J.P.,Ballin,J.,McComfick,M.,Norton,J.,Pollock,T.,Sumwalt,T.,Butcher,L.,Porter,D.,Molla,M.,Hall,C.,Blattner,F.,Sussman,M.R.,Wallace,R.L.,Cerrina,F.,Green,R.D.2002.Gene expression analysisusing oligonucleotide arrays produced by maskless photolithography.Genome Res 12:1749-55
Ochman,H.,Lawrence,J.G.,Groisman,E.A.2000.Lateral gene transfer and the nature of bacterial innovation.
Nature 405:299-304
Offfinga,D.P.,Tyson-Medlock,V.,Ye,Z.,Levandowski,R.A.2000.A comprehensive systematic approach toidentification of influenza A virus genotype using RT-PCR and RFLP.J Virol Methods 88:15-24
Shendure,J.,Mitra,R.D.,Varma,C.,Church,GM.2004.Advanced sequencing technologies:methods and goals.
Nat Rev Genet 5:335-44
Stenger,D.A.,Andreadis,J.D.,Vora,G.J.,Pancrazio,J.J.2002.Potential applications of DNA microarrays inbiodefense-related diagnostics.Curr Opin Biotechnol 13:208-12
Strizhkov,B.N.,Drobyshev,A.L.,Mikhailovich,V.M.,Mirzabekov,A.D.2000.PCR amplification on amicroarray of gel-immobilized oligonucleotides:detection of bacterial toxin-and drug-resistant genesand their mutations.Biotechniques 29:844-8,850-2,854 passim
Thompson,J.D.,Gibson,T.J.,Plewniak,F.,Jeanmougin,F.,Higgins,D.G.1997.The CLUSTAL_X windowsinterface:flexible strategies for multiple sequence alignment aided by quality analysis tools.NucleicAcids Res 25:4876-82
Thompson,J.D.,Higgins,D.G.,Gibson,T.J.1994.CLUSTAL W:improving the sensitivity of progressivemultiple sequence alignment through sequence weighting,position-specific gap penalties and weightmatrix choice.Nucleic Acids Res 22:4673-80
Troesch,A.,Nguyen,H.,Miyada,C.G.,Desvarenne,S.,Gingeras,T.R.,Kaplan,P.M.,Cros,P.,Mabilat,C.1999.Mycobacterium species identification and rifampin resistance testing with high-density DNA probearrays.J Clin Microbiol 37:49-55
Vasiliskov,A.V.,Timofeev,E.N.,Surzhikov,S.A.,Drobyshey,A.L.,Shick,V.V.,Mirzabekov,A.D.1999.Fabrication of microarray of gel-immobilized compounds on a chip by copolymerization.Bioteehniques27:592-4,596-8,600 passim
Volokhov,D.,Chizhikov,V.,Chumakov,K.,Rasooly,A.2003.Microarray analysis of erythromycin resistancedeterminants.J Appl Microbiol 95:787-98
Vora,G.J.,Meador,C.E.,Stenger,D.A.,Andreadis,J.D.2004.Nucleic Acid amplification strategies for DNAmicroarray-based pathogen detection.Appl Environ Microbiol 70:3047-54
Wang,D.,Coscoy,L.,Zylberberg,M.,Avila,P.C.,Boushey,H.A.,Ganem,D.,DeRisi,J.L.2002.Microarray-based detection and genotyping of viral pathogens.Proc Natl Acad Sci US A99:15687-92
Wang,D.,Urisman,A.,Liu,Y.T.,Springer,M.,Ksiazek,T.G.,Erdman,D.D.,Mardis,E.R.,Hickenbotham,M.,Magrini,V.,Eldred,J.,Latreille,J.P.,Wilson,R.K.,Ganem,D.,DeRisi,J.L.2003.Viral discovery andsequence recovery using DNA microarrays.PLoS Biol 1:E2
Wilson,K.H.,Wilson,W.J.,Radosevich,J.L.,DeSantis,T.Z.,Viswanathan,V.S.,Kuczmarski,T.A.,Andersen,G.L.2002a.High-density microarray of small-subunit ribosomal DNA probes.Appl Environ Microbiol68:2535-41
Wilson,W.J.,Strout,C.L.,DeSantis,T.Z.,Stilwell,J.L.,Carrano,A.V.,Andersen,G.L.2002b.Sequence-specificidentification of 18 pathogenic microorganisms using microarray technology.Mol Cell Probes 16:119-27
Yang,I.V.,Chen,E.,Hasseman,J.P.,Liang,W.,Frank,B.C.,Wang,S.,Sharov,V.,Saeed,A.I.,White,J.,Li,J.,Lee,N.H.,Yeatman,T.J.,Quackenbush,J.2002.Within the fold:assessing differential expressionmeasures and reproducibility in microarray assays.Genome Biol 3:research0062
Claims (106)
1.再测序DNA微阵列,包括多组固定在固相支撑体上长度范围在13到70个核苷酸的寡核苷酸引物,其中每组寡核苷酸引物为:
(a)被选择跨特定参考序列的特殊区域,
(b)占用被称为拼接区阵列的不连续区,和
(c)包括至少四组引物,在芯片上以平行方式安排在上述阵列的不连续区内,其中所述四组引物选自:
1)第一组引物与参考序列正确互补;和
2)另外三组引物,除了中心位置上的核苷酸,每一组与第一组引物一致,且这三组引物中心位置的核苷酸都不相同,使得所有四个常规核苷酸碱基出现在上述阵列中。
2.依据权利要求1所述的再测序DNA微阵列,其中寡核苷酸引物的长度为25个核苷酸。
3.依据权利要求1所述的再测序DNA微阵列,其中寡核苷酸引物跨越的参考序列的区域经(n+1)个核苷酸穿过参考序列进行移动,每个邻近拼接区域穿过微阵列表面。
4.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列包含18×18微米部件。
5.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列包含8×8微米部件。
6.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为单基因或子序列,该子序列可能代表更广类型的有机物类、种和亚种。
7.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为“原型”,该原型代表病原菌家族的基因型。
8.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为“原型”,该原型代表腺病毒家族或腺病毒组。
9.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为“原型”,该原型代表流行感冒病毒家族或流行感冒病毒组。
10.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列为对单个病原菌株是独一无二的单基因或子序列。
11.依据权利要求1所述的再测序DNA微阵列,其中筛选出用于拼接的序列编码耐药标记。
12.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列为RPMV1。
13.依据权利要求1所述的再测序DNA微阵列,其中再测序DNA微阵列为RPMV2。
14.依据权利要求1所述的再测序DNA微阵列,其中上述再测序DNA微阵列包含至少一种常见病原菌的参考序列和至少一种生物恐怖药剂。
15.一种试剂盒包括:
(a)依据权利要求1所述的再测序DNA微阵列,和
(b)适于靶点序列与上述再测序DNA微阵列上的探针序列进行特异性杂交的试剂。
16.检测微生物中存在耐药标记物的方法,其中该方法包括:
(a)提供了依据权利要求1所述的再测序DNA微阵列;
(b)包括遗传材料的未知样本接触上述再测序DNA微阵列;
(c)在适宜条件下,将上述未知样本与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间;和
(d)检测上述未知样本中微生物中存在耐药标记物。
17.根据权利要求16所述的方法,其中上述方法进一步包括通过在由上述方法鉴别的耐药标记物的DNA序列和已知抗性标记物之间进行序列比对确定耐药标记物的同源性。
18.根据权利要求16所述的方法,其中上述杂交时间范围在15分钟到24小时。
19.根据权利要求16所述的方法,其中未知样本为生物样本。
20.根据权利要求19所述的方法,其中上述生物样本为选自由鼻腔冲洗液样本、鼻腔抽取液样本、咽喉拭子标本、血液样本、唾液样本、血液细胞、组织样本、穿刺活检样本、尿液标本、腹腔液样本、内脏积液样本和胸积液样本或其细胞组成的组。
21.根据权利要求16所述的方法,其中上述未知样本为选自由土壤样本、空气样本和水样本所组成的组的环境样本。
22.根据权利要求16所述的方法,其中上述杂交前,未知样本经过至少一种过程,该过程选自由下列过程所组成的组:
(i)上述样本中遗传材料的分离,
(ii)富集上述样本中的主体靶点序列,
(iii)扩增包含在上述样本中的遗传材料
(iv)标记上述样本中的遗传材料,和
(v)消减杂交。
23.根据权利要求16所述的方法,其中上述杂交前,未知样本中一种或一种以上主体靶点核酸经至少选自由特异性反转录(RT)、PCR、多重PCR、和随机PCR组成组的一种方法进行扩增。
24.根据权利要求16所述的方法,其中杂交未知样本中的一种或一种以上主体靶点核酸之前,未知样本经选自由随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶、串联扩增、多重PCR和全部扩增组成组的至少一种随机扩增策略进行扩增。
25.根据权利要求16所述的方法,其中对上述未知样本中遗传材料进行富集。
26.根据权利要求16所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸经从上述样本中消减背景核酸进行富集。
27.根据权利要求16所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸经反转录酶消减杂交进行富集。
28.根据权利要求16所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸通过选择性除去上述未知样本中的核酸混合物中上述靶点核酸被富集。
29.根据权利要求16所述的方法,其中上述探测是通过:
(i)上述未知样本中主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应生成碱基响应,和
(ii)通过杂交区序列和序列数据库内序列进行比对确定相应全长基因序列或基因组片段序列。
30.根据权利要求29所述的方法,其中碱基响应经Affymetrix GDAS软件在“许可”设置下生成。
31.根据权利要求29所述的方法,其中序列鉴定是经再测序病原菌辨识器(REPI)软件进行。
32.根据权利要求29所述的方法,其中序列数据库为GenBank。
33.通过执行权利要求16所述的方法进行常规诊断常见呼吸病原菌的方法,其中上述未知样本从需要进行常见呼吸病原菌常规诊断的患者中得到。
34.根据权利要求33所述的方法,其中上述未知样本在体检过程中得到。
35.通过执行权利要求16所述的方法监控常见呼吸病原菌的方法,其中上述未知样本从需要进行常见呼吸病原菌监控的患者中得到。
36.根据权利要求35所述的方法,其中需要常见呼吸病原菌监控的上述患者具有呼吸病原菌感染的历史。
37.通过执行权利要求16所述的方法监控一种或一种以上生物恐怖药剂的方法,其中上述未知样本从需要监控上述生物控制药剂的患者中得到。
38.根据权利要求37所述的方法,其中需要监控生物恐怖药剂的上述患者怀疑接触了上述生物恐怖药剂。
39.检测存在属于未知样本中的特殊类型有机物种或亚种类的微生物的方法,其中该方法包括:
(a)提供了根据权利要求1所述的再测序DNA微阵列;
(b)将包括遗传材料的未知样本接触上述再测序DNA微阵列;
(c)在适宜条件下,将上述未知样本中物质与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间;和
(d)检测存在属于未知样本中的特殊类型有机物种或亚种类的微生物。
40.根据权利要求39所述的方法,其中上述方法进一步包括通过由上述方法鉴别DNA序列和基因组数据库中已知序列之间进行序列比对确定特殊类型有机物种或亚种类的同源性。
41.根据权利要求40所述的方法,其中上述确定包括探测足够量的病原菌序列目的为了评估病原菌的可能来源。
42.根据权利要求39所述的方法,其中上杂交时间范围在15分钟到24小时。
43.根据权利要求39所述的方法,其中未知样本为生物样本。
44.根据权利要求43所述的方法,其中上述生物样本为选自由包括鼻腔冲洗液样本、鼻腔抽取液样本、咽喉拭子标本、血液样本、和唾液样本、血液细胞、组织样本、穿刺活检样本、尿液标本、腹腔液样本、内脏积液样本和胸积液样本或其细胞组成的组。
45.根据权利要求39所述的方法,其中上述未知样本为选自由土壤样本、空气样本和水样本的组成的组的环境样本。
46.根据权利要求39所述的方法,其中上述杂交前,未知样本经过至少一种过程,该过程选自下列过程组成的组:
(i)上述样本中遗传材料的分离,
(ii)富集上述样本中的主体靶点序列,
(iii)扩增包含在上述样本中的遗传材料
(iv)标记上述样本中的遗传材料,和
(v)消减杂交。
47.根据权利要求39所述的方法,其中上述杂交前,未知样本中一种或一种以上主体靶点核酸经至少选自由特异性反转录(RT)、PCR、多重PCR、和随机PCR组成组的一种方法进行扩增。
48.根据权利要求39所述的方法,其中杂交未知样本中的一种或一种以上主体靶点核酸之前,未知样本经选自由随机引物的、等温Klenow聚合酶、Φ29DNA聚合酶、串联扩增、多重PCR、和全部扩增组成组的至少一种随机扩增策略进行扩增。
49.根据权利要求39所述的方法,其中对上述未知样本中遗传材料进行富集。
50.根据权利要求39所述的方法,其中上述未知样本中一种或一种以上主体靶点核梭经从上述样本中消减背景核酸进行富集。
51.根据权利要求39所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸经反转录酶消减杂交进行富集。
52.根据权利要求39所述的方法,其中上述未知样本中一种或一种以上主体靶点核酸通过选择性除去上述未知样本中的核酸混合物中上述靶点核酸被富集。
53.根据权利要求39所述的方法,其中上述探测是通过:
(i)上述未知样本中主体核酸和再测序DNA微阵列上探针DNA之间的杂交反应生成碱基响应,和
(ii)通过杂交区序列和序列数据库内序列进行比对确定相应全长基因序列或基因组片段序列。
54.根据权利要求53所述的方法,其中碱基响应经Affymetrix GDAS软件在“许可”设置下生成。
55.根据权利要求53所述的方法,其中序列鉴定是经再测序病原菌辨识器(REPI)软件进行。
56.根据权利要求53所述的方法,其中序列数据库为GenBank。
57.通过执行权利要求39所述的方法进行常规诊断常见呼吸病原菌的方法,其中上述未知样本从需要进行常见呼吸病原菌常规诊断的患者中得到。
58.根据权利要求57所述的方法,其中上述未知样本在体格检查过程中得到。
59.通过执行权利要求39所述的方法监控常见呼吸病原菌的方法,其中上述未知样本从需要进行常见呼吸病原菌监控的患者中得到。
60.根据权利要求59所述的方法,其中需要常见呼吸病原菌监控的上述患者具有呼吸病原菌感染的历史。
61.通过执行权利要求39所述的方法监控一种或一种以上生物恐怖药剂的方法,其中上述未知样本从需要监控上述生物控制药剂的患者中得到。
62.根据权利要求61所述的方法,其中需要监控生物恐怖药剂的上述患者怀疑接触了上述生物恐怖药剂。
63.评估含有相同病原菌的生物样本中病原菌相对量的方法,该方法包括:
(a)提供了根据权利要求1所述的再测序DNA微阵列;
(b)将上述生物样本接触上述再测序DNA微阵列;
(c)在适宜条件下,将上述未知样本中物质与固定在上述再测序DNA微阵列的探针序列杂交适宜的时间;和
(d)量化上述未知样本中微生物或属于特殊类型有机物种类或亚种类的微生物中的耐药标记的存在和/或同源性。
64.根据权利要求63所述的方法,其中上述定量通过确定上述再测序DNA微阵列上杂交信号的绝对强度进行。
65.根据权利要求63所述的方法,其中依据总拼接区域尺寸的百分比和满足滑窗算法的筛选子序列内的碱基响应百分比,通过确定碱基响应的百分比进行上述定量。
66.根据权利要求65所述的方法,其中上述定量通过再测序病原菌辨识器(REPI)软件进行。
67.腺病毒株的基因组序列,选自由Ad3、Ad3FS navy、Ad4、Ad4vaccine、Ad4FS navy、Ad4FS AF、Ad5FS、Ad7、Ad7FS navy、Ad7 vaccine、Ad16、Ad1、和Ad21和其片段组成的组。
68.计算机实施的方法,该方法用于筛选输入查询的生物子序列来鉴别预先确定的生物水平序列,包括步骤:用处理器实施方法筛选来自存储器中存储的生物序列数据中的子序列;和提交子序列进行查询来鉴别具有最初预先确定置信水平的预先确定的生物序列,其中最初预先确定置信水平在筛选阈值之上。
69.根据权利要求68所述的计算机实施的方法,进一步包括:以FASTA、MSF、GCG、Clustal、BLC、PIR、MSP、PFAM、POSTAL和JNET格式中的一种格式存储生物序列数据。
70.根据权利要求69所述的计算机实施的方法,进一步包括:确定生物序列数据是否符合生物序列或对照组序列中的一种。
71.根据权利要求68所述的计算机实施的方法,其中筛选步骤包括:筛选对应于生物序列数据中碱基响应数量的窗口尺寸参数;并计算出生物序列数据的观察窗口内有效碱基响应的百分率。对应于筛选步骤中筛选出的窗口尺寸参数的窗口尺寸。
72.根据权利要求71所述的计算机实施的方法,其中筛选步骤包括:当计算步骤中计算的百分率不满足预先确定的阈值时,滑动观察窗口到生物序列内的另一种数量的碱基响应;并且计算生物序列中含在另一种数量的碱基响应内的有效碱基响应的百分率。
73.根据权利要求71所述的计算机实施的方法,其中筛选步骤包括:当计算的百分率满足预先确定的阈值时,按照提交给查询的子序列,在观察窗口内筛选碱基响应的子序列。
74.根据权利要求73所述的计算机实施的方法,进一步包括在被筛选子序列在提交步骤中被提交之前,从碱基响应的被筛选子序列中剔除无效碱基响应。
75.根据权利要求68所述的计算机实施的方法,进一步包括将子序列与大量的预先确定的序列比对;并且生成对应于至少一种上述预先确定序列的比对结果。
76.根据权利要求75所述的计算机实施的方法,其中比对步骤的比对结果包括表明子序列和至少一种上述预先确定序列之间预先确定水平的一致的统计值。
77.根据权利要求68所述的计算机实施的方法,进一步包括将信号强度与生物序列数据结合在一起;并评估至少一种靶点序列的浓度。
78.根据权利要求77所述的计算机实施的方法,进一步包括:依据至少一个筛选参数,探测来自生物序列数据的至少两个子序列;并且探测混合物和重组事件的至少一种。
79.根据权利要求78所述的计算机实施的方法,其中至少两个序列对应于微阵列的不同区域。
80.根据权利要求77所述的计算机实施的方法,进一步包括:在类似性序列的混合物和不同序列之间的重组之间进行辨别;其中类似性序列具有预先确定水平的相似性。
81.根据权利要求77所述的计算机实施的方法,进一步包括:
在混合物和重组之间进行辨别,包括
评估微阵列第一区域的第一信号和微阵列第二区域的第二信号,并且
将第一信号与第二信号比对生成至少一种特征参数,至少一种特征参数对应于一种概率,第一信号和第二信号表明混合物和重组中的一种。
82.根据权利要求68所述的计算机实施的方法,进一步包括:
鉴别至少一种一致序列对应于大量测试序列;
筛选出至少一种一致序列中的子序列;
将至少一种子序列与至少一种预先确定的序列比对;
生成比对结果;计算比对结果与大量测试序列之间的差异;
并且生成至少一种候选一致序列。
83.根据权利要求82所述的计算机实施的方法,进一步包括:
依据至少一种候选一致序列制备微阵列探针。
84.根据权利要求82所述的计算机实施的方法,进一步包括:
依据拼接参数,修饰至少一种一致序列,拼接参数对应于至少大量测试序列中的至少一种测试序列的至少一种部分。
85.根据权利要求82所述的计算机实施的方法,进一步包括:
依据至少一种杂交参数,模拟至少一种候选一致序列和大量测试序列之间的杂交。
86.根据权利要求82所述的计算机实施的方法,其中生物序列数据包括至少核酸、转录单体、转录产物、DNA、和RNA中的一种。
87.根据权利要求68所述的计算机实施的方法,其中生物序列数据包括空位和不确定子序列中的至少一种。
88.根据权利要求68所述的计算机实施的方法,进一步包括:计算生物序列数据的相对位置,其中生物序列数据包括氨基酸和蛋白质中的至少一种。
89.根据权利要求68所述的计算机实施的方法,进一步包括:
通过人工Sanger测序、自动Sanger测序、鸟枪法测序、常规微阵列、再测序微阵列、微电泳测序、杂交测序(SBH)、Ednian降解、扩增分子上循环阵列测序、单分子上循环阵列测序和纳米孔测序中的至少一种获得生物序列数据。
90.根据权利要求68所述的计算机实施的方法,其中生物序列数据为核苷酸序列和蛋白质序列中的至少一种。
91.计算机可读存储媒体,为计算机上执行的存储计算机可读指令的配置,计算机可读指令,当由计算机执行时,设置执行鉴别预先确定生物序列的方法,该方法包括:采用处理器实施方法从存储在存储器中的生物数据中筛选出子序列;并且提交查询中的子序列来鉴别具有最初预先确定置信水平的生物序列,其中最初置信水平在筛选阈值之上。
92.一种设备,通过输入查询鉴别预先确定生物序列筛选生物子序列,该设备包括:
从存储在存储器中的生物序列数据中筛选子序列的装置;提交查询中的子序列鉴别具有最初预先确定置信水平的生物序列,其中最初置信水平在筛选阈值之上。
93.一种计算机实施方法,通过输入查询鉴别预先确定生物序列,产生生物序列数据,该方法包括的步骤为:采用处理器实施方法,鉴别存储在存储器中的生物序列数据的大量局部序列;用大量参考序列比对探测步骤中被探测到的每个局部序列;将局部序列组合为混合组的序列数据,这些序列数据是以比对步骤结果为基础;筛选混合组序列数据的被提交查询的子序列来鉴别预先确定置信水平内的预先确定生物序列。
94.根据权利要求93所述的计算机实施方法,其中探测步骤包括:扫描生物序列数据探测出位于连续系列无碱基响应内的一系列碱基响应;并提取该序列碱基响应作为大量局部序列中的碱基响应。
95.根据权利要求93所述的计算机实施方法,其中探测步骤包括:在探测到有效碱响应位置开始查询窗口;延伸查询窗口尺寸来扩大连续序列的无碱基响应;并提取窗口系列的碱基响应作为大量局部序列中的一种碱基响应。
96.根据权利要求93所述的计算机实施方法,其中局部序列包括大量有效和无效碱基响应。
97.根据权利要求93所述的计算机实施方法,其中比对步骤包括:在大量局部序列中每一种局部序列和大量参考序列中的至少一种参考序列之间确定统计水平的相似性,其中统计水平的相似性表明在大量局部序列中每一种局部序列和大量参考序列中的至少一种参考序列之间的一致水平。
98.根据权利要求97所述的计算机实施方法,其中组合步骤包括:提取大量局部序列中的每一种局部序列,这一种局部序列被确定出与预先确定阈值上的大量参考序列中的至少一种参考序列具有统计水平的相似性;线性组合大量被提取序列中的一种来生成混合组的序列数据。
99.根据权利要求93所述的计算机实施方法,其中筛选步骤进一步包括:
筛选出对应于混合组序列数据中碱基响应的窗口尺寸参数;计算包含在观察窗口的混合组序列数据内的有效碱基响应的百分率,窗口尺寸对应于在筛选步骤中筛选出的窗口尺寸参数。
100.根据权利要求99所述的计算机实施方法,其中筛选步骤进一步包括:
当计算步骤中计算的百分率不满足预先确定的阈值时,滑动观察窗口到混合组序列数据内的另一种数量的碱基响应;并且计算混合组序列数据中含在另一种数量的碱基响应内的有效碱基响应的百分率。
101.根据权利要求99所述的计算机实施方法,其中筛选步骤进一步包括:
当计算百分率满足预先确定的阈值时,子序列被提交查询中时,在观察窗口内筛选子序列的碱基响应。
102.根据权利要求101所述的计算机实施方法,进一步包括的步骤为:在筛选子序列被提交查询中之前,从被筛选子序列中剔除无效碱基响应。
103.根据权利要求93所述的计算机实施方法,进一步包括:用大量预先确定序列比对子序列;并且生成对应于上述预先确定序列中至少一种序列的比对结果。
104.根据权利要求103所述的计算机实施方法,其中比对步骤中的比对结果包括表示子序列和上述预先确定序列中至少一种序列之间的预先确定水平的一致性的统计值。
105.计算机可读存储媒体,为在计算机上执行的存储计算机可读指令而配置,计算机可读指令,当由计算机执行时,被设置执行输入查询生成的生物序列来鉴别预先确定生物序列的方法,该方法包括:
采用处理器实施方法,鉴别存储在存储器中的生物序列数据的大量局部序列;
用大量参考序列比对探测步骤中被探测到的每个局部序列;
以比对步骤结果为基础,将局部序列组合为混合组的序列数据;
筛选被提交查询的混合组序列数据的子序列来鉴别预先确定置信水平内的预先确定生物序列。
106.一种设备,通过输入查询生成的生物序列数据鉴别预先确定生物序列,该设备包括:
采用处理器实施方法,探测存储在存储器中的生物序列数据中的大部分局部序列的装置;
比对由用大量参考序列进行探测的设备探测到的每个局部序列的设备;
基于比对设备得到的结果,混合局部序列为混合组序列数据的设备;
筛选混合组被提交查询的序列数据的子序列来鉴别预先确定置信水平内的预先确定生物序列的设备。
Applications Claiming Priority (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US59093104P | 2004-07-02 | 2004-07-02 | |
US60/590,931 | 2004-07-02 | ||
US60991804P | 2004-09-15 | 2004-09-15 | |
US60/609,918 | 2004-09-15 | ||
US63146004P | 2004-11-29 | 2004-11-29 | |
US63143704P | 2004-11-29 | 2004-11-29 | |
US60/631,437 | 2004-11-29 | ||
US60/631,460 | 2004-11-29 | ||
US69176805P | 2005-06-16 | 2005-06-16 | |
US60/691,768 | 2005-06-16 | ||
PCT/US2005/024054 WO2006088493A2 (en) | 2004-07-02 | 2005-07-05 | Resequencing pathogen microarray |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013101120186A Division CN103224942A (zh) | 2004-07-02 | 2005-07-05 | 再测序病原菌微阵列 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101133164A true CN101133164A (zh) | 2008-02-27 |
CN101133164B CN101133164B (zh) | 2014-01-22 |
Family
ID=36916882
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200580029642.3A Expired - Fee Related CN101133164B (zh) | 2004-07-02 | 2005-07-05 | 再测序病原菌微阵列 |
CN2013101120186A Pending CN103224942A (zh) | 2004-07-02 | 2005-07-05 | 再测序病原菌微阵列 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013101120186A Pending CN103224942A (zh) | 2004-07-02 | 2005-07-05 | 再测序病原菌微阵列 |
Country Status (11)
Country | Link |
---|---|
US (4) | US20060210967A1 (zh) |
EP (3) | EP2383670A1 (zh) |
JP (3) | JP2008504844A (zh) |
CN (2) | CN101133164B (zh) |
AU (1) | AU2005327520B2 (zh) |
CA (2) | CA2823727A1 (zh) |
HK (1) | HK1118081A1 (zh) |
NO (1) | NO20070611L (zh) |
NZ (2) | NZ579206A (zh) |
SG (1) | SG156616A1 (zh) |
WO (1) | WO2006088493A2 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014140381A1 (en) * | 2013-03-15 | 2014-09-18 | Nexidia | Methods for immunocapture and concentration of bacteria in a sample |
CN105593865A (zh) * | 2013-07-17 | 2016-05-18 | 西门子股份公司 | 用于确定对抗生素药物的细菌抗性的方法和系统 |
CN108348166A (zh) * | 2015-09-09 | 2018-07-31 | 优比欧迈公司 | 用于与抗生素使用相关的感染性疾病及其它健康状况的源自微生物群系的诊断及治疗方法和系统 |
CN108342509A (zh) * | 2018-02-08 | 2018-07-31 | 北京宏微特斯生物科技有限公司 | 用于富集脊椎动物病毒核酸的方法 |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002233382A (ja) * | 2001-02-09 | 2002-08-20 | Sapporo Breweries Ltd | ビール酵母の識別方法 |
US20060190184A1 (en) * | 2005-02-23 | 2006-08-24 | Incogen, Inc. | System and method using a visual or audio-visual programming environment to enable and optimize systems-level research in life sciences |
US20090305248A1 (en) * | 2005-12-15 | 2009-12-10 | Lander Eric G | Methods for increasing accuracy of nucleic acid sequencing |
AU2007314214A1 (en) * | 2006-01-18 | 2008-05-08 | Regents Of The University Of Colorado | DNA array analysis as a diagnostic for current and emerging strains of influenza |
WO2008140494A2 (en) * | 2006-11-22 | 2008-11-20 | The Board Of Trustees Of Michigan State University | High throughput screening using microarrays |
SG143090A1 (en) * | 2006-11-27 | 2008-06-27 | Agency Science Tech & Res | Influenza b virus detection method and kit therefor |
US20090092969A1 (en) | 2007-10-09 | 2009-04-09 | Michael Aye | Detection of atypical pneumonia |
WO2009102369A2 (en) * | 2007-11-20 | 2009-08-20 | Autogenomics, Inc. | Multiplex assay for respiratory viruses |
US8354230B2 (en) * | 2007-12-21 | 2013-01-15 | Quest Diagnostics Investments Inc. | Multiplex detection assay for influenza and RSV viruses |
US20110097704A1 (en) * | 2008-01-29 | 2011-04-28 | Ibis Biosciences, Inc. | Compositions for use in identification of picornaviruses |
US8080971B2 (en) * | 2008-06-12 | 2011-12-20 | Northern Illinois University | Active electrical power flow control system for optimization of power delivery in electric hybrid vehicles |
US20100048423A1 (en) * | 2008-08-19 | 2010-02-25 | Animal Health Research Institute, Council Of Agriculture, Executive Yuan | Simultaneous detection, differentiation and typing system of newcastle disease and avian influenza viruses |
JP5809978B2 (ja) | 2008-10-31 | 2015-11-11 | ザ・トラステイーズ・オブ・ザ・ユニバーシテイ・オブ・ペンシルベニア | サルアデノウイルスSAdV−43、−45、−46、−47、−48、−49および−50ならびにそれらの用途 |
EP2359289A4 (en) * | 2008-11-26 | 2015-11-11 | Illumina Inc | METHODS AND SYSTEMS FOR ANALYZING SEQUENCING DATA |
US8926904B2 (en) * | 2009-05-12 | 2015-01-06 | Daniel Wai-Cheong So | Method and apparatus for the analysis and identification of molecules |
WO2010147989A1 (en) * | 2009-06-15 | 2010-12-23 | Ibis Biosciences, Inc. | Compositions and methods for the isolation of nucleic acid |
US20120191364A1 (en) * | 2009-09-29 | 2012-07-26 | Wing Cheong Christopher Wong | Methods and arrays for dna sequencing |
WO2011106556A2 (en) * | 2010-02-24 | 2011-09-01 | Life Technologies Corporation | Systems and methods for adaptive recursive sequencing |
TW201207118A (en) * | 2010-07-29 | 2012-02-16 | Bigtec Private Ltd | Probes and primers for detection of dengue |
EP2616555B1 (en) * | 2010-09-16 | 2017-11-08 | Gen-Probe Incorporated | Capture probes immobilizable via l-nucleotide tail |
US20150006532A1 (en) * | 2012-01-18 | 2015-01-01 | Dow Agrosciences Llc | Stable pair-wise e-value |
WO2013144663A2 (en) * | 2012-03-27 | 2013-10-03 | Rudjer Boskovic Institute | Method of determination of neutral dna sequences in the genome, system for targeting sequences obtained thereby and methods for use thereof |
US9201916B2 (en) * | 2012-06-13 | 2015-12-01 | Infosys Limited | Method, system, and computer-readable medium for providing a scalable bio-informatics sequence search on cloud |
JP2015524670A (ja) * | 2012-08-16 | 2015-08-27 | エヌブイエス テクノロジーズ,インコーポレイティド | アッセイ方法及び系 |
US9003529B2 (en) | 2012-08-29 | 2015-04-07 | The Johns Hopkins University | Apparatus and method for identifying related code variants in binaries |
US9111095B2 (en) | 2012-08-29 | 2015-08-18 | The Johns Hopkins University | Apparatus and method for identifying similarity via dynamic decimation of token sequence n-grams |
US20140089328A1 (en) * | 2012-09-27 | 2014-03-27 | International Business Machines Corporation | Association of data to a biological sequence |
US9146248B2 (en) | 2013-03-14 | 2015-09-29 | Intelligent Bio-Systems, Inc. | Apparatus and methods for purging flow cells in nucleic acid sequencing instruments |
US9591268B2 (en) | 2013-03-15 | 2017-03-07 | Qiagen Waltham, Inc. | Flow cell alignment methods and systems |
CN106687965B (zh) * | 2013-11-13 | 2019-10-01 | 凡弗3基因组有限公司 | 用于传送并且预处理测序数据的系统和方法 |
WO2015085105A1 (en) * | 2013-12-04 | 2015-06-11 | University Of Alaska Fairbanks | Methods and compositions for enriching non-host sequences in host samples |
US10342861B2 (en) | 2014-05-27 | 2019-07-09 | University Of Rochester | Arenavirus vaccine |
EP3161153B1 (en) | 2014-06-30 | 2019-08-21 | Dow Global Technologies LLC | Method and reagents for detecting water contamination |
CN105631239B (zh) * | 2014-10-30 | 2018-08-17 | 国际商业机器公司 | 用于管理基因序列的方法和装置 |
US9805099B2 (en) * | 2014-10-30 | 2017-10-31 | The Johns Hopkins University | Apparatus and method for efficient identification of code similarity |
CA2968527C (en) * | 2014-11-21 | 2019-01-29 | Nantomics, Llc | Systems and methods for identification and differentiation of viral infection |
US20160178905A1 (en) * | 2014-12-19 | 2016-06-23 | Intel Corporation | Facilitating improved viewing capabitlies for glass displays |
CN107111693A (zh) * | 2014-12-29 | 2017-08-29 | 考希尔股份有限公司 | 用于确定高同源性区域中的基因型的方法 |
WO2017004448A1 (en) * | 2015-07-02 | 2017-01-05 | Indevr, Inc. | Methods of processing and classifying microarray data for the detection and characterization of pathogens |
US10597736B2 (en) * | 2016-01-29 | 2020-03-24 | Washington University | Compositions and methods for detecting viruses in a sample |
JPWO2017145739A1 (ja) * | 2016-02-24 | 2018-09-20 | 富士フイルム株式会社 | 染色体数定量方法 |
US10629291B2 (en) * | 2016-03-10 | 2020-04-21 | Koninklijke Philips N.V. | Antibiotic resistance causation identification |
EP3519097A4 (en) | 2016-10-03 | 2020-04-29 | Genvida Technology Company Limited | METHOD AND DEVICE FOR ANALYZING AND IDENTIFYING MOLECULES |
EP3339446A1 (en) | 2016-12-21 | 2018-06-27 | Siemens Healthcare GmbH | Amplification-integrated genetic material depletion of non-target organisms using differentially abundant k-mers |
US20190057134A1 (en) * | 2017-08-21 | 2019-02-21 | Eitan Moshe Akirav | System and method for automated microarray information citation analysis |
US11232852B2 (en) | 2018-12-06 | 2022-01-25 | Battelle Memorial Institute | Technologies for nucleotide sequence screening |
US10515715B1 (en) | 2019-06-25 | 2019-12-24 | Colgate-Palmolive Company | Systems and methods for evaluating compositions |
RU2712418C1 (ru) * | 2019-11-08 | 2020-01-28 | Илья Юрьевич Емельянов | Вычислительное устройство |
US20220364157A1 (en) * | 2020-03-27 | 2022-11-17 | Pathogendx, Inc. | Methods for Detecting Low Levels of Covid-19 Virus |
CN113470742B (zh) * | 2020-03-31 | 2024-08-09 | 浙江省疾病预防控制中心 | 数据处理方法、装置、存储介质及计算机设备 |
WO2022020259A1 (en) * | 2020-07-19 | 2022-01-27 | Centrillion Technologies, Inc. | Methods and devices for detecting and sequencing sars-cov-2 |
CN113284560B (zh) * | 2021-04-28 | 2022-05-17 | 广州微远基因科技有限公司 | 病原检测背景微生物判断方法及应用 |
WO2023173114A2 (en) * | 2022-03-10 | 2023-09-14 | Technovax, Inc. | Recombinant virus-like particle capsid vaccines against adenoviruses and compositions, methods, and use thereof |
CN115547414B (zh) * | 2022-10-25 | 2023-04-14 | 黑龙江金域医学检验实验室有限公司 | 潜在毒力因子的确定方法、装置、计算机设备及存储介质 |
CN115992265B (zh) * | 2023-03-22 | 2023-07-14 | 中山大学 | 一种石斑鱼全基因组液相芯片及其应用 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5932220A (en) * | 1995-05-08 | 1999-08-03 | Board Of Regents University Of Texas System | Diagnostic tests for a new spirochete, Borrelia lonestari sp. nov. |
US5701256A (en) * | 1995-05-31 | 1997-12-23 | Cold Spring Harbor Laboratory | Method and apparatus for biological sequence comparison |
EP0880598A4 (en) * | 1996-01-23 | 2005-02-23 | Affymetrix Inc | RAPID EVALUATION OF NUCLEIC ACID ABUNDANCE DIFFERENCE, WITH A HIGH-DENSITY OLIGONUCLEOTIDE SYSTEM |
US6228575B1 (en) * | 1996-02-08 | 2001-05-08 | Affymetrix, Inc. | Chip-based species identification and phenotypic characterization of microorganisms |
US6519583B1 (en) * | 1997-05-15 | 2003-02-11 | Incyte Pharmaceuticals, Inc. | Graphical viewer for biomolecular sequence data |
US7024312B1 (en) * | 1999-01-19 | 2006-04-04 | Maxygen, Inc. | Methods for making character strings, polynucleotides and polypeptides having desired characteristics |
EP1103911A1 (en) * | 1999-11-25 | 2001-05-30 | Applied Research Systems ARS Holding N.V. | Automated method for identifying related biomolecular sequences |
US6996477B2 (en) * | 2001-04-19 | 2006-02-07 | Dana Farber Cancer Institute, Inc. | Computational subtraction method |
EP1402254A1 (en) * | 2001-05-04 | 2004-03-31 | Paracel, Inc. | Method and apparatus for high-speed approximate sub-string searches |
JP3871301B2 (ja) * | 2001-05-15 | 2007-01-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データベース検索装置、及びプログラム |
US6881835B2 (en) * | 2002-01-04 | 2005-04-19 | Dr. Chip Biotechnology Inc. | Detection of respiratory viruses |
EP1339006A1 (en) * | 2002-02-14 | 2003-08-27 | AgeLab Pharma GmbH | Method for the detection of a functional protein sequence and an apparatus therefor |
AU2003233451A1 (en) * | 2002-03-26 | 2003-10-13 | Massachusetts Institute Of Technology | Targets, methods, and reagents for diagnosis and treatment of schizophrenia |
US7695941B2 (en) * | 2005-06-16 | 2010-04-13 | The United States Of America As Represented By The Secretary Of The Navy | Multiplexed polymerase chain reaction for genetic sequence analysis |
-
2005
- 2005-07-02 US US11/177,646 patent/US20060210967A1/en not_active Abandoned
- 2005-07-02 US US11/177,647 patent/US8032310B2/en not_active Expired - Fee Related
- 2005-07-05 SG SG200906635-8A patent/SG156616A1/en unknown
- 2005-07-05 NZ NZ579206A patent/NZ579206A/en not_active IP Right Cessation
- 2005-07-05 CA CA2823727A patent/CA2823727A1/en not_active Abandoned
- 2005-07-05 CN CN200580029642.3A patent/CN101133164B/zh not_active Expired - Fee Related
- 2005-07-05 EP EP11159264A patent/EP2383670A1/en not_active Withdrawn
- 2005-07-05 AU AU2005327520A patent/AU2005327520B2/en not_active Ceased
- 2005-07-05 CN CN2013101120186A patent/CN103224942A/zh active Pending
- 2005-07-05 NZ NZ552432A patent/NZ552432A/en not_active IP Right Cessation
- 2005-07-05 EP EP11159265A patent/EP2385477A1/en not_active Withdrawn
- 2005-07-05 JP JP2007520488A patent/JP2008504844A/ja active Pending
- 2005-07-05 EP EP05857511A patent/EP1778881A4/en not_active Withdrawn
- 2005-07-05 WO PCT/US2005/024054 patent/WO2006088493A2/en active Application Filing
- 2005-07-05 CA CA2572617A patent/CA2572617C/en not_active Expired - Fee Related
-
2007
- 2007-02-01 NO NO20070611A patent/NO20070611L/no not_active Application Discontinuation
-
2008
- 2008-04-10 US US12/100,519 patent/US9430610B2/en not_active Expired - Fee Related
- 2008-08-18 HK HK08109139.5A patent/HK1118081A1/zh not_active IP Right Cessation
-
2011
- 2011-06-01 JP JP2011123705A patent/JP5455977B2/ja not_active Expired - Fee Related
- 2011-06-01 JP JP2011123693A patent/JP5517996B2/ja not_active Expired - Fee Related
- 2011-08-17 US US13/211,382 patent/US20120035857A1/en not_active Abandoned
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014140381A1 (en) * | 2013-03-15 | 2014-09-18 | Nexidia | Methods for immunocapture and concentration of bacteria in a sample |
CN105593865A (zh) * | 2013-07-17 | 2016-05-18 | 西门子股份公司 | 用于确定对抗生素药物的细菌抗性的方法和系统 |
CN108348166A (zh) * | 2015-09-09 | 2018-07-31 | 优比欧迈公司 | 用于与抗生素使用相关的感染性疾病及其它健康状况的源自微生物群系的诊断及治疗方法和系统 |
CN108342509A (zh) * | 2018-02-08 | 2018-07-31 | 北京宏微特斯生物科技有限公司 | 用于富集脊椎动物病毒核酸的方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2011200250A (ja) | 2011-10-13 |
WO2006088493A3 (en) | 2007-05-31 |
CN101133164B (zh) | 2014-01-22 |
US20120035857A1 (en) | 2012-02-09 |
EP2383670A1 (en) | 2011-11-02 |
EP1778881A2 (en) | 2007-05-02 |
JP5517996B2 (ja) | 2014-06-11 |
US9430610B2 (en) | 2016-08-30 |
WO2006088493A8 (en) | 2007-08-09 |
WO2006088493A2 (en) | 2006-08-24 |
US8032310B2 (en) | 2011-10-04 |
CA2823727A1 (en) | 2006-08-24 |
SG156616A1 (en) | 2009-11-26 |
JP2011204261A (ja) | 2011-10-13 |
CA2572617C (en) | 2013-10-29 |
NZ579206A (en) | 2011-04-29 |
CN103224942A (zh) | 2013-07-31 |
EP1778881A4 (en) | 2008-12-10 |
US20060210967A1 (en) | 2006-09-21 |
AU2005327520B2 (en) | 2011-04-28 |
US20070065832A1 (en) | 2007-03-22 |
NO20070611L (no) | 2007-03-29 |
HK1118081A1 (zh) | 2009-01-30 |
JP5455977B2 (ja) | 2014-03-26 |
JP2008504844A (ja) | 2008-02-21 |
AU2005327520A1 (en) | 2006-08-24 |
CA2572617A1 (en) | 2006-08-24 |
EP2385477A1 (en) | 2011-11-09 |
NZ552432A (en) | 2009-11-27 |
US20090170717A1 (en) | 2009-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101133164B (zh) | 再测序病原菌微阵列 | |
Lehmann et al. | Leptospiral pathogenomics | |
Gundi et al. | Validation of partial rpoB gene sequence analysis for the identification of clinically important and emerging Acinetobacter species | |
Catara et al. | Trends in molecular diagnosis and diversity studies for phytosanitary regulated Xanthomonas | |
Portier et al. | Updated taxonomy of Pectobacterium genus in the CIRM-CFBP bacterial collection: when newly described species reveal “old” endemic population | |
Bertasio et al. | Serological survey and molecular typing reveal new Leptospira serogroup Pomona strains among pigs of northern Italy | |
Tan et al. | Rapid, unbiased PRRSV strain detection using MinION direct RNA sequencing and bioinformatics tools | |
Silva et al. | Molecular characterization of a new virus species identified in yam (Dioscorea spp.) by high-throughput sequencing | |
Pappas et al. | Virus bioinformatics | |
Moubset et al. | Virion-associated nucleic acid-based metagenomics: a decade of advances in molecular characterization of plant viruses | |
US20110152109A1 (en) | Biological sample target classification, detection and selection methods, and related arrays and oligonucleotide probes | |
Suleimanova et al. | Identification of Pantoea phytate-hydrolyzing rhizobacteria based on their phenotypic features and multilocus sequence analysis (MLSA) | |
Cigna et al. | European Population of Pectobacterium punjabense: Genomic diversity, tuber maceration capacity and a detection tool for this rarely occurring potato pathogen | |
Hu et al. | Genetic divergence and population structure of Xanthomonas albilineans strains infecting Saccharum spp. Hybrid and Saccharum officinarum | |
Bai et al. | Identification of secreted protein gene-based snp markers associated with virulence phenotypes of Puccinia striiformis f. sp. tritici, the wheat stripe rust pathogen | |
Jilani et al. | Phylogeographic characterization of Burkholderia pseudomallei isolated from Bangladesh | |
Salamzade et al. | zol & fai: large-scale targeted detection and evolutionary investigation of gene clusters | |
Bannister et al. | Development and assessment of a diagnostic DNA oligonucleotide microarray for detection and typing of meningitis-associated bacterial species | |
Luigi et al. | Development, validation, and application of reverse transcription Real-Time and droplet digital PCR assays for the detection of the Potyviruses watermelon mosaic virus and zucchini yellow mosaic virus in cucurbits | |
Ndiaye et al. | Genomic Epidemiology of SARS-CoV-2 in urban settings in Senegal | |
Fiori et al. | A naturally occurring microhomology-mediated deletion of three genes in African swine fever virus isolated from two Sardinian wild boars | |
Willner et al. | Metagenomics and community profiling: culture-independent techniques in the clinical laboratory | |
Vafadoost | Development of bioinformatics tools for the characterization and classification of low abundant microbes at the strain level, with a study case of SARS-CoV2 | |
Zhu et al. | Evaluation of Metagenomics Next-Generation Sequencing as a Diagnostic Tool for Influenza Virus-Positive Respiratory Samples in Retired Fitness Players | |
AU2011203297B2 (en) | Computer-Implemented Biological Sequence Identifier System and Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1118081 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1118081 Country of ref document: HK |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140122 Termination date: 20150705 |
|
EXPY | Termination of patent right or utility model |