CN101421415A

CN101421415A - 通过比较感染性生物的临床分离物中的多态性区域构建比较数据库和鉴定致病因子

Info

Publication number: CN101421415A
Application number: CN200480043971.9A
Authority: CN
Inventors: V·M·帕特尔; K·R·拉亚什里; M·罗德里古; G·弗纳特
Original assignee: Biomerieux SA; Jean-Michel Grinenberger Technology Co Ltd In
Current assignee: Biomerieux SA; Jean-Michel Grinenberger Technology Co Ltd In
Priority date: 2004-07-12
Filing date: 2004-07-12
Publication date: 2009-04-29
Also published as: EP1789577A2; WO2006008575A9; EP1789577A4; WO2006008575A2

Abstract

本发明涉及新的核苷酸序列，其将用于对所有感染性疾病(更具体地结核病)的诊断、菌株鉴定、菌株分型和对其潜在毒性程度、传染性和/或潜伏期给出指导。本发明还包括通过感染性生物的不同临床分离物/菌株的序列的比较基因组分析，鉴定和选择与感染性疾病(尤其结核病)中的毒性和/或传染性相关的多态性的方法。多态性区域也可以作为潜在药物靶标和疫苗靶标。更具体地，本发明还涉及鉴定将包括在诊断DNA芯片中的结核分枝杆菌(M.tuberculosis)菌株和其他感染性生物的致病因子，允许鉴定菌株、分型菌株和最终对其潜在毒性程度给出指导。尽管本发明已经特别参考结核分枝杆菌中的多态性区域进行了阐明，但是所述发明不被理解和解释为限定于结核病，而是可以应用于所有感染性疾病。

Description

通过比较感染性生物的临床分离物中的多态性区域构建比较数据库和鉴定致病因子

发明领域

本发明涉及新的核苷酸序列，其将用于对包括结核病在内的所有感染性疾病的诊断、菌株鉴定、菌株分型和对其潜在毒性程度、传染性和/或潜伏期给出指导。本发明还包括通过感染性生物的不同临床分离物/菌株的序列的比较基因组分析，鉴定和选择与感染性疾病中的毒性和/或传染性相关的多态性的方法。多态性区域也可以作为潜在药物靶标和疫苗靶标。更具体地，本发明还涉及鉴定将包括在诊断DNA芯片中的结核分枝杆菌(M.tuberculosis)菌株和其他感染性生物的致病因子，允许鉴定菌株、分型菌株和最终对其潜在毒性程度给出指导。

尽管本发明已经特别参考结核分枝杆菌中的多态性区域进行了阐明，但是所述发明不被理解和解释为限定于结核病，而是可以应用于所有感染性疾病。

发明背景

微生物病原体使用多种复杂的策略破坏宿主细胞功能以确保它们的繁殖和存活。已经与宿主共同进化或者与它们的宿主长期共存的一些病原体利用精密调节的宿主特异性策略来建立病原性关系。

在感染期间，病原体遇到不同的条件，并且通过表达适于特定环境、宿主或者环境和宿主的毒性因子来应答。

尽管抗生素是治疗感染性疾病的有效工具，但是药物抗性病原体的出现正成为临床情况中的问题。因此，需要新的抗生素或者抗病原体分子来抵抗此类药物抗性病原体。因此，本领域需要筛选方法，其目标不仅是鉴定和表征潜在的抗病原体试剂，还包括鉴定和表征使得病原体能够感染宿主和使其宿主变得虚弱的致病因子。

分枝杆菌是不形成孢子的棒状、耐酸的需氧芽孢杆菌。一些种类的分枝杆菌对人和/或动物是致病的，许多因子与它们的毒性有关。结核病是世界性的健康问题，其导致每年约三百万人死亡，然而对于结核病致病的分子基础知之甚少。该疾病由结核分枝杆菌(Mycobacterium tuberculosis)的感染引起；结核杆菌被吸入并被肺泡巨噬细胞摄入。与多数病原体的情况相同，结核分枝杆菌的感染并不总是导致疾病。该感染通常被细胞介导的免疫(CMI)的发展而阻止，导致在肺中形成微损伤，或者结节。如果CMI不限制结核分枝杆菌的扩散，那么可以发生干酪样坏死、支气管壁侵蚀，和肺部空洞。确定结核分枝杆菌感染是否将导致疾病的因素还没有完全了解。

结核病复合体是一组四种分枝杆菌物种，它们在遗传上如此密切相关以致于已经提出它们组合成一个物种。该复合体的三个重要的成员是结核分枝杆菌(人类结核病的主要原因)；非洲分枝杆菌(Mycobacterium africanum)(某些群体中人类结核病的主要原因)；和牛分枝杆菌(Mycobacterium bovis)(牛结核病的病因)。这些分枝杆菌没有一种局限于对单独一种宿主物种致病。例如，牛分枝杆菌导致包括人的宽范围的动物中的结核病，其中它引起与结核分枝杆菌引起的疾病在临床上不可区分的疾病。人结核病是世界上，尤其在较不发达的国家中主要的死因。它引起每年约8百万新的临床疾病病例和三百万死亡。牛结核病导致小百分比的这些人类病例，是患病动物的主要病因并且导致动物工业的很大经济成本。

结核病的抗生素治疗非常昂贵并且需要长期施用几种抗结核病药物的组合。用一种抗生素治疗不是可取的，因为结核病生物可以发展出对有效针对它们的治疗水平的所有抗生素的抗性。抗一种或多种抗结核病药物的结核分枝杆菌菌株正变得更频繁并且此类菌株感染的患者的治疗非常昂贵和困难。在少数但是其百分比不断增加的人类结核病病例中，结核病生物已经变得耐受两种最有用的抗生素：异烟肼和利福平。这些患者的治疗表现出极端困难并且实际上通常不成功。在当前的情况中，明显迫切需要开发新的方法来检测分枝杆菌的毒性菌株和开发结核病疗法。

存在结核病的公认的疫苗，其是称作BCG的牛分枝杆菌的减毒形式。该疫苗非常广泛地使用，但是它提供不完全的保护。BCG的开发在1921年完成，但是其无毒性的理由过去直到现在一直未知。对结核病菌株减毒以便以更合理的方式产生疫苗的方法已经进行了研究，但是由于多种原因还没有成功。然而，考虑到死亡的牛分枝杆菌BCG在赋予免疫性方面没有活的BCG有效，所有需要可以用于制备疫苗的分枝杆菌的减毒菌株。

已经提出多种化合物作为结核病的致病因子(virulence factor)，但是尽管进行了无数研究，仍然缺少支持这些提议的有力证据。然而，结核病的一种或多种致病因子的发现是非常重要的并且是当前研究的活跃领域。这种发现将不仅使得可能开发新一代的结核病疫苗，而且还可能提供设计或者发现新的或者改进的抗结核病药物或者疗法的靶标。

鉴定和表征来自人和动物疾病的样品中的分枝杆菌的当前方法是通过Zeil-Neilson染色、体外和体内培养、生物化学测试和血清分型。这些方法通常缓慢并且不容易区分密切相关的分枝杆菌菌株和种，尤其例如副结核分枝杆菌(Mycobacterium paratuberculosis)和鸟分枝杆菌(Mycobacterium avium)。分枝杆菌在环境中广泛分布，并且没有用于从通常不致病的许多环境菌株中鉴定特定致病菌株的快速方法。分枝杆菌鉴定和表征的现有方法的困难已经增加了分析来自人类中的克洛恩氏病(节段性回肠炎)和动物(尤其牛、绵羊和山羊)中的约内病(Johne’s disease)的微生物分离物以及具有分枝杆菌超感染的艾滋病患者的鸟分枝杆菌菌株的关联性。尽管对人麻风病和结核病的致病剂的认识是清楚的，但是存在每种疾病的临床病理形式，如麻风病的结核样形式，其中分枝杆菌组织丰度很低并且鉴定也相应的很困难。如果当前的将诸如类风湿性关节炎的疾病与分枝杆菌抗原联系的证据得到证明，那么分枝杆菌的特定识别和表征中的改进也可以增加关联性。对于分枝杆菌，包括来自艾滋病患者的鸟分枝杆菌和来自结核病患者的结核分枝杆菌，的不断出现的药物抗性是越来越严重的问题。

现有技术中还没有数据或者技术信息来允许特异地为新药物和疫苗组合物选择潜在的新靶标和保护性抗原，来治疗和预防感染性疾病，尤其结核病。此外，需要开发新的工具以选择编码分枝杆菌物种的存活或感染中必需的蛋白质或者调节性核苷酸序列以及用于基于比较性分枝杆菌基因组学的知识设计抗结核病药物和疫苗。

使用DNA探针来精确鉴定分枝杆菌和通过基因型表征区分密切相关的分枝杆菌菌株和物种的方法是必需的。基因型分析的方法还可以应用于快速鉴定表型特征，如药物抗性和致病性。

本发明的目的是满足本领域的这些需要。本发明的方法的优点是，通过首次给出结核病中保守SNP的详尽描述，显著减小潜在的新靶标和保护性抗原的数目。本发明中描述的分离的多核苷酸在毒性和非毒性的基因组序列中都高度保守，通过该特征，这些多核苷酸是这些分枝杆菌在宿主中的存活或者毒性所必需的。通过比较基因组分析的方法已经进行了抗原和潜在的治疗靶标的鉴定。

现有技术

专利申请WO 02074903描述了选择编码蛋白质或者蛋白质部分的纯化的核苷酸序列或者多核苷酸的方法，其携带分枝杆菌物种的存活或者毒性所必需的至少一种功能，所述方法是通过将结核分枝杆菌的基因组序列与麻风分枝杆菌(M.leprae)基因组序列进行比对并进行比较基因组分析来实现的；还公开了结核分枝杆菌和麻风分枝杆菌标记多肽，编码所述多肽的核苷酸，以及使用所述核苷酸和编码的多肽的方法。

美国专利号6,228,575提供了基于寡核苷酸的阵列和例如，使用基于结核分枝杆菌rpoB基因的寡核苷酸序列，鉴别(speciate)生物和鉴定生物表型的方法。通过将来自该生物的靶核酸的杂交模式与数据库中的杂交模式相比较，可以确定所述生物所属的组或者物种。

专利申请号WO9954487和美国专利号6,492,506描述了使用细菌人工染色体(BAC)载体分离目的多核苷酸的方法，所述目的多核苷酸存在于或者表达于第一种分枝杆菌菌株的基因组中，并且在与第一种分枝杆菌菌株不同的第二种分枝杆菌菌株的基因组中不存在或者发生了改变。本发明还涉及通过该方法分离的多核苷酸和用于该方法的重组BAC载体。此外，本发明包括用于检测生物样品中的分枝杆菌的存在的方法和试剂盒。

美国专利号5,783,386描述了与分枝杆菌的毒性相关的多核苷酸，尤其从牛分枝杆菌分离的含有编码推定的σ因子的区域的DNA片段。还提供了用于与分枝杆菌，尤其结核分枝杆菌和牛分枝杆菌中毒性决定子有关的一种或多种DNA序列的方法。此外，该发明提供了产生具有改变的毒性(virulence)或者其他性质的菌株的方法，所述菌株自身可以用于鉴定和操作个别基因。

美国专利号5,955,077涉及来自分枝杆菌的新的抗原，用结核病复合体的分枝杆菌再刺激(rechallenge)感染后，所述抗原能够以记忆免疫动物中γ-干扰素释放的形式从T辅助细胞引起早期(4天内)免疫应答。认为该发明的抗原尤其可用于疫苗中，而且可以用于诊断组合物中，特别是诊断毒性分枝杆菌的感染。还公开了编码所述抗原的核酸片段以及免疫动物/人的方法和诊断结核病的方法。

美国专利号6,596,281描述了结核分枝杆菌的蛋白质的已经测序的两种基因。所述DNA和它们编码的多肽可以用于免疫测定和疫苗。至少三种纯化的重组抗原的混合物和编码它们的至少三种DNA的混合物可以用于针对细菌病原体和寄生虫的改进的测定法和疫苗。

美国专利号5,700,683提供了特定基因缺失，其导致分枝杆菌的无毒性表型。这些缺失可以用作表型标记以提供区分产生疾病和非产生疾病的分枝杆菌的手段。

美国专利号5,225,324涉及分枝杆菌来源的DNA插入序列(ISMY)家族和其他DNA探针，其可以用作测定方法中的探针用来鉴定分枝杆菌和区分密切相关的分枝杆菌菌株和物种。还公开了ISMY、ISMY编码的蛋白质和肽用于疫苗、药物制剂和诊断测试试剂盒中的用途。

WO0066157专利申请提供了结核分枝杆菌基因组中存在但是BCG基因组中不存在的可读框编码的多肽，和使用这些多肽的诊断和预防方法。

US 6,458,366公开了用于诊断结核病的化合物和方法。所提供的化合物包括含有一种或多种结核分枝杆菌蛋白质的至少一个抗原性部分的多肽，和编码此类多肽的DNA序列。含有此类多肽或者DNA序列和合适的检测试剂的诊断试剂盒可以用于检测患者和生物样品中的结核分枝杆菌感染。还提供了针对此类多肽的抗体。

S.T.Cole已经测定了结核分枝杆菌的最详细表征的菌株H37Rv的完整基因组序列的序列。已经分析了所述序列以便提高我们对该缓慢生长的病原体的生物学的理解和帮助对新的预防性和治疗性干预的设计[Nature 393，537-544(1998)]。

用于确定多态性与毒性和感染性程度的关联的多组分分析正在进行中。这些多态性(polymorphisms)组成了一组推定的毒性标记，其正在120个结核病的临床分离物中被验证。该研究得到一组毒性标记，其可以用于预测分枝杆菌感染的毒性和感染性的程度。

在本领域中没有数据或者技术信息来允许特异地为新药物和疫苗组合物选择潜在的新靶标和保护性抗原，所述药物和疫苗组合物用于治疗和预防感染性疾病，包括分枝杆菌疾病，尤其是结核病和麻风病。

发明概述

本发明的目的是鉴定基因，所述基因编码在所有感染性疾病中在分枝杆菌物种的存活或感染中必需的蛋白质或者调节核苷酸序列，并且将用于基于比较基因组学的知识设计药物和疫苗。

本发明的再一个目的是提供疾病样品中包括分枝杆菌在内的菌株的鉴定，和病原性菌株的特定识别，精确区分包括分枝杆菌菌株的密切相关的菌株和定义毒性和抗性模式。

本发明的方法通过首次给出导致结核病的不同结核分枝杆菌菌株中保守SNP的详尽描述而具有显著减小潜在的新靶标和保护性抗原数目的优点。本发明中描述的分离的多核苷酸在毒性菌株的基因组序列中高度保守，并且对于这些菌株，尤其分枝杆菌在宿主中的存活或者毒性是必需的。通过比较基因组分析方法已经进行了抗原和潜在治疗靶标的鉴定。

本发明涉及使用与毒性因子有关的DNA、RNA链和/或蛋白质鉴定结核分枝杆菌和其他感染性疾病中的毒性因子，允许菌株的鉴定、菌株的分型(typing)和最终对其毒性、感染性和/或潜伏期的潜在程度给出指导(orientation)。

本发明提供了用于诊断、鉴定菌株、对菌株分型和对所有感染性疾病的毒性、感染性和/或潜伏期的潜在程度给出指导的核苷酸序列，其具有SEQ ID no 1到2531。

本发明还涉及方法，其包括比对不同分枝杆菌物种的基因组序列以

a.选择在毒性菌株中高度保守并且对应于分枝杆菌物种的存活或毒性必需的基因的多核苷酸；

b.选择毒性和无毒性菌株之间的多态性以鉴定对前者赋予毒性的基因和区域；

c.和任选地，测试所选多核苷酸的毒性能力或者参与分枝杆菌物种的存活的能力，所述测试基于细菌宿主中所述多核苷酸的活化或者失活或者所述测试基于所述多核苷酸的体内或者体外表达产物的活性。

本发明还包含鉴定下面的多态性，其具有用作试剂和用于感染性疾病的诊断剂、药物和疫苗开发的潜力：

i.毒性菌株/物种中的相同核苷酸，但是在无毒性菌株/物种中相同位置上的不同核苷酸；

ii.一些毒性菌株在核苷酸序列的特定位置上不同并且与无毒性菌株共有所述核苷酸序列。

本发明涉及鉴定和分析用于预测保守和非保守氨基酸替代的非同义SNP。所述替代对编码的蛋白质的功能的作用在预测与感染性疾病如结核分枝杆菌的毒性和感染性相关的SNP中提供了有力的洞察。

本发明还涉及携带导致结核病和其他感染性疾病的生物中的多态性的区域所编码的蛋白质、RNA、DNA和代谢物；其可以用于开发有效针对结核病和其他感染性疾病的药物和疫苗，在基因治疗、RNAi技术和成像中起重要作用。

本发明还涉及重组多肽和包含它们的嵌合多肽、针对这些多肽产生的抗体、包含用作保护性抗原或者能够在体内或者体外诱导针对分枝杆菌感染的保护性应答的至少一种多肽的免疫原性或者疫苗组合物、包含至少一种根据本发明的这种多肽的免疫治疗组合物的生产方法，和此类核酸和多肽在诊断方法、疫苗、试剂盒或者抗微生物疗法中的用途。

SEQ ID Nos.1到1829是单核苷酸多态性。

SEQ ID Nos.1830到2286是插入/缺失(indel)。

SEQ ID No 2287到2531是长多态性区。

本发明还包括用于扩增多态性SEQ ID nos 1到2531周围区域的引物序列。

SEQ ID Nos.1到2531的多态性侧翼任一边至35个核苷酸长度的核苷酸序列用于试剂和诊断、药物开发、RNAi、基因治疗和其他此类技术中。

SEQ ID Nos.1到2531用作使用生物信息学和其他工具进行的药物设计、药物开发、基因治疗和疫苗开发的靶标。本发明还包括携带SEQ ID Nos.1到2531的多态性的区域所编码的蛋白质、RNA、DNA和代谢物用于RNAi技术和反义技术的用途。

本发明还包括用于鉴定和选择具有SEQ ID Nos.1到2531的多态性的数据库。

附图和表格简述

图1描述了实体关系模型。

图2阐明了结核分枝杆菌菌株H37Rv、CDC1551和牛分枝杆菌BCG中SNP的鉴定。在三个基因组中鉴定了总共1829个SNP。这其中1825个SNP在H37Rv和CDC1551中相同，在BCG中有一个核苷酸不同。这其中1579个在ORF中，而剩余的(246个)在非编码区。ORF中的SNP被分类为同义的(synonymous)、非同义的SNP。后者进一步基于该蛋白质一级结构的改变而分类-所编码的蛋白质的一级结构无改变则为保守的，有改变则为不保守的。

图3阐明了结核分枝杆菌菌株H37Rv、CDC1551和牛分枝杆菌BCG中indels的鉴定。在三个基因组中已经鉴定了总共794种indels。这其中237种存在于H37Rv和CDC1551中并且不存在于BCG中，其中的178种在ORF中，59种在ORF外。

图4阐明了结核分枝杆菌菌株H37Rv、CDC1551和牛分枝杆菌BCG中长多态性的鉴定。136种多态性存在于三种基因组中，它们中的30种对于CDC1551和H37Rv相同。这些多态性中的22种存在于ORF中，而8种在ORF外。

图5展示显示了BCG基因组的10kb区，具有三种类型的注解；BCG ORF、H37Rv中的SNP，和CDC1551的SNP。

图6显示了比较基因组浏览器，其在上方的栏展示BCG，在底部栏展示H37Rv。标记MUM-＊的区段是通过MUMmer工具产生的完全匹配，垂直线显示了两个基因组中MUM区段的比对。ORF的颜色编码用于指出ORF的长度。这对于研究人员非常有帮助，因为如果H37中的ORF与BCG中的ORF对齐，但是它们具有不同的颜色，那么就存在使得它们具有不同长度的突变(见例如，MUM-1280区中的基因)。

图7.1-7.25是用于扩增以包括多态性区的引物。

表1给出了结核分枝杆菌/牛分枝杆菌BCG中单核苷酸多态性的列表。

表2给出了结核分枝杆菌/牛分枝杆菌BCG中插入/缺失(Indels)的列表。

表3给出了结核分枝杆菌/牛分枝杆菌BCG中的长多态性的列表。

表4列出了涉及细胞壁合成的基因中的多态性。

图5列出了转录因子中的多态性。

图6列出了涉及脂类代谢的基因中的多态性。

图7列出了编码膜转运蛋白的基因中的多态性。

图8列出了与毒性有关的基因中的多态性。

发明详述

结核分枝杆菌复合体由六个种：结核分枝杆菌、牛分枝杆菌、M.canotti、M.microtii和非洲分枝杆菌组成。这其中，对人类有毒性和感染性的结核分枝杆菌的两个不同菌株的基因组已经被完全测序，而无毒并且无感染性的牛分枝杆菌BCG的完整基因组也已经测序。仅可以得到其他种的部分序列。检索并编辑NCBI、EMBL、GENBANK、Sanger和TIGR数据库中可得到的所有分枝杆菌序列。

所检索的(retrieved)序列的总数如下：

物种名已检索序列的数目

非洲分枝杆菌 16

Mycobacterium canetti 03

Mycobacterium microtii 24

结核分枝杆菌 1274

牛分枝杆菌 183

结核分枝杆菌菌株H37Rv(称作H37Rv)和CDC1551(称作CDC1551)-(两种都对人有毒性和感染性)和牛分枝杆菌BCG(称作BCG)-(在人中无毒性和无感染性)的完整基因组-进行了比对并构建了数据库。在图1中给出数据库的结构。

使用成对比对工具“MUMmer-3.08”(www.tigr.org)比对序列。

·MUMmer的使用需要三个不同步骤：

1.为每个靶基因组(CDC1551和H37Rv)针对参考基因组(BCG)运行MUMmer；

2.对MUMmer输出进行分析以产生多态性列表，并将这些数据加载到多态性数据库；

3.产生用于可视化的特征文件，并将这些特征加载到特征数据库。

选择BCG作为参考基因组并针对参考比较两种结核病菌株CDC1551和H37Rv。MUMmer使用fasta文件作为输入并使用下面的命令行运行：

run-mummer1 bovis.fasta cdc1551.fasta BCG-CDC

其采取格式，

program<reference><query><output>

BCG-CDC参数为输出文件提供了文件名前缀，bovis.fasta参数是参考fasta文件，CDC1551.fasta参数是查询fasta序列文件的名称。

使用下面的脚本产生数据库：

对MUMmer.align文件做分析(parsing)以提取多态性数据。该文件被分析以提取有用的信息并将其以更简单的用tab分隔的文本文件格式存储。一种自定义perl脚本称作mum-parse.pl，其使用Perl模块Parse：：RecDescent基于自定义文件Mummer.pm中所含的语法产生递归下降语法分析(recursive descent parser)，被用于运行下面的命令行：

$ perl./mum-parse.pl--mummerl--outfile＝../mummer/BCG-CDC../mummer/BCG-CDC.align

这产生三个输出文件：

1.BCG-CDC.gaps-这是初始输出文件，其简单地列出两个序列中所有精确匹配的位置。

2.BCG-CDC.errorgaps-这是gaps文件的经处理的版本。

3.BCG-CDC.align-这是完全注释的文件，其用于定位所有多态性。

使用BCG基因组序列作为参考进行BCG-H37Rv和BCG-CDC1551的逐对比对。比对的结果鉴定了三类多态性：

1.SNPs-比对的一个或多个序列中的单个核苷酸多态性。

2.indels-比对的序列中一个或多个碱基的插入或者缺失。

3.长多态性区-在比对的序列中具有很多改变的区域。

向数据库插入完整基因组的注解

通过运行下面的脚本向数据库中包括从genbank或EMBL下载的基因注解

$/work/mtb/scripts annot.pl--seq＝[filename]--dbname＝[NAME]--user＝[NAME]--password＝[PASS]

文件名指出genbank或者EMBL基因注解文件。

向DB中插入数据

为了向DB中插入CDC1551 SNP，运行下面的命令：

$ perl/work/mtb/scripts/snp-insert.pl--snp＝../mummer/BCG-CDC.snp--user＝[NAME]--password＝[PASS]--query_acc＝NC_002755

为了向DB中插入H37Rv SNP，运行下面的命令：

$ perl/work/mtb/scripts/snp-insert.pl--snp＝../mummer/BCG-H37.snp--user＝[NAME]--password＝[PASS]--query_acc＝NC_000962

为了确定SNP是同义的还是非同义的，首先确定它们在可读框内还是框外。取出在ORF内的所有SNP并确定含有SNP的密码子的氨基酸。

为了确定BCG位置是否在ORF内，运行下面的命令：

$ perl/work/mtb/scripts/snp-orf-ref.pl--ref_seq＝../seqs/bovis.fasta--user＝[NAME]--password＝[PASS]

ORF内的所有BCG位置必须确定它们的氨基酸。为此，运行下面的命令：

$ perl/work/mtb/scripts/ref-aa.pl--ref_seq＝../seqs/bovis.fasta--user＝[NAME]--password＝[PASS]

接着，对H37Rv和CDC1551位置作图。为了分配CDC1551 ORF，运行下面的命令：

$ perl/work/mtb/scripts/snp-orf2.pl--query_seq＝../seqs/CDC1551.fasta--user＝[NAME]--password＝[PASS]

为了分配H37Rv ORF，运行下面的命令：

$ perl scripts/snp-orf2.pl--query_seq＝../seqs/H37Rv.fasta--user＝[NAME]--password＝[PASS]

为了确定CDC1551 SNP是同义还是反义，运行下面的命令：

$ cd/work/mtb/scripts$ perl s/work/mtb/scripts/synomous.pl--bcg_file＝../seqs/bovis.fasta--query_seq＝../seqs/CDC1551.fasta--user＝[NAME]--password＝[PASS]

为了确定H37Rv SNP是同义还是反义，运行下面的命令：

$ cd/work/mtb/scripts$ perl/work/mtb/scripts/synomous.pl--bcg_file＝../seqs/bovis.fasta--bcg_file＝../seqs/H37Rv.fasta--user＝[NAME]--password＝[PASS]

一组总结列(a set of summary columns)用于将所有SNP数据集合在一个位置。为此，运行下面的命令：

$ perl/work/mtb/scripts/compare-snps.pl--user＝[NAME]--password＝[PASS]

为了将数据插入到SNP分析表格，取得来自SNP、SEQ_SNP和基因本体论表格的SNP数据并插入到SNP_分析表。该步骤还鉴定了保守和非保守氨基酸。

为此，运行下面的程序：

$ run.sh/work/mtb/scripts/

从而完成了数据库中的SNP数据。

SNP的分析

所鉴定的SNP为两类：

i.在CDC1551和H37Rv中相同的核苷酸，但是在BCG中相同位置上不同的核苷酸。

ii.三个序列之一是多态性的；CDC1551和H37Rv的核苷酸序列相互不同并且它们之一与BCG序列在相同位置上相同。

所鉴定的SNP根据它们在可读框中的位置分类。鉴定了落入BCG和H37Rv的ORF内的SNP。通过确定BCG和CDC1551的ORF中是否存在SNP来验证结果。

落入ORF中的SNP进一步分类成同义的和不同义的SNP。如果发生下列情形则说SNP导致非同义改变：

1)它在ORF中发生；

2)它在被比较的基因组中^＊相同^＊ORF中发生。

在一些情况中，SNP可以在参考序列中的一种ORF中，但是在比较序列中的另一ORF中，例如，由于序列中较早的移码突变。因此在我们将SNP分配到“非同义”或者“同义”组之前，除去没有落入ORF中，或者落入参考序列和比较序列上的不同ORF中的所有SNP。BCG和H37基因组已经相互注解。然而，CDC1551还没有如此充分注解，因此不可能立即评估BCG中的ORF是否是CDC中对应的ORF。因此，设计度量来消除假的比较。

对所鉴定的非同义SNP进行分析以预测保守的和非保守的氨基酸替代。预测所述替代对编码的蛋白质的功能的影响。这提供了与结核分枝杆菌中毒性和感染性相关的SNP的预测中有力的洞察(insight)。

下面是从数据库得到的输出的实例。

上面的图描述了SNP细节，其如下；

·Bovis_pos-具有SNP的Bovis位置。

·Bovis_ORF-Yes表示bovis中的SNP位于bovis ORF中。No表示不在ORF中。

·Bovis_base-指出关于bovis中的SNP位置的SNP。

·Bovis_AA-显示了密码子翻译后的bovis氨基酸。

·Qry_name-显示了菌株名称，例如H37Rv或microtii。

·Qry_pos-显示了CDC1551或H37Rv中关于bovis SNP位置的SNP的位置。

·Qry_ORF-如果SNP落入查询(H37Rv或CDC1551)的ORF中，则显示Yes。

·Qry_base-显示查询SNP。

·Qry_AA-显示查询(H37Rv或CDC1551)的氨基酸。

·Is_nsSNP-显示同义(S)、非同义(NS)SNP和非编码区(NC)中的SNP。

·Conservative_subst-显示了H37rv和CDC1551中的同源替代。

·Fun_annotation-将显示查询的功能注解。

在表1中给出了以上述方式鉴定的单核苷酸多态性的列表。

在三种基因组中已经鉴定了总共1829个。这其中，1825个在H37Rv和CDC1551中具有相同的核苷酸，在BCG中具有不同的核苷酸。这1829个SNP中，1579个在ORF中，而剩余的(246个)在非编码区中。811个H37Rv SNP和810个CDC1551 SNP为同义的，而1282个H37Rv和1219个CDC1551 SNP为非同义的。1219个CDC1551 nsSNP中，312个SNP具有保守氨基酸替代，888个具有非保守替代，并且19个导致截短的蛋白质。1282个H37Rv非同义SNP中，304个具有保守氨基酸替代，954个具有非保守替代并且24个导致截短的蛋白质(图2)。

Indels(插入和缺失)的分析

Indels是序列中相对于BCG序列的插入和缺失。这些indels可以是一个或多个核苷酸的插入和缺失。考虑BCG作为参考序列，鉴定了结核分枝杆菌的两个菌株H37rv和CDC1551中的indels。

为了将来自mummer输出的.align文件的indels插入数据库，运行下面的java程序：

$ java/work/mtb/scripts/indel

为了将来自基因本体论数据库(gene ontology database)的功能注解输入indels表格，运行下面的程序：

$ java/work/mtb/scripts/indfunction

所鉴定的indels的列表在表2中给出。

在三个基因组中已经鉴定了总共794个indels。这其中，237(H37Rv)和237(CDC1551)个indels相对于BCG存在于H37Rv和CDC1551两者中。这其中，178个在ORF内，59个在ORF外(图2)。

长多态性的分析：

长多态性是就BCG序列而论，长核苷酸节段的插入或者缺失。

为了将来自mummer输出的.align文件的长多态性插入到数据库，运行下面的java程序：

$ java/work/mtb/scripts/indel

为了将来自基因本体论数据库的功能注解输入长多态性表格，运行下面的java程序：

$ java/work/mtb/scripts/indfunction

在表3中给出了列出长多态性的表格。

在三个基因组中已经鉴定了总共136个长多态性。其中，相对于BCG，在H37Rv和CDC155都存在30(H37Rv)和30(CDC1551)个indels。其中，22个在ORF中，8个在ORF外(图3)。

所鉴定的多态性的功能注解

为了鉴定具有推定的功能关联的多态性，使用Gene Ontology DB(GO)来构建工具。EMBL序列DB已经对三个TB基因组中多数ORF进行了推定的GO分配，从而将GO的局部设置与EMBL交叉参考表一起使用来基于它们的推定的功能分类鉴定TB多态性。

构建了注解表，其由基因的genbank特征(如编码区)、数据库参考和产物信息等等组成。

为了将基因本体论特征，如术语定义和来自基因本体论数据库的名称插入到indels和长多态性表中，运行下面的程序：

$ java/work/mtb/scripts/indfunction1

下面是注解表中的属性列表。

Accession no-这表示序列的登记号；

Gene_start-这表示编码区的起始；

Gene_end-这表示编码区的结束；

Locus_tag-

db_xref-这表示基因的基因索引(gene indices representation)；

db_xref_GOA-这表示基因产物的基因本体论身份；

id-这表示基因注解；

type-

strand-这表示存储在genbank中的序列的正向或者反向链；

gene_name-这表示基因名称；

gene_link-这提供了来自genbank的基因特征的超链接；

note-这提供了基因的一般信息和蛋白质信息。

构建前端作为数据库的必要部分：

数据库的前端：

显示比对结果的前端(front-end)如下：

注解表由bovis、H37Rv和CDC1551中的基因的genbank注解组成。它指出了细节，包括基因的编码区和其数据库参考。

SNP、indels和长多态性的注解id已经被超链接以得到关于特定基因的所有记录。

涉及indels和长多态性的数据也已经加入到前端。

查询描述：

使得数据库可以查询以分别找到SNP、indels和长多态性的所需特征。

查询SNP信息的主要选项为：

选择SNPs

·ALL-这展示了满足下面特征的所有记录。

·Identical in both queries-该查询指出相对于H37Rv和CDC1551，SNP存在于BCG中。

·Different bases in both queries-该查询指出H37Rv和CDC1551中不同的核苷酸。

·Having SNPs in BCG-H37 only-该查询指出仅在BCG和H37Rv中并且不在CDC1551中的SNP。

·Having SNPs in BCG-CDC only-该查询指出仅在BCG和CDC1551中并且不在H37Rv中的SNP。

·BCG-H37 SNPs-该查询指出关于BCG位置SNP存在于H37Rv中并且可能存在或可能不存在于CDC1551中的该特定位置中。

·BCG-CDC SNPs-该查询指出关于BCG位置SNP存在于CDC1551中并且可能存在或可能不存在于H37Rv中的该特定位置中。

所考虑的其他选项为：

·Select BCG ORF-这提供了选择在BCG ORF内或者BCG ORF外BCG SNP的存在的选项。

·Select query ORF-这提供了选择在查询ORF之内或者查询ORF之外查询SNP的存在的选项。

·Select synonymous-这提供了选项以选择SNP是同义还是非同义的。

·Select Conservative-这提供了选项来选择非同义SNP导致保守、非保守替代还是截短的蛋白质。

·Select function-这提供了选项来选择所需功能，其包括细胞壁合成、转录因子、脂类代谢、膜转运和表面蛋白。

下面显示了从数据库提取SNP信息的查询的实例。

下面显示了从上面的查询得到的结果：

已经为indels和长多态性以类似方式设计了查询。

SNP分析包括功能注解id，其被超链接到携带多态性的基因的功能注解。功能注解id由Swiss Prot、SPTREMBL或者基因本体论id之一组成。类似地，已经功能注解了indels和长多态性。

还可以分别从SNP数据库查询或者从长多态性数据库查询获得已知与结核分枝杆菌的毒性有关的基因。

已经鉴定了涉及下列功能的多态性：

1.细胞壁合成

2.转录因子

3.脂类代谢

4.膜转运

5.表面蛋白

6.毒性基因

下面显示了细胞壁合成功能的一种此类查询。

下面显示了上面查询的输出。

在表4中列出了涉及细胞壁合成的基因中检测到的多态性。

可视化工具

为了增加SNP数据的效用，已经产生了用于可视化分枝杆菌SNP数据的两种工具：第一种工具是基于在Cold Spring Harbor Lab(CSHL)开发的通用基因组浏览器(Generic Genome Browser)。该可视化工具可以显示单个TB基因组以及任何注解，例如所有其他基因组的SNP位置。

浏览器的细节如下：

·输出显示了目的区中的多态性。

·备选地，可以通过指定文本框中标记为“landmark or region”的目的区来获得输出。对于SNP的情况，基因起始和基因结束必须指定，对于indels或者长多态性，必须指定BCG起始和BCG结束。

·通过点击跨基因组的目的区中的标尺，可以将视图再次定中心位置。

·通过在下拉菜单中选择所需的碱基对数目，可以放大或者缩小显示。

通过选择图4所示的tracks checkbox中的选项可以显示所需的特征。

图4显示了BCG基因组的10kb区，其具有三种类型的注解：BCGORF、H37Rv中的SNP和CDC1551中的SNP。

为了比较多个基因组，构建了基于WormBase同线性浏览器的第二种工具。该工具可以一次可视化两个TB基因组并且对于验证如图5中所示的CDC1551基因组的多态性非常有用。

图5显示了比较基因组学浏览器，其在上方栏显示BCG，在底部栏显示H37Rv。标记MUM-^＊的区段是通过MUMmer工具产生的完全匹配，垂直线显示了两个基因组中MUM区段的比对。ORF的色码用于指出ORF的长度。这对于研究人员非常有帮助，因为如果H37中的ORF与BCG中的ORF对齐，但是它们具有不同的颜色，那么就存在使得它们具有不同长度的突变(见例如，MUM-1280区中的基因)。

正在进行具有已知疾病谱的临床分离物中上面鉴定的所有多态性区域的方法筛选，以进一步追踪与结核分枝杆菌的毒性和/或感染性有关的多态性。

2.多态性区域的筛选

正在对具有已知毒性的一组5种结核分枝杆菌菌株筛选上面鉴定的多态性。

所选的菌株：已经选择了下面的菌株用于研究：

a.H37Rv-一种参考实验室菌株，已知其感染小鼠，但是在人体内仅有轻微感染性。它自从分离出来以后已经在实验室中经历了许多传代。它是在世界上不同实验室的结核病研究中使用的标准品。

b.Beijing菌株-在人体具有已知的毒性和感染性的临床分离物。在印度和中国的某些地区70％的结核病患者感染该菌株。该菌株从Mumbai的Western Indian州的患者分离。

c.S.I-从居住在Hyderabad的South Indian州的患者分离的在人体仅具有轻微毒性和感染性的温和South Indian菌株。

d.N.I.F-从Delhi的Safderjung医院分离的致命North Indian菌株，在该医院中患有肺结核的患者死亡。

e.N.I.NF-从Delhi的Safderjung医院分离的非致命North Indian菌株。患者疾病的临床进展已知。

已经设计了引物来包括多态性区域。用于扩增的引物列表在图6.1-6.25中给出。

多态性周围区域的扩增和测序：在为每个引物对确定的最佳条件下扩增来自5种菌株的DNA。所扩增的片段已经测序并且比较从不同菌株得到的序列。

下面给出了一些实例：

从H-590622到H-591026的区域的测序.从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；NINF：非致命North Indian菌株；BS：Beijing菌株；NIF：致命NorthIndian菌株。编码氧化还原酶活性的基因是毒性基因，其在结核分枝杆菌菌株之间不显示出任何差异，但是与牛分枝杆菌BCG具有保守多态性。

从H-138548到H-139067的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株；NIF：致命NorthIndian菌株。在BCG中的插入导致与结核病菌株编码的转录因子相比具有不同羧基末端的较短的蛋白质。

从H-3283171到H-3283585的区域的测序。该区域的特征是两个SNP，一个indel，一个长多态性。从不同菌株扩增序列BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。所有多态性发生在fadD28中，fadD28是涉及脂肪酸合成的一种毒性基因。它们导致非保守替代并且可能在传递到菌株的毒性程度中具有重要作用。

从H-2051784到H-2052209区域的测序。该区域的特征是牛分枝杆菌BCG和结核病菌株之间的SNP以及亚洲菌株和BCG共有但是与H37Rv和CDC1551不同的第二个SNP。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。所有结核病菌株共有的SNP导致PPE33b基因中的保守替代并且不影响该基因的功能。然而，A到G的替代导致BCG编码的蛋白质的截短。

从H-3006917到H-3007246的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；M18：非致命North Indian菌株。该区域包括插入BCG和亚洲菌株中编码内在膜蛋白质的基因之中的106bp的长多态性。这导致与H37Rv和CDC1551相比在这些菌株中更长的内在膜产物。该SNP还导致在H37Rv和CDC1551中引入终止密码子，进一步减小CDC1551编码的膜蛋白的长度。

从H-3247737到H-3248224的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。所有观察到的多态性都在ppsA-聚酮化合物合酶基因中发生并且是同义替代。所有三种亚洲菌株都显示出与BCG在该区域中的同一性。

从H-2052524到H-2052863的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株；NIF：致命NorthIndian菌株。发生在质子转运基因PPE33b中的单核苷酸多态性导致引入终止密码子，从而导致BCG中该蛋白质的截短。

从H-1468644到H-1469150的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。在所有结核病菌株中，在具有DNA结合活性的一个基因-Mb1346c中看到47bp的插入。还看到第二个多态性(SNP)，其与相同基因中的插入紧邻。该SNP导致该基因分裂成两个基因，而在结核分枝杆菌菌株中有一个长基因。

从H-455094到H-455468的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。该区域的特征是在转录调节子中出现两个indels和两个SNP。所有结核病菌株在该区域中看起来相同，而BCG在该区域中具有不同的氨基酸序列。

从H-466229到H-466536的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。NIF：致命NorthIndian菌株。C到T的转换发生在未知功能的基因中并且导致同义替代。然而，C到A的改变发生在转录因子(Mb0393)中并且是非保守替代，导致BCG中稍微不同的蛋白质。

H-560625到H-561248的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。NIF：致命NorthIndian菌株。同义SNP在毒性基因中发生并且在所有结核病菌株中相同。

从H-2046394到H-2046928的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。NIF：致命NorthIndian菌株。BCG中的SNP导致将基因PE-PGRS32分裂成两个部分，后者被截短。

从H-1373629到H-1374101的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。NIF：致命NorthIndian菌株。所观察到的两个多态性在转录因子中发生并且导致非保守替代。

从H-1622821到H-1623282的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。NIF：NorthIndian Fatal。所观察到的多态性在ORF外的非编码区中发生。

从H-2295752到H-2296046的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。所观察到的多态性在pks12基因中发生并且导致非保守替代。

从H-3086111到H-3086539的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。在H37Rv中见到的SNP在非编码区中发生而BCG中的缺失导致转录调节蛋白的截短。

从H-2295062到H-2295633的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；A2313：South Indian strainA2313；BS：Beijing菌株；NINF：非致命North Indian菌株。NIF：North Indian Fatal。所观察到的SNP在pks12基因中发生并且导致非保守替代。

从H-162341到H-162761的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。BCG中的缺失在对应于具有推定的酶活性的基因的区域中发生并且导致BCG中功能的丧失。

从H-1478664到H-1479140的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。NIF：NorthIndian Fatal。第一个T到C转换导致BCG中细菌调节蛋白质的截短。

从H-2296260到H-2296692的区域的测序。从不同菌株扩增序列。BCG：牛分枝杆菌BCG；H37Rv：来自NCBI数据库的结核分枝杆菌菌株H37Rv序列；CDC：CDC1551；S.I：South Indian菌株A2313；BS：Beijing菌株；NINF：非致命North Indian菌株。NIF：NorthIndian Fatal菌株。在pks12中观察到长多态性但是没有改变聚酮化合物合酶的活性。

对总共2755个多态性，包括ORF中的1779个多态性和ORF外区域中的313个多态性，筛选与结核病中的毒性和/或感染性的关联。用于确定多态性与毒性和感染性的程度之关联的多组分分析正在进行中。组成一组毒性标记的多态性进一步在结核病的120个临床分离物中进行验证。

所鉴定的毒性因子可以用作：

i.诊断标记，用于预测疾病和其在患者中的进展。

ii.药物靶标，用于开发TB的新的有效治疗。

iii.DNA疫苗中的候选基因/序列。

iv.用于开发siRNA技术以抵抗结核病。

Claims

1.具有SEQ ID nos 1到2531的核苷酸序列，其用于诊断、菌株鉴定、对菌株分型和对所有感染性疾病的毒性、感染性和/或潜伏期的潜在程度给出指导。

2.如权利要求1所述的具有SEQ ID nos 1到2531的核苷酸序列，其用于诊断、菌株鉴定、对菌株分型和对所有分枝杆菌菌株的毒性、感染性和/或潜伏期的潜在程度给出指导。

3.权利要求1或者2的核苷酸序列，其中所述序列是具有SEQ IDNos.1到1829的单核苷酸多态性。

4.权利要求1或者2的核苷酸序列，其中所述序列是具有SEQ IDNos.1830到2286的插入/缺失(indel)。

5.权利要求1或者2的核苷酸序列，其中所述序列是具有SEQ IDNo 2287到2531的长多态性的区域。

6.引物序列，其用于扩增多态性SEQ ID nos 1到2531周围的区域。

7.如权利要求1所述的SEQ ID nos 1到2531的多态性任一边侧翼至35个核苷酸长的核苷酸序列，其用于试剂和诊断、药物开发、RNAi、基因治疗和其他此类技术中。

8.包含具有SEQ ID nos 1到2531的核苷酸序列的序列的用途，其用作使用生物信息学和其他工具进行的药物设计、药物开发、基因治疗和疫苗开发的靶标。

9.包含如权利要求3所述的具有SEQ ID Nos 1到1829的单核苷酸多态性的序列的用途，用作使用生物信息学和其他工具进行的药物设计、药物开发、基因治疗和疫苗开发的靶标。

10.包含如权利要求4所述的具有SEQ ID Nos.1830到2286的插入/缺失(indel)的序列的用途，用作使用生物信息学和其他工具进行的药物设计、药物开发、基因治疗和疫苗开发的靶标。

11.如权利要求5所述的具有SEQ ID Nos.2287到2581的长多态性区域的用途，用作使用生物信息学和其他工具进行的药物设计、药物开发、基因治疗和疫苗开发的靶标。

12.携带如权利要求1所述的具有SEQ ID NOs.1到2531的多态性的区域编码的蛋白质、RNA、DNA和代谢物的用途，用于使用生物信息学和其他工具进行的药物设计、有效针对包括结核病在内的感染性疾病的药物的开发。

13.携带如权利要求1所述的具有SEQ ID NOs.1到2531的多态性的区域编码的蛋白质、RNA、DNA和代谢物的用途，用于开发针对包括结核病在内的感染性疾病的疫苗。

14.携带如权利要求1所述的具有SEQ ID NOs.1到2531的多态性的区域编码的蛋白质、RNA、DNA和代谢物的用途，用于RNAi技术和反义技术。

15.产生和开发用于鉴定和选择如权利要求1所述的具有SEQ IDNOs.1到2531的多态性的数据库的方法。

16.如权利要求15所述的方法，其中用如本文描述的算法产生所述数据库。

17.如权利要求15所述的数据库的用途，用于鉴定生物间的多态性。

18.具有如权利要求1所述的SEQ ID nos 1到2531的诊断试剂盒，其用于诊断、鉴定菌株、对菌株分型和对所有感染性疾病的毒性、感染性和/或潜伏期的潜在程度给出指导。

19.如权利要求19所述的诊断试剂盒，其具有如权利要求1所述的SEQ ID nos 1到2531，用于诊断、鉴定菌株、对菌株分型和对分枝杆菌的所有菌株的毒性、感染性和/或潜伏期的潜在程度给出指导。

20.如权利要求19所述的诊断试剂盒，其中所述序列是如权利要求3所述的具有SEQ ID Nos.1到1829的单核苷酸多态性。

21.如权利要求19所述的诊断试剂盒，其中所述序列是如权利要求4所述的具有SEQ ID Nos.1830到2286的插入/缺失(indel)。

22.如权利要求19所述的诊断试剂盒，其中所述序列是如权利要求5所述的具有SEQ ID No2287到2531的长多态性的区域。

23.如权利要求1所述的具有SEQ ID nos 1到2531的核苷酸序列的用途，用作用于鉴定包括分枝杆菌在内的感染性疾病的菌株的测定法中的探针。

24.如权利要求23所述的用途，其中所述序列是具有SEQ IDNos.1到1829的单核苷酸多态性。

25.如权利要求23所述的用途，其中所述序列是具有SEQ ID Nos.1830到2286的插入/缺失(indel)。

26.如权利要求24所述的用途，其中所述序列是具有SEQ ID No2287到2531的长多态性区域。