CN1271015A

CN1271015A - 马传染性贫血病毒驴白细胞弱毒疫苗株的全长基因序列

Info

Publication number: CN1271015A
Application number: CN99105852.6A
Authority: CN
Inventors: 邵一鸣; 沈荣显; 陈刚; 于康震; 潘品良; 贾斌; 冯毅; 薛飞; 相文华; 范秀娟; 吕晓玲
Original assignee: AIDS PREVENTION AND CONTROL CONTRE MINISTRY OF PUBLIC HEALTH; Harbin Veterinary Research Institute of CAAS
Current assignee: AIDS PREVENTION AND CONTROL CONTRE MINISTRY OF PUBLIC HEALTH; Harbin Veterinary Research Institute of CAAS
Priority date: 1999-04-21
Filing date: 1999-04-21
Publication date: 2000-10-25
Anticipated expiration: 2019-04-21
Also published as: CN1173036C; US6987020B1; EP1174507B1; EP1174507A4; AU3955400A; ATE368117T1; DE60035680T2; DE60035680D1; ES2288848T3; WO2000063387A1; EP1174507A1

Abstract

本发明提供了马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗株含有8258个碱基的前病毒DNA全长基因序列及其结构,其所编码的全部蛋白质的基因序列和氨基酸序列和蛋白质的二级结构,以及该疫苗毒株的调控序列和非必需区序列。这些序列和结构的数据可应用于包括艾滋病毒在内的所有慢病毒属病毒的疫苗研制和使用该属病毒作为载体进行的基因治疗,还可应用于对EIAV的血清学及分子生物学诊断方法及其所需试剂的研制。

Description

马传染性贫血病毒驴白细胞弱毒疫苗株的全长基因序列

本发明属于病毒学和分子生物学专业领域，涉及对一种慢病毒疫苗株的全长基因序列的发现，确切地说是阐明我国成功研制的用于控制马传染性贫血病的减毒活疫苗毒株的全基因结构和序列、其编码蛋白质的序列以及它们的应用范围。

马传染性贫血病毒(Equine Infectious Anemia Virus，EIAV)是引起马属动物发生传染性贫血症病原体，对畜牧业具有巨大危害，是兽医界颇受重视的病原体之一。EIAV属逆转录病毒科慢病毒属(lentivirus)，与同属于慢病毒属的人类免疫缺陷病毒(Human ImmunodificiencvVirus，HIV)在基因组结构，基因编码蛋白以及基因调控方式等方面有许多相似之处(J.M.Coffin，The Structure And Classification of Retroviruses，in：TheRetroviridae，Vol.1，p19，edited by J.A.Levy，Plenum press)。由于EIAV是最早发现的动物病毒之一和最先发现的慢病毒，其基因高度变异引起慢性迁延性的疾病和自身免疫性病理，从而成为研究慢病毒感染、免疫病理、病毒酶功能以及免疫保护机理的重要动物模型(R.C.Montelaro et，al Equine Retroviruses，In：vol.2，P.257)。

我国自六十年代起投入巨资对该病毒的生物学性状进行了研究，分离并培育出与国外EIAV毒株有明显生物学差异的强毒株并进行了体外驴白细胞传代。经过多年努力，逐步驯化了该病毒并使之成为无致病力，但可以使动物在接种之后产生免疫保护的疫苗株。该疫苗株自1976年开始生产，1978年在全国大规模应用(沈荣显等，马传染性贫血免疫的研究。中国农业科学，第4期P1-15，1979)。至今已接种7000万匹次的马、骡、驴，完全控制了该病在我国的流行。

对病毒基因组的研究是在70年代分子生物学技术发展并得到广泛应用之后才兴起的。现在GenBank中已发表的马传染性贫血病毒的基因组序列均来源于美国强毒株(Wyoming株)和日本强毒株(Goshun株)，以及由它们衍生得到的细胞培养适应株的基因序列。然而这些毒株均不是疫苗毒株。我国研制成功的EIAV弱毒疫苗至今还是目前世界上唯一经过大规模应用、长时间检验而被证明是安全和有效的慢病毒疫苗(R.C.Montelaro，et al.in：Vaccines against Retroviruses，Vol.4，P605，R.C.Montelaro et，al Equine Retroviruses，in：vol.2，P.257)。由于我国的马传染性贫血疫苗毒株是由经典路线制造出的，其基因组序列尚未被阐明。这一方面不能从基因水平上保护我国的EIAV疫苗的知识产权，另一方面也限制了该疫苗模型对其他慢病毒疫苗研制的指导作用。

本发明的任务在于阐明一种能有效保护马属动物免于患马传染性贫血病的EIAV弱毒活疫苗株的全基因的结构和核苷酸序列及由其编码蛋白的结构和氨基酸序列，保护我国自主知识产权。同时经过将EIAV弱毒疫苗基因序列和蛋白结构与EIAV强毒株进行对比，揭示该疫苗毒株在传代过程中毒力减弱的分子机理和其诱导保护性免疫的组分和机理，从而为至今尚未突破的包括HIV在内的其他慢病毒疫苗的研究提供重要的参考。该发明可直接指导艾滋病疫苗和其它慢病毒疫苗的研制，进一步研究该疫苗毒株及其各主要基因和所编码的蛋白质可分别用于EIAV疫苗株和EIAV强毒株的核酸鉴别诊断和血清学鉴别诊断试剂的研制，并且用其构建的载体还可用于基因治疗。

本发明是通过以下技术手段实现的：首先用PCR方法扩增EIAV疫苗株的基因，分别克隆到质粒载体中再进行DNA序列的分析，得到该病毒的全长基因序列。

经传统生物学手段研制的EIAV驴白细胞弱毒疫苗毒株(第125代)，来源于农业部授权该毒种保存单位中国农业科学院哈尔滨兽医研究所马传染性贫血研究室。该疫苗毒株在体外驴白细胞复制过程中以前病毒DNA的形式整合到驴白细胞的染色体上，本发明取此前病毒DNA作为扩增病毒基因的材料。本发明首先利用基因组DNA提取试剂盒从病毒感染的驴白细胞中提取染色体DNA，并以此为模板用PCR方法扩增EIAV疫苗毒株的前病毒DNA。扩增引物的设计是根据国际EIAV强毒株序列，先用其各区段EIAV基因进行预扩增。经过多次摸索，并根据对得到的扩增片段进行测序中获得的EIAV疫苗株的部分序列资料，设计出EIAV疫苗弱毒株特异性引物，分段扩增病毒基因并克隆到质粒载体上，进而对全部基因进行克隆和序列测定，获得了病毒基因组全长序列(见说明书附图1)和其主要结构基因(gag基因，pol基因和env基因)及主要调控基因(5’LTR，3’LTR，rev基因，S2基因，tat基因等)的序列(分别见说明书附图4，6，8，2，3，12，14，10)。

利用GCG软件对全长基因序列的开放读码框架进行分析，得到各个结构基因及调控基因所编码的蛋白质的氨基酸序列(详细序列分别见说明书附图5，7，9，11，13，15)。各基因在全长基因序列中的组合方式以及它们的相对位置见说明书附图1，各基因在全长基因序列中的具体位置见说明书附图17。

将得到的疫苗株序列与GenBank所发表的国际标准株序列(Wyoming株，GeneBankAccession Number：AF028232)进行核苷酸和氨基酸同源性的比较，结果发现，各基因与国外标准野毒株的核苷酸同源性在73.46-90.06％之间，其中env基因、rev基因和S2基因与国际标准株的差异较大，同源性分别为73.46％，73.54％和75.76％。氨基酸序列与国际标准株相应序列的同源性比较结果发现，外膜蛋白(Env蛋白)及Rev蛋白和S2蛋白的变异均较大，氨基酸同源性分别为67.41％，64.85％和54.54％(详见说明书附图18)。

另外，还利用GCG软件对该疫苗株各结构基因和调控基因所编码蛋白质的二级结构进行预测，分析结果见说明附图19，20，21，22，22，23，24。疫苗株Env和Tat蛋白二级结构与国外标准株的相应蛋白的二级结构的比较发现有显著差异(见说明书附图25，26)。马传贫驴白细胞疫苗株的Env蛋白与国外标准强毒株(AF028232)的Env蛋白在多个区域的α螺旋、β片层和转角等结构都有不同，其中转角结构的数量和位置的不同，可能是导致了两者间二级结构有明显差异的主要原因。马传贫驴白细胞疫苗株的Tat蛋白的二级结构图羧基端有一明显的疏水基团(菱形框所示)，其临近区域为β片层结构并形成较集中的亲水基团，其氨基端有四个转角结构；国外标准强毒株(AF028232)的Tat蛋白的二级结构图的羧基端无疏水基团，其临近区域为松散的无规则卷曲结构，并有两个独立的亲水基团，其氨基端有丰富的转角结构。

通过对氨基酸序列分析发现，马传贫疫苗株的Env蛋白包含19个潜在的糖基化位点，国外标准强毒株(AF028232)的Env蛋白包含23个潜在的糖基化位点，各个位点的位置见见说明书附图27。

通过对各个基因编码的蛋白组成及等电点(PI)进行分析，得到各个蛋白的分子量和等电点，具体数据见说明书附图28。

本发明是在国内外首次阐明我国研制的EIAV弱毒疫苗株的全基因序列，将从基因水平上提供对我国自主研制的该疫苗的知识产权保护。鉴于我国的EIAV弱毒疫苗是目前世界上唯一经受过长时间和大规模现场应用验证的安全而有效的慢病毒疫苗，本发明阐明的该疫苗弱毒株全基因序列和结构的特征、各结构基因和调控基因的特征及其编码的蛋白质的特征和功能将为其他慢病毒疫苗的研制提供重要的指导，并将大大推动这些疫苗研究的进程。当前艾滋病毒(HIV)疫苗的研究正处于进退两难之中，一方面现有各类基因工程HIV疫苗均未显示明显有效的迹象，而另一方面显示出一定保护作用的HIV弱毒活疫苗又因不安全而无法推进(邵一鸣，艾滋病疫苗研究现状及其发展方向，中国科学发展报告，1999，94-101，科学出版社)。历史上在人及动物最有效的疫苗都是弱毒活疫苗(R.C.Montelaro，eta1.in：Vaccines against Retroviruses，Vol.4，P605，)。由于HIV和EIAV均属慢病毒，其基因结构和编码蛋白的功能均很相似，因而EIAV弱毒疫苗的成功经验为艾滋病毒弱毒疫苗的研制提供了很好的借鉴。本发明使得这种对HIV疫苗具有重要意义的借鉴由可能变为现实。该发明除可直接指导艾滋病疫苗和其它慢病毒疫苗的研制外，通过进一步研究该疫苗毒株及其各主要基因和所编码的蛋白质可分别用于对EIAV疫苗株和强毒株的核酸诊断和血清学诊断。使用EIAV弱毒疫苗株构建携带外源基因的载体还有望用于基因治疗。

以下实施例对于本发明马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗全长基因序列的应用进行详细的说明，但不意味着限制本发明的内容。

实施例1马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗全长基因结构及序列分析可用于阐明该疫苗毒株的致弱机制和诱导保护性免疫的机理

将EIAV弱毒疫苗全长基因序列与国外EIAV强毒株、中国EIAV强毒株及部分致弱株的序列进行比较，从基因和蛋白水平来阐明强弱毒株之间在结构和功能上的差异，从中确定与EIAV的致病性和免疫原性相关的基因及其蛋白的组分或基因及蛋白的调控机制，最终阐明EIAV驴白细胞弱毒疫苗毒力致弱和诱导保护性免疫的基因和蛋白结构及其调控的机理，还可为研究逆转录病毒的基因调控和基因功能提供重要的理论基础。实施例2马传染性贫血病毒驴白细胞弱毒疫苗全长基因结构和序列可用于艾滋病毒(HIV)

及其他慢病毒减毒活疫苗的构建。

根据实施例1的设计方案，参照马传染性贫血病毒弱毒疫苗的致弱和免疫保护机制对艾滋病毒(HIV)及其它已发现的动物慢病毒，包括猴免疫缺损病毒(Simian ImmunodeficiencyVirus，SIV)、猫免疫缺损病毒(Feline Immunodeficiency Virus，FIV)、牛免疫缺损病毒(BovineImmunodeficiency Virus，BIV)、维斯纳慢病毒(Visna Lentivirus)、和山羊关节炎脑炎病毒(Caprine Arthritis-Encephalitis Virus，CAEV)进行基因改造，从而构建相应的减毒活疫苗，进行实验室和临床研究。实施例3马传染性贫血病毒驴白细胞弱毒疫苗全长基因结构及序列和其编码蛋白的氨基酸及其二、三级结构分析可用于艾滋病毒(HIV)及其他慢病毒基因工程疫苗的构建。

根据实施例1的设计方案，将艾滋病毒(HIV)及其他慢病毒(SIV、FIV、BIV、Visna和CAEV等)的基因组避免或去除与毒力有关的基因，或根据基因序列及蛋白二级结构分析结果(图25、26、27)对有关蛋白进行结构改造，将能诱导保护性免疫的蛋白的基因分别克隆到各类表达载体中，构建成各种形式(多肽、亚单位、病毒样颗粒和活载体等)的基因工程疫苗，进行实验室和临床研究。实施例4马传染性贫血病毒驴白细胞弱毒疫苗全长基因序列及其编码的蛋白质的氨基酸

序列可用于构建基因重组抗原，用于马传染性贫血病毒感染的血清学诊断。

根据马传染性贫血病毒疫苗株全基因序列及其编码的氨基酸序列分析的研究结果，可以分别选取包含主要抗原表位的基因，构建原核和真核表达载体，在大肠杆菌或真核细胞中表达EIAV蛋白，经层析方法纯化后可用于血清学诊断和制备诊断试剂。实施例5马传染性贫血病毒驴白细胞弱毒疫苗全长基因序列可用于马传染性贫血病毒疫苗

株和野毒株感染的PCR鉴别诊断。

根据实施例2的研究结果，选择EIAV野毒株和疫苗株的基因序列差异最大的区域设计PCR引物，根据PCR扩增产物的差异来对强弱毒株的感染进行鉴别诊断。实施例6马传染性贫血病毒驴白细胞弱毒疫苗全长基因序列可用于构建进行基因治疗的

基因转移载体。

利用中国株马传染性贫血病毒疫苗株构建用于基因治疗的基因转移载体。马传染性贫血病毒不能引起人类发病，采用文献报道的方法构建源于该疫苗株的基因转移载体，不但可以克服以往所用的鼠白血病病毒来源的基因转移载体的基因转移效率较低和不能转染未分裂细胞等缺陷，而且有较好的安全保障。实施例8利用GCG软件包对马传染性贫血病毒驴白细胞疫苗株(chb101)的Env、Tat蛋白的二级结构进行预测分析，并与国外强毒株(GenBank Accession Number：AF028232)的Env、Tat蛋白的二级结构进行比较(如图25、图26所示)，可以发现EIAV强毒株与疫苗毒株的蛋白在二级结构水平上有显著差异，其中α螺旋、β片层和转角结构的数量和位置均有不同。强烈提示这种蛋白质高级结构的差异可能是它们功能差异的基础，是基因工程、疫苗的重要候选抗原。根据此原理，也可对艾滋病毒和其他慢病毒的相应蛋白基因进行改造，以研究将其作为疫苗抗原的可能性。

以下为说明书附图的简要说明：图1为马传染性贫血病毒驴白细胞弱毒疫苗株全长基因序列(8258个核苷酸)，5’-3’方向。图2为5’LTR(位于全长基因的第1-325位核苷酸)的全部DNA序列(5’-3’)，包括U3区(核苷酸1-207位)、R区(核苷酸208-285位)和U5区(核苷酸286-325位)，全长325个核苷酸。图3为3’LTR(位于全长基因的第7922-8258位核苷酸)的DNA序列(5’-3’)，包括U3区(核苷酸7922-8140位)、R区(核苷酸8141-8218位)和U5区(核苷酸8219-8258位)，全长337个核苷酸。图4为gag基因(位于全长基因的第466-1926位核苷酸)的全部DNA序列(5’-3’)，全长1461个核苷酸。图5为gag基因编码的氨基酸序列，全长486个核苷酸。图6为pol基因(位于全长基因的第1689-5120位核苷酸)的全部DNA序列(5’-3’)。图7为pol基因编码的氨基酸序列，全长1143个核苷酸。图8为Env基因(位于全长基因的第5313-7904位核苷酸)的全部DNA序列(5’-3’)。图9为env基因编码的氨基酸序列，全长863个核苷酸。图10为tat基因(包括第一外显子位于全长基因的第365-462位核苷酸，第二外显子位于全长基因的第5138-5276位核苷酸)的全部DNA序列(5’-3’)，全长237个核苷酸。图11为tat基因编码的氨基酸序列，全长78个核苷酸。图12为rev基因(包括第一外显子位于全长基因的第5454-5546位核苷酸，第二外显子位于全长基因的第7250-7651位核苷酸)的全部DNA序列(5’-3’)，全长495个核苷酸。图13为rev基因编码的氨基酸序列，全长164个核苷酸。图14为S2基因(位于全长基因的第5287-5493位核苷酸)的全部DNA序列(5’-3’)。图15为S2基因编码的氨基酸序列，全长68个核苷酸。图16为EIAV驴白细胞弱毒疫苗株的基因结构图，图中可见5’LTR，3’LTR，gag，pol，env，S2，rev，tat基因的相对位置和长度。图17为马传染性贫血病毒驴白细胞弱毒疫苗株各功能基因在全长基因序列中的位置。图18为马传染性贫血病毒驴白细胞弱毒疫苗株各功能基因的核苷酸序列及其编码的氨基酸序列与国际标准株(Wyoming株，GeneBank Accession Number：AF028232)相应序列的同源性比较结果图19为马传染性贫血病毒驴白细胞弱毒疫苗株env基因编码蛋白的二级结构示意图，图标1所指多边形框代表亲水基因，图标2所指菱形框代表疏水基因。图20为马传染性贫血病毒驴白细胞弱毒疫苗株gag基因编码蛋白的二级结构示意图，图标1所指多边形框代表亲水基因，图标2所指菱形框代表疏水基因。图21为马传染性贫血病毒驴白细胞弱毒疫苗株pol基因编码蛋白的二级结构示意图，图标1所指多边形框代表亲水基因，图标2所指菱形框代表疏水基因。图22为马传染性贫血病毒驴白细胞弱毒疫苗株rev基因编码蛋白的二级结构示意图，图标1所指多边形框代表亲水基因，图标2所指菱形框代表疏水基因。图23为马传染性贫血病毒驴白细胞弱毒疫苗株tat基因编码蛋白的二级结构示意图，图标1所指多边形框代表亲水基因，图标2所指菱形框代表疏水基因。图24为马传染性贫血病毒驴白细胞弱毒疫苗株S2基因编码蛋白的二级结构示意图，图标1所指多边形框代表亲水基因，图标2所指菱形框代表疏水基因。图25为马传贫驴白细胞疫苗株的Env蛋白与国外强毒株(GenBank Accession Number：AF028232)的Env蛋白的二级结构的比较示意图。图中chb101为疫苗株Env蛋白的二级结构图，af028232为国外强毒Env蛋白的二级结构图。图标1所指多边形框代表亲水基因，图标2所指菱形框代表疏水基因。比较可见二者在多个区域的α螺旋、β片层和转角等结构都有不同，其中转角结构的数量和位置的不同，可能是导致了两者间二级结构有明显差异的主要原因。图26为马传贫驴白细胞疫苗株的Tat蛋白与国外强毒株(GenBank Accession Number：AF028232)的Tat蛋白的二级结构的比较示意图。图中chb101为疫苗株Tat蛋白的二级结构图，af028232为国外强毒株Tat蛋白的二级结构图。二者比较可见chb101的羧基端有一明显的疏水基团(菱形框所示)，其临近区域为β片层结构并形成较集中的亲水基团，其氨基端有四个转角结构；af028232的羧基端无疏水基团，其临近区域为松散的无规则卷曲结构，并有两个独立的亲水基团，其氨基端有丰富的转角结构。图27为马传贫弱毒疫苗株Env蛋白与国外强毒株Env蛋白潜在的糖基化位点图。图中chb101-env为为马传贫弱毒疫苗株Env蛋白的氨基酸序列，28232-env为国外强毒株Env蛋白的氨基酸序列，方框内为潜在的糖基化位点的序列。图28为马传贫弱毒疫苗株各功能蛋白的分子量及等电点的理论值，其中env基因编码的前体蛋白包含19个糖基化位点，完全糖化后分子量视糖基化程度而定，表中所列为未经糖基化的蛋白分子量。

Claims

1.马传染性贫血病毒(Equine Infectious Anemia Virus，EIAV)驴白细胞弱毒疫苗株的全长基因序列，其特征在于该基因由8258个核苷酸组成，5’-3’的序列为：1 TGTGGGGTTT TTATGAGGGG TTTTATAAAT GATTATAAGA GTAAAAAGAA GGGGGCTGAT GCTCTCATAA CCTTGTATAA CCCAAAGGAC TAGCTCATGT 100101 TGCTAGGCAA CTAAACCGCA ATATCCTGTA GTTCCTCTTG CGTTCCGCAT TTGTGACGTT TTAAGTTCCT GTTTTTACAG TATATAAGTG CTTGTATTCT 200201 GACAATTGGG CACTCAGATT CTGCGGTCTG AGTCCCTTCT CTGCTGGGCT AGACTAGCCT TTGTAATAAA TATAATTCTC TGCTAAGTCC CTGTCTCTAG 300301 TTTGTCTTGT TTTCAAGATC TAACAGCTGG CGCCCGAACA GGGACCTGAG GGCGCAGACC CTGCCTGCTG AACCTGGCTG ATCATAGGAT CCCTAGGACA 400401 GCAGAGGAGA ACTTACAGAA GTCTTCTGGA GGTGTTCCTG GCCACAACAC AGGAAGACAG GTAAGATGGG AGACTCTTTG ACATGGAGCA AAGCGCTCAA 500501 GAAGTTAGAG AAGGTGACGG TACAAGGGTC TCAAAAGCTA ACTACTGGTA ACTGTAATTG GGCGCTGAAT TTGGTGGACT TATTCCATGA CACCAATTTT 600601 GGTAAAGAAA AAGACTGGCA ATTAAGGGAC GTCATTCCAT TGTTAGAGGA CGTTTCCCAG ACGTTGTCAG GACAAGAGAG AGAGGCATTT GAAAAAACTT 700701 GGTGGGCAAT AGCTGCCGTT AAGATGGGCT TACAAATTAA TACTGTGAAT GATGCAAAAA CAACATTTTC TATATTAAAA GCCAAGTTTG AAAGAAAGAC 800801 TGCAAATAAT ACCAAAAAGC AGTCTGAGCC CGAGGAAGAA TACCCAATAA TGATTGATGG GGCTGGAAAC AGAAACTTTC GGCCATTAAC ACCCAGAGGA 900901 TATACTACCT GGGTAAATAC TATACAGCAA AACAATCTCT TAAATGAAGC TAGTGTGAAT TTATTTGGTA TTTTATCAGT AGACTGTACT TCTGAGGAAA 10001001 TGAATGCATT TTTGGATGTA GTACCAGGAC AAGCAGGACA AAAACAAGTA CTATTGGATA ATCTTGATAA GATTGCAGAA GAATGGGATC GTAGGCACCC 11001101 GTTGCCAAAT CCTCCATTAG TGGCACCACC ACAAGGGCCT ATTCCCATGA CAGCAAGGTT CATTAGGGGA TTGGGAGTTC CTAGAGAAAG ACAGATGAAA 12001201 CCTGCTTTTG ATCAGTTTAG ACAAACTTAT AGACAATGGA TAATAGAAGC AATGACAGAA GGGATAAAAA TAATGATTGG GAAACCCAAA GCGCAAAATA 13001301 TTAGGCAAGG ACCCAAAGAA CCCTATCCAG AGTTTATAGA CAGATTGCTG TCTCAGATAA AAAGTGAGGG ACATCCGGCT GATATAACTA AATTCCTGAC 14001401 AGACACTTTA ACTATTCAGA ATGCTAATGA TGAATGCAAA AATGCTATGA GACATTTGAG GCCAGAAGAT ACTTTAGAAG AGAAAATGTA TGCATGTAGA 15001501 GATATTGGCA CTATGAGACA AAAAATGGCA TTATTAGCCA AGGCACTTCA AGCAGGATTA GCTGGTCCTA TGAAGGGAGG AATATTTAAA GGGGGACCCT 16001601 TAGGGGCGAA GCAGACATGT TATAATTGTG GAAAACCAGG ACATTTTTCT AGTCAATGTA AAGCACCTAA AATATGTTTT AAGTGCAAAC AGCCAGGACA 17001701 TTTCTCAAAA CAATGTATAA ATGCTCCAAA AAACGGGAAA CAAGGGGCTC AGGGGAGGCC CCAGAAACAA ACTTTCCCTG TGCAGAAGGA GTCAATGAAC 18001801 AAAACACAAA AAGAGGAGAA ACAGCAAGGG ACCTTATATC CAGATTTAAG TCAGATGAAA CAGGAATACA AGATCAAGGA AGAGGAAAAT CAAGAGGATC 19001901 TCAATCTGAA CAGTTTGTGG GAGTAACTTA TAATTTAGAA AAGAGACCAA CTACAATAGT CTTGATTAAT GACACACCCT TAAATGTATT GTTGGACACA 20002001 GGAGCAGACA CATCAGTACT AACTATTGCA CATTGTAATA GGTTAAAGTA TGGAGGAAGA AAATATCAAG GTACAGGTAT TGTTGGGGTT GGAGGTAATG 21002101 TAGAAACATT TTCCACTCCT GTTACAGTGA AAAAGAAAGG AAAACAAATT AAAACTAGAA TGTTAGTAGC AGATATCCCA GTTACTATTT TGGGGCGAGA 22002201 TATTCTTCAA GAATTAGGCG CACAATTACT AATGGCTCAA CTTTCAAAAG AAATAACCCC AAGAGAAATT AAATTAAAAA CAGGCACAGT AGGGCCTAAG 23002301 GTTCCCCAAT GGCCACTTAC TAAAGAGAAG TTGTTAGGTG CTAAAGAAAT AGTCAAAAAA TTGTTGGATG AAGGTAAAAT ATCAGAAGCC AGTGATGATA 24002401 ATCCTTATAA TTCTCCTATA TTTGTAATAA AAAAGAAATC TGGAAAGTGG AGATTATTGC AAGATTTAAG AGAGTTAATT AAGGGTGGTA CAAGTAGAAC 25002501 TGAAATATCC AGAGGATTAC CTCATCCAGG GGGATTAATT AAATGTAATC ATATGACAGT ATTAGATATT GGAGATGCAT ATTTCACTAT ACCATTAGAT 26002601 CCAAAGTTTA GACAATATAC AGCATTTACT GTGCCATCCA TTAATCATCA GGAACCAGAT AAAAGATATG TGTGGAATTG CTTGCCACAA GGTTTTGTGT 27002701 TAAGTCCATA CATATATCAA AAAACATTAC AGGACATATT ACAAGCTTTT AGAGAAAGGC ATCCAGATGT ACAATTATAT CAATATATGG ATGATTTATT 28002801 CATTGGGAGT AATGAATCTA AAAGACAACA TAAGGAACTA GTAGAAGAAT TAAGAGCTAT TCTTTTAGAA AAGGGCTTTG AGACGCCTGG GGATAAATTG 29002901 CAGGAAGAAG CACCCTATAA TTGGCTGGGA TATCAACTTA GTCCAGGCAA TTGGAAAGTA CAAAAGATGC AATTAGAATT GGTAAAAGAG CCAACATTAA 30003001 ATGATGTGCA AAAATCAAAG GGAAATATAA CATGGATGAG CTCAGGGGTT CCTGGATTAA CAGTGAAGCA AATAGCTGCT ACCACTAAAG GTTGCTTAGA 31003101 TTTAAATCAT AAAGGTAGTA GGACCAGAGA AGCCCAAAAA GACTTAGAGG AAATTATTAA AAGTTTCAGA AGCTCAGGAT TCCCATATTA TAACCCAGAA 32003201 GAAGAAGTAA TCTGTGAGAT TGAAATTACT AAAAATTATG AGGCTACTTA TATAATAAAA CAGTCTCAAG GAATAT1GTG GGCAGGAAAG AAAATTATGA 33003301 GGGCTAATAA AGGATGGTCC GCAGCAAAAA ATCTAATGTT ATTGTTACAA CATGTAGCCA CAGAAAGTAT TGTTAGAATT GGAACATGTC CAAAATTTAA 34003401 AGTACCTTTT ACTAAAGAAC AAGTCAAATG GGAAATGGAA AAGGGATGGT ATTATTCATG GCTACCAGAC ATGGTATATT CACATCAAGT TGTTCATGAT 35003501 GATTGGAGAC TGAAATTAGT AGAGCAACCA ACATCTGGTA TAACAATTTA TACTGATGGG GGTAAACAGA ATGAAGAAGG AGTTGCAGCT TATGTGACTA 36003601 GTAATGGGAA AACTAAACAA AAAAGGTTAG GGCCTGTTAC TCATCAAACT GCTGAGAGGA TAGCAATACA AATGGCATTA GAAGATACTG AAGAGACATT 37003701 GGTAAATATA GTAACTGATA GTTACTACTG TTGGAAAAAT ATTACAGAAG GATTAGGGTT AGAAGGACCA GACAGCCCCT GGTGGCCAAT AATTCAAAAT 38003801 ATTAGGGCTA AAGAAATGGT TTATTTTGCT TGGGTACCAG GTCACAAAGG AATATATGGC AATCAATTGG CAGATGAGGC TACTAAAATA ACAGAGGAAA 39003901 TTATGTTAGC ATATCAAGGC ACACAGATTA GGGAAAAAAG AGATGAAGAT GCAGGGTATG ATTTGTGTAT TCCTTATGAC ATAATGATAC CTGTCTCTGA 40004001 GACAAAAGTT ATACCCACAG ATGTAAAAAT ACAGGTACCT CACAAATGTT TTGGATGGGT AACTGGTAAG TCATCAATGG CTAAGCAAGG ATTATTAATC 41004101 AATGGGGGAA TAATTGATGA AGGATACACA GGTGAAATAC AGGTAATTTG TACTAATATT GGAAAGAGTA ACATGAAACT CAGGGAAGGA CAAAAGTTTG 42004201 CACAATTAAT CATATTACAG CATCGATCAA ATGATAAACA AATCTGGGAT GAAAATAAAA CATCTCAAAG GGGAGATAAA GGGTTTGGAA GCACAGGTAT 43004301 ATTTTGGGTA GAGAATATCC AAGAGGCGCA AGATGAACAT GAAAATTGGC ATACATCTCC AAAGATATTG GCAAAAAGAT ATGGGTTACC ATTGACTGTA 44004401 GCTAAACAGA TAACTCAAGA ATGCCCTCAT TGTACTAAAC AAGGATCTGG ACCAGCAGGT TGTGTAATGA GATCTCCTAA TCATTGGCAG GCTGATTGTA 45004501 CACATTTAGA AAACAGGGTA ATAATGACAT TTGTAGAGTC TAATTCAGGA TACATTCATG CTACTCTATT GTCCAAAGAA AATGCCTTGT GTCCTTCATT 46004601 GGCTATTTTG GAATGGGTGA GGTTATTTTC TCCTAAATCT TTACATACAG ACAATGGTAC TAATTTTGTG GCAGAGTCAG TAGCAAATCT GTTGAAATTC 47004701 CTGAAGGTGA CACATACTAC AGGAATACCT TATCACCCAG AGAGCCAAGG CATTGTGGAA AGAGCAAACA GGACATTAAA AGAAAGAATT AAAAGTCATA 48004801 GAGGAAATAC TCAGACACTT GAAGCAGCAT TACAACTTGC TCTCATTACT TGTAACAAAG GGAGGGAAAG TATGGGAGGA CAAACTCCAT GGGAAGTATT 49004901 TATTACTAAT CAGGCTCAAA CAATACATGA AGAACTTTTA TTACAACAAG CACAATCTTC TAAAAAATTT TGTTTTTATA AAATTCCTGG TGAGCATAAT 50005001 TGGAAGGGGC CCACCAGAGT GTTGTGGAAA GGTGATGGAG CAGTAGTGGT CAATGATGAG GAAAAAGGAA TAATTGCTGT GCCTTTAACC AGGACTAAAT 51005101 TATTAATAAG ACCAAATTGA GCATTGTTTC AGGAATCACC ACCAGTCAGC TATCATTGTC AACTGTGTTT CCTGAGATCA TTGGGAATTG ACTACCTTGA 52005201 CAGCTCGCTG AAGAAGAAGA ACAAACAAAG ACAGAAGGCC ATCAGGGAGG AAGACAACCT CAGTATCTTG TTATAAGGTT TGGTGTATGG GATTATTTGG 53005301 TAAAGGGGTA ACATGGTCAG CATTACATTC TATGGGGGTA TCCCAGGGGG AATATCAACC CCTATCACCC AACAAACAGA ATCAACAGAC ACACAGAAAG 54005401 GGGATCATAT GGTATATCAA CCCTATTGTT ATAATGATAG CCATAAAGAA GAAATGGCAG AGACAAGAGA CACAAGATAC CAAGAAGAAA TGAACCGGAA 55005501 AGAAGATAAA GAAGATAAAA GAAAGAATAA CTGGTGGAAG ATAGGTATGT TCTTATTGTG TCTGTTAGAG ATCACTGGAG GATTCCTCTG GTGGTATGAG 56005601 AGGCAACAAC ATTCATATTA TATAAGATTG GTTACAATAG GAGGTAGACT GAATGGTTCA GGAATGACTA GTGCCATAAA ATGTTGGGGT TCATTTCCTG 57005701 GGTGTAGGCC ATTTACTAAC TATTTCAGTT ATGAGACTAA TAGGACTGTT AGTAGAGATA ATAATACTGC TACTCTGTTA GATACTTATC AAAGAGAAAT 58005801 AACAAACATA TACAGGACAT CTTGTGTGGA TAGTGATCAC TGTCAAGAAT ATAAATGTAA GCAAGTACAG TTGAAAAAGA ACAGCAATAA CATTATAATG 59005901 AATAATTGTA GTAACAATAG GTGTGAAGAG TTTTGGGGGT TTAGCTGGTT AGAATGTAAT CAGACAGAAA ATGCAATAAC TATATTGGTC CCAGAAATAG 60006001 AAATACAGCA AAGAAAGAAC ACTTGGATTC CAAAAAGGTG TGAGAAAACT TGGGCTAAGG TAAAACATTG TCCAATGGAT TTATTATATG GTATAAATAA 61006101 AATAAGAATG TGTGTCCAAC CTCCATTCTT TTTGTTTAAA CAGAATGATA CTTCTAATAA TACTAATATT CTCAGTAATT GTGGACCTTT AGTATTTCTT 62006201 GGAATATTTG AGGACAATAA GGCAGCAATC CAGAATGGGA GTTGCACTCT TCACAGGACA AATATTAACA GGCCAGATTA TAGTGGATTT TACCAAGTGC 63006301 CTATATTTTA TATATGCACC TTGACAGGAT TTCAAAGTTG TAATAATGGA TCAATAATTA GTATAATTAT GTATGAGTCT AATAATGTTC AATACTTGTT 64006401 ATGCAATACT AGTAATACTA ATAGTACCAA TAATGCTAAT GTCTCTTGTG TGGTACAAAG TTTTGGAGTG ATAGGACAGG CACATGTGGC ATTGCCCAGA 65006501 AAAAATAAGA GGTTACAATC TCCAAAGTTT GCTCACTATA ATTGCACCAT AAATAATAAA ACAGAGTTAA GGCGATGGCA ATTGGTAAAA ACATCAGGCA 66006601 TCACTCCTTT ACCCATTTCC TCTACAGCTA ATACTGGATT AGTCAGACAC AAGAGAGACT TTGGTATATC TGCTATAATA GCTGCCATTG TAGCTGCTAG 67006701 TGCTATTGCT GCTAGTGCTA CTATGTCTTA TATCGCTTTG ACAGAAGTCA ACAAATTAGA TAGTGTACAA AATCATACTT TTGAAGTAGA GAACAATACT 68006801 ATCAATAACA TAGAGTTAAC AGAAGAGCAA ATTCATATAT TATATGCTAT GGTTCTCCAA ACACATGCAG ATGTTCAATT GTTAAAAGAA CAACAAAAGA 69006901 TTGAGGAAAC ATTTAATTTA ATTGGATGTA TAGAAAGATC ACATACATTT TGTCATACTG GACATCCCTG GAATGAATCA TGGGGTCAGT TAAATGATTC 70007001 TACACAGTGG GATGACTGGG TAGATAAGAT GGAAAATTTA AATCATGATA TATTAACAAC ACTTCATACT GCTAGAAATA ATCTAGAACA ATCTATGATA 71007101 ACTTTCAATA CACCTGACAG TGTAGCACAA TTTGGAAAAA ATATTTGGAG TCATATTGCA AATTGGATTC CTAGATTAGG AGCTTCCATA ATTAAATATA 72007201 TAGTGTTGAT ATTACTTATA TATGTGTTAC TAACCTCTGC ACCTAAGATC CTCAGAGGCC TCTTGACAAC GATGAGTGGT GCAGGATCCT CCGCCAGTCG 73007301 CTACCTGAAG AAAAGATACC ATCACAAACA TGCATCGCGA GGAGACATCT GGGCCCAGGT CCAATATCAT GCGTACCTGG CAGACGAGAC TCATGGCTCA 74007401 GGGGACAAGT CCAACATGCG GAAGCTCTCC AGGAACAACT GGAATGGCGA ATCAGAGGAG TACAACAGAC GACAAAAAAA TTGGAAAAAG TTATTAAAGA 75007501 GATCTGGAGA GAATTACAAT ACACACGAAG ACAACATGGG GACTATGGGT CGTTTGGTGA CTACCGCCGC CGAGAAGAAG AACGTCGGGG TGAATCCTCA 76007601 CCAAGGGTCC TTAACCCTGG AGATTCAAAG CAAAGGAGGA AACATCTATG ACTGTTGCAT TAAGGCTCAA GAAGGAACTC TTGCTATTCC TTGCTGTGGC 77007701 TTCCCACTAT GGCCGTTTTG GGGACTTATA ATCATATTAG AACGCTTGTT GGGATATGGG CTTCGGGAAA TTGCAAAAAT TATAATGATT CTAGGGAAAG 78007801 GACTAAGTAT AATAATTACA GGATTAAGAA AATTATGTGA TTATATTGGG AAAATGCTAA ATCCAGCTAC ATCTCATGTA ACAATGCCTC AATATGATGT 79007901 TTAGAAAAAC AAGGGGGGAA CTGTGGGATT AATATAAGAT TCTTATAAGT GAATATGAAA GTTGCTGATG CTCTCAAGTT GCTGATGCTC TCATAACCTT 80008001 ATGACTAGCT CATGTTGCCA GGCAACTGAA CTGTGATAAC CTTTTGTTCC TCATTATAGT TCCGCTTTTG TATAGTTCCG CTTTTGTGAC GCGTTAAGTT 81008101 CCTGTTTTTA CAGTATATAA GTGCTTATAT TCTGACATTT GGTCACTCAG ATTCTGCGGT CTGAGTCCCT TCTCTGCTGG GCTAGACTAG CCTTTGTAAT 82008201 AAATATAATT CTCTGCTAAG TCCCTGTCTC TAGTTTGTCT TGTTTTCAAG ATCTAACA 8258

2.马传染贫血性病毒(EIAV)驴白细胞弱毒疫苗株的全长基因序列，共包括8个功能基因，分别是5’-LTR、gag、pol、env、tat、rev、S2和3’LTR，其特征在于：(1)5’LTR由325个核苷酸组成，位于全长基因的第1位至第325位，5’-3’的序列为：1 TGTGGGGTTT TTATGAGGGG TTTTATAAAT GATTATAAGA GTAAAAAGAA GGGGGCTGAT GCTCTCATAA CCTTGTATAA CCCAAAGGAC TAGCTCATGT 100101 TGCTAGGCAA CTAAACCGCA ATATCCTGTA GTTCCTCTTG CGTTCCGCAT TTGTGACGTT TTAAGTTCCT GTTTTTACAG TATATAAGTG CTTGTATTCT 200201 GACAATTGGG CACTCAGATT CTGCGGTCTG AGTCCCTTCT CTGCTGGGCT AGACTAGCCT TTGTAATAAA TATAATTCTC TGCTAAGTCC CTGTCTCTAG 300301 TTTGTCTTGT TTTCAAGATC TAACA 325(2)3’LTR由337个核苷酸组成，位于全长基因的第7922位至第8258位，5’-3’的序列

为：1 TGTGGGATTA ATATAAGATT CTTATAAGTG AATATGAAAG TTGCTGATGC TCTCAAGTTG CTGATGCTCT CATAACCTTA TGACTAGCTC ATGTTGCCAG 100101 GCAACTGAAC TGTGATAACC TTTTGTTCCT GATTATAGTT CCGCTTTTGT ATAGTTCCGC TTTTGTGACG CGTTAAGTTC CTGTTTTTAC AGTATATAAG 200201 TGCTTATATT CTGACATTTG GTCACTCAGA TTCTGCGGTC TGAGTCCCTT CTCTGCTGGG CTAGACTAGC CTTTGTAATA AATATAATTC TCTGCTAAGT 300301 CCCTGTCTCT AGTTTGTCTT GTTTTCAAGA TCTAACA 337(3)gag基因由1461个核苷酸组成，位于全长基因的第466位至第1926位，5’-3’的序列为：1 ATGGGAGACT CTTTGACATG GAGCAAAGCG CTCAAGAAGT TAGAGAAGGT GACGGTACAA GGGTCTCAAA AGCTAACTAG TGGTAACTGT AATTGGGCGC 100101 TGAATTTGGT GGACTTATTC CATGACACCA ATTTTGGTAA AGAAAAAGAC TGGCAATTAA GGGACGTCAT TCCATTGTTA GAGGACGTTT CCCAGACGTT 200201 GTCAGGACAA GAGAGAGAGG CATTTGAAAA AACTTGGTGG GCAATAGCTG CCGTTAAGAT GGGCTTACAA ATTAATACTG TGAATGATGC AAAAACAACA 300301 TTTTCTATAT TAAAAGCCAA GTTTGAAAGA AAGACTGCAA ATAATACCAA AAAGCAGTCT GAGCCCGAGG AAGAATACCC AATAATGATT GATGGGGCTG 400401 GAAACAGAAA CTTTCGGCCA TTAACACCCA GAGGATATAC TACCTGGGTA AATACTATAC AGCAAAACAA TCTCTTAAAT GAAGCTAGTG TGAATTTATT 500501 TGGTATTTTA TCAGTAGACT GTACTTCTGA GGAAATGAAT GCATTTTTGG ATGTAGTACC AGGACAAGCA GGACAAAAAC AAGTACTATT GGATAATCTT 600601 GATAAGATTG CAGAAGAATG GGATCGTAGG CACCCGTTGC CAAATCCTCC ATTAGTGGCA CCACCACAAG GGCCTATTCC CATGACAGCA AGGTTCATTA 700701 GGGGATTGGG AGTTCCTAGA GAAAGACAGA TGAAACCTGC TTTTGATCAG TTTAGACAAA CTTATAGACA ATGGATAATA GAAGCAATGA CAGAAGGGAT 800801 AAAAATAATG ATTGGGAAAC CCAAAGCGCA AAATATTAGG CAAGGACCCA AAGAACCCTA TCCAGAGTTT ATAGACAGAT TGCTGTCTCA GATAAAAAGT 900901 GAGGGACATC CGGCTGATAT AACTAAATTC CTGACAGACA CTTTAACTAT TCAGAATGCT AATGATGAAT GCAAAAATGC TATGAGACAT TTGAGGCCAG 10001001 AAGATACTTT AGAAGAGAAA ATGTATGCAT GTAGAGATAT TGGCACTATG AGACAAAAAA TGGCATTATT AGCCAAGGCA CTTCAAGCAG GATTAGCTGG 11001101 TCCTATGAAG GGAGGAATAT TTAAAGGGGG ACCCTTAGGG GCGAAGCAGA CATGTTATAA TTGTGGAAAA CCAGGACATT TTTCTAGTCA ATGTAAAGCA 12001201 CCTAAAATAT GTTTTAAGTG CAAACAGCCA GGACATTTCT CAAAACAATG TAGAAATGCT CCAAAAAACG GGAAACAAGG GGCTCAGGGG AGGCCCCAGA 13001301 AACAAACTTT CCCTGTGCAG AAGGAGTCAA TGAACAAAAC ACAAAAAGAG GAGAAACAGC AAGGGACCTT ATATCCAGAT TTAAGTCAGA TGAAACAGGA 14001401 ATACAAGATC AAGGAAGAGG AAAATCAAGA GGATCTCAAT CTGAACAGTT TGTGGGAGTA A 1461(4)pol基因由3432个核苷酸组成，位于全长基因的第1689位至第5120位，5’-3’的序列为： 1 ACAGCCAGGA CATTTCTCAA AACAATGTAT AAATGCTCCA AAAAACGGGA AACAAGGGGC TCAGGGGAGG CCCCAGAAAC AAACTTTCCC TGTGCAGAAG 100101 GAGTCAATGA ACAAAACACA AAAAGAGGAG AAACAGCAAG GGACCTTATA TCCAGATTTA AGTCAGATGA AACAGGAATA CAAGATCAAG GAAGAGGAAA 200201 ATCAAGAGGA TCTCAATCTG AACAGTTTGT GGGAGTAACT TATAATTTAG AAAAGAGACC AACTACAATA GTCTTGATTA ATGACACACC CTTAAATGTA 300301 TTGTTGGACA CAGGAGCAGA CACATCAGTA CTAACTATTG CACATTGTAA TAGGTTAAAG TATGGAGGAA GAAAATATCA AGGTACAGGT ATTGTTGGGG 400401 TTGGAGGTAA TGTAGAAACA TTTTCCACTC CTGTTACAGT GAAAAAGAAA GGAAAACAAA TTAAAACTAG AATGTTAGTA GCAGATATCC CAGTTACTAT 500501 TTTGGGGCGA GATATTCTTC AAGAATTAGG CGCACAATTA CTAATGGCTC AACTTTCAAA AGAAATAACC CCAAGAGAAA TTAAATTAAA AACAGGCACA 600601 GTAGGGCCTA AGGTTCCCCA ATGGCCACTT ACTAAAGAGA AGTTGTTAGG TGCTAAAGAA ATAGTCAAAA AATTGTTGGA TGAAGGTAAA ATATCAGAAG 700701 CCAGTGATGA TAATCCTTAT AATTCTCCTA TATTTGTAAT AAAAAAGAAA TCTGGAAAGT GGAGATTATT GCAAGATTTA AGAGAGTTAA TTAAGGGTGG 800801 TACAAGTAGA ACTGAAATAT CCAGAGGATT ACCTCATCCA GGGGGATTAA TTAAATGTAA TCATATGACA GTATTAGATA TTGGAGATGC ATATTTCACT 900901 ATACCATTAG ATCCAAAGTT TAGACAATAT ACAGCATTTA CTGTGCCATC CATTAATCAT CAGGAACCAG ATAAAAGATA TGTGTGGAAT TGCTTGCCAC 10001001 AAGGTTTTGT GTTAAGTCCA TACATATATC AAAAAACATT ACAGGACATA TTACAAGCTT TTAGAGAAAG GCATCCAGAT GTACAATTAT ATCAATATAT 11001101 GGATGATTTA TTCATTGGGA GTAATGAATC TAAAAGACAA CATAAGGAAC TAGTAGAAGA ATTAAGAGCT ATTCTTTTAG AAAAGGGCTT TGAGACGCCT 12001201 GGGGATAAAT TGCAGGAAGA AGCACCCTAT AATTGGCTGG GATATCAACT TAGTCCAGGC AATTGGAAAG TACAAAAGAT GCAATTAGAA TTGGTAAAAG 13001301 AGCCAACATT AAATGATGTG CAAAAATCAA AGGGAAATAT AACATGGATG AGCTCAGGGG TTCCTGGATT AACAGTGAAG CAAATAGCTG CTACCACTAA 14001401 AGGTTGCTTA GATTTAAATC ATAAAGGTAG TAGGACCAGA GAAGCCCAAA AAGACTTAGA GGAAATTATT AAAAGTTTCA GAAGCTCAGG ATTCCCATAT 15001501 TATAACCCAG AAGAAGAAGT AATCTGTGAG ATTGAAATTA CTAAAAATTA TGAGGCTACT TATATAATAA AACAGTCTCA AGGAATATTG TGGGCAGGAA 16001601 AGAAAATTAT GAGGGCTAAT AAAGGATGGT CCGCAGCAAA AAATCTAATG TTATTGTTAC AACATGTAGC CACAGAAAGT ATTGTTAGAA TTGGAACATG 17001701 TCCAAAATTT AAAGTACCTT TTACTAAAGA ACAAGTCAAA TGGGAAATGG AAAAGGGATG GTATTATTCA TGGCTACCAG ACATGGTATA TTCACATCAA 18001801 GTTGTTCATG ATGATTGGAG ACTGAAATTA GTAGAGCAAC CAACATCTGG TATAACAATT TATACTGATG GGGGTAAACA GAATGAAGAA GGAGTTGCAG 19001901 CTTATGTGAC TAGTAATGGG AAAACTAAAC AAAAAAGGTT AGGGCCTGTT ACTCATCAAA CTGCTGAGAG GATAGCAATA CAAATGGCAT TAGAAGATAC 20002001 TGAAGAGACA TTGGTAAATA TAGTAACTGA TAGTTACTAC TGTTGGAAAA ATATTACAGA AGGATTAGGG TTAGAAGGAC CAGACAGCCC CTGGTGGCCA 21002101 ATAATTCAAA ATATTAGGGC TAAAGAAATG GTTTATTTTG CTTGGGTACC AGGTCACAAA GGAATATATG GCAATCAATT GGCAGATGAG GCTACTAAAA 22002201 TAACAGAGGA AATTATGTTA GCATATCAAG GCACACAGAT TAGGGAAAAA AGAGATGAAG ATGCAGGGTA TGATTTGTGT ATTCCTTATG ACATAATGAT 23002301 ACCTGTCTCT GAGACAAAAG TTATACCCAC AGATGTAAAA ATACAGGTAC CTCACAAATG TTTTGGATGG GTAACTGGTA AGTCATCAAT GGCTAAGCAA 24002401 GGATTATTAA TCAATGGGGG AATAATTGAT GAAGGATACA CAGGTGAAAT ACAGGTAATT TGTACTAATA TTGGAAAGAG TAACATGAAA CTCAGGGAAG 25002501 GACAAAAGTT TGCACAATTA ATCATATTAC AGCATCGATC AAATGATAAA CAAATCTGGG ATGAAAATAA AACATCTCAA AGGGGAGATA AAGGGTTTGG 26002601 AAGCACAGGT ATATTTTGGG TAGAGAATAT CCAAGAGGCG CAAGATGAAC ATGAAAATTG GCATACATCT CCAAAGATAT TGGCAAAAAG ATATGGGTTA 27002701 CCATTGACTG TAGCTAAACA GATAACTCAA GAATGCCCTC ATTGTACTAA ACAAGGATCT GGACCAGCAG GTTGTGTAAT GAGATCTCCT AATCATTGGC 28002801 AGGCTGATTG TACACATTTA GAAAACAGGG TAATAATGAC ATTTGTAGAG TCTAATTCAG GATACATTCA TGCTACTCTA TTGTCCAAAG AAAATGCCTT 29002901 GTGTCCTTCA TTGGCTATTT TGGAATGGGT GAGGTTATTT TCTCCTAAAT CTTTACATAC AGACAATGGT ACTAATTTTG TGGCAGAGTC AGTAGCAAAT 30003001 CTGTTGAAAT TCCTGAAGGT GACACATACT ACAGGAATAC CTTATCACCC AGAGAGCCAA GGGATTGTGG AAAGAGCAAA CAGGACATTA AAAGAAAGAA 31003101 TTAAAAGTCA TAGAGGAAAT ACTCAGACAC TTGAAGCAGC ATTACAACTT GCTCTCATTA CTTGTAACAA AGGGAGGGAA AGTATGGGAG GACAAACTCC 32003201 ATGGGAAGTA TTTATTACTA ATCAGGCTCA AACAATACAT GAAGAACTTT TATTACAACA AGCACAATCT TCTAAAAAAT TTTGTTTTTA TAAAATTCCT 33003301 GGTGAGCATA ATTGGAAGGG GCCCACCAGA GTGTTGTGGA AAGGTGATGG AGCAGTAGTG GTCAATGATG AGGAAAAAGG AATAATTGCT GTGCCTTTAA 3400401 CCAGGACTAA ATTATTAATA AGACCAAATT GA 3432(5)env基因由2592个核苷酸组成，位于全长基因的第5313位至第7904位，5’-3’的序列为：1 ATGGTCAGCA TTACATTCTA TGGGGGTATC CCAGGGGGAA TATCAACCCC TATCACCCAA CAAACAGAAT CAACAGACAC ACAGAAAGGG GATCATATGG 100101 TATATCAACC CTATTGTTAT AATGATAGCC ATAAAGAAGA AATGGCAGAG ACAAGAGACA CAAGATACCA AGAAGAAATG AACCGGAAAG AAGATAAAGA 200201 AGATAAAAGA AAGAATAACT GGTGGAAGAT AGGTATGTTC TTATTGTGTC TGTTAGAGAT CACTGGAGGA TTCCTCTGGT GGTATGAGAG GCAACAACAT 300301 TCATATTATA TAAGATTGGT TACAATAGGA GGTAGACTGA ATGGTTCAGG AATGACTAGT GCCATAAAAT GTTGGGGTTC ATTTCCTGGG TGTAGGCCAT 400401 TTACTAACTA TTTCAGTTAT GAGACTAATA CGACTGTTAG TAGAGATAAT AATACTGCTA CTCTGTTAGA TACTTATCAA AGAGAAATAA CAAACATATA 500501 CAGGACATCT TGTGTGGATA GTGATCACTG TCAAGAATAT AAATGTAAGC AAGTACAGTT GAAAAAGAAC AGCAATAACA TTATAATGAA TAATTGTAGT 600601 AACAATAGGT GTGAAGAGTT TTGGGGGTTT AGCTGGTTAG AATGTAATCA GACAGAAAAT GCAATAACTA TATTGGTCCC AGAAATAGAA ATACAGCAAA 700701 GAAAGAACAC TTGGATTCCA AAAAGGTGTG AGAAAACTTG GGCTAAGGTA AAACATTGTC CAATGGATTT ATTATATGGT ATAAATAAAA TAAGAATGTG 800801 TGTCCAACCT CCATTCTTTT TGTTTAAACA GAATGATACT TCTAATAATA CTAATATTCT CAGTAATTGT GGACCTTTAG TATTTCTTGG AATATTTGAG 900901 GACAATAAGG CAGCAATCCA GAATGGGAGT TGCACTCTTC ACAGGACAAA TATTAACAGG CCAGATTATA GTGGATTTTA CCAAGTGCCT ATATTTTATA 10001001 TATGCACCTT GACAGGATTT CAAAGTTGTA ATAATGGATC AATAATTAGT ATAATTATGT ATGAGTCTAA TAATGTTCAA TACTTGTTAT GCAATACTAG 11001101 TAATACTAAT AGTACCAATA ATGCTAATGT CTCTTGTGTG GTACAAAGTT TTGGAGTGAT AGGACAGGCA CATGTGGCAT TGCCCAGAAA AAATAAGAGG 12001201 TTACAATCTC CAAAGTTTGC TCACTATAAT TGCACCATAA ATAATAAAAC AGAGTTAAGG CGATGGCAAT TGGTAAAAAC ATCAGGCATC ACTCCTTTAC 13001301 CCATTTCCTC TACAGCTAAT ACTGGATTAG TCAGACACAA GAGAGACTTT GGTATATCTG CTATAATAGC TGCCATTGTA GCTGCTAGTG CTATTGCTGC 14001401 TAGTGCTACT ATGTCTTATA TCGCTTTGAC AGAAGTCAAC AAATTAGATA GTGTACAAAA TCATACTTTT GAAGTAGAGA ACAATACTAT CAATAACATA 15001501 GAGTTAACAG AAGAGCAAAT TCATATATTA TATGCTATGG TTCTCCAAAC ACATGCAGAT GTTCAATTGT TAAAAGAACA ACAAAAGATT GAGGAAACAT 16001601 TTAATTTAAT TGGATGTATA GAAAGATCAC ATACATTTTG TCATACTGGA CATCCCTGGA ATGAATCATG GGGTCAGTTA AATGATTCTA CACAGTGGGA 17001701 TGACTGGGTA GATAAGATGG AAAATTTAAA TCATGATATA TTAACAACAC TTCATACTGC TAGAAATAAT CTAGAACAAT CTATGATAAC TTTCAATACA 18001801 CCTGACAGTG TAGCACAATT TGGAAAAAAT ATTTGGAGTC ATATTGCAAA TTGGATTCCT AGATTAGGAG CTTCCATAAT TAAATATATA GTGTTGATAT 19001901 TACTTATATA TGTGTTACTA ACCTCTGCAC CTAAGATCCT CAGAGGCCTC TTGACAACGA TGAGTGGTGC AGGATCCTCC GCCAGTCGCT ACCTGAAGAA 20002001 AAGATACCAT CACAAACATG CATCGCGAGG AGACATCTGG GCCCAGGTCC AATATCATGC GTACCTGGCA GACGAGACTC ATGGCTCAGG GGACAAGTCC 21002101 AACATGCGGA AGCTCTCCAG GAACAACTGG AATGGCGAAT CAGAGGAGTA CAACAGACGA CAAAAAAATT GGAAAAAGTT ATTAAAGAGA TCTGGAGAGA 22002201 ATTACAATAC ACACGAAGAC AACATGGGGA CTATGGGTCG TTTGGTGACT ACCGCCGCCG AGAAGAAGAA CGTCGGGGTG AATCCTCACC AAGGGTCCTT 23002301 AACCCTGGAG ATTCAAAGCA AAGGAGGAAA CATCTATGAC TGTTGCATTA AGGCTCAAGA AGGAACTCTT GCTATTCCTT GCTGTGGCTT CCCACTATGG 24002401 CCGTTTTGGG GACTTATAAT CATATTAGAA CGCTTGTTGG GATATGGGCT TCGGGAAATT GCAAAAATTA TAATGATTCT AGGGAAAGGA CTAAGTATAA 2500501 TAATTACAGG ATTAAGAAAA TTATGTGATT ATATTGGGAA AATGCTAAAT CCAGCTACAT CTCATGTAAC AATGCCTCAA TATGATGTTT AG 2592(6)tat基因由237个核苷酸组成，第一外显子位于全长基因的第365位至第462位，第二外显子位于全长基因的第5138位至第5276位，tat基因5’-3’的完整序列为：1 CTGCTGAACC TGGCTGATCA TAGGATCCCT AGGACAGCAG AGGAGAACTT ACAGAAGTCT TCTGGAGGTG TTCCTGGCCA CAACACAGGA AGACAGGTAC 100101 CACCAGTCAG CTATCATTGT CAACTGTGTT TCCTGAGATC ATTGGGAATT GACTACCTTG ACAGCTCGCT GAAGAAGAAG AACAAACAAA GACAGAAGGC 200TAA 237(7)rev基因由495个核苷酸组成，第一外显子位于全长基因的第5454位至第5546位，第二外显子位于全长基因的第7250位至第7651位，tat基因5’-3’的完整序列为：1 ATGGCAGAGA CAAGAGACAC AAGATACCAA GAAGAAATGA ACCGGAAAGA AGATAAAGAA GATAAAAGAA AGAATAACTG GTGGAAGATA GGTCCTCAGA 100101 GGCCTCTTGA CAACGATGAG TGGTGCAGGA TCCTCCGCCA GTCGCTACCT GAAGAAAAGA TACCATCACA AACATGCATC GCGAGGAGAC ATCTGGGCCC 200201 AGGTCCAATA TCATGCGTAC CTGGCAGACG AGACTCATGG CTCAGGGGAC AAGTCCAACA TGCGGAAGCT CTCCAGGAAC AACTGGAATG GCGAATCAGA 200301 CGAGTACAAC AGACGACAAA AAAATTGGAA AAAGTTATTA AAGAGATCTG GAGAGAATTA CAATACACAC GAAGACAACA TGGGGACTAT GGGTCGTTTG 40001 GTGACTACCG CCGCCGAGAA GAAGAACGTC GGGGTGAATC CTCACCAAGG GTCCTTAACC CTGGAGATTC AAAGCAAAGG AGGAAACATC TATGA 495(8)S2基因由207个核苷酸组成，位于全长基因的第5287位至第5493位，5’-3’的序列为：1 ATGGGATTAT TTGGTAAAGG GGTAACATGG TCAGCATTAC ATTCTATGGG GGTATCCCAG GGGGAATATC AACCCCTATC ACCCAACAAA CAGAATCAAC 100101 AGACACACAG AAAGGGGATC ATATGGTATA TCAACCCTAT TGTTATAATG ATAGCCATAA AGAAGAAATG GCAGAGACAA GAGACACAAG ATACCAAGAA 200201 GAAATGA 207(9)上述所有基因的结构与功能。

3.根据权利要求1，马传染性贫血病毒驴白细胞弱毒疫苗株的全长基因包括gag、pol、env、tat、rev和S2等6个功能基因，分别编码相应的蛋白质，其特征在于：(1)gag基因编码的前体蛋白质由486个氨基酸组成，分子量为55.032千道尔顿，等电点为8.90，氨基酸序列从N端到C端为：MGDSLTWSKALKKLEKVTVQGSQKLTSGNCNWALNLVDLFHDTNFGKEKDWQLRDVIPLLEDVSQTLSGQEREAFEKTWWAIAAVKMGLQINTVNDAKTTFSILKAKFERKTANNTKKQSEPEEEYPIMIDGAGNRNFRPLTPRGYTTWVNTIQQNNLLNEASVNLFGILSVDCTSEEMNAFLDVVPGQAGQKQVLLDNLDKIAEEWDRRHPLPNPPLVAPPQGPIPMTARFIRGLGVPRERQMKPAFDQFRQTYRQWIIEAMTEGIKIMIGKPKAQNIRQGPKEPYPEFIDRLLSQIKSEGHPADITKFLTDTLTIQNANDECKNAMRHLRPEDTLEEKMYACRDIGTMRQKMALLAKALQAGLAGPMKGGIFKGGPLGAKQTCYNCGKPGHFSSQCKAPKICFKCKQPGHFSKQCRNAPKNGKQGAQGRPQKQTFPVQKESMNKTQKEEKQQGTLYPDLSQMKQEYKIKEEENQEDLNLNSLWE(2)pol基因编码的前体蛋白质由1143个氨基酸组成，分子量为128.742千道尔顿，等电点为8.64，氨基酸序列从N端到C端为：TARTFLKTMYKCSKKRETRGSGEAPETNFPCAEGVNEQNTKRGETARDLISRFKSDETGIQDQGRGKSRGSQSEQFVGVTYNLEKRPTTIVLINDTPLNVLLDTGADTSVLTIAHCNRLKYGGRKYQGTGIVGVGGNVETFSTPVTVKKKGKQIKTRMLVADIPVTILGRDILQELGAQLLMAQLSKEITPREIKLKTGTVGPKVPQWPLTKEKLLGAKEIVKKLLDEGKISEASDDNPYNSPIFVIKKKSGKWRLLQDLRELIKGGTSRTEISRGLPHPGGLIKCNHMTVLDIGDAYFTIPLDPKFRQYTAFTVPSINHQEPDKRYVWNCLPQGFVLSPYIYQKTLQDILQAFRERHPDVQLYQYMDDLFIGSNESKRQHKELVEELRAILLEKGFETPGDKLQEEAPYNWLGYQLSPGNWKVQKMQLELVKEPTLNDVQKSKGNITWMSSGVPGLTVKQIAATTKGCLDLNHKGSRTREAQKDLEEIIKSFRSSGFPYYNPEEEVICEIEITKNYEATYIIKQSQGILWAGKKIMRANKGWSAAKNLMLLLQHVATESIVRIGTCPKFKVPFTKEQVKWEMEKGWYYSWLPDMVYSHQVVHDDWRLKLVEQPTSGITIYTDGGKQNEEGVAAYVTSNGKTKQKRLGPVTHQTAERIAIQMALEDTEETLVNIVTDSYYCWKNITEGLGLEGPDSPWWPIIQNIRAKEMVYFAWVPGHKGIYGNQLADEATKITEEIMLAYQGTQIREKRDEDAGYDLCIPYDIMIPVSETKVIPTDVKIQVPHKCFGWVTGKSSMAKQGLLINGGIIDEGYTGEIQVICTNIGKSNMKLREGQKFAQLIILQHRSNDKQIWDENKTSQRGDKGFGSTGIFWVENIQEAQDEHENWHTSPKILAKRYGLPLTVAKQITQECPHCTKQGSGPAGCVMRSPNHWQADCTHLENRVIMTFVESNSGYIHATLLSKENALCPSLAILEWVRLFSPKSLHTDNGTNFVAESVANLLKFLKVTHTTGIPYHPESQGIVERANRTLKERIKSHRGNTQTLEAALQLALITCNKGRESMGGQTPWEVFITNQAQTIHEELLLQQAQSSKKFCFYKIPGEHNWKGPTRVLWKGDGAVVVNDEEKGIIAVPLTRTKLLIRPN(3)env基因编码的前体蛋白质由863个氨基酸组成，分子量为98.454千道尔顿，含有19个糖基化位点，等电点为8.33，氨基酸序列从N端到C端为：MVSITFYGGIPGGISTPITQQTESTDTQKGDHMVYQPYCYNDSHKEEMAETRDTRYQEEMNRKEDKEDKRKNNWWKIGMFLLCLLEITGGFLWWYERQQHSYYIRLVTIGGRLNGSGMTSAIKCWGSFPGCRPFTNYFSYETNRTVSRDNNTATLLDTYQREITNIYRTSCVDSDHCQEYKCKQVQLKKNSNNIIMNNCSNNRCEEFWGFSWLECNQTENAITILVPEIEIQQRKNTWIPKRCEKTWAKVKHCPMDLLYGINKIRMCVQPPFFLFKQNDTSNNTNILSNCGPLVFLGIFEDNKAAIQNGSCTLHRTNINRPDYSGFYQVPIFYICTLTGFQSCNNGSIISIIMYESNNVQYLLCNTSNTNSTNNANVSCVVQSFGVIGQAHVALPRKNKRLQSPKFAHYNCTINNKTELRRWQLVKTSGITPLPISSTANTGLVRHKRDFGISAIIAAIVAASAIAASATMSYIALTEVNKLDSVQNHTFEVENNTINNIELTEEQIHILYAMVLQTHADVQLLKEQQKIEETFNLIGCIERSHTFCHTGHPWNESWGQLNDSTQWDDWVDKMENLNHDILTTLHTARNNLEQSMITFNTPDSVAQFGKNIWSHIANWIPRLGASIIKYIVLILLIYVLLTSAPKILRGLLTTMSGAGSSASRYLKKRYHHKHASRGDIWAQVQYHAYLADETHGSGDKSNMRKLSRNNWNGESEEYNRRQKNWKKLLKRSGENYNTHEDNMGTMGRLVTTAAEKKNVGVNPHQGSLTLEIQSKGGNIYDCCIKAQEGTLAIPCCGFPLWPFWGLIIILERLLGYGLREIAKIIMILGKGLSIIITGLRKLCDYIGKMLNPATSHVTMPQYDV(4)rev基因编码的蛋白质由164个氨基酸组成，分子量为19.831千道尔顿，等电点为9.81，氨基酸序列从N端到C端为：MAETRDTRYQEEMNRKEDKEDKRKNNWWKIGPQRPLDNDEWCRILRQSLPEEKIPSQTCIARRHLGPGPISCVPGRRDSWLRGQVQHAEALQEQLEWRIRGVQQTTKKLEKVIKEIWRELQYTRRQHGDYGSFGDYRRREEERRGESSPRVLNPGDSKQRRKHL(5)tat基因编码的蛋白质由78个氨基酸组成，分子量为8.811千道尔顿，等电点为9.31，氨基酸序列从N端到C端为：LLNLADHRIPRTAEENLQKSSGGVPGHNTGRQVPPVSYHCQLCFLRSLGIDYLDSSLKKKNKQRQKAIREEDNLSILL(6)S2基因编码的蛋白质由68个氨基酸组成，分子量为7.883千道尔顿，等电点为10.26，氨基酸序列从N端到C端为：MGLFGKGVTWSALHSMGVSQGEYQPLSPNKQNQQTHRKGIIWYINPIVIMIAIKKKWQRQETQDTKKK(7)上述所有基因编码的蛋白质的结构和功能。

4.根据权利要求1和2所述特征，马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗株的全长基因序列及其各基因的结构和序列及其与EIAV野毒株的比较分析，可用于设计和构建艾滋病毒(HIV)及其它慢病毒疫苗。

5.根据权利要求1和3所述特征，比较马传染性贫血病毒(EIAV)驴白细胞弱毒疫苗株与野毒株之间基因序列和蛋白氨基酸序列的差异可用于建立EIAV感染的诊断方法，包括：(1)分子生物学方法，其特征在于针对EIAV疫苗株的基因序列及其与野毒株的基因序列差异区设计相应的PCR引物及基因探针，用于EIAV的核酸诊断和进行鉴别诊断；(2)血清学方法，其特征在于针对EIAV疫苗毒株蛋白的抗原表位和免疫原性，设计相应的实验方法来检测EIAV感染动物血清的抗EIAV抗体和EIAV抗原的方法，以及根据EIAV疫苗株与野毒株蛋白的抗原表位的差异以及相应抗体反应的差异而进行血清学鉴别诊断。

6.根据权利要求1和2和3所述特征，由马传染贫血性病毒(EIAV)驴白细胞弱毒疫苗株的全长基因序列确定的各基因、各蛋白分别具有独特的不同于EIAV野毒株一级结构和高级结构，可用于设计和构建艾滋病毒(HIV)及其它慢病毒的多肽疫苗、基因工程亚单位疫苗、基因缺失疫苗、DNA疫苗、活载体疫苗和诊断试剂等。

7.根据权利要求1，马传染贫血性病毒驴白细胞弱毒疫苗株的全长基因，其特征在于可用来构建基因转移的载体，用于疾病的基因治疗；其特征还在于用于构建感染性分子克隆及其在疫苗研究方面的应用。