CN1181784A

CN1181784A - 编码淋巴细胞干扰素调节因子(lsirf）多肽的基因

Info

Publication number: CN1181784A
Application number: CN96193291A
Authority: CN
Inventors: 松山俊文; 亚历克斯·格罗斯曼; 克里斯托弗·D·理查森
Original assignee: Amgen Canada Inc
Current assignee: Amgen Canada Inc
Priority date: 1995-04-14
Filing date: 1996-04-12
Publication date: 1998-05-13
Also published as: CZ318997A3; CA2217633A1; ES2301167T3; CA2217633C; KR19980703889A; ATE386114T1; NZ304789A; US6258935B1; EP0820509A1; NO974713L; BR9604947A; WO1996032477A1; DE69637429D1; HUP9802289A2; US6369202B1; MX9707542A; EP0820509B1; JPH11505104A; NO974713D0; DE69637429T2

Abstract

本发明公开了编码被称为LSIRF的一种新的多肽的核苷酸序列。也公开了制备此多肽的方法及其使用。

Description

编码淋巴细胞干扰素调节因子(LSIRF)多肽的基因

本发明是1995年4月14日递交的序号为08/422,733的美国专利申请的部分继续申请。背景发明领域

本发明涉及具有DNA结合活性的新的多肽，以及编码该多肽的核酸分子。该多肽以前被称为“IRF-3”多肽，现在称为“LSIRF”多肽(淋巴细胞特异性干扰素调节因子)，且是被称为干扰素调节因子一类多肽的新成员。有关技术描述

基因表达的调节可在几个不同水平上进行，但人们认为基因特异性转录因子的活化对此过程是最为重要的。一族转录因子，即干扰素调节因子(IRF)由四个成员组成：IRF-1、IRF-2、ISGF3γ和ICSBP。所有这四种IRF的特征在于高度保存的、含有一个重复色氨酸基元的氨基末端DNA结合区域(Veals等，Mol.Cell.Biol.，12：3315-3324，1992)。

干扰素调节因子-1(IRF-1)和-2(IRF-2)最初是在人干扰素-β(IFN-β)基因的转录调节研究中被鉴定出的(Miyamoto等，Cell，54：903-913，1988；Harada等，Cell，58：729-739，1989)。cDNA表达研究已证明IRF-1是以IFN及IFN-诱导基因转录的活化剂起作用的，而IRF-2抑制IRF-1的作用(Fujita等，Nature，337：270-272，1989；Hara等，Cell，63：303-312，1990)。近来的分析已表明IRF-1也可起肿瘤抑制基因的作用，IRF-2则起一种可能的癌基因的作用(Harada等，Science，259：971-974，1993)。IRF-1表达是被I-型(α/β)和II-型(γ)IFN所诱导(Miyamoto等，Cell，54：903-913，1988；Kanno等，Mol.Cell.Biol.13：3951-3963，1993)，而IRF-2既是组成性表达又是被I-型IFN诱导(Harada等，Cell，58：729-739，1989)。

干扰素刺激基因因子-3γ(ISGF3γ)是一种INF-γ诱导蛋白，其与ISGF3α亚基结合，该亚基是自一种潜在细胞溶质形式被I-型IFN所活化(Levy等，EMBO J.，9：1105-1111，1990；Levy等，New Biologist，2：383-392，1990)。结合后，此复合物已被显示转移到核中，并与特定DNA序列结合，该序列发现于IFN诱导基因的启动子区域中，被称为ISRE(IFN刺激响应元件)(Veals等，Mol.Cell.Biol.，12：3315-3324，1992)。近来，91/84kDa和113kDa的ISGF3α亚基已被克隆(Schindler等，Proc.Natl.Acad.Sci.USA，89：7836-7839，1992；Fu等，Proc.Natl.Acad.Sci.USA，89：7840-7843，1992)，并被分别指定为1-转录信号转导物和激活剂(Stat-1)和2-转录信号转导物和激活剂(stat-2)，它们是在I-型IFN/IFN-受体结合后JAK激酶磷酸化的靶物(Shuai等，Science，261：1744-1746，1993；Darnell等，Science，261：1415-1421，1994)。

干扰素共有序列结合蛋白(ICSBP)也是一种IFN-γ诱导蛋白，其最初是作为一种识别I类鼠MHC启动子的ISRE基元(也称为ICS)，即H-2L^D基因，的蛋白被分离出的(Driggers等，Proc.Natl.Acad.Sci.USA，87：3743-3747，1990)。然而，与IRF-1、IRF-2、和ISGF3γ不同，ICSBP表现出一种组织-限定型表达，因为它唯一地在巨噬细胞和淋巴样谱系的细胞中被诱导(Driggers等，Proc.Natl.Acad.Sci.USA，87：3743-3747，1990)。近期的研究已提出ICSBP在拮抗IRF-1对IFN和IFN诱导基因的诱导作用的影响方面有与IRF-2类似的作用(Weisz等，J.Biol.Chem.，267：25589-25596，1992；Nelson等人，Mol.Cell.Biol.，13：588-599，1993)。干扰素诱导基因的ISRE与IRF-E重叠，其是IRF-1和-2识别的DNA序列(Tanaka等，Mol.Cell.Biol.13：4531-4538，1993)。最近ISGF3γ显示出可与IFN-β基因的IRF-E结合(Kawakami等，FEBS Letters，358：225-229，1995)。

由于IRF在调节干扰素基因和其它基因表达中的重要性，在本领域有必要鉴定其它IRF，尤其是组织特异性IRF。

因此，本发明的一个目的是鉴定IRF基因家族新成员。

其它目的对于本领域的普通技术人员而言将是显而易见的。发明概要

本发明提供了编码淋巴细胞特异性干扰素调节因子的新的核酸分子。该分子以前称为“IRF-3”分子，现称为“LSIRF”分子，然而此术语可与术语“LSIRF”分子互换使用。

在一方面，本发明提供了一种分离的编码LSIRF多肽或其片段的核酸分子，其选自包括如下分子在内的分子组：

(a)一种具有序列识别号：1的核苷酸序列的核酸分子；

(b)一种具有序列识别号：4的核苷酸序列的核酸分子；

(c)一种具有序列识别号：24的核苷酸序列或其“双Q”变异体的核酸分子；

(d)一种具有编码序列识别号：2的氨基酸序列的核苷酸序列的核酸分子；

(e)一种具有编码序列识别号：25氨基酸序列的核苷酸序列或其“双Q”变异体的核酸分子；

(f)一种具有与(a)、(b)、(c)、(d)、(e)、或其片段的核酸分子杂交的核苷酸序列的核酸分子。

本发明还提供一种多肽，其是这些核酸分子在宿主细胞中的表达产物。

此外本发明还提供一种与LSIRF多肽特异性结合的抗体。此抗体可选择性地是单克隆抗体。

在另一方面，本发明提供一种分离出的具有LSIRF多肽特异性DNA结合活性的多肽或其片段。

另一方面本发明提供一种含有编码LSIRF多肽的DNA分子的载体。

仍在另一方面，本发明提供一种与含有编码LSIRF多肽之DNA分子的载体稳定转化或转染的宿主细胞。

仍然在另一方面，本发明提供一种分离的LSIRF多肽或其片段；该多肽可具有序列识别号：2的氨基酸序列。

仍在另一方面，本发明提供一种LSIRF多肽，其是外源LSIRF核酸序列的原核或真核宿主细胞表达之产物。

本发明还进一步提供一种生成LSIRF多肽的方法，其包括在允许LSIRF表达的条件下培养原核或真核宿主细胞。附图简述

图1是小鼠全长LSIRF cDNA核酸序列。

图2是小鼠全长LSIRF多肽氨基酸序列。

图3是小鼠LSIRF基因5’侧翼序列。

图4是小鼠LSIRF基因组DNA序列。

图5是小鼠各种组织中RNA的RNA印迹。此印迹是用放射性标记的LSIRF探针所探测，以鉴定LSIRF转录物。指示转录物大小的RNA碱基对标志是标在左边。也显示了标示核糖体RNA的琼脂糖凝胶的照片。

图6是如图所示无(-)或有激活剂处理后的小鼠淋巴细胞中RNA的RNA印迹。此印迹是被放射性标识LSIRF探针所探测，以鉴定诱导LSIRF转录物的那些刺激剂。也示出了用放射性标记β-肌动蛋白探针探测的同样印迹。

图7描述了如图所示无(-)或有一个或更多的激活剂处理、再用放射性标记LSIRF探针探测的小鼠脾细胞的RNA印迹。也显示了用放射性标记β-肌动蛋白探针探测的相同的RNA印迹。

图8描述了如图所示无(-)或有一个激活剂处理、再用放射性标记LSIRF探针探测的小鼠脾细胞的RNA印迹。也显示了用放射性标记β-肌动蛋白探针探测的相同的RNA印迹。

图9显示了小鼠MHC ISRE的LSIRF结合的凝胶移变结合测试结果。对照杆状病毒感染SF9昆虫细胞(泳道2)或被含有LSIRF基因的杆状病毒感染的SF9细胞(泳道3-12)之核提取物与放射性标记小鼠MHC ISRE探针和所示的竞争物DNA片段(此竞争物片段的序列见表1)二者一起保温。泳道1和泳道13仅含有放射性标记的MHC ISRE探针。

图10是“单Q”形式的人LSIRF编码区域的全长核苷酸序列。(序列识别号：24)。“双Q”形式有一个额外的编码氨基酸Q(Glu)的密码子，它插入在氨基酸163和氨基酸164的密码子之间。

图11显示了人LSIRF氨基酸序列(序列识别号：25)的推测的“单Q”形式，它是从图10的核苷酸序列翻译而来。“双Q”形式有一个额外的氨基酸Q(Glu)插入在氨基酸163和氨基酸164之间。发明详述

术语“IRF-3”和“LSIRF”在本文中可互换使用，是指同样的核酸和氨基酸序列；LSIRF的“单Q”和“双Q”形式均被包括在此定义中(见实施例5)。

本文所用的术语“生物活性”是指由任何来源衍生的全长多肽或其片段，其与ISRE(干扰素刺激响应元件)型DNA片段，例如鼠MHCI ISRE、人ISG54，和/或ISRE突变体，例如ISREml或ISREm4(其序列列入表1中)结合。生物活性多肽或其片段也包括那些对一种抗体(多克隆或单克隆的)有免疫交叉反应性的多肽或其片段，该抗体是为抵抗例如图2和25中所列的LSIRF多肽等全长LSIRF多肽而产生，并与之反应。

本文所用术语“稳定转化或转染”是指一种核酸分子，其或作为宿主细胞基因组DNA的一部分、或作为一个独立的分子(如染色体外)已被插入宿主细胞中，存在于宿主细胞中，且被维持和复制于母体宿主细胞中，如此其通过宿主细胞的连续繁殖传递下去。

术语“合成DNA”是指一种核酸分子，其部分或全部是通过化学合成方法产生的。

术语“载体”是指一种核酸分子放大、复制、和/或表达载体，其是质粒或病毒DNA体系的形式，其中该质粒或病毒DNA对细菌、酵母、无脊柱动物和/或哺乳动物宿主细胞是功能性的。此载体可保持独立于宿主细胞基因组DNA，或是可部分或全部与基因组DNA整合。此载体将含有所有所需元件，使之在与之相容的任何宿主细胞中都是有功能的。这些元件在后面会列出。

本发明的一个方面是提供制备LSIRF多肽的方法。制备多肽的典型方法是：获得编码多肽的核酸分子、将此核酸分子插入合适的表达载体中、将此载体插入相容的宿主细胞中、在该宿主细胞中表达该LSIRF多肽、及纯化该LSIRF多肽。1.编码LSIRF多肽的DNA的制备

编码LSIRF的核酸分子很容易从不同途径获得，其包括但不限于：化学合成、cDNA或基因组库筛选、表达库筛选、和/或cDNA的PCR放大。这些方法和其它用于分离这些DNA的方法有：例如，Sambrook等的方法(分子克隆：实验手册，Cold Spring Harbor Laboratory Press，Cold SpringHarbor，NY，1989)、Ausubel等的方法(Current Protocols in MolecularBiology，Current Protocols Press，1994)、Berger和Kimmel的方法(Methodsin Enzymology：Guide to Molecular Cloning Techniques，vol.152，AcademicPress，Inc.，San Diego，CA，1987)。编码LSIRE的优选核酸序列是哺乳动物的序列，编码LSIRF的最优选核酸序列是人、大鼠和小鼠的。

LSIRF核酸分子的化学合成可采用本领域的已知方法的完成，例如Engels等所列的那些方法(Angew.Chem.Intl.Ed.，28：716-734，1989)。这些方法特别包括：核酸合成的磷酸三酯、氨基磷酸酯(phosphoramidite)和H-膦酸酯(H-phosphonate)方法。尤其是编码全长LSIRF多肽的核酸分子的长度为几百个碱基对(bp)或核苷酸。长度大于约100个核苷酸的核酸可作为几个片段来合成，每个片段的长度可有长达约100个核苷酸。然后将片段按如下所述的方式连接在一起，形成一个编码LSIRF多肽的全长核酸。优选的方法是采用标准氨基磷酸酯化学法的聚合物负载合成法。

另外，编码LSIRF多肽的核酸可通过筛选适当的cDNA库(即由一个或更多的据认为是表达该多肽的组织制得的库)或基因组库(由总基因组DNA制得的库)来获得。cDNA库的来源通常是据认为以适当量表达LSIRF的任何物种的一种组织(例如淋巴样组织)。基因组库的来源可以是认为包含编码LSIRF或LSIRF同系物的基因的任何组织或来自任何哺乳动物或其它物种的组织。可采用一个或更多的核酸探针(寡核苷酸、cDNA或基因组DNA片段，其具有与被克隆的LSIRF或LSIRF同系物cDNA或基因有可接受水平的同源性)筛选此库以探测LSIRF的cDNA/基因的存在，这些探针将选择性的与该库中存在的LSIRF或LSIRF同系物cDNA或基因杂交。用于此库筛选的探针通常来自与制备库的种类相同或相似的种类的编码LSIRF DNA序列的小区域。另外，该探针可是如下所讨论的密码间并物。

库筛选通常是通过将寡核苷酸探针或cDNA在严谨条件下与库中的克隆退火，其条件应防止非特异性结合而允许那些与探针或引物有相当水平同源性的克隆的结合。典型杂交和洗涤严谨条件部分取决于cDNA或寡核苷酸探针的大小(即其长度上的核苷酸数目)和该探针是否是密码简并的。在设计杂交溶液方面也考虑了获得克隆的可能性(即被筛选的是否cDNA或基因组库；如果是cDNA库，感兴趣的cDNA存在的可能性应很高)。

当DNA片段(例如cDNA)用作探针时，典型的杂交条件是那些例如文献(Ausubel等，同上)所述条件。在杂交后，以合适的严谨度洗含有该库的印迹，其取决于几个因素如探针大小，探针与克隆期望的同源性，筛选库的类型，筛选克隆的数目等等。严谨洗涤溶液(其通常离子强度低，并在相对高的温度下使用)的实例如下所列。一种这样的严谨洗液是：0.015M NaCl，0.005M柠檬酸钠和0.1％SDS，55～65℃。另一种这样的严谨缓冲液是：1mM Na₂EDTA，40mM NaHPO₄，pH7.2，及1％SDS，约40～50℃。另外一种严谨洗液是：0.2×SSC和0.1％SDS，约50～65℃。

当寡核苷酸探针用于筛选cDNA或基因组库时，可采用如下所列的两种用于严谨洗涤条件的方案。第一方案是采用6×SSC和0.05％焦磷酸钠，其温度在约35和62℃之间，取决于探针的长度。例如，在35～40℃下洗14碱基探针，在45～50℃下洗17碱基探针，在52～57℃下洗20碱基探针，57～63℃下洗23碱基探针。当背景非特异性结合强时，温度可升高2～3℃。第二方案是采用氯化四甲铵(TMAC)洗涤。一种这样的严谨洗涤溶液是3M TMAC，50mM Tris-HCl，pH8.0，及0.2％SDS。使用此溶液的洗涤温度是探针长度的函数。例如在约45～50℃下洗17碱基探针。

另一个获得编码LSIRF多肽的核酸的合适方法是聚合酶链反应(PCR)。在此方法中，将聚(A)+RNA或总RNA从表达LSIRF的组织(如淋巴样组织)中提取出来。然后用逆转录酶从RNA制备cDNA。然后将与LSIRF cDNA(寡核苷酸)的两个分开区域典型互补的两种引物与如Taq聚合酶等的聚合酶一起加入此cDNA中，聚合酶即可放大在两种引物间的此cDNA区域。

当选用的制备编码LSIRF多肽之核酸的方法要求使用寡核苷酸引物或探针(例如PCR，cDNA或基因组库筛选)时，选作探针或引物的寡核苷酸序列应有合适的长度和足够无歧义，以减少在筛选库或PCR放大期间出现的非特异性结合的量。实际上使用的这些探针和引物的序列通常基于来自另一个生物体的相同或相似基因的保守或高度同源的序列或区域。这些探针或引物可选择性地是全部或部分密码简并物，即含有探针/引物的混合物，其全部编码相同氨基酸序列，但采用不同的密码子来进行。另一种制备密码简并探针的方法是将肌苷置于那些因种类而变化的一些和所有密码子位置上。这些寡核苷酸探针或引物可通过如上所述DNA化学合成方法制备。

LSIRF突变体或变异体序列是在本发明的范围内。本文所用的突变体或变异体序列是这样一种序列，其与野生型序列相比有一个或多个核苷酸被取代、缺失、和/或插入，导致与野生型氨基酸序列相比的氨基酸序列变异。在一些情形下，由于存在天然等位基因变异，可存在天然存在的LSIRF氨基酸突变体或变异体。这些天然存生的变异体也是在本发明的范围内。合成突变体序列的制备是本领域已知的，例如Wells等(Gene，34：315，1985)和Sambrook等(如前述)所述方法。2.LSIRF多肽5’侧翼序列的制备

来自任何物种的LSIRF 5’侧翼序列(在本文中也称为启动子)包括在本发明的范围内。本文所用的启动子意思是LSIRF基因的5’侧翼序列。5’侧翼序列可有各种转录因子结合位，也可在约-30的位置上含有TATA框，并在TATA框上游有CCAAT框。此5’侧翼序列的特征是或单独或与如增强子元件、阻抑物等(其中任何一个或全部可以是很远侧的定位)其它因子联合在体内天然调节LSIRF基因转录。优选的5’侧翼序列是哺乳动物LSIRF的5’侧翼序列。最优选的是人LSIRF的5’侧翼序列。

本发明的5’侧翼序列可通过用最好与LSIRF基因的5’部分杂交的cDNA或基因组LSIRF片段筛选库而自基因组库获得。这些片段可与库中的一个克隆杂交，该克隆含有LSIRF 5’侧翼序列的部分或全部，其一般位于LSIRF编码序列始端的5’处。当鉴定出的克隆仅含有部分启动子时，该克隆本身或其片段可用于下一轮基因组库筛选，以获得另外的5’侧翼序列。用片段筛选(包括杂交和洗涤)可按如上所述克隆LSIRF基因和/或cDNA的方式完成。3.LSIRF表达载体的制备

克隆后，编码LSIRF多肽或其片段的cDNA或基因已被分离出，为了提高基因拷贝数和/或在合适的宿主细胞中表达该多肽，通常是将它插入放大和/或表达载体中。尽管也可用“定制的”的载体，但此载体常常是市场上可购得的载体。选用的该载体是在所用的特定宿主细胞中是功能性的(即，该载体是与宿主细胞机制是相容的，如此可发生LSIRF基因的放大和/或基因的表达)。LSIRF多肽和其片段可在原核、酵母、昆虫(杆状病毒体系)和/或真核宿主细胞中放大/表达。宿主细胞的选择将至少部分取决于LSIRF多肽或其片段是否需要糖基化。如果是，酵母、昆虫、和哺乳动物宿主细胞是优选的；酵母细胞将使多肽糖基化，昆虫和哺乳动物可使多肽糖基化和/或磷酸化，如同在LSIRF多肽上天然进行的一样(即“天然”糖基化和/或磷酸化)。

通常用于任何宿主细胞的载体将含有5’侧翼序列和其它调节元件，例如增强子、复制起点元件、转录终止元件、含有供体和受体剪接位点的完全内含子序列、信号肽序列、核糖体结合部位元件、多腺苷酸化序列、用于插入编码待表达多肽的核酸之多酶切点区域、和可选择标志元件。该载体可选择性地含有一个“标签”序列，即一个位于LSIRF编码序列的5’和3’端的寡核苷酸序列，它编码多组氨酸(如六聚组氨酸)或其它小的免疫原性序列的。此标签将与该蛋白质一起表达，可用作亲和标签以从宿主细胞纯化LSIRF多肽。可通过例如使用选择的肽酶等各种手段随后选择性地从纯化LSIRF多肽中除去此标签。A.5’侧翼序列元件

5’侧翼序列可是同源的(即来自与宿主细胞相同的物种和/或菌株)、异源的(即来自与宿主细胞物种或菌株以外的物种)、杂种(即由一个来源以上的p5’侧翼序列的组合)、合成的，或它可是天然LSIRF5’侧翼序列。如此，5’侧翼序列来源可是任何单细胞原核或真核生物、任何脊柱动物或无脊柱动物有机体、或任何植物，条件是5’侧翼序列在该宿主细胞机制中是功能性的，并可被其活化。

本发明的载体中有用的5’侧翼序列可通过本领域已知的几种方法中任何一种来获得。除LSIRF5’侧翼序列外，本文中有用的典型5’侧翼序列将先被内切酶谱分析和/或限制性内切核酸酶酶切鉴定出，从而可用适当限制性内切核酸酶从合适组织源中分离出。在一些情形下，5’侧翼序列的全核苷酸系列可以是已知的。这里可采用如上所述核酸合成或克隆的方法合成5’侧翼序列。

5’侧翼序列的全部或仅部分是已知时，可使用相同或其它的种类的合适的寡核苷酸和/或5’侧翼序列片段通过PCR和/或筛选基因组库来获得。

5’侧翼序列是未知时，含有同一种5’侧翼序列的DNA片段，可从可能含有例如编码序列或甚至另一个或一些基因的较大的DNA片中分离出。可用一个或更多的细心选择出的酶通过限制性内切核酸酶酶切分离适当的DNA片段来完成分离。酶切后，期望的片段可通过琼脂糖凝胶纯化、Qiagen柱或其它本领域技术人员已知的方法分离出。为完成此目的的合适酶的选择，对本领域普通技术人员而言是显而易见的。B.复制元件的起点

此组分通常是市场上可购得的原核表达载体的一部分，且有助于载体在宿主细胞中的放大。在一些情形下，载体放大到一定拷贝数目对LSIRF多肽的最佳表达是很重要的。如果选用的载体不含有复制部位的起点，其可以在已知序列的基础上化学合成出，并连接到载体上。C.转录终止元件

此元件通常是位于LSIRF多肽编码序列的3’端，用作终止LSIRF多肽的转录。一般在原核细胞中的转录终止元件是一个富G-C片段跟着一个聚胸苷酸序列。此元件很易从一个库克隆出或甚至作为载体的一部分在市场上购得，它也很容易用如上所述的核酸合成等方法合成出。D.可选择标志元件

可选择标志基因编码对宿主细胞在选择培养基中存活和生长所需的蛋白。典型的选择标志基因编码那些蛋白，它们(a)授予抗性给原核生物宿主细胞的抗生素或其它毒素，例如；氨苄青霉素、四环素、或卡那霉素；(b)补充细胞营养缺陷性缺陷；或(c)提供复合基中没有的必需营养。优选的可选择标志是卡那霉素抗性基因、氨苄青霉素抗性基因、和四环素抗性基因。E.核糖体结合部位元件

此元件通常称为SD(Shine-Dalgarno)序列(原核生物)或Kozak序列(真核生物)，是mRNA翻译起始所必须的。此元件典型地位于启动子的3’端和待合成多肽编码序列的5’端。SD序列是变化的，但通常是一个多嘌呤(即有高的A-G含量)。许多SD序列已被鉴定出，其每一个可很容易地用上述方法合成出。

所有以上列出的以及其它在本发明中有用的的元件，是本领域技术人员已知的，例如Sambrook等(Molecular Cloning：A Laboratory Manual，ColdSpring Harbor Laboratory Press，Cold Spring Harbor，NY，1989)和Berger等(Guide to Molecular Cloning Techniques，Academic Press，Inc.，San Diego，CA，1987)所述的。F.信号序列元件

本发明的优选实施方式中，当转基因被分泌，一个信号序列常常存在以引导该转基因编码的多肽转出合成它的细胞。通常，信号序列位于转基因的编码区域中，靠近或在此编码区域的5’端。许多信号序列已被鉴定出，在转基因组织中为功能性的任何一个信号序列可用于与转基因结合。所以，信号序列可与转基因是同源的或异源的，可与转基因哺乳动物是同源或异源的。此外，信号序列可是通过上述方法化学合成的。然而，为本文目的优选的信号序列是那些天然地与转基因一起存在的(即与转基因是同系的)。G.内含子元件

在许多情形下，转基因的转录由于一个或更多的内含子存在于载体中而被提高。此内含子可是天然出现于转基因序列中的，尤其是当转基因是全长或基因组DNA序列片段时。当内含子不是天然存在于DNA序列中时(如多数cDNA)，内含子可由另外的来源获得。内含子可与转基因和/或转基因哺乳动物同源或异源。内含子的位置对启动子和转基因是很重要的，因内含子必须有效地被转录。如此，当转基因是一个cDNA序列时，内含子优选位置是转录起始位的3’端，和聚腺苷酸转录终止序列的5’端。对cDNA转基因而言，内含子优选位于转基因序列的一侧或另一侧(即5’或3’)，如此它不会打断转基因序列。来自包括任何病毒的、原核和真核(植物或动物)有机体的任何来源的任何内含子可用于实施本发明，条件是它与其要插入的宿主细胞是相容的。本文也包括合成的内含子。载体中可选择性使用一个以上的内含子。H.载体的构建

当一种或更多的前述元件没有存在于所用的载体中时，它们可分别获得并连接到载体上。用于获得每个元件的方法是本领域技术人员已知的，类似前述方法(即DNA的合成、库筛选等)。

用于实施本发明的最后载体通常是由一个如市场上可购得载体等起始载体构建成的。此载体可以含有或不含有一些应包括在完成的载体中的元件。如果没有任何所需元件存在于起始载体中，每个元件可单独连接到此载体上，其是通过用合适的限制性内切核酸酶来切载体从而使用于连接的元件端头与载体的连接端头是连接相容的。在一些情形下，可能必须“平端化”待连接在一起的端头，以获得满意的连接。钝化是通过先用KlenowDNA聚合酶或T4 DNA聚合酶在所有四种核苷酸存在下填充进“粘端”来完成的。此过程在本领域是已知的，如Sambrook等人所述(同前)。

另外，待插入载体的两个或更多的元件可先连接在一起(如果它们位置是彼此相邻的话)，然后再连接到载体上。

构建载体的另一个方法是各种元件在一个反应混合物中同时进行所有的连接。在此，由于元件不适当的连接或插入，将会形成许多无用和无功能的载体，但通过限制性内切核酸酶酶切可以鉴定并选择出功能性载体。

为实施本发明的优选载体是与细菌、昆虫、和哺乳动物宿主细胞相容的那些载体。这样的载体特别包括pCRII(Invitrogen Company，San Diego，CA)，pBSII(Stratagene Company，LaJolla，CA)、和pETL(BlueBacII，Invitrogen)。

在载体构建完，并且一个LSIRF核酸已插入载体的合适部位后，完成的载体可被插入合适的宿主细胞中以放大和/或LSIRF多肽表达。使用的典型宿主细胞包括但不限于：原核细胞，例如革兰氏阴性或革兰氏阳性细胞、即大肠杆菌、杆菌、链霉菌属、酵母霉属、沙门氏菌等任何菌株；真核细胞，例如CHO(Chinese Hamster ovary)细胞、人肾293细胞、COS-7细胞；昆虫细胞，例如Sf4、Sf5、Sf9、及Sf21和High5(均来自InvitrogenCompany，San Diego，CA)；各种酵母细胞，例如酵母菌属(Shccharomyces)和Pichia。

载体插入(也称为“转化”或“转染”)选择的宿主细胞中可采用诸如氯化钙、电穿孔、显微注射、脂染(lipofection)或DEAE-右旋糖酐法等方法来完成。选择的方法部分取决于所用宿主细胞的类型。这些方法和其他适用的方法是本领域技术人员已知的，例如Sambrook等(同上)所述的。

含有载体的宿主细胞(即已转化或转染的)可采用本领域已知的标准培养基培养。此培养基通常将含有细胞生长和存活所需的全部营养。培养大肠杆菌的合适培养基有例如Luria Broth(LB)和/或Terrific Broth(TB)。培养真核细胞的合适培养基是RPMI 1640、MEM、DMEM，根据所培养的特定细胞系需要，均可补充血清和/或生长因子。昆虫培养的合适培养基是必要时补充yeastolate、乳白蛋白水解产物、和/或胎牛血清的Grace培养基。

通常用于转化细胞选择性生长的抗体或其他化合物仅作为补充物加入培养基中。所用的化合物将受存在于转化宿主细胞的质粒上的可选择标志元件所控制。例如当可选择标志元件是抗卡那霉素时，往培养基中所添加的化合物将是卡那霉素。4.表达的估评

可用本领域已知的标准方法评估在宿主细胞中生产的LSIRF多肽的量。这些方法包括但不限于：蛋白质印迹分析、SDS-聚丙烯酰胺凝胶电泳、非变性凝胶电泳、HPLC分离、免疫沉淀、和/或例如DNA结合凝胶位移测定等的活性检定。5.LSIRF多肽的纯化

如果已设计从宿主细胞中分泌出LSIRF多肽，大多数的多肽可能发现于细胞培养基中。但如果LSIRF多肽不是从宿主细胞中分泌出，它将存在于细胞质中(对真核、革兰氏阳性细菌、和昆虫宿主细胞而言)或在周质中(对革兰氏阴性细菌宿主细胞而言)。

对于胞内LSIRF，宿主细胞是先被机械或渗透裂解，以使细胞质内容物被释放进缓冲溶液中。然后从此溶液中分离出LSIRF多肽。

从溶液中纯化LSIRF可采用各种技术来完成。如果已合成出的此多肽在其羧酸或氨基酸端含有一个标签，例如六聚组氨酸(LSILRF/HexaHis)或其他小的肽，将溶液通过一个亲和柱在一步过程就可基本纯化多肽，柱中基质对标签或直接对多肽(即特异性识别LSIRF的单克隆抗体)有高的亲和性。例如，多组氨酸以强亲和力和特异性与镍结合，如此镍亲和柱(例如Qiagen镍柱)可用于LSIRF/多组氨酸的纯化。(例如见Ausubel等，eds.，Current Protocols in Molecular Biology，Section 10.11.8，John Wiley&Sons，New York，1993)。

当LSIRF多肽没有可用的标签和抗体时，可采用其他已知的过程纯化。这些过程包括但不限于：离子交换色谱、分子筛色谱、HPLC、天然凝胶电泳联合凝胶洗脱、和制备性等电聚焦(“isoprime”machine/technique，Hoefer Scientific)。在一些情形下，两种或更多的这些技术可联合使用，以获得高的纯度。纯化的优选方法包括多组氨酸标签和离子交换色谱联合制备性等电聚焦。

如果期望主要在细菌的周质腔或真核细胞的细胞质中发现LSIRF多肽，可采用任何本领域已知标准技术从宿主细胞提取出周质或细胞质的内容物，包括包涵体(细菌)，如果加上的多肽已形成这样的复合物的话。例如，可通过弗氏挤压(French Press)、匀浆、和/或声处理溶解宿主细胞释放出周质的内容物。然后可离心此匀浆。

如果LSIRF多肽已在周质中形成了包涵体，该包涵体常与内和/或外细胞膜结合，因此将主要被发现于离心后的粒状物中。而后粒状物可用诸如胍或脲等促溶剂处理释放、分裂、和溶解包涵体。然后采用凝胶电泳、免疫沉淀或其他方法分析其现在已是可溶性形式的LSIRF多肽。如果期望分离出LSIRF多肽，可采用例如下列的和Marston等(meth.Enz.，182：264-275，1990)所述的那些方法等标准方法来完成此分离。

如果LSIRF多肽包涵体在宿主细胞的周质中的形成没有达到相当的程度，将主要在细胞均浆离心后的上清液中发现LSIRF多肽，可采用例如下列方法从上清液中分离出LSIRF多肽。

在那些优选部分或完全分离LSIRF多肽的情形下，采用本领域已知的标准方法完成纯化。这些方法包括但不限于：电泳分离后电洗脱、各种色谱(免疫亲和、分子筛、和/或离子交换)、和/或高压液相色谱。在一些情形下，可优选采用一种以上的方法完成纯化。

本文所用术语“物质”是指用于抑制LSIRF基因转录、LSIRF mRNA翻译、或LSIRF多肽的活性的化合物。

术语“治疗有效”是指为获得期望之生理反应所需物质的量，即抑制淋巴细胞对响应抗原刺激或自身免疫应答的活化，或提高淋巴细胞数目以刺激对抗原刺激的免疫应答。

术语“抗原刺激”是指一种化合物，其或是在哺乳动物(内源性)中天然发现的，并引出一些方面的免疫应答；或是来自外源性来源，侵入哺乳动物体系，并引出一些方面的免疫应答。

实施本发明方法有用的组合物可根据本领域普通技术人员已知的标准方法来制备。治疗抗LSIRF抗体

实施本发明有用的用于治疗的多克隆或单克隆抗LSIRF抗体可用下述方法在实验室动物中或重组DNA技术来制备。对含有靶氨基酸序列的LSIRF分子或其片段之多克隆抗体一般是通过多次皮下(sc)或腹膜腔注射(ip)该LSIRF分子联合如Freund佐剂(完全和不完全)等佐剂在动物中产生。为提高免疫原性，可用双功能或衍生剂，如马来酰亚氨基苯甲酰基磺基琥珀酰亚胺酯(通过半胱氨酸残基结合)、N-羟基琥珀酰亚胺(通过赖氨酸残基)、戊二醛、琥珀酐、SOCl₂、或R¹N＝C＝NR(其中R和R¹是不同的烷基基团)等，先将该LSIRF分子或含有靶氨基酸序列的片段结合到在待免疫的物种中是免疫原性的蛋白上，如匙孔血蓝蛋白、血清白蛋白、牛甲状腺球蛋白，或大豆胰蛋白酶抑制剂，是很有用的。另外，LSIRF-免疫原性结合物可作为融合蛋白重组生成。

通过将约1mg或约1μg的结合物(分别对兔子或鼠)与约3倍体积的Freund完全佐剂结合，并皮内多点注射该溶液，就免疫原性LSIRF结合物或衍生物(例如含有此靶氨基酸序列的片段)，对动物进行免疫。大约7或14天后，从动物身上取血，对血清进行抗-LSIRF滴定度检测。反复对动物进行加强免疫直至到达滴定平台处。最好用与最初免疫所用之相同LSIRF分子或其片段对动物进行加强免疫，但其与不同蛋白结合和/或通过不同交联剂结合。此外，可将例如明矾等聚集剂用于注射液中以提高免疫应答。

单克隆抗体的制备可以是从免疫动物中取出脾细胞，按如通过与骨髓瘤细胞融合等传统方式使细胞可无限增殖。然后筛选出表达期望抗体的那些克隆。优选单克隆抗体与其它LSIRF多肽或LSIRF多肽同型没有交叉反应。

采用重组DNA方法，例如噬菌体质粒嵌合体显示方法，制备抗体可使用市场上购得的试剂盒来完成，如Pharmacia(Uppsala，Sweden)的重组噬菌体质粒嵌合体抗体体系，或SurfZAP^TM噬菌体显示体系(Stratagene Inc.，LaJolla，CA)。

施用于人的抗体，尽管是在如鼠等实验室动物中制备，但较佳的是“人源化(Humanized)”的或嵌合的，也就是将其与人的免疫体系相容，从而使病人对此抗体将没有免疫应答。更佳的是，现在可采用例如Lonberg等(Nature Genetics，7：13-21，1994)所述方法制备的人的抗体，优选治疗性施用于病人。

采用任何一种上述方法生成出的抗体可与能穿透细胞膜和核膜的化合物结合，以输入此抗体到核中。例如采用核靶信号，如在LSIRF的磷酸化形式中所发现的。治疗组合物和施用

可通过将具有所需纯度的所选组合物选择性地与生理上可接受的载体、赋形剂、或稳定剂(Remington’s Pharmaceutical Sciences，18th edition，A.R.Gennaro，ed.，Mack Publishing Company，1990)混合来制备，并以冷冻干燥饼或水溶液的形式储存用于实施本发明的组合物的治疗配方，例如LSIRF抗体。可接受的载体、赋形剂或稳定剂对受体在所用的剂量和浓度下是无毒的，且最好是惰性的，并包括缓冲液，例如磷酸盐、柠檬酸盐、或其它有机酸；抗氧化剂，例如抗坏血酸；低分子量多肽；蛋白，例如血清白蛋白，明胶，或免疫球蛋白；亲水聚合物，例如聚乙烯吡咯烷酮；氨基酸，例如甘氨酸、谷氨酰胺、天冬酰胺、精氨酸或赖氨酸；单糖，双糖，和其它碳水化合物，包括葡萄糖、甘露糖、或糊精；螯合剂，例如EDTA；糖醇，例如甘露醇或山梨糖醇；盐形式的平衡离子，例如钠；和/或非离子表面活性剂，例如Tween，Pluronics或聚乙烯醇(PEG)。

用于体内施用的组合物必须是无菌的。经在冷冻干燥和配制前或后，将其通过无菌过滤膜过滤很容易使其无菌。用于肠胃道外施用的组合物通常是以冷冻干燥或溶液形式储存。

治疗组合物一般是放置于有无菌入口的容器中，例如静脉内溶液袋或具有可被皮下注射针刺透的瓶塞的管瓶。

该组合物施用途径是与已知方法一致的，例如口服、通过静脉内的、腹膜内的、脑内、肌肉内、眼内的、动脉内的、或病灶内的途径注射或输入、或通过持续释放体系或植入装置。如果需要，组合物可通过输入、丸剂投入或植入装置连续施用。

持续释放制剂的适当实例包括成型物形式的半透性聚合物基质，例如膜、或微胶粒。持续释放基质包括聚酯、水溶胶、聚交酯(U.S.3,773,919，EP58,481)、L-谷氨酸和γ乙基-L-谷氨酸酯的共聚物(Sidnam等，Biopolymers，22：547-556，1983)、聚(2-羟基乙基-异丁烯酸酯)(Langer等，J.Biomed.Mater.Res.，15：167-277，1981；和Langer，Chem.Tech.，12：98-105，1982)，乙烯乙酸乙烯酯(Langer等，同上)或聚-D(-)-3羟基丁酸(EP133,988)。持续释放组合物也可包括脂质体，其可通过本领域已知几个方法中任何一种来制得(例如，DE 3,218,121；Epstein等，Proc.Natl.Acad.Sci.USA，82：3688-3692，1985；Hwang等，Proc.Natl，Acad.Sci.USA，77：4030-4034，1980；EP 52,322；EP 36,676；EP 88,046；EP 143,949)。

该组合物用于治疗的有效量将取决于例如治疗对象、投用途径、和病人的状况。因此当需要获得最佳治疗效果时，治疗人员有必要改变剂量和修改投用途径。典型的每日剂量可在约1μ/kg至100mg/kg或更高的范围内，取决于上述因素。通常，医生将投用该组合物，直至已达到获得所期效果的剂量。这一治疗过程是容易通过设计评估的传统测试方法监测。

本发明的LSIRF核酸分子、5’侧翼序列、多肽、和抗体将有各种用途，其对本领域普通技术人员是显而易见的。

LSIRF多肽将可用作用于调节淋巴细胞活化的治疗化合物靶物。通过阻碍LSIRF基因的表达(通过减少LSIRF转录或转化)或降低LSIRF多肽的活性，抑制淋巴细胞相对一定环境刺激的活化是可能的。通过提高LSIRF基因的表达水平(通过向上调节LSIRF 5’侧翼序列)，有可能刺激淋巴细胞活化和增殖，因此提高对特定抗原的免疫应答。

本发明的抗体可是多克隆或单克隆的，可针对LSIRF在任何哺乳动物中产生。这些抗体可用于评价LSIRF多肽在给定组织或生物样品中的存在和/或数量。此外，它们可用于与此多肽活性部位结合，来降低LSIRF活性。因此可发现抗体本身可用作治疗化合物以降低LSIRF多肽水平。

参考下述实施例将更容易地理解本发明。这些实施例并不应以任何方式限定本发明范围。实施例实施例1 克隆鼠LSIRF cDNA

将两个PCR(聚合酶链反应)部分密码简并引物用于从C57B1/6鼠脾组织获得的总RNA制得的cDNA的PCR放大。该引物为：ATCCTGGAACACGC (序列识别号：5)GCACACGAACTGCCTTCCA (序列识别号：6)5号引物含有三个肌苷碱基，其位于核苷酸2和3(T和C)、核苷酸4和5(C和T)、及核苷酸9和10(A和C)之间。6号引物在序列中含有四个肌苷碱基，其位于核苷酸5和6(A和C)、核苷酸7和8(G和A)、核苷酸9和10(A和C)、及核苷酸11和12(T和G)之间。

PCR在可程序调节热循环机(Perkin-Elmer Cetus，Norwalk，CT)内，50μl含有200μM dNTPs，2U Taq聚合酶和100pM各引物的PCR缓冲液(10mM Tris-HCl，pH8.3，1.5mM MgCl₂，和50mM KCl)中进行。以下列温度变换方式进行PCR的三十个循环：94℃ 60秒；37℃ 60秒；72℃ 60秒。接着用TA-克隆体系(Invitrogen Corp.，San Diego，CA)将PCR产物直接插入pCRII质粒。含有PCR产物插入的质粒被转化到感受态大肠杆菌菌株INV-αF’(Invitrgen Corp.)中以便放大。这些宿主细胞的质粒DNA用标准碱性分解方法(Sambrook等，同上)来制备，然后质粒DNA在约1.5％琼脂糖凝胶中进行电泳。部分DNA在Hybond-N膜(Amersham，Oakville，Ontario，Canada)上印迹，根据制造商的说明书(Amersham)用随机引发的³²P标记的鼠IRF-1和IRF-2的DNA片段进行杂交。没有与IRF-1或IRF-2片段杂交的克隆的质粒DNA，用US BioscienceSequenase kit(US Bioscience，Cleveland，Ohio)测序。一个“Spl5”克隆，含有新的核苷酸序列，这是在Genbank中检索后确定的。通过随机引发(Amersham方法)³²P标记此克隆，然后用于筛选鼠IL-4诱导的脾cDNA库(Clonetech，Palo Alto，CA)。杂交后，含有cDNA库克隆的滤膜先用1×SSC和0.1％SDS于约65℃洗涤约30分钟，再用0.2×SSC和0.1％SDS于约65℃洗涤约30分钟。获得两种缺乏ATG起始密码子的LSIRF cDNA克隆。这些克隆之一，“C13”，被用于重新筛选同样的库，得到一个约5kb的克隆，“C16”，其也缺5’序列。然后克隆C16用于筛选λZAPII鼠脾cDNA库(Stratagene，La Jolla，CA)，获得几个含有推测的ATG起始密码子的部分克隆。通过用5’延伸引物的PCR产生一个人工克隆，获得含有全部编码LSIRF区域的完全cDNA序列。将此克隆插入载体pBSII中，产生质粒PV-1，证实LSIRF序列。

对每个部分cDNA克隆获得预测的氨基酸序列，一些克隆在164氨基酸位上有一个额外的谷氨酰胺。图1中列出了PV-1全长cDNA序列，其约1.4kb。PV-1 cDNA在164氨基酸位上有额外的谷氨酰胺。图2列出了基于LSIRF cDNA序列预测的LSIRF全长氨基酸序列。实施例2鼠LSIRF的基因组克隆

用下列引物对LSIRF cDNA的C16克隆的约630bp部分进行PCR放大：CAGCCCGGGGTACTTGCCGCTGTC (序列识别号：7)AGACCTTATGCTTGGCTCAATGGG (序列识别号：8)PCR条件是94℃ 1分钟，72℃ 30秒。

用1％琼脂糖凝胶电泳，再通过一个Spin-X柱(CoStar Corp.，Cambridge，MA)，纯化获得PCR片段。然后用随机引发技术(Amersham)对此片段进行³²P标记，然后将其用于筛选由129/J鼠肾组织制得的基因组库。于65℃用0.1×SSC和0.1％SDS洗涤，获得几个克隆。将这些克隆中的两个(大小：12和15kb)亚克隆进载体pBSII(Stratagene，La Jolla，CA)中进行测序。这些克隆含有重叠序列，从而可以鉴定约2kb 5’侧翼序列。图3列出了5’侧翼序列。图4列了含有鼠LSIRF基因外显子和内含子的基因组序列，由于序列的不确定性序列中的不一致处对A或G是标为“R”，对G或C是标为“S”，对A或C是标为“M”，对T或G是标为“K”。其不确定性是：M在核苷酸748，4159，7413，和10357；R在核苷酸5277，5310，10564，和11713；K在核苷酸4513，5885，和9812；S在核苷酸6425。

所有不确定性是在内含子中，因此不影响构成LSIRF编码区域的外显子的实际核苷酸序列。

将核苷酸(cDNA和基因组)序列和推导的LSIRF氨基酸序列与GenBank和SwissProt数据库中的所有序列比较，未发现等同的序列。但，LSIRF氨基端序列与IRF族其它成员有同源性。与多肽ICSBP(干扰素共有序列结合蛋白)有最高同源性，其与LSIRF在氨基端享有83％同源性(允许一个氨基酸缺口)。实施例3鼠LSIRF表达

通过EcoRI限制性酶切从质粒PV-1切下LSIRF全长cDNA序列。电泳后从0.7％琼脂糖凝胶分离出此LSIRF基因，用Klenow DNA聚合酶钝化端点，并连接到质粒pETL(BlueBacII，Invitrogen Company)的NheI位上，生成质粒pETL-LSIRF。采用标准培养方法和条件，在大肠杆菌细胞菌株DH5-α中放大该质粒(在氨苄青霉素存在下生长)。在合适的定向上含有LSIRF基因的纯化了的质粒(如用EcoRI，HindIII，PvuII酶切的限制内切核酸酶酶谱分析所确定的)与线性化杆状病毒基因组DNA(InvitrogenCorp.，San Diego，CA，USA)一起共转染进Sf9昆虫细胞(American TypeCulture Collection，12301 Parklawn Drive，Rockville，MD USA有成品)中，在补充yeastolate，乳清蛋白水解产物，10％胎牛血清的Grace培养基中，于约28℃培养该细胞约48小时。

培养后，收获细胞，在Bluo-gal(gibco-bRL，Grand Island，NY，USA)存在下进行噬菌斑测定(Richardson，ed.，Meth.Mol.Biol.，vol 39；BaculovirusExpression Protocols，Humana Press，Totowa，NJ，1995)以分离重组病毒。培养5～7天后选择兰重组噬菌斑，并在含有Sf9细胞的24孔微滴定板中放大这些噬菌斑。在组织培养烧瓶中通过大规模细胞培养进一步放大重组病毒，直至获得约10⁸pfu/ml滴定度。以每个细胞约1pfu的感染复数感染Sf9细胞，在感染后0、24、48、72、和96小时收获细胞，来确认LSIRF表达。然后在SDS-PAGE样品缓冲液(100mM DTT，80mM Tris-HCl，pH6.8，10％甘油，0.0012％溴苯酚兰)中溶解制得细胞溶胞产物，用蛋白质印迹分析法来进行分析。

就LSIRF多肽的存在分析了Sf9细胞和鼠外周淋巴细胞二者的蛋白提取物。从鼠切下的淋巴结，使淋巴结组织通过细目筛，制得淋巴细胞。在补充10％胎牛血清的Iscove培养基中维持淋巴细胞。用根据制造商提供的方法(Pharmingen，San Diego，CA)(对Sf9细胞而言)或Sambrook等所述方法(Molecular Cloning：A Laboratory Manual，Cold Spring HarborLaboratory Press，Cold Spring Harbor，NY，1989；对淋巴细胞而言)制备Sf9和淋巴细胞的蛋白提取物。将这些蛋白在8％聚丙烯酰胺/0.1％SDS胶上分离，用标准过程将该胶转移至Immobilon-P膜(Millipore Company)。先将印迹与封闭缓冲液(4％脱脂牛奶，0.05％Tween-20，1×PBS)中室温下保温1小时。然后以约1∶2000稀释度(在一份封闭缓冲液对一份PBS的溶液中)，于印迹中加入对抗LSIRF羧基端肽的LSIRF兔多克隆抗血清。注射进兔子以产生抗体的LSIRF肽为：GYELPHEVTTPDYHR (序列识别号：9)印迹与LSIRF抗体保温约1小时后进行清洗，用山羊抗兔辣根过氧化物酶-偶联抗体以约1∶5000的稀释度检测LSIRF抗体。

结果表明对抗-CD3抗体刺激的外周T细胞和重组Sf9细胞，抗LSIRF抗体识别出了一个约51kD的带(推测的LSIRF的分子量)。实施例4鼠LSIRF表达分析A.组织印迹

为评估LSIRF转录物的组织特异性，采用Wangm等人所述方法(EMBOJ.，10：2437-2450，1991)，从鼠脑、肺、胸腺、骨髓、脾、肝、肠、胰腺、唾液腺、睾丸、心和平滑肌组织制得总RNA。通过1％琼脂糖/甲醛凝胶用标准方法将这些RNA进行电泳，再转移到硝基纤维素纸上如Sambrook等人所述(同上)。然后将印迹与含有LSIRF全部编码区域(PV-1插入物)的随机引发³²P标记的1.4kb cDNA杂交，随后于约50℃下用0.2×SSC和0.1％SDS洗涤，如Stewart等所述(Meth.Mol.Cell Biol.，1：73-76，1989)。

结果如图5所示，表明约5.5kb的LSIRF转录物大量存在于脾和骨髓组织中，而在胸腺和肺中有相同大小的较弱的转录物。令人吃惊的是没有观察的额外的带。此外，图6显示出淋巴结组织也含有LSIRF转录物。

采用RNA印迹分析，评估包括CTLL-2、D10.G4.1、HT-2、EL-4、和BW5147(所有细胞均可得自American Type Culture Collection，12301Parklawn Drive，Rockville，MD，USA)在内的各种T细胞系的LSIRF表达。采用Chomczynski等(Anal.Biochem.，162：156-159，1987)的方法，从这些细胞系提取RNA。在37℃，5％CO₂下，在补充了10％胎牛血清和2mM L-谷氨酰胺的Iscove培养基中维持这些细胞系。据认为前三个细胞系是外周T细胞系，而后两个是未成熟T细胞系。HT-2和CTLL-2细胞的培养是补充了50U/ml的IL-2(Genzyme Inc.，Cambridge，MA)和50μM 2-巯基乙醇；D10.G4.1的培养是补充了50U/ml的IL-1(Genzyme Inc.，Cambridge，MA)，50U/ml的IL-2和50mM 2-巯基乙醇。

由总RNA制得RNA印迹，转移到HybondN纸上，如上所述用Stewart等(同上)的方法，用1.4kb随机引发的cDNA探测。

结果表明LSIRF转录物仅在外周T细胞系中是可见的，因此推测LSIRF优选在成熟T细胞中表达。在pre-B细胞系CB17.51、B细胞系WEHI231(American Type Culture Collection)、plasmacytoma细胞系J558(American Type Culture Collection)中mRNA转录物的类似分析显示该转录物在所有细胞系中均存在，且J558有最强的信号。

在培养细胞中加入各种刺激物，并评估LSIRF的mRNA水平，来评价LSIRF在得自脾或淋巴结的原始淋巴细胞中的诱导作用。用于淋巴结细胞的刺激物是1000U/ml鼠β-干扰素(β-IFN；Lee biomolecular Research，SanDiego，CA)、100U/ml鼠γ-干扰素(γ-IFN；Genzyme Inc.，Cambridge，MA)、或10ng/ml鼠肿瘤坏死因子(TNF；Genzyme Inc.)。脾细胞是用20μg/ml抗-IgM抗体，10μg/ml脂多糖(LPS；一种细菌内毒素)，10ng/ml PMA(佛波醇豆蔻酸酯乙酸酯；Sigma Chemical Co.，St.Louis，MO)，1mg/ml环孢菌素A(CsA；Sandoz Company，Basel，Switzerland)、10μg/ml伴刀豆球蛋白A(ConA；Sigma)、或1或10μg/ml环已酰亚胺(CHX；Sigma)处理的。在37℃下处理所有细胞6小时。

其结果见图6、7和8。在所有这些图中，β肌动蛋白是作为分析总RNA量的指示而显示的。

图6显示了抗-CD3抗体诱导了LSIRF转录。但最令人惊奇的是干扰素并不诱导LSIRF转录物。这是与其他已知IRF明显相反，因其它已知IRF的转录物是被干扰素诱导的。

图7显示环已酰亚胺，一种蛋白合成抑制剂，诱导了LSIRF转录。这一结果是意料之外的，因为环已酰亚胺并不诱导IRF-1或IRF-2基因的转录。

图8显示了抗-IgM和PMA诱导了LSIRF转录物。抗-IgM的这种诱导是令人惊奇的，因其表明LSIRF不仅在T细胞中表达也在B细胞中表达。B.凝胶移位测定

进行电泳迁移率测定评估LSIRF多肽是否是一个DNA结合蛋白。如下制备自对照Sf9细胞(仅与野生型杆状病毒转染)和表达LSIRF的Sf9(与含LSIRF cDNA的杆状病毒转染)细胞的核提取物。将Sf9细胞离心分离，然后用PBS洗涤两次。最后一次洗涤后，以每107个细胞用0.5ml“H-缓冲液”(低渗缓冲液的量)使细胞重新悬浮(H-缓冲液的组成为：25mM Hepes-NaOH，pH8.0，10mM KCl，5mM MgCl₂，0.5mM EDTA，和0.5mM DTT)，并在冰上保温约30分钟，在此期间由于低渗缓冲液作用细胞膨胀。而后在匀浆器(dounce homogenizer)中用15冲程B型捣锤破坏细胞。在约4℃于微离心机中在10K转/分下离心约10分钟从细胞碎片中分离核。通过每10⁷细胞在0.5ml N-缓冲液中重悬浮(N-缓冲液的组成：25mM Hepes-NaOH pH8.0，400mM KCl，5mM MgCl₂，5mM EDTA，10％甘油，和0.5mM DTT)，在冰上保温约20分钟，来提取含有多数核的沉淀物。然后在4℃微离心机中15K转/分下离心悬浮液约15分钟。用Centricon 10微浓缩器(Amicon Corporation)，对含有多数LSIRF多肽的上清液进行缓冲液交换，以除去多余的盐。浓度稀释缓冲液是E-缓冲液(25mM Hepes-NaOH，pH8.0，50mM KCl，5mM MgCl₂，0.5mM EDTA，15％甘油，和0.5mM DTT)。H-缓冲液、N-缓冲液、和E-缓冲液都含有下列蛋白酶抑制剂：0.5mM PMSF，0.5μg/ml leupepin，0.5μg/ml aprotinin)。

为评估由于与LSIRF结合的特定DNA片段电泳迁移率，将提取物与双链32P-标记DNA探针一起保温。下面列出了此探针有义链的序列，一种野生型鼠MHC IRSE结合序列：TGCAGAAGTGAAACTGAGG (序列识别号：10)对结合反应，在结合反应缓冲液(12mM Hepes-KOH，pH7.9，30mM KCl，60μM EGTA，0.3mM DTT，2.5％Ficoll，0.6μg poly(dI-dC)[由Pharmacia获得]，和0.05％NP-40)中制备约25×10³cpm(相应于约1×10^-11摩尔探针)。通过在含有约0.1mg/ml的BSA(牛血清白蛋白)的E-缓冲液中稀释约8倍至最后浓度约为14μg总蛋白/ml(对含LSIRF的反应)，和约22μg总蛋白/ml(对照反应)，来制备核提取物。加入约1μl核提取物至约6.24μl的探针溶液中，开始结合反应，在一些情形下探针溶液也含有未标记“竞争剂”DNA片段。每个这些片段的序列都列于表1中。加入的竞争片段是约750倍摩尔过量(与标记片段比较)。核提取物/探针溶液在约23℃保温约20分钟，然后置于9％聚丙烯酰胺凝胶(用0.25×TBE制备)上，此凝胶已在载样品前预先在约250伏下运行了约2小时。凝胶在约300伏下运行约2小时，以将蛋白-DNA复合物与未结合DNA探针分离开。然后干燥凝胶，并用它曝光显影，评估由于蛋白结合的DNA探针迁移位移。表1片段序列mMHC ISRE野生型 TGCAGAAGTGAAACTGAG (序列识别号：11)mISRE mt1 TGCAGAAGTGAAACCTGG (序列识别号：12)mISRE mt2 TGCAGAAGTGAACATGAG (序列识别号：13)mISRE mt3 TGCAGAAGTGGTCCTGAG (序列识别号：14)mISRE mt4 GCTAGAAGTGAAACTGAG (序列识别号：15)mIgλB AAAGGAAGTGAAACCAAG (序列识别号：16)mIgkappa E3’ TGAGGAACTGAAAACAGA (序列识别号：17)hISG54 ISRE GGGAAAGTGAAACTAG (序列识别号：18)

表1中， “m”表示鼠序列，且“h”表示人序列。

结果见图9。如图所示，野生型MHC ISRE序列与LSIRF蛋白结合。此外，两个ISRE DNA片段突变体，m1和m4，如两个其它DNA片段，Ig Lambda B和ISG54一样竞争结合。实施例5：人LSIRF克隆

为鉴定编码LSIRF的人cDNA，用鼠PV-1克隆筛选人淋巴细胞cDNA库(Clontech，Palo Aoto，CA；catalog number HL 1031a)。筛选条件是65℃下于Church缓冲液(Church和Gilbert，Proc.Natol.Acad.Sci.USA，81：1991-1995，1984)过夜。洗涤滤膜两次约30分钟，每次用2×SSC和0.1％SDS。在约一百万筛选的噬菌斑中，两个阳性克隆被鉴定出，分离，并且用标准技术纯化DNA。将克隆亚克隆到pBluescript(Stratagene，LaJolla，CA)的EcoRI位中。将这些克隆中最长者测序，其称为H14，大于约2kb。此序列指示出此克隆是TNF(肿瘤坏死因子)受体p55(约400碱基对)和约1kb与鼠LSIRF序列外显子3-9高度同源的序列的杂种。此外，此克隆有一个保守的停止密码子，一个剪接供体序列，和约600个碱基对的内含子。因此可得出结论，此1019碱基对序列代表了部分人LSIRF序列。用以下引物的PCR放大此1019个碱基对的序列：CTGGACATCTCAGACCCGTACAAAGTG (序列识别号：19)CTTGACATTTTTCATTCTTGAATAGAG (序列识别号：20)放大条件是94℃下30秒，65℃下30秒，且72℃下约90秒。在Taq聚合酶存在下使用约500ng H14模板，进行约15循环PCR。所得PCR产物直接连接到TA克隆载体试剂盒载体PCRII(Invitrogen，San Diego，CA)上，并进行测序以证实放大了适当的片段。这一1019碱基对cDNA片段，其称为“FISH”，被用于筛选人白细胞5’-伸长cDNA库(Clonteh；catalognumber HL 1169x)。筛选条件是：约65℃在Church缓冲液中过夜，随后用2×SSC和0.1％SDS约30分钟洗涤两次，然后用0.2×SSC和0.1％SDS约30分钟洗涤两次。约500000的一个空斑被鉴定出，纯化DNA，并测序。此克隆，称为HIRF4λDR2，含有内含子2和全长外显子3(在H14克隆中仅发现部分外显子3)、以及外显子5、7、8和内含子8。外显子4和6推测是被剪掉或缺失了。

为得到其余LSIRF编码序列，采用了两种方法。首先，用FISH cDNA作探针，在载体lambda fix2(Stratagene，LaJolla，CA)中，筛选人胎盘基因组库。筛选条件是在Church缓冲液中于约65℃过夜，随后用2×SSC和0.1％SDS约30分钟洗涤两次，然后用0.2×SSC和0.1％SDS约30分钟洗涤两次。分离了十个噬菌体克隆，自一个克隆纯化DNA，其称为HG-1。用限制性核酸内切酶BamHI，SacI，和XbaI酶切此DNA，其片段被亚克隆进克隆载体pMOB(Strathmann等人，Proc.NatI.Acad.Sci.USA，88：1247-1250，1991)。获得每个片段的序列，并与鼠LSIRF序列比较。基于与鼠序列的同源性，在此克隆中鉴定人LSIRF的启动子、外显子I和外显子II。

所用的第二种方法是RACE反应，使用Clontech Marathon试剂盒及制造商提供的方法。使用了称为OCILY8的一个B-细胞淋巴组织瘤系(见Blood，69：1307-1314，1987)，其已被RNA印迹分析显示有高LSIRF表达。将所得RACE产物测序，发现与外显子一和二(如上所述得到的)的基因组序列相配。

为产生一个开放阅读框，从载体PCRII的EcoRI位切下FISH cDNA，将其连接到PGEX4T3(Promega，Madison，WI)的EcoRI位上，形成载体pGEX4T3-FISH。为获得一个以可使其本身与FISH克隆融合形式的可读框的5’端，使用人脾Marathon(Clontech，catalog no.7412-1)成品cDNA，及以下两个引物来放大：TGCCCTCAGCTCCGAGTCCAG (序列识别号：21)AACCATTTTCACAAGCTG (序列识别号：22)

用PCR在下列条件下完成放大：94℃下30秒，64℃下30秒，68℃下1分钟。用高精度聚合酶(Boehringer mangeim)进行了三十个循环。采用此方法，放大LSIRF的氨基端序列，得到了所期望的约600碱基对大小的DNA片段。

用序列识别号：22(见上)和列于下面的序列识别号：23，通过PCR再放大该约600碱基对的片段：GGATCCGGATCCATGAACTGGAGGGCGGCGGCCGAGGC (序列识别号：23)

如下进行十五个循环PCR：94℃下30秒，64℃下30秒，72℃下90秒，采用天然PFU聚合酶(Stratagene，LaJolla，CA)。

用BamHI和SacII酶切含有FISH插入物的PGEX4T3载体(pGEX4T3-FISH)，因此除去FISH插入物的5’部分。用相同的酶酶切上面得到的约600碱基对的PCR产物，将其连接到pGEX4T3-FISH载体上，形成全长开放阅读框构建体pGEX4T3 LSIRF BamHI/EcoRI，其编码区域列于图10。图11显示了预期的氨基酸序列。用GST融合蛋白(Pharmacia)的产生，按照制造商提供的方法评估此克隆。融合蛋白的预期大小是约79kD，其中约27kD是GST蛋白，约52kD是LSIRF蛋白。该融合蛋白在8％SDS-PAGE中迁移至约79kD的预期大小，这是通过考马斯亮兰染色法测定的。

人LSIRF的RNA印迹分析表明此基因主要在脾组织和外周血组织中表达，在结肠和肠组织中看到较低的表达水平。此外，使用从Clontech(catalog no.7757-1)得到的多癌细胞系RNA印迹，可看到此基因在人B细胞Burkitt的淋巴组织瘤系Raji中有弱表达，而在人黑素瘤系G361癌系中有强的表达。

基于几个含有部分hLSIRF序列的克隆的DNA测序，可认为存在两种形式的hLSIRF序列。一种形式，“单Q”形式，在碱基490-492处含有“CAG”密码子，其在氨基酸位164编码氨基酸Q(Gln)。LSIRF DNA的第二种形式，“双Q”形式，在“单Q”形式碱基492和493之间含有一个额外的“CAG”密码子，导致在“单Q”形式的氨基酸163和164之间的一个额外的氨基酸Q(Gln)。除此差别外，两种形式的氨基酸和核酸序列是相同的。

在pGEX4T3载体中编码人LSIRF(hLSIRF)的全长“单Q”DNA序列于1996年3月27日保藏于ATCC，其登记号为98016。此外，编码hLSIRF蛋白“双Q”形式的全长人LSIRF序列于1996年3月27日保藏于ATCC，其登记号为98017。序列表(1)基本信息(i)申请人：阿姆庚加拿大公司(ii)发明名称：编码LSIRF多肽的新基因(iii)序列数：25(iv)通信的地址：

(A)收信人：阿姆庚加拿大公司

(B)街道：米西索加路6733号，303单元

(C)城市：米西索加市

(D)省：安大略

(E)国家：加拿大

(F)邮编：L5N 6JB(v)计算机可读形式：

(A)介质类型：磁盘

(B)计算机：IBM PC兼容机

(C)操作体系：PC-DOS/MS-DOS

(D)软件：PatentIn Release#1.0，Version#1.30(vi)当前申请数据：

(A)申请号：

(B)申请日；

(C)分类：(viii)代理人信息：

(A)姓名：Oleski，NancyA.

(B)注册号：34,688

(C)案号：A-338A(2)识别号1序列的信息(i)序列特性：

(A)长度：1353碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：1ATGAACTTGG AGACGGGCAG CCGGGGCTCA GAGTTCGGCA TGAGCGCAGT GAGCTGCGGC 60AATGGGAAAC TCCGACAGTG GTTGATCGAC CAGATCGACA GCGGCAAGTA CCCCGGGCTG 120GTGTGGGAGA ACGAGGAGAA GAGCGTCTTC CGCATCCCGT GGAAACACGC GGGCAAGCAG 180GACTACAATC GTGAGGAGGA CGCTGCCCTC TTCAAGGCTT GGGCATTGTT TAAAGGCAAG 240TTCCGAGAAG GGATCGACAA GCCAGATCCT CCTACTTGGA AGACAAGATT ACGATGTGCT 300CTGAACAAGA GCAATGACTT TGAGGAATTG GTCGAGAGGA GCCAGCTGGA TATCTCTGAC 360CCATACAAGG TGTACAGGAT TGTTCCAGAG GGAGCCAAAA AAGGAGCAAA GCAGCTCACT 420TTGGATGACA CACAGATGGC CATGGGCCAC CCCTACCCCA TGACAGCACC TTATGGCTCT 480CTGCCAGCCC AGCAGGTTCA TAACTACATG ATGCCACCCC ATGACAGGAG CTGGAGGGAT 540TATGCCCCTG ACCAGTCACA CCCAGAAATC CCATATCAAT GTCCTGTGAC GTTTGGCCCA 600CGAGGCCACC ACTGGCAAGG CCCATCTTGT GAAAATGGTT GCCAGGTGAC AGGAACCTTT 660TATGCTTGTG CCCCACCTGA GTCCCAGGCT CCTGGAATCC CCATTGAGCC AAGCATAAGG 720TCTGCTGAAG CCTTGGCGCT CTCAGACTGC CGGCTGCATA TCTGCCTGTA TTACCGGGAC 780ATCCTCGTGA AAGAGCTGAC CACGACGAGC CCTGAAGGCT GCCGGATCTC CCACGGACAC 840ACCTATGATG TTAGCAACCT GGACCAGGTC CTGTTTCCCT ACCCGGACGA CAATGGACAG 900AGGAAGAACA TTGAGAAGTT GCTGAGCCAC CTGGAGAGGG GACTGGTCCT CTGGATGGCT 960CCAGATGGGC TTTATGCCAA AAGACTCTGC CAGAGTAGGA TCTACTGGGA TGGGCCCCTG 1020GCACTGTGCA GCGATCGGCC CAACAAGCTA GAAAGAGACC AGACTTGCAA GCTCTTTGAC 1080ACACAGCAGT TTCTATCAGA GCTGCAAGTG TTTGCTCACC ATGGCCGGCC AGCACCGAGA 1140TTCCAGGTGA CTCTGTGCTT TGGTGAGGAG TTTCCAGACC CTCAGAGACA GAGGAAGCTC 1200ATCACAGCTC ATGTGGAACC TCTGCTAGCC AGACAACTGT ATTACTTTGC TCAACAAAAC 1260ACTGGACATT TCCTGAGGGG CTACGAGTTA CCTGAACACG TTACCACTCC AGATTACCAC 1320CGCTCCCTCC GTCATTCTTC CATCCAAGAG TGA 1353(2)识别号2序列的信息(i)序列特性：

(A)长度：450氨基酸

(B)类型：氨基酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：蛋白质(xi)序列描述：序列识别号：2Met Asn Leu Glu Thr Gly Ser Arg Gly Ser Glu Phe Gly Met Ser Ala1 5 10 15Val Ser Cys Gly Asn Gly Lys Leu Arg Gln Trp Leu Ile Asp Gln Ile

20 25 30Asp Ser Gly Lys Tyr Pro Gly Leu Val Trp Glu Asn Glu Glu Lys Ser

35 40 45Val Phe Arg Ile Pro Trp Lys His Ala Gly Lys Gln Asp Tyr Asn Arg

50 55 60Glu Glu Asp Ala Ala Leu Phe Lys Ala Trp Ala Leu Phe Lys Gly Lys65 70 75 80Phe Arg Glu Gly Ile Asp Lys Pro Asp Pro Pro Thr Trp Lys Thr Arg

85 90 95Leu Arg Cys Ala Leu Asn Lys Ser Asn Asp Phe Glu Glu Leu val Glu

100 105 110Arg Ser Gln Leu Asp Ile Ser Asp Pro Tyr Lys Val Tyr Arg Ile Val

115 120 125Pro Glu Gly Ala Lys Lys Gly Ala Lys Gln Leu Thr Leu Asp Asp Thr

130 135 140Gln Met Ala Met Gly His Pro Tyr Pro Met Thr Ala Pro Tyr Gly Ser145 150 155 160Leu Pro Ala Gln Gln Val His Asn Tyr Met Met Pro Pro His Asp Arg

165 170 175Ser Trp Arg Asp Tyr Ala Pro Asp Gln Ser His Pro Glu Ile Pro Tyr

180 185 190Gln Cys Pro Val Thr Phe Gly Pro Arg Gly His His Trp Gln Gly Pro

195 200 205Ser Cys Glu Asn Gly Cys Gln Val Thr Gly Thr Phe Tyr Ala Cys Ala

210 215 220Pro Pro Glu Ser Gln Ala Pro Gly Ile Pro Ile Glu Pro Ser Ile Arg225 230 235 240Ser Ala Glu Ala Leu Ala Leu Ser Asp Cys Arg Leu His Ile Cys Leu

245 250 255Tyr Tyr Arg Asp Ile Leu Val Lys Glu Leu Thr Thr Thr Ser Pro Glu

260 265 270Gly Cys Arg Ile Ser His Gly His Thr Tyr Asp Val Ser Asn Leu Asp

275 280 285Gln Val Leu Phe Pro Tyr Pro Asp Asp Asn Gly Gln Arg Lys Asn Ile

290 295 300Glu Lys Leu Leu Ser His Leu Glu Arg Gly Leu Val Leu Trp Met Ala305 310 315 320Pro Asp Gly Leu Tyr Ala Lys Arg Leu Cys Gln Ser Arg Ile Tyr Trp

325 330 335Asp Gly Pro Leu Ala Leu Cys Ser Asp Arg Pro Asn Lys Leu Glu Arg

340 345 350Asp Gln Thr Cys Lys Leu Phe Asp Thr Gln Gln Phe Leu Ser Glu Leu

355 360 365Gln Val Phe Ala His His Gly Arg Pro Ala Pro Arg Phe Gln Val Thr

370 375 380Leu Cys Phe Gly Glu Glu Phe Pro Asp Pro Gln Arg Gln Arg Lys Leu385 390 395 400Ile Thr Ala His Val Glu Pro Leu Leu Ala Arg Gln Leu Tyr Tyr Phe

405 410 415Ala Gln Gln Asn Thr Gly His Phe Leu Arg Gly Tyr Glu Leu Pro Glu

420 425 430His Val Thr Thr Pro Asp Tyr His Arg Ser Leu Arg His Ser Ser Ile

435 440 445Gln Glu

450(2)识别号3序列的信息(i)序列特性：

(A)长度：2139碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：DNA(基因组)(xi)序列描述：序列识别号：3AAGGGGCCAC CTGGCCATTC CTTCCTCTCC ACCAGCAACA ATGGGAGCAT GTGATTCACA 60AGGGAATCAC ATTCAACTAA AAAGAGAAAC CGGGGTATGC TGTTTGCAAG GAACGGTTGA 120AACTGGAACT CAATATGTCG TGTGGTGTGA AATAAACGTG TGTCTCACAT GTTTTCCCAT 180GCTGGGGGCA GGGGTAAGAA AGTAAAAGGC AGACTGGTTA AAGACATGGG GTGGGGAGGG 240CTGGAGGGAC GAGTGGTAAG AAATGGCGAC AGAGGAGATG AAGGTAATGT CATAATGAAA 300CCCATCACTG CTGTGTGCAA CTAATAGATG CTAATAAAAT AGGAAGTTTT AATGATTTAG 360GTAGCTTATT GCTTGCATTC ACCTCACTGT TAAACTATCA CTTCTGGGGG ATCCACACAA 420CGAGCGAGCG AGTAAACCAG AAGATGGCGT TGGAAGATTA GTAATCATAT CTTTTAAACA 480AGATAACCAT GTGAAGTCTC AAAAGGTTTC TTGTAATGAC TGTTGTTTAA ACTTCTGAAA 540ACAGAGGATG TAGATTGGCT GAGGAAAATG TTGAAACCGC CTAAGTCAAG GTAGAAGACA 600CGTGTGTCTA AGTGAAAAAA AGAAAAAAGA AAAAAAAAAA AACCAAAAAC CTCGGGTTGG 660CTGCTTCTGT CCTTAGTCTG TGCACGCTTT GAAGAAATGT AATTCCTCAG CAGCAAGGCT 720GTGCTATCTG AAGCTACAAT CTCTGCTTTG CTCCGAGGTG TGTCTCTGGT GACCGGGATA 780GTTCCCGACA GACAGAAGGT GTTCAAAGAA TATTTTTGAA TGAATGAAAC CCCAAAGGAA 840GAAGAGGGGA AAATGGGTGT GACCAAAATT TTCTTTGAAC GAAACTCTGT TGTTTACTAC 900CAGGGCTCTG ACAATGGAAA ACTAATTGGG GTGAAAGAAC GACATGGCAT CCTGTTAATT 960TCTGAGAAAG CCTGTTGATG TTAGGAAAAA AAAACATGCC GGTGGGCATC TCTGCACCAG 1020TTTTCCTGTG GCCAAAATCA GATGTTTCTC CTAAAGTCCA GAACCCAGGA TGGAAGATTA 1080AAAGAAAAAC TGAGAAACAT GTGAAATGAA AAAGTTGTCA AAAGCTTTAC AAACGCTCCA 1140AGTTGACCTG TGGTGGTGGT AATCTAAAAT GATACAGAAA CTGGTAGTCT GCTTGCTTAC 1200CTGAAAACAC CAAGATAACA TATAAGCTCC AGGCATCCAA GCTGAGCTGG AGAAAGTCAG 1260CGGCAAAAGC TCATGGAGTT TACATATGAA GGTCAAAGAA AACACGAAAA TAAAGTAAAA 1320CCTTCAGTCA GCCTAGCTGT TCTATTTGGG GCATTGGTAC CTCACCGCCA ACTGCCTCCC 1380ACGAGGCTGA GGTTAAAATT ATCATTTTAA GGTGAATTGA CATCCGGAAG CGCGCTAACT 1440ACCTGAGTAC TCAGGGATCC CCCATCTCTT TTATGTTGCC ATGATTGAAA CTTTGGGGAC 1500TGTGCTTGTC TGAGTCATCT CAATTCGTCG GTTTCATTCA CCCAACATGT ATAAGCGTTT 1560CAAACACAGT ATTTGGGCCA CGGCTTATAA ACTTGCCTTT CTATTTTTCT TTTTAGTGAG 1620CGTGATATTC TCTAAACGCT CAGAGAGACA AGACTCCGCT TTGTTCAGGA TGCTCCCGAC 1680CTCTCTCAGT CTATCTCTTC TGTTACATCT GTGAGAACAA GTTCCCTGTG CTCCAGACTC 1740TCCATCACTT CCCACCTGTC GATGAGCAGT TAGTAGTTAT CAGCTATGCT CAGTGCAGAT 1800TCCAGTATCC CCTTTGTATG CCTCCACCTT CCACAGGAGG GGGGCCATAC CGACTTGTCC 1860CATCCGGTTG AGGATTTCTG AGTACATCAG AGTCCCCAGC CCCCTCCACA GGAGGAGCTG 1920AAGAAAGCCA GGGTTTGTCT GAAGTGGGAC AGCCCTTGAC CCGGTGGGCT CTAGTCCGAA 1980GCTCCTGTTC CTGCGGGACA CCCAGGCACA AGGCAGAGGT GGGGGGCGGT CCTGGGTATG 2040GCCAACCCAC GCCCTCTCAA GGCGGGGCCG AAGCGCCCGC CCTGCACTCC GCCTCCGGCT 2100CTATAAAGTT CCTCTTTCTC ACCTCACTTT CCTAGTTTC 2139(2)识别号4序列的信息(i)序列特性：

(A)长度：12537碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：DNA(基因组)(xi)序列描述：序列识别号：4ACCACTTGAA CTTGGGACCC TTTGCTGCCC TCAGCTAAGA GTGCGGGTGA GGTAAGGCCT 60GTAGTCGGGC AGAAGGAGGA GTGTGAGGCT GGTGGCAGAG GAAGCCTGGC TTCCATCTCT 120GAGCCTGAGG GAGAATGCTG AGATAGCGGA CCCAGGCTCC GCTCATCTAC GCTGCCCTAG 180GACCTGTGCA CTTCGGGTTT TGTATGAAGC TGTTTGGGTG GGAGTTCCAG AACATCCCCC 240ACGGGCTGGG CGGGACGAGC TAATGGGACT GTGGTGTCAT CAAAGGATCG CACTGGCCAC 300AGCTTGTCCT CAGAGGGACA GCCTCTGACT CTCTCTGCTC CAGTGGAAAG CTCCTTTCCA 360GCCCTGGTTC CTAAAGGACC CAAACTCATC TAGGGCTCCA GAGCGTGATT CCTAGGCCGG 420GCAGCCAAGA AGAGCTGAGA GCTCCAAACT TAGGGTGCTC AGAGCCCCTT TCCCCGCATG 480CCCCTTCTTC ACTTCTCTGG CAAGAGTGCT AGTGTTGCTG TCCGCAGCAC CCCTTATTCC 540CAGCCTCGGC TTCATTCCTG CCAGGGTTCG CGCTGACATT CTGCAGGTTG GAATCTCCTG 600TTTCTTGGCT GCGCTGCTTG CCCCATAACC AGACTTCCAC TTGTTGCTTC CAGGACCCAC 660GTGATGGTCT CTGGTTGGGT AGGCCTGGGG TTATTCCGAG GACAAAGTAA GGGTGTCATA 720GAAGAAAGTC AAGAGAGTAA GCTAGGTMCC CCAAACCTGC ATGGCAGGGA CACAGGACCT 780GGACAAGGGC TAGTCCATGT GCCAGGTCCT TTTCGCCTGG GGCAGCCAGG GCAACCTAAA 840CCCAGGAAGG GGCAAGTGTA GAAACAGTGA GGGAAAAGTG GGATGAAAGC TACTTGGATC 900CAGCACAGAG GGACGAGTGA CCAAAGTGAG CGCCCCAGCG TGGCGCAAGA CTTGGGATCT 960GCAGAGAAGC TGTGTAGCTA GGAGCTTTCA ACGGAGCGTG TTAATGTAAA TGTAAATGAA 1020GAAATTACCT AATTTTTTTA ATAAAAGAAA GAACAGACAG GCAAAAAAAA AAAAAGGAGG 1080AGGAGGAGGA GGAGGATGGT GCGCGCCAAG GGATGCTCTC TATACCTTCG TCAAAGTACC 1140TTCTCTTGGG GGACTTCGGA GACTCTGTCA CTGCACCCGA GCACCTTGTC AGCCTCAGAG 1200ACTCGGGGCC TCGTGGGCAC TCCAAGAGTT TGGGACGGGG CTTCCTCCCG CCTCCAAAGT 1260GATACGAAGG TAGTTGCAGG GAATGTGTGT CTCTCCTCAG CGCACAAGCC CAGGAGGAGG 1320TCCCCACGCG TCATGAACTT GGAGACGGGC AGCCGGGGCT CAGAGTTCGG CATGAGCGCA 1380GTGAGCTGCG GCAATGGGAA ACTCCGACAG TGGTTGATCG ACCAGATCGA CAGCGGCAAG 1440TACCCCGGGC TGGTGTGGGA GAACGAGGAG AAGAGCGTCT TCCGCATCCC GTGGAAACAC 1500GCGGGCAAGC AGGACTACAA TCGTGAGGAG GACGCTGCCC TCTTCAAGGT TAGCAGCATT 1560CAGGGATCCC TGGGCAGGGG TGGGGGTGGG GATGGGGAAT CTGAAAGCTC TGAATGTCTG 1620TGGCTCCCGG GCAAGGGACT AAGAGGTGGG CTCCTGCAAG GAGGAGGCCA GAGCATCAAG 1680CATTGGACCC TGCTTAGGCA AAGTCCCCAG GAGAAGGGAA AGAGGTTGCA AACTCTCCGG 1740GGATTGCATA CACAAGAAAC CAGGTCCCAA TACTGTTTGT GTGGAGGAAA GAACTTCCAG 1800CTTCAGGGGC ATCTCTGGGG GACCGAGGTT CCGTTTGCAT AGCCCATTCG CTGTTTCCTG 1860CCACCACCAC CGACTGCTAG GGCCACTCTC TGCTTCCCTG TCTCTCTGTG TTTTGTTATT 1920TTTCTGAGTT TCTCTCTCTG GGTTTTGTTT CTTTGATTGG GCACCTCTAC TGTCTGGTTC 1980TAGTTCTAGA AGCTGCGATC TCTGATTTTC TTTCTTTGAG TAGCTTTGAC TATTCCGAGT 2040CTTTCTCTGG TATCCCCCTC CGACCCCGTG TGAGTCCCTT AGGACTGATG TCCCCAGAGA 2100ACTGGCTCAC TGAACTGTGA AGCCCCCAGC CTCCACCTGC CAGCAGGCCG AGGAAGGGGA 2160CTTCCTGCGG GAATTTGTTC AAAGTACCTC TGTGATTTTG TAGATGTCCT CTCTGGGGCC 2220TGCCCCCTCC ACAGCTCTGT CCCCAGTCTT GCCCACACTT GATTCAGGCG CTGGGCGTGT 2280ACAGCCCATA CTAGGGGTCT CAGGACCCCA CTAACATCAT GTTCCACATT TCAGGCAACA 2340GCAAATTTGA AACAGTAACC TTCCTTGCTG AAATGCAATC CATAGAATTC TTTTGACGCT 2400CTGGGCTTGA CTTTTCTTAT CATCGTTCTT AGGCTTGGGC ATTGTTTAAA GGCAAGTTCC 2460GAGAAGGGAT CGACAAGCCA GATCCTCCTA CTTGGAAGAC AAGATTACGA TGTGCTCTGA 2520ACAAGAGCAA TGACTTTGAG GAATTGGTCG AGAGGAGCCA GCTGGATATC TCTGACCCAT 2580ACAAGGTGTA CAGGATTGTT CCAGAGGGAG CCAAAAAAGG TAAGGGGTTT TCCCAGCCCA 2640GGTGGCAGGA TAAAGGCATT ATGGCACTCA GAGAGCCCTT CTTCCTAGAG ACAGTCACGT 2700CCTACCTCTG CTGTAGGTTA AGCCCAGATG TCCTTTTGCC CATGTCCTCT CTGTTATAAG 2760TGACAACCCT GTGGTGTTAG TATAGGATGA CCTGGCAGAC TTTAAGCCCC ATGGGTGTGT 2820GGGTTATGCA CTTGAAGGCA TTATTTTCAG TTACTCCATT CAGTTAGGAT CTGGATCAAA 2880TTTCCAAACA AAATCTGGAA AATCCATTAA ATGTTTACTT ACCTAATATC CTCTAGTAAG 2940CATTTTCAAG AGGAGAAAGC ACATCCCACA CCCCATACAT ATTCACACTT CTTGTAATAA 3000AACTGCTAGA GTTTCTGGTT TAACATGGCC TGCTAGGGTG GTTATGAATA TTCAGATCTT 3060GAGTTCCCTC TCTTCCAACT AGTCTACCTC AAGCAGTGCT CAGGAATCTG CATTTGGTTC 3120CAACCATACA GGATGCCTTA ACTAGGTACC ATCTCACAAC CAGAAACCAC TTGGTGGATC 3180ACAGGGATCC TGGGTGGTGT TTCCTTCCCT GGCTGTCACT CACAAGTCAG CAAATGTTTA 3240ATCAGTTTAA TGGCAAAGAC AAATATCTCT CTAAGAAATT GCTTGAAAAA CAAACAAACA 3300AACAAAACAA AACAAACCTA AAATACCCGA TTGGTTAATA GGGCTATGCA TTCTAAGAAT 3360TAAGTGCATA GGTACTTTTA TAAGATTTAA GTCAGTTCCT TGTCTTACTC TGTGTTCTCT 3420CTTCCTTTTC CCCAAACACA CAGGAGCAAA GCAGCTCACT TTGGATGACA CACAGATGGC 3480CATGGGCCAC CCCTACCCCA TGACAGCACC TTATGGCTCT CTGCCAGCCC AGGTATGTGG 3540TAGACTCTTG GTCTTGTGGA AGGCTGGCCC ATGCCCTTTT GACTGGCTCC ACACAGAGAG 3600GCAAACACAA ATGAAAAGTG TAGGGCTGAC TTCTTATTTG CTATGGCTAG TACACACGCT 3660GAACAAAAAC TTGGTCAGAG AAGGATGTTT CAGTTCCAGT GTGGTGTCAC TGTCCCTGAC 3720GCCACAGTTT TGTTGGGGAG TTTGATGTGT CCCACCTGTG GAGAGAGGCT TCCACTGATG 3780GTCAGATCTT CTGGGAATCA GACCTTTTGT GGAAGTCAAA GGTTTTGGAA GTAGTACTTT 3840ATCATGTGAA ACCGCAGAGC AGCTGACTTC TCTAGGCGTC CCTGATGTGA ATTACAGTAC 3900TGTTTTATTC ACTTTGGTGG CTTAAAAAGG GCAGATTTCA CTGCGGTATT CTTGGTGCCG 3960TGTTCAGCCA TATGATGAAG CCTTACAAAA ATCACAGCTT TATACAATGT CCTCATTGTG 4020CTTTCAGACC CTCTATGGCT GTTTTTTACC TAGTGTGATA GACAGTCCAT GTCACTTTTT 4080GGGCAAAATG ACTTGGCTGC TGGACAAAAA AAGGGGTTCC CTGAGGAGTT TGGGTGATAT 4140GAAAGGACTC CGACACCCMC TGATGTCTTC CTCTTAGCAA TCCCTGTTCT CTGTCAGCAG 4200GTTCATAACT ACATGATGCC ACCCCATGAC AGGAGCTGGA GGGATTATGC CCCTGACCAG 4260TCACACCCAG AAATCCCATA TCAATGTCCT GTGACGTTTG GCCCACGAGG CCACCACTGG 4320CAAGGCCCAT CTTGTGAAAA TGGTAAGGAT TGTGCCAGGG CAGCAGACAG AAGAACAACC 4380TGAGCTCGGG GTGTGGACAG CACCACAGGG CTTTTCCCTA CCATTGAGAT ACCAGAGACA 4440CATCATATGA AGCTGCTACT GTTGTTGTTG TTGTTGTTGC TGCTGCTGCT GCTGGGGTGG 4500TGGGGTGGTG GGKTGGTGGG GTGGTGGAGT GGTGGTGGTG GTGGTGGTTG TGGGGTGTTG 4560GGGTATGTTG CCTTGTCCTG TGAAATGTTG AAGTCCTTAG ATCCATGATA GGCCTCAGTC 4620TGTGTGGGGA CTTAACTAGA AGACCCCAGA GATCATTCCA AGTAGCTGAA AAGTGCCCCA 4680TTTTTAATAC ATAGAGAAAA ACATGGATGA CAACAAATTC TCAATGACAA GTAATGTCAA 4740TTATAAAACT CGTCTATATT TTGTTTTAAC TTGAGTTATC CCTTATTTCC GATGGTGATT 4800AAGTTGGGGG GTTTGTTGTA TCCCACCTAT CTCCCTAGTC TGTATCTTTC TACTCTCCTG 4860TAAAGTAGAG AGTTGTACCC AGTCCACCTC AGCAGGAAAT CATTGCTAGT TCATGTCTCT 4920TGAATAATAA TGAGTCATCT ATAGCTGTTC TTGGTACTAA GGAAGGAAGG ATCAGAGCGA 4980AAGTAATCCA CAAAGTGTCT CTACAAATGA GTGCCCTGCC CGAAAAGACC CACAGGGGTC 5040CCCCCATGCT AGCTGGGCTC TCACAGAAGA AACGCCCACT AACCAGACAC AAAAAAATTT 5100CACAAACTAT GTTCAGTGAG ACTTGGGTCC TTTAGTGTTT ATTTAGGTGA GTGCACCAAG 5160CTCCACCTCG GGTCCTTTTT TGGCTGTGTA TTTTAAGGTA GAGTCTTGCT AAATTACCAA 5220GGCTAGGATC TTCCTGCCTT CAACTCTTGA GTAGCTGGGA CTACAATCTT GTTCTARCGG 5280GCTGAACATA AAACAAGTTT TTAGGACTTR CAAGTTCACT GTTTAAATAT AAGTCTTGAC 5340ATGGGTCGCC GTGCGAGTAG TTCTTTTATA TTGTTCTGGC AATACTTTAC CTTGTGACAA 5400TTTCATCAAC ACCCTCACTC AGTCTGTGCA TGCTTACACT AATCTTGCTT TAGTGTGACA 5460TAACTTCTCT GCTGCCAGAG AACACGGTTC AGCCCCTCCC CCTAGCTAAC AAACAGTGAG 5520CAGAATAAAT GAGGGTTGAA TAATTAATTC ATCTTTGAAC TAGTCTTATA GAAGTTTGAA 5580CTCTGACCCT GCTGGTAACT TGCTATGTGG GCTGGTGCAA GTCCCTCTCC TTCTGGGCCT 5640CAGTTTCCCT ATAGATTTGG AGTGAGCCCC AGGTTTCCAT CCAGAGCTGT ACTGTGGCTC 5700CTTCCTTCAT CACCCTAATT TTTATCACTG GATGTGGACT TTGGACTTTG TCCCATAATC 5760ACACGTTATT CTGCTAGCAG GTGCTTAGAG GCTGTCAGGC TTGGGTTGGA GGCCATGGCC 5820TCTCCCAACT CAAGAGCCTC CCCGCACTCA GACTCGATAC TTAGACATCA TCTGATTTTT 5880ATTTKCAAAT GCAGGTTGCC AGGTGACAGG AACCTTTTAT GCTTGTGCCC CACCTGAGTC 5940CCAGGCTCCT GGAATCCCCA TTGAGCCAAG CATAAGGTCT GCTGAAGCCT TAGCGCTCTC 6000AGGTGAGTGT GGCGCTTCCT GTAAAGCTCC GAGGGAGGGG GCATCTCTCC TCTACTGAGG 6060TTGGGTGAGG ATTTAGACTC TCGCCTTGCA GGCCCCGGGG TCTGGAGTAG GCATGGTCCA 6120GGCTATGTGG ACATCACGCT GAGTCAAATA CACTATTAGA AATCTCCACA GCAGTACCAG 6180CTAGCCAAAT ACTATTTGGA CGATGTCTTT AACCTTCTAC ATCATTACCT GCCCAGTTTT 6240CCAGGAATGT GTAACCAGGC TCCTCCTCCA GCCGACATTC TCCATTCTCG CAGTGTGGAA 6300AGGCTTTATA GGCACAAAAG AATGCTGTTT GTCCTTTTAG GGTGTAGGGT TGGCCACAAA 6360CAGGTGGTCT GAGTTGCTTC CAAGGAACAC TGGTTCTGAA CCCTGGTCTC TGAGAAGTTC 6420TTATSCCCCC TAAAGGATCA TATAGGTCTG ACTCCCTCAC AACTTTGACA GAATTGCTGA 6480GCATGTGTGG ATGTGATCTG ATTTTAAAGT TCTGTTACTA AGGAAGCCTG CACTTGGAGA 6540TACTGACCAG CATTTTAAAA GCCCACACTC CGTGGAAGCA GACATCTTAT GTCCATTTAG 6600TCTTTAGATG ATTTTTTTGG ATGTTTTCAA ATGGAATTAT TAGAATTCTC ATCATGCCCT 6660CGGCTACCTT AAAAGCCTCT GACTGAAAAC ATCAACTGCA TTTTGACAAT TTTAGACACT 6720TCCCTTGTTC TCGAGGGAGG AAGAAGTTTT AAAATCTAGT TCCTTCCAGC TCTGATGCTC 6780AGGGAGACTT TGTGAGCCAC TCAAGAACAG CCGAGGAGCA CATCTGGGCA TCAGGGGTTG 6840TCACAGACAC TAGAATGCTC TAGATCCTCT TCTGGAGCGC CAAAGACTTG TGTGGGTGCC 6900CCAAGAGTAG GAAATAAACA GCTATTTATA TCTCTGCAAT CTTGTGATTT TGGTGACATT 6960AAATGAAATG AAACCTGCCC TACCACTCAC CTCAGATGGC CAACGCCCCC TCTCTTTGGG 7020TGCACCACTT GTGCTGTTCA TAGCTGCAGC TATCGAAGAC ACCATGATGT GGGCTGTCAG 7080AACTTGCCAT TGAAGAATAC GAGGCTTTTG TGGGTTTCTT CTTCTAGTTT GCATAATTAA 7140TTATCAACCC TGAGTGCACT TTTCAGAAAG CTATTCTTTC CAGGCATTGT TGGGGCTCCA 7200ACCACCAGCA CGGGTATCTA TCTCTGCCTG GGGAGCCCTT TGCACACCCA GCTTGCCCTT 7260TCGGCCCGTG GGTGGTATTT TAAAGTGGCT TCTGAAATCA ACAAAATCAT GTGTCAATAA 7320ATTCCTGTCT TAAAGCTGTA GAAAACCTAG TTGTTGGGTT CTTTTCAGAG TTGAACACGA 7380AGCTTAGAGG GATTTCAGGG GGTTTTACAT TAMCCACTGG CTTTTAGAGC AGCTCTCATC 7440AATTTCTTCC CCTACTCCAA GAGAGCTGAC TTAAAAATAA GAAAATAAAG GTATCATTTT 7500CCAGAGCCCA GAAATTGTTA TTTTAGTGCC TGTCTCTAAC ATATCTATGT GGGTTTTGTT 7560GTTGTGTGGT TTTACTTAAT GACATCATGG TAACACCTTA GGGAAGTTCC AGAGCTGAGG 7620ACACTATTTG CTTTTCTTCT AAGATGTTTC TGTATTTCTT TTACTAATAG AAATCTGTCC 7680CAGAGGTCAA CTCCAAAATC AAAATTGAGT TGCTGGAAAA CGAATTCCAA TTCGGTAGTA 7740TTATTTCATA TTGTAGACAA AATGCCACCA CTGTTAACAC CATCATCCGA AAAGCCCTCA 7800TAACAGGGGT GTGCTTTCTA ATAAAATTTG GCTGAAAATT CAAGAAATAT ATACCTCTCC 7860CCAAGAGAAG TAAATGGCCA CAACAACATT TGAAAATGAT CGTGTTAGAG AGATCAGTTT 7920CTTTCCACAA GCTTCTCTTA GTATTCTGTG CTTGAGGTCT AAGAATCTAC AGGGAATAAG 7980AGCAGCTAAC ATCTCCAAGA CTTCCTTGGT CCTAGGATCT TTCACTTGTT CGTGGAGCAT 8040CTTGACACTC AAGTGTTCCA CCTGCTGTCC TTCGTATCAG TCTAGTCACC GAGTTTTTGG 8100GGCTCTGAGC AAGGTGGCAC CTTTTTCAAA TCCATCAGCA CTGACTCCAG AGTTTTGTTC 8160ACAGACTGCC GGCTGCATAT CTGCCTGTAT TACCGGGACA TCCTCGTGAA AGAGCTGACC 8220ACGACGAGCC CTGAAGGCTG CCGGATCTCC CACGGACACA CCTATGATGT TAGCAACCTG 8280GACCAGGTCC TGTTTCCCTA CCCGGACGAC AATGGACAGA GGAAGAACAT TGAGAAGTTG 8340CTGAGCCACC TGGAGAGGGG ACTGGTCCTC TGGATGGCTC CAGATGGGCT TTATGCCAAA 8400AGACTCTGCC AGAGTAGGAT CTACTGGGAT GGGCCCCTGG CACTGTGCAG CGATCGGCCC 8460AACAAGCTAG AAAGAGACCA GACTTGCAAG CTCTTTGACA CACAGCAGTT TCTATCAGGT 8520AACACACCTC ACAGTCTGTT AGAATGGAGG TGGTGGTGGG TGCTGGCTAT AAAGGTCTCA 8580AATGGCAGTG TCTGCCTACC CCAGACAGAG GTCTTCCTCC TGAGATCTGT GAGCTCATGC 8640AGAAATAGAA TTCCTGCCTG ATTCATGCCT AGCCTTTGTC TGTTGTGTAC TCCCCTGATT 8700AGCAGAGGGC CAGAAAGAGG ATCCATATTT GCTGCCCAGG ATAGACACTG GTGTGGGTTG 8760ATCTCTTAAT TTATCATCAT TCTTTTCACT CTAGGCTTTT GTTTTGTTTG TTTTGTCAGA 8820ATATATGTAG CTCAGGCTGG CCTAGAACTC CTGCCTCGGG ATTTTATCTG TACACCAGCA 8880CATCTGGCCA ATGAATTAAA ATGTGGGCTT TCAGCGGCAT GTGCCCCACC CCCAGAGAGG 8940TTTCACTGTG TTGGCTCTCT GCTCTCAGCA AGTTTATCTG CTGACACCTC AGCTCTTTAG 9000GGGTTTCTAG AAGCAGTTCG GTTGCAGAGA GCAGTGGAAA TCTTTGATGT CTACCCATTC 9060TGGATTTGCA CCCCACTAGG GACAGTCCCC ATAGGCACAG TTGAGAATTC ATATCTGATC 9120AGGGCAGAGT CTTCATGCCT GCTCTGTGGA GGCAGCTTTT TAATGTCAGT TCTTTGATGC 9180AGACAAGACC TGGGAACCTA GCTCTGGGAG GAGGAATAAA GGTTAATGCC AGTGAGTGGA 9240TGTGGCTTTC TGCTTGTGCT GGGGGAGGAA GCCAAGGCCT TGCACATACA AGGCAAGTGC 9300TCTGCTCCAA GTGGCGATGC CCCCAGCCAT GGGCAGGTTT CTTTTCAGCA ATCTTGTCTG 9360TTTCATGTCT CTCAGGCAGG ACTAGCCTCA GCATGACATC CTTGTCAGAG GGGCTTCATT 9420GGTCCCCTTC TCCCTGTATC ATCCTGTCCC CAAAGTGAGA TTGAAGCCTA CTCTGGTTCT 9480CCAGTTATGG AGTTTTAGAC CTAGTGCCAA GTAGGACACA GCTGCCAACA GCTGGTGAGA 9540GAAACAGATG CTCTTGGTGC CCAGACACCA CGTGGCCTCC ATGGTTAGCT AGTGAGGTTA 9600AAAAAATAAC CCTGGGCCAT CAGAACATTG TGACTCTTTA CATTAAAATG TCTCCTTGGC 9660CTGTGCTGAT TGCTTGACTC AGCATGGCTA CTTTTCTTTT TCTTCTTTGT CTTCTTCTCT 9720TTGACCTTGT GCATTTCTGT GAGTGTAGTG CTGCAGACCC AAGTTCTTAA GGTTGGGTCA 9780TGTTCCTTAA GAGTAATGAA GTAAAACCAG TKCCAAGTCA GGAGATCATA TGTGAACTTG 9840ACCATGTGAT TTTGTGTCTA GGGTCTGCTC TAAGGGCTGG ACTTAGGGGA ACAGAGCCCG 9900GGCTCTCCCA AAGCAGACTT CCACGTGACT CTGGCTTTCC GTTCACCCGC TTTACCAGGT 9960GTCTGAACAG TTTGGTTTTT TTTTTTCTTT CTTTCTTGTG GGTTTTCAGA GCTGCAAGTG 10020TTTGCTCACC ATGGCCGGCC AGCACCGAGA TTCCAGGTGA CTCTGTGCTT TGGTGAGGAG 10080TTTCCAGACC CTCAGAGACA GAGGAAGCTC ATCACAGCTC ATGTGAGTAC CTGGTTACAT 10140CACCCGTAAA TCACACACTG TGGAGCTGTC CCTTTTAGAG AAGTGGCAAG TGACGAGTAA 10200ATGTCAGCTC ACCTGGGAAA ATAGATGTAG ACCTTAAAAT AGTGCAGGAG GAAGCAGGCT 10260CCAGTGAACA CCACAGCTCA GGGAGGCACC CGCAACCTAC TTCCAGACAA ATTCTGTCAC 10320CACCGAATCA GCAGGGCAGA TGACTTGGAC CCAAGGMTCT GTTTGTTCTG TATTCTTTAT 10380TGTTTCATAC AGACAGTTAC CTGCCCTTTT ATAGGAATTT TCAATAGTTG GGACCAAGTA 10440CTGCCCTTCG ACATCTCTGT TTCTTGTGTG GTTTTAAAGA TGCTGTCCTT TCGAGTAGAG 10500TAGCACTTTC TCCCTGGGAG GCTGCCTGTT ATGTATTATG CTTCATCGGG CCTCCTAACT 10560TCARATAGTT CCCAGACCCT CGCTTTGTTG CTGGACTTTA GGGAGTTATT TAACAGTTGG 10620ACAAGGGAGG TGGAGGAGGC TGAGTCTTCC CAGGAATCAG GTAGGTCGGT CTATCCTCAC 10680AGCTAGGGTT TATTCGGATA ATGTTCATCA CTCACTTAAT AATTAAAAGG TAATTCTGAA 10740TACATGATGT TTTTTAATTA GAAAATTTTA CTTAATTACA TATCTTGAAA AGTATGCAGT 10800GTGGAGTAAA GGTTGTGTCC CAGATAGCCA CAATATCTCA GTGCAAATGG GATATTAGCT 10860CTGATGATAT CTCTTAGTGG AGACTGAAGA CTAGGCATAC AGCGCAATGG AAGGCATTTG 10920CTAGGCAGTG GTAAAGCCCT GGGTTCTAAA CCCCGCCTAG GATGGGGGTT GGGCACTGAT 10980GTTGAACATC CAGCCTCCCT TCTCGGTTGG AAAAAGTAAA ATCTAAGAAG CAACAAACGG 11040GCTGGAGAGA TGGCTCAGTT GTTAAGAGCA CAGGCTGTTC TTCCAGAGGT CCTGAGTTTA 11100ATTCCTAGAA ACCACATGTG CCTTACAACC ATCTGCAGTG AGCTCTAATG CCATCTTCTG 11160GTGTGTTTGA AGACTGCTAC AGTGAACTCA CATACATATA AATCTTAAAA AAATAAAAGG 11220CAATGAAACT ATGATCCTGG CCTTGAGCCT TTTCTCAGTT CTAACTGGTG GTTGATATCA 11280AATGAGACTG CAGATGTGTG GATGAATCTA GCATAGATAA GCAGTATTTT TTTTTTAAGG 11340TAGTGAGTAA ATTCTAGCAT AGATCTCATT TTAAGGACTT TGGGTGCAGT GGGGCTCCGC 11400AAAAAGGGAG CAACAATAGT CATATAGGCA AAGGGCCTCA AAATGCTGCC CCGTGGTCCA 11460CAGATGGAAA ACATACATGG TCACCCATGA ACTCTGCTGG TCTCCTTATT ACAGACTTAA 11520TTCATATGGG TGCTTACAGA GGAATCCTAC CAGACATCAC ATATCAAATA ACAAAGAGGC 11580TTGATTTATT GATGATTGGT TGTTACAGAG CACACAGCCT GACTTGGTGA GGCTGGCTTT 11640GACTGGGGAT GCAATCGATG CTTATAAACA AACTAGGTCC ATCAGAGCCA GCGAGCTGCT 11700GTCTTGTGGC TGRCCAGCTC TGTCTTCTAC TTGTGGTTCA GAGTTCTGTC TATTTCACAG 11760TCATCTGGTT CTTCAGGATG AGCCCTTCTG TCAGACTCAT GAGCCTCACT TACCCAGCAT 11820GTTACTTAGC CTTTTAATTT GGTCATCTCA TTCAATAATG TCCAGTTAAC TCATTCGCTA 11880AATATCAAAT CCAAGAGGCG ATTGGTTTCA AAATGCCATA TTTATCTTCT ATTATAGAAT 11940CAAGAGTTCT TTTTCCAGGG TTTTTAATTC CAGGTATTGT AAGAGCAAAT GAAACTGGTT 12000TTTCAAATGG CTCTGAATGT GAACTGCTTC ACTGTGTTAT GTTATCCTGT GCAGCTTGTA 12060GGTTTTTACT TAGAGTCCTA GGGTCATTTC ATGATGTCCC AATTGTATGG TGTTGAGAAG 12120AATATTCTAG TGATGTCTTT TTTTCTTAAA TGTCTTATTA AAGGTGGAAC CTCTGCTAGC 12180CAGACAACTG TATTACTTTG CTCAACAAAA CACTGGACAT TTCCTGAGGG GCTACGAGTT 12240ACCTGAACAC GTTACCACTC CAGATTACCA CCGCTCCCTC CGTCATTCTT CCATCCAAGA 12300GTGAGAAGAA ATACTCTGAC AGGGCAGCCG GTTGCTGCCC TTTCTCTTTG GAAGAGCTAA 12360GAAGTGAGTG GGTTTCCACT TGAAGACAAC AACAGGGCTT TGTGAGGAAA ACAGCTGTAT 12420CTGCTCAACA GAGGAGCTTC CCCCAGAAGA GTGCCTGTCA GTCATCCAGG TCTTGACAAG 12480TGCCAGGACT TGGGTGACTG TGCCCTGGCT TATAACTGTG AAACTTGATC CGAATTC 12537(2)识别号5序列的信息(i)序列特性：

(A)长度：14碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：5ATCCTGGAAC ACGC(2)识别号6序列的信息(i)序列特性：

(A)长度：19碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性 (ii)分子类型：cDNA(xi)序列描述：序列识别号：6GCACACGAAC TGCCTTCCA(2)识别号7序列的信息(i)序列特性：

(A)长度：24碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：7CAGCCCGGGG TACTTGCCGC TGTC(2)识别号8序列的信息(i)序列特性：

(A)长度：24碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：8AGACCTTATG CTTGGCTCAA TGGG(2)识别号9序列的信息(i)序列特性：

(A)长度：15氨基酸

(B)类型：氨基酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：蛋白质 (xi)序列描述：序列识别号：9Gly Tyr Glu Leu Pro His Glu Val Thr Thr Pro Asp Tyr His Arg1 5 10 15(2)识别号10序列的信息(i)序列特性：

(A)长度：19碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：10TGCAGAAGTG AAACTGAGG(2)识别号11序列的信息(i)序列特性：

(A)长度：18碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：11TGCAGAAGTG AAACTGAG(2)识别号12序列的信息(i)序列特性：

(A)长度：18碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性 (ii)分子类型：cDNA(xi)序列描述：序列识别号：12TGCAGAAGTG AAACCTGG(2)识别号13序列的信息(i)序列特性：

(A)长度：18碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：13TGCAGAAGTG AACATGAG(2)识别号14序列的信息(i)序列特性：

(A)长度：18碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：14TGCAGAAGTG GTCCTGAG(2)识别号15序列的信息(i)序列特性：

(A)长度：18碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA (xi)序列描述：序列识别号：15GCTAGAAGTG AAACTGAG(2)识别号16序列的信息(i)序列特性：

(A)长度：18碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：16AAAGGAAGTG AAACCAAG(2)识别号17序列的信息(i)序列特性：

(A)长度：18碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：17TGAGGAACTG AAAACAGA(2)识别号18序列的信息(i)序列特性：

(A)长度：16碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：18GGGAAAGTGA AACTAG(2)识别号19序列的信息(i)序列特性：

(A)长度：27碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：19CTGGACATCT CAGACCCGTA CAAAGTG(2)识别号20序列的信息(i)序列特性：

(A)长度：27碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：20CTTGACATTT TTCATTCTTG AATAGAG(2)识别号21序列的信息(i)序列特性：

(A)长度：21碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：21TGCCCTCAGC TCCGAGTCCA G(2)识别号22序列的信息(i)序列特性：

(A)长度：18碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：22AACCATTTTC ACAAGCTG(2)识别号23序列的信息(i)序列特性：

(A)长度：38碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：23GGATCCGGAT CCATGAACTG GAGGGCGGCG GCCGAGGC(2)识别号24序列的信息(i)序列特性：

(A)长度：1353碱基对

(B)类型：核酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：cDNA(xi)序列描述：序列识别号：24ATGAACCTGG AGGGCGGCGG CCGAGGCGGA GAGTTCGGCA TGAGCGCGGT GAGCTGCGGC 60AACGGGAAGC TCCGCCAGTG GCTGATCGAC CAGATCGACA GCGGCAAGTA CCCCGGGCTG 120GTGTGGGAGA ACGAGGAGAA GAGCATCTTC CGCATCCCCT GGAAGCACGC GGGCAAGCAG 180GACTACAACC GCGAGGAGGA CGCCGCGCTC TTCAAGGCTT GGGCACTGTT TAAAGGAAAG 240TTCCGAGAAG GCATCGACAA GCCGGACCCT CCCACCTGGA AGACGCGCCT GCGGTGCGCT 300TTGAACAAGA GCAATGACTT TGAGGAACTG GTTGAGCGGA GCCAGCTGGA CATCTCAGAC 360CCGTACAAAG TGTACAGGAT TGTTCCTGAG GGAGCCAAAA AAGGAGCCAA GCAGCTCACC 420CTGGAGGACC CGCAGATGTC CATGAGCCAC CCCTACACCA TGACAACGCC TTACCCTTCG 480CTCCCAGCCC AGGTTCACAA CTACATGATG CCACCCCTCG ACCGAAGCTG GAGGGACTAC 540GTCCCGGATC AGCCACACCC GGAAATCCCG TACCAATGTC CCATGACGTT TGGACCCCGC 600GGCCACCACT GGCAAGGCCC AGCTTGTGAA AATGGTTGCC AGGTGACAGG AACCTTTTAT 660GCTTGTGCCC CACCTGAGTC CCAGGCTCCC GGAGTCCCCA CAGAGCCAAG CATAAGGTCT 720GCCGAAGCCT TGGCGTTCTC AGACTGCCGG CTGCACATCT GCCTGTACTA CCGGGAAATC 780CTCGTGAAGG AGCTGACCAC GTCCAGCCCC GAGGGCTGCC GGATCTCCCA TGGACATACG 840TATGACGCCA GCAACCTGGA CCAGGTCCTG TTCCCCTACC CAGAGGACAA TGGCCAGAGG 900AAAAACATTG AGAAGCTGCT GAGCCACCTG GAGAGGGGCG TGGTCCTCTG GATGGCCCCC 960GACGGGCTCT ATGCGAAAAG ACTGTGCCAG AGCAGGATCT ACTGGGACGG GCCCCTGGCG 1020CTGTGCAACG ACCGGCCCAA CAAACTGGAG AGAGACCAGA CCTGCAAGCT CTTTGACACA 1080CAGCAGTTCT TGTCAGAGCT GCAAGCGTTT GCTCACCACG GCCGCTCCCT GCCAAGATTC 1140CAGGTGACTC TATGCTTTGG AGAGGAGTTT CCAGACCCTC AGAGGCAAAG AAAGCTCATC 1200ACAGCTCACG TAGAACCTCT GCTAGCCAGA CAACTATATT ATTTTGCTCA ACAAAACAGT 1260GGACATTTCC TGAGGGGCTA CGATTTACCA GAACACATCA GCAATCCAGA AGATTACCAC 1320AGATCTATCC GCCATTCCTC TATTCAAGAA TGA 1353(2)识别号25序列的信息(i)序列特性：

(A)长度：450氨基酸

(B)类型：氧基酸

(C)链型：单链

(D)拓扑结构：线性(ii)分子类型：蛋白质 (xi)序列描述：序列识别号：25

Met Asn Leu Glu Gly Gly Gly Arg Gly Gly Glu Phe Gly Met Ser Ala

1 5 10 15

Val Ser Cys Gly Asn Gly Lys Leu Arg Gln Trp Leu Ile Asp Gln Ile

20 25 30

Asp Ser Gly Lys Tyr Pro Gly Leu Val Trp Glu Asn Glu Glu Lys Ser

35 40 45

Ile Phe Arg Ile Pro Trp Lys His Ala Gly Lys Gln Asp Tyr Asn Arg

50 55 60

Glu Glu Asp Ala Ala Leu Phe Lys Ala Trp Ala Leu Phe Lys Gly Lys

65 70 75 80

Phe Arg Glu Gly Ile Asp Lys Pro Asp Pro Pro Thr Trp Lys Thr Arg

85 90 95

Leu Arg Cys Ala Leu Asn Lys Ser Asn Asp Phe Glu Glu Leu Val Glu

100 105 110

Arg Ser Gln Leu Asp Ile Ser Asp Pro Tyr Lys Val Tyr Arg Ile Val

115 120 125

Pro Glu Gly Ala Lys Lys Gly Ala Lys Gln Leu Thr Leu Glu Asp Pro

130 135 140

Gln Met Ser Met Ser His Pro Tyr Thr Met Thr Thr Pro Tyr Pro Ser

145 150 155 160

Leu Pro Ala Gln Val His Asn Tyr Met Met Pro Pro Leu Asp Arg Ser

165 170 175

Trp Arg Asp Tyr Val Pro Asp Gln Pro His Pro Glu Ile Pro Tyr Gln

180 185 190

Cys Pro Met Thr Phe Gly Pro Arg Gly His His Trp Gln Gly Pro Ala

195 200 205

Cys Glu Asn Gly Cys Gln Val Thr Gly Thr Phe Tyr Ala Cys Ala Pro

210 215 220

Pro Glu Ser Gln Ala Pro Gly Val Pro Thr Glu Pro Ser Ile Arg Ser

225 230 235 240

Ala Glu Ala Leu Ala Phe Ser Asp Cys Arg Leu His Ile Cys Leu Tyr

245 250 255

Tyr Arg Glu Ile Leu Val Lys Glu Leu Thr Thr Ser Ser Pro Glu Gly

260 265 270

Cys Arg Ile Ser His Gly His Thr Tyr Asp Ala Ser Asn Leu Asp Gln

275 280 285

Val Leu Phe Pro Tyr Pro Glu Asp Asn Gly Gln Arg Lys Asn Ile Glu

290 295 300Lys Leu Leu Ser His Leu Glu Arg Gly Val Val Leu Trp Met Ala Pro305 310 315 320Asp Gly Leu Tyr Ala Lys Arg Leu Cys Gln Ser Arg Ile Tyr Trp Asp

325 330 335Gly Pro Leu Ala Leu Cys Asn Asp Arg Pro Asn Lys Leu Glu Arg Asp

340 345 350Gln Thr Cys Lys Leu Phe Asp Thr Gln Gln Phe Leu Ser Glu Leu Gln

355 360 365Ala Phe Ala His His Gly Arg Ser Leu Pro Arg Phe Gln Val Thr Leu

370 375 380Cys Phe Gly Glu Glu Phe Pro Asp Pro Gln Arg Gln Arg Lys Leu Ile385 390 395 400Thr Ala His Val Glu Pro Leu Leu Ala Arg Gln Leu Tyr Tyr Phe Ala

405 410 415Gln Gln Asn Ser Gly His Phe Leu Arg Gly Tyr Asp Leu Pro Glu His

420 425 430Ile Ser Asn Pro Glu Asp Tyr His Arg Ser Ile Arg His Ser Ser Ile

435 440 445Gln Glu

450

Claims

1.一种分离的编码LSIRF多肽或其片段的核酸分子，其选自包括下列核酸分子在内的核酸分子组：

(a)一种具有序列识别号：1的核苷酸序列的核酸分子；

(b)一种具有序列识别号：4的核苷酸序列的核酸分子；

(e)一种具有编码序列识别号：25的氨基酸序列的核苷酸序列或其“双Q”变异体的核酸分子；

(f)一种具有与(a)、(b)、(c)、(d)、(e)或其片段的核酸分子杂交的核苷酸序列的核酸分子。

2.根据权利要求1所述的一种分离的核酸分子，其是cDNA、基因组DNA或合成DNA。

3.一种分离的核酸分子，其是序列识别号：1。

4.一种分离的核酸分子，其是序列识别号：4。

5.一种分离的核酸分子，其是序列识别号：3。

6.一种含有权利要求1所述的核酸分子的载体。

7.一种用权利要求6所述的载体稳定转化或转染的原核或真核宿主细胞。

8.一种分离的多肽或其片段，其具有LSIRF多肽的特异性DNA结合活性。

9.根据权利要求8所述的一种多肽，其具有序列识别号：2的氨基酸序列。

10.根据权利要求8所述的一种多肽，其是外源核酸分子序列的原核或真核宿主细胞表达产物。

11.一种多肽，其具有由权利要求1所述的DNA编码的氨基酸序列。

12.一种生产LSIRF多肽的方法，其包括在允许LSIRF表达的条件下培养权利要求7所述的宿主细胞。

13.一种抗体，其与由权利要求1所述之DNA编码的多肽特异性结合。

14.根据权利要求13所述的一种抗体，其是单克隆抗体。

15.一种制备LSIRF多肽的方法，其包括：(a)将含有LSIRF基因的载体插入宿主细胞中；(b)在允许LSIRF多肽表达的条件下培养该宿主细胞。

16.一种分离的核酸分子，其是序列识别号：24，或其“双Q”变异体。

17.根据权利要求8所述的一种多肽，其具有序列识别号：25的氨基酸序列，或其“双Q”变异体。