CZ20004693A3

CZ20004693A3 - Izolovaná nukleová kyselina kódující polypeptid účastnící se biosyntézy epothilonu, chimérický gen, vektor a hostitelské buňky obsahující tuto nukleovou kyselinu

Info

Publication number: CZ20004693A3
Application number: CZ20004693A
Authority: CZ
Inventors: Thomas Schupp; James Madison Ligon; Istvan Molnar; Ross Zirkle; Jörn Görlach; Devon Cyr
Original assignee: Novartis Ag
Priority date: 1999-06-16
Filing date: 1999-06-16
Publication date: 2001-03-14

Abstract

Ze Sorangium cellulosum byly izolovány molekuly nukleové kyseliny, které kódují polypeptidy nezbytné pro biosyntézu epothilonů. Jsou poskytnuty způsoby výroby epothilonů v rekombinantním hostiteli tranformovaném geny podle popsaného řešení. Takováto výroba epothilonů poskytuje dostatečná množství epothilonů, což umožňuje jejich purifikaci a použití pro farmaceutické přípravky, např. k léčení rakoviny.

Description

Oblast techniky

Předkládaný vynález se obecně týká polyketidů a genů pro jejich syntézu. zejména se vynález týká izolace a charakterizace genu nové polyketidsyntázy a neribozomové peptidsyntetázy ze Sorangium cellulosum, které jsou nezbytné v biosyntéze epothilonů A a B.

Dosavadní stav techniky

Polyketidy jsou sloučeniny syntetizované ze stavebních bloků obsahujících dva atomy uhlíku, z nichž β-uhlík vždy nese ketoskupinu, proto název polyketidy. K těmto sloučeninám patří četná důležitá antibiotika, imunosupresiva, protirakovinná chemoterapeutika a celá řada látek vykazujících nejrůznější biologické vlastnosti. Mimořádná strukturní diverzita těchto látek je způsobena různou délkou polyketidového řetězce, různými vnesenými vedlejšími postranními řetězci (ať už jako součást stavebních bloků se dvěma uhlíky nebo po vytvoření polyketidové kostry) a stereochemií takových skupin. Ketoskupiny mohou být redukovány na hydroxylové nebo enoylové skupiny a nebo zcela odstraněny. Každý další cyklus adice bloku se dvěma atomy uhlíku je prováděn enzymovým komplexem zvaným polyketidsyntáza (PKS) , a sice způsobem, který je podobný biosyntéze mastných kyselin.

• · • ·

- 2 Geny účastnící se biosyntézy pro rostoucí počet polyketidů byly izolovány a sekvencovány. Viz např. patenty USA č. 5, 639, 949, 5, 693,774 a 5, 716, 849, které jsou vloženy formou odkazu, které popisují geny pro biosyntézu soraphenu. Viz také publikaci Schupp et al., FEMS Microbiology Letters 159: 201-207 (1998) a Mezinárodní patentovou přihlášku WO 98/07868, které popsují geny pro biosyntézu rifamycinu, a přihlášku USA č. 5,876,991, popisující geny pro biosyntézu tylactonu, všechny tyto dokumenty jsou formou odkazu součástí předkládaného popisu vynálezu. Proteiny kódované těmito geny obecně patří do dvou skupin: typ I a typ II. Proteiny typu I jsou polyfunkční proteiny, s několika katalytickými doménami provádějícími různé enzymatické kroky při vzájemné kovalentní vazbě (např. PKS pro erythromycin, soraphen, rifamycin, a avermectin (víz MacNeil et al., in Industrial Microorganisms: Basic and Applied Molecular Genetics, (ed.: Baltz et al.), American Society for Microbiology, Washington D. C. pp. 245-256 (1993)), zatímco proteiny typu II jsou monofunkční (Hutchinson et al., in Industrial Microorganisms: Basic and Applied Molecular Genetics, (ed.: Baltz et al.), American Society for Microbiology, Washington D. C. pp. 203216 (1993)).

Pro jednoduší polyketidy jako je např. actinorhodin (produkovaný Streptomyces coelicolor) je prováděno opakovaně několik kroků adicí dvojuhlíkového bloku enzymem PKS, který je kódován jedním souborem PKS genů. Naproti tomu syntéza složitějších sloučenin jako je např. erythromycin a soraphen, vyžaduje enzym PKS, který je organizován do modulů, přičemž každý modul provádí jeden cyklus adice dvojuhlíkového bloku (přehled viz. Hopwood et al., in Industrial Microorganisms: Basic and Applied Molecular Genetics, (ed.: Baltz et al.), American Society for Microbiology, Washington D. C., pp. 267• · · · ► · · « ► · · I

275 (1993)).

Komplexní polyketidy a sekundární metabolity obecně mohou obsahovat dílčí struktury, z aminokyselin místo jednoduchých Inkorporace 'těchto stravebních od které jsou karboxylových bloků je ribozomové) odvozeny kyselin. zaj ištěna polypeptidkteré jsou neribozomovou (tj. odlišnou syntetázou (NRPS). NRPS patří k multienzymům, organizované v modulech. Každý modul je zodpovědný za adici (a další zpracování, pokud je potřeba) jednoho aminokyselinového stavebního bloku. NRPS aktivuje aminokyseliny tím, že vytváří aminoacyladenyláty a zachycuje aktivované aminokyseliny na thiolové skupině fosfopantheteinylové prosthetické skupiny na peptidylové doméně nosičového proteinu. Dále NRPS modifikuje aminokyseliny epimerizací, N-methylací nebo cyklizaci, pokud je to třeba, a katalyzuje vytvoření peptidových vazeb mezi aminokyselinami navázanými na enzym. NRPS je zodpovědný za za biosyntézu peptidových sekundárních metabolitů jako je cyklosporin, může poskytnout terminační jednotku polyketidového řetězce jako je tomu u rapamycinu nebo vytváří smíšené systémy s PKS jako je tomu u yersiniabactinu.

Epothilony A a B jsou 16-členné polyketidy s počáteční jednotkou odvozenou z acylcysteinu, které se tvoří v Sorangium cellulosum kmene Soce90 (Gerth et al., J. Antibiotics 49: 560-563 (1996). Struktura epothilonu A a B, kdy R znamená atom vodíku (epothilon A) nebo methylovou skupinu (epothilon Β) , je vyjádřena následujícím biosyntézy makrocyklické vzorcem:

• · • · • · · ···· · · · · ··· · ····· ······ · · ·· ·· · • · ·· ···· •·· · ······· ·· · ·

Epothilony mají úzké spektrum protihoubového účinku a vykazují zejména vysokou toxicitu v kulturách živočišných buněk (viz Hófle et al., Patent DE 4138042 (1993), vložený formou odkazu). Významné je také to, že epothilony napodobují biologické účinky taxolu, jak in vivo tak i v kultivovaných buňkách (Bollag et al., Cancer Research 55: 2325-2333 (1995), vloženo formou odkazu). Taxol a taxoter, které stabilizují buněčné mikrotubuly, jsou protirakovinná chemoterpeutická činidla s významným účinkem proti různým solidním nádorům u lidí (Rowinsky et al., J. Nati. Cancer Inst. 83: 1778-1781 (1991)). Kompetiční studie ukázaly, že epothilony působí jako kompetitivní inhibitory vazby taxolu na mikrotubuly, což je ve shodě s vysvětlením, že sdílejí shodné vazebné místo k mikrotubuly a mají podobnou afinitu k mikrotubulům jako taxol. Avšak epothilony mají významnou výhodu proti taxolu, a sice epothilony vykazují ve srovnání s taxolem mnohem menší pokles v účinku proti buněčným liniím s multilékovou rezistencí (MDR) (Bollag et al. (1995)). Kromě toho epothilony jsou se značně menší účinností exportovány z buněk prostřednictvím P-glykoproteinů než taxol (Gerth et al. (1996)). Navíc bylo syntetizováno několik analogů epothilonu, které mají vyšší cytotoxickou aktivitu než epothilon A nebo epothilon B, jak to dokazuje jejich zvýšená schopnost indukovat polymerizaci a stabilizaci mikrotubulů (viz mezinárodní patentová přihláška WO 98/25929, vložena formou ··· · · · · · · ······ · · ·· ·· · • · ·· · · · · ··· · ······· ·· ··

- 5 odkazu).

I přes příslib užití epothilonů jako protirakovinných agens přetrvávající problémy výroby těchto sloučenin omezují silně jejich potenciální komerční využití. Sloučeniny jsou příliš složité na to, aby mohly být vyráběny chemickou syntézou v průmyslovém měřítku a musí se tedy vyrábět fermentací. Způsoby genetické manipulace myxobakterií jako je např. Sorangium cellulosum byly popsány v patentu USA 5,686,295, který je vložen formou odkazu. Avšak Sorangium cellulosum je známé tím, že jej lze velmi obtížně fermentovat a produkční hladiny epothilonů jsou tudíž velmi nízké, tento problém by však mohla vyřešit rekombinantní produkce epothilonů v heterologním hostiteli, který by byl vhodnější pro fermentací. Avšak geny, které kódují polypeptidy zodpovědné za biosyntézu epothilonů nebyly dosud izolovány, kromě toho i kmen, který produkuje epothilony, tj . So ce90, produkuje také alespoň jeden polyketid, sporangien, který značně komplikuje izolaci zvláště zodpovědných za biosyntézu epothilonů.

Vzhledem k výše uvedeným skutečnostem cílem předkládaného vynálezu bylo izolovat geny, které se účastní biosyntézy epothilonů, zejména geny účastnící se syntézy epothilonů A a B v myxobakteriích skupiny

Sorangium/Polyanglum, tj. kmen So ce90 Sorangium cellulosum.

Dalším předmětem předkládaného vynálezu je způsob rekombinantní produkce epothilonů pro použití jako farmaceutických přípravků proti rakovině.

• · · ···· · · · · ··· · ····· ···«·· · · ·· ·· · • · · · ···· ··· * ······· · · ··

- 6 Podstata vynálezu

Předkládaný vynález překvapivě překonává výše uvedené problémy tím, že poskytuje poprvé molekulu nukleové kyseliny obsahující nukleotidovou sekvenci, která kóduje alespoň jeden polypeptid účastnící se biosyntézy epothilonu. Ve výhodném provedení vynálezu je nukleová kyselina izolována z druhu patřícího k. rodu Myxobacteria, nej výhodněji jde o Sorangium cellulosum.

V jiném výhodném provedení předkládaný vynález poskytuje izolovanou molekulu nukleové kyseliny obsahující nukleotidovou sekvenci, která kóduje alespoň jeden polypeptid účastnící se biosyntézy epothilonu, přičemž polypeptid obsahuje aminokyselinovou sekvenci vybranou ze skupiny, která obsahuje: sekvenci identifikačního čísla (id. č.) 2, aminokyseliny 11-437 (tj. 11 až 437) sekvence id. č. 2, aminokyseliny 543-864 sekvence id. č. 2, aminokyseliny 9741273 sekvence id. č. 2, aminokyseliny 1314-1385 sekvence id. č. 2, sekvenci id. č. 3, aminokyseliny 72-81 sekvence id. č. 3, aminokyseliny 118-125 sekvence id. č. 3, aminokyseliny 199-212 sekvence id. č. 3, aminokyseliny 353-363 sekvence id. č. 3, aminokyseliny 549-565 sekvence id. č. 3, aminokyseliny 588-603 sekvence id. č. 3, aminokyseliny 669-684 sekvence id. č. 3, aminokyseliny 815-821 sekvence id. č. 3, aminokyseliny 868-892 sekvence id. č. 3, aminokyseliny 903-912 sekvence id. č. 3, aminokyseliny 918-940 sekvence id. č. 3, aminokyseliny 1268-1274 sekvence id. č. 3, aminokyseliny 1285-1297 sekvence id. č. 3, aminokyseliny 973-1256 sekvence id. č. 3, aminokyseliny 1344-1351 sekvence id. č. 3, sekvenci id. č. 4, aminokyseliny 7-432 sekvence id. č. 4, aminokyseliny 539-859 sekvence id. č. 4, aminokyseliny 869-1037 sekvence id. č. 4, aminokyseliny 1439-1684 sekvence id. č. 4, aminokyseliny

1722-1792 sekvence id. č. 4, sekvenci id. č. 5, aminokyseliny 39-457 sekvence id. č. 5, aminokyseliny 563-884 sekvence id. č. 5, aminokyseliny 1147-1399 sekvence id. č. 5, aminokyseliny 1434-1506 sekvence id. č. 5, aminokyseliny 1524-1950 sekvence id. č. 5, aminokyseliny 2056-2377 sekvence id. č. 5, aminokyseliny 2645-2895 sekvence id. č. 5, aminokyseliny 2932-3005 sekvence id. č. 5, aminokyseliny 3024-3449 sekvence id. č. 5, aminokyseliny 3555-3876 sekvence id. č. 5, aminokyseliny 3886-4048 sekvence id. č. 5, aminokyseliny 4433-4719 sekvence id. č. 5, aminokyseliny 4729-4974 sekvence id. č. 5, aminokyseliny 5010-5082 sekvence id. č. 5, aminokyseliny 5103-5525 sekvence id. č. 5, aminokyseliny 5631-5951 sekvence id. č. 5, aminokyseliny 5964-6132 sekvence id. č. 5, aminokyseliny 6542-6837 sekvence id. č. 5, aminokyseliny 6857-7101 sekvence id. č. 5, aminokyseliny 7140-7211 sekvence id. č. 5, sekvenci id. č. 6, aminokyseliny 35-454 sekvence id. č. 6, aminokyseliny 561-881 sekvence id. č. 6, aminokyseliny 1143-1393 sekvence id. č. 6, aminokyseliny 1430-1503 sekvence id. č. 6, aminokyseliny 1522-1946 sekvence id. č. 6, aminokyseliny 2053-2373 sekvence id. č. 6, aminokyseliny 2383-2551 sekvence id. č. 6, aminokyseliny 2671-3045 sekvence id. č. 6, aminokyseliny 3392-3636 sekvence id. č. 6, aminokyseliny 3673-3745 sekvence id. č. 6, sekvenci id. č. 7, aminokyseliny 32-450 sekvence id. č. 7, aminokyseliny 556-877 sekvence id. č. 7, aminokyseliny 887-1051 sekvence id. č. 7, aminokyseliny 14781790 sekvence id. č. 7, aminokyseliny 1810-2055 sekvence id. č. 7, aminokyseliny 2093-2164 sekvence id. č. 7, aminokyseliny 2165-2439 sekvence id. č. 7, sekvenci id. č. 8, sekvenci id. č. 10, sekvenci id. č. 11 a sekvenci id. č. 22.

Ve výhodnějším provedení poskytuje předkládaný vynález molekulu izolované nukleové kyseliny obsahující nukleotidovou • · · · · sekvenci, která kóduje alespoň jeden polypeptid účastnící se biosyntézy epothilonů, přičemž polypeptid obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: sekvenci id. č. 2, aminokyseliny 11-437 sekvence id. č. 2, aminokyseliny 543-864 sekvence id. č. 2, aminokyseliny. 9741273 sekvence id. č. 2, aminokyseliny 1314-1385 sekvence id. č. 2, sekvenci id. č. 3, aminokyseliny 72-81 sekvence id. č. 3, aminokyseliny 118-125 sekvence id. č. 3, aminokyseliny 199-212 sekvence id. č. 3, aminokyseliny 353-363 sekvence id. č. 3, aminokyseliny 549-565 sekvence id. č. 3, aminokyseliny 588-603 sekvence id. č. 3, aminokyseliny 669-684 sekvence id. č. 3, aminokyseliny 815-821 sekvence id. č. 3, aminokyseliny 868-892 sekvence id. č. 3, aminokyseliny 903-912 sekvence id. č. 3, aminokyseliny 918-940 sekvence id. č. 3, aminokyseliny 1268-1274 sekvence id. č. 3, aminokyseliny 1285-1297 sekvence id. č. 3, aminokyseliny 973-1256 sekvence id. č. 3, aminokyseliny 1344-1351 sekvence id. č. 3, sekvenci id. č. 4, aminokyseliny 7-432 sekvence id. č. 4, aminokyseliny 539-859 sekvence id. č. 4, aminokyseliny 869-1037 sekvence id. č. 4, aminokyseliny 1439-1684 sekvence id. č. 4, aminokyseliny 1722-1792 sekvence id. č. 4, sekvenci id. č. 5, aminokyseliny 39-457 sekvence id. č. 5, aminokyseliny 563-884 sekvence id. č. 5, aminokyseliny 1147-1399 sekvence id. č. 5, aminokyseliny 1434-1506 sekvence id. č. 5, aminokyseliny 1524-1950 sekvence id. č. 5, aminokyseliny 2056-2377 sekvence id. č. 5, aminokyseliny 2645-2895 sekvence id. č. 5, aminokyseliny 2932-3005 sekvence id. č. 5, aminokyseliny 3024-3449 sekvence id. č. 5, aminokyseliny 3555-3876 sekvence id. č. 5, aminokyseliny 3886-4048 sekvence id. č. 5, aminokyseliny 4433-4719 sekvence id. č. 5, aminokyseliny 4729-4974 sekvence id. č. 5, aminokyseliny 5010-5082 sekvence id. č. 5, aminokyseliny 5103-5525 sekvence id. č. 5, • · • · • · · · ·

- 9 aminokyseliny 5631-5951 sekvence id. č. 5, aminokyseliny 5964-6132 sekvence id. č. 5, aminokyseliny 6542-6837 sekvence id. č. 5, aminokyseliny 6857-7101 sekvence id. č. 5, aminokyseliny 7140-7211 sekvence id. č. 5, sekvenci id. č. 6, aminokyseliny 35-454 sekvence id. č. 6, aminokyseliny 561-881 sekvence id. č. 6, aminokyseliny 1143^-1393 sekvence id. č. 6, aminokyseliny 1430-1503 sekvence id. č. 6, aminokyseliny 1522-1946 sekvence id. č. 6, aminokyseliny 2053-2373 sekvence id. č. 6, aminokyseliny 2383-2551 sekvence id. č. 6, aminokyseliny 2671-3045 sekvence id. č. 6, aminokyseliny 3392-3636 sekvence id. č. 6, aminokyseliny 3673-3745 sekvence id. č. 6, sekvenci id. č. 7, aminokyseliny 32-450 sekvence id. č. 7, aminokyseliny 556-877 sekvence id. č. 7, aminokyseliny 887-1051 sekvence id. č. 7, aminokyseliny 14781790 sekvence id. č. 7, aminokyseliny 1810-2055 sekvence id. č. 7, aminokyseliny 2093-2164 sekvence id. č. 7, aminokyseliny 2165-2439 sekvence id. č. 7, sekvenci id. č. 8, sekvenci id. č. 10, sekvenci id. č. 11 a sekvenci id. č. 22.

V ještě výhodnějším provedení předkládaný vynález poskytuje izolovanou molekulu nukleové kyseliny obsahující nukleotidovou sekvenci, která kóduje alespoň jeden polypeptid účastnící se biosyntézy epothilonů, přičemž nukleotidová sekvence je v podstatě podobná nukleotídové sekvenci vybrané ze skupiny obsahující: komplementární sekvenci k nukleotidy 1900-3171 sekvence id. č. 1, nukleotidy 3415-5556 sekvence id. č. 1, nukleotidy 7610-11875 sekvence id. č. 1, nukleotidy 7643-8920 sekvence id. č. 1, nukleotidy 9236-10201 sekvence id. č. 1, nukleotidy 10529-11428 sekvence id. č. 1, nukleotidy 11549-11764 sekvence id. č. 1, nukleotidy 1187216104 sekvence id. č. 1, nukleotidy 12085-12114 sekvence id. č. 1, nukleotidy 12223-12246 sekvence id. č. 1, nukleotidy 12466-12507 sekvence id. č .· 1, nukleotidy 12928-12960 ··· · ····· ······ · · ·· ·· · • · ··· ···· ··· · ··· ···· ·· ·· sekvence id. č. 1, nukleotidy 13516-13566 sekvence id. č. 1, nukleotidy 13633-13680 sekvence id. č. 1, nukleotidy 1387613923 sekvence id. č. 1, nukleotidy 14313-14334 sekvence id. č. 1, nukleotidy 14473-14547 sekvence id. č. 1, nukleotidy 14578-14607 sekvence id. č. 1, nukleotidy 14623-14692 sekvence id. č. 1, nukleotidy 15673-15693 sekvence id. č. 1, nukleotidy 15724-15762 sekvence id. č. 1, nukleotidy 1478815639 sekvence id. č. 1, nukleotidy 15901-15924 sekvence id. č. 1, nukleotidy 16251-21749 sekvence id. č. 1, nukleotidy 16269-17546 sekvence id. č. 1, nukleotidy 17865-18827 sekvence id. č. 1, nukleotidy 18855-19361 sekvence id. č. 1, nukleotidy 20565-21302 sekvence id. č. 1, nukleotidy 2141421626 sekvence id. č. 1, nukleotidy 21746-43519 sekvence id. č. 1, nukleotidy 21860-23116 sekvence id. č. 1, nukleotidy 23431-24397 sekvence id. č. 1, nukleotidy 25184-25942 sekvence id. č. 1, nukleotidy 26045-26263 sekvence id. č. 1, nukleotidy 26318-27595 sekvence id. č. 1, nukleotidy 2791128876 sekvence id. č. 1, nukleotidy 29678-30429 sekvence id. č. 1, nukleotidy 30539-30759 sekvence id. č. 1, nukleotidy 30815-32092 sekvence id. č. 1, nukleotidy 32408-33373 sekvence id. č. 1, nukleotidy 33401-33889 sekvence id. č. 1, nukleotidy' 35042-35902 sekvence id. č. 1, nukleotidy 3593036667 sekvence id. č. 1, nukleotidy 36773-36991 sekvence id. č. 1, nukleotidy 37052-38320 sekvence id. č. 1, nukleotidy 38636-39598 sekvence id. č. 1, nukleotidy 39635-40141 sekvence id. č. 1, nukleotidy 41369-42256 sekvence id. č. 1, nukleotidy 42314-43048 sekvence id. č. 1, nukleotidy 4316343378 sekvence id. č. 1, nukleotidy 43524-54920 sekvence id. č. 1, nukleotidy 43626-44885 sekvence id. č. 1, nukleotidy 45204-46166 sekvence id. č. 1, nukleotidy 46950-47702 sekvence id. č. 1, nukleotidy 47811-48032 sekvence id. č. 1, nukleotidy 48087-49361 sekvence id. č. 1, nukleotidy 49680- 11 50642 sekvence id. č. 1, nukleotidy 50670-51176 sekvence id. č. 1, nukleotidy 51534-52657 sekvence id. č. 1, nukleotidy 53697-54431 sekvence id. č. 1, nukleotidy 54540-54758 sekvence id. č. 1, nukleotidy 54935-62254 sekvence id. č. 1, nukleotidy 55028-56284 sekvence id. č. 1, nukleotidy 5660057565 sekvence id. č. 1, nukleotidy 57593-58087 sekvence id. č. 1, nukleotidy 59366-60304 sekvence id. č. 1, nukleotidy 60362-61099 sekvence id. č. 1, nukleotidy 61211-61426 sekvence id. č. 1, nukleotidy 61427-62254 sekvence id. č. 1, nukleotidy 62369-63628 sekvence id. č. 1, nukleotidy 6733468251 sekvence id. č. 1 a nukleotidy 1-68750 sekvence id. č. 1.

Ve zvláště výhodném provedení poskytuje předkládaný vynález molekulu nukleové kyseliny obsahující nukleotidovou sekvenci, která kóduje alespoň jeden polypeptid účastnící se biosyntézy epothilonů, přičemž nukleotidové sekvence je vybrána ze skupiny obsahující: komplementární sekvenci k nukleotidům 1900-3171 sekvence id. č. 1, nukleotidy 34155556 sekvence id. č. 1, nukleotidy 7610-11875 sekvence id. č. 1, nukleotidy 7643-8920 sekvence id. č·. 1, nukleotidy 923610201 sekvence id. č. 1, nukleotidy 10529-11428 sekvence id. č. 1, nukleotidy 11549-11764 sekvence íd. č. 1, nukleotidy 11872-16104 sekvence id. č. 1, nukleotidy 12085-12114 sekvence id. č. 1, nukleotidy 12223-12246 sekvence id. č. 1, nukleotidy 12466-12507 sekvence id. č. 1, nukleotidy 1292812960 sekvence id. č. 1, nukleotidy 13516-13566 sekvence id. č. 1, nukleotidy 13633-13680 sekvence id. č. 1, nukleotidy 13876-13923 sekvence id. č. 1, nukleotidy 14313-14334 sekvence id. č. 1, nukleotidy 14473-14547 sekvence id. č. 1, nukleotidy 14578-14607 sekvence id. č. 1, nukleotidy 1462314692 sekvence id. č. 1, nukleotidy 15673-15693 sekvence id. č. 1, nukleotidy 15724-15762 sekvence id. č. 1, nukleotidy • 9 · · · • · · · · • · · · · · • · 9 9 9

99 9 9 9 9

- 12 14788-15639 sekvence id. č. 1, nukleotidy 15901-15924 sekvence id. č. 1, nukleotidy 16251-21749 sekvence id. č. 1, nukleotidy 16269-17546 sekvence id. č. 1, nukleotidy 1786518827 sekvence id. č. 1, nukleotidy 18855-19361 sekvence id. č. 1, nukleotidy 20565-21302 sekvence id. č. 1, nukleotidy 21414-21626 sekvence id. č. 1, nukleotidy 21746-43519 sekvence id. č. 1, nukleotidy 21860-23116 sekvence id. č. 1, nukleotidy 23431-24397 sekvence id. č. 1, nukleotidy 2518425942 sekvence id. č. 1, nukleotidy 26045-26263 sekvence id. č. 1, nukleotidy 26318-27595 sekvence id. č. 1, nukleotidy 27911-28876 sekvence id. č. 1, nukleotidy 29678-30429 sekvence id. č. 1, nukleotidy 30539-30759 sekvence id. č. 1, nukleotidy 30815-32092 sekvence id. č. 1, nukleotidy 3240833373 sekvence id. č. 1, nukleotidy 33401-33889 sekvence id. č. 1, nukleotidy 35042-35902 sekvence id. č. 1, nukleotidy 35930-36667 sekvence id. č. 1, nukleotidy . 36773-36991 sekvence id. č. 1, nukleotidy 37052-38320 sekvence id. č. 1, nukleotidy 38636-39598 sekvence id. č. 1, nukleotidy 3963540141 sekvence id. č. 1, nukleotidy 41369-42256 sekvence id. č. 1, nukleotidy 42314-43048 sekvence id. č. 1, nukleotidy 43163-43378 sekvence id. č. 1, nukleotidy 43524-54920 sekvence id. č. 1, nukleotidy 43626-44385 sekvence id. č. 1, nukleotidy 45204-46166 sekvence id. č. 1, nukleotidy 4695047702 sekvence id. č. 1, nukleotidy 47811-48032 sekvence id. č. 1, nukleotidy 48087-49361 sekvence id. č. 1, nukleotidy 49680-50642 sekvence id. č. 1, nukleotidy 50670-51176 sekvence id. č. 1, nukleotidy 51534-52657 sekvence id. č. 1, nukleotidy 53697-54431 sekvence id. č. 1, nukleotidy 5454054758 sekvence id. č. 1, nukleotidy 54935-62254 sekvence id. č. 1, nukleotidy 55028-56284 sekvence id. č. 1, nukleotidy 56600-57565 sekvence id. č. 1, nukleotidy 57593-58087 sekvence id. č. 1, nukleotidy 59366-60304 sekvence id. č. 1,

- 13 nukleotidy 60362-61099 sekvence id. č. 1, nukleotidy 6121161426 sekvence id. č. 1, nukleotidy 61427-62254 sekvence id. č. 1, nukleotidy 62369-63628 sekvence id. č. 1, nukleotidy 67334-68251 sekvence id. č. 1 a nukleotidy 1-68750 sekvence id. č. 1.

V ještě dalším výhodném provedení předkládaný vynález poskytuje izolovanou molekulu nukleové kyseliny obsahující nukleotidovou sekvenci, která kóduje alespoň jeden polypeptid účastnící se biosyntézy epothilonů, přičemž nukleotidová sekvence obsahuje úsek velikosti 20, 25, 30, 35, 40, 45, nebo 50 (výhodně 20) párů baží po sobě jdoucích nukleotidů sekvenčně identický s odpovídajícím úsekem velikosti 20, 25,

30, 35, 40, 45, nebo 50 (výhodně 20) párů baží po sobě jdoucích nukleotidů sekvence vybrané ze skupiny obsahující: komplement nukleotidů 1900-3171 sekvence id. č. 1, nukleotidy 3415-5556 sekvence id. č. 1, nukleotidy 7610-11875 sekvence id. č. 1, nukleotidy 7643-8920 sekvence id. č. 1, nukleotidy. 9236-10201 sekvence id. č. 1, nukleotidy 10529-11428 sekvence id. č. 1, nukleotidy 11549-11764 sekvence id. č. 1, nukleotidy 11872-16104 sekvence id. č. 1, nukleotidy 1208512114 sekvence id. č. 1, nukleotidy 12223-12246 sekvence id. č. 1, nukleotidy 12466-12507 sekvence id. č. 1, nukleotidy

12-928-12960 sekvence id. č. 1, nukleotidy 13516-13566 sekvence id. č. 1, nukleotidy 13633-13680 sekvence id. č. 1, nukleotidy 13876-13923 sekvence id. č. 1, nukleotidy 1431314334 sekvence id. č. 1, nukleotidy 14473-14547 sekvence id. č. 1, nukleotidy 14578-14607 sekvence id. č. 1, nukleotidy 14623-14692 sekvence id. č. 1, nukleotidy 15673-15693 sekvence id. č. 1, nukleotidy 15724-15762 sekvence id. č. 1, nukleotidy 14788-15639 sekvence id. č. 1, nukleotidy 1590115924 sekvence id. č. 1, nukleotidy 16251-21749 sekvence id. č. 1, nukleotidy 16269-17546 sekvence id. č. 1, nukleotidy • · • · · · · • · · · · • · • ·

- 14 17865-18827 sekvence id. č. 1, nukleotidy 18855-19361 sekvence id. č. 1, nukleotidy 20565-21302 sekvence id. č. 1, nukleotidy 21414-21626 sekvence id. č. 1, nukleotidy 2174643519 sekvence id. č. 1, nukleotidy 21860-23116 sekvence id. č. 1, nukleotidy 23431-24397 sekvence id. č. 1, nukleotidy 25184-25942 sekvence id. č. 1, nukleotidy 26045-26263 sekvence id. č. 1, nukleotidy 26318-27595 sekvence id. č. 1, nukleotidy 27911-28876 sekvence id. č. 1, nukleotidy 2967830429 sekvence id. č. 1, nukleotidy 30539-30759 sekvence id. č. 1, nukleotidy 30815-32092 sekvence id. č. 1, nukleotidy 32408-33373 sekvence id. č. 1, nukleotidy 33401-33889 sekvence id. č. 1, nukleotidy 35042-35902 sekvence id. č. 1, nukleotidy 35930-36667 sekvence id. č. 1, nukleotidy 3677336991 sekvence id. č. 1, nukleotidy 37052-38320 sekvence id. č. 1, nukleotidy 38636-39598 sekvence id. č. 1, nukleotidy 39635-40141 sekvence id. č. 1, nukleotidy 41369-42256 sekvence id. č. 1, nukleotidy 42314-43048 sekvence id. č. 1, nukleotidy 43163-43378 sekvence id. č. 1, nukleotidy 4352454920 sekvence id. č. 1, nukleotidy 43626-44885 sekvence id. č. 1, nukleotidy 45204-46166 sekvence id. č. 1, nukleotidy 46950-47702 sekvence id. č. 1, nukleotidy 47811-48032 sekvence id. č. 1, nukleotidy 48087-49361 sekvence id. č. 1, nukleotidy 49680-50642 sekvence id. č. 1, nukleotidy 5067051176 sekvence id. č. 1, nukleotidy 51534-52657 sekvence id. č. 1, nukleotidy 53697-54431 sekvence id. č. 1, nukleotidy 54540-54758 sekvence id. č. 1, nukleotidy 54935-62254 sekvence id. č. 1, nukleotidy 55028-56284 sekvence id. č. 1, nukleotidy 56600-57565 sekvence id- č. 1, nukleotidy 5759358087 sekvence id. č. 1, nukleotidy 59366-60304 sekvence id. č. 1, nukleotidy 60362-61099 sekvence id. č. 1, nukleotidy 61211-61426 sekvence id. č. 1, nukleotidy 61427-62254 sekvence id. č. 1, nukleotidy 62369-63628 sekvence id. č. 1, • · · · • · · · • ♦ · · • · · · • · · ·

- 15 nukleotidy 67334-68251 sekvence id. č. 1 a nukleotidy 1-68750 sekvence id. č. 1.

Předkládaný vynález dále poskytuje chimérický gen, který obsahuje sekvenci heterologního promotoru operativně spojenou s molekulou nukleové kyseliny podle vynálezu. Dále vynález poskytuje rekombinantní vektor, který obsahuje chimérický gen, přičemž vektor je schopen být trvale transformován do hostitelské buňky. A ještě dále vynález poskytuje rekombinantní hostitelské buňky, které obsahují chimérický gen, přičemž hostitelská buňky je schopná exprimovat nukleotidovou sekvenci kódující alespoň jeden polypeptid nezbytný pro biosyntézu epothilonů. Ve výhodném provedení je rekombinantní hostitelskou buňkou bakterie, patřící do řádu Actinomycetales, ve výhodnějším provedení jsou hostitelské buňky kmen Streptomyces. V jiném provedení vynálezu je hostitelskou buňkou jakákoliv bakterie schopná fermentace, jako je Pseudomonas nebo E. coli. Dále předkládaný vynález poskytuje Bac klon, který obsahuje molekulu nukleové kyseliny podle vynálezu, zejména Bac klon pEPO15.

Další aspekt předkládaného vynálezu poskytuje molekulu izolované nukleové kyseliny obsahující nukleotidovou sekvenci, která kóduje doménu epothilonsyntázy.

V jednom provedení vynálezu je epothilonsyntázová doména β-ketoacylsyntázová (KS) doména, která obsahuje aminokyselinovou sekvenci v podstatě podobnou s aminokyselinovou sekvencí vybranou ze skupiny obsahující: aminokyseliny 11-437 sekvence id. č. 2, aminokyseliny 7-432 sekvence id. č. 4, aminokyseliny 39-457 sekvence id. č. 5, aminokyseliny 1524-1950 sekvence id. č. 5, aminokyseliny 3024-3449 sekvence id. č. 5, aminokyseliny 5103-5525 sekvence id. č. 5, aminokyseliny 35-454 sekvence id. č. 6, aminokyseliny 1522-1946 sekvence id. č. 6a aminokyseliny · 0 00 00 ·«· · · ♦ · · · * ·

0 0 · · 0 0 0 0 «•••00 · 0 00 · · ·

0 00 0 0 · 0

000 0 000 0000 00 00

- 16 32-450 sekvence id. č. 7. Podle tohoto provedení vynálezu KS doména výhodně obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: aminokyseliny 11-437 sekvence id. č. 2, aminokyseliny 7-432 sekvence id. č. 4, aminokyseliny 39-457 sekvence id. č. 5, aminokyseliny 1524-1950 sekvence id. č. 5, aminokyseliny 3024-3449 sekvence id. č. 5, aminokyseliny 5103-5525 sekvence id. č. 5, aminokyseliny 35-454 sekvence id. č. 6, aminokyseliny 1522-1946 sekvence id. č. 6 a aminokyseliny 32-450 sekvence id. č. 7.

Podle tohoto provedení vynálezu je také výhodná nukleotidové sekvence v podstatě podobná nukleotidové sekvenci vybrané ze skupiny obsahující: nukleotidy 7643-8920 sekvence id. č. 1, nukleotidy 16269-17546 sekvence id. č. 1, nukleotidy 21860-23116 sekvence id. č. 1, nukleotidy 2631827595 sekvence id. č. 1, nukleotidy 30815-32092 sekvence id. č. 1, nukleotidy 37052-38320 sekvence id. č. 1, nukleotidy 43626-44885 sekvence id. č. 1, nukleotidy 48087-49361 sekvence id. č. 1 a nukleotidy 55028-56284 sekvence id. č. 1. Podle tohoto provedení vynálezu nukleotidové sekvence výhodněji obsahuje nepřerušený úsek po sobě následujicich nukleotidů velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně

20) párů baží sekvenčně identický s nepřerušeným úsekem velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží z nukleotidové sekvence vybrané ze skupiny obsahující: nukleotidy 7643-8920 sekvence id. č. 1, nukleotidy 1626917546 sekvence id. č. 1, nukleotidy 21860-23116 sekvence id. č. 1, nukleotidy 26318-27595 sekvence id. č. 1, nukleotidy 30815-32092 sekvence id. č. 1, nukleotidy 37052-38320 sekvence id. č. 1, nukleotidy 43626-44885 sekvence id. č. 1, nukleotidy 48087-49361 sekvence id. č. 1 a nukleotidy 5502856284 sekvence id. č. 1. Navíc podle tohoto provedení je nukleotidové sekvence nejvýhodněji vybrána ze - skupiny ·· « • · · • * · • · · » • · • · « ·

- 17 obsahující: nukleotidy 7643-8920 sekvence id. č. 1, nukleotidy 16269-17546 sekvence id. č. 1, nukleotidy 2186023116 sekvence id. č. 1, nukleotidy 26318-27595 sekvence id. č. 1, nukleotidy 30815-32092 sekvence id. č. 1, nukleotidy 37052-38320 sekvence id. č. 1, nukleotidy 43626-44885 sekvence id. č. 1, nukleotidy 48087-49361 sekvence id. č. 1 a nukleotidy 55028-56284 sekvence id. č. 1.

Podle jiného provedení předkládaného vynálezu epothilonsyntázová doména je acyltransferázová (AT) doména obsahující aminokyselinovou sekvenci v podstatě podobnou s aminokyselinovou sekvencí vybranou ze skupiny obsahující: aminokyseliny 543-864 sekvence id. č. 2, aminokyseliny 539859 sekvence id. č. 4, aminokyseliny 563-884 sekvence id. č. 5, aminokyseliny 2056-2377 sekvence id. č. 5, aminokyseliny 3555-3876 sekvence id. č. 5, aminokyseliny 5631-5951 sekvence id. č. 5, aminokyseliny 561-881 sekvence id. č. 6, aminokyseliny 2053-2373 sekvence id. č. 6 a aminokyseliny 556-877 sekvence id. č. 7. V tomto provedení vynálezu AT doména výhodně obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: aminokyseliny 543-864 sekvence id. č. 2, aminokyseliny 539-859 sekvence id. č. 4, aminokyseliny 563884 sekvence id. č. 5, aminokyseliny 2056-2377 sekvence id. č. 5, aminokyseliny 3555-3876 sekvence id. č. 5, aminokyseliny 5631-5951 sekvence id. č. 5, aminokyseliny 561881 sekvence id. č. 6, aminokyseliny 2053-2373 sekvence id. č. 6 a aminokyseliny 556-877 sekvence id. č. 7. V tomto provedení je výhodná nukleotidové sekvence v podstatě podobná nukleotidové sekvenci vybrané ze skupiny obsahující: nukleotidy 9236-10201 sekvence id. č. 1, nukleotidy 1786518827 sekvence id. č. 1, nukleotidy 23431-24397 sekvence id. č. 1, nukleotidy 27911-28876 sekvence id. č. 1, nukleotidy 32408-33373 sekvence id. č.

nukleotidy 38636-39598 « · • · · · ·

- 18 25, 30, 35, z nukleotidová sekvence id. č. 1, nukleotidy 45204-46166 sekvence id. č. 1, nukleotidy 49680-50642 sekvence id. č. 1 a nukleotidy 5660057565 sekvence id. č. 1. Podle tohoto provedení vynálezu nukleotidová sekvence výhodněji obsahuje nepřerušený úsek velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží sekvenčně identický s nepřerušeným úsekem velikosti 20, 40, 45 nebo 50 (výhodně 20) párů baží sekvence vybrané ze skupiny obsahující:

nukleotidy 9236-10201 sekvence id. č. 1, nukleotidy 1786518827 sekvence id. č. 1, nukleotidy 23431-24397 sekvence id. č. 1, nukleotidy 27911-28876 sekvence id. č. 1, nukleotidy 32408-33373 sekvence id. č. 1, nukleotidy 38636-39598 sekvence id. č. 1, nukleotidy 45204-46166 sekvence id. č. 1, nukleotidy 49680-50642 sekvence id. č. 1 a nukleotidy 5660057565 sekvence id. č. 1. Navíc podle tohoto provedení je nejvýhodněji nukleotidová sekvence vybrána ze skupiny obsahující: nukleotidy 9236-10201 sekvence id. č. 1, nukleotidy 17865-18827 sekvence id. č. 1, nukleotidy 2343124397 sekvence id. č. 1, nukleotidy 27911-28876 sekvence id. č. 1, nukleotidy 32408-33373 sekvence id. č. 1, nukleotidy 38636-39598 sekvence id. č. 1, nukleotidy 45204-46166 sekvence id. č. 1, nukleotidy 49680-50642 sekvence id. č. 1 a nukleotidy 56600-57565 sekvence id. č. 1.

Podle ještě dalšího provedení předkládaného vynálezu epothilonsyntázová doména je enoylreduktázová (ER) doména obsahující aminokyselinovou sekvenci v podstatě podobnou s aminokyselinovou sekvencí vybranou ze skupiny obsahující: aminokyseliny 974-1273 sekvence id. č. 2, aminokyseliny 44334719 sekvence id. č. 5, aminokyseliny 6542-6837 sekvence id. č. .5, a aminokyseliny 1478-1790 sekvence id. č. 7. Podle tohoto provedení vynálezu výhodně ER doména obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující:

• · • · • · · • · · • · ·

- 19 aminokyseliny 974-1273 sekvence id. č. 2, aminokyseliny 44334719 sekvence id. č. 5, aminokyseliny 6542-6837 sekvence id. č. 5, a aminokyseliny 1478-1790 sekvence id. č. 7. Také je v tomto provedení nukleotidové sekvence v podstatě podobná sekvenci vybrané ze skupiny obsahující: nukleotidy 1052911428 sekvence id. č. 1, nukleotidy 35042-35902 sekvence id. č. 1, nukleotidy 41369-42256 sekvence id. č. 1 a nukleotidy 59366-60304 sekvence id. č. 1. Podle tohoto provedení vynálezu nukleotidové sekvence výhodněji obsahuje nepřerušený úsek velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží sekvenčně identický s nepřerušeným úsekem velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží z nukleotidové sekvence vybrané ze skupiny obsahující: nukleotidy 10529-11428 sekvence id. č. 1, nukleotidy 3504235902 sekvence id. č. 1, nukleotidy 41369-42256 sekvence id. č. 1 a nukleotidy 59366-60304 sekvence id. č. 1. Dále’ je v tomto provedení nukleotidové sekvence vybrána ze skupiny obsahující: nukleotidy 10529-11428 sekvence id. č. 1, nukleotidy 35042-35902 sekvence id. č. 1, nukleotidy 4136942256 sekvence id. č. 1 a nukleotidy 59366-60304 sekvence, id. č. 1.

Podle jiného provedení předkládaného vynálezu epothilonsyntázová doména je doména proteinového nosiče acylové skupiny (ACP) obsahující aminokyselinovou sekvenci v podstatě podobnou s aminokyselinovou sekvencí vybranou ze sekvence id. id. č. 4, aminokyseliny skupiny obsahující: aminokyseliny 1314-1385 č. 2, aminokyseliny 1722-1792 sekvence aminokyseliny 1434-1506 sekvence id. č. 5,

2932-3005 sekvence id. č. 5, aminokyseliny 5010-5082 sekvence id. č. 5, aminokyseliny 7140-7211 sekvence id. č. 5, aminokyseliny 1430-1503 sekvence id. č. 6, aminokyseliny

3673-3745 sekvence id. č. 6 a aminokyseliny 2093-2164 • · • · • Λ · · · • · · · · • * · · · · • · · · · • · · » · · · sekvence id. č. 7. Podle tohoto provedení ACP doména obsahuje vybranou ze skupiny sekvence id. č. 2, č. 4, aminokyseliny

25, 30, 35, z nukleotidové výhodně aminokyselinovou sekvenci obsahující: aminokyseliny 1314-1385 aminokyseliny 1722-1792 sekvence id

1434-1506 sekvence id. č. 5, aminokyseliny 2932-3005 sekvence id. č. 5, aminokyseliny 5010-5082 sekvence id. č. 5, aminokyseliny 7140-7211 sekvence id. č. 5, aminokyseliny 1430-1503 sekvence id. č. 6, aminokyseliny 3673-3745 sekvence id. č. 6 a aminokyseliny 2093-2164 sekvence id. č. 7. Podle tohoto provedení je také nukleotidová sekvence v podstatě podobná nukleotidové sekvenci vybrané ze skupiny obsahující: nukleotidy 11549-11764 sekvence id. č. 1, nukleotidy 2141421626 sekvence id. č. 1, nukleotidy 26045-26263 sekvence id. č. 1, nukleotidy 30539-30759 sekvence id. č. 1, nukleotidy 36773-36991 sekvence id. č. 1, nukleotidy 43163-43378 sekvence id. č. 1, nukleotidy 47811-48032 sekvence id. č. 1, nukleotidy 54540-54758 sekvence id. č. 1 a nukleotidy 6121161426 sekvence id. č. 1. Podle tohoto provedení vynálezu nukleotidová sekvence výhodněji obsahuje nepřerušený úsek velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží sekvenčně identický s nepřerušeným úsekem velikosti 20, 40, 45 nebo 50 (výhodně 20) párů baží sekvence vybrané ze skupiny obsahující:

nukleotidy 11549-11764 sekvence id. č. 1, nukleotidy 2141421626 sekvence id. č. 1, nukleotidy 26045-26263 sekvence id. č. 1, nukleotidy 30539-30759 sekvence id. č. 1, nukleotidy 36773-36991 sekvence id. č. 1, nukleotidy 43163-43378 sekvence id. č. 1, nukleotidy 47811-48032 sekvence id. č. 1, nukleotidy 54540-54758 sekvence id. č. 1 a nukleotidy 6121161426 sekvence id. č. 1. navíc nej výhodněji nukleotidová sekvence obsahující: nukleotidy 11549-11764 v tomto provedení je vybrána ze skupiny sekvence id. č. 1, • · • · · · ·

- 21 nukleotidy 21414-21626 sekvence id. č. 1, nukleotidy 2604526263 sekvence id. č. 1, nukleotidy 30539-30759 sekvence id. č. 1, nukleotidy 36773-36991 sekvence id. č. 1, nukleotidy 43163-43378 sekvence id. č. 1, nukleotidy 47811-48032 sekvence id. č. 1, nukleotidy 54540-54758 sekvence id. č. 1 a nukleotidy 61211-61426 sekvence id. č. 1.

Podle jiného provedení předkládaného vynálezu epothilonsyntázová doména je dehydratázová (DH) doména obsahující aminokyselinovou sekvenci v podstatě podobnou s aminokyselinovou sekvencí vybranou ze skupiny obsahující: aminokyseliny 869-1037 sekvence id. č. 4, aminokyseliny 38864048 sekvence id. č. 5, aminokyseliny 5964-6132 sekvence id. č. 5, aminokyseliny 2383-2551 sekvence id. č. 6 a aminokyseliny 887-1051 sekvence id. č. 7. V tomto provedení DH doména výhodně obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: aminokyseliny 869-1037 sekvence id. č. 4, aminokyseliny 3886-4048 sekvence id. č. 5, aminokyseliny 5964-6132 sekvence id. č. 5, aminokyseliny 2383-2551 sekvence id. č. 6 a aminokyseliny 887-1051 sekvence id. č. 7. Také podle tohoto provedení vynálezu nukleotidová sekvence je výhodně v podstatě podobná nukleotidové sekvenci vybrané ze skupiny obsahující: nukleotidy 18855-19361 sekvence id. č. 1, nukleotidy 33401-33889 sekvence' id. č. 1, nukleotidy 39635-40141 sekvence id. č. 1, nukleotidy 5067051176 sekvence id. č. 1 a nukleotidy 57593-58087 sekvence id. č. 1. Podle tohoto provedení vynálezu nukleotidová sekvence výhodněji obsahuje nepřerušený úsek velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží sekvenčně identický s nepřerušeným úsekem velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží z nukleotidové sekvence vybrané ze skupiny obsahující: nukleotidy 18855-19361 sekvence id. č. 1, nukleotidy 33401-33889 sekvence id. č. 1, nukleotidy 39635* · • a· ···· ···· ··· · · ♦ · · · ······ · 9 · · ·· · • · ·· ··»· ··· « ··· ···· ·· ·«

- 22 40141 sekvence id. č. 1, nukleotidy 50670-51176 sekvence id. č. 1 a nukleotidy 57593-58087 sekvence id. č. 1. Navíc podle tohoto provedení je nej výhodněji nukleotidová sekvence vybrána ze skupiny obsahující: nukleotidy 18855-19361 sekvence id. č. 1, nukleotidy 33401-33889 sekvence id. č. 1, nukleotidy 39635-40141 sekvence id. č. 1, nukleotidy 5067051176 sekvence id. č. 1 a nukleotidy 57593-58087 sekvence id. č. 1.

Podle ještě jiného provedení předkládaného vynálezu epothilonsyntázová doména je β-ketoreduktázová (KR) doména obsahující aminokyselinovou sekvenci v podstatě podobnou s aminokyselinovou sekvencí vybranou ze skupiny obsahující: aminokyseliny 1439-1684 sekvence id. č. 4, aminokyseliny 1147-1399 sekvence id. č. 5, aminokyseliny 2645-2895 sekvence id. č. 5, aminokyseliny 4729-4974 sekvence id. č. 5, aminokyseliny 6857-7101 sekvence id. č. 5, aminokyseliny 1143-1393 sekvence id. č. 6, aminokyseliny 3392-3636 sekvence id. č. 6 a aminokyseliny 1810-2055 sekvence id. č. 7. Podle tohoto provedení KR doména výhodně obsahuje aminokyselinovou sekvencí vybranou ze skupiny obsahující: aminokyseliny 14391684 sekvence id. č. 4, aminokyseliny 1147-1399 sekvence id. č. 5, aminokyseliny 2645-2895 sekvence id. č. 5, aminokyseliny 4729-4974 sekvence id. č. 5, aminokyseliny 6857-7101 sekvence id. č. 5, aminokyseliny 1143-1393 sekvence id. č. 6, aminokyseliny 3392-3636 sekvence id. č. 6 a aminokyseliny 1810-2055 sekvence id. č. 7. také podle tohoto provedení výhodná nukleotidová sekvence ke v podstatě podobná nukleotidové sekvenci vybrané ze skupiny obsahující: nukleotidy 20565-21302 sekvence id. č. 1, nukleotidy 2518425942 sekvence id. č. 1, nukleotidy 29678-30429 sekvence id. č. 1, nukleotidy 35930-36667 sekvence id. č. 1, nukleotidy 42314-43048 sekvence id. č.

1, nukleotidy 46950-47702

- 23 (výhodně 20) ze skupiny id. č. 1, sekvence id. č. 1, nukleotidy 53697-54431 sekvence id. č. 1 a nukleotidy 60362-61099 sekvence id. č. 1. Podle tohoto provedení vynálezu nukleotidová sekvence₍ výhodněji obsahuje nepřerušený úsek velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně- 20) párů baží sekvenčně identický s nepřerušeným úsekem velikosti 20, 25, 30, 35, 40, 45 nebo 50 párů baží z nukleotidové sekvence vybrané obsahující: nukleotidy 20565-21302 sekvence nukleotidy 25184-25942 sekvence id. č. 1, nukleotidy 2967830429 sekvence id. č. 1, nukleotidy 35930-36667 sekvence id. č. 1, nukleotidy 42314-43048 sekvence id. č. 1, nukleotidy 46950-47702 sekvence id. č. 1, nukleotidy 53697-54431 sekvence id. č. 1 a nukleotidy 60362-61099 sekvence id. č. 1. navíc v tomto provedení nukleotidová sekvence je nejvýhodněji vybrána ze skupiny obsahující: nukleotidy 20565-21302 sekvence id. č. 1, nukleotidy 25184-25942 sekvence id. č. 1, nukleotidy 29678-30429 sekvence id. č. 1, nukleotidy 3593036667 sekvence id. č. 1, nukleotidy 42314-43048 sekvence id. č. 1, nukleotidy 46950-47702 sekvence id. č. 1, nukleotidy 53697-54431 sekvence id. č. 1 a nukleotidy 60362-61099 sekvence id. č. 1.

Podle jiného provedení předkládaného vynálezu epothilonsyntázová doména je methyltransferázová (MT) doména obsahující aminokyselinovou sekvenci aminokyselin 2671-3045 sekvence id. č. 6. V tomto provedení MT doména výhodně obsahuje aminokyseliny 2671-3045 sekvence id. č. 6. Podle tohoto provedení je výhodná nukleotidová sekvence v podstatě podobná nukleotidům 51534-52657 sekvence id. č. 1. Podle tohoto provedení vynálezu nukleotidová sekvence výhodněji obsahuje nepřerušený úsek velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží sekvenčně identický s nepřerušeným úsekem velikosti 20, 25, 30, 35, 40, 45 nebo • · • · • · · · · · • · · · · « · · · · · • · · · · ·*·· · · ··

- 24 50 (výhodně 20) párů baží z nukleotidové sekvence 51534-52657 sekvence id. č. 1. nukleotidové sekvence

Navíc podle tohoto provedení je nej výhodněji sekvence nukleotidů

51534-52657 sekvence id. č. 1.

Podle jiného provedení předkládaného vynálezu epothilonsyntázová doména je thoesterázová (TE) doména obsahující aminokyselinovou sekvenci v podstatě podobnou aminokyselinám 2165-2439 sekvence id. č. 7. Podle tohoto provedení TE doména výhodně obsahuje aminokyseliny 2165-2439 sekvence id. č. 7. Také podle tohoto provedení je výhodně nukleotidové sekvence v podstatě podobná nukleotidům 6142762254 sekvence id. č. 1. Podle, tohoto provedení vynálezu nukleotidové sekvence výhodněji obsahuje nepřerušený úsek velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží sekvenčně identický s nepřerušeným úsekem velikosti 20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží z úseku nukleotidů 61427-62254 sekvence id. č. 1.

Další aspekt předkládaného vynálezu poskytuje izolovanou molekulu nukleové kyseliny obsahující nukleotidovou sekvenci, která kóduje neribozomovou peptidsyntetázu, přičemž tato neribozomová peptidsyntetáza obsahuje aminokyselinovou sekvenci v podstatě podobnou aminokyselinové sekvenci vybrané ze skupiny obsahující : sekvenci id. č. 3, aminokyseliny 7281 sekvence id. č. 3, aminokyseliny 118-125 sekvence id. č. 3, aminokyseliny 199-212 sekvence id. č. 3, aminokyseliny 353-363 sekvence id. č. 3, aminokyseliny 549-565 sekvence id. č. 3, aminokyseliny 588-603 sekvence id. č. 3, aminokyseliny 669-684 sekvence id. č. 3, aminokyseliny 815-821 sekvence id. č. 3, aminokyseliny 868-892 sekvence id. č. 3, aminokyseliny 903-912 sekvence id. č. 3, aminokyseliny 918-940 sekvence id.

č. 3, aminokyseliny 1268-1274 sekvence id. č.

3, aminokyseliny 1285-1297 sekvence id. č. 3, aminokyseliny 973- 25 1256 sekvence id. č. 3 a aminokyseliny 1344-1351 sekvence id. č. 3. Podle tohoto provedení vynálezu neribozomová peptidsyntetáza výhodně obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: sekvenci id. č. 3, aminokyseliny 72-81 sekvence id. č. 3, aminokyseliny 118-125 sekvence id. č. 3, aminokyseliny 199-212 sekvence id. č. 3, aminokyseliny 353-363 sekvence id. č. 3, aminokyseliny 549565 sekvence id. č. 3, aminokyseliny 588-603 sekvence id. č. 3, aminokyseliny 669-684 sekvence id. č. 3, aminokyseliny 815-821 sekvence id. č. 3, aminokyseliny 868-892 sekvence id. č. 3, aminokyseliny 903-912 sekvence id. č. 3, aminokyseliny 918-940 sekvence id. č. 3, aminokyseliny 1268-1274 sekvence id. č. 3, aminokyseliny 1285-1297 sekvence id. č. 3, aminokyseliny 973-1256 sekvence id. č. 3 a aminokyseliny 1344-1351 sekvence id. č. 3. Také podle tohoto provedení vynálezu výhodná nukleotidová sekvence je v podstatě podobná nukleotídové sekvenci vybrané ze skupiny obsahující: nukleotidy 11872-16104 sekvence id. č. 1, nukleotidy 1208512114 sekvence id. č. 1, nukleotidy 12223-12246 sekvence id. č. 1, nukleotidy 12466-12507 sekvence id. č. 1, nukleotidy 12928-12960 sekvence id. č. 1, nukleotidy 13516-13566 sekvence id. č. 1, nukleotidy 13633-13680 sekvence id. č. 1, nukleotidy 13876-13923 sekvence id. č. 1, nukleotidy 1431314334 sekvence id. č. 1, nukleotidy 14473-14547 sekvence id. č. 1, nukleotidy 14578-14607 sekvence id. č. 1, nukleotidy 14623-14692 sekvence id. č. 1, nukleotidy 15673-15693 sekvence id. č. 1, nukleotidy 15724-15762 sekvence id. č. 1, nukleotidy 14788-15639 sekvence id. č. 1 a nukleotidy 1590115924 sekvence id. č. 1. Podle tohoto provedení vynálezu nukleotidová sekvence výhodněji obsahuje nepřerušený úsek velikosti .20, 25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží sekvenčně identický s nepřerušeným úsekem velikosti 20, • · · ·· ·· ·· • · · .0·· · · · · « « · · · ···· •••·· 0 · ·· ·· · « · · « 0 · · · ··· · ··»···· Μ· <·

25, 30, 35, 40, 45 nebo 50 (výhodně 20) párů baží z nukleotidové sekvence vybrané ze skupiny obsahující: nukleotidy 11872-16104 sekvence id. č. 1, nukleotidy 1208512114 sekvence id. č. 1, nukleotidy 12223-12246 sekvence id. č. 1, nukleotidy 12466-12507 sekvence id. č. 1, nukleotidy 12928-12960 sekvence id. č. 1, nukleotidy 13516-13566 sekvence id. č. 1, nukleotidy 13633-13680 sekvence id. č. 1, nukleotidy 13876-13923 sekvence id. č. 1, nukleotidy 1431314334 sekvence id. č. 1, nukleotidy 14473-14547 sekvence id. č. 1, nukleotidy 14578-14607 sekvence id. č. 1, nukleotidy 14623-14692 sekvence id. č. 1, nukleotidy 15673-15693 sekvence id. č. 1, nukleotidy 15724-15762 sekvence id. č. 1, nukleotidy 14788-15639 sekvence id. č. 1 a nukleotidy 1590115924 sekvence id. č. 1. Navíc podle tohoto provedení nejvýhodněji je nukleotidové sekvence vybrána ze skupiny obsahující: nukleotidy 11872-16104 sekvence id. č. 1, nukleotidy 12085-12114 sekvence id. č. 1, nukleotidy 1222312246 sekvence id. č. 1, nukleotidy 12466-12507 sekvence id. č. 1, nukleotidy 12928-12960 sekvence id. č. 1, nukleotidy 13516-13566 sekvence id. č. 1, nukleotidy 13633-13680 sekvence id. č. 1, nukleotidy 13876-13923 sekvence id. č. 1, nukleotidy 14313-14334 sekvence id. č. 1, nukleotidy 1447314547 sekvence id. č. 1, nukleotidy 14578-14607 sekvence id. č. 1, nukleotidy 14623-14692 sekvence id. č. 1, nukleotidy 15673-15693 sekvence id. č. 1, nukleotidy 15724-15762 sekvence id. č. 1, nukleotidy 14788-15639 sekvence id. č. 1 a nukleotidy 15901-159.24 sekvence id. č. 1.

Předkládaný vynález dále poskytuje molekulu izolované nukleové kyseliny obsahující nukleotidovou sekvenci, která kóduje polypeptid obsahující aminokyselinovou sekvenci vybranou ze skupiny obsahující sekvence id. 2 až 23.

Další aspekt předkládaného vynálezu poskytuje způsob • · · · ♦ • · · · · · ··· · ····· »·«··· · · « · ·· · • · ·· · · · · ··· a a······ · · ··

- 27 rekombinantní produkce polyketídů jako jsou epothilony v množství, které je dostatečné k tomu, aby byla možná jejich purifikace a jejich použití ve farmaceutických přípravcích např. k léčení rakoviny. Specifickou výhodou způsobu podle vynálezu je chiralita produkovaných molekul, neboť produkce v transgenním organismu brání tvorbě racemické směsi, kde některý enantiomer může mít nižší aktivitu. Předkládaný vynález zejména poskytuje způsob heterologní exprese epothilonů v rekombinantním hostiteli, kterýžto způsob obsahuje kroky: a) do hostitele se vnese chimérický gen, který obsahuje sekvenci heterologního promotoru operativně spojenou s molekulou nukleové kyseliny podle vynálezu obsahující nukleotidovou sekvenci kódující alespoň jeden polypeptid účastnící se biosyntézy epothilonů, a b) hostitel se pěstuje v podmínkách, které umožňují biosyntézu epothilonů v hostiteli. Vynález také poskytuje způsob přípravy epothilonů, který obsahuje kroky, kdy se: a) exprimuje epothilon v rekombinantním hostiteli výše uvedeným způsobem, a b) epothilon extrahuje z rekombinantního hostitele.

Další aspekt předkládaného vynálezu poskytuje izolovaný polypeptid obsahující aminokyselinovou sekvenci, která představuje epothilonsyntázovou doménu.

Podle jednoho provedení vynálezu epothilonsyntázová doména je β-ketoacylsyntázová (KS) doména obsahující aminokyselinovou sekvenci v podstatě podobnou aminokyselinové sekvenci vybrané ze skupiny obsahující: aminokyseliny 11-437 sekvence id. č. 2, aminokyseliny 7-432 sekvence id. č. 4, aminokyseliny 39-457 sekvence id. č. 5, aminokyseliny 15241950 sekvence id. č. 5, aminokyseliny 3024-3449 sekvence id. č. 5, aminokyseliny 5103-5525 sekvence id. č. 5, aminokyseliny 35-454 sekvence id. č. 6, aminokyseliny 15221946 sekvence id. č6 a aminokyseliny 32-450 sekvence id.

• · • · 9 9

- 28 č. 7. V tomto provedení KS doména výhodně obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: aminokyseliny 11-437 sekvence id. č. 2, aminokyseliny 7-432 sekvence id. č. 4, aminokyseliny 39-457 sekvence id. č. 5, aminokyseliny 1524-1950 sekvence id. č. 5, aminokyseliny 3024-3449 sekvence id. č. 5, aminokyseliny 5103-5525 sekvence id. č. 5, aminokyseliny 35-454 sekvence id. č. 6, aminokyseliny 1522-1946 sekvence id. č. 6 a aminokyseliny 32450 sekvence id. č. 7.

Podle jiného provedení předkládaného vynálezu epothilonsyntázová doména je acyltransferázová (AT) doména obsahující aminokyselinovou sekvenci v podstatě podobnou aminokyselinové sekvenci vybarné ze skupiny obsahující: aminokyseliny 543-864 sekvence id. č. 2, aminokyseliny 539859 sekvence id. č. 4, aminokyseliny 563-884 sekvence id. č, 5, aminokyseliny 2056-2377 sekvence id. č. 5, aminokyseliny 3555-3876 sekvence id. č. 5, aminokyseliny 5631-5951 sekvence id. č. 5, aminokyseliny 561-881 sekvence id. č. 6, aminokyseliny 2053-2373 sekvence id. č. 6 a aminokyseliny 556-877 sekvence id. č. 7. V tomto provedení AT doména výhodně obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: aminokyseliny 543-864 sekvence id. č. 2, aminokyseliny 539-859 sekvence id. č. 4, aminokyseliny 563-884 sekvence id. č. 5, aminokyseliny 2056-2377 sekvence id. č. 5, aminokyseliny 3555-3876 sekvence id. č. 5, aminokyseliny 5631-5951 sekvence id. č. 5, aminokyseliny 561881 sekvence id. č. 6, aminokyseliny 2053-2373 sekvence id. č. 6 a aminokyseliny 556-877 sekvence id. č. 7.

V ještě dalším provedení vynálezu epothilonsyntázová doména je enoylreduktázová (ER) doména obsahující aminokyselinovou sekvenci v podstatě podobnou aminokyselinové sekvenci vybrané ze skupiny obsahující: aminokyseliny 974- 29 1273 sekvence id. č. 2, aminokyseliny 4433-4719 sekvence id. č. 5, aminokyseliny 6542-6837 sekvence id. č. 5 a aminokyseliny 1478-1790 sekvence id. č. 7. V tomto provedení ER doména výhodně obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: aminokyseliny 9741273 sekvence id. č. 2, aminokyseliny 4433-4719 sekvence id. č. 5, aminokyseliny 6542-6837 sekvence id. č. 5 a aminokyseliny 1478-1790 sekvence id. č. 7.

V dalším provedení epothilonsyntázová doména je doména proteinu přenášející acylovou skupinu (ACP) , kde polypeptid obsahuje aminokyselinovou sekvenci aminokyselinové sekvenci vybrané ze aminokyseliny 1314-1385 sekvence id.

1722-1792 sekvence id. č. 4, aminokyseliny 1434-1506 sekvence id. č. 5, aminokyseliny 2932-3005 sekvence id. č. 5, aminokyseliny 5010-5082 sekvence id. č. 5, aminokyseliny 7140-7211 sekvence id. č. 5, aminokyseliny 1430-1503 sekvence 3673-3745 sekvence id. č. 6 sekvence id. č. 7. V tomto provedení ACP doména výhodně obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: aminokyseliny 13141385 sekvence id. č. 2, aminokyseliny 1722-1792 sekvence id.

v podstatě podobnou skupiny obsahující: č. 2, aminokyseliny id. č. 6, aminokyseliny a aminokyseliny 2093-2164

4, aminokyseliny 1434-1506 sekvence id. č. 5, aminokyseliny 2932-3005 sekvence id. č. 5, aminokyseliny 5010-5082 sekvence id. č. 5, aminokyseliny 7140-7211 sekvence id. č. 5, aminokyseliny 1430-1503 sekvence id. č. 6, aminokyseliny 3673-3745 sekvence id. č. 6 a aminokyseliny 2093-2164 sekvence id.· č. 7.

Podle dalšího provedení předkládaného vynálezu epothilonsyntázová doména je dehydratázová (DH) doména obsahující aminokyselinovou sekvenci v podstatě podobnou aminokyselinové sekvenci vybrané ze skupiny obsahující:

aminokyseliny 869-1037 sekvence id. č. 4, aminokyseliny 38864048 sekvence id. č. 5, aminokyseliny 5964-6132 sekvence id. č. 5, aminokyseliny 2383-2551 sekvence id. č. 6 a aminokyseliny 887-1051 sekvence id. č. 7. Podle tohoto provedení DH doména výhodně obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: aminokyseliny 8691037 sekvence id. č. 4, aminokyseliny 3886-4048 sekvence id. č. 5, aminokyseliny 5964-6132 sekvence id. č. 5, aminokyseliny 2383-2551 sekvence id. č. 6 a aminokyseliny 887-1051 sekvence id. č. 7.

V ještě dalším provedení epothilonsyntázová doména je β-ketoreduktázová (KR) doména obsahující aminokyselinovou sekvenci v podstatě podobnou aminokyselinové sekvenci vybrané ze skupiny obsahující: aminokyseliny 1439-1684 sekvence id. č. 4, aminokyseliny 1147-1399 sekvence id. č. 5, aminokyseliny 2645-2895 sekvence id. č. 5, aminokyseliny 4729-4974 sekvence id. č. 5, aminokyseliny 6857-7101 sekvence id. č. 5, aminokyseliny 1143-1393 sekvence id. č. 6, aminokyseliny 3392-3636 sekvence id. č. 6a aminokyseliny 1810-2055 sekvence id. č. 7. V tomto provedení KR doména aminokyselinovou sekvenci vybranou ze aminokyseliny 1439-1684 sekvence id. č.

4, aminokyseliny 1147-1399 sekvence id. č. 5, aminokyseliny 2645-2895 sekvence id. č. 5, aminokyseliny 4729-4974 sekvence id. č. 5, aminokyseliny 6857-7101 sekvence id. č. 5, výhodně obsahuje skupiny obsahující id. č. 6, aminokyseliny aminokyseliny 1810-2055 předkládaného vynálezu aminokyseliny 1143-1393 sekvence 3392-3636 sekvence id. č. 6 a se-kvence id. č. 7.

Podle dalšího provedení epothilonsyntázová doména je methyltransferázová (MT) doména obsahující aminokyselinovou sekvenci v podstatě podobnou sekvenci aminokyselin 2671-3045 sekvence id. č. 6. Podle • · tohoto provedení MT doména výhodně obsahuje aminokyseliny 2671-3045 sekvence id. č. 6.

Podle dalšího provedení předkládaného vynálezu epothilonsyntázová doména je thioesterázová (TE) doména obsahující aminokyselinovou sekvenci v podstatě podobnou sekvenci aminokyselin 2165-2439 sekvence id. č. 7. Podle tohoto provedení TE doména výhodně obsahuje aminokyseliny 2165-2439 sekvence id. č. 7.

Další aspekty a výhody předkládaného vynálezu budou odborníkovi zřejmé na základě následujícího podrobného popisu vynálezu a příkladů, které vynález nijak neomezují.

Definice

V popisu předkládaného vynálezu jsou použity termíny, které mají následující význam.

Asociovaný s/operativně spojený: Týká se dvou sekvencí DNA, které jsou spojeny fyzicky nebo funkčně. Tak např. promotor nebo regulační sekvence je asociována se sekvencí DNA. kódující RNA. nebo protein, jestliže jsou sekvence operativně spojeny, tj. situovány tak, -že regulační sekvence ovlivňuje hladinu exprese strukturní nebo kódující sekvence DNA.

Chimérický gen: Rekombinantní sekvence DNA, kde promotor nebo regulační sekvence je' operativně spojena, nebo asociována, se sekvencí DNA, která kóduje mRNA nebo je exprimována v podobě proteinu, takže regulační sekvence DNA je schopna řídit transkripci nebo expresi asociované sekvence DNA. Regulační sekvence DNA chimérického genu není normálně, v té podobě, jak se nachází v přírodě, operativně spojena s asociovanou sekvencí DNA.

Kódující sekvence DNA: Sekvence DNA, která je v organismu translatována a vytváří protein.

• · • · · · ·

Doména: Část enzymu polyketidsyntázy nezbytná pro určitou danou aktivitu. Příklady domén jsou doména proteinu přenášejícího acylovou skupinu (ACP), β-ketosyntázová (KS), acyltransferázová (AT), β-ketoreduktázová (KR), dehydratázová (DH), enoylreduktázová (ER) a thioesterázová (TE) doména.

Epothilony: 16-členné macrocyklické polyketidy přirozeně produkované bakterií Sorangium cellulosum kmen So ce90, které napodobují biologické účinky taxolu. V tomto popisu termín epothilon označuje třídu polyketidů, do které patří epothilon A a epothilon B včetně jejich analogů, jak byly popsány v mezinárodní patentové přihlášce WO 98/25929.

Epothilonsyntáza: Polyketidsyntáza zodpovědná za biosyntézu epothilonu.

Gen: Definovaný úsek lokalizovaný v genomu obsahující kromě výše zmíněné kódující sekvence také další, zejména regulační sekvence DNA, které jsou zodpovědné za řízení exprese, což je transkripce a translace kódujícího úseku.

Heterologní sekvence DNA: Sekvence DNA která není v přírodním stavu asociována s hostitelskou buňkou do které je vnesena, patří sem i vícečetné, v přírodě neexistující kopie DNA, která sama se v přírodě vyskytuje.

Homologní sekvence DNA: Sekvence DNA která je v přírodním stavu asociována s hostitelskou buňkou do které je Vnesena.

Homologní rekombinace: vzájemná výměna fragmentů DNA mezi homologními molekulami DNA.

Izolovaný: V kontextu popisu předkládaného vynálezu je izolovaná molekula nukleové kyseliny nebo izolovaný enzym taková molekula nukleové kyseliny nebo enzym, které existují díky činnosti člověka nezávisle na svém přirozeném prostředí a tudíž již nejsou výtvorem přírody. Izolovaná molekula nukleové kyseliny nebo izolovaný enzym existuj i

v purifikovaném stavu nebo existují v jiném než přirozeném prostředí, např. v rekombinantní hostitelské buňce.

Modul: Genetický element všechny odlišné aktivity, které jsou nutné k tomu, aby proběhl jeden cyklus biosyntézy polyketidů, tj. jeden krok kondenzace a všechny s ním spojené kroky zpracování β-karbonylu. Každý modul kóduje ACP, KS a AT aktivitu k uskutečnění kondenzační čisti biosyntézy, a vybrané postkondenzační aktivity ovlivňující zpracování β-karbonylu.

NRPS: Neribozomová polypeptidsyntetáza, t j . od ribozomového enzymu se lišící komplex enzymatických aktivit zodpovědný za inkorporaci aminokyslein do sekundárních metabolitů, včetně např. adenylace, epimerizace, N-methylace, cyklizace aminokyselin, do peptydylového nosičového proteinu a kondenzačních domén. Funkční NRPS je komplex katalyzující inkorporaci aminokyselin do sekundárních metabolitů.

Gen NRPS: Jeden nebo několik genů, které kódují enzymy NRPS pro tvorbu funkčních sekundárních metabolitů, např. epothilonu A a B, řízené jedním nebo několika kompatibilními regulačními elementy.

Molekula nukleové kyseliny: Lineární segment jedno- nebo dvouřetězcové DNA nebo RNA, který může být izolován z libovolného organismu. V kontextu předkládaného popisu je nukleová kyselina výhodně segment DNA.

ORF: Otevřený čtecí rámec.

PKS.: Polyketidsyntáza, komplex enzymatických aktivit (domén) zodpovědný za biosyntézu polyketidů, zahrnující doménu proteinu přenášejícího acylovou skupinu (ACP), β-ketosyntázovou (KS), acyltransferázovou (AT), β-ketoreduktázovou (KR), dehydratázovou (DH), enoylreduktázovou (ER) a thioesterázovou (TE) doménu. Funkční PKS je takový

0 · · · 0

- 34 komplex, který katalyzuje syntézu polyketidů.

Geny PKS: Jeden nebo několik genů kódující různé polypeptidy nutné pro syntézu funkčních polyketidů, např. epothilonů Ά. a epothilonů B, když jsou řízeny jedním nebo několika komatibilními regulačními elementy.

V podstatě podobný: Tento výraz ve vztahu k nukleovým kyselinám znamená nukleovou kyselinu, která vykazuje alespoň 60% sekvenční identitu s nukleovou kyselinou, ke které se odkazuje. Ve výhodném provedení jsou v podstatě podobné sekvence DNA identické z alespoň 80 %, ve výhodnějším provedení alespoň z 90 % a v nej výhodnějším provedení jsou v podstatě podobné sekvence DNA identické z 95 %. V podstatě podobná sekvence DNA kóduje protein nebo peptid, který má v postatě stejnou aktivitu jako protein nebo peptid kódovaný srovnávanou DNA. V podstatě podobná nukleotidové sekvence typicky hybridizuje se srovnávanou molekulou nukleové kyseliny nebo jejím fragmentem za následujících podmínek: hybridizace v 7% dodecylsulfátu sodném (SDS), 0, 5 M NaPO₄, pH 7,0, 1 mM EDTA při 50°C; promytí 2X SSC, 1% SDS, při 50°C. Pokud jde o proteiny nebo peptidy, v podstatě podobná aminokyselinová sekvence je sekvence alespoň z 90 % identická se srovnávanou sekvencí a má v podstatě shodnou aktivitu jako srovnávaný protein nebo peptid.

Transformace: Proces vnášení heterologní nukleové kyseliny do hostitelské buňky nebo organismu.

Transformovaný/transgenní/rekombinantní se týká hostitelského organismu jako je např. bakterie, do kterého byla vnesena heterologní nukleová kyselina. Tato nukleová kyselina je buďto stabilně integrovaná v genomu hostitele nebo je přítomna jako extrachromozomální molekula nukleové kyseliny. Taková extrachromozomální molekula může být autoreplikující se molekula. Transformované buňky, tkáně nebo rostliny

9 9 <

• · « • 9 · · · · ·

- 35 nezahrnují jen výsledný produkt transformačního procesu, ale také jeho další transgenní potomstvo.

Netransformovaný, netransgenní nebo nerekombinantní hostitel znamená organismus divokého typu, např. bakterii, který neobsahuje heterologní nukleovou kyselinu.

Nukleotidy jsou označovány standardními zkratkami baží: adenin (A), cytosin (C), thymin (T) a guanin (G).

Aminokyseliny jsou obdobně označovány standardními zkratkami: alanin (ala; A), arginin (Arg; R), asparagin (Asn; N), asparagové kyselina (Asp; D), cystein (Cys; C), glutamin (Gin; Q), glutamové kyselina (Glu; Ε), glycin (Gly; G) , histidin (His; Η) , isoleucin (Ile; I), leucin (Leu; L) , lysin (lys; K) , methionin (Met; Μ) , fenylalanin (Phe; F) , prolin (Pro; P), serin (Ser; S), threonin (Thr; T), tryptofan (Trp; W) , tyrosin (Tyr; Y) a valin (Val; V) . Navíc (Xaa; X) představuje libovolnou aminokyselinu.

Popis sekvencí uvedených v seznamu sekvencí

Sekvence id. č. 1 je nukleotidová sekvence kontigu velikosti 68750 bp obsahující 22 otevřených čtecích rámců (ORF), které obsahují geny biosyntézy epothilonů.

Sekvence id. č. 2 je proteinová sekvence polyketidsyntázy typu I (EPOS A) kódovaná genem epoA (nukleotidy 7610-11875 sekvence id. č. 1).

Sekvence id. č. 3 je proteinová sekvence neribozomální peptidsyntetázy EPOS P) kódovaná epoP (nukleotidy 11872-16104 sekvence id. č . 1) .

Sekvence id. č. 4 je proteinová sekvence polyketidsyntázy typu I (EPOS B) kódovaná epoB (nukleotidy 16251-21749 sekvence id. č. 1) .

• · · · » « · <

» · · 4

I · · » · · • · · ·

Sekvence id. č. 5 je proteinová sekvence polyketidsyntázy typu I (EPOS C) kódovaná epoC (nukleotidy 21746-43519 sekvence id. č. 1) .

Sekvence id. č. 6 je proteinová sekvence polyketidsyntázy typu I (EPOS D) kódovaná epoD (nukleotidy 43524-54920 sekvence id. č. 1).

Sekvence id. č. 7 je proteinová sekvence polyketidsyntázy typu I (EPOS E) kódovaná epoE (nukleotidy 54935-62254 sekvence id. č. 1) .

Sekvence id. č.

cytochro-P450-oxygenázy 62369-63628 sekvence id.

Sekvence id. č.

je proteinová sekvence homologů (EPOS F) kódovaná epoF (nukleotidy

č. 1) 9 je částečná proteinová sekvence

Sekvence id kódovaná orf2 (částečný Orf 1) kódovaná orfl (nukleotidy 1-1826 sekvence id. č. 1).

č. 10 je proteinová sekvence (Orf 2) (nukleotidy 3171-1900 reverzního komplementárního řetězce sekvence id. č. 1).

Sekvence id. č. 11 je proteinová sekvence (Orf 3) kódovaná orf3 (nukleotidy 3415-5556 sekvence id. č. 1) .

Sekvence id. č. 12 je proteinová sekvence (Orf 4) kódovaná orf4 (nukleotidy 5992-5612 reverzního komplementárního řetězce sekvence, id. č. 1).

Sekvence	id.	č.	13	je	proteinová	sekvence	(Orf	5
kódovaná orf3	(nukleotidy	6226-	6675 sekvence id. č. 1)
Sekvence	id.	č.	14	je	proteinová	sekvence	(Orf	6
kódovaná orf6	(nukleotidy	63779	-64333 sekvence id. č.	1) .
Sekvence	id.	č.	15	je	proteinová	sekvence	(Orf	7

kódovaná orf! (nukleotidy 64290-63853 komplementárního řetězce sekvence id. č. 1).

Sekvence id. č. 16 je proteinová sekvence reverzního kódovaná orfQ, (nukleotidy 64363-64920 sekvence id. č. 1).

(Orf • · · • · · • · · · · · ·

- 37 Sekvence id. č. 17 je proteinová sekvence (Orf 9) kódovaná orf9 (nukleotidy 64727-64287 reverzního komplementárního řetězce sekvence id. č. 1).

Sekvence id. č. 18 je proteinová sekvence (Orf 10) kódovaná orřlO (nukleotidy 65063-65767 sekvence id. č. 1).

Sekvence id. č. 19 je proteinová sekvence (Orf 11) kódovaná orfll (nukleotidy 65874-65008 reverzního komplementárního řetězce sekvence id. č. 1) .

Sekvence id. č. 20 je proteinová sekvence (Orf 12) kódovaná orfl2 (nukleotidy 66338-65871 reverzního komplementárního řetězce sekvence id. č. 1).

Sekvence id. č. 21 je proteinová sekvence (Orf 13) kódovaná orfl3 (nukleotidy 66667-67137 sekvence id. č. 1).

Sekvence id. č. 22 je proteinová sekvence (Orf 14) kódovaná orfll (nukleotidy 67334-68251 .sekvence id. č. 1) .

Sekvence id. č. 23 je částečná proteinová sekvence (částečný Orf 15) kódovaná orfl5 (nukleotidy 68346-68750 sekvence id. č. 1) .

Sekvence id. č. 24 je sekvence univerzálního reverzního oligonukleotidového primerů pro PCR.

Sekvence id. č. 25 je sekvence univerzálního přímého oligonukleotidového primerů pro PCR.

	Sekvence	id.	č.	26 je sekvence	PCR	primerů	NH2 4	konce
B.	Sekvence	id.	č.	27 je sekvence	PCR	primerů	NH2	konce
A .	Sekvence	id.	č.	28 je sekvence	PCR	primerů	NH2	konce
B.
	Sekvence	id.	č.	29 je sekvence	PCR	primerů	pEPO15-NH6
konce	: B.
	Sekvence	id.	č.	30 je sekvence	PCR	primerů ;	pEPO15	-H2.7

konce A.

Informace o uložení vzorků

Následující materiál byl v souladu s Budapešťskou smlouvou uložen ve sbírce patentovaných kultur Agricultural Research Service, Patent Culture Collection (NRRL), 1815

North University Street, Peoria, Illinois 61604. Všechna omezení přístupnosti vzorků budou zrušena po udělení patentu.

Deponovaný materiál: Číslo vzorku: Datum uložení:

pEPO15 NRRL B-30033 11. červen 1998 pEPO32 NRRL B-30119 16.'duben 1999

Detailní popis vynálezu

Geny účastnící se biosyntézy epothilonů mohou být izolovány způsoby podle předkládaného vynálezu. Výhodný způsob izolace genů biosyntézy epothilonů vyžaduje izolaci genomové DNA z organismu, který byl identifikován jako organismus produkující epothilony A a B, a přenos izolované DNA ve vhodném plazmidu nebo vektoru do hostitelského organismu, který normálně netvoří polyketidy, a pak identifikaci transformovaných kolonií hostitelských buněk, které získaly schopnost produkovat epothilony. Užitím metod jako je např. mutageneze pomocí transposonu λ::Τη5 (de Bruijn & Lupski, Gene 27: 131-149 (1984)) je možné přesně definovat transformující úsek DNA kódující epothilon. Alternativně, a nebo navíc, transformující úsek DNA kódující epothilon může být naštěpen na menší fragmenty a nejmenší takový fragment, který si stále ještě uchovává schopnost kódovat epothilon pak dále podrobněji charakterizován. Zatímco hostitelský organismus bez schopnosti produkovat epothilon může být odlišný (biologický druh) od organismu, ze kterého pochází polyketid, variace této metody umožňují transformovat hostitelskou DNA do stejného hostitele, jehož vlastní schopnost produkovat epothilon byla narušena mutagenezí. Při této metodě je organismus produkující epothilon mutován a izolují se mutanty, která neprodukují epothilon. Ty jsou potom komplementovány genomovou DNA izolovanou z rodičovského kmene produkujícího epothilon.

Dalším příkladem metody, kterou je možné použít k izolaci genů nutných pro biosyntézu epothilon je použití transposonové mutageneze pro vytvoření mutant organismu produkujícího epothilon, který po mutagenezi není schopen produkovat polyketid. takže úsek hostitelského genomu za syntézu epothilonu je označen pomocí zodpovědný transposonu a může být izolován a použit jako sonda pro izolaci nativních genů z rodičovského kmene. PKS geny, které jsou nutné pro syntézu polyketidů a které jsou podobné již známým PKS genům mohou být izolovány využitím jejich sekvenční homologie s biosyntetickými geny, jejich sekvence je známa,jako jsou např. geny biosyntézy rifamycinu nebo sorafenu. K metodám vhodným pro izolaci na základě homologie patří standardní metody screeningu genových knihoven pomocí DNA hybridizace.

Fragment DNA použitelný jako sonda je fragment získatelný z genu nebo jiné sekvence DNA, které se podílejí na syntéze známého polyketidů. Výhodná molekula vhodná jako sonda obsahuje Smál fragment DNA velikosti 1,2 kb kódující ketosyntázovou doménu čtvrtého modulu sorafen-PKS (Patent USA č. 5,716,849), výhodnější molekula vhodná jako sonda obsahuje β-ketoacylsyntázovou doménu z prvního a druhého modulu rifamycin-PKS (Schupp et al.,

FEMS Microbiology • ·

« ·«

Letters 159: 201-207 (1998) ) . Tyto fragmenty mohou být užity jako sondy pro screening genové knihovny z mikroorganismu produkujícího epothilon pro izolaci genů PKS zodpovědných za biosyntézu epothilonu.

I přes známé obtíže při izolaci PKS genů obecně, a přes obtíže, které lze očekávat při izolaci genů biosyntézy epothilonu zvláště, užitím způsobů podle předkládaného vynálezu mohou být geny pro epothilon A a B překvapivě klonovány z mikroorganismu, který produkuje tyto polvketidy. užitím metod genových manipulací a rekombinantní produkce podle předkládaného vynálezu mohou být klonované geny PKS modifikovány a exprimovány v transgenním hostitelském organismu.

Izolované geny biosyntézy epothilonu mohou být exprimovány v heterolognim hostiteli, aby byla možná produkce polyketidu s vyšší účinností, než jaká je možná u nativního hostitele. Metody pro tyto genové manipulace jsou specifické pro různé dostupné hostitele a odborníkům jsou známy. Např. heterologní geny mohou být exprimovány ve Streptomyces a jiných aktinomycetách způsoby, které byly popsány v publikacích McDaniel et al., Science 262: 1546-1550 (1993) a Kao et al., Science 265: 509-512 (1994), které jsou zahrnuty formou odkazu. Viz také další publikace Rowe et al., Gene 216: 215-223 (1998); Holmes et al., EMBO Journal 12(8): 3183-3191 (1993) a Bibb et al., Gene 38: 215-226 (1985), které jsou taktéž zahrnuty formou odkazu.

Alternativně geny zodpovědné za biosyntézu polyketidú, tj. geny biosyntézy epothilonu, mohou být exprimovány v jiném hostitelském organismu jako je např. Pseudomonas nebo

E. coli. Metody pro tyto genové manipulace jsou specifické pro různé dostupné hostitele a odborníkům jsou známy. Např. PKS geny byly úspěšně exprimovány v E.-coli pomocí vektor • · · · 9

9

- 41 formou odkazu). v E. coli mohou pT7-7, který užívá promotor T7 (viz Tábor et al., Proč. Nati.

Acad. Sci. USA 82: 1074-1078 (1985), součástí přihlášky

Kromě toho pro expresi heterologních genů být použity expresní vektory pKK223-3 a pKK223-2, buďto s transkripční nebo translační fúzí za tac nebo trc promotorem. Pro expresi operonů kódujících vícečetné ORF je nejjednodušší metodou vložit operon do vektoru jako je např. pKK223-3 v transkripční fúzi, která umožňuje, že může být užito obdobné ribozomové vazebné místo heterologního genu. Metody pro nadměrnou expresi (overexpression) u Gram-pozitivních mikroorganismů, jako je např. Bacillus, jsou také odborníkům známy, a mohou být užity k realizaci předkládaného vynálezu (Quax et al., in:

Industrial Microorganisms: Basic and Applied Molecular

Genetics, Eds. Baltz et al., American Society for Microbiology, Washington (1993)).

Mohou být také užity další expresní systémy s geny biosyntézy epothilonu podle vynálezu včetně kvasinkových nebo bakulovirových expresních systémů, viz např. publikace The Expression of Recombinant Proteins in Yeasts, Sudbery, P. E., Curr. Opin. Biotechnol. 7(5): 517-524 (1996); Methods for Expressing Recombinant Proteins in Yeast, Mackay, et al., Editor(s): Carey, Paul R., Protein Eng. Des. 105-153, Publisher: Academie, San Diego, Calif (1996); Expression of heterologous gene products in yeast, Pichuantes, et al., Editor(s) : Cleland, J. L., Craik, C. S. , Protein Eng. 129161, Publisher: Wiley-Líss, New York, N. Y (1996); WO 98/27203; Kealey et al., Proč. Nati. Acad. Sci. USA 95: 505-509 (1998); Insect Cell Culture: Recent Advances, Bioengineering Challenges And Implications In Protein Production, Palomares, et al., Editor(s): Galindo, Enrique; Ramirez, Octavio T., Adv. Bioprocess Eng. Vol. II, Invited • ·

Pap. Int. Symp., 2nd (1998) 25-52, Publisher: Kluwer, Dordrecht, Neth; Baculovirus Expression Vectors, Jarvis, Donald L., Editor (s): Miller, Lois K., Baculoviruses 389-431, Publisher: Plenům, New York, N. Y. (1997); Production Of Heterologous Proteins Using The Baculovirus/Insect Expression System, Grittiths, et al., Methods Mol. Biol. (Totowa, N. J.) 75 (Basic Cell Culture Protocols (2nd Edition)) 427-440 (1997); a Insect Cell Expression Technology, Luckow, Verne A., Protein Eng. 183-218, Publisher: Wiley-Liss, New York, N. Y. (1996); které jsou všechny formou odkazu součástí předkládané přihlášky.

Dalším aspektem, který je třeba vzít v úvahu při epxresi PKS genů v heterologním hostiteli, je potřeba enzymů pro posttranslační modifikaci PKS enzymů, tj . fosfopantetheinylaci, před tím, než mohou syntetizovat polyketidy. Avšak enzymy provádějící tuto modifikaci PKS enzymů typu I, fosfopantetheinyltransferázy (P-pant-transferázy) nejsou normálně přítomny v mnohých hostitelích jako např. v buňkách E. coli. Problém je možné vyřešit současnou expresí (koexpresí) genu P-pant-transferázy společně s PKS geny v heterologním hostiteli, jak to bylo popsáno v publikaci Kealey et al., Proč. Nati. Acad. Sci. USA 95: 505-509 (1998), která je formou odkazu součástí .popisu.

Proto významným kritériem výběru hostitelského organismu pro účely produkce polyketídů je snadnost jeho genové manipulace, rychlost růstu (tj. fermentace), obsah vhodných molekulárních mechanismů pro procesy jako je postranslační modifikace, a nepřítomnost náchylnosti k nadprodukci polyketídů. Nejvýhodnějšími hostitelskými organismy jsou aktinomycéty jako např. kmeny rodu Streptomyces. dalšími výhodnými organismy jsou Pseudomonas a E. coli. Výše popsané způsoby, produkce polyketídů mají významné výhody ve srovnání

- 43 se současně používanou technologií k výrobě těchto sloučenin. K hlavní výhodám patří levnost produkce, možnost produkovat ve velkém měřítku a možnost produkovat požadovaný biologický enantiomer, na rozdíl od racemických směsí nutně vznikajících při chemických syntézách. Sloučeniny produkované v heterologním hostiteli lze užít k lékařským (např. léčení rakoviny v případě epothilonů) a také zemědělským aplikacím.

Příklady provedení vynálezu

Vynález je dále popsán formou příkladů. Tyto příklady poskytují podrobnější vysvětlení a ilustrují vynález, přitom předmět vynálezu nijak neomezují. Standardní postupy klonování a rekombinantní DNA jsou odborníkům známy a byly popsány např, v následujících publikacích: Ausubel (ed.), Current Protocols in Molecular Biology, John Wiley and Sons, lne. (1994); T. Maniatis, E. F. Fritsch and J. Sambrook, Molecular Cloning: A Laboratory Manual, Cold Spring Harbor laboratory, Cold Spring Harbor, NY (1989); T.J. Šilhavý, M.L. Berman, and L.W. Enquist, Experiments with Gene Fusions, Cold Spring Harbor Laboratory, Cold Spring Harbor, NY (1984).

Příklad i

Kultivace kmenu Sorangium cellulosum produkujícího epothilon

Sorangium cellulosum kmen 90 (DSM 6773, Deutsche

Sammlung von Mikroorganismen und Zellkulturen, Braunschweig) byl nanesen kličkou na agarovou plotnu s médiem SolE ((0,35% glukóza, 0,05% trypton, 0,15% MgSO^. x 7H₂O, 0,05% síran • 0 0 0 0

0 amonný, 0,1% CaCl2, 0, 006% K₂HPO₄, 0,01% dithioničitan sodný,

0,0008% Fe-EDTA, 1,2% HEPES, 3,5% sterilizované stacionární kultury S.

[obj./obj.] supernatant cellulosum.) s pH 7, 4 a kultivován ve 30 C. Buňky asi z 1 cm byly sebrány a přeneseny do 5 ml tekutého média G51t (0,2% glukóza, 0,5% škrob, 0,2% trypton, 0,1% probion S, 0,05% CaCl2x2H₂0, 0,05% MgSO₄x7H₂0, 1.2% HEPES, pH 7,4) a inkubovány ve 30°C s třepáním 225 rpm. Po čtyřech dnech byla kultura přenesena do 50 ml G51t a inkubována stejně jako předtím 5 dnů. Tato kultura pak byla užita k inokulaci 500 ml G51t a inkubovala se stejným způsobem 6 dnů. Kultura se pak centrifugovala 10 minut při 4000 rpm a buněčný pelet se resuspendoval v 50 ml G51t.

Příklad 2

Příprava knihovny bakteriálního umělého chromosomu (Bac knihovny)

Pro vytvoření Bac knihovny byly buňky S. cellulosum popsané v příkladu 1 zality do agarózového bločku, lyžovány a uvolněná genomová DNA byla částečně naštěpena restrikčnim enzymem HindlII. Naštěpená DNA byla rozdělena na agarózovém gelu elektroforézou v pulzním poli. Velké fragmenty DNA (přibližně 90 ař 150 kb) byly izolovány z agarózového gelu a vloženy (ligovány) do vektoru pBelobacII. Vektor pBelobacII obsahuje gen kódující rezistenci k chloramfenikolu, vícečetné klonovací místo v genu lacZ, umožňující modro/bílou selekci na vhodném médiu a také geny potřebné pro replikaci a udržování plazmidů v jedné až dvou kopiích na buňku. Ligační směs byla užita k transformaci • · ··· ···· • · · ···· ···· ··· · · ···· ······ · 4 · · ·· · • · · · · · · ·

4 4 4 4 4 4 9 4 4 4 4 4 4 4 elektrokompetentních buněk Escherichia coli DH10B. Rekombinantní kolonie rezistentní k chloramfenikolu (bílé, mutanty lacZ) byly přeneseny na pozitivně nabité nylonové membránové filtry v 384 mřížkách 3x3. Klony byly lyžovány a DNA byla fixována k filtrům zesítěním (crosslinking). Tytéž klony byly zakonzervovány ve stavu tekuté kultury v -80 °C.

Příklad 3

Screening Bac knihovny Sorangium cellulosum 90 na přítomnost sekvencí příbuzných s polyketidsyntázou typu I

Filtry s Bac knihovnou byly testovány se sondou standardním postupme Southernovy hybridizace. Použité DNA sondy kódovaly β-ketoacylsyntázové domény z prvního a druhého modulu rifamycinové polyketidsyntázy (Schupp et al., FEMS Microbiology Letters 159: 201-207 (1998)). DNA sondy byly připraveny pomocí PCR s primery obklopujícími každou ketosyntázovou doménu a užitím plazmidu pNE95 jako templátu (pNE95 je kosmid 2 podle Schupp et al. (1998)) . 25 ng DNA amplifikované v PCR bylo izolováno z 0,5% agarózového gelu a označeno ³²P-dCTP užitím značící soupravy s náhodnými primery ((Gibco-BRL, Bethesda MD, USA) postupem podle pokynů výrobce. Hybridizace při 65 °C trvala 36 hodin a pak byly membrány 3 x opláchnuty v roztoku s vysokou stringencí (0,lxSSC a 0,5% SDS, 20. minut v 65 °C) . Membrána (blot) pak byla exponována na fosforescenčním stínítku a signál byl detekován zařízením Phospholmager 445SI (Molecular Dynamics). Výsledkem bylo, že některé Bac klony silně hybridizovaly se sondami, tyto klony byly vybrány a kultivovány přes noc v 5 ml Luriova média (LB) při 37 °C. Z vybraných Bac klonů • · · · * tt · · • · · · · · · ···· ··· · · · · · · ······ · · ·· » » · • · · · ···· • ·· · ······· · · «·

- 46 byla izolována Bac DNA typickým postupem minipreparace. Buňky byly resuspendovány ve 200 μΐ lysozymového roztoku (50mM glukóza, 10 mM EDTA, 25 mM Tris-HCl, 5mg/ml lysozym) , lyžována ve 400 μΐ lyzovacího roztoku (0,2 N NaOH a 2% SDS), proteiny byly precipitovány (3,0M octan sodný, pH nastaveno na 5,2 kyselinou octovou) a nakonec Bac DNA byla precipitována isopropanolem. DNA byla resuspendována ve 20 μΐ destilované vody bez nukleáz, naštěpena BamHI (New

England Biolabs, lne.) a separována na 0,7% agarózovém gelu.

Gel byl přenesen na filtr a analyzován Southernovou hybridizaci jak bylo popsáno výše a testován, stejně jak bylo výše popsáno, se sondou, kterou byl Smál fragment DNA velikosti 1,2 kb kódující ketosyntázovou doménu čtvrtého modulu sorafenové polyketidsyntázy (viz Patent USA č.

5,716,849). Bylo pozorováno pět různých hybridizačních vzorců, jeden klon reprezentující každý z pěti vzorců byl vybrán a klony byly označeny pEPO15, pEPO20, pEPO30, pEPO31 a pEPO33.

Příklad 4

Subklonování BamHI fragmentů z pEPO15, pEPO20, pEPO30, pEPO31 a pEPO33

DNA z pěti vybraných Bac klonů byla naštěpena BamHI a náhodně vybrané fragmenty byly subklonovány do místa BamHI vektoru pBluescript II SK+ (Stratagene). Subklony nesoucí inzerty velikosti 2 až 10 kb byly vybrány pro sekvencování úseků lemujících inzert a také pro testy se sodnou Smál 1,2 kb popsanou výše. Subklony vykazující vysoký stupeň sekvenční homologie se známou polyketidsyntázou a/nebo silnou • · • · · · ···· •·· « ······· · · · ·

- 47 hybridizaci se sorafenovou ketosyntázovou doménou byly použity pro další pokusy s přerušením genu.

Příklad 5

Příprava spontánní mutanty Sorangium cellulosum, kmen Soce90, rezistentní ke streptomycinu

0,1 ml tří denní kultury Sorangium cellulosum kmen Soce90 pěstované v tekutém médiu G52-H (0,2% kvasinkový extrakt, 0,2% odtučněný sojový protein, 0,8% bramborový škrob, 0,2% glukóza, 0,1% MgSO₄ x7H₂O, 0,1% CaCl₂ x2H₂O, 0.008% Fe-EDTA, pH upraveno na 7,4 pomocí KOH) bylo vyseto na agarové plotny s médiem SolE se 100 gg/ml streptomycinu. Plotny byly inkubovány ve 30 °C po 2 týdny. Kolonie, které rostly na tomto médiu, byly streptomycin-rezistentní mutanty, byly přeočkovány a kultivovány ještě jednou na stejném agarovém médiu se streptomyčinem pro purifikaci. Jedna z těchto mutant rezistentních ke streptomycinu byla vybrána a označena BCE28/2.

Příklad 6

Přerušení genu v Sorangium cellulosum BCE28/2 užitím subklonovaných BamHI fragmentů

BamHI inzerty subklonů vytvořených z pěti vybraných Bac klonů, jak byly popsány výše, byly izolovány a ligovány do jedinečného místa BamHI plazmidů pCIB132 (viz Patent USA

č. 5,716,849). pCIB132 deriváty nesoucí inzerty byly • · • · · ·

- 48 v poměr buněk 1:1 logaritmické fázi resuspendovaly nanesena jako

Suspenze pak byla misky se SolE agarem transformovány do buněk E. coli ED8767 obsahujících pomocný plazmid pUZ8 (Hedges and Matthew, Plasmid 2: 269-278 (1979).

transformanty byly užity jako donory (dárci) v konjugačních pokusech se Sorangium cellulosum BCE28/2 jako recipientem (příjemcem). Pro konjugaci bylo 5 až 10 χ 10⁹ buněk Sorangium cellulosum BCE28/2 z kultury časné stacionární fáze (dosahující 5 χ 10^s buněk/ml) kultivováno ve 30 °C v tekutém médiu G51b (G51b je shodné s médiem G51t až na to, že trypton byl nahrazen peptonem) bylo smícháno s kulturou E. coli ED8767v pozdní (v tekutém LB médiu) obsahující deriváty pCIB132 nesoucí subklonovaná fragmenty BamHI a pomocný plazmid pUZ8. Směs buněk se pak centrifugovala 10 minut při 4000 rpm a buňky se v 0,5 ml média G51b kapka do středu obsahujícím 50 mg/1 kanamycin. Po 24hodinové inkubaci ve 30 °C byly buňky sklizeny a resuspendovány v 0,8 ml média G51b. 0,1 až 0,3 suspenze buněk pak bylo naneseno na selektivní tuhé médium SolE obsahující fleomycin (30 mg/1), streptomycin (300 mg/1) a kanamycin (50 mg/1). Protiselekce Ponorového kmenu E. coil byla prováděna pomocí streptomýciňu. Kolonie, které rostly na tomto selektivním médiu po inkubační době 8 až 12 dnů při teplotě 30 °C byly izolovány pomocí plastové očkovací kličky a naočkovány na stejné agarové médium jako pro druhý cyklus selekce a purifikace a pak kultivovány. Kultury odvozené z kolonií, které rostly na tomto selektivním agarovém médiu po 7 dnech při teplotě 30 °C byly transkonjugáty Sorangium cellulosum BCE28/2, které zisky rezistenci k fleomycinu konjugačnim přenosem pCIB132 derivátů nesoucích subklonované BamHI fragmenty.

Integrace plazmidů odvozených z pCIB132 do chromozómu

Sorangium cellulosum BCE28/2 homologní rekojnbinací byla ověřena Southernovou hybridizací. Pro tento pokus byla kompletní DNA z 5 až 10 transkonjugant pro každý přenesený BamHI fragment izolována (z lOml kultury pěstované v médiu G52-H tři dny) metodou podle publikace Pospiech a Neumann, Trends Genet. 11: 217 (1995). Pro Southernovu hybridizací byla izolovaná DNA naštěpena buďto restrikčním enzymem Bglll, Clal nebo Notl a příslušné BawRl inzerty značené “P byly užity jako sondy.

Příklad 7

Analýza účinku integrovaných BamHI fragmentů na syntézu epothilonů Sorangium cellulosum po přerušení genu

Transkonjugované buňky pěstované na přibližně 1 čtverečním centimetru povrchu selektivních misek SolE v druhém kole selekce (viz příklad 6) jsou přeneseny sterilní plastovou kličkou do 10 ml média G52-H v 50 ml Erlenmeyerově baňce. Po inkubaci ve 30°C a 180 rpm po 3 dny, je tkáňová kultura přenesena do 50 ml média G52-H do 200 ml Erlenmeyerovy baňky. Po inkubaci ve 30°C a 180 rpm po 4-5 dnů, je 10 ml této kultury přeneseno do 50 ml média 23B3 (0,2% glukóza, 2% bramborový škrob, 1,6% odtučněný sojový protein, 0,0008% sodná sůl Fe-EDTA, 0,5% HEPES (kyselina 4-(2-hydroxyetyl)-piperazin-l-etan-sulfonová), 2% (objem.) polysterolová pryskyřice XAD16 (Rohm & Haas), pH upraveno na

7,8 s NaOH) ve 200 ml Erlenmeyerově baňce.

Kvantitativní stanovení vytvořeného epothilonů se provádí po inkubaci kultur ve 30°C a 180 rpm po dobu 7 dnů.

Kompletní tkáňové médium se filtruje sáním přes 150 μια nylonový filtr. Pryskyřice zůstávající na filtru je pak • · • ·

- 50 -
resuspendována v	10 ml isopropanolu a extrahována třepáním
suspenze	při 180	rpm po dobu 1 hodiny. Z této suspenze se
odebere	1 ml a	stočí se ve 12,000 rpm mikrocentrifuze

(Eppendorff). Množství epothilonů A a B je určováno pomocí HPLC a detekce ve 250 nm s detektorem UV_DAD (HPLC s kolonou Waters-Symetry C18 a 0,02%. gradientem 60%-0% kyseliny fosforečné a 40%-100% acetonitrilu).

Transkonjuganty se třemi odlišnými integrovanými

fragmenty BamHI	subklonovánými	z pEPO15,	zejména
transkonjuganty s	fragmentem	BamHI	plazmidu	PEPO15-21,
transkonjuganty s	fragmentem	BamHI	plazmidu	pEPO15-4-5,
a transkonjuganty s	fragmentem	BamHI	plazmidu	pEPO15-4-l,
jsou testovány způsobem popsaným	výše.	Analýza HPLC odhalila,

že všechny transkonjuganty již neprodukují epothilon A nebo 3. Na rozdíl od toho jsou epothilony A a B detekovatelné v koncentraci 2-4 mg/1 v transkonjugantech s integrovanými fragmenty BamHI, které pocházejí z pEP020, pEPO30, pEPO31, pEPO33, a v parentálním kmenu BCE28/2.

Příklad 8

Stanovení nukleotidové sekvence klonovaných fragmentů a konstrukce kontigů

A. Inzert BamHI plazmidu pEPO15-21

Plazmidová DNA je izolována z kmene Escherichia coli

DH10B [pEPO15-21] a je určena nukleotidová sekvence inzertu BamHI o velikosti 2,3 kb v pEPO15-21. Na dvoj vláknovém templátu DNA se provádí automatizované sekvencování DNA pomocí metody s ukončením řetězců dideoxynukleotidy, s použitím , automatického sekvenačního přístroje Applied • * · · · ··· · · ·· · • · · · · · • ······ • · · · ···· •·· · ······· ·· ··

- 51 Biosystems modelu 377. Použité primery jsou univerzální reverzní primer (5' GGA AAC AGC TAT GAC CAT G 3' (sekvence id. č. 24) ) a univerzální přímý primer (5' GTA AAA CGA CGG

CCA GT 3' (sekvence id. č. 25)). V dalších kolech sekvenační reakce jsou použity olígonukleotidy syntetizované na objednávku, navržené pro 3' konce předem určených sekvencí tak, aby prodloužily a spojily kontigy. Obě vlákna jsou kompletně sekvencována, každý nukleotid je sekvencován přinejmenším dvakrát. Nukleotidová sekvence je zpracována s použitím programu Sequencher verze 3,0 (Gene Codes

Corporation) a analyzována s použitím programů GCG,

University of Wisconsin Genetics Computer Group. Nukleotidová sekvence inzertu o velikosti 2213 bp odpovídá nukleotidům

20779-22991 sekvence id. č. 1.

B. Inzert BamHl plazmidů pEPC15-4-l

Plazmidová DNA je izolována z kmene Escherichia coli DH10B [pEPO15-4-l] a je určena nukleotidová sekvence inzertu BamHl o velikosti 3,9 kb v pEPO15-4-l tak, jak je popsáno za (A) výše. Nukleotidová sekvence inzertu o velikosti 3909 bp odpovídá nukleotidům 16876-20784 sekvence id. č. 1.

C. BamHl Inzert of Plazmid pEPO15-4-5

Plazmid DNA je izolována z kmene Escherichia coli DH10B [pEPO15-4-5] a je určena nukleotidová sekvence inzertu BamHl o velikosti 2,3 kb v pEPO15-4-5 tak, jak je popsáno za (A) výše. Nukleotidová sekvence inzertu o velikosti 2233 bp odpovídá nukleotidům 42528-44760 sekvence id. č. 1.

• · · · ·

- 52 Příklad 9

Subklonování a uspořádáni fragmentů DNA z pEPO15 obsahujících geny pro biosyntézu epothilonu pEPO15 je kompletně štěpen restrikčním enzymem /fandili a výsledné fragmenty jsou subklonovány do pBluescript II SKnebo pNEB193 (New England Biolabs) , který byl štěpen /fandili a defosforylován alkalickou fosfatázou z telecích střev. Bylo vytvořeno šest různých klonů, které byly pojmenovány pEPO15NH1, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24 (všechny založeny na pNEB193), a pEPO15-H2.7 a pEPOl5-H3.0 (oba založeny na pBluescript II SK-).

Inzert BamHI z pEPO15-21 je izolován a označen DIG (pomocí soupravy „Non-radioactive DNA labeling and detection systém, Boehringer Mannheim) a použit jako sonda ve vysoce stringentních DNA hybridizačních pokusech proti pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24, pEPO15-H2.7 a pEPO15H3.0. Pro pEPO15-NH24 byl detekován silný hybridizační signál, což ukazuje, že v pEPO15-NH24 je obsažen pEPO15-21.

Inzert BamHI z pEPO15 -4-1 je izolován a označen DIG jak uvedeno výše a použit jako sonda ve vysoce stringentních DNA hybridizačních pokusech proti pEPO15-NHl, pEPO15-NH2, pEPO15NH6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Pro pEPO15-NH24 a pEPO15-H2.7 byly detekovány silné hybridizační signály. Údaje o nukleotidových sekvencích získané z jednoho konce každého z pEPO15-NH24 a pEPOl5-H2.7 jsou také zcela shodné s předem určenou sekvencí inzertu BamHI z pEPO15-4-l. Tyto pokusy dokazují, že pEPO15-4-l (který obsahuje jedno vnitřní místo HindlII) překrývá pEPO15-H2.7 a pEPO15-NH24, a že pEPO15-H2.7 a pEPO15-NH24, v tomto pořadí, jsou sousedící.

Inzert BamHI z pEPO15-4-5 je izolován a označen DIG jak uvedeno výše a použit jako sonda ve vysoce stringentních DNA hybridizačních pokusech proti pEPO15-NHl, pEPO15-NH2, pEPO15NH6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Pro pEPOl5NH2byl detekován silný hybridizační signál, což ukazuje, že v pEPO15-NH2 je obsažen pEPO15-21.

Takto byly získány údaje o nukleotidových sekvencích a z konce pEPO15-NH24, který se základě těchto sekvencí byly z obou konců pEPO15-NH2 nepřekrývá s pEPO15-4-l. Na navrženy PCR primery GTGACTGGCGCCTGGAATCTGCATGAGC

NH2 4 s (sekvence id.

koncem č. 26),

B:

NH2 s koncem A: AGCGGGAGCTTGCTAGACATTCTGTTTC (sekvence id. č. 27), a NH2 s koncem B: GACGCGCCTCGGGCAGCGCCCCAA (sekvence id.

8), směřující k místům NindlII a jsou použity v amplifikačních reakcích s pEPO15 a, v samostatných pokusech, s genomovou DNA Sorangium cellulosum Soce90 jako templát. Specifická amplifikace je nalezena s párem primerů NH2 4 s koncem B a NH2 s koncem A u obou templátů. Amplimery jsou klonovány do pBluescript II SK- a v plném rozsahu sekvencovány. Sekvence amplimerů jsou totožné a také zcela souhlasí s koncovými sekvencemi pEPO15-NH24 a pEPO15-NH2, fúzovanými v místě HíndlII, což potvrzuje, že fragmenty NindlII z pEPO15-NH2 a pEPO15-NH24 jsou sousedící v tomto pořadí.

Inzert NíndlII z pEPO15-H2.7 je izolován a označen DIG jak uvedeno výše a použit jako sonda ve vysoce stringentních DNA hybridizačních pokusech proti' pEPO15 štěpenému Notl. Fragment Notl o přibližné velikosti 9 kb silně hybridizuje a je dále subklonován do pBluescript II SK-, který byl štěpen Notl a defosforylován alkalickou fosfatázou z telecích střev za vzniku pEPO15-N9-16. Inzert Notl z pEPO15-N9-16 je izolován a označen DIG jak uvedeno výše a použit jako ^onda

- 54 ve vysoce stringentních DNA hybridizačních pokusech proti pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24, pEPOl5-H2.7 a pEPO15-H3.0. Byly detekovány silné hybridizační signály pro pEPO15-NH6, a také pro očekávané klony pEPO15-H2.7 a pEPO15NH24. Byly tak získány údaje o nukleotidových sekvencích z obou konců pEPO15-NH6 a z konce pEPO15-H2.7, který se nepřekrývá s pEPO15-4-l. Pak byly navrženy PCR primery směřující k místům HindlII a byly použity v amplifikačních reakcích s pEPO15 a v samostatných pokusech, s genomovou DNA Sorangium cellulosum Soce90 jako templát. Ke specifické amplifikaci došlo s párem primerů pEPO15-NH6 s koncem B: CACCGAAGCGTCGATCTGGTCCATC (sekvence id. č. 29) a pEPO15H2.7 s koncem A: CGGTCAGATCGACGACGGGCTTTCC (sekvence id. č. 30) u obou templátů. Amplimery jsou klonovány do pBluescript II SK- a úplně sekvencovány. Sekvence amplimerů jsou totožné a také zcela souhlasí s koncovými sekvencemi pEPO15-NH6 a pEPO15-H2.7, fúzovanými v místě HindlII, což potvrzuje, že fragmenty HindlII z pEPO15-NH6 a pEPO15-H2.7 jsou sousedící v tomto pořadí.

Všechny tyto pokusy shrnuté dohromady vytvořily kontig fragmentů HindlII pokrývající oblast přibližně 55 kb a skládající se z inzertů. HindlII z pEPO15-NH6, pEPO15-H2.7, pEPO15-NH24, a pEPO15-NH2, v tomto pořadí. Nebylo nalezeno, že inzerty zbývajících dvou subklonů HindlII, zejména pEPO15-NHl a pEP015-H3.0, jsou částí kontigu.

• ·

- 55 Příklad 10

Další rozšíření kontigu subklonů pokrývajícího geny pro biosyntézu epothilonu

Fragment BamHI-HindlII o přibližné velikosti 2,2 kb pocházející z inzertu pEPO15-NH2, z jeho downstream konce (po směru transkripce), a tudíž představující downstream konec kontigu subklonů popsaného příkladu 9, je izolován, označen DIG a použit v experimentech se Southernovou hybridizaci proti DNA z pEPO15 a pEPO15-NH2 štěpené různými enzymy. Pokaždé bylo zjištěno, že silně hybridi zující pásy jsou stejné velikosti mezi dvěma cílovými DNA, což ukazuje, že fragment genomové DNA Sorangium cellulosum Soce90 klonovaný do pEPO15 končí místem Handlil na konci po směru pEPO15-NH2.

Je vytvořena DNA. knihovna Sorangium cellulosum Soce90 s použitím zavedených postupů v pScosTriplex-II (Ji, et al., Genomics, 31, 185-192, 1996) . V krátkosti, genomová DNA o vysoké molekulové hmotnosti ze Sorangium cellulosum Soce90 je částečně štěpena restrikčním. enzymem Sau3AI, aby vznikly fragmenty s průměrnou velikostí přibližně 40 kb a ligována do pScosTriplex-II naštěpeného SamHI a Xbal. Ligační směs je sbalena pomocí Gigapack III XL (Stratagene) a použita k transfekcí buněk E. coli XL1 Blue MR.

Kosmidová knihovna byla screenována fragmentem BamHI-HíndlII o velikosti přibližně 2,2 kb pocházejícího z downstream konce inzertu z pEPO15-NH2, který byl použit jako sonda v hybridizaci kolonií. Je vybrán silně hybridizující kmen, pojmenovaný pEPO4E7.

DNA pEPO4E7 je izolována, štěpena několika restrikčními endonukleázami a sondována 'Southernovou hybridizaci

- 56 fragmentem BamHI - HindlII o velikosti 2,2 kb. Je vybrán silně hybridizující fragment Notl o velikosti přibližně 9 kb, který je subklonován do pBluescript II SK- za vzniku pEPO4E7N9-8. Další experimenty se Southernovou hybridizaci odhalily, že inzert Notl z pEPO4E7-N9-8 o přibližné velikosti 9 kb překrývá pEPOI5-NH2 po 6 kb ve fragmentu Notl - HindlII, zatímco zbývající přibližně 3 kb fragmentu HindlII - Notl rozšiřují kontig subklonů popsaný v příkladu 9. Koncové sekvencován! ale odhalilo, že downstream konec (po směru transkripce) inzertu z pEPO4E7-N9-8 obsahuje polylinker BamHI-Notl z pScosTriplex-II, a tudíž ukazuje, že inzert genomové DNA z pEPO4E7 končí v místě Sau3AI, v prodlouženém fragmentu HindlII - Notl a že místo Notl pochází z pScosTriplex-II.

Fragment Pstl - Sall o velikosti přibližně 1,6 kb pocházející z prodlouženého subfragmentu HindlII - Notl z pEPO4E7-N9-8 o velikosti přibližně 3 kb, obsahující pouze sekvenci pocházející ze Sorangium cellulosum Soce90 bez vektoru, je použit jako sonda proti knihovně umělého bakteriálního chromozomu (Bac knihovně) popsané v příkladu 2. Navíc bylo zjištěno, že se sondou silně hybridizuje dříve izolovaný EPO15, klon Bac, pojmenovaný EPO32. pEPO32 byl izolován, štěpen s několika restrikčními endonukleázami a hybridizován se sondou Pstl - Sall o velikosti přibližně 1,6 kb. Bylo zjištěno, že se sondou silně hybridizuje fragment HindlII - HcoRV o velikosti přibližně 13 kb a byl subklonován do pBluescript II SK- naštěpeného s HindlII a HincII za vzniku pEPO32-HEV15.

Byly navrženy oligonukleotidové primery 2aložené na koncové sekvenci po směru z pEPO15-NH2 a na koncové sekvenci v protisměru (HindlII) pocházející z pEPO32-HEV15 a použity v sekvenačních reakcích s pEPO4E7-N9-8 jako templát. Sekvence

- 57 odkryly existenci malého fragmentu HindlII (EPO4E7-H0.02) o velikosti 24 bp, nezjistitelného standardní restrikční analýzou, oddělujícího místo HindlII na konci po směru z pEPO15-NH2 od místa HindlII na konci v protisměru z pEPO32HEV15.

Kontig subklonů popsaný v příkladu 9 je tudíž rozšířen zahrnutím fragmentu HindlII z EP04E7-H0.02 a inzert z pEPO32HEV15 a představuje inzerty z: pEPO15-NH6, pEPOl5-H2.7, pEPO15-NH24, pEPO15-NH2, EPO4E7-H0.02 a pEPO32-HEV15, v tomto pořadí.

Příklad 11

Stanovení nukleotidové sekvence kontigu subklonů pokrývajícího geny pro biosyntézu epothilonu

Nukleotidové sekvence kontigu subklonů popsaného v příkladu 10 byla stanovena takto.

pEPO15-H2.7. Plazmidová DNA je izolována z kmene Escherichia coli DH10B [pEPO15-H2.7] a je určena nukleotidové sekvence inzertu BamHI v pEPO15-H2.7 o velikosti 2,7 kb. Na dvoj vláknovém templátu DNA se provádí automatizované sekvencování DNA pomocí metody s ukončením řetězců dideoxynukleotidy, s použitím sekvenačního přístroje Applied Biosystems modelu 377. Použité primery jsou univerzální reverzní primer (5' GGA AAC AGC TAT GAC CAT G 3' (sekvence id. č. 24)) a univerzální přímý primer (5' GTA AAA CGA CGG CCA GT 3' (sekvence id. č. 25)). V dalších kolech sekvenační reakce jsou použity oligonukleotidy syntetizované na • ···· • · · · objednávku, navržené pro 3' konce předem určených sekvencí tak, aby prodloužily a spojily kontigy.

pEPO15-NH6, pEPO15-NH24 a pEPO15-NH2. Inzerty tfindlll těchto plazmidů jsou izolovány a podrobeny náhodné

- 58 fragmentaci za použití Instrumentation Services,

Hydroshear za vzniku (Genomic průměrné přístroj e lne.) a velikosti fragmentů 1-2 kb. Fragmenty jsou koncově opraveny s použitím enzymů T4 DNA polymerázy a Klenowovy DNA polymerázy v přítomnosti desoxynukleotidtrifosfátů a fosforylovány T4 DNA kinázou v přítomnosti ribo-ATP. Fragmenty o velikosti v rozmezí 1,5-2,2 kb jsou izolovány z agarózových gelů a ligován do pBluescript II SK-, který byl štěpen s EcoRV a defosforylován. Náhodné subklony jsou sekvencovány s použitím univerzálního reverzního a univerzálního přímého primerů.

PEPO32-HEV15. pEPO32-HEV15 je štěpen s FíndlII a Sspl, je izolován fragment o velikosti přibližně 13,3 kb obsahující ~13 kb inzert ífindlll - EcoRV ze So. cellulosum Soce90 a fragment Hincll - Sspl o velikosti 0,3 kb z pBluescript II SK-, tento fragment je částečně štěpen ffaelll za vzniku fragmentů s průměrnou velikostí 1-2 kb. Fragmenty o velikosti v rozmezí 1,5-2,2 kb jsou izolovány z agarózových gelů a ligován do pBluescript II SK-, který byl štěpen s EcoRV a defosforylován. Náhodné subklony jsou sekvencovány s použitím, univerzálního reverzního a univerzálního přímého primerů.

Chromatogramy byly analyzovány a spojeny do kontigů pomocí programů Phred, Phrap a Consed (Ewing et al.,

Genome Res.,

175-185, 1998, Ewing et al. , Genome Res.,

8(3), 186-194, 1998, Gordon et al., Genome Res., 8(3), 195202, 1998) . Mezery v kontigu byly vyplněny, nesrovnalosti v sekvencích byly vyřešeny, oblasti s nízkou kvalitou byly • · • · • · • · • ·

- 59 znovu sekvencovány s použitím, oligonukleotidů navržených na objednávku pro sekvencování buď originálních subklonů nebo vybraných subklonů z náhodných knihoven subklonů. Obě vlákna tedy byla kompletně sekvencována a pro každý pár baží je minimální agregované skóre podle Phred alespoň 40 (hladina spolehlivosti 99,99%).

Nukleotidová sekvence kontigu o velikosti 68750 bp je zde uvedena jako sekvence id. č. 1.

Příklad 12

Analýza nukleotidové sekvence genů pro biosyntézu epothilonu

Bylo zjištěno, že sekvence id. č. 1 je obsahuje 22 otevřených čtecích rámců (ORF), jak je detailně uvedeno níže v tabulce 1:

Tabulka 1

ORF	Start kodon	Stop kodon	Homologie dedukovaného proteinu	Předpokládaná funkce dedukovaného proteinu
orfl	mimo sekven covano u oblast	1826
orf 2*	3171	1900	hypotetický protein SP: Q11037, DD-peptidáza SP:P15555
orf3	3415	5556	Na/H přenašeč PID: D1017724	Transport
orf4*	5992	5612

orf 5	6226	6675
epoA	7610	11875	polyketidsyntáza typ i .	epothilonsyntáza: tvorba thiazolového kruhu
epoP	11872	16104	neribozomová peptidsyntetáza	epothilonsyntáza: tvorba thiazolového kruhu
epoP	16251	21749	polyketidsyntáza typ i	epothilonsyntáza: tvorba polyketidové kostry
epoC	21746	43519	polyketidsyntáza typ I	epothilonsyntáza: tvorba polyketidové kostry
epoO	43524	54920	polyketidsyntáza tvp I	epothilonsyntáza: tvorba polyketidové kostry
epoF	54935	62254	polyketidsyntáza typ I	epothilonsyntáza: tvorba polyketidové kostry
epoF	62369	63628	cytochrom P450	epothilonmakrolakton oxidáza
orf 6	63779	64333
orfl*	64290	63853
orf8	64363	64920
orfP*	64727	64287
orf PO	65063	65767
orf PF*	65874	65008
orf12*	66338	65871
orfP 3	66667	67137
orfl 4	67334	68251	hypotetický protein GI:3293544, proteinový přenašeč kationtů GI:2623026	transport
orf 15	68346	mimo sekven covanou oblast

* na reverzním komplementárním vláknu. Číslování podle sekvence id. č. 1.

*·· ···· · · · · • · · · · ···· ·····» · · · · · · · • · ·· · · · · • 9 · · ·····«· · · ··

- 61 epoA (nukleotidy 7610-11875 sekvence id. č. 1) kóduje EPOS A (sekvence id. č. 2), polyketidsyntázu typu I skládající se z jednoho modulu a obsahující následující domény: β-ketoacylsyntázu (KS) (nukleotidy 7643-8920 sekvence id. č. 1, aminokyseliny 11-437 sekvence id. č. 2), acyltransferázu (AT) (nukleotidy 9236-10201 sekvence id. č. 1, aminokyseliny 543-864 sekvence id. č. 2), enoylreduktázu (ER) (nukleotidy 10529-11428 sekvence id. č. 1, aminokyseliny 974-1273 sekvence id. č. 2) a homologní doménu proteinu přenášejícího acylovou skupinu (ACP) (nukleotidy 11549-11764 sekvence id. č. 1, aminokyseliny 1314-1385 sekvence id. č. 2). Porovnání sekvencí a analýza motivů (Haydock et al., FEBS Lett., 374, 246-248, 1995, Tang et al., Gene, 216, 255-265, 1998) odhalily, že AT kódovaná

EPOS A je specifická pro malonyl-CoA. EPOS A by mohl být zapojen do iniciace biosyntézy epothilonu zavedením acetátové jednotky do multienzymového komplexu, který posléze tvoří část 2-metylthiazolového kruhu (C26 a C20).

epoP (nukleotidy 11872-16104 sekvence id. č. 1) kóduje EPOS P (sekvence id. č. 3) neribozomovou peptidsyntetázu obsahující jeden modul. EPOS P obsahuje následující domény:

doménu vytváření peptidové vazby, jak znázorněno motivem K (aminokyseliny 72-81 [FPLTDIQESY] sekvence id. č. 3, odpovídající nukleotidovým pozicím 12085-12114 sekvence id. č. 1), motiv L (aminokyseliny 118-125 [WARHDML] sekvence id. č. 3, odpovídající nukleotidovým pozicím 12223-12246 sekvence id. č. 1)., motiv M (aminokyseliny 199-212 [SIDLINVDLGSLSI] sekvence id. č. 3, odpovídající nukleotidovým pozicím 12466-12507 sekvence id. č. 1), a motiv (aminokyseliny 353-363 [GDFTSMVLLDI] sekvence id. č. 3, odpovídající nukleotidovým pozicím 12928-12960 sekvence id.

č. 1) ,

- 62 - doménu vytváření aminoacyladenylátu, jak znázorněno motivem A (aminokyseliny 549-565 [LTYEELSRRSRRLGARL] sekvence id. č. 3, odpovídající nukleotidovým pozicím 13516-13566 sekvence id. č. 1), motiv B (aminokyseliny 588-603 [VAVLAVLESGAAYVPI] sekvence id. č. 3, odpovídající nukleotidovým pozicím 13633-13680 sekvence id. č. 1), motiv C (aminokyseliny 669-684 [AYVIYTSGSTGLPKGV] sekvence id. č. 3, odpovídající nukleotidovým pozicím' 13876-13923 sekvence id. č. 1), motiv D (aminokyseliny 815-821 [SLGGATE] sekvence id. č. 3, odpovídající nukleotidovým pozicím 14313-14334 sekvence id. č. 1), motiv E (aminokyseliny 868-892 [GQLYIGGVGLALGYWRDEEKTRKSF] sekvence id. č. 3, odpovídající nukleotidovým pozicím 14473-14547 sekvence id. č. 1), motiv F (aminokyseliny 903-912 [YKTGDLGRYL] sekvence id. č. 3, odpovídající nukleotidovým pozicím 14578-14607 sekvence id. č. 1), motiv G (aminokyseliny 918-940 [EFMGREDNQIKLRGYRVELGEIE] sekvence id. č. 3, odpovídající nukleotidovým pozicím 14623-14692 sekvence id. č. 1), motiv H (aminokyseliny 1268-1274 [LPEYMVP] sekvence id. č. 3, odpovídající nukleotidovým pozicím 15673-15693 sekvence id. č. 1), a motiv I (aminokyseliny 1285-1297 [LTSNGKVDRKALR] sekvence id. č. 3, odpovídající nukleotidovým pozicím 1572415762 sekvence id. č. 1),

- neznámou , doménu, vloženou mezi motivy G a H domény vytváření aminoacyladenylátu (aminokyseliny 973-1256 sekvence id. č. 3, odpovídající nukleotidovým pozicím 14788-15639 sekvence id. č. 1), a

- homologní doménu proteinu přenášejícího peptidylovou skupinu (PCP), znázorněnou motivem J (aminokyseliny 1344-1351 [GATSIHIV] sekvence id. č. 3, odpovídající nukleotidovým pozicím 15901-15924 sekvence id. č. 1).

• · • · » • · • · · • · • · · ·

- 63 Předpokládá se, že EPOS P je zapojen do aktivace cysteinu prostřednictvím adenylace, vazbou aktivovaného cysteinu jako aminoacyl-S-PCP, tvořením peptidové vazby mezi cysteinem s navázaným enzymem a acetyl-S-ACP dodávaným EPOS A, a do tvorby iniciálního thiazolinového kruhu prostřednictvím intramolekulové heterocyklizace. Neznámá doména EPOS P projevuje velmi slabou homologií s NAD(P)H oxidázami a reduktázami z druhu Bacillus. Tato neznámá doména a/nebo doména ER z EPOS A mohou být tudíž zapojeny do oxidace iniciálního 2-methylthiazolinového kruhu na 2-methylthiazol.

epoB (nukleotidy 16251-21749 sekvence id. č. 1) kóduje EPOS B (sekvence id. č. 4), polyketidsvntázu typu I skládající se z jednoho modulu a obsahující následující domény: KS (nukleotidy 16269-17546 sekvence id. č. 1, aminokyseliny 7-432 sekvence id. č. 4), AT (nukleotidy 1786518827 sekvence id. č. 1, aminokyseliny 539-859 sekvence id. č. 4), dehvdratázu (DH) (nukleotidy 18855-19361 sekvence id. č. 1, aminokyseliny 869-1037 sekvence id. č. 4), β-ketoreduktázu (KR) (nukleotidy 20565-21302 sekvence id. č. 1, aminokyseliny 1439-1684 sekvence id. č. 4), a ACP (nukleotidy 21414-21626 sekvence id. č. 1, aminokyseliny 1722-1792 sekvence id. č. 4) . Porovnání sekvencí a analýza motivů odhalily, že AT kódovaná EPOS B je specifická pro methylmalonyl-CoA. EPOS A by mohl být zapojen do extenze prvního polyketidového řetězce katalýzou kondenzace podobné Claisenově kondenzaci 2-methyl-4-thiazolkarboxyl-S-PCP spouštěcí skupiny s methylmalonylem-S-ACP, a doprovodnou redukcí b-ketoskupiny C17 na enoylovou skupinu.

epoC (nukleotidy 21746-43519 sekvence id. č. 1) kóduje

EPOS C (sekvence id. č. 5), polyketidsyntázu typu I skládající se ze 4 modulů. První modul obsahuje KS (nukleotidy 21860-23116 sekvence id. č. 1, aminokyseliny 39--

	- 64 -	··· ·>··· ···· • · » 0 · · · · · ·····» · 0 « · · · · • · ·· 0 · · · 0 · · 0 00000·· 9 · 00
457 sekvence id. č. 5),	malonyl-CoA	(malonylkoenzym A)
specifickou AT (nukleotidy	23431-24397	sekvence id. č. 1,
aminokyseliny 563-884 sekvence id. č.	5), KR (nukleotidy

25184-25942 sekvence id. č. 1, aminokyseliny 1147-1399 sekvence id. č. 5), a ACP (nukleotidy 26045-26263 sekvence id. č. 1, aminokyseliny 1434-1506 sekvence id. č. 5). Tento modul inkorporuje acetátovou prodlužovací jednotku (C14-C13) a redukuje β-ketoskupinu na C15 na hydroxylovou skupinu, která se účastní konečné laktonizace epothilonmakrolaktonového kruhu. Druhý modul EPOS C obsahuje KS (nukleotidy

26318-27595 sekvence id. č. 1, aminokyseliny 1524-1950 sekvence id. č. 5), malonyl-CoA specifickou AT (nukleotidy 27911-28876 sekvence id. č. 1, aminokyseliny 2056-2377 sekvence id. č. 5), KR (nukleotidy 29678-30429 sekvence id. č. 1, aminokyseliny 2645-2895 sekvence id. č. 5), a ACP (nukleotidy 30539-30759 sekvence id. č. 1, aminokyseliny 2932-3005 sekvence id. č. 5) . Tento modul inkorporuje acetátovou prodlužovací jednotku (C12-C11) a redukuje β-ketoskupinu na C13 na hydroxylovou skupinu. Vznikající polyketidový řetězec epothilonů tedy odpovídá epothilonů A a inkorporace metylového postranního řetězce na C12 v epothilonů B by vyžadovala post-PKS C-methyltransferázovou aktivitu. Tvorba epoxy kruhu v C13-C12 by také vyžadovala post-PKS oxidační krok. Třetí modul EPOS C obsahuje KS (nukleotidy 30815-32092 sekvence id. č. 1, aminokyseliny

3024-3449 sekvence id. č. 5), malonyl-CoA specifickou AT (nukleotidy 32408-33373 sekvence id. č. 1, aminokyseliny

3555-3876 sekvence id. č. 5), DH (nukleotidy 33401-33889 sekvence id. č. 1·, aminokyseliny 3886-4048 sekvence id. č. 5), ER (nukleotidy 35042-35902 sekvence id. č. 1, aminokyseliny 4433-4719 sekvence id. č. 5) , KR (nukleotidy 359.30-36667 sekvence id. č. 1, aminokyseliny 4729-4974 ♦ 0

0 0 0

- 65 sekvence id. č. 5), a ACP (nukleotidy 36773-36991 sekvence id. č. 1, aminokyseliny 5010-5082 sekvence id. č. 5) . Tento modul inkorporuje acetátovou prodlužovací jednotku (C10-C9) a úplně redukuje β-ketoskupinu na Cil. Čtvrtý modul EPOS C obsahuje KS (nukleotidy 37052-38320 sekvence id. č. 1, aminokyseliny 5103-5525 sekvence id. č. 5), methylmalonyl-CoA specifickou AT (nukleotidy 38636-39598 sekvence id. č. 1, aminokyseliny 5631-5951 sekvence id. č. 5), DH (nukleotidy 39635-40141 sekvence id. č. 1, aminokyseliny 5964-6132 sekvence id. č. 5), ER (nukleotidy 41369-42256 sekvence id.

sekvence id.

skládající se ze 2 (nukleotidy 43626-44885 35-454 sekvence id, č.

č. 1, aminokyseliny 6542-6837 KR (nukleotidy 42314-43048 sekvence id. č. 1, aminokyseliny 6857-7101 sekvence id. č. 5), a ' ACP (nukleotidy 43163-43378 sekvence id. č. 1, aminokyseliny 7140-7211 sekvence id. č. 5). Tento modul inkorporuje propionátovou prodlužovací jednotku (C24 a C8-C7) a úplně redukuje β-ketoskupinu na C9.

epoD (nukleotidy 43524-54920 sekvence id. č. 1) kóduje EPOS D (sekvence id. č. 6), polyketidsyntázu typu I modulů. První modul obsahuje KS sekvence id. č. 1, aminokyseliny

6) , metylmalonyl CoA-specifickou AT (nukleotidy 45204-46166 sekvence id. č. 1, aminokyseliny 561881 sekvence id. č. 6), KR (nukleotidy 46950-47702 sekvence id. č. 1, aminokyseliny 1143-1393 sekvence id. č. 6), a ACP (nukleotidy 47811-48032 sekvence id.

1430-1503 sekvence id. č. 6) .

propionátovou prodlužovací jednotku (C23 a C6-C5) a redukuje β-ketoskupinu na C7 na hydroxylovou skupinu. Druhý modul obsahuje KS (nukleotidy 48087-49361 aminokyseliny 1522-1946 sekvence id. č.

specifickou AT (nukleotidy 49680-50642 sekvence id. č. 1, aminokyseliny 2053-2373 sekvence id. č. 6), DH (nukleotidy

č. 1, aminokyseliny Tento modul inkorporuje sekvence id. č. 1, 6), methylmalonyl-CoA

- 66 50670-51176 sekvence id. č. 1, aminokyseliny 2383-2551 sekvence id. č. 6) , methyltransferázu (MT, nukleotidy 5153452657 sekvence id. č. 1, aminokyseliny 2671-3045 sekvence id. č. 6), KR (nukleotidy 53697-54431 sekvence id. č.

1, aminokyseliny 3392-3636 sekvence id. č. 6), a ACP (nukleotidy

54540-54758 sekvence id sekvence č . 6) .

č. 1, aminokyseliny 3673-3745 Tento modul inkorporuje propionátovou prodlužovácí Jednotku (C21 nebo C22 a C4-C3) a redukuje β-ketoskupinu na C5 na hydroxylovou skupinu. Tato redukce je poněkud neočekávaná, protože epothilony obsahují ketoskupinu na C5. Ale nesrovnalosti tohoto druhu mezi dedukovanou redukující schopností PKS modulů a redoxním stavem odpovídajících pozic v konečných polvketidových produktech byly publikovány v literatuře (viz, například, Schwecke et al., Proč. Nati. Acad. Sci. USA, 92, 7839-7843, 1995, a Schupp et al., FEMS Microbiology Letters, 159, 201-207,

1998). Důležitý charakteristický rys epothilonů je přítomnost gem-methylových postranních skupin na C4 (C21 a C22). Předpovídá se, že druhý modul EPOS D inkorporuje propionátovou jednotku do rostoucího polyketidového řetězce, za poskytnutí jednoho metylového postranního řetězce na C4 . Tento modul také obsahuje methyltransferázovou doménu integrovanou do PKS mezi domény DH a KR, v uspořádání podobnému uspořádání, které bylo pozorované u HMWP1 Gehring, yersiniabaktinsyntházy

A.M. ,

DeMoll,

Fetherston, J.D., Moři, I., Mayhew, G.F., Blattner, F.R., Walsh, C.T., a Perry, R.D.: Iron acquisition in plague: modular logic in enzymatic biogenesje of yersiniabactin by Yersinia pestis. Chem. Biol., 5, 573-586, 1998) . Má se za to, že tato MT doména v EPOS D je zodpovědná za inkorporaci druhé methylové postranní skupiny (C21 nebo C22) na C4.

• · · *

- 67 epoE (nukleotidy 54935-62254 sekvence id. č. 1) kóduje EPOS E (sekvence id. č. 7), polyketidsyntázu typu I skládající se z 1 modulu, obsahující KS (nukleotidy 5502856284 sekvence id. č. 1, aminokyseliny 32-450 sekvence id. č.

7), malonyl-CoA specifickou AT (nukleotidy 56600-57565 sekvence id. č. 1, aminokyseliny 556-877 sekvence id. č. 7), DH (nukleotidy 57593-58087 sekvence id. č. 1, aminokyseliny 887-1051 sekvence id. č. 7), pravděpodobně nefunkční ER (nukleotidy 59366-60304 sekvence id. č. 1, aminokyseliny 1478-1790 sekvence id. č. 7), KR (nukleotidy 60362-61099 sekvence id. č. 1, aminokyseliny 1810-2055 sekvence id. č. 7), ACP (nukleotidy 61211-61426 sekvence id. č. 1, aminokyseliny 2093-2164 sekvence id. č. 7),' a thioesterázu (TE) (nukleotidy 61427-62254 sekvence id. č. 1, aminokyseliny 2165-2439 sekvence id. č. 7) . ER doména v tomto modulu obsahuje motiv aktivního místa s některými vysoce neobvyklými substitucemi aminokyselin, které pravděpodobně činí tuto doménu neaktivní. Modul inkorporuje acetátovou prodlužovací jednotku (C2-C1) a redukuje β-ketoskupinu na C3 na enoylovou skupinu. Epothilony obsahují hydroxylovou skupinu na C3, takže tato redukce se také jeví nadměrná, jak bylo popsáno u druhého modulu EPOS D. TE doména EPOS E se účastní uvolnění a cyklizace vytvořeného polyketidového řetězce prostřednictvím laktonizace mezi karboxylovou skupinou Cl a hydroxylovou skupinou C15.

Pět ORF bylo detekováno upstream (proti směru transkripce) od epoA v sekvencované oblasti. Částečně sekvencovaný orfl nemá žádné homology v databázích sekvencí. Dedukovaný proteinový produkt (Orf 2, sekvence id. č. 10) orf2 (nukleotidy 3171-1900 na reverzním komplementárním vláknu sekvence id. č. 1) vykazuje výraznou podobnost s hypotetickými ORF z Mycobacterium a Streptomyces coelicolor,

- 68 a vzdálenější podobnost s karboxypeptidázami a DD-peptidázami různých baktérií. Dedukovaný proteinový product orf3 (nukleotidy 3415-5556 sekvence id. č. 1), Orf 3 (sekvence id. č. 11), vykazuje homologii k Na/H přenašečům z různých bakterií. Orf 3 se možná účastní exportu epothilonů z produkujícícho kmene, orfl a orf5 nemají žádné homology v databázích sekvencí.

Jedenáct ORF bylo nalezeno downstream (po směru transkripce) od epoE v sekvencované oblasti. epoF (nukleotidy 62369-63628 sekvence id. č. 1) kóduje EPOS F (sekvence id. č. 8), dedukovaný protein s výraznou podobností sekvence s oxygenázami cytochromu P45G. EPOS F se může účastnit regulace redoxního stavu atomů uhlíku C12, C5, a/nebo 03. Dedukovaný proteinový produkt orfll (nukleotidy 67334-68251 sekvence id. č. 1), Orf 14 (sekvence id. č. 22) vykazuje výraznou podobnost s GI:3293544, hypotetickým proteinem bez předpovězené funkce z Streptomyces coelicolor, a také s GI:2654559, lidským embryonálním plicním proteinem. Je také vzdáleněji příbuzný s. proteinovými přenašeči kationtů jako je GI:2623026 z Methanobacterium thermoautotrophicum, takže se může také účastnit exportu epothilonů z produkujících buněk. Zbylé ORF (orf6-orfl3 a orfl5) neukazují žádné homologie s položkami v databázích sekvencí.

Příklad 13

Rekombinantní exprese genů pro biosyntézu epothilonu

Geny epothilonsyntázy podle předkládaného vynálezu byly exprimovány v heterologních organismech s cílem produkce epothilonu ve větším množství, než může být dosaženo

- 69 fermentací Sorangium cellulosum. Výhodný hostitel pro heterologní expresi je Streptomyces, např. Streptomyces coelicolor, která přirozeně produkuje polyketid aktinorhodin. Techniky pro rekombinantní PKS genovou expresi v hostiteli

jsou popsány autory	McDaniel	et al.	(Science, 262, 1546-1550,
1993) a Kao et al.	(Science,	265, 509-512, 1994). (Viz také
Holmes et al., EMBO	Journal,	12 (8) ,	3183-3191, 1993, a Bibb
et al., Gene, 38,	215-226,	1985,	a také v patentech USA
č. 5 521 077, 5 672	491 a 5	712 146,	které jsou zde zahrnuty
formou odkazu).

Podle jedné metody je heterologní hostitelský kmen upraven metodami genetického inženýrství tak, aby obsahoval chromozómovou deleci aktinornodinového (act) genového klusteru. Expresní plazmidy obsahující geny epothilonsyntázy podle vynálezu jsou konstruovány přenosem DNA z donorového plazmidu citlivého na teplotu (temperature-sensitive) na recipientní kyvadlový vektor do E. coli (McDaniel et. al. 1993 a Kao et al. 1994) tak, že geny syntézy jsou zabudovány homologní rekombinací do vektoru. Nebo genový kluster epothilonsyntázy je vložen do vektoru ligací restrikčního fragmentu. Po selekci, např. jak je popsána v Kao et al. (1994), je DNA. z vektoru vnesena do kmene act-minus Streptomyces coelicolor podle protokolů uvedených v práci Hopwood et al. (Genetic Manipulation of Streptomyces. A Laboratory Manual, John Innes Foundation, Norwich, Velká Británie, 1985), zahrnuté zde formou odkazu. Rekombinantní kmen Streptomyces je pěstován na médiu R2YE (Hopwood et al., 1985) a produkuje epothilony. Alternativně jsou geny epothilonsyntázy podle předkládaného vynálezu exprimovány v jiných hostitelských' organismech, jako jsou pseudomonády, Bacillus, kvasinky, hmyzí buňky a/nebo E. coli. Geny PKS a NRPS jsou výhodně exprimovány v E. coli s použitím vektoru • · • ·

- 70 pT7-7, který používá promotor T7. (Viz Tábor et al., Proč. Nati. Acad. Sci. USA, 82, 1074- 1078, 1985) . V jiném provedení jsou použity expresní vektory pKK223-3 a pKK223-2 pro expresi genů PKS a NRPS v E. coli, buď v transkripční nebo translační fúzi, za promotorem tac nebo trc. Exprese genů PKS a NRPS v heterologních hostitelích, kteří nemají přirozeně fosfopanteteinyl (P-pant) potřebné pro posttranslační modifikaci PKS enzymů, vyžadují společnou expresi (koexpresi) P-pant transferázy v hostiteli, jak je popsáno autory Kealey et al. (Proč. Nati. Acad. Sci. USA, 95, 505-509, 1998).

Příklad 14

Izolace epothilonů z produkčních kmenů

Příklady postupů kultivace, fermentace a extrakce polyketidů, které jsou vhodné pro přípravu epothilonů jak z nativního'tak rekombinantního hostitele podle předkládaného vynálezu byly popsány např. v dokumentech WO 93/10121, Patent USA č. 5, 639, 949, příklad 57, Gerth et al. , J. Antibiotics 49: 560-563 (1996), švýcarská patentová přihláška č. 396/98 podaná 19. února 1998, -patentová přihláška USA č. 09/248,910, popisující také mutovaný kmen Sorangium cellulosum, přičemž všechny tyto dokumenty jsou zahrnuty formou odkazu). Následující postupy byly užity pro izolaci epothilonů z kultur Sorangium cellulosum kmenu Soce90 a mohou být užity také pro izolaci epothilonů z rekombinantního hostitele.

• ·

A. Kultivace kmenů produkujících epothilon

Kmen: Sorangium cellulosum Soce-90 nebo rekombinantní hostitelský kmen podle předkládaného vynálezu

Uchovávání kmenu: v kapalném N₂.

Kultivační média: Předkultury a mezikultury: G52

Hlavní kultura: 1B12

Medium G52:

extrakt z kvasinek, nízký obsah solí 2g/l (Springer, Maison Alfort, France)

MgS0₄ (7 H₂0)	1	g/i
CaCl₂ (2 H₂0)	1	g/i
odtučněná sója Soyamine 50 T(Lucas Meyer, Hamburg, Německo)	2	g/i
bramborový škrob Noredux A-150 (Blattmann, Wadenswil, Switzerland)	8	g/i
bezvodá glukóza	2	g/i
Na sůl Fe(III)-EDTA (8g/1)	1	g/i

pH 7,4, korigované KOH Sterilizace: 20 minut, 120 °C

Médium 1B12:

bramborový škrob Noredux A-150 (Blattmann, 20 g/1 Wadenswil, Switzerland) odtučněná sója Soyamine 50 T (Lucas Meyer, 11 g/1 Hamburg, SRN)

Na-sůl EDTA-Fe(III) pH 7,4, korigované KOH Sterilizace: 20 minut, 120 °C g/1 • ·

- 72 Přidání cyklodextrinů a derivátů cyklodextrinu:

Cyklodextriny (Fluka, Buchs, Švýcarsko, nebo Wacker Chemie, Mnichov, SRN) v různých koncentracích byly sterilizovány samostatně a přidány k médiu 1B12 před zaočkováním.

Kultivace ml suspenze Sorangium cellulosum Soce90 z ampulky uchovávané v kapalném dusíku byl přenesen do 10 média G52 (v 50ml Erlenmeyerově baňce) a inkubovány 3 dny na třepačce při 180 rpm ve 30 °C, posun 25 mm. 5 ml této kultury pak bylo přidáno k 45 ml média G52 (ve 200ml Erlenmeyerově baňce)

a inkubováno 3 dny při třepání 180 rpm ve 30 °C,	, posun 25	mm.
50 ml této kultury pak bylo přidáno k 450	ml média	G52
(v Erlenmeyerově baňce o objemu 21) a inkubováno 3 dny třepání 180 rpm ve 30 °C, posun 50 mm.	při
Udržovací kultura
Kultura byla přeočkována každé 3 až 4 dny,	a to tak,	že
50 ml kultury se přidalo ke 450 ml média	G52 (ve	21

Erlenmeyerově baňce). Všechny experimenty a fermentace byly prováděny vždy tak, že se začalo touto udržovací kulturou.

Testy v kultivačních lahvích

I) Předkultura v protřepávané kultivační lahvi

Kultivace byla zahájena z 500 ml udržovací kultury, lx 450 ml média G52 bylo zaočkováno 50 ml udržovací kultury a inkubováno po 4 dny na třepačce se 180 rpm ve 30 °C při

50mm posunu.

II) Hlavní kultura v protřepávané kultivační lahvi ml média 1B12 s 5 g/1 4-morfolinpropansulfonové kyseliny (MOPS) v prášku (ve 200ml Erlenmeyerově baňce) bylo smícháno s 5 ml lOx koncentrovaného roztoku cyklodextrinu, inokulováno 10 ml předkultury a inkubováno 5 dnů na třepačce při 180 rpm ve 30 °C s posunem 50mm.

Fermentace

Fermentace byly provedeny v měřítku 10. litrů, 100 litrů a 500 litrů. Fermentace s objemy 20 1 a 100 1 sloužily jako mezistupně při kultivaci. Zatímco předkultury a mezikultury byly jako udržovací kultury inokulovány 10 % (objem.), hlavní kultury byly inokulovány 20 i (objem.) mezikultury. Důležité je, že na rozdíl od kultur, které byly třepány, složky kultivačního média pro fermentace jsou vypočítány vzhledem ke konečnému objemu kultury včetně inokula. Takže např. jestliže se smíchalo 18 1 média a 2 1 inokula, odvážily se složky média pro 20 1, i když byly namíchány do 18 litrů.

Předkultura v protřepávané kultivační lahvi

Kultivace byla zahájena z 500 ml udržovací kultury, 4 x 450 ml média G52 (ve 21itrových Erlenmeyerových baňkách) bylo inokulováno 50 ml udržovací kultury a inkubováno po 4 dny na třepačce se 180 rpm ve 30 °C při 50mm posunu.

Mezikultury o objemu 20 nebo 100 litrů

201itrová kulura: 18 1 média G52 ve fermentoru o celkovém objemu 30. 1 bylo inokulováno 2 1 předkultury.

Kultivace probíhala 3 až 4 dny v následujících podmínkách: 30 °C, 250 rpm, 0,5 1 vzduchu na 1 1 média za minutu, přetlak 500 kPa (0,5 bar), bez kontroly pH.

lOOlitrová kulturn: 90 1 média G52 ve fermentoru ······ · · · · ·· · • · · · · · · · ··· · ··· ···· ·· ··

- 74 o celkovém objemu 150 1 bylo inokulováno 20 1 mezikultury.

Kultivace probíhala 3 až 4 dny v následujících podmínkách:

°C, 150 rpm, 0,5 1 vzduchu na 1 1 média za minutu, přetlak 500 kPa (0,5 bar), bez kontroly pH.

Hlavní kultury o objemu 10, 100 a 500 litrů lOlitrová kultura: Složky pro 10 1 média 1B12 byly sterilizovány v 7 1 vody, pak byl přidán 1 1 sterilního roztoku 10% 2-hydroxypropyl-p-cyklodextrinu a médium bylo inokulováno 2 1 z 201itrové mezikultury. Kultivace hlavní kultury trvala 6 až 7 dnů v následujících podmínkách: 30 °C,

250 rpm, 0,5 1 vzduchu na 1 1 média za minutu, přetlak 500 kPa (0,5 bar), pH bylo regulováno pomocí H2SO4/KOH na hodnotu pH 7,6 ± 0,5 (tj. žádná regulace pro pH 7,1 až 8,1).

lOOlitrová kultura: Složky pro 100 1 média 1B12 byly sterilizovány v 70 1 vody, pak bylo přidáno 10 1 sterilního roztoku 10% 2-hydroxypropyl-3~cyklodextrinu a médium bylo inokulováno 20 1 z 201itrové mezikultury. Kultivace hlavní kultury trvala 6 až 7 dnů v následujících podmínkách: 30 °C,

250 rpm, 0,5 1 vzduchu na 1 1 média za minutu, přetlak 500 kPa (0,5 bar), pH bylo regulováno pomocí H₂SO₄/KOH na hodnotu pH 7,6 ± 0,5. Celý postup inokulaci pro výslednou lOOlitrovou fermentaci je znázorněn dále uvedeným schématem.

5001itrová kultura: Složky pro 500 1 média 1B12 byly sterilizovány ve 350 1 vody, pak bylo přidáno 50 1 sterilního roztoku 10% 2-hydroxypropyl-p-cyklodextrinu a médium bylo inokulováno 100 1 ze lOOlitrové mezikultury. Kultivace hlavní kultury trvala 6 až 7 dnů v následujících podmínkách: 30 °C,

250 rpm, 0,5 1 vzduchu na 1 1 média za minutu, přetlak 500 kPa (0,5 bar), pH bylo regulováno pomocí H₂SO₄/KOH na hodnotu pH 7,6 ± 0,5.

udržovací kultura (500 ml) médium G52

předkultura (4 x 500 ml) médium G52 % mezikultura (např. 20 l) médium G52 %

udržovací kultura (500 ml) médium G52 hlavní kultura (např. 100 1) médium + ΗΡ-β-CD

Analýza produktů

Příprava vzorků:

50ml vzorky byly smíchány s 2 ml polystyrénové pryskyřice Amberlite XAL-lo (Rohm & Haas, Frankfurt, SRN) a třepány při 180 rpm 1 hodinu ve 30 °C. Pryskyřice byla pak odfiltrována užitím 150 pm nylonového síta, opláchnuta malým množstvím vody a pak vložena i s filtrem do 15ml zkumavky Nunc.

Eluce produktu z pryskyřice ml isopropanolu (>99%) se přidalo do zkumavky s filtrem a pryskyřicí. Pak byla zavřená zkumavka třepána 30 minut při teplotě místnosti na zařízení Rota-Mixer (Labinco BV, Nizozemí) . 2 ml této tekutiny se centrifugovaly a supernatant byl pipetou nanesen do HPLC zkumavek.

HPLC analýza:

Kolona: Waters-Symetry C18, 100 x 4 mm, 3,5 pm WAT066220 + předkolona 3,9 x 20 mm WAT054225 « 0

0

Rozpouštědla: A:	0,02 % kyselina	fosforečná
B:	acetonitril	(kvalita pro	HPLC

Gradient: 41 % B od O. do 7 . minuty

100% B v intervalu od 7,2 do 7,8 minuty 41 % B od 8. do 12. minuty

Teplota: 30°C

Detekce: 250 nm, UV-DAD detekce

Injikovaný objem: 10 gl

Retenční čas: Epo A: 4,30 minuty, Epo B: 5,38 minuty

B. Účinek přidání cyklodextrinu a derivátů cyklodextrinu na dosažené koncentrace epothilonú

Cyklodextriny jsou cyklické oligosacharidy a-D-glukopyranózy spojené (a-1,4)vazbou obsahující relativně hydrofobní centrální dutinu a hydrofilní oblast vnějšího povrchu.

Rozeznávají se zejména následující (v závorce je uveden počet glukózových jednotek v jedné molekule):

a-cyklodextrin (6), β-cyklodextrin (7), γ-cyklodextrin (8), δ-cyklodextrin (9), ε-cyklodextrin (10), ξ-cyklodextrin (11), η-cyklodextrin (12), a θ-cyklodextrin (13). Zvláště výhodný je δ-cyklodextrin a zejména a-cyklodextrin, β-cyklodextrin nebo γ-cyklodextrin nebo jejich směsi.

Cyklodextrinové deriváty jsou zejména deriváty výše uvedených cyklodextrinů, zejména a-cyklodextrin, β-cyklodextrin, γ-cyklodextrin, hlavně takové, kde jeden nebo několik až všechny hydroxylové skupiny (3 v jedné glukózové jednotce) jsou eterifikovány nebo esterifikovány. Ethery jsou hlavně alkylethery, zejména nižších alkylů jako je např. methylether nebo ethylether, a také propyl- nebo butylether, dále arylhydroxyalkylethery, jako je fenylhydroxy-

······· · 9 9 9

- 77 (nižší)alkyl, hydroxyalkylethery, zejména hydroxy(nižší)alkylethery jako hlavně hydroxypropyl- nebo hydroxybutylethery jako je 2-hydroxybutylether, karboxylakylethery, zejména karboxy(nižší)alkylethery, jako karboxymethyl- nebo karboxyethylether, derivatizované karboxyalkylethery, zejména derivatizované karboxy(nižší)alkylethery, kde derivatizovaná karboxylová skupina je eterifikovaná nebo amidovaná karboxylová skupina (zejména např. aminokarbonylová, mononebo di (nižší)alkylaminokarbonylová skupina, morfolino-, piperidino-, pyrrolidino- nebo piperazinkarbonylová nebo alkyloxykarbonylová skupina), zejména (nižší)alkoxykarbonyl (nižší)alkylether, např. methyloxykarbonylpropylether nebo ethyloxykarbonylpropylether, sulfoalkylethery, zejména sulfo(nižší)alkylethery, zejména sulfobutylether, cyklodextriny, kde jedna nebo několik skupin OH je eterifikována radikálem podle vzorce:

-O- ^rL alk-O- ] _n-H kde alk je alkylová skupina, zejména nižší alkylová skupina, a n je celé číslo od 2 do 12, zvláště 2 až 5, ještě výhodněji 2 nebo 3, cyklodextriny, kde jedena nebo několik skupin OH je eterifikováno radikálem podle vzorce:

R'

I O (Alk-O)--Alk/ Y kde R je vodík, hydroxylová skupina, -0-(alk-O)--H, -0(alk(-R)-0-)p - H nebo -0-(alk(-R)-0-)_q -alk-CO-Y, přičemž alk zamená alkylovou skupinu, zejména nižší alkylovou skupinu a m, n, p, q a z jsou celá čísla 1 až 12, výhodně 1 až 5, zvláště výhodně 1 až 3 a Y je ORi nebo NR₂R₂, kde R_lz R₂ a R₂.

• · ·· ·

- 78 navzájem nezávisle jsou atomy vodíku nebo nižší alkylové skupiny, nebo R₂ a R3 kombinované společně s vazebným atomem dusíku jsou morfolinová, piperidinová, pyrrolidinová nebo piperazinová skupina, nebp rozvětvené cyklodextriny, kde je přítomna eterifikace nebo se vyskytují acetálové vazby s jinými molekulami cukru, zejména glukosyl-, diglukosyl(G₂-[β-cyklodextrin), maltosy!- nebo dimaltosylcyklodextrin, nebo N-acetyglukosaminyl-, glukosaminyl, N-acetylgalaktosaminyl- nebo galaktrosaminylcyklodextrin.

Estery jsou zejména alkanoylestery, zvláště nižší alkanoylesetry jako např. acetylestery cyklodextrinů.

Je také možné užít cyklodextriny, kde jsou současně přítomny dvě nebo více odlišných etherových nebo esterových skupin.

Také mohou existovat směsi dvou nebo více cyklodextrinů a/nebo derivátů cyklodextrinů.

Výhodné jsou a-cykiodextrin, β-cyklodextrin, γ-cyklodextrin nebo jejich nižší alkylethery, jako je např. methyl^-cyklodextrin neo zejména 2,6-diO-methyl-pcyklodextrin, nebo zejména jejich hydroxy(nižší)alkylethery jako je 2-hydroxypropyl-a-cyklodextrin, 2-hydroxypropyl^cyklodextrin nebo 2-hydroxypropyl-y-cyklodextrin.

Cyklodextriny nebo deriváty cyklodextrinů jsou přidávány do kultivačního média výhodně v koncentracích 0,02 až 10, výhodně 0,05 až 5, zvláště výhodně 0,1 až 4, např. 0,1 až 2 % (hmotnost/objem).

Cyklodextriny nebo deriváty cyklodextrinů jsou známy a lze je připravit známými způsoby (viz např. patentové dokumenty US 3,459,731, US 4,383,992, US 4,535,152, US 4, 659, 696, EP 0 094 157, EP 0 149 197, EP 0 197 571, EP 0 300 526, ER 0 320 032, EP 0 499 322, EP 0 503 710, » · · ·

0 0 0

- 79 EP O 818 469, WO 90/12035, WO 91/11200, WO 93/19061,

WO 95/08993, WO 96/14090, GB 2,189,245, DE 3,118,218, DE 3,317,064 a zde citované dokumenty, které se týkají syntézy cyklodextrinů, a také: T. Loftsson a M.E. Brewster (1996): Pharmaceutical Applications of Cvclodextrins: Drug

Solubilization and Stabilisation: Journal of Pharmaceutical Science 85 (10) :1017-1025,- R.A. Rajewski a V.J. Stella (1996): Pharmaceutical Applications of Cyclodextrins: In Vivo Drug Delívery: Journal of Pharmaceutical Science 85 (11):

1142-1169).

Všechny zde testované deriváty cyklodextrinů pocházely od firmy Fluka, Buchs, Švýcarsko. Testy byly prováděny ve 200 ml protřepávaných lahvích s kulturou o objemu 50 ml. Jako kontroly sloužily lahve s adsorpční pryskyřicí Amberlite XAD16 (Rohm & Haas, Frankfurt,SRN) a bez přídavku pryskyřice. Po 5denní kultivaci byly pomocí HPLC stanoveny titry epothilonů uvedené v následující tabulce 1:

Tabulka 2

Přídavek	pořad. č.	koncen- trace (%) ¹	epo A (mg/1)	epo B (mg/1)
Amberlite XAD-16 (objem/objem)		2,0	9,2	3,8
2-hydroxypropyl-β-cyklodextrin	56332	,°' ¹	2,7	1,7
2-hydroxypropyl-β-cyklodextrin	Π	0, 5	4,7	3,3
2-hydroxypropyl-β-cyklodextrin	H	1, o	4,7	3,4
2-hydroxypropyl-β-cyklodextrin	11	2, 0	4,7	4,1
2-hydroxypropy1-β-cyklodextrin	11	5, 0	1,7	0,5
2-hydroxypropyl-α-cyklodextrin	56330	0,5	1,2	1,2
2-hydroxypropyl-α-cyklodextrin	ri	1/0	1,2	1,2

• · · · • · · ·

2-hydroxypropyl-ct-cyklodextrin	ff	5, 0	2,5	2,3
β-cyklodextrin	28707	0,1	1,6	1,3
β-cyklodextrin	ff	0, 5	3, 6	2,5
β-cyklodextrin	rr	1, o	4, 8	3,7
β-cyklodextrin	ff	2, 0	4, 8	2,9
β-cyklodextrin	rr	5, 0	1,1	0,4
methyl-β-cyklodextrin	66292	0, 5	0, 8	<0, 3
methyl-β-cyklodextrin	ff	1, o	<0,3	<0, 3
methyΙ-β-cyklodextrin	ir	2,0	<0,3	<0, 3
2,6-di-o-methyl^-cyklodextrin	33915	1,0	<0,3	<0,3
2-hydroxypropyl-y-cyklodextrin	56334	0, 1	0,3	<0,3
2-hydroxypropyl-y-cyklodextrin	ff	0, 5	0,9	0, 8
2-hydroxypropyl-y-cyklodextrin	ff	i, o	1,1	0,7
2-hydroxypropyl-y-cyklodextrin	ff	2, 0	2, 6	0,7
2-hydroxypropyl-y-cyklodextrin	Π	5, 0	5, 0	1,1
bez přídavku			0,5	0,5

^x)kromě Amberlitu, kde jsou údaje v objemových % (objem/objem) jsou ostatní údaje v hmotnostních % (hmotnost/objem).

Několik testovaných cyklcdextrinů neprojevilo žádný účinek (2,6-di-o-methyl-p-cyklodextrin, methyl-βcyklodextrin) nebo negativní účinek na produkcí epothilonů při použitých koncentracích. 1% až 2% i-hydroxypropyl-pcyklodextrin a β-cyklodextrin zvýšily v příkladech produkci epothilonů 6 až 8 x ve srovnání s kontrolou bez přídavku cyklodextrinů.

« φ

- 81 C. lOlitrová fermentace s 1% 2-hydroxypropyl-p-cyklodextrinem Fermentace se prováděla v 151itrovém skleněném fermentoru. Médium obsahovalo 10 g/1 2-hydroxypropyl-pcyklodextrinu od firmy Wacker Chemie, Mnichov, SRN. Postup fermentace je ilustrován v tabulce 3. Fermentace byla ukončena po 6 dnech a provedlo se zpracování produktu.

Tabulka 3

Postup fermentace v objemu 10 1

trvání kultury (dny)	epothilon A (mg/1)	epothilon B (mg/1)
0	0	0
1	0	0
2	0, 5	0,3
3	1,3	2, 5
4	3, 0	5,1
5	t 1	5,9
6	3, 6	5,7

D. Fermentace s 1% 2-hydroxypropyl-3-cyklodextrinem v objemu 100 1

Fermentace se prováděla ve 1501itrcvém fermentoru. Médium obsahovalo 10 g/1 2-hydroxypropyl-3~cyklodextrinu.

Postup fermentace je ilustrován v tabulce 4. Fermentace byla ukončena po 7 dnech a provedlo se zpracování produktu.

Tabulka 4

Postup fermentace v objemu 100 1

trvání kultury (dny)	epothilon A (mg/1)	epothilon B (mg/1)
0	0	0
1	0	0

2	0, 3	0
3	0, 9	1/1
4	1/5	2,3
5	1, 6	3,3
6	1/8	3,7
7	1/8	3,5

E. Fermentace s 1% 2-hydroxypropyl~p-cyklodextrinem v objmeu 500 1

Fermentace se prováděla v 7501itrovém fermentoru. Médium obsahovalo 10 g/1 2-hydroxypropyl-p-cyklodextrinu. Postup fermentace je ilustrován v tabulce 5. Fermentace byla ukončena po 7 dnech a provedlo se zpracování produktu.

Tabulka 5

Postup fermentace v objemu ±00 1

trvání kultury (dny)	epothilon A (mg/i)	epothilon B (mg/1)
0	0	0
1	0	0
2	0	0
3	0, 6	0, 6
4	1,7	2,2
5	3,1	4,5
6	3, 1	5, 1

F. Srovnání lOlitrové fermentace bez přídavku adsorpčního činidla

Fermentace se prováděla v 151itrovém skleněném fermentoru. Médium neobsahovalo žádný cyklodextrin ani jiné adsorpční činidlo. Postup fermentace je ilustrován v ta'bulce • · * · • · <· ·

- 33 6. Fermentace nebyla sklizena a zpracována na produkt.

Tabulka 6: Postup fermentace v objemu 10 1 bez přídavku adsorpčního činidla

trvání kultury (dny)	epothilon A (mg/1)	epothilon B (mg/l)
0	0	0
1	0	0
2	0	0
3	0	0
4	0,7	0,7
5	0,7	1, o
6	0, 8	1,3

G. Zpracování epothilonů: Izolace z SOOlitrcvé hlavní kultury Objem sklizené kultury z 5001itrové fermentace popsané v příkladu D byl 450 1 a byl separován pomocí čistícího separátoru Westfalia SA-20-06 (rpm = 6500) na tekutou fázi (supernatant + proplachovací voda) = 650 l·) a pevnou fázi (buňky = přibližně 15 kg) . Hlavní čási epothilonů se nacházela v supernatantu. Buněčná kaše po centrifugací obsahovala méně než 15 % stanovených epothilonů a nebyla dále zpracovávána. 650 1 centrifugátu bylo přeneseno do

40001itrové míchací nádoby, smícháno s 10 1 pryskyřice

Amberlit XAD-16 (objem centrifugát:prysoyřice = 65:1) a promícháno. Po kontaktní době přibližně: 2 hodiny byla pryskyřice odstraněna užitím Heineho přeookové centrifugy (objem koše 40 1, rpm = 2800). Pryskyřice pak byla vyjmuta z centrifugy a opláchnuta 10 až 15 1 neionizované vody.

Desorpce byla provedena dvakrát, pokaždé po částech s 30 1 isopropanolu ve 301itrové skleněné míchací nádobě po dobu 30 • * · ♦ · • · · · ··*·· · · ♦« minut. Oddělení isopropanolové fáze od pryskyřice 'se provedlo sacím filtrem. Isopropanol pak byl odstraněn ze smíchaných isopropanolových fází přídavkem 15 až 20 1 vody ve vakuovém cirkulačním evaporátoru (Schmíd-Verdampfer. a výsledná vodná fáze o objemu přibližně 10 1 byla extrahována 3 x po každé 10 1 ethylacetátu. Extrakce probíhala ve skleněné míchací nádobě o objemu 30 1. Ethylacetátové extrakty byly koncentrovány na

Verdampfer) evaporátoru

1 ve vakuovém	cirkulačním	evaporátoru	(Schmid-
a pak koncer	ztrovány do	sucha	v	rotačním
(typ Buchi)	pod vakuem.	3yl	tak	získán
> extrakt o	hmotnosti	50,2	g.	Tento

ethylacetátový extrakt byl rozpuštěn v 500 ml metanolu, nerozpustný podíl byl odfiltrován pomocí skládaného filtru a roztok byl nanesen na kolonu s 10 kg Sephadexu LH 20 (Pharmacia, Sweden) (kolona s průměrem 20 cm, hladina plnění přibližně

Pro eiuc;

použit mecanoi ja eluční činidlo. Epothilony A a B byly přítomny hlavně ve frakcích 21 až 23 (velikost koncentrovány do (celková hmotnost 9,0 g) frakce (9,0 g) frakce je 1 litr). Tyto frakce byly sucha v rotačním evaporátoru ve vakuu Pak tyto vrcnclové Sephadexové byly rozpuštěny v 92 ml směsi acetonitril:voda:methylenchlorid = 50:40:2, roztok byl filtrován přes skládaný filtr a pak nanesen na kolonu RP (zařízení Prepbar 200, Merck, 2,0 kg LiChrcspher RP-18 Merck, zrnitost 12 gm, průměr kolony 10 cm, hladina plnění 42 cm, Merck, Darmstadt, SRN). Eluce byla provedena směsí acetonitril:voda = 3:7 (průtok = 500 ml/mrn, retenční čas epothilonu A = přibližně 51 až 59 mim retenční čas epothilonu B = přibližně 60 až 69 minut) . Frakcionace byla monitorována UV detektorem . při 250 nm. Frakce byly koncentrovány do sucha v rotačním evaporátoru typu Buchi.

Hmotnost vrcholové frakce 'epothilonu A byla 700 mg a podle • · ·*· ···· ··· ···· ···· ··« · · « * · · ·····« · · ·· » · * · · · ···» ··· · ······· · · ·· _ 3 F — analýzy HPLC (vnější standard) a obsahovala ho 75,1 %.

Hmotnost vrcholové frakce epothilonů B byla 1980 mg a podle analýzy HPLC (vnější standard: ho obsahovala 86,6 %. Nakonec byla frakce epothilonů A (700 mg) krystalizována ze směsi ethylacetát: toluen = 2:3 a výtěžek byl 170 mg čisté krystalové formy typu A (obsah podle HPLC ?5 plochy) = 94,3 %). Krystalizace frakce epothilonů B (1980 mj) byla provedena z 18 ml metanolu a výtěžek byl 1440 mg čisté krystalové formy epothilonů B (obsah podle HPLC (% plochy) = 99,2 %). Teplota tání . epothilonů B je 124 °C-125 °C, 1H-NMB. vata pro epothilon B jsou následující:

500 Mhz-NMR, rozpouštědlo: DMSO-d6, chemický posun δ v ppm vzhledem k TMS, s = singlet, d = dublea, m = multiplet.

δ (multiplicita)	Integrál (počet H)
7,34 (s)	Ί
6,50 (s)	1
5,28 (d)	1
5,08 (d)	2
4,46 (d)	1
4, 08 (m)	1
3,4 7 (m)
3,11 (m)	1
2,8 3 (dd)	1
2,64 (s)	c
2,36 (m)
2,09 (s)	A
2,04 (m)
1,83 (m)
1,61 (m)
1,47-1,24 (m)	-
1,1« (s)	'(
1,13 (m)
1,06 (d)	ú
0,89 (d+s, překryv)
	Σ = -i

Příklad 15

Lékařské použití rekombinantně připravenýcn epothilonů

Farmaceutické přípravky obsahující epoc.nilony se užívají např. k léčení rakovinných onemocnění, jak: jsou např. lidské solidní tumory. Takové farmaceutické přípravky obsahují účinné množství epothilonů společně nebo ve směsi s významným množstvím jedné nebo několika organických něco anorganických, kapalných nebo tuhých, farmaceuticky při:-celných látek ve funkci nosiče. Farmaceutické přípravky pc cle předkládaného vynálezu jsou určeny pro enterální, nacální, rektální, perorální nebo parenterální podávání. Dá'-ka účinné látky závisí na druhu léčeného živočicha, tělesna hmotnosti, věku a individuálním stavu, individuální farmakokinetické situaci, nemoci, která se léčí, a dále zejména na coůsobu podávání. Viz např. patenty USA č. 5,496,304, 5,556,478 a 5,641,803, které jsou zahrnuty formou odkazu.

Jako přípravek pro léčení se epcchilon B dodává v samostatných 2 ml skleněných viáikách formulovaný do čirého, bezbarvého mtravenóeního koncentrace 1 mg/ml. Látka je formulována v polyethyleny:ykolu 300 :955300) a naředěna 50 nebo 100 ml 0,9% roztoku JaCl (dle letopisu), aby bylo dosaženo výsledné požadované Koncentrace řeziva pro infúzi. Podává se jako jednorázová řOminutová imravenózní infúze jedenkrát za 21 dnů (léčba lu za tři týdny po 6 cvklú nebo jako jednorázová 30munutová incravenózní ivárze každých 7 dnů (léčba lx za týden).

Výhodně jsou dávky pro léčbu lx za týčen 0,1 až 6 mg/m², výhodně 0,1 až 5 mg/nt , výhodněji 0,1 :U.c 3 mg/m² , ještě výhodněji 0,1 až 1,7 mg/m , ·: nejvýhodněm: 0,3 až 1 mg/m².

Pro léčbu 1 x za tři týdny (lx každé tři cýdny) jsou dávky · · * · • · · · ···· ··· · ······· · · ··

0,3 až 18 mg/m², výhodně 0,3 až 15 mg/m² , v mg/m² , ještě výhodněji 0,3 až 5 mg/m² , a n mg/m². Tyto dávky jsou lidem výhodně podá (i.v.) v průběhu 2 až 18 0 mnut, výhodně výhodněji 5 až 30 minut a nej výhodněji 10 : 30 minut.

Přestože byl předkládaný vynález pc specifickým příkladům provedení vynález'.: zřejmé, že jsou možné četné mriace a me v vynálezu, které jsou také přemězem předklcv ynodněji 0,3 až 12 ejvýhodněji 1 až 3 -vany intravenózně až 120 minut, v 30 minut, např.

;psán vzhledem ke , odborníkovi je vfikace provedení vného vynálezu.

• · • ·

- 88 SEZNAM SEKVENCÍ

Geny biosyntézy epothilonů <210> 1 <211> 63750 <212> DNA <213> Sorangium cellulosum <400> 1 aagccccgcc cgacgccccc cccgcccgcg ccaccccCgc ccacgcgccc gacgacggcc 60 acggccgggc cacggagcgg cacgcgcccg ccgaggcgcg cgggaccgag gacccccgcg 120 ccctccgaga gcacctccgc aCccaggaag gggggccgcc ctcccactgc acgcgccccg 180 gcgacccgac ggcggagccc cccgcgcacg accagccccc cgcgcccacc agcccccacc 240 acgcccgcag cccgaggcac cccgaccgga ccccggacgc gacgcccgcc gacggccccg 300 cgcccgcccg gcggcccgcc gcgcgcggcg cgccgggccc cccccgcgag cacgaagagg 360 agcgcgagcg agcccgaacc gcgcaggagg cgaggcgccC gcggcccgcg gccgcgccgc 420 cccgcCCcgc gcccgatctg ccccgccccg aggacgacgc caacgggccg ccgcccggcc 480 cgaCgCcgcc cgaagccgcc gaggccgagc ggcgccCccg cgccccgCac gcgaccccCg 540 agcCcgccCg tgccgcgctg cCcgccCggc Ccgggacggg cgcgggtccc cggcccgcac 600 aCcccgccca cgagacgccg ccagagaacc CgcCccccgg gcccggcccc ccgaccgcga 660 tcgccgcggc ccccgcgccc ggcacaccgg aggccgcc.cc. ccgcggcgca gcgcggccgc 720

CcgccCcccg ggaggccgCa Ccgagcaaga agagccagcc cggcaacacc cccgaagccc 780

CgCgggagcg gccccgcacg accgtccgcg cgacgggcaa Cgccgacaac cccccccgcc 840

Ccgagcgcgc cgaggcgaCc gcggcggagg CgcgccgccC gcgcgcacag ccggcgcccc 900

Ccgcggcggg cgccggcccg gcggCcgcCg gggCcCccCc gagcggccgg cccccgggcc 960

Ccgcgaccga cggagacgca ccgcaccccg gcgacagcaa cgacaCcgcc aCgCCccaac 1020 ccggccggac cCcgccagCc gCgcCgcCcg ccggaaccga CcccCCcCCc gagcccgcac 1030 cgccccCcag ccagaCgcCc CCcgCcgcgc acgccaacgc gggcaccacc CccaaggCcc 1140

Cgacggaagg cagcccccCc accgcgacgg caagaaacca ggcgcgaccg aCgagccccg 1200

Cccacgcccg cgggcccacg gčgcgggcca accaggccac ggcgcccgac cccgagcggg 1260 gcgcgccccc cgccgCccag cgcccgacca CcaCggaaCC cgagcacccc acgccCcgCC 1320 gcccccacga gcccgccggc agcgcccccc cccccgcccg cgacgaggag cacccccacc 1380 ggcgcgagcc cccggccggc cggcCccagc cacggcgcca cccgcaccac cgccccggcg 1440 ccccgagccg ccccgcgcac cccggcgagc accccaccgc ggcgacccgg caccccccgc 1500

CcacccCcaa cgcgacccac gcgccgcggg ccgaccccga tcgcagggcc aCccccgggg 1560 tcgacaagcg caccggcgta gagcccaCcg CccCcgcgga gacgcgccac cccccggcgc 1620 acgCcgCgtc cgaggaccgg gacaCccCcg cgcttaccgg acagcccgac CcccgcgacC 1680 ggcacgtcga gcacaCccgc CccggcgccC ccaccgCcgC ggccgacCac cagcgccagc 1740

CaCgggaccg cccCgacaCg gCgcCcaaCc ggcgcggccC cCCcCCcacg acgaacgacc 1800 gcacccCgac gcccgcccgc agcCgacacc gctcgacgcc gggccgctca tcgagggcgc 1860 ccggaccgag ctggcgaccc gccgccggcg ggccgcagcc caCgccgacc cggtggcgac 1920 gCagacgcCg cgccagaaac gcCcgagagc ccccgagaac aggaagccgg cggaCCgCgC 1980 caccacgatc ccgaCcagcC cgcggcccgg aCcaCCgaCc caggacgCcc cgaacccgcc 2040 gCcccaccca tagcgcccgg gcacctccga gaccgcgCcc ggcgccgCga ccačggccat 2100 cccaCaaccc cagccgtgcg CcCcgaagaa gcccgggaaa aacgaggacg ccgccCCcCg 2160 ggccggcgtg aggcgaCcgg ccgCcaCctc gcgcaccgag gcggcgcCca agagccgccg 2220 gccctcgCgc acaccgccgC Ccacgagcac gcgcgcgaac aggaggtagc cgtccaccgC 2280 cgacacgagc ccggcggcgc ccgaagggaa cgccggcggg ctggcatagg cgctctcggc 2340 cccgtcgcga tccatgcgcg tcttcCcccc cgtctgcCcg tcggCgaagt aaccgcagcc 2400 cgcgaaccga gcgagcttgC ccgccgggac gtgaaagtcg gtgtcccgca tcccgagcgg 2460 cgcgaggatg cgctcgcgca cgaacgcatc gaagccctgg tcggccgcgc gccccacgag 2520 caccccctgc accaggctcc ccgtgttgta catccactgc gcccccggct gacgeatgag 2580 cggcagcgtc ccgagccgcc ggacccactc gtctggcccg tgcggcgtca tcggcaccgg 2640 • · · · ·

- 89 ctgcgcgttg acgagcccga cgagattccg aagcccatcg gggcaccgtc tcgtcgatcg cggcaaccat cggtcgacgg caccgccgtc gcggtgaccg catgggcgcg ctgccgccga gcgcgcgacc agccagaccg ctcgcgcgcg ggcgccagcg ggccccaccc aacgcgcacc ccttctcatg ačcgtcgatg actgcccgcg cccgaaaaaa gcccggccgc ccgctcgggc gcacgccgct tgccatgtcc ggcctcaccg agcggcaggt gcgcgcgcct ccggcgagct ttcggcggcg tcgtgctggg gccctcttcc aggagccggc ctcctcctgc tgctgatggc cgccccgggg cgctctcggc ttctcggcgc tcgtgctcga tcggtgacgg cggtcagcgt agctatgcgc aggtgacgct gtcgcgatga cgtcgtcgag ctcctggcga gcggattctt gcgatgcgct gggtggccga gtcctcacgt tcctggccgc gcgttcgcgc tcggcgtgct ggcgtgcaga cgctcgtggc cgcgtcgacg tgtcgcagct gcgaccgcga cggcggcgaa aagggcagcg aggcggcgct atcaccgcga tcgtcggcgt gccgtcgtcg cgctggtcac agggcgcctc cgacgcagga gcgtacatcc ccggggtcga ttcgccacgg acatcgtgga gacatcacgg agctctccgt gcgagccggg ggctcgcgag cgcgagctgc gcggctcgat gtgatcggcg cgcgatcgcc gcgatcgtcc agcgggccga gagcgcgcct ccgcgcggcg gccgccgatc tcgcggccca agcgcgcaga ccgatccggg gcggtggcgc ggagcgtcgt gtctcgtcgc gcgtgcacgt cgcgccccgt acgatctgct tacctcggca gcacggtcga gtcgcgcatg gagggactcg ggaagcgagc gcccggctct tgagcagcgc gttctccgcc cgtccgattc gatcacgctg gatcgttgaa ccggacgtgc cggggtcgcg gtcgctgaag tcaacaggca ggccgtctca ggatgtagcc ctctgcgatt cctcctggct cctctttggc gacgcgctcg gggatccatg ccgagcgccg acgggctttg gacagtgggt ccgccgtgaa acgggccgac gattcggccg ctcgccggct gcggcggtcc gccgatgcgc gcgtcaccgc gacgtcgttc acctctcgcc tggcagcgtď cgagccccga gctcgtcgat ggcccgctgg tgaacgtcat caggtcgcgc gaccatcgat gcgcgccagc gggagtcgag gtcgagcttg ccttcgtcat cgaggcgatc gctcggtcac gcccaccgcg ctcccggcat ctgccccgcc cgccggcccc cgcgtcctgc ccggcgccgc cacgctgatc cctctccgag cgggggcgcc tcatcggtgc cccgtcacga gcccgcccct ggacgagcaa ggcctgcacc cacaccgagg cctgctctcg ctcgtcaccc cgcgcggcgg ctgcgccagc cccctccgtc gtcggcgcgc ggtcggggtc gtgctctcgg gggcatcgag gtcgacgtgg gctcggcgcg atcgcgcccc tcggcccctt ccgagcggcc gatcgcgaag gtgctgatcg cgcggcgggg gtggtcagcg ctacggcgcg tcgcccgcgc gctgttcatg gtgctcgtcg cgcgacgcgc gtctccaagg ggcgctgacg cagcggctcg gctcaacagc gctcctcgca gggcctcttc gcgcctgtgt gcgcacgccg gcggcgtggg ggtcgtcccc gccgcgctcg cgtggcggtg ggcctgaaca cgagctcggg ctcctctcca ggtgaccgcc tcacccgcgc ggagtcggct cgcctcgagc gcggatcctc gtcccgatcg gagcatcgtc gcctccaagc ggagcagcag gcgcccggcc gctcggcgcg cgcctccgcg ccaggcgatc ctgcgcgcct ggcgcgcgcg cgcggaatgt gtccaacgtg ctcgtcgtgg gatcctcgtc ccgatcatcg cgtggcgctg gcgtgggacg cgcggtcgtc tggcgcgatc cgacgaggcg gtcttccggg gggcgcgcac ccgagcgacg cgtgctcgga tgctacgacc gtcggtggtg gtccggagcc agagcaggtg aggtgaggct gccgacgatc gtcactcccg tgacgcgagt cgagccgggt gcatagtccg tatcgcgcgg cgggtgcgcc tcgctggaac taaacggtga tggcgacctg tggctcgtca tctgcggctc gcacagcgcg tccgcccgat agcctccctc tgctgtccag gctgaggatc ctcgccgagc aaagcgcgcg accggccagc gcagagaggc gatcgaggtg ccggataggg cacacgctcg gagcgagaaa accgtgcagg cgacgtcgac cccgacgccg gcccgagcgg ctcgaggccg gtccccgtgg cgacgggtcg atcggcgacg atgcgtcgaa 2700 accgtgatcg gccgctccgc 2760 accttccggt tcgcgagctc 2820 ccttcctcga cgagcatcat 2880 cggaagatcg tgtcccgccg 2940 tccacgtgca cgtcgtcgcc 3000 gccacctccg ccgccatcac 3060 cctggctgcc cctcctcctc 3120 aaagctccca taaactcccg 3180 tgcccctgcc gagagcactg 3240 tcgccgccgg gcgtggctcc 3300 agctcgcccg cccgcgctca 3360 agccacccac cctgatgcac 3420 tcgcgctcat cctcgtgacc 3480 ccgaggtgct cggggagctc 3540 tcgcgcccgg gttccatcga 3600 gcatctcctg gataggcgcg 3660 gcatcctgcg caaggaggcg 3720 cgctcgcggc gggcgccgcc 3780 tcttcctcgg gatcgtgctc 3840 agcgcgagtc gatgcgccgc 3900 aggtcgctgc ctgggtgctc 3960 tggcggtcgc ccggagcgcg 4020 ggcggcggct cacccacctc 4080 gacaggtgtc gctcgtcctc 4140 gcctgcaccc gctgctcggc 4200 ccaaccgccc tctcctcgac 4260 tcttcgtcct cgcgggcatg 4320 ggacggtcgc gttgctgctg 4380 gcgcgcgact cggcgggccc 4440 tgaagggcgg cacgaacctc 4500 acgaagctta tacgatgcac 4560 tcctcatctg gctcgagaaa 4620 gcgaggaggc cgcgaggcgc 4680 tggcgcacgc cctgcccggg 4740 gaaagctcgg cgagacggtc 4800 catcgcgcgc cgcgggggag 4860 tcggcatctg gcggcaaagg 4920 cgcgagatca cgatctgctc 4980 cgttcggtcg cctgcaggac 5040 tgggcgaccc tccggcggcg 5100 gcctcgagta ctccttcgcc 5160 ccgagctcgt gctgctcagc 5220 gcgagccatc ccgggtgcgc 5280 ggcgccggct cggcgtgcgc 5340 agataacgcg ggagctcgcg 5400 atgggccgct cggccggctc 5460 gggtgccggt cgcgttgctc 5520 tccaccgcgc tcgcccgtga 5580 gtccgtgtag gcgatcgtgc 5640 atgctgcacg acgatggggg 5700 gatcggctcg ggttcggtca 5760 ggtcacccgg taaggcccgg 5820 cgcgtcccgg tccgacgcat 5880 aggtccgttg ctcccgcctg 5940 cggcttgtcc atgtgtcctc 6000 gagcgatggc ctcttcgctc 6060 gctccctgcc gaccggcgcg 6120 ccggacgcgg gcccgagagg 6180 gtgagatgaa acacgtcgac 6240 gtcttctcgc gagcatggcg 6300 gcacgcggct cgcgcccggc 6360 cgaccacgcg gctggcggtg 6420 gcagcgagcg gttcgtcgtc 6480 gagtgctcga ctacaatgct 6540

- 90 gacagccgaa gaggcaagct ggccgagacg accgtgccgt atgccaactt cgagctgctc 6600 atcaccgccg agaagcagag cagccctcag tcgccatcgt ctgccgccgt catcgggccg 6660 acgtctgtcg ggtgacatcg cgctatcagc agcgctgagc ccgccagcag gccccagggc 6720 cctgcctcga tggccttccc catcacccct gcgcactcct ccagcgacgg ccgcgcagcg 6780 acggccgcgt ccaagcaacc gccgtgccgg cgcggctcca cgcgcgcgac aggcgagcgt 6840 cctggcgcgg cctgcgcatc gctggaagga tcggcggagc atggatagag aatcgaggat 6900 cgcgatcttt gttgccatcg cagccaacgt ggcgatcgcg gcggtcaagt tcatcgccgc 6960 cgccgtgacc ggcagctcgg cgaggcgttt gccgacttcg gcggcgtccc gcgcgtgctg 7020 ctctacgaca acctcaagag cgccgtcgcc gagcgccacg gcgacgcgat ccggttccac 7080 cccacgctgc tggctctgtc ggcgcattac cgcttcgagc cgcgccccgt cgccgtcgcc 7140 cgcggcaacg agaagggccg cgtccagcgc gccatcacgg cgtggacgac atggcgcgga 7200 aacgtcgtcg taaccgccca gcaatgtcat gggaatggcc ccttgaaatg gccccttgag 7260 ggggctggcc ggggtcgacg atatcgcgcg atctccccgt caattcccga tggtaaaaga 7320 aaaatttgtc atagatcgta agctgtgata gtggtctgtc ttacgttgcg tcttccgcac 7380 ctcgagcgag ttctctcgga taactttcaa tttttccgag gggggcttgg tctctggttc 7440 ctcaggaagc ctgatcggga cgagctaatt cccatccatt tttttgaggc tctgctcaaa 7500 gggattagat cgagtgagac agttcttttg cagtgcgcga agaacctggg cctcgaccgg 7560 aggacgatcg acgtccgcga gcgggtcagc cgctgaggat gtgcccgtcg tggcggatcg 7620 tcccatcgag cgcgcagccg aagatccgat tgcgatcgtc ggagcgagtt gccgtctgcc 7680 cggtggcgtg atcgatctga gcgggttctg gacgctcctc gagggctcgc gcgacaccgt 7740 cgggcgagtc cccgccgaac gctgggatgc agcagcgtgg tttgatcccg accccgatgc 7800 cccggggaag acgcccgtta cgcgcgcatc tttcctgagc gacgtagcct gcttcgacgc 7860 ctccttcttc ggcatctcgc ctcgcgaagc gctgcggatg gaccctgcac atcgactctt 7920 gctggaggtg tgctgggagg cgctggagaa cgccgcgatc gctccatcgg cgctcgtcgg 7980 tacggaaacg ggagtgttca tcgggatcgg cccgtccgaa tatgaggccg cgctgccgca 8040 agcgacggcg tccgcagaga tcgacgctca tggcgggctg gggacgatgc ccagcgtcgg 8100 agcgggccga atctcgtatg ccctcgggct gcgagggccg tgtgtcgcgg. tggatacggc 8160 ctattcgtcc tcgctggtgg ccgttcatct ggcctgtcag agcttgcgct ccggggaatg 8220 ctccacggcc ctggctggtg gggtatcgct gatgttgtcg ccgagcaccc tcgtgtggct 8280 ctcgaagacc cgggcgctgg ccagagacgg tcgctgcaag gcattttcgg cggaggccga 8340 tgggttcgga cgaggcgaag ggtgcgccgt cgtggtcctc aagcggctca gtggagcccg 8400 cgcggacggc gatcggatat tggcggtgat tcgaggatcc gcgatcaatc acgacggtgc 8460 gagcagcggt ctgaccgtgc cgaacggaag ctcccaagaa atcgtgctga aacgggccct 8520 ggcggacgca ggctgcgccg cgtcttcggt gggttatgtc gaggcacacg gcacgggcac 8580 gacgcttggt gaccccatcg aaatccaagc tctgaatgcg gtatacggcc tcgggcgaga 8640 tgtcgccacg ccgctgctga tcgggtcggt gaagaccaac cttggccatc ctgagtatgc 8700 gtcggggatc actgggctgc tgaaggtcgt cttgtccctt cagcacgggc agattcctgc 8760 gcacctccac gcgcaggcgc tgaacccccg gatctcatgg ggtgatcttc ggctgaccgt 8820 cacgcgcgcc cggacaccgt ggccggactg gaatacgccg cgacgggcgg gggtgagctc 8880 gttcggcatg agcgggacca acgcgcacgt ggtgctggaa gaggcgccgg cggcgacgtg 8940 cacaccgccg gcgccggagc gaccggcaga gctgctggtg ctgtcggcaa ggaccgcgtc 9000 agccctggat gcacaggcgg cgcggctgcg cgaccatctg gagacctacc cttcgcagtg 9060 tctgggcgat gtggcgttca gtctggcgac gacgcgcagc gcgatggagc accggctcgc 9120 ggtggcggcg acgtcgaggg aggggctgcg ggcagccctg gacgctgcgg cgcagggaca 9180 gacgtcgccc ggtgcggtgc gcagtatcgc cgattcctca cgcggcaagc tcgcctttct 9240 cttcaccgga cagggggcgc agacgctggg catgggccgt gggctgtacg atgtatggtc 9300 cgcgttccgc gaggcgttcg acctgtgcgt gaggctgttc aaccaggagc tcgaccggcc 9360 gctccgcgag gtgatgtggg ccgaaccggc cagcgtcgac gccgcgctgc tcgaccagac 9420 agccttcacc cagccggcgc tgttcacctt cgaatatgcg ctcgccgcgc tgtggcggtc 9480 gtggggtgta gagccggagt tggtcgccgg ccatagcatc ggtgagctgg tggctgcctg 9540 cgtggcgggc gtgttctcgc ttgaggacgc ggtgttcctg gtggctgcgc gcgggcgcct 9600 gatgcaggcg ctgccggccg gcggggcgat ggtgtcgatc gaggcgccgg aggccgatgt 9660 ggctgctgcg gtggcgccgc acgcagcgtc ggtgtcgatc gccgcggtca acgctccgga 9720 ccaggtggtc atcgcgggcg ccgggcaacc cgtgcatgcg atcgcggcgg cgatggccgc 9780 gcgcggggcg cgaaccaagg cgctccacgt ctcgcatgcg ttccactcac cgctcatggc 9840 cccgatgctg gaggcgttcg ggcgtgtggc cgagtcggtg agctaccggc ggccgtcgat 9900 cgtcctggtc agcaatctga gcgggaaggc ttgcacagac gaggtgagct cgccgggcta 9960 ttgggtgcgc cacgcgcgag aggtggtgcg cttcgcggat ggagtgaagg cgctgcacgc 10020 ggccggtgcg ggcaccttcg tcgaggtcgg tccgaaatcg acgctgctcg gcctggtgcc 10080 tgcctgcatg ccggacgccc ggccggcgct gctcgcatcg tcgcgcgctg ggcgtgacga 10140 gccggcgacc gtgctcgagg cgctcggcgg gctctgggcc gtcggtggcc tggtctcctg 10200 ggccggcctc ttcccctcag gggggcggcg ggtgccgctg cccacgtacc cttggcagcg 10260 cgagcgctac tggatcgaca cgaaagccga cgacgcggcg cgtggcgacc gccgtgctcc 10320 gggagcgggt cacgacgagg tcgaggaggg gggcgcggtg cgcggcggcg accggcgcag 10380 cgctcggctc gaccatccgc cgcccgagag cggacgccgg gagaaggtcg aggccgccgg 10440 • · • · • ·

- 91 cgaccgtccg ttccggctcg agatcgatga gccaggcgtg cttgatcacc tcgtgcttcg 10500 ggtcacggag cggcgcgccc ctggtctggg cgaggtcgag atcgccgtcg acgcggcggg 10560 gctcagcttc aatgatgtcc agctcgcgct gggcatggtg cccgacgacc tgccgggaaa 10620 gcccaaccct ccgctgctgc tcggaggcga gtgcgccggg cgcatcgtcg ccgtgggcga 10680 gggcgtgaac ggcctcgtgg tgggccaacc ggtcatcgcc ctttcggcgg gagcgtttgc 10740 tacccacgtc accacgtcgg ctgcgctggt gctgcctcgg cctcaggcgc tctcggcgat 10800 cgaggcggcc gccatgcccg tcgcgtacct gacggcatgg tacgcgctcg acagaatagc 10360 ccgcctccag ccgggggagc gggtgctgat ccatgcggcg accggcgggg tcggtctcgc 10920 cgcggtgcag tgggcgcagc acgtgggagc cgaggtccat gcgacggccg gcacgcccga 10980 gaaacgcgcc tacctggagt cgctgggcgt gcggtatgtg agcgattccc gctcggaccg 11040 gttcgtcgcc gacgtgcgcg cgtggacggg cggcgaggga gtagacgtcg tgctcaactc 11100 gctctcgggc gagctgatcg acaagagttt caatctcctg cgatcgcacg gccggtttgt 11160 ggagctcggc aagcgcgact gttacgcgga taaccagctc gggctgcggc cgttcctgcg 11220 caatctctcc ttctcgctgg tggatctccg ggggatgatg ctcgagcggc cggcgcgggt 11280 ccgtgcgctc ttggaggagc tcctcggcct gatcgcggca ggcgtgttca cccctccccc 11340 catcgcgacg ctcccgatcg cccgtgtcgc cgatgcgttc cggagcatgg cgcaggcgca 11400 gcatcttggg aagctcgtac tcacgctggg tgacccggag gtccagatcc gtattccaac 11460 ccacgcaggc gccggcccgt ccaccgggga tcgggacctg ctcgacaggc tcgcgtcagc 11520 tgcgccggcc gcgcgcgcgg ccgcgctgga ggcgttcctc cgtacgcagg tctcgcaggt 11580 gctgcgcacg cccgaaatca aggtcggcgc ggaggcgctg ttcacccgcc tcggcatgga 11640 ctcgctcatg gccgtggagc tgcgcaatcg tatcgaggcg agcctcaagc tgaagctgtc 11700 gacgacgttc ctgtccacgt cccccaacat cgccttgttg gcccaaaacc tgttggatgc 11760 tctcgccaca gctctctcct tggagcgggt ggcggcggag aacctacggg caggcgtgca 11820 aaacgacttc gtctcatcgg gcgcagatca agactgggaa atcattgccc tatgacgatc 11880 aatcagcttc tgaacgagct cgagcaccag ggtatcaagc tggcggccga tggggagcgc 11940 ctccagatac aggcccccaa gaacgccctg aacccgaacc tgctcgctcg aatctccgag 12000 cacaaaagca cgatcctgac gatgctccgt cagagactcc ccgcagaatc catcgtgccc 12060 gccccagccg agcggcacgc tccgtttcct ctcacagaca tccaagaatc ctactggctg 12120 ggccggacag gagcgtttac ggtccccagc aggatccacg cctatcgcga atacgactgt 12180 acggatctcg acgtgccgag gctgagccgc gcctttcgga aagtcgtcgc gcggcacgac 12240 atgcttcggg cccacacgct gcccaacatg atgcaggtga tcgagcctaa agtcgacgcc 12300 gacatcgaga tcatcgatct gcgcgagctc gaccggagca cacgggaagc gaggctcgtg 12360 tcgttgcgag atgcgatgtc gcaccgcatc tatgacaccg agcgccctcc gctctatcac 12420 gtcgtcgccg ttcggctgga cgagcggcaa acccgtctcg tgctcagtat cgatctcatt 12480 aacgttgacc taggcagcct gtccatcatc ttcaaggact ggctcagctt ctacgaagat 12540 cccgagacct ctctccctgt cctggagctc tcgtaccgcg attatgtact cgcgctggag 12600 tctcgcaaga agtctgaggc gcatcaacga tcgatggatt actggaagcg gcgcatcgcc 12660 gagctcccac ctccgccgac gcttccgatg aaggccgatc catctaccct gaaggagatc 12720 cgcttccggc acacggagca atggctgccg tcggactcct ggggtcgatt gaagcggcgt 12780 gtcggggagc gcgggctgac cccgacgggc gtcatcctgg ctgcattttc cgaggtgatc 12840 gggcgctgga gcgcgagccc ccggtttacg ctcaacataa cgctcttcaa ccggctcccc 12900 gtccatccgc gcgtgaacga tatcaccggg gacttcacgt cgatggtcct cctggacatc 12960 gacaccactc gcgacaagag cttcgaacag cgcgctaagc gtattcaaga gcagctgtgg 13020 gaagcgatgg atcactgcga cgtaagcggt atcgaggtcc agcgagaggc cgcccgggtc 13080 ctggggatcc aacgaggcgc attgttcccc gtggtgctca cgagcgcgct taaccagcaa 13140 gtcgttggtg tcacctcgtt gcagaggctc. ggaactccgg tgtacaccag cacgcagact 13200 cctcagctgc tgctggatca tcagctctac gagcacgatg gggacctcgt cctcgcgtgg 13260 gacatcgtcg acggagtgtt cccgcccgac cttctggacg acatgctcga agcgtacgtc 13320 gtttttctcc ggcggctcac tgaggaacca tggggtgaac aggtgcgctg ttcgcttccg 13380 cctgcccagc tagaagcgcg ggcgagcgca aacgcgacca acgcgctgct gagcgagcat 13440 acgctgcacg gcctgttcgc ggcgcgggtc gagcagctgc ccatgcagct cgccgtggtg 13500 tcggcgcgca agacgctcac gtacgaagag ctttcgcgcc gttcgcggcg acttggcgcg 13560 cggctgcgcg agcagggggc acgcccgaac acattggtcg cggtggtgat ggagaaaggc 13620 tgggagcagg ttgtcgcggt tctcgcggtg ctcgagtcag gcgcggccta cgtgccgatc 13680 gatgccgacc taccggcgga gcgtatccac tacctcctcg atcatggtga ggtaaagctc 13740 gtgctgacgc agccatggct ggatggcaaa ctgtcatggc cgccggggat ccagcggctg 13800 ctcgtgagcg aggccggcgt cgaaggcgac ggcgaccagc ctccgatgat gcccattcag 13860 acaccttcgg atctcgcgta tgtcatctac acctcgggat ccacagggtt gcccaagggg 13920 gtgatgatcg atcatcgggg tgccgtcaac accatcctgg acatcaacga gcgcttcgaa 13980 atagggcccg gagacagggt gctggcgctc tcctcgctga gcttcgatct ctcggtctat 14040 gatgtgttcg ggatcctggc ggcgggcggt acgatcgtgg tgccggacgc gtccaagctg 14100 cgcgatccgg cgcattgggc agagttgatc gaacgagaga aggtgacggt gtggaactcg 14160 gtgccggcgc tgatgcggat gctcgtcgag cattttgagg gtcgccccga ttcgctcgct 14220 aggtctctgc ggctttcgct gctgagcggc gactggatcc cggtgggcct gcctggcgag 14280 ctccaggcca tcaggcccgg cgtgtcggtg atcagcctgg gcggggccac cgaagcgtcg 14340 • · • · aCcCggtcca ggccgtccgc gCcCgggCCc gatgaagaga aagaccggcg gacaaccaaa aagtcgcatc aagcCccCCc gcgagccCca agcgacggcg ggaaagcccg gcgcgCcgcc cgacccctga

CaCccaccgg atcgagggcg cCcCccgacc gaagcggcgt

CcgCcgCcgc caggcgcctt cggccggccc gcagacccgc acgacgcgcg

CCgaggacca ccgccgacgc

Ccgccgcggc gtcgtacggg ggcgcgacac gagaccgcca cgccgagacc cgcaagggca gccgcaagcc aggcgcgcgc aagagtcctc

Cggacgaacc aggagcCcgc cgggcagcgc gcgaggcaga tggagaacgc ccaacacgag ccggcCggCC acaggccgaa

CggcggCCca gcgggaccac

CcccCcccga acggctgcgg tccgcgcggt ctgcgcccag tcgaggcccg ccatcgagac gcgcgatcgg gtccgatcaa agtctcctaa aggatcggaa gcaccaacgc cggcgcgctc cggcggcacg ccttcagcct cgcgcgaggc ccgtgcgtgg agggctctca cggcgctttc agctcgccgc tgttcgccct tcgtgatcgg tcgaggatgc tcgggtaccc cgtgaggaac gtcgacctat cgtgggcgag catcccctac 14400 tgcgcaacca gacgttccac gtgctcgatg aggcgctcga accgcgcccg 14460 cggggcaact ctacattggc ggggtcgggc tggcactggg ctactggcgc 14520 agacgcgcaa gagcttcctc gtgcaccccg agaccgggga gcgcctctac 14580 atctgggccg ctacctgccc gatggaaaca tcgagttcat ggggcgtgag 14640 tcaagcttcg cggataccgc gttgagctcg gggaaatcga ggaaacgctc 14700 cgaacgtacg cgacgcggtg accgcgcccg tcgggaacga cgcggcgaac 14760 cagcccacgc ggCcccggag ggcacacgga gacgcgcCgc cgagcaggac 14820 agaccgagcg gaccgacgcg agagcacacg ccgccgaagc ggacggccCg 14880 agagggcgca gcccaagccc gcccgacacg gaccccggag ggacctggac 14940 CcgCcgaCcC gaccgggcag gatccgcggg aggcggggct ggacgcccac 15000 gCagcgcccg aacgcccccc gaggccccga ccccgCCCgC cgagcccggc 15060 gcCgcCCgag cagcgtggag cccgacggcg cgacccCCcc caaaCCccgC 15120 cgggcagcac gCacccggCg caaaccCacg cgCaCgCcaa atccggccgc 15180 Cggacgaggg cCCcCaCCac Caccacccgc tcgagcaccg cccgccgaag 15240 acgggatcga gcgcggagcg cacgcccggc aaaaccccga cgcgcccgac 15300 Ccaacccccc gcccgcgggc aggatcgacg ccaCcgagcc gccgcacgga 15360 gagaaCCCCg ccCgcCggag gccggaCaCa CggcgcagcC ccCgaCggag 15420 cccgcaacac cggcgcccgC ccggtggggc aacccaaccc cgaacaggcc 15480 CcgaccCgcg acacccggac gcccacgcgc acggcaCgcC gggcgggcgg 15540 ggcagcccca ggCccgCacg cCcggCcagg accccccacc gaggcgcgcc 15600 gcgccccCcc cggccgcgag cagcacCCcg ccgaCaCgcC CcgcgacCCc 15660 aaccacccga gcacacggcg ccCacagccC CcgCggagcC cgaCgcgccg 15720 ccaacggcaa ggccgaccgc aaggcccCgc gcgagcggaa ggacaccccg 15780 aCCcggggca cacggcgcca cgagacgcct Cggaggagac ccCcgCcgcg 15840 aggCgcCcgg gccggaggcg gCcgggcCcc agcagagcCC cgCcgaCcCC 15900 cgaCCcacac cgCCcgcaCg aggagccCgC tgcagaagag gccggacagg 15960 CcaccgagCC gCCccagcac ccgaac.cCcg gctcgctggc gcccggcccg 16020 cgagagaCcC agaccagcgg ccgaacatgc aggaccgagC ggaggCCcgg 16080 ggagacgcag cCaagagcgc cgaacaaaac caggccgagc gggccgacga 16140 cgcctgcgtc accccgggac Ccacccgacc tgatcgcggg cacgcgccgc 16200 gCCgagccgC gccgcccgaa cgctgaggaa cggcgagcCc acggaagaac 16260 cgccaccgca gtcatcagca cgccgggccg ccccccgggg gcgcgggatc 16320 ccggaggaac cCCcgagacg gcacggaggc cgcgcagcgc ccccccgagc 16380 ggcgcccgga gccgaccccg cgccggcgcc ggacccgagc CacgCccggg 16440 gctggaagac gccgaccggc CcgacgcCgc CCCcCCcggc aCcagcccgc 16500 gcccaCggaC ccgcagcacc ggaCccCcaC ggaatgcgcc tgggaggcgc 16560 cggaCacgac ccgacggcCC acgagggcCc caCcggcgCg Cacgccggcg 16620 cCcgcaccCg acgccgaacc Cccacgagca cccagcgatg aCgcggCggc 16680 CcagacgCCg accggcaacg acaaggacca ccccgcgacc cacgcccccc 16740 Cccgagaggg ccgagcaCcC ccgCCcaaac Cgcccgcccc accccgcccg 16800 cCCggcgCgc acgagccccc cggaccgcga gCgcgacaCg gcgctggccg 16860 cgCccggaCc ccccatcgag ccggctatgt acacgccgag gggggcaccC 16920 cggccattgc cgggccCCcg acgccaaggc gaacggcacg aCcaCgggca 16980 cgccgcccCc ctgaagccgc Cggaccgggc gcCccccgac ggCgaccccg 17040 Cacccccggg tcCgccacaa acaacgacgg agcgaggaag accgggccca 17100 CgaggCgggc caggcgcaag cgaCcaCgga ggcgctggcg ctggcagggg 17160 gCccaCccaa Cacaccgaga cccacgggac cggcacgcCg ctcggagacg 17220 ggcggcgcCg cggcgggtgt CcggCcgcga cgccccggcc cggaggCcCt 17280 cCccgtgaag accggcatcg gacaccCcga accggcggcC ggcaCcgccg 17340 gacggCCCCg gcgctggagc accggcagct gccgcccagc ccgaacCCcg 17400 cccaccgaCc gaccccgcga gcagcccgcC ccacgccaac accCcccCCa 17460 CaccggcCcg acCccgcggc gggccggcgC cagcccgCCc gggaCcggcg 17520 ccatgCcgCg ccggaggaag cgcccgcggc gaagccccca gccgcggcgc 17580 Cgccgagccc CCcgCcgCcC cggccaagag cgcagcggcg cCggaCgccg 17640 gcCacgagat caCcCgcagg cgcaccaggg gaCCCcgCCg ggcgacgCcg 17700 ggcgacgacg cgcagcccca Cggagcaccg gcccgcgatg gcggcgccgt 17760 gCCgcgagag gggctcgacg cagcggcgcg aggccagacc ccgccgggcg 17820 ccgcCgcCcc ccaggcaacg Cgccgaaggt ggCcCCcgCc CtCcccggcc 17880 gtgggtcggc atgggccggc agcCcctggc tgaggaaccc gtctCccacg 17940 ggcgcgcgac cgggccatcc aggccgaagc tggttggtcg ctgcCcgcgg 18000 cgacgaaggg ccctcccagc Ccgagcgcat cgacgCggtg cagccggtgc 18060 cgcggtggca tttgcggcgc tgtggcggtc gtggggtgtc gcgcccgacg 18120 ccacagcatg ggcgaggtag ccgccgcgca tgtggccggg gcgctgtcgc 18180 ggtggcgatc atctgccggc g'cagccggct gctccggcgc atcagcggtc 18240

- 93 agggcgagat ggcggtgacc gagctgtcgc tggccgaggc cgaggcggcg ctccgaggct 18300 acgaggatcg ggtgagcgtg gccgtgagca acagcccgcg ctcgacggtg ctctcgggcg 18360 agccggcagc gatcggcgag gtgctgtcgt ccctgaacgc gaagggggtg ttctgccgtc 18420 gggtgaaggt ggatgtcgcc agccacagcc cgcaggtcga cccgctgcgc gaggacctct 18480 tggcagccct gggcgggctc cggccgggtg cggctgcggt gccgatgcgc tcgacggtga 18540 cgggcgccat ggtagcgggc ccggagctcg gagcgaatta ctggatgaac aacctcaggc 18600 agccagtgcg cttcgccgag gtagtccagg cgcagctcca aggcggccac ggtctgttcg 18660 tggagatgag cccgcatccg atcctaacga cttcggtcga ggagatgcgg cgcgcggccc 18720 agcgggcggg cgcagcggtg ggctcgctgc ggcgggggca ggacgagcgc ccggcgatgc 18780 tggaggcgct gggcacgctg tgggcgcagg gctaccctgt accctggggg cggctgtttc 18840 ccgcgggggg gcggcgggta ccgctgccga cctatccctg gcagcgcgag cggtactgga 13900 tcgaagcgcc ggccaagagc gccgcgggcg atcgccgcgg cgtgcgtgcg ggcggtcacc 18960 cgctcctcgg tgaaatgcag accctgtcaa cccagacgag cacgcggctg tgggagacga 19020 cgctggatct caagcggctg ccgtggctcg gcgaccaccg ggtgcaggga gcggtcgtgt 19080 ttccgggcgc ggcgtacctg gagatggcga tttcgtcggg ggccgaggct ttgggcgatg 19140 gccctttgca gataactgac gtggtgctcg ccgaggcgct ggccttcgcg ggcgacgcgg 19200 cggtgttggt ccaggtggtg acgacggagc agccgtcggg gcggctgcag ttccagatcg 19260 cgagccgggc gccgggcgct ggccacgcgt ccttccgggt ccacgctcgc ggcgcgttgc 19320 tccgagtgga gcgcaccgag gtcccggctg ggcttacgct ttccgctgtg cgcgcgcggc 19380 tccaggccag catacccgcc gcggccacct acgcggagct gaccgagatg gggctgcagt 19440 acggccctgc cttccagagg attgctgagč tatggcgggg tgaaggcgag gcgctgggac 19500 gggtacgcct gcccgacgcg gccggctcgg cagcggagta tcggttgcat cctgcgctgc 19560 tggacgcgtg cttccagatc gtcggcagcc tcttcgcccg cagtggcgag gcgacgccgt 19620 gggtgcccgt ggagttgggc tcgctgcggc tcttgcagcg gccttcgggg gagctgtggt 19680 gccatgcgcg cgtcgtgaac catgggcacc aaacccccga tcggcagggc gccgactttt 19740 gggtggtcga cagctcgggt gcagtggtcg ccgaagtttg cgggctcgtg gcgcagcggc 19800 ttccgggagg ggtgcgccgg cgcgaagaag acgattggtt cctggagctc gagtgggaac 19860 ccgcagcggt cggcacagcc aaggtcaacg cgggccggtg gctgctcctc gacggcggcg 19920 gtgggctcgg cgccgcgttg cgcgcgatgc tggaggccgg cggccatgcc gtcgtgcatg 19980 cggcagagaa caacacgagc gctgccagcg tacgcgcgct cctggcaaag gcctttgacg 20040 gccaggctcc gacggcggtg gtgcacctcg gcagcctcga tgggggtggc gagctcgacc 20100 cagggctcgg ggcgcaaggc gcattggacg cgccccggag cgccgacgtc agtcccgatg 20160 ccctcgatcc ggcgctggta cgtggctgcg acagcgtgct ctggaccgtg caggccctgg 20220 ccggcatggg ctttcgagac gccccgcgat tgtggctttt gacccgcggc gcacaggccg 20280 tcggcgccgg cgacgtctcc gtgacacagg caccgctgct ggggctgggc cgcgtcatcg 20340 ccatggagca cgcggatctg cgctgcgctc gggtcgacct cgatccagcc cggcccgagg 20400 gggagctcgc tgccctgctg gccgagctgc tggccgacga cgccgaagcg gaagtcgcgt 20460 tgcgcggtgg cgagcgatgc gtcgctcgga tcgtccgccg gcagcccgag acccggcccc 20520 gggggaggac cgagagctgc gttccgaccg acgtcaccat ccgcgcggac agcacctacc 20580 ttgtgaccgg cggtctgggt gggctcggtc tgagcgtggc cggatggctg gccgagcgcg 20640 gcgctggtca cctggtgctg gtgggccgct ccggcgcggc gagcgtggag caacgggcag 20700 ccgtcgcggc gctcgaggcc cgcggcgcgc gcgtcaccgt ggcgaaggcg gatgtcgccg 20760 atcgggcgca gctcgagcgg atcctccgcg aggttaccac gtcggggatg ccgctgcggg 20820 gcgtcgtcca tgcggccggc atcttggacg acgggctgct gatgcagcag actcccgcgc 20880 ggtttcgtaa ggtgatggcg cccaaggtcc agggggcctt gcacctgcac gcgttgacgc 20940 gcgaagcgcc gctttccttc ttcgtgctgt acgcttcggg agtagggctc ttgggctcgc 21000 cgggccaggg caactacgcc gcggccaaca cgttcctcga cgctctggcg caccaccgga 21060 gggcgcaggg gctgccagcg ttgagcgtcg actggggcct gttcgcggag gtgggcatgg 21120 cggccgcgca ggaagatcgc ggcgcgcggc tggtctcccg cggaatgcgg agcctcaccc 21180 ccgacgaggg gctgtccgct ctggcacggc tgctcgaaag cggccgcgct caggtggggg 21240 tgatgčcggt gaacccgcgg ctgtgggtgg agctctaccc cgcggcggcg tcttcgcgaa 21300 tgttgtcgcg cctggtgacg gcgcatcgcg cgagcgccgg cgggccagcc ggggacgggg 21360 acctgctccg ccgcctcgcc gctgccgagc cgagcgcgcg gagcgcgctc ctggagccgc 21420 tcctccgcgc gcagatctcg caggtgctgc gcctccccga gggcaagatc gaggtggacg 21480 ccccgctcac gagcctgggc atgaactcgc tgatggggcc cgagctgcgc aaccgcatcg 21540 aggccatgct gggcatcacc gtaccggcaa cgctgttgtg gacctatccc acggtggcgg 21600 cgctgagcgg gcatctggcg cgggaggcat gcgaagccgc tcctgtggag tcaccgcaca 21560 ccaccgccga ctctgccgtc gagatcgagg agatgtcgca ggacgatctg acgcagttga 21720 tcgcagcaaa attcaaggcg cttacatgac tactcgcggt cctacggcac agcagaatcc 21780 gctgaaacaa gcggccatca tcattcagcg gctggaggag cggctcgctg ggctcgcaca 21840 ggcggagctg gaacggaccg agccgatcgc catcgtcggt atcggctgcc gcttccctgg 21900 cggtgcggac gctccggaag cgttttggga gctgctcgac gcggagcgcg acgcggtcca 21960 gccgctcgac atgcgctggg cgctggtggg tgtcgctccc gtcgaggccg tgccgcactg 22020 ggcggggctg ctcaccgagc cgatagattg cttcgatgct gcgttcttcg gcatctcgcc 22080 tcgggaggcg cgatcgctcg acccgcagca tcgtctgttg ctggaggtcg cttgggaggg 22140 • · · · • · · · • · · · ·

- 94 gctcgaggac gccggtatcc cgccccggtc catcgacggg agccgcaccg' gtgtgttcgt 22200 cggcgctttc acggcggact acgcgcgcac ggtcgctcgg ctgccgcgcg aggagcgaga 22260 cgcgtacagc gccaccggca acatgctcag catcgccgcc ggacggctgt cgtacacgct 22320 ggggttgcag ggaccttgcc tgaccgtcga cacggcgtgc tcgtcatcgc tggtggcgat 22380 tcacctcgcc tgccgcagcc tgcgcgcagg agagagcgat ctcgcgttgg cgggaggggt 22440 cagcgcgctc ctctcccccg acatgatgga agccgcggcg cgcacgcaag cgctgtcgcc 22500 cgatggtcgt tgccggacct tcgatgcttc ggccaacggg ttcgtccgtg gcgagggctg 22560 tggcctggtc gtcctcaaac ggctctccga cgcgcaacgg gatggcgacc gcatctgggc 22620 gctgatccgg ggctcggcca tcaaccatga tggccggtcg accgggttga ccgcgcccaa 22680 cgtgctggct caggagacgg tcttgcgcga ggcgctgcgg agcgcccacg tcgaagctgg 22740 ggccgtcgat tacgtcgaga cccacggaac agggacctcg ctgggcgatc ccatcgaggt 22800 cgaggcgctg cgggcgacgg tggggccggc gcgctccgac ggcacacgct gcgtgctggg 22860 cgcggtgaag accaacatcg gccatctcga ggccgcggca ggcgtagcgg gcctgatcaa 22920 ggcagcgctt tcgctgacgc acgagcgcat cccgagaaac ctcaacttcc gcacgctcaa 22980 tccgcggatc cggctcgagg gcagcgcgct cgcgttggcg accgagccgg tgccgtggcc 23040 gcgcacggac cgcccgcgct tcgcgggggt gagctcgttc gggatgagcg gaacgaacgc 23100 gcatgtggtg ctggaagagg cgccggcggt ggagctgtgg cctgccgcgc cggagcgctc 23160 ggcggagctt ttggtgctgt cgggcaagag cgacggggcg ctcgatgcgc aggcggcgcg 23220 gctgcgcgag cacctggaca tgcacccgga gctcgggctc ggggacgtgg cgttcagcct 23280 ggcgacgacg cgcagcgcga tgagccaccg gctcgcggtg gcggtgacgt cgcgcgaggg 23340 gctgctggcg gcgctctcgg ccgtggcgca ggggcagacg ccggcggggg cggcgcgctg 23400 catcgcgagc tcctcgcgcg gcaagctggc gttcctgttc accggacagg gcgcgcagac 23460 gccgggcatg ggccgggggc tttgcgcggc gtggccagcg ttccgggagg cgttcgaccg 23520 gtgcgtggcg ccgttcgacc gggagetgga ccgcccgctg cgcgaggtga tgtgggcgga 23580 ggcggggagc gcccagtcgt tgttgctcga ccagacggcg ttcacccagc ccgcgctctt 23640 cgcggtggag tacgcgctga cggcgctgtg gcggtcgtgg ggcgtagagc cggagctcct 23700 ggttgggcat agcatcgggg agctggtggc ggcgtgcgtg gcaggggtgt tctcgctgga 23760 agatggggtg aggctcgtgg cggcgcgcgg gcggctgatg caggggctct cggcgggcgg 23820 cgcgatggtg tcgctcggag cgccggaggc ggaagtggcg gcggcggtgg cgccgcacgc 23880 ggcgtcggtg tcgatcgcgg cggtcaatgg gccggagcag gtggtgatcg cgggcgtgga 23940 gcaagcggtg caaccgatcg cggcggggtt cgcggcgcgc ggcacgcgca ccaagcggct 24000 acatgtctcg cacgcgttcc actcgccgct gatggaaccg atgctggagg agttcgggcg 24060 ggtggcggcg tcggtgacgt accggcggcc aagcgtttcg ctggtgagca acctgagcgg 24120 gaaggtggtc acggacgagc tgagcgcgcc ggggtactgg gtgcggcacg tgcgggaggc 24180 ggtgcgcttc gcgcacgggg tgaaggcgct gcacgaagcc ggcgcgggga cgttcgtcga 24240 agtgggcccg aagecgacgc tgctcgggct gttgccagcc tgcctgccgg aggcggagcc 24300 gacgctgctg gcgtcgttgc gcgccgggcg cgaggaggct gcgggggtgc tcgaggcgct 24360 gggcaggctg tgggc.cgccg gcggctcggt cagctggccg ggcgtcttcc ccacggctgg 24420 gcggcgggtg ccgctgccga cctatccgtg gcagcggcag cggtactgga tcgaggcgcc 24480 ggccgaaggg ctcggagcca cggccgccga tgcgctggcg cagtggttct accgggtgga 24540 ctggcccgag atgcctcgct catccgtgga ttcgcggcga gcccggtccg gcgggtggct 24600 ggtgctggcc gaccggggtg gagtcgggga ggcggccgcg gcggcgcttt cgtcgcaggg 24660 atgttcgtgc gccgtgctcc atgcgcccgc cgaggcctcc gcggttgccg agcaggtgac 24720 ccaggccctc ggtggccgca acgactggca gggggtgctg tacctgtggg gtctggacgc 24780 cgtcgtggag gcgggggcat cggccgaaga ggtcgccaaa gtcacccatc ttgccgcggc 24840 gccggtgctc gcgctgattc aggcgctcgg cacggggccg cgctcacccc ggctctggat 24900 cgtgačccga ggggcctgca cggtgggcgg cgagcctgac gctgccccct gtcaggcggc 24960 gctgtggggt atgggccggg tcgcggcgct agagcatccc ggctcctggg gcgggctcgt 25020 ggacctggat ccggaggaga gcccgacgga ggtcgaggcc ctggtggccg agctgctttc 25080 gccggacgcc gaggatcagc tggcattccg ccaggggcgc cggcgcgcag cgcggcttgt 25140 ggccgcccca ccggagggaa acgcagcgcc ggtgtcgctg tctgcggagg ggagttactt 25200 ggtgacgggt gggctgggcg cccttggcct cctcgttgcg cggtggttgg tggagcgcgg 25260 ggcggggcac cttgtgctga tcagccggca cggattgccc gaccgcgagg aatggggccg 25320 agatcagccg ccagaggtgc gcgcgcgcat tgcggcgatc gaggcgctgg aggcgcaggg 25380 cgcgcgggtc accgtggcgg cggtcgacgt ggccgatgcc gaaggcatgg cggcgctctt 25440 ggcggccgtc gagccgccgc tgcggggggt agtgcacgcc gcgggtctgc tcgacgacgg 25500 gctgctggcc caccaggacg ctggtcggct cgcccgggtg ttgcgcccca aggtggaggg 25560 ggcatgggtg ctgcacaccc ttacccgcga gcagccgctg gacctcttcg tactgttttc 25620 ctcggcgtcg ggcgtcttcg getegategg ccagggcagc tacgcggcag gcaatgcctt 25680 tttggacgcg ctggcggacc tccgccgaac gcaggggctc gccgccctga gcatcgcctg 25740 gggcctgtgg gcggaggggg ggatgggctc gcaggcgcag cgccgggaac acgaggcatc 25800 gggaatctgg gcgatgccga cgagtcgggc cctggcggcg atggaatggc tgctcggtac 25860 gcgcgcgacg cagcgcgtgg tcatccagat ggattgggcc catgcgggag cggcgccgcg 25920 cgacgcgagc cgaggccgct tctgggatcg gctggtaact gccacgaaag aggcctcctc 25980 ctcggccgtg ccagctgtgg agcgctggcg caacgcgtct gttgtggaga cccgctcggc 26040 • · · · · • ····· · · • · · · * ···········

- 95 gctctacgag cttgtgcgcg gcgtggtcgc cggggtgatg ggctttaccg accagggcac 26100 gctcgacgtg cgacgaggct tcgccgagca gggcctcgac tccctgatgg ccgtggagat 26160 ccgcaaacgg cttcagggtg agctgggtat gccgctgtcg gcgacgctag cgttcgacca 26220 tccgaccgtg gagcggctgg tggaatactt gctgagccag gcgctggagc tgcaggaccg 26280 caccgacgtg cggagcgttc ggttgccggc gacagaggac ccgatcgcca tcgtgggtgc 26340 cgcctgccgc ttcccgggcg gggtcgagga cctggagtcc tactggcagc tgttgaccga 26400 gggcgtggtg gtcagcaccg aggtgccggc cgaccggtgg aatggggcag acgggcgcgt 26460 ccccggctcg ggagaggcac agagacagac ctacgtgccc aggggtggct ttctgcgcga 26520 ggtggagacg ttcgatgcgg cgttcttcca catctcgcct cgggaggcga tgagcctgga 26580 cccgcaacag cggctgctgc tggaagtgag ctgggaggcg atcgagcgcg cgggccagga 26640 cccgtcggcg ctgcgcgaga gccccacggg cgtgttcgtg ggcgcgggcc ccaacgaata 26700 tgccgagcgg gtgcaggaac tcgccgatga ggcggcgggg ctctacagcg gcaccggcaa 26760 catgctcagc gttgcggcgg gacggctatc atttttcctg ggcctgcacg ggccgaccct 26820 ggctgtggat acggcgtgct cctcgtcgct ggtggcgctg cacctcggct gccagagctt 26880 gcgacggggc gagtgcgacc aagccctggt tggcggggtc aacatgctgc tctcgccgaa 26940 gaccttcgcg ctgctctcac ggatgcacgc actttcgccc ggcgggcggt gcaagacgtt 27000 ctcggccgac gcggacggct acgcgcgggc cgagggctgc gccgtggtag tgcccaagcg 27060 gctctccgac gcgcagcgcg accgcgaccc catcctggcg gtgatccggg gtacggcgat 27120 caatcatgat ggcccgagca gcgggctgac agtgcccagc ggccctaccc aggaggcgct 27180 gttacgccag gcgctggcgc acgcaggggt ggttccggcc gacgtcgatt tcgtggaatg 27240 ccacgggacc gggacggcgc tgggcgaccc gatcgaggtg cgtgcgctga gcgacgtgta 27300 cgggcaagcc cgccctgcgg accgaccgct gatcctggga gccgccaagg ccaaccttgg 27360 gcacatggag cccgcggcgg gcctggccgg cttgctcaag gcggtgctcg cgetggggca 27420 agagcaaata ccagcccagc cggagctggg cgagctcaac ccgctcttgc cgtgggaggc 27480 gctgccggtg gcggtggccc gcgcagcggt gccgtggccg cgcacggacc gcccgcgctt 27540 cgcgggggtg agctcgttcg ggatgagcgg aacgaacgcg catgtggtgc tggaagaggc 27600 gccggcggtg gagctgtggc ctgccgcgcc ggagcgctcg gcggagcttt tggtgctgtc 27660 gggcaagagc gagggggcgc tcgatgcgca ggcggcgcgg ctgcgcgagc acctggacat 27720 gcacccggag ctcgggctcg gggacgtggc gttcagcctg gcgacgacgc gcagcgcgat 27780 gaaccaccgg ctcgcggtgg cggtgacgtc gcgcgagggg ctgctggcgg cgctttcggc 27840 cgtggcgcag gggcagacgc cgccgggggc ggcgcgctgc atcgcgagct cgtcgcgcgg 27900 caagctggcg tc.cctgc.cca ccggacaggg cgcgcagacg ccgggcatgg gccgggggcc 27960

Ctgcgcggcg tggccagcgt tccggcaggc gttcgaccgg tgcgtggcgc tgttcgaccg 28020 ggagctggac cgcccgccgc gcgaggtgat gtgggcggag ccggggagcg ccgagtcgtt 28080 gttgcccgac cagacggcgt tcacccagcc cgcgctcCtc acggtggagc acgcgctgac 28140 ggcgctgtgg cggtcgtggg gcgtagagcc ggagctggtg gctgggcata gcgccgggga 28200 gctggtggcg gcgtgcgcgg cgggggtgct ctcgctggaa gatggggCga ggctcgtggc 28260 ggcgcgcggg cggctgatgc aggggctctc ggcgggcggc gcgaCggtgt cgctcggagc 28320 gccggaggcg gaggtggcgg cggcggtggc gccgcacgcg gcgtcgatgt cgatcgcggc 28380 ggCcaatggg ccggagcagg tggtgaccgc gggcgcggag caagcggtgc aggcgatcgc 28440 ggcggggctc gcggcgcgcg gcgcgcgcac caagcggcCg catgtctcgc acgcgtccca 28500 ctcgccgctg atggaaccga tgcCggagga gCCcgggcgg gtggcggcgt cggCgacgta 28560 ccggcggcca agcgtttcgc tggtgagcaa cctgagcggg aaggtggtcg cggacgagct 28620 gagcgcgccg gggtactggg tgcggcacgt gcgcjgaggcg gtgcgcttcg cggacggggt 28680 gaaggcgccg cacgaagccg gtgcgggcac gttcgtcgaa gtgggcccga agccgacgct 28740 gctcgggctg ttgccagcct gcctgccgga ggcggagccg acgctgccgg cgtcgccgcg 28800 cgccgggcgc gaggaggctg cgggggtgct cgaggcgctg ggcaggctgt gggccgccgg 28860 cggctcggtc agctggccgg gcgtcttccc cacggctggg cggcgggtgc cgctgccgac 28920 ctatccgtgg cagcggcagc ggtactggcc cgacatcgag cctgacagcc gtcgccacgc 28980 agccgcggat ccgacccaag gctggttcta tcgcgtggac tggccggaga tacctcgcag 29040 cctccagaaa tcagaggagg cgagccgcgg gagctggctg gtattggcgg ataagggtgg 29100 agtcggcgag gcggtcgctg cagcgctgtc gacacgtgga cttccatgcg tcgtgctcca 29160 tgcgccggca gagacatccg cgaccgccga gctggtgacc gaggctgccg gcggtcgaag 29220 cgattggcag gtagtgctct acctgtgggg tctggacgcc gtcgtcggtg cggaggcgtc 29280 gatcgatgag atcggcgacg cgacccgtcg tgctaccgcg ccggtgctcg gcttggctcg 29340 gtttctgagc accgtgtctt gttcgccccg actctgggtc gtgacccggg gggcatgcat 29400 cgttggcgac gagcctgcga tcgccccttg tcaggcggcg ttatggggca tgggccgggt 29460 ggcggcgctc gagcatcccg gggcctgggg cgggctcgtg gacctggatc cccgagcgag 29520 cccgccccaa gccagcccga tcgacggcga gatgctcgtc accgagctat tgtcgcagga 29580 gaccgaggat cagctcgcct tccgccatgg gcgccggcac gcggcacggc tggtggccgc 29640 cccgccacag gggcaagcgg caccggtgtc gctgtctgcg gaggcgagct acctggtgac 29700 gggaggcctc ggtgggctgg gcctgatcgt ggcccagtgg ctggtggagc tgggagcgcg 29760 gcacttggtg ctgaccagcc ggcgcgggtt gcccgaccgg caggcgtggt gcgagcagca 29820 gccgcctgag atccgcgcgc ggatcgcagc ggtcgaggcg ctggaggcgc ggggtgcacg 29880 ggtgaccgtg gcagcggtgg acgtggccga cgtcgaaccg atgacagcgc tggtttcgtc 29940 • ·

- 96 ggtcgagccc ccgctgcgag gggtggtgca cgccgctggc gtcagcgtca tgcgtccact 30000 ggcggagacg gacgagaccc tgctcgagtc ggtgctccgt cccaaggtgg ccgggagctg 30060 gctgctgcac cggctgctgc acggccggcc tctcgacctg ttcgtgctgt tctcgtcggg 30120 cgcagcggtg tggggtagcc atagccaggg tgcgtacgcg gcggccaacg ctttcctcga 30130 cgggctcgcg catcttcggc gttcgcaatc gctgcctgcg ttgagcgtcg cgtggggtct 30240 gtgggccgag ggaggcatgg cggacgcgga ggctcatgca cgtctgagcg acatcggggt 30300 tctgcccatg tcgacgtcgg cagcgttgtc ggcgctccag cgcctggtgg agaccggcgc 30360 ggctcagcgc acggtgaccc ggatggactg ggcgcgcttc gcgccggtgt acaccgctcg 30420 agggcgtcgc aacctgcttt cggcgctggt cgcagggcgc gacatcatcg cgccttcccc 30480 tccggcggca gcaacccgga actggcgtgg cctgtccgtt gcggaagccc gcgtggctct 30540 gcacgagatc gtccatgggg ccgtcgctcg ggtgctgggc ttcctcgacc cgagcgcgct 30600 cgatcctggg atggggttca atgagcaggg cctcgactcg ttgatggcgg tggagatccg 30660 caacctcctt caggctgagc tggacgtgcg gctttcgacg acgctggcct ttgatcatcc 30720 gacggtacag cggctggtgg agcatctgct cgtcgatgta ctgaagctgg aggatcgcag 30780 cgacacccag catgttcggt cgttggcgtc agacgagccc atcgccatcg tgggagccgc 30840 ctgccgcttc ccgggcgggg tggaggacct ggagtcctac tggcagctat tggccgaggg 30900 cgtggtggtc agcgccgagg tgccggccga ccggtgggat gcggcggact ggtacgaccc 30960 tgatccggag atcccaggcc ggacttacgt gaccaaaggc gccttcctgc gcgatttgca 3Í020 gagattggat gcgaccttct tccgcatctc gcctcgcgag gcgatgagcc tcgacccgca 31080 gcagcggttg ctcctggagg taagctggga agcgctcgag agcgcgggta tcgctccgga 31140 tacgctgcga gatagcccca ccggggtgtt cgtgggtgcg gggcccaatg agtactacac 31200 gcagcggctg cgaggcttca ccgacggagc ggcagggttg tacggcggca ccgggaacac 31260 gctcagcgtt acggctggac ggctgtcgtt tttcctgggt ctgcacggcc cgacgctggc 31320 catggatacg gcgtgctcgt catccctggt cgcgctgcac ctcgcctgcc agagcctgcg 31380 actgggcgag tgcgatcaag cgctggttgg cggggtcaac gtgctgctcg cgccggagac 31440 cttcgtgctg ctctcacgga tgcgcgcgct ttcgcccgac gggcggtgca agacgttctc 31500 ggccgacgcg gacggctacg cgcggggcga ggggtgcgcc gtggtggtgc tcaagcggct 31560 gcgcgatgcg cagcgcgccg gcgactccat cctggcgctg atccggggaa gcgcagtgaa 31620 ccacgacggc ccgagcagcg ggctgaccgt acccaacgga cccgcccagc aagcattgct 31680 gcgccaggcg ctttcgcaag caggcgtgtc tccggtcgac gttgattttg tggagcatca 31740 cgggacaggg acggcgctgg gcgacccgat cgaggcgcag gcgctgagcg aggtgtatgg 31800 tccagggcgc tccggggacc gaccgctggt gctgggggcc gccaaggcca acgtcgcgca 31360 tctggaggcg gcatctggct tggccagcct gctcaaggcc gtgcttgcgc tgcggcacga 31920 gcagatcccg gcccagccgg agctggggga gctcaacccg cacttgccgt ggaacacgct 31980 gccggtggcg gtgccacgta aggcggtgcc gtgggggcgc ggcgcacgcc cgcgtcgggc 32040 cggcgtgagc gcgttcgggt tgagcggaac caacgtgcat gtcgtgctgg aggaggcacc 32100 ggaggtggag ccggcgcccg cggcgccggc gcgaccggtg gagctggtcg tgctatcggc 32160 caagagcgcg gcggcgctgg acgccgcggc ggcacggctc tcggcgcacc tgtccgcgca 32220 cccggagctg agcctcggcg acgtggcgtt cagcctggcg acgacgcgca gcccgatgga 32280 gcaccggctc gccatcgcga cgacctcgcg cgaggccctg cgaggcgcgc tggacgccgc 32340 ggcgcagcaa aagacgccgc agggcgcggt gcgcggcaag gccgtgtcct cacgcggtaa 32400 gctggctttc ctgttcaccg gacagggcgc gcaaatgccg ggcatgggcc gtgggctgta 32460 cgaaacgtgg cctgcgttcc gggaggcgtt cgaccggtgc gtggcgctct tcgatcggga 32520 gatcgaccag cctctgcgcg aggtgatgtg ggctgcgccg ggcctcgctc aggcggcgcg 32530 gctcgatcag accgcgtacg cgcagccggc tctctttgcg ctggagtacg cgctggctgc 32640 cctgtggcgt tcgtggggcg tggagccgca cgtactgctc ggtcatagca tcggcgagct 32700 ggtcgccgcc tgcgtggcgg gcgtgttctc gctcgaagat gcggtgaggt tggtggccgc 32760 gcgcgggcgg ctgatgcagg cgctacccgc cggcggtgcc atggtagcca tcgcagcgtc 32820 cgaggccgag gtggccgcct ccgtggcgcc ccacgccgcc acggtgtcga tcgccgcggt 32880 caacggtcct gacgccgtcg tgatcgccgg cgccgaggta caggtgctcg ccCtcggcgc 32940 gacgttcgcg gcgcgtggga tacgcacgaa gaggctcgcc gtctcccatg cgttccactc 33000 gccgctcatg gatccgatgc tggaagactt ccagcgggtc gctgcgacga tcgcgtaccg 33060 cgcgccagac cgcccggtgg tgtcgaatgt caccggccac gtcgcaggcc ccgagatcgc 33120 cacgcccgag tattgggtcc ggcatgtgcg aagcgccgtg cgcttcggcg acggggcaaa 33180 ggcgttgcat gccgcgggtg ccgccacgtt cgtcgaggtt ggcccgaagc cggtcctgct 33240 cgggctgttg ccagcgtgcc tcggggaagc ggacgcggtc ctcgtgccgt cgctacgcgc 33300 ggaccgctcg gaatgcgagg tggtcctcgc ggcgctcggg gcttggtatg cctggggggg 33360 tgcgctcgac tggaagggcg tgttccccga tggcgcgcgc cgcgtggctc tgcccatgta 33420 tccatggcag cgtgagcgcc attggatgga cctcaccccg cgaagcgccg cgcctgcagg 33480 gatcgcaggt cgctggccgc tggctggtgt cgggctctgc atgcccggcg ctgtgttgca 33540 ccacgtgctc tcgatcggac cacgccatca gcccttcctc ggtgatcacc tcgtgtttgg 33600 caaggtggtg gtgcccggcg cctttcatgt cgcggtgatc ctcagcatcg ccgccgagcg 33660 ctggcccgag cgggcgatcg agctgacagg cgtggagttc ctgaaggcca tcgcgatgga 33720 gcccgaccag gaggtcgagc tccacgccgt gctcaccccc gaagccgccg gggatggcta 33780 cctgttcgag ctggcgaccc tggcggcgcc ggagaccgaa cgccgatgga cgacccacgc 33840

- 97 ccgcggtcgg gtgcagccga cagacggcgc gcccggcgcg ttgccgčgcc tcgaggtgct 33900 ggaggaccgc gcgatccagc ccctcgactt cgccggattc ctcgacaggt tatcggcggt 33960 gcggatcggc tggggtccgc tttggcgatg gctgcaggac gggcgcgtcg gcgacgaggc 34020 ctcgcttgcc accctcgtgc cgacctatcc gaacgcccac gacgtggcgc ccttgcaccc 34080 gatcctgctg gacaacggct ttgcggtgag cctgctgtca acccggagcg agccggagga 34140 cgacgggacg cccccgctgc cgttcgccgt ggaacgggtg cggtggtggc gggcgccggt 34200 tggaagggtg cggtgtggcg gcgtgccgcg gtcgcaggca ttcggtgtct cgagcttcgt 34260 gctggtcgac gaaactggcg aggtggtcgc cgaggtggag ggatttgtte gccgccgggc 34320 gccgcgagag gtgttcctgc ggcaggagtc gggcgcgtcg actgcagcct tgtaccgcct 34380 cgactggccc gaagcgccct tgcccgatgc gcctgcggaa cggatcgagg agagctgggt 34440 cgtggtggca gcacctggct cggagatggc cgcggcgctc gcaacacggc tcaaccgctg 34500 cgtcctcgcc gaacccaaag gcctcgaggc ggccctcgcg ggggtgtctc ccgcaggtgt 34560 gatctgcctc tgggaggctg gagcccacga ggaagctccg gcggcggcgc agcgtgtggc 34620 gaccgagggc ctctcggtgg tgcaggcgct cagggaccgc gcggtgcgcc tgtggtgggt 34630 gaccatgggc gcagtggccg tcgaggccgg tgagcgggtg caggtcgcca cagcgccggt 34740 atggggcctc ggccggacag tgatgcagga gcgcccggag ctcagctgca ctctggtgga 34300 tttggagccg gaggccgatg cagcgcgctc agctgacgtt ctgttgcggg agctcggtcg 34860 cgctgacgac gagacacagg tggctttccg ttccggaaag cgccgcgtag cgcggctggt 34920 caaagcgacg acccccgaag ggctcctggt ccctgacgca gagtcctatc gactggaggc 34980 tgggcagaag ggcacattgg accagctccg cctcgcgccg gcacagcgcc gggcacctgg 35040 cccgggcgag gtcgagatca aggtaaccgc ctcggggctc aacttccgga ccgtcctcgc 35100 tgtgctggga atgtatccgg gcgacgccgg gccgatgggc ggagattgtg ccggtgtcgc 35160 cacggcggtg ggccaggggg tgcgccacgt cgcggtcggc gatgctgtca tgacgctggg 35220 gacgttgcat cgattcgtca cggtcgacgc gcggctggtg gtccggcagc ctgcagggct 35280 gactcccgcg caggcagcta cggtgccggt cgcgttcctg acggcctggc tcgctctgca 35340 cgacctgggg aatctgcggc gcggcgagcg ggtgctgatc catgctgcgg ccggcggtgt 35400 gggcatggcc gcggtgcaaa tcgcccgatg gataggggcc gaggtgttcg ccacggcgag 35460 cccgtccaag tgggcagcgg ttcaggccat gggcgtgccg cgcacgcaca tcgccagctc 35520 gcggacgctg gagtttgctg agacgttccg gcaggtcacc ggcggccggg gcgtggacgt 35580 gatgctcaac gcgctggccg gcgagttcgt ggacgcgagc ctgtccctgc tgtcgacggg 35640 cgggcggttc ctcgagatgg gcaagaccga catacgggat cgagccgcgg tcgcggcggc 35700 gcatcccggt gttcgctatc gggtattcga catcctggag ctcgctccgg atcgaactcg 35760 agagatcctc gagcgcgtgg tcgagggctt tgctgcggga catctgcgcg cattgccggt 35320 gcatgcgttc gcgatcacca aggccgaggc agcgtttcgg ttcatggcgc aagcgcggca 35880 tcagggcaag gtcgtgctgc tgccggcgcc ctccgcagcg cccttggcgc cgacgggcac 35940 cgtactgctg accggtgggc tgggagcgtt ggggctccac gtggcccgct ggctcgccca 36000 gcagggcgtg ccgcacatgg tgctcacagg tcggcggggc ctggatacgc cgggcgctgc 36060 caaagccgtc gcggagatcg aagcgctcgg cgctcgggtg acgatcgcgg cgtcggatgt 36120 cgccgatcgg aatgcgctgg aggctgtgct ccaggccatt ccggcggagt ggccgttaca 36180 gggcgtgatc catgcagccg gagcgctcga tgatggtgtg cttgatgagc agaccaccga 36240 ccgcttctcg cgggtgctgg caccgaaggt gactggcgcc tggaatctgc atgagctcac 36300 ggcgggcaac gatctcgctt tcttcgtgct gttctcctcc atgtcggggc tcttgggctc 36360 ggccgggcag tccaactatg cggcggccaa caccttcctc gacgcgctgg ccgcgcatcg 36420 gcgggccgaa ggcctggcgg cgcagagcct cgcgtggggc ccatggtcgg acggaggcat 36480 ggcagcgggg ctcagcgcgg cgctgcaggc gcggctcgct cggcatggga tgggagctct 36540 gtcgccggct cagggcaccg cgctgctcgg gcaggcgctg gctcggccgg aaacgcagct 36600 cggggcgatg tcgctcgacg tgcgtgcggc aagccaagct tcgggagcgg cagtgccgcc 36660 tgtgtggcgc gcgttggtgc gcgcggaggc gcgccatacg gcggctgggg cgcagggggc 36720 attggccgcg cgtcttgggg cgctgcccga ggcgcgtcgc gccgacgagg tgcgcaaggt 36780 cgtgcaggcc gagatcgcgc gcgtgctttc atggagcgcc gcgagcgccg tgcccgtcga 36840 tcggccgctg tcggacttgg gcctcgactc gctcacggcg gtggagctgc gcaacgtgct 36900 cggccagcgg gtgggtgcga cgctgccggc gacgctggca ttcgatcacc cgacggtcga 36960 cgcgctcacg cgctggctgc tcgataaggt cctggccgtg gccgagccga gcgtatcgtc 37020 cgcaaagtcg tcgccgcagg tcgccctcga cgagcccatt gccatcatcg gcatcggctg 37030 ccgtttccca ggcggcgtgg ccgatccgga gtcgttttgg cggctgctcg aagagggcag 37140 cgatgccgtc gtcgaggtgc cgcatgagcg atgggacatc gacgcgttct atgatccgga 37200 tccggatgtg cgcggcaaga tgacgacacg ctttggcggc ttcctgtccg atatcgaccg. 37260 gttcgatccg gccttcttcg gcatctcgcc gcgcgaagcg acgaccatgg atccgcagca 37320 gcggctgctc ctggagacga gctgggaggc gttcgagcgc gccgggattt tgcccgagcg 37380 gctgatgggc agcgataccg gcgtgttcgt ggggctcttc taccaggagt acgctgcgct 37440 cgccggcggc atcgaggcgt tcgatggcta tctaggcacc ggcaccacgg ccagcgtcgc 37500 ctcgggcagg atctcttatg tgctcgggct aaaggggccg agcctgacgg tggacaccgc 37560 gtgctcctcg tcgctggtcg cggtgcacct ggcctgccag gcgctgcggc ggggcgagtg 37620 ttcggtggcg ctggccggcg gcgtggcgct gatgctcacg ccggcgacgt tcgtggagtt 37680 cagccggctg cgaggcctgg ctcccgacgg acggtgcaag agcttctcgg ccgcagccga 37740 • · • · · 9 9 9 9 ···· • « · · 9 9 9 9 9 ······ · 9 · · 99 · • 9 · 9 9999

999 9 999 99*9 99 99

- 98 cggcgtgggg tggagcgaag gctgcgccat gctcctgctc aaaccgcttc gcgatgcgca 37800 gcgcgatggg gatccgatcc tggcggtgat ccgcggcacc gcggtgaacc aggatgggcg 37860 cagcaacggg ctgacggcgc ccaacgggtc gtcgcagcaa gaggtgatcc gtcgggccct 37920 ggagcaggcg gggctggctc cggcggacgt cagctacgtc gagtgccacg gcaccggcac 37980 gacgttgggc gaccccatcg aagtgcaggc cctgggcgcc gtgctggcac aggggcgacc 38040 ctcggaccgg ccgctcgtga tcgggtcggt gaagtccaat atcggacata cgcaggctgc 38100 ggcgggcgtg gccggtgtca tcaaggtggc gctggcgctc gagcgcgggc ttatcccgag 38160 gagcctgcat ttcgacgčgc ccaatccgca cattccgtgg tcggagctcg ccgtgcaggt 38220 ggccgccaaa cccgtcgaat ggacgagaaa cggcgtgccg cgacgagccg gggtgagctc 38280 gtttggcgtc agcgggacca acgcgcacgt ggtgctggag gaggcgccag cggcggcgtt 38340 cgcgcccgcg gcggcgcgtt cagcggagct tttcgtgctg tcggcgaaga gcgccgcggc 38400 gctggacgcg caggcggcgc ggctttcggc gcacgtcgtt gcgcacccgg agctcggcct 38460 cggcgacctg gcgttcagcc tggcgacgac ccgcagcccg atgacgtacc ggctcgcggt 38520 ggcggcgacc tcgcgcgagg cgctgtctgc cgcgctcgac acagcggcgc aggggcaggc 38580 gccgcccgca gcggctcgcg gccacgcttc cacaggcagc gccccaaagg tggttttcgt 38640 ctttcctggc cagggctccc agtggctggg catgggccaa aagctcctct cggaggagcc 33700 cgtcttccgc gacgcgctct cggcgtgtga ccgagcgatt caggccgaag ccggctggtc 33760 gctgctcgcc gagctcgcgg ccgatgagac cacctcgcag ctcggccgca tcgacgtggt 38820 gcagccggcg ctgttcgcga tcgaggtcgc gctgtcggcg ctgtggcggt cgtggggcgt 38880 cgagccggat gcagtggtag gccacagcat gggcgaagtg gcggccgcgc acgtcgccgg 38940 cgccctgtcg ctcgaggatg ctgtagcgat catctgccgg cgcagcctgc tgctgcggcg 39000 gatcagcggc caaggcgaga tggcggtcgt cgagctttcc ctggccgagg ccgaggcagc 39060 gctcctgggc tacgaagacc ggctcagcgt ggcggtgagc aacagcccgc gctcgacggt 39120 gctggcgcgc gagccggcag cgctcgcaga ggtgctggcg atccttgcgg caaagggggt 39180 gttctgccgt cgagtcaagg tggacgtcgc cagccacagc ccacagatcg acccgctgcg 39240 cgacgagcta ttggcagcat tgggcgagct cgagccgcga caagcgaccg tgtcgatgcg 39300 ctcgacggtg acgagcacga tcatggcggg cccggagctc gtggcgagct actgggcgga 39360 caacgttcga cagccggtgc gcttcgccga agcggtgcaa tcgttgatgg aagacggtca 39420 tgggctgttc gtggagatga gcccgcatcc gatcctgacg acatcggtcg aggagatccg 39480 acgggcgacg aagcgggagg gagtcgcggt gggctcgttg cggcgtggac aggacgagcg 39540 cctgcccatg ttggacgcgc tgggagcgct ctgggtacac ggccaggcgg tgggctggga 39600 gcggctgttc tccgcgggcg gcgcgggcct ccgtcgcgtg ccgctgccga cccatccctg 39660 gcagcgcgag cggtactggg tcgatgcgcc gaccggcggc gcggcgggcg gcagccgctt 39720 tgctcatgcg ggcagtcacc cgctcctggg tgaaatgcag accctgtcga cccagaggag 39730 cacgcgcgtg tgggagacga cgctggatct caaacggctg ccgtggctcg gcgatcaccg 39840 ggtgcaggag gcggtcgtgt tcccgggcgc ggcgtacctg gagatggcgc tttcgtccgg 39900 ggccgaggcc ttgggtgacg gtccgctcca ggtcagcgat gtggtgctcg ccgaggcgct 39960 ggccttcgcg gatgatacgc cggcggcggt gcaggtcatg gcgaccgagg agcgaccagg 40020 ccgcctgcaa ttccacgttg cgagccgggt gccgggccac ggcggtgctg cctttcgaag 40080 ccatgcccgc ggggtgctgc gccagatcga gcgcgccgag gtcccggcga ggctggatct 40140 ggccgcgctt cgtgcccggc ttcaggccag cgcacccgct gcggctacct atgcggcgct 40200 ggccgagatg gggctcgagt·acggcccagc gttccagggg cttgtcgagc tgtggcgggg 40260 ggagggcgag gcgccgggac gtgtgcggct ccccgaggcc gccggctccc cagccgcgtg 40320 ccggctccac čccgcgctct tggatgcgtg cttccacgtg agcagcgcct tcgctgaccg 40380 cggcgaggcg acgccatggg tacccgtgga aatcggctcg ctgcggtggt tccagcggcc 40440 gtcgggggag ctgtggtgtc atgcgcggag tgtgagccac ggaaagccaa cacccgaccg 40500 gcggagtacc gacttctggg tggtcgacag cacgggcgcg atcgtcgccg agatctccgg 40560 gctcgtggcg cagcggctcg cgggaggtgt acgccggcgc gaagaagacg actggttcat 40620 ggagccggct tgggaaccga ccgcggtccc cggatccgag gtcatggcgg gccggtggct 40680 gctcatcggc tcgggcggcg ggctcggcgc tgcgctccac tcggcgctga cggaagctgg 40740 ccattccgtc gtccacgcga cagggcgcgg cacgagcgcc gccgggttgc aggcactctt 40800 gacggcgtcc ttcgacggcc aggccccgac gtcggtggtg cacctcggca gcctcgatga 40360 gcgtggcgtg ctcgacgcgg atgccccctt cgacgccgat gcgcttgagg agtcgctggt 40920 gcgcggctgc gacagcgtgc tctggaccgt gcaggccgtg gccggggcgg gcttccgaga 40980 tcctccgcgg ttgtggctcg tgacacgcgg cgctcaggcc atcggcgccg gcgacgtctc 41040 tgtggcgcaa gcgccgctcc tggggctggg ccgcgttatc gccttggagc acgccgagct 41100 gcgctgcgct cggatcgacc tcgatccagc gcggcgcgac ggagaagtcg atgagctgct 41160 tgccgagctg ttggccgacg acgccgagga ggaagtcgcg tttcgcggcg gtgagcggcg 41220 cgtggcccgg ctcgtccgaa ggctgcccga gaccgactgc cgagagaaaa tcgagcccgc 41280 ggaaggccgg ccgttccggc tggagatcga tgggtccggc gtgctcgacg acctggtgct 41340 ccgagccacg gagcggcgcc ctcctggccc gggcgaggtc gagatcgccg tcgaggcggc 41400 ggggctcaac tttctcgacg tgatgagggc catggggatc taccctgggc ccggggacgg 41460 tccggttgcg ctgggcgccg agtgctccgg ccgaattgtc gcgatgggcg aaggtgtcga 41520 gagccttcgt atcggccagg acgtcgtggc cgtcgcgccc ttcagtttcg gcacccacgt 41580 caccatcgac gcccggatgc tcgcacctcg ccccgcggcg ctgacggccg cgcaggcagc 41640 • ·Μ ·· * · • ·

- 99 ··«· ·* ·· • · β · • * · · • * · · • · · · ·· ·· cgcgctgccc ggccggcgag gatcgcccgc gtggctgcgc gcaagtgctg cgccgcgatc caagacggac ctacagcgcc gctggcggag cttccccctc gaagctcgtg cgtcgccatc gagcgtggct cggcgcggtg tgtcacggta ggttaccgcg cgggctgctg aggggccttg cgcttcggga gttcctcgac ctggggcctg ggtcacccgc gctcgacggc gttctacccg ggcttccggt gggcgcgcgg cctctccgaa gatggggcta cctgctgtgg ctctacgggg ccacgaagtc gcgcgcggga gtgaggttac agaccgagcc cggaggcgtt gctgggcgct ccgaggccat cgctcgaccc gcatcccgcc cggagtacct ccaccggcaa gaccttgcct gccgcagcct tctcccccga gccagacctt tgctcaagcg gatcggccat agggggcgct acatcgagac gcgctgtggt ccaacctcgg cgctacatca ggatcgaggg ggacgcgctt tggaggaggc tcgtcctgtc acctggagaa gcagcgcgat cgctttcggc gcggcagcgc tgggccgaaa gggccatcga cctcgcagct tttctgcgct gcgaggttgc gtcgcattca cgcgtgctca cacctcggcg gagcagggga gccgcgacga gacgcgagcc atctatgcag gtcgatcttg gtggtggacc tcgcgggccg ctcgcgctgg cgcgcggacg ggatggctgg agcgcggagc gcgagggcag tcggggatgc atgcagcaaa cacctgcatg gcagggctct gcactggcac ttcgcggacg gggacgcgga gatcgcaccc gcggcggcat cggctcgccg gcagggatgc agcaagctcg gagctgcgca acctacccca aatggggaat gcttcgctcg sagaggtgat tctggccctt gatcgccatc ctgggagctg cgtaggtgtc cgacggcttc gcagcatcgc caggtccctc ccacgccgcc catgctcagc gaccgtcgat gcgcgctcga cacgatgcga cgacgcgtcg attgagcgac caatcaggac cttgcgcgag ccacggggcg ggggccggcg ccacctggag cgagcgcatc gaccgcgctc cgcgggagtg gccggcggtg ggcgaagagc gcacgtcgag ggagcaccgg cgcagcgcag gccgaaggtg gctcatggcc ggcggaagcg cgggcgcatc gtggcggtcg ggcggcgcac tgacggcctg gtacggtctc gtccatctgg ggaggctccg 41700 tccactcggc gacggggggc accgggctcg ctgctgtgca 41760 cggagatatt tgcgaccgct ggtacaccgg agaagcgggc 41820 tcgcgcacgt gatggactcg cggtcgctgg acttcgccga 41880 agggcgaggg ggtcgacgtc gtgttgaact cgctgtctgg 41940 tttcgaccct cgtgccggac ggccgcttca tcgagctcgg 42000 atcgctcgct ggggctcgct cactccagga agagcctgtc 42060 cgggcttagc cgtgcgtcgg cccgagcgcg tcgcagcgct 42120 tgctcgcacg gggagcgctg cagccgcttc cggtagagat 42180 cggacgcgtt ccggaaaatg gcgcaagcgc agcatctcgg 42240 aggacccaga cgtgcggatc cgcgttccgg gcgaatccgg 42300 gcgcctacct cgtgaccggc ggtctggggg ggctcggtct 42360 ccgagcaggg ggctgggcat ctggtgctgg tgggccgctc 42420 agcagaccgc tgtcgccgcg ctcgaggcgc acggcgcgcg 42480 acgtcgccga tcgggcgcag atggagcgga tcctccgcga 42540 cgctccgcgg cgtcgttcat gcggccggaa tcctggacga 42600 cccccgcgcg gttccgcgcg gtcatggcgc ccaaggtccg 42660 cgttgacacg cgaagcgccg ctctcctcct tcgtgctgta 42720 tgggctcgcc gggccagggc aactacgccg cggccaacac 42780 accaccggag ggcgcagggg ctgccagcat tgagcatcga 42840 tgggtttggc cgccgggcag caaaatcgcg gcgcacggct 42900 gcctcacccc cgacgaaggg ctgtgggcgc tcgagcgcct 42960 aggccggggt catgccgttc gacgtgcggc agtgggtgga 43020 cttcgcggag gttgtcgcgg ctcatgacgg cacggcgcgt 43080 gggatcggga cctgctcgaa cggctcgcca ccgccgaggc 43140 tgcaggaggt cgtgcgcgcg caggtctcgc aggtgctgcg 43200 acgtggatgc gccgctcacg agcctgggaa tggactcgct 43260 accgcatcga ggccgtgctc ggcatcacca tgccggcgac 43320 cggcggcagc gctgagtgcg catctggctt ctcatgtcgt 43330 ccgcgcgccc gccggataca gggagcgcgg ccccaacgac 43440 acaaagacgg gttgttcgcg ttgattgatg agtcactcgc 43500 tgcgtgacag accgagaagg ccagctcctg cagcgcttgc 43560 cgcaagacgc tgaacgagcg cgataccctg gagctcgaga 43620 gtggggatcg gctgccgctt ccccggcgga gcgggcactc 43680 ctcgacgacg ggcgcgacgc gatccggccg ctcgaggagc 43740 gacccaggcg acgacgtacc gcgctgggcg gggctgctca 43300 gacgccgcgt tcttcggtat cgccccccgg gaggcacggt 43860 ctgctgctgg aggtcgcctg ggaggggttc gaagacgccg 43920 gtcgggagcc gcaccggcgt gttcgtcggc gtctgcgcca 43980 gtcgcgcacc agccgcgcga agagcgggac gcgtacagca 44040 atcgccgccg gacggctatc gtacacgctg gggctgcagg 44100 acggcgcgct cgtcatcgct ggtggccatt cacctcgcct 44160 gagagcgacc tcgcgctggc gggaggggtc aacatgcttc 44220 gctctggcgc gcacccaggc gctgccgccc aatggccgtt 44280 gccaacgggt tcgtccgtgg ggagggctgc ggtctgatcg 44340 gcgcggcggg atggggaccg gatctgggcg ctgatccgag 44400 ggccggtcga cggggttgac ggcgcccaac gtgctcgccc 44460 gcgctgcgga acgccggcgt cgaggccgag gccatcggtt 44520 gcaacctcgc tgggcgaccc catcgagatc gaagcgctgc 44580 cgagccgacg gagcgcgctg cgtgctgggc gcggtgaaga 44640 ggcgctgccg gcgtggcggg cctgatčaag gcgacgcttt 44700 ccgaggaacc tcaactttcg tacgctcaat ccgcggatcc 44760 gcgttggcga ccgaaccggt gccctggccg cggacgggcc 44820 agctcgttcg ggatgagcgg gaccaacgcg catgtggtgt 44880 gagcctgagg ccgcggcccc cgagcgcgca gcggagctgt 44940 gcggcggcgc tggatgcgca ggcagcccgg ctgcgggacc 45000 cttggcctcg gcgatgtggc gttcagcctg gcgacgacgc 45060 ctggcggtgg ccgcgagctc gcgcgaggcg ctgcgagggg 45120 gggcacacgc cgccgggagc cgtgcgtggg cgggcctcgg 45180 gtcttcgtgt ttcccggtca gggctcgcag tgggtgggca 45240 gaagagccgg tcttccgggc ggcgctggag ggttgcgacc 45300 ggctggtcgc tgctcgggga gctctccgcc gacgaggccg 45360 gacgtggttc agccggtgct cttcgccatg gaagtagcgc 45420 tggggagtgg agccggaagc ggtggtgggc cacagcatgg 45480 gtggccggcg cgctgtcgct cgaggacgcg gtggcgatca 45540

00 tctgccggcg agctgtcgct cggtgagcaa tgctggcggc gccatagccc ggccgcgagc cggagctcgg cggcgcaagc tcctggtgcc gctcgctgcg gggcgtccgg cgctgccgac gccgcctcgc tgccccgcgc ggggtggggt tgcttcatgc gccgaaacga gggcatcggc tggttcgatt catgcacggt cgcgcgtcgc agaagagccc atcaactggc agggcgacgt tgggtggcct tgctcaccag aggcccgcgc tggcagcggt ccccgttgcg cggacgagac accggctgct

Ugtggggtgg cgcaccatcg agggaggcat tggccacggg gttcggtcac gcaacttgct cggcaaaccg tcgttcgcgg gccgaggctt ttcagcgcga agcggctggt ggcacatccg tcccaggtgg tcagcaccga aggttccggg atgcggcgtt tgttgctgga gcgagagcgc agggcctcga ccgctggacg cctgctcgtc gcgaccaggc cgtcgcgcat acggctttgc agcgcgaccg cgagcagcgg tggcgcaagc cagcgctggg ccgcggagcg cggcgggctt čtcaaccgga ttgtccgcag ctttcggcct ctgtggccgc cagccggctg ggaggaggcc cagcccgcgc gctgacggcc gcaggtcgac ggctgcggtg tgcgagctac gctgctggag gcccctggac gcgagggcag ctatccggtg ctatccctgg cgcagccgac cgccccgaaa cggtgaggcg gtcggctgac ctggcaggga cgacgaagtc cctgagcgct gggcggcgag ggcgctggag gacggagatc gttccgcagc cgcaccgata tggtctgctc ccggcacggg gcgcatcgca ggatgtcgcc cggggtggtg cctgctggag gcgcgaccgg caaaggccaa ccgcgcgcac ggttgatgca gccggccttg acggatggac ttcggctctg gatctggcgc catcgtcgcc cgccgagcag gctgggcgaa ggcgcatctc gtcggtggcg ggatgagggc ggtgccagcc ccggacctat cttcgccatt ggtgagctgg cacgggcgtg cgacgacgcg gctgtcgttc gtcgctggtg cctggccggc gcgtttgctt gcgggccgag cgaccccatc gctcacggtg gggcgtggcg tgacccgatc gccgctctgg ggccggcgtg gctcgacgag ggcggtcccc gagcgggacc ggcccccgag ctgcggcgga gaggcggcgc tcgaccgtgc aagggggtgt ccgctgcgcg ccgatgcgct tgggcggaca ggtggccccg gagatccaga gacgagcgcg agctgggctc cagcacgagc cccaccaagg tcggagacag gtcgctgcag gcctccaccg gtcctctacc agcgaagcta gcgccccatc ccagaggcct caccccgctg gagcccctgg ggtcgcaggc tcgctgtccg gtggctcggt ctgccagagc gcggtcgagg gaggccgatc cacgccgccg tcggtgctcc cctctcgacc ggcgcatacg tcgctgccgg aaggctcatg tcggcgctgg tgggcgcgct gtcgcggagg ggcctgtccg cgggtgctgg gggctcgact cggctgtcgg ctcaccgacg gcggatgacg ctggagacat gaccggtggc gtggccaagg tcccctcgtg gaggcgatcg ttcgtgggca gcgttgctgt ttcctgggtc gcgttgcacc gggtccagcg tcgccagatg ggctgcgccg ctggcggtgg cccagcggtc ccggccgagg gaggtgcagg ctgggcgctg ctcaaggtgc ctcaacccgc tggccgcgcg aacgcgcatg cgcgcagcgg tcagcggtca tgcgtggcca tcgccggcga tctggcggca aagagctgat cgacggtgac accttcggca cgctgttcat cggcggccga cgacgctgct ggctgttccc ggtgctggat actggttcta ctcatgggag cgctgtcgac tcgccgagca tgtggggcct cccgccgtgc ctcctcgctt ctctttgcca cctggggtgg tggccgagct acgcagcacg cggaggggag ggctggtgga gacaggcgtc ggctggaagc ccatgacggc gcgtcttccc gtcccaaggt tgttcgtgct ccgcggccaa cgttgagcct cacgtctgag agcgcctggt tcgcgccggt acgagcgcgc ttgcggagag gcttctccga ccctgatggc cgactctggc tgctgaagct acatcgccat actggcggca gcgcggcgga gtgccttcct aggcgatgag agcgcgctgg tgatcgggag acggcaccac tgcacggccc tcgcctgcca tgcttttgtc ggcggtgcaa tggtggtgct tcaggagcac ctgcccagca tcgatttcgt cgctgggcgc tcaaggccaa tcttggcgct acatcccgtg gcgcgcgccc tggtgttgga agctgttcgt gggggagatg tgagggtcgg gccggcggcg ggtgaaggtg cgcggcgctg gggcggggtg gccggtgcgc cgagatgagc gcaagggggc ggaggcgctg cgcgggcggc cgaggtcgag ccgaacggac ctggctgctg gcgcggactt ggtatccgaa cgacgccgtc caccgcaccc ctgggtggtg agcggcgttg cctcgtggac gctttcgccg ccttgtagcc ctacctggtg gcggagagct gggcggagag acagggcgcg gctgctggcc cgtgcgtcac ggccgggagc gctctcgtcg tgcgttcctc cgcctggggc cgacatcggg gaacaccagc ctatgccgcg tacgtctccc ccgctcagcc cccgggcgcg tctggagatc cttcgaccac ggaggaccgg cgtcggtgcc tctggccaag ctggtacgac ccgcgatgtg cctggacccg ccaggacccg cgagcacgcc cggcaacctg gacgatgacg gagcctgcga gccgcggtca gacgttctcg caagcggctc ggcgatcaac ggcgttgcta ggagtgccac ggtgtacggg cctcggccac ggagcacgag ggcagagctg gcgtcgtgca ggaggcgccg cctgtcggcg gcgctggtcg ctgagcgtgg ctctcggagg gacgtcgcca ggagcgaccc atcgcgggtc ttcgctgcgg ccgcacccga gctgcggtgg gggacgctgt aggcgggttc cctgacgccc tggcccgagg ttggccgaca tcctgcaccg gctgccagtc gtcgatgctg gtccttgggc acccgcgggg tggggcctcg ctggatcctc gacgccgagg gccccgccgg acgggcgggc cgacatctgg cagccgccgg cgggtgaccg gccatcgagc ctggcggaga tggctgctgc ggcgcagcgg gacgggctcg ttatgggccg gtcctgccca gctgtccagc cgagggcggc ccggtgccga ctctacgagc ctcgacgtcg cgtaaccgcc ccgacggtgg agcgacaccc gcctgccggt ggcatggtgg cccgatccgg cgcagcttgg caacagcggc atggcgctgc gagcgggtgc ctcagcgtcg gtggacaccg ttgggcgagt ttcgtcgcgg gccgctgcag cgtgacgcgc cacgatggcc cgccaggcgc gggacgggga cggggccgcc ctggaggccg cagattccgg ccagtggccg ggcgtgagcg gcggtggagc aagagcgcgg

45600 45660 45720 45780 45340 45900 45960 46020 46080 46140 46200 46260 46320 46380 46440 46500 46560 46620 46680 46740 46300 4 68 60 46920 46980 47040 47100 47160 47220 47280 47340 47400 47460 47520 47580 47640 47700 47760 47820 47880 47940 48000 48060 48120 48180 48240 48300 48360 48420 48480 48540 48600 48660 48720 48780 48840 48900 48960 49020 49080 49140 49200 49260 49320 49380 49440

- 101 cggcgctgga tgcgcaggca gcccggctgc gggaccacct ggagaagcat gtcgagcttg 49500 gcctcggcga tgtggcgttc agcctggcga cgacgcgcag cgcgatggag caccggctgg 49560 cggtggccgc gagctcgcgc gaggcgctgc gaggggcgct ttcggccgca gcgcaggggc 49620 acacgccgcc gggagccgtg cgtgggcggg cctcgggcgg cagcgcgccg aaggtggtct 49630 tcgtgtttcc cggccagggc tcgcagtggg tgggcatggg ccgaaagctc atggccgaag 49740 agccggtctt ccgggcggcg ctggagggtt gcgaccgggc catcgaggcg gaagcgggcc 49800 ggtcgctgct cggggagctc tccgccgacg aggccgcctc gcagctcggg cgcatcgacg 49860 tggttcagcc ggtgctgttc gccatggaag tagcgctttc tgcgctgtgg cggtcgtggg 49920 gagtggagcc ggaagcggtg gtgggccaca gcatgggcga ggttgcggcg gcgcacgtgg 49930 ccggcgcgct gtcgctcgag gacgcggtgg cgatcatctg ccggcgcagc cggctgctgc 50040 ggcggatcag cggtcagggg gagatggcgc tggtcgagct gtcgctggag gaggccgagg 50100 cggcgctgcg tggccatgag ggtcggctga gcgtggcggt gagcaacagc ccgcgctcga 50160 ccgtgctcgc cggcgagccg gcggcgctct cggaggtgct ggcggcgctg acggccaagg 50220 gggtgttctg gcggcaggtg aaggtggacg tcgccagcca tagcccgcag gtcgacccgc 50280 tgcgcgaaga gctgatcgcg gcgctgggag cgatccggcc gcgagcggct gcggtgccga 50340 tgcgctcgac ggtgacgggc ggggtgatcg cgggtccgga gctcggtgcg agctactggg 50400 cggacaacct tcggcagccg gtgcgcttcg ctgcggcggc gcaagcgctg ctggagggtg 50460 gccccgcgct gttcatcgag atgagcccgc acccgatcct ggtgccgccc ctggacgaga 50520 tccagacggc ggccgagcaa gggggcgctg cgatgggctc gctgcggcga gggcaggacg 50580 agcgcgcgac gctgctggag gcgctgggga cgctgtgggc gtccggctat ccggtgagct 50640 gggctcggct gttccccgcg ggcggcaggc gggttccgct gccgacctat ccctggcagc 50700 acgagcggta ctggatcgag gacagcgtgc atgggtcgaa gccctcgctg cggcttcggc 50760 agcttcgcaa cggcgccacg gaccatccgc tgctcggggc tccattgctc gtctcggcgc 50820 gacccggagc tcacttgtgg gagcaagcgc tgagcgacga gaggctatcc tacctttcgg 50880 aacatagggt ccatggcgaa gccgtgttgc ccagcgcggc gtatgtagag atggcgctcg 50940 ccgccggcgt agatctctat ggcacggcga cgctggtgct ggagcagctg gcgctcgagc 51000 gagccctcgc cgtgccctcc gaaggcggac gcatcgtgca agtggccctc agcgaagaag 51060 gtcccggtcg ggcctcattc caggtatcga gtcgtgagga ggcaggtagg agctgggtgc 51120 ggcacgccac ggggcacgtg tgtagcggcc agagctcagc ggtgggagcg ttgaaggaag 51180 ctccgtggga gattcaacgg cgatgtccga gcgtcctgtc gtcggaggcg ctctatccgc 51240 tgctcaacga gcacgccctC gactatggtc cctgcttcca gggcgcggag caggtgtggc 51300 tcggcacggg ggaggtgctc ggccgggtac gcttgccagg agacatggca tcctcaagtg 51360 gcgcctaccg gattcatccc gccttgttgg atgcatgttt tcaggtgctg acagcgctgc 51420 tcaecacgcc ggaatccatc gagattcgga ggcggctgac ggatctccac gaaccggatc 51480 tcccgcggtc cagggctccg gtgaatcaag cggtgagtga cacctggctg tgggacgccg 51540 cgctggacgg tggacggcgc cagagcgcga gcgtgcccgt cgacctggtg ctcggcagct 51600 tccatgcgaa gtgggaggtc atggagcgcc tcgcgcaggc gtacatcatc ggcactctcc 51660 gcatatggaa cgtcttctgc gctgctggag agcgtcacac gatagacgag ttgctcgtca 51720 ggcttcaaat ctctgtcgtc tacaggaagg tcatcaagcg atggatggaa caccttgtcg 51780 cgatcggcat ccttgtaggg gacggagagc attttgtgag ctctcagccg ctgccggagc 51340 ctgatttggc ggcggtgctc gaggaggccg ggagggtgtt cgccgacctc ccagtcctat 51900 ttgagtggtg caagtttgcc ggggaacggc tcgcggacgt attgaccggt aagacgctcg 51960 cgctcgagat cctcttccct ggtggctcgt tcgatatggc ggagcgaatc tatcgagatt 52020 cgcccatcgc ccgttactcg aacggcatcg tgcgcggtgt cgtcgagtcg gcggcgcggg 52080 tggtagcacc gtcgggaatg ttcagcatct tggagatcgg agcagggacg ggcgcgacca 52140 ccgccgccgt cctcccggtg ttgctgcctg accggacgga gtaccatttc accgatgttt 52200 ctccgctctt ccttgctcgc gcggagcaaa gatttcgaga ttatccattc ctgaagtatg 52260 gcattctgga tgtcgaccag gagccagctg gccagggata cgcacatcag aggtttgacg 52320 tcatcgtcgc ggccaatgtc atccatgcga cccgcgatat aagagccacg gcgaagcgtc 52380 tcctgtcgtt gctcgcgccc ggaggccttc tggtgctggt cgagggcaca gggcatccga 52440 tctggttcga tatcaccacg ggattgattg aggggtggca gaagtacgaa gatgatcttc 52500 gtatcgacca tccgctcctg cctgctcgga cctggtgtga cgtcctgcgc cgggtaggct 52560 ttgcggacgc cgtgagtctg ccaggcgacg gatctccggc ggggatcctc ggacagcacg 52620 tgatcctctc gcgcgcgccg ggcatagcag gagccgcttg tgacagctcc ggtgagtcgg 52680 cgaccgaatc gccggccgcg cgtgcagtac ggcaggaatg ggccgatggc tccgctgacg 52740 tcgtccatcg gatggcgttg gagaggatgt acttccaccg ccggccgggc cggcaggttt 52800 gggtccacgg tcgattgcgt accggtggag gcgcgttcac gaaggcgctc gctggagatc 52860 tgctcctgtt cgaagacacc gggcaggtcg tggcagaggt tcaggggctc cgcctgccgc 52920 agctcgaggc ttctgctttc gcgccgcggg acccgcggga agagtggttg tacgctttgg 52980 aatggcagcg caaagaccct ataccagagg ctccggcagc cgcgtcttct tcctccgcgg 53040 gggcttggct cgtgctgatg gaccagggcg ggacaggcgc tgcgctcgta tcgctgctgg 53100 aagggcgagg cgaggcgtgc gtgcgcgtca tcgcgggtac ggcatacgcc tgcctcgcgc 53160 cggggctgta tcaagtcgat ccggcgcagc cagatggctt tcataccctg ctccgcgatg 53220 cattcggcga ggaccggatt tgtcgcgcgg tagtgcatat gtggagcctt gatgcgacgg 53280 cagcagggga gagggcgaca gcggagtcgc ttcaggccga tcaactcctg gggagcctga 53340

- 102 gcgcgctttc tctggtgcag gcgctggtgc gccggaggtg gcgcaacatg ccgcggcttt 53400 ggctcttgac ccgcgccgtg catgcggtgg gcgcggagga cgcagcggcc tcggtggcgc 53450 aggcgccggt gtggggcctc ggtcggacgc tcgcgctcga gcatccagag ctgcggtgca 53520 cgctcgtgga cgtgaacccg gcgccgtctc cagaggacgc agccgcactg gcggtggagc 535.80 tcggggcgag cgacagagag gaccaggtcg cattgcgctc ggatggccgc tacgtggcgc 53640 gcctcgtgcg gagctccttt tccggcaagc ctgctacgga ttgcggcatc cgggcggacg 53700 gcagctatgt gatcaccgat ggcatgggga gagtggggct ctcggtcgcg caatggatgg 53760 tgatgcaggg ggcccgccat gtggtgctcg tggatcgcgg cggcgcttcc gaggcatccc 53820 gggatgccct ccggtccatg gccgaggctg gcgcggaggt gcagatcgtg gaggccgacg 53880 tggctcggcg cgacgatgtc gctcggctcc tctcgaagat cgaaccgtcg atgccgccgc 53940 ttcgggggat cgtgtacgtg gacgggacct tccagggcga ctcctcgatg ctggagctgg 54000 atgcccgtcg cttcaaggag tggatgtatc ccaaggtgct cggagcgtgg aacctgcacg 54060 cgctgaccag ggatagatcg ctggacttct tcgtcctgta ttcctcgggc acctcgcttc 54120 tgggcttgcc aggacagggg agccgcgccg ccggtgacgc cttcttggac gccatcgcgc 54180 atcaccggtg caaggtgggc cttacagcga tgagcatcaa ctggggattg ctctccgaag 54240 catcatcgcc ggcgaccccg aacgacggcg gagcacggct cgaataccgg gggatggaag 54300 gcctcacgct ggagcaggga gcggcggcgc tcgggcgctt gctcgcacga cccagggcgc 54360 aggtaggggt gatgcggctg aatctgcgcc agtggttgga gttctatccc aacgcggccc 54420 gattggcgct gtgggcggag ctgctgaagg agcgtgaccg cgccgaccga ggcgcgtcga 54480 acgcgtcgaa cctgcgcgag gcgctgcaga gcgccaggcc cgaagatcgt cagttgattc 54540 tggagaagca cttgagcgag ctgttggggc gggagctgcg ccttccgccg gagaggatcg 54600 agcggcacgt gccgttcagc aatctcggca tggactcgct gataggcctg gagctccgca 54660 accgcatcga ggccgcgctc ggcatcaccg tgccggcgac cctgctatgg acctacccta 54720 acgtagcagc tctgagcggg agcttgctag acattctgtt tccgaatgcc ggcgcgaccc 54780 acgctccggc caccgagcgg gagaagagct tcgagaacga tgccgcagat ctcgaggccc 54840 tgcggggcat gacggacgag cagaaggacg cgttgctcgc cgaaaagctg gcgcagctcg 54900 cgcagatcgt tggtgagtaa gggaccgagg gagtatggcg accacgaatg ccgggaagct 54960 tgagcatgcc cttctgctca tggacaagct tgcgaaaaag aacgcgtctt tggagcaaga 55020 gcggaccgag ccgatcgcca tcgtaggcat tggctgccgc ttccccggcg gagcggacac 55080 tccggaggca ttctgggagc tgctcgactc aggccgagac gcggtccagc cgctcgaccg 55140 gcgctgggcg ctggtcggcg tccatcccag cgaggaggtg ccgcgctggg ccggactgct 55200 caccgaggcg gtggacggct tcgacgccgc gttctttggc acctcgcctc gggacgcgcg 55260 gtcgctcgat cctcagcaac gcctgctgct ggaggtcacc tgggaagggc tcgaggacgc 55320 cggcatcgca ccccagtccc'tcgacggcag ccgcaccggg gtgttcctgg gcgcatgcag 55380 cagcgactac tcgcataccg ttgcgcaaca gcggcgcgag gagcaggacg catacgacat 55440 caccggcaat acgctcagcg tcgccgccgg acggttgtct tatacgctag ggctgcaggg 55500 accctgcctg accgtcgaca cggcctgctc gtcgtcgctc gtggccatcc accttgcctg 55560 ccgcagcctg cgcgctcgcg agagcgatct cgcgctggcg ggaggcgtca acatgctcct 55620 ttcgtccaag acgatgataa tgctggggcg catccaggcg ctgtcgcccg atggccactg 55630 ccggacattc gacgcctcgg ccaacgggtt cgtccgtggg gagggctgcg gtatggtcgt 55740 gctcaaacgg ctctccgacg cccagcgaca cggcgatcgg atctgggctc tgatccgggg 55800 ttcggccatg aatcaggatg gccggtcgac agggttgatg gcacccaaúg tgctcgctca 55360 ggaggcgctc ttgcgcgagg cgctgcagag cgctcgcgtc gacgccgggg ccatcggtta 55920 tgtcgagacc cacggaacgg ggacctcgct cggcgacccg atcgaggtcg aggcgctgcg 55980 tgccgtgttg gggccggcgc gggccgatgg gagccgctgc gtgctgggcg cagtgaagac 56040 aaacctcggc cacctggagg gcgctgcagg cgtggcgggt ttgatcaagg cggcgctggc 56100 tctgcaccac gaactgatcc cgcgaaacct ccatttccac acgctcaatc cgcggatccg 56160 gatcgagggg accgcgctcg cgctggcgac ggagccggtg ccgtggccgc gggcgggccg 56220 accgcgcttc gcgggggtga gcgcgttcgg cctcagcggc accaacgtcc atgtcgtgct 56280 ggaggaggcg ccggccacgg tgctcgcacc ggcgacgccg gggcgctcag cggagctttt 56340 ggtgctgtcg gcgaagagcg ccgccgcgct ggacgcacag gcggcgcggc tctcagcgca 56400 catcgccgcg tacccggagc agggtctcgg agacgtcgcg ttcagcctgg tatcgacgcg 56460 tagcccgatg gagcaccggc tcgcggtggc ggcgacctcg cgcgaggcgc tgcgaagcgc 56520 gctggaggtt gcggcgcagg ggcagacccc ggcaggcgcg gcgcgcggca gggccgcttc 56580 ctcgcccggc aagctcgcct tcctgttcgc cgggcagggc gcgcaggtgc cgggcatggg 56640 ccgtgggttg tgggaggcgt ggccggcgtt ccgcgagacc ttcgaccggt gcgtcacgct 56700 cttcgaccgg gagctccatc agccgctctg cgaggtgatg tgggccgagc cgggcagcag 56760 caggtcgtcg ttgctggacc agacggcgtt cacccagccg gcgctctttg cgctggagta 56320 cgcgctggcc gcgctcttcc ggtcgtgggg cgtggagccg gagctcgtcg ctggccatag 56880 cctcggcgag ctggtggccg cctgcgtggc gggtgtgttc tccctcgagg acgccgtgcg 56940 cttggtggtc gcgcgcggcc ggttgatgca ggcgctgccg gccggcggcg cgatggtatc 57000 gatcgccgcg ccggaggccg acgtggctgc cgcggtggcg ccgcacgcag cgttggtgtc 57060 gatcgcggca gtcaatgggc cggagcaggt ggtgatcgcg ggcgccgaga aattcgtgca 57120 gcagatcgcg gcggcgttcg cggcgcgggg ggcgcgaacc aaaccgctgc atgtctcgca 57180 cgcgttccac tcgccgctca tggatccgat gctggaggcg ttccggcggg tgactgagtc 57240 • · • · • · · · ·» • · · · · • · · · · · • · « · · · ·

- 103 ggtgacgtac cgatgaggtg ggacggagtg gccgacgctg agcgtcgcgc ggtcgtcggt gctgccaacc ggcggacggc cgtgtcgacc gtggctcggc gatggcgctg ggtgctcatc gaccgaggag tcgcgcgccc cccggcgagg ggctatctat cgccgagctg cggctccgcg tgttggcgcg ggtgcggctg tggtcaacag ggtggtcgcc cgacgcagac gatcacagcc ctcggcgctg tgcaggaatg gcacctcagc gctcgacgcg tggttgcgac gccgcggctg ggtgcaagcg ctgtatcagc cgagctactt tgcgcggctc tgacaggccg agccacgggg gctcgactcc agaaatcgag gggcgtgaac tacccatgtc cgaggcggcc ccacctgcag cgcggtgcga gaaccgtgcc gttcgtcaca gctttcgggc gaagctgggc gaatctttcc ccgtgcgctc gtcggggttg tcgcgcagcc cacgctggac cgcggacggc atggctggcc cgcagagcag gaaagcggac ggggatgccg gcagcagact cttgcacacg tgggctcttc cctttcgcat cacggaggtg gatgcggggc tcgcgtgcag aacagcggcc cggcggcctt agcgcgccgg aaggcgctgc ctcggccttg gccgggcgtg ggatcggtca tatccctggc accggccgtg catgccggtc gagcaccggg tcgtcggggg gagacgctga cgaccgggac ttccggatcc tcgaacctcg ggtgcgctcg tggcggggtg acagcctacc ttcgccgatc ttccagcggt gcctccagcc gagatctccc gactggttcc ggccggtggc aaggccgccg cgcgcgctcc agcctcgacg ccccggagcc agcgtgctct tggctcttga ccgctgttgg gtcgacctcg gcagatgatg gtccaccggc ttccggctag cggcgcgctc atcgacatcc ccgttggtgc ggccttgtgg accacgtcgg gcgatgcccc gcgggggagc tgggcgcagc tacctggagt gacgtgcatg gagcgcatcg aggcgcgacg ttctcgcagg ctcgacgagc cgcgttggcg gaggcattcc gacccggagg acctaccttg gagcggggcg cgagccgccg gtcgccgatc ctgcggggtg ccggcgcggt ctgacacgcg ggctcgccag caccgaaggg gggatggccg atcacccccg acgggggtga tcacggaggt cgatcgcgct gttactgggt acgcggccgg tgccggcctg acgaggctgc cctggtcggg agcgcgagcg ctcgggcggg tgcgcctgtg cgcaggggga ccgagatctt ccttcgcggg ggctgcggtt acgcccgcgg ccgccctgcg ccgagatggg agggcgaggc agctgcatcc gcgatgaggc ctcctgggga ggtggagcgc ggctggtggt tggagctgga tgctgctcgg gccatgtcgc tggccaacgc ggggcggcca cagatgtcga ccctggtgca cccgcggagc ggctgggccg atccagccga ccgaggagga tgcccgacgc agatcgatga ctggtccggg agctggcgtt tcggaagcga tggaccagcc ccacgctggt tcgcgtattt gggtgctgat gcgtgggcgc cgctgggcgt catggacgga acaagagcct actgcgccga tggacttgcg tgttcgggtt gatccctcac ggaggatggc tgcggatccg tgaccggcgg cggggcaact tggcggcgct ggtcacagat tcgtgcatgc tccgcacggt aagcgcctct gccagggcaa cgcagggcct ttgcgcaaga atgagggtct taccgatcac tgtcgcggct ggtgagcaac gcgtcacgcg tgcgggcctc cctgccggat gagcgcgcta tgtcttccct ttactggatc gggccacccc ggagacgacg ggtcgtgttt gggcgatgga cgatacggcg ccaggtagcg cgtgctgcgc cgcccggctt gcttcaatac gctgggcagg ggtgctgctg gacgccgtgg gctatggtgc cgactttgag ggagcggctt ttgggagccc cgagggtggt cgtccacgcc gttcgacggc gctcggcccg tgccgatgcc agcgctggtc tcaggcggcc caccatcgcc gcctgaaggg ggtcgcgctg tcagcgccgg acccggcgcg cgaggtcgag gggcgttgct gtgcgccggg ggtgatcgcc gttgcctcgg gacggcctgg ccatgcggag cgaggtgtat gcggtacgtg cggcgagggt catggtcctg cacgcagcct gggaatgatg ggtcgcagcc gccaccgccg gcaaggacag cgctccggcc tctgggtggc ggtgctggtg ggaggcccac cgagcgggtc ggcaggtctc gatgggacct ttccttcttc ctatgccgca gccggcgctg aaaccgtggc gtcagctctg tccgcggcag ggtgaccacg ctgagcggga cgagaggcgg ttcgtcgagg gccaggccgg gaggcgctgg tcgggcggac gaagcgccgg cttctgggtg ctggaccgaa cctggcgccg ccgatccagg gtaccggtcc agtcgggagc cggatcgggc catgccgccg ggcccggcgt gtgagactgc gacgcgtgcg gcgccggtgg catgcgcgcg ttgatggacg gcgagcggtg gcggcgctcg gggctcgggc gcgggggacg caggccccga gggctcgggg ctcgaatcgg ggcatggacc gccgccggcg ttggagcacg gaagccgatg cgcggtggcg gagaaggtcg ctggaccaac atctccgtcg cccaatgatc cgcatcgtcg cttgcggcgg cctctggggc tacgccctcg gccggtggtg gcgaccgccg agcgattccc gtggacgtcg cgcgcctgtg gggctgccgc ctcgatcaac ggtgccatca gtcgagacct catctcggga gaatccagcg ctcggtctgc ggccgctccg ggcgcgcgcg ctccgcgagg gtggatgacg aaggtccagg gtgctgtacg gccaacgcgt agcatcgact gcgcggcaga gcgcgcttgc tgggtggagt cagcgcgcgg agccctgcac tgcgcttcgc tggggccgaa tgctgctccc gtgggttctg ggcgggtacc tcgatcgtga aagtcttttc agcggctgcc ggtacctgga tcacggatgt aggtggtgac cgggggaacg gcgtcgagac tgcccgctgc tgcgggggct ctgaggccgc tccaaatgat aggtgggctc tcgtgagcca gtacgggcgc tacgccagcg gtgggcccaa gctcgttgtg acacgagcac cggccgtggt cgcagggcgc cgctgatgcg tccgaaacgc atgtctccgt ccgagctgcg ctttgctggc accggctcgt agcccgccgg tggtgctccg aagcggcggg tgcctggaga ctgtgggcga gagtatttgc tctcggcgac acaaggtcgc tcggtctttg acacgcccga gctcgggccg tgctcgactc gtcgccttgt cgctcctacg cggcgaggat gcccactggg tcccgatctc agctcgtgct tcgccgtccg gcgtggccgg gtgcggcgag tcacggtggc ttaccgcgtc ggctgctgat gggccttgca cttctgcagc tcctcgacgc ggggcatgtt tctctcgcgg tcgagggtga tctacccggc tcgctgatcg

57300

57360

57420

57480

57540

57600

57660

57720

57780

57340

57900

57960

58020

58080

58140

58200

58260

58320

53380

58440

58500

53560

58620

58680

58740

53800

58860

53920

58980

59040

59100

59160

59220

59280

59340

59400

59460

59520

59580

59640

59700

59760

59820

59880

59940

60000

60060

60120

60180

60240

60300

60360

60420

60480

60540

60600

60660

60720

60780

60840

60900

60960

61020

61080

61140

- 104 gaccgccggg gatcgggacc tgctcgaaca gcttgcgtcg gctgagccga gcgcgcgggc 61200 ggggctgctg caggacgtcg tgcgcgtgca ggtctcgcat gtgctgcgtc tccctgaaga 61260 caagatcgag gtggatgccc cgctctcgag catgggcatg gactcgctga tgagcctgga 61320 gctgcgcaac cgcatcgagg ctgcgctggg cgtcgccgcg cctgcagcct tggggtggac 61380 gtacccaacg gtagcagcga taacgcgctg gctgctcgac gacgccctcg tcgtccggct 61440 tggcggcggg tcggacacgg acgaatcgac ggcgagcgcc ggttcgttcg tccacgtcct 61500 ccgctttcgt cctgtcgtca agccgcgggc tcgtctcttc tgttttcacg gttctggcgg 61560 ctcgcccgag ggcttccgtt cctggtcgga gaagtctgag tggagcgatc tggaaatcgt 61620 ggccatgtgg cacgatcgca gcctcgcctc cgaggacgcg cctggtaaga agtacgtcca 61680 agaggcggcc tcgctgattc agcactatgc agacgcaccg tttgcgttag tagggttcag 61740 cctgggtgtc cggttcgtca tggggacagc cgtggagctc gccagtcgtt ccggcgcacc 61800 ggctccgctg gccgtcttca cgttgggcgg cagcttgatc tcttcttcag agatcacccc 61360 ggagatggag accgatataa tagccaagct cttcttccga aatgccgcgg gtttcgtgcg 61920 atccacccaa caagtccagg ccgatgctcg cgcagacaag gtcatcacag acaccatggt 61980 ggctccggcc cccggggact cgaaggagcc gcccgtgaag atcgcggtcc ctatcgtcgc 62040 catcgccggc tcggacgatg tgatcgtgcc tccgagcgac gttcaggatc tacaatctcg 62100 caccacggag cgcttctata tgcatctcct tcccggagat cacgaatttc tcgtcgatcg 62160 agggcgcgag atcatgcaca tcgtcgactc gcatctcaat ccgctgctcg ccgcgaggac 62220 gacgtcgtca ggccccgcgt tcgaggcaaa atgatggcag cctccctcgg gcgcgcgaga 62280 tggttgggag cagcgtgggc gctggcggcc ggcggcaggc cgcggaggcg catgagcctt 62340 cctggacgtt tgcagtatag gagattttat gacacaggag caagcgaatc agagtgagac 62400 gaagcctgct ttcgacttca agccgttcgc gcctgggtac gcggaggacc cgttccccgc 62460 gatcgagcgc ctgagagagg caacccccat cttctactgg gatgaaggcc gctcctgggt 62520 cctcacccga taccacgacg tgtcggcggt gttccgcgac gaacgcttcg cggtcagtcg 62580 agaagagtgg gaatcgagcg cggagtactc gtcggccatt cccgagctca gcgatatgaa 62640 gaagtacgga ttgttcgggc tgccgccgga ggatcacgct caggtccgca agctcgtcaa 62700 cccgtcgttt acgtcacgcg ccatcgacct gctgcgcgcc gaaatacagc gcaccgtcga 62760 ccagctgctc gatgctcgct ccggacaaga ggagttcgac gttgtgcggg attacgcgga 62820 gggaatcccg atgcgcgcga tcagcgctct gttgaaggtt ccggccgagt gtgacgagaa 62880 gttccgtcgc ttcggctcgg cgactgcgcg cgcgctcggc gtgggtttgg tgccccaggt 62940 cgatgaggag accaagaccc tggtcgcgtc cgtcaccgag gggctcgcgc tgctccatga 63000 cgtcctcgat gagcggcgca ggaacccgct cgaaaatgac gtcttgacga tgctgcttca 63060 ggccgaggcc gacggcagca ggctgagcac gaaggagctg gtcgcgctcg tgggtgcgat 63120 tatcgctgct ggcaccgata ccacgatcta ccttatcgcg ttcgctgtgc tcaacctgct 63180 gcggtcgccc gaggcgctcg agctggtgaa ggccgagccc gggctcatga ggaacgcgct 63240 cgatgaggtg ctccgcttcg acaatatcct cagaatagga actgtgcgtt tcgccaggca 63300 ggacctggag tactgcgggg catcgatcaa gaaaggggag atggtctttc tcctgatccc 63360 gagcgccctg agagatggga ctgtattctc caggccagac gtgtttgatg tgcgacggga 63420 cacgggcgcg agcctcgcgt acggtagagg cccccatgtc tgccccgggg tgtcccttgc 63480 tcgcctcgag gcggagatcg ccgtgggcac catcttccgt aggttccccg agatgaagct 63540 gaaagaaact cccgtgtttg gataccaccc cgcgttccgg aacatcgaat cactcaacgt 63600 catcttgaag ccctccaaag ctggatagct cgcgggggta tcgcttcccg aacctcattc 63660 cctcatgata cagctcgcgc gcgggcgctg tctgccgcgg gtgcgattcg atccagcgga 63720 caagcccatt gtcagcgcgc gaagatcgaa tccacggccc ggagaagagc ccgtccgggt 63780 gacgtcggaa gaagtgccgg gcgccgccct gggagcgcaa agctcgctcg ttcgcgctca 63840 gcacgccgct cgtcatgtcc ggccctgcac ccgcgccgag gagccgcccg ccctgatgca 63900 cggcctcacc gagcggcagg ttctgctctc gctcgtcgcc ctcgcgctcg tcctcctgac 63960 cgcgcgcgcc ttcggcgagc tcgcgcggcg gctgcgccag cccgaggtgc tcggcgagct 64020 cttcggcggc gtggtgctgg gcccgtccgt cgtcggcgcg ctcgctcctg ggttccatcg 64080 agtcctcttc caggatccgg cggtcggggt cgtgctctcc ggcatctcct ggataggcgc 64140 gctcgtcctg ctgctcatgg cgggtatcga ggtcgatgtg agcatcctgc gcaaggaggc 64200 gcgccccggg gcgctctcgg cgctcggcgc gatcgcgccc ccgctgcgca cgccggggcc 64260 gctggtgcag cgcatgcagg gcgcgttcac gtgggatctc gacgtctcgc cgcgacgctc 64320 tgcgcaagcc tgagcctcgg cgcctgctcg tacacctcgc cggtgctcgc tccgcccgcg 64380 gacatccggc cgcccgccgc ggcccagctc gagccggact cgccggatga cgaggccgac 64440 gaggccgacg aggcgctccg cccgttccgc gacgcgatcg ccgcgtactc ggaggccgtt 64500 cggtgggcgg aggcggcgca gcggccgcgg ctggagagcc tcgtgcggct cgcgatcgtg 64560 cggctgggca aggcgctcga caaggtccct ttcgcgcaca cgacggccgg cgtctcccag 64620 atcgccggca gactccagaa cgatgcggtc tggttcgatg tcgccgcccg gtacgcgagc 64680 ttccgcgcgg cgacggagca cgcgctccgc gacgcggcgt cggccatgga ggcgctcgcg 64740 gccggcccgt accgcggatc gagccgcgtg tccgctgccg taggggagtt tcggggggag 64800 gcggcgcgcc ttcaccccgc ggaccgtgta cccgcgtccg accagcagat cctgaccgcg 64860 ctgcgcgcag ccgagcgggc gctcatcgcg ctctacactg cgttcgcccg tgaggagtga 64920 gcctctctcg ggcgcagccg agcggcggcg tgccggtggt tccctcttcg caaccatgac 64980 cggagccgcg ctcggtccgc gcagcggcta gcgcgcgtcg cggcagagat cgctggagcg 65040

- 105 acaggcgacg acccgcccga gggtgtcgaa cggattgccg cagccctcat tgcggatccc 65100 ctccagacac tcgttcagct gcttggcgtc gatgccgcčt gggcactcgc cgaaggtcag 65160 ctcgtcgcgc cactcggatc ggatcttgtt cgagcacgcg tccttgctcg aatactcccg 65220 gtcttgtccg atgttgttgc accgcgcctc gcggtcgcac cgcgccgcca cgatgctatc 65280 gacggcgctg ccgactggca ccggcgcctc gccctgcgcg ccacccgggg tttgcgcctc 65340 cccgcctgac cgcttttcgc cgccgcacgc cgcgagcagg ctcattcccg acaccgagat 65400 caggcccacg accagcttcc cagcaatctt ttgcatggct tcccctccct cacgacacgt 65460 cacatcagag actctccgct cggctcgtcg gttcgacagc cggcgacggc cacgagcaga 65520 accgtccccg accagaacag ccgcatgcgg gtttctcgca acatgccccg acatccttgc 65580 gactagcgtg cctccgctcg tgccgagatc ggctgtcctg tgcgacggca atatcctgcg 65640 atcggccggg caggaggtac cgacacgggc gccgggcggg aggtgccgcc acgggctcga 65700 aatgtgctgc ggcaggcgcc tccatgcccg cagccgggaa cgcggcgccc ggccagcctc 65760 ggggtgacgc cgcaaacggg agatgctccc ggagaggcgc cgggcacagc cgagcgccgt 65820 caccaccgtg cgcactcgtg agctccagct cctcggcata gaagagaccg tcactcccgg 65380 tccgtgtagg cga.tcgtgct gatcagcgcg ttctccgcct gacgcgagtc gagccgggta 65940 tgctgcacga caatgggaac gtccgattcg atcacgctgg catagtccgt atcgcgcggg 66000 atcggctcgg gttcggtcag atcgttgaac cggacgtgcc gggtgcgcct cgctgggacg 66060 gtcacccggt acggcccggc ggggtcgcgg tcgctgaagt agacggtgat ggcgacctgc 66120 gcgtcccggt ccgacgcatt caacaggcag gccgtctcat ggctcgtcat ctgcggctcg 66180 ggtccgttgc tccggcctgg gatgtagccc tctgcgattg cccagcgcgt ccgcccgatc 66240 ggcttctcca tatgtcctcc ctgctggctc ctctttggct gcctccctct gctgtccagg 66300 agcgacggcc tcttctcccg acgcgctcgg ggatccatgg ctgaggatcc tcgccgagcg 66360 ctccttgccg accggcgcgc cgagcgccga cgggctttga aagcacgcga ccggacacgt 66420 gatgccggcg cgacgaggcc gccccgcgtc tgatcccgat cgtgacatcg cgacgtccgc 66480 cggcgcctct gcaggccggc ctgagcgttg cgcggtcatg gtcgtcctcg cgtcaccgcc 66540 acccgccgat tcacatccca ccgcggcacg acgcttgctc aaaccgcggc gagacggccg 66600 ggcggctgtg gtaccggcca gcccggacgc gaggcccgag agggacagtg ggtccgccgt 66660 gaagcagtga ggcgatcgag gtggcagatg aaacacgttg acacgggccg acgagtcggc 66720 cgccggatag ggctcacgct cggtctcctc gcgagcatgg cgctcgccgg.ctgtggcggc 66780 ccgagcgaga aaatcgtgca gggcacgcgg ctcgcgcccg gcgccgatgc gcacgtcgcc 66840 gccgacgtcg accccgacgc cgcgaccacg cggctggcgg tggacgtcgt tcacctctcg 66900 ccgcccgagc gcatcgaggc cggcagcgag cggttcgtcg tctggcagcg tccgagctcc 66960 gagtccccgt ggcaacgggt cggagtgctc gactacaacg ctgccagccg aagaggcaag 67020 ctggccgaga cgaccgtgcc gcatgccaac ttcgagctgc tcatcaccgt cgagaagcag 67080 agcagccctc agtctccatc ttctgccgcc gtcatcgggc cgacgtccgt cgggtaacat 67140 cgcgctatca gcagcgctga gcccgccagc aggccccaga gccctgcctc gatcgccttc 67200 tccatcatat catccctgcg tactcctcca gcgacggccg cgtcgaagca accgccgtgc 67260 cggcgcggct ctacgtgcgc gacaggagag cgtcctggcg cggcctgcgc atcgctggaa 67320 ggatcggcgg agcatggaga aagaatcgag gatcgcgatc tacggcgcca tcgcagccaa 67380 cgtggcgatc gcggcggtca agttcatcgc cgccgccgtg accggcagct cggcgatgct 67440 ctccgagggc gtgcactccc tcgtcgatac tgcagacggg ctcctcctcc tgctcggcaa 67500 gcaccggagc gcacgcccgc ccgacgccga gcatccgttc ggccacggca aggagctcta 67560 tttctggacg ctgatcgtcg ccatcatgat cttcgccgcg ggcggcggcg tctcgatcta 67620 cgaagggatc ttgcacctct tgcacccgcg ccagatcgag gatccgacgt ggaactacgt 67680 cgtcctcggc gcagcggccg tcttcgaggg gacgtcgctc atcatctcga tccacgagtt 67740 caagaagaag gacggacagg gctacctcgc ggcgatgcgg tccagcaagg acccgacgac 67800 gttcacgatc gtcctggagg actccgcggc gctcgccggg ctcaccatcg ccttcctcgg 67860 cgtctggctc gggcaccgcc tgggaaaccc ctacctcgac ggcgcggcgt cgatcggcat 67920 cggcctcgtg ctcgccgcgg tcgcggtctt cctcgccagc cagagccgtg ggctcctcgt 67980 Sgsggagagc gcggacaggg agctcctcgc cgcgatccgc gcgctcgcca gcgcagatcc 68040 tggcgtgtcg gcggtggggc ggcccctgac gatgcacttc ggtccgcacg aagtcctggt 68100 cgtgctgcgc atcgagttcg acgccgcgct cacggcgtcc ggggtcgcgg aggcgatcga 68160 gcgcatcgag acccggatac ggagcgagcg acccgacgtg aagcacatct acgtcgaggc 68220 caggtcgctc caccagcgcg cgagggcgtg acgcgccgtg gagagaccgc gcgcggcctc 68280 cgccatcctc cgcggcgccc gggctcaggt ggccctcgca gcagggcgcg cctggcgggc 68340 aaaccgtgca gacgtcgtcc ttcgacgcga ggtacgctgg ttgcaagtcg tcacgccgta 68400 tcgcgaggtc cggcagcgcc ggagcccggg cgggccgggc gcacgaaggc gcggcgagcg 68460 caggcttcga ggggggcgac gtcatgagga aggccagggc gcatggggcg atgctcggcg 68520 ggcgagatga cggctggcgt cgcggcctcc ccggcgccgg cgcgcttcgc gccgcgctcc 68580 agcgcggtcg ctcgcgcgat ctcgcccggc gccggctcat cgcctccgtg tccctcgccg 68640 gcggcgccag catggcggtc gtctcgctgt tccagctcgg gatcatcgag cgcctgcccg 68700 atcctccgct tccagggttc gattcggcca aggtgacgag ctccgatatc 68750 <210> 2 <211> 1421 • · • · • ·

- 106 -

<212> PRT <213> Sorangium <400> 2

cellulosum

Val 1

Ala

Asp

Arg

Pro 5

Ile

Glu

Arg

Ala

Ala 10

Glu

Asp

Pro

Ile

Ala 15

Ile

Val

Gly

Ala

Ser 20

Cys

Arg

Leu

Pro

Gly 25

Gly

Val

Ile

Asp

Leu 30

Ser

Gly

Phe

Trp

Thr 35

Leu

Glu

Gly

Ser 40

Arg

Asp

Thr

Val

Gly 45

Arg

Val

Pro

Ala

Glu 50

Arg

Trp

Asp

Ala

Ala 55

Ala

Trp

Phe

Asp

Pro 60

Asp

Pro

Asp

Ala

Pro 65

Gly

Lys

Thr

Pro

Val 70

Thr

Arg

Ala

Ser

Phe 75

Leu

Ser

Asp

Val

Ala 80

Cys

Phe

Asp

Ala

Ser 85

Phe

Gly

Ile

Ser 90

Pro

Arg

Glu

Ala

Leu 95

Arg

Mec

Asp

Pro

Ala 100

His

Arg

Leu

Leu 105

Glu

Val

Cys

Trp

Glu 110

Ala

Leu

Glu

Asn

Ala 115

Ala

Ile

Ala

Pro

Ser 120

Ala

Leu

Val

Gly

Thr 125

Glu

Thr

Gly

Val

Phe 130

Ile

Gly

Ile

Gly

Pro 135

Ser

Glu

Tyr

Glu

Ala 140

Ala

Leu

Pro

Gin

Ala 145

Thr

Ala

Ser

Ala

Glu 150

Ile

Asp

Ala

His

Gly 155

Gly

Leu

Gly

Thr

Met 160

Pro

Ser

Val

Gly

Ala 165

Gly

Arg

Ile

Ser

Tyr 170

Ala

Leu

Gly

Leu

Arg 175

Gly

Pro

Cys

Val

Ala 180

Val

Asp

Thr

Ala

Tyr 185

Ser

Leu

Val 190

Ala

Val

His

Leu

Ala 195

Cys

Gin

Ser

Leu

Arg 200

Ser

Gly

Glu

Cys

Ser 205

Thr

Ala

Leu

Ala

Gly 210

Gly

Val

Ser

Leu

Mec 215

Leu

Ser

Pro

Ser

Thr 220

Leu

Val

Trp

Leu

Ser 225

Lys

Thr

Arg

Ala

Leu 230

Ala

Arg

Asp

Gly

Arg 235

Cys

Lys

Ala

Phe

Ser 240

Ala

Glu

Ala

Asp

Gly 245

Phe

Gly

Arg

Gly

Glu 250

Gly

Cys

Ala

Val

Val 255

Val

Leu

Lys

Arg

Leu 260

Ser

Gly

Ala

Arg

Ala 265

Asp

Gly

Asp

Arg

Ile 270

Leu

Ala

Val

Ile

Arg 275

Gly

Ser

Ala

Ile

Asn 280

His

Asp

Gly

Ala

Ser 285

Ser

Gly

Leu

Thr

Val 290

Pro

Asn

Gly

Ser

Ser 295

Gin

Glu

Ile

Val

Leu 300

Lys

Arg

Ala

Leu

Ala 305

Asp

Ala

Gly

Cys

Ala 310

Ala

Ser

Val

Gly 315

Tyr

Val

Glu

Ala

His 320

Gly Thr Gly Thr Thr Leu Gly Asp Pro Ile Glu Ile Gin Ala Leu Asn

- 107 325 330 335

Ala

Val

Tyr

Gly 340

Leu

Gly

Arg

Asp

Val 345

Ala

Thr

Pro

Leu

Leu 350

Ile

Gly

Ser

Val

Lys 355

Thr

Asn

Leu

Gly

His 360

Pro

Glu

Tyr

Ala

Ser 365

Gly

Ile

Thr

Gly

Leu 370

Leu

Lys

Val

Leu 375

Ser

Leu

Gin

His

Gly 380

Gin

Ile

Pro

Ala

His 385

Leu

His

Ala

Gin

Ala 390

Leu

Asn

Pro

Arg

Ile 395

Ser

Trp

Gly

Asp

Leu 400

Arg

Leu

Thr

Val

Thr 405

Arg

Ala

Arg

Thr

Pro 410

Trp

Pro

Asp

Trp

Asn 415

Thr

Pro

Arg

Ala 420

Gly

Val

Ser

Phe 425

Gly

Met

Ser

Gly

Thr 430

Asn

Ala

His

Val

Val 435

Leu

Glu

Ala

Pro 440

Ala

Thr

Cys

Thr 445

Pro

Ala

Pro

Glu 450

Arg

Pro

Ala

Glu

Leu 455

Leu

Val

Leu

Ser

Ala 460

Arg

Thr

Ala

Ser

Ala 465

Leu

Asp

Ala

Gin

Ala 470

Ala

Arg

Leu

Arg

Asd 475

His

Leu

Glu

Thr

Tyr 480

Pro

Ser

Gin

Cys

Leu 485

Gly

Asp

Val

Ala

Phe 490

Ser

Leu

Ala

Thr

Thr 495

Arg

Ser

Ala

Met

Glu 500

His

Arg

Leu

Ala

Val 505

Al a

Ala

Thr

Ser

Arg 510

Glu

Gly

Leu

Arg

Ala 515

Ala

Leu

Asp

Ala

Ala 520

Ala

Gin

Gly

Gin

Thr 525

Ser

Pro

Gly

Ala

Val 530

Arg

Ser

Ile

Ala

As o 535

Ser

Arg

Gly

Lys 540

Leu

Ala

Phe

Leu

Phe 545

Thr

Gly

Gin

Gly

Ala 550

Gin

Thr

Leu

Gly

Met 555

Gly

Arg

Gly

Leu

Tyr 560

Asp

Val

Trp

Ser

Ala 565

Phe

Arg

Glu

Ala

Phe 570

Asp

Leu

Cys

Val

Arg 575

Leu

Phe

Asn

Gin

Glu 580

Leu

Asp

Arg

Pro

Leu 585

Arg

Glu

Val

Met

Trp 590

Ala

Glu

Pro

Ala

Ser 595

Val

Asp

Ala

Leu 600

Leu

Asp

Gin

Thr

Ala 605

Phe

Thr

Gin

Pro

Ala 610

Leu

Phe

Thr

Phe

Glu 615

Tyr

Ala

Leu

Ala

Ala 620

Leu

Trp

Arg

Ser

Trp 625

Gly

Val

Glu

Pro

Glu 630

Leu

Val

Ala

Gly

His 635

Ser

Ile

Gly

Glu

Leu 640

Val

Ala

Cys

Val 645

Ala

Gly

Val

Phe

Ser 650

Leu

Glu

Asp

Ala

Val 655

Phe

Leu

Val

Ala

Ala 660

Arg

Gly

Arg

Leu

Met 665

Gin

Ala

Leu

Pro

Ala 670

Gly Gly

- 108 -

Ala Met	Val Ser Ile Glu Ala Pro Glu	Ala	Asp	Val Ala 635	Ala Ala	Val
675	680
Ala Pro 690	His Ala	Ala Ser Val Ser Ile 695	Ala	Ala	Val Asn 700	Ala Pro	Asp
Gin Val 705	Val Ile	Ala Gly Ala Gly Gin 710	Pro	Val 715	His Ala	Ile Ala	Ala 720
Ala Met	Ala Ala	Arg Gly Ala Arg Thr 725	Lys 730	Ala	Leu His	Val Ser 735	His
Ala Phe	His Ser 740	Pro Leu Met Ala Pro 745	Met	Leu	Glu Ala	Phe Gly 750	Arg
Val Ala	Glu Ser 755	Val Ser Tyr Arg Arg 760	Pro	Ser	Ile Val 765	Leu Val	Ser
Asn Leu 770	Ser Gly	Lys Ala Cys Thr Asp 775	Glu	Val	Ser Ser 780	Pro Gly	Tyr
Tro Val 7 85	Arg His	Ala Arg Glu Val Val 790	Arg	Phe 795	Ala Asp	Gly Val	Lys 800
Ala Leu	His Ala	Ala Gly Ala Gly Thr 805	Phe 810	Val	Glu Val	Gly Pro 815	Lys
Ser Thr	Leu Leu 820	Gly Leu Val Pro Ala 825	Cys	Met	Pro Asp	Ala Arg 830	Pro
Ala Leu	Leu Ala 835	Ser Ser Arg Ala Gly 840	Arg	Asp	Glu Pro 845	Ala Thr	Val
Leu Glu 850	Ala Leu	Gly Gly Leu Trp Ala 855	Val	Gly	Gly Leu 860	Val Ser	Trp
Ala Gly 865	Leu Phe	Pro Ser Gly Gly Arg 870	Arg	Val 875	Pro Leu	Pro Thr	Tyr 880
Pro Trp	Gin Arg	Glu Arg Tyr Trp Ile 885	Asp 890	Thr	Lys Ala	Asp Asp 895	Ala
Ala Arg	Gly Asp 900	Arg Arg Ala Pro Gly 905	Ala	Gly	His Asp	Glu Val 910	Glu
Glu Gly	Gly Ala 915	Val Arg Gly Gly Asp 920	Arg	Arg	Ser Ala 925	Arg Leu	Asp
His Pro 930	Pro Pro	Glu Ser Gly Arg Arg 935	Glu	Lys	Val Glu 940	Ala Ala	Gly
Asp Arg 945	Pro Phe	Arg Leu Glu Ile Asp 950	Glu	Pro 955	Gly Val	Leu Asp	His 960
Leu Val	Leu Arg	Val Thr Glu Arg Arg 965	Ala 970	Pro	Gly Leu	Gly Glu 975	Val
Glu Ile	Ala Val 980	Asp Ala Ala Gly Leu 985	Ser	Phe	Asn Asp	Val Gin 990	Leu
Ala Leu	Gly Met 995	Val Pro Asp Asp Leu 1000	Pro	Gly	Lys Pro 1005	Asn Pro	Pro
Leu Leu 1010	Leu Gly	Gly Glu Cys Ala Gly Arg 1015	Ile Val Ala 1020	Val Gly	Glu

• · • · · · • ·

- 109 -

Gly Val Asn 1025	Gly	Leu Val Val Gly Gin Pro Val	Ile	Ala	Leu	Ser	Ala 1040
1030	1035
Gly Ala Phe	Ala	Thr His	Val Thr Thr Ser Ala	. Ala	Leu	Val	Leu	Pro
	1045	1050			1055
Arg Pro Gin	Ala	Leu Ser	Ala Ile Glu Ala Ala	Ala	Met	Pro	Val	Ala
1060		1065		1070
Tyr Leu Thr	Ala	Trp Tyr	Ala Leu Asp Arg Ile	Ala	Arg	Leu	Gin	Pro
1075			1080	1085
Gly Glu Arg	Val	Leu Ile	His Ala Ala Thr Gly	Gly	Val	Gly	Leu	Ala
1090		1095	1100
Ala Val Gin	Trp	Ala Gin	His Val Gly Ala Glu	Val	His	Ala	Thr	Ala
1105		1110	1115				1120
Gly Thr Pro	Glu	Lys Arg	Ala Tyr Leu Glu Ser	Leu	Gly	Val	Arg	Tyr
	1125	1130			1135
Val Ser Asp	Ser	Arg Ser	Asp Arg Phe Val Ala	Asp	Val	Arg	Ala	Trp
1140		1145		1150
Thr Gly Gly	Glu	Gly Val	Asp Val Val Leu Asn	Ser	Leu	Ser	Gly	Glu
1155			1160	1165
Leu Ile Asp	Lys	Ser Phe	Asn Leu Leu Arg Ser	His	Gly	Arg	Phe	Val
1170		1175	1180
Glu Leu Gly	Lys	Arg Asp	Cys Tyr Ala Asp Asn	Gin	Leu	Gly	Leu	Arg
1185		' 1190	1195				1200
Pro Phe Leu	Arg	Asn Leu	Ser Phe Ser Leu Val	Asp	Leu	Arg	Gly	Met
	1205	1210			1215
Met Leu Glu	Arg	Pro Ala	Arg Val Arg Ala Leu	Leu	Glu	Glu	Leu	Leu
1220		1225		1230
Gly Leu Ile	Ala	Ala Gly	Val Phe Thr Pro Pro	Pro	Ile	Ala	Thr	Leu
1235			1240	1245
Pro Ile Ala	Arg	Val Ala	Asp Ala Phe Arg Ser	Met	Ala	Gin	Ala	Gin
1250		1255 1260
His Leu Gly	Lys	Leu Val	Leu Thr Leu Gly Asd	Pro	Glu	Val	Gin	Ile
1265		1270	1275				1280
Arg Ile Pro	Thr	His Ala	Gly Ala Gly Pro Ser	Thr	Gly	Asp	Arg	Asp
	1285	1290			1295
Leu Leu Asp	Arg	Leu Ala	Ser Ala Ala Pro Ala	Ala	Arg	Ala	Ala	Ala
1300		1305		1310
Leu Glu Ala	Phe	Leu Arg	Thr Gin Val Ser Gin	Val	Leu	Arg	Thr	Pro
1315			1320	1325
Glu Ile Lys	Val	Gly Ala	Glu Ala Leu Phe Thr	Arg	Leu	Gly	Met	Asp
1330		1335 1340
Ser Leu Met	Ala	Val Glu	Leu Arg Asn Arg Ile	Glu	Ala	Ser	Leu	Lys
1345		1350	1355				1360

Leu Lys Leu Ser Thr Thr Phe Leu Ser Thr Ser Pro Asn Ile Ala Leu • ·

-110-

1365

1370

1375

Leu

Ala

Gin Asn 1380

Leu

Asp

Ala

Leu 1385

Ala

Thr

Ala

Leu

Ser 1390

Leu

Glu

Arg

Val

Ala Ala 1395

Glu

Asn

Leu

Arg 1400

Ala

Gly

Val

Gin

Asn 1405

Asp

Phe

Val

Ser

Gly Ala

Asp

Gin

Asp

Trp

Glu

Ile

Ala

Leu

1410 1415 1420 <210> 3 <211> 1410 <212> PRT <213> Sorangium cellulosum <400> 3

Met 1

Thr

Ile

Asn

Gin 5

Leu

Asn

Glu

Leu 10

Glu

His

Gin

Gly

Ile 15

Lys

Leu

Ala

Asd 2*0

Gly

Glu

Arg

Leu

Gin 25

Ile

Gin

Ala

Pro

Lys 30

Asn

Ala

Leu

Asn

Pro 35

Asn

Leu

Ala

Arg 40

Ile

Ser

Glu

His

Lys 45

Ser

Thr

Ile

Leu

Thr 50

Met

Leu

Arg

Gin

Arg 55

Leu

Pro

Ala

Glu

Ser 60

Ile

Val

Pro

Ala

Pro 65

Ala

Glu

Arg

His

Ala 70

Pro

Phe

Pro

Leu

Thr 75

Asp

Ile

Gin

Glu

Ser 80

Tyr

Trp

Leu

Gly

Arg 85

Thr

Gly

Ala

Phe

Thr 90

Val

Pro

Ser

Gly

Ile 95

His

Ala

Tyr

Arg

Glu 100

Tyr

Asp

Cys

Thr

Asd 10*5

Leu

Asp

Val

Pro

Arg 110

Leu

Ser

Arg

Ala

Phe 115

Arg

Lys

Val

Ala 120

Arg

His

Asp

Met

Leu 125

Arg

Ala

His

Thr

Leu 130

Pro

Asp

Met

Gin 135

Val

Ile

Glu

Pro

Lys 140

Val

Asp

Ala

Asp

Ile 145

Glu

Ile

Asp

Leu 150

Arg

Gly

Leu

Asp

Arg 155

Ser

Thr

Arg

Glu

Ala 160

Arg

Leu

Val

Ser

Leu 165

Arg

Asp

Ala

Met

Ser 170

His

Arg

Ile

Tyr

Asp 175

Thr

Glu

Arg

Pro

Pro 180

Leu

Tyr

His

Val

Val 185

Ala

Val

Arg

Leu

Asp 190

Glu

Arg

Gin

Thr

Arg 195

Leu

Val

Leu

Ser

Ile 200

Asp

Leu

Ile

Asn'

Val 205

Asp

Leu

Gly

Ser

Leu 210

Ser

Ile

Phe

Lys 215

Asp

Trp

Leu

Ser

Phe 220

Tyr

Glu

Asp

Pro

Glu 225

Thr

Ser

Leu

Pro

Val 230

Leu

Glu

Leu

Ser

Tyr 235

Arg

Asp

Tyr

Val

Leu 240

Ala

Leu

Glu

Ser

Arg 245

Lys

Ser

Glu

Ala 250

His

Gin

Arg

Ser

Met 255

Asp

-111

Tyr

Trp

Lys

Arg 260

Arg

Ile

Ala

Glu

Leu 265

Pro

Thr 270

Leu

Pro

Met

Lys

Ala 275

Asp

Pro

Ser

Thr

Leu 280

Lys

Glu

Ile

Arg

Phe 285

Arg

His

Thr

Glu

Gin 290

Trp

Leu

Pro

Ser

Asp 295

Ser

Trp

Gly

Arg

Leu 300

Lys

Arg

Val

Gly 305

Glu

Arg

Gly

Leu

Thr 310

Pro

Thr

Gly

Val

Ile 315

Leu

Ala

Phe

Ser 320

Glu

Val

Ile

Gly

Arg 325

Trp

Ser

Ala

Ser

Pro 330

Arg

Phe

Thr

Leu

Asn 335

Ile

Thr

Leu

Phe

Asn 340

Arg

Leu

Pro

Val

His 345

Pro

Arg

Val

Asn

Asp 350

Ile

Thr

Gly

Asp

Phe 355

Thr

Ser

Met

Val

Leu 360

Leu

Asp

Ile

Asp

Thr 365

Thr

Arg

Asp

Lys

Ser 370

Phe

Glu

Gin

Arg

Ala 375

Lys

Arg

Ile

Gin

Glu 380

Gin

Leu

Trp

Glu

Ala 385

Met

Asp

His

Cys

Asp 390

Val

Ser

Gly

Ile

Glu 395

Val

Gin

Arg

Glu

Ala 400

Ala

Arg

Val

Leu

Gly 405

Ile

Gin

Arg

Gly

Ala 410

Leu

Phe

Pro

Val

Val 415

Leu

Thr

Ser

Ala

Leu 420

Asn

Gin

Val

Val 425

Gly

Val

Thr

Ser

Leu 430

Gin

Arg

Leu

Gly

Thr 435

Pro

Val

Tyr

Thr

Ser 440

Thr

Gin

Thr

Pro

Gin 445

Leu

Asp

His 450

Gin

Leu

Tyr

Glu

His 455

Asp

Gly

Asp

Leu

Val 460

Leu

Ala

Trp

Asp

Ile 465

Val

Asp

Gly

Val

Phe 470

Pro

Asp

Leu

Leu 475

Asp

Met

Leu

Glu 480

Ala

Tyr

Val

Phe 485

Leu

Arg

Leu

Thr 490

Glu

Pro

Trp

Gly 495

Glu

Gin

Val

Arg

Cys 500

Ser

Leu

Pro

Ala 505

Gin

Leu

Glu

Ala

Arg 510

Ala

Ser

Ala

Asn

Ala 515

Thr

Asn

Ala

Leu

Leu 520

Ser

Glu

His

Thr

Leu 525

His

Gly

Leu

Phe

Ala 530

Ala

Arg

Val

Glu

Gin 535

Leu

Pro

Met

Gin

Leu 540

Ala

Val

Ser

Ala 545

Arg

Lys

Thr

Leu

Thr 550

Tyr

Glu

Leu

Ser 555

Arg

Ser

Arg

Arg 560

Leu

Gly

Ala

Arg

Leu 565

Arg

Glu

Gin

Gly

Ala 570

Arg

Pro

Asn

Thr

Leu 575

Val

Ala

Val

Met 580

Glu

Lys

Gly

Trp

Glu 585

Gin

Val

Ala

Val 590

Leu

Ala

Val Leu Glu Ser Gly Ala Ala Tyr Val Pro Ile Asp Ala Asp Leu Pro • ·

-112595 600 605 ····· · · ·· ·· · • · · · · · ·

Ala

Glu 610

Arg

Ile

His

Tyr

Leu 615

Leu

Asp

His

Gly

Glu 620

Val

Lys

Leu

Val

Leu 625

Thr

Gin

Pro

Trp

Leu 630

Asp

Gly

Lys

Leu

Ser 635

Trp

Pro

Gly

Ile 640

Gin

Arg

Leu

Val 645

Ser

Glu

Ala

Gly

Val 650

Glu

Gly

Asp

Gly

Asp 655

Gin

Pro

Met

Met 660

Pro

Ile

Gin

Thr

Pro 665

Ser

Asp

Leu

Ala

Tyr 670

Val

Ile

Tyr

Thr

Ser 675

Gly

Ser

Thr

Gly

Leu 680

Pro

Lys

Gly

Val

Met 685

Ile

Asp

His

Arg

Gly 690

Ala

Val

Asn

Thr

Ile 695

Leu

Asp

Ile

Asn

Glu 700

Arg

Phe

Glu

Ile

Gly 705

Pro

Gly

Asp

Arg

Val 710

Leu

Ala

Leu

Ser

Ser 715

Leu

Ser

Phe

Asp

Leu 720

Ser

Val

Tyr

Asp

Val 725

Phe

Gly

Ile

Leu

Ala 730

Ala

Gly Gly

Thr

Ile 735

Val

Pro

Asp

Ala 740

Ser

Lys

Leu

Arg

Aso 745

Pro

Ala

His

Trp

Ala 750

Glu

Leu

Ile

Glu

Arg 755

Glu

Lys

Val

Thr

Val 760

Trp

Asn

Ser

Val

Pro 765

Ala

Leu

Met

Arg

Met 770

Leu

Val

Glu

His

Phe 775

Glu

Gly

Arg

Pro

Aso 780

Ser

Leu

Ala

Arg

Ser 785

Leu

Arg

Leu

Ser

Leu 790

Leu

Ser

Gly

Asp

Trp 795

Ile

Pro

Val

Gly

Leu 800

Pro

Gly

Glu

Leu

Gin 805

Ala

Ile

Arg

Pro

Gly 310

Val

Ser

Val

Ile

Ser 815

Leu

Gly Gly

Ala

Thr 820

Glu

Ala

Ser

Ile

Trp 825

Ser

Ile

Gly

Tyr

Pro 830

Val

Arg

Asn

Val

Aso 835

Leu

Ser

Trp

Ala

Ser 840

Ile

Pro

Tyr

Gly

Arg 845

Pro

Leu

Arg

Asn

Gin 850

Thr

Phe

His

Val

Leu 855

Asp

Glu

Ala

Leu

Glu 860

Pro

Arg

Pro

Val

Trp 865

Val

Pro

Gly

Gin

Leu 870

Tyr

Ile

Gly

Val 875

Gly

Leu

Ala

Leu

Gly 880

Tyr

Trp

Arg

Asp

Glu 885

Glu

Lys

Thr

Arg

Lys 890

Ser

Phe

Leu

Val

His 895

Pro

Glu

Thr

Gly

Glu 900

Arg

Leu

Tyr

Lys

Thr 905

Gly

Asp

Leu

Gly

Arg 910

Tyr

Leu

Pro

Asp Gly 915

Asn

Ile

Glu

Phe

Met 920

Gly Arg

Glu

Asp

Asn 925

Gin

Ile

Lys

Leu

Arg Gly 930

Tyr

Arg

Val

Glu 935

Leu

Gly Glu

Ile

Glu 940

Glu

Thr

Leu

Lys

-113-

Ser His 945	Pro	Asn Val	Arg Asp Ala 950	Val	Ile	Val 955	Pro	Val Gly Asn Asp 960
Ala Ala	Asn	Lys Leu	Leu Leu Ala	Tyr	Val	Val	Pro	Glu Gly Thr Arg
		965			970			975
Arg Arg	Ala	Ala Glu	Glň Asp Ala	Ser	Leu	Lys	Thr	Glu Arg Ile Asp
		980		985				990
Ala Arg	Ala	His Ala	Ala Glu Ala	Asp	Gly	Leu	Ser	Asp Gly Glu Arg
	995		1000				1005
Val Gin	Phe	Lys Leu	Ala Arg His	Gly	Leu	Arg	Arg	Asp Leu Asp Gly
1010			.1015			1020
Lys Pro	Val	Val Asp	Leu Thr Gly	Gin	Asp	Pro	Arg	Glu Ala Gly Leu
1025		1030		1035		1040
Asp Val	Tyr	Ala Arg	Arg Arg Ser	Val	Arg	Thr	Phe	Leu Glu Ala Pro
		1045		1050			1055
Ile Pro	Phe	Val Glu	Phe Gly Arg	Phe	Leu	Ser	Cys	Leu Ser Ser Val
	1060	1065				1070
Glu Pro	Asp	Gly Ala	Thr Leu Pro	Lys	Phe	Arg	Tyr	Pro Ser Ala Gly
1075		1080				1085
Ser Thr	Tyr	Pro Val	Gin Thr Tyr	Ala	Tyr	Val	Lys	Ser Gly Arg Ile
1090			1095			1100
Glu Gly	Val	Asp Glu	Gly Phe Tyr	Tyr	Tyr	His	Pro	Phe Glu His Arg
1105			1110		1115		1120
Leu Leu	Lys	Leu Ser	Asp His Gly	Ile	Glu	Arg	Gly	Ala His Val Arg
		1125		1130			1135
Gin Asn	Phe	Asp Val	Phe Asp Glu	Ala	Ala	Phe	Asn	Leu Leu Phe Val
	1140	1145				1150
Gly Arg	Ile	Asp Ala	Ile Glu Ser	Leu	Tyr	Gly	Ser	Ser Ser Arg Glu
1155		1160				1165
Phe Cys	Leu	Leu Glu	Ala Gly Tyr	Met	Ala	Gin	Leu	Leu Met Glu Gin
1170			1175			1180
Ala Pro	Ser	Cys Asn	Ile Gly Val	Cys	Pro	Val	Gly	Gin Phe Asn Phe
1185		1190		1195		1200
Glu Gin	Val	Arg Pro	Val Leu Asp	Leu	Arg	His	Ser	Asp Val Tyr Val
		1205		1210			1215
His Gly	Met	Leu Gly	Gly Arg Val	Asp	Pro	Arg	Gin	Phe Gin Val Cys
	1220	1225				1230
Thr Leu	Gly	Gin Asp	Ser Ser Pro	Arg	Arg	Ala	Thr	Thr Arg Gly Ala
1235		1240				1245
Pro Pro	Gly	Arg Glu	Gin His Phe	Ala	Asp	Met	Leu	Arg Asp Phe Leu
1250			1255			1260
Arg Thr	Lys	Leu Pro	Glu Tyr Met	Val	Pro	Thr	Val	Phe Val Glu Leu
1265		1270		1275		1280

Asp Ala Leu Pro Leu Thr Ser Asn Gly Lys Val Asp Arg Lys Ala Leu 1285 1290 1295 • ·

-114-

Arg Glu	Arg Lys 1300	Asp	Thr	Ser	Ser Pro 1305	Arg	His	Ser Gly His 1310	Thr	Ala
Pro Arg Asd Ala 1315	Leu	Glu	Glu	Ile Leu 1320	Val	Ala	Val Val Arg 1325	Glu	Val
Leu Gly 1330	Leu Glu	Val	Val	Gly 1335	Leu Gin	Gin	Ser	Phe Val Asp 1340	Leu	Gly
Ala Thr 1345	Ser Ile	His	Ile 1350	Val	Arg Met	Arg Ser 1355	Leu Leu Gin	Lys	Arg 1360
Leu Asp	Arg Glu	Ile 1365	Ala	Ile	Thr Glu	Leu 1370	Phe	Gin Tyr Pro Asn 1375	Leu
Gly Ser	Leu Ala 1380	Ser	Gly	Leu	Arg Arg 1385	Asp	Ser	Arg Asp Leu 1390	Asp	Gin
Arg Pro	Asn Met	Gin	Asp	Arg	Val Glu	Val	Arg	Arg Lys Gly	Arg	Arg

1395 1400 1405

Arg Ser 1410

<210>	4
<211>	1832
<212>	PRT
<213>	Sorangium
<40C>	4

Met 1

Glu

Gin

Glu 5

Ser

Ala

Ile

Ala 10

Val

Ile

Gly

Met

Ser 15

Gly

Arg

Phe

Pro

Gly 20

Ala

Arg

Asp

Leu

Asp 25

Glu

Phe

Trp

Arg

Asn 30

Leu

Arg

Asp

Gly

Thr 35

Glu

Ala

Val

Gin

Arg 40

Phe

Ser

Glu

Gin

Glu 45

Leu

Ala

Ser

Gly 50

Val

Asp

Pro

Ala

Leu 55

Val

Leu

Asp

Pro

Ser 60

Tyr

Val

Arg

Ala

Gly 65

Ser

Val

Leu

Glu

Asp 70

Val

Asp

Arg

Phe

Asd 75

Ala

Phe

Gly 80

Ile

Ser

Pro

Arg

Glu 85

Ala

Glu

Leu

Met

Asp 90

Pro

Gin

His

Arg

Ile 95

Phe

Met

Glu

Cys

Ala 100

Trp

Glu

Ala

Leu

Glu 105

Asn

Ala

Gly

Tyr

Asp 110

Pro

Thr

Ala

Tyr

Glu 115

Gly

Ser

Ile

Gly

Val 120

Tyr

Ala

Gly

Ala

Asn 125

Met

Ser

Tyr

Leu 130

Thr

Ser

Asn

Leu

His 135

Glu

His

Pro

Ala

Met 140

Met

Arg

Trp

Pro

Gly 145

Trp

Phe

Gin

Thr

Leu 150

Ile

Gly

Asn

Asp

Lys 155

Asp

Tyr

Leu

Ala

Thr 160

His

Val

Ser

Tyr

Arg 165

Leu

Asn

Leu

Arg

Gly 170

Pro

Ser

Ile

Ser

Val 175

Gin

• · • « · · «

-115·· ·· • · · 9 • · · · • * · · • · * · • · · ·

Thr Ala

Cys

Ser Thr Ser Leu Val Ala Val His Leu Ala Cys Met

Ser

180

185

190

Leu

Asp

Arg

Glu

Cys

Asp

Met

Ala

Leu

Ala

Gly

Ile

Thr

Val

195

200

205

Arg

Ile

Pro

His

Arg

Ala

Gly

Tyr

Val

Tyr

Ala

Glu

Gly

Ile

Phe

210

215

220

Ser

Pro

Asp

Gly

His

Cys

Arg

Ala

Phe

Asp

Ala

Lys

Ala

Asn

Gly

Thr

225

230

235

240

Ile

Met

Gly

Asn

Gly

Cys

Gly

Val

Leu

Lys

Pro

Leu

Asp

Arg

245

250

255

Ala

Leu

Ser

Asp

Gly

Asp

Pro

Val

Arg

Ala

Val

Ile

Leu

Gly

Ser

Ala

260

265

270

Thr

Asn

Asp

Gly

Ala

Arg

Lys

Ile

Gly

Phe

Thr

Ala

Pro

Ser

Glu

275

280

285

Val

Gly

Gin

Ala

Gin

Ala

Ile

Met

Glu

Ala

Leu

Ala

Leu

Ala

Gly

Val

290

295

300

Glu

Ala

Arg

Ser

Ile

Gin

Tyr

Ile

Glu

Thr

His

Gly

Thr

Gly

Thr

Leu

305

310

315

320

Leu

Gly

Asp

Ala

Ile

Glu

Thr

Ala

Leu

Arg

Val

Phe

Gly

Arg

325

330

335

Asp

Ala

Ser

Ala

Arg

Ser

Cys

Ala

Ile

Gly

Ser

Val

Lys

Thr

Gly

340

345

350

Ile

Gly

His

Leu

Glu

Ser

Ala

Gly

Ile

Ala

Gly

Leu

Ile

Lys

Thr

355

360

365

Val

Leu

Ala

Leu

Glu

His

Arg

Gin

Leu

Pro

Ser

Leu

Asn

Phe

Glu

370

375

380

Ser

Pro

Asn

Pro

Ser

Ile

Asp

Phe

Ala

Ser

Pro

Phe

Tyr

Val

Asn

385

390

395

400

Thr

Ser

Leu

Lys

Asp

Trp

Asn

Thr

Gly

Ser

Thr

Pro

Arg

Ala

Gly

405

410

415

Val

Ser

Phe

Gly

Ile

Gly

Thr

Asn

Ala

His

Val

Leu

Glu

420

425

430

Glu

Ala

Pro

Ala

Lys

Leu

Pro

Ala

Pro

Ala

Arg

Ser

Ala

435

440

445

Glu

Leu

Phe

Val

Ser

Ala

Lys

Ser

Ala

Leu

Asp

Ala

450

455

460

Ala

Arg

Leu

Arg

Asp

His

Leu

Gin

Ala

His

Gin

Gly

Ile

Ser

Leu

465

470

475

480

Gly

Asp

Val

Ala

Phe

Ser

Leu

Ala

Thr

Arg

Ser

Pro

Met

Glu

His

485

490

495

Arg

Leu

Ala

Met

Ala

Pro

Ser

Arg

Glu

Ala

Leu

Arg

Glu

Gly

Leu

500

505

510

Asp

Ala

Arg

Gly

Gin

Thr

Pro

Gly

Ala

Val

Arg

Gly

Arg

515

520

525

• · • 00« • 0 00 0« « * 0 0 0 0 0 0·00 * 0 0 0 0 0 • · 0*00·· ··· · 000 «000 00 00

-116-

cys

Ser 530

Pro

Gly

Asn

Val

Pro 535

Lys

Val

Phe

Val 540

Phe

Pro

Gly

Gin

Gly 545

Ser

Gin

Trp

Val

Gly 550

Met

Gly

Arg

Gin

Leu 555

Leu

Ala

Glu

Pro 560

Val

Phe

His

Ala

Ala 565

Leu

Ser

Ala

Cys

Asp 570

Arg

Ala

Ile

Gin

Ala 575

Glu

Ala

Gly

Trp

Ser 580

Leu

Ala

Glu

Leu 585

Ala

Asp

Glu

Gly 590

Ser

Gin

Leu

Glu 595

Arg

Ile

Asp

Val

Val 600

Gin

Pro

Val

Leu

Phe 605

Ala

Leu

Ala

Val

Ala 610

Phe

Ala

Leu

Trp 615

Arg

Ser

Trp

Gly

Val 620

Ala

Pro

Asp

Val

Val 625

Ile

Gly

His

Ser

Met 630

Gly

Glu

Val

Ala

Ala 635

Ala

His

Val

Ala

Gly 640

Ala

Leu

Ser

Leu

Glu 645

Asp

Ala

Val

Ala

Ile 650

Ile

Cys

Arg

Ser 655

Arg

Leu

Arg

Arg 660

Ile

Ser

Gly

Gin

Gly 665

Glu

Met

Ala

Val

Thr 670

Glu

Leu

Ser

Leu

Ala 675

Glu

Ala

Glu

Ala

Ala 680

Leu

Arg

Gly

Tyr

Glu 685

Asp

Arg

Val

Ser

Val 690

Ala

Val

Ser

A.sn

Ser 695

Pro

Arg

Ser

Thr

Va 1 700

Leu

Ser

Gly

Glu

Pro 705

Ala

Ile

Gly

Glu 710

Val

Leu

Ser

Leu 715

Asn

Ala

Lys

Gly

Val 720

Phe

Cys

Arg

Val 725

Lys

Val

Asp

Val

Ala 730

Ser

His

Ser

Pro

Gin 735

Val

Asp

Pro

Leu

Arg 740

Glu

Asp

Leu

Ala 745

Ala

Leu

Gly Gly

Leu 750

Arg

Pro

Gly

Ala

Ala 755

Ala

Val

Pro

Met

Arg 760

Ser

Thr

Val

Thr

Gly 765

Ala

Met

Val

Ala

Gly 770

Pro

Glu

Leu

Gly

Ala 775

Asn

Tyr

Trp

Met

Asn 780

Asn

Leu

Arg

Gin

Pro 785

Val

Arg

Phe

Ala

Glu 790

Val

Gin

Ala

Gin 795

Leu

Gin

Gly

His 800

Gly

Leu

Phe

Val

Glu 805

Met

Ser

Pro

His

Pro 810

Ile

Leu

Thr

Ser 815

Val

Glu

Met

Arg 820

Arg

Ala

Gin

Arg 825

Ala

Gly

Ala

Val 830

Gly

Ser

Leu

Arg

Arg 835

Gly

Gin

Asp

Glu

Arg 840

Pro

Ala

Met

Leu

Glu 845

Ala

Leu

Gly

Thr

Leu

Trp

Ala

Gin

Gly

Tyr

Pro

Val

Pro

Trp

Gly Arg

Leu

Phe

Pro

850 855 860

Ala Gly Gly Arg Arg Val Pro Leu Pro Thr Tyr Pro Trp Gin Arg Glu • « · ·· • · · · · · · ···· ··· · · · · · · ······ · · ·· ·· · • · · · · · · · ··· · ······· ·· ·'·

-117-

865	870	875	880
Arg Tyr	Trp Ile Glu Ala 885	Pro Ala Lys Ser Ala Ala 890	Gly Asp Arg Arg 895
Gly Val	Arg Ala Gly Gly 900	His Pro Leu Leu Gly Glu 905	Met Gin Thr Leu 910
Ser Thr	Gin Thr Ser Thr 915	Arg Leu Trp Glu Thr Thr 920	Leu Asp Leu Lys 925
Arg Leu 930	Pro Trp Leu Gly	Asp His Arg Val Gin Gly 935 940	Ala Val Val Phe
Pro Gly 945	Ala Ala Tyr Leu 950	Glu Met Ala Ile Ser Ser 955	Gly Ala Glu Ala 960
Leu Gly Asd Gly Pro Leu 965	Gin Ile Thr Asn Val Val 970	Leu Ala Glu Ala 975
Leu Ala	Phe Ala Gly Asp 980	Ala Ala Val Leu Val Gin 985	Val Val Thr Thr 990
Glu Gin	Pro Ser Gly Arg 995	Leu Gin Phe' Gin Ile Ala 1000 ;	Ser Arg Ala Pro 1005
Gly Ala 1010	Gly His Ala Ser	Phe Arg Val His Ala Arg 1015 1020	Gly Ala Leu Leu
Arg Val 1025	Glu Arg Thr Glu 1030	Val Pro Ala Gly Leu Thr 1035	Leu Ser Ala Val 1040
Arg Ala	Arg Leu Gin Ala 1045	Ser Ile Pro Ala Ala Ala 1050	Thr Tyr Ala Glu 1055
Leu Thr	Glu Met Gly Leu 1060	Gin Tyr Gly Pro Ala Phe 1065	Gin Gly Ile Ala 1070
Glu Leu Trp Arg Gly Glu 1075	Gly Glu Ala Leu Gly Arg 1030 :	Val Arg Leu Pro L085
Asp Ala 1090	Ala Gly Ser Ala	Ala Glu Tyr Arg Leu His L095 1100	Pro Ala Leu Leu
Asp Ala 1105	Cys Phe Gin Ile 1110	Val Gly Ser Leu Phe Ala 1115	Arg Ser Gly Glu 1120
Ala Thr	Pro Trp Val Pro 1125	Val Glu Leu Gly Ser Leu 1130	Arg Leu Leu Gin 1135
Arg Pro	Ser Gly Glu Leu 1140	Trp Cys His Ala Arg Val 1145	Val Asn His Gly 1150
His Gin Thr Pro Asp Arg 1155	Gin Gly Ala Asd Phe Trp 1160	Val Val Asp Ser L165
Ser Gly Ala Val Val Ala 1170	Glu Val Cys Gly Leu Val 1175 1180	Ala Gin Arg Leu
Pro Gly Gly Val Arg Arg Arg Glu Glu Asp Asp Trp	Phe Leu Glu Leu

1185 1190 1195 1200

Glu Trp Glu Pro Ala Ala Val Gly Thr Ala Lys Val Asn Ala Gly Arg 1205 . 1210 1215

1 8

Trp	Leu	Leu Leu Gly Gly Gly Gly Gly Leu Gly Ala Ala Leu Arg	Ala
1220	1225	1230
Met	Leu	Glu Ala	Gly Gly His Ala Val	Val His Ala Ala Glu Asn	Asn
	1235	1240	1245
Thr	Ser	Ala Ala	Gly Val Arg Ala Leu	Leu Ala Lys Ala Phe Asp	Gly
1250		1255	1260
Gin	Ala	Pro Thr	Ala Val Val His Leu	Gly Ser Leu Asp Gly Gly	Gly
1265		1270	1275	1280
Glu	Leu	Asp Pro	Gly Leu Gly Ala Gin	Gly Ala Leu Asp Ala Pro	Arg
		1285	1290 1295
Ser	Ala	Asp Val	Ser Pro Asp Ala Leu	Asp Pro Ala Leu Val Arg	Gly
		1300	1305	1310
Cys	Asp	Ser Val	Leu Trp Thr Val Gin	Ala Leu Ala Gly Met Gly	Phe
	1315	1320	1325
Arg	Asp	Ala Pro	Arg Leu Trp Leu Leu	Thr Arg Gly Ala Gin Ala	Val
1330		1335	1340
Gly	Ala	Gly Asp	Val Ser Val Thr Gin	Ala Pro Leu Leu Gly Leu	Gly
1345		1350	1355	1360
Arg	Val	Ile Ala	Met Glu His Ala Asp	Leu Arg Cys Ala Arg Val	Asp
		1365	1370 1375
Leu	Asp	Pro Ala	Arg Pro Glu Gly Glu	Leu Ala Ala Leu Leu Ala	Glu
		1380	1385	1390
Leu	Leu	Ala Asp	Asp Ala Glu Ala Glu	Val Ala Leu Arg Gly Gly	Glu
	1395	1400	1405
Arg	Cys	Val Ala	Arg Ile Val Arg Arg	Gin Pro Glu Thr Arg Pro	Arg
1410		1415	1420
Gly Arg	Ile Glu	Ser Cys Val Pro Thr	Asp Val Thr Ile Arg Ala	Asn
1425		1430	1435 1440
Ser	Thr	Tyr Leu	Val Thr Gly Gly Leu	Gly Gly Leu Gly Leu Ser	Val
		1445	1450 1455
Ala	Gly	Trp Leu	Ala Glu Arg Gly Ala	Gly His Leu Val Leu Val	Gly
		1460	1465	1470
Arg	Ser	Gly Ala	Ala Ser Val Glu Gin	Arg Ala Ala Val Ala Ala	Leu
	1475	1480	1485
Glu	Ala	Arg Gly	Ala Arg Val Thr Val	Ala Lys Ala Asp Val Ala	Asp
1490		1495	1500 -
Arg	Ala	Gin Leu	Glu Arg Ile Leu Arg	Glu Val Thr Thr Ser Gly	Met
1505		1510	1515 1520
Pro	Leu	Arg Gly	Val Val His Ala Ala	Gly Ile Leu Asp Asp Gly	Leu
		1525	1530 1535
Leu	Met	Gin Gin	Thr Pro Ala Arg Phe	Arg Lys Val Met Ala Pro	Lys
		1540	1545	1550

Val Gin Gly Ala Leu His Leu His Ala Leu Thr Arg Glu Ala Pro Leu 1555 1560 1565

-119-

Ser Phe 1570	Phe	Val	Leu	Tyr Ala Ser Gly Val Gly Leu Leu Gly	Ser	Pro
1575	1580
Gly Gin	Gly	Asn	Tyr Ala Ala Ala Asn	Thr Phe Leu Asp Ala	Leu	Ala
1585			1590	1595	1600
His His	Arg	Arg	Ala	Gin Gly Leu Pro	Ala Leu Ser Val Asp	Trp	Gly
		1605	1610	1615
Leu Phe	Ala	Glu	Val	Gly Met Ala Ala	Ala Gin Glu Asp Arg	Gly	Ala
	1620		1625	1630
Arg Leu	Val	Ser	Arg	Gly Met Arg Ser	Leu Thr Pro Asp Glu	Gly	Leu
1635			1640	164*5
Ser Ala	Leu	Ala	Arg	Leu Leu Glu Ser	Gly Arg Ala Gin Val	Gly	Val
1650				1655	1660
Met Pro	Val	Asn	Pro	Arg Leu Trp Val	Glu Leu Tyr Pro Ala	Ala	Ala
1665			1670	1675	1630
Ser Ser	Arg	Met	Leu	Ser Arg Leu Val	Thr Ala His Arg Ala	Ser	Ala
		1685	1690 1695
Gly Gly	Pro	Ala	Gly	Asd Gly Asp Leu	Leu Arg Arg Leu Ala	Ala	Ala
	1700		1705	1710
Glu Pro	Ser	Ala	Arg	Ser Ala Leu Leu	Glu Pro Leu Leu Arg	Ala	Gin
1715			1720	1725
Ile Ser	Gin	Val	Leu	Ara Leu Pro Glu	Gly Lys Ile Glu Val	Asp	Ala
1730				'1735	1740
Pro Leu	Thr	Ser	Leu	Gly Met Asn Ser	Leu Met Gly Leu Glu·	Leu	Arg
1745			1750	1755	1760
Asn Arg	Ile	Glu	Ala	Met Leu Gly Ile	Thr Val Pro Ala Thr	Leu	Leu
		1765	1770 1775
Trp Thr	Tyr	Pro	Thr	Val Ala Ala Leu	Ser Gly His Leu Ala	Arg	Glu
	1780		1785	1790
Ala Cys	Glu	Ala	Ala	Pro Val Glu Ser	Pro His Thr Thr Ala	Asp	Ser
1795			1800	1805
Ala Val	Glu	Ile	Glu	Glu Met Ser Gin	Asp Asp Leu Thr Gin	Leu	Ile
1810				1815	1820
Ala Ala	Lys	Phe	Lys	Ala Leu Thr

1825 1830 <210> 5 <211> 7257 <212> PRT <213> Sorangium cellulosum <400> 5

Met Thr Thr Arg Gly Pro Thr Ala Gin Gin Asn Pro Leu Lys Gin Ala 15 10 15

Ala Ile Ile Ile Gin Arg Leu Glu Glu Arg Leu Ala Gly Leu Ala Gin 20 25 30 • ·

- 120 -

Ala

Glu

Leu 35

Glu Arg

Thr

Glu

Pro 40

Ile

Ala

Ile

Val

Gly 45

Ile

Gly

Cys

Arg

Phe 50

Pro

Gly Gly

Ala

Asp 55

Ala

Pro

Glu

Ala

Phe 60

Trp

Glu

Leu

Asp 65

Ala

Glu

Arg

Asp

Ala 70

Val

Gin

Pro

Leu

Asp 75

Met

Arg

Trp

Ala

Leu 80

Val

Gly

Val

Ala

Pro 85

Val

Glu

Ala

Val

Pro 90

His

Trp

Ala

Gly

Leu 95

Leu

Thr

Glu

Pro

Ile 100

Asp

Cys

Phe

Asp

Ala 105

Ala

Phe

Gly

Ile 110

Ser

Pro

Arg

Glu

Ala 115

Arg

Ser

Leu

Asp

Pro 120

Gin

His

Arg

Leu

Leu 125

Leu

Glu

Val

Ala

Trp 130

Glu

Gly

Leu

Glu

Asp 135

Ala

Gly

Ile

Pro

Pro 140

Arg

Ser

Ile

Asp

Gly 145

Ser

Arg

Thr

Gly

Val 150

Phe

Val

Gly

Ala

Phe 155

Thr

Ala

Asp

Tyr

Ala 160

Arg

Thr

Val

Ala

Arg 165

Leu

Pro

Arg

Glu

Glu 170'

Arg

Asp

Ala

Tyr

Ser 175

Ala

Thr

Gly

Asn

Met 180

Leu

Ser

Ile

Ala

Ala 185

Gly

Arg

Leu

Ser

Tyr 190

Thr

Leu

Gly

Leu

Gin 195

Gly

Pro

Cys

Leu

Thr 200

Val

Asp

Thr

Ala

Cys 205

Ser

Leu

Val 210

Ala

Ile

His

Leu

Ala 215

Cys

Arg

Ser

Leu

Arg 220

Ala

Gly

Glu

Ser

Asp 225

Leu

Ala

Leu

Ala

Gly 230

Gly

Val

Ser

Ala

Leu 235

Leu

Ser

Pro

Asp

Met 240

Met

Glu

Ala

Ala 245

Arg

Thr

Gin

Ala

Leu 250

Ser

Pro

Asp

Gly

Arg 255

Cys

Arg

Thr

Phe

Asp 260

Ala

Ser

Ala

Asn

Gly 265

Phe

Val

Arg

Gly

Glu 270

Gly

Cys

Gly

Leu

Val 275

Val

Leu

Lys

Arg

Leu 280

Ser

Asp

Ala

Gin

Arg 285

Asp

Gly

Asp

Arg

Ile 290

Trp

Ala

Leu

Ile

Arg 295

Gly

Ser

Ala

Ile

Asn 300

His

Asp

Gly

Arg

Ser 305

Thr

Gly

Leu

Thr

Ala 310

Pro

Asn

Val

Leu

Ala 315

Gin

Glu

Thr

Val

Leu 320

Arg

Glu

Ala

Leu

Arg 325

Ser

Ala

His

Val

Glu 330

Ala

Gly

Ala

Val

Asp 335

Tyr

Val

Glu

Thr

His 340

Gly

Thr

Gly

Thr

Ser 345

Leu

Gly

Asp

Pro

Ile 350

Glu

Val

Glu

Ala

Leu 355

Arg

Ala

Thr

Val

Gly 360

Pro

Ala

Arg

Ser

Asp 365

Gly

Thr

Arg

Cys

Val 370

Leu

Gly

Ala

Val

Lys 375

Thr

Asn

Ile

Gly

His 380

Leu

Glu

Ala

• · • ·

- 121

Ala 385

Gly

Val

Ala

Gly

Leu 390

Ile

Lys

Ala

Leu 395

Ser

Leu

Thr

His

Glu 400

Arg

Ile

Pro

Arg

Asn 405

Leu

Asn

Phe

Arg

Thr 410

Leu

Asn

Pro

Arg

Ile 415

Arg

Leu

Glu

Gly

Ser 420

Ala

Leu

Ala

Leu

Ala 425

Thr

Glu

Pro

Val

Pro 430

Trp

Pro

Arg

Thr

Asp 435

Arg

Pro

Arg

Phe

Ala 440

Gly

Val

Ser

Phe 445

Gly

Met

Ser

Gly

Thr 450

Asn

Ala

His

Val

Val 455

Leu

Glu

Ala

Pro 460

Ala

Val

Glu

Leu

Tro 465

Pro

Ala

Pro

Glu 470

Arg

Ser

Ala

Glu

Leu 475

Leu

Val

Leu

Ser

Gly 480

Lys

Ser

Glu

Gly

Ala 485

Leu

Asp

Ala

Gin

Ala 490

Ala

Arg

Leu

Arg

Glu 495

His

Leu

Asp

Met

His 500

Pro

Glu

Leu

Gly

Leu 505

Gly

Asp

Val

Ala

Phe 510

Ser

Leu

Ala

Thr

Thr 515

Arg

Ser

Ala

Met

Ser 520

His

Arg

Leu

Ala

Val 525

Ala

Val

Thr

Ser

Arg 530

Glu

Gly

Leu

Ala 535

Ala

Leu

Ser

Ala

Val 540

Ala

Gin

Gly

Gin

Thr 545

Pro

Ala

Gly

Ala

Ala 550

Arg

cys

Ile

Ala

Ser 555

Ser

Arg

Gly

Lys 560

Leu

Ala

Phe

Leu

Phe 565

Thr

Gly

Gin

Gly

Ala 570

Gin

Thr

Pro

Gly

Met 575

Gly

Arg

Gly

Leu

Cys 580

Ala

Trp

Pro

Ala 585

Phe'

Arg

Glu

Ala

Phe 590

Asp

Arg

Cys

Val

Ala 595

Leu

Phe

Asp

Arg

Glu 600

Leu

Asp

Arg

Pro

Leu 605

Arg

Glu

Val

Met

Trp 610

Ala

Glu

Ala

Gly

Ser 615

Ala

Glu

Ser

Leu

Leu 620

Leu

Asp

Gin

Thr

Ala 625

Phe

Thr

Gin

Pro

Ala 630

Leu

Phe

Ala

Val

Glu 635

Tyr

Ala

Leu

Thr

Ala 640

Leu

Trp

Arg

Ser

Trp 645

Gly

Val

Glu

Pro

Glu 650

Leu

Val

Gly

His 655

Ser

Ile

Gly

Glu

Leu 660

Val

Ala

Cys

Val 665

Ala

Gly

Val

Phe

Ser 670

Leu

Glu

Asp

Gly

Val 675

Arg

Leu

Val

Ala

Ala 680

Arg

Gly

Arg

Leu

Met 685

Gin

Gly

Leu

Ser

Ala 690

Gly Gly

Ala

Met

Val 695

Ser

Leu

Gly

Ala

Pro 700

Glu

Ala

Glu

Val

Ala 705

Ala

Val

Ala

Pro 710

His

Ala

Ser

Val 715

Sér

Ile

Ala

Val 720

Asn Gly Pro Glu Gin Val Val Ile Ala Gly Val Glu Gin Ala Val Gin • · · · ·

-122725 730 735

Ala Ile Ala Ala 740	Gly	Phe Ala Ala Arg Gly Ala Arg Thr Lys Arg	Leu
745	750
His Val Ser His 755	Ala	Phe His Ser Pro 760	Leu Met Glu Pro Met Leu 765	Glu
Glu Phe Gly Arg 770	Val	Ala Ala Ser Val 775	Thr Tyr Arg Arg Pro Ser 780	Val
Ser Leu Val Ser 785	Asn	Leu Ser Gly Lys 790	Val Val Thr Asp Glu Leu 795	Ser 800
Ala Pro Gly Tyr	Trp 805	Val Arg His Val	Arg Glu Ala Val Arg Phe 810 815	Ala
Asp Gly Val Lys 820	Ala	Leu His Glu Ala 825	Gly Ala Gly Thr Phe Val 830	Glu
Val Gly Pro Lys 835	Pro	Thr Leu Leu Gly 840	Leu Leu Pro Ala Cys Leu 845	Pro
Glu Ala Glu Pro 850	Thr	Leu Leu Ala Ser 855	Leu Arg Ala Gly Arg Glu 860	Glu
Ala Ala Gly Val 865	Leu	Glu Ala Leu Gly 870	Arg Leu Trp Ala Ala Gly Gly 875 880
Ser Val Ser Trp	Pro 885	Gly Val Phe Pro	Thr Ala Gly Arg Arg Val 890 895	Pro
Leu Pro Thr Tyr 900	Pro	Trp Gin Arg Gin 905	Arg Tyr Trp Ile Glu Ala 910	Pro
Ala Glu Gly Leu 915	Gly	Ala Thr Ala Ala 920	Asp Ala Leu Ala Gin Tro 925	Phe
Tyr Arg Val Asp 930	Trp	Pro Glu Met Pro 935	Arg Ser Ser Val Asp Ser 940	Arg
Arg Ala Arg Ser 945	Gly Gly Trp Leu Val 950	Leu Ala Asp Arg Gly Gly 955	Val 960
Gly Glu Ala Ala	Ala 965	Ala Ala Leu Ser	Ser Gin Gly Cys Ser Cys 970 975	Ala
Val Leu His Ala 980	Pro	Ala Glu Ala Ser 985	Ala Val Ala Glu Gin Val 990	Thr
Gin Ala Leu Gly 995	Gly	Arg Asn Asp Trp 1000	Gin Gly Val Leu Tyr Leu 1005	Trp
Gly Leu Asp Ala 1010	Val	Val Glu Ala Gly 1015	Ala Ser Ala Glu Glu Val 1020	Ala
Lys Val Thr His 1025	Leu Ala Ala Ala Pro 1030	Val Leu Ala Leu Ile Gin Ala 1035 1040
Leu Gly Thr Gly Pro 1045	Arg Ser Pro Arg Leu Trp Ile Val Thr Arg Gly 1050 1055
Ala Cys Thr Val Gly Gly Glu Pro Asp Ala Ala Pro Cys Gin Ala	Ala

1060 , 1065 1070 • · ··· ···· ···· ··· · · ···· ······ · ♦ · · ·· · • · · · · · · · ··« · ··· ···· ·· ·*

- 123 -

Leu	Trp Gly Met Gly Arg Val Ala Ala Leu Glu His Pro	Gly	Ser	Trp
1075	1080	1085
Gly Gly Leu Val Asp	Leu Asp Pro	Glu Glu Ser Pro Thr	Glu	Val	Glu
1090	1095	1100
Ala	Leu Val Ala Glu	Leu Leu Ser	Pro Asp Ala Glu Asp	Gin	Leu	Ala
1105	1110	1115		1120
Phe	Arg Gin Gly Arg	Arg Arg Ala	Ala Arg Leu Val Ala	Ala	Pro	Pro
	1125		1130	1135
Glu	Gly Asn Ala Ala	Pro Val Ser	Leu Ser Ala Glu Gly	Ser	Tyr	Leu
	1140	1145	1150
Val	Thr Gly Gly Leu	Gly Ala Leu	Gly Leu Leu Val Ala	Arg	Trp	Leu
	1155	1160	1165
Val	Glu Arg Gly Ala	Gly His Leu	Val Leu Ile Ser Arg	His	Gly	Leu
1170	1175	1180
Pro	Asp Arg Glu Glu	Trp Gly Arg	Aso Gin Pro Pro Glu	Val	Arg	Ala
1185	1190	1195		1200
Arg	Ile Ala Ala Ile	Glu Ala Leu	Glu Ala Gin Gly Ala	Arg	Val	Thr
	1205		1210	1215
Val	Ala Ala Val Aso	Val Ala Asp	Ala Glu Gly Met Ala	Ala	Leu	Leu
	1220	1225	L230
Ala	Ala Val Glu Pro	Pro Leu Arg	Gly Val Val His Ala	Ala	Gly	Leu
	.123 5	1240	1245
Leu	Asp Asp Gly Leu	Leu Ala His	Gin Aso Ala Gly Arg	Leu	Ala	Arg
1250	1255	1260
Val	Leu Arg Pro Lys	Val Glu Gly	Ala Trp Val Leu His	Thr	Leu	Thr
1265	1270	1275		1280
Arg	Glu Gin Pro Leu	Asp Leu Phe	Val Leu Phe Ser Ser	Ala	Ser	Gly
	1285		1290	1295
Val	Phe Gly Ser Ile	Gly Gin Gly	Ser Tyr Ala Ala Gly	Asn	Ala	Phe
	1300	1305 1310
Leu	Asp Ala Leu Ala	Asp Leu Arg	Arg Thr Gin Gly Leu	Ala	Ala	Leu
	1315	1320	1325
Ser	Ile Ala Trp Gly	Leu Trp Ala	Glu Gly Gly Met Gly	Ser	Gin	Ala
1330	1335	1340
Gin	Arg Arg Glu His	Glu Ala Ser	Gly Ile Trp Ala Met	Pro	Thr	Ser
1345	L350	1355		1360
Arg	Ala Leu Ala Ala	Met Glu Trp	Leu Leu Gly Thr Arg	Ala	Thr	Gin
	1365		1370	1375
Arg	Val Val Ile Gin	Met Asp Trp	Ala His Ala Gly Ala	Ala	Pro	Arg
	1380	1385 1390
Asp	Ala Ser Arg Gly	Arg Phe Trp Asp Arg Leu Val Thr Ala	Thr	Lys
	1395	1400	1405

Glu Ala Ser Ser Ser Ala Val Pro Ala Val Glu Arg Trp Arg Asn Ala 1410 1415 1420

- 124 -

Ser Val Val Glu Thr Arg Ser Ala Leu Tyr Glu Ley Val Arg Gly Val
1425	1430	1435	1440
Val Ala	Gly Val Mec Gly Phe	Thr Asp Gin Gly Thr	Leu Asp Val Arg
	1445	1450	1455
Arg Gly	Phe Ala Glu Gin Gly	Leu Asp Ser Leu MeC	Ala Val Glu Ile
	1460	1465	1470
Arg Lys	Arg Leu Gin Gly Glu	Leu Gly MeC Pro Leu	Ser Ala Thr Leu
1475	1480	1485
Ala Phe	Asp His Pro Thr Val	Glu Arg Leu Val Glu	Tyr Leu Leu Ser
1490	1495	1500
Gin Ala	Leu Glu Leu Gin Asd	Arg Thr Asp Val Arg	Ser Val Arg Leu
1505	1510	1515	1520
Pro Ala	Thr Glu Asp Pro Ile	Ala Ile Val Gly Ala	Ala Cys Arg Phe
	1525	1530	1535
Pro Gly	Gly Val Glu Asp Leu	Glu Ser Tyr Trp Gin	Leu Leu Thr Glu
	1540	1545	1550
Gly Val	Val Val Ser Thr Glu	Val Pro Ala Asp Arg	Trp Asn Gly Ala
1555	1560	1565
Asp Gly	Arg Val Pro Gly Ser	Gly Glu Ala Gin Arg	Gin Thr Tyr Val
1570	1575	1580
Pro Arg	Gly Gly Phe Leu Ara	Giu Val Glu Thr Phe	Asd Ala Ala Phe
1585	1590	1595	1600
Phe His	Ile Ser Pro Arg Glu	Ala MeC Ser Leu Aso	Pro Gin Gin Arg
	1605	1610	1615
Leu Leu	Leu Glu Val Ser Trp	Glu Ala Ile Glu Arg	Ala Gly Gin Asp
	1620	1625	1630
Pro Ser	Ala Leu Arg Glu Ser	Pro Thr Gly Val Phe	Val Gly Ala Gly
1635 :	L640 ;	L645
Pro Asn	Glu Tyr Ala Glu Arg	Val Gin Glu Leu Ala	Asp Glu Ala Ala
1650	1655	1660
Gly Leu	Tyr Ser Gly Thr Gly	Asn MeC Leu Ser Val	Ala Ala Gly Arg
1665	1670	1675	1680
Leu Ser	Phe Phe Leu Gly Leu	His Gly Pro Thr Leu	Ala Val Asp Thr
	1685	1690	1695
Ala Cys	Ser Ser Ser Leu Val	Ala Leu His Leu Gly	Cys Gin Ser Leu
	1700	1705	1710
Arg Arg	Gly Glu Cys Asp Gin	Ala Leu Val Gly Gly	Val Asn MeC Leu
1715 1720	1725
Leu Ser	Pro Lys Thr Phe Ala	Leu Leu Ser Arg Mec	His Ala Leu Ser
1730	1735	1740
Pro Gly Gly Arg Cys Lys Thr	Phe Ser Ala Asp Ala Asp Gly Tyr Ala
1745	1750	1755	1760

Arg Ala Glu Gly Cys Ala Val Val Val Leu Lys Arg Leu Ser Asp Ala • ·

125 -

	1765	1770	1775
Gin Arg Asp	Arg Asp Pro Ile Leu	Ala Val Ile Arg	Gly Thr Ala Ile
1780	1785	1790
Asn His Asp	Gly Pro Ser Ser Gly	Leu Thr Val Pro	Ser Gly Pro Ala
1795	1800	1805
Gin Glu Ala	Leu Leu Arg Gin Ala	Leu Ala His Ala	Gly Val Val Pro
1810	1815	1820
Ala Asp Val	Asp Phe Val Glu Cys	His Gly Thr Gly	Thr Ala Leu Gly
1825	1830	1835	1840
Asp Pro Ile	Glu Val Arg Ala Leu	Ser Asp Val Tyr	Gly Gin Ala Arg
	1845	1850	' 1855
Pro Ala Asp	Arg Pro Leu Ile Leu	Gly Ala Ala Lys	Ala Asn Leu Gly
1860	1865	1870
His Met Glu	Pro Ala Ala Gly Leu	Ala Gly Leu Leu	Lys Ala Val Leu
1875	1880	1885
Ala Leu Gly	Gin Glu Gin Ile Pro	Ala Gin Pro Glu	Leu Gly Glu Leu
1890	1895	1900
Asn Pro Leu	Leu Pro Trp Glu Ala	Leu Pro Val Ala	Val Ala Arg Ala
1905	1910	1915	1920
Ala Val Pro	Trp Pro Arg Thr Aso	Arg Pro Arg Phe	Ala Gly Val Ser
	1925	1930	1935
Ser Phe Gly	Met Ser Gly Thr Asn	Ala His Val Val	Leu Glu Glu Ala
1940	1945	1950
Pro Ala Val	Glu Leu Trp Pro Ala	Ala Pro Glu Arg	Ser Ala Glu Leu
1955	1960	1965
Leu Val Leu	Ser Gly Lys Ser Glu	Gly Ala Leu Asp	Ala Gin Ala Ala
1970	1975	1980
Arg Leu Arg	Glu His Leu Asp Met	His Pro Glu Leu	Gly Leu Gly Asp
1985	1990	1995	2000
Val Ala Phe	Ser Leu Ala Thr Thr	Arg Ser Ala Met	Asn His Arg Leu
	2005	2010	2015
Ala Val Ala	Val Thr Ser Arg Glu	Gly Leu Leu Ala	Ala Leu Ser Ala
2020 2025	2030
Val Ala Gin	Gly Gin Thr Pro Pro	Gly Ala Ala Arg	Cys Ile Ala Ser
2035	2040	2045
Ser Ser Arg	Gly Lys Leu Ala Phe	Leu Phe Thr Gly	Gin Gly Ala Gin
2050	2055	2060
Thr Pro Gly	Met Gly Arg Gly Leu	Cys Ala Ala Trp	Pro Ala Phe Arg
2065	2070	2075	2080
Glu Ala Phe	Asp Arg Cys Val Ala	Leu Phe Asp Arg	Glu Leu Asp Arg
	2085	2090	2095
Pro Leu Arg	Glu Val Met Trp Ala	Glu Pro Gly Ser	Ala Glu Ser Leu
2100 - 2105	2110

• · • · • ·

- 126 -

Leu	Leu Asp Gin Thr Ala Phe Thr Gin Pro Ala Leu Phe	Thr	Val	Glu
2115	2120	2125
Tyr Ala Leu Thr Ala	Leu Trp Arg	Ser Trp Gly Val Glu	Pro	Glu	Leu
2130	2135	2140
Val	Ala Gly His Ser	Ala Gly Glu	Leu Val Ala Ala Cys	Val	Ala	Gly
2145	2150	2155		2160
Val	Phe Ser Leu Glu	Asp Gly Val	Arg Leu Val Ala Ala	Arg	Gly	Arg
	2165		2170	2175
Leu	Met Gin Gly Leu	Ser Ala Gly Gly Ala Met Val Ser	Leu	Gly	Ala
	2180	2185 :	2190
Pro	Glu Ala Glu Val	Ala Ala Ala	Val Ala Pro His Ala	Ala	Ser	Val
	2195	2200	2205
Ser	Ile Ala Ala Val	Asn Gly Pro	Glu Gin Val Val Ile	Ala	Gly	Val
2210	2215	2220
Glu	Gin Ala Val Gin	Ala Ile Ala	Ala Gly Phe Ala Ala	Arg	Gly	Ala
2225	2230	2235		2240
Arg	Thr Lys Arg Leu	His Val Ser	His Ala Ser His Ser	Pro	Leu	Met
	2245		2250	2255
Glu	Pro Met Leu Glu	Glu Phe Gly	Arg Val Ala Ala Ser	Val	Thr	Tyr
	2260	2265 :	2270
Arg	Arg Pro Ser Val	Ser Leu Val	Ser Asn Leu Ser Gly	Lys	Val	Val
	2275	2280	2285
Ala	Asp Glu Leu Ser	Ala Pro Gly	Tyr Trp Val Arg His	Val	Arg	Glu
2290	2295	2300
Ala	Val Arg Phe Ala	Asp Gly Val	Lys Ala Leu His Glu	Ala	Gly	Ala
2305 :	2310	2315		2320
Gly	Thr Phe Val Glu	Val Gly Pro	Lys Pro Thr Leu Leu	Gly	Leu	Leu
	2325		2330	2335
Pro	Ala Cys Leu Pro	Glu Ala Glu	Pro Thr Leu Leu Ala	Ser	Leu	Arg
	2340	2345 2350
Ala	Gly Arg Glu Glu	Ala Ala Gly	Val Leu Glu Ala Leu	Gly	Arg	Leu
	2355	2360	2365
Trp	Ala Ala Gly Gly	Ser Val Ser	Trp Pro Gly Val Phe	Pro	Thr	Ala
2370	2375	2380
Gly Arg Arg Val Pro	Leu Pro Thr	Tyr Pro Trp Gin Arg	Gin	Arg	Tyr
2385	2390	2395		2400
Trp	Pro Asp Ile Glu	Pro Asp Ser	Arg Arg His Ala Ala	Ala	Asp	Pro
	2405		2410	2415
Thr	Gin Gly Trp Phe	Tyr Arg Val	Asp Trp Pro Glu Ile	Pro	Arg	Ser
	2420	2425 2430
Leu	Gin Lys Ser Glu	Glu Ala Ser Arg Gly Ser Trp Leu Val	Leu	Ala
	2435	2440	2445

Asp Lys Gly Gly Val Gly Glu Ala Val Ala Ala Ala Leu Ser Thr Arg 2450 2455 ' 2460 • ·

- 127 -

Gly Leu Pro Cys Val Val Leu His Ala Pro Ala Glu Thr Ser Ala Thr
2465	2470	2475	2480
Ala Glu	Leu Val Thr Glu	Ala Ala Gly Gly Arg	Ser Asp Trp Gin Val
	2485	2490	2495
Val Leu	Tyr Leu Trp Gly	Leu Asp Ala Val Val	Gly Ala Glu Ala Ser
	2500	2505	2510
Ile Asp	Glu Ile Gly Asp	Ala Thr Arg Arg Ala	Thr Ala Pro Val Leu
2515	2520	2525
Gly Leu	Ala Arg Phe Leu	Ser Thr Val Ser Cys	Ser Pro Arg Leu Trp
2530	2535 :	2540
Val Val	Thr Arg Gly Ala	Cys Ile Val Gly Asp	Glu Pro Ala Ile Ala
2545	2550	2555	2560
Pro Cys	Gin Ala Ala Leu	Trp Gly Met Gly Arg	Val Ala Ala Leu Glu
	2565	2570	2575
His Pro	Gly Ala Trp Gly	Gly Leu Val Asp Leu	Asp Pro Arg Ala Ser
	2580	2585	2590
Pro Pro	Gin Ala Ser Pro	Ile Asp Gly Glu Met	Leu Val Thr Glu Leu
2595	2600	2605
Leu Ser	Gin Glu Thr Glu	Asp Gin Leu Ala Phe	Arg His Gly Arg Arg
2610	2615 2620
His Ala	Ala Arg Leu Val	Ala Ala Pro Pro Gin	Gly Gin Ala Ala Pro
2625	2630	2635	2640
Val Ser	Leu Ser Ala Glu	Ala Ser Tyr Leu Val	Thr Gly Gly Leu Gly
	2645	2650	2655
Gly Leu	Gly Leu Ile Val	Ala Gin Trp Leu Val	Glu Leu Gly Ala Arg
	2660	2665	2670
His Leu	Val Leu Thr Ser	Arg Arg Gly Leu Pro	Asp Arg Gin Ala Trp
2675	2680	2685
Cys Glu	Gin Gin Pro Pro	Glu Ile Arg Ala Arg	Ile Ala Ala Val Glu
2690	2695 2700
Ala Leu	Glu Ala Arg Gly	Ala Arg Val Thr Val	Ala Ala Val Asp Val
2705	2710	2715	2720
Ala Asp	Val Glu Pro Met	Thr Ala Leu Val Ser	Ser· Val Glu Pro Pro
	2725	2730	2735
Leu Arg	Gly Val Val His	Ala Ala Gly Val Ser	Val Met Arg Pro Leu
	2740	2745	2750
Ala Glu	Thr Asp Glu Thr	Leu Leu Glu Ser Val	Leu Arg Pro Lys Val
2755	2760	2765
Ala Gly	Ser Trp Leu Leu	His Arg Leu Leu His	Gly Arg Pro Leu Asp
2770	2775 2780
Leu Phe	Val Leu Phe Ser	Ser Gly Ala Ala Val	Trp Gly Ser His Ser
2785	2790	2795	2800
Gin Gly	Ala Tyr Ala Ala	Ala Asn Ala Phe Leu	Asp Gly Leu Ala His

- 128 • Λ

	2805	2810	2815
Leu Arg	Arg Ser Gin Ser Leu Pro	Ala Leu Ser Val	Ala Trp Gly Leu
	2820 :	2825	2830
Trp Ala	Glu Gly Gly Met Ala Asp	Ala Glu Ala His	Ala Arg Leu Ser
2835 2840	2845
Aso Ile	Gly Val Leu Pro Met Ser	Thr Ser Ala Ala	Leu Ser Ala Leu
2350	2855	2860
Gin Arg	Leu Val Glu Thr Gly Ala	Ala Gin Arg Thr	Val Thr Arg Met
2865	2870	2875	2880
Asp Trp	Ala Arg Phe Ala Pro Val	Tyr Thr Ala Arg	Gly Arg Arg Asn
	2885	2890	2895
Leu Leu	Ser Ala Leu Val Ala Gly	Arg Asp Ile Ile	Ala Pro Ser Pro
	2900 :	2905	2910
Pro Ala	Ala Ala Thr Arg Asn Trp	Arg Gly Leu Ser	Val Ala Glu Ala
2915 2920	2925
Arg Val	Ala Leu His Glu Ile Val	His Gly Ala Val	Ala Arg Val Leu
2930	2935	2940
Gly Phe	Leu Asp Pro Ser Ala Leu	Asp Pro Gly· Met	Gly Phe Asn Glu
2945	2950	2955	2960
Gin Gly	Leu Asd Ser Leu Met Ala	Val Glu Ile Arg	Asn Leu Leu Gin
	* 2965	2970	2975
Ala Glu	Leu Asp Val Arg Leu Ser	Thr Thr Leu Ala	Phe Aso His Pro
	2980 :	2985	299*0
Thr Val	Gin Arg Leu Val Glu His	Leu Leu Val Asp	Val Leu Lys Leu
2995 3000	3005
Glu Asp	Arg Ser Asp Thr Gin His	Val Arg Ser Leu	Ala Ser Asp Glu
3010	3015	3020
Pro Ile	Ala Ile Val Gly Ala Ala	Cys Arg Phe Pro	Gly Gly Val Glu
3025	3030	3035	3040
Asp Leu	Glu Ser Tyr Trp Gin Leu	Leu Ala Glu Gly	Val Val Val Ser
	3045	3050	3055
Ala Glu	Val Pro Ala Asp Arg Trp	Asp Ala Ala Asp	Trp Tyr Asp Pro
	3060 3065	3070
Asp Pro	Glu Ile Pro Gly Arg Thr	Tyr Val Thr Lys	Gly Ala Phe Leu
3075 3080	3085
Arg Asp	Leu Gin Arg Leu Asp Ala	Thr Phe Phe Arg	Ile Ser Pro Arg
3090	3095	3100
Glu Ala	Met Ser Leu Asp Pro Gin	Gin Arg Leu Leu	Leu Glu Val Ser
3105	3110	3115	3120
Trp Glu	Ala Leu Glu Ser Ala Gly	Ile Ala Pro Asp	Thr Leu Arg Asp
	3125	3130	3135

Ser Pro Thr Gly Val Phe Val Gly Ala Gly Pro Asn Glu Tyr Tyr Thr 3140 3145 3150

- 129 -

Gin Arg Leu Arg Gly Phe Thr Asp Gly Ala Ala Gly Leu Tyr Gly Gly 3155 3160 3165

Thr Gly 3170	Asn	Met Leu Ser Val Thr Ala Gly Arg Leu	Ser	Phe	Phe	Leu
3175	3180
Gly Leu	His	Gly Pro Thr Leu Ala Met Asp	Thr Ala	Cys	Ser	Ser	Ser
3185		3190 3195			3200
Leu Val	Ala	Leu His Leu Ala Cys Gin Ser	Leu Arg	Leu	Gly	Glu	Cys
		3205 3210			3215
Asp Gin	Ala	Leu Val Gly Gly Val Asn Val	Leu Leu	Ala	Pro	Glu	Thr
	3220 3225		3230
Phe Val	Leu	Leu Ser Arg Met Arg Ala Leu	Ser Pro	Asp	Gly	Arg	Cys
3235	3240	3245
Lys Thr	Phe	Ser Ala Asp Ala Asp Gly Tyr	Ala Arg	Gly	Glu	Gly	Cys
3250		3255	3260
Ala Val	Val	Val Leu Lys Arg Leu Arg Asp	Ala Gin	Arg	Ala	Gly	Asp
3265		3270 3275			3230
Ser Ile	Leu	Ala Leu Ile Arg Gly Ser Ala	Val Asn	His	Asp	Gly	Pro
		3285 3290			3295
Ser Ser	Gly	Leu Thr Val Pro Asn Gly Pro	Ala Gin	Gin	Ala	Leu	Leu
	3300 3305		3310
Arg Gin	Ala	Leu Ser Gin Ala Gly Val Ser	Pro Val	Asp	Val	Asp	Phe
	3315	3320	3325
Val Glu	Cys	His Gly Thr Gly Thr Ala Leu	Gly Asd	Pro	Ile	Glu	Val
3330		3335	3340
Gin Ala	Leu	Ser Glu Val Tyr Gly Pro Gly	Arg Ser	Gly	Asp	Arg	Pro
3345		3350 3355			3360
Leu Val	Leu	Gly Ala Ala Lys Ala Asn Val	Ala His	Leu	Glu	Ala	Ala
		3365 3370			3375
Ser Gly	Leu	Ala Ser Leu Leu Lys Ala Val	Leu Ala	Leu	Arg	His	Glu
	3380 3385		3390
Gin Ile	Pro	Ala Gin Pro Glu Leu Gly Glu	Leu Asn	Pro	His	Leu	Pro
3395	3400	3405
Trp Asn	Thr	Leu Pro Val Ala Val Pro Arg	Lys Ala	Val	Pro	Trp	Gly
3410		3415	3420
Arg Gly	Ala	Arg Pro Arg Arg Ala Gly Val	Ser Ala	Phe	Gly	Leu	Ser
3425		3430 3435			3440
Gly Thr	Asn	Val His Val Val Leu Glu Glu	Ala Pro	Glu	Val	Glu	Pro
		3445 3450			3455
Ala Pro	Ala	Ala Pro Ala Arg Pro Val Glu	Leu Val	Val	Leu	Ser	Ala
	3460 3465		3470
Lys Ser	Ala	Ala Ala Leu Asp Ala Ala Ala	Ala Arg	Leu	Ser	Ala	His

3475 3480 3485

Leu Ser Ala His Pro Glu Leu Ser Leu Gly Asp Val Ala Phe Ser Leu 3490 3495 3500 • · • ·

- 130 -

Ala Thr Thr Arg Ser Pro Met Glu His Arg Leu Ala Ile Ala Thr Thr
3505	3510	3515	3520
Ser Arg	Glu Ala Leu Arg Gly	Ala Leu Asp Ala Ala	Ala Gin Gin Lys
	3525	3530	3535
Thr Pro	Gin Gly Ala Val Arg	Gly Lys Ala Val Ser	Ser Arg Gly Lys
	3540	3545	3550
Leu Ala	Phe Leu Phe Thr Gly	Gin Gly Ala Gin Met	Pro Gly Met Gly
3555	3560	3565
Arg Gly	Leu Tyr Glu Thr Trp	Pro Ala Phe Arg Glu	Ala Phe Asp Arg
3570	3575	3580
Cys Val	Ala Leu Phe Ast> Arg	Glu Ile Asp Gin Pro	Leu Arg Glu Val
3585	3590	3595	3600
Met Trp	Ala Ala Pro Gly Leu	Ala Gin Ala Ala Arg	Leu Asp Gin Thr
	3605	3610	3615
Ala Tyr	Ala Gin Pro Ala Leu	Phe Ala Leu Glu Tyr	Ala Leu Ala Ala
	3620	3625	3630
Leu Trp	Arg Ser Trp Gly Val	Glu Pro His Val Leu	Leu Gly His Ser
3635	3640 3645
Ile Gly	Glu Leu Val Ala Ala	Cys Val Ala Gly Val	Phe Ser Leu Glu
3650	3655	3660
Asp Ala	Val Arg Leu Val Ala	Ala Arg Gly Arg Leu	Met Gin Ala Leu
3665	3670	3675	3680
Pro Ala	Gly Gly Ala Met Val	Ala Ile Ala Ala Ser	Glu Ala Glu Val
	3685	3690	3695
Ala Ala	Ser Val Ala Pro His	Ala Ala Thr Val Ser	Ile Ala Ala Val
	3700	3705	3710
Asn Gly	Pro Asp Ala Val Val	Ile Ala Gly Ala Glu	Val Gin Val Leu
3715 3720 3725
Ala Leu	Gly Ala Thr Phe Ala	Ala Arg Gly Ile Arg	Thr Lys Arg Leu
3730	3735	3740
Ala Val	Ser His Ala Phe His	Ser Pro Leu Met Asp	Pro Met Leu Glu
3745	3750	3755	3760
Asp Phe	Gin Arg Val Ala Ala	Thr Ile Ala Tyr Arg	Ala Pro Asp Arg
	3765	3770	3775
Pro Val	Val Ser Asn Val Thr	Gly His Val Ala Gly	Pro Glu Ile Ala
	3780	3785	3790
Thr Pro	Glu Tyr Trp Val Arg	His Val Arg Ser Ala	Val Arg Phe Gly
3795 3800 3805
Asp Gly	Ala Lys Ala Leu His	Ala Ala Gly Ala Ala	Thr Phe Val Glu
3810	3815	3820
Val Gly	Pro Lys Pro Val Leu	Leu Gly Leu Leu Pro	Ala Cys Leu Gly
3825	3830	3835	3840

Glu Ala Asp'Ala Val Leu Val Pro Ser Leu Arg Ala Asp Arg Ser Glu • ·

-1313845 3850 3855

Cys Glu Val Val	Leu	Ala Ala Leu Gly Ala Trp Tyr Ala Trp Gly	Gly
	3860	3865	3870
Ala	Leu Asp Trp	Lys	Gly Val Phe Pro Asp Gly Ala Arg Arg Val	Ala
	3875		3880	3885
Leu	Pro Met Tyr	Pro	Trp Gin Arg Glu Arg His	Trp Met Asp Leu	Thr
3890		3895	3900
Pro	Arg Ser Ala	Ala	Pro Ala Gly Ile Ala Gly	Arg Trp Pro Leu	Ala
3905	3910 3915	3920
Gly	Val Gly Leu	Cys	Met Pro Gly Ala Val Leu	His His Val Leu	Ser
	3925	3930	3935
Ile	Gly Pro Arg	His	Gin Pro Phe Leu Gly Asp	His Leu Val Phe	Gly
	3940		3945	3950
Lys	Val Val Val	Pro	Gly Ala Phe His Val Ala	Val Ile Leu Ser	Ile
	3955		3960	3965
Ala	Ala Glu Arg	Trp	Pro Glu Arg Ala Ile Glu	Leu Thr Gly Val	Glu
3970		3975	3980
Phe	Leu Lys Ala	Ile	Ala Met Glu Pro Asp Gin	Glu Val Glu Leu	His
3985	3990 3995	4000
Ala	Val Leu Thr	Pro	Glu Ala Ala Gly Asp Gly	Tyr Leu Phe Glu	Leu
	4005	4010	4015
Ala	Thr Leu Ala	Ala	Pro Glu Thr Glu Arg Arg	Trp Thr Thr His	Ala
	4020		4025	4030
Arg	Gly Arg Val	Gin	Pro Thr Aso Gly Ala Pro	Gly Ala Leu Pro	Arg
	4035		4040	4045
Leu	Glu Val Leu	Glu	Asp Arg Ala Ile Gin Pro	Leu Asp Phe Ala	Gly
4050		4055 40.60
Phe	Leu Asp Arg	Leu	Ser Ala Val Arg Ile Gly	Trp Gly Pro Leu	Trp
4065	4070 4075	4080
Arg	Trp Leu Gin	Asp	Gly Arg Val Gly Asp Glu	Ala Ser Leu Ala	Thr
	4085	4090	4095
Leu	Val Pro Thr	Tyr	Pro Asn Ala His Asp Val	Ala Pro Leu His	Pro
	4100		4105	4110
Ile	Leu Leu Asp	Asn	Gly Phe Ala Val Ser Leu	Leu Ser Thr Arg	Ser
	4115		4120	4125
Glu	Pro Glu Asp	Asp	Gly Thr Pro Pro Leu Pro	Phe Ala Val Glu	Arg
4130		4135 4140
Val	Arg Trp Trp	Arg	Ala Pro Val Gly Arg Val	Arg Cys Gly Gly	Val
4145	4150 4155	4160
Pro	Arg Ser Gin	Ala	Phe Gly Val Ser Ser Phe	Val Leu Val Asp Glu

4165 4170 4175

Thr Gly Glu Val Val Ala Glu Val Glu Gly Phe Val Cys Arg Arg Ala 4180 4185 4190 • 0 • 0 · 0

- 132 0 00··

Pro Arg Glu Val	Phe Leu Arg Gin Glu Ser Gly Ala Ser Thr Ala	Ala
	4195	4200	4205
Leu	Tyr Arg Leu	Asp Trp Pro Glu Ala	Pro Leu Pro Asp Ala Pro	Ala
4210	4215	4220
Glu	Arg Ile Glu	Glu Ser Trp Val Val	Val Ala Ala Pro Gly Ser	Glu
4225	4230	4235	4240
Met	Ala Ala Ala	Leu Ala Thr Arg Leu	Asn Arg Cys Val Leu Ala	Glu
	4245	4250 4255
Pro	Lys Gly Leu	Glu Ala Ala Leu Ala	Gly Val Ser Pro Ala Gly	Val
	4260	4265	4270
Ile	Cys Leu Trp	Glu Ala Gly Ala His	Glu Glu Ala Pro Ala Ala	Ala
	4275	4280	4285
Gin	Arg Val Ala	Thr Glu Gly Leu Ser	Val Val Gin Ala Leu Arg	Asp
4290	4295	4300
Arg	Ala Val Arg	Leu Trp Trp Val Thr	Met Gly Ala Val Ala Val	Glu
4305	4310	4315	4320
Ala	Gly Glu Arg	Val Gin Val Ala Thr	Ala Pro Val Trp Gly Leu	Gly
	4325	4330 4335
Arg	Thr Val Met	Gin Glu Arg Pro Glu	Leu Ser Cys Thr Leu Val	Asp
	4340	4345	4350
Leu	Glu Pro Glu	Ala Asp Ala Ala Arg	Ser Ala Asp Val Leu Leu	Arg
	4355	4360	43 65
Glu	Leu Gly Arg	Ala Asp Aso Glu Thr	Gin Val Ala Phe Arg Ser	Gly
4370	4375	4380
Lys	Arg Arg Val	Ala Arg Leu Val Lys	Ala Thr Thr Pro Glu Gly	Leu
4385	4390	4395 4400
Leu	Val Pro Asp	Ala Glu Ser Tyr Arg	Leu Glu Ala Gly Gin Lys	Gly
	4405	4410 4415
Thr	Leu Asp Gin	Leu Arg Leu Ala Pro	Ala Gin Arg Arg Ala Pro	Gly
	4420	4425	4430
Pro	Gly Glu Val	Glu Ile Lys Val Thr	Ala Ser Gly Leu Asn Phe	Arg
	4435	4440	4445
Thr	Val Leu Ala	Val Leu Gly Met Tyr	Pro Gly Asp Ala Gly Pro	Met
4450	4455	4460
Gly Gly Asp Cys	Ala Gly Val Ala Thr	Ala Val Gly Gin Gly Val	Arg
4465	4470	4475 4480
His	Val Ala Val	Gly Asp Ala Val Met	Thr Leu Gly Thr Leu His	Arg
	4485	4490 4495
Phe	Val Thr Val	Asp Ala Arg Leu Val	Val Arg Gin Pro Ala Gly	Leu
	4500	4505	4510
Thr	Pro Ala Gin	Ala Ala Thr Val Pro	Val Ala Phe Leu Thr Ala	Trp
	4515	4520	4525

Leu Ala Leu His Asp Leu Gly Asn Leu Arg Arg Gly Glu Arg Val Leu 4530 4535 4540

133

Ile His Ala Ala Ala Gly Gly Val Gly Met Ala Ala Val Gin Ile Ala
4545	4550	4555	4560
Arg Trp Ile Gly Ala Glu	Val Phe Ala Thr Ala	Ser Pro Ser Lys Trp
4565	4570	4575
Ala Ala Val Gin	Ala Met	Gly Val Pro Arg Thr	His Ile Ala Ser Ser
4580		4585	4590
Arg Thr Leu Glu	Phe Ala	Glu Thr Phe Arg Gin	Val Thr Gly Gly Arg
4595		4600	4605
Gly Val Asp Val	Val Leu	Asn Ala Leu Ala Gly	Glu Phe Val Asp Ala
4610	4615	4620
Ser Leu Ser Leu	Leu Ser	Thr Gly Gly Arg Phe	Leu Glu Met Gly Lys
4625	4630	4635	4640
Thr Asp Ile Arg	Asp Arg	Ala Ala Val Ala Ala	Ala His Pro Gly Val
4645	4650	4655
Arg Tyr Arg Val	Phe Asp	Ile Leu Glu Leu Ala	Pro Asp Arg Thr Arg
4660		4665	4670
Glu Ile Leu Glu	Arg Val	Val Glu Gly Phe Ala	Ala Gly His Leu Arg
4675		4680	4685
Ala Leu Pro Val	His Ala	Phe Ala Ile Thr Lys	Ala Glu Ala Ala Phe
4690	4695 4700
Arg Phe Met Ala	Gin Ala	Arg His Gin Gly Lys	Val Val Leu Leu Pro
4705	4710	4715	4720
Ala Pro Ser Ala	Ala Pro	Leu Ala Pro Thr Gly	Thr Val Leu Leu Thr
4725	4730	4735
Gly Gly Leu Gly	Ala Leu	Gly Leu His Val Ala	Arg Trp Leu Ala Gin
4740		4745	4750
Gin Gly Val Pro	His Met	Val Leu Thr Gly Arg	Arg Gly Leu Asp Thr
4755		4760	4765
Pro Gly Ala Ala	Lys Ala	Val Ala Glu Ile Glu	Ala Leu Gly Ala Arg
4770	4775 4780
Val Thr Ile Ala	Ala Ser	Asp Val Ala Asp Arg	Asn Ala Leu Glu Ala
4785	4790	4795	4800
Val Leu Gin Ala	Ile Pro	Ala Glu Trp Pro Leu	Gin Gly Val Ile His
4305	4810	4815
Ala Ala Gly Ala	Leu Asp	Asp Gly Val Leu Asp	Glu Gin Thr Thr Asp
4820		4825	4830
Arg Phe Ser Arg	Val Leu	Ala Pro Lys Val Thr	Gly Ala Trp Asn Leu
4835		4840	4845
His Glu Leu Thr	Ala Gly	Asn Asp Leu Ala Phe	Phe Val Leu Phe Ser
4850	4855 4860
Ser Met Ser Gly	Leu Leu Gly Ser Ala Gly Gin	Ser Asn Tyr Ala Ala

4865 4870 4875 4880

Ala Asn Thr Phe Leú Asp Ala Leu Ala Ala His Arg Arg Ala Glu Gly

34

4885 4890 4895

Leu Ala Ala Gin	Ser	Leu Ala Trp Gly Pro Trp Ser Asp Gly Gly	Met
	4900	4905	4910
Ala	Ala Gly Leu	Ser	Ala Ala Leu Gin Ala Arg	Leu Ala Arg His	Gly
	4915		4920	4925
Met	Gly Ala Leu	Ser	Pro Ala Gin Gly Thr Ala	Leu Leu Gly Gin	Ala
4930		4935	4940
Leu	Ala Arg Pro	Glu	Thr Gin Leu Gly Ala Met	Ser Leu Asp Val	Arg
4945	4950 4955	4960
Ala	Ala Ser Gin	Ala	Ser Gly Ala Ala Val Pro	Pro Val Trp Arg	Ala
	4965	4970	4975
Leu	Val Arg Ala	Glu	Ala Arg His Thr Ala Ala	Gly Ala Gin Gly	Ala
	4980		4985	4990
Leu	Ala Ala Arg	Leu	Gly Ala Leu Pro Glu Ala	Arg Arg Ala Asp	Glu
	4995		5000	5005
Val	Arg Lys Val	Val	Gin Ala Glu Ile Ala Arg	Val Leu Ser Trp	Ser
5010		5015 !	5020
Ala	Ala Ser Ala	Val	Pro Val Asp Arg Pro Leu	Ser Asp Leu Gly	Leu
5025	5030 5035	5040
Asp	Ser Leu Thr	Ala	Val Glu Leu Arg Asn Val	Leu Gly Gin Arg	Val
	5045	5050	5055
Gly	Ala Thr Leu	Pro	Ala Thr Leu Ala Phe Asp	His Pro Thr Val	Asp
	5060		5065	5070
Ala	Leu Thr Arg	Trp	Leu Leu Asd Lys Val Leu	Ala Val Ala Glu	Pro
	5075		5080	5085
Ser	Val Ser Ser	Ala	Lys Ser Ser Pro Gin Val	Ala Leu Asd Glu	Pro
5090		5095 !	5100
Ile	Ala Ile Ile	Gly	Ile Gly Cys Arg Phe Pro	Gly Gly Val Ala	Asp
5105	5110 5115	5120
Pro	Glu Ser Phe	Trp	Arg Leu Leu Glu Glu Gly	Ser Asp Ala Val	Val
	5125	5130	5135
Glu	Val Pro His	Glu	Arg Trp Asd Ile Asp Ala	Phe Tyr Asp Pro	Asp
	5140		5145	5150
Pro	Asp Val Arg	Gly	Lys Met Thr Thr Arg Phe	Gly Gly Phe Leu	Ser
	5155		5160	5165
Asp	Ile Asp Arg	Phe	Asp Pro Ala Phe Phe Gly	Ile Ser Pro Arg	Glu
5170		5175 !	5180
Ala	Thr Thr Met	Asp	Pro Gin Gin Arg Leu Leu	Leu Glu Thr Ser	Trp
5185	5190 5195	5200
Glu	Ala Phe Glu	Arg	Ala Gly Ile Leu Pro Glu	Arg Leu Met Gly Ser

5205 5210 5215

Asp Thr Gly Val Phe Val Gly Leu Phe Tyr Gin Glu Tyr Ala Ala Leu 5220 5225 5230 • ·

- 135 -

Ala Gly Gly Ile Glu Ala Phe Asp Gly Tyr Leu Gly Thr Gly Thr Thr
	5235	5240	5245
Ala	Ser Val Ala	Ser Gly Arg Ile	Ser Tyr Val Leu Gly Leu Lys Gly
5250	5255	5260
Pro	Ser Leu Thr	Val Asp Thr Ala	Cys Ser Ser Ser Leu Val Ala Val
5265	5270	5275 5280
His	Leu Ala Cys	Gin Ala Leu Arg	Arg Gly Glu Cys Ser Val Ala Leu
	5285	5290 5295
Ala	Gly Gly Val	Ala Leu Met Leu	Thr Pro Ala Thr Phe Val Glu Phe
	5300	5305 5310
Ser	Arg Leu Arg	Gly Leu Ala Pro	Asp Gly Arg Cys Lys Ser Phe Ser
	5315	5320	5325
Ala	Ala Ala Asp	Gly Val Gly Trp	Ser Glu Gly Cys Ala Met Leu Leu
5330	5335	5340
Leu	Lys Pro Leu	Arg Asp Ala Gin	Arg Asp Gly Asp Pro Ile Leu Ala
5345	5350	5355 5360
Val	Ile Arg Gly	Thr Ala Val Asn	Gin Asp Gly Arg Ser Asn Gly Leu
	5365	5370 5375
Thr	Ala Pro Asn	Gly Ser Ser Gin	Gin Glu Val Ile Arg Arg Ala Leu
	5380	5385 5390
Glu	Gin Ala Gly	Leu Ala Pro Ala	Aso Val Ser Tyr Val Glu Cys His
	5395	5400	5405
Gly	Thr Gly Thr	Thr Leu Gly Asp	Pro Ile Glu Val Gin Ala Leu Gly
5410	5415	5420
Ala	Val Leu Ala	Gin Gly Arg Pro	Ser Aso Arg Pro Leu Val Ile Gly
5425	5430	*5435 5440
Ser	Val Lys Ser	Asn Ile Gly His	Thr Gin Ala Ala Ala Gly Val Ala
	5445	5450 5455
Gly	Val Ile Lys	Val Ala Leu Ala	Leu Glu Arg Gly Leu Ile Pro Arg
	5460	5465 5470
Ser	Leu His Phe	Asp Ala Pro Asn	Pro His Ile Pro Trp Ser Glu Leu
	5475	5480	5485
Ala	Val Gin Val	Ala Ala Lys Pro	Val Glu Trp Thr Arg Asn Gly Val
5490	5495	5500
Pro Arg Arg Ala	Gly Val Ser Ser	Phe Gly Val Ser Gly Thr Asn Ala
5505	5510	5515 5520
His	Val Val Leu	Glu Glu Ala Pro	Ala Ala Ala Phe Ala Pro Ala Ala
	5525	5530 5535
Ala	Arg Ser Ala	Glu Leu Phe Val	Leu Ser Ala Lys Ser Ala Ala Ala
	5540	5545 5550
Leu	Asp Ala Gin	Ala Ala Arg Leu	Ser Ala His Val Val Ala His Pro
	5555	5560	5565
Glu	Leu Gly Leu	Gly Asp Leu Ala	Phe Ser Leu Ala Thr Thr Arg Ser
5570	5575	5580

- 136 -

Pro Met Thr Tyr Arg Leu Ala Val Ala Ala Thr Ser Arg Glu Ala Leu
5585	5590	5595	5600
Ser Ala Ala Leu	Asp Thr	Ala Ala Gin Gly Gin Ala	Pro Pro Ala Ala
5605	5610	5615
Ala Arg Gly His	Ala Ser	Thr Gly Ser Ala Pro Lys	Val Val Phe Val
5620		5625	5630
Phe Pro Gly Gin	Gly Ser	Gin Trp Leu Gly Met Gly	Gin Lys Leu Leu
5635		5640 !	5645
Ser Glu Glu Pro	Val Phe	Arg Asp Ala Leu Ser Ala	cys Asp Arg Ala
5650	5655 5660
Ile Gin Ala Glu	Ala Gly	Trp Ser Leu Leu Ala Glu	Leu Ala Ala Asp
5665	5670	5675	5680
Glu Thr Thr Ser	Gin Leu	Gly Arg Ile Asp Val Val	Gin Pro Ala Leu
5685	5690	5695
Phe Ala Ile Glu	Val Ala	Leu Ser Ala Leu Trp Arg	Ser Trp Gly Val
5700		5705	5710
Glu Pro Asp Ala	Val Val	Gly His Ser Met Gly Glu	Val Ala Ala Ala
5715		5720 !	5725
His Val Ala Gly	Ala Leu	Ser Leu Glu Asp Ala Val	Ala Ile Ile Cys
5730	5735 5740
Arg Arg Ser Leu	Leu Leu	Arg Arg Ile Ser Glv Gin	Glv Glu Met Ala
5745	5750	5755	5760
Val Val Glu Leu	Ser Leu	Ala Glu Ala Glu Ala Ala	Leu Leu Gly Tyr
5765	5770 .	5775
Glu Asp Arg Leu	Ser Val	Ala Val Ser Asn Ser Pro	Arg Ser Thr Val
5780		5785	5790
Leu Ala Gly Glu	Pro Ala	Ala Leu Ala Glu Val Leu	Ala Ile Leu Ala
5795		5800 5805
Ala Lys Gly Val	Phe Cys	Arg Arg Val Lys Val Asp	Val Ala Ser His
5810	5815 5820
Ser Pro Gin Ile	Asp Pro	Leu Arg Asp Glu Leu Leu	Ala Ala Leu Gly
5825	5830	5835	5840
Glu Leu Glu Pro	Arg Gin	Ala Thr Val Ser Met Arg	Ser Thr Val Thr
5845	5850	5855
Ser Thr Ile Met	Ala Gly	Pro Glu Leu Val Ala Ser	Tyr Trp Ala Asp
5860		5865	5870
Asn Val Arg Gin	Pro Val	Arg Phe Ala Glu Ala Val	Gin Ser Leu Met
5875		5880 5885
Glu Asp Gly His	Gly Leu	Phe Val Glu Met Ser Pro	His Pro Ile Leu
5890	5895 5900
Thr Thr Ser Val	Glu Glu	Ile Arg Arg Ala Thr Lys	Arg Glu Gly Val

5905 5910 5915 5920

Ala Val Gly Ser Leu Arg Arg Gly Gin Asp Glu Arg Leu Ser Met Leu • ·

- 137 5925 5930 5935

Glu Ala Leu Gly	Ala	Leu Trp Val His Gly Gin Ala Val Gly Trp	Glu
	5940	5945	5950
Arg	Leu Phe Ser	Ala	Gly Gly Ala Gly Leu Arg	Arg Val Pro Leu	Pro
	5955		5960	5965
Thr	Tyr Pro Trp	Gin	Arg Glu Arg Tyr Trp Val	Asp Ala Pro Thr	Gly
	5970		5975 !	5980
Gly Ala Ala Gly	Gly	Ser Arg Phe Ala His Ala	Gly Ser His Pro	Leu
5985	5990 5995	6000
Leu	Gly Glu Met	Gin	Thr Leu Ser Thr Gin Arg	Ser Thr Arg Val	Trp
	6005	6010	6015
Glu	Thr Thr Leu	Asp	Leu Lys Arg Leu Pro Trp	Leu Gly Asp His	Arg
	6020		6025	6030
Val	Gin Gly Ala	Val	Val Phe Pro Gly Ala Ala	Tyr Leu Glu Met	Ala
	6035		6040	6045
Leu	Ser Ser Gly	Ala	Glu Ala Leu Gly Aso Gly	Pro Leu Gin Val	Ser
6050		6055 . ‘ l	5060
Asp	Val Val Leu	Ala	Glu Ala Leu Ala Phe Ala	Aso Asp Thr Pro	Ala
6065	6070 6075	6080
Ala	Val Gin Val	Met	Ala Thr Glu Glu Arg Pro	Gly Arg Leu Gin	Phe
	6085	6090	6095
His	Val Ala Ser	Arg	Val Pro Gly His Gly Gly	Ala Ala Phe Arg	Ser
	6100		6105	6110
His	Ala Arg Gly	Val	Leu Arg Gin Ile Glu Arg	Ala Glu Val Pro	Ala
	6115		6120	6125
Arg	Leu Asp Leu	Ala	Ala Leu Arg Ala Arg Leu	Gin Ala Ser Ala	Pro
6130		6135 6140
Ala	Ala Ala Thr	Tyr	Ala Ala Leu Ala Glu Met	Gly Leu Glu Tyr	Gly
6145	6150 6155	6160
Pro	Ala Phe Gin	Gly	Leu Val Glu Leu Trp Arg	Gly Glu Gly Glu	Ala
	6165	6170	6175
Leu	Gly Arg Val	Arg	Leu Pro Glu Ala Ala Gly	Ser Pro Ala Ala	Cys
	6180		6185	6190
Arg	Leu His Pro	Ala	Leu Leu Asp Ala Cys Phe	His Val Ser Ser	Ala
	6195		6200	6205
Phe	Ala Asp Arg	Gly	Glu Ala Thr Pro Trp Val	Pro Val Glu Ile	Gly
6210		6215 6220
Ser	Leu Arg Trp	Phe	Gin Arg Pro Ser Gly Glu	Leu Trp Cys His	Ala
6225	6230 6235	6240
Arg	Ser Val Ser	His Gly Lys Pro Thr Pro Asp	Arg Arg Ser Thr Asp

6245 6250 6255

Phe Trp Val Val Asp Ser Thr Gly Ala Ile Val Ala Glu Ile Ser Gly 6260 6265 6270 • ·

- 138 -

Leu Val Ala 6275	Gin Arg Leu Ala	Gly Gly Val Arg Arg Arg Glu Glu	Asp
6280	6285
Asp Trp Phe	Met Glu Pro Ala	Trp Glu	Pro Thr Ala Val Pro Gly	Ser
6290	6295		6300
Glu Val Met	Ala Gly Arg Trp	Leu Leu	Ile Gly Ser Gly Gly Gly	Leu
6305	6310		6315	6320
Gly Ala Ala	Leu His Ser Ala	Leu Thr	Glu Ala Gly His Ser Val	Val
	6325	6330 6335
His Ala Thr	Gly Arg Gly Thr	Ser Ala	Ala Gly Leu Gin Ala Leu	Leu
6340	6345	6350
Thr Ala Ser	Phe Asp Gly Gin	Ala Pro	Thr Ser Val Val His Leu	Gly
6355		6360	6365
Ser Leu Aso	Glu Arg Gly Val	Leu Asp	Ala Asp Ala Pro Phe Asp	Ala
6370	6375		* 6380
Asp Ala Leu	Glu Glu Ser Leu	Val Arg	Gly Cys Asp Ser Val Leu	Trp
6385	6390		6395 i	5400
Thr Val Gin	Ala Val Ala Gly	Ala Gly	Phe Arg Asp Pro Pro Arg	Leu
	6405	6410 6415
Trp Leu Val	Thr Arg Gly Ala	Gin Ala	Ile Gly Ala Gly Asp Val	Ser
6420	6425	6430
Val Ala Gin	Ala Pro Leu Leu	Gly Leu	Gly Arg Val Ile Ala Leu	Glu
6435	6440	6445
His Ala Glu	Leu Arg Cys Ala	Arg Ile	Asp Leu Asp Pro Ala Arg	Arg
6450	6455		6460
Asp Gly Glu	Val Asp Glu Leu	Leu Ala	Glu Leu Leu Ala Asp Asp	Ala
6465	6470		6475 i	6480
Glu Glu Glu	Val Ala Phe Arg	Gly Gly	Glu Arg Arg Val Ala Arg	Leu
	6485	6490 6495
Val Arg Arg	Leu Pro Glu Thr	Aso Cys	Arg Glu Lys Ile Glu Pro	Ala
6500	6505	6510
Glu Gly Arg	Pro Phe Arg Leu	Glu Ile	Aso Gly Ser Gly Val Leu	Asp
6515	6520	6525
Asp Leu Val	Leu Arg Ala Thr	Glu Arg	Arg Pro Pro Gly Pro Gly	Glu
6530	6535		6540
Val Glu Ile	Ala Val Glu Ala	Ala Gly	Leu Asn Phe Leu Asp Val	Met
6545	6550		6555 6560
Arg Ala Met	Gly Ile Tyr Pro	Gly Pro	Gly Asp Gly Pro Val Ala	Leu
	6565	6570 6575
Gly Ala Glu	Cys Ser Gly Arg	Ile Val	Ala Met Gly Glu Gly Val	Glu
6580	6585	6590
Ser Leu Arg	Ile Gly Gin Asp	Val Val	Ala Val Ala Pro Phe Ser	Phe

6595 6600 6605

Gly Thr His Val Thr Ile Asp Ala Arg Met Leu Ala Pro Arg Pro Ala 6610 6615 6620

-139• ·

Ala Leu Thr 6625	Ala	Ala Gin Ala 6630	Ala	Ala	Leu Pro 6635	Val	Ala	Phe	Met	Thr 6640
Ala Trp Tyr	Gly Leu Val His	Leu	Gly Arg Leu	Arg	Ala	Gly Glu	Arg
	6645			6650				6655
Val Leu Ile	His	Ser Ala Thr	Gly	Gly	Thr Gly	Leu	Ala	Ala	Val	Gin
6660		6665				6670
Ile Ala Arg	His	Leu Gly Ala	Glu	Ile	Phe Ala	Thr	Ala	Gly	Thr	Pro
6675		6680			6685
Glu Lys Arg	Ala	Trp Leu Arg	Glu	Gin	Gly Ile	Ala	His	Val	Met	Asp
6690		6695			6700
Ser Arg Ser	Leu	Asp Phe Ala	Glu	Gin	Val Leu	Ala	Ala	Thr	Lys	Gly
6705		6710			6715				6720
Glu Gly Val	Asp	Val Val Leu	Asn	Ser	Leu Ser	Gly	Ala	Ala	Ile	Asp
	6725		6730			6735
Ala Ser Leu	Ser	Thr Leu Val	Pro	Asp	Gly Arg	Phe	Ile	Glu	Leu	Gly
6740		6745			6750
Lys Thr Asp	Ile	Tyr Ala Asp	Arg	Ser	Leu Gly	Leu	Ala	His	Phe	Arg
6755		6760			6765
Lys Ser Leu	Ser	Tyr Ser Ala	Val	Asp	Leu Ala	Gly	Leu	Ala	Val	Arg
6770		6775			6780
Ara Pro Glu	Arg	Val Ala Ala	Leu	Leu	Ala Glu	Val	Val	Asp	Leu	Leu
6785		6790			6795				6800
Ala Arg Gly	Ala	Leu Gin Pro	Leu	Pro	Val Glu	Ile	Phe	Pro	Leu	Ser
	6805		6810			6815
Arg Ala Ala	Asp	Ala Phe Arg	Lys	Met	Ala Gin	Ala	Gin	His	Leu	Gly
6820		6825			6830
Lys Leu Val	Leu	Ala Leu Glu	Asp	Pro	Asp Val	Arg	Ile	Arg	Val	Pro
6835		6340			6845
Gly Glu Ser	Gly	Val Ala Ile	Arg	Ala	Asp Gly	Ala	Tyr	Leu	Val	Thr
6850		6855			6860
Gly Gly Leu	Gly Gly Leu Gly	Leu	Ser	Val Ala	Gly	Trp	Leu	Ala	Glu
6865		6870			6875				6880
Gin Gly Ala	Gly His Leu Val	Leu	Val	Gly Arg	Ser	Gly	Ala	Val	Ser
	6885		6890			6895
Ala Glu Gin	Gin	Thr Ala Val	Ala	Ala	Leu Glu	Ala	His	Gly	Ala	Arg
6900		6905			6910
Val Thr Val	Ala	Arg Ala Asp	Val	Ala	Asp Arg	Ala	Gin	Met	Glu	Arg
6915		6920			6925
Ile Leu Arg	Glu	Val Thr Ala	Ser	Gly	Met Pro	Leu	Arg	Gly	Val	Val
6930		6935			6940
His Ala Ala	Gly	Ile Leu Asp	Asp	Gly	Leu Leu	Met	Gin	Gin	Thr	Pro
6945		6950			6955				6960
Ala Arg Phe	Arg	Ala Val Met	Ala	Pro	Lys Val	Arg	Gly	Ala	Leu	His

• ·

- 140 6965 6970 6975

Leu His Ala Leu Thr Arg Glu Ala Pro Leu Ser Phe Phe Val Leu Tyr
6980	6985	6990
Ala Ser Gly Ala 6995	Gly Leu Leu Gly Ser Pro 7000	Gly Gin Gly Asn Tyr Ala 7005
Ala Ala Asn Thr 7010	Phe Leu Asp Ala Leu Ala 7015	His His Arg Arg Ala Gin 7020
Gly Leu Pro Ala 7025	Leu Ser Ile Asp Trp Gly Leu Phe Ala Asp Val Gly 7030 7035 7040
Leu Ala Ala Gly Gin Gin Asn Arg Gly Ala 7045 7050	Arg Leu Val Thr Arg Gly 7055
Thr Arg Ser Leu 7060	Thr Pro Asp Glu Gly Leu 7065	Trp Ala Leu Glu Arg Leu 7070
Leu Asp Gly Asp 7075	Arg Thr Gin Ala Gly Val 7080	Met Pro Phe Asd Val Arg 7085
Gin Trp Val Glu 7090	Phe Tyr Pro Ala Ala Ala 7095	Ser Ser Arg Arg Leu Ser 7100
Arg Leu Met Thr 7105	Ala Arg Arg Val Ala Ser Gly Arg Leu Ala Gly Asd 7110 7115 7120
Arg Asp Leu Leu Glu Arg Leu Ala Thr Ala 7125 7130	Glu Ala Gly Ala Arg Ala 7135
Gly Met Leu Gin 7140	Glu Val Val Arg Ala Gin 7145	Val Ser Gin Val Leu Arg 7150
Leu Ser Glu Gly 7155	Lys Leu Asd Val Asp Ala 7160	Pro Leu Thr Ser Leu Gly 7165
Met Asp Ser Leu 7170	Met Gly Leu Glu Leu Arg 7175	Asn Arg Ile Glu Ala Val 7180
Leu Gly Ile Thr 7185	Met Pro Ala Thr Leu Leu Trp Thr Tyr Pro Thr Val 7190 7195 7200
Ala Ala Leu Ser Ala His Leu Ala Ser His 7205 7210	Val Val Ser Thr Gly Asp 7215
Gly Glu Ser Ala 7220	Arg Pro Pro Asp Thr Gly 7225	Ser Val Ala Pro Thr Thr 7230
His Glu Val Ala 7235 Glu Ser Leu Ala	Ser Leu Asp Glu Asp Gly 7240 Arg Ala Gly Lys Arg	Leu Phe Ala Leu Ile Asp 7245

7250 7255 <210> 6 <211> 3798 <212> PRT <213> Sorangium cellulosum <400> 6

Val Thr Asp Arg Glu Gly Gin Leu Leu Glu Arg Leu Arg Glu Val Thr 15 10 15 • ·

- 141 -

Leu

Ala

Leu

Arg 20

Lys

Thr

Leu

Asn

Glu 25

Arg

Asp

Thr

Leu

Glu 30

Leu

Glu

Lys

Thr

Glu 35

Pro

Ile

Ala

Ile

Val 40

Gly

Ile

Gly

Cys

Arg 45

Phe

Pro

Gly

Ala 50

Gly

Thr

Pro

Glu

Ala 55

Phe

Trp

Glu

Leu

Leu 60

Asp

Gly

Arg

Asp 65

Ala

Ile

Arg

Pro

Leu 70

Glu

Arg

Trp

Ala 75

Leu

Val

Gly

Val

Asp 80

Pro

Gly

Asp

Val 85

Pro

Arg

Trp

Ala

Gly 90

Leu

Thr

Glu

Ala 95

Ile

Asp

Gly

Phe

Asp 100

Ala

Phe

Gly 105

Ile

Ala

Pro

Aurg

Glu 110

Ala

Arg

Ser

Leu

Asp 115

Pro

Gin

His

Arg

Leu 120

Leu

Glu

Val

Ala 125

Trp

Glu

Gly

Phe

Glu 130

Asp

Ala

Gly

Ile

Pro 135

Pro

Arg

Ser

Leu

Val 140

Gly

Ser

Arg

Thr

Gly 145

Val

Phe

Val

Gly

Val 150

Cys

Ala

Thr

Glu

Tyr 155

Leu

His

Ala

Val 160

Ala

His

Gin

Pro

Arg 165

Glu

Arg

Asp

Ala 170

Tyr

Ser

Thr

Gly 175

Asn

Met

Leu

Ser

Ile 180

Ala

Gly

Arg

Leu 185

Ser

Tyr

Thr

Leu

Gly 190

Leu

Gin

Gly

Pro

Cys 195

Leu

Thr

Val

Asp

Thr 200

Ala

Cys

Ser

Ser 205

Leu

Val

Ala

Ile

His 210

Leu

Ala

Cys

Arg

Ser 215

Leu

Arg

Ala

Arg

Glu 220

Ser

Asp

Leu

Ala

Leu 225

Ala

Gly

Val

Asn 230

Met

Leu

Ser

Pro 235

Asp

Thr

Met

Arg

Ala 240

Leu

Ala

Arg

Thr

Gin 245

Ala

Leu

Ser

Pro

Asn 250

Gly

Arg

Cys

Gin

Thr 255

Phe

Asp

Ala

Ser

Ala 260

Asn

Gly

Phe

Val

Arg 265

Gly

Glu

Gly

Cys

Gly 270

Leu

Ile

Val

Leu

Lys 275

Arg

Leu

Ser

Asp

Ala 280

Arg

Asp

Gly

Asp 285

Arg

Ile

Trp

Ala

Leu 290

Ile

Arg

Gly

Ser

Ala 295

Ile

Asn

Gin

Asp

Gly 300

Arg

Ser

Thr

Gly

Leu 305

Thr

Ala

Pro

Asn

Val 310

Leu

Ala

Gin

Gly

Ala 315

Leu

Arg

Glu

Ala 320

Leu

Arg

Asn

Ala

Gly 325

Val

Glu

Ala

Glu

Ala 330

Ile

Gly

Tyr

Ile

Glu 335

Thr

His

Gly

Ala

Ala 340

Thr

Ser

Leu

Gly

Asp 345

Pro

Ile

Glu

Ile

Glu 350

Ala

Leu

Arg

Ala

Val

Gly

Pro

Ala

Arg

Ala

Asp

Gly

Ala

Arg

Cys

Val

Leu

• ·

- 142 355 360 365

Gly

Ala 370

Val

Lys

Thr

Asn

Leu 375

Gly

His

Leu

Glu

Gly 380

Ala

Gly

Val

Ala 385

Gly

Leu

Ile

Lys

Ala 390

Thr

Leu

Ser

Leu

His 395

His

Glu

Arg

Ile

Pro 400

Arg

Asn

Leu

Asn

Phe 405

Arg

Thr

Leu

Asn

Pro 410

Arg

Ile

Arg

Ile

Glu 415

Gly

Thr

Ala

Leu

Ala 420

Leu

Ala

Thr

Glu

Pro 425

Val

Pro

Trp

Pro

Arg 430

Thr

Gly

Arg

Thr

Arg 435

Phe

Ala

Gly

Val

Ser 440

Ser

Phe

Gly

Met

Ser 445

Gly

Thr

Asn

Ala

His 450

Val

Leu

Glu

Glu 455

Ala

Pro

Ala

Val

Glu 460

Pro

Glu

Ala

Ala 465

Pro

Glu

Arg

Ala

Ala 470

Glu

Leu

Phe

Val

Leu 475

Ser

Ala

Lys

Ser

Ala 480

Ala

Leu

Asp

Ala 485

Gin

Ala

Arg

Leu 490

Arg

Asp

His

Leu

Glu 495

Lys

His

Val

Glu

Leu 500

Gly

Leu

Gly

Asp

Val 505

Ala

Phe

Ser

Leu

Ala 510

Thr

Arg

Ser

Ala 515

Met

Glu

His

Arg

Leu 520

Ala

Val

Ala

Ser 525

Ser

Arg

Glu

Ala

Leu 530

Arg

Gly

Ala

Leu

Ser 535

Ala

Gin

Gly 540

His

Thr

Pro

Gly 545

Ala

Val

Arg

Gly

Arg 550

Ala

Ser

Gly Gly

Ser 555

Ala

Pro

Lys

Val

Val 560

Phe

Val

Phe

Pro

Gly 565

Gin

Gly

Ser

Gin

Tro 570

Val

Gly

Met

Gly

Arg 575

Lys

Leu

Met

Ala

Glu 580

Glu

Pro

Val

Phe

Arg 585

Ala

Leu

Glu

Gly 590

Cys

Asp

Arg

Ala

Ile 595

Glu

Ala

Glu

Ala

Gly 600

Trp

Ser

Leu

Gly 605

Glu

Leu

Ser

Ala

Asp 610

Glu

Ala

Ser

Gin 615

Leu

Gly

Arg

Xle

Asp 620

Val

Gin

Pro

Val 625

Leu

Phe

Ala

Met

Glu 630

Val

Ala

Leu

Ser

Ala 635

Leu

Trp

Arg

Ser

Trp .640

Gly

Val

Glu

Pro

Glu 645

Ala

Val

Gly

His 650

Ser

Met

Gly

Glu

Val 655

Ala

His

Val 660

Ala

Gly

Ala

Leu

Ser 665

Leu

Glu

Asp

Ala

Val 670

Ala

Ile

Cys

Arg 675

Arg

Ser

Arg

Leu

Leu 680

Arg

Ile

Ser

Gly 685

Gin

Gly

Glu

Met Ala·Leu Val Glu Leu Ser Leu Glu Glu Ala Glu Ala Ala Leu Arg 690 695 700

- 143 -

Gly His Glu Gly Arg Leu Ser Val Ala Val Ser Asn Ser Pro Arg Ser
705	710	715	720
Thr Val	Leu Ala Gly Glu Pro	Ala Ala Leu Ser Glu Val Leu	Ala Ala
	725	730	735
Leu Thr	Ala Lys Gly Val Phe	Trp Arg Gin Val Lys Val Asp	Val Ala
	740	745 750
Ser His	Ser Pro Gin Val Asp	Pro Leu Arg Glu Glu Leu Ile	Ala Ala
	755	760 765
Leu Gly	Ala Ile Arg Pro Arg	Ala Ala Ala Val Pro Met Arg	Ser Thr
770	775	780
Val Thr	Gly Gly Val Ile Ala	Gly Pro Glu Leu Gly Ala Ser	Tyr Trp
785	790	795	800
Ala Asp	Asn Leu Arg Gin Pro	Val Arg Phe Ala Ala Ala Ala	Gin Ala
	805	810	815
Leu Leu	Glu Gly Gly Pro Ala	Leu Phe Ile Glu Met Ser Pro	His Pro
	820	825 830
Ile Leu	Val Pro Pro Leu Asp	Glu Ile Gin Thr Ala Ala Glu	Gin Gly
	835	840 845
Gly Ala	Ala Val Gly Ser Leu	Arg Arg Gly Gin Asp Glu Arg	Ala Thr
350	855	860
Leu Leu	Glu Ala Leu Gly Thr	Leu Trp Ala Ser Gly Tyr Pro	Val Ser
365	870	875	880
Trp Ala	Arg Leu Phe Pro Ala	Gly Glv Arg Arg Val Pro Leu	Pro Thr
	885	890	895
Tyr Pro	Trp Gin His Glu Arg	Cys Trp Ile Glu Val Glu Pro	Asp Ala
	900	905 910
Arg Arg	Leu Ala Ala Ala Asp	Pro Thr Lys Aso Trp Phe Tyr	Arg Thr
	915	920 925
Asp Trp	Pro Glu Val Pro Arg	Ala Ala Pro Lys Ser Glu Thr	Ala His
930	935	940
Gly Ser	Trp Leu Leu Leu Ala	Asp Arg Gly Gly Val Gly Glu	Ala Val
945	950	955	960
Ala Ala	Ala Leu Ser Thr Arg	Gly Leu Ser Cys Thr Val Leu	His Ala
	965	970	975
Ser Ala	Asp Ala Ser Thr Val	Ala Glu Gin Val Ser Glu Ala	Ala Ser
	980	985 990
Arg Arg	Asn Asp Trp Gin Gly	Val Leu Tyr Leu Trp Gly Leu	Asp Ala
	995 1000 1005
Val Val	Asp Ala Gly Ala Ser	Ala Asp Glu Val Ser Glu Ala	Thr Arg
1010	1015	1020
Arg Ala	Thr Ala Pro Val Leu	Gly Leu Val Arg Phe Leu Ser	Ala Ala

1025 1030 1035 1040

Pro His Pro Pro Arg Phe Trp Val Val Thr Arg Gly Ala Cys Thr Val 1045 1050 1055 • ·

- 144 ·· ·· • · · · • · · · « · · · ♦ • . · · · ·· ··

Gly	Gly	Glu Pro Glu Ala Ser Leu Cys Gin Ala Ala Leu Trp Gly Leu
1060	1065	1070
Ala	Arg Val Ala	Ala Leu Glu His Pro	Ala Ala Trp Gly Gly Leu Val
	1075	1080	1085
Asp	Leu	Asp Pro	Gin Lys Ser Pro Thr	Glu Ile Glu Pro Leu Val Ala
1090		1095	1100
Glu	Leu	Leu Ser	Pro Asp Ala Glu Asp	Gin Leu Ala Phe Arg Ser Gly
1105		1110	1115 1120
Arg	Arg	His Ala	Ala Arg Leu Val Ala	Ala Pro Pro Glu Gly Asp Val
		1125	1130 1135
Ala	Pro	Ile Ser	Leu Ser Ala Glu Gly	Ser Tyr Leu Val Thr Gly Gly
		1140	1145	1150
Leu	Gly	Gly Leu	Gly Leu Leu Val Ala	Arg Trp Leu Val Glu Arg Gly
	1155	1160	1165
Ala	Arg	His Leu	Val Leu Thr Ser Arg	His Gly Leu Pro Glu Arg Gin
1170		1175	1180
Ala	Ser	Gly Gly	Glu Gin Pro Pro Glu	Ala Arg Ala Arg Ile Ala Ala
1185		1190	1195 1200
Val	Glu	Gly Leu	Glu Ala Gin Gly Ala	1 Arg Val Thr Val Ala Ala Val
		1205	1210 1215
Asp	Val	Ala Glu	Ala Asp Pro Met Thr	Ala Leu Leu Ala Ala Ile Glu
		1220	1225	1230
Pro	Pro	Leu Arg	Gly Val Val His Ala	Ala Gly Val Phe Pro Val Arg
	1235	1240	1245
His	Leu	Ala Glu	Thr Asp Glu Ala Leu	Leu Glu Ser Val Leu Arg Pro
1250		1255	1260
Lys	Val	Ala Gly	Ser Trp Leu Leu His	Arg Leu Leu Arg Asp Arg Pro
1265		1270	1275 ‘ 1280
Leu	Asp	Leu Phe	Val Leu Phe Ser Ser	Gly Ala Ala Val Trp Gly Gly
		1285 1290 1295
Lys	Gly	Gin Gly	Ala Tyr Ala Ala Ala	Asn Ala Phe Leu Asp Gly Leu
		1300	1305	1310
Ala	His	His Arg	Arg Ala His Ser Leu	Pro Ala Leu Ser Leu Ala Trp
	1315	1320	1325
Gly	Leu	Trp Ala	Glu Gly Gly Met Val	Asp Ala Lys Ala His Ala Arg
1330		1335	1340
Leu	Ser	Asp Ile	Gly Val Leu Pro Met	Ala Thr Gly Pro Ala Leu Ser
1345		1350	1355 1360
Ala	Leu	Glu Arg	Leu Val Asn Thr Ser	Ala Val Gin Arg Ser Val Thr
		1365	L370 1375
Arg	Met	Asp Trp Ala Arg Phe Ala Pro	Val Tyr Ala Ala Arg Gly Arg
		1380	1385	1390

Arg Asn Leu Leu Ser Ala Leu Val Ala Glu Asp Glu Arg Ala Ala Ser • · • · · · ·

- 145 ··«·

1395 1400 1405

Pro Pro 1410	Val	Pro	Thr Ala Asn Arg Ile Trp Arg Gly Leu Ser Val	Ala
1415	1420
Glu Ser	Arg	Ser	Ala Leu Tyr Glu Leu Val	Arg Gly Ile Val Ala	Arg
1425			1430	1435	1440
Val Leu	Gly	Phe	Ser Asp Pro Gly Ala Leu	Asp Val Gly Arg Gly	Phe
		1445 1450	1455
Ala Glu	Gin	Gly	Leu Asp Ser Leu Met Ala	Leu Glu Ile Arg Asn	Arg
	1460	1465	1470
Leu Gin	Arg	Glu	Leu Gly Glu Arg Leu Ser	Ala Thr Leu Ala Phe	Asp
1475		1480	1485
His Pro	Thr	Val	Glu Arg Leu Val Ala His	Leu Leu Thr Asp Val	Leu
1490			1495	1500
Lys Leu	Glu	Asp	Arg Ser Asp Thr Arg His	Ile Arg Ser Val Ala	Ala
1505			1510	1515	1520
Asp Asp	Asp	Ile	Ala Ile Val Gly Ala Ala	Cys Arg Phe Pro Gly	Gly
		1525 1530	1535
Asp Glu	Gly	Leu	Glu Thr Tyr Trp Arg His	Leu Ala Glu Gly Met	Val
	1540	1545	1550
Val Ser	Thr	Glu	Val Pro Ala Asp Arg Tro	Arg Ala Ala Aso Tro	Tyr
1555		1560	1565
Asp Pro	Asp	Pro	Glu Val Pro Gly Arg Thr	Tyr Val Ala Lys Gly	Ala
1570			1575	1580
Phe Leu	Arg	Asp	Val Arg Ser Leu Asp Ala	Ala Phe Phe Ala Ile	Ser
1585			1590	1595	1600
Pro Arg	Glu	Ala	.Met Ser Leu Asp Pro Gin	Gin Arg Leu Leu Leu	Glu
		1605 1610	1615
Val Ser	Trp	Glu	Ala Ile Glu Arg Ala Gly	Gin Asp Pro Met Ala	Leu
	1620	1625	1630
Arg Glu	Ser	Ala	Thr Gly Val Phe Val Gly	Met Ile Gly Ser Glu	His
1635		1640	1645 .
Ala Glu	Arg	Val	Gin Gly Leu Asp Asp Asp	Ala Ala Leu Leu Tyr	Gly
1650			1655	1660
Thr Thr	Gly	Asn	Leu Leu Ser Val Ála Ala	Gly Arg Leu Ser Phe	Phe
1665			1670	1675	1680
Leu Gly	Leu	His	Gly Pro Thr Met Thr Val	Asp Thr Ala Cys Ser	Ser
		1685 1690	1695
Ser Leu	Val	Ala	Leu His Leu Ala Cys Gin	Ser Leu Arg Leu Gly	Glu
	1700	1705	1710
Cys Asp	Gin Ala	Leu Ala Gly Gly Ser Ser	Val Leu Leu Ser Pro	Arg

1715 1720 1725

Ser Phe Val Ala Ala Ser Arg Met Arg Leu Leu Ser Pro Asp Gly Arg 1730 1735 1740 • ·

- 146 -

Cys Lys Thr Phe Ser Ala Ala Ala Asp Gly Phe Ala Arg Ala Glu Gly
1745	1750	1755	1760
Cys Ala Val Val	Val Leu	Lys Arg Leu Arg Asp Ala	Gin Arg Asp Arg
1765	1770	1775
Asp Pro Ile Leu	Ala Val	Val Arg Ser Thr Ala Ile	Asn His Asp Gly
1780		1785	1790
Pro Ser Ser Gly	Leu Thr	Val Pro Ser Gly Pro Ala	Gin Gin Ala Leu
1795		1800	1805
Leu Arg Gin Ala	Leu Ala	Gin Ala Gly Val Ala Pro	Ala Glu Val Asp
1810	1315 1820
Phe Val Glu Cys	His Gly	Thr Gly Thr Ala Leu Gly	Asp Pro Ile Glu
1325	1830	1835	1840
Val Gin Ala Leu	Gly Ala	Val Tyr Gly Arg Gly Arg	Pro Ala Glu Arg
1845	1850	1855
Pro Leu Trp Leu	Gly Ala	Val Lys Ala Asn Leu Gly	His Leu Glu Ala
* 1860		1865	1870
Ala Ala Gly Leu	Ala Gly	Val Leu Lys Val Leu Leu	Ala Leu Glu His
1875		1880	L885
Glu Gin Ile Pro	Ala. Gin	Pro Glu Leu Asp Glu Leu	Asn Pro His Ile
1890	1895 1900
Pro Trp Ala Glu	Leu Pro	Val Ala Val Val Arg Arg	Ala Val Pro Trp
1905	1910	1315	1920
Pro Arg Gly Ala	Arg Pro	Arg Arg Ala Gly Val Ser	Ala Phe Gly Leu
1925	1930	1935
Ser Gly Thr Asn	Ala His	Val Val Leu Glu Glu Ala	Pro Ala Val Glu
1940		1945	1950
Pro Val Ala Ala	Ala Pro	Glu Arg Ala Ala Glu Leu	Phe Val Leu Ser
1955		1960 :	1965
Ala Lys Ser Ala	Ala Ala	Leu Asp Ala Gin Ala Ala	Arg Leu Arg Asp
1970	1975 1980
His Leu Glu Lys	His Val	Glu Leu Gly Leu Gly Asp	Val Ala Phe Ser
1985	1990	1995	2000
Leu Ala Thr Thr	Arg Ser	Ala Met Glu His Arg Leu	Ala Val Ala Ala
2005	2010	2015
Ser Ser Arg Glu	Ala Leu	Arg Gly Ala Leu Ser Ala	Ala Ala Gin Gly
2020		2025	2030
His Thr Pro Pro	Gly Ala	Val Arg Gly Arg Ala Ser	Gly Gly Ser Ala
2035		2040 2045
Pro Lys Val Val	Phe Val	Phe Pro Gly Gin Gly Ser	Gin Trp Val Gly
2050	2055 2060
Met Gly Arg Lys	Leu Met	Ala Glu Glu Pro Val Phe	Arg Ala Ala Leu

2065 2070 2075 2080

Glu Gly Cys Asp Arg Ala Ile Glu Ala Glu Ala Gly Trp Ser Leu Leu 2085 2090 2095 • ·

- 147 -

• · · · · • · · · · · · • · · · · · • ······ • · · · · · ······· ·· ··

Gly Glu	Leu Ser Ala Asp Glu Ala Ala Ser Gin Leu Gly Arg Ile	Asp
2100	2105	2110
Val Val	Gin Pro Val Leu Phe	Ala Met Glu	Val Ala Leu Ser Ala	Leu
2115	2120	2125
Trp Arg	Ser Trp Gly Val Glu	Pro Glu Ala	Val Val Gly His Ser	Met
2130	2135		2140
Gly Glu	Val Ala Ala Ala His	Val Ala Gly	Ala Leu Ser Leu Glu	Asp
2145	2150	2155	2160
Ala Val	Ala Ile Ile Cys Arg	Arg Ser Arg	Leu Leu Arg Arg Ile	Ser
	2165	2170	2175
Gly Gin	Gly Glu Met Ala Leu	Val Glu Leu	Ser Leu Glu Glu Ala	Glu
	2180	2185	2190
Ala Ala	Leu Arg Gly His Glu	Gly Arg Leu	Ser Val Ala Val Ser	Asn
2195	2200	2205
Ser Pro	Arg Ser Thr Val Leu	Ala Gly Glu	Pro Ala Ala Leu Ser	Glu
2210	2215		2220
Val Leu	Ala Ala Leu Thr Ala	Lys Gly Val	Phe Trp Arg Gin Val	Lys
2225	2230	2235 2240
Val Asp	Val Ala Ser His Ser	Pro Gin Val	Asd Pro Leu Arg Glu	Glu
	2245	2250	2255
Leu Ile	Ala Ala Leu Gly Ala	Ile Arg Pro	Arg Ala Ala Ala Val	Pro
	2260	2265	2270
Met Arg	Ser Thr Val Thr Gly	Gly Val Ile	Ala Gly Pro Glu Leu	Gly
2275 :	2280	2235
Ala Ser	Tyr Trp Ala Asp Asn	Leu Arg Gin	Pro Val Arg Phe Ala	Ala
2290	2295		2300
Ala Ala	Gin Ala Leu Leu Glu	Gly Gly Pro	Ala Leu Phe Ile Glu	Met
2305	2310	2315 2320
Ser Pro	His Pro Ile Leu Val	Pro Pro Leu	Asp Glu Ile Gin Thr	Ala
	2325	2330	2335
Ala Glu	Gin Gly Gly Ala Ala	Val Gly Ser	Leu Arg Arg Gly Gin	Asp
	2340	2345	2350
Glu Arg	Ala Thr Leu Leu Glu	Ala Leu Gly	Thr Leu Trp Ala Ser	Gly
2355 2360	2365
Tyr Pro	Val Ser Trp Ala Arg	Leu Phe Pro	Ala Gly Gly Arg Arg	Val
2370	2375		2380
Pro Leu	Pro Thr Tyr Pro Trp	Gin His Glu	Arg Tyr Trp Ile Glu	Asp
2385	2390	2395 2400
Ser Val	His Gly Ser Lys Pro	Ser Leu Arg	Leu Arg Gin Leu Arg	Asn
	2405	2410	2415
Gly Ala	Thr Asp His Pro Leu	Leu Gly Ala	Pro Leu Leu Val Ser	Ala

2420 2425 2430

Arg Pro Gly Ala His Leu Trp Glu Gin Ala Leu Ser Asp Glu Arg Leu • · • ·

- 148 2435 2440 2445

Ser Tyr 2450	Leu	Ser Glu	His Arg Val His Gly Glu Ala Val	Leu	Pro	Ser
2455	2460
Ala Ala	Tyr	Val Glu	Met Ala Leu Ala Ala Gly Val Asp	Leu	Tyr	Gly
2465		2470 2475		2480
Thr Ala	Thr	Leu Val	Leu Glu Gin Leu Ala	Leu Glu Arg	Ala	Leu	Ala
		2485	2490		2495
Val Pro	Ser	Glu Gly	Gly Arg Ile Val Gin	Val Ala Leu	Ser	Glu	Glu
	2500	2505	2510
Gly Pro	Gly	Arg Ala	Ser Phe Gin Val Ser	Ser Arg Glu	Glu	Ala	Gly
2515		2520	2525
Arg Ser	Trp	Val Arg	His Ala Thr Gly His	Val Cys Ser	Gly	Gin	Ser
2530			2535	2540
Ser Ala	Val	Gly Ala	Leu Lys Glu Ala Pro	Trp Glu Ile	Gin	Arg	Arg
2545		2550 2555		2560
Cys Pro	Ser	Val Leu	Ser Ser Glu Ala Leu	Tyr Pro Leu	Leu	Asn	Glu
		2565	2570		2575
His Ala	Leu	Asp Tyr	Gly Pro Cys Phe Gin	Gly Val Glu	Gin	Val	Trp
	2580	2585	2590
Leu Gly	Thr	Gly Glu	Val Leu Gly Arg Val	Arg Leu Pro	Gly	Asp	Met
2555		2600	2605
Ala Ser	Ser	Ser Gly	Ala Tyr Arg Ile His	Pro Ala Leu	Leu	Asp	Ala
2610			2615	2620
Cys Phe	Gin	Val Leu	Thr Ala Leu Leu Thr	Thr Pro Glu	Ser	Ile	Glu
2 625		2630 2635		2640
Ile Arg	Arg	Arg Leu	Thr Asp Leu His Glu	Pro Asp Leu	Pro	Arg	Ser
		2645	2650		2655
Arg Ala	Pro	Val Asn	Gin Ala Val Ser Asp	Thr Trp Leu	Trp	Asp	Ala
	2660	2665	2670
Ala Leu	Asp	Gly Gly	Arg Arg Gin Ser Ala	Ser Val Pro	Val	Asp	Leu
2675		2680	2685
Val Leu	Gly	Ser Phe	His Ala Lys Tm Glu	Val Met Glu	Arg	Leu	Ala
2690			2695	2700
Gin Ala	Tyr	Ile Ile	Gly Thr Leu Arg Ile	Trp Asn Val	Phe	Cys	Ala
2705		2710 2715		2720
Ala Gly	Glu	Arg His	Thr Ile Asp Glu Leu	Leu Val Arg	Leu	Gin	Ile
		2725	2730		2735
Ser Val	Val	Tyr Arg	Lys Val Ile Lys Arg	Trp Met Glu	His	Leu	Val
	2740	2745	2750
Ala Ile	Gly Ile Leu	Val Gly Asp Gly Glu	His Phe Val	Ser	Ser	Gin
2755		2760	2765

Pro Leu Pro Glu Pro Asp Leu Ala Ala Val Leu Glu Glu Ala Gly Arg 2770 2775 2780 • · • ·

Val Phe Ala Asp Leu Pro Val Leu Phe Glu Trp Cys Lys	Phe Ala Gly 2800
2785	2790	2795
Glu Arg	Leu Ala Asp Val Leu	Thr Gly Lys Thr Leu Ala	Leu Glu Ile
	2805	2810	2815
Leu Phe	Pro Gly Gly Ser Phe	Asp Met Ala Glu Arg Ile	Tyr Arg Asp
	2820	2825	2830
Ser Pro	Ile Ala Arg Tyr Ser	Asn Gly Ile Val Arg Gly	Val Val Glu
2835 :	2840 2845
Ser Ala	Ala Arg Val Val Ala	Pro Ser Gly Met Phe Ser	Ile Leu Glu
2850	2855	2860
Ile Gly	Ala Gly Thr Gly Ala	Thr Thr Ala Ala Val Leu	Pro Val Leu
2865	2870	2875	2880
Leu Pro	Asp Arg Thr Glu Tyr	His Phe Thr Aso Val Ser	Pro Leu Phe
	2885	2890	2895
Leu Ala	Arg Ala Glu Gin Arg	Phe Arg Asp Tyr Pro Phe	Leu Lys Tyr
	2900	2905 :	2910
Gly Ile	Leu Asp Val Asp Gin	Glu Pro Ala Gly Gin Gly	Tyr Ala His
2915 :	2920 2925
Gin Arg	Phe Asp Val Ile Val	Ala Ala Asn Val Ile His	Ala Thr Arg
2930	2935	2940
Asd Ile	Arg Ala Thr Ala Lys	Arg Leu Leu Ser Leu Leu	Ala Pro Gly
29*45	2950	2955	2960
Gly Leu	Leu Val Leu Val Glu	Gly Thr Gly His Pro Ile	Trp Phe Asp
	2965	2970	2975
Ile Thr	Thr Gly Leu Ile Glu	Gly Trp Gin Lys Tyr Glu	Asp Asp Leu
	2980	2985 :	2990
Arg Ile	Asp His Pro Leu Leu	Pro Ala Arg Thr Trp Cys	Asp Val Leu
2995 :	3000 3005
Arg Arg	Val Gly Phe Ala Asp	Ala Val Ser Leu Pro Gly	Asp Gly Ser
3010	3015	3020
Pro Ala	Gly Ile Leu Gly Gin	His Val Ile Leu Ser Arg	Ala Pro Gly
3025	3030	3035	3040
Ile Ala	Gly Ala Ala Cys Asp	Ser Ser Gly Glu Ser Ala	Thr Glu Ser
	3045	3050	3055
Pro Ala	Ala Arg Ala Val Arg	Gin Glu Trp Ala Asp Gly	Ser Ala Asp
	3060	3065 3070
Val Val	His Arg Met Ala Leu	Glu Arg Met Tyr Phe His	Arg Arg Pro
3075	3080 3085
Gly Arg	Gin Val Trp Val His	Gly Arg Leu Arg Thr Gly Gly Gly Ala
3090	3095	3100
Phe Thr	Lys Ala Leu Ala Gly	Asp Leu Leu Leu Phe Glu	Asp Thr Gly
3105	3110	3115	3120

Gin Val Val Ala Glu Val Gin Gly Leu Arg Leu Pro Gin Leu Glu Ala 3125 3130 3135

9 • 9

- 150 99 9 9 · 9 9 9 • · 9 9 9 9 9

9 9 9 9 9 9 9 9 · • · · 9 9 9 9 • ······· · · · *

Ser	Ala	Phe Ala Pro Arg Asp Pro Arg Glu Glu Trp Leu Tyr Ala	Leu
3140	3145	3150
Glu	Trp	Gin Arg	Lys Asp Pro Ile Pro	Glu Ala Pro Ala Ala Ala	Ser
	3155	3160	3165
Ser	Ser	Ser Ala	Gly Ala Trp Leu Val	Leu Met Asp Gin Gly Gly	Thr
3170		3175	3180
Gly Ala	Ala Leu	Val Ser Leu Leu Glu	Gly Arg Gly Glu Ala Cys	Val
3185		3190	3195 ;	3200
Arg	Val	Ile Ala	Gly Thr Ala Tyr Ala	Cys Leu Ala Pro Gly Leu	Tyr
		3205	3210 3215
Gin	Val	Asp Pro	Ala Gin Pro Asp Gly	Phe His Thr Leu Leu Arg	Asp
		3220	3225	3230
Ala	Phe	Gly Glu	Asp Arg Ile Cys Arg	Ala Val Val His Met Trp	Ser
	3235	3240	3245
Leu	Asp	Ala Thr	Ala Ala Gly Glu Arg	Ala Thr Ala Glu Ser Leu	Gin
3250		3255	3260
Ala	Asp	Gin Leu	Leu Gly Ser Leu Ser	Ala Leu Ser Leu Val Gin	Ala
3265		3270	3275 3230
Leu	Val	Arg Arg	Arg Trp Arg Asn Met	Pro Arg Leu Trp Leu Leu	Thr
		3285 3290 3295
Arg	Ala	Val His	Ala Val Gly Ala Glu	Asp Ala Ala Ala Ser Val	Ala
		3300	3305	3310
Gin	Ala	Pro Val	Trp Gly Leu Gly Arg	Thr Leu Ala Leu Glu His	Pro
	3315	3320	3325
Glu	Leu	Arg Cys	Thr Leu Val Aso Val	Asn Pro Ala Pro Ser Pro	Glu
3330		3335	3340
Asp	Ala	Ala Ala	Leu Ala Val Glu Leu	Gly Ala Ser Asp Arg Glu	Asp
3345		3350	3355 ' 3360
Gin	Val	Ala Leu	Arg Ser Asp Gly Arg	Tyr Val Ala Arg Leu Val	Arg
		3365 3370 3375
Ser	Ser	Phe Ser	Gly Lys Pro Ala Thr	Asp Cys Gly Ile Arg Ala	Asp
		3380	3385	3390
Gly	Ser	Tyr Val	Ile Thr Asp Gly Met	Gly Arg Val Gly Leu Ser	Val
	3395	3400	3405
Ala	Gin	Trp Met	Val Met Gin Gly Ala	Arg His Val Val Leu Val	Asp
3410		3415	3420
Arg Gly	Gly Ala	Ser Glu Ala Ser Arg	Asp Ala Leu Arg Ser Met	Ala
3425		3430	3435 3440
Glu	Ala	Gly Ala	Glu Val Gin Ile Val	Glu Ala Asp Val Ala Arg	Arg
		3445 3450 3455
Asp Asp	Val Ala Arg Leu Leu Ser Lys	Ile Glu Pro Ser Met Pro	Pro
		3460	3465	3470

Leu'Arg Gly Ile Val Tyr Val Asp Gly Thr Phe Gin Gly Asp Ser Ser

- 151 ft · · ·

3475 3480 3485

Met Leu 3490	Glu	Leu Asp Ala Arg 3495	Arg	Phe Lys Glu Trp 3500	Met	Tyr Pro Lys
Val Leu 3505	Gly	Ala Trp Asn Leu 3510	His	Ala Leu Thr Arg 3515	Asp	Arg Ser Leu 3520
Asp Phe	Phe	Val Leu Tyr Ser 3525	Ser	Gly Thr Ser Leu 3530	Leu	Gly Leu Pro 3535
Gly Gin	Gly	Ser Arg Ala Ala	Gly	Asp Ala Phe Leu	Asp	Ala Ile Ala
	3540	3545	3550
His His	Arg	Cys Lys Val Gly	Leu	Thr Ala Met Ser	Ile	Asn Trp Gly
3555	3560	3555
Leu Leu 3570	Ser	Glu Ala Ser Ser 3575	Pro	Ala Thr Pro Asn 3580	Asp	Gly Gly Ala
Arg Leu 3585	Glu	Tyr Arg Gly Met 3590	Glu	Gly Leu Thr Leu 3595	Glu	Gin Gly Ala 3600
Ala Ala	Leu	Gly Arg Leu Leu 3605	Ala	Arg Pro Arg Ala 3610	Gin	Val Gly Val 3615
Met Arg	Leu	Asn Leu Arg Gin	Trp	Leu Glu Phe Tyr	Pro	Asn Ala Ala
	3620	3625	3630
Arg Leu	Ala	Leu Trp Ala Glu	Leu	Leu Lys Glu Arg	Asp	Arg Ala Asp
3635	3640	3645
Arg Gly 3650	Ala	Ser Asn Ala Ser 3655	Asn	Leu Arg Glu. Ala 3660	Leu	Gin Ser Ala
Arg Pro 3665	Glu	Asp Arg Gin Leu 3670	Ile	Leu Glu Lys His 3675	Leu	Ser Glu Leu 3680
Leu Gly	Arg	Gly Leu Arg Leu 3685	Pro	Pro Glu Arg Ile 3690	Glu	Arg His Val 3695
Pro Phe	Ser	Asn Leu Gly Met	Asp	Ser Leu Ile Gly	Leu	Glu Leu Arg
	3700	3705	3710
Asn Arg	Ile	Glu Ala Ala Leu	Gly	Ile Thr Val Pro	Ala	Thr Leu Leu
3715	3720	3725
Trp Thr 3730	Tyr	Pro Asn Val Ala 3735	Ala	Leu Ser Gly Ser 3740	Leu	Leu Asp Ile
Leu Phe 3745	Pro	Asn Ala Gly Ala 3750	Thr	His Ala Pro Ala 3755	Thr	Glu Arg Glu 3760
Lys Ser	Phe	Glu Asn Asp Ala 3765	Ala	Asp Leu Glu Ala 3770	Leu	Arg Gly Met 3775
Thr Asp	Glu	Gin Lys Asp Ala	Leu	Leu Ala Glu Lys	Leu	Ala Gin Leu

3780 3785 3790

Ala Gin Ile Val Gly Glu 3795 <210> 7 <211> 2439 • · • · • · ······ · · ·· ·· · • · · · ···· « · · · ······· ·· ··

- 152 <212> PRT

<213> Sorangium <400> 7

cellulosum

Met 1

Ala

Thr

Asn 5

Ala

Gly

Lys

Leu

Glu 10

His

Ala

Leu

Leu 15

Met

Asp

Lys

Leu

Ala 20

Lys

Asn

Ala

Ser 25

Leu

Glu

Gin

Glu Arg 30

Thr

Glu

Pro

Ile

Ala 35

Ile

Val

Gly

Ile

Gly 40

Cys

Arg

Phe

Pro

Gly Gly 45

Ala

Asp

Thr

Pro 50

Glu

Ala

Phe

Trp

Glu 55

Leu

Asp

Ser

Gly 60

Arg

Asp

Ala

Val

Gin 65

Pro

Leu

Asp

Arg

Arg 70

Trp

Ala

Leu

Val

Gly 75

Val

His

Pro

Ser

Glu 80

Glu

Val

Pro

Arg

Tro 85

Ala

Gly

Leu

Thr 90

Glu

Ala

Val

Asp

Gly 95

Phe

Asp

Ala

Phe 100

Phe

Gly

Thr

Ser

Pro 105

Arg

Glu

Ala

Arg

Ser 110

Leu

Asp

Pro

Gin

Gin 115

Arg

Leu

Glu 120

Val

Thr

Trp

Glu

Gly 125

Leu

Glu

Asp

Ala

Gly 130

Ile

Ala

Pro

Gin

Ser 135

Leu

Asp

Gly

Ser

Arg 140

Thr

Gly

Val

Phe

Leu 145

Gly

Ala

Cys

Ser

Ser 150

Asp

Tyr

Ser

His

Thr 155

Val

Ala

Gin

Arg 160

Arg

Glu

Gin

Asp 165

Ala

Tyr

Asp

Ile

Thr 170

Gly

Asn

Thr

Leu

Ser 175

Val

Ala

Gly

Arg 180

Leu

Ser

Tyr

Thr

Leu 135

Gly

Leu

Gin

Gly

Pro 190

Cys

Leu

Thr

Val

Asp 195

Thr

Ala

Cys

Ser

Ser 2 00

Ser

Leu

Val

Ala

Ile 205

His

Leu

Ala

Cys

Arg 210

Ser

Leu

Arg

Ala

Arg 215

Glu

Ser

Asp

Leu

Ala 220

Leu

Ala

Gly

Val 225

Asn

Met

Leu

Ser 230

Ser

Lys

Thr

Met

Ile 235

Met

Leu

Gly Arg

Ile 240

Gin

Ala

Leu

Ser

Pro 245

Asp

Gly

His

Cys

Arg 250

Thr

Phe

Asp

Ala

Ser 255

Ala

Asn

Gly

Phe

Val 260

Arg

Gly

Glu

Gly

Cys 265

Gly

Met

Val

Leu 270

Lys

Arg

Leu

Ser

Asp 275

Ala

Gin

Arg

His

Gly 280

Asp

Arg

Ile

Trp

Ala 285

Leu

Ile

Arg

Gly

Ser 290

Ala

Met

Asn

Gin

Asp 295

Gly

Arg

Ser

Thr

Gly 300

Leu

Met

Ala

Pro

Asn 305

Val

Leu

Ala

Gin

Glu 310

Ala

Leu

Arg

Glu 315

Ala

Leu

Gin

Ser

Ala 320

Arg Val Asp Ala Gly Ala Ile Gly Tyr Val Glu Thr His Gly Thr Gly

- 153 -

325

330

335

Thr

Ser

Leu

Gly 340

Asp

Pro

Ile

Glu

Val 345

Glu

Ala

Leu

Arg

Ala 350

Val

Leu

Gly

Pro

Ala 355

Arg

Ala

Asp

Gly

Ser 360

Arg

Cys

Val

Leu

Gly 365

Ala

Val

Lys

Thr

Asn 370

Leu

Gly

His

Leu

Glu 375

Gly

Ala

Gly

Val 380

Ala

Gly

Leu

Ile

Lys 385

Ala

Leu

Ala

Leu 390

His

Glu

Leu

Ile 395

Pro

Arg

Asn

Leu

His 400

Phe

His

Thr

Leu

Asn 405

Pro

Arg

Ile

Arg

Ile 410

Glu

Gly

Thr

Ala

Leu 415

Ala

Leu

Ala

Thr

Glu 420

Pro

Val

Pro

Trp

Pro 425

Arg

Ala

Gly

Arg

Pro 430

Arg

Phe

Ala

Gly

Val 435

Ser

Ala

Phe

Gly

Leu 440

Ser

Gly

Thr

Asn

Val 445

His

Val

Leu

Glu 450

Glu

Ala

Pro

Ala

Thr 455

Val

Leu

Ala

Pro

Ala 460

Thr

Pro

Gly

Arg

Ser 465

Ala

Glu

Leu

Val 470

Leu

Ser

Ala

Lys

Ser 475

Ala

Leu

Asp 480

Ala

Gin

Ala

Arg 485

Leu

Ser

Ala

His

Ile 490

Ala

Tyr

Pro

Glu 495

Gin

Gly

Leu

Gly

Asd 500

Val

Ala

Phe

Ser

Leu 505

Val

Ser

Thr

Arg

Ser 510

Pro

Met

Glu

His

Arg 515

Leu

Ala

Val

Ala

Ala 520

Thr

Ser

Arg

Glu

Ala 525

Leu

Arg

Ser

Ala

Leu 530

Glu

Val

Ala

Gin 53 5

Gly

Gin

Thr

Pro

Ala 540

Gly

Ala

Arg

Gly 545

Arg

Ala

Ser

Ser 550

Pro

Gly

Lys

Leu

Ala 555

Phe

Leu

Phe

Ala

Gly 560

Gin

Gly

Ala

Gin

Val 565

Pro

Gly

Met

Gly

Arg 570

Gly

Leu

Trp

Glu

Ala 575

Trp

Pro

Ala

Phe

Arg 580

Glu

Thr

Phe

Asp

Arg 585

Cys

Val

Thr

Leu

Phe 590

Asp

Arg

Glu

Leu

His 595

Gin

Pro

Leu

Cys

Glu 600

Val

Met

Trp

Ala

Glu 605

Pro

Gly

Ser

Arg 610

Ser

Leu

Asp 615

Gin

Thr

Ala

Phe

Thr 620

Gin

Pro

Ala

Leu

Phe 625

Ala

Leu

Glu

Tyr

Ala 630

Leu

Ala

Leu

Phe 635

Atrg

Ser

Trp

Gly

Val 640

Glu

Pro

Glu

Leu

Val 645

Ala

Gly

His

Ser

Leu 650

Gly

Glu

Leu

Val

Ala 655

Ala

Cys Val Ala Gly Val Phe Ser Leu Glu Asp Ala Val Arg Leu Val Val 660 665 670 · 0 0 0 0 · · 0 0 0 0 · • · * · 0 0 0 0 •0· 0 0000000 00 00

-154-

Ala

Arg

Gly 675

Arg

Leu

Met

Gin

Ala 680

Leu

Pro

Ala

Gly

Gly 685

Ala

Met

Val

Ser

Ile 690

Ala

Pro

Glu

Ala 695

Asp

Val

Ala

Ala 700

Val

Ala

Pro

His

Ala 705

Ala

Leu

Val

Ser

Ile 710

Ala

Val

Asn

Gly 715

Pro

Glu

Gin

Val

Val 720

Ile

Ala

Gly

Ala

Glu 725

Lys

Phe

Val

Gin

Gin 730

Ile

Ala

Phe 735

Ala

Arg

Gly

Ala 740

Arg

Thr

Lys

Pro

Leu 745

His

Val

Ser

His

Ala 750

Phe

His

Ser

Pro

Leu 755

Met

Asp

Pro

Met

Leu 760

Glu

Ala

Phe

Arg

Arg 765

Val

Thr

Glu

Ser

Val 770

Thr

Tyr

Arg

Pro 775

Ser

Ile

Ala

Leu

Val 780

Ser

Asn

Leu

Ser

Gly 785

Lys

Pro

Cys

Thr

Asp 790

Glu

Val

Ser

Ala

Pro 795

Gly

Tyr

Trp

Val

Arg 800

His

Ala

Arg

Glu

Ala 805

Val

Arg

Phe

Ala

Aso 810

Gly

Val

Lys

Ala

Leu 815

His

Ala

Gly

Ala 820

Gly

Leu

Phe

Val

Glu 825

Val

Gly

Pro

Lys

Pro 830

Thr

Leu

Gly

Leu 835

Val

Pro

Ala

Cys

Leu 840

Pro

Asp

Ala

Arg

Pro 845

Val

Leu

Pro

Ala 850

Ser

Arg

Ala

Gly

Arg 855

Asp

Glu

Ala

Ser 860

Ala

Leu

Glu

Ala

Leu 865

Gly

Phe

Trp

Val 870

Val

Gly

Ser

Val 875

Thr

Trp

Ser

Gly

Val 880

Phe

Pro

Ser

Gly

Gly 885

Arg

Val

Pro

Leu 890

Pro

Thr

Tyr

Pro

Trp 895

Gin

Arg

Glu

Arg

Tyr 900

Trp

Ile

Glu

Ala

Pro 905

Val

Asp

Arg

Glu

Ala 910

Asp

Gly

Thr

Gly

Arg 915

Ala

Arg

Ala

Gly

Gly 920

His

Pro

Leu

Gly 925

Glu

Val

Phe

Ser

Val 930

Ser

Thr

His

Ala

Gly 935

Leu

Arg

Leu

Trp

Glu 940

Thr

Leu

Asp

Arg 945

Lys

Arg

Leu

Pro

Trp 950

Leu

Gly

Glu

His

Arg 955

Ala

Gin

Gly

Glu

Val 960

Val

Phe

Pro

Gly

Ala 965

Gly

Tyr

Leu

Glu

Met 970

Ala

Leu

Ser

Gly 975

Ala

Glu

Ile

Leu

Gly 980

Asp

Gly

Pro

Ile

Gin 985

Val

Thr

Asp

Val

Val 990

Leu

Ile

Glu

Thr

Leu 995

Thr

Phe

Ala

Gly Asp 1000

Thr

Ala

Val

Pro Val 1005

Gin

Val

Thr Thr 1010

Glu

Arg

Pro Gly Arg 1015

Leu

Arg

Phe Gin 1020

Val

Ala

Ser

Arg

• ···· · · ······ • · · · · · · · ··· · ······· ·· ··

- 155 -

Glu Pro Gly Glu Arg Arg Ala Pro Phe Arg Ile His Ala Arg Gly Val
1025	1030	1035	1040
Leu Arg	Arg Ile Gly Arg Val	Glu Thr Pro Ala Arg	Ser Asn Leu Ala
	1045	1050	1055
Ala Leu	Arg Ala Arg Leu His	Ala Ala Val Pro Ala	Ala Ala Ile Tyr
	1060	1065	1070
Gly Ala	Leu Ala Glu Met Gly	Leu Gin Tyr Gly Pro	Ala Leu Arg Gly
1075	1080	1085
Leu Ala	Glu Leu Trp Arg Gly	Glu Gly Glu Ala Leu	Gly Arg Val Arg
1090	1095	1100
Leu Pro	Glu Ala Ala Gly Ser	Ala Thr Ala Tyr Gin	Leu His Pro Val
1105	1110	1115	1120
Leu Leu	Asp Ala Cys Val Gin	Met Ile Val Gly Ala	Phe Ala Asp Arg
	1125	1130	1135
Asp Glu	Ala Thr Pro Trp Ala	Pro Val Glu Val Gly	Ser Val Arg Leu
	1140	1145	1150
Phe Gin	Arg Ser Pro Gly Glu	Leu Trp Cys His Ala	Arg Val Val Ser
1155	1160 :	1165
Asp Gly	Gin Gin Ala Ser Ser	Arg Trp Ser Ala Asd	Phe Glu Leu Met
1170	1175	1180
Asp Gly	Thr Gly Ala Val Val	Ala Glu Ile Ser Arg	Leu Val Val Glu
1185	1190	1195	1200
Arg Leu	Ala Ser Gly Val Arg	Arg Arg Asp Ala Asp	Asp Trp Phe Leu
	1205	1210	1215
Glu Leu	Asp Trp Glu Pro Ala	Ala Leu Gly Gly Pro	Lys Ile Thr Ala
	1220	1225	1230
Gly Arg	Trp Leu Leu Leu Gly	Glu Gly Gly Gly Leu	Gly Arg Ser Leu
1235	1240 :	L245
Cys Ser	Ala Leu Lys Ala Ala	Gly His Val Val Val	His Ala Ala Gly
1250	1255	1260
Asp Asp	Thr Ser Thr Ala Gly	Met Arg Ala Leu Leu	Ala Asn Ala Phe
1265	1270	1275	1280
Asp Gly	Gin Ala Pro Thr Ala	Val Val His Leu Ser	Ser Leu Asp Gly
	. 1285	1290	1295
Gly Gly	Gin Leu Gly Pro Gly	Leu Gly Ala Gin Gly	Ala Leu Asp Ala
	1300	1305	1310
Pro Arg	Ser Pro Asp Val Asp	Ala Asp Ala Leu Glu	Ser Ala Leu Met
1315	L320 1325
Arg Gly	Cys Asp Ser Val Leu	Ser Leu Val Gin Ala	Leu Val Gly Met
1330	1335	1340
Asp Leu	Arg Asn Ala Pro Arg	Leu Trp Leu Leu Thr	Arg Gly Ala Gin
1345	1350	1355	1360

Ala Ala Ala Ala Gly Asp Val Ser Val Val Gin Ala Pro Leu Leu Gly

- 156 1365 1370 1375

Leu Gly Arg Thr	Ile	Ala Leu Glu His Ala Glu Leu Arg Cys Ile	Ser
	1380	1385	1390
Val	Asp Leu Asp	Pro	Ala Glu Pro Glu Gly Glu	Ala Asp Ala Leu	Leu
	1395		1400	1405
Ala	Glu Leu Leu	Ala	Asp Asp Ala Glu Glu Glu	Val Ala Leu Arg	Gly
1410		1415	1420
Gly Asp Arg Leu	Val	Ala Arg Leu Val His Arg	Leu Pro Asp Ala	Gin
1425	1430 1435	1440
Arg	Arg Glu Lys	Val	Glu Pro Ala Gly Asp Arg	Pro Phe Arg Leu	Glu
	1445	1450	1455
Ile	Asp Glu Pro	Gly	Ala Leu Asp Gin Leu Val	Leu Arg Ala Thr	Gly
	1460		1465	1470
Arg	Arg Ala Pro	Gly	Pro Gly Glu Val Glu Ile	Ser Val Glu Ala	Ala
	1475		1480	1485
Gly	Leu Asp Ser	Ile	Asd Ile Gin Leu Ala Leu	Gly Val Ala Pro	Asn
1490		*1495	1500
Asp	Leu Pro Gly	Glu	Glu Ile Glu Pro Leu Val	Leu Gly Ser Glu	Cys
1505	1510 1515	1520
Ala	Gly Arg Ile	Val	Ala Val Gly Glu Gly Val	Asn Gly Leu Val	Val
	1525	1530	1535
Gly	Gin Pro Val	Ile	Ala Leu Ala Ala Glv Val	Phe Ala Thr His	Val
	1540		1545	1550
Thr	Thr Ser Ala	Thr	Leu Val Leu Pro Arg Pro	Leu Gly Leu Ser	Ala
	1555		1560	1565
Thr	Glu Ala Ala	Ala	Met Pro Leu Ala Tyr Leu	Thr Ala Trp Tyr	Ala
1	.570		1575	1580
Leu	Asp Lys Val	Ala	His Leu Gin Ala Gly Glu	Arg Val Leu Ile	His
1585	1590 1595	1600
Ala	Glu Ais Gly	Gly	Val Gly Leu Cys Ala Val	Arg Trp Ala Gin	Arg
	1605	1610	1615
Val	Gly Ala Glu	Val	Tyr Ala Thr Ala Asp Thr	Pro Glu Asn Arg	Ala
	1620		1625	1630
Tyr	Leu Glu Ser	Leu	Gly Val Arg Tyr Val Ser	Asp Ser Arg Ser	Gly
	1635		1640	1645
Arg	Phe Val Thr	Asp	Val His Ala Trp Thr Asp	Gly Glu Gly Val	Asp
1650		1655	1660
Val	Val Leu Asp	Ser	Leu. Ser Gly Glu Arg Ile	Asp Lys Ser Leu	Met
1665	1670 1675	1680
Val	Leu Arg Ala	Čys Gly Arg Leu Val Lys Leu	Gly Arg Arg Asp Asp

1685 1690 1695

Cys Ala Asp Thr Gin Pro Gly Leu Pro Pro Leu Leu Arg Asn Phe Ser 1700 1705 1710 • · • ·

- 157 • · · · · ···· • · · ····· ····· · · · · ·· ·

Phe Ser Gin Val Asp Leu Arg Gly Met Met Leu Asp Gin Pro Ala Arg 1715 1720 1725

Ile Arg Ala Leu Leu Asp Glu Leu Phe Gly Leu Val Ala Ala Gly Ala 1730 1735 1740

Ile Ser Pro Leu Gly Ser Gly Leu Arg Val Gly Gly Ser Leu Thr Pro
1745	1750	1755	1760
Pro Pro	Val Glu Thr Phe Pro 1765	Ile Ser Arg Ala Ala 1770	Glu Ala Phe Arg 1775
Arg Met	Ala Gin Gly Gin His 1780	Leu Gly Lys Leu Val 1785	Leu Thr Leu Asp 1790
Asp Pro	Glu Val Arg Ile Arg 1795	Ala Pro Ala Glu Ser L800 :	Ser Val Ala Val 1805
Arg Ala 1810	Asp Gly Thr Tyr Leu 1815	Val Thr Gly Gly Leu 1820	Gly Gly Leu Gly
Leu Arg 1825	Val Ala Gly Trp Leu 1830	Ala Glu Arg Gly Ala 1835	Gly Gin Leu Val 1840
Leu Val	Gly Arg Ser Gly Ala 1845	Ala Ser Ala Glu Gin 1850	Arg Ala Ala Val 1855
Ala Ala	Leu Glu Ala His Gly 1860	Ala Arg Val Thr Val 1865	Ala Lys Ala Asp 1870
Val Ala	Asp Arg Ser Gin Ile L875 ;	Glu Arg Val Leu Arg L88O	Glu Val Thr Ala L885
Ser Gly 1890	Met Pro Leu Arg Gly 1895	Val Val His Ala Ala 1900	Gly Leu Val Asp
Asp Gly 1905	Leu Leu Met Gin Gin 1910	Thr Pro Ala Arg Phe 1915	Arg Thr Val Met 1920
Gly Pro	Lys Val Gin Gly Ala 1925	Leu His Leu His Thr 1930	Leu Thr Arg Glu 1935
Ala Pro	Leu Ser Phe Phe Val 1940	Leu Tyr Ala Ser Ala 1945	Ala Gly Leu Phe 1950
Gly Ser	Pro Gly Gin Glv Asn Tyr Ala Ala Ala Asn L955 1960	Ala Phe Leu Asp 1965
Ala Leu 1970	Ser His His Arg Arg 1975	Ala Gin Gly Leu Pro 1980	Ala Leu Ser Ile
Asp Trp 1985	Gly Met Phe Thr Glu 1990	Val Gly Met Ala Val 1995	Ala Gin Glu Asn 2000
Arg Gly	Ala Arg Gin Ile Ser 2005	Arg Gly Met Arg Gly 2010	Ile Thr Pro Asp 2015
Glu Gly	Leu Ser Ala Leu Ala 2020	Arg Leu Leu Glu Gly 2025	Asp Arg Val Gin 2030
Thr Gly	Val Ile Pro Ile Thr	Pro Arg Gin Trp Val	Glu Phe Tyr Pro

2035 2040 2045

Ala Thr Ala Ala Ser Arg Arg Leu Ser Arg Leu Val Thr Thr Gin Arg 2050 2055 2060 • ·

- 158 -

Ala Val Ala Asp Arg Thr Ala Gly Asp Arg Asp Leu Leu Glu Gin Leu
2065	2070	2075	2080
Ala Ser	Ala Glu Pro Ser Ala	Arg Ala Gly Leu Leu Gin	Asp Val Val
	2085	2090	2095
Arg Val	Gin Val Ser His Val	Leu Arg Leu Pro Glu Asp	Lys Ile Glu
	2100	2105 2110
Val Asp	Ala Pro Leu Ser Ser	Met Gly Met Asp Ser Leu	Met Ser Leu
2115	2120 2125
Glu Leu	Arg Asn Arg Ile Glu	Ala Ala Leu Gly Val Ala	Ala Pro Ala
2130	2135	2140
Ala Leu	Gly Trp Thr Tyr Pro	Thr Val Ala Ala Ile Thr	Arg Trp Leu
2145	2150	2155	2160
Leu Asp	Asp Ala Leu Val Val	Arg Leu Gly Gly Gly Ser	Asp Thr Asp
	2165	2170	2175
Glu Ser	Thr Ala Ser Ala Gly	Ser Phe Val His Val Leu	Arg Phe Arg
	2180	2185 :	2190
Pro Val	Val Lys Pro Arg Ala	Arg Leu Phe Cys Phe His	Gly Ser Gly
2195 ;	2200 2205
Gly Ser	Pro Glu Gly Phe Arg	Ser Trp Ser Glu Lys Ser	Glu Trp Ser
2210	2215	2220
Asd Leu	Glu Ile Val Ala Met	Tro His Asp Arg Ser Leu	Ala Ser Glu
2225	2230	2235	2240
Asp Ala	Pro Gly Lys Lys Tyr	Val Gin Glu Ala Ala Ser	Leu Ile Gin
	2245	2250	2255
His Tyr	Ala Asp Ala Pro Phe	Ala Leu Val Gly Phe Ser	Leu Gly Val
	2260	2265 2270
Arg Phe	Val Met Gly Thr Ala	Val Glu Leu Ala Ser Arg	Ser Gly Ala
2275 :	2280. 2285
Pro Ala	Pro Leu Ala Val Phe	Thr Leu Gly Gly Ser Leu	Ile Ser Ser
2290	2295	2300
Ser Glu	Ile Thr Pro Glu Met	Glu Thr Asp Ile Ile Ala	Lys Leu Phe
2305	2310	2315	2320
Phe Arg	Asn Ala Ala Gly Phe	Val Arg Ser Thr Gin Gin	Val Gin Ala
	2325	2330	2335
Asp Ala	Arg Ala Asp Lys Val	Ile Thr Asp Thr Met Val	Ala Pro Ala
	2340	2345 2350
Pro Gly	Asp Ser Lys Glu Pro	Pro Val Lys Ile Ala Val	Pro Ile Val
2355 :	2360 2365
Ala Ile	Ala Gly Ser Asp Asp	Val Ile Val Pro Pro Ser	Asp Val Gin
2370	2375	2380
Asp Leu	Gin Ser Arg Thr Thr	Glu Arg Phe Tyr Met His	Leu Leu Pro
2385	2390	. 2395	2400

Gly Asp His Glu Phe Leu Val Asp Arg Gly Arg Glu Ile Met His Ile • · • · • · · ·

- 159 2405 2410 2415

Val Asp Ser His Leu Asn Pro Leu Leu Ala Ala Arg Thr Thr Ser Ser 2420 2425 2430

Gly Pro Ala Phe Glu Ala Lys 2435 <210> 8 <211> 419 <212> PRT <213> Sorangium cellulosum <400> 8

Met 1

Thr

Gin

Glu

Gin 5

Ala

Asn

Gin

Ser

Glu 10

Thr

Lys

Pro

Ala

Phe 15

Asp

Phe

Lys

Pro

Phe 20

Ala

Pro

Gly

Tyr

Ala 25

Glu

Asp

Pro

Phe

Pro 30

Ala

Ile

Glu

Arg

Leu 35

Arg

Glu

Ala

Thr

Pro 40

Ile

Phe

Tyr

Trp

Asp 45

Glu

Gly

Arg

Ser

Trp 50

Val

Leu

Thr

Arg

Tyr 55

His

Asp

Val

Ser

Ala 60

Val

Phe

Arg

Asp

Glu 65

Arg

Phe

Ala

Val

Ser 70

Arg

Glu

Trp

Glu 75

Ser

Ala

Glu

Tyr 80

Ser

Ala

Ile

Pro 85

Glu

Leu

Ser

Asp

Met 90

Lys

Tyr

Gly

Leu 95

Phe

Gly

Leu

Pro

Pro 100

Glu

Asp

His

Ala

Arg 105

Val

Arg

Lys

Leu

Val 110

Asn

Pro

Ser

Phe

Thr 115

Ser

Arg

Ala

Ile

Asp 120

Leu

Arg

Ala

Glu 125

Ile

Gin

Arg

Thr

Val 130

Asp

Gin

Leu

Asp 135

Ala

Arg

Ser

Gly

Gin 140

Glu

Phe

Asp

Val 145

Val

Arg

Asp

Tyr

Ala 150

Glu

Gly

Ile

Pro

Met 155

Arg

Ala

Ile

Ser

Ala 160

Leu

Lys

Val

Pro 165

Ala

Glu

Cys

Asp

Glu 170

Lys

Phe

Arg

Phe 175

Gly

Ser

Ala

Thr

Ala 180

Arg

Ala

Leu

Gly

Val 185

Gly

Leu

Val

Pro

Gin 190

Val

Asp

Glu

Thr 195

Lys

Thr

Leu

Val

Ala 200

Ser

Val

Thr

Glu

Gly 205

Leu

Ala

Leu

His 210

Asp

Val

Leu

Asp

Glu 215

Arg

Asn

Pro 220

Leu

Glu

Asn

Asp

Val 225

Leu

Thr

Met

Leu

Leu 230

Gin

Ala

Glu

Ala

Asp 235

Gly

Ser

Arg

Leu

Ser 240

Thr

Lys

Glu

Leu

Val 245

Ala

Leu

Val

Gly

Ala 250

Ile

Ala

Gly 255

Thr

Asp

Thr

Ile 260

Tyr

Leu

Ile

Ala

Phe 265

Ala

Val

Leu

Asn

Leu 270

Leu

Arg

• · · ·

- 160 -

Ser Pro Glu Ala

Leu

Glu

Leu

Val Lys Ala Glu Pro Gly Leu Met Arg

275

280

285

Asn

Ala

Leu

Asp

Glu

Val

Leu

Arg

Phe

Asp

Asn

Ile

Leu

Arg

Ile

Gly

290

295

300

Thr

Val

Arg

Phe

Ala

Arg

Gin

Asp

Leu

Glu

Tyr

Cys

Gly

Ala

Ser

Ile

305

310

315

320

Lys

Gly

Glu

Met

Val

Phe

Leu

Ile

Pro

Ser

Ala

Leu

Arg

Asp

325

330

335

Gly

Thr

Val

Phe

Ser

Arg

Pro

Asp

Val

Phe

Asp

Val

Arg

Asp

Thr

340

345

350

Gly

Ala

Ser

Leu

Ala

Tyr

Gly

Arg

Gly

Pro

His

Val

Cys

Pro

Gly

Val

355

360

365

Ser

Leu

Ala

Arg

Leu

Glu

Ala

Glu

Ile

Ala

Val

Gly

Thr

Ile

Phe

Arg

370

375

380

Arg

Phe

Pro

Glu

Met

Lys

Leu

Lys

Glu

Thr

Pro

Val

Phe

Gly

Tyr

His

385

390

395

400

Pro

Ala

Phe

Arg

Asn

Ile

Glu

Ser

Leu

Asn

Val

Ile

Leu

Lys

Pro

Ser

405

410

415

Lys

Ala

Gly

<210> 9 <211> 607 <212> PRT <213> Sorangium <400> 9

cellulosum

Ala 1

Ser

Leu

Asp

Ala 5

Leu

Phe

Ala

Arg

Ala 10

Thr

Ser

Ala

Arg

Val 15

Leu

Asp

Gly

His 20

Gly

Arg

Ala

Thr

Glu 25

Arg

His

Val

Leu

Ala 30

Glu

Ala

Arg

Gly

Ile 35

Glu

Asp

Leu

Arg

Ala 40

Leu

Arg

Glu

His

Leu 45

Arg

Ile

Gin

Glu

Gly 50

Gly

Pro

Ser

Phe

His 55

Cys

Met

Cys

Leu

Gly 60

Asp

Leu

Thr

Val

Glu 65

Leu

Ala

His

Asp 70

Gin

Pro

Leu

Ala

Ser 75

Ile

Ser

Phe

His

His 80

Ala

Arg

Ser

Leu

Arg 85

His

Pro

Asp

Trp

Thr 90

Ser

Asp

Ala

Met

Leu 95

Val

Asp

Gly

Pro

Ala 100

Leu

Val

Arg

Trp

Leu 105

Ala

Arg

Gly

Ala 110

Pro

Gly

Pro

Leu

Arg 115

Glu

Tyr

Glu

Glu 120

Arg

Glu

Arg

Ala

Arg 125

Thr

Ala

Gin

Glu

Ala 130

Arg

Leu

Trp

Leu 135

Ala

Pro

Pro 140

Cys

Phe

Ala

Pro

• · • · • · • · · · • ·

- 161

Asp Leu Pro 145

Arg

Phe

Glu Asp 150

Asp Ala

Asn

Gly Leu Pro Leu Gly Pro

155

160

Met

Ser

Pro

Glu

Val

Ala

Glu

Ala

Glu

Arg

Leu

Arg

Ala

Ser

Tyr

165

170

175

Ala

Thr

Pro

Glu

Leu

Ala

Cys

Ala

Leu

Ala

Trp

Leu

Gly

Thr

180

185

190

Gly

Ala

Gly

Pro

Trp

Ser

Gly

Tyr

Pro

Ala

Tyr

Glu

Met

Leu

Pro

Glu

195

200

205

Asn

Leu

Gly

Phe

Gly

Leu

Pro

Thr

Ala

Ile

Ala

Ser

210

215

220

Ala

Pro

Gly

Thr

Ser

Glu

Ala

Leu

Arg

Gly

Ala

Arg

Leu

Phe

225

230

235

240

Ala

Ser

Trp

Glu

Val

Ser

Lys

Ser

Gin

Leu

Gly

Asn

Ile

245

250

255

Pro

Glu

Ala

Leu

Trp

Glu

Arg

Leu

Arg

Thr

Ile

Val

Arg

Ala

Met

Gly

260

265

270

Asn

Ala

Asd

Asn

Leu

Ser

Arg

Phe

Glu

Arg

Ala

Glu

Ala

Ile

Ala

275

280

285

Glu

Val

Arg

Leu

Arg

Ala

Gin

Pro

Ala

Pro

Phe

Ala

Gly

Ala

290

295

300

Gly

Leu

Ala

Val

Ala

Gly

Val

Ser

Gly

Arg

Leu

Ser

Gly

Leu

305

310

315

320

Val

Thr

Asp

Gly

Asp

Ala

Leu

Tyr

Ser

Gly

Asp

Gly

Asn

Asp

Ile

Val

325

330

335

Met

Phe

Gin

Pro

Gly

Arg

Ile

Ser

Pro

Val

Leu

Ala

Gly

Thr

340

345

350

Asp

Pro

Phe

Glu

Leu

Ala

Pro

Leu

Ser

Gin

Met

Leu

?hs

Val

355

360

365

Ala

His

Ala

Asn

Ala

Gly

Thr

Ile

Ser

Lys

Val

Leu

Thr

Glu

Gly

Ser

370

375

380

Pro

Leu

Ile

Val

Met

Ala

Arg

Asn

Gin

Ala

Arg

Pro

Met

Ser

Leu

Val

335

390

395

400

His

Ala

Arg

Gly

Phe

Met

Ala

Trp

Val

Asn

Gin

Ala

Met

Val

Pro

Asp

405

410

415

Pro

Glu

Arg

Gly

Ala

Pro

Phe

Val

Gin

Arg

Ser

Thr

Ile

Met

Glu

420

425

430

Phe

Glu

His

Pro

Thr

Pro

Arg

Cys

Leu

His

Glu

Pro

Ala

Gly

Ser

Ala

435

440

445

Phe

Ser

Leu

Ala

Cys

Asp

Glu

His

Leu

Tyr

Trp

Cys

Glu

Leu

Ser

450

455

460

Ala

Gly Arg

Leu

Glu

Leu

Trp

Arg

His

Pro

His

Arg

Pro

Gly

Ala

465

470

475

480

Pro

Ser Arg

Phe

Ala

Tyr

Leu

Gly

Glu

His

Pro

Ile

Ala

Thr

Trp

485

490

495

- 162 -

Tyr

Pro

Ser

Leu 500

Thr

Leu

Asn

Ala

Thr 505

His

Val

Leu

Trp

Ala 510

Asp

Pro

Asp

Arg

Arg 515

Ala

Ile

Leu

Gly

Val 520

Asp

Lys

Arg

Thr

Gly 525

Val

Glu

Pro

Ile

Val 530

Leu

Ala

Glu

Thr

Arg 535

His

Pro

Ala

His 540

Val

Ser

Glu

Asp 545

Arg

Asp

Ile

Phe

Ala 550

Leu

Thr

Gly

Gin

Pro 555

Asp

Ser

Arg

Asp

Trp 560

His

Val

Glu

His

Ile 565

Arg

Ser

Gly

Ala

Ser 570

Thr

Val

Ala

Asp 575

Tyr

Gin

Arg

Gin

Leu 580

Trp

Asp

Arg

Pro

Asd 585

Met

Val

Leu

Asn

Arg 590

Arg

Gly

Leu

Phe

Phe 595

Thr

Asn

Asp

Arg 600

Ile

Leu

Thr

Leu

Ala 605

Arg

Ser

<210> 10 <211> 423 <212> PRT <213> Sorangium cellulosum <400> 10

Met 1

Gly

Ala

Leu

Ile 5

Ser

Val

Ala

Pro 10

Gly

Cys

Ala

Leu

Gly 15

Gly

Ala

Glu

Glu 20

Gly

Gin

Pro

Gly

Gin 25

Asp

Ala

Gly

Ala

Gly 30

Ala

Leu

Ala

Pro

Ala 35

Arg

Glu

Val

Met

Ala 40

Ala

Glu

Val

Ala

Ala 45

Gly

Gin

Met

Pro

Gly 50

Ala

Val

Trp

Leu

Val 55

Ala

Arg

Gly

Asp

Asp 60

Val

His

Val

Asp

Ala 65

Val

Gly

Val

Thr

Glu 70

Leu

Gly

Ser

Ala 75

Pro

Met

Arg

Asp 80

Thr

Ile

Phe

Arg

Ile 85

Ala

Ser

Met

Thr

Lys 90

Ala

Val

Thr

Ala

Thr 95

Ala

Val

Met

Leu 100

Val

Glu

Gly

Lys 105

Leu

Asp

Leu

Asp

Ser 110

Pro

Val

Asp

Arg

Trn 115

Leu

Pro

Glu

Leu

Ala 120

Asn

Arg

Lys

Val

Leu 125

Ala

Arg

Ile

Asp

Gly 130

Pro

Ile

Asp

Glu

Thr 135

Val

Pro

Ala

Glu

Arg 140

Pro

Ile

Thr

Val

Arg 145

Asp

Leu

Met

Thr

Phe 150

Thr

Met

Gly

Phe

Gly 155

Ile

Ser

Phe

Asp

Ala 160

Ser

Pro

Ile

Gin 165

Arg

Ala

Ile

Asp

Glu 170

Leu

Gly

Leu

Val

Asn 175

Ala

Gin

Pro

Val

Pro 180

Met

Thr

Pro

His

Gly 185

Pro

Asp

Glu

Trp

Ile 190

Arg

·· ··· · · · · · ·····« · · * · ·· • · · · · · · ··· · ··· ···· ··

- 163 -

Leu Gly

Thr 195

Leu

Pro Leu Met His Gin Pro Gly Ala Gin Trp Met

Tyr

200

205

Asn

Thr

Gly

Ser

Leu

Val

Gin

Gly

Val

Leu

Val

Gly

Arg

Ala

Asp

210

215

220

Gin

Gly

Phe

Asp

Ala

Phe

Val

Arg

Glu

Arg

Ile

Leu

Ala

Pro

Leu

Gly

225

230

235

240

Met

.Arg

Asp

Thr

Asp

Phe

His

Val

Pro

Ala

Asp

Lys

Leu

Ala

Arg

Phe

245

250

255

Ala

Gly

Cys

Gly

Tyr

Phe

Thr

Asp

Glu

Gin

Thr

Gly

Glu

Lys

Thr

Arg

260

265

270

Met

Asp

Arg

Asp

Gly

Ala

Glu

Ser

Ala

Tyr

Ala

Ser

Pro

Ala

Phe

275

280

285

Pro

Ser

Gly

Ala

Gly

Leu

Val

Ser

Thr

Val

Asp

Tyr

Leu

290

295

300

Phe

Ala

Arg

Met

Leu

Met

Asn

Gly Gly

Val

His

Glu

Gly

Arg

Leu

305

310

315

320

Leu

Ser

Ala

Ser

Val

Arg

Glu

Met

Thr

Ala

Asp

His

Leu

Thr

Pro

325

330

335

Ala

Gin

Lys

Ala

Ser

Phe

Pro

Gly

Phe

Glu

Thr

His

340

345

350

Gly

Trp

Gly

Tyr

Gly

Met

Ala

Val

Thr

Ala

Pro

Asp

Ala

Val

Ser

355

360

365

Glu

Val

Pro

Gly

Arg

Tyr

Gly

Trp

Asp

Gly

Phe

Gly

Thr

Ser

Trp

370

375

380

Ile

Asn

Asp

Pro

Gly

Arg

Glu

Leu

Ile

Gly

Ile

Val

Met

Thr

Gin

Ser

385

390

395

400

Ala

Gly

Phe

Leu

Phe

Ser

Gly

Ala

Leu

Glu

Arg

Phe

Trp

Arg

Ser

Val

405

410

415

Tyr

Val

Ala

Thr

Glu

Ser

Ala

420 <210> 11 <211> 713 <212> PRT <213> Sorangium cellulosum <400> 11

Met 1

His

Gly

Leu

Thr 5

Glu

Arg

Gin

Val

Leu 10

Leu

Ser

Leu

Val

Thr 15

Leu

Ala

Leu

Ile

Leu 20

Val

Thr

Ala

Arg

Ala 25

Ser

Gly

Glu

Leu

Ala 30

Arg

Leu

Arg

Gin 35

Pro

Glu

Val

Leu

Gly 40

Glu

Leu

Phe

Gly Gly 45

Val

Leu

Gly

Pro 50

Ser

Val

Gly

Ala 55

Leu

Ala

Pro

Gly

Phe 60

His

Arg

Ala

Leu

Phe Gin Glu Pro Ala^Val Gly Val Val Leu Ser Gly Ile Ser Trp Ile • · · · · · · · · · · ··· · ····· ······ · · ·* ·· · • · ·· · · · · ··· · ······· · · ··

- 164 65 70 75 80

Gly

Ala

Leu

Leu 85

Leu

Met

Ala

Gly 90

Ile

Glu

Val

Asp

Val 95

Gly

Ile

Leu

Arg

Lys- 100

Glu

Ala

Arg

Pro

Gly 105

Ala

Leu

Ser

Ala

Leu 110

Gly

Ala

Ile

Ala

Pro 115

Pro

Leu

Ala

Gly 120

Ala

Phe

Ser

Ala 125

Leu

Val

Leu

Asp

Arg 130

Pro

Leu

Pro

Ser

Gly 135

Leu

Phe

Leu

Gly

Ile 140

Val

Leu

Ser

Val

Thr 145

Ala

Val

Ser

Val

Ile 150

Ala

Lys

Val

Leu

Ile 155

Glu

Arg

Glu

Ser

Met 160

Arg

Ser

Tyr

Ala 165

Gin

Val

Thr

Leu

Ala 170

Ala

Gly

Val

Ser 175

Glu

Val

Ala

Trp 180

Val

Leu

Val

Ala

Met 185

Thr

Ser

Tyr 190

Gly

Ala

Ser

Pro

Ala 195

Leu

Ala

Val

Ala

Arg 200

Ser

Ala

Leu

Ala 205

Ser

Gly

Phe

Leu

Leu 210

Phe

Met

Val

Leu

Val 215

Gly

Arg

Leu

Thr 220

His

Leu

Ala

Met

Arg 225

Trp

Val

Ala

Asp

Ala 230

Thr

Arg

Val

Ser

Lys 235

Gly

Gin

Val

Ser

Leu 240

Val

Leu

Val

Leu

Thr 245

Phe

Leu

Ala

Ala 250

Leu

Thr

Gin

Axq

Leu 255

Gly

Leu

His

Pro

Leu 260

Leu

Gly

Ala

Phe

Ala 265

Leu

Gly

Val

Leu

Leu 270

Asn

Ser

Ala

Pro

Arg 275

Thr

Asn

Arg

Pro

Leu 280

Leu

Asp

Gly

Val

Gin 285

Thr

Leu

Val

Ala

Gly 290

Leu

Phe

Ala

Pro

Val 295

Phe

Val

Leu

Ala 300

Gly

Met

Arg

Val

Asp 305

Val

Ser

Gin

Leu

Arg 310

Thr

Pro

Ala

Trp 315

Gly

Thr

Val

Ala

Leu 320

Leu

Ala

Thr

Ala 325

Thr

Ala

Lys

Val 330

Val

Pro

Ala

Leu 335

Gly

Ala

Arg

Leu

Gly 340

Gly

Leu

Arg

Gly

Ser 345

Glu

Ala

Leu

Val 350

Ala

Val

Gly

Leu

Asn 355

Met

Lys

Gly

Thr 360

Asp

Leu

Ile

Val

Ala 365

Ile

Val

Gly

Val

Glu 370

Leu

Gly

Leu

Ser 375

Asn

Glu

Ala

Tyr

Thr 380

Met

Tyr

Ala

Val

Val 385

Ala

Leu

Val

Thr

Val 390

Thr

Ala

Ser

Pro

Ala 395

Leu

Ile

Trp

Leu 400

Glu

Lys

Arg

Ala

Pro

Thr

Gin

Glu

Ser

Ala

Arg

Leu

Glu

Arg

405 410 415

- 165 -

Glu Glu

Ala

Ala Arg Arg Ala Tyr Ile Pro Gly Val Glu Arg Ile Leu

420

425

430

Val

Pro

Ile

Val

Ala

His

Ala

Leu

Pro

Gly

Phe

Ala

Thr

Asp

Ile

Val

435

440

445

Glu

Ser

Ile

Val

Ala

Ser

Lys

Arg

Lys

Leu

Gly

Glu

Thr

Val

Asp

Ile

450

455

460

Thr

Glu

Leu

Ser

Val

Glu

Gin

Ala

Pro

Gly

Pro

Ser

Arg

Ala

465

470

475

480

Gly

Glu

Ala

Ser

Arg

Gly

Leu

Ala

Arg

Leu

Gly

Ala

Arg

Leu

Arg

Val

485

490

495

Gly

Ile

Trp

Arg

Gin

Arg

Glu

Leu

Arg

Gly

Ser

Ile

Gin

Ala

Ile

500

505

510

Leu

Arg

Ala

Ser

Arg

Asp

His

Asp

Leu

Val

Ile

Gly

Ala

Arg

Ser

515

520

525

Pro

Ala

Arg

Ala

Arg

Gly

Met

Ser

Phe

Gly

Arg

Leu

Gin

Asp

Ala

Ile

530

535

540

Val

Gin

Arg

Ala

Glu

Ser

Asn

Val

Leu

Val

Gly

Asp

Pro

545

550

555

560

Ala

Glu

Arg

Ala

Ser

Ala

Arg

Ile

Leu

Val

Pro

Ile

Gly

565

570

575

Leu

Glu

Tyr

Ser

Phe

Ala

Al a

Asp

Leu

Ala

His

Val

Ala

Leu

580

585

590

Ala

Trp

Asd

Ala

Glu

Leu

Val

Leu

Ser

Ala

Gin

Thr

Asp

Pro

595

600

605

Gly

Ala

Val

Trp

Arg

Asp

Arg

Glu

Pro

Ser

Arg

Val

Arg

Ala

Val

610

615

620

Ala

Arg

Ser

Val

Asd

Glu

Ala

Val

Phe

Arg

Gly

Arg

Leu

Gly

625

630

635

640

Val

Arg

Val

Ser

Arg

Val

His

Val

Gly

Ala

His

Pro

Ser

Asd

Glu

645

650

655

Ile

Thr

Arg

Glu

Leu

Ala

Arg

Ala

Pro

Tyr

Asp

Leu

Val

Leu

Gly

660

665

670

Cys

Tyr

Asd

His

Gly

Pro

Leu

Gly

Arg

Leu

Tyr

Leu

Gly

Ser

Thr

Val

675

680

685

Glu

Ser

Val

Arg

Ser

Arg

Val

Pro

Val

Ala

Leu

Val

Ala

690

695

700

His

Gly

Thr

Arg

Glu

Gin

Val

Arg

705 710 <210> 12 <211> 126 <212> PRT <213> Sorangium cellulosum <400> 12

Met Asp Lys Pro Ile Gly Arg Thr Arg Cys Ala Ile Ala Glu Gly Tyr • · • · · · · • · · · · • ·

1 Ile Pro

5

10 Pro

1 66 Gin

Met

Thr

15

Gly

Gly Ser Asn Gly Pro Glu

Ser 30

His

Glu

20

25

Thr

Ala

Cys 35

Leu

Asn

Ala

Ser 40

Asp

Arg

Asp

Ala

Gin 45

Val

Ala

Ile

Thr

Val 50

Tyr

Phe

Ser

Asp

Arg 55

Asp

Pro

Ala

Gly

Pro 60

Tyr

Arg

Val

Thr

Val 65

Pro

Ala

Arg

Thr 70

Arg

His

Val

Arg

Phe 75

Asn

Asp

Leu

Thr

Glu 80

Pro

Glu

Pro

Ile

Pro 85

Arg

Asp

Thr

Asp

Tyr 90

Ala

Ser

Val

Ile

Glu 95

Ser

Asp

Ala

Pro

Ile 100

Val

Gin

His

Thr 105

Arg

Leu

Asp

Ser

Arg 110

Gin

Ala

Glu

Asn

Ala

Leu

Ser

Thr

Ile

Ala

Tyr

Thr

Asp

Arg

Glu

115 120 125 <210> 13 <211> 149 <212> PRT

<213> Sorangium <400> 13

cellulosum

Met 1

Lys

His

Val

Asp 5

Thr

Gly

Arg

Phe 10

Gly

Arg

Ile

Gly 15

His

Thr

Leu

Gly

Leu 20

Leu

Ala

Ser

Met

Ala 25

Leu

Ala

Gly

Cys

Gly 30

Gly

Pro

Ser

Glu

Lys 35

Thr

Val

Gin

Gly

Thr 40

Arg

Leu

Ala

Pro

Gly 45

Ala

Asp

Ala

Arg

Val 50

Thr

Ala

Asp

Val

Aso 55

Pro

Asp

Ala

Thr 60

Thr

Arg

Leu

Ala

Val 65

Asp

Val

His

Leu 70

Ser

Pro

Glu

Arg 75

Leu

Glu

Ala

Gly

Ser 80

Glu

Arg

Phe

Val

Val 85

Trp

Gin

Arg

Pro

Ser 90

Pro

Glu

Ser

Pro

Trp 95

Arg

Val

Gly

Val 100

Leu

Asp

Tyr

Asn

Ala 105

Asp

Ser

Arg

Gly 110

Lys

Leu

Ala

Glu

Thr 115

Thr

Val

Pro

Tyr

Ala 120

Asn

Phe

Glu

Leu

Leu 125

Ile

Thr

Ala

Glu

Lys 130

Gin

Ser

Pro

Gin 135

Ser

Pro

Ser

Ala 140

Ala

Val

Ile

Gly

Pro Thr Ser Val Gly 145 <210> 14 <211> 184 <212> PRT <213> Sorangium cellulosum • ·

- 167 <400> 14

Val Thr Ser Glu Glu

Val

Pro Gly Ala Ala Leu Gly Ala Gin Ser

Ser

1

5

10

15

Leu

Val

Arg

Ala

Gin

His

Ala

Arg

His

Val

Arg

Pro

Cys

Thr

Arg

20

25

30

Ala

Glu

Pro

Ala

Leu

Met

His

Gly

Leu

Thr

Glu

Arg

Gin

Val

35

40

45

Leu

Ser

Leu

Val

Ala

Leu

Ala

Leu

Val

Leu

Thr

Ala

Arg

Ala

50

55

60

Phe

Gly

Glu

Leu

Ala

Arg

Leu

Arg

Gin

Pro

Glu

Val

Leu

Gly

Glu

65

70

75

80

Leu

Phe

Gly

Val

Leu

Gly

Pro

Ser

Val

Gly

Ala

Leu

Ala

85

90

95

Pro

Gly

Phe

His

Arg

Val

Leu

Phe

Gin

Asp

Pro

Ala

Val

Gly

Val

100

105

110

Leu

Ser

Gly

Ile

Ser

Trp

Ile

Gly

Ala

Leu

Val

Leu

Met

Ala

115

120

125

Gly

Ile

Glu

Val

Asp

Val

Ser

Ile

Leu

Arg

.Lys

Glu

Ala

Arg

Pro

Gly

130

135

140

nJ.3

Leu

Ser

Ala

Leu

Gly

Ala

Ile

Ala

Pro

Leu

Arg

Thr

Pro

Gly

145

150

155

160

Pro

Leu

Val

Gin

Arg

Met

Gin

Gly

Ala

Phe

Thr

Trp

Asp

Leu

Aso

Val

165

170

175

Ser

Pro

Arg

Ser

Ala

Gin

Ala

180 <210> 15 <211> 145 <212> PRT <213> Sorangium cellulosum <400> 15

Val 1

Asn

Ala

Pro

Cys 5

Met

Arg

Cys

Thr

Ser 10

Gly

Pro

Gly

Val

Arg 15

Ser

Gly

Ala

Ile 20

Ala

Pro

Ser

Ala

Glu 25

Ser

Ala

Pro

Gly

Arg 30

Ala

Ser

Leu

Arg

Arg 35

Met

Leu

Thr

Ser

Thr 40

Ser

Ile

Pro

Ala

Met 45

Ser

Arg

Thr

Ser 50

Ala

Pro

Ile

Gin

Glu 55

Met

Pro

Glu

Ser

Thr 60

Thr

Pro

Thr

Ala

Gly 65

Ser

Trp

Lys

Arg

Thr 70

Arg

Trp

Asn

Pro

Gly 75

Ala

Ser

Ala

Pro

Thr 80

Thr

Asp

Gly

Pro

Ser 85

Thr

Pro

Lys 90

Ser

Pro

Ser

Thr 95

Ser

Gly

Trp

Arg

Ser 100

Arg

Ala

Ser

Ser 105

Pro

Lys

Ala

Arg

Ala 110

Val

Arg

• · · • · · · · ·

9 • · · 9

168 -

Arg

Thr

Ser Ala Arg Ala Thr 115

Ser Glu Ser Arg Thr Cys Arg Ser Val

120

125

Arg

Pro

Cys

Ile

Arg

Ala

Gly

Ser

Ala

Arg

Val

Gin

Gly

Arg

130

135

140

Thr

145 <210> 16 <211> 185 <212> PRT <213> Sorangium cellulosum <400> 16

Val 1

Leu Ala Pro

Pro 5

Ala

Asd Ile Arg Pro Pro Ala Ala Ala Gin Leu

10

15

Glu

Pro

Asp

Ser

Pro

Asp

Glu

Ala

Asp

Glu

Ala

Asp

Glu

Ala

Leu

20

25

30

Arg

Pro

Phe

Arg

Asp

Ala

Ile

Ala

Tyr

Ser

Glu

Ala

Val

Arg

Trp

35

40

45

Ala

Glu

Ala

Gin

Arg

Pro

Arg

Leu

Glu

Ser

Leu

Val

Arg

Leu

Ala

50

55

60

Ile

Val

Arg

Leu

Gly

Lys

Ala

Leu

Asp

Lys

Val

Pro

Phe

Ala

His

Thr

65

70

75

80

Thr

Ala

Gly

Val

Ser

Gin

Ile

Ala

Gly

Arg

Leu

Gin

Asn

Asp

Ala

Val

85

90

95

Trp

Phe

Asp

Val

Ala

Arg

Tyr

Ala

Ser

Phe

Arg

Ala

Thr

Glu

100

105

110

His

Ala

Leu

Arg

Asp

Ala

Ser

Ala

Met

Glu

Ala

Leu

Ala

Gly

115

120

125

Pro

Tyr

Arg

Gly

Ser

Arg

Val

Ser

Ala

Val

Gly

Glu

Phe

Arg

130

135

140

Gly

Glu

Ala

Arg

Leu

His

Pro

Ala

Asp

Arg

Val

Pro

Ala

Ser

Asp

145

150

155

160

Gin

Ile

Leu

Thr

Ala

Leu

Arg

Ala

Glu

Arg

Ala

Leu

Ile

Ala

165

170

175

Leu

Tyr

Thr

Ala

Phe

Ala

Arg

Glu

180 185 <210> 17 <211> 146 <212> PRT <213> Sorangium cellulosum <400> 17

Met

Ala Asp

Ala

Ser

Arg

Ser

Ala

Cys

Ser

Val

Ala

Arg

Lys

1

5

10

15

Leu

Ala Tyr

Arg

Ala

Thr

Ser

Asn

Gin

Thr

Ala

Ser

Phe

Trp

Ser

20

25

30

• ······ • « · · · · ······· · · ··

- 169 -

Leu

Pro

Ala 35

Ile

Trp

Glu

Thr

Pro 40

Ala

Val

Cys

Ala 45

Lys

Gly

Thr

Leu

Ser 50

Ser

Ala

Leu

Pro

Ser 55

Arg

Thr

Ile

Ala

Ser 60

Arg

Thr

Arg

Leu

Ser 65

Ser

Arg

Gly

Arg

Cys 70

Ala

Ser

Ala

His 75

Arg

Thr

Ala

Ser

Glu 80

Tyr

Ala

Ile

Ala 85

Ser

Arg

Asn

Gly

Arg 90

Ser

Ala

Ser

Ala 95

Ser

Ala

Ser

Ser 100

Ser

Gly

Glu

Ser

Gly 105

Ser

Trp

Ala

Ala 110

Ala

Gly

Arg

Met 115

Ser

Ala

Gly

Ala 120

Ser

Thr

Gly

Glu

Val 125

Tyr

Glu

Gin

Ala

Pro

Arg

Leu

Arg

Leu

Ala

Gin

Ser

Val

Ala

Arg

Asp

130 135 140

Pro Thr 145 <210> 18 <211> 283 <212> PRT

<213> Sorangium

cellulosum

<400> 18 Val Thr Val 1

Ser

Ser 5

Met

Pro

Arg

Ser

Trp 10

Ser

Arg

Val

Arg 15

Thr

Val

Thr

Ala 20

Leu

Gly

Cys

Ala

Arg 25

Arg

Leu

Ser

Gly

Ser 30

Ile

Ser

Arg

Leu

Arg 35

Arg

His

Pro

Glu

Ala 40

Gly

Arg

Ala

Pro

Arg 45

Ser

Arg

Leu

Arg

Ala 50

Trp

Arg

Leu

Pro 55

Gin

His

Ile

Ser

Ser 60

Pro

Trp

Arg

His

Leu 65

Pro

Gly

Ala

Arg 70

Val

Gly

Thr

Ser

Cys 75

Pro

Ala

Asp

Arg

Arg 80

Ile

Leu

Pro

Ser

His 85

Arg

Thr

Ala

Asp

Leu 90

Gly

Thr

Ser

Gly

Gly 95

Thr

Leu

Val

Ala

Arg 100

Met

Ser

Gly

His

Val 105

Ala

Arg

Asn

Pro

His 110

Ala

Val

Leu

Val 115

Gly

Asp

Gly

Ser

Ala 120

Arg

Gly

Arg

Arg 125

Leu

Ser

Asn

Arg

Arg 130

Ala

Glu

Arg

Val 135

Ser

Asp

Val

Thr

Cys 140

Arg

Glu

Gly

Glu 145

Ala

Met

Gin

Lys

Ile 150

Ala

Gly

Lys

Leu

Val 155

Val

Gly

Leu

Ile

Ser 160

Val

Ser

Gly

Met

Ser 165

Leu

Ala

Cys 170

Gly Gly

Glu

Lys

Arg 175

Ser

• · • · • · · · · • · · · · · • · · · • · · · · ·

- 170 -

Gly Gly

Glu

Ala 180

Gin

Thr

Pro

Gly Gly 185

Ala

Gin

Gly

Glu

Ala 190

Pro

Val

Pro

Val

Gly 195

Ser

Ala

Val

Asp

Ser 200

Ile

Val

Ala

Arg 205

Cys

Asp

Arg

Glu

Ala 210

Arg

Cys

Asn

Ile 215

Gly

Gin

Asp

Arg

Glu 220

Tyr

Ser

Lys

Asp 225

Ala

Cys

Ser

Asn

Lys 230

Ile

Arg

Ser

Glu

Tro 235

Arg

Asp

Glu

Leu

Thr 240

Phe

Gly

Glu

Cys

Pro 245

Gly

Ile

Asp

Ala 250

Lys

Gin

Leu

Asn

Glu 255

Cys

Leu

Glu

Gly

Ile 260

Arg

Asn

Glu

Gly

Cys 265

Gly

Asn

Pro

Phe

Asp 270

Thr

Leu

Gly

Arg

Val 275

Val

Ala

Cys

Arg

Ser 280

Ser

Asp

Leu

Cys

Arg 285

Asp

Ala

Arg

<210> 19 <211> 288 <212> PRT <213> Sorangium cellulosum <400> 19

Val 2

Thr

Val

Ser

Ser 5

Met

Pro

Arg

Ser

Tro 1*0

Ser

Arg

Val

Arg 15

Thr

Val

Thr

Ala 20

Leu

Gly

Cys

Ala

Arg 25

Arg

Leu

Ser

Gly

Ser 30

Ile

Ser

Arg

Leu

Arg 35

Arg

His

Pro

Glu

A.la 40

Gly

Arg

Ala

Pro

Arg 45

Ser

Arg

Leu

Arg

Ala 50

Trp

Arg

Leu

Pro 55

Gin

His

Ile

Ser

Ser 60

Pro

Trp

Arg

His

Leu 65

Pro

Gly

Ala

Arg 70

Val

Gly

Thr

Ser

Cys 75

Pro

Ala

Asp

Arg

Arg 80

Ile

Leu

Pro

Ser

His 85

Arg

Thr

Ala

Asp

Leu 90

Gly

Thr

Ser

Gly

Gly 95

Thr

Leu

Val

Ala

Arg 100

Met

Ser

Gly

His

Val 105

Ala

Arg

Asn

Pro

His 110

Ala

Val

Leu

Val 115

Gly

Asp

Gly

Ser

Ala 120

Arg

Gly

Arg

Aurg

Arg. 125

Leu

Ser

Asn

Arg

Arg 130

Ala

Glu

Arg

Val 135

Ser

Asp

Val

Thr

Cys 140

Arg

Glu

Gly

Glu 145

Ala

Met

Gin

Lys

Ile 150

Ala

Gly

Lys

Leu

Val 155

Val

Gly

Leu

Ile

Ser 160

Val

Ser

Gly

Met

Ser 165

Leu

Ala

Ála

Cys 170

Gly Gly

Glu

Lys

Arg 175

Ser

Gly Gly Glu Ala Gin Thr Pro Gly Gly Ala Gin Gly Glu Ala Pro Val

- 171

180

185

190

Pro

Val

Gly 195

Ser

Ala

Val

Asp

Ser 200

Ile

Val

Ala

Arg 205

Cys

Asp

Arg

Glu

Ala 210

Arg

Cys

Asn

Ile 215

Gly

Gin

Asp

Arg

Glu 220

Tyr

Ser

Lys

Asp 225

Ala

Cys

Ser

Asn

Lys 230

Ile

Arg

Ser

Glu

Tro 235

Arg

Asp

Glu

Leu

Thr 240

Phe

Gly

Glu

Cys

Pro 245

Gly

Ile

Asp

Ala 250

Lys

Gin

Leu

Asn

Glu 255

Cys

Leu

Glu

Gly

Ile 260

Arg

Asn

Glu

Gly

Cys 265

Gly

Asn

Pro

Phe

Asp 270

Thr

Leu

Gly

Arg

Val 275

Val

Ala

Cys

Arg

Ser 280

Ser

Asp

Leu

Cys

Arg 285

Asp

Ala

Arg

<210> 20 <211> 155 <212> PRT <213> Sorangium cellulosum

<400> 20 Met Asp Pro

Arg

Ala

Arg

Glu

Lys

Arg

Pro

Ser

Leu

Asp

Ser

1

5

10

15

Arg Gly Arg

Gin

Pro

Lys

Arg

Ser

Gin

Gly

His

Met

Glu

Lys

20

25

30

Pro Ile Gly

Arg

Thr

Arg

Trp

Ala

Ile

Ala

Glu

Gly

Tyr

Ile

Pro

Gly

35

40

45

Arg Ser Asn

Gly

Pro

Glu

Pro

Gin

Met

Thr

Ser

His

Glu

Thr

Ala

Cys

50

55

60

Leu Leu Asn

Ala

Ser

Asp

Arg

Asp

Ala

Gin

Val

Ala

Ile

Thr

Val

Tyr

65

70

75

80

Phe Ser Asp

Arg

Asp

Pro

Ala

Gly

Pro

Tyr

Arg

Val

Thr

Val

Pro

Ala

85

90

95

Arg Arg Thr

Arg

His

Val

Arg

Phe

Asn

Asp

Leu

Thr

Glu

Pro

Glu

Pro

100

105

110

Ile Pro Arg

Asp

Thr

Asp

Tyr

Ala

Ser

Val

Ile

Glu

Ser

Asp

Val

Pro

115

120

125

Ile Val Val

Gin

His

Thr

Arg

Leu

Asp

Ser

Arg

Gin

Ala

Glu

Asn

Ala

130

135

140

Leu Ile Ser

Thr

Ile

Ala

Tyr

Thr

Asp

Arg

Glu

145

150

155

<210> 21 <211> 156 <212> PRT

<213> Sorangium

cellulosum

• · • · • · · · ····· ······ · · · · ·· · • · · · ···· ··· · ··· ···· ·· ··

- 172 <400> 21

Val Arg Arg Ser Arg Trp Gin Met Lys His Val Asp Thr Gly Arg Arg

1

5

10

15

Val

Gly

Arg

Arg 20

Ile

Gly

Leu

Thr

Leu 25

Gly

Leu

Ala

Ser 30

Met

Ala

Leu

Ala

Gly 35

Cys

Gly

Pro

Ser 40

Glu

Lys

Ile

Val

Gin 45

Gly

Thr

Arg

Leu

Ala 50

Pro

Gly

Ala

Asp

Ala 55

His

Val

Ala

Asp 60

Val

Asp

Pro

Asp

Ala 65

Ala

Thr

Arg

Leu 70

Ala

Val

Asp

Val

Val 75

His

Leu

Ser

Pro

Pro 80

Glu

Arg

Ile

Glu

Ala 85

Gly

Ser

Glu

Arg

Phe 90

Val

Trp

Gin

Arg 95

Pro

Ser

Glu

Ser 100

Pro

Trp

Gin

Arg

Val 105

Gly

Val

Leu

Asp

Tyr 110

Asn

Ala

Ser

Arg 115

Arg

Gly

Lys

Leu

Ala 120

Glu

Thr

Val

Pro 125

His

Ala

Asn

Phe

Glu 130

Leu

Ile

Thr

Val 135

Glu

Lys

Gin

Ser

Ser 140

Pro

Gin

Ser

Pro

Ser

Ala

Val

Ile

Gly

Pro

Thr

Ser

Val

Gly

145 150 155 <210> 22 <211> 305 <212> PRT

<213> Sorangium <400> 22

cellulosum

Met 1

Glu

Lys

Glu

Ser 5

Arg

Ile

Ala

Ile

Tyr 10

Gly

Ala

Ile

Ala

Ala 15

Asn

Val

Ala

Ile

Ala 20

Ala

Val

Lys

Phe

Ile 25

Ala

Val

Thr 30

Gly

Ser

Ala

Met 35

Leu

Ser

Glu

Gly

Val 40

His

Ser

Leu

Val

Asp 45

Thr

Ala

Asp

Gly

Leu 50

Leu

Gly 55

Lys

His

Arg

Ser

Ala 60

Arg

Pro

Asp

Ala 65

Glu

His

Pro

Phe

Gly 70

His

Gly

Lys

Glu

Leu 75

Tyr

Phe

Trp

Thr

Leu 80

Ile

Val

Ala

Ile

Met 85

Ile

Phe

Ala

Gly 90

Gly

Val

Ser

Ile 95

Tyr

Glu

Gly

Ile

Leu 100

His

Leu

His

Pro 105

Arg

Gin

Ile

Glu

Asp 110

Pro

Thr

Trp

Asn

Tyr 115

Val

Leu

Gly

Ala 120

Ala

Val

Phe

Glu 125

Gly

Thr

Ser

Leu Ile Ile Ser Ile His Glu Phe Lys Lys Lys Asp Gly Gin Gly Tyr 130 135 140 • · • e

- 173 -

Leu 145

Ala

Met

Arg

Ser 150

Ser

Lys

Asp

Pro

Thr 155

Thr

Phe

Thr

Ile

Val 160

Leu

Glu

Asp

Ser

Ala 165

Ala

Leu

Ala

Gly

Leu 170

Thr

Ile

Ala

Phe

Leu 175

Gly

Val

Trp

Leu

Gly 180

His

Arg

Leu

Gly

Asn 185

Pro

Tyr

Leu

Asp

Gly 190

Ala

Ser

Ile

Gly 195

Ile

Gly

Leu

Val

Leu 200

Ala

Val

Ala

Val 205

Phe

Leu

Ala

Ser

Gin 210

Ser

Arg

Gly

Leu

Leu 215

Val

Gly

Glu

Ser

Ala 220

Asp

Arg

Glu

Leu

Leu 225

Ala

Ile

Arg

Ala 230

Leu

Ala

Ser

Ala

Asp 235

Pro

Gly

Val

Ser

Ala 240

Val,

Gly

Arg

Pro

Leu 245

Thr

Met

His

Phe

Gly 250

Pro

His

Glu

Val

Leu 255

Val

Leu

Arg

Ile 260

Glu

Phe

Asp

Ala

Ala 265

Leu

Thr

Ala

Ser

Gly 270

Val

Ala

Glu

Ala

Ile 275

Glu

Arg

Ile

Glu

Thr 280

Arg

Ile

Arg

Ser

Glu 285

Arg

Pro

Asp

Val

Lys 290

His

Ile

Tyr

Val

Glu 295

Ala

Arg

Ser

Leu

His 300

Gin

Arg

Ala

Arg

Ala 3 0 5 <210> 23 <211> 135 <212> PRT <213> Sorangium cellulosum <400> 23

Val 1

Gin

Thr Ser

Ser 5

Phe

Asp

Ala

Arg

Tyr 10

Ala

Gly

Cys

Lys

Ser 15

Ser

Arg

Ile Ala 20

Arg

Ser

Gly

Ser

Ala 25

Gly

Ala

Arg

Ala

Gly 30

Arg

Ala

His

Glu

Gly Ala 35

Ala

Ser

Ala

Gly 40

Phe

Glu

Gly

Asp 45

Val

Met

Arg

Lys

Ala 50

Arg Ala

His

Gly

Ala 55

Met

Leu

Gly Gly

Arg 60

Asp

Gly

Trp

Arg 65

Arg

Gly Leu

Pro

Gly 70

Ala

Gly

Ala

Leu

Arg 75

Ala

Leu

Gin

Arg 80

Gly

Arg

Ser Arg

Aso 85

Leu

Ala

Arg

Arg 90

Leu

Ile

Ala

Sér

Val 95

Ser

Leu

Ala

Gly Gly 100

Ala

Ser

Met

Ala

Val 105

Val

Ser

Leu

Phe

Gin 110

Leu

Gly

Ile

Glu Arg 115

Leu

Pro

Asp

Pro 120

Pro

Leu

Pro

Gly

Phe 125

Asp

Ser

Ala

• 0 0 0 • 0 0 0 0 · · · · ·· · 0 0 0 0 0 • · · · · · 0 0· ·· 0

0 0 0 0 0 0

0 0 0 0 0 0 0 0 00 00

- 174 Lys Val Thr Ser Ser Asp Ile

130 135 <210> 24 <211> 19 <212> DNA <213> Syntetická sekvence <220>

<223> Popis syntetické sekvence:

univerzální reverzní primer <400> 24 ggaaacagct atgaccatg 19 <210> 25 <211> 17 <212> DNA ^<213> Syntetická sekvence <220>

<223> popis syntetické sekvence: univerzální přímý primer <400> 25 gtaaaacgac ggccagt 17 <210> 26 <211> 28 <212> DNA ^<213> syntetická sekvence <220>

<223> Popis syntetické sekvence:

PCR primer NH24 konec B <400> 26 gtgactggcg cctggaatct gcatgagc 28 <210> 27 <211> 23 <212> DNA <213> Syntetická sekvence <220>

<223> Popis syntetické sekvence:

PCR primer NH2 konec A <400> 27 agcgggagct tgctagacat tctgtttc 28 <210> 28 <211> 24 <212> DNA <213> syntetická sekvence <220>

<223> Popis syntetické sekvence:

PCR primer NH2 konec B <400> 28 gacgcgcctc gggcagcgcc ccaa 24 <210> 29 • ·

175 <211> 25 <212> DNA <213> Syntetická sekvence <220>

<223> Popis syntetické sekvence:

PCR primer pEPO15-NH6 konec B <400> 29 caccgaagcg tcgatctggt ccatc

<210> <21Í> <212> <213>	30 25 DNA Syntetická	sekvence
<220>
<223>	Popis syntetické sekvence:
<400>	PCR primer 30	pEPO15H2.7 konec

cggtcagatc gacgacgggc tttcc

Claims

PATENTOVÉ NÁROKY

1. Izolovaná molekula nukleové kyseliny obsahující nukleotidovou sekvenci, která kóduje alespoň jeden polypeptid účastnící se biosyntézy epothilonu.
2. Izolovaná molekula nukleové kyseliny podle nároku kde nukleotidová sekvence je izolována z myxobaktérie.

1/
3. Izolovaná molekula nukleové kyseliny podle nároku 2, kde myxobaktérie je Sorangium cellulosum.
4. Chimérický gen obsahující heterologní promotorovou sekvenci operativně spojenou s molekulou nukleové kyseliny podle' nároku 1.
5. Rekombinantní vektor obsahující chimérický gen podle nároku 4.

6. Rekombinantní gen podle nároku 4. hostitelská buňka obsahuj ící chimérický 7. Rekombinantní je baktérie. hostitelská buňka podle nároku 6, která 8. Rekombinantní je aktinomyceta. hostitelská buňka podle nároku 7, která 9. Rekombinantní hostitelská buňka podle nároku 8, která

je Streptomyces.
10. Klon Bac obsahující molekulu nukleové kyseliny podle nároku 1.

• ·

- 177
11. Klon Bac podle nároku 10, který je pEPO15
12. Izolovaná molekula nukleové kyseliny podle nároku 1, kde polypeptid obsahuje aminokyselinovou sekvenci v podstatě podobnou aminokyselinové obsahující: sekvenci id. č. id. č. 2, aminokyseliny

č. 3, aminokyseliny 669-684 815-821 sekvence id. č. 3, sekvenci vybrané ze skupiny

2, aminokyseliny 11-437 sekvence 543-864 sekvence id. č. 2, aminokyseliny 974-1273 sekvence id. č. 2, aminokyseliny 13141385 sekvence id. č. 2, sekvenci id. č. 3, aminokyseliny 7281 sekvence id. č. 3, aminokyseliny 118-125 sekvence id. č. 3, aminokyseliny 199-212 sekvence id. č. 3, aminokyseliny 353-363 sekvence id. č. 3, aminokyseliny 549-565 sekvence id. č. 3, aminokyseliny 588-603 sekvence id.

sekvence id. č. 3, aminokyseliny aminokyseliny 868-892 sekvence id. č. 3, aminokyseliny 903-912 sekvence id. č. 3, aminokyseliny 918-940 sekvence id. č. 3, aminokyseliny 1268-1274 sekvence id. č. 3, aminokyseliny 12851297 sekvence id. č. 3, aminokyseliny 973-1256 sekvence id. č. 3, aminokyseliny 1344-1351 sekvence id. č. 3, sekvenci id. č. 4, aminokyseliny 7-432 sekvence id. č. 4, aminokyseliny 539-859 sekvence id. č. 4, aminokyseliny 869-1037 sekvence id. č. 4, aminokyseliny 1439-1684 sekvence id. č. 4, aminokyseliny 1722-1792 sekvence id. č. 4, sekvenci id. č. 5, aminokyseliny 39-457 sekvence id. č. 5, aminokyseliny 563-884 sekvence id. č. 5, aminokyseliny 1147-1399 sekvence id. č. 5, aminokyseliny 1434-1506 sekvence id. č. 5, aminokyseliny 1524-1950 sekvence sekvence id. č. 5, 5, aminokyseliny 2932id. č. 5, aminokyseliny 2056-2377 aminokyseliny 2645-2895 sekvence id. č.

3005 sekvence id. č. 5, aminokyseliny 3024-3449 sekvence id. č. 5, aminokyseliny 3555-3876 sekvence id. č. 5, aminokyseliny 3886-4048 sekvence id. č. 5, aminokyseliny 4433-4719 sekvence id. č. 5, aminokyseliny 4729-4974 sekvence id. č. 5, aminokyseliny 5010-5082 sekvence id. č. 5, aminokyseliny 5103• ·

- 17 8 5525 sekvence id. č. 5, aminokyseliny 5631-5951 sekvence id. č. 5, aminokyseliny 5964-6132 sekvence id. č. 5, aminokyseliny 6542-6837 sekvence id. č. 5, aminokyseliny 6857-7101 sekvence id. č. 5, aminokyseliny 7140-7211 sekvence id. č. 5, sekvenci id. č. 6, aminokyseliny 35-454 sekvence id. č. 6, aminokyseliny 561-881 sekvence id. č. 6, aminokyseliny 11431393 sekvence id. č. 6, aminokyseliny 1430-1503 sekvence id. č. 6, aminokyseliny 1522-1946 sekvence id. č. 6, aminokyseliny 2053-2373 sekvence id. č. 6, aminokyseliny 2383-2551 sekvence id. č. 6, aminokyseliny 2671-3045 sekvence id. č. 6, aminokyseliny 3392-3636 sekvence id. č. 6, aminokyseliny 36733745 sekvence id. č. 6, sekvenci id. č. 7, aminokyseliny 32450 sekvence id. č. 7, aminokyseliny 556-877 sekvence id. č. 7, aminokyseliny 887-1051 sekvence id. č. 7, aminokyseliny 1478-1790 sekvence id. č. 7, aminokyseliny 1810-2055 sekvence id. č. 7, aminokyseliny 2093-2164 sekvence id. č.

aminokyseliny 216P—24o9 seKvence sekvenci id. č. 10, sekvencí id. č. 11 a sekvenci id. č. 22.

sekvence id. č. 2, aminokyseliny 1314- aminokyseliny 72- -81 sekvence id. č. 3,
13. Izolovaná molekula nukleové kyseliny podle nároku 12, kde polypeptid obsahuje aminokyselinovou sekvenci vybranou ze skupiny obsahující: sekvenci id. č. 2, aminokyseliny 11-437 sekvence id. č. 2, aminokyseliny 543-86 aminokyseliny 974-1273 sekvence id. č. 2 1385 sekvence id. č. 2, sekvenci id. č. I sekvence id. č. 3, aminokyseliny 118-12 aminokyseliny 199-212 sekvence id. č. 3, aminokyseliny 353-363 sekvence id. č. 3, aminokyseliny 549-565 sekvence id. č. 3, aminokyseliny 583-603 sekvence id. č. 3, aminokyseliny 669-684 sekvence id. č. 3, aminokyseliny 815-821 sekvence id. č. 3, aminokyseliny 868-892 sekvence id. č. 3, aminokyseliny 903-912 sekvence id. č. 3, aminokyseliny 918-940 sekvence id. č. 3, aminokyseliny 1268-1274 sekvence id. č. 3, aminokyseliny 12851297 sekvence id. č. 3, aminokyseliny 973-1256 sekvence id.

• ·

- 179 č. 3, aminokyseliny 1344-1351 sekvence id. č. 3, sekvenci id. č. 4, aminokyseliny 7-432 sekvence id. č. 4, aminokyseliny 539-859 sekvence id. č. 4, aminokyseliny 869-1037 sekvence id. č. 4, aminokyseliny 1439-1684 sekvence id. č. 4, aminokyseliny 1722-1792 sekvence id. č. 4, sekvenci id. č. 5, aminokyseliny 39-457 sekvence id. č. 5, aminokyseliny 563-884 sekvence id. č. 5, aminokyseliny 1147-1399 sekvence id. č. 5, aminokyseliny 1434-1506 sekvence id. č. 5, aminokyseliny 1524-1950 sekvence id. č. 5, aminokyseliny 2056-2377 sekvence id. č. 5, aminokyseliny 2645-2895 sekvence id. č. 5., aminokyseliny 29323005 sekvence id. č. 5, aminokyseliny 3024-3449 sekvence id. č. 5, aminokyseliny 3555-3876 sekvence id. č, 5, aminokyseliny 3886-4048 sekvence id. č. 5, aminokyseliny 4433-4719 sekvence id. č. 5, aminokyseliny 4729-4974 sekvence id. č. 5, aminokyseliny 5010-5082 sekvence id. č. 5, aminokyseliny 51035525 sekvence id. č. 5, aminokyseliny 5631-5951 sekvence id. c. 5, aminokyseliny 5964—61o2 sekvence id. c. o, aminokyseliny 6542-6837 sekvence id. č. 5, aminokyseliny 6857-7101 sekvence id. č. 5, aminokyseliny 7140-7211 sekvence id. č. 5, sekvenci id. č 6, aminokyseliny 35-454 sekvence id. č. 6, aminokyseliny 561-881 sekvence id. č. 6, aminokyseliny 11431393 sekvence id. č. 6, aminokyseliny 1430-1503 sekvence id. č. 6, aminokyseliny 1522-1946 sekvence id. č. 6, aminokyseliny 2053-2373 sekvence id. č. 6, aminokyseliny 2383-2551 sekvence id. č. 6, aminokyseliny 2671-3045 sekvence id. č. 6, aminokyseliny 3392-3636 sekvence id. č. 6, aminokyseliny 36733745 sekvence id. č. 6, sekvenci id. č. 7, aminokyseliny 32450 sekvence id. č. 7, aminokyseliny 556-877 sekvence id. č. 7, aminokyseliny 887-1051 sekvence id. č. 7, aminokyseliny 1478-1790 sekvence id. č. 7, aminokyseliny 1810-2055 sekvence id. č. 7, aminokyseliny 2093-2164 sekvence id. č. 7, aminokyseliny 2165-2439 sekvence id. č. 7, sekvenci id. č. 8, sekvenci id. č. 10, sekvenci id. č. 11 a sekvenci id. č. 22.