FR2739859A1

FR2739859A1 - Polypeptide precurseur d'adn gyrase contenant une inteine

Info

Publication number: FR2739859A1
Application number: FR9512162A
Authority: FR
Inventors: Halida Fsihi; Stewart Cole
Original assignee: Institut Pasteur de Lille
Current assignee: Institut Pasteur de Lille
Priority date: 1995-10-17
Filing date: 1995-10-17
Publication date: 1997-04-18
Anticipated expiration: 2015-10-17
Also published as: FR2739859B1

Abstract

Cette invention a pour objet un polypeptide comprenant dans son enchaînement d'acides aminés une séquence d'ADN gyrase dans laquelle est contenue une séquence codant pour une intéine.

Description

L'invention concerne un polypeptide comprenant dans son enchaînement d'acides aminés une séquence d' ADN gyrase dans laquelle est contenue une séquence d'intéine, les utilisations pharmaceutiques de ce polypeptide ou de ses fragments ainsi que les utilisations spécifiques de sa séquence d'intéine.

Le phénomène d'épissage protéique ("protein splicing") est aujourd'hui considéré comme l'un des plus intéressants mécanismes de transfert d'information récemment mis en évidence, depuis la découverte des introns et de l'épissage de l'ARN dans les années 1970.

Ce phénomène a été observé jusqu'à présent chez différents organismes procaryotes ou eucaryotes inférieurs (levures). Chez ces organismes, certains gènes possèdent une insertion en cadre de lecture ("in frame") excisée non pas au niveau de l'ARN, mais à celui de la protéine.

Initialement, un seul polypeptide précurseur est synthétisé. Dans une seconde étape, la séquence protéique contenue dans ce précurseur en est excisée et les deux séquences protéiques encadrant cette insertion sont finalement reliées par une liaison peptidique.

L'épissage protéique résulte donc dans la production successive de trois produits d'expression à partir d'un seul gène : un polypeptide précurseur initial, une protéine qui est excisée de ce précurseur, désignée sous le nom d'intéine, et une nouvelle protéine mature résultant de réunion des deux fragments restants du polypeptide initial.

Ce procédé n'a jusqu'à présent été décrit que pour un nombre limité de protéines, dont en particulier: l'ATPase vacuolaire de Saccharomyces cerevisiae (1) et
Candida tropicalis (2), et l'ADN polymérase de l'archaebactérie Thermococus litoralis (3) et d'espèces de
Pyrococus (4).

Chez les mycobactéries, un épissage protéique a pour la première fois été montré au niveau de la protéine RecA de Mycobacterium tuberculosis, puis de
Mycobacterium leprae. Aucun mécanisme de ce type n'a toutefois été décrit chez les eucaryotes supérieurs.

Perler et al.(4) ont récemment proposé une nomenclature uniforme pour définir tous les éléments impliqués dans ce processus. Ce sont ces mêmes définitions qui seront adoptées dans tout ce qui suit
- protéine précurseur : produit de traduction primaire
- protéine mature ou ligaturée : produit correspondant à une protéine mature résultant de la réunion des deux fragments d'extéine après excision de l'intéine ;
- intéine : séquence protéique interne dans la protéine précurseur, excisée durant la maturation
- extéine : séquence protéique externe dans le précurseur, correspondant à une partie de la protéine mature
- N-extéine : extéine du côté N-terminal de l'intéine ;
- C-extéine : extéine du côté C-terminal de l'intéine ;
- excision : production d'une intéine sous forme libre à partir d'une protéine précurseur
- épissaqe protéique : excision d'une intéine couplée à la ligature des extéines.

Le mécanisme moléculaire responsable de l'épissage protéique n'est pas totalement élucidé.

Néanmoins, il semble aujourd'hui établi que celui-ci fonctionne selon un mode autocatalytique, impliquant certains résidus d'acides aminés conservés au niveau des régions de jonction entre l'intéine et les deux fragments d'extéine. On a ainsi montré que le résidu
N-terminal de l'intéine est invariablement une cystéine ou une sérine, alors que ses deux derniers résidus
C-terminaux sont l'histidine et l'asparagine. On sait également que le dernier résidu de l'intéine est suivi par une sérine, thréonine ou cystéine au niveau de la Cextéine (5-8).

Selon le schéma généralement admis, l'excision de l'intéine résulterait d'une attaque nucléophile sur la région de jonction entre l'extéine (N-exteine) et la partie N-terminale de 1' intéine par le groupe hydroxyl (ou thiol) de l'amino acide N-terminal (Ser, Thr, Cys du second fragment d'extéine (C-extéine).

Cette réaction produirait ainsi une chaîne polypeptidique branchée avec deux extrémités NH2. Dans une seconde étape, l'amino acide C-terminal de l'intéine serait cyclisé en succinimide, provoquant l'excision de l'intéine et la ligature des deux fragments d'extéine.

Toutes les intéines identifiées jusqu ce jour se sont révélées avoir des similarités de séquences avec des endonucléases "invasives" dérivées d'introns sur 1 'ARN ("homing endonucléases"), dont l'activité catalytique résulte en une auto-propagation (9). En particulier, comme les endonucléases invasives, toutes les intéines séquencées possèdent en deux endroits de leur séquence deux motifs dodécamériques P1 et P2, au sein desquels se trouve une séquence consensus connue pour être impliquée dans l'activité endonucléolytique de ces enzymes. Cette séquence consensus constitue ce que l'on appelle la "signature LAGLI-DADG" (10,11).

Les endonucléases codées par des introns, reconnaissent toutes des séquences spécifiques. Dans certains cas, lorsqu'un gène de deux espèces différentes héberge une intéine, il est fort probable que les endonu cléases correspondent à des isoschizomères, c'est-à-dire des endonucléases reconnaissant sur 1'ADN des séquences cibles similaires ou du moins très proches au niveau desquelles elles engendrent des coupures double brins.

Ces sites de reconnaissance étant relativement longs (entre 10 et 40 paires de bases), ceux-ci ne se rencontreront que très rarement dans 1'ADN génomique.

En conséquence, les coupures induites par ces enzymes seront assez peu fréquentes dans le génome et surtout très spécifiques.

Cette spécificité de coupure a récemment été utilisée pour induire une recombinaison chromosomique ciblée dans des cellules de mammifères. Les études ont été réalisées avec l'endonucléase I-SceI de Saccharomyces cerevisiae et les résultats ont montré que la recombinaison homologue induite par cette enzyme se réalisait avec une fréquence d'environ deux ordres de magnitude plus importants par rapport à une recombinaison homologue spontanée, démontrant ainsi l'intérêt des endonucléases dérivées d'introns en tant qu'outils pour manipuler le génome des organismes vivants(12,13).

Toutes les intéines découvertes jusqu'à ce jour se trouvent intégrées dans une protéine dont la maturation est nécessaire à la survie de l'organisme auquel elles appartiennent (ATPase, polymérase, ...). De ce fait, si l'épissage protéique est altéré, par exemple par des composés capables d'interagir avec les régions de jonctions intéine/extéine, il y aura une accumulation du peptide précurseur sans, ou avec une très faible, activité de la protéine mature.

Ainsi, on a pu observer dans le cas de la protéine Rec A de M. tuberculosis que l'incorporation du précurseur protéique non épissé dans des complexes multimériques conduisaient à l'apparition d'un phénotype dominant négatif et à une perte de la fonction (14). En effet, pour pouvoir effectuer des fonctions de recombinaison, le complexe RecA doit contenir seulement des formes matures de la protéine (14).

Le contrôle de l'épissage protéique chez un hôte infectieux offre donc une nouvelle piste pour la fabrication de composés antibiotiques ou antifongiques.

Les auteurs de la présente invention se sont intéressés aux mécanismes de biosynthèse de 1'ADN gyrase chez M. leprae.

Cette enzyme est une topoisomérase constituée par deux sous-unités A et B, respectivement codées par les gènes qyrA et alors. Elle constitue la cible principale des substances à base de quinolone. La sous-unité
A est responsable de la coupure double brin et de la réunion de 1'ADN ("nicking-closing"), alors que la sousunité B contrôle le transfert d'énergie via l'hydrolyse de 1'ATP. L'ADN gyrase surenroule dans le sens négatif un ADN circulaire fermé et intervient donc dans les phénomènes essentiels de la réplication de 1'ADN, la recombinaison et la transcription.

Compte tenu du rôle clef de cette enzyme dans la multiplication cellulaire, on conçoit l'intérêt que pourraient présenter des moyens permettant de bloquer son action chez des microorganismes infectieux, ces moyens intervenant soit au niveau de la transcription du gène qyrA, soit durant les étapes ultérieures, directement au niveau de la protéine.

Les inventeurs ont plus spécifiquement étudié la structure du gène de la sous-unité A de 1'ADN gyrase et la séquence de son produit d'expression. De façon surprenante, ceux-ci ont observé que par rapport aux gènes qyrA, de M. tuberculosis ou de S. coelicolor, celui de M. leprae possédait une séquence supplémentaire de 1260 paires de bases qui ne se retrouvait pas exprimée au niveau de la protéine gyrase mature.

La présente invention résulte donc de la découverte d'une séquence supplémentaire de 1260 paires de bases en cadre de lecture ("in frame") contenue dans le gène qyrA de M. leprae.

Plus particulièrement, 1' invention résulte de l'observation que le produit d'expression du gène oorA chez M. leprae ainsi que chez certaines souches d'autres espèces de mycobactéries, correspond à un précurseur de 1'ADN gyrase contenant une intéine.

L'invention a donc pour objet un polypeptide comprenant dans son enchaînement d'acides aminés une séquence d' ADN gyrase dans laquelle est contenue une séquence codant pour une intéine.

Plus précisément, l'invention a pour objet un polypeptide, caractérisé en ce qu'il s'agit d'une séquence d'ADN gyrase de mycobactérie choisie parmi certaines souches de M. ieprae M. flavescens, M.

gordonae et M. kansasii.

Un polypeptide particulier selon l'invention est représenté par le polypeptide comprenant la séquence
SEQ ID n"l de M. leprae ou une séquence variante ne modifiant pas ses propriétés biologiques. Ce polypeptide comprend 1 273 acides aminés et possède un poids moléculaire calculé de 141 130 Daltons.

L'invention vise aussi des polypeptides comprenant une séquence choisie parmi les séquences SEO
ID n"2, SEQ ID n" 3, SEQ ID n" 4 ou SEQ ID n" 5, correspondant respectivement aux séqueces d'intéine codées par le gène QvrA de M. leprae, M. flavescens, M. gordonae et
M. kansasii ou tout dérivé de cette séquence. Au sens de la présente invention, le terme dérivé désigne toute molécule obtenue par modification de nature génétique et/ou chimique des séquences peptidiques SEQ ID n 2, SEQ
ID n 3, SEQ ID n 4 ou SEQ ID n 5 .Les modifications apportées peuvent consister en une ou plusieurs muta tions, substitution, délétion, addition et/ou modification chimique d'un seul ou d'un nombre limité de résidus, à condition que les séquences ainsi modifiées conservent les activités biologiques, notamment les propriétés endonucléasiques, des séquences peptidiques d'intéine sus-mentionnées.

La fabrication de tels dérivés peut avoir différents objectifs, dont en particulier celui d'obtenir une activité enzymatique supérieure à celle de l'intéine naturelle correspondante ou une meilleure résistance à la dégradation par des protéases.

L'invention concerne également des séquences nucléotidiques codant pour des polypeptides comprenant dans leur enchaînement d'acides aminés une séquence d'
ADN gyrase dans laquelle est contenue une séquence codant pour une intéine.

Plus particulièrement, il s'agit d'une séquence choisie parmi
a) tout ou partie de la séquence SEQ ID N" 6 ou de son brin complémentaire;
b) toute séquence hybridant dans des conditions de forte stringence (50 %(V/v) formamide, 5 x SSC,5 x Denhardt's, 5mM tampon phosphate, pH 6,5 à 42"C), voire dans des conditions de stringence réduites par réduction de la température d'hybridation avec une séquence a) et codant pour un polypeptide correspondant à un polypeptide comprenant dans son enchaînement d'acides aminés une séquence d'ADN gyrase dans laquelle est contenue une séquence codant pour une intéine
c) toute séquence dérivée des séquences a) ou b) en raison de la dégénérescence du code génétique.

Plus particulièrement encore, une séquence nucléotidique de l'invention est choisie parmi
(a) les séquences SEQ ID n"7, SEQ ID n" 8,
SEQ ID n" 9, SEQ ID n" 10 (correspondant aux séquences nucléotidiques codant respectivement pour l'intéine de
M, leprae, M. flavescens, M. gordonae, M. kansasii) ou leur brin complémentaire,
(b) toute séquence hybridant avec une séquence (a) et codant pour un polypeptide à activité endonucléasique,
(c) toute séquence dérivée des séquences a) ou b) en raison de la dégénérescence du code génétique.

Les polypeptides de l'invention peuvent être obtenus par expression dans un hôte cellulaire d'une séquence nucléotidique telle que décrite ci-dessus, par synthèse chimique, sur la base des séquences SEQ ID n"l ou SEQ ID n"2, SEQ ID N"3, SEQ ID N" 4, SEQ ID N" 5 en utilisant les techniques connues de l'homme du métier, ou par combinaison de ces techniques.

Les différentes séquences nucléotidiques de l'invention peuvent être d'origine artificielle ou non.

I1 peut s'agir de séquences d'ADN ou d'ARN, obtenues par exemple par criblage de banques d'ADN au moyen des sondes élaborées sur la base de la séquence SEQ ID n" 6 ou SEQ
ID n" 7, SEQ ID n" 8, SEQ ID n" 9, SEQ ID n" 10. De telles banques peuvent être préparées par des techniques classiques de biologie moléculaire connues de l'homme de l'art.

Les séquences nucléotidiques selon l'invention peuvent également être préparées par synthèse chimique, ou encore par des méthodes mixtes incluant la modification chimique ou enzymatique de séquences obtenues par criblage de banques.

Les séquences nucléotidiques selon l'invention peuvent être utilisées pour la production des polypeptides tels que définis précédemment. La séquence nucléotidique utilisée dans ce cas sera alors placée sous le contrôle de signaux permettant son expression dans un hôte cellulaire. L'hôte cellulaire utilisé, peut être choisi parmi des systèmes procaryotes, comme les bactéries ou eucaryotes, comme par exemple les cellules d'insecte ou les levures ou tout autre système avantageusement disponible dans le commerce. Les signaux contrôlant l'expression des polypeptides sont choisis en fonction de l'hôte cellulaire utilisé. A cet effet, les séquences nucléotidiques selon l'invention peuvent être insérées dans des vecteurs à réplication autonome au sein de l'hôte choisi, ou des vecteurs intégratifs de l'hôte choisi.De tels vecteurs seront préparés selon les méthodes couramment utilisées par l'homme de métier, et les clones en résultant peuvent être introduits dans un hôte approprié par des méthodes standard telles que l'électroporation.

Les vecteurs d'expression contenant au moins l'une des séquences nucléotidiques définies ci-dessus soumise au contrôle de signaux appropriés pour l'expression de ladite séquence nucléotidique, font également partie de la présente invention.

Avantageusement, les séquences nucléotidiques de l'invention peuvent être insérées dans le vecteur
Lorist 6 (15,16) pour former un cosmide adapté à la transformation de la bactérie E. coli.

Selon un mode de réalisation particulier, le vecteur d'expression est le cosmide B 1770 constitué de la séquence SEQ ID n" 6 insérée dans le vecteur Lorist 6. Ce cosmide, contenu dans la bactérie E. coli NM 554 a été déposé auprès de la CNCM sous le numéro I 1602.

L'invention vise également les cellules hôtes transfectées par ces vecteurs d'expression. Ces cellules recombinantes peuvent être obtenues par introduction d'une séquence nucléotidique insérée dans un vecteur tel que définis ci-dessus, puis culture desdites cellules dans des conditions permettant la réplication et/ou l'expression de la séquence nucléotidique de l'invention.

Les cellules utilisées pour les transfections correspondent avantageusement à celles mentionnées ci-dessus.

Selon un mode de réalisation avantageux, les cellules utilisées seront des cellules de E. coli, en particulier des cellules de la souche E. coli NM 554.

Les cellules ainsi obtenues contenant une séquence nucléotidique codant pour un polypeptide précurseur peuvent être utilisées pour étudier la capacité de différents produits à agir au niveau l'épissage protéique. Plus précisément, ces cellules peuvent être utilisées pour étudier les produits d'expression des séquences nucléotidiques définies ci-dessus en présence de différents composés susceptibles d'altérer la maturation de cesdits produits d'expression.

Un autre objet de l'invention concerne l'utilisation des polypeptides comprenant dans leur enchaînement d'acides aminés une séquence d'ADN gyrase bactérienne dans laquelle est contenue une séquence d'intéine, et de toute séquence nucléotidique codante de cesdits polypeptides pour la fabrication de nouveaux composés antibiotiques ou antifongiques, agissant au niveau des mécanismes contrôlant l'épissage protéique.

Comme cela l'a en effet été mentionné précédemment, l'inhibition de l'épissage protéique et l'accumulation du polypeptide précurseur en résultant, peuvent avoir des conséquences létales du fait d'une carence en protéine mature indispensable. Par exemple, dans les cas de 1'ADN polymérase ou de la sous-unité A de 1'ADN gyrase, la perte de l'une de ces deux activités essentielles résulterait en une sévère inhibition de la croissance cellulaire et en fin de compte en une mort cellulaire. Dans le cas d'un organisme pathogène, la possibilité d'inhiber ou de contrôler l'épissage protéique constituerait donc un progrès thérapeutique impor tant. L'un des moyens permettant d'atteindre cet objectif, consiste à utiliser des leurres ou des "substrats suicides" pour la réaction d'épissage protéique, capables de bloquer l'excision de l'intéine ou d'empêcher la ligature normale des deux extéines.De tels inhibiteurs peuvent être constitués par des peptides ayant la même séquence ou une séquence similaire à celle des zones de jonction intéine-extéine. Compte tenu de la conservation des séquences en acides aminés de ces zones particulières, ces peptides pourraient avoir un spectre d'activité étendu en inhibant la maturation de plusieurs protéines non reliées fonctionnellement, et donc, leur effet toxique au niveau de la cellule cible serait d'autant plus accru.

Inversement, un effet plus spécifique peut être obtenu par des composés constitués par des peptides présentant une similitude de séquence avec un polypeptide précurseur particulier. Ces composés constituant alors un "leurre" pour les mécanismes normalement sollicités dans l'épissage protéique, leur utilisation pourrait résulter en une inhibition hautement spécifique sans répercussion sur d'autres événements d'épissage protéique dans la cellule. L'avantage dans ce cas d'une telle spécificité serait de ne pas avoir d'effets potentiellement contraires au niveau de l'hôte et de réduire fortement le risque de l'émergence d'une résistance généralisée, comme cela est vu parfois avec des antibiotiques à large spectre.

L'invention fournit des moyens pour fabriquer des produits altérant la maturation de protéines indispensables au développement d'agents infectieux par l'altération de l'épissage protéique des précurseurs polypeptidiques de ces protéines, par l'utilisation des polypeptides selon l'invention.

Plus particulièrement, l'invention vise l'utilisation des séquences peptidiques correspondant aux zones de jonction entre l'intéine et la N-et/ou la Cextéine ou de toute séquence nucléotidique codant pour ces séquences. Plus particulièrement encore, l'invention concerne l'utilisation des séquences peptidiques choisies parmi
- une séquence contenant le résidu correspondant à l'acide aminé N-terminal de l'intéine et s'étendant sur 2 ou 3 résidus de part et d'autre de celui-ci, ou leurs séquences nucléotidiques codantes ; ou
- une séquence contenant le résidu correspondant à l'acide aminé C-terminal de l'intéine et s'étendant sur 2 ou 3 résidus de part et d'autre de celui-ci ou leurs séquences nucléotidiques codantes.

L'invention concerne plus spécifiquement l'utilisation de la séquence peptidique MRYC*AG où * = V ou L et A = T ou S, ou ses séquences nucléotidiques codantes; ou la séquence peptidique SHNTEA, ou sa séquence nucléotidique codante, ces deux séquences correspondant respectivement aux zones de jonction N-extéine/intéine et intéine/C-extéine de 1'ADN gyrase de M. flavescens, M.

gordonae M. kansasii et M. leprae.

L'invention concerne également tout médicament comprenant comme principe actif au moins un composé capable d'altérer l'épissage protéique chez un organisme infectieux sans induire d'interférence au niveau de la synthèse et la maturation des protéines de l'hôte infecté par cet organisme.

Préférentiellement, ce composé est un peptide naturel ou synthétique, correspondant aux séquences des régions de jonction intéine/extéine, un anticorps ou tout fragment ou molécule dérivé d'anticorps reconnaissant spécifiquement un épitope particulier de ces régions.
Dans le cas où le composé est un peptide, celui-ci peut avantageusement contenir des acides aminés sous forme d'énantiomères D de façon à posséder une plus forte résistance à la protéolyse et donc avoir un mode d'action prolongé.

L'invention a également pour objet une composition pharmaceutique pour lutter contre l'infection d'organismes pathogènes intra- ou extra-cellulaires exprimant au moins une protéine essentielle dont la maturation résulte d'un épissage protéique, caractérisée en ce qu'elle contient au moins un composé tel que défini ci-dessus associé à un véhicule pharmaceutiquement acceptable pour transporter ledit composé dans le cytoplasme de ces organismes.

De tels véhicules sont connus de l'homme de l'art. Préférentiellement, le véhicule utilisé dans les compositions pharmaceutiques selon l'invention est choisi parmi des sidérophores, des sucres ou des bases azotées.

Selon un autre aspect, l'invention vise à fournir des moyens pour modifier de façon spécifique le génome d'une cellule eucaryote.

Plus particulièrement, l'invention concerne l'utilisation d'un polypeptide comprenant la séquence SEQ
ID n" 2, SEQ ID n03, SEQ ID n"4, SEQ ID n"5 ou tout dérivé, ayant une activité endonucléasique, pour modifier le génome d'une cellule eucaryote n'ayant pas d'activité biologique endogène se confondant avec celle dudit polypeptide. Plus spécifiquement, l'invention a pour objet l'utilisation d'un polypeptide tel que précédemment défini pour remplacer une copie d'un gène présent dans un génome receveur par l'intégration d'un gène différent de celui où se fait l'intégration.

La demande de brevet WO 90/11 354 décrit un procédé de remplacement spécifique d'une copie d'un gène présent dans le génome receveur par l'intégration d'un gène différent de celui où se fait l'intégration.

L'insertion ciblée est effectuée en transfectant des cellules eucaryotes avec un vecteur contenant 1'ADN étranger à insérer encadré par deux séquences génomiques (séquences "flanquantes") qui jouxtent le site d'insertion souhaité dans le gène receveur. Ce procédé nécessite donc la synthèse de séquences "flanquantes" au cas par cas, en fonction du lieu d'insertion choisi.

Une amélioration de ce procédé consiste à utiliser une endonucléase ayant un site de reconnaissance très rare pour induire la recombinaison dirigée de cellules de mammifères. Dans ce cas, les gènes qui seront insérés seront toujours encadrés par les mêmes séquences "flanquantes", ces séquences correspondant aux séquences reconnues par l'endonucléase. L'intégration du gène étranger au site de coupure de l'endonucléase est alors réalisée selon un mécanisme de recombinaison homologue entre les régions encadrant la coupure sur le gène receveur et celles encadrant le gène étranger. Ce procédé est décrit en détail par Dujon et al. (12,13).

Les travaux décrits par ces auteurs ont été réalisés avec une endonucléase de levure codée par un intron, l'enzyme I Sce I. Compte tenu de la particularité des intéines isolées jusqu'à ce jour à exprimer une activité endonucléasique au niveau de sites de coupures bien particuliers et normalement absents ou très peu fréquents chez les eucaryotes supérieurs, notamment les mammifères, les polypeptides de séquence SEQ ID n" 2, SEQ
ID n"3, SEQ ID n"4, SEQ ID n"5 et tout dérivé ayant une activité endonucléasique peuvent être utilisés pour induire une insertion ciblée d'une séquence d'ADN étranger dans le génome d'une cellule d'eucaryote supérieur, notamment de mammifère, au niveau d'une région où aura préalablement été introduit le site de coupure spécifique de cesdits polypeptides.Cette introduction préalable peut par exemple être réalisée à l'aide de vecteurs rétroviraux, comme cela est décrit dans les travaux de Dujon et al. (12,13). Les sites de coupure spécifiques des endonucléases invasives et des intéines sont décrits par Mueller et al. (9).

L'invention vise donc une utilisation d'un polypeptide de séquence SEQ ID n"2, SEQ ID n"3, SEQ ID n"4, SEQ ID n"5 et tout dérivé à activité endonucléasique pour l'insertion ciblée d'une séquence d'ADN étranger dans un site choisi dans le génome d'une cellule eucaryote ne contenant pas les sites de coupure spécifiques dudit polypeptide, où
- les sites de coupure spécifiques dudit polypeptide sont introduits dans le génome de ladite cellule au niveau du site choisi pour l'insertion ;
- 1'ADN étranger contient deux séquences "flanquantes" de part et d'autre d'une séquence à insérer, respectivement homologues aux séquences correspondant aux sites de coupure spécifiques dudit polypeptide;;
- la séquence d'ADN étranger est insérée par recombinaison homologue entre les séquences "flanquantes" et celles correspondant aux sites de coupure spécifiques dudit polypeptide, après la création de coupures double brin au niveau de ces sites spécifiques par ledit polypeptide préalablement introduit dans ladite cellule eucaryote.

D'autres caractéristiques et avantages de l'invention sont donnés dans les exemples qui suivent.

On indique tout d'abord ci-après les méthodes et produits utilisés dans les exemples donnés pour illustrer l'invention.

METHODES ET PRODUITS
Mycobactéries.

Les détails concernant les mycobactéries utilisées dans cette étude sont données dans le tableau 1 (ci-joint). Les données rapportées dans la troisième colonne (présence d'intéine) sont expliquées et commentées ci-après.

TABLEAU 1
Souche de mycobactéries utilisées et présence ou absence (+ -) de séquences codant pour une intéine dans cryrA.

Souches N de référence Présence d'intéine
M. Ieprae
G 88056 +
Ma 92002 +
NC 90049 +
P 89033 +
Se 88063 +
M. flavescens
FlaO 930991 +
Fla4 950450 +
Fla5 940758
M. gordonac
GorO 930835 +
Gorl 941295
Gor2 941268
Gor3 941270
Gor4 941334
GorS 941446
Gorl2 950025 +
M. kansasü
KansO 930908 +
Kans2 950051
Kans6 941295 +
Kans7 941386
Kans8 941419
Kans9 941443 +
Kans18 950077
Kansl9 950211
Kans21 950479 +
M. tuberculosis 930995 @@ @ @ @@@ @ouche de l'Institut @@@tour
M. bovis BCG souche de l'Institut Pasteur
M. avium 930994
M. smegmatis 930587
M. marinum 930732
M. chelonae 930836
M. fortuitum 930944
M. simiae 930759
M. szutgai 950112
Séquençage de 1'ADN et techniques informatiques.

Le cosmide B 1770 portant le gène svrA a été séquencé dans le cadre du projet de séquençage du génome de M. leprae par la technique de "shotgun" en utilisant un séquenceur d'ADN autmomatisé (ABI 373A) et le matériel informatique Staden (17). Les séquences nucléotidiques des régions pyrA de M. kansasii, M. flavescens et M.

gordonae ont été obtenues en utilisant des amorces et des produits de terminaison marqués par une sonde fluorescente.

Amplification par PCR et clonage.

Pour l'analyse par PCR des gènes GyrA mycobactériens, les amorces H49 (5'-AGGTTGTGCGGCGGGATATTGGT3') et H50 (5'-TTCGCCCGGACCGCAGCCACG-3') ont été synthétisées sur la base des régions conservées autour du site d'intégration de l'intéine GyrA de M. leprae et utilisées dans les conditions de PCR standard (18). Le produit de 1 665 paires de bases obtenu par PCR après amplification de la région de qyrA entourant le site d'insertion présumé des souches de M. flavescens, M. gordonae et M.

kansasii a été cloné dans le vecteur pGEMR-T (Promega).

Pour éviter des artéfacts dus à l'amplification avec la
Taq polymérase, on a séquencé 1'ADN d'au moins 3 clones isolé indépendamment.

EXEMPLES
Dans ces exemples, il est fait référence aux figures 1 à 4 dont les légendes sont les suivantes
- Figure 1 : alignement de séquences entre les protéines GyrA de M. leprae, M. tuberculosis et S.

coelicolor. Seuls les 700 premiers résidus sont montrés.

La position du résidu Tyr-122 (selon la numérotation chez
E. coli) est indiquée par &num; ainsi que les résidus identifiés chez M. tuberculosis (19), M. avium et M.

smegmatis (20) comme étant associés aux mutations conférant une résistance à la quinolone. (*). Le résidu Ser-95 qui, chez le complexe M. tuberculosis possède un polymorphisme naturel est également montré (b).

- Figure 2A : organisation et utilisation des codons des gènes gyrA de M. tuberculosis et M. leprae, et méthode de PCR utilisée pour l'analyse des gènes QyrA mycobactériens. L'utilisation des codons a été déterminée par la méthode FRAMESCAN en utilisant une gamme de 91 codons et une table de codons de M. leprae connus (17,21). Les amorces H49 et H50 utilisées pour l'amplification et la longueur des produits de PCR obtenus en fonction de l'absence ou de la présence de l'intéine dans le gène qyrA sont indiquées.

- Figure 2B : analyse par PCR des ADN génomiques de différentes espèces de mycobactéries (indiquées en haut de la figure). Les marqueurs de taille (kb) sont indiqués sur les côtés.

- Figure 3 : alignement schématique de séquences des régions essentielles de polypeptides connus ou présumés être produits par épissage protéique, montrant les positions de la N-extéine, l'intéine et la
C-extéine. Les distances entre les caractéristiques conservés sont précisées ; les motifs en paires associés aux nucléases codées par les introns et aux endonucléases "invasives" sont également indiqués. Les résidus critiques aux jonctions intéine-extéine sont indiqués en lettre blanches sur fond noir alors que les résidus conservés du motif LAGLI-DADG sont encadrés.

- Figure 4 : alignement des séquences nucléotidiques des sites d'insertion potentiels de différents gènes qyrA de mycobactéries. Les séquences sont celles d'allèles des gènes qYrA avec ou sans intéines de M. leprae, M. flavescens, M. gordonae, M.

kansasii et M. tuberculosis.

Les nucléotides toujours conservés sont représentés par des lettres blanches sur fonds noirs.

La séquence protéique déduite du Gène gyrA est montrée en haut de la figure et la flèche indique le site d'insertion de l'intéine.

EXEMPLE 1
Mise en évidence d'une intéine au sein du gène pyrA de M. leprae.

Le gène svrA de M. leprae est plus long d'environ 1,3 kb que les gènes correspondants chez M.

tuberculosis et S. coelicolor. A la partie N-terminale de la protéine GyrA où les mutations associées à la résistance à la quinolone sont généralement trouvées, il existe une forte homologie au niveau des 130 premiers résidus acides aminés (figure 1) qui se termine à la Tyr130. Chez Escherichia coli, le résidu correspondant, la
Tyr-122, se trouve fixé de manière covalente à l'ADN lorsque l'enzyme rompt les ponts phosphodiester de l'ADN (22). Le domaine C-terminal de la protéine GyrA de M.

leprae comprenant les résidus 551-1273 (723 amino acides) est fortement identique au niveau de sa séquence et de sa taille à la région comprenant les résidus 130-838 (709 amino acides) de la protéine de M. tuberculosis.

La séquence GyrA de M. leprae contient donc un insert long et non homologue (résidus 131-550) qui n'est pas présent chez d'autres protéines GyrA. L'utilisation du programme BLAST a montré que cet insert avait une légère similarité avec les protéines suivantes: l'intéine de la protéine RecA de M. tuberculosis (20 % d'identité sur un recouvrement de 483 amino acides), l'endonucléase PI-TLII insérée dans l'ADN polymérase de
Thermococcus litoralis (21,5 % d'identité sur un recouvrement de 163 amino acides), l'endonucléase trouvée dans 1'ADN polymérase 20 de Pyrococcus sp (24,7% d'identité sur un recouvrement de 97 amino acides), et une intéine présumée sur une protéine non identifiée (Pspl) de M. leprae (25 % d'identité sur un recouvrement de 52 amino acides).Compte tenu de ces similarités et de la présence d'amino acides qui sont essentiels pour que l'épissage se produise (voir ci-après), il est clair que le gène pyrA de M. leprae possède une intéine codant une séquence correspondant à une endonucléase invasive.

Détermination du nombre de copies de l'in- téine présentes chez M. leprae.

L'examen de l'utilisation des codons dans le gène ovrA montre une déviation significative de la moyenne au niveau de la région codant pour l'intéîne (figure 2A). Par ailleurs, une différence frappante au niveau du contenu dG+dC est détectée entre la séquence codant pour l'intéine (47,7 %) et les séquences codant pour les fragments d'extéine de gyrA (54,2 %), ces dernières ayant un contenu en dG + dC correspondant davantage à ce que l'on trouve chez M. leprae (56 %).

L'ensemble de ces observations suggère que la séquence codant pour l'intéine pourrait être mobile et d'origine étrangère. Afin de vérifier si des copies additionnelles étaient présentes sur le chromosome de M. leprae, des produits de Southern ont été hybridés sous des conditions de forte stringence avec une sonde appropriée. Dans chaque cas, des bandes uniques correspondant au locus pyrA ont été détectées (résultat non montré). Des expériences similaires ont été réalisées à faible stringence avec différents ADN de mycobactéries ; aucun signal n'a dans ce cas été obtenu, suggérant donc que, soit la séquence codant pour l'intéine n'est pas présente chez d'autres espèces, soit sa séquence nucléotidique est considérablement différente.

Analyse du locus ovrA chez différentes mycobactéries.

Pour étudier la présence de séquences d'intéine dans les gènes pyrA d'autres espèces de mycobactérie, une méthode basée sur la PCR a été mise en place, cette méthode utilisant des amorces des séquences conservées autour du site d'insertion de l'intéine dans le gène qvrA de M. leprae. Les mycobactéries avec des gènes QyrA semblables à celui de M. leprae devaient selon cette technique, exprimer un produit obtenu par PCR de 1 665 paires de base alors que celles analogues à celles de M, tuberculosis devaient générer des fragments plus petits d'environ 350 paires de base (fig. 2A). 13 espèces de différentes mycobactéries (tableau 1) incluant M.

tuberculosis, M. avium et M. smegmatis, ont été soumises à une analyse en PCR et les résultats représentatifs sont exprimés sur la figure 2B. Seuls les produits obtenus par
PCR à partir de M. flavescens, M. gordonae et M. kansasii étaient aussi larges que ceux de M. leprae, suggérant donc la présence d'une séquence codant pour une intéine dans le gène crvrA de ces organismes. Des expériences d'hybridation avec des sondes spécifiques de pyrA ont confirmé l'identité des produits obtenus par PCR.

Etude des intéines de M. kansasii, M.

flavescens et M. gordonae.

Pour vérifier si les séquences codant pour les intéines étaient reliées à celles de M. leprae et si elles étaient insérées à la même position dans GyrA, les produits de PCR d'environ 1665 paires de base obtenus chez M. kansasSi, M. flavescens et M. gordonae ont été clonés et séquencés et les séquences primaires des intéines en ont été déduites. Dans toutes les trois espèces, la séquence codant pour l'intéine a été trouvée insérée en cadre ("in frame") après le codon correspondant à la Tyr-130 de M. leprae. Toutefois, comme on pouvait l'attendre de ces analyses d'hybridation, les séquences nucléotidiques différaient fortement et des valeurs d'identité d'environ 66-74 % ont été trouvées à partir des comparaisons par paires reportées dans le tableau 2 ci-dessous (tableau 2).

TABLEAU 2
Identité de paires entre les séquences d'intéine au niveau de l'ADN et de la
protéine déterminée par la technique FASTA( 23).

<tb>

<SEP> Protéine <SEP>
<tb> identité
<tb> <SEP> M. <SEP> leprae <SEP> M. <SEP> flavescens <SEP> M. <SEP> gordonae <SEP> M. <SEP> kansasü <SEP>
<tb> <SEP> M. <SEP> leprae <SEP> 100 <SEP> 64,6 <SEP> 65,0 <SEP> 63,6
<tb> <SEP> M. <SEP> flavesce <SEP> s <SEP> 66,2 <SEP> 100 <SEP> 74,6 <SEP> 73,9
<tb> <SEP> ADN <SEP> M. <SEP> gordonae <SEP> 67,2 <SEP> 70,7 <SEP> 100 <SEP> 77.6
<tb> <SEP> M. <SEP> ka,tsasii <SEP> 66,8 <SEP> 71,9 <SEP> 73,8 <SEP> 100
<tb>
Chez toutes les trois espèces de mycobactéries, le contenu dG+dC de la séquence codant pour l'intéine était de 59-61 % et donc significativement plus bas que celui du génome (66-67 %), comme précédemment observé avec M. leprae.Une divergence de séquence est aussi détectée dans les structures primaires des intéines (tableau 2) bien que beaucoup de ces différences correspondent à des substitutions conservatives. Les résidus amino acides fondamentaux aux extrémités N et C-terminales de l'intéîne qui catalysent l'épissage protéique sont tous conservés entre les intéines GyrA et ceux d'autres mycobactéries, archaebactéries et levures (fig. 3). De même, toutes les intéines contiennent une paire de motifs dodécapeptidiques fortement proches (24,25) correspondant au motif LAGLI-DADG qui, comme cela a été dit précédemment dans la description, sont connus pour jouer un rôle important dans la fonction des nucléases codées par des introns. Chez les intéines des mycobactéries, ces motifs sont séparés par 80-86 résidus (fig. 3).

Etude de la fréquence de l'association d'une intéine avec pyrA dans des souches de M. leprae, M.

kansasii, M. flavescens et M. gordonae.

Pour étudier si la séquence codant pour l'intéine était toujours présente dans le gène gorA, une
PCR a été réalisée avec l'ADN génomique de différentes souches de M. leprae, M. kansasii, M. flavescens et M.

gordonae. Contrairement à la situation observée chez M.

leprae où l'intéine a été détectée dans chacun des 5 isolats examinés, elle n'a pas été mise en évidence dans 5 des 9 souches testées chez M. kansasii, 1 des 3 souches de M. flavescens et 7 des 9 souches de M. gordonae (tableau 1). En conséquence, les produits de PCR découlant des gènes pyrA sans intéine ont été clonés et séquencés et les séquences nucléotidiques ont été alignées avec celles provenant d'autres gènes gyrA mycobactériens (Fig. 4 ). D'une façon très intéressante, dans tous les gènes qyrA qui ne contenaient pas de séquences codant pour l'intéine, le codon Tyr correspondant au site d'insertion était TAC alors que dans 3 des 4 espèces possèdant des intéines, ce codon était TAT.

Dans l'espèce restante, M. flavescens, il y a deux différences de base entre les souches ayant ou n'ayant pas la séquence intervenant à ce niveau dans le gène GyrA (Fig. 4).

LISTE DES SEQUENCES
SEQ ID n I : Polypeptide précurseur Gyr A de M. leprae
SEQ ID n 2 : Séquence peptidique de t'intéine de M. leprae
SEQ ID n 3 : Séquence peptidique de l'inteine de M. flavescens
SEQ ID n 4 : Séquence peptidique de l'intéine de M. gordonae
SEQ ID n 5 : Séquence peptidique de l'intéine de M. kansasii
SEQ ID n 6 : Gène gyrA de M. leprae
SEQ ID n 7 : Séquence nucléotidique de l'intéine de M. leprae
SEQ ID n 8 : Séquence nucléotidique de l'intéine de M. flavescens
SEQ ID n 9 : Séquence nucléotidique de l'intéine de M gordonae
SEQ ID n 10 :Séquence nucléotidique de l'intéine de M. kansasfi
SEQ ID n I Polypeptide precurseur Gyr A de M leprae
10 20 30 40 50 60
MTDITLPPGD GSIQRVEPVD IQQEMQRSYI DYAMSVIVGR ALPEVRDGLK PVHRRVLYAM
70 80 90 100 110 120
LDSGFRPDRS HAKSARSVAE TMGNYHPHGD ASIYDTLVRM AQPWSLRYPL VDGQGNFGSP
130 140 150 160 170 180
GNDPPAAMRY CVSGNSLVRL LFGKSIRIGD IVTGAQFNSD NPIDLKVLDR HGNPVVADYL
190 200 210 220 230 240
FHSGEHQTYT VRTTEGYETT GTSNHPLLCL VNVGGIPILL WKLIGETRSG DYVVLQRIPP
250 260 270 280 290 300
VEFGPADWYS TMEALLFGAF ISGGFVSQOH AGFNSLDRDY FIMVVNAYDT VVGGLRCISS
310 320 330 340 350 360
RITVSGSTLL ELDVYNLIEF KKIRLSGLOG QRSADKLVPD WLWHSPSTVK RAFLQALFEG
370 380 390 400 410 420
EGFSSILSRN IIELSYSTLS ERLAADVQQM LLEFGVVSER YCHTVNEYKV VIANRAQVEM
430 o 450 460 470 480
GVT KQAKLIRDVV SMSPCVGMDI NCVPGLATFI RKHCDNRWVE EDSFNQHNVD
490 500 510 520 530 540
CVQHWHHHSA EIVGHIADPD IRAIVTDL@D GRFYYARVAS VIDTGIQPVF SLHVDTEDHS
550 560 570 580 590 600
FL/INGFISHN TEARL/TPLAM EMLRETDEET VDFISNYDGR VQERMVLPSR FPNLLANGSG
610 620 630 640 650 660
GIAVGMATNI PPHNLYELAD AVFWCLENHD ADEETMLVAV MERVKGPDFP TAGLIVGSQG
670 680 690 700 710 720
IADAYKTGRG SIRIRGVVEV EEDSRGRTSL VTTELPYQVN HDNFTTSLAE QVRTGRLAGI
730 740 750 760 770 780
SNVEDQGSDR VGVRIVIEIK RDAVAKVVLN NLYKHTQLQT SFGANMLSIV DGVPRTLRLD
790 800 810 820 830 840
QMICYYVEHQ LDVIVRRTTY RLRKANERAH ILRGLVKALD ALDEVTTLIR ASQTVDLARV
850 860 870 880 890 900
GVVELLDIDO IQAQAILDMQ LRRLAALERQ RIIDDLAKTE VEIADLGDIL AKPERRRGII
910 920 930 940 950 960
RNELTEIAEK YGDDRRTRII AVDGDVNDED LIAREEVVVT ITETGYAKRT KTDLYRSQKR
970 980 990 1000 1010 1020
AGL KQDDIVRHFF VCSTHDWILF FTTQGRVYRA KAYELPEASR TARGQHVANL
1030 1040 1050 1060 1070 1080
LAFQPEERIA QVIQIRSYED APYLVLATRA GLVKKSKLTD FDSNRSGGIV AINLRDNDEL
1090 1100 1110 1120 1130 1140
VGAVLCAADG DLLLVSANGQ SIRFSATDEA LRPMGRATSG VQGMRFNADO RLLSLNVVRE
1150 1160 1 0 t180 1190 1200
DTYLLVATSG GYAKRTSIEE YRMQGRGGKG VLTVMYDRRR GSLVGAIVVD EDSELYATTS
1210 1220 1230 1240 1250 1260
GGGVIRTTAR QVRQAGRQIK GVRLMNLGEG DTLLAIARNA EESADGVSVK VMISRSRVLS
1270
FFGSDSNTSP DRT*
SEQ ID n 2 :Séquence peptidique de l'intéine de M. leprae
1 CVSGNSLVRL LFGKSIRIGD IVTGAQFNSD NPIDLKVLDR HGNPVVADYL 51 FHSGEHQTYT VRTTEGYEIT GTSNHPLLCL VNVGGIPTLL WKLIGEIRSG 101 DYVVLQRIPP VEFGPADWYS TMEALLFGAF ISGGFVSQDH AGFNSLDRDY 151 FTMVVNAYDT VVGGLRCISS RITVSGSTLL ELDVYNLIEF KKTRLSGLGG 201 QRSADKLVPD WLWHSPSTVK RAFLQALFEG EGFSSILSRN IIEISYSTLS 251 ERLAADVQQMLLEFGVVSER YCHTVNEYKV VIANRAQVEM FFTQVGFGVT 301 KQAKLIRDVV SMSPCVGMDI NCVPGLATFI RKHCDNRWVE EDSFNQHNVD 351 CVQHWHHHSA EIVGHIADPD IRAIVTDLTD GRFYYARVAS VTDTGIQPVF 401 SLHVDTEDHS FLTNGFISHN
SEQ ID n 3 :Séquence peptidique de l'intéine de M. flavescens
I CVTGDALVRL PFGQSVRLRD WAGARSSSD NAIDLKVLNR HGDPWADKL
51 FHSGEHETYT VRTAEGYEVT GTANHPLLCL VDVGGVPTLL WKLTEEIRPG 101 DHVVLQRTPP TEFGPADWQD AFEALHLGAF ISEGFVSENR AGFNNLDREF
151 FNAVLTAYDT IVGGPRYVSS RTLASDSLLH ELDVHNLTAL KKSRLGEL VG 201 QRSADKAVPE WLWKAPAVVK RVFLQALFEG DGSCSALPRN TIQVSYSTRS 251 GRLAKDIQQM LLEFGVISRR YVHATGEHKV VLTSRAQAEL FAAQIGFGGI 301 KQAKLQGLLD ALPQAAAGRD GDYVPGLAQF VRKHSGSRWV DKDWLNRHNI 351 DRLSRWQRDG AEILGRIADP DVRAIAQELT DGRFYYARVA SVTDSGVQPV 401 YSLRVDTDDH SFTTNGFVSH N
SEQ ID n 4 :Séquence peptidique de lintéine de M. gordonae I CLTGDALVRL PFGQSMRIGD VAPGARTNSD NAGELKVLDR HGDPVFADRL 51 FHSGDHQTFR VQTAEGYEVT GTSNHPVLCL VNLAGVPTLL WMLIEEIRPD 101 DYVVLQRAPP VESGPANWRD AMEALLLGAF ISEGFMSESR AGFNNVDRDY 151 FNAVVAAYDA VVGGKRYVAQ RTIASGSVLN ELDIHDVSAL KGTRLGVLCG 201 QRSADKSVPE WLWQSPAAVK RVFLQALFEG DGSCSALPRN TIQVSYSTRS 251 RQLAIDVQQM LLEFGVISRR YRHAVGEYKV VITNRAQAEL FATQIGFGGA 301 KQSKLTRILG SLPPCAGMDT NHVPGLAAFI RSHCDSEWVD KEWLRKHNID 351 RLSRWRRDGA EILSRIANPD VRAIATDLTD GRFYYAQVTS VTEAGVQPVY 401 SLRVDSEDHA FLTNGFVSHN
SEQ ID n 5 Séquence peptidique de l'intéine de M. kansasii
I CVTGDALVRL PFGQSMRIAD VVPGARPNSD NAVELKVLDR HGNPVAADRL 51 FHSGDHQTYM VRTAEGYEVT GTANHPLLCL VDVGGVPTLL WKLIEEIHPD 101 DWALQRTPP MELGPADWHD TMEALLLGAF ISEGCVSETR AGFANLDRDY 151 FTMVARAYDA VVGDKRDVYQ QTIASGSLQH TLYTQNVTAL KQSRLWQILG 201 MRSADTYVPE WMWHSPAAVK RVFLQALFEG DGSCSRRPHN TIQISYNTVS 251 KQLAMDVQQM LLEFGVISRR YLHAAGEYKV VITDRAQAEL FPKQIGFGGA 301 KQTELSKILA AMPPCAGRDS DHVPGLARFI RRHCDSRWVD KEWLHKHNID 351 HLSRWRRDGA EILSHIADPD VRTIATDLTD GRFYYARVAS VTDTGVQPVY 401 SLRVDTDDHA FLTNGFVSHN
SEQ ID n 6 Gene gyrA de M lepr@e
I ATGACTGATA TCACGCTGCC ACCAGGTGAC GGTTCTATAC AGCGGGTTGA
51 GCCGGTCGAC ATTCAGCAGG AAATGCAGCG CAGCTATATT GATTACGCGA
101 TGAGTGTGAT TGTGGGCCGG GCGTTGCCTG AAGTCCGCGA TGGTCTCAAA
151 CCGGTACATC GTCGGGTCTT GTACGCGATG TTAGACTCCG GTTTCCGCCC
201 GGACCGTAGC CACGCTAAGT CAGCACGGTC AGTCGCTGAG ACGATGGGCA
251 ATTACCATCC GCACGGCGAC GCATCGATTT ATGACACGTT AGTGCGCATG
301 GCGCAGCCGT GGTCGCTGCG GTATCCCTTG GTTGATGGGC AAGGCAATTT
351 CGGTTCGCCG GGTAATGACC CACCGGCAGC GATGCGTTAT TGTGTGTCAG
401 GAAATTCCTT GGTGAGGTTG CTATTTGGGA AATCAATACG AATCGGTGAT 451 ATCGITACTG GAGCTCAGTT CAATTCGGAC AATCCGATCG ACTTGAAGGT 501 TCTTGATCGG CATGGTAATC CGGTTGTAGC CGATTATTTA TTCCATTCAG 551 GAGAGCACCA AACCTATACA GTGCGCACCA CTGAAGGCTA TGAGATCACC 601 GGGACGTCGA ACCATCCCTT GTTGTGTTTA GTGAATGTCG GCGGTATACC 651 CACCTTGTTG TGGAAGCTGA TTGGAGAAAT TCGATCAGGA GACTACGTTG
701 TTTTACAGCG GATCCCACCA GTGGAATTTG GTCCGGCGGA CTGGTATTCT
751 ACGATGGAAG CATTGTTATT CGGAGCCTTT ATTAGTGGGG GCTTCGTTTC
801 TCAGGACCAT GCTGGATTTA ACAGCCTTGA CCGTGACTAT TTCACCATGG
851 TTGTTAATGC TTATGATACG GTTGTGGGTG GCCTGCGTTG CATATCTTCT
901 CGAATCACCG TATCGGGGTC GACGCTACTC GAACTTGATG TTTATAACCT 951 CATCGAGTTT AAGAAGACAA GACTTAGCGG TTTATGCGGG CAACGGTCTG 1001 CGGACAAGTT GGTACCTGAC TGGTTGTGGC ACTCACCTTC CACCGTCAAA 1051 CGAGCATTCC TTCAGGCATT GTTTGAAGGT GAAGGATTTT CTTCGATATT 1101 GTCGCGAAAT ATAATTGAGA TTTCCTACTC GACACTTAGT GAGCGACTGG
1151 CCGCCGACGT CCAGCAGATG CTGCTTGAAT TCGGAGTCGT GTCTGAGCGC 1201 TATTGCCATA CTGTCAATGA GTACAAGGTT GTCATAGCTA ACCGCGCTCA 1251 AGTAGAAATG TTTTTCACCC AAGTCGGTTT CGGTGTTACT AAACAAGCTA
1301 AGCTTATCCG GGACGTGGTA TCTATGTCTC CATGCGTTGG CATGGATATC 1351 AACTGCGTAC CAGGTTTGGC CACTTTCATT CGTAAGCATT GTGATAACCG 1401 CTGGGTCGAG GAAGACTCAT TTAATCAGCA TAATGTTGAT TGCGTCCAAC 1451 ATTGGCACCA TCATAGCGCG GAAATCGTCG GCCACATCGC CGATCCCGAT 1501 ATTCGTGCCA TCGTGACTGA CCTTACTGAT GGCCGGTTCT ACTACGCGCG 1551 CGTCGCGTCC GTGACTGATA CCGGTATTCA ACCTGTGTTC AGTCTACATG 1601 TGGACACCGA GGATCATTCG TTTTTGACTA ATGGATTCAT CAGCCATAAC 1651 ACCGAGGCTC GGCTTACTCC ATTGGCGATG GAAATGTTGC GCGAGATCGA 1701 CGAGGAGACA GTTGATTTCA TATCTAACTA CGATGGCCGG GTGCAGGAAC 1751 CGATGGTGTT GCCTAGCCGT TTTCCCAACC TGTTGGCTAA TGGTTCTGGC 1801 GGTATCGCGG TCGGCATGGC TACCAATATC CCGCCGCACA ACCTGTATGA 1851 GCTCGCCGAC GCTGTGTTTT GGTGCCTAGA GAACCATGAC GCTGACGAAG 1901 AGACGATGCT GGTCGCTGTT ATGGAACGGG TCAAAGGTCC TGATTTCCCT 1951 ACCGCCGGGT TGATTGTCGG TTCGCAAGGC ATTGCCGATG CTTACAAGAC 2001 TGGCCGTGGT TCCATTCGGA TACGCGGAGT TGTTGAGGTT GAAGAAGATT 2051 CACGCGGAAG GACGTCATTG GTCATCACTG AGCTACCGTA TCAGGTCAAC 2101 CACGACAACT TCATCACTTC TATCGCTGAG CAAGTCCGCA CTGGCCGGCT 2151 AGCCGGCATC TCCAATGTAG AAGACCAAGG CAGCGACCGG GTTGGTGTAC 2201 GTATCGTCAT CGAGATCAAG CGTGACGCGG TGGCCAAAGT GGTGCTCAAT 2251 AACCTGTACA AGCATACTCA GCTGCAAACT AGTTTCGGAG CCAACATGTT 2301 GTCAATCGTT GACGGCGTGC CGCGCACTTT GCGGTTGGAT CAGATGATTT 2351 GTTATTATGT CGAACATCAA CTGGACGTCA TTGTCCGGCG CACTACCTAC 2401 CGATTGCGTA AAGCCAACGA GCGGGCTCAT ATTTTGCGTG GATTGGTCAA 2451 AGCGCTCGAT GCGTTAGATG AGGTTATTAC GTTGATTCGG GCATCGCAGA 2501 CCGTGGATAT TGCTCGTGTT GGGGTGGTCG AGTTACTCGA TATCGACGAC 2551 ATTCAGGCTC AAGCTATCCT GGACATGCAG CTGCGGCGTT TGGCGGCTTT 2601 GGAGCGTCAA CGCATTATTG ATGATCTCGC TAAGATTGAG GTCGAGATCG 2651 CTGATCTGGG AGATATTCTG GCTAAGCCGG AGCGTCGGCG TGGTATCATT 2701 CGTAATGAAC TGACTGAGAT CGCAGAGAAG TACGGTGATG ACCGTCGTAC 2751 TCGGATAATA GCGGTTGATG GTGATGTCAA CGACGAGGAT TTGATTGCTC 2801 GTGAAGAGGT CGTTGTCACG ATAACTGAAA CTGGATATGC TAAACGTACT 2851 AAAACTGACC TGTATCGCAG CCAGAAACGC GGCGGGAAAG GTGTTCAAGG 2901 CGCCGGTTTG AAGCAGGACG ACATCGTCCG GCATTTCTTC GTGTGTTCAA 2951 CTCACGATTG GATCCTGTTT TTCACCACCC AAGGCCGCGT ATACCGGGCC 3001 AAGGCCTATG AATTGCCAGA GGCTTCTCGA ACGGCACGCG GGCAACACGT 3051 GGCCAATTTG CTTGCATTCC AGCCTGAAGA GCGCATCGCT CAGGTAATTC 3101 AGATCCGTAG CTATGAAGAC GCTCCATACT TGGTCCTTGC CACGCGCGCC 3151 GGTCTGGTTA AGAAGTCAAA GTTGACCGAT TTTGACTCTA ATCGTTCGGG 3201 TGGGATCGTG GCAATTAATT TACGTGACAA CGATGAGTTG GTCGGTGCAG 3251 TGTTGTGCGC GGCCGACGGC GACTTGCTTC TGGTATCGGC TAACGGCCAG 3301 TCTATCCGGT TCTCAGCGAC TGACGAGGCC TTGCGTCCGA TGGGGCGGGC 3351 TACCTCTGGT GTGCAGGGCA TGCGGTTTAA CGCCGATGAT CGACTGTTGT 3401 CGTTGAATGT GGTTCGCGAA GATACTTACC TGCTTGTCGC AACGTCTGGG 3451 GGTTACGCTA AACGCACCTC GATTGAGGAG TACCCGATGC AGGGCCGTGG 3501 CGGAAAGGGT GTTCTAACGG TCATGTACGA TCGTCGGCGC GGTAGCTTGG 3551 TTGGGGCCAT CGTGGTTGAT GAAGACAGCG AGTTGTACGC GATCACCTCA 3601 GGGGGTGGGG TAATTCGTAC AACGGCACGC CAGGTTCGCC AGGCAGGACG 3651 CCAGACCAAG GGTGTTCGGT TGATGAACTT AGGTGAGGGC GACACGCTGT 3701 TAGCCATCGC ACGTAATGCC GAAGAAAGCG CCGACGGCGT GTCGGTTAAA 3751 GTGATGATCT CAAGGAGTCG TGTACTTAGC TTTTTTGGTT CCGATAGCAA 3801 TACTTCGCCC GACCGGACAT GA
SEQ ID n 7 :Séquence nucléotidique de l'intéine de M. leprae
1 TGTGTGTCAG GAAATTCCTT GGTGAGGTTG CTATTTGGGA AATCAATACG
51 AATCGGTGAT ATCGTTACTG GAGCTCAGTT CAATTCGGAC AATCCGATCG
101ACTTGAAGGT TCTTGATCGG CATGGTAATC CGGTTGTAGC CGATTATTTA
151TTCCATTCAG GAGAGCACCA AACCTATACA GTGCGCACCA CTGAAGGCTA
201TGAGATCACC GGGACGTCGA ACCATCCCTT GTTGTGTTTA GTGAATGTCG
251GCGGTATACC CACCTTGTTG TGGAAGCTGA TTGGAGAAAT TCGATCAGGA 301GACTACGTTG TTTTACAGCG GATCCCACCA GTGGAATTTG GTCCGGCGGA 351 CTGGTATTCT ACGATGGAAG CATTGTTATT CGGAGCCTTT ATTAGTGGGG 401 GCTTCGTTTC TCAGGACCAT GCTGGATTTA ACAGCCTTGA CCGTGACTAT 451 TTCACCATGG TTGTTAATGC TTATGATACG GTTGTGGGTG GCCTGCGTTG 501 CATATCTTCT CGAATCACCG TATCGGGGTC GACGCTACTC GAACTTGATG 551 TTTATAACCT CATCGAGTTT AAGAAGACAA GACTTAGCGG TTTATGCGGG 601 CAACGGTCTG CGGACAAGTT GGTACCTGAC TGGTTGTGGC ACTCACCTTC 651 CACCGTCAAA CGAGCATTCC TTCAGGCATT GTTTGAAGGT GAAGGATTTT 701 CTTCGATATT GTCGCGAAAT ATAATTGAGA TTTCCTACTC GACACTTAGT 751 GAGCGACTGG CCGCCGACGT CCAGCAGATG CTGCTTGAAT TCGGAGTCGT 801 GTCTGAGCGC TATTGCCATA CTGTCAATGA GTACAAGGTT GTCATAGCTA 851 ACCGCGCTCA AGTAGAAATG TTTTTCACCC AAGTCGGTTT CGGTGTTACT 901 AAACAAGCTA AGCTTATCCG GGACGTGGTA TCTATGTCTC CATGCGTTGG 951 CATGGATATC AACTGCGTAC CAGGTTTGGC CACTTTCATT CGTAAGCATT 1001 GTGATAACCG CTGGGTCGAG GAAGACTCAT TTAATCAGCA TAATGTTGAT 1051 TGCGTCCAAC ATTGGCACCA TCATAGCGCG GAAATCGTCG GCCACATCGC 1101 CGATCCCGAT ATTCGTGCCA TCGTGACTGA CCTTACTGAT GGCCGGTTCT 1151 ACTACGCGCG CGTCGCGTCC GTGACTGATA CCGGTATTCA ACCTGTGTTC 1201 AGTCTACATG TGGACACCGA GGATCATTCG TTTTTGACTA ATGGATTCAT 1251 CAGCCATAAC
SEQ ID n 8 :Séquence nucléoudique de l'intéine de M. flavescens
1 TGCGTCACAG GTGATGCGCT GGTGCGCTTG CCATTCGGGC AATCCGTACG
51 GCTCCGTGAT GTCGTAGCGG GCGCGCGGTC GAGCTCGGAC AACGCCATTG 101 ATCTCAAGGT CCTCAACCGG CACGGGGACC CTGTGGTTGC CGACAAATTG 151 TTCCATTCCG GCGAACATGA GACATACACC GTCGCACCG CAGAAGGCTA 201 TGAGGTCACG GGCACTGCCA ACCACCCGTT GCTATGCCTG GTTGACGTGG 251 GTGGTGTGCC GACGCTGCTG TGGAAGCTGA CCGAAGAAAT TCGACCAGGC 301 GACCACGTGG TTCTCCAGCG CACCCCGCCG ACGGAGTTCG GTCCCGCGGA 351 CTGGCAGGAT GCTTTCGAGG CGCTACATCT CGGAGCCTTC ATCAGCGAGG 401 GTTTCGTATC GGAAAACCGT GCTGGCTTCA ACAATCTGGA CCGCGAGTTC 451 TTcAACGCCG TCCTGACTGC TTACGACACA ATTGTTGGCG GCCCCCGCTA 501 CGTATCGTCG CGCACCATCG CCTCGGACTC CCTACTCCAC GAACTCGACG 551 TACATAATTT GACGGCGCTG AAGAAGTCTC GACTCGGCGA GTTGGTTGGG 601 CAGCGCTCAG CCGACAAGGC GGTGCCGGAA TGGTTGTGGA AGGCACCGGC 651 TGTCGTCAAG CGAGTGTTCC TGCAGGCGCT GTTCGAGGGA GACGGATCGT 701 GTTCGCGTT GCCGAGGA"tC ACGATTCAGG TCTCGTATTC GACCCGCAGC 751 GGCGTCTTG CCAAGGACAT CCAGCAGATG CTGTTGGT TCGGGGTGAT 801 CTCGCGCCGC TACGTGCACG ACCGGGGA GCACAAGGTC GTGCTGACAA 851 GCAGGGCCCA GGCTGAACTG TTCGCTGCGC AGATCGGATT CGGCGGAATA 901 AAGCAGGCGA AGCTGCAGGG TCTATTGGAC GCACTTCCCC AGGCGGCGGC 951 CGGCCGGGAC GGCGACTACG TGCCGGGTCT CGCCCAATTC GTTCGTAAGC 1001 ACAGCGGCAG CCGCTGGGTC GACAAGGACT GGCTGAACAG ACACAACATC 1051 GACCGGCTGT CTCGCTGGCA ACGCGATGGT GCTGAGATTC TCGGCCGCAT 1101 CGCCGATCCC GACGTCCGGG CAATCGCTCA GGAACTCACC GACGGCCGGT 1151 TCTACTACGC GCGTGTGGCA TCCGTGACTG ATAGCGGTGT GCAACCGGTG 1201 TACAGCCTGA GGGTCGACAC CGATGACCAC TCGTTCATCA CAAACGGCTT 1251 CGTCAGCCAC MC
SEQ ID n 9 : Séquence nucléotidique de l'intéine dc M gordonae
1 TGTCTCACCG GAGATGCATT GGTGCGCTTA CCATTTGGAC AGTCGATGCG 51 MTCGGCGATGTCGCTCCGGGGGCTCGGAC AAATTCGGAC MCGCCGGCG 101 AGTTGAAGGT CCTCGATAGG CACGGTGACC CGGTTTTCGC TGATCGCTTG 151 TTCCATTCGG GTGATCACCA GACnTCAGG GTGCAAACTG CCGAGGGCTA 201 TGAGGTCACA GGCACUCGA ATCACCCTGT GCTHGCCTG GTGMCCTCG 251 CCGGCGTGCC GACACTCCTG TGGATGTTGA TCGAGGAGAT TCGACCAGAC 301 GACTACGTCG TCTTACAGCG CGCGCCGCCT GTTGAATCAG GTCCGGCGAA 351 CTGGCGCGAC GcCATGGAGG CACTGTTACT CGGGGCCTTC ATCAGCGMG 401 GGTTCATGTC CGAGTCTCGA GCTGGTrTTA ACMCGTCGA CCGCGACTAC 451 TTCAACGCGG TGGTAGCGGC CTACGACGCG GTTGTCGGAG GCAAGCGGTA 501 CGTAGCTCAA CGGACTATCG CGTCGGGTTC TGTGCTGAAC GAGTTGGATA 551 TTCACGATGT TTCAGCTTTG AAGGGCACTC GGCTCGGTGT GCTCTGCGGG 601 CAACGCTCCG CAGACAAATC GGTGCCCGAG TGGCTTTGGC MTCCCCCGC 651 CGCOGTGAAG CGGGTATTCC TGCAGGCGTT GTTCGAGGGT GATGGCTCGT 701 GTTCGGCGTT ACCCCGGAAC ACMTTCAGG TTTCTTATTC GACACGTAGT 751 AGACAGCTTG ccATCGATGT GCMCAGATG CTGCTCGAGT TCGGAGTCAT 801 ATCGcGCCGG TACCGCCATG CCGTCGGTGA GTATMGGTC GTCATMCCA 851 ACCGTGCTCA GGCCGAGCTT TTCGCCACTC AAATCGGTTT CGGCGGCGCC 901 AAACAAAGTA AGCTGACCAG GATCCTGGGT TCACTGCCGC CCTGCGCCGG 951 CATGGACACC AACCACGTTC CCGGCCTGGC CGCTtTCATC CGCAGCCATT 1001 GCGATAGCGA ATGGGTAGAT AAGGAGTGGC TGCGTAAGCA CAACATCGAT 1051 CGGCTGTCCC GGTGGCGTCG CGACGGTGCG GAAATACTCT CGCGCATCGC 1101 GAACCCCGAT GTTCGTGCCA TCGCMcCGA CCTCAcCGAC GGGCGCTTCT 1151 ACTACGCCCA AGTMCCTCG GTCACAGAGG CGGGCGTGCA GCCGGTGTAC I 201 AGCCTGCGCG TTGACTCCGA GTCACGCC TTCCTGACCA ACGGATTCGT 1251 CAGCCACAAC
SEQ ID n 10 : séquence nucléotidique dc l'intéine dc M. kansasil 1 TGCGTGACCG GAGATGCGTT GGTGCGGTTG CCATGGAC AGTCGATGCG 51 CATCGCCGAT GTCGTGCCGG GCGCCCGGCC CAATTCGGAT AACGCGGTCG 101 AGCTGAAGGT GCTGGATCGG CACGGCAACC CGGTAGCGGC CGATCGCCTC 151 TTTCATTCCG GTGACCATCA GACCTACATG GTGCGCACCG CGGAGGGTTA 201 TGAGGTCACC GGCACCGCGA ACCACCCGTT GTTGTGCCTT GTCGACGTTG 251 GTGGCGTGCC CACGUGTTG TGGMGCTGA TCGMGAAA CCACCCAGAC 301 GATTATGTGG CGCTACAGCG CACCCCTCCA ATGGAATTGG GCCCCGCTGA 351 CTGGCACGAC ACGATGGAAG CGCTCCTGTT GGGGGCATTC ATTAGTGAGG 401 GCTGTGHTC GGAMCCCGC GCCGGCTTTG CCAATCTGGA CCGCGACTAC 451 TTCACCATGG TGGCCCGGGC TTACGACGCC GTTGTCGGCG ACAAACGCGA 501 TGTCTACCAG CAGACAATCG CCTCGGGATC GCTGCAGCAC ACGCTCTACA 551 CCCAGAACGT GACTGCTCTG AAGCAGAGCC GGTTGTGGCA GATACTGGGC 601 ATGCGGTCGG CAGACACGTA TGTGCCGGAG TGGATGTGGC ACTCTCCCGC 651 GGCCGTCAAA CGCGTCTTCC TGCAAGCACT CTTCGAGGGC GACGGTTCGT 701 GTTCGAGGCG GCCACACAAT ACGATTCAGA TCTCATACAA CACCGTAAGC 751 AAGCAGCTGG CCATGGACGT GCAGCAGATG TTGCTCGAGT TCGGTGTGAT 801 ATCCCGGCGA TACTTACATG CGGCCGGCGA GTACAAGGTC GTCATCACCG 851 ATCGGGCGCA AGCCGAATTA TTTCCAAAGC AAATCGGTTT CGGTGGCGCA 901 AAGCAAACCG AGCTGAGCAA GATCCTGGCC GCCATGCCCC CGTGCGCCGG 951 CAGAGACAGC GATCACGTGC CCGGACTAGC TCGGrtTA CGGAGGCACT 1001 GCGACAGCCG GTGGGTCGAC AAGGAATGGT TGCACAAGCA CAACATTGAC 1051 CACCTnCGC GGTGGCGCCG CGACGGTGCC GAAATcCTCT CGCACATCGC 1101 CGACCCCGAT GTCCGTACCA TTGCGACGGA CCTCACCGAC GGCCGCTTCT 1151 ACTACGCGCG GGTCGCCTCC GTCACGGACA CCGGCGTGCA ACCGGTGTAC iM1 AGCCTGCGGG TCGACACCGA CGACCACGCC TTCCTCACCA ACGGTTTCGT 1251 CAGCCACAAC
BIBLIOGRAPHIE
1. Hirata, R., Ohsumi, Y., Nakano, A., Kawasaki, H., Suzuki, K. & BR<
Anraku, Y (1990) J. Bio. Chem. 265,67266733.

2 Gu, H. H., Xu, J., Gallagher, M. & Dean, G. E. (1993) J. Bic. Chem 268,7372-7381.

3 . Perler, F. B., Comb, D. G., Jack, W. E., Moran, L. S., Qiang, B.,
Kucera, R. B., Brenner, J., Slatko, B. E., Nwankwo, D. O., Hempstead, S.

K., Carlow, C. K. S. & Jannasch, H. (1992) Proc. Natl. Acad. Sci. USA 89,
5577-5581.

4. Perler, F. B., Davis; E. O., Dean, G. E., Gimble, F. S., Jack, W. E.,
Neff, N., Noren, C. J., Thomer, J. & Belfort, M. (1994) Nucleic Acids
Rescarch 22, 1125-1127.

5. Wallace, C. J. A. (1993) Protein Sci. 2, 697-705.

6 . Clarke, N. E. (1994) Proc. Natal. Acad. Sci. USA 91, 11084-11088.

7 . Hodges, R. A., Perler, F. B., Noren, C. J. & Jack, W. E. (1992)
Nucleic Acids Research 20, 6153-6157.

8 Xu, M., Comb, D. G., Paulus, H., Noren, C. J., Shao, Y. & Perler, F.

B. (1994) EMBO journal 13, 5517-5522.

9 . Mueller, J. E., Bryk, M., Loizos, N. & Belfort, M. (1993) in Nucleases,
2nd edition. (Cold Spring Harbor Laboratory Press, Cold Spring Harbor), pp.

111-143.

10 Shub, D. A. & Goodrich-Blair, H. (1992) Cell 71, 183-186.

11. Lazowska, J., Claisse, M., Gargouri, A., Kotylak, Z., Spyridakis, A. & BR<
Slominski, P. P. (1989) J. Mol. Biol. 205, 275-289.

12. choulika A., Perrin A., Dujon B., Nicolas J.F., C.R. Acad. Sci. Paris, sciences de la vie (1994); 317: 1013-9.

13. Choulika k, Perrin A., Dujon B., Nicolas J.F., Molecular Cellular
Biology, (1995), 1968-1973
14. Davis, E.O., PJ. Jenner, P.C. Brooks, J.M. Colston and S.G.

Sedgwick (1992) Protein splicing in tire maturation of M. tuberculosis
RecA protein : A mechanism for tolerating a novel class of intervening
sequence. Cell 71, 201-210.

15. Gibson et al. (1983) Gene 53 : 283-286.

16. Eiglmeier et al. (1993). Mol. Microbiol. 7 197-206.

7. Staden, R. & McLachlan, A. D. (1982) Nucleic Acids Res. 10, 151
156.

18 . Fsihi, H. & Cole, S. T. (1995) Mol. Microbiol. 16, 000-000.

is. Takiff, H. E., Salazar, L., Guerrero, C., Philipp, W., Huang, W. M.,
Kreisworth, B., Cole, S. T., Jacobs, W. R. & Telenti, A. (1994) Antimicrob.

Agents Chemother. 38, 773-780.

20 . Cambau, E., Sougakoff, W. & Jarlier, V. (1994) FEMS Microbiol.

Lett. 116, 49-54.

21 . Honoré, N., Bergh, S., Chanteau, S., Doucet-Populaire, K, Eiglmeier,
K., Garnier, T., Georges, C., Idunois, P., Limpaiboon, P., Newton, S.,
Nyang, K., del Portillo, P., Ramesh, G. K., Reddy, T., Riedel, J. P.,
Sittisombut, N., Wu-Hunter, S. & Cole, S. T. (1993) Mol. Microbiol. 7,
207-214.

22 , Horowitz, D. S. & Wang, J. C. (1987) J. Biol. Chem 262, 5339-5344.

23 . Pearson, W. & Lipman, D. (1988) Proc.Natl. Acad. USA 85, 24442448.

24 . Cummings, D. J.: Michel, F. & McNally, K. L. (1989) Curr. Genet.

16, 381406.

25 Waring, R. B., Davies, R. W., Scazzochio, C. & Brown, T. A. (1982)
Proc. Natl. Acad. Sci. USA 79,6332-6336.

Claims

REVENDICATIONS

1. Polypeptide comprenant dans son enchaînement d'acides aminés une séquence d' ADN gyrase dans laquelle est contenue une séquence codant pour une intéine.

2. Polypeptide selon la revendication 1, caractérisé en ce qu'il s'agit d'une séquence d'ADN gyrase de mycobactérie choisie parmi certaines souches de M. leprae, M. flavescens, M. gordonae et M. kansasil.

3. Polypeptide selon la revendication 1 ou la revendication 2, caractérisé en ce qu'il comprend la séquence SEQ1 de M. leprae ou une séquence variante ne modifiant pas ses propriétés biologiques.

4. Polypeptides comprenant une séquence choisie parmi les séquences SEQ ID n"2, SEQ ID n" 3, SEQ

ID n" 4 ou SEQ ID n" 5, correspondant respectivement aux séquences d'intéine codées par le gène qyrA de M. leprae,

M. flavescens, M. gordonae, et M. kansasii ou tout dérivé de cette séquence.

5. Séquence nucléotidique caractérisée en ce qu'elle est choisie parmi

a) tout ou partie de la séquence SEQ N 6 ou de son brin complémentaire

b) toute séquence hybridant dans des conditions de forte stringence avec une séquence a) et codant pour un polypeptide selon l'une quelconque des revendications 1à3;

c) toute séquence dérivée en raison de la dégénérescence du code génétique.

6. Séquence nucléotidique, caractérisée en ce qu'elle est choisie parmi

(a) les séquences SEQ ID n"7, SEQ ID n0 8,

SEQ ID n" 9, SEQ ID n" 10 ou leur brin complémentaire,

(b) toute séquence hybridant avec une séquence (a) et codant pour un polypeptide à activité endonucléasique,

(c) toute séquence dérivée des séquences a) ou b) en raison de la dégénérescence du code génétique.

7. Séquence selon la revendication 5 ou 6, caractérisée en ce qu'elle est placée sous le contrôle de signaux permettant son expression dans un hôte cellulaire.

8. Vecteur d'expression contenant au moins une séquence selon la revendication 7.

9. Vecteur selon la revendication 8, caractérisé en ce qu'il s'agit du cosmide B1770 déposé à la CNCM sous le numéro I 1602.

10. Cellules hôtes transfectées par un vecteur selon la revendication 8 ou la revendication 9, dans des conditions permettant la réplication et/ou l'expression d'une séquence selon l'une quelconque des revendication 5 à 7.

11. Cellules selon la revendication 10, caractérisées en ce qu'il s'agit de la souche d'Escherichia coli NM554.

12. Utilisation des polypeptides selon la revendication 1 à la revendication 3, ou de leurs séquences nucléotidiques codantes, pour fabriquer des produits altérant la maturation de protéines indispensables au développement d'agents infectieux par l'altération de l'épissage protéique des précurseurs polypeptidiques de ces protéines.

13. Utilisation selon la revendication 12, caractérisée en ce que l'on utilise une séquence choisie parmi les séquences peptidiques correspondant aux zones de jonction entre l'intéine et la N- et/ou la C-extéine, ou toute séquence nucléotidique codant pour ces séquences.

14. Utilisation selon la revendication 12 ou 13, caractérisé en ce que l'on utilise une séquence choisie parmi

- une séquence contenant le résidu correspondant à l'acide aminé N-terminal de l'intéine et s'étendant sur 2 ou 3 résidus de part et d'autre de celui-ci, ou leurs séquences nucléotidiques codantes ; ou

- une séquence contenant le résidu correspondant à l'acide aminé C-terminal de l'intéine et s'étendant sur 2 ou 3 résidus de part et d'autre de celui-ci ou leurs séquences nucléotidiques codantes.

15. Utilisation selon l'une des revendications 12 à 14, caractérisée en ce qu'on utilise la séquence peptidique MRYC*AG où * = V ou L et A = T ou S, ou ses séquences nucléotidiques codantes; ou la séquence peptidique SHNTEA, ou sa séquence nucléotidique codante.

16. Médicament comprenant comme principe actif au moins un composé capable d'altérer l'épissage protéique chez un organisme infectieux sans induire d'interférence au niveau de la synthèse et la maturation des protéines de l'hôte infecté par cet organisme.

17. Médicament selon la revendication 16, caractérisé en ce que ledit composé est un peptide naturel ou synthétique, correspondant aux séquences des régions de jonction intéine/extéine, un anticorps ou tout fragment ou molécule dérivé d'anticorps, reconnaissant spécifiquement un épitope particulier de ces régions.

18. Médicament selon la revendication 16 ou 17, caractérisé en ce que ledit composé est un peptide contenant des acides aminés sous forme d'énantiomères D.

19. Composition pharmaceutique pour lutter contre l'infection d'organismes pathogènes intra- ou extracellulaires exprimant au moins une protéine essentielle dont la maturation résulte d'un épissage protéique, caractérisée en ce qu'elle contient au moins un composé capable d'altérer l'épissage protéique chez ces organismes, associé à un véhicule pharmaceutiquement acceptable pour transporter ledit composé dans le cytoplasme de ces organismes.

20. Composition selon la revendication 19, caractérisée en ce que le véhicule est choisi parmi des sidérophores, des sucres ou des bases azotées.

21. Utilisation d'un polypeptide selon la revendication 4 pour modifier le génome d'une cellule eucaryote n'ayant pas d'activité biologique endogène se confondant avec celle dudit polypeptide.

22. Utilisation d'un polypeptide selon la revendication 4 pour remplacer une copie d'un gène présent dans un génome receveur par l'intégration d'un gène différent de celui où se fait l'intégration.

23. Utilisation d'un polypeptide selon la revendication 4, pour l'insertion ciblée d'une séquence d'ADN étranger dans un site choisi dans le génome d'une cellule eucaryote ne contenant pas les sites de coupures spécifiques dudit polypeptide, où - les sites de coupure spécifiques dudit polypeptide sont introduits dans le génome de ladite cellule au niveau du site choisi pour l'insertion ; ; - l'ADN étranger contient deux séquences "flanquantes" de part et d'autre d'une séquence à insérer, respectivement homologues aux séquences correspondant aux sites de coupures spécifiques dudit polypeptide - la séquence d'ADN étranger est insérée par recombinaison homologue entre les séquences "flanquantes" et celles correspondant aux sites de coupures spécifiques dudit polypeptide, après la création de coupures double brin au niveau de ces sites spécifiques par ledit polypeptide préalablement introduit dans ladite cellule eucaryote.