SEQUENCES DE NUCLEOTIDES, CAPABLE DE S'HYBRIDER AVEC LE GENE NOV DE POULE NUCLEOTIDE SEQUENCES CAPABLE OF HYBRIDIZING WITH THE NOV CHICKEN GENE
L'invention a pour objet des séquences de nucleotides et les séquences d'acides aminés correspondantes. Elle concerne également l'obtention de ces séquences et leurs applications.The invention relates to nucleotide sequences and the corresponding amino acid sequences. It also relates to obtaining these sequences and their applications.
Il est admis depuis de nombreuses années que le néphroblastome induit par le virus auxiliaire de la myéloblastose aviaire (MAV) constitue un modèle animal de la tumeur de Wilms chez l'enfant. Bien que ces deux types de tumeurs aient des éthiologies différentes, aucun virus n'ayant été associé jusqu'à présent au développement du néphroblastome humain, on conçoit que l'étude, au niveau moléculaire des néphroblastomes viro-induits, peut permettre de caractériser des paramètres difficilement accessibles dans le système humain.It has been recognized for many years that nephroblastoma induced by the avian myeloblastosis helper virus (AVM) is an animal model of Wilms' tumor in children. Although these two types of tumors have different ethiologies, no virus having been associated until now with the development of human nephroblastoma, it is conceivable that the study, at the molecular level of viral-induced nephroblastomas, can make it possible to characterize parameters that are difficult to access in the human system.
Les études des inventeurs concernant de tels néphroblastomes aviaires induits par le MAV leur ont permis de caractériser chez la poule un gène embryonnaire appelé gène nov dont 1'expression s'avère stimulée à des niveaux variables dans les tumeurs, mais qui est éteint dans les cellules de rein adulte normal.The inventors' studies concerning such avian nephroblastomas induced by MAV have enabled them to characterize in the chicken an embryonic gene called the nov gene, the expression of which proves to be stimulated at variable levels in tumors, but which is extinguished in cells. normal adult kidney.
En développant leurs travaux dans ce domaine, les inventeurs ont élaboré des outils leur permettant d'étudier l'expression de gènes homologues dans les tumeurs humaines et dans certains types cellulaires.By developing their work in this area, the inventors have developed tools allowing them to study the expression of homologous genes in human tumors and in certain cell types.
Ainsi, en clonant les séquences désoxyribonu- cléiques et un ADN complémentaire correspondant au gène nov des cellules normales de poule, les inventeurs ont établi la séquence nucléotidique partielle des ADN et la séquence nucléotidique complète de l'ADNc. Des sondes moléculaires spécifiques ont été établies sur la base de cette séquence
et utilisées pour détecter la présence et l'expression de gènes homologues dans divers types cellulaires humains.Thus, by cloning the deoxyribonucleic sequences and a complementary DNA corresponding to the nov gene of normal hen cells, the inventors established the partial nucleotide sequence of the DNAs and the complete nucleotide sequence of the cDNA. Specific molecular probes have been established based on this sequence and used to detect the presence and expression of homologous genes in various human cell types.
L'invention a donc pour but de fournir de nouvelles séquences de nucleotides d'un gène impliqué notamment dans les cellules tumorales.The invention therefore aims to provide new nucleotide sequences of a gene involved in particular in tumor cells.
Elle a également pour but de fournir des moyens pour l'isolement de ces séquences.It also aims to provide means for the isolation of these sequences.
L'invention vise en outre les protéines codées correspondantes et les anticorps polyclonaux et monoclonaux dirigés contre ces protéines.The invention further relates to the corresponding coded proteins and the polyclonal and monoclonal antibodies directed against these proteins.
L'invention vise de plus 1'utilisation de ces séquences, protéines et anticorps dans des applications biologiques, en particulier dans des tests de détection.The invention further relates to the use of these sequences, proteins and antibodies in biological applications, in particular in detection tests.
Les séquences de nucleotides de l'invention sont caractérisées en ce qu'elles renferment un enchaînement de nucleotides capable de s'hybrider, dans des conditions stringentes (50 % de formamide 5 XSCC) f avec une ou plusieurs séquences du gène nov de poule dont l'ADNc présente 1'enchaînement de nucleotides (I), plus spécialement avec l'enchaînement (II).The nucleotide sequences of the invention are characterized in that they contain a sequence of nucleotides capable of hybridizing, under stringent conditions (50% of formamide 5 XSCC) f with one or more sequences of the hen nov gene of which the cDNA exhibits the nucleotide sequence (I), more particularly with the sequence (II).
Les enchaînements des séquences de nucleotides et de protéines auxquels il est fait référence dans la description et les revendications sont donnés en fin de description.The sequences of the nucleotide and protein sequences which are referred to in the description and the claims are given at the end of the description.
La séquence nucléotidique entière du clone d'ADNc nov de poule est formée de 1975 pb et comprend au moins 5 exons. Cette séquence comprend un cadre ouvert de lecture de 1,0 kb, codant pour une protéine potentielle de 32300 Da, allant du nucleotide 24 au nucleotide 1076. Ce cadre ouvert de lecture est suivi de 899 pb de séquences 3' non codantes qui contiennent deux signaux de motifs potentiels
de polyadénylation AATAAA en position 1914 et 1932. Ce gène nov de poule est surexprimé dans des néphroblastomes aviaires induits par MAV étudiés par les inventeurs.The entire nucleotide sequence of the hen nov cDNA clone is formed by 1975 bp and includes at least 5 exons. This sequence includes an open reading frame of 1.0 kb, coding for a potential protein of 32300 Da, going from nucleotide 24 to nucleotide 1076. This open reading frame is followed by 899 bp of 3 'non-coding sequences which contain two potential pattern signals AATAAA polyadenylation at position 1914 and 1932. This hen nov gene is overexpressed in avian nephroblastomas induced by MAV studied by the inventors.
Les expériences d'hybridation réalisées dans des conditions stringentes définies ci-dessus montrent que, de manière inattendue, des séquences homologues du gène nov de poule existent dans le génome humain.Hybridization experiments carried out under stringent conditions defined above show that, unexpectedly, homologous sequences of the hen nov gene exist in the human genome.
Les séquences homologues isolées, chez l'homme ou l'animal, sont utilisables pour le criblage de banques réalisées à partir d'ARN-m, et permettent d'isoler des ADNc et ainsi d'identifier les autres exons des gènes de la même famille. Ces exons et les gènes qui ^es renferment, ainsi que les protéines codées correspondantes font également partie de l'invention.The isolated homologous sequences, in humans or animals, can be used for screening libraries made from m-RNA, and make it possible to isolate cDNAs and thus to identify the other exons of genes of the same family. These exons and the genes which contain them, as well as the corresponding coded proteins, also form part of the invention.
On a indiqué ci-dessus que les expériences d'hybridation étaient réalisées dans des conditions stringentes, ce qui permet d'isoler des séquences présentant de fortes homologies avec celles des sondes.It was indicated above that the hybridization experiments were carried out under stringent conditions, which makes it possible to isolate sequences having strong homologies with those of the probes.
Ces expériences peuvent être également réalisées dans des conditions non stringentes, en réduisant la quantité de formamide, de sel et/ou le temps de lavage, comme décrit dans "A practical guide to molecular cloning", second édition, B. Perbal, John Wiley and Sons, New York, 1988. Les séquences isolées présenteront alors une homologie moins forte que précédemment avec les séquences des sondes et conduiront à l'identification d'exons présentant moins de séquences communes.These experiments can also be carried out under non-stringent conditions, by reducing the amount of formamide, of salt and / or the washing time, as described in "A practical guide to molecular cloning", second edition, B. Perbal, John Wiley and Sons, New York, 1988. The isolated sequences will then have a weaker homology than previously with the sequences of the probes and will lead to the identification of exons having fewer common sequences.
Des séquences de nucleotides de 1'invention sont plus particulièrement caractérisées en ce qu'elles comprennent ou qu'elles sont formées par un enchaînement de nucleotides capables de s'hybrider, dans les conditions stringentes évoquées ci-dessus, avec au moins une partie du
deuxième exon du gène nov de poule qui comprend la séquence nucléotidique (III).Nucleotide sequences of the invention are more particularly characterized in that they comprise or that they are formed by a sequence of nucleotides capable of hybridizing, under the stringent conditions mentioned above, with at least part of the second exon of the hen nov gene which comprises the nucleotide sequence (III).
Les lettres indiquées dans ces enchaînements présentent les significations conventionnelles figurant dans l'ouvrage de Perbal cité plus haut.The letters indicated in these sequences present the conventional meanings appearing in the work of Perbal cited above.
L'invention vise en particulier les séquences nucléotidiques comportant l'information génétique pour coder pour une protéine ayant une homologie d'environ 70 % avec le fragment de protéine, correspondant au deuxième exon du gène nov de poule, répondant à la séquence (IV).The invention relates in particular to the nucleotide sequences comprising the genetic information for coding for a protein having a homology of approximately 70% with the protein fragment, corresponding to the second exon of the hen nov gene, corresponding to the sequence (IV) .
Les séquences de nucleotides capables de s'hybride-r avec l'enchaînement (III) ci-dessus sont également caractérisées en ce qu'elles comprennent au moins une partie d'un fragment PstI d'environ 600 pb tel qu'obtenu à partir d'un sous-clone plasmidique, dérivé d'un clone recombinant isolé d'une banque d'ADN de placenta humain. La carte de restriction enzymatique du clone recombinant, ainsi que celle du sous-clone plasmidique dérivé renfermant la séquence nucléotidique en question, sont représentées sur la figure 2A.The nucleotide sequences capable of hybridizing with the sequence (III) above are also characterized in that they comprise at least part of a PstI fragment of approximately 600 bp as obtained from a plasmid subclone, derived from a recombinant clone isolated from a human placenta DNA library. The enzyme restriction map of the recombinant clone, as well as that of the derived plasmid subclone containing the nucleotide sequence in question, are shown in FIG. 2A.
De telles séquences sont caractérisées en ce qu'elles codent pour l'enchaînement d'acides aminés (V).Such sequences are characterized in that they code for the chain of amino acids (V).
On notera la présence, dans ces séquences d'acides aminés rencontrées chez l'homme, d'une séquence consensus de liaison aux facteurs de croissance du type insuline (IGF). Cette séquence apparaît donc conservée chez l'homme.Note the presence, in these amino acid sequences encountered in humans, of a consensus sequence of binding to growth factors of insulin type (IGF). This sequence therefore appears to be conserved in humans.
Les différentes séquences évoquées ci-dessus comportent plus particulièrement au moins une partie de l'enchaînement nucléotidique (VI) suivant, correspondant au fragment Pst I mentionné plus haut, plus spécialement de 1'enchaînement (VII).
L'enchaînement (VII) comporte 225 nucleotides avec 70 % d'homologie environ avec 1'exon 2 du gène nov de poule.The different sequences mentioned above more particularly comprise at least part of the following nucleotide sequence (VI), corresponding to the Pst I fragment mentioned above, more particularly of the sequence (VII). The sequence (VII) comprises 225 nucleotides with approximately 70% homology with exon 2 of the hen nov gene.
D'autres séquences nucléotidiques de l'invention sont caractérisées en ce qu'elles sont formées par ou qu'elles comprennent un enchaînement de nucleotides capables de s'hybrider, dans les conditions stringentes évoquées ci-dessus, avec au moins une partie du troisième exon du gène nov de poule, qui comprend la séquence nucléotidique (VIII).Other nucleotide sequences of the invention are characterized in that they are formed by or that they comprise a sequence of nucleotides capable of hybridizing, under the stringent conditions mentioned above, with at least part of the third exon of the hen nov gene, which includes the nucleotide sequence (VIII).
Des séquences du type défini ci-dessus comportent l'information génétique pour coder pour une protéine ayant une homologie d'au moins 73 % environ avec le fragment de protéine potentiel du troisième exon du gène nov de poule répondant à la séquence (I ).Sequences of the type defined above include the genetic information to code for a protein having at least about 73% homology with the potential protein fragment of the third exon of the hen nov gene corresponding to the sequence (I).
Ces séquences sont également caractérisées en ce qu'elles comprennent au moins une partie d'un fragment PstI d'environ 800 pb et d'un fragment PstI de 2 kb tels qu'obtenus à partir d'un sous-clone plasmidique dérivé d'un clone recombinant isolé d'uhe banque d'ADN de placenta humain. La carte de restriction enzymatique du clone recombinant ainsi que du sous-clone plasmidique dérivé renfermant la séquence nucléotidique en question est représentée sur la figure 2A.These sequences are also characterized in that they comprise at least part of a PstI fragment of approximately 800 bp and of a PstI fragment of 2 kb as obtained from a plasmid subclone derived from a recombinant clone isolated from a human placenta DNA bank. The enzymatic restriction map of the recombinant clone as well as of the derived plasmid subclone containing the nucleotide sequence in question is represented in FIG. 2A.
Il s'agit en particulier de séquences comportant 1'information génétique pour coder pour une protéine ayant la séquence (X) d'acides aminés. On observera que cette séquence d'acides aminés peut être mise en évidence chez 1'homme.They are in particular sequences comprising the genetic information for coding for a protein having the amino acid sequence (X). It will be observed that this amino acid sequence can be demonstrated in humans.
Ces séquences d'acides aminés comportent plus particulièrement au moins une partie de l'enchaînement nucléotidique (XI), plus particulièrement de l'enchaînement (XII).
D'autres séquences de nucleotides de 1'invention sont caractérisées en ce qu'elles comprennent ou qu'elles sont formées par un enchaînement de nucleotides capables de s'hybrider, dans les conditions stringentes évoquées ci- dessus, avec au moins une partie du quatrième exon du gène nov de poule, qui comprend la séquence nucléotidique (XIII).These amino acid sequences more particularly comprise at least part of the nucleotide sequence (XI), more particularly of the sequence (XII). Other nucleotide sequences of the invention are characterized in that they comprise or that they are formed by a sequence of nucleotides capable of hybridizing, under the stringent conditions mentioned above, with at least part of the fourth exon of the hen nov gene, which includes the nucleotide sequence (XIII).
L'invention vise les séquences de nucleotides comportant l'information génétique pour coder pour une protéine ayant une homologie d'environ 85 % avec le fragment de protéine correspondant au quatrième exon du gène nov de poule répondant à la séquence (XIV).The invention relates to the nucleotide sequences comprising the genetic information to code for a protein having a homology of approximately 85% with the protein fragment corresponding to the fourth exon of the hen nov gene corresponding to the sequence (XIV).
De telles séquences, capables de s'hybrider avec au moins une partie de l'enchaînement (XIII) ci-dessus, sont également caractérisées en ce qu'elles comprennent au moins, une partie d'un fragment HincII d'environ 400 pb, tel qu'obtenu selon les méthodes évoquées ci-dessus pour les autres fragments de restriction (voir figure 2B).Such sequences, capable of hybridizing with at least part of the above chain (XIII), are also characterized in that they comprise at least, part of a HincII fragment of approximately 400 bp, as obtained according to the methods mentioned above for the other restriction fragments (see FIG. 2B).
Selon un autre "aspect, ces séquences sont également caractérisées en ce qu'elles codent pour 1'enchaînement d'acides aminés (XV).According to another " aspect, these sequences are also characterized in that they code for the chain of amino acids (XV).
Les séquences évoquées ci-dessus en rapport avec le quatrième exon du gène nov de poule comportent plus particulièrement au moins une partie de 1'enchaînement nucléotidique (XVI), correspondant au fragment HincII mentionné plus haut, plus particulièrement de l'enchaînement XVII.The sequences mentioned above in connection with the fourth exon of the hen nov gene more particularly comprise at least part of the nucleotide sequence (XVI), corresponding to the HincII fragment mentioned above, more particularly of sequence XVII.
D'autres séquences de nucleotides encore, sont caractérisées en ce qu'elles comprennent ou qu'elles sont formées par un enchaînement de nucleotides capables de s'hybrider avec au moins une partie du premier exon du
gène nov de poule qui comprend la séquence nucléotidique XVIII.Still other nucleotide sequences are characterized in that they comprise or are formed by a sequence of nucleotides capable of hybridizing with at least part of the first exon of the hen nov gene which includes the nucleotide sequence XVIII.
Selon au autre aspect, de telles séquences sont caractérisées en ce qu*elles comportent 1'information génétique pour coder pour une protéine ayant une homologie d'environ 30 % avec le fragment de protéine correspondant au premier exon du gène nov de poule répondant à la séquence (XIX).According to another aspect, such sequences are characterized in that they contain the genetic information to code for a protein having a homology of approximately 30% with the protein fragment corresponding to the first exon of the hen nov gene responding to the sequence (XIX).
De telles séquences sont également caractérisées en ce qu'elles codent pour l'enchaînement d'acides aminés (XX).Such sequences are also characterized in that they code for the chain of amino acids (XX).
Les séquences définies ci-dessus en rapport avec le premier exon du gène nov de poule comportent plus particulièrement au moins une partie de 1'enchaînement nucléotidique (XXI).The sequences defined above in relation to the first exon of the hen nov gene more particularly comprise at least part of the nucleotide sequence (XXI).
D'autres séquences nucléotidiques de l'invention sont caractérisées en ce qu'elles sont formées par, ou qu'elles comprennent, un enchaînement de nucleotides capables de s'hybrider, dans les conditions stringentes évoquées ci-dessus, avec au moins une partie des troisième et quatrième exons du gène nov de poule qui comprennent la séquence nucléotidique (XXII).Other nucleotide sequences of the invention are characterized in that they are formed by, or that they comprise, a sequence of nucleotides capable of hybridizing, under the stringent conditions mentioned above, with at least part third and fourth exons of the hen nov gene which comprise the nucleotide sequence (XXII).
De telles séquences sont encore caractérisées en ce qu'elles codent pour un fragment de protéine répondant à l'enchaînement (XXIII) suivant d'acides aminés.Such sequences are further characterized in that they encode a protein fragment responding to the sequence (XXIII) following amino acids.
Ces séquences sont également caractérisées en ce qu'elles comprennent au moins une partie d'un fragment PstI d'environ 700 pb tel qu'obtenu selon le protocole évoqué plus haut (voir figure 2B).These sequences are also characterized in that they comprise at least part of a PstI fragment of approximately 700 bp as obtained according to the protocol mentioned above (see FIG. 2B).
Des séquences du type de celles du fragment PstI de 700 pb ci-dessus sont plus particulièrement
caractérisées en ce qu'elles sont ormées par ou qu'elles comprennent un enchaînement de nucleotides capable de s'hybrider dans les conditions stringentes définies ci- dessus, avec au moins une partie du troisième exon du gène nov de poule qui comprend la séquence (XXIV).Sequences of the type of those of the PstI fragment of 700 bp above are more particularly characterized in that they are formed by or that they comprise a chain of nucleotides capable of hybridizing under the stringent conditions defined above, with at least part of the third exon of the hen nov gene which comprises the sequence ( XXIV).
D'autres séquences de nucleotides de l'invention comportent l'information génétique pour coder pour une protéine ayant une homologie d'au moins 60 % environ avec le fragment de protéine potentiel du troisième exon du gène nov de poule, ce fragment répondant à la séquence (XXV).Other nucleotide sequences of the invention contain the genetic information to code for a protein having at least about 60% homology with the potential protein fragment of the third exon of the hen nov gene, this fragment responding to the sequence (XXV).
Il s'agit en particulier de séquences comportant l'information génétique pour coder pour une protéine ayant la séquence (XXVI) d'acides aminés.These are in particular sequences comprising the genetic information for coding for a protein having the amino acid sequence (XXVI).
On observera que cette séquence peut être mise en évidence chez l'homme. Ces séquences comportent plus particulièrement au moins une partie de l'enchaînement nucléotidique (XXVII), plus particulièrement de l'enchaînement (XXVIII).It will be observed that this sequence can be demonstrated in humans. These sequences more particularly comprise at least part of the nucleotide sequence (XXVII), more particularly of the sequence (XXVIII).
D'autres séquences de nucleotides de 1'invention sont caractérisées en ce qu'elles comprennent ou qu'elles sont formées par un enchaînement de nucleotides capables de s'hybrider, dans les conditions stringentes évoquées ci- dessus, avec au moins une partie du quatrième exon du gène nov de poule, qui comprend la séquence nucléotidique (XXIX).Other nucleotide sequences of the invention are characterized in that they comprise or that they are formed by a sequence of nucleotides capable of hybridizing, under the stringent conditions mentioned above, with at least part of the fourth exon of the hen nov gene, which includes the nucleotide sequence (XXIX).
L'invention vise les séquences de nucleotides comportant l'information génétique pour coder pour une protéine ayant une homologie d'environ 80 % avec le fragment de protéine correspondant au quatrième exon du gène nov de poule, ce fragment répondant à la séquence (XXX).
Il s'agit en particulier de séquences comportant 1'information génétique pour coder pour une protéine ayant la séquence (XXXI).The invention relates to nucleotide sequences containing the genetic information to code for a protein having a homology of approximately 80% with the protein fragment corresponding to the fourth exon of the hen nov gene, this fragment corresponding to the sequence (XXX). . They are in particular sequences comprising the genetic information for coding for a protein having the sequence (XXXI).
Ces séquences sont formées par ou comprennent plus particulièrement l'enchaînement nucléotidique (XXXII).These sequences are formed by or more particularly comprise the nucleotide sequence (XXXII).
Selon un autre aspect, l'invention vise une séquence recombinante comprenant 1'une des séquences définies ci-dessus, le cas échéant associée à un promoteur capable de contrôler la transcription de la séquence et une séquence d'ADN codant pour les signaux de terminaison de la transcription.According to another aspect, the invention relates to a recombinant sequence comprising one of the sequences defined above, optionally associated with a promoter capable of controlling the transcription of the sequence and a DNA sequence coding for the termination signals of the transcript.
L'invention vise également les séquences promotrices des gènes comportant les séquences nucléotidiques définies ci-dessus.The invention also relates to the promoter sequences of the genes comprising the nucleotide sequences defined above.
Elle vise en particulier au moins une partie de la séquence promotrice du gène nov humain dont les
trois et quatre sont donnés sur la figure 2A. Cette séquence promotrice qui correspond à 1'enchaînement / Y IU ; est localisée dans un fragment PsTI-Hind III de 2,2 kb et comprend les 283 nucleotides en amont au début du premier exon.It targets in particular at least part of the promoter sequence of the human nov gene, the three and four are given in Figure 2A. This promoter sequence which corresponds to the sequence / Y IU; is located in a 2.2 kb PsTI-Hind III fragment and comprises the 283 nucleotides upstream at the start of the first exon.
La séquence promotrice du gène nov humain est caractérisée en ce qu'elle comporte plusieurs séquences consensus de différents facteurs de transcription tels que NF1 (TGGCCTTCTGCCAATC), API (TGACTAA) et Spl (GCCACTCCCC)• .The promoter sequence of the human nov gene is characterized in that it comprises several consensus sequences of different transcription factors, such as NF1 (TGGCCTTCTGCCAATC), API (TGACTAA) and Spl (GCCACTCCCC) •.
Elle comprend également une séquence de vingt répétitions de motifs TG qui peut constituer une séquence de polymorphisme, conférant un intérêt à cette séquence comme marqueur de polymorphisme.
L'invention vise également la séquence promotrice du gène CTGF identifiée dans le ragment EcoRI - PstI de 700 pb environ, qui correspond à l'enchaînement (XX lA-0-It also comprises a sequence of twenty repetitions of TG motifs which can constitute a polymorphism sequence, conferring an interest on this sequence as a polymorphism marker. The invention also relates to the promoter sequence of the CTGF gene identified in the EcoRI - PstI ragment of approximately 700 bp, which corresponds to the sequence (XX lA-0-
Cette séquence est caractérisée en ce qu'elle comporte des sites de fixation des facteurs de transcription tels que SRF (CCTAAAAAGG), API (TGAATCA), Spl (CCCGCCC), un site potentiel de fixation à la protéine tl (CGCCCCGGC) et un site NF kappa B (GAGAGCCCC). Elle comporte également une TATA base (TATAAAA).This sequence is characterized in that it includes sites for binding transcription factors such as SRF (CCTAAAAAGG), API (TGAATCA), Spl (CCCGCCC), a potential tl protein binding site (CGCCCCGGC) and a site NF kappa B (GAGAGCCCC). It also includes a basic TATA (TATAAAA).
La séquence promotrice du gène nov de poule répondant à l'enchaînement .^ X Jfait également partie de l'invention.The promoter sequence of the hen nov gene responding to the sequence. ^ X J is also part of the invention.
Cette séquence est contenue dans un fragment Smal- Xhol d'environ 1 kb qui comporte des séquences consensus de différents facteurs de transcription ainsi qu'une TATA base. Elle est caractérisée en particules en ce qu'elle comprend les sites suivants de fixation dx facteur Spl : GGGGGCGGGG, CCCCCGCCTC, Ap2 : CCGCAGGC, GGCGGGGC, GGGTCCC.This sequence is contained in a Smal-Xhol fragment of approximately 1 kb which comprises consensus sequences of different transcription factors as well as a base TATA. It is characterized in particles in that it comprises the following sites for attachment of factor Spl: GGGGGCGGGG, CCCCCGCCTC, Ap2: CCGCAGGC, GGCGGGGC, GGGTCCC.
Elle comprend également un site de fixation du facteur NF kappa E2 (GGCAGGTGG) et du facteur NFKB (GGGAGTTTC).It also includes a binding site for the NF kappa E2 factor (GGCAGGTGG) and the NFKB factor (GGGAGTTTC).
Il est entendu que les bases des séquences de nucleotides considérées peuvent être dans un ordre différent de celui trouvé dans les gènes et/ou que ces bases peuvent être, le cas échéant, substituées. Les séquences correspondantes entrent dans le cadre de l'invention, dès lors qu'un fragment de ces séquences utilisé comme sonde donne une réponse caractéristique et non équivoque quant à la capacité de reconnaître la présence de gènes codant pour des protéines telles que définies ci-dessus exprimées dans les cellules tumorales.
L'invention vise également en tant que nouveaux produits les ARN correspondant aux différentes séquences définies ci-dessus et les séquences complémentaires des différents enchaînements nucléotidiques définis.It is understood that the bases of the nucleotide sequences under consideration may be in a different order from that found in the genes and / or that these bases may, where appropriate, be substituted. The corresponding sequences fall within the scope of the invention, when a fragment of these sequences used as a probe gives a characteristic and unequivocal response with regard to the ability to recognize the presence of genes coding for proteins as defined above. above expressed in tumor cells. The invention also targets, as new products, the RNAs corresponding to the different sequences defined above and the complementary sequences of the different defined nucleotide sequences.
L'invention se rapporte également aux vecteurs recombinants de clonage et d'expression capables de transformer une cellule hôte appropriée, comportant au moins une partie d'une séquence de nucleotides telle que définie ci-dessus sous le contrôle d'éléments de régulation permettant son expression.The invention also relates to recombinant cloning and expression vectors capable of transforming an appropriate host cell, comprising at least part of a nucleotide sequence as defined above under the control of regulatory elements allowing its expression.
Les souches de microorganismes transformées ou transfectées entrent également dans le cadre de l'invention. Ces souches comportent l'une des séquences de nucleotides définies ci-dessus ou encore un vecteur recombinant tel que défini précédemment.The strains of transformed or transfected microorganisms also fall within the scope of the invention. These strains comprise one of the nucleotide sequences defined above or also a recombinant vector as defined above.
Elle vise également les séquences d'acides aminés correspondant, selon le code génétique universel, aux séquences de nucleotides définies plus haut, et les protéines exprimées par les gènes comportant ces séquences.It also targets the amino acid sequences corresponding, according to the universal genetic code, to the nucleotide sequences defined above, and the proteins expressed by the genes comprising these sequences.
Les séquences d'acides aminés homologues à celles codées par l'exon 2, qui contiennent le site de liaison aux facteurs de croissance IGF présentent un intérêt particulier, étant donné que le gène IGFII, qui se trouve chez l'homme sur le chromosome llpl5, est surexprimé dans certaines tumeurs de Wilms et pourrait donc être impliqué dans cette pathologie.Amino acid sequences homologous to those encoded by exon 2, which contain the IGF growth factor binding site are of particular interest, since the IGFII gene, which is found in humans on chromosome llpl5 , is overexpressed in certain Wilms tumors and could therefore be implicated in this pathology.
Dès lors que -le motif consensus des protéines se liant à 1'IGF joue une rôle important dans le développement des néphroblastomes en conjonction avec la dérégulation de l'expression d'IGFII, on mesure l'intérêt de la détection d'une expression anormale des protéines de 1'invention qui renferment un tel motif.
Les protéines de l'invention sont également caractérisées en ce qu'elles sont telles qu'obtenues par transformation de cellules hôtes au moyen d'un vecteur recombinant comme défini ci-dessus, mise en culture, dans un milieu approprié, des cellules hôtes transformées ou transfectées et récupération de la protéine à partir de ces cellules ou directement à partir du milieu de culture.Since the consensus motif of proteins binding to IGF plays an important role in the development of nephroblastomas in conjunction with the deregulation of IGFII expression, the value of detecting an abnormal expression is measured. proteins of the invention which contain such a motif. The proteins of the invention are also characterized in that they are obtained by transformation of host cells using a recombinant vector as defined above, culturing, in an appropriate medium, of the transformed host cells or transfected and recovery of the protein from these cells or directly from the culture medium.
La production de ces protéines par un tel procédé fait également partie de l'invention.The production of these proteins by such a process also forms part of the invention.
Les protéines de l'invention et leurs fragments, qui peuvent être également obtenus par synthèse chimique, présentent avantageusement un degré de pureté élevé et sont utilisés pour former, selon les techniques classiques, des anticorps polyclonaux.The proteins of the invention and their fragments, which can also be obtained by chemical synthesis, advantageously have a high degree of purity and are used to form, according to conventional techniques, polyclonal antibodies.
De tels anticorps polyclonaux, ainsi que les anticorps monoclonaux capables de reconnaître spécifiquement un épitope des protéines ci-dessus, ou d'un fragment de ces protéines, sont également visés par l'invention.Such polyclonal antibodies, as well as monoclonal antibodies capable of specifically recognizing an epitope of the above proteins, or of a fragment of these proteins, are also targeted by the invention.
L'invention vise en outre les applications biologiques des séquences de nucleotides, des protéines correspondantes et des anticorps monoclonaux ou polyclonau .The invention further relates to the biological applications of the nucleotide sequences, the corresponding proteins and monoclonal or polyclonal antibodies.
Ces applications comprennent l'élaboration, à partir de fragments intragéniques purifiés, ou d'ARN correspondants, de sondes moléculaires pour rechercher la présence éventuelle de- séquences de nucleotides apparentées au gène nov dans divers types cellulaires.These applications include the development, from purified intragenic fragments, or from corresponding RNA, of molecular probes to search for the possible presence of nucleotide sequences related to the nov gene in various cell types.
L'élaboration de ces sondes comprend, notamment, la dénaturation des séquences double-brin pour obtenir une séquence monobrin.
Les essais effectués pour détecter la présence de séquences complémentaires dans diverses tumeurs et tissus humains ont mis en évidence la grande spécificité de ces fragments intragéniques.The development of these probes includes, in particular, the denaturation of the double-stranded sequences to obtain a single-stranded sequence. The tests carried out to detect the presence of complementary sequences in various tumors and human tissues have demonstrated the great specificity of these intragenic fragments.
L'utilisation de ces sondes a ainsi permis de montrer que le gène renfermant les séquences nucléotidiques définies ci-dessus est exprimé dans plusieurss types de cellules humaines, y compris certaines tumeurs du rein.The use of these probes has thus made it possible to show that the gene containing the nucleotide sequences defined above is expressed in several types of human cells, including certain kidney tumors.
L'invention vise donc des sondes de détection caractérisées en ce qu'elles comprennent au moins une partie d'une séquence de nucleotides définie ci-dessus.The invention therefore relates to detection probes characterized in that they comprise at least part of a nucleotide sequence defined above.
Toute sonde ne se distinguant de la précédente, au niveau de sa séquence de nucleotides, que par des substitutions ou altérations de nucleotides n'entraînant pas de modification de ses propriétés d'hybridation avec le gène humain apparenté au gène nov de poule comme défini plus haut entre dans le cadre de 1'invention.Any probe which differs from the previous one, in terms of its nucleotide sequence, only by nucleotide substitutions or alterations which do not result in modification of its hybridization properties with the human gene related to the hen nov gene as defined more haut falls within the scope of the invention.
Le fragment d'ADN utilisé comme sonde comporte un nombre de nucleotides suffisant pour obtenir la spécificité requise et la formation d'un hybride stable.The DNA fragment used as probe has a sufficient number of nucleotides to obtain the required specificity and the formation of a stable hybrid.
Il est possible d'utiliser des fragments atteignant plusieurs kb, des résultats de haute spécificité étant cependant également obtenus avec des fragments plus cours d'environ 25 à 40 nucleotides.It is possible to use fragments reaching several kb, results of high specificity being however also obtained with shorter fragments of approximately 25 to 40 nucleotides.
Des sondes appropriées pour ce type de détection sont avantageusement marquées par un élément radio-actif ou tout autre groupe permettant sa reconnaissance à 1'état hybride avec la préparation renfermant les nucleotides à étudier.Probes suitable for this type of detection are advantageously labeled with a radioactive element or any other group allowing its recognition in the hybrid state with the preparation containing the nucleotides to be studied.
Selon les techniques classiques, ces sondes sont mises en contact avec l'échantillon biologique à tester ou
leurs acides nucléiques, dans des conditions autorisant 1'hybridation éventuelle de la séquence de nucleotides de la sonde avec une séquence complémentaire, éventuellement contenue dans le produit étudié.According to conventional techniques, these probes are brought into contact with the biological sample to be tested or their nucleic acids, under conditions permitting possible hybridization of the nucleotide sequence of the probe with a complementary sequence, possibly contained in the product studied.
On peut, par exemple, avoir recours à la méthode d'hybridation sur taches ou à la méthode d'hybridation sur réplique, selon la technique de Southern. Dans la première méthode, selon la technique classique, on dépose une quantité valiquote d'ADN dénaturé sur des membranes de nitrocellulose. La deuxième méthode comprend la séparation électrophorétique en gel d'agarose des fragments d'ADNs engendrés après traitement de l'ADN par des enzymes de restriction, le transfert après denaturation alcaline sur des membranes appropriées et leur hybridation avec la sonde dans les conditions usuelles.One can, for example, have recourse to the method of hybridization on spots or to the method of hybridization on replica, according to the technique of Southern. In the first method, according to the conventional technique, depositing a quantity v aliquot of denatured DNA on nitrocellulose membranes. The second method comprises the electrophoretic separation in agarose gel of the DNA fragments generated after treatment of the DNA with restriction enzymes, the transfer after alkaline denaturation on appropriate membranes and their hybridization with the probe under the usual conditions.
Ces sondes constituent des marqueurs tumoraux en permettant la détection précoce de l'expression du gène renfermant lesdites séquences nucléotidiques, qui normalement n'est pas ou peu exprimé dans les tissus normaux correspondants. L'invention fournit ainsi des moyens permettant d'évaluer " le développement et/ou la di erentiation tumorale.These probes constitute tumor markers by allowing the early detection of the expression of the gene containing said nucleotide sequences, which normally is not or little expressed in the corresponding normal tissues. The invention thus provides means for assessing " tumor development and / or di erentiation.
La détection pour l'identification spécifique des ADN peut être également réalisée par des techniques d'amplification de l'ADN (PCR) telles que décrites dans les brevets US 4683202 et 4683195 au nom de Cetus Corportation.Detection for the specific identification of DNAs can also be carried out by DNA amplification techniques (PCR) as described in US patents 4683202 and 4683195 in the name of Cetus Corportation.
Dans ces techniques, on utilise deux amorces d'environ une quinzaine' de nucleotides comprises dans l'une des séquences de nucleotides définies ci-dessus et distantes d'environ 200 à 250 nucleotides. L'une des séquences est capable de se lier à une séquence de nucleotides de l'un des brins du fragment d'ADN à amplifier et située au niveau de l'une des extrémités de ce fragment, par exemple à 1'extrémité 5' . L'autre séquence est capable
de se lier à une séquence de nucleotides du deuxième brin du fragment d'ADN à amplifier, et se trouve située au niveau de 1'extrémité de ce fragment opposée à celle mentionnée plus haut (à 1'extrémité 3' , lorsque la première se trouver à 1'extrémité 5' ).In these techniques, using two primers of about fifteen 'nucleotides included in one of the nucleotide sequences defined above and spaced approximately 200 to 250 nucleotides. One of the sequences is capable of binding to a nucleotide sequence of one of the strands of the DNA fragment to be amplified and located at one of the ends of this fragment, for example at the 5 'end . The other sequence is capable to bind to a nucleotide sequence of the second strand of the DNA fragment to be amplified, and is located at the end of this fragment opposite to that mentioned above (at the 3 'end, when the first ends find at end 5 ').
L'invention vise également un procédé de détection in vitro de la présence dans un échantillon biologique de séquences complémentaires de celles définies ci-dessus. Ce procédé est caractérisé en ce qu'il comprend les étapes suivantes :The invention also relates to a method for detecting in vitro the presence in a biological sample of sequences complementary to those defined above. This process is characterized in that it comprises the following stages:
- la mise en contact de l'échantillon biologique à étudier avec une sonde nucléotidique telle que définie plus haut dans des conditions permettant la production d'un complexe d'hybridation formé entre la sonde et la séquence de nucleotides recherchée,bringing the biological sample to be studied into contact with a nucleotide probe as defined above under conditions allowing the production of a hybridization complex formed between the probe and the desired nucleotide sequence,
- la détection du complexe d'hybridation.- detection of the hybridization complex.
Le cas échéant, on procède à une amplification préalable de la quantité de séquences de nucleotides susceptibles d'être contenues dans l'échantillon, à l'aide d'amorces, telles que décrites ci-dessus, susceptibles respectivement de se lier, d'une part à l'extrémité 5' d'un brin de ladite séquence de nucleotides et d'autre part, à 1'extrémité 3' de 1'autre brin de ladite séquence de nucleotides.If necessary, a preliminary amplification of the quantity of nucleotide sequences capable of being contained in the sample is carried out, using primers, as described above, capable respectively of binding, of one hand at the 5 'end of one strand of said nucleotide sequence and the other hand, at the 3' end of the other strand of said nucleotide sequence.
L'utilisation d'un tel procédé représente une augmentation de sensibilité et un gain de temps considérable par rapport aux techniques classiques qui nécessitent souvent une technologie ne pouvant être mise en oeuvre que dans des services spécialisés. Il permet de plus une détection rapide et de grande spécificité des ADN et des différentes espèces d'ARNm de transcription. Ce procédé constitue un moyen de détection d'un remaniement
chromosomique au niveau des gènes qui codent pour les ARN nov ou CTGF sans avoir recours à des cultures cellulaires.The use of such a method represents an increase in sensitivity and a considerable saving of time compared to conventional techniques which often require a technology which can only be implemented in specialized services. It also allows rapid and highly specific detection of DNA and of the different transcription mRNA species. This process is a means of detecting a rearrangement chromosomal at the level of genes which code for RNA nov or CTGF without having to use cell cultures.
Pour la mise en oeuvre d'une telle méthode de dépistage in vitro, basée sur l'utilisation de sondes nucléotidiques, on a recours avantageusement à des nécessaires ou kits comprenant :For the implementation of such an in vitro screening method, based on the use of nucleotide probes, use is advantageously made of kits or kits comprising:
une quantité déterminée d'une sonde nucléotidique selon l'invention,a determined quantity of a nucleotide probe according to the invention,
un milieu approprié à la formation d'une réaction d'hybridation entre la séquence à détecter et la sonde et, avantageusement,a medium suitable for the formation of a hybridization reaction between the sequence to be detected and the probe and, advantageously,
des réactifs permettant la détection des complexes d'hybridation formés entre la séquence de nucleotides et la sonde lors de la réaction d'hybridation.reagents for the detection of hybridization complexes formed between the nucleotide sequence and the probe during the hybridization reaction.
- une quantité déterminée d'un anticorps polyclonal ou monoclonal selon l'invention,- a determined quantity of a polyclonal or monoclonal antibody according to the invention,
un milieu approprié à la formation d'une réaction immunologique entre au moins une partie des produits exprimés et l'anticorps et, avantageusement,a medium suitable for the formation of an immunological reaction between at least part of the products expressed and the antibody and, advantageously,
des réactifs permettant la détection des complexes immunologiques formés lors de la réaction immunologique.reagents for the detection of the immunological complexes formed during the immunological reaction.
La présence dans les protéines de 1'invention d'une séquence de liaison aux facteurs de croissance du type insuline (IGF) est avantageusement mise à profit selon l'invention pour le dosage des protéines. A cet effet, on met en contact les protéines de l'échantillon biologique à étudier avec un IGF comportant un groupe marqué, par exemple un groupe radioactif ou sonde froide et on effectue le dosage de la quantité de produit fixé.
On rapporte ci-après à titre d'exemples non limitatifs le clonage et le sequençage du gène nov de poule, et de séquences de nucleotides répondant aux définitions données plus haut. Dans ces exemples, il est fait référence aux figures 1 et 2,The presence in the proteins of the invention of an insulin-like growth factor (IGF) binding sequence is advantageously used according to the invention for the determination of proteins. To this end, the proteins of the biological sample to be studied are brought into contact with an IGF comprising a labeled group, for example a radioactive group or cold probe, and the quantity of fixed product is assayed. The cloning and sequencing of the hen nov gene and of nucleotide sequences corresponding to the definitions given above are given below by way of nonlimiting examples. In these examples, reference is made to FIGS. 1 and 2,
- la figure 1 représentant la séquence d'ADNc du gène nov de poule et celle de la protéine potentielle codée- Figure 1 representing the cDNA sequence of the hen nov gene and that of the potential protein encoded
- les figures 2 A et 2 B les cartes de restriction de fragments d'ADN de 1'invention- Figures 2 A and 2 B the restriction maps of DNA fragments of the invention
Procédés de clonage moléculaire et sequençage rapportés dans les exemples :Molecular cloning and sequencing processes reported in the examples:
purification des acides nucléiques : utilisation de dichlorométhane comme décrit dans V. Maloisel et al.. Met. Mol. Cell. Biol. 1, 245-247, 1990.purification of nucleic acids: use of dichloromethane as described in V. Maloisel et al .. Met. Mol. Cell. Biol. 1, 245-247, 1990.
Southern et Northern blots, et autres procédés de clonage : effectués selon les protocoles standards publiés par B. Perbal dans "A practical guide to molecular cloning, second édition, B. Perbal John Wiley and Sons, New York, 1988Southern and Northern blots, and other cloning methods: carried out according to standard protocols published by B. Perbal in "A practical guide to molecular cloning, second edition, B. Perbal John Wiley and Sons, New York, 1988
purification des fragments d'ADN BamHI-HindIII de 7 kb et Sacl de 6,6 kb : méthode Geneclean (Bio 101).purification of the 7 kb BamHI-HindIII and Sacl 6.6 kb DNA fragments: Geneclean method (Bio 101).
Sondes radioactives : préparées par nick translation en présence d'α dCTP 32p.Radioactive probes: prepared by nick translation in the presence of α dCTP 32p.
Sequençage des nucleotides : selon la méthode de terminaison de chaîne au didéoxy en présence d'α dATP 35s, de T7 polymérase ou de Séquenase (USB).Nucleotide sequencing: according to the dideoxy chain termination method in the presence of α dATP 35s, T7 polymerase or Sequenase (USB).
Exemple 1 :
Isolement de 1'ADNC du gène nov de pouleExample 1: Isolation of cDNA from the hen nov gene
25 ng d'ADNc correspondant à de l'ARN poly A de fibroblastes d'embryons de poule de 13 jours sont ligaturés avec 1 μg de bras lambda gtlO pour préparer une banque d'ADNc de fibroblastes normaux de poule en utilisant le kit d'Amersha .25 ng of cDNA corresponding to poly A RNA from fibroblasts from hen embryos of 13 days are ligated with 1 μg of lambda gt10 arm to prepare a cDNA library of normal hen fibroblasts using the kit Amersha.
Après criblage avec une sonde cellulaire dérivée d'une tumeur, on purifie 7 clones, l'insert le plus long (1,9 kb) est purifié selon la méthode de Geneclean (BIO 101) et sous-cloné au site Kpnl de Bluescript KS+ (Stratagène) pour générer le clone pClK.After screening with a cell probe derived from a tumor, 7 clones are purified, the longest insert (1.9 kb) is purified according to the Geneclean method (BIO 101) and subcloned at the Kpnl site of Bluescript KS + (Stratagene) to generate the pClK clone.
Sequençage nucléotidique :Nucleotide sequencing:
Le sequençage est réalisé par la méthode de terminaison de chaînes didéoxy-nucleotide en présence d'α 35s dATP et de polymérase T7 (Pharmacia) ou de Séquenase dans les conditions décrites par les fabricants.Sequencing is carried out by the method of terminating dideoxy-nucleotide chains in the presence of α 35s dATP and of T7 polymerase (Pharmacia) or of Sequenase under the conditions described by the manufacturers.
Des matrices sont obtenues à partir des clones recombinants M13mpl8 et M13mpl9. Les amorces de sequençage proviennent de Biolabs, New England. Les compressions GC sont résolues en utilisant la déoxy-inosine (USB).Matrices are obtained from the recombinant clones M13mpl8 and M13mpl9. The sequencing primers are from Biolabs, New England. GC compressions are resolved using deoxy-inosine (USB).
Caractérisation du gène cellulaire nov :Characterization of the nov cell gene:
On effectue une analyse par Northern Blot d'ARN isolés de reins normaux, de fibroblastes d'embryons de poule (FEP) et de néphroblastomes en utilisant les sondes cellulaires dérivées d'une tumeur. La sonde HX1024 permet de détecter dans les FEP normaux une espèce d'ARNm de 2,2 kb dont l'expression est altérée dans tous les autres néphroblastomes. Le criblage d'une banque d'ADNc de FEP permet d'isoler un clone d'ADNc de 1,9 kb représentant 1'ARNm de 2,2 kb exprimé dans les FEP normau .
On a représenté sur la figure 1 la séquence entière nucléotidique de 1975 pb du clone d'ADNc de ce nouveau gène, surexprimé dans les néphroblastomes étudiés, appelé gène no_3_:. Ce gène apparaît constitué de 5 exons. Un cadre ouvert de lecture de 1,0 kb codant pour une protéine potentielle de 32300 Da a été identifié du nucleotide 24 au nucleotide 1076. Ce cadre ouvert de lecture est suivi de 899 pb de séquences 3' non codantes qui contiennent deux motifs potentiels de signaux de polyadénylation (AATAAA) aux positions 1914 et 1932.Northern blot analysis of RNA isolated from normal kidneys, hen embryo fibroblasts (FEP) and nephroblastomas is performed using tumor derived cell probes. The HX1024 probe makes it possible to detect, in normal FEPs, a 2.2 kb mRNA species whose expression is altered in all the other nephroblastomas. Screening of an FEP cDNA library makes it possible to isolate a 1.9 kb cDNA clone representing the 2.2 kb mRNA expressed in normal FEPs. FIG. 1 shows the entire 1975 bp nucleotide sequence of the cDNA clone of this new gene, overexpressed in the nephroblastomas studied, called gene no_3_ :. This gene appears to consist of 5 exons. A 1.0 kb open reading frame encoding a potential protein of 32300 Da has been identified from nucleotide 24 to nucleotide 1076. This open reading frame is followed by 899 bp of 3 'non-coding sequences which contain two potential motifs of polyadenylation signals (AATAAA) at positions 1914 and 1932.
On a également indiqué sur cette figure les acides aminés potentiellement codés. Le polypeptide nov potentiel contient un noyau hydrophobe caractéristique d'un signal peptidique à son extrémité amino (avec 6 leucines). Cette protéine nov étant dépourvue d'autres régions hydrophobes présentes dans les protéines trans-membranaires, il est vraisemblable qu'elle est sécrétée. La protéine nov contient également le motif consensus GCGCCXXC des protéines liant les facteurs de croissance du type insuline (IGF) et un total de 39 résidus cystéine ne formant pas de cluster.The potentially coded amino acids have also been indicated in this figure. The potential nov polypeptide contains a hydrophobic nucleus characteristic of a peptide signal at its amino terminus (with 6 leucines). This nov protein is devoid of other hydrophobic regions present in the trans-membrane proteins, it is likely that it is secreted. The nov protein also contains the consensus motif GCGCCXXC of proteins binding insulin-like growth factors (IGF) and a total of 39 non-clustered cysteine residues.
F -o lP. 2 : isolement dans des cellules humaines de séquences de nucleotides apparentées au gène nov de poule.F -o lP. 2: isolation in human cells of nucleotide sequences related to the hen nov gene.
On effectue un Southern blot de fragments d'ADN humain digéré par EcoRI avec le clone d'ADNc du gène nov de poule pClK. On opère dans les conditions stringentes rapportées par B. Perbal (voir référence ci-dessus).A Southern blot of fragments of human DNA digested with EcoRI is carried out with the cDNA clone of the hen nov gene pClK. One operates under the stringent conditions reported by B. Perbal (see reference above).
On constate que quatre fragments EcoRI s'hybrident avec des séquences du gène nov de poule. Ces fragments comportent respectivement 15, 12, 8 et 5,6 kb.It is found that four EcoRI fragments hybridize with sequences of the hen nov gene. These fragments contain respectively 15, 12, 8 and 5.6 kb.
Exemple 3 : Isolement de séquences de nucleotides apparentées au gène nov de poule.
A partir d'une banque d'ADN de placenta humain, on isole à 1'aide de la sonde pClK radiomarquée deux groupes de clones lambda gtll recombinants.Example 3: Isolation of nucleotide sequences related to the hen nov gene. From a library of human placenta DNA, two groups of recombinant lambda gtll clones are isolated using the radiolabeled pClK probe.
La carte de restriction partielle de lambda Hu92 (qui correspond à trois clones se chevauchant) et de lambda Hu93 (qui correspond à deux clones se chevauchant) et celles des sous-clones plasmidiques pBH7 et p56 sont représentées sur les figures 2A et 2B.The partial restriction map of lambda Hu92 (which corresponds to three overlapping clones) and of lambda Hu93 (which corresponds to two overlapping clones) and those of the plasmid subclones pBH7 and p56 are shown in FIGS. 2A and 2B.
Les séquences de nucleotides humaines homologues à celles du gène nov de poule sont localisées dans un fragment d'ADN de 7,0 kb BamHI-HindIII du clone Hu92 et celles appartenant au gène CTGF dans un fragment d'ADN de 6,6 kb Sacl du clone Hu93.The human nucleotide sequences homologous to those of the hen nov gene are located in a 7.0 kb BamHI-HindIII DNA fragment of the clone Hu92 and those belonging to the CTGF gene in a 6.6 kb Sacl DNA fragment from the clone Hu93.
Sur ces cartes, les enzymes de restriction sont désignées comme suit : B ≈ BglII, P = PstI, K = Kpnl, H = HindIII, S = Sacl, E = EcoRI, X = Xba, B = BamHI et Hc = Hine II. Les blocs noirs représentent les régions exoniques humaines.On these maps, the restriction enzymes are designated as follows: B ≈ BglII, P = PstI, K = Kpnl, H = HindIII, S = Sacl, E = EcoRI, X = Xba, B = BamHI and Hc = Hine II. The black blocks represent human exonic regions.
Le sous-clonage de ces fragments dans les vecteurs pUC18 et pUC19, appelés respectivement clones pBH7 et pS6 permet de localiser plus précisément les séquences homologues du gène nov de poule et les séquences du gène du CTGF. Les premières sont localisées d'une part dans un fragment d'ADN PstI de 600 pb (E2), d'autre part dans un fragment PstI de 800 pb (E3), et dans un fragment HincII de 400 pb (E4). La sonde pBH7 correspond au fragment HindlII- BamHI.The subcloning of these fragments into the pUC18 and pUC19 vectors, called respectively pBH7 and pS6 clones makes it possible to more precisely locate the homologous sequences of the hen nov gene and the sequences of the CTGF gene. The first are located on the one hand in a PstI DNA fragment of 600 bp (E2), on the other hand in a PstI fragment of 800 bp (E3), and in a HincII fragment of 400 bp (E4). The pBH7 probe corresponds to the HindIII-BamHI fragment.
La localisation des premier, deuxième, troisième, quatrième et cinquième exons humains au GTGF sont indiquées sur la figure 2B (désignations respectives El, E2, E3, E4, et E5).
L'utilisation des fragments PstI d'ADN purifiés comme sondes dans des expériences d'hybridation Southern avec les fragments EcoRI de l'exemple 2 conduit à la seule détection du fragment EcoRI d'ADN de 12 kb avec PB06 et du fragment EcoRI de 15 kb avec PSP07 démontrant que les séquences de PBP06 et PSP07 correspondent à un sous- ensemble des exons nov de 1'ADNc de poule.The location of the first, second, third, fourth and fifth human exons at GTGF are shown in Figure 2B (respective designations E1, E2, E3, E4, and E5). The use of the PstI fragments of purified DNA as probes in Southern hybridization experiments with the EcoRI fragments of Example 2 leads to the sole detection of the EcoRI DNA fragment of 12 kb with PB06 and of the EcoRI fragment of 15 kb with PSP07 demonstrating that the sequences of PBP06 and PSP07 correspond to a subset of the nov exons of chicken cDNA.
Rv-am liα A : Détection d'ARN du génome humain apparentés au gène nov de poule.Rv-am liα A: Detection of RNA of the human genome related to the hen nov gene.
On rapporte dans le tableau suivant les résultats d'expériences d'hybridation Northern avec différents tissus et lignées cellulaires en utilisant comme sondes les enchaînements de formule VIII, XV et XVI ci-dessus homologues respectivement des exons E2, du gène nov de poule et E3 et E4 du gène CTGF (ces codes étant utilisés dans le tableau pour les désigner).
The following table reports the results of Northern hybridization experiments with different tissues and cell lines using as probes the sequences of formula VIII, XV and XVI above homologous respectively with exons E2, the hen nov gene and E3 and E4 of the CTGF gene (these codes being used in the table to designate them).
TISSUS ET LIGNEES CELLULAIRES SONDESFABRICS AND PROBE CELL LINES
E2 E3-E4 kb deE2 E3-E4 kb from
(nov) (CTGF) l'ARNm(nov) (CTGF) mRNA
Moelle osseuse + (2, ) thymus (foetal) + (2,5) Foie (foetal) ( ,5; HELBone marrow + (2,) thymus (fetal) + (2.5) Liver (fetal) (, 5; HEL
Cerveau (foetal)Brain (fetal)
Neuroblastome 1 Neuroblastome 162Neuroblastoma 1 Neuroblastoma 162
Rein (foetal) Néphroblastome Bou
Kidney (fetal) Nephroblastoma Bou
Tissu mammaire Tumeur mammaire gg Tumeur mammaire seBreast tissue Breast tumor gg Breast tumor
SK-BR3 (2,5) (3,5)
poumon ( foetal ) coeur ( foetal ) lignée 293
SK-BR3 (2.5) (3.5) lung (fetal) heart (fetal) line 293
MCF7 ( 7, 4 )MCF7 (7, 4)
Carcinome embry test. 8 nt (2,7) (7,4)Carcinoma embry test. 8 nt (2.7) (7.4)
Teratocarcinome test. 10 ntTeratocarcinoma test. 10 nt
Teratocarcinome test. 11 ntTeratocarcinoma test. 11 nt
Adenocarcinome U377 nt
Adenocarcinoma U377 nt
HL60 nt (7,4)HL60 nt (7.4)
nt = non testént = not tested
Les résultats obtenus montrent que le gène humain homologue du gène nov de poule et le gène CTGF appartenant à la même famille sont*exprimés selon les tissus ou lignées sous la forme de différentes espèces d'ARN détectés soit par les deux sondes, soit par une seule d'entre elles.
L'espèce d'ARN de 7,4 kb exprimée par certains tissus et lignées n'apparaît reconnue que par la sonde PSP07.The results obtained show that the human gene homologous to the hen nov gene and the CTGF gene belonging to the same family are * expressed according to the tissues or lines in the form of different RNA species detected either by the two probes, or by a only one of them. The 7.4 kb RNA species expressed by certain tissues and lines appears to be recognized only by the PSP07 probe.
Ces résultats indiquent que la régulation des gènes chez l'homme dépendrait de la spécificité tissulaire.
These results indicate that the regulation of genes in humans would depend on tissue specificity.
ENCHAINEMENT ILINK I
GCGGCGGGTΛGΛCGGCCGGGΛCT ΛTG GΛG ΛCG GGC GGC GGG CΛG GGG CTG CCC GTC CTG CTG CTG CTC CTG CTC CTC CTC CGG CCG TGC GAG GTG 95GCGGCGGGTΛGΛCGGCCGGGΛCT ΛTG GΛG ΛCG GGC GGC GGG CΛG GGG CTG CCC GTC CTG CTG CTG CTC CTG CTC CTC CTC CGG CCG TGC GAG GTG 95
ΛGC GGG CGG GΛG GCG GCG TGC CCC CGG CCC TGC GGC GGG CGC TGC CCC GCG GAG CCG CCG CGC TGC GCC CCG GGA GTG CCC GCC GTG CTG 18ΛGC GGG CGG GΛG GCG GCG TGC CCC CGG CCC TGC GGC GGG CGC TGC CCC GCG GAG CCG CCG CGC TGC GCC CCG GGA GTG CCC GCC GTG CTG 18
GΛC GGC TGC GGC TGC TGC CTG GTG TGC GCC CGG CΛG CGC GGC GΛG ΛGC TGC TCC CCT CTG CTG CCC TGC GAC GΛG AGC GGC GGC CTC TAC 27 TGC GΛC CGC GGC CCC GΛG GΛC GGC GGC GGC GCC GGC ATC TGC ΛTG GTG CTG GAA GGG GΛC AΛC TGC GTG TTC GAT GGG ATG ATT TAC CGC 36GΛC GGC TGC GGC TGC TGC CTG GTG TGC GCC CGG CΛG CGC GGC GΛG ΛGC TGC TCC CCT CTG CTG CCC TGC GAC GΛG AGC GGC GGC CTC TAC 27 TGC GΛC CGC GGC CCC GΛG GΛC GGC GGC GGC GCC GGC ATC TGC C GTC GΛC AΛC TGC GTG TTC GAT GGG ATG ATT TAC CGC 36
AΛC GGG GΛG ΛCG TTC CΛG CCC ΛGC TGC ΛΛG TΛC CAG TGC ΛCC TGC CGG GAC GGG CΛG ATC GGG TGC CTG CCC CGC TGC AAC CTG GGC CTG 45 CTG CTC CCC GGC CCC GΛC TGC CCC TTC CCG CGG AΛG ATC GAA GTC CCC GGA GAG TGC TGC GΛG AΛG TGG GTG TGC GAC CCC AGG GAT GAA 54 GTG CTC CTG GGA GGC TTT GCT ΛTG GCT GCA TΛC AGΛ CΛG GΛG GCC ACA CTT GGG ATA GAC GTG TCT GAT TCA AGT GCC AAT TGT ATT GAA 63 CAG ΛCΛ ΛCA GΛA TGG AGT GCT TGT TCC ΛΛΛ ΛGC TGT GGΛ ΛTG GGC TTT TCT ACC CGT GTT ΛCC AΛC AGA AAT CAG CAG TGT GΛG ATG GTG 72 AAG CAG ΛCΛ CGΛ CTT TGC ΛTG ΛTG ΛGΛ CCT TGT GAA ΛΛC GAA GΛG CCA TCT GAT AAG AAA GGA ΛΛΛ AAA TGT ATC CAA ACA AAG AAA TCC 81AΛC GGG GΛG ΛCG TTC CΛG CCC ΛGC TGC ΛΛG TΛC CAG TGC ΛCC TGC CGG GAC GGG CΛG ATC GGG TGC CTG CCC CGC TGC AAC CTG GGC CTG 45 CTG CTC CCC GGC CCC GΛC TGC CCC TTC CCG CGG AΛG ATGA GAG TG TGC GΛG AΛG TGG GTG TGC GAC CCC AGG GAT GAA 54 GTG CTC CTG GGA GGC TTT GCT ΛTG GCT GCA TΛC AGΛ CΛG GΛG GCC ACA CTT GGG ATA GAC GTG TCT GAT TCA AGT GCC AAT TGT ATT GAA 63 CAG ΛAΛ TGT TCC ΛΛΛ ΛGC TGT GGΛ ΛTG GGC TTT TCT ACC CGT GTT ΛCC AΛC AGA AAT CAG CAG TGT GΛG ATG GTG 72 AAG CAG ΛCΛ CGΛ CTT TGC ΛTG ΛTG ΛGΛ CCT TGT GAA ΛΛC GAA GAA AAA GCT GAT AAA ACA AAG AAA TCC 81
ATG ΛΛA GCT GTT CGT TTT GΛA TΛC AΛG AAC TGC ΛCC AGT GTG CAG ACT TΛC AAA CCT CGT TAC TGT GGC CTC TGC AAT GAT GGG CGA TGC 90 TGT ACC CCA CAC ΛΛG ΛCC ΛΛΛ ΛCG ATT CΛΛ GTT GΛG TTC CGC TGT CCT CAG GGC AAA TTC CTA AAA AΛG CCA ATG ATG TTG ATC AAT ACC 99ATG ΛΛA GCT GTT CGT TTT GΛA TΛC AΛG AAC TGC ΛCC AGT GTG CAG ACT TΛC AAA CCT CGT TAC TGT GGC CTC TGC AAT GAT GGG CGA TGC 90 TGT ACC CCA CAC ΛΛG ΛCC ΛΛΛ ΛCG ATT CΛΛ GTT GTG CAG CG TTC CTA AAA AΛG CCA ATG ATG TTG ATC AAT ACC 99
TGT GTC TGT CΛT GGT ΛΛC TGT CCT CΛG AGT AΛC ΛΛT GCT TTC TTC CAG CCA TTA GAT CCC ATG TCT ΛGT GAA GCA AAA ATA TGAAATGTATA 10 GTTTAGGTGGCCCAΛAΛGGTATGTAGTTTGTACAAAΛCTTGACCCACAATCΛGGTGAΛTGTAATAATTGCATATGTAAAATATCTGAGATTTTTTTCTAAACAGTCTGAGTGCCTTTTT 12 TTTCCTGTAGTTTACTAΛATACCTCATGACGTTTCΛCCCCTCCAΛATGTCTTTTATTCΛTTTGΛAGGAAATTTTGTACCTTGGACAGAGCCTTCTGTTGTTTCTTGACAGTGGCATAAC 13 GΛTTACAAΛGTCAACAGCTAGTCTTTCTCTCTGAGTTTAGAGGACCTTGCCATGATTTTCAGTAGCCATAAGACTGGGCTTTTTAATAATGGATTCCTTGGGGAATGCATGATAATATG 1 TCACAΛΛΛGCTTCCΛGΛGTTTTCACTTTGAATAATGTGTACAAACACTTACACAGCCTTCTTCTTTCTGTTCAAGTTAΛATTCTTCCGGATAACTGAAAATGTTACTGATGAGAGTCTG 15 ΛATTCTTCTGGCTTΛTΛΛΛGTΛTCTTCTΛTCTGTΛCCTCTTGΛCTTTCTCTGAGGGΛTTAGTTTGCACATAGCCTCAGAAATGACATAGCTAAGATCTCGTATCTTGAAGCATAGGAGA 16TGT GTC TGT GGT CΛT ΛΛC TGT CTC AGT CΛG AΛC ΛΛT GCT TTC TTC CAG CCA TTA GAT CCC ATG TCT GCA GAA AAA ATA ΛGT TGAAATGTATA GTTTAGGTGGCCCAΛAΛGGTATGTAGTTTGTACAAAΛCTTGACCCACAATCΛGGTGAΛTGTAATAATTGCATATGTAAAATATCTGAGATTTTTTTCTAAACAGTCTGAGTGCCTTTTT 10 12 13 TTTCCTGTAGTTTACTAΛATACCTCATGACGTTTCΛCCCCTCCAΛATGTCTTTTATTCΛTTTGΛAGGAAATTTTGTACCTTGGACAGAGCCTTCTGTTGTTTCTTGACAGTGGCATAAC GΛTTACAAΛGTCAACAGCTAGTCTTTCTCTCTGAGTTTAGAGGACCTTGCCATGATTTTCAGTAGCCATAAGACTGGGCTTTTTAATAATGGATTCCTTGGGGAATGCATGATAATATG 1 TCACAΛΛΛGCTTCCΛGΛGTTTTCACTTTGAATAATGTGTACAAACACTTACACAGCCTTCTTCTTTCTGTTCAAGTTAΛATTCTTCCGGATAACTGAAAATGTTACTGATGAGAGTCTG 15 ΛATTCTTCTGGCTTΛTΛΛΛGTΛTCTTCTΛTCTGTΛCCTCTTGΛCTTTCTCTGAGGGΛTTAGTTTGCACATAGCCTCAGAAATGACATAGCTAAGATCTCGTATCTTGAAGCATAGGAGA 16
TTGATΛGÇTGATΛΛCΛΛΛTTTCTCΛTTCGTΛGCTTTΛTTAGCAGCCTΛATCCΛΛΛΛCCTΛCTGΛAGΛAAGTGTCTTACAΛGAGCTTGGTTCTAACCAGTGTCTGTCTGTAGATAAAGTA 18TTGATΛGÇTGATΛΛCΛΛΛTTTCTCΛTTCGTΛGCTTTΛTTAGCAGCCTΛATCCΛΛΛΛCCTΛCTGΛAGΛAAGTGTCTTACAΛGAGCTTGGTTCTAACCAGTGTCTGTCTGTAGATAAAGTA 18
GTTGTΛTGCAAΛAΛJΛ^ΛATTTCTGTΛΛΛTTCCTTTAAΛATACTΛACTGTΛTCΛGΛTGGTGCTTCΛCTTACTAGAAAGATGTTTATGTAAATAGAAACTGTATATATTGTAATATAACT 19GTTGTΛTGCAAΛAΛJΛ ^ ΛATTTCTGTΛΛΛTTCCTTTAAΛATACTΛACTGTΛTCΛGΛTGGTGCTTCΛCTTACTAGAAAGATGTTTATGTAAATAGAAACTGTATATATTGTAATATAACT 19
TTTΛTTΛGGTΛΛATΛΛΛCTTTΛTGTGΛTCΛΛΛATGΛΛΛAAAAAΛAAΛΛAΛΛΛAΛA -igTTTΛTTΛGGTΛΛATΛΛΛCTTTΛTGTGΛTCΛΛΛATGΛΛΛAAAAAΛAAΛΛAΛΛΛAΛA -ig
ENCHAINEMENT IILINK II
TGC GGC GGG CGC TGC CCC GCG GΛG CCG CCG CGC TGC GCC CCG GGA GTG CCC GCC GTG CTG 18 CΛC CCC TCC CGC TCC TGC CTG GTG TGC GCC CGG CAG CGC GGC GΛG Λ6C TGC TCC CCT CTG CTG CCC TGC GAC GΛG AGC GGC GGC CTC TAC 27TGC GGC GGG CGC TGC CCC GCG GΛG CCG CCG CGC TGC GCC CCG GGA GTG CCC GCC GTG CTG 18 CΛC CCC TCC CGC TCC TGC CTG GTG TGC GCC CGG CAG CGC GGC GΛG Λ6C TGC TCC CCT CTG CTG CCC TGC GAC GΛG AGC GGC TAC 27
TGC CΛC CGC GGC CCC GAG GΛC GGC CGC GGC GCC GGC ATC TGC ΛTG GTG CTG GAA GGG GΛC ΛΛC TGC GTG TTC GAT GCG ATG ATT TAC CGC 36TGC CΛC CGC GGC CCC GAG GΛC GGC CGC GGC GCC GGC ATC TGC ΛTG GTG CTG GAA GGG GΛC ΛΛC TGC GTG TTC GAT GCG ATG ATT TAC CGC 36
AAC GGG CAG ACG TTC ,CΛG CCC ΛGC TGC ΛΛG TAC 'CAG TGC ΛCC TGC CGC GAC GCG CAG ATC GGG TGC CTG CCC CGC TGC AAC CTG GCC CTG 15AAC GGG CAG ACG TTC, CΛG CCC ΛGC TGC ΛΛG TAC ' CAG TGC ΛCC TGC CGC GAC GCG CAG ATC GGG TGC CTG CCC CGC TGC AAC CTG GCC CTG 15
CTG CTC CCC GCC CCC CAC TGC CCC TTC CCG CGG AAG ATC GAA GTC CCC GGA GΛG TGC TGC GAG AAG TGG GTG TGC GAC CCC ΛGG GAT GAA 54CTG CTC CCC GCC CCC CAC TGC CCC TTC CCG CGG AAG ATC GAA GTC CCC GGA GΛG TGC TGC GAG AAG TGG GTG TGC GAC CCC ΛGG GAT GAA 54
GTG CTC CTG GGA GGC TTT GCT ATG GCT GCA TAC AGA CAG GAG GCC ACA CTT GGG ATA GAC GTG TCT GAT TCA AGT GCC AAT TCT ATT GAA 63GTG CTC CTG GGA GGC TTT GCT ATG GCT GCA TAC AGA CAG GAG GCC ACA CTT GGG ATA GAC GTG TCT GAT TCA AGT GCC AAT TCT ATT GAA 63
CAC ACA ACA GAA TGG AGT GCT TGT TCC AAA ΛGC TGT GGA ATG GGC TTT TCT ACC CGT GTT ACC AAC AGA AAT CAG CΛG TGT GAG ATG GTG 72 AAG CλG ACA CGΛ CTT TCC ΛTG ΛTG AGA CCT TGT GAA AAC GAA GAG CCA TCT GAT AAG AAA GGA AAA AAA TGT ATC CAA ACA AAGCAC ACA ACA GAA TGG AGT GCT TGT TCC AAA ΛGC TGT GGA ATG GGC TTT TCT ACC CGT GTT ACC AAC AGA AAT CAG CΛG TGT GAG ATG GTG 72 AAG CλG ACA CGΛ CTT TCC ΛTG ΛTG AGA CCT TGT GAA AAC GAA GAG TAG CC AAA GGA AAA AAA TGT ATC CAA ACA AAG
ENCHAINEMENT IIILINK III
101 111 121 131 141 151 AGGTGAGCGG GCGGGAGGCG GCGTGCCCCC GGCCCTGCGG CGGGCGCTGC CCCGCGGAGC.101 111 121 131 141 151 AGGTGAGCGG GCGGGAGGCG GCGTGCCCCC GGCCCTGCGG CGGGCGCTGC CCCGCGGAGC.
161 171 181 191 201 211 CGCCGCGCTG CGCCCCGGGA GTGCCCGCCG TGCTGGACGG CTGCGGCTGC TGCCTGGTGT161 171 181 191 201 211 CGCCGCGCTG CGCCCCGGGA GTGCCCGCCG TGCTGGACGG CTGCGGCTGC TGCCTGGTGT
221 231 241 251 261 271 GCGCCCGGCA GCGCGGCGAG AGCTGCTCCC CTCTGCTGCC CTGCGACGAG AGCGGCGGCC221 231 241 251 261 271 GCGCCCGGCA GCGCGGCGAG AGCTGCTCCC CTCTGCTGCC CTGCGACGAG AGCGGCGGCC
281 291 301 311 321 TCTACTGCGA CCGCGGCCCC GAGGACGGCG GCGGCGCCGG CATCTGCATG281 291 301 311 321 TCTACTGCGA CCGCGGCCCC GAGGACGGCG GCGGCGCCGG CATCTGCATG
ENCHAINEMENT IVLINK IV
VSGREAACPR PCGGRCPAEP PRCAPGVPAV LDGCGCCLVC ARQRGESCSP LLPCDESGGL VSGREAACPR PCGGRCPAEP PRCAPGVPAV LDGCGCCLVC ARQRGESCSP LLPCDESGGL
93 YCDRGPEDGG GAGICM
93 YCDRGPEDGG GAGICM
ENCHAINEMENT VLINK V
V A A T Q R C P P Q C P G R C 756 771 786V A A T Q R C P P Q C P G R C 756 771 786
P A T P P T C A P G V R A V L 801 816 831P A T P P T C A P G V R A V L 801 816 831
D G C S C C L V C A R Q R G E 846 861 876 S C S D L E P C D E S S G L Y 891 906 921D G C S C C L V C A R Q R G E 846 861 876 S C S D L E P C D E S S G L Y 891 906 921
C D R S A D P S N Q T G I C T
CDRSADPSNQTGICT
355 365 375 385 395 405 CTGCAGCCAA CCGGCTTGTG CGCGTCCCAG GAGCGCGCTA TAAAACCTGT GCTGGGCGTG
355 365 375 385 395 405 CTGCAGCCAA CCGGCTTGTG CGCGTCCCAG GAGCGCGCTA TAAAACCTGT GCTGGGCGTG
415 425 435 445 455 465 ATCGGCAAGC ACCGGACCAG GGGGAAGGCG AGCAGTGCCA ATCTACAGCG AAGAAAGTCT415 425 435 445 455 465 ATCGGCAAGC ACCGGACCAG GGGGAAGGCG AGCAGTGCCA ATCTACAGCG AAGAAAGTCT
MM
535 545 555 565 575 585 -2. TGTCTCGCGA AAGCAGTGCC TTTGCCTGAC CTTCCTGCTT CTCCATCTCC TGGGACAGTA x > r-\535 545 555 565 575 585 -2. TGTCTCGCGA AAGCAGTGCC TTTGCCTGAC CTTCCTGCTT CTCCATCTCC TGGGACAGTA x> r- \
595 605 615 625 635 645 M 3 3. AGTGGCACAC CCTTAAGATG CCCCCAAAGT TACTTTGCCC GCCTTGGTGG CCCCCATTTG M : 655 665 675 685 695 705 l-l GTCACCGGGC TCACTGCGTC TTCTGTCCCA GCTGAGTGGT TTCTCCTTGT CTCGCCTGCC595 605 615 625 635 645 M 3 3. AGTGGCACAC CCTTAAGATG CCCCCAAAGT TACTTTGCCC GCCTTGGTGG CCCCCATTTG M: 655 665 675 685 695 705 l-l GTCACCGGGC TCACTGCGTC TTCTGTCCCA GCTGAGTGGT TTCTCCTTGT
715 725 735 745 755 765 TTCAGGTCGC TGCGACTCAG CGCTGCCCTC CCCAGTGCCC GGGCCGGTGC CCTGCGACGC715 725 735 745 755 765 TTCAGGTCGC TGCGACTCAG CGCTGCCCTC CCCAGTGCCC GGGCCGGTGC CCTGCGACGC
775 785 795 805 815 825 CGCCGACCTG CGCCCCCGGG GTGCGCGCGG TGCTGGACGG CTGCTCATGC TGTCTGGTGT775 785 795 805 815 825 CGCCGACCTG CGCCCCCGGG GTGCGCGCGG TGCTGGACGG CTGCTCATGC TGTCTGGTGT
835 845 855 865 875 885 GTGCCCGCCA GCGTGGCGAG AGCTGCTCAG ATCTGGAGCC ATGCGACGAG AGCAGTGGCC835 845 855 865 875 885 GTGCCCGCCA GCGTGGCGAG AGCTGCTCAG ATCTGGAGCC ATGCGACGAG AGCAGTGGCC
895 905 915 925 935 945 TCTACTGTGA TCGCAGCGCG GACCCCAGCA ACCAGACTGG CATCTGCACG GGTAATCCTG895 905 915 925 935 945 TCTACTGTGA TCGCAGCGCG GACCCCAGCA ACCAGACTGG CATCTGCACG GGTAATCCTG
CTCCCTCTGC TGTTTGACCT CTTCTCCTGC AG
CTCCCTCTGC TGTTTGACCT CTTCTCCTGC AG
ENCHAINEMENT VIILINK VII
720 730 740 750 760 '770 GTCGCTGCGA CTCAGCGCTG CCCTCCCCAG TGCCCGGGCC GGTGCCCTGC GACGCCGCCG720 730 740 750 760 '770 GTCGCTGCGA CTCAGCGCTG CCCTCCCCAG TGCCCGGGCC GGTGCCCTGC GACGCCGCCG
780 790 800 810 820 830 ACCTGCGCCC CCGGGGTGCG CGCGGTGCTG GACGGCTGCT CATGCTGTCT GGTGTGTGCC780 790 800 810 820 830 ACCTGCGCCC CCGGGGTGCG CGCGGTGCTG GACGGCTGCT CATGCTGTCT GGTGTGTGCC
840 850 860 870 880 890 CGCCAGCGTG GCGAGAGCTG CTCAGATCTG GAGCCATGCG ACGAGAGCAG TGGCCTCTAC840 850 860 870 880 890 CGCCAGCGTG GCGAGAGCTG CTCAGATCTG GAGCCATGCG ACGAGAGCAG TGGCCTCTAC
900 910 920 930 TGTGATCGCA GCGCGGACCC CAGCAACCAG ACTGGCATCT GCACGG o900 910 920 930 TGTGATCGCA GCGCGGACCC CAGCAACCAG ACTGGCATCT GCACGG o
ENCHAINEMENT VIIILINK VIII
331 341 351 361 371 381 GTGCTGGAAG GGGACAACTG CGTGTTCGAT GGGATGATTT ACCGCAACGG GGAGACGTTC331 341 351 361 371 381 GTGCTGGAAG GGGACAACTG CGTGTTCGAT GGGATGATTT ACCGCAACGG GGAGACGTTC
391 401 411 421 431 441391 401 411 421 431 441
CAGCCCAGCT GCAAGTACCA GTGCACCTGC CGGGACGGGC AGATCGGGTG CCTGCCCCGCCAGCCCAGCT GCAAGTACCA GTGCACCTGC CGGGACGGGC AGATCGGGTG CCTGCCCCGC
451 461 471 481 491 501451 461 471 481 491 501
TGCAACCTGG GCCTGCTGCT CCCCGGCCCC GACTGCCCCT TCCCGCGGAA GATCGAAGTCTGCAACCTGG GCCTGCTGCT CCCCGGCCCC GACTGCCCCT TCCCGCGGAA GATCGAAGTC
511 . 521 531 541 551 561 CCCGGAGAGT GCTGCGAGAA GTGGGTGTGC GACCCCAGGG ATGAAGTGCT CCTGGGAGGC511. 521 531 541 551 561 CCCGGAGAGT GCTGCGAGAA GTGGGTGTGC GACCCCAGGG ATGAAGTGCT CCTGGGAGGC
571 TTTGCTATGG CT
571 TTTGCTATGG CT
ENCHAINEMENT IXLINK IX
109 119 129 139 149 159109 119 129 139 149 159
VLEGDNCVFD GMIYRNGETF QPSCKYQCTC RDGQIGCLPR CNLGLLLPGP DCPFPRKIEVVLEGDNCVFD GMIYRNGETF QPSCKYQCTC RDGQIGCLPR CNLGLLLPGP DCPFPRKIEV
169 179 PGECCEKWVC DPRDEVLLGG FAMA169 179 PGECCEKWVC DPRDEVLLGG FAMA
ENCHAINEMENT XLINK X
116 131 146 GCG GTA GAG GGA GAT AAC TGT GTG TTC GAT GGG GTC ATC TAC CGC A V E G D N C V F D G V I Y R 161 176 191 AGT GGA GAG AAA TTT CAG CCA AGC TGC AAA TTC CAG TGC ACC TGC S G E K F Q P S C K F Q C T C116 131 146 GCG GTA GAG GGA GAT AAC TGT GTG TTC GAT GGG GTC ATC TAC CGC A V E G D N C V F D G V I Y R 161 176 191 AGT GGA GAG AAA TTT CAG CCA AGC TGC AAA TTC CAG TGC ACC TGC S G E K F Q P S C K F Q C T C
206 221 236206 221 236
AGA GAT GGG CAG ATT GGC TGT GTG CCC CGC TGT CAG CTG GAT GTG R D G Q I G C V P R C Q L D V 251 266 281 CTA CTG CCT GAG CCT AAC TGC CCA GCT CCA AGA AAA GTT GAG GTGAGA GAT GGG CAG ATT GGC TGT GTG CCC CGC TGT CAG CTG GAT GTG R D G Q I G C V P R C Q L D V 251 266 281 CTA CTG CCT GAG CCT AAC TGC CCA GCT CCA AGA AAA GTT GAG GTG
L L P E P N C P A P R K V E V 296 311 326L L P E P N C P A P R K V E V 296 311 326
CCT GGA GAG TGC TGT GAA AAG TGG ATC TGT GGC CCA GAT GAG GAG P .G E C C E K W I C G P D E E 341CCT GGA GAG TGC TGT GAA AAG TGG ATC TGT GGC CCA GAT GAG GAG P .G E C C E K W I C G P D E E 341
GAT TCA CTG GGA GGC CTT ACC CTT GCA G
GAT TCA CTG GGA GGC CTT ACC CTT GCA G
ENCHAINEMENT XILINK XI
10 20 30 40 50 60 AAAAGGACTT GGGTTTTGGA ACATGCCCTC CAAATCTTAC ATAGCTTCTT CACTGTATTG10 20 30 40 50 60 AAAAGGACTT GGGTTTTGGA ACATGCCCTC CAAATCTTAC ATAGCTTCTT CACTGTATTG
70 80 90 100 110 120 TGTTCTTGTT TTTCCTCTTC CTCTTTGCTT TTCACTTTGC TTCCCCAATA TTCTAGCGGT70 80 90 100 110 120 TGTTCTTGTT TTTCCTCTTC CTCTTTGCTT TTCACTTTGC TTCCCCAATA TTCTAGCGGT
130 140 150 160 170 180 AGAGGGAGAT AACTGTGTGT TCGATGGGGT CATCTACCGC AGTGGAGAGA AATTTCAGCC130 140 150 160 170 180 AGAGGGAGAT AACTGTGTGT TCGATGGGGT CATCTACCGC AGTGGAGAGA AATTTCAGCC
190 200 210 220 230 240 co AAGCTGCAAA TTCCAGTGCA CCTGCAGAGA TGGGCAGATT GGCTGTGTGC CCCGCTGTCA 1-0190 200 210 220 230 240 co AAGCTGCAAA TTCCAGTGCA CCTGCAGAGA TGGGCAGATT GGCTGTGTGC CCCGCTGTCA 1-0
250 260 270 280 290 300 GCTGGATGTG CTACTGCCTG AGCCTAACTG CCCAGCTCCA AGAAAAGTTG AGGTGCCTGG250 260 270 280 290 300 GCTGGATGTG CTACTGCCTG AGCCTAACTG CCCAGCTCCA AGAAAAGTTG AGGTGCCTGG
310 320 330 340 350 360 AGAGTGCTGT GAAAAGTGGA TCTGTGGCCC AGATGAGGAG GATTCACTGG GAGGCCTTAC310 320 330 340 350 360 AGAGTGCTGT GAAAAGTGGA TCTGTGGCCC AGATGAGGAG GATTCACTGG GAGGCCTTAC
370 380 390 400 410 420 CCTTGCAGGT GAGAAACTCA ATATACCTAG GGCTGGTCAT AGTAGAGGGT AAATACAAAC370 380 390 400 410 420 CCTTGCAGGT GAGAAACTCA ATATACCTAG GGCTGGTCAT AGTAGAGGGT AAATACAAAC
430 440 450 ATGAAGAATT TGCAATCTCT TGGATTTGAA AA
430 440 450 ATGAAGAATT TGCAATCTCT TGGATTTGAA AA
ENCHAINEMENT XIILINK XII
125 135 145 155 165 . 175 GCGGTAGAGG GAGATAACTG TGTGTTCGAT GGGGTCATCT ACCGCAGTGG AGAGAAATTT125 135 145 155 165. 175 GCGGTAGAGG GAGATAACTG TGTGTTCGAT GGGGTCATCT ACCGCAGTGG AGAGAAATTT
185 195 205 215 225 235 CAGCCAAGCT GCAAATTCCA GTGCACCTGC AGAGATGGGC AGATTGGCTG TGTGCCCCGC185 195 205 215 225 235 CAGCCAAGCT GCAAATTCCA GTGCACCTGC AGAGATGGGC AGATTGGCTG TGTGCCCCGC
245 255 265 275 285 295 TGTCAGCTGG ATGTGCTACT GCCTGAGCCT AACTGCCCAG CTCCAAGAAA AGTTGAGGTG245 255 265 275 285 295 TGTCAGCTGG ATGTGCTACT GCCTGAGCCT AACTGCCCAG CTCCAAGAAA AGTTGAGGTG
305 315 325 335 345 355 CCTGGAGAGT GCTGTGAAAA GTGGATCTGT GGCCCAGATG AGGAGGATTC ACTGGGAGGC J 365 CTTACCCTTG CAG305 315 325 335 345 355 CCTGGAGAGT GCTGTGAAAA GTGGATCTGT GGCCCAGATG AGGAGGATTC ACTGGGAGGC J 365 CTTACCCTTG CAG
ENCHAINEMENT XIIILINK XIII
583 593 603 613 623 633 GCATACAGAC AGGAGGCCAC ACTTGGGATA GACGTGTCTG ATTCAAGTGC CAATTGTATT583 593 603 613 623 633 GCATACAGAC AGGAGGCCAC ACTTGGGATA GACGTGTCTG ATTCAAGTGC CAATTGTATT
643 653 663 673 683 693 GAACAGACAA CAGAATGGAG TGCTTGTTCC AAAAGCTGTG GAATGGGCTT TTCTACCCGT643 653 663 673 683 693 GAACAGACAA CAGAATGGAG TGCTTGTTCC AAAAGCTGTG GAATGGGCTT TTCTACCCGT
703 . 713 723 733 743 753 GTTACCAACA GAAATCAGCA GTGTGAGATG GTGAAGCAGA CACGACTTTG CATGATGAGA703. 713 723 733 743 753 GTTACCAACA GAAATCAGCA GTGTGAGATG GTGAAGCAGA CACGACTTTG CATGATGAGA
763 773 CCTTGTGAAA ACGAAGAGCC ATCTGATAA
763 773 CCTTGTGAAA ACGAAGAGCC ATCTGATAA
ENCHAINEMENT XIVLINK XIV
193 203 213 223 233 243193 203 213 223 233 243
AYRQEATLGI DVSDSSANCI EQTTEWSACS KSCGMGFSTR VTNRNQQCEM VKQTRLCMMRAYRQEATLGI DVSDSSANCI EQTTEWSACS KSCGMGFSTR VTNRNQQCEM VKQTRLCMMR
253 PCENEEPSDK253 PCENEEPSDK
ENCHAINEMENT XVCHAIN XV
104 119 134 GCT TAC AGG CCA GAA GCC ACC CTA GGA GTA GAA GTC TCT GAC TCA A Y R P E A T L G V E V S D S 149 164 179104 119 134 GCT TAC AGG CCA GAA GCC ACC CTA GGA GTA GAA GTC TCT GAC TCA A Y R P E A T L G V E V S D S 149 164 179
K S C G M G F S T R V T N R N KSCGMGFSTRVTNRN
239 254 269239 254 269
CGT CAA TGT GAG ATG CTG AAA CAG ACT CGG CTC TGC ATG GTG CGG R Q C E M L K Q T R L C M V RCGT CAA TGT GAG ATG CTG AAA CAG ACT CGG CTC TGC ATG GTG CGG R Q C E M L K Q T R L C M V R
284 .284.
CCC TGT G
CCC TGT G
ENCHAINEMENT XVILINK XVI
10 20 30 40 50 6010 20 30 40 50 60
ATCAGAGTCG AATGAGACCC AGTTTCTAAT AATGGCTGAA AAGGACCACT TTCCAATCCTATCAGAGTCG AATGAGACCC AGTTTCTAAT AATGGCTGAA AAGGACCACT TTCCAATCCT
70 80 90 100 110 12070 80 90 100 110 120
CACATTGATC CTAATATGGC TGTCTTTATT TATACATCCC ATAGCTTACA GGCCAGAAGCCACATTGATC CTAATATGGC TGTCTTTATT TATACATCCC ATAGCTTACA GGCCAGAAGC
130 140 150 160 170 180 CACCCTAGGA GTAGAAGTCT CTGACTCAAG TGTCAACTGC ATTGAACAGA CCACAGAGTG130 140 150 160 170 180 CACCCTAGGA GTAGAAGTCT CTGACTCAAG TGTCAACTGC ATTGAACAGA CCACAGAGTG
190 200 210 220 230 240 GACAGCATGC TCCAAGAGCT GTGGTATGGG GTTCTCCACC CGGGTCACCA ATAGGAACCG190 200 210 220 230 240 GACAGCATGC TCCAAGAGCT GTGGTATGGG GTTCTCCACC CGGGTCACCA ATAGGAACCG
250 260 270 280 290 300 TCAATGTGAG ATGCTGAAAC AGACTCGGCT CTGCATGGTG CGGCCCTGTG AACAAGAGCC250 260 270 280 290 300 TCAATGTGAG ATGCTGAAAC AGACTCGGCT CTGCATGGTG CGGCCCTGTG AACAAGAGCC
310 320 330 340 350 360 AGAGCAGCCA ACAGATAAGG TAGGAGCCTG GAGGAAACCT CCCATCCTGA AGGTAATGGC310 320 330 340 350 360 AGAGCAGCCA ACAGATAAGG TAGGAGCCTG GAGGAAACCT CCCATCCTGA AGGTAATGGC
370 380 390 400 410 420 CTTGTGTCCT TGGAGCCTGG GCTTCAGAAA GTCACTGTTG CACTCTGTGA CGGAGAGAGC370 380 390 400 410 420 CTTGTGTCCT TGGAGCCTGG GCTTCAGAAA GTCACTGTTG CACTCTGTGA CGGAGAGAGC
430 AGCTATAGCG GGGAG
430 AGCTATAGCG GGGAG
ENCHAINEMENT XVIILINK XVII
GCTTACAGGC CAGAAGCCAC CCTAGGAGTA GAAGTCTCTG ACTCAAGTGT CAACTGCATT GCTTACAGGC CAGAAGCCAC CCTAGGAGTA GAAGTCTCTG ACTCAAGTGT CAACTGCATT
173 183 193 203 213 223 GAACAGACCA CAGAGTGGAC AGCATGCTCC AAGAGCTGTG GTATGGGGTT CTCCACCCGG173 183 193 203 213 223 GAACAGACCA CAGAGTGGAC AGCATGCTCC AAGAGCTGTG GTATGGGGTT CTCCACCCGG
233 243 253 263 273 283 GTCACCAATA GGAACCGTCA ATGTGAGATG CTGAAACAGA CTCGGCTCTG CATGGTGCGG233 243 253 263 273 283 GTCACCAATA GGAACCGTCA ATGTGAGATG CTGAAACAGA CTCGGCTCTG CATGGTGCGG
293 303 313 CCCTGTGAAC AAGAGCCAGA GCAGCCAACA GATAAG293 303 313 CCCTGTGAAC AAGAGCCAGA GCAGCCAACA GATAAG
ENCHAINEMENT XVIIICHAIN XVIII
33 43 53 63 73 83 TATGGAGACG GGCGGCGGGC AGGGGCTGCC CGTCCTGCTG CTGCTCCTGC TCCTCCTCCG33 43 53 63 73 83 TATGGAGACG GGCGGCGGGC AGGGGCTGCC CGTCCTGCTG CTGCTCCTGC TCCTCCTCCG
GCCGTGCGA
GCCGTGCGA
ENCHAINEMENT XIXCHAIN XIX
10 2010 20
METGGGQGLP VLLLLLLLLR PCEMETGGGQGLP VLLLLLLLLR PCE
ENCHAINEMENT XXLINK XX
285 300 315 ATG GCA ACC CCG GGG TTC GTT CCA CTT CCC CAC CCA GCC GAT CTC M A T P G F V P L P H P A D L ω 330 345 " CCC CCT CCT CCC TGC ACT GCA GCC AAC CGG CTT P P P P C T A A N R L285 300 315 ATG GCA ACC CCG GGG TTC GTT CCA CTT CCC CAC CCA GCC GAT CTC M A T P G F V P L P H P A D L ω 330 345 "CCC CCT CCT CCC TGC ACT GCA GCC AAC CGG CTT P P P P C T A A N R L
ENCHAINEMENT XXICHAIN XXI
294 304 314 324 334 344 ATGGCAACCC CGGGGTTCGT TCCACTTCCC CACCCAGCCG ATCTCCCCCC TCCTCCCTGC294 304 314 324 334 344 ATGGCAACCC CGGGGTTCGT TCCACTTCCC CACCCAGCCG ATCTCCCCCC TCCTCCCTGC
354 ACTGCAGCCA ACCGGCTT
354 ACTGCAGCCA ACCGGCTT
ENCHAINEMENT XXIILINK XXII
TG CTG GΛA GGG GΛC ΛΛC TGC GTG TTC GAT GGG ΛTG ATT TAC CGCTG CTG GΛA GGG GΛC ΛΛC TGC GTG TTC GAT GGG ΛTG ATT TAC CGC
ΛΛC GGG GΛG ΛCG TTC CΛG CCC AGC TGC AAG TAC CΛG TGC ACC TGC CGG GAC GGG CΛG ATC GGG TGC CTG CCC CGC TGC AΛC CTG GGC CTG CTG CTC CCC GGC CCC GΛC TGC CCC TTC CCG CGG AΛG ATC GAA GTC CCC GGA GΛG TGC TGC GΛG AΛG TGG GTG TGC GAC CCC AGG GAT GAA GTG CTC CTG GGA GGC TTT GCT ΛTG GCT GCA TAC AGA CAG GΛG GCC ACA CTT GGG ΛTA GΛC GTG TCT GAT TCA AGT GCC AAT TGT ATT GAAΛΛC GGG GΛG ΛCG TTC CΛG CCC AGC TGC AAG TAC CΛG TGC ACC TGC CGG GAC GGG CΛG ATC GGG TGC CTG CCC CGC TGC AΛC CTG GGC CTG CTG CTC CCC GGC CCC GΛC TGC CCC TTC CCG CGG AΛG ATC GAA GTC TG GGA GΛG AΛG TGG GTG TGC GAC CCC AGG GAT GAA GTG CTC CTG GGA GGC TTT GCT ΛTG GCT GCA TAC AGA CAG GΛG GCC ACA CTT GGG ΛTA GΛC GTG TCT GAT TCA AGT GCC AAT TGT ATT GAA
CAG ΛCΛ ACΛ GΛΛ TGG ΛGT GCT TGT TCC AAA AGC TGT GGA ATG GGC TTT TCT ACC CGT GTT ACC AAC AGA AAT CAG CAG TGT GAG ATG GTGCAG ΛCΛ ACΛ GΛΛ TGG ΛGT GCT TGT TCC AAA AGC TGT GGA ATG GGC TTT TCT ACC CGT GTT ACC AAC AGA AAT CAG CAG TGT GAG ATG GTG
AΛG CΛG ACA CGΛ CTT TGC ΛTG ΛTG AGA CCT TGT GΛA AΛC GAA GAG CCA TCT GAT AAGAΛG CΛG ACA CGΛ CTT TGC ΛTG ΛTG AGA CCT TGT GΛA AΛC GAA GAG CCA TCT GAT AAG
ENCHAINEMENT XXIIILINK XXIII
Q I P T R I P D A L D V R V P 63 78Q I P T R I P D A L D V R V P 63 78
Q C L T S A S P T P L F P S S 108 123Q C L T S A S P T P L F P S S 108 123
S P A K D G A P C I F G G T V 153 168S P A K D G A P C I F G G T V 153 168
Y R S G Ξ S F Q S S C K Y Q C 198 213Y R S G Ξ S F Q S S C K Y Q C 198 213
T C L D G A V G C M P L C S M 243 258T C L D G A V G C M P L C S M 243 258
D V R L P S P D C P F P R R V 288 303D V R L P S P D C P F P R R V 288 303
K L P G K C C E E W V C D E P 333 346K L P G K C C E E W V C D E P 333 346
K D Q T V G P A S R V S R V 378 393K D Q T V G P A S R V S R V 378 393
F L * V R V V I L S Q G G S P 423 438F L * V R V V I L S Q G G S P 423 438
N C A D R T G E I P Y P G V DN C A D R T G E I P Y P G V D
468 483468,483
H G V C V L C S R S P T G R 513 528H G V C V L C S R S P T G R 513 528
H V W P R P N Y D * S Q L P G 558 573H V W P R P N Y D * S Q L P G 558 573
P D T E W S A C S K T C G M GP D T E W S A C S K T C G M G
603603
Y S T R V T N D N A
ENCHAINEMENT XXIVYSTRVTNDNA LINK XXIV
CTGCGTGTTCGATGGGATGATTTACCGCAACGGGGAGACGTTCCAGCCCAGCTGCAAGTACCAGTGCACCCTGCGTGTTCGATGGGATGATTTACCGCAACGGGGAGACGTTCCAGCCCAGCTGCAAGTACCAGTGCACC
350 360 370 380 390 400350 360 370 380 390 400
190 200 210 220 230 240 250 TGCCGGGACGGGCAGATCGGGTGCCTGCCCCGCTGCAACCTGGGCCTGCTGCTCCCCGGCCCCGACTGCC 420 430 440 450 460 470190 200 210 220 230 240 250 TGCCGGGACGGGCAGATCGGGTGCCTGCCCCGCTGCAACCTGGGCCTGCTGCTCCCCGGCCCCGACTGCC 420 430 440 450 460 470
CCTTCCCGCGGAAGATCGAAG-TCCCCGGAGAGTGCTGCGAGAAGTGGGTGTGCGAC 490 500 510 520 530CCTTCCCGCGGAAGATCGAAG-TCCCCGGAGAGTGCTGCGAGAAGTGGGTGTGCGAC 490 500 510 520 530
ENCHAINEMENT XXVXXV LINK
GECCEKGECCEK
ENCHAINEMENT XXVICHAIN XXVI
40 5° 60 70 80 90 100 40 5 ° 60 70 80 90 100
DGAPCIFGG VYRSGESFQSSCKYQCTCLDGAVGCMPLCSMDVRLPSPDCPFPRRVK PGKCCEEWVCDE DGAPC I FGG VY RSG E S F QSSC KY QC T C L DGA VGCMPLCSMDVRLP S PD C PFPRRVK PGKCCEEWVCDE
* -*V
* - * V
ENCHAINEMENT XXVIILINK XXVII
1 ce1 this
3 • 18 333 • 18 33
CAG ATC CCA ACT CGC ATC CCT GAC GCT CTG GAT GTG AGA GTG CCCCAG ATC CCA ACT CGC ATC CCT GAC GCT CTG GAT GTG AGA GTG CCC
48 63 7848 63 78
CAA TGC CTG ACC TCT GCA TCC CCC ACC CCT CTC TTC CCT TCC TCT 93 108 123CAA TGC CTG ACC TCT GCA TCC CCC ACC CCT CTC TTC CCT TCC TCT 93 108 123
TCT CCA GCC AAA GAT GGT GCT CCC TGC ATC TTC GGT GGT ACG GTGTCT CCA GCC AAA GAT GGT GCT CCC TGC ATC TTC GGT GGT ACG GTG
138 153 168138 153 168
TAC CGC AGC GGA GAG TCC TTC CAG AGC AGC TGC AAG TAC CAC TGCTAC CGC AGC GGA GAG TCC TTC CAG AGC AGC TGC AAG TAC CAC TGC
183 198 213183 198 213
ACG TGC CTG GAC GGG GCG GTG GGC TGC ATG CCC CTG TGC AGC ATG 228 243 258ACG TGC CTG GAC GGG GCG GTG GGC TGC ATG CCC CTG TGC AGC ATG 228 243 258
GAC GTT CGT CTG CCC AGC CCT GAC TGC CCC TTC CCG AGG AGG GTCGAC GTT CGT CTG CCC AGC CCT GAC TGC CCC TTC CCG AGG AGG GTC
273 288 303273 288 303
AAG CTG CCC GGG AAA TGC TGC GAG GAG TGG GTG TGT GAC GAG CCCAAG CTG CCC GGG AAA TGC TGC GAG GAG TGG GTG TGT GAC GAG CCC
318 333 348318 333 348
AAG GAC CAA ACC GTC CTT GGG CCT GCC TCG CGG GTG AGT CGA GTCAAG GAC CAA ACC GTC CTT GGG CCT GCC TCG CGG GTG AGT CGA GTC
363 378 393 ττc cτc TAA GTC AGG GTC GTG ATT cτc τcc CAG GGA GGG AGT ccτ 363 378 393 ττc cτc TAA GTC AGG GTC GTG ATT cτc τcc CAG GGA GGG AGT ccτ
408 423 438408 423 438
AAC TGT GCC GAC CGA ACG GGG GAA ATA CCT TAT CCA GGC GTT TTAAAC TGT GCC GAC CGA ACG GGG GAA ATA CCT TAT CCA GGC GTT TTA
453 468 483453 468 483
CAT GGT GTT TGT GTG CTC TGC TCT CGC AGC TTA CCG ACT GGA AGA 498 513 528CAT GGT GTT TGT GTG CTC TGC TCT CGC AGC TTA CCG ACT GGA AGA 498 513 528
CAC GTT TGG CCC AGA CCC AAC TAT GAT TAG AGC CAA CTG CCT GGTCAC GTT TGG CCC AGA CCC AAC TAT GAT TAG AGC CAA CTG CCT GGT
543 558 573543 558 573
CCA GAC ACA GAG TGG AGC GCC TGT TCC AAG ACC TGT GGG ATG GGCCCA GAC ACA GAG TGG AGC GCC TGT TCC AAG ACC TGT GGG ATG GGC
588 603588,603
ATC TCC ACC CGG GTT ACC AAT GAC AAC GCC TC
ENCHAINEMENT XXVIIIATC TCC ACC CGG GTT ACC AAT GAC AAC GCC TC LINK XXVIII
-. r 190 200 210 220 230 240-. r 190 200 210 220 230 240
TGCCTGGTCCAGACA-CAGAGTGGAGCGCCTGTTCCAAGACCTGTGGGATGGGCATCTGCCTGGTCCAGACA-CAGAGTGGAGCGCCTGTTCCAAGACCTGTGGGATGGGCATC
260 CCAA260 CCAA
ENCHAINEMENT XXIXCHAIN XXIX
GCTTTGCTATGGCTGCATACAGACAGGAGGCCACACTTGGGATAGACGTGTCT--G 570 580 590 600 610 GC TTTG C T A T G G C T GC AT A CA GACA G G AGGCCACACTTGGGATAGACGTGTCT - G 570 580 590 600 610
TGTATTGAACAGACAACAGAATGGAGTGCTTGTTCCAAAAGCTGTGGAATGGGCTTTGT AT T GA A CA G A CAAC AG AAT G GAGTGCTTGTTCCAAAAGCTGTGGAATGGGCTT
630 640 650 660 670 680630 640 650 660 670 680
CCAACCAA
ENCHAINEMENT XXX ENCHAINEMENLINK XXX LINK
TEWSACSKSCGMGFSTRVTNRN 70 80 210 220 TEWSACSKTCGMGITEW S A CS K SC GM G FSTRVTNRN 70 80 210 220 TEWSACSKTCGMGI
ENCHAINEMENT XXXIILINK XXXII
130 140 150 160 170 CTGCTCTCGCAGCTTACCGACTGGAAGACACGTTTGGCCCAGACCCAACTATG130 140 150 160 170 CTGCTC T C G C A GCTTACCGACTGGAAGACACGTTTGGCCCAGACCCAACTATG
0 200 210 220 230 2400 200 210 220 230 240
CTGGTCCAGACA-CAGAGTGGAGCGCCTGTTCCAAGACCTGTGGGATGGGCAT
CTGGTC C A G ACA-CAGAGTGGAGCGCCTGTTCCAAGACCTGTGGGATGGGCAT
ENCHAINEMENT XXXIII : fragment 1
LINK XXXIII: fragment 1
10 20 30 40 50 6010 20 30 40 50 60
GCTTTCTTTT TAAGGAACAG TCCTTTCTTC CCAAGAGAAC TGCTCTTTCT CTCCATTCCAGCTTTCTTTT TAAGGAACAG TCCTTTCTTC CCAAGAGAAC TGCTCTTTCT CTCCATTCCA
70 80 90 100 110 120 l ACCATGAGGT TCTAACTAAT CCCCATACTT CACCTTCCTT GTCCCCATTG ATTAGTCCAG70 80 90 100 110 120 l ACCATGAGGT TCTAACTAAT CCCCATACTT CACCTTCCTT GTCCCCATTG ATTAGTCCAG
130 140 150 160 170 180 GGTGAACCCA TCCAATTTAA TTCCTGGAAC TTTTAAAGTT GGGCCTAAGA GACAGGGACA130 140 150 160 170 180 GGTGAACCCA TCCAATTTAA TTCCTGGAAC TTTTAAAGTT GGGCCTAAGA GACAGGGACA
190 200 210 220 230 240 TTCCTTCTGT GGTGATAAGG TCATAAAGTA AGAAGATTGG AAGGATCATT TTTCCCTTAT190 200 210 220 230 240 TTCCTTCTGT GGTGATAAGG TCATAAAGTA AGAAGATTGG AAGGATCATT TTTCCCTTAT
250 260 270 280 290 300 GTGGAAGTAA TCCTGTTGGC CCTCCTCTCT CTAGATCCCA ATTGCCTCTG AGGACTCCCT250 260 270 280 290 300 GTGGAAGTAA TCCTGTTGGC CCTCCTCTCT CTAGATCCCA ATTGCCTCTG AGGACTCCCT
310 320 330 340 350 360 GTACCATTCC TGTGCTGTCA CTATGTGAAA CATCACAGCA TCCTTCCAGT AAAGTCCTCT310 320 330 340 350 360 GTACCATTCC TGTGCTGTCA CTATGTGAAA CATCACAGCA TCCTTCCAGT AAAGTCCTCT
370 380 390 400 410 420 TTTCGCAAAA ACTAGTTCAA GTTTGGTTTC CATCTCTTGC AATCAAAACT GAATAGCAAT370 380 390 400 410 420 TTTCGCAAAA ACTAGTTCAA GTTTGGTTTC CATCTCTTGC AATCAAAACT GAATAGCAAT
430 440 450 460 470 480 TTTACACTTG CAGTGACTTC TTGACATGTT AATCCTTGTC TTAAAGTTAC ATTTTCCCTG430 440 450 460 470 480 TTTACACTTG CAGTGACTTC TTGACATGTT AATCCTTGTC TTAAAGTTAC ATTTTCCCTG
490 500 510 520 530 540 TCACCACTCC CACCCCACTC TTTCCAAGAA GAGCTAGCCC AATCTCCATG TTGCCAATTT490 500 510 520 530 540 TCACCACTCC CACCCCACTC TTTCCAAGAA GAGCTAGCCC AATCTCCATG TTGCCAATTT
550 560 570 580 590 600 CTCCTTGTTC TATCTGAGTC TATTCATGCT TGGAACACTT GGCCGATGCT CTTTGCCTCC
550 560 570 580 590 600 CTCCTTGTTC TATCTGAGTC TATTCATGCT TGGAACACTT GGCCGATGCT CTTTGCCTCC
ENCHAINEMENT XXXIII fragment 1 (sui e)LINK XXXIII fragment 1 (sui e)
610 620 630 640 650 660 CCATTAGCAG TGCTTCTAGT TGCTCCATTT CAAAGTACAT TAAAATGCTG TCTACCAAGA610 620 630 640 650 660 CCATTAGCAG TGCTTCTAGT TGCTCCATTT CAAAGTACAT TAAAATGCTG TCTACCAAGA
670 680 690 700 710 720670 680 690 700 710 720
GCCACCΛCCA GAGAATCCTA CTGAGTGGGT CAAGACTGGG GCTCAGGAAT CTGTATTTTTGCCACCΛCCA GAGAATCCTA CTGAGTGGGT CAAGACTGGG GCTCAGGAAT CTGTATTTTT
••
4* 4 *
730 740 750 760 770 780 AACAAAATAC ATGCTGGTTG ATTCGATCTG CAGCCAGATG GAGGCATCAT TAGGCCAAAT730 740 750 760 770 780 AACAAAATAC ATGCTGGTTG ATTCGATCTG CAGCCAGATG GAGGCATCAT TAGGCCAAAT
GGCTTACAΛA ACCTATCAGT TTTTTTGTTT TTTGTTTTAT CTTTTTCTTA AACTTTTATT
GGCTTACAΛA ACCTATCAGT TTTTTTGTTT TTTGTTTTAT CTTTTTCTTA AACTTTTATT
850 860 870 880 890 900 TCAAGTTCAG GGGAAATGTG CAGGTTTGTT TACACAGGAA ATGTGTCATG GACATTTGTT850 860 870 880 890 900 TCAAGTTCAG GGGAAATGTG CAGGTTTGTT TACACAGGAA ATGTGTCATG GACATTTGTT
910 920 930 940 GTGCAGΛTTA TTTCATCGCC CAGGTATTAA GCCTGGTACC GAGGTACC910 920 930 940 GTGCAGΛTTA TTTCATCGCC CAGGTATTAA GCCTGGTACC GAGGTACC
10 20 30 40 50 6010 20 30 40 50 60
CΛTTAGTTAT TTTTCCCGAT CTTCTCCCTG CTCCCACCCT CCACCCTCCA AAGCCTATCACΛTTAGTTAT TTTTCCCGAT CTTCTCCCTG CTCCCACCCT CCACCCTCCA AAGCCTATCA
70 80 90 100 110 12070 80 90 100 110 120
ATTTGAΛGAG TAGGTAAATG TCCTACTCAA GAGTGCAAAT GAACTGTTTC ATCTCTAGTTATTTGAΛGAG TAGGTAAATG TCCTACTCAA GAGTGCAAAT GAACTGTTTC ATCTCTAGTT
370 380 390 400 410 420 0* ACATCACAGG CCTGTATAAT TTTCCTTAAA AAGTGTTTTT TGTTTTTTTC CAAAGCAACT 00370 380 390 400 410 420 0 * ACATCACAGG CCTGTATAAT TTTCCTTAAA AAGTGTTTTT TGTTTTTTTC CAAAGCAACT 00
3 π> a3 π> a
430 440 450 460 470 480 rt ATCCTCAAAA GAGCTGGGCA TAGTTCTCCT AGGGGCAGCA CCAGTGTTGA AGTGTGGGGG ι-o430 440 450 460 470 480 rt ATCCTCAAAA GAGCTGGGCA TAGTTCTCCT AGGGGCAGCA CCAGTGTTGA AGTGTGGGGG ι-o
490 500 510 520 530 540 GAΛACTGTTC TAAATCCTTC AAACAATGTC ACCTTTGGAG CAGTAAAACT GCTCCCTTTT490 500 510 520 530 540 GAΛACTGTTC TAAATCCTTC AAACAATGTC ACCTTTGGAG CAGTAAAACT GCTCCCTTTT
550 560 570 580 590 600 TCCCATGAGA GΛTGACAAGC ATGCCCCAGC AATCATTTCT TGAAAGCGGA TGCÇCGGTGA550 560 570 580 590 600 TCCCATGAGA GΛTGACAAGC ATGCCCCAGC AATCATTTCT TGAAAGCGGA TGCÇCGGTGA
610 620 630 640 650 660 GΛGΛAGGATT TGATTTGCTG AAGGGTCAGC CAAGTTAAGC CAGTTTCTTC CTCATTTCTT
610 620 630 640 650 660 GΛGΛAGGATT TGATTTGCTG AAGGGTCAGC CAAGTTAAGC CAGTTTCTTC CTCATTTCTT
CCCTGGCTGG AGGTTTTGAT GGTGGTGATG GTGGTTGAAC TGAACCCACT TAGAAAACTG CCCTGGCTGG AGGTTTTGAT GGTGGTGATG GTGGTTGAAC TGAACCCACT TAGAAAACTG
730 740 750 760 770 780 t*. TCΛAAGGTTT CTGGACTCTC AGGTGTGCCG TCTCACATTT GGTCTGCTAC AGCAGGTGCT s**. o730,740,750,760,770,780 t * . TCΛAAGGTTT CTGGACTCTC AGGTGTGCCG TCTCACATTT GGTCTGCTAC AGCAGGTGCT s * *. o
XX
790 800 810 820 830 840 H ss TCΛΛGGCTTT CTTCTGCCAA GATTTCTTTG TTTTATTTTA TGATGTTTTC TTTATGTGTG w790 800 810 820 830 840 H ss TCΛΛGGCTTT CTTCTGCCAA GATTTCTTTG TTTTATTTTA TGATGTTTTC TTTATGTGTG w
33
WW
-_;-_;
850 860 870 880 890 900 X TGTGTGTGTG TGTGTGTGTG TGTGTGTGTG TGTGTTTTAC TTTTATTTCT AACAAACCTG X X850 860 870 880 890 900 X TGTGTGTGTG TGTGTGTGTG TGTGTGTGTG TGTGTTTTAC TTTTATTTCT AACAAACCTG X X
910 920 930 940 950 960 TGΛCCTTGGG GTTTAAGACT GAGTGAAGCT AGAAGGATTA GAGTCAAAAG AATTTTGCCA l-h 1910 920 930 940 950 960 TGΛCCTTGGG GTTTAAGACT GAGTGAAGCT AGAAGGATTA GAGTCAAAAG AATTTTGCCA l-h 1
970 980 990 1000 1010 1020 P* OQ TTTGGCCAAT AGCATTCCCC CACCTCCTGA CATATCGATT TTTTTTCTAG ATTCCCTTCC 3 π> x- tt970 980 990 1000 1010 1020 P * OQ TTTGGCCAAT AGCATTCCCC CACCTCCTGA CATATCGATT TTTTTTCTAG ATTCCCTTCC 3 π> x- tt
1030 1040 1050 1060 1070 1080 t-o CCCTGCCACT CCCCTCCCCC CAACACACAC ACACTTTTCT CTTTCTCCTC TTTCTCTCCT1030 1040 1050 1060 1070 1080 t-o CCCTGCCACT CCCCTCCCCC CAACACACAC ACACTTTTCT CTTTCTCCTC TTTCTCTCCT
1090 1100 1110 1120 1130 1140 TTCCTCCCTT GCTTCTCTCC CCTCCCTCTC AACACATTCA ATGAGTGCCC TAAACGGTGA H* r-t (01090 1100 1110 1120 1130 1140 TTCCTCCCTT GCTTCTCTCC CCTCCCTCTC AACACATTCA ATGAGTGCCC TAAACGGTGA H * r-t (0
1150 1160 1170 1180 1190 CΛΛΛCTTGCA TGTGCTTCCC TCATGACTAA ACCCCTGGCC TTCTGCCAAT CCCCTGCAG
1150 1160 1170 1180 1190 CΛΛΛCTTGCA TGTGCTTCCC TCATGACTAA ACCCCTGGCC TTCTGCCAAT CCCCTGCAG
ENCHAINEMENT XXXIII : fragment 3
LINK XXXIII: fragment 3
10 20 30 40 50 6010 20 30 40 50 60
CTGCAGGCAT CCCGTAAGGA CCCCACGCTT GCAGCCCTGG TTGGAACGGT CAGGGTGGAGCTGCAGGCAT CCCGTAAGGA CCCCACGCTT GCAGCCCTGG TTGGAACGGT CAGGGTGGAG
70 80 90 100 110 120 GAGGATGGTG GGGAGTGGTG GTGTCTTCGT CCTGGGAGAA GGCGAAGCAA CTTCCAGGAG70 80 90 100 110 120 GAGGATGGTG GGGAGTGGTG GTGTCTTCGT CCTGGGAGAA GGCGAAGCAA CTTCCAGGAG
130 140 150 160 170 180 GAAACGGGCG TTTCCTTCCC ACGCGCTCGA GCGAGCCCTG GGTCCTGGCC TCGGAACTCC130 140 150 160 170 180 GAAACGGGCG TTTCCTTCCC ACGCGCTCGA GCGAGCCCTG GGTCCTGGCC TCGGAACTCC
4>4>
190 200 210 220 230 240 ACCCAGCCCC TCCCCACCCT CTGGGAAAAG CCAGTCGCCA CACACAGGCA CACGCAGGCC190 200 210 220 230 240 ACCCAGCCCC TCCCCACCCT CTGGGAAAAG CCAGTCGCCA CACACAGGCA CACGCAGGCC
250 260 270 280 CCGGCGCCGC GCCCTAAGGA GAGCAGCACC CACAGCCAAT TGCC250 260 270 280 CCGGCGCCGC GCCCTAAGGA GAGCAGCACC CACAGCCAAT TGCC
ENCHAINEMENT XXXIVLINK XXXIV
CGAATTTTTT AGGAATTCCT GCTGTTTGCC TCTTCAGCTA CCTACTTCCT AAAAAGGATG CGAATTTTTT AGGAATTCCT GCTGTTTGCC TCTTCAGCTA CCTACTTCCT AAAAAGGATG
70 80 90 100 110 12070 80 90 100 110 120
TATGTCAGTG GACAGAACAG GGCAAACTTA TTCGAAAAAG AAATAAGAAA TAATTGCCAGTATGTCAGTG GACAGAACAG GGCAAACTTA TTCGAAAAAG AAATAAGAAA TAATTGCCAG
130 140 150 160 170 180 TGTGTTTATA AATGATATGA ATCAGGAGTG GTGCGAAGAG GATAGGGAAA AAAAAATTCT130 140 150 160 170 180 TGTGTTTATA AATGATATGA ATCAGGAGTG GTGCGAAGAG GATAGGGAAA AAAAAATTCT
190 200 210 220 230 240 4*- ATTTGGTGCT GGAAATACTG CGCTTTTTTT TTTCCTTTTT TTTTTTTTCT GCGAGCTGGA 00190 200 210 220 230 240 4 * - ATTTGGTGCT GGAAATACTG CGCTTTTTTT TTTCCTTTTT TTTTTTTTCT GCGAGCTGGA 00
250 260 270 280 290 300250 260 270 280 290 300
TCCATTCAGC TCATTGGCGA GCGCCGCCGC CCGGAGCGTA TAAAAGCCTC GGCCGCCCGC TCCATTCAGC TCATTGGCGA GCGCCGCCGC CCGGAGCGTA TAAAAGCCTC GGCCGCCCGC
430 440 450 460 470 480 CCCAAACTCA CACAACAACT CTTCCGCTGA GAGGAGACAG CCAGTGCGAC TCCACCCTCC430 440 450 460 470 480 CCCAAACTCA CACAACAACT CTTCCGCTGA GAGGAGACAG CCAGTGCGAC TCCACCCTCC
AGCTCGACGG CAGCCGCCCC GGCCGAGAGC CCCGA
AGCTCGACGG CAGCCGCCCC GGCCGAGAGC CCCGA
ENCHAINEMENT XXXVLINK XXXV
l 10 20 30 40 50 60l 10 20 30 40 50 60
GTCGAGTGCT GTGTTCAGTT TTGGGCCCCT CACTACAAGA CATCGAGGCC ATGGAGTGTGGTCGAGTGCT GTGTTCAGTT TTGGGCCCCT CACTACAAGA CATCGAGGCC ATGGAGTGTG
70 80 90 100 110 12070 80 90 100 110 120
TCCAGAGAAG GGCACGAGGT GGTGAGGAGT CTGGAGCACA TGTTTTATTG GAAGCAGCTGTCCAGAGAAG GGCACGAGGT GGTGAGGAGT CTGGAGCACA TGTTTTATTG GAAGCAGCTG
130 140 150 160 170 180 4*- J AGGAAGTTGG GATTGTTCAG TCCGGAGAGG CTCAGGGAAA ACATTATTGC TCTTTAAAAA vO130 140 150 160 170 180 4 * - J AGGAAGTTGG GATTGTTCAG TCCGGAGAGG CTCAGGGAAA ACATTATTGC TCTTTAAAAA vO
190 200 210 220 230 240 J TCCCTGGAAG GAGGTTGTGG TGAGGTGGAG GTCGGCCTCT GCTCCCAGGT ATCAGTGATA190 200 210 220 230 240 J TCCCTGGAAG GAGGTTGTGG TGAGGTGGAG GTCGGCCTCT GCTCCCAGGT ATCAGTGATA
250 260 270 280 290 300 GGATGAGAGG GAACTGTCTT AAATTATGCC AGGGGAGTTT CAGTTTGGAT ATCAGGAACA250 260 270 280 290 300 GGATGAGAGG GAACTGTCTT AAATTATGCC AGGGGAGTTT CAGTTTGGAT ATCAGGAACA
310 320 330 340 350 360 ATTTTTTTTC TCCAAAAAAT TGGTGAGGTA CTGCCACAGT CTGCCCAGCG AGGTGGAATC310 320 330 340 350 360 ATTTTTTTTC TCCAAAAAAT TGGTGAGGTA CTGCCACAGT CTGCCCAGCG AGGTGGAATC
370 380 390 400 410 420 ACCATCCCTG GAGATGTTCA GGAAACGTGT AGATGTGGCA CTGAGGGATG TGGTTTAGTG
370 380 390 400 410 420 ACCATCCCTG GAGATGTTCA GGAAACGTGT AGATGTGGCA CTGAGGGATG TGGTTTAGTG
ENCHAINEMENT XXXV (suite)
LINK XXXV (continued)
430 440 450 460 470 480 AGΛATGGTAG GGATGGGTTG ATGGTTGGAC TAGATTAGCT TAGCGATCTT TCCAGTCATA430 440 450 460 470 480 AGΛATGGTAG GGATGGGTTG ATGGTTGGAC TAGATTAGCT TAGCGATCTT TCCAGTCATA
490 500 510 520 530 540 ACGΛTCCTGT GATCCTACGA TCCTAAGGCG CCGGCCCCAG CGGAGCAGAC CCGCAGGCTT490 500 510 520 530 540 ACGΛTCCTGT GATCCTACGA TCCTAAGGCG CCGGCCCCAG CGGAGCAGAC CCGCAGGCTT
550 560 570 580 590 600 CΛGCCCCGGA GCCCCGGCCG CGCGTCGGGA CGCGGGCAGG GCCGGGCACC GCCGGGCAGG550 560 570 580 590 600 CΛGCCCCGGA GCCCCGGCCG CGCGTCGGGA CGCGGGCAGG GCCGGGCACC GCCGGGCAGG
610 620 630 640 650 660 TGGCGGAGCA CAACGGGGAG CGGAGCGTAG GGCCCTGCCC GGCTCCAGCT CCCCGCCTCC610 620 630 640 650 660 TGGCGGAGCA CAACGGGGAG CGGAGCGTAG GGCCCTGCCC GGCTCCAGCT CCCCGCCTCC
790 ACGGCCGGGA CT790 ACGGCCGGGA CT