ES2743161T3 - Procedimiento para la ciclación biocatalítica de terpenos y mutantes de ciclasa que pueden usarse en el mismo - Google Patents

Procedimiento para la ciclación biocatalítica de terpenos y mutantes de ciclasa que pueden usarse en el mismo Download PDF

Info

Publication number
ES2743161T3
ES2743161T3 ES11785004T ES11785004T ES2743161T3 ES 2743161 T3 ES2743161 T3 ES 2743161T3 ES 11785004 T ES11785004 T ES 11785004T ES 11785004 T ES11785004 T ES 11785004T ES 2743161 T3 ES2743161 T3 ES 2743161T3
Authority
ES
Spain
Prior art keywords
seq
enzyme
isopulegol
citronelal
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11785004T
Other languages
English (en)
Inventor
Michael Breuer
Bernhard Hauer
Dieter Jendrossek
Gabriele Siedenburg
Jürgen Pleiss
Demet Sirim
Silvia Racolta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BASF SE
Original Assignee
BASF SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BASF SE filed Critical BASF SE
Application granted granted Critical
Publication of ES2743161T3 publication Critical patent/ES2743161T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/90Isomerases (5.)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07CACYCLIC OR CARBOCYCLIC COMPOUNDS
    • C07C29/00Preparation of compounds having hydroxy or O-metal groups bound to a carbon atom not belonging to a six-membered aromatic ring
    • C07C29/17Preparation of compounds having hydroxy or O-metal groups bound to a carbon atom not belonging to a six-membered aromatic ring by hydrogenation of carbon-to-carbon double or triple bonds
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07CACYCLIC OR CARBOCYCLIC COMPOUNDS
    • C07C29/00Preparation of compounds having hydroxy or O-metal groups bound to a carbon atom not belonging to a six-membered aromatic ring
    • C07C29/56Preparation of compounds having hydroxy or O-metal groups bound to a carbon atom not belonging to a six-membered aromatic ring by isomerisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P7/00Preparation of oxygen-containing organic compounds
    • C12P7/02Preparation of oxygen-containing organic compounds containing a hydroxy group
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07CACYCLIC OR CARBOCYCLIC COMPOUNDS
    • C07C2601/00Systems containing only non-condensed rings
    • C07C2601/12Systems containing only non-condensed rings with a six-membered ring
    • C07C2601/14The ring being saturated

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biotechnology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

Procedimiento para reacciones enzimáticas o biocatalíticas de compuestos de fórmula general IVa**Fórmula** en el que R1 tiene los siguientes significados: (1) cuando "a" es un doble enlace: R1 se selecciona entre: oxo (=O), o CH-(CH2)n-Z, en el que n es 0, 1 o 2 y Z es OH, CHO, C(O)-alquilo, tal como C(O)alquilo C1-C4, en particular C(O)-CH3 o C(O)-CH2CH3; COOH, C(CH2)-CH=CH2; C(OH)(CH3)-CH=CH2; C(CH3)=CH-CH=CH2; o un resto de fórmula C(CH3)=CH-CH2Y en el que Y es OH, CH2OH, COOH o CH2C(O)CH3; o (2) cuando "a" es un enlace sencillo: R1 se selecciona entre CH3; CHO; CH2CH2OH; CH=CH2; CH2C(O)OH; CH2CHO o C3H6CH(CH3)CHO; y en particular es el resto CH-(CH2)n-Z en el que n = 0 y Z = CHO, o es COOH; o es n = 1 y Z = OH; o n = 2 y Z = C(O)CH3; COOH, C(CH2)-CH=CH2; C(CH3)=CH-CH=CH2; o es un resto de fórmula C(CH3)=CH-CH2Y en la que Y es OH, CH2OH, COOH o CH2C(O)CH3; y "a" presenta dado el caso las configuraciones E o Z; o de fórmula IVb**Fórmula** en la que R1 tiene los significados indicados anteriormente; y en particular es CH2CHO; o de fórmula IVc**Fórmula** donde R1 tiene los significados indicados anteriormente y en particular es CH-CHO; y uno de los restos R7 y R8 es H y el otro es alquilo C1-C4, en donde en particular R7 es etilo y el doble enlace "a" y "d" presentan configuración Z; en donde se hace reaccionar un compuesto de fórmula IVa en forma estereoisoméricamente pura o una mezcla de estereoisómeros del mismo usando una enzima con actividad ciclasa o un mutante de enzima de la misma con actividad ciclasa o en presencia de un microorganismo que expresa esta enzima o este mutante de enzima; en donde la enzima comprende una secuencia de aminoácidos, seleccionada entre SEQ ID NO: 2 a 326 o una secuencia parcial de la misma y cataliza al menos la ciclación de un isómero de citronelal para dar al menos un isómero de isopulegol; y en donde el mutante de enzima se selecciona entre mutantes de una enzima de tipo salvaje, que comprende una secuencia de aminoácidos, seleccionada entre SEQ ID NO: 2 a 326 o una secuencia parcial de la misma; el mutante cataliza al menos la ciclación de un isómero de citronelal para dar al menos un isómero de isopulegol, y a) comprende una mutación en la posición F486 de SEQ ID NO: 2; o b) comprende una mutación en una secuencia seleccionada entre SEQ ID NO: 3 a 326, en donde la posición mutada corresponde a la posición F486 de SEQ ID NO: 2.

Description

DESCRIPCIÓN
Procedimiento para la ciclación biocatalítica de terpenos y mutantes de ciclasa que pueden usarse en el mismo La presente invención se refiere a procedimientos novedosos para la ciclación de terpenos usando ciclasas así como mutantes novedosos con actividad ciclasa.
Antecedentes de la invención
Isopulegol de fórmula (II) (2-isopropenil-5-metil-ciclohexanol), es un terpeno, que se usa como producto químico aromático, para generar "notas de flores". Además es un producto intermedio en la síntesis de mentol a partir de citral.
Figure imgf000002_0001
Los isómeros de isopulegol se encuentran en la naturaleza en un gran número de aceites esenciales. Dado que isopulegol se produce de manera relativamente fácil a partir de citronelal, del compuesto de fórmula (I) (3,7-dimetiloct-6-en-1-al), aparece con frecuencia en compañía de citronelal o bien se forma durante la obtención del aceite esencial. Isopulegol, que se prepara técnicamente a partir de (+)-citronelal, es por regla general una mezcla de distintos isómeros con una gran proporción de (-)-isopulegol.
La preparación industrial de isopulegol se realiza predominantemente mediante la ciclación química de (+)-citronelal. Originariamente se usó el 80-85 % de material de partida puro, obtenido de esencia de citronela. Desde los años noventa se sustituye éste de manera creciente por el (+)-citronelal ópticamente más puro (97,5 %) por el denominado procedimiento de Takasago. En este caso se isomeriza geranildietildiamina de manera asimétrica usando un catalizador de complejo de Rh-BINAP (complejo de Rh con 2,2'-bis(difenilfosfino)-1,1'-binaftilo) para dar (+)-citronelal.
Partiendo del citronelal se ha descrito varias veces la síntesis química de isopulegol. (+)-Citronelal puede ciclarse usando un catalizador de cobre-cromo, bromuro de cinc, cloruro de alquilaluminio, un complejo de rodio, un catalizador de ácido-base sólido, zeolita o gel de sílice. A este respecto se reemplaza el procedimiento de gel de sílice en los últimos tiempos cada vez más por el procedimiento con bromuro de cinc, dado que éste presenta una selectividad más alta.
En general se conoce la ciclación de terpenos con ayuda de ciclasas especiales. Así se cicla por ejemplo en la naturaleza escualeno con ayuda de una escualeno-hopeno-ciclasa (SHC) para dar el hopeno pentacíclico.
Las secuencias de genes y proteínas de la escualeno-hopeno-ciclasa procedente de la bacteria Zymomonas mobilis (Zm-SHC) se conocen (N.° de acceso Genpept AAV90l72 2004 y Nat Biotechnol 2005, 23:63-68, véase la SEQ ID NO:1 y 2). También Merko y col. (Tetrahedron ett. 1999, 40: 2121-2124), Füll y Poralla (FEMS Micobiol 2000, 183: 221-224) así como Reipen y col. (Microbiol. 1995, 141: 155-161) se refieren al campo técnico de las escualenohopeno ciclasas.
En la solicitud internacional PCT/EP2010/057696 (WO2010139719 A2) se proponen polipéptidos como biocatalizadores para la ciclación de homofarnesol para dar ambroxano.
La biosíntesis de numerosos monoterpenos en los correspondientes microorganismos de producción ya se aclaró. Con frecuencia se ciclan a este respecto moléculas de precursor lineales mediante biocatalizadores altamente específicos. En el caso de los precursores se trata por regla general de ésteres de alcoholes terpénicos lineales y ácido difosfórico. Un ejemplo típico de un precursor de este tipo es pirofosfato de geranilo. El grupo pirofosfato se elimina enzimáticamente de la molécula y a continuación se hidroliza en dos iones fosfato. Por otro lado se produce a este respecto un carbocatión, que ahora puede reaccionar posteriormente de manera intramolecular y, por ejemplo con disociación de un protón, se recombina para dar un monoterpeno cíclico (Curr. Opin. Chem. Biol. 2009,13: 18ü-188).
El objetivo de la presente invención era encontrar una alternativa a los procedimientos de ciclación química conocidos para terpenos, con la que fuera posible ciclar compuestos de terpeno por medio de catálisis enzimática, tal como por ejemplo el citronelal lineal para dar isopulegol.
Sumario de la invención
El objetivo anterior se soluciona mediante un procedimiento para la reacción de compuestos de fórmulas generales IVa, IVb y IVc, tal como se define en la reivindicación 1.
Descripción de las Figuras
La figura 1a muestra la secuencia de aminoácidos de tipo natural (SEQ ID NO:2) de la escualeno-hopeno-ciclasa 1 de Zymomonas mobilis (Zm-SHC-1). La posición 486 de la mutagénesis de saturación está marcada.
La figura 1b muestra la secuencia de ácido nucleico de tipo natural (SEQ ID NO:1) de Zm-SHC-1. Las posiciones 1456-1458 de la mutagénesis de saturación están marcadas.
La figura 2 muestra el rendimiento de la proteína SHC_1 WT en comparación con el mutante F486A en el desarrollo temporal con R(+)- y S(-)-citronelal 10 mM como sustrato. Está representada en cada caso la distribución porcentual de sustrato e isómeros de producto de isopulegol tras la incubación durante distintos tiempos a 30 °C. Citronelal (rombos), isopulegol I (cuadrados), isopulegol II (triángulos) e isopulegol III (cruces). La figura 3 muestra el rendimiento de los distintos mutantes de Zm-SHC-1 en comparación con el tipo natural (wt) y el control sin enzima (K) con racemato de citronelal 10 mM como sustrato. Está representada en cada caso la distribución porcentual de sustrato e isómeros de producto de isopulegol tras la incubación durante la noche a 30 °C.
La figura 4 muestra el rendimiento de los distintos mutantes de Zm-SHC-1 en comparación con el tipo natural (wt) y el control sin enzima (K) con escualeno 25 mM como sustrato en presencia del 1 % de Triton. Está representado en cada caso la distribución porcentual de escualeno y hopeno tras la incubación durante 70 h a 30 °C.
Las figuras 5 a 7 muestran la reacción de en cada caso sustrato 20 mM tras incubación durante la noche con los mutantes Ap-SHC: F481C, Bj-SHC: F447C, Sc-SHC: F449C, Zm SHC-2: F438C y Zm SHC-1 en comparación con el control; Los sustratos eran en la figura 5 racemato de citronelal, en la figura 6 R(+)-citronelal y en la figura 7 S(-)-citronelal.
Descripción detallada de la invención
A. Definiciones generales
Las "ciclasas" en el sentido de la presente invención son en general enzimas o bien mutantes de enzima, que muestran en particular la actividad de una citronelal-isopulegol-ciclasa. Como enzimas con la actividad de una citronelal-isopulegol-ciclasa son adecuadas las transferasas intramoleculares de la subclase de las isomerasas; o sea proteínas con el número EC EC 5.4. (código enzimático de acuerdo con Eur. J. Biochem. 1999, 264, 610-650). En particular se trata de representantes de EC 5.4.99.17. Como enzimas con la actividad de una citronelalisopulegol-ciclasa son adecuadas en particular aquellas ciclasas que provocan también la ciclación de homofarnesol para dar ambroxano o de escualeno para dar hopeno (por tanto también a veces la denominación "SHC" Squalen Hopen Cyclase) y que se describen en detalle en la solicitud internacional PCT/EP2010/057696. En particular, las ciclasas usadas de acuerdo con la invención son aquéllas que se han derivado mediante mutación de SHC.
Debido a la reversibilidad de las reacciones enzimáticas se refiere la presente invención a las reacciones enzimáticas descritas en el presente documento en las dos direcciones de reacción.
Los "mutantes funcionales" de una "ciclasa" comprenden los "equivalentes funcionales" de tales enzimas definidos a continuación.
El término "procedimiento biocatalítico" se refiere a aquel procedimiento realizado en presencia de actividad catalítica de una "ciclasa" usada de acuerdo con la invención o bien de una enzima con "actividad ciclasa", es decir, procedimientos en presencia de enzima bruta, o purificada, disuelta, dispersada o inmovilizada, o en presencia de células microbianas totales, que presentan o expresan actividad enzimática de este tipo. Por consiguiente, los procedimientos biocatalíticos comprenden procedimientos enzimáticos como también microbianos.
El término "estereoespecífico" significa que se produce uno de varios posibles estereoisómeros de un compuesto preparado de acuerdo con la invención con al menos un centro de asimetría mediante la acción de una enzima usada de acuerdo con la invención en alto "exceso enantiomérico" o alta "pureza enantiomérica", tal como por ejemplo al menos el 90 % de ee, en particular al menos el 95 % de ee, o al menos el 98 % de ee, o al menos el 99 % de ee. El valor de % de ee se calcula según la siguiente fórmula:
% de ee= [Xa-Xb]/[ Xa+Xb]*100,
en la que Xa y Xb representan la fracción molar de los enantiómeros A o bien B.
Los "restos del primer dominio" y los "restos del segundo dominio" son restos de aminoácido, a los que, basándose en análisis estructurales de proteína, se les asigna una especial proximidad al centro reactivo de la ciclasa. El criterio para el primer dominio es la distancia al ligando 2-azaescualeno, que está indicado en una estructura de rayos X publicada (pdb:1ump). Estos restos se han determinado automáticamente con un programa informático (http://ligin.weizmann.ac.il/cgibin/Ipccsu/LpcCsu.cgi; Sobolev V, Sorokine A, Prilusky J, Abola EE, Edelman M.
Automated analysis of interatomic contacts in proteins. Bioinformatics 1999;15(4):327-332.). Este programa parte de que dos moléculas se encuentran en contacto entre sí cuando la separación de sus átomos se corresponde con la suma de sus radios de van der Waals ± 1 A. Al segundo dominio pertenecen todos los aminoácidos que se encuentran en un radio de 5 A con respecto a cada resto del primer dominio. Los restos de este tipo parecen especialmente adecuados para la ejecución de la mutación dirigida, para modificar de manera dirigida además la actividad enzimática.
Por una "actividad ciclasa", que se determinó con un "sustrato de referencia en condiciones estándar", se encuentra por ejemplo una actividad enzimática que describe la formación de un producto cíclico a partir de un sustrato no cíclico. Las condiciones estándar son por ejemplo concentraciones de sustrato de 10 mM a 0,2 M, en particular de 15 a 100 mM, tal como por ejemplo de aproximadamente 20 a 25 mM; con pH de 4 a 8, y a temperaturas de por ejemplo 15 a 30 o de 20 a 25 °C. La determinación puede realizarse a este respecto con células recombinantes que expresan ciclasa, células accesibles que expresan ciclasa, fracciones de las mismas o enzima ciclasa enriquecida o purificada. En particular, el sustrato de referencia es un citronelal de fórmula (II); en particular R(+)-citronelal, o un racemato de citronelal, en una concentración de 15 a 100 mM o aproximadamente de 20 a 25 mM, a de 20 a 25 °C y pH 4 - 6, tal como aproximadamente 4,5; tal como se describe en más detalle también en los ejemplos.
Una posición "análoga a F486" se corresponde con la posición F486 de acuerdo con SEQ ID NO:2 en vista funcional y puede determinarse mediante alineación de secuencias de SHC de otros organismos distintos de Zymomonas mobilis tal como se explica en el presente documento. Por ejemplo, la posición análoga de F486 de SEQ ID NO:3 es la posición F449 y de SEQ ID NO:4 es la posición F481 y de SEQ ID NO:5 es la posición F447 y de SEQ ID NO:6 es la posición F438. Las correspondientes analogías se aplican para las otras posiciones de secuencia descritas de manera concreta en el presente documento para la SEQ ID NO: 2, tal como los denominados "restos del primer dominio" y "restos del segundo dominio" o del motivo DXDD y sus posiciones análogas en SEQ ID NO:3 a 326).
Los "terpenos" son hidrocarburos que están constituidos por unidades de isopreno (unidades C5), en particular terpenos no cíclicos, tal como por ejemplo escualeno, pudiéndose dividir el número de carbono entre 5.
Los "terpenoides" son sustancias que se derivan de terpenos, en particular terpenos no cíclicos, por ejemplo mediante inserción adicional de átomos de C y/o heteroátomos, tal como por ejemplo citronelal.
Los compuestos "similares a terpeno" en el sentido de la presente invención comprenden en particular aquellos compuestos que se encuentran bajo la fórmula estructural general (IV), tal como se define a continuación.
Generalmente están comprendidos de manera conjunta de acuerdo con la invención todas las formas isoméricas de los compuestos descritos en el presente documento, tal como isómeros de constitución y en particular estereoisómeros y mezclas de los mismos, tal como por ejemplo isómeros ópticos o isómeros geométricos, tal como isómeros E y Z, así como combinaciones de los mismos. Si están presentes varios centros de asimetría en una molécula, entonces la invención comprende todas las combinaciones de distintas conformaciones de estos centros de asimetría, tal como por ejemplo pares de enantiómeros.
"Mentol" comprende todas las formas estereoisoméricas tal como (+)-mentol, (+)-isomentol, (+)-neomentol, (+)-neoisomentol, (-)-mentol, (-)-isomentol, (-)-neomentol, (-)-neoisomentol y mezclas discrecionales de los mismos.
El citronelal de fórmula (II) puede obtenerse comercialmente tanto como R(+)-citronelal de fórmula (R-II) como también como S(-)-citronelal de fórmula (S-II) como también como racemato de fórmula (II).
Figure imgf000004_0001
El isopulegol de fórmula (I)
Figure imgf000004_0002
tiene en las posiciones 1, 3 y 6 en cada caso un centro ópticamente activo, de modo que son concebibles en principio 4 diastereómeros distintos con en cada caso 2 enantiómeros, o sea en total 8 estereoisómeros, cuando se parte del racemato del citronelal de fórmula (I).
Figure imgf000005_0001
El isopulegol se designa también como isopulegol I, neo-isopulegol se designa también como isopulegol II; isoisopulegol se designa también como isopulegol III; epi-isopulegol o neoiso-isopulegol se designa también como isopulegol IV;
Siempre que no se realicen indicaciones diferentes, se aplican en el presente documento las siguientes definiciones químicas generales: Alquilo así como todas las partes de alquilo en restos derivados de esto, tal como por ejemplo hidroxialquilo: restos de hidrocarburo saturados, de cadena lineal o ramificados con 1 a 4, de 1 a 6, de 1 a 8 o de 1 a 10 átomos de carbono, por ejemplo
- alquilo C 1 -C 6 : tal como metilo, etilo, propilo, 1-metiletilo, butilo, 1-metil-propilo, 2-metilpropilo, y 1,1 -dimetiletilo como representante a modo de ejemplo para alquilo C1 -C4; así como pentilo, 1-metilbutilo, 2-metilbutilo, 3-metilbutilo, 2,2-dimetilpropilo, 1-etilpropilo, hexilo, 1,1-dimetilpropilo, 1,2-dimetilpropilo, 1-metilpentilo, 2-metilpentilo, 3-metilpentilo, 4-metilpentilo, 1,1-dimetilbutilo, 1,2-dimetilbutilo, 1,3-dimetilbutilo, 2,2-dimetilbutilo, 2,3-dimetilbutilo, 3,3-dimetilbutilo, 1-etilbutilo, 2-etilbutilo, 1,1,2-trimetilpropilo, 1,2,2-trimetilpropilo, 1 -etil-1-metilpropilo y 1 -etil-2-metilpropilo.
- Hidroxi-alquilo C 1 -C 6 , que comprende hidroxi-alquilo C 1 -C 4 , tal como por ejemplo hidroximetilo, 1-o 2-hidroxietilo, 1-, 2-o 3-hidroxipropilo, 1-hidroximetiletilo, 1-, 2-, 3- o 4-hidroxibutilo, 1 -hidroximetilpropilo y 2-hidroximetilpropilo.
Alquenilo representa restos de hidrocarburo mono- o poliinsaturados, en particular monoinsaturados, de cadena lineal o ramificados con de 2 a 4, de 2 a 6, de 2 a 8, de 2 a 10 o de 2 a 20 átomos de carbono y un doble enlace en una posición discrecional, por ejemplo alquenilo C2-C6 tal como etenilo, 1-propenilo, 2-propenilo, 1-metiletenilo, 1-butenilo, 2-butenilo, 3-butenilo, 1-metil-1-propenilo, 2-metil-1-propenilo, 1-metil-2-propenilo, 2-metil-2-propenilo, 1-pentenilo, 2-pentenilo, 3-pentenilo, 4-pentenilo, 1 -metil-1 -butenilo, 2-metil-1-butenilo, 3-metil-1-butenilo, 1-metil-2-butenilo, 2-metil-2-butenilo, 3-metil-2-butenilo, 1-metil-3-butenilo, 2-metil-3-butenilo, 3-metil-3-butenilo, 1,1 -dimetil-2-propenilo, 1,2-dimetil-1-propenilo, 1,2-dimetil-2-propenilo, 1 -etil-1 -propenilo, 1 -etil-2-propenilo, 1-hexenilo, 2-hexenilo, 3-hexenilo, 4-hexenilo, 5-hexenilo, 1-metil-1-pentenilo, 2-metil-1-pentenilo, 3-metil-1-pentenilo, 4-metil-1-pentenilo, 1-metil-2-pentenilo, 2-metil-2-pentenilo, 3-metil-2-pentenilo, 4-metil-2-pentenilo, 1-metil-3-pentenilo, 2-metil-3-pentenilo, 3-metil-3-pentenilo, 4-metil-3-pentenilo, 1-metil-4-pentenilo, 2-metil-4-pentenilo, 3-metil-4-pentenilo, 4-metil-4-pentenilo, 1,1-dimetil-2-butenilo, 1,1 -dimetil-3-butenilo, 1,2-dimetil-1 -butenilo, 1,2-dimetil-2-butenilo, 1,2-dimetil-3-butenilo, 1,3-dimetil-1 -butenilo, 1,3-dimetil-2-butenilo, 1,3-dimetil-3-butenilo, 2,2-dimetil-3-butenilo, 2,3-dimetil-1-butenilo, 2,3-dimetil-2-butenilo, 2,3-dimetil-3-butenilo, 3,3-dimetil-1-butenilo, 3,3-dimetil-2-butenilo, 1-etil-1-butenilo, 1-etil-2-butenilo, 1 -etil-3-butenilo, 2-etil-1 -butenilo, 2-etil-2-butenilo, 2-etil-3-butenilo, 1,1,2-trimetil-2-propenilo, 1 -etil-1-metil-2-propenilo, 1-etil-2-metil-1-propenilo y 1-etil-2-metil-2-propenilo.
"Oxo" representa por ejemplo un resto, que junto con el átomo de carbono al que está unido forma un grupo ceto (C=O).
"Metileno" (=CH2 ) representa por ejemplo un resto, que junto con el átomo de carbono al que está unido forma un resto vinilo (-CH=CH2).
B. Configuraciones especiales de la invención
La presente invención se refiere en particular a las siguientes formas de realización especiales:
1. Procedimiento para reacciones enzimáticas o biocatalíticas de compuestos de fórmula general IVa
Figure imgf000006_0001
en el que R1 tiene los siguientes significados:
(1) cuando "a" es un doble enlace:
R1 se selecciona entre:
oxo (=O),
o
CH-(CH2)n-Z,
en el que n representa 0 , 1 o 2 y
Z representa OH, CHO, C(O)-alquilo, tal como C(O)alquilo C1-C4, en particular C(O)-CH3 o C(O)-CH2CH3 ; COOH, C(CH2)-CH=CH2;
C(OH)(CH3)-CH=CH2; C(CH3)=CH-CH=CH2 ; o un resto de fórmula
C(CH3)=CH-CH2Y
en el que
Y representa OH, CH2OH, COOH, o CH2C(O)CH3 ; o
(2 ) cuando "a" es un enlace sencillo:
R1 se selecciona entre
CH3; CHO; CH2CH2OH; CH=CH2 ; CH2C(O)OH; CH2CHO o C3HaCH(CH3)CHO;
y en particular representa
el resto CH-(CH2)n-Z
en el que
n = 0 y Z = CHO, o es COOH; o
o es n = 1 y Z = OH; o
n = 2 y Z = C(O)CH3 ; COOH, C(CH2)-CH=CH2 ; C(CH3)=CH-CH=CH2 ; o es un resto de fórmula C(CH3)=CH-CH2Y
en el que Y representa OH, CH2OH, COOH, o CH2C(O)CH3;
y "a" presenta dado el caso configuración E o Z;
o de fórmula IVb
Figure imgf000006_0002
en el que R1 tiene los significados indicados anteriormente; y en particular representa CH2CHO;
o de fórmula IVc
Figure imgf000007_0001
en el que
Ri tiene los significados indicados anteriormente y en particular representa CH-CHO; y uno de los restos R7 y R8 representa H y el otro representa alquilo C1-C4, en el que en particular R7 representa etilo y el doble enlace "a" y "d" presentan configuración Z;
en el que se hace reaccionar un compuesto de fórmula IVa en forma estereoisoméricamente pura o una mezcla de estereoisómeros del mismo usando una enzima con actividad ciclasa o un mutante de enzima de la misma con actividad ciclasa o en presencia de un microorganismo que expresa esta enzima o este mutante de enzima;
en el que la enzima comprende una secuencia de aminoácidos, seleccionada entre SEQ ID NO: 2 a 326 o una secuencia parcial de la misma y cataliza al menos la ciclación de un isómero de citronelal para dar al menos un isómero de isopulegol; y
en el que el mutante de enzima se selecciona entre mutantes de una enzima de tipo natural, que comprende una secuencia de aminoácidos, seleccionada entre SEQ ID NO: 2 a 326 o una secuencia parcial de la misma; en el que el mutante cataliza al menos la ciclación al menos de un isómero de citronelal (o de una mezcla de isómeros, tal como por ejemplo racemato) de acuerdo con la definición anterior para dar al menos un isómero de isopulegol (o para dar un par de diastereómeros I a IV, tal como por ejemplo I y /o II) de acuerdo con la definición anterior, en el que la secuencia parcial o forma corta de la ciclasa comprende por ejemplo al menos 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650 o 700 restos de aminoácido contiguos de una de estas secuencias, y por ejemplo es accesible mediante acortamiento en el extremo N- y/o C-terminal de las secuencias concretas, y
a) comprende una mutación en la posición F486 de SEQ ID NO: 2 o
b) comprende una mutación en una secuencia seleccionada entre SEQ ID NO: 3 a 326, en el que la posición mutada corresponde a la posición F486 de SEQ ID NO: 2 (es decir es una posición "análoga a F486");
en el que mediante la mutación se permite al menos la ciclación al menos de un isómero de citronelal para dar al menos un isómero de isopulegol (es decir que la correspondiente proteína de partida o de tipo natural no catalizó esta reacción) o se modifica, (es decir que la correspondiente proteína de partida o de tipo natural catalizó esta reacción, sin embargo por ejemplo con rendimiento de producto, tasa de conversión y/o estereoespecificidad más bajos). También la secuencia parcial o forma corta de la ciclasa presenta a este respecto esta mutación típica de la ciclasa en una posición que se corresponde con F486 de SEQ ID NO: 2. por ejemplo, una versión acortada en el extremo N-terminal de la ciclasa de acuerdo con SEQ ID NO: 2 representa un ejemplo de una versión corta de este tipo. Ésta está caracterizada por el siguiente extremo N-terminal: (M)KIFGAEKTSYKPASDTIIGTDTLKRPN correspondiéndose la K en el extremo N-terminal con la posición 16 de SEQ ID NO:2.
2. Procedimiento según la forma de realización 1, en el que la enzima tiene una secuencia de polipéptidos, que o bien
a) es SEQ ID NO:2, o
b) en el que hasta el 25 % de los restos de aminoácido están modificados en comparación con SEQ ID NO:2 mediante deleción, inserción, sustitución o una combinación de los mismos, y que presenta aún al menos el 50 % de la actividad enzimática de SEQ ID NO:2.
3. Procedimiento según una de las formas de realización mencionadas anteriormente, en el que se usa un mutante de enzima, en el que se han modificado hasta el 25 % o hasta el 20, 15, 10, 9, 8, 7, 6, 54, 3, 2 o 1 % de los restos de aminoácido, tal como por ejemplo de 1 a 30, de 2 a 25, de 3 a 20 o de 4 a 15 o de 5 a 10 de los restos de aminoácido, en cada caso en comparación con la secuencia de tipo natural o mutada de acuerdo con SEQ ID NO: 2 a 326, mediante deleción, inserción, sustitución, adición, inversión o una combinación de los mismos.
4. Procedimiento según una de las formas de realización mencionadas anteriormente, en el que se usa un mutante de enzima, en el que la mutación en la posición F486 de SEQ ID NO:2 o en una posición que corresponde a esta posición en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326, es una sustitución seleccionada entre F486N, F486Q, F486L, F486M, F486E, F486G, F486S, F486V, F486T, F486C, F486I y F486A.
5. Procedimiento según una de las formas de realización mencionadas anteriormente, en el que se usa un mutante de enzima, en el que adicionalmente al menos una, tal como por ejemplo 1, 2, 3, 4, 5, 6, 7 u 8, mutaciones se encuentra en una de las posiciones W374, D437, D440, F428, w 555, Y561, Y702, Y705 (los denominados "restos del primer dominio") de la SEQ ID NO: 2 o en al menos una correspondiente posición, seleccionada de estas posiciones, en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326.
6. Procedimiento según una de las formas de realización mencionadas anteriormente, en el que se usa un mutante de enzima, en el que no se encuentra ninguna mutación en la posición D437 y/o D439 y/o D440 de SEQ ID NO: 2 (motivo DXDD) o de la correspondiente posición en cada caso en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326.
7. Procedimiento según una de las formas de realización mencionadas anteriormente, en el que se usa un mutante de enzima, en el que no se encuentra ninguna mutación en la posición Y702 de SEQ ID NO: 2 o en la correspondiente posición en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326, o en el caso de que se encuentre una mutación, ésta es una sustitución de Y702F o dado el caso Y702E o Y702D o correspondiente sustitución.
8. Procedimiento según una de las formas de realización mencionadas anteriormente, en el que se usa un mutante de enzima, que dado el caso además está mutado en al menos una, tal como por ejemplo 1 a 15, 1 a 10 o 1 a 5, tal como 1, 2, 3 o 4, de las posiciones P229, D439, D508, E601, G553, G556, N432, P436, P499, R224, S371, T376, T563, W414 o W624 (los denominados "restos del segundo dominio") de SEQ ID NO: 2 o en al menos una correspondiente posición, seleccionada de estas posiciones, en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326; así como dado el caso otra mutación en la posición E429, L700 y R554 de SEQ ID NO: 2 o las posiciones análogas de SEQ ID NO: 3 a 326.
9. Procedimiento según una de las formas de realización mencionadas anteriormente, en el que se usa un mutante de enzima, seleccionado entre
a) los mutantes sencillos
F486X con X = N, Q, L, M, E, G, S, V, T, C, I o A de acuerdo con SEQ ID NO: 2 o una versión corta de la misma; Y702X con X = F, A, C o S de acuerdo con SEQ ID NO: 2 o una versión corta de la misma;
Y561X con X= A o S de acuerdo con SEQ ID NO: 2 o una versión corta de la misma;
en el que la versión corta comprende por ejemplo la siguiente secuencia en el extremo N-terminal: (M)KIFGAEKTSYKPASDTIIGTDTLKRPN.....
b) los mutantes múltiples F486A / Y702A, F486A / Y561A o F486A / Y705A de acuerdo con SEQ ID NO: 2 c) los mutantes que corresponden a a) o b), derivados de una de la SEQ ID NO: 3 a 325.
10. Procedimiento según una de las formas de realización mencionadas anteriormente, en el que se usa un mutante de enzima, que muestra al menos el 50 %, tal como por ejemplo del 50 al 100% o más del 100%, tal como por ejemplo >100 al 1000%, en cada caso determinado en condiciones estándar usando un sustrato de referencia, de la actividad citronelal-isopulegol-ciclasa de una enzima, que comprende una secuencia de aminoácidos de acuerdo con SEQ ID NO: 2 de posición 1 a 725, de 2 a 725 o de 16 a 725, dado el caso alargada en el extremo N-terminal mediante un resto de metionina.
11. Procedimiento según la forma de realización 10, en el que la actividad citronelal-isopulegol-ciclasa se determina usando un citronelal, tal como por ejemplo el racemato o la forma R(+), como sustrato de referencia en condiciones estándar.
12. Procedimiento según una de las formas de realización mencionadas anteriormente, en el que se realiza la mutación en una enzima, que comprende una secuencia de aminoácidos de acuerdo con SEQ ID NO: 2 de posición 1 a 725, de 2 a 725 o de 16 a 725, dado el caso alargada en el extremo N-terminal mediante un resto de metionina.
13. Secuencia de ácido nucleico. que codifica un mutante según una de las formas de realización anteriores. (no objeto de la invención)
14. Casete de expresión, que comprende una secuencia de ácido nucleico según la forma de realización 13. (no objeto de la invención)
15. Vector recombinante, que comprende bajo el control al menos de un elemento regulador al menos una secuencia de ácido nucleico según la forma de realización 13 o al menos un casete de expresión según la forma de realización 14. (no objeto de la invención)
16. Microorganismo recombinante, que contiene al menos una secuencia de ácido nucleico según la forma de realización 13 o al menos un casete de expresión según la forma de realización 14 o al menos un vector según la forma de realización 15. (no objeto de la invención)
17. (eliminado)
18. (eliminado)
19. (eliminado)
20. (eliminado)
21. (eliminado)
22. (eliminado)
23. Procedimiento según una de las formas de realización 1 a 12, en el que el compuesto de fórmula IVa, b o c se selecciona entre citronelal; citral; farnesol; homofarnesol; derivados de homofarnesol, tal como ácido homofarnesílico; geranilacetona, melonal; nonadienal; y trimetildecatetraeno.
24. Uso de una enzima de la clase EC EC 5.4.99, en particular de la clase EC EC 5.4.99.17 o un mutante de enzima según una de las formas de realización 1 a 12, para la reacción de compuestos de fórmula general IVa, b o c de acuerdo con la definición en la forma de realización 1.
C. Otras configuraciones de la invención
1. Secuencias de tipo natural especialmente adecuadas
Las secuencias de tipo natural de SCH que pueden usarse de acuerdo con la invención, su SEQ ID NO, organismo fuente, número de referencia de Genbank, el resto de aminoácido ("Aa") "que se corresponde con" la posición F486 de SEQ ID NO:2, es decir análogo a F486, y su posición de secuencia están resumidos en la siguiente tabla. Las indicaciones se basan a este respecto en una alineación de secuencias, que se construyó de la siguiente manera: programa: CLUSTALW,
parámetros por defecto:
penalización de apertura de huecos de proteína 10.0
penalización de extensión de huecos de proteína 0.2
matriz de peso de proteína: series Gonnet
Figure imgf000009_0001
continuación
Figure imgf000010_0001
continuación
Figure imgf000011_0001
continuación
Figure imgf000012_0001
continuación
Figure imgf000013_0001
continuación
Figure imgf000014_0001
continuación
Figure imgf000015_0001
Partiendo de esto pueden prepararse por medio del hallazgo de mutantes de Zm-SHC-1, otros posibles mutantes de ciclasa con las propiedades de sustrato deseadas.
2. Otras proteínas/mutantes de enzima que pueden usarse de acuerdo con la invención
El procedimiento de acuerdo con la invención no está limitado a los mutantes divulgados de manera concreta en el presente documento, con actividad ciclasa, sino que se extiende más bien también a equivalentes funcionales de los mismos.
Los "equivalentes funcionales" o análogos de las enzimas y mutantes de enzima divulgados de manera concreta (mutantes de F486 y "análogos a F486", derivados de SEQ ID NO:2 a 326, en particular SEQ ID NO: 2 a 6) son en el marco de la presente invención polipéptidos distintos de esto, que tienen además la actividad biológica deseada, tal como por ejemplo actividad ciclasa.
De este modo, por ejemplo por "equivalentes funcionales" se entienden enzimas y mutantes, que presentan en un ensayo usado para determinar la "actividad ciclasa" en el sentido de la invención (es decir con un sustrato de referencia en condiciones estándar) una actividad de una enzima más alta o más baja en al menos el 1%, en particular en al menos aproximadamente del 5 al 10 % tal como por ejemplo al menos el 10% o al menos el 20 %, tal como por ejemplo al menos el 50 % o 75% o 90 %, que comprende una secuencia de aminoácidos definida de manera concreta en el presente documento (por ejemplo un mutante F486 y "análogo a F486", derivado de SEQ ID NO:2 a 326; en particular SEQ ID NO: 2 a 6).
Las indicaciones de actividad para equivalentes funcionales se refieren en el presente documento, cuando no se indique lo contrario, a determinaciones de actividad, realizadas por medio de un sustrato de referencia en condiciones estándar, tal como se define en el presente documento.
La "actividad ciclasa" en el sentido de la invención puede detectarse con ayuda de distintos ensayos conocidos. Sin estar limitado a esto, puede mencionarse un ensayo usando sustrato de referencia, tal como por ejemplo racemato de citronelal o forma R(+), en condiciones estándar, tal como se ha descrito anteriormente y es explica en la parte experimental.
Los equivalentes funcionales son estables además por ejemplo entre pH 4 a 11 y tienen ventajosamente un valor óptimo de pH en un intervalo de pH 5 a 10, tal como en particular de 6,5 a 9,5 o de 7 a 8 o aproximadamente en 7,5, así como un valor óptimo de temperatura en el intervalo de 15°C a 80°C o de 20°C a 70°C, tal como por ejemplo aproximadamente de 30 a 60°C o aproximadamente de 35 a 45°C, tal como aproximadamente en 40°C.
Por "equivalentes funcionales" se entiende en el marco de la presente invención en particular también "mutantes", que, además de la(s) mutación (mutaciones) mencionada(s) de manera concreta (por ejemplo un mutante F486 y "análogo a F486", derivados de SEQ ID NO:2 a 326, en particular SEQ ID NO: 2 a 6), en al menos una posición de secuencia de las secuencias de aminoácidos mencionadas anteriormente presentan un aminoácido distinto del aminoácido mencionado en concreto pero, a pesar de ello, tienen una de las actividades biológicas mencionadas anteriormente.
Los "equivalentes funcionales" comprenden los mutantes que pueden obtenerse mediante una o varias, tal como por ejemplo de 1 a 50, de 2 a 30, de 2 a 15, de 4 a 12 o de 5 a 10 "mutaciones adicionales", tal como adiciones, sustituciones, deleciones y/o inversiones de aminoácidos, pudiéndose producir las modificaciones mencionadas en cualquier posición de secuencia, siempre que conduzcan a un mutante con el perfil de propiedades adecuado para su uso en el procedimiento de acuerdo con la invención. Equivalencia funcional se da en particular también entonces cuando los patrones de reactividad entre mutante y polipéptido no modificado coinciden cualitativamente, es decir, por ejemplo se hacen reaccionar sustratos iguales con diferente velocidad.
Las "mutaciones adicionales" de este tipo se realizan a este respecto en una posición de la respectiva secuencia de aminoácidos distinta de la posición F486 de acuerdo con SEQ ID NO:2 o de la posición análoga a F486 de acuerdo con una de SEQ ID NOs: 3 a 326, en particular SEQ ID NO: 3 a 6.
Ejemplos no limitativos de sustituciones de aminoácidos adecuadas están resumidas en la siguiente tabla:
Resto original Ejemplos de sustitución
Ala Ser
Arg Lys
Asn Gln; His
Asp Glu
Cys Ser
Gln Asn
Glu Asp
Gly Pro
His Asn; Gln
Ile Leu; Val
Leu Ile; Val
Lys Arg; Gln; Glu
Met Leu; Ile
Phe Met; Leu; Tyr
Ser Thr
Thr Ser
Trp Tyr
Tyr Trp; Phe
Val Ile; Leu
"Equivalentes funcionales" en el sentido anterior son también "precursores" de los polipéptidos descritos así como "derivados funcionales" y "sales" de los polipéptidos.
"Precursores" son a este respecto etapas previas naturales o sintéticas de los polipéptidos con o sin la actividad biológica deseada.
Por la expresión "sales" se entiende tanto sales de grupos carboxilo como también sales de adición de ácido de grupos amino de las moléculas de proteína usadas de acuerdo con la invención. Las sales de grupos carboxilo pueden prepararse de manera en sí conocida y comprenden sales inorgánicas, tal como por ejemplo sales de sodio, calcio, amonio, hierro y cinc, así como sales con bases orgánicas, tal como por ejemplo aminas, tal como trietanolamina, arginina, lisina, piperidina y similares. Las sales de adición de ácido, tal como por ejemplo sales con ácidos minerales, tal como ácido clorhídrico o ácido sulfúrico y sales con ácidos orgánicos, tal como ácido acético y ácido oxálico están igualmente comprendidas de manera conjunta.
"Derivados funcionales" de los polipéptidos usados de acuerdo con la invención pueden prepararse asimismo en grupos laterales de aminoácido funcionales o en sus extremos N o C terminales con ayuda de técnicas conocidas. Los derivados de este tipo comprenden por ejemplo ésteres alifáticos de grupos ácido carboxílico, amidas de grupos ácido carboxílico, que pueden obtenerse mediante reacción con amoniaco o con una amina primaria o secundaria; derivados de N-acilo de grupos amino libres, preparados mediante reacción con grupos acilo; o derivados de O-acilo de grupos hidroxi libres, preparados mediante reacción con grupos acilo.
Los "equivalentes funcionales" abarcan naturalmente también polipéptidos a los que puede accederse a partir de otros organismos, así como variantes que existen naturalmente. Por ejemplo, mediante comparación de secuencias puede establecerse zonas de regiones de secuencia homólogas y siguiendo las especificaciones en el sentido de la invención pueden averiguarse enzimas equivalentes.
Los "equivalentes funcionales" abarcan asimismo fragmentos, preferentemente dominios o motivos de secuencia individuales, de los polipéptidos usados de acuerdo con la invención, que presentan por ejemplo la función biológica deseada.
Los "equivalentes funcionales" son además proteínas de fusión que presentan una de las secuencias de polipéptidos mencionadas anteriormente o equivalentes funcionales derivados de las mismas y al menos otra secuencia heteróloga, funcionalmente distinta de esto, en enlace N o C terminal funcional (es decir, sin alteración funcional esencial recíproca de las partes de proteína de fusión). Ejemplos no limitativos de secuencias heterólogas de este tipo son por ejemplo péptidos señal, ancla de histidina o enzimas.
Los "equivalentes funcionales" comprendidos de manera conjunta en el sentido de la invención son homólogos a las proteínas divulgadas de manera concreta. Éstas tienen al menos el 60 %, preferentemente al menos el 75 %, en particular al menos el 85 %, tal como por ejemplo el 90, 91, 92, 93, 94, 95, 96, 97,98 o 99 %, de homología (o bien identidad) con respecto a una de las secuencias de aminoácidos divulgadas de manera concreta, calculada según el algoritno de Pearson y Lipman, Proc. Natl. Acad, Sci. (USA) 85(8), 1988, 2444-2448. Una homología o bien identidad porcentual de un polipéptido homólogo usado de acuerdo con la invención significa en particular identidad porcentual de los restos de aminoácido con respecto a la longitud total de una de las secuencias de aminoácidos descritas de manera concreta en el presente documento. En particular presentan estos homólogos sin embargo además la mutación de F486 o "análoga a F486", derivados de SEQ ID NO:2 a 326, en particular SEQ ID NO: 2 a 6.
Los valores de identidad porcentual pueden determinarse también por medio de alienaciones BLAST, algoritmo blastp (proteinprotein BLAST), o mediante aplicación de los ajustes en clustal indicado.
En el caso de una posible glicosilación de proteína, los "equivalentes funcionales" abarcan proteínas del tipo designado anteriormente en forma desglicosilada o glicosilada así como formas diferentes que pueden obtenerse mediante modificación del patrón de glicosilación.
Los homólogos de las proteínas o polipéptidos usados de acuerdo con la invención pueden generarse mediante mutagénesis, por ejemplo mediante mutación puntual, alargamiento o acortamiento de la proteína.
Los homólogos de las proteínas usadas de acuerdo con la invención pueden identificarse mediante selección de bancos combinatorios de mutantes, tal como por ejemplo mutantes de acortamiento. Por ejemplo puede generarse un banco variado de variantes de proteína mediante mutagénesis combinatoria en el plano de ácido nucleico, tal como por ejemplo mediante ligación enzimática de una mezcla de oligonucleótidos sintéticos. Existe una pluralidad de procedimientos que pueden usarse para la preparación de bancos de homólogos potenciales a partir de una secuencia de oligonucleótidos degenerada. La síntesis química de una secuencia génica generada puede llevarse a cabo en un sintetizador automático de ADN, y el gen sintético puede ligarse entonces en un vector de expresión adecuado. El uso de un conjunto de genes degenerado permite la provisión de todas las secuencias en una mezcla, que codifican el conjunto deseado de secuencias de proteína potenciales. Procedimientos para la síntesis de oligonucleótidos degenerados son conocidos por el experto en la materia (por ejemplo Narang, S.A. (1983) Tetrahedron 39:3; Itakura y col. (1984) Annu. Rev. Biochem. 53:323; Itakura y col., (1984) Science 198:1056; Ike y col. (1983) NucleicAcids Res. 11:477).
En el estado de la técnica se conocen varias técnicas para la selección de productos génicos de bancos combinatorios, que se han preparado mediante mutaciones puntuales o acortamiento, y para la selección de bancos de ADNc con respecto a productos génicos con una propiedad seleccionada. Estas técnicas pueden adaptarse a la selección rápida de los bancos de genes, que se han generado mediante mutagénesis combinatoria de homólogos usados de acuerdo con la invención. Las técnicas usadas con la mayor frecuencia para la selección de grandes bancos de genes, que están sujetas a un análisis con alto rendimiento, comprenden la clonación del banco de genes en vectores de expresión replicables, transformación de células adecuadas con el banco de vectores resultante y expresión de los genes recombinantes en condiciones en las que la detección de la actividad deseada facilita el aislamiento del vector que codifica el gen cuyo producto se detectó. La Recursive-Ensemble-Mutagenese (REM) (mutagénesis de conjunto recursiva), una técnica que amplía la frecuencia de mutantes funcionales en los bancos, puede usarse en combinación con las pruebas de selección para identificar homólogos (Arkin y Yourvan (1992) PNAS 89:7811-7815; Delgrave y col. (1993) Protein Engineering 6(3):327-331).
3. Ácidos nucleicos y constructos
3.1 Ácidos nucleicos
En el presente documento se describen también secuencias de ácido nucleico, que codifican una enzima tal como se ha descrito anteriormente o bien un mutante de la misma descrito anteriormente con actividad ciclasa.
Esto se refiere también a ácidos nucleicos con un grado de identidad determinado con respecto a las secuencias concretas descritas en el presente documento.
Por "identidad" entre dos ácidos nucleicos se entiende la identidad de los nucleótidos por la longitud del ácido nucleico en cada caso total, en particular la identidad, que se calcula mediante comparación con ayuda del software Vector NTI Suite 7.1 de la empresa Informax (EE.UU.) con aplicación del procedimiento Clustal (Higgins DG, Sharp PM. Fast and sensitive multiple sequence alignments on a microcomputer. Comput Appl. Biosci. 1989 Apr;5(2):151-1) con ajuste de los siguientes parámetros:
Parámetros de alineación múltiple:
penalización de apertura de huecos 10
penalización de extensión de huecos 10
intervalo de penalización de separación g
de huecos
penalización de separación de huecos apagado
% de identidad para el retraso de ^
alineación
huecos específicos de residuo apagado
hueco de residuo hidrofílico apagado
ponderación de transición 0
Parámetros de alineación por parejas:
algoritmo FAST encendido
tamaño K-túple 1
penalización de huecos 3
tamaño de ventana 5
número de mejores diagonales 5
Como alternativa a esto puede determinarse la identidad también según Chenna, Ramu, Sugawara, Hideaki, Koike,Tadashi, Lopez, Rodrigo, Gibson, Toby J, Higgins, Desmond G, Thompson, Julie D. Multiple sequence alignment with the Clustal series of programs. (2003) Nucleic Acids Res 31 (13):3497-500, de acuerdo con la dirección de internet: http://www.ebi.ac.uk/Tools/clustalw/index.html# y con los siguientes parámetros:
penalización de apertura de huecos de ADN 15.0
penalización de extensión de huecos de ADN 6.66
matriz de ADN identidad
penalización de apertura de huecos de proteína 10.0
penalización de extensión de huecos de proteína 0.2
matriz de proteína Gonnet
proteína/ADN ENDGAP -1
proteína/ADN GAPDIST 4
Todas las secuencias de ácido nucleico mencionadas en el presente documento (secuencias de ADN y ARN monoy bicatenarios, tales como por ejemplo ADNc y ARNm) pueden prepararse de manera en sí conocida mediante síntesis química de los módulos de nucleótidos, tal como por ejemplo mediante condensación de fragmentos de módulos de ácido nucleico individuales, solapantes, complementarios de la doble hélice. La síntesis química de oligonucleótidos puede realizarse por ejemplo, de manera conocida, según el procedimiento de fosfoamidita (Voet, Voet, 2a edición, Wiley Press New York, páginas 896-897). La adición de oligonucleótidos sintéticos y la compleción de huecos con ayuda del fragmento de la ADN polimerasa y reacciones de ligación así como procedimientos de clonación generales se describen en Sambrook y col. (1989), Molecular Cloning: A laboratory manual, Cold Spring Harbor Laboratory Press.
En el presente documento se describen también secuencias de ácido nucleico (secuencias de ADN y ARN mono- y bicatenarios, tales como por ejemplo ADNc y ARNm), que codifican uno de los polipéptidos anteriores y sus equivalentes funcionales, que son accesibles por ejemplo usando análogos sintéticos de nucleótidos.
Están comprendidas conjuntamente tanto moléculas de ácido nucleico aisladas, que codifican polipéptidos o bien proteínas usados de acuerdo con la invención o fragmentos biológicamente activos de los mismos, como también fragmentos de ácido nucleico, que pueden usarse por ejemplo para su uso como sondas de hibridación o cebadores para la identificación o amplificación de ácidos nucleicos codificantes descritos en el presente documento.
Las moléculas de ácido nucleico descritas en el presente documento pueden contener además secuencias no traducidas del extremo 3' y/o 5' de la región génica codificante.
Además están comprendidas conjuntamente las moléculas de ácido nucleico complementarias a las secuencias de nucleótidos descritas de manera concreta o un fragmento de las mismas.
Las secuencias de nucleótidos descritas en el presente documento permiten la generación de sondas y cebadores, que pueden usarse para la identificación y/o clonación de secuencias homólogas en otros tipos de célula y organismos. Tales sondas o bien cebadores comprenden habitualmente una región de secuencia de nucleótidos, que en condiciones "rigurosas" (véase a continuación) se hibrida en al menos aproximadamente 12, preferentemente al menos aproximadamente 25, tal como por ejemplo aproximadamente 40, 50 o 75 nucleótidos sucesivos de una cadena sentido de una secuencia de ácido nucleico descrita en el presente documento o de una cadena antisentido correspondiente.
Una molécula de ácido nucleico "aislada" se separa de otras moléculas de ácido nucleico, que están presentes en la fuente natural del ácido nucleico y además puede estar esencialmente libre de otro material celular o medio de cultivo, cuando se prepara mediante técnicas recombinantes, o puede estar libre de precursores químicos u otros productos químicos, cuando se sintetiza químicamente.
Una molécula de ácido nucleico puede aislarse por medio de técnicas convencionales de biología molecular y de la información de secuencia facilitada. Por ejemplo puede aislarse ADNc de un banco de ADNc adecuado, usándose una de las secuencias completas divulgadas en concreto o un fragmento de las mismas como sonda de hidridación y técnicas de hibridación convencionales (tal como se describe por ejemplo en Sambrook, J., Fritsch, E.F. y Maniatis, T. Molecular Cloning: A Laboratory Manual. 2a ed., Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1989). Además puede aislarse una molécula de ácido nucleico, que comprende una de las secuencias divulgadas o un fragmento de las mismas, mediante reacción en cadena de la polimerasa, usándose los cebadores de oligonucleótidos que se han creado a base de esta secuencia. El ácido nucleico así amplificado puede clonarse en un vector adecuado y puede caracterizarse mediante análisis de secuencia de ADN. Los oligonucleótidos descritos en el presente documento pueden prepararse además mediante procedimientos de síntesis convencionales, por ejemplo con un aparato de síntesis de ADN automático.
Las secuencias de ácido nucleico descritas en el presente documento o derivados de las mismas, homólogos o partes de estas secuencias, pueden aislarse por ejemplo con procedimientos de hibridación habituales o la técnica de PCR de otras bacterias, por ejemplo a través de bancos genómicos o de ADNc. Estas secuencias de ADN hibridan en condiciones estándar con las secuencias descritas en el presente documento.
Por "hibridación" se entiende la capacidad de un poli- u oligonucleótido de unirse a una secuencia casi complementaria en condiciones estándar, mientras que en estas condiciones no tienen lugar uniones inespecíficas entre asociados no complementarios. Para esto pueden ser complementarias las secuencias en el 9O-l0o %. La propiedad de secuencias complementarias, de poder unirse una a otra de manera específica, se aprovecha por ejemplo en la técnica de inmunotransferencia tipo Northern o Southern o en la unión a cebadores en PCR o RT-PCR.
Para la hibridación se usan ventajosamente oligonucleótidos cortos de las regiones conservadas. Sin embargo pueden usarse también fragmentos más largos de los ácidos nucleicos o las secuencias completas para la hibridación. En función del ácido nucleico usado (oligonucleótido, fragmentos más largo o secuencia completa) o según qué tipo de ácido nucleico ADN o ARN se usan para la hibridación, varían las condiciones estándar. De este modo, por ejemplo las temperaturas de fusión para híbridos de ADN:ADN es aproximadamente 10 °C menor que la de híbridos de ADN:ARN de igual longitud.
Por condiciones estándar ha de entenderse, por ejemplo, dependiendo del ácido nucleico temperaturas entre 42 y 58 °C en una solución tampón acuosa con una concentración entre 0,1 y 5 x SSC (1 X SSC = NaCl 0,15 M, citrato de sodio 15 mM, pH 7,2) o adicionalmente en presencia del 50 % de formamida tal como por ejemplo 42 °C en 5 x SSC, 50 % de formamida. Ventajosamente, las condiciones de hibridación para ADN:híbridos de ADN son 0,1 x SSC y temperaturas entre aproximadamente 20 °C y 45 °C, preferentemente entre aproximadamente 30 °C y 45 °C. Para ADN:híbridos de ARN, las condiciones de hibridación son ventajosamente 0,1 x SSC y temperaturas entre aproximadamente 30 °C y 55 °C, preferentemente entre aproximadamente 45 °C y 55 °C. Estas temperaturas indicadas para la hibridación son valores de temperatura de fusión calculados a modo de ejemplo para un ácido nucleico con una longitud de aproximadamente 100 nucleótidos y un contenido en G C del 50 % en ausencia de formamida. Las condiciones experimentales para la hibridación de ADN se han descrito en correspondientes libros de texto de genética, tal como por ejemplo Sambrook y col., "Molecular Cloning", Cold Spring Harbor Laboratory, 1989, y pueden calcularse según fórmulas conocidas por el experto por ejemplo dependiendo de la longitud de los ácidos nucleicos, del tipo de los híbridos o del contenido en G C. El experto puede extraer informaciones adicionales para la hibridación de los siguientes libros de texto: Ausubel y col. (eds), 1985, Current Protocols in Molecular Biology, John Wiley & Sons, Nueva York; Hames and Higgins (eds), 1985, Nucleic Acids Hybridization: A Practical Approach, IRL Press at Oxford University Press, Oxford; Brown (ed), 1991, Essential Molecular Biology: A Practical Approach, IRL Press at Oxford University Press, Oxford.
La "hibridación" puede realizarse en particular en condiciones rigurosas. Tales condiciones de hibridación se han descrito por ejemplo en Sambrook, J., Fritsch, E.F., Maniatis, T., en: Molecular Cloning (A Laboratory Manual), 2a edición, Cold Spring Harbor Laboratory Press, 1989, páginas 9.31-9.57 o en Current Protocols in Molecular Biology, John Wiley & Sons, N.Y. (1989), 6.3.1-6.3.6.
Por condiciones de hibridación "rigurosas" se entiende en particular: La incubación a 42°C durante la noche en una solución que está constituida por el 50 % de formamida, 5 x SSC (NaCl 750 mM, citrato de trisodio 75 mM), fosfato de sodio 50 mM (pH 7,6), 5x solución de Denhardt, 10 % dextranosulfato y 20 g/ml de ADN de esperma de salmón cortado, desnaturalizado, seguido de una etapa de lavado del filtro con 0,1x SSC a 65°C.
En el presente documento se han descrito también derivados de las secuencias de ácido nucleico divulgadas en concreto o que pueden derivarse.
Así pueden estar derivadas otras secuencias de ácido nucleico descritas en el presente documento, que codifican mutantes de ciclasa por ejemplo de SEQ ID NO:1 o de las secuencias codificantes con respecto a SEQ ID NO: 2 a 326, en particular SEQ ID NO: 2 a 6, mediante una mutación de F486 o análoga a F486 y se diferencian de éstas mediante adición, sustitución, inserción o deleción de nucleótidos individuales o de varios nucleótidos, pero codifican además polipéptidos con el perfil de propiedades deseado.
Están comprendidas conjuntamente también aquellas secuencias de ácido nucleico que comprenden las denominadas mutaciones mudas o se han modificado de manera correspondiente al uso de codón de un organismo de origen o huésped especial, en comparación con una secuencia mencionada de manera concreta, al igual que las variantes que se producen de manera natural, tal como por ejemplo variantes de corte y empalme o variantes de alelo, de las mismas.
Igualmente son objeto secuencias que pueden obtenerse mediante sustituciones de nucleótidos conservadoras (es decir el respectivo aminoácido se sustituye por un aminoácido de igual carga, tamaño, polaridad y/o solubilidad). También son objeto las moléculas derivadas mediante polimorfismo de secuencia de los ácidos nucleicos divulgados en concreto. Estos polimorfismos genéticos pueden existir entre individuos dentro de una población debido a la variación natural. Estas variaciones naturales provocan habitualmente una varianza del 1 al 5 % en la secuencia de nucleótidos de un gen.
Por derivados de las secuencias de ácido nucleico descritas en el presente documento, que codifican mutantes de ciclasa, derivadas de la secuencia SEQ ID NO: 1 o de una de las secuencias codificantes con respecto a SEQ ID NO: 2 a 326, en particular SEQ ID NO: 2 a 6, ha de entenderse por ejemplo variantes de alelo que presentan al menos el 60 % de homología en el plano de aminoácidos derivados, preferentemente al menos el 80 % de homología, de manera muy especialmente preferente al menos el 90 % de homología por toda la región de secuencia (con respecto a la homología en el plano de aminoácidos se remite a las realizaciones anteriores con respecto a los polipéptidos). Por regiones parciales de las secuencias pueden encontrarse las homologías ventajosamente más altas.
Además ha de entenderse por derivados también homólogos de las secuencias de ácido nucleico, por ejemplo homólogos fúngicos o bacterianos, secuencias acortadas, ADN o ARN monocatenario de la secuencia de ADN codificante y no codificante.
Además ha de entenderse por derivados por ejemplo fusiones con promotores. Los promotores, que se han conectado previamente a las secuencias de nucleótidos indicadas, pueden estar modificados mediante al menos un intercambio de nucleótidos, al menos una inserción, inversión y/o deleción, sin que se vean alteradas sin embargo la funcionalidad o bien actividad de los promotores. Además, los promotores pueden elevar su actividad mediante modificación de su secuencia o pueden intercambiarse completamente por promotores más eficaces también de organismos foráneos.
3.2 Generación de mutantes funcionales
El experto conoce además procedimientos para la generación de mutantes funcionales de enzimas usadas de acuerdo con la invención.
Dependiendo de la técnica usada puede introducir el experto mutaciones completamente al azar o también más dirigidas en genes o también regiones de ácido nucleico no codificantes (que por ejemplo son importantes para la regulación de la expresión) y a continuación crear bancos de genes. Los procedimientos de biología molecular necesarios para ello los conoce el experto y por ejemplo se han descrito en Sambrook y Russell, Molecular Cloning.
3a edición, Cold Spring Harbor Laboratory Press 2001.
Los procedimientos para la modificación de genes y por consiguiente para la modificación de las proteínas codificadas por éstos son familiares para el experto desde hace tiempo, tal como por ejemplo
- la mutagénesis específica de sitio, en la que se intercambian de manera dirigida nucleótidos individuales o varios nucleótidos de un gen (Trower MK (Hrsg.) 1996; In vitro mutagenesis protocols. Humana Press, New Jersey), - la mutagénesis de saturación, en la que puede intercambiarse o añadirse en cualquier sitio discrecional de un gen un codón para un aminoácido discrecional (Kegler-Ebo DM, Docktor CM, DiMaio D (1994) Nucleic Acids Res 22:1593; Barettino D, Feigenbutz M, Valcárel R, Stunnenberg HG (1994) Nucleic Acids Res 22:541; Barik S (1995) Mol Biotechnol 3:1),
- la reacción en cadena de la polimerasa propensa a fallos (error-prone PCR), en la que se mutan secuencias de nucleótidos mediante ADN-polimerasas que trabajan de manera defectuosa (Eckert KA, Kunkel TA (1990) Nucleic Acids Res 18:3739);
- el procedimiento SeSaM (Sequence Saturation Method), en el que se impiden intercambios preferentes mediante la polimerasa. Schenk y col., Biospektrum, vol. 3, 2006, 277-279
- el pasaje de genes en cepas mutadoras, en las que por ejemplo debido a mecanismos de reparación de ADN defectuosos se produce una elevada tasa de mutación de secuencias de nucleótidos (Greener A, Callahan M, Jerpseth B (1996) An efficient random mutagenesis technique using an E.coli mutator strain. En: Trower MK (Hrsg.) In vitro mutagenesis protocols. Humana Press, New Jersey), o
- el barajado de ADN, en el que una combinación de genes casi afines se forma y se digiere y los fragmentos de ruptura se usan como moldes para una reacción en cadena de la polimerasa, en la que se generan mediante repetida separación de cadena y nueva aproximación finalmente genes de mosaico de longitud completa (Stemmer WPC (1994) Nature 370:389; Stemmer WPC (1994) Proc Natl Acad Sci USA 91:10747).
Usando la denominada evolución dirigida ("directed evolution"; descrita entre otros en Reetz MT y Jaeger K-E (1999), Topics Curr Chem 200:31; Zhao H, Moore JC, Volkov AA, Arnold FH (1999), Methods for optimizing industrial enzymes by directed evolution, en: Demain AL, Davies JE (Hrsg.) Manual of industrial microbiology and biotechnology. American Society for Microbiology) puede generar el experto también de manera dirigida y también a gran escala mutantes funcionales. A este respecto se generan en una primera etapa en primer lugar bancos de genes de las respectivas proteínas, pudiéndose usar por ejemplo los procedimientos indicados anteriormente. Los bancos de genes se expresan de manera adecuada, por ejemplo mediante bacterias o mediante sistemas de presentación en fagos.
Los respectivos genes de organismos huéspedes, que expresan mutantes funcionales con propiedades que se corresponden con las propiedades deseadas, pueden someterse a otra ronda de mutación. Las etapas de la mutación y de la selección o del cribado pueden repetirse de manera iterativa hasta que los mutantes funcionales existentes presenten las propiedades deseadas en medida suficiente. Mediante este modo de trabajo iterativo pueden realizarse gradualmente un número limitado de mutaciones, tal como por ejemplo 1, 2, 3, 4 o 5 mutaciones, y pueden evaluarse para determinar su influencia sobre la respectiva propiedad de enzima y pueden seleccionarse. El mutante seleccionado puede someterse entonces de igual manera a otra etapa de mutación. Mediante esto puede reducirse significativamente el número de mutantes individuales que van a someterse a estudio.
Los resultados descritos en el presente documento proporcionan también importante información en relación a la estructura y secuencia de las respectivas enzimas, que son necesarias para generar de manera dirigida otras enzimas con propiedades modificadas deseadas. En particular pueden definirse los denominados "hot spots", es decir fragmentos de secuencia que son potencialmente adecuados para modificar una propiedad de enzima a través de la introducción de mutaciones dirigidas.
Igualmente puede deducirse información con respecto a posiciones de secuencias de aminoácidos, en cuya región pueden realizarse mutaciones que debían tener previsiblemente poca influencia sobre la actividad enzimática, y pueden designarse como mutaciones potencialmente "silenciosas".
3.3 Constructos
Además son objeto constructos de expresión, en particular recombinantes, que contienen bajo el control genético de secuencias de ácido nucleico reguladoras una secuencia de ácido nucleico que codifica un polipéptido usado de acuerdo con la invención; así como vectores, en particular recombinantes, que comprenden al menos uno de estos constructos de expresión.
Por una "unidad de expresión" se entiende un ácido nucleico con actividad de expresión, que comprende un promotor, tal como se ha definido en el presente documento, y tras unión funcional con un ácido nucleico que va a expresarse o un gen, regula la expresión, o sea la transcripción y la traducción de este ácido nucleico o de este gen. Por tanto se habla también en este contexto de una "secuencia de ácido nucleico reguladora". Adicionalmente al promotor pueden estar contenidos otros elementos reguladores, tales como por ejemplo potenciadores.
Por un "casete de expresión" o "constructo de expresión" se entiende una unidad de expresión que se une funcionalmente con el ácido nucleico que va a expresarse o el gen que va a expresarse. A diferencia de una unidad de expresión comprende un casete de expresión por consiguiente no solo secuencias de ácido nucleico, que regulan la transcripción y traducción, sino también las secuencias de ácido nucleico que deben expresarse como proteína como consecuencia de la transcripción y traducción.
Los términos "expresión" o "sobreexpresión" describen la producción o bien el aumento de la actividad intracelular de una o varias enzimas en un microorganismo, que se codifican por el correspondiente ADN. Para ello puede introducir por ejemplo un gen en un organismo, puede sustituirse un gen existente por otro gen, puede elevarse el número de copias del gen o bien de los genes, puede usarse un promotor fuerte o puede usarse un gen que codifica una correspondiente enzima con una alta actividad y pueden combinarse dado el caso estas medidas.
Preferentemente tales constructos comprenden en el sentido de 5' de la respectiva secuencia codificante un promotor y en el sentido 3' una secuencia de terminación así como dado el caso otros elementos reguladores habituales, y concretamente en cada caso enlazados de manera operativa con la secuencia codificante.
Por un "promotor", un "ácido nucleico con actividad de promotor" o una "secuencia de promotor" se entiende un ácido nucleico, que en enlace funcional con un ácido nucleico que va a transcribirse regula la transcripción de este ácido nucleico.
Por un enlace "funcional" u "operativo" se entiende en este contexto por ejemplo la disposición secuencial de uno de los ácidos nucleicos con actividad de promotor y una secuencia de ácido nucleico que va a transcribirse y dado el caso otros elementos reguladores, tal como por ejemplo secuencias de ácido nucleico que garantizan la transcripción de ácidos nucleicos, así como por ejemplo un terminador, de manera que cada uno de los elementos reguladores pueda cumplir su función en la transcripción de la secuencia de ácido nucleico. Para ello no es realmente necesario un enlace directo en el sentido químico. Las secuencias de control genéticas, tal como por ejemplo secuencias de potenciador, pueden ejercer su función también desde posiciones más alejadas o incluso desde otras moléculas de ADN sobre la secuencia diana. Se prefieren disposiciones, en las que la secuencia de ácido nucleico que va a transcribirse se posiciona detrás (es decir en el extremo 3') de la secuencia de promotor, de modo que ambas secuencias están unidas entre sí de manera covalente. A este respecto, la distancia entre la secuencia de promotor y la secuencia de ácido nucleico que va a expresarse de manera transgénica puede ser inferior a 200 pares de bases, o inferior a 100 pares de bases o inferior a 50 pares de bases.
Además de los promotores y terminador pueden mencionarse como ejemplos de otros elementos reguladores secuencias de selección como diana, potenciadores, señales de poliadenilación, marcadores que pueden seleccionarse, señales de amplificación, orígenes de replicación y similares. Las secuencias reguladoras adecuadas se han descrito por ejemplo en Goeddel, Gene Expression Technology: Methods in Enzymology 185, Academic Press, San Diego, CA (1990).
Los constructos de ácido nucleico descritos en el presente documento comprenden en particular una secuencia que codifica un mutante de ciclasa, por ejemplo derivada de SEQ ID NO: 1 o que codifica un mutante de SEQ ID NO: 2 a 326 o derivados y homólogos del mismo, así como las secuencias de ácido nucleico que pueden derivarse de esto, que se enlazan operativa o funcionalmente con una o varias señales de regulación ventajosamente para el control, por ejemplo aumento, de la expresión génica.
Adicionalmente a estas secuencias de regulación puede estar presente aún la regulación natural de estas secuencias delante de los verdaderos genes estructurales y dado el caso puede haberse modificado genéticamente, de modo que se haya desconectado la regulación natural y se haya elevado la expresión de los genes. El constructo de ácido nucleico puede estar constituido sin embargo también de manera más sencilla, es decir no se insertaron señales de regulación adicionales delante de la secuencia codificante y no se separó el promotor natural con su regulación. En lugar de esto se muta la secuencia de regulación natural de modo que ya no se realice ninguna regulación y aumente la expresión génica.
Un constructo de ácido nucleico preferente contiene ventajosamente también una o varias de las secuencias de "potenciador" ya mencionadas, enlazadas funcionalmente con el promotor, que permiten una expresión elevada de la secuencia de ácido nucleico. También en el extremo 3' de las secuencias de ADN pueden insertarse secuencias ventajosas adicionales, tal como otros elementos reguladores o terminadores. Los ácidos nucleicos pueden estar contenidos en una o varias copias en el constructo. En el constructo pueden estar contenidos aún otros marcadores, tal como genes que complementan las resistencias a antibióticos o auxotrofias, dado el caso para la selección en el constructo.
Ejemplos de secuencias de regulación adecuadas están contenidas en promotores tal como cos-, tac-, trp-, tet-, trptet-, lpp-, lac-, lpp-lac-, lacIq- T7-, T5-, T3-, gal-, trc-, ara-, rhaP (rhaPB A ü)SP6-, lambda-PR- o en promotor lambda-PL, que se usan ventajosamente en bacterias gram-negativas. Otras secuencias de regulación ventajosas están contenidas por ejemplo en los promotores gram-positivos amy y SPO2, en los promotores de levadura u hongo ADC1, MFalpha, AC, P-60, CYC1, GAPDH, TEF, rp28, ADH. Pueden usarse también promotores sintéticos para la regulación.
El constructo de ácido nucleico se inserta para la expresión en un organismo huésped ventajosamente en un vector, tal como por ejemplo un plásmido o un fago, que permite una expresión óptima de los genes en el huésped. Por vectores ha de entenderse aparte de plásmidos y fagos también todos los otros vectores conocidos por el experto, o sea por ejemplo virus, tal como SV40, CMV, baculovirus y adenovirus, transposones, elementos IS, fásmidos, cósmidos y ADN lineal o circular. Estos vectores pueden replicarse de manera autónoma en el organismo huésped o pueden replicarse de manera cromosómica.
Los plásmidos adecuados son por ejemplo en E. coli pLG338, pACYC184, pBR322, pUC18, pUC19, pKC30, pRep4, pHS1, pKK223-3, pDHE19.2, pHS2, pPLc236, pMBL24, pLG200, pUR290, pIN-III113-B1, Agt11 o pBdCI, en Streptomyces pIJ101, pIJ364, pIJ702 o pIJ361, en Bacillus pUB110, pC194 o pBD214, en Corynebacterium pSA77 o pAJ667, en hongos pALS1, pIL2 o pBB116, en levaduras 2alphaM, pAG-1, YEp6, YEp13 o pEMBLYe23 o en plantas pLGV23, pGHlac+, pBIN19, pAK2004 o pDH51. Los plásmidos mencionados representan una pequeña selección de los posibles plásmidos. Otros plásmidos se conocen bien por el experto y pueden deducirse por ejemplo del Buch Cloning Vectors (Eds. Pouwels P. H. y col. Elsevier, Amsterdam-New York-Oxford, 1985, ISBN 0444904018).
En otra forma de configuración del vector puede introducirse el vector que contiene el constructo de ácido nucleico o el ácido nucleico también ventajosamente en forma de un ADN lineal en los microorganismos y puede integrarse a través de recombinación heteróloga u homóloga en el genoma del organismo huésped. Este ADN lineal puede estar constituido por un vector linealizado tal como un plásmido o solo por el constructo de ácido nucleico o el ácido nucleico.
Para una expresión óptima de genes heterólogos en organismos es ventajoso modificar las secuencias de ácido nucleico de manera correspondiente al "uso de codón" específico usado en el organismo. El "uso de codón" puede determinarse fácilmente por medio de evaluaciones informáticas de otros genes conocidos del respectivo organismo. La preparación de un casete de expresión se realiza mediante fusión de un promotor adecuado con una secuencia de nucleótidos codificante adecuada así como una señal de terminador o de poliadenilación. Para ello se usan técnicas de recombinación y clonación habituales, tal como se describen por ejemplo en T. Maniatis, E.F. Fritsch y J. Sambrook, Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory, Cold Spring Harbor, NY (1989) así como en T.J. Silhavy, M.L. Berman y L.W. Enquist, Experiments with Gene Fusions, Cold Spring Harbor Laboratory, Cold Spring Harbor, NY (1984) y en Ausubel, F.M. y col., Current Protocols in Molecular Biology, Greene Publishing Assoc. and Wiley Interscience (1987).
El constructo de ácido nucleico o bien constructo de gen recombinante se inserta para la expresión en un organismo huésped adecuado ventajosamente en un vector específico del huésped, que permite una expresión óptima de los genes en el huésped. Los vectores se conocen bien por el experto y pueden deducirse por ejemplo de "Cloning Vectors" (Pouwels P. H. y col., Hrsg, Elsevier, Amsterdam-New York-Oxford, 1985).
4. Microorganismos
Dependiendo del contexto puede entenderse por el término "microorganismo" el microorganismo de tipo natural o un microorganismo recombinante, genéticamente modificado o ambos.
Con ayuda de los vectores descritos en el presente documento pueden prepararse microorganismos recombinantes, que están transformados por ejemplo con al menos un vector descrito en el presente documento y pueden usarse para la producción de los polipéptidos usados de acuerdo con la invención. Ventajosamente se introducen los constructos recombinantes descritos anteriormente en un sistema huésped adecuado y se expresa. A este respecto se usan preferentemente procedimientos de clonación y transfección habituales para el experto, tal como por ejemplo co-precipitación, fusión de protoplastos, electroporación, transfección retroviral y similares, para expresar los mencionados ácidos nucleicos en el respectivo sistema de expresión. Se describen sistemas adecuados por ejemplo en Current Protocols in Molecular Biology, F. Ausubel y col., ed., Wiley Interscience, Nueva York 1997, o Sambrook y col. Molecular Cloning: A Laboratory Manual. 2a ed., Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1989.
Como organismos huéspedes recombinantes para el ácido nucleico descrito en el presente documento o el constructo de ácido nucleico se tienen en cuenta principalmente todos los organismos procariotas o eucariotas. Ventajosamente se usan como organismos huéspedes microorganismos tal como bacterias, hongos o levaduras. Ventajosamente se usan bacterias gram-positivas o gram-negativas, preferentemente bacterias de las familias Enterobacteriaceae, Pseudomonadaceae, Rhizobiaceae, Streptomycetaceae o Nocardiaceae, de manera especialmente preferente bacterias de los géneros Escherichia, Pseudomonas, Streptomyces, Nocardia, Burkholderia, Salmonella, Agrobacterium, Clostridium o Rhodococcus. Se prefiere muy especialmente el género y especie Escherichia coli. Otras bacterias ventajosas se encuentran además en el grupo de las alfa-proteobacterias, beta-proteobacterias o gamma-proteobacterias.
El organismo huésped usado de acuerdo con la invención o los organismos huéspedes usados de acuerdo con la invención contienen a este respecto preferentemente al menos una de las secuencias de ácido nucleico descritas en el presente documento, constructos de ácido nucleico o vectores, que codifican una enzima con actividad feniletanol deshidrogenasa de acuerdo con la definición anterior.
Los organismos usados en el procedimiento de acuerdo con la invención se colocan o se cultivan dependiendo del organismo huésped de manera conocida para el experto. Los microorganismos se colocan por regla general en un medio líquido, que contiene una fuente de carbono en la mayoría de los casos en forma de azúcares, una fuente de nitrógeno en la mayoría de los casos en forma de fuentes de nitrógeno orgánicas tal como extracto de levadura o sales tal como sulfato de amonio, oligoelementos tal como sales de hierro, manganeso, magnesio y dado el caso vitaminas, a temperaturas entre 0 °C y 100 °C, preferentemente entre 10 °C a 60 °C con gasificación con oxígeno. A este respecto puede mantenerse el pH del líquido nutriente a un valor fijo, es decir, puede regularse durante el cultivo o no. El cultivo puede realizarse de manera "discontinua", de manera "semi continua" o de manera continua. Los nutrientes pueden disponerse al comienzo de la fermentación o pueden alimentarse posteriormente de manera semicontinua o de manera continua.
5. Preparación recombinante de enzimas usadas de acuerdo con la invención
Son objeto además procedimientos para la preparación recombinante de polipéptidos usados de acuerdo con la invención o fragmentos funcionales, biológicamente activos de los mismos, cultivándose un microorganismo que produce polipéptidos, dado el caso induciéndose la expresión de los polipéptidos y aislándose éstos del cultivo. Los polipéptidos pueden producirse así también a escala técnica, en el caso de que esto sea necesario.
Los microorganismos preparados descritos anteriormente pueden cultivarse de manera continua o de manera discontinua en un procedimiento por lotes (cultivos de juegos) o en alimentación discontinua (procedimiento de alimentación) o procedimiento discontinuo de alimentación repetida (procedimiento de alimentación repetitiva). Una resumen de procedimientos de cultivo conocidos puede encontrarse en el libro de texto de Chmiel (BioprozelJtechnik 1. Einführung in die Bioverfahrenstechnik (Gustav Fischer Verlag, Stuttgart, 1991)) o en el libro de texto de Storhas (Bioreaktoren und periphere Einrichtungen (Vieweg Verlag, Braunschweig/Wiesbaden, 1994)).
El medio de cultivo que va a usarse ha de cumplir de manera adecuada los requerimientos de las respectivas cepas. Descripciones de medios de cultivo de distintos microorganismos están contenidos en el manual "Manual of Methods für General Bacteriology" der American Society für Bacteriology (Washington D. C., USA, 1981).
Estos medios que pueden usarse comprenden habitualmente una o varias fuentes de carbono, fuentes de nitrógeno, sales inorgánicas, vitaminas y/u oligoelementos.
Las fuentes de carbono preferentes son azúcares, tal como nono-, di- o polisacáridos. Fuentes de carbono muy buenas son por ejemplo glucosa, fructosa, manosa, galactosa, ribosa, sorbosa, ribulosa, lactosa, maltosa, sacarosa, rafinosa, almidón o celulosa. Pueden añadirse a los medios azúcares también a través de compuestos complejos, tal como melazas, u otros productos secundarios del refinado de azúcar. Puede ser ventajoso también añadir mezclas de distintas fuentes de carbono. Otras fuentes de carbono posibles son aceites y grasas tal como por ejemplo aceite de soja, aceite de girasol, aceite de cacahuete y grasa de coco, ácidos grasos tal como por ejemplo ácido palmítico, ácido esteárico o ácido linoleico, alcoholes tal como por ejemplo glicerina, metanol o etanol y ácidos orgánicos tal como por ejemplo ácido acético o ácido láctico.
Las fuentes de nitrógeno son habitualmente compuestos de nitrógeno orgánicos o inorgánicos o materiales que contienen estos compuestos. Las fuentes de nitrógeno a modo de ejemplo comprenden gas amoníaco o sales de amonio, tales como sulfato de amonio, cloruro de amonio, fosfato de amonio, carbonato de amonio o nitrato de amonio, nitratos, urea, aminoácidos o fuentes de nitrógeno complejas, tal como licor de maíz fermentado, harina de soja, proteína de soja, extracto de levadura, extracto de pescado y otros. Las fuentes de nitrógeno pueden usarse individualmente o como mezcla.
Los compuestos de sal inorgánicos, que pueden estar contenidos en los medios, comprenden las sales de cloruro, fósforo o sulfato de calcio, magnesio, sodio, cobalto, molibdeno, potasio, manganeso, zinc, cobre y hierro.
Como fuente de azufre pueden usarse compuestos que contienen azufre inorgánicos tal como por ejemplo sulfatos, sulfitos, ditionitos, tetrationatos, tiosulfatos, sulfuros sin embargo también compuestos de azufre orgánicos, tal como mercaptanos y tioles, .
Como fuente de fósforo pueden usarse ácido fosfórico, dihidrogenofosfato de potasio o hidrogenofosfato de dipotasio o las correspondientes sales que contienen sodio.
Los agentes formadores de quelato pueden añadirse al medio, para mantener los iones metálicos en solución. Los agentes formadores de quelato especialmente adecuados comprenden dihidroxifenoles, tal como catecol o protocatecuat, o ácidos orgánicos, tal como ácido cítrico.
Los medios de fermentación usados contienen habitualmente también otros factores de crecimiento, tal como vitaminas o agentes favorecedores del crecimiento, a los que pertenecen por ejemplo biotina, riboflavina, tiamina, ácido fólico, ácido nicotínico, pantotenato y piridoxina. Los factores de crecimiento y sales proceden con frecuencia de componentes de medios complejos, tal como extracto de levadura, melazas, licor de maíz fermentado y similares. Al medio de cultivo pueden añadirse además precursores adecuados. La composición exacta de los compuestos de medios depende mucho del respectivo experimento y se decide individualmente para cada caso específico. La información sobre la optimización de medios puede obtenerse del libro de texto "Applied Microbiol. Physiology, A Practical Approach" (Hrsg. P.M. Rhodes, P.F. Stanbury, IRL Press (1997) S. 53-73, ISBN 0 19 963577 3). Los medios de crecimiento pueden adquirirse también de proveedores comerciales, tal como Standard 1 (Merck) o BHI (Brain heart infusion, DIFCO) y similares.
Todos los componentes de medios se esterilizan, o bien mediante calor (20 min a 150 kPa y 121°C) o mediante esterilización por filtración. Los componentes pueden esterilizarse o bien juntos o en caso necesario por separado. Todos los componentes de medios pueden estar presentes al comienzo del cultivo o pueden opcionalmente de manera continua o a modo de cargas.
La temperatura del cultivo se encuentra normalmente entre 15°C y 45°C, preferentemente a de 25°C a 40°C y puede mantenerse constante o modificarse durante el experimento. El valor de pH del medio debía encontrarse en el intervalo de 5 a 8,5, preferentemente en 7,0. El valor de pH para el cultivo puede controlarse durante el cultivo mediante adición de compuestos básicos tal como hidróxido de sodio, hidróxido de potasio, amoníaco o bien agua amoniacal o compuestos ácidos tal como ácido fosfórico o ácido sulfúrico. Para el control del desarrollo de espuma pueden usarse agentes antiespumantes, tal como por ejemplo éster de poliglicol de ácido graso. Para el mantenimiento de la estabilidad de plásmidos pueden añadirse al medio sustancias de acción selectiva adecuadas, tal como por ejemplo antibióticos. Para mantener condiciones aeróbicas, se introducen en el cultivo oxígeno o mezclas de gases que contienen oxígeno, tal como por ejemplo aire ambiente. La temperatura del cultivo se encuentra normalmente a de 20°C a 45°C. El cultivo se continúa hasta que se haya formado un máximo del producto deseado. Este objetivo se alcanza normalmente en el intervalo de 10 horas a 160 horas.
Los caldos de fermentación se procesan a continuación. Dependiendo del requerimiento puede separarse la biomasa total o parcialmente mediante procedimientos de separación, tal como por ejemplo centrifugación, filtración, decantación o una combinación de estos procedimientos del cal de fermentación o puede dejarse completamente en éste.
Las células pueden disgregarse también, en el caso de que no se segreguen los polipéptidos en el medio de cultivo, y puede obtenerse el producto según procedimientos de aislamiento de proteínas conocido a partir del lisado. Las células pueden disgregarse opcionalmente mediante ultrasonido de alta frecuencia, mediante alta presión, tal como por ejemplo en una célula de presión francesa, mediante osmólisis, mediante acción de detergentes, enzimas líticas o disolventes orgánicos, mediante homogeneizadores o mediante combinación de varios de los procedimientos expuestos.
Una purificación de los polipéptidos puede conseguirse con procedimientos cromatográficos conocidos, tal como cromatografía de tamiz molecular (filtración en gel), tal como cromatografía de Q-Sepharose, cromatografía de intercambio iónico y cromatografía hidrófoba, así como con otros procedimientos habituales tal como ultrafiltración, cristalización, precipitación mediante sales, diálisis y electroforesis en gel nativa. Procedimientos adecuados se describen por ejemplo en Cooper, T. G., Biochemische Arbeitsmethoden, Verlag Walter de Gruyter, Berlin, New York o en Scopes, R., Protein Purification, Springer Verlag, Nueva York, Heidelberg, Berlin.
Puede ser ventajoso, para el aislamiento de la proteína recombinante, usar sistemas de vector u oligonucleótidos que alarguen el ADNc en determinadas secuencias de nucleótidos y con ello codifiquen polipéptidos modificados o proteínas de fusión, que sirven por ejemplo para una purificación más sencilla. Las modificaciones adecuadas de este tipo son por ejemplo las denominadas "etiquetas" que actúan como ancla, tal como por ejemplo la modificación o epítopo conocidos como ancla de hexa-histidina, que pueden reconocerse como antígenos por anticuerpos (se describen por ejemplo en Harlow, E. and Lane, D., 1988, Antibodies: A Laboratory Manual. Cold Spring Harbor (N.Y.) Press). Estas anclas pueden servir para el anclaje de las proteínas en un soporte sólido, tal como por ejemplo una matriz polimérica, que puede introducirse por ejemplo en una columna de cromatografía, o puede usarse en una placa de microtitulación o en otro soporte.
Al mismo tiempo pueden usarse estas anclas también para el reconocimiento de las proteínas. Para el reconocimiento de las proteínas pueden usarse además marcadores habituales, tal como colorantes de fluorescencia, marcadores enzimáticos, que tras la reacción con un sustrato forman un producto de reacción que puede detectarse, o marcadores radiactivos, solos o en combinación con las anclas para la derivatización de las proteínas.
Para la expresión de mutantes usados de acuerdo con la invención puede recurrirse a la descripción de la expresión de la enzima de tipo natural EbN1 y de los sistemas de expresión que pueden usarse para ello en el documento WO2005/108590 y el documento WO2006/094945.
6. Inmovilización de enzimas
Las enzimas usadas de acuerdo con la invención pueden usarse en los procedimientos descritos en el presente documento de manera libre o inmovilizadas. Por una enzima inmovilizada se entiende una enzima que está fijada a un soporte inerte. Los materiales de soporte adecuados así como las enzimas inmovilizadas sobre éstos se conocen por los documentos EP-A-1149849, EP-A-1 069 183 y el documento DE-OS 100193773 así como por las citas bibliográficas citadas en los mismos. A este respecto se hace referencia a la divulgación de estos documentos en su totalidad. A los materiales de soporte adecuados pertenecen por ejemplo arcillas, minerales de arcilla, tales como caolinita, tierras de diatomeas, perlita, dióxido de silicio, óxido de aluminio, carbonato de sodio, carbonato de calcio, polvos de celulosa, materiales de intercambio aniónico, polímeros sintéticos, tales como poliestireno, resinas acrílicas, resinas de fenol-formaldehído, poliuretanos y poliolefinas, tales como polietileno y polipropileno. Los materiales de soporte se emplean para la preparación de las enzimas soportadas habitualmente en una forma particulada, finamente dividida, prefiriéndose formas porosas. El tamaño de partícula del material de soporte asciende habitualmente a no más de 5 mm, en particular no más de 2 mm (curva granulométrica). De manera análoga, en el caso del uso de la deshidrogenasa como catalizador de célula completa, puede seleccionarse una forma libre o inmovilizada. Materiales de soporte son por ejemplo alginato de Ca, y carragenano. Enzimas como también células pueden reticularse también directamente con glutaraldehído (reticulación para dar CLEA). Correspondientes procedimientos de inmovilización y otros se describen por ejemplo en J. Lalonde y A. Margolin "Immobilization of Enzymes" " en K. Drauz y H. Waldmann, Enzyme Catalysis in Organic Synthesis 2002, vol. III, 991-1032, Wiley-VCH, Weinheim. Se encuentra información adicional con respecto a las biotransformaciones y bioreactores para la realización de procedimientos de acuerdo con la invención por ejemplo también en Rehm y col.(Ed) Biotechology, 2a ed., vol 3, capítulo 17, VCH, Weinheim.
7. Ciclación enzimática de terpenos
7.1 Descripción general
En particular se realiza el procedimiento de ciclación descrito en el presente documento en presencia de una enzima, codificándose la enzima por una secuencia de ácido nucleico de acuerdo con SEQ ID NO:1 o un equivalente funcional de la misma, siendo la secuencia de ácido nucleico parte constituyente de un constructo génico o vector. Tales constructos génicos o vectores se describen en detalle en la solicitud internacional PCT/EP2010/057696 en las páginas 16 a 20. Los equivalentes funcionales de este tipo, en particular aquéllos con actividad citronelal-isopulegolciclasa, comprenden en particular una mutación de f486 o análoga a F486, tal como se define en el presente documento.
La célula huésped, que contiene un constructo génico o un vector, en el que está contenida la secuencia de ácido nucleico, que codifica la enzima con la actividad deseada, se designa también como organismo transgénico. La preparación de tales organismos transgénicos se conoce en principio y se discute por ejemplo en la solicitud internacional PCT/EP2010/057696 en la página 20.
Como organismos transgénicos se seleccionan preferentemente células del grupo que está constituido por bacterias, cianobacterias, hongos y levaduras. Preferentemente la célula se selecciona de hongos del género Pichia o bacterias de los géneros Escherichia, Corynebacterium, Ralstonia, Clostridium, Pseudomonas, Bacillus, Zymomonas, Rhodobacter, Streptomyces, Burkholderia, Lactobacillus o Lactococcus. De manera especialmente preferente, la célula se selecciona de bacterias de las especies Escherichia coli, Pseudomonas putida, Burkholderia glumae, Streptomyces lividans, Streptomyces coelicolor o Zymomonas mobilis.
Se prefiere un procedimiento de acuerdo con la invención, caracterizado porque la enzima con la actividad de una citronelal-isopulegol-ciclasa se codifica por un gen, se aisló de un microorganismo, seleccionado entre Zymomonas mobilis, Methylococcus capsulatus, Rhodopseudomonas palustris, Bradyrhizobium japonicum, Frankia spec, Streptomyces coelicolor así como Acetobacter pasteurianus. Especialmente pueden mencionarse los respectivos genes aislados de Zymomonas mobilis, Streptomyces coelicolor, Bradyrhizobium japonicum y Acetobacter pasteurianus.
Además se prefiere un procedimiento de acuerdo con la invención, caracterizado porque la enzima con la actividad ciclasa se generó por un microorganismo que sobreproduce la enzima y que se seleccionó del grupo de los microorganismos que está constituido por los géneros Escherichia, Corynebacterium, Ralstonia, Clostridium, Pseudomonas, Bacillus, Zymomonas, Rhodobacter, Streptomyces, Burkholderia, Lactobacillus y Lactococcus.
Especialmente ha de mencionarse un procedimiento de acuerdo con la invención, caracterizado porque la enzima con la actividad ciclasa se generó por microorganismos transgénicos de las especies Escherichia coli, Pseudomonas putida, Burkholderia glumae, Corynebacterium glutamicum, Saccharomyces cerevisiae, Pichia pastoris, Streptomyces lividans, Streptomyces coelicolor, Bacillus subtilis o Zymomonas mobilis, que sobreproducen la enzima con la actividad ciclasa.
Otras configuraciones para la realización del procedimiento de ciclación biocatalítico de acuerdo con la invención, tal como por ejemplo del procedimiento para la preparación de isopulegol:
El procedimiento de acuerdo con la invención está caracterizado porque la enzima se encuentra en al menos una de las siguientes formas:
a) polipéptido libre, dado el caso purificado o parcialmente purificado;
b) polipéptido inmovilizado;
c) polipéptido aislado a partir de células de acuerdo con a) o b);
d) célula completa, dado el caso células quiescentes o crecientes, que contienen al menos un polipéptido de este tipo;
e) lisado u homogeneizado de las células de acuerdo con d).
Otra forma de realización del procedimiento de acuerdo con la invención está caracterizada porque las células son microorganismos, preferentemente microorganismos transgénicos que expresan al menos una molécula heteróloga de ácido nucleico que codifica un polipéptido con la actividad ciclasa.
Una forma de realización preferente del procedimiento de acuerdo con la invención comprende al menos las siguientes etapas a), b) y d):
a) aislar un microorganismo que produce una enzima con actividad ciclasa a partir de una fuente natural o prepararlo de manera recombinante,
b) multiplicar estos microorganismos,
c) dado el caso aislar de los microorganismos la enzima con actividad ciclasa o preparar una fracción de proteína que contiene esta enzima, y
d) transferir el microorganismo de acuerdo con la etapa b) o la enzima de acuerdo con la etapa c) a un medio que contiene sustrato, por ejemplo citronelal de fórmula general (I).
En el procedimiento de acuerdo con la invención se lleva a contacto el sustrato, tal como por ejemplo citronelal, con la enzima que tiene la actividad de una citronelal-isopulegol-ciclasa, en un medio y/o se incuba de modo que se realice una reacción del sustrato, tal como por ejemplo de citronelal, para dar isopulegol, en presencia de la enzima. Preferentemente, en el caso del medio se trata de un medio de reacción acuoso.
El valor de pH del medio de reacción acuoso, en el que se realiza preferentemente el procedimiento de acuerdo con la invención, se mantiene a este respecto ventajosamente entre pH 4 y 12, preferentemente entre pH 4,5 y 9, de manera especialmente preferente entre pH 5 y 8.
En el caso de los medios de reacción acuosos se trata preferentemente de soluciones tamponadas, que por regla general presentan un valor de pH de preferentemente de 5 a 8. Como tampón puede usarse un tampón citrato, fosfato, TRIS-(tris(hidroximetil)-aminometano) o MES (ácido 2-(N-morfolino)etanosulfónico). Asimismo el medio de reacción puede contener también aditivos adicionales, tales como por ejemplo detergentes (por ejemplo taurodesoxicolato).
El sustrato, tal como por ejemplo citronelal, se usan preferentemente en una concentración de 2 - 200 mM, de manera especialmente preferente de 5 - 25 mM en la reacción enzimática y puede seguirse de manera continua o discontinua.
La ciclación enzimática tiene lugar por regla general a una temperatura de reacción por debajo de la temperatura de desactivación de la enzima usada y por encima de -10°C. Preferentemente se realiza el procedimiento de acuerdo con la invención a una temperatura entre 0°C y 95°C, de manera especialmente preferente a una temperatura entre 15°C y 60°C, en particular entre 20 y 40°C, por ejemplo a de aproximadamente 25 a 30 °C.
Se prefiere especialmente un procedimiento de acuerdo con la invención, en el que la reacción de citronelal para dar isopulegol tiene lugar a una temperatura en el intervalo de 20 a 40 °C y/o un valor de pH en el intervalo de 4 a 8. Junto a estos sistemas acuosos de una sola fase, en otra variante de la invención se emplean también sistemas de dos fases. A este respecto se usan además de una fase acuosa como segunda fase, medios de reacción orgánicos, no miscibles en agua. De esta manera los productos de reacción se acumulan en la fase orgánica. Tras la reacción puede separarse el producto, tal como por ejemplo isopulegol, en la fase orgánica fácilmente de la fase acuosa que contiene el biocatalizador.
Se prefiere un procedimiento de acuerdo con la invención, caracterizado porque la preparación de isopulegol tiene lugar en sistemas acuosos de una sola fase o en sistemas de dos fases.
El producto de reacción, tal como por ejemplo isopulegol, puede extraerse con disolventes orgánicos y dado el caso puede destilarse para la purificación.
Disolventes orgánicos adecuados son por ejemplo hidrocarburos alifáticos, preferentemente con 5 a 8 átomos de carbono, tales como pentano, ciclopentano, hexano, ciclohexano, heptano, octano o ciclooctano, hidrocarburos alifáticos halogenados, preferentemente con uno o dos átomos de carbono, tales como diclorometano, cloroformo, tetracloruro de carbono, dicloroetano o tetracloroetano, hidrocarburos aromáticos, tales como benceno, tolueno, los xilenos, clorobenceno o diclorobenceno, éteres alifáticos acíclicos y cíclicos o alcoholes, preferentemente con 4 a 8 átomos de carbono, tales como etanol, isopropanol, dietil éter, metil-terc-butil éter, etil-terc-butil éter, dipropil éter, diisopropil éter, dibutil éter, tetrahidrofurano o ésteres tales como acetato de etilo o acetato de n-butilo o cetonas tales como metilisobutil cetona o dioxano o mezclas de los mismos. De manera especialmente preferente se usan el heptano, metil-tercbutiléter, diisopropil éter, tetrahidrofurano, acetato de etilo mencionados anteriormente.
Las ciclasas usadas de acuerdo con la invención pueden usarse en el procedimiento de acuerdo con la invención como enzima libre o inmovilizada, tal como se ha descrito ya anteriormente .
Para el procedimiento de acuerdo con la invención pueden usarse células quiescentes o crecientes, libres o inmovilizadas, que contienen ácidos nucleicos, constructos de ácido nucleico o vectores que codifican la ciclasa. También pueden usarse células disgregadas, tal como lisados celulares o homogeneizados celulares. Por células disgregadas se entienden por ejemplo células que se han hecho permeables a través de un tratamiento con por ejemplo disolventes, o células que se han roto a través de un tratamiento enzimático, a través de un tratamiento mecánico (por ejemplo prensa francesa o ultrasonidos) o a través de otro método. Los extractos brutos así obtenidos son adecuados de manera ventajosa para el procedimiento de acuerdo con la invención. También pueden usarse para el procedimiento enzimas purificadas o parcialmente purificadas.
Si se usan para el procedimiento de acuerdo con la invención organismos o enzimas libres, entonces se separan éstos antes de la extracción de manera conveniente, por ejemplo a través de una filtración o centrifugación.
El procedimiento de acuerdo con la invención puede hacerse funcionar de manera discontinua, de manera semicontinua o de manera continua.
7.2. Ciclación enzimática de citronelal
El citronelal de fórmula (II) usado de acuerdo con la invención, que se hace reaccionar por medio de una enzima con actividad citronelal-isopulegol-ciclasa, puede obtenerse comercialmente tanto como R(+)-citronelal de fórmula (R-II) como también como S(-)-citronelal de fórmula (S-II) como también como racemato de fórmula (II).
Figure imgf000028_0001
El isopulegol de fórmula (I) formado a este respecto
Figure imgf000028_0002
tiene en las posiciones 1, 3 y 6 en cada caso un estereocentro, de modo que son concebibles en principio 4 diastereómeros distintos con en cada caso 2 enantiómeros, o sea en total 8 estereoisómeros, cuando se parte del racemato del citronelal de fórmula (I).
Figure imgf000028_0003
Como enzimas con la actividad de una citronelal-isopulegol-ciclasa son adecuadas las transferasas intramoleculares de la subclase de las isomerasas; o sea proteínas con el código enzimático EC 5.4 (código enzimático de acuerdo con Eur. J. Biochem. 1999, 264, 610-650). Preferentemente se trata de representantes con el código enzimático 5.4.99.17. Como enzimas con la actividad de una citronelal-isopulegol-ciclasa son adecuadas en particular también aquellas ciclasas que provocan también la ciclación de homofarnesol para dar ambroxano o de escualeno para dar hopeno y que se describen en detalle en la solicitud internacional PCT/EP2010/057696; además son adecuados las enzimas y mutantes descritos en este caso.
Una forma de realización especialmente adecuada del procedimiento de acuerdo con la invención consiste en que la enzima usada en el procedimiento de acuerdo con la invención con la actividad de una citronelal-isopulegol-ciclasa tiene una secuencia de polipéptidos que o bien
a) es SEQ ID NO:2, o
b) en la que hasta el 25 % de los restos de aminoácido están modificados en comparación con SEQ ID NO:2 mediante deleción, inserción, sustitución o una combinación de los mismos, y que presenta aún al menos el 50 % de la actividad enzimática de SEQ ID NO:2.
Enzimas adecuadas con actividad citronelal-isopulegol-ciclasa, que comprenden una secuencia de aminoácidos de acuerdo con SEQ ID NO: 2, así como "equivalentes funcionales" o análogos de las enzimas (E) divulgadas de manera concreta con actividad citronelal-isopulegol-ciclasa, se describen, tal como se ha mencionado ya anteriormente, en detalle en la solicitud internacional PCT/EP2010/057696.
En una forma de realización especialmente preferente del procedimiento, la enzima con actividad citronelalisopulegol-ciclasa se selecciona entre enzimas que comprenden una secuencia de aminoácidos de acuerdo con SEQ ID NO: 2 o una secuencia derivada de la misma, en la que se han modificado hasta el 25 %, preferentemente hasta el 20 %, de manera especialmente preferente hasta el 15 %, en particular hasta el 10, 9, 8, 7, 6, 5, 4, 3, 2, 1 % de los restos de aminoácido mediante una deleción, una sustitución, una inserción o una combinación de deleción, sustitución e inserción, teniendo las secuencias de polipéptidos modificadas en comparación con SEQ ID NO: 2 aún al menos el 50 %, preferentemente el 65 %, de manera especialmente preferente el 80 %, en particular más del 90 % de la actividad enzimática de SEQ ID NO:2. En este contexto debe entenderse por actividad enzimática de SEQ ID NO:2 la capacidad de ciclar citronelal de fórmula general (II) de manera biocatalítica para dar el correspondiente isopulegol de fórmula (I).
El procedimiento de acuerdo con la invención se realiza preferentemente en presencia de una enzima, codificándose la enzima por una secuencia de ácido nucleico de acuerdo con SEQ ID NO:1 o un equivalente funcional de la misma.
Los equivalentes funcionales describen en principio en este caso secuencias de ácido nucleico que en condiciones estándar hibridan con una secuencia de ácido nucleico o partes de una secuencia de ácido nucleico y son capaces de provocar la expresión de una proteína con las mismas propiedades que las de la enzima con actividad citronelalisopulegol-ciclasa en una célula o un organismo.
Por un equivalente funcional se entienden además también secuencias de ácido nucleico que con una secuencia de ácido nucleico determinada ("secuencia de ácido nucleico original) son homólogas o idénticas hasta un porcentaje definido y que presentan la misma actividad que las secuencias de ácido nucleico originales, asimismo en particular también mutaciones naturales o artificiales de estas secuencias de ácido nucleico.
Las secuencias de ácido nucleico, que pueden usarse para la codificación de las enzimas que pueden usarse en el procedimiento de acuerdo con la invención con actividad citronelal-isopulegol-ciclasa, se describen igualmente en detalle en la solicitud internacional PCT/EP2010/057696.
De manera especialmente preferente se realiza el procedimiento de acuerdo con la invención en presencia de una enzima, codificándose la enzima por una secuencia de ácido nucleico de acuerdo con SEQ ID NO:1 o un equivalente funcional de la misma, siendo la secuencia de ácido nucleico parte constituyente de un constructo génico o vector. Tales constructos génicos o vectores se describen en detalle en la solicitud internacional PCT/EP2010/057696 en las páginas 16 a 20.
De manera muy especialmente preferente se realiza el procedimiento de acuerdo con la invención en presencia de una enzima, codificándose la enzima por una secuencia de ácido nucleico de acuerdo con SEQ ID NO:1 o un equivalente funcional de la misma, siendo la secuencia de ácido nucleico parte constituyente de un constructo génico o vector, que están contenidos en una célula huésped.
La célula huésped, que contiene un constructo génico o un vector, en el que está contenida la secuencia de ácido nucleico, que codifica la enzima con la actividad citronelal-isopulegol-ciclasa, se designa también como organismo transgénico. La preparación de tales organismos transgénicos se conoce en principio y se discute por ejemplo en la solicitud internacional PCT/EP2010/057696 en la página 20.
Como organismos transgénicos se seleccionan preferentemente células del grupo que está constituido por bacterias, cianobacterias, hongos y levaduras. Preferentemente la célula se selecciona de hongos del género Pichia o bacterias de los géneros Escherichia, Corynebacterium, Ralstonia, Clostridium, Pseudomonas, Bacillus, Zymomonas, Rhodobacter, Streptomyces, Burkholderia, Lactobacillus o Lactococcus. De manera especialmente preferente, la célula se selecciona de bacterias de las especies Escherichia coli, Pseudomonas putida, Burkholderia glumae, Streptomyces lividans, Streptomyces coelicolor o Zymomonas mobilis.
Se prefiere un procedimiento de acuerdo con la invención, caracterizado porque la enzima con la actividad de una citronelal-isopulegol-ciclasa se codifica por un gen, se aisló de un microorganismo, seleccionado del grupo de los microorganismos que está constituido por Zymomonas mobilis, Methylococcus capsulatus, Rhodopseudomonas palustris, Bradyrhizobium japonicum, Frankia spec. y Streptomyces coelicolor. De manera especialmente preferente se aisló el respectivo gen de Zymomonas mobilis.
Además se prefiere un procedimiento de acuerdo con la invención, caracterizado porque la enzima con la actividad de una citronelal-isopulegol-ciclasa se generó por un microorganismo que sobreproduce la enzima con la actividad de una citronelal-isopulegol-ciclase y que se seleccionó del grupo de los microorganismos que está constituido por los géneros Escherichia, Corynebacterium, Ralstonia, Clostridium, Pseudomonas, Bacillus, Zymomonas, Rhodobacter, Streptomyces, Burkholderia, Lactobacillus y Lactococcus.
Se prefiere especialmente un procedimiento de acuerdo con la invención, caracterizado porque la enzima con la actividad de una citronelal-isopulegol-ciclasa se generó por microorganismos transgénicos de las especies Escherichia coli, Pseudomonas putida, Burkholderia glumae, Corynebacterium glutamicum, Saccharomyces cerevisiae, Pichia pastoris, Streptomyces lividans, Streptomyces coelicolor, Bacillus subtilis o Zymomonas mobilis, que sobreproducen la enzima con la actividad de una citronelal-isopulegol-ciclasa.
Las otras configuraciones descritas anteriormente para la realización del procedimiento biocatalítico de acuerdo con la invención para la ciclación de terpenos se aplican de manera correspondiente para la preparación de isopulegol. Otro objeto de la presente invención es también el uso de una enzima con la actividad de una citronelal-isopulegolciclasa para la reacción biocatalítica de citronelal para dar isopulegol.
Se prefiere el uso de una enzima con la actividad de una citronelal-isopulegol-ciclasa para la reacción biocatalítica de citronelal para dar isopulegol, caracterizado porque la enzima tiene una secuencia de polipéptidos, que o bien a) es SEQ ID NO:2, o
b) en la que hasta el 25 % de los restos de aminoácido están modificados en comparación con SEQ ID NO:2 mediante deleción, inserción, sustitución o una combinación de los mismos, y que presenta aún al menos el 50 % de la actividad enzimática de SEQ ID NO:2.
Se prefiere también el uso de una enzima con la actividad de una citronelal-isopulegol-ciclasa para la reacción biocatalítica de citronelal para dar isopulegol, caracterizado porque la enzima se codifica por una secuencia de ácido nucleico de acuerdo con SEQ ID NO:1 o un equivalente funcional de la misma.
En el presente documento se describe también el uso de un constructo génico o vector que comprende una secuencia de ácido nucleico de acuerdo con SEQ ID NO:1 o un equivalente funcional de la misma, que codifican un polipéptido con la actividad de una citronelal-isopulegol-ciclasa, que sirve para la reacción biocatalítica de citronelal para dar isopulegol, en un procedimiento para la preparación de isopulegol mediante ciclación de citronelal.
En el presente documento se describe también el uso de una célula huésped, que contiene un constructo génico o un vector, que comprenden una secuencia de ácido nucleico de acuerdo con SEQ ID NO:1 o un equivalente funcional de la misma, para la preparación de una enzima con la actividad de una citronelal-isopulegol-ciclasa para la reacción biocatalítica de citronelal para dar isopulegol.
El procedimiento descrito anteriormente abre por primera vez la posibilidad de ciclar citronelal con ayuda de una enzima para dar isopulegol.
8. Procedimiento para la preparación de mentol
El isopulegol preparado tal como se ha descrito anteriormente puede transformarse en mentol de manera en sí conocida mediante hidrogenación catalítica. Para ello son adecuados además de los procedimientos de hidrogenación convencionales, en particular un procedimiento catalítico, tal como se describe en el documento WO 2009/013192.
En particular se usan para la realización del procedimiento aquellos catalizadores que comprenden
- del 45 al 55 % en peso de compuestos del níquel que contienen oxígeno, calculado como NiO,
- del 25 al 35 % en peso de compuestos del zirconio que contienen oxígeno, calculado como ZrO2 ,
- del 5 al 20 % en peso de compuestos del cobre que contienen oxígeno, calculado como CuO, -- del 1 al 3 % en peso de compuestos del molibdeno que contiene oxígeno, calculado como MoO3 y
- del 0 al 5 % en peso de otros componentes,
complementándose las indicaciones en % en peso para dar el 100 % en peso y refiriéndose al catalizador seco, no reducido.
Un catalizador especialmente preferente está constituido en del 49 al 53 % en peso por NiO, en del 15 al 19 % en peso por CuO, en del 28 al 32 % en peso por ZrO2 y en del 1 al 2 % en peso por MoO3 así como dado el caso en del 0 al 3 % en peso por otros componentes tal como por ejemplo grafito, refiriéndose las proporciones en peso seleccionadas en cada caso de los componentes individuales al catalizador seco, no reducido y complementándose hasta el 100 % en peso. Los catalizadores de este tipo se conocen y pueden prepararse por ejemplo tal como se describe en el documento EP 0696572 o en el documento WO 2009/013192.
En general se usan los catalizadores preferentemente en forma de catalizadores completos. Con el término "catalizador completo" se designa un catalizador que a diferencia con un catalizador de soporte está constituido solo por masa catalíticamente activa. Los catalizadores completos pueden usarse de manera que la masa catalíticamente activa, molida para dar polvo se introduce en el recipiente de reacción o, de manera que la masa catalíticamente activa tras molienda, mezclado con coadyuvantes de moldeo, moldeo y curado posterior como cuerpo moldeado de catalizador - por ejemplo como esferas, cilindros, comprimidos, anillos, espirales, cordones y similares - se dispone en el reactor.
En el contexto de una forma de realización preferentemente del procedimiento de hidrogenación se usa el catalizador heterogéneo seleccionado en forma de un catalizador de lecho sólido.
Para la realización del procedimiento se lleva a contacto la sustancia de partida, tal como se ha descrito anteriormente, isopulegol con agua y el catalizador seleccionado. El hidrógeno puede usarse a este respecto de manera no diluida, habitualmente en una pureza de aproximadamente el 99,9 % en volumen o en forma diluida, es decir en forma de mezclas con gases inertes tal como por ejemplo nitrógeno o argón. Preferentemente se usa hidrógeno en forma no diluida. La reacción puede realizarse con buen éxito sin adición de disolventes o en presencia de disolventes orgánicos inertes en las condiciones de reacción, tal como por ejemplo metanol, etanol, isopropanol, hexano, heptano, ciclohexano y similares. Preferentemente se realiza la reacción sin adición de disolventes.
La hidrogenación de isopulegol puede realizarse con una presión de hidrógeno (absoluta) en el intervalo de 100 a 20.000 kPa, tal como de 200 o 300 a 20.000 kPa, sobre todo de 400 o 500 a 15.000 kPa, tal como de 500 a 10.000 kPa o en el intervalo de 500 a 5.000 kPa. Como temperatura de reacción para la realización de la hidrogenación se selecciona ventajosamente una temperatura en el intervalo de 20 a 150°C, tal como de 40 a 130°C, o de 60 a 110°C y en particular de 70 a 100°C.
Prácticamente se procede en la realización en general de modo que se alimente el isopulegol que va a reaccionar al catalizador que se encuentra habitualmente en un reactor de lecho sólido en particular calentado desde fuera tal como por ejemplo un reactor tubular, autoclaves o reactor de haz tubular, a la temperatura de reacción deseada y la presión deseada. A este respecto se carga el catalizador en general con 0,1 a 1,0, tal como con 0,1 a 0,6 o con 0,2 a 0,4 kg de isopulegol por kg de catalizador y por hora. En este sentido puede ser conveniente calentar el isopulegol que va a usarse ya antes de la alimentación en el recipiente de reacción o bien el reactor y concretamente de manera preferente hasta la temperatura de reacción.
El reactor puede hacerse funcionar tanto en el modo de conducción de fondo como también en el modo de conducción de goteo, es decir pueden conducirse las sustancias de partida tanto de abajo arriba como también de arriba a abajo por el reactor. El procedimiento de hidrogenación puede realizarse tanto de manera discontinua como también de manera continua. En ambos casos puede conducirse al circuito el producto de partida que no ha reaccionado junto con el hidrógeno.
La hidrogenación puede realizarse también gradualmente en una cascada de varios, es decir de 2 a por regla general 4, tal como por ejemplo 2 o 3 reactores conectados uno detrás de otro, preferentemente reactores de lecho sólido. A este respecto, en el primer reactor, designado habitualmente como reactor principal se consigue en las condiciones de reacción descritas anteriormente la conversión principal de la reacción y se alimenta el producto bruto obtenido a un segundo reactor, designado habitualmente como reactor secundario, en el que el material de partida que aún no ha reaccionado se transforma de esta manera al menos en gran parte en L-mentol. A este respecto pueden seleccionarse las condiciones de reacción de manera independiente entre sí preferentemente en los intervalos mencionados anteriormente.
El procedimiento puede realizarse de manera discontinua, de manera semi-continua o de manera totalmente continua. Preferentemente se realiza el procedimiento de manera continua, en particular de manera totalmente continua, introduciéndose las sustancias de partida continuamente en el reactor y descargándose la mezcla de reacción o bien producto de reacción obtenidos continuamente del reactor. Ha resultado además ventajoso, debido a la posición del punto de fusión del producto de reacción mentol, especialmente L-mentol, proporcionar un calentamiento de los conductos de transporte usados.
El procedimiento permite la preparación de mentol mediante hidrogenación catalítica de isopulegol, produciéndose habitualmente solo en baja medida la formación de diastereómeros indeseados del mentol. El procedimiento proporciona de manera correspondiente a esto, con el uso de isopulegol con una pureza correspondiente, mentol de fórmula (III) en una pureza química del 97 % en peso o superior, preferentemente del 98 al 100 % en peso, de manera especialmente preferente del 98,5 al 99,9 % en peso, de manera muy especialmente preferente de al menos el 99 al 99,9 % en peso. A este respecto comprende el término pureza química también la pureza de diastereómeros del mentol obtenido con respecto a los diastereómeros neoiso-mentol de fórmula (IIIa), neo-mentol de fórmula (IIIb) e iso-mentol de fórmula (IIIc). De manera correspondiente a esto proporciona el procedimiento en el contexto preferentemente mentol con una pureza de diastereómeros del 97 % en peso o superior, preferentemente del 98 al 100 % en peso, de manera especialmente preferente del 98,5 al 99,9 % en peso y de manera muy especialmente preferente de al menos el 99 al 99,9 % en peso.
Figure imgf000032_0001
Si se usa isopulegol en forma ópticamente activa, preferentemente aquellas mezclas que contienen en parte predominante el enantiómero L-isopulegol, se obtiene como producto del procedimiento por regla general mentol en forma ópticamente activa, preferentemente en forma del (-)- o bien L-mentol. La hidrogenación discurre generalmente en gran parte sin racemización notable del material usado. Según esto se obtiene, dependiendo del exceso enantiomérico del isopulegol ópticamente activo usado, L-mentol ópticamente activo, preferentemente con el uso de L-isopulegol como producto, con un exceso enantiomérico (ee) del 80 % de ee o superior, preferentemente del 85 o el 90 % de ee o superior, de manera especialmente preferente del 95 al 100 % de ee, de manera especialmente preferente del 96 al 99,9% de ee, de manera muy especialmente preferente del 97 al 99,8 % de ee, aún más preferentemente del 98 al 99,7 % de ee y en particular preferentemente del 98,5 al 99,6 % de ee.
El mentol obtenido se caracteriza además por un contenido especialmente bajo de los productos secundarios indeseados mentona de fórmula (IIId) e isomentona de fórmula (IIIe) e neo-iso-mentol de fórmula (IIIa).
Figure imgf000032_0002
Estos productos secundarios se obtienen generalmente en el contexto del procedimiento de acuerdo con la invención solo en una proporción, con respecto a la cantidad de mentol obtenido, de hasta el 0,5 % en peso, preferentemente el 0,4 % en peso, de manera especialmente preferente el 0,3 % en peso, en particular el 0,2 % en peso y de manera muy especialmente preferente del 0,1 al 0 % en peso.
9. Ejemplos de sustratos que pueden usarse para reacciones enzimáticas o biocatalíticas de acuerdo con la invención:
Las enzimas y microorganismos descritos en el presente documento son adecuados en particular para la reacción de compuestos de fórmula general IV anterior. Ejemplos no limitativos de esto están resumidos en la siguiente tabla A con la indicación de la fórmula estructural y del nombre químico.
Tabla A: Otros sustratos
Figure imgf000032_0003
Ċ
continuación
Figure imgf000033_0001
continuación
Figure imgf000034_0001
Ċ
continuación
Figure imgf000035_0001
continuación
Figure imgf000036_0001
Los productos de reacción que se producen en su reacción pueden detectarse y cuantificarse de manera en sí conocida con uso de procedimientos convencionales analíticos, tal como cromatografía, HPLC, cromatografía de gases, espectrometría de masas, CG/EM o MALDI-TOF y combinaciones de los mismos.
Si se usan para el procedimiento organismos o enzimas no inmovilizados, entonces se separan éstos antes de la extracción de manera conveniente, por ejemplo a través de una filtración o centrifugación.
El procedimiento de acuerdo con la invención puede hacerse funcionar de manera discontinua, de manera semicontinua o de manera continua.
Parte experimental
Siempre que no se realicen indicaciones especiales en los siguientes ejemplos, se aplican las siguientes indicaciones generales.
A. Indicaciones generales
Todos los materiales y microorganismos usados son productos que pueden obtenerse en el comercio.
En tanto que no se indique de otra manera, se realiza la clonación y expresión de proteínas recombinantes según procedimientos convencionales, tal como se describen por ejemplo en Sambrook, J., Fritsch, E.F. y Maniatis, T., Molecular cloning: A Laboratory Manual, 2a edición, Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1989.
a) Cepas bacterianas, plásmidos y condiciones de crecimiento
Todos los experimentos se realizaron con E. coli. Las proteínas SHC se expresaron en E. coli BL21 (DE3) pLysS o E. coli Rosetta pLysRAR62, que contienen constructos pET16b con el respectivo gen shc, mediante crecimiento en medio de Luria-Bertani, complementado con ampicilina (100 pg/ml), cloranfenicol (34 pg/ml), y 0,5 mM de isopropiltio-13-D-galactósido con una DO600 de 0,4 y crecimiento adicional durante 4 horas a 30 °C.
b) Constructos de vector
El respectivo gen de escualeno-hopeno ciclasa (por ejemplo Zymomonas mobilis ZMO1548 [NC_006526.2, región: 1578816..1580993]) se amplificó por PCR a partir de ADN cromosómico, usándose correspondientes pares de cebadores (por ejemplo ZMO1548-fwd (5'-gcgctgtttcatatgggtattgaca-3') (SEQ ID NO: 327) y ZMO1548-rev (5' gcgcttaccctggatcctcgaaaat-3') (SEQ ID NO: 328)). El producto de PCR digerido por enzimas de restricción (por ejemplo con Ndel/BamHI) se introdujo mediante clonación en pET16b, obteniéndose por ejemplo pET1584. Los constructos se examinaron mediante secuenciación de ADN y se transformaron en E. coli XL1-blue.
El gen shc de otros microorganismos (por ejemplo de A. acidocaldarius) se clonó de manera análoga.
Todos los plásmidos se transformaron de manera individual en E. coli BL21 (DE3) pLysS o E. coli Rosetta pLysRAR62.
c) Ensayo de ciclación con distintos sustratos (condiciones estándar)
Se suspendieron células E. coli recombinantes en Tris-HCl 20 mM pH 8,0 (3 ml por g de células húmedas). La mezcla de ciclación contenía 250 pl de suspensión celular, 50 pl de tampón citrato 1 M (pH 4,5), sustrato 20 mM (concentración final) y agua hasta 500 pl. Durante la ciclación de escualeno se añadió el 1 % (v/v) de Triton-X100. Para la ciclación de homofarnesol se suspendieron células E. coli (6 g de células húmedas) en tampón de solubilización (fosfato 50 mM, MgCh 10 mM (pH 6,5; volumen total: 25 ml). Las células se disgregaron con 150.000 kPa usando un homogeneizador de Manton-Gaulin. Los residuos celulares insolubles se separaron por centrifugación (15 min a 4°C y 7150*g). La mezcla de ciclación contenía 1 ml de extracto celular bruto y homofarnesol 20 mM en 1,25 ml de tampón (fosfato de calcio 50 mM, MgCh 45 mM (pH 6,5). La mezcla de reacción se agitó a 30 °C por medio de un agitador magnético. La reacción se finalizó mediante extracción con heptano. La fase orgánica se analizó por medio de cromatografía de gases. Se realizaron controles con células E. coli que llevaban un vector vacío así como con células que expresan SCH inactivadas con calor. La formación de productos de ciclación nunca se observó en los controles (datos no mostrados).
d) Cromatografía de gases
Los terpenoides se analizaron cualitativa y cuantitativamente mediante cromatografía de gases usando un aparato de CG Agilent 7890A, equipado con una columna DB-5 (20 m x 0,1 mm x 0,1 pm) y un detector de ionización. Se aplicaron 3 pl del extracto de disolvente en la columna (relación de separación 1:5, velocidad de flujo de helio 0,25 o 0,5 ml/min, temperatura de inyector 250 °C).
Para la separación de monoterpenoides lineales y cíclicos se elevó la temperatura de horno inicial (60 °C) hasta 130 °C con 40 °C/min, con 2 °C/min hasta 150 °C y entonces con 40 °C/min hasta 200 °C. Los tiempos de retención de los terpenoides eran tal como sigue: (R, S)-citronelal (7,55 min), isopulegol (7,70 min), neo-isopulegol (7,90 min), isoisopulegol (8,10 min), neoiso-isopulegol (8,25 min), 1-decanol (9,91 min).
Para la detección de triterpenos se ajustó la temperatura de inyector hasta 300 °C. La temperatura del horno ascendía originariamente a 60 °C, se elevó con 40 °C/min hasta 220 °C y a continuación con 6 °C/min hasta 310°C y allí se mantuvo constante durante 10 min. El escualeno y hopeno eluyeron tras 19,2 min o bien 26,9 min.
Se analizaron homofarnesol y ambroxano en una columna Optima 1 de 10 m (Macherey&Nagel, Düren, Alemania). La temperatura del horno inicial (100 °C) se elevó con 5 °C/min hasta 200 °C y se mantuvo a esta temperatura durante 5 min. A continuación se elevó ésta con 30 °C/min hasta 320 °C. Un análisis duró 40 min. Los tiempos de retención eran tal como sigue: homofarnesol (10,8 min), ambroxano (9,9 min).
Como alternativa a esto se usó un sistema de CG-EM de Shimadzu QP 2010 con una columna FS Supreme 5 (30 m x 0,25 mm x 0,25 pm) para un análisis de CG/EM acoplado (relación de separación 1:20; 3 min 120 °C, aumento hasta 135 °C con 2 °C/min y aumento adicional hasta 365 °C con 10 °C/min, seguido de un enfriamiento hasta 300 °C con 70 °C/min). Los datos de CG-EM se analizaron usando un software LabSolutions GCsolutions Postrun. Debería observarse que los sustratos racemato de citronelal, (R)-citronelal y (S)-citronelal, contienen siempre bajas cantidades de isopulegol y neo-isopulegol como impurezas. Los valores de superficie de CG para estos terpenoides lineales se fijaron como el 100 %. Los valores de superficie para los isómeros de isopulegol en el producto se corrigieron mediante la cantidad de isómero de isopulegol que ya existía en el sustrato. La desviación estándar se calculó por medio de 24 ensayos individuales usando dos cultivos de E. coli cultivados de manera separada.
B. Ejemplos
Ejemplo 1: Preparación de mutantes del tipo F486X de las escualeno-hopeno-ciclasas mediante diseño de proteína racional por medio de mutagénesis de cambio rápido
Los mutantes de distintas escualeno-hopeno-ciclasas se incorporaron por medio de mutagénesis de cambio rápido "Quick Change" en el correspondiente gen. A este respecto se procedió en gran parte según las indicaciones del fabricante (empresa Agilent Technologies, Waldbronn). En primer lugar se realizó una PCR:
Mezcla de reacción de
PCR: 1,8 pl DMSO
2 pl dNTP's (en cada caso 2,5 mM)
1,5 pl cebador directo (10 pmol/pl)
1,5 |J l cebador inverso (10 pmol/jl)
1 Jl molde (1 jg /jl; plásmido recombinante, que lleva el gen SHC, tal como por ejemplo pETZmSHC_1)
0,2 ml polimerasa Prime-Star (Takara, 2,5 unidades/jl)
6 ml 5x tampón
16 Jl H2O
Programa de PCR
(1) 95 °C 3 minutos
(2) 95 °C 45 segundos
(3) 53 °C 1 minuto
(4) 68 °C
5x repetición de las etapas (2), (3) y (4) 17 minutos
A continuación de la PCR se digirieron 10 j l de la mezcla de reacción con la enzima de restricción Dpnl durante al menos 1 hora a 37 °C. Después se realizó la transformación en células E. coli XL1-blue. Tras la secuenciación de ADN tuvo lugar la transformación en la cepa de expresión, por ejemplo, E. coli Rosetta pLysRAR62. De manera análoga puede modificarse el gen también en otros plásmidos de expresión.
Los siguientes cebadores se usaron para la PCR Quick-Change. El intercambio respectivo es evidente por medio de la impresión en negrita en el nombre del cebador. Los genes, que se modifican mediante los respectivos cebadores, están marcados en cursiva en el nombre del cebador; a este respecto corresponde
ZmSHC_1 SEQ ID NO: 2;
ZmSHC_2 SEQ ID NO: 6;
Ap SEQ ID NO: 4;
Bj SEQ ID NO: 5 y
Sc SEQ ID NO: 3.
Nombre del cebador Secuencia SEQ ID NO ZmSHC_1F486Ilefor GTTATTATCCTTATCGATGGCTCCCCAACCG 329 ZmSHC_1F486Ilerev GGTTGGGGAGCCATCGATAAG G AT AATAAC AG 330 ZmSHC_1F486Metfor GTTATTATCCTTATCCATGGCTCCCCAACCG 331
ZmSHC_1 F486Metrev GGTTGGG G AG CC ATG GATAAG G AT AAT AAC AG 332
ZmSHC_ 1 F486Thrfor GTTATTATCCTTATCGGTGGCTCCCCAACCG 333
ZmSHC_1 F486Thrrev GGTTGGGGAGCCACCGAT AAG G AT AAT AAC AG 334 ZmSHC_1F486Glnfor GTTATTATCCTTATCCTGGGCTCCCCAACCG 335 ZmSHC_1F486Glnrev GGTTGGG G AG CCC AG GATAAG G ATAATAAC AG 336
ZmSHC_1 F486Asnfor GTTATTATCCTTATCGTTGGCTCCCCAACCG 337
ZmSHC_1 F486Asn rev GGTTGGG G AG CC AACG ATAAG G ATAATAAC AG 338 ZmSHC_1F486Lysfor GTTATTATCCTTATCTTTGGCTCCCCAACCG 339
ZmSHC_1 F486Lysrev G G TTG G G GAG C CAAAG ATAAG G ATAATAAC AG 340
ZmSHC_1 F486Aspfor GTT ATT ATCCTT AT CAT CGGCTCCCCAACCG 341
ZmSHC_1 F486Asprev GGTTGGG G AG CCG ATG ATAAG G ATAATAAC AG 342 ZmSHC_1F486Glufor GTTATTATCCTTATCTTCGGCTCCCCAACCG 343 ZmSHC_1F486Glurev GGTTGGG GAG CCG AAG ATAAG G ATAATAAC AG 344 ZmSHC_1F486Trpfor GTTATTATCCTTATCCCAGGCTCCCCAACCG 345
ZmSHC_1 F486Trprev GGTTGGGGAGCCTGG GATAAG G ATAATAAC AG 346
ZmSHC_1 F486Argfor GTTATTATCCTTATCACGGGCTCCCCAACCG 347
ZmSHC_1 F486Arg rev GGTTGGGGAGCCCGTGATAAGGATAATAACAG 348
ZmSHC_1 F486Cysfor GTTATTATCCTTATCGCAGGCTCCCCAACCG 349
ZmSHC_1 F486Cysrev GGTTGGG G AG CCTG CG ATAAG G ATAATAAC AG 350
ZmSHC_1 F486Gfor GTTATTATCCTTATCACCGGCTCCCCAACCG 351
ZmSHC_1 F486Grev GGTTGGGGAGCCGGTGATAAGGATAATAACAG 352
ZmSHC_1 F486Sfor GTTATTATCCTTATCGCTGGCTCCCCAACCG 353 ZmSHC_1F486Srev GGTTGGG G AG CC AG CG ATAAG G ATAATAAC AG 354
ZmSHC_1 F486Pfor GTTATTATCCTTATCCGGGGCTCCCCAACCG 355
(continuación)
Nombre del cebador Secuencia SEQ ID NO ZmSHC_1F486Prev GGTTGGGGAGCCCCGGATAAGGATAATAACAG 356
ZmSHC_1 F486Hfor GTTATTATCCTTATCATGGGCTCCCCAACCG 357
ZmSHC_1 F486Hrev GGTTGGGGAGCCCATGATAAGGATAATAACAG 358
ZmSHC_1 F486Lfor GTTATTATCCTTATCCAGGGCTCCCCAACCG 359
ZmSHC_1 F486Lrev GGTTGGGGAGCCCTGGATAAGGATAATAACAG 360
ZmSHC_1 F486Vfor GTTATTATCCTTATCAACGGCTCCCCAACCG 361
ZmSHC_1 F486Vrev GGTTGGGGAGCCGTTGATAAGGATAATAACAG 362
ZmSHC_1 F486Afor GTTATTATCCTTATCCGCGGCTCCCCAACCG 363
ZmSHC_1 F486Arev GGTTGGGGAGCCGCGGATAAGGATAATAACAG 364
ZmSHC_1 F486Yfor GTTATTATCCTTATCATAGGCTCCCCAACCG 365
ZmSHC_1 F486Yrev GGTTGGGGAGCCTATGATAAGGATAATAACAG 366
ZmSHC_ 1Y702Cfor GCCGATAAAAATCGCAACGCAGCATAAACG 367
ZmSHC_ 1Y702Crev CGTTTATGCTGCGTTGCGATTTTTATCGGC 368
ZmSHC_ 1Y702Ffor G C C G AT AAAAAT CTTTACGCAG C AT AAAC G 369
ZmSHC_ 1Y702Frev CGTTTATGCTGCGTAAAGATTTTTATCGGC 370
ZmSHC_ 1Y702Afor GCCGATAAAAATCCGCACGCAGCATAAACG 371
ZmSHC_ 1Y702Arev CGTTTATGCTGCGTGCGGATTTTTATCGGC 372
ZmSHC_ 1Y702Sfor GCCGATAAAAATCGCTACGCAGCATAAACG 373
ZmSHC_ 1Y702Srev CGTTTATGCTGCGTAGCGATTTTTATCGGC 374
ZmSHC_1Y561Afor GAACCGCACCGGTGCCATAGATCGCATTAACG 375 ZmSHC_1Y561Arev GGTTTGGTCGTTGGGGCGTTAATGCGATCTATGG 376
ZmSHC_ 1Y705Afor CCATAATCGGGAAGAATTGCCGCGCAAAATC 377
ZmSHC_ 1Y705Arev CTGCGTTATGATTTTGCGCGGCAATTCTTC 378
ZmSHC_2F486Cfor GGCGGTTGGGGGGCTTGCGATGCCAATAACAG 379 ZmSHC_2F486Crev CTGTTATTGGCATCGCAAGCGCCCCAACCGCC 380
ApF486Crev CATTATCTTTATCGCATGCACCC C AAC C AC C 381
ApF486Cfor GGTGGTTGGGGTGCA TGCGATAAAGATAATG 382
B/F486Cfor CGGCTGGGGCGCGTGCGATAAAGATAAC 383
B/F486Crev GTTATCTTTATCGCACGCGCCCCAGCCG 384
ScF486Cfor CGGCGCCTGGGGCGCCTGCGACGTCGACAAC 385
ScF486Crev GTTGTCGACGTCGCAGGCGCCCCAGGCGCCG 386
Ejemplo 2: Ensayos de actividad con mutantes de la escualeno-hopeno-ciclasa-1 (SHC-1) de Zymomonas mobilis
La influencia de distintas mutaciones sencillas, preparadas de acuerdo con el ejemplo 1, en la posición de secuencia que se corresponde con F486 sobre la actividad ciclasa se determinó para distintos sustratos.
a) Citronelal
Tras la detección general de una baja actividad de ciclación de la escualeno-hopeno-ciclasa-1 de Zymomonas mobilis (SEQ ID NO:2) frente a citronelal, se mejoró claramente la tasa de conversión mediante diseño de proteína racional. El intercambio del resto de fenilalanina F486 por alanina, condujo en primeros ensayos (véase la figura 2) a una producción claramente aumentada de isopulegol (2) partiendo del citronelal (1).
Figure imgf000040_0001
La actividad aumentada del mutante SHC_1-F486A se sometió a estudio de manera más detallada a continuación. A este respecto, además de una reacción esencialmente mejor del sustrato citronelal pudo determinarse también que ésta prefiere el isómero R(+) como sustrato y en comparación con el tipo natural éste reacciona también en tiempo esencialmente más corto (véase la figura 2). Mientras que con la enzima de tipo natural puede medirse la reacción con R(+)-citronelal solo después de incubación más larga, muestra el mutante F486A altas conversiones en particular al comienzo de la reacción. Este efecto no puede observarse en el caso de S(-)-citronelal como sustrato. Es llamativo que el mutante F486A forma solo isopulegol I y II, independientemente de la estereoconfiguración del sustrato. El tipo natural, por el contrario, depende de la estereoconfiguración del sustrato y forma además de isopulegol I predominantemente isopulegol II a partir de R(+)-citronelal y casi exclusivamente isopulegol III a partir de S(-)-citronelal.
Basándose en estos resultados se sometió a estudio en experimentos de continuación la importancia del resto de aminoácido en la posición 486 de manera más exacta. Para ello se intercambió por medio de mutagénesis el resto de fenilalanina por cualquier otro aminoácido y se sometió a ensayo la actividad de las distintas muteínas con citronelal como sustrato (secuencias véase la figura 1a y b). Se determinó que algunos aminoácidos en esta posición mejoran no solo la conversión de citronelal mediante la enzima, sino que adicionalmente conducen a una especificidad de producto más alta en la reacción, de manera que se producen menos isómeros del isopulegol (véase la figura 3).
El intercambio por arginina, prolina y lisina conduce a una pérdida de la actividad frente a citronelal. Las cantidades de producto determinadas pueden encontrarse en igual distribución también como impureza en el control negativo ('K' véase la figura 3). La máxima actividad se observó tras el intercambio por valina, treonina, cisteína, isoleucina y alanina. En total es llamativo el espectro de producto modificado de algunas muteínas. No todas muestran la formación de tres picos de isopulegol tal como el tipo natural y también se diferencia la distribución de cantidad.
Existen en total 23 isómeros de isopulegol:
Figure imgf000040_0002
Hasta ahora pudo asignarse el producto principal (isopulegol I) al par de enantiómeros(1R,3R,6S)-isopulegol o bien (1S,3S,6R)-isopulegol.
El rendimiento más alto de isopulegol con los mínimos productos secundarios (que están constituidos por otros isómeros) acompañados de alta actividad enzimática lo muestra el mutante Zm-SHC-1 F486C.
b) Escualeno
Las claras modificaciones en la actividad tras la mutación en la posición F486 se muestran también con escualeno como sustrato. De manera interesante proporciona en este caso el intercambio de la fenilalanina por tirosina casi una duplicación de la conversión (véase la figura 4).
Ejemplo 3: Ensayos de actividad con mutantes de otras escualeno-hopeno-ciclasas
La influencia de distintas mutaciones sencillas, preparadas de acuerdo con el ejemplo 1, en la posición de secuencia que se corresponde con F486 sobre la actividad ciclasa de distintas otras SHC se determinó para distintos sustratos de citronelal (en cada caso incubación de 20 mM durante la noche):
Se trata a este respecto de los siguientes mutantes:
Ap-SHC: F481C,
Bj-SHC: F447C,
Sc-SHC: F449C,
Zm SHC-2: F438C
Los restos de fenilalanina se encuentran a este respecto en posiciones que son análogas a F486 de Zm-SHC-1 (SEQ ID NO:2).
Los resultados pueden deducirse de la figura 5 (racemato de citronelal como sustrato), de la figura 6 (R(+)-citronelal como sustrato), y de la figura 7 (S(-)-citronelal como sustrato). Como control sirvió una mezcla de reacción sin biocatalizador activo.
Se observó que las enzimas de tipo natural mediante mutación en la correspondiente posición F486 (de Zm SHC-1) indicada pueden ciclar ahora citronelal para dar isopulegol y además hacer reaccionar la forma R(+) con elevada selectividad en comparación con la forma S(-).
Ejemplo 4: Reacción de compuestos de fórmula IV
Estas sustancias se hicieron reaccionar en condiciones que se corresponden con aquéllas que se usaron para la reacción de citronelal, tal como se ha descrito anteriormente.
Ejemplo 5: Aislamiento y caracterización de la escualeno-hopeno-ciclasa de Zymomonas mobilis (Zm-SHC) En la solicitud internacional PCT/EP2010/057696 se describe, cómo pudo amplificarse, con ayuda de oligonucleótidos específicos, el gen de Zm-SHC a partir del ADN genómico de Zymomonas mobilis y cómo pudo expresarse en Escherichia coli.
a) Material y procedimientos:
A continuación se ocupa solo del material y procedimientos, que no se mencionaron en la solicitud internacional PCT/EP2010/057696 en esta forma.
b) Cepas, plásmidos y condiciones de cultivo:
Se usó la cepa de E. coli DH5a, la cepa de E. coli BL21 (DE3)pLysS (Novagen) y la cepa E. coli Rosetta. El plásmido pET16b (Novagen) se usó para la clonación. Para la sobreexpresión de la SHC se transformó además el plásmido pLysRAR62 adicionalmente para la adaptación del uso de codón en E. coli. Además se usó el plásmido pDHE+ZmSHC-1 de E. coli Lu15568 (solicitud internacional PCT/EP2010/057696). El cultivo de las cepas tuvo lugar con medio LB a 30 °C.
c) Productos químicos:
Se adquirieron escualeno, (+/-)-citronelal, (+)-R-citronelal y (-)-S-citronelal de Sigma (Sigma-Aldrich Chemie GmbH, München). Las enzimas de restricción, T4-ligasa, ADN-polimerasa procedían de New England Biolabs (New England Biolabs GmbH, Frankfurt).
d) Aislamiento del ADN y transformación:
Se aislaron plásmidos de E. coli por medio del kit Qiaprep Spin Miniprep de Qiagen (Qiagen, GmbH, Hilden). Para extracciones en gel o purificaciones por PCR se usó el kit de extracción en gel Qiaquick de Qiaget. Todas las cepas de E. coli usadas se transformaron por medio del procedimiento de CaCl2.
e) PCR y secuenciación:
El ADN de Zymomonas mobilis subspec. mobilis CP4 se proporcionó por Herrn Prof. Dr. Sprenger (Institut für Mikrobiologie, Universitat Stuttgart). La PCR se realizó con la polimerasa Prime Star. Se usaron los siguientes cebadores para la síntesis del gen escualeno-hopeno-ciclasa de Zymomonas mobilis:
SHC_1: SHC-for TATGCATATGGGTATTGACAGAAT (SEQ ID NO: 387)
SHC-rev CCGGATCCTCAATTATTCAAATCAATC (SEQ ID NO: 388) La corrección de los genes clonados se sometió a prueba por medio de secuenciación mediante la empresa GATC Biotech. Los análisis de secuencia se realizaron por medio del programa Clone Manager7.0. Tras la restricción de los correspondientes materiales amplificados se clonaron éstos en marco en el vector pET16b con etiqueta de His codificada en el extremo N terminal. Los plásmidos se transformaron a continuación en primer lugar en E. coli DH5a y a continuación en E. coli BL21 (DE3)pLysS y E. coli Rosetta. Para la mejor expresión se transformó en las cepas E. coli Rosetta, adicionalmente a los constructos pET16b, el plásmido pLysRAR62. De manera paralela se realizaron correspondientes clonaciones con vectores vacíos. Además se transformó el plásmido pDHE+ZmSHC_1 (corresponde a SHC_1 con uso de codón adaptado a E. coli) en E. coli BL21 (DE3)pLysS.
f) Expresión y disgregación celular:
Los correspondientes transformados de E. coli BI21 (DE3) pLysS o bien de E. coli Rosetta se cultivaron en medio LB con ampicilina y cloranfenicol (100 pg/ml o bien 32 pg/ml) a 3o °C. La síntesis de las escualeno-hopeno-ciclasas se indujo mediante adición de IPTG 0,5-1 mM o bien 0,1 % de ramnosa (en el caso del uso de los derivados de pDHE) con un DO600 de 0,4-0,6. Las células se dejaron crecer posteriormente durante 4-6 h y a continuación se recogieron. Para ello se separaron por centrifugación las células y se suspendieron en 5 ml/g de peso en húmedo de Tris/HCl 25 mM con el 40 % de glicerol. Si no se usaron las células de manera inmediatamente posterior, tuvo lugar un almacenamiento a -20 °C. Para la disgregación de las células se añadieron éstas en cada caso 2x con mediante la prensa francesa y se usaron o bien directamente o tras separación de los residuos celulares mediante centrifugación para las determinaciones de la actividad. Como alternativa tuvo lugar la disgregación de células con ultrasonido. Tras la centrifugación se disolvieron las proteínas SHC a continuación con tampón de solubilización (Tris/HCl 50 mM pH 8, MgCl2 10 mM, 1 % de Triton X-100) de los residuos celulares y por consiguiente se enriquecieron parcialmente.
g) Determinaciones de la actividad:
Cada mezcla de reacción para la determinación de la actividad de las escualeno-hopeno-ciclasas tenía un volumen final de 1 ml. Éste se componía de 600 pl de células disgregadas por medio de prensa francesa (como alternativa 800 pl tras solubilización de la membrana celular), tampón citrato de Na 100 mM con distintos valores de pH (se sometieron a ensayo de pH 4,0 a pH 8,0) y solución de sustrato 10 mM [(+/-)citronelal, (+)-R-citronelal y (-)-S-citronelal]. Además del sustrato y H2O contenía la solución de sustrato aún Triton X-100, que se encontraba en la mezcla de reacción de actividad en cada caso en una concentración del 0,2 %. Las mezclas de reacción se incubaron durante de 6 h a 24 h a temperaturas de 22 °C, 30 °C y 37 °C con agitación. La extracción del sustrato y posibles productos se realizó con un volumen de cloroformo o hexano/propanol en la relación 2:3. El extracto se usó directamente para el análisis de cromatografía de gases.
h) Mediciones de CG:
Las mediciones mediante cromatografía de gases tuvieron lugar en un cromatógrafo de gases Agilent 7890A con detector de ionización a la llama. Como columnas se usó una DB-5 (Agilent Technologies) con una longitud de 20 m, un diámetro de 0,1 mm y 0,25 pm de revestimiento. Una identificación se realizó a través de la comparación de los tiempos de retención con soluciones estándar existentes.
Para la seguridad se sometieron a estudio de manera paralela las muestras en un cromatógrafo de gases Shimadzu con espectrómetro de masas. Usando la columna FS Supreme Colum con 30 m de longitud, diámetro interno de 0. 25 mm y 0,25 pm de revestimiento pudieron ajustarse los tiempos de retención de nuevo con soluciones estándar y pudieron analizarse los respectivos espectros de masas de las sustancias constitutivas.
El diastereómero designado a continuación con isopulegol I pudo asignarse con ayuda de un patrón al (1R,3R,6S) o bien (1S,3S,6R) isopulegol, mientras que para los isómeros designados como isopulegol II e isopulegol III no pudo encontrarse ninguna asignación.
i) Resultados de las determinaciones de actividad:
1. Ensayo 1a: (comparación) (controles, es decir resultados con proteína hervida, con vector vacío y sin proteína)
Figure imgf000042_0001
En las siguientes indicaciones para el sustrato rac-citronelal se realizan ya descontando las cantidades de isopulegol detectadas en los controles.
2. Ensayo 1b: Comparación de las dos proteínas SHC_1 sobreexpresadas (a partir del vector pDHE y pET16b e influencia de la etiqueta de His sobre la actividad a pH 4,5)
Figure imgf000043_0008
3. Ensayo 1c: Dependencia de pH
Figure imgf000043_0003
4. Ensayo 1d: Influencia de sales a pH 4,5
Figure imgf000043_0006
5. Ensayo 1e: Influencia de la temperatura a pH 4,5
Figure imgf000043_0007
6. Ensayo 2: S(-)-citronelal como sustrato
Figure imgf000043_0001
Figure imgf000043_0004
7. Ensayo 3: R-(+)-citronelal como sustrato
Figure imgf000043_0002
Figure imgf000043_0005
continuación
Figure imgf000044_0001
j) Resumen de los resultados:
La escualeno-hopeno-ciclasa de Zymomonas mobilis pudo prepararse de manera recombinante en E. coli. La enzima puede hacer reaccionar citronelal para dar isopulegol.
A este respecto no mostraron las dos proteínas Zm-SHC-1 sobreproducidas, una vez sin y una vez con etiqueta de His colgada en el extremo N terminal, diferencias en su actividad en las condiciones sometidas a ensayo (véase el ensayo 1b).
Esta reacción se detectó tras 12 h con los procedimientos descritos. A este respecto tenía la reacción una baja dependencia del valor de pH. En un intervalo de pH de pH 4 a pH 6 pudieron medirse tras incubación de 20 horas, tasas de conversión de en total aproximadamente el 5 % con respecto a distintos isómeros de isopulegol.
A este respecto no era decisivo si las mezclas de reacción se incubaron a TA, 30 °C o 37°C. Tampoco la adición de iones divalentes, tal como por ejemplo MgCh, elevó la conversión (véase el ensayo 1d). Sin embargo era decisivo que se dializaran los extractos de células en mediciones por un valor de pH de pH 5 o bien antes de la adición del sustrato o se añadiera EDTA a las mezclas de reacción, para suprimir una reducción del sustrato citronelal en citronelol mediante las enzimas del huésped. Una influencia sobre la actividad de Zm-SHC-1 mediante este tratamiento no pudo mostrarse. Si estaba ausente este tratamiento, entonces se redujo el sustrato en el intervalo de 20 h casi completamente en citronelol y ya no tuvo lugar ninguna ciclación medible para dar isopulegol. La Zm-SHC-1 no puede ciclar por consiguiente citronelol, pero sí citronelal para dar isopulegol. Muy probablemente son las deshidrogenasas inespecíficas las responsables de la reacción de reducción.
Para excluir que una reacción química sea responsable de la ciclación, se usaron extractos celulares hervidos. En estos controles y controles con extractos celulares procedentes de cultivos con vectores vacíos no pudo determinarse sin embargo ninguna conversión correspondiente (véase el ensayo 1a).
Con (+/-)-citronelal como sustrato pudieron detectarse a continuación de la reacción distintos isómeros, aún no identificados de manera exacta, de isopulegol (véase el ensayo 2 y 3). Para el control de si estos isómeros se producían a partir de los distintos isómeros del sustrato de partida o solo se aceptaba un isómero como sustrato y se hacía reaccionar de manera diferente, se realizaron los mismos estudios con (+)-R-citronelal y (-)-S-citronelal. A este respecto se mostró que dependiendo del sustrato se forman diferentes isómeros de isopulegol. La reacción de (+)-R-citronelal tuvo lugar a este respecto de manera interesante de pH 4 a pH 7 sin diferencias claras con una tasa de aproximadamente el 5 %. El enantiómero se hizo reaccionar, por el contrario, solo hasta un valor de pH de pH 6 con tasas de conversión de aprox. el 4,5 %. También en este caso apenas oscilaba la tasa de conversión en los valores de pH individuales entre pH 4 y pH 6.
Secuencias:
SEQ ID NO: 1- 326 secuencias de ácido nucleico/aminoácidos de distintos genes SHC
SEQ ID NO: 327-388 cebador de PCR
Sigue un listado de secuencias de enzimas SHC que pueden usarse de acuerdo con la invención:
Secuencias de enzimas
MNMASRFSLKKILRSGSDTQGTNVNTLIQSGTSDIVRQKPAPQEPADLSALKAMGNSLTHTLSS ACEWLMKQQKPDGHWVGSVGSNASMEAEWCLALWFLGLEDHPLRPRLGKALLEMQRPDGS WGTYYGAGSGDINATVESYAALRSLGYAEDDPAVSKAAAWIISKGGLKNVRVFTRYWLALIGE WPWEKTPNLPPEIIWFPDNFVFSIYNFAQWARATMMPLAILSARRPSRPLRPQDRLDALFPGG RANFDYELPTKEGRDVIADFFRLADKGLHWLQSSFLKRAPSREAAIKYVLEWIIWHQDADGGW GGIQPPWVYGLMALHGEGYQFHHPVMAKALDALNDPGWRHDKGDASWIQATNSPVWDTML SLMALHDANAEERFTPEMDKALDWLLSRQVRVKGDWSVKLPNTEPGGWAFEYANDRYPDTD DTAVALIAIASCRNRPEWQAKGVEEAIGRGVRWLVAMQSSCGGWGAFDKDNNKSILAKIPFCD FGEALDPPSVDVTAHVLEAFGLLGLPRDLPCIQRGLAYIRKEQDPTGPWFGRWGVNYLYGTGA VLPALAALGEDMTQPYISKACDWLINCQQENGGWGESCASYMEVSSIGHGATTPSQTAWALM GLIAANRPQDYEAIAKGCRYLIDLQEEDGSWNEEEFTGTGFPGYGVGQTIKLDDPAISKRLMQG AELSRAFMLRYDLYRQLFPIIALSRASRLIKLGN
>seq_ID 2
MGIDRMNSLSRLLMKKIFGAEKTSYKPASDTIIGTDTLKRPNRRPEPTAKVDKTIFKTMGNSLNN TLVSACDWLIGQQKPDGHWVGAVESNASMEAEWCLALWFLGLEDHPLRPRLGNALLEMQRE DGSWGVYFGAGNGDINATVEAYAALRSLGYSADNPVLKKAAAWIAEKGGLKNIRVFTRYWLALI GEWPWEKTPNLPPEIIWFPDNFVFSIYNFAQWARATMVPIAILSARRPSRPLRPQDRLDELFPE GRARFDYELPKKEGIDLWSQFFRTTDRGLHWVQSNLLKRNSLREAAIRHVLEWIIRHQDADGG WGGIQPPWVYGLMALHGEGYQLYHPVMAKALSALDDPGWRHDRGESSWIQATNSPVWDTM LALMALKDAKAEDRFTPEMDKAADWLLARQVKVKGDWSIKLPDVEPGGWAFEYANDRYPDTD DTAVALIALSSYRDKEEWQKKGVEDAITRGVNWLIAMQSECGGWGAFDKDNNRSILSKIPFCD FGESIDPPSVDVTAHVLEAFGTLGLSRDMPVIQKAIDYVRSEQEAEGAWFGRWGVNYIYGTGA VLPALAAIGEDMTQPYITKACDWLVAHQQEDGGWGESCSSYMEIDSIGKGPTTPSQTAWALM GLIAANRPEDYEAIAKGCHYLIDRQEQDGSWKEEEFTGTGFPGYGVGQTIKLDDPALSKRLLQG AELSRAFMLRYDFYRQFFPIMALSRAERLIDLNN
>seq_ID 5
MTVTSSASARATRDPGNYQTALQSTVRAAADWLIANQKPDGHWVGRAESNACMEAQWCLAL WFMGLEDHPLRKRLGQSLLDSQRPDGAWQVYFGAPNGDINATVEAYAALRSLGFRDDEPAVR RAREWIEAKGGLRNIRVFTRYWLALIGEWPWEKTPNIPPEVIWFPLWFPFSIYNFAQWARATLM PIAVLSARRPSRPLPPENRLDALFPHGRKAFDYELPVKAGAGGWDRFFRGADKVLHKLQNLGN RLNLGLFRPAATSRVLEWMIRHQDFDGAWGGIQPPWIYGLMALYAEGYPLNHPVLAKGLDALN DPGWRVDVGDATYIQATNSPVWDTILTLLAFDDAGVLGDYPEAVDKAVDWVLQRQVRVPGDW SMKLPHVKPGGWAFEYANNYYPDTDDTAVALIALAPLRHDPKWKAKGIDEAIQLGVDWLIGMQ SQGGGWGAFDKDNNQKILTKIPFCDYGEALDPPSVDVTAHIIEAFGKLGISRNHPSMVQALDYI RREQEPSGPWFGRWGVNYVYGTGAVLPALAAIGEDMTQPYIGRACDWLVAHQQADGGWGE SCASYMDVSAVGRGTTTASQTAWALMALLAANRPQDKDAIERGCMWLVERQSAGTWDEPEF TGTGFPGYGVGQTIKLNDPALSQRLMQGPELSRAFMLRYGMYRHYFPLMALGRALRPQSHS
>seq_ID 78
MTLTSSASARAPRDPGNYQTALQSTVRAAADWLIANQKPDGHWVGRAESNACMEAQWCLAL WFMGLEDHPLRKRLGQSLLDTQRPDGAWQVYFNAPNGDINATVEAYAALRSLGYPDSEPAVR RAREWIEAKGGLRNIRVFTRYWLALIGEWPWEKTPNIPPEVIWFPLWFPFSIYNFAQWARATLM PIALLSARRPSRPLPPENRLDTLFPRGRDAFDYELPVKANAGGWDKFFRGADKVLHALQNFGN RLNLGLFRPAATSRVLEWMIRHQDFDGAWGGIQPPWIYGLMALYAEGYPLNHPVLAKGLDALN DPGWRVDVGEATYIQATNSPVWDTILTLLAFDDAGVLGDYPDAVDKAVNWVLARQVRVPGDW SMKLPHVKPGGWAFEYANNHYPDTDDTAVALIALAPLRHDPKWKAKGIDEAIQLGVDWLIGMQ SQGGGWGAFDKDNNQQILTKIPFCDYGEALDPPSVDVTAHIVEAFGKLGISRNHPSMVQALDYI RKEQEPSGPWFGRWGVNYVYGTGAVLPALAAIGEDMTQPYIGRACDWLVAHQQPDGGWGE SCASYMDISAVGRGTTTASQTAWALMALLAAN RPQDKDAIERGCMWLVERQSAGTWDEPEFT GTGFPGYGVGQTIKLTDPSLQERLMQGPELSRAFMLRYGMYRHYFPLMALGRALRPQGHG
>seq_ID 209
MDSILAPRADAPRNIDGALRESVQQAADWLVANQKPDGHWVGRAETNATMEAQWCLALWFL GLEDHPLRVRLGRALLDTQRPDGAWHVFYGAPNGDINATVEAYAALRSLGHRDDEEPLRKAR DWILSKGGLANIRVFTRYWLALIGEWPWEKTPNILPEVIWLPTWFPFSIYNFAQWARATLMPIAV LSAHRPSRPLAPQDRLDALFPQGRDSFNYDLPARLGAGVWDVIFRKIDTILHRLQDWGARRGP HGIMRRGAIDHVLQWIIRHQDYDGSWGGIQPPWIYGLMALHTEGYAMTHPVMAKALDALNEPG WRIDIGDATFIQATNSPVWDTMLSLLAFDDAGLGERYPEQVERAVRWVLKRQVLVPGDWSVKL PDVKPGGWAFEYANNFYPDTDDTSVALMALAPFRHDPKWQAEGIEDAIQRGIDWLVAMQCKE GGWGAFDKDNDKKILAKIPFCDFGEALDPPSADVTAHIIEAFAKVGLDRNHPSIVRALDYLKREQ EPEGPWFGRWGVNYVYGTGAVLPALAAIGEDMRQPYIARACDWLIARQQANGGWGESCVSY MDAKQAGEGTATASQTAWALMALIAADRPQDRDAIERGCLYLTETQRDGTWQEVHYTGTGFP GYGVGQTIKLNDPLLSKRLMQGPELSRSFMLRYDLYRHYFPMMAIGRVLRQRGDRSGH
>seq_ID 193
MNVIRQLNSGVNAAKSLDDGIESAIEWLAENQDKEGFWVGMLESNSCIEAEWILAMHLLGVKD DPKYDKWQAILNEQREDGSWAVYYDAPAGDINATVEAYAALRTAGFGAGDERLIKARNWIFS HGGLKNVRVFTRYWLALIGEWPWDETPALAPEIIYLPAWCPLNIYDFACWARATLVPLSVLSVR RPVKPLPAESRLDELFPEGRENADYSLPESEKGLAERFFLWDWFLKKYNRLPMQFGREKAIR LCLEWIVRHQDYDGGWGGIQPPLIYSLIALNTEGYGINHPVISKGLDAFNPPWAYEKNGGWLQ CSESPVWDTLFTMLALFESGCSFDDTPMMRPALDWILSKQITSWGDWQVKVRGVRPGGWAF ERANTAYPDVDDTALALVVLAEARRHVKDSAAVDAALERAEEWILGLQCRNGGWAAFDRDNN SAIVTKIPFCDFGEVLDPPSVDVTAHVVEALAALGRDRHDPVVARALKYIRSEQEPGGSWFGR WGVNHIYGTCAVLPALAAIGEDMRAPYVLRAADWLVRHQNDDGGWGESCASYMDDSQCGQ GSSTASQTGWALMALVAMSSHDYDEAIRRGLDYLLSHQKSGTWDEPQYTGTGFPGYGVGER TNLKEAGATLDQGCELARGFMINYNMYRHYFPLIAMARARRHLGLAANPRHQDSRSSVEVAPE ALRGRACG
>seq_ID 246
MRRLDTFPPEIPTGSRDKPPSGEEHSCSTPAEPLRSRLDEGILRAVDWLVCDQHPDGFWAGM LQSNSCMEAEWVLAMHFLGIDDDPKYDGVIRAILGEQRADGSWGVFHKAPNGDINTTVECYAA LRASGLAPESAPLSSAREWILAGGGLANIRNFTKYWLALIGEWPWEGTPTIPPELIFFPPRMPLN IYHFASWARSTIVPLSILSARRPVRPLPEDRRLDELFPQGRSAFDFRLPRKDGWLSWEGFFHVC DRILRLYARTRRAPFRETAIRVCLEWIIRRQETDGAWSGIQPPWIYALLALHAEGYGLDHPILRA GLRAFDSHWSYERDGGIYLQASESPVWDTVLSLRALADCGEERKASVSIASALEWLLNRQISV PGDWAVRVPSVPCGGWAFQRANSFYPDVDDTAVAIEVLARLRPFTANQSAVDRAIRSARDWV LAMQCSNGGWAAFDRDNDFKLVTKIPFCDFGELLDPPSVDVTAHVIEALAALGWDMTSREIEA AVSFIRREQEAEGSWFGRWGVNHIYGTATVLPALRAIGEDMSSAYVLRAADWLASRQNADGG WGETPASYMDDSLRGVGESTASQTAWAIMGLVAVGSGAHDDTVRRGIDFLLFAQHGGTWEE PQYTGTGFPGYSVGERIRLRDMGASLKQGTELQRAFMINYNLYRHYFPLMALGRARYHLQLRR SAREGGNGETTPNGSAL
>seq_ID 151
MKISKNPISHALTSFNDAARETADNSAARKSGKIHHLPATIWKKKESTVSSPLDIAIERTQEFFFR EQLPAGYWWAELESNATITAEYIMLFHFMGLVNREKERKMANYLLRQQTTEGYWTIWHGGPG DLSTTIEAYFALKLAGYPADHPSMSKARAFILEHGGILKARVFTKIFLALFGEFSWLGVPSMPIEM MLLPAGFTFNMYEFSSWSRATIIPLSIVMAERPVRKLPPWARVQELYVRPPRPTDYTFTKEDGIL TWKNIFIGIDHVLKVYEASPIRPGRKKAMAIAEKWVLEHQEPTGDWGGIQPAMLNSVLALHVLG YANDHPAVAKGLQALANFCIEGEDELVLQSCVSPVWDTALGLMAMVDSGVPTDHPSLSKAAQ WLLDREVRRPGDWKIKCPDLEPGGWAFEFMNDWYPDVDDSGIVMMAIKNVKVKDQRAKEDTI TRGIAWCLGMQSKNGGWGAFDKDNTKHILNKIPFADLEALIDPPTADLTGRMLELMGTYGYPK DHPAAVRALKFIRETQEPDGPWWGRWGVNYIYGTWSVMSGLAAFGEDMSQPWIRKAVDWLV EHQNEDGGWGECCESYADPRLAGVGPSTASQTGWALLTLLAAGEVASSSVVRGVQYLLDTQ KPDGTWDEDAFTGTGFPKFFMIKYHIYRNCFPLMALGRYRTLAGKGL
>seq-ID 142
MKSRKYPISHALTSFNHTTVAPVEAPAPISVKSPAKVHRLPSSIWKKMEGSAGNPLDKAVELTR DFFFREQLPDGYWWAELESNVTITAEYIMLFHFLGMVDKDKERKMANYLLRQQTEEGYWTVW HNGPGDLSTTIEAYFALKLAGYHADHIALRKARDFILANGGILKSRVFTKTFLAMFGEFSWLGVP SMPIELMLLPDWAYLNVYEFSSWARATIIPMSVLMANRPVYKLPPHARVQELYVRPPRPTDYTF TKEDGIFSLKNFFIGVDHLLKIYESSPIRPFKKRATEKVEQWILEHQEKTGDWGGIQPAMLNAILA LHCLGYANDHPAVAKGLEALANFTIEDSDSLVLQSCISPVWDTALVLQAMQEASVPLDHPSLIK ASQWLLDREVRIKGDWKIKSPDLEPGGWAFEFQNDWYPDVDDSTAVMIAIKDIKVKNTKARQD AIRRGIDWCLGMQSENGGWAAFDKDNTKHMLNKIPFADLEALIDPPTADLTGRMLELMGNFGY TKDHPQAVSALEFLKNEQEPEGPWFGRWGVNYIYGTWYVLIGLEAIGEDMNSPYIKKSVNWIK SRQNLDGGWGEVCDSYWDRTLMGCGPSTASQTSWALMALMAAGEVGCQAVERGIQYLLAT QNSDGTWDEEAFTGTGFPKYFMIKYHIYRNCFPLTALGRYRRLTAGTHAQ
>seq_ID 152
MNSCKHPISHALTSFNGETADAAKKQPVKPGAKIHHLPASIWKKKEGESKSPLDIAIENSRDFFF REQLPDGYWWAELESNCTITAEYLMLYHFMGIVDQERERKMATYLLSKQTAEGFWTIYFGGPG
DLSTTVEAYFALKLAGYPADHPAMAKARAFILDNGGIIKCRVFTKIFLALFGEFAWFGVPSMPIEL ILLPNWAYFNMYELSSWSRATIIPLSIVMTERPVRKLPPSSRVQELYVRPPRPIDYTFSKEDGIIT WKNFFIGVDHILKVYESNPIRPFKKRALATAENVWLDHQESTGDWGGIQPAMLNSVLALHCLG YANDHPAVAKGLEALANFCIETEDSLVLQSCISPIWDTALALKALVDSDVPTDHPALVKAAQWLL DKEVRKPGDWKIKCPELESGGWAFEFLNDWYPDVDDSGFVMMALKDVAVKDRKSMDGAIKR GINWCLGMQSKNGGWGAFDKDNTKYLLNKIPFADLEALIDPPTADLTGRMLELMGTFGYSKDY PAAVRALEFIKKNQEPEGSWWGRWGVNYIYGTWSVLGGLAAIGEDLNQPYIRKAVNWLKSRQ NMDGGWGETCESYHDTSLAGIGESTPSQTGWALLSLMSAGEANSSTVARGIQYLIANQKSDG TWDEEQYTGTGFPKFFMIKYHIYRNCFPLTALGTYRKLTGGMA
>seq_ID 146
MTSPFKHPISNALTSFNGNFAEPEQCVEQQTGAKVHHLPASIWKRKMGKAKSPLDVAIEGSRD FFFQEQLPKGYWWAELESNVTITAEYIMLFHFLGLVDRERQRKMSNYLLSKQTEEGFWPIYYG GPGDLSTTIEAYFALKLSGYPADHPALAKARAFILEQGGWKSRVFTKIFLALFGEFEWQGVPS MPVELNLLPDWAYINIYEFSSWARATIVPLSWMHSRPVRRVPPSARVQELFVRQPTAADYSFA KNDGIFTWENFFLGLDRVLKVYEKSPLRPFKNMALAKAEEWVLEHQEPTGDWGGIQPAMLNA VLALNVLGYQNDHPAVEQGLRALANFCIETEDQLVLQSCVSPVWDTALALKALLDAGVPPDHP SLVKGAQWLLDKEVTRPGDWRVKSPALEPGGWAFEFLNDWYPDVDDSGFVMIALKGIQVKDR KSMDAAIKRGINWCLGMQSKNGGWGAFDKDNTRHVLNKIPFADLEALIDPPTADLTGRMLELM GTFNYPITLPAAQRAIEFLKKNQEPEGPWWGRWGVNYLYGTWSVLCGLAAIGEDMDQPYIRKA VNWIKSRQNIDGGWGETCQSYHDRTLAGVGESTPSQTGWALLGLLAAGEMHSATVVRGVQY LISTQNSDGTWDEQQYTGTGFPKYFMIKYHIYRNCFPLMALGTYRTLTRTQP
>seq_ID 147
MSPCKHPISHALTSFNGETADSVPVQTPKTGAKIHHLPPSIWKKKEGELKSPLDIAIENSRDFFF REQLPDGYWWAELESNCTITAEYVMLYHFMDLVDRERERKMANYLLSKQTEEGFWTIYYGGP GDLSTTVEAYFALKLAGYPADHPAMVKARAFILDNGGIIKTRVFTKIFLALFGEFAWFGVPSMPIE LILLPNWAYFNMYELSSWSRATIIPLSIVMTQRPVRKLPPASRVQELYVRPPSPIDYTFTKEDGIF TWKNFFIGVDHILKVYESNPIRPFKKKAM LAAENWVLEHQEATGDWGGIQPAMLNSVLALHCL GYANNHPAVAKGLEALENFCIESEDSLVLQSCISPVWDTALALKALVDSDVPNDHPALVKAAQ WLLDKEIRKAGDWKVKSPELEPGGWAFEFLNDWYPDVDDSGFVMMALKDVAVKDRKSMDTAI KRGISWCLGMQSKNGGWGAFDKDNTKYLLNKIPFADLEALIDPPTVDLTGRMMELMGTFGYAK DYPPAVRALDFIKRNQEPDGSWWGRWGVNYIYGTWSVLCGLSAMGEDLNQPYIRKAINWLKS RQNIDGGWGETCESYHDSSLAGIGASTASQTGWALLALMAVGEENASAVARGVQYLLATQKS DGTWDEDLYTGTGFPKFFMIKYHIYRNCFPLTALGTYRRKTGGRAEMQVSEHNK
>seq_ID 144
MKISKHPISHALTSFNETAKETKEEPQKKRGGKVHHLPASIWKKRDVETTSPLDQAIKRSQEFFL REQLPAGYWWAELESNVTITAEYVILFHFMGLVNRDKDRKMATYLLSKQTEEGCWCIWHGGP GDLSTTIEAYFALKLAGYPADHPAMQKARTFILGKGGILKARVFTKIFLALFGEFSWLGVPSMPIE MMLLPNGFTFNLYEFSSWSRATIIPLSIVMAERPVRKLPPWARVQELYVRPPRPMDYTFTKEDG ILTWKNIFIGIDHILKVYEASPIRPGMKKAMAIAEQWVLDHQEPTGDWGGIQPAMLNSVLALHCL
GYANDHPAVAKGLQALANFCIESDDEIVLQSCISPVWDTALALMAMVDSEVPTDHPALVKAAQ WLLDREVRKVGDWKIKAPNLEPGGWAFEFQNDWYPDVDDSGIVMMAIKDVKVKDSKAKAEAI QRGIAWCIGMQSKNGGWGAFDKDNTKHILNKIPFADLEALIDPPTADLTGRMLELMGTFGYPK DHPAAVRALQFVKENQEPDGPWWGRWGVNYIYGTWSVLCGLKAYGEDMGQPYVRKAVEWL AAHQNPDGGWGECCESYCDQKLAGTGPSTASQTGWALLSMLAAGDVDHPAVARGIRYLIETQ QPDGTWDEDQFTGTGFPKYFMIKYHIYRNCFPLMAMGRYRALKGHKG
>seq_ID 15
MAEQLVEAPAYARTLDRAVEYLLSCQKDEGYWWGPLLSNVTMEAEYVLLCHILDRVDRDRME KIRRYLLHEQREDGTWALYPGGPPDLDTTIEAYVALKYIGMSRDEEPMQKALRFIQSQGGIESS RVFTRMWLALVGEYPWEKVPMVPPEIMFLGKRMPLNIYEFGSWARATVVAISIVMSRQPVFPL PERARVPELYDTDVPPRRRGAKGGGGRIFDALDRALHGYQKLSVHPFRRAAEIRALDWLLERQ AGDGSWGGIQPPWFYTLIALKILDMTQHPAFIKGWEGLELYGVDLDYGGWMFQASISPVWDT GLAVLALRAAGLPADHDRLVKAGEWLLDRQITVPGDWAVKRPNLKPGGFAFQFDNVYYPDVD DTAWVWALNSLRLPDERRRRDVMTKGFRWIVGMQSSNGGWGAYDVDNTSDLPNHIPFCDF GEVTDPPSEDVTAHVLECFGSFGYDDAWKVIRRAVEYLKREQRPDGSWFGRWGVNYLYGTG AVVPALKAVGIDVREPFIQKALDWVEQHQNPDGGWGEDCRSYEDPAYAGKGASTPSQTAWA LMALIAGGRAESDSVRRGVQYLVETQRPDGGWDEPYYTGTGFPGDFYLGYTMYRHVFPTLAL GRYKQAIERR
>seq_ID 16
MAEQLVEAPAYARTLDRAVEYLLSCQKDEGYWWGPLLSNVTMEAEYVLLCHILDRVDRDRME KIRRYLLHEQREDGTWALYPGGPPDLDTTIEAYVALKYIGMSRDEEPMQKALRFIQSQGGIESS RVFTRMWLALVGEYPWEKVPMVPPEIMFLGKRMPLNIYEFGSWARATVVALSIVMSRQPVFPL PERARVPELYETDVPPRRRGAKGGGGWIFDALDRALHGYQKLSVHPFRRAAEIRALDWLLER QAGDGSWGGIQPPWFYALIALKILDMTQHPAFIKGWEGLELYGVELDYGGWMFQASISPVWD TGLAVLALRAAGLPADHDRLVKAGEWLLDRQITVPGDWAVKRPNLKPGGFAFQFDNVYYPDV DDTAVWWALNTLRLPDERRRRDAMTKGFRWIVGMQSSNGGWGAYDVDNTSDLPNHIPFCD FGEVTDPPSEDVTAHVLECFGSFGYDDAWKVIRRAVEYLKREQKPDGSWFGRWGVNYLYGT GAVVSALKAVGIDTREPYIQKALDWVEQHQNPDGGWGEDCRSYEDPAYAGKGASTPSQTAW ALMALIAGGRAESEAARRGVQYLVETQRPDGGWDEPYYTGTGFPGDFYLGYTMYRHVFPTLA LGRYKQAIERR
>seq_ID 141
MTSPFKHPISNALTSFNGNVAEPEQSVEQQSGAKVHHLPASIWKRKMGRAKSPLDVAIEGSRD FFFQEQLPKGYWWAELESNVTITAEYIMLFHFLGLVDPERQRKMSTYLLSKQTEEGFWTIYYG GPGDLSTTIEAYFALKLSGYPEDHPALAKARAFILEQGGWKSRVFTKIFLALFGEFDWQGIPSM PVELNLLPDWAYINIYEFSSWARATIVPLSVVMHSRPVRRVPPSARVQELFVRQPTAADYSFAK NDGLFTWEKFFLGLDRVLKVYEKSPLRPFKKTALAKAEEWVLEHQEPTGDWGGIQPAMLNAIL ALNVLGYRNDHPAVEQGLRALANFCIETEDQLVLQSCVSPVWDTALALKALLDAGVPPDHPSL VKGAQWLLDKEVTRAGDWRVKSPNLEAGGWAFEFLNDWYPDVDDSGFVMIALKGIQVKDHK AMDAAIKRGINWCLGMQSKNGGWGAFDKDNTKHVLNKIPFADLEALIDPPTADLTGRMLELMG
TFDYPVTFPAAQRAIEFLKKNQEPEGPWWGRWGVNYLYGTWSVLCGLAAIGEDMDQPYIRKA VNWIKSRQNIDGGWGETCQSYHDRTLAGVGESTPSQTGWALLSLLAAGEMHSATVVRGVQYL ISTQNSDGTWDEQQYTGTGFPKYFMIKYHIYRNCFPLMALGTYRTLTRTQP
>seq_ID 195
MNPAKYKISSSLTSLNAEPVEQAPLPAKRTGSKVHRLPPSIWKKMVAEAKSPLDKGIERTRDFF LREQLPDGYWWAELESNVTISAEYVMLFHFLGMVDRERERKLANYILAKQTSEGFWSLWHNG PGDLSTTIEAYFALKLAGYSADHPAMAKARAFVLANGGIIKARVFTKIFLALFGEFAWFGVPSMPI ELMLLPDWAYFNMYEFSSWSRATIIPLSVVMSERPVRKLPPRAQVQELFVRPPRPTDYTITRED GLFTWKNFFIGADHLIKVYESSPIRPFKKRAVALAENWILEHQEQSGDWGGIQPAMLNSILALHC LGYAN D H PAVAKG LD ALAN FCIE D D DCIVLQSCVSPVWDTALALVALQE ADVPAD H PALVKAA QWLLNLEVRRKGDWQVKCPELEPGGWAFEFLNDWYPDVDDSGFVMLSIKNIKVRDRKHREE AIKRGIAWCLGMQSENGGWGAFDRNNTKYLLNKIPFADLEALIDPPTADLTGRMLELMGNFDY PKSHPAAERALAFLKKEQESEGPWWGRWGVNYLYGTWSVLCGLEAIGEDMNQPYIRKAVNWI KSRQNNDGGWGEVCESYFDRSLMGSGPSTASQTGWALLALMAAGEANSRAAAQGVKYLLET QNEDGTWDEDAFTGTGFPKFFMIKYHIYRNCFPLTALGRYRRLTAAKG
>seq_ID 3
MTATTDGSTGASLRPLAASASDTDITIPAAAAGVPEAAARATRRATDFLLAKQDAEGWWKGDL ETNVTMDAEDLLLRQFLGIQDEETTRAAALFIRGEQREDGTWATFYGGPGELSTTIEAYVALRL AGDSPEAPHMARAAEWIRSRGGIASARVFTRIWLALFGWWKWDDLPELPPELIYFPTWVPLNI YDFGCWARQTIVPLTIVSAKRPVRPAPFPLDELHTDPARPNPPRPLAPVASWDGAFQRIDKALH AYRKVAPRRLRRAAMNSAARWIIERQENDGCWGGIQPPAVYSVIALYLLGYDLEHPVMRAGLE SLDRFAVWREDGARMIEACQSPVWDTCLATIALADAGVPEDHPQLVKASDWMLGEQIVRPGD WSVKRPGLPPGGWAFEFHNDNYPDIDDTAEVVLALRRVRHHDPERVEKAIGRGVRWNLGMQ SKNGAWGAFDVDNTSAFPNRLPFCDFGEVIDPPSADVTAHWEMLAVEGLAHDPRTRRGIQW LLDAQETDGSWFGRWGVNYVYGTGSVIPALTAAGLPTSHPAIRRAVRWLESVQNEDGGWGE DLRSYRYVREWSGRGASTASQTGWALMALLAAGERDSKAVERGVAWLAATQREDGSWDEP YFTGTG FPWDFSINYN LYRQVF PLTALGRYVH GE PFAKKP RAAD APAEAAPAEVKGS
>seq_ID 18
MTKQLLDTPMVQATLEAGVAHLLRRQAPDGYWWAPLLSNVCMEAEYVLLCHCLGKKNPEREA QIRKYIISQRREDGTWSIYPGGPSDLNATVEAYVALKYLGEPASDPQMVQAKEFIQNEGGIEST RVFTRLWLAMVGQYPWDKLPVIPPEIMHLPKSVPLNIYDFASWARATIVTLSYRHESPTCDATS GLCKGSGIVRGEGPPKRRSAKGGDSGFFVALDKFLKAYNKWPIQPGRKSGEQKALEWILAHQ EADGCWGGIQPPWFYALLALKCLNMTDHPAFVKGFEGLEAYGVHTSDGGWMFQASISPIWDT GLTVLALRSAGLPPDHPALIKAGEWLVSKQILKDGDWKVRRRKAKPGGWAFEFHCENYPDVD DTAMVVLALNGIQLPDEGKRRDALTRGFRWLREMQSSNGGWGAYDVDNTRQLTKSDSIFATS GEVIDPPSEDVTAHVLECFGSFGYDEAWKVIRKAVEYLKAQQRPDGSWFGRWGVNYVYGIGA VVPGLKAVGVDMREPWVQKSLDWLVEHQNEDGGWGEDCRSYDDPRLAGQGVSTPSQTAW ALMALIAGGRVESDAVLRGVTYLHDTQRADGGWDEEVYTGTGFPGDFYLAYTMYRDILPVWA LGRYQEAMQRIRG
>seq_ID 245
MNPIRGKRGSAADFLEEEYQWENLADHGESGRTPGGGHPAALKEYEAGSATEHTGHHCVHH LGVRNSWLRKIEKAIDNACGQLFKTQYEDGYWWSELESNVTITSEYIMLLYLLEVSRPEQQKSM VKYLLNQQRPDGSWGLYYGDGGNLSTTIEAYFALKLAGEHCESEPMRRAREFILSKGGIESAR VFTKIWLALFSQYDWDKVPSMPVELVLLPSSLYFNIYEFSSWARGTVVPLSIVMSIRPRCPLPAK CSIKELYVPGSKHKNFASCTHKLFFLFDRIAKAFERRPVPSLRNKAVQAAETWVLDHQEDSGD WGGIQPPMVYSVLALYYLGYPLDHEVIVKGIKALDAFCMEDEEGTRMQSCVSPVWDTALTVLS MLDAGVAAEHPGLEKAGRWLLENQVLTGGDWQIKNDSLPGGWAFEFYNTRYPDVDDSAWL STLNRFNAERVEGLEFAKCRGMEWCLSMQSSNGGWAAFDKDNTLEILNRIPFADQEAMVDYP TADVTGRVLEAMGYLGYDGSHPRARKAIQFLKKRQERDGCWWGRWGVNYIYGTWSVLKGLI SIGEDPRAAYIRAAVRWVKDHQNSDGGWGETCESYENPELRGQGPSTPSQTAWALMSLIACG EMKSQEASRGIQYLLRTQKRDGTWEELHFTGTGFPKHFYIRYHNYRNCFPLMALGQYLRALER
>seq_ID 221
MTATTDGSTGALPPRAASASEPHDTIPQAAGSVGIQDAAARATQRATDFLLSRQDAEGWWKG DLETNVTMDAEDLLLRQFLGIQDEKTTRAAGLFIRGEQRADGTWATFYGGPGDLSATIEAYVAL RLAGDGPDEPHMAKASAWIRERGGIASARVFTRIWLALFGWWKWDDLPELPPELIYFPKWMP LNIYDFGCWARQTIVPLTVVSAKRPVRPAPFPLDELHADANDPNPAKPLAPMVSWDGLFQRLD VALHTYRKVAPRRLRKAAM NTAARWIIERQEN DGCWGGIQPPAVYSVIALYLLGYD LEHPVM R EGLASLDRFAVWRDDGARMIEACQSPVWDTCLATIALADAGVPADHPQLVRAADWMLGEEIV RPGDWAVKRPQLPPGGWAFEFHNDNYPDIDDTAEWLALRRVKHHDPERLDNAIRRGVRWNL GMQSKDGGWGAFDVDNTSPFPNRLPFCDFGEVIDPPSADVTAHWEMLAFEGLSHDPRTRR GIQWLLSAQEANGSWFGRWGVNYVYGTGSVVPALVAAGLPASHPAIRRAVTWLETVQNDDG GWGEDLRSYPEAAEWSGKGASTASQTGWALLALLAAGERESKAVERGIEWLAQTQRPDGSW DEPYFTGTGFPWDFSINYHLYRQVFPLTALGRYVNGEPLVEVKGG
>seq_ID 160
MKGKEPTREELLSFSSGIQMDSSAENTTPVSTEELQEKVRLAAESLISRQVEEGYWVEPLEAD VTITSEYILLQYLLGRERDEFFRRAAPFILESQGEDGGWPLYHGGPAEISATVKAYLALKLLGYD ADHPAMQRARALVLERGGAINVNVFTRITLALFGQYDWKGVPALPPEMILLPRWFPLSIYTVSY WSRTVIVPLLFIYHYKPLLELPPEKGVQELFITPMSEVRVHYAWDKHWVSWKNLFFVLDRILQA WNRHPPSFLRRKALKKAMEWMIPRLKGEGGLGAIYPAMANSVLALRLEGYAMDHPLVRRAIQS IDDLVFDLGEQQSVQPCHSPIWDTALALGALYEAGLDEGSPFVSRALDWFCRKEVRTVGDWS VRVPGVEAGGWAFQFENDYYPDIDDTSWLMDFAKWVPEMGAYRDVFRRAIEWTLSMQGTD GGWGAFDKDNDFLFLNNIPFADHGALLDPSTSDVTGRVTELLGILGYDARTPVVRRALRFLRKE QEENGSWYGRWGVNYIYGTWSVVSALKAVGEDMSAPYVQKAMQFLFSRQNPDGGWGESCY SYFRKDTAGEGVSTSSQTAWALIALIHGGHVRHPAVSKGIDFLLSRQQADGKWLEQEYTGTGF PKVFYLRYNMYRDYFSLWALSLYRNVLLDGQSRVERLARRWKGNPYPVRSRFLA
>seq_ID 161
MEGKDPTREELLSFTSGIQMDSRVGNTNPVSTEELQEKVRLAAESLISRQGEEGYWVEPLEAD ITITSEYVLLQYLLGRERDEFFRRAAPFILESQGEDGGWPLYNGGPAEISATVKAYLALKLLGYD ADHPAMQRARALVLERGGAINVNVFTRITLALFGQYDWKGVPALPPEMILLPRWFPLSIYTVSY WSRTVIVPLLFIYHYKPLLELPPEKGVQELFITPMSEVRVHYAWDKHWVSWKNLFFVLDRILQA WNRHPPSFLRRKALKKAMEWMIPRLKGEGGLGAIYPAMANSVLALRLEGYEMDHPLVRRAIQS IDDLVFDLGEQQSVQPCHSPIWDTALALGALYEAGLDEGSPFVSRALDWFCRKEVRTVGDWS VRVPGVEAGGWAFQFENDYYPDIDDTSWLMDFAKWVPEMGAYRDVFRRAIEWTLSMQGTD GGWGAFDKDNDFLFLNNIPFADHGALLDPSTSDVTGRVTELLGILGYDARTPVVRRALRFLRKE QEENGSWYGRWGVNYIYGTWSVVSALKAVGEDMSAPYVQRAMQFLFSRQNPDGGWGESCY SYFRKDTAGEGVSTASQTAWALIALIHGGHVRHPAVSKGIDFLLSRQQADGKWLEQEYTGTGF PKVFYLRYNMYRDYFSLWALSLYRNVLLDGQSRVERLSRRWKGTPYPVRSRFLA
>seq_ID 240
MHEGEAMTATTDGSTGALPPRAAAASETHLDTPVAAGIQEAAVRAVQRATEHLLARQDAEGW WKGDLETNVTMDAEDLLLRQFLGIRDESTTRAAAKFIRGEQREDGTWAGFYGGPGELSTTVEA YVALRLDGDAPDAPHMAKASAWIRAQGGIAAARVFTRIWLALFGWWKWEDLPELPPEUYFPK WAPLNIYDFGCWARQTIVPLTIVSAKRPVRPAPFPLDELHADPADPNPAKPLAPVASWDGAFQ RLDKAMHQLRKVAPRRLRRAAMNSAARWIIERQENDGCWGGIQPPAVYSVIALHLLGYDLQHP VMRAGLESLDRFAIWREDGSRMIEACQSPVWDTCLATIALVDAGVPADHPQLVKAADWMLGE EIVRPGDWSVKRPQLPPGGWAFEFHNDNYPDIDDTAEWLALRRVRHHDPDRVENAIGRGVR WNLGMQSKNGAWGAFDVDNTSPFPNRLPFCDFGEVIDPPSADVTAHWEMLAVEGLSHDPRT RRGIEWLLAEQEPDGSWFGRWGVNYIYGTGSWPALTAAGLPASHPAIRRAVAWLEKVQNDD GGWGEDLRSYKYVKEWSGRGASTASQTAWALMALLAAGERDSKAVERGVEWLASTQRADG SWDEPYFTGTGFPWDFSINYHLYRQVFPLTALGRYVHGEPFSRTEAL
>seq_ID 231
MTATTDGSSG PVRAGAATAG DTTTTTAARTTAPGTDVRE AAG RAAE RAVE H LLARQDAQGW WKGDLETNVTMDAEDLLLRQFLGIQDAATVEASARFIRGQQRDDGTWATFYGGPGELSTTIEA YVALRLAGDRPDDPHMQRAASWVRSRGGIAAARVFTRIWLALFGWWKWDDLPELPPELILLPK WVPLNIYDFGCWARQTIVPLTVVSAKRPVRPAPFALDELHTDPAMPNPQKRFAPAASWDGFF QRADKALHLYHKVAPRRLRRAAMNAAARWIIERQENDGCWGGIQPPAVYSVIALHLLGYDLEH PVM RAGLESLDRFAVH REEEGLPVRMIEACQSPVWDTCLATIALADAGLPADH PALVKAADWM LSEQIVRPGDWAVRRPGLGPGGWAFEFHNDNYPDIDDTAEVILALRRVKHPDPERVEAAVARG TRWNLGMQSLNGAWGAFDADNTSPFPNRLPFCDFGEVIDPPSADVTAHVVEMLAHEGMAED PRTRRGVRWLLREQEANGAWFGRWGVNYVYGTGAWPALIAAGLPASHPSVRRAVTWLESV QNEDGGWGEDLRSYREEQSIGRGASTASQTGWALLALLSAGERDGRAVERGVAWLARTQRP DGSWDEPYFTGTGFPWDFSINYHLYRQVFPLTALGRFLHGEKPVGRAAAREGG
>seq_ID 227
MTATTDGSTGAANPSEATAHDPTDTTTAADDLTVAARRAAERSVEHLLGRQDEQGWWKGDL ATNVTMDAEDLLLRQFLSIQDPETTRAAALFIRGEQLGDGTWNTFYGGPGDLSATIEAYVALRL AGDRPDEPHMARAAGWIRDQGGIAAARVFTRIWLALFGWWKWDDLPELPPELMFFPKWVPL
NIYDFGCWARQTIVPLTIVSAKRPVRPAPFALDELHTDPDHPNPPRKLAPPTSWDGLFQRLDKG LHLYHKVAPRPLRRVAMNLAARWIIERQENDGCWGGIQPPAVYSVIALHLLGYDLDHPVMKAG LASLDRFAVRREDGARMIEACQSPVWDTCLATIALADAGLRPDH PALVKAADWM LAEEITRPG DWSVRKP E LAPGGWAF EFHNDNYPDID DTAE VVL AL RRVRH P D PARLQAAID RGVRWN LG M QSRNGAWGAFDADNTSPFPNRLPFCDFGEVIDPPSADVTGHWEMLAVEGLASHPRTREGIE WLLAEQEACGAWFGRWGVNYVYGTGSVVPALITAGLPAGHPAIRRAVAWLESVQNDDGGWG EDLRSYQEEKWIGHGESTASQTAWALLALLAAGRRDTRPVARGVTWLTEAQQADGSWDEPY FTGTGFPWDFSINYHLYRQVFPLTALGRYVHGDPFADRAMAAEGA
>seq_ID 121
MQTQNRVTSTQKVELSNLTKAIIASQNYIMSRQYPEGYWWGELESNITLTAETILLHKIWKTDKT RPFHKVETYLRRQQNEQGGWELFYGDGGELSTSVEAYMALRLLGVTPEDPALIRAKDFILSQG GISKTRIFTKFHLALIGCYDWKGIPSIPPWIMLFPDNFPFTIYEMSSWARESTVPLLIVFDKKPIFEI EPAFNLDELYAEGVENVKYALPRNHNWSDIFLGLDKLFKWTEKNNLVPFHKKSLQAAERWMLN HQQESGDWGGIMPPMVNSLIAFKVLNYDVADPSVQRGFEAIDRFSIEEEDTYRVQACVSPVWD TAWVIRALVDSGLKPDHPSLVKAGEWLLDKQILEYGDWAIKNKQGKPGGWAFEFINRFYPDLD DSAVWMALNGIKLPDENCKKAAINRCLEWMATMQCKPGGWAAFDVDNDQAWINEIPYGDLK AMIDPNTADVTARVLEMVGSCGLKMDENRVQKALFYLEKEQESDGSWFGRWGVNYIYGTSGV LSALAVIAPNTHKPQMEKAVNWLISCQNEDGGWGETCWSYNDPSLKGTGVSTASQTAWALIG LLDAGEALETLATDAIKRGINYLLDTQTPDGTWEEAEFTGTGFPCHFYIRYHLYRHYFPLIALGR YWKIGLKNLKG
>seq_ID 120
MQTQNRVTSTQKVELSNLTQAIIASQNYILSRQYPEGYWWGELESNITLTAETVLLHKIWKTDKT RPFHKVETYLRRQQNEQGGWELFYGDGGELSTSVEAYMALRLLGVTPEDPALIRAKDFILSKG GISKTRIFTKFHLALIGCYDWKGIPSIPPWIMLFPDNFPFTIYEMSSWARESTVPLLIVFDKKPIFEI EPAFNLDELYAEGVENVKYALPRNHNWSDIFLGLDKLFKWTEKNNLVPFHKKSLQAAEKWMLN HQQESGDWGGIMPPMVNSLIAFKVLNYDVADPSVQRGFEAIDRFSIEEEDTYRVQACVSPVWD TAWVIRALVDSGLKPDHPSLVKAGEWLLDKQILEYGDWAIKNKQGKPGGWAFEFINRFYPDLD DSAVWMALNGIKLPDENRKKAAINRCLEWMATMQCKPGGWAAFDVDNDQAWINEIPYGDLK AMIDPNTADVTARVLEMVGSCGLKMDENRVQKALFYLEKEQESDGSWFGRWGVNYIYGTSGV LSALAVIAPNTHKPQMEKAVNWLISCQNEDGGWGETCWSYNDSSLKGTGISTASQTAWAIIGL LDAGEALETLATDAIKRGIDYLLATQTPDGTWEEAEFTGTGFPCHFYIRYHLYRHYFPLIALGRY WKIGLKTPSVIPLN
>seq_ID 132
MFQGSDRPPVTLVMNDMRGPDMNVSDTVSVTRESIPTQTSAGDATARDLTAAVGSELTRALR LATDHLLALQDGTGWWKFDLETNTSMDAEDLLLREYLGIRTTEVTAASARFIRSRQSDDGSWP QYFGGPGELSTTVESYIALRLAGDDASAPHMLSAATWVRDHGGVPATRVFTRIWLALFGWWR WEDLPALPPEIMLLPRRAPLNIYSFGSWARQTLVSLTVVSALRPVRPAPFDLDELYPDGPASAW SGAGPSNVLERISTRFTAKEIFLGIDRLLHWHRRPVRSMRNHALRAAERWIIARQEADGCFGGI QPPAWSIIALRLLGYELDHPVLKAALRALDDYSVTLPDGSRMVEASQSPVWDTALAVN ALADA
GATAAIAPDHPALVRAAGWLLGQEVRHRRGDWAVNHPDVPASGWAFEFENDTYPDTDDTAE VLLALRRVRHPARDELDAAERRAVAWLFGLQSSDGGWGAYDADNTSTIPYQIPFADFGALTDP PSADVTAHWELLAEAGLGGDDRTRRGVDWLLDHQEADGSWFGRWGVNYVYGTGSVMPAL RAAGLEPSHPAMRAGADWLLTHQNADGGWGEDLRSYTDPEWSGRGESTASQTAWAM LALL TVGDQPEVSGALARGARWLADHQRPDGSWDEDQFTGTGFPGDFYINYHGYRLLWPIMALGR YLRG
>seq_ID 118
MLTYKEYRRSVTEIAMQTRDRQTQKPALSLNDAITASQNYLLSLQYPQGYWWAELESNITLTAE TVLLHKIWGTDKTRPLHKVEAYLRQQQREQGGWELFYGDGGEISTSVEAYMALRLLGVPQDD PALIRAKDFILSKGGISKTRIFTKFHLALIGCYSWKGIPSIPPWIMLFPNSFPFTIYEMASWAREST VPLIIVFNDKPVFAVDPIFNLDELYAEGIENVKYELPKNNNWGDIFLGLDKVFKFAEQVDLVPFRK KGLQAAERWMLNHQQETGDWGGIMPPMVNSLLAFRVLNYDVNDPSVQRGFEAIDRFSIEENE TYRVQACVSPVWDTAWCVRALTNSGLPKDHFSLVKAGKWLLEKQCLEYGDWAVKNKTGKPG GWAFEFTNRFYPDIDDSAWVMALNGIKLPDEARKQAAINRCVKWIETMQCKEGGWAAFDVD NDQAWLNEVPYGDLKAMIDPNTADVTARVVEMVGSCDLEISSKRLNKALNYLYKEQEKDGSW FGRWGVNYIYGTSGVLSALAVINPEKHQPQIEQGINWLLSCQNKDGGWGETCWSYNDSNLKG KGISTASQTAWALIGLLDAGEALNHFETDSIQRGISYLLNTQTEEGTWEESEFTGTGFPCHFYIR YHFYRHYFPLIALGRYQNLSSEFGIRNSEL
>seq_ID 230
MT ATTDGSSG PLRGGAAT AG ETTSTSAARTTE PGTD LREAAARAAE RAVE H LLARQDAEG WW KGDLETNVTMDAEDLLLRQFLGIQDPATVGASARFIRGQQRDDGTWATFYGGPGELSTTVEAY VALRLAGDRPDDPHMQRAASVWRSRGGIAASRVFTRIWLALFGWWKWEDLPELPPELIFLPK WFPLNIYDFGCWARQTIVPLTVVSAKRPVRPAPFALDELHTDPALPNPGKRLAPAASWDGFFQ RADKALHAYHKVAPRRLRRAAMNAAARWIIERQENDGCWGGIQPPAVYSVIALHLLGYDLEHP VMRAGLESLDRFAVHHEEEGLPVRMIEACQSPVWDTCLATIALADAGLPADHPALVKAADWML SEQIVRPGDWSVRRPGLGPGGWAFEFHNDNYPDIDDTAEVVLALRRVKHPDPERVDAAVARG TRWNLGMQSRDGAWGAFDADNTSPFPNRLPFCDFGEVIDPPSADVTAHVVEILAHEGMAHDP RTRRGVRWLLAHQEANGAWFGRWGVNYVYGTGAVVPALTAAGLPGSHPAIRRAVAWLESVQ NEDGGWGEDLRSYREEKSIGRGVSTASQTGWALLALLAAGERESKAVERGVAHLAQTQAPD GSWDEPYFTGTGFPWDFSINYHLYRQVFPLTALGRYVHGEKLPGRAGAREGR
>seq_ID 234
MHEGEAMTATTDGSTGAATPPATTASAPLHLSPEARETHEATARATRRAVDFLLARQSDEGW WKGDLATNVTMDAEDLLLRQFLGIRDEATTRAAALFIRGEQQEDGTWNTFYGGPGDLSATIEG YVALRLAGDSPEAPHMRKASAFVRAQGGVARARVFTRIWLALFGWWKWEDLPEMPPELMFF PKWAPLNIYDFGCWARQTIVPLTWCAQRPVRPAPFALEELHTDPADPDPAQPAPPVVSWDNV FHKLDKLLHGYRRIAPRRVREAAMRAAATWIVERQENDGCWGGIQPPAVYSIMALNLLGYDLD HPVLRAGLASLDRFAVWREDGARMIEACQSPVWDTCLATVALADAGVPADHPQMIKAADWML AEQIVRPGDWWRRPDLPPGGWAFEFHNDNYPDIDDTAEVVLALRRVAHPDATRVDKAVRRA VDWNVGMQSKNGAWGAFDADNTSPFPNRLPFSDFGEVIDPPSADVTAHVVEMLAEEGLAHH
PRTRRGIEWLLKNQEGNGSWFGRWGVNYWGTGAWPALVAAGLPASHPAIRRSVSWLGQV QNEDGGWGEDLRSYQDSAWHGRGHSTASQTAWALLALLAAGERETEQVRRGIAYLVETQTE DGTWDEPWFTGTGFPWDFTINYHLYRQVFPVTALGRYLNGTGPGEN
>seq_ID 123
MQTRDRQTHKPALSLNDAITASQNYLLSLQYPQGYWWAELESNITLTAETVLLHKIWGTDKTRP LHKVEAYLRQQQREHGGWELFYGDGGEISTSVEAYMALRLLGVPSNDPALIRAKNFIISQGGIS KTRIFTKFHLALIGCYSWKGIPSIPPWIMLFPNSFPFTIYEMASWARESTVPLIIVFNDKPVFAIDPI FNLDELYAEGIENVKYELPKNNNWGDLFLGLDKVFKLAEQVDLVPFRKQGLQAAERWMLDHQ QETGDWGGIMPPMVNSLLAFRVLNYDVADPSVQRGFEAIDRFSIEENDTYRVQACVSPVWDT AWCIRALTDSGLPKDHFSLVKAGKWLLEKQVLEYGDWAVKNKTGKPGGWAFEFTNRFYPDID DSATVVMALNGIKLPDEALKQAAINRCLKWIETMQCKAGGWAAFDVDNDQAWLNEIPYGDLKA MIDPNTADVTARWEMVGSCDLEMSSDRLNKALDYLYEEQEKDGSWFGRWGVNYIYGTSGVL SALAVINPKQHKSQIEQGMNWLLSCQNEDGGWGETCWSYNDLSLKGKGVSTPSQTAWALIGL LDAGEVLNHFETDSIERGINYLLNTQTEEGTWEESEFTGTGFPCHFYIRYHFYRHYFPLIALGRY QQMLGS
>seq_ID 10
MTQASVREDAKAALDRAVDYLLSLQDEKGFWKGELETNVTIEAEDLLLREFLGIRTPDITAETAR WIRAKQRSDGTWATFYDGPPDLSTSVEAYVALKLAGDDPAAPHMEKAAAYIRGAGGVERTRV FTRLWLALFGLWPWDDLPTLPPEMIFLPSWFPLNIYDWGCWARQTWPLTIVSALRPVRPIPLSI DEIRTGAPPPPRDPAWTIRGFFQRLDDLLRGYRRVADHGPARLFRRLAMRRAAEWIIARQEAD GSWGGIQPPWVYSLIALHLLGYPLDHPVLRRGLDGLNGFTIREETADGAVRRLEACQSPVWDT ALAVTALRDAGLPADHPRVQAAARWLVGEEVRVAGDWAVRRPGLPPGGWAFEFANDNYPDT DDTAEWLALRRVRLEDADQQALEAAVRRATTWVIGMQSTDGGWGAFDADNTRELVLRLPFC DFGAVIDPPSADVTAHIVEMLAALGMRDHPATVAGVRWLLAHQEPDGSWFGRWGANHIYGTG AVVPALIAAGVSPDTPPIRRAIRWLEEHQNPDGGWGEDLRSYTDPALVWGRGVSTASQTAWA LLALLAAGEEASPAVDRGVRWLVTTQQPDGGWDEPHYTGTGFPGDFYINYHLYRLVFPISALG RYVNR
>seq_ID 233
MRRRRSPRGPGAGPEADYGPARASAPDRLRGDAARGDAARRVQDATARAIRNLLGRQDPAG WWKGDLETNVTMDAEDLLLRQFLGIRDEAVTQAAALFIRREQREDGTWATFHGGPPELSATIE AYVALRLAGDAPDAPHMATASAWIRAHGGLAAARVFTRIWLALFGWWDWENLPELPPELVLLP PWVPLNIYDFGCWARQTIVPLTWSAMRPVRPAPFALDELHTDARVPVPPRRMAPPTTWNGA FQWMDRALHVYRRFAPRRLREAAMASAGRWIIERQENDGCWGGIQPPAVYSVIALHLLGYDL GHPVMRAGLESLDRFAVWREDGSRMIEACQSPVWDTCLAAIALADAGVRPDHPALVKAADW MLGEEIVRTGDWAVRRPGLAPGGWAFEFHNDTYPDIDDTAEWLALRRIRHPDPARVEAAIAR GVSWNLGMQSRGGAWGAFDADNTSPFPNRLPFCDFGEVIDPPSADVTAHWEMLAAEGRAA DPRTRRGIAWLLAEQEPEGPWFGRWGTNYVYGTGSVVPALTAAGLSPGHPAIRRAVLWLESV QNPDGGWGEDQRSYQDRAWAGKGESTPSQTAWALMALLSAGERDAKTVERGIAYLVETQLA
DGGWDEPHFTGTGFPWDFSINYHLYRHVFPLTALGRYLYGEPFGHDGRHIGAHLGDRTGVPA EGV
>seq_ID 116
MQTQDRLTQKQPLSLKDAITASQNYLLSLQYPQGYWWAELESNITLTAETVLLHKIWGTDKTRP LHKVEAYLRQQQREHGGWELFYGDGGEISTSVEAYMALRLLGVPQDDPALIRAKDFIISKGGIS KTRIFTKFHLALIGCYDWKGIPSIPPWIMLFPDSFPFTIYEMASWARESTVPLIIVFNDKPVFSVDP VFNLDELYAEGVENVKYELPKNNNWGDIFLGIDQVFKFAEQVDLVPFRKEGLKAAEKWILNHQ QETGDWGGIMPPMLNSLLAFRTLNYDVNDPSVKLGFEAIDRFSIEEDDTYRLQACVSPIWDTA WCVRALTDSGLEKDHFSLVKAGKWLLDKQVMEYGDWAVKNKAGKPGGWAFEFTNRFYPDLD DSATVVMALNGIKLPDEARKQAAINRCLQWIETMQCKEGGWAAFDLNNDQAWLNEVPYGDLK AMIDPNTADVTARWEMLGSCDLEIESDRLNKSLNYLYKEQEKDGSWFGRWGVNYIYGTSGVL SALAVINPEKHKTQMEQGINWLLSCQNKDGGWGETCRSYNDPSLKGKGVSTPSQTAWSLIGL LDAGEALNKFETDAIERGVNYLLDTQTEEGTWEESEFTGTGFPCHFYIRYHFYRHYFPLIALGR YQNLSSEFGVRS
>seq_ID 124
MQIRATVDTAKLEKAIAASQEHLLSTQYPEGYWWAELESNVTMTAEWLLHKIWKTDGTRPMH KAEKYLRSEQREHGGWELFYGDGGDLSTSVETYTALRLLGVPASDPALLKAKDFILRRGGISKT RIFTKLHLALIGCYDWRGLPSLPPWVMLLPENFPFTIYELSSWARGSTVPLLIVMDRKPVFSVNP QINVDELYAEGRDRVKFELPRKGDWTDLFIELDGLFKFTEQNNLVPFREEGLRAAERWVLERQ EATGDWGGIIPAMLNSLLALRALGYHPADPYVRRGMAAVDRFAIETADTYRVQPCVSPVWDTA LVMRGLIDSGLPADHPAIVKAGEWLLEKQILAYGDWAVKNKTGQPGAWAFEFENRFYPDVDDS AWVMALQAAQLPDEDLKQQAIERCVKWIATMQCKPGGWAAFDVDNDQDWLNQIPYGDLKA MIDPNTADVTARVLEMIGRSGVTTGEASVERALAYLRREQEVEGCWFGRWGVNYIYGTSGVL AALALIAPKSDHAMIQRGADWLVRCQNADGGWGETCRSYNDPHLKGQGPSTASQTAWALIGL LAAGEATGEFAWGAIDRGINYLLATQQQDGRWDEDWFTGTGFPGHFYLKYHLYQQHFPLTAL GRYSSLTGLKQELKIPLQLKSKPEVVMIEDSDLLSDEDAT
>seq_ID 119
MQIQDRNSSPQVTEVLNQVKDAIAASQDYLMSIQYPEGYWWAELESNVTITAEWLLHKIWGTD KTRPLHKVETYLRRQQREHGGWELFYGDGGDLSTSVEAYMALRLLGVSIDDPALIRGREFILKR GGISKSRIFTKLHLALIGCYDWRGIPSIPPWIMLLPENFPFTIYEMSSWARSSTVPLLIVFDKKPW CCDPTINLDELYSEGIENVKYDLPKTGDWTDIFVWLDGVFKFAQDYNLVPLRQESLQAAERWV LERQEDSGDWGGIIPAMLNSLLALRALNYEAVDPIVHRGLQSVDNFAIETEDTYHVQPCISPVW DTAWAIRALVESGLKADDPRLVKGAQWLLDKQILDYGDWAVKNKQGTPGGWAFEFDNRWYP DLDDSAWVMALDQVKMPNEDLKNGAIRRCVRWMATMQCKDGGWGAFDLDNDQNWLNFLP YADLKAMIDPNTSDVTARVLEMLGTCGLIMDSNRVQKAIAYLEKEQEPDGSWFGRWGVNYIYG TSGVLSALAVIAPETHQKELKKGAAWLVGCQNADGGWGETCFSYNDSSLKGKGDSTASQTA WGLIGLLAAGEATGEFFKTAIERGVNYLLKTQREDGTWDENYFTGTGFPCHFYLKYHLYLQYFP LIALSRYQRLLT
>seq_ID 9
MSVSERAQPGGNPIPGSTSQSAVKFGRIDAALEDVKRAIAGAKDRVFAQQSKDGWWCGELEA DSMLEADYIFAHTLLGTGDAGKMKRALTEMLRYQNEDGSWSIYPGGPGNISLTVKCYFSAKLM GMTADNPILVKAREWILAHGGWECNTFTKIYLCFLGQYEYDAVPAIPPEIVLFPNWFYFNIYEIS SWSRAILVPLSIAYAKKPFKKIPPEQGIDELFVGGREKANLHLRWDSKNLLSWRNFFLALDRVTH WFERVHIRPLRSIALKKAEKWMLARFEMSDGLGAIYPAMLNAIIALRCLGYSLDDPQVLRAMDE FEKLGIDEPEGTAEYAEPTFRMQPCVSPVWDTAQAVFALGEAGVPRNDPRMQKAADWLLSKE VRHKGDWAMKVRNAQPGGWYFEFNNEFYPDVDDSAQVLLALNKVDNPRERYQYDVCQRAID WIFAMQCRNGGWASFDKDNTKMIFQYVPFADHNAMLDPPTVDITGRILEMLATYGYTRKDRRV EKAIKFIYDEQEPDGSWFGRWGVNYLYGTFLVLRGLEAIGVWNHEPQIQQAAEWIRSVQNADG GWGETCGSYDDPNTRGVGPSTPSQTAWAILGLLSAGDDRSDSVAKGIKWLLAHQKPDGGWD ESTGSGSKHQALYTGTGFPRVFYLAYHQYRDYFPLLALTNYEKAMERGE
>seq_ID 217
MTEEVLQRTAAPAEVLAAAREHLLSLQHERGWWKGELETNVTMDVEDLLLRRFLGILTTAETE QAARWIRSRQRADGTWAQFHGGPGDLSTTVEAYVGLKLAGDDVDSEHMAAARAWILERGGIE ETRVFTRIWLALFGEWSWDDLPAMPPELVLLPPWVPLNLADWGCWARQTIVPLTWCTLRPR RDLGVGLAELRSGRRRRKVPSPSWAGAFQVLDGALHGYQRHPLRGLREHAMRRAAEWIVAR QEADGSWGGIQPPWVYSLLALHLLGYPLDHPVLRQGLAGLERFLIREETPEGTVRRLEACQSP VWDTVLSMQALRDAGLAADHPALRRAADFVLAEEIRVKGDWSVRRPDLAPGGWAFEFDNDG YPDIDDTAEVVLALNRVDHERPGAVNAAIDRGVRWMSGMQSADGGWGAFDADNTRELVNEL PFCDFGAVIDPPSADVTAHVVEALCVLGRGDGEAVRRGVRWLLDHQELDGSWFGRWGANHV YGTGAAVPALVRAGLRRDHLALRRAVRWLEVHQNDDGGWGEDLRSYDDPVWVGRGRSTAS QTAWALLALLAVDLHDTDAVRRGVGFLAETQRPDGTWDEPQFTGTGFPGDFYINYHLYRLVFP VTALGRYEQARREQSGGSG
>seq_ID 249
MIEKNKVKQSILASQKHLLSLQETEGYWWGQLESNVTITAEIILLHKIWQTDKKIPLNKAKNYLIS QQREHGGWELFYGDGGDLSTSIEAYMALRLLGVSRTDPIMIEAQNFIIKKGGISCSRIFTKLHLAL IGCYSWQGIPSIPSSIMLLPEDFPFTIYEMSSWARSSTVPLLIVFDKKPIFSVNPTINLDELYAEGI NNASFELPRKYDLTDLFLGLDKAFKFAENLNLMPLQQEGLKAAEKWILERQEVTGDWGGIIPAM LNSMLALKCLEYDVADPWVRGLEAIDRFAIENEDSYRVQACVSPVWDTAWVIRSLVDSGISPS HPAMVKAGQWLLQQQILDYGDWVFKNKFGKPGGWAFEFMNRFYPDIDDTAVWMALDVVEL PDEDLKGKAIARGMEWIASMQCEAGGWAAFDVDNNQDWLNATPYGDLKAMIDPNTADVTGR VLEMVGCCGLAMDSWRVKRGIDFLVREQEEEGCWFGRWGVNYIYGTSGVILALAVMARESHR GYIERGASWLVGCQNSDGGWGESCWSYNDPSLKGKGKSTASQTAWALIGLLAAGEGTGNFA RDAIDGGVGFLVSTQNDDGSWLEDEFTGTGFPGHFYIKYHFYSQYFPLMALGRYESLLSG
>seq_ID 222
MAVRDRVNPKTLEAAIAASQSYLLTQQDETGYWWAELESNVSITSEWLLHKIWGTDRSRPLE KVETYLRSQQRDHGGWELYFDDGGEISVSVEAYMALKLLGVPMEDPAMVRARQFILEHGGISR TRVFTKLHLALIGCYEWRGIPSLPPWVMLLPEQFPFTIYEMSSWARGSTVPLLIVMDREPVYAV
EAGFNLDELYVEGRHRAQFDLPLSNEWTDAFIYLDGLFKFAESTNLVPFREEGIRAAERWILER QEATGDWGGIIPAMLNSLLGLKALDYDVHDPIIERGMAALDAFALETEDQYWIQPCISPVWDTA LVVRGLAESGLAPDHPALVKAGEWLLNKQILDYGDWSVKNPGGLPGGWAFEFDNRFYPDVDD TAWVMALNEVQLPDEQAKDAAIARAVNWIATMQCRPGGWAAFDINNDQDWLNALPYGDLKA MIDPNTADVTARVLEMIGRCHQTTGKNSVDRALRYLRTEQEPEGCWFGRWGVNYIYGTSGVL AALALIDPQGWQSQIQQAAAWLVSCQNTDGGWGETCASYDNPKLKGQGPSTASQTAWAIMG LLSAGEATSVYAEAAIERGVNYLTTTQKMDGTWDEDYFTGTGFPGHFYLKYHLYQQHFPLTAL GRYQAMLQQKS
>seq_ID 186
MRTQDRVQVNSIAEAIAASQKYLLSLQNPAGYWWAELESNVTITAEVVLLHKIWGTDKTRPLHK VEAYLRSQQKQHGGWELFYGDGGELSTSVEAYMALKLLGVPATDPAMIQARDFILQRGGISKT RIFTKFHLALIGCYNWRGLPSLPAWVMLLPNQFPVNIYEMSSWARSSTVPLLIVFDQKPVYQVN PTITLDELYAEGVENVRYELPRSGDWTDLFLTLDEGFKLAESFNFIPFREEGIKAAEKWIIERQEA TGDWGGIIPAMLNSMLALRSLGYDTNDPIVERGLQALDNFAIETVDCYRVQPCVSPVWDTAWVI RALIDSGIAPDHPAIVKAGEWLLQKQILDYGDWNVKNRQGKPGAWAFEFENRFYPDVDDTAVV VMALHAAKLPNEQLKQKACDRALQWVASMQCKPGGWAAFDLDNDQDWLNSVPYGDLKAMID PNTADVTARVIEMLGACNLSIDSHNLERALTYLLNEQEAEGCWFGRWGVNYIYGTSGVLSALAL INPQKYQRHIQQGATWLVGCQNPDGGWGETCFSYNDPSLKGQGDSTPSQTAWALIGLIAAGE ATGNFAHDAIERGINHLVSTQQPDGSWFEAYFTGTGFPCHFYLKYHYYQQYFPLIALGRYQAIK SL
>seq_ID 153
MQVQPRIEKKHLDSAIEASQAYLLARQYSPGYWWAELESNVSMTAEVVLLHKIWRTDTGRPLA KATAHLLAEQRAHGGWELFYGDGGDLNTSIEAYMALKLLGLTADHPALARARAFILAKGGISRA RIFTKIHLALIGCYDWRGVPSIPPWVMLLPEAFPVNIYEMSSWARGSTVPLLIVFDRKPVFAVEP AITLDELFVEGRAQARFDLPRSSSDWWANLFVDLDWGFKLAESLGAVPLREEGLKAAERWVLE RQEATGDWGGIIPAMLNSLLALRCLDYDPHDPWERGMAAVDRFAIETESTYRLQPCVSPVWD TALTMRALVDSGLPPDHPALAAAGTWLLKKQILDYGDWAVKNRTGPPGGWAFEFDNRFYPDV DDTAWVMALDAVRLADETAKGQAIARAVCWVASMQCRGGGWAAFDIDNDAHWLNSLPYAD LKAMIDPNTADVTARVLEMYGRCRLIPAAAGAQRALDYLRRTQEPEGCWFGRWGVNYLYGTS GVLSALAAFAPAERTAIERAAAWLRGCQNTDGGWGETCGSYVDRTLMGQGPSTASQTAWAL LGLIDASRVARFSDSSALERGLAYLVETQKADGSWDEPYFTGTGFPGHFYLKYHLYQQHFPLS ALGRYRRLLS
>seq_ID 122
MQIQARNISTKVTEVFSKVKEAIAASQQYLLSIQYPEGYWWAELESNVTITAEAVLLHKIWGTDT TRPLHKVETYLRRQQREHGGWELFYGDGGDLSTSVEAYMALRLLGVSASDPALVRAKAFILSR GGISKSRIFTKMHLALIGCYDWRGVPSIPPWIMLLPENFPFTIYEMSSWARGSTVPLLIVFDKKP VYQCGITLDELYSEGINHVRYDLPRNGDWTDVFVWLDGVFKFAETNNLIPFRNESLKAAERWV LERQEDTGDWGGIIPAMLNSLLALRALDYEVNDPIVHRGFKSVDNFAIETEETYHVQPCISPVW DTAWVLRALVESGLKPDEPVLVKGAQWLLDKQILDYGDWAVKNKEGTPGGWAFEFDNRWYP
DLDDSAVVVMALEQVKMPDEQLKYGAMRRCVRWMATMQCKAGGWGAFDVNNDQNWLNYL PYADLKAMIDPNTADVTARVLEMLGTCELSMDHDRVKRAIAYLEQEQEADGSWFGRWGVNYI YGTSGALSALAAIAPVTHQAQIEKGAAWLVGCQNPDGGWGETCFSYNNPALRGKGDSTASQT AWGLIGLLAAGEATGKFAKTALERGVNYLLATQRPDGTWDESYFTGTGFPCHFYLKYHLYLQY FPLIALSRYQRLLGFN
>seq_ID 129
MSLTSDPSPAAPTAEKSPKRPTIPVPATADAYGISRSSPPLPAATGRPQAAGPASAGV ATARAR DHLLALQSEEGWWKGDLETNVTMDAEDLFMKQFLGIRGDDETEQTARWIRSQQLADGGWPT FYGGPADLSTTIEAYIALRLAGDAVDAPHMARAAELVRAQGGVAASRVFTRIWLAALGQWSWD DVPVIPPELIFLPSWIPLNVYDFACWARQTIVALTIVGSLRPSHDLGFSIDELKVPAAARKPAALR SWEGAFERLDKLLHRYEKRPIKLLRTLALRRATEVWVARQEADGCWGGIQPPWVYSVMALHL MGYPLNHPVIATAFRGMERYVIRRDTPQGPIRQIEACQSPVWDTALAVVALADAGVPGDHPAM VKAGRWLVDEEVRVAGDWAVRRPELAPGGWAFEFDNDFYPDVDDTAEVVLALRRLLGAGHV APPASRQGRAEAPPVNTVEDADPRLAAAM RAAAARGVDWSVGMRSSNGAWGAFDADNVRT LTTKIPFCDFGEVVDPPSADVTAHIVEMLADLGRSDHPITQRAVQWLLDNQEPGGSWFGRWG VNHLYGTGAVVPALIGAGVPTDHPAITAAVRWLLEHQSPEGGWGEDLRSYTDPAWIGRGELTA SQTAWALLALLAVDPHSLAVKRGVRWLCETQRPDGTWDEPYFTGTGFPGDFSLNYHLYRLVF P LTALG RYVS LTGVATP
>seq_ID 164
MHSGRVFLEKENREENRATFHSSPLILVEESLNLPKKVEETIKKAQRYLLSIQKEDGHWVGELF VDVTLACDCIH LMHWRGKIDYKKQLRLVKHIVD RQLPDGGWNIYPGGPSEVN ATVKAYFALKLA GFSPDDPLMAKARSTILRLGGIPKCMTYTKLGLALLGVYPWDRLPVIPPEIILFPNWFPFNIYEISA WSRAMLVPLSVIHHFKPTRNLPEKYQLHELFPYGTEHGKFSWLKKGARYLSKQGLFLACDKFL QYWDKTSLKPFRKMALKKAEKWLLERISAGSDGLGAIFPAMHYAIMALIAMGYTEDNPILKKAIA DFEGLEVDDKKNDDLRIQPCLSPVWDTAVGLVALAESGVARNAKELKRAAYWLLDREIKIKGD WHVRNPHPEPSGWAFEYNNVYYPDVDDTLMVLLALRLIDIEDKIRKEEVMQRALRWVISFQCK NGGWAAFDKDVYKKWLEDIPFADHNAILDPPCSDITARALELFGKMGIKKTERFVQKAIAYLKET QENDGSWMGRWGVNYIYGTWQALRGLQAIGENMNQEWILRARDWLESCQNEDGGWGETP ASYDNPQLKGKGPSTASQTAWAVSGIMACGDIFRPSVSRGIKYLCDRQLSDGSWAEEFLTGT GFPGVFYLKYDMYRNAWPLLVIGEYHRQYLKAKEQVSYWVDGTIGRKVKKERLPEI
>seq_ID 20
MRTQDRVQVNSIAEAIAASQKYLLSLQNPTGYWWAELESNVTITAEVVLLHKIWGTDKTRPLHKI EAYLRSQQKQHGGWELFYGDGGELSTSVEAYMALKLLGVPATDPAMIQARDFILQRGGISKTR IFTKFHLALIGCYNWRGLPSLPAWVMLLPNQFPVNIYEMSSWARSSWPLLIVFDQKPVYQVNP AITLDELYAEGVENVRYELPRSGDWTDLFLTLDEGFKLAESFNFIPFREEGIKAAEKWIIERQEAT GDWGGIIPAMLNSMLALRVLGYATNDPIVERGLQAIDNFAIETADCYRVQPCVSPVWDTAWVIR ALIDSGMAPDHPAIVKAGEWLLQKQIFDYGDWNVKN RQGQPGAWAFEFDNRFYPDVDDTAW VMALHAAKLPHEQLKQKACDRALQWVASMQCKPGGWAAFDIDNDQDWLNAVPYGDLKAMID PNTADVTARVIEMLGACNLSIDSHDLERALTYLLNEQEAEGCWFGRWGVNYIYGTSGVLCALAL
INPQKYQRHIQQGATWLVGCQNPDGGWGETCFSYNDPSLKGQGDSTPSQTAWALIGLIAAGE ATGNFAHDVIERGINHLVSTQQPDGSWFEAYFTGTGFPCHFYLKYHYYQQYFPLIALGRYQAIN PL
>seq_ID 185
MQTQDRVKVNQVAEAIAASQQYLLSIQNPAGYWWAELESNVTITAETVLLHKIWGTDQTRPLH KVEAYLRQEQRQHGGWELFYGDGGELSTSVEAYMALRLLGVPATDPAMIRAQAFILQRGGISK TRIFTKLHLALIGCYNWRGIPSLPPWIMLLPKAFPVNIYEMSSWARSSTVPLLWCDRKPVFITDP TINLDELYAEGIDRVRWELPQSGDWTDLFLTLDQGFKWAESLNLVPFREEGIKAAEKWILERQE ATGDWGGIIPAMLNSMLALRCLDYDRSDPIVERGLQAIDNFAIETDNSYRVQPCVSPVWDTAW VMRALVESGFVPDHPAVVKAGEWLLQKQILDYGDWAVKNRQGKPGAWAFEFENRFYPDVDD SAVWMALHLAKLPNEKIKQAAIARAVNWIASMQCKPGGWAAFDLDNDQDWLNSIPYGDLKAM IDPNTADVTARWEMLGACDLSIDSDNLERSLTYLLREQETEGCWFGRWGVNYIYGTSGVLSA LALIDPQRHKLSIERGAAWLLGCQNLDGGWGETCRSYDDPSLKGKGDSTASQTAWALIGLLAA GEATGKLAVKAIEQGIGYLMATQQPDGTWFEANFTGTGFPCYFYLKYHLYQQYFPLIALGRYQ AAIKES
>seq_ID 244
MVIAASPSVPCPSTEQVRQAIAASRDFLLSEQYADGYWWSELESNVTITAEWILHKIWGTAAQ RPLEKAKNYLLQQQRDHGGWELYYGDGGELSTSVEAYTALRILGVPATDPALVKAKNFIVGRG GISKSRIFTKMHLALIGCYDWRGTPSIPPWVMLLPNNFFFNIYEMSSWARSSTVPLMIVCDQKP VYDIAQGLRVDELYAEGMENVQYKLPESGTIWDIFIGLDSLFKLQEQAKVVPFREQGLALAEKWI LERQEVSGDWGGIIPAMLNSLLALKVLGYDVNDLYVQRGLAAIDNFAVETEDSYAIQACVSPVW DTAWVVRALAEAD LGKD H P ALVKAGQWLLD KQILTYG DWQIKN P H GEPGAWAF E F D N N FYP D IDDTCVVMMALQGITLPDEERKQGAINKALQWIATMQCKTGGWAAFDIDNDQDWLNQLPYGDL KAMIDPSTADITARWEMLGACGLTMDSPRVERGLTYLLQEQEQDGSWFGRWGVNYLYGTSG ALSALAIYDAQRFAPQIKTAIAWLLSCQNADGGWGETCESYKNKQLKGQGNSTASQTAWALIG LLDALKYLPSLGQDAKLTTAIEGGVAFLVQGQTPKGTWEEAEYTGTGFPCHFYIRYHYYRQYFP LIALARYSHLQAS
>seq_ID 109
MDDRHIQSEITFGKIDGIRERIQQAM DAAKRYLFSKQDPEGFWCGELEADTTLQSDYIVMHTLL GTGDPVKMQKAGKQILQHQNPDGGWNIYPDGPSNISAAVKAYFSLKLIGHKPDEPEMTKARE WILAHGGVTACNTFSKMYLCFFGQYDYDTVPAIPPEIVLFPNWFWFNLYEISSWSRGILVPLAIC YAKKPFKKIPDEANIDELFVEGRHANLHLTWDKKPFSWRNFFLVLNNMVHFFERVHVRPLRKLA MKRAEKWMLERLEMSDGLGGIYPAILNSIIALRALGYSTDDPQVIRAMDEFEKLGIEEDDTFRM QPCMSPVWDTAYALYALGEAGVPGSDPRMQKAAEWMLKKQVTHKGDWAVKVRNVQPGGW YFEFNNEFYPDVDDTAQVILSLNHVRTSNERYQDDTVKRALDWQLAMQCKNGGWASFDKDN NKMVFQYIPFADHNAMLDPATVDITGRVLEALSHHGYSLKDKVVQRAVKFIQSEQEPDGSWFG RWGVNYIYGTMLCLRGLAAVGVDHHEPMVQQAAEWLRMVQNPDGGWGESVGSYDDPKLRG QGPSTASQTAWAVMGLLAANDLRSDSVTRGIAWLLENQKPNGSWWEKWITGTGFPRVFYLKY TMYAEYFPLIAFAEYLRRLNTPLDEKVKLGPQA
>seq_ID 174
MQIQDKITEIAAKTAKAIELSQNYLLSTQYSEGYWWAELESNVTITSEAILLHKIWKTDKKRPLDK AATYLRQQQCPNGAWELFYGDGGDLSTTVEAYMGLRLLGIPANDPALEKAREFILAKGGISKTR IFTKMHLALIGCYDWQGVPSIPAWIMLLPENFPFTIYEMSSWARGSTVPLLIVFDKKPVYKMGFN LDELYTEGVNNVKYELPKNNNWSDVFLWLDGLFKWAEKTDLVPFRQESLKAAEKWVIERQED TGDWGGIIPAMLNSLLALKALDYDVYDPIVARGLKAVDNFAIETDNTYCVQPCVSPVWDTAVWI RSLIESGLNPAHPAMIKAGQWLIDQQILDYGDWAIKNKIGTPGGWAFEFDNRWYPDLDDSAVV VMALELIKMPDENIKTSVMKRAVNWMATMQCKAGGWGAFDIDNDQNWLNSLPYADLKAMIDP NTADVTARVLEMLGTCDVKMGENRVKKALDYLEKEQEADGSWFGRWGVNYIYGTSGALSALA FLEPNQYRQQLQKGANWLSSCQNVDGGWGETCFSYNNPKFKGQGNSTASQTAWALIGLLAV GKVTGNYQREVIEKGVNYLLVTQKENGTWDEDYFTGTGFPCHFYLKYHFYQQYFPLLALGRYR ALI
>seq_ID 130
MSLTSDPSPAAPKAAKSSKRVNIPAPATPDAYGISRSSPPLSGGGVSGGGVSGGGAATADGTP PTTQTSVDPDLAAAMTAANQARDHLLGLQSEEGWWKGDLETNVTIDAEHLFMKQFLGIRTEEE TEPIARWVRSQQLADGGWATYYGGPAELSTTVEAYIALRLAGDEPDAPHMAAAAALIRSQGGV AAARVFTRIWLATFGEWSWDDVPVLPPELIFLPSWFPLNVYDFGCWARQTIVALTIVGSLRPVR DLGFSIDEIKVAAPVTPPKPAPLHSWEGAFERLDAILHRYERRPIKVLRTLALRRATEWWARQE ADGCWGGIQPPWIYSVMALHLMGYPLNHPVIATAFRGMERYIIRRETPEGPTAQIEACQSPVW DTALAWALSDAGVPADHPAMVRAGRWLVDEEVRVAGDWAVRRPALAPGGWAFEFDNDFYP DTDDTAEVVLALRRLLGGSHVTPGGTVTPSGSVTPGGTAELSPAARDRASRGLAAVDPQLAG AMRAAAARGVDWSVGMRSSDGAWGAFDADNVRTLTAKIPFCDFGEWDPPSADVTAHIVEML ADLGRSDHPITRRAVQWLLDNQEPGGSWFGRWGINHVYGTGAVVPALIAAGVPADHPAITAAV RWLLEHQSPDGGWGEDPRSYDDPAWIGRGELTASQTAWALLALLAVDPHSKAVKRGVRWLC ETQRPDGTWDEPQFTGTGFPGDFYLNYHLYRLVFPLTALGRYVTLTGVATP
>seq_ID 248
MPTSLATAIDPKQLQQAIRASQDFLFSQQYAEGYWWAELESNVTMTAEVILLHKIWGTEQRLPL AKAEQYLRNHQRDHGGWELFYGDGGDLSTSVEAYMGLRLLGVPETDPALVKARQFILARGGI SKTRIFTKLHLALIGCYDWRGIPSLPPWIMLLPEGSPFTIYEMSSWARSSTVPLLIVMDRKPVYG MDPPITLDELYSEGRANVVWELPRQGDWRDVFIGLDRVFKLFETLNIHPLREQGLKAAEEWVL ERQEASGDWGGIIPAMLNSLLALRALDYAVDDPIVQRGMAAVDRFAIETETEYRVQPCVSPVW DTALVMRAMVDSGVAPDHPALVKAGEWLLSKQILDYGDWHIKNKKGRPGGWAFEFENRFYPD VDDTAVVVMALHAVTLPNENLKRRAIERAVAWIASMQCRPGGWAAFDVDNDQDWLNGIPYGD LKAMIDPNTADVTARVLEMVGRCQLAFDRVALDRALAYLRNEQEPEGCWFGRWGVNYLYGTS GVLTALSLVAPRYDRWRIRRAAEWLMQCQNADGGWGETCWSYHDPSLKGKGDSTASQTAW AIIGLLAAGDATGDYATEAIERGIAYLLETQRPDGTWHEDYFTGTGFPCHFYLKYHYYQQHFPLT ALGRYARWRNLLAT
>seq_ID 150
MAKGILNKFAVIAGTKKAGPPAGEERTVIAPIKEISGKAVHCSQAVKKAEEYLLALQNPEGYWVF ELEADVTIPSEYIMLQRFLGREISPELGKRLENYLLDRQLPDGGWPLYAEDGFANISATVKAYLA LKVLGHSPQAPHMIRARLMVLSLGGAARCNVFTRILLALFGQIPWHTPPAM PVEIVLLPQWFFF HLSKVSYWSRTVIVPLLLLYAKQPVCRLRPEEGIPELFSTPPDKLRHLDGFQPGYWRKNAFIIFD RLLKRFNRFIPSALHRKAIAEAEQWTRSHMQGSGGIGAIFPAMAYAVMALRVLGCGEGDPDYIR GLQAIDDLLQHRTPQEADPPRTDGTCIDSGMSAAFALTPSAHAAADGTGSSSICQPCNSPIWD TCLSLSALMEAGMPASHPAATQAVEWLLSQQILSPGDWSLKVPDLEGGGWAFQFENTLYPDL DDTSKVIMSLLRAGALENERYRDRIARGVNWVLGMQSSDGGWAAFDIDNNYHYLNDIPFADHG ALLDPSTSDLTGRCIELLSMVGFDRTFPPIARGIGFLRSEQEENGAWFGRWGVNYIYGTWSVLS GLRQAGEDMQQPYIRKAVGWLASCQNHDGGWGETCYSYDDPSLAGKGASTPSQTAWSLLG LMAAGEVNSLAVRRGVRYLLDHQNQWGTWEEKHFTGTGFPRVFYLRYHGYRHFFPLWALGV YSRLSSGQKACQDERRHASPGDLHLPWLERIKKR
>seq_ID 128
MPDLELRDVDRADGRHHAPNLGRTDTLSPSAPTGEPAPASTPAAVATPTPTPTTAPAP APAPE NALRETVQRAAEHLLRLQDPRGWWKFDLETNPTMDAEDLLLREYLGIRTVEQTEATAKHIRSR RLDDGSWPTYFGGPGELSTTVECYIALRLAGDSPDDEPLRRSAAWIRERGGIPATRVFTRIWLA LFGWWRWEDLPVLPPEIMFLPPRAPLSIYSFASWARQTIVPLTIVSAARPQCPAPFDLAELDPD EVPAAQSHGAAQSPDTRSPAGGRTLRGAMRRLGGDRPNTAKVFFRGLDAALHRYHRHPIGPL RRHALRTAERWIIARQEADGCFGGIQPPAVYSIIALRLLGYDLDHPVLAAALRSLDAYTLHREDG S RMIEASQSPIWDT ALAVLALAD AGID AP ADVDVAPALPTQRVAT GAP APSAPVPT ALE RAAD W LLGQEIQHRRGDWAITHPGVAPGGWAFEFDNDTYPDTDDTAEVVLALHRLNRLRRLRHPTNTR IDAALERSTAWLFALQSRDGGWGAYDSDNASTLVYQIPFADFGALTDPSSADVTAHVVELLCE TGRIRDPRTLRGVDWLLRNQEADGSWYGRWGVNYVYGTGSVLPALQAAGLPPTHPAMVAGA RWLLSRQNSDGGWGEDIRSYGDPAWSGRGLSTPSQTAWAM LGLLATDHGGVHADALAAAA RWLTEQQRPDGGWDEEMFTGTGFPGFFYLNYHGYRLVWPVMALGRYLHSRQHPSD
>seq_ID 131
MSLTSDQSSAAPTAAAQSPKIPNPSVARPSADAGSFETAGAVRTDSVSIDSVSTGTPVDPVVG AMRRGRDHLLSLQAEEGWWKGELETNVTMDAEDLMLRQFLGILTPSTATETGRWIRSQQLSD GGWATFYGGPSDLSTTIEAYVALRLAGDDPDAPHMRSAAEVWRSAGGIAASRVFTRIWLALFG EWSWDDVPVLPAEMTFLPPWFPLNIYDFACWARQTVVALTIVGSLRPVRSFGFTLDELRVQAP KATKAPLRSWAGAFERLDSVLHRYEKRPFQPLRRLALRRAAEWVIARQEADGCWGGIQPPMV YSIMALHLMGYPLNHPVISMAFRALDRFTIREETPEGTVRRIEACQSPVWDTALAVVALADAGL GGDHPAMVRAGRWLADEEVRVAGDWAVRRPTLAPGGWAFEFDNDFYPDVDDTAEWIAIRR LLGDGHGPVDHSDGSGPGSAAATAASAAAEAAVAAAGTIAAADPELAARLRAAAERGVDWSV GMRSSNGAWAAFDADNVRTLVRKIPFCDFGEWDPPSADVTAHMVEMLALLGRSDHPITQRG VRWLLDNQEAGGSWFGRWGVNHVYGTGAWPALISAGVDAEHPAIVSSMHWLVEHQTPEGG WGEDLRSYRDDEWIGRGEPTASQTAWALLALLAAEPASGTAEWEAVERGVRWLCDTQRPDG TWDEPQFTGTGFPWDFSINYHLYRLVFPVTALGRYVTLTGRSTS
>seq_ID 242
MSISALQTDRLSQTLTQSWAAQQHLLSIQNPEGYWWANLESNASITAEWLLHKIWGTLDSQP LAKLENYLRAQQKTHGGWELYWNDGGELSTSVEAYMGLRLLGVPASDPALVKAKQFILHRGG VSKTRIFTKFHLALIGCYRWQGLPSLPAVWMQLESPFPFSIYELSSWARGSTVPLLIVFDKKPVY PLQPSPTLDELFTESAENVRWELEEKGDWSDAFLWLDKAFKLAESVDLVPFREESIRKAEKWV LERQEPSGDWGGIIPAMLNSMLALRALGYSVSDPWRRGFQAIDNFMVESETECWAQPCISPV WDTGLAVRSLTDSGLSPNHPALVKAGEWLLDKQILSYGDWSVKNPQGQPGGWAFEFENSFY PDVDDTAVVAMALQDITLPNEPLKRRAIARAVRWIATMQCKTGGWAAFDINNDQDWLNDIPYG DLRAMIDPSTADITGRVLEMHGRFAADLDLANSYAADLSPYRLSRGLNYLIKEQELDGSWFGR WGVNYIYGTGQALSALALIAPERCRIQIERGIAWFVSVQNADGGWGETCESYKDKSLKGKGIST ASQTAWALLGLLDVSFCLDPAAKIAVDRGIQYLVSTQSEGTWQEESFTGTGFPQHFYLRYRLY CHYFPLMALGRYQRVINSSAGI
>seq_ID 143
MAKGILNKFAVIAGNKNAGLTAEEECTVVAPIKEVSGKAVHCRQAVKMAEEYLLALQNPEGYW VFELEADVTIPSEYIMLQRFLGREISPELRMRLENYLLDRQLPDGGWPLYAVDGFANISATVKAY LALKVLGHSPQAPHMIRARIMVLSLGGAARCNVFTRILLALFGQLPWHTPPAMPVEIVLLPQRFF FHLSKVSYWSRTVIVPMLLLYAKQPVCRLRPEEGIPELFNTPPDKLRNLDGFQSGRWRKNAFIII DRLLKRFNRFIPSAIHRKAMAEAEHWTRSRMQGSGGIGAIFPAMAYAVMALRVLGCREDDPDY VRGMQAIDDLLQHRTPQEADSPRTGGPCIDSGTSAAFAFDPSPHAAADGRGNSSICQPCNSPI WDTCLSLSALMEAGMPASHPAAKQAVEWLLSQQIFSPGDWSLKAPDLEGGGWAFQFENTLY PDLDDTSKVIMSLLRAGALENGLYRDRVARGVNWVLGMQSSDGGWAAFDIDNNYHYLNDIPF ADHGALLDPSTSDLTGRCIELLSMVGFDRTFPPIAQGIGFLRSKQEGSGAWFGRWGVNYIYGT WSVLSGLRQAGEDMQQPYIRRAVGWLTSCQNHDGGWGETCYSYDDPSLAGQGESTPSQTA WSLLGLMAAGDVHSLAVRRGVRYLLDHQNQWGTWEEKHFTGTGFPRVFYLRYHGYRHYFPL WALGVYSRLSSGQKTRQEERRHSSPGDLHLPWLERIGRR
>seq_ID 71
MIKNFTALWPIRRVKGVSVTSQDGHSANGASKPDFEVRPHVDLETAIHRSQSFLLKEQKPEGY WVGELIVDSTLVSDTIAYHHWNGKVDMEWQRKAVNHIFSMQLPDGGWNIYYGGPAEINATVKA YLALKLAGVPVMDPRMLRARSVALSMGGVPRMNTFSKLYLALLGLFPWNYVPTIPCEVILIGKW FHVNFYEMSSWSRSMLVPLAIINHFKPTRKLQNQVKLDELYPEGYHERDLALPPDPEFLTFRNF FLWLDKLHKFAELWVQAGIHPFRRRALKKCEHWMLERFEGSNGLAAIFPAMLNSLIALKALGYP GDHPEVKRAEKELKNLEHETADTVRIEPCFSPVWDTAIVAICLHESGIPSDHPALKKSAEWLIDK EIRFRGDWYFKNPVDVEPSGWVFEFENKWNPDVDDTAMVLLALRKIPTSDVKRRDECFQRGL KWMMAFQCKDGGWAAFDKDCTKGILEKVPFADHNAMLDPECADITARILELLGYEGVGVDHP QIKKALQFIQEEQEDDGSWYGRWGVNYIYGTWQVLRGLRALNINMNQPWLLKARDWLESVQH EDGGWGERCNTYDDPVFKGQGPSTASQTAWAVMGLCTFDDPQRPSLMRGIDYLIKTQNSDG SWTEHEITGTGFPRVFYLKYDMYRNSWPLLALATYRNLYASSEKTANGHTNGHSVQLPEALKT PPAFK
>seq_ID 126
MNKKSAMKLKKKAKNHVVSLLQPTDALNRVMKRFRSLQSPEGYWVFALEADVTIPSEYIMFNR FLGRKMDKGLAERLGNYIRAKQMADGGWPLHDNDGPVNISASVKAYMALKMLGDNKDAEHM VRARQIILAKGGAETANVFTRICLATFGQIPWHCPPAMPIEIVLLPKWFFFHLDKVSYWSRSVIYP LLIIYAKQPVCRLRPEEAVPELFCKPAEEHIHIDKYRDKGWRKNLFILLDRVLKRTIHLVPKSINKK ALNYAEKWTREHMAGRGGIGAIFPAMANAVMALSLLGYDESDPDFARGMQSVDDLMVDKFHV PEKSPWEHTVITGGAELSAAPELDISPDHGTAENLEQAMCQPCNSPIWDTCLTLSAMMEAGEN QDSKSTQQALNWLWDQQIFFRGDWISKAPKLEGGGWAFQFENTFYPDLDDTAMVLMAMCRA GVLDQPEHRENFIKGVNWLIGMQSSNGGWAAFDIDNCAEYLNDIPFADHGALLDPPTSDLTAR VIELLGVLGYDKSFRPIKDGIEFLKKEQEDDGSWFGRWGVNYIYGTWSVLCGLRQAGEDMNSS YVCKAVEWFENHQNKDGGWGESCLSYNDKNYAGLGDSTASQTAWALLGLMAAGRVHSKAV SRGVRYLLDTQKDDGSWDESLFTGTGFPRVFYLRYHGYSQYFPMWALGVYQRFSADEDTKQI MMRRKSPLDLGRKW
>seq_ID 114
MIFTDTPTGSTQN RLDVAIRRAQQN LLRLQH N EGYWCGELFVDSTLCSDYVLFM H WADEID PV MEEKCVAHIRRRQLEDGGWNIYEGGPSDVNATVKAYFALKLAGHAPTQPWMQEARACILRLG GIPKMNTYAKLYLALLGQFPWRYLPTVPVEIMFMPRWFFFDIYEVSSWSRAMLMPLAILNHYKP TKHLPADKQLHELYPIGSEESDLGLGMQKPRFSWPNFFLFCDRLIKIMHSLPWKPWKRAALAR AEAWMTQRMGEGSDGLAAIFPAMLNSMIALRTLRYSREHPLYVKAKNDFAGLFVDDPQDFRIQ PCLSPVWDTAINLVALLESGLDPHDPKIEAAVNWLKEKEVRINGDWYVKNHHVPPSGWAFEFN NVYYPDTDDTMMVLAALARAGAHEESAPVETKAMFERALKWLLSFQCRDGGWAAFDKDVTQ GWLEDVPFADHNAILDPTCSDLTGRVLELLGLIDYDRNCTPVRRALKFLRDTQEDDGSWYGRW GVNYIYGTWQVLRGLRSIGEDMRQQWIVRARDWLESCQNEDGGWGETCASYDDPTLKGKGP STASQTAWALMGLIAAADPTEPGAFDRKSIRQGVDYLLSTQVADGSWVEPEVTGTGFPRVFYL RYDMYRNNFPLMALATYRKAREGKLPVRQRE
>seq_ID 194
MKKATRSVFSLLDGGKISDSGSRGDSRHAGSRLDSVTKSAAALLASRQNPDGHWVFDLEADV TIPAEYVMMRCFIGEPLDSDMASRLSAYLLERQLPDGGWPLYAVDGNANISATVKAYFALKLLG HDKYAPHMVSARRMILAQGGAERSNVFTRITLALFGQVPWHTTPAMPIEIMLLPKWFFFHLSKV AYWSRTVIVPLLILYNKQPVCRLGYSEGIAELFSTSPDMLVHLDHFRYRAWRKNAFIVLDRLLKR TMHLVPGRIKRRALEEAERWTRERMKGDGSIGAIYPAMANAVMALKTLGCGDSDPDYLRGLR AIDRLLIHGKPEAGALPADGAGTLFPVLDGASSAAVDLYPASLSDTAKSHAFSFCQPCNSPVWD TALSLTALSEAGGGGYSPERAMEWLFNRQIATQGDWTERCPGLECGGWAFQYENALYPDVD DTAKVLMSLFRAGALERGEYPEKIAKAVRWVLGMQGADGGWGAFDVDNNHFYLNDIPFADHG ALLDPSTADLTGRCIEMLGMLGHGPDYPPITRGIEFLREEQEPFGGWFGRWGVNYIYGTWSVL SGLSQAGEDMGRPYVRKAVEWLVSCQNDDGGWGETCASYDDPSLAGSGASTASQTAWALL GLMAAGEADHAAVRAGIAYLADSFADGWDERHFTGTGFPRVFYLRYHGYSLFFPVWALGVYA RHREGGKTVQEQVRERGVNGVFDFVMGGSA
>seq_ID 154
MMANATDTIELPPSRAADRIVPMTDIDQAVDAAHAALGRRQQDDGHWVFELEADATIPAEYVLL EHYLDRIDPALEERIGVYLRRIQGDHGGWPLYHGGKFDVSATVKAYFALKAIGDDIDAPHMARA RAAILDHGGAERSNVFTRFQLALFGEVPWHATPVMPVELMLLPRKALFSVWNMSYWSRTVIAP LLVLAALRPRAINPRDVHVPELFVTPPDQVRDWIRGPYRSQLGRLFKYVDIALRPAERLIPDATR QRAIKAAVDFIEPRLNGEDGLGAIYPAMANTVMMYRALGVPDSDPRAATAWEAVRRLLVELDG EAYCQPCVSPIWDTGLAGHAMIEAASGPEGIRPEDTKKKLAAAAEWLRERQILNVKGDWAINC PDVPPGGWAFQYNNDYYPDVDDTAVVGMLLHREGDPANDEALERARQWIIGMQSSNGGWG AFDIDNNLDFLNHIPFADHGALLDPPTADVTARCISFLAQLGHPEDRPVIERGIAYLRTDQEREG CWFGRWGTNYIYGTWSVLCAYNAAGVAHDDPSVVRAVDWLRSVQREDGGWGEDCASYEGA TPGIYTESLPSQTAWAVLGLMAVGLRDDPAVMRGMAYLTRTQKDDGEWDEEPYNAVGFPKVF YLRYHGYRQFFPLLALSRYRNLASSNSRHVAFGF
>seq_ID 156
MLIYSDILEKEDRVSETLSRQSVEPDEINHAIEGAQAALGGKQKSDGHWVYELEADATIPAEYVL LEHYLDRIDPEKQAKIGVYLRRIQGHHGGWPLYHDGGFDLSATVKAYFALKAIGDDINAPHMRIA REAILDHGGAARTNVFTRIQLALFGEVPWDATPVMPVELMLLPRKAFFSVWNMSYWSRAVIAP LLVLNALRPKAINPRGIHVQELFVKPPSEVKDWIRGPYRSVWGRFFKHLDSALRPVLPLIPRSVH KKALKAASDFIEPRLSRGGLGAIYPAMANVVMMYRAQGVPDSDPRAKTAWDAIQDLLVDHGDE IYCQPCVSPVWDTGLSGLAMIEAASGPAGTKTKETLAALKKSAEWLREHQILDVKGDWAINAPD LRPGGWAFQYENDYYPDVDDTAVVAMLLHRVDPENSREAISRAREWIIGMQSTNGGWGAFDI DNDHELLNHIPFSDHGALLDPPTADVSARCISFLAQLGDPDDRPVILKAIEYLRSEQEPEGCWF GRWGTNYIYGTWSVLCALNIAGVPHDDPMVLRAVNWLESVQRPDGGWGEDCATYEGGTAGT YKKSLPSQTAWAVLALMAVGRRESEAVKRGVAYLVSQQNEKGEWQEEAYNAVGFPKVFYLR YHGYKQFFP LTALARYRN LGVS N SG KVEYG F
>seq_ID 74
MEGASPTASNRISQYAVDLRAKARAAVASTCDWLLSHQHADGHWCAELEGDSILQSEYILLLA WLGKERTEIARRCAAHLLKQQEPNGAWTQFPGAPIDVGSSVKAYFALKLTGHDAAADYMVRA RNAILEAGGADKVNSFTRFYLALLGQIPFELCPAVPPEMVLLPNWSPINIYRISSWSRTIFVPLSIV WAHRAARDIVEDVSIHELFIRKPEDWPELRCPGLEKPAGLFSWDRFFRTADSGLKLLEKYGLRP LRKRALRQAQQWMLDRFQQSDGPGAIFPPIVWSAIALRTLGYAEDSPEIQYCLDHLERLVLEDG ETTKLQPCKSPVWDTSITLRALAAAGLGLAQEPTCRGVEWLLSKEVRVPGDWTNNVDCEPGG WFFEYENAFYPDNDDTSMGIMALADQLAAANITLEVHPGETLANTSWVGGRGIAEQLAGSSA AMMEQAAAATRRAVAWMVAMQNKDGGWGAFDKNNDAEFLCHVPFADHNAMIDPSTPDLSA RVIESFGRLGVTIESPGKLGDTVRRAVAYIRANQLSDGSWFGRWGVNYIYGTWQCLVGLRAVG VPANDPAIEQGKLWLLAHQQACGGWGESCETYEDPSLRGQGSPTASQTAWALLGIIAAGGAN LAEWHGVQYLMDTQREDGAWDEIEFTGTGFPRVFYLKYHYYPIYFPLLALAEWNRATARS
>seq_ID 326
MFDTISFDFDALDQAISRAHARLSAEQRADGHYVYELEADATIPAEYVLLEHFLDRIDPELEARIG VFLRGIQGNSPQNPGGWPLFHDGAMDISASVKAYFALKAIGDDPDAPHMRRAREAILARGGAA RTNVFTRIQLALFGAVPWRACPVMPVEIMLLPDWFPITIWKISYWSRTVIAPLLVLLTERPIARNP
RNVRIDELFVTPPDQVTDYIRGPYRSNWGYLFKAIDSALRPLERHFPARSRKRAIQAAIDFITPRL NGEDGLGAIYPAMANTVMMYHTLGYSPDHPDYATAWASVRKLVTDASYRFEGASYVQPCLSP VWDTSLAAHALAEAGSPGDAQLAAACDWLIPRQILDVKGDWAYRKPDAPPGGWAFQYNNAH YPDVDDTAWGMILDRNGDPAHREAVERARQWILGMQSRSGGWGAFDSDNEFHYLNHIPFAD HGALLDPPTADVTARCISFLAQLGHAEDRPAIERGVAYLRREQEQDGSWFGRWGTNYIYGTW SSLCALNAAGVAQDDPMMVRAVEWLLARQRPDGGWGEDCETYAHAKPGEYHESLPSQTAW ALLGLMAAGQAEHEAVARGIAWLQSVQEDDGSWTEQPYNAVGFPRVFYLRYHGYPRFFPLLA MARYRNLARGNSRQVQFGF
>seq_ID 192
MDKIKMKNINQPKFRVFRGGQKAATPCPGTTNERRGALDRGRLSASLKHSREWLLSLQADAG NWVFALEADTTIASEYVMLQRFLGRPLAPELQQRLANYLLSRQLPDGGWPLYAEDGFANISTT VKAYLALKLLGYPTHCDPLVRARQIVLALGGAEKCNVFTRIALALFGQIPWRTTPAMPVEIMLLP RWFYFHLSKISYWARTWVPLLILYAKRPVCRLEPWEGIPELFVTPPDKLGYLDVCKPGQWRKN VFIWVDRLTRKMVRCVPRRLHNLALRAAETWTREHMQGAGGIGAIFPAMANAVMALRTLGCS PDDADYQRGLKALDDLLIDRCDVPPREDTPVSPCWCTGTSAAPMLDPSPAGSHAQGGDQGIC QPCASPIWDTGLALTALLEGGLDARHPAVDRAVRWLLDQQVDVKGDWAQRVPNLEAGGWAF QFENALYPDLDDTSKVLMSLIRAGAMDNPGYRQELSRAINWVIGMQNSDGGWGAFDVDNNYL YLNDIPFADHGALLDPSTADVTGRCIEMLAMAGFGRDFLPIARGVDFLRREQEDFGGWYGRW GVNYIYGTWSALSGLIHAGEDLQAPYIRQAVGWLESVQNPDGGWGETCYSYDDPALAGRGVS TASQTAWALLGLMAAGEVDNLAVRRGIQYLVEEQNRAGGWDERHFTGTGFPRVFYLRYHGYS QYFPLWALGLYERLSSGNPSRQQMVRRAGPAGLHLPVLDRRKKLRRKRKA
>seq_ID 72
MKSEEVTIKPAVGLEKDELNAAITRSQSFLLCEQKPEGYWVGELMVDSTIVSDTIAYHHWNGKV DPEWQRKAVNHILSMQLPEGGWNIYQNGPPEVNATIKAYLALKLAGIPITDPRMLKARQVALTL GGVPRMNTFSKLYLALLGLWPWKYVPTIPCEVLLLGKWFHVNIWDMSNWSRAMIVPLAIINHYK PTRPVKVDLSELFLEGFHERDLALPKDPQSFTWRNFFLGLDQLHKFAELWVNAGIHPFRRLALK KCEQWMLERFEGSDGLAAIFPAMLNSLIALKSLGYPDDHPEVLRAERELKKLEHETKDTVRIEP CLSPGWDTAIAAMCLRESGVPAEHPRLKKAGDWLVNREVRFKADWHHKNPVDVEPSGWVFQ FNNKWNPDLDDTAMVLLALRLIPTDHPRRRDEAFQRGLKWLLAFQCRDGGWAAYDKDCTKNI LEKVPFADHNAMLDPECADITARVLELLGFEGYALDHPQVQEAVEYLREHQETDGSWYGRWG VNYIYGTWQTLRGLWALKMDMNQPWLLKARDWLESVQLPDGGWGERCNTYDDPVFKGQGP STASQTAWAVMALCTFGDPKRPSLVRGIQYLIENQNEDGSWTELETTGTGFPRVYYLKYDIYR NTWPLLAMATYRKMLDPKEVRVK
>seq_ID 145
MNKHKGTFSVIEGGKTTQARGSETCAIMDAADLEKVTSVAASQLAGQQQDDGHWVFDLEADV TIPAEYVMLQRFIGREIDPEISERLAAYMQERQLPDGGWPLYAVDGNVNISASVKAYFALKLLGH DKNAPHMVRARQLILSLGGAAKCNVFTRITLATFGQIPWHTAPAMPIEIMLLPRWFFFHLNKVAY WSRTVIVPLLILYATQPICRLQYNEGITELFTTPPDMLVHLDKFRHHAWRKNVFIALDRVLKRTM HLVPGRIKQHALAEAERWTRARMQGDGGIGAIYPAMANAVMALKTLGCSDDDADYLRGLEAV
DNLMVHRNLKTGTIPMDDDSGGIAIDNSSAAPELSPTYLTDTAGNTEFSFCQPCNSPIWDTCMS LSALCESGYAENNSGVTDRAIKWLFSQQIATPGDWSEKCPGLESGGWAFQYENSRYPDVDDT AKVLMSLFRAGALEKPEYREKIERAIRVWQGMQSTDGGWGAFDVDNDYFYLNDIPFADHGALL DPSTADLTGRCIEMMGMLGHGPDYPPIARGIAYLKKEQEPFGGWFGRWGVNYIYGTWSVLSG LHQAGENMDAPYVRKAVEWLISCQNSDGGWGETCASYDDPSLAGSGASTASQTSWALMALM AAGEWRHSAVRNGVRYLTESYCNGWNEKQFTGTGFPRVFYLRYHGYSLFFPVWALAVYSRYI NGTATVQEKVREKQFRQCLMV
>seq_ID 127
MLPYNQDFYNEDEALKDDHCEGAGNVSNPPTLDEAIKRSQDFLLSQQYPEGYWWAELEGNPT ITSHTVILYKILGIEDEYPMDKMEKYLRRMQCIHGGWELFYGDGGQLSVTIESYVALRLLNVPPT DPALKKALKFIIDKGGVXKSRMFTKICLALLGCFDWRGIPSLPPWVMLLPGWFLSSIYETACWA RGCVVPLIVVFDKKPVFKVSPEVSFDELYAEGREHACKTLPFCGDWTSHFFIAVDRVFKMMER LGVVPFQQWGIREAEKWLLERQEDTGDFLGWPPMFYSVVCMKTLGYEVTDPWRRALLSFK KFSIERADECSVQSSLSPVWDTALVVRSLVESGLPPDHPALQRAGEWLLQKQITKHGDWSFKN QSGVAGGWAFQFFNRWYPDLDDSAWVMALDCLKLPNEDVKNGAITRCLKWISSMQCKGGG WAAFDKDNHQHWINSTPFSDLKAMVDPSTTDISARVLEMVGRLKLHGTSFDEAHFLPPESIAR GLVYLRREQENEGCWFGRWGVNYIYGTCGALVALSLVAPMTHEEEIARGARWLVQVQNMHG KKINGPQDGGWGETCFSYNDPALKGQGDVSTASQTAWALQGLLAAGDALGKYEVESIGHGV QYLLSTQRKDGSWH ESQFTGGGFPIH FYLRYH FYAQH FTLSSLARYRTRLQASKIKPPIP
>seq_ID 166
MNTEPRFSAPETLRAIAGAGRALGRHQRRDGHWVFELEADATIPAEYVLLEHYMDRITPERQA RIGAYLRRIQGEHGGWPMFHAGEFNISASVKAYCALKAIGDDPQAPHMVRARQAILGHGGAER ANVFTRIQLALFGAIPWRGVPVMPVEIMHLPKWFFFNIWAMSYWARTCVVPLLVLQARKPRAR NPRQVSFDEIFRTEPDEVRDWIRGPYRSRWGWFKHIDTVLRWTEPLFSKVARESAIFKAVDFV EERLNGEDGLGAIYPAMAYALMMYDVLGYPEDDPRCVTIWKAIDKLLIETDEEVYCQPCVSPV WDTSLSGHAMIEAARTGGIEAQAELDAACDWLVARQVKDVRGDWAETRPDAEPGGWAFQYR NDHYPDVDDTAVVAMLLHRNGRPEHAEAIEKARRWWGVQSRNGGWGAFDADNDREFLNHI PFSDHGALLDPPTADVTGRCISFLSQLGHEEDRPVIERALAYLRAEQERDGSWYGRWGTNYV YGTWTVLCGLNAAGIPHDDPMVRRAVDWLVSIQRADGGWGEDERSYDVGHYVENAESLPSQ TAWAM LGLMSVGQADHPAVLRGAAYLQRTQGPDGEWQERAYNAVGFPRVFYLKYHGYRLFF PLFALSRLHNLQRGNSREVSFGF
>seq_ID 21
MSGEVRVAGDALAEDAGRAAAAASQYLYRTQQRDHWRAELESNVTVTAEYVLLRQALGLDLE ERRDALVRYLCSRQKADGSFGIASTLPGDVSTTAEAYLALRLLGLDREDERLRAAERFIRGAGG LARVRVFTRINLALFGLFPWEAVPTVPAELIFLPRWAPVNVYRLASWARSTMVPLFVLFHHRPV FALPGGAGSDWLDHLWLGPGDKRVPYRTSVMETVRRHGPGWKAFFNAADAWLRVHDRLRH LPPLGRLRTEALRACEEWILARQEASGDWAGIFPPMLNGVLALHVAGHGLDAAPVRRGLEAIE RFAVSDREGFRIEACQSPVWDTILALIGLLDSGESPTDPRLVAARRWIEGMQLTNDWGDWKVY DPRGEPGGWAFEYANSWYPDVDDTAAVIVGLLKHDPASRAGETVRRAAAWVASMQNRDGG
WAAFDVNNDRLFLNEIPFSDMDSLCDPSSPDVTGRVLEAFGMLDAPHLRAACRRGVAYLRRA QEPEGSWYGRWGVNYVYGTSNVLNGLARQRVPASDPMVARALGWLDSVQNADGGFGEGLE SYADRAAMGRGPSTASQTAWGVMGLLAYRAADDAAVRRGIAWLVERQLADGEAQGSWEEE AFTGTGFPRHFYLRYHLYRHYFPLMALGRFCAQGRG
>seq_ID 111
MSYEWTEPVRPGRRHAVSPVQNFCQSLAPAIQRACDALFSQQAADGFWCGELTADTTLESDY ILLQLWLNQPDDHGWNPPTRPRIDRAGRSILERQLPDGGFNIYAGGPSEVSATIKAYCALKLAG LDPHSPPLRRARERILALGGLQAANSYVKINLSLFGLYPRKHVPSVPPEIVMLPGNVLYEMSSW TRSILVPLSIVQARGSNRRAPNGFNLDELLLPGVKLALPKRKGLAVLFHHLDRMFKVWEKRGSE RIRGAAIREAERWLIARTHYTEGLGAIYPAMMYFIMALDALGYAEDHPDRSEAIRHFESLLIETDD RFLFQPCVSPVWDTAICAFALGEAGNTDDPRMTLAADWLISKEVRRKGDWSIKRPDTEPSGW AFEFANEFYPDIDDTAMVLLALMHANGSNPEAQAAAERRAVNWLLAMQSSDGGWAAFDVDN NWAMLNQVPFADHNAMLDPTCPDITGRVLECLCRRGMAGHDAARRGVAYLLQAQEKDGSWY GRWGVNYIYGSFLAM RGLTTSGAPGSQDAVDRAARWLRAIQNPDGGWGESCASYARDGYVA APSSASQTAWALLGLCAAGDRDSAQFRRGVEYLLTLQAPDGKWPEGATTGTGFPNVFYLTYA MYRDYFPLLALSQV
>seq_ID 157
MPKDIPADLASEAISGDMLEQAVLRASMALHRKQQTDGHWVFELEADATIPAEYVLLEHFLDRI DDDLERKIGVYLRRIQGDHGGWPLFHEGAFNLSASVKAYYALKAIGDDPDAPHMRRAREAILAA GGAERSNVFTRIQLALFGQIPWRGVPVMPAELMIAPKWFPINMWKVSYWSRTVIAPLLVLMDR KPKARNPRNVHVRELFLHDPDRIRDWIRGPFRSGWGHFFKYLDSVLRWEPVALKPMRPRSIR LAVDFVRERLNGEDGLGAIYPAMANSVMMYDVLGYSPDHPEAAIAWESVRKLLVIKEDEAYCQ PCLSPIWDTGLSGHAMAEAEGAVSPGVAAACDWLRNRQITDWGDWAEIRPGVQPGGWAFQ YNNAHYPDVDDTAVVAMLLHRQGDPAHEESIRKAREWIIGLQCRDGGWGAFDADNDKDYLNH IPFADHGALLDPPTADVTARCISFLAQLGNPEDKPVIDRAMAWLRKEQEADGSWFGRWGTNYI YGTWSVLCAMNVAGMPHDDPAIRRAVNFLVATQREDGGWGEDEETYDPASGAQPGRYKEST PSQTAWALIGLMAAGEAEHEATRRGIAYLQATQKPDGEWDEAAYTAVGFPRVFYLKYHGYRQ FFPLMALSRYKNLRSSNMKKVSFGF
>seq_ID 205
MNQAATITRPQDETLTTSARRPAQPALPDPLDAGIAHWESLLAQQQSDGHWVYELEADATIPA EYILMVHYLGETPDLVLEGKIANYLRRIQNADGGWPLFHAGASDISASVKGYFALKMAGDNPEA E H M RRARAAIH AM GGAEAS N VFTRTLLALYGVM P WQAVP M M PVEIMLLPEWFPFHLS KVSYW ARTVIVPLLVLNSLRPQARNPRKIGIDELFVRPCQATRLPRRAPHQSPLWVGVFRTLDAWRMA EPLFPRGLRQRAIERAREFTVERLNGEDGLGAIFPAMVNSVLMFDVLGVPESDPNRAIARRSID KLLVIKDDEAYCQPCLSPVWDTSLAAHALLEVGEPRTIAAAARGLDWLLPLQELELRGDWTVRR PNVRPGGWAFQYANPHYPDVDDTAVVAAAMDRVDKGDRSNRYDEAVSRACEWIVGMQSSN GGWGAFEPENTHLYLNNIPFADHGALLDPPTADVSARCLAM LCQLGQMPANSEPAARALRYLL DEQEADGSWFGRWGTNYIYGTWSALCGLNAAGIGTDAPEMKRAAQWLLSIQNEDGGWGESG
DSYKLEYRGYEKAPSTASQTAWAMLGLMAAGAGDHPALVRGVEYLLRTQASHGFWDEPYFT AVGFPRVFYLRYHGYSRFFPLWALARFRNLLRDGNRAISWGL
>seq_ID 218
MKTDGNTTLDTTISMEELERTVKSAYEALAKDQQDDGHWIYELEADVTIPAQFILLEHTLDKIDE ELEQKIANYLRRCQSREHWGWPVYYGGEFNISASVQAYFALKMTGEDINAPHMVRAREAILAH GGPEYANVFTRIQLSLFGEASWLATPFMPVEIMLLPRWMYFSIWNMSYWSRTTVAPLLIVADLK PKAINPRNVHIPELFPTPPDKVKTWIHGPFRSKWGHVFKFIDTAIRPFTRFVPSFLHKKAYKAAL DFIEPRLNGVDGLGAIYPPMSYSAVMYRALGIPDDDPRAATNWEALKGLLVIKEREAYCQACVS PVWDTALSGHALMEASFGPDGINADRTEKLIDRAAHWLRAHQVLNVVGDWAINNPNLQPGGW AFQYGNDYYPDVDDTAVAAMLLHRQNLPENEEALDRARKWIIGMQSSNGGWGAFDIDNDKQI LNDIPFADHGALLDPPTADVSARCISLLAELGHPEDRPVIERGIKYLRKEQEEDGSWFGRWGTN YIYGAWSVLCAFNASGVPHDDPSVLKCVNFLKSVQREDGGWGESCETYEGSAHGVYTESLPS QTAWAVLGLMASGRRTDPAVKRGIVWLIQHQQDNGEWAEEPFNAVGFPRMFYLHYLGYKQF FPLLALARYRHMEKSGTNNVSFAF
>seq_ID 11
MLPYNQDHHFGKVAENATMPPTLDEAIERSQDFLLSLQYPEGYWWAELEANVTLTAQTIMLYKI LGIDHKYPIHKMKTYILRTQRAHGGWEIFYGDGGCLSTTIGAYMALRILGVPKTDPVLQKALKLIH SKGGVTKSRMFTKICLALLGCYDWKGIPSLPPWLVLLPSWFPFSLYDTASWVRGCVVPLTIIFD KKPVYKLNPLLCLDELYSEGKGKARVHLSFIPGDWTSNFFVGLDHVFKYMENLGVVPFRQWGI KEAERWTLERHEDSGDFHGIYPPMFYSIVSYSLLGYEITDPVVHRALESMRGFTVEREDECVV QSCISPMWDTAFVIRSLAESGLQPDHPALQKAGEWLLQKQATQHGNWFYKKRTGRAGGWAF QFFNRWYPDVDDSAAVSMALNAIKLQDDDVKKGAIKRCAEWISVMQCKDGGWAAYDCDNDR EWLNCTPFGDLKAMIDPNTVDVTARVLEMVGRVKEAGDASAILPPRAIARGLAYLRREQETEG CWYGRWGVNYIYGTSGALMALALVAPSTHKEEIERGARWLVEVQNKRGTKGANGYSHTNGA REGGVAMNGNCKNMGAPEDGGWGETCFSYNDITLKGRNEVSTVSQTAWALQGLLAAGDALG KYEVESIEHGVQYLLSTQRKDGSWCEKHFTGGGFPRFFYIRYHLYAGHFPLSALARYRDRVRA GKMAK
>seq_ID 214
MDATAPLRDPGAPSAENCSVDRRELDDVIGESCRWLGERQNQDGHWVFELEADATIPAEYILL NHFLDEIDDAREARIASYLRAIQGKHGGWPLFHDGDFDMSATVKAYYALKLTGDGVDEPHMVR ARQAILEHGGAERTNVFTRFTLAMFDQVPWRACPVTPVEALLLPRFAPFHWSKVSYWSRTVM TPLMILYSRRARAVNPRGIGVRELFRRDPEVIRDWLKNPTGHWIGDALIQIDKVLRVIEPAIHWAF RDRAEKWALDFIEERLNGRDGLGGIYPAIANTLMAYHTLGYAKDHPGYRIAREAVDGLCTPHAK GEYVQPCLSPVWDTCLASHAIQEAGQSAGDRAVDQSNAWLRERQVLDVVGDWKSNRGHLRP GGWAFQYNNPHYPDVDDTAVWMALARSKEDEANREAIARAEEWIIGMQSSNGGWGAFDAE NEHDFLNHVPFADHGALLDPPTVDVSARCLGMLAQLGRPKTDPVVARGLDYLWREQEADGS WFGRWGTNYIYGTWSALNAFNAVEWDMTDPRICKAVDWLKSRQRDDGGWGEDCATYWKER RSVSKASTPSQTAWAVLGLMAAGEVDSPEVERGIRYLLEAPRDGGKWEEELYNAVGFPRIFYL RYHGYSAYFPLWALARYRNLTSGNCKRTIHGM
>seq_ID 73
MPEEAILTETHPLDATTIETAITRARKALLGEQRADGHFVFELEADVSIPCEYILFYHFIGRPAPAE LEAKIGHYLRARQSAEHDGWPLFQDGAFNISSSVKAYFALKAIGDTPDMPHMQRARTAILAHG GAAAANVFTRSLLALFGLIPWHGIPVMPIEIMHLPEWFPFHIAKISYWGRTVLVPMMWHALKPK PANTCTIRIDELFVIPPDQVRHWPGSPGKRFPWTAIFAGIDKVLQIAEPYFPRRSRQSAIDKAVA FVTKRLNGEDGLGAIYPAMAYSALMYLSIGRSLSDPHIQLVLKAIDKLVWKDHEAYVQPCVSPV WDTALASHALMEAGDGDKPILDSLKKGLAWLKPLQVTDIAGDWAWKKPDVKPGGWAFQYGN AYYPDLDDTAVWMAMDRARDRWPEIDEDNFRPSIARAREWIVGLQSENGGFGAFDADNDRD YLNAIPFADHGALLDPPTADVTARCISMLTQLGEKPENSETLRRAIAYLFAEQEKDGSWFGRWG LNYIYGTWSVLCSLNAAGIAHDAPEVRRAVAWLRTIQNEDGGWGEDAESYALDYAGYQQAPS TSSQTAWAVLGLMAAGEKDDPAVARGIAYLTRTQGEDGFWTEKRFTATGFPRVFYLRYHGYS KFFPLWAMARYRNLHNGNHASVLTGM
>seq_ID 103
MNDMTEMHTLDATAVPAAPAAADAPAPSAATTGLDAAVARATDALLAAQNADGHWVYELEAD STIPAEYVLLVHYLGEEPNAELEQKIARYLRRIQQPDGGWPLFTDGAPNISASVKAYFALKVIGD DENAEHMQRARRAIHAMGGAEMSNVFTRIQLALYGVVPWYAVPMMPVEIILLPQWFPFHLSKV SYWARTVIVPLLVLNAKRPVAKNPRGVRIDELFKSAPVNTGLLPKQPHQHAGWFAFFRAVDGV LRLADGLFPRYTRERAIRQAAAFVDERLNGEDGLGAIYPAMANAVMMYAALGYPEDHPNRAIA RQSIEKLLVVGEEEAYCQPCLSPVWDTSLAAHALLETGDERAREAAVRGLDWLVPRQILDVRG DWISRRPHVRPGGWAFQYANAHYPDVDDTAVWMAMDRVAKHDQTDAYRESIARAREWWG MQSSDGGWGAFEPENTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQLGETSASSEPARR ALDYMLKEQEPDGSWYGRWGMNYIYGTWTALCSLNAAGLGHDDPRVKRAAQWLLSIQNPDG GWGEDGDSYKLDYRGYERAPSTSSQTAWALLGLMAAGEVDNPAVARGIGHLLGTQREHGLW D ETRFTATG FPRVFYLRYHGYRKFFP LWALARYRN L KRAG AARVTVG M
>seq_ID 95
MNDMTEMHTLDAAAAPAADAPAVTAVTAGLDAAVARATDALLAAQNADGHWVYELEADSTIPA EYVLLVHYLGEEPNAELEQKIARYLRRIQQPDGGWPLFTDGAPNVSASVKAYFALKVIGDDENA EHMQRARRAIHAMGGAETSNVFTRIQLALYGWPWYAVPMMPVEVMLLPQWFPFHLSKVSYW ARTVIVPLLVLNAKRPVAKNPRGVRIDELFKSAPVNTGLLPKQPHQSTGWFAFFRAVDGVLRLV DGLFPRYTRERAIRQAVAFVDERLNGEDGLGAIYPAMANAVMMYAALGYPEDHPNRAIARQSI EKLLVVGEEEAYCQPCLSPVWDTSLAAHALLETGDERARDAAVRGLDWLIPRQILDVRGDWIS RRPHVRPGGWAFQYANPHYPDVDDTAVWMAMDRVAKLDQSDAYREQIARAREWVVGMQS SDGGWGAFEPENTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQLGETNASSEPARRAFD YMLKEQEPDGSWYGRWGMNYIYGTWTALCALNAAGLGHDDPRVKRAAQWLLSIQNQDGGW GEDGESYKLDYRGYERAPSSSSQTAWALLGLMAAGEVDNPVVARGIDYLLGAQCEHGLWDET RFTATGFP RVFYLRYH GYRKF F P LWALARYRN LKRANTTRVTVG M
>seq_ID 106
MNDLTDMPTLAADSAAADLDAAVARATDALLAAQQADGHWVYELEADSTIPAEYILLVHYLGET PNLELEQKIGRYLRRIQQPDGGWPLFTDGAPNISASVKAYFALKVIGDDENAEHMQRARRAIHA MGGAEMSNVFTRIQLALYGAIPWRAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIVPLLVLNAK RPIAKNPRGVRIDELFIDPPVNAGLLPRQGHQSAGWFAFFRVVDHALRAVDGLFPSYTRERAIR QAVAFVDERLNGEDGLGAIYPAMANAVMMYDALGYPEDHPNRAIARRSVEKLLWHDDEAYC QPCLSPVWDTSLAAHALLETGDPRAEDAWRGLEWLRPLQILDVRGDWISRRPNVRPGGWAF QYANPHYPDVDDTAWVMAMDRVEKLRHSDAYREAISRAREWWGMQSSDGGWGAFEPEN TQYYLNNIPFSDHGALLDPPTADVSGRCLSMLSQLGETAANSEAARRSLDYMLKEQEPDGSW YG RWG M NYVYGTWTALCSL N AAG LG P D D P RVKRGAQWL LSVQ N KDGGWG E DG DS YKL D Y RGYEQAPSTSSQTAWALLGLMAAGEVNHPAVARGIDYLIAEQKEHGLWDETRFTATGFPRVFY LRYHGYRKFFPLWALARYRNLKRANATRVTVGM
>seq_ID 87
MNDLTEMATLSAGAVPAGVDAAVARATDALLAAQQADGHWVYELEADSTIPAEYVLLVHYLGE TPNLELEQKIGKYLRRIQQADGGWPLFTDGAPNISASVKAYFALKVIGDDENAEHMQRARRAIH AMGGAEMSNVFTRIQLALYGAIPWRAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIVPLLVLNA KRPLAKNPRGVRIDELFIDPPVNAGLLPRQGHQSPGWFAFFRVVDHALRAVDGLFPSYTRERAI RQAVS FVDERLNGE DGLG Al YPAM AN SVM MYAALGYAE D H P N RAI ARKSVEKLLWH D D EAYC QPCLSPVWDTSLAAHALLETGDARAQEAVLRGLEWLRPLQILDVRGDWISRRPNVRPGGWAF QYANAHYPDVDDTAVVVMAMDRAQKLTQSDTYRESMARAREWVVGMQSSDGGWGAFEPEN TQYYLNNIPFSDHGALLDPPTADVSGRCLSMLSQLGETPLNSEPARRALDYMLKEQEPDGSWY GRWGMNYVYGTWTALCSLNAAGLTPDDPRMKRGAQWLLSIQNKDGGWGEDGDSYKLNYRG YEQAPSTASQTAWALLGLMAAGEVNNPAVARGVDYLVAQQNEEGLWDETRFTATGFPRVFYL RYHGYRKFFPLWALARYRNLKRANATRVTVGM
>seq_ID 107
MNDLTDMANLSAGTVPAGLDASVARATDALLAAQNADGHWVYELEADSTIPAEYVLLVHFLGE TPNLELEQKIGRYLRRIQQADGGWPLFTDGAPNVSASVKAYFALKVIGDDENAEHMQRARRAI HAMGGAEMSNVFTRIQLALFGAIPWRAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIVPLLVLN AKRPLAKNPRGVRIGELFIDPPVNAGLLPRQGHQSPGWFAFFRWDHALRAADGLFPSYTRER AIRQAVSFVDERLNGEDGLGAIYPAMANAVMMYDVLGYPEDHPNRAIARKSIEKLLWHDDEAY CQPCLSPVWDTSLVAHALLETGDARAEQAVLRGLDWLRPLQILDVRGDWISRRPNVRPGGWA FQYANAHYPDVDDTAWVMAMDRAQKLQNTDTYRESIARAREWVVGMQSSDGGWGAFEPE NTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQLGESALSSEPARRALDYMLKEQEPDGS WYGRWGMNYVYGTWTALCSLNAAGLGPEDPRVKRAAQWLLSIQNKDGGWGEDGDSYKLNY RGFEPAPSTASQTAWALLGLMAAGEVNHPAVERGIGYLIAQQNDEGLWDETRFTATGFPRVFY LRYHGYRKFFPLWALARYRNLKRANATRVTVGI
>seq_ID 212
MESGNNKQPAAAIGALDASIESATNALLGYRQPDGHWVFELEADCTIPAEYVLLRHYLGEPVDA ALEAKIANYLRRVQGAHGGWPLVHDGGFDMSASVKGYFALKMIGDDIDAPHMAKAREAIRSRG GAIHSNVFTRFLLSMFGITTWRSVPVLPVEIMLLPMWSPFHLNKISYWARTTIVPLMVLAALKPR
AVNRLDIGLDELFLQDPKSIKMPAKAPHQSWALFKLFAGIDAVLRTIEPLFPKRLRDHAIKLAVDF VEERLNGEDGLGAIYPPMANTVMMYKVLGFPEDHPPRAITRRGIDKLLVIGEDEAYCQPCVSPV WDTALTCHALLEVGGEAAVPPAKRGMDWLLPKQVLDLKGDWAVKRPNLRPGGWAFQYNNAH YPDLDDTAWVMAMDRSRRATGSREYDEAIARAREWIEGMQSDDGGWAAFDVNNLEYYLNNI PFSDHGAMLDPPTEDVTARCVSMLSQLGETAASSKAVADGVEYLRRTQLPDGSWYGRWGLN YIYGTWSVLCALNAAGVDHQDPVIRKAVTWLASVQNPDGGWGEGAESYRLNYTRYEQAPTTA SQTSWALLGLMAAGEVDSPVVARGVEYLKSTQTGKGLWDEQRYTATGFPRVFYLRYHGYAKF F P LWAL ARYRN L RSTN S KW G VG M
>seq_ID 101
MNDLTEMATLSAGAVPAGVDTAVARATDALLAAQNADGHWVYELEADSTIPAEYVLLVHYLGE TPNLELEQKIGKYLRRIQQADGGWPLFTDGAPNISASVKAYFALKVIGDDENAEHMQRARRAIH AMGGAEMSNVFTRIQLALYGAIPWRAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIVPLLVLNA KRPLAKNPRGVRIDELFIDPPVNAGLLPRQGHQSAGWFAFFRVVDHALRAVDGLFPNYTRERAI RQAVSFVDERLNGEDGLGAIYPAMANSVMMYDVLGYAEDHPNRAIARKSIEKLLVVQEDEAYC QPCLSPVWDTSLAANALLETRDARAEDAAIRGLEWLRPLQILDVRGDWISRRPHVRPGGWAF QYANAHYPDVDDTAVVAVAMERAQQLKQNDAYRDSIARAREWVVGMQSSDGGWGAFEPEN TQYYLNNIPFSDHGALLDPPTADVSGRCLSMLSQLGETPLNSEPARRALDYMLKEQEPDGSWY GRWGMNYVYGTWTALCSLNAAGLTPDDPRVKRGAQWLLSIQNKDGGWGEDGDSYKLNYRG FEQAPSTASQTAWALLGLMAAGEVNNPAVARGIDYLIAEQNAEGLWDETRFTATGFPRVFYLR YHGYRKFFPLWALARYRNLKRDNTTRVTVGL
>seq_ID 112
MSAPSHVGNTLEHAAELATRKAMAYLTCLQERDGHWCAELTADTTLESDYILFQLWLYPPQDG KWEPETRPLIRKAVNSILERQLPDGGFNICVGGPSEVSASVKAYVAMKLAGLPPEDDRMARLR ERILALGGIQAANSYVKVNLSLFDLYPREFSPSIPPEVALLPFDLLYQMSAWTRAIVISLGIVHAAN PRRPAPAGFNLQELWLPGVSPEFRRDPSFFTWHNTFLTVDKALKLWERYGSKAVRRRAVEKA KTWMIERLHHSDGLGAIYPPMMYSVMALDVLGYAKDDPLRVEALRHFNNLMVDDGDRFFFQP CFSPVWDTAIGAYALVQADPSHEAIAPAADWLIAKEVRRKGDWSVKRPNTEPSGWAFEYSNE YYPDIDDTAMVMLALGETRASNTEAQAAACKRGLAWLLAMQSSDGGWAAFDADNNWEFLSQ VPFADHNAMLDPTCADITGRVLEALASQGLDRNHKAVRRGAEWLIRHQENDGSWYGRWGVA YIYGTCFALRGLAASGENDREAHILRAGEWLRSIQNADGGWGESCKSYDNRIFTGGPSTPSQT AWAILGLIAGGDANSLSVQHGIEYLLETQRSDGSWDEQFATGTGFPRVFYLNYHMYKDYFPLL ALASFVKARAGSNG
>seq_ID 83
MNDLTEMATLSAGTVPAGLDAAVASATDALLAAQNADGHWVYELEADSTIPAEYVLLVHYLGE TPNLELEQKIGRYLRRVQQADGGWPLFTDGAPNISASVKAYFALKVIGDDENAEHMQRARRAI HAMGGAEMSNVFTRIQLALYGAIPWRAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIVPLLVL NAKRPIAKNPRGVRIDELFVDPPVNAGLLPRQGHQSPGWFAFFRWDHVLRAADGLFPSYTRE RAIRQAVSFVDERLNGEDGLGAIYPAMANAVMMYDVLGYAEDHPNRAIARKSIEKLLVVHEDEA YCQPCLSPVWDTSLAAHALLETGDARAEEAVIRGLEWLRPLQILDVRGDWISRRPHVRPGGW
AFQYANAHYPDVDDTAVVAVAMDRVQKLKHNDTFRDSIALAREWWGMQSSDGGWGAFEPE NTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQLGETPLNSEPARRALDYMLKEQEPDGS WYGRWGMNYVYGTWTALCALNAAGLTPDDPRVKRGAQWLLSIQNKDGGWGEDGDSYKLNY RGFEQAPSTASQTAWALLGLMAAGEVNNPAVARGVEYLIAEQKEHGLWDETRFTATGFPRVF YLRYHGYRKFFPLWALARYRNLKRDNATHVTFGL
>seq_ID 175
MLQTEAITTEGLRFRSLAPDDPLLPRVKQALKLSGQHSREEMHSDGHWCGEVKTNATTSAEH VLLCQALDINLDADREAFISWFRCTQGADGGWSTAPDQAGDISVTVEAYLALKILGLSEDDAAM RSARDFAIAAGGVARVRIFTRIYLAMFGLFPWAAVPELPPELILLPSRVPVSIYHWSAWARATVV PLLIISHHRPIYALPGGKATCSDYLDELWCDPRNKMVPYNHDKPTAWRSDPFALIFTLADSILHR LDGLRSFNPLRRFALRKCVDWILEHQEDMGDIGDIMPPLHGAMLALRLEGYPLHSDPIHRGLEA IERFAYRDQQGKRIQTTVSAFWDTSLMLVALGDAGMASSPWLTRSLGWLQQHQRLGNYGDW KVNNPGLKAGGFSFGYFNTWYPDVDDTASAVLAIIRQDERLVCSASVLDALNWLLGMQNTDG GWGAFDRDNNKLFLNKIPFSDMEAFCDPSTPDVTGHVLEAFGIFLAVSARQQSPTKADVLTDRI VSASRRAICYLSDTHVSSGGWYGRWGCNYIYGTSAVLCALAYFGSKSDTLSGVRSVKDAVNQ AIRWLETVQNQDGGWGETVNSYKDPSRAGSGPSTASQTAWAIMALLPYLPPSTEVIQRGVEYL LRTQTKTASQGATWHEKAYTGTGFPKYFYMGYSFYCHYFPMMALGRYAYPCPEW-HENWRPKKE
>seq_ID 88
MNDLTDMATLSAGAAPAADLDAAVARATDALLAAQNADGHWVYELEADSTIPAEYVLLVHYLG ETPNLELERKIGRYLRRIQQADGGWPLFTDGAPNVSASVKAYFALKVIGDDENAEHMQRARRAI HAMGGAEMSNVFTRIQLALYGAIPWRAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIVPLLVL NAKRPLAKNPRGVRIDELFIDPPVNAGLLPRQGHQSAGWFAFFRVVDHVLRAVDGLFPKYTRE RAIRQAVSFVDERLNGEDGLGAIYPAMANAVMMYDVLGYAEDHPNRAIARKSIEKLLVVHDDEA YCQPCLSPVWDTSLAAHALLETGDPRAEDAALRGLEWLRPLQILDVRGDWISRRPNVRPGGW AFQYANAHYPDVDDTAVVAMAMDRAQKLRQSDTYRESIARAREWVVGMQSSDGGWGAFEP ENTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLSQLGESALTSEPARRALDYMLKEQEPDGS WYGRWGMNYVYGTWTALCALNAAGLGPDDPRVKRAAQWLLSIQNKDGGWGEDGDSYKLNY RGYEQAPSTASQTAWALLGLMAAGEVNNPAVARGIDYLLAEQKEHGLWDEVRFTATGFPRVF YLRYHGYRKFFPLWALARYRNLKRANATRVTVGM
>seq_ID 92
MNDMTEMHTLDATAAPAGLDAAVARATDALLAAQQADGHWVYELEADSTIPAEYVLLVHYLGE APNVELEQKIARYLRRIQQPDGGWPLFTDGAPNISASVKAYFALKVIGDDENAEHMQRARRAIH AMGGAEMSNVFTRIQLALYGVVPWYAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIVPLLVLN AKRPVAKNPRGVRIDELFKGAPVSTGLLPKQPHQSAGWFAFFRAVDGVLRLVDGLFPRYTRER AIRQAVAFVDERLNGEDGLGAIYPAMANAVMMYAALGYPEDHPNRAIARRSIEKLLWGEQEAY CQPCLSPVWDTSLAAHALLETGDARAREAAVRGLDWLVPRQILDVRGDWISRRPHVRPGGWA FQYANAHYPDVDDTAVVAMAMDRVAKLDRTDAYRESIARAREWVVGMQSSDGGWGAFEPEN TQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQFGETSASSEPARRALDYMLKEQEPDGSW
YGRWGMNYIYGTWTALCSLNAAGLGHDDPRVKRAAQWLLSIQNADGGWGEDGDSYKLDYR GYERAPSTSSQTAWALLGLMAAGEVDNPAVARGVDYLLGTQREHGLWDETRFTATGFPRVFY LRYHGYRKFFPLWALARYRNLKRANAMRVTVGM
>seq_ID 206
MTRKTIPASELDAAIVRARDALLDRQHPDGHWCFELECDATITAEYILMMHFVDEIDTALQARM AKYLRAVQRLDGHGAWDLYFGGDLDISCSVKAYFALKAAGDPPDAPHMVRAREAILARGGAA KSNVFTRILLATFGEIPWRGTPFMPVEFVLFPRWAPIHMDKVAYWARTTMVPLLVLCSIRAAAK NPLGVHVQELFVTPPELEREYFPRKRGLQQAFLVADRWRHLEPLIPRALRRRAIQRAVEWSEA RMNGEDGFGGIFPPMVYSYEMMVLLDYPEDHPLRVECKAALKKLWHRDDGSSYCQPCLSPV WDTAWSVMALEQAPSDARTETAIARAYDWLTDRQVLDLRGDWENNAAPSTPPGGWAFQYEN PYYPDIDDSAVVLAMLHARGKRTGQPGRYEMPVARCLDWIIGLQSRNGGFGAFDANCDRDFL NAIPFADHGALLDPPTEDVSGRVLLALGITERPQDATARERCIQYLRDTQQPDGSWWGRWGT NYIYGTWSVLAGLGLAGVDRKLPMVRNGLQWLRGKQNADGGWGETNDSYARPELAGKHED GSMAEQTAWAMLGQMAVGEGDADSVHRGAAYLLDAQNEDGFWMHPYHNAPGFPRIFHLKY H GYTAYFP LWALG RYRRLAAARASAM QTAKAES AES M TAH
>seq_ID 96
MNDLSMTQTLGEVLPQTLIDDHAPVAAALATGAAPVDALDAAVTRATEAILAVQKDDGHWVYE LEADATIPAEYVLLVHFLGETPNLELEQKIARYLRRIQLPNGGWPLFTDGAM DVSASVKAYFALK MIGDPEDAAHMVRARECILANGGAEAANVFTRILLALFGVVTWYAVPMMPVEIMLLPKWFPFHL SKVSYWARTVIVPLLVLNAKRPVARNPRGVRIDELFRGAPVTTGLLPRSGHQSKSWFAFFRAV DGVLRVTDGLFPKASRERAIKAAVSFVDERLNGVDGLGAIFPAMANSVMMYDVLGYPADHPNR AIARESIEKLLVVHEDEAYCQPCLSPVWDTSLAAHALLETGDARAEEAAERGLAWLRPLQILDV RGDWISRRPDVRPGGWAFQYNNAHYPDVDDTAWAMAMHRSAAVTNSNVDANAIARAREWV VGMQSSDGGWGAFEPENTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQLGEMPATSEPA RRAYDYLLKEQEDDGSWYGRWGMNYIYGTWTALCALNAAGISLEDARIKRAAQWLVSIQNAD GGWGEDGTSYKLDYRGYEKAPSIPSQTAWALLGLMAAGYVDHPAVARGIDYLQREQRDHGL WDEERFSATGFPRVFYLRYHGYRKYFPLWALARYRNLKRTGEKRVTVGM
>seq_ID 104
MNDMTEMHTLDATAAPAAPTVATGLDAAVARATDALLAAQNADGHWVYELEADSTIPAEYVLL VHYLGEAPNVELERKIARYLRRIQLPDGGWPLFTDGAPNISASVKAYFALKVIGDDENAEHMQR ARRAIHAMGGAEMSNVFTRIQLALYGVVPWYAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIV PLLVLNAKRPVAKNPRGVRIDELFKSAPVNTGLLPKQPHQSAGWFAFFRAVDGVLRLTDGLFP RYTRERAIRQAVAFVDERLNGEDGLGAIYPAMANAVMMYAALGYPEDHPNRAIARQSIEKLLW GEDEAYCQPCLSPVWDTSLAAHALLETGDERAREAAVRGLDWLVPRQILDVRGDWISRRPHV RPGGWAFQYANAHYPDVDDTAVVAMAMDRVAKLDRTDAYRESIARAREWVVGMQSSDGGW GAFEPENTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQFGETSASSEPARRALDYMLKEQ EPDGSWYGRWGMNYIYGTWTALCSLNAAGLGHDDPRVKRAAQWLLSIQNPDGGWGEDGDS YKLDYRGYERAPSTSSQTAWALLGLMAAGEVDHPAVARGIDHLLGTQREHGLWDETRFTATG FPRVFYLRYHGYRKFFPLWALARYRNLKRANATRVTVGM
>seq_ID 27
MAHQETMASETSISLHTLACDATKLAGTYALRQVREDGHWYGEMKSNATITAEYVFLAQALGF SIEEDRDDLIKYFLSEQNTDGSWSLAYDFPGDVSVTAEAYFALCLLGLDRSHPAMASAREFTLS KGGIAKVRVFTRMFFACFGLFPWSAVPELPAELILLPAAAPMSIYQLASWARATVVPMLVIRHH RPIYALPNGRSSSNEYLDELWVDPTDKMVPYSPSLWSLWNDDLTAFGFTLADNILKALGGLRW FPSRKIALRHCVAWILERQEPEGDIGGIFPPLHAALFALALEGYGLESSPVRRGIDALQNTYAWR DSTGLRIQGCISPILDTILMTIGLIDSSLPAESPLVARSSRYLKAHQQLGNEGDWRVYNGNVPSG GFNFEYFNSWYPDIDDTAAAILAMVKQDPNLLDLGPILSAVQWILGLQNDDGGWAAFDRENNY LFLNKIPFSDMDSFCDPSTADVTGRVIECFGLNGKNPIPRFFIDDMSSATERAIDFLSTEQEADG SWYGRWGSNYIYGTSAVLCGLVYHLEGWDDTYPVMEKRHKVDTHAALDWLKRHQNPDGGW GERLESYYEPRLAGNGPSTASQTAWALMGLLAYLAPTDESITRGIQYLSRTQIKEGELAGSWKE DHYTGTGFPNHFYLCYTLYSQYFPMMALGRYTSLSGYRPLENLESTVEDHKGNSSDC
>seq_ID 28
MMTLREEGHKEGITPGKEQLTSDIEHSLKLATEYALSSIRSDGHWCGELRSNVTITAEYIFLRHA LGLDLRTDNAAYCRYILSQQNCDGSWGLAPEYPGDVSTTTEAYLALKLLGTSPDMPAMQQAR AFVRKAGGAEKVRVFTRIFLATFGLFPWDAVPQLPVELILLPSSCPINMYTLASWARGTIAPLLII CHHQPVYALPEDYLDELWLDPTDKNVPYGSSLRDLLSRGDITGLAFSVVDNLLYYLNGLRSVPL LRSYARRKCIQWILERQEPTGDWAGIFPPMHASIYAFVLEGYELNDPPVRLGIQALENFAWEDE KGKRIQACVSPVWDTALMSIGLCDAMSPDKQILQQAITWIRNRQLLKPCGDWRIYRSKLAPGGF SFEYENSHYPDVDDTAAIILAQLKQDPQSVASDSVIAAATWILGMQNPDGGWAAFDVENDKLFL NKIPFSDMDSLCDTSCADITGRILEAFGLMMKRELKRPVLSPMLRHACIRGITYLASTQESNGA WFGRWGCNYIYGTCHALGLVAPALQWLKSKQNDDGGWGEPLLSYRTPGTQLQQQSTPSQTA WALMGLLAHLPLTDPAIERGIRWLVCSQQPEKGNGASWPEAVYTGTGFPNHFYLGYDYYRHY F P M M ALG RYLQASQ AQ A
>seq_ID 94
MNDLTDMATLSAGTVPAELDAAVARATDALLAAQNADGHWVYELEADSTIPAEYVLLVHYLGE TPNLELEQKIGRYLRRIQQADGGWPLFTDGAPNISASVKAYFALKVIGDDENAEHMQRARRAIH AMGGAEMSNVFTRIQLALYGAIPWRAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIVPLLVLNA KRPLAKNPRGVRIDELFIDPPVNAGLLPRQGHQSAGWFAFFRAVDHVLRAVDGLFPAYTRERAI RQAVAFVDERLNGEDGLGAIYPAMANAVMMYDVLGYAEDHPNRAIARKSIEKLLWHEDEAYC QPCLSPVWDTSLAAHALLETRDPRAEQAAVRGLDWLRPLQILDVRGDWISRRPHVRPGGWAF QYANPHYPDVDDTAVVAMAMDRAQKLNQSDTYRESIARAREWWGMQSSDGGWGAFEPEN TQYYLNNIPFSDHGALLDPPTADVSGRCLSMLSQLGETALNSDAARRALDYMLKEQEPDGSW YGRWGMNYVYGTWTALCALNAAGLGPDDARVKRAAQWLLSIQNKDGGWGEDGDSYKLNYR GYEPAPSTASQTAWALLGLMAAGEVNNPAVKRGIDYLIAEQKEHGLWDEARFTATGFPRVFYL RYHGYRKFFPLWALARYRNLKRDNTTRVTVGI
>seq_ID 30
MERSSLLVPASIDSHSRESETTGLDQAIVRARAALLGRQGADGHWCFELESDCTITAEYILMMH FTDEIDEDLQERMARYLRATQVQETHGGWPQYVGGAIDLSCTVKAYYALKAAGDSPEAPHMR RAREAVLALGGAAKSNVFTRILLAMFEQVPWRAVPYLPVEIMLLPRWAPIHIEKMSYWARTTLV PLTILCSLKARAANPKRVDIRELFVTAPEQERHYFLRGGLLNRIFLGLDKFARTLDRWMPKSLRQ HAIRKAEAWFLPRMNGEDGLGAIFPPMVNCYEAMILLGYPKDHPARKTCLRSIQKLIVHRDDGS AYCQPCVSPVWDTAWSAMALIHSGDDTATQTAIARAGDWLVQRQELDCRGDWEAQAPQAAP GGWAFQYANGYYPDIDDTALVAALLHISDRRRGQPGQHAFNIDRAVDWMLALQSRNGGFAAF DADNTHYYLNAIPFADHGALLDPPTEDVSGRVAACLGILKRDQDRDGLRRCIDYLRTTQQPDG SWWGRWGSNYIYGTWSALSGLALAGEDLRQPYLRKSVDWLRTRQHPDGGWGETNDSYIDP HLAGTNAGISTPHSTAWAVLAQLAMGEVESDSVRRGIAFLLACQQTDGLWSHPSHNAPGFPR VYYLKYHGYAAYFPLYALARYRHLLNRSREQR
>seq_ID 98
MNDMTEMHTLDATAAPAGLDAAVARATDALLAAQQADGHWVYELEADSTIPAEYVLLVHYLGE APNVELEQKIARYLRRIQQPDGGWPLFTDGAPNISASVKAYFALKVIGDDENAEHMQRARRAIH AMGGAEMSNVFTRIQLALYGVVPWYAVPMMPVEIMLLPQWFPFHLSKVSYWARTVIVPLLVLN AKRPVAKNPRGVRIDELFKGAPVSTGLLPKQPHQSAGWFAFFRAVDGVLRLVDGLFPRYTRER AIRQAVAFVDERLNGEDGLGAIYPAMANAVMMYAALGYPEDHPNRAIARRSIEKLLWGEQEAY CQPCLSPVWDTSLAAHALLETGDARAREAAVRGLDWLVPRQILDVRGDWISRRPHVRPGGWA FQYANAHYPDVDDTAVVAMAMDRVAKLDRTDAYRESIARAREWVVGMQSSDGGWGAFEPEN TQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQFGETSASSEPARRALDYMLKEQEPDGSW YGRWGMNYIYGTWTALCSLNAAGLGHDDPRVKRAAQWLLSIQNADGGWGEDGDSYKLDYR GYERAPSTSSQTAWALLGLMAAGAVDNPAVARGVDYLLGTQREHSLWDETRFTATGFPRVFY LRYHGYRKFFPLWALARYRNLKRANATRVTVGM
>seq_ID 187
MTSDTASAAALDPRRLATSITRASRALHDVQQPDSHWVFELEADVTIPAEYVMMRHYFAEPVD AEIEAKIAKYLRRMQNDNGGWSLFYGHEFDMSASVKAYYALKMIGDSPDAPHMKKAREAMLA RGGASRANVFTRIMLALFGQVSWKAVPMMPVEIMLLPRWFPFHLTKVSYWARTVIVPLLVLMT LKPRAKNPRGIGVRELFLEDPQTVGPTPKAAHQSQLWFTSFDIIDRVLRITDPFFPKGMRKRAIA KAEAFVTE RLN GVDGLG Al F PAM VN SIM MYDVLGYPPN D P N RALARESVE RLLVIKDDEAYCQP CVSPVWDTALAAHSMLESGEAADIEAAKAGLDWLLPRQVLDLKGDWADKRPDVRPGGWAFQ YNNAHYPDLDDTAVVVMAMDRVRRLDGTTKYDEAIARATEWILGLQSENGGWAAFDADNLEY YLNNIPFADHGALLDPPTEDVTARCLSMLAQLGDTLETSEPMRRGVEYLRKTQLPDGSWFGR WGINYVYGTWSVLCALNAVGVPHDDPMIAKAADWLESIQNEDGGWGEDGNSYKLNYKGYER AATTASQTAWATLALMAAGRVDRDATQRGIDNLVQSQEADGFWGEPYYTGGGFPRVFYLRY HGYSKFFPLWAMARYRNLRSSNSRFVGAGM
>seq_ID 207
MNKHSGNRTAIDPAALEMSIASATEALLAYRHADGHWAFELEADSTIPSEYILLRHYLAEPIDWL EAKIGNYLRRTQGAHGGWPLVHDGPFDMSASVKSYFALKMIGDSVDAAHMVKAREAIRARGG AANSNVLTRFLLALYGWSWRAVPVLPIEIVLLPIWSPFHLYKISYWARTTIVPLMVLAVLKPRAK
NPKGVGIEELFLQDTKSVGMNPKAPHQSWGWFLLFRGIDGILRVIEPHLPKKLRERAIASALAFT EERLNGEDGMGAIYPSMANIVMMYDALGKDDHFPPRAIARRAIDKLLVIGEEEAYCQPCLSPVW DTALTCHALQEVGGANAVAKAKQGLDWLKPRQVLDVKGDWAVKAPNIRPGGWPFQYNNAHY PDLDDTAVWMAMDRAQRHAGSKEYATAIARGREWIEGMQSRDGGWAAFDVNNLEYYLNNL PFADHGALLDPPTEDVTARCVSMLAQVGEFTQRSKAVAEGIAYLRRTQHAEGSWYGRWGLNY IYGTWSVLCALNAAGIDHQDPMIRKAVEWLVSIQSWDGGWGEDAISYRLDYSGYEQAPSTSSQ TAWALLGLMAAGEVEHPAVARGVNYLKNAQTENGLWDEQRYTATGFPRVFYLRYHGYSKFFP LWALARYRN LRSTNV
>seq_ID 29
MTTGHRQFDDGLSERERLIHEAGLTLQRSMDYAYNWRSDGHWCGEMSSNVTITAEYIFLRQA LGLDLKTDGAAYCRHILSQQNSDGSWGLAPEYPGDVSTTTEAYLALKMLGLSTDAPAMQQAK AFVLNAGGVAKVRVFTRIFLATFGLFPWKAVPQLPVELILLPSACPINIYKFASWARGTIAPLLIIC HHQPVYALPNGVFAENEYLDELWQDSTNKSEPYSPSIWELLSQGDITGLTFSLLDKLLYQLNGL RSIPLLRSYALKQCMKWILERQEPTGDWAGIFPPMHASVYAFVLEGYKLEDPPVRLGIEALENF AWEDAKGKRVQPCVSPVWDTTLMSIALSDAATPNHQIVDRAIQWIRDRQLLEPRGDWRVYRP RLAPGGFSFEYTNSHYPDIDDSAAIILAQVKHDPISANSSSVIAAATWILGMQNPDGGWAAFDV ENDKLFLNKIPFSDMDSLCDTSCADITGRILEAFGLLIRRVPDKDSSQLFQLLPAIRAACRRGIRY LASTQEANGAWFGRWGCNYIYGTSHALCGLAYFLQEDQQVPAMVQPALQWLKSQQNDDGG WGESLLSYQSPERKEQRSTASQTAWALMGLLAHLPHTDIVIERGIRWLVSSQRPVETLGSTWP EPVYTGTGFPNHFYLGYDYYRHYFPMMALGRYLRGVQG
>seq_ID 25
MLQTEAITTEGLRVRSLSPDDPLLPRIKQAIKLSGQHSRGEMHSDGHWCGEVKTNATTSAEHV LLCQALGINLDADREAFISWFRCTQGADGGWSTAPDQAGDISVTVEAYLALKILGLSEDDAAMR RARDFAIAAGGVAKVRIFTRIYLALFGLFPWAAVPELPPELILLPSRVPVSIYHWSAWARATWPL LIISHHRPIYALPGGGKGTSSDYLDELWCDPQNKMIPYNHDEPTAWRSDPFASIFTLADSILHRL DGLRSFNPFRRFALQKCVDWILEHQEDMGDIGDIMPPLHGAMLALRLEGYPLHSGPIHRGLEAI ERFAYRDKQGKRIQTTVSAFWDTSLMLIALGDAGMASKPWLTRSLGWLQQHQRLGNYGDWK VNNHGLKAGGFSFGYFNTWYPDVDDTASAVLAMIRQDERLVHSASVLDALNWLLGMQNTDG GWGAFDRDNDKHFLNKIPFSDMDALCDPSTPDVTGHVLEAFGLFLALSKADALADRVVAASRR AIRYLSDTHVLSRGWYGRWGCNYIYGTSAVLCALAYFGSENDALSGVRVMKDAINQAIRWLET VQNPDGGWGETVDSYKDPSRAGSGPSTASQTAWAIMALLPYLPPSTEVIQRGMEYLLRTQTK TASQGATWHEKAYTATGFPKYFYMGYSLYAHYFPMMALGRYAYPCPAWHENWRLKRD
>seq_ID 97
MNDLSQAQPLDAILPDFADAAPSAPAPAVTGEAPTASLDAAITRATEAILAAQKPDGHWVYELE ADATIPAEYVLLVHYLGETPNLELEQKIARYLRRIQLPDGGWPLFTDGALDISASVKAYFALKMIG DPADAEHMVRAREAILAHGGAETVNVFTRILLALFGVVSWRAVPMMPVEIMLLPMWFPFHLSK VSYWARTVIVPLLVLNAKRPVARNPRRVRIDELFRGAPVNTGPRDRAPHQHAGWFRFFSGVD VLLRAVDGLFPKSTRERAVRQAVAFVDERLNGEDGLGAIFPAMANSVMMYDVLGYPADHPNR AIARQSIDKLLVIKDDEAYCQPCLSPVWDTSLAAHALLETGEAHAEQAAERGLAWLRPLQILDVR
GDWISRRPNVRPGGWAFQYNNAHYPDVDDTAVVAMAMQRSATVTQSDVDRDAIARAREWVV GMQSSDGGWGAFEPENTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQLGELPQNSEPAQ RAFDYMLKEQESDGSWYGRWGLNYIYGTWTALCSLNAAGLPHDDPRMKRAAQWLLSIQNED GGWGEGGESYKLDYHGYERAPSTASQTAWALMGLMAAGEVNHEAVARGVAYLEREQREHG LWDETRFTATGFPRVFYLRYHGYRKFFPLWALARFRHLKRNGLTRVAVGM
>seq_ lD 176
MNSVNATVAPIDDAALGGSIGAATRGLLDLKQPDGHFVFELEADATIPSEYVLLRHYLGEPVDA ALEAKIAVYLRRIQGAHGGWPLVHDGPFDMSASVKAYFALKMIGDSIDAPHMARAREAILSRGG AANVNVFTRFLLSLFEVLTWRSAPVLPIEIMLLPMWSPFHINKISYWARTTMVPLMVLAALKPRA RNPRGIGIRELFLQDPATVGTPKRAPHQSPAWFTLFNSLDWILRKIEPLFPKRLRARAIEKAIAFV EERLNGEDGLGAIFPPMVNTVMMYDALGFPPEHPPRAVARRGIDKLLVIGKDEAYCQPCVSPI WDTALTCHALLEAGGPEALSGAGKSLDWLLPKQELVLKGDWAVKRPDVRPGGWAFQYANAH YPDLDDTAWVMAMDRVRRNDRSDKYNEAIARGREWIEGMQSRDGGFAAFDADNLEYYLNNI PFSDHAALLDPPTEDVTARCVSMLAQLGETVRSSPSMAAGVDYLRRTQLKEGSWYGRWGLN YIYGTWSWCALNAAGVDHQDPAMRKAVDWLVSIQNADGGWGEDAVSYRLDYKGFEGAPTT ASQTAWALLALMAAGEVENPAVARGMKYLIDTQTKKGLWDEQRFTATGFPRVFYLRYHGYSR F F P LWALARYRN L RST N S KWGVG M
>seq_ID 210
MDSGTFNPGGERGNTLDASIDAARAALLGYRRDDGHWVFELEADCTIPAEYVLLRHYLGEPID AALEAKIAVYLRRTQGAHGGWPLVYDGEFDMSATVKGYFALKMIGDSIDAPHMAKAREAILSR GGAVHANVFTRFLLAMFGILTWRAVPVLPVEIMLLPMWSPFHLNKISYWARTTIVPLIVIVLAALKP RAVNRLGVGLDELFLQDPKSIGMPARGPHQNRGLFALFGAIDAVLRVIEPLIPKKLRKHAIDRAV AFVEERLNGEDGLGAIYPPMANTVMMYKVLGYPEDHPPRAITRRGIDLLLVIGEEEAYCQPCVS PIWDTSLTCHALLEAGGAEAAQPVREGLDWLLPKQVLDLKGDWAVKAPNVRPGGWAFQYNN AHYPDLDDTAVWMALDRARRDQPSAAYDNAIARGREWIEGMQSDDGGWAAFDVNNTEYYL NNIPFSDHGAMLDPPTEDVTARCVSMLAQLGETEQTSKAVARGVAYLRKTQLPDGSWYGRW GMNYIYGTWAVLCALNAAGVDHQDPAIRKAVAWLASIQNADGGWGEDGVSYRLDYRGYETAP STASQTAWALLSIMAAGEVDHPAVARGIEYLKGTQTEKGLWDEQRHTATGFPRVFYLRYHGYS KFFPLWGLARYRNL RAT N S KWGVG M
>seq_ID 23
MTTGHRQFDDGLSERERLIHEAGLTLQRSMDYAYNVVRSDGHWCGEMSSNVTITAEYIFLRQA LGLDLKTDGAAYCRHILSQQNSDGSWGLAPEYPGDVSTTTEAYLALKMLGLSTDAPAMQQAK AFVLNAGGVAKVRVFTRIFLATFGLFPWKAVPQLPVELILLPSACPINIYKFASWARGTIAPLLIIC HHQPVYALPNGVFAENEYLDELWQDPTNKSEPYSPSIWELLSQGDITGLTFSLLDKLLYQLNGL RSIPLLRSYALKQCMKWILERQEPTGDWAGIFPPMHASVYAFVLEGYKLEDPPVRLGIEALENF AWEDAKGKRVQPCVSPVWDTTLMSIALSDAATPNHQIVDRAIQWIRDRQLLEPRGDWRVYRP RLAPGGFSFEYTNSHYPDIDDSAAIILAQVKHDPISANSSSVIAAATWILGMQNPDGGWAAFDV ENDKLFLNKIPFSDMDSLCDTSCADITGRILEAFGLLIRRVPDKDSSQLFQLLPAIRAACRRGIRY LASTQEANGAWFGRWGCNYIYGTSHALCGLAYFLQEDQQVPAMVQPALQWLKSQQNDDGG
WGESLLSYQSPERKEQRSTASQTAWALMGLLAHLPHTDIVIERGIRWLVSSQRPVETLGSTWP EPVYTGTGFPNHFYLGYDYYRHYFPMMALGRYLRGVQG
>seq_ID 91
M N D LSQAH VLGAAM P ETAG EAQN AQAAAN SAAAAAE ASAVLAPS LD AAITRATD Al LAAQKP D GHWVYELEADATIPAEYVLLVHYLGETPNVELEQKIARYLRRIQLPNGGWPLFTDGAIDISASVK AYFALKMIGDPVDAEHMVRAREAILAHGGAETVNVFTRILLALFGWSWRAVPMMPVEITLLPM WFPFHLSKVSYWARTVIVPLLVLNAKRPLARNPRRVRIDELFRGAPVNTGMPARAPHQHVGWF GFFRWDTVLRAVDGLFPKATRERAVREAVAFVDQRLNGEDGLGAIFPAMANSVMMYDVLGY PADHPNRAIARRSIEKLLVIKDDEAYCQPCLSPVWDTSLAAHALLETGDARAEQAAERGLAWLR PLQILDVRGDWISRRPNVRPGGWAFQYNNAYYPDVDDTAVVAMAMHRSEALTHSGADREAIA RAREWVVGMQSSDGGWGAFEPENTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQLGEF PQNSEPAQRALDYMLKEQEADGSWYGRWGLNYIYGTWTALCSLNAAGLPHDDPRIRRAAQW LLSIQNEDGGWGEGGESYKLDYRGYERAPSTASQTAWALMGLMAAGEVDHEAVARGIEYLQR EQREHGLWDETRFTATGFPRVFYLRYHGYRKFFPLWALARYRHLKRNGLTRVAVGM
>seq_ID 213
MDSGSYTTGVERNALEASIDAARSALLNYRRDDGHWVFELEADCTIPAEYVLLRHYLGEPVDA ELEAKIAVYLRRIQGAHGGWPLVHDGDFDMSASVKGYFALKMIGDSIDAPHMVRAREAIRSRG GAIHSNVFTRFLLTLYGVTTWRAVPVLPVEIMLLPSWSPFTLTKISYWARTTMVPLLVLCALKPQ AKNPKGVGIDELFLQDPKTIGMPVKAPHQNWALFKLFGSIDAVLRVIEPVMPKGIRKRAIDKALA FIEERLNGEDGMGAIFPPMANAVMMYEALGYPEDYPPRASQRRGIDLLLVDRGDEAYCQPCVS PVWDTALASHAVLEADGHEGAKSVRPALDWLLPRQVLDVKGDWAVKAPNVRPGGWAFQYNN AHYPDLDDTAVWMALDRARKDQPNPAYDAAIARAREWIEGMQSDDGGWGAFDINNTEYYLN NIPFSDHGAMLDPPTEDVTARCVSMLAQLGETMDSSPALARAVGYLRDTQLAEGSWYGRWG MNYIYGTWSVLCALNAAGVPHADPMIRKAVAWLESVQNRDGGWGEDAVSYRLDYRGYESAP STASQTAWALLALMAAGEVDHPAVARGIEYLKSTQTEKGLWDEQRYTATGFPRVFYLRYHGY SKFFPLWALARYRNLQATNSKVVGVGM
>seq_ID 196
MSMTSREDHDASSLISQVEHALKLSNDYALGLVHPDGHWYGEMNTNVTVTAEYVFLRQALRL DLKTDIAAYCHYLLSQQNSDGSWGLAPEYPGDVSTSTEAYLALKILGTSPHTPAMRNARAFVLK AGGIARVRIFTRIFLATFGLFPWSAVPELPVELMLLPSICPINIYKFASWARGTIAPLLIICHHQPVY SLPNGKSTDNDYLDELWVDCTNKSVPYGLPLWDLMSQGEFAGLAFGVLDKVLYQLNGLRSIPL IRAYARKQCIQWILERQEKTGDWAGIFPPMHANMYAFTLEGYKLDDDPVRLGFQALERFAWED EKGKRIQACVSPVWDTALMTIGLCDAMSPNKQTIDHALAWIRARQLLEPRGDWRVYRPQLAPG GFSFEYENSWYPDVDDTAAIILAQVKHDNGSIGSNSVIAAATWILGMQNPDGGWAAFDVENDK LFLNKIPFSDMDSLCDTSCADITGRILEAYGLMMMKYFSAKSDADPLLHTLRAACMRGMHYLAS TQEPNGSWYGRWGCNYIYGTSHVLCGLAYFVEKRLVCVMVKSALQWLKSRQNDDGGWGES LLSYQSPDREQQASTPSQTAWALMGLLSHLPVTDDAIERGIRYLVSSQRPEKGIGSSWPQAEY TGTGFPNHFYLGYDYYRHYFPMMALGRYLQGSRGLN
>seq_ID 99
MNDLSQTQPLAAVLPEAADAPAVADASATAAPEPVQAASPSALDASITRATDTILAAQKPDGH WVYELEADATIPAEYVLLVHYLGETPNLELEQKIARYLRRIQLPNGGWPLFTDGALDISASVKAY FALKMIGDPVDAEHMVRARDAILAHGGAERANVFTRILLALFGVVSWRAVPMMPVEIMLLPVWF PFHLSKVSYWARTVIVPLLVLNAKRPLARNPRKVRIDELFRAAPVNTGMNERAPHQHAGWFGF FRCVDTVLRAVDGLLPKATRERAIRAAVAFVDERLNGEDGLGAIFPAMANSVMMYDVLGYPAD HPHRAIARKSLDKLLVIKDDEAYCQPCLSPVWDTSLAAHALLETGEARAEQAAERGLAWLRPL QILDVRGDWISRRPNVRPGGWAFQYNNAHYPDVDDTAWAMAMHRSAALTQSDVDREAIARA REWVVGMQSSDGGWGAFEPENTQYYLNNIPFSDHGALLDPPTADVSGRCLSMFAQIGELPQS SEPARRAFDYMLQEQEPDGSWYGRWGLNYIYGTWTALSSLNAAGMPHDDPRMRRAAQWLV SIQNEDGGWGEGGESYKLDYHGYERAPSTASQTAWALLGLMAAGEVNHEAVARGIDYLQRE QREHGLWDETRFSATGFPRVFYLRYHGYRKFFPLWALARFRHLKRHGLTRVTVGM
>seq_ID 85
MIRRMNKSAPSPWSALDAAIARGRDALVRLQQPDGSWCFELESDATITAEYILMMHFMDRIDD VRQERMARYLRANQRLDTHGAWDLYVDGAPDVSCSVKAYFALKAAGDSEHAPHMIRARDAIL KLGGAARSNVFTRILLATFGQVPWRAAPFMPIEFVLFPKWVPISMYKVAYWARTTMVPLLVLCS LKARARNPRNVSIRELFVTPPEQERHYFLPARGMRRLFLALDRTVRPIEPLLPKRLRQRAIRHAE AWCAERMNGEDGLGGIFPPIVYSYQMMQVLGYPDDHPLRRDCENALEKLLVTRPDGSMYCQ PCLSPVWDTAWSTMALEQARGVAAPETGDTASGALRELDERIARAYDWLATRQVNDLRGDWI ENAPADVEPGGWAFQYANPYYPDIDDTALVTAMLDRRGRTHRGADGTHPYASRVARALDWM RGLQSRNGGFAAFDADCDRMYLNAIPFADHGALLDPPTEDVSGRVLLCFGVTKRAADRASLAH AIDYVKRTQQPDGSWWGRWGTNYLYGTWSVLAGLALAGEDKSQPYITRALDWLRARQHADG GWGETNDSYIDPKLAGTNDGESTSNCTAWALLAQMAFGDCESDSVKRGIAYLQSVQQEDGF WWHRSHNAPGFPRIFYLKYHGYTAYFPLWALARYRRLAGAKDADATRSPASATPATDNALA
>seq ID 93
MI RAM N KSALSPWSALDTAIARGRDALARLQQPDGSWCFELESDATITAEYILM M HFMDRIDDA LQERMARYLRAIQRLDTHGAWDLYVDGAPDVSCSVKAYFALKAAGDSEHAPHMIRAREAILKL GGAARSNVFTRILLATFGQVPWRATPFMPIEFVLFPKWVPISMYKVAYWARTTMVPLLVLCSLK ARARNPRNVAIPELFVTPPDQERHYFPPTRGMRRAFLILDRVVRHVEPLLPKRLRRRAIRHAEA WCAQRMNGEDGLGGIFPPIVYSYQMMDVLGYPEDHPLRRDCENALAKLLVTRPDGSVYCQPC LSPVWDTAWSTMALEQARSVAVPESDESARALDELDARIARAYDWLATRQVNDLRGDWIENA PADTQPGGWAFQYAN PYYPDIDDSAWTAMLDRRGRTHRNADGSHPYAARVARALDWMRAL QSRNGGFAAFDADCDRLYLNAIPFADHGALLDPPTEDVSGRVLLCFGVTRRAEDRASLARAID YVKRTQQPDGSWWGRWGTNYLYGTWSVLAGLTLAGEDPSQPYIARALEWLRAHQHADGGW GETNDSYLDPALAGTNGGESTSNCTAWALLAQMAFGDCASDSVKRGIAYLQSVQQDDGFWW HRSHNAPGFPRIFYLKYH GYTAYFP LWAL ARYRRL AG AAE ARARASSG RAP H AADTALA
>seq_ID 168
MGKVETLHRMSTQDITLDDVERRVSLASKALMRLAGPDGHWCFELEADATIPSEYILYHHFRG SIPSAELEGKIANYLRRTQSAQHDGWSLVHDGPFDMSATVKAYFALKMIGDSIEAPHMRRARE AILRRGGAAHANVFTRTLLALYGEVPWSAVPVMPVEVMLLPRWFPFHLDKVSYWARTVMVPLF VLQAKKPRARNPRGIGIQELFVEPPERVKRWPAGPQESSPWRPVFAAIDKVLQKVEGSFPAGS RARAIDKAVAFVSERLNGEDGLGAIFPAMVNAVLMYEALGYPEDHPLVATARSSVEKLVTVKEH EAYVQPCLSPVWDTALSAHALMEAGGVEAERHAKRALDWLKPLQVLDIKGDWAASKPNVRPG GWAFQYANPHYPDLDDTAWVMAMDRAQVRRSPGPDAADYGQSIARAREWVEGLQSRDGG WAAFDADNTYHYLNYIPFSDHGALLDPPTADVTARCVSMLAQLGETRESCPPLDRGVAYLLAD QEADGSWYGRWGMNYIYGTWSVLCALNAAGVDPASEPVRRAVNWLTTIQNPDGGWGEDAA SYKLEYRGYERAPSTASQTAWALLGLMAAGEADSPAVARGINYLTRSQGADGLWTEDRYTAT GFPRVFYLRYHGYAKFFPLWALARYRNLQQSNSRRVAVGM
>seq_ID 184
MKKFGGMARTSLQAQSPGSNNTPSMDEKMLKAGLEAARGALLAQQREDGHWCFPLEADCTI PAEYILMMHFMDEVDLDLEVRIARFIREKQDVAHGGWPLYYGGEFDLSCSVKAYYALKIVGDSP DAPHMVRARAAILKHGGAARANVFTRLLLAMYDQLPWRGVPFVPVEIILFPKWFPFHTSKVAY WSRTVMVPLSILCSLKARAANPRKVAIRELFTVPPGEERNYFPVRTALNRVFLLIERTLSLLEPFI PQGVRRLALRRAESWIVERLNGDSGLGAIFPAMVNAGEALALLGYPYDHPAREQCRKALRLLL VEEGERTWCQPCVSPVWDTVLTCLAFQEDTEVDQKPIRKALDWLVPCQVLDAPADWQEDHP GLPGGGWAFQYANPHYPDLDDTAAVAWALYQADPKAYQESISRAADWLAGMQSSNGGFAAF DSDNTYYYLNEIPFADHGALLDPPTSDVSARCAGFLALYGQSRHKQALERSLAYLFNEQEASG AWFGRWGSNYIYGTWSVLEAFRLAGIDAGHPAIRRAVHWLKSVQREDGGWGESNDSYLSPQ QAGQFHTSTSFHTAWALLALMGAGEWRSHEVHRGIAYLLREQDSDGLWHEPWFTAPGFPRV FYLKYYGYTKYFPVWALTRFHALNRKFPG
>seq_ID 12
MMYNNQWYFNQFNDIFCFPEQQKEYFPPTGTNISLNLKKRPDRQLLAHGASDLNGPFHLSQH NAFSAMLLAEVQKVLRLAVGHSLDLQRTDGAWCGEVHSNATFTAQYVFLQQQLGLPLDPTEIE GLSRWLFSQQNEDGSWGLGPGLGGDVSTTTETYLALKILGVSPEDPRMAAARSSIIKAGSLPA TRMFTRVFLASFGLIPWSAVPPLPAELILLPTLFPVNIYNLSSWARATCVPLLLIRHHEPLHSLPN GRHAENDFLDELWTKDIPRDFCYTTPLSRMWRLGDYAGIFFTSADHGLRFLGQYFNSPLRNLS RRKIINWILDHQEQSGEWAGYWPPQHNNIWALSLEGYSLDHPVLRRGIAAVKSFVLHDVTGMR AQVTVSQVWDTALMSIALSDSAPSTGIISPTQAIDWLMHHEVASHRGDWRVLRPKLATGGFCF EEFNTLYPDVDDTAAVIMALIKSNPAHLISGCVRRAAQWILGMQNRDGGWGAFDWNNDKFFLN KIPFSDMDSLCDPSTPDVTGRIIECFGMMMAGRHGYSLDGPLESRLRASSQLAIAYLLGCQENN GSWWGRWGVNYLYGTSNVLCGLAYYYDRSGLSKGDGKSNSHIVSAVDRASEWLKARQHSN GGWGEGPESYDSAQLAGCGQPTASQSAWVTMALLNYLSPTDEVIQRGISYLVRSQVKYGDES RATWPLERYTATGFPGHLYMEYDYYRHYFPIMALGRYVNKLSESHKLL
>seq_ID 100
MIRRMTTPTPSPWSALDTAIARGRDALVRLQQPDGSWCFELESDATITAEYILMMHFMDKIDDL RQEKMARYLRANQRLDTHGGWALYVDGDPDVSCSVKAYFALKAAGDSEHAPHMVRARDAILK LGGAARANVFTRILLATFGQVPWRAAPFMPIEFVLFPKWVPISMYKVAYWARTTMVPLLVLCSL KARARNPRNISIRELFVTPPDEERQYFPPARGMRKLFLALDRTVRHVEPLMPKGLRQRAIRHAE AWCAERMNGEDGLGGIFPPIVYCYQMMEVLGYPDDHPLRRDCENALEKLLVTRPDGSMYCQP CLSPVWDTAWSTMALEQARGVAVAEDGEPGDARRALDERITRAYDWLAERQVNDLRGDWIE NAPADVQPGGWAFQYANPYYPDIDDTAVVTAMLDRRGRTHANADGTNPYATRVARALDWMR GLQSRNGGFGAFDADCDRLYLNAIPFADHGALLDPPTEDVSGRVLLCFGVTKRADEHASLARC IDYVKRTQQPDGSWWGRWGTNYIYGTWSVLAGLALAGEDKSQPYIARAIEWLRARQHADGG WGETNDSYIDPKLGGTNGGESTSNFTAWALLAQMAFGDCESDSVKRGIAYLQSVQQEDGFW WH RS H N APG F P Rl FYLKYHGYTAYF P LWAL ARYRRL AGVAN KRVSTAD KTADAM A
>seq_ID 84
MIRRMNQSAPSSWSALDAAIARGRDALVRLQQPDGSWCFELESDATITAEYILMMHFMDRIDD VRQEKMARYLRANQRLDTHGAWDLYVDGAPDVSCSVKAYFALKAAGDSEHAPHMIRARDAIL KLGGAARSNVFTRILLATFGQVPWRAAPFMAVEFVLFPKWVPISMYKVAYWARTTMVPLLVLC SLKARARNPRNVSIRELFVTPPEQERHYFPPARGMRRLFLALDRTVRPIEPLLPKRLRQRAIRH AEAWCAERMNGEDGLGGIFPPIVYSYQMMQVLGYPDDHPLRRDCENALEKLLVTRPDGSMYC QPCLSPVWDTAWSTMALEQARGVAAPETGDTATGAPRDLDGRIARAYDWLATRQVNDLRGD WIENAPADVEPGGWAFQYAN PYYPDIDDTALVTAMLDRRGRTHRAADGTHPYASCVSRALDW MRGLQSRNGGFAAFDADCDRMYLNAIPFADHGALLDPPTEDVSGRVLLCFGVTKRAADRASL ARAIDYVKRTQQPDGSWWGRWGTNYLYGTWSVLAGLALAGEDKSQPYIARALDWLRARQHA DGGWGETNDSYLDPKLAGTNGGESTSNCTAWALLAQMAFGDCESDSVKRGIAYLQSVQQED GFWWHRSHNAPGFPRIFYLKYHGYTAYFPLWALARYRRLAGAKDAGATRSGASGASATSVTD DALA
>seq_ID 86
MIRRMNKSAPSPWSTLDTAIARGRDALVRLQQPDGSWCFELESDATITAEYILMMHFMDRIDD VRQEKMARYLRANQRLDTHGAWDLYVDGAPDVSCSVKAYFALKAAGDSEQAPHMIRARDAIL KLGGAARSNVFTRILLATFGQVPWRAAPFMPIEFVLFPKWVPISMYKVAYWARTTMVPLLVLCS LKARARNPRNVSIRELFVTPPEQERRYFPPARGMRRLFLALDRAVRHIEPLMPKRLRQRAIRHA QAWCAERMNGEDGLGGIFPPIVYSYQMMQVLGYPDDHPLRRDCENALEKLLVTRPDGSVYCQ PCLSPVWDTAWSTMALEQARGVAAPETGETAAGTLRELDERIARAYDWLAARQVNDLRGDWI ENVPADVEPGGWAFQYAN PYYPDIDDSALVTAMLDRRGRTHRHADGTNPYAPRVARALDWM RGLQSRNGGFAAFDADCDRMYLNAIPFADHGALLDPPTEDVSGRVLLCFGVTKRAEDRASLAR CIDYVKRTQQPDGSWWGRWGTNYLYGTWSVLAGLALAGEDKSQPYIARALDWLRARQHADG GWGETNDSYLDPTLAGTNGGESTSNCTAWALLAQMAFGDCESDSVKRGIAYLQSVQQEDGF WW H RS H N APG F P Rl F YL KYHGYTAYFP LWAL ARYRRL AGAAAAP PAALVAADTALA
>seq_ID 80
MIRRMNKPAPSPWSALDTAIARGRDALMRLQQPDGSWCFELESDATITAEYILMMHFMDKIDD ARQEKMARYLRAIQRLDTHGGWDLYLDGDPDLSCSVKAYFALKAAGDSEHAPHMVRARDAIL KLGGAARSNVFTRILLATFGQVPWRATPFMPIEFVLFPKWVPISMYKVAYWARTTMVPLLVLCS LKARARNPRNIAIPELFVTPPDQERQYFPPARGMRRAFLALDRWRHVEPLLPKRLRQRAIRHA QAWCAERMNGEDGLGGIFPPIVYSYQMMDVLGYPDDHPLRRDCENALEKLLVTRPDGSMYC QPCLSPVWDTAWSTMALEQARGVAVPEAGAPAGALDELDARIARAYDWLAERQVNDLRGDW
IENAPADTQPGGWAFQYANPYYPDIDDSAVITAMLDRRGRTHRNADGSHPYAARVARALDWM RGLQSRNGGFAAFDADCDRMYLNAIPFADHGALLDPPTEDVSGRVLLCFGVTKRADDRASLA RAIDYVKRTQQPDGSWWGRWGTNYLYGTWSVLAGLALAGEDPSQPYIARALAWLRARQHAD GGWGETNDSYIDPALAGTNAGESTSNCTAWALLAQMAFGDGESESVKRGIAYLQSVQQDDGF WWHRSHNAPGFPRIFYLKYHGYTAYFPLWALARYRRLAGGASSAGAHTVPASTGADAALA
>seq_ID 82
MNKPAPSPWSALDTAIARGRDALMRLQQPDGSWCFELESDATITAEYILMMHFMDKIDDVRQE KMARYLRAIQRLDTHGGWDLYVDGDPDVSCSVKAYFALKAAGDSEHAPHMVRARDAILALGG AARSNVFTRILLATFGQVPWRATPFMPIEFVLFPKWVPISMYKVAYWARTTMVPLLVLCSLKAR ARNPRNIAIPELFVTPPDEERHYFPPARGMRRAFLALDRVVRHVEPLLPKRLRQRAIRHAQAWC AERMNGEDGLGGIFPPIVYSYQMMDVLGYPDDHPRRRDCENALEKLLVTRTDGSMYCQPCLS PVWDTAWSTMALEQARAVAVPEAGARASALDELDARIARAYDWLAERQVNDLRGDWIENAPA DTQPGGWAFQYAN PYYPDIDDTAWTAMLDRRGRTHRNADGSHPYAARVARALDWMRGLQS RNGGFAAFDADCDRMYLNAIPFADHGALLDPPTEDVSGRVLLCFGVTKRAADRASLARAIDYV KRTQQPDGSWWGRWGTNYLYGTWSVLAGLALAGEDPSQPYIARALAWLRARQHADGGWGE TNDSYIDPTLAGTNAGESTSNCTAWALLAQMAFGDCESESVRRGIAYLQSVQQDDGFWWHRS HNAPGFPRIFYLKYHGYTAYFPLWALARYRRLASGVSSAGVHAVPASTGADAALA
>seq_ID 108
MNDLSQTQPRDAVLPEAAGAVPPASAPAPAAASEAPAASLDTAITRATDAILAAQKPDGHWVY ELEADATIPAEYVLLVHYLGETPNVELEQKIARYLRRIQLPDGGWPLFTDGAPDVSASVKAYFAL KMIGDPADAEHMVRAREAILANGGAEAVNVFTRILLALFGVVSWRAVPMMPVEIMLLPMWFPF HLSKVSYWARTVIVPLLVLNAKRPLARNPRRVRIDELFRGAPVNTGPRDRAPHQHAGWFRFFS GVDMLLRAVDGLFPKATRERAVRAAVAFVDERLNGEDGLGAIFPAMANSVMMYDVLGYPADH PNRAIARQSIEKLLVIKDDEAYCQPCLSPVWDTSLVAHALLETGEARAEQAAERGLAWLRPLQIL DVRGDWISRRPNVRPGGWAFQYNNDYYPDVDDTAVWMAMHRSAALTHSEVDREAI ARARE WVVGMQSSDGGWGAFEPENTQYYLNNIPFSDHGALLDPPTADVSGRCLSMLAQLGELPQGS EPAQRAFAYMLKEQEPDGSWYGRWGLNYIYGTWTALCSLNAAGMPHDDPRMKRAAKWLLSI QNEDGGWGEGGESYKLDYHGYERAPSTASQTAWALMGLMAAGEVNHEAVARGVAYLQREQ REHGLWDETRFTATGFPRVFYLRYHGYRKFFPLWALARFRHLKRHGLTRVAVGM
>seq_ID 169
MREAAVSKVETLQRPKTRDVSLDDVERGVQNAARALTEMTQTDGHICFELEADATIPSEYILFH QFRGTVPRDGLEAKIGNYLRRTQSKVHGGWALVHDGPFDMSATVKAYFALKMIGDDIEAPHM RAARKAILQRGGAANANVFTRILLALYGEVPWAAVPVMPVEVMHLPKWFPFHLDKVSYWARCT MVPLFVIQAKKPRAKNPRGIGVAELFVTPPDSVRTWPGSPHATWPWTPIFGAIDRVLQKTQDH FPKVPRQRAIDKAVAWVSERLNGEDGLGAIFPSMVNSVLMYEVLGYPPDHPQVKIALEAIEKLV AEKDDEAYVQPCLSPVWDTALTSHAMLETGGAAAEANARAGLDWLKPLQILDIKGDWAETKPN VRPGGWAFQYANPHYPDLDDTAWVMAMDRAQRQHGLVSGMPDYSASIARAREWVEGLQS ADGGWAAFDADNNHHYLNHIPFSDHGALLDPPTADVTARVVSMLSQLGETRETSRALDRGVT YLLNDQEKDGSWYGRWGMNFIYGTWSVLCALNAAGVDPQSPEIRKAVAWLIRIQNPDGGWG
EDASSYKLNPEFEPGYSTASQTAWALLALMAVGEVDDPAVARGVNYLMRTQGQDGLWNEER YTATGFPRVFYLRYHGYPKFFPLWAMARFRNLKKGNSRQVQFGM
>seq_ID 163
MREAAVSKVETLQRPKTRDVSLDDVERGVQSAARALTDMTQADGHICFELEADATIPSEYILFH HFRGTEPRAGLEAKIGNYLRRTQSKVHGGWALVHDGPFDMSASVKAYFALKMIGDDIEAPHM RAVRKAILQRGGAANANVFTRILLALYGEVPWTAVPVMPVEVMHLPKWFPFHLDKVSYWARCT MVPLFVIQAKKPRAKNPRGVGVAELFVTPPDSVRTWPGSPHATWPWTPIFGAIDRVLQKTQDH FPKVPRQRAIDKAVAWVSERLNGEDGLGAIFPSMVNSVLMYEVLGYPPDHPQVKIALEAIEKLV AEKDDEAYVQPCLSPVWDTALTSHAMLEVGGTQAEANARAGLDWLKPLQILDIKGDWAETKP NVRPGGWAFQYANPHYPDLDDTAWVMAMDRAQRQHGLVSGMPDYSTSIARAREWVEGLQ SADGGWAAFDADNNHHYLNHIPFSDHGALLDPPTADVTARVVSMLAQLGETRETSRALDRGV TYLLNDQEKDGSWYGRWGMNFIYGTWSVLCALNAAGVDPQSPEIRKAVAWLIRIQNPDGGWG EDASSYKLNPEFEPGYSTASQTAWALLALMAVGEVDDPAVARGVNYLMRTQGADGLWNEER YTATGFPRVFYLRYHGYPKFFPLWAMARFRNLKRGNSRQVQFGM
>seq_ID 105
MKPNHTFSPAALDAAILRGRDTLSGLQQPDGSWCFELESDATITAEYILMMHFMDKIDEVRQAQ MARYLRAIQRVETHGAWDLYVDGAPDISCSVKAYFALKAAGDSEHAPHMIRAREAILKLGGAAR SNVFTRILLATFGQVPWRAAPFMPVEFVLFPKVWPISMYKVAYWARTTMVPLLVLCSLRARAR NPRNVSIAELFVTPPDEERHYFPPAKGMRKLFLALDRTVRHLEPLLPRRLRQRAIRHAEAWCAE RMNGEDGLGGIFPPIVYSYQMMEVLGYPEDHPLRRDCEDALEKLLVTRADGSVYCQPCLSPV WDTAWSTMALEQARGATPAAPDTQVSERELDARIARAYDWLATRQVNDLEGDWRENARPGT LPGGWAFQYAN PYYPDIDDSAWTAMLDRRGRAQARASGENPYAERVTRALDWMRGLQSRN GGFGAFDADCDRLYLNAIPFADHGALLDPPTEDVSGRVLLCFGVTKRPADRAAAARAIEYVKRT QQPDGSWWGRWGTNYLYGTWSVLAGLALSGEDKSQPYIARALDWLRAHQHADGGWGETN DSYADPRLRATNYGESTSNCTAWALLAQMAFGDWQSDSVRRGIAYLLSVQQDDGFWWHRSH NAPGFPRIFYLKYHGYTAYFPLWALARYRRLAGAQAAPSSPGPGTAATI ADPAVA
>seq_ID 211
MTSGTTILGAERGRTLDASIDAARAALLGYRRDDGHWVFELEADCTIPAEYVLLRHYLGEPVDA ALEAKIAVYLRRTQGAHGGWPLVHDGEFDVSATVKAYFALKMIGDSIDAPHMAKAREAILARGG AIHVNVFTRFLLSMFGILTWRSVPVLPVEIMLLPMWAPFHLNKISYWARTTIVPLMVLAALKPRA VNKLDIGLDELFLQDPQSIGMPAKAPHQSWGLFTLFGSIDAVLRVIEPLIPKKLRSYAIGRAVAFIE ERLNGEDGLGAIYPPMANTVMMYKVLGYGEDHPPRAITRRGIDLLLVVGEEEAYCQPCVSPIW DTSLTCHALLEAGGAEAALPVRKGLDWLIPKQVLDLKGDWAVKAPNVRPGGWAFQYNNAHYP DLDDTAVVVMALDRARRDQPSAAYDNAIARGREWIEGMQSDDGGWAAFDVNNTEYYLNNIPF SDHGALLDPPTEDVTARCVSMLAQLGETAETSSALARGVAYLRKTQLAEGSWYGRWGLNYIY GTWSVLCALNAAGVAHQDPAM RKAVAWLASIQNADGGWGEDAVSYRLDYRGYESAPSTASQ TAWALLALMAAGEVDHPAVARGVEYLKGTQTEKGVWDEQRYTATGFPRVFYLRYHGYSKFFP LWALARYRN LRATNSKVVGVGM
>seq_ID 76
MDSVNATAREAKESKISESEILESSIASATQGVLGFQQSDGHWVFELEADCTIPAEYVLLRHYLA EPVDTVLEAKIGNYLRRVQGAHGGWPLVHDGEFDMSASVKAYFALKMIGDSIDAPHMVRAREA IHARGGAIHSNVFTRFMLAMFGIVTWRAVPVLPIEIMLLPFWSPFHINKISYWARTTMVPLMVIAA LKPRAKNPKGVGIDELFLQDPRSIGMTAKAPHQSMAWFLLFRSLDAILRVIEPLFPKSLRKRAID TALAFSEERLNGEDGMGAIYPPMAN LVMMYDALGKDENYPPRAVTRRGIDKLLVIGDDEAYCQ PCVSPVWDTTLTAHALLEAGGDKAGPAAKHGLDWLIPKQELEVKGDWAVKRPDVRPGGWAF QYNNAYYPDLDDTAWVMSMDRMRREHGVTGYDSAIDRGREWIEGMQSDDGGWAAFDVNN LEYYLNNIPFSDHGALLDPPTEDVTARCVSMLAQLGETAKTSKHVADGVAYLRKTQHPEGSWY GRWGMNFIYGTWSVLCALNMAGVRHDDPMIRKAADWLASIQNKDGGWGEDTVSYRLDYKG WEAAPSTASQTAWALLALMAAGEVDHPAVARGVEYLIATQNEKGLWDEQRYTATGFPRVFYL RYHGYSKFFPLWGLARYRNLRNTNSRWGVGM
>seq_ID 179
MEQQPELISGGVGGVAYPWDLGSQAIEEAILAARAALLAHLHPDGYWCFELEADCTIPAEYIMM MHYTGELEAALELKLARYIRECQLQEGGWPLYYGGAMDISCSVKAYFALKLAGDDPEAAHMRR ARKAVLERGGAVNANVFTHIALALFGEIPWRGVPFMPPEILLLPRWFPFHLSKVSYWSRTVMVP LFILAAHKPRARNPRAIHISELFVTDPQLETGYFKARSRLNRLFITLDALGRRIEPFIPRAVRAKAL RRAAEWFITRLNGEHGLGAIFPAMVNSYEALELLGYAADHPLRQQVRKGLRDLWEQADRAYC QPCLSPIWDTALACLALQEADRGSSSAQVRHALDWLQARQLLDTPGDWSEQHPSLPGGGWP FQFRNDHYPDLDDTAIVAWAMQRASDPERYGAAIRRATVWLLGMQSANGGFAAFDSDNTRYY LNEIPFADHGALLDPPTSDVTARVVALLGSLDGEVHDRSALNRAVAFLHREQEAEGCWYGRW GTNYIYGTWSVLTALEQLGYDFNAPWVRKAVIWLKSVQRDDGGWGESNDTYLDHRPQDRQA DESTPFQTAWAVLALIAAGECRSPEVWRGVEYLLRHQRPDGLWYCPWFTAPGFPRVFYLKYH GYDAYFPLMALARYRNCVLDNDA
>seq ID 81
MIRRMNKPAPSPWSALDAAIARGRDALMRLQQPDGSWCFELESDATITAEYILMMHFMDKIDD ARQEKMARYLRAIQRLDTHGGWDLYVDGDPDVSCSVKAYFALKAAGDSEHAPHMVRARDAIL ALGGAARSNVFTRILLATFGQVPWRAAPFMPIEFVLFPKWVPISMYKVAYWTRTTMVPLLVLCS LKAHARNPRNIAIPELFVTPPDQERHYFPPARGMRRAFLALDRVVRHAEPLLPKRLRQRAIRHA QAWCAERMNGEDGLGGIFPPIVYSYQMMDVLGYPADHPLRRDCENALEKLLVTRPDGSMYC QPCLSPVWDTAWSTMALEQARGVAVHEAGAPASALDELDARIARAYDWLAERQVNDLRGDWI ENAPADTQPGGWAFQYANPYYPDIDDSAVVTAMLDRRGRTHRNADGTHPYAARVARALDWM RGLQSRNGGFAAFDADCDRMYLNAIPFADHGALLDPPTEDVSGRVLLCFGVTKRADDRASLA RAIDYVKRTQQPDGSWWGRWGTNYLYGTWSVLAGLALAGEDPSQPYIARALAWLRARQHAD GGWGETNDSYIDPALAGTNAGESTSNCTAWALLAQMAFGDGESESVKRGIAYLQSVQQDDGF WWHRSHNAPGFTRIFYLKYHGYTAYFPLWALARYRRLAGGASSAGAHAVPASTAADAALA
>seq_ID 22
MATLTTMATTATMATTEASQPLEAQARTALTKATSYAWEIISNRHWCGELESNVTVTCEHIFFL YVLYQHIDPDEGSQYRQWLLSQQNADGSWGIAPNYPGDVSTSAEAYLALRIIGMSPDSPELFQ
ARTFIRAAGGLSKMRMFTRIFFAEFGLVPWTAIPQLPAEFILVPAHFPISIYRLASWARSNWPLLI IAHHRPLYPLPNGLHKQNPFLDELWLDPATKPLPYGSLDPTDPLSFVFTILDKALSYLGGLRRCP TRGYARRRCIQWILQHQEKAGDWAGIIPPMHAGIKALWLEGYKLHDEPIQLGLAAIERFTWTDN RGKRLQCCISPVWDTVLMIRALQDTPASLGIKSDPRIADALAWTAENQHRGPEGDWRVYQPNI PVGGWAFEYSNTWYPDIDDTAAAVLAFLTHDPATARSRLVRDAVLWIVGMQNADGGWAAFDH ENNRLFLNKIPFSDMESLCDPSTPDVTGRTIECLGMLRDLLMLPAEKAGKKGEKYGYPDGERD AAADSHLLKIINTACARAIPYLIRTQEATGAWYGRWAVNYVYGTCLVLCGLQYFKHDPTFAPEID TMATRAVKWLRQIQNSDGGWGESVLSYREPWRAGCGPSTPSQTAWALMGLLTVCGGEDRS VQRGVRHLVDTQDDILSKGEGGAAAWTEREFTSTGFPNHFYISYTLYRVYFPITALGRYLSLVE GGKKENGGGA
>seq_ID 178
MNSINATAAPIDDNVLGDRIGAATRGLLSLKQSDGHFVFELEADATIPSEYILMRHYLGEPVDTV LEAKIAAYLRRIQGAHGGWPLVHDGPFDMSASVKAYFALKMAGDSIDAPHMARAREAILSRGG AANVNVFTRFLLSFFGELTWRSVPVLPVEIMLLPMWSPFHLNKVSYWARTTMVPLMVLAALKP RARNPRGIGIRELFLEDPATVGTPKRAPHQSPGWFALFTGFDRVLRLIEPLSPKWLRARAMKKA IAFVEERLNGEDGLGAIFPPMVNTVMMYDALGFPPEHPPRAVTRRGIDKLLWGENEAYCQPC VSPIWDTALSCHALLEAGGPEAVNSAGKCLDWLLLKQELVLKGDWAVKRPDVRPGGWAFQYA NGHYPDLDDTAVWMAMDRVRRNGPNGRYDEAIARGREWIEGMQSRDGGFAAFDADNLEYY LNNIPFSDHAALLDPPTEDVTARCVSMLAQLGETVDSSSSMAAGVEYLRRTQLAEGSWYGRW GLNYIYGTWSVLCALNVAGVDHQDPVIRRAVNWLVSIQNADGGWGEDAVSYRLDYKGFEGAP TTASQTAWALLALMAAGEVENPAVARGIKYLIDTQTKKGLWDEQRYTATGFPRVFYLRYHGYS KFFPLWALARYRNLRSTNSKAVGVGM
>seq_ID 177
MNATVAQIGDAVLEDRIGSATRGLLNLKQSDGHFVFELEADATIPSEYILLRHYLGEPVDTVLEA KIAAYLRRIQGAHGGWPLVHDGPFDMSASVKAYFALKMIGDSVDAPHMARAREAILSRGGAAN VNVFTRFLLSFFEVLTWRSVPVLPVEIMLLPMWSPFHLNKISYWARTTMVPLMVLAVLKPRARN PRDVGIRELFLQDPATVRTPKRAPHQSPAWFALFSSLDWILRRIEPLFPKRLRARAMEKAIAFVE ERLNGEDGLGAIFPPMVNTVMMYDALGFPPEHPPRAVTRRGIDKLLVIGEDEAYCQPCVSPIW DTALSCHALLEAGAPEALNSAGKCLDWLLPKQELVLKGDWAAKRPDVRPGGWAFQYANGHY PDLDDTAVWMAMDRVRRNGRGDKYDEAIERGREWIEGMQSRDGGFAAFDADNLEYYLNNIP FSDHAALLDPPTEDVTARCVSMLAQLGATVDGSSSMAAGVEYLRRTQLAEGSWYGRWGLNYI YGTWSVLCALNAAGVDHQDPAIRKAVDWLLSIQNEDGGWGEDAVSYRLDYKGFEGAPTTASQ TAWALLALMAAGEVENPAVTRGIKYLIDTQTKKGLWDEQRYTATGFPRVFYLRYHGYSKFFPL WALARYRN LRSTNS KWGVG M
>seq_ID 170
MREAVSKVEALQRSKTQGISLEDVERGVAQATRALTALAHDDGHICFELEADATIPSEYILFHHF RGTQVPGDLEAKIGNYLRRTQGRHGGWALVHEGPFDMSCTVKAYFALKMIGDDIEAPHMRRA REGILSRGGAANANVFTRFMLALYGEVPWRAVPVMPVEVMFLPKWFPFHLDKISYWARTTWP LFVLQATKPRARNPRGISVQELFVTPPESVRSWPGSPHATWPWTPIFGFIDRVLQRVENHLPR
KSRQRAMEMARAVWSERLNGEDGLGAIFPAMVNSVLMYEVMGYRPDHPQVRVACDAIEKLV VEKADEAYVQPCVSPVWDTALASHALLEAGGPEAEAQARAGLDWLKPRQVLDIVGDWAARKP KVRPGGWAFQYANAHYPDLDDTAVVVMAMDRAMHQHGLVAGMPDYKASIARAREWVEGLQ SEDGGWAAFDADNNHMYLNHIPFSDHGALLDPPTADVTARVVGMLSQLGETRETSRALDRGV NYLLNDQEEDGSWYGRWGMNFIYGTWSVLCALNAAGVDPADPRIQKAVSWLIRIQNPDGGW GEDASSYKIDPAFEPGSSTASQTAWALLALMAAGAVDDPAVTRGINFLTRTQGADGFWKEERY TATGFPRVFYLRYHGYPKFFPLWAMARFRNLKRGNSRRVQFGM
>seq_ID 14
MLLAEVQKALRLAVGHSLDLQRADGAWCGEVHSNATFTSQYVFLQQQIGLPLDPTEIEGLSRW LFSQQNEDGSWGLGPGLGGDVSTTTETYLALKILGVSPEDPRMAAARTSIIKAGSLPATRMFTR VFLASFGLIPWSAVPPLPAELILLPTLFPVNIYNLSSWARATCVPLLLIRHHEPLHSLPNGRHAEN DFLDELWTKDIPRDFCYTTPLSRMWRLGDYAGIFFTSADHGLRFLGQYFHSPLRNLSRRKIINWI LDHQEQSGEWAGYWPPQHNNIWALSLEGYSLDHPVLRRGIAAVKSFVLHDATGMRAQVTVSQ VWDTALMSIALSDSAPSTGIISPTQAIDWLMHHEVASHRGDWRVLRPKLATGGFCFEEFNTLYP DVDDTAAVIMALIKSNPAHLISGCVRRAAQWILGMQNRDGGWGAFDWNNDKFFLNKIPFSDMD SLCDPSTPDVTGRIIECFGMMMAGRHGYSLDCQLENRLRASSQLAIAYLLGCQENNGSWWGR WGVNYLYGTSNVLCGLAYYYDRSSLSKGDVKSNSNIVSAVDRASEWLKARQHSNGGWGEGP ESYDNAQLAGCGQPTASQSAVWTMALLNYLSPTDEVIQRGVSYLVRNQVKYGDESRATWLLE RYTATGFPGHLYMEYDYYRHYFPIMALGRYVNKLSGSHKLL
>seq_ID 180
MTRALRQAPESAGAIGIAAASPATETSGQDTHPREISGAITAARDALLKLQQADGHWCFMLEAD CTIPAEYILWTHFTGELEPEIERKLAARLRAKQASHGGWPLYEGGDLDISCSVKVYYALKLVGD DPNAPHMRRAREAILAQGGGARANVFTRLALAMFSQIPWRGVPFIPVEIMLLPRWFPFHLSKVS YWSRTVMVPLAILYSLKAQAQNPRNVHIQELFTVPPEQERHYFPVRSRLNKILLSVERTARLLEP LIPSMLRRRALKKAETWFTERLNGEDGLGGIFPAMVNAHESLILLGYSPDHPWRVQAKKALQNL VIEEKNSASCQPCLSPIWDTGLAALALQETEGGHTTAPVIRALDWLKERQILEQSGDWQVQHP NLKGGGWAFQYNNSYYPDLDDTALVAWSMDQAATPERYGEAIGRACDWLCGMQSRNGGFA AFESDNTHYYLNEIPFADHGALLDPPTADVTARCIVLLGRLNKPQYAETLQRALDYLRREQEPN GSWFGRWGTNYIYGTWSALTALEQANIDPQEGFIRKAVEWLKQVQRLDGGWGEDNYSYFDS SLAGRYQESTPVHTAWALLALMAVGEANSEAVKKGIAYLLQIQQEDGLWDHPAFNAPGFPRVF YLKYHGYDKFFPLWALARYRNHLNRQC
>seq_ID 155
MMANATDTIELPPSRAADRIVPMTDIDQAVDAAHAALGRRQQDDGHWVFELEADATIPAEYVLL EHYLDRIDPALEERIGVYLRRIQGDHGGWPLYHGGKFDVSATVKAYFALKAIGDDIDAPHMARA RAAILDHGGAERSNVFTRFQLALFGEVPWHATPVMPVELMLLPRKALFSVWNMSYWSRTVIAP LLVLAALRPRAINPRDVHVPELFVTPPDQVRDWIRGPYRSQLGRLFKYVDIALRPAERLIPDATR QRAIKAAVDFIEPRLNGEDGLGAIYPAMANTVMMYRALGVPDSDPRAATAWEAVRRLLVELDG EAYCQPCVSPIWDTGLAGHAMIEAASGPKGIRPEDTKKKLAAAAEWLRERQILNGEGRLGDQL PRRAPRRLGLPVQQRLLPRRGRHGSGRHVLHREGDPANDEALERARQWIIGMQSSNGGWGA
FDIDNNLDFLNHIPFADHGALLDPPTADVTARCISFLAQLGHPEDRPVIERGIAYLRTDQEREGC WFGRWGTNYIYGTWSVLCAYNAAGVAHDDPSVVRAVDWLRSVQREDGGWGEDCASYEGAT PGIYTESLPSQTAWAVLGLMAVGLRDDPAVMRGMAYLTRTQKDDGEWDEEPYNAVGFPKVFY LRYHGYRQFFPLLALSRYRNLASSNSRHVAFGF
>seq_ID 8
MNRMLQPLHSGAGIFRSSLDRVIAQARQALGGRQAEDGHWCFEFEADCTIPAEYILMQHYMD ERDEALEARIAVYLRGKQADHGGWPLYYGGHFDLSASVKVYYALKLAGDDPELPHMRRAREAI LAHGGAERSNVFTRITLALFAQVPWRAVPFIPVEIMLLPRWFPFHIYKVASWSRTVMVPLFILCS LKARAKNPLQVHIRELFRRPPDQITDYFSHARRGIVAYIFLSLDRFWRLMEGWIPHGIRRRALKK AEAWFTARINGEDGLNGIFPAMVNAH EALELLGYPPDHDYRRQTGAALRKLVVERANDAYCQP CVSPVWDTCLALHALLEEDGEVSPAVQNGIRWLKNRQIGAEPGDWRESRPHLAGGGWAFQY AN PYYPDLDDTAAVGWALARAGRAEDRDSIEKAANWLAGMQSRNGGFGAYDVDNTHYYLNEI PFADHKALLDPPTADVTGRWAFLAHLARPRDRDVLRRAVAYLLREQESSGAWFGRWGTNYIY GTWSVLMALAELNDPSLKPTMERAAYWLRAVQQGDGGWGESNDSYSDPGLAGMGQTSTAA QTAWACLGLMAAGDRDSVALHRGIAWLQAHQEGDGCWQAPFFNAPGFPKVFYLIYHGYAFYF PLWALARYRNLGCMAHE
>seq_ID 203
MSMNEAVLAAPRAAVATAAPALQAPIEALSPLDAGIGHAVDALLAQQNADGHWVYELEADATIP AEYVLMVHYLGETPDLSLEARIARYLRRIQNADGGWPLFHEGRSDISASVKAYFALKMAGDDP QAAHMARAREVILAMGGAETSNVFTRTLLALYGVMPWQAVPMMPVEIMLLPQWFPFHLSKVS YWARTVIVPLLVLNSLRPQARNPRKVGIDELFLGSRDAVRLPPRAPHQHKGWHALFHGADVLL RTAEHVMPRGLRRRAIDAAKAFVRERLNGEDGLGAIFPAMANSVMMFDVLGVPPDDPDRAIAR RSIDKLLVVHGDEAYCQPCLSPVWDTALAAHALLEASEPRATAAVTRALDWLRPLQVLDVRGD WTVRRPDVRPGGWAFQYANPHYPDVDDTAVWAAMHRAARTDHSGRADPNAEATARAIEWI VGMQSANGGWGAFEPENTHLYLNNIPFADHGALLDPPTADVSARCLSMLCQTGATPDKSEPA ARALQYLLAEQLPDGSWFGRWGTNYIYGTWSALCALNAAGLGPDAPPLRRAAEWLVAIQNPD GGWGEDGDSYKLEYRGYETAPSVASQTAWALLALMAAGQAAHPAVTRGIDYLLRTQQADGL WHEPRFTAVGFPRVFYLRYHGYARYFPLWALARYRNLERSGNRQVAWGL
>seq_ID 165
MREAAVSKVETLQRPKTRDVSLDDVERGVQSATRALTEMTQADGHICFELEADATIPSEYILFH QFRGTEPRPGLEAKIGNYLRRTQSKVHGGWALVHDGPFDMSASVKAYFALKMIGDDIEAPHM RAVRKAILQRGGAAN AN VFTRILLALYGEVPWAAVPVM PVEVM H LPKWFPFH LDKVSYWARCT MVPLFVIQAKKPRAKNPRGVGVAELFVTPPDSVRTWPGSPHATWPWTPIFGGIDRVLQKTQDH FPKVPRQRAIDKAVAWVSERLNGEDGLGAIFPAMVNSVLMYEVLGYPPEHPQVKIALEAIEKLV AEKEDEAYVQPCLSPVWDTALNSHAMLEAGGHQAEANARAGLDWLKPLQILDIKGDWAETKP NVRPGGWAFQYANPHYPDLDDTAWVMAMDRAQRQHGLVSGMPDYSESIARAREWVEGLQ SADGGWAAFDADNNHHYLNHIPFSDHGALLDPPTADVTARVVSMLSQLGETRATSRALDRGV TYLLNDQEKDGSWYGRWGMNFIYGTWSVLCALNTAGVDPQSPEIRKAVAWLIRIQNPDGGWG
EDASSYKLNPEFEPGYSTASQTAWALLALMAAGEVDDPAVARGVNYLVRTQGQDGLWSEER YTATGFPRVFYLRYHGYPKFFPLWAMARFRNLKRGNSRQVQFGM
>seq_ID 181
MSISPTFSGSSLQKSSLSDHSTISEPFTVVDRVNGISAVALDDAITRARSALLAQQREDGHWCF SLEADCTIPAEYILMMHFMDEIDTALERRIANFLRNRQVTDGHGGWPLYYGGDFDMSCSVKVY YALKLAGDSPEAAHMVRARNAILERGGAARSNVFTRLLLAMYRQIPWRGVPFVPAEIMLLPRW FPFHLSKVAYWSRTVMVPLSILCTLKAKAANPRNIHVRELFTVDPEMEKNYFPVRTPLNHLLLYL ERLGSKLEPLIPSFIRRRALKKAEQWTIERLNGRDGLGAIFPAMVNAYEALTLLGYDHDHPLLQQ CRLALRELLVNEGEDITWCQPCVSPVWDTVLASLALQEDERADNGPVRHALDWLVPLQALDQ PGDWRNSRPDLPGGGWAFQYANPHYPDLDDTAAAAWALCQADTEDYRTSITRAADWLAGM QSSNGGFAAFDIDNVHYYLNEIPFADHGALLDPPSSDVTARCIGLLALNGEARHQETVKRGLTF LFNEQEPSGAWFGRWGTNYVYGTWSVLEALKLARVDHDHQAVKRAVQWLKSVQRADGGWG ETNDSYLDSELAGQLETSTSFQTAWAVLGLMAAGEVGSTAVRNGIDYLIRTQSAAGLWEEPWF TAPGFPKVFYLKYHGYSKYFPLWALNRYRAMNSRSW
>seq_ID 110
MILFPAGFYFSIYEISYWSRCIVVPLSIAIARKPHVTVGDDLLKELYLVPREDVVYRIERDQDGFC WYNFFIDADSIFRRYEQHPIKFIRRIAKKMAEKWLLEHMEKSGGLGAIWPAMINSIFAMKCLDYP DDHPALTAQMKEVEALVIYEGDMLYLQPCVSPVWDTAWSIIAMNDSGIPGSHPVLQKAGKWLL SKEVRDFGDWKLKCKVEEPSGWYFQYANEFYPDTDDTGAVLMALQRVSLPEDMHKEKTLLRA LRWLQAMQCDDGGWGAFDRNNNKTILNNIPFADFNALLDPSTSDVTGRCIEFFGRIGFNKTYL NIKKAVEFLKKEQDEDGSWFGRWGSNYIYGTWSVISGLIAVGEDINKAYIKKAIAWLKSVQNSD GGWGETIKSYEDSALKGIGKSTPSQTAWALLTLITAGEIKSSSTERGIDFLLSTQKEDGSWDER EFTATGFPKVFYLKYHMYRNYFPLMALGRYRHFTHKLATSQ
>seq_ID 182
MSISQAFFRTLIQKSSLSDSSLVSENFPADDVAGNEANEISAVTLDEAITRAYTALLAQQREDGH WCFPLEADCTIPAEYILMMHFMDEVDTVLERKIANFLRTRQVTDGHGGWPLYYGGDFDMSCS VKTYYALKLAGDSPEAAHMVHARNAILERGGAARSNVFTRLLLAMYRQIPWRGVPFVPAEIMLL PRWFPFHLSKVAYWSRTVMVPLSILCTLKAKAINPRNVHVQELFVVDPVKEKNYFPVRTSLNRL LLYVERLASKLEPFIPSFIRRRAVKKAEQWVIERLNGNDGLGAIFPAMVNAYEALTLLGHDRDHP LLQQCRQSLRELLVDEGEEITWCQPCVSPVWDTVLATLALQEDKQADSEPIRRALDWIVPLQIL DEPGDWRDSRPNLLGGGWAFQYANPHYPDLDDTAAVAWALIQTGAEDYRVSITRAADWLAG MQSSNGGFAAFDIDNAYYYLNEIPFADHGALLDPPTSDVSARCVGLLALNGEVRHQEAVKRGL DFLFNEQESSGAWFGRWGSNYIYGTWSVLEAFRLARVDKGHQAVQRAIQWLESVQRADGGW GETNDSYLDPQLAGQLEASTSFQTAWAVLGLMAAGEVENTAVRKGIDYLLRTQIATGLWEEPW FTAPGFPRVFYLKYHGYSKYFPLWALNRYRTLSSKSAV
>seq_ID 162
MSPFLQASDDNNPLFKESCQALDHATEFARDTLVNKEHWCGWVLSNVTVTAEWIFLQYILGLE MSNEDRRGFLKHFTSSQRPDGSWSLATQTTTGGELSCTIEAYLALKILGVSPEEDYMVRARDY
VRSHGGAEKMRMLSRFHLAMFGLIPWAAVPQMPPELIFMPSWSLVNIYKFSSWARCNIVGLCM LRVHEPLYALPNGKQLDNDYLDELWLDPYHKAIPYTVPYLQLMQTSPLGVLFQLGDLFLWLLSF LGFWFLRRWAVSSSIQWTLDHQEPSGDWGGIYPPMHHNILALMLEGWSQDDPVIQRGIGACQ RFLAEDPAHGKWMQPSVSPVWDTFLMIRAVADAKTTDDADKLLVKPVDWVLAQQIDDDHIGD WRIYRPDIPAGGFAFEYFNKWYPDVDDTAVGVVALMRHDPSLVNDDRILKAAAWTLGMQNRD FGWAAFDADNNAFYLHATPFSDMDSLTDSSTPDVTGHVLEMLGLMYRLERQGRVKSPEMLAF LSQSHGACDRGLGYLLGSQEAFGGWYGRWGVNYIFGTSAALCALAYFADRKGVRGKMAAGA DWLRSRQNPDGGWGELLESYDNKALAGRGRSTPSQTAWALQGLLELEDPRGEVVEAGVNW LLRHQVTSPSRNSGRVSATWPEDDYTATGFPGHFYLKYELYCHYFPMMALARYRSCIQDGA
>seq_ID 172
MDDRVGAATFEAQPRAGFGSVEAAISRAREALLAVQKPDGHFVFELEADVSIPAEYILFRHFLG DPAKTEIERKIGVYLRRRQTAAGGWPLFAEGVFNVSSSVKAYFALKIIGDDPNAPHMAKARNAIL AHGGAAQSNVFTRSLLALYGEVPWRAVPAMPVEIMHLPRWFPFHLSKVSYWGRTVIAPLIVVH ALKPRAKNPRKISVSELFVAPAETVSRWPGAPHKSFPWTTIFGAIDRVLHKTEPLLPARSHQTAI DKAVAFVTARLNGEDGLGAIYPAMAYSAMMFFALGAPLSDPRIVQIRKAIDRLLVIKDGEAYCQP CVSPVWDTALASHALMESAGQRPEARTAPAAAAVFEALDWLKPLQVLDVKGDWATQNPDVR PGGWAFQYANPHYPDLDDTAVWLAMDRAVKTSPLIAGEEETAYVEAISRAREWILGLQSANG GFGAFDADNDRDYLNYIPFADHGALLDPPTADVTARCVSMLGQLGERPETSPALARAIDYLLSE QEEEGSWFGRWGMNYIYGTWSVLSAFNAVERPADCAATRKAAAWLKRIQNPDGGWGEDGE SYALGYKGYNPAPSTASQTAWALLALMAAGEVDAPEVALGLDYLVSTQADDGFWDEARFTAT GFPRVFYLRYHGYAKFFPLWAMARYRNLKSGNRLKTQFGM
>seq_ID 24
MLGAIREPPIDVQIALHSRDDNQTGLVLRGTRRTVDRVLKGLCSSPCFFCSVSLTMATLTTTMA TTATMATTEASKPLEAQARTALTKATNYAWEIFSNRHWCGELESNVTVTCEHIFFLYVLYQHID PGEGSQYRQWLLSQQNSDGSWGIAPNYPGDISTSAEAYLALRIIGMSTDSPELYRARTFIRAAG GLSKMRMFTRIFFAEFGLVPWTAIPQLPAEFILVPAHFPISIYRLASWARSNVVPLUIAHHRPLYP LPNGLHKQNPFLDELWLDPATKPLPYGSSDPTDPVAFVFTILDKALSYLGGLRRSPTRGYARRR CVQWILQHQEKAGDWAGIIPPMHAGIKALLLEGYKLHDEPIQLGLAAIERFTWADNRGKRLQCC ISPVWDTVLMIRALQDTPASLGIKLDPRIADALAWTAENQHRGPEGDWRVYKPNIPVGGWAFE YHNTWYPDIDDTAAAVLAFLTHDPATARSRLVRDAVLWIVGMQNADGGWAAFDHENNQLFLN KIPFSDMESLCDPSTPDVTGRTIECLGMLRDLLMRPAENAENGEKYGYPDGEGDAAADAHLLQ IINTACARAIPYLIRSQEATGTWYGRWAVNYVYGTCLVLCGLQYFKHDPKFAPEIQAMAARAVK WLKQVQNSDGGWGESLLSYREPWRAGCGPSTPSQTAWALMGILTVCGGEDRSVQRGVRHL VDTQDDTLSQGDGGAAAWTEREFTIREPLHEASQRIGSD
>seq_ID 26
MATLTTTMATTATMATTEASKPLEAQARTALTKATNYAWEIFSNRHWCGELESNVTVTCEHIFF LYVLYQHIDPGEGSQYRQWLLLQQNSDGSWGIAPNYPGDISTSAEAYLALRIIGMSTDSPELYR ARTFIRAAGGLSKMRMFTRIFFAEFGLVPWTAIPQLPAEFILVPAHFPISIYRLASWARSNWPLLI IAHHRPLYPLPNGLHKQNPFLDELWLDPATKPLPYGSSDPTDPVAFVFTILDKALSYLGGLRRS
PTRGYARRRCVQWILQHQEKAGDWAGIIPPMHAGIKALLLEGYKLHDEPIQLGLAAIERFTWAD NRGKRLQCCISPVWDTRVYKPNIPVGGWAFEYHNTWYPDIDDTAAAVLAFLTHDPATARSRLV RDAVLWIVGMQNADGGWAAFDHENNQLFLNKIPFSDMESLCDPSTPDVTGRTIECLGMLRDLL MRPAENAENGEKYGYPDGEGDAAADAHLLQIINTACARAIPYLIRSQEATGTWYGRWAVNYVY GTCLVLCGLQYFKHDPKFAPEIQAMAARAVKWLKQVQNSDGGWGESLLSYREPWRAGCGPS TPSQTAWALMGILTVCGGEDRSVQRGVRHLVDTQDDTLSQGDGGAAAWTEREFTSTGFPNH FYISYTLYRVYFPITALGRYLSLIEGGQEKKKKGGGT
>seq_ID 171
MGKVETLHRTSTQDITLDDVERRVTLASKALMRLANADGHWCFELEADATIPSEYILYHHFRGSI PTAELEGKIAAYLRRTQSAQHDGWALIHDGPFDMSATVKAYFALKMVGDPIDAPHMRRARDAIL RRGGAAHANVFTRIMLALYGEVPWTAVPVMPVEVMLLPRWFPFHLDKVSYWARTVMVPLFVL QAKKPRARNPRGIGIRELFVEAPERVKRWPAGPQESSPWRPVFAAIDKVLQKVEGFFPAGSRA RAIDKAVAFVSERLNGEDGLGAIFPAMVNTVLMFEALGYPDDHPFAVTARSSVEKLVTVKEHEA YVQPCLSPVWDTALAAHALMEAGGTEAERHAKRAMDWLKPLQVLDIKGDWAASKPDVRPGG WAFQYANPHYPDLDDTAVWMAMDRVQSRRSPGPDAADYGLSIARAREWVEGLQSRDGGW AAFDADNTYHYLNYIPFSDHGALLDPPTADVTARCVSMLSQLGETRETCPPLDRGVAYLLADQ EADGSWYGRWGMNYIYGTWSVLCALNAAGIDPACEPVRRAVTWLTAIQNPDGGWGEDASSY KLEYRGYERAPSTASQTAWALLALMAAGEADNPAVARGINYLTRTQGADGLWAEDRYTATGF PRVFYLRYHGYAKFFPLWALARYRN LQRGNSLKVAVGM
>seq_ID 173
MLREATAISNLEPPLTASYVESPLDAAIRQAKDRLLSLQHLEGYWVFELEADCTIPAEYILMMHF M D EIDAALQAKIANYL RH H QSADGSYPLF RGGAG DISCTVKVYYALKLAG DSIDAPHM KKARE WILAQGGAARSNVFTRIMLAMFEQIPWRGIPFTPVEIMLLPKWFPFHLDKVSYWSRTVMVPLFIL CSHKVTARNPSRIHVRELFTVEPQKERHYFDHVKTPLGKAILALERFGRMLEPLIPKAVRKKATQ KAFDWFTARLNGVDGLGAIFPAMVNAYEALDFLGVPPDDERRRLARESIDRLLVFQGDSWCQ PCVSPIWDTALTSLTLQEVARHTADLRLDAALSKGLKWLASKQIDKDAPGDWRVNRAGLEGGG WAFQFGNDYYPDVDDSAVVAHALLGSEDPSFDDNLRRAANWIAGMQSRNGGFGAFDADNTY YYLNSIPFADHGALLDPPTADVSARCAMFLARVWNRQPELRPVLERTIDYLRREQEADGSWFG RWGTNYIYGPGAVLLAYEGRRVPNDDPSVRRAVAWLKSIQREDGGWGEDNFSYHDPSYRGR FHTSTAFQTGFALIALMAAGEXGSPEVQAGVDYLLRQQRPDGFWNDECFTAPGFPRVFYLKY HGYDKFFPLWALARYRNERYALA
>seq_ID 117
M N ETAF AN PAPQVGPAQ RQ P AAPQ E AP AARLP AP AL D RGID RAL D AL LHQQRPDGH WVYE L E ADATIPAEYVLMVHYLGEDPDRDLEARIARYLRRIQNPDGGWPLFHQGRSDISASVKAYFALKM AGDDPQSAPMQRARQAIHAMGGAEATNVFTRTLLALYGVLPWKAVPMMPVEIMLLPRWFPFH LSKVSYWARTVIVPLLVLNSLRPQARNPRGVGINELFVGNCHTVGLPPRAAHQHAGWYTVFRG LDALLRLAEPLFPRTLRRRAIAAAQRFVRERLNGEDGLGAIFPAMANSVMMFDVLGVPPEDPAR AVARRSIERLLVEHGDEAYCQPCLSPVWDTALATHALLETGEARAAQAAGRALDWLRPLQVLD L RG DWAVRRP LVRPGG WAFQYAN AYYP DVD DTAVVAAAM D RF M RAH H APG RYG E AVARAT
EWIVGMQSGNGGWGAFEPENTHLYLNNIPFADHGALLDPPTADVSARCLSMLCQTGATPANS EPAARALRYLLAEQMPDGSWFGRWGTNYIYGTWSALCALNAAGLPPEAPELCRAVAWLARIQ NADGGWGEDGSSYRLDYSGYEPAPSVASQTAWALLALMAAGAAQHPAVARGIDYLLRTQQP GGLWHEPRFTAVGFPRVFYLRYHGYARYFPLWALARYRNLQRGLGDHGGNSGQVAWGL
>seq_ID 204
MSMNETAFATAVPRIAPASAGDSPAPRDAAQALDQGIGRAIDALLHQQRPDGHVWYELEADAT IPAEYVLMVHYLGEAPDLELEARLARYLRRIQNPDGGWPLFHEGRSDVSASVKAYFALKMAGD DPQAAHMQRARRAVHALGGAEASNVFTRTLLALYGVMPWLAVPMMPVEIMLLPQWFPFHLSK VSYWARTVIVPLLVLNSLRPQARNPRGVGINELFVGNCHTVGLPPRAAHQHAGWYTVFRGLDA LLRVAEPLVPRTLRRRAIAAAQAFVRERLNGEDGLGAIFPAMANSVMMFDVLGVPPDDPARAL ARQSVERLLVEHGDEAYCQPCLSPVWDTALAAHALLETGEARATAAAGRGLDWLRPLQVLDV RGDWAVRRPLVRPGGWAFQYANAYYPDVDDTAVVAAAM N RYM RAH DVPGRYDEAVARAAE WIVGMQGGDGGWGAFEPENTHLYLNNIPFADHGALLDPPTADVSARCLSMLCQIGATPGKSE PAARALRYLLAEQMPDGSWFGRWGTNYIYGTWSALCALNATGLAPEAPEMRRAVAWLEQIQN ADGGWGEDGSSYRLDYRGYEPAPSVASQTAWALLALMAAGAAQHAAVARGIDYLLRTQQSG GLWHEPRFTAVGFPRVFYLRYHGYARYFPLWALARYRNLQRGGAHQVPWGL
>seq_ID 79
MRIGTTTNPSMPFPLSSSGAVFYREVNELREVQQEINRIQAFLLQRQQEDGTWRFCLESSPMT DSHMIILLRTLGIHDERLMEKLTAHITALQHDNGAWKLYPDEQEGHLSTTIDSYYALLLSGKYTK NEPRMALARSFILEKGGLTQANMLTKFATALTGQYQWPSHFLVPVEIALLPPSFPVSFYDFVGY ARVHLAPMMIVADRNYVKKPDNAPDLSDLYADTPISRGLYPHRFLENFLKEGQSFLATIHDSLQ QLPFLPGQLHKLALRRLEQYILARIEPDGTLYNYSTSTFFMIFALLARGFSPKDPLIQKAMQGLTG SVYDYENGAHLQLATSAVWDTALLTFSLQKSGLSPTHPAIQKANRYLLRKQQHTYGDWKIRNP NGKPGGWGFSDYNTMNPDIDDTTAALRSLRLLARTDVTAATAWKRGLEWLLSMQNDDGGWP AFERNTDADFIRHLPIEGADTVSTDPSSADLTGRTLEFLGNYAGRTLTDLHVEKGVRWLLKHQE SDGSWYGRWGIAYLYGTWAAITGLMAVGFSPTEPAIQKAVAWLVANQNPDGGWGESCQSDL KKTYVPLGASTPSQTAWAIDALIAVSSKPTAELQRGIRYLLTHNQANDWTTRYPTGGGRPGGT YFAYHSYRWIWPLLALSHYQVKYANT
>seq_ID 70
MLLYDKVHEEIERRTTALQTMQRQDGTWQFCFEGALLTDCHMIFLLKLLGRNDEIEPFVKRLVS LQTNEGTWKLYEDEKGGNLSATIQAYAALLASEKYSKEDMNMRRAEMFIKEHGGVSRAHFMT KFLLAIHGEYEFPALFHFPTPILFLQDDSPLSIFGLSSSARIHLIPMMICMNKRFRVEKKLLPNLNHI AGGGGQWFREERSPLIQSFLGDVKKVISYPLSLHHKGYEEVERFMKERIDENGTLYSYASATF YMIYALLALGHSIQSPIIEKAVTGLKSYIWKMDRGSHLQNSPSTVWDTALLSYSLQEAKVTNENK MIQRATEYLLQKQQTKKVDWSVHASSLVAGGWGFSDVNTTIPDIDDTTAALRALARSRGNDRV DDAWGRGVEWVKGLQNNDGGWGAFERGVTSKLLSNLPIENASDMITDPSTPDITGRVLELFG TYAPNELLEEQKKKAIKWLMDVQEQNGSWYGKWGICYIYGTWATMTGLRALGVPSTHPALKK AASWLEHLQHEDGGWGESCQSSVEKKFISLPFSTPSQTAWALDALISYYDQETPIIRKGISYLLA QSTM NEKYPTGTGLPGGFYIRYHSYG HIYPLLALAH YVKKYRK
>seq_ID 140
MAGERSALITALKRSQAADGSWRFPFETGISTDAYMIILLRTLDINDEPLIQALVERIESRQEANG AWKLFADEGDGNVTATVEAYYALLYSGYRQPTDRHMQKAKRRILDMGGLDRVHLFTKVMLAL TGQYPWPGRFPLPLEFFLLPPSFPLNMYDLSVYGRANMIPLLIAADSRYSRKTDKSPDLSDLFA SRGDWGMPESRSLLTYVKRSLIGLPAQLHQAAKQRAVRYLFEHIEPDGTLYSYFSSTFLFIFALL ALGYRNDDPRIRQAVRGLRSLRTTIDGHVHLQYTTASVWNTALASYTLQEAGVPMTDRAIEKA NRYLLSRQNVRYGDWAVHNPYSTPGGWGFSDVNTMNPDVDDTTAALRAIRQAAAKETAFRH AWDRANQWLFSMQNDDGGFAAFEKNVSSRFWRYLPIEGAEFLLMDPSTADLTGRTLEYFGTF AGLTKDQRAVSRAVDWLLSHQERNGSWYGRWGICYIYGTWAAITGLTAVGVPAHHPALQKAV RWLLSIQNDDGGWGESCKSDGAKTYVPLGDSTPVHTAWALDALVAAAERPTLEMKAGFRALF RLLHHPDWTASYPVGQGMAGAFYIHYHSYRYIFPLLALAHYEQKFGPLDD
>seq_ID 137
MAGERSALITALKRSQAADGSWRFPFETGISTDAYMIILLRTLDINDEPLIQALVERIESRQEANG AWKLFADEGDGNVTATVEAYYALLYSGYRQPTDRHMQKAKRRILDMGGLDRVHLFTKVMLAL TGQYPWPGRFPLPLEFFLLPPSFPLNMYDLSVYGRANMIPLLIAADSRYSRKTDKSPDLSDLFA SRGDWGMPESRSLLTYVKRSLIGLPAQLHQAAKQRAVRYLFEHIEPDGTLYSYFSSTFLFIFALL ALGYRNDDPRIRQ AV RG L RS L RTTID G H V H LQ YTT AS V W N T AL AS YT LQ E AG V P M T D RAI E KA N RYLLSRQNVRYGDWAVH N PYSTPGGWGFSDVNTM NPDVDDTTAALRAI RQAAAKETAFRH AWDRANQWLFSMQNDDGGFAAFEKNVSSRFWRYLPIEGAEFLLMDPSTADLTGRTLEYFGTF AGLTKDQRAVSRAVDWLLSHQERNGSWYGRWGICYIYGTWAAITGLTAVGVPAHHPALQKAV RWLLSIQNDDGGWGESCKSDGAKTYVPLGDSTPVHTAWALDALVAAAERPTLEMKAGFRALF RLLHHPDWTASYPVGQGMAGAFYIHYHSYRYIFPLLALAHYEQKFGPLDD
>seq_ID 136
MVADERSALIDALKRSQSVDGSWRFPFETGISTDAYMIILLRTLGIHDEPLIQALVERIESRQDAN GAWKLFADEGDGNVTATVEAYYALLYSGYRKKTDSHMQKAKARILEVGGLERVHLFTKVMLAL TGQHSWPRRFPLPLVFFLLPPSFPLNMYDLSVYGRANMVPLLVVAERRYSRKTDNSPDLSDLA ASRNDWRLPDTEALWSYVKRSLTGLPAWLHRAAEQRAVRYMLEHIEPDGTLYSYFSSTFLLIFA LLALGYPKDDPHIARAVRGLRSLRTEIDGHTHMQYTTASVWNTALASYALQEAGVPPTDRTIEK ANRYLLSRQHIRYGDWAVHNPYGVPGGWGFSDVNTMNPDVDDTTAALRAIRRAAAKETAFRH AWDRANRWLFSMQNDDGGFAAFEKNVGKRFWRYLPIEGAEFLLMDPSTADLTGRTLEYFGTF AGLTKDHSAIARAIDWLLDHQEADGSWYGRWGICYVYGTWAAVTGLSAVGVPIDHPAMQKAV RWLLSIQNDDGGWGESCKSDGAKTYVPLGASTPVHTAWALDALIAAAERPTPEMKAGVRALV RMLHHPDWTASYPVGQGMAGAFYIHYHGYRYIFPLLALAHYEQKFGPFVD
>seq_ID 49
MLLYEKVYEEIARRTTALQTMQRQDGTWRFCFEGAPLTDCHIVIIFLLKLLGRDKEIEPFVKRLAS LQTNEGTWKLYEDEVGGNLSATIQSYAALLASEKYTKEDANMKRAEMFINERGGVARAHFMTK FLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNLNHI AGGGGEWFREDRSPVFQTLLSEVKKIITYPLSLHHKGYEEVERFMKERIDENGTLYSYATASFY MIYALLALGHSIQSPIIQKAITGIASYIWKMERGSHLQNSPSTVWDTALLSYALQEAQVPKASKVI QNASAYLLRKQQTKKVDWSVHAPNLFPGGWGFSDVNTMIPDIDDTTAVLRALARSRGDENVD NAWKRAVNWVKGLQNNDGGWGAFEKGVTSRILANLPIENASDMITDPSTPDITGRVLEFFGTY AQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVLTGLRSLGIPSSDPSLKRAAL WLEHIQH EDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYYEKETPIIRKGISYLLSNPY VNEKYPTGTGLPGGFYIRYHSYAHIYPLLTLAHYTKKYRK
>seq_ID 62
MNIVIRISKGWVSNLLLDEKAHEEIVRRATALQTMQWQDGTWRFCFEGAPLTDCHTIFLLKLLG RDKEIEPFVERVASLQTNEGTWKLYEDEVGGNLSATIQSYAALLASKKYTKEDANMKRAENFIQ ERGGVARAHFMTKFLLAIHGEYEYPSLFHVPTPIMFLQNDSPFSIFELSSSARIHLIPMMLCLNKR FRVGKKLLPNLNHIAGGGGEWFREDRSPVFQTLLSDVKQIISYPLSLHHKGYKEIERFMKERIDE NGTLYSYATASFYMIYALLALGHSLQSSMIQKAIAGITSYIWKMERGNHLQNSPSTVWDTALLSY ALQEAQVSKDNKMIQNATAYLLKKQHTKKADWSVHAQALTPGGWGFSDVNTTIPDIDDTTAVL RALARSRGNKNIDNAWKKGVNWIKGLQNNDGGWGAFEKGVTSKLLAKLPIENASDMITDPSTP DITGRVLEFFGTYAQNELPEKQIQRAINWLMNVQEENGSWYGKWGICYIYGTWAVMTGLRSLG IPSSNPSLTRAASWLEHIQHEDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDTETP AIRKGVSYLLSNPYVNERYPTGTGLPGAFYIRYHSYAHIYPLLTLAHYIKKYRK
>seq_ID 59
METLIDPEISRLTQRLLEDQEEDGAWRYCFENSLMTDAYMIVLIRSLGIKKERLVQELADRLLSQ QEEKGFWKIYRDEVEGNLSATVEAYFALLWSGAVKEKDENMVKARDCILSGGGLDKVHSMTK FMLAAHGQYPWDRFFPVPVEVILLPTYFPVSFTDFSAYARVHLAPLLLLKSERYIRKTSTTPDLS YLLKDQEDFSFFREEERSFIEYVTSGVEAIAAFPANLNDLAKKTALNYMLARLEPDGSLYSYFSS SFYMIIALLSQGYSRKDPLVVNAIKALISYQCKGDGYPHIQNSPSTIWDTALISHALQSSGVDSRN AQILKASHYLYRHQHTQKGDWASEAPQTAPGGWGFSESNTINPDVDDTTAALRALKLDAYTDP VKRMAWNRGVKWALSMQNKDGGWPAFEKNKNKDILSWVPMDGAEDAALDRSCADLTGRTL EFLGNDAGMGRENSQVLKGIEWLMNNQENDGSWYGKWGICYIYGTWAALTGMMAAGMSAD HQSIIKAIKWLYQIQNSDGGWGESCRSDKERKYISLGASTPSQTAWALDALISINDHPTKEIDRGI ESLVRLLNTDDWRKEYPTGAGLPGRFYIHYHSYPYIWPLLALSNYKTKFLEVR
>seq_ID 51
MVLYGRVCAEIERTITALHTMQQQDGAWRFCFEGSPLTDCHMIFLLRLLEKEEEIEPFVARLTSI QTNEGTWKLYEDERAGNVSTTIQAYAALLASGMYTKEDVNMKRAEAFIQERGGIARSHFMTKF LLALHGGYEYPRMFYFPTPILFLPEDSPLSIFELSSSARIHLIPMMICMNKRFTVSKTILPNLDHIS GSSKSEWFREDRSSLFETILGEVKKFVTYPLSLHHKGDKEAERFMIERIDRNGTLYSYASATFY MIYALLALGH HIQSPLIQQAVAGLRTYKWH M EAGIH LQNSPSTVWDTALLSYALQEANVN ESTP MIQTATEYIWQRQHHEKKDWSLHAPTLSPGGWGFSDVNTTIPDVDDTTAALRALARSRKRNR RIEEAWKKGVNWVKGLQNKDGGWAAFEKGVTNRFLTHLPLENSGDMMTDPSTADITGRVLEF FGTYAPNELQDHQKNRAITWLMDVQENNGSWYGKWGVSYIYGTWAALTGLRAVGVANTHPA LKKAVMWLERIQHRDGGWGESCRSSIEKRFVPLSFSTPSQTAWAIDALISYYDEETPVIRKGISY LLEHAASHQEYPTGTGLPNGFYIRYHSYSYMYPLLTFAHYINKYRK
>seq_ID 32
MLLYEKAHEEIVRRATALQTMQWQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVERVA SLQTNEGTWKLHEDEVGGNLSATIQSYAALLASKKYTKEDANMKRAENFIQERGGVARAHFMT KFLLAIHGEYEYPSLFHLPTPIMFLQNDSPFSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNLN HIAGGGGEWFREDRSPVFQTLLSDVKQIISYPLSLHHKGYEEIERFMKERIDENGTLYSYATASF YMIYALLALGHSLQSSMIQKAIAGITSYIWKMERGNHLQNSPSTVWDTALLSYALQEAQVSKDN KMIQNATAYLLKKQHTKKADWSVHAPALTPGGWGFSDVNTTIPDIDDTTAVLRALARSRGNKNI DNAWKKGGNWIKGLQNNDGGWGAFEKGVTSKLLAKLPIENASDMITDPSTPDITGRVLEFFGT YAQNELPEKQIQRAINWLMNVQEENGSWYGKWGICYLYGTWAVMTGLRSLGIPSSNPSLTRA ASWLEHIQHEDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDTETPAIRKGVSYLLS NPYVNERYPTGTGLPGAFYIRYHSYAHIYPLLTLAHYIKKYRK
>seq_ID 31
MSTIHENVRSRQKKTISLLRETQNADGSWSFCFEGPILTNAFLILLLTSLGDNDKELIAELAEGIR AKQRPDGTFANYPDDRKGNVTATVQGYAGLLASGLYSRSEAHMIQAERFIISNGGLRNVHFMT KWMLAANGLYPWPALHLPLSFLVIPPTFPLHFYQFSTYARIHFVPMAVTLNKRFSLKNPNVSSL AHLDRHMTKNPFTWLRSDQDENRDLSSLFAHWKRLLQIPAAFHQLGLRTAKTYMLDRIEEDGT LYSYASATIFMVYGLLALGVSRHSPVLRKALAGTKALLTSCGNIPYLENSTSTVWDTALLNYALM KSGISDNDQMITSAARFLRERQQKKVADWAVHNPHAEPGGWGFSNINTNNPDCDDTAAVLKAI PRKLYPASWERGLSWLLSMQNSDGGFSAFEKNVNHPLVRLLPLESAEEAAIDPSTSDLTGRVL HCLGEAGLSSDHPQIEKAVQWLIRHQEEDGSWYGRWGVCYIYGTWAALTGMKACGVSQNHP AVKKAIRWLKSIQNEDGSWGESCKSAEEKTYVPLSYGTLVQTAWAAEALLQYEKTHHQAVTKG ISFLIENRHYEGAAFSYPTGIGLPKQFYIRYHSYPYVFSLLALSTFMKMSEKEEEK
>seq_ID 48
MLLYEKAHEEIARRATALQTMQRQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKRLAS LQTNEGTWKLYEDEVGGNLSATIQSYAALLASKKYTKEDANMKRAENFIKERGGVARAHFMTK FLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMVCLNKRFRVGKKLLPNLNHI AGGGGEWFREDRSPLFQTLLSDVKQIISYPLSLHHKGYEEVERFMKERIDENGTLYSYATASFY MIYALLALGHSLQSSLIQKAIAGITSYIWKMERGSHLQNSPSTVWDTALLSYALQEAHVPKDHKM IQQTITYLLKKQHTKKADWSVHALALTPGGWGFSDVNTTIPDVDDTTAVLRALARSRGNENIDN AWKKGVNWIKGLQNNDGGWGAFEKGVTSKLLANLPIENASDMITDPSTPDITGRVLELFGTYT QNELPKKQKQSAINWLMNVQERNGSWYGKWGICYIYGTWAVMTGLRSLGIPSNNPSLKRAAL WLEHIQHEDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYYDKETPTIRKGVSYLLAN PYVNEKYPTGTGLPGGFYIRYHSYAQIYPLLTLAHYTKKYQK
>seq_ID 34
MNIVIRISKGWVSNLLLYEKVHEEIARRTTALQSMQRQDGTWRFCFEGAPLTDCHMIFLLKLLG RDKEIEPFVKRLASLQTNEGTWKLYEDEVGGNLSATIQSYAALLASEKYTKEDANMKRAEMFIN ERGGVARAHFMTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKR FRVGKKLLPNLNHIAGGGGEWFREDRSPVFQTLVSDVKKIITYPLSLHHKGYEEVERFMKERID
ENGTLYSYATASFYMIYALLALGHSLQSSMIQKAIAGITSYMWKMESGNHVQNSPSTVWDTALL SYALQEAHVLKDNKMLQNATAYLLKKQHTKKADWSVHAPALTPGGWGFSDVNTTVPDVDDTT AVLRVLARSRGNEKVDHAWQKGINWVKGLQNNDGGWGAFEKGVTSHILANLPIENASDMITD PSTPDITGRVLEFFGTYAQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVLTGL RSLGIPSSDPSLKRAALWLEHIQHEDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYY DKETSVIRKGISYLLSNPYINETYPTGTGLPGGFYIRYHSYAHIYPLLTLAHYAKKYRK
>seq_ID 47
MLLYEKVHEEIVRRATALQTMQWQDGTWRFCFEGAPLTDCHMIFLLKLLGREKEIEPFVERIAS LQTN EGTW KLYE D EVGG N LS ATI QSYAALLAS KKYTKE DAN M KRAEN FIKE RGGVARAH FMTK FLLAIHGGYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNLNHI AGGGGEWFREDRSPVFQTLISDVKQIISYPLSLHHKGYEEIERFMKERIDENGTLYSYATASFY MIYALLALGHSPQSSMIQKAIAGLTSYIWKMGRGSHLQNSPSTVWDTALLSYALQEARVSKDNK MIQNATAYLLKKQHTKKADWSVHAPALIPGGWGFSDVNTTIPDIDDTTAVLRALARSRGNKNID NAWQKGVNWIKGLQNNDGGWGAFEKGVTSKLLANLPIENASDMITDPSTPDITGRVLEFFGTY AQNGLPEKQKQSAINWLMNAQEENGSWYGKWGICYIYGTWAVMTGLRSLGIPSSNPSLKRAA SWLEYIQHEDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDTETPAIRKGVSYLLSN PYVNERYPTGTGLPGAFYIRYHSYAHIYPLLTLAHYLKKYRK
>seq_ID 52
MRSILEDVKAFRQKTLAELQNRQRSDGSWRFCFEGPVMTDSFFILMLTSLGDQDSSLIASLAER IRSRQSEDGAFRNHPDERAGNLTATVQGYTGMLASGLYDRKAPHMQKAEAFIKDAGGLKGVH FMTKWMLAANGLYPWPRAYIPLSFLLIPSYFPLHFYHFSTYARIHFVPMAITFNRRFSLKNNQIG SLRHLDEAMSKNPLEWLNIRAFDERTFYSFNLQWKQLFQWPAYVHQLGFEAGKKYMLDRIEE DGTLYSYASATMFMIYSLLAMGISKNAPWKKAVSGIKSLISSCGKEGAHLENSTSTVWDTALIS YAMQESGVPEQHSSTSSAADYLLKRQHVKKADWAVSNPQAVPGGWGFSHINTNNPDLDDTA AALKAIPFQRRPDAWNRGLAWLLSMQNKDGGFAAFEKDVDHPLIRNLPLESAAEAAVDPSTAD LTGRVLHLLGLKGRFTDNHPAVRRALRWLDHHQKADGSWYGRWGVCFIYGTWAALTGMKAV GVSANQTSVKKAISWLKSIQREDGSWGESCKSCEAKRFVPLHFGTWQSSWALEALLQYERP DDPQIIKGIRFLIDEHESSRERLEYPTGIGLPNQFYIRYHSYPFVFSLLASSAFIKKAEMRETY
>seq_ID 188
MRSELLQLQSADGSWRLCFDSGTMPDSYFIIILRMLGYSQDEALIRQIASRILSRQLPNGTWKIY PDEEDGNLDATAEAYFALLYSGFLTKLDPRMQLAKQFILSKGGLSKIRSLLTQAIFAAAGQASWP KSMRIPLEVFFSDNGIGIDLFSLSGHARVHIVPIIMLANAQFVQHSASMPDLSDLFAGSSKRFEN DSPWIAALATLIGSLSLSELLPFESPTPQEKAVQFLFDRLEPDGTLLTYTTATMFMILVLLMLGYS SSSPLIHRMVSGIHSVICANSHVQIASSEVWDTAMLVHALRKAGVNPTSTALENAGAYLRQRQQ TQLGDWAIRNPGTPAGGWGFSNVNTLYPDVDDTTAALRAIQPYSSRTPELQADWQRGLNWVL TMRNDNGGWPAFERQGSRLPITFFNFEGAKDIAVDPSTVDLTSRTLQFLGQELGMNAGNSWIE STLRWVLSQQESNGSWYGRWGITYVHGTSAALQGLTAVGIAEDHPAVKKGVDWLLQVQNED GGWGESCISDKVRRYVPLNFSTPSQTAWALDGLTAALPKPTPALERGVDALLQSLDRHDWTY TYPTGGALPGSVYAHYASNNYIWPLLALSNIWQKYS
>seq_ID 60
MGTLQEKVRRFQKKTITELRDRQNADGSWTFCFEGPIMTNSFFILLLTSLDEGENEKELISSLAA GIHAKQQPDGTFINYPDETRGNLTATVQGYVGMLASGCFHRTEPHMKKAEQFIISHGGLRHVH FMTKWMLAANGLYPWPALYLPLSLMALPPTLPIHFYQFSSYARIHFAPMAVTLNQRFVLINRNIS SLHHLDPHMTKNPFTWLRSDAFEERDLTSILLHWKRVFHAPFAFQQLGLQTAKTYMLDRIEKD GTLYSYASATIYMVYSLLSLGVSRYSPIIRRAITGIKSLVTKCNGIPYLENSTSTVWDTALISYALQ KNGVTETDGSVTKAADFLLERQHTKIADWSVKNPNSVPGGWGFSNINTNNPDCDDTTAVLKAI PRNHSPAAWERGVSWLLSMQNNDGGFSAFEKNVNHPLIRLLPLESAEDAAVDPSTADLTGRV LHFLGEKVGFTEKHQHIQRAVKWLFEHQEQNGSWYGRWGVCYIYGTWAALTGMHACGVDRK HPGIQKALRWLKSIQNDDGSWGESCKSAEIKTYVPLHRGTIVQTAWALDALLTYENSEHPSVVK GMQYLTDSSSHSADSLAYPAGIGLPKQFYIRYHSYPYVFSLLAVGKYLDSIEKETANET
>seq_ID 56
MQDFKTKVNVYMDELHMQMQHRQREDGAFVFCFEGSMMTNAFLIMLLKAVGDTDQALVHQL AEAIREKQNEDGSFSLYHDQAGHVTATVQGYCGMLVSGRYQQDEPHMEKAARYIRSKGGLKD VHFMTKWMLAVNGMHPWPYFYAPLSFLLIPTYFPLHFYHLSAYARIHFVPMMIALNKRYTSHEQ FPSLSHLDANMSKNPFDWFMAREERSTHHFLAYMRSYTALDSRFDFFGYEAAKRYMFDRLEK DGTLYSYLSASIFMVYALMSLGYSPGHHLILKAVKGMKQLVTDCGGKKYAENSTSTVWDTALV SYASQRAGRTQDD PVIKKSFTYLLN RQQM KKADWAIH N RHAAPGGFGFSDLNTN NPDCDDTQ IVLKAIPQTYAPVQWKRGFDWLLSMQNRDGGFSAFEKNQDHFLLRHLPLESAEDAAIDPSTPDI TGRVLHLIASEENDKSPLMQRQKDHCVKWLLDHQEKDGSWYGRWGVCYIYGTWAALTGLKA SGIPSSHPAVQKACRFLKTIQLEDGSFGESCKSSEVKRYVPLPFGTVVQTAWAAEALLQYVQP DDKSILKAISFLIQHQHSSKALHYPVGIGLPKQFYITYHSYPFVFPMMACSTFLEEMRRKNE
>seq_ID 58
MKNRNKGAGCMQLVKSEIERLKQQLLSEQTPDGSWNHPFDTGCMTDIYMIVLLRTLEEEDEEE LIKELAKGILSRQGKDGAWRLFHDHHEGSLSLTIEAYYALLYSGYYEKNHPALVKARRVITKGGG LKKAGMYTKIMLALTGQYPWPLLFPVPMEVILLPRSFPLNMYDISVFGRSNLIPVILLGNKKFSRK TALSPDLGDLSVRDDDDPWPELRSAEWRSLTSFLAAGVKALVGIPRQIRAWSIEKAREYMQSH TEPDGTLYNYFSSTFYMIFALLALGGGPEEPAIRNAVAGLKRMTVKADGRTHIQYTTAAVWNTA LISHALQEAGVPPKENAIQKANQYLAGQQHRRFGDWIVHNTKAEPGGWGFSRFNTINPDVDDT TAALRSLYQPAREKPHYDDIWKKGLLWTLSMQNRDGGWPAFERNVDKKLLHLLPIQGAEFILT DPSTADLTGRTLEFLGKAGYADASLPPIKKAVKWLKKHQEPNGSWYGRWGICYIYGTWAAVTG MAAVGVTLEDKSMKKGIDWLLSIQNEDGGWGESCRSDMEKKYIPLKESTLTQTAWAVDALAAA GMADSTPSRKGAAFLVREGKRKDWTADYPMGQGMANFFYIHYHSYRCIWPLLALSHYIEKSEA PD
>seq_ID 57
MQDFKTKVNEYIDELHMQLQRRQREDGAFVFCFEGPMMTNAFLIMLLKAVGDSDQALVHQLA EAIREKQNEDGSFSLYHDQAGHVTATVQGYCGMLVSGRYQQDEPHMEKAAHFIRSNGGLKDV HFMTKWMLAVNGMHPWPYFYAPLSFLLIPTYFPLHFYHLSAYARIHFVPMMIALNKRYTSHEQF
PSLAHLDANMSKNPFDWFMAREERSTHHFLAYMRSYTALDSRLDFFGYEAAKRYMFDRLEKD GTLYSYLSASIFMVYALMSLGYSPGHHLILKAVKGMKQLVTDCGGRKYAENSTSNVWDTALVS YASQQAGRTQDDPVIKKSFTYLLN RQQM KKADWAI FINRFIAAPGGFGFSDLNTNNPDCDDTQI VLKAVPQTYAPVQWKRGFDWLLSMQNQDGGFSAFEKNQNHFLLRHLPLESAEDAAIDPSTPDI AGRVLHLIALEENSMSPLMQRQKDHCVKWLLDHQEKNGSWFGRWGVCYIYGTWAALTGLKT AGISSSHSAVQKACRFLKTIQLEDGSFGESCKSAEVKRYVPLPFGTVVQTAWAAEALLQYVQP DDKVILKAISFLIQHQHSSEALHYPVGIGLPKQFYITYHSYPFVFPMMACSTFLEEMRRKNE
>seq_ID 61
MGTLQEKVRRFQKKTITELRDRQNADGSWTFCFEGPIMTNSFFILLLTSLDEGENEKELISSLAA GIHAKQQPDGTFINYPDETRGNLTATVQGYVGMLASGCFHRTEPHMKKAEQFIISHGGLRHVH FMTKWMLAANGLYPWPALYLPLSLMALPPTLPIHFYQFSSYARIHFAPMAVTLNQRFVLINRNIS SLHHLDPHMTKNPFTWLRSDAFEERDLTSILLHWKRVFHAPFAFQQLGLQTAKTYMLDRIEKD GTLYSYASATIYMVYSLLSLGVSRYSPIIRRAITGIKSLVTKCNGIPYLENSTSTVWDTALISYALQ KNGVTETDGSVTKAADFLLERQHTKIADWSVKNPNSVPGGWGFSNINTNNPDCDDTTAVLKAI PRNHSPAAWERGVSWLLSMQNNDGGFSAFEKNVNHPLIRLLPLESAEDAAVDPSTADLTGRV LHFLGEKVGFTEKHQHIQRAVKWLFEHQEQNGSWYGRWGVCYIYGTWAALTGMHACGLTESI PVYKRLCVGSNPYKMMTEAGENPAKAPKSKHMYRFIEEPLYKRPGL
>seq_ID 50
MAEAISYPRRVHIITTKFPVNFYDFSVFGRSNIAPILLLADSKFQIPKTTETPDISHLYVRELYWWS EDRGWNGFTKAINKGVNNLIGLPNELHTLGRKQAENYMLDRLEDDGTLLSYYSSTFFMIYALLS VGYTKDHKVIKKAARGLLSMNTTVKDTIHIQYTTAHIWNTSLISHALQTAGASPDDTMVMRANH YLLQRQHTKFGDWAIYQPNLGPGGWGFSHSNTFNPDVDDTTASLRSIQNSLHSHPNYQSSWY RGLSFTLGMQNQDGGFPAFEKGVDKTFLHLLPVQGAEFLLTDPSTPDLTGRTLEFLGESAHLY KDSGAIKRGVNWLIENQRRDGSWYGRWGICYIYGTWAALTGLQAVGVSKEHPSVQEGIDWLK SIQQDDGGWGESCESDSQKTYIPLSKSTVTQTAWAVDALIAYEKEETVEIKKGMEYLLENWNH EDWTMDYPMGQGMAKAFYIHYHSYRYVFPLLTMGHYMRKFM
>seq_ID 199
MSETISCQRIQAAYQRSRAELLSLRNSTGHWTGELSTSALSTATAIMALEMIRRKRLPADLSLNT YIDNGIRWLAEHQNSDGGWGDTVKSFSNISTTMLCHAVFHATKSTEQYVSHVVNARQYIDRVG GVEAWARYGKDKTFSVPILTHCALAGLVKWKTIPALPFELACLPARFYKTVRLPVVSYALPALIA IGQVRHHFCKPRNPITRLIRKLAVKRSLKKLISIQPSNGGFLEAAPLTSFVTMSLAGMGLTDHPV VQKGLQFLLDSVRPDGSWPIDTNLATWTTTLSVNALEGTLAEFEKTPIREWLLQQQYKELHPYT SAEPGGWAWTDLPGGVPDADDTPGAILALLNLQPDEPDTQQPADLQVALRNGVKWLLDLQNS NGGWPTFCRGWGALPFDQSAADISAHVIRALQAWLQTEPESAEAELRLRAERAVRKCFKYLAT VQRPDGSWLPLWFGNQHVENDENPVYGTARVLAAYAQGEQCGSIQAEQGILFLKSVQNLDG GWGGATSAPSSVEETALAVDTLLALGLEPADPWAQGLNWLSGRVENGTYTETTPIGFYFAKL WYFEQLYPIIFTVSALHRAETVLKKSADDNLRLSLEEEDYPIMSVKEK
>seq_ID 75
MDQDRLQRCYAIARDDLLAQRNGQGHWTGELSTSALSTATAVSALQLVVRHDPAQSERLMPLI EGGVRYLTEHQNPDGGWGDTDRSYSNIATTMLAVAALTIAERREALFEQLAFAENYIEAQGGIP GLRRRYGKDKTFAVPILTNYALAGLVDWREVSPLPFELACLPQKFYKLVKLPVVSYAIPALVAIG QARYFHRPPFNPLMRGLRGAAVKKSLAVLERMQPASGGYLEAAPLTSFVVMSLASIGNASHPV AQNGVQFLVDSVREDGSWPIDSNLANWVTTLSISALATGGDDIAELDCLPWVLANQYQETHPF TGADPGGWGWTDLSGSVPDADDTPGAMLAIAHFFHSPRADNETRRQIASAAISGARWLLDLQ NSDGGWPTFCAGWGTQPFDRSGSDLTAHAIRALHAWRSELGDLPVERAIERGLRYLQKQQR DDGSWLPLWFGNQDIHDDENPIYGTVKVLLAYRDLGKMSSETAQRGAAWLAARQNEDGGFG GGPSISTLCGGPGESSVEETALAIEALFAAENSNISAEIVPPAVGWLCQRVEEGSYVNCTPIGFY FSKLWYYEKLYPRVMTVTSLGAALQANASVPPAPETVTTSSDH
>seq_ID 325
MATSDPSLAEAIQNTRAHLLSLRNARGHWEGHLSNSALSTATAIVALHLVDAPLHSARIAQGVR WLVLHQNKDGGWGDTTLSKSNLSTTLLCWSALSLCEPDRTEPIQHCEAWIKERTGSLEPEVIC RAVVARYGKDKTFSVPILMLCAIGGRLGPEKEAWSRVLALPFELAAMPREWFGAIGLPWSYAL PALIAIGYARFYHAPPSLLNPLHALRKALWPRISPMLKLLQPSTGGYLEATPLTSFVTMALASAG EKFHPCVPEAVRFLEDSQRPDGSWPIDTNLATWGTTLSTKALTATSEGREALDIPALKSWLLEQ QYQEIH P FTN AAPGG WAWTD LPGGVP DAD DTSG ALVALWH LCE DE AERQALAPAVAKGVQW LMDLQNRDGGIPTFCRGWGTLPFDRSTPEITAHALHAWGLWQVVLPEELQQEVSLRIPRAIAFI ARPPSRGAPGFNHVPLWFGNEHAKEEENHVYGTAQIMNHLLSSGLNTPEIKVILETGHRNLLA WQQLDGGWSGSETGPASLEETAVSVAALALHTLHAGNRTRSSAEDAVAKGTQWLVQHTATG TTFPSAPIGLYFARLWYHEQLYPVIWTLGALHAVETLSAAALPLRARASAPPQHPGVVRTKPIHI APPSDP
>seq_ID 135
MIPAERLRTAYRTARAALLAERVPEGH WVGELSTSALSTATAVM ALH LVN PFTH RELID AGRKW LAEHQNADGGWGDTVKSFSNISTTMLCRAAFKLAGEKEYPETVQRVEEYLSRNAGALPTARAA AIRARYGKDHTFSVPILMTCAVAKLVPWDEVPRLPFELACLPQSWYRFAKLPWSYALPALIAIG QCIHHHRRSQNPIRNTVRRLARGLSLKVLRRIQPTSGGYLEATPLTSFWMALSSIRRRRAAAE QQVIDEGVRFLVASVRPDGSWPIDTNLATWVTTLSVNALATAGDLEALDTKEQILAWLLKQQYK ERHPYTGADPGGWAWTDLPGGVPDCDDTPGALIALAHLDPKSDPQAVLSGLRWVLRLQNGD GGAPTFCRGWGTLPFDRSGADLTAHSVRSLASWYRVWGAGPPPIEHLRHRLKDLEFPLSGLF WDVARRNPRFVRYLKKQQRSDGSWLPLWFGNQHAPDDINPVYGTARVLAAYRDLELKDAPE CRRGIEFLLSVQNADGGWGGAKGCPSSVEETALAVEVLLDLADGDAVQKGVAWLAEAVESDR F RD AS PIGFYFAKLWYFEKLYP11FTVAALG RAVKITS P AP AAES A
>seq_ID 115
METLSRSRLEAALAKATQALLTELNPAGHWSGELSSSALSTATAIVALGAVDREQQRELIAGGM RWLAQHQNADGGWGDTVKSRSNISTTALCWAAVSTSTEHAESAAKAEAWLTRAAGSMAQLV PAIEARYGKDRTFSVPILMHLAICGRVSWSQIPALPFELAALPHQLFGALQLPVVSYALPALIAIG QAIHHHAPPTNPLLNGLRKSARARTLEVLESIQPQNGGFLEATPLTSFVTMALASAGEAQHPVA RRGVSFLQASVQRDGSWAIDTNLATWVTTLSIKALAHQPGALSPERALTLREWLLGQQYWEH
PYTHAAPGGWAWTDLPGGVPDADDTPGALLALLHLGVVDAPTRQAGQIGVRWLLDLQNRDG GIPTFCRGWGALPFDRSSPDLTAHTLRAWTAWLPQLDESLKRRTLRAVTKAIHFLATHQRTDG SWLPLWFGNEHAPDDENPLYGTAKWIALRELLNRDFTLPNGMLERALCWLVERQDISGGWS GAKN G PVSVE ETALAVE ALAGTG H VSATD RGAAWLTEQIEADTWRE PAPIGFYF AKLWYYERL YPQIWTVGALGRVAALRVGESESDTPAGLHRATSET
>seq_ID 208
MMAVVENSVSEVLDRRELRGTLDLLRGELLAQRTKDGHWTGELSASALSTATAISAMSAAVRS GKLAGADKAALLEQIQSGRRWLADQQNDDGGFGDTDRSHSNIATSYLVLAAWTLSDQVTGET TDANAISRLRNWIQLAGELDGLRRRYGKDKTFWPILTNMAIAGLVPWKKVSALPFEAAVVPQS MYRFVGMPVVSYAVPALVAIGQVKFLEGGGCLPPWSLVRRAAIEPSMKVLRSMQPSSGGYLE ATPLTAFWMSLSASGRADHEVTQNGLRFLRDSMLPDGSWPIDTNLANWATSLATTALTMDPD DDRSWSTNELIQWQRGCQYQERHPFTGADPGGWGWTDLTGSVPDADDTPGAIISLRMQATT RPDPLCDDYSRDWPASDSSGSVSANALDTWKACDRGVDWLLGLQNRDGGWPTFCRGWGKL PFDRSSNDLTAHALRAIACLPKRESAKRSRAVQRGLRFLRKNQQADGSWLPLWFGNQDRPEE DNPIYGTSRVLVDVSPALGHDAISRGLYYLINSQNSDGGWGGGESVRETFGLPEGFISSVEETA LAVEALVSWWGRIPGNEGGQAAENDIPDGSPWDASMRSALRAAILSGTRWLIDAVQRERHQV AW PIG F Y F AKL WYYE RL Y P L VYTT AALG RV M Q RD E L L R
>seq_ID 247
MEIQDEVDLLEPQESLTASADSAVDRALFWLLDAQYEDGYWAGILESNACMEAEWLLCFHVLG IANHPMSRGLVQGLLQRQRADGSWDVYYGARAGDINTTVEVYAALRCQGYAADHPDIKRARD WIQLQGGVKQVRVFTRFWLALIGEWPWEETPNLPPEILFFPRWFPFNIYHFAAWARATLVPLCI LSARRMVVPLNKKSCLQELFPEDRSAVVALGKKAGAWSTFFYHADRALKKYQRTFKRPPGRQ QAIKMCLEWILRRQDADGAWGGIQPPWIYSLMALKAEGYPVTHPVMAKGLAALDAHWSYERP GGARFVQACESPVWDTLLSSFALLDCGFSCTSSSELRKAVDWILDQQVLLPGDWQQKLPTVS PGGWAFERANVHYPDVDDTAVALIVLAKVRPDYPDTARVNLAIERGLNWLFAMQCRNGGWGA FDKDNDKDLLTKIPFSDFGETIDPASVDVTAHVLEALGLLGYRTTHPAVAKALEFIRSEQENDGC WFGRWGVN YIYGTAAVLPALASLN M N M NQEFIRRAAN Wl LGKQNN DGGWGESCASYM DDTQ RGRGPSTASQTAWAMMSLLAVDGGTYAESLLRAEAYLKTTQTPEGTWDEPYYTGTGFPGYGI GRREIKRQRSLQQHAELSRGFMINYNLYRHYFPLMALGRLAALRGA
>seq_ID 148
MTSPFKHPISHALTSFNGIVTEPEQSVEQKAGAKVHQFPASLWKSKPGKAKSPLDIAIEGCRDF FFREQLPKGYWWAELESNVTITAEYIMLFNFLSLVDHERQRKMSNYLLSKQTEEGFWTIYYGG PGDLSTTVEAYFALKLTGYPADHPAMVKARAFILEKGGVIKSRVFTKIFLALFGEFDWLGVPSMP VELNLLPNWAYVNVYEFSSWARATIIPLSIVMLKRPVHKLPPSQRVQELFVRPPRAIDYTFTKED GIFTWKNFFIGLDHMLKVYERSPVRPFKKRAMGKAEEWVLEHQEETGDWGGIQPAMLNAVLA LSALGYDNGHPAVAHGLKALENFCIESDEQIVLQSCISPVWDTALALKALVDAGVPSDHPSLVK GAQWLLEREVRRPGDWRVKSPDLEPGGWAFEFLNDWYPDVDDSGFVMIALKGVEVKDRKAM NAAVKRGIDWCLGMQSKNGGWGAFDKDNTRHILNKIPFADLEALIDPPTADLTGRMLELMGTF GYAKTYPAAQRALKFLKENQEPEGPWWGRWGVNYLYGTWSVLCGLAAIGEDLEQPYIKKAVN
WIKSRQNMDGGWGETCESYHDPTLAGMGESTASQTGWALLGLMAAGEVHSATVVRGVQYLI STQSQDGTWDETQYTGTGFPKYFMIKYHIYRNCFPLMALGTYRTLTGGTA
>seq_ID 149
MTSPFKHPISNALTSFNGNFAEPEQCVEQQTGAKVHHLPASIWKRKMGKAKSPLDVAIEGSRD FFFQEQLPKGYWWAELESNVTITAEYIMLFHFLGLVDRERQRKMSNYLLSKQTEEGFWPIYYG GPGDLSTTIEAYFALKLSGYPADHPALAKARAFILEQGGWKSRVFTKIFLALFGEFEWQGVPS MPVELNLLPDWAYINIYEFSSWARATIVPLSVVMHSRPVRRVPPSARVQELFVRQPTAADYSFA KNDGIFTWENFFLGLDRVLKVYEKSPLRPFKNMALAKAEEWVLEHQEPTGDWGGIQPAMLNA VLALNVLGYQNDHPAVEQGLRALANFCIETEDQLVLQSCVSPVWDTALALKALLDAGVPPDHP SLVKGAQWLLDKEVTRPGDWRVKSPALEPGGWAFEFLNDWYPDVDDSGFVMIALKGIQVKDR KSMDAAIKRGINWCLGMQSKNGGWGAFDKDNTRHVLNKIPFADLEALIDPPTADLTGRMLELM GTFNYPITLPAAQRAIEFLKKNQEPEGPWWGRWGVNYLYGTWSVLCGLAAIGEDMDQPYIRKA VNWIKSRQNIDGGWGETCQSYHDRTLAGVGESTPSQTGWALLGLLAAGEMHSATVVRGVQY LISTQNSDGTWDEQQYTGTGFPKYFMIKYHIYRNCFPLMALGTYRTLTRTQP
>seq_ID 216
MTDVLTRELSPNSTRDRVRSCVSSARQYLLSLQHEEGWWKGELDTNVTMEAEDLLLRQFLGIS DEQVTQETARWIRSCQREDGTWATFHGGPPDLSTTVEAYVALRLAGDAMDAAHLRKAREYIL DSGGIESTRVFTRIWLALFGEWPWSRLPVLPPEMMLLPDWFPLNIYDWASWARQTVVPLTIVG SLRPTRDLGFSVRELRTGIQRRDLESPLSWAGVFHGLDSVLHRLEKLPLKPLRKVALARAEQWI LDRQESDGGWGGIQPPWVYSILALHLRGYPLDHPVLRKALDGLDGFTIRHRTENGWIRKLEAC QSPVWDTALAMTALLDSGTPPNDPALVRAADWILRQEIRVSGDWRVRRPALEPSGWAFEFAN DHYPDTDDTAEWLGLQRVRHPEPHRVNAAVERATAWLVGMQSSDGGWGAFDADNTRTLCE KLPFCDFGAVIDPPSADVTAHIVEMLAARGMADSESARRGVRWLLEHQEVDGSWFGRWGAN HVYGTGAWPALVACGISPQHEAVRAAVQWLVAHQNADGGWGEDLRSYVDRTWVGRGTSTP SQTAWALLALLAAGERGEVVRRGVEWLMAAQRPDGGWDEPQYTGTGFPGDFYISYHMYRIV F P LTALG RYLG RGGDVGTG
>seq_ID 229
MTATTDGSTGASLRPLAASASDTDITIPAAAAGVPEAAARATRRATDFLLAKQDAEGWWKGDL ETNVTMDAEDLLLRQFLGIQDEETTRAAALFIRGEQREDGTWATFYGGPGELSTTIEAYVALRL AGDSPEAPHMARAAEWIRSRGGIASARVFTRIWLALFGWWKWDDLPELPPELIYFPTWVPLNI YDFGCWARQTIVPLTIVSAKRPVRPAPFPLDELHTDPARPNPPRPLAPVASWDGAFQRIDKALH AYRKVAPRRLRRAAMNSAARWIIERQENDGCWGGIQPPAVYSVIALYLLGYDLEHPVMRAGLE SLDRFAVWREDGARMIEACQSPVWDTCLATIALADAGVPEDHPQLVKASDWMLGEQIVRPGD WSVKRPGLPPGGWAFEFHNDNYPDIDDTAEVVLALRRVRHHDPERVEKAIGRGVRWNLGMQ SKNGAWGAFDVDNTSAFPNRLPFCDFGEVIDPPSADVTAHWEMLAVEGLAHDPRTRRGIQW LLDAQEADGSWFGRWGVNYVYGTGSVIPALTAAGLPTSHPAIRRAVRWLESVQNEDGGWGE DLRSYRYVREWSGRGASTASQTGWALMALLAAGERDSKAVERGVAWLAATQREDGSWDEP YFTGTGFPWDFSINYNLYRQVFPLTALGRYVHGEPFAKKSRAADAPAEAAPAEVKGS
>seq_ID 113
MTDVIDKAVAATGPADPSQGAAATLQAAADHLLGLQDDAGWWKGELETNVTMDAEDLLLRQF LGIRTEEVTREAGDWIRSQQRADGTWANFFDGPADLSTTIEAYTALRMAGDAKDAEHMRAART YILDSGGIEASRVFTRIWLALFGEWQWSDLPVMPPELIYLPKWFPLNVYDWACWARQTWPLTI VNALRPVRPLGFDLKELRTGRRAPAQRGLFSTLDRALHVYERKPLRSVRDAALRRSADWIIAR QEADGSWGGIQPPWVYSLMALNLLGYGVDHPVMRKGIEGLDRFTIRDERGRRLEACQSPVW DTVLAMTALRDAELPENHPALVKAADWVLGEEITNPGDWSVRRPRVAPGGWAFEFDNDGYPD VDDTAEVVLALNRVAHPDAPAAIRRGVDWLEGMACKDGGYGAFDADNTRTLALKLPFCDFGA VIDPPTADVTAHTLEAYAALGLANSRASQRALEWLVKAQERDGSWFGRWGANHVYGTGAWP AMVAVGVDPEDEMIRRAVRWLEEHQNDDGGWGEDLRSYRDKSWIGRGVSTASQTAWALLAL LAAGEERGTAVEQGVRFLIRTQRADGTWDEDHYTGTGFPGDFYLNYHLYRLVFPISALGRYVR AVGAAGDGGDAGHAGHAGTVS
>seq_ID 236
MTATTDGGGAITGGADPRHDSTAAPAAAAAGPSGGGTGLPEGVREAVDRATAELLARQDPAG WWKGDLQTNVTMDAEDLLLRQFLGIRDEAVTRAAALFIRGEQQGDGTWATFHGGPPELSATIE AYVALRLAGDPPDAPHMTRASAWIRAHGGIAAARVFTRIWLALFGWWSWDRLPELPPELVFLP PWVPLNIYDFGCWARQTIVPLTVVSALRPVRSAPFALDELHTDARDPVPAKPLPPLASWDGAF QRMDKALHLYRRVAPRRLRKAAMAAAGRWIVERQENDGCWGGIQPPAVYSVIALHLLGYDLG HPVMRAGLESLDRFAVWREDGARMVEACQSPVWDTCLAAIALADAGLPPDHPALVRAADWM LGEEIRRPGDWAVRRPGLAPGGWAFEFHNDNYPDIDDTAEWLALRRIRHPQPGGVEAAIARG VSWTLGMQSKNGAWGAFDADNTSPFPNRLPFCDFGEVIDPPSADVTAHWEMLAAEGRAADP RARRGIAWLLAEQEPDGPWFGRWGTNYVYGTGSWPALTAAGIAPSHPAVRRAVRWLESVQ NEDGGWGEDQRSYRDRSWAGKGASTASQTAWALMALLSAGERDGDAVARGLAYLVETQRP DGTWDEPYFTGTGFPWDFSINYHLYRQVFPLTALGRYLHGEPFGPERRNVPPAGES
>seq_ID 134
MSLTSDPSPATPATQPTSARPGSLSDRRSRSGGSAVAGPVLVTTRPVAPVAKSGAVTPTATSG AVTSTATSGPALLPDLATDLADPTGPLAGAASATVRAAGGAGTRTQQTGQLGSTELAGPQAD QVADRAAAVLGRARDHLLGLQSEAGWWKGELETNVTMDAEDLMLRQFLGILPPELAAETGRW IRSKQQDDGGWPTFHGGPSDLSTTFEAYVGLRLAGDLPDAPHMLAAASFVRAHGGLAATRVF TRIWMALFGEWPWDEVPVLPPELVLLPSWVPLNVYDFGCWARQTVVALTIVGHFRPVRSLGF SIDELRVAAVRPDRAPLVSWTGVFQRLDAGLRRYQRHPVKTLRELALRRATEWVLARQEADG GWGGIQPPWVYSIMALHLMGYSMDHPVLVAALDGLETFTVREQVREGDEWTVRRLEACQSP VWDTALAVVALAD AGLD ARH P AM RKAG EWLVRE EVTVPG DWRVRRP N LE PGG WAFE FAN DI YPDVDDTAEWLAVRRLLGSGWDDVDPTFAKQARASVERAVNWSVGMRSANGAWGAFDAD NVRELATKIPFCDFGEVIDPPSADVTAHMVEMLADLGRADHPVTQRAVRWLLDDQEPGGSWF GRWGVNHVYGTGAVVPALISAGVAADHPAIRSAVRWLVAHQHPDGGWGEDLRSYQDDAWV GRGEPTASQTAWALLALLAADPMNEAVGRGVRWLCDTQLPNGTWDEPYYTGTGFPWDFSIN YHLYRLVFPLTALGRYVTLTGRSAA
>seq_ID 225
MTATTDGSTGAALPPRVTAASDTDTDIPVAAGVPDIAARAMRRATDFLLSRQSDQGWWKGDL ETNVTMDAEDLLLRQFLGIRDEGTTRAAALFIRGEQREDGTWATFHGGPGDLSATIEAYVALRL AGDPPDAPHLARASAWIREQGGIAASRVFTRIWLALFGWWKWEDLPELPPELIWFPAVWPLNI YDFGCWARQTIVPLTIVSAERPVRPAPFPLDELHTDPARPNPPRALAPVTGWDGAFQRLDKAL HVLRGAVPRRLRRAAMNTAARWIIERQENDGCWGGIQPPAVYSIIALHLLGYDLNHPVMRAGL ESLDRFAVWREDGARMIEACQSPVWDTCLATIALADAGLPADHPQLVKAADWMLGEQIVRPG DWSVRRPHLPPGGWAFEFHNDNYPDIDDTAEWLALRRVAHHDPERVDNAIGRGVRWNLGM QSRNGAWGAFDVDNTSPFPNRLPFCDFGEVIDPPSADVTAHVVEMLAAEGLAHDPRTRRGVQ WLLAEQEPNGSWFGRWGVNYLYGTGSVVPALTAAGISGSHPAIRRAVAWLESVQNDDGGWG EDLRSYRDARGWSGRGASTASQTAWALMALLAAGERESRAVERGVEWLAATQHEDGSWDE PYFTGTGFPWDFSINYHLYRQVFPLTALGRYVNGEPLAGKPRAAGAATAREDTGQEQSLAEAK GS
>seq_ID 223
MTATTDGSTGAANITGAPADDPTDTRTAANDVTDIARRAAERSVEHLLGRQDEQGWWKGDLA TNVTMDAEDLLLRQFLGIQDPATTRAAALFIRGEQLGDGTWNTFYGGPGDLSATIEAYVALRLA GDRPDEPHMARASGWIRDQGGIAAARVFTRIWLALFGWWKWDDLPELPPELMFFPKWVPLNI YDFGCWARQTIVPLTIVSAKRPVRPAPFALDELHTDPDHPNPPRKLAPPTSWDGLFQRLDKGL HLYHKVAPRPLRRIAMNVAARWIIERQENDGCWGGIQPPAVYSVIALHLLGYDLDHPVMKAGLA SLDRFAVHREDGARMIEACQSPVWDTCLATIALADAGLRPDHPALVKAADWMLAEEITRPGDW SVRKPELAPGGWAFEFHNDNYPDIDDTAEVVLALRRVRHPDPARLEAAIARGVRWNLGMQSR NGAWGAFDADNTSPFPNRLPFCDFGEVIDPPSADVTGHWEMLAVEGLANHPRTREGIEWLLA EQEACGAWFGRWGVNYVYGTGSVVPALITAGLPAGHPAIRRAVDWLESVQNDDGGWGEDLR SYQEEKWIGHGESTASQTAWALLALLAAGRRDTASVTRGVTWLTEAQQADGSWDEPYFTGT GFPWDFSINYHLYRQVFPLTALGRYVHGDPFADRTDAAEGV
>seq ID 226
MTATTDGSTGAALPPRVTAASENDTDIPEAAGVPDIAAHAMRRATDFLLSRQDDQGWWKGDL ETNVTMDAEDLLLRQFLGIRDEDTTRAAALFIRGEQREDGTWATFHGGPGELSTTIEAYVALRL AGDPPEAPHMARASAWIRERGGIAAARVFTRIWLALFGWWKWEDLPELPPELIWFPSWVPLNI YDFGCWARQTIVPLTIVSAKRPVRPAPFPLDELHTDPRRPRPPRPHAPPNTWDGAFQRLDRAL HALRRAVPRRVRQAAMNAAARWIIERQENDGCWGGIQPPAVYSVIALHLLGYDLRHPVMRAGL ESLDRFAVWREDGARMIEACQSPVWDTCLAAIALADAGLPADHPSLVKAADWMLGEQIVRPG DWSVRRPHLPPGGWAFEFHNDNYPDIDDTAEVVLALRRVRHHDPERMDSAIGRGVRWSLGM QSKNGAWGAFDVDNTSPFPNRLPFCDFGEVIDPPSADVTAHVVEMLAVEGLAHDPRTRRGIQ WLLAEQEPDGSWFGRWGVNYLYGTGSVVPALAAAGIPGSHPAIRRAVAWLEKVQNDDGGWG EDLRSYRHVREWSGRGASTASQTAWALMALLAAGERDSGAVERGVAWLAATQREDGSWDE PYFTGTGFPWDFSINYHLYRQVFPLTALGRYVHGEPFSKKQTAARNGSAQPLAGVKGSR
>seq_ID 219
MDPALSRAVDWLLEHQDPAGWWCGEFETNVTITAEHILLLRFLGLDPSPLRDAVTRYLLGQQR EDGSWALYYEGPADLSTSIEAYAALKVLGLDPTSEPMRRALQVIHDLGGVAQARVFTRIWLAMF
GQYPWDGVPSMPPELIWLPPSAPFNLYDFACWARATITPLLIILARRPVRPLGCDLGELVLPGS EHLLTRVPGSGPFWWGDKVLKRYDHLVRHPGRDRACQRIVEWIIARQEADGSWGGIQSAWV MSLIALHLEGLPLDHPVMRAGLAGFDRVALEDERGWRLQASTSPVWDTAWAVLALRRAGLPR EHPRLALAVDWLLQEQIPGGGDWQVRTGTIPGGGWAFEFDNDHYPDIDDTAWVLALLEAGH EDRVRNAVERAARWILAM RSTDGGWGAFDRDNAREVIHRLPIADFGTLIDPPSEDVTAHVLEM LARLSFPSTDPVVARGLEFLQQTQRPDGAWFGRWGVNYIYGTWCAVSALTAFADTDATARAM VPRAVAWLLDRQNADGGWGETCGSYEDPNLAGVGRSTPSQTAWAVLALQAAGLGQHPACR RGLDFLRERQVGGTWEEREHTGTGFPGDFFINYHLYRHVFPTMALAGAATGMDSPR
>seq_ID 220
FLGIRDEATTRSAALFIRGEQREDGTWATFHGGPPDLSTTVEAYVALRLAGDSPDAPHMTRAA HWVRSQGGIAEARVFTRIWLALFGWWPWDRLPELPPELIFLPPWAPLNIYDFGCWARQTIVPL TVVSAKRPVRPAPFPLDELHTDPADPAPRARFAPLASWNGAFQRLDRALHAYRKVAPRALRRA AMATAGRWIVERQENDGCWGGIQPPAVYSMIALHLLGYDLGHPVMRAGLESLDRFTLTREDG SRMVEACQSPVWDTCLATIALADAGVPADHPQLVRAADWMLDEQIERPGDWSVRRPHLAPG GWAFEFHNDNYPDIDDTAEWLALRRVRHPDTARMERAISLGVRWNLGMQSKNGAWGAFDV DNTSSLPNRLPFCDFGEVVDPPSADVTAHVVEMLAAEGLAADPRTRRAVDWLLAEQEPSGAW FGRWGVNYLYGTGSAVPALVDAGLPTTHPAIRRAVAWLESVQNDDGGWGEDLRSYREQGRM ARGASTASQTGWALMALLAAGERESRAARRGVTFLAETQHEDGSWEEPYYTGTGFPWDFSIN YHLYRQVFPLTALGRYTRGAAPEGA
>seq_ID 125
MQTQNRVTSTQKVELSNLTQAIIASQNYILSRQYPEGYWWGELESNITLTAETVLLHKIWKTDKT RPFHKVETYLRRQQNEQGGWELFYGDGGELSTSVEAYMALRLLGVTPEDPALIRAKDFILSKG GISKTRIFTKFHLALIGCYDWKGIPSIPPWIMLFPDNFPFTIYEMSSWARESTVPLLIVFDKKPIFEI EPAFNLDELYAEGVENVKYALPRNHNWSDIFLGLDKLFKWTEKNNLVPFHKKSLQAAEKWMLN HQQESGDWGGIMPPMVNSLIAFKVLNYDVADPSVQRGFEAIDRFSIEEEDTYRVQACVSPVWD TAWVIRALVDSGLKPDHPSLVKAGEWLLDKQILEYGDWAIKNKQGKPGGWAFEFINRFYPDLD DSAVWMALNGIKLPDENRKKAAINRCLEWMATMQCKPGGWAAFDVDNDQAWINEIPYGDLK AMIDPNTADVTARVLEMVGSCGLKMDENRVQKALFYLEKEQESDGSWFGRWGVNYIYGTSGV LSALAVIAPNTHKPQMEKAVNWLISCQNEDGGWGETCWSYNDSSLKGTGISTASQTAWAIIGL LDAGEALETLATDAIKRGIDYLLATQTPDGTWEEAEFTGTGFPCHFYIRYHLYRHYFPLIALGRY WKIGLKTPSVIPLN
>seq_ID 228
MLARRATDRAVRHLLSRQDEQGWWKGDLETNVTMDAEDLMLRHFLGIQNPDVLDAAGRYIRS QQAADGTWATFHGGPPELSATVEAYVALRLAGDPPDAPHMAAASAVWRNNGGVASSRVFTRI WLALFGWWRWEDLPELPPEIIYFPPWLPLNLYDFGCWARQTIVPLTVVSAKRPVRPAPFSLDE LHADPRRPNPPRPAAPLASWDGAFQRLDRALHLYRKVALRPLRRAALRSCARWIVERQENDG CWGGIQPPAVYSVIALHLLGYDLDHPVMRAGLESLDRFAVWREDGSRMIEACQSPVWDTCLA VIALADAGLAPDHPALVKSADWMLAEEIDRPGDWSVKRPRLAPGGWAFEFDNDNYPDIDDTAE VILALRRVDHPRPERIAAAVRRGVRWTLGMQSRNGAWGAFDVDNTSPLPNRLPFCDFGEVIDP
PSADVTAHWEMLAHEGGARDPRTRRAVGWLLAEQEPSGAWFGRWGTNYWGTGSWPALV AAGLPATHPAIRRAVRWLESVQNEDGGWGEDQRSYPDPEWIGHGASTASQTAWALLALLAAG ERESKAVERGVGWLAATQDQDGSWDEPYFTGTGFPWDFSINYHLYRLVFPLTALGRYVSGEA TGARPRRT
>seq_ID 241
MTATTDGSTGALPPRADAASEHDIETPEAAGVREAAVRAARRATDFLLSRQDAQGWWKGDLE TNVTMDAEDLMLRQFLGVLDEKTAQAAALFIRGEQREDGTWASFYGGPGELSTTIEAYVALRL AGDAPDSPHLAKASAWIREQGGIAAARVFTRIWLALFGWWKWEDLPELPPELIWFPKVWPLNI YDFGCWARQTIVPLTIVSAKRPVRPAPFPLDELHTDPARPNPPRPLAPAFSWDGAFQRMDKGL HALRKVAPRGLRRAAMNAAARWIIERQENDGCWGGIQPPAVYSIIALHLLGYDLQHPVMREGL ASLDRFAVWREDGARMVEACQSPVWDTCLAAIALVDAGLPADHPQLVKAADWMLGEEIVRPG DWSVRRPGLPPGGWAFEFHNDNYPDIDDTAEVILALRRITHHDPVRVDKAVGRGVRWTLGMQ SKNGAWAAFDVDNTSPFPNRLPFCDFGEVIDPPSADVTAHVIEMLAVEGLAHDPRTRRGIEWL LAEQEPDGSWFGRWGVNYVYGTGSVVPALVAAGLPGAHPAIRRAVSWLESVQNDDGGWGE DLRSYKYVKEWSGRGASTASQTAWALMALLAAGERDSKAVERGVEWLAATQREDGSWDEPY FTGTGFPWDFSINYHLYRQVFPLTALGRYVHGEPFADRLKGS
>seq_ID 238
MHEGEAMTATTDGSTGAATPPATTASAPLHLSPEARETHEATARATRRAVDFLLARQSDEGW WKGDLATNVTMDAEDLLLRQFLGIRDEATTRAAALFIRGEQQEDGTWNTFYGGPGDLSATIEG YVALRLAGDSPEAPHMRKASAFVRAQGGVARARVFTRIWLALFGWWKWEDLPEMPPELMFF PKWAPLNIYDFGCWARQTIVPLTWCAQRPVRPAPFALEELHTDPADPDPAQPAPPVVSWDNV FHKLDKLLHGYRRIAPRRVREAAMRAAATWIVERQENDGCWGGIQPPAVYSIMALNLLGYDLD HPVLRAGLASLDRFAVWREDGARMIEACQSPVWDTCLATVALADAGVPADHPQMIKAADWML AEQIVRPGDWWRRPDLPPGGWAFEFHNDNYPDIDDTAEVVLALRRVAHPDATRVDKAVRRA VDWNVGMQSKNGAWGAFDADNTSPFPNRLPFSDFGEVIDPPSADVTAHVVEMLAEEGLAHH PRTRRGIEWLLKNQEGNGSWFGRWGVNYVYGTGAWPALVAAGLPASHPAIRRSVSWLGQV QNEDGGWGEDLRSYQDSAWHGRGHSTASQTAWALLALLAAGERETEQVRRGIAYLVETQTE DGTWDEPWFTGTGFPWDFTINYHLYRQVFPVTALGRYLNGTGPGEN
>seq_ID 237
MRRRRSPRGPGAGPEADYGPARASAPDRLRGDAARGDAARRVQDATARAIRNLLGRQDPAG WWKGDLETNVTMDAEDLLLRQFLGIRDEAVTQAAALFIRREQREDGTWATFHGGPPELSATIE AYVALRLAGDAPDAPHMATASAWIRAHGGLAAARVFTRIWLALFGWWDWENLPELPPELVLLP PWVPLNIYDFGCWARQTIVPLTVVSAMRPVRPAPFALDELHTDARVPVPPRRMAPPTTWNGA FQWMDRALHVYRRFAPRRLREAAMASAGRWIIERQENDGCWGGIQPPAVYSVIALHLLGYDL GHPVMRAGLESLDRFAVWREDGSRMIEACQSPVWDTCLAAIALADAGVRPDHPALVKAADW MLGEEIVRTGDWAVRRPGLAPGGWAFEFHNDTYPDIDDTAEWLALRRIRHPDPARVEAAIAR GVSWNLGMQSRGGAWGAFDADNTSPFPNRLPFCDFGEVIDPPSADVTAHWEMLAAEGRAA DPRTRRGIAWLLAEQEPEGPWFGRWGTNYVYGTGSVVPALTAAGLSPGHPAIRRAVLWLESV QNPDGGWGEDQRSYQDRAWAGKGESTPSQTAWALMALLSAGERDAKTVERGIAYLVETQLA
DGGWDEPHFTGTGFPWDFSINYHLYRHVFPLTALGRYLYGEPFGHDGRHIGAHLGDRTGVPA EGV
>seq_ID 239
MDFLLDRQSDEGWWKGDLATNVTMDAEDLLLRQFLGIRDEATTQAAALFIRGEQQEDGTWNT FYGGPGDLSATIEGYVALRLAGDSPEAPHMRKASAFVRARGGVARARVFTRIWLALFGWWKW EDLPEMPPELMFFPKWAPLNIYDFGCWARQTIVPLTWCAQRPVRPAPFALEELHTDPADPNP AQPAPPVASWDNVFHKLDKMLHGYRKVAPRRVREAAMRAAATWIVERQENDGCWGGIQPPA VYSIIALHLLGYDLDHPVLRAGLESLDRFAVWREDGARMIEACQSPVWDTCLATVALADAGVPA DHPQMIRAADWMLAEQIVRPGDWWRRPDLPPGGWAFEFHNDNYPDIDDTAEVVLALRRVAH PDATRVDKAVRRAVDWNAGMQSKNGAWGAFDADNTSPFPNRLPFSDFGEVIDPPSADVTAH VVEMLAEEGLAHHPRTRRGIEWLLENQEANGSWFGRWGVNYVYGTGAWPALVAAGIPAAHP AIRRSVSWLGQVQNEDGGWGEDLRSYQDTAWHGRGHSTASQTAWALLALLAAGERDSEQV RRGIAYLVETQTEDGTWDEPWFTGTGFPWDFTINYHLYRQVFPVTALGR
>seq_ID 235
MTQTVPRTAASAPAARTAADTVAAAVQFLRREQDRAGWWKGELATNVTMDAEDLLLRHFLGI LTPQIAEESARWIRSQQRADGTWANFPDGPADLSTTVEAWVALRLAGDPADAPWLATAAEWI REHGGIEATRVFTRIWLAMVGQWSWDDLPSLPPELIFLPSWFPLNVYDFACWARQTIVPLTIVG TLRPARKLPFDVAELRTGKRPPKPRAPWTWDGVFQNLDTALHAYAKLPLNPVRKLALKQAAE WILARQEADGSWGGIQPPWVYSILALHLLGYSLDHPALKAGIAGLDGFTIREKTDQGWVRRLEA CQSPVWDTALAMTALLDAGVSPGDESLVRAAEWMLGEEIRVPGDWAVRRPSLKPGGFAFEFA NDGYPDTDDTAEWLALRRMGKPDHLRIREAVDRSVAWLEGMQSSDGGWGAFDADNTQVLT TRLPFCDFGAVIDPPSADVTAHVVEMLAAEGKADTRECRRGIRWLWDNQEADGSWFGRWGA NYVYGTGAWPALVAAGVPGTDPRIRRAVRWLAEHQNDDGGWGEDLRSYDDRSWAGRGDS TPSQTAWALLALLAAGERESTWARGVEWLCERQRPDGGWDEDKHTGTGFPGDFYLSYHLY RVVFPLSALGRYVRGGS
>seq_ID 159
MSGQSNFTGGKKMTPAEGSSSPAPALLEKAAPSIELDERSDPLSRTLARAVSWLVAAQDGAG HWVAPLEADATIPSEYVFLHEVLGRPLDPVRRDKIVRAILSVQGKEGAWPLFHDGDPDISATVK AYQALKLCGFDPSHPALVRAREWVLSQGGAGKVNVFTRIALAIFGQYSWTKIPALPAEMVLLPS WFPFSIYSVSYWSRTVIVPLLFIYHHKPLVRLSPERGISELFDPARPDGESFAPSPDFFSLRNLFL LLDKVLQVWNRHPPGFLRKKALSFAMEWMVPRLKGEGGLGAIYPAMANSAVALSLEGYELDH PLMQRVLASIDDLLIEGEKEVLVQPCVSPVWDTALAMGALIEAGISPDSPTVDRAM EWFCAREV RTRGDWAIRAPDCEPGGWAFQFENDYYPDVDDTAMVLMGMAKILPARPDLAARMEGVFRRA TLWVMAMQGTDGGWGAFDRDNDLLFLNHIPFADHGALLDPSTADLTGRVLELLGALGYGPDF PPAARAIRYLRREQEEDGSWFGRWGVNYIYGTWSVVAGLKSIGVPMSEPWVMRSMEFLLAR QNPDGGWGEDCLSYASRDFAGRGASTPSQTAWALIALLHGGHAGHMAVRQGVDYLIQQMTP EGTWNEELFTGTGFPRVFYLRYHMYRHYFPLWALALYRNMTERGRALGHERVDFWKTAPYA PIARSV
>seq_ID 232
MTATTDGSTGALPPRAPSASDTDHGTPVAAGVQEAALHAVGRATDFLLSRQDAQGWWKGDL ETNVTMDAEDLLLRQFLGIRDDATTRAAALFIRGEQRPDGTWATFYGGPPDLSATVEAYVALRL AGDDPAAPHMAKASAWIRARGGIAAARVFTRIWLALFGWWKWDDLPEMPPEIVYFPTWMPLNI YDFGCWARQTIVPLTWSAKRPVRPAPFPLDELHTDPGRPNPPRPLDRLGSWEGAFQRLDRA LHGYHKVALKRLRRAAMNRAARWIVERQENDGCWGGIQPPAVYSVIALHLLGYDLGHPVMRA GLESLDRFAVWREDGARMIEACQSPVWDTCLATIALADAGLPPDHPQLVKAADWMLGEEIVRP GDWSVKRPQLPPGGWAFEFHNDNYPDIDDTAEVVLALRRVRHPDPERVERAVRRGVRWTLG MQSGNGAWAAFDADNTSPFPNRLPFCDFGEVIDPPSADVTAHVVEMLAAEGLSHDPRTRRGI EWLLAEQEPGGAWFGRWGVNYVYGTGSVVPALVTAGLPAAH PAIRRAVAWLETVQNDDGG WGEDLRSYPDPAEWGGKGASTASQTAWALLALLAAGERDGKATERGVAWLARTQREDGSW DEPYFTGTGFPWDFSINYHLYRQVFPLTALGRYVHGEPAVLKPGTR
>seq_ID 224
MTATTDGSTGAANLRAAAASDPTESTSAAPDMMAVARHAAERSVEHLLGRQDEQGWWKGDL ATNVTMDAEDLLLRQFLGIQDPETVKAAARFIRGEQLGDGTWNTFYEGPPDLSATVEAYVALRL AGDRPDDPHMIRAAGWVREQGGIAESRVFTRIWLALFGWWKWDDLPELPPELMFFPKVWPL NIYDFGCWARQTIVPLTIVSAKRPVRPAPFALDELHTDPACPNPSRPTAPAASWDGVFQRLDKA LHLYHKVAPRRLRRIAMNEAARWIIERQENDGCWGGIQPPAVYSVIALHLLGYDLDHPVMRAGL ESLDRFAVWREDGARMIEACQSPVWDTCLATIALADAGVSPDHPALVRAADWMLGEEIVRPG DWAVRKPGLAPGGWAFEFHNVNYPDIDDTAEVALALRRVRHPDPARVDAAIERGVRWNLGM QSRNGAWGAFDADNTSPFPNRLPFCDFGEVIDPPSADVTGHVVEMLAVEGRAHDPRTRRGV EWLLAEQEASGAWFGRWGVNYIYGTGSVVPALIAAGLPAAHPSVRRAVDWLRSVQNDDGGW GEDLRSYREEKWIGHGSSTASQTGWALLALLAAGERETRSVERGVAWLAATQQADGSWDEP HFTGTGFPWDFSINYH LYRQVFP LTALG RYVYG D P FATATAIGAGTG KG A
>seq_ID 243
MSISALQTDRLSQTLTQSWAAQQHLLSIQNPEGYWWANLESNASITAEWLLHKIWGTLDSQP LAKLENYLRAQQKTHGGWELYWNDGGELSTSVEAYMGLRLLGVPASDPALVKAKQFILHRGG VSKTRIFTKFHLALIGCYRWQGLPSLPAWVMQLESPFPFSIYELSSWARGSTVPLLIVFDKKPVY PLQPSPTLDELFTESAENVRWELEEKGDWSDAFLWLDKAFKLAESVDLVPFREESIRKAEKWV LERQEPSGDWGGIIPAMLNSMLALRALGYSVSDPVVRRGFQAIDNFMVESETECWAQPCISPV WDTGLAVRSLTDSGLSPNHPALVKAGEWLLDKQILSYGDWSVKNPQGQPGGWAFEFENSFY PDVDDTAVVAMALQDITLPNEPLKRRAIARAVRWIATMQCKTGGWAAFDINNDQDWLNDIPYG DLRAMIDPSTADITGRVLEMHGRFAADLDLANSYAADLSPYRLSRGLNYLIKEQELDGSWFGR WGVNYIYGTGQALSALALIAPERCRIQIERGIAWFVSVQNADGGWGETCESYKDKSLKGKGIST ASQTAWALLGLLDVSFCLDPAAKIAVDRGIQYLVSTQSEGTWQEESFTGTGFPQHFYLRYRLY CHYFPLMALGRYQRVINSSAGI
>seq_ID 197
MTSGTFGAKRVDLLAAFEHSAPAEKTRETCVGLQTAIARTRQYLLDQQHSEGFFVAELEGDTIL ESEYILLLAFLNEGQSPDAQAAARYLLTKQNTDGSWSNFPGGPIDVSCAVKAYLALRITGHAAD
EPALIRAREAILQAGGVERVNSFTRFYLAMLGLIPYSLCPAVPPEVVLLPDWFPINLSQMSAWSR TIVVPLSLLWAFQPAVELNDADGHQITIEELYASPEKQLPRFIRGVNHESNSNGWMNWSRFFFR VDQCLKSIESYGIKPLRSRAVRKCVQWILDRQEMSDGLGAIFPPIVWTLIGLKCAGFDDQHPMV QKQRDELNRLMLREQDALRLQPCLSPVWDTAISIIALRESGVEPDHPALSKARNWLLSKEVRHA GDWSKAHPETPVSGWYFEFNNEFYPDVDDTAMVLIALASTLPEEATPLAISHGVLPVQTGWSA ESTSRVQALKQLENHRPVLEAMGRGVQWLKALQSKDGGWGAFDSDINKELLTKVPFADHNAM LDETNADISARVLEAYAAVGISFNDPSVQRALEFIWNDQEDDHAWYGRWGVNYIYGTWQVLV GLTAIGISAHDPRLVRAAGWLKSKQQACGGWGETPATYDNPTLRGQGTPTASQTAWAVLGLIA AGEQNSIECQRGVEFLLKTQKHNGTWDEEEFTGTGFPRVFYLRYHYYPLYFPLMALGRFARA GGRVNFAG
>seq_ID 158
MTTNAAATSARSGEDAIRQVSGQQLETAIASARNSLLALQRPDGHFVFELEADATIPAEYVLMR HYLAEPVDAVLEEKIARYLRRIQSDDGGWPLFRDGASNISASVKAYYALKMIGDAPNAPHMQKA RAWILAQGGASHSNVFTRNLLALFGAIPWSGVPVMPVEIMLLPKWFPFHIDKISYWARTVLIPLT VLNALKPVARNPKGVGIAELFVTPPDQVRNWPKGPHQKFPWSQVFGGIDRVLRLFEPAFPKSL RKKSIDKAVAFATERLNGEDGLGGIFPAMVNALLVYDALGYPHDHPDYVTARGSIEKLLVIKDDE AYCQPCLSPVWDTALAVHALMESGVAQADQNVDRALAWLKPLQVLDTVGDWAASRPGVRPG GWAFQYANAYYPDVDDTAVWMAMDRAAGGDAAKRDHYRESMARGREWVAGVQSKNGGW GAFDADNTYEYLNQIPFSDHGALLDPPTADVSARCVSMLAQLGERRETSPVLDKAMRYLESTQ EKDGSWYGRWGMNYIYGTWSVLCALNAAGVAPSAPSMRKAADWLLSIQNSDGGWGEDGES YSLDYKGYEPAPSTASQTAWALMGLMAAGEVDHPAVQRGVAYLAAKQGSDGFWGEERFTAT GFPRVFYLRYHGYSKFFPLWALARYRNLNAANSKSVLVGM
>seq_ID 77
MAADGSALSESRLSSEALDRAVLSAHTALSQAQQDDGHWVYELEADATIPAEYILLEHFMDRID DALEQKIAIYLRRIQSEEHGGWPLYHNGKFDLSATVKAYFALKAVGDDINAPHMQRAREAILDH GGAERSNVFTRSQLALFGEVPWRATPVMPVELMLLPAKAFFSVWNMSYWSRTVIAPLLVLAAL RPVAANPRQVHVRELFVTPPEKVQDWIRGPYRSAWGYVFKGLDSVLRPVVPFIPEKTHKKAIQ AALDFIEPRLNGKDGLGAIYPAMANWMMYRAMGVPDEDPRAKTAWEAVQALIVEKDDEAYC QPCVSPIWDTGLSGHAMIEAASGPNGIAPEKTVAELKKASAWLRSKQILNVKGDWAVRNPNLA PGGWAFQYGNDYYPDVDDTAVVGMLLHREGDPTNAEAIERARTWIVGMQSTDGGWGAFDID NNKDVLNHIPFADHGALLDPPTADVTARCISFLAQLRNPEDEPVIQRGLEYLRKEQEKDGSWFG RWGTNYIYGTWSALCALNAAGVSHDDPAWKAVEWLRSVQRADGGWGEGCESYEGGPHGT YGESLPSQTAWAVLGLMAAGRRDDPAVTRGIAWLADQQDANGEWHEDPYNAVGFPKVFYLR YHGYKQFFPLMALARYRNLESSNTRRVSFGF
>seq_ID 6
MTVSTSSAFHHSSLSDDVEPIIQKATRALLEKQHQDGHWVFELEADATIPAEYILLKHYLGEPED LEIEAKIGRYLRRIQGEHGGWSLFYGGDLDLSATVKAYFALKMIGDSPDAPHMLRARNEILARG GAMRANVFTRIQLALFGAMSWEHVPQMPVELMLMPEWFPVHINKMAYWARTVLVPLLVLQAL KPVARNRRGILVDELFVPDVLPTLQESGDPIWRRFFSALDKVLHKVEPYWPKNMRAKAIHSCV
HFVTERLNGEDGLGAIYPAIANSVMMYDALGYPENHPERAIARRAVEKLMVLDGTEDQGDKEV YCQPCLSPIWDTALVAHAMLEVGGDEAEKSAISALSWLKPQQILDVKGDWAWRRPDLRPGGW AFQYRNDYYPDVDDTAWTMAMDRAAKLSDLHDDFEESKARAMEWTIGMQSDNGGWGAFDA NNSYTYLNNIPFADHGALLDPPTVDVSARCVSMMAQAGISITDPKMKAAVDYLLKEQEEDGSW FGRWGVNYIYGTWSALCALNVAALPHDHLAIQKAVAWLKNIQNEDGGWGENCDSYALDYSGY EPMDSTASQTAWALLGLMAVGEANSEAVTKGINWLAQNQDEEGLWKEDYYSGGGFPRVFYL RYHGYSKYFPLWALARYRNLKKANQPIVHYGM
>seq_ID 89
M N D LTN SS APG ARPD DATPSAAG PTP AE AAGGAVAPSRAVQP ADTQTAATG AAG AAAAVGAT PAELAATAPASSGTPAGASAAPAPSGTPSVDAPAELASAAPAPSGATPAATATAATAP APARA ASIDAPALAAADLDAAITRATDALLAAQQADGHWIYELEADSTIPAEYVLLVHYLGETPNLELERK IARYLRRVQLPGGGWPLFTDGAPDVSASVKAYFALKMIGDDANAEHMVRARNAIHAMGGAEM SNVFTRIQLALFGWPWFAVPMMPVEIMLLPQWFPFHLSKVSYWARTVTVPLLVLSAKRPLARN PRGVRVDELFVAPPVNAGLLPRAGHQSPAWFACFRLLDGLLRLTDGLFPRYTRERAIRQALQF VDERLNGEDGLGAIYPAMANSVMMYAALGYPEDHPNRATARRAIEKLLVIHDDEAYCQPCLSP VWDTSLAAHALLETGEPRAEAAAIRGLDWLRPLQILDVRGDWISRRPDVRPGGWAFQYANPH YPDVDDTAVVTLAMDRVAKLAQTDAYRDAIARAREWVVGMQSSDGGWGAFEPENTHQYLNSI PFSDHGALLDPPTADVSGRCLSMLAQLGETAANSAPARRALDYLLAEQGADGSWYGRWGMN YIYGTWSALGALNAAGLPFDDPRVKRAAQWLLSIQNPDGGWGEDGDSYKLDYRGYERAASTA SQTAWALLGLMAAGEVEHPAVARGIAWLAAQQREHGLWDEARFTATGFPRVFYLRYHGYRKF FPLWALARYRNLRRTGTRRVTVGM
>seq_ID 201
MLPYNQNSYKEALHGGHAAHNPPTLEEAIKRSQEFLLAHQHPEGFWWGDLECNVTSASHTLIL YKILGIADRYPLHKFEKYLRRMQCSHGGWEMSFGDGGYLSATIEAYICLRLLNVPQSDPALQRA LKNILARGGVTKARVFTKVCLALLGGFDWAALPSLPPWLMLFPAWFPWNIYEAASWARGCWP LIVLLEKKPVFQVKPEVSFDELYVEGRAHACKALPFSAHDWVSNIFVAADRAFKLMERFGAVPF RQWSIKEAKKWVLDRQEEMGDFIGYNPPMLYFAVCLKLWGYEVTDPLLQRALLAHKKLTVETE DECWLQSSQSPVWDTALVIPALVESGLPPDHPALQKAGQWLLEKQILKHGDWALKTGGGRMQ DDIGGGWAFQFVNSWYPDVDDSAAVVIALNCIKMPDEDVKNGAIARCLKWIAFMQGRNGGWA AFDRDSNQRWMDATPFSDIEAMLDVSTADVTARVLEMVGLMRLKHAAQPANNSLGKAHRHIS TESIARGVDYLTKEQEKEGCWWGRWGVNYIYGTRGALMGLSQVAAKTHKKEIARGAAWLVKV QNKKNEKKQGAQDGGWGEACFSYDDPATKGQNSRSTASQTGWAMQGLLAAGEVLGRKYEM EAVEEGVQFLLDTQRKDGSWSEAEFTGGGFPKHYYLKYHYFAQHFPLSALARYRARLLQLSR PKNQA
>seq_ID 183
MDGSQRISDMSQQPEGIAVSDEISSAYSVSSLNQDEINVDELENKLTQARSAMLSLQKPDGHW CFPLEADCTIPAEYILMMHFMDEIDVILENKIARFIREKQDLTHGGWPLYYGGAFDISCTIKSYYA LKLVGDSPDAAHMVRAREAILERGGAAKANVFTRLLLAMYEQIPWSGVPWPTELMLLPSWFP FHISKVSYWSRTVMIPLSILCTIKARAINPRNVDIRELFIVPPEQEKNYFPQADTWLKRAFMLVER
VLSRVEPKLPQAIRQYSIRKAENWTLERLNGECGIGAIFPAMVNAHESLALLGYAYDHPSRVQC RNALRGLLVDEGERAWCQPCTSPVWDTVLTCLALQEDPAADQGPVLKALDWLVDQQVLDEP GDWRDKRPDLLGGGWAFQYANPHYPDLDDTAAVAWALDQSDAQRYQKPLDRAANWLAGMQ SRNGGFAAFDIDNTYHYLNEIPFADHGALIDPPTSDVTARCVGLLGKYGKHQREVWRGISFLLR EQEKNGSWFGRWGTNYIYGTWSVLEAFQLANFDMQHTSVRRAVKWLESVQRVDGGWGETN DSYLDIQLAGQFPQTSTTFQTAWAVLGLMAAGEVNSKSVRRGINYLLHNQADDHLWEDPWFT APGFPRVFYLRYHGYSKFFPIWALVRYRALTKERVS
?ssq_ D 102
MNDL5QTÜPL □ AVLP EAADAAS N L AE AA WANAPAVADALAT ATPSP MOTAG AS PLDVSITRA T D Al LAAQQP DG H Wl YELE AD ATIPAEYV L L VH YLGE TP N LE L EQKIARYL RRIQLPNGGWPL F T □GALDis a s v k a y f a l k m ig d p v d a e h m v r a r d a il a h g g a e h a n v f t r i11 a . f g w s w r a v p MMPVEIMLLPM WFPFH L$KV$ Y W ARTVIVP LLVLNAKRPLARHP RKVRID E L FRG APV N TGM N ER AP HQHAGW FGFFPCVDTV LR AVDGLLPK ASRER AJ RAAV AF VD ERLNGEDG LGAIFP AM AN SVMM YO VLGYP ADH PN RAI ARKSLDKLL VIKEO E AYCQPCLSP VWDTS L VAH ALLETRE AFtAE G AAERGL AWLRPLQIL DVRGDWISRRPN VRPGG W AFQYN NAHYPDVDDTAWAWAW H PS.AA LTKBDVDREAJ ARAREWVUGM ÜSS EGGWG AF E PE TGYYL NNIPFS D HA AL I DPPTADVSGR C LSM FAQ IGEL j GN Sl P AÜRa F DY M LQEGES DGSWYGRWG YlYGT m ALCSLN AAG MSH U□ PKM R R AVQ WLVSIQ N =. DGG WGEGG t S YKLD YRG Y ERAPS T ASQTA WALLG ¡LM AAG É V D H OAVARGI □ YLQREÜ R b HGL WDE" Kl- T ATG F PRVFYLRYH GYRKF F PLWALARF RH LKRNGL TRVTVüM
>seq_ID 90
MIRPM KhJ SDLP L PGLLD AAILRG RD AL AQRQS ADGS WC FELESD ATIT AE Yl L M M H FMGKID EA RQARMARYL RGl QRLATHGAWD LYVDGAP DVSCSV KA YF ALK AAGn $E DAPH MARARFT LKL GGAAKSN VFTRILL A l PGQV PWRAJPF M PVEF VLFI >K WV Pl $M YKVAYWARTTM VP-LVLCS L KARAKWPRNVSIRELFVTAPEAERHYFARGGFVRNIJFLGIDRAJLRPLDALIPKALRRRAIRHAEA YVCAERMNGEDGMGGlF P Pl V Y5YQ M M 0 VU3YP E D F P LRRDCE NALDKL LV ERRDGSVYCGF C LSPVWDTAWSTM ALEÜARAVPDPRDAP PVSDAQ LQRCIAAS YEWL AGKG VTQVRGD WVEN APAAT =■ AGGWA ' Ov C N PYYP D DDSAWAAM L11PRG R .LARSTGTDPYAÜWARGLDWMRG LQSRNGG = G AF DADC □ RJY L N Ll PF AD I ■ G ALL DP^TE DVSGRVLLC LGVTGRDE DKPAL AR Al E YVKRMQRADGCWWGRWG1NY yGTWSVLAGLALAGEMPGQPYIARAIAWLRACONADGGW GE l MOSYIDPAL AGTFJGGESASWTAWALLAGMAFGDWdSESVQRGIRYLLSVGüADGFWW H RSH N APG F PRl Y Y L KYH G YT A Y FPL WAL aRyRRLSOAG AAP D vto g AAL AAS
:>seq_ D 167
M RE AAVSKVETLQRPKTRO V5LDDVERG VOS ATRALTEMTQ ADGHICFELEADATIPSEYILFH QFRGTLJ RPGLE AKIGM YL R RTQSKVHGGWALVH DGPFÜMSASVKAYFALKMlG ODl EAPH M RA V RK Al LQRGGAAMAN VFTRlLLALYG EVPWVAV PVM PVE VM H L PK Wh P h H LDKVSY WARCT MVPL FVIQ AKKPFIAKN PRGVGV AE LF VTPPDS Y RTWPGSPH AT WPWTPIFGGIDRVLQKTQDH FPKVPRQRAJDKAVAWVSERl NGEDCjUGAJFPAMVNSVLMYEVI GYPPEHPQVKIAL E Al EKL V ABRE DE AYVQFCLSPWYDTALNSH AML HAGGHQAEANAFWG. DWLKPL QULDlKGDWAETKP
NVRPG G WAFGYAN P H YP □ L D DTAVWMAM DRAORÜ HGLVSG M PDYSESI ARARE WVE G _C SADGGWAAEDADNN HHYLN ■ IIPrSDI I GALLO3dTADVTARWSMLSQLGE“ RATSRALDRGV TYLLNDQEKDG3WYGRWGMNFlyGTWSVLCALNAaGVCPQSPElRKAV A ViL RlüNPDGGWG EDASSYKLNPEFE PGYST ASQT A W Al LALM AAGEV DDP AVARG LVRTQGÜDGLWSEER YT ATGF PRVF YLRYH GYPKFFF LWAMARFRN LKRGNSRCVQFGM
:>seq_ D 133
MTTTCRTALAAGTPKAAFAPAPRGAADCI VARTVAVEAPP5PAPASPD^LARAVAHLKSLQDF AGWYYKGDLETNTTMDSEDLM RHWLGIWNPEClAERTARF r s k q y a d g s w p iy h a g p g d . M ATVESWALRMVGD5PQDPHMRAAAAWAR ARGGVP ATP F7Pl WLALFGWWR WE □ LPVLPP EUFVPAKMPL5IYK h ASWGRQ7IVAÍMVLM AH RPAGTP P FPIAELF PPP AT KKKAAAGRKAQKK AGH AGGPTA WRD SSIDDK' =TE PAFG TD~LRQP AAL AlGP ARP A^AKG RRGKGGP AAP □ VM G RAKDGGGPG LPLPARLVS RVGFRTRRALRQAALD H VN WN L LFGGIDRFLHVYH RH PIRPVRSL ALGLAERWIWRGE ADGCFGGIGPPTVY5IM ALRVLGYPM DH PVMTAALRSLD EYSUTLP DG A RM Q EAC QS PVWDTC LATI ALAD AGVP RDD PSLVRAAD WM LAE E VRERRGD WS VPIPDVPTG GW5FEF D N DTYP QY DDSAEVM LAL M RVAH PRPEK WAAT YRG LQWVFG MQC ADGGWG AF D V DH AGEL VY Kl PF ADFGMI rDpPSADVTAHWEl I G EI GLG DI )P H TKRG VE WLLHSOE ADGS W Y GR WG VN H LYGTGGW P ALRAAG LPAS HP AIQR AAD Yü lvakq n PDGG WGESC YSYDE US TAGVGvSTASQTaWAlLALI aa g r vg DGVTGE aa ARG V a w l ae tq t a e g tw d e d yftü tg f a G YF YIN YH L YRLVW P VM ALGRYQMLAG KGH
>-5eq_ID 7
M N PWH L _TRPH RSAE P RPSALQ RSIAAAQ AALLQ HGAADGH WC FE FE ADCTIP AE Yl LM M H Y MDERDAALEAKMAAYL RPkOEn h GGWSLYHGGh F D u S AS v kA YFALKL AGDOpEAAHMRRA RSAJLAHGGAE RANVFTRITLALFGQVPWRAVP Fl ^VE IL L = PRYVF PM H rYKVA3WSRTVMVPLF I LCSLKPOAK MPLGV HlFtEL F TRPPE Di D D YF AH ALQGWVSRl FLWFDRLGRALESWIPQALRRR Al ARAEAWFIERLHGEDGLNGIF PAMVNAHEALALLGYAAE H F YRQQTFtAALTKL WER AG E AY CQPC VSPV WDTCL A _HA_L E ADGD'VSE AARRSMQ W L LD ROI TDAPGDWFE RRPH LAGGGWA FGYAhlPYYPDL J 2 T AAV AW AL AR ARRPE D RP AVE RAAH W L AGM QSRNGGF GAY DVD NTYYY LN EIPF AQH KAL L DPPT AD VSGR VL AFL Al LDR EODAPV R AR LIGYLLRE Q E PSGA WF GRWGTN YÍYGTWSVLMGMAE. RDPGAEVRDAMARAAHWLRSVGQDDGGWGESNOSYADPG1AGLGO FSTAAQTAWACLALMAAGDSDSFKL RRGlOWLGRHQFQ PC ü WODPYFNAPGFPRYFYI,TYh G Y Kl Y - PLWALARYRNITE RH C A
>-5eq_ID 1B0
MALS NGEIREEIQRL5EELIQROEP DG SWRFC FEN G ITlDACTI ILLRTL NVDKE E LIRQLH □ RIV A AÜQPEGC WRf WY HDOKEGH LSATVE AYY ALLCSG YSRPE JE PIQRAKR YIL DRGGIGQARSLF T KAILAATGQRK WP ASIS LIPIEILLLPES LPLN F YDF SGYSRVH LV P L LIM AERN F RTRSVRT PDL SEL FLO ARNGEE D PLTLTPESR E PLKUQSG L Ah l VGTPRR | RQaAv N RAEGy M L DRlEGDGTL YTYASC7VLMWAL1ALG YEPQH PV1QRAVEGLSQMKFTVDS T GQGGT RWT1QNSPSTVWDT ALISYALQ E AGVS55HP AIQFSAADYL RH RQHRRPG D WQIH N PGIVPGG WGFSETNTFVP DVDD TTAALRALSAl HGSEPAVL GAWNRGl NWWVSMClN MOGOWPAFEKNTMKEM LTWLAIEGAKS
A ATC PS EAC LTGRTL EYLG N F AKLS VRQDWV ARGAD WLLS HGEADGSWYG RWGIGYIYGTW
aaltglmavgmpadhpgiakaanwlih q n adgg wgescrs dqvrrw p l h ast psd tawal □aliavhdrrapeiergvari IAl I HFDDWPSTYPTGAGLPGYFYVHYHSYRYIWPLLALSHYV NKYGDSSP
:>-5eq_ D 45
MSGVLLYDKVREEIERRTTALQTMQRQDGTWSFCFEGALLTDCHMIFLLKLLGRNDEIEPFVKR LASLQTNEGTWKLYEDENGGNLSATIQAYAALLASEKYSKEDINMRRAEMFIKEHGGVSRAHF MTKFLLAIHGEYEFPTLFHFPTPILFLQDDSPLSIFELSSSARIHLIPMMICMNKRFRVEKKLLPNL NHIAGEGGQWFREERSPLFQSFVGDVKKVIAYPLSLHHKGYEEVERFIGERIDENGTLYSYASA TFYMIYALLALGHSIQSPIIEKAVIGLKSYIWKMDRGSHLQNSPSTVWDTALLSYSLQEANVMKE NKMIQKATEYLLQRQQTKRMDWSVHAPSIMAGGWGFSDVNTTIPDVDDTTAALRALARSRGS SRVDSAWERGVEWLKGLQNNDGGWGAFERGVTSRILANLPIENASDMITDPSTPDITGRVLEF FGTYAPNELPEEQKKKAVKWLMDVQELNGSWYGKWGICYIYGTWAAMTGLRALGVPSSHPSL KKAASWLEHLQYEDGGWGESCQSSVEKKFISLPFSTPSQTAWALDALISYYDQETPIIRKGISYL LAQPTMNEKYPTGTGLPGGFYIRYHSYGHIYPLLALAHYIKKYKK
>seq_ID 53
MSGVLLYDKVHEEIERRTTALQTMQRQDGTWQFCFEGALLTDCHMIFLLKLLGRNDEIEPFVKR LVSLQTNEGTWKLYEDEKGGNLSATIQAYAALLASERYSKEAMNMRRAEMFIKEHGGVSRAHF MTKFLLAIHGEYEFPALFHFPTPILFLQDDSPLSIFGLSSSARIHLIPMMICMNKRFRVEKKLLPNL NHIAGGGGQWFREERSPLFQSFLGDVKKVISYPLSLHHKGYEEVERFMKERIDENGTLYSYAS ATFYMIYALLALGHSIQSPIIEKAVTGLKSYIWKMDRGSHLQNSPSTVWDTALLSYSLQEAKVTN ENKMIQRATEYLLQKQQTKKVDWSVHASSLVAGGWGFSDVNTTIPDIDDTTAALRALARSRGN DRVDDAWGRGVEWVKGLQNNDGGWGAFERGVTSKLLSNLPIENASDMITDPSTPDITGRVLE LFGTYAPNELLEEQKKKAIKWLMDVQEQNGSWYGKWGICYIYGTWATMTGLRALGVPSTHPA LKKAASWLEHLQHEDGGWGESCQSSVEKKFISLPFSTPSQTAWALDALISYYDQETPIIRKGIS YLLAQSTMNEKYPTGTGLPGGFYIRYHSYGHIYPLLALAHYVKKYRK
>seq_ID 44
MSGVLLYDKVHEEIERRTTALQTMQRQDGTWQFCFEGALLTDCHMIFLLKLLGRNDEIEPFVKR LASLQTNEGTWKLYEDEKGGNLSATIQAYAALLASEKYSKEDMNMRRAEMFIKEHGGVSRAHF MTKFLLAIHGEYEFPALFHFPTPILFLQDDSPLSIFGLSSSARIHLIPMMICMNKRFRVEKKLLPNL NHIAGGGGQWFREERSPLFQSLLGDVKKVISYPLSLHHKGYEEVERFMKERIDENGTLYSYAS ATFYMIYALLALGHSIQSPIIEKAVTGLKSYIWKMDRGSHLQNSPSTVWDTALLSYSLQEAKVTN ENKMIQRATEYLLQKQQTKKVDWSVHASSLVAGGWGFSDVNTTIPDIDDTTAALRALARSRGN DRVDDAWGRGVEWVKGLQNNDGGWGAFERGVTSKLLSNLPIENASDMITDPSTPDITGRVLE LFGTYAPNELLEEQKKKAIKWLMDVQEQNGSWYGKWGICYIYGTWATMTGLRALGVPSTHPS LKKAASWLEHLQHEDGGWGESCQSSVEKKFISLPFSTPSQTAWALDALISYYDQETPIIRKGITY LLAQSTM N EKYPTGTGLPGGFYIRYHSYGHIYPLLALAH YVKKYRK
>seq_ID 64
MSNLLLYEKVHEEIARRTTALQTMQRQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LASLQTNEGTWKLYEDEAGGNLSATIQSYAALLASEKYTKEDANMKRAEMFINERGGVARAHF MTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNL NHIAGGGGEWFREDRSPVFQTLLSDVKKIITYPLSLHHKGYEEVERFMKERIDENGTLYSYATA SFYMIYALLALGHSIQSPIIEKAITGITSYIWKMERGSHLQNSPSTIWDTALLSYALQEAQVPKASK VIHNASAYLLRKQQTKKVDWSVHAPDLFPGGWGFSDVNTTIPDIDDTTAALRALARSRGNENV DNAWKRAVNWVKGLQNNDGGWGAFEKGVTSRILANLPIENASDMITDPSTPDITGRVLEFFGT YTQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVMTGLRSFGIPSSNPSLKRA ALWLEHIQHEDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYYDKETPVIRKGISYLLS NSYINEKYPTGTGLPGGFYIRYHSYAHIYPLLTLAHYAKKYKK
>seq_ID 68
MLLYEKVHEEIARRTTALQTMQRQDGTWRFCFEGAPLTDCHMIFLLKLLGKDKEIEPFVKRLAS LQTNEGTWKLYEDEVGGNLSATIQSYAALLASEKYTKEDVNMKRAEMFINEHGGVARAHFMTK FLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNLNHI AGGGGEWFREDRSPVFQTLVSDVKKIITYPLSLHHKGYEEVERFMKERIDENGTLYSYATASFY MIYALLALGHSIQSPIIQKAITGITSYIWKMERGSHLQNSPSTVWDTALLSYALQEAQVPKASKVI HNASAYLLRKQQTKKVDWSVHAPDLFPGGWGFSDVNTTIPDIDDTTAALRALARSRGNENVDT AWKRAVNWVKGLQNNDGGWGAFEKGVTSRILANLPIENASDMITDPSTPDITGRVLEFFGTYT QNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVLTGLRSLGIPSSDPSVKRAAL WLEHIQHEDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYYDKETPVIRKGISYLLSNS YINEKYPTGTGLPGGFYIRYHSYAHIYPLLTLAHYAKKYRK
>seq_ID 41
MSNLLLYEKVHEEIARRTTALQTMQRQDGTWQFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LASLQTNEGTWKLYEDEMGGNLSATIQSYAALLASEKYTKEDANMKRAEMFINERGGVARAHF MTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNL NHIAGGGGEWFREDRSPVFQTLVSDVKKIITYPLSLHHKGYEEVERFMKERIDENGTLYSYATA SFYMIYALLALGHSIQSPIIQKAITGITSYIWKMERGSHLQNSPSTVWDTALLSYVLQEAQVPKAS KVIHNASAYLLRKQQTKKVDWSVHAPDLFPGGWGFSDVNTTIPDIDDTTAALRALARSRGNEN VDTAWKRAVNWVKGLQNNDGGWGTFEKGVTSRILANLPIENASDMITDPSTPDITGRVLEFFG TYTQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVLTGLRSLGIPSSDPSVKRA ALWLEHIQHEDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYYDKETPVIRKGISYLLS NSYINEKYPTGTGLPGGFYIRYHSYAHIYPLLTLAHYAKKYRK
>seq_ID 66
MSNLLLYEKVHEEIARRTTALQTMQRQDGTWQFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LASLQTNEGTWKLYEDEMGGNLSATIQSYAALLASEKYTKEDANMKRAENFIKERGGVARAHF MTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNL NHIAGGGGEWFREDRSPVFQTLASDVKKIITYPLSLHHKGYEEVERFMKERIDENGTLYSYATA SFYMIYALLALGHSIQSPIIEKAIMGITSYIWKMERGSHLQNSPSTIWDTALLSYALQEAQVPKAS KVIQNASAYLLRKQQTKKVDWSVHAPDLFPGGWGFSDVNTTIPDIDDTTAVLRALARSRGNEN
VDNAWKRAVNWVKGLQNNDGGWGAFEKGVTSRILANLPIENASDMITDPSTPDITGRVLEFFG TYGQNELPEKQKQSAINWLTNAQEENGSWYGKWGICYIYGTWAVLTGLRSLGIPSSDPSLKRA ALWLEHIQHEDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDKETPVIRKGISYLLS N PYIN EKYPTGTGLPGGFYICYHSYAHIYPLLTLAH YAKKYRK
>seq_ID 138
MVADERSALIDALKRSQSVDGSWRFPFETGISTDAYMIILLRTLGIHDEPLIQALVERIESRQDAN GAWKLFADEGDGNVTATVEAYYALLYSGYRKKTDSHMQKAKARILEVGGLERVHLFTKVMLAL TGQHSWPRRFPLPLVFFLLPPSFPLNMYDLSVYGRANMVPLLVVAERRYSRKTDNSPDLSDLA ASRNDWRLPDTEALWSYVKRSLTGLPAWLHRAAEQRAVRYMLEHIEPDGTLYSYFSSTFLLIFA LLALGYPKDDPHIARAVRGLRSLRTEIDGHTHMQYTTASVWNTALASYALQEAGVPPTDRTIEK AN RYLLS RQHIRYG D WAVH N PYGVPGG WG FSDVNTM N P DVD DTTAALRAIRRAAAKETAF RH AWDRANRWLFSMQNDDGGFAAFEKNVGKRFWRYLPIEGAEFLLMDPSTADLTGRTLEYFGTF AGLTKDHSAIARAIDWLLDHQEADGSWYGRWGICYVYGTWAAVTGLSAVGVPIDHPAMQKAV RWLLSIQNDDGGWGESCKSDGAKTYVPLGASTPVHTAWALDALIAAAERPTPEMKAGVRALV RMLHHPDWTASYPVGQGMAGAFYIHYHGYRYIFPLLALAHYEQKFGPFVD
>seq_ID 69
MLLYEKVHEEIARRTTALQTMQRQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKRLAS LQTNEGTWKLYEDEVGGNLSATIQSYAALLASEKYTKEDANMKRAEMFINERGGVARAHFMTK FLLAVHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNLNHI AGGGGEWFREDRSPVFQTLLSEVKKIITYPLSLHHKGYEAVERFMKERIDENGTLYSYATASFY MIYALLALGHSIQSPIIQKAITGITSYIWKMERGSHLQNSPSTVWDTALLSYALQEAQVPKASKGI QNASAYLLRKQQTKKVDWSVHAPDLFPGGWGFSDVNTTIPDIDDTTAVLRALARSRGNENVD NSWKRAVNWVKGLQNNDGGWGAFEKGVTSRILANLPIENASDMIPDPSTPDITGRVLEFFGTY AQNELPEKQKQSAINWLMNIQEENGSWYGKWGICYIYGTWAVLTGLRSLGIPSSDPSLKRAAL WLEHIQHEDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYYEKETPVIRKGISYLLSNP YVNEKYPTGTGLPGGFYIRYHSYTHIYPLLTLAHYAKKYRK
>seq_ID 67
MSNLLLYEKVHEEIARRTTALQTMQRQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LASLQTNEGTWKLYEDEVGGNLSATIQSYAALLASEKYTKEDANMKRAEMFINERGGVARAHF MTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNL NHIAGGGGEWFREDRSPVFQTLLSEVKKIITYPLSLHHKGYEEVERFMKERIDENGTLYSYATA SFYMIYALLALGHSIQSPIIQKAITGIASYIWKMERGSHLQNSPSTVWDTALLSYALQEAQVPKAS KVIQNASAYLLRKQQTKKVDWSVHAPNLFPGGWGFSDVNTMIPDIDDTTAVLRALARSRGDEN VDNAWKRAVNWVKGLQNNDGGWGAFEKGVTSRILANLPIENASDMITDPSTPDITGRVLEFFG TYAQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVLTGLRSLGIPSSDPSLKRA ALWLEHIQHEDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYYEKETPIIRKGISYLLSN PYVNEKYPTGTGLPGGFYIRYHSYAHIYPLLTLAHYTKKYRK
>seq_ID 35
MSNLLLYEKAHEEIVRRATALQTMQWQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVER VASLQTNEGTWKLYEDEVGGNLSATIQSYAALLASKKYTKEDANMKRAENFIQERGGVARAHF MTKFLLAIHGEYEYPSLFHLPTPIMFLQDDAPFSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPN LNHIAGGGGEWFREDRSPVFQTLLSDVKQIISYPLSLHHKGYEEIERFMKERIDENGTLYSYATA SFYMIYALLALGHSLQSSMIQKAIAGITSYIWKMERGNHLQNSPSTVWDTALLSYALQEAQVSK DNKMIQNATAYLLKKQHTKKADWSVHAPALTPGGWGFSDVNTTIPDIDDTTAVLRALARSRGN KNIDNAWKKGGNWIKGLQNNDGGWGAFEKGVTSKLLAKLPIENASDMITDPSTPDITGRVLEFF GTYAQNELPEKQIQRAINWLMNVQEENGSWYGKWGICYIYGTWAVMTGLRSLGIPSSNPSLKR AASWLEHIQHEDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDTETPAIRKGVSYLL LNPYVNERYPTGTGLPGAFYIRYHSYAHIYPLLTLAHYLKKYRK
>seq_ID 43
MNALLLYEKVHEEIARRTTALQTMQRQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEVEPFVK RLASLQTNEGTWKLYDDEMGGNLSATIQSYAALLASKKYTKEDANMKRAEMFITERGGVARAH FMTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLP NLNHIAGGGGEWFREDQSPMFQTLLGNVKQIISYPLSLHHKGNEEVERFMKERIDENGTLYSY ASASFYMIYALLALGHSIQSPMIQKAITGITSYIWKMERGNHLQNSPSTVWDTALLSYALQEARV SKESKMIQNASAYLLKKQHKKKADWSVHAPVLIPGGWGFSDVNTTVPDVDDTTAVLRALAQSR GNGNVDDAWKKGTNWIKGLQNNDGGWGAFEKGVTSKLLANLPIENASDMITDPSTPDITGRVL EFFGTYTQNELPEKQKQSAINWLMNEQEENGSWYGKWGICYIYGTWAVMTGLRALGITSAHP SLKRATLWLEHIQHEDGGWGESCQSSVEKRFATLPFSTPSQTAWALDALISYYDKETPAIRKGI SYLLANPYVNEKYPTGTALPGGFYIHYHSYAHIYPLLTLAHYAKKYKK
>seq_ID 33
MNIVIRISKGWVSNLLLYEKVHEEIARRTTALQTMQRQDGTWQFCFEGAPLTDCHMIFLLKLLG RDKEIEPFVKRLASLQTNEGTWKLYEDEVGGNLSATIQSYAALLASKKYTKEDANMKRAEMFIN ERGGVARAHFMTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMVCLNKR FQVGKKLLPNLNHIAGGGGEWFREDRSPMFQTLLSDVKQIISYPLSLHHKGYEEVERFMKERID ENGTLYSYATASFYMIYALLALGHSLQSSMIQKAIAGITSYIWKMEKGNHLQNSPSTVWDTALLS YTLQEAHASKDNKMIQHAAAYVLKKQHTKKADWSVHAPGLIPGGWGFSDVNTTIPDVDDTTAV LRALARSRGN EN VDN AWKKGVN WVKGLQN N DGGWGAFEKGVTSN LLAN LPI EN ASD MITD PS TPDITGRVLELFGTYAQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVMTGLR SLGIPSSNPSMKRAALWLEHIQHEDGGWGESCQSSVEKRFITLPFSTPSQTAWALDALISYHDE ETPAIRKGISYLLAN PYVNEKYPTGTGLPGGFYIHYHSYAYIYPLLTLAHYIKKYRK
>seq_ID 36
MSNLLLYEKVHEEIARRATALQTMQRQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LASLQTN EGTWKLYE D EVGGN LS ATI QSYAALLASQKYTKE DAN M KRAE N Fl KE RGGVARAH F MTKFLLAIHGEYEYPSLFHVPTPIMFLQNDSPLSIFELSSSARIHLIPMMVCLNKRFRVGKKLLPN LNHIAGGGGEWFREDRSPLFQTLLSDVKQIISYPLSLHHKGYEEVERFMKERIDENGTLYSYAT ASFYMIYALLALGHSLQSSMIQKAIAGITSYIWKMERGSHLQNSPSTVWDTALLSYALQEAQVPK DHKMIQQTITYLLKKQHTKKADWSVHAPALTPGGWGFSDVNTTVPDVDDTTAVLRVLARSREN
EKVNNAWQKGIDWVKGLQNNDGGWGAFEKGVTSKLLANLPIENASDMITDPSTPDITGRVLEL FGTYTQNELPEKQKQSAINWLMNAQEENGSWYGKWGICYIYGTWAVMTGLRSLGIPSNNPSL KRAALWLEHIQHEDGGWGESCQSSMEKRFITLPFSTPSQTAWALDALISYYDTETPAIRKGISY LLANPYVNEKYPTGTGLPGGFYIRYHSYAQIYPLLTLAHYTKKYRK
>seq_ID 42
MSNLLLYEKVHEEIARRTTALQTMQRQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LASLQTNEGTWKLYEDEVGGNLSATIQSYAALLASEKYTKEDANMKRAEMFINERGGVARAHF MTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNL NHIAGGGGEWFREDRSPVFQTLVSDVKKIITYPLSLHHKGYEEVERFMKERIDENGTLYSYATA SFYMIYALLALGHSIQSPIIEKAIMGITSYIWKVERGSHLQNSPSTIWDTALLSYALQEAQVPKASK VIQNASAYLLRKQQTKKVDWSVHAPDLFPGGWGFSDVNTTIPDIDDTTAVLRALARSRGNEHV DN AWKRAVN WVKGLQN NDGGWGAFEKGVTSRILANLPIENASDMITDPSTPDITGRVLEFFGT YTQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVLTGLRSLGIPSSDSSLKRAV LWLEHIQHEDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYYDKETPVIRKGISYLLSN PYINEKYPTGTGLPGGFYIRYHSYAHIYPLLTLAHYAKKYRK
>seq_ID 65
MSNLLLYEKVYEEIARRTTALQTMQRQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LASLQTN EGTWKLYEDEVGGN LSATIQSYAALLASEKYTKEDAN M KRAEM Fl N ERGGVARAH F MTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPNL NHIAGGGGEWFREDRSPVFQTLVSDVKKIITYPLSLHHKGYEEVERFMKGRIDENGTLYSYATA SFYMIYALLALGHSIQSPIIEKAIMGITSYIWKMERGSHLQNSPSTIWDTALLSYALQEAQVPKVS KVIQNASAYLLRKQQTKKVDWSVHAPDLFPGGWGFSDVNTTIPDIDDTTAVLRALARSRGNEN VDNAWKRAVNWVKGLQNNDGGWGAFEKGVTSRILANLPIENASDMITDPSTPDITGRVLEFFG TYTQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVLTGLRSLGIPSSDSSLKRA VLWLEHIQHEDGGWGESCQSSVEKRFVTLPFSTPSQTAWALDALISYYDKETPVIRKGISYLLS N PYINEKYPTGTGLPGGFYIRYHSYAHIYPLLTLAH YAKKYRK
>seq_ID 39
MNNLLLYEKVHEEIARRATALQTMQQQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LASLQTN EGTWKLYE D EVGGN LS ATI QSYAALLASKKYTKE DAN M KRAE N Fl KE RGGVARAH F MTKFLLAIHGEYEYPSLFHLPTPIMFLQNDSHLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPSL NHIAGGGGEWFREDRSPLFQTLVSDVKQIISYPLSLHHKGYEEVERFMKERIDENGTLYSYATA SFYMIYALLALGHSLQSTMIQKAITGITSYIWKMESGNHLQNSPSTVWDTALLSYALQEAHVPKD NKMIQHAATYLLKKQHTQKADWSVHAPALTPGGWGFSDVNTTIPDVDDTTAVLRALARSRGNE KVDNAWPKGINWVKGLQNNDGGWGAFEKGVTSNILANLPIENASDMITDPSTPDITGRVLEFF GKYAQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVMTGLRSLGIPSSNPSMK RAALWLEHIQHEDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDKETSIIRKGISYLL AN PYVNEKYPTGTGLPGGFYIRYHSYAHIYPLLTLAHYIKKYRK
>seq_ID 63
MSNLLLYEKAHEEIARRATALQTMQREDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LATLQTN EGTWKLYE D EVGGN LSATIQSYAALLASGKYTKE DAN M KRAE N Fl KE RGGVARAH F MTKFLLAIHGEYEYPSLFHVPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPN LNHIAGGGGEWFREERSPLFQTLLSDVKQIISYPLSLHHKGYEEVERFMKERIDENGTLYSYAT ASFYMIYALLALGHSLQSSMIQKAIAGITSYIWKMESGNHVQNSPSTVWDTALLSYALQEAHVP KDNKM LQNATAYLLKKQHTKKADWSVHAPALTPGGWGFSDVNTTVPDVDDTTAVLRVLARSK GNEKLDHAWQKGINWVKGLQNNDGGWGAFEKGVTSRILANLPIENASDMITDPSTPDITGRVL EFFGTYAQNELPEKQKQSAINWLMNAQEENGSWYGKWGICYIYGTWAVMTGLRSFGIPSSNP SLKRAALWLEHIQHKDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDTETPVIRKGI SYLLANPYVNEKYPTGTGLPGGFYIRYHSYAHIYPLLTLTHYIKNIENKPRDISRFIFLGSRSLLKRI RLCFPYFSVDWRF
>seq_ID 37
MSNLLLYEKAHEEIARRATALQTMQREDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LAS LQTN EGTWKLYE D EVGGN LSATIQSYAALLASGKYTKE DAN M KRAE N Fl KE RGGVARAH F MTKFLLAIHGEYEYPSLFHVPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLPN LNHIAGGGGEWFREERSPLFQTLLSDVKQIISYPLSLHHKGYEEVERFMKERIDENGTLYSYAT ASFYMIYALLALGHSLQSSMIQKAIAGITSYIWKMESGNHVQNSPSTVWDTALLSYALQEAHVP KDNKM LQNATAYLLKKQHTKKADWSVHAPALTPGGWGFSDVNTTVPDVDDTTAVLRVLARSK GNEKLDHAWQKGINWVKGLQNNDGGWGAFEKGVTSRILANLPIENASDMITDPSTPDITGRVL EFFGTYAQNELPEKQKQSAINWLMNAQEENGSWYGKWGICYIYGTWAVMTGLRSFGIPSSNP SLKRAALWLEHIQHKDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDTETPVIRKGI SYLLANPYVNEKYPTGTGLPGGFYIRYHSYAHIYPLLTLTHYIKKYRK
>seq_ID 46
MLLYEKVHEEVKEKMAALQAMQQQDGTWRFCFEGSPLTDCYMIFLLTLLGQDQEIEPFVARLA ALQTNEGTWKLYEDEPDGNLSATIQAYAALLVSKMYKKEDINMKRAEVFIRKQGGITKAHFMTK FLLALHGGYEYPPLFHFPTPILFLSEDSPLSIFELSSSARIHLIPMMLCMNKRFTVSKKMLPNLDYI SGGSKEQWFREERSPLFQTLLRDVTKFLSYPLSLHYKGDKAAERFMIERIDTNGTLYSYASATF YMIYALLALGHSIQSPLISNAVLGLKTYVWNMDRWAHLQNSPSTVWDTALLSYSLQEARVPHD NEMIQKAINYLLQKQHKEKKDWSVHAPTLDAGGWGFSDVNTTIPDVDDTTAVLRALAGSRQGN PKVESAWRKGIEWVKGLQNSDGGWAAFEKGVTSKVLTHLPLDNSGDMITDPSTVDITGRVLEF FGTYAPNELQGDQKDRAIRWLIYTQEKNGSWHGKWGVCYIYGTWAALTGLRAVGVPSNHIAL QKAATWLESIQHSDGGWGESCRSSVEKKFISLPFSTPSQTAWALDALIACYDSETPTIRKGISYL LKHSTKHQEYPTGTALANGFYIRYHSYH HIFPLLTFAH Yl KKYRK
>seq_ID 40
MSNLLLYEKVHEEIARRTTALQTMQRRDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVKR LASLQTNEGTWKLYEDEVGGNLSATIQSYAALLASKKYTKEDANMKRAEMFINERGGVARAHF MTKFLLAVHGEYEYPSLFHLPTPIMFLQSDSPLSIFELSSSARIHLIPMMLCLNKKFRIRKKLLPNL NHISGGGGEWFRGNRSPLFQTLVSDVKQIISYPLSLHHKGNEEVERFMKERIDENGTLYSYATA SFYMIYALLALGHSLQSTMIQKAITGITSYIWNMESGNHLQNSPSTVWDTALLSYALQEAHVPKD
TNMLQHATAYLLKKQHTKKADWSVHAPALAPGGWGFSDVNTTIPDVDDTTAVLRALARSRGS EKVDYVWEKGINWVKGLQNNDGGWGAFEKGVTSNLLANLPIENASDMITDPSTPDITGRVLEL FGTYAQNELPEKQTQSAINWLMNVQEKNGSWYGKWGICYIYGTWAVMTGLRSLGIPSSNPSL KRAALWLEHIQHEDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDKETPAIRKGISY LLANRYVNEKYPTGTGLPGGFYICYHSYAHIYPLLTLAHYIKKYRK
>seq_ID 38
MSNLLLYEKAHEEIARRATALQSMQWQDGTWRFCFEGAPLTDCHMIFLLKLLGRDKEIEPFVK RLASLQTNEGTWKLYEDEVGGNLSATIQSYAALLASGKYTKEDANMKRAENFIKERGGVARAH FMTKFLLAVHGEYEYPSLFHLPTPIMFLQNDSPLSIFELSSSARIHLIPMMLCLNKRFRVGKKLLP NLNHIAGGGGEWFREERSPLFQTLVSDVKQIISYPLSLHHKGYEEVERFMKERIDENGTLYSYA TASFYMIYALLALGHSLQSSIIQNAITGITSYIWKMESGNHLQNSPSTVWDTALLSYALQEAHVPK DNKMLQNATAYLLKKQHTKKADWSVHASALTPGGWGFSDVNTTVPDVDDTTAVLRVLARSRG NEKVDHAWQKGINWVKGLQNNDGGWGAFEKGVTSNILAKLPIENASDMITDPSTPDITGRVLE FFGTYAQNELPEKQKQSAINWLMNVQEENGSWYGKWGICYIYGTWAVMTGLRSFGIPSSNPS LKRAALWLEHIQHKDGGWGESCHSSVEKRFVTLPFSTPSQTAWALDALISYYDTETPIIRKGISY LLANPYVNEKYPTGTGLPGGFYIRYHSYAHIYPLLTLAHYIKKYRK
>seq_ID 55
MLLYEKVRQEVERKVTALRTMQYQDGAWRFCFEGSPLTDCHMIFLLRLLGQNGEMEPFVTRV ASLQTNEGTWKLYEDESVGNLSTTINAYVALLASGRYTKEDINMKRAEAFIRRQGGITKAHFMT KFLLALHGGYEYPSLFHFPTPMLFLPEDSPLSIFELSSSARIHLIPMMICMNKRFTVSKTILPNLDY ISGGSKKQWFREERSSLFQRLLGDVKKFLSYPLSLQHKGYKEAERFMIERIETNGTLYSYASAT FYMIYALLALGHSIQSPLISNAVLGLKSYIWNMNKGTHLQNSPSTVWDTALLSYSLQEAGVPND NQMIQKATDYLLQKQHKEKKDWSVHAPSLDAGGWGFSDVNTTIPDIDDTTAALRAIARSREGN QRIEEAWRKGIEWVKGLQNIDGGWAAFERGVTSHFLTHLPLDNAGDMTTDPSTSDITGRVLEF FGTYAPHQLKDDQKDRAIKWLMQAQEKNGSWYGKWGVCYIYGTWAALTGLRAVGVPSNHTA LQKAATWLERIQHNDGGWGESCRSSIEKHFISLPFSTPSQTAWALDALITFYDTETPVIRKGISY LLAHLNQNQDYPTGIGLPDGFYIRYHSYHHIFPILTFAHYIKKYMK
>seq_ID 54
MLLYEKVRQEVERKVTALRTTQYQDGAWRFCFEGSPLTDCHMIFLLRLLGQNGEMEPFVTRV ASLQTNEGTWKLYEDESVGNLSTTINAYVALLASGRYTKEDINMKRAEAFIRRQGGITKAHFMT KFLLALHGGYEYPSLFHFPTPMLFLPEDSPLSIFELSSSARIHLIPMMICMNKRFTVSKTIFPNLDY ISGGSKKQWFREERSPLFQTLLGDVKKFLSYPLSLQHKGYKEAERFMIERI ETNGTLYSYASAT FYMIYALLALGHSIQSPLISNAVLGLKSYIWNMNKGTHLQNSPSTVWDTALLSYSLQEAGVPND NQMIQKATDYLLQKQHKEKKDWSVHAPSLDAGGWGFSDVNTTIPDIDDTTAALRAIARSREGN QRIEEDWRKGIEVWKGLQNIDGGWAAFERGVTSHFLTHLPLDNAGDMTTDPSTSDITGRVLEF FGTYAPHQLKDDQKDRAIKWLMQAQEKNGSWYGKWGVCYIYGTWAVLTGLRAVGVPSNHTA LQKAATWLERIQHNDGGWGESCRSSIEKHFISLPFSTPSQTAWALDALITFYDTETPVIRKGISY LLAHLNQNQDYPTGIGLPDGFYIRYHSYHHIFPILTFAHYIKKYMK
>seq_ID 189
M RSELLQ LQSADGSW RLCF DSG“ M PDSYFIIILRM LGYSQ DE AL I ROI AS RILS RC LPN GTWKl Y PDEE ÜGN L DA r AL A YF ALLYSGF LTKLD P R MQLAKQFI L.SKGG LSKIRSLLTQ Al F AAAGQASWP KSMRIPLEVF FSONG IGlDLFSt SG H ARV H V P11M L AH AQF VO H SAS MPDLSDLF AGSS KRh L \ DSP WIAALATLlGS LSLSE LLPFES PT PQEKAVQ FLF D RLEPDGTLLT Y T T ATM F MILVLLM LGYS 5SSF Ll H RM VSGIHS VIC AN S H VQIAS5EV WDT AML VH AL RKAGVN PT3T AL E NAGAYLRGRQQ TQLG DWAI P NPG“ P AGG WG l"5 IMVN _LY P DVD DTTAALRAIQ P YES R_PE LQADWG RG LN WVL TURNONGGWPAFE ROGE RLP IT " r N " C GAKCIAVC PSTVDLTSRT _QFLGQE LGM NAG NSWl E S r LRWVLSQQEE NG3VYYGRWGITYV HG TE AALÜGLT A VGI AL D M P AV KKG VD WLLQVGN L D GGWG E SCISD KVRRYVP L N FSTPSQT AWALDG LTAAL PKP^P A_ E RGVDA _LQSLD RP D WTY T Y PTGG AL PGSW ARY ASN N Yl WP .L AL SNIWQKYS
»Boq_C 200
MALPFNQDSYKGDDEADVSKGAAKSPPE..EEA ORSGEFLL AQGFPEGFWFGFLEAHVTllSHT VILYKI l G EENFPMYKFERYLRRMQGSHGGVYEI AYGIGSYLSAT EAY1ALRLL NVFQSÜPAlJClK AL P VIL D &GCVTK AR| F“ KICL AL LGSFDWRGl PSIL P F’WLILCPTWFPLSIY EVBSWARGCIVP L l V ILDKKPVF KVSPE VS FDELY AE G RE H AC Kl I Pl SG DWT$ KF F| TVO F VFKM M ERL RWP FRQ W GlREAEKWILERQEEBGDYVNIFPAMFYSVMCMKVLGYET I DPWQRALLGFKGF I Ib TADECK VQSTV5PI WDT AFIVRALVDSGIP P D H P ALQKAGQ WLLQKQILKH G □ WAF KD RQN PVNQ RGF A CLQRDSGIETAD EC RVGS- LEPVWDTAFWKALVDSGl3 PN HP ALO KAGQWLLQN QT LTH GD WAFKTQ0GH LAAGG WAFQS HNRWYPDAO DSAAVM HALDCIE LPD E D VKN G Al ARGLK W1S AL GSRNGG WAG YD KMCDQQ WINKVP F N DLN GI _ DV PT AD VT AR VL E M VG R LS RLGAVGTP YSP R H CTL VESIP RLLL P ET1ARGLAY L RREQEGE GCWWGKWGVN Yl YGTCG ALL ALSQV APT TH GE EiARGAKWLAQVQNRCD kqkaaqg p r dggwg^ scfsy doral kggn das tas qtawavqg LL AAGD ALGK YE V EAIEOGVQYLl ATO R <DGT WH EAH FT0SC F AQH FYVRYHYYAGH F P LSAL GLYRTRILQHQ
Figure imgf000125_0001
MVADERSAL IDALKRSQ SVC GSWRFPFETGISTDAYM11LLRTLGIH D E PLIÜALVE Rl ES ROOAN G AWKLF A0 E G DGN VT ATVE A Yy AL LYSGYRKKTDSH MQKAKARILEVGG L E R VH L FTKVMl AL TGQHSWPRRFPLPL VFF. I ppsfpln mydlbvygran mvpl lwaerrysrktonspülsdl a as rndyyrlp dtealwsyvk rsltg l pawl h raaegfavry m l e h i e pdgtl ys yfsstflli fa LLA _GYPK D D = HI AR AVRG LRSLRTEIDGHTh MOYTTA3VW N TAL AS YALQ E AG VPPTD RTIEK AN RYLLSRQ HIRYGDWAVH N PYGVPGGWGF SDVN'TMN FDVD D_TAALRAIRR AAAKETAF R H AWDRAH FWVL FSM QND GGGFAAF E KN VG KRFWRYL Pl EG AEF LLM □ PETAD LTGRT L EYrGTr AG LTKD H S Al ARAIDWLLDHQE ADGSWYGRWGICYVYGT W AAVTGLS AVG VPIDH P AM Q KAV KWLLSlQND DGG WGtSCKS DGAKTYV PLGASTPV H IAWALDALIAAAERPTPEfo KAGVRALV RM LH H PD WT A3YP VGQGM AG AFYIH YHGY R YlF PL L ALAH YEQ KFGPF VD
*-5eq_ D 13
MAQ MASE LGSP RLLLRMGR EAAQQQ H LASGTEVQKALRLAVG ■ ISLDLÜ RTDGAWCG EVt \ S N A r F TAGYVF LQQQIGLPLD PTEIEGLSRWLFSCQNE DGS WGLGPGLGGDVSTTTETYL ALKILG VSPEDPRMAAARTSIIKAGSLPATRMFTRVFLASFGLIPWSAVPPLPAELILLPTLFPVNIYNLSS WARATCVPLLLIRHHEPLHSLPNGRHAENDFLDELWTKDIPRDFCYTTPLSRMWRLGDYAGIFF TSADHGFRFLGQYFNSPLRNLSRRKIINWILDHQEQSGEWAGYWPPQHNNIWALSLEGYSLDH PVLRRGIAAVKSFVLHDATGMRAQVTVSQVWDTALMSIALSDSAPSTGIISPTQAIDWLMHHEV ASHRGDWRVLRPKLATGGFCFEEFNTLYPDVDDTAAVIMALIKSNPAHLISGCVRQCFGMMMA GRHGYSLDCQLETRLRASSQLAIAYLLGCQENNGSWWGRWGVNYLYGTSNVLCGLAYYYDR SSLSKGDGKSNSNIVSAVDRASEWLKARQHSNGGWGEGLESYDNAQLAGCGQPTASQSAW VTMALLNYLSPTDEVIQRGVSYLVRNQVKYGDESRATWPLERYTATGFPGHLYMEYDYYRHYF PIMALGRYVNKLSGSHKLL
>seq_ID 198
MED LTQKLQQALQLAS RALLNE RVRPGLAH WEG E LSTSALSTATAVM ALFQYAKCQQASG RL QKVFDGKSEGDWRLIEQGLAWLLQHQLADGGWGDTDKSISNISTTMLAHATLVACREAVRQK SLVLNASDIDAAIERSGRLIEELGGIQAIRDRYGKDHTFSVPILTHAALAGLVSWNEIPALPYELAL LPHRFFEVIQLPWSYALPALIAIGQTLHLRQRTWNPWWWVRRAAIPGTLQKLQSIQPESGGFL EATPLTSFVTMCLASVGRVDHPVTQAGLKFIRDSVRPDGSWPIDTNLATWVTTLSINHLGAEAF SSDEREALMRWLLQQQYRTMHPYTNAAPGGWAWTNLSGGVPDADDTPGAM LALMELDRVS VSSQESLSIEQALYQAALWLIKLQNRDGGWPTFCRGWGALPFDRSSNDITAHCLRALIQYERRL NDVTVDATGDTTSRPLAVEVPSPKLREQMQRSIQQGFEYLEKTQREDGSWLPLWFGNQHSPD DENPLYGTARVLLAYADAGLEGSSAALRGCDWLVRHQHADGAWGPGTSIETADTSDAESDVE GEPASIEETALALMALCRFDATHNVLHRGASWLITKVENETWREPTPIGFYFAKLWYYEKLYPQ VFTVGALKALALRLGSALTTVSENEPAPSSAEPPIPPIATDRVADSMHLQRTSPSINLANGGITLA
>seq_ID 252
SPVWDTVLTLLALDDCGYNDCYSEEVDKAVQWVLDQQVLSKGDWSVKLPNVEPGGWAFEYA NTRYPDTDDTAVALIVLSQFKDDPKWKERGINQAIERGVNWLFEMQCKNGGWGAFDKDNDKT LLTKIPFCDFGEALDPPSVDVTAHIVEAFGKLGYSKDHPKIAHAIEYLKEEQEADGAWFGRWGV NYVYGTGAVLPALEAIGEDMSQPYIRKAANWLVLHQNEDGGWGE
>seq_ID 253
SPVWDTVLTLLAFDDCDKNEAYQASVEKAVQWTLDNQVLRKGDWSVKLPDVEPGGWAFEYA NTFYPDTDDTAVALIVLSQFRDVEKWQEAGIEKAIERGVNWLFAMQSKNGGWGAFDKDNDNN FITKIPFCDFGEALDPPSVDVTAHCIEAFGKLGLSRARPEIARGLDYLKSEQEADGAWFGRWGV NYVYGTGAVLPALEAIGEDMSQPYIRKAANWLILRQNEDGGWGE
>seq_ID 257
SPVWDTXLTLLALDDCDLNERQSKEVEKAVQWVLNQQVLRPGDWCVKVPKVQPGGWAFEYK NYFYPDTDDTAVALIVLSQFRDDPKWQEKNIEQAIDRGLNWLIGMQCKGGGWGAFDKDNDKT YLTKIPFCDFGEALDSPSVDVTAHIVEAFGKLGLGKSH PAMI RAI DYLKAEQEQDGAWFGRWGV NYIYGTGAVLPALEAIGEDMRAPYIAKACDWLIAVQQEDGGWGE
>seq_ID 254
SPVWDTLLTLLAYDDSGQNERKADEVEKAVDVWLAXQVLRPGDWKVKAPNLEPGGWAFEYA NYFYPDTDDTAVALIVLSQFRNDAAWKEKGIEQAIEKGVNWLFGMQCKGGGWGAFDKDNDKQ FLTKIPFCDFGEALDPPSVDVTAHIVEAFGKLKFSKDHPNIRRAIDYMKDEQEADGAWFGRWGV NYIYGTGAVLPALEAIGEDMFAPCIGRACDWLVSRQNDDGGWGE
>seq_ID 255
SPVWDTLLTLLAYDNSGHNARKASEVEKAVDWVLAQQVLRPGDWNVKAPNLEPGGWAFEYA NYFYPDTDDTAVALIVLSQFRNDAAWKDKGIEQAIEKGVNWLFGMQCKGGGWGAFDKDNDR QFLTKIPFCDFGEALDPPSVDVTAHIVEAFGKLKFSKDHPNIRRAIDYTKDEQEDDGAWFGRWG VNYIYGTGAVLLALEAIGEDMSAPYIGRACDWLVSRQNDDGGWGE
>seq_ID 256
SPVWDTLLTLLAIEDSGQSVKRAQEVEKAVDWVLSQQVLRPGDWKVRAPHLEPGGWAFEYAN YFFPDTDDTAVALIVLSQFRN DAAWKAKGIETAIEKGVNWLLGMQCKGGGWGAFDKDNDKTYL TKIPFCDFGEALDPPSVDVTAHIVEAFGKLGFSKDHPNIARAIEYLKSEQESDGXWFGRWGVNY VYGVGAVLPALEAIGEDMSAPYIGRACDWLVSKQNSDGGWGE
>seq_ID 258
SPVWDTVLTMLAIHDCGADKQYAPQMDKAIDWLLAN EVRHKGDWAVKLPDVEPGGWAFEYS NACYPDLDDTAVALIVLAPYRNDPKWQARDIEGAVERAVDWTLAMQCKNGGWGAFGKDNDK AILTKIPFCDFGEALDPPSVDVTAHVLEALAALGYDNSHPAVARAIRYLRDEQEPDGSWWGRW GVNYIYGTAAVLPALKAMGVDMNEPFVHKAADWIGSVQNEDGGWGE
>seq_ID 302
SPVWDTSLVLVAMQEAGVPVDHPALVKAAQWLLDREVRLKGDWRVKSPDLEPGGWAFEFLN DWYPDVDDSGFVMLALKDIKVRDKKQKSQAIKRGIAWCLGMQSANGGWGAFDKDNTKYLLNK IPFADLEALIDPPTADLTGRMLELMGTFNYPKSHVAWRALGFLKSVQEPEGPWWGRWGVNYI YGTWSVLGGLDAIGEDMSQPYIRKAVNWLKSKQNLDGGWGEVCETYEDRSLMGCGPSTPSQ TSWALLSLFSAGEINAKAVLRGIKYLVETQNQDGSWDEDAYTGTGFP
>seq_ID 271
SPVWDTAISVISLAXSGMERGHPALVRAAXWLMSKEIKTAGDWKVTNPAGPVGGWAFEFNNA FYPDIDDSAMVMMALRHVHLDEHTAHRREKACLRGLNWLLSMQSRTGGWAAFDKDNTKVIMT KIPFADHNAMIDPPWADITGRVLEFLGYIGYDQSYPAVARAARFLREEQEEDGSWFGRWGVNY IYGTWQVLRGLAAIDEDMSQPYIRRAAEWLRSVQPPDGGWGETCATYHDPSLKGKGPATPAQ TAWAVMGLMAAGIYDESVSRGIDYLVRTQRPDGTWDETEYTGTGFP
>seq_ID 299
SPVWDTALVLVAMQEAGVPVDHPALIKSAQWLLDLEVRRKGDWHVKSPDLEPGGWAFESLND WYPDVDDSGFVMLFIKDIKVRDKKLKDQAIKCGIAWCLGMQSENGGWGAFDKDNTKHLLNKIP FADLEALIDPPTADLTGRMLELMGNFNYPKSHQAAVKALDFLKVEQEPEGPWWGRWGVNYIY
GTWSVLCGLEAIGEDMSQPYIKKAVNWLKSKQNLDGGWGEVCDSYADRSLMGCGPSTASQT SWALLSLFAAGEVSSKAALRGVEYLLSTQKLDGTWDEDAFTGTGFP
>seq_ID 314
SPVWDTALAVRALAAAGVPPEHPAMVKASEWLLTQQIFKPGDWSIKCPDLPPGGWAFEFVNN WYPDVDDSSMVLVALKDGLADAAKHQAALQRGINWCLGMQSKNGGFASFDKDNTKEWLNSL PFGDLKALVDPPTEDITARILEMMGAFGHGLDHPVAARALAYLHQTQRPEGPWWGRWGVNYI YGTWSVLVALKRIGEDMSRPYVRRAVDWVKAHQNPDGGWGEFCESYRNPELMGKGPSTAS QTAWALLGLFAAGEVHAPEVTAGVDYLVKTQDSLGRWDEEQFTGTGFP
>seq_ID 251
SPVWDTVLTMLSVQDCDADENSENAPAIEKAIEWLLANEVRTGGDWQEKVKGVEPGGWAFEY KNASYPDTDDTAVAMMALAPYRTEEKWKKKGLPEALKRAAEWNIAMQCSNGGWGAFDKDND KTILCKIPFCDFGEALDPPSVDVTAHVLEGLAALDYPPEHPAIQRAVQFIKDEQEPDGSWWGR WGVN FIYGTAAAL PAL KAVG E D M RAPYID RAAKWIVDHQNEDGGWGE
>seq_ID 312
SPVWDTALAVRALAAAGVPPEHPAMVQASEWLLTQQIFKPGDWSVKCPDLPPGGWAFEFVN NWYPDVDDSSMVLVALKDGLADAAKHQAALQRGINWCLGMQSKNGGFASFDKDNTKEWLNA IPFGDLKALVDPPTEDITARILEMMGAFGHGLDHPVAVRAMAYLHETQRPEGPWWGRWGVNYI YGTWSVLVALKRIGEDMSRPYVRRAVDWVKAHQNLDGGWGECCESYRNPELMGRGPSTAS QTAWALLGLFASGEVHTPEVKAGVDYLVKTQNSLGRWDEEQFTGTGFP
>seq_ID 250
SPMWDTVLTTLAVQDAGVDQEPEFKPAMERTLEWLLKN EVRTGGDWQQKTRGVEPGGWAF EYANASYPDNDDTAVALIVLAPFRHDPKWQARGIQHVIDRAVNWMFAMQCDNGGWAAFDLDN DKAILTRIPFCDFGEALDPPSVDVTAHVLEALAALGYSREHPAVRRAIAFLKEDQEPDGSWFGR WGVNFIYGTAAALPALKAMDEDMTQDWITRAADWMRSRQNDDGGWGE
>seq_ID 260
SPVWDTVLTLLAIQDADKQDDMAAEVDRAIGWLLSKEVRTNGDWSVKLPDVEPGGWAFEHEN ARYPDTDDTAVAVMVLAPYRHHPKWRKRGLPEALDRAISWMRAMQCRNGGWGAFDKDNDN AFLCVIPFCDXGEALDPPSIDVTAHALEAFAAMGFGPEDTTVARALDYMSKEQEADGSWWGR WGVNYIYGTAAALPAYKAFGQDMRDPKLMKAADYLRAKQNADGGWGE
>seq_ID 259
SPVWDTVLTLLAMEDCEATEEHAAAIEQAIEWLLENEVRTPGDWQMKVPDADPGGWAFEYAN AAYPDVDDTAVAILVLARYRDDPKWQAKGLPQAIDRAVAWVLAMQCSNGGWAAFDKDNDKSI LCKIPFCDFGEALDPATVDVTAHVLEALAAVGYGPDHPAVRRGLDFLYAEQEADGSWWGRWG VNYVYGTGAALPAFKAIGADMRDPRMLKAADWILRCQNKDGGWGE
>seq_ID 261
SPVWDTVLTLLAIQDADKQEEMAGEIDKAIGWLLSKEVRTKGDWSVKLPRVEPGGWAFEHENA RYPDIDDTAVAIMVLAPYRDHPKWKKRGLPEALDRAIAWMRAMQCRGGGWGAFDKDNDKQIL CTIPFCDFGEALDPPSIDVTAYALEAFAAMGYGPDDKTVARALKYMSKEQEADGSWWGRWGV NYIYGTAAALPAYKALGQDMRDPGLMKAADYLRDKQNADGGWGE
>seq_ID 262
SPVWDTVLTLLAMQDADRTDKHKAAVDKAIQVWLDQEVRTPGDWCVQTPDVEPGGWAFEYE NARYPDVDDTAVAIMVLAPYQDDPKWRKRGLPDALARAIAWIRAMQCKNGGWGAFDRDNDN SMLTVIPFCDFGEALDPPSVDVTAHALEAFHMMGYGPEDPTVARALAYLDAEQEQDGSWWGR WGVNFIYGTSAALPALKAMGRDMRDPRYTKAADYLRAVQNDDGGWGE
>seq_ID 275
SPVWDTLLALLALQDCDRELTAEMSRALDWVLAN EVRYFIGDWTKKVKGVEPSGWAFERANL NYPDIDDTAVALIVLARLPRAWLDEPRIRATIDRVLGWTLAMQSSNGGWAAFDKDNDRPIITKIP FCDFGEALDPPSADVTAHVLEALGLLGFDRRHPAVERGLRFLRSEQEADGSWFGRWGVNYVY GTAAVLPGLAAIGEDMTQDYIRRANDWLIAHQNPDGGWGE
>seq_ID 280
SPVWDTLLSLVALQDCGKELTPARERALEWILGREIRTRGDWAKKVKNVEASGWAFERANLHY PDIDDTAVALIMLARLPRAWLDQPRIRAVIDRALGWTLAMQSSSGGWAAFDKDNDRLIITKIPFC DFGEALDPPSADVTAHVLEALGILGFDRQHAAVRHGLKFLRSEQEADGSWFGRWGVNHVYGT GAVLPALAAIGEDMAQDYVRRAADWLVAHQNADGGWGE
>seq_ID 277
SPVWDTLLALLAMQDCERELTPQMERALDWVLAN EVRYYGDWSKKVRGVEPSGWAFERANL NYPDIDDTWALIVLARLPRALLDQPRIRAVIDRALGWTLAMQSSNGGWAAFDKDNDHLIITKIPF CGFGEALDPPSADVTAHVLEALGLLGFDRHHPAVARGYQFLRKEQEADGSWFGRWGVNHIY GTAAVLPALAAIGEDMSQPYIRAAAEWIIAHQNADGGWGE
>seq_ID 300
SPVWDTALVLVAMQXAGVPVXH PALVKSAQWLLDLEVXXKGDWQVKSPELEPGGWAFXFLN DWYPDVDDSGFVMLSIKXIKVRDKKHKEQAIKRGISWCLGMQSDNGGWAAFDKNNTKYLLNKI PFAXLEALIDPPTAXLTGRMLELMGNFNYPKTHKAAVQALEFLXMEXEPXGPWWGRWGVNYIY GTWSVLCGLEAIGEDMAQPYIKKSINWLKSKQNMDGGWGEVCESYGDRSLMGCGPSTASQT S W AL LS LFAAG E VH S KAAT RGIE YL L ATQ KL D GTW D E D AYTGTG F P
>seq_ID 279
SPVWDTLLXLLAMQDCERESTPSMERALDWXXANEVRYYGDWSKKVRGVEPSGWAFXRANL NYPDIDDTDVALIVLARLPRALLDQSRVHAVIDRALGWTLXMQSSNGGWAAFDKDNNHLIITKIP FCDFXEALDPPSADVTAHVLEALGLLGFNRNHPAVERGYRFLRSEQETDGSWFGRWGVNHVY GTXAVLPALAAIGEDMTQPYIRSAAEWIIAHQNADGGWGE
>seq_ID 264
SPVWDTLLTLEALLDCNLSPKTFTGMQAAVDWILSKQIVTPGDWQIKVPGVSCGGWAFERANT FYPDMDDTAVAMIVLARIRRYYNDSSRIDRALACATDWILSMQCSNGGWAAFDLDNTNDLVTRI PFSDFGEMLDPPSVDVTAHVVEALGCLGRTRNDPAVARAVAYILDEQEPEGSWFGRWGVNHI YGTGAVLPALAAVGTDMSAGYITRAADWVATHQNADGGWGE
>seq_ID 19
GGWMFQASISPIWDTGLTVLALRSAGLPPDHPALIKAGEWLVSKQILKDGDWKVRRRKAKPGG WAFEFHCENYPDVDDTAMVVLALNGIQLPDEGKRRDALTRGFRWLREMQSSNGGWGAYDVD NTRQLTNRIPFCNFGEVIDPPSEDVTAHVLECFGSFGYDEAWKVIRKAVEYLKAQQRPDGSWF GRWGVNYVYGIGAVVPGLKAVGVDMREPWVQKSLDWLVEHQNEDGGWGE
>seq_ID 278
SPVWDTLLSLLAMQDCERGFTPSMERALDWVLAN EVRYYGDWSKKVRGVEPSGWAFERANL NYPDIDDTAVALIVLARLPRAQLDQPRIREVIDRALGWTLAMQSSNGGWAAFDKDNDHLIITKIP FCDFGEALDPPSADVAAHVLEALGLLGFERKHPAVERGLKFIRSEQEADGSWFGRWGVNHIY GTAAVLPALXAIGEDM
>seq_ID 315
SPVWDTALAVRALAAAGLPPDHPFMTQATSWLLTQQIFKPGDWCIKCPDLPPGGWAFXFHNN WYPDVDDSSMVLVALKDGLPDTARHQAALQRGINWCLGMQSKNGGFASFDKDNTKEWLNAL PFGDLKALVDPPTEDITARILEMMGAFGHGLDHPTADRALAFLRRTQHPEGPWWGRWGVNYL YGTWSVLVALKRIGXDMSRPYVQRAVNWIKSHQNPDGGWGEVCESYRHPELMGQGPSTASQ TAWALLGLLAAGEIQAAEVKAGVDYLVKTQNAQGRWDEKYFTGNWLP
>seq_ID 297
SPVWDTALVLQAMQEASIPLDHPALVKAAQWLLDREVRIKGDWKIKSPGLEPGGWAFEFQND WYPDVDDSAAVLIAIKDIQVKNNKAKQGAVRRGIDWCLGMQSKNGGWGAFDKDNTKHLLNKIP FADLEALIDPPTADLTGRMLELMGNFGYDKHHPQAVHALEFLKKEQEPEGPWFGRWGVNYIY GTWYVLIGLEAIGEDMNQPYIKKAANWIKSRQNIDGGWGE
>seq_ID 17
QASISPVWDTGLAVLALRAAGLPADHDRLVKAGEWLLDRQITVPGDWVVKRPNLNPGGFALQF DNVYYPDVDDTAVVIWALNTLRLPDERRRRDAMTKGFRWIVGMQSSNGGWGAYDVDNTSDL PNHIPFCDFGEVTDPPSEDVTAHVLECFGSFGYDDAWKVIQRAVAYLKREQKPDGSWFGRWG VNYIYGTGAVVSALKAVGIDMREPYIQKALDWVEQHQNPDG
>seq_ID 303
SPVWDTALVLVAMQEAGVPLDHPALVKAAQWLLDREVRIKGDWRIKSPDIEPGGWAFEFLND WYPDVDDSGFVMLAIKDVKVRDKKKKEQAIKRGINWCLGMQSANGGWGAFDKDNTKYLLNKI PFADLEALIDPPTADLTGRMLELLGTFNFPKDHHAIERALEFIQLEQEPEGPWWGRWGVNYIYG TWSVISGLEAIGEDMSQPYIRKTVNWLKSKQNMDGGWGE
>seq_ID 298
SPVWDTTLVLVAMQEAGVPVDHPALVKSAQWLLDLEVRRKGDWQVKSPDVEPGGWAFEFMN DWYPDVDDSGFVMLAIXNIRVRDKKHQEQAIKRGIAWCLEMQSENGGWGAFDKDNTKYLLNKI PFADLEALIDPPTADLTGRMLELMGNFDYSASYPAAVRALEFLKKEQEPEGPWWGRWGVNYIY GTWSVLCGLEAIGEDMSQPYIRKAVNWLKSKQNLDGGWGE
>seq_ID 301
SPVWDTALALVAMQEAGVPKDHPALVKAAQWLLDLEVRRKGDWQIKSPELEPGGWAFEFLND WYPDVDDSGFVIMAIRDIKAPDKKHKEQAIKRGIAWCLGMQSKNGGWGAFDKDNTKHLLNKIP FADLEALIDPPTADLTGRMLELMGSFDYPMDHPAAARALEFLKKEQEPEGPWWGRWGVNYIY GTWSVLCGLESIGEDMSQPYIKKAVNWLKSKQNMDGGWGE
>seq_ID 276
SPVWDTLLTLLAMEDCDRGLTPSMQRALEWVLAQEVRYAGDWSKKVKGVEPSGWAFERANL NYPDIDDTAVALIVLARLPRAWLDEPRIRATIDRVLGWTLAMQSSNGGWAAFDKDNDRPIITKIP FCDFGEALDPPSADVTAHVLEALGLPGFDRRHPAVERGYKFLRSEQEADGSWFGRWGVNHIY GTAAVLPALASIXEDM
>seq_ID 283
SP VWDTC _T5N ALVES GGDTSAPHVM RSVQWLL NQ El RN HG DW3VKAPKVG PSGWAFEFAN KVYP D VD D AAEVII AL AN VS N DSGTAP PD Al AFG1V R WI5G MQSSN GGWGSF DK l\ N TSF FVTRL PFFDFGEVIDPPSVDVTAHV1E ALA VAG WGEK AS KQIQ KAL DYMSEÜ EADGP WFGRWGl N VIV GTCAVLSAl Ea GYD MADaRWKAL K WiE ECQN ADGG WGE
>-5eq_ID 307
SPVWDTPWW E AL LE TGVPPGC PAL L RAGR'.VLM SKQITGV RGDWAM KS P KGKPGGW AF EFE NüYYPDVDDTiqVLTALCKLSIPWREKEKAYMQGIDWLlSWOk JDGGWGAh DRNO' RWIVNRl PF SOH KACLDPSSPDlTGRM VEF lM RRNYSTSH PSVK KALKYI RETQEDFGa w F AR WGl N Yl Y GTWCVLTAL AAM GlGHTDSR VAKAV AWLSS1YQRPDGGFS EAADTYH PH KPFESYSESVPSQS AYYALM GL VAGGAV H SP AAARAAC YLIN NRN LN NGWDE RJH YTGTG FF
>^eq_ D 267
SP VWDTAISVl AL AESG LH RG ■ 1P S LVQAT EWLV AN EIRRGGD WQ VKN PTAPISGWAF EF KN D F YPDY D DTAMVLLAL RH VH L YN DDVSOD REKSY LRGLNWM LS V1G D K K GG Vj AAF D RDN V KTIF F <IPF ADUNA MIDP PSVDITGRVLELLGYVG YDKS Y PCVTKAL EYlK KDQE ADGSW YGRWG^y N yr YGT WQVLHGL AAIG E DM QSEYVO K AVRWMKS VQ NP DGGWGF
=-seqJD 300
5PVW DTVLSITA _ AD AD L P RTM P AM R RAVAWV LGKQVLCEGDW R ^ N R RG EPGGWS r E “ N N NFYQDND DTAAVLIALHKARLP D E AKGE AMQRGL R Wl LS MQCD DGG WS AF D VN N N K F L L M I
PF AD LE S W LDPST CDLTGRT LE ALGS IGF PFTH Rl VQ H AV R FlRQ HQ EADGAWYG RWGV N Yl Y GTC H V L CGL LSVGE DM H Q PY VQ R AVQ WLIE HQN AOGGWGE
>^eq_ □ 202
M VYSYE M MVLLDY = E □ R P L P YEC KAALK KLWH RD DG£SYCQPC LSPVWCTAWSVM AL EQ A RSDAFiTE tai a r a y dvyltdrqyl d lr g d w en m a a p s tp p g g w a fq ye n p y ypd i d ds a w l a MLHARGKRrGQPGRYEMPVARCLOWlH3LQSRNGGFGAFDANCDRDFL n a ii’ FADhüAi LDP PTEDVSG RVLLALG HERPQ DATARE RCIQYLRDTQQP DGS W WGRWGTIM Yl YGTWSVLAGLG LAG VDR KL P M VRNGLQ WLRGKG NADGGWG E_N DSYAR P E LAQK F E DG5M AEQTA W AM LG GMAVGEGDADSVHRGAAYLI DAGNEDGFWMH P YH N APG F P Rl F F L KYH G
>^eq_ □ 306
SP V WDTPWTVM ALLE AGV PSN DPALLRSG R WLLAKQITDTKG DWAIKN KNTAPGG WS FEFE N KYFPDVDDTIEVLHCLHKLA1PWRE KE K PCRLGl DWLLS MQN □ DGG WG AFDKN Q K ROW N Rl P f s d h g a c l^ p85 p d it g r m if f la t q k f n s f v esvk r al kyi w ktq f d fgg w h ar w g i N YI^GT WCVL“ G L RAlGF N MT DRRVQKAl NWLE5IQW KDGGFGE SPASYEECRYIPWK E N S O T A W A LM AL VAGGG AGS AP AEN AATF Ll N YRNSNGV WDE E C YTGTGF P
=-seqJD 261
SPVWDTLLTLLAYQDCELEMNDSAGRALDWILSQENSYRGDWAHRNKKLEPSGWAFERANLH YPDIDDTSVALIVLARLPQAVRSRPDIKSAIDRALAWTLGMQCRNGGWAAFDRDNDKLIITMIPF CDFSEALDPPSADVTAHWEAMAHLGFDRSHKAVEKAYQYLLAEQEDDGSWFGRWGVNHIY GTAAVLPALAALGEDATVPHVKRAADWISAHQNTDGGWGE
>seq_ID 310
SPVWDTALAVRALAAAGLPPEHPAMVKASEWLLTQQIFKPGDWSVKCPDLPPGGWAFEFVNN WYPDVDDSSMVLVALKEGLADAAKHQAALQRGINWCLGMQSKNGGFASFDKDNTKEWLNAIP FGDLKALVDPPTEDITARILEMMGAFGHGLDHPVAVRGLAYLHQTQRPEGPWWGRWGVNYIY GTWSVLVALKRIGEDMSRPYVRRAVDWVKAHQNPDGGWGE
>seq_ID 311
SPVWDTALAVRALAAAGLPPEHPAMVKASEWLLTQQIFKPGDWSVKCPDLPPGGWAFEFVNN WYPDVDDSSMVLVALKDGLVDAAKHQAALQRGINWCLGMQSKNGGFASFDKDNTKEWLNAI PFGDLKALVDPPTEDITARILEMMGAFGHGLDHPVAVRALAYLHQTQRPEGPWWGRWGVNYI YGTWSVLVALKRIGEDMNRPYVRRAVDWVKAHQNLDGGWGE
>seq_ID 290
SPIWDTAKAVNALHESGLPSDHPQLKAAARWLVEKEVRKPGDWKMRVPHVDVGGWPFQFRN EFYPDVDDTAAVVMALGRVDERDVPGIKDSITRGINWVTQMQCSCGGWAAFDVDVKREFLTK VPYADHNAMLDPPCPDITGRCLEMYGRFPGVRKDADVQRVIEKGIEYLKKTQEPDGSWYGRW GVNYIYGTWQSLKGLAAVGEDPSQPYIQKAAHFLKTHQNSDGGWGE
>seq_ID 292
SPVWDTAKAVNALHESGLPSDHPQLKAAARWLVEKEVRKPGDWKMRVPHVDVGGWPFQFR NEFYPDVDDTAAVVMALGRVDERDVPGIKDSITRGINWVTQMQCSCGGWAAFDVDVKREFLT KVPYADHNAMLDPPCPDITGRCLEMYGRFPEVRKDANVQNVIAKGIEYLKKTQEPDGSWYGR WGVNYIYGTWQSLKGLAAVGEDPSQPYIQKAAHFLKTHQNSDGGWGE
>seq_ID 293
SPVWDTCLSLAALTEAGAQNDHPAVKQAVEWLLDHQIFVEGDWCAQASGLEPGGWAFQYEN DKYPDVDDTGMVLMSLLRAGVHDKEHKRKRVNQALNWVLGMQNPDGSWGAFDIENNYEYLN KIPFADHGALVDPGTADLTARCVELLAMLGYDATFPPVKRALEFLEHDQEEDGSWYGRWGVN YIYGTWSVLCALGAIGEDVAKPYVRKSVQWLQDTQNEDGGWGE
>seq_ID 313
SPIWDTALAVRALTAAGMPPEHPAMVKASEWLLTQQIFKPGDWSVKCPDLPPGGWAFEFVNN WYPDVDDSSMVLVALKEGLADTAKHQAALQRGINWCLGMQSKNGGFASFDKDNTKEWLNAIP FGDLKALVDPPTEDITARILEMMGAFGHGLDHPVAVRALAYLHETQRPGGPWWGRWGVNYLY GTWSVLVALKRIGEDMSRPYVRRAVDWVKDHQNLDGGWGE
>seq_ID 304
SPVWDTPWMVMALLEAGVPTDXPGLLRAGRWLISKQITGVHGDWAVKNRHALPGGWSFEFE NDYFPDVDDTIEVLHVIHRLAIPWEEKSECCRLGLDWLLSMQNDDGGWGAFDRNQTLVMVNRI PFSDHAACLDPSSPDIVGRVLEFLASRSFSREHPAVKRALDYIWREQSPFGGWWARWGIDYLY GTWCVLTGLRAIGWDMEDPRVRKAVAWLESVARPDGGYGESPESYRDHSYVEWKRSVPSQT AWALMGLVAGGVGHGKAARGAADYLLTSRNAQGGWDEMDYTGTGFP
>seq_ID 291
SPMWDTAKAVNALHESGLPSDHPQLKAAARWLVEKEVQKPGDWKMRVPYVDVGGWPFQFR NEFYPDVDDTAAVVMALGRVDERDVPGIKDSITRGINWVTQMQCSCGGWAAFDVDVKREFLT KVPYADHNAMLDPPCPDITGRCLEMYGRFPEVRKDVDVQRVIEKGIEYLKKTQEPDGSWYGR WGVNYIYGTWQSLKGLAAVGEDPSQPYIQKAAHFLKTHQNSDGGWGE
>seq_ID 318
SPVWDTGLALHALLESGMDPDDPAIAKAMHWLDEREITDVAGDWAEQRPGLAPGGWAFQYR NDHYPDVDDTAVVGMAMHRANPQARPETLERTRAWIEGMQSQNGGWGAFDADNTHYHLNHI PFADHGAMLDPPTADVSARCLGMLSQMGYDRDHPSIQRAIAYLKNDQEEDGSWFGRWGTNYI YGTWSVLSALNAAGEDMSQPYIRKAVDYLTNFQREDGGWGE
>seq_ID 294
SPVWDTCLSLAALTEAGAQNDHPAVKQAVEWLLDHQIFVEGDWCDQAPGLEPGGWAFQYEN NKYPDVDDTGMVLMSLLRAGVHDKEHKRKRVNQALNWVLGMQNPDGSWGAFDIENNYEYLN RIPFADHGALVDPGTADLTARCVELLAMLGYDATFPPVKRALEFLEQDQEEDGSWYGRWGVN YIYGTWSVLCALGATG E DVAKPYVRKSVQWLQDTQN EDGGWGE
>seq_ID 320
SPVWDTCLGLHALLEAGEPREAPSVKKAVDWLLEREITETYGDWVWRRPHLKPSGWAFQYW NNYYPDVDDTAWVMALDRVGDPRCRPAIERACEWIIGMQSTSGGWGSFDPENEFTYLNHIPF ADHGALLDPPTVDVTARCISMLAQVGYRHDHPAIRKSVXFILREQEKDGSWYGRWGTNYVYG TWSALSALNAVGEDMSSPVVRKGVAWLEAFQQPDGGWGE
>seq_ID 295
SPVWDTCLSLTAMTESGAHPEHPAVKQAVEWLLDQQIFVKGDWADQAKNLEPGGWAFQFEN DRCPDVDDTGMVLMALLRAGVQDKEHKIKRINQAVNWVLGMQNPDGSWGAFDIGNDHEYLN NIPFADHGALVDPGTADLTARCVELLAMLGYGPDFPPIQRAVAFLERDQEEFGAWYGRWGVN YIYGTWSVLSAIGILGEDYAKPYVRKAVEWLKEIQNDDGGWGE
>seq_ID 324
SPVWDTSLAAHALLEAGEPNDPEVIGLLDWLKDKQILTTVGDWSARRPNLRPGGWAFQYENP HYPDVDDTAWAMAMHRQGDPKYAEAIARACEWLAGMQSSSGGWGAFDPENEHFYLNSIPF ADHGALLDPPTVDVTARCVGCLAQVDAERFASEIQAGIDYIKREQEEDGSWFGRWGANYVYG TWSALVALNKAGEDMNTPYIRRAVDWLKARQRPDGGWGE
>seq_ID 296
SPVWDTCLSLNALTEADMPANDPRVRAAVQWLFDRQIFVRGDWSENAPELEPGGWAFQYEN DKYPDVDDTGMVLMSLLRANAHEHDAQRKRMNQALNWVLGMQNSDGSWGAFDIDNHYTYL NNIPFADHGALVDPGTADLTGRCIELFGMLGYDKNFTPARRGIEFLKRDQHPCGGWYGRWGV NYLYGTWSVLTALGAIGEARDAPYLRRAVEWLYSVQNDDGGWGE
>seq_ID 305
SPVWDTPWMVMALLEAGCPANDPXLIRAGRWLKAKXITEVRGDWAVKNRKALPGGWSFEFE N DYF PDVDDTIEVLSVIH RLSIPWN EKAKSCRLGLEWXLSMXN RDGGWGAFDREQXFKWN Rl PFSDHAACLDPSSPDITGRMVEFLASXNFSKGHVAVRRALDYIWKQQAXFGGWWARWGIDYL YGTWCVLTGLASLGFXMDDPRARKAADWLESIQHADGGFGESPESYREDSFVDWKRSVPSQ TAWALMGLVAAG RASG AAAQRAAAWL LD N RNTN GS WD EQ DYTGTG FP
>seq_ID 282
SPMWDTSLAAHALMEADGRGDPKDNPRLISAMDWLADKQILDHVGDWAVRRPDVRPGGWAF QYENPDYPDVDDTAVWMAMHRADPERYEMSIDRACEWLVGMQSKNGGWGAFEPENEHYY LNSIPFADHGALLDPPTVDVTARCVGALAQVDRDRYAAEIANGIRSIRREQEDDGSWFGRWGA NYVYGTWSALVALKGAGEDMQQPYIRRAVDWLKARQRSDGGWGE
>seq_ID 316
SPVWDTAWAVIGLCESGMERTHPAVRSAIRWLYSMQILRPGDWAVKNPLTEPGGWAFEFHND FYPDNDDTAAVLMGLLFSDLNDEENHRAFERGVRWLLSMQNNDSGWGAFERNVDNKIFDQIP
FNDQKNMLDPSTADVTGRWELLGRIGRRLGGSFSDEPYVRQAIEFLKNEQEPEGCWFGRWG VNYIYGTWSVLVALEAIGESMRAPYIRKAVNWVKKVQNPDGGWGE
>seq_ID 266
SPIWDTGIVLHSLVESGVSPDHEALLRSVSWLLAKEVTHEGDWKVKCPDAPVGGWYFEYANE FNPDCDDTAKVLMATSRFSSVDFPDAGRLRDARNRGLQWLLHMQNKDGGWAAFDKGCDNEL LTYIPFADHNAMIDPSTEDITGRVLETLAREGFDNTHPVVKRAIQYLHKTQDAEGPWYGRWGS NFIYGTWLVLQGLKAVGEDMTXPRYQRAANWLLNVQNXNGSWGE
>seq_ID 323
SPMWDTSLAAHAFLESGDREDPRLIRALDWLVDKQILDHVGDWAVRRPGLRPGGWAFQYEN PDYPDVDDTAWAMAMHRTDPERYAENIDRACEWLAGMQSKNGGWGAFDPENEHYYLNSIP FADHGALLDPPTVDVTARCIGCLAQVDAEAFADNIKRGIGFIKREQEPDGSWFGRWGANYIYGT WSALVALKGAGEDMSQPYIRKSVAWLKGRQGPDGGWGE
>seq_ID 274
SPVWDTILSMQALLDTKEVFQPSPTLKKAM EWLLEQQVRAWGDWKVYVSDARGGGWAFQRA NSFYPDVDDTIMVMMALRNVSPRGESKVVDEAIERALFWVLGMQCEDGGWAAFDRDNAKAFL TKVPFADHNAMIDPSTADLTSRTFEMFAMIAPEVFTIHHPVVRRGLEFLKKDQCKDGSWFGRW GVNYMYGTWQVLRGLRLIGEDMSKGYVRKGVEWFKSVQLEDGGWGE
>seq_ID 284
SPVWDTVAQLHALIASGLARRDEALRRAASWLLTRQSRTHGDWSGRNPAEPGGFYFEFRNEF YPDVDDTAMALMVLTQAEANVATDVQHAAIARALAWMLGMQNRDGGWAAFDRDNDKHFLTQ VPFADHNAMIDPSTADITGRVLGALSHVPSYGPDHPSVRRAIAFLQRDQEPDGSWYGRWGVN YLYGTGQVLRGLRAIGFDMQQPFVRRAARFLSAHQNDDGGWGE
>seq_ID 285
SPVWDTAITIIALAESGLPKNHPAFEQAATWLEKKEIRFKGDWAVRMPGVEPSGWAFEHENKY YPDTDDTMMVLMALRHVQSRNSAERCEQFDRALKWLLAFQCQDGGWAAFDKDVTASWLEH VPFADHNAILDPTCSDLTARVLELLGSISFDRQSAIVRRAVAMMRRTQETDGSWYGRWGVNYI YGTWQALRGLAAIGENMDQEWIRRGRDWLESCQNDDGGWGE
>seq_ID 308
SPVWDTAIAGYALGESGCAPQSALRRMADWLLTKEVRRKDDWSVKRPDVEPSGWYFEFANE FYPDTDDTAMVLLSLLHGRATNPAAQEACAKRAVNWLLAMQSKDGGWAAFDVDNDWKPLSY VPFADHNAMLDPSCPDITGRVLEALCKYGVSQEHPAVLRAIDYLIQTQEQDGSWHGRWGVNY VYGTFLALRGLKAAGVSDREAYVLRAGEWLDLIQNPDGGWGE
>seq_ID 288
SPVWDTAITAVSLAESGLEPDHPALQKSAEWLLDKEVRIQGDWAIKNRHGEASGWAFEFNNEF YPDVDDTLKVLLALRLIKTRDEETKREAMERALGWVMSFQCSDGGWAAFDKDVTQRWLEDVP FADHNAILDPTCSDITARCLELLGKMGCTSDHPAVRRALRMVRETQEPDGTWWGRWGVNYIY GTWQILRGLSALKIDMNQDWIVRAKEWLESCQNPDGGWGE
>seq_ID 287
SPVWDTAITSVALTSSGVKPDHPQIQKAADWLLDREVVMRGDWKVKN PYPHASGWAFEFNND FYPDADDTFKVLLALMKMKSSDPERQRKIMDRALDWARSFQCKDGGFAAFDKDVTKKWLEHV PFADHNAILDPSCSDITARGLECMGKLGWPRTDRVIRRAIRYLKKTQEEDGSWWGRWGVNYIY GTWQSLRGLEAIGEDMNQDWWRARNWLESCQNPDGGWGE
>seq_ID 289
SPIWDTAIVTMAIAESGQDPNDPRLQKAADWLLEREIGFRGDWRENCDFPEATGWAFEFNND WYPDVDDTFQVILGLKPLSASDSRRQEQTLDRAIRWCRAMQCREGGFAAFDKDINDAWLNEV PFADHNAILDPPCSDITGRALETLSLMGFDREDPVVRRARQYLMETQLEDGSWFGRWGVNYIY GTGHALRGLHAIGEDINGSAMQRARNWLENCQNDDGGWGE
>seq_ID 286
SPVWDTAINVISLAESGLLSDHPALQKAADWLVNKEVRFRGDWSVNNSYPQVSGWAFEYNNV YYPDTDDTAMVLMALRLIRPKDPQALNELFRRALDWQLSFQCRDGGWAAFDKNVTTPWLEDM PFADHNAILDPTCSDLTARTLELLGYTGFDPKAQSVRDALQYLIDTQDEDGSWYGRWGVNYIY GTWQVLRGLRAMGQDMTQDWILRGRDWLESCQNSDGGWGE
>seq_ID 270
SPVWDTALAMSALLEGDTAPDDEALQRGCRWLLGKEVRHRGDWQVNVGAEPGGWFFEYEN EFYPDCDDTAEVLAVLERVRLSDPEEDQRRRDALDRALAWQLGMQSTNGGWGAFDKDCDHR ILELVPFADHNAMIDPPTVDVTSRSIEAALAMGVPASDAAIRRAVRFLYSEQEADGSWYGRWG SNYLYGTWLALCALRSAGEDLTSPAVQRAVEWLLSVQQEDGGWGE
>seq_ID 322
SPVWDTGIAAHALGEAGHASAMQSTADWLLTKEVRRKGDWSVKRPDVEPSGWYFEFANEFY PDIDDTAQVLLGLAHAKASDPAKQKACMDRAVAWLLAMQGSDGGWAAFDVDNNWEFLSSVP FADHNAMLDPTCPDITGRVLEALAACGVPNSHPAVKRGVEFLRNSVEKDGSWYGRWGVNYIY GTYLALRGLRASGEDDREAHILRAGEWLRAIQNADGGWGE
>seq_ID 263
SPVWDTSLILNALLAGSEKTETDPKILKAGQWLLDREVREIGDWKIKNNRGPVGGWYFEYANE FYPDCDDTAEVITVLNQMQFSDPEKEKAKQVAQQRGLDWLLSMQNKDGGWPAFDKNCDKQS LTYMPFADHNAMIDPSYEDITGRTLEALASLGFSEDDPIVRRAVDFLKSKQLPDGTWYGRWGC NFLYGTWLAISGLYHAGEDLNEERYQSLLSWLEQCQNEDGGWGE
>seq_ID 268
SPVWDTCLILNSMLEHLEPDHPRVQKAAEWLLSKEVTEPGDWQVKCPEAPVGGWYFEYANEF YPDCDDTAEVLAALQRVQFTDADREAQKRGAIQRGLGWLLAMQNQDGGXAAFDRECTREALT
YVPFADHNAMIDPSNGDITGRVLKALDYAGYSPDDPIVRGGVDFLLANQEPDGTWYGRWGCN HLYGSWLVVWGLKHAGVNLQQTQFTQVMSWLESCQNADGGWGE
>seq_ID 265
SPVWDTTNAMTAVLDAGLPGNHPAVLRAARWLLSKEVRMPGDWRLWYKNGEPGGWFFEYN NEFYPDADDTAEALHCLCRVVFDCEDEMDRCRAAIKRGLNWQFACQNPDGGWPAFDKECDD EYLTFIPFADHNAMIDPSCCDITGRSLQALSKLGYTTNDVDVKRAIDYLLDAQEDDGTWYGRWG INYIYGTWLAVQGLRAIGVDLSEKRFQKVTKWLRKKQNPDGGWGE
>seq_ID 269
SPVWDTCLILNSLLEHLEPDHPRLQHAAEWLLSKEVTEPGDWQVKCPEAPIGGWYFEYANEFY PDCDDTAEVLAALQRVRFSDADREAQKHAAIERGLGWLLAMQNGDGGWAAFDRECTREALT YVPFADHNAMIDPSNGDITGRVLKALDYSGRSPQDPWQGGVHFLLANQEPDGTWYGRWGC NHLYGSWLAIWGLKHAGVDSQQSQFMRLLSWLESCQNPDGGWGE
>seq_ID 319
SPVWDTSLSAHALMEAGLEENDKRLEGLLDWLKDLQILDVKGDWVARRPDVRPGGWAFQYR NDHYPDVDDTAVVAMAMHRQGDEKYKEAIDRAAEWIVGMQSSSGGWGAFDPENEHFYLNSI PFADHGALLDPPTEDVTARCVGFLAQLDPDAYAEPIKRGVEFLKRTQQEDGSWWGRWGANF VYGTWSVLC AL N AAG EDPKSPYIQ KAVAWLKS RQREDGGWGE
>seq_ID 321
SPVWDTGIACQALQEVGGPAADAGVQRALDWLVERQLRDEPGDWRRDRPDLEGGGWAFQY NNPHYPDLDDTSMVAVWMQVADHGRYREEIRRAAKWWGMRSEGGGFASFEVDNTYYYLNH IPFADHGXLLDPPTXDVTARCIAVLAITDRAQHETVIREAIDFLFVDQEEDGSWFGRWGTDYIYG TWSVLSXLDVVGFDMRDARVRXSVEWLFXQQNPDGGWGE
>seq_ID 272
SPVWDTGLVALALQEVDKHNSQDALQRNLKQAYSWLLSKQLKDEPGDWRISKPTLTGGGWAF QFNNPHYPDVDDTAVVAFALAQAEHTELDESIHLATRWIEGMQSQNGGYGAFDVDNTFYYLNE IPFADHGALLDPPTADVSARCAMLMARVAKDHEEYLPALERTIQYLRSEQEADGSWFGRWGT NYVYGTWSVLLGLEQTNVPKTDPLFTKAAQWLKSVQRPDGGWGE
>seq_ID 273
SPVWDTGLVALALPEVDKHNSQDALQPNLKQAYSWLLSKQLKDQPGDWRISKPTLTGGGWAF QFNNPHYPDVHDTAVLAFALAQAEHTELDESIHLATRWIEGMQSQNGGYGAFDVDNTFYYLNE IPFADHGALLDPPTADVSARCAMLMARVAKGHEEYLPALERTIQYLRSEQEADGSWFGRWGT NYVYGTWSVLLGLEQTNVPKTDPLFTKAAQWLKSVQRPDGGWGE
>seq_ID 317
SPVWDTILGMIGLVDCGHDGKDPLLVTARDWIVKRQLLVNYGDWKVYNPNGPSGGWSFEYDN SWYPDVDDTAAIVIGFLKQDYEFRHSEVVKRACDWIASMQNQXGGWAAFDINNDKTFLNEIPF
SDMESLCDPSSPDWGRVLEAFGILNDPKYAEVCRRGIEYLRRTQESEGSWFGRWGVNYVYG TSNVLCSLKRQDVAXKDPMVTRALTWLKKVQNKDGGWGE
>seq_ID 215
MGRQTRNLTRREPAAEAEERGFRLLDAHRRADSSWVGELSSSALATAMSALALRLLGHPAES GPVAGGLAWLAATRNPDGGWGDAPGEPSNMNATSIAAAALARCAPRRYREEVAGGRRWVE EHGGFAALNDPRTTTLSGPGRTLWALAGLVPPERVRKLPTEMILLPRRIRRTVSTTFPAFLSLSL LHERFRPSPRWRRPLRRRAEREALAWLRRAQGPNGSYEESAFLTSLIAAALTAAGAEGGDIVR RALPFVLRSRRPDGSWPIDRDLENFDTTQAILAHHEAGRPLREAGRVREWLLDNQFRRPFFPT SSPPGGWAWAYPAGWPDTDDTACALRSLRLLGVPAGHPSIRLGLRWLYRMQNRDGSWPTFV RGSRMPFDHGCPYITSQVLSALALMGPEARRGAPLRRALAYLRRAQRPDGSLGSLWFRPHTR GTAAAVEAFSDLGLSGDPLVGRAARWLAEHQNPDGGWGDGHGAPSTAEETAWASAALLRLG GGE AARKGVRWLVE H QD PGG WKPAVIG LYYASLSYSDTFYALSYP LVALARH RRLS R
>seq_ID 191
MIKKILVLILLMWVTSKVDIERVQTVIRDAREICWNELTDNEWVYPTYLGTLFLSEYYFELKALGI QNSQFEESKFTQILLGSQLPDGSWVQVEDAYIQTGQLDATIFNYWYLKAVGIDIHTDTMKKAQE WIKANGGIEKAQTMTKFKLAMFGQYPWKKLFKIPLILFYKKFNPLYIKDITAQWVYPHMTALAYL QNQRIIFNVAVSISELYKNKAPKIKNHQKKGRPSFFINNLVQEMLKLRQPMGSFGGYTVSTLLSM LALNDYTGRTNKHKSEISDALKKGLDFVEFNYFNFRQAYHGSLDDGRWWDTILISWAMLESGE DKEKVRPIVENMLQKGVQPNGGIEYGYDFGYAPDADDTGLLLQVLSYYGTDYADAMDKGAEF VYSVQNTDGGFPAFDKGKMGKNPLYKYAFKIAGIADSAEIFDPSSPDVTAHILEGLISSDRSNYD VVVKSLKYFM DTQEN FGSWEGRWGINYIYAAGAVLPALKKM N NGWAKAVN WLVSKQN ADGG FGETTLSYRDPKKYNGIGVSTVTQTSWGLLGLLAVEDHYDVKEAIEKARDGEFKDISVVGTGHR GLLYLQYPSYARSFPVISLGRFLDQQR

Claims (13)

REIVINDICACIONES
1. Procedimiento para reacciones enzimáticas o biocatalíticas de compuestos de fórmula general IVa
Figure imgf000140_0001
en el que R1 tiene los siguientes significados:
(1) cuando "a" es un doble enlace:
R1 se selecciona entre:
oxo (=O),
o
CH-(CH2)n-Z,
en el que n es 0, 1 o 2 y
Z es Oh , CHO, C(O)-alquilo, tal como C(O)alquilo C1-C4 , en particular C(O)-CH3 o C(O)-CH2CH3; COOH, C(CH2)-CH=CH2; C(OH)(CH3)-CH=CH2 ; C(CH3)=CH-CH=CH2; o un resto de fórmula
C(CH3)=CH-CH2Y
en el que
Y es OH, CH2OH, COOH o CH2C(O)CH3 ; o
(2) cuando "a" es un enlace sencillo:
R1 se selecciona entre
CH3; CHO; CH2CH2OH; CH=CH2 ; CH2C(O)OH; CH2CHO o C3HaCH(CH3)CHO;
y en particular es
el resto CH-(CH2)n-Z
en el que
n = 0 y Z = CHO, o es COOH;
o es n = 1 y Z = OH; o
n = 2 y Z = C(O)CH3; COOH, C(CH2)-CH=CH2; C(CH3)=CH-CH=CH2; o es un resto de fórmula C(CH3)=CH-CH2Y
en la que Y es OH, CH2OH, COOH o CH2C(O)CH3;
y "a" presenta dado el caso las configuraciones E o Z;
o de fórmula IVb
Figure imgf000140_0002
en la que R1 tiene los significados indicados anteriormente; y en particular es CH2CHO;
o de fórmula IVc
Figure imgf000141_0001
donde
Ri tiene los significados indicados anteriormente y en particular es CH-CHO; y uno de los restos R7 y R8 es H y el otro es alquilo C1-C4, en donde en particular R7 es etilo y el doble enlace "a" y "d" presentan configuración Z;
en donde se hace reaccionar un compuesto de fórmula IVa en forma estereoisoméricamente pura o una mezcla de estereoisómeros del mismo usando una enzima con actividad ciclasa o un mutante de enzima de la misma con actividad ciclasa o en presencia de un microorganismo que expresa esta enzima o este mutante de enzima;
en donde la enzima comprende una secuencia de aminoácidos, seleccionada entre SEQ ID NO: 2 a 326 o una secuencia parcial de la misma y cataliza al menos la ciclación de un isómero de citronelal para dar al menos un isómero de isopulegol; y
en donde el mutante de enzima se selecciona entre mutantes de una enzima de tipo salvaje, que comprende una secuencia de aminoácidos, seleccionada entre SEQ ID NO: 2 a 326 o una secuencia parcial de la misma; el mutante cataliza al menos la ciclación de un isómero de citronelal para dar al menos un isómero de isopulegol, y
a) comprende una mutación en la posición F486 de SEQ ID NO: 2; o
b) comprende una mutación en una secuencia seleccionada entre SEQ ID NO: 3 a 326, en donde la posición mutada corresponde a la posición F486 de SEQ ID NO: 2.
2. El procedimiento según la reivindicación 1, en el que la enzima tiene una secuencia de polipéptidos, que o bien a) es SEQ ID NO:2, o
b) en la que hasta el 25 % de los restos de aminoácido están modificados en comparación con SEQ ID NO:2 mediante deleción, inserción, sustitución o una combinación de los mismos, y que presenta aún al menos el 50 % de la actividad enzimática de SEQ ID NO:2.
3. El procedimiento según una de las reivindicaciones anteriores, en el que se usa un mutante de enzima, en el que hasta el 25 % de los restos de aminoácido se han modificado en cada caso en comparación con la SEQ ID NO: 2 a 326 mediante deleción, inserción, sustitución, adición, inversión o una combinación de los mismos.
4. El procedimiento según una de las reivindicaciones anteriores, en el que se usa un mutante de enzima, en el que la mutación en la posición F486 de SEQ ID NO:2 o en una posición que corresponde a esta posición en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326, es una sustitución seleccionada entre F486N, F486Q, F486L, F486M, F486E, F486G, F486S, F486V, F486T, F486C, F486I y F486A.
5. El procedimiento según una de las reivindicaciones anteriores, en el que se usa un mutante de enzima, en el que existe adicionalmente al menos una mutación en una de las posiciones W374, D437, D440, F428, W555, Y561, Y702, Y705 de la SEQ ID NO: 2 o en al menos una posición correspondiente, seleccionada de estas posiciones, en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326.
6. El procedimiento según una de las reivindicaciones anteriores, en el que se usa un mutante de enzima, en el que no existe ninguna mutación en las posiciones D437 y/o D439 y/o D440 de SEQ ID NO: 2 o de la correspondiente posición en cada caso en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326.
7. El procedimiento según una de las reivindicaciones anteriores, en el que se usa un mutante de enzima, en el que no existe ninguna mutación en la posición Y702 de SEQ ID NO: 2 o en la correspondiente posición en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326, o en el caso de que exista una mutación, ésta es una sustitución de Y702F o una sustitución correspondiente.
8. El procedimiento según una de las reivindicaciones anteriores, en el que se usa un mutante de enzima, que opcionalmente además está mutado en al menos una de las posiciones P229, D439, D508, E601, G553, G556, N432, P436, P499, R224, S371, T376, T563, W414 o W624 de SEQ ID NO: 2 o en al menos una correspondiente posición, seleccionada de estas posiciones, en una de las secuencias de acuerdo con SEQ ID NO: 3 a 326.
9. El procedimiento según una de las reivindicaciones anteriores, en el que se usa un mutante de enzima, seleccionado entre
a) los mutantes sencillos
F486X con X = N, Q, L, M, E, G, S, V, T, C, I o A de acuerdo con SEQ ID NO: 2
Y702X con X = F, A, C o S de acuerdo con SEQ ID NO: 2
Y561X con X= A o S de acuerdo con SEQ ID NO: 2
b) los mutantes múltiples F486A / Y702A, F486A / Y561A o F486A / Y705A de acuerdo con SEQ ID NO: 2 c) los mutantes que corresponden a a) o b), derivados de una de la SEQ ID NO: 3 a 325.
10. El procedimiento según una de las reivindicaciones anteriores, en el que se usa un mutante de enzima, que muestra al menos el 50 % de la actividad citronelal-isopulegol-ciclasa de una enzima que comprende una secuencia de aminoácidos de acuerdo con SEQ ID NO: 2 de posición 1 a 725, de 2 a 725 o de 16 a 725, opcionalmente alargada en el extremo N-terminal mediante un resto de metionina.
11. El procedimiento según una de las reivindicaciones anteriores, en el que se realiza la mutación en una enzima, que comprende una secuencia de aminoácidos de acuerdo con SEQ ID NO: 2 de posición 1 a 725, de 2 a 725 o de 16 a 725, opcionalmente alargada en el extremo N-terminal mediante un resto de metionina.
12. El procedimiento según una de las reivindicaciones 1 a 11, en el que el compuesto de fórmula IVa, b o c se selecciona entre citronelal; citral; farnesol; homofarnesol; derivados de homofarnesol, tal como ácido homofarnesílico; geranilacetona, melonal; nonadienal; y trimetildecatetraeno.
13. Uso de una enzima o un mutante de enzima según una de las reivindicaciones 1 a 11, para la conversión de compuestos de fórmula general IVa, b o c de acuerdo con la definición en la reivindicación 1.
ES11785004T 2010-11-17 2011-11-17 Procedimiento para la ciclación biocatalítica de terpenos y mutantes de ciclasa que pueden usarse en el mismo Active ES2743161T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP10191454 2010-11-17
EP11170812 2011-06-21
EP11183176 2011-09-28
PCT/EP2011/070304 WO2012066059A2 (de) 2010-11-17 2011-11-17 Verfahren zur biokatalytischen cyclisierung von terpenen und darin einsetzbare cyclase-mutanten

Publications (1)

Publication Number Publication Date
ES2743161T3 true ES2743161T3 (es) 2020-02-18

Family

ID=44999775

Family Applications (2)

Application Number Title Priority Date Filing Date
ES11785004T Active ES2743161T3 (es) 2010-11-17 2011-11-17 Procedimiento para la ciclación biocatalítica de terpenos y mutantes de ciclasa que pueden usarse en el mismo
ES18203725T Active ES2925777T3 (es) 2010-11-17 2011-11-17 Procedimiento para la ciclación biocatalítica de terpenos y mutantes de ciclasa que pueden usarse en el mismo

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES18203725T Active ES2925777T3 (es) 2010-11-17 2011-11-17 Procedimiento para la ciclación biocatalítica de terpenos y mutantes de ciclasa que pueden usarse en el mismo

Country Status (4)

Country Link
EP (3) EP2640835B1 (es)
JP (4) JP6096667B2 (es)
ES (2) ES2743161T3 (es)
WO (1) WO2012066059A2 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2017004162A (es) * 2014-09-29 2017-07-19 Basf Se Metodo para ciclizar biocataliticamente el geranillinalool y productos de ciclizacion obtenidos de este modo.
GB201507170D0 (en) 2015-04-24 2015-06-10 Givaudan Sa Process
GB201507207D0 (en) 2015-04-24 2015-06-10 Givaudan Sa Enzymes and applications thereof
WO2017140909A1 (de) 2016-02-19 2017-08-24 Basf Se Enzymatische zyklisierung von homofarnesylsäure
GB201618090D0 (en) 2016-10-26 2016-12-07 Givaudan Sa Product
WO2018153727A2 (de) 2017-02-24 2018-08-30 Basf Se Verfahren zur herstellung von ungesättigten carbonsäuren durch carbonylierung von allylalkoholen und deren acylierungsprodukten
EP3585902B1 (en) 2017-02-24 2021-07-14 Basf Se Method for the preparation of (3e,7e)-homofarnesic acid or (3e,7e)-homofarnesic acid ester
GB201917694D0 (en) 2019-12-04 2020-01-15 Givaudan Sa Enzyme mediated process
GB201917688D0 (en) 2019-12-04 2020-01-15 Givaudan Sa SHC enzymes and enzyme variants
GB202005468D0 (en) 2020-04-15 2020-05-27 Givaudan Sa Enzyme-media process
WO2022051761A2 (en) 2020-09-02 2022-03-10 International Flavors & Fragrances, Inc. Squalene hopene cyclase derivatives and use thereof for producing ambrox
MX2023005851A (es) 2020-11-18 2023-08-16 Univ Stuttgart Monociclizacion enzimatica de monoterpenoides aciclicos.
WO2023175123A1 (en) 2022-03-17 2023-09-21 Givaudan Sa Shc enzymes and enzyme variants
WO2023245039A1 (en) 2022-06-15 2023-12-21 International Flavors & Fragrances Inc. Squalene hopene cyclase variants for producing sclareolide

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4428004A1 (de) 1994-08-08 1996-02-15 Basf Ag Verfahren zur Herstellung von Aminen
DE19931847A1 (de) 1999-07-09 2001-01-11 Basf Ag Immobilisierte Lipase
DE10019373A1 (de) 2000-04-18 2001-10-31 Pfreundt Gmbh & Co Kg Vorrichtung und Verfahren zur Steuerung eines Maschinenbauteils
DE10019377A1 (de) 2000-04-19 2001-10-25 Basf Ag Verfahren zur Immobilisierung von biologisch aktiven Stoffen auf Trägermaterialien und Verwendung der mit biologisch aktiven Stoffen geträgerten Materialien für chirale Synthesen
DE10019380A1 (de) 2000-04-19 2001-10-25 Basf Ag Verfahren zur Herstellung von kovalent gebundenen biologisch aktiven Stoffen an Polyurethanschaumstoffen sowie Verwendung der geträgerten Polyurethanschaumstoffe für chirale Synthesen
DE102004022686A1 (de) 2004-05-05 2005-11-24 Basf Ag Verfahren zur Herstellung optisch aktiver Alkohole
DE102004063003A1 (de) * 2004-12-22 2006-07-13 Basf Ag Verfahren zur Herstellung von Isopulegol
DE102005010804A1 (de) 2005-03-07 2006-09-14 Basf Ag Verfahren zur Herstellung optisch aktiver Alkohole
ES2545271T3 (es) 2007-07-23 2015-09-09 Basf Se Procedimiento para la preparación de mentol mediante hidrogenación de isopulegol
JP5236233B2 (ja) * 2007-09-04 2013-07-17 花王株式会社 (−)−アンブロキサンの製造方法
EP3404108A1 (de) 2009-06-05 2018-11-21 Basf Se Biokatalytische herstellung von ambroxan

Also Published As

Publication number Publication date
EP3470515A2 (de) 2019-04-17
JP7418272B2 (ja) 2024-01-19
JP2013545465A (ja) 2013-12-26
EP2640835B1 (de) 2019-05-22
JP2017074053A (ja) 2017-04-20
WO2012066059A3 (de) 2012-09-07
JP2020167996A (ja) 2020-10-15
EP4112727A2 (de) 2023-01-04
ES2925777T3 (es) 2022-10-19
EP3470515A3 (de) 2019-05-29
EP2640835A2 (de) 2013-09-25
JP2018148906A (ja) 2018-09-27
EP3470515B1 (de) 2022-07-13
JP7011529B2 (ja) 2022-01-26
EP4112727A3 (de) 2023-03-15
JP6096667B2 (ja) 2017-03-15
WO2012066059A2 (de) 2012-05-24

Similar Documents

Publication Publication Date Title
ES2743161T3 (es) Procedimiento para la ciclación biocatalítica de terpenos y mutantes de ciclasa que pueden usarse en el mismo
ES2718753T3 (es) Procedimiento para la ciclización biocatalítica de geranillinalool y los productos de ciclización obtenidos al respecto
US10190112B2 (en) Method for the biocatalytic cyclization of terpenes and cyclase mutants employable therein
ES2854724T3 (es) Ciclación enzimática de ácido homofarnesílico
EP2225382B1 (en) New malonate decarboxylases for industrial applications
JP6750630B2 (ja) リナロール組成物の製造方法
WO2021150636A1 (en) Genetically modified yeast for the production of cannabigerolic acid, cannabichromenic acid and related cannabinoids
US11345907B2 (en) Method for producing albicanol compounds
CN114630905A (zh) 萜烯化合物受控降解的生物催化方法
BR112021003271A2 (pt) método para produzir compostos de acetato de drimanila
Aragozzini et al. Biocatalytic, enantioselective preparations of (R)-and (S)-ethyl 4-chloro-3-hydroxybutanoate, a useful chiral synthon
BR112020024197A2 (pt) método para produção biocatalítica de compostos de terpeno
US20240117388A1 (en) Acyl activating enzymes for preparation of cannabinoids
BR112020010924A2 (pt) oxidação de sesquiterpenos catalisada por mono-oxigenase do citocromo p450
JP7331839B2 (ja) 13-ヒドロキシ-9(z)-オクタデセン酸の製造方法
CN109306343A (zh) 新型天冬氨酸脱氢酶及在天冬氨酸族氨基酸生产上的应用
US9714436B2 (en) Recombinant microorganism and method for producing a substance using the same
US20120015414A1 (en) Production of organic compounds
WO2021105236A2 (en) Novel polypeptides for producing albicanol and/or drimenol compounds
BR102015012461A2 (pt) microrganismo recombinante e método para produzir uma substância com uso do mesmo