ES2684548T3

ES2684548T3 - Proteína de fusión que comprende AXL y composición para tratar el cáncer que comprende la misma

Info

Publication number: ES2684548T3
Application number: ES13836076.3T
Authority: ES
Inventors: Jeong-Sun Seo; Young-Tae Kim; Young-Seok JU; Eun-Hee Kim; Jin-Hyoung KANG
Original assignee: Macrogen Inc
Current assignee: Macrogen Inc
Priority date: 2012-09-07
Filing date: 2013-09-06
Publication date: 2018-10-03
Anticipated expiration: 2033-09-06
Also published as: WO2014038890A1; EP2894169A4; KR20140033284A; EP2894169B1; KR102039311B1; EP2894169A1

Abstract

Una proteína de fusión AXL-MBIP, que comprende un fragmento de proteína tirosina cinasa receptora AXL (AXL) en la parte N terminal y un fragmento de proteína 1 inhibidora de unión a MAP3K12 (MBIP) en la parte C terminal, que se unen entre sí, en la que el fragmento de proteína AXL comprende una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1º exón al 244º nucleótido del exón 20 de NM_021913 o NM_001699, y el fragmento de proteína MBIP comprende una secuencia de aminoácidos codificada por una secuencia de nucleótidos del exón 4 al último exón de NM_016586 o NM_001144891.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Proteína de fusión que comprende AXL y composición para tratar el cáncer que comprende la misma [Campo técnico]

La presente invención se refiere a una proteína de fusión que comprende la tirosina cinasa receptora AXL (proteína AXL) y la proteína 1 inhibidora de unión a MAP3K12 (proteína MBIP) y una composición para su uso en el diagnóstico de un cáncer sólido, siendo el cáncer sólido un cáncer de pulmón.

[Técnica anterior]

El cáncer de pulmón es el cáncer más común en los seres humanos, así como la causa principal de muerte relacionada con el cáncer en todo el mundo. Aunque se está incrementando el diagnóstico en una fase precoz con la introducción del cribado con tomografía computarizada de dosis baja, el cáncer de pulmón todavía es una enfermedad mortífera que tiene muy mal pronóstico. El cáncer de pulmón se ha clasificado en base a hallazgos histopatológicos: el adenocarcinoma es el tipo más común, que se produce con frecuencia en fumadores ocasionales o no fumadores y en mujeres. En la última década, el adenocarcinoma ha estado en el centro de la investigación del cáncer de pulmón: nuestro conocimiento de esta enfermedad ha avanzado en cada aspecto, incluyendo patología, biología molecular, genética, radiología y terapéutica clínica.

En particular, los avances en el conocimiento de las principales alteraciones genéticas y las vías de señalización implicadas han sugerido una reclasificación del adenocarcinoma de pulmón en base a cambios genéticos subyacentes. Las células cancerosas con estas alteraciones genéticas, llamadas "mutaciones oncoiniciadoras", tienen ventajas de supervivencia y crecimiento sobre las células sin estos cambios. Las mutaciones oncoiniciadoras se producen en genes que codifican proteínas de señalización tales como cinasas; esto puede generar una señal de supervivencia constitutivamente activa, que inicia y mantiene la oncogénesis. Actualmente, son conocidos alrededor de diez mutaciones oncoiniciadoras en el adenocarcinoma de pulmón, y se ha informado de que varios fármacos dirigidos a estas alteraciones presentan resultados notables en ensayos recientes. Por ejemplo, gefitinib, un inhibidor de tirosina cinasa receptora del factor de crecimiento epidérmico (EGFR), proporcionó una tasa de respuesta de aproximadamente un 70 % y supervivencia sin progresión de 10 meses en pacientes con una mutación activadora de EGFR, demostrando superioridad sobre la biquimioterapia antineoplásica con derivado de platino en dos grandes ensayos clínicos recientes de fase III. Crizotinib, un inhibidor doble de cinasa del linfoma anaplásico (ALK) y tirosina cinasa MET, ha mostrado eficacia en un ensayo reciente de fase I de pacientes con cáncer de pulmón que albergan la fusión ALK. A partir de estos estudios fundamentales, las estrategias de tratamiento del adenocarcinoma de pulmón han pasado de un enfoque basado en histología a los tratamientos dirigidos a la mutación oncoiniciadora. Más recientemente, también se identificaron dos nuevos genes de fusión de transformación que contienen proteína tirosina cinasa (fusiones KIF58-RET y ROS1). No obstante, todavía no se han conocido los iniciadores moleculares de aproximadamente un 40 % de los adenocarcinomas de pulmón. De forma interesante, se ha demostrado que las frecuencias de algunas mutaciones oncoiniciadoras son significativamente diferentes entre grupos étnicos, y por lo tanto, son necesarios estudios genéticos exhaustivos para encontrar nuevas dianas quimiomodulables y tratamientos dirigidos de cáncer de pulmón.

El documento EP 1 897 940 describe una composición para detectar, determinar o predecir la presencia y/o metástasis de cáncer esofágico, composición que comprende uno o más anticuerpos frente a los marcadores para la metástasis de cáncer esofágico, es decir, polipéptidos codificados por los genes AXL, C6orf54, ZBTB11, TNFRSF14, NSUN5, SPEN, LTBP3, SYNGR1, ARL3, SLC13A1, RALGDS, ADD3, MAP3K12, AVPI1, GIMAP6, FLJ11259, C3AR1, PCGF2, PDE6D, PLCG2, GPR148, ARF6, NISCH, GLYAT, IGHM, FBXO38, SLC12A1, PGDS, CD48, IMPA2, HSPA6, EIF3S9, ZNF659, RAB6C, NOL1, DAB2, EBI3, PRSS3, GLB1, SAMSN1, AQP3, CAPZA2, B4GALT2, ARHGEF3, POGK, PRAF1, y HPGD.

[Divulgación]

[Problema técnico]

Se confirma que la presencia de una proteína de fusión, en la que se fusionan una parte de AXL (tirosina cinasa receptora AXL) y un determinado par de fusión, a saber, una parte de MBIP (proteína 1 inhibidora de unión a MAP3K12), se observa específicamente en un tumor sólido humano, por ejemplo un cáncer de pulmón, para completar la descripción.

En consecuencia, en un aspecto de la presente invención, se proporciona una proteína de fusión AXL-MBIP, que comprende un fragmento de proteína tirosina cinasa receptora AXL (AXL) en la parte N terminal y un fragmento de proteína 1 inhibidora de unión a MAP3K12 (MBIP) en la parte C terminal, que se unen entre sí, en la que el fragmento de proteína AXL comprende una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón al 244° nucleótido del exón 20 de NM_021913 o NM_001699, y el fragmento de proteína MBIP

5

10

15

20

25

30

35

40

45

50

55

comprende una secuencia de aminoácidos codificada por una secuencia de nucleótidos del exón 4 al último exón de NM_016586 o NM_001144891.

De acuerdo con otro aspecto de la presente invención, se proporciona una composición para diagnosticar un cáncer, que comprende al menos uno seleccionado del grupo que consiste en materiales que interactúan con la proteína de fusión de una cualquiera de las reivindicaciones 1 a 3, y un material que interactúa con un gen de fusión que codifica la proteína de fusión o ARNm correspondiente al gen de fusión, en la que el material que interactúa con la proteína de fusión se selecciona del grupo que consiste en anticuerpos y aptámeros, que se unen a la proteína de fusión, y en la que el material que interactúa con el gen de fusión que codifica la proteína de fusión o ARNm correspondiente al gen de fusión es al menos uno seleccionado del grupo que consiste en: pares de cebadores, en el que cada cebador de un par de cebadores se puede hibridar con 1) una secuencia de nucleótidos que consiste en de 20 a 100 nucleótidos consecutivos adyacente a uno o al otro extremo de un fragmento polinucleotídico o fragmento de ARNm correspondiente al fragmento polinucleotídico, en el que el fragmento polinucleotídico consiste en de 50 a 250 nucleótidos consecutivos dentro del gen de fusión, que comprende una región de fusión del gen de fusión, o 2) una secuencia de nucleótidos complementaria a la misma, y oligonucleótidos antisentido, sondas y aptámeros, que tiene de 5 a 100 pb de longitud y que se pueden hi bridar con una región de fusión del gen de fusión o región de ARNm correspondiente a la región de fusión, en el que la región de fusión comprende la secuencia de nucleótidos de SEQ ID NO: 46.

[Solución técnica]

Para desarrollar un tratamiento que individualice apropiadamente a un paciente con cáncer individual, es importante entender las características del cáncer. Como medio eficaz para entender una base genética general del cáncer, tal como expresión génica, mutación puntual, fusión génica, corte y empalme alternativo, y similares, se puede ilustrar una secuenciación de ARN paralela a gran escala.

Se llevó a cabo un estudio para un cáncer de pulmón que es uno de los cánceres sólidos representativos. En este estudio, se estudiaron ampliamente alteraciones genéticas en 200 muestras quirúrgicas recientes de adenocarcinoma de pulmón, y se analizaron 87 de estas por secuenciación de transcriptoma combinada con secuenciación del exoma completo (n=76) y secuenciación de transcriptoma (n=77) para muestras de tejidos normales adyacentes emparejados. La secuenciación de transcriptoma es un procedimiento adecuado para detectar mutaciones oncoiniciadoras en cánceres, ya que no solo se pueden examinar mutaciones puntuales somáticas sino también variantes de ARN anómalas, tales como genes de fusión y corte y empalme alternativo. Aunque los avances en tecnologías genómicas han permitido el análisis en todo el genoma de los cánceres, esta descripción es el primer estudio a gran escala de adenocarcinoma de pulmón usando secuenciación de ARN.

En particular, se llevaron a cabo análisis de transcriptoma de 87 muestras quirúrgicas de adenocarcinoma de pulmón en coreanos, combinados con secuenciación de exoma y ARN de 77 tejidos normales adyacentes. Los perfiles de expresión génica mostraron una perturbación muy fuerte en tejidos de cáncer tomados de fumadores. Además, se identificaron mutaciones somáticas en genes en transformación, tales como EGFR, KRAS, NRAS, BRAF, PIK3CA, METy CTNNB1. La frecuencia de las mutaciones de EGFR era extremadamente alta (~60 %) en los pacientes coreanos, lo que se puede explicar por un haplotipo dominante de EGFR en asiáticos. Los inventores identificaron 30 transcritos quiméricos incluyendo ALK, RET, ROS1 y otros genes de tirosina cinasa nuevos (FGFR2, PDGFRA y AXL), que es altamente probable que sean mutaciones oncoiniciadoras en cáncer de pulmón.

Como resultado del estudio, se confirma que un gen de fusión, en el que se fusionan dos genes situados en el mismo cromosoma o cromosomas diferentes, que es una mutación que se encuentra específicamente en tejido de cáncer en una muestra quirúrgica de un paciente que padece un cáncer (por ejemplo, carcinoma de pulmón no microcítico (NSCLC)), pero no se encuentra en tejido normal alrededor del mismo tejido con la muestra quirúrgica, y/o está presente una proteína de fusión generada por la expresión del gen de fusión.

Los genes de fusión presentes específicamente en tejido de cáncer (por ejemplo, tejido de cáncer de pulmón) se resumen en la tabla 1:

[Tabla 1]

: Gen donante Gen aceptor Cromosoma (donante;aceptor) Distancia (Mb)

1: CCDC6 ROS1 chr10(q21.2);chr6(q22.1) Intercromosómica

2: SCAF11 PDGFRA chr12(q12);chr4(q12) Intercromosómica

3: FGFR2 CIT chr10(q26.13);chr12(q24.2 3) Intercromosómica

4: AXL MBIP chr19(q13.2);chr14(q13.3) Intercromosómica

5: APLP2 TNFSF11 chr11(q24.3);chr13(q14.11) Intercromosómica

5

10

15

20

25

30

35

40

45

50

: Gen donante Gen aceptor Cromosoma (donante;aceptor) Distancia (Mb)

6: MAP4K 3 PRKCE chr2(p22.1 );chr2(p21) 6,215

7: BCAS3 MAP3K3 chr17(q23.2);chr17(q23.3) 2,23

8: KRAS CDH13 chr12(p12.1);chr16(q23.3) Intercromosómica

9: ZFYVE9 CGA chr1(p32.3);chr6(q14.3) Intercromosómica

10: ERBB2I P MAST4 chr5(q12.3);chr5(q12.3) 0,515

11: TPD52L 1 TRMT11 chr6(q22.31);chr6(q22.32) 0,723

12: TXNRD 1 GPR133 chr12(q23.3);chr12(q24.33) 26,694

Los genes de fusión mostrados en la tabla 1 están presentes específicamente en un tejido de cáncer, y por tanto, los genes de fusión y/o proteínas de fusión codificadas de ese modo pueden ser útiles como biomarcador para diagnosticar un cáncer o una diana para tratar el cáncer.

De acuerdo con un aspecto de la presente invención, se proporciona una proteína de fusión AXL-MBIP, que comprende un fragmento de tirosina cinasa receptora AXL (Axl) en la parte N terminal y un fragmento de proteína 1 inhibidora de unión a MAP3K12 (MBIP) en la parte C terminal, que se unen entre sí.

Se describen además en el presente documento proteínas de fusión seleccionadas del grupo que consiste en:

la proteína de fusión CCDC6-ROS1 que comprende la proteína CCDC6 o un fragmento de la misma y la proteína ROS1 o un fragmento, que se fusionan entre sí;

la proteína de fusión FGFR2-CIT que comprende la proteína FGFR2 o un fragmento de la misma y la proteína CIT o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión APLP2-TNFSF11 que comprende la proteína APLP2 o un fragmento de la misma y la proteína TNFSF11 o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión MAP4K3-PRKCE que comprende la proteína MAP4K3 o un fragmento de la misma y la proteína PRKCE o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión BCAS3-MAP3K3 que comprende la proteína BCAS3 o un fragmento de la misma y la proteína MAP3K3 o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión KRAS-CDH 13 que comprende la proteína KRAS o un fragmento de la misma y la proteína CDH13 o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión ZFYVE9-CGA que comprende la proteína ZFYVE9 o un fragmento de la misma y la proteína CGA o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión ERBB2IP-MAST4 que comprende la proteína ERBB2IP o un fragmento de la misma y la proteína MAST4 o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión TPD52L1-TRMT11 que comprende la proteína TPD52L1 o un fragmento de la misma y la proteína TRMT11 o un fragmento de la misma, que se fusionan entre sí; y

la proteína de fusión TXNRD1-GPR133 que comprende la proteína TXNRD1 o un fragmento de la misma y la proteína GPR133 o un fragmento de la misma, que se fusionan entre sí.

Se describe además en el presente documento un gen de fusión (o molécula polinucleotídica), que codifica la proteína de fusión.

La proteína de fusión y/o un gen de fusión que codifica la proteína de fusión pueden ser útiles como biomarcador de diagnóstico de cáncer.

En esta descripción, los puntos de ruptura (o región de fusión) de los fragmentos de proteínas como compañeros de fusión se describen en base a exones de genes que codifican los fragmentos de proteínas. En el gen que codifica el fragmento de proteína, el sitio escindido del gen no afectará al fragmento de proteína producido si el sitio escindido está dentro de un intrón entre (1) un exón que codifica la región más N terminal del fragmento de proteína (en el caso en el que el fragmento de proteína sea un compañero de fusión C terminal) o la región más C terminal del fragmento de proteína (en el caso en el que el fragmento de proteína sea un compañero de fusión N

5

10

15

20

25

30

35

40

terminal) y (2) un exón que se retira durante la producción del fragmento de proteína. Por lo tanto, el sitio de escisión de un gen para producir el fragmento de proteína puede ser cualquier sitio dentro del intrón entre los exones (1) y (2) como se describe anteriormente.

El gen CCDC6, que codifica la proteína que contiene el dominio de superhélice 6 (CCDC6), puede ser uno de un ser humano. El gen CCDC6 humano se sitúa en el cromosoma humano 10(q21.2), y la proteína CCDC6 codificada de este modo comprende 474 aminoácidos en total. La proteína CCDC6 o un fragmento de proteína CCDC6 puede ser un compañero de fusión N terminal de la proteína de fusión CCDC6-ROS1, que se sitúa en la parte N terminal de la proteína de fusión CCDC6-ROS1. Por ejemplo, el gen CCDC6 puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_005436, y la proteína CCDC6 puede comprender la secuencia de aminoácidos codificado por la secuencia de nucleótidos del gen CCDC6.

Un fragmento de proteína CCDC6 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) al 5° exón (exón 5) (en base a la posición en el cromosoma 10 (hebra (-)), correspondiente a la región nucleotídica de las posiciones 61572393-61572553) del gen CCDC6, y el último nucleótido (C) en el extremo 3' del exón 5 puede ser uno que no participe en la constitución de un codón. Por ejemplo, un gen que codifica un fragmento de proteína CCDC6 y un fragmento de proteína CCDC6 codificada por el gen se ejemplifican en las tablas 2 y 3:

[Tabla 2]

Gen que codifica un fragmento de proteína CCDC6

Gen CCDC6 (n.° de acceso): Región CDS codificante de proteína CCDC6 Región codificante de fragmento de proteína CCDC6: en base a exón Región codificante de fragmento de proteína CCDC6: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_005436: 233-1657 (1425pb) (SEQ ID NO: 1) Región de exón 1 a exón 5 233~1079 (846pb +1 nt(c); 847pb en total) (SEQ ID NO: 2) chr10:[61572 393 (extremo 3' del exón 5) gctgctcagtta cagc (SEQ ID NO: 3)

[Tabla 3]

Fragmento de proteína CCDC6

Tamaño normal (aa) de la proteína CCDC6: Región del fragmento de proteína CCDC6 Secuencia de aminoácidos de la región del punto de ruptura

474aa (SEQ ID NO: 4): aa 1~282+1nt(c) (secuencia de aminoácidos: SEq ID NO: 5) AAQLQ+1nt(c) (secuencia de aminoácidos: SEQ ID NO: 6)

El gen ROS1, que codifica la proteína tirosina cinasa receptora 1 (ROS1), puede ser uno de un ser humano. El gen ROS1 humano se sitúa en el cromosoma humano 6(q22.1), y la proteína ROS1 codificada de este modo comprende 2347 aminoácidos en total. La proteína ROS1 o un fragmento de proteína ROS1 puede ser un compañero de fusión C terminal de la proteína de fusión CCDC6-ROS1, que se sitúa en la parte C terminal de la proteína de fusión CCDC6-ROS1. Por ejemplo, el gen ROS1 puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_002944, y la proteína ROS1 puede comprender la secuencia de aminoácidos codificado por la secuencia de nucleótidos del gen ROS1.

Un fragmento de proteína ROS1 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 35° exón (exón 35) (en base a la posición en el cromosoma 6 (hebra (-)), correspondiente a la región nucleotídica de las posiciones 117642422-117642557) al último exón del gen ROS1. Los dos primeros nucleótidos (TC) comenzando desde el extremo 5' del exón 35 pueden no participar en la constitución de un codón, y cuando el fragmento de proteína ROS1 se fusiona con el fragmento de proteína CCDC6 como se describe anteriormente, los dos primeros nucleótidos (TC) del extremo 5' de la secuencia de nucleótidos que codifica el fragmento de proteína ROS1 se pueden unir al último nucleótido (C) en el extremo 3' de la secuencia de nucleótidos que codifica el fragmento de proteína CCDC6 para constituir un codón (CTC) que codifica de este modo un

5

10

15

20

25

30

35

40

45

aminoácido (L). Por ejemplo, un gen que codifica un fragmento de proteína ROS1 y un fragmento de proteína ROS1 codificada por el gen se ejemplifican en las tablas 4 y 5:

[Tabla 4]

Gen que codifica un fragmento de proteína ROS1

Gen ROS1 (n.° de acceso): Región CDS codificante de proteína ROS1 Región codificante de fragmento de proteína ROS1: en base a exón Región codificante de fragmento de proteína ROS1: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_002944: 200~7243 (7044pb) (SEQ ID NO: 7) Región del exón 35 al último exón 5841~7243 (2nt(tc) + 1401 pb; 1403pb en total) (SEQ ID NO: 8) chr6:1176425 57] (extremo 5' del exón 35) tctggcatagaa gatta (SEQ ID NO: 9)

[Tabla 5]

Fragmento de proteína ROS1

Tamaño normal (aa) de la proteína rOs1: Región del fragmento de proteína ROS1 Secuencia de aminoácidos de la región del punto de ruptura

2347aa (SEQ ID NO: 10): aa 1882~2347 2nt(tc)+ aa 1882~2347 (466aa) (secuencia de aminoácidos: SEQ ID NO: 11) 2nt(tc)+WHRRL (secuencia de aminoácidos: SEQ ID NO: 12)

Un gen de fusión (gen de fusión CCDC6-ROS1) que codifica una proteína de fusión CCDC6-ROS1 que comprende la proteína CCDC6 o un fragmento de la misma y la proteína ROS1 o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína CCDC6 o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína ROS1 o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión CCDC6-ROS1 puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al exón 5 de NM_005436 en la parte 5' terminal y una secuencia de nucleótidos del exón 35 al último exón de NM_002944 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión CCDC6-ROS1 puede ser un gen de fusión (SEQ ID NO: 13; región de fusión: SEQ ID NO: 14), en el que la secuencia de nucleótidos (SEQ ID NO: 2) de las posiciones 233 a 1079 de NM_005436 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 8) de las posiciones 5841 a 7243 de NM_002944 en la parte 3' terminal se unen entre sí.

Una proteína de fusión CCDC6-ROS1 puede comprender la proteína CCDC6 o un fragmento de la misma en la parte N terminal y la proteína ROS1 o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión CCDC6-ROS1 puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al exón 5 de NM_005436 en la parte 5' terminal y una secuencia de nucleótidos del exón 35 al último exón de NM_002944 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión CCDC6-ROS1 puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 15; región de fusión: SEQ ID NO: 16) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 13, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 15.

El gen FGFR2, que codifica la proteína receptora del factor de crecimiento fibroblástico 2 (FGFR2), puede ser uno de un ser humano. El gen FGFR2 humano se sitúa en el cromosoma humano 10(q26.13), y la proteína FGFR2 se puede codificar por el gen FGFR2. La proteína FGFR2 o un fragmento de la misma puede ser un compañero de fusión N terminal de la proteína de fusión FGFR2-CIT, que se sitúa en la parte N terminal de la proteína de fusión FGFR2-CIT. Por ejemplo, el gen FGFR2 puede comprender una secuencia de nucleótidos de n.° de acceso NM_001144914, NM_001144916, NM_001144915, NM_001144917, NM_001144918, NM_022970, NM_000141, NM_001144913 o NM_001144919, y la proteína FGFR2 puede comprender una secuencia de aminoácidos codificada por la secuencia de nucleótidos del FGFR2.

Un fragmento de proteína FGFR2 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) al 19° exón (exón 19) (en base a la posición en el cromosoma 10 (hebra (-)), correspondiente a la región nucleotídica de las posiciones 123243212-123243317) de la secuencia de nucleótidos

del gen FGFR2. Por ejemplo, los genes que codifican un fragmento de proteína FGFR2 y fragmentos de proteína FGFR2 codificada por el gen se ejemplifican en las tablas 6 y 7:

[Tabla 6]

Gen que codifica un fragmento de proteína FGFR2

Gen FGFR2 (n.° de acceso): Región CDS codificante de proteína FGFR2 Región codificante de fragmento de proteína FGFR2: en base a exón Región codificante de fragmento de proteína FGFR2: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM 001144 914: 151~2280 (2130pb) (SEQ ID NO: 17) 151~2115 (1965pb) (SEQ ID NO: 18)

NM 001144 916: 442~2562 (2121 pb) 442~2397 (1956pb)

NM 001144 915: 320~2443 (2124pb) 320~2353 (2034pb)

NM 001144 917: 648~2765 (2118pb) Región de 648~2600 (1953pb) chr10:[123 243212 ctcactctcacaaccaatgag

NM 001144 918: 648~2762 (2115pb) exón 1 a exón 19 648~2597 (1950pb) (extremo 3' del exón 19) (SEQ ID NO: 19)

NM_022970: 648~3116 (2469pb) 648~2951 (2304pb)

NM_000141: 648~3113 (2466pb) 648~2948 (2301 pb)

NM 001144 913: 151~2460 (1813pb) 151~2454 (2304pb)

NM 001144 919: 648~2690 (2043pb) 648~2648 (2001 pb)

[Tabla 7]

Fragmento de proteína FGFR2

Gen FGFR2 (n.° de acceso): Tamaño normal (aa) de la proteína FGFR2 Región del fragmento de proteína FGFR2 Secuencia de aminoácidos de la región del punto de ruptura

NM_001144914: 709aa (SEQ ID NO: 20) aa 1~655 (SEQ ID NO: 21)

NM_001144916: 706aa aa 1~652

NM_001144915: 707aa aa 1~678

NM_001144917: 705aa aa 1~651 LTLTTNE (SEQ ID NO: 22)

NM_001144918: 704aa aa 1~650

NM_022970: 822aa aa 1~768

NM_000141: 821aa aa 1~767

NM_001144913: 769aa aa 1~768

NM_001144919: 680aa aa 1~679

10 El gen CIT, que codifica la proteína CIT [cidro (interactuante p, serina/treonina cinasa 21)], puede ser uno de un ser humano. El gen CIT humano se sitúa en el cromosoma humano 12(q24.23), y la proteína CIT codificada de este modo comprende 2027 aminoácidos en total. La proteína CIT o un fragmento de proteína CIT puede ser un compañero de fusión C terminal de la proteína de fusión FGFR2-CIT, que se sitúa en la parte C terminal de la

5

10

15

20

25

30

35

40

45

proteína de fusión FGFR2-CIT. Por ejemplo, el gen CIT puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_007174, y la proteína CIT puede comprender la secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen CIT.

Un fragmento de proteína CIT puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 24° exón (exón 24) (en base a la posición en el cromosoma 12 (hebra (-)), correspondiente a la región nucleotídica de las posiciones 120180216-12018026) al último exón del gen CIT. Por ejemplo, un gen que codifica un fragmento de proteína CIT y un fragmento de proteína CIT codificada por el gen se ejemplifican en las tablas 8 y 9:

[Tabla 8]

Gen que codifica un fragmento de proteína CIT

Gen CIT (n.° de acceso): Región CDS codificante de proteína CIT Región codificante de fragmento de proteína CIT: en base a exón Región codificante de fragmento de proteína CIT: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_007174: 57-6140 (6084pb) (SEQ ID NO: 23) región del exón 24 al último exón 2835-6140 (3306pb) (SEQ ID NO: 24) chr12:12018 0269] (extremo 5' del exón 24) gcacatagagatg aaatccag(SEQID NO: 25)

[Tabla 9]

Fragmento de proteína CIT

Tamaño normal (aa) de la proteína CIT: Región del fragmento de proteína CIT Secuencia de aminoácidos de la región del punto de ruptura

2027aa (SEQ ID NO: 26): aa 927~2027 (1101 aa) (SEQ ID NO: 27) AHRDEIQ (SEQ ID NO: 28)

Un gen de fusión (gen de fusión FGFR2-CIT) que codifica una proteína de fusión FGFR2-CIT que comprende la proteína FGFR2 o un fragmento de la misma y la proteína CIT o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína FGFR2 o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína CIT o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión FGFR2-CIT puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al exón 19 de NM_001144914, NM_001144916, NM_001144915, NM_001144917, NM_001144918, NM_022970, NM_000141, NM_001144913 o NM_001144919 en la parte 5' terminal y una secuencia de nucleótidos del exón 24 al último exón de NM_007174 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión FGFR2-CIT puede ser un gen de fusión (SEQ ID NO: 29; región de fusión: SEQ ID NO: 30), en el que la secuencia de nucleótidos (SEQ ID NO: 18) de las posiciones 151 a 2115 de NM_001144914 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 24) de las posiciones 2835 a 6140 de NM_007174 en la parte 3' terminal se unen entre sí.

Una proteína de fusión FGFR2-CIT puede comprender la proteína FGFR2 o un fragmento de la misma en la parte N terminal y la proteína CIT o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión FGFR2-CIT puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al exón 19 de NM_001144914, NM_001144916, NM_001144915, NM_001144917, NM_001144918, NM_022970, NM_000141, NM_001144913, o NM_001144919 en la parte 5' terminal y una secuencia de nucleótidos del exón 24 al último exón de NM_007174 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión FGFR2-CIT puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 31; región de fusión: SEQ ID NO: 32) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 29, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 31.

De acuerdo con la presente invención, el gen AXL, que codifica la proteína tirosina cinasa receptora AXL (AXL), es uno de un ser humano. El gen AXL humano se sitúa en el cromosoma humano 19(q13.2), y la proteína AXL es una codificada por el gen AXL. De acuerdo con la presente invención, un fragmento de proteína AXL es un compañero de fusión N terminal de la proteína de fusión AXL-MBIP, que se sitúa en la parte N terminal de la

proteína de fusión AXL-MBIP. El gen AXL comprende la secuencia de nucleótidos de n.° de acceso de GenBank NM_021913 o NM_001699, y la proteína AXL comprende una secuencia de aminoácidos codificada por dicha secuencia de nucleótidos del gen AXL.

5 El fragmento de proteína AXL comprende una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) al 244° nucleótido del 20° exón (exón 20) (en base a la posición en el cromosoma 19 (hebra (+)) correspondiente a la región nucleotídica de las posiciones 41765458-41767670) del gen AXL, comprendiendo el gen AXL una secuencia de nucleótidos de n.° de acceso de GenBank NM_021913 o NM_001699. Los genes que codifican un fragmento de proteína AXL y fragmentos de proteína AXL codificada por 10 el gen se ejemplifican en las tablas 10 y 11:

[Tabla 10]

Gen que codifica un fragmento de proteína AXL

Gen AXL (n.° de acceso): Región CDS codificante de proteína AXL Región codificante de fragmento de proteína AXL: en base a exón Región codificante de fragmento de proteína AXL: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ru ptura

NM_021913: 191~2875 (2685pb) (SEQ ID NO: 33) Región del exón 1 al 244° nucleótido del exón 20 191~2767 (2577pb) (SEQ ID NO: 34) chr19:4176570 1] posición 3' del 244° nucleótido del exón 20 ctcactgcggct gag (SEQ ID NO: 35)

NM_001699: 191~2848 (2658pb) 191~2740 (2550pb)

15 [Tabla 11]

Fragmento de proteína AXL

Gen AXL (n.° de acceso): Tamaño normal (aa) de la proteína AXL Región del fragmento de proteína AXL Secuencia de aminoácidos de la región del punto de ruptura

NM_021913: 894aa (SEQ ID NO: 36) aa 1 ~859 (SEQ ID NO: 37) LTAAE (SEQ ID NO: 38)

NM_001699: 885aa aa 1~850

De acuerdo con la presente invención, el gen MBIP, que codifica la proteína 1 inhibidora de unión a MAP3K12 (MBIP), es uno de un ser humano. El gen MBIP humano se sitúa en el cromosoma humano 14(q 13.3), y la proteína 20 MBIP se codifica por el gen MBIP. De acuerdo con la presente invención, un fragmento de proteína MBIP es un compañero de fusión C terminal de la proteína de fusión AXL-MBIP, que se sitúa en la parte C terminal de la proteína de fusión AXL-MBIP. El gen MBIP comprende la secuencia de nucleótidos de n.° de acceso de GenBank NM_016586 o NM_001144891, y la proteína MBIP comprende la secuencia de aminoácidos codificada por dicha secuencia de nucleótidos del gen MBIP.

25

El fragmento de proteína MBIP comprende una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 4° exón (exón 4) (en base a la posición en el cromosoma 14 (hebra (-)), correspondiente a la región nucleotídica de las posiciones 36783718-36783814) al último exón del gen MBIP, comprendiendo el gen MBIP una secuencia de nucleótidos de n.° de acceso de GenBank NM_016586 o NM_001144891. Los genes que codifican 30 un fragmento de proteína MBIP y fragmentos de proteína MBIP codificada por el gen se ejemplifican en las tablas 12 y 13:

[Tabla 12]

Gen que codifica un fragmento de proteína MBIP

Gen MBIP (n.° de acceso): Región CDS codificante de proteína MBIP Región codificante de fragmento de proteína MBIP: en base a exón Región codificante de fragmento de proteína MBIP: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

5

10

15

20

25

30

35

40

45

Gen que codifica un fragmento de proteína MBIP

NM_016586: 89~1123 (1035pb) (SEQ ID NO: 39) Región del exón 4 al último exón 563~1123 (561 pb) (SEQ ID NO: 40) chr14:367838 14] (extremo 5' del exón 4) attgacagacgaa ta (SEQ ID NO: 41)

NM 001144 891: 89~1120 (1032pb) 563~1120(558pb)

[Tabla 13]

Fragmento de proteína MBIP

Gen MBIP (n.° de acceso): Tamaño normal (aa) de la proteína MBIP Región del fragmento de proteína MBIP Secuencia de aminoácidos de la región del punto de ruptura

NM_016586: 344aa (SEQ ID NO: 42) aa 159~344 (186aa) (SEQ ID NO: 43) IDRRI (SEQ ID NO: 44)

NM_00114489 1: 343aa aa 159~343 (185aa)

Se describe además en el presente documento un gen de fusión (gen de fusión AXL-MBIP) que codifica una proteína de fusión AXL-MBIP que comprende la proteína AXL o un fragmento de la misma y la proteína MBIP o un fragmento de la misma que se fusionan entre sí. Dicho gen de fusión puede comprender una molécula polinucleotídica que codifica la proteína AXL o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína MBIP o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión AXL-MBIP puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al 244° nucleótido del exón 20 de NM_021913 o NM_001699 en la parte 5' terminal y una secuencia de nucleótidos del exón 4 al último exón de NM_016586 o NM_001144891 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto de la presente invención, el gen de fusión AXL-MBIP puede ser un gen de fusión (SEQ ID NO: 45; región de fusión: SEQ ID NO: 46), en el que la secuencia de nucleótidos (SEQ ID NO: 34) de las posiciones 191 a 2767 de NM_021913 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 40) de las posiciones 563 a 1123 de NM_016586 en la parte 3' terminal se unen entre sí.

De acuerdo con la presente invención, una proteína de fusión AXL-MBIP comprende un fragmento de proteína AXL en la parte N terminal y un fragmento de proteína MBIP en la parte C terminal de la proteína de fusión, que se unen entre sí. La proteína de fusión AXL-MBIP comprende una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al 244° nucleótido del exón 20 de NM_021913 o NM_001699 en la parte 5' terminal y una secuencia de nucleótidos del exón 4 al último exón de NM_016586 o NM_001144891 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto de la presente invención, la proteína de fusión AXL-MBIP puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 47; región de fusión: SEQ ID NO: 48) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 45, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 47.

El gen APLP2, que codifica la proteína 2 similar al precursor de amiloide beta (A4) (proteína APLP2), puede ser uno de un ser humano. El gen APLP2 humano se sitúa en el cromosoma humano 11 (q24.3), y la proteína APLP2 se puede codificar por el gen APLP2. La proteína APLP2 o un fragmento de la misma puede ser un compañero de fusión N terminal de la proteína de fusión APLP2-TNFSF11, que se sitúa en la parte N terminal de la proteína de fusión APLP2-TNFSF11. Por ejemplo, el gen APLP2 puede comprender una secuencia de nucleótidos de n.° de acceso de GenBank NM_001642, NM_001142276, NM_001142278, NM_001142277, NR_024516, o NR_024515, y la proteína APLP2 puede comprender una secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen APLP2.

Un fragmento de proteína APLP2 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) al 12° exón (exón 12) (en base a la posición en el cromosoma 11 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 129999933-130000061) de la secuencia de nucleótidos del gen APLP2. Por ejemplo, los genes que codifican un fragmento de proteína APLP2 y fragmentos de proteína APLP2 codificada por el gen se ejemplifican en las tablas 14 y 15:

Gen que codifica un fragmento de proteína APLP2

Gen APLP2 (n.° de acceso): Región CDS codificante de proteína APLP2 Región codificante de fragmento de proteína APLP2: en base a exón Región codificante de fragmento de proteína APLP2: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_001642: 158~2449 (2292pb) (SEQ ID NO: 49) Región de exón 1 a exón 12 158~1741 (1584pb) (SEQ ID NO: 50) chr11:130000 061] (extremo 3' del exón 12) gcggcccagatg aaatcccag (SEQ ID NO: 51)

NM_001142276: 158~2413 (2256pb) 158~1741 (1584pb)

NM_001142278: 158~1726 (1569pb) 158~1054 (896pb)

NM_001142277: 158~2245 (2088pb) 158~1573 (1416pb)

[Tabla 15]

Fragmento de proteína APLP2

Gen APLP2 (n.° de acceso): Tamaño normal (aa) de la proteína APLP2 Región del fragmento de proteína APLP2 Secuencia de aminoácidos de la región del punto de ruptura

NM_001642: 763aa (SEQ ID NO: 52) aa 1~528 (SEQ ID NO: 53)

NM_001142276: 751aa aa 1~528 AAQMKSQ (SEQ ID NO: 54)

NM_001142278: 522aa aa 1~299

NM_001142277: 695aa aa 1~472

5 El gen TNFSF11, que codifica la proteína de la superfamilia del factor de necrosis tumoral (ligando), miembro 11 (TNFSF11), puede ser uno de un ser humano. El gen TNFSF11 humano se sitúa en el cromosoma humano 13(q14.11), y la proteína TNFSF11 se puede codificar por el gen TNFSF11. La proteína TNFSF11 o un fragmento de proteína TNFSF11 puede ser un compañero de fusión C terminal de la proteína de fusión APLP2-TNFSF11, que se sitúa en la parte C terminal de la proteína de fusión APLP2-TNFSF11. Por ejemplo, el gen TNFSF11 puede 10 comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_033012 o NM_003701, y la proteína TNFSF11 puede comprender la secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen TNFSF11.

Un fragmento de proteína TNFSF11 puede comprender una secuencia de aminoácidos codificada por una 15 secuencia de nucleótidos del 6° exón (exón 6) (en base a la posición en el cromosoma 13 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 43174888-43174933) al último exón del gen TNFSF11. Por ejemplo, los genes que codifican un fragmento de proteína TNFSF11 y fragmentos de proteína TNFSF11 codificada por el gen se ejemplifican en las tablas 16 y 17:

20 [Tabla 16]

Gen que codifica un fragmento de proteína TNFSF11

Gen TNFSF11 (n.° de acceso): Región CDS codificante de proteína TNFSF11 Región codificante de fragmento de proteína TNFSF11: en base a exón Región codificante de fragmento de proteína TNFSF11: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ru ptura

5

10

15

20

25

30

35

40

45

Gen que codifica un fragmento de proteína TNFSF11

NM_033012: 530~1264 (735pb) (SEQ ID NO: 55) Región del exón 6 al último exón 698~1264 (567pb) (SEQ ID NO: 56) chr13:[43174 888 (extremo 5' del exón 6) gaattacaaca tatcgttgga (SEQ ID NO: 57)

NM_003701: 150~1122 (973pb) 537~2198 (1662pb)

[Tabla 17]

Fragmento de proteína TNFSF11

Gen TNFSF11 (n.° de acceso): Tamaño normal (aa) de la proteína TNFSF11 Región del fragmento de proteína TNFSF11 Secuencia de aminoácidos de la región del punto de ruptura

NM_033012: 244aa (SEQ ID NO: 58) aa 57~244 (188aa) (SEQ ID NO: 59) ELQHIVG (SEQ ID NO: 60)

NM_003701: 315aa aa 130~315 (186aa)

Un gen de fusión (gen de fusión APLP2-TNFSF11) que codifica una proteína de fusión APLP2-TNFSF11 que comprende la proteína APLP2 o un fragmento de la misma y la proteína TNFSF11 o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína APLP2 o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína TNFSF11 o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión APLP2-TNFSF11 puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al exón 12 de NM_001642, NM_001142276, NM_001142278, NM_001142277, NR_024516, o NR_024515 en la parte 5' terminal y una secuencia de nucleótidos del exón 6 al último exón de NM_033012 o NM_003701 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión APLP2-TNFSF11 puede ser un gen de fusión (SEQ ID NO: 61; región de fusión: SEQ ID NO: 62), en el que la secuencia de nucleótidos (SEQ ID NO: 50) de las posiciones 158 a 1741 de NM_001642 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 56) de las posiciones 698 a 1264 de NM_033012 en la parte 3' terminal se unen entre sí.

Una proteína de fusión APLP2-TNFSF11 puede comprender la proteína APLP2 o un fragmento de la misma en la parte N terminal y la proteína TNFSF11 o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión APLP2-TNFSF11 puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al exón 12 de NM_001642, NM_001142276, NM_001142278, NM_001142277, NR_024516, o NR_024515 en la parte 5' terminal y una secuencia de nucleótidos del exón 6 al último exón de NM_033012 o NM_003701 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión APLP2-TNFSF11 puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 63; región de fusión: SEQ ID NO: 64) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 61, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 63.

El gen MAP4K3, que codifica la proteína cinasa cinasa cinasa cinasa activada por mitógenos 3 (MAP4K3), puede ser uno de un ser humano. El gen MAP4K3 humano se sitúa en el cromosoma humano 2(p22.1), y la proteína MAP4K3 codificada de este modo comprende 894 aminoácidos en total. La proteína MAP4K3 o un fragmento de proteína MAP4K3 puede ser un compañero de fusión N terminal de la proteína de fusión MAP4K3-PRKCE, que se sitúa en la parte N terminal de la proteína de fusión MAP4K3-PRKCE. Por ejemplo, el gen MAP4K3 puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_003618, y la proteína MAP4K3 puede comprender la secuencia de aminoácidos codificado por la secuencia de nucleótidos del gen MAP4K3.

Un fragmento de la proteína MAP4K3 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) (en base a las posiciones en el cromosoma 2 (hebra (-)), correspondiente a la región nucleotídica de las posiciones 39664033-39664219) del gen MAP4K3. Por ejemplo, un gen que codifica un fragmento de proteína MAP4K3 y el fragmento de proteína MAP4K3 codificada por el gen se ejemplifican en las tablas 18 y 19:

Gen que codifica un fragmento de proteína MAP4K3

Gen MAP4K3 (n.° de acceso): Región CDS codificante de proteína MAP4K3 Región codificante de fragmento de proteína MAP4K3: en base a exón Región codificante de fragmento de proteína MAP4K3: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_003618: 326~301 0 (2685pb) (SEQ ID NO: 65) región de exón 1 326~21 (96pb) (SEQ ID NO: 66) chr2:[396640 33 (extremo 3' del exón 1) acctacggcgacgtct acaag (SEQ ID NO: 67)

[Tabla 19]

Fragmento de proteína MAP4K3

Tamaño normal (aa) de la proteína MAP4K3: Región del fragmento de proteína MAP4K3 Secuencia de aminoácidos de la región del punto de ruptura

894aa (SEQ ID NO: 68): aa 1~32 (SEQ ID NO: 69) TYGDVYK (SEQ ID NO: 70)

5 El gen PRKCE, que codifica la proteína “proteína cinasa C, épsilon” (PRKCE), puede ser uno de un ser humano. El gen ROS1 humano se sitúa en el cromosoma humano 2(p21), y la proteína PRKCE codificada de este modo comprende 737 aminoácidos en total. La proteína PRKCE o un fragmento de proteína PRKCE puede ser un compañero de fusión C terminal de la proteína de fusión MAP4K3-PRKCE, que se sitúa en la parte C terminal de la proteína de fusión MAP4K3-PRKCE. Por ejemplo, el gen PRKCE puede comprender la secuencia de nucleótidos 10 de n.° de acceso de GenBank NM_005400, y la proteína PRKCE puede comprender la secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen PRKCE.

Un fragmento de proteína PRKCE puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 2° exón (exón 2) (en base a la posición en el cromosoma 2 (hebra (+)), correspondiente a la 15 región nucleotídica de las posiciones 46070139-46070202) al último exón del gen PRKCE. Por ejemplo, un gen que codifica un fragmento de proteína PRKCE y el fragmento de proteína PRKCE codificada por el gen se ejemplifican en las tablas 20 y 21:

20

[Tabla 20]

Gen que codifica un fragmento de proteína PRKCE

Gen PRKCE (n.° de acceso): Región CDS codificante de proteína PRKCE Región codificante de fragmento de proteína PRKCE: en base a exón Región codificante de fragmento de proteína PRKCE: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_005400: 198~2411 (2214pb) (SEQ ID NO: 71) Región del exón 2 al último exón 546~2411 (1866pb) (SEQ ID NO: 72 chr2: [46070139 (extremo 5' del exón 2) attgatctggag ccagaaggaa ga (SEQ ID NO: 73)

[Tabla 21]

Fragmento de proteína PRKCE

Tamaño normal (aa) de la proteína PRKCE: Región del fragmento de proteína PRKCE Secuencia de aminoácidos de la región del punto de ruptura

737aa (SEQ ID NO: 74): aa 117~737 (621aa) (SEQ ID NO: 75) IDLEPEGR (SEQ ID NO: 76)

5

10

15

20

25

30

35

40

45

Un gen de fusión (gen de fusión MAP4K3-PRKCE) que codifica una proteína de fusión MAP4K3-PRKCE que comprende la proteína MAP4K3 o un fragmento de la misma y la proteína PRKCE o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína MAP4K3 o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína PRKCE o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión MAP4K3-PRKCE puede comprender una secuencia de nucleótidos del 1° exón (exón 1) de NM_003618 en la partes 5' terminal y una secuencia de nucleótidos del exón 2 al último exón de NM_005400 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión MAP4K3-PRKCE puede ser un gen de fusión (SEQ ID NO: 77; región de fusión: SEQ ID NO: 78), en el que la secuencia de nucleótidos (SEQ ID NO: 66) de las posiciones 326 a 421 de NM_003618 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 72) de las posiciones 546 a 2411 de NM_005400 en la parte 3' terminal se unen entre sí.

Una proteína de fusión MAP4K3-PRKCE puede comprender la proteína MAP4K3 o un fragmento de la misma en la parte N terminal y la proteína PRKCE o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión MAP4K3-PRKCE puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) de NM_003618 en la parte 5' terminal y una secuencia de nucleótidos del exón 2 al último exón de NM_005400 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión MAP4K3-PRKCE puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 79; región de fusión: SEQ ID NO: 80) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 77, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 79.

El gen BCAS3, que codifica la proteína 3 de secuencia amplificada de carcinoma de mama (BCAS3), puede ser uno de un ser humano. El gen BCAS3 humano se sitúa en el cromosoma humano 17(q23.2), y la proteína BCAS3 puede ser una proteína codificada por el gen BCAS3. La proteína BCAS3 o un fragmento de proteína BCAS3 puede ser un compañero de fusión N terminal de la proteína de fusión BCAS3-MAP3K3, que se sitúa en la parte N terminal de la proteína de fusión BCAS3-MAP3K3. Por ejemplo, el gen BCAS3 puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_017679 o NM_001099432, y la proteína BCAS3 puede comprender la secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen BCAS3.

Un fragmento de proteína BCAS3 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) al 23° exón (exón 23) (en base a la posición en el cromosoma 17 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 59161828-59161925) del gen BCAS3, y el último nucleótido (G) en el extremo 3' del exón 23 puede ser uno que no participe en la constitución de un codón. Por ejemplo, los genes que codifican un fragmento de proteína BCAS3 y fragmentos de proteína BCAS3 codificada por el gen se ejemplifican en las tablas 22 y 23:

[Tabla 22]

Gen que codifica un fragmento de proteína BCAS3

Gen BCAS3 (n.° de acceso): Región CDS codificante de proteína BCAS3 Región codificante de fragmento de proteína BCAS3: en base a exón Región codificante de fragmento de proteína BCAS3: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_001099432: 110~2896 (2787pb) (SEQ ID NO: 81) Región de exón 1 a exón 23 110~2579 (2469pb +1 nt(c); 2470pb en total) (SEQ ID NO: 82) chr17:59161 925] (extremo 3' del exón 23) acagtgattgatgc tgcctcag (SEQ ID NO: 83)

NM_017679: 110~285 1 (2742pb) 110~2534 (2454pb)

5

10

15

20

25

30

Fragmento de proteína BCAS3

Gen BCAS3 (n.° de acceso): Tamaño normal (aa) de la proteína BCAS3 Región del fragmento de proteína BCAS3 Secuencia de aminoácidos de la región del punto de ruptura

NM_001099432: 928aa (SEQ ID NO: 84) aa 1~823+1nt(g) (secuencia de aminoácidos: SEQ ID NO: 85) TVIDAAS+1nt(g) (secuencia de aminoácidos: SEQ ID NO: 86)

NM_017679: 913aa aa 1~808

El gen MAP3K3, que codifica la proteína cinasa cinasa cinasa activada por mitógenos 3 (MAP3K3), puede ser uno de un ser humano. El gen MAP3K3 humano se sitúa en el cromosoma humano 17(q23.3), y la proteína MAP3K3 puede ser una codificada por el gen MAP3K3. La proteína MAP3K3 o un fragmento de proteína MAP3K3 puede ser un compañero de fusión C terminal de la proteína de fusión BCAS3-MAP3K3, que se sitúa en la parte C terminal de la proteína de fusión BCAS3-MAP3K3. Por ejemplo, el gen MAP3K3 puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_002401 o NM_203351, y la proteína MAP3K3 puede comprender la secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen MAP3K3.

Un fragmento de proteína MAP3K3 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 2° exón (exón 2) (en base a la posición en el cromosoma 17 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 61710041-61710162) al último exón del gen MAP3K3. Los dos primeros nucleótidos (AC) comenzando desde el extremo 5' del exón 35 pueden no participar en la constitución de un codón, y cuando el fragmento de proteína MAP3K3 se fusiona con el fragmento de proteína BCAS3 como se describe anteriormente, los dos primeros nucleótidos (AC) del extremo 5' de la secuencia de nucleótidos que codifica el fragmento de proteína MAP3K3 se pueden unir al último nucleótido (G) en el extremo 3' de la secuencia de nucleótidos que codifica el fragmento de proteína BCAS3 para constituir un codón (GAC) que codifica de este modo un aminoácido (D). Por ejemplo, los genes que codifican un fragmento de proteína MAP3K3 y fragmentos de proteína MAP3K3 codificada por el gen se ejemplifican en las tablas 24 y 25:

[Tabla 24]

Gen que codifica un fragmento de proteína MAP3K3

Gen MAP3K3 (n.° de acceso): Región CDS codificante de proteína MAP3K3 Región codificante de fragmento de proteína MAP3K3: en base a exón Región codificante de fragmento de proteína MAP3K3: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_002401: 320-2200 (1881 pb) (SEQ ID NO: 87) Región del exón 2 al último exón 324-2200 (2nt(ac) + 1875pb; 1877pb en total) (SEQ ID NO: 88) chr17: 61710041] (extremo 5' del exón 2) acgaacaggag gcattgaactca (SEQ ID NO: 89)

NM_203351: 320~2293 (1974pb) 324~2293 (1970pb)

[Tabla 25]

Fragmento de proteína MAP3K3

Gen MAP3K3 (n.° de acceso): Tamaño normal (aa) de la proteína MAP3K3 Región del fragmento de proteína MAP3K3 Secuencia de aminoácidos de la región del punto de ruptura

NM_002401: 626aa (SEQ ID NO: 90) aa 3~626 (2nt(ac)+ aa 3~626; 624aa en total) (secuencia de aminoácidos: SEq ID NO: 91) 2nt(ac)+EQEALNS (secuencia de aminoácidos: SEQ ID NO: 92)

NM_203351: 657aa aa 3~655

Un gen de fusión (gen de fusión BCAS3-MAP3K3) que codifica una proteína de fusión BCAS3-MAP3K3 que comprende la proteína BCAS3 o un fragmento de la misma y la proteína MAP3K3 o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína BCAS3 o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína MAP3K3 o

5

10

15

20

25

30

35

40

un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión BCAS3-MAP3K3 puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al exón 23 de NM_017679 o NM_001099432 en la parte 5' terminal y una secuencia de nucleótidos del exón 2 al último exón de NM_002401 o NM_203351 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión BCAS3-MAP3K3 puede ser un gen de fusión (SEQ ID NO: 93; región de fusión: SEQ ID NO: 94), en el que la secuencia de nucleótidos (SEQ ID NO: 82) de las posiciones 110 a 2579 de NM_001099432 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 88) de las posiciones 324 a 2200 de NM_002401 en la parte 3' terminal se unen entre sí.

Una proteína de fusión BCAS3-MAP3K3 puede comprender la proteína BCAS3 o un fragmento de la misma en la parte N terminal y la proteína MAP3K3 o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión BCAS3-MAP3K3 puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al exón 23 de NM_017679 o NM_001099432 en la parte 5' terminal y una secuencia de nucleótidos del exón 2 al último exón de NM_002401 o NM_203351 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión BCAS3-MAP3K3 puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 95; región de fusión: SEQ ID NO: 96) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 93, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 95.

El gen KRAS, que codifica la proteína homóloga de oncogén vírico de sarcoma de rata Kirsten Ki-ras2 (KRAS), puede ser uno de un ser humano. El gen KRAS humano se sitúa en el cromosoma humano 12(p12.1), y la proteína KRAS se puede codificar por el gen KRAS. La proteína KRAS o un fragmento de la misma puede ser un compañero de fusión N terminal de la proteína de fusión KRAS-CDH13, que se sitúa en la parte N terminal de la proteína de fusión KRAS-CDH13. Por ejemplo, el gen KRAS puede comprender una secuencia de nucleótidos de n.° de acceso de GenBank NM_004985 o nM_033360, y la proteína KRAs puede comprender una secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen KRAS.

Un fragmento de proteína KRAS puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) al 4° exón (exón 4) (en base a la posición en el cromosoma 12 (hebra (-)), correspondiente a la región nucleotídica de las posiciones 25378548-25378707) de la secuencia de nucleótidos del gen KRAS. Por ejemplo, los genes que codifican un fragmento de proteína KRAS y fragmentos de proteína KRAS codificada por el gen se ejemplifican en las tablas 26 y 27:

[Tabla 26]

Gen que codifica un fragmento de proteína KRAS

Gen KRAS (n.° de acceso): Región CDS codificante de proteína KRAS Región codificante de fragmento de proteína KRAS: en base a exón Región codificante de fragmento de proteína KRAS: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_004985: 182~748 (567pb) (SEQ ID NO: 97) Región de exón 1 a exón 4 182~631 (450pb) (SEQ ID NO: 98) chr12:[25378 548 (extremo 3' del exón 4) acatcagcaaagac aagacag (SEQ ID NO: 99)

NM_033360: 182~751 (570pb) 182~631 (450pb)

[Tabla 27]

Fragmento de proteína KRAS

Gen KRAS (n.° de acceso): Tamaño normal (aa) de la proteína KRAS Región del fragmento de proteína KRAS Secuencia de aminoácidos de la región del punto de ruptura

NM_004985: 188aa (SEQ ID NO: 100) aa 1~150 (SEQ ID NO: 101) TSAKTRQ (SEQ ID NO: 102)

NM_033360: 189aa aa 1~150

5

10

15

20

25

30

35

40

45

El gen CDH13, que codifica la proteína CDH13 (cadherina 13, H-cadherina), puede ser uno de un ser humano. El gen CDH13 humano se sitúa en el cromosoma humano 16(q23.3), y la proteína CDH13 puede ser una codificada por el gen CDH13. La proteína CDH13 o un fragmento de proteína CDH13 puede ser un compañero de fusión C terminal de la proteína de fusión KRAS-CDH13, que se sitúa en la parte C terminal de la proteína de fusión KRAS- CDH13. Por ejemplo, el gen CDH13 puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_001257, y la proteína CDH13 puede comprender la secuencia de aminoácidos codificado por la secuencia de nucleótidos del gen CDH13.

Un fragmento de proteína CDH13 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 5° exón (exón 5) (en base a la posición en el cromosoma 16 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 83158990-83159106) al último exón del gen CDH13. Por ejemplo, un gen que codifica un fragmento de proteína CDH13 y el fragmento de proteína CDH13 codificada por el gen se ejemplifican en las tablas 28 y 29:

[Tabla 28]

Gen que codifica un fragmento de proteína CDH13

Gen CDH13 (n.° de acceso): Región CDS codificante de proteína CDH13 Región codificante de fragmento de proteína CDH13: en base a exón Región codificante de fragmento de proteína CDH13: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_001257: 300~2441 (2142pb) (SEQ ID NO: 103) Región del exón 5 al último exón 666~2441 (1776pb) (SEQ ID NO: 104) chr16: [83158990 (extremo 5' del exón 5) gatatatttaaatttgc aaga (SEQ ID NO: 105)

[Tabla 29]

Fragmento de proteína CDH13

Gen CDH13 (n.° de acceso): Tamaño normal (aa) de la proteína CDH13 Región del fragmento de proteína CDH13 Secuencia de aminoácidos de la región del punto de ruptura

NM_001257: 713aa (SEQ ID NO: 106) aa 123~713 (591aa) (SEQ ID NO: 107) DIFKFAR (SEQ ID NO: 108)

Un gen de fusión (gen de fusión KRAS-CDH13) que codifica una proteína de fusión KRAS-CDH13 que comprende la proteína KRAS o un fragmento de la misma y la proteína CDH13 o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína KRAS o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína CDH13 o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión KRAS-CDH13 puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al exón 4 de NM_004985 o NM_033360 en la parte 5' terminal y una secuencia de nucleótidos del exón 5 al último exón de NM_001257 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión KRAS-CDH13 puede ser un gen de fusión (SEQ ID NO: 109; región de fusión: SEQ ID NO: 110), en el que la secuencia de nucleótidos (SEQ ID NO: 98) de las posiciones 182 a 631 de NM_004985 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 104) de las posiciones 666 a 2441 de NM_001257 en la parte 3' terminal se unen entre sí.

Una proteína de fusión KRAS-CDH13 puede comprender la proteína KRAS o un fragmento de la misma en la parte N terminal y la proteína CDH13 o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión KRAS-CDH13 puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al exón 4 de NM_004985 o NM_033360 en la parte 5' terminal y una secuencia de nucleótidos del exón 5 al último exón de NM_001257 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión KRAS-CDH13 puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 111; región de fusión: SEQ ID NO: 112) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 109, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 111.

El gen ZFYVE9, que codifica la proteína ZFYVE9 (dedos de cinc, que contiene el dominio FYVE 9), puede ser uno de un ser humano. El gen ZFYVE9 humano se sitúa en el cromosoma humano 1(p32.3), y la proteína ZFYVE9 puede ser una codificada por el gen ZFYVE9. La proteína ZFYVE9 o un fragmento de la misma puede ser un compañero de fusión N terminal de la proteína de fusión ZFYVE9-CGA, que se sitúa en la parte N terminal de la 5 proteína de fusión ZFYVE9-CGA. Por ejemplo, el gen ZFYVE9 puede comprender una secuencia de nucleótidos de n.° de acceso de GenBank NM_007324 o NM_004799, y la proteína ZFYVE9 puede comprender una secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen ZFYVE9.

Un fragmento de proteína ZFYVE9 puede comprender una secuencia de aminoácidos codificada por una secuencia 10 de nucleótidos del 1° exón (exón 1) al 16° exón (exón 16) (en base a la posición en el cromosoma 1 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 52803444-52803606) de la secuencia de nucleótidos del gen ZFYVE9, y los dos últimos nucleótidos (GG) en el extremo 3' del exón 16 pueden no participar en la constitución de un codón. Por ejemplo, los genes que codifican un fragmento de proteína ZFYVE9 y fragmentos de proteína ZFYVE9 codificada por el gen se ejemplifican en las tablas 30 y 31:

15

[Tabla 30]

Gen que codifica un fragmento de proteína ZFYVE9

Gen ZFYVE9 (n.° de acceso): Región CDS codificante de proteína ZFYVE9 Región codificante de fragmento de proteína ZFYVE9: en base a exón Región codificante de fragmento de proteína ZFYVE9: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_007324: 173~4273 (4101 pb) (SEQ ID NO: 113) Región de exón 1 a exón 16 173~3828 (3654pb +2nt(gg); 3656pb en total) (SEQ ID NO:114) chr1: 52803606] (extremo 3' del exón 16) gacaagaacgttagc aaggg (SEQ ID NO: 115)

NM_004799: 173~4450 (4278pb) 173~4005 (3833pb)

20

[Tabla 31]

Fragmento de proteína ZFYVE9

Gen ZFYVE9 (n.° de acceso): Tamaño normal (aa) de la proteína ZFYVE9 Región del fragmento de proteína ZFYVE9 Secuencia de aminoácidos de la región del punto de ruptura

NM_007324116): 1366aa (SEQ ID NO: 116) aa 1~1218+2nt(gg) (secuencia de aminoácidos: SEq ID NO: 117) DKNVSK+2nt(gg) (secuencia de aminoácidos: SEQ ID NO: 118)

NM_004799: 1425aa aa 1~1277+2nt

El gen CGA, que codifica la proteína CGA (hormonas de glucoproteínas, polipéptido alfa), puede ser uno de un ser humano. El gen CGA humano se sitúa en el cromosoma humano 6(q14.3), y la proteína CGA puede ser una codificada por el gen CGA. La proteína CGA o un fragmento de proteína CGA puede ser un compañero de fusión 25 C terminal de la proteína de fusión ZFYVE9-CGA, que se sitúa en la parte C terminal de la proteína de fusión ZFYVE9-CGA. Por ejemplo, el gen CGA puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_000735, y la proteína CGA puede comprender la secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen CGA.

30 Un fragmento de proteína CGA puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 2° exón (exón 2) (en base a la posición en el cromosoma 6 (hebra (-)), correspondiente a la región nucleotídica de las posiciones 87797831-87797925) al último exón del gen CGA. El primer nucleótido (G) del extremo 5' del exón 2 puede no participar en la constitución de un codón, y cuando el fragmento de proteína CGA se fusiona con el fragmento de proteína ZFYVE9 como se describe anteriormente, el primer nucleótido (G) 35 del extremo 5' de la secuencia de nucleótidos que codifica el fragmento de proteína CGA se puede unir a los dos últimos nucleótidos (GG) del extremo 3' de la secuencia de nucleótidos que codifica el fragmento de proteína ZFYVE9 para constituir un codón (GGG) que codifica de este modo un aminoácido (G). Por ejemplo, un gen que

5

10

15

20

25

30

35

40

45

codifica un fragmento de proteína CGA y el fragmento de proteína CGA codificada por el gen se ejemplifican en las tablas 32 y 33:

[Tabla 32]

Gen que codifica un fragmento de proteína CGA

Gen CGA (n.° de acceso): Región CDS codificante de proteína CGA Región codificante de fragmento de proteína CGA: en base a exón Región codificante de fragmento de proteína CGA: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_000735: 143~493 (351 pb) (SEQ ID NO: 119) Región del exón 2 al último exón 5UTR+143~449 (358pb) (SEQ ID NO: 120) Chr6:8779792 5](extremo 5' del exón 2) gagcgcc(121)

[Tabla 33]

Fragmento de proteína CGA

Tamaño normal (aa) de la proteína CGA: Región del fragmento de proteína CGA Secuencia de aminoácidos de la región del punto de ruptura

116aa (SEQ ID NO: 122): 116aa (SEQ ID NO: 123) El punto de ruptura se produce en UTR

Un gen de fusión (gen de fusión ZFYVE9-CGA) que codifica una proteína de fusión ZFYVE9-CGA que comprende la proteína ZFYVE9 o un fragmento de la misma y la proteína cGa o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína ZFYVE9 o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína CGA o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión ZFYVE9-CGA puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al exón 16 de NM_007324 o NM_004799 en la parte 5' terminal y una secuencia de nucleótidos del exón 2 incluyendo 5URT (7pb) al último exón de NM_000735 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión ZFYVE9-CGA puede ser un gen de fusión (SEQ ID NO: 124; región de fusión: SEQ ID NO: 125), en el que la secuencia de nucleótidos (SEQ ID NO: 114) de las posiciones 173 a 3828 de NM_007324 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 120) de las posiciones 136 a 493 de NM_000735 en la parte 3' terminal se unen entre sí.

Una proteína de fusión ZFYVE9-CGA puede comprender la proteína ZFYVE9 o un fragmento de la misma en la parte N terminal y la proteína CGA o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión ZFYVE9-CGA puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al exón 16 de NM_007324 o NM_004799 en la parte 5' terminal y una secuencia de nucleótidos del exón 2 including 5URT (7pb) al último exón de NM_000735 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión ZFYVE9-CGA puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 126; región de fusión: SEQ ID NO: 127) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 124, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 126.

El gen ERBB2IP, que codifica la proteína de interacción con erbb2 (proteína ERBB2IP), puede ser uno de un ser humano. El gen ERBB2IP humano se sitúa en el cromosoma humano 5(q12.3), y la proteína ERBB2IP se puede codificar por el gen ERBB2IP. La proteína ERBB2IP o un fragmento de la misma puede ser un compañero de fusión N terminal de la proteína de fusión ERBB2IP-MAST4, que se sitúa en la parte N terminal de la proteína de fusión ERBB2IP-MAST4. Por ejemplo, el gen ERBB2IP puede comprender una secuencia de nucleótidos de n.° de acceso de GenBank NM_018695 o NM_001006600, y la proteína ERBB2IP puede comprender una secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen ERBB2IP.

Un fragmento de proteína ERBB2IP puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) al 26° exón (exón 26) (en base a la posición en el cromosoma 5 (hebra (-)), correspondiente a la región nucleotídica de las posiciones 65372703-65372777) de la secuencia de nucleótidos del gen ERBB2IP. Por ejemplo, los genes que codifican un fragmento de proteína ERBB2IP y fragmentos de proteína ERBB2IP codificada por el gen se ejemplifican en las tablas 34 y 35:

[Tabla 34]

Gen que codifica un fragmento de proteína ERBB2IP

Gen ERBB2IP (n.° de acceso): Región CDS codificante de proteína ERBB2IP Región codificante de fragmento de proteína ERBB2IP: en base a exón Región codificante de fragmento de proteína ERBB2IP: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_001006600: 311~4219 (3909pb) (SEQ ID NO: 128) Región de exón 1 a exón 26 311~4111 (3801 pb) (SEQ ID NO: 129) chr5: 65372777] (extremo 3' del exón 26) cagccaggtgata aaattattcag (SEQ ID NO: 130)

NM_018695: 311~4426 (4116pb) 311~4318 (4008pb)

5

[Tabla 35]

Fragmento de proteína ERBB2IP

Gen ERBB2IP (n.° de acceso): Proteína ERBB2IP de tamaño normal (aa) Región del fragmento de proteína ERBB2IP Secuencia de aminoácidos de la región del punto de ruptura

NM_001006600: 1302aa (SEQ ID NO: 131) aa 1~1267 (SEQ ID NO: 132) QPGDKIIQ (SEQ ID NO: 133)

NM_018695: 1371aa aa 1~1336

El gen MAST4, que codifica la proteína del miembro de la familia de serina/treonina cinasa asociada a microtúbulos 4 (MAST4), puede ser uno de un ser humano. El gen MAST4 humano se sitúa en el cromosoma humano 5(q12.3), y la proteína MAST4 puede ser una codificada por el gen MAST4. La proteína MAST4 o un fragmento de proteína

10 MAST4 puede ser un compañero de fusión C terminal de la proteína de fusión ERBB2IP-MAST4, que se sitúa en la parte C terminal de la proteína de fusión ERBB2IP-MAST4. Por ejemplo, el gen MAST4 puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_001164664 o NM_015183, y la proteína MaSt4 puede comprender la secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen MAST4.

15 Un fragmento de proteína CIT puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 13° exón (exón 13) (en base a la posición en el cromosoma 5 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 66400194-66400403) al último exón del gen MAST4. Por ejemplo, los genes que codifican un fragmento de proteína CIT y fragmentos de proteína CIT codificada por el gen se ejemplifican en las tablas 36 y 37:

20

[Tabla 36]

Gen que codifica un fragmento de proteína MAST4

Gen MAST4 (n.° de acceso): Región CDS codificante de proteína MAST4 Región codificante de fragmento de proteína MAST4: en base a exón Región codificante de fragmento de proteína MAST4: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_001164664: 309~8180 (7872pb) (SEQ ID NO: 134) Región del exón 13 al último exón 1455~8180 (6726pb) (secuencia 135) chr5: [66400194 (extremo 5' del exón 13) gctacagctcag atggaagaacgt (SEQ ID NO: 136)

NM_015183: 69~7373pb (7065pb) 648~7373 (6726pb)

[Tabla 37]

5

10

15

20

25

30

35

40

Fragmento de proteína MAST4

Gen MAST4 (n.° de acceso): Tamaño normal (aa) de la proteína MAST4 Región del fragmento de proteína MAST4 Secuencia de aminoácidos de la región del punto de ruptura

NM_001164664: 2623aa (SEQ ID NO: 137) aa 383~2623 (2241aa) (SEQ ID NO: 138) ATAQMEER (SEQ ID NO: 139)

NM_015183: 2623aa aa 383~2623(2241aa)

Un gen de fusión (gen de fusión ERBB2IP-MAST4) que codifica una proteína de fusión ERBB2IP-MAST4 que comprende la proteína ERBB2IP o un fragmento de la misma y la proteína MAST4 o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína ERBB2IP o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína MAST4 o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión ERBB2IP-MAST4 puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al exón 26 de NM_018695 o NM_001006600 en la parte 5' terminal y una secuencia de nucleótidos del exón 13 al último exón de NM_001164664 o NM_015183 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión ERBB2IP-MAST4 puede ser un gen de fusión (SEQ ID NO: 140; región de fusión: SEQ ID NO: 141), en el que la secuencia de nucleótidos (SEQ ID NO: 129) de las posiciones 311 a 4111 de NM_001006600 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 135) de las posiciones 1455 a 8180 de NM_001164664 en la parte 3' terminal se unen entre sí.

Una proteína de fusión ERBB2IP-MAST4 puede comprender la proteína ERBB2IP o un fragmento de la misma en la parte N terminal y la proteína MAST4 o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión ERBB2IP-MAST4 puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al exón 26 de NM_018695 o NM_001006600 en la parte 5' terminal y una secuencia de nucleótidos del exón 13 al último exón de NM_001164664 o NM_015183 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión ERBB2IP-MAST4 puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 142; región de fusión: SEQ ID NO: 143) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 140, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 142.

El gen TPD52L1, que codifica la proteína similar a la proteína tumoral D52 1 (TPD52L1), puede ser uno de un ser humano. El gen TPD52L1 humano se sitúa en el cromosoma humano 6(q22.31), y la proteína TPD52L1 puede ser una codificada por el gen TPD52L1. La proteína TPD52L1 o un fragmento de proteína TPD52L1 puede ser un compañero de fusión N terminal de la proteína de fusión TPD52L1-TRMT11, que se sitúa en la parte N terminal de la proteína de fusión TPD52L1-TRMT11. Por ejemplo, el gen TPD52L1 puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_003287, NM_001003396, NM_001003397, o NM_001003395, y la proteína TPD52L1 puede comprender la secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen TPD52L1.

Un fragmento de proteína TPD52L1 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) al 5° exón (exón 5) (en base a la posición en el cromosoma 6 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 125569428-125569529) del gen TPD52L, y los dos últimos nucleótidos (AG) en el extremo 3' del exón 5 pueden no participar en la constitución de un codón. Por ejemplo, los genes que codifican un fragmento de proteína TPD52L1 y fragmentos de proteína TPD52L1 codificada por el gen se ejemplifican en las tablas 38 y 39:

[Tabla 38]

Gen que codifica un fragmento de proteína TPD52L1

Gen TPD52L1 (n.° de acceso): Región CDS codificante de proteína TPD52L1 Región codificante de fragmento de proteína TPD52L1: en base a exón Región codificante de fragmento de proteína TPD52L1: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_001003395: 328~855 (528pb) (SEQ ID NO: 144) Región de exón 1 a exón 5 328~626 (297pb +2nt(c); 299pb en total) chr6: 125569529] (extremo 3' del exón 5)

5

10

15

20

25

Gen que codifica un fragmento de proteína TPD52L1



: (SEQ ID NO: 145) tcagcaagaagt tcggagacatga g (SEQ ID NO: 146)

NM_001003396: 220~654 (435pb) 220~605 (386pb)

NM_001003397: 220~615 (396pb) 220~605 (386pb)

NM_003287: 220~834 (615pb) 220~605 (386pb)

[Tabla 39]

Fragmento de proteína TPD52L1

Gen TPD52L1 (n.° de acceso): Tamaño normal (aa) de la proteína TPD52L1 Región del fragmento de proteína TPD52L1 Secuencia de aminoácidos de la región del punto de ruptura

NM_001003395: 175aa (SEQ ID NO: 147) aa 1~99+2nt(ag) (secuencia de aminoácidos: SEQ ID NO: 148) SKKFGDM+2nt(ag) (secuencia de aminoácidos: SeQ ID NO: 149)

NM_001003396: 144aa aa 1~128

NM_001003397: 131aa aa 1~128

NM_003287: 204aa aa 1~128

El gen TRMT11, que codifica la proteína homóloga de la ARNt metiltransferasa 11 (TRMT11), puede ser uno de un ser humano. El gen TRMT11 humano se sitúa en el cromosoma humano 6(q22.32), y la proteína TRMT11 puede ser una codificada de este modo por el gen TRMT11. La proteína TRMT11 o un fragmento de proteína TRMT11 puede ser un compañero de fusión C terminal de la proteína de fusión TPD52L1-TRMT11, que se sitúa en la parte C terminal de la proteína de fusión TPD52L1 -TRMT 11. Por ejemplo, el gen TRMT 11 puede comprender la secuencia de nucleótidos de n.° de acceso de GenBank NM_001031712, y la proteína TRMT11 puede comprender la secuencia de aminoácidos codificado por la secuencia de nucleótidos del gen TRMT 11.

Un fragmento de proteína TRMT11 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 12° exón (exón 12) (en base a la posición en el cromosoma 6 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 126342306-126342426) al último exón del gen TRMT11. El primer nucleótido (A) en el extremo 5' del exón 12 puede no participar en la constitución de un codón, y cuando el fragmento de proteína TRMT11 se fusiona con el fragmento de proteína TPD52L1 como se describe anteriormente, el primer nucleótido (A) del extremo 5' de la secuencia de nucleótidos que codifica el fragmento de proteína TRMT11 se puede unir al último nucleótido (AG) en el extremo 3' de la secuencia de nucleótidos que codifica el fragmento de proteína TPD52L1 para constituir un codón (AGA) que codifica de este modo un aminoácido (R). Por ejemplo, un gen que codifica un fragmento de proteína TRMT11 y un fragmento de proteína TRMT11 codificada por el gen se ejemplifican en las tablas 40 y 41:

[Tabla 40]

Gen que codifica un fragmento de proteína TRMT11

Gen TRMT11 (n.° de acceso): Región CDS codificante de proteína TRMT11 Región codificante de fragmento de proteína TRMT11: en base a exón Región codificante de fragmento de proteína TRMT11: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

NM_001031712: 122~1513 (1392pb) (SEQ ID NO: 150) Región del exón 12 al último exón 1261 ~1513 (1 nt(a) +252pb; 1877pb en total) (SEQ ID NO: 151) chr6: [126342306 (extremo 5' del exón 12) atacactgaagaga tggtgcct (SEQ ID NO: 152)

5

10

15

20

25

30

35

40

45

[Tabla 41]

Fragmento de proteína TRMT11

Gen TRMT11 (n.° de acceso): Tamaño normal (aa) de la proteína TRMT11 Región del fragmento de proteína TRMT11 Secuencia de aminoácidos de la región del punto de ruptura

NM_001031712: 463aa (SEQ ID NO: 153) 1nt(a)+ aa 381~463 (83aa en total) (secuencia de aminoácidos: SEQ ID NO: 154) 1 nt(a)+ YTEEMVP (secuencia de aminoácidos: SEQ ID NO: 155)

Un gen de fusión (gen de fusión TPD52L1-TRMT11) que codifica una proteína de fusión TPD52L1-TRMT11 que comprende la proteína TPD52L1 o un fragmento de la misma y la proteína TRMT11 o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína TPD52L1 o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína TRMT11 o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión TPD52L1-TRMT11 puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al exón 5 de NM_003287, NM_001003396, NM_001003397, o NM_001003395 en la parte 5' terminal y una secuencia de nucleótidos del exón 12 al último exón de NM_001031712 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión TPD52L1-TRMT11 puede ser un gen de fusión (SEQ ID NO: 156; región de fusión: SEQ ID NO: 157), en el que la secuencia de nucleótidos (SEQ ID NO: 145) de las posiciones 328 a 626 de NM_001003395 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 151) de las posiciones 1261 a 1513 de NM_001031712 en la parte 3' terminal se unen entre sí.

Una proteína de fusión TPD52L1-TRMT11 puede comprender la proteína TPD52L1 o un fragmento de la misma en la parte N terminal y la proteína TRMT11 o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión TPD52L1-TRMT11 puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al exón 5 de NM_003287, NM_001003396, NM_001003397, o NM_001003395 en la parte 5' terminal y una secuencia de nucleótidos del exón 12 al último exón de NM_001031712 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión TPD52L1-TRMT11 puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 158; región de fusión: SEQ ID NO: 159) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 156, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 158.

El gen TXNRD1, que codifica la proteína tiorredoxina reductasa 1 (TXNRD1), puede ser uno de un ser humano. El gen TXNRD1 humano se sitúa en el cromosoma humano 12(q23.3), y la proteína TXNRD1 puede ser una codificada por el gen TXNRD1. La proteína TXNRD1 o un fragmento de la misma puede ser un compañero de fusión N terminal de la proteína de fusión TXNRD1-GPR133, que se sitúa en la parte N terminal de la proteína de fusión TXNRD1-GPR133. Por ejemplo, el gen TXNRD1 puede comprender una secuencia de nucleótidos de n.° de acceso de GenBank NM_003330, NM_001093771, NM_182729, NM_182743, o NM_182742, y la proteína TXNRD1 puede comprender una secuencia de aminoácidos codificada por la secuencia de nucleótidos del gen TXNRD1.

Un fragmento de proteína TXNRD1 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón (exón 1) al 17° exón (exón 17) (en base a la posición en el cromosoma 12 (hebra (+)), correspondiente a la región nucleotídica de las posiciones 104732917-104733051) del gen TXNRD1 como se describe anteriormente. Por ejemplo, los genes que codifican un fragmento de proteína TXNRD1 y fragmentos de proteína TXNRD1 codificada por el gen se ejemplifican en las tablas 42 y 43:

[Tabla 42]

Gen que codifica un fragmento de proteína TXNRD1

Gen TXNRD1 (n.° de acceso): Región CDS codificante de proteína TXNRD1 Región codificante de fragmento de proteína TXNRD1: en base a exón Región codificante de fragmento de proteína TXNRD1: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

Gen que codifica un fragmento de proteína TXNRD1





: aatccaccctgtct gtgcagag

NM_003330: 656~2311 (1656pb) (SEQ ID NO: 160) Región de exón 1 a exón 17 656~2242 (1587pb) (SEQ ID NO: 161) chr12: 104733051] (extremo 3' del exón 17) (SEQ ID NO: 162)

NM_0010937 71: 25~1974 (1950pb) 258~1905 (1881 pb)

NM_182729: 527~2074 (1548pb) 527~2005 (1479pb)

NM_182743: 465~1964 (1500pb) 465~1895 (1431 pb)

NM_182742: 702~2201 (1500pb) 702~2132 (1431 pb)

[Tabla 43]

Fragmento de proteína TXNRD1

Gen TXNRD1 (n.° de acceso): Tamaño normal (aa) de la proteína ERBB21P Región del fragmento de proteína ERBB2IP Secuencia de aminoácidos de la región del punto de ruptura

NM_003330: 551aa (SEQ ID NO: 163) aa 1~529 (SEQ ID NO: 164) IHPVCAE (SEQ ID NO: 165)

NM_001093771: 649aa aa 1~627

NM_182729: 499aa aa 1~477

NM_182743: 499aa aa 1~477

NM_182742: 499aa aa 1~477

5 El gen GPR133, que codifica la proteína receptora acoplada a proteína G 133 (GPR133), puede ser uno de un ser humano. El gen GPR133 humano se sitúa en el cromosoma humano 12(q24.33), y la proteína GPR133 se puede codificar por el gen GPR133. La proteína GPR133 o un fragmento de proteína GPR133 puede ser un compañero de fusión C terminal de la proteína de fusión TXNRD1-GPR133, que se sitúa en la parte C terminal de la proteína de fusión TXNRD1-GPR133. Por ejemplo, el gen GPR133 puede comprender la secuencia de nucleótidos de n.° 10 de acceso de GenBank NM_198827, y la proteína GPR133 puede comprender la secuencia de aminoácidos codificado por la secuencia de nucleótidos del gen GPR133.

Un fragmento de proteína GPR133 puede comprender una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 14° exón (exón l4) (en base a la posición en el cromosoma 12 (hebra (+)), 15 correspondiente a la región nucleotídica de las posiciones 131561346-131561419) al último exón del gen GPR133. Por ejemplo, los genes que codifican un fragmento de proteína GPR133 y fragmentos de proteína GPR133 codificada por el gen se ejemplifican en las tablas 44 y 45:

[Tabla 44]

Gen que codifica un fragmento de proteína GPR133

Gen GPR133 (n.° de acceso): Región CDS codificante de proteína GPR133 Región codificante de fragmento de proteína GPR133: en base a exón Región codificante de fragmento de proteína GPR133: en base a ADNc Posición del punto de ruptura en el cromosoma secuencia de nucleótidos de la región del punto de ruptura

5

10

15

20

25

30

35

40

45

50

Gen que codifica un fragmento de proteína GPR133

NM_198827: 560~3184 (2625pb) (SEQ ID NO: 166) Región del exón 14 al último exón 2033~3184 (11526pb) (secuencia 167) chr12:[13156 1346 (extremo 5' del exón 14) acacgtaagcagcac (SEQ ID NO: 168)

[Tabla 45]

Fragmento de proteína GPR133

Gen GPR133 (n.° de acceso): Tamaño normal (aa) de la proteína GPR133 Región del fragmento de proteína GPR133 Secuencia de aminoácidos de la región del punto de ruptura

NM_198827: 874aa (SEQ ID NO: 169) aa 492~874 (383aa) (SEQ ID NO: 170) TRKQHS (SEQ ID NO: 171)

Un gen de fusión (gen de fusión TXNRD1-GPR133) que codifica una proteína de fusión TXNRD1-GPR133 que comprende la proteína TXNRD1 o un fragmento de la misma y la proteína GPR133 o un fragmento de la misma, que se fusionan entre sí, puede comprender una molécula polinucleotídica que codifica la proteína TXNRD1 o un fragmento de la misma en la parte 5' terminal y una molécula polinucleotídica que codifica la proteína GPR133 o un fragmento de la misma en la parte 3' terminal del gen de fusión. Por ejemplo, el gen de fusión TXNRD1-GPR133 puede comprender una secuencia de nucleótidos del 1° exón (exón 1) al exón 17 de NM_003330, NM_001093771, NM_182729, NM_182743, o NM_182742 en la parte 5' terminal y una secuencia de nucleótidos del exón 14 al último exón de NM_198827 en la parte 3' terminal, en el que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, el gen de fusión TXNRD1-GPR133 puede ser un gen de fusión (SEQ ID NO: 172; región de fusión: SEQ ID NO: 173), en el que la secuencia de nucleótidos (SEQ ID NO: 161) de las posiciones 656 a 2242 de NM_003330 en la parte 5' terminal y la secuencia de nucleótidos (SEQ ID NO: 167) de las posiciones 2033 a 3184 de NM_198827 en la parte 3' terminal se unen entre sí.

Una proteína de fusión TXNRD1-GPR133 puede comprender la proteína TXNRD1 o un fragmento de la misma en la parte N terminal y la proteína GPR133 o un fragmento de la misma en la parte C terminal de la proteína de fusión, que se unen entre sí. Por ejemplo, la proteína de fusión TXNRD1-GPR133 puede comprender una secuencia de aminoácidos codificada por un gen de fusión que comprende una secuencia de nucleótidos del 1° exón (exón 1) al exón 17 de NM_003330, NM_001093771, NM_182729, NM_182743, o NM_182742 en la parte 5' terminal y una secuencia de nucleótidos del exón 14 al último exón de NM_198827 en la parte 3' terminal, en la que las dos secuencias de nucleótidos se fusionan entre sí. En un modo de realización concreto descrito en el presente documento, la proteína de fusión TXNRD1-GPR133 puede ser una molécula polipeptídica que comprende la secuencia de aminoácidos (SEQ ID NO: 174; región de fusión: SEQ ID NO: 175) que se codifica por la secuencia de nucleótidos de SEQ ID NO: 172, o una secuencia de aminoácidos que tiene una homología de secuencia de al menos un 90 %, al menos un 95 %, o al menos un 99 % con la secuencia de aminoácidos de SEQ ID NO: 174.

Como se usa en el presente documento, los términos "primer exón" y "último exón" se pueden referir respectivamente al exón situado en primer lugar y al exón situado en último lugar de la secuencia de nucleótidos del número de acceso dado independientemente del número de exón, y el número de exón se puede dar a partir de la información de secuencia de NCBI.

En el caso de un gen de fusión que comprende una región 5UTR del gen SCAF11 y un gen PDGFRA o un fragmento del gen PDGFRA, que se unen entre sí, se confirma que el nivel de expresión del gen PDGFRA o un fragmento del mismo se incrementa considerablemente, y dicho incremento se observa específicamente en un paciente con cáncer. Por lo tanto, otro modo de realización descrito en el presente documento proporciona una molécula polinucleotídica (gen de fusión SCAF11-PDGFRA) que comprende una región 5UTR del gen SCAF11 y gen PDGFRA o un fragmento del gen PDGFRA, que se fusionan entre sí, y un uso de la molécula polinucleotídica como marcador para diagnosticar un cáncer.

El gen SCAF11, que codifica la proteína SCAF11 (factor 11 asociado con CTD relacionado con SR), puede ser de un ser humano. El gen SCAF11 humano se sitúa en el cromosoma humano 12(q12). La región 5UTR del gen SCAF11 es un compañero de fusión 5' terminal del gen de fusión SCAF11-PDGFRA, que se sitúa en la parte 5' terminal del gen de fusión SCAF11-PDGFRA. Por ejemplo, el gen SCAF11 puede comprender una secuencia de nucleótidos de n.° de acceso de GenBank NM_004719, y la región 5UTR del gen SCAF11 es una molécula polinucleotídica que comprende una secuencia de nucleótidos desde las posiciones 1 a 266 de NM_004719, lo que corresponde al exón 1 de NM_004719 (posición en el cromosoma (hebra (-)): chr12:46384136-46384401; punto de ruptura en el cromosoma: chr12:[46384136; SEQ ID NO: 176; región de fusión: SEQ ID NO: 177).

5

10

15

20

25

30

35

40

45

50

55

60

65

El gen PDGFRA, que codifica la proteína PDGFRA (polipéptido alfa, receptor del factor de crecimiento derivado de plaquetas), puede ser de un ser humano. El gen PDGFRA humano se sitúa en el cromosoma humano 4(q12). El gen PDGFRA o un fragmento del gen PDGFRA es un compañero de fusión 3' terminal del gen de fusión SCAF11- PDGFRA, que se sitúa en la parte 3' del gen de fusión sCaF11-PDGFRA. Por ejemplo, el gen PDGFRA puede comprender una secuencia de nucleótidos de n.° de acceso de GenBank NM_006206, y un fragmento del gen PDGFRA puede comprender la región CDS de NM_006206 (secuencia de nucleótidos desde las posiciones 332 a 3601 de NM_006206; 3270 pb en total), en el que la región CDS puede comprender además la región 5UTR de 12 pb de NM_006206 (secuencia de nucleótidos desde las posiciones 120 a 331 de NM_006206) en el extremo 5', lo que se expresa como un fragmento de gen del exón 2 (posición en el cromosoma (hebra (+)): chr4:55124924- 55124984; punto de ruptura en el cromosoma: chr12:120180269]) al último exón de NM_006206. En un modo de realización concreto descrito en el presente documento, el fragmento del gen PDGFRA puede ser una molécula polinucleotídica que comprende la secuencia de nucleótidos de SEQ ID NO: 178 (región de fusión-SEQ ID NO: 179).

Por ejemplo, el gen de fusión SCAF11-PDGFRA puede comprender la secuencia de nucleótidos de SEQ ID NO: 180 (región de fusión: SEQ ID NO: 181).

A menos que se establezca de otro modo, todas las secuencias de nucleótidos que se determinan secuenciando las moléculas de ADN descritas en el presente documento se pueden secuenciar usando cualquier secuenciador de ADN automático (por ejemplo, Model 373 proporcionado por Applied Biosystems, Inc.), y toda la secuencia de aminoácidos de moléculas polipeptídicas codificadas por las secuencias de nucleótidos determinadas se puede secuenciar usando cualquier secuenciador de péptidos automático. Dichas secuencias de nucleótidos determinadas por un enfoque automático pueden incluir errores parciales en comparación con secuencias exactas reales. Por ejemplo, las secuencias de nucleótidos determinadas automáticamente de las moléculas de ADN pueden tener normalmente una similitud de secuencia (homología) de al menos un 90 %, al menos un 95 %, al menos un 99 %, o al menos un 99,9 % con las secuencias exactas reales de las moléculas de ADN. Las secuencias de nucleótidos pueden incluir una inserción o deleción de nucleótidos en comparación con secuencias exactas reales, en las que dicha inserción o deleción de nucleótidos puede provocar un desplazamiento del marco de lectura durante la traducción de las secuencias de nucleótidos, dando lugar de este modo a la codificación de secuencias de aminoácidos que son diferentes de las codificadas por secuencias de nucleótidos exactas reales.

La presencia o expresión de la proteína de fusión y/o gen de fusión se puede detectar específicamente en un paciente que padece cáncer sólido, tal como cáncer de pulmón, en particular carcinoma de pulmón no microcítico (NSCLC) tal como adenocarcinoma de pulmón, y por tanto, la proteína de fusión y/o un gen de fusión que codifica la proteína de fusión y/o el gen de fusión SCAF11-PDGFRA se pueden usar como marcador para diagnosticar cáncer sólido, tal como cáncer de pulmón, en particular carcinoma de pulmón no microcítico (CPCNP) tal como adenocarcinoma de pulmón.

Se describe además en el presente documento un modo de realización que proporciona una composición farmacéutica para diagnosticar un cáncer, comprendiendo la composición un material (molécula) que interactúa (por ejemplo, que se une) con la proteína de fusión como se describe anteriormente, un gen de fusión que codifica la proteína de fusión, gen de fusión SCAF11-PDGFRA y/o transcrito (por ejemplo, ARNm) correspondiente al gen de fusión.

El material que interactúa con la proteína de fusión se usa para detectar si la proteína de fusión se expresa (o está presente) y se puede seleccionar del grupo que consiste en un anticuerpo, aptámero y similares, que se une especialmente a la proteína de fusión o a una región de fusión (punto de ruptura) de la proteína de fusión.

Además, el material que interactúa con un gen de fusión que codifica la proteína de fusión, gen de fusión SCAF11- PDGFRA o ARNm correspondiente al gen de fusión puede ser una molécula de ácido nucleico que se puede hibridar con el gen de fusión o ARNm. Por ejemplo, la molécula de ácido nucleico puede ser al menos una seleccionada del grupo que consiste en un oligonucleótido antisentido (por ejemplo, ARNip, microARN, etc.), una sonda (por ejemplo, de 5 a 100pb, de 5 a 50pb, de 5 a 30pb, o de 5 a 25pb), un aptámero y similares, que se pueden hibridar específicamente con el gen de fusión, una región de fusión del gen de fusión o molécula de ARNm (transcrito de expresión) correspondiente al gen de fusión o a la región de fusión en una muestra biológica. En otro modo de realización descrito en el presente documento, la molécula de ácido nucleico que se puede hibridar con un gen de fusión que codifica la proteína de fusión, gen de fusión SCAF11-PDGFRA o molécula de ARNm correspondiente al gen de fusión puede ser un par de cebadores, de los que cada uno es de 20 a 100pb o de 25 a 50pb de longitud, y se puede hibridar con una secuencia de nucleótidos que tiene de 20 a 100 o de 25 a 50 nucleótidos consecutivos o una secuencia de nucleótidos complementaria de la misma, que sea adyacente a cada uno de ambos extremos de un fragmento polinucleotídico que tiene de 50 a 250 o de 100 a 200 nucleótidos consecutivos de un gen de fusión, incluyendo el fragmento polinucleotídico una región de fusión del gen de fusión, pudiendo de este modo amplificar el fragmento polinucleotídico. El término "que se puede hibridar con una secuencia o gen de nucleótidos objeto" se puede referir a tener una complementariedad de secuencia de un 100 % (es decir, completamente complementaria), al menos un 80 % (por ejemplo, un 80-100 %) o al menos un 90 % (por

ejemplo, un 90-100 %) con la secuencia de nucleótidos objeto que se va a detectar o ARNm correspondiente a la misma, uniéndose específicamente de este modo a la secuencia de nucleótidos o ARNm. Por ejemplo, los pares de cebadores que se pueden hibridar con cada gen de fusión se ejemplifican en la tabla 46.

28

[Tabla 46]

gen de fusión: Región de fusión Secuencia de cebador directo Secuencia de cebador inverso

CCDC6-ROS1: SEQ ID NO: 14 CCT GCAGGAAAAATTAGACC AG (SEQ ID NO: 182) AGCT CAGCCAACT CTTT GT CT T (SEQ ID NO: 183)

SCAF11-PDGFRA: SEQ ID NO: 181 CAGCGGAGTCAGTGTCCTAG AG (SEQ ID NO: 184) T GAGAAGACAGCCTAAGACC AG (SEQ ID NO: 185)

FGFR2-CIT: SEQ ID NO: 30 ACATGATGATGAGGGACTGT TG (SEQ ID NO: 186) ACAGCTGTTACGAAGAGCAT CA (SEQ ID NO: 187)

AXL-MBIP: SEQ ID NO: 46 GCCTGACGAAATCCTCTATG TC (SEQ ID NO: 188) CAAAATT CCCT GACGTT GTTT T (SEQ ID NO: 189)

APLP2-TNFSF11: SEQ ID NO: 62 T GCT GAGAACAAAGATCGCT TA (SEQ ID NO: 190) TGTCGGTGGCATTAATAGTG AG (SEQ ID NO: 191)

MAP4K3-PRKCE: SEQ ID NO: 78 AGGAGGACTTCGAGCTGATT C (SEQ ID NO: 192) ACGACCCT GAGAGATCGATG A (SEQ ID NO: 193)

BCAS3-MAP3K3: SEQ ID NO: 94 CATCCCGTCCAGTCTCTGAT (SEQ ID NO: 194) CT GCCTATTT G AGT GACCT GT G (SEQ ID NO: 195)

KRAS-CDH13: SEQ ID NO: 110 GGAAATAAATGTGATTTGCCT TC (SEQ ID NO: 196) AAGGCTGTCTCT G ATT CT CT G G (SEQ ID NO: 197)

29

ZFYVE9-CGA: SEQ ID NO: 125 ACT GCAGAGAACATGGATT C CT (SEQ ID NO: 198) GAATGGAGAACATGCAGAAA CA (SEQ ID NO: 199)

ERBB2IP-MAST4: SEQ ID NO: 141 AACAAGGGTACAACCT GAAG GA (SEQ ID NO: 200) TCAAGGAAGTATCGTGAGGT GA (SEQ ID NO: 201)

TPD52L1-TRMT11: SEQ ID NO: 157 GAAAACACAT GAAACCCT GA GTC (SEQ ID NO: 202) AT GT GT GACTGGAAAGCTT C TG (SEQ ID NO: 203)

TXNRD1-GPR133: SEQ ID NO: 173 TCCAAATGCTGGAGAAGTTA CA (SEQ ID NO: 204) AGT ACACGAAGACT CGGTT G CT (SEQ ID NO: 205)

5

10

15

20

25

30

35

40

45

50

55

60

65

En un modo de realización concreto descrito en el presente documento, un material que interactúa con la proteína de fusión o gen de fusión o ARNm se puede usar conjuntamente con o uniéndose por al menos una sustancia marcadora seleccionada del grupo que consiste en radicales libres, radioisótopos, tintes fluorescentes, sustratos cromógenos, enzimas, bacteriófagos, coenzimas y similares.

Se describe además en el presente documento otro modo de realización que proporciona un procedimiento de proporcionar información para diagnosticar un cáncer, comprendiendo el procedimiento detectar una proteína de fusión, un gen de fusión que codifica la proteína de fusión, gen de fusión SCAF11-PDGFRA y/o ARNm correspondiente al gen de fusión en una muestra biológica obtenida de un sujeto.

La etapa de detectar una proteína de fusión, un gen de fusión y/o ARNm en una muestra biológica puede comprender además i) poner en contacto (tratar o añadir) un material que interactúa con al menos uno seleccionado del grupo que consiste en la proteína de fusión, un gen de fusión que codifica la proteína de fusión, gen de fusión SCAF11-PDGFRA y ARNm correspondiente al gen de fusión con una muestra biológica obtenida de un sujeto para permitir una reacción; y ii) detectar un producto de reacción obtenido a partir de la etapa i). El procedimiento puede comprender además una etapa de proporcionar una muestra biológica, antes de la etapa i), y la etapa de proporcionar una muestra biológica puede comprender una etapa de obtener (o separar) una muestra biológica de un sujeto. En la etapa i), el material interactuante puede ser al menos uno seleccionado del grupo que consiste en compuestos, anticuerpos y aptámeros, que se pueden unir específicamente a la totalidad o una parte (por ejemplo, una región de fusión) de la proteína de fusión, y compuestos y moléculas de ácido nucleico (por ejemplo, cebadores, sondas, aptámeros, etc.), que se pueden unir a la totalidad o una parte (por ejemplo, una región de fusión) del gen de fusión y/o ARNm. Como se describe anteriormente, el material interactuante se puede usar conjuntamente con o uniéndose por al menos una sustancia marcadora seleccionada del grupo que consiste en radicales libres, radioisótopos, tintes fluorescentes, sustratos cromógenos, enzimas, bacteriófagos, coenzimas y similares. En la etapa ii), el producto de reacción obtenido de la etapa i) puede ser un complejo generado por una interacción (unión) entre el material interactuante y al menos uno seleccionado del grupo que consiste en la proteína de fusión, gen de fusión y ARNm. Si el producto de reacción se detecta en la etapa de detección, se puede determinar que la proteína de fusión, gen de fusión y/o ARNm está presente en la muestra biológica.

En el procedimiento de proporcionar información para diagnosticar un cáncer, si se determina que la proteína de fusión, gen de fusión y/o ARNm está presente en la muestra biológica, se puede determinar que el sujeto del que se obtiene la muestra biológica es un paciente de un cáncer (cáncer sólido), por ejemplo, carcinoma de pulmón no microcítico (NSCLC), en particular, adenocarcinoma de pulmón.

La detección de la proteína de fusión, gen de fusión y/o ARNm se puede llevar a cabo por cualquier medio usado en general en la detección de una proteína o gen.

Por ejemplo, la detección de una proteína de fusión se puede llevar a cabo por cualquier ensayo general que detecte una interacción (por ejemplo, formación de un complejo) entre la proteína de fusión y un material (por ejemplo, un anticuerpo, un aptámero o un compuesto) que interactúa con la proteína de fusión usando dicho material interactuante (por ejemplo, un anticuerpo, un aptámero o un compuesto). El ensayo general se puede seleccionar del grupo que consiste en inmunocromatografía, tinción inmunohistoquímica, ensayo de inmunoadsorción enzimática (ELISA), radioinmunoanálisis (RIA), enzimoinmunoanálisis (EIA), fluoroinmunoanálisis (FIA), luminoinmunoanálisis (LIA), inmunoelectrotransferencia, FACS, y similares.

Para detectar una expresión de proteína, se puede llevar a cabo cualquier ensayo de inmunoanálisis general. Un ensayo de inmunoanálisis útil puede ser un ensayo de aloinmunoanálisis o un ensayo de heteroinmunoanálisis. En el aloinmunoanálisis, la reacción inmunitaria puede implicar a menudo a un agente específico para una proteína de fusión que se va a detectar (por ejemplo, un anticuerpo específico de proteína de fusión), un analito marcado y/o una muestra biológica que se va a analizar. La señal generada a partir del marcador se puede modificar directa o indirectamente con una unión del anticuerpo al analito marcado. No solo se puede realizar la detección de la reacción inmunitaria sino también la cuantificación de la reacción inmunitaria en una solución homogénea. Un marcador inmunoquímico útil en este análisis puede ser al menos uno seleccionado del grupo que consiste en radicales libres, radioisótopos, tintes fluorescentes, sustratos cromógenos, enzimas, bacteriófagos, coenzimas y similares.

Los anticuerpos, que son útiles en la realización de los procedimientos descritos en el presente documento, se pueden unir a un soporte sólido (por ejemplo, pocillo, microesfera, placa o portaobjetos, que está fabricado de una sustancia tal como látex o poliestireno) que es adecuado para el diagnóstico o análisis, por procedimientos conocidos tales como precipitación. Los anticuerpos u otros agentes que se unen a una proteína de fusión se pueden marcar por un marcador detectable tal como una sustancia radioactiva (por ejemplo, 35S, 125I, 131I, etc.), una enzima (por ejemplo, peroxidasa de rábano picante, fosfatasa alcalina, etc.), y una sustancia fluorescente (por ejemplo, fluoresceína, etc.), por procedimientos conocidos.

Un análisis en células aisladas tal como citometría de flujo (FC), análisis inmunohistoquímico (IHC) o análisis de inmunofluorescencia (IF) se puede usar adecuadamente en los procedimientos descritos en el presente

5

10

15

20

25

30

35

40

45

50

55

60

65

documento, ya que dichos formatos de análisis pueden ser clínicamente adecuados, permiten detectar in vivo una expresión del polipéptido cinasa en la proteína de fusión, y evitan el riesgo de un cambio artificial en una actividad que provoca el funcionamiento de las células obtenidas de una muestra tumoral, por ejemplo. Por lo tanto, en un modo de realización concreto, los procedimientos descritos en el presente documento se pueden realizar usando un formato de análisis tal como análisis en células aisladas tal como citometría de flujo (FC); análisis inmunohistoquímico (IHC); o fluoroinmunoanálisis (IF).

La citometría de flujo (FC) se puede emplear para determinar la expresión de un polipéptido cinasa en la proteína de fusión en un tumor de mamífero que es uno antes, durante o después de un tratamiento de un fármaco dirigido para inhibir una actividad del polipéptido cinasa en la proteína de fusión. Por ejemplo, una célula tumoral obtenida a partir de una muestra de médula ósea se puede analizar por citometría de flujo para la expresión y/o activación de la proteína de fusión, así como marcadores para identificar el tipo de célula cancerosa.

La tinción inmunohistoquímica (IHC) se puede emplear para determinar la expresión y/o activación de una cinasa en la proteína de fusión en un cáncer de mamífero (por ejemplo, un cáncer sólido tal como NSCLC) que es una antes, durante o después de un tratamiento de un fármaco dirigido para inhibir una actividad de la cinasa en la proteína de fusión.

El fluoroinmunoanálisis (IF) se puede emplear para determinar la expresión y/o activación de un polipéptido cinasa en la proteína de fusión en un cáncer de mamífero que es uno antes, durante o después de un tratamiento de un fármaco dirigido para inhibir una actividad de la cinasa en la proteína de fusión.

Además, otros protocolos tales como ensayo de inmunoadsorción enzimática (ELISA), radioinmunoanálisis (RIA), separador celular activado por fluorescencia (FACS) y similares, y también se pueden emplear procedimientos de diagnóstico del nivel alterado o anómalo de expresión de la proteína de fusión.

Los péptidos AQUA para detectar/cuantificar la proteína de fusión expresada en una muestra biológica que incluye células obtenidas de un tumor se pueden usar y preparar en un análisis de AQUA estándar. Por lo tanto, en un modo de realización concreto, un reactivo específico de proteína de fusión puede comprender un fosfopéptido marcado con isótopo(péptido AQUA) presente en una secuencia peptídica correspondiente a la secuencia peptídica que incluye la proteína de fusión o región de fusión (punto de ruptura) como se describe anteriormente.

Además, se puede realizar una detección del gen de fusión y/o ARNm correspondiente al mismo por cualquier procedimiento de detección general usando un material interactuante que interactúa con el gen de fusión o ARNm, por ejemplo, una molécula de ácido nucleico (por ejemplo, una sonda, un aptámero o un cebador, etc.) que se puede hibridar con el gen de fusión o ARNm y, por ejemplo, se puede realizar la detección por reacción en cadena de la polimerasa (PCR), hibridación in situ con fluorescencia (FISH), espectrometría UV, cromatografía, procedimiento de Warburg-Christian, o procedimiento de Schmidt-Thannhauser-Schneider, pero no se limita a eso. En un modo de realización concreto, la detección del gen de fusión y/o ARNm correspondiente al mismo se puede realizar por una técnica de combinación de secuenciación del transcriptoma completo (ARN) o genoma completo (ADN) a través de una técnica de secuenciación masiva en paralelo. El material interactuante (reactivo específico para el gen o ARNm) para su uso en la detección de la molécula de ácido nucleico puede ser un ARNip, un oligonucleótido o una sonda de ADN, que se puede hibridar directamente con un transcrito que expresa el polipéptido fusionado o truncado en una muestra biológica y detectar el mismo.

El sujeto puede ser un mamífero tal como un primate incluyendo ser humano, mono y similares, un roedor incluyendo ratón, rata y similares, y por ejemplo, el sujeto puede ser un ser humano.

La muestra biológica puede ser una seleccionada de una célula (por ejemplo, una célula de pulmón), un tejido (por ejemplo, un tejido de pulmón), líquido corporal (por ejemplo, sangre) y similares. Por ejemplo, una muestra biológica se puede obtener de un mamífero que tiene un cáncer (cáncer sólido o no sólido) caracterizado por una expresión de la proteína de fusión. En un modo de realización particular, el mamífero puede ser un ser humano, por ejemplo, un ser humano que es objeto de tratamiento para un cáncer tal como NSCLC. El sujeto humano puede ser un paciente que está actualmente o que está previsto que esté bajo un tratamiento médico usando un inhibidor de una cinasa en una proteína de fusión que se va a detectar. Por ejemplo, la muestra biológica puede ser una que comprende una célula o un tejido, que se obtiene (o separa) de un cáncer de mamífero, o un extracto del mismo.

La proteína de fusión expresada específicamente en un paciente con cáncer se puede usar como diana para el tratamiento del cáncer.

Por lo tanto, se describe en el presente documento también otro modo de realización que proporciona una composición farmacéutica para tratar y/o evitar un cáncer, comprendiendo la composición al menos uno seleccionado del grupo que consiste en un inhibidor de la proteína de fusión, un inhibidor del gen de fusión SCAF11-PDGFRA, un inhibidor de un gen de fusión que codifica la proteína de fusión y un inhibidor de ARNm correspondiente al gen de fusión, como ingrediente activo.

5

10

15

20

25

30

35

40

45

50

55

60

65

Se describe además en el presente documento otro modo de realización que proporciona un procedimiento de tratamiento y/o prevención de un cáncer, comprendiendo el procedimiento administrar una cantidad farmacéuticamente eficaz de al menos uno seleccionado del grupo que consiste en un inhibidor de la proteína de fusión, un inhibidor del gen de fusión SCAF11-PDGFRA, un inhibidor de un gen de fusión que codifica la proteína de fusión, y un inhibidor de ARNm correspondiente al gen de fusión, a un sujeto que necesita tratar y/o evitar un cáncer.

Se describe además en el presente documento otro modo de realización que proporciona un uso de una composición en el tratamiento y/o prevención de un cáncer, comprendiendo la composición al menos uno seleccionado del grupo que consiste en un inhibidor de la proteína de fusión, un inhibidor del gen de fusión SCAF11-PDGFRA, un inhibidor de un gen de fusión que codifica la proteína de fusión, y un inhibidor de ARNm correspondiente al gen de fusión.

El sujeto puede ser un mamífero incluyendo un primate tal como un ser humano o mono, un roedor tal como ratón o rata, y similares, y por ejemplo, el sujeto puede ser un ser humano.

El inhibidor se puede administrar por vía oral o parenteral. La administración parenteral puede incluir inyección intravenosa, inyección subcutánea, inyección muscular, inyección intraperitoneal, administración endotelial, administración local, administración intranasal, administración intrapulmonar y administración rectal.

Como se usa en el presente documento, el término "cantidad farmacéuticamente eficaz" se refiere a una cantidad del ingrediente activo que puede presentar un efecto provechoso, y se puede determinar apropiadamente de varias formas, dependiendo de factores tales como procedimientos de formulación, procedimientos de administración, edad de los pacientes, peso corporal, sexo, afecciones patológicas, dietas, tiempo de administración, vía de administración, velocidad de excreción, sensibilidad a la reacción y similares.

El inhibidor de la proteína de fusión puede ser cualquier material que se puede unir a la proteína de fusión y suprimir o disminuir una función de la misma y, por ejemplo, al menos uno seleccionado del grupo que consiste en anticuerpos y aptámeros frente a la proteína de fusión, inhibidores de cinasas generales (el gen de fusión que codifica un polipéptido que incluye tirosina cinasa puede ser CCDC6-ROS1, SCAF11-PDGfRa, FGFR2-CIT, AXL- MBIP, MaP4K3-PrKcE, BCAS3-MAP3K3 o ERBB2IP-MAST4), inhibidores de la transducción de señales, y similares. El inhibidor de un gen de fusión que codifica la proteína de fusión o ARNm correspondiente al mismo puede ser cualquier material que se puede unir a la molécula de ADN o ARN y evitar su expresión en la proteína de fusión y, por ejemplo, al menos uno seleccionado del grupo que consiste en ARNip, ARNhp, microARN, aptámeros y similares, que se unen específicamente a la molécula de ADN o ARN.

Un cáncer que es aplicable a la composición para diagnosticar un cáncer es un cáncer sólido, siendo el cáncer sólido cáncer de pulmón, en particular carcinoma de pulmón microcítico (SCLC) o carcinoma de pulmón no microcítico (NSCLC), tal como adenocarcinoma de pulmón, carcinoma de células escamosas, o carcinoma de pulmón de células grandes, y por ejemplo, adenocarcinoma de pulmón.

Se describe además en el presente documento otro modo de realización que proporciona un procedimiento para cribar un antineoplásico usando la proteína de fusión.

Por ejemplo, el procedimiento para cribar puede comprender:

tratar (o poner en contacto) una célula que expresa la proteína de fusión o el gen de fusión SCAF11- PDGFRA con un compuesto candidato; y

medir el nivel de expresión de la proteína de fusión y/o el gen de fusión en la célula,

en el que si el nivel de expresión de la proteína de fusión y/o el gen de fusión en la célula tratada con el compuesto candidato disminuye en comparación con el de una célula antes o sin el tratamiento del compuesto candidato, se puede determinar que el compuesto candidato es un antineoplásico. El nivel de expresión de la proteína de fusión se puede medir midiendo el nivel (cantidad o concentración) de proteína de fusión o un gen de fusión que codifica la proteína de fusión o ARNm correspondiente al gen de fusión.

El procedimiento para cribar un antineoplásico puede comprender además, antes de la etapa de tratar un compuesto candidato, una etapa de medir el nivel de expresión de la proteína de fusión y/o gen de fusión en la célula antes del tratamiento de un compuesto candidato, en el que el nivel de expresión de la proteína de fusión y/o el gen de fusión en la célula tratada con el compuesto candidato (es decir, después del tratamiento del compuesto candidato) disminuye en comparación con el de la célula antes del tratamiento del compuesto candidato, se puede determinar que el compuesto candidato es un antineoplásico. De forma alternativa, el procedimiento para cribar un antineoplásico puede comprender las etapas de proporcionar células que expresan la proteína de fusión y/o el gen de fusión; tratar (o poner en contacto) una parte de las células con el compuesto

5

10

15

20

25

30

35

40

45

50

55

60

65

candidato; y medir el nivel de expresión de la proteína de fusión y/o el gen de fusión en la parte de las células tratadas con el compuesto candidato y la parte restante de las células que no se trata con el compuesto candidato, en el que el nivel de expresión de la proteína de fusión y/o el gen de fusión en la parte de las células tratadas con el compuesto candidato disminuye en comparación con la parte de las células que no se trata con el compuesto candidato, se puede determinar que el compuesto candidato es un antineoplásico.

La célula usada en el procedimiento para cribar puede ser una célula cancerosa en la que al menos una de las proteínas de fusión o genes de fusión se expresa y/o se activa (por ejemplo, una célula cancerosa en la que se desea que el antineoplásico cribado presente el efecto antineoplásico) o un extracto o cultivo de la misma, que se extrae o se cultiva por cualquier procedimiento general.

La célula que expresa la proteína de fusión y/o el gen de fusión puede ser una célula cancerosa como se describe anteriormente, y en particular, una célula cancerosa sólida, por ejemplo, una célula de cáncer de pulmón tal como una célula de adenocarcinoma de pulmón.

La medición del nivel de expresión de la proteína de fusión se puede realizar por cualquier ensayo de proteína general. Por ejemplo, el ensayo se puede seleccionar de inmunocromatografía, tinción inmunohistoquímica, ensayo de inmunoadsorción enzimática (ELISA), radioinmunoanálisis (RIA), enzimoinmunoanálisis (EIA), fluoroinmunoanálisis (FIA), luminoinmunoanálisis (LIA), inmunoelectrotransferencia, FACS, y similares, pero no se limita a esos. El nivel del gen de fusión o ARNm se puede medir por cualquier ensayo de cuantificación de genes general. Por ejemplo, el ensayo se puede seleccionar de PCR, FISH, espectroscopía UV, cromatografía, procedimiento de Warburg-Christian, procedimiento de Schmidt-Thannhauser-Schneider, y similares, pero no se limita a los mismos.

El compuesto candidato puede ser cualquier compuesto natural o artificialmente sintético. Por ejemplo, el compuesto candidato puede ser al menos uno seleccionado del grupo que consiste en compuesto molecular pequeño, ADN, ARN, proteína y similares.

Para determinar si el compuesto candidato inhibe o no el progreso de un cáncer caracterizado por la proteína de fusión, una muestra biológica puede ser una que comprende células obtenidas de un modelo de xenoinjerto de mamífero. El xenoinjerto puede ser una célula cancerosa humana que expresa la proteína de fusión, y un receptor del xenoinjerto puede ser un mamífero pequeño tal como un ratón. Para determinar la expresión o presencia de la proteína de fusión en una muestra biológica que comprende células obtenidas de cáncer de mamífero (tumor), se puede usar una célula en la que no se expresa la proteína de fusión como muestra de control. La muestra de control puede comprender una célula normal de un tejido que presenta tumor, en la que no se expresa la proteína de fusión (por ejemplo, una célula normal de alrededor del tumor) o una célula cancerosa de un cáncer que no expresa la proteína de fusión.

El cáncer que se va a tratar con el antineoplásico desarrollado por el procedimiento de cribado es como se describe anteriormente.

[Efectos ventajosos]

La proteína de fusión de acuerdo con la presente invención y/o la molécula de ADN o ARNm que codifica la proteína de fusión como se describe en el presente documento, que se expresan específicamente en cáncer de pulmón tal como adenocarcinoma de pulmón, puede ser útil no solo como marcador para diagnosticar un cáncer de pulmón sino también como marcador diana para tratar el cáncer de pulmón.

[Modo para la invención]

A continuación en el presente documento, la presente invención se describirá en detalle por los ejemplos.

Los siguientes ejemplos se destinan simplemente a ilustrar la invención y no se interpretan para restringir la invención.

Ejemplo 1: Preparación de muestras de cáncer

Se recogieron 200 muestras quirúrgicas de adenocarcinoma de pulmón primario de pacientes que se sometieron a lobectomía en el Hospital Universitario Nacional de Seúl (n=164, de 2010 a septiembre de 2011) y Hospital St. Mary de Seúl (n=36; muestras depositadas en su banco de tejidos de 2009 a 2011). Se incluyeron veinte pacientes del informe previo del inventor (Ju YS et al., Genome Res. 2012 22:436-445) en esta cohorte. Para cada paciente, se registraron el diagnóstico, sexo, estadio de cáncer y estado de tabaquismo. Entre los 200 pacientes con cáncer, las proporciones de mujeres y no fumadores fueron de un 54,5 % (n=109) y 58,0 % (n=116) respectivamente.

Usando el procedimiento informado previamente (Ju YS et al., Genome Res. 2012 22: 436-445), se realizaron pruebas genéticas de cribado para tres mutaciones oncoiniciadoras bien conocidas en un subconjunto de los 200

5

10

15

20

25

30

35

40

tejidos de adenocarcinoma de pulmón (se sometió a prueba el exón 18-21 de EGFR por PCR y secuenciación de Sanger (n=164), se sometió a prueba el exón 2 de KRAS por PCR y secuenciación de Sanger (n=37), los genes de fusión EML4-ALKfueron por hibridación in situ con fluorescencia9 (FISH, n=163)). De los 200 tejidos de cáncer, 110 tejidos fueron positivos para las mutaciones oncoiniciadoras en uno de EGFR (n=99), KRAS (n=6) y EML4- ALK (n=7). Estas mutaciones fueron virtualmente exclusivas entre sí, excepto para dos muestras(1 EGFR+KRAS+ y 1 EGFR+EML4-ALK+). se desconocieron las mutaciones oncoiniciadoras en las 90 muestras restantes.

Se seleccionaron estas 90 muestras para secuenciación de ARN. Al excluir 3 muestras que no pasaron el control de calidad de ARN, se obtuvieron las secuencias de ARNm de 87 adenocarcinomas de pulmón. Después de esto, se realizó la secuenciación del transcriptoma (n=77) y el exoma completo (n=76) de tejidos pulmonares normales adyacentes para la comparación entre tejidos de cáncer y normales. Todos estos experimentos de secuenciación se realizaron como se describe previamente en “Ju YS et al., Genome Res. 2012 22:436-445”.

Se generaron 14.038.673.860 lecturas de 101 pb de largo con extremos emparejados a partir de la secuenciación de ARN de 164 muestras (87 tejidos de cáncer y 77 normales correspondientes). En promedio, los rendimientos de secuenciación de ARN fueron de 9,77 y 7,38 Gpb para cáncer y tejidos normales respectivamente. En la secuenciación del exoma completo de 76 tejidos normales, se obtuvieron 32,96 x profundidad de lectura por tejido normal emparejado para las regiones en la diana.

Ejemplo 2: Análisis de genes de fusión

Después de esto, se dio prioridad a la detección de genes de fusión ya que se detectaron recientemente varios genes de fusión de transformación en el adenocarcinoma de pulmón como mutaciones oncoiniciadoras. Usando el programa de fusión génica (GFP) descrito en “Ju YS et al., Genome Res. 2012 22:436-445”, se identificaron 45 transcritos de fusión sin cambio de pauta de lectura de los 87 tejidos de cáncer.

Para detectar un gen de fusión usando secuenciación de transcriptoma, se identificaron las secuencias de fragmento de 101 pb de cada extremo del fragmento de ADNc de 300pb usando secuenciación de última generación (Ju YS et al., Genome Res. 2012 22:436-445), y a continuación, se buscaron las secuencias discordantes (lecturas discordantes) que tenían ambos extremos consistentes en diferentes secuencias de genes entre sí. Además, se buscaron secuencias que abarcaban exones (lecturas que abarcan exones), en las que se genera una secuencia de extremo a partir del punto de ruptura del gen de fusión, de este modo la secuencia que abarca el exón comprende la combinación de dos secuencias génicas diferentes entre sí. Todas las secuencias discordantes y secuencias que abarcan el exón sugieren la presencia del gen de fusión. Se eligieron pares de genes que comprendían tanto la secuencia discordante y secuencia que abarca el exón como candidato final del gen de fusión y, entre ellos, se seleccionaron finalmente genes de fusión sin cambio de pauta de lectura, en los que se mantiene el marco de lectura del codón original del gen en base a la secuencia de aminoácidos original, como genes de fusión para el cáncer de pulmón.

Los genes fusionados en los 45 transcritos de fusión sin cambio de pauta de lectura anteriores, los cromosomas donde se sitúa cada gen y las distancias entre los genes se resumen en la tabla 47:

[Tabla 47]

Índice: Gen donante Gen aceptor Cromosoma (donante; aceptor) Distancia (Mb)

1: EML4 ALK chr2;chr2 12,252

2: KIF5B RET chr10;chr10 11,227

2: KIF5B RET chr10;chr10 11,227

2: KIF5B RET chr10;chr10 11,227

2: KIF5B RET chr10;chr10 11,227

3: CD74 ROS1 chr5;chr6 Intercromosómica

4: SLC34A2 ROS1 chr4;chr6 Intercromosómica

5: CCDC6 ROS1 chr10;chr6 Intercromosómica

6: SCAF11 PDGFRA chr12;chr4 Intercromosómica

7: FGFR2 CIT chr10;chr12 Intercromosómica

8: AXL MBIP chr19;chr14 Intercromosómica

9: APLP2 TNFSF11 chr11 ;chr13 Intercromosómica

10: MAP4K3 PRKCE chr2;chr2 6,215

11: BCAS3 MAP3K3 chr17;chr17 2,23

12: KRAS CDH13 chr12;chr16 Intercromosómica

13: ZFYVE9 CGA chr1;chr6 Intercromosómica

14: ERBB2IP MAST4 chr5;chr5 0,515

15: TPD52L1 TRMT11 chr6;chr6 0,723

16: TXNRD1 GPR133 chr12;chr12 26,694

17: SRSF4 SNRNP40 chr1;chr1 2,224

18: EDA MIDI chrX;chrX 57,984

19: HYOU1 C11orf93 chr11;chr11 7,736

20: SLC16A7 MUCL1 chr12;chr12 4,831

21: MIER2 ITGB1BP3 chr19;chr19 3,588

22: RBM14 FGF3 chr11;chr11 3,211

23: UBR4 ATP13A2 chr1;chr1 2,063

24: TTC19 ATPAF2 chr17;chr17 1,989

25: IGSF3 MAN1A2 chr1;chr1 0,7

26: XAF1 FAM64A chr17;chr17 0,305

27: IL6ST KDM1B chr5;chr6 Intercromosómica

28: UBE2E1 ASCC3 chr3;chr6 Intercromosómica

29: XRCC1 MAL chr19;chr2 Intercromosómica

30: BRWD1 CCDC46 chr21;chr17 Intercromosómica

31: SPTLC3 MAOA chr20;chrX Intercromosómica

32: UTRN OS9 chr6;chr12 Intercromosómica

33: LOC100306951 NUP93 chr17;chr16 Intercromosómica

34: MGAT5 HNMT chr2;chr2 3,515

35: MAP3K3 PECAM1 chr17;chr17 0,623

36: CMBL C8orf38 chr5;chr8 Intercromosómica

37: ITGB1BP3 DNM2 chr19;chr19 6,886

38: LSM14A SIPA1L3 chr19;chr19 3,677

39: RAB21 FRS2 chr12;chr12 2,175

40: ARHGEF16 TCTEX1D4 chr1;chr1 41,874

41: MMP14 H19 chr14;chr11 Intercromosómica

42: H19 CALR chr11;chr19 Intercromosómica

43: SFTPB DPYSL2 chr2;chr8 Intercromosómica

44: SFTPA2 SFTPB chr10;chr2 Intercromosómica

45: FTL SFTPA2 chr19;chr10 Intercromosómica

Los puntos de ruptura en regiones donantes de los 45 transcritos de fusión anteriores (puntos de ruptura 3' terminales basados en transcritos), secuencias de aminoácidos cerca de puntos de ruptura y exones donde se sitúan los puntos de interrupción se resumieron de acuerdo con cada gen (incluyendo mutantes) en la tabla 48:

[Tabla 48]

Índice: Punto de ruptura de donante (ARN) Secuencia de proteína donante cerca del punto de ruptura Número de exón donante

1: chr2: 42522656] TPGKGPK+1nt EML4(NM 001145076,hebra+),exón12(chr2:42522521-42522656; EML4(NM_019063,hebra+),exón 13(chr2:42522521-42522656;

2: chr10: [32317356 NNDVK KIF5B(NM_004521,hebra-),exón15(chr10:32317356-32317499;

2: chr10: [32306980 KVHKQ KIF5B(NM_004521,hebra-),exón23(chr10:32306980-32307084;

3: chr5: [149784243 DAPPK+1nt CD74(NM 004355,hebra-),exón6(chr5:149784243-149784330;CD74 (NM_001025159,hebra-),exón6(chr5:149784243-149784330;

4: chr4: 25678324] SREAQ+1nt SLC34A2(NM 006424,hebra+),exón13(chr 4:25677757-25680366; SLC34A2(NM 001177998,hebra+),exón13(chr4: 25677757- 25680366;SLC34A2(NM 001177999,hebra+),exón13 (chr4:25677757-25680366;

5: chr10: [61572393 AAQLQ+1nt CCDC6(NM_005436,hebra-),exón5(chr10:61572393-61572553;

6: chr12: [46384136 5UTR SRSF2I P(NM_004719,hebra-),exón1(chr12:46384136-46384401;

7: chr10: [123243212 LTLTTNE FGFR2(NM 001144914,hebra-),exón14(chr10: 123243212- 123243317;FGFR2(NM 001144916,hebra-),exón14 (chr10:123243212-123243317;FGFR2(NM 001144915,hebra-), exon16(chr10:123243212-123243317;FGFR2(NM 001144917,hebra- ),exón15(chr10:123243212-123243317;FGFR2 (NM 001144918,hebra-),exón15(chr10:123243212-123243317; FGFR2(NM 022970,hebra-),exón17(chr10:123243212-123243317; FGFR2(NM 000141,hebra-),exón17(chr10:123243212-123243317; FGFR2(NM 001144913,hebra-),exón16(chr10: 123243212- 123243317;FGFR2(NM 001144919,hebra-),exón16 (chr10:123243212-123243317;

8: chr19: 41765701] LTAAE AXL(NM 021913,hebra+),exón20(chr19:41765458-41767670;AXL (NM_001699,hebra+),exón19(chr19:41765458-41767670;

9: chr11: 130000061] AAQMKSQ APLP2(NM 001642,hebra+),exón11(chr11: 129999933-130000061; APLP2(NM 001142276,hebra+),exón11(chr11: 129999933130000061 ;APLP2(NM 001142278,hebra+),exón7 (chr11: 129999933-130000061;APLP2(NM 001142277,hebra+), exon10(chr11: 129999933-130000061 ;APLP2(NR 024516,hebra+), exón8(chr11: 129999933130000061 ;APLP2(NR 024515,hebra+),exón8(chr11:129999933- 130000061;

10: chr2: [39664033 TYGDVYK MAP4K3(NM_003618, hebra-),exón1(chr2:39664033-39664219;

11: chr17: 59161925] TVIDAAS+1 nt BCAS3(NM 017679,hebra+),exón22(chr17:59161828-59161925; BCAS3(NM 001099432,hebra+), exon23(chr17: 5916182859161925;

12: chr12: [25378548 TSAKTRQ KRAS(NM 004985,hebra-),exón4(chr12:25378548-25378707;KRAS (NM_033360,hebra-),exón4(chr12:25378548-25378707;

13: chr1: 52803606] DKNVSK+2 nt ZFYVE9(NM 007324,hebra+),exón15(chr1: 52803444-52803606; ZFYVE9(NM_004799,hebra+),exón16(chr1:52803444-52803606;

14: chr5: 65372777] QPGDKIIQ ERBB2IP(NM 018695,hebra+),exón24(chr5:65372703-65372777; ERBB2IP(NM 001006600,hebra+),exón23(chr5: 6537270365372777;

15: chr6: 125569529] SKKFGDM+ 2nt TPD52L1(NM 003287,hebra+),exón4(chr6: 125569428-125569529; TPD52L1(NM 001003396,hebra+),exón4(chr6: 125569428- 125569529;TPD52L1(NM 001003397,hebra+),exón4 (chr6:125569428-125569529;TPD52L1(NM 001003395,hebra+), exon4(chr6:125569428-125569529;

16: chr12: 104733051] IHPVCAE TXNRD1(NM 001093771,hebra+),exón16(chr12: 104732917- 104733051;TXNRD1(NM 003330,hebra+), exon14 (chr12:104732917-104733051;TXNRD1(NM 182729,hebra+), exon14(chr12:104732917-104733051;TXNRD1(NM 182743,hebra+), exon13(chr12:104732917-104733051;TXNRD1 (NM_182742,hebra+), exon13(chr12:104732917-104733051;

17: chr1: [29485886 SRCSWQD LK SRSF4(NM_005626,hebra-),exón3(chr1:29485886-29485998;

18: chrX: 68836548] DSQDGHQ EDA(NM 001005610,hebra+),exón1(chrX:6 8835911-68836548;EDA (NM 001005613,hebra+),exón1(chrX:68835911-68836548;EDA (NM 001399,hebra+),exón1 (chrX:68835911- 68836548;EDA(NM 001005609,hebra+),exón1(chrX:68835911- 68836548;EDA(NM 001005612,hebra+),exón1(chrX:68835911- 68836548;

19: chr11: [118921747 SGVLSLDR HYOU1(NM 006389,hebra-),exón14(chr11:118921747-118921885; HYOU1(NM 001130991,hebra-),exón14(chr11: 118921747118921885;

20: chr12: 60098799] LAVMYAG+ 1 nt SLC16A7(NM_004731,hebra+),exón2(chr12:60098553-60098799;

21: chr19: [325635 LNRHCEK+ 1 nt MIER2(NM_017550,hebra-),exón7(chr19:325635-325704;

22: chr11: 66384528] IECDVVK+1 nt RBM14(NM_006328,hebra+),exón1(chr11:66384053-66384528;

23: chr1: [19523635 LSCLYA+1nt UBR4(NM_020765,hebra-),exón8(chr1:19523635-19523759;

24: chr17: 15930016] AAVLMHR+ 1 nt TTC19(NM_017775,hebra+),exón9(chr17:15929854-15930016;

25: chr1: 117156387] VVNVQPT+ 1 nt IGSF3(NM 001542,hebra-),exón4(chr1:117156387-117156797; IGSF3(NM_001007237,hebra-),exón4(chr1: 117156387-117156797;

26: chr17: 6663920] EQAQLGK+ 1 nt XAF1(NM 017523,hebra+),exón4(chr17:66 63725-6663920;XAF1 (NM_199139,hebra+),exón3(chr17:6663725-6663920;

27: chr5: [55290612 5UTR I L6ST(NM 175767,hebra-),exón1 (chr5:55290612-55290821; IL6ST (NM 002184,hebra-),exón1(chr5:55290612- 55290821;IL6ST(NM 001190981,hebra-),exón1(chr5:55290612- 55290821;

28: chr3: 23847579] 5UTR UBE2E1(NM 003341,hebra+),exón1(chr3:2 3847439-23847579; UBE2E1 (NM_182666,hebra+),exón1(chr3:23847439-23847579;

29: chr19: [44079062 TISVVLQ XRCC1(NM_006297,hebra-),exón2(chr19:44079062-44079154;

30: chr21: [40604103 WRKMDLR BRWD1(NM 018963,hebra-),exón25(chr21:40604103-40604210; BRWD1(NM_033656, hebra-),exón25(chr21:40604103-40604210;

31: chr20: 13074224] IRIFKHN+1 nt SPTLC3(NM_018327, hebra+),exón6(chr20: 13074131-13074224;

32: chr6: 144820563] LDTEISWA K UTRN(NM_007124,hebra+),exón33(chr6:14 4820393-144820563;

33: chr17: 1420387] 5UTR LOC100306951(NR 028514,hebra+),exón1 (chr17: 14202131420387;

34: chr2: 135028121] LEKINVA+1 nt MGAT5(NM_002410,hebra+),exón2(chr2:13 5027957-135028121;

35: chr17: 61723434] EHNGER+2 nt MAP3K3(NM 002401,hebra+),exón3(chr17:61723394-61723434; MAP3K3(NM_203351,hebra+),exón4(chr17:61723394-61723434;

36: chr5: [10307737 5UTR CMBL(NM_138809,hebra-),exón1(chr5:10307737-10308168;

37: chr19: 3942267] ASQQDS+2 nt ITGB1BP3(NM_170678,hebra+),exón8(chr19:3942081-3942412;

38: chr19: 34663668] NSTVALAK +1 nt LSM14A(NM 015578,hebra+),exón1(chr19:34663352-34663668; LSM14A(NM_001114093,hebra+),exón1(chr19: 34663352-34663668;

39: chr12: 72176438] LFLDLCK+1 nt RAB21(NM_014999,hebra+),exón6(chr12:72176350-72176438;

40: chr1: 3392626] QLDFSKVK ARHGEF16(NM_014448,hebra+),exón10(chr1:3392534-3392626;

41: chr14: 23316426] 3UTR MMP14(NM_004995,hebra+),exón10(chr14:23314917-23316802;

42: chr11: [2018179 no codificante H19(NR_002196,hebra-),exón1(chr11:2017748-2019065;

43: chr2: [85885042 3UTR SFTPB(NM 000542,hebra-),exón12(chr2:85884441-85886805; SFTPB(NM_198843,hebra-),exón12(chr2:85884441-85885978;

44: chr10: [81319068 GDPGPP+1 nt SFTPA2(NM_001098668,hebra-),exón3(chr10:81319068-81319262;

45: chr19: 49468806] NYSTDVE FTL(NM_000146,hebra+),exón1(chr19:49468566-49468866;

5

Los puntos de ruptura en regiones aceptoras de los 45 transcritos de fusión anteriores (puntos de ruptura 5' terminales basados en transcritos), secuencias de aminoácidos cerca de puntos de ruptura y exones donde se sitúan los puntos de interrupción se resumieron de acuerdo con cada gen (incluyendo mutantes) en la tabla 49:

[Tabla 49]

Índice: Punto de ruptura del aceptor (ARN) Secuencia proteica del aceptor cerca del punto de ruptura Número de exón aceptor

1: chr2: 29446394] 2nt+YRRKH QE ALK(NM_004304,hebra-),exón20(chr2:29446208-29446394;

2: chr10: [43612032 EDPKWEF RET(NM 020630,hebra+),exón12(chr10:43 612032-43612179;RET (NM_020975,hebra+),exón12(chr10:43612032-43612179;

3: chr6: 117645578] 2nt+DFWIP ROS1(NM_002944,hebra-),exón34(chr6:117645495-117645578;

4: chr6: 117650609] 2nt+GVPNK ROS1(NM_002944,hebra-),exón32(chr6:117650492-117650609;

5: chr6: 117642557] 2nt+WHRRL ROS1(NM_002944,hebra-),exón35(chr6:117642422-117642557;

6: chr4: [55124924 5UTR, sin cambio de pauta de lectura PDGFRA(NM_006206,hebra+),exón2(chr4: 55124924-55124984;

7: chr12: 120180269] AHRDEIQ CIT(NM_007174,hebra-),exón23(chr12:120180216-120180269;

8: chr14: 36783814] IDRRI MBIP(NM 016586,hebra-),exón4(chr14:36783718-36783814;MBIP (NM_001144891,hebra-),exón4(chr14:36783718-36783814;

9: chr13: [43174888 ELQHIVG TNFSF11(NM 033012,hebra+),exón5(chr13:43174888-43174933; TNFSF11(NM_003701,hebra+),exón3(chr13:43174888-43174933;

10: chr2: [46070139 IDLEPEGR PRKCE(NM_005400,hebra+),exón2(chr2:46070139-46070202;

11: chr17: 61710041] 2nt+EQEAL NS MAP3K3(NM 002401,hebra+),exón2(chr17:61710041-61710162; MAP3K3(NM_203351,hebra+),exón2(chr17:61710041-61710162;

12: chr16: [83158990 DIFKFAR CDH13(NM_001257, hebra+),exón4(chr16:8 3158990-83159106;

13: chr6: 87797925] 5UTR, sin cambio de pauta de lectura CGA(NM_000735,hebra-),exón2(chr6:87797831-87797925;

14: chr5: [66400194 ATAQMEER MAST4(NM 001164664,hebra+),exón10(chr5:66400194-66400403; MAST4(NM_015183,hebra+),exón9(chr5:66400194-66400403;

15: chr6: [126342306 1nt+YTEEM VP TRMT11(NM_001031712,hebra+),exón12(chr6:126342306-126342426;

16: chr12: [131561346 TRKQHS GPR133(NM_198827,hebra+),exón14(chr12:131561346-131561419;

17: chr1: 31744346] VWDLRQN SNRNP40(NM_004814,hebra-),exón6(chr1:31744226-31744346;

18: chrX: 10463731] VNASRQE MID1(NM 001193277,hebra-),exón4(chrX:10463624-10463731;MID1 (NM 000381,hebra-),exón4(chrX:10463624- 10463731;MID1(NM 033289,hebra-),exón4(chrX:10463624- 10463731;MID1(NM 001098624,hebra-),exón4(chrX: 10463624- 10463731;MID1(NM 033290,hebra-),exón4(chrX:10463624- 10463731;MID1(NM 001193278,hebra-),exón4(chrX: 10463624- 10463731;MID1(NM 001193279,hebra-),exón3(chrX: 10463624- 10463731;MID1(NM_001193280, hebra-),exón3(chrX: 10463624-10463731;

19: chr11: [111175653 5 UTR C11 orf93(NM_001136105,hebra+),exón3(chr11: 111175653-111175707;

20: chr12: [55248900 2nt+NPTTA APAD MUCL1(NM_058173,hebra+),exón2(chr12:5 5248900-55248941;

21: chr19: [3942081 2nt+YLDGM KS ITGB1BP3(NM_170678,hebra+),exón8(chr1 9:3942081-3942412;

22: chr11: 69631191] 2nt+ILEITAV FGF3(NM_005247,hebra-),exón2(chr11:69631088-69631191;

23: chr1: 17332273] 2nt+SSPLV G ATP13A2(NM 001141973,hebra-),exón2(chr1:17332179-17332273; ATP13A2(NM 022089,hebra-),exón2(chr1: 17332179-17332273; ATP13A2(NM_001141974,hebra-),exón2(chr1:17332179-17332273;

24: chr17: 17931973] 2nt+RKRFY QN ATPAF2(NM_145691,hebra-),exón2(chr17:17931929-17931973;

25: chr1: [118035769 2nt+HTSVG GLGD MAN1A2(NM_006699,hebra+),exón9(chr1:118035769-118035884;

26: chr17: [6348396 5UTR, sin cambio de pauta de lectura FAM64A(NM 001195228,hebra+),exón2(chr17:6348396-6348724; FAM64A(NM_019013,hebra+),exón2(chr17:6348396-6348724;

27: chr6: [18215238 KKHSVLM KDM1B(NM_153042,hebra+),exón16(chr6:18215238-18215360;

28: chr6: 100966018] AMLDVAAN ASCC3(NM_006828,hebra-),exón38(chr6:100965867-100966018;

29: chr2: [95713704 IFGGLVW MAL(NM 022438,hebra+),exón2(chr2:9571 3704- 95713871;MAL(NM_002371,hebra+),exón2 (chr2:95713704-95713871;

30: chr17: 63685336] VLQDELE CCDC46(NM 001037325,hebra-),exón4(chr17:63685247-63685336; CCDC46(NM_145036,hebra-),exón24(chr17:63685247-63685336;

31: chrX: [43542761 2nt+LSAAK LL MAOA(NM_000240,hebra+),exón2(chrX:43542761-43542855;

32: chr12: [58109543 FLCDEGA OS9(NM 006812,hebra+),exón6(chr12:58109543- 58109753;OS9(NM 001017956,hebra+),exón6(chr12:58109543- 58109753;OS9(NM 001017957,hebra+),exón6(chr12:58109543- 58109753;OS9(NM 001017958,hebra+),exón6(chr12:58109543- 58109753;

33: chr16: [56870513 PGVIDKF NUP93(NM_014669,hebra+),exón17(chr16:56870513-56870629;

34: chr2: [138758488 2nt+EIDLQI L HNMT(NM_006895,hebra+),exón3(chr2:138758488-138758595;

35: chr17: 62401205] no identificado PECAM1(NM_000442,hebra-),exón1(chr17:62399864-62401205;

36: chr8: [96044223 5UTR C8orf38(NM_152416,hebra+),exón2(chr8:96044223-96044322;

37: chr19: [10870414 1nt+DFLPR GS DNM2(NM 001190716,hebra+),exón2(chr1 9:10870414-10870487; DNM2(NM 004945,hebra+),exón 2(chr19:10870414-10870487;DNM2 (NM 001005361,hebra+),exón2(chr19:10870414-10870487;DNM2 (NM 001005362,hebra+),exón2(chr19:10870414-10870487;DNM2 (NM_001005360,hebra+),exón2(chr19:10870414-10870487;

38: chr19: [38519729 5UTR SI PA1 L3(NM_015073,hebra+),exón2(chr19: 38519729-38519796;

39: chr12: [69924645 5UTR FRS2(NM 006654,hebra+),exón2(chr12:69 924645-69924740;FRS2 (NM_001042555,hebra+),exón3(chr12:69924645-69924740;

40: chr1: 45272510] 5UTR TCTEX1 D4(NM_001013632,hebra-),exón1(chr1:45272456-45272957;

41: chr11: 2018689] no codificante H19(NR_002196,hebra-),exón1(chr11:2017748-2019065;

42: chr19: [13054527 AAEKQMK CALR(NM_004343,hebra+),exón9(chr19:13054527-13055304;

43: chr8: [26501052 1nt+SPPLS PD DPYSL2(NM_001386,hebra+),exón9(chr8:26500955-26501111;

44: chr2: 85885494] 3UTR SFTPB(NM 000542,hebra-),exón12(chr2:85884441-85886805;SFTPB (NM_198843,hebra-),exón12(chr2:85884441-85885978;

45: chr10: 81316285] 3UTR SFTPA2(NM_001098668,hebra-),exón6(chr10:81315609-81317341;

Entre ellos, se generaron 22 genes de fusión (48,9 %) por fusiones intracromosómicas. Usando la amplificación por PCR y la secuenciación de Sanger de los ADNc, se seleccionaron 30 genes de fusión y de ellos se validaron 29 genes de fusión (números 1-29) (véase la tabla 50).

42

: Gen donante Gen aceptor Nombre de cebador directo Secuencia de cebador directo Nombre de cebador inverso Secuencia de cebador inverso

1: KIF5B RET GF1_KIF5B:RET_F TAAGGAA ATGACCA ACCACCA G GF1_KIF5B:RET_R CCTT GACCACTTTT CCAAATTC

2: KRAS CDH13 GF2_KRAS:CDH13_F GGAAATA AATGTGA TTTGCCT TC GF2_KRAS:CDH13_R AAGGCTGTCTCTGA TTCTCTGG

3: APLP2 TNFSF11 GF3_APL P2:TNFSF11_F TGCTGAG AACAAAG ATCGCTT A GF3_APL P2:TNFSF11_R TGTCGGTGGCATTA ATAGTGAG

4: ZFYVE 9 CGA GF4_ZFYVE9:CGA_F ACTGCAG AGAACAT GGATTCC T GF4_ZFYVE9:CGA _R GAATGGAGAACAT GCAGAAACA

5: CCDC 6 ROS1 GF5_CCDC6:ROS1_F CCTGCAG GAAAAAT TAGACCA G GF5_CCDC6:ROS1_R AGCTCAGCCAACT CTTTGTCTT

6: FGFR 2 CIT GF6_FGFR2:CIT_F ACATGAT GATGAG GGACTGT TG GF6_FGFR2:CIT_R ACAGCTGTTACGAA GAGCATCA

7: AXL MBIP GF7_AXL:MBIP_F GCCTGAC GAAATCC TCTATGT C GF7_AXL:MBIP_R CAAAATT CCCT G AC GTTGTTTT

43

8: SCAF11 PDGFRA GF8_SCAF11:PDGFRA_F CAGCGG AGTCAGT GTCCTAG AG GF8_SCAF11:PDGFRA_R T GAGAAGACAGCC TAAGACCAG

9: CD74 ROS1 GF9_CD74:ROS1_F GTCTTTG AGAGCTG GATGCAC GF9_CD74:ROS1_R AGCTCAGCCAACT CTTTGTCTT

10: SLC34 A2 ROS1 GF10_SLC34A2:ROS1_F ATGCCGT CGTCTCC AAGTTC GF10_SLC34A2:R OS1_R ATCTTCAGCTTTCT CCCACTGT

11: TXNR D1 GPR133 GF11_TXNRD1 :GPR133_F TCCAAAT GCTGGA GAAGTTA CA GF11_TXNRD1:G PR133_R AGTACACGAAGACT CGGTTGCT

12: EML4 ALK GF12_EML4:ALK_F GCCAAAA TTTGTGC AGTGTTT A GF12_EML4:ALK _R GGAGCTT GCTCAG CTTGTACTC

13: HYOU 1 C11orf93 GF13_HYOU1:C11 orf93_F CCAGAAT CTGACCA CAGTGAA G GF13_HYOU1:C11 orf93_R AGAAGAT GGT GCA ACTGGGTCT

14: MAP4 K3 PRKCE GF14_MAP4K3:PRKCE_F AGGAGG ACTTCGA GCTGATT C GF14_MAP4K3:PRKCE_R ACGACCCT GAGAG ATCGATGA

44

15: RBM1 4 FGF3 GF15_RBM14:FGF3_F CCAAGG CCTCTTA ATACTTG GA GF15_RBM14:FGF3_R CATAGAGTCGTCC CCTCTTGTT

16: BCAS 3 MAP3K3 GF16_BC AS3:MAP3 K3_F CATCCCG TCCAGTC TCTGAT GF16_B CAS3:MA P3K3_R CTGCCTATTTGAGT GACCTGTG

17: SRSF4 SNRNP40 GF17_SRSF4:SNRNP40_F GAAGTG GCCGAG ATAAATA TGG GF17_S RSF4:SN RNP40_R TAAACTCAGGCCA GTCACTGAA

18: UBR4 ATP13A2 GF18_UBR4:ATP13A2_F ACCCTTT CTCTACC TGTGTTG G GF18_U BR4:ATP 13A2_R AGCTGAGGGGATC TATTGATGT

19: TTC19 ATPAF2 GF19_TTC19:ATPAF2_F CGCTTTG ATGAGGC CTATATT T GF19_TT C19:ATP AF2_R CTGTGTGATGCTGA CATTCTGA

20: TPD52L1 TRMT11 GF20_TPD52L1:TR MT11_F GAAAACA CATGAAA CCCTGAG TC GF20_TP D52L1 :T RMT11_R ATGTGTGACTGGAA AGCTTCTG

21: IGSF3 MAN1A2 GF21_IGSF3:MAN1A2_F CTGACCA GGGCGA ATTCTAC T GF21_IG SF3:MAN 1A2_R TCTTGCCTCATGGT CTGTTTTA

45

22: ERBB2IP MAST4 GF22_ERBB2IP:MAST4_F AACAAGG GTACAAC CTGAAGG A GF22_ERBB2IP:MAST4_R TCAAGGAAGTATCG TGAGGTGA

23: XAF1 FAM64A GF23_XAF1:FAM64A_F GGAGCT CCACGA GTCCTAC TGT GF23_XAF 1: FAM64A_R AGAGGTCTCCTGAT GGCTGAC

24: MIER2 ITGB1BP3 GF24_MIER2:ITGB1BP3_F AGATCAT GGTGGG ACCTCAG T GF24_MIER2:ITGB1BP3_R AGCAGCGAGTTCT GAATGTCTT

25: SLC16A7 MUCL1 GF25_SLC16A7: MUCL1_F GTGGTTG GAGCAG CTTTTAT CT GF25_SLC16A7:MUCL1_R TCATCATCAGCAGG ACCAGTAG

26: ITGB1BP3 DNM2 GF26_ITGB1 BP3:DNM2_F CCTGGAA GACATTC AGAACTC G GF26_ITGB1BP3:DNM2_R TTT GAGAAGAT GAG CTGCAGAA

27: ARHGEF16 TCTEX1D4 GF27 ARHGEF16:TCTEX1 D4 _F GCATGGA GCAGATG TACACG GF27 ARHGEF16:TCTEX 1D4_R T GT GTTTTAGAACA AGT G GATCAGA

28: CMBL C8orf38 GF29_CMBL:C8orf3 8_F CTCTCCC AGGAGG CTACGAC T GF29_CMBL:C8orf38_R T GAGCCAGTT CCA CATTAAAGG

46

29: EDA MIDI GF30_ED A:MID1_F TGACGTT GTGCTGC TACCTAG A GF30_EDA:MID1_R ATCTGTCGTCTTTG CTGAATGA

30: H19 CALR GF28_H19:CALR_F CACCGCA ATTCATT TAGTAGC A GF28_H19:CALR_R GCCTCTCTACAGCT CGTCCTT

5

10

15

20

25

30

35

40

45

50

55

60

65

Ejemplo 3: Validación de genes de fusión

Se validaron las sustancias observadas en el ejemplo 2 usando la secuenciación de Sanger y la amplificación por PCR para ADNc y ADN de genoma.

Usando el mini kit RNeasy (Qiagen), se extrajeron ARN de muestras de tumores. Se extrajeron ADN usando el kit de tejido DNeasy (Qiagen). Para realizar la RT-PCR, se sintetizó la primera cadena de ADNc a partir de 2,5 mg de ARN total usando el sistema de síntesis de primera hebra SuperScript TM III (Invitrogen) incluyendo oligo(dT)20, y a continuación se amplificó usando cada par de cebadores correspondiente a cada gen de fusión (véase la tabla 50). Se realizó la amplificación génica por PCR usando cada par de cebadores y Taq ADN polimerasa de alta fidelidad (Invitrogen).

Se realizó la reacción de PCR en las siguientes condiciones: a 95 °C durante 10 min, a 95 °C durante 30 s - a 62 °C durante 30 s - a 72 °C durante 30 s (30 ciclos), y finalmente a 72 °C durante 10 min. Los cebadores usados en la PCR para detectar la deleción de genoma y la secuenciación de Sanger fueron como sigue: 5'- AACAAGGGTACAACCTGAAGGA-3' y 5'-TCAAGGAAGTATCGTGAGGTGA-3'. Los cebadores usados para los transcritos de fusión son como sigue: 5'-AACAAGGGTACAACCTGAAGGA-3' y 5'-

TCAAGGAAGTATCGTGAGGTGA-3'. Todas las pruebas de secuenciación de Sanger se realizaron de acuerdo con el manual de Macrogen Inc. (
http://www.macrogen.com).

Ejemplo 5: Prueba para la inhibición del crecimiento celular de cáncer sólido por el inhibidor contra la proteína de fusión

Para confirmar si las proteínas de fusión sugeridas participan o no en promover el crecimiento y la supervivencia de líneas celulares o tumores que expresan la proteína de fusión, se trataron las líneas celulares con un inhibidor de cinasa en cada proteína de fusión o el otro dominio en la misma.

Se contaron las células que expresaban la proteína de fusión, y se realizó la determinación de la inhibición del crecimiento celular por el ensayo de proliferación celular CellTiter 96 AQueous One Solution (Promega) de acuerdo con el manual del fabricante. En resumen, se sembraron de 1000 a 5000 células en una placa de 96 pocillos de fondo plano, y se cultivaron en medio completo complementado con FBS al 10 %. 24 horas después, se reemplazó el medio por 100 |jl de medio completo complementado con FBS al 10 % que contenía diversas concentraciones del inhibidor de cada uno de los genes de fusión, y se realizó otro cultivo durante 72 horas. Se aplicó la concentración de cada inhibidor a pocillos por triplicado que contenían células. Cuando se terminó el cultivo, se añadieron 20 jl de solución CellTiter 96 AQueous One Solution a cada pocillo, y se cultivó la placa durante 1-4 horas. Se leyó la absorbancia a 490 nm usando un lector de microplacas. La inhibición de la proliferación celular se puede expresar por el valor promedio ± DE de la lectura de absorbancia de las células tratadas con inhibidor en comparación con las células no tratadas con inhibidor. Se repitió dicho análisis al menos tres veces. De estos análisis, se puede confirmar que la proteína de fusión promueve el crecimiento y la supervivencia de un subconjunto de NSCLC humano en el que se expresa dicha proteína de fusión, y dichas células tumorales se pueden inhibir por inhibición de la actividad de la cinasa u otro dominio en la fusión proteína usando un inhibidor dirigido.

Ejemplo 6: Prueba para promover el crecimiento y la supervivencia de la línea celular de mamífero transformada por la proteína de fusión

Se transformaron células NIH 3T3 por una estructura que incluye ADNc que codifica cada una de las proteínas de fusión para expresar la proteína de fusión, y se usaron las células transformadas para confirmar si la expresión de las proteínas de fusión puede hacer o no que las células normales se transformen en células con fenotipo de cáncer. En resumen, se mantuvieron las células en medio RPMI-1640 (Invitrogen) complementado con suero fetal bovino al 10 % (FBS, Sigma) y 1,0 ng/ml de IL-3 (R&D Systems). Se generó un sobrenadante de retrovirus y se transfectó por procedimientos en general conocidos. Se sometieron células NIH3T3 a transducción con sobrenadante de retrovirus que incluye el vector de expresión pMXs-puro/proteína de fusión, y seleccionaron la puromicina (2 jg/ml). Después de esto, se midieron las capacidades de las células transformadas cultivadas en agar blando. Por dicha medición, se puede confirmar que una expresión de la proteína de fusión puede dar lugar a la transformación de células NIH3T3 y promover la viabilidad y crecimiento de las células en agar blando, mientras que una inhibición de la expresión de la célula de fusión puede dar lugar a una disminución en la viabilidad y un incremento en la apoptosis de las células.

<110> MACROGEN INC.

<120> Proteína de fusión que contiene AXL y composición para el diagnóstico de cáncer <130> OPP20133976KR <150> KR 10-2012-0099616

10

15

<151> 2012-09-07

<160> 205

<170> KopatentIn 1.71

<210> 1 <211> 1425

<212> ADN

<213> Secuencia artificial <220>

<223> CDS del gen CCDC6 (NM_005436) <400> 1

atggcggaca gcgccagcga gagcgacacg gccgccatgc agtcgtcctg ctcgtcgacc ggcggcggtg ggaagtcggg gggcattgtc aaccgcctgg cctcgctgca gcaagagaac aaactgaagt gcaaggcact gcaggaggag atccaagcca gggctgagca ggaagaagaa caggctttgc agaaggagaa agaaaccctt ctcactaatg agctctccag aaaattgatg cagcatcttg aacaagagca ggaatttcag ctggagaatg acaccatttc taagcaactt gaccttgaaa atacattgga acaagaacaa atggataagc ttgaagctga aaagcgaatc gctccaccat cgcctagaga tatctccatg cacatcaggt ttttaaagaa tgaagtggaa ttacagcatt cagagaaaat ggcacagtat aacttgaggc tccagaggaa gctgcagagg cagctctccg agagtgagtc cagcttagaa tctgcacaag gattaagacc tcgcactgtg agttcaagca ggcctatatc acctggtcta ccaccaactt cactgactag agctggaatg cagcacatgg gaacatccca tggtatcaca gacaaattca aacggcccac gccgcctcca cctccgcctc cacctccgcc acccatgcag cctactcctt cgcaacattc ggcgcacccc

<210> 2

<211> 847

<212> ADN

gacggggcgg ggggcaacag cagcagctcg tcgggcggcg gcggtggcgg cgggggaggc atctcgccgt tccgcctgga ggagctcacc aaggtgctga agatagagct ggagacctac aaccgcgacc tgcgcaaagc cagcgtgacc ttcattagta acactttatt caagaaaatt gctgtaaatt atgagaaaga agaagaattc cagttgcagc atgagaaagc cgaactagaa gtcaacaaac tgatgaagaa aattaaaaaa acattagaac agttgagacg ggagaagatt gaagcactag ttaatcgcct ctggaaaagg ctgcaggaaa aattagacca gcccgtctct gagattgatt ctccagaaaa tatgatgcgt cggctgaaga agcaactgag agctgctcag ctggaggagg aacgtcacat gagagaagag gagatggaga gaagagaagc cctctgtcga atggacgacg aaaggtattt taatgagatg tccagcccga tcccttacac accttctccg tcatatgcaa gtcacacggt tggtttcacg tcttattaca attccccggg tcttcacgtg aggccttcac cacggagaag caacagtcct tctcccaaca cacagacccc agtccagcca cccacggtcc cctcagcagc cacctcgcag tcctcccagc cttaa

60

120

180

240

300

360

420

480

540

600

660

720

780

840

900

960

1020

1080

1140

1200

1260

1320

1380

5

10

15

20

25

30

<213> Secuencia artificial <220>

<223> fragmento del gen CCDC6 <400> 2

atggcggaca: gcgccagcga gagcgacacg gacggggcgg ggggcaacag cagcagctcg 60

gccgccatgc: agtcgtcctg ctcgtcgacc tcgggcggcg gcggtggcgg cgggggaggc 120

ggcggcggtg: ggaagtcggg gggcattgtc atctcgccgt tccgcctgga ggagctcacc 180

aaccgcctgg: cctcgctgca gcaagagaac aaggtgctga agatagagct ggagacctac 240

aaactgaagt: gcaaggcact gcaggaggag aaccgcgacc tgcgcaaagc cagcgtgacc 300

atccaagcca: gggctgagca ggaagaagaa ttcattagta acactttatt caagaaaatt 360

caggctttgc: agaaggagaa agaaaccctt gctgtaaatt atgagaaaga agaagaattc 420

ctcactaatg: agctctccag aaaattgatg cagttgcagc atgagaaagc cgaactagaa 480

cagcatcttg: aacaagagca ggaatttcag gtcaacaaac tgatgaagaa aattaaaaaa 540

ctggagaatg: acaccatttc taagcaactt acattagaac agttgagacg ggagaagatt 600

gaccttgaaa: atacattgga acaagaacaa gaagcactag ttaatcgcct ctggaaaagg 660

atggataagc: ttgaagctga aaagcgaatc ctgcaggaaa aattagacca gcccgtctct 720

gctccaccat: cgcctagaga tatctccatg gagattgatt ctccagaaaa tatgatgcgt 780

cacatcaggt: ttttaaagaa tgaagtggaa cggctgaaga agcaactgag agctgctcag 840

ttacagc: 847

<210> 3 <211> 16 <212> ADN

<213> Secuencia artificial <220>

<223> Secuencia del punto de ruptura del fragmento del gen CCDC6 <400> 3

gctgctcagt tacagc 16

<210>: 4

<211 >: 474

<212>: PRT

<213>: Secuencia artificial

<220>

<223>: Proteína CCDC6

<400>: 4

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

1. Una proteína de fusión AXL-MBIP, que comprende un fragmento de proteína tirosina cinasa receptora AXL (AXL) en la parte N terminal y un fragmento de proteína 1 inhibidora de unión a MAP3K12 (MBIP) en la parte C terminal, que se unen entre sí, en la que

el fragmento de proteína AXL comprende una secuencia de aminoácidos codificada por una secuencia de nucleótidos del 1° exón al 244° nucleótido del exón 20 de NM_021913 o NM_001699, y

el fragmento de proteína MBIP comprende una secuencia de aminoácidos codificada por una secuencia de nucleótidos del exón 4 al último exón de NM_016586 o NM_001144891.
2. La proteína de fusión de la reivindicación 1, que se codifica por un gen de fusión que comprende una secuencia de nucleótidos de las posiciones 191 a 2767 de NM_021913 en la parte 5' terminal y una secuencia de nucleótidos de las posiciones 563 a 1123 de NM_016586 en la parte 3' terminal, que se unen entre sí.
3. La proteína de fusión de la reivindicación 2, que comprende la secuencia de aminoácidos de SEQ ID NO: 47.
4. Un gen de fusión que codifica la proteína de fusión de una cualquiera de las reivindicaciones 1 a 3.
5. El gen de fusión de la reivindicación 4, que comprende la secuencia de nucleótidos de SEQ ID NO: 45.
6. La proteína de fusión de una cualquiera de las reivindicaciones 1 a 3, un gen de fusión que codifica la proteína de fusión o ARNm correspondiente al gen de fusión, para su uso como marcador para diagnosticar un cáncer.
7. Una composición que comprende al menos uno seleccionado del grupo que consiste en materiales que interactúan con la proteína de fusión de una cualquiera de las reivindicaciones 1 a 3, y un material que interactúa con un gen de fusión que codifica la proteína de fusión o ARNm correspondiente al gen de fusión, para su uso en el diagnóstico de un cáncer sólido, siendo el cáncer sólido un cáncer de pulmón,

en la que el material que interactúa con la proteína de fusión se selecciona del grupo que consiste en anticuerpos y aptámeros, que se unen a una región de fusión de SEQ ID NO: 48 de la proteína de fusión, y

en la que el material que interactúa con el gen de fusión que codifica la proteína de fusión o ARNm correspondiente al gen de fusión es al menos uno seleccionado del grupo que consiste en:

pares de cebadores, en los que cada par de un par de cebadores se puede hibridar con 1) una secuencia de nucleótidos que consiste en de 20 a 100 nucleótidos consecutivos adyacente a uno u otro extremo de un fragmento polinucleotídico o fragmento de ARNm correspondiente al fragmento polinucleotídico, en el que el fragmento polinucleotídico consiste en de 50 a 250 nucleótidos consecutivos dentro del gen de fusión, que comprende una región de fusión del gen de fusión, o 2) una secuencia de nucleótidos complementaria a la misma, y

oligonucleótidos antisentido, sondas y aptámeros, que tienen de 5 a 100 pb de longitud y que se pueden hibridar con una región de fusión del gen de fusión o región de ARNm correspondiente a la región de fusión,

en la que la región de fusión comprende la secuencia de nucleótidos de SEQ ID NO: 46.
8. La composición para su uso de la reivindicación 7, en la que el par de cebadores comprende SEQ ID NO: 188 y SEQ ID NO: 189.
9. La composición para su uso de la reivindicación 7 u 8, en la que el cáncer sólido es un carcinoma de pulmón no microcítico (NSCLC).
10. La composición para su uso de una cualquiera de las reivindicaciones 7 a 9, que comprende además al menos un material que interactúa con al menos una seleccionada del grupo que consiste en:

la proteína de fusión CCDC6-ROS1 que comprende la proteína CCDC6 o un fragmento de la misma y la proteína ROS1 o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión FGFR2-CIT que comprende la proteína FGFR2 o un fragmento de la misma y la proteína CIT o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión APLP2-TNFSF11 que comprende la proteína APLP2 o un fragmento de la misma y la proteína TNFSF11 o un fragmento de la misma, que se fusionan entre sí;

5

10

15

20

25

30

35

40

45

50

la proteína de fusión MAP4K3-PRKCE que comprende la proteína MAP4K3 o un fragmento de la misma y la proteína PRKCE o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión BCAS3-MAP3K3 que comprende la proteína BCAS3 o un fragmento de la misma y la proteína MAP3K3 o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión KRAS-CDH13 que comprende la proteína KRAS o un fragmento de la misma y la proteína CDH13 o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión ZFYVE9-CGA que comprende la proteína ZFYVE9 o un fragmento de la misma y la proteína CGA o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión ERBB2IP-MAST4 que comprende la proteína ERBB2IP o un fragmento de la misma y la proteína MAST4 o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión TPD52L1-TRMT11 que comprende la proteína TPD52L1 o un fragmento de la misma y la proteína TRMT11 o un fragmento de la misma, que se fusionan entre sí;

la proteína de fusión TXNRD1-GPR133 que comprende la proteína TXNRD1 o un fragmento de la misma y la proteína GPR133 o un fragmento de la misma, que se fusionan entre sí;

los genes de fusión que codifican la proteína de fusión; y

el gen de fusión SCAF11-PDGFRA que comprende la región 5UTR de SCAF11 que consiste en el exón 1 de NM_004719 y una secuencia de nucleótidos del exón 2 al último exón de NM_006206, que se fusionan entre sí,

en la que el material que interactúa es al menos uno seleccionado del grupo que consiste en:

un

par de cebadores de SEQ ID NO: 182 y SEQ ID NO: 183;

un

par de cebadores de SEQ ID NO: 184 y SEQ ID NO: 185;

un

par de cebadores de SEQ ID NO: 186 y SEQ ID NO: 187;

un

par de cebadores de SEQ ID NO: 190 y SEQ ID NO: 191;

un

par de cebadores de SEQ ID NO: 192 y SEQ ID NO: 193;

un

par de cebadores de SEQ ID NO: 194 y SEQ ID NO: 195;

un

par de cebadores de SEQ ID NO: 196 y SEQ ID NO: 197;

un

par de cebadores de SEQ ID NO: 198 y SEQ ID NO: 199;

un

par de cebadores de SEQ ID NO: 200 y SEQ ID NO: 201;

un

par de cebadores de SEQ ID NO: 202 y SEQ ID NO: 203; y

un

par de cebadores de SEQ ID NO: 204 y SEQ ID NO: 205.