ES2907028T3

ES2907028T3 - Método para confirmar variantes en una prueba de panel de NGS mediante genotipado de SNP

Info

Publication number: ES2907028T3
Application number: ES18756472T
Authority: ES
Inventors: Cécile Cazeneuve; Sandrine Noel
Original assignee: Assistance Publique Hopitaux de Paris APHP
Current assignee: Assistance Publique Hopitaux de Paris APHP
Priority date: 2017-08-29
Filing date: 2018-08-28
Publication date: 2022-04-21
Anticipated expiration: 2038-08-28
Also published as: WO2019043015A1; DK3679155T3; EP3679155A1; US20210180128A1; CA3074244A1; EP3679155B1; PT3679155T

Abstract

Método para validar resultados de genotipado de secuenciación de próxima generación (NGS) de un panel de genes sometido a prueba en una serie de por lo menos 2 pacientes, caracterizado por que dicha validación es proporcionada por un ensayo de perfilado de SNP, comprendiendo dicho método las etapas de: a) determinar el genotipo para una combinación de por lo menos 8 SNP mediante un ensayo de perfilado de SNP independiente que utiliza las muestras de ADN primarias utilizadas para obtener dichos resultados de genotipado de NGS, incluyendo dichos resultados de genotipado de NGS el genotipo para dichos SNP; b) comparar los genotipos de SNP obtenidos mediante dicho ensayo de perfilado de SNP y el ensayo de NGS; c) validar o no los resultados de genotipado de NGS basándose en dicha comparación, en el que: 1) si no existen dos pacientes de la serie con perfiles de SNP idénticos y dichos genotipos de SNP obtenidos mediante dicho ensayo de perfilado de SNP y dicho ensayo de NGS son idénticos, a continuación se validan los resultados de genotipado de NGS; y 2) si dos pacientes presentan unos perfiles de SNP idénticos pero los resultados de genotipado de NGS son diferentes, se lleva a cabo además un ensayo de secuenciación (por ejemplo, secuenciación de Sanger) para estos dos pacientes, para validar sus resultados de genotipado de NGS; y 3) en otros casos, los resultados de genotipado de NGS no son validados y resulta necesaria una validación adicional; en el que dichos SNP presentan las características siguientes: i. no están localizados en una secuencia repetida del genoma; ii. son bialélicos; iii. las secuencias flanqueantes de 60 bases en ambos lados del sitio de SNP presentan un contenido de GC <70% y un contenido de AT <70%; iv. no están asociados a una patología conocida.

Description

DESCRIPCIÓN

Método para confirmar variantes en una prueba de panel de NGS mediante genotipado de SNP

Campo técnico de la invención

La presente invención se refiere al campo de los métodos para validar los resultados de genotipado obtenidos mediante secuenciación de próxima generación (NGS) para una serie de pacientes, a fin de detectar los intercambios erróneos de muestras y evitar los diagnósticos equivocados. En particular, la presente invención se refiere a un método para validar los resultados de genotipado de NGS mediante el genotipado de polimorfismos de nucleótido único (SNP) de un panel específico, adaptado para la PCR múltiple (“multiplex”) específica de alelo, que permite una validación precisa de los datos de NGS mediante emparejamiento de muestras. La presente invención se refiere además a un kit que comprende un conjunto optimizado de cebadores para detectar dicho panel de NGS y su utilización para la validación de los resultados de genotipado de NGS.

Antecedentes de la técnica

La NGS se refiere a tecnologías de secuenciación de alto rendimiento en las que se secuencian moldes de ADN amplificados clonalmente o moléculas individuales de ADN, masivamente en paralelo en una celda de flujo. La secuenciación se lleva a cabo en un procedimiento repetitivo en etapas o en tiempo real en continuo. En virtud del procedimiento altamente paralelo, cada molde clonal o molécula individual se secuencia “ individualmente” y puede contarse entre el total de secuencias generadas. Lo anterior ha colocado el NGS como el método de elección para análisis genéticos complejos a gran escala (Voelkerding et al., 2010).

Sin embargo, los flujos de trabajo de NGS son muy complejos y comprenden múltiples etapas de procesamientos, tales como la preparación de bibliotecas, el control de calidad de las muestras de ADN, la amplificación de bibliotecas de muestras, la secuenciación y el procedimiento bioinformático. Como consecuencia de las numerosas transferencias de líquidos, incubaciones y etapas de purificación, así como la adición de adaptadores que contienen un índice (secuencias de ADN monocatenario cortas añadidas al extremo de los fragmentos de biblioteca que permiten la identificación de la muestra mediante secuenciación), las combinaciones erróneas de muestras resultan posibles y difíciles de detectar. Sin embargo, en el marco del diagnóstico de las enfermedades hereditarias, resulta crucial determinar los resultados de genotipado por varios motivos. En primer lugar, los resultados de genotipado presentan consecuencias para el asesoramiento genético y análisis moleculares adicionales para el caso índice, así como para su familia: por lo tanto, la presencia de una o más mutaciones en el caso índice debe ser absolutamente cierta. En segundo lugar, el laboratorio puede identificar una o más variaciones genéticas de significado desconocido en el momento del análisis de NGS: esta variante o variantes, que no pueden utilizarse para el asesoramiento genético en este momento, pueden, según futuros datos científicos publicados, interpretarse posteriormente como uno o más polimorfismos o una o más mutaciones causantes de enfermedad. En este último caso, dicha nueva interpretación debe comunicarse al caso índice, con las mismas consecuencias para el asesoramiento genético y análisis adicionales que se han mencionado anteriormente.

Con el fin de validar los resultados de genotipado de NGS e identificar posibles combinaciones erróneas de muestras, se encuentran disponibles diversas técnicas, tales como la instalación de códigos de barras para el rastreo de muestras (G. Matthijs et al., 2016) o la secuenciación de Sanger, que es el método más utilizado actualmente para confirmar las mutaciones identificadas mediante el ensayo de NGS. Sin embargo, dicha técnica resulta muy costosa en términos de tiempo de técnico y reactivos y habitualmente se restringe a los pacientes que se presentan con una mutación causante de enfermedad (no todos los pacientes en una serie se presentan con dichas mutaciones).

Se ha propuesto un panel de polimorfismos de nucleótidos únicos (SNP) para facilitar la validación de origen de los datos en estudios de secuenciación de exomas completos (SEC) (Pengelly et al., 2013). Dichos SNP se seleccionan preferentemente en regiones codificantes de proteína del genoma, en particular en genes de interés clínico, que son la diana en estudios de SEC. Por lo tanto, el estudio de dichos SNP puede conducir a la detección de resultados no deseados en las regiones circundantes a los SNP, aunque, sin embargo, pueden resultar adecuados para la utilización en una PCR múltiplex específica de alelo.

Por lo tanto, se requiere un nuevo método fiable para validar los resultados de genotipado de NGS, que resulta de mayor relación de coste-eficacia, fácil de utilizar y que reduce el riesgo de detección de resultados no deseados.

Por lo tanto, el solicitante ha encontrado que la validación de los resultados de genotipado de NGS podría obtenerse mediante rastreo de muestras que consistía en la comparación del genotipo de un juego particular de SNP obtenido mediante el ensayo de NGS que proporcionó dicho resultado de genotipado de NGS e, independientemente, de las muestras de ADN “primarias” mediante otro método, denominado en la presente memoria ensayo de perfilado de SNP.

Por lo tanto, la presente invención se refiere a un método para validar los resultados de genotipado de NGS de un panel de genes analizados en una serie de por lo menos 2 pacientes caracterizados por que dicha validación se proporciona mediante el ensayo de perfilado de SNP. Los resultados de genotipado de NGS no necesitan ser confirmados mediante otra técnica en el caso de que los resultados del ensayo de perfilado de NGS sean estrictamente idénticos a los resultados de genotipado de NGS correspondientes y en el caso de que no haya dos pacientes de la serie con perfiles de SNP idénticos. En contraste, en el caso de que no haya dos perfiles de SNP idénticos en la serie de pacientes, los resultados del ensayo de perfilado de SNP no estrictamente idénticos a los resultados de genotipado de NGS revelarán una combinación errónea de muestras. En este caso, no resulta necesaria una validación adicional.

En el caso de que dos pacientes de la serie presenten el mismo perfil de SNP, o bien son realmente personas diferentes (resultados de genotipado de NGS que muestran muchas diferencias) o la misma muestra de ADN ha sido sometida a ensayo erróneamente dos veces (resultados de genotipado de NGS idénticos para los dos identificadores).

En el primer caso (perfiles de SNP idénticos, aunque resultados de genotipado de NGS diferentes), debería llevarse a cabo a continuación un ensayo de secuenciación (por ejemplo, secuenciación de Sanger) para validar los resultados de genotipado de NGS para ambos pacientes.

En el segundo caso (mismos resultados de perfil de SNP e idénticos resultados de genotipado de NGS), las muestras biológicas de un único paciente han sido erróneamente identificadas como originadas en dos pacientes diferentes. En este caso, resulta necesaria una validación adicional: por ejemplo, deben solicitarse nuevas muestras biológicas de ambos pacientes y someterse a ensayo (mediante cualquier método adecuado, en particular el mismo ensayo de perfilado de SNP) a fin de determinar cuál ha sido sometida a ensayo en los ensayos de NGS y de perfilado de SNP.

Sumario de la invención

En el contexto de la presente invención, los inventores han descubierto inesperadamente que los resultados de genotipado de NGS podrían validarse eficientemente mediante rastreo de las muestras basándose en la comparación de un perfil de SNP, que consiste en el genotipo de un grupo de SNP particulares, obtenido tanto mediante el ensayo de NGS que proporcionó dichos resultados de genotipado de NGS e, independientemente, de las muestras de ADN “primarias” de los pacientes sometidos a ensayo, mediante el ensayo de perfilado de SNP. Los SNP se seleccionan específicamente de acuerdo con las características siguientes:

i. están situados en una secuencia repetida del genoma,

ii. son bialélicos,

iii. las secuencias flanqueantes de 60 bases en ambos lados del sitio de SNP presentan un contenido de GC <70% y un contenido de AT >70%,

iv. no están asociados a una patología conocida.

En un primer aspecto, la presente invención de esta manera se refiere a un método para validar los resultados de genotipado de NGS de un panel de genes sometido a ensayo en una serie de por lo menos 2 pacientes caracterizada por que dicha validación es proporcionada por el ensayo de perfilado de SNP, en el que dicho método comprende las etapas de:

a) determinar el genotipo para una combinación de por lo menos 8 SNP mediante un ensayo de perfilado de SNP independiente utilizando las muestras de ADN primarias utilizadas para obtener dichos resultados de genotipado de NGS, en el que dichos resultados de genotipado de NGS incluyen el genotipo para dichos SNP,

b) comparar los genotipos de SNP obtenidos mediante dicho ensayo de perfilado de SNP y dicho ensayo de NGS, y

c) validar o no los resultados de genotipado de NGS basándose en dicha comparación, en la que:

1) en el caso de que no haya dos pacientes de la serie con perfiles de SNP idénticos y dichos genotipos de SNP obtenidos mediante dicho ensayo de perfilado de SNP y dicho ensayo de n Gs son idénticos; a continuación, se validan los resultados de genotipado de NGS, y

2) en el caso de que dos pacientes presenten perfiles de SNP idénticos pero los resultados del genotipado de NGS sean diferentes, se lleva a cabo adicionalmente un ensayo de secuenciación (por ejemplo, secuenciación de Sanger) para dichos dos pacientes, con el fin de validar sus resultados de genotipado de NGS, y

3) En otros casos, los resultados de genotipado de NGS no son validados y resulta necesaria una validación adicional,

en los que dichos SNP presentan las características siguientes:

i. están situados en una secuencia repetida del genoma,

ii. son bialélicos,

iv. no están asociados a una patología conocida.

En un segundo aspecto, se proporciona un kit para la detección de una combinación de por lo menos 8 SNP según la invención, que comprende cebadores específicos para detectar dichos SNP mediante reacción en cadena de la polimerasa específica de alelo (PCR específica de alelo) y preferentemente comprende además reactivos de PCR múltiplex, y/o sondas o cebadores oligonucleótidos de n Gs diseñados para capturar o amplificar secuencias que comprenden dichos 8 o más SNP.

En un tercer aspecto, se proporciona un método para detectar polimorfismos en el ADN de pacientes, que comprende la realización, preferentemente en paralelo, de las dos etapas siguientes:

a) detectar polimorfismos mediante ensayo de NGS, y

b) validar los resultados de genotipado de NGS utilizando el método según la invención.

Descripción de las figuras

Figura 1: amplificación por PCR específica de alelo utilizado cebadores que diferencian los alelos 1 y 2 de cada polimorfismo según el tamaño de los productos de PCR. A. PCR AS1: hibridación del cebador de hebra de sentido (“sense strand”) específico para el alelo 1 (cebador AS1) con los alelos 1 y 2 resulta en un producto de PCR de n pares de bases (pb) de tamaño y en ningún producto de PCR, respectivamente. PCR AS2: hibridación de cebador de hebra de sentido específico para el alelo 2 (cebador AS2) con los alelos 1 y 2 resulta en ningún producto de PCR y en un producto de PCR de n+3pb, respectivamente, en el que el último es generado en la presente forma de realización mediante la adición de 3 bases al extremo 5' del cebador AS2. B. Tamaño de los productos de PCR que resulta de la amplificación con ambos cebadores AS1 y AS2, según el genotipo de SNP. : presencia; -: ausencia. El cebador de la hebra complementaria no se encuentra representado.

Figura 2: resultados (electroferogramas) del ensayo de perfilado de SNP de tres pacientes. Se determinó el genotipo para cada SNP a partir de la presencia de: únicamente un pico correspondiente al alelo 1 (genotipo 1/1), o únicamente un pico correspondiente al alelo 2 (genotipo 2/2), o la presencia de dos picos, correspondiente a los alelos 1 y 2 (genotipo 1/2).

Descripción detallada de la invención

En el contexto de la presente invención, los inventores han descubierto inesperadamente que los resultados de genotipado de NGS podrían validarse eficientemente mediante rastreo de las muestras basándose en la comparación de un perfil de SNP, que consiste en el genotipo de un grupo de SNP particulares, obtenido tanto mediante el ensayo de NGS que proporcionó dichos resultados de genotipado de NGS e, independientemente, de las muestras de ADN “primarias” de los pacientes analizados mediante el ensayo de perfilado de SNP. Los SNP se seleccionan específicamente de acuerdo con las características siguientes:

i. están situados en una secuencia repetida del genoma,

ii. son bialélicos,

iv. no están asociados a una patología conocida.

La presente invención de esta manera proporciona un método para validar los resultados de genotipado de NGS de un panel de genes analizados en una serie de por lo menos 2 pacientes caracterizada por que dicha validación es proporcionada por el ensayo de perfilado de s Np , en el que dicho método comprende las etapas de: a) determinar el genotipo para una combinación de por lo menos 8 SNP mediante un ensayo de perfilado de SNP independiente utilizando las muestras de a Dn primarias utilizadas para obtener dichos resultados de genotipado de NGS, en el que dichos resultados de genotipado de NGS incluyen el genotipo para dichos SNP,

en los que dichos SNP presentan las características siguientes:

i. están situados en una secuencia repetida del genoma,

ii. son bialélicos,

iv. no están asociados a una patología conocida.

La expresión “muestra biológica” se refiere a cualquier muestra que comprende ácidos nucleicos, tal como cualquier tejido (de biopsia, por ejemplo), o cualquier tipo de célula (aislada o presente en un líquido corporal). Preferentemente, la muestra biológica deriva de un ser humano o animal, preferentemente un ser humano. Preferentemente, la muestra se seleccionó de entre el grupo que consiste en células (sanas o no, por ejemplo, células tumorales), tejido (por ejemplo, muestras de tejido orgánico, tal como pulmón, riñón o hígado) y líquidos corporales (por ejemplo, sangre, productos sanguíneos, tales como capas leucocitarias, plasma y suero, orina, licor, esputo, heces, LCR (líquido cefalorraquídeo) y esperma, hisopos epiteliales, biopsias y muestras de médula ósea). La expresión “muestra biológica” incluye además muestras procesadas, tales como muestras conservadas, fijadas y/o estabilizadas. La expresión “muestra biológica” incluye además muestras artificiales que comprenden ácidos nucleicos, tales como composiciones que comprenden ácidos nucleicos ya purificados.

La expresión “muestras de ADN primario” se refiere a muestras de ADN que se obtienen directamente de una muestra biológica de un paciente, a partir de la que se extraen alícuotas para llevar a cabo, en paralelo, el ensayo de NGS y el ensayo de perfilado de SNP. Preferentemente, dichas muestras de ADN primario no han sido amplificadas o diluidas, aunque puede haberse llevado a cabo la misma transformación limitada de la muestra (por ejemplo, extracción del ADN genómico o extracción del ARNm seguido de la transcripción inversa para obtener ADNc). El término “ADN” se refiere a ADN genómico o ADNc, preferentemente ADN genómico (se requiere una menor transformación de las muestras biológicas en el caso de que por lo menos un SNP no se encuentre en las regiones codificantes).

Número de SNP y criterios de selección

Tal como se utiliza en la presente memoria, la expresión “polimorfismo de nucleótido único” o “SNP” se refiere a un sitio polimórfico ocupado por un único nucleótido, que es el sitio de variación entre secuencias alélicas. El sitio está habitualmente precedido y seguido por secuencias altamente conservadas del alelo (por ejemplo, secuencias que varían en menos de 1/l0o o 1/1o0o miembros de las poblaciones). Un polimorfismo de nucleótido único habitualmente se genera debido a la sustitución de un nucleótido por otro en el sitio polimórfico. Los polimorfismos de nucleótido único asimismo pueden aparecer por una deleción de un nucleótido o una inserción de un nucleótido respecto a un alelo de referencia. Los SNP son variaciones de secuencia comunes en el genoma humano, y cada individuo presenta una combinación única de dichas variaciones de nucleótidos. La expresión “ensayo de perfilado de SNP” se refiere a que, para cada muestra de ADN primaria obtenida de un paciente, se detectan varios SNP y se combinan para determinar la combinación o perfil de dichas variaciones de nucleótidos. De esta manera, la expresión “validar resultados de NGS” se refiere a que se comparan los perfiles de SNP obtenidos en el ensayo de perfilado de SNP independiente con los resultados de genotipado de NGS obtenidos de la misma muestra de ADN primaria. Un perfil estrictamente idéntico valida los resultados de genotipado de NGS.

El número mínimo de SNP que debe analizarse con el fin de validar los resultados de genotipado de NGS depende del número N de pacientes sometidos a ensayo en el ensayo de NGS y de la frecuencia de los dos alelos de cada SNP en la población de pacientes sometida a ensayo. Para los SNP bialélicos, la expresión “frecuencia de alelo menor (MAF)” se refiere a la frecuencia a la que se encuentra el alelo menos común (alelo menor o alelo 2) en una población dada. El alelo 1 se refiere al alelo más común en dicha población. La MAF proporciona información para diferenciar entre las variantes comunes (MAF >1%) y las variantes raras (MAF <1%) en la población.

Por lo tanto, la probabilidad P de que por lo menos 2 pacientes de entre N pacientes presenten el mismo perfil de SNP se define mediante la fórmula siguiente:

JV(JV-l)

P = 1 - (1 - F(pi, - , p j ) 2

en la que “p” es la frecuencia del alelo 1 (frecuencia del alelo 2 es “1-p”),

en la que “n” es el número de SNP sometidos a ensayo,

en la que "F(pi, ..., pn)" es la probabilidad de que 2 pacientes presenten el mismo perfil de SNP para los n SNP. F(pi, ..., pn) = f(pi)_f(pn), en la que f(p) es la probabilidad de que dos pacientes presenten el mismo genotipo para un s Np . f(p) = (p2)2 [2p(1-p)]2 [(1-p)2]2, en la que p2, 2p(1-p) y (1-p)2 es la probabilidad de que un paciente presente el genotipo 1/1, el genotipo 1/2 y el genotipo 2/2, respectivamente.

Por ejemplo, las probabilidades P de que 2 pacientes presenten el mismo perfil de SNP con una combinación de 12 SNp (MAF=0.4 para cada SNP) según el tamaño de la serie son las siguientes:

• 0.0007 para una serie de 12 pacientes,

• 0.0030 para una serie de 24 pacientes,

• 0.0121 para una serie de 48 pacientes,

• 0.0481 para una serie de 96 pacientes.

P debe ser tan bajo como resulte posible (para evitar la necesidad de validación adicional mediante secuenciación). Preferentemente, los SNP se seleccionan de manera que P sea <10%, preferentemente <9%, más preferentemente <5% o todavía más preferentemente <1%.

Dependiendo de la MAF del juego seleccionado de SNP en la población diana, el número de pacientes en la serie y la probabilidad deseada de que 2 pacientes de la serie presente el mismo perfil de SNP, el experto en la materia determinará fácilmente el número mínimo de SNP que debe analizarse para validar los resultados de genotipado de NGS basándose en la fórmula anteriormente indicada.

Por ejemplo, el número mínimo de SNP que debe analizarse con el fin de validar los resultados de genotipado de NGS, con una probabilidad de presentar 2 pacientes idénticos en una serie de “N” pacientes que sea inferior a 5%, puede ser tal como se muestra en la tabla 1, a continuación. En una forma de realización particular, el método según la invención comprende, de esta manera, la etapa de detectar por lo menos n SNP según el número N de pacientes:

Tabla 1: número mínimo de SNP que debe analizarse con el fin de validar los resultados de genotipado de NGS.

Con el fin de limitar el número mínimo de SNP que debe analizarse para validar los resultados de genotipado de NGS, los SNP seleccionados preferentemente no deberían presentar un desequilibrio de ligamiento significativo (preferentemente no presentan desequilibrio de ligamiento) entre sí y presentar una frecuencia de alelo menor (MAF) para la población sometida a ensayo comprendida entre 0.1 y 0.5.

Por lo tanto, en una forma de realización preferida, los SNP según la invención presentan además una o las dos características siguientes:

v. no presentan un desequilibrio de ligamiento (LD) significativo (preferentemente no presentan LD) entre sí,

vi. presentan una frecuencia de alelo menor (MAF) para una población comprendida entre 0.1 y 0.5, preferentemente entre 0.2 y 0.5, más preferentemente entre 0.25 y 0.5, todavía más preferentemente entre 0.275 y 0.5, todavía más preferentemente entre 0.3 y 0.5, todavía más preferentemente entre 0.325 y 0.5, todavía más preferentemente entre 0.35 y 0.5, todavía más preferentemente entre 0.375 y 0.5, más preferentemente entre 0.4 y 0.5.

Preferentemente, dichas SNP según la invención presentan las características v. y vi.

La expresión “desequilibrio de ligamiento” (asimismo denominado LD) se define como la tendencia de los alelos en loci próximos en genomas haploides a estar correlacionados en la población. Se dice que los loci se encuentran en desequilibrio de ligamiento en el caso de que la frecuencia de asociación de sus diferentes alelos sea superior o inferior a la que se esperaría en el caso de que los loci fuesen independientes y se asociasen de manera aleatoria. Por ejemplo, b y c, alelos en loci próximos B y C, se dice que están en desequilibrio de ligamiento si el haplotipo “b c” (un haplotipo se define como un juego de alelos en el mismo segmento cromosómico) presenta una frecuencia que es estadísticamente superior a f(b) x f(c) (frecuencia esperada en el caso de que los alelos se segreguen independientemente, en donde f(b) es la frecuencia del alelo b, y f(c) es la frecuencia del alelo c).

El término “población” se refiere en la presente memoria a un grupo de individuos que se determina a partir de criterios geográficos, temporales y/o de herencia genética. Por ejemplo, las poblaciones americana-europea y afroamericanas se definen en el NHLBI Exome Sequencing Project (ESP) basándose en los datos de pacientes recogidos por los médicos (Auer et al., 2016) y el Exome Aggregation Consortium (ExAC) ha realizado un análisis de componentes principales (PCA) para distinguir los ejes principales de ascendencia geográfica y para identificar los agregados poblacionales correspondientes a los individuos de ascendencia europea finlandesa, europea no finlandesa, africana, de Asia meridional, de Asia oriental y latina (Lek et al., 2016).

Por ejemplo, en el caso de que un elemento genético particular (por ejemplo, un alelo de un marcador polimórfico, o un haplotipo) se observe en una población a una frecuencia de 0.50 (50%) y otro elemento se observe a una frecuencia de 0.50 (50%), la ocurrencia predicha de que una persona posea ambos elementos es de 0.25 (25%), suponiendo una distribución aleatoria de los elementos. Sin embargo, en el caso de que se encuentre que los dos elementos ocurren juntos a una frecuencia superior a 0.25, entonces se dice que los elementos se encuentran en desequilibrio de ligamiento, ya que tienden a heredarse juntos en una proporción más alta que la que predecirían sus frecuencias de ocurrencia independientes (por ejemplo, frecuencias de alelos o haplotipos).

Por lo tanto, los SNP según la invención preferentemente no deberían presentar un desequilibrio de ligamiento significativo (preferentemente no presentan LD en absoluto) entre sí a fin de proporcionar información independiente uno de otro e incrementar la informatividad del ensayo de perfilado de SNP.

Los métodos para llevar a cabo el análisis de LD e identificar los SNP en LD (significativo) pueden ser llevados a cabo por el experto en la materia sin necesidad de experimentación indebida mediante la utilización de métodos bien conocidos. De esta manera, el experto ordinario en la materia puede identificar fácilmente las SNP en desequilibrio de ligamiento (significativo).

Dichos marcadores se localizan en el mapa y se registran en bases de datos públicas tales como el Genome Variation Server (GVS, http://gvs.gs.washington.edu), tal como son bien conocidos por el experto en la materia. Se han generado mapas de LD genómico en todo el genoma y dichos mapas de LD se ha propuesto que sirvan de marco para el mapeado de genes de enfermedad (Risch et al., 1996; Maniatis et al., 2002; Reich et al., 2001).

Las dos métricas utilizadas más comúnmente para medir el LD son D' y r2, y pueden expresarse en términos de cada uno y las frecuencias alélicas. Ambas medidas están comprendidas entre 0 (los dos alelos son independientes o en equilibrio) y 1 (los dos alelos son completamente dependientes o en desequilibrio completo), aunque con diferente interpretación. D' es igual a 1 en el caso de que se encuentren presentes, como máximo, dos o tres de los haplotipos posibles definidos por dos marcadores y <1 en el caso de que se encuentren presentes la totalidad de cuatro posibles haplotipos. r2 mide la correlación estadística entre dos marcadores y es igual a 1 en el caso de que se encuentren presentes únicamente dos haplotipos. Se considera generalmente que se encuentra presente un LD significativo cuando r2>0.8. En el contexto de la invención, cualquier par de SNP seleccionado preferentemente presenta un r2<0.8, preferentemente r2<0.75, r2<0.7, r2<0.65, r2<0.6, r2<0.55, r2<0.5, r2<0.45, r2<0.4, o r2<0.35. Los valores de r2 de dos SNP situados en partes próximas del genoma (por ejemplo, en el mismo locus) pueden encontrarse notablemente en el Genome Variation Server (GVS, http://gvs.gs.washington.edu).

Otro método para evaluar un LD significativo entre dos SNP bialélicos que están situados en regiones próximas del genoma (por ejemplo, en el mismo gen o en dos loci próximos) se basa en la comparación de la m A f de los dos SNP. En el caso de que la MAF de los dos SNP sea igual o prácticamente igual (variación <10%), puede considerarse que los dos SNP probablemente se encuentran en LD significativo. Las MAF de los SNP se encuentran disponibles para el experto en la materia en diversas bases de datos, tales como NHLBI Exome Sequencing Project (ESP) - Exome Variant Server (http://evs.gs.washington.edu/EVS/), Exome Aggregation Consortium - ExAC (http://exac.broadinstitute.org/), o Genome Aggregation Database - gnomAD (http://gnomad.broadinstitute.org/).

En una forma de realización preferida, los SNP según la invención se localizan en genes de mantenimiento.

El término gen de “mantenimiento” se refiere a un grupo de genes que codifica proteínas cuyas actividades resultan esenciales para el mantenimiento de la función celular. De acuerdo con lo anterior, el gen de mantenimiento probablemente no está relacionado con una enfermedad y, por lo tanto, reducen el riesgo de un resultado no deseado, en contraste con Pengelly et al. (2013).

En el contexto de la invención, las expresiones “combinación de SNP” y “juego de SNP” designan indiferentemente por lo menos dos SNP diferentes cuyos genotipos se determinan con el fin de obtener un perfil de SNP.

En una forma de realización preferida, la combinación de SNP según la invención comprende por lo menos uno de entre rs11702450; rs843345; rs1058018; rs8017; rs3738494; rs1065483; rs2839181; rs11059924; rs2075144; rs6795772; rs456261; rs1131620; rs2231926; rs352169 y rs3739160 (Tabla 2). Preferentemente, la combinación de SNP según la invención comprende por lo menos 2, preferentemente por lo menos 8 SNP, más preferentemente por lo menos 12 SNP, y todavía más preferentemente 15 SNP seleccionados de entre rs11702450; rs843345; rs1058018; rs8017; rs3738494; rs1065483; rs2839181; rs11059924; rs2075144; rs6795772; rs456261; rs1131620; rs2231926; rs352169 y rs3739160.

(/)

^o~o⁰co

'o_o

_0

⁰(/)

Q_

co

<Si

_0

-Q

03

I—

En una forma de realización preferida, la combinación de SNP según la invención consiste en la totalidad de rs11702450; rs843345; rs1058018; rs8017; rs3738494; rs1065483; rs2839181; rs11059924; rs2075144; rs6795772; rs456261; rs1131620; rs2231926; rs352169 y rs3739160. La utilización de dichos 15 SNP en particular para validar los resultados de genotipado de NGS da como resultado una serie de 96 pacientes con una probabilidad P de que por lo menos 2 pacientes presenten el mismo perfil de SNP (tabla 3), según el origen del paciente y la MAF de cada SNP (detallado en la sección 'Ejemplos'), de:

Tabla 3: probabilidad P de que por lo menos 2 pacientes de entre 96 pacientes presente el mismo perfil de SNP.

Dichos SNP cumplen todos los criterios indicados anteriormente para los SNP, es decir, no están situados en una secuencia repetida del genoma, son bialélicos, las 60 bases de secuencia flanqueante en cada lado del sitio del SNP presentan un contenido de GC <70% y un contenido de AT <70%, no están asociados a una patología conocida, no presentan un desequilibrio de ligamiento significativo entre sí, presentan una frecuencia de alelo menor (MAF) de entre 0.39 y 0.5 para la población euroamericana, o de entre 0.21 y 0.5 para la población afroamericana, y están situados en genes de mantenimiento.

Método preferido para el ensayo independiente de perfilado de SNP

Con independencia de qué juego de SNP se utilice, la totalidad de dichos SNP según la invención se detectan mediante PCR múltiple específica de alelo con un juego específico de cebadores, en el que dichos cebadores específicos presentan las características siguientes:

I. ningún SNP adicional de frecuencia >5% se encuentra presente dentro de dichos cebadores específicos y ningún SNP adicional de frecuencia >1% se encuentra presente a 10 bases o menos del extremo 3' de dichos cebadores específicos, y

II. su temperatura de fusión está comprendida entre 62°C y 71°C, preferentemente entre 63°C y 68°C, más preferentemente entre 64°C y 66°C, todavía más preferentemente es de aproximadamente 65°C (+/-1°C), y

III. generan amplicones que no contienen ningún polimorfismo frecuente (>1%) de repetición, inserción o deleción,

en el que dicho juego específico de cebadores comprende para cada SNP el triplete siguiente de cebadores: a) 2 cebadores ("cebadores de hebra de sentido", figura 1) que hibrida, en la misma hebra de ADN, específicamente en su extremo 3', con el nucleótido polimórfico de los alelos 1 y 2 de dicho SNP, respectivamente,

b) 1 cebador hibrida específicamente con la hebra complementaria ("cebador de hebra opuesta").

Dicho triplete puede subdividirse en dos pares de cebadores, uno para cada alelo (1 o 2) del SNP, cada uno de los cuales comprende un cebador de hebra de sentido y un cebador de la hebra complementaria.

La ausencia de SNP adicionales dentro de las secuencias de los cebadores según el punto I., anteriormente, evita la falta de amplificación de un alelo (es decir, la amplificación preferida de uno de los dos alelos; la hibridación del cebador en el alelo que contiene SNP adicionales sería incompleta, por lo tanto, más débil que en el otro alelo, resultando en la amplificación preferida del alelo que no contiene el SNP adicional, en el que la hibridación del cebador es completa y fuerte).

La eficiencia de la PCR se mejora adicionalmente mediante la selección de cebadores con una temperatura de fusión elevada, comprendida entre 62°C y 71°C, preferentemente entre 63°C y 68°C, más preferentemente entre 64°C y 66°C, todavía más preferentemente de aproximadamente 65°C (+/-°C) según el punto II., anteriormente, que potencia la especificidad de hibridación de todo el juego de cebadores y tiende a igualar los rendimientos de amplificación de PCR de todos los SNP.

Además, tal como se ha indicado en el punto III., anteriormente, los cebadores asimismo están diseñados para generar amplicones que no contienen ningún polimorfismo frecuente (>1%) de repetición, inserción o deleción que pueda modificar el tamaño esperado de amplicón y poner en peligro, de esta manera, el poder de discriminación del método basándose en la detección de amplicones de diferentes tamaños.

La expresión "PCR múltiple" o "PCR múltiple específica de alelo" se refiere a una técnica de biología molecular para la amplificación de múltiples dianas en una única reacción de PCR. En un ensayo de PCR múltiple específico de alelo, puede amplificarse más de una secuencia diana mediante la utilización de múltiples cebadores en la misma mezcla de reacción.

La expresión "cebador de hebra de sentido" se refiere al cebador diseñado para hibridarse específicamente, en su extremo 3', con el nucleótido polimórfico del alelo 1 o 2 de un SNP particular (figura 1). Por lo tanto, el "cebador de la hebra complementaria" es el cebador diseñado para hibridarse específicamente con la hebra complementaria de la secuencia diana de ADN utilizada para diseñar el cebador de la hebra de sentido. Se utiliza el mismo cebador de la hebra complementaria para amplificar los alelos 1 y 2. Por lo tanto, una pareja de cebadores según la invención consiste en un cebador de la hebra de sentido y un cebado de la hebra complementaria adaptados para amplificar específicamente la secuencia de ADN del alelo 1 o del alelo 2 de un SNP particular de interés.

Los métodos, condiciones y reactivos de PCR son conocidos en la técnica. Generalmente, se lleva a cabo la amplificación por PCR en una mezcla de reacción de PCR que incluye una molécula molde de ácido nucleico que contiene la secuencia que se busca amplificar, cebadores complementarios diseñados para hibridarse con sitios diana particulares en el molde, desoxirribonucleótidos trifosfato (dNTP) y una ADN polimerasa, todos combinados en un tampón adecuado que permita la hibridación de los cebadores con el molde y proporcione condiciones y cualesquiera cofactores o iones necesarios para que la ADN polimerasa extienda el cebador para resultar en un nuevo producto de ADN, asimismo denominado "amplicón" o producto de PCR.

Además, los métodos de PCR consisten en someter la mezcla de reacción de PCR al ciclado de temperaturas variables y durante tiempos predeterminados para permitir las etapas de desnaturalización, hibridación y elongación. Generalmente, cada una de las etapas de desnaturalización, hibridación y elongación del ciclado de PCR se produce a una temperatura específica diferente y es conocido en la técnica cómo llevar a cabo la PCR en un ciclador térmico para conseguir la temperatura requerida para cada etapa del ciclo de PCR. La desnaturalización típicamente se lleva a cabo a la temperatura más alta necesaria para fundir cualquier ADN de doble hebra (sea de molde o de producto amplificado formado en ciclos anteriores), por ejemplo aproximadamente 95°C, en el caso de que se utilice una ADN polimerasa termorresistente, tal como la polimerasa Taq. La etapa de hibridación se lleva a cabo a una temperatura que permita que los cebadores se hibriden específicamente con su diana de hebra de ADN complementario y típicamente se selecciona para facilitar la hibridación específica, reduciendo simultáneamente el apareamiento no específico de bases. La temperatura de hibridación se selecciona según la temperatura de fusión de los cebadores incluidos en la mezcla de reacción de PCR, que depende de la secuencia de los cebadores. Tal como se utiliza en la presente memoria, la expresión "temperatura de hibridación" se refiere a la temperatura utilizada durante la PCR que permite que un cebador forme pares de bases específicos con una hebra complementaria de ADN. Típicamente, la temperatura de hibridación para un juego particular de cebadores se selecciona para que sea ligeramente inferior a la temperatura de fusión media, por ejemplo de aproximadamente 1°C, aproximadamente 2°C, aproximadamente 3°C o aproximadamente 4°C inferior, preferentemente 1°C inferior, aunque en algunos casos puede ser igual o ligeramente superior a la temperatura de fusión media para el juego particular de cebadores, especialmente para la PCR múltiple específica de alelo. En el contexto de la invención, los cebadores están diseñados preferentemente para presentar una temperatura de fusión comprendida entre 62°C y 71°C, preferentemente entre 63°C y 68°C, más preferentemente entre 64°C y 66°C, todavía más preferentemente de aproximadamente 65°C (+/-1°C) y la temperatura de hibridación es preferentemente de 65°C (+/-1°C). La selección de una temperatura de hibridación elevada (aproximadamente 65°C) y de cebadores con una temperatura de fusión correspondientemente elevada tal como se ha definido anteriormente permite limitar o incluso impedir la formación de dímeros 3' de los cebadores consigo mismos, con el otro cebador de su pareja y con otros cebadores de otras parejas del juego de cebadores. En efecto, la energía de enlace de dichos cebadores con elevada temperatura de fusión para la utilización a una temperatura de hibridación elevada con su diana es mucho menor (en general de entre -35 kCal/mol y -60 kCal/mol) que la de posibles dímeros 3' de cebadores (ver los valores definidos a continuación). La etapa de elongación se lleva a cabo a una temperatura adecuada para el enzima ADN polimerasa particular utilizado, para permitir que la ADN polimerasa sintetice producto amplificado, o amplicón.

La "temperatura de fusión" de un oligonucleótido (o cebador) se define como la temperatura a la que el 50% de ese oligonucleótido se encuentra en dúplex (doble hebra con su secuencia perfectamente complementaria) y el otro 50% son moléculas de hebra sencilla.

En una forma de realización particular, los cebadores específicos de cada pareja que consiste en un cebador de sentido y un cebador opuesto destinados a amplificar un alelo de un SNP según la invención presentan además por lo menos una de las características siguientes:

IV. no forman un dímero en su extremo 3' consigo mismos, ni entre sí, cuya energía de enlace es inferior a -3.6 kCal/mol, preferentemente de -1.9 kCal/mol.

Aunque no resulta necesario, la energía de enlace de los dímeros de extremo 3' formados entre cebadores destinados a diferentes SNP preferentemente debería ser de por lo menos -25 kCal/mol, preferentemente de por lo menos -20 kCal/mol, todavía más preferentemente de por lo menos -15 kCal/mol. En caso posible (dependiendo del número de SNP presentes en el ensayo de perfilado de SNP y las restricciones que derivan de este número), la energía de enlace de la mayoría (por lo menos 50%, por lo menos 60%, por lo menos 70%, por lo menos 75%, por lo menos 80%, por lo menos 85%, por lo menos 90%, por lo menos 91%, por lo menos 92%, por lo menos 93%, por lo menos 94%, por lo menos 95%, por lo menos 96%, por lo menos 97%, por lo menos 98%, por lo menos 99% o incluso 100%) de los dímeros de extremo 3' formados entre cebadores destinados a SNP diferentes debe ser de por lo menos -10 kCal/mol, preferentemente de por lo menos -9 kCal/mol, de por lo menos -8 kCal/mol, de por lo menos -7 kCal/mol, de por lo menos -6 kCal/mol, de por lo menos -5 kCal/mol, o incluso de por lo menos -4 kCal/mol o de por lo menos -3.6 kCal/mol,

V. no hibridan con el genoma de manera no específica;

VI. generan amplicones de un tamaño comprendido entre 90 y 500 pares de bases.

En particular, las características IV. y V. impiden la síntesis de productos de PCR no específicos y permiten incrementar la disponibilidad de cebadores, potenciando la eficiencia de la amplificación por PCR, mientras que la característica VI. tiende a igualar el rendimiento de PCR, permite acortar la etapa de elongación de la PCR y, por lo tanto, a mantener la eficiencia de la polimerasa durante todos los ciclos de la PCR.

Por lo tanto, la pareja seleccionada de cebadores no debería ser capaz de formar dímeros o de hibridarse con el genoma no específicamente, ya que ello podría interferir con la hibridación de los cebadores con el locus diana y reducir de esta manera la eficiencia de la amplificación.

En una forma de realización preferida, la pareja específica de cebadores según la invención presenta todas las características anteriormente indicadas, I. a VI.

En una forma de realización preferida de cualquier juego de cebadores indicado anteriormente (que cumple los criterios de cebador I. a III., y opcionalmente por lo menos uno o todos los criterios de cebador IV. a VI.), los 2 cebadores de la hebra de sentido según la invención comprenden por lo menos una base en el extremo 3' que es una base de ácido nucleico bloqueado (LNA) (criterio VII.).

Tal como se utiliza en la presente memoria, la expresión "uno o más ácidos nucleicos bloqueados" o "LNA" se refiere al tipo de análogo de ácido nucleico que contiene un puente metileno 2'-O, 4'-C. Los nucleótidos de LNA pueden mezclarse con residuos de AN en el cebador siempre que se desee. El puente, bloqueado en la conformación 3'-endo, restringe la flexibilidad del anillo ribofuranosa y bloquea la estructura en una formación bicíclica rígida. Lo anterior incrementa significativamente las propiedades de hibridación (temperatura de fusión) de los cebadores. En particular, se utilizan oligonucleótidos de LNA para incrementar la sensibilidad y especificidad de la PCR. Por lo tanto, se incluye en la presente memoria cualquier nucleótido modificado que permita asimismo incrementar la sensibilidad y especificidad de la amplificación de la PCR.

En una forma de realización preferida de cualquier juego de cebadores indicado anteriormente (que cumplen los criterios para cebadores I. a III. y opcionalmente por lo menos uno o todos los criterios para cebadores IV. a VI., y opcionalmente el criterio VII.), dichos cebadores de hebra opuesta o cebadores de hebra de sentido, preferentemente los cebadores de la hebra complementaria, según la invención presentan una secuencia GTTTCTT adicional añadida a su extremo 5' (criterio VIII.). Preferentemente, los cebadores que comprenden dicha secuencia GTTTCTT adicional no forman un dímero en su extremo 3' consigo mismos o con ambos cebadores de hebra de sentido de dicha pareja de cebadores, o preferentemente con otros cebadores de dicho juego cuya energía de enlace es inferior a -3.6 kCal/mol. Una secuencia GTTTCTT adicional añadida al extremo 5' de los cebadores de la hebra complementaria permite estabilizar y reducir el "artefacto de A adicional" durante la PCR (Brownstein et al., 1996). El "artefacto de A adicional" resulta de la tendencia de la polimerasa Taq de añadir un nucleótido sin molde (habitualmente una A) al extremo 3' del ADN de doble hebra.

En una forma de realización, además de los criterios para cebadores I. a III. definidos anteriormente, los cebadores específicos de cada pareja que consiste en un cebador de sentido y un cebador opuesto destinados a amplificar un alelo de un SNP según la invención comprenden, además, por lo menos una de las características siguientes:

IV. no forman un dímero en su extremo 3' consigo mismos, no entre sí, cuya energía de enlace es inferior a -3.6 kCal/mol, preferentemente de -1.9 kCal/mol.

Aunque no resulta necesario, la energía de enlace de los dímeros de extremo 3' formados entre cebadores destinados a diferentes SNP preferentemente debería ser de por lo menos -25 kCal/mol, preferentemente de por lo menos -20 kCal/mol, todavía más preferentemente de por lo menos -15 kCal/mol. En caso posible (dependiendo del número de SNP presentes en el ensayo de perfilado de SNP y las restricciones que derivan de este número), la energía de enlace de la mayoría (por lo menos 50%, por lo menos 60%, por lo menos 70%, por lo menos 75%, por lo menos 80%, por lo menos 85%, por lo menos 90%, por lo menos 91%, por lo menos 92%, por lo menos 93%, por lo menos 94%, por lo menos 95%, por lo menos 96%, por lo menos 97%, por lo menos 98%, por lo menos 99% o incluso 100%) de los dímeros de extremo 3' formados entre cebadores destinados a SNP diferentes debe ser de por lo menos -10 kCal/mol, preferentemente de por lo menos -9 kCal/mol, de por lo menos -8 kCal/mol, de por lo menos -7 kCal/mol, de por lo menos -6 kCal/mol, de por lo menos -5 kCal/mol, o incluso de por lo menos -4 kCal/mol o de por lo menos -3.6 kCal/mol;

V. no hibridan con el genoma de manera no específica;

VI. generan amplicones de un tamaño comprendido entre 90 y 500 pares de bases;

VII. los cebadores de la hebra antisentido comprenden por lo menos una base de ácido nucleico bloqueado (LNA) en el extremo 3'; y

VIII. los cebadores de la hebra complementaria o los cebadores de la hebra de sentido, preferentemente cebadores de la hebra complementaria, presentan una secuencia GTTTCTT adicional añadida en su extremo 5'.

Preferentemente, además de los criterios para cebadores I. a III. definidos anteriormente, la pareja específica de cebadores según la invención comprende además todas las características IV. a VIII.

En una forma de realización preferida, las parejas de cebadores destinados a amplificar un alelo de un SNP (que cumplen los criterios para cebadores I. a III. y opcionalmente por lo menos uno o todos los criterios para cebadores IV. a VI., y opcionalmente VII. y/o VIII.) según la invención están diseñados adicionalmente para generar amplicones de diferentes tamaños, en los que:

IX. los tamaños de los amplicones relacionados con el alelo 1 y el alelo 2 de SNPn difieren en 2 a 5 pares de bases, preferentemente en 3 pares de bases, y

X. los tamaños de los amplicones relacionados con el alelo 2 de SNPn y el alelo 1 de SNPn+1 difieren en 2 a 20 pares de bases, preferentemente en 2 a 10 pares de bases, más preferentemente en 3 a 8 pares de bases, todavía más preferentemente en 4 a 6 pares de bases, preferentemente en 5 pares de bases, y

XI. dicha diferencia entre los tamaños de los amplicones de los alelos 1 y 2 de cada SNP se genera mediante la adición de bases al extremo 5' del cebador de hebra de sentido que se hibrida con el alelo 1 o 2 del SNP, preferentemente el alelo 2 del SNP.

Los cebadores de la hebra de sentido diseñados para detectar el alelo 1 y el alelo 2 del SNP n según el punto IX. difieren en 2 a 5 bases (ver anteriormente para los intervalos y valores preferidos), preferentemente en 3 bases, para permitir por un lado discriminar eficientemente los amplicones de los alelos 1 y 2 según sus tamaños, y por otro lado, limitar la diferencia de temperatura de fusión entre los cebadores. La limitación de la diferencia de temperatura de fusión resulta importante para optimizar la temperatura de hibridación, con el fin de presentar un rendimiento de PCR equivalente para ambos alelos.

Además, los tamaños de los amplicones relacionados con el alelo 2 de SNPn y del alelo 1 de SNPn+1 difieren en 2 a 20 pares de bases (ver anteriormente para los intervalos y valores preferidos), para permitir por un lado discriminar eficientemente los amplicones del alelo 2 de SNP n y los amplicones del alelo 1 de SNP n+1 según sus tamaños, y por otro lado, limitar el tamaño de todos los amplicones de entre 90 y 500 bases. La limitación del tamaño de todos los amplicones entre 90 y 500 bases resulta importante para obtener un rendimiento similar para cada producto de PCR y para acortar la etapa de elongación de la PCR, lo que potencia la eficiencia de la misma, y el tiempo hasta el resultado.

En una forma de realización preferida, los SNP según la invención se detectan mediante determinación del tamaño de dichos amplicones generados mediante PCR múltiple específica de alelo, preferentemente mediante un método de separación del ADN basado en el tamaño, tal como la electroforesis capilar. Dicho método para la separación del ADN basado en el tamaño es bien conocido en la técnica. Basándose en el tamaño de los amplicones detectados, puede determinarse el genotipo de los SNP y puede establecerse el perfil de los SNP del paciente.

En una forma de realización particular, los cebadores de la hebra de sentido o los cebadores de la hebra complementaria según la invención se marcan con un fluorocromo, tal como 6-FAM. Debe indicarse que, en el caso de que los cebadores de sentido o complementarios presenten una secuencia GTTTCTT en su extremo 5', el fluorocromo se une al cebador sin comprometer la secuencia GTTTCTT en su extremo 5', es decir, los cebadores de la hebra de sentido se marcan con un fluorocromo en el caso de que los cebadores de la hebra complementaria presenten la secuencia GTTTCTT en su extremo 5', mientras que los cebadores de la hebra complementaria se marcan con un fluorocromo en el caso de que los cebadores de la hebra de sentido presenten la secuencia GTTTCTT en su extremo 5'). Dicho método resulta particularmente adecuado para la detección de SNP basándose en el tamaño de los amplicones de AN separados mediante electroforesis capilar. Ventajosamente, el fluorocromo de la invención puede identificarse o distinguirse de otros marcadores, y permite la discriminación de amplicones marcados de manera diferente. Son ejemplos de fluorocromo o marcador fluorescente, los pigmentos 6-FAM, HEX, TET o NED. Los cebadores marcados diferentemente permiten distinguir diferentes productos de amplificación de PCR (PCR múltiple multicolor), aunque su longitud (tamaño) sea aproximadamente la misma.

En una forma de realización particular, la combinación de SNP según la invención comprende por lo menos uno, preferentemente por lo menos 2, preferentemente por lo menos 8, más preferentemente por lo menos 12, todavía más preferentemente la totalidad de rs11702450; rs843345; rs1058018; rs8017; rs3738494; rs1065483; rs2839181; rs11059924; rs2075144; rs6795772; rs456261; rs1131620; rs2231926; rs352169 y rs3739160, y se utilizan los cebadores siguientes para cada uno de los SNP:

Tabla 4. Secuencias de cebadores y marcadores.

en las que las bases son bases modificadas con LNA; [MARCADOR] es la modificación de marcado 5' del cebador. Dicha modificación de marcado puede seleccionarse de entre modificaciones 5'-fluorescentes, modificaciones 5'-radioactivas, modificaciones 5'-luminiscentes y cualquier otra modificación en 5' apropiada que permita la detección del producto de amplificación. Preferentemente, dicha modificación de marcado es una modificación 5'-fluorescente mediante cualquier marcador fluorescente adecuado, incluyendo 6FAM (6-carboxifluoresceína), TET, VIC, HEX, NED, PET, j Oe , ROX, TAMRA, pigmentos Cy®, pigmentos Alexa Fluor®, pigmentos ATTO-TEC, Dragonfly Orange™, Texas Red®, Yakima Yellow® y fluoresceína. Preferentemente, la modificación 5'-fluorescente es una modificación 6FAM en 5'.

La tabla 4, anteriormente, para cada SNP, el primer cebador es el cebador de la hebra de sentido específico para el alelo 1; el segundo es el cebador de la hebra de sentido específico para el alelo 2; el tercero es el cebador de la hebra complementaria. Las bases entre llaves son bases modificadas con LNA; [MARCADOR] es la modificación de marcado en 5' del cebador; las bases en caracteres en negrita son las tres bases añadidas en el extremo 5' del cebador de hebra de sentido específico para el alelo 2.

En una forma de realización preferida, los cebadores están marcados con una modificación fluorescente en su extremo 5'.

Por lo tanto, en una forma de realización particular, la combinación de SNP según la invención comprende por lo menos uno, preferentemente por lo menos 2, preferentemente por lo menos 8, más preferentemente por lo menos 12, todavía más preferentemente la totalidad de rs11702450; rs843345; rs1058018; rs8017; rs3738494; rs1065483; rs2839181; rs11059924; rs2075144; rs6795772; rs456261; rs1131620; rs2231926; rs352169 y rs3739160, y se utilizan los cebadores siguientes para cada uno de los SNP:

Tabla 5. Secuencias de cebadores marcados con fluorescencia.

en las que las bases son bases modificadas con LNA; [6FAM] es la modificación fluorescente en 5' del cebador.

En la tabla 5, anteriormente, para cada SNP, el primer cebador es el cebador de la hebra de sentido específico para el alelo 1; el segundo es el cebador de la hebra de sentido específico para el alelo 2; el tercero es el cebador de la hebra complementaria. Las bases entre llaves son bases modificadas con LNA; [6FAM] es la modificación fluorescente en 5' del cebador; las bases en caracteres en negrita son las tres bases añadidas en el extremo 5' del cebador de hebra de sentido específico para el alelo 2.

En otra forma de realización de la invención, la combinación de SNP según la invención consiste en la totalidad de rs11702450; rs843345; rs1058018; rs8017; rs3738494; rs1065483; rs2839181; rs11059924; rs2075144; rs6795772; rs456261; rs1131620; rs2231926; rs352169 y rs3739160, y los cebadores identificados en la tabla 4 o 5 se utilizan para cada uno de los SNP, respectivamente.

En una forma de realización, el ensayo de perfilado de SNP en dicha etapa b) según la invención se automatiza con un software que reconoce dichos productos de PCR múltiple marcados.

La expresión "software que reconoce dichos productos de PCR múltiple marcados" se refieren en la presente memoria a un software que calcula el tamaño de cada amplicón obtenido mediante el método de la invención y atribuye a cada uno de ellos el alelo de SNP correspondiente, según su tamaño o fluorescencia, preferentemente su tamaño.

En una forma de realización, el método de NGS cuyos resultados se validan utilizando el método según la invención es NGS de captura de diana o NGS de amplicón.

La expresión "NGS de captura de diana" se refiere a una NGS que solo se lleva a cabo en regiones genómicas de interés, que han sido previamente capturadas (o aisladas) de una biblioteca de muestras. Por lo tanto, resulta importante al utilizar el método de NGS de captura de diana seleccionar las regiones genómicas de interés. Por lo tanto, al utilizar los kits comerciales de NGS de captura predefinidos del fabricante, el genotipado de SNP de esta manera no resulta inmediatamente posible y el fabricante debe añadir las sondas de SNP al kit. Además, al utilizar los kits personalizados de NGS de captura, el genotipado de los SNP se lleva a cabo mediante solicitud al fabricante de la adición de sondas de SNP en una nueva versión del kit personalizado.

La expresión "NGS de amplicón" se refiere a NGS que sólo se lleva a cabo en regiones genómicas de interés que han sido amplificadas a partir de una muestra de ADN utilizando cebadores diseñados para amplificar regiones de interés. Para la técnica de NGS con amplicones utilizando kits comerciales predefinidos por el fabricante, de esta manera no resulta inmediatamente posible el genotipado de los SNP. Por lo tanto, con el fin de utilizar la NGS de amplicones, deberían diseñarse los cebadores requeridos para la amplificación de regiones circundantes a los SNP de interés, y añadirse al kit existente.

Otro objeto de la presente invención es un kit para la detección de una combinación de por lo menos 8 SNP en un método según la invención tal como se ha descrito anteriormente, que comprende cebadores tal como se han definido anteriormente, en el que dicho kit preferentemente comprenda, además:

• reactivos de PCR múltiple, y/o

• sondas o cebadores oligonucleótidos de NGS diseñados para capturar o amplificar secuencias que comprenden dichos 8 o más SNP.

Los reactivos de PCR múltiple según la invención pueden incluir, aunque sin limitarse a ellos, ADN polimerasa, dNTP, tampón, cualesquiera factores o iones necesarios para que la ADN polimerasa amplifique la secuencia diana (por ejemplo, kit de PCR múltiple QIAGEN, mezcla maestra de PCR múltiple Thermo Scientific Phusion™ U y mezcla maestra 5X de PCR múltiple NEB). La utilización de ADN polimerasas Taq y/o mezclas maestras diseñadas para la amplificación simultánea de múltiples dianas en un único tubo puede reducir la necesidad de optimización de la PCR.

Otro objeto de la presente invención es la utilización del kit según la invención en un método para validar los resultados de genotipado de NGS de un panel de genes analizados en serie procedentes de por lo menos 2 pacientes, según la invención.

Otro objeto de la presente invención es un método para la detección de polimorfismos en el ADN de un paciente, que comprende llevar a cabo, preferentemente en paralelo, las dos etapas siguientes:

a) detectar polimorfismos mediante ensayo de NGS, y

b) validar los resultados de genotipado de NGS utilizando el método anteriormente descrito según la invención. Los ejemplos a continuación son únicamente ilustrativos de la presente invención.

Ejemplos

Ejemplo 1: desarrollo de un ensayo de perfilado de SNP de PCR múltiple específica de alelo para la validación de resultados de genotipado de NGS objetivo.

Con el fin de validar los resultados de genotipado de NGS mediante la comparación de los perfiles de SNP obtenidos mediante ensayo de NGS e, independientemente, mediante otro método, los presentes inventores diseñaron un ensayo de perfilado de SNP de PCR múltiple específica de alelo.

Dicho ensayo de perfilado de SNP presenta un elevado poder de discriminación, ya que el riesgo de que dos muestras de una serie de 96 pacientes presente el mismo perfil de SNP es inferior a 5%, con independencia del origen del paciente.

Métodos

Selección de SNP

Se seleccionaron los SNP según los criterios siguientes:

1. se localizan en un gen de mantenimiento (Eisenberg et al., 2003; Zhu et al., 2008);

2. no están asociados a una patología conocida, es decir, no están asociados al registro de Online Mendelian Inheritance in Man (OMIM);

3. su frecuencia de alelo menor (MAF), tal como se informa en el NHLBI Exome Sequencing Project (ESP) -Exome Variant Server (http://evs.gs.washington.edu/EVS/) es de entre 0.39 y 0.5 entre euroamericanos y de entre 0.21 y 0.5 en afroamericanos;

4. son bialélicos;

5. no presentan desequilibrio de ligamiento entre sí, es decir, no se localizan preferentemente en el mismo gen, y en caso de localizarse en el mismo gen, sus MAF son significativamente diferentes;

6. no están localizados en una secuencia repetida del genoma (analizado por Repeat Masker, http://www.repeatmasker.org. a través de la interfaz de la Universidad de California Santa Cruz (UCSC) en https://genome.ucsc.edu/);

7. las secuencias flanqueantes de 60 bases en ambos lados del sitio de SNP presentan un contenido de GC <70% y un contenido de AT >70%.

Diseño de cebadores para PCR específica de alelo

Se diseñaron tres cebadores para cada SNP: dos cebadores de hebra de sentido que hibridaban, en la misma hebra de ADN, específicamente en su extremo 3' con el nucleótido polimórfico de los alelos 1 y 2 del SNP, y un cebador de hebra opuesta que hibridaba con la hebra complementaria. Los cebadores se diseñaron según los criterios siguientes:

1. ningún SNP adicional de frecuencia >5% se encuentra presente dentro del cebador y ningún SNP adicional de frecuencia >1% se encuentra presente a 10 bases o menos del extremo 3' del cebador;

2. la temperatura de fusión del cebador específico para el alelo 1 y el cebador complementario es preferentemente de aproximadamente 65°C (+/-1°C);

3. cebador específico para el alelo 2 difiere del cebador específico para el alelo 1 por la base en su extremo 3' y por la adición de 3 bases en el extremo 5' del cebador (los tamaños de los amplicones relacionados con los alelos 1 y 2 de SNPn en ese caso diferirán en 3 pares de bases);

4. el cebador de la hebra complementaria presenta una secuencia GTTTCTT adicional añadida a su extremo 5' con el fin de estabilizar y reducir el "artefacto de A adicional" durante la PCR (Brownstein et al., 1996); 5. los tres cebadores diseñados para un SNP no forman dímero en su extremo 3' consigo mismos o entre sí, cuya energía de enlace es inferior a -3.6 kCal/mol, preferentemente de -1.9 kCal/mol;

6. generan amplicones que no contienen ningún polimorfismo frecuente (>1%) de repetición, inserción o deleción;

7. no hibridan significativamente con el genoma de manera no específica (sometido a ensayo con Primer Blast https://www.ncbi.nlm.nih.gov/tools/primer-blast/);

8. generan amplicones de un tamaño comprendido entre 100 y 250 pares de bases;

9. los tamaños de los amplicones relacionados con el alelo 2 de SNPn y el alelo 1 de SNPn+1 difieren en 2 a 5 pares de bases.

Con el fin de incrementar la especificidad de los cebadores de hebra de sentido, una o dos bases en su extremo 3' es una base de ácido nucleico bloqueado (LNA). Los cebadores de hebra de sentido están marcados en su extremo 5' con un pigmento fluorescente 6FAM.

Los cebadores de hebra de sentido fueron sintetizados y purificados mediante HPLC por Eurogentec (www.eurogentec.com). Los cebadores de la hebra complementaria fueron sintetizados y purificados mediante HPLC por Aldrich (www.sigmaaldrich.com).

PCR múltiple específica de alelo.

Se llevó a cabo una PCR múltiple específica de alelo con el kit de PCR múltiple QIAGEN (QIAGEN, Hilden, Alemania). Se sometieron a ensayo varias temperaturas de hibridación, concentraciones de cebador, concentraciones de solución Q 5x con el fin de optimizar el rendimiento de la PCR para cada alelo de cada SNP. Se seleccionaron siete muestras de ADN de control con el fin de someter a ensayo cada genotipo (homocigótico para el alelo 1; heterocigótico para los alelos 1 y 2, y homocigótico para el alelo 2) para cada SNP.

Se llevó a cabo una PCR utilizando los cicladores térmicos de PCR Icycler (Bio-Rad, Hercules, California, EE.UU.) o GeneAmp® 9700 (Applied Biosystems, Waltham, Massachusetts, EE.UU.).

Los productos de PCR se sometieron a electroforesis capilar utilizando el analizador de ADN ABI PRISM 3730 (Life Technologies). Los datos en bruto se analizaron con el software GeneMapper™ Software 5 (Applied Biosystems).

Genotipado de SNP mediante ensayo de NGS

El fabricante del kit personalizado de captura de NGS (Roche NimbleGen Inc., Madison, Wisconsin, EE.UU.) se solicitó para añadir las sondas correspondientes a los SNP seleccionados en una nueva versión del kit personalizado según las coordenadas de las regiones de interés, es decir, SNP /-100 bases.

El ensayo de NGS de captura se llevó a cabo siguiendo las instrucciones del fabricante, utilizando un instrumento de secuenciación MiSeq System Illumina (Illumina Inc., San Diego, California, EE.UU.). Un análisis bioinformático de los datos fue realizado por Genodiag (Genosplice, Paris, Francia).

Ensayo de estabilidad de la mezcla de cebadores y PCR mixta

Trece alícuotas de mezclas que contenían únicamente los cebadores (mezcla de cebadores) o todos los reactivos y cebadores de PCR (PCR mixta) se congelaron a -20°C. Se utilizó una alícuota de cada mezcla cada mes para llevar a cabo la PCR con las muestras de ADN seleccionadas anteriormente indicadas, con el fin de evaluar la estabilidad de las mezclas durante un año.

Robustez del ensayo de perfilado de SNP

Se consideraron y sometieron a ensayo cuatro variables.

Cicladores térmicos de PCR. El ensayo de perfilado de SNP se llevó a cabo para las mismas muestras seleccionadas en diez cicladores térmicos de PCR diferentes: 8 cicladores térmicos de PCR Icycler y 2 GeneAmp® 9700.

Cantidad de ADN. Se llevó a cabo un ensayo de perfilado de SNP con 10, 25, 50, 100, 200 y 400 ng de ADN. Método de extracción. Se sometieron a ensayo muestras de ADN obtenidas a partir de la extracción salina utilizando un procedimiento estándar o con el instrumento QIAsymphony SP (QIAGEn , Hilden, Alemania).

Volumen de PCR mixta. Una vez la PCR mixta había demostrado una estabilidad perfecta durante un periodo de doce meses, se llevó a cabo el ensayo de perfilado de SNP con 49 pl, 24 pl, 14 pl o 9 pl de PCR mixta mezclada con 1 pl de muestra de ADN primario. Para dichos experimentos, la concentración de la muestra de ADN primario era de hasta “ 800 ng/pl para muestras de ADN obtenidas con el método estándar de extracción salina, el método de extracción estándar con fenol-cloroformo o el kit de ADN FlexiGene (QIAGEN, Hilden, Alemania); la concentración de la muestra de ADN primario estaba comprendida entre “ 100 y “ 350 ng/pl para muestras de ADN obtenidas del instrumento QIAsymphony SP y entre = 100 y “ 200 ng/pl para muestras de ADN obtenidas del kit de tejido de ADN EZ1 o del kit eZ1 DnA Blood 350 pl. Asimismo se sometieron a ensayo en paralelo diez ng de cada muestra de ADN.

Resultados

Ensayo de perfilado de SNP de PCR múltiple específica de alelo

Los SNP seleccionados y sus frecuencias según el Exome Variant Server, http://evs.gs.washington.edu/EVS/ y el Exome Aggregation Consortium (ExAC), http://exac.broadinstitute.org/, se enumeran en la tabla 6.

El criterio de MAF entre 0.39 y 0.5 para euroamericanos se cumplió para la totalidad de los 15 SNP; el criterio de MAF entre 0.21 y 0.5 para afroamericanos se cumplió para la totalidad de los 15 SNP.

Tabla 6. Frecuencia de SNP según el origen de las poblaciones.

Considerando dichas frecuencias, el riesgo P de que por lo menos 2 pacientes de entre N pacientes presenten el mismo perfil de SNP según tamaño de serie y origen del paciente se muestra en la tabla 7a (según las frecuencias de EVS) y 7b (según las frecuencias de ExAC). El riesgo es inferior a 5% para series de 96 pacientes con independencia del origen de la población (según el Exome Variant Server y el Exome Aggregation Consortium). Se calculó el riesgo mínimo para la población europea: 0.002174 y 0.002129 para la frecuencia de EVS para EA y frecuencia la frecuencia de ExAC europea (no finlandesa), respectivamente; el riesgo máximo, 0.035574, se calculó para la población de Asia oriental.

Tabla 7. Riesgo P de que por lo menos 2 pacientes de entre los N pacientes presenten el mismo perfil de SNP según el tamaño de la serie y los orígenes de los pacientes.

a.

p

Número

de pacientes EA M

por serie

12 0.000032 0.000055

24 0.000132 0.000231

48 0.000538 0.000943

96 0,002174 0.003806

Los cebadores diseñados para el ensayo de perfilado de SNP de PCR múltiple específica de alelo se enumeran en las tablas 4 y 5 de la descripción general, anteriormente. Los cebadores de la hebra de sentido comprenden únicamente una base de ácido nucleico bloqueado (LNA) en su extremo 3', excepto para los cebadores RABEP1_2457GL2_F_Fam, LTBP4_2359GL2_R_Fam y PPP4R2_420-1015GL2_R_Fam que terminan en el extremo 3' en dos bases de LNA. Los cebadores de la hebra de sentido para el alelo 2 presentan 3 bases adicionales en su extremo 5' en comparación con los cebadores de la hebra de sentido especificados para el alelo 1. Para cada SNP, se seleccionaron dichas bases con el fin de que no indujesen la formación de dímeros ni con los cebadores de la hebra de sentido ni con el cebador de la hebra complementaria.

El tamaño teórico del amplicón, la temperatura de fusión de los cebadores, el número de bases por cebador y el número de bases específicas por cebador se muestran en la tabla 8. La temperatura de fusión media de los cebadores era de 65.38°C [62.2°C - 70.9 °C].

Tabla 8. Características de cebadores y amplicones.

Las condiciones de PCR optimizada eran las siguientes: La mezcla de cebadores contenía los 45 cebadores a las concentraciones indicadas en la tabla 9. La composición de la PCR mixta se detalla en la tabla 10. La PCR mixta se sometió a amplificación por PCR: tras una etapa inicial de desnaturalización (95°C, 15 min), se llevaron a cabo 30 ciclos (desnaturalización a 94°C, 30 s; hibridación a 65°C, 3 min; elongación a 72°C, 90 s), seguido de una etapa final de elongación (72°C, 10 min). Los productos de PCR se almacenaron en el ciclador térmico de PCR a 10°C hasta el almacenamiento a 4°C. Se mezcló un pl de productos de PCR diluidos 50 a 200 veces en agua para inyección, con 15 pl de mezcla de ROX-formamida preparada de la manera siguiente: se añadieron 0.1 pl de patrón de tamaño GeneScan™ 400HD ROX™ (Applied Biosystem®, by Life Technologies™) a 15 pl de formamida Hi-Di de grado de análisis genético (Life Technologies™). La mezcla resultante-producto de PCR diluido-ROX-formamida se cargó en un analizador de ADN 3730. Las muestras se sometieron a análisis con los parámetros siguientes: temperatura del horno de 66°C, tensión preanálisis de 15 kV, tensión de inyección de 2 kV, tiempo de inyección de 3 s, juego de pigmentos Any4Dye-HDR o Any4Dye.

Tabla 9. Concentración de cebadores en la mezcla de cebadores.

Tabla 10. Composición de PCR mixta.

Los datos en bruto se analizaron con el software GeneMapper™ Software 5. Se ha creado un método de análisis específico, basado en el tipo de análisis "Análisis OLA" y un binset, permitiendo el marcado de los picos. Los resultados pueden inspeccionarse de dos maneras: electroferograma con marcado de cada pico, o tabla que muestra qué alelos han sido identificados para cada paciente. La figura 2 muestra electroferogramas ilustrativos del ensayo de perfilado de SNP indicado anteriormente para tres pacientes. El genotipo puede determinarse fácilmente para cada SNP a partir de la presencia de: únicamente un pico correspondiente al alelo 1 (genotipo 1/1), o únicamente un pico correspondiente al alelo 2 (genotipo 2/2), o la presencia de dos picos, correspondiente a los alelos 1 y 2 (genotipo 1/2). No se observó ningún "artefacto de A adicional". Para los tres electroferogramas mostrados en la figura 2, se detalla el perfil de SNP correspondiente en las tablas 11a y 11b.

Los resultados presentados en formato de tabla con el software GeneMapper™ Software 5 se exportaron a formato .txt.

Tabla 11. Interpretación de electroferogramas en la figura 2.

Una de las características esperadas del ensayo de perfilado de SNP era disponer de un ensayo que pudiese utilizarse rutinariamente. Lo anterior puede conseguirse únicamente en el caso de que el ensayo resulte fácil de ejecutar, en el presente caso si el número de reactivos que deben mezclarse en las reacciones de PCR no sea excesivamente elevado. Debido a que se requieren 45 cebadores para determinar el perfil de SNP para los 15 SNP, resulta necesario simplificar la preparación de la PCR mediante la utilización de mezclas previamente preparadas que contienen por lo menos los 45 cebadores. Sin embargo, dichas mezclas preparadas previamente deben mostrar una buena estabilidad durante el tiempo. Por lo tanto, se llevó a cabo un ensayo de estabilidad de dos mezclas: la primera mezcla contenía únicamente los cebadores (mezcla de cebadores) y la segunda contenía todos los reactivos y cebadores de PCR excepto el ADN (PCR mixta). Se prepararon dos mezclas, en alícuota en un volumen adecuado y se congelaron durante doce meses. Ambas mezclas se sometieron a ensayo durante un periodo de 12 meses (un ensayo al mes para cada mezcla) con una notable estabilidad de los resultados, tal como muestra la superposición de electroferogramas mensuales para cada muestra sometida a ensayo (datos no representados). Dicha estabilidad perfecta observada los dos meses es prometedora y muestra que pueden prepararse mezclas en lotes, prepararse alícuotas, congelarse y utilizarse por lo menos 12 meses después de la fecha de producción, que resulta adecuada para una aplicación rutinaria.

La robustez del ensayo de perfilado de SNP resulta satisfactoria considerando las cuatro variables sometidas a ensayo. En efecto, los resultados obtenidos utilizando diferentes cicladores térmicos de PCR son similares entre sí. La calidad de los resultados del ADN extraído mediante dos procedimientos diferentes resultó satisfactoria para ambos. La utilización de una cantidad de 10 a 400 ng de ADN por ensayo mostró una buena calidad de resultados, con independencia de la cantidad inicial de ADN. Este último punto resulta de particular importancia, ya que uno de los requisitos para el ensayo de perfilado de SNP era la utilización de muestras de ADN primario, con independencia de su concentración de ADN. Finalmente, los resultados obtenidos con 1 pl de muestra de ADN primario mezclada con 9 pl, 14 pl, 24 pl o 49 pl de PCR mixta eran similares con una concentración de muestra de ADN primario comprendida entre 10 y 400 ng/pl. Por Lo tanto, los presentes inventores llevaron a cabo a continuación un ensayo de perfilado de SNP rutinariamente con 9 pl de PCR mixta y 1 pl de muestra de ADN primario en el caso de que la concentración de muestra de ADN primario fuese inferior o igual a 400 ng/pl (que es la situación con mucho más frecuente); en el caso de que la concentración de ADN fuese más elevada, los presentes inventores recomiendan mezclar 24 pl de PCR mixta con 1 pl de muestra de ADN primario para llevar a cabo el ensayo.

Ensayo de NGS

Con el fin de llevar a cabo el ensayo de NGS, incluyendo los SNP seleccionados, se solicitó al fabricante del kit personalizado de NGS de captura de los presentes inventores (Roche NimbleGen Inc.) la adición de las sondas correspondientes a los SNP en una nueva versión del kit personalizado de los presentes inventores según las coordenadas de las regiones de interés indicadas en la tabla 12. Los presentes inventores definieron las regiones de interés como de 100 pares de bases en cada lado de las coordenadas de los SNP.

Tabla 12. Coordenadas de las regiones de interés para el diseño de sondas.

Se utilizó el nuevo ensayo personalizado tal como habitualmente para someter a ensayo la serie de 24 pacientes. Tras llevar a cabo la secuenciación NGS, los datos en bruto se transfirieron a la compañía Genodiag para el análisis bioinformático. Para los 15 SNP, la compañía Genodiag proporcionó un resumen de los resultados en forma tabular, permitiendo una fácil lectura del genotipo de la combinación de SNP (tabla 13). El número de lecturas para cada SNP era superior a 30X.

Tabla 13. Resultados del genotipo de la combinación de SNP obtenida mediante ensayo de NGS.

5 ^LL2 2 ^{LL LL}2 2 2 ^LL2 2 2 2 ^{LL LL LL LL}2 2 2 2 2 ^LL

r-1 r-j m LO co en O <N m U1 LD t^ v en fN m O T—1 r i •*—rr1 1 i T—! oT—ó1 Ó »—1 ■tT O _ O rN fN <N (N <N 0_ 0__ O

J3_ O0__ O0__ O

<13 0 O0 O

03 03 03 ¡33 tu <u <13 03 03 03 03 0) 0 0 0 0 .0 0 0 <D ti) <13 q3 £ £ ^C3 c03 0) 03 03 ₀C c₀C0 ₀c c₀c₀0 0 0 ’o __ o__ ’o O__ o __ o o__ 'o__ 'o__ tu ^C0

o O O u O a O ü O O O O ’ü o U P N U Q- 0. o_ ^CLQ. ^CLQ_ ^{CL CL} _{CL CL}1? Q- ü- Q_ _{CL CL CL CL CL}tí! Q_ ^{CL CL 1} c/c ^{C/T C/T C/T C/T C/C C/T C/T C/C C/T C/T C/T C/T C/T C/T C/C} c/c ^{C/T C/T C/C} c/c ^{C/T C/T} c/c ^{2 T/C T/C T/C T/T C/C C/C C/C C/C T/T T/C T/T T/T C/C C/C T/C T/C} c/c ^{C/C C/C T/C} c/c ^{T/C C/C} c/c ^{: 3 T/T C/C C/T C/C T/T T/T C/T C/T C/T T/T T/T C/T T/T C/C T/T C/C T/T C/T T/T C/C} c/c ^{C/T C/C} c/c

⁴G/A G/A G/G G/G G/A G/A G/A G/A G/A A/A A/A G/A G/G G/A G/A A/A G/G G/G G/A G/A G/G G/G A/A G/G

⁵C/T C/T C/C C/C C/T C/T T/T C/C C/C T/T C/T C/T C/T C/T T/T T/T C/T C/C T/T T/T T/T C/C T/T C/C

⁶G/G G/G A/A G/A G/G G/A G/A G/A G/G G/G G/A G/A G/A G/G G/A G/A G/G G/G A/A G/A G/G A/A G/A G/A

^{7 T/C T'C T/T T/C T/C T/C T/T T/C T/C T/C T/T T/T T/C T/C T/C T/T T/C T/T T/C T/C} c/c ^{T/T T/C C/C}

8 G/A G/A A/A G/G G/G A/A G/A G/G G/A G/A A/A G/G G/A A/A G/G G/A G/G G/G A/A A/A G/A A/A G/G G/A

⁹G/A C/C G/A C/C G/A C/A A/A A/A A/A A/A A/A C/C A/A G/A G/A A/A G/G A/A G/A G/A G/A G/A G/A A/A

¹⁰G/G A/A A/A G/G G/G A/A G/A G/A G/A A/A G/G G/A G/A A/A G/A A/A G/A G/G G/A G/G G/G A/A A/A G/A

^{: 11}G/A G/A G/G A/A A/A G/G A/A A/A A/A G/A G/G A/A G/A A/A G/A G/A G/G G/A A/A G/A G/G G/G G/G A/A

¹²G/G A/G A/A A/A A/A A/G A/A A/A A/A A/A A/G A/A A/A A/G A/G A/A A/A A/G A/G G/G A/A A/A A/G G/G

^{i 13}A/G A/G G/G G/G G/G G/G A/G A/G A/G A/G A/G A/A A/G A/G G/G G/G A/G G/G A/G A/G A/A G/G A/A A/G

¹⁴G/A G/G G/G G/A A/A G/A G/A G/A A/A A/A G/A G/A G/A A/A G/G G/A G/G G/A G/A G/G G/A G/G G/A A/A

; 15 C/T C/T T/T C/T C/T C/T C/C C/T C/C C/C T/T C/C C/C C/T C/C C/T C/T C/T C/T T/T C/T T/T C/C C/C SRY M F M M ^FF M M M F M M M M F F F F M M M M M M

Los SNP están numerados según la tabla 2. SRY es un gen situado en el cromosoma Y; la sonda correspondiente a dicho gen se incluyó previamente en el kit personalizado con el fin de someter a ensayo el sexo del paciente, que participa en el rastreo de las muestras. Con el fin de ilustrar las diferentes posibles discrepancias, los resultados de SNP para los pacientes 05 y 15 fueron intercambiados; las columnas para los pacientes 19 y 21 fueron intercambiadas; el sexo del paciente 24 fue modificado en el marcador de la columna correspondiente; los resultados para el paciente 22 fueron sustituidos por los resultados del paciente 03.

Comparación del perfil de SNP obtenido mediante ensayo de perfilado de SNP de PCR múltiple específica de alelo y el ensayo de NGS; Interpretación

La validación de los resultados de genotipado de NGS se proporciona mediante la comparación del perfil de SNP obtenido mediante ensayo de perfilado de SNP de PCR múltiple específica de alelo y ensayo de NGS. Los resultados de genotipado de NGS, con la condición de que hayan pasado el control de calidad y los filtros umbral, y que los análisis bioinformáticos proporcionen una nomenclatura precisa de las variantes, no necesitan confirmarse mediante otra técnica en el caso de que los resultados del ensayo de perfilado de NGS sean estrictamente idénticos a los resultados del genotipado de NGS correspondientes, y en el caso de que ninguno de los pacientes de la serie presente un perfil de SNP idéntico. Los resultados del ensayo de perfilado de SNP no estrictamente idénticos a los resultados de genotipado de NGS revelarán una combinación errónea de muestras: en este caso, los resultados de genotipado de NGS no podrán ser validados. En el caso de que dos pacientes presenten el mismo perfil de SNP, son realmente personas diferentes, lo que sería revelado porque los resultados de genotipado de n Gs muestra muchas diferencias, y debería llevarse a cabo a continuación una secuenciación de Sanger para validar sus propios resultados de genotipado de NGS o, en el caso de que las mismas muestras de ADN hayan sido analizadas con dos identificadores diferentes, una situación que resultará revelada por resultados de genotipado de NGS idénticos para los dos identificados y que revelará la combinación errónea de muestras. En este último caso, los resultados de genotipado de NGS no podrán ser validados.

Con el fin de facilitar la comparación de los resultados de perfil de SNP obtenidos mediante ensayo de NGS con los del ensayo de perfilado de SNP de PCR específica de alelo, se ha creado un archivo de Excel. Dicho archivo consiste en cuatro hojas de cálculo visibles. La primera hoja de cálculo se utiliza para pegar los resultados de NGS, tales como los presentados en la tabla 13. La segunda hoja de cálculo permite pegar el archivo .txt exportado desde Genemapper (las hojas de cálculo adicionales no visibles permiten transformar los resultados de Genemapper en un formato adecuado para la comparación con los resultados de genotipado de NGS). La tercera hoja de cálculo (ver el ejemplo en la tabla 14) permite la comparación: 1) el orden de las muestras en la lista de trabajo de los resultados de ensayo de NGS c el del ensayo de perfilado de NGS de PCR específica de alelo (en el caso de que el identificador del paciente sea idéntico a la posición considerada para ambas técnicas, aparece en texto claro; en el caso de discrepancia, las palabras "erreur ordre" sustituyen al identificador del paciente); 2) el genotipo obtenido mediante el ensayo de n Gs y el obtenido mediante ensayo de perfilado de NGS de PCR específico de alelo para cada SNP (en el caso de que el genotipo sea idéntico, aparece en texto claro; en el caso de discordancia, el término "Pb" sustituye al genotipo); 3) el sexo del paciente determinado mediante ensayo de NGS (línea SRY en la tabla 13) con el sexo del paciente indicado en el ID del paciente de la lista de trabajo (en el caso de que el sexo sea idéntico, la letra "F" o "M" aparece en texto claro, indicando femenino y masculino, respectivamente; en caso de discrepancia, el término "Pb" sustituye al género). La tabla 14 ilustra las diferentes posibles discrepancias. Tal como se esperaba tras las modificaciones deliberadas de los resultados de genotipado de NGS ilustrados en la leyenda de la tabla 13, los perfiles de SNP obtenidos mediante ensayo de NGS y ensayo de perfilado de SNP de PCR específica de alelo para los pacientes 05 y 15 no son idénticos (8 discrepancias para cada uno); el identificador de paciente es diferente en la lista de trabajo del ensayo de NGS en comparación con la lista de trabajo del ensayo de perfilado de NGS en la posición correspondiente a los pacientes 19 y 21; los perfiles de NGS (NGS vs ensayo de perfilado de SNP) no son idénticos para el paciente 19, así como para el paciente 21 (10 discrepancias para cada uno); el sexo del paciente 24 es F en la lista de trabajo, mientras que el sexo determinado mediante ensayo de NGS es M.

Tabla 14. Tabla que simula la comparación de los resultados de NGS y la PCR específica de alelo, que ilustra las diferentes posibles discrepancias.

La cuarta hoja de cálculo es una tabla dinámica (“PivotTable”) de Excel basada en la hoja de cálculo anterior. Permite determinar cuántos pacientes se presentaron con el mismo perfil de SNP, es decir, la misma combinación para los 15 SNP (tabla 15); la columna "Total General" indica el número de pacientes con el mismo perfil de SNP (resultante del genotipo mostrado para cada SNP en las columnas 1 a 15). En este caso, los pacientes 03-M y 22-M presentan el mismo perfil de SNP, que resultaba difícil de observar en la tabla 14 (nuevamente, dicho resultado era esperado tras la modificación deliberada de los resultados de genotipado de NGS ilustrados en la leyenda de la tabla 13).

Tabla 15. Tabla dinámica para determinar cuántos pacientes presentaron el mismo perfil de SNP.

Conclusión

Los presentes inventores diseñaron un ensayo de perfilado de SNP de PCR múltiple específica de alelo para validar los resultados de genotipado de NGS mediante la comparación del perfil de s Np obtenido mediante ambos ensayos. Dicho ensayo de perfilado de SNP de PCR múltiple específica de alelo resulta adecuado para el procedimiento rutinario en cualquier laboratorio de genética.

En efecto, el ensayo de perfilado de SNP de PCR múltiple específica de alelo de los presentes inventores es rápido: una única reacción de PCR seguido de electroforesis capilar permite determinar el perfil de SNP de una combinación de 15 SNP. Pueden utilizarse muestras de ADN primario para el ensayo. Las mezclas previamente preparadas para la preparación de la PCR han demostrado ser estables durante por lo menos doce meses. El ensayo de perfilado de SNP requiere dispositivos (ciclador térmico de PCR y sistemas de electroforesis capilar) que habitualmente se utilizan rutinariamente en laboratorios de genética. Los SNP se localizan en un gen de mantenimiento: por lo tanto, la secuenciación de NGS de las regiones SNP de interés no pueden conducir a resultados no deseados. Debido a que el mismo juego de SNP puede añadirse a cualquier kit de NGS de captura o kit de NGS de amplicón, el ensayo de perfilado de SNP de PCR múltiple específica de alelo de los presentes inventores pueden ser el único ensayo de perfilado de SNP utilizado en un laboratorio que lleve a cabo ensayos de NGS con diferentes kits de NGS. Presenta un elevado poder de discriminación, ya que el riesgo de que dos muestras de una serie de 96 muestras presente el mismo perfil de SNP es inferior a 5%, con independencia del origen del paciente, alcanzando 0,2% en la población europea (es decir, estadísticamente, los resultados de genotipado de NGS necesitarían confirmarse para dos pacientes mediante secuenciación de Sanger únicamente en 2 de cada 1000 ensayos de NGS). La interpretación de los resultados del ensayo de perfilado de NGS es simple y rápida. Los resultados del genotipado de n Gs para los 15 SNP es fiable, ya que la cobertura alcanza más de 30 lecturas. Los perfiles de SNP obtenidos mediante los ensayos de NGS y de perfilado de SNP de PCR específica de alelo pueden compararse fácilmente utilizando un archivo de Excel diseñado con este propósito.

De esta manera, en el caso de que los resultados del ensayo de perfilado de NGS sean estrictamente idénticos a los resultados de genotipado de NGS correspondiente, y en el caso de que ninguno de los pacientes de la serie presente un perfil de SNP idéntico, los resultados de genotipado de NGS no necesitan ser confirmados mediante otra técnica, lo que resulta en un considerable ahorro de tiempo en los procedimientos de laboratorio.

Ejemplo 2: implementación de un ensayo de perfilado de SNP de PCR m últiple específica de alelo para la validación de resultados de secuenciación de exomas completos

Los SNP del ensayo de perfilado de SNP anteriormente indicado son exónicos (rs11702450, rs1058018, rs8017, rs1065483, rs2839181, rs11059924, rs1131620) o se encuentran próximos a la unión exón-intrón /- 50 pb (rs843345, rs3738494, rs2075144, rs6795772, rs456261, rs352169 y rs3739160), con la excepción de un único SNP (rs2231926) situado a una distancia de la unión exón-intrón (-1015 pb). Por lo tanto, debido a que catorce de los 15 SNP están potencialmente cubiertos en los estudios de secuenciación de exomas completos (WES), los presentes inventores comprobaron si la cobertura de SNP resultaba suficiente en WES (>20X). En caso afirmativo, el ensayo de perfilado de SNP de PCR múltiple específica de alelo asimismo podría utilizarse para el emparejamiento de muestras para el ensayo WES.

WES que utiliza el kit de enriquecimiento SeqCap EZ MedExome (Roche, Nimblegen) en una serie de 12 pacientes muestra una suficiente cobertura de la totalidad de los 15 SNP (tabla 16), incluyendo rs2231926, situado a -1015 bases de la unión intrón-exón. Únicamente un valor de cobertura era inferior a 20X (15X; paciente n° 2 para rs3739160) (datos proporcionados por Dr. Boris Keren, Department of Genetics, Functional Genomics Development Unit, Pitié-Salpétriére Hospital Group).

Estos resultados deben confirmarse en otra serie de WES del paciente. Sin embargo, muestran que el ensayo de perfilado de SNP de PCR múltiple específica de alelo de los presentes inventores asimismo podría utilizarse probablemente para el emparejamiento de muestras para el ensayo WES.

Claims

REIVINDICACIONES

1. Método para validar resultados de genotipado de secuenciación de próxima generación (NGS) de un panel de genes sometido a prueba en una serie de por lo menos 2 pacientes, caracterizado por que dicha validación es proporcionada por un ensayo de perfilado de SNP, comprendiendo dicho método las etapas de:

a) determinar el genotipo para una combinación de por lo menos 8 SNP mediante un ensayo de perfilado de SNP independiente que utiliza las muestras de ADN primarias utilizadas para obtener dichos resultados de genotipado de NGS, incluyendo dichos resultados de genotipado de NGS el genotipo para dichos SNP; b) comparar los genotipos de SNP obtenidos mediante dicho ensayo de perfilado de SNP y el ensayo de NGS; c) validar o no los resultados de genotipado de NGS basándose en dicha comparación, en el que:

1) si no existen dos pacientes de la serie con perfiles de SNP idénticos y dichos genotipos de SNP obtenidos mediante dicho ensayo de perfilado de SNP y dicho ensayo de NGS son idénticos, a continuación se validan los resultados de genotipado de NGS; y

2) si dos pacientes presentan unos perfiles de SNP idénticos pero los resultados de genotipado de NGS son diferentes, se lleva a cabo además un ensayo de secuenciación (por ejemplo, secuenciación de Sanger) para estos dos pacientes, para validar sus resultados de genotipado de NGS; y

3) en otros casos, los resultados de genotipado de NGS no son validados y resulta necesaria una validación adicional;

en el que dichos SNP presentan las características siguientes:

i. no están localizados en una secuencia repetida del genoma;

ii. son bialélicos;

iii. las secuencias flanqueantes de 60 bases en ambos lados del sitio de SNP presentan un contenido de GC <70% y un contenido de AT <70%;

iv. no están asociados a una patología conocida.

2. Método según la reivindicación 1, en el que dichos SNP presentan además una de las características siguientes:

v. no presentan un desequilibrio de ligamiento (LD) significativo entre sí;

vi. presentan una frecuencia de alelo menor (MAF) para una población comprendida entre 0.1 y 0.5, preferentemente entre 0.2 y 0.5, más preferentemente entre 0.25 y 0.5, todavía más preferentemente entre 0.275 y 0.5, preferentemente entre 0.3 y 0.5, todavía más preferentemente entre 0.325 y 0.5, todavía más preferentemente entre 0.35 y 0.5, todavía más preferentemente entre 0.375 y 0.5, todavía más preferentemente entre 0.4 y 0.5

preferentemente dichos SNP presentan además las características v. y vi.

3. Método según la reivindicación 1 o 2, en el que dichos SNP están localizados en genes de mantenimiento.

4. Método según cualquiera de las reivindicaciones 1 a 3, en el que dicha combinación de SNP comprende por lo menos un, preferentemente por lo menos 2, por lo menos 8, más preferentemente por lo menos 12, todavía más preferentemente por lo menos 15, SNP seleccionados de entre rs11702450; rs843345; rs1058018; rs8017; rs3738494; rs1065483; rs2839181; rs11059924; rs2075144; rs6795772; rs456261; rs1131620; rs2231926; rs352169 y rs3739160.

5. Método según cualquiera de las reivindicaciones 1 a 4, en el que la totalidad de dichos SNP se detecta mediante PCR múltiple específica de alelo con un juego específico de cebadores, en el que dichos cebadores específicos presentan las características siguientes:

I. no se encuentra presente ningún SNP adicional de frecuencia >5% dentro de dichos cebadores específicos y no se encuentra presente ningún SNP adicional de frecuencia >1% dentro de las 10 bases del extremo 3' de dichos cebadores específicos;

II. su temperatura de fusión está comprendida entre 62°C y 71°C, preferentemente entre 63°C y 68°C, más preferentemente entre 64 y 66°C, todavía más preferentemente aproximadamente 65°C (+/-1°C); III. generan amplicones que no contienen ningún polimorfismo frecuente (>1%) de repetición, inserción o deleción,

en el que dicho juego específico de cebadores comprende para cada SNP el triplete de cebadores siguiente: a) 2 cebadores ("cebadores de hebra de sentido") que hibridan en la misma hebra de ADN específicamente en su extremo 3' al nucleótido polimórfico de los alelos 1 y 2 de dicho SNP, respectivamente;

b) 1 cebador que hibrida específicamente a la hebra opuesta ("cebador de hebra opuesta").

6. Método según la reivindicación 5, en el que los cebadores específicos de cada par que consiste en un cebador de sentido y un cebador opuesto destinados a amplificar un alelo de un SNP presentan además las características siguientes:

IV. no forman un dímero en su extremo 3' con ellos mismos, ni entre sí, cuya energía de enlace es inferior a -3.6 kCal/mol, preferentemente -1.9 kCal/mol;

V. no hibridan al genoma de manera inespecífica;

VI. generan amplicones de un tamaño comprendido entre 90 y 500 pares de bases.

7. Método según la reivindicación 5 o 6, en el que dichos 2 cebadores de hebra de sentido comprenden por lo menos una base en el extremo 3' que es una base de ácido nucleico bloqueado (LNA).

8. Método según cualquiera de las reivindicaciones 5 a 7, en el que dichos cebadores de hebra de sentido o dichos cebadores de hebra opuesta, preferentemente dichos cebadores de hebra opuesta, presentan una secuencia GTTTCTT adicional añadida a su extremo 5'.

9. Método según cualquiera de las reivindicaciones 5 a 8, en el que dichos pares de cebadores destinados a amplificar un alelo de un SNP están concebidos para generar amplicones de diferentes tamaños, y en el que:

IX. los tamaños de los amplicones relacionados con el alelo 1 y el alelo 2 de SNPn difieren en 2 a 5 pares de bases, preferentemente 3 pares de bases; y

X. los tamaños de los amplicones relacionados con el alelo 2 de SNPn y el alelo 1 de SNPn+1 difieren en 2 a 20 pares de bases, preferentemente 2 a 10 pares de bases, más preferentemente 3 a 8 pares de bases, todavía más preferentemente 4 a 6 pares de bases; y

XI. dicha diferencia entre los tamaños de los amplicones del alelo 1 y el alelo 2 de cada SNP se genera añadiendo bases al extremo 5' del cebador de hebra de sentido que hibrida con el alelo 1 o 2 del SNP, preferentemente al alelo 2 del SNP.

10. Método según cualquiera de las reivindicaciones 5 a 9, en el que dichos cebadores de hebra de sentido o dichos cebadores de hebra opuesta están marcados con un fluorocromo, tal como 6-FAM, con la condición de que, cuando los cebadores de sentido u opuestos presentan una secuencia GTTTCTT en su extremo 5', el fluorocromo se une al cebador que no comprende la secuencia GTTTCTT en su extremo 5'.

11. Método según cualquiera de las reivindicaciones 5 a 10, en el que dicha combinación de SNP comprende, y más preferentemente consiste en, la totalidad de rs11702450; rs843345; rs1058018; rs8017; rs3738494; rs1065483; rs2839181; rs11059924; rs2075144; rs6795772; rs456261; rs1131620; rs2231926; rs352169 y rs3739160, y dicho juego de cebadores se selecciona de entre:

en los que las bases entre llaves son bases modificadas con LNA; [MARCADOR] es la modificación 5' del cebador.

12. Método según la reivindicación 9 o 11, en el que dichos SNP se detectan determinando el tamaño de dichos amplicones generados mediante PCR múltiple específica de alelo, preferentemente mediante un método de separación del ADN basado en el tamaño, tal como la electroforesis capilar.

13. Método según la reivindicación 12, en el que dicho ensayo de perfilado de SNP en dicha etapa b) está automatizado con un software que reconoce dichos productos de PCR múltiple marcados.

14. Método según cualquiera de las reivindicaciones 1 a 13, en el que dicho NGS es NGS de captura de diana o NGS de amplicón.

15. Kit para la detección de una combinación de por lo menos 8 SNP como se define en la reivindicación 4, que comprende cebadores como se define en cualquiera de las reivindicaciones 5 a 11, comprendiendo dicho kit además preferentemente:

- unos reactivos de PCR múltiple; y/o

- unas sondas o cebadores oligonucleótidos de NGS diseñados para capturar o amplificar secuencias que comprenden dichos por lo menos 8 SNP.

16. Utilización del kit según la reivindicación 15 en un método para validar los resultados de genotipado de NGS de un panel de genes sometido a prueba en serie de por lo menos 2 pacientes, según cualquiera de las reivindicaciones 1 a 14.

17. Método para detectar polimorfismos en el ADN de un paciente, que comprende llevar a cabo, preferentemente en paralelo, las dos etapas siguientes:

a) detectar polimorfismos mediante ensayo de NGS, y

b) validar resultados de genotipado de NGS utilizando el método según cualquiera de las reivindicaciones 1 a 14.