ES2968786T3

ES2968786T3 - Sistema y método de reconocimiento de imágenes

Info

Publication number: ES2968786T3
Application number: ES15842878T
Authority: ES
Inventors: Muthukaruppan Swaminathan; Tobias Sjöblom; Ian Cheong; Obdulio Piloto
Original assignee: Temasek Life Sciences Laboratory Ltd
Current assignee: Temasek Life Sciences Laboratory Ltd
Priority date: 2014-09-15
Filing date: 2015-09-15
Publication date: 2024-05-14
Anticipated expiration: 2035-09-15
Also published as: CA2960964A1; WO2016043659A1; CN107111869B; EP3195260A4; EP3195260A1; KR102535810B1; KR20170055987A; AU2015318702C1; US20170249535A1; CN107111869A; IL251022A0; US10325183B2; AU2015318702B2; MY188125A; JP2017527937A; AU2015318702A1; CA2960964C; EP3195260B1; SG11201701902XA; CO2017003311A2

Abstract

Se proporciona un sistema y un método mejorados para la clasificación de imágenes digitales. Un ordenador central que tiene un procesador está acoplado a una memoria que almacena en ella datos de características de referencia. Una unidad de procesamiento de gráficos (GPU) que tiene un procesador está acoplada al ordenador principal y está configurada para obtener, desde el ordenador principal, datos característicos correspondientes a la imagen digital; acceder, desde la memoria, a uno o más datos de características de referencia; y para determinar una distancia semimétrica basada en una distribución binomial de Poisson entre los datos de características y uno o más datos de características de referencia. La computadora principal está configurada para clasificar la imagen digital usando la distancia semimétrica determinada. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Sistema y método de reconocimiento de imágenes

TRASFONDO DE LA INVENCIÓN

Campo de la invención

La presente invención se refiere en general a sistemas y métodos mejorados para el reconocimiento de imágenes. Más particularmente, la presente invención se refiere a sistemas y métodos para el reconocimiento de patrones en imágenes digitales. Aún más particularmente, la presente invención se refiere a sistemas y métodos para realizar funciones de clasificación y reconocimiento de imágenes de secuencias de ADN o ARN, utilizando una nueva y novedosa medida de distancia semimétrica llamada radio binomial de Poisson (PBR) basada en el distribución binomial de Poisson.

Descripción de la técnica relacionada

Los métodos de aprendizaje automático, tales como las máquinas de vectores de soporte (SVM), el análisis de componentes principales (PCA) y los k vecinos más cercanos (k-NN), utilizan medidas de distancia para comparar diferencias relativas entre puntos de datos. Elegir una medida de distancia adecuada es de fundamental importancia. Las medidas más utilizadas son la suma de distancias al cuadrado (L<2>o euclidiana) y la suma de diferencias absolutas (L<1>o manhattan).

La pregunta de cuál utilizar puede responderse desde una perspectiva de máxima verosimilitud (ML). En pocas palabras, L<2>se utiliza para datos que siguen una distribución gaussiana i.i.d., mientras que L<1>se utiliza en el caso de datos distribuidos por Laplace i.i.d. Véase [1], [2]. En consecuencia, cuando se conoce o se estima bien la distribución de los datos subyacentes, se puede determinar la métrica a utilizar.

El problema surge cuando las distribuciones de probabilidad de las variables de entrada son desconocidas o no idénticas. Tomando como ejemplo la adquisición de imágenes, las imágenes capturadas por las cámaras digitales modernas siempre están corrompidas por el ruido. Véase [3]. Por ejemplo, la salida de un sensor de dispositivo de carga acoplada (CCD) transporta una variedad de componentes de ruido, tales como ruido de fotones y ruido de patrón fijo (FPN), junto con la señal útil. Véase [4]. Además, las imágenes son propensas a corromperse por el ruido durante la amplificación y transmisión de la señal. Véase [5]. Algunos de los tipos de ruido más comunes que se encuentran en la literatura son el ruido aditivo, el impulsivo o el ruido dependiente de la señal. Sin embargo, el tipo y la cantidad de ruido generado por las cámaras digitales modernas tiende a depender de detalles específicos como la marca y el nombre de la serie de la cámara, además de la configuración de la cámara (apertura, velocidad de obturación, ISO). Véase [6]. Además, las conversiones de formato de archivos de imagen y las transferencias de archivos que resultan en la pérdida de metadatos pueden agravar este problema. Incluso si la imagen capturada parece estar libre de ruido, aún puede contener componentes de ruido imperceptibles para el ojo humano. Véase [7]. Dado que los descriptores de características están sujetos a tales fuentes de ruido heterogéneas, es razonable suponer que dichos descriptores son independientes pero no están distribuidos de manera idéntica (i.n.i.d.). Véase [8].

Inherente a la mayoría de las medidas de distancia es el supuesto de que las variables de entrada son independientes y están distribuidas idénticamente (i.i.d.). Los avances recientes en el análisis de datos de secuenciación biológica y otros campos han demostrado que, en realidad, los datos de entrada a menudo no siguen la supuesta i.i.d. Se ha demostrado que tener en cuenta esta discrepancia conduce a algoritmos basados en decisiones más precisos.

Varios hilos han contribuido al desarrollo de medidas de distancia semimétricas. El primero se relaciona con los axiomas que las medidas de distancia deben satisfacer para calificar como métricas de distancia. Estos son los axiomas de no negatividad, simetría, reflexividad y desigualdad del triángulo. Las medidas que no satisfacen el axioma de desigualdad del triángulo se denominan, por definición, distancias semimétricas.

Aunque las métricas de distancia se utilizan ampliamente en la mayoría de las aplicaciones, ha habido buenas razones para dudar de la necesidad de algunos de los axiomas, especialmente la igualdad del triángulo. Por ejemplo, se ha demostrado que el axioma de desigualdad del triángulo se viola de manera estadísticamente significativa cuando se pide a sujetos humanos que realicen tareas de reconocimiento de imágenes. Véase [9]. En otro ejemplo, también se ha demostrado que las puntuaciones de distancia producidas por los algoritmos de mayor rendimiento para el reconocimiento de imágenes utilizando los conjuntos de datos Labeled Faces in the Wild (LFW) y Caltech101 violan la desigualdad del triángulo. Véase [10].

Otro hilo tiene que ver con la "maldición de la dimensionalidad". A medida que aumenta el número de dimensiones en el espacio de características, la relación entre las distancias de los vecinos más cercanos y más lejanos a cualquier consulta dada tiende a converger a la unidad para las distribuciones de datos y funciones de distancia más razonables. Véase [11]. El pobre contraste entre los puntos de datos implica que las búsquedas de vecinos más cercanos en un espacio de alta dimensión se vuelven insignificantes. En consecuencia, se creó la semimétrica fraccionaria Lp [12] como medio para preservar el contraste. Si (x¡, y¡) es una secuencia de vectores aleatorios i.i.d., la distancia Lp se define como:

Tomando p = 1 se obtiene la distancia de manhattan y p = 2, la distancia euclidiana. Para valores de p E (0,1), Lp da la medida de distancia Lp fraccionaria.

En un estudio de comparación de plantillas para imágenes de rostros e imágenes sintéticas que compararon las distancias Lp y L<2>, se concluyó que los valores de p E (0,25; 0,75) superaron a L<2>cuando las imágenes se degradaron con ruido y oclusiones. Véase [13]. Otros grupos también han utilizado la distancia Lp para unir imágenes sintéticas y reales. Véase [14]. Howarth et al [15] exploraron la idea de utilizar la distancia Lp para la recuperación de imágenes basada en contenido y los resultados sugieren que p = 0,5 podría generar mejoras en el rendimiento de la recuperación y superar consistentemente las normas L<1>y L<2>.

Otras distancias semimétricas que vale la pena mencionar son la función parcial dinámica (DPF) [16], la divergencia de Jeffrey (JD) [17] y la distancia de edición normalizada (NED) [18].

Hasta la fecha, no se ha demostrado una medida de distancia en el reconocimiento de patrones para manejar distribuciones de i.n.i.d. Por tanto, existe la necesidad de sistemas y métodos mejorados para el reconocimiento de patrones.

"Classification and clustering of sequencing data using a Poisson model" Daniela M. Witten10.1214/11-AOAS493 divulga nuevos enfoques para realizar la clasificación y agrupamiento de observaciones en base a los datos de secuenciación. Utilizando un modelo log lineal de Poisson se desarrolla un análogo del análisis discriminante lineal diagonal que es apropiado para secuenciar datos. También se propone un enfoque para agrupar datos de secuenciación utilizando una nueva medida de disimilitud que se basa en el modelo de Poisson. El rendimiento de estos enfoques se demuestra en un estudio de simulación en tres conjuntos de datos de secuenciación de ARN disponibles públicamente y en un conjunto de datos de secuenciación de inmunoprecipitación de cromatina disponible públicamente.

SUMARIO DE LA INVENCIÓN

La invención está definida por las reivindicaciones independientes adjuntas. Otras realizaciones se proporcionan en las reivindicaciones dependientes.

De acuerdo con un aspecto de la presente invención, se proporcionan sistemas y métodos para el reconocimiento de patrones que utilizan una nueva distancia semimétrica que se denomina radio binomial de Poisson (PBR) en base a la distribución binomial de Poisson. La presente invención proporciona numerosas ventajas no limitantes. Por ejemplo, la presente invención incluye una semimétrica robusta que evita la suposición de i.i.d. y tiene en cuenta descriptores de características de i.n.i.d. y demuestra además robustez ante la degradación en condiciones ruidosas. Además, la presente invención mejora la eficiencia del propio dispositivo de reconocimiento de patrones al reducir el procesamiento y mejorar la eficiencia.

De acuerdo con aspectos de la presente invención, los sistemas y métodos son adecuados para aplicaciones en tiempo real. Por ejemplo, de acuerdo con realizaciones de la presente invención, las características de implementación se paralelizan usando una unidad de procesamiento de gráficos (GPU).

De acuerdo con otros aspectos de la presente invención, se introduce un nuevo clasificador que logra altas precisiones de clasificación a pesar de pequeños conjuntos de muestras de entrenamiento. De acuerdo con otros aspectos de la presente invención, el clasificador se puede generalizar fácilmente para manejar más clases sin necesidad de una fase de entrenamiento o validación cruzada para optimización.

De acuerdo con aspectos de la presente invención, una nueva medida de distancia para el reconocimiento de patrones se basa en la distribución binomial de Poisson, que evita la suposición de que las entradas están distribuidas de forma idéntica. Los inventores han probado esta nueva medida en los experimentos descritos en el presente documento. Un experimento fue una tarea de clasificación binaria para distinguir entre imágenes digitalizadas de humanos y gatos, y otro fue la identificación de imágenes digitalizadas de orejas compiladas a partir de dos bibliotecas de imágenes. En ambos experimentos, el rendimiento de esta medida se comparó con medidas de distancia euclidiana, manhattan y Lp fraccionaria. La extracción de características para estos dos experimentos se logró utilizando un histograma de gradientes orientados (HOG) paralelizado por GPU para capturar información de forma y textura.

Los inventores demostraron que la presente invención supera consistentemente los métodos de reconocimiento de patrones que utilizan las medidas de distancia de la técnica anterior mencionadas anteriormente. Además, los resultados muestran que la medida de distancia propuesta puede mejorar la eficacia de los algoritmos de aprendizaje automático.

De acuerdo con aspectos de la presente invención, se proporciona un sistema de clasificación de imágenes. El sistema incluye una GPU para realizar el cálculo de las características HOG para una imagen recibida y comparar las características HOG calculadas con las características HOG almacenadas de las imágenes de entrenamiento. El sistema clasifica la imagen de acuerdo con la imagen de entrenamiento más cercana de en base a PBR.

De acuerdo con aspectos de la presente invención, el sistema de clasificación de imágenes se puede utilizar para discriminar células cancerosas de células normales.

De acuerdo con otro ejemplo que no forma parte de la presente invención, el sistema de clasificación de imágenes se puede utilizar para hacer coincidir huellas dactilares.

De acuerdo con aspectos de la presente invención, el sistema de clasificación de imágenes se puede utilizar para identificar variantes raras en datos de secuenciación de ADN o ARN.

De acuerdo con otro ejemplo que no forma parte de la presente invención, el sistema de clasificación de imágenes puede utilizarse para reconocer rostros.

De acuerdo con aspectos de la presente invención, PRICoLBP se puede utilizar como alternativa a HOG. De manera similar, el núcleo SVM se puede utilizar como alternativa a kNN.

Otras aplicaciones y ventajas de diversas realizaciones de la presente invención se analizan a continuación con referencia a las figuras de los dibujos.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Las FIG. 1a y 1b ilustran la función de masa de probabilidad de salida para el análisis de secuenciación de ADN.

Las FIG. 2a y 2b son imágenes de ejemplo del conjunto de datos LFW (a) y conjunto de datos cat (b), respectivamente.

La FIG. 3a es un diagrama de bloques de una arquitectura de implementación ejemplar para el reconocimiento de imágenes de acuerdo con una realización de la presente invención.

La FIG. 3b es un diagrama de bloques de una arquitectura de implementación ejemplar para la detección de variantes raras de ADN de acuerdo con una realización de la presente invención.

La FIG. 3c es un diagrama de flujo básico para realizar el reconocimiento de imágenes de acuerdo con realizaciones de la presente invención.

La FIG. 4 es un gráfico de precisión de clasificación en función del número de imágenes de entrenamiento. La FIG. 5 es un gráfico de barras de una comparación del tiempo de cálculo para la aplicación de clasificación de imágenes usando diferentes medidas de distancia.

Las FIG. 6a y 6b ilustran las curvas de coincidencia acumulativa (CMC) para las bases de datos IIT Delhi I (a) y IIT Delhi II (b), respectivamente.

Las FIG. 7a y 7b ilustran el efecto del ruido en el rendimiento de reconocimiento de rango uno para las bases de datos lIT Delhi I (a) y IIT Delhi II (b), respectivamente.

Si bien la presente invención puede realizarse de muchas formas diferentes, a continuación se describen varias realizaciones ilustrativas con referencia a las figuras descritas anteriormente, en el entendimiento de que la presente divulgación debe considerarse como que proporciona ejemplos de los principios de la invención y dichos ejemplos no pretenden limitar la invención a las realizaciones preferidas descritas en el presente documento y/o ilustradas en el presente documento.

DESCRIPCIÓN DETALLADA DE LAS REALIZACIONES PREFERIDAS

La distribución binomial de Poisson se define mediante la función de masa de probabilidad para n éxitos dadas probabilidades de éxito independientes pero no idénticas (p<1>,... ,<pn>). Estos eventos existen en un espacio de probabilidad (D,F,P). La distribución es unimodal, siendo la media p la suma de p¡ donde i incrementa de 1 a N, y la varianza o2 es la suma de (1 -pi)p¡ donde i incrementa de 1 a N.

Un caso especial de esta distribución es la distribución binomial donde p¡ tiene el mismo valor para todo i. La distribución binomial de Poisson se puede utilizar en una amplia gama de campos como biología, imágenes, minería de datos, bioinformática e ingeniería. Si bien es popular aproximar la distribución binomial de Poisson a la distribución de Poisson. Esta aproximación solo es válida cuando las probabilidades de entrada son pequeñas, como se desprende de los límites del error definido por el teorema de Le Cam [19] dado por

donde P(Dn) da la probabilidad de n éxitos en el dominio binomial de Poisson y A es el parámetro de Poisson.

La distribución binomial de Poisson se utiliza cada vez más en aplicaciones de investigación. Shen et al [20] desarrollaron un enfoque de aprendizaje automático para la identificación de metabolitos a partir de grandes bases de datos moleculares como KEGG y PubChem. El vector de huella dactilar molecular se trató con una distribución binomial de Poisson y la probabilidad máxima resultante se utilizó para la recuperación de candidatos. De manera similar, Lai et al. [21] desarrollaron un modelo estadístico para predecir sustratos de quinasa en base al reconocimiento del sitio de fosforilación. Es importante destacar que la probabilidad de observar coincidencias con las secuencias de consenso se calculó utilizando la distribución binomial de Poisson. Otros grupos [22], [23] han utilizado esta distribución para identificar aberraciones genómicas en muestras de tumores.

Dado que la probabilidad de un evento de aberración varía entre muestras, las posiciones de las bases de ADN individuales se tratan como ensayos de Bernoulli independientes con probabilidades de éxito desiguales para determinar la probabilidad de una aberración genética en cada posición en cada muestra. Siguiendo el mismo razonamiento, se han propuesto modelos para denominar con precisión variantes raras [24], [25].

La presente invención busca, entre otras cosas, mejorar la precisión del análisis de secuenciación de ADN en base a puntuaciones de calidad de secuenciación. Cada puntuación disponible para cada base de ADN secuenciada refleja la probabilidad de que el valor de salida se haya llamado correctamente. Por ejemplo, si hay N lecturas independientes para una posición particular, entonces el software de análisis de secuencia generará una puntuación de calidad qi para cada lectura en esa posición que tiene en cuenta la probabilidad de errores de lectura. La probabilidad implícita de una lectura correcta está dada por

Debido a que la identidad de cada posición secuenciada se llama en base a múltiples lecturas de la misma posición, a veces sumando miles, cada lectura como un evento de Bernoulli se trató y se buscó construir una distribución de probabilidad para cada posición secuenciada utilizando los puntajes de calidad relevantes para esa posición. Se encontraron formas eficientes de calcular esta distribución de probabilidad y se describen a continuación.

Usando el teorema de Waring

Defina p<1>,... ,<pn>como una descripción de eventos independientes pero no idénticos que existen en un espacio de probabilidad (D, F, P). Zk se define además como la suma de todas las k-combinaciones únicas extraídas de p<1>,... , pN. Así formalmente:

donde la intersección sobre el conjunto vacío se define como D. Por lo tanto, Z<0>= 1 y la suma abarca todos los subconjuntos I de los índices 1,... ,N que contienen exactamente k elementos. Por ejemplo, si N = 3, entonces

Luego defina P(n) en términos de Zk normalizando para todas las intersecciones de conjuntos contadas redundantemente usando el teorema de Waring [26], que es un caso especial de la fórmula de Schuette-Nesbitt [27].

El teorema de inclusión-exclusión viene dado por n =0. En el algoritmo 1 se describe un medio escalable para calcular Zk.

Algoritmo 1Algoritmo Recursivo de Waring

Entrada:P ={ p nG } n=- i : un vector de probabilidades

Salida: Calcular los valores de Zk dado un vector arbitrario

de probabilidades

1 Construir una matriz AT = [a¡j] triangular superior de

N x N ' ' '

2 a j j% ■{—P

3 for i = 2 to N do

4kt - 0

<5>forj

6kt

7« i j

8 end f

9 & < -

10 end for

El principal beneficio de este enfoque es el descuento exponencialmente creciente en la complejidad del tiempo con valores crecientes de N. Esto surge del carácter de programación dinámica del algoritmo que agrupa los cálculos en bloques para minimizar la redundancia. Esta estructura recursiva autosemejante hace factible el cálculo evitando la explosión combinatoria. Con este enfoque, el número total de bloques que deben calcularse aumenta con N2 y se describe mediante la suma aritmética N/2 * (1 N).

Otra ventaja de este enfoque es la capacidad de calcular los elementos de cada columna en paralelo. Esto significa que la complejidad del tiempo disminuye de O(N2) sin paralelización a O(N) con paralelización completa implementada. Se pueden realizar mejoras adicionales calculando los elementos de la matriz en la dirección inversa, proporcionando así un método en tándem para el cálculo paralelo de la matriz AT. Esto se logra utilizando dos funciones recursivas, a¿N = a<1>,N (Zi<-1>- a¡<-1>,<n>) y a¡,j = a<1>,j .(ai,j<+1>/ a j - ai-<1>,j), simultáneamente además de la función recursiva definida en el Algoritmo 1. Los métodos descritos anteriormente proporcionan un medio eficiente para generar funciones de masa de probabilidad conjunta (p.m.f.). El caso de N = 6 se demuestra aquí multiplicando la serie Zk por los coeficientes binomiales apropiados.

La misma pmf se puede generar usando un método alternativo que se describe a continuación.

La Transformada Rápida de Fourier

Usando las mismas definiciones que antes, la probabilidad de cualquier combinación w particular se puede escribir como el producto combinatorio de eventos ocurridos y no ocurridos.

Si Qn se define como el espacio muestral correspondiente de todos los posibles conjuntos pares de I e IC resultantes de n ocurrencias y N-n no ocurrencias, entonces

La expresión anterior es intuitiva ya que es la suma de las probabilidades de todas las combinaciones posibles de ocurrencias y no ocurrencias. Por observación, es posible construir un polinomio para expresar P(Qn) como coeficientes de un polinomio de orden N.

Los coeficientes del polinomio anterior se pueden resolver fácilmente utilizando algoritmos basados en la Transformada Discreta de Fourier. El vector de coeficientes relevante se puede calcular eficientemente de la siguiente manera:

En términos prácticos, los vectores pueden rellenarse con ceros a la izquierda elevados a una longitud de potencia de dos y luego procesarse iterativamente en pares usando IFFT-1 (FFT(a) • FFT(b)) donde a y b representan cualquier par arbitrario de vectores. Utilizando una implementación en GPU de la Transformada Rápida de Fourier (FFT), se pueden procesar múltiples entradas en paralelo utilizando un esquema simple de entradas entrelazadas y salidas desconvolucionadas. Esta función devuelve una lista de tuplas, donde la i-ésima tupla contiene el i-ésimo elemento de cada una de las secuencias de argumentos o iterables.

Secuenciación de ADN.

Una aplicación importante de la presente invención es el análisis de conjuntos de datos de secuenciación de ADN de próxima generación en los que se deben analizar miles de lecturas por posición base de ADN. Si una posición base particular está mutada en el cáncer, entonces la detección de tales variantes sería un diagnóstico ideal. En realidad, el ADN variante a menudo se mezcla con ADN normal en proporciones bajas y el desafío es calcular la confianza estadística dados dos estados conflictivos detectados en la misma posición base. Esto se puede lograr tratando estos estados en conflicto como eventos de Bernoulli y construyendo p.m.f. usando cualquiera de los dos métodos descritos anteriormente. El resultado de ejemplo se ilustra en las Fig. 1a y 1b.

Los intervalos de confianza calculados a partir de estas p.m.f. permiten tomar una decisión sobre si la evidencia del estado base variante está suficientemente por encima de un umbral de significancia. De acuerdo con aspectos de la presente invención, se pueden aplicar principios similares a aplicaciones de reconocimiento de patrones, especialmente aquellas relacionadas con el análisis de imágenes. Esto puede estar respaldado por el hecho de que la intensidad de los píxeles solo puede considerarse como una variable aleatoria y no tiene un valor verdadero, ya que se rige por las leyes de la física cuántica [28].

DISTANCIA SEMIMÉTRICA DEL RADIO BINOMIAL DE POISSON

Calcular intervalos de confianza para cada comparación de distancias por pares sería una tarea computacional intensiva en un conjunto de datos de imágenes grande. Para evitar este costo y mejorar la eficiencia, se puede definir una medida de distancia para descriptores de características independientes pero no distribuidos de manera idéntica de la siguiente manera:

Definición. Dados dos vectores de características de N dimensiones X = (a<1>, a<2>, a3,...., aN) e Y = (b<1>, b<2>, b3,...., bN) con pi = |ai - bi|, la distancia entre los dos vectores es

P B m{ X , Y } P(QmHN<->m)<O u>

donde m es la moda y P(m) es la probabilidad máxima de la distribución. Darroch [29] ha demostrado previamente que el modo m puede estar acotado de la siguiente manera:

donde 0 < n < N. Esto implica que m difiere de la media g en menos de 1. Por lo tanto, aunque la moda m es un máximo local, se aproxima por la media g. Esto permite

Se puede hacer un refinamiento adicional considerando el exceso de curtosis de la distribución binomial de Poisson que viene dada por

donde o2 es la varianza de la p.m.f. La relación inversa entre el pico de la distribución con o2 implica una relación similar entre P(üg) y o. Esta relación inversa también es consistente con el trabajo de Baillon et al [30] que estableció el siguiente límite superior uniforme y definido para las sumas de los ensayos de Bernoulli.

donde n es la constante del límite superior. La implicación de esta relación inversa es que o puede adoptarse como una medida sustituta de P(üg), evitando así la necesidad de generar una p.m.f. para cada cálculo de distancia. Por lo tanto, se puede definir la siguiente semimétrica para descriptores de características independientes y no idénticos.

Dados dos vectores de características de N dimensiones X = (ai, a<2>, a3,...., aN) e Y = (bi, b<2>, b3,...., bN) con la distancia del radio binomial de Poisson entre los dos vectores es

PBR(X, Y) es una semimétrica. Una función d : X x X ^ [0, 1] es semimétrica sobre un conjunto X si satisface las siguientes propiedades para {x, y} X: (1) No negatividad, d(x,y) >= 0; (2) Propiedad de simetría, d(x,y) = d(y,x); y 3) Reflexividad, d(x,x) = 0. PBR es una función no negativa y satisface la propiedad de reflexividad. Como solo se utilizan valores absolutos, PBR también satisface la propiedad de simetría. Consulte la Tabla 4 a continuación que muestra que PBR y PB g son medidas de distancia equivalentes para fines prácticos.

APLICACIÓN DE CLASIFICACIÓN DE IMÁGENES

La clasificación de imágenes es un proceso automatizado por computadora para asignar una imagen digital a una clase designada en base a un análisis del contenido digital de la imagen (por ejemplo, análisis de datos de píxeles).

El uso más común de estos procesos es la recuperación de imágenes o, más específicamente, la recuperación de imágenes basada en contenido (CBIR). CBIR es el proceso de recuperar imágenes similares o muy parecidas de uno o más repositorios de imágenes digitales en base a características extraídas automáticamente de la imagen de consulta. Ha encontrado numerosas aplicaciones prácticas y útiles en diagnóstico médico, propiedad intelectual, investigación criminal, sistemas de teledetección y sistemas de gestión y archivo de imágenes. Véase [31].

Los objetivos clave en cualquier sistema CBIR son una alta precisión de recuperación y una baja complejidad computacional (la presente invención mejora ambas). La implementación de un paso de clasificación de imágenes antes de la recuperación de imágenes puede aumentar la precisión de la recuperación. Además, con este paso también se puede reducir la complejidad computacional.

Nt es el número de imágenes de entrenamiento por clase, Nc el número de clases y Nd el número de descriptores de características por imagen. La complejidad computacional de un sistema CBIR típico es 0 (N<t>•N<c>•N<d>+(N<t>•NcHog^T

•Nc)). Véase [34]. Por el contrario, agregar un paso de preclasificación disminuye la complejidad a O(Nc •Nd 4og(NT •Nd))+0(Nt •Nd Nt 4og(NT)). El primer término se refiere a la preclasificación de imágenes utilizando un clasificador de vecino más cercano Naive-Bayes [35] y el segundo término se refiere al proceso CBIR en sí.

Para dar alguna perspectiva, considere el caso de N<t>= 100, N<c>= 10 y N<d>= 150. La complejidad computacional de este último en comparación con el primero da como resultado un aumento en la velocidad de procesamiento de 7 veces. Por tanto, la preclasificación de imágenes mejora el rendimiento de CBIR.

La detección de cabezas y caras de gatos ha atraído el interés reciente de los investigadores, lo que refleja su popularidad en Internet y como compañeros humanos [36], [37], [38], [39]. Los gatos presentan desafíos interesantes para el reconocimiento de patrones. Aunque, al compartir una geometría facial similar a la de los humanos, los enfoques para detectar rostros humanos no se pueden aplicar directamente a los gatos debido a la alta variación intraclase entre los rasgos faciales y las texturas de los gatos en comparación con los humanos. La presente invención es un clasificador basado en PBR que puede distinguir entre los dos.

El conjunto de datos de imágenes Labeled Faces in the Wild (LFW) (Fig. 2a) fue creado por los autores de [40], y el conjunto de datos de gatos (Fig. 2b) fue creado por los autores de [36]. Se componen de 13.233 imágenes de personas y 9.997 imágenes de gatos. En un ejemplo, dentro de cada clase, el 70 % de las imágenes se dividieron aleatoriamente para el entrenamiento y el 30 % restante para las pruebas.

De acuerdo con aspectos de la presente invención, en la Fig. 3a se muestra un sistema de clasificación de imágenes que es capaz de realizar la clasificación de imágenes como se describe en el presente documento (consulte, también, el proceso básico que se muestra en la Fig. 3c). Como se muestra, el sistema incluye un procesador de gráficos acoplado con un sistema informático principal (por ejemplo, CPU), que tiene acceso a la memoria (no mostrada). Como se muestra en la Fig. 3a, el anfitrión es capaz de acceder a imágenes almacenadas o datos de imágenes para entrenar imágenes. Como se describe a continuación, cada imagen cambia de tamaño a un tamaño estándar (por ejemplo, 250 x 250 píxeles) que se puede seleccionar de acuerdo con la aplicación particular. Después de cambiar el tamaño, se utiliza el histograma de gradientes orientados (HOG) para la extracción de características. Se pueden almacenar y acceder a los datos de HOG para cada imagen de entrenamiento, de modo que no sea necesario crearlos (o recrearlos) sobre la marcha. La imagen a clasificar (en la Fig. 3a, la imagen de prueba) se recibe en el anfitrión desde una fuente de imagen tal como una memoria, una red o un sistema de captura de imágenes (cámara, escáner u otro dispositivo de imágenes). La imagen cambia de tamaño al tamaño estándar Después de cambiar el tamaño, se utiliza el histograma de gradientes orientados (HOG) para la extracción de características.

Los datos HOG se ingresan en la GPU para su posterior procesamiento. Se calcula la orientación y se crea un histograma. El histograma está normalizado (como lo muestra el anfitrión). El cálculo de PBR se realiza tanto en los datos de la imagen de entrenamiento como en los datos de la imagen de prueba. Por supuesto, el cálculo de PBR se puede realizar con anticipación para las imágenes de entrenamiento y los resultados almacenados. Finalmente, se realizan comparaciones para clasificar la imagen encontrando la coincidencia más cercana utilizando los resultados de PBR. Por ejemplo, se puede emplear el algoritmo 2 (a continuación).

En un ejemplo, se utilizó una versión paralelizada por GPU del histograma de gradientes orientados (HOG) [41] para la extracción de características. Se utiliza un clasificador llamado k-vecino más cercano basado en la media local adaptativo (ALMKNN), que es una modificación de un clasificador no paramétrico basado en la media local utilizado en Mitani et al [42]. ALMKNN está parcialmente implementado en la GPU.

Las funciones de HOG se pueden implementar en la GPU utilizando el marco Compute Unified Device Architecture (CUDA) de NVIDIA. Las características HOG fueron descritas por primera vez por Navneet Dalal y Bill Triggs [41] como un medio para abstraer la apariencia y la forma al representar la distribución espacial de los gradientes en una imagen. Esto se ha aplicado en la detección de peatones [43], detección de vehículos [44] y reconocimiento de gestos [45]. De acuerdo con una realización, la variante HOG rectangular (R-HOG) [46] se utiliza como se describe a continuación.

De acuerdo con otro aspecto de la presente invención, se puede proporcionar un sistema y un método para la secuenciación de ADN, tal como la detección de variantes raras, por ejemplo, en el caso de una biopsia de tumor. Un vectorXde probabilidades de calidad de secuenciación proviene de una muestra de ADN de entrada en una única posición base con una profundidad de secuenciación dx tal que X = (x1,x2,x3,,...,xdx) y un vector similar Yde una muestra de ADN de referencia secuenciada hasta la profundidad dy tal que Y = (y<1>,y<2>,y<3>,....,ydy). Calcular las medias (p) y las desviaciones estándar (o) para ambos vectores de la siguiente manera

Para comparar los vectoresXeI,PBRseq se puede definir como la distancia entreXeYde la siguiente manera:

Un valor de PBRseq pequeño indica una mayor probabilidad de que se trate de una muestra de tumor. A los efectos de la clasificación, se puede definir un umbral simpleTde modo que la muestraxse clasifique como tumor si PBRseq áTpero, por lo demás, se clasifica como normal.

Como se muestra en la Fig. 3b, se proporciona un sistema para secuenciación de ADN. Como se muestra en la Fig. 3b, el sistema es similar al sistema de 3a, pero implementa el método anterior para la secuenciación de ADN utilizando datos vectoriales. Como se muestra, el vector de puntuación de calidad de entrada descrito anteriormente se convierte en un vector de probabilidad de entrada, lo que puede lograr el anfitrión. Los vectores de probabilidad de referencia pueden proporcionarse con anticipación o el anfitrión puede calcularlos y proporcionarlos a la GPU. La GPU está configurada para recibir los dos vectores de probabilidad y calcular la distancia PBRseq entre los vectores de entrada y de referencia. La distancia se utiliza para clasificar la secuencia de ADN y el anfitrión genera una indicación de la clase asignada.

Cálculo de gradientes.

Dada una imagen de entrada I(x, y), las derivadas espaciales 1-D Ix(x, y) e Iy(x, y) se pueden calcular aplicando filtros de gradiente en las direcciones x e y. La magnitud del gradiente Mag(x, y) y la orientación (x, y) para cada píxel se pueden calcular usando:

<(>1<.>7<)>

Acumulación de histograma.

Los histogramas se pueden generar acumulando la magnitud del gradiente de cada píxel en los contenedores de orientación correspondientes sobre regiones espaciales locales llamadas celdas. Para reducir el efecto de iluminación y contraste, los histogramas se normalizan en toda la imagen. Finalmente, el descriptor HOG se forma concatenando los histogramas normalizados de todas las células en un único vector.

En un ejemplo, el algoritmo HOG descrito anteriormente se implementó utilizando el kit de herramientas PyCUDA [47] versión 2012.1 y la versión 5.0 del kit de herramientas NVIDIA CUDA y se ejecutó en una tarjeta gráfica GeForce GTX 560 Ti. Se cambió el tamaño de cada imagen a 250 x 250 (62.500 píxeles) y luego se subdividió en partes iguales en 25 celdas, cada una de 50 x 50 píxeles. Para abordar 62.500 píxeles, se crean 65.536 subprocesos en la GPU con 32 x 32 subprocesos por bloque y 8 x 8 bloques por cuadrícula. Después de asignar memoria tanto en el anfitrión como en la GPU, se inicia el núcleo.

Las magnitudes de los gradientes, las orientaciones y el histograma se pueden calcular después de que el histograma se transfiere al Anfitrión, donde se lleva a cabo la normalización en toda la imagen.

Módulo de clasificación

Los clasificadores pueden ser paramétricos o no paramétricos. Los clasificadores paramétricos asumen una distribución estadística para cada clase que generalmente es la distribución normal. Los datos de entrenamiento se utilizan solo para construir el modelo de clasificación y luego se descartan por completo. De ahí que se les denomine clasificadores basados en modelos o clasificadores ansiosos. En comparación, los clasificadores no paramétricos no hacen suposiciones sobre la distribución de probabilidad de los datos, clasificando la tupla de prueba basándose únicamente en los datos de entrenamiento almacenados y, por lo tanto, también se conocen como clasificadores basados en instancias o diferidos. El ejemplo prototípico de clasificador paramétrico es el algoritmo de máquina de vectores de soporte (SVM), que requiere una fase intensiva de entrenamiento de los parámetros del clasificador [48], [49], [50] y, a la inversa, uno de los clasificadores no paramétricos más conocidos es el clasificador k-vecino más cercano (kNN).

kNN [51] ha sido ampliamente utilizado en problemas de reconocimiento de patrones debido a su simplicidad y efectividad. Además, se considera uno de los diez mejores algoritmos en minería de datos [52]. kNN asigna a cada patrón de consulta una clase asociada con la etiqueta de clase mayoritaria de sus k vecinos más cercanos en el conjunto de entrenamiento. En problemas de clasificación binaria (de dos clases), el valor de k suele ser un número impar para evitar empates en los votos. Aunque kNN tiene varias ventajas, como la capacidad de manejar una gran cantidad de clases, evitar el sobreajuste y la ausencia de una fase de entrenamiento, sufre tres inconvenientes principales: (1) tiempo de cálculo, (2) la influencia de valores atípicos [53] y (3) la necesidad de elegir k [54].

El primer problema, la complejidad del tiempo, surge durante el cálculo de las distancias entre el conjunto de entrenamiento y el patrón de consulta, particularmente cuando el tamaño del conjunto de entrenamiento es muy grande. Este problema se puede solucionar paralelizando kNN, reduciendo la complejidad del tiempo a una constante O(1). Esto se compara bien con implementaciones alternativas como los árboles de búsqueda que son O(logN) en el tiempo. El segundo problema tiene que ver con la influencia de los valores atípicos. Para solucionar este problema, se puede utilizar un enfoque centrado en los vecinos locales. Sin embargo, este tipo de enfoque, llamado LMKNN (media local kNN), todavía conlleva el problema de tener que elegir un valor para k. La mayoría de las veces, k se elige mediante técnicas de validación cruzada [55].

Sin embargo, esto requiere mucho tiempo y conlleva el riesgo de un ajuste excesivo. Por tanto, la presente invención implica un algoritmo en el que k se elige de forma adaptativa, obviando así la necesidad de un valor de k fijo. Para poner un límite superior a k, se utiliza la regla general, que es la raíz cuadrada de N, donde N es el total de instancias de entrenamiento en T [56]. El algoritmo se denomina LMKNN adaptativo o ALMKNN.

El funcionamiento de este clasificador se describe en el Algoritmo 2.

Algoritmo 2AlgoritmoALMKNN____________________________________________

Entrada:Patrón de consulta x ;T= {x„ e : a TS; m etiquetas de clase;

kmin:Número mínimo de vecinos más cercanos;kmax:Número máximo de

vecinos más cercanos;LB\Limite inferior;UB:Límite superior

Salida:Asignar la etiqueta de clase de un patrón de consulta al vector de media

local más cercano entre las clases

<1>Calcular la distancia entre x a todo x¡ pertenecientes aT

2 Elegir kmin vecino más cercano en T, digamos Tkm¡n(x)

3 Deteminar el número de vecinos en Tkmin(x) para cada clase c¡

<4>if todos los miembros en Tkmin(x) representan solo una clase c th«i

s Asignar xa clase c

6 else

7 whilt*k - tn i n^ do

8count0

9 Calcular el vector de media local para clase c¡ en el conjunto Tkm¡n (x)

10 Calcular las distancias d¡ entre x y cada vector de media local

n Ordenar d, en orden ascendente para obtener di < d<2>< d3... < dm

12 Calcular el porcentaje de cambio entre las dos distancias di y d<2>más cercanas

<13>¡f porcentaje de cambio >LB ((UB-LB)/(km*t-kmí„))then

<14>Asignar x a clase <■[</)]

15 break w hile

16else

17k„ ,„ , 4 -k,m„1

18count<—count+ 1

19 cnd if

20end while

21 else

<22>Calcular el vector de media local para clase c¡ en el conjunto Tkm¡n (x)

<23>Calcular las distancias di entre x y cada vector de media local

<24>Asignar x a la clase c¡ con un vector de media local más cercano

25 c n d if

Con 16,261 (N en T) instancias de entrenamiento, los límites de los vecinos, kmin y kmax, pueden definirse como 20 y 127 (suelo de VN) respectivamente. Se puede definir un límite inferior (LB) y un límite superior (UB) para la toma de decisiones en 2 % y 50 % respectivamente. El primer paso del cálculo de distancias puede implementarse en GPU utilizando CUDAMat [57]. El resto del algoritmo se implementó en CPU (anfitrión). No hay fase de entrenamiento y los descriptores HOG para las imágenes de entrenamiento se almacenan en la memoria.

Rendimiento de clasificación

Utilizando ALMKNN como marco, las diversas medidas de distancia se evaluaron una al lado de la otra, concretamente, PBR, L<0,1>, L0,5, L<1>y L<2>. La precisión de la clasificación de la presente invención se promedió a lo largo de seis ejecuciones de validación repetida de submuestreo aleatorio y estos resultados se muestran en la Fig. 4. Curiosamente, PBR y L<1>fueron casi idénticos en precisión, superando fácilmente a las otras medidas de distancia. La distancia euclidiana pudo funcionar ligeramente mejor con un conjunto de entrenamiento pequeño, pero rápidamente perdió a medida que aumentó el número de imágenes de entrenamiento.

Efecto del ruido:

Para probar si PBR sería más resistente a la degradación del ruido en comparación con otras medidas de distancia, tanto las imágenes de entrenamiento como las de prueba se corrompieron con ruido de sal y pimienta de densidad creciente, d. En d = 0, PBR superó significativamente todas las medidas de distancia excepto L<1>. Sin embargo, de acuerdo con nuestra hipótesis, PBR superó significativamente todas las medidas de distancia, incluida L<1>, cuando se agregó incluso una cantidad mínima de ruido (d = 0,05) (Tabla 1).

TABLA 1: Una comparación del AUC lo rado mediante los 5 métodos.

El área bajo la curva (AUC) para cada método se promedió en 6 ejecuciones independientes de validación repetida de submuestreo aleatorio. Se utilizó la prueba de rangos con signo de Wilcoxon con un nivel de confianza del 95 % para comparar otros métodos con PBR. Los métodos que tuvieron un rendimiento significativamente peor que el PBR están resaltados con un asterisco *. El AUC más alto para cada nivel de ruido está en negrita.

Tiempo de cálculo

El tiempo de cálculo se midió en un sistema de PC con CPU Intel Core i5-3470 de 64 bits a 3,20 GHz y 12 GB de RAM que ejecuta Ubuntu 12.04 LTS.

TABLA 2: Tiempo de cálculo promedio para procesar una ima en de 250 x 250 píxeles.

En la Tabla 2, se puede ver que una implementación de GPU de la presente invención fue aproximadamente 2,6 veces más rápida que una versión puramente de CPU. Esta aceleración hace que PBR esté casi a la par con L<1>y L<2>. El tiempo de cálculo se redujo aún más al introducir el clasificador de media más cercana (NMC) (Algoritmo 3) como un paso antes del clasificador ALMKNN. Se utilizó una medida de confianza (CM) del 20 %, lo que significa que el resultado NMC se utilizó para la clasificación cuando el contraste entre las distancias a los centroides excedía el 20 %.

Algoritmo3 Algoritmo del centroide más cercano y ALMKNN

Entrada:Patrón de consulta x ;T=(x„e : ars;cs.cz....c»--M etiquetas de clase;

kmir>: Número mínimo de vecinos más cercanos; kmax: Número máximo de

vecinos más cercanos;LB:Límite inferior;UB:Límite superior; CM: Medida de confianza

local más cercano entre las clases

<1>Calcular el vector de media local para cada calse<0>perteneciente a T

<2>Calcular la distancia d¡ entre x y cada vector de media local utilizando la medida de distancia

manhattan normalizada

s Ordenar di en orden ascendente para obtener di < d<2>< d3...< dm

4 Calcular el porcentaje de cambio entre las dos distancias di y d<2>más cercanas

<5>if<porcentaje de cambio > CM>then

(•Asignar x a clase c[rf,)

7 else

*Asignar x a clase c¡ utilizando el clasificador ALMKNN

9 end if

Los resultados de precisión fueron exactamente los mismos pero el tiempo de cálculo mejoró significativamente, como se muestra en la Fig. 5.

APLICACIÓN DE LA BIOMÉTRICA DE LA OREJA

La tecnología biométrica se ocupa de métodos automatizados para verificar la identidad de un individuo utilizando rasgos que pueden ser fisiológicos o de comportamiento. El campo de la biometría automatizada ha logrado avances significativos durante la última década y la biometría facial, de huellas dactilares y del iris se ha convertido en las modalidades más comúnmente implementadas. Ninguna modalidad biométrica está exenta de deficiencias. La biometría facial, por ejemplo, ha sido ampliamente investigada y aún así es propensa a fallar en condiciones subóptimas [58], [59].

Si bien las huellas dactilares son lo suficientemente complejas en teoría como para proporcionar una firma única, en realidad, la biometría de huellas dactilares no es a prueba de falsificaciones, ya que el sistema es vulnerable a ataques de huellas dactilares falsas hechas de gelatina, silicio y látex [60]. La biometría del iris ha demostrado ser muy precisa y fiable, pero su rendimiento se deteriora rápidamente en condiciones de poca iluminación, movimiento del objetivo, envejecimiento, oclusión parcial de los párpados y sensibilidad a la instancia de adquisición. Esto ha motivado la investigación de otros rasgos que puedan superar los problemas de la biometría más establecida. Una de estas nuevas características, la biometría de la oreja, ha recibido una atención cada vez mayor por diversas razones.

1) A diferencia de las caras y los iris, la forma de las orejas es razonablemente invariable durante la vida adolescente y adulta. Cualquier cambio generalmente ocurre antes de los 8 años y después de los 70 [61].

2) No se requiere un entorno controlado para las imágenes de la oreja porque el contexto de la imagen toma su referencia desde el costado de la cara.

3) La biometría de la oreja es capaz de distinguir entre gemelos genéticamente idénticos, mientras que la biometría facial falla a este respecto [62].

4) La oreja tiene una distribución de color más uniforme y menos variabilidad en las expresiones faciales.

De acuerdo con aspectos de la presente invención, se proporciona un sistema de reconocimiento de oreja basado en características HOG y PBR, de acuerdo con la descripción anterior. Las bases de datos que se han utilizado son las bases de datos IIT Delhi Ear I y II [63]. Hay 125 sujetos y 493 imágenes en IIT Delhi DB 1; 221 sujetos y 793 imágenes en IIT Delhi DB 2.

La imagen de prueba para cada sujeto en ambas bases de datos se seleccionó al azar y las imágenes restantes se utilizaron para el entrenamiento.

Arquitectura de análisis biométrico

Hay tres pasos principales en un sistema de reconocimiento de oreja: (1) preprocesamiento (2) extracción de características y (3) coincidencia de plantillas. La ecualización del histograma se puede utilizar como paso previo al procesamiento. La extracción de características puede realizarse como ya se describió anteriormente. De acuerdo con aspectos de la presente invención, un módulo de coincidencia puede buscar la coincidencia más cercana entre las imágenes de entrenamiento. Las imágenes de estas bases de datos tenían 50 x 180 píxeles y se redimensionaron a 50 x 50 píxeles.

Rendimiento de reconocimiento

El rendimiento se evaluó utilizando una precisión de reconocimiento de rango uno. El resultado del reconocimiento se promedió en diez ejecuciones. En la Tabla 3 se muestran la media y la desviación estándar de la tasa de reconocimiento de rango uno para todas las medidas de distancia.

TABLA 3: Rendimiento de reconocimiento de ran o uno en las bases de datos del IIT Delhi

Las curvas de coincidencia acumulativa (CMC) se utilizan para medir el rendimiento de los sistemas de reconocimiento biométrico y se ha demostrado que están directamente relacionadas con la curva característica operativa del receptor (ROC) en el contexto de la verificación del rendimiento[64]. Por lo tanto, en la Fig. 6 también se muestran las CMC para todas las medidas.

Efecto del ruido:

En un experimento, la presente invención se aplicó a imágenes de entrenamiento y prueba que estaban corrompidas con ruido de sal y pimienta de densidad creciente, d. Las comparaciones se muestran en las Fig. 7a y 7b. Se puede ver que todas las medidas de distancia, excepto L<2>, son estables frente al ruido y el rendimiento de L<2>se degrada marcadamente al aumentar la densidad de ruido d.

Correlación entre PBM y las medidas de distancia:

Tomando el orden de clasificación de las imágenes coincidentes por las diversas medidas de distancia con una imagen de prueba definida, se tomó la correlación entre PB^ y las otras medidas (es decir, PBR, Lü,<1>, Lü,5, L<1>y L<2>). Los resultados de la Tabla 4 muestran que PBR y PB^ están altamente correlacionados y el orden de clasificación es prácticamente idéntico entre estas dos medidas de distancia. Esto es consistente con que PB^ y PBR sean medidas de distancia aproximadamente equivalentes.

TABLA 4: Coeficiente de correlación de rango de Spearman entrePB»y otras medidas de distancia para una imagen de prueba

CLASIFICACIÓN DE IMÁGENES EN BASE AL NÚCLEO

PBR es una métrica de distancia que acepta diferentes entradas (PRICoLBP, HOG) y también funciona dentro de diferentes marcos de aprendizaje automático (KNN, núcleo SVM).

Aunque las SVM (máquinas de vectores de soporte) requieren que los datos de entrada sean independientes y estén distribuidos de manera idéntica, se aplican con éxito en escenarios que no son i.i.d., tal como reconocimiento de voz, diagnóstico de sistemas, etc. [65]. Por lo tanto, se puede emplear el marco de trabajo SVM para ilustrar la eficiencia de la distancia PBR en la clasificación de imágenes. Para incorporar PBR en el marco de trabajo SVM, se utiliza la siguiente forma generalizada de núcleos RBF [66]:

Donde p es un parámetro de escala obtenido mediante validación cruzada yd(X, Y)es la distancia entre dos histogramasXeY.La distancia se puede definir utilizando una forma ligeramente modificada de PBR de la siguiente manera:

Definición.Dados dos vectores de características de N dimensiones X = (a<1>, a<2>, a3,...., aN) e Y = (b<1>, b<2>, b3,...., bN) con pi = ai In(2a¡ / (ai bi)) bi In(2b¡ / (ai bi)), la distancia entre los dos vectores es:

El núcleo PBR se puede obtener sustituyendo d(X,Y)en el marco de trabajo SVM.

Experimentos

El rendimiento del núcleo de distancia PBR se evaluó en las siguientes seis aplicaciones diferentes: clasificación de texturas, clasificación de escenas, reconocimiento de especies, materiales, hojas y objetos. Los conjuntos de datos de textura son Brodatz [67], KTH-TIPS [68], UMD [69] y Kylberg [70]. La aplicación de clasificación de escenas se basó en el conjunto de datos de Escena-15 [71]. Para las tareas de reconocimiento, se emplearon los conjuntos de datos Leeds Butterfly [72], FMD [73], Swedish Leaf [74] y Caltech-101 [75]. Tanto para las tareas de clasificación como de reconocimiento, se evaluó la dependencia del rendimiento del número de imágenes de entrenamiento por clase. En cada conjunto de datos, se seleccionaron aleatoriamente n imágenes de entrenamiento y el resto para prueba, excepto en el conjunto de datos Caltech-101 donde el número de imágenes de prueba se limitó a 50 por clase. Todos los experimentos se repitieron cien veces para conjuntos de datos de textura y diez veces para otros. Para cada ejecución, se calculó la precisión promedio por categoría. Este resultado de las ejecuciones individuales se utilizó para informar la media y la desviación estándar como resultados finales. Solo se utilizaron los valores de intensidad en escala de grises para todos los conjuntos de datos, incluso cuando había imágenes en color disponibles.

La clasificación multiclase se realizó mediante la técnica de uno contra el resto. Para cada conjunto de datos, los hiperparámetros de SVM, tales como C y gamma, se eligieron mediante validación cruzada en el conjunto de entrenamiento con

y

g a m m a € ■2' “ 'í , 2 i í l

(tamaño de paso 2).

Recientemente, se ha demostrado que la característica patrón binario local de coocurrencia invariante de rotación por pares (PRICoLBP) es eficiente y efectiva en una variedad de aplicaciones [76]. Los atributos importantes de esta característica son la invariancia rotacional y la captura efectiva de información de coocurrencia del contexto espacial. Por lo tanto, esta característica se utilizó para experimentos.

Clasificación de textura

El álbum Brodatz es un popular conjunto de datos de texturas de referencia que contiene 111 clases de texturas diferentes. Cada clase comprende una imagen dividida en nueve subimágenes que no se superponen.

El conjunto de datos KTH-TIPS consta de 10 clases de textura, con 81 imágenes por clase. Estas imágenes demuestran una alta variabilidad dentro de la clase, ya que se capturan en nueve escalas bajo tres direcciones de iluminación diferentes y con tres poses diferentes.

El conjunto de datos de textura UMD contiene 25 categorías con 40 muestras por clase. Estas imágenes no calibradas ni registradas se capturan bajo cambios significativos de punto de vista y escala junto con diferencias significativas de contraste.

El conjunto de datos de Kylberg tiene 28 clases de textura de 160 muestras únicas por clase. Las clases son homogéneas en términos de escala, iluminación y direccionalidad. Se utilizó la versión "sin" parches de textura rotados del conjunto de datos.

Se utilizó la configuración de plantilla 2a de PRICoLBP, que produjo características de 1.180 dimensiones para todos los conjuntos de datos. Los resultados experimentales se muestran en las Tablas 5, 6, 7 y 8 para los conjuntos de datos de Brodatz, KTH-TIPS, UMD y Kylberg, respectivamente. A partir de los resultados, observamos que PBR supera consistentemente a otros métodos cuando el número de imágenes de entrenamiento es bajo y produce desviaciones estándar más pequeñas en comparación con otras medidas de distancia junto con una tasa de clasificación más alta.

TABLA 5 - Resultados de clasificación de textura porcentae en Brodat

TABLA 6 - R l LA IFI A I N DE TEXT RA r n n KTH-TIP

TABLA 7 - CLASIFICACIÓN DE TEXTURA Resultados porcentae en UMD

TABLA 8 - CLASIFICACIÓN DE TEXTURA Resultados orcentae en Klber

Reconocimiento de hojas

El conjunto de datos de hojas sueco contiene 15 especies diferentes de árboles suecos, con 75 imágenes por especie. Estas imágenes exhiben una alta similitud entre clases y altas variaciones geométricas y fotométricas dentro de la clase. Usamos la misma configuración PRICoLBP que para los conjuntos de datos de textura. Cabe señalar que no utilizamos la información previa de disposición espacial de las hojas. Los resultados experimentales se muestran en la Tabla 9. Observamos que PBR produce resultados más precisos que otras medidas de distancia.

TABLA 9 - Resultados de reconocimiento orcentae en el conunto de datos de hoas suecas

Reconocimiento de materiales

La base de datos de materiales de Flickr (FMD) es un desafiante conjunto de datos de referencia publicado recientemente para el reconocimiento de materiales. Las imágenes de esta base de datos se seleccionan manualmente a partir de fotografías de Flickr y cada imagen pertenece a una de las 10 categorías de materiales comunes, que incluyen tela, follaje, vidrio, cuero, metal, papel, plástico, piedra, agua y madera. Cada categoría incluye 100 imágenes (50 vistas de primeros planos y 50 vistas a nivel de objeto) que capturan la variación de apariencia de los materiales del mundo real. Por lo tanto, estas imágenes tienen grandes variaciones dentro de la clase y diferentes condiciones de iluminación. De hecho, están asociados a máscaras de segmentación que describen la ubicación del objeto. Estas máscaras se pueden utilizar para extraer PRICoLBP solo de las regiones del objeto. Específicamente, la configuración de 6 plantillas se puede usar para PRICoLBP, que produjo un vector de características de 3540 dimensiones.

La Tabla 10 muestra la dependencia de las tasas de reconocimiento del número de imágenes de entrenamiento por clase del conjunto de datos de FMD. Se observó que el núcleo PBR funciona mejor seguido de la distancia Bhattacharyya y la divergencia de Jeffrey.

TABLA 1 - R l x rim n l r n l n n FMD

Tenga en cuenta que en la Tabla 11, el núcleo PBR tiene el mejor desempeño en 5 categorías de las 10 categorías, en comparación con otros núcleos de medición de distancia.

TABLA 11 - Precisión por categorías (porcentaje) en el conjunto de datos de FMD

Clasificación de escenas

El conjunto de datos de Scene-15 contiene un total de 4485 imágenes, que es una combinación de varios conjuntos de datos anteriores [71],[77],[78]. Cada imagen de este conjunto de datos pertenece a una de 15 categorías, que incluyen dormitorio, suburbio, industrial, cocina, sala de estar, costa, bosque, carretera, interior de la ciudad, montaña, campo abierto, calle, edificio alto, oficina y tienda. El número de imágenes por categoría varía de 210 a 410. Estas imágenes tienen diferentes resoluciones, por lo que cambiamos el tamaño de las imágenes para que tengan la dimensión mínima de 256 píxeles (manteniendo la relación de aspecto).

Usamos la 2a configuración de plantilla del PRICoLBP pero con dos escalas (radio de vecinos: 1,2). Por tanto, la dimensionalidad del vector de características es 2360. La Tabla 12 muestra los resultados de clasificación de los diferentes métodos para un número variable de imágenes de entrenamiento. Observamos que PBR funciona mejor con una menor cantidad de imágenes de entrenamiento y produce un rendimiento comparable con 100 imágenes de entrenamiento por clase.

TABLA 12 - Resultados de clasificación porcentae en el conunto de datos de Scente-15

Reconocimiento de objetos

El conjunto de datos de Caltech-101 es un importante conjunto de datos de referencia para el reconocimiento de objetos. Contiene 9.144 imágenes en 102 categorías (101 clases diversas y una clase de fondo). El número de imágenes por clase varía de 31 a 800. Estas imágenes exhiben una gran variación dentro de la clase y también varían en dimensiones. Por lo tanto, se cambió el tamaño de las imágenes para que tuvieran una dimensión mínima de 256 píxeles (manteniendo la relación de aspecto). Se utilizaron 6 configuraciones de plantilla del PRICoLBP junto con dos escalas (radio de vecinos: 1,2), lo que da como resultado una característica de 7.080 dimensiones.

La Tabla 13 muestra la precisión del reconocimiento de los diferentes métodos para un número variable de imágenes de entrenamiento. Se puede observar que los resultados del núcleo de distancia PBR son comparables a otros núcleos basados en medidas de distancia.

TABLA 1 - R l r n imi n r n n l n n l h-1 1

Reconocimiento de especies

El conjunto de datos de Leeds Butterfly consta de 832 imágenes en total para 10 categorías (especies) de mariposas. El número de imágenes en cada categoría oscila entre 55 y 100. Varían en términos de iluminación, pose y dimensiones. Se cambió el tamaño de las imágenes para que tuvieran una dimensión mínima de 256 píxeles (manteniendo la relación de aspecto). Se utilizó la misma configuración de PRICoLBP que para los conjuntos de datos de textura. La Tabla 14 muestra la precisión del reconocimiento de los diferentes métodos en el conjunto de datos de Leeds Butterfly para un número variable de imágenes de entrenamiento. Se puede observar que el núcleo PBR logra un rendimiento comparable en comparación con otros núcleos basados en medidas de distancia.

TABLA 14 - R l r n imi n r n n l n n L B rfl

Por tanto, anteriormente se han descrito detalladamente varias realizaciones preferidas con referencia a las figuras de los dibujos. De acuerdo con aspectos de la presente invención, se proporcionan sistemas y métodos que pueden mejorar la eficiencia computacional, la velocidad y la precisión de los sistemas de reconocimiento de imágenes. Las aplicaciones de la presente invención incluyen sistemas médicos tales como máquinas de diagnóstico médico, máquinas de secuenciación de ADN, robots quirúrgicos y otros sistemas de imágenes. Otras aplicaciones podrían incluir máquinas para verificar firmas biométricas, sistemas de investigación criminal, como sistemas de identificación de huellas dactilares o sistemas de reconocimiento facial. El experto puede reconocer otras aplicaciones nuevas y útiles de las invenciones descritas anteriormente.

Aunque la invención se ha descrito en base a estas realizaciones preferidas, sería evidente para los expertos en la técnica que se podrían realizar ciertas modificaciones, variaciones y construcciones alternativas a las realizaciones descritas dentro del alcance de la invención.

Por ejemplo, los usuarios podrían clasificarse, por ejemplo, por perfiles de usuario, y la coincidencia podría limitarse a usuarios que tengan un perfil de usuario específico.

REFERENCIAS

Las siguientes publicaciones disponibles públicamente fueron mencionadas anteriormente.

[1] N. Sebe, M. S. Lew, y D. P. Huijsmans, "Toward Improved Ranking Metrics", Análisis de patrones e inteligencia de máquinas, Transacciones IEEE en, vol. 22, núm. 10, págs. 1132-1143, 2000.

[2] W. Dong, L. Huchuan e Y. Ming-Hsuan, "Least Soft-Threshold Squares Tracking", en Proc. Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 23-28 de junio de 20132013, páginas 2371-2378.

[3] G. Healey y R. Kondepudy, "Radiometric CCD Camera Calibration and Noise Estimation", Análisis de patrones e inteligencia de máquinas, IEEE Transactions on, vol. 16, núm. 3, págs. 267-276, marzo de 1994.

[4] J.R. Janesick, Dispositivos científicos de carga acoplada. Bellingham, WA: SPIE, 2001.

[5] C.-H. Lin, J.-S. Tsai y C.-T. Chiu, "Switching Bilateral Filter With a Texture/Noise Detector for Universal Noise Removal", procesamiento de imágenes, IEEE Transactions on, vol. 19, núm. 9, págs. 2307-2320, 2010.

[6] C. Liu, R. Szeliski, S.B. Kang, C.L. Zitnick y W. T. Freeman, "Automatic Estimation and Removal of Noise from a Single Image", Transacciones IEEE en Análisis de patrones e inteligencia de máquinas, vol. 30, núm. 2, págs.

299-314, 2008.

[7] N. Young y A. Evans, "Spatio-Temporal Attribute Morphology Filters for Noise Reduction in Image Sequences", en Proc. Conferencia internacional sobre procesamiento de imágenes, vol. 1, 2003, págs.I-333-6.

[8] PH Westfall y KSS Henning, Comprensión de los métodos estadísticos avanzados. Boca Ratón, FL, EE.UU.: CRC Press, 2013.

[9] A. Tversky e I. Gati, "Similarity, Separability, and the Triangle Inequality", Revisión psicológica, vol. 89, núm. 2, pág. 123, 1982.

[10] W.J. Scheirer, M.J.Wilber, M. Eckmann y T.E. Boult, "Good Recognition is Non-Metric", Computing Research Repository, vol. abs/1302.4673, 2013.

[11] K. Beyer, J. Goldstein, R. Ramakrishnan y U. Shaft, "When is "Nearest Neighbor" Meaningful?" en Teoría de bases de datos ICDT99, ser. Apuntes de conferencias sobre informática, C. Beeriand P. Buneman, Eds. Springer Berlín Heidelberg, 1999, vol. 1540, págs. 217-235.

[12] C. Aggarwal, A. Hinneburg y D. Keim, "On the Surprising Behavior of Distance Metrics in High Dimensional Space", en Teoría de bases de datos ICDT 2001, ser. Apuntes de conferencias sobre informática, J. Bussche y V. Vianu, Eds. Springer Berlín Heidelberg, 2001, vol. 1973, págs. 420-434.

[13] M. Donahue, D. Geiger, R. Hummel y T.-L. Liu, "Sparse Representations for Image Decomposition with Occlusions", en Proc. Conferencia de la IEEE Computer Society sobre visión por computadora y reconocimiento de patrones, junio de 1996, págs. 7-12.

[14] DW Jacobs, D. Weinshall e Y. Gdalyahu, "Classification with Nonmetric Distances: Image Retrieval and Class Representation", IEEE Trans. Patrón de Análisis e Inteligencia de Máquinas, vol. 22, núm. 6, págs. 583-600, 2000.

[15] P. Howarth y S. Rger, "Fractional Distance Measures for Content-Based Image Retrieval", en Advances in Information Retrieval, ser. Apuntes de conferencias sobre informática, D. Losada y J. Fernández-Luna, Eds. Springer Berlín Heidelberg, 2005, vol. 3408, págs. 447-456.

[16] K.-S. Goh, B. Li y E. Chang, "DynDex: A Dynamic and Non-metric Space Indexer", en Proc. Décimo Congreso Internacional ACM sobre Multimedia. Nueva York, NY, EE.UU.: ACM, 2002, págs. 466-475.

[17] Y. Rubner, J. Puzicha, C. Tomasi y J. M. Buhmann, "Empirical Evaluation of Dissimilarity Measures for Color and Texture", Visión por computadora y comprensión de la imagen, vol. 84, núm. 1, págs. 25 a 43, 2001.

[18] A. Marzal y E. Vidal, "Computation of Normalized Edit Distance and Applications", Análisis de patrones e inteligencia de máquinas, IEEE Transactions on, vol. 15, núm. 9, págs. 926-932, 1993.

[19] L. Le Cam, "An approximation theorem for the poisson binomial distribution", Pacific Journal of Mathematics, vol. 10 (4), págs. 1181-1197, 1960.

[20] H. Shen, N. Zamboni, M. Heinonen y J. Rousu, "Metabolite Identification through Machine Learning - Tackling CASMI Challenge Using FingerID", Metabolitos, vol. 3, núm. 2, págs. 484-505, 2013.

[21] A.C.W. Lai, A. N. N. Ba y A. M. Moses, "Predicting Kinase Substrates Using Conservation of Local Motif Density", Bioinformática, vol. 28, núm. 7, págs. 962-969, 2012.

[22] A. Ni.i.d.a, S. Imoto, T. Shimamura y S. Miyano, "Statistical Model-Based Testing to Evaluate the Recurrence of Genomic Aberrations", Bioinformática, vol. 28, núm. 12, págs. i115-i 120, 2012.

[23] J.-B. Cazier, C. C. Holmes y J. Broxholme, "GREVE: Genomic Recurrent Event ViEwer to Assist the Identification of Patterns Across Individual Cancer Samples", Bioinformática. vol. 28, núm. 22, págs. 2981-2982, 2012.

[24] H. Zhou, M. E. Sehl, J. S. Sinsheimer y K. Lange, "Association Screening of Common and Rare Genetic Variants by Penalized Regression", Bioinformática, vol. 26, núm. 19, págs. 2375-2382, 2010.

[25] A. Wilm, P.P.K. Aw, D. Bertrand, G.H.T. Yeo, S.H. Ong, C.H. Wong, C.C. Khor, R. Petric, M.L. Hibberd y N. Nagarajan, "LoFreq: a Sequence-Quality Aware, Ultra-Sensitive Variant Caller for Uncovering Cell-Population Heterogeneity from High-Throughput Sequencing Datasets", Nucleic Acids Research, vol. 40, núm. 22, págs. 11 189-11 201,2012.

[26] A.S. Macdonald, Enciclopedia de Ciencias Actuariales, J. L. Teugels y B.Sundt, Eds. John Wiley & Sons, Ltd, Chichester, 2004.

[27] H.U. Gerber, "A Proof of the Schuette-Nesbitt Formula for Dependent Events", Cámara de Compensación de Investigación Actuarial, vol. 1, págs. 9-10, 1979.

[28] Y. Hwang, J.-S. Kim y I.-S. Kweon, "Difference-Based Image Noise Modeling Using Skellam Distribution", Análisis de patrones e inteligencia artificial, Transacciones IEEE en, vol. 34, núm. 7, págs. 1329-1341, julio de 2012.

[29] J. Darroch, "On the Distribution of the Number of Successes in Independent Trials", The Annals of Mathematical Statistics, vol. 35, págs. 1317-1321, 1964.

[30] J.-B. Baillon, R. Cominetti y J. Vaisman, "A Sharp Uniform Bound for the Distribution of Sums of Bernoulli Trials", preimpresión de arXiv arXiv:0arX.2350v4, 2013.

[31] V.N. Gudivada y V.V. Raghavan, "Content Based Image Retrieval Systems", Computer, vol. 28, núm. 9, págs.

18-22, 1995.

[32] M. Arakeri y G. Ram Mohana Reddy, "An Intelligent Content-Based Image Retrieval System for Clinical Decision Support in Brain Tumor Diagnosis", Revista internacional de recuperación de información multimedia, vol. 2, núm. 3, págs. 175-188, 2013.

[33] J. Kalpathy-Cramer y W. Hersh, "utomatic Image Modality Based Classification and Annotation to Improve Medical Image Retrieval", Stud Health Technol Inform, vol. 129, núm. Parte 2, págs. 1334-8, 2007.

[34] B. Marshall, "Discovering Robustness Amongst CBIR Features", Revista Internacional de Tecnología Web y Semántica (IJWesT), vol. 3, núm. 2, págs. 19 - 31, abril de 2012.

[35] O. Boiman, E. Shechtman y M. Irani, "In Defense of Nearest-Neighbor Based Image Classification", en Proc. Conferencia IEEE Visión por computadora y reconocimiento de patrones, junio de 2008, páginas 1-8.

[36] W. Zhang, J. Sun y X. Tang, "Cat Head Detection - How to Effectively Exploit Shape and Texture Features", en Proc. De la Conf. Europea Visión por computadora, 2008, págs. 802-816.

[37] Z. Weiwei, S. Jian y T. Xiaoou, "From Tiger to Panda: Animal Head Detection", Procesamiento de imágenes, Transacciones IEEE en, vol. 20, núm. 6, págs. 1696-1708, 2011.

[38] T. Kozakaya, S. Ito, S. Kubota y O. Yamaguchi, "at Face Detection with Two Heterogeneous Features", en Proc. Conferencia internacional IEEE sobre procesamiento de imágenes, 2009, págs. 1213-1216.

[39] H. Bo, "A Novel Features Design Method for Cat Head Detection", en Inteligencia artificial e inteligencia computacional, ser. Apuntes de conferencias sobre informática. Springer Berlín Heidelberg, 2010, vol. 6319, cap.

47, págs. 397-405.

[40] G. B. Huang, M. Ramesh, T. Berg y E. Learned-Miller, "Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments", Universidad de Massachusetts, Amherst, Tech. Rep. 07-49, octubre de 2007.

[41] N. Dalal y B. Triggs, "Histograms of Oriented Gradients for Human Detection", en Proc. Conferencia de la IEEE Computer Society sobre visión por computadora y reconocimiento de patrones, vol. 1,2005, págs. 886-893.

[42] Y. Mitani e Y. Hamamoto, "A Local Mean-Based Nonparametric Classifier", Cartas de reconocimiento de patrones, vol. 27, núm. 10, págs. 1151-1159, 2006.

[43] P. Dollar, C. Wojek, B. Schiele y P. Perona, "Pedestrian Detection: An Evaluation of the State of the Art", Análisis de patrones e inteligencia de máquinas, Transacciones IEEE en, vol. 34, núm. 4, págs. 743-761,2012.

[44] A. Kembhavi, D. Harwood y L. S. Davis, "Vehicle Detection Using Partial Least Squares", Análisis de patrones e inteligencia artificial, Transacciones IEEE en, vol. 33, núm. 6, págs. 1250-1265, 2011.

[45] M. Kaaniche y F. Br'emond, "Recognizing Gestures by Learning Local Motion Signatures of HOG Descriptors", Análisis de patrones e inteligencia artificial, Transacciones IEEE en, vol. 34, núm. 11, págs. 2247-2258, 2012.

[46] O. Ludwig, D. Delgado, V. Goncalves y U. Nunes, "Trainable Classifier-Fusion Schemes: An Application to Pedestrian Detection", en Proc. 12a Conferencia Internacional IEEE sobre Sistemas de Transporte Inteligentes, 2009, págs. 1-6.

[47] A. KI'ockner, N. Pinto, Y. Lee, B. Catanzaro, P. Ivanov y A. Fasih, "PyCUDA y PyOpenCL: A Scripting-Based Approach to GPU Run-Time Code Generation" Computación paralela, vol. 38, núm. 3, págs. 157-174, 2012.

[48] O. Chapelle, V. Vapnik, O. Bousquet y S. Mukherjee, "Choosing Multiple Parameters for Support Vector Machines", Aprendizaje automático, vol. 46, núm. 1-3, págs. 131-159, 2002.

[49] F. Friedrichs y C. Igel, "Evolutionary Tuning of Multiple SVM Parameters", Neurocomputing, vol. 64, núm. 0, págs. 107-117, 2005.

[50] S.-W. Lin, Z.-J. Lee, S.-C. Chen y T.-Y. Tseng, "Parameter Determination of Support Vector Machine and Feature Selection Using Simulated Annealing Approach", Applied Soft Computing, vol. 8, núm. 4, págs. 1505 1512, 2008.

[51] E. Fix y J. Hodges Jr, "Discriminatory Analysis, Nonparametric Discrimination: Consistency Properties", Escuela de Medicina de Aviación de la U<s>A<f>, Randolph Field, TX, Proyecto 21-49-004, Rept. 4, Contrato AF41 (128)-31, Tec. Rep., febrero de 1951.

[52] X. Wu, V. Kumar, J. Ross Quinlan, J. Ghosh, Q. Yang, H. Motoda, G. McLachlan, A. Ng, B. Liu, P. Yu, Z.-H. Zhou, M. Steinbach, D. Hand y D. Steinberg, "Top 10 Algorithms in Data Mining", Sistemas de información y conocimiento, vol. 14, núm. 1, págs. 1-37, 2008.

[53] K. Fukunaga, Introducción al reconocimiento de patrones estadísticos (2a ed.). San Diego, CA, EE.UU.: Academic Press Professional, Inc., 1990.

[54] A. K. Ghosh, "On Optimum Choice of k in Nearest Neighbor Classification", Estadísticas computacionales y análisis de datos, vol. 50, núm. 11, págs. 3113-3123, 2006.

[55] G. Toussaint, "Bibliography on Estimation of Misclassification", Teoría de la información, Transacciones IEEE en, vol. 20, núm. 4, págs. 472-479, 1974.

[56] B. Dasarathy, Normas del vecino más cercano (NN): técnicas de clasificación de patrones NN. Washington: Computer Society IEEE, 1991.

[57] V. Mnih, "CUDAMat: A CUDA-Based Matrix Class for Python", Informe técnico UTML TR 2009-004, Departamento de Ciencias de la Computación, Universidad de Toronto, Tech. Rep., noviembre de 2009.

[58] K. Chang, K.W. Bowyer, S. Sarkar y B. Victor, "Comparison and Combination of Ear and Face Images in Appearance-Based Biometrics", Transacciones IEEE en Análisis de Patrones e Inteligencia de Máquina, vol. 25, págs. 1160-1165, 2003.

[59] M. Burge y W. Burger, "Ear Biometrics in Computer Vision", en Proc. 15a Conferencia Internacional sobre Reconocimiento de Patrones, vol. 2, 2000, págs. 822-826 vol.2.

[60] H. Galbally y A. Fierrez, "On the Vulnerability of Fingerprint Verification Systems to Fake Fingerprints Attack", en Proc. 40a Conferencia Anual Internacional IEEE Carnahan Tecnología de Seguridad, EE. UU., 2006, págs.

130-136.

[61] A. lannarelli, Identificación de la oreja. California: Paramount Publishing Company, 1989.

[62] H. Nejati, L. Zhang, T. Sim, E. Martinez-Marroquin y G. Dong, "Wonder Ears: Identification of Identical Twins from Ear Images", en Proc. 21a Conferencia Internacional sobre Reconocimiento de Patrones, noviembre de 2012, págs. 1201-1204.

[63] A. Kumar y C. Wu, "Automated Human Identification Using Ear Imaging", Reconocimiento de patrones, vol.

45, núm. 3, págs. 956-968, 2012.

[64] R. Bolle, J. Connell, S. Pankanti, N. Ratha y A. Senior, "he Relation Between the ROC Curve and the CMC", en Proc. Cuarto taller del IEEE sobre tecnologías avanzadas de identificación automática, octubre de 2005, págs.

15-20.

[65] I. Steinwart, D. Hush y C. Scovel, "Learning from Dependent Observations", Journal of Multivariate Analysis, vol. 100, no. 1, págs. 175 - 194, 2009.

[66] O. Chapelle, P. Haffner y V. N. Vapnik, "Support Vector Machines for Histogram-Based Image Classification", Neural Networks, Transacciones IEEE en, vol. 10, núm. 5, págs. 1055-1064, 1999.

[67] P. Brodatz, Texturas: un álbum fotográfico para artistas y diseñadores. Dover Pubns, 1966.

[68] E. Hayman, B. Caputo, M. Fritz y J.-O. Eklundh, "On the Significance of Real-World Conditions for Material Classification", en Computer Vision-ECCV 2004. Springer, 2004, págs. 253-266.

[69] Y. Xu, H. Ji y C. Ferm" uller, "Viewpoint Invariant Texture Description using Fractal Analysis", Revista internacional de visión por computadora, vol. 83, no. 1, págs. 85-100, 2009.

[70] G. Kylberg, "The kylberg Texture dataset v. 1.0", Centro de análisis de imágenes, Universidad Sueca de Ciencias Agrícolas y Universidad de Uppsala, Uppsala, Suecia, Informe externo (serie azul) 35, septiembre de 2011. [En línea ]. Disponible: http://www.cb.uu.se/ gustaf/texture/

[71] S. Lazebnik, C. Schmid y J. Ponce, "Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories", en Visión por computadora y reconocimiento de patrones, Conferencia de la IEEE Computer Society de 2006, vol. 2. IEEE, 2006, págs. 2169-2178.

[72] J. Wang, K. Markert y M. Everingham, "Learning Models for Object Recognition from Natural Language Descriptions", en BMVC, vol. 1,2009, pág. 2.

[73] L. Sharan, R. Rosenholtz y E.H. Adelson, "Accuracy and Speed of Material Categorization in Real-World Images", Journal of Vision, vol. 14, núm. 10, 2014.

[74] O.J.O. S'oderkvist, "Computer Vision Classification of Leaves from Swedish Trees", tesis de maestría, Linkoping University, s E-581 83 Link"oping, Suecia, septiembre de 2001, IiTH-ISY-EX-3132.

[75] L. Fei-Fei, R. Fergus y P. Perona, "Learning Generative Visual Models from Few Training Examples: An Incremental Bayesian Approach Tested on 101 Object Categories", Visión por computadora y comprensión de imágenes, vol. 106, núm. 1, págs. 59-70, 2007.

[76] X. Qi, R. Xiao, C.-G. Li, Y. Qiao, J. Guo y X. Tang, "Pairwise Rotation Invariant Co-Occurrence Local Binary Pattern", Análisis de patrones e inteligencia de máquinas, Transacciones IEEE en, vol. 36, núm. 11, págs. 2199 2213, 2014.

[77] A. Oliva y A. Torralba, "Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope", Revista internacional de visión por computadora, vol. 42, núm. 3, págs. 145-175, 2001.

[78] L. Fei-Fei y P. Perona, "A Bayesian Hierarchical Model for Learning Natural Scene Categories", en Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, vol. 2. IEEE, 2005, págs. 524-531.

Claims

REIVINDICACIONES 1. Un método implementado por computadora para clasificar una imagen digital, el método que comprende: obtener, desde una computadora anfitrión, datos característicos correspondientes a la imagen digital; determinar, mediante una unidad de procesamiento de gráficos, una distancia semimétrica basada en una distribución binomial de Poisson entre los datos característicos y uno o más datos característicos de referencia almacenados en una memoria de la computadora anfitrión, en donde la distancia semimétrica es una medida que no satisface el axioma de desigualdad del triángulo; y clasificar la imagen digital usando la distancia semimétrica determinada, en donde la imagen digital comprende información correspondiente a una secuencia de ADN o ARN, y los datos característicos obtenidos comprenden un vector X de probabilidades de calidad de secuenciación para una primera muestra de ADN o ARN con una profundidad de secuenciación dx tal que X = (x<1>... xdx) y los datos característicos de referencia comprenden un vector Y de probabilidades de calidad de secuenciación para una muestra de ADN o ARN de referencia con una profundidad de secuenciación dy tal que Y = (y<1>... ydy), cada probabilidad de calidad de secuenciación del vector X indica una probabilidad de una lectura correcta en una posición particular en la primera muestra de ADN o ARN, cada probabilidad de calidad de secuenciación del vector Y indica una probabilidad de una lectura correcta en una posición particular en la muestra de ADN o ARN de referencia, y en donde la determinación de la distancia semimétrica (PBRseq) comprende calcular:

donde px es una media para el vector X y se calcula mediante py es una media para el vector Y y se calcula mediante <ox>es una desviación estándar para el vector X, y oy es una desviación estándar para el vector Y, en donde la clasificación de la imagen digital comprende: determinar si la distancia semimétrica (PBRseq) es mayor que un valor umbral, y clasificar la secuencia de ADN o ARN como tumoral o normal en base a la determinación de si la distancia semimétrica (PBRseq) es mayor que el valor umbral.
2. El método de la reivindicación 1, en donde clasificar la imagen digital comprende identificar una variante rara en la secuencia de ADN o ARN.
3. Un sistema para clasificar una imagen digital que comprende: una computadora anfitrión que comprende un procesador, en donde la computadora anfitrión está acoplada a una memoria que comprende uno o más datos característicos de referencia; y una unidad de procesamiento de gráficos (GPU) que comprende un procesador, en donde la GPU está acoplada a la computadora anfitrión y está configurada para: obtener, desde la computadora anfitrión, datos característicos correspondientes a la imagen digital; acceder, desde la memoria, a uno o más datos característicos de referencia; determinar una distancia semimétrica en base a una distribución binomial de Poisson entre los datos característicos y uno o más datos característicos de referencia; en donde la computadora anfitrión está configurada para: clasificar la imagen digital usando la distancia semimétrica determinada, y en donde la imagen digital comprende información correspondiente a una secuencia de ADN o ARN, y los datos característicos comprenden un vector X de probabilidades de calidad de secuenciación para una primera muestra de ADN o ARN con una profundidad de secuenciación dx tal que X = (x<1>... xdx) y los datos característicos de referencia comprenden un vector Y de probabilidades de secuenciación para una muestra de ADN o ARN de referencia con una profundidad de secuenciación dy tal que Y = (y<1>... ydy), cada probabilidad de calidad de secuenciación del vector X indica una probabilidad de una lectura correcta en una posición particular en la primera muestra de ADN o ARN, cada probabilidad de calidad de secuenciación del vector Y indica una probabilidad de una lectura correcta en una posición particular en la muestra de ADN o ARN de referencia, y calcular la distancia semimétrica (PBRseq) donde: <7.Y<7y P J i í E ^ A'.Y ) l'X l ‘Y en donde PBRseq(X, Y) es una distancia de radio binomial de Poisson (PBR) entre el vector X y el vector Y, |ux es una media para el vector X y se calcula mediante |<uy>es una media para el vector Y y se calcula mediante ox es una desviación estándar para el vector X, y oy es una desviación estándar del vector Y ; y en donde la distancia semimétrica es una medida que no satisface el axioma de desigualdad del triángulo; en donde la clasificación de la imagen digital comprende: determinar si la distancia semimétrica (PBRseq) es mayor que un valor umbral; y clasificar la secuencia de ADN o ARN como tumoral o normal en base a la determinación de si la distancia semimétrica (PBRseq) es mayor que el valor umbral.
4. El sistema de la reivindicación 3, en donde la computadora anfitrión está configurado además para: identificar una variante rara en la secuencia de ADN o ARN.