ES2234317T3 - Dispositivo de clasificacion de datos y procedimiento para el mismo. - Google Patents

Dispositivo de clasificacion de datos y procedimiento para el mismo.

Info

Publication number
ES2234317T3
ES2234317T3 ES99954200T ES99954200T ES2234317T3 ES 2234317 T3 ES2234317 T3 ES 2234317T3 ES 99954200 T ES99954200 T ES 99954200T ES 99954200 T ES99954200 T ES 99954200T ES 2234317 T3 ES2234317 T3 ES 2234317T3
Authority
ES
Spain
Prior art keywords
classification
mathit
value
potential
unclassified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99954200T
Other languages
English (en)
Inventor
Alex Royal Holloway Unv. of London GAMMERMAN
Volodya Royal Holloway Unv. of London VOVK
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Royal Holloway University of London
Original Assignee
Royal Holloway and Bedford New College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Royal Holloway and Bedford New College filed Critical Royal Holloway and Bedford New College
Application granted granted Critical
Publication of ES2234317T3 publication Critical patent/ES2234317T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Image Analysis (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

Dispositivo de clasificación de datos que comprende: un dispositivo de entrada para recibir múltiples ejemplos clasificados de aprendizaje y al menos un ejemplo no clasificado; una memoria para almacenar dichos ejemplos clasificados y no clasificados; un terminal de salida para emitir una clasificación predicha para dicho, al menos un, ejemplo no clasificado; y un procesador para identificar la clasificación predicha de dicho, al menos un, ejemplo no clasificado donde el procesador incluye: un medio de adjudicación de clasificación para adjudicar clasificaciones potenciales a cada uno de dichos ejemplos no clasificados y para generar múltiples conjuntos de clasificación, conteniendo cada uno de dichos conjuntos de clasificación dichos múltiples (l) ejemplos clasificados de aprendizaje con su clasificación, y dicho, al menos un, ejemplo no clasificado (l + 1), con su citada clasificación potencial adjudicada; un medio de contraste que incluye un dispositivo de evaluación de ejemplo para determinar un criterio de calidad individual (valor ái de rareza) para cada ejemplo clasificado de aprendizaje (i = 1, 2, ..., l), y teniendo dicho, al menos un, ejemplo no clasificado (i=l + 1) una clasificación potencial (y) adjudicada, determinando el medio de contraste un criterio general de calidad (valor de rareza, d(y) o valor-p), válido bajo la hipótesis iid para cada dicho conjunto de clasificación, dependiente de los criterios (ái) de calidad individual de cada ejemplo, por la fórmula | {i : ái ál+1 } | d(y) := -------------------, donde i = 1, 2, ..., l, l + 1; l + 1 un dispositivo de comparación para seleccionar el conjunto de clasificación al cual pertenece la clasificación potencial más probablemente adjudicada para dicho, al menos un, ejemplo no clasificado, en donde dicha clasificación previamente citada, emitida por el terminal de salida, es dicha clasificación más probablemente adjudicada según dichos criterios generales de calidad (valores de rareza), asignada por dicho mediode contraste; y un dispositivo de monitorización de la potencia de predicción, a fin de determinar un valor de confianza para dicha clasificación predicha, sobre la base de dicho criterio general de calidad (valor de rareza), asignada por dicho medio de contraste a uno de dichos conjuntos de clasificación, al cual pertenece la segunda clasificación potencial más probablemente adjudicada de dicho, al menos un, ejemplo no clasificado.

Description

Dispositivo de clasificación de datos y procedimiento para el mismo.
La presente invención se refiere a un dispositivo de clasificación de datos y a un procedimiento automatizado de clasificación de datos del mismo, que proporciona una medida universal de confianza en la clasificación predicha para cualquier entrada conocida. La presente invención es adecuada especialmente, pero no exclusivamente, para el reconocimiento de patrones, p. ej., el reconocimiento de caracteres ópticos.
A fin de automatizar la clasificación de datos, tal como en el reconocimiento de patrones, el dispositivo, generalmente en forma de ordenador, debe ser capaz de aprender a partir de ejemplos conocidos, y de extrapolar a fin de predecir una clasificación para nuevos ejemplos desconocidos. Se han desarrollado diversas técnicas durante años para permitir a los ordenadores realizar esta función, incluyendo, entre otros, el análisis discriminante, las redes neurales, los algoritmos genéticos y las máquinas de vectores de soporte. Estas técnicas, usualmente, se originan en dos campos: el aprendizaje de las máquinas y las estadísticas.
Las máquinas aprendices, desarrolladas en la teoría del aprendizaje de las máquinas, con frecuencia se desempeñan muy bien en una amplia gama de aplicaciones sin requerir ninguna hipótesis estadística paramétrica sobre el origen de los datos (a diferencia de las técnicas estadísticas tradicionales); la única hipótesis que se hace es la hipótesis iid (los ejemplos se generan a partir de la misma distribución de probabilidades, independientes entre sí). Un nuevo enfoque del aprendizaje de las máquinas se describe en la patente US5640492, donde se utilizan técnicas de optimización matemática para clasificar nuevos ejemplos. La ventaja de la máquina aprendiz descrita en la patente US5640492 es que puede emplearse para resolver problemas de dimensiones extremadamente altas, que son inviables para las máquinas aprendices conocidas anteriormente.
Un inconveniente típico de tales técnicas es que las técnicas no proporcionan ninguna medida de confianza en la clasificación predicha emitida por el dispositivo. Un usuario típico de tal dispositivo de clasificación de datos simplemente espera que la exactitud de los resultados de análisis previos, utilizando conjuntos de datos de evaluación comparativa, sea representativa de los resultados a obtener del análisis de futuros conjuntos de datos.
Otras opciones para el usuario que desea asociar una medida de confianza a los nuevos ejemplos no clasificados incluyen la realización de experimentos en un conjunto de validación, utilizando uno de los procedimientos conocidos de validación cruzada, y aplicando uno de los resultados teóricos acerca de las prestaciones futuras de distintas máquinas aprendices, dado su desempeño pasado. Ninguno de estos procedimientos de estimación de confianza, sin embargo, proporciona ningún medio practicable para evaluar la confianza de la clasificación predicha para un nuevo ejemplo individual. Los procedimientos conocidos de estimación de confianza que abordan el problema de evaluar la confianza de una clasificación predicha para un nuevo ejemplo individual son procedimientos ad hoc, y no admiten interpretación en términos rigurosos de la teoría de la probabilidad matemática.
La estimación de confianza es un área bien estudiada tanto de la estadística paramétrica como de la no paramétrica. En algunas partes de la estadística el objetivo es la clasificación de ejemplos futuros, en lugar de parámetros del modelo, lo cual es relevante para la necesidad abordada por esta invención. En la estadística, sin embargo, sólo se han desarrollado procedimientos de estimación de confianza adecuados para problemas de bajas dimensiones. Por lo tanto, hasta el día de hoy no se ha empleado la evaluación matemáticamente rigurosa de la confianza en la clasificación de datos de altas dimensiones.
Sumario de la invención
La presente invención proporciona un nuevo dispositivo y procedimiento de clasificación de datos que puede enfrentar los problemas de clasificación de altas dimensiones y que proporciona una medida de confianza universal, válida bajo la hipótesis iid, para cada predicción individual de clasificación efectuada por el nuevo dispositivo y procedimiento de clasificación de datos.
La presente invención proporciona un dispositivo de clasificación de datos según lo definido en las reivindicacio-
nes.
Con la presente invención, la técnica convencional para la clasificación de datos, de aprendizaje por inducción y luego deducción para nuevos vectores de datos desconocidos, es suplantada por una nueva técnica de transducción que evita la necesidad de identificar ninguna de las reglas generales totalizadoras. De esta manera, con la presente invención no se identifica ningún hiperplano o frontera multidimensional. Los vectores de datos de aprendizaje se utilizan directamente para proporcionar una clasificación predicha para vectores de datos desconocidos. En otras palabras, los vectores de datos de aprendizaje controlan implícitamente la predicción de clasificación para un vector de datos desconocidos.
Es importante observar que, con la presente invención, la medida de confianza es válida bajo la hipótesis iid general, y que la presente invención es capaz de proporcionar medidas de confianza incluso para problemas de muy altas dimensiones.
Además, con la presente invención, puede clasificarse más de un vector de datos desconocidos y generarse simultáneamente una medida de confianza.
En un aspecto adicional, la presente invención proporciona un procedimiento de clasificación de datos según se define en las reivindicaciones.
Por supuesto, se apreciará que el procedimiento y dispositivo precedentes pueden implementarse en un portador de datos, sobre el cual esté almacenado un programa de clasificación.
Breve descripción de los dibujos
Se describirá ahora, sólo a modo de ejemplo, una realización de la presente invención, con referencia a los dibujos adjuntos, en los cuales:
La Figura 1 es un diagrama esquemático del dispositivo de clasificación de datos según la presente invención;
La Figura 2 es un diagrama esquemático de la operación del dispositivo de clasificación de datos de la Figura 1;
La Figura 3 es una tabla que muestra un conjunto de ejemplos de aprendizaje y de ejemplos no clasificados para su empleo con un clasificador de datos según la presente invención; y
La Figura 4 es una tabulación de resultados experimentales, donde se empleó un clasificador de datos según la presente invención en el reconocimiento de caracteres.
Descripción de la realización preferida
En la Figura 1 se muestra un clasificador de datos 10, que consiste generalmente en un dispositivo de entrada 11, un procesador 12, una memoria 13, una memoria ROM 14 que contiene una serie de programas accesibles desde el procesador 12, y un terminal de salida 15. El dispositivo de entrada 11, preferiblemente, incluye una interfaz de usuario 16, tal como un teclado u otro medio convencional para comunicarse con, e ingresar datos en, el procesador 12, y el terminal de salida 15 puede tener la forma de un monitor de pantalla u otro medio convencional para exhibir información a un usuario. El terminal de salida 15, preferiblemente, incluye uno o más puertos de salida para una conexión a una impresora u otro dispositivo de red. El clasificador de datos 10 puede realizarse en un Circuito Integrado Específico para la Aplicación (Application Specific Integrated Circuit - ASIC) con chips adicionales de memoria RAM. Idealmente, el ASIC contendría una CPU (Central Processing Unit - Unidad Central de Procesamiento) rápida de tipo RISC (Reduced Instruction Set Computer - Ordenador con Conjunto Reducido de Instrucciones) con una Unidad de Punto Flotante adecuada.
A fin de ayudar a la comprensión de la operación del clasificador de datos 10 para proporcionar una predicción de una clasificación para ejemplos no clasificados (desconocidos), lo siguiente es una explicación de la teoría matemática que subyace tras su operación.
Se dan dos conjuntos de ejemplos (vectores de datos): el conjunto de aprendizaje consiste en ejemplos con sus clasificaciones (o clases) ya conocidas, y un conjunto de prueba que consiste en ejemplos no clasificados. En la Figura 3 se muestran un conjunto de aprendizaje de cinco ejemplos y dos ejemplos de prueba, donde los ejemplos no clasificados son imágenes de dígitos y la clasificación es 1 ó 7.
La notación para el tamaño del conjunto de aprendizaje es \mathit{l} y, para simplificar, se supone que el conjunto de prueba de los ejemplos sólo contiene un ejemplo no clasificado. Sea (X,A) el espacio medible de todos los ejemplos posibles no clasificados (en el caso de la Figura 3, X podría ser el conjunto de todas las imágenes en escala de grises de 16 x 16) y sea (Y,B) el espacio medible de las clases (en el caso de la Figura 3, Y podría ser el conjunto de dos elementos {1,7}). Y es usualmente finito.
El procedimiento de predicción de confianza es una familia {f_{\beta}: \beta \epsilon (0,1)} de funciones medibles f_{\beta}:(XxY)^{\mathit{l}}xX\rightarrowB, tales que
1. Para cualquier nivel de confianza \beta (en la clasificación de datos, típicamente, estamos interesados en que \beta esté cerca del 1) y cualquier distribución de probabilidad P en XxY, la probabilidad de que
y_{\mathit{l}+1} \ \epsilon \ f_{\beta}\ (x_{1},y_{1},...x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1})
es al menos \beta, donde (x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),(x_{\mathit{l}+1},y_{\mathit{l}+1}) se generan independientemente de P.
2. Si \beta_{1} < \beta_{2}, entonces, para todo (x_{1},y_{1},...,x_{\mathit{l}}, y_{\mathit{l}},x_{\mathit{l}+1}) \epsilon (XxY)^{\mathit{l}}xX,
f_{\beta 1} \ (x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1})\subseteq f_{\beta 2} \ (x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1})
La aseveración implícita en la predicción f_{\beta 1} (x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1}) es que la verdadera etiqueta y_{\mathit{l}+1} pertenecerá a f_{\beta 1} (x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1}). El punto 1 requiere que la predicción dada por f_{\beta} fuese correcta, con una probabilidad de al menos \beta, y el punto 2 requiere que la familia {f_{\beta}} fuese consistente: si se admite alguna etiqueta y para el (\mathit{l}+1)-ésimo ejemplo al nivel de confianza \beta_{1}, también debería admitirse a cualquier nivel de confianza \beta_{2} > \beta_{1}.
Una típica modalidad de empleo de esta definición es que algún valor convencional de \beta, tal como 95% o 99%, se escoge por anticipado, después de lo cual se utiliza la función f_{\beta} para la predicción. Idealmente, la región de predicción generada por f_{\beta} contendrá sólo una clasificación.
Un rasgo importante del dispositivo de clasificación de datos es el definir f_{\beta} en términos de soluciones \alpha_{i}, i = 1, ..., \mathit{l}+1, de problemas auxiliares de optimización del tipo esbozado en la patente US5640492. Específicamente, consideramos terminaciones |Y| de nuestros datos
(x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1};
la terminación y, y \epsilon Y, es
(x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),(x_{\mathit{l}+1},y)
(por lo que en todos las terminaciones cada ejemplo está clasificado).
A cada terminación
(x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),(x_{\mathit{l}+1},y_{\mathit{l}+1})
(por comodidad de notación escribimos aquí y_{\mathit{l}+1} en lugar de y) se asocia el problema de optimización
(1)^{1}/_{2}(w . w) + C \left\{\sum\limits^{\mathit{l}+1}_{i=1}\xi_{i}\right\}\rightarrow min
(donde C es una constante positiva fija)
sujeto a las restricciones
(2)y_{i}((x_{i}.w)+ b)\geq \xi_{i}, \hskip0.5cm i = 1,...,\mathit{l}+1
Este problema involucra a las variables \xi_{i} \geq 0, que se llaman variables de laxitud. Si la constante C se escoge demasiado grande, la exactitud de la solución puede hacerse inaceptablemente mala; C debería escogerse lo más grande posible dentro de la gama en la cual la exactitud numérica de la solución sigue siendo razonable. (Cuando los datos son linealmente separables, incluso es posible fijar C en el infinito, pero, dado que muy rara vez, si acaso, es posible predecir que todas las terminaciones serán linealmente separables, C debería tomarse grande pero finita).
El problema de optimización se transforma, por medio de la introducción de multiplicadores de Lagrange \alpha_{i}, i = 1,...,\mathit{l}+1, en el problema dual; hallar \alpha_{i} tales que
(3)\sum\limits^{\mathit{l}+1}_{i=1}\alpha_{i \ --} \ ^{1}/_{2} \sum\limits^{\mathit{l}+1}_{i,j=1}y_{i}y_{j}\alpha_{i}\alpha_{j}(x_{i}.x_{j})\rightarrow max
bajo las restricciones de "cuadro"
(4)0 \leq \alpha_{i}\leq C, \hskip0.5cm i=1,2, ..., \mathit{l}+1
Los ejemplos no clasificados se representan, se supone, como los valores tomados por n atributos numéricos y, por lo tanto, X = R^{n}.
Este problema de optimización cuadrática se aplica, no a los vectores de atributos x_{i} en sí, sino a sus imágenes V(x_{i}), según alguna función predeterminada V:X\rightarrowH que toma valores en un espacio de Hilbert, lo cual lleva a reemplazar el producto vectorial x_{i}.x_{j} en el problema de optimización (3)-(4) por la función núcleo
K(x_{i},x_{j}) = V(x_{i}).V(x_{j})
El problema de optimización final es, por lo tanto,
\sum\limits^{\mathit{l}+1}_{i=1}\alpha_{i \ --} \ ^{1}/_{2} \sum\limits^{\mathit{l}+1}_{i,j=1}y_{i}y_{j}\alpha_{i}\alpha_{j}K(x_{i},x_{j})\rightarrow max
bajo las restricciones de "cuadro"
0 \leq \alpha_{i}\leq C, \hskip0.5cm i=1,2, ..., \mathit{l}+1;
este problema de optimización cuadrática puede resolverse empleando paquetes estándar.
El multiplicador de Lagrange \alpha_{i}, i \epsilon {1, 2, ..., \mathit{l}+1} refleja la "rareza" del ejemplo (x_{i},y_{j}); esperamos que \alpha_{\mathit{l}+1} será grande en las terminaciones erróneas.
Para y \epsilon Y, definimos
d(y):=\frac{|\{i:\alpha_{i}\geq\alpha_{\mathit{l}+1}\}|}{\mathit{l}+ 1}
por lo tanto, d(y) es el valor-p asociado con la terminación y (siendo y una notación alternativa para y_{\mathit{l}+1}). La función f de predicción de confianza, que está en el núcleo de esta invención, puede expresarse como
f_{\beta} \ (x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1}):= \{y: d(y) > 1 - \beta\}
El caso más interesante es cuando el conjunto de predicción dado por f_{\beta} es un único valor; por lo tanto, los rasgos más importantes del procedimiento {f_{\beta}} de predicción de confianza en los datos (x_{1},y_{1}),...,(x_{\mathit{l}},y _{\mathit{l}}),x_{\mathit{l}+1} son
*
el mayor \beta=\beta_{0} para el cual f_{\beta} ((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) es un único valor (suponiendo que exista tal \beta)
*
la clasificación F((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) definida como aquel y \epsilon Y para el cual f_{\beta 0} ((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) es {y}.
La F((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) definida de esta manera se llama el algoritmo de predicción f-óptimo; el \beta_{0} correspondiente se llama el nivel de confianza asociado a F.
Otro rasgo importante de la función f_{\beta} de estimación de confianza en los datos (x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) es el mayor \beta=\beta_{\xi} para el cual f_{\beta} ((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) es el conjunto vacío. Llamamos a 1 - \beta_{\xi} la credibilidad del conjunto de datos (x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}; es el valor-p de una prueba para verificar la hipótesis iid. Allí donde la credibilidad es muy pequeña, bien el conjunto de aprendizaje (x_{1},y_{1}),..., (x_{\mathit{l}},y_{\mathit{l}}) o bien el nuevo ejemplo no clasificado x_{\mathit{l}+1} son atípicos, lo cual hace que la predicción sea no fiable, a menos que el nivel de confianza esté mucho más cerca del 1 que 1 - \beta_{\xi}. En general, la suma de la confianza y la credibilidad está entre 1 y 2; el éxito de la predicción se mide por cuán cerca está esta suma del 2.
Con el clasificador de datos de la presente invención, operado como se describe en lo precedente, pueden ofrecerse a un usuario los siguientes menús u opciones:
1. Predicción y Confianza
2. Credibilidad
3. Detalles.
Una respuesta típica a la selección, por parte del usuario, de la opción 1 podría ser: predicción - 4, confianza - 99%, lo que significa que 4 será la predicción emitida por la función F f-óptima, y 99% es el nivel de confianza de esta predicción. Una respuesta típica a la opción 2 podría ser: credibilidad - 100%, que da el valor calculado de la credibilidad. Una respuesta típica a la opción 3 podría ser:
0 1 2 3 4 5 6 7 8 9
0,1% 1% 0,2% 0,4% 100% 1,1% 0,6% 0,2% 1% 1%,
el conjunto completo de valores-p para todas las terminaciones posibles. La última selección contiene la información acerca de F((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}), x_{\mathit{l}+1}) (el carácter que corresponde al mayor valor-p), el nivel de confianza (uno menos el segundo valor-p más grande) y la credibilidad (el mayor valor-p).
Esta modalidad de empleo de la función f de predicción de confianza no es la única modalidad posible: en principio, puede combinarse con cualquier algoritmo de predicción. Si G es un algoritmo de predicción, a su predicción y:=G((x_{1},y_{1}),..., (x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) podemos asociar la siguiente medida de confianza:
c(y):= max \ \{\beta: f_{\beta} \ ((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1})\subseteq\{y\}\}
El algoritmo de predicción F descrito anteriormente es el que optimiza esta medida de confianza.
La tabla mostrada en la Figura 4 contiene los resultados de un experimento de reconocimiento de caracteres que emplea el clasificador de datos de la presente invención. La tabla muestra los resultados para un conjunto de prueba de tamaño 10, utilizando un conjunto de aprendizaje de tamaño 20 (no mostrado). El núcleo utilizado fue K(x,y) = (x.y)^{3}/
256.
Se contempla que ciertas modificaciones del problema de optimización señalado por las ecuaciones (1) y (2) podrían tener ciertas ventajas, por ejemplo,
^{1}/_{2}(w.w) + C\left\{\sum\limits^{\mathit{l} + 1}_{i = 1}\xi^{2}_{i}\right\}\rightarrow min
sujeto a las restricciones
y_{i}((x_{i}.w) + b) = 1 - \xi_{i}, \hskip0.5cm i = 1,...,\mathit{l} + 1
Se contempla además que el clasificador de datos descrito anteriormente puede ser especialmente útil para predecir la clasificación de más de un ejemplo simultáneamente; la estadística de prueba empleada para calcular los valores-p correspondientes a las distintas terminaciones podría ser la suma de los rangos de los \alpha correspondientes a los nuevos ejemplos (como en la prueba de suma del rango de Wilcoxon).
En la práctica, según se muestra en la Figura 2, un conjunto de datos de aprendizaje se ingresa 20 al clasificador de datos. El conjunto de datos de aprendizaje consiste en múltiples vectores de datos, cada uno de los cuales tiene una clasificación conocida asociada, adjudicada a partir de un conjunto de clasificaciones. Por ejemplo, en el reconocimiento de caracteres numéricos, el conjunto de clasificaciones podría ser la serie numérica 0-9. El conjunto de clasificaciones puede ingresarse 21 por separado al clasificador de datos o puede almacenarse en la memoria ROM 14. Además, alguna representación constructiva del espacio medible de los vectores de datos puede ingresarse 22 al clasificador de datos o almacenarse de nuevo en la memoria ROM 14. Por ejemplo, en el caso del reconocimiento de caracteres numéricos el espacio medible podría consistir en imágenes de píxeles en escala de grises de 16 x 16. Allí donde el espacio medible ya está almacenado en la memoria ROM 14 del clasificador de datos, la interfaz 16 puede incluir un medio de ingreso (no mostrado) a fin de permitir a un usuario ingresar ajustes para el espacio medible almacenado. Por ejemplo, puede requerirse una mayor definición de una imagen, en cuyo caso la dimensión en píxeles del espacio medible podría aumentarse.
Uno o más vectores de datos, para los cuales no se conoce ninguna clasificación, también se ingresa(n) 23 al clasificador de datos. El conjunto de datos de aprendizaje y los vectores de datos no clasificados, junto con cualquier información adicional ingresada por el usuario, se proporcionan desde el dispositivo de entrada 11 al procesador 12.
En primer lugar, a cada uno de los vectores (uno o más) de datos no clasificados se adjudica 24 individualmente, de manera provisional, una clasificación del conjunto de clasificaciones. Se determina 25 entonces un valor individual \alpha_{i} de rareza para cada uno de los vectores de datos en el conjunto de aprendizaje y para cada uno de los vectores de datos no clasificados, para los cuales se ha hecho una adjudicación de clasificación provisional. Se genera así un conjunto de clasificación que contiene cada uno de los vectores de datos en el conjunto de aprendizaje y los vectores (uno o más) de datos no clasificados, con sus clasificaciones provisionales adjudicadas y los valores individuales \alpha_{i} de rareza para cada vector de datos. Se generan entonces múltiples conjuntos tales de clasificación, siendo las clasificaciones provisionales adjudicadas de los vectores de datos no clasificados distintos para conjunto de clasificación.
Se realiza entonces 26 el cálculo de un único valor de rareza, el valor-p, para cada conjunto de clasificación que contiene el conjunto completo de vectores de datos de aprendizaje y los vectores no clasificados con su clasificación adjudicada actual, sobre la base de los valores individuales \alpha_{i} de rareza determinados en la etapa anterior. Este valor-p y el conjunto asociado de clasificaciones se transfiere a la memoria 13 para su futura comparación, mientras que a cada uno de los vectores (uno o más) de datos no clasificados se le adjudica provisionalmente en forma individual la misma clasificación, o una distinta. Las etapas de calcular valores 25 individuales de rareza y la determinación de un valor-p 26 se repiten en cada iteración para el conjunto completo de vectores de datos de aprendizaje y los vectores de datos no clasificados, utilizando cada vez distintas adjudicaciones de clasificación para los vectores de datos no clasificados. Esto da como resultado una serie de valores-p almacenados en la memoria 13, representando cada uno la rareza del conjunto completo de vectores de datos con respecto a las adjudicaciones de clasificación única para los vectores (uno o más) de datos no clasificados.
Los valores-p almacenados en la memoria se comparan 27 luego para identificar el máximo valor-p y el siguiente valor-p más grande. Finalmente se proporciona 28 el conjunto de clasificación de vectores de datos que tienen el máximo valor-p al terminal de salida 15. Los datos proporcionados al terminal de salida pueden consistir únicamente en las clasificaciones (una o más) adjudicadas a los vectores (uno o más) de datos no clasificados, que ahora representa(n)
la clasificación predicha, entre el conjunto de clasificación de vectores de datos que tienen el máximo valor-p.
Adicionalmente, se genera 29 un valor de confianza para la clasificación predicha. El valor de confianza se determina sobre la base de la resta al 1 del siguiente valor-p más grande. Por lo tanto, si ese siguiente valor-p es grande, la confianza de la clasificación predicha es pequeña, y si ese siguiente valor-p es pequeño, el valor de confianza es grande. La selección 1 mencionada anteriormente brinda a un usuario clasificaciones predichas para los vectores (uno o más) de datos desconocidos y el valor de confianza.
Allí donde ha de emplearse un algoritmo de predicción alternativo, el valor de confianza se calculará restando al 1 el mayor valor-p para los conjuntos de vectores de datos de aprendizaje y de vectores nuevos clasificados de manera distinta a la clasificación predicha (por el procedimiento alternativo).
También puede proporcionarse (selección 3) información adicional en forma de valores-p para cada uno de los conjuntos de vectores de datos con respecto a las clasificaciones individuales adjudicadas, o simplemente el valor-p para la clasificación predicha (selección 2).
Con el clasificador de datos y el procedimiento de clasificación de datos descritos anteriormente, se proporciona una medida universal de la confianza en cualquier clasificación predicha de uno o más vectores de datos desconocidos. Además, en ningún punto se extrae una regla general o un hiperplano multidimensional del conjunto de aprendizaje de vectores de datos. En cambio, los vectores de datos se utilizan directamente para calcular la rareza de una clasificación (o más) provisionalmente adjudicada(s) para uno o más vectores de datos desconocidos.
Si bien se han mostrado en particular, y se han descrito, el dispositivo y procedimiento de clasificación de datos con referencia a la realización preferida que antecede, aquellos versados en la técnica comprenderán que pueden efectuarse diversas modificaciones, en forma y detalle, en los mismos, sin apartarse del alcance de la invención, según lo definido por las reivindicaciones adjuntas. Por consiguiente, las modificaciones tales como las sugeridas anteriormente, pero sin limitarse a las mismas, han de considerarse dentro del alcance de la invención.

Claims (6)

1. Dispositivo de clasificación de datos que comprende:
un dispositivo de entrada para recibir múltiples ejemplos clasificados de aprendizaje y al menos un ejemplo no clasificado;
una memoria para almacenar dichos ejemplos clasificados y no clasificados;
un terminal de salida para emitir una clasificación predicha para dicho, al menos un, ejemplo no clasificado; y
un procesador para identificar la clasificación predicha de dicho, al menos un, ejemplo no clasificado
donde el procesador incluye:
un medio de adjudicación de clasificación para adjudicar clasificaciones potenciales a cada uno de dichos ejemplos no clasificados y para generar múltiples conjuntos de clasificación, conteniendo cada uno de dichos conjuntos de clasificación dichos múltiples (\mathit{l}) ejemplos clasificados de aprendizaje con su clasificación, y dicho, al menos un, ejemplo no clasificado (\mathit{l} + 1), con su citada clasificación potencial adjudicada;
un medio de contraste que incluye un dispositivo de evaluación de ejemplo para determinar un criterio de calidad individual (valor \alpha_{i} de rareza) para cada ejemplo clasificado de aprendizaje (i = 1,2,...,\mathit{l}), y teniendo dicho, al menos un, ejemplo no clasificado (i = \mathit{l} + 1) una clasificación potencial (y) adjudicada, determinando el medio de contraste un criterio general de calidad (valor de rareza, d(y) o valor-p), válido bajo la hipótesis iid para cada dicho conjunto de clasificación, dependiente de los criterios (\alpha_{i}) de calidad individual de cada ejemplo, por la fórmula
d(y):=\frac{|\{i: \alpha_{i}\geq \alpha_{\mathit{l}+1}\}|}{\mathit{l}+1}, \hskip0.5cm donde \ i= 1,2,..., \mathit{l}, \mathit{l} + 1;
un dispositivo de comparación para seleccionar el conjunto de clasificación al cual pertenece la clasificación potencial más probablemente adjudicada para dicho, al menos un, ejemplo no clasificado, en donde dicha clasificación previamente citada, emitida por el terminal de salida, es dicha clasificación más probablemente adjudicada según dichos criterios generales de calidad (valores de rareza), asignada por dicho medio de contraste; y
un dispositivo de monitorización de la potencia de predicción, a fin de determinar un valor de confianza para dicha clasificación predicha, sobre la base de dicho criterio general de calidad (valor de rareza), asignada por dicho medio de contraste a uno de dichos conjuntos de clasificación, al cual pertenece la segunda clasificación potencial más probablemente adjudicada de dicho, al menos un, ejemplo no clasificado.
2. Dispositivo de clasificación de datos según la reivindicación 1, en el cual se emplean multiplicadores de Lagrange para determinar dichos criterios de calidad individuales (valores de rareza).
3. Un procedimiento de clasificación de datos que comprende:
ingresar múltiples ejemplos clasificados de aprendizaje y al menos un ejemplo no clasificado;
identificar una clasificación predicha de dicho, al menos un, ejemplo no clasificado, que incluye,
adjudicar clasificaciones potenciales a cada dicho ejemplo no clasificado;
generar múltiples conjuntos de clasificación, conteniendo cada uno de dichos conjuntos de clasificación dichos múltiples (\mathit{l}) ejemplos clasificados de aprendizaje, con su clasificación, y dicho, al menos un, ejemplo no clasificado (\mathit{l} + 1), con su clasificación potencial adjudicada;
determinar un criterio de calidad individual (valor \alpha_{i} de rareza) para cada ejemplo clasificado de aprendizaje (i = 1,2,...,\mathit{l}), y teniendo dicho, al menos un, ejemplo no clasificado (i = \mathit{l} + 1) una clasificación (y) potencial adjudicada, y un criterio general de calidad (valor de rareza, d(y) o valor-p), válido bajo la hipótesis iid, para cada dicho conjunto de clasificación, dependiente de los criterios individuales de calidad (\alpha_{i}) de cada ejemplo, por la fórmula
d(y):=\frac{|\{i: \alpha_{i}\geq \alpha_{\mathit{l}+1}\}|}{\mathit{l}+1}, \hskip0.5cm donde \ i= 1,2,..., \mathit{l}, \mathit{l} + 1;
seleccionar dicho conjunto de clasificación al cual pertenece la clasificación potencial más probablemente adjudicada para dicho, al menos un, ejemplo no clasificado, en donde dicha clasificación predicha es la clasificación potencial más probablemente adjudicada, dependiente de dichos criterios generales de calidad (valores de rareza);
determinar un valor de confianza para dicha clasificación predicha sobre la base del criterio general de calidad (valor de rareza) asignado a uno de dichos conjuntos de clasificación, al cual pertenece la segunda clasificación potencial más probablemente adjudicada para dicho, al menos un, ejemplo no clasificado; y
emitir dicha clasificación previamente citada para dicho, al menos un, ejemplo no clasificado y dicho valor de confianza para dicha clasificación previamente citada.
4. Un procedimiento de clasificación de datos según la reivindicación 3, en el cual dicho conjunto de clasificación seleccionado se selecciona sin la aplicación de ninguna regla general determinada a partir de dicho conjunto de aprendizaje.
5. Un portador de datos sobre el cual se almacena un programa de clasificación para clasificar datos llevando a cabo las siguientes etapas:
generar múltiples conjuntos de clasificación, conteniendo cada uno de dichos conjuntos de clasificación múltiples ejemplos clasificados de aprendizaje, con su clasificación, y al menos un ejemplo no clasificado al que se ha adjudicado una clasificación potencial;
determinar un criterio de calidad individual (valor \alpha_{i} de rareza) para cada ejemplo clasificado de aprendizaje (i = 1,2,...,\mathit{l}), y teniendo dicho, al menos un, ejemplo no clasificado (i = \mathit{l} + 1) una clasificación potencial (y) adjudicada, y un criterio general de calidad (valor de rareza, d(y) o valor-p), válido bajo la hipótesis iid, para cada dicho conjunto de clasificación, dependiente de los criterios individuales de calidad (\alpha_{i}) de cada ejemplo, por la fórmula
d(y):=\frac{|\{i: \alpha_{i}\geq \alpha_{\mathit{l}+1}\}|}{\mathit{l}+1}, \hskip0.5cm donde \ i= 1,2,..., \mathit{l}, \mathit{l} + 1;
seleccionar el conjunto de clasificación al cual pertenece la clasificación potencial más probablemente adjudicada para dicho, al menos un, ejemplo no clasificado, en donde la clasificación predicha es la clasificación potencial más probablemente adjudicada, dependiente de dichos criterios generales de calidad (valores de rareza); y
determinar un valor de confianza para dicha clasificación predicha sobre la base de dicho criterio general de calidad (valor de rareza) asignado a uno de dichos conjuntos de clasificación, al cual pertenece la segunda clasificación potencial más probablemente adjudicada para dicho, al menos un, ejemplo no clasificado.
6. Código de control de un programa de ordenador, adaptado para llevar a cabo todas las etapas del procedimiento de la reivindicación 3 en un ordenador.
ES99954200T 1998-11-09 1999-11-09 Dispositivo de clasificacion de datos y procedimiento para el mismo. Expired - Lifetime ES2234317T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9824552 1998-11-09
GBGB9824552.5A GB9824552D0 (en) 1998-11-09 1998-11-09 Data classification apparatus and method thereof

Publications (1)

Publication Number Publication Date
ES2234317T3 true ES2234317T3 (es) 2005-06-16

Family

ID=10842127

Family Applications (1)

Application Number Title Priority Date Filing Date
ES99954200T Expired - Lifetime ES2234317T3 (es) 1998-11-09 1999-11-09 Dispositivo de clasificacion de datos y procedimiento para el mismo.

Country Status (8)

Country Link
US (1) US7072873B1 (es)
EP (1) EP1129428B1 (es)
AT (1) ATE286280T1 (es)
AU (1) AU1061900A (es)
DE (1) DE69922995T2 (es)
ES (1) ES2234317T3 (es)
GB (1) GB9824552D0 (es)
WO (1) WO2000028473A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2369899A (en) * 2000-07-20 2002-06-12 Volodya Vovk Data labelling device and method thereof
US7127099B2 (en) 2001-05-11 2006-10-24 Orbotech Ltd. Image searching defect detector
US7492943B2 (en) * 2004-10-29 2009-02-17 George Mason Intellectual Properties, Inc. Open set recognition using transduction
WO2010011180A1 (en) 2008-07-25 2010-01-28 Resolvo Systems Pte Ltd Method and system for securing against leakage of source code
CN103177088B (zh) * 2013-03-08 2016-05-18 北京理工大学 一种生物医学空缺数据弥补方法
CN105046044A (zh) * 2015-05-29 2015-11-11 上海大学 基于最优小波包变换的非平稳风速预测方法
CN105069474B (zh) * 2015-08-05 2019-02-12 山东师范大学 用于音频事件分类的半监督学习高置信度样本挖掘方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8103278A (nl) * 1980-07-11 1982-02-01 Correlative System Int Werkwijze en installatie voor het klassificeren van ge- gevens.
US5846189A (en) * 1989-09-08 1998-12-08 Pincus; Steven M. System for quantifying asynchrony between signals
US5212639A (en) * 1990-04-05 1993-05-18 Sampson Wesley C Method and electronic apparatus for the classification of combinatorial data for the summarization and/or tabulation thereof
JPH0527906A (ja) * 1991-07-24 1993-02-05 Matsushita Electric Ind Co Ltd 図形選択装置
JP3334807B2 (ja) * 1991-07-25 2002-10-15 株式会社日立製作所 ニュ−ラルネットを利用したパタ−ン分類方法および装置
US5361379A (en) 1991-10-03 1994-11-01 Rockwell International Corporation Soft-decision classifier
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5479573A (en) * 1992-11-24 1995-12-26 Pavilion Technologies, Inc. Predictive network with learned preprocessing parameters
US5649068A (en) 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5640492A (en) * 1994-06-30 1997-06-17 Lucent Technologies Inc. Soft margin classifier
CA2247006C (en) * 1996-03-29 2002-09-17 British Telecommunications Public Limited Company Speech processing
GB2369899A (en) * 2000-07-20 2002-06-12 Volodya Vovk Data labelling device and method thereof

Also Published As

Publication number Publication date
US7072873B1 (en) 2006-07-04
WO2000028473A1 (en) 2000-05-18
DE69922995D1 (de) 2005-02-03
EP1129428B1 (en) 2004-12-29
ATE286280T1 (de) 2005-01-15
EP1129428A1 (en) 2001-09-05
DE69922995T2 (de) 2006-02-23
GB9824552D0 (en) 1999-01-06
AU1061900A (en) 2000-05-29

Similar Documents

Publication Publication Date Title
Micallef et al. Towards perceptual optimization of the visual design of scatterplots
CN108229296B (zh) 人脸皮肤属性识别方法和装置、电子设备、存储介质
Dodge et al. Visual saliency prediction using a mixture of deep neural networks
CN110136056A (zh) 图像超分辨率重建的方法和装置
JP2022540487A (ja) 皮膚分析のための画像処理、皮膚分析を視覚化するためのシステム及び方法
US9113057B2 (en) Radiometric calibration from noise distributions
Zhang et al. Cascaded face sketch synthesis under various illuminations
US20200334557A1 (en) Chained influence scores for improving synthetic data generation
ES2234317T3 (es) Dispositivo de clasificacion de datos y procedimiento para el mismo.
Neshat et al. A new skin color detection approach based on fuzzy expert system
CN109034199A (zh) 数据处理方法及装置、存储介质和电子设备
JP6570698B1 (ja) 設定装置、設定方法及び設定プログラム
Zhang et al. Is a classification procedure good enough?—A goodness-of-fit assessment tool for classification learning
US8233715B2 (en) Probabilistic intensity similarity measure based on noise distributions
CN111899239A (zh) 图像处理方法和装置
US20230419549A1 (en) Systems and methods for determining and using a multidimensional measure of apparent skin color
US20030236578A1 (en) Data labelling apparatus and method thereof
CN112789636A (zh) 信息处理装置、信息处理方法和程序
CN116468479A (zh) 确定页面质量评估维度方法、页面质量的评估方法和装置
Zabel et al. VIPurPCA: Visualizing and Propagating Uncertainty in Principal Component Analysis
JP2015064761A (ja) マッチング処理装置およびマッチング方法
CN112749707A (zh) 利用神经网络进行目标分割的方法、设备和介质
JP2022044112A (ja) 推定装置、推定方法及びプログラム
CN112613415A (zh) 脸部鼻型识别方法、装置、电子设备和介质
Islamadina et al. Learning Rate Analysis for Pain Recognition Through Viola-Jones and Deep Learning Methods