ES2234317T3 - Dispositivo de clasificacion de datos y procedimiento para el mismo. - Google Patents
Dispositivo de clasificacion de datos y procedimiento para el mismo.Info
- Publication number
- ES2234317T3 ES2234317T3 ES99954200T ES99954200T ES2234317T3 ES 2234317 T3 ES2234317 T3 ES 2234317T3 ES 99954200 T ES99954200 T ES 99954200T ES 99954200 T ES99954200 T ES 99954200T ES 2234317 T3 ES2234317 T3 ES 2234317T3
- Authority
- ES
- Spain
- Prior art keywords
- classification
- mathit
- value
- potential
- unclassified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Image Analysis (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
Abstract
Dispositivo de clasificación de datos que comprende: un dispositivo de entrada para recibir múltiples ejemplos clasificados de aprendizaje y al menos un ejemplo no clasificado; una memoria para almacenar dichos ejemplos clasificados y no clasificados; un terminal de salida para emitir una clasificación predicha para dicho, al menos un, ejemplo no clasificado; y un procesador para identificar la clasificación predicha de dicho, al menos un, ejemplo no clasificado donde el procesador incluye: un medio de adjudicación de clasificación para adjudicar clasificaciones potenciales a cada uno de dichos ejemplos no clasificados y para generar múltiples conjuntos de clasificación, conteniendo cada uno de dichos conjuntos de clasificación dichos múltiples (l) ejemplos clasificados de aprendizaje con su clasificación, y dicho, al menos un, ejemplo no clasificado (l + 1), con su citada clasificación potencial adjudicada; un medio de contraste que incluye un dispositivo de evaluación de ejemplo para determinar un criterio de calidad individual (valor ái de rareza) para cada ejemplo clasificado de aprendizaje (i = 1, 2, ..., l), y teniendo dicho, al menos un, ejemplo no clasificado (i=l + 1) una clasificación potencial (y) adjudicada, determinando el medio de contraste un criterio general de calidad (valor de rareza, d(y) o valor-p), válido bajo la hipótesis iid para cada dicho conjunto de clasificación, dependiente de los criterios (ái) de calidad individual de cada ejemplo, por la fórmula | {i : ái ál+1 } | d(y) := -------------------, donde i = 1, 2, ..., l, l + 1; l + 1 un dispositivo de comparación para seleccionar el conjunto de clasificación al cual pertenece la clasificación potencial más probablemente adjudicada para dicho, al menos un, ejemplo no clasificado, en donde dicha clasificación previamente citada, emitida por el terminal de salida, es dicha clasificación más probablemente adjudicada según dichos criterios generales de calidad (valores de rareza), asignada por dicho mediode contraste; y un dispositivo de monitorización de la potencia de predicción, a fin de determinar un valor de confianza para dicha clasificación predicha, sobre la base de dicho criterio general de calidad (valor de rareza), asignada por dicho medio de contraste a uno de dichos conjuntos de clasificación, al cual pertenece la segunda clasificación potencial más probablemente adjudicada de dicho, al menos un, ejemplo no clasificado.
Description
Dispositivo de clasificación de datos y
procedimiento para el mismo.
La presente invención se refiere a un dispositivo
de clasificación de datos y a un procedimiento automatizado de
clasificación de datos del mismo, que proporciona una medida
universal de confianza en la clasificación predicha para cualquier
entrada conocida. La presente invención es adecuada especialmente,
pero no exclusivamente, para el reconocimiento de patrones, p. ej.,
el reconocimiento de caracteres ópticos.
A fin de automatizar la clasificación de datos,
tal como en el reconocimiento de patrones, el dispositivo,
generalmente en forma de ordenador, debe ser capaz de aprender a
partir de ejemplos conocidos, y de extrapolar a fin de predecir una
clasificación para nuevos ejemplos desconocidos. Se han desarrollado
diversas técnicas durante años para permitir a los ordenadores
realizar esta función, incluyendo, entre otros, el análisis
discriminante, las redes neurales, los algoritmos genéticos y las
máquinas de vectores de soporte. Estas técnicas, usualmente, se
originan en dos campos: el aprendizaje de las máquinas y las
estadísticas.
Las máquinas aprendices, desarrolladas en la
teoría del aprendizaje de las máquinas, con frecuencia se desempeñan
muy bien en una amplia gama de aplicaciones sin requerir ninguna
hipótesis estadística paramétrica sobre el origen de los datos (a
diferencia de las técnicas estadísticas tradicionales); la única
hipótesis que se hace es la hipótesis iid (los ejemplos se generan a
partir de la misma distribución de probabilidades, independientes
entre sí). Un nuevo enfoque del aprendizaje de las máquinas se
describe en la patente US5640492, donde se utilizan técnicas de
optimización matemática para clasificar nuevos ejemplos. La ventaja
de la máquina aprendiz descrita en la patente US5640492 es que puede
emplearse para resolver problemas de dimensiones extremadamente
altas, que son inviables para las máquinas aprendices conocidas
anteriormente.
Un inconveniente típico de tales técnicas es que
las técnicas no proporcionan ninguna medida de confianza en la
clasificación predicha emitida por el dispositivo. Un usuario típico
de tal dispositivo de clasificación de datos simplemente espera que
la exactitud de los resultados de análisis previos, utilizando
conjuntos de datos de evaluación comparativa, sea representativa de
los resultados a obtener del análisis de futuros conjuntos de
datos.
Otras opciones para el usuario que desea asociar
una medida de confianza a los nuevos ejemplos no clasificados
incluyen la realización de experimentos en un conjunto de
validación, utilizando uno de los procedimientos conocidos de
validación cruzada, y aplicando uno de los resultados teóricos
acerca de las prestaciones futuras de distintas máquinas aprendices,
dado su desempeño pasado. Ninguno de estos procedimientos de
estimación de confianza, sin embargo, proporciona ningún medio
practicable para evaluar la confianza de la clasificación predicha
para un nuevo ejemplo individual. Los procedimientos conocidos de
estimación de confianza que abordan el problema de evaluar la
confianza de una clasificación predicha para un nuevo ejemplo
individual son procedimientos ad hoc, y no admiten interpretación en
términos rigurosos de la teoría de la probabilidad matemática.
La estimación de confianza es un área bien
estudiada tanto de la estadística paramétrica como de la no
paramétrica. En algunas partes de la estadística el objetivo es la
clasificación de ejemplos futuros, en lugar de parámetros del
modelo, lo cual es relevante para la necesidad abordada por esta
invención. En la estadística, sin embargo, sólo se han desarrollado
procedimientos de estimación de confianza adecuados para problemas
de bajas dimensiones. Por lo tanto, hasta el día de hoy no se ha
empleado la evaluación matemáticamente rigurosa de la confianza en
la clasificación de datos de altas dimensiones.
La presente invención proporciona un nuevo
dispositivo y procedimiento de clasificación de datos que puede
enfrentar los problemas de clasificación de altas dimensiones y que
proporciona una medida de confianza universal, válida bajo la
hipótesis iid, para cada predicción individual de clasificación
efectuada por el nuevo dispositivo y procedimiento de clasificación
de datos.
La presente invención proporciona un dispositivo
de clasificación de datos según lo definido en las
reivindicacio-
nes.
nes.
Con la presente invención, la técnica
convencional para la clasificación de datos, de aprendizaje por
inducción y luego deducción para nuevos vectores de datos
desconocidos, es suplantada por una nueva técnica de transducción
que evita la necesidad de identificar ninguna de las reglas
generales totalizadoras. De esta manera, con la presente invención
no se identifica ningún hiperplano o frontera multidimensional. Los
vectores de datos de aprendizaje se utilizan directamente para
proporcionar una clasificación predicha para vectores de datos
desconocidos. En otras palabras, los vectores de datos de
aprendizaje controlan implícitamente la predicción de clasificación
para un vector de datos desconocidos.
Es importante observar que, con la presente
invención, la medida de confianza es válida bajo la hipótesis iid
general, y que la presente invención es capaz de proporcionar
medidas de confianza incluso para problemas de muy altas
dimensiones.
Además, con la presente invención, puede
clasificarse más de un vector de datos desconocidos y generarse
simultáneamente una medida de confianza.
En un aspecto adicional, la presente invención
proporciona un procedimiento de clasificación de datos según se
define en las reivindicaciones.
Por supuesto, se apreciará que el procedimiento y
dispositivo precedentes pueden implementarse en un portador de
datos, sobre el cual esté almacenado un programa de
clasificación.
Se describirá ahora, sólo a modo de ejemplo, una
realización de la presente invención, con referencia a los dibujos
adjuntos, en los cuales:
La Figura 1 es un diagrama esquemático del
dispositivo de clasificación de datos según la presente
invención;
La Figura 2 es un diagrama esquemático de la
operación del dispositivo de clasificación de datos de la Figura
1;
La Figura 3 es una tabla que muestra un conjunto
de ejemplos de aprendizaje y de ejemplos no clasificados para su
empleo con un clasificador de datos según la presente invención;
y
La Figura 4 es una tabulación de resultados
experimentales, donde se empleó un clasificador de datos según la
presente invención en el reconocimiento de caracteres.
En la Figura 1 se muestra un clasificador de
datos 10, que consiste generalmente en un dispositivo de entrada 11,
un procesador 12, una memoria 13, una memoria ROM 14 que contiene
una serie de programas accesibles desde el procesador 12, y un
terminal de salida 15. El dispositivo de entrada 11,
preferiblemente, incluye una interfaz de usuario 16, tal como un
teclado u otro medio convencional para comunicarse con, e ingresar
datos en, el procesador 12, y el terminal de salida 15 puede tener
la forma de un monitor de pantalla u otro medio convencional para
exhibir información a un usuario. El terminal de salida 15,
preferiblemente, incluye uno o más puertos de salida para una
conexión a una impresora u otro dispositivo de red. El clasificador
de datos 10 puede realizarse en un Circuito Integrado Específico
para la Aplicación (Application Specific Integrated Circuit - ASIC)
con chips adicionales de memoria RAM. Idealmente, el ASIC contendría
una CPU (Central Processing Unit - Unidad Central de Procesamiento)
rápida de tipo RISC (Reduced Instruction Set Computer - Ordenador
con Conjunto Reducido de Instrucciones) con una Unidad de Punto
Flotante adecuada.
A fin de ayudar a la comprensión de la operación
del clasificador de datos 10 para proporcionar una predicción de una
clasificación para ejemplos no clasificados (desconocidos), lo
siguiente es una explicación de la teoría matemática que subyace
tras su operación.
Se dan dos conjuntos de ejemplos (vectores de
datos): el conjunto de aprendizaje consiste en ejemplos con sus
clasificaciones (o clases) ya conocidas, y un conjunto de
prueba que consiste en ejemplos no clasificados. En la Figura 3 se
muestran un conjunto de aprendizaje de cinco ejemplos y dos ejemplos
de prueba, donde los ejemplos no clasificados son imágenes de
dígitos y la clasificación es 1 ó 7.
La notación para el tamaño del conjunto de
aprendizaje es \mathit{l} y, para simplificar, se supone que el
conjunto de prueba de los ejemplos sólo contiene un ejemplo no
clasificado. Sea (X,A) el espacio medible de todos los ejemplos
posibles no clasificados (en el caso de la Figura 3, X podría ser el
conjunto de todas las imágenes en escala de grises de 16 x 16) y sea
(Y,B) el espacio medible de las clases (en el caso de la Figura 3, Y
podría ser el conjunto de dos elementos {1,7}). Y es usualmente
finito.
El procedimiento de predicción de confianza es
una familia {f_{\beta}: \beta \epsilon (0,1)} de funciones
medibles f_{\beta}:(XxY)^{\mathit{l}}xX\rightarrowB,
tales que
1. Para cualquier nivel de confianza \beta (en
la clasificación de datos, típicamente, estamos interesados en que
\beta esté cerca del 1) y cualquier distribución de probabilidad P
en XxY, la probabilidad de que
y_{\mathit{l}+1} \ \epsilon \
f_{\beta}\
(x_{1},y_{1},...x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1})
es al menos \beta, donde
(x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),(x_{\mathit{l}+1},y_{\mathit{l}+1})
se generan independientemente de
P.
2. Si \beta_{1} < \beta_{2}, entonces,
para todo (x_{1},y_{1},...,x_{\mathit{l}},
y_{\mathit{l}},x_{\mathit{l}+1}) \epsilon
(XxY)^{\mathit{l}}xX,
f_{\beta 1} \
(x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1})\subseteq
f_{\beta 2} \
(x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1})
La aseveración implícita en la predicción
f_{\beta 1}
(x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1})
es que la verdadera etiqueta y_{\mathit{l}+1} pertenecerá a
f_{\beta 1}
(x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1}).
El punto 1 requiere que la predicción dada por f_{\beta} fuese
correcta, con una probabilidad de al menos \beta, y el punto 2
requiere que la familia {f_{\beta}} fuese consistente: si se
admite alguna etiqueta y para el (\mathit{l}+1)-ésimo ejemplo al
nivel de confianza \beta_{1}, también debería admitirse a
cualquier nivel de confianza \beta_{2} > \beta_{1}.
Una típica modalidad de empleo de esta definición
es que algún valor convencional de \beta, tal como 95% o 99%, se
escoge por anticipado, después de lo cual se utiliza la función
f_{\beta} para la predicción. Idealmente, la región de predicción
generada por f_{\beta} contendrá sólo una clasificación.
Un rasgo importante del dispositivo de
clasificación de datos es el definir f_{\beta} en términos de
soluciones \alpha_{i}, i = 1, ..., \mathit{l}+1, de problemas
auxiliares de optimización del tipo esbozado en la patente
US5640492. Específicamente, consideramos terminaciones |Y| de
nuestros datos
(x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1};
la terminación y, y \epsilon Y,
es
(x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),(x_{\mathit{l}+1},y)
(por lo que en todos las
terminaciones cada ejemplo está
clasificado).
A cada terminación
(x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),(x_{\mathit{l}+1},y_{\mathit{l}+1})
(por comodidad de notación
escribimos aquí y_{\mathit{l}+1} en lugar de y) se asocia el
problema de
optimización
(1)^{1}/_{2}(w
. w) + C
\left\{\sum\limits^{\mathit{l}+1}_{i=1}\xi_{i}\right\}\rightarrow
min
(donde C es una constante positiva
fija)
sujeto a las restricciones
(2)y_{i}((x_{i}.w)+ b)\geq
\xi_{i}, \hskip0.5cm i =
1,...,\mathit{l}+1
Este problema involucra a las variables
\xi_{i} \geq 0, que se llaman variables de laxitud. Si
la constante C se escoge demasiado grande, la exactitud de la
solución puede hacerse inaceptablemente mala; C debería escogerse lo
más grande posible dentro de la gama en la cual la exactitud
numérica de la solución sigue siendo razonable. (Cuando los datos
son linealmente separables, incluso es posible fijar C en el
infinito, pero, dado que muy rara vez, si acaso, es posible predecir
que todas las terminaciones serán linealmente separables, C debería
tomarse grande pero finita).
El problema de optimización se transforma, por
medio de la introducción de multiplicadores de Lagrange
\alpha_{i}, i = 1,...,\mathit{l}+1, en el problema dual;
hallar \alpha_{i} tales que
(3)\sum\limits^{\mathit{l}+1}_{i=1}\alpha_{i
\ --} \ ^{1}/_{2}
\sum\limits^{\mathit{l}+1}_{i,j=1}y_{i}y_{j}\alpha_{i}\alpha_{j}(x_{i}.x_{j})\rightarrow
max
bajo las restricciones de
"cuadro"
(4)0 \leq
\alpha_{i}\leq C, \hskip0.5cm i=1,2, ...,
\mathit{l}+1
Los ejemplos no clasificados se representan, se
supone, como los valores tomados por n atributos numéricos y, por lo
tanto, X = R^{n}.
Este problema de optimización cuadrática se
aplica, no a los vectores de atributos x_{i} en sí, sino a sus
imágenes V(x_{i}), según alguna función predeterminada
V:X\rightarrowH que toma valores en un espacio de Hilbert, lo cual
lleva a reemplazar el producto vectorial x_{i}.x_{j} en el
problema de optimización (3)-(4) por la función núcleo
K(x_{i},x_{j}) =
V(x_{i}).V(x_{j})
El problema de optimización final es, por lo
tanto,
\sum\limits^{\mathit{l}+1}_{i=1}\alpha_{i
\ --} \ ^{1}/_{2}
\sum\limits^{\mathit{l}+1}_{i,j=1}y_{i}y_{j}\alpha_{i}\alpha_{j}K(x_{i},x_{j})\rightarrow
max
bajo las restricciones de
"cuadro"
0 \leq
\alpha_{i}\leq C, \hskip0.5cm i=1,2, ...,
\mathit{l}+1;
este problema de optimización
cuadrática puede resolverse empleando paquetes
estándar.
El multiplicador de Lagrange \alpha_{i}, i
\epsilon {1, 2, ..., \mathit{l}+1} refleja la "rareza" del
ejemplo (x_{i},y_{j}); esperamos que \alpha_{\mathit{l}+1}
será grande en las terminaciones erróneas.
Para y \epsilon Y, definimos
d(y):=\frac{|\{i:\alpha_{i}\geq\alpha_{\mathit{l}+1}\}|}{\mathit{l}+
1}
por lo tanto, d(y) es el
valor-p asociado con la terminación y (siendo y una
notación alternativa para y_{\mathit{l}+1}). La función f de
predicción de confianza, que está en el núcleo de esta invención,
puede expresarse
como
f_{\beta} \
(x_{1},y_{1},...,x_{\mathit{l}},y_{\mathit{l}},x_{\mathit{l}+1}):=
\{y: d(y) > 1 -
\beta\}
El caso más interesante es cuando el conjunto de
predicción dado por f_{\beta} es un único valor; por lo tanto, los
rasgos más importantes del procedimiento {f_{\beta}} de predicción
de confianza en los datos (x_{1},y_{1}),...,(x_{\mathit{l}},y
_{\mathit{l}}),x_{\mathit{l}+1} son
- *
- el mayor \beta=\beta_{0} para el cual f_{\beta} ((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) es un único valor (suponiendo que exista tal \beta)
- *
- la clasificación F((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) definida como aquel y \epsilon Y para el cual f_{\beta 0} ((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) es {y}.
La
F((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1})
definida de esta manera se llama el algoritmo de predicción
f-óptimo; el \beta_{0} correspondiente se llama el nivel de
confianza asociado a F.
Otro rasgo importante de la función f_{\beta}
de estimación de confianza en los datos
(x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1})
es el mayor \beta=\beta_{\xi} para el cual f_{\beta}
((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1})
es el conjunto vacío. Llamamos a 1 - \beta_{\xi} la credibilidad
del conjunto de datos
(x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1};
es el valor-p de una prueba para verificar la
hipótesis iid. Allí donde la credibilidad es muy pequeña, bien el
conjunto de aprendizaje (x_{1},y_{1}),...,
(x_{\mathit{l}},y_{\mathit{l}}) o bien el nuevo ejemplo no
clasificado x_{\mathit{l}+1} son atípicos, lo cual hace que la
predicción sea no fiable, a menos que el nivel de confianza esté
mucho más cerca del 1 que 1 - \beta_{\xi}. En general, la suma de
la confianza y la credibilidad está entre 1 y 2; el éxito de la
predicción se mide por cuán cerca está esta suma del 2.
Con el clasificador de datos de la presente
invención, operado como se describe en lo precedente, pueden
ofrecerse a un usuario los siguientes menús u opciones:
1. Predicción y Confianza
2. Credibilidad
3. Detalles.
Una respuesta típica a la selección, por parte
del usuario, de la opción 1 podría ser: predicción - 4, confianza -
99%, lo que significa que 4 será la predicción emitida por la
función F f-óptima, y 99% es el nivel de confianza de esta
predicción. Una respuesta típica a la opción 2 podría ser:
credibilidad - 100%, que da el valor calculado de la credibilidad.
Una respuesta típica a la opción 3 podría ser:
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
0,1% | 1% | 0,2% | 0,4% | 100% | 1,1% | 0,6% | 0,2% | 1% | 1%, |
el conjunto completo de
valores-p para todas las terminaciones posibles. La
última selección contiene la información acerca de
F((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),
x_{\mathit{l}+1}) (el carácter que corresponde al mayor
valor-p), el nivel de confianza (uno menos el
segundo valor-p más grande) y la credibilidad (el
mayor
valor-p).
Esta modalidad de empleo de la función f de
predicción de confianza no es la única modalidad posible: en
principio, puede combinarse con cualquier algoritmo de predicción.
Si G es un algoritmo de predicción, a su predicción
y:=G((x_{1},y_{1}),...,
(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1}) podemos
asociar la siguiente medida de confianza:
c(y):=
max \ \{\beta: f_{\beta} \
((x_{1},y_{1}),...,(x_{\mathit{l}},y_{\mathit{l}}),x_{\mathit{l}+1})\subseteq\{y\}\}
El algoritmo de predicción F descrito
anteriormente es el que optimiza esta medida de confianza.
La tabla mostrada en la Figura 4 contiene los
resultados de un experimento de reconocimiento de caracteres que
emplea el clasificador de datos de la presente invención. La tabla
muestra los resultados para un conjunto de prueba de tamaño 10,
utilizando un conjunto de aprendizaje de tamaño 20 (no mostrado). El
núcleo utilizado fue K(x,y) = (x.y)^{3}/
256.
256.
Se contempla que ciertas modificaciones del
problema de optimización señalado por las ecuaciones (1) y (2)
podrían tener ciertas ventajas, por ejemplo,
^{1}/_{2}(w.w)
+ C\left\{\sum\limits^{\mathit{l} + 1}_{i =
1}\xi^{2}_{i}\right\}\rightarrow
min
sujeto a las
restricciones
y_{i}((x_{i}.w) + b) = 1 -
\xi_{i}, \hskip0.5cm i = 1,...,\mathit{l} +
1
Se contempla además que el clasificador de datos
descrito anteriormente puede ser especialmente útil para predecir la
clasificación de más de un ejemplo simultáneamente; la estadística
de prueba empleada para calcular los valores-p
correspondientes a las distintas terminaciones podría ser la suma de
los rangos de los \alpha correspondientes a los nuevos ejemplos
(como en la prueba de suma del rango de Wilcoxon).
En la práctica, según se muestra en la Figura 2,
un conjunto de datos de aprendizaje se ingresa 20 al clasificador de
datos. El conjunto de datos de aprendizaje consiste en múltiples
vectores de datos, cada uno de los cuales tiene una clasificación
conocida asociada, adjudicada a partir de un conjunto de
clasificaciones. Por ejemplo, en el reconocimiento de caracteres
numéricos, el conjunto de clasificaciones podría ser la serie
numérica 0-9. El conjunto de clasificaciones puede
ingresarse 21 por separado al clasificador de datos o puede
almacenarse en la memoria ROM 14. Además, alguna representación
constructiva del espacio medible de los vectores de datos puede
ingresarse 22 al clasificador de datos o almacenarse de nuevo en la
memoria ROM 14. Por ejemplo, en el caso del reconocimiento de
caracteres numéricos el espacio medible podría consistir en imágenes
de píxeles en escala de grises de 16 x 16. Allí donde el espacio
medible ya está almacenado en la memoria ROM 14 del clasificador de
datos, la interfaz 16 puede incluir un medio de ingreso (no
mostrado) a fin de permitir a un usuario ingresar ajustes para el
espacio medible almacenado. Por ejemplo, puede requerirse una mayor
definición de una imagen, en cuyo caso la dimensión en píxeles del
espacio medible podría aumentarse.
Uno o más vectores de datos, para los cuales no
se conoce ninguna clasificación, también se ingresa(n) 23 al
clasificador de datos. El conjunto de datos de aprendizaje y los
vectores de datos no clasificados, junto con cualquier información
adicional ingresada por el usuario, se proporcionan desde el
dispositivo de entrada 11 al procesador 12.
En primer lugar, a cada uno de los vectores (uno
o más) de datos no clasificados se adjudica 24 individualmente, de
manera provisional, una clasificación del conjunto de
clasificaciones. Se determina 25 entonces un valor individual
\alpha_{i} de rareza para cada uno de los vectores de datos en
el conjunto de aprendizaje y para cada uno de los vectores de datos
no clasificados, para los cuales se ha hecho una adjudicación de
clasificación provisional. Se genera así un conjunto de
clasificación que contiene cada uno de los vectores de datos en el
conjunto de aprendizaje y los vectores (uno o más) de datos no
clasificados, con sus clasificaciones provisionales adjudicadas y
los valores individuales \alpha_{i} de rareza para cada vector
de datos. Se generan entonces múltiples conjuntos tales de
clasificación, siendo las clasificaciones provisionales adjudicadas
de los vectores de datos no clasificados distintos para conjunto de
clasificación.
Se realiza entonces 26 el cálculo de un único
valor de rareza, el valor-p, para cada conjunto de
clasificación que contiene el conjunto completo de vectores de datos
de aprendizaje y los vectores no clasificados con su clasificación
adjudicada actual, sobre la base de los valores individuales
\alpha_{i} de rareza determinados en la etapa anterior. Este
valor-p y el conjunto asociado de clasificaciones se
transfiere a la memoria 13 para su futura comparación, mientras que
a cada uno de los vectores (uno o más) de datos no clasificados se
le adjudica provisionalmente en forma individual la misma
clasificación, o una distinta. Las etapas de calcular valores 25
individuales de rareza y la determinación de un
valor-p 26 se repiten en cada iteración para el
conjunto completo de vectores de datos de aprendizaje y los vectores
de datos no clasificados, utilizando cada vez distintas
adjudicaciones de clasificación para los vectores de datos no
clasificados. Esto da como resultado una serie de
valores-p almacenados en la memoria 13,
representando cada uno la rareza del conjunto completo de vectores
de datos con respecto a las adjudicaciones de clasificación única
para los vectores (uno o más) de datos no clasificados.
Los valores-p almacenados en la
memoria se comparan 27 luego para identificar el máximo
valor-p y el siguiente valor-p más
grande. Finalmente se proporciona 28 el conjunto de clasificación de
vectores de datos que tienen el máximo valor-p al
terminal de salida 15. Los datos proporcionados al terminal de
salida pueden consistir únicamente en las clasificaciones (una o
más) adjudicadas a los vectores (uno o más) de datos no
clasificados, que ahora representa(n)
la clasificación predicha, entre el conjunto de clasificación de vectores de datos que tienen el máximo valor-p.
la clasificación predicha, entre el conjunto de clasificación de vectores de datos que tienen el máximo valor-p.
Adicionalmente, se genera 29 un valor de
confianza para la clasificación predicha. El valor de confianza se
determina sobre la base de la resta al 1 del siguiente
valor-p más grande. Por lo tanto, si ese siguiente
valor-p es grande, la confianza de la clasificación
predicha es pequeña, y si ese siguiente valor-p es
pequeño, el valor de confianza es grande. La selección 1 mencionada
anteriormente brinda a un usuario clasificaciones predichas para los
vectores (uno o más) de datos desconocidos y el valor de
confianza.
Allí donde ha de emplearse un algoritmo de
predicción alternativo, el valor de confianza se calculará restando
al 1 el mayor valor-p para los conjuntos de vectores
de datos de aprendizaje y de vectores nuevos clasificados de manera
distinta a la clasificación predicha (por el procedimiento
alternativo).
También puede proporcionarse (selección 3)
información adicional en forma de valores-p para
cada uno de los conjuntos de vectores de datos con respecto a las
clasificaciones individuales adjudicadas, o simplemente el
valor-p para la clasificación predicha (selección
2).
Con el clasificador de datos y el procedimiento
de clasificación de datos descritos anteriormente, se proporciona
una medida universal de la confianza en cualquier clasificación
predicha de uno o más vectores de datos desconocidos. Además, en
ningún punto se extrae una regla general o un hiperplano
multidimensional del conjunto de aprendizaje de vectores de datos.
En cambio, los vectores de datos se utilizan directamente para
calcular la rareza de una clasificación (o más) provisionalmente
adjudicada(s) para uno o más vectores de datos
desconocidos.
Si bien se han mostrado en particular, y se han
descrito, el dispositivo y procedimiento de clasificación de datos
con referencia a la realización preferida que antecede, aquellos
versados en la técnica comprenderán que pueden efectuarse diversas
modificaciones, en forma y detalle, en los mismos, sin apartarse del
alcance de la invención, según lo definido por las reivindicaciones
adjuntas. Por consiguiente, las modificaciones tales como las
sugeridas anteriormente, pero sin limitarse a las mismas, han de
considerarse dentro del alcance de la invención.
Claims (6)
1. Dispositivo de clasificación de datos que
comprende:
un dispositivo de entrada para recibir múltiples
ejemplos clasificados de aprendizaje y al menos un ejemplo no
clasificado;
una memoria para almacenar dichos ejemplos
clasificados y no clasificados;
un terminal de salida para emitir una
clasificación predicha para dicho, al menos un, ejemplo no
clasificado; y
un procesador para identificar la clasificación
predicha de dicho, al menos un, ejemplo no clasificado
donde el procesador incluye:
un medio de adjudicación de clasificación para
adjudicar clasificaciones potenciales a cada uno de dichos ejemplos
no clasificados y para generar múltiples conjuntos de clasificación,
conteniendo cada uno de dichos conjuntos de clasificación dichos
múltiples (\mathit{l}) ejemplos clasificados de aprendizaje con su
clasificación, y dicho, al menos un, ejemplo no clasificado
(\mathit{l} + 1), con su citada clasificación potencial
adjudicada;
un medio de contraste que incluye un dispositivo
de evaluación de ejemplo para determinar un criterio de calidad
individual (valor \alpha_{i} de rareza) para cada ejemplo
clasificado de aprendizaje (i = 1,2,...,\mathit{l}), y teniendo
dicho, al menos un, ejemplo no clasificado (i = \mathit{l} + 1)
una clasificación potencial (y) adjudicada, determinando el medio de
contraste un criterio general de calidad (valor de rareza,
d(y) o valor-p), válido bajo la hipótesis iid
para cada dicho conjunto de clasificación, dependiente de los
criterios (\alpha_{i}) de calidad individual de cada ejemplo,
por la fórmula
d(y):=\frac{|\{i:
\alpha_{i}\geq \alpha_{\mathit{l}+1}\}|}{\mathit{l}+1}, \hskip0.5cm
donde \ i= 1,2,..., \mathit{l}, \mathit{l} +
1;
un dispositivo de comparación para
seleccionar el conjunto de clasificación al cual pertenece la
clasificación potencial más probablemente adjudicada para dicho, al
menos un, ejemplo no clasificado, en donde dicha clasificación
previamente citada, emitida por el terminal de salida, es dicha
clasificación más probablemente adjudicada según dichos criterios
generales de calidad (valores de rareza), asignada por dicho medio
de contraste;
y
un dispositivo de monitorización de la potencia
de predicción, a fin de determinar un valor de confianza para dicha
clasificación predicha, sobre la base de dicho criterio general de
calidad (valor de rareza), asignada por dicho medio de contraste a
uno de dichos conjuntos de clasificación, al cual pertenece la
segunda clasificación potencial más probablemente adjudicada de
dicho, al menos un, ejemplo no clasificado.
2. Dispositivo de clasificación de datos según la
reivindicación 1, en el cual se emplean multiplicadores de Lagrange
para determinar dichos criterios de calidad individuales (valores de
rareza).
3. Un procedimiento de clasificación de datos que
comprende:
ingresar múltiples ejemplos clasificados de
aprendizaje y al menos un ejemplo no clasificado;
identificar una clasificación predicha de dicho,
al menos un, ejemplo no clasificado, que incluye,
adjudicar clasificaciones potenciales a cada
dicho ejemplo no clasificado;
generar múltiples conjuntos de clasificación,
conteniendo cada uno de dichos conjuntos de clasificación dichos
múltiples (\mathit{l}) ejemplos clasificados de aprendizaje, con
su clasificación, y dicho, al menos un, ejemplo no clasificado
(\mathit{l} + 1), con su clasificación potencial adjudicada;
determinar un criterio de calidad individual
(valor \alpha_{i} de rareza) para cada ejemplo clasificado de
aprendizaje (i = 1,2,...,\mathit{l}), y teniendo dicho, al menos
un, ejemplo no clasificado (i = \mathit{l} + 1) una clasificación
(y) potencial adjudicada, y un criterio general de calidad (valor de
rareza, d(y) o valor-p), válido bajo la
hipótesis iid, para cada dicho conjunto de clasificación,
dependiente de los criterios individuales de calidad
(\alpha_{i}) de cada ejemplo, por la fórmula
d(y):=\frac{|\{i:
\alpha_{i}\geq \alpha_{\mathit{l}+1}\}|}{\mathit{l}+1}, \hskip0.5cm
donde \ i= 1,2,..., \mathit{l}, \mathit{l} +
1;
seleccionar dicho conjunto de
clasificación al cual pertenece la clasificación potencial más
probablemente adjudicada para dicho, al menos un, ejemplo no
clasificado, en donde dicha clasificación predicha es la
clasificación potencial más probablemente adjudicada, dependiente de
dichos criterios generales de calidad (valores de
rareza);
determinar un valor de confianza para dicha
clasificación predicha sobre la base del criterio general de calidad
(valor de rareza) asignado a uno de dichos conjuntos de
clasificación, al cual pertenece la segunda clasificación potencial
más probablemente adjudicada para dicho, al menos un, ejemplo no
clasificado; y
emitir dicha clasificación previamente citada
para dicho, al menos un, ejemplo no clasificado y dicho valor de
confianza para dicha clasificación previamente citada.
4. Un procedimiento de clasificación de datos
según la reivindicación 3, en el cual dicho conjunto de
clasificación seleccionado se selecciona sin la aplicación de
ninguna regla general determinada a partir de dicho conjunto de
aprendizaje.
5. Un portador de datos sobre el cual se almacena
un programa de clasificación para clasificar datos llevando a cabo
las siguientes etapas:
generar múltiples conjuntos de clasificación,
conteniendo cada uno de dichos conjuntos de clasificación múltiples
ejemplos clasificados de aprendizaje, con su clasificación, y al
menos un ejemplo no clasificado al que se ha adjudicado una
clasificación potencial;
determinar un criterio de calidad individual
(valor \alpha_{i} de rareza) para cada ejemplo clasificado de
aprendizaje (i = 1,2,...,\mathit{l}), y teniendo dicho, al menos
un, ejemplo no clasificado (i = \mathit{l} + 1) una clasificación
potencial (y) adjudicada, y un criterio general de calidad (valor de
rareza, d(y) o valor-p), válido bajo la
hipótesis iid, para cada dicho conjunto de clasificación,
dependiente de los criterios individuales de calidad
(\alpha_{i}) de cada ejemplo, por la fórmula
d(y):=\frac{|\{i:
\alpha_{i}\geq \alpha_{\mathit{l}+1}\}|}{\mathit{l}+1}, \hskip0.5cm
donde \ i= 1,2,..., \mathit{l}, \mathit{l} +
1;
seleccionar el conjunto de
clasificación al cual pertenece la clasificación potencial más
probablemente adjudicada para dicho, al menos un, ejemplo no
clasificado, en donde la clasificación predicha es la clasificación
potencial más probablemente adjudicada, dependiente de dichos
criterios generales de calidad (valores de rareza);
y
determinar un valor de confianza para dicha
clasificación predicha sobre la base de dicho criterio general de
calidad (valor de rareza) asignado a uno de dichos conjuntos de
clasificación, al cual pertenece la segunda clasificación potencial
más probablemente adjudicada para dicho, al menos un, ejemplo no
clasificado.
6. Código de control de un programa de ordenador,
adaptado para llevar a cabo todas las etapas del procedimiento de la
reivindicación 3 en un ordenador.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9824552 | 1998-11-09 | ||
GBGB9824552.5A GB9824552D0 (en) | 1998-11-09 | 1998-11-09 | Data classification apparatus and method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2234317T3 true ES2234317T3 (es) | 2005-06-16 |
Family
ID=10842127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99954200T Expired - Lifetime ES2234317T3 (es) | 1998-11-09 | 1999-11-09 | Dispositivo de clasificacion de datos y procedimiento para el mismo. |
Country Status (8)
Country | Link |
---|---|
US (1) | US7072873B1 (es) |
EP (1) | EP1129428B1 (es) |
AT (1) | ATE286280T1 (es) |
AU (1) | AU1061900A (es) |
DE (1) | DE69922995T2 (es) |
ES (1) | ES2234317T3 (es) |
GB (1) | GB9824552D0 (es) |
WO (1) | WO2000028473A1 (es) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2369899A (en) * | 2000-07-20 | 2002-06-12 | Volodya Vovk | Data labelling device and method thereof |
US7127099B2 (en) | 2001-05-11 | 2006-10-24 | Orbotech Ltd. | Image searching defect detector |
US7492943B2 (en) * | 2004-10-29 | 2009-02-17 | George Mason Intellectual Properties, Inc. | Open set recognition using transduction |
WO2010011180A1 (en) | 2008-07-25 | 2010-01-28 | Resolvo Systems Pte Ltd | Method and system for securing against leakage of source code |
CN103177088B (zh) * | 2013-03-08 | 2016-05-18 | 北京理工大学 | 一种生物医学空缺数据弥补方法 |
CN105046044A (zh) * | 2015-05-29 | 2015-11-11 | 上海大学 | 基于最优小波包变换的非平稳风速预测方法 |
CN105069474B (zh) * | 2015-08-05 | 2019-02-12 | 山东师范大学 | 用于音频事件分类的半监督学习高置信度样本挖掘方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8103278A (nl) * | 1980-07-11 | 1982-02-01 | Correlative System Int | Werkwijze en installatie voor het klassificeren van ge- gevens. |
US5846189A (en) * | 1989-09-08 | 1998-12-08 | Pincus; Steven M. | System for quantifying asynchrony between signals |
US5212639A (en) * | 1990-04-05 | 1993-05-18 | Sampson Wesley C | Method and electronic apparatus for the classification of combinatorial data for the summarization and/or tabulation thereof |
JPH0527906A (ja) * | 1991-07-24 | 1993-02-05 | Matsushita Electric Ind Co Ltd | 図形選択装置 |
JP3334807B2 (ja) * | 1991-07-25 | 2002-10-15 | 株式会社日立製作所 | ニュ−ラルネットを利用したパタ−ン分類方法および装置 |
US5361379A (en) | 1991-10-03 | 1994-11-01 | Rockwell International Corporation | Soft-decision classifier |
JP2795058B2 (ja) * | 1992-06-03 | 1998-09-10 | 松下電器産業株式会社 | 時系列信号処理装置 |
US5479573A (en) * | 1992-11-24 | 1995-12-26 | Pavilion Technologies, Inc. | Predictive network with learned preprocessing parameters |
US5649068A (en) | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
US5640492A (en) * | 1994-06-30 | 1997-06-17 | Lucent Technologies Inc. | Soft margin classifier |
CA2247006C (en) * | 1996-03-29 | 2002-09-17 | British Telecommunications Public Limited Company | Speech processing |
GB2369899A (en) * | 2000-07-20 | 2002-06-12 | Volodya Vovk | Data labelling device and method thereof |
-
1998
- 1998-11-09 GB GBGB9824552.5A patent/GB9824552D0/en not_active Ceased
-
1999
- 1999-11-09 EP EP99954200A patent/EP1129428B1/en not_active Expired - Lifetime
- 1999-11-09 AT AT99954200T patent/ATE286280T1/de not_active IP Right Cessation
- 1999-11-09 DE DE69922995T patent/DE69922995T2/de not_active Expired - Lifetime
- 1999-11-09 WO PCT/GB1999/003737 patent/WO2000028473A1/en active IP Right Grant
- 1999-11-09 AU AU10619/00A patent/AU1061900A/en not_active Abandoned
- 1999-11-09 ES ES99954200T patent/ES2234317T3/es not_active Expired - Lifetime
- 1999-11-09 US US09/831,262 patent/US7072873B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7072873B1 (en) | 2006-07-04 |
WO2000028473A1 (en) | 2000-05-18 |
DE69922995D1 (de) | 2005-02-03 |
EP1129428B1 (en) | 2004-12-29 |
ATE286280T1 (de) | 2005-01-15 |
EP1129428A1 (en) | 2001-09-05 |
DE69922995T2 (de) | 2006-02-23 |
GB9824552D0 (en) | 1999-01-06 |
AU1061900A (en) | 2000-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Micallef et al. | Towards perceptual optimization of the visual design of scatterplots | |
CN108229296B (zh) | 人脸皮肤属性识别方法和装置、电子设备、存储介质 | |
Dodge et al. | Visual saliency prediction using a mixture of deep neural networks | |
CN110136056A (zh) | 图像超分辨率重建的方法和装置 | |
JP2022540487A (ja) | 皮膚分析のための画像処理、皮膚分析を視覚化するためのシステム及び方法 | |
US9113057B2 (en) | Radiometric calibration from noise distributions | |
Zhang et al. | Cascaded face sketch synthesis under various illuminations | |
US20200334557A1 (en) | Chained influence scores for improving synthetic data generation | |
ES2234317T3 (es) | Dispositivo de clasificacion de datos y procedimiento para el mismo. | |
Neshat et al. | A new skin color detection approach based on fuzzy expert system | |
CN109034199A (zh) | 数据处理方法及装置、存储介质和电子设备 | |
JP6570698B1 (ja) | 設定装置、設定方法及び設定プログラム | |
Zhang et al. | Is a classification procedure good enough?—A goodness-of-fit assessment tool for classification learning | |
US8233715B2 (en) | Probabilistic intensity similarity measure based on noise distributions | |
CN111899239A (zh) | 图像处理方法和装置 | |
US20230419549A1 (en) | Systems and methods for determining and using a multidimensional measure of apparent skin color | |
US20030236578A1 (en) | Data labelling apparatus and method thereof | |
CN112789636A (zh) | 信息处理装置、信息处理方法和程序 | |
CN116468479A (zh) | 确定页面质量评估维度方法、页面质量的评估方法和装置 | |
Zabel et al. | VIPurPCA: Visualizing and Propagating Uncertainty in Principal Component Analysis | |
JP2015064761A (ja) | マッチング処理装置およびマッチング方法 | |
CN112749707A (zh) | 利用神经网络进行目标分割的方法、设备和介质 | |
JP2022044112A (ja) | 推定装置、推定方法及びプログラム | |
CN112613415A (zh) | 脸部鼻型识别方法、装置、电子设备和介质 | |
Islamadina et al. | Learning Rate Analysis for Pain Recognition Through Viola-Jones and Deep Learning Methods |