ES2880202T3

ES2880202T3 - Procedimiento para clasificar información y procesador de clasificación

Info

Publication number: ES2880202T3
Application number: ES18706280T
Authority: ES
Inventors: Gesa Benndorf; Nicolas Rehault; Tim Rist
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-02-28
Filing date: 2018-02-26
Publication date: 2021-11-23
Anticipated expiration: 2038-02-26
Also published as: KR102335038B1; JP6962665B2; JP2020509497A; EP3590052A1; EP3367261A1; CN110431543A; KR20190117771A; US20190361921A1; EP3590052B1; WO2018158201A1; CN110431543B

Abstract

Procedimiento (100) implementado por ordenador para la clasificación de información en una primera clase o una segunda clase, presentando el procedimiento (100): emplear (102) un primer método de clasificación (M1) en la información para asignar la información a la primera clase cuando la información cumple con criterios de clasificación de la primera clase, y para asignar la información a la segunda clase cuando la información no cumple con los criterios de clasificación de la primera clase; emplear (104) un segundo método de clasificación (M2) en la información para asignar la información a la segunda clase cuando la información cumple con criterios de clasificación de la segunda clase, y para asignar la información a la primera clase cuando la información no cumple con los criterios de clasificación de la segunda clase; y actualizar (106) los criterios de clasificación de al menos uno de los dos métodos de clasificación en caso de una asignación diferente de la información mediante los dos métodos de clasificación o al alcanzarse una cantidad predeterminada de asignaciones diferentes entre sí de informaciones mediante los dos métodos de clasificación (M1, M2); siendo la primera clase y la segunda clase diferentes; usándose el procedimiento (100) para la identificación de errores en instalaciones técnicas; siendo la información, la cual está clasificada mediante el procedimiento (100), datos de sensor; presentando el procedimiento (100) además de ello: emitir una primera señal cuando la información se asignó a la primera clase a través de ambos métodos de clasificación; emitir una segunda señal cuando la información se asignó a la segunda clase a través de ambos métodos de clasificación; y emitir una tercera señal cuando la información se asignó a diferentes clases a través de los métodos de clasificación.

Description

DESCRIPCIÓN

Procedimiento para clasificar información y procesador de clasificación

Los ejemplos de realización de la presente invención se refieren también a un procedimiento para la clasificación de información. Otros ejemplos de realización se refieren a un procesador de clasificación para clasificar información. Algunos ejemplos de realización se refieren a un procedimiento para la identificación de errores.

En muchos campos de aplicación es preciso clasificar correctamente datos y de este modo, por ejemplo, identificar spam (en el tráfico de correo electrónico), tumores malignos (diagnóstico cáncer) o estados de funcionamiento erróneos (instalación técnica) de modo automatizado y diferenciarlos de "datos normales". El desafío técnico consiste en encontrar un método, el cual lleve a cabo una clasificación de este tipo de modo lo más exacto posible, es decir, que identifique como tales en la medida de lo posible todos los errores, debiendo clasificarse en la medida de lo posible pocos erróneamente como errores. Adicionalmente la dificultad consiste en que las condiciones marco pueden cambiar, pueden aparecer errores antes desconocidos y el método por lo tanto ha de adaptarse correspondientemente durante el uso.

En principio existe la posibilidad de llevar a cabo una clasificación de este tipo con la ayuda de conocimiento experto o mediante métodos del aprendizaje automático. A este respecto cada método tiene, considerado aisladamente, determinados límites y desventajas. Los métodos del aprendizaje automático requieren en particular generalmente una gran cantidad de datos de entrenamiento de alta calidad, mientras que los sistemas de expertos son laboriosos en la implementación y poco flexibles.

En la bibliografía se describe detalladamente la teoría de métodos de clasificación, como Support Vector Machine (en alemán Stützvektormaschine, máquina de vectores de soporte), regresión logística, clasificadores bayesianos, árboles de decisión, redes neuronales, etc., (véase, por ejemplo, Aggarwal 2014, Han et al. 2011). Aplicaciones técnicas de clasificadores individuales se han documentado muchas veces y también se han descrito en la bibliografía de patentes (documentos US 2005/141782 A1 y US 2006/058898 A1). También se usan combinaciones de diferentes métodos (documento US 2005/097067 A1). Para el problema del filtrado de spam se describió un planteamiento adaptativo (documento US 2004/177110 A1). Se conoce además de ello el metaaprendizaje (en alemán Meta-Lernen) (documento US 6,842,751 B1).

Los planteamientos conocidos son, no obstante, relativamente imprecisos, es decir, una cantidad relativamente alta de datos se clasifica de modo incorrecto. Además de ello, los planteamientos conocidos, en su caso, son muy lentos en la adaptación a datos nuevos o desconocidos.

En la publicación [FUQAING LIU ET AL: Dual Teaching: A Practical Semi-supervised Wrapper Method", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, ITHACA, NY, EE. UU, 12 de noviembre de 2016 (2016-11-12), páginas 1-7, XP080731271] se describe un procedimiento de clasificación binario con dos clasificadores.

La presente invención se basa por lo tanto en el objetivo de crear un concepto con una precisión de clasificación mejorada y/o adaptación a datos nuevos o desconocidos.

Este objetivo se resuelve mediante las reivindicaciones independientes.

En las reivindicaciones dependientes se encuentran perfeccionamientos ventajosos.

Los ejemplos de realización de la presente invención se describen con mayor detalle haciendo referencia a las figuras que acompañan. Muestran:

La Fig. 1 un diagrama de flujo de un procedimiento para clasificar información en una primera clase o una segunda clase, de acuerdo con un ejemplo de realización;

La Fig. 2a vistas esquemáticas de un conjunto de datos con datos de una primera clase y datos de una segunda clase, así como resultados de clasificación de un ámbito de datos, que se ponen a disposición con un procedimiento con dos métodos de clasificación y comparativamente con un procedimiento con solo un método de clasificación, tras un primer paso de clasificación, para la ilustración de que con el procedimiento con dos métodos de clasificación se requiere menos respuesta que con el procedimiento con solo un método de clasificación;

La Fig. 2b vistas esquemáticas de un conjunto de datos con datos de una primera clase y datos de una segunda clase, así como resultados de clasificación de un ámbito de datos, que se ponen a disposición con un procedimiento con dos métodos de clasificación y comparativamente con un procedimiento con solo un método de clasificación, tras un segundo paso de clasificación, para la ilustración de que con el procedimiento con dos métodos de clasificación se requiere menos respuesta que con el procedimiento con solo un método de clasificación;

La Fig. 2c vistas esquemáticas de un conjunto de datos con datos de una primera clase y datos de una segunda clase, así como resultados de clasificación de un ámbito de datos, que se ponen a disposición con un procedimiento con dos métodos de clasificación y comparativamente con un procedimiento con solo un método de clasificación, tras un tercer paso de clasificación, para la ilustración de que con el procedimiento con dos métodos de clasificación se requiere menos respuesta que con el procedimiento con solo un método de clasificación;

La Fig. 3a vistas esquemáticas de un conjunto de datos con datos de una primera clase y datos de una segunda clase, así como resultados de clasificación de un ámbito de datos, que se ponen a disposición con un procedimiento con dos métodos de clasificación y comparativamente con un procedimiento con solo un método de clasificación, tras un primer paso de clasificación, para la ilustración de que con el procedimiento con dos métodos de clasificación se logra una mayor precisión que con el procedimiento con solo un método de clasificación;

La Fig. 3b vistas esquemáticas de un conjunto de datos con datos de una primera clase y datos de una segunda clase, así como resultados de clasificación de un ámbito de datos, que se ponen a disposición con un procedimiento con dos métodos de clasificación y comparativamente con un procedimiento con solo un método de clasificación, tras un segundo paso de clasificación, para la ilustración de que con el procedimiento con dos métodos de clasificación se logra una mayor precisión que con el procedimiento con solo un método de clasificación;

La Fig. 3c vistas esquemáticas de un conjunto de datos con datos de una primera clase y datos de una segunda clase, así como resultados de clasificación de un ámbito de datos, que se ponen a disposición con un procedimiento con dos métodos de clasificación y comparativamente con un procedimiento con solo un método de clasificación, tras un tercer paso de clasificación, para la ilustración de que con el procedimiento con dos métodos de clasificación se logra una mayor precisión que con el procedimiento con solo un método de clasificación; y

La Fig. 4 una vista esquemática de un procesador de clasificación para clasificar una información en una primera clase o una segunda clase, de acuerdo con un ejemplo de realización de la presente invención.

En la siguiente descripción de los ejemplos de realización de la presente invención se proveen en las figuras los mismos o elementos de igual actuación con las mismas referencias, de modo que su descripción puede reemplazarse entre sí.

Las reivindicaciones están limitadas a la clasificación de datos de sensor para la identificación de errores en instalaciones técnicas. Otros ámbitos de aplicación divulgados en los ejemplos de uso, del procedimiento de clasificación, no forman parte de la invención y son únicamente para fines ilustrativos.

La Fig. 1 muestra un diagrama de flujo de un procedimiento 100 para clasificar información en una primera clase o una segunda clase. El procedimiento 100 comprende un paso 102 del empleo de un primer método de clasificación en la información para asignar la información a la primera clase cuando la información cumple con criterios de clasificación de la primera clase, y para asignar la información a la segunda clase cuando la información no cumple con los criterios de clasificación de la primera clase. El procedimiento 100 comprende un paso 106 del empleo de un segundo método de clasificación en la información para asignar la información a la segunda clase cuando la información cumple con criterios de clasificación de la segunda clase, y para asignar la información a la primera clase cuando la información no cumple con los criterios de clasificación de la segunda clase. El procedimiento 100 comprende además de ello un paso 108 de la actualización de los criterios de clasificación de al menos uno de los dos métodos de clasificación en caso de una asignación diferente de la información mediante los dos métodos o al alcanzarse una cantidad predeterminada de asignaciones diferentes entre sí de informaciones mediante los dos métodos de clasificación. A este respecto la primera clase y la segunda clase son diferentes.

En ejemplos de realización, el procedimiento 100 puede clasificar datos (por ejemplo, informaciones sobre un correo electrónico (emisor, recepción, asunto, etc.), una instalación técnica (temperatura, presión, posición de válvulas, etc.), o un cuadro clínico (síntomas, edad, valores sanguíneos, etc.)). El procedimiento 100 puede clasificar naturalmente también datos (por ejemplo, informaciones sobre un correo electrónico (emisor, recepción, asunto, etc.), una instalación técnica (temperatura, presión, posición de válvulas, etc.), o un cuadro clínico (síntomas, edad, valores sanguíneos, etc.)) de un conjunto de datos (por ejemplo, de un conjunto de informaciones sobre correos electrónicos, instalaciones técnicas o cuadros clínicos), pudiendo clasificarse los datos del conjunto de datos individualmente mediante el procedimiento (por ejemplo, cada correo electrónico del conjunto de correos electrónicos se clasifica individualmente).

En ejemplos de realización el primer método de clasificación y el segundo método de clasificación pueden ser complementarios entre sí. El primer método de clasificación puede estar configurado a este respecto (por ejemplo, ser adecuado o estar entrenado) para identificar informaciones, las cuales forman parte de la primera clase, mientras que el segundo método de clasificación puede estar configurado (por ejemplo, ser adecuado o estar entrenado) para identificar informaciones, las cuales forman parte de la segunda clase. Las informaciones no identificadas pueden asignarse a este respecto mediante el correspondiente método de clasificación a la correspondiente otra clase.

El primer método de clasificación y el segundo método de clasificación pueden ser, por ejemplo, diferentes, de modo que el primer método de clasificación identifica informaciones, las cuales forman parte de la primera clase, y el segundo método de clasificación identifica informaciones, las cuales forman parte de la segunda clase. El primer método de clasificación puede ser, por ejemplo, un método de identificación de valores atípicos, mientras que el segundo método de clasificación puede ser un método basado en reglas.

El primer método de clasificación y el segundo método de clasificación pueden ser, naturalmente también, iguales, diferenciarse, no obstante, en el entrenamiento, de modo que el primer método de clasificación identifica informaciones, las cuales forman parte de la primera clase, y el segundo método de clasificación identifica informaciones, las cuales forman parte de la segunda clase. Ambos métodos de clasificación pueden ser, por ejemplo, métodos de identificación de valores atípicos o métodos basados en reglas.

El procedimiento 100 puede aprovechar de este modo una combinación de, por ejemplo, diferentes métodos de clasificación, por ejemplo, métodos del aprendizaje automático, pudiendo integrarse también, por ejemplo, conocimiento experto. Mediante la actualización (Update) de cada método mediante respuesta (Feedback) durante el uso, puede mejorarse cada vez más la precisión durante el uso y los métodos pueden reaccionar a modificaciones en las condiciones marco.

En lo sucesivo se describen a modo de ejemplo dos planteamientos complementarios para implementar métodos de clasificación (que diferencian dos clases).

El primer planteamiento se basa en conocimiento sobre la pertenencia de clase a la clase 1 (por ejemplo, "datos normales", en lo sucesivo denominados datos N), siendo asignados todos los datos, los cuales no cumplen los criterios de la clase 1, automáticamente a la clase 2 (por ejemplo, "datos erróneos", denominados en lo sucesivo como datos F). A la inversa, el segundo planteamiento se basa en conocimiento sobre la pertenencia de clase a la clase 2, asignándose automáticamente todos los datos, los cuales no cumplen con los criterios de la clase 2, a la clase 1. En los casos de empleo típicos (por ejemplo, identificación de spam, identificación de tumores, identificación de errores) es importante extraer mediante filtrado pocos datos de la pertenencia de clase 2 (datos erróneos) de muchos datos de la pertenencia de clase 1 (datos normales). Por este motivo los dos planteamientos mencionados arriba pueden diferenciarse claramente entre sí: en el primer caso se genera típicamente un número relativamente grande de resultados "falso positivo" (clase 1 se clasifica como clase 2), mientras que en el segundo caso se genera un número relativamente grande de resultados "falso negativo" (clase 2 se clasifica como clase 1). En dependencia del caso de uso se tolera mejor una o la otra desventaja. En el caso ideal un método de clasificación debería presentar una tasa lo más reducida posible de falso positivo (sin especificidad) y al mismo tiempo una tasa lo más reducida posible de falso negativo (alta sensibilidad).

El procedimiento 100 puede basarse a modo de ejemplo en una combinación de los dos planteamientos descritos arriba. Opcionalmente puede incluirse (Feedback) también conocimiento sobre las pertenencias de clase, el cual puede obtenerse durante el uso, en las mejoras continuas de los correspondientes métodos. La ventaja en la combinación de dos métodos (complementarios) consiste, en comparación con un único método con actualización continua, en que en general se requiere menos respuesta para alcanzar una alta precisión, tal como se describe a continuación mediante la Fig. 2. Mediante una combinación de dos métodos complementarios existe además de ello la posibilidad de identificar tanto resultados falso positivo, como también falso negativo, de cada método individual, y reducir mediante respuesta, tal como será descrito con mayor detalle mediante la Fig. 3.

La Fig. 2a muestra en el lado izquierdo una vista esquemática de un conjunto de datos 120 con datos 122 de una primera clase (o datos 122 de primera clase, por ejemplo, datos normales (N)) y datos 124 de una segunda clase (o datos 124 de segunda clase, por ejemplo, datos erróneos (F)), así como tras una fase de inicialización a modo de ejemplo una zona 126 del conjunto de datos 120, que se identifica mediante el primer método de clasificación (M1) como perteneciente a la primera clase, y una zona 128 del conjunto de datos 120 que se identifica mediante el segundo método de clasificación (M2) como perteneciente a la segunda clase, y una zona (zona de empleo) 130 de datos del conjunto de datos 120 en el cual se emplea el procedimiento 100 con los dos métodos de clasificación.

En la Fig. 2a (y también en las Figs. 2b y 2c) se indican a este respecto los resultados de clasificación del procedimiento 100 para las correspondientes zonas del conjunto de datos 120 entre paréntesis, indicando en los paréntesis un primer valor el resultado de clasificación del primer método de clasificación, un segundo valor el resultado de clasificación del segundo método de clasificación y un tercer valor el resultado de clasificación real (o el resultado de clasificación teórico). Se subrayan aquellas zonas, las cuales pasan mediante respuesta a la actualización de los métodos de clasificación.

Tal como puede verse en la Fig. 2a en el lado izquierdo, se indica la zona 132 de los datos 122 de primera clase (por ejemplo, datos normales) del conjunto de datos 120 dentro de la zona de empleo 130, no obstante, fuera de la zona 126 del conjunto de datos 120 que se identifica mediante el primer método de clasificación como perteneciente a la primera clase, con (F,N,N), es decir, el primer método de clasificación asigna los datos de la zona 132 del conjunto de datos 120 a la segunda clase de datos (por ejemplo, datos erróneos), mientras que el segundo método de clasificación asigna los datos de la zona 132 del conjunto de datos 120 a la primera clase de datos (por ejemplo, datos normales). Efectivamente los datos de esta zona 132 del conjunto de datos 120 deberían haberse asignado, sin embargo, a la primera clase de datos (por ejemplo, datos normales), de modo que el resultado de clasificación del primer método de clasificación es incorrecto y por lo tanto el primer método de clasificación (o los criterios de clasificación del primer método de clasificación) ha de adaptarse en un paso de entrenamiento posterior a la fase de actualización.

La zona 134 de los datos 122 de primera clase (por ejemplo, datos normales) dentro de la zona de empleo 130 y dentro de la zona 126 del conjunto de datos 120, que se identifica mediante el primer método de clasificación como perteneciente a la primera clase de datos (por ejemplo, datos normales), se indica con (N,N,N), es decir, el primer método de clasificación asigna los datos de la zona 134 del conjunto de datos 120 a la primera clase de datos (por ejemplo, datos normales), y también el segundo método de clasificación asigna los datos de la zona 134 del conjunto de datos 120 a la primera clase de datos (por ejemplo, datos normales). Los datos de la zona 134 del conjunto de datos 120 deberían haberse asignado también a la primera clase, de modo que los resultados de clasificación de ambos métodos de clasificación son correctos.

La zona 136 de los datos 124 de segunda clase (por ejemplo, datos erróneos) del conjunto de datos 120 dentro de la zona de empleo 130, se indica con (F,N,F), es decir, el primer método de clasificación asigna los datos de la zona 136 del conjunto de datos 120 a la segunda clase de datos (por ejemplo, datos erróneos), mientras que el segundo método de clasificación asigna los datos de la zona 136 del conjunto de datos 120 a la primera clase de datos (por ejemplo, datos normales). Efectivamente los datos de la zona 136 del conjunto de datos 120 deberían haberse asignado a la segunda clase de datos (por ejemplo, datos erróneos), de modo que el resultado de clasificación del segundo método de clasificación es incorrecto y por lo tanto el segundo método de clasificación (o los criterios de clasificación del segundo método de clasificación) ha de adaptarse en un paso de entrenamiento posterior a la fase de actualización.

Para la comparación se muestra en la Fig. 2a en el lado derecho además una vista esquemática del mismo conjunto de datos 120 con los datos 122 de la primera clase (por ejemplo, datos normales) y los datos 124 de la segunda clase (por ejemplo, datos erróneos), así como tras una fase de inicialización a modo de ejemplo una zona 140 del conjunto de datos, que es identificado mediante un único método de clasificación (M1) como perteneciente a la primera clase de datos (por ejemplo, datos normales), y una zona (zona de empleo) 130 de datos del conjunto de datos, en la que se usa un procedimiento convencional con solo un único método de clasificación.

En la Fig. 2a (y también en las Figs. 2b y 2c) se indican además de ello para las correspondientes zonas los resultados de clasificación del procedimiento convencional entre paréntesis, indicando en los paréntesis un primer valor el resultado de clasificación del único método de clasificación y un segundo valor el resultado de clasificación real (o resultado de clasificación teórico).

De este modo la zona 142 de los datos 122 de primera clase (por ejemplo, datos normales) del conjunto de datos 120 dentro de la zona de empleo 130, sin embargo, fuera de la zona 140 de datos, que es identificada por el único método de clasificación como perteneciente a la primera clase de datos (por ejemplo, datos normales), se indica con (F,N), es decir, el único método de clasificación asigna los datos de la zona 142 del conjunto de datos 120 a la segunda clase (por ejemplo, datos erróneos). Efectivamente los datos de la zona 142 del conjunto de datos 120 deberían haberse asignado, sin embargo, a la primera clase de datos (por ejemplo, datos normales), de modo que el resultado de clasificación del único método de clasificación es incorrecto y por lo tanto el único método de clasificación (o los criterios de clasificación del único método de clasificación) ha de adaptarse en un paso de entrenamiento posterior a la fase de actualización.

La zona 144 de los datos 122 de primera clase (por ejemplo, datos normales) dentro de la zona de empleo 130 y dentro de la zona 140 de datos, que se identifica mediante el único método de clasificación como perteneciente a la primera clase de datos (por ejemplo, datos normales), se indica con (N,N), es decir, el único método de clasificación asigna los datos de la zona 144 del conjunto de datos 120 a la primera clase de datos (por ejemplo, datos normales). Los datos de la zona 144 del conjunto de datos 120 deberían haberse asignado también a la primera clase de datos (por ejemplo, datos normales), de modo que el resultado de clasificación del único método de clasificación es correcto.

La zona 146 de los datos 124 de segunda clase (por ejemplo, datos erróneos) del conjunto de datos 120 dentro de la zona de empleo 130 se indica con (F,F), es decir, el único método de clasificación asigna los datos de la zona 146 del conjunto de datos 120 a la segunda clase de datos (por ejemplo, datos erróneos). Los datos de la zona 136 del conjunto de datos 120 deberían haberse asignado también a la segunda clase de datos (por ejemplo, datos erróneos), de modo que el resultado de clasificación del único método de clasificación es correcto.

La Fig. 2b muestra en el lado izquierdo una vista esquemática del conjunto de datos 120 con los datos 122 de la primera clase (por ejemplo, datos normales) y los datos 124 de la segunda clase (por ejemplo, datos erróneos), así como tras un primer paso de entrenamiento de la fase actualización a modo de ejemplo una zona 126 de datos, la cual es identificada por el primer método de clasificación ahora como perteneciente a la primera clase de datos (por ejemplo, datos normales), y una zona 128 de datos, la cual es identificada por el segundo método de clasificación ahora como perteneciente a la segunda clase de datos (por ejemplo, datos erróneos) y una zona (zona de empleo) 130 de datos del conjunto de datos 120 en el cual se emplea el procedimiento 100.

Tal como puede verse en la Fig. 2b, se actualizaron los dos métodos de clasificación (o los criterios de clasificación de los dos métodos de clasificación) basándose en los anteriores resultados de clasificación. En detalle, el primer método de clasificación (o los criterios de clasificación del primer método de clasificación) puede actualizarse basándose en la zona 132 identificada incorrectamente con anterioridad del conjunto de datos 120, de modo que el primer método de clasificación identifica esta zona 132 del conjunto de datos 120 ahora como datos de la primera clase 122. Además de ello, el segundo método de clasificación (o los criterios de clasificación del segundo método de clasificación) puede actualizarse basándose en la zona 136 identificada incorrectamente con anterioridad del conjunto de datos 120, de modo que el segundo método de clasificación identifica esta zona 136 del conjunto de datos 120 ahora como datos de la segunda clase 122. La zona 126 del conjunto de datos 120 que se identifica por parte del primer método de clasificación como perteneciente a la primera clase datos (por ejemplo, datos normales), de este modo ha crecido en comparación con la Fig. 2a. Del mismo modo la zona 128 del conjunto de datos 120 que se identifica por parte del segundo método de clasificación como perteneciente a la segunda clase datos (por ejemplo, datos erróneos), ha crecido en comparación con la Fig. 2a.

Tras el primer paso de actualización se indica en la Fig. 2a la zona 132 de los datos 122 de primera clase (por ejemplo, datos normales) del conjunto de datos 120 dentro de la zona de empleo 130, no obstante, fuera de la zona 126 de datos, que se identifica ahora mediante el primer método de clasificación como perteneciente a la primera clase de datos (por ejemplo, datos normales), con (F,N,N), es decir, el primer método de clasificación asigna los datos de la zona 132 del conjunto de datos 120 a la segunda clase de datos (por ejemplo, datos erróneos), mientras que el segundo método de clasificación asigna los datos de la zona 132 del conjunto de datos 120 a la primera clase de datos (por ejemplo, datos normales). Efectivamente los datos de la zona 132 del conjunto de datos 120 deberían haberse asignado a la primera clase de datos (por ejemplo, datos normales), de modo que el resultado de clasificación del primer método de clasificación es incorrecto y por lo tanto el primer método de clasificación (o los criterios de clasificación del primer método de clasificación) ha de adaptarse en un paso de entrenamiento posterior a la fase de actualización.

La zona 134 de los datos 122 de primera clase dentro de la zona de empleo 130 y dentro de la zona 126 de datos, que se identifica mediante el primer método de clasificación ahora como perteneciente a la primera clase de datos (por ejemplo, datos normales), se indica con (N,N,N), es decir, el primer método de clasificación asigna los datos de la zona 134 del conjunto de datos 120 a la primera clase de datos (por ejemplo, datos normales), y también el segundo método de clasificación asigna los datos de la zona 134 del conjunto de datos 120 a la primera clase de datos (por ejemplo, datos normales). Los datos de la zona 134 del conjunto de datos 120 deberían haberse asignado también a la primera clase de datos (por ejemplo, datos normales), de modo que los resultados de clasificación de ambos métodos de clasificación son correctos.

La zona 136 de los datos 124 de segunda clase (por ejemplo, datos erróneos) del conjunto de datos 120 dentro de la zona de empleo 130 y fuera de las zonas 128 de los datos, que se identifican ahora mediante el segundo método de clasificación ahora de modo correcto como pertenecientes a la segunda clase, se indica con (F,N,F), es decir, el primer método de clasificación asigna los datos de esta zona 136 del conjunto de datos 120 a la segunda clase (datos erróneos), mientras que el segundo método de clasificación asigna los datos de esta zona 136 del conjunto de datos 120 a las primeras clases (datos normales). Efectivamente los datos de la zona 136 del conjunto de datos 120 deberían haberse asignado a la segunda clase (datos erróneos), de modo que el resultado de clasificación del segundo método de clasificación es incorrecto y por lo tanto el segundo método de clasificación (o los criterios de clasificación del segundo método de clasificación) ha de adaptarse en un paso de entrenamiento posterior a la fase de actualización.

La zona 138 de los datos de segunda clase (por ejemplo, datos erróneos) dentro de la zona de empleo 130 y dentro de las zonas 128 de los datos, que se identifican mediante el segundo método de clasificación ahora correctamente como pertenecientes a la segunda clase de datos (por ejemplo, datos normales), se indica con (F,F,F), es decir, el primer método de clasificación asigna los datos de la zona 138 del conjunto de datos 120 a la segunda clase de datos (por ejemplo, datos erróneos), y también el segundo método de clasificación asigna los datos de la zona 138 del conjunto de datos 120 a la segunda clase de datos (por ejemplo, datos erróneos). Los datos de la zona 138 del conjunto de datos 120 deberían haberse asignado también a la segunda clase de datos, de modo que los resultados de clasificación de ambos métodos de clasificación son correctos.

Para la comparación se muestra en la Fig. 2b en el lado derecho además una vista esquemática del mismo conjunto de datos 120 con los datos 122 de primera clase (por ejemplo, datos normales) y los datos 124 de segunda clase (por ejemplo, datos erróneos), así como tras un primer paso de entrenamiento de la fase de entrenamiento a modo de ejemplo una zona 140 de datos, que es identificada mediante el único método de clasificación ahora como perteneciente a la primera clase de datos (por ejemplo, datos normales), y una zona (zona de empleo) 130 de datos del conjunto de datos 120, en la que se usa el procedimiento convencional con el único método de clasificación.

Tal como puede verse en la Fig. 2b en el lado derecho, el único método de clasificación se adaptó basándose en la zona 142 identificada incorrectamente con anterioridad del conjunto de datos 120, de modo que el único método de clasificación identifica esta zona 142 del conjunto de datos 120 ahora como datos de la primera clase 122. En comparación con el procedimiento 100 resulta, no obstante, un esfuerzo adicional, que se caracteriza en la Fig. 2b como zona 150 gris (sombreada). En detalle, entra en juego el esfuerzo adicional en el siguiente paso de actualización, dado que entonces la zona 146 (incluida 150) se usa para la actualización, mientras en el lado izquierdo solo se usa 136 (sin 128), una zona más pequeña.

Tras el primer paso de actualización la zona 142 de los datos 122 de primera clase (por ejemplo, datos normales) del conjunto de datos 120 dentro de la zona de empleo 130, sin embargo, fuera de la zona 140 del conjunto de datos 120, que es identificada por el único método de clasificación como perteneciente a la primera clase (por ejemplo, datos normales), se indica con (F,N), es decir, el único método de clasificación asigna los datos de la zona 142 del conjunto de datos 120 a la segunda clase (datos erróneos). Efectivamente los datos de esta zona 142 del conjunto de datos 120 deberían haberse asignado, sin embargo, a la primera clase (por ejemplo, datos normales), de modo que el resultado de clasificación del único método de clasificación es incorrecto y por lo tanto el único método de clasificación (o los criterios de clasificación del único método de clasificación) ha de adaptarse en un paso de entrenamiento posterior a la fase de actualización.

La zona 144 de los datos 122 de primera clase (por ejemplo, datos normales) dentro de la zona de empleo 130 y dentro de la zona 140 del conjunto de datos 120, que se identifica mediante el único método de clasificación como perteneciente a la primera clase (por ejemplo, datos normales), se indica con (N,N), es decir, el único método de clasificación asigna los datos de la zona 144 del conjunto de datos 120 a la primera clase de datos (por ejemplo, datos normales). Los datos de esta zona 144 del conjunto de datos 120 deberían haberse asignado también a la primera clase (por ejemplo, datos normales), de modo que el resultado de clasificación del único método de clasificación es correcto.

La zona 146 de los datos 124 de segunda clase (por ejemplo, datos erróneos) del conjunto de datos 120 dentro de la zona de empleo 130 se indica con (F,F), es decir, el único método de clasificación asigna los datos de esta zona 146 del conjunto de datos 120 a la segunda clase de datos (por ejemplo, datos erróneos). Los datos de esta zona 146 del conjunto de datos 120 deberían haberse asignado también a la segunda clase de datos (por ejemplo, datos erróneos), de modo que el resultado de clasificación del único método de clasificación es correcto.

La Fig. 2c muestra en el lado izquierdo una vista esquemática del conjunto de datos 120 con los datos 122 (N) de la primera clase (por ejemplo, datos normales) y los datos 124 (F) de la segunda clase (por ejemplo, datos erróneos), así como tras un segundo paso de entrenamiento de la fase de actualización a modo de ejemplo una zona 126 (M1) de datos, la cual es identificada por el primer método de clasificación ahora como perteneciente a la primera clase de datos (por ejemplo, datos normales), y zonas (M2) de datos, las cuales son identificadas por el segundo método de clasificación ahora como pertenecientes a la segunda clase de datos (por ejemplo, datos erróneos).

Tal como puede verse en la Fig. 2c, se actualizaron los dos métodos de clasificación (o los criterios de clasificación de los dos métodos de clasificación) basándose en los anteriores resultados de clasificación. En detalle, el primer método de clasificación (o los criterios de clasificación del primer método de clasificación) puede haberse actualizado basándose en la zona 132 identificada incorrectamente con anterioridad del conjunto de datos 120, de modo que el primer método de clasificación identifica esta zona 132 del conjunto de datos 120 ahora como datos de la primera clase 122. Además de ello, el segundo método de clasificación (o los criterios de clasificación del segundo método de clasificación) puede haberse actualizado basándose en la zona 136 identificada incorrectamente con anterioridad del conjunto de datos 120, de modo que el segundo método de clasificación identifica esta zona 136 del conjunto de datos 120 ahora como datos de la segunda clase 122. La zona 126 (M1) del conjunto de datos 120 que se identifica por parte del primer método de clasificación como perteneciente a la primera clase, de este modo ha crecido en comparación con la Fig. 2b. Del mismo modo la zona 128 (M2) del conjunto de datos 120 que se identifica por parte del segundo método de clasificación como perteneciente a la segunda clase, ha crecido en comparación con la Fig. 2b.

Para la comparación se muestra en la Fig. 2c en el lado derecho además de ello una vista esquemática del mismo conjunto de datos 120 con los datos 122 de primera clase (por ejemplo, datos normales) y los datos 124 de segunda clase (por ejemplo, datos erróneos), así como, tras un segundo paso de actualización, a modo de ejemplo una zona 140 (M1) del conjunto de datos, que es identificado por el único método de clasificación ahora como perteneciente a la primera clase.

Tal como puede verse en la Fig. 2c en el lado derecho, el único método de clasificación se adaptó basándose en la zona 142 identificada incorrectamente con anterioridad del conjunto de datos 120, de modo que el único método de clasificación identifica esta zona 142 del conjunto de datos 120 ahora como datos de la primera clase 122.

Dicho con otras palabras, las Figs. 2a a 2c muestran una ilustración del mecanismo de actualización mediante respuesta en caso de una combinación de dos métodos M1 y M2. La totalidad del espacio de estado del sistema puede comprender a modo de ejemplo una determinada proporción de estados "erróneos" (F) y estados "normales" (N). Al inicio puede usarse un conjunto de datos N conocido para el entrenamiento de M1 y dado el caso un conjunto de datos F o reglas conocidas de conocimiento experto para la inicialización de M2. El empleo de los dos métodos se produce sobre datos desconocidos (zona enmarcada por líneas discontinuas) 130. En caso de que la clasificación de M1 no se corresponda con la clasificación de M2 (zonas subrayadas 132, 136, 142, 146) pueden usarse informaciones adicionales (por ejemplo, conocimiento experto) a través de una respuesta para la adaptación de uno o de ambos métodos. Durante el empleo y mediante respuesta continua M1 y M2 pueden adaptarse continuamente, requiriéndose siempre menos respuesta, hasta que finalmente en el caso ideal se clasifica correctamente la totalidad del espacio de estados.

A partir de la actualización 2 (segundo paso de actualización) vale la pena el empleo de una combinación de métodos complementarios (lado izquierdo en las Figs. 2a a 2c) en comparación con un único método (lado derecho en las Figs.

2a a 2c), dado que para un único método se requiere más respuesta (zona gris (sombreada)). En el caso de un único método del tipo M1 se recupera a este respecto respuesta para todos los resultados F, dado que la cantidad de los resultados falso positivo tiende a ser alto. En el caso de un único método del tipo M2 (no representado) se recuperó respuesta para todos los resultados N, dado que la cantidad de los resultados falso negativo tiende a ser alto.

En comparación con las Figs. 2a a 2c se muestra en las Figs. 3a a 3c un caso, en el cual el primer método de clasificación (M1) clasifica a modo de ejemplo una zona 127 de datos de la segunda clase (por ejemplo, datos erróneos) erróneamente como datos de la primera clase (por ejemplo, datos normales).

Como resultado de clasificación se indica para esta zona 127 en la Fig. 3a (N,N,F), es decir, el primer método de clasificación asigna los datos de la zona 127 a la primera clase de datos (por ejemplo, datos normales) y también el segundo método de clasificación asigna los datos de la zona 127 a la primera clase de datos (por ejemplo, datos normales). Efectivamente se trata, no obstante, en el caso de los datos de la zona 127 de datos de la segunda clase (por ejemplo, datos erróneos), de modo que el resultado de clasificación de ambos métodos de clasificación es incorrecto. En correspondencia con ello ambos métodos de clasificación (o los criterios de clasificación de ambos métodos de clasificación) han de adaptarse en un posterior (iterativo) paso de actualización.

El procedimiento de clasificación convencional ofrece en este caso para la zona 141 como resultado de clasificación (N,F), es decir, el único método de clasificación asigna los datos de la zona 127 a la primera clase de datos (por ejemplo, datos normales). Efectivamente se trata, no obstante, en el caso de los datos de la zona 127 de datos de la segunda clase (por ejemplo, datos erróneos), de modo que el resultado de clasificación del único método de clasificación es incorrecto.

Tal como puede verse en la Fig. 3b en el lado izquierdo, se indica tras la adaptación para la zona 127 como resultado de clasificación (N,F,F), es decir, el primer método de clasificación continúa asignando los datos de la zona 127 a la primera clase de datos (por ejemplo, datos normales, mientras que el segundo método de clasificación asigna los datos de la zona 127 ya a la segunda clase de datos (por ejemplo, datos erróneos). De este modo el resultado de clasificación del primer método de clasificación continúa siendo incorrecto, de modo que el primer método de clasificación (o los criterios de clasificación del primer método de clasificación) ha de adaptarse en un posterior paso de actualización.

También el procedimiento de clasificación convencional ofrece aún en la Fig. 3b para la zona 141 como resultado de clasificación (N,F), es decir, el único método de clasificación asigna los datos de la zona 127 a la primera clase de datos (por ejemplo, datos normales). Efectivamente se trata, no obstante, en el caso de los datos de la zona 127 de datos de la segunda clase (por ejemplo, datos erróneos), de modo que el resultado de clasificación del único método de clasificación es incorrecto. No se produce una adaptación (zona no subrayada), dado que solo se recupera respuesta para resultados F.

Dicho con otras palabras, las Figs. 3a a 3c muestran una ilustración del mecanismo de actualización mediante respuesta. Las Figs. 3a a 3c muestran en detalle una contraposición del modo de proceder para una combinación de dos métodos complementarios en comparación con un único método. A diferencia de las Figs. 2a a 2c se representa en este caso el caso de que M1 genera resultados falso negativo. Una corrección de M1 no es posible al usarse un único método (lado derecho en las Figs. 3a a 3c). Una combinación de dos métodos complementarios posibilita, no obstante, una correspondiente adaptación (véase la Fig. 3c). De forma análoga puede producirse una corrección de M2, para el caso de que M2 genere resultados falso positivo.

En lo sucesivo se describen implementaciones a modo de ejemplo del primer método de clasificación y del segundo método de clasificación.

Como primer método de clasificación (método 1 (M1)) puede usarse un método para la "identificación de valores atípicos". Forman parte de ellos diferentes métodos de la Data Mining (en alemán Abbau von Daten, minería de datos) y aprendizaje automático, como regresión lineal múltiple, Clustering (en alemán Clusterbildung, análisis de grupos), modelos cualitativos, etc. Puede ser decisivo en el caso de este método que se entrena en un conjunto de datos de entrenamiento, el cual contiene exclusivamente clase 1 (datos N). En caso de necesidad pueden ajustarse los parámetros para el método usado mediante un conjunto de datos de prueba, que contiene también datos de la clase 2 (datos F).

Como segundo método de clasificación (método 2 (M2)) puede usarse un método basado en reglas, pudiendo formularse las reglas, por ejemplo, manualmente (basándose en conocimiento experto), o un método de clasificación (binario), como, por ejemplo, Support Vector Machines (en alemán Stützvektormaschinen, máquinas de vectores de soporte), árboles de decisión, regresión logística, redes neuronales, etc. También es posible un conjunto de reglas combinado a partir de reglas expertas y reglas/clasificadores de generación automatizada. Un conjunto de reglas de entrenamiento para M2 puede contener tanto datos F, como también datos N. Como método para la extracción automática de reglas de un correspondiente conjunto de datos de entrenamiento pueden usarse árboles de decisión, o bosques de decisión. Puede ser decisivo para el uso de reglas expertas, que pueden formularse basándose en errores conocidos (pertenencia a la clase 2).

En lo sucesivo se describe con mayor detalle el proceso de actualización (iterativo o continuo) del procedimiento 100 para clasificar datos.

En un primer paso puede usarse el conjunto de datos de entrenamiento, el cual contiene únicamente datos N. El primer método de clasificación (M1) pueden entrenarse en este conjunto de datos de entrenamiento. Parámetros, dado el caso necesarios, para M1 pueden o bien, en primer lugar, estimarse o determinarse mediante una validación cruzada.

En un segundo paso pueden formularse, dado el caso, errores ya conocidos, como reglas. Éstas pueden formar entonces el punto de partida para el segundo método de clasificación (M2). De lo contrario puede usarse para M2 un ajuste previo, el cual clasifica cada punto de datos como punto de datos N.

En un tercer paso pueden emplearse M1 y M2 en paralelo en un conjunto de datos desconocido (a clasificar). Para cada punto de datos del conjunto de datos desconocido, M1 y M2 pueden ofrecer respectivamente una clasificación independiente (N o F). Se determina la cantidad de los resultados que se desvían entre sí, es decir, donde la clasificación mediante M1 t a la clasificación mediante M2.

En un cuarto paso, tan pronto como la cantidad de los resultados que se desvían entre sí ha superado un determinado límite predeterminado, estos resultados pueden compararse con la clasificación (E) real, por ejemplo, por parte de un experto, usuario del sistema o de otra fuente. A continuación, M1 y M2 pueden adaptarse del siguiente modo: en caso de que la cantidad de los resultados con (M1=F,M2=N,E=N) supere una cantidad dada, puede adaptarse M1 (se adapta conjunto de datos de entrenamiento), es decir, una cantidad dada de puntos de datos extraídos al azar del conjunto de datos para M1 puede reemplazarse por una correspondiente cantidad de puntos de datos elegidos de modo aleatorio de los resultados (M1=F,M2=N,E=N).

En caso de que la cantidad de los resultados con (M1=F,M2=N,E=F) supere una cantidad dada, puede adaptarse M2 (se adapta conjunto de datos de entrenamiento), es decir, una cantidad dada de puntos de datos extraídos al azar de los datos F del conjunto de datos de entrenamiento para M2 puede reemplazarse por una correspondiente cantidad de puntos de datos elegidos de modo aleatorio de los resultados (M1=F,M2=N, E=F). En caso de que el conjunto de datos de entrenamiento M2 contenga hasta ahora solo datos N, puede añadirse una cantidad dada de puntos de datos seleccionados de modo aleatorio de los resultados (M1=F, M2=N,E=F), al conjunto de datos de entrenamiento para M2 existente. En caso de que la cantidad de los resultados con (M1=N,M2=F,E=N) supere una cantidad dada, puede adaptarse M2 (se adapta conjunto de datos de entrenamiento), es decir, se reemplaza una cantidad dada de puntos de datos extraída al azar de los datos N del conjunto de datos de entrenamiento para M2 por una correspondiente cantidad de puntos de datos seleccionados de modo aleatorio de los resultados (M1=N,M2=F,E=N).

En caso de que el conjunto de datos de entrenamiento para M2 aún no exista, puede usarse una cantidad dada de puntos de datos seleccionados de modo aleatorio de los resultados (M1=N,M2=F,E=N), como conjunto de datos de entrenamiento para M2 inicial. En caso de que la cantidad de los resultados con (M1=N,M2=F,E=F) supere una cantidad dada, puede adaptarse M1 (se adaptan parámetros), es decir, puede adaptarse una cantidad dada de puntos de datos extraída al azar de los datos F del conjunto de datos de prueba para M1 por una correspondiente cantidad de puntos de datos seleccionados de modo aleatorio de los resultados (M1=N,M2=F,E=F).

En caso de que el conjunto de datos de prueba M1 aún no exista, puede usarse una cantidad dada de puntos de datos seleccionados de forma aleatoria de los resultados (M1=N,M2=F,E=F) como conjunto de datos de prueba inicial para M1. Los parámetros opcionales pueden determinarse mediante validación cruzada incluyéndose el conjunto de datos de prueba.

En un quinto paso pueden entrenarse M1 y M2 en nuevos conjuntos de datos de entrenamiento, o con nuevos parámetros.

En un sexto paso se repiten los pasos tres a seis.

La Fig. 4 muestra una vista esquemática de un procesador de clasificación 200 para clasificar información en una primera clase o una segunda clase, de acuerdo con un ejemplo de realización de la presente invención. El procesador de clasificación 200 comprende dos etapas de clasificación 202 y 204 paralelas y una etapa de actualización 206. Una primera etapa de clasificación 202 de las dos etapas de clasificación 202 y 204 está configurada para asignar la información a la primera clase cuando la información cumple con criterios de clasificación de la primera clase, y para asignar la información a la segunda clase cuando la información no cumple con los criterios de clasificación de la primera clase. Una segunda etapa de clasificación 204 de las dos etapas de clasificación 202 y 204 está configurada para asignar la información a la segunda clase cuando la información cumple con criterios de clasificación de la segunda clase, y para asignar la información a la primera clase cuando la información no cumple con los criterios de clasificación de la segunda clase, siendo diferentes la primera clase y la segunda clase. La etapa de actualización está configurada para actualizar los criterios de clasificación de al menos una de las dos etapas de clasificación en caso de una asignación diferente de la información mediante las dos etapas de clasificación o al alcanzarse una cantidad predeterminada de asignaciones diferentes entre sí de informaciones mediante las dos etapas de clasificación.

Los ejemplos de realización logran mediante la combinación de diferentes métodos complementarios un procedimiento de clasificación (o procesador de clasificación o clasificador) con una alta robustez y precisión. La respuesta continua permite además de ello una mejora continua de la precisión durante el empleo y una adaptación a condiciones externas cambiadas o una detección de errores de nueva aparición. La principal ventaja de uso de una combinación de dos métodos complementarios consiste en que la proporción de operaciones de respuesta necesarias, en comparación con un único método, es menor y desciende durante el empleo.

Los ejemplos de realización de la presente invención pueden usarse para el filtrado de spam, identificación de tumores, identificación de fraude de tarjeta de crédito e identificación de errores en instalaciones técnicas.

En ejemplos de realización la información, la cual es clasificada a través del procedimiento 100, puede ser datos de sensor (o valores de sensor), por ejemplo, de un conjunto de datos de sensor (o valores de sensor).

En ejemplos de realización los datos se sensor pueden ser detectados por uno o varios sensores externos (por ejemplo, de una instalación técnica).

En ejemplos de realización los datos de sensor pueden ser, por ejemplo, temperaturas, presiones, flujos volumétricos o señales de control.

En ejemplos de realización puede emitirse una primera señal cuando la información se asignó a la primera clase a través de ambos métodos de clasificación. La información de la primera clase puede ser, por ejemplo, información normal (por ejemplo, datos de sensor (o valores de medición de sensor), que se encuentran dentro de un intervalo de datos de sensor predeterminado (o intervalo de valores de medición teórico)), pudiendo indicar la primera señal un estado de funcionamiento de acuerdo con el orden (por ejemplo, de la instalación técnica).

En ejemplos de realización puede emitirse una segunda señal cuando la información se asignó a la segunda clase a través de ambos métodos de clasificación. La información de la segunda clase puede ser, por ejemplo, información errónea (por ejemplo, datos de sensor (o valores de medición de sensor), que se encuentran fuera de un intervalo de datos de sensor predeterminado (o intervalo de valores de medición teórico)), pudiendo indicar la segunda señal un estado de funcionamiento erróneo (por ejemplo, de la instalación técnica).

En ejemplos de realización puede emitirse una tercera señal cuando la información se asignó a diferentes clases a través de los métodos de clasificación.

En ejemplos de realización puede aprovecharse el procedimiento para identificar e indicar errores en instalaciones técnicas (por ejemplo, instalaciones del hogar).

En ejemplos de realización pueden usarse datos de series de tiempo de sensores (por ejemplo, temperaturas, presiones, flujos volumétricos, señales de control) como datos de entrada para el procedimiento.

En ejemplos de realización pueden emitirse todos o datos de sensores seleccionados, que están asignados a un momento, como un punto de datos.

En ejemplos de realización puede clasificarse cada punto de datos mediante el procedimiento como normal, como error o como desconocido.

Ejemplos de realización la clasificación de un punto de datos como error puede indicar un error en el funcionamiento de las instalaciones técnicas, de modo que éstos pueden solucionarse.

En ejemplos de realización puede darse una clasificación como desconocida cuando los métodos complementarios en los que se basa el procedimiento proponen diferentes clasificaciones.

En ejemplos de realización pueden clasificarse puntos de datos con clasificación desconocida usándose otras informaciones (externas), como, por ejemplo, conocimiento sobre asignación de clase real.

En ejemplos de realización puede aprovecharse la clasificación real para actualizar los métodos en los cuales se basa el procedimiento y de este modo mejorarlo. La información puede ser puesta a disposición, por ejemplo, a través de la clasificación real de un usuario (administrador de instalación). Se indica, no obstante, que la actualización de los criterios de clasificación se produce a través de un algoritmo y no a través del usuario.

En ejemplos de realización puede reducirse la cantidad de los puntos de datos clasificados como desconocidos durante el empleo, reduciéndose de igual modo la cantidad de los puntos de datos clasificados incorrectamente.

En el caso de ejemplos de realización, el procedimiento permite una adaptación de la clasificación a condiciones marco cambiantes (por ejemplo, del funcionamiento de calefacción al funcionamiento de enfriamiento) y la identificación de nuevos tipos de error.

En ejemplos de realización un punto de datos de la clase desconocido puede considerarse sin información (externa) adicional (por ejemplo, por parte de un usuario) o bien siempre como error o siempre como normal.

A pesar de que algunos aspectos se han descrito en relación con un dispositivo, se entiende que estos aspectos pueden representar también una descripción del correspondiente procedimiento, de modo que un bloque o un componente de un dispositivo ha de entenderse también como un correspondiente paso de procedimiento o como una característica de un paso de procedimiento. De modo análogo a ello, aspectos, los cuales se describieron en relación con uno o más de un paso de procedimiento, representan también una descripción de un correspondiente bloqueo o detalle o característica de un correspondiente dispositivo. Algunos o todos los pasos de procedimiento pueden ser llevados a cabo por un aparato de hardware (o usándose un aparato de hardware), como, por ejemplo, un microprocesador, un ordenador programable o una conmutación electrónica. En el caso de algunos ejemplos de realización pueden llevarse a cabo algunos o varios de los pasos de procedimiento más importantes mediante un aparato de este tipo.

Una señal codificada de acuerdo con la invención, como, por ejemplo, una señal de audio o una señal de video o una señal de corriente de transporte, puede estar memorizada en un medio de memoria digital o puede transmitirse a un medio de transmisión, como, por ejemplo, un medio de transmisión inalámbrico o un medio de transmisión por cable, por ejemplo, Internet

La señal de audio codificada de acuerdo con la invención puede estar memorizada en un medio de memoria digital o puede transmitirse a un medio de transmisión, como, por ejemplo, un medio de transmisión inalámbrico o un medio de transmisión por cable, como, por ejemplo, Internet.

En dependencia de determinados requisitos de implementación pueden haber implementados ejemplos de realización de la invención en hardware o software. La implementación puede llevarse a cabo mediante el uso de un medio de memoria digital, por ejemplo, un disquete, un DVD, un disco Blu-ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, un disco duro u otra memoria magnética y óptica, en el cual hay memorizadas señales de control legibles electrónicamente, las cuales pueden interactuar o interactúan de tal modo con un sistema de ordenador programable, que se lleva a cabo el correspondiente procedimiento. Por ello el medio de memoria digital puede ser legible por ordenador.

Algunos ejemplos de realización de acuerdo con la invención comprenden por lo tanto un soporte de datos, el cual presenta señales de control legibles electrónicamente, que son capaces de interactuar de tal modo con un sistema de ordenador programable, que se lleva a cabo uno de los procedimientos que se describen en el presente documento.

En general ejemplos de realización de la presente invención pueden estar implementados como productos de programa de ordenador con un código de programa, siendo eficaz el código de programa para llevar a cabo uno de los procedimientos cuando el producto de programa de ordenador se ejecuta en un ordenador.

El código de programa puede estar, por ejemplo, también memorizado en un soporte legible por máquina.

Otros ejemplos de realización comprenden el programa de ordenador para llevar a cabo uno de los procedimientos descritos en el presente documento, estando memorizado el programa de ordenador en un soporte legible por máquina.

Dicho con otras palabras, un ejemplo de realización del procedimiento de acuerdo con la invención es de este modo un programa de ordenador, el cual presenta un código de programa para llevar a cabo un procedimiento descrito en el presente documento, cuando el programa de ordenador se ejecuta en un ordenador.

Otro ejemplo de realización del procedimiento de acuerdo con la invención es por lo tanto un soporte de datos (o un medio de memoria o un medio legible por ordenador), en el cual está grabado el programa de ordenador para llevar a cabo uno de los procedimientos descritos en el presente documento. El soporte de datos, el medio de memoria digital o el medio legible por ordenador son típicamente tangibles y/o no perecederos o no temporales.

Otro ejemplo de realización del procedimiento de acuerdo con la invención es por lo tanto un flujo de datos o una secuencia de señales, el cual o la cual representa o representan el programa de ordenador para llevar a cabo uno de los procedimientos descritos en el presente documento. El flujo de datos o la secuencia de señales puede o pueden estar configurados, por ejemplo, para ser transferidos a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.

Otro ejemplo de realización comprende una instalación de procesamiento, por ejemplo, un ordenador o un componente lógico programable, que están configurados o adaptados para llevar a cabo uno de los procedimientos descritos en el presente documento.

Otro ejemplo de realización comprende un ordenador, en el cual está instalado el programa de ordenador para llevar a cabo uno de los procedimientos descritos en el presente documento.

Otro ejemplo de realización de acuerdo con la invención comprende un dispositivo o un sistema, el cual está configurado para transmitir un programa de ordenador para llevar a cabo al menos uno de los procedimientos descritos en el presente documento a un receptor. La transmisión puede producirse, por ejemplo, electrónicamente. El receptor puede ser, por ejemplo, un ordenador, un aparato móvil, un aparato de memoria o un dispositivo parecido. El dispositivo o el sistema puede comprender, por ejemplo, un servidor de archivos para la transmisión del programa de ordenador al receptor.

En algunos ejemplos de realización puede usarse un componente lógico programable (por ejemplo, una matriz de puertas programable en campo, una FPGA) para llevar a cabo algunas o todas las funcionalidades de los procedimientos descritos en el presente documento. En algunos ejemplos de realización una matriz de puertas programable en campo puede interactuar con un microprocesador para llevar a cabo uno de los procedimientos descritos en el presente documento. En general se llevan a cabo los procedimientos en algunos ejemplos de realización por parte de un dispositivo de hardware cualquiera. Éste puede ser un hardware de uso universal, como un procesador de ordenador (CPU) o hardware específico para el procedimiento, como, por ejemplo, un ASIC.

Los dispositivos que se describen en el presente documento pueden implementarse, por ejemplo, mediante el uso de un aparato de hardware, o mediante el uso de un ordenador, o mediante el uso de una combinación de un aparato de hardware y de un ordenador.

Los dispositivos que se describen en el presente documento o cualesquiera componentes de los dispositivos que se describen en el presente documento pueden estar implementados al menos parcialmente en hardware y/o en software (programa de ordenador).

Los procedimientos que se describen en el presente documento pueden implementarse, por ejemplo, mediante el uso de un aparato de hardware, o mediante el uso de un ordenador, o mediante el uso de una combinación de un aparato de hardware y de un ordenador.

Los procedimientos que se describen en el presente documento o cualesquiera componentes de los procedimientos que se describen en el presente documento pueden ejecutarse al menos parcialmente mediante hardware y/o mediante software.

Los ejemplos de realización que se han descrito arriba representan únicamente una ilustración de los principios de la presente invención. Se entiende que modificaciones y variaciones de las disposiciones y detalles descritos en el presente documento resultarán evidentes para otros expertos en la materia. Por lo tanto, se pretende que la invención esté limitada únicamente por el alcance de la protección de las siguientes reivindicaciones y no por los detalles específicos, los cuales se han presentado en el presente documento mediante la descripción y la explicación de los ejemplos de realización.

Claims

REIVINDICACIONES

1. Procedimiento (100) implementado por ordenador para la clasificación de información en una primera clase o una segunda clase, presentando el procedimiento (100):

emplear (102) un primer método de clasificación (M1) en la información para asignar la información a la primera clase cuando la información cumple con criterios de clasificación de la primera clase, y para asignar la información a la segunda clase cuando la información no cumple con los criterios de clasificación de la primera clase; emplear (104) un segundo método de clasificación (M2) en la información para asignar la información a la segunda clase cuando la información cumple con criterios de clasificación de la segunda clase, y para asignar la información a la primera clase cuando la información no cumple con los criterios de clasificación de la segunda clase; y actualizar (106) los criterios de clasificación de al menos uno de los dos métodos de clasificación en caso de una asignación diferente de la información mediante los dos métodos de clasificación o al alcanzarse una cantidad predeterminada de asignaciones diferentes entre sí de informaciones mediante los dos métodos de clasificación (M1, M2);

siendo la primera clase y la segunda clase diferentes;

usándose el procedimiento (100) para la identificación de errores en instalaciones técnicas;

siendo la información, la cual está clasificada mediante el procedimiento (100), datos de sensor; presentando el procedimiento (100) además de ello:

emitir una primera señal cuando la información se asignó a la primera clase a través de ambos métodos de clasificación;

emitir una segunda señal cuando la información se asignó a la segunda clase a través de ambos métodos de clasificación; y

emitir una tercera señal cuando la información se asignó a diferentes clases a través de los métodos de clasificación.

2. Procedimiento implementado por ordenador según la reivindicación 1,

indicando la primera señal un estado de funcionamiento de acuerdo con el orden, de la instalación técnica; indicando la segunda señal un estado de funcionamiento erróneo de la instalación técnica.

3. Procedimiento (100) implementado por ordenador según una de las reivindicaciones 1 a 2, siendo el primer método de clasificación (M1) y el segundo método de clasificación (M2) complementarios entre sí.

4. Procedimiento (100) implementado por ordenador según una de las reivindicaciones 1 a 3, actualizándose al menos uno de los dos métodos de clasificación (M1, M2) usándose un conocimiento sobre una asignación de clase real de la información.

5. Procedimiento (100) implementado por ordenador según una de las reivindicaciones 1 a 4, siendo la información datos; o siendo la información datos de un conjunto de datos (120), clasificándose los datos del conjunto de datos (120) individualmente mediante el procedimiento (100).

6. Procedimiento (100) implementado por ordenador según una de las reivindicaciones 1 a 5, siendo el primer método de clasificación (M1) un método de identificación de valores atípicos.

7. Procedimiento (100) implementado por ordenador según la reivindicación 6, presentando el procedimiento (100): inicializar el primer método de clasificación (M1) en una fase de inicialización exclusivamente con informaciones de la primera clase.

8. Procedimiento (100) implementado por ordenador según una de las reivindicaciones 1 a 7, siendo el segundo método de clasificación (M2) un método basado en reglas.

9. Procedimiento (100) implementado por ordenador según la reivindicación 8, presentando el procedimiento (100): inicializar el segundo método de clasificación (M2) en una fase de inicialización exclusivamente con informaciones de la segunda clase o con criterios de clasificación, los cuales se basan exclusivamente en informaciones de clasificación conocidas de la segunda clase.

10. Procedimiento (100) implementado por ordenador según una de las reivindicaciones 1 a 9, reemplazándose en una fase de entrenamiento tras una fase de inicialización al menos una parte de un conjunto de informaciones de entrenamiento usado para el entrenamiento del primer método de clasificación (M1), cuando una cantidad predeterminada de informaciones que debían asignarse realmente a la primera clase se asignaron correctamente a la primera clase por parte del segundo método de clasificación (M2), por parte del primer método de clasificación (M1), no obstante, se asignaron erróneamente a la segunda clase, para actualizar los criterios de clasificación del primer método de clasificación (M1) mediante empleo nuevamente del primer método de clasificación (M1) en el conjunto reemplazado de informaciones de entrenamiento.

11. Procedimiento (100) implementado por ordenador según una de las reivindicaciones 1 a 10, reemplazándose en una fase de entrenamiento tras una fase de inicialización al menos una parte de un conjunto de informaciones de entrenamiento de la segunda clase usado para el entrenamiento del segundo método de clasificación (M2), cuando una cantidad predeterminada de informaciones que debían asignarse realmente a la segunda clase se asignaron correctamente a la segunda clase por parte del primer método de clasificación (M1), por parte del segundo método de clasificación (M2), no obstante, se asignaron erróneamente a la primera clase, para actualizar los criterios de clasificación del segundo método de clasificación (M2) mediante empleo nuevamente del segundo método de clasificación (M2) en el conjunto reemplazado de informaciones de entrenamiento.

12. Procedimiento (100) implementado por ordenador según una de las reivindicaciones 1 a 11, reemplazándose en una fase de entrenamiento tras una fase de inicialización al menos una parte de un conjunto de informaciones de entrenamiento de la primera clase usado para el entrenamiento del segundo método de clasificación (M2), cuando una cantidad predeterminada de informaciones que debían asignarse realmente a la primera clase se asignaron correctamente a la primera clase por parte del primer método de clasificación (M1), por parte del segundo método de clasificación (M2), no obstante, se asignaron erróneamente a la segunda clase, para actualizar los criterios de clasificación del segundo método de clasificación (M2) mediante empleo nuevamente del segundo método de clasificación (M2) en el conjunto reemplazado de informaciones de entrenamiento.

13. Procedimiento implementado por ordenador según una de las reivindicaciones 1 a 12, reemplazándose en una fase de entrenamiento tras una fase de inicialización al menos una parte de un conjunto de informaciones de entrenamiento usado para el entrenamiento del primer método de clasificación (M1), cuando una cantidad predeterminada de informaciones que debían asignarse realmente a la segunda clase se asignaron correctamente a la segunda clase por parte del segundo método de clasificación (M2), por parte del primer método de clasificación (M1), no obstante, se asignaron erróneamente a la primera clase, para actualizar los criterios de clasificación del primer método de clasificación (M1) mediante empleo nuevamente del primer método de clasificación (M1) con ayuda del conjunto de datos de prueba actualizado.

14. Procesador de clasificación (200) para clasificar una información en una primera clase o una segunda clase, presentando el procesador de clasificación (200):

dos etapas de clasificación (202,204) paralelas, estando configurada una primera etapa de clasificación (202) de las dos etapas de clasificación (202,204) para asignar información a la primera clase cuando la información cumple con criterios de clasificación de la primera clase y para asignar la información a la segunda clase cuando la información no cumple con los criterios de clasificación de la primera clase, estando configurada una segunda etapa de clasificación (204) de las dos etapas de clasificación (202,204) para asignar información a la segunda clase cuando la información cumple con criterios de clasificación de la segunda clase y para asignar la información a la primera clase cuando la información no cumple con los criterios de clasificación de la segunda clase, siendo la primera clase y la segunda clase diferentes; y

una etapa de actualización (206), la cual está configurada para actualizar los criterios de clasificación de al menos una de las dos etapas de clasificación (202,204) en caso de una asignación diferente de la información mediante las dos etapas de clasificación o al alcanzarse una cantidad predeterminada de asignaciones diferentes entre sí de informaciones mediante las dos etapas de clasificación;

siendo la información, la cual se clasifica mediante el procesador de clasificación (200), datos de sensor; estando configurado el procesador de clasificación (200) para emitir una primera señal cuando la información se asignó a la primera clase mediante las dos etapas de clasificación (202,204);

estando configurado el procesador de clasificación (200) para emitir una segunda señal cuando la información se asignó a la segunda clase mediante las dos etapas de clasificación (202,204); y

estando configurado el procesador de clasificación (200) para emitir una tercera señal cuando la información se asignó a diferentes clases mediante las dos etapas de clasificación (202,204).

15. Procesador de clasificación (200) según la reivindicación 14, usándose el procesador de clasificación para la identificación de errores en instalaciones técnicas.