ES2276150T3

ES2276150T3 - Sistema asociativo difuso de descripcion de objetos multimedia.

Info

Publication number: ES2276150T3
Application number: ES03790989T
Authority: ES
Inventors: Luigi Lancieri
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2002-08-30
Filing date: 2003-08-27
Publication date: 2007-06-16
Anticipated expiration: 2023-08-27
Also published as: WO2004021265A2; DE60309191D1; EP1554687A2; AU2003276329A1; ATE343178T1; WO2004021265A3; US7460715B2; DE60309191T2; FR2844079A1; US20050249418A1; FR2844079B1; EP1554687B1; AU2003276329A8

Abstract

Procedimiento de descripción automática de un objeto multimedia desconocido, en el cual se asocia el objeto desconocido con varios tipos de objetos multimedia de referencia según cada vez una probabilidad de pertenencia respectiva a cada tipo considerado (G), el procedimiento incluyendo una etapa que consiste en medir al menos una característica física del objeto desconocido (F) y compararla con medidas de las características que representan lo mejor posible los tipos de referencia, el procedimiento comprendiendo además la etapa (H) que consiste en utilizar para cada tipo al menos una relación probabilística que da una probabilidad de pertenencia al tipo considerado en función del resultado de la comparación de las características del objeto desconocido y del tipo, el procedimiento comprendiendo además la etapa que consiste en utilizar las probabilidades de pertenencia a los diferentes tipos así obtenidos en combinación con una serie de relaciones de afinidades entre tipos, de manera de elegir pertenencias que son a la vez mayoritarias en probabilidad y que se co-designan por su relación de afinidad, y de manera de excluir pertenencias que tienen una menor afinidad con los tipos elegidos.

Description

Sistema asociativo difuso de descripción de objetos multimedia.

La invención concierne a la caracterización de objetos multimedia, y en particular a las técnicas para reducir las ambigüedades del reconocimiento de objetos multimedia.

La invención concierne así, específicamente, a la descripción del contenido de ficheros multimedia asociados a los objetos.

El objetivo de la invención es específicamente proponer un procedimiento que permita describir y comparar objetos en un contexto de incertidumbre.

Prácticamente, la invención apunta por ejemplo a describir y comparar ficheros de imagen, musicales, video o de otras formas.

La misma permite responder a las interrogantes del tipo: yo deseo encontrar fragmentos de músicas que correspondan a "mis preferencias". Tal operación plantea dos problemas. El primero es modelizar las nociones como "mis preferencias" que son muy subjetivas. Numerosos trabajos han tratado ya este problema en el caso donde el objeto se beneficia de un contexto textual. Nos hemos interesado específicamente aquí en los objetos aislados sin contexto textual. Es la segunda dificultad que nos proponemos resolver, a saber extraer de un objeto aislado características que permitieran describirlo y someterlo a la comparación, el objetivo siendo obtener una caracterización semántica (por ejemplo bajo la forma de palabras claves) en términos de probabilidad.

Estos objetivos son alcanzados en el marco de la invención, gracias a un procedimiento de descripción automático de un objeto multimedia desconocido, en el cual se asocia el objeto desconocido con varios tipos de objetos multimedia de referencia según cada vez una probabilidad de pertenencia respectiva a cada tipo considerado, el procedimiento incluyendo una etapa que consiste en medir al menos una característica física en el objeto desconocido y compararla con mediciones de características que representan lo mejor posible los tipos de referencia, el procedimiento comprendiendo además la etapa que consiste en utilizar para cada tipo al menos una relación probabilística que da una probabilidad de pertenencia al tipo considerado en función del resultado de la comparación de las características del objeto desconocido y del tipo, el procedimiento comprendiendo además la etapa que consiste en utilizar las probabilidades de pertenencia a los diferentes tipos así obtenidos en combinación con una serie de relaciones de afinidades entre tipos, de manera de elegir pertenencias que son a la vez mayoritarias en probabilidad y que se co-designan por su relación de afinidad, y de manera de excluir pertenencias que tienen una menor afinidad con los tipos elegidos.

Se propone igualmente según la invención un dispositivo de descripción automático de un objeto multimedia desconocido, que comprende medios para asociar el objeto desconocido con varios tipos de objetos multimedia de referencia según cada vez una probabilidad de pertenencia respectiva al tipo considerado, el dispositivo incluyendo medios para medir al menos una característica física en el objeto desconocido y compararla con mediciones que representan lo mejor posible los tipos de referencia, el dispositivo comprendiendo además medios que utilizan para cada tipo al menos una relación probabilística que dan una probabilidad de pertenencia al tipo considerado en función del resultado de la comparación de las características del objeto desconocido y del tipo, el dispositivo comprendiendo además medios para utilizar las probabilidades de pertenencia a los diferentes tipos así obtenidos en combinación con una serie de relaciones de afinidades entre tipos, de manera de elegir pertenencias que son a la vez mayoritarias en probabilidad y que se co-designan para su relación de afinidad, y de manera de excluir pertenencias que tienen una menor afinidad con los tipos elegidos.

Otras características, objetos y ventajas de la invención aparecerán con la lectura de la descripción detallada que sigue, hecha con referencia a las figuras anexas en las que:

- las figuras 1a y 1b representan esquemáticamente modos de asociación, el primer modo en un plano llamado "de tipos", el segundo modo como modo de aprendizaje,

- la figura 2 es una sinóptica que representa diferentes etapas ejecutadas en una variante preferida de la invención,

- la figura 3 es un trazado que representa un nivel de probabilidad de pertenencia en función del nivel de ponderación de una característica física dada,

- la figura 4 es un trazado que representa una aproximación del trazado precedente,

- la figura 5 es un trazado que representa una probabilidad de pertenencia en función de un error medido en variables de entrada,

- la figura 6 es un trazado del mismo tipo de error en la variable de salida,

- la figura 7 y la figura 8 son cada una un trazado que representa una probabilidad de pertenencia en función de un error en una característica respectiva a la entrada (etapa 4 de la figura 2),

- la figura 9 es un trazado que representa una probabilidad de pertenencia en función de una media de errores medidos en dos características.

El método empleado es de una gran adaptabilidad. Tres aspectos son desarrollados a continuación, que son las redes asociativas (vínculos semánticos entre objetos de referencias), la lógica difusa (gestión de la incertidumbre) y una etapa llamada aquí "inferencia correlativa" (limitar la ambigüedad por cruzamiento de informaciones).

Contrariamente a la aproximación actual que se coloca por encima y busca más bien optimizar la precisión de la modelización de la imagen, más generalmente del objeto, nos situamos más alto en las capas. Se toma el modelo de la imagen (del sonido, etc) bruta incluso si es de mala calidad y se busca reducir la ambigüedad de la interpretación gracias a métodos de gestión de la incertidumbre (validación, lógica difusa).

La operación de descripción es preferentemente realizada comparando objetos desconocidos con objetos de características conocidas y por cruzamiento y empalme a un vector de característica asociado a una probabilidad de pertenencia. Este vector traduce la relación entre propiedades físicas o lógicas y propiedades conceptuales (ver fig. 1a, 1b).

El método descrito anteriormente apunta a la caracterización en un contexto de incertidumbre y se aplica a objetos cualquiera que sea su naturaleza (analógica, numérica, simbólica, etc). Siendo dicho esto, por razones de claridad, se restringen las explicaciones que siguen a los ficheros de tipo multimedia (por ejemplo mp3, mpeg, wav, jpg, etc). Estos objetos pueden ser por ejemplo descritos por ciertas propiedades físicas de objetos analógicos sub-yacentes (frecuencias, duración, formas típicas, etc). Además, esos mismos objetos pueden ser descritos en el registro conceptual por una tipología adecuada (música pop, jazz, película de acción, foto de auto) o un tipo preferido sin que el mismo sea precisamente referenciado (por ejemplo una mezcla de jazz y de clásica personalizada). Un primer objetivo es ejecutar una correspondencia asociativa entre el campo físico y el campo conceptual.

Las figuras 1a y 1b presentan dos modos de asociaciones. El primero (figura la) en el plano de los tipos es una asociación conceptual clásica (por ejemplo entre temas del léxico interconectados por relaciones ponderadas en función de sus proximidades semánticas). El segundo (figura 1b) es obtenido por aprendizaje entre los tipos y las características de referencias. Este tipo de arquitectura permite por validación identificar relaciones conceptuales entre características físicas o lógicas.

Por ejemplo, los tipos pueden ser palabras, las características pueden ser formas en el caso de imágenes.

La selección de las características es realizada preferentemente de una vez y por toda para un conjunto de tipos dados pero requiere experiencia. Por ejemplo un músico y un electrónico estarán en disposición de identificar las magnitudes representativas de la tipología musical (por ejemplo la frecuencia media de los 10 primeros segundos de un fragmento de música permite identificar una música de ambiente de un fragmento de hard rock). En los ejemplos que siguen se utilizarán características simplificadas para describir nuestro método.

He aquí un primer ejemplo que corresponde al caso de documentos sonoros, que permiten comprender el principio.

Para saber si un fichero musical contiene un fragmento de flauta o de cuerno (2 tipos conceptuales simples) es necesario poder acceder a la señal sonora codificada en el fichero (por ejemplo wav, mp3).

Esto es realizado por algoritmos de decodificación clásicos. La señal será analizada con herramientas adecuadas de tratamiento de la señal que podrían determinar su frecuencia (característica física simplificada para el ejemplo). Si se consideran ficheros de referencia (varios ficheros del tipo cuerno, varios ficheros del tipo flauta), se podrá determinar su frecuencia media en el caso del cuerno y en el caso de la flauta. Se podrá constatar que la frecuencia A+delta f es aquella de la flauta y la frecuencia B+delta f aquella del cuerno. Estas frecuencias así como los tipos asociados serán el modelo de referencia obtenido por un estudio estadístico en una muestra representativa. Calculando la frecuencia fi de un cierto número de ficheros que contienen sonidos de instrumentos desconocidos, se podrá determinar su pertenencia a la categoría flauta o cuerno en función de la proximidad (si fi-A < umbral entonces i se aproxima a la flauta). Es igualmente considerado que el conjunto de los ficheros de referencia de tipo "cuerno" puede contener ficheros que no contienen cuerno. La frecuencia media contiene entonces intrínsecamente un margen de error y su proximidad con la frecuencia de un fichero a analizar es analizada de manera probable, igualmente para tener cuenta del hecho que el cálculo de la media es de hecho el cálculo de una media probable (esperanza matemática).

Este ejemplo está muy simplificado ya que un fichero sonoro (es también más complicado para los ficheros vídeo) es lo más frecuentemente una agregación compleja de frecuencias diferentes en el tiempo y en el espacio.

Para resolver este problema de complejidad, se identifica preferentemente un cierto número de características frecuenciales espaciales y temporales (fijas y evolutivas) que estarán en disposición de describir en teoría cualquier señal. He aquí otro ejemplo más preciso de una definición de tales características. El análisis espectral de la señal en toda su duración permite recuperar la tasa de frecuencias altas y bajas. Se consideran solamente 10 intervalos de frecuencias (f1 a f10) repartidos en el espectro audible (20 Hz a 20 KHz) por ejemplo df1=20 Hz-500 Hz, df2=500Hz-2 KHz, df3=2kHz-5KHz etc. En la práctica el corte frecuencial tendrá en cuenta la frecuencia fundamental de los principales instrumentos. Este análisis puede ser realizado en diferentes períodos de la señal. Por ejemplo, se calcula la distribución frecuencial a espacios de diez segundos espaciados cada treinta segundos en una señal de una duración de tres minutos. Los seis conjuntos de diez intervalos frecuenciales (que se denominarán muestras) serán considerados como las características físicas de una señal del fragmento de música. Si como en el ejemplo precedente se conoce un fragmento de música de referencia "que nos gusta" (sin saber exactamente describirla en el plano conceptual - esta puede ser jazz o blues, etc). Se puede calcular la muestra de referencia y a continuación se puede aplicar a cualquier fragmento de música el cálculo de la muestra que se comparará con la muestra de referencia. En función de la proximidad física, se podrá deducir la proximidad conceptual frente a este tipo "que nos gusta". Dicho de otra forma, mientras más próximas sean las características espaciales, frecuenciales y temporales de la señal a clasificar y aquellas de la señal de referencia, más seguro se está que el fragmento a clasificar es un fragmento de ese tipo "que nos gusta".

En el caso donde se han definido varios tipos de fragmentos que nos gustan, se calcula la proximidad de las características del fragmento desconocido frente a las características de cada uno de estos tipos.

Se obtienen entonces una serie de probabilidades de pertenencia del fragmento desconocido para cada uno de estos tipos. Los tipos de fragmentos que nos gustan tienen entre sí compatibilidades o afinidades. De esta forma, algunos de estos tipos son tipos musicales próximos en términos de percepción, tales como por ejemplo un tipo "rock" o un tipo "hard rock".

Otros tipos son incompatibles tales como un tipo de "música de cámara" y un tipo "música electrónica".

Se utiliza esta red de afinidades de percepción del oído entre los diferentes tipos, así como las probabilidades de pertenencia a los diferentes tipos, para deducir una pertenencia a una categoría más grande que reagrupa una parte solamente de estos tipos que nos gustan. Se selecciona aquí llamar a esta etapa una "inferencia correlativa".

Esta pertenencia a una categoría más grande finaliza la descripción automatizada del objeto multimedia de partida desconocido.

En otros términos, se utilizan las probabilidades de pertenencia a los diferentes tipos así obtenidos en combinación con una serie de relaciones de afinidades entre tipos, afinidades representativas de la percepción humana, de manera de elegir pertenencias que son a la vez mayoritarias en probabilidad y que se co-designan por su relación de afinidad, y de manera de excluir pertenencias que tienen una menor afinidad con los tipos elegidos.

Las elecciones y exclusiones de las que se habla se concretan en el caso presente por el hecho de identificar una parte solamente (una "categoría" aquí) de los tipos que nos gustan.

Igualmente, si se utilizan varios fragmentos de referencias "que nos gustan" para calcular las características medias, se realiza un aprendizaje de las características de referencias. Estas características de referencia son una media que puede integrar fragmentos dados por error y por lo tanto esta media es una referencia "la más probable", y la proximidad de un fragmento considerado frente a esas características, es utilizado para dar una "probabilidad" de que ese fragmento nos gusta. Mientras más próximo es el fragmento de la referencia estadística, mayor es la probabilidad de que nos guste. La mejor probabilidad de que nos guste corresponde a una total similitud entre las características del fragmento considerado y la media estadística de las características del fragmento de referencia.

En el caso de documentos visuales (imagen y vídeo), la caracterización de los documentos visuales está preferentemente basada en el mismo principio que aquel de los documentos sonoros. Se trata de medir la proximidad con otros objetos según características simples. Una imagen es analizada para identificar mediante una búsqueda de contornos las formas complejas aisladas así como sus características cromáticas (media, intervalo tipo en la forma). Estas operaciones son clásicas en el arte del tratamiento de imágenes.

Como se describió precedentemente, se asocia un conjunto de tipos conceptuales a un conjunto de características físicas. Estos tipos conceptuales son por ejemplo: casa, animal, flor, etc. Las características físicas corresponden a las formas simples y a sus descripciones cromáticas.

La etapa siguiente consiste en buscar las proximidades entre formas desconocidas y formas "estadísticamente" conocidas (ver más adelante) o una media que forma una "mejor probabilidad" de que una imagen nos guste. Aquí, los tipos conceptuales son aquellos inherentes a las imágenes fijas (se adapta este conjunto en el caso de vídeos: acción, deporte, etc... información de tipo dinámica). Como en el caso de datos sonoros, el vídeo es considerado como un muestreo de varias imágenes que son tratadas aisladamente y luego contribuyendo a una caracterización estadística de la película.

Se toma aquí en cuenta una incertidumbre y una ambigüedad de los análisis. Los seres vivos toman sus decisiones en un contexto de incertidumbre, en término de probabilidad. Incluso decisiones que pueden parecernos como evidentes, responden a este principio.

Cuando se percibe una persona a lo lejos, nuestro cerebro moviliza sus funciones cognoscitivas para comparar eso que se percibe a un conjunto de características de base que se han memorizado en el pasado. Estas operaciones conducen a llegar a la conclusión de que la persona en cuestión es probablemente un amigo. Cuando se observa a esta persona más de cerca, su identidad aparece como evidente por lo tanto, los mismos mecanismos anteriores nos han conducido a una respuesta completamente probabilística. La diferencia, es que en el segundo caso, la probabilidad es mucho más importante.

Se va a describir ahora dos mecanismos utilizados en el ejemplo preferido de realización de la invención.

El primero es el tratamiento y la composición (el cálculo) de premisas aproximativas (puede ser que, hayan oportunidades, etc). La lógica difusa da un cierto número de herramientas que permiten calcular con elementos inciertos. El otro mecanismo está basado en el cruzamiento de información. Por ejemplo, si el análisis de una imagen revela una forma próxima al 75% de un camión, al 75% de una casa, a 60% de un ómnibus y al 10% de un chalet, se considera que la forma es un vehículo ya que semánticamente la categoría vehículo (camión y ómnibus) está más "co-designada" que la categoría habitación (chalet y casa). Es un ejemplo particular de lo que se denomina aquí inferencia correlativa. Esto es posible ya que los tipos conceptuales que poseen su propia red de asociación corresponden a las características lingüísticas (árbol, flor y vegetal están asociados pero de manera diferente). De partida, la búsqueda de las características y el trabajo de aproximación entre estas características y los tipos conceptuales se realizan sin tener en cuenta el nivel de asociación interno entre los tipos conceptuales. Esta asociación será utilizada para eliminar ciertas ambigüedades en las asociaciones físicas/conceptuales.

También ahí, las validaciones semánticas reflejan afinidades entre los diferentes tipos, afinidades que son tomadas en consideración en común con las probabilidades de pertenencia a cada uno de esos tipos, y que permiten establecer la pertenencia o no a una categoría.

En otros términos, para identificar en este ejemplo una categoría general de pertenencia, se utilizan las probabilidades de pertenencia a los diferentes tipos así obtenidos en combinación con una serie de relaciones de afinidades entre tipos, afinidades representativas de la percepción humana, de manera de elegir pertenencias que son a la vez mayoritarias en probabilidad y que se co-designan por su relación de afinidad, y de manera de excluir pertenencias que tengan una menor afinidad con los tipos elegidos.

Para el establecimiento de las relaciones de afinidades utilizados en esta segunda etapa aquí denominada "etapa de inferencia correlativa", se ejecuta aquí un tratamiento preliminar de una multitud de textos, en los que se revelan las ocurrencias particularmente frecuentes de dos términos cada vez en posición de proximidad en estos textos. De esta forma, la relación semántica entre "casa" y "chalet" es identificada simplemente por la presencia frecuente de esos dos términos próximos uno del otro en una serie de textos.

Al contrario, el hecho de que los términos "camión" y "chalet" no estén prácticamente jamás presentes y próximos uno del otro, permite identificar que ningún vínculo de proximidad semántica (afinidad) existe entre esas palabras.

La existencia de una afinidad es por ejemplo revelada en función del rebasamiento de un umbral de frecuencia en los textos de dos palabras de proximidad una de otra (de proximidad pero solamente distantes en un número de palabras predefinidas).

Tal tratamiento previo de una serie de textos permite automatizar el establecimiento de afinidades entre tipo. Tales afinidades son bien representativas de la percepción humana porque las mismas corresponden al sentimiento de afinidad entre tipos que puede experimentar una persona, cualquiera que sea la afinidad entre "rock" y "hard rock" para la música, o la afinidad entre "casa" y "chalet" para imágenes.

Claro está, en otros modos de realización, el tratamiento previo de una serie de objetos descriptivos o de una serie de objetos existentes permite de igual forma identificar afinidades típicas pero estadísticamente muy representadas como definiendo una relación semántica entre dos términos o dos características.

Las elecciones y exclusiones de tipos consisten simplemente aquí en identificar una parte de ellos que señala en conjunto la categoría general de pertenencia del objeto.

La constitución de la red asociativa (figura 1a, plano desde abajo) es realizada aquí por aprendizaje, como se acaba de describir a partir de la explotación de una serie de textos, en el ejemplo presente. Ahora se tratan de identificar las características estadísticas de la relación entre entrada (física, plano desde arriba) y salida (conceptual, plano desde abajo). Estas características serán utilizadas para alimentar el modelo difuso. Si se considera un conjunto de z relaciones R entre cada uno de los p tipos de referencia y una o varias n características, cada relación Rij contiene la representación estadística del conjunto de los ejemplos de esta relación proporcionados por los objetos de referencia. La relación contiene la media, el intervalo medio, min, máx, n, etc. Por ejemplo, en cien objetos de referencia la característica i del tipo j está presente sesenta veces la media de la relación Rij está en 0.6.

Para mayor claridad, se va a dar ahora un ejemplo de aplicación de una toma de decisión a partir de una aproximación difusa. El reconocimiento de contenido de imagen es aquí el ejemplo de aplicación.

El objetivo es implementar en una red asociativa relaciones entre formas y un tipo por ejemplo el tipo auto. Se limitará al marco de este ejemplo pero en la práctica se pueden tomar más características que la forma y más tipo que el simple tipo auto.

En la figura 2, la etapa A corresponde a una identificación manual de las características de referencias (por ejemplo formas, espectro medio en los 10 primeros segundos de un fragmento de música) y tipos pertinentes (trabajo de experto).

La etapa B es una recuperación automática (motor de búsqueda y aspirador Web-Internet) de objetos (por ejemplo imagen de auto) estadísticamente pertinentes que describen un tipo dado (ídem para todos los tipos definidos) a partir de palabras claves (auto, automóvil, etc).

La etapa C es una etapa de análisis del contenido de los objetos de referencias: medida de las características de referencia, análisis y segmentación de los resultados (grupos). Se utiliza una técnica de categorización clásica para la identificación de los grupos.

Estas tres etapas son realizadas para varios tipos de referencias vinculadas por una red asociativa. Esta aproximación permitirá en una etapa ulterior (Etapa H), por validación, regular ciertas ambigüedades.

La etapa D corresponde a una fuzzificación, es decir una identificación de las variables de entrada (las características) y de salida (los tipos), de las funciones y limites de pertenencia, las informaciones salidas de las etapas precedentes que permiten automatizar esta etapa.

La etapa E corresponde a una etapa de definición de las reglas de inferencias. Estas reglas son genéricas y corresponden a una composición homogénea de funciones AND/OR que vincula las entradas con las salidas.

La etapa F es una etapa de medida de las características en el objeto desconocido.

La etapa G es una etapa de desfuzzificación: evaluación del nivel de las variables de salida. Esta etapa presentada aquí en el sentido global corresponde a la desfuzzificación de cada una de las salidas. El resultado se presenta bajo la forma de una probabilidad de pertenencia del objeto desconocido a cada tipo.

La etapa H es una etapa de cruzamiento de los resultados con la ayuda de una red asociativa para limitar la ambigüedad (por ejemplo si el objeto es 50% un árbol, 50% un auto y 50% un camión entonces no es ciertamente un árbol).

Se va a describir ahora, de manera más detallada, esa sinóptica de la figura 2, en una primera etapa de definición de referencias (etapas A a C en la figura 2), se recupera un número importante de imágenes que contienen autos y se identifican los contornos de las formas con la ayuda de herramientas de soporte lógico clásicas. Estas formas son normalizadas (restablecidas a proporciones idénticas) y comparadas (referencia cartesiana) de manera de identificar grupos homogéneos (contorno superponible con error mínimo). Para cada uno de esos grupos se identifica la forma media, llamada de referencia (que puede ser una imagen cualquiera del grupo, ya que la segmentación -etapa C- asegura que los miembros de un grupo tengan una fuerte similitud) y el número de candidatos por grupo. Se plantea que las formas de referencias reagrupan la mayoría de los candidatos que describen lo mejor posible el tipo de referencia (auto). Se identifica el número óptimo de grupos con técnicas clásicas de clustering. Por ejemplo, se optimiza la relación entre el error medio intra grupos e inter grupos. El algoritmo de clustering es alimentado por la matriz de los errores forma a forma.

Se supone para la continuación del ejemplo que el número de grupos ideal es dos. Se dispone por lo tanto de dos formas medias donde cada una afecta a una probabilidad de similitud de función del % de la forma en el grupo con relación al número total de formas.

Contrariamente a la lógica binaria (una proposición es verdadera o falsa), la lógica difusa toma en cuenta el carácter "posible" de una proposición que asocia allí un cierto nivel de verosimilitud. Además de un concepto, la lógica difusa introduce métodos y un álgebra adaptada que permite manipular magnitudes difusas (aproximativas).

La primera etapa (etapa D en la figura 2) llamada de cuantificación difusa (o "fuzzificación") consiste en modelizar cada entrada del sistema por curvas que dan el grado de pertenencia a los diferentes estados del sistema posiblemente asociado a estas entradas. En nuestro caso, las entradas son las características físicas y los estados son los tipos (o asociaciones de tipos) conceptuales. El sistema siendo la red de asociación (ponderación normalizada) que existe entre las entradas y las salidas (ver figura 1a).

De esta forma, cada entrada, en función de su nivel de ponderación será representada sobre una curva de tipo sigmoideo (figura 3 o aproximada a la figura 4) que explicará su nivel de pertenencia a un tipo dado.

Sea por ejemplo una red (figura 1) donde el nivel de ponderación máxima (normalizado) es de 100. Una característica física que estará vinculada a un tipo conceptual con una ponderación de 10 será considerada como que la describe de manera poco probable. Por el contrario, una ponderación de 80 será considerada como una descripción muy pertinente.

En la figura 4, los valores min y máx obtenidos por análisis estadístico, proporcionan los umbrales más allá de los cuales la característica es considerada que no describe más el tipo (min) o que lo describe muy bien (máx).

La función de pertenencia representada en la figura 5 establece el nivel de pertenencia a cada sub-conjunto difuso en función del nivel del error entre las formas de referencia (las dos formas medias) y las formas contenidas en la imagen a analizar.

En la figura 5, el símbolo "-" representa una pertenencia poco probable. El símbolo "=" representa una pertenencia posible. El símbolo "+" representa una pertenencia muy probable.

Sim _{min} y Sim _{máx} designan respectivamente la similitud mínima y máxima calculadas forma a forma en cada grupo durante el aprendizaje. Sim _{máx} es la similitud entre las dos formas más similares y Sim _{min} la similitud entre las dos formas más diferentes en el seno de un grupo dado.

De una manera similar, se define la función de pertenencia para la variable de salida (figura 6).

Los valores Sim _{min} y Sim _{máx} describen aquí la incertidumbre mínima y máxima para la toma de decisión. Se dirá que por debajo de Sim _{min} la forma no pertenece al tipo, y que por encima de Sim _{max} la misma pertenece al tipo y que entre esos dos valores la misma pertenece al tipo con un cierto nivel de probabilidad. Por ejemplo, se puede considerar que por debajo de 20% de certeza la persona que se observa a lo lejos no es la persona que se imagina, mientras que por encima del 75%, se estima que es la persona en cuestión.

Las reglas de inferencia (etapas E y F en la figura 2: definición de las reglas de inferencia y medida), implican una continuación de operaciones lógicas y condiciones que vinculan las entradas y la salida que se puede adaptar más o menos finamente según el caso a tratar. La tabla siguiente indica los modos de composición que vinculan los dos grupos para tomar la decisión de pertenencia o no al tipo de referencia. Es necesario recordar aquí que los dos grupos, obtenidos por segmentación (etapa C) son grupos disímiles. Una pertenencia a los dos grupos no permite por lo tanto eliminar la ambigüedad concerniente a la pertenencia al tipo. Es por esta razón que se afecta un - en la tabla cuando El y E2 son +.

Las reglas de inferencia entre las entradas (el nivel de pertenencia al grupo 1 o 2) y la salida (nivel de certeza que se trata de un auto) son los siguientes. Las dos entradas estando vinculadas a la salida por una función OR (es decir el máximo de los dos valores en lógica difusa) en el caso de pocas probabilidades y de la función AND para las fuertes.

TABLA 1 Inferencias que vinculan las entradas con la salida

1

Esta tabla se interpreta como sigue:

Si (E1+ y E2+) o (E1- y E2-) o (E1- y E2=) o (E1= y E2-) entonces S-

Si la semejanza a la forma 1 y a la forma 2 es poca o si la semejanza es poca en la forma 1 y mediocre en la forma 2 o si la semejanza es mediocre en la forma 1 y poca en la 2 entonces la forma desconocida es poco probablemente un auto.

Si (E1= y E2=) o (E1+ y E2-) o (E1- y E2+) entonces S=

Si (E1+ y E2=) o (E1= y E2+) entonces S+

Se da aquí ahora un ejemplo de algoritmo de composición de las reglas de inferencias para un número de grupos cualesquiera.

Cada característica puede tomar tres estados (+, -, =) o sea, para n características, 3^{n} combinaciones posibles.

En esta etapa, se inicializan los valores S+; S-; y S= a 0.

Para cada una de las 3^{n} combinaciones:

- se identifica el signo y el valor de los elementos de la combinación;

- se calcula Min como siendo el mínimo de todos los elementos de la combinación.

- en cada combinación, se cuenta el número + y el número -.

Los resultados son entonces explotados de la manera siguiente:

- si el número de elementos "+" es inferior a 30% del número de elementos de la combinación y al menos igual a 1 elemento (se toma el valor entero más próximo a 30% (ejemplo: si 0,7 entonces se toma 1), entonces, si Min es superior al valor S+, el valor S+ es definido como siendo igual a Min;

- si el número de elementos es superior a 70%, entonces, si Min es superior al valor S=, el valor de S= es definido como siendo igual a min;

- si el número de elementos está comprendido entre 30 y 70%, entonces, si Min es superior al valor S=, el valor de S= es definido como siendo igual a Min).

La salida de este sistema (etapas G y H: desfuzzificación y cruzamiento) es de la forma: el objeto corresponde (por ejemplo) en 80% al tipo T1, en 65% al tipo T2, etc. En nuestro ejemplo, se ha limitado a un solo tipo T1=auto.

La desfuzzificación consiste en evaluar la magnitud de salida (aquí la probabilidad de pertenencia a un tipo dado). Esto es realizado proyectando el estado de las variables de entradas sobre las variables de salida a través de las reglas de inferencia. Prácticamente, se reduce (decapita) las funciones de pertenencia de las variables de salida según los resultados proporcionados por las operaciones lógicas (difusas) dictadas por las reglas de inferencias. El párrafo siguiente da un ejemplo ilustrado de esta operación.

Se da ahora un ejemplo de aplicación. Se considera que después de la fase de aprendizaje, cada grupo tiene las características siguientes (figuras 7 y 8):

\vskip1.000000\baselineskip

2

\vskip1.000000\baselineskip

Se considera que una imagen posee una forma que después de la comparación con las dos formas de referencias tiene los errores siguientes:

\vskip1.000000\baselineskip

3

\vskip1.000000\baselineskip

Si (E1+ y E2+) o (E1- y E2-) o (E1- y E2=) o (E1= y E2-) entonces S-

S-= Max [Min(0,0.25), Min(0.85,0), Min(0.85,0.7), Min(0.3,0)] = 0.7

Si (E1= y E2=) o (E1+ y E2-) o (E1- y E2+) entonces S=

S== Max[Min(0.3,0.25), Min(0,0), Min(0.85,0.25)]=0.25

Si (E1+ y E2+)(E1+ y E2=) o (E1= y E2+) entonces S+

S+= Max [Min(0,0.7), Min(0.3,0.25)]=0.25

El resultado 48 corresponde al centro de gravedad de los tres conjuntos (-, +, =) de la salida reducida respectivamente a 0.7,0.25,0.25 (superficie plumeada, figura 9).

La respuesta es por lo tanto: "es un auto en el 48%". Ya que en nuestro ejemplo, se ha limitado a un solo tipo, no se pueden hacer cruzamientos.

En la realidad, se ejecuta además la etapa consistente en utilizar las probabilidades de pertenencia a los diferentes tipos así obtenidos en combinación con una serie de relaciones de afinidades entre tipos, afinidades representativas de la percepción humana, de manera de elegir pertenencias que son a la vez mayoritarias en probabilidad y que se co-designan por su relación de afinidad, y de manera de excluir pertenencias que tienen una menor afinidad con los tipos elegidos.

Esta etapa, en combinación con las etapas precedentes, permite multiplicar notablemente la precisión del análisis. Globalmente, este método es interesante ya que ofrece una ley de composición para entradas difusas lo que es tanto más difícil de administrar cuando existen numerosas entradas.

Claims

1. Procedimiento de descripción automática de un objeto multimedia desconocido, en el cual se asocia el objeto desconocido con varios tipos de objetos multimedia de referencia según cada vez una probabilidad de pertenencia respectiva a cada tipo considerado (G), el procedimiento incluyendo una etapa que consiste en medir al menos una característica física del objeto desconocido (F) y compararla con medidas de las características que representan lo mejor posible los tipos de referencia, el procedimiento comprendiendo además la etapa (H) que consiste en utilizar para cada tipo al menos una relación probabilística que da una probabilidad de pertenencia al tipo considerado en función del resultado de la comparación de las características del objeto desconocido y del tipo, el procedimiento comprendiendo además la etapa que consiste en utilizar las probabilidades de pertenencia a los diferentes tipos así obtenidos en combinación con una serie de relaciones de afinidades entre tipos, de manera de elegir pertenencias que son a la vez mayoritarias en probabilidad y que se co-designan por su relación de afinidad, y de manera de excluir pertenencias que tienen una menor afinidad con los tipos elegidos.

2. Procedimiento de descripción según la reivindicación 1, caracterizado porque comprende la etapa preliminar que consiste en definir las características de referencia de un tipo a partir de un grupo de objetos multimedia sensatos, representar este tipo (B) realizando una medición de una característica física del conjunto de este grupo, y sacando de esta serie de mediciones uno o varios valor(es) de referencia para esta característica, valor(es) de referencia que es (son) seguidamente utilizado(s) para definir la relación de probabilidad de pertenencia al tipo en tanto que valor al cual se compara una medida en un objeto desconocido para deducir la probabilidad de pertenencia al tipo.

3. Procedimiento según la reivindicación 2, caracterizado porque el grupo de objetos multimedia es proporcionado con la ayuda de una etapa de búsqueda automática en un sistema de información con un aspirador internet y un motor de búsqueda internet.

4. Procedimiento según cualquiera de las reivindicaciones precedentes, caracterizado porque comprende la etapa preliminar que consiste en medir en un conjunto de objetos descriptivos una frecuencia de ocurrencia simultaneada de los tipos en estos objetos y en deducir la existencia de una afinidad entre al menos dos tipos cuando aquellos tienen una ocurrencia simultaneada particular.

5. Procedimiento de descripción según cualquiera de las reivindicaciones precedentes, caracterizado porque comprende la etapa que consiste en efectuar un reconocimiento de forma del objeto multimedia desconocido (F), al menos una forma de referencia a reconocer en el objeto desconocido que constituye una característica física que pertenece a la definición de uno de los tipos.

6. Procedimiento según la reivindicación 5, caracterizado porque el reconocimiento de forma comprende una medición de la similitud entre una forma tomada del objeto y la forma de referencia, y comprende igualmente la utilización de una relación predefinida que da una probabilidad de pertenencia (G) al tipo en función de la medida de similitud de forma efectuada.

7. Procedimiento según cualquiera de las reivindicaciones precedentes, caracterizado porque al menos un tipo incluye varias características de referencia (E1, E2), porque se han realizado al menos dos mediciones del objeto desconocido para establecer una medida de proximidad con cada una de las dos características de referencia, y porque se establece la probabilidad de pertenencia a este tipo utilizando al menos dos relaciones, cada una dando una probabilidad de pertenencia al tipo en función de la proximidad a una característica diferente, y porque las dos relaciones de probabilidad son utilizadas para establecer un resultado global de probabilidad de pertenencia del objeto al tipo considerado.

8. Procedimiento según la reivindicación precedente, caracterizado porque las al menos dos relaciones de probabilidad de pertenencia al tipo son explotadas según una técnica combinatoria de lógica difusa para proporcionar el resultado de probabilidad de pertenencia del objeto al tipo considerado.

9. Procedimiento según cualquiera de las reivindicaciones precedentes, caracterizado porque se ejecuta una técnica de lógica difusa que consiste en un mecanismo que da un solo nivel de probabilidad de pertenencia a un tipo de referencia a partir de una combinación de probabilidades de similitud a las diferentes características del tipo de referencia.

10. Dispositivo de descripción automático de un objeto multimedia desconocido, que comprende medios para asociar el objeto desconocido con varios tipos de objetos multimedia de referencia según cada vez una probabilidad de pertenencia respectiva al tipo considerado (G), el dispositivo incluyendo medios para medir al menos una característica física en el objeto desconocido (F) y compararla con medidas que representan lo mejor posible los tipos de referencia, el dispositivo comprendiendo además medios que utilizan para cada tipo al menos una relación probabilística dando una probabilidad de pertenencia al tipo considerado en función del resultado de la comparación de las características del objeto desconocido y del tipo, el dispositivo comprendiendo además medios para utilizar las probabilidades de pertenencia a los diferentes tipos así obtenidos en combinación con una serie de relaciones de afinidad entre tipos, de manera de elegir (H) pertenencias que son a la vez mayoritarias en probabilidad y que se co-designan para su relación de afinidad, y de manera de excluir pertenencias que tienen una menor afinidad con los tipos elegidos.

11. Dispositivo según la reivindicación 10, caracterizado porque incluye medios de tratamiento para explotar varios grupos de objetos multimedia de referencia (B, C), cada grupo representando lo mejor posible su tipo correspondiente, estos medios de tratamiento siendo además previstos para realizar al menos una medida de una característica física del conjunto de un grupo considerado, y tomar allí una medida de referencia de esta característica, esta medida de referencia siendo seguidamente utilizada en la definición de la relación que da una probabilidad de pertenencia al tipo considerado, como la medida a la cual el dispositivo compara una medida en un objeto desconocido para deducir la probabilidad de pertenencia al tipo considerado (G).

12. Dispositivo según la reivindicación 10 o la reivindicación 11, caracterizado porque incluye medios para ejecutar una etapa preliminar que consiste en medir en un conjunto de objetos descriptivos una frecuencia de ocurrencia de tipos en esos objetos, y en deducir la existencia de una afinidad entre al menos dos tipos cuando aquellos tienen ua1aá ocurrencia simultaneada particular.