ES2276150T3 - Sistema asociativo difuso de descripcion de objetos multimedia. - Google Patents
Sistema asociativo difuso de descripcion de objetos multimedia. Download PDFInfo
- Publication number
- ES2276150T3 ES2276150T3 ES03790989T ES03790989T ES2276150T3 ES 2276150 T3 ES2276150 T3 ES 2276150T3 ES 03790989 T ES03790989 T ES 03790989T ES 03790989 T ES03790989 T ES 03790989T ES 2276150 T3 ES2276150 T3 ES 2276150T3
- Authority
- ES
- Spain
- Prior art keywords
- type
- probability
- belonging
- types
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000005259 measurement Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 4
- 239000012634 fragment Substances 0.000 description 18
- 230000006870 function Effects 0.000 description 11
- 230000008447 perception Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 5
- 239000011435 rock Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000013074 reference sample Substances 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000003920 cognitive function Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Feedback Control In General (AREA)
Abstract
Procedimiento de descripción automática de un objeto multimedia desconocido, en el cual se asocia el objeto desconocido con varios tipos de objetos multimedia de referencia según cada vez una probabilidad de pertenencia respectiva a cada tipo considerado (G), el procedimiento incluyendo una etapa que consiste en medir al menos una característica física del objeto desconocido (F) y compararla con medidas de las características que representan lo mejor posible los tipos de referencia, el procedimiento comprendiendo además la etapa (H) que consiste en utilizar para cada tipo al menos una relación probabilística que da una probabilidad de pertenencia al tipo considerado en función del resultado de la comparación de las características del objeto desconocido y del tipo, el procedimiento comprendiendo además la etapa que consiste en utilizar las probabilidades de pertenencia a los diferentes tipos así obtenidos en combinación con una serie de relaciones de afinidades entre tipos, de manera de elegir pertenencias que son a la vez mayoritarias en probabilidad y que se co-designan por su relación de afinidad, y de manera de excluir pertenencias que tienen una menor afinidad con los tipos elegidos.
Description
Sistema asociativo difuso de descripción de
objetos multimedia.
La invención concierne a la caracterización de
objetos multimedia, y en particular a las técnicas para reducir las
ambigüedades del reconocimiento de objetos multimedia.
La invención concierne así, específicamente, a
la descripción del contenido de ficheros multimedia asociados a
los objetos.
El objetivo de la invención es específicamente
proponer un procedimiento que permita describir y comparar objetos
en un contexto de incertidumbre.
Prácticamente, la invención apunta por ejemplo a
describir y comparar ficheros de imagen, musicales, video o de
otras formas.
La misma permite responder a las interrogantes
del tipo: yo deseo encontrar fragmentos de músicas que
correspondan a "mis preferencias". Tal operación plantea dos
problemas. El primero es modelizar las nociones como "mis
preferencias" que son muy subjetivas. Numerosos trabajos han
tratado ya este problema en el caso donde el objeto se beneficia de
un contexto textual. Nos hemos interesado específicamente aquí en
los objetos aislados sin contexto textual. Es la segunda dificultad
que nos proponemos resolver, a saber extraer de un objeto aislado
características que permitieran describirlo y someterlo a la
comparación, el objetivo siendo obtener una caracterización
semántica (por ejemplo bajo la forma de palabras claves) en
términos de probabilidad.
Estos objetivos son alcanzados en el marco de la
invención, gracias a un procedimiento de descripción automático de
un objeto multimedia desconocido, en el cual se asocia el objeto
desconocido con varios tipos de objetos multimedia de referencia
según cada vez una probabilidad de pertenencia respectiva a cada
tipo considerado, el procedimiento incluyendo una etapa que
consiste en medir al menos una característica física en el objeto
desconocido y compararla con mediciones de características que
representan lo mejor posible los tipos de referencia, el
procedimiento comprendiendo además la etapa que consiste en utilizar
para cada tipo al menos una relación probabilística que da una
probabilidad de pertenencia al tipo considerado en función del
resultado de la comparación de las características del objeto
desconocido y del tipo, el procedimiento comprendiendo además la
etapa que consiste en utilizar las probabilidades de pertenencia a
los diferentes tipos así obtenidos en combinación con una serie de
relaciones de afinidades entre tipos, de manera de elegir
pertenencias que son a la vez mayoritarias en probabilidad y que se
co-designan por su relación de afinidad, y de
manera de excluir pertenencias que tienen una menor afinidad con
los tipos elegidos.
Se propone igualmente según la invención un
dispositivo de descripción automático de un objeto multimedia
desconocido, que comprende medios para asociar el objeto
desconocido con varios tipos de objetos multimedia de referencia
según cada vez una probabilidad de pertenencia respectiva al tipo
considerado, el dispositivo incluyendo medios para medir al menos
una característica física en el objeto desconocido y compararla con
mediciones que representan lo mejor posible los tipos de
referencia, el dispositivo comprendiendo además medios que utilizan
para cada tipo al menos una relación probabilística que dan una
probabilidad de pertenencia al tipo considerado en función del
resultado de la comparación de las características del objeto
desconocido y del tipo, el dispositivo comprendiendo además medios
para utilizar las probabilidades de pertenencia a los diferentes
tipos así obtenidos en combinación con una serie de relaciones de
afinidades entre tipos, de manera de elegir pertenencias que son a
la vez mayoritarias en probabilidad y que se
co-designan para su relación de afinidad, y de
manera de excluir pertenencias que tienen una menor afinidad con
los tipos elegidos.
Otras características, objetos y ventajas de la
invención aparecerán con la lectura de la descripción detallada que
sigue, hecha con referencia a las figuras anexas en las que:
- las figuras 1a y 1b representan
esquemáticamente modos de asociación, el primer modo en un plano
llamado "de tipos", el segundo modo como modo de
aprendizaje,
- la figura 2 es una sinóptica que representa
diferentes etapas ejecutadas en una variante preferida de la
invención,
- la figura 3 es un trazado que representa un
nivel de probabilidad de pertenencia en función del nivel de
ponderación de una característica física dada,
- la figura 4 es un trazado que representa una
aproximación del trazado precedente,
- la figura 5 es un trazado que representa una
probabilidad de pertenencia en función de un error medido en
variables de entrada,
- la figura 6 es un trazado del mismo tipo de
error en la variable de salida,
- la figura 7 y la figura 8 son cada una un
trazado que representa una probabilidad de pertenencia en función
de un error en una característica respectiva a la entrada (etapa 4
de la figura 2),
- la figura 9 es un trazado que representa una
probabilidad de pertenencia en función de una media de errores
medidos en dos características.
El método empleado es de una gran adaptabilidad.
Tres aspectos son desarrollados a continuación, que son las redes
asociativas (vínculos semánticos entre objetos de referencias), la
lógica difusa (gestión de la incertidumbre) y una etapa llamada
aquí "inferencia correlativa" (limitar la ambigüedad por
cruzamiento de informaciones).
Contrariamente a la aproximación actual que se
coloca por encima y busca más bien optimizar la precisión de la
modelización de la imagen, más generalmente del objeto, nos
situamos más alto en las capas. Se toma el modelo de la imagen (del
sonido, etc) bruta incluso si es de mala calidad y se busca reducir
la ambigüedad de la interpretación gracias a métodos de gestión de
la incertidumbre (validación, lógica difusa).
La operación de descripción es preferentemente
realizada comparando objetos desconocidos con objetos de
características conocidas y por cruzamiento y empalme a un vector
de característica asociado a una probabilidad de pertenencia. Este
vector traduce la relación entre propiedades físicas o lógicas y
propiedades conceptuales (ver fig. 1a, 1b).
El método descrito anteriormente apunta a la
caracterización en un contexto de incertidumbre y se aplica a
objetos cualquiera que sea su naturaleza (analógica, numérica,
simbólica, etc). Siendo dicho esto, por razones de claridad, se
restringen las explicaciones que siguen a los ficheros de tipo
multimedia (por ejemplo mp3, mpeg, wav, jpg, etc). Estos objetos
pueden ser por ejemplo descritos por ciertas propiedades físicas de
objetos analógicos sub-yacentes (frecuencias,
duración, formas típicas, etc). Además, esos mismos objetos pueden
ser descritos en el registro conceptual por una tipología adecuada
(música pop, jazz, película de acción, foto de auto) o un tipo
preferido sin que el mismo sea precisamente referenciado (por
ejemplo una mezcla de jazz y de clásica personalizada). Un primer
objetivo es ejecutar una correspondencia asociativa entre el campo
físico y el campo conceptual.
Las figuras 1a y 1b presentan dos modos de
asociaciones. El primero (figura la) en el plano de los tipos es
una asociación conceptual clásica (por ejemplo entre temas del
léxico interconectados por relaciones ponderadas en función de sus
proximidades semánticas). El segundo (figura 1b) es obtenido por
aprendizaje entre los tipos y las características de referencias.
Este tipo de arquitectura permite por validación identificar
relaciones conceptuales entre características físicas o
lógicas.
Por ejemplo, los tipos pueden ser palabras, las
características pueden ser formas en el caso de imágenes.
La selección de las características es realizada
preferentemente de una vez y por toda para un conjunto de tipos
dados pero requiere experiencia. Por ejemplo un músico y un
electrónico estarán en disposición de identificar las magnitudes
representativas de la tipología musical (por ejemplo la frecuencia
media de los 10 primeros segundos de un fragmento de música permite
identificar una música de ambiente de un fragmento de hard rock).
En los ejemplos que siguen se utilizarán características
simplificadas para describir nuestro método.
He aquí un primer ejemplo que corresponde al
caso de documentos sonoros, que permiten comprender el
principio.
Para saber si un fichero musical contiene un
fragmento de flauta o de cuerno (2 tipos conceptuales simples) es
necesario poder acceder a la señal sonora codificada en el fichero
(por ejemplo wav, mp3).
Esto es realizado por algoritmos de
decodificación clásicos. La señal será analizada con herramientas
adecuadas de tratamiento de la señal que podrían determinar su
frecuencia (característica física simplificada para el ejemplo). Si
se consideran ficheros de referencia (varios ficheros del tipo
cuerno, varios ficheros del tipo flauta), se podrá determinar su
frecuencia media en el caso del cuerno y en el caso de la flauta.
Se podrá constatar que la frecuencia A+delta f es aquella de la
flauta y la frecuencia B+delta f aquella del cuerno. Estas
frecuencias así como los tipos asociados serán el modelo de
referencia obtenido por un estudio estadístico en una muestra
representativa. Calculando la frecuencia fi de un cierto número de
ficheros que contienen sonidos de instrumentos desconocidos, se
podrá determinar su pertenencia a la categoría flauta o cuerno en
función de la proximidad (si fi-A < umbral
entonces i se aproxima a la flauta). Es igualmente considerado que
el conjunto de los ficheros de referencia de tipo "cuerno"
puede contener ficheros que no contienen cuerno. La frecuencia
media contiene entonces intrínsecamente un margen de error y su
proximidad con la frecuencia de un fichero a analizar es analizada
de manera probable, igualmente para tener cuenta del hecho que el
cálculo de la media es de hecho el cálculo de una media probable
(esperanza matemática).
Este ejemplo está muy simplificado ya que un
fichero sonoro (es también más complicado para los ficheros vídeo)
es lo más frecuentemente una agregación compleja de frecuencias
diferentes en el tiempo y en el espacio.
Para resolver este problema de complejidad, se
identifica preferentemente un cierto número de características
frecuenciales espaciales y temporales (fijas y evolutivas) que
estarán en disposición de describir en teoría cualquier señal. He
aquí otro ejemplo más preciso de una definición de tales
características. El análisis espectral de la señal en toda su
duración permite recuperar la tasa de frecuencias altas y bajas. Se
consideran solamente 10 intervalos de frecuencias (f1 a f10)
repartidos en el espectro audible (20 Hz a 20 KHz) por ejemplo
df1=20 Hz-500 Hz, df2=500Hz-2 KHz,
df3=2kHz-5KHz etc. En la práctica el corte
frecuencial tendrá en cuenta la frecuencia fundamental de los
principales instrumentos. Este análisis puede ser realizado en
diferentes períodos de la señal. Por ejemplo, se calcula la
distribución frecuencial a espacios de diez segundos espaciados
cada treinta segundos en una señal de una duración de tres minutos.
Los seis conjuntos de diez intervalos frecuenciales (que se
denominarán muestras) serán considerados como las características
físicas de una señal del fragmento de música. Si como en el ejemplo
precedente se conoce un fragmento de música de referencia "que
nos gusta" (sin saber exactamente describirla en el plano
conceptual - esta puede ser jazz o blues, etc). Se puede calcular
la muestra de referencia y a continuación se puede aplicar a
cualquier fragmento de música el cálculo de la muestra que se
comparará con la muestra de referencia. En función de la proximidad
física, se podrá deducir la proximidad conceptual frente a este
tipo "que nos gusta". Dicho de otra forma, mientras más
próximas sean las características espaciales, frecuenciales y
temporales de la señal a clasificar y aquellas de la señal de
referencia, más seguro se está que el fragmento a clasificar es un
fragmento de ese tipo "que nos gusta".
En el caso donde se han definido varios tipos de
fragmentos que nos gustan, se calcula la proximidad de las
características del fragmento desconocido frente a las
características de cada uno de estos tipos.
Se obtienen entonces una serie de probabilidades
de pertenencia del fragmento desconocido para cada uno de estos
tipos. Los tipos de fragmentos que nos gustan tienen entre sí
compatibilidades o afinidades. De esta forma, algunos de estos
tipos son tipos musicales próximos en términos de percepción, tales
como por ejemplo un tipo "rock" o un tipo "hard
rock".
Otros tipos son incompatibles tales como un tipo
de "música de cámara" y un tipo "música electrónica".
Se utiliza esta red de afinidades de percepción
del oído entre los diferentes tipos, así como las probabilidades
de pertenencia a los diferentes tipos, para deducir una pertenencia
a una categoría más grande que reagrupa una parte solamente de
estos tipos que nos gustan. Se selecciona aquí llamar a esta etapa
una "inferencia correlativa".
Esta pertenencia a una categoría más grande
finaliza la descripción automatizada del objeto multimedia de
partida desconocido.
En otros términos, se utilizan las
probabilidades de pertenencia a los diferentes tipos así obtenidos
en combinación con una serie de relaciones de afinidades entre
tipos, afinidades representativas de la percepción humana, de
manera de elegir pertenencias que son a la vez mayoritarias en
probabilidad y que se co-designan por su relación de
afinidad, y de manera de excluir pertenencias que tienen una menor
afinidad con los tipos elegidos.
Las elecciones y exclusiones de las que se habla
se concretan en el caso presente por el hecho de identificar una
parte solamente (una "categoría" aquí) de los tipos que nos
gustan.
Igualmente, si se utilizan varios fragmentos de
referencias "que nos gustan" para calcular las características
medias, se realiza un aprendizaje de las características de
referencias. Estas características de referencia son una media que
puede integrar fragmentos dados por error y por lo tanto esta media
es una referencia "la más probable", y la proximidad de un
fragmento considerado frente a esas características, es utilizado
para dar una "probabilidad" de que ese fragmento nos gusta.
Mientras más próximo es el fragmento de la referencia estadística,
mayor es la probabilidad de que nos guste. La mejor probabilidad de
que nos guste corresponde a una total similitud entre las
características del fragmento considerado y la media estadística de
las características del fragmento de referencia.
En el caso de documentos visuales (imagen y
vídeo), la caracterización de los documentos visuales está
preferentemente basada en el mismo principio que aquel de los
documentos sonoros. Se trata de medir la proximidad con otros
objetos según características simples. Una imagen es analizada para
identificar mediante una búsqueda de contornos las formas complejas
aisladas así como sus características cromáticas (media, intervalo
tipo en la forma). Estas operaciones son clásicas en el arte del
tratamiento de imágenes.
Como se describió precedentemente, se asocia un
conjunto de tipos conceptuales a un conjunto de características
físicas. Estos tipos conceptuales son por ejemplo: casa, animal,
flor, etc. Las características físicas corresponden a las formas
simples y a sus descripciones cromáticas.
La etapa siguiente consiste en buscar las
proximidades entre formas desconocidas y formas
"estadísticamente" conocidas (ver más adelante) o una media
que forma una "mejor probabilidad" de que una imagen nos
guste. Aquí, los tipos conceptuales son aquellos inherentes a las
imágenes fijas (se adapta este conjunto en el caso de vídeos:
acción, deporte, etc... información de tipo dinámica). Como en el
caso de datos sonoros, el vídeo es considerado como un muestreo de
varias imágenes que son tratadas aisladamente y luego contribuyendo
a una caracterización estadística de la película.
Se toma aquí en cuenta una incertidumbre y una
ambigüedad de los análisis. Los seres vivos toman sus decisiones en
un contexto de incertidumbre, en término de probabilidad. Incluso
decisiones que pueden parecernos como evidentes, responden a este
principio.
Cuando se percibe una persona a lo lejos,
nuestro cerebro moviliza sus funciones cognoscitivas para comparar
eso que se percibe a un conjunto de características de base que se
han memorizado en el pasado. Estas operaciones conducen a llegar a
la conclusión de que la persona en cuestión es probablemente un
amigo. Cuando se observa a esta persona más de cerca, su identidad
aparece como evidente por lo tanto, los mismos mecanismos
anteriores nos han conducido a una respuesta completamente
probabilística. La diferencia, es que en el segundo caso, la
probabilidad es mucho más importante.
Se va a describir ahora dos mecanismos
utilizados en el ejemplo preferido de realización de la
invención.
El primero es el tratamiento y la composición
(el cálculo) de premisas aproximativas (puede ser que, hayan
oportunidades, etc). La lógica difusa da un cierto número de
herramientas que permiten calcular con elementos inciertos. El otro
mecanismo está basado en el cruzamiento de información. Por
ejemplo, si el análisis de una imagen revela una forma próxima al
75% de un camión, al 75% de una casa, a 60% de un ómnibus y al 10%
de un chalet, se considera que la forma es un vehículo ya que
semánticamente la categoría vehículo (camión y ómnibus) está más
"co-designada" que la categoría habitación
(chalet y casa). Es un ejemplo particular de lo que se denomina
aquí inferencia correlativa. Esto es posible ya que los tipos
conceptuales que poseen su propia red de asociación corresponden a
las características lingüísticas (árbol, flor y vegetal están
asociados pero de manera diferente). De partida, la búsqueda de las
características y el trabajo de aproximación entre estas
características y los tipos conceptuales se realizan sin tener en
cuenta el nivel de asociación interno entre los tipos conceptuales.
Esta asociación será utilizada para eliminar ciertas ambigüedades
en las asociaciones físicas/conceptuales.
También ahí, las validaciones semánticas
reflejan afinidades entre los diferentes tipos, afinidades que son
tomadas en consideración en común con las probabilidades de
pertenencia a cada uno de esos tipos, y que permiten establecer la
pertenencia o no a una categoría.
En otros términos, para identificar en este
ejemplo una categoría general de pertenencia, se utilizan las
probabilidades de pertenencia a los diferentes tipos así obtenidos
en combinación con una serie de relaciones de afinidades entre
tipos, afinidades representativas de la percepción humana, de
manera de elegir pertenencias que son a la vez mayoritarias en
probabilidad y que se co-designan por su relación
de afinidad, y de manera de excluir pertenencias que tengan una
menor afinidad con los tipos elegidos.
Para el establecimiento de las relaciones de
afinidades utilizados en esta segunda etapa aquí denominada
"etapa de inferencia correlativa", se ejecuta aquí un
tratamiento preliminar de una multitud de textos, en los que se
revelan las ocurrencias particularmente frecuentes de dos términos
cada vez en posición de proximidad en estos textos. De esta forma,
la relación semántica entre "casa" y "chalet" es
identificada simplemente por la presencia frecuente de esos dos
términos próximos uno del otro en una serie de textos.
Al contrario, el hecho de que los términos
"camión" y "chalet" no estén prácticamente jamás
presentes y próximos uno del otro, permite identificar que ningún
vínculo de proximidad semántica (afinidad) existe entre esas
palabras.
La existencia de una afinidad es por ejemplo
revelada en función del rebasamiento de un umbral de frecuencia en
los textos de dos palabras de proximidad una de otra (de proximidad
pero solamente distantes en un número de palabras
predefinidas).
Tal tratamiento previo de una serie de textos
permite automatizar el establecimiento de afinidades entre tipo.
Tales afinidades son bien representativas de la percepción humana
porque las mismas corresponden al sentimiento de afinidad entre
tipos que puede experimentar una persona, cualquiera que sea la
afinidad entre "rock" y "hard rock" para la música, o la
afinidad entre "casa" y "chalet" para imágenes.
Claro está, en otros modos de realización, el
tratamiento previo de una serie de objetos descriptivos o de una
serie de objetos existentes permite de igual forma identificar
afinidades típicas pero estadísticamente muy representadas como
definiendo una relación semántica entre dos términos o dos
características.
Las elecciones y exclusiones de tipos consisten
simplemente aquí en identificar una parte de ellos que señala en
conjunto la categoría general de pertenencia del objeto.
La constitución de la red asociativa (figura 1a,
plano desde abajo) es realizada aquí por aprendizaje, como se
acaba de describir a partir de la explotación de una serie de
textos, en el ejemplo presente. Ahora se tratan de identificar las
características estadísticas de la relación entre entrada (física,
plano desde arriba) y salida (conceptual, plano desde abajo). Estas
características serán utilizadas para alimentar el modelo difuso.
Si se considera un conjunto de z relaciones R entre cada uno de
los p tipos de referencia y una o varias n características, cada
relación Rij contiene la representación estadística del conjunto de
los ejemplos de esta relación proporcionados por los objetos de
referencia. La relación contiene la media, el intervalo medio, min,
máx, n, etc. Por ejemplo, en cien objetos de referencia la
característica i del tipo j está presente sesenta veces la media de
la relación Rij está en 0.6.
Para mayor claridad, se va a dar ahora un
ejemplo de aplicación de una toma de decisión a partir de una
aproximación difusa. El reconocimiento de contenido de imagen es
aquí el ejemplo de aplicación.
El objetivo es implementar en una red asociativa
relaciones entre formas y un tipo por ejemplo el tipo auto. Se
limitará al marco de este ejemplo pero en la práctica se pueden
tomar más características que la forma y más tipo que el simple
tipo auto.
En la figura 2, la etapa A corresponde a una
identificación manual de las características de referencias (por
ejemplo formas, espectro medio en los 10 primeros segundos de un
fragmento de música) y tipos pertinentes (trabajo de experto).
La etapa B es una recuperación automática (motor
de búsqueda y aspirador Web-Internet) de objetos
(por ejemplo imagen de auto) estadísticamente pertinentes que
describen un tipo dado (ídem para todos los tipos definidos) a
partir de palabras claves (auto, automóvil, etc).
La etapa C es una etapa de análisis del
contenido de los objetos de referencias: medida de las
características de referencia, análisis y segmentación de los
resultados (grupos). Se utiliza una técnica de categorización
clásica para la identificación de los grupos.
Estas tres etapas son realizadas para varios
tipos de referencias vinculadas por una red asociativa. Esta
aproximación permitirá en una etapa ulterior (Etapa H), por
validación, regular ciertas ambigüedades.
La etapa D corresponde a una fuzzificación, es
decir una identificación de las variables de entrada (las
características) y de salida (los tipos), de las funciones y
limites de pertenencia, las informaciones salidas de las etapas
precedentes que permiten automatizar esta etapa.
La etapa E corresponde a una etapa de definición
de las reglas de inferencias. Estas reglas son genéricas y
corresponden a una composición homogénea de funciones AND/OR que
vincula las entradas con las salidas.
La etapa F es una etapa de medida de las
características en el objeto desconocido.
La etapa G es una etapa de desfuzzificación:
evaluación del nivel de las variables de salida. Esta etapa
presentada aquí en el sentido global corresponde a la
desfuzzificación de cada una de las salidas. El resultado se
presenta bajo la forma de una probabilidad de pertenencia del
objeto desconocido a cada tipo.
La etapa H es una etapa de cruzamiento de los
resultados con la ayuda de una red asociativa para limitar la
ambigüedad (por ejemplo si el objeto es 50% un árbol, 50% un auto y
50% un camión entonces no es ciertamente un árbol).
Se va a describir ahora, de manera más
detallada, esa sinóptica de la figura 2, en una primera etapa de
definición de referencias (etapas A a C en la figura 2), se
recupera un número importante de imágenes que contienen autos y se
identifican los contornos de las formas con la ayuda de
herramientas de soporte lógico clásicas. Estas formas son
normalizadas (restablecidas a proporciones idénticas) y comparadas
(referencia cartesiana) de manera de identificar grupos homogéneos
(contorno superponible con error mínimo). Para cada uno de esos
grupos se identifica la forma media, llamada de referencia (que
puede ser una imagen cualquiera del grupo, ya que la segmentación
-etapa C- asegura que los miembros de un grupo tengan una fuerte
similitud) y el número de candidatos por grupo. Se plantea que las
formas de referencias reagrupan la mayoría de los candidatos que
describen lo mejor posible el tipo de referencia (auto). Se
identifica el número óptimo de grupos con técnicas clásicas de
clustering. Por ejemplo, se optimiza la relación entre el error
medio intra grupos e inter grupos. El algoritmo de clustering es
alimentado por la matriz de los errores forma a forma.
Se supone para la continuación del ejemplo que
el número de grupos ideal es dos. Se dispone por lo tanto de dos
formas medias donde cada una afecta a una probabilidad de similitud
de función del % de la forma en el grupo con relación al número
total de formas.
Contrariamente a la lógica binaria (una
proposición es verdadera o falsa), la lógica difusa toma en cuenta
el carácter "posible" de una proposición que asocia allí un
cierto nivel de verosimilitud. Además de un concepto, la lógica
difusa introduce métodos y un álgebra adaptada que permite
manipular magnitudes difusas (aproximativas).
La primera etapa (etapa D en la figura 2)
llamada de cuantificación difusa (o "fuzzificación") consiste
en modelizar cada entrada del sistema por curvas que dan el grado
de pertenencia a los diferentes estados del sistema posiblemente
asociado a estas entradas. En nuestro caso, las entradas son las
características físicas y los estados son los tipos (o asociaciones
de tipos) conceptuales. El sistema siendo la red de asociación
(ponderación normalizada) que existe entre las entradas y las
salidas (ver figura 1a).
De esta forma, cada entrada, en función de su
nivel de ponderación será representada sobre una curva de tipo
sigmoideo (figura 3 o aproximada a la figura 4) que explicará su
nivel de pertenencia a un tipo dado.
Sea por ejemplo una red (figura 1) donde el
nivel de ponderación máxima (normalizado) es de 100. Una
característica física que estará vinculada a un tipo conceptual con
una ponderación de 10 será considerada como que la describe de
manera poco probable. Por el contrario, una ponderación de 80 será
considerada como una descripción muy pertinente.
En la figura 4, los valores min y máx obtenidos
por análisis estadístico, proporcionan los umbrales más allá de
los cuales la característica es considerada que no describe más el
tipo (min) o que lo describe muy bien (máx).
La función de pertenencia representada en la
figura 5 establece el nivel de pertenencia a cada
sub-conjunto difuso en función del nivel del error
entre las formas de referencia (las dos formas medias) y las formas
contenidas en la imagen a analizar.
En la figura 5, el símbolo "-" representa
una pertenencia poco probable. El símbolo "=" representa una
pertenencia posible. El símbolo "+" representa una pertenencia
muy probable.
Sim _{min} y Sim _{máx} designan
respectivamente la similitud mínima y máxima calculadas forma a
forma en cada grupo durante el aprendizaje. Sim _{máx} es la
similitud entre las dos formas más similares y Sim _{min} la
similitud entre las dos formas más diferentes en el seno de un
grupo dado.
De una manera similar, se define la función de
pertenencia para la variable de salida (figura 6).
Los valores Sim _{min} y Sim _{máx}
describen aquí la incertidumbre mínima y máxima para la toma de
decisión. Se dirá que por debajo de Sim _{min} la forma no
pertenece al tipo, y que por encima de Sim _{max} la misma
pertenece al tipo y que entre esos dos valores la misma pertenece
al tipo con un cierto nivel de probabilidad. Por ejemplo, se puede
considerar que por debajo de 20% de certeza la persona que se
observa a lo lejos no es la persona que se imagina, mientras que
por encima del 75%, se estima que es la persona en cuestión.
Las reglas de inferencia (etapas E y F en la
figura 2: definición de las reglas de inferencia y medida),
implican una continuación de operaciones lógicas y condiciones que
vinculan las entradas y la salida que se puede adaptar más o menos
finamente según el caso a tratar. La tabla siguiente indica los
modos de composición que vinculan los dos grupos para tomar la
decisión de pertenencia o no al tipo de referencia. Es necesario
recordar aquí que los dos grupos, obtenidos por segmentación (etapa
C) son grupos disímiles. Una pertenencia a los dos grupos no
permite por lo tanto eliminar la ambigüedad concerniente a la
pertenencia al tipo. Es por esta razón que se afecta un - en la
tabla cuando El y E2 son +.
Las reglas de inferencia entre las entradas (el
nivel de pertenencia al grupo 1 o 2) y la salida (nivel de certeza
que se trata de un auto) son los siguientes. Las dos entradas
estando vinculadas a la salida por una función OR (es decir el
máximo de los dos valores en lógica difusa) en el caso de pocas
probabilidades y de la función AND para las fuertes.
Esta tabla se interpreta como sigue:
Si (E1+ y E2+) o (E1- y E2-) o (E1- y E2=) o
(E1= y E2-) entonces S-
Si la semejanza a la forma 1 y a la forma 2 es
poca o si la semejanza es poca en la forma 1 y mediocre en la
forma 2 o si la semejanza es mediocre en la forma 1 y poca en la 2
entonces la forma desconocida es poco probablemente un auto.
Si (E1= y E2=) o (E1+ y E2-) o (E1- y E2+)
entonces S=
Si (E1+ y E2=) o (E1= y E2+) entonces S+
Se da aquí ahora un ejemplo de algoritmo de
composición de las reglas de inferencias para un número de grupos
cualesquiera.
Cada característica puede tomar tres estados (+,
-, =) o sea, para n características, 3^{n} combinaciones
posibles.
En esta etapa, se inicializan los valores S+;
S-; y S= a 0.
Para cada una de las 3^{n} combinaciones:
- se identifica el signo y el valor de los
elementos de la combinación;
- se calcula Min como siendo el mínimo de todos
los elementos de la combinación.
- en cada combinación, se cuenta el número + y
el número -.
Los resultados son entonces explotados de la
manera siguiente:
- si el número de elementos "+" es inferior
a 30% del número de elementos de la combinación y al menos igual a
1 elemento (se toma el valor entero más próximo a 30% (ejemplo: si
0,7 entonces se toma 1), entonces, si Min es superior al valor S+,
el valor S+ es definido como siendo igual a Min;
- si el número de elementos es superior a 70%,
entonces, si Min es superior al valor S=, el valor de S= es
definido como siendo igual a min;
- si el número de elementos está comprendido
entre 30 y 70%, entonces, si Min es superior al valor S=, el valor
de S= es definido como siendo igual a Min).
La salida de este sistema (etapas G y H:
desfuzzificación y cruzamiento) es de la forma: el objeto
corresponde (por ejemplo) en 80% al tipo T1, en 65% al tipo T2,
etc. En nuestro ejemplo, se ha limitado a un solo tipo T1=auto.
La desfuzzificación consiste en evaluar la
magnitud de salida (aquí la probabilidad de pertenencia a un tipo
dado). Esto es realizado proyectando el estado de las variables de
entradas sobre las variables de salida a través de las reglas de
inferencia. Prácticamente, se reduce (decapita) las funciones de
pertenencia de las variables de salida según los resultados
proporcionados por las operaciones lógicas (difusas) dictadas por
las reglas de inferencias. El párrafo siguiente da un ejemplo
ilustrado de esta operación.
Se da ahora un ejemplo de aplicación. Se
considera que después de la fase de aprendizaje, cada grupo tiene
las características siguientes (figuras 7 y 8):
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Se considera que una imagen posee una forma que
después de la comparación con las dos formas de referencias tiene
los errores siguientes:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Si (E1+ y E2+) o (E1- y E2-) o (E1- y E2=) o
(E1= y E2-) entonces S-
S-= Max [Min(0,0.25), Min(0.85,0),
Min(0.85,0.7), Min(0.3,0)] = 0.7
Si (E1= y E2=) o (E1+ y E2-) o (E1- y E2+)
entonces S=
S== Max[Min(0.3,0.25),
Min(0,0), Min(0.85,0.25)]=0.25
Si (E1+ y E2+)(E1+ y E2=) o (E1= y E2+) entonces
S+
S+= Max [Min(0,0.7),
Min(0.3,0.25)]=0.25
El resultado 48 corresponde al centro de
gravedad de los tres conjuntos (-, +, =) de la salida reducida
respectivamente a 0.7,0.25,0.25 (superficie plumeada, figura
9).
La respuesta es por lo tanto: "es un auto en
el 48%". Ya que en nuestro ejemplo, se ha limitado a un solo
tipo, no se pueden hacer cruzamientos.
En la realidad, se ejecuta además la etapa
consistente en utilizar las probabilidades de pertenencia a los
diferentes tipos así obtenidos en combinación con una serie de
relaciones de afinidades entre tipos, afinidades representativas de
la percepción humana, de manera de elegir pertenencias que son a la
vez mayoritarias en probabilidad y que se
co-designan por su relación de afinidad, y de
manera de excluir pertenencias que tienen una menor afinidad con
los tipos elegidos.
Esta etapa, en combinación con las etapas
precedentes, permite multiplicar notablemente la precisión del
análisis. Globalmente, este método es interesante ya que ofrece una
ley de composición para entradas difusas lo que es tanto más
difícil de administrar cuando existen numerosas entradas.
Claims (12)
1. Procedimiento de descripción automática de un
objeto multimedia desconocido, en el cual se asocia el objeto
desconocido con varios tipos de objetos multimedia de referencia
según cada vez una probabilidad de pertenencia respectiva a cada
tipo considerado (G), el procedimiento incluyendo una etapa que
consiste en medir al menos una característica física del objeto
desconocido (F) y compararla con medidas de las características que
representan lo mejor posible los tipos de referencia, el
procedimiento comprendiendo además la etapa (H) que consiste en
utilizar para cada tipo al menos una relación probabilística que da
una probabilidad de pertenencia al tipo considerado en función del
resultado de la comparación de las características del objeto
desconocido y del tipo, el procedimiento comprendiendo además la
etapa que consiste en utilizar las probabilidades de pertenencia a
los diferentes tipos así obtenidos en combinación con una serie de
relaciones de afinidades entre tipos, de manera de elegir
pertenencias que son a la vez mayoritarias en probabilidad y que se
co-designan por su relación de afinidad, y de
manera de excluir pertenencias que tienen una menor afinidad con
los tipos elegidos.
2. Procedimiento de descripción según la
reivindicación 1, caracterizado porque comprende la etapa
preliminar que consiste en definir las características de
referencia de un tipo a partir de un grupo de objetos multimedia
sensatos, representar este tipo (B) realizando una medición de una
característica física del conjunto de este grupo, y sacando de esta
serie de mediciones uno o varios valor(es) de referencia
para esta característica, valor(es) de referencia que es
(son) seguidamente utilizado(s) para definir la relación de
probabilidad de pertenencia al tipo en tanto que valor al cual se
compara una medida en un objeto desconocido para deducir la
probabilidad de pertenencia al tipo.
3. Procedimiento según la reivindicación 2,
caracterizado porque el grupo de objetos multimedia es
proporcionado con la ayuda de una etapa de búsqueda automática en
un sistema de información con un aspirador internet y un motor de
búsqueda internet.
4. Procedimiento según cualquiera de las
reivindicaciones precedentes, caracterizado porque comprende
la etapa preliminar que consiste en medir en un conjunto de objetos
descriptivos una frecuencia de ocurrencia simultaneada de los tipos
en estos objetos y en deducir la existencia de una afinidad entre
al menos dos tipos cuando aquellos tienen una ocurrencia
simultaneada particular.
5. Procedimiento de descripción según cualquiera
de las reivindicaciones precedentes, caracterizado porque
comprende la etapa que consiste en efectuar un reconocimiento de
forma del objeto multimedia desconocido (F), al menos una forma de
referencia a reconocer en el objeto desconocido que constituye una
característica física que pertenece a la definición de uno de los
tipos.
6. Procedimiento según la reivindicación 5,
caracterizado porque el reconocimiento de forma comprende
una medición de la similitud entre una forma tomada del objeto y la
forma de referencia, y comprende igualmente la utilización de una
relación predefinida que da una probabilidad de pertenencia (G) al
tipo en función de la medida de similitud de forma efectuada.
7. Procedimiento según cualquiera de las
reivindicaciones precedentes, caracterizado porque al menos
un tipo incluye varias características de referencia (E1, E2),
porque se han realizado al menos dos mediciones del objeto
desconocido para establecer una medida de proximidad con cada una
de las dos características de referencia, y porque se establece la
probabilidad de pertenencia a este tipo utilizando al menos dos
relaciones, cada una dando una probabilidad de pertenencia al tipo
en función de la proximidad a una característica diferente, y
porque las dos relaciones de probabilidad son utilizadas para
establecer un resultado global de probabilidad de pertenencia del
objeto al tipo considerado.
8. Procedimiento según la reivindicación
precedente, caracterizado porque las al menos dos relaciones
de probabilidad de pertenencia al tipo son explotadas según una
técnica combinatoria de lógica difusa para proporcionar el
resultado de probabilidad de pertenencia del objeto al tipo
considerado.
9. Procedimiento según cualquiera de las
reivindicaciones precedentes, caracterizado porque se
ejecuta una técnica de lógica difusa que consiste en un mecanismo
que da un solo nivel de probabilidad de pertenencia a un tipo de
referencia a partir de una combinación de probabilidades de
similitud a las diferentes características del tipo de
referencia.
10. Dispositivo de descripción automático de un
objeto multimedia desconocido, que comprende medios para asociar el
objeto desconocido con varios tipos de objetos multimedia de
referencia según cada vez una probabilidad de pertenencia
respectiva al tipo considerado (G), el dispositivo incluyendo
medios para medir al menos una característica física en el objeto
desconocido (F) y compararla con medidas que representan lo mejor
posible los tipos de referencia, el dispositivo comprendiendo
además medios que utilizan para cada tipo al menos una relación
probabilística dando una probabilidad de pertenencia al tipo
considerado en función del resultado de la comparación de las
características del objeto desconocido y del tipo, el dispositivo
comprendiendo además medios para utilizar las probabilidades de
pertenencia a los diferentes tipos así obtenidos en combinación con
una serie de relaciones de afinidad entre tipos, de manera de
elegir (H) pertenencias que son a la vez mayoritarias en
probabilidad y que se co-designan para su relación
de afinidad, y de manera de excluir pertenencias que tienen una
menor afinidad con los tipos elegidos.
11. Dispositivo según la reivindicación 10,
caracterizado porque incluye medios de tratamiento para
explotar varios grupos de objetos multimedia de referencia (B, C),
cada grupo representando lo mejor posible su tipo correspondiente,
estos medios de tratamiento siendo además previstos para realizar
al menos una medida de una característica física del conjunto de un
grupo considerado, y tomar allí una medida de referencia de esta
característica, esta medida de referencia siendo seguidamente
utilizada en la definición de la relación que da una probabilidad
de pertenencia al tipo considerado, como la medida a la cual el
dispositivo compara una medida en un objeto desconocido para
deducir la probabilidad de pertenencia al tipo considerado (G).
12. Dispositivo según la reivindicación 10 o la
reivindicación 11, caracterizado porque incluye medios para
ejecutar una etapa preliminar que consiste en medir en un conjunto
de objetos descriptivos una frecuencia de ocurrencia de tipos en
esos objetos, y en deducir la existencia de una afinidad entre al
menos dos tipos cuando aquellos tienen ua1aá ocurrencia
simultaneada particular.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0210776 | 2002-08-30 | ||
FR0210776A FR2844079B1 (fr) | 2002-08-30 | 2002-08-30 | Systeme associatif flou de description d'objets multimedia |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2276150T3 true ES2276150T3 (es) | 2007-06-16 |
Family
ID=31503014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03790989T Expired - Lifetime ES2276150T3 (es) | 2002-08-30 | 2003-08-27 | Sistema asociativo difuso de descripcion de objetos multimedia. |
Country Status (8)
Country | Link |
---|---|
US (1) | US7460715B2 (es) |
EP (1) | EP1554687B1 (es) |
AT (1) | ATE343178T1 (es) |
AU (1) | AU2003276329A1 (es) |
DE (1) | DE60309191T2 (es) |
ES (1) | ES2276150T3 (es) |
FR (1) | FR2844079B1 (es) |
WO (1) | WO2004021265A2 (es) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2844079B1 (fr) * | 2002-08-30 | 2005-08-26 | France Telecom | Systeme associatif flou de description d'objets multimedia |
DE102009035377A1 (de) * | 2009-07-30 | 2011-02-03 | Eads Deutschland Gmbh | Einrichtung und Verfahren zur Transformation von Objektklassifikation-Ergebnissen |
US10140553B1 (en) * | 2018-03-08 | 2018-11-27 | Capital One Services, Llc | Machine learning artificial intelligence system for identifying vehicles |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6400996B1 (en) * | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
DE4407998C2 (de) * | 1994-03-10 | 1996-03-14 | Ibm | Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg |
US5970171A (en) * | 1995-08-14 | 1999-10-19 | Hughes Aircraft Company | Apparatus and method of fusing the outputs of multiple intelligent character recognition (ICR) systems to reduce error rate |
KR100671098B1 (ko) * | 1999-02-01 | 2007-01-17 | 주식회사 팬택앤큐리텔 | 모양정보를 이용한 멀티미디어 데이터의 검색 방법 및 장치 |
US6751354B2 (en) * | 1999-03-11 | 2004-06-15 | Fuji Xerox Co., Ltd | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
CN1312615C (zh) * | 1999-07-03 | 2007-04-25 | 纽约市哥伦比亚大学托管会 | 为媒体内容管理系统索引数字信息信号的方法和设备 |
US6847980B1 (en) * | 1999-07-03 | 2005-01-25 | Ana B. Benitez | Fundamental entity-relationship models for the generic audio visual data signal description |
US20030191682A1 (en) * | 1999-09-28 | 2003-10-09 | Allen Oh | Positioning system for perception management |
US20020183984A1 (en) * | 2001-06-05 | 2002-12-05 | Yining Deng | Modular intelligent multimedia analysis system |
US7327887B2 (en) * | 2002-04-10 | 2008-02-05 | National Instruments Corporation | Increasing accuracy of discrete curve transform estimates for curve matching |
FR2844079B1 (fr) * | 2002-08-30 | 2005-08-26 | France Telecom | Systeme associatif flou de description d'objets multimedia |
US7325735B2 (en) * | 2004-04-02 | 2008-02-05 | K-Nfb Reading Technology, Inc. | Directed reading mode for portable reading machine |
US7899253B2 (en) * | 2006-09-08 | 2011-03-01 | Mitsubishi Electric Research Laboratories, Inc. | Detecting moving objects in video by classifying on riemannian manifolds |
-
2002
- 2002-08-30 FR FR0210776A patent/FR2844079B1/fr not_active Expired - Fee Related
-
2003
- 2003-08-27 EP EP03790989A patent/EP1554687B1/fr not_active Expired - Lifetime
- 2003-08-27 AU AU2003276329A patent/AU2003276329A1/en not_active Abandoned
- 2003-08-27 ES ES03790989T patent/ES2276150T3/es not_active Expired - Lifetime
- 2003-08-27 DE DE60309191T patent/DE60309191T2/de not_active Expired - Lifetime
- 2003-08-27 AT AT03790989T patent/ATE343178T1/de not_active IP Right Cessation
- 2003-08-27 US US10/526,090 patent/US7460715B2/en not_active Expired - Fee Related
- 2003-08-27 WO PCT/FR2003/002588 patent/WO2004021265A2/fr active Search and Examination
Also Published As
Publication number | Publication date |
---|---|
WO2004021265A2 (fr) | 2004-03-11 |
DE60309191D1 (de) | 2006-11-30 |
EP1554687A2 (fr) | 2005-07-20 |
AU2003276329A1 (en) | 2004-03-19 |
ATE343178T1 (de) | 2006-11-15 |
WO2004021265A3 (fr) | 2004-04-08 |
US7460715B2 (en) | 2008-12-02 |
DE60309191T2 (de) | 2007-08-30 |
FR2844079A1 (fr) | 2004-03-05 |
US20050249418A1 (en) | 2005-11-10 |
FR2844079B1 (fr) | 2005-08-26 |
EP1554687B1 (fr) | 2006-10-18 |
AU2003276329A8 (en) | 2004-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hewitt et al. | Language sampling for kindergarten children with and without SLI: Mean length of utterance, IPSYN, and NDW | |
Rosenbusch et al. | Supervised machine learning methods in psychology: A practical introduction with annotated R code | |
Bernardi et al. | Driver and Path Detection through Time‐Series Classification | |
Kumar et al. | A critical review of network‐based and distributional approaches to semantic memory structure and processes | |
Aman et al. | A predictive model for predicting students academic performance | |
Alsouda et al. | A machine learning driven IoT solution for noise classification in smart cities | |
Jacob | Modelling speech emotion recognition using logistic regression and decision trees | |
Gert | Primitive colors: A case study in neo-pragmatist metaphysics and philosophy of perception | |
Vijayakumar et al. | Sound-word2vec: Learning word representations grounded in sounds | |
CN109461441A (zh) | 一种自适应、无监督式的课堂教学活动智能感知方法 | |
Zedelius et al. | Inquisitive but not discerning: Deprivation curiosity is associated with excessive openness to inaccurate information | |
ES2276150T3 (es) | Sistema asociativo difuso de descripcion de objetos multimedia. | |
CN112732910A (zh) | 跨任务文本情绪状态评估方法、系统、装置及介质 | |
Mata et al. | Computing the Collection of Good Models for Rule Lists | |
Schwenker et al. | Radial basis function neural networks and temporal fusion for the classification of bioacoustic time series | |
Ferdiana et al. | Cat sounds classification with convolutional neural network | |
Sheppard | The reasonableness machine | |
Kalociński et al. | Semantics of the Barwise sentence: insights from expressiveness, complexity and inference | |
Liu et al. | Speech emotion detection using sliding window feature extraction and ANN | |
Starc et al. | Constructing a Natural Language Inference dataset using generative neural networks | |
CN107067034A (zh) | 一种快速识别红外光谱数据分类的方法及系统 | |
CN113627155A (zh) | 一种数据筛选方法、装置、设备及存储介质 | |
Mujumdar et al. | Design of a dysarthria classifier using global statistics of speech features | |
Zhu et al. | Isolating effects of age with fair representation learning when assessing dementia | |
CN116978106B (zh) | 批处理混合对比学习的跨模态情绪异常检测方法和装置 |