ES2207770T3 - Procedimiento para el reconocimiento de secuencias de imagenes unicas. - Google Patents

Procedimiento para el reconocimiento de secuencias de imagenes unicas.

Info

Publication number
ES2207770T3
ES2207770T3 ES98112279T ES98112279T ES2207770T3 ES 2207770 T3 ES2207770 T3 ES 2207770T3 ES 98112279 T ES98112279 T ES 98112279T ES 98112279 T ES98112279 T ES 98112279T ES 2207770 T3 ES2207770 T3 ES 2207770T3
Authority
ES
Spain
Prior art keywords
images
image
recognition
sequence
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES98112279T
Other languages
English (en)
Inventor
Klaus Dr.-Ing. Schulze
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Application granted granted Critical
Publication of ES2207770T3 publication Critical patent/ES2207770T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Holo Graphy (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Television Systems (AREA)

Abstract

LA INVENCION SE REFIERE A UN PROCEDIMIENTO PARA DETECTAR SECUENCIAS DE IMAGENES UNICAS, COMO POR EJEMPLO LAS CUÑAS PUBLICITARIAS EN LA TELEVISION, EN EL QUE LAS IMAGENES INDIVIDUALES QUE COMPONEN LAS SECUENCIAS SE TOMAN, DIGITALIZAN Y COMPARAN CON UN MODELO DE REFERENCIA EN RELACION CON SU CLARIDAD MEDIANTE UN ANALISIS DE CARACTERISTICAS PRACTICAMENTE ESTOCASTICO DE VARIAS IMAGENES. LA DECORRELACION TIENE LUGAR MEDIANTE EL ANALISIS DE CARACTERISTICAS PRACTICAMENTE ESTOCASTICO DE GRUPOS DE IMAGENES. DE ESTA FORMA, INCLUSO SI SE SUCEDEN VARIAS IMAGENES IDENTICAS, LAS CARACTERISTICAS TOMADAS SUCESIVAMENTE DE LAS MISMAS SON DIFERENTES PORQUE LOS MODELOS NO SE GENERAN COMO SECUENCIAS DE IMAGENES SINO COMO GRUPOS DE IMAGENES QUE SIGUEN UN PATRON CASI ALEATORIO.

Description

Procedimiento para el reconocimiento de secuencias de imágenes únicas.
La presente invención se refiere a un procedimiento para el reconocimiento de secuencias de imagen únicas según el preámbulo de la reivindicación 1, así como a un dispositivo para la realización del procedimiento según la reivindicación 21.
El documento EP 0 358 910 describe un sistema de reconocimiento de imágenes en el que mediante extracción casi estocástica de características de luminosidad de cada imagen se realiza una secuencia de entrada y su comparación con muestras de referencia y un nuevo reconocimiento de secuencias de imágenes. Las características de luminosidad dentro de una imagen pierden la correlación, seleccionándose características distintas entre diversas imágenes.
El documento US 4 739 398 A describe un procedimiento similar, en el que de cada imagen se extraen palabras de 16 bit de longitud de puntos distribuidos pseudoaleatoriamente y cada ocho características extraídas de la secuencia de imágenes según consideraciones estocásticas se unen en una signatura. En funcionamiento, se introducen y desplazan las signaturas de imagen a una memoria intermedia de forma circular. Se seleccionan mediante la ayuda de un desplazamiento almacenado según la ley de formación de signaturas de segmento. Tiene lugar una comparación con una conexión EX-NOR.
En YEO B-L y col.: "A Unified Approach to Temporal Segmentation of Motion JPEG and MPEG compressed Vídeo", Proceedings of the International Conference on multimedia computing and Systems, EEUU, Los Alamitos, IEEE Comp. Soc. Press, 15 de Mayo de 1995 (1995-05-15), Páginas 81-88, XP000632094; ISBN: 0-8186-7105-X, se describe la teoría sobre cómo pueden detectarse modificaciones de las escenas en vídeos comprimidos según JPEG y MPEG. Para ello, se propone un algoritmo, que analiza los componentes iguales de la secuencia.
Las secuencias de imágenes, que se componen de una multitud de imágenes individuales alineadas una junto a otra y unidas entre sí por contenido, deben reconocerse, por ejemplo, en la televisión en cada nueva emisión. Estas secuencias de imágenes pueden ser anuncios publicitarios, espacios de pago, viejas películas o vídeo clips o espacios políticos, como, por ejemplo, cortes de campaña electoral. Es común a todas las aplicaciones mencionadas que la distribución de secuencias de imagen, debido a las tasas que deben pagarse, deben poder registrarse por motivos legales o estadísticos. Por ello, secuencias de imágenes únicas significa que las imágenes se mantienen en contenido en su formato original, es decir, todos los puntos de imagen son de un único tipo en cuanto a luminosidad y tipo de color, y de este modo, invariables. Al copiar a instalaciones de alto valor técnico, esta disposición de tipo único no varía en ningún valor ni se complementa. El concepto "única" se refiere, por tanto, también, a secuencias de imagen copiadas.
Los anuncios publicitarios, por ejemplo, son emitidos por las televisiones en momentos, en los que son especialmente interesantes para los anunciantes, porque su alcance de difusión es particularmente grande. Para los anunciantes resulta interesante que se compruebe si su anuncio se envía efectivamente en el tiempo conectado. Un anuncio publicitario varía su aspecto a lo largo de su existencia, es decir, se reduce, se modifican algunas imágenes o se intercambian. Esta nueva secuencia de imágenes debe distinguirse de la versión original.
Del documento DE 43 09957C1 se conoce un procedimiento para el reconocimiento de secuencias de imagen únicas. Para ello, se reúnen los elementos de imagen individuales, llamados píxeles, en grupos o bloques, que se denominan cluster y cuyos valores de brillo y luminosidad se digitalizan y como características se comparan con las característica de las imágenes conocidas o muestras de referencia.
Debido a la compresión o reducción de datos necesaria, la probabilidad de un reconocimiento erróneo de una imagen es relativamente alta. Para reducir el número de reconocimientos erróneos, en el procedimiento conocido se exploran, por tanto, diversas imágenes contiguas. Con ello resulta desventajoso que las imágenes contiguas, normalmente, se parecen mucho, de forma que las características localizadas a menudo conducen a similitudes aleatorias, sin que existan, realmente, imágenes similares. Los llamados reconocimientos erróneos, a decir verdad, no perjudican indispensablemente el reconocimiento de un anuncio publicitario en sí, pero conducen, sin embargo, a una gran acumulación de datos que cargan el ordenador.
El objetivo de la presente invención se basa, por tanto, en evitar la acumulación de datos y reducir el número de reconocimientos erróneos.
El objetivo se alcanza mediante las características definidas en las reivindicaciones 1 y 21.
De esta forma, en lugar de una extracción de características de imágenes contiguas según un procedimiento casi estocástico, se extraen características de diversas imágenes, las similitudes aleatorias de imágenes contiguas pueden desatenderse, puesto que se rompen las uniones de imágenes contiguas. De esta forma, se reducen el número de reconocimientos erróneos aleatorios y la acumulación de datos vinculada que carga el ordenador.
Las características seleccionadas de imágenes individuales se registran en una secuencia ordenada en una memoria de un carrusel de imágenes organizada como registro de desplazamiento y se leen según un procedimiento casi estocástico en acceso opcional. El acceso a las características tiene lugar, por ello, con la mayor anchura de salto posible sobre las imágenes. Al mismo tiempo, tiene lugar el acceso a las características con la mayor distancia posible dentro de las imágenes. Mediante esta medida se consigue una descorrelación de las características, porque se rompen las uniones temporales y espaciales.
Según una forma de realización preferente de la invención, se lleva a cabo un procesamiento en dos etapas del procedimiento con una primera etapa para el reconocimiento aproximado y una segunda etapa para el reconocimiento preciso. El reconocimiento aproximado está reducido en su acumulación de datos, de forma que es posible en tiempo real. Permite el reconocimiento de un anuncio, sin poder constatar posibles mutaciones existentes. El reconocimiento preciso no tiene lugar entonces hasta que el reconocimiento aproximado ha asignado una secuencia de imágenes o anuncio publicitario a la muestra de referencia existente. El reconocimiento preciso suministra entonces la ultima garantía y localiza las mutaciones espaciales y temporales.
Para la formación de las características se extrae la modificación de luminosidad dentro de un cluster formado por píxeles unidos espacialmente.
Con ello, los píxeles se someten a una transformación de coseno discreta. Uno de los coeficientes de cambio de baja frecuencia se reduce a su signo y se usa como característica. Una secuencia de imágenes se divide en períodos de tiempo de duración constante, en que cada período de tiempo representa una unidad independiente, que se correlaciona. Las imágenes de un período de tiempo se codifican así en una forma que reduce los datos extremadamente. El reconocimiento o reconocimiento aproximado de un anuncio publicitario tiene lugar, entonces, cuando se reconocen los períodos de tiempo individuales en la secuencia correcta y en la distancia temporal correcta.
La invención se refiere, además, a un dispositivo para la realización del procedimiento según una de las reivindicaciones 1 a 20.
Del documento DE 4309 957 C1 se conoce un dispositivo para la realización de un procedimiento para el reconocimiento de secuencias de imágenes únicas. El dispositivo conocido tiene la desventaja de que sólo es posible una extracción de características de imágenes contiguas, de forma que las características extraídas de las imágenes se correlacionan entre sí, y conducen a un elevado número de reconocimientos erróneos.
En la presente invención, un carrusel de imágenes, que presenta una memoria organizada como registro de desplazamiento, está unido, por un lado, mediante un transformador DCT a un descodificador de vídeo con conversor Raster/Cluster y, por otro lado, mediante un correlacionador con una memoria de referencia, y una secuencia de imágenes alimentada por un receptor al descodificador de vídeo puede alimentar como vector de características al correlacionador y puede compararse con una muestra de referencia que se puede almacenar en la memoria de referencia.
Mediante el uso del carrusel de imágenes se posibilita, de modo sencillo, una extracción de características casi estocástica, en la que las características de distintas imágenes se descorrelacionan.
Según una forma de realización preferente de la invención se prevé entre el transformador DCT y el carrusel de imágenes una bifurcación hacia una memoria de reconocimiento preciso, que está configurada como registro de desplazamiento FIFO (first in, first out: el primero en entrar es el primero en salir), en la que pueden almacenarse todas las características de una secuencia de imágenes.
Mediante el uso del registro de desplazamiento FIFO no es posible realizar un reconocimiento preciso hasta que ha tenido lugar el reconocimiento aproximado en tiempo real.
Otros detalles de la invención se desprenden de la extensa descripción que tiene lugar a continuación y de los dibujos adjuntos, en los cuales se ilustran, a modo de ejemplo, formas de realización preferentes de la invención.
En los dibujos se muestran:
Figura 1: esquema de conjunto de conexiones de un dispositivo para el reconocimiento de secuencias de imágenes únicas.
Figura 2: una representación esquemática de anuncios publicitarios como secuencias de imagen con una secuencia de imágenes dividida en períodos de tiempo que pueden extraerse,
Figura 3: representación esquemática de imágenes de un período de tiempo individual con características.
Figura 4: representación de un vector de características del período de tiempo de la figura 3 como corriente binaria,
Figura 5: un ejemplo para una mutación, en la que un producto ha perdido el atributo "nuevo",
Figura 6: un ejemplo para una mutación local dentro de una imagen, en la que se modificó una letra en un rótulo (fragmento),
Figura 7: representación de una muestra de referencia espectral en forma de imágenes de base de coeficientes de valor más bajo,
Figura 8: una representación de variantes de coeficientes individuales de una transformación de coseno discreta,
Figura 9: una representación de reducción de datos de la señal de luminancia en el formato CCIR,
Figura 10: una representación de la densidad de distribución de amplitud del coeficiente de una imagen cualquiera sin conversión de la frecuencia de muestreo.
Figura 11: una representación de la densidad de distribución de amplitud del coeficiente C_{01}de una imagen cualquier con conversión de la frecuencia de muestreo.
Figura 12: una representación de la proporción de concordancias aleatorias de secuencias de imagen con muestras de referencia en comparación con la distribución binomial esperada teóricamente.
Figura 13: una representación esquemática de un carrusel de imágenes,
Figura 14: una representación de la distribución de concordancias aleatorias de la muestra binaria en distintas medidas que descorrelacionan y
Figura 15: una representación del efecto de medidas que descorrelacionan por encima del límite de reconocimiento, como sección de la imagen 14.
Un dispositivo para el reconocimiento de secuencias de imágenes únicas (1) se compone, básicamente, de un descodificador de vídeo (2) con conversor Raster/Cluster, que con su entrada (3) está unido con la salida de vídeo de un receptor (4). La salida del descodificador de vídeo (2) está unido con una entrada de un transformador DCT (5). La salida del transformador DCT (5) está unido con una entrada (6) de un carrusel de imágenes (7). El carrusel de imágenes (7) está unido con su salida (8) con la entrada de un correlacionador (9). El correlacionador (9), por su parte, está unido con una memoria de referencia (10). El correlacionador (9), además, está unido con una unidad de evaluación (13) para el reconocimiento aproximado. Entre el transformador DCT (5) y el carrusel de imágenes (7) está dispuesto un registro de desplazamiento FIFO (12), que está unido con una unidad de evaluación (13) para el reconocimiento preciso. De la unidad de evaluación (11) para el reconocimiento aproximado se realiza un reconocimiento aproximado en un primer nivel de procesamiento de señales. Cuando la unidad de evaluación (11) para el reconocimiento aproximado ha encontrado una secuencia de imágenes (14) con una similitud tan grande respecto a una muestra de referencia almacenada en la memoria de referencia (10), que se trata con gran probabilidad (por ejemplo >90%) del anuncio publicitario buscado o de la secuencia de imágenes (14) buscada, respectivamente, la unidad de evaluación (13) para el reconocimiento preciso recibe una señal de reconocimiento de la unidad de evaluación (11) para el reconocimiento aproximado, y se inicia un segundo nivel de procesamiento con los datos almacenados en el registro de desplazamiento FIFO (12). El reconocimiento preciso proporciona, entonces, la garantía final y descubre las mutaciones locales y temporales.
Debido a la mutación temporal (acortamiento o modificación de una escena) debe codificarse toda la secuencia de imágenes (14). De forma conveniente, para ello se divide la secuencia de imágenes (14) en llamados períodos de tiempo (15) de, por ejemplo, dos segundos de duración. Los períodos de tiempo (15) representan unidades independientes, que se correlacionas por sí mismas. El reconocimiento (reconocimiento aproximado) de una secuencia de imágenes (14) tiene lugar, entonces, cuando los períodos de tiempo individuales (15) se reconocen en el orden correcto y en la distancia temporal correcta por la unidad de evaluación (11,13).
En caso de que exista una mutación temporal, entonces faltan períodos de tiempo (15) individuales, mientras que el resto se reconocen en el orden esperado. La duración mencionada de aproximadamente dos segundos se ha calculado como idónea en múltiples pruebas, pero pueden experimentarse correcciones, en tanto que en anuncios publicitarios o secuencias de imagen (14) existan longitudes preferentes y los períodos de tiempo (15) se elijan, entonces, de forma que estas duraciones se distribuyan sin partes restantes a períodos de tiempo. Ejemplo: duración menor de anuncio publicitario, 7 segundos, por tanto, duración de los períodos de tiempo (15) individuales: 1,75 segundos. En otro caso, la parte restante que ya no puede dividirse no se tiene en cuenta en la correlación.
Las mutaciones locales, es decir, las modificaciones dentro de una imagen (16) de una secuencia de imágenes (14) se extienden sobre una zona que puede expresarse en píxeles (puntos de imagen). La figura 6 muestra un ejemplo, en el que se modificó una letra en un rótulo (fragmento). Las modificaciones significativas cubren una zona de 32x32 píxeles. Para el reconocimiento preciso, es decir, para el reconocimiento de mutaciones locales que puedan existir eventualmente, cada imagen se subdivide en zonas, aproximadamente, de la dimensión mencionada, que como unidad independiente tienen que correlacionarse (compararse) con zonas correspondientes de otras imágenes en la unidad de procesamiento (13). Para la codificación del grupo de píxeles, es decir, de un cluster, se extrae la parte de cambio de luminancia, o luminosidad dentro del cluster. Esta parte de cambio indica, hablando en general, la modificación de la luminosidad dentro del cluster, en contraposición a un parte igual que está enumerada con luminosidad media. La modificación de luminosidad puede completarse de múltiples formas: puede ser un simple gradiente en una determinada dirección o también un cambio múltiple oscuro-claro. De forma conveniente, la transformación de coseno discreta realizada por el transformador DCT (5) se usa para la detección del cambio oscuro-claro. Esta transformación de coseno discreta se introduce también dentro de los algoritmos de compresión conocidos, por ejemplo, JPEG, MPEG y, por tanto, se pone en práctica en chips muy integrados, como por ejemplo Zoran 36050. En estas compresiones de imagen, la imagen se divide en clusters (bloques) de 8x8 píxeles de dimensión (conversión raster a cluster), que a continuación se someten a una transformación de coseno discreta bidimensional. De este modo, se consigue una representación de frecuencia adecuada de las imágenes. La compresión consiste, en principio entonces, en que las partes de frecuencia elevada se reducen mucho, o incluso se eliminan. Las muestras de referencia espectral para los coeficientes individuales C_{nk} se denominan imágenes de base, de las cuales las de valores más bajos se representan en la figura 7. La imagen de base superior izquierda (coeficiente C_{00}) suministra -aplicado a un cluster de 8x8 píxeles- la parte igual, es decir la luminosidad media del cluster. La imagen de base superior derecha (coeficiente C_{01}) revisa en qué medida el desarrollo de luminosidad existe en el cluster analizado. Proporciona, por tanto, la línea de espectro inferior de la información de la imagen según la parte igual. Las imágenes de base restantes de la figura 7 proporcionan informaciones correspondientes en otro sentido de la imagen. Las imágenes de base para los coeficientes DCT de orden superior no están representados, puesto que para esta invención no tienen ninguna relevancia. La transformación de coseno discreta tiene la propiedad de que las informaciones esenciales, que se repartieron en la zona original a todos los valores de apoyo, tras la transformación se concentran en pocos componentes. Es decir, las partes de energía básica se encuentran en llamados coeficientes DC (parte igual) y en coeficientes AC inferiores (partes de cambio de frecuencia baja).
La figura 8 muestra la reducción de energía en coeficientes AC de orden superior. La parte de energía en, por ejemplo, el coeficiente C_{01} puede casi doblarse de manera ventajosa, cuando se introduce una decimación horizontal y vertical. Bajo este concepto se entiende la reunión regular de cuatro píxeles dispuestos de forma cuadrada en un nuevo píxel. Este procedimiento se denomina también conversión de la frecuencia de muestreo (down sampling). De este modo, un cluster de 16x16 píxeles retrocede a un cluster grande de 8x8 píxeles, sobre el cual se aplica de nuevo la transformación de coseno discreta. Los coeficientes C_{01} creados ahora contienen en general el resultado duplicado como los coeficientes conseguidos del cluster original de 8x8. En la realización de hardware este procedimiento resulta parcialmente del entrelazado de líneas normal en la televisión, en el que se transmiten las imágenes ensambladas en líneas en forma de semi-imagen. En caso que se trate ahora únicamente una semi-imagen, ya se dispone, entonces, de una conversión de la frecuencia de muestreo vertical. La conversión de la frecuencia de muestreo horizontal puede montarse adicionalmente en las puestas en práctica comerciales de chips. En la figura 10 se representa la densidad de distribución de amplitud del coeficiente C_{01} de una imagen cualquier (16) sin conversión de la frecuencia de muestreo. En la figura 11 se representa la densidad de distribución de amplitud del coeficiente C_{01} de la figura 10 con conversión de la frecuencia de muestreo. La curva algo más ancha de la figura 11 proporciona numéricamente casi la modificación duplicada como la curva de la figura 10.
Después de que ahora todas las imágenes (16) de un período de tiempo (15) se han dividido en clusters de 8x8 píxeles de dimensión mediante decimación, los bloques de imagen o cluster son de 16x16 píxeles - y se han transformado en la zona espectral, el coeficiente de cambio inferior de potencia elevada - es decir C_{01} o C_{10}de uno de cada cluster- ha sufrido, de este modo, otra reducción de datos, de forma que sólo se aprovecha su signo. Un cluster de 8x8 píxeles se representa mediante un bit, que indica el signo del coeficiente de cambio. Mediante esta medida, los datos de un período de tiempo (15) recibidos, así tienen las siguientes ventajas decisivas: todas las secuencias de imágenes se codifican de forma que reduce extremadamente los datos. Cada bit es una característica local, que es independiente de la modulación de las señales de imagen y su relación señal/ruido.
La reducción de datos de la señal de luminancia en formato CCIR de 768x576 píxeles asciende, en principio, a aproximadamente 2x10_{3}.En una duración de período de tiempo de, por ejemplo, 2 segundos sigue resultando un volumen de datos de, aproximadamente, 11 kBytes. En un procesamiento en tiempo real de miles de anuncios publicitarios este volumen de datos sería demasiado grande. El reconocimiento aproximado se usa, por tanto, como procedimiento posible en tiempo real, para reconocer secuencias de imagen sin valoración de mutaciones que puedan haberse llevado a cabo eventualmente. El reconocimiento preciso se coloca, entonces, como procedimiento no posible en tiempo real sobre el reconocimiento aproximado, lo confirma y permite el análisis de mutaciones.
Un reconocimiento aproximado es posible con aproximadamente 16 características (17,18) por imagen (16). Por característica (17,18) se entiende el bit de signo del coeficiente DCT. De esta forma, se extraen 16 bits de los 1.728 bits de signo de una (semi)-imagen, es decir dos bytes según un esquema determinado. En un período de tiempo (15) largo de dos segundos existen 100 byte por período de tiempo (15). El esquema de extracción impide la unión espacial de los coeficientes. Los objetos de imagen tienen, en general, un extensión, que comprende muchos cluster. Para estos cluster resultan, con gran probabilidad, coeficientes DCT iguales. Características (17,18), que se extraen de estos cluster, de este modo, no son independientes entre sí y no mejoran la calidad de reconocimiento. Las uniones se interrumpen, cuando las 16 características (17,18) se extraen de los cluster que se encuentran lo más separados posibles mediante un procedimiento casi estocástico. Aquí se procede de la misma forma en cada imagen (16) de un período de tiempo (15), así se consigue una cadena de datos de, por ejemplo, 16x50 = 800 bit de longitud. Se presupone la independencia de cada bit individual, así resulta la probabilidad de una concordancia aleatoria de dos muestras binarias de este tipo en un bit k de N posibles según la distribución binomial con p como probabilidad de aparición de una característica (17,18).
b(k_{1}N_{1}p)= (k^{N})p^{k} (1-p)^{N-k}
En los casos considerados aquí es p=0,5, es decir 0 y 1 como bit de signo de un coeficiente son igual de probables. El reparto binomial se reduce, de este modo, a
b(k_{1} N_{1}p)=(k^{N})p^{N}
En caso de existir un límite inferior de 85% para un reconocimiento de \frac{k}{N} 100% \geq85%
entonces todas las similitudes de dos muestras de períodos de tiempo superiores al 85% se valoran como reconocimientos. Si este reconocimiento de período de tiempo pertenece realmente a un reconocimiento de secuencia de imágenes auténtica, se comprueba mediante una prueba de plausibilidad mediante software. En caso contrario, se trata de una concordancia aleatoria, un llamado reconocimiento erróneo.
Para evitar reconocimientos erróneos, se prevé el carrusel de imágenes (7). El carrusel de imágenes es una memoria (19) organizada como registro de desplazamiento, en el cual las características seleccionadas (17, 18) de las imágenes (16) de un período de tiempo (15) se registran en una secuencia ordenada. El carrusel de imágenes (7) tiene ahora el objetivo de mezclar diversas imágenes (16) de forma que las muestras no se generen de forma secuencial a la imagen, sino según una muestra casi aleatoria sobre diversas imágenes (16). Resulta la llamada codificación de la compresión temporal (interframe). En la figura 14 se representa el reparto de concordancias aleatorias de tales codificaciones de la compresión temporal, en que se llevó a cabo la mezcla sobre 2, 10 y 50 imágenes. La curva 1 muestra una llamada codificación de la compresión temporal, en la que se procesan las características en la secuencia de imágenes. En la figura 15 se representa ampliada la zona por encima del límite de reconocimiento del 85%. Tras 40 ms se añaden las características (17,18) de una nueva imagen (20) en la memoria, mientras que la imagen más "antigua" (21) se desplaza al final de la memoria (19). Entre dos actualizaciones de la memoria (19) según un procedimiento casi estocástico se seleccionan las características N (17,18) de un período de tiempo en acceso opcional y se ponen a disposición del correlacionador (9) para su comparación con la muestra de referencia. Así, se procede de manera que ningún cluster de una imagen (16) se selecciona una segunda vez durante su tiempo de espera en el carrusel de imágenes (7). El acceso a las características (17,18) tiene lugar con la mayor anchura de salto posible sobre las imágenes (16) en la mayor distancia posible, al mismo tiempo, dentro de las imágenes (16). A través de esta medida se consigue una descorrelación de las características (17,18), porque se rompen las uniones temporales y espaciales.
El procedimiento puede realizarse en las siguientes etapas:
a)
Las secuencias de imagen (14) se dividen en períodos de tiempo (15) de 1,5 a 2 segundos de duración (ajuste al objetivo de reconocimiento).
b)
Cada imagen (16) se divide en cluster conforme al procedimiento JPEG de uso, en que de forma ventajosa se usa una conversión de la frecuencia de muestreo horizontal y vertical. Los cluster de las imágenes se someten a una transformación de coseno discreta y el signo de un coeficiente de cambio de valor inferior se usa como característica (17,18), (preferiblemente C_{01} o C_{10}).
c)
De las 1.728 características (17) por imagen (16) surgidas del punto b) se carga en el registro de desplazamiento del carrusel de imágenes una cantidad inferior de aproximadamente 800 a 1.000 características (18) para la correlación en tiempo real o reconocimiento aproximado, respectivamente. De aquí se extraen aproximadamente 800 a 1.000 características (18) por período de tiempo (15) según un procedimiento de acceso que actúa de forma descorrelativa y se registran como vector de características (22) para todo el período de tiempo. Esto corresponde aproximadamente a 16 hasta 32 bit por imagen.
d)
El vector de características (22) generado en el punto c) se denomina muestra de referencia y, más adelante, se compara en funcionamiento con muestras de prueba generadas de la misma forma continuamente por el programa de televisión en curso, de manera correlativa en forma de una unión EXNOR. En caso de una similitud mayor que el límite indicado (aproximadamente 85%) se asume un reconocimiento. Los reconocimientos se introducen como medida de similitud junto con un cronofechador de imagen exacta en una base de datos, que contiene los campos correspondientes para todas las muestras de referencia que deben compa- rarse.
e)
La base de datos se comprueba constantemente por un software adecuado en períodos de tiempo (15) correspondientes, que se reconocieron en la distancia correcta conforme a la imagen y con similitud suficiente. En caso de que se reconozca una mayoría de períodos de tiempo (25) de una secuencia de imágenes (14), sirve toda la secuencia de imágenes como reconocida.
f)
El procedimiento de reconocimiento según el punto d) y e) tiene lugar en tiempo real, de forma que puede mostrarse un reconocimiento de imagen inmediatamente después de que se envíe la secuencia de imágenes o el anuncio publicitario. Así, todas las características de imagen (17) se dirigen hacia el reconocimiento preciso, éstas son, por ejemplo, en una duración de período de tiempo de dos segundos = 86.400 bit = 10,8 kByte, que se han almacenado de forma intermedia en el registro de desplazamiento FIFO (12). Aquí tiene lugar una correlación dividida en zonas de todas las imágenes (16) de todos los períodos de tiempo (15) de una secuencia de imágenes (14). Esta comparación puede llevarse a cabo con muestras de referencia seleccionadas de antemano, puesto que el reconocimiento de imagen ya existe en la base.

Claims (23)

1. Procedimiento para el reconocimiento de secuencias de imagen únicas, en el que se extraen de las imágenes individuales de la secuencia de imágenes características relativas a su luminosidad, se digitalizan y se comparan con una muestra de referencia, en el que las características (17,18) se descorrelacionan mediante una extracción de características casi estocástica correspondiente a un período de tiempo en diversas imágenes (16), de forma que las características (17, 18) seleccionadas de imágenes individuales de la secuencia de imágenes ordenadas se registran en una memoria (19) de un carrusel de imágenes (17) organizada como registro de desplazamiento y se leen según un procedimiento casi estocástico en acceso opcional, caracterizado porque el acceso a las características (17, 18) tiene lugar, por un lado, con una anchura de salto (23) lo mayor posible sobre las imágenes (16) y, por otro lado, con una distancia espacial lo mayor posible dentro de las imágenes (16), y porque las imágenes (16) están divididas en cluster formados por una multitud de píxeles que se unen espacialmente, y para la formación de las características (17,18) se recurre a la modificación de la luminosidad dentro de los cluster de forma que, los cluster se someten a una transformación de coseno discreta, en el que como característica (17,18) se usa un coeficiente de cambio de baja frecuencia de la transformación de coseno discreta reducido a su signo.
2. Procedimiento según la reivindicación 1, caracterizado porque, tras aproximadamente 40 ms, se añaden las características (17,18) de una nueva imagen (20) a la memoria (19), y las características (17,18) de la imagen más antigua (21) se desplazan hacia el final de la memoria (19).
3. Procedimiento según una de las reivindicaciones 1 ó 2, caracterizado porque las características (17,18) se ponen a disposición de un correlacionador (9) para compararlas con la muestra de referencia.
4. Procedimiento según una de las reivindicaciones 1 a 3, caracterizado porque cada secuencia de imágenes (14) se divide en períodos de tiempo (15) de duración constante.
5. Procedimiento según la reivindicación 4, caracterizado porque cada período de tiempo (15) representa una unidad independiente que se correlaciona.
6. Procedimiento según la reivindicación 4 ó 5, caracterizado porque se reconoce una secuencia de imágenes (14) cuando los períodos de tiempo individuales (15) se reconocen en la secuencia correcta y en la distancia temporal correcta.
7. Procedimiento según una de las reivindicaciones 4 a 6, caracterizado porque la secuencia de imágenes (14) se divide en períodos de tiempo (15) de una duración de aproximadamente 1,5 a 2 segundos.
8. Procedimiento según una de las reivindicaciones 4 a 7, caracterizado porque la duración de los períodos de tiempo (15) se selecciona de forma que la duración de la secuencia de imágenes (14) puede dividirse sin partes restantes en períodos de tiempo (15).
9. Procedimiento según la reivindicación 1, caracterizado porque los cluster presentan una dimensión de 8x8 píxeles.
10. Procedimiento según la reivindicación 9, caracterizado porque los cluster pueden someterse a una conversión de la frecuencia de muestreo mediante decimación horizontal y vertical.
11. Procedimiento según la reivindicación 10, caracterizado porque cuatro píxeles dispuestos en cuadrado se unen en un nuevo píxel.
12. Procedimiento según la reivindicación 11, caracterizado porque un cluster que comprende 16 x 16 píxeles se reduce a un cluster grande de 8 x 8 píxeles.
13. Procedimiento según una de las reivindicaciones 1 a 11, caracterizado porque se realiza un procesamiento en dos niveles con un primer nivel para el reconocimiento aproximado y un segundo nivel para el reconocimiento preciso.
14. Procedimiento según la reivindicación 13, caracterizado porque el reconocimiento aproximado se reduce en su acumulación de datos de forma que es en tiempo real.
15. Procedimiento según la reivindicación 13 ó 14, caracterizado porque para el reconocimiento aproximado de las imágenes individuales (16) de los períodos de tiempo (15) se extraen características (17,18) y se cargan en la memoria (19) del carrusel de imágenes (7) para la correlación en tiempo real, y se extraen según el procedimiento de acceso que actúa de manera no correlativa y se procesan como vectores de característica (22) por unidad de tiempo (15).
16. Procedimiento según la reivindicación 15, caracterizado porque el vector de características (22) de un período de tiempo (15) se compara con una muestra de referencia correspondiente en formato de unión EXNOR y, en el caso del reconocimiento, se introduce en una base de datos, que contiene los campos correspondientes para todas las muestras de referencia que deben compararse.
17. Procedimiento según la reivindicación 16, caracterizado porque la base de datos se comprueba constantemente por un software adecuado en períodos de tiempo (15) correspondientes, que se reconocieron en la distancia correcta conforme a la imagen y con la suficiente similitud.
18. Procedimiento según la reivindicación 17, caracterizado porque una secuencia de imágenes (14) es válida como reconocida, cuando se ha reconocido una mayoría de períodos de tiempo (15) de una secuencia de imágenes (14).
19. Procedimiento según una de las reivindicaciones 13 a 18, caracterizado porque el reconocimiento preciso no tiene lugar hasta que el reconocimiento aproximado ha asignado una secuencia de imágenes (14) a la muestra de referencia existente.
20. Procedimiento según la reivindicación 19, caracterizado porque en el reconocimiento preciso se procesan todas las características (17,18), que están unidas en intervalos de imagen.
21. Dispositivo para la realización del procedimiento según una de las reivindicaciones 1 a 20, caracterizado porque un carrusel de imágenes (7), que presenta una memoria (19) organizada como registro de desplazamiento, está unida, por un lado, mediante un transformador DCT (5) con un descodificador de vídeo (2) con un conversor raster/cluster y, por otro lado, mediante un correlacionador (9) con una memoria de referencia (10), porque una secuencia de imágenes (14) seleccionada en el descodificador de vídeo (2) por un receptor (4) puede dirigirse al correlacionador (9) como un vector (22) de características y compararse con una muestra de referencia que puede almacenarse en la memoria de referencia (10), en el que el vector de características (22) se forma de forma que, las características (17,18) seleccionadas de imágenes individuales se registran en el carrusel de imágenes y se leen mediante un procedimiento casi estocástico en acceso opcional, en que el acceso a las características (17,18) tiene lugar, por un lado, con una anchura de salto (23) lo mayor posible sobre las imágenes (16) y, por otro lado, con una distancia espacial lo mayor posible dentro de las imágenes, en el que las imágenes (16) están divididas en cluster formados por multitud de píxeles unidos espacialmente y para la formación de las características se extrae la modificación de luminosidad dentro del cluster, porque los cluster se someten a una transformación de coseno discreta, en el que como característica (17,18) se usa un coeficiente de cambio de baja frecuencia de la transformación de coseno discreta reducido a su signo.
22. Dispositivo según la reivindicación 21, caracterizado porque entre el transformador DCT (5) y el carrusel de imágenes (7) está prevista una bifurcación a una memoria de reconocimiento preciso.
23. Dispositivo según la reivindicación 22, caracterizado porque la memoria de reconocimiento preciso está configurada como registro de desplazamiento FIFO, en el que pueden almacenarse todas las características (17) de una secuencia de imágenes (14).
ES98112279T 1997-07-02 1998-07-02 Procedimiento para el reconocimiento de secuencias de imagenes unicas. Expired - Lifetime ES2207770T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19728099 1997-07-02
DE19728099A DE19728099A1 (de) 1997-07-02 1997-07-02 Verfahren und Vorrichtung zur Erkennung unikater Bildfolgen

Publications (1)

Publication Number Publication Date
ES2207770T3 true ES2207770T3 (es) 2004-06-01

Family

ID=7834331

Family Applications (1)

Application Number Title Priority Date Filing Date
ES98112279T Expired - Lifetime ES2207770T3 (es) 1997-07-02 1998-07-02 Procedimiento para el reconocimiento de secuencias de imagenes unicas.

Country Status (7)

Country Link
US (1) US6373891B1 (es)
EP (1) EP0889431B1 (es)
AT (1) ATE251322T1 (es)
DE (2) DE19728099A1 (es)
DK (1) DK0889431T3 (es)
ES (1) ES2207770T3 (es)
PT (1) PT889431E (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2825862A1 (fr) * 2001-06-06 2002-12-13 St Microelectronics Sa Procede de transmission de donnees en mc/cdma
CN1327391C (zh) * 2001-11-30 2007-07-18 环球安全设计公司 图像特征的识别信号产生方法
CN104361259B (zh) * 2014-12-03 2017-03-01 广东电网有限责任公司电力科学研究院 一种变压器越限运行特征分析方法
CN109711437A (zh) * 2018-12-06 2019-05-03 武汉三江中电科技有限责任公司 一种基于yolo网络模型的变压器部件识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4739398A (en) * 1986-05-02 1988-04-19 Control Data Corporation Method, apparatus and system for recognizing broadcast segments
US5031228A (en) * 1988-09-14 1991-07-09 A. C. Nielsen Company Image recognition system and method
JP3348310B2 (ja) * 1992-09-28 2002-11-20 ソニー株式会社 動画像符号化方法および動画像符号化装置
DE4309957C1 (de) * 1993-03-26 1994-07-14 Media Control Musik Medien Verfahren zum Wiedererkennen von unikaten Bildsignalen und Vorrichtung zur Durchführung des Verfahrens
JP2800633B2 (ja) * 1993-04-30 1998-09-21 富士ゼロックス株式会社 画像符号化装置

Also Published As

Publication number Publication date
DE19728099A1 (de) 1999-01-07
PT889431E (pt) 2004-02-27
DK0889431T3 (da) 2004-02-02
US6373891B1 (en) 2002-04-16
EP0889431A3 (de) 2001-01-24
EP0889431B1 (de) 2003-10-01
ATE251322T1 (de) 2003-10-15
DE59809769D1 (de) 2003-11-06
EP0889431A2 (de) 1999-01-07

Similar Documents

Publication Publication Date Title
ES2227567T3 (es) Adquisicion de datos deseados de un flujo de datos paquetizado y sincronizacion a los mismos.
CN109547786B (zh) 视频编码、以及视频解码的方法、装置
US5698833A (en) Omnidirectional barcode locator
CN111656401A (zh) 通过使用基于学习的运动分段的运动翘曲的视频压缩
US8010408B2 (en) Packetized advertising utilizing information indicia
US8452043B2 (en) System for identifying motion video content
CN1121786C (zh) 电视接收机
EP0917371A2 (en) Moving image composing system
US7480252B2 (en) Method and system for improving transmission efficiency using multiple-description layered encoding
EP1659532A3 (en) Super-resolution based image encoding and decoding.
WO2003047268A3 (en) Global motion compensation for video pictures
US7606391B2 (en) Video content scene change determination
CN102577350A (zh) 图像处理装置和图像处理方法
CN1164078C (zh) 通过字母框法对mpeg图象作16∶9宽高比变换
ES2207770T3 (es) Procedimiento para el reconocimiento de secuencias de imagenes unicas.
US20140192899A1 (en) Method and apparatus for referring to bitstream address related information derived from segment of multi-tile picture to determine bitstream start address of tile of multi-tile picture
KR20080035195A (ko) 아날로그 전송 네트워크를 위한 디지털 영상 처리 방법 및이를 위한 카메라 장치, 영상 처리 장치, 영상 처리 시스템
US6016163A (en) Methods and apparatus for comparing blocks of pixels
US6940909B2 (en) Video decoding during I-frame decode at resolution change
US20080056381A1 (en) Image compression and decompression with fast storage device accessing
US6178203B1 (en) Method and apparatus for two-row decoding of MPEG video
CN116233434A (zh) 用于视频编码的变换块级扫描顺序选择
US20100007786A1 (en) System, method, and apparatus for providing massively scaled down video using iconification
US5682208A (en) Motion estimation with efficient block matching
US20070104267A1 (en) Method for handling content information