ES2301645T3 - Procedimiento de deteccion de zonas de texto en una imagen de video. - Google Patents

Procedimiento de deteccion de zonas de texto en una imagen de video. Download PDF

Info

Publication number
ES2301645T3
ES2301645T3 ES02735549T ES02735549T ES2301645T3 ES 2301645 T3 ES2301645 T3 ES 2301645T3 ES 02735549 T ES02735549 T ES 02735549T ES 02735549 T ES02735549 T ES 02735549T ES 2301645 T3 ES2301645 T3 ES 2301645T3
Authority
ES
Spain
Prior art keywords
text
image
pixels
pixel
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02735549T
Other languages
English (en)
Inventor
Christian Wolf
Jean-Michel Jolion
Francoise Chassaing
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of ES2301645T3 publication Critical patent/ES2301645T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

Procedimiento de detección de zonas de texto en una imagen de vídeo, caracterizado porque comprende las etapas siguientes: - calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales (G), - transformar dicha imagen de gradientes totales (G) en una imagen binaria (B) mediante una operación de formación de umbral que consiste en comparar el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor del nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o el valor del nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contenga pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definiendo zonas de texto, y - aplicar línea por línea un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.

Description

Procedimiento de detección de zonas de texto en una imagen de vídeo.
La presente invención se refiere a un procedimiento de detección de zonas de texto en una o varias imágenes de vídeo. La misma encuentra su aplicación en el marco de sistemas de búsqueda o de indización de documentos de vídeo en bases de datos audiovisuales accesibles o no por Internet.
La aparición reciente de bases de datos audiovisuales ha requerido del desarrollo de herramientas capaces de analizar el contenido de los documentos de vídeo que pertenecen a estas bases de datos. Las únicas herramientas de análisis disponibles en la actualidad en el mercado utilizan métodos de procesamiento de la imagen destinados a extraer datos sobre las características de bajo nivel de la imagen, tales como datos sobre el color, la textura y el contraste de la imagen. El resultado de este tipo de análisis no está muy probado en términos de contenido ya que dos imágenes con contenidos semánticos diferentes pueden tener las mismas características de bajo nivel, de la misma manera que dos imágenes sobre el mismo tema pueden tener características de bajo nivel muy diferentes.
Una información que puede ser muy útil para la comprensión del contenido semántico de la imagen es el texto presente en la imagen. Por ejemplo, las informaciones presentes en las imágenes de un reportaje pueden ser reveladoras del tema, del lugar o de la fecha de los sucesos relatados en el reportaje. De la misma forma, las informaciones contenidas en lo genérico de un filme son tanto informaciones sobre el contenido del filme como de las personas que participan en el mismo.
Actualmente, existe una técnica de reconocimiento óptico de caracteres llamada OCR (por Optical Character Recognition en lengua inglesa) que permite extraer el texto contenido en imágenes digitales de texto, por ejemplo, en una imagen escaneada de una página de periódico o de un libro. Esta técnica proporciona buenos resultados cuando el documento comprende un texto con un tamaño de caracteres determinado y un fondo uniforme, y cuando la resolución de la imagen del documento es elevada (por ejemplo 200-400 dpi).
Los resultados obtenidos con esta técnica sobre las imágenes de vídeo no son, sin embargo, muy satisfactorios. Las razones fundamentales de estos malos resultados son las siguientes:
\vskip1.000000\baselineskip
-
Es más difícil distinguir el texto en una imagen de vídeo cuando el fondo de la imagen es en general muy complejo y puede contener elementos que pueden ser asimilados en texto; en una imagen de vídeo, el texto está en efecto, ya sea, superpuesto en una escena de fondo (se habla entonces de "texto artificial") como por ejemplo los subtítulos en un filme, o incluido en la escena de la imagen (se habla de "texto de escena") como por ejemplo el texto inscrito en el tee-shirt de un actor en un filme;
-
El texto contenido en una imagen de vídeo no está generalmente estructurado en líneas o párrafos, y los caracteres del texto no tienen necesariamente el mismo tamaño;
-
Para realzar el contraste del texto en la imagen de vídeo, se emplean a veces artificios: por ejemplo, los caracteres son inscritos con una parte sombreada o en tres dimensiones; además, se utiliza toda una gama de colores para mostrar el texto y el fondo de la imagen, lo que hace muy difícil la detección del texto;
-
Finalmente, en vídeo, las imágenes tienen generalmente una resolución comprendida entre 160x100 pixeles (difusión por Internet) y 720x480 pixeles (DVD codificado en MPEG2); un formato típico es el formato CIF con 384x288 pixeles, que se compara con la resolución (2500x3500 pixeles) de una imagen A4 escaneada a 300 dpi; esta débil resolución se debe en parte a las cámaras empleadas para generar las imágenes; y al hecho de que las imágenes de vídeo son generalmente comprimidas para poder ser almacenadas y transportadas a través de redes informáticas; el reconocimiento óptico de caracteres es entonces menos ejecutable en las imágenes de vídeo.
\vskip1.000000\baselineskip
Como consecuencia sucede que la técnica de reconocimiento de caracteres empleada para las imágenes digitales de texto no puede ser empleada tal cual para las imágenes de vídeo.
Resulta necesario detectar en primer lugar las zonas de la imagen de vídeo que contienen texto y aplicar entonces las técnicas de OCR en estas zonas de texto. Se han efectuado investigaciones sobre el tema. Los procedimientos de detección de texto conocidos están basados principalmente en una segmentación de la imagen de vídeo y un reagrupamiento de los caracteres. A manera de ejemplo, podemos citar el documento WO 00/45291 y el documento titulado "Automatic Text Location in Images and Video Frames" de A.K Jain y B.Yu, Technical Report MSU-CPS-97-33, PRIP Lab, Department of Computer Science, 1997. Los autores de este último documento suponen que el color de los caracteres del texto es uniforme y emplean una reducción de los colores seguida de una segmentación de la imagen en zonas de texto y zonas de fondo, y además, una fase de reagrupamiento espacial de zonas de texto. Aunque la presencia de los caracteres juntos está prevista por los autores, la fase de segmentación acarrea numerosos problemas en el caso de documentos de mala calidad, especialmente en el caso de secuencias de vídeo de baja resolución.
El documento de patente EP 0 270 114 describe un procedimiento de detección que comprende una etapa de detección de contornos en la cual cada pixel de la imagen de vídeo está asociada a un gradiente normado derivado de los gradientes horizontal y vertical del pixel para formar una imagen de gradientes normados, seguida de una binarización de esta imagen de gradientes, y de una compresión de la imagen binaria resultante.
El documento titulado "Video caption image enhancement for efficient recognition", de Sangshin Kwak y otros, Proceedings 15th International Conference on Pattern Recognition, ICPR-2000, 3-7 Sept 2000, vol. 2 páginas 606-609, describe la aplicación de un tratamiento de morfología matemática en una imagen binaria para mejorar el reconocimiento de caracteres en zonas de texto ya detectadas de la imagen, y más particularmente para suavizar los límites de los caracteres de texto.
El objetivo de la invención es paliar los inconvenientes de la técnica anterior mencionada anteriormente.
La invención se refiere a un procedimiento de detección de zonas de texto en una imagen de vídeo, caracterizado porque comprende las etapas siguientes:
\vskip1.000000\baselineskip
-
calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales,
-
transformar dicha imagen de gradientes totales en una imagen binaria mediante una operación de formación de umbral que consiste en comparar el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor del nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o el valor del nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contenga pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definen zonas de texto, y
-
aplicar línea por línea un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.
\vskip1.000000\baselineskip
Para calcular el gradiente horizontal de cada pixel de coordenadas (x,y) en dicha imagen de vídeo y adicionar entre ellas los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal de longitud T, la imagen de vídeo es ventajosamente filtrada por un filtro cuya respuesta F es la siguiente:
1
La imagen filtrada es transformada en una imagen binaria mediante una operación de formación de umbral. Esta operación consiste generalmente en comparar el valor de cada pixel de la imagen de gradientes totales con un valor umbral, y en atribuir el valor del nivel de gris V1 a todos los pixeles cuyo gradiente total es superior o igual al valor umbral y el valor de nivel de gris V2 a los otros pixeles de la imagen.
Esta puede igualmente consistir en comparar el valor de cada pixel de la imagen de gradientes totales con dos valores umbrales K_{b} y K_{h} con K_{h}>K_{b}, en atribuir el valor del nivel de gris V1 a los pixeles cuyo gradiente total es superior o igual al valor umbral K_{h} y a los pixeles, cuyo gradiente total está comprendido entre K_{b} y K_{h}, con una secuencia adyacente de p pixeles consecutivos con un gradiente total superior o igual a K_{h}, y en atribuir el valor del nivel de gris V2 a todos los demás pixeles de la imagen.
Además, la etapa de tratamiento de morfología matemática de la imagen binaria comprende principalmente:
\vskip1.000000\baselineskip
-
una etapa de dilatación con un elemento de estructuración determinado seguida de una etapa de erosión con el mismo elemento de estructuración para reducir el ruido en la imagen binaria, y
-
una etapa de dilatación horizontal y condicional para transformar en pixeles de texto los pixeles de no texto situados entre dos pixeles de texto consecutivos que pertenecen a la misma línea en la imagen binaria cuando ambos pixeles de texto consecutivos están horizontalmente a una distancia de más de N pixeles,
\vskip1.000000\baselineskip
Al final de esta etapa, las zonas de texto están ventajosamente extendidas a los rectángulos que las abarcan.
Finalmente, cuando se aplica el procedimiento de detección a una secuencia de imágenes de vídeo, este comprende además las etapas siguientes:
-
determinar, para cada zona de texto, la lista de las imágenes de vídeo en las cuales aparece la misma,
-
generar para cada zona de texto y para cada imagen de vídeo de dicha lista asociada, una imagen dilatada de dicha zona de texto,
-
generar, para cada zona de texto, una imagen mejorada de dicha zona de texto a partir de las mencionadas imágenes dilatadas de dicha zona de texto, y
-
aplicar una etapa de reconocimiento de caracteres en cada una de las mencionadas imágenes mejoradas para extraer el texto que está contenido en ellas.
\vskip1.000000\baselineskip
La invención se refiere igualmente a un dispositivo de detección de zonas de texto en una imagen de vídeo, caracterizado porque comprende:
-
medios de cálculo para calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales,
-
medios de formación de umbral para transformar dicha imagen de gradientes totales en una imagen binaria, donde estos medios de formación de umbral comparan el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor de nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o ya sea el valor de nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contiene pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definen zonas de texto, y
-
medios de tratamiento matemático para aplicar, línea por línea, un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir todas las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.
\vskip1.000000\baselineskip
Otras características y ventajas de la invención aparecerán con la lectura de la descripción detallada que sigue y que es hecha con referencia a los dibujos anexos, entre los cuales:
- la figura 1 representa las etapas del procedimiento de detección de texto en una imagen de vídeo de acuerdo con la invención;
- la figura 2 ilustra el cálculo del o de los umbrales para la operación de formación de umbral empleada en la etapa de binarización del procedimiento de detección de texto de acuerdo con la invención;
- las figuras 3A y 3B ilustran una etapa del procedimiento que tiene como función extender, en ciertos casos, las zonas de texto detectadas por el procedimiento de la invención;
- las figuras 4A a 4E muestran resultados intermedios y el resultado final del procedimiento de detección de la invención;
- la figura 5 representa un organigrama de las etapas aplicadas a una secuencia de imágenes de vídeo para extraer el texto contenido en esas imágenes;
- la figura 6 ilustra la generación de una imagen de vídeo con un contenido mejorado, especialmente dilatado mediante interpolación; y
- la figura 7 muestra 3 imágenes, una imagen original que comprende una zona de texto, una imagen dilatada obtenida por interpolación de dicha imagen original y la imagen final de esta zona de texto obtenida por integración de 69 imágenes de vídeo.
El procedimiento de la invención es aplicado a una imagen de vídeo de partida denotada I. La figura 1 muestra las etapas del procedimiento de la invención.
De acuerdo con una primera etapa del procedimiento de la invención, se calcula un gradiente horizontal para cada pixel de la imagen I y se adiciona al gradiente horizontal de cada pixel los gradientes horizontales de pixeles ambientales que pertenecen a la misma línea de la imagen I con el fin de detectar zonas de la imagen susceptibles de ser zonas de texto. Esta etapa se apoya en el hecho de que las zonas de texto son generalmente zonas de fuertes gradientes y que los caracteres de un texto forman una textura regular que contiene contornos verticales alargados horizontalmente. Esta etapa de cálculo y de suma de los gradientes horizontales es realizada mediante un filtro cuya respuesta F es:
2
donde T define el tamaño de la ventana de los gradientes que son adicionados en conjunto. El gradiente resultante es llamado gradiente total. El valor del parámetro T depende del tamaño de los caracteres del texto a detectar y del contraste de la imagen. El gradiente horizontal es, por ejemplo, calculado por un detector estándar de contorno del tipo Prewitt, Sobel, Deriche o equivalentes. Al salir de esta etapa de filtrado, se dispone entonces de una imagen G de gradientes totales del tamaño de la imagen I y en la cual a cada pixel está asociado el gradiente total calculado por el filtro.
Esta etapa de filtrado, con referencia 10 en la figura 1, está seguida de una etapa de binarización 20 destinada a transformar la imagen G en una imagen binaria B. Esta etapa es efectuada por una operación de formación de umbral optimizando el criterio de Fisher S. La figura 2 ilustra esta operación de formación de umbral y representa un histograma de los gradientes totales de la imagen G. El eje de las abscisas representa los gradientes totales y el eje de las ordenadas el número de pixeles de la imagen G. Este histograma permite que aparezcan dos distribuciones de Gauss, una GS1 que se refiere a las zonas de no texto de la imagen I y la otra GS2 a las zonas de texto. El umbral S se define como el valor máximo de la expresión siguiente:
3
donde
-
M representa el área total del histograma
-
W representa el área total de la gaussiana GS1
-
m_{0} es el valor medio de los gradientes totales de la gaussiana GS1, y
-
m_{1} es el valor medio de los gradientes totales de la gaussiana GS2.
Los pixeles de la imagen G cuyo valor de gradiente total es inferior al valor umbral S son definidos entonces como no pertenecientes a una zona de texto. Se habla entonces de pixeles de no texto. Se les atribuye un nivel de gris V1 igual a 0. Los demás pixeles de la imagen G cuyo valor de gradiente total es superior o igual al valor umbral S se definen como pertenecientes a una zona de texto y se les atribuye un nivel de gris V2 igual a 255. Estamos hablando entonces de pixeles de texto.
Ventajosamente, con el fin de entregar el resultado menos sensible a elección del valor umbral S, se emplea una técnica de formación de umbral con doble umbral comparable con el mecanismo de histéresis en la detección de contornos. El umbral S definido anteriormente es tomado como umbral alto y denotado K_{h}. Un umbral bajo K_{b} se define por la relación siguiente:
4
El parámetro ha permitido controlar el valor umbral K_{b}. En la figura 2, este valor umbral está situado entre el valor medio m0 y el valor umbral K_{h}. La etapa de binarización se efectúa en el caso de una formación de umbral con doble umbral de la manera siguiente:
-
como anteriormente, todos los pixeles cuyo valor de gradiente total es superior o igual a K_{h} son pixeles de texto; se les atribuye un nivel de gris igual a 255;
-
todos los pixeles cuyo valor de gradiente total es inferior a K_{b} son pixeles de no texto; se les atribuye un nivel de gris igual a 0;
-
finalmente, todos los pixeles cuyo valor de gradiente total está comprendido entre los umbrales K_{b} y k_{h} son pixeles de texto si existe una secuencia de p pixeles cuyo valor de gradiente total es superior o igual a K_{h} que es adyacente a los mismos. El parámetro p es por ejemplo igual a 8.
\vskip1.000000\baselineskip
La imagen G después de la binarización se convierte entonces en una imagen binaria B que contiene pixeles de nivel de gris igual a 255 que representan pixeles de texto y pixeles de nivel de gris igual a 0 que representan pixeles que pertenecen a zonas de no texto.
En esta imagen binaria, se definen zonas de texto Ci que reagrupan pixeles de texto adyacentes. Una zona de texto también puede, por ejemplo, comprender los pixeles de texto que forman un carácter de texto.
De acuerdo con una característica importante de la invención, se realizan varias operaciones de morfología matemática 30 sobre la imagen binaria B para reducir los ruidos en la imagen y unir las zonas de texto distantes horizontalmente a más de N pixeles para formar sólo una zona de texto.
La primera etapa de morfología matemática tiene como objetivo reducir los ruidos en la imagen binaria B. Esta etapa consiste en efectuar una operación de dilatación de la imagen con un elemento de estructuración E y luego una operación de erosión de esta imagen con el mismo elemento de estructuración. El elemento de estructuración es por ejemplo
5
Se recuerda que una operación de dilatación consiste en reemplazar el valor de cada pixel de la imagen B por el valor máximo de los pixeles contenidos en el elemento de estructuración asociado, estando dicho elemento centrado en el pixel en cuestión. De la misma forma, una operación de erosión consiste en remplazar el valor de cada pixel de la imagen B por el valor mínimo de los pixeles contenidos en el elemento de estructuración asociado, estando dicho elemento centrado en el pixel en cuestión.
Ventajosamente, la imagen B es entonces procesada para suprimir los puentes entre las zonas de texto (estos puentes pueden corresponder a enlaces entre caracteres de texto o al ruido). Estos puentes pueden ser asimilados en zonas de texto de baja altura. A continuación se muestra un ejemplo de programa informático para suprimir las zonas de texto cuya altura es inferior a m_{1} en la imagen binaria.
6
todos los pixeles de texto B(x,y) de la imagen B cuyo A(x,y)<m_{1} son excluidos del conjunto de los pixeles de texto.
Una segunda etapa de morfología matemática es aplicada entonces a la imagen binaria resultante para unir las zonas de texto que se refieren a una misma palabra o a una misma frase. Esta etapa es una etapa de dilatación horizontal y condicional.
Para realizar estas etapas, se define:
-
una matriz J del tamaño de la imagen I asociando a cada pixel de la imagen B un número de zona de texto:
8
\vskip1.000000\baselineskip
-
una matriz H tal como
9
10
\vskip1.000000\baselineskip
-
una matriz H' tal como
11
\vskip1.000000\baselineskip
12
Cada término H'(x,y) de la matriz H' encierra la altura máxima de la zona de texto Ci a la cual pertenece el pixel B(x,y) o la altura máxima de la zona de texto Cj que sigue en la línea y de la imagen B si existe una.
La operación de dilatación horizontal y condicional consiste en transformar, línea por línea, los pixeles de no texto situados entre dos zonas de texto (izquierda y derecha) separados al máximo de N pixeles en pixeles de texto. De ello resulta que ambas zonas de texto espaciadas a más de N pixeles son unidas para formar una sola zona de texto. Esta operación utiliza las matrices J y H'. Posteriormente se brinda un ejemplo de algoritmo de dilatación horizontal y condicional.
Preferentemente, se prevén restricciones suplementarias para autorizar la unión de dos zonas de texto, derecha e izquierda, en una zona de texto global:
-
la diferencia de altura entre la zona de texto izquierda y la zona de texto derecha debe ser inferior a la altura más pequeña de las zonas de texto izquierda y derecha, es decir:
13
-
la diferencia de altura entre la zona de texto global y la zona de texto izquierda debe ser inferior a la altura más pequeña de las zonas de texto izquierda y derecha, es decir
14
con
15
El algoritmo de dilatación horizontal y condicional es por ejemplo el siguiente:
16
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
17
18
19
Es posible ejecutar seguidamente otra operación de dilatación/erosión para suprimir el ruido engendrado por la operación de dilatación horizontal y condicional en la imagen binaria. Esta nueva operación de dilatación/erosión es efectuada con un elemento de estructuración del tipo [111], siendo a la vez utilizado el mismo elemento de estructuración para la dilatación y la erosión.
Después de esta fase de tratamiento de morfología matemática, cada zona de texto es preferentemente extendida al rectángulo que la abarca (etapa 40 de la figura 1)
Los rectángulos de texto que no satisfacen las restricciones geométricas siguientes son además suprimidos:
-
un rectángulo debe contener al menos 10 pixeles de texto;
-
la relación largo/alto del rectángulo debe ser superior a un valor umbral g1 (con g1 > 1);
-
el índice de relleno del rectángulo de texto con respecto a la zona de texto incluida en ese rectángulo debe ser superior a un valor umbral g2, a saber
20
Los rasgos en los extremos de los caracteres, como la barra superior del carácter "t" y la barra inferior de la p, y la parte superior de un carácter en mayúscula al comienzo de una palabra son generalmente reconocidos en la imagen binaria B como pixeles de texto por el filtro de respuesta F pero son además excluidos de manera general de las zonas de texto durante el tratamiento de morfología matemática. También, se recomienda investigar estos casos particulares en la imagen binaria B y luego agrandar los rectángulos de texto obtenidos después del tratamiento morfológico para que estos engloben los pixeles correspondientes a estos casos particulares. Un ejemplo es brindado en las figuras 3A y 3B. La figura 3A muestra los rectángulos de texto obtenidos después del tratamiento morfológico para la palabra "San Dermopro". La parte superior de la letra mayúscula S está excluida del rectángulo de texto que abarca la palabra San. De la misma manera la parte inferior de la p está excluida del rectángulo de texto que engloba la palabra Dermopro. Estos dos rectángulos son extendidos entonces para incluir estas dos partes. La figura 3B muestra los rectángulos obtenidos después de la extensión.
La etapa final de la detección de las zonas de texto consiste en combinar los rectángulos de texto con el fin de limitarlos en número. Es posible, por ejemplo, fusionar los rectángulos de texto que se superponen parcialmente o suprimir los rectángulos de texto que son incluidos en otros rectángulos de texto. Preferentemente, dos rectángulos de texto que se superponen parcialmente son fusionados en un rectángulo de una dimensión mayor si:
\vskip1.000000\baselineskip
21
\vskip1.000000\baselineskip
o
\vskip1.000000\baselineskip
22
\vskip1.000000\baselineskip
donde
-
O es el área de la zona de no superposición del pequeño rectángulo
-
S es el área del pequeño rectángulo,
-
B es el área del rectángulo mayor, y
-
i_{1}, i_{2}, i_{3} son valores umbral.
\vskip1.000000\baselineskip
El resultado de la detección es entonces una lista de rectángulos de texto. Las figuras 4A a la 4E ilustran las etapas del procedimiento de la invención. La imagen de partida I es extraída de una emisión deportiva (figura 4A). La imagen de los gradientes totales (figura 4B) muestra la fuerte respuesta del filtro en las zonas del texto de la imagen I, pero igualmente en los lugares con fuertes gradientes estructurados regularmente. Aunque este ruido queda permanente en la imagen binaria (figura 4c), la fase de morfología matemática ha logrado suprimirlo (figura 4D). Los rectángulos de texto finales son mostrados en la figura 4E.
Este procedimiento de detección puede ser aplicado a una secuencia de imágenes de vídeo. La figura 5 representa las etapas que son aplicadas entonces a la secuencia de imágenes de vídeo. Una primera etapa de detección de zonas de texto 50 es efectuada para cada imagen de vídeo de manera que se obtenga una lista de rectángulos de texto para cada imagen de la secuencia. Estas listas de rectángulos de texto son entonces tratadas (etapa 51) para determinar las ocurrencias de cada rectángulo de texto en la secuencia de imagen de vídeo, una ocurrencia de un rectángulo de texto que significa en este caso un aparición de dicho rectángulo de texto en una imagen de vídeo, por ejemplo, 10 ocurrencias de un rectángulo de texto correspondiente a una aparición de dicho rectángulo de texto en 10 imágenes de vídeo de la secuencia.
En la práctica, una lista L de rectángulos de texto es definida para la primera imagen de vídeo de la secuencia. Esta lista L es memorizada. Para cada imagen I_{i}, diferente a la primera imagen de la secuencia, la lista L_{i} de rectángulos de texto asociada se compara con la lista L. La lista L es completada a medida que un nuevo rectángulo de texto es señalado en una lista Li y, para cada rectángulo de texto de la lista L final es definida una lista de las imágenes en las cuales está presente ese rectángulo de texto. Para realizar esta etapa, son efectuadas mediciones de superposición de los rectángulos de texto. Un rectángulo de texto R de la lista L es considerado como presente en la imagen Ii si la imagen Ii contiene un rectángulo de texto Ri de manera tal que los rectángulos de texto R y Ri se superponen en, al menos, 50% del más pequeño de los dos rectángulos de texto.
Los rectángulos de texto de la lista L presentes en un número pequeño de imágenes son suprimidos de la lista L. Estos rectángulos de texto son en efecto considerados como "falsas alarmas". Los rectángulos que son conservados en la lista L deben responder a los criterios siguientes:
-
el número de imágenes LEN que separan la primera ocurrencia y la última ocurrencia de un rectángulo de texto R en la secuencia de imágenes considerada debe ser superior a un número predefinido de imágenes NBIm;
-
el número de imágenes MISS de la secuencia de imágenes de longitud LEN donde está ausente la ocurrencia del rectángulo de texto R, debe verificar la siguiente desigualdad
\vskip1.000000\baselineskip
23
\vskip1.000000\baselineskip
donde Smiss es un valor umbral porcentual.
Para que una herramienta clásica de reconocimiento óptico de caracteres OCR (por Optical Character Recognition en lengua inglesa) esté en condiciones de extraer el texto contenido en los rectángulos de texto, es preferible mejorar la calidad de representación de las partes de la imagen contenidas en esos rectángulos de texto (etapa 52 en la figura 5). De acuerdo con la invención, se propone entonces crear una imagen dilatada de cada rectángulo de texto R de la lista final L a partir de las imágenes que contienen el rectángulo de texto R.
Para realizar esta etapa, se efectúan las mediciones estadísticas siguientes para los pixeles (i, j) del rectángulo R mayor de cada ocurrencia de texto:
-
un promedio
\vskip1.000000\baselineskip
24
\vskip1.000000\baselineskip
-
una diferencia tipo
\vskip1.000000\baselineskip
25
\vskip1.000000\baselineskip
donde
-
NIm es el número de imágenes I que contienen el rectángulo de texto R, y
-
i, j, t es un pixel del rectángulo de texto R de coordenadas i y j en la imagen I_{t}.
\vskip1.000000\baselineskip
Con estas mediciones, se crea, para cada imagen I_{t} donde aparece el rectángulo de texto R, una imagen interpolada I_{int}(t). A este efecto, un coeficiente de ponderación g_{ijt} es calculado para cada punto i,j del rectángulo de texto R de la imagen I_{t}:
26
El valor de nivel de gris de un punto P de coordenadas i+\alpha, j+\beta en la imagen interpolada Iint(t) es calculado entonces de la manera siguiente:
27
Los parámetros \alpha y \beta empleados en esta ecuación son definidos en la figura 6. Esta figura muestra 4 pixeles adyacentes P_{1}, P_{2}, P_{3} y P_{4} en una imagen I_{t}. Las coordenadas respectivas de estos cuatro puntos en la imagen It son: (i, j), (i+1, j), (i+1, j+1) y (i, j+1). Se tiene (\alpha,\beta) \in [0,1]. En el ejemplo de la figura 6, \alpha=1/4 y \beta = 1/4. En este ejemplo de interpolación, se crean 16 pixeles en la imagen interpolada a partir de 4 pixeles adyacentes en la imagen I_{t}. El factor de interpolación es entonces igual a 4.
Todas las imágenes dilatadas obtenidas por interpolación son utilizadas entonces para generar una imagen de calidad de representación elevada que podrá ser tratada correctamente con una herramienta de OCR (etapa 53 de la figura 5) para extraer el texto que está contenido en la misma. Esta imagen de calidad, Q, de representación elevada es obtenida, por ejemplo, calculando el promedio de las imágenes dilatadas:
28
donde Nim es el número de imágenes dilatadas.
La figura 7 muestra una parte de una imagen de vídeo original que contiene texto, una imagen dilatada de dicha imagen y la imagen final obtenida por integración de 69 imágenes dilatadas que comprenden dicho texto.
Los parámetros utilizados para la puesta en práctica de un modo de realización preferido del procedimiento de la invención son brindados a continuación:
100
101
102
El procedimiento de la invención puede ser utilizado para determinar el contenido semántico de imágenes de una base de datos audiovisuales con vistas a su indización. Puede ser empelado igualmente en un sistema de búsqueda de datos cuando la solicitud es una imagen. Todo o parte de este procedimiento puede ser puesto en práctica en una computadora personal, una terminal fija o móvil, o un servidor multimedia accesible para muchos usuarios.
La invención se refiere a un dispositivo que contiene medios para poner en práctica las etapas de este procedimiento.
Este procedimiento está más particularmente destinado a detectar zonas de texto que se extienden horizontalmente. Claro está, el procedimiento puede ser utilizado para detectar zonas de texto que se extienden en cualquier dirección. Es suficiente entonces calcular, no el gradiente horizontal de cada pixel, sino el gradiente de cada pixel de acuerdo con la dirección escogida, y con adicionar dichos gradientes que pertenecen a una ventana que se extiende en esa misma dirección. De la misma manera, la etapa de dilatación horizontal y condicional es remplazada entonces por una etapa de dilatación condicional de acuerdo con la dirección escogida.

Claims (20)

1. Procedimiento de detección de zonas de texto en una imagen de vídeo, caracterizado porque comprende las etapas siguientes:
-
calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales (G),
-
transformar dicha imagen de gradientes totales (G) en una imagen binaria (B) mediante una operación de formación de umbral que consiste en comparar el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor del nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o el valor del nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contenga pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definiendo zonas de texto, y
-
aplicar línea por línea un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.
\vskip1.000000\baselineskip
2. Procedimiento de acuerdo con la reivindicación 1, caracterizado porque, para calcular el gradiente horizontal de cada pixel de coordenadas (x,y) en dicha imagen de vídeo y adicionar entre ellos los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal de longitud T, dicha imagen de vídeo es filtrada mediante un filtro cuya respuesta F es la siguiente:
\vskip1.000000\baselineskip
29
\vskip1.000000\baselineskip
3. Procedimiento de acuerdo con la reivindicación 1 o 2, caracterizado porque dicha operación de formación de umbral consiste en comparar el valor de cada pixel de la imagen de gradientes totales con un valor umbral (K_{h}), y en atribuir el valor de nivel de gris V1 a todos los pixeles cuyo gradiente total es superior o igual al valor umbral (K_{h}) y el valor de nivel de gris V2 a los demás pixeles de la imagen.
4. Procedimiento de acuerdo con la reivindicación 1 o 2, caracterizado porque dicha operación de formación de umbral consiste en comparar el valor de cada pixel de la imagen de gradientes totales (G) con dos valores umbral, K_{b} y K_{h} con K_{h} > K_{b}, y en atribuir el valor del nivel de gris V1 a los pixeles cuyo gradiente total es superior o igual al valor umbral K_{h} y a los pixeles, cuyo gradiente total está comprendido entre K_{b} y K_{h}, con una secuencia adyacente de p pixeles consecutivos con un gradiente total superior o igual a K_{h} y en atribuir el valor del nivel de gris V2 a todos los demás pixeles de la imagen.
5. Procedimiento de acuerdo con cualquiera de las reivindicaciones 1 a 4, caracterizado porque la etapa de tratamiento de morfología matemática de la imagen binaria (B) comprende:
-
una etapa de dilatación con un elemento de estructuración (E) determinado seguido de una etapa de erosión con el mismo elemento de estructuración (E) para reducir el ruido en la imagen binaria (B), y
-
una etapa de dilatación horizontal y condicional para transformar en pixeles de texto los pixeles de no texto situados entre dos pixeles de texto consecutivos que pertenecen a la misma línea en la imagen binaria (B) cuando los dos pixeles de textos consecutivos están horizontalmente a una distancia de más de N pixeles.
\vskip1.000000\baselineskip
6. Procedimiento de acuerdo con la reivindicación 5, caracterizado porque la etapa de tratamiento de morfología matemática comprende además una última etapa de dilatación con un elemento de estructuración determinado seguido por una última etapa de dilatación para reducir el ruido en la imagen binaria resultante de la etapa de dilatación horizontal y condicional.
7. Procedimiento de acuerdo con una de las reivindicaciones 1 a 6, caracterizado porque las zonas de texto son extendidas a los rectángulos que las abarcan.
8. Procedimiento de acuerdo con una de las reivindicaciones anteriores aplicado a una secuencia de imágenes de vídeo, caracterizado porque comprende además:
-
determinar, para cada zona de texto, la lista de las imágenes de vídeo en las cuales aparece la misma,
-
generar para cada zona de texto y para cada imagen de vídeo de dicha lista asociada, una imagen dilatada de dicha zona de texto,
-
generar, para cada zona de texto, una imagen mejorada de dicha zona de texto a partir de las mencionadas imágenes dilatadas de dicha zona de texto, y
-
aplicar una etapa de reconocimiento de caracteres en cada una de las mencionadas imágenes mejoradas para extraer el texto que está contenido en ellas.
9. Procedimiento de acuerdo con la reivindicación 8, caracterizado porque, para generar una imagen dilatada de una zona de texto, se calcula un promedio estadístico sobre las imágenes de lista asociada a esta zona de texto y una diferencia tipo para cada pixel de dicha zona de texto y se genera una imagen dilatada por interpolación de los pixeles de dicha zona de texto utilizando el promedio estadístico y la diferencia tipo de los pixeles de esta zona de texto.
10. Procedimiento de acuerdo con la reivindicación 8 o 9, caracterizado porque es utilizado para determinar el contenido semántico de imágenes en una base de datos audiovisuales con vistas a su indización.
11. Procedimiento de acuerdo con la reivindicación 8 o 9 caracterizado porque es utilizado para procesar una imagen de vídeo que sirva de solicitud en un sistema de búsqueda de datos.
12. Procedimiento de acuerdo con una de las reivindicaciones anteriores, caracterizado porque dichas etapas del procedimiento, o una parte de ellas, son puestas en práctica en un ordenador personal, un terminal fijo o móvil, o un servidor multimedia accesible para muchos usuarios.
13. Dispositivo de detección de zonas de texto en una imagen de vídeo, caracterizado porque comprende:
-
medios de cálculo para calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales (G),
-
medios de formación de umbral para transformar dicha imagen de gradientes totales (G) en una imagen binaria (B), donde estos medios de formación de umbral comparan el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor de nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o ya sea el valor de nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contiene pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definen zonas de texto, y
-
medios de tratamiento matemático para aplicar, línea por línea, un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir todas las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.
14. Dispositivo de acuerdo con la reivindicación 13, caracterizado porque, para calcular el gradiente horizontal de cada pixel de coordenadas (x,y) en dicha imagen de vídeo, y para adicionar entre ellos los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal de longitud T, dichos medios de cálculo son formados mediante un filtro cuya respuesta F es la siguiente:
\vskip1.000000\baselineskip
30
\vskip1.000000\baselineskip
15. Dispositivo de acuerdo con la reivindicación 13 o 14, caracterizado porque dichos medios de formación de umbral comparan el valor de cada pixel de la imagen de gradientes totales con un valor umbral (K_{h}), y atribuyen el valor de nivel de gris V1 a todos los pixeles cuyo gradiente total es superior o igual al valor umbral (K_{h}) y el valor de nivel de gris V2 a los demás pixeles de la imagen.
16. Dispositivo de acuerdo con la reivindicación 13 o 14 caracterizado porque dichos medios de formación de umbral comparan el valor de cada pixel de la imagen de gradientes totales (G) con dos valores umbral K_{b} y K_{h} con K_{h} > K_{b}, atribuyen el valor de nivel de gris V1 a los pixeles cuyo gradiente total es superior o igual al valor umbral K_{h} y a los pixeles, cuyo gradiente total está comprendido entre K_{b} y K_{h}, con una secuencia adyacente de p pixeles consecutivos con un gradiente total superior o igual a K_{h} y el valor de nivel de gris V2 a todos los demás pixeles de la imagen.
17. Dispositivo de acuerdo con cualquiera de las reivindicaciones 13 a 16, caracterizado porque los medios de tratamiento matemático operan las siguientes etapas de tratamiento de morfología matemática en la imagen binaria (B):
-
una etapa de dilatación con un elemento de estructuración (E) determinado seguido de una etapa de erosión con el mismo elemento de estructuración (E) para reducir el ruido en la imagen binaria (B), y
-
una etapa de dilatación horizontal y condicional para transformar en pixeles de texto los pixeles de no texto situados entre dos pixeles de texto consecutivos que pertenecen a la misma línea en la imagen binaria (B) cuando los dos pixeles de texto consecutivos están horizontalmente distantes a más de N pixeles.
18. Dispositivo de acuerdo con la reivindicación 17, caracterizado porque los medios de tratamiento matemático operan además una última etapa de dilatación con un elemento de estructuración determinado seguido de una última etapa de dilatación para reducir el ruido en la imagen binaria resultante de la etapa de dilatación horizontal y condicional.
19. Dispositivo de acuerdo con una de las reivindicaciones 13 a 18, utilizado para tratar una secuencia de imágenes de vídeo, caracterizado porque comprende además:
-
medios para determinar, para cada zona de texto, la lista de las imágenes de vídeo en las cuales aparece,
-
medios para generar, para cada zona de texto y para cada imagen de vídeo de dicha lista asociada, una imagen dilatada de dicha zona de texto,
-
medios para generar, para cada zona de texto, una imagen mejorada de dicha zona de texto a partir de dichas imágenes dilatadas de dicha zona de texto, y
-
medios de reconocimiento de caracteres (OCR) para extraer el texto contenido en cada una de dichas imágenes mejoradas.
20. Dispositivo de acuerdo con la reivindicación 19, caracterizado porque es utilizado para determinar el contenido semántico de imágenes en una base de datos audiovisuales con vistas a su indización.
ES02735549T 2001-05-23 2002-05-22 Procedimiento de deteccion de zonas de texto en una imagen de video. Expired - Lifetime ES2301645T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0106776A FR2825173B1 (fr) 2001-05-23 2001-05-23 Procede de detection de zones de texte dans une image video
FR0106776 2001-05-23

Publications (1)

Publication Number Publication Date
ES2301645T3 true ES2301645T3 (es) 2008-07-01

Family

ID=8863578

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02735549T Expired - Lifetime ES2301645T3 (es) 2001-05-23 2002-05-22 Procedimiento de deteccion de zonas de texto en una imagen de video.

Country Status (5)

Country Link
EP (1) EP1390905B1 (es)
DE (1) DE60225268T2 (es)
ES (1) ES2301645T3 (es)
FR (1) FR2825173B1 (es)
WO (1) WO2002095662A1 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2860902B1 (fr) * 2003-10-10 2005-12-09 France Telecom Determination de caracteristiques textuelles de pixels
CN100349175C (zh) * 2004-05-14 2007-11-14 中华电信股份有限公司 从车辆影像中撷取车牌区域的方法
WO2006129261A1 (en) * 2005-06-01 2006-12-07 Koninklijke Philips Electronics N.V. Method and device for detecting text
US7912289B2 (en) 2007-05-01 2011-03-22 Microsoft Corporation Image text replacement
US8867828B2 (en) 2011-03-04 2014-10-21 Qualcomm Incorporated Text region detection system and method
CN111401319B (zh) * 2020-04-15 2024-04-12 北京深智恒际科技有限公司 PSENet网络渐进式扩展后处理出现文本粘连的解决方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0720114B1 (en) * 1994-12-28 2001-01-24 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
US6731788B1 (en) * 1999-01-28 2004-05-04 Koninklijke Philips Electronics N.V. Symbol Classification with shape features applied to neural network

Also Published As

Publication number Publication date
FR2825173B1 (fr) 2003-10-31
EP1390905A1 (fr) 2004-02-25
WO2002095662A1 (fr) 2002-11-28
FR2825173A1 (fr) 2002-11-29
EP1390905B1 (fr) 2008-02-27
DE60225268T2 (de) 2009-03-26
DE60225268D1 (de) 2008-04-10

Similar Documents

Publication Publication Date Title
CN106254933B (zh) 字幕提取方法及装置
WO2021088300A1 (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
TWI571803B (zh) 彩色二維條碼的產生方法
CN112950661B (zh) 一种基于注意力生成对抗网络人脸卡通画生成方法
CN110517246B (zh) 一种图像处理方法、装置、电子设备及存储介质
TWI223212B (en) Generalized text localization in images
CN109918987B (zh) 一种视频字幕关键词识别方法及装置
CN102163284B (zh) 面向中文环境的复杂场景文本定位方法
CN111028308B (zh) 一种图像中信息的隐写及读取方法
CN101971190A (zh) 实时身体分割系统
CN112070649B (zh) 一种去除特定字符串水印的方法及系统
CN113591831A (zh) 一种基于深度学习的字体识别方法、系统及存储介质
Janani et al. Recognition and analysis of Tamil inscriptions and mapping using image processing techniques
CN107977648B (zh) 一种基于人脸识别的身份证清晰度的判别方法和系统
ES2301645T3 (es) Procedimiento de deteccion de zonas de texto en una imagen de video.
Zheng et al. Deep Learning‐Driven Gaussian Modeling and Improved Motion Detection Algorithm of the Three‐Frame Difference Method
CN115035531A (zh) 一种零售终端文字识别方法及系统
CN110533020B (zh) 一种文字信息的识别方法、装置及存储介质
CN112738555B (zh) 视频处理方法及装置
CN117765485A (zh) 基于改进的深度残差网络的车型识别方法、装置和设备
CN111179289B (zh) 一种适用于网页长图宽图的图像分割方法
Sreedevi et al. Ngfica based digitization of historic inscription images
CN109800758A (zh) 一种极大值区域检测的自然场景文字检测方法
Zhu et al. A random-valued impulse noise removal algorithm via just noticeable difference threshold detector and weighted variation method
CN102567982A (zh) 一种视频节目特定信息的提取系统及其方法、移动终端