ES2301645T3 - Procedimiento de deteccion de zonas de texto en una imagen de video. - Google Patents
Procedimiento de deteccion de zonas de texto en una imagen de video. Download PDFInfo
- Publication number
- ES2301645T3 ES2301645T3 ES02735549T ES02735549T ES2301645T3 ES 2301645 T3 ES2301645 T3 ES 2301645T3 ES 02735549 T ES02735549 T ES 02735549T ES 02735549 T ES02735549 T ES 02735549T ES 2301645 T3 ES2301645 T3 ES 2301645T3
- Authority
- ES
- Spain
- Prior art keywords
- text
- image
- pixels
- pixel
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
Procedimiento de detección de zonas de texto en una imagen de vídeo, caracterizado porque comprende las etapas siguientes: - calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales (G), - transformar dicha imagen de gradientes totales (G) en una imagen binaria (B) mediante una operación de formación de umbral que consiste en comparar el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor del nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o el valor del nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contenga pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definiendo zonas de texto, y - aplicar línea por línea un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.
Description
Procedimiento de detección de zonas de texto en
una imagen de vídeo.
La presente invención se refiere a un
procedimiento de detección de zonas de texto en una o varias
imágenes de vídeo. La misma encuentra su aplicación en el marco de
sistemas de búsqueda o de indización de documentos de vídeo en
bases de datos audiovisuales accesibles o no por Internet.
La aparición reciente de bases de datos
audiovisuales ha requerido del desarrollo de herramientas capaces
de analizar el contenido de los documentos de vídeo que pertenecen a
estas bases de datos. Las únicas herramientas de análisis
disponibles en la actualidad en el mercado utilizan métodos de
procesamiento de la imagen destinados a extraer datos sobre las
características de bajo nivel de la imagen, tales como datos sobre
el color, la textura y el contraste de la imagen. El resultado de
este tipo de análisis no está muy probado en términos de contenido
ya que dos imágenes con contenidos semánticos diferentes pueden
tener las mismas características de bajo nivel, de la misma manera
que dos imágenes sobre el mismo tema pueden tener características
de bajo nivel muy diferentes.
Una información que puede ser muy útil para la
comprensión del contenido semántico de la imagen es el texto
presente en la imagen. Por ejemplo, las informaciones presentes en
las imágenes de un reportaje pueden ser reveladoras del tema, del
lugar o de la fecha de los sucesos relatados en el reportaje. De la
misma forma, las informaciones contenidas en lo genérico de un
filme son tanto informaciones sobre el contenido del filme como de
las personas que participan en el mismo.
Actualmente, existe una técnica de
reconocimiento óptico de caracteres llamada OCR (por Optical
Character Recognition en lengua inglesa) que permite extraer el
texto contenido en imágenes digitales de texto, por ejemplo, en una
imagen escaneada de una página de periódico o de un libro. Esta
técnica proporciona buenos resultados cuando el documento comprende
un texto con un tamaño de caracteres determinado y un fondo
uniforme, y cuando la resolución de la imagen del documento es
elevada (por ejemplo 200-400 dpi).
Los resultados obtenidos con esta técnica sobre
las imágenes de vídeo no son, sin embargo, muy satisfactorios. Las
razones fundamentales de estos malos resultados son las
siguientes:
\vskip1.000000\baselineskip
- -
- Es más difícil distinguir el texto en una imagen de vídeo cuando el fondo de la imagen es en general muy complejo y puede contener elementos que pueden ser asimilados en texto; en una imagen de vídeo, el texto está en efecto, ya sea, superpuesto en una escena de fondo (se habla entonces de "texto artificial") como por ejemplo los subtítulos en un filme, o incluido en la escena de la imagen (se habla de "texto de escena") como por ejemplo el texto inscrito en el tee-shirt de un actor en un filme;
- -
- El texto contenido en una imagen de vídeo no está generalmente estructurado en líneas o párrafos, y los caracteres del texto no tienen necesariamente el mismo tamaño;
- -
- Para realzar el contraste del texto en la imagen de vídeo, se emplean a veces artificios: por ejemplo, los caracteres son inscritos con una parte sombreada o en tres dimensiones; además, se utiliza toda una gama de colores para mostrar el texto y el fondo de la imagen, lo que hace muy difícil la detección del texto;
- -
- Finalmente, en vídeo, las imágenes tienen generalmente una resolución comprendida entre 160x100 pixeles (difusión por Internet) y 720x480 pixeles (DVD codificado en MPEG2); un formato típico es el formato CIF con 384x288 pixeles, que se compara con la resolución (2500x3500 pixeles) de una imagen A4 escaneada a 300 dpi; esta débil resolución se debe en parte a las cámaras empleadas para generar las imágenes; y al hecho de que las imágenes de vídeo son generalmente comprimidas para poder ser almacenadas y transportadas a través de redes informáticas; el reconocimiento óptico de caracteres es entonces menos ejecutable en las imágenes de vídeo.
\vskip1.000000\baselineskip
Como consecuencia sucede que la técnica de
reconocimiento de caracteres empleada para las imágenes digitales
de texto no puede ser empleada tal cual para las imágenes de
vídeo.
Resulta necesario detectar en primer lugar las
zonas de la imagen de vídeo que contienen texto y aplicar entonces
las técnicas de OCR en estas zonas de texto. Se han efectuado
investigaciones sobre el tema. Los procedimientos de detección de
texto conocidos están basados principalmente en una segmentación de
la imagen de vídeo y un reagrupamiento de los caracteres. A manera
de ejemplo, podemos citar el documento WO 00/45291 y el documento
titulado "Automatic Text Location in Images and Video Frames"
de A.K Jain y B.Yu, Technical Report
MSU-CPS-97-33, PRIP
Lab, Department of Computer Science, 1997. Los autores de este
último documento suponen que el color de los caracteres del texto
es uniforme y emplean una reducción de los colores seguida de una
segmentación de la imagen en zonas de texto y zonas de fondo, y
además, una fase de reagrupamiento espacial de zonas de texto.
Aunque la presencia de los caracteres juntos está prevista por los
autores, la fase de segmentación acarrea numerosos problemas en el
caso de documentos de mala calidad, especialmente en el caso de
secuencias de vídeo de baja resolución.
El documento de patente EP 0 270 114 describe un
procedimiento de detección que comprende una etapa de detección de
contornos en la cual cada pixel de la imagen de vídeo está asociada
a un gradiente normado derivado de los gradientes horizontal y
vertical del pixel para formar una imagen de gradientes normados,
seguida de una binarización de esta imagen de gradientes, y de una
compresión de la imagen binaria resultante.
El documento titulado "Video caption image
enhancement for efficient recognition", de Sangshin Kwak y
otros, Proceedings 15th International Conference on Pattern
Recognition, ICPR-2000, 3-7 Sept
2000, vol. 2 páginas 606-609, describe la
aplicación de un tratamiento de morfología matemática en una imagen
binaria para mejorar el reconocimiento de caracteres en zonas de
texto ya detectadas de la imagen, y más particularmente para
suavizar los límites de los caracteres de texto.
El objetivo de la invención es paliar los
inconvenientes de la técnica anterior mencionada anteriormente.
La invención se refiere a un procedimiento de
detección de zonas de texto en una imagen de vídeo, caracterizado
porque comprende las etapas siguientes:
\vskip1.000000\baselineskip
- -
- calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales,
- -
- transformar dicha imagen de gradientes totales en una imagen binaria mediante una operación de formación de umbral que consiste en comparar el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor del nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o el valor del nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contenga pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definen zonas de texto, y
- -
- aplicar línea por línea un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.
\vskip1.000000\baselineskip
Para calcular el gradiente horizontal de cada
pixel de coordenadas (x,y) en dicha imagen de vídeo y adicionar
entre ellas los gradientes horizontales de los pixeles que
pertenecen a una ventana de integración horizontal de longitud T,
la imagen de vídeo es ventajosamente filtrada por un filtro cuya
respuesta F es la siguiente:
La imagen filtrada es transformada en una imagen
binaria mediante una operación de formación de umbral. Esta
operación consiste generalmente en comparar el valor de cada pixel
de la imagen de gradientes totales con un valor umbral, y en
atribuir el valor del nivel de gris V1 a todos los pixeles cuyo
gradiente total es superior o igual al valor umbral y el valor de
nivel de gris V2 a los otros pixeles de la imagen.
Esta puede igualmente consistir en comparar el
valor de cada pixel de la imagen de gradientes totales con dos
valores umbrales K_{b} y K_{h} con K_{h}>K_{b}, en
atribuir el valor del nivel de gris V1 a los pixeles cuyo gradiente
total es superior o igual al valor umbral K_{h} y a los pixeles,
cuyo gradiente total está comprendido entre K_{b} y K_{h}, con
una secuencia adyacente de p pixeles consecutivos con un gradiente
total superior o igual a K_{h}, y en atribuir el valor del nivel
de gris V2 a todos los demás pixeles de la imagen.
Además, la etapa de tratamiento de morfología
matemática de la imagen binaria comprende principalmente:
\vskip1.000000\baselineskip
- -
- una etapa de dilatación con un elemento de estructuración determinado seguida de una etapa de erosión con el mismo elemento de estructuración para reducir el ruido en la imagen binaria, y
- -
- una etapa de dilatación horizontal y condicional para transformar en pixeles de texto los pixeles de no texto situados entre dos pixeles de texto consecutivos que pertenecen a la misma línea en la imagen binaria cuando ambos pixeles de texto consecutivos están horizontalmente a una distancia de más de N pixeles,
\vskip1.000000\baselineskip
Al final de esta etapa, las zonas de texto están
ventajosamente extendidas a los rectángulos que las abarcan.
Finalmente, cuando se aplica el procedimiento de
detección a una secuencia de imágenes de vídeo, este comprende
además las etapas siguientes:
- -
- determinar, para cada zona de texto, la lista de las imágenes de vídeo en las cuales aparece la misma,
- -
- generar para cada zona de texto y para cada imagen de vídeo de dicha lista asociada, una imagen dilatada de dicha zona de texto,
- -
- generar, para cada zona de texto, una imagen mejorada de dicha zona de texto a partir de las mencionadas imágenes dilatadas de dicha zona de texto, y
- -
- aplicar una etapa de reconocimiento de caracteres en cada una de las mencionadas imágenes mejoradas para extraer el texto que está contenido en ellas.
\vskip1.000000\baselineskip
La invención se refiere igualmente a un
dispositivo de detección de zonas de texto en una imagen de vídeo,
caracterizado porque comprende:
- -
- medios de cálculo para calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales,
- -
- medios de formación de umbral para transformar dicha imagen de gradientes totales en una imagen binaria, donde estos medios de formación de umbral comparan el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor de nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o ya sea el valor de nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contiene pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definen zonas de texto, y
- -
- medios de tratamiento matemático para aplicar, línea por línea, un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir todas las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.
\vskip1.000000\baselineskip
Otras características y ventajas de la invención
aparecerán con la lectura de la descripción detallada que sigue y
que es hecha con referencia a los dibujos anexos, entre los
cuales:
- la figura 1 representa las etapas del
procedimiento de detección de texto en una imagen de vídeo de
acuerdo con la invención;
- la figura 2 ilustra el cálculo del o de los
umbrales para la operación de formación de umbral empleada en la
etapa de binarización del procedimiento de detección de texto de
acuerdo con la invención;
- las figuras 3A y 3B ilustran una etapa del
procedimiento que tiene como función extender, en ciertos casos,
las zonas de texto detectadas por el procedimiento de la
invención;
- las figuras 4A a 4E muestran resultados
intermedios y el resultado final del procedimiento de detección de
la invención;
- la figura 5 representa un organigrama de las
etapas aplicadas a una secuencia de imágenes de vídeo para extraer
el texto contenido en esas imágenes;
- la figura 6 ilustra la generación de una
imagen de vídeo con un contenido mejorado, especialmente dilatado
mediante interpolación; y
- la figura 7 muestra 3 imágenes, una imagen
original que comprende una zona de texto, una imagen dilatada
obtenida por interpolación de dicha imagen original y la imagen
final de esta zona de texto obtenida por integración de 69 imágenes
de vídeo.
El procedimiento de la invención es aplicado a
una imagen de vídeo de partida denotada I. La figura 1 muestra las
etapas del procedimiento de la invención.
De acuerdo con una primera etapa del
procedimiento de la invención, se calcula un gradiente horizontal
para cada pixel de la imagen I y se adiciona al gradiente horizontal
de cada pixel los gradientes horizontales de pixeles ambientales
que pertenecen a la misma línea de la imagen I con el fin de
detectar zonas de la imagen susceptibles de ser zonas de texto.
Esta etapa se apoya en el hecho de que las zonas de texto son
generalmente zonas de fuertes gradientes y que los caracteres de un
texto forman una textura regular que contiene contornos verticales
alargados horizontalmente. Esta etapa de cálculo y de suma de los
gradientes horizontales es realizada mediante un filtro cuya
respuesta F es:
donde T define el tamaño de la
ventana de los gradientes que son adicionados en conjunto. El
gradiente resultante es llamado gradiente total. El valor del
parámetro T depende del tamaño de los caracteres del texto a
detectar y del contraste de la imagen. El gradiente horizontal es,
por ejemplo, calculado por un detector estándar de contorno del
tipo Prewitt, Sobel, Deriche o equivalentes. Al salir de esta etapa
de filtrado, se dispone entonces de una imagen G de gradientes
totales del tamaño de la imagen I y en la cual a cada pixel está
asociado el gradiente total calculado por el
filtro.
Esta etapa de filtrado, con referencia 10 en la
figura 1, está seguida de una etapa de binarización 20 destinada a
transformar la imagen G en una imagen binaria B. Esta etapa es
efectuada por una operación de formación de umbral optimizando el
criterio de Fisher S. La figura 2 ilustra esta operación de
formación de umbral y representa un histograma de los gradientes
totales de la imagen G. El eje de las abscisas representa los
gradientes totales y el eje de las ordenadas el número de pixeles de
la imagen G. Este histograma permite que aparezcan dos
distribuciones de Gauss, una GS1 que se refiere a las zonas de no
texto de la imagen I y la otra GS2 a las zonas de texto. El umbral
S se define como el valor máximo de la expresión siguiente:
donde
- -
- M representa el área total del histograma
- -
- W representa el área total de la gaussiana GS1
- -
- m_{0} es el valor medio de los gradientes totales de la gaussiana GS1, y
- -
- m_{1} es el valor medio de los gradientes totales de la gaussiana GS2.
Los pixeles de la imagen G cuyo valor de
gradiente total es inferior al valor umbral S son definidos
entonces como no pertenecientes a una zona de texto. Se habla
entonces de pixeles de no texto. Se les atribuye un nivel de gris
V1 igual a 0. Los demás pixeles de la imagen G cuyo valor de
gradiente total es superior o igual al valor umbral S se definen
como pertenecientes a una zona de texto y se les atribuye un nivel
de gris V2 igual a 255. Estamos hablando entonces de pixeles de
texto.
Ventajosamente, con el fin de entregar el
resultado menos sensible a elección del valor umbral S, se emplea
una técnica de formación de umbral con doble umbral comparable con
el mecanismo de histéresis en la detección de contornos. El umbral
S definido anteriormente es tomado como umbral alto y denotado
K_{h}. Un umbral bajo K_{b} se define por la relación
siguiente:
El parámetro ha permitido controlar el valor
umbral K_{b}. En la figura 2, este valor umbral está situado
entre el valor medio m0 y el valor umbral K_{h}. La etapa de
binarización se efectúa en el caso de una formación de umbral con
doble umbral de la manera siguiente:
- -
- como anteriormente, todos los pixeles cuyo valor de gradiente total es superior o igual a K_{h} son pixeles de texto; se les atribuye un nivel de gris igual a 255;
- -
- todos los pixeles cuyo valor de gradiente total es inferior a K_{b} son pixeles de no texto; se les atribuye un nivel de gris igual a 0;
- -
- finalmente, todos los pixeles cuyo valor de gradiente total está comprendido entre los umbrales K_{b} y k_{h} son pixeles de texto si existe una secuencia de p pixeles cuyo valor de gradiente total es superior o igual a K_{h} que es adyacente a los mismos. El parámetro p es por ejemplo igual a 8.
\vskip1.000000\baselineskip
La imagen G después de la binarización se
convierte entonces en una imagen binaria B que contiene pixeles de
nivel de gris igual a 255 que representan pixeles de texto y pixeles
de nivel de gris igual a 0 que representan pixeles que pertenecen a
zonas de no texto.
En esta imagen binaria, se definen zonas de
texto Ci que reagrupan pixeles de texto adyacentes. Una zona de
texto también puede, por ejemplo, comprender los pixeles de texto
que forman un carácter de texto.
De acuerdo con una característica importante de
la invención, se realizan varias operaciones de morfología
matemática 30 sobre la imagen binaria B para reducir los ruidos en
la imagen y unir las zonas de texto distantes horizontalmente a más
de N pixeles para formar sólo una zona de texto.
La primera etapa de morfología matemática tiene
como objetivo reducir los ruidos en la imagen binaria B. Esta etapa
consiste en efectuar una operación de dilatación de la imagen con un
elemento de estructuración E y luego una operación de erosión de
esta imagen con el mismo elemento de estructuración. El elemento de
estructuración es por ejemplo
Se recuerda que una operación de dilatación
consiste en reemplazar el valor de cada pixel de la imagen B por el
valor máximo de los pixeles contenidos en el elemento de
estructuración asociado, estando dicho elemento centrado en el
pixel en cuestión. De la misma forma, una operación de erosión
consiste en remplazar el valor de cada pixel de la imagen B por el
valor mínimo de los pixeles contenidos en el elemento de
estructuración asociado, estando dicho elemento centrado en el
pixel en cuestión.
Ventajosamente, la imagen B es entonces
procesada para suprimir los puentes entre las zonas de texto (estos
puentes pueden corresponder a enlaces entre caracteres de texto o al
ruido). Estos puentes pueden ser asimilados en zonas de texto de
baja altura. A continuación se muestra un ejemplo de programa
informático para suprimir las zonas de texto cuya altura es
inferior a m_{1} en la imagen binaria.
todos los pixeles de texto
B(x,y) de la imagen B cuyo A(x,y)<m_{1} son
excluidos del conjunto de los pixeles de
texto.
Una segunda etapa de morfología matemática es
aplicada entonces a la imagen binaria resultante para unir las
zonas de texto que se refieren a una misma palabra o a una misma
frase. Esta etapa es una etapa de dilatación horizontal y
condicional.
Para realizar estas etapas, se define:
- -
- una matriz J del tamaño de la imagen I asociando a cada pixel de la imagen B un número de zona de texto:
\vskip1.000000\baselineskip
- -
- una matriz H tal como
\vskip1.000000\baselineskip
- -
- una matriz H' tal como
\vskip1.000000\baselineskip
Cada término H'(x,y) de la matriz H' encierra la
altura máxima de la zona de texto Ci a la cual pertenece el pixel
B(x,y) o la altura máxima de la zona de texto Cj que sigue en
la línea y de la imagen B si existe una.
La operación de dilatación horizontal y
condicional consiste en transformar, línea por línea, los pixeles
de no texto situados entre dos zonas de texto (izquierda y derecha)
separados al máximo de N pixeles en pixeles de texto. De ello
resulta que ambas zonas de texto espaciadas a más de N pixeles son
unidas para formar una sola zona de texto. Esta operación utiliza
las matrices J y H'. Posteriormente se brinda un ejemplo de
algoritmo de dilatación horizontal y condicional.
Preferentemente, se prevén restricciones
suplementarias para autorizar la unión de dos zonas de texto,
derecha e izquierda, en una zona de texto global:
- -
- la diferencia de altura entre la zona de texto izquierda y la zona de texto derecha debe ser inferior a la altura más pequeña de las zonas de texto izquierda y derecha, es decir:
- -
- la diferencia de altura entre la zona de texto global y la zona de texto izquierda debe ser inferior a la altura más pequeña de las zonas de texto izquierda y derecha, es decir
con
El algoritmo de dilatación horizontal y
condicional es por ejemplo el siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Es posible ejecutar seguidamente otra operación
de dilatación/erosión para suprimir el ruido engendrado por la
operación de dilatación horizontal y condicional en la imagen
binaria. Esta nueva operación de dilatación/erosión es efectuada
con un elemento de estructuración del tipo [111], siendo a la vez
utilizado el mismo elemento de estructuración para la dilatación y
la erosión.
Después de esta fase de tratamiento de
morfología matemática, cada zona de texto es preferentemente
extendida al rectángulo que la abarca (etapa 40 de la figura 1)
Los rectángulos de texto que no satisfacen las
restricciones geométricas siguientes son además suprimidos:
- -
- un rectángulo debe contener al menos 10 pixeles de texto;
- -
- la relación largo/alto del rectángulo debe ser superior a un valor umbral g1 (con g1 > 1);
- -
- el índice de relleno del rectángulo de texto con respecto a la zona de texto incluida en ese rectángulo debe ser superior a un valor umbral g2, a saber
Los rasgos en los extremos de los caracteres,
como la barra superior del carácter "t" y la barra inferior de
la p, y la parte superior de un carácter en mayúscula al comienzo de
una palabra son generalmente reconocidos en la imagen binaria B
como pixeles de texto por el filtro de respuesta F pero son además
excluidos de manera general de las zonas de texto durante el
tratamiento de morfología matemática. También, se recomienda
investigar estos casos particulares en la imagen binaria B y luego
agrandar los rectángulos de texto obtenidos después del tratamiento
morfológico para que estos engloben los pixeles correspondientes a
estos casos particulares. Un ejemplo es brindado en las figuras 3A
y 3B. La figura 3A muestra los rectángulos de texto obtenidos
después del tratamiento morfológico para la palabra "San
Dermopro". La parte superior de la letra mayúscula S está
excluida del rectángulo de texto que abarca la palabra San. De la
misma manera la parte inferior de la p está excluida del rectángulo
de texto que engloba la palabra Dermopro. Estos dos rectángulos son
extendidos entonces para incluir estas dos partes. La figura 3B
muestra los rectángulos obtenidos después de la extensión.
La etapa final de la detección de las zonas de
texto consiste en combinar los rectángulos de texto con el fin de
limitarlos en número. Es posible, por ejemplo, fusionar los
rectángulos de texto que se superponen parcialmente o suprimir los
rectángulos de texto que son incluidos en otros rectángulos de
texto. Preferentemente, dos rectángulos de texto que se superponen
parcialmente son fusionados en un rectángulo de una dimensión mayor
si:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
o
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde
- -
- O es el área de la zona de no superposición del pequeño rectángulo
- -
- S es el área del pequeño rectángulo,
- -
- B es el área del rectángulo mayor, y
- -
- i_{1}, i_{2}, i_{3} son valores umbral.
\vskip1.000000\baselineskip
El resultado de la detección es entonces una
lista de rectángulos de texto. Las figuras 4A a la 4E ilustran las
etapas del procedimiento de la invención. La imagen de partida I es
extraída de una emisión deportiva (figura 4A). La imagen de los
gradientes totales (figura 4B) muestra la fuerte respuesta del
filtro en las zonas del texto de la imagen I, pero igualmente en
los lugares con fuertes gradientes estructurados regularmente.
Aunque este ruido queda permanente en la imagen binaria (figura 4c),
la fase de morfología matemática ha logrado suprimirlo (figura 4D).
Los rectángulos de texto finales son mostrados en la figura 4E.
Este procedimiento de detección puede ser
aplicado a una secuencia de imágenes de vídeo. La figura 5
representa las etapas que son aplicadas entonces a la secuencia de
imágenes de vídeo. Una primera etapa de detección de zonas de texto
50 es efectuada para cada imagen de vídeo de manera que se obtenga
una lista de rectángulos de texto para cada imagen de la secuencia.
Estas listas de rectángulos de texto son entonces tratadas (etapa
51) para determinar las ocurrencias de cada rectángulo de texto en
la secuencia de imagen de vídeo, una ocurrencia de un rectángulo de
texto que significa en este caso un aparición de dicho rectángulo
de texto en una imagen de vídeo, por ejemplo, 10 ocurrencias de un
rectángulo de texto correspondiente a una aparición de dicho
rectángulo de texto en 10 imágenes de vídeo de la secuencia.
En la práctica, una lista L de rectángulos de
texto es definida para la primera imagen de vídeo de la secuencia.
Esta lista L es memorizada. Para cada imagen I_{i}, diferente a la
primera imagen de la secuencia, la lista L_{i} de rectángulos de
texto asociada se compara con la lista L. La lista L es completada a
medida que un nuevo rectángulo de texto es señalado en una lista Li
y, para cada rectángulo de texto de la lista L final es definida
una lista de las imágenes en las cuales está presente ese rectángulo
de texto. Para realizar esta etapa, son efectuadas mediciones de
superposición de los rectángulos de texto. Un rectángulo de texto R
de la lista L es considerado como presente en la imagen Ii si la
imagen Ii contiene un rectángulo de texto Ri de manera tal que los
rectángulos de texto R y Ri se superponen en, al menos, 50% del más
pequeño de los dos rectángulos de texto.
Los rectángulos de texto de la lista L presentes
en un número pequeño de imágenes son suprimidos de la lista L.
Estos rectángulos de texto son en efecto considerados como "falsas
alarmas". Los rectángulos que son conservados en la lista L
deben responder a los criterios siguientes:
- -
- el número de imágenes LEN que separan la primera ocurrencia y la última ocurrencia de un rectángulo de texto R en la secuencia de imágenes considerada debe ser superior a un número predefinido de imágenes NBIm;
- -
- el número de imágenes MISS de la secuencia de imágenes de longitud LEN donde está ausente la ocurrencia del rectángulo de texto R, debe verificar la siguiente desigualdad
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde Smiss es un valor umbral
porcentual.
Para que una herramienta clásica de
reconocimiento óptico de caracteres OCR (por Optical Character
Recognition en lengua inglesa) esté en condiciones de extraer el
texto contenido en los rectángulos de texto, es preferible mejorar
la calidad de representación de las partes de la imagen contenidas
en esos rectángulos de texto (etapa 52 en la figura 5). De acuerdo
con la invención, se propone entonces crear una imagen dilatada de
cada rectángulo de texto R de la lista final L a partir de las
imágenes que contienen el rectángulo de texto R.
Para realizar esta etapa, se efectúan las
mediciones estadísticas siguientes para los pixeles (i, j) del
rectángulo R mayor de cada ocurrencia de texto:
- -
- un promedio
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
- -
- una diferencia tipo
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde
- -
- NIm es el número de imágenes I que contienen el rectángulo de texto R, y
- -
- i, j, t es un pixel del rectángulo de texto R de coordenadas i y j en la imagen I_{t}.
\vskip1.000000\baselineskip
Con estas mediciones, se crea, para cada imagen
I_{t} donde aparece el rectángulo de texto R, una imagen
interpolada I_{int}(t). A este efecto, un coeficiente de
ponderación g_{ijt} es calculado para cada punto i,j del
rectángulo de texto R de la imagen I_{t}:
El valor de nivel de gris de un punto P de
coordenadas i+\alpha, j+\beta en la imagen interpolada
Iint(t) es calculado entonces de la manera siguiente:
Los parámetros \alpha y \beta empleados en
esta ecuación son definidos en la figura 6. Esta figura muestra 4
pixeles adyacentes P_{1}, P_{2}, P_{3} y P_{4} en una imagen
I_{t}. Las coordenadas respectivas de estos cuatro puntos en la
imagen It son: (i, j), (i+1, j), (i+1, j+1) y (i, j+1). Se tiene
(\alpha,\beta) \in [0,1]. En el ejemplo de la figura 6,
\alpha=1/4 y \beta = 1/4. En este ejemplo de interpolación, se
crean 16 pixeles en la imagen interpolada a partir de 4 pixeles
adyacentes en la imagen I_{t}. El factor de interpolación es
entonces igual a 4.
Todas las imágenes dilatadas obtenidas por
interpolación son utilizadas entonces para generar una imagen de
calidad de representación elevada que podrá ser tratada
correctamente con una herramienta de OCR (etapa 53 de la figura 5)
para extraer el texto que está contenido en la misma. Esta imagen de
calidad, Q, de representación elevada es obtenida, por ejemplo,
calculando el promedio de las imágenes dilatadas:
donde Nim es el número de imágenes
dilatadas.
La figura 7 muestra una parte de una imagen de
vídeo original que contiene texto, una imagen dilatada de dicha
imagen y la imagen final obtenida por integración de 69 imágenes
dilatadas que comprenden dicho texto.
Los parámetros utilizados para la puesta en
práctica de un modo de realización preferido del procedimiento de
la invención son brindados a continuación:
El procedimiento de la invención puede ser
utilizado para determinar el contenido semántico de imágenes de una
base de datos audiovisuales con vistas a su indización. Puede ser
empelado igualmente en un sistema de búsqueda de datos cuando la
solicitud es una imagen. Todo o parte de este procedimiento puede
ser puesto en práctica en una computadora personal, una terminal
fija o móvil, o un servidor multimedia accesible para muchos
usuarios.
La invención se refiere a un dispositivo que
contiene medios para poner en práctica las etapas de este
procedimiento.
Este procedimiento está más particularmente
destinado a detectar zonas de texto que se extienden
horizontalmente. Claro está, el procedimiento puede ser utilizado
para detectar zonas de texto que se extienden en cualquier
dirección. Es suficiente entonces calcular, no el gradiente
horizontal de cada pixel, sino el gradiente de cada pixel de
acuerdo con la dirección escogida, y con adicionar dichos gradientes
que pertenecen a una ventana que se extiende en esa misma
dirección. De la misma manera, la etapa de dilatación horizontal y
condicional es remplazada entonces por una etapa de dilatación
condicional de acuerdo con la dirección escogida.
Claims (20)
1. Procedimiento de detección de zonas de texto
en una imagen de vídeo, caracterizado porque comprende las
etapas siguientes:
- -
- calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales (G),
- -
- transformar dicha imagen de gradientes totales (G) en una imagen binaria (B) mediante una operación de formación de umbral que consiste en comparar el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor del nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o el valor del nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contenga pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definiendo zonas de texto, y
- -
- aplicar línea por línea un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.
\vskip1.000000\baselineskip
2. Procedimiento de acuerdo con la
reivindicación 1, caracterizado porque, para calcular el
gradiente horizontal de cada pixel de coordenadas (x,y) en dicha
imagen de vídeo y adicionar entre ellos los gradientes horizontales
de los pixeles que pertenecen a una ventana de integración
horizontal de longitud T, dicha imagen de vídeo es filtrada
mediante un filtro cuya respuesta F es la siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
3. Procedimiento de acuerdo con la
reivindicación 1 o 2, caracterizado porque dicha operación de
formación de umbral consiste en comparar el valor de cada pixel de
la imagen de gradientes totales con un valor umbral (K_{h}), y en
atribuir el valor de nivel de gris V1 a todos los pixeles cuyo
gradiente total es superior o igual al valor umbral (K_{h}) y el
valor de nivel de gris V2 a los demás pixeles de la imagen.
4. Procedimiento de acuerdo con la
reivindicación 1 o 2, caracterizado porque dicha operación de
formación de umbral consiste en comparar el valor de cada pixel de
la imagen de gradientes totales (G) con dos valores umbral, K_{b}
y K_{h} con K_{h} > K_{b}, y en atribuir el valor del nivel
de gris V1 a los pixeles cuyo gradiente total es superior o igual
al valor umbral K_{h} y a los pixeles, cuyo gradiente total está
comprendido entre K_{b} y K_{h}, con una secuencia adyacente de
p pixeles consecutivos con un gradiente total superior o igual a
K_{h} y en atribuir el valor del nivel de gris V2 a todos los
demás pixeles de la imagen.
5. Procedimiento de acuerdo con cualquiera de
las reivindicaciones 1 a 4, caracterizado porque la etapa de
tratamiento de morfología matemática de la imagen binaria (B)
comprende:
- -
- una etapa de dilatación con un elemento de estructuración (E) determinado seguido de una etapa de erosión con el mismo elemento de estructuración (E) para reducir el ruido en la imagen binaria (B), y
- -
- una etapa de dilatación horizontal y condicional para transformar en pixeles de texto los pixeles de no texto situados entre dos pixeles de texto consecutivos que pertenecen a la misma línea en la imagen binaria (B) cuando los dos pixeles de textos consecutivos están horizontalmente a una distancia de más de N pixeles.
\vskip1.000000\baselineskip
6. Procedimiento de acuerdo con la
reivindicación 5, caracterizado porque la etapa de
tratamiento de morfología matemática comprende además una última
etapa de dilatación con un elemento de estructuración determinado
seguido por una última etapa de dilatación para reducir el ruido en
la imagen binaria resultante de la etapa de dilatación horizontal y
condicional.
7. Procedimiento de acuerdo con una de las
reivindicaciones 1 a 6, caracterizado porque las zonas de
texto son extendidas a los rectángulos que las abarcan.
8. Procedimiento de acuerdo con una de las
reivindicaciones anteriores aplicado a una secuencia de imágenes de
vídeo, caracterizado porque comprende además:
- -
- determinar, para cada zona de texto, la lista de las imágenes de vídeo en las cuales aparece la misma,
- -
- generar para cada zona de texto y para cada imagen de vídeo de dicha lista asociada, una imagen dilatada de dicha zona de texto,
- -
- generar, para cada zona de texto, una imagen mejorada de dicha zona de texto a partir de las mencionadas imágenes dilatadas de dicha zona de texto, y
- -
- aplicar una etapa de reconocimiento de caracteres en cada una de las mencionadas imágenes mejoradas para extraer el texto que está contenido en ellas.
9. Procedimiento de acuerdo con la
reivindicación 8, caracterizado porque, para generar una
imagen dilatada de una zona de texto, se calcula un promedio
estadístico sobre las imágenes de lista asociada a esta zona de
texto y una diferencia tipo para cada pixel de dicha zona de texto y
se genera una imagen dilatada por interpolación de los pixeles de
dicha zona de texto utilizando el promedio estadístico y la
diferencia tipo de los pixeles de esta zona de texto.
10. Procedimiento de acuerdo con la
reivindicación 8 o 9, caracterizado porque es utilizado para
determinar el contenido semántico de imágenes en una base de datos
audiovisuales con vistas a su indización.
11. Procedimiento de acuerdo con la
reivindicación 8 o 9 caracterizado porque es utilizado para
procesar una imagen de vídeo que sirva de solicitud en un sistema
de búsqueda de datos.
12. Procedimiento de acuerdo con una de las
reivindicaciones anteriores, caracterizado porque dichas
etapas del procedimiento, o una parte de ellas, son puestas en
práctica en un ordenador personal, un terminal fijo o móvil, o un
servidor multimedia accesible para muchos usuarios.
13. Dispositivo de detección de zonas de texto
en una imagen de vídeo, caracterizado porque comprende:
- -
- medios de cálculo para calcular el gradiente horizontal de la intensidad de cada pixel de dicha imagen de vídeo y adicionar, para cada pixel de dicha imagen de vídeo, los gradientes horizontales de los pixeles que pertenecen a una ventana de integración horizontal que abarca el pixel en cuestión de manera que genere una imagen de gradientes totales (G),
- -
- medios de formación de umbral para transformar dicha imagen de gradientes totales (G) en una imagen binaria (B), donde estos medios de formación de umbral comparan el valor del gradiente total de cada pixel de la imagen de gradientes totales con al menos un valor umbral, para atribuir a cada pixel, ya sea el valor de nivel de gris V1 representativo de un pixel de texto que pertenece a una zona de texto, o ya sea el valor de nivel de gris V2 representativo de un pixel de no texto que no pertenece a una zona de texto, de manera que se obtenga una imagen binaria que contiene pixeles de texto con un valor de nivel de gris V1 y pixeles de no texto con un valor de nivel de gris V2, donde los pixeles de texto adyacentes definen zonas de texto, y
- -
- medios de tratamiento matemático para aplicar, línea por línea, un tratamiento de morfología matemática a dicha imagen binaria con el fin de unir todas las zonas de texto distantes horizontalmente a más de N pixeles para formar una sola.
14. Dispositivo de acuerdo con la reivindicación
13, caracterizado porque, para calcular el gradiente
horizontal de cada pixel de coordenadas (x,y) en dicha imagen de
vídeo, y para adicionar entre ellos los gradientes horizontales de
los pixeles que pertenecen a una ventana de integración horizontal
de longitud T, dichos medios de cálculo son formados mediante un
filtro cuya respuesta F es la siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
15. Dispositivo de acuerdo con la reivindicación
13 o 14, caracterizado porque dichos medios de formación de
umbral comparan el valor de cada pixel de la imagen de gradientes
totales con un valor umbral (K_{h}), y atribuyen el valor de
nivel de gris V1 a todos los pixeles cuyo gradiente total es
superior o igual al valor umbral (K_{h}) y el valor de nivel de
gris V2 a los demás pixeles de la imagen.
16. Dispositivo de acuerdo con la reivindicación
13 o 14 caracterizado porque dichos medios de formación de
umbral comparan el valor de cada pixel de la imagen de gradientes
totales (G) con dos valores umbral K_{b} y K_{h} con K_{h}
> K_{b}, atribuyen el valor de nivel de gris V1 a los pixeles
cuyo gradiente total es superior o igual al valor umbral K_{h} y
a los pixeles, cuyo gradiente total está comprendido entre K_{b} y
K_{h}, con una secuencia adyacente de p pixeles consecutivos con
un gradiente total superior o igual a K_{h} y el valor de nivel
de gris V2 a todos los demás pixeles de la imagen.
17. Dispositivo de acuerdo con cualquiera de las
reivindicaciones 13 a 16, caracterizado porque los medios de
tratamiento matemático operan las siguientes etapas de tratamiento
de morfología matemática en la imagen binaria (B):
- -
- una etapa de dilatación con un elemento de estructuración (E) determinado seguido de una etapa de erosión con el mismo elemento de estructuración (E) para reducir el ruido en la imagen binaria (B), y
- -
- una etapa de dilatación horizontal y condicional para transformar en pixeles de texto los pixeles de no texto situados entre dos pixeles de texto consecutivos que pertenecen a la misma línea en la imagen binaria (B) cuando los dos pixeles de texto consecutivos están horizontalmente distantes a más de N pixeles.
18. Dispositivo de acuerdo con la reivindicación
17, caracterizado porque los medios de tratamiento matemático
operan además una última etapa de dilatación con un elemento de
estructuración determinado seguido de una última etapa de
dilatación para reducir el ruido en la imagen binaria resultante de
la etapa de dilatación horizontal y condicional.
19. Dispositivo de acuerdo con una de las
reivindicaciones 13 a 18, utilizado para tratar una secuencia de
imágenes de vídeo, caracterizado porque comprende
además:
- -
- medios para determinar, para cada zona de texto, la lista de las imágenes de vídeo en las cuales aparece,
- -
- medios para generar, para cada zona de texto y para cada imagen de vídeo de dicha lista asociada, una imagen dilatada de dicha zona de texto,
- -
- medios para generar, para cada zona de texto, una imagen mejorada de dicha zona de texto a partir de dichas imágenes dilatadas de dicha zona de texto, y
- -
- medios de reconocimiento de caracteres (OCR) para extraer el texto contenido en cada una de dichas imágenes mejoradas.
20. Dispositivo de acuerdo con la reivindicación
19, caracterizado porque es utilizado para determinar el
contenido semántico de imágenes en una base de datos audiovisuales
con vistas a su indización.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0106776A FR2825173B1 (fr) | 2001-05-23 | 2001-05-23 | Procede de detection de zones de texte dans une image video |
FR0106776 | 2001-05-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2301645T3 true ES2301645T3 (es) | 2008-07-01 |
Family
ID=8863578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES02735549T Expired - Lifetime ES2301645T3 (es) | 2001-05-23 | 2002-05-22 | Procedimiento de deteccion de zonas de texto en una imagen de video. |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1390905B1 (es) |
DE (1) | DE60225268T2 (es) |
ES (1) | ES2301645T3 (es) |
FR (1) | FR2825173B1 (es) |
WO (1) | WO2002095662A1 (es) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2860902B1 (fr) * | 2003-10-10 | 2005-12-09 | France Telecom | Determination de caracteristiques textuelles de pixels |
CN100349175C (zh) * | 2004-05-14 | 2007-11-14 | 中华电信股份有限公司 | 从车辆影像中撷取车牌区域的方法 |
WO2006129261A1 (en) * | 2005-06-01 | 2006-12-07 | Koninklijke Philips Electronics N.V. | Method and device for detecting text |
US7912289B2 (en) | 2007-05-01 | 2011-03-22 | Microsoft Corporation | Image text replacement |
US8867828B2 (en) | 2011-03-04 | 2014-10-21 | Qualcomm Incorporated | Text region detection system and method |
CN111401319B (zh) * | 2020-04-15 | 2024-04-12 | 北京深智恒际科技有限公司 | PSENet网络渐进式扩展后处理出现文本粘连的解决方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0720114B1 (en) * | 1994-12-28 | 2001-01-24 | Siemens Corporate Research, Inc. | Method and apparatus for detecting and interpreting textual captions in digital video signals |
US6731788B1 (en) * | 1999-01-28 | 2004-05-04 | Koninklijke Philips Electronics N.V. | Symbol Classification with shape features applied to neural network |
-
2001
- 2001-05-23 FR FR0106776A patent/FR2825173B1/fr not_active Expired - Fee Related
-
2002
- 2002-05-22 ES ES02735549T patent/ES2301645T3/es not_active Expired - Lifetime
- 2002-05-22 EP EP02735549A patent/EP1390905B1/fr not_active Expired - Lifetime
- 2002-05-22 WO PCT/FR2002/001712 patent/WO2002095662A1/fr active IP Right Grant
- 2002-05-22 DE DE60225268T patent/DE60225268T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
FR2825173B1 (fr) | 2003-10-31 |
EP1390905A1 (fr) | 2004-02-25 |
WO2002095662A1 (fr) | 2002-11-28 |
FR2825173A1 (fr) | 2002-11-29 |
EP1390905B1 (fr) | 2008-02-27 |
DE60225268T2 (de) | 2009-03-26 |
DE60225268D1 (de) | 2008-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106254933B (zh) | 字幕提取方法及装置 | |
WO2021088300A1 (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
TWI571803B (zh) | 彩色二維條碼的產生方法 | |
CN112950661B (zh) | 一种基于注意力生成对抗网络人脸卡通画生成方法 | |
CN110517246B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
TWI223212B (en) | Generalized text localization in images | |
CN109918987B (zh) | 一种视频字幕关键词识别方法及装置 | |
CN102163284B (zh) | 面向中文环境的复杂场景文本定位方法 | |
CN111028308B (zh) | 一种图像中信息的隐写及读取方法 | |
CN101971190A (zh) | 实时身体分割系统 | |
CN112070649B (zh) | 一种去除特定字符串水印的方法及系统 | |
CN113591831A (zh) | 一种基于深度学习的字体识别方法、系统及存储介质 | |
Janani et al. | Recognition and analysis of Tamil inscriptions and mapping using image processing techniques | |
CN107977648B (zh) | 一种基于人脸识别的身份证清晰度的判别方法和系统 | |
ES2301645T3 (es) | Procedimiento de deteccion de zonas de texto en una imagen de video. | |
Zheng et al. | Deep Learning‐Driven Gaussian Modeling and Improved Motion Detection Algorithm of the Three‐Frame Difference Method | |
CN115035531A (zh) | 一种零售终端文字识别方法及系统 | |
CN110533020B (zh) | 一种文字信息的识别方法、装置及存储介质 | |
CN112738555B (zh) | 视频处理方法及装置 | |
CN117765485A (zh) | 基于改进的深度残差网络的车型识别方法、装置和设备 | |
CN111179289B (zh) | 一种适用于网页长图宽图的图像分割方法 | |
Sreedevi et al. | Ngfica based digitization of historic inscription images | |
CN109800758A (zh) | 一种极大值区域检测的自然场景文字检测方法 | |
Zhu et al. | A random-valued impulse noise removal algorithm via just noticeable difference threshold detector and weighted variation method | |
CN102567982A (zh) | 一种视频节目特定信息的提取系统及其方法、移动终端 |