ES2819221T3 - Aparato de procesamiento de imágenes, método de procesamiento de imágenes y programa de procesamiento de imágenes - Google Patents
Aparato de procesamiento de imágenes, método de procesamiento de imágenes y programa de procesamiento de imágenes Download PDFInfo
- Publication number
- ES2819221T3 ES2819221T3 ES15162549T ES15162549T ES2819221T3 ES 2819221 T3 ES2819221 T3 ES 2819221T3 ES 15162549 T ES15162549 T ES 15162549T ES 15162549 T ES15162549 T ES 15162549T ES 2819221 T3 ES2819221 T3 ES 2819221T3
- Authority
- ES
- Spain
- Prior art keywords
- region
- swt
- pixels
- mono
- color
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
Aparato (10) de procesamiento de imágenes que comprende: una primera unidad (12) de extracción configurada para realizar una transformada de ancho de trazo en una imagen y extraer de ese modo una región de SWT a partir de la imagen, siendo la región de SWT una región que tiene un borde continuo y un ancho de trazo dentro de un intervalo establecido, siendo el borde un límite entre la región de SWT y otra región según el método de Canny; una segunda unidad (13) de extracción configurada para realizar un agrupamiento basado en valores de píxel en la imagen y extraer de ese modo una región monocolor a partir de la imagen, siendo la región monocolor una región compuesta por una pluralidad de píxeles que tienen valores de píxel dentro de un intervalo establecido y dichos píxeles están presentes continuamente como una región monocolor, en el que, si un valor de píxel de un primer píxel adyacente a un segundo píxel cuyo valor de píxel está dentro del intervalo establecido también está dentro del intervalo establecido, dichos píxeles primero y segundo están presentes continuamente; y una unidad (14) de especificación configurada para determinar si una razón del número de píxeles en una parte de solape entre la región de SWT y la región monocolor con respecto al número de píxeles en la región monocolor es igual a o mayor que un primer valor de referencia, o mayor que el primer valor de referencia y para especificar, en un caso en el que la razón es igual a o mayor que un primer valor de referencia o mayor que el primer valor de referencia, una región de texto candidata basándose al menos en la región monocolor, en el que: la unidad (14) de especificación especifica la región de texto candidata complementando una parte faltante estimada de la región de SWT con píxeles de la región monocolor; la parte faltante estimada comprende píxeles de la imagen extraídos como parte de la región monocolor y no extraídos como parte de la región de SWT; la primera unidad (12) de extracción está configurada además para añadir un marcador que indica si un píxel es un borde de la región de SWT; y la unidad (14) de especificación está configurada además para complementar la parte faltante estimada sin usar píxeles de la región monocolor fuera del límite de la región de SWT, usando el resto de los píxeles de la región monocolor, la primera unidad (12) de extracción realiza la transformada de ancho de trazo usando un primer umbral de borde (Ta), y la unidad (14) de especificación está configurada además para calcular una región diferencial que está incluida en la región monocolor calculando una diferencia entre la región de SWT y la región monocolor, realizar la transformada de ancho de trazo usando un segundo umbral de borde (Tb) menor que el primer umbral de borde (Ta) en una parte de la región monocolor que no se solapa con la región de SWT para determinar de ese modo si hay una región adicional que está incluida en la región diferencial y tiene el mismo intervalo del ancho de trazo que la región de SWT y para buscar de ese modo un borde adicional, y ampliar la región de SWT usando el borde adicional, y complementar una parte faltante estimada de la región de SWT ampliada sin usar píxeles de la región monocolor fuera del límite de la región de SWT ampliada, usando el resto de los píxeles de la región monocolor.
Description
DESCRIPCIÓN
Aparato de procesamiento de imágenes, método de procesamiento de imágenes y programa de procesamiento de imágenes
Antecedentes de la invención
Campo de la invención
Un aspecto de la presente invención se refiere a un aparato de procesamiento de imágenes, a un método de procesamiento de imágenes y a un programa de procesamiento de imágenes.
Técnica anterior relacionada
Una de las técnicas existentes para extraer una región de texto a partir de una imagen es la transformada de ancho de trazo (SWT, por sus siglas en inglés), que extrae una región en la que un ancho entre bordes, que es un ancho de trazo, es constante como región de texto candidata (véase el documento no de patente 1 a continuación). Además, hay una técnica que usa regiones extremas máximamente estables (MSER, por sus siglas en inglés) que especifica una región encerrada por una curva cerrada estable a través de un borde en combinación con la SWT.
Documento no de patente 1: B. Epshtein, E. Ofek e Y. Wexler, “Detecting Text in Natural Scenes with Stroke Width Transform”, Conferencia del IEEE sobre visión mediante ordenador y reconocimiento de patrones, 2010, págs. 1-8 Georg Poier ET AL, “Text Localization in Unconstrained Images”, 17° taller de invierno sobre visión mediante ordenador, URL: http://lrs.icg.tugraz.at/pubs/poier_cvww_12.pdf, XP055241349 se refiere a localización de texto en imágenes sin restricciones y describe que se obtienen componentes conectados. Además, se describe que para identificar componentes que definitivamente no contienen caracteres, las mediciones de ancho de trazo tienen un gran potencial y tal información puede obtenerse directamente a partir del filtro de trazo. Además, se describe que se emplea un agrupamiento de k-medias de los colores medios de los superpíxeles, seguido por una región que crece a partir de los superpíxeles basándose en pertenencias a agrupaciones calculadas.
WANG K ET AL, “Character location in scene images from digital camera”, PATTERN RECOGNITION, ELSEVIER, GB, (20031001), vol. 36, n.° 10, DOI: 10.1016/S0031-3203(03)00082-7, ISSN 0031-3203, PÁGINAS 2287 - 2299, XP004439123 se refiere a un sistema que usa un agrupamiento de color para separar la imagen en color en capas de colores homogéneos que se analizan luego para realizar la detección aproximada de caracteres usando cuadros delimitadores de componentes conectados en todas las capas de colores.
Además, WEI FAN ET AL: “Text Detection in Images Based on Grayscale Decomposition and Stroke Extraction”, PATTERN RECOGNITION, 2009, CCPR 2009, CHINESE CONFERENCE ON, IEEE, PISCATAWAY, EE.UU., 4 de noviembre de 2009, páginas 1-4, XP031573547, ISBN: 978-1-4244-4199-0 describe un método de detección de regiones de texto en imágenes que combina descomposición en escala de grises y extracción de trazo. En particular, al comprobar la coherencia de dos características de texto, se agrupan componentes conectados de tipo texto para generar regiones de líneas de texto en una imagen procesada.
Sumario de la invención
Sin embargo, en las técnicas que extraen una región de texto candidata basándose en bordes, tales como la SWT y las MSER, la precisión de extracción de una región de texto se degrada en caso de fallo en la primera detección de borde. Por ejemplo, cuando el fondo de una región de texto tiene una pluralidad de colores y hay una parte en la que el borde entre la región de texto y la región de fondo es débil, el borde débil no puede detectarse incluso con el uso tanto de la SWT como de las MSEr , lo que provoca un fallo al extraer la región de texto como resultado. Por tanto, se desea extraer de manera más fiable una región de texto a partir de una imagen.
La presente invención proporciona un aparato de procesamiento de imágenes según la reivindicación 1.
La presente invención también proporciona un método de procesamiento de imágenes según la reivindicación 6. La presente invención también proporciona un programa de procesamiento de imágenes según la reivindicación 7. En los aspectos anteriores, además de una extracción de una región de SWT mediante SWT, se realiza independientemente de la SWT una extracción de una región monocolor mediante agrupamiento basado en valores de píxel. Luego, cuando una parte de solape entre la región de SWT y la región monocolor tiene una determinada razón con respecto a la región monocolor, se especifica un grupo de píxeles incluido en una región de texto candidata. De esta manera, usando una técnica basada en valores de píxel, no en bordes, en combinación con la SWT y usando dos tipos de regiones obtenidas a partir de esas dos técnicas, es posible compensar las desventajas de la técnica basada en bordes y extraer de manera más fiable una región de texto a partir de una imagen.
Según un aspecto de la presente invención, es posible extraer de manera más fiable una región de texto a partir de una imagen.
Breve descripción de los dibujos
La invención se expone en el conjunto de reivindicaciones adjunto. Se considera que cualquier referencia en la siguiente descripción a realizaciones, objetos, aspectos y/o ejemplos que no esté cubierta por las reivindicaciones adjuntas no es parte de la presente invención.
La figura 1 es un diagrama que muestra el concepto de extracción de una región de texto candidata según una realización.
La figura 2 es un diagrama que muestra una configuración de hardware de un aparato de procesamiento de imágenes según la realización.
La figura 3 es un diagrama de bloques que muestra una configuración funcional del aparato de procesamiento de imágenes según la realización.
La figura 4 es un diagrama que ilustra una transformada de ancho de trazo (SWT).
La figura 5 es un diagrama que muestra un ejemplo de extracción de regiones de SWT.
La figura 6 es un diagrama que muestra ejemplos de establecimiento una región objetivo de agrupamiento. La figura 7 es un diagrama que muestra un ejemplo de extracción de regiones monocolores.
La figura 8 es un diagrama que muestra un ejemplo de solape entre una región de SWT y una región monocolor. La figura 9 es un diagrama que muestra otro ejemplo de solape entre una región de SWT y una región monocolor.
La figura 10 es un diagrama que muestra otro ejemplo de solape entre una región de SWT y una región monocolor. La figura 11 es un diagrama que muestra otro ejemplo de solape entre una región de SWT y una región monocolor. La figura 12 es un diagrama que muestra un ejemplo de complementación de una región de SWT.
La figura 13 es un diagrama que muestra otro ejemplo de complementación de una región de SWT.
La figura 14 es un diagrama que muestra otro ejemplo de complementación de una región de SWT.
La figura 15 es un diagrama de flujo que muestra un funcionamiento del aparato de procesamiento de imágenes según la realización.
La figura 16 es un diagrama de flujo que muestra un procedimiento de especificación de un grupo de píxeles para una región de texto candidata.
La figura 17 es un diagrama que muestra una configuración de un programa de procesamiento de imágenes según la realización.
La figura 18 es un diagrama que ilustra efectos de procesamiento de imágenes según la realización.
Descripción de las realizaciones preferidas
A continuación en el presente documento se describe con detalle una realización de la presente invención con referencia a los dibujos adjuntos. Obsérvese que, en la descripción de los dibujos, los elementos iguales o equivalentes se indican mediante los mismos símbolos de referencia, y se omite la explicación redundante de los mismos.
Las funciones y la configuración de un aparato 10 de procesamiento de imágenes según la realización se describen a continuación en el presente documento con referencia a las figuras 1 a 14. El aparato 10 de procesamiento de imágenes es un sistema informático que extrae una región de texto candidata a partir de datos de imagen.
“ Imagen” en esta memoria descriptiva es una imagen en la que un objeto está fijado sobre un medio de modo que puede percibirse por el sentido humano de la vista. Además, “datos de imagen” son datos procesables por ordenador que representan una imagen. Por tanto, la imagen en esta memoria descriptiva se registra en un dispositivo de almacenamiento tal como una memoria y se emite a un dispositivo de salida tal como un monitor mediante el
procesamiento de un procesador, pasando a ser visible de ese modo. La imagen puede ser una imagen fija o cada fotograma que forma una imagen en movimiento. Ejemplos de la imagen fija son una fotografía, una ilustración y similares, y ejemplos de la imagen en movimiento son un vídeo, una animación y similares, aunque el tipo de la imagen no se limita a los mismos. La imagen puede obtenerse mediante equipos electrónicos tales como una cámara o un escáner o puede crearse mediante infografía.
“Región de texto candidata” en esta memoria descriptiva es una región en la que se estima que hay texto presente en la imagen. “Texto” en esta memoria descriptiva es el concepto que incluye un signo, una cifra o similares de una forma determinada.
Pueden usarse resultados de procesamiento del aparato 10 de procesamiento de imágenes para diversos procesamientos que vayan a realizarse posteriormente. Por ejemplo, los resultados de procesamiento pueden aplicarse a la determinación de una gran cantidad de datos de imagen de producto que se usan en un centro comercial virtual que vende una gran variedad de productos. En general, las imágenes de producto usadas en un centro comercial virtual incluyen imágenes (ilustraciones de producto) en las que sólo se muestra un producto e imágenes en las que hay texto superpuesto sobre las ilustraciones de producto. Ejemplos del texto en las ilustraciones de producto son un mensaje de ventas tal como “envío gratuito”, un precio, el nombre de una tienda y similares. El texto puede insertarse mediante software de edición de imágenes o fotografiarse junto con un sujeto principal. Hay casos en los que un administrador de un centro comercial virtual quiere usar sólo imágenes (imágenes sin texto) en las que no hay texto dibujado ni fotografiado, eliminando imágenes (imágenes con texto) en las que hay texto dibujado o fotografiado. Por ejemplo, cuando un administrador quiere mostrar el precio de venta en cada una de las tiendas virtuales para un producto en una página web, es deseable usar una imagen sin texto (por ejemplo, una imagen que sólo muestra el producto) como imagen representativa del producto.
Como condición previa para cumplir tal petición, es deseable asegurarse de extraer regiones de texto candidatas a partir de datos de imagen. La figura 1 es una vista que muestra el concepto de esta realización para lograr una extracción tan sumamente precisa. El aparato 10 de procesamiento de imágenes realiza una transformada de ancho de trazo (SWT) en datos de una imagen y extrae de ese modo una o más regiones de SWT a partir de los datos de imagen. Además, el aparato 10 de procesamiento de imágenes realiza un agrupamiento basado en valores de píxel en los datos de imagen y extrae de ese modo una o más regiones monocolores a partir de los datos de imagen. El aparato 10 de procesamiento de imágenes extrae regiones de texto candidatas finales basándose en las regiones de SWT y las regiones monocolores obtenidas aplicando de manera independiente las dos técnicas de la anterior manera. Aunque los detalles de las regiones de SWT y las regiones monocolores se describen a continuación, se usan los dos tipos de regiones para especificar un grupo de píxeles para regiones de texto candidatas finales.
La figura 2 muestra una configuración de hardware típica del aparato 10 de procesamiento de imágenes. El aparato 10 de procesamiento de imágenes incluye una CPU (procesador) 101 que ejecuta un sistema operativo, un programa de aplicación y similares, una unidad 102 de almacenamiento principal tal como ROM y RAM, una unidad 103 de almacenamiento auxiliar tal como un disco duro y una memoria flash, una unidad 104 de control de comunicación tal como una tarjeta de red o un módulo de comunicación inalámbrica, un dispositivo 105 de entrada tal como un teclado y un ratón, y un dispositivo 106 de salida tal como un visualizador y una impresora.
Los elementos funcionales del aparato 10 de procesamiento de imágenes, que se describen a continuación, se implementan cargando un software dado en la CPU 101 o la unidad 102 de almacenamiento principal, haciendo que la unidad 104 de control de comunicación, el dispositivo 105 de entrada, el dispositivo 106 de salida y similares funcionen bajo el control de la CPU 101, y realizando la lectura y la escritura de datos en la unidad 102 de almacenamiento principal o la unidad 103 de almacenamiento auxiliar. Los datos y la base de datos requeridos para el procesamiento se almacenan en la unidad 102 de almacenamiento principal o la unidad 103 de almacenamiento auxiliar.
No obstante, el aparato 10 de procesamiento de imágenes puede estar compuesto por un ordenador o compuesto por una pluralidad de ordenadores. En caso de usar una pluralidad de ordenadores, esos ordenadores se conectan a través de una red de comunicación tal como Internet o una intranet.
Tal como se muestra en la figura 3, el aparato 10 de procesamiento de imágenes incluye una unidad 11 de recepción, una primera unidad 12 de extracción, una segunda unidad 13 de extracción y una unidad 14 de especificación como elementos funcionales.
La unidad 11 de recepción es un elemento funcional que recibe datos de imagen para los que van a especificarse regiones de texto candidatas. Un método de adquisición de los datos de imagen no está limitado particularmente, y la unidad 11 de recepción puede recibir los datos de imagen que se introducen mediante una operación de usuario o puede recibir los datos de imagen que se transmiten desde otro dispositivo de procesamiento de información a través de una red de comunicación. La unidad 11 de recepción emite los datos de imagen a la primera unidad 12 de extracción.
La primera unidad 12 de extracción es un elemento funcional que realiza una SWT en datos de imagen y extrae de
ese modo regiones de SWT. La SWT es una técnica conocida tal como la enseña el documento no de patente 1 descrito anteriormente, y es una técnica basada en las observaciones de que el ancho de trazo de texto es en general sustancialmente constante en el texto. Obsérvese que el “ancho de trazo” en esta memoria descriptiva es el ancho de la línea (ancho de línea) que forma el texto.
La primera unidad 12 de extracción convierte la imagen de entrada en una imagen de escala de grises (imagen en blanco y negro), estima el borde, que es el límite entre una región de texto y otra región (región de fondo) según el método de Canny y encuentra de ese modo un par de bordes. En primer lugar, la primera unidad 12 de extracción especifica cada borde usando un umbral de borde Ta preestablecido. A continuación, partiendo desde el píxel de un determinado borde, la primera unidad 12 de extracción busca en un intervalo especificado (por ejemplo, dirección de gradiente ±n/6) que incluye la dirección de gradiente del píxel y encuentra de ese modo el píxel del borde que tiene la misma intensidad de borde que el punto de partida y que tiene una dirección de borde diferente desde el punto de partida. La primera unidad 12 de extracción registra entonces un ancho de trazo para cada uno de esos dos píxeles y uno o más píxeles presentes entre los dos píxeles a lo largo de una línea de barrido en la búsqueda. La primera unidad 12 de extracción realiza este procesamiento para todos los píxeles que forman el borde y registra de ese modo los anchos de trazo para esos píxeles. Obsérvese que, en el caso en el que una pluralidad de líneas de barrido pasan a través de un determinado borde y de ese modo pueden registrarse varios anchos de trazo diferentes para el borde, la primera unidad 12 de extracción registra el valor mínimo del ancho de trazo para el borde.
La figura 4 muestra un ejemplo de registro de un ancho de trazo. En esta figura, los píxeles especificados como bordes se muestran con rayado. En este ejemplo, la primera unidad 12 de extracción realiza una búsqueda a lo largo de la línea de barrido A con el píxel bp del borde como punto de partida y encuentra de ese modo el borde bq del borde en el lado opuesto, y registra entonces el ancho de trazo “5” para el par de bordes bp y bq y tres bordes ubicados entre el par a lo largo de la línea de barrido A.
Después de registrar el ancho de trazo para al menos algunos de los píxeles en los datos de imagen, la primera unidad 12 de extracción extrae una región en la que el borde es continuo y el ancho de trazo está dentro de un intervalo establecido como la región de SWT. La región de SWT es una región continua en la que el ancho de trazo, que es la distancia entre bordes que tiene direcciones de gradiente opuestas entre sí, está dentro de un intervalo establecido. La condición de que “el ancho de trazo está dentro de un intervalo establecido” significa que el ancho de trazo es sustancialmente constante, y el “intervalo establecido” para determinar si se satisface o no esta condición puede establecerse de manera arbitraria. El momento del “establecimiento” para el término “intervalo establecido”, que es el tiempo en el que se establece el intervalo, no está limitado particularmente, y el intervalo puede establecerse de antemano antes del procesamiento de la extracción de la región de SWT o puede establecerse durante el procesamiento. Por ejemplo, la primera unidad 12 de extracción puede extraer una región en la que el borde es continuo y un error del ancho de trazo está dentro de un intervalo de -2 a 2 como la región de SWT. La primera unidad 12 de extracción puede extraer una o más regiones de SWT.
La figura 5 muestra un ejemplo de una pluralidad de regiones de SWT e1 a e6 extraídas a partir de una imagen G (datos de imagen). En este ejemplo, las regiones de SWT e1 y e2 muestran casi fielmente las partes “bd” y “D” que se reconocen como el texto por parte de seres humanos. Por otro lado, hay un caso en el que se extrae la región de SWT, tal como la región de sWt e3, que corresponde a la parte “y” que se reconoce como el texto por parte de seres humanos pero carece de la parte que no satisface la condición del ancho de trazo. En la región de sW t e3, falta la unión de trazos en la letra “y”, lo que es una tendencia de la SWT. Otra tendencia de la SWT es que falte una esquina (por ejemplo, la esquina de la letra “L”), aunque no se muestra en la figura 5. La carencia de la unión y la esquina se debe al hecho de que el ancho de trazo no está dentro de un determinado intervalo en esas partes. Además, aunque no se muestra en la figura 5, hay un caso en el que algunos bordes no pueden especificarse debido a la proximidad del valor de píxel entre el texto y el fondo, y una parte que corresponde en realidad a una letra se detecta por separado como dos o más regiones de SWT. También hay un caso en el que una parte que se reconoce como el fondo por parte de seres humanos se extrae como la región de SWT, tal como las regiones de SWT e4 a e6. Por ejemplo, cuando una región en la que la distancia entre los bordes es sustancialmente constante está presente en una letra (por ejemplo, la región de SWT e4) o entre dos letras (por ejemplo, las regiones de SWT e5 y e6), puede determinarse que una región de este tipo es el trazo.
Aunque las regiones de SWT extraídas por la primera unidad 12 de extracción no son siempre precisas tal como se describió anteriormente, después de que la primera unidad 12 de extracción extrae una o más regiones de SWT en cualquier caso, genera datos de componente para cada una de las regiones de SWT. Los datos de componente que representan una región de SWT contienen los siguientes elementos de datos.
- Coordenadas de referencia (Xe, Ye) del rectángulo circunscrito de la región de SWT
- Ancho We del rectángulo circunscrito
- Alto He del rectángulo circunscrito
- Coordenadas y ancho de trazo (xei, yei, wi) de cada píxel pei incluido en la región de SWT
Por ejemplo, cuando la región de SWT está compuesta por veinte píxeles peí a pe20, los datos de componente contienen (xeí, yeí, wí), (xe2, ye2, W2), ..., (xe20, ye20, W20).
En la figura 5, el rectángulo circunscrito de cada región de SWT se indica mediante líneas discontinuas. Aunque las coordenadas del vértice superior izquierdo del rectángulo circunscrito, por ejemplo, pueden establecerse como las coordenadas de referencia del rectángulo circunscrito de la región de SWT, pueden establecerse otras coordenadas como las coordenadas de referencia siempre y cuando pueda especificarse la posición del rectángulo circunscrito.
Puesto que puede establecerse un determinado intervalo para el ancho de trazo en una región de SWT tal como se describió anteriormente, el ancho de trazo Wi no es siempre el mismo en los datos de componente de una región de SWT.
La primera unidad 12 de extracción emite los datos de componente de una o más regiones de SWT, junto con los datos de imagen, a la segunda unidad 13 de extracción.
La segunda unidad 13 de extracción es un elemento funcional que realiza un agrupamiento basado en valores de píxel en datos de imagen y extrae de ese modo regiones monocolores a partir de los datos de imagen. La región monocolor es una región que está representada por una pluralidad de píxeles cuyos valores de píxel están dentro de un intervalo establecido y que están presentes continuamente. Si el valor de píxel de un píxel adyacente (en vertical, en horizontal o en diagonal) a un píxel cuyo valor de píxel está dentro de un intervalo establecido también está dentro del intervalo establecido, se considera que esos dos píxeles están presentes continuamente. En el agrupamiento basado en valores de píxel también, el momento del “establecimiento” para el término “intervalo establecido”, que es el tiempo en el que se establece el intervalo, no está limitado particularmente, y el intervalo puede establecerse de antemano antes del procesamiento de la extracción de la región monocolor o puede establecerse durante el procesamiento.
En primer lugar, la segunda unidad 13 de extracción consulta los datos de componente de las regiones de SWT introducidos desde la primera unidad 12 de extracción y determina que una o más regiones para las que ha de realizarse un agrupamiento basado en valores de píxel son regiones objetivo de agrupamiento. La segunda unidad 13 de extracción determina cada región objetivo de agrupamiento de modo que cada región de SWT está incluida en cualquier región objetivo de agrupamiento. Por ejemplo, la segunda unidad 13 de extracción puede determinar cada región objetivo de agrupamiento de modo que cada región objetivo de agrupamiento incluya al menos una región de SWT y un margen de la región de SWT. El tamaño del margen puede determinarse de manera arbitraria, y el rectángulo circunscrito de la región de SWT y el 25% adicional del alto y del ancho del rectángulo circunscrito pueden establecerse como el margen, por ejemplo.
La figura 6 es un diagrama que muestra ejemplos de regiones objetivo de agrupamiento. El elemento (a) de la figura 6 muestra una región objetivo de agrupamiento R1 que incluye todas las regiones de SWT e1 a e6 mostradas en la figura 5 y los márgenes de esas regiones de SWT. El elemento (b) de la figura 6 muestra una región objetivo de agrupamiento R2a que incluye las regiones de SWT e1, e2, e4 a e6 y los márgenes de esas cinco regiones de SWT y una región objetivo de agrupamiento R2b que incluye la región de SWT e3 y su margen. De esta manera, un método de establecimiento de una región objetivo de agrupamiento no se limita a una; sin embargo, de cualquier manera, el total de la región objetivo de agrupamiento es una parte de la imagen de entrada.
El agrupamiento basado en valores de píxel es una técnica basada en las observaciones de que una cadena de letras o cada letra es generalmente del mismo color. Los ejemplos del agrupamiento basado en valores de píxel incluyen el agrupamiento de color usando colores en un espacio de color tridimensional y el agrupamiento de grises usando un espacio de color unidimensional. En el caso de usar el agrupamiento de grises, la segunda unidad 13 de extracción convierte la imagen de entrada en una imagen de escala de grises (imagen en blanco y negro) antes de realizar el agrupamiento.
La segunda unidad 13 de extracción realiza el agrupamiento basado en valores de píxel después de reducir el número de colores (la cantidad de información acerca de colores). Por ejemplo, la segunda unidad 13 de extracción puede realizar un agrupamiento usando el método de k-medias. En esta técnica, la segunda unidad 13 de extracción reduce el número de colores usando el método de k-medias para el agrupamiento y luego realiza el agrupamiento y, después del agrupamiento, realiza una división de región basándose en el análisis de topología en cada agrupamiento de color. Mediante este procesamiento, la segunda unidad 13 de extracción especifica una pluralidad de píxeles cuyos colores son sustancialmente iguales y que están presentes continuamente como una región monocolor.
Alternativamente, la segunda unidad 13 de extracción puede usar la técnica para el agrupamiento dada a conocer en la siguiente referencia 1. Según la técnica de la referencia 1, la segunda unidad 13 de extracción calcula la mediana de cada bin (agrupación de color) del histograma de valores de color creado basándose en el espacio de color en el que se reduce la cantidad de información, integra las agrupaciones que son de color similar y genera de ese modo una pluralidad de agrupaciones representativas. Luego, la segunda unidad 13 de extracción especifica una pluralidad de píxeles que corresponden a la misma agrupación representativa y están presentes continuamente como una región monocolor usando el análisis de conectividad, que es una técnica básica de procesamiento de imágenes binarias.
(Referencia 1) Shuji Senda, Michihiko Minoh y Katsuo Ikeda, “A Method of Extraction of Character Patterns from a Color Image Based on the Uniformity of the Character Color of a String”, Informe técnico del Instituto de Electrónica, Ingenieros de la Información y de Comunicaciones, PRU: Pattern Recognition and Understanding, 94 (242), 17-24, 22 de septiembre de 1994
Tal como se describió anteriormente, una técnica específica del agolpamiento basado en valores de píxel no está limitada particularmente, y la segunda unidad 13 de extracción puede extraer regiones monocolores a partir de una región objetivo de agrupamiento mediante un método arbitrario. Debe observarse que, aunque una agrupación de color corresponde a una región monocolor, puesto que una agrupación de color puede incluir una pluralidad de valores de píxel, cada uno de los valores de píxel que constituyen una región monocolor no es siempre el mismo.
La figura 7 muestra un ejemplo de una pluralidad de regiones monocolores c1 a c7 extraídas a partir de una imagen G (datos de imagen). En este ejemplo, aunque la región monocolor c1 muestra todo el fondo de la imagen G, la parte de fondo puede dividirse en una pluralidad de regiones monocolores dependiendo del establecimiento de una agrupación. Las regiones monocolores c2 a c4 corresponden respectivamente a las letras “bd”, “D” e “y”. Por otro lado, hay un caso en el que una parte que se reconoce como el fondo por parte de seres humanos se extrae como la región monocolor, tal como las regiones monocolores c5 a c7.
Aunque las regiones monocolores extraídas por la segunda unidad 13 de extracción no son siempre precisas tal como se describió anteriormente, después de que la segunda unidad 13 de extracción extrae una o más regiones monocolores en cualquier caso, genera datos de componente para cada una de las regiones monocolores. Los datos de componente que representan una región monocolor contienen los siguientes elementos de datos.
- Coordenadas de referencia (Xc, Yc) del rectángulo circunscrito de la región monocolor
- Ancho Wc del rectángulo circunscrito
- Alto Hc del rectángulo circunscrito
- Coordenadas y número de color (xci, yci, ci) de cada píxel pci incluido en la región monocolor
Por ejemplo, cuando la región monocolor está compuesta por veinte píxeles pc1 a pc20, los datos de componente contienen (xc-i, yc-i, c-i),(xc2, yc2, c2), ... ,(xc20, yc20, C20).
En la figura 7, el rectángulo circunscrito de cada región monocolor se indica mediante líneas discontinuas. Al igual que en el caso de la región de SWT, las coordenadas que han de establecerse como las coordenadas de referencia del rectángulo circunscrito no están limitadas particularmente.
El número de color es un valor numérico que indica el color (color representativo) de una agrupación, que es diferente de un valor de píxel que indica el color original de un píxel. El número de color del píxel pci en los datos de componente de una región monocolor es el mismo.
La segunda unidad 13 de extracción emite los datos de componente de una o más regiones monocolores, junto con los datos de componente de las regiones de SWT, a la unidad 14 de especificación.
La unidad 14 de especificación es un elemento funcional que consulta los datos de componente de las regiones de SWT y las regiones monocolores y especifica un grupo de píxeles incluido en regiones de texto candidatas. El “grupo de píxeles” en esta memoria descriptiva es un conjunto de uno o más píxeles.
El procesamiento realizado por la unidad 14 de especificación en cada región de SWT se describe a continuación en el presente documento. En primer lugar, la unidad 14 de especificación compara el rectángulo circunscrito de una región de SWT con el rectángulo circunscrito de cada una de las regiones monocolores de entrada, y selecciona la región monocolor en la que al menos parte del rectángulo circunscrito se solapa con el rectángulo circunscrito de la región de SWT. Con referencia a los ejemplos de las figuras 5 y 7, cuando la región actual que va a procesarse es la región de SWT e2, las regiones monocolores cuyo rectángulo circunscrito se solapa con el de la región de SWT e2 son las regiones monocolores c1, c3 y c7, y la segunda unidad 13 de extracción sólo extrae esas tres regiones monocolores. Las demás regiones monocolores sin solape del rectángulo circunscrito, tal como la relación de la región de SWT e2 y la región monocolor c4, se excluyen en este momento.
En el caso en el que no hay ninguna región monocolor que tenga el solape del rectángulo circunscrito, la unidad 14 de especificación descarta la región actual de SWT y pasa al procesamiento de la siguiente región de SWT. Descartar la región de SWT significa que no se especifica ninguna región de texto candidata basándose en esa región de SWT.
Por otro lado, en el caso en el que se seleccionan una o más regiones monocolores, la unidad 14 de especificación calcula, para cada una de las regiones monocolores seleccionadas, el número de píxeles Ai en la parte de solape con
la región de SWT que va a procesarse y dispone las regiones monocolores en orden descendente con respecto al valor Ai. La unidad 14 de especificación especifica entonces la región monocolor con el número máximo de píxeles Ai en la parte de solape según la disposición, calcula el número de píxeles Ac incluidos en esta región monocolor y determina si una razón R del número de píxeles Ai con respecto al valor Ac es igual a o mayor que un valor de referencia Rt. La “parte de solape” entre una determinada región de SWT y una determinada región monocolor indica la parte que está incluida tanto en la región de SWT como en la región monocolor. El “solape” significa la situación en la que un determinado píxel es un componente de la región de SWT y también un componente de la región monocolor.
El valor de referencia Rt se establece con el propósito de descartar la región de SWT que se extrae incorrectamente en el fondo de la imagen y especificar la región monocolor que tiene una forma y un tamaño similares a los de la región de SWT. El valor de referencia Rt puede establecerse en 0,8 o 0,7, por ejemplo, o puede establecerse en otro valor para cumplir el propósito. Obsérvese que la unidad 14 de especificación puede determinar si la razón R es mayor que el valor de referencia Rt o no. La unidad 14 de especificación puede usar cualquiera de “igual a o mayor que”, “igual a o menor que”, “menor que” y “mayor que” cuando compara la razón R y el valor de referencia Rt.
En el ejemplo de la figura 9, la región de SWT e5 existe en el fondo, y la región de SWT e5 no debe procesarse como una región de texto candidata. En esta realización, puesto que la región monocolor c1 correspondiente al fondo es significativamente más grande que la región de SWT e5, incluso si toda la región de SWT e5 se solapa con la región monocolor c1, Ai/Ac es un valor muy pequeño que es menor que el valor de referencia Rt. En este caso, la unidad 14 de especificación finaliza el procesamiento en la región de SWT e5 en este momento, y esto significa que la unidad 14 de especificación descarta la región de SWT e5 y no especifica ninguna región de texto candidata a partir de la región de SWT e5.
Por otro lado, en el ejemplo de la figura 10, la región monocolor c4 tiene sustancialmente el mismo tamaño que la región de SWT e3, y esas dos regiones se solapan en gran parte, y por tanto Ai/Ac es un valor grande que puede ser igual a o mayor que el valor de referencia Rt. Si se satisface Ai/Ac>Rt en realidad, la unidad 14 de especificación deja la región de SWT e3 como una región de texto candidata.
Si se satisface R=Ai/Ac>Rt para la región monocolor con el número máximo de píxeles Ai en la parte de solape, la unidad 14 de especificación deja la región actual de SWT como una región de texto candidata, y rellena los píxeles en la parte que se estima que falta en la región de SWT con los píxeles de la región monocolor. El procesamiento de rellenar la parte faltante de la región de SWT significa actualizar la parte en la que el valor de píxel es nulo con el valor de píxel de la región monocolor. En esta memoria descriptiva, el procesamiento de rellenar el píxel también se denomina “complementación”. En el ejemplo de la figura 10, la unidad 14 de especificación complementa la unión de trazos y una parte del borde que faltan en la región de SWT e3 con los píxeles de la región monocolor c4. Mediante esta complementación, se especifica el grupo de píxeles incluido en la región de texto candidata. Obsérvese que, en el caso en el que la región de SWT representa completa o sustancialmente una región de texto, la complementación mediante los píxeles de la región monocolor no se efectúa en realidad; sin embargo, también en este caso, se considera que la unidad 14 de especificación especifica el grupo de píxeles incluido en la región de texto candidata.
En el caso en el que hay una pluralidad de regiones monocolores seleccionadas, después de que la unidad 14 de especificación ha terminado con la complementación, realiza el mismo procesamiento en las demás regiones monocolores. Concretamente, la unidad 14 de especificación determina si se satisface R=Ai/Ac>Rt para las demás regiones monocolores, y cuando se satisface la condición, complementa además la región de SWT con los píxeles de la región monocolor. Debido al efecto de la resolución de datos de imagen o similares, pueden producirse casos en los que una pluralidad de letras se incluyen en una región de SWT en la SWT, mientras que se obtiene una región monocolor para cada letra en el agrupamiento basado en valores de píxel. La figura 11 muestra un ejemplo en el que, para una cadena de letras “vel”, se obtienen una región de SWT e10 y tres regiones monocolores c11, c12 y c13. En este ejemplo, suponiendo que la unidad 14 de especificación dispone las tres regiones monocolores en orden descendente con respecto al número de píxeles Ai en la parte de solape, la región monocolor c13, la región monocolor c12 y la región monocolor c11, la unidad 14 de especificación determina en primer lugar si se satisface R=Ai/Ac>Rt para la región monocolor c13, y cuando se satisface la condición, complementa la región de SWT e10 con los píxeles de la región monocolor c13. Además, cuando se satisface R=Ai/Ac>Rt para la región monocolor c11, la unidad 14 de especificación complementa la región de SWT e10 con los píxeles de la región monocolor c11, y cuando se satisface R=Ai/Ac>Rt para la región monocolor c12, la unidad 14 de especificación complementa la región de SWT e10 con los píxeles de la región monocolor c12.
Por otro lado, si se satisface R=Ai/Ac<Rt para la región monocolor con el número máximo de píxeles Ai en la parte de solape, la unidad 14 de especificación descarta la región actual de SWT sin realizar ningún procesamiento adicional y pasa al procesamiento de la siguiente región de SWT. Cuando se extraen una pluralidad de regiones monocolores que se solapan con una región de SWT, si la razón descrita anteriormente es menor que un valor de referencia para la región monocolor con el número máximo de píxeles en la parte de solape, se considera que la región monocolor es la región de fondo. Por consiguiente, la unidad 14 de especificación puede estimar que la región de SWT no es texto sino una parte del fondo y finalizar el procesamiento de la región de SWT sin realizar ningún procesamiento adicional en las demás regiones monocolores. De esta manera, al efectuar una determinación respecto de la región monocolor con el número máximo de píxeles en la parte de solape en primer lugar, es posible omitir un procesamiento inútil.
Alternativamente, la unidad 14 de especificación puede complementar la región de SWT sin usar los píxeles de la región monocolor que están ubicados fuera del borde de la región de SWT, usando el resto de píxeles de la región monocolor. Cuando el contraste entre el color de la región de texto y el color de la región de fondo adyacente es bajo y el borde es débil, puede obtenerse un borde preciso mediante la región de SWT en vez de la región monocolor en algunos casos. Si se usa simplemente la suma lógica en un caso de este tipo, la parte que no necesita complementarse se complementa con la región monocolor, lo que provoca un error en la forma de la región de texto candidata. Por tanto, con el fin de especificar de manera más precisa los píxeles incluidos en la región de texto candidata, la unidad 14 de especificación puede complementar la región de SWT sólo con el resto de píxeles de la región monocolor sin usar los píxeles que están fuera del borde de la región de SWT. Con el fin de implementar este procesamiento, es necesario encontrar qué píxel forma el borde. Como ejemplo, la primera unidad 12 de extracción puede añadir un marcador que indica si el píxel es el borde o no a la información de cada píxel de los datos de componente de la región de SWT. Específicamente, la información de cada píxel pei incluido en la región de SWT puede ser las coordenadas de pei, el ancho de trazo y el marcador de borde (xei, yei, wi, fi). Por ejemplo, si el píxel es el borde, f¡=1, y si el píxel no es el borde, f=0.
Se describe un ejemplo de complementación basada en el borde de la región de SWT a continuación en el presente documento con referencia a las figuras 12 y 13. En el ejemplo de la figura 12, se supone que todos los píxeles ubicados en el límite de la región de SWT e20 se determinan como bordes. Además, se supone que la región monocolor c20 se obtiene de manera correspondiente a la región de SWT e20 mediante el agrupamiento basado en valores de píxel. Si se calcula una simple suma lógica de esas dos regiones en este caso, una parte pequeña en forma de cúpula c20a como una protuberancia en la región monocolor c20 se especifica incorrectamente como los píxeles de la región de texto candidata; sin embargo, podría preferirse usar el borde que se determina en la SWT sin ignorarlo. Por consiguiente, la unidad 14 de especificación complementa la región de SWT e20 sin usar los píxeles de la parte pequeña en forma de cúpula c20a que está fuera del borde de la región de SWT e20, usando sólo los otros píxeles de la región monocolor c20. Obsérvese que, en el ejemplo de la figura 12, no hay ningún píxel cuyo valor de píxel se actualice desde nulo hasta un valor significativo mediante la complementación como resultado.
En la figura 13, una parte del límite de la región de SWT e30 que se determina como el borde mediante la SWT se indica mediante una línea continua, y una parte que no se determina como el borde sino que sirve finalmente como el límite se indica mediante una línea de puntos. Por otro lado, se supone que la región monocolor c30 se obtiene de manera correspondiente a la región de SWT e30 mediante el agrupamiento basado en valores de píxel. En este caso, no hay ningún píxel de la región monocolor c30 que esté fuera del borde de la región de SWT e30. Por consiguiente, la unidad 14 de especificación complementa la parte faltante (la esquina y la unión de trazos) de la región de SWT e30 con los píxeles de la región monocolor c30.
Obsérvese que el ejemplo de la figura 10 puede considerarse de la misma manera que la figura 13. Específicamente, puesto que el límite que define la parte faltante de la unión de trazo en la región de SWT e3 no se determina como el borde mediante la SWT, la unidad 14 de especificación complementa la parte faltante con los píxeles de la región monocolor c4. Al igual que para la complementación del borde de la región de SWT e3, la unidad 14 de especificación complementa la región de SWT e3 con los píxeles de la región monocolor c4 que están dentro del borde (más concretamente, los píxeles determinados como el borde) de la región de SWT e3 sin usar los píxeles que están fuera del borde de la región de SWT e3.
Alternativamente, la unidad 14 de especificación puede calcular una región (región diferencial) que está incluida en la región monocolor pero no está incluida en la región de SWT y calcular un borde adicional en la región diferencial y de ese modo ampliar la región de SWT, y luego complementar la parte faltante de la región de SWT ampliada con los píxeles de la región monocolor. Concretamente, la unidad 14 de especificación calcula una diferencia entre la región de SWT (que se denomina “región de SWT original”) y la región monocolor y calcula de ese modo la región diferencial. Luego, la unidad 14 de especificación determina si hay otra región de SWT que esté incluida en la región diferencial y tenga el mismo intervalo del ancho de trazo que la región de SWT original y, cuando hay otra región de SWT de este tipo, determina esta otra región de SWT como candidata para una parte ampliada. La unidad 14 de especificación realiza entonces la SWT usando el umbral de borde Tb que es menor que el umbral de borde Ta usado en la SWT por la primera unidad 12 de extracción y determina de ese modo si hay una región adicional que esté incluida en la región diferencial y tenga el mismo intervalo del ancho de trazo que la región de SWT original. Si hay una región adicional de este tipo, la unidad 14 de especificación amplía la región de SWT original conectando la región de SWT original, la región adicional y otra región de SWT, si la hay. La unidad 14 de especificación complementa entonces la parte faltante de la región de SWT ampliada con los píxeles de la región monocolor. En este momento, la unidad 14 de especificación complementa la región de SWT sólo con el resto de los píxeles de la región monocolor sin usar los píxeles de la región monocolor que están fuera del borde de la región de SWT ampliada. Por otro lado, cuando no hay ninguna región adicional, la unidad 14 de especificación complementa la parte faltante de la región de SWT con los píxeles de la región monocolor sin ampliar la región de SWT original.
La figura 14 muestra un ejemplo de complementación que acompaña a la ampliación de la región de SWT. En este ejemplo, se supone que la región monocolor c40 se obtiene de manera correspondiente a la región de SWT e40 mediante el agrupamiento basado en valores de píxel, y se satisface la condición de R=Ai/Ac>Rt, que es una condición
previa para la complementación. En este caso, la unidad 14 de especificación determina otra región de SWT e41 que está ubicada en la región diferencial obtenida a partir de la región de SWT e40 original y la región monocolor c40 como candidata para la parte ampliada. Además, la unidad 14 de especificación realiza la SWT usando el umbral de borde Tb y obtiene de ese modo la región adicional indicada por el borde g40. Luego, la unidad 14 de especificación amplía la región de SWT e40 original conectando las dos regiones de SWT e40 y e41 y la región adicional. La unidad 14 de especificación complementa entonces la región de SWT ampliada sin usar los píxeles de la parte c40a pequeña en forma de cúpula que están fuera del borde de la región de SWT ampliada, usando sólo los otros píxeles de la región monocolor c40. Obsérvese que, en el ejemplo de la figura 14, no hay ningún píxel cuyo valor de píxel se actualice desde nulo hasta un valor significativo mediante la complementación como resultado.
Obsérvese que, después de especificar el grupo de píxeles de una región de texto candidata, la unidad 14 de especificación puede realizar un procesamiento para efectuar un ajuste fino del borde de la región de texto candidata. Por ejemplo, la unidad 14 de especificación puede incluir píxeles circundantes en la región de texto candidata dependiendo de los valores de píxel que rodean el borde o realizar un procesamiento para suavizar el borde.
Se describe el funcionamiento del aparato 10 de procesamiento de imágenes y se describe además un método de procesamiento de imágenes según esta realización a continuación en el presente documento con referencia a las figuras 15 y 16.
La figura 15 muestra un flujo general del método de procesamiento de imágenes según esta realización. En primer lugar, la unidad 11 de recepción recibe datos de imagen (etapa S11). A continuación, la primera unidad 12 de extracción extrae una o más regiones de SWT a partir de los datos de imagen mediante SWT (etapa S12, primera etapa de extracción). Luego, la segunda unidad 13 de extracción determina una región objetivo de agrupamiento en la imagen basándose en esas regiones de SWT (etapa S13) y especifica una o más regiones monocolores a partir de la región objetivo de agrupamiento mediante agrupamiento basado en valores de píxel (etapa S14, segunda etapa de extracción). Después de eso, la unidad 14 de especificación especifica un grupo de píxeles incluido en una región de texto candidata basándose en las regiones de SWT y las regiones monocolores (etapa S15, etapa de especificación) y emite el resultado especificado (etapa S16). Mediante este procedimiento, se extrae una parte en la que se estima que hay texto dibujado en la imagen.
Los detalles del procesamiento de especificación de un grupo de píxeles en una región de texto candidata (etapa S15) se describen con referencia a la figura 16. La unidad 14 de especificación selecciona una región de SWT que va a procesarse (etapa S151) y selecciona la región monocolor en la que al menos parte del rectángulo circunscrito se solapa con el rectángulo circunscrito de la región de SWT (etapa S152).
En el caso en el que pueden seleccionarse una o más regiones monocolores (“una o más” en la etapa S153), la unidad 14 de especificación selecciona la región monocolor con el número máximo de píxeles Ai en la parte de solape con la región de SWT y calcula la razón R del valor Ai con respecto al número de píxeles Ac en la región monocolor (etapa S154). Luego, cuando la razón es igual a o mayor que el valor de referencia Rt (SÍ en la etapa S155), la unidad 14 de especificación deja la región de SWT como una región de texto candidata, y complementa la región de SWT con los píxeles de la región monocolor (etapa S156). En el caso en el que se seleccionan una pluralidad de regiones monocolores en la etapa S153, la unidad 14 de especificación intenta complementar la región de SWT con otra región monocolor que no se selecciona en la etapa S154 (etapa S157). Concretamente, si la razón del número de píxeles Ai en la parte de solape entre la región monocolor y la región de SWT con respecto al número de píxeles Ac de la región monocolor es igual a o mayor que el valor de referencia Rt, la unidad 14 de especificación complementa además la región de SWT usando también esta región monocolor.
Por otro lado, en el caso en el que no hay ninguna región monocolor que tenga el solape del rectángulo circunscrito con la región de SWT (“0” en la etapa S153), la unidad 14 de especificación descarta la región de SWT seleccionada en la etapa S151 (etapa S158). Además, en el caso en el que se establece R=Ai/Ac<Rt para la región monocolor con el número máximo de píxeles Ai en la parte de solape (NO en la etapa S155) también, la unidad 14 de especificación descarta la región de SWT seleccionada (etapa S158).
La unidad 14 de especificación realiza el procesamiento de las etapas S151 a S158 en todas las regiones de SWT que van a procesarse (véase la etapa S159).
Se describe un programa P1 de procesamiento de imágenes que hace que un ordenador funcione como el aparato 10 de procesamiento de imágenes a continuación en el presente documento con referencia a la figura 17.
El programa P1 de procesamiento de imágenes incluye un módulo P10 principal, un módulo P11 de recepción, un primer módulo P12 de extracción, un segundo módulo P13 de extracción y un módulo P14 de especificación.
El módulo P10 principal es una parte que ejerce control sobre el procesamiento de imágenes. Las funciones implementadas ejecutando el módulo P11 de recepción, el primer módulo P12 de extracción, el segundo módulo P13 de extracción y el módulo P14 de especificación son iguales a las funciones de la unidad 11 de recepción, la primera unidad 12 de extracción, la segunda unidad 13 de extracción y la unidad 14 de especificación anteriormente descritas,
respectivamente.
El programa P1 de procesamiento de imágenes se proporciona de forma que está registrado de manera estática en un medio de registro tangible tal como un CD-ROM o un DVD-ROM o una memoria de semiconductores, por ejemplo. Alternativamente, el programa P1 de procesamiento de imágenes puede proporcionarse como una señal de datos superpuesta sobre una onda portadora a través de una red de comunicación.
Tal como se describió anteriormente, un aparato de procesamiento de imágenes según un aspecto de la presente invención incluye una primera unidad de extracción configurada para realizar una transformada de ancho de trazo en una imagen y extraer de ese modo una región de SWT a partir de la imagen, siendo la región de SWT una región que tiene un borde continuo y un ancho de trazo dentro de un intervalo establecido; una segunda unidad de extracción configurada para realizar un agrupamiento basado en valores de píxel en la imagen y extraer de ese modo una región monocolor a partir de la imagen, siendo la región monocolor una región compuesta por una pluralidad de píxeles que tienen valores de píxel dentro de un intervalo establecido y están presentes continuamente; y una unidad de especificación configurada para especificar un grupo de píxeles incluido en una región de texto candidata basándose al menos en la región monocolor cuando una razón del número de píxeles en una parte de solape entre la región de SWT y la región monocolor con respecto al número de píxeles en la región monocolor es igual a o mayor que un primer valor de referencia, o mayor que el primer valor de referencia.
Un método de procesamiento de imágenes según un aspecto de la presente invención es un método de procesamiento de imágenes realizado por un aparato de procesamiento de imágenes que incluye un procesador, incluyendo el método una primera etapa de extracción en la que se realiza una transformada de ancho de trazo en una imagen y se extrae de ese modo una región de SWT a partir de la imagen, siendo la región de SWT una región que tiene un borde continuo y un ancho de trazo dentro de un intervalo establecido; una segunda etapa de extracción en la que se realiza un agrupamiento basado en valores de píxel en la imagen y se extrae de ese modo una región monocolor a partir de la imagen, siendo la región monocolor una región compuesta por una pluralidad de píxeles que tienen valores de píxel dentro de un intervalo establecido y están presentes continuamente; y una etapa de especificación en la que se especifica un grupo de píxeles incluido en una región de texto candidata basándose al menos en la región monocolor cuando una razón del número de píxeles en una parte de solape entre la región de SWT y la región monocolor con respecto al número de píxeles en la región monocolor es igual a o mayor que un primer valor de referencia, o mayor que el primer valor de referencia.
Un programa de procesamiento de imágenes según un aspecto de la presente invención hace que un ordenador funcione como una primera unidad de extracción para realizar una transformada de ancho de trazo en una imagen y extraer de ese modo una región de SWT a partir de la imagen, siendo la región de SWT una región que tiene un borde continuo y un ancho de trazo dentro de un intervalo establecido; una segunda unidad de extracción para realizar un agrupamiento basado en valores de píxel en la imagen y extraer de ese modo una región monocolor a partir de la imagen, siendo la región monocolor una región compuesta por una pluralidad de píxeles que tienen valores de píxel dentro de un intervalo establecido y están presentes continuamente; y una unidad de especificación para especificar un grupo de píxeles incluido en una región de texto candidata basándose al menos en la región monocolor cuando una razón del número de píxeles en una parte de solape entre la región de SWT y la región monocolor con respecto al número de píxeles en la región monocolor es igual a o mayor que un primer valor de referencia, o mayor que el primer valor de referencia.
En los aspectos anteriores, además de la extracción de una región de SWT mediante SWT, la extracción de una región monocolor mediante agrupamiento basado en valores de píxel se realiza independientemente de la SWT. Luego, cuando una parte de solape entre la región de SWT y la región monocolor tiene una determinada razón con respecto a la región monocolor, se especifica un grupo de píxeles incluido en una región de texto candidata. De esta manera, usando una técnica basada en valores de píxel, no en bordes, en combinación con la SWT y usando dos tipos de regiones obtenidas a partir de esas dos técnicas, es posible compensar desventajas de la técnica basada en bordes y extraer de manera más fiable una región de texto a partir de una imagen. De ese modo es posible mejorar la precisión de un procesamiento posterior tal como un reconocimiento de cadenas de letras.
La SWT es una de diversas técnicas eficaces para extraer una región de texto. Sin embargo, tal como se describió anteriormente, la carencia de píxeles se produce en la esquina o la unión de trazos, y una parte del fondo se extrae como trazo en algunos casos. Además, aunque la SWT se realiza a condición de que el borde de texto sea detectable, si el borde de texto es débil debido al motivo de que los valores de píxel del texto y el fondo son próximos, por ejemplo, no puede extraerse el borde y, por consiguiente, no puede extraerse la región de texto.
Pueden usarse las MSER como técnica para compensar la SWT. Sin embargo, puesto que las MSER constituyen también la técnica que extrae una región de texto basándose en bordes al igual que la SWT, si existe un borde débil en una imagen, no puede detectarse el borde y, por consiguiente, no puede extraerse la región de texto.
Por otro lado, si se usa un agrupamiento basado en valores de píxel, que no tiene en cuenta los bordes, es probable que pueda extraer la parte faltante de la región de SWT. Por tanto, usando la SWT y el agrupamiento basado en valores de píxel en combinación, al extraer una región que no puede extraerse mediante la sW t como una región
monocolor y complementar la región de SWT con los píxeles de la región monocolor, es posible extraer una región de texto candidata de manera más precisa que con las técnicas existentes.
Este efecto ventajoso se describe con referencia al ejemplo de la figura 18. En la imagen Gx mostrada en la figura 18, están dibujados un primer plano F que debe extraerse como una región de texto y puntos D como fondo en un color similar al del primer plano F (véase el elemento superior de la figura 18). Cuando el borde de una parte en la que el primer plano F y el punto D son adyacentes es débil y el borde de esta parte no puede extraerse mediante la sW t , el primer plano F se separa en dos regiones de SWT e50 y e51 (véase el elemento central izquierdo de la figura 18). Incluso si se aplican las MSER a esta imagen Gx, puesto que no puede encontrarse una curva cerrada, no es posible complementar el espacio entre las dos regiones de SWT e50 y e51. Por otro lado, en el caso de usar el agrupamiento basado en valores de píxel, puesto que todo el primer plano F puede extraerse como una región monocolor c50 dependiendo del establecimiento del color usado en el agrupamiento (véase el elemento central derecho de la figura 18), se complementa la parte faltante, y de ese modo es posible especificar el primer plano F como una región de texto candidata (véase el elemento inferior de la figura 18).
Tal como se muestra en la región monocolor c1 de la figura 7, en el agrupamiento basado en valores de píxel, la parte que no es en realidad texto puede extraerse como una región monocolor. Sin embargo, al tener en cuenta la razón del número de píxeles en una parte de solape entre la región de SWT y la región monocolor con respecto al número de píxeles en la región monocolor, es posible especificar de manera fiable la parte en la que está dibujado en realidad texto como una región de texto candidata.
En un aparato de procesamiento de imágenes según otro aspecto, la unidad de especificación puede abstenerse de especificar una región de texto candidata a partir de la región de SWT y la región monocolor cuando la razón es menor que un segundo valor de referencia. En el caso en el que la razón anterior es pequeña puesto que el número de píxeles de la región monocolor que se solapa con la región de SWT es significativamente mayor que el número de píxeles en la parte de solape, es altamente probable que la región de SWT no sea en realidad el texto y esté ubicada en el fondo. Por tanto, al no especificar una región de texto candidata cuando la razón es menor que un valor de referencia, es posible impedir de manera más fiable el caso en el que una parte del fondo se detecta como texto.
En un aparato de procesamiento de imágenes según otro aspecto, cuando el primer valor de referencia y el segundo valor de referencia son iguales, y cuando la segunda unidad de extracción extrae una pluralidad de regiones monocolores, la unidad de especificación puede seleccionar la región monocolor que tiene el número máximo de píxeles en la parte de solape con la región de SWT, y cuando una razón del número de píxeles en la parte de solape entre la región de SWT y la región monocolor seleccionada con respecto al número de píxeles en la región monocolor seleccionada es igual a o mayor que el primer valor de referencia, la unidad de especificación puede especificar un grupo de píxeles incluido en la región de texto candidata basándose en la región de SWT y la región monocolor seleccionada, y cuando la razón es menor que el primer valor de referencia, la unidad de especificación puede abstenerse de especificar la región de texto candidata.
En el caso en el que se extraen una pluralidad de regiones monocolores para una región de SWT, al efectuar una determinación basándose en la región monocolor con el número máximo de píxeles en la parte de solape con la región de SWT en primer lugar, es posible determinar inmediatamente si debe especificarse como una región de texto candidata o no. Por ejemplo, si la razón anterior es menor que un valor de referencia para la región monocolor con el número máximo de píxeles en la parte de solape, puede determinarse que la región de SWT no puede ser una región de texto candidata en este momento, y de ese modo es posible finalizar el procesamiento en la región de SWT sin ningún procesamiento adicional en las demás regiones monocolores. Esto reduce el tiempo de procesamiento.
En un aparato de procesamiento de imágenes según otro aspecto, la segunda unidad de extracción puede establecer una parte de la imagen como una región objetivo de agrupamiento basándose en la región de SWT extraída por la primera unidad de extracción y extraer la región monocolor a partir de la región objetivo de agrupamiento. En general, el agrupamiento basado en valores de píxel requiere una carga de procesamiento alta. Realizando el agrupamiento sólo en la región objetivo de agrupamiento en la que se estima que hay texto dibujado, se limita el intervalo de búsqueda en la región monocolor, y de ese modo es posible reducir la carga de procesamiento de imágenes.
En un aparato de procesamiento de imágenes según otro aspecto, la unidad de especificación puede especificar un grupo de píxeles incluido en la región de texto candidata complementando una parte faltante de la región de SWT con píxeles de la región monocolor. Al complementar una parte que no se extrae en la región de SWT con los píxeles de la región monocolor, es posible especificar con precisión el grupo de píxeles de la región de texto candidata.
En un aparato de procesamiento de imágenes según otro aspecto, la unidad de especificación puede especificar una suma lógica de la región de SWT y la región monocolor como un grupo de píxeles incluido en la región de texto candidata. Al especificar el grupo de píxeles de la región de texto candidata mediante una simple operación de suma lógica, es posible especificar la región de texto candidata fácil y rápidamente.
En un aparato de procesamiento de imágenes según otro aspecto, la unidad de especificación puede complementar la parte faltante sin usar píxeles de la región monocolor fuera de un borde de la región de SWT, usando otros píxeles
de la región monocolor. Es probable que el borde especificado mediante la SWT indique en realidad el límite entre el texto y el fondo. Por tanto, al complementar otra parte faltante sin borrar el borde, es posible especificar con precisión el grupo de píxeles de la región de texto candidata.
En un aparato de procesamiento de imágenes según otro aspecto, la primera unidad de extracción puede realizar la transformada de ancho de trazo usando un primer umbral de borde, y la unidad de especificación puede realizar la transformada de ancho de trazo usando un segundo umbral de borde menor que el primer umbral de borde en una parte de la región monocolor que no se solapa con la región de SWT y de ese modo buscar un borde adicional, y ampliar la región de SWT usando el borde adicional, y complementar una parte faltante de la región de SWT ampliada sin usar píxeles de la región monocolor fuera de un borde de la región de SWT ampliada, usando otros píxeles de la región monocolor.
Dependiendo de la relación entre los valores de píxel del texto y el fondo, hay un caso en el que el borde del texto no puede especificarse incluso combinando la SWT y el agrupamiento basado en valores de píxel. Por ejemplo, cuando una parte del borde es débil debido a que el color del texto y el color del fondo son similares parcialmente, existe la posibilidad de que sólo se extraiga una parte del texto como la región de SWT y la parte de borde débil no pueda reconocerse incluso mediante el agrupamiento basado en valores de píxel. En un caso de este tipo, al establecer un umbral de borde menor que la primera SWT y realizar la SWT de nuevo, surge la probabilidad de detectar el borde débil. Luego, al complementar otra parte faltante sin borrar el borde especificado en la región de SWT que incluye el borde débil, que es la región de sWt ampliada, es posible especificar con precisión el grupo de píxeles de la región de texto candidata.
En un aparato de procesamiento de imágenes según otro aspecto, la segunda unidad de extracción puede extraer la región monocolor realizando un agrupamiento de color. Mientras que el agrupamiento de grises convierte una imagen en escala de grises (información unidimensional) y, por tanto, se pierde información acerca del color, el agrupamiento de color no provoca una pérdida de este tipo, y el agrupamiento puede efectuarse de manera más precisa.
Por otro lado, puesto que la información de color se reduce en el agrupamiento de grises, el procesamiento puede efectuarse a mayor velocidad.
Aunque la segunda unidad 13 de extracción determina la región objetivo de agrupamiento y luego extrae las regiones monocolores en la realización descrita anteriormente, la segunda unidad 13 de extracción puede extraer directamente las regiones monocolores a partir de toda la imagen sin determinar la región objetivo de agrupamiento. Dicho de otro modo, puede omitirse el procesamiento de la etapa S13 anterior. Por ejemplo, si la capacidad de hardware de una CPU o similares es alta y las regiones monocolores pueden extraerse a alta velocidad, puede omitirse el procesamiento para determinar la región objetivo de agrupamiento. Además, si no se determina la región objetivo de agrupamiento, no existe la necesidad de consultar los datos de componente de las regiones de SWT cuando se realiza el agrupamiento basado en valores de píxel, y no es necesario que las regiones de SWT se extraigan antes de extraer las regiones monocolores. Dicho de otro modo, el aparato 10 de procesamiento de imágenes puede realizar la etapa S12 y la etapa S14 en paralelo o realizar la etapa S12 después de realizar la etapa S14.
Aunque la unidad 14 de especificación examina el solape entre el rectángulo circunscrito de la región de SWT y el rectángulo circunscrito de la región monocolor y selecciona de ese modo la región monocolor en la realización descrita anteriormente, la unidad 14 de especificación puede calcular el número de píxeles Ai en la parte de solape entre la región de SWT y la región monocolor y seleccionar la región monocolor en la que el número de píxeles Ai es de uno o más, en vez del procesamiento anterior (el procesamiento de la etapa S152). Obsérvese que, sin embargo, al examinar el solape de los rectángulos circunscritos, es posible seleccionar fácil y rápidamente la región monocolor.
En la realización descrita anteriormente, cuando la razón del número de píxeles en la parte de solape entre la región de SWT y la región monocolor con respecto al número de píxeles en la región monocolor es menor que un valor de referencia, se descarta el valor de SWT. Este procesamiento tiene como objetivo principalmente excluir la región de SWT que se extrae a partir de una parte del fondo, y tal exclusión de la región de SWT puede efectuarse mediante otra técnica. Por ejemplo, la unidad 11 de recepción o la unidad 14 de especificación puede especificar una región del mismo color que el borde de la imagen y continuar a partir del borde como región de fondo y descartar la región de SWT que está incluida en la región de fondo.
Aunque la unidad 14 de especificación compara la razón R del número de píxeles en la parte de solape entre la región de SWT y la región monocolor con respecto al número de píxeles en la región monocolor con un valor de referencia Rt en la realización descrita anteriormente, la unidad 14 de especificación puede comparar la razón R con dos valores de referencia diferentes (un primer valor de referencia y un segundo valor de referencia). En este caso, el segundo valor de referencia es menor que el primer valor de referencia. Por ejemplo, cuando la razón R es igual a o mayor que el primer valor de referencia, la unidad de especificación especifica un grupo de píxeles que pertenecen a al menos una de la región de SWT y la región monocolor como una región de texto candidata. Cuando la razón R es menor que el primer valor de referencia e igual a o mayor que el segundo valor de referencia, la unidad de especificación complementa la región de SWT sin usar los píxeles de la región monocolor fuera del borde de la región de SWT, usando el resto de los píxeles de la región monocolor. Cuando la razón R es menor que el segundo valor de referencia,
la unidad de especificación no especifica una región de texto candidata a partir de la región de SWT y la región monocolor. Dicho de otro modo, la unidad de especificación descarta la región de SWT. De esta manera, la unidad de especificación puede realizar una primera complementación para especificar el grupo de píxeles de la región de texto candidata cuando la razón R es igual a o mayor que el primer valor de referencia, realizar una segunda complementación para especificar el grupo de píxeles de la región de texto candidata cuando la razón R es menor que el primer valor de referencia e igual a o mayor que el segundo valor de referencia, y abstenerse de especificar la región de texto candidata cuando la razón R es menor que el segundo valor de referencia.
En comparación con este ejemplo alternativo, la realización descrita anteriormente incluye un procesamiento cuando el primer valor de referencia y el segundo valor de referencia son iguales, es decir, un procesamiento cuando el valor de referencia Rt es tanto el primer valor de referencia como el segundo valor de referencia.
Cuando se efectúan comparaciones entre dos valores numéricos en el aparato de procesamiento de imágenes, puede usarse cualquiera de “igual a o mayor que”, “igual a o menor que”, “menor que” y “mayor que”. Aunque se proporciona la misma explicación para el caso en el que la unidad 14 de especificación compara la razón R y el valor de referencia Rt en la realización descrita anteriormente, no se limita a un caso de este tipo en el que un modo de comparación es arbitrario.
10...aparato de procesamiento de imágenes, 11...unidad de recepción, 12...primera unidad de extracción, 13...segunda unidad de extracción, 14...unidad de especificación, P1...programa de procesamiento de imágenes, P10...módulo principal, P11...módulo de recepción, P12...primer módulo de extracción, P13...segundo módulo de extracción, P14...módulo de especificación
Claims (1)
- REIVINDICACIONESAparato (10) de procesamiento de imágenes que comprende:una primera unidad (12) de extracción configurada para realizar una transformada de ancho de trazo en una imagen y extraer de ese modo una región de SWT a partir de la imagen, siendo la región de SWT una región que tiene un borde continuo y un ancho de trazo dentro de un intervalo establecido, siendo el borde un límite entre la región de SWT y otra región según el método de Canny;una segunda unidad (13) de extracción configurada para realizar un agrupamiento basado en valores de píxel en la imagen y extraer de ese modo una región monocolor a partir de la imagen, siendo la región monocolor una región compuesta por una pluralidad de píxeles que tienen valores de píxel dentro de un intervalo establecido y dichos píxeles están presentes continuamente como una región monocolor, en el que, si un valor de píxel de un primer píxel adyacente a un segundo píxel cuyo valor de píxel está dentro del intervalo establecido también está dentro del intervalo establecido, dichos píxeles primero y segundo están presentes continuamente; yuna unidad (14) de especificación configurada para determinar si una razón del número de píxeles en una parte de solape entre la región de SWT y la región monocolor con respecto al número de píxeles en la región monocolor es igual a o mayor que un primer valor de referencia, o mayor que el primer valor de referencia y para especificar, en un caso en el que la razón es igual a o mayor que un primer valor de referencia o mayor que el primer valor de referencia, una región de texto candidata basándose al menos en la región monocolor, en el que:la unidad (14) de especificación especifica la región de texto candidata complementando una parte faltante estimada de la región de SWT con píxeles de la región monocolor;la parte faltante estimada comprende píxeles de la imagen extraídos como parte de la región monocolor y no extraídos como parte de la región de SWT;la primera unidad (12) de extracción está configurada además para añadir un marcador que indica si un píxel es un borde de la región de SWT; yla unidad (14) de especificación está configurada además para complementar la parte faltante estimada sin usar píxeles de la región monocolor fuera del límite de la región de SWT, usando el resto de los píxeles de la región monocolor,la primera unidad (12) de extracción realiza la transformada de ancho de trazo usando un primer umbral de borde (Ta), yla unidad (14) de especificación está configurada además para calcular una región diferencial que está incluida en la región monocolor calculando una diferencia entre la región de SWT y la región monocolor, realizar la transformada de ancho de trazo usando un segundo umbral de borde (Tb) menor que el primer umbral de borde (Ta) en una parte de la región monocolor que no se solapa con la región de SWT para determinar de ese modo si hay una región adicional que está incluida en la región diferencial y tiene el mismo intervalo del ancho de trazo que la región de SWT y para buscar de ese modo un borde adicional, y ampliar la región de SWT usando el borde adicional, y complementar una parte faltante estimada de la región de SWT ampliada sin usar píxeles de la región monocolor fuera del límite de la región de SWT ampliada, usando el resto de los píxeles de la región monocolor.Aparato (10) de procesamiento de imágenes según la reivindicación 1, en el quela unidad (14) de especificación no especifica una región de texto candidata a partir de la región de SWT y la región monocolor cuando la razón es menor que un segundo valor de referencia.Aparato (10) de procesamiento de imágenes según la reivindicación 2, en el queel primer valor de referencia y el segundo valor de referencia son iguales, ycuando la segunda unidad (13) de extracción extrae una pluralidad de regiones monocolores, la unidad (14) de especificación selecciona la región monocolor que tiene el número máximo de píxeles en la parte de solape con la región de SWT, y cuando una razón del número de píxeles en la parte de solape entre la región de SWT y la región monocolor seleccionada con respecto al número de píxeles en la región monocolor seleccionada es igual a o mayor que el primer valor de referencia, la unidad (14) de especificación especifica la región de texto candidata basándose en la región de SWT y la región monocolor seleccionada, y cuando la razón es menor que el primer valor de referencia, la unidad (14) de especificación no especifica la región de texto candidata.Aparato (10) de procesamiento de imágenes según una cualquiera de las reivindicaciones 1 a 3, en el que la segunda unidad (13) de extracción establece una parte de la imagen como una región objetivo de agolpamiento basándose en la región de SWT extraída por la primera unidad (12) de extracción, y extrae la región monocolor a partir de la región objetivo de agrupamiento.Aparato (10) de procesamiento de imágenes según una cualquiera de las reivindicaciones 1 a 4, en el que la segunda unidad (13) de extracción extrae la región monocolor realizando un agolpamiento de color. Método de procesamiento de imágenes realizado por un aparato (10) de procesamiento de imágenes que incluye un procesador (101), que comprende:una primera etapa de extracción en la que se realiza una transformada de ancho de trazo en una imagen y se extrae de ese modo una región de SWT a partir de la imagen, siendo la región de SWT una región que tiene un borde continuo y un ancho de trazo dentro de un intervalo establecido, siendo el borde un límite entre la región de SWT y otra región según el método de Canny;una segunda etapa de extracción en la que se realiza un agrupamiento basado en valores de píxel en la imagen y se extrae de ese modo una región monocolor a partir de la imagen, siendo la región monocolor una región compuesta por una pluralidad de píxeles que tienen valores de píxel dentro de un intervalo establecido y dichos píxeles están presentes continuamente como una región monocolor, en el que, si un valor de píxel de un primer píxel adyacente a un segundo píxel cuyo valor de píxel está dentro del intervalo establecido también está dentro del intervalo establecido, dichos píxeles primero y segundo están presentes continuamente; yuna etapa de especificación en la que se determina si una razón del número de píxeles en una parte de solape entre la región de SWT y la región monocolor con respecto al número de píxeles en la región monocolor es igual a o mayor que un primer valor de referencia, o mayor que el primer valor de referencia y se especifica, en un caso en el que la razón es igual a o mayor que un primer valor de referencia o mayor que el primer valor de referencia, una región de texto candidata basándose al menos en la región monocolor, en el que:la etapa de especificación comprende además especificar la región de texto candidata complementando una parte faltante estimada de la región de SWT con píxeles de la región monocolor; yla parte faltante estimada comprende píxeles de la imagen extraídos como parte de la región monocolor y no extraídos como parte de la región de SWT;la primera etapa de extracción comprende además añadir un marcador que indica si un píxel es un borde de la región de SWT; yla etapa de especificación comprende además complementar la parte faltante estimada sin usar píxeles de la región monocolor fuera del límite de la región de SWT, usando el resto de los píxeles de la región monocolor,realizar la transformada de ancho de trazo usando un primer umbral de borde, ycalcular una región diferencial que está incluida en la región monocolor calculando una diferencia entre la región de SWT y la región monocolor, realizar la transformada de ancho de trazo usando un segundo umbral de borde (Tb) menor que el primer umbral de borde (Ta) en una parte de la región monocolor que no se solapa con la región de SWT para determinar de ese modo si hay una región adicional que está incluida en la región diferencial y tiene el mismo intervalo del ancho de trazo que la región de SWT y para buscar de ese modo un borde adicional, y ampliar la región de SWT usando el borde adicional, y complementar una parte faltante estimada de la región de SWT ampliada sin usar píxeles de la región monocolor fuera del límite de la región de SWT ampliada, usando el resto de los píxeles de la región monocolor.Programa de procesamiento de imágenes que hace que un ordenador funcione como un aparato (10) de procesamiento de imágenes según la reivindicación 1.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014151883A JP5695257B1 (ja) | 2014-07-25 | 2014-07-25 | 画像処理装置、画像処理方法、および画像処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2819221T3 true ES2819221T3 (es) | 2021-04-15 |
Family
ID=52830858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES15162549T Active ES2819221T3 (es) | 2014-07-25 | 2015-04-07 | Aparato de procesamiento de imágenes, método de procesamiento de imágenes y programa de procesamiento de imágenes |
Country Status (4)
Country | Link |
---|---|
US (1) | US9477885B2 (es) |
EP (1) | EP2977932B1 (es) |
JP (1) | JP5695257B1 (es) |
ES (1) | ES2819221T3 (es) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016098589A1 (ja) * | 2014-12-15 | 2016-06-23 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム、および情報処理システム |
US10136148B2 (en) * | 2015-05-18 | 2018-11-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods, receiving device and sending device for managing a picture |
KR101763376B1 (ko) | 2016-03-11 | 2017-07-31 | 광주과학기술원 | 신뢰 기반 재귀적 깊이 영상 필터링 방법 |
JP6880867B2 (ja) * | 2017-03-16 | 2021-06-02 | 株式会社リコー | 画像処理装置、画像処理方法およびプログラム |
CN107688806B (zh) * | 2017-08-21 | 2021-04-20 | 西北工业大学 | 一种基于仿射变换的自由场景文本检测方法 |
CN108256493A (zh) * | 2018-01-26 | 2018-07-06 | 中国电子科技集团公司第三十八研究所 | 一种基于车载视频的交通场景文字识别系统及识别方法 |
US11042969B2 (en) * | 2019-05-23 | 2021-06-22 | Adobe Inc. | Automatic synthesis of a content-aware sampling region for a content-aware fill |
CN112270356B (zh) * | 2020-10-28 | 2023-10-13 | 杭州海康威视数字技术股份有限公司 | 一种图像识别方法、装置及电子设备 |
US12062246B2 (en) * | 2021-09-30 | 2024-08-13 | Konica Minolta Business Solutions U.S.A., Inc. | Extracting text from an image |
WO2024043602A1 (ko) * | 2022-08-26 | 2024-02-29 | 삼성전자 주식회사 | 이미지로부터 텍스트를 획득하는 방법 및 서버 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4275866B2 (ja) * | 2000-01-27 | 2009-06-10 | 富士通株式会社 | カラー画像から文字列パターンを抽出する装置および方法 |
FR2857481A1 (fr) * | 2003-07-08 | 2005-01-14 | Thomson Licensing Sa | Procede et dispositif de detection de visages dans une image couleur |
US8917935B2 (en) * | 2008-05-19 | 2014-12-23 | Microsoft Corporation | Detecting text using stroke width based text detection |
JP5027201B2 (ja) * | 2009-10-16 | 2012-09-19 | 日本電信電話株式会社 | テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム |
US9076056B2 (en) * | 2013-08-20 | 2015-07-07 | Adobe Systems Incorporated | Text detection in natural images |
-
2014
- 2014-07-25 JP JP2014151883A patent/JP5695257B1/ja active Active
- 2014-12-08 US US14/562,888 patent/US9477885B2/en active Active
-
2015
- 2015-04-07 EP EP15162549.8A patent/EP2977932B1/en active Active
- 2015-04-07 ES ES15162549T patent/ES2819221T3/es active Active
Also Published As
Publication number | Publication date |
---|---|
US20160026859A1 (en) | 2016-01-28 |
EP2977932A2 (en) | 2016-01-27 |
JP2016029546A (ja) | 2016-03-03 |
JP5695257B1 (ja) | 2015-04-01 |
EP2977932B1 (en) | 2020-08-19 |
EP2977932A3 (en) | 2016-02-24 |
US9477885B2 (en) | 2016-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2819221T3 (es) | Aparato de procesamiento de imágenes, método de procesamiento de imágenes y programa de procesamiento de imágenes | |
US11087169B2 (en) | Image processing apparatus that identifies object and method therefor | |
ES2585903T3 (es) | Método y sistema para generar una representación de una escena 3D dinámicamente cambiante | |
Liasis et al. | Building extraction in satellite images using active contours and colour features | |
Lee et al. | Semantic line detection and its applications | |
JP6496987B2 (ja) | 目標検出方法及び目標検出装置 | |
Shi et al. | Spectral–spatial classification and shape features for urban road centerline extraction | |
Qin et al. | A hierarchical building detection method for very high resolution remotely sensed images combined with DSM using graph cut optimization | |
KR101932009B1 (ko) | 다중 객체 검출을 위한 영상 처리 장치 및 방법 | |
US20160104053A1 (en) | Hierarchical Interlinked Multi-scale Convolutional Network for Image Parsing | |
CN105096347B (zh) | 图像处理装置和方法 | |
US20160037087A1 (en) | Image segmentation for a live camera feed | |
US11017260B2 (en) | Text region positioning method and device, and computer readable storage medium | |
BR102013024785B1 (pt) | sistema de processamento de imagem e método para o rastreamento de objetos em movimento em uma sequência de imagens | |
KR101417527B1 (ko) | 항공기에서 촬영되는 항공 영상을 이용하는 지형 변화 탐지 장치 및 방법 | |
TW201734954A (zh) | 資料處理裝置、資料處理方法以及資料處理程式產品 | |
US11704807B2 (en) | Image processing apparatus and non-transitory computer readable medium storing program | |
AU2014277855A1 (en) | Method, system and apparatus for processing an image | |
Recky et al. | Façade segmentation in a multi-view scenario | |
Tian et al. | Character shape restoration system through medial axis points in video | |
US20140160155A1 (en) | Inserting an Object into an Image | |
US20160005200A1 (en) | Image processing device, image processing method, and image processing program | |
CN111199188B (zh) | 遥感影像差异图的像素处理方法、装置、存储介质及设备 | |
CN112017148A (zh) | 一种单节骨骼轮廓的提取方法及装置 | |
KR101749029B1 (ko) | 영상에서의 신체 부위 검출 방법 및 그 장치 |