ES2600756T3 - Sistema y procedimiento para facilitar la compresión de imágenes de documento utilizando una máscara - Google Patents

Sistema y procedimiento para facilitar la compresión de imágenes de documento utilizando una máscara Download PDF

Info

Publication number
ES2600756T3
ES2600756T3 ES03005431.6T ES03005431T ES2600756T3 ES 2600756 T3 ES2600756 T3 ES 2600756T3 ES 03005431 T ES03005431 T ES 03005431T ES 2600756 T3 ES2600756 T3 ES 2600756T3
Authority
ES
Spain
Prior art keywords
foreground
component
region
backplane
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03005431.6T
Other languages
English (en)
Inventor
Patrice Y. Simard
Erin L. Renshaw
James Russell Rinker
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/133,939 external-priority patent/US7392472B2/en
Priority claimed from US10/133,558 external-priority patent/US7164797B2/en
Priority claimed from US10/133,842 external-priority patent/US7263227B2/en
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Application granted granted Critical
Publication of ES2600756T3 publication Critical patent/ES2600756T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Character Discrimination (AREA)

Abstract

Un componente (100) separador de máscara, que comprende: un componente (130) de energía de píxel adaptado para calcular la energía de píxel para una región de una imagen (110) de un documento, adaptado además el componente de energía de píxel para calcular una partición de la región basándose al menos en parte en la energía de píxel de al menos uno de entre un primer plano y un plano posterior; caracterizado porque comprende además: un componente (140) de fusión de regiones adaptado para fusionar pares de regiones adyacentes de la imagen del documento basándose al menos en parte en la determinación de si las energías de un primer plano y/o un plano posterior de las regiones fusionadas potenciales son menores que una primera energía de umbral, estando adaptado además el componente de fusión para dividir la región fusionada en un nuevo primer plano y nuevo plano posterior; y, un componente (150) de almacenamiento de máscara adaptado para almacenar información asociada con la partición en una máscara (120).

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Sistema y procedimiento para facilitar la compresion de imagenes de documento utilizando una mascara Referencia a solicitudes relacionadas
La presente solicitud es una continuacion parcial de la Solicitud de Utilidad Estados Unidos N.° de Serie 10/133.842 que se presento el 25 de abril de 2002, titulada ACTIVITY DETECTOR, de la Solicitud de Utilidad N.° de Serie 10/133.558 que se presento el 25 de abril de 2002, titulada CLUSTERING y de la Solicitud de Utilidad Estados Unidos N.° de Serie 10/133.939 que se presento el 25 de abril de 2002, titulada LAYOUT ANALYSIS.
Campo tecnico
La presente invencion se refiere en general al procesamiento de imagenes de documentos y, mas particularmente, a un sistema y procedimiento que facilita la compresion de imagenes de documentos utilizando una mascara que divide un primer plano de una imagen de un documento a partir de un plano posterior.
Antecedentes de la invencion
La cantidad de informacion disponible a traves de los ordenadores se ha incrementado dramaticamente con la amplia proliferacion de redes de ordenadores, Internet y los medios de almacenamiento digital. Con la cantidad creciente de informacion ha surgido la necesidad de transmitir informacion rapidamente y de almacenar eficientemente la informacion. La compresion de datos es una manera por la que los documentos pueden transmitirse y/o almacenarse mas efectivamente.
Los sistemas de compresion de datos convencionales han utilizado varios enfoques de compresion, por ejemplo, coincidencia de sfmbolos. Sin embargo, los enfoques de compresion tfpicos que funcionan de modo efectivo para documentos que tienen imagenes no funcionan bien, por ejemplo, para documentos que tienen texto y/o escritura manual.
La compresion de datos reduce el espacio necesario para representar la informacion. La compresion puede usarse para cualquier tipo de informacion. Sin embargo, la compresion de la informacion digital, incluyendo imagenes, texto, audio y video se ha convertido en mas importante. Tfpicamente, la compresion de datos se usa con sistemas de ordenador estandar. Sin embargo, otras tecnologfas hacen uso de la compresion de datos, tal como, pero sin limitarse a, television digital y por satelite asf como telefonos celulares/digitales.
La compresion de datos es importante por varias razones. La compresion de datos permite que la informacion se almacene en menos espacio que los datos sin comprimir. Cuando se incrementa la demanda de grandes cantidades de informacion, puede requerirse la compresion de los datos para suministrar las grandes cantidades de informacion. El tamano de los dispositivos de almacenamiento se ha incrementado significativamente, sin embargo la demanda de informacion ha sobrepasado estos incrementos de tamano. Por ejemplo, una imagen sin comprimir puede necesitar hasta 5 megabytes de espacio mientras que la misma imagen puede comprimirse y necesitar solo 2,5 megabytes de espacio. Ademas, la compresion de datos permite la transferencia de cantidades de informacion comprimida mas grandes que la informacion sin comprimir. Incluso con el incremento de las velocidades de transmision, tales como la banda ancha, DSL, cable modem e Internet y similares, los lfmites de la transmision pueden alcanzarse facilmente con la informacion sin comprimir. Por ejemplo, la transmision de una imagen sin comprimir a traves de una lmea DSL puede llevar diez minutos. Sin embargo, con la compresion de datos, la misma imagen puede transmitirse en aproximadamente un minuto.
En general, hay dos tipos de compresion, sin perdida y con perdida. La compresion sin perdida permite que se recuperen los datos originales exactos tras la compresion, mientras que la compresion con perdida permite que los datos originales difieran de los datos sin comprimir. La compresion con perdida permite una mejor relacion de compresion debido a que elimina datos del original. La compresion sin perdida puede usarse, por ejemplo, cuando se comprime texto cntico, debido que el fallo en reconstruir exactamente los datos puede afectar seriamente a la calidad y legibilidad del texto. La compresion con perdida puede usarse con imagenes o texto no cntico en el que una cierta cantidad de distorsion o ruido es o bien aceptable o bien imperceptible por nuestros limitados sentidos.
La compresion de datos es especialmente aplicable a documentos digitales. Los documentos digitales o imagenes de documentos digitales son representaciones digitales de documentos. Tfpicamente, los documentos digitales incluyen texto, imagenes y/o texto e imagenes. Ademas de usar menos espacio de almacenamiento para datos digitales actuales, el almacenamiento compacto sin degradacion significativa de la calidad promovera la digitalizacion de las copias en papel actuales haciendo mas factibles las oficinas sin papel. El esfuerzo hacia dichas oficinas sin papel es un objetivo importante que han de tener las empresas, debido a que las oficinas sin papel proporcionan muchos beneficios, tales como permitir un facil acceso a la informacion, reducir los costes medioambientales, reducir los costes de almacenamiento y otros similares. Ademas, la disminucion de tamano de los archivos de los documentos digitales a traves de la compresion permite un uso mas eficiente del ancho de banda de Internet, permitiendo asf una transmision mas rapida de mas informacion y la reduccion de la congestion de la red. La reduccion del almacenamiento requerido para la informacion, el movimiento hacia oficinas sin papel mas
5
10
15
20
25
30
35
40
45
50
55
eficientes, y el incremento de la eficiencia del ancho de banda de Internet, son solo algunos de los muchos beneficios significativos de la tecnologfa de compresion.
La compresion de datos de los documentos digitales tiene un cierto numero de metas para hacer mas atractivo el uso de los documentos digitales. Primero, la compresion de datos debena ser capaz de comprimir y descomprimir grandes cantidades de informacion en una pequena cantidad de tiempo. En segundo lugar, la compresion de datos debena ser capaz de reproducir con precision el documento digital.
Ademas, la compresion de datos de documentos digitales debena hacer uso de la finalidad de un documento. Algunos documentos digitales se usan para rellenar o proporcionar copias impresas. Otros documentos pueden revisarse y/o editarse. La compresion de datos actual fracasa al manejar la recolocacion de texto y/o imagenes cuando se ve, y fracasa al proporcionar medios eficientes y efectivos para permitir que la tecnologfa de compresion reconozca caracteres y los recoloque en procesadores de textos, asistentes digitales personales (PDA), telefonos celulares y similares. Por lo tanto, si se escanean en forma digital documentos de oficina en papel, la tecnologfa de compresion actual puede hacer diffcil, si no imposible, actualizar, modificar, o cambiar en general el documento digitalizado.
La compresion de imagenes compuestas con un enfoque multicapa de contenido de barrido fusionado se explica en “Optimizing Block-Thresholding Segmentation for Multilayer Compression of Compound Images” por R.L. de Queiroz et al., IEEE Transactions on Image Compression, IEEE Inc. nueva York, US, vol. 9, n.° 9, septiembre de 2000, paginas 1461-1471, ISSN: 1057-7149.
Las representaciones basadas en zonas de imagen y video se presentan en “Region-Based Representations of Image and Video: Segmentation Tools for Multimedia Services” por P.Salembier et al., IEEE Transactions on Circuits and Systems for Video Technology, IEEE Inc. Nueva York, Estados Unidos, vol. 9, n.° 8, diciembre de 1999, paginas 1147-1169, ISSN: 1051-8215.
Sumario de la invencion
La invencion comprende un componente separador de mascara de acuerdo con la reivindicacion 1, un procedimiento para la generacion de una mascara que divide una imagen de un documento en un plano posterior y un primer plano de acuerdo con la reivindicacion 12, un sistema de compresion de imagenes de documento de acuerdo con la reivindicacion 19, un medio legible por ordenador de acuerdo con la reivindicacion 23, una fotocopiadora de acuerdo con la reivindicacion 25, un escaner de documentos de acuerdo con la reivindicacion 26, un sistema de reconocimiento optico de caracteres de acuerdo con la reivindicacion 27, un asistente digital personal de acuerdo con la reivindicacion 28, una maquina de fax de acuerdo con la reivindicacion 29, una camara digital de acuerdo con la reivindicacion 30, una camara de video digital de acuerdo con la reivindicacion 31 y un sistema de videojuegos de acuerdo con la reivindicacion 32. En algunas realizaciones favorables se describen en las reivindicaciones dependientes.
A continuacion se presenta un sumario simplificado de la invencion para proporcionar una comprension basica de algunos aspectos de la invencion. Este sumario no es una vision extensa de la invencion. No se pretende que identifique elementos clave/cnticos de la invencion o delimite el alcance de la invencion. Su unica finalidad es presentar algunos conceptos de la invencion de una forma simplificada como un preludio a una descripcion mas detallada que se presenta mas adelante.
La presente invencion se refiere en general a un sistema y procedimiento que facilita la compresion de imagenes de documentos utilizando una particion con mascara de un primer plano de una imagen de un documento respecto a un plano posterior. De acuerdo con un aspecto de la presente invencion, un componente separador de mascara recibe una imagen del documento (por ejemplo, una representacion binaria, RGB y/o YUV del (de los) documento(s)) como una entrada. El componente separador de mascara procesa la imagen del documento y produce la salida de una mascara (por ejemplo binaria) que indica si cada pixel de la imagen del documento pertenece al primer plano y/o a un plano posterior. Mediante la separacion del primer plano (por ejemplo, la informacion textual) del plano posterior (por ejemplo informacion grafica), el primer plano y/o el plano posterior pueden comprimirse mas efectivamente, disminuyendo asf el tamano del archivo y/o el tiempo de transmision. La mascara y/o la imagen del documento pueden procesarse entonces por otra(s) parte(s) de un sistema de compresion (por ejemplo, para conseguir una compresion mejorada de la imagen del documento). Por ejemplo, el sistema y/o procedimiento de la presente invencion puede utilizarse en un sistema de imagen en capas segmentado global que facilite la identificacion y/o compresion de texto, escritura manual, dibujos y similar.
De acuerdo con un aspecto particular de la invencion, el componente separador de mascara incluye un componente de energfa de pixel, un componente de fusion de regiones y un componente de almacenamiento de mascara. El componente de energfa de pixel esta adaptado para calcular la energfa de pixel (por ejemplo, varianzas) para una(s) region(es) de una imagen del documento para minimizar las variaciones de energfa del primer plano y/o plano posterior. La energfa (por ejemplo, se mide la energfa basandose en una suma del cuadrado de las distancias) se usa como una estimacion de la compresion que se obtendna para el primer plano y/o el plano posterior. Sin embargo, para simplificar la sobrecarga de calculo, la imagen del documento puede dividirse en regiones (por
5
10
15
20
25
30
35
40
45
50
55
ejemplo, de dos pfxeles por dos p^xeles) y determinarse un primer plano y plano posterior para cada region (por ejemplo, basandose al menos en parte, en la minimizacion de las variaciones de energfa en el plano posterior y/o en el primer plano). En otras palabras, cada region se divide en sf misma en dos conjuntos: los pfxeles que pertenecen al primer plano, y los pfxeles que pertenecen al plano posterior. Para minimizar ademas la sobrecarga de calculo, el componente de ene^a de p^xel puede, al menos temporalmente, almacenar informacion de calculo para su uso por el componente de fusion de regiones y/o el componente de almacenamiento de mascara.
El componente de fusion de regiones esta adaptado para intentar fusionar pares de regiones de la imagen del documento basandose, al menos en parte, en la determinacion de si las energfas de un nuevo primer plano y/o un nuevo plano posterior de las regiones fusionadas potenciales son menores que una primera energfa de umbral. El componente de fusion de regiones puede utilizar informacion de calculo almacenada por el componente de energfa de pixel. El resultado de una fusion es una region mas grande que se caracterizara por su propia particion de primer plano y plano posterior. Los pfxeles que fueron primer plano previamente a la fusion pueden acabar en el plano posterior de la region fusionada y viceversa. El componente de fusion de regiones puede determinar una particion primer plano/plano posterior adecuada de la region fusionada, por ejemplo, basandose al menos en parte en la minimizacion de las energfas de un nuevo plano posterior y un nuevo primer plano.
El componente de fusion de regiones puede continuar intentando fusionar sucesivamente regiones mayores hasta que la energfa de umbral se supere y/o sustancialmente toda la imagen del documento se haya fusionado. Por ejemplo, el componente de fusion de regiones puede fusionar regiones de dos por dos horizontalmente adjuntas en una region de dos por cuatro. Posteriormente, el componente de fusion de regiones puede fusionar verticalmente regiones en una region de cuatro por cuatro. Generalmente, el primer valor de energfa de umbral puede seleccionarse para mitigar las situacion(es) potencial(es) en las que el intento de fusion(s) dividina varios niveles de gris en el primer plano o en el plano posterior, con una perdida potencial de detalles importantes, tal como texto (por ejemplo cuando hay mas de dos colores en una region). Por ello, puede capturarse una mascara que capture la mayor parte del texto y/o lmea(s) grafica(s) asociada(s) con una imagen de un documento.
Una vez se ha completado la fusion para una region, la particion de primer plano y plano posterior para esta region constituye la mascara, por ejemplo, el (los) pfxel(es) que pertenecen al primer plano pueden tener asignado un “1” en la mascara, mientras que el (los) pfxel(es) que pertenecen al plano posterior pueden tener asignado un “0”. Desafortunadamente, mantener un seguimiento de las particiones de primeros planos y planos posteriores durante la operacion de fusion puede ser caro desde el punto de vista computacional. Una alternativa (por ejemplo, mas efectiva de modo computacional) es calcular una media de sustancialmente todos los pfxeles de la region fusionada y asignar pfxel(es) que tengan un nivel de gris mayor que la media al primer plano siendo asignados el (los) pfxel(es) restante(s) al plano posterior. Alternativamente, el (los) pfxel(es) que tengan un valor de nivel de gris mayor que la media puede estar asignados al plano posterior siendo asignados el (los) pfxel(es) restante(s) al primer plano. Las dos alternativas pueden producir mascaras visualmente indiferenciables.
Posteriormente, el componente de almacenamiento de mascara esta adaptado para almacenar la informacion asociada con la particion del primer plano y el plano posterior en la mascara. Por ello, la mascara indica si cada pixel de la imagen del documento pertenece al primer plano y/o al plano posterior.
De acuerdo con otro aspecto de la presente invencion, para minimizar la sobrecarga computacional, puede calcularse la energfa para una pequena region (por ejemplo cuatro pfxeles por cuatro pfxeles) por el componente de energfa de pixel. Si la energfa es menor que una segunda energfa de umbral, sustancialmente todos los pfxeles pueden estar asignados al primer plano o al plano posterior estando los otros sustancialmente vacfos. Si la energfa es mayor que o igual a la segunda energfa de umbral, la particion puede proseguir como se ha descrito anteriormente. Para imagenes de documentos relativamente limpios (por ejemplo, que tengan area(s) constantes), puede conseguirse un incremento significativo en la velocidad computacional.
De acuerdo con otro aspecto de la presente invencion, para minimizar el tamano de la mascara, si una region final (por ejemplo una region que no puede fusionarse sin exceder el primer umbral), tiene una diferencia entre el primer plano medio y el plano posterior medio que es mas alta que un tercer umbral, toda la region se declara primer plano o se declara plano posterior, dependiendo de si una media global para la region es mayor o menor que el valor medio del nivel de gris (por ejemplo, 127 si los valores de nivel de gris estan entre 0 y 255). Para documentos en color que tengan un ligero tramado, la mascara para esta region parecena similar a una entremezcla sin esta optimizacion y tendna un alto coste de compresion. El tercer umbral se elige de modo que no se pierdan texto importante, mientras se eliminan los muchos casos de ligero tramado vistos en documentos impresos escaneados (por ejemplo, muchas impresoras tienen solo 4 a 6 colores y deben usar tramado para generar toda la paleta de colores). En un ejemplo, el valor de 40 es una buena eleccion para el tercer umbral.
En otro aspecto mas de la presente invencion proporciona el componente de energfa de pixel para utilizar una regresion polinomica para describir el primer plano y/o el plano posterior.
Otro aspecto de la compresion de imagenes de documento proporciona un sistema de separacion de la imagen de un documento que tiene un componente separador de mascara y un segmentador primer plano/plano posterior. El componente separador de mascara puede procesar una imagen de un documento (por ejemplo, que comprenda
5
10
15
20
25
30
35
40
45
50
55
texto y/o escritura manual) y almacenar informacion en relacion a que p^xeles estan en el primer plano y cuales estan en el plano posterior en una mascara. Posteriormente, el segmentador primer plano/plano posterior puede recibir la mascara y la imagen del documento y separar la imagen del documento en una imagen de primer plano y una imagen de plano posterior.
De acuerdo con otro aspecto mas de la presente invencion, se proporciona un sistema de compresion de imagenes de documento que tiene un componente de transformacion de la imagen de un documento, un componente de separacion de mascara y un componente de separacion primer plano/plano posterior. Opcionalmente, el sistema de compresion de imagenes de documento puede incluir un codificador de mascara, un codificador del primer plano y/o un codificador del plano posterior.
Otro aspecto mas de la compresion de imagenes de documento proporciona un sistema de imagenes segmentadas en capas que tiene un componente de energfa de pixel y un componente de almacenamiento de mascara. El sistema de imagenes segmentado en capas puede emplearse en una amplia variedad de aplicaciones de imagenes de documentos, incluyendo, pero sin limitarse a, fotocopiadoras, escaneres de documentos, sistemas de reconocimiento optico de caracteres, asistentes digitales personales, maquinas de fax, camaras digitales, camaras de video digitales y/o sistemas de videojuego.
Otros aspectos de la compresion de imagenes de documento proporciona procedimientos, metodologfas para, generando una mascara, un medio legible por ordenador que tenga funciones utilizables por ordenador para un componente de separacion de mascaras y un paquete de datos adaptado para transmitirse entre dos o mas procesos de ordenador que comprenden informacion asociada con una mascara, asignando la mascara pfxeles a al menos uno de un primer plano y un plano posterior de una imagen del documento, estando basada la mascara, al menos en parte, en el calculo de la minimizacion de la energfa de los pfxeles en una region de la imagen del documento.
Para el cumplimiento de los fines precedente y otros relacionados, ciertos aspectos ilustrativos de la invencion se describen en la presente memoria en conexion con la descripcion siguiente y los dibujos adjuntos. Estos aspectos son indicativos, sin embargo, de unas pocas de las diversas formas en las que pueden emplearse los principios de la invencion y se pretende que la presente invencion incluya todos los dichos aspectos y sus equivalentes. Otras ventajas y caractensticas novedosas de la invencion pueden hacerse evidentes a partir de la descripcion detallada a continuacion de la invencion cuando se considera en conjunto con los dibujos.
Breve descripcion de los dibujos
La Fig. 1 es un diagrama de bloques de un componente separador de mascara de acuerdo con un aspecto de la presente invencion.
La Fig. 2 es una imagen de un documento ejemplar de acuerdo con un aspecto de la presente invencion.
La Fig. 3 es una mascara asociada con la imagen del documento ejemplar de la Fig. 2 de acuerdo con un aspecto de la presente invencion.
La Fig. 4 es un plano posterior asociado con la imagen del documento ejemplar de la Fig. 2 y la mascara de la Fig. 3 de acuerdo con un aspecto de la presente invencion.
La Fig. 5 es una region de dos pfxeles por dos pfxeles ejemplar de una imagen de un documento de acuerdo con un aspecto de la presente invencion.
La Fig. 6 es una region fusionada potencial de cuatro pfxeles por cuatro pfxeles ejemplar de acuerdo con un aspecto de la presente invencion.
La Fig. 7 es una region fusionada potencial de cuatro pfxeles por cuatro pfxeles ejemplar de acuerdo con un aspecto de la presente invencion.
La Fig. 8 es un diagrama de flujo que ilustra una metodologfa para la generacion de una mascara de acuerdo con un aspecto de la presente invencion.
La Fig. 9 es un diagrama de flujo que ilustra ademas la metodologfa de la Fig. 8.
La Fig. 10 es un diagrama de bloques de un sistema de separacion de la imagen de un documento de acuerdo con un aspecto de la presente invencion.
La Fig. 11 es un diagrama de bloques de una compresion de imagenes de documento de acuerdo con un aspecto de la presente invencion.
La Fig. 12 es un diagrama de bloques de una compresion de imagenes de documento de acuerdo con un aspecto de la presente invencion.
La Fig. 13 es un diagrama de bloques de un sistema de imagen segmentado en capas de acuerdo con un aspecto de la presente invencion.
La Fig. 14 es un diagrama de bloques esquematico de un entorno operativo ejemplar para un sistema configurado de acuerdo con la presente invencion.
La Fig. 15 es un diagrama de bloques esquematico de un entorno de comunicacion ejemplar de acuerdo con la presente invencion.
Descripcion detallada de la invencion
La presente invencion se describe ahora con referencia a los dibujos, en los que se usan numeros de referencia
5
10
15
20
25
30
35
40
45
50
55
60
similares para referirse a elementos similares a todo lo largo. En la descripcion siguiente, con finalidades de explicacion, se exponen numerosos detalles espedficos para proporcionar una compresion global de la presente invencion. Puede ser evidente, sin embargo, que la presente invencion puede ponerse en practica sin estos detalles espedficos. En otros casos, estructuras y dispositivos bien conocidos se muestran en forma de diagramas de bloques para facilitar la descripcion de la presente invencion.
Tal como se usan en la presente solicitud, los terminos “componente” y “sistema” se pretende que se refieran a una entidad basada en ordenador, sea en hardware, una combinacion de hardware y software, software, o en software en ejecucion. Por ejemplo, un componente puede ser, pero sin limitarse a serlo, un proceso ejecutado en un procesador, un procesador, un objeto, un ejecutable, un hilo de ejecucion, un programa y/o un ordenador. A modo de ilustracion, tanto una aplicacion que se ejecuta en un servidor como el servidor puede ser un componente. Uno o mas componentes pueden residir dentro de un proceso y/o hilo de ejecucion y un componente puede localizarse en un ordenador y/o distribuirse entre dos o mas ordenadores.
Ademas, la “imagen de un documento” se pretende que se refiera a una representacion digital de documentos que comprenden uno o mas colores (por ejemplo, binarios, por ejemplo blanco/negro), escala de grises y/o documentos en color). Ademas, una imagen de un documento puede tener imagenes, texto y/o texto con imagenes, con superposicion potencial del texto e imagenes. Una imagen de un documento pueden ser representaciones binarias, RGB y/o YUV de documentos. Una imagen de un documento RGB se representa en componentes rojo, verde y azul. Una imagen de un documento YUV se representa usando un componente de luminancia indicado por Y y componentes de crominancia indicados por U y V. Pueden usarse menos bits para representar los componentes de crominancia U y V sin sacrificar significativamente la calidad visual de la imagen YUV. La representacion YUV es, en general una representacion mas compacta y facil de utilizar que una representacion RGB. Una imagen de un documento comprende elementos de foto comunmente denominados como “pfxeles”. Una imagen de un documento puede basarse en un documento de una o multiples paginas de cualquier forma o tamano.
En referencia a la Fig. 1, se ilustra un componente 100 separador de mascara con un aspecto de la presente invencion. El componente 100 separador de mascara recibe una imagen 110 de un documento (por ejemplo, basada en un documento a ser archivado y/o transmitido). Por ejemplo, el componente 100 separador de mascara puede ser parte de un sistema de compresion de documentos (no mostrado). La imagen 110 de un documento puede ser una representacion binaria, RGB y/o YUV del (de los) documento(s). El componente 100 separador de mascara procesa la imagen 110 del documento y produce la salida de la mascara 120 (por ejemplo binaria) que indica si cada pixel de la imagen 110 del documento pertenece al primer plano y/o al plano posterior. La mascara 120 y/o la imagen 110 del documento pueden procesarse entonces por otra(s) parte(s) del sistema de compresion (no mostrado) para efectuar la compresion de la imagen 110 del documento.
Pasando brevemente a la Fig. 2, se ilustra una imagen de un documento ejemplar. La imagen del documento comprende las letras “C” y “O” junto con una barra. La Fig. 3 ilustra una mascara asociada con la imagen del documento ejemplar de la Fig. 2 de acuerdo con un aspecto de la presente invencion. La Fig. 4 ilustra un plano posterior asociado con la imagen del documento ejemplar de la Fig. 2 y la mascara de la Fig. 3 de acuerdo con un aspecto de la presente invencion. Las lmeas discontinuas representan los lfmites de los pfxeles de “importancia” del plano posterior; los pfxeles que comprenden las lmeas de puntos y los pfxeles dentro de las lmeas discontinuas son “no importantes” en el plano posterior dado que cuando la imagen del documento se vuelve a montar el primer plano se colocara sobre el plano posterior basandose, al menos en parte, en la informacion de reconstruccion almacenada en la mascara. En el caso en el que las letras “C” y “O” y/o la barra son de color(es) constante(s) y/o tienen transicion(es) de color suaves, la compresion efectiva del primer plano puede conseguirse usando una de una variedad de tecnicas de suavizado y/o compresion. La compresion efectiva del plano posterior puede conseguirse mediante la sustitucion de los pfxeles “no importantes” con valores de pfxeles que permiten transiciones mas suaves. Un algoritmo simple ejemplar para rellenado de los pfxeles “no importantes” es procesar el plano posterior con un filtro paso bajo, y a continuacion restaurar los pfxeles importantes. Despues de pocas iteraciones de estas dos etapas, los pfxeles “no importantes” acaban con valores que permiten transiciones suaves, y que se comprimiran bien. Un refinamiento simple del este algoritmo es iniciar con un filtro paso muy bajo e incrementar la frecuencia de corte del filtro paso bajo en cada iteracion. Puede usarse un algoritmo similar para llenar el primer plano.
Volviendo a la Fig. 1, el componente 100 separador de mascara incluye un componente 130 de energfa de pixel, un componente 140 de fusion de regiones y un componente 150 de almacenamiento de mascara.
El componente 130 de energfa de pixel esta adaptado para calcular la energfa de pixel para regiones de la imagen 110 del documento (por ejemplo, varianzas). Por ejemplo, en el caso en el que la imagen 110 del documento es una representacion YUV, el componente 130 de energfa de pixel calcula las varianzas de energfa de pixel basandose en el componente Y y/o la combinacion adecuada de los componentes YUV de la representacion YUV. Para finalidades de calculo, el primer plano y el plano posterior pueden suponerse constantes a traves de una region. Si se desea calcular una mascara 120 que minimice la varianza alrededor de estas constantes. La varianza se usa como una estimacion de la compresion que se obtendna para el primer plano y/o el plano posterior. Alternativamente, la(s) region(es) podna(n) comprimirse y el numero de bits podna medirse cuantitativamente; sin embargo, la sobrecarga computacional sena prohibitivamente cara. En consecuencia, el calculo de la varianza, que es tambien una medicion
10
15
20
25
30
35
de la energfa basada en una suma de las distancias al cuadrado, es una estimacion aceptable del tamano del primer plano y el plano posterior tras la compresion.
Suponiendo que una region es un conjunto S de N p^xeles, y que un primer plano P y un plano posterior F son una particion de S de modo que P u F = S y P n F = 0. Si f(x) es el valor de la imagen en la localizacion del pixel x, x e S, la varianza del primer plano y el plano posterior son respectivamente:
vp = 2 (f (x) - Pp )2 (1)
xeP
VF = 2(f(x) - Pf )2 (2)
xeF
1 1
en las que pp = ----2f(x) y Pf = -----2f(x) son, respectivamente, el valor de pixel medio del primer plano y del
NP xeP NF xeF
plano posterior, y Np y Nf son, respectivamente, el numero de pfxeles en el primer plano y el plano posterior. Observese que estas varianzas pueden expresarse tambien como:
vp =2 f(x)2 - NpPp2 (3)
xeP
VF = 2 f(x)2 - NfPf2 (4)
xeF
A continuacion, se determina una particion adecuada en P y F de S, basandose al menos en parte en la minimizacion de la energfa del primer plano y/o el plano posterior (por ejemplo, varianzas) por el componente 130 de energfa de pixel (por ejemplo, que minimice la suma E = vp + vf). Sin embargo, hallar una particion adecuada en P y F de S puede ser computacionalmente intensivo dado que hay 2N mascaras posibles.
Para simplificar el calculo, la imagen del documento puede dividirse en regiones, por ejemplo regiones de dos pfxeles por dos pfxeles. Pasando brevemente a la Fig. 5, se ilustra una region de dos pfxeles por dos pfxeles de una imagen de un documento de acuerdo con un aspecto de la presente invencion. Los cuatro pfxeles tienen valores V1, V2, V3 y V4. Para cada region de dos pfxeles por dos pfxeles, hay solo 24 = 16 posibles mascaras. De acuerdo con cada una de estas regiones de dos pfxeles por dos pfxeles, es posible hallar los P y F optimos, que minimicen E = vp + vf mediante el calculo de E para todas las 16 combinaciones y utilizando aquella con la energfa mas pequena.
Sin embargo, utilizando un algoritmo de agrupamiento de K medias, en el que K=2, dado que la imagen del documento es una funcion escalar, pueden clasificarse los valores f(x) que conducen a una solucion que pueda calcularse eficientemente. Suponiendo que el orden clasificado es V1 V2 V3 V4, el algoritmo de agrupamiento de K medias, en el que K=2 conduce a tres posibles particiones:
Primer plano potencial Plano posterior potencial V1 V2 V3 V4
V1 V2 V3 V4
V1 V2 V3 V4
Puede verse que sustancialmente todas las otras combinaciones tendran energfa igual o mas alta. Esto es intuitivo dado que siempre deberia haber una agrupacion de valores contiguos que tenga una varianza mas baja que una agrupacion de valores no contiguos. Si el orden de clasificacion fuera diferente, el pixel puede siempre re- etiquetarse de modo que se clasifiquen V1 V2 V3 V4. Es entonces directo determinar cual de las tres posibles particiones de primer plano y plano posterior conducen a la energfa mas baja. Significativamente, el componente
130 de energfa de pixel puede almacenar la suma parcial 2f(x), 2f(x)2,2f(x) y/o 2f(x)2 para minimizar la
P P F F
sobrecarga computacional. Ademas, el componente 130 de energfa de p^xel puede, al menos temporalmente, almacenar al menos parte de las sumas parciales 2f(x), 2f(x)2 , 2f(x) y/o 2f(x)2 junto con Np y/o Nf (por
P P F F
ejemplo, para su uso en el componente 140 de fusion de regiones y/o el componente 150 de almacenamiento de mascara).
Ademas, para minimizar la sobrecarga computacional, puede calcularse la energfa para una region pequena (por ejemplo, cuatro pfxeles por cuatro pfxeles). Si la energfa es menor que una cantidad de umbral, todos los pfxeles pueden asignarse al primer plano o al plano posterior siendo el otro vacfo. Si la energfa es mayor a o igual que la energfa de umbral, la particion puede proseguir como se ha descrito anteriormente. Aunque esta particion pudiera no ser optima, no se observan efectos adversos si el umbral es suficientemente pequeno. Para imagenes de documento(s) relativamente limpios (por ejemplo, que tienen area(s) constante(s)), puede conseguirse un incremento significativo en la velocidad computacional.
5
10
15
20
25
30
35
40
45
50
Ademas, una(s) region(es) que es (son) sustancialmente constante(s) (por ejemplo, primer plano puro o plano posterior puro) tambien pueden fijarse despues de que se haya calculado la separacion de la mascara del primer plano y el plano posterior. Por ejemplo, si la diferencia entre el primer plano medio y el plano posterior medio es menor que un cierto umbral, que puede determinarse experimentalmente (por ejemplo puede usarse un valor de 40 en comparacion con la escala completa de niveles de gris que van de 0 a 255), la region entera se fija o bien al primer plano o bien al plano posterior (dependiendo de si la media esta mas proxima a 0 o a 255).
Volviendo a referirnos a la Fig. 1, la particion de la imagen 110 del documento en regiones de dos pfxeles por dos pfxeles puede dar como resultado regiones que tengan distintos primeros planos y planos posteriores lo que podna recoger ruido de pixel. Esto puede conducir a una mascara 120 que parezca como entremezclado que sena inconsistente con la meta de ser capaz de capturar texto y/o lmeas de graficos en la mascara 120. Por ello, el componente 140 de fusion de regiones se adapta para intentar fusionar pares de regiones de la imagen 110 del documento basandose, al menos en parte, en una determinacion de si las energfas de un primer plano y/o un plano posterior de las regiones fusionadas potenciales son menores que la primera energfa de umbral. El componente 140 de fusion de regiones puede utilizar las sumas parciales ^ f(x), ^ f(x)2 , ^ f(x) y/o ^ f(x)2 junto con Np y/o Nf
P P F F
calculados y almacenados por el componente 130 de energfa de pixel.
Despues de cada fusion, estas cantidades deban recalcularse, pero afortunadamente, esto se realiza tambien en tiempo constante solamente sumando esas cantidades de acuerdo con la combinacion primer plano y plano posterior. Tambien observese que la suma £f(x)2 en todas las regiones es constante para cada particion, y no necesita ser calculada con la finalidad de seleccionar la particion optima. Sin embargo, esta cantidad aun se necesitara para decidir cuando no fusionar regiones.
En referencia brevemente a la Fig. 6, se ilustra una fusion potencial de una primera region que tiene un primer plano P1 y un plano posterior F1 con una segunda region que tiene un primer plano P2 y un plano posterior F2. En la determinacion de si las energfas de las regiones a ser fusionadas son menores que la primera energfa de umbral, el componente 150 de fusion de regiones puede calcular agrupaciones de un nuevo primer plano y un nuevo plano posterior. Las varianzas de la energfa dentro de las dos regiones tienen siete posibles agrupaciones de un nuevo primer plano y un nuevo plano posterior:
Nuevo primer plano de region fusionada potencial Nuevo plano posterior de region fusionada potencial
P1
F1 P2 F2
P1 F1 P2
F2
P1 F2 P2
F1
P2
P1 F1 F2
P1 P2
F1F2
P1 F1
P2 F2
P1F2
P2 F1
Si al menos una de las posibles agrupaciones proporciona energfas de plano posterior y/o primer plano menores que la primera energfa de umbral, el componente 140 de fusion de regiones puede determinar una particion primer plano/plano posterior adecuada de la region fusionada, por ejemplo, basandose al menos en parte en la minimizacion de las energfas de plano posterior y primer plano (por ejemplo, E = vp + vf). Si ninguna de estas agrupaciones proporciona una energfa mas baja que la primera energfa de umbral, la fusion no tiene lugar, y estas regiones no se consideran ademas para fusion. Por defecto P1 y P2 se usaran para calcular los pfxeles del primer plano, mientras que F1 y F2 se usaran para calcular los pfxeles del plano posterior.
El componente 140 de fusion de regiones puede continuar intentando fusionar regiones mayores hasta que la primera energfa de umbral fuera superada y/o sustancialmente toda la imagen 110 del documento se haya fusionado. Por ejemplo, el componente 140 de fusion de regiones puede fusionar regiones de dos por dos horizontalmente adjuntas en una region de dos por cuatro tal como se ilustra en la Fig. 6. Posteriormente, el componente 140 de fusion de regiones puede fusionar regiones verticalmente en una region de cuatro por cuatro tal como se ilustra en la Fig. 7. En general, el primer valor de energfa de umbral puede seleccionarse para mitigar situaciones potenciales en las que las fusiones intentadas dividinan varios niveles de gris en el primer plano o en el plano posterior, con una perdida potencial de detalles importantes, tal como texto (por ejemplo, cuando hay mas de dos colores en una region). Por ejemplo, si una primera region tiene texto escrito en gris sobre blanco, y una segunda region es principalmente negra, la fusion de las dos regiones puede conducir a gris y blanco yendo al primer plano y el negro al plano posterior de la region fusionada resultante, dando como resultado una perdida de sustancialmente toda la informacion textual a partir de la mascara 120. Sin embargo, siempre que se fusionan dos colores o bien en primer plano o bien en plano posterior, tiene lugar un brusco incremento de energfa para esa region, dado que una constante ya no es un buen modelo para esta region.
Ademas, como una alternativa al calculo de la energfa resultante para sustancialmente todas las siete combinaciones, puede clasificarse la media en primeros planos y planos posteriores y puede considerarse la particion con respecto a las medias clasificadas. Como para la clasificacion de los valores V1 V2 V3 V4, esto reduce el numero de particiones a 3 (clasificar P1 F1 P2 F2 por la media y considerar las particiones con respecto al orden).
5
10
15
20
25
30
35
40
45
50
55
Adicional y/o alternativamente, el componente 120 de fusion de regiones puede evaluar un subconjunto restringido de combinaciones de primeros planos y planos posteriores de las dos regiones, basandose en una aproximacion f sobre las regiones dadas. El componente 120 de fusion de regiones puede seleccionar la combinacion con una energfa menos acumulativa.
Una vez una region ya no puede fusionarse mas debido a que dicha fusion incremental la energfa mas alla del primer umbral, los pfxeles en esta region pueden dividirse en primer plano y plano posterior. Dicha particion puede realizarse junto con cada fusion, pero esto sena computacionalmente caro. Alternativamente, el componente 140 de fusion de regiones puede calcular una media de sustancialmente todos los valores de pfxeles de la region fusionada y asignar pfxel(es) que tengan un valor mayor que la media al primer plano siendo asignados el (los) restante(s) pfxel(es) al plano posterior. Alternativamente, el (los) pfxel(es) que tengan un valor mayor que la media pueden estar asignados al plano posterior siendo asignados el (los) restante(s) pfxel(es) al primer plano.
Volviendo a referirnos a la Fig. 1, una vez se ha agotado la fusion por el componente 140 de fusion de regiones, el componente 150 de almacenamiento de mascara esta adaptado para almacenar informacion asociada con la particion del primer plano y plano posterior realizada por el componente 130 de energfa de pixel y/o el componente 140 de fusion de regiones en la mascara 120. De ese modo, la mascara 120 indica si cada pixel de la imagen 110 del documento pertenece al primer plano y/o al plano posterior.
En un ejemplo, para minimizar la sobrecarga computacional, puede calcularse la energfa para una region pequena (por ejemplo, cuatro pfxeles por cuatro pfxeles) por el componente 130 de energfa de pixel. Si la energfa es menor que una segunda energfa de umbral, sustancialmente todos los pfxeles pueden asignarse al primer plano o al plano posterior quedando el otro sustancialmente vado. Si la energfa es mayor que o igual a la segunda energfa de umbral, la particion puede proseguir como se ha descrito anteriormente. Para imagen(es) de documentos relativamente limpios (por ejemplo que tienen areas constantes), puede conseguirse un incremento significativo en la velocidad computacional.
En otro ejemplo, para minimizar el tamano de la mascara, si una region final (por ejemplo una region que no puede mezclarse sin superar el primer umbral), tiene una diferencia entre el primer plano medio y el plano posterior medio que es mas alta que un tercer umbral, toda la region se declara primer plano o se declara plano posterior, dependiendo de si la media global para la region es mayor o menor que el valor de nivel de gris medio (por ejemplo, 127 si los valores de nivel de gris estan entre 0 y 255). Para documentos en color que tienen un ligero tramado, la mascara para esta region parecena igual a entremezclado sin esta optimizacion y tendna un alto coste de compresion. El tercer umbral se elige de modo que no se pierda texto importante, y continue eliminando los muchos casos de ligero tramado vistos en documentos impresos escaneados (por ejemplo, muchas impresoras tienen solo 4 a 6 colores y deben usar un tramado para generar toda la paleta de colores). Por ejemplo, un valor de 40 puede ser una buena eleccion para el tercer umbral.
El componente 100 separador de mascara se ha descrito con relacion a la suposicion de que el primer plano y el plano posterior de la cada uno son generalmente constantes. Sin embargo, de acuerdo con un aspecto de la presente invencion, puede usarse una regresion polinomica por el componente 130 de energfa de pixel para describir el primer plano y/o el plano posterior. Por ejemplo, si los polinomios del primer plano y/o el plano posterior son planos de ecuacion ax + py + p, la energfa se definina mediante:
vp = 2(f(x, y) - apx + ppy + Pp )2
x,yeP
VF = 2(f(x,y) - aFX + pFy + Pf )2
x,yeF
en la que x, y indexan las localizaciones del pixel, y ap, pp y pp son escalares que minimizan Vp y aF, pF y Pf son escalares que minimizan vf. Tomese nota de que ap, pp y pp puedan resolverse en tiempo constante usando las cantidades J_f(x,y)2, fx,y)x, £f(x,y)y y J_f(x,y) que es un sistema lineal de tres incognitas y tres ecuaciones. Igualmente, aF, Pf y Pf puedan resolverse de una forma similar. Como se ha descrito anteriormente con relacion a un primer plano y/o plano posterior generalmente constantes, el componente 130 de energfa de pixel prosigue para calcular energfas de pixel para regiones pequenas que dividen la region en un primer plano y plano posterior basandose en la minimizacion de la energfa. Posteriormente, las regiones pequenas se intenta que sean sucesivamente fusionadas por el componente 140 de fusion de regiones basandose, al menos en parte, en la minimizacion de la energfa (E) en cada fusion intentada. Sin embargo, los primeros planos y planos posteriores no pueden clasificarse por media, y por lo tanto todas las 7 combinaciones deben comprobarse para hallar que combinacion minimiza E. Para facilitar las fusiones, las cantidades J_f(x,y)2, Y.f(x,y)x, J_f(x,y)y y J_f(x,y) y N pueden almacenarse para cada region para el primer plano y el plano posterior.
De nuevo para minimizar la sobrecarga computacional, puede calcularse la energfa para una region pequena (por ejemplo, cuatro pfxeles por cuatro pfxeles) por el componente 130 de energfa de pixel. Sin embargo, el componente 130 de energfa de pixel puede utilizar un modelo basado en una constante sobre la region y/o utilizar una regresion polinomica.
5
10
15
20
25
30
35
40
45
Adicional y/o alternativamente, el componente 110 de ene^a de p^xel puede calcular la energfa usando regresion plana. La energfa del primer plano vp y del plano posterior vf, se definen como:
vp = 2 (f (x, y) + APx + BPy + CP )2
x,yeP
Vf = 2(f(x,y) + AfX + BFy + Cf )2
x,yeF
en las que P es el primer plano, F es el plano posterior, f(x,y) es el valor del pixel en la localizacion x,y. Ademas, Ap, Bp, Cp se eligen para minimizar la ene^a del primer plano vp, y Af, Bf, Cf se eligen para minimizar la ene^a del plano posterior Vf. Por ejemplo, la minimizacion de la ene^a del primer plano vp puede obtenerse mediante la resolucion del sistema de ecuaciones (3 incognitas, 3 ecuaciones):
dvP _ dvP _ 6v p
—p = 0, —p = 0 , —p = 0 dAp dBp dCp
en la que, por ejemplo:
-f- = 2 2(f (x, y) + Apx + Bpy + Cp )x = 0
8Ap x.yep
pueden resolverse ecuaciones similares para la energfa del plano posterior Vf.
Mientras la Fig. 1 es un diagrama esquematico que ilustra componentes del componente 100 separador de mascara, se ha de apreciar que el componente 100 separador de mascara puede implementarse como uno o mas componentes, tal como se define ese termino en la presente memoria. Por ello, se ha de apreciar que los componentes ejecutables por ordenador operativos para implementar el componente 100 separador de mascara pueden almacenarse en un medio legible por ordenador que incluye, pero sin limitarse a, un ASIC (circuito integrado de aplicacion espedfica), CD (disco compacto), DVD (disco de video digital), ROM (memoria solo de lectura), disco flexible, disco duro, EEPROM (memoria solo de lectura programable y borrable electricamente) y lapices de memoria de acuerdo con la presente invencion.
A la vista de los sistemas ejemplares mostrados y descritos anteriormente, una metodologfa que puede implementarse de acuerdo con la presente invencion se apreciara mejor con referencia a los diagramas de flujo de las Figs. 8 y 9. Mientras que, por razones de simplicidad de explicacion, la metodologfa se muestra y describe como una serie de bloques, se ha de entender y apreciar que la presente invencion no esta limitada por el orden de los bloques, dado que algunos bloques pueden, de acuerdo con la presente invencion, suceder en diferentes ordenes y/o simultaneamente con otros bloques respecto a lo mostrado y descrito en la presente memoria. Mas aun, no todos los bloques ilustrados pueden requerirse para implementar una metodologfa de acuerdo con la presente invencion.
La invencion puede describirse en el contexto general de las instrucciones ejecutables por ordenador, tales como modulos de programa, ejecutados por uno o mas componentes. Generalmente, los modulos de programa incluyen rutinas, programas, objetos, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. Tfpicamente la funcionalidad de los modulos de programa puede combinarse o distribuirse segun se desee en diversas realizaciones.
Volviendo a las Figs. 8 y 9, se ilustra una metodologfa 800 para la generacion de una mascara de acuerdo con un aspecto de la presente invencion. En 810, se calcula la energfa de pixel (por ejemplo varianzas) para una region de una imagen de un documento. Por ejemplo, la energfa de pixel calculada pueden ser varianzas que pueden basarse, al menos en parte, en una regresion polinomica de la region. Ademas, las varianzas de energfa de pixel calculadas pueden calcularse utilizando un valor de pixel medio calculado para un primer plano y un valor de pixel medio calculado para un plano posterior empleando en una suma de cuadrados de distancias para sustancialmente todos los pfxeles en la region. Alternativamente, las varianzas de energfa de pixel calculadas pueden calcularse utilizando una suma de valores de pixel para un plano posterior y una suma de valores de pixel calculadas para un primer plano.
A continuacion, en 820, se calcula una particion de pfxeles para la region para minimizar la energfa de pfxeles de un primer plano y/o un plano posterior. En 830, se realiza la determinacion de si sustancialmente todas las regiones de la imagen del documento se han dividido. Si la determinacion en 830 es NO, el procesamiento continua en 810. Si la determinacion en 830 es Sf, el procesamiento continua en 840.
A continuacion, en 840, se intenta que se fusionen pares de regiones adyacentes. En 850, se realiza la determinacion de si la fusion intentada dana como resultado que se excediera una energfa de umbral en un nuevo primer plano y/o un nuevo plano posterior. Si la determinacion en 850 es Sf, el procesamiento continua en 860. Si la
5
10
15
20
25
30
35
40
45
50
55
determinacion en 850 es NO, en 870, las regiones se fusionan. En 880, se calcula una nueva particion de primer plano y plano posterior de la region fusionada. En 885, se realiza la determinacion de si se ha intentado que se fusionen sustancialmente todas las regiones de la imagen del documento. Si la determinacion en 885 es Sf, no tiene lugar ningun procesamiento adicional. Si la determinacion 885 es NO, el procesamiento continua en 840.
En 860, se realiza una determinacion de si se ha intentado que se mezclen sustancialmente todas las regiones de la imagen del documento. Si la determinacion en 860 es NO, en 890, el foco sobre las fusiones intentadas se mueve a la siguiente region sin fusionar (por ejemplo, la region de dos pfxeles por dos pfxeles). Si la determinacion en 860 es Sf, no tiene lugar ningun procesamiento adicional.
A continuacion, en referencia a la Fig. 10, se ilustra un sistema 1000 para la separacion de la imagen del documento de acuerdo con un aspecto de la presente invencion. El sistema 1000 incluye un componente 100 separador de mascara y un segmentador 160 primer plano/plano posterior. El componente 100 separador de mascara incluye un componente 130 de energfa de pixel, un componente 140 de fusion de regiones y un componente 150 de almacenamiento de mascara.
Como se ha descrito anteriormente, de acuerdo con un aspecto de la presente invencion, el componente 100 separador de mascara recibe una imagen 110 de un documento como una entrada. El componente 100 separador de mascara procesa la imagen del documento para generar una mascara 120 como una salida.
El segmentador 160 primer plano/plano posterior recibe la mascara 120 y la imagen 110 del documento como entradas. Basandose, al menos en parte, en la mascara 120, el segmentador 160 primer plano/plano posterior esta adaptado para separar la imagen 110 del documento en una imagen 170 del primer plano y una imagen 180 del plano posterior. Por ejemplo, sustancialmente el (todos los) pfxel(es) representado(s) por un “1” en la mascara 120 pueden ir a la imagen 170 del primer plano y sustancialmente el (todos los) pfxel(es) representado(s) por un “0” en la mascara 120 pueden ir a la imagen 180 del plano posterior. A la inversa, como un ejemplo, sustancialmente el (todos los) pfxel(es) representado(s) por un “0” en la mascara 120 pueden ir a la imagen 170 del primer plano y sustancialmente el (todos los) pfxel(es) representado(s) por un “1” en la mascara 120 pueden ir a la imagen 180 del plano posterior.
Por ejemplo, el componente 100 separador de mascara puede procesar una imagen 110 del documento que comprende texto mediante la separacion de pfxeles (por ejemplo, asociados con el texto) en un primer plano y almacenamiento de la informacion en relacion a que pfxeles estan en el primer plano en una mascara 120. Posteriormente, el segmentador 160 primer plano/plano posterior puede recibir la mascara 120 y la imagen 110 del documento. El segmentador 160 primer plano/plano posterior puede separar la imagen 110 del documento en la imagen 170 del primer plano y la imagen 180 del plano posterior.
Pasando a la Fig. 11, se ilustra un sistema 1100 para la compresion de imagenes de documento de acuerdo con un aspecto de la presente invencion. El sistema 1100 incluye un componente 1110 de transformacion de la imagen del documento, un componente 100 de separacion de mascara y un componente segmentador 160 primer plano/plano posterior. El segmentador 160 primer plano/plano posterior recibe la mascara 120 y la imagen 1150 del documento como entradas. Basandose, al menos en parte, en la mascara 120, el segmentador 160 primer plano/plano posterior esta adaptado para separar la imagen 1150 del documento en una imagen 170 del primer plano y una imagen 180 del plano posterior.
Como se ilustra en la Fig. 12, el sistema 1100 puede, opcionalmente, incluir un codificador 1120 de mascara, un codificador 1130 del primer plano y/o un codificador 1140 del plano posterior. El componente 100 de separacion de mascara incluye un componente 130 de energfa de pixel, un componente 140 de fusion de regiones y un componente 150 de almacenamiento de mascara. Opcionalmente, el sistema 110 puede incluir un procesador 1170 de la imagen del primer plano y/o un procesador 1180 de la imagen del plano posterior.
El componente 1110 de transformacion de la imagen del documento esta adaptado para recibir una imagen 1150 del documento y producir la salida de una representacion transformada de la imagen 1160 del documento. Por ejemplo, el componente 1110 de transformacion de la imagen del documento puede recibir una imagen del documento RGB y producir la salida de una representacion YUV de la imagen del documento RGB.
El codificador 1120 de mascara esta adaptado para codificar la mascara 120. Por ejemplo, dado que la mascara 120 es tipicamente binaria, el codificador 1120 de mascara puede utilizar una(s) tecnica(s) de compresion binaria convencional(es) para conseguir una compresion efectiva de la mascara. El codificador 1120 de mascara produce la salida de un flujo de bits de mascara.
El codificador 1130 del primer plano esta adaptado para codificar la imagen 170 del primer plano. El primer plano es una imagen compuesta de los pfxeles del primer plano, y pfxeles “no importantes” (por ejemplo, pfxeles que originalmente pertenedan al plano posterior). El procesador 1170 de la imagen del primer plano puede usarse para rellenar los pfxeles “no importantes” con valores que facilitan la compresion y proporcionan la imagen de primer plano alterada al codificador 1130 del primer plano. Por ejemplo, en el caso de que la imagen 170 del primer plano comprenda generalmente informacion textual en color negro, los pfxeles “no importantes” pueden tambien rellenarse en negro, de modo que toda la imagen del primer plano sea negra. El codificador 1130 del primer plano puede
5
10
15
20
25
30
35
40
45
50
55
utilizar una tecnica(s) de compresion efectiva(s) para compresion de imagen, tal como JPEG, ondfculas, o cualesquiera otros algoritmos de compresion de imagen. El codificador 1130 del primer plano produce la salida de un flujo de bits de primer plano.
El codificador 1140 de plano posterior esta adaptado para codificar la imagen 180 del plano posterior. El plano posterior es una imagen compuesta de los pfxeles del plano posterior, y pfxeles “no importantes” (por ejemplo, pfxeles que originalmente pertenedan al primer plano). El procesador 1180 de la imagen del plano posterior puede usarse para rellenar los pfxeles “no importantes” con valores que facilitan la compresion y proporciona la imagen del plano posterior alterada al codificador 1140 del plano posterior. Por ejemplo, en el caso de que la imagen 180 del plano posterior comprenda una pagina blanca lisa, los pfxeles “no importantes” que se localizan en donde estaba el texto pueden rellenarse con blanco, de modo que toda la imagen del plano posterior sea blanca. El codificador 1140 del plano posterior puede utilizar tecnicas de compresion efectiva para la compresion de imagen, tales como JPEG, ondfculas, o cualesquiera otros algoritmos de compresion de imagen. El codificador 1140 del plano posterior produce la salida de un flujo de bits de plano posterior.
Por ejemplo, un algoritmo simple para rellenar los pfxeles “no importantes” es procesar la imagen con un filtro paso bajo, y a continuacion restaurar los pfxeles importantes. Despues de unas pocas interacciones de estas dos etapas, los pfxeles “no importantes” acaban con valores que permiten transiciones suaves, y que se comprimiran bien. Un simple refinamiento de este algoritmo es comenzar con un filtro de paso muy bajo e incrementar la frecuencia de corte del filtro paso bajo en cada iteracion.
Ademas, el codificador 1130 del primer plano y/o el codificador 1140 del plano posterior pueden utilizar la mascara 120 para mejorar la compresion del primer plano y/o el plano posterior. Se ha de apreciar que se contemplan numerosos codificadores y/o decodificadores que utilizan una mascara que se basa, al menos en parte, en una particion de una imagen del documento basandose, al menos en parte, en la minimizacion de las varianzas de energfa de pixel de al menos uno de entre un primer plano y un plano posterior en conexion con la invencion sujeto. Cualquier codificador y/o decodificador de ese tipo adecuado para su empleo en conexion con la presente invencion se pretende que caiga dentro del alcance de las reivindicaciones adjuntas.
El flujo de bits de la mascara, el flujo de bits del primer plano y/o el flujo de bits del plano posterior pueden combinarse en un unico flujo de bits y/o enviarse individualmente a, por ejemplo, un sistema de decodificacion (no mostrado). El sistema de decodificacion puede decodificar el flujo de bits de la mascara para obtener la mascara 120. Alternativamente, el sistema de decodificacion puede recibir la mascara 120. El sistema de decodificacion puede utilizar la mascara 120 para recombinar el flujo de bits del primer plano y/o el flujo de bits del plano posterior en una imagen del documento.
Se ha de apreciar que el sistema y/o procedimiento de la presente invencion pueden utilizarse en un sistema de imagen en capas segmentado global que facilita la identificacion y/o compresion de texto, escritura manual, dibujos y similares. Ademas, los expertos en la materia reconoceran que el sistema y/o procedimiento de la presente invencion puede emplearse en una amplia variedad de aplicaciones de imagenes de documentos, incluyendo, pero sin limitarse a, fotocopiadoras, escaneres de documentos, sistemas de reconocimiento optico de caracteres, PDA, maquinas de fax, camaras digitales, camaras de video digital y/o sistemas de videojuegos.
Pasando a la Fig. 13, se ilustra un sistema 1300 de imagen segmentada en capas. El sistema 1300 incluye un componente 130 de energfa de pixel y un componente 150 de almacenamiento de mascara.
El componente 130 de energfa de pixel esta adaptado para calcular las varianzas de energfa de pixel para una region de una imagen del documento. Ademas, el componente 130 de energfa de pixel esta adaptado ademas para calcular una particion de la region basandose al menos en parte, en la minimizacion de la energfa de pixel (por ejemplo, varianzas) de al menos uno de entre un primer plano y un plano posterior.
El componente 150 de almacenamiento de mascara esta adaptado para almacenar informacion asociada con la particion en una mascara. Por ejemplo, el sistema 1300 puede emplearse en una amplia variedad de aplicaciones de imagenes de documentos, que incluyen, pero sin limitarse a, fotocopiadoras, escaneres de documentos, sistemas de reconocimiento optico de caracteres, PDA, maquinas de fax, camaras digitales, camaras de video digital y/o sistemas de videojuegos.
Para proporcionar un contexto adicional para varios aspectos de la presente invencion, la Fig. 14 y la explicacion a continuacion se pretende que proporcionen una descripcion breve, general de un posible entorno 1410 informatico adecuado en el que pueden implementarse varios aspectos de la presente invencion. Se ha de apreciar que el entorno 1410 informatico no es mas que un posible entorno informatico y no se pretende que lfmite los entornos informaticos en los que puede emplearse la presente invencion. Aunque la invencion se ha descrito anteriormente en el contexto general de instrucciones ejecutables por ordenador que pueden ejecutarse sobre uno o mas ordenadores, se ha de reconocer que la invencion tambien puede implementarse en combinacion con otros modulos de programa y/o como una combinacion de hardware y software. Generalmente, los modulos de programa incluyen rutinas, programas, componentes, estructuras de datos, etc., que realizan tareas particulares o implementan tipos de datos abstractos particulares. Mas aun, se apreciara que los procedimientos inventivos pueden ponerse en practica
5
10
15
20
25
30
35
40
45
50
55
60
con otras configuraciones de sistemas de ordenador, incluyendo sistemas de ordenador de procesador unico o multiprocesador, miniordenadores, ordenadores centrales, as^ como ordenadores personales, y dispositivos de calculo portatiles, electronica de consumo basada en microprocesador o programable y similares, cada uno de los cuales puede acoplarse operativamente a uno o mas dispositivos asociados. Los aspectos ilustrados de la invencion pueden tambien ponerse en practica en entornos de calculo distribuido en donde ciertas tareas se realizan mediante dispositivos de procesamiento remoto que se enlazan a traves de una red de comunicaciones. En un entorno de calculo distribuido, los modulos de programa pueden localizarse en dispositivos de almacenamiento de memoria tanto locales como remotos.
La Fig. 14 ilustra una posible configuracion de hardware para soportar los sistemas y procedimientos descritos en la presente memoria. Se ha de apreciar lo que se ilustra una estructura independiente, que puede emplearse en cualquier entorno informatico adecuado de acuerdo con la presente invencion. Por ejemplo, pueden emplearse de acuerdo con la presente invencion arquitecturas de calculo que incluyen, pero sin limitarse a, independiente, multiprocesador, distribuida, cliente/servidor, miniordenador, ordenador central, superordenador, digitales y analogicas.
Con referencia a la Fig. 14, un entorno 1410 de ejemplo para la implementacion de diversos aspectos de la invencion incluye un ordenador 1412, que incluye una unidad 1414 de procesamiento, una memoria 1416 del sistema y un bus 1418 del sistema que conecta diversos componentes del sistema incluyendo la memoria del sistema a la unidad 1414 de procesamiento. La unidad 1414 de procesamiento puede ser cualquiera de diversos procesadores comercialmente disponibles. Tambien pueden usarse microprocesadores dobles y otras arquitecturas multiprocesador como la unidad 1414 de procesamiento.
El bus 1418 del sistema puede ser cualquiera de diversos tipos de estructuras de bus que incluyen un bus de memoria o controlador de memoria, un bus periferico, y un bus local que usan cualquiera de una variedad de arquitecturas de bus comercialmente disponibles. La memoria 1416 del ordenador incluye memoria 1420 solo de lectura (ROM), y memoria 1422 de acceso aleatorio (RAM). Se almacena en la rOm 1420 un sistema de entrada/salida basico (BIOS), que contiene las rutinas basicas que ayudan a transferir informacion entre elementos dentro del ordenador 1412, tal como durante el arranque.
El ordenador 1412 puede incluir ademas una unidad 1424 de disco duro, una unidad 1426 de disco magnetico, por ejemplo, para leer desde o escribir a un disco 1428 extrafble, y una unidad 1430 de disco optico, por ejemplo, para lectura de un disco 1432 CD ROM o para ver desde o escribir en otros medios opticos. La unidad 1424 de disco duro, la unidad 1426 de disco magnetico y la unidad 1430 de disco optico se conectan al bus 1418 del sistema mediante una interfaz 1434 de unidad de disco duro, una interfaz 1436 de unidad de disco magnetico y una interfaz 1438 de unidad optica, respectivamente. El ordenador 1412 incluye tfpicamente al menos alguna forma de medio legible por ordenador. Un medio legible por ordenador puede ser cualquier medio disponible al que pueda accederse por parte del ordenador 1412. A modo de ejemplo, y no de limitacion, un medio legible por ordenador pueden comprender medios de almacenamiento informatico y medios de comunicacion. El medio de almacenamiento informativo incluye medios volatiles y no volatiles, extrafbles y no extrafbles implementados en cualquier procedimiento o tecnologfa para almacenamiento de informacion tales como instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos. Los medios de almacenamiento informatico incluyen, pero sin limitarse a, RAM, ROM, EEPROM, memoria flash u otra tecnologfa de memoria, CD ROM, discos versatiles digitales (DVD) u otros dispositivos de almacenamiento magnetico, o cualquier otro medio que pueda usarse para almacenar la informacion deseada y a la que pueda accederse por parte del ordenador 1412. El medio de comunicacion incluye tfpicamente instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos en una senal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de informacion. La expresion “senal de datos modulada” significa una senal que tiene una o mas de sus caractensticas ajustadas o cambiadas de tal manera que codifique informaciones de la senal. A modo de ejemplo, y no de limitacion, los medios de comunicacion incluyen medios cableados tales como una red cableada o conexion directa por cable, y medios inalambricos tal como acusticos, de RF, infrarrojos y otros medios inalambricos. Las combinaciones de cualquiera de los anteriores debenan tambien incluirse dentro del alcance de los medios legibles por ordenador.
Un cierto numero de modulos de programa puede almacenarse en las unidades y en RAM 1422, incluyendo un sistema operativo 1440, uno o mas programas 1442 de aplicacion, otros modulos 1444 de programas, y datos 1446 no de interrupcion de programas. El sistema operativo 1440 en el ordenador 1412 puede ser cualquiera de un cierto numero de sistemas operativos disponibles comercialmente.
Un usuario puede introducir ordenes e informacion dentro del ordenador 1412 a traves de un teclado 1448 y dispositivo de puntero tal como un raton 1450. Otros dispositivos de entrada (no mostrados) pueden incluir un microfono, un control remoto por IR, una palanca de juegos, una alfombrilla de juegos, una antena de satelite, un escaner o similares. Estos y otros dispositivos de entrada se acoplan frecuentemente a la unidad 1414 de procesamiento a traves de una interfaz 1452 de puerto serie que se acopla al bus 1418 del sistema, pero que puede conectarse mediante otras interfaces, tales como un puerto paralelo, un puerto de juegos, un bus serie universal (“USB”), una interfaz de IR, etc. Un monitor 1454, u otro tipo de dispositivo de visualizacion, se conectan tambien al bus 1418 del sistema mediante una interfaz, tal como un adaptador 1456 de video. Ademas del monitor, un
5
10
15
20
25
30
35
40
ordenador incluye tipicamente otros dispositivos de salida perifericos (no mostrados), tales como altavoces, impresoras, etc.
El ordenador 1412 puede operar en un entorno de red usando conexiones logicas y/o ffsicas a uno o mas ordenadores remotos, tal como un ordenador 1458 remoto. El ordenador 1458 remoto puede ser una estacion de trabajo, un ordenador servidor, un enrutador, un ordenador personal, una aplicacion de diversion basada en microprocesador, un dispositivo parejo u otro nodo de red comun, e incluye tipicamente muchos o todos los elementos descritos con relacion al ordenador 1412, aunque, por razones de brevedad, solo se ilustra un dispositivo 1460 de almacenamiento de memoria. Las conexiones logicas representadas incluyen una red 1462 de area local (LAN) y una red 1464 de area grande (WAN). Dichos entornos de red son comunes en oficinas, redes de ordenadores de ambito de empresa, intranets y la Internet.
Cuando se usa en un entorno de red LAN, el ordenador 1412 se conecta a la red 1462 local a traves de una interfaz o adaptador 1466 de red. Cuando se usa en un entorno de red WAN, el ordenador 1412 incluye tfpicamente un modem 1468, o se conecta a un servidor de comunicaciones sobre la LAN, o tiene otros medios para el establecimiento de comunicaciones sobre la WAN 1464, tal como la Internet. El modo en 1468, que puede ser interno o externo, se conecta al bus 1418 del sistema a traves de la interfaz 1452 de puerto serie. En un entorno en red, los modulos de programas representados con relacion al ordenador 1412, o partes de los mismos, pueden almacenarse en el dispositivo 1460 de almacenamiento de memoria remoto. Se apreciara que las conexiones de red mostradas son ejemplares y que pueden usarse otros medios de establecimiento de un enlace de comunicaciones entre los ordenadores.
La Fig. 15 es un diagrama de bloques esquematico de un entorno 1500 informatico de muestra con el que puede interactuar la presente invencion. El sistema 1500 incluye uno o mas cliente(s) 1510. El (los) cliente(s) 1510 pueden ser hardware y/o software (por ejemplo, hilos, procesos, dispositivos de calculo). El sistema 1500 incluye tambien uno o mas servidor(es) 1530. El (los) servidor(es) 1530 pueden ser hardware y/o software (por ejemplo, hilos, procesos, dispositivos de calculo). El (los) servidor(es) 1530 pueden alojar hilos para realizar transformaciones mediante el empleo de la presente invencion, por ejemplo. Una comunicacion posible entre un cliente 1510 y servidor 1530 puede estar en la forma de un paquete de datos adaptado para ser transmitido entre dos o mas procesos de ordenador. El sistema 1500 incluye una estructura 1550 de comunicacion que puede emplearse para facilitar las comunicaciones entre el (los) cliente(s) 1510 y el (los) servidor(es) 1530. El (los) cliente(s) 1510 se conecta(n) operativamente a uno o mas almacen(es) 1560 de datos de cliente que pueden emplearse para almacenar informacion local para el (los) cliente(s) 1510. De modo similar, el (los) servidor(es) 1530 se conecta(n) operativamente a uno o mas almacen(es) 1540 de datos de servidor(es) que pueden emplearse para almacenar informacion local para los servidores 1530.
Lo que se ha descrito anteriormente incluye ejemplos de la presente invencion. No es posible, naturalmente, describir cada combinacion de componentes o metodologfas concebible para las finalidades de descripcion de la presente invencion, pero un experto en la materia reconocera que son posibles muchas combinaciones y permutaciones adicionales de la presente invencion. Ademas, en el grado en el que se usa el termino “incluye” en cualquier de entre la descripcion detallada o en las reivindicaciones, dicho termino se pretende que sea inclusivo en una manera similar al termino “comprendiendo” dado que “comprendiendo” se interpreta cuando se emplea como una palabra transitoria en una reivindicacion.

Claims (32)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    REIVINDICACIONES
    1. Un componente (100) separador de mascara, que comprende:
    un componente (130) de energfa de p^xel adaptado para calcular la energfa de pixel para una region de una imagen (110) de un documento, adaptado ademas el componente de energfa de p^xel para calcular una particion de la region basandose al menos en parte en la energfa de pixel de al menos uno de entre un primer plano y un plano posterior;
    caracterizado porque comprende ademas:
    un componente (140) de fusion de regiones adaptado para fusionar pares de regiones adyacentes de la imagen del documento basandose al menos en parte en la determinacion de si las energfas de un primer plano y/o un plano posterior de las regiones fusionadas potenciales son menores que una primera energfa de umbral, estando adaptado ademas el componente de fusion para dividir la region fusionada en un nuevo primer plano y nuevo plano posterior; y,
    un componente (150) de almacenamiento de mascara adaptado para almacenar informacion asociada con la particion en una mascara (120).
  2. 2. El componente (100) separador de mascara de la reivindicacion 1, adaptado ademas el componente de energfa de pixel para calcular una particion de la region basandose al menos en parte en la minimizacion de la energfa de pixel de al menos uno de entre un primer plano y un plano posterior; y/o
    comprendiendo la imagen (110) del documento al menos una de entre una representacion YUV, RGB y binaria de un documento.
  3. 3. El componente (100) separador de mascara de la reivindicacion 1, siendo la mascara (120) una representacion binaria de informacion asociada con la particion del primer plano y el plano posterior.
  4. 4. El componente (100) separador de mascara de la reivindicacion 1, calculando el componente (130) de energfa de pixel varianzas de energfa de pixel para una region utilizando al menos en parte un algoritmo de agrupamiento de K medias, en el que K=2.
  5. 5. El componente (100) separador de mascara de la reivindicacion 1, calculando el componente (130) de energfa de pixel varianzas de energfa utilizando las ecuaciones:
    vp = 2 f (x) - Vp )2
    xeP
    Vf = 2(f(x) - Vf )2
    xeF
    en las que P es el primer plano,
    F es el plano posterior, f(x) es el valor del pixel,
    1
    Vp =----2f(x) es el valor de pixel medio del primer plano,
    NP xeP 1
    Vf =----2f(x) es el valor de pixel medio del plano posterior,
    Np es el numero de pfxeles en el primer plano, y Nf es el numero de pfxeles en el plano posterior para el calculo de las varianzas de energfa de pixel de la region.
  6. 6. El componente (100) separador de mascara de la reivindicacion 1, almacenando el componente (130) de energfa de pixel, al menos temporalmente, al menos algo de la informacion asociada con el calculo de la energfa de pixel.
  7. 7. El componente (100) separador de mascara de la reivindicacion 1, calculando el componente (130) de energfa de pixel la energfa de pixel para la region basandose al menos en parte en una regresion polinomica de la region.
  8. 8. El componente (100) separador de mascara de la reivindicacion 1, basandose la particion del componente (140) de fusion de regiones al menos en parte en una media de los valores de pixel de la region fusionada.
  9. 9. El componente (100) separador de mascara de la reivindicacion 8, siendo asignado un valor de pixel mayor que la media al primer plano.
  10. 10. El componente (100) separador de mascara de la reivindicacion 8, siendo asignado un valor de pixel mayor que la media al plano posterior.
  11. 11. El componente (100) separador de mascara de la reivindicacion 1, siendo la imagen (110) del documento una
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    representacion YUV y utilizando el componente de ene^a de p^xel al menos el componente Y en el calculo de la ene^a de p^xel.
  12. 12. Un procedimiento de generacion de una mascara (120) que divide una imagen (110) del documento en un plano posterior y un primer plano, que comprende:
    calcular la energfa de pixel para una region (810) de la imagen (110) del documento;
    dividir la region basandose al menos en parte en la energfa de pixel calculado de al menos uno de entre un primer plano y un plano posterior de la region; caracterizado porque comprende:
    fusionar pares adyacentes de regiones (870) tras una determinacion de si las energfas de un primer plano y/o un plano posterior de las regiones fusionadas potenciales son menores que una primera energfa de umbral; dividir (880) la region fusionada en un nuevo primer plano y un nuevo plano posterior; y almacenar la informacion de particion en una mascara.
  13. 13. El procedimiento de la reivindicacion 12, comprendiendo ademas el calculo de la energfa de pixel para una region:
    calcular una suma de valores de pixel para un primer plano; calcular una suma de valores de pixel para un plano posterior; y
    calcular la suma de cuadrados de distancias para sustancialmente todos los pfxeles en la region.
  14. 14. El procedimiento de la reivindicacion 12, basandose el calculo de la energfa de pixel para una region, al menos en parte, en una regresion polinomica de la region.
  15. 15. El procedimiento de la reivindicacion 12, comprendiendo la particion de la region ademas minimizar la energfa de pixel de al menos uno de entre un primer plano y un plano posterior.
  16. 16. Procedimiento de la reivindicacion 12, comprendiendo ademas la particion de la region fusionada el calculo de una media de valores de pixel de la region fusionada.
  17. 17. Procedimiento de la reivindicacion 12, comprendiendo ademas la particion de la region fusionada las siguientes actuaciones:
    calcular un valor de pixel medio del primer plano de la region fusionada; calcular un valor de pixel medio del plano posterior de la region fusionada;
    asignar pfxeles a uno de entre un primer plano y un plano posterior si la diferencia entre el valor de pixel medio del primer plano y el valor de pixel medio del plano posterior es mayor que un tercer umbral.
  18. 18. El procedimiento de la reivindicacion 12, comprendiendo ademas la particion de la region las siguientes actuaciones:
    calcular la energfa para la region; y
    asignar pfxeles de la region a uno de entre el primer plano y el plano posterior si la energfa es menor que una segunda energfa de umbral;
  19. 19. Un sistema (1000) de compresion de imagenes de documento, que comprende:
    un componente de transformacion del documento adaptado para recibir una imagen (110) del documento y producir la salida de una representacion transformada de la imagen del documento; y el componente (100) de separador de mascara de la reivindicacion 1.
  20. 20. El sistema (1000) de compresion de imagenes de documento de la reivindicacion 19, que comprende ademas un componente (160) segmentador de primer plano/plano posterior adaptado para separar la representacion transformada en una imagen (170) del primer plano y una imagen (180) del plano posterior basandose, al menos en parte, en informacion almacenada en la mascara (120).
  21. 21. El sistema (1000) de compresion de imagenes de documento de la reivindicacion 19 que comprende ademas al menos uno de entre un codificador del primer plano, un codificador del plano posterior y un codificador de la mascara.
  22. 22. El sistema (1000) de compresion de imagenes de documento de la reivindicacion 19, estando adaptado el componente de transformacion del documento para recibir una imagen (110) del documento en RGB y producir la salida de una representacion YUV de la imagen del documento RGB.
  23. 23. Un medio legible por ordenador que tiene componentes utilizables por ordenador adaptados para implementar el componente (100) separador de mascara de la reivindicacion 1.
    5
    10
    15
    20
    25
    30
    35
  24. 24. El componente (100) separador de mascara de la reivindicacion 1 que comprende ademas:
    medios para calcular una particion de la region basandose, al menos en parte, en la minimizacion de la ene^a de al menos uno de dos planos; y
    medios para la particion de pfxeles de las regiones en un primer plano y un plano posterior basandose, al menos en parte, en la que minimizar la energfa de los pfxeles que comprende al menos uno de entre el primer plano y el plano posterior.
  25. 25. Una fotocopiadora que emplea uno o mas de lo siguiente:
    un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
  26. 26. Un escaner de documentos que emplea uno o mas de lo siguiente:
    un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
  27. 27. Un sistema de reconocimiento optico de caracteres que emplea uno o mas de lo siguiente:
    un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
  28. 28. Un asistente digital personal uno o mas de lo siguiente:
    un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
  29. 29. Una maquina de fax que emplea uno o mas de lo siguiente:
    un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
  30. 30. Una camara digital que emplea uno o mas de lo siguiente:
    un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
  31. 31. Una camara de video digital que emplea uno o mas de lo siguiente:
    un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
  32. 32. Un sistema de video juegos que emplea uno o mas de lo siguiente:
    un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
ES03005431.6T 2002-04-25 2003-03-13 Sistema y procedimiento para facilitar la compresión de imágenes de documento utilizando una máscara Expired - Lifetime ES2600756T3 (es)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US10/133,939 US7392472B2 (en) 2002-04-25 2002-04-25 Layout analysis
US10/133,558 US7164797B2 (en) 2002-04-25 2002-04-25 Clustering
US10/133,842 US7263227B2 (en) 2002-04-25 2002-04-25 Activity detector
US133939 2002-04-25
US133842 2002-04-25
US133558 2002-04-25
US180771 2002-06-26
US10/180,771 US7110596B2 (en) 2002-04-25 2002-06-26 System and method facilitating document image compression utilizing a mask

Publications (1)

Publication Number Publication Date
ES2600756T3 true ES2600756T3 (es) 2017-02-10

Family

ID=29554396

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03005431.6T Expired - Lifetime ES2600756T3 (es) 2002-04-25 2003-03-13 Sistema y procedimiento para facilitar la compresión de imágenes de documento utilizando una máscara

Country Status (7)

Country Link
US (2) US7110596B2 (es)
EP (1) EP1388816B1 (es)
JP (1) JP4295537B2 (es)
KR (1) KR100937543B1 (es)
CN (1) CN100470593C (es)
ES (1) ES2600756T3 (es)
TW (1) TWI244051B (es)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7110596B2 (en) * 2002-04-25 2006-09-19 Microsoft Corporation System and method facilitating document image compression utilizing a mask
US20040233477A1 (en) * 2003-05-21 2004-11-25 International Business Machines Corporation Digital halftoning
JP3738291B2 (ja) * 2003-06-09 2006-01-25 住友大阪セメント株式会社 三次元形状測定装置
US7202872B2 (en) * 2003-10-29 2007-04-10 Via Technologies, Inc. Apparatus for compressing data in a bit stream or bit pattern
FR2864857B1 (fr) * 2004-01-05 2006-03-03 Canon Kk Procede et dispositif d'optimisation de la taille d'un document numerique
US6992686B2 (en) * 2004-06-14 2006-01-31 Xerox Corporation System and method for dynamic control of file size
US8442311B1 (en) 2005-06-30 2013-05-14 Teradici Corporation Apparatus and method for encoding an image generated in part by graphical commands
US7782339B1 (en) 2004-06-30 2010-08-24 Teradici Corporation Method and apparatus for generating masks for a multi-layer image decomposition
US7616341B2 (en) * 2004-07-12 2009-11-10 Toshiba Corporation System and method for metadata controlled multi-configured halftone screening
AU2004242419A1 (en) * 2004-12-21 2006-07-06 Canon Kabushiki Kaisha Analysing digital image of a document page
KR100599141B1 (ko) * 2005-05-20 2006-07-12 삼성전자주식회사 문서 압축시스템 및 그 압축방법
US7567254B2 (en) * 2005-06-30 2009-07-28 Microsoft Corporation Parallel texture synthesis having controllable jitter
KR100708180B1 (ko) * 2005-09-22 2007-04-17 삼성전자주식회사 화상 압축 장치 및 방법
DE102006010763A1 (de) * 2006-03-08 2007-09-13 Netviewer Gmbh Hybrides Bildkompressionsverfahren
JP4764231B2 (ja) 2006-03-31 2011-08-31 キヤノン株式会社 画像処理装置、制御方法、コンピュータプログラム
US8004536B2 (en) * 2006-12-01 2011-08-23 Adobe Systems Incorporated Coherent image selection and modification
US8175409B1 (en) 2006-12-01 2012-05-08 Adobe Systems Incorporated Coherent image selection and modification
US7899247B2 (en) * 2007-01-24 2011-03-01 Samsung Electronics Co., Ltd. Apparatus and method of segmenting an image according to a cost function and/or feature vector and/or receiving a signal representing the segmented image in an image coding and/or decoding system
US7929729B2 (en) * 2007-04-02 2011-04-19 Industrial Technology Research Institute Image processing methods
KR101366596B1 (ko) 2007-08-03 2014-03-14 삼성전자주식회사 이차원 정지 화상에 대해 몰입감을 생성하는 방법 및시스템 그리고 상기 몰입감 생성을 위한 팩터 조절 방법,이미지 콘텐트 분석 방법 및 스케일링 파라미터 예측 방법
US7907778B2 (en) * 2007-08-13 2011-03-15 Seiko Epson Corporation Segmentation-based image labeling
US8391638B2 (en) 2008-06-04 2013-03-05 Microsoft Corporation Hybrid image format
US8204964B2 (en) 2008-08-06 2012-06-19 Microsoft Corporation Efficient size optimization of visual information or auditory information
US9355469B2 (en) 2009-01-09 2016-05-31 Adobe Systems Incorporated Mode-based graphical editing
CN101510304B (zh) * 2009-03-30 2014-05-21 北京中星微电子有限公司 一种分割获取前景图像的方法、装置和摄像头
EP2406953B1 (en) * 2009-06-22 2015-06-10 Sony Corporation A method of compression of graphics images and videos
JP2011013898A (ja) * 2009-07-01 2011-01-20 Canon Inc 画像処理装置、画像処理方法、及び、プログラム
KR101289514B1 (ko) * 2009-09-09 2013-07-25 소니 주식회사 인코딩 방법 및 인코더 장치
CN102725773B (zh) * 2009-12-02 2015-12-02 惠普发展公司,有限责任合伙企业 数字化图像的前景背景分割的系统与方法
US8582906B2 (en) * 2010-03-03 2013-11-12 Aod Technology Marketing, Llc Image data compression and decompression
CN102006473B (zh) * 2010-11-18 2013-03-13 无锡中星微电子有限公司 视频编码器和编码方法以及视频解码器和解码方法
US8965140B1 (en) * 2011-01-31 2015-02-24 Teradici Corporation Method and apparatus for encoding mixed content image sequences
US8891894B2 (en) * 2011-09-30 2014-11-18 Apple Inc. Psychovisual image compression
CN102890827B (zh) * 2011-10-09 2015-05-13 北京多看科技有限公司 一种扫描版文档重排版的方法
TWI479448B (zh) * 2012-07-06 2015-04-01 Univ Nat Taiwan 影像前處理方法及系統
US9460365B1 (en) * 2015-03-24 2016-10-04 Intel Corporation Clustered palette compression
US10303498B2 (en) 2015-10-01 2019-05-28 Microsoft Technology Licensing, Llc Performance optimizations for emulators
US10922537B2 (en) * 2018-05-01 2021-02-16 Scribe Fusion, LLC System and method for processing and identifying content in form documents
CN108924557B (zh) * 2018-06-11 2022-02-08 海信视像科技股份有限公司 图像处理方法、装置、电子设备及存储介质
WO2020033967A1 (en) * 2018-08-10 2020-02-13 Buffalo Automation Group Inc. Training a deep learning system for maritime applications
CN111652144B (zh) * 2020-06-03 2023-09-26 广东小天才科技有限公司 基于目标区域融合的题目分割方法、装置、设备和介质
US11042422B1 (en) 2020-08-31 2021-06-22 Microsoft Technology Licensing, Llc Hybrid binaries supporting code stream folding
US11403100B2 (en) 2020-08-31 2022-08-02 Microsoft Technology Licensing, Llc Dual architecture function pointers having consistent reference addresses
US11231918B1 (en) 2020-08-31 2022-01-25 Microsoft Technologly Licensing, LLC Native emulation compatible application binary interface for supporting emulation of foreign code
KR20210152992A (ko) * 2020-12-04 2021-12-16 한국전자통신연구원 이진 마스크를 사용하는 영상 인코딩/디코딩을 위한 방법, 장치 및 기록 매체
KR102595278B1 (ko) 2020-12-29 2023-10-27 부산대학교 산학협력단 표면결함검출 스캐너를 위한 이미지 데이터 저장 장치 및 방법

Family Cites Families (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3606546A (en) * 1969-05-13 1971-09-20 Dennison Mfg Co Photocopier
US3719922A (en) * 1971-06-24 1973-03-06 L Lopes Digital camera
FR2171518A5 (es) * 1972-02-03 1973-09-21 Labo Electronique Physique
US4606069A (en) * 1983-06-10 1986-08-12 At&T Bell Laboratories Apparatus and method for compression of facsimile information by pattern matching
JPS60254871A (ja) 1984-05-31 1985-12-16 Kokusai Denshin Denwa Co Ltd <Kdd> フアクシミリ画像の符号化方法
US4754492A (en) * 1985-06-03 1988-06-28 Picturetel Corporation Method and system for adapting a digitized signal processing system for block processing with minimal blocking artifacts
US5077807A (en) * 1985-10-10 1991-12-31 Palantir Corp. Preprocessing means for use in a pattern classification system
GB8525509D0 (en) 1985-10-16 1985-11-20 Int Computers Ltd Symbol pattern matching
DE3583040D1 (de) * 1985-12-17 1991-07-04 Ibm Bild-vorverarbeitungsverfahren zur rauschentfernung.
JP2675303B2 (ja) 1987-04-28 1997-11-12 キヤノン株式会社 文字認識方法
JPH0816918B2 (ja) 1989-04-18 1996-02-21 シャープ株式会社 行抽出方法
US4924494A (en) * 1989-05-05 1990-05-08 Copam Electronics Corp. Fax machine equipped for simultaneous transmission and reception via two telephone lines
JPH0318986A (ja) 1989-06-15 1991-01-28 Ricoh Co Ltd 文字認識装置
JPH0832085B2 (ja) * 1989-10-18 1996-03-27 松下電器産業株式会社 表示機能付き選択呼出受信装置
US5129014A (en) * 1989-12-08 1992-07-07 Xerox Corporation Image registration
JP2612383B2 (ja) 1991-02-19 1997-05-21 株式会社ピーエフユー 文字認識処理方式
JPH05189617A (ja) * 1991-04-15 1993-07-30 Microsoft Corp 手書き文字認識に於けるアークのセグメント化の方法と装置
JPH06507743A (ja) * 1991-05-21 1994-09-01 ケンブリッジ アニメーション システムズ リミテッド 画像合成及び処理
US5434953A (en) * 1992-03-20 1995-07-18 Xerox Corporation Use of fast textured reduction for discrimination of document image components
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5454047A (en) * 1992-05-15 1995-09-26 Hughes Aircraft Company Optical method and system for generating expansion coefficients for an image processing function
US5721788A (en) * 1992-07-31 1998-02-24 Corbis Corporation Method and system for digital image signatures
US5402146A (en) * 1992-10-23 1995-03-28 International Business Machines Corporation System and method for video compression with artifact dispersion control
US5991515A (en) * 1992-11-10 1999-11-23 Adobe Systems Incorporated Method and apparatus for compressing and decompressing data prior to display
JP3422541B2 (ja) 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法
US5384864A (en) 1993-04-19 1995-01-24 Xerox Corporation Method and apparatus for automatic determination of text line, word and character cell spatial features
JP3037432B2 (ja) * 1993-11-01 2000-04-24 カドラックス・インク 光波オーブンによる食物調理方法および調理装置
US5572604A (en) * 1993-11-22 1996-11-05 Lucent Technologies Inc. Method for pattern recognition using prototype transformations and hierarchical filtering
US5640468A (en) * 1994-04-28 1997-06-17 Hsu; Shin-Yi Method for identifying objects and features in an image
US6137908A (en) * 1994-06-29 2000-10-24 Microsoft Corporation Handwriting recognition system simultaneously considering shape and context information
JP2630923B2 (ja) * 1994-12-05 1997-07-16 日本アイ・ビー・エム株式会社 画像認識方法及び装置
US5737455A (en) * 1994-12-12 1998-04-07 Xerox Corporation Antialiasing with grey masking techniques
DE4445386C1 (de) * 1994-12-20 1996-05-02 Ibm Verfahren und Vorrichtung zur Trennung einer Vordergrundinformation von einer Hintergrundinformation in einer Vorlage
US5572565A (en) * 1994-12-30 1996-11-05 Philips Electronics North America Corporation Automatic segmentation, skinline and nipple detection in digital mammograms
JP3640318B2 (ja) * 1995-09-01 2005-04-20 インターナショナル・ビジネス・マシーンズ・コーポレーション ディジタル画像の符号化方法及びシステム
JP2761467B2 (ja) * 1995-03-29 1998-06-04 インターナショナル・ビジネス・マシーンズ・コーポレイション 画像切り出し装置及び文字認識装置
US5689585A (en) 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
US5883986A (en) 1995-06-02 1999-03-16 Xerox Corporation Method and system for automatic transcription correction
US5915044A (en) * 1995-09-29 1999-06-22 Intel Corporation Encoding video images using foreground/background segmentation
US5574511A (en) * 1995-10-18 1996-11-12 Polaroid Corporation Background replacement for an image
US6094506A (en) * 1995-10-25 2000-07-25 Microsoft Corporation Automatic generation of probability tables for handwriting recognition systems
US6272253B1 (en) * 1995-10-27 2001-08-07 Texas Instruments Incorporated Content-based video compression
JP3756580B2 (ja) * 1995-11-07 2006-03-15 セイコープレシジョン株式会社 多層基板の製造方法及びその製造装置
US5828771A (en) * 1995-12-15 1998-10-27 Xerox Corporation Method and article of manufacture for determining whether a scanned image is an original image or fax image
JP2958396B2 (ja) * 1995-12-20 1999-10-06 富士ゼロックス株式会社 画像形成装置
US5910805A (en) * 1996-01-11 1999-06-08 Oclc Online Computer Library Center Method for displaying bitmap derived text at a display having limited pixel-to-pixel spacing resolution
US6345119B1 (en) * 1996-02-19 2002-02-05 Fujitsu Limited Handwritten character recognition apparatus and method using a clustering algorithm
US6901153B1 (en) * 1996-03-14 2005-05-31 Ati Technologies Inc. Hybrid software/hardware video decoder for personal computer
US5805739A (en) * 1996-04-02 1998-09-08 Picturetel Corporation Lapped orthogonal vector quantization
DE19615493A1 (de) 1996-04-19 1997-10-23 Philips Patentverwaltung Verfahren zur Bildsegmentierung
US6310972B1 (en) * 1996-06-28 2001-10-30 Competitive Technologies Of Pa, Inc. Shape adaptive technique for image and video compression
US5914748A (en) * 1996-08-30 1999-06-22 Eastman Kodak Company Method and apparatus for generating a composite image using the difference of two images
US5778092A (en) * 1996-12-20 1998-07-07 Xerox Corporation Method and apparatus for compressing color or gray scale documents
US5917964A (en) * 1996-12-23 1999-06-29 Lg Electronics, Inc. Method and apparatus for pre-processing image data of encoders
JP2836681B2 (ja) 1997-01-14 1998-12-14 日本電気株式会社 パタンマッチング符号化方法及び符号化装置
US5960111A (en) * 1997-02-10 1999-09-28 At&T Corp Method and apparatus for segmenting images prior to coding
US6108446A (en) * 1997-02-18 2000-08-22 Hoshen; Joseph Method and apparatus for extracting cluster shape features from digital images
US6321243B1 (en) * 1997-06-27 2001-11-20 Microsoft Corporation Laying out a paragraph by defining all the characters as a single text run by substituting, and then positioning the glyphs
US6108444A (en) 1997-09-29 2000-08-22 Xerox Corporation Method of grouping handwritten word segments in handwritten document images
US5917951A (en) * 1997-10-03 1999-06-29 International Business Machines Corporation Clustered aperiodic mask
US6118890A (en) * 1997-11-12 2000-09-12 International Business Machines Corporation System and method for broad classification of biometric patterns
US6020972A (en) 1997-11-14 2000-02-01 Xerox Corporation System for performing collective symbol-based compression of a corpus of document images
US6144767A (en) * 1998-04-02 2000-11-07 At&T Corp Efficient convolutions using polynomial covers
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6285801B1 (en) * 1998-05-29 2001-09-04 Stmicroelectronics, Inc. Non-linear adaptive image filter for filtering noise such as blocking artifacts
US6154762A (en) * 1998-06-03 2000-11-28 Microsoft Corporation Fast system and method for computing modulated lapped transforms
US6073153A (en) * 1998-06-03 2000-06-06 Microsoft Corporation Fast system and method for computing modulated lapped transforms
US6072496A (en) * 1998-06-08 2000-06-06 Microsoft Corporation Method and system for capturing and representing 3D geometry, color and shading of facial expressions and other animated objects
JP2000013596A (ja) 1998-06-18 2000-01-14 Minolta Co Ltd 画像処理装置および方法ならびに画像処理プログラムを記録した記録媒体
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6253165B1 (en) * 1998-06-30 2001-06-26 Microsoft Corporation System and method for modeling probability distribution functions of transform coefficients of encoded signal
US6233364B1 (en) * 1998-09-18 2001-05-15 Dainippon Screen Engineering Of America Incorporated Method and system for detecting and tagging dust and scratches in a digital image
US6326977B1 (en) * 1998-11-03 2001-12-04 Sharp Laboratories Of America, Inc. Rendering of YCBCR images on an RGS display device
EP1006714A3 (en) 1998-12-02 2001-09-19 Xerox Corporation Method of processing mixed raster content planes
US6564263B1 (en) * 1998-12-04 2003-05-13 International Business Machines Corporation Multimedia content description framework
JP2000175053A (ja) * 1998-12-07 2000-06-23 Xerox Corp 文書の圧縮ピクセルマップ表現を表す混合ラスタコンテントプレ―ンの処理方法
US6195024B1 (en) * 1998-12-11 2001-02-27 Realtime Data, Llc Content independent data compression method and system
US6100825A (en) * 1998-12-31 2000-08-08 Microsoft Corporation Cluster-based data compression system and method
US6977664B1 (en) * 1999-09-24 2005-12-20 Nippon Telegraph And Telephone Corporation Method for separating background sprite and foreground object and method for extracting segmentation mask and the apparatus
JP3551908B2 (ja) 1999-09-24 2004-08-11 日本電信電話株式会社 背景スプライトと前景オブジェクトの分離方法、及びその装置
US6826727B1 (en) * 1999-11-24 2004-11-30 Bitstream Inc. Apparatus, methods, programming for automatically laying out documents
ATE509330T1 (de) 1999-12-04 2011-05-15 Luratech Imaging Gmbh Verfahren zur kompression von gescannten farb- und/oder graustufendokumenten
DE19958553A1 (de) * 1999-12-04 2001-06-07 Luratech Ges Fuer Luft Und Rau Verfahren zur Kompression von gescannten Farb- und/oder Graustufendokumenten
KR100337359B1 (ko) * 1999-12-15 2002-05-21 이계안 차량의 주행단 밀림 방지장치 및 그 제어방법
GB2358098A (en) * 2000-01-06 2001-07-11 Sharp Kk Method of segmenting a pixelled image
JP2001266158A (ja) 2000-01-11 2001-09-28 Canon Inc 画像処理装置、画像処理システム、画像処理方法、及び記憶媒体
US7320104B2 (en) * 2000-02-12 2008-01-15 Adobe Systems Incorporated Text grid creation tools
JP2001256244A (ja) * 2000-03-14 2001-09-21 Fuji Xerox Co Ltd 画像データ分類装置および画像データ分類方法
US6674900B1 (en) 2000-03-29 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for extracting titles from digital images
US6633670B1 (en) * 2000-03-31 2003-10-14 Sharp Laboratories Of America, Inc. Mask generation for multi-layer image decomposition
US6738079B1 (en) * 2000-06-02 2004-05-18 Sun Microsystems, Inc. Graphical user interface layout customizer
US6975742B2 (en) * 2000-11-29 2005-12-13 Xerox Corporation Rate-distortion optimization system and method for image compression
US6839463B1 (en) * 2000-12-22 2005-01-04 Microsoft Corporation System and method providing subpixel-edge-offset-based determination of opacity
US7027647B2 (en) * 2001-12-31 2006-04-11 Hewlett-Packard Development Company, L.P. Coder matched layer separation for compression of compound documents
US7110596B2 (en) * 2002-04-25 2006-09-19 Microsoft Corporation System and method facilitating document image compression utilizing a mask
US7024039B2 (en) 2002-04-25 2006-04-04 Microsoft Corporation Block retouching

Also Published As

Publication number Publication date
CN100470593C (zh) 2009-03-18
KR20030084589A (ko) 2003-11-01
JP4295537B2 (ja) 2009-07-15
US7110596B2 (en) 2006-09-19
EP1388816A2 (en) 2004-02-11
KR100937543B1 (ko) 2010-01-19
EP1388816A3 (en) 2005-11-16
US20030202699A1 (en) 2003-10-30
TWI244051B (en) 2005-11-21
TW200306501A (en) 2003-11-16
US20060274381A1 (en) 2006-12-07
CN1458628A (zh) 2003-11-26
US7764834B2 (en) 2010-07-27
EP1388816B1 (en) 2016-08-03
JP2003346166A (ja) 2003-12-05

Similar Documents

Publication Publication Date Title
ES2600756T3 (es) Sistema y procedimiento para facilitar la compresión de imágenes de documento utilizando una máscara
US7343046B2 (en) Systems and methods for organizing image data into regions
US7376266B2 (en) Segmented layered image system
JP4152789B2 (ja) クラスタリングシステムおよびクラスタリング方法
US8218887B2 (en) Enhanced method of multilayer compression of PDF (image) files using OCR systems
KR100937542B1 (ko) 세그먼트된 계층화 이미지 시스템
US7386166B2 (en) Systems and methods for connecting regions image data having similar characteristics
US20070127043A1 (en) Image processing apparatus and control method thereof
US8571311B2 (en) Raster graphics image transcoding for file size reduction
CN108805788B (zh) 基于图像拓扑结构的可逆水印方法
Shafait et al. Pixel-accurate representation and evaluation of page segmentation in document images
CN102334097A (zh) 使用simd指令的rdp位图散列加速
JP2008028717A (ja) 画像処理装置および方法、プログラム
CN114222129A (zh) 图像压缩编码方法、装置、计算机设备和存储介质
US9137549B2 (en) Compressing image data
El-Omari et al. Text-image segmentation and compression using adaptive statistical block based approach
TW202344055A (zh) 基於區塊的隨機存取能夠不失真的圖形資產壓縮
TW202343382A (zh) 具有隨機區塊存取的低功率高傳輸量硬體解碼器
TW202345088A (zh) 用於圖形管線中的混合模式的目的地更新
TW202344054A (zh) 用於二維渲染管線中的顏色資料的硬體編碼器
El-Omari et al. Innoviate Text-Image Compression Technique
CN116471489A (zh) 图像预处理方法及其装置
CN114140303A (zh) 图像的水印去除方法、装置、电子设备及存储介质
Kalyankar et al. Stenography using palette images
CN111597375A (zh) 基于相似图片组代表特征向量的图片检索方法及相关设备