ES2600756T3

ES2600756T3 - Sistema y procedimiento para facilitar la compresión de imágenes de documento utilizando una máscara

Info

Publication number: ES2600756T3
Application number: ES03005431.6T
Authority: ES
Inventors: Patrice Y. Simard; Erin L. Renshaw; James Russell Rinker
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2002-04-25
Filing date: 2003-03-13
Publication date: 2017-02-10
Anticipated expiration: 2023-03-13
Also published as: CN100470593C; KR20030084589A; JP4295537B2; US7110596B2; EP1388816A2; KR100937543B1; EP1388816A3; US20030202699A1; TWI244051B; TW200306501A; US20060274381A1; CN1458628A; US7764834B2; EP1388816B1; JP2003346166A

Abstract

Un componente (100) separador de máscara, que comprende: un componente (130) de energía de píxel adaptado para calcular la energía de píxel para una región de una imagen (110) de un documento, adaptado además el componente de energía de píxel para calcular una partición de la región basándose al menos en parte en la energía de píxel de al menos uno de entre un primer plano y un plano posterior; caracterizado porque comprende además: un componente (140) de fusión de regiones adaptado para fusionar pares de regiones adyacentes de la imagen del documento basándose al menos en parte en la determinación de si las energías de un primer plano y/o un plano posterior de las regiones fusionadas potenciales son menores que una primera energía de umbral, estando adaptado además el componente de fusión para dividir la región fusionada en un nuevo primer plano y nuevo plano posterior; y, un componente (150) de almacenamiento de máscara adaptado para almacenar información asociada con la partición en una máscara (120).

Description

5

10

15

20

25

30

35

40

45

50

55

DESCRIPCION

Sistema y procedimiento para facilitar la compresion de imagenes de documento utilizando una mascara Referencia a solicitudes relacionadas

La presente solicitud es una continuacion parcial de la Solicitud de Utilidad Estados Unidos N.° de Serie 10/133.842 que se presento el 25 de abril de 2002, titulada ACTIVITY DETECTOR, de la Solicitud de Utilidad N.° de Serie 10/133.558 que se presento el 25 de abril de 2002, titulada CLUSTERING y de la Solicitud de Utilidad Estados Unidos N.° de Serie 10/133.939 que se presento el 25 de abril de 2002, titulada LAYOUT ANALYSIS.

Campo tecnico

La presente invencion se refiere en general al procesamiento de imagenes de documentos y, mas particularmente, a un sistema y procedimiento que facilita la compresion de imagenes de documentos utilizando una mascara que divide un primer plano de una imagen de un documento a partir de un plano posterior.

Antecedentes de la invencion

La cantidad de informacion disponible a traves de los ordenadores se ha incrementado dramaticamente con la amplia proliferacion de redes de ordenadores, Internet y los medios de almacenamiento digital. Con la cantidad creciente de informacion ha surgido la necesidad de transmitir informacion rapidamente y de almacenar eficientemente la informacion. La compresion de datos es una manera por la que los documentos pueden transmitirse y/o almacenarse mas efectivamente.

Los sistemas de compresion de datos convencionales han utilizado varios enfoques de compresion, por ejemplo, coincidencia de sfmbolos. Sin embargo, los enfoques de compresion tfpicos que funcionan de modo efectivo para documentos que tienen imagenes no funcionan bien, por ejemplo, para documentos que tienen texto y/o escritura manual.

La compresion de datos reduce el espacio necesario para representar la informacion. La compresion puede usarse para cualquier tipo de informacion. Sin embargo, la compresion de la informacion digital, incluyendo imagenes, texto, audio y video se ha convertido en mas importante. Tfpicamente, la compresion de datos se usa con sistemas de ordenador estandar. Sin embargo, otras tecnologfas hacen uso de la compresion de datos, tal como, pero sin limitarse a, television digital y por satelite asf como telefonos celulares/digitales.

La compresion de datos es importante por varias razones. La compresion de datos permite que la informacion se almacene en menos espacio que los datos sin comprimir. Cuando se incrementa la demanda de grandes cantidades de informacion, puede requerirse la compresion de los datos para suministrar las grandes cantidades de informacion. El tamano de los dispositivos de almacenamiento se ha incrementado significativamente, sin embargo la demanda de informacion ha sobrepasado estos incrementos de tamano. Por ejemplo, una imagen sin comprimir puede necesitar hasta 5 megabytes de espacio mientras que la misma imagen puede comprimirse y necesitar solo 2,5 megabytes de espacio. Ademas, la compresion de datos permite la transferencia de cantidades de informacion comprimida mas grandes que la informacion sin comprimir. Incluso con el incremento de las velocidades de transmision, tales como la banda ancha, DSL, cable modem e Internet y similares, los lfmites de la transmision pueden alcanzarse facilmente con la informacion sin comprimir. Por ejemplo, la transmision de una imagen sin comprimir a traves de una lmea DSL puede llevar diez minutos. Sin embargo, con la compresion de datos, la misma imagen puede transmitirse en aproximadamente un minuto.

En general, hay dos tipos de compresion, sin perdida y con perdida. La compresion sin perdida permite que se recuperen los datos originales exactos tras la compresion, mientras que la compresion con perdida permite que los datos originales difieran de los datos sin comprimir. La compresion con perdida permite una mejor relacion de compresion debido a que elimina datos del original. La compresion sin perdida puede usarse, por ejemplo, cuando se comprime texto cntico, debido que el fallo en reconstruir exactamente los datos puede afectar seriamente a la calidad y legibilidad del texto. La compresion con perdida puede usarse con imagenes o texto no cntico en el que una cierta cantidad de distorsion o ruido es o bien aceptable o bien imperceptible por nuestros limitados sentidos.

La compresion de datos es especialmente aplicable a documentos digitales. Los documentos digitales o imagenes de documentos digitales son representaciones digitales de documentos. Tfpicamente, los documentos digitales incluyen texto, imagenes y/o texto e imagenes. Ademas de usar menos espacio de almacenamiento para datos digitales actuales, el almacenamiento compacto sin degradacion significativa de la calidad promovera la digitalizacion de las copias en papel actuales haciendo mas factibles las oficinas sin papel. El esfuerzo hacia dichas oficinas sin papel es un objetivo importante que han de tener las empresas, debido a que las oficinas sin papel proporcionan muchos beneficios, tales como permitir un facil acceso a la informacion, reducir los costes medioambientales, reducir los costes de almacenamiento y otros similares. Ademas, la disminucion de tamano de los archivos de los documentos digitales a traves de la compresion permite un uso mas eficiente del ancho de banda de Internet, permitiendo asf una transmision mas rapida de mas informacion y la reduccion de la congestion de la red. La reduccion del almacenamiento requerido para la informacion, el movimiento hacia oficinas sin papel mas

5

10

15

20

25

30

35

40

45

50

55

eficientes, y el incremento de la eficiencia del ancho de banda de Internet, son solo algunos de los muchos beneficios significativos de la tecnologfa de compresion.

La compresion de datos de los documentos digitales tiene un cierto numero de metas para hacer mas atractivo el uso de los documentos digitales. Primero, la compresion de datos debena ser capaz de comprimir y descomprimir grandes cantidades de informacion en una pequena cantidad de tiempo. En segundo lugar, la compresion de datos debena ser capaz de reproducir con precision el documento digital.

Ademas, la compresion de datos de documentos digitales debena hacer uso de la finalidad de un documento. Algunos documentos digitales se usan para rellenar o proporcionar copias impresas. Otros documentos pueden revisarse y/o editarse. La compresion de datos actual fracasa al manejar la recolocacion de texto y/o imagenes cuando se ve, y fracasa al proporcionar medios eficientes y efectivos para permitir que la tecnologfa de compresion reconozca caracteres y los recoloque en procesadores de textos, asistentes digitales personales (PDA), telefonos celulares y similares. Por lo tanto, si se escanean en forma digital documentos de oficina en papel, la tecnologfa de compresion actual puede hacer diffcil, si no imposible, actualizar, modificar, o cambiar en general el documento digitalizado.

La compresion de imagenes compuestas con un enfoque multicapa de contenido de barrido fusionado se explica en “Optimizing Block-Thresholding Segmentation for Multilayer Compression of Compound Images” por R.L. de Queiroz et al., IEEE Transactions on Image Compression, IEEE Inc. nueva York, US, vol. 9, n.° 9, septiembre de 2000, paginas 1461-1471, ISSN: 1057-7149.

Las representaciones basadas en zonas de imagen y video se presentan en “Region-Based Representations of Image and Video: Segmentation Tools for Multimedia Services” por P.Salembier et al., IEEE Transactions on Circuits and Systems for Video Technology, IEEE Inc. Nueva York, Estados Unidos, vol. 9, n.° 8, diciembre de 1999, paginas 1147-1169, ISSN: 1051-8215.

Sumario de la invencion

La invencion comprende un componente separador de mascara de acuerdo con la reivindicacion 1, un procedimiento para la generacion de una mascara que divide una imagen de un documento en un plano posterior y un primer plano de acuerdo con la reivindicacion 12, un sistema de compresion de imagenes de documento de acuerdo con la reivindicacion 19, un medio legible por ordenador de acuerdo con la reivindicacion 23, una fotocopiadora de acuerdo con la reivindicacion 25, un escaner de documentos de acuerdo con la reivindicacion 26, un sistema de reconocimiento optico de caracteres de acuerdo con la reivindicacion 27, un asistente digital personal de acuerdo con la reivindicacion 28, una maquina de fax de acuerdo con la reivindicacion 29, una camara digital de acuerdo con la reivindicacion 30, una camara de video digital de acuerdo con la reivindicacion 31 y un sistema de videojuegos de acuerdo con la reivindicacion 32. En algunas realizaciones favorables se describen en las reivindicaciones dependientes.

A continuacion se presenta un sumario simplificado de la invencion para proporcionar una comprension basica de algunos aspectos de la invencion. Este sumario no es una vision extensa de la invencion. No se pretende que identifique elementos clave/cnticos de la invencion o delimite el alcance de la invencion. Su unica finalidad es presentar algunos conceptos de la invencion de una forma simplificada como un preludio a una descripcion mas detallada que se presenta mas adelante.

La presente invencion se refiere en general a un sistema y procedimiento que facilita la compresion de imagenes de documentos utilizando una particion con mascara de un primer plano de una imagen de un documento respecto a un plano posterior. De acuerdo con un aspecto de la presente invencion, un componente separador de mascara recibe una imagen del documento (por ejemplo, una representacion binaria, RGB y/o YUV del (de los) documento(s)) como una entrada. El componente separador de mascara procesa la imagen del documento y produce la salida de una mascara (por ejemplo binaria) que indica si cada pixel de la imagen del documento pertenece al primer plano y/o a un plano posterior. Mediante la separacion del primer plano (por ejemplo, la informacion textual) del plano posterior (por ejemplo informacion grafica), el primer plano y/o el plano posterior pueden comprimirse mas efectivamente, disminuyendo asf el tamano del archivo y/o el tiempo de transmision. La mascara y/o la imagen del documento pueden procesarse entonces por otra(s) parte(s) de un sistema de compresion (por ejemplo, para conseguir una compresion mejorada de la imagen del documento). Por ejemplo, el sistema y/o procedimiento de la presente invencion puede utilizarse en un sistema de imagen en capas segmentado global que facilite la identificacion y/o compresion de texto, escritura manual, dibujos y similar.

De acuerdo con un aspecto particular de la invencion, el componente separador de mascara incluye un componente de energfa de pixel, un componente de fusion de regiones y un componente de almacenamiento de mascara. El componente de energfa de pixel esta adaptado para calcular la energfa de pixel (por ejemplo, varianzas) para una(s) region(es) de una imagen del documento para minimizar las variaciones de energfa del primer plano y/o plano posterior. La energfa (por ejemplo, se mide la energfa basandose en una suma del cuadrado de las distancias) se usa como una estimacion de la compresion que se obtendna para el primer plano y/o el plano posterior. Sin embargo, para simplificar la sobrecarga de calculo, la imagen del documento puede dividirse en regiones (por

5

10

15

20

25

30

35

40

45

50

55

ejemplo, de dos pfxeles por dos p^xeles) y determinarse un primer plano y plano posterior para cada region (por ejemplo, basandose al menos en parte, en la minimizacion de las variaciones de energfa en el plano posterior y/o en el primer plano). En otras palabras, cada region se divide en sf misma en dos conjuntos: los pfxeles que pertenecen al primer plano, y los pfxeles que pertenecen al plano posterior. Para minimizar ademas la sobrecarga de calculo, el componente de ene^a de p^xel puede, al menos temporalmente, almacenar informacion de calculo para su uso por el componente de fusion de regiones y/o el componente de almacenamiento de mascara.

El componente de fusion de regiones esta adaptado para intentar fusionar pares de regiones de la imagen del documento basandose, al menos en parte, en la determinacion de si las energfas de un nuevo primer plano y/o un nuevo plano posterior de las regiones fusionadas potenciales son menores que una primera energfa de umbral. El componente de fusion de regiones puede utilizar informacion de calculo almacenada por el componente de energfa de pixel. El resultado de una fusion es una region mas grande que se caracterizara por su propia particion de primer plano y plano posterior. Los pfxeles que fueron primer plano previamente a la fusion pueden acabar en el plano posterior de la region fusionada y viceversa. El componente de fusion de regiones puede determinar una particion primer plano/plano posterior adecuada de la region fusionada, por ejemplo, basandose al menos en parte en la minimizacion de las energfas de un nuevo plano posterior y un nuevo primer plano.

El componente de fusion de regiones puede continuar intentando fusionar sucesivamente regiones mayores hasta que la energfa de umbral se supere y/o sustancialmente toda la imagen del documento se haya fusionado. Por ejemplo, el componente de fusion de regiones puede fusionar regiones de dos por dos horizontalmente adjuntas en una region de dos por cuatro. Posteriormente, el componente de fusion de regiones puede fusionar verticalmente regiones en una region de cuatro por cuatro. Generalmente, el primer valor de energfa de umbral puede seleccionarse para mitigar las situacion(es) potencial(es) en las que el intento de fusion(s) dividina varios niveles de gris en el primer plano o en el plano posterior, con una perdida potencial de detalles importantes, tal como texto (por ejemplo cuando hay mas de dos colores en una region). Por ello, puede capturarse una mascara que capture la mayor parte del texto y/o lmea(s) grafica(s) asociada(s) con una imagen de un documento.

Una vez se ha completado la fusion para una region, la particion de primer plano y plano posterior para esta region constituye la mascara, por ejemplo, el (los) pfxel(es) que pertenecen al primer plano pueden tener asignado un “1” en la mascara, mientras que el (los) pfxel(es) que pertenecen al plano posterior pueden tener asignado un “0”. Desafortunadamente, mantener un seguimiento de las particiones de primeros planos y planos posteriores durante la operacion de fusion puede ser caro desde el punto de vista computacional. Una alternativa (por ejemplo, mas efectiva de modo computacional) es calcular una media de sustancialmente todos los pfxeles de la region fusionada y asignar pfxel(es) que tengan un nivel de gris mayor que la media al primer plano siendo asignados el (los) pfxel(es) restante(s) al plano posterior. Alternativamente, el (los) pfxel(es) que tengan un valor de nivel de gris mayor que la media puede estar asignados al plano posterior siendo asignados el (los) pfxel(es) restante(s) al primer plano. Las dos alternativas pueden producir mascaras visualmente indiferenciables.

Posteriormente, el componente de almacenamiento de mascara esta adaptado para almacenar la informacion asociada con la particion del primer plano y el plano posterior en la mascara. Por ello, la mascara indica si cada pixel de la imagen del documento pertenece al primer plano y/o al plano posterior.

De acuerdo con otro aspecto de la presente invencion, para minimizar la sobrecarga computacional, puede calcularse la energfa para una pequena region (por ejemplo cuatro pfxeles por cuatro pfxeles) por el componente de energfa de pixel. Si la energfa es menor que una segunda energfa de umbral, sustancialmente todos los pfxeles pueden estar asignados al primer plano o al plano posterior estando los otros sustancialmente vacfos. Si la energfa es mayor que o igual a la segunda energfa de umbral, la particion puede proseguir como se ha descrito anteriormente. Para imagenes de documentos relativamente limpios (por ejemplo, que tengan area(s) constantes), puede conseguirse un incremento significativo en la velocidad computacional.

De acuerdo con otro aspecto de la presente invencion, para minimizar el tamano de la mascara, si una region final (por ejemplo una region que no puede fusionarse sin exceder el primer umbral), tiene una diferencia entre el primer plano medio y el plano posterior medio que es mas alta que un tercer umbral, toda la region se declara primer plano o se declara plano posterior, dependiendo de si una media global para la region es mayor o menor que el valor medio del nivel de gris (por ejemplo, 127 si los valores de nivel de gris estan entre 0 y 255). Para documentos en color que tengan un ligero tramado, la mascara para esta region parecena similar a una entremezcla sin esta optimizacion y tendna un alto coste de compresion. El tercer umbral se elige de modo que no se pierdan texto importante, mientras se eliminan los muchos casos de ligero tramado vistos en documentos impresos escaneados (por ejemplo, muchas impresoras tienen solo 4 a 6 colores y deben usar tramado para generar toda la paleta de colores). En un ejemplo, el valor de 40 es una buena eleccion para el tercer umbral.

En otro aspecto mas de la presente invencion proporciona el componente de energfa de pixel para utilizar una regresion polinomica para describir el primer plano y/o el plano posterior.

Otro aspecto de la compresion de imagenes de documento proporciona un sistema de separacion de la imagen de un documento que tiene un componente separador de mascara y un segmentador primer plano/plano posterior. El componente separador de mascara puede procesar una imagen de un documento (por ejemplo, que comprenda

5

10

15

20

25

30

35

40

45

50

55

texto y/o escritura manual) y almacenar informacion en relacion a que p^xeles estan en el primer plano y cuales estan en el plano posterior en una mascara. Posteriormente, el segmentador primer plano/plano posterior puede recibir la mascara y la imagen del documento y separar la imagen del documento en una imagen de primer plano y una imagen de plano posterior.

De acuerdo con otro aspecto mas de la presente invencion, se proporciona un sistema de compresion de imagenes de documento que tiene un componente de transformacion de la imagen de un documento, un componente de separacion de mascara y un componente de separacion primer plano/plano posterior. Opcionalmente, el sistema de compresion de imagenes de documento puede incluir un codificador de mascara, un codificador del primer plano y/o un codificador del plano posterior.

Otro aspecto mas de la compresion de imagenes de documento proporciona un sistema de imagenes segmentadas en capas que tiene un componente de energfa de pixel y un componente de almacenamiento de mascara. El sistema de imagenes segmentado en capas puede emplearse en una amplia variedad de aplicaciones de imagenes de documentos, incluyendo, pero sin limitarse a, fotocopiadoras, escaneres de documentos, sistemas de reconocimiento optico de caracteres, asistentes digitales personales, maquinas de fax, camaras digitales, camaras de video digitales y/o sistemas de videojuego.

Otros aspectos de la compresion de imagenes de documento proporciona procedimientos, metodologfas para, generando una mascara, un medio legible por ordenador que tenga funciones utilizables por ordenador para un componente de separacion de mascaras y un paquete de datos adaptado para transmitirse entre dos o mas procesos de ordenador que comprenden informacion asociada con una mascara, asignando la mascara pfxeles a al menos uno de un primer plano y un plano posterior de una imagen del documento, estando basada la mascara, al menos en parte, en el calculo de la minimizacion de la energfa de los pfxeles en una region de la imagen del documento.

Para el cumplimiento de los fines precedente y otros relacionados, ciertos aspectos ilustrativos de la invencion se describen en la presente memoria en conexion con la descripcion siguiente y los dibujos adjuntos. Estos aspectos son indicativos, sin embargo, de unas pocas de las diversas formas en las que pueden emplearse los principios de la invencion y se pretende que la presente invencion incluya todos los dichos aspectos y sus equivalentes. Otras ventajas y caractensticas novedosas de la invencion pueden hacerse evidentes a partir de la descripcion detallada a continuacion de la invencion cuando se considera en conjunto con los dibujos.

Breve descripcion de los dibujos

La Fig. 1 es un diagrama de bloques de un componente separador de mascara de acuerdo con un aspecto de la presente invencion.

La Fig. 2 es una imagen de un documento ejemplar de acuerdo con un aspecto de la presente invencion.

La Fig. 3 es una mascara asociada con la imagen del documento ejemplar de la Fig. 2 de acuerdo con un aspecto de la presente invencion.

La Fig. 4 es un plano posterior asociado con la imagen del documento ejemplar de la Fig. 2 y la mascara de la Fig. 3 de acuerdo con un aspecto de la presente invencion.

La Fig. 5 es una region de dos pfxeles por dos pfxeles ejemplar de una imagen de un documento de acuerdo con un aspecto de la presente invencion.

La Fig. 6 es una region fusionada potencial de cuatro pfxeles por cuatro pfxeles ejemplar de acuerdo con un aspecto de la presente invencion.

La Fig. 7 es una region fusionada potencial de cuatro pfxeles por cuatro pfxeles ejemplar de acuerdo con un aspecto de la presente invencion.

La Fig. 8 es un diagrama de flujo que ilustra una metodologfa para la generacion de una mascara de acuerdo con un aspecto de la presente invencion.

La Fig. 9 es un diagrama de flujo que ilustra ademas la metodologfa de la Fig. 8.

La Fig. 10 es un diagrama de bloques de un sistema de separacion de la imagen de un documento de acuerdo con un aspecto de la presente invencion.

La Fig. 11 es un diagrama de bloques de una compresion de imagenes de documento de acuerdo con un aspecto de la presente invencion.

La Fig. 12 es un diagrama de bloques de una compresion de imagenes de documento de acuerdo con un aspecto de la presente invencion.

La Fig. 13 es un diagrama de bloques de un sistema de imagen segmentado en capas de acuerdo con un aspecto de la presente invencion.

La Fig. 14 es un diagrama de bloques esquematico de un entorno operativo ejemplar para un sistema configurado de acuerdo con la presente invencion.

La Fig. 15 es un diagrama de bloques esquematico de un entorno de comunicacion ejemplar de acuerdo con la presente invencion.

Descripcion detallada de la invencion

La presente invencion se describe ahora con referencia a los dibujos, en los que se usan numeros de referencia

5

10

15

20

25

30

35

40

45

50

55

60

similares para referirse a elementos similares a todo lo largo. En la descripcion siguiente, con finalidades de explicacion, se exponen numerosos detalles espedficos para proporcionar una compresion global de la presente invencion. Puede ser evidente, sin embargo, que la presente invencion puede ponerse en practica sin estos detalles espedficos. En otros casos, estructuras y dispositivos bien conocidos se muestran en forma de diagramas de bloques para facilitar la descripcion de la presente invencion.

Tal como se usan en la presente solicitud, los terminos “componente” y “sistema” se pretende que se refieran a una entidad basada en ordenador, sea en hardware, una combinacion de hardware y software, software, o en software en ejecucion. Por ejemplo, un componente puede ser, pero sin limitarse a serlo, un proceso ejecutado en un procesador, un procesador, un objeto, un ejecutable, un hilo de ejecucion, un programa y/o un ordenador. A modo de ilustracion, tanto una aplicacion que se ejecuta en un servidor como el servidor puede ser un componente. Uno o mas componentes pueden residir dentro de un proceso y/o hilo de ejecucion y un componente puede localizarse en un ordenador y/o distribuirse entre dos o mas ordenadores.

Ademas, la “imagen de un documento” se pretende que se refiera a una representacion digital de documentos que comprenden uno o mas colores (por ejemplo, binarios, por ejemplo blanco/negro), escala de grises y/o documentos en color). Ademas, una imagen de un documento puede tener imagenes, texto y/o texto con imagenes, con superposicion potencial del texto e imagenes. Una imagen de un documento pueden ser representaciones binarias, RGB y/o YUV de documentos. Una imagen de un documento RGB se representa en componentes rojo, verde y azul. Una imagen de un documento YUV se representa usando un componente de luminancia indicado por Y y componentes de crominancia indicados por U y V. Pueden usarse menos bits para representar los componentes de crominancia U y V sin sacrificar significativamente la calidad visual de la imagen YUV. La representacion YUV es, en general una representacion mas compacta y facil de utilizar que una representacion RGB. Una imagen de un documento comprende elementos de foto comunmente denominados como “pfxeles”. Una imagen de un documento puede basarse en un documento de una o multiples paginas de cualquier forma o tamano.

En referencia a la Fig. 1, se ilustra un componente 100 separador de mascara con un aspecto de la presente invencion. El componente 100 separador de mascara recibe una imagen 110 de un documento (por ejemplo, basada en un documento a ser archivado y/o transmitido). Por ejemplo, el componente 100 separador de mascara puede ser parte de un sistema de compresion de documentos (no mostrado). La imagen 110 de un documento puede ser una representacion binaria, RGB y/o YUV del (de los) documento(s). El componente 100 separador de mascara procesa la imagen 110 del documento y produce la salida de la mascara 120 (por ejemplo binaria) que indica si cada pixel de la imagen 110 del documento pertenece al primer plano y/o al plano posterior. La mascara 120 y/o la imagen 110 del documento pueden procesarse entonces por otra(s) parte(s) del sistema de compresion (no mostrado) para efectuar la compresion de la imagen 110 del documento.

Pasando brevemente a la Fig. 2, se ilustra una imagen de un documento ejemplar. La imagen del documento comprende las letras “C” y “O” junto con una barra. La Fig. 3 ilustra una mascara asociada con la imagen del documento ejemplar de la Fig. 2 de acuerdo con un aspecto de la presente invencion. La Fig. 4 ilustra un plano posterior asociado con la imagen del documento ejemplar de la Fig. 2 y la mascara de la Fig. 3 de acuerdo con un aspecto de la presente invencion. Las lmeas discontinuas representan los lfmites de los pfxeles de “importancia” del plano posterior; los pfxeles que comprenden las lmeas de puntos y los pfxeles dentro de las lmeas discontinuas son “no importantes” en el plano posterior dado que cuando la imagen del documento se vuelve a montar el primer plano se colocara sobre el plano posterior basandose, al menos en parte, en la informacion de reconstruccion almacenada en la mascara. En el caso en el que las letras “C” y “O” y/o la barra son de color(es) constante(s) y/o tienen transicion(es) de color suaves, la compresion efectiva del primer plano puede conseguirse usando una de una variedad de tecnicas de suavizado y/o compresion. La compresion efectiva del plano posterior puede conseguirse mediante la sustitucion de los pfxeles “no importantes” con valores de pfxeles que permiten transiciones mas suaves. Un algoritmo simple ejemplar para rellenado de los pfxeles “no importantes” es procesar el plano posterior con un filtro paso bajo, y a continuacion restaurar los pfxeles importantes. Despues de pocas iteraciones de estas dos etapas, los pfxeles “no importantes” acaban con valores que permiten transiciones suaves, y que se comprimiran bien. Un refinamiento simple del este algoritmo es iniciar con un filtro paso muy bajo e incrementar la frecuencia de corte del filtro paso bajo en cada iteracion. Puede usarse un algoritmo similar para llenar el primer plano.

Volviendo a la Fig. 1, el componente 100 separador de mascara incluye un componente 130 de energfa de pixel, un componente 140 de fusion de regiones y un componente 150 de almacenamiento de mascara.

El componente 130 de energfa de pixel esta adaptado para calcular la energfa de pixel para regiones de la imagen 110 del documento (por ejemplo, varianzas). Por ejemplo, en el caso en el que la imagen 110 del documento es una representacion YUV, el componente 130 de energfa de pixel calcula las varianzas de energfa de pixel basandose en el componente Y y/o la combinacion adecuada de los componentes YUV de la representacion YUV. Para finalidades de calculo, el primer plano y el plano posterior pueden suponerse constantes a traves de una region. Si se desea calcular una mascara 120 que minimice la varianza alrededor de estas constantes. La varianza se usa como una estimacion de la compresion que se obtendna para el primer plano y/o el plano posterior. Alternativamente, la(s) region(es) podna(n) comprimirse y el numero de bits podna medirse cuantitativamente; sin embargo, la sobrecarga computacional sena prohibitivamente cara. En consecuencia, el calculo de la varianza, que es tambien una medicion

10

15

20

25

30

35

de la energfa basada en una suma de las distancias al cuadrado, es una estimacion aceptable del tamano del primer plano y el plano posterior tras la compresion.

Suponiendo que una region es un conjunto S de N p^xeles, y que un primer plano P y un plano posterior F son una particion de S de modo que P u F = S y P n F = 0. Si f(x) es el valor de la imagen en la localizacion del pixel x, x e S, la varianza del primer plano y el plano posterior son respectivamente:

vp = 2 (f (x) - Pp )2 (1)

xeP

VF = 2(f(x) - Pf )2 (2)

xeF

1 1

en las que pp = ----2f(x) y Pf = -----2f(x) son, respectivamente, el valor de pixel medio del primer plano y del

NP xeP NF xeF

plano posterior, y Np y Nf son, respectivamente, el numero de pfxeles en el primer plano y el plano posterior. Observese que estas varianzas pueden expresarse tambien como:

vp =2 f(x)2 - NpPp2 (3)

xeP

VF = 2 f(x)2 - NfPf2 (4)

xeF

A continuacion, se determina una particion adecuada en P y F de S, basandose al menos en parte en la minimizacion de la energfa del primer plano y/o el plano posterior (por ejemplo, varianzas) por el componente 130 de energfa de pixel (por ejemplo, que minimice la suma E = vp + vf). Sin embargo, hallar una particion adecuada en P y F de S puede ser computacionalmente intensivo dado que hay 2N mascaras posibles.

Para simplificar el calculo, la imagen del documento puede dividirse en regiones, por ejemplo regiones de dos pfxeles por dos pfxeles. Pasando brevemente a la Fig. 5, se ilustra una region de dos pfxeles por dos pfxeles de una imagen de un documento de acuerdo con un aspecto de la presente invencion. Los cuatro pfxeles tienen valores V1, V2, V3 y V4. Para cada region de dos pfxeles por dos pfxeles, hay solo 24 = 16 posibles mascaras. De acuerdo con cada una de estas regiones de dos pfxeles por dos pfxeles, es posible hallar los P y F optimos, que minimicen E = vp + vf mediante el calculo de E para todas las 16 combinaciones y utilizando aquella con la energfa mas pequena.

Sin embargo, utilizando un algoritmo de agrupamiento de K medias, en el que K=2, dado que la imagen del documento es una funcion escalar, pueden clasificarse los valores f(x) que conducen a una solucion que pueda calcularse eficientemente. Suponiendo que el orden clasificado es V1 V2 V3 V4, el algoritmo de agrupamiento de K medias, en el que K=2 conduce a tres posibles particiones:

Primer plano potencial Plano posterior potencial V1 V2 V3 V4

V1 V2 V3 V4

Puede verse que sustancialmente todas las otras combinaciones tendran energfa igual o mas alta. Esto es intuitivo dado que siempre deberia haber una agrupacion de valores contiguos que tenga una varianza mas baja que una agrupacion de valores no contiguos. Si el orden de clasificacion fuera diferente, el pixel puede siempre re- etiquetarse de modo que se clasifiquen V1 V2 V3 V4. Es entonces directo determinar cual de las tres posibles particiones de primer plano y plano posterior conducen a la energfa mas baja. Significativamente, el componente

130 de energfa de pixel puede almacenar la suma parcial 2f(x), 2f(x)2,2f(x) y/o 2f(x)2 para minimizar la

P P F F

sobrecarga computacional. Ademas, el componente 130 de energfa de p^xel puede, al menos temporalmente, almacenar al menos parte de las sumas parciales 2f(x), 2f(x)2 , 2f(x) y/o 2f(x)2 junto con Np y/o Nf (por

P P F F

ejemplo, para su uso en el componente 140 de fusion de regiones y/o el componente 150 de almacenamiento de mascara).

Ademas, para minimizar la sobrecarga computacional, puede calcularse la energfa para una region pequena (por ejemplo, cuatro pfxeles por cuatro pfxeles). Si la energfa es menor que una cantidad de umbral, todos los pfxeles pueden asignarse al primer plano o al plano posterior siendo el otro vacfo. Si la energfa es mayor a o igual que la energfa de umbral, la particion puede proseguir como se ha descrito anteriormente. Aunque esta particion pudiera no ser optima, no se observan efectos adversos si el umbral es suficientemente pequeno. Para imagenes de documento(s) relativamente limpios (por ejemplo, que tienen area(s) constante(s)), puede conseguirse un incremento significativo en la velocidad computacional.

5

10

15

20

25

30

35

40

45

50

Ademas, una(s) region(es) que es (son) sustancialmente constante(s) (por ejemplo, primer plano puro o plano posterior puro) tambien pueden fijarse despues de que se haya calculado la separacion de la mascara del primer plano y el plano posterior. Por ejemplo, si la diferencia entre el primer plano medio y el plano posterior medio es menor que un cierto umbral, que puede determinarse experimentalmente (por ejemplo puede usarse un valor de 40 en comparacion con la escala completa de niveles de gris que van de 0 a 255), la region entera se fija o bien al primer plano o bien al plano posterior (dependiendo de si la media esta mas proxima a 0 o a 255).

Volviendo a referirnos a la Fig. 1, la particion de la imagen 110 del documento en regiones de dos pfxeles por dos pfxeles puede dar como resultado regiones que tengan distintos primeros planos y planos posteriores lo que podna recoger ruido de pixel. Esto puede conducir a una mascara 120 que parezca como entremezclado que sena inconsistente con la meta de ser capaz de capturar texto y/o lmeas de graficos en la mascara 120. Por ello, el componente 140 de fusion de regiones se adapta para intentar fusionar pares de regiones de la imagen 110 del documento basandose, al menos en parte, en una determinacion de si las energfas de un primer plano y/o un plano posterior de las regiones fusionadas potenciales son menores que la primera energfa de umbral. El componente 140 de fusion de regiones puede utilizar las sumas parciales ^ f(x), ^ f(x)2 , ^ f(x) y/o ^ f(x)2 junto con Np y/o Nf

P P F F

calculados y almacenados por el componente 130 de energfa de pixel.

Despues de cada fusion, estas cantidades deban recalcularse, pero afortunadamente, esto se realiza tambien en tiempo constante solamente sumando esas cantidades de acuerdo con la combinacion primer plano y plano posterior. Tambien observese que la suma £f(x)2 en todas las regiones es constante para cada particion, y no necesita ser calculada con la finalidad de seleccionar la particion optima. Sin embargo, esta cantidad aun se necesitara para decidir cuando no fusionar regiones.

En referencia brevemente a la Fig. 6, se ilustra una fusion potencial de una primera region que tiene un primer plano P1 y un plano posterior F1 con una segunda region que tiene un primer plano P2 y un plano posterior F2. En la determinacion de si las energfas de las regiones a ser fusionadas son menores que la primera energfa de umbral, el componente 150 de fusion de regiones puede calcular agrupaciones de un nuevo primer plano y un nuevo plano posterior. Las varianzas de la energfa dentro de las dos regiones tienen siete posibles agrupaciones de un nuevo primer plano y un nuevo plano posterior:

Nuevo primer plano de region fusionada potencial Nuevo plano posterior de region fusionada potencial

P1: F1 P2 F2

P1 F1 P2: F2

P1 F2 P2: F1

P2: P1 F1 F2

P1 P2: F1F2

P1 F1: P2 F2

P1F2: P2 F1

Si al menos una de las posibles agrupaciones proporciona energfas de plano posterior y/o primer plano menores que la primera energfa de umbral, el componente 140 de fusion de regiones puede determinar una particion primer plano/plano posterior adecuada de la region fusionada, por ejemplo, basandose al menos en parte en la minimizacion de las energfas de plano posterior y primer plano (por ejemplo, E = vp + vf). Si ninguna de estas agrupaciones proporciona una energfa mas baja que la primera energfa de umbral, la fusion no tiene lugar, y estas regiones no se consideran ademas para fusion. Por defecto P1 y P2 se usaran para calcular los pfxeles del primer plano, mientras que F1 y F2 se usaran para calcular los pfxeles del plano posterior.

El componente 140 de fusion de regiones puede continuar intentando fusionar regiones mayores hasta que la primera energfa de umbral fuera superada y/o sustancialmente toda la imagen 110 del documento se haya fusionado. Por ejemplo, el componente 140 de fusion de regiones puede fusionar regiones de dos por dos horizontalmente adjuntas en una region de dos por cuatro tal como se ilustra en la Fig. 6. Posteriormente, el componente 140 de fusion de regiones puede fusionar regiones verticalmente en una region de cuatro por cuatro tal como se ilustra en la Fig. 7. En general, el primer valor de energfa de umbral puede seleccionarse para mitigar situaciones potenciales en las que las fusiones intentadas dividinan varios niveles de gris en el primer plano o en el plano posterior, con una perdida potencial de detalles importantes, tal como texto (por ejemplo, cuando hay mas de dos colores en una region). Por ejemplo, si una primera region tiene texto escrito en gris sobre blanco, y una segunda region es principalmente negra, la fusion de las dos regiones puede conducir a gris y blanco yendo al primer plano y el negro al plano posterior de la region fusionada resultante, dando como resultado una perdida de sustancialmente toda la informacion textual a partir de la mascara 120. Sin embargo, siempre que se fusionan dos colores o bien en primer plano o bien en plano posterior, tiene lugar un brusco incremento de energfa para esa region, dado que una constante ya no es un buen modelo para esta region.

Ademas, como una alternativa al calculo de la energfa resultante para sustancialmente todas las siete combinaciones, puede clasificarse la media en primeros planos y planos posteriores y puede considerarse la particion con respecto a las medias clasificadas. Como para la clasificacion de los valores V1 V2 V3 V4, esto reduce el numero de particiones a 3 (clasificar P1 F1 P2 F2 por la media y considerar las particiones con respecto al orden).

5

10

15

20

25

30

35

40

45

50

55

Adicional y/o alternativamente, el componente 120 de fusion de regiones puede evaluar un subconjunto restringido de combinaciones de primeros planos y planos posteriores de las dos regiones, basandose en una aproximacion f sobre las regiones dadas. El componente 120 de fusion de regiones puede seleccionar la combinacion con una energfa menos acumulativa.

Una vez una region ya no puede fusionarse mas debido a que dicha fusion incremental la energfa mas alla del primer umbral, los pfxeles en esta region pueden dividirse en primer plano y plano posterior. Dicha particion puede realizarse junto con cada fusion, pero esto sena computacionalmente caro. Alternativamente, el componente 140 de fusion de regiones puede calcular una media de sustancialmente todos los valores de pfxeles de la region fusionada y asignar pfxel(es) que tengan un valor mayor que la media al primer plano siendo asignados el (los) restante(s) pfxel(es) al plano posterior. Alternativamente, el (los) pfxel(es) que tengan un valor mayor que la media pueden estar asignados al plano posterior siendo asignados el (los) restante(s) pfxel(es) al primer plano.

Volviendo a referirnos a la Fig. 1, una vez se ha agotado la fusion por el componente 140 de fusion de regiones, el componente 150 de almacenamiento de mascara esta adaptado para almacenar informacion asociada con la particion del primer plano y plano posterior realizada por el componente 130 de energfa de pixel y/o el componente 140 de fusion de regiones en la mascara 120. De ese modo, la mascara 120 indica si cada pixel de la imagen 110 del documento pertenece al primer plano y/o al plano posterior.

En un ejemplo, para minimizar la sobrecarga computacional, puede calcularse la energfa para una region pequena (por ejemplo, cuatro pfxeles por cuatro pfxeles) por el componente 130 de energfa de pixel. Si la energfa es menor que una segunda energfa de umbral, sustancialmente todos los pfxeles pueden asignarse al primer plano o al plano posterior quedando el otro sustancialmente vado. Si la energfa es mayor que o igual a la segunda energfa de umbral, la particion puede proseguir como se ha descrito anteriormente. Para imagen(es) de documentos relativamente limpios (por ejemplo que tienen areas constantes), puede conseguirse un incremento significativo en la velocidad computacional.

En otro ejemplo, para minimizar el tamano de la mascara, si una region final (por ejemplo una region que no puede mezclarse sin superar el primer umbral), tiene una diferencia entre el primer plano medio y el plano posterior medio que es mas alta que un tercer umbral, toda la region se declara primer plano o se declara plano posterior, dependiendo de si la media global para la region es mayor o menor que el valor de nivel de gris medio (por ejemplo, 127 si los valores de nivel de gris estan entre 0 y 255). Para documentos en color que tienen un ligero tramado, la mascara para esta region parecena igual a entremezclado sin esta optimizacion y tendna un alto coste de compresion. El tercer umbral se elige de modo que no se pierda texto importante, y continue eliminando los muchos casos de ligero tramado vistos en documentos impresos escaneados (por ejemplo, muchas impresoras tienen solo 4 a 6 colores y deben usar un tramado para generar toda la paleta de colores). Por ejemplo, un valor de 40 puede ser una buena eleccion para el tercer umbral.

El componente 100 separador de mascara se ha descrito con relacion a la suposicion de que el primer plano y el plano posterior de la cada uno son generalmente constantes. Sin embargo, de acuerdo con un aspecto de la presente invencion, puede usarse una regresion polinomica por el componente 130 de energfa de pixel para describir el primer plano y/o el plano posterior. Por ejemplo, si los polinomios del primer plano y/o el plano posterior son planos de ecuacion ax + py + p, la energfa se definina mediante:

vp = 2(f(x, y) - apx + ppy + Pp )2

x,yeP

VF = 2(f(x,y) - aFX + pFy + Pf )2

x,yeF

en la que x, y indexan las localizaciones del pixel, y ap, pp y pp son escalares que minimizan Vp y aF, pF y Pf son escalares que minimizan vf. Tomese nota de que ap, pp y pp puedan resolverse en tiempo constante usando las cantidades J_f(x,y)2, fx,y)x, £f(x,y)y y J_f(x,y) que es un sistema lineal de tres incognitas y tres ecuaciones. Igualmente, aF, Pf y Pf puedan resolverse de una forma similar. Como se ha descrito anteriormente con relacion a un primer plano y/o plano posterior generalmente constantes, el componente 130 de energfa de pixel prosigue para calcular energfas de pixel para regiones pequenas que dividen la region en un primer plano y plano posterior basandose en la minimizacion de la energfa. Posteriormente, las regiones pequenas se intenta que sean sucesivamente fusionadas por el componente 140 de fusion de regiones basandose, al menos en parte, en la minimizacion de la energfa (E) en cada fusion intentada. Sin embargo, los primeros planos y planos posteriores no pueden clasificarse por media, y por lo tanto todas las 7 combinaciones deben comprobarse para hallar que combinacion minimiza E. Para facilitar las fusiones, las cantidades J_f(x,y)2, Y.f(x,y)x, J_f(x,y)y y J_f(x,y) y N pueden almacenarse para cada region para el primer plano y el plano posterior.

De nuevo para minimizar la sobrecarga computacional, puede calcularse la energfa para una region pequena (por ejemplo, cuatro pfxeles por cuatro pfxeles) por el componente 130 de energfa de pixel. Sin embargo, el componente 130 de energfa de pixel puede utilizar un modelo basado en una constante sobre la region y/o utilizar una regresion polinomica.

5

10

15

20

25

30

35

40

45

Adicional y/o alternativamente, el componente 110 de ene^a de p^xel puede calcular la energfa usando regresion plana. La energfa del primer plano vp y del plano posterior vf, se definen como:

vp = 2 (f (x, y) + APx + BPy + CP )2

x,yeP

Vf = 2(f(x,y) + AfX + BFy + Cf )2

x,yeF

en las que P es el primer plano, F es el plano posterior, f(x,y) es el valor del pixel en la localizacion x,y. Ademas, Ap, Bp, Cp se eligen para minimizar la ene^a del primer plano vp, y Af, Bf, Cf se eligen para minimizar la ene^a del plano posterior Vf. Por ejemplo, la minimizacion de la ene^a del primer plano vp puede obtenerse mediante la resolucion del sistema de ecuaciones (3 incognitas, 3 ecuaciones):

dvP _ dvP _ 6v p

—p = 0, —p = 0 , —p = 0 dAp dBp dCp

en la que, por ejemplo:

-f- = 2 2(f (x, y) + Apx + Bpy + Cp )x = 0

8Ap x.yep

pueden resolverse ecuaciones similares para la energfa del plano posterior Vf.

Mientras la Fig. 1 es un diagrama esquematico que ilustra componentes del componente 100 separador de mascara, se ha de apreciar que el componente 100 separador de mascara puede implementarse como uno o mas componentes, tal como se define ese termino en la presente memoria. Por ello, se ha de apreciar que los componentes ejecutables por ordenador operativos para implementar el componente 100 separador de mascara pueden almacenarse en un medio legible por ordenador que incluye, pero sin limitarse a, un ASIC (circuito integrado de aplicacion espedfica), CD (disco compacto), DVD (disco de video digital), ROM (memoria solo de lectura), disco flexible, disco duro, EEPROM (memoria solo de lectura programable y borrable electricamente) y lapices de memoria de acuerdo con la presente invencion.

A la vista de los sistemas ejemplares mostrados y descritos anteriormente, una metodologfa que puede implementarse de acuerdo con la presente invencion se apreciara mejor con referencia a los diagramas de flujo de las Figs. 8 y 9. Mientras que, por razones de simplicidad de explicacion, la metodologfa se muestra y describe como una serie de bloques, se ha de entender y apreciar que la presente invencion no esta limitada por el orden de los bloques, dado que algunos bloques pueden, de acuerdo con la presente invencion, suceder en diferentes ordenes y/o simultaneamente con otros bloques respecto a lo mostrado y descrito en la presente memoria. Mas aun, no todos los bloques ilustrados pueden requerirse para implementar una metodologfa de acuerdo con la presente invencion.

La invencion puede describirse en el contexto general de las instrucciones ejecutables por ordenador, tales como modulos de programa, ejecutados por uno o mas componentes. Generalmente, los modulos de programa incluyen rutinas, programas, objetos, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. Tfpicamente la funcionalidad de los modulos de programa puede combinarse o distribuirse segun se desee en diversas realizaciones.

Volviendo a las Figs. 8 y 9, se ilustra una metodologfa 800 para la generacion de una mascara de acuerdo con un aspecto de la presente invencion. En 810, se calcula la energfa de pixel (por ejemplo varianzas) para una region de una imagen de un documento. Por ejemplo, la energfa de pixel calculada pueden ser varianzas que pueden basarse, al menos en parte, en una regresion polinomica de la region. Ademas, las varianzas de energfa de pixel calculadas pueden calcularse utilizando un valor de pixel medio calculado para un primer plano y un valor de pixel medio calculado para un plano posterior empleando en una suma de cuadrados de distancias para sustancialmente todos los pfxeles en la region. Alternativamente, las varianzas de energfa de pixel calculadas pueden calcularse utilizando una suma de valores de pixel para un plano posterior y una suma de valores de pixel calculadas para un primer plano.

A continuacion, en 820, se calcula una particion de pfxeles para la region para minimizar la energfa de pfxeles de un primer plano y/o un plano posterior. En 830, se realiza la determinacion de si sustancialmente todas las regiones de la imagen del documento se han dividido. Si la determinacion en 830 es NO, el procesamiento continua en 810. Si la determinacion en 830 es Sf, el procesamiento continua en 840.

A continuacion, en 840, se intenta que se fusionen pares de regiones adyacentes. En 850, se realiza la determinacion de si la fusion intentada dana como resultado que se excediera una energfa de umbral en un nuevo primer plano y/o un nuevo plano posterior. Si la determinacion en 850 es Sf, el procesamiento continua en 860. Si la

5

10

15

20

25

30

35

40

45

50

55

determinacion en 850 es NO, en 870, las regiones se fusionan. En 880, se calcula una nueva particion de primer plano y plano posterior de la region fusionada. En 885, se realiza la determinacion de si se ha intentado que se fusionen sustancialmente todas las regiones de la imagen del documento. Si la determinacion en 885 es Sf, no tiene lugar ningun procesamiento adicional. Si la determinacion 885 es NO, el procesamiento continua en 840.

En 860, se realiza una determinacion de si se ha intentado que se mezclen sustancialmente todas las regiones de la imagen del documento. Si la determinacion en 860 es NO, en 890, el foco sobre las fusiones intentadas se mueve a la siguiente region sin fusionar (por ejemplo, la region de dos pfxeles por dos pfxeles). Si la determinacion en 860 es Sf, no tiene lugar ningun procesamiento adicional.

A continuacion, en referencia a la Fig. 10, se ilustra un sistema 1000 para la separacion de la imagen del documento de acuerdo con un aspecto de la presente invencion. El sistema 1000 incluye un componente 100 separador de mascara y un segmentador 160 primer plano/plano posterior. El componente 100 separador de mascara incluye un componente 130 de energfa de pixel, un componente 140 de fusion de regiones y un componente 150 de almacenamiento de mascara.

Como se ha descrito anteriormente, de acuerdo con un aspecto de la presente invencion, el componente 100 separador de mascara recibe una imagen 110 de un documento como una entrada. El componente 100 separador de mascara procesa la imagen del documento para generar una mascara 120 como una salida.

El segmentador 160 primer plano/plano posterior recibe la mascara 120 y la imagen 110 del documento como entradas. Basandose, al menos en parte, en la mascara 120, el segmentador 160 primer plano/plano posterior esta adaptado para separar la imagen 110 del documento en una imagen 170 del primer plano y una imagen 180 del plano posterior. Por ejemplo, sustancialmente el (todos los) pfxel(es) representado(s) por un “1” en la mascara 120 pueden ir a la imagen 170 del primer plano y sustancialmente el (todos los) pfxel(es) representado(s) por un “0” en la mascara 120 pueden ir a la imagen 180 del plano posterior. A la inversa, como un ejemplo, sustancialmente el (todos los) pfxel(es) representado(s) por un “0” en la mascara 120 pueden ir a la imagen 170 del primer plano y sustancialmente el (todos los) pfxel(es) representado(s) por un “1” en la mascara 120 pueden ir a la imagen 180 del plano posterior.

Por ejemplo, el componente 100 separador de mascara puede procesar una imagen 110 del documento que comprende texto mediante la separacion de pfxeles (por ejemplo, asociados con el texto) en un primer plano y almacenamiento de la informacion en relacion a que pfxeles estan en el primer plano en una mascara 120. Posteriormente, el segmentador 160 primer plano/plano posterior puede recibir la mascara 120 y la imagen 110 del documento. El segmentador 160 primer plano/plano posterior puede separar la imagen 110 del documento en la imagen 170 del primer plano y la imagen 180 del plano posterior.

Pasando a la Fig. 11, se ilustra un sistema 1100 para la compresion de imagenes de documento de acuerdo con un aspecto de la presente invencion. El sistema 1100 incluye un componente 1110 de transformacion de la imagen del documento, un componente 100 de separacion de mascara y un componente segmentador 160 primer plano/plano posterior. El segmentador 160 primer plano/plano posterior recibe la mascara 120 y la imagen 1150 del documento como entradas. Basandose, al menos en parte, en la mascara 120, el segmentador 160 primer plano/plano posterior esta adaptado para separar la imagen 1150 del documento en una imagen 170 del primer plano y una imagen 180 del plano posterior.

Como se ilustra en la Fig. 12, el sistema 1100 puede, opcionalmente, incluir un codificador 1120 de mascara, un codificador 1130 del primer plano y/o un codificador 1140 del plano posterior. El componente 100 de separacion de mascara incluye un componente 130 de energfa de pixel, un componente 140 de fusion de regiones y un componente 150 de almacenamiento de mascara. Opcionalmente, el sistema 110 puede incluir un procesador 1170 de la imagen del primer plano y/o un procesador 1180 de la imagen del plano posterior.

El componente 1110 de transformacion de la imagen del documento esta adaptado para recibir una imagen 1150 del documento y producir la salida de una representacion transformada de la imagen 1160 del documento. Por ejemplo, el componente 1110 de transformacion de la imagen del documento puede recibir una imagen del documento RGB y producir la salida de una representacion YUV de la imagen del documento RGB.

El codificador 1120 de mascara esta adaptado para codificar la mascara 120. Por ejemplo, dado que la mascara 120 es tipicamente binaria, el codificador 1120 de mascara puede utilizar una(s) tecnica(s) de compresion binaria convencional(es) para conseguir una compresion efectiva de la mascara. El codificador 1120 de mascara produce la salida de un flujo de bits de mascara.

El codificador 1130 del primer plano esta adaptado para codificar la imagen 170 del primer plano. El primer plano es una imagen compuesta de los pfxeles del primer plano, y pfxeles “no importantes” (por ejemplo, pfxeles que originalmente pertenedan al plano posterior). El procesador 1170 de la imagen del primer plano puede usarse para rellenar los pfxeles “no importantes” con valores que facilitan la compresion y proporcionan la imagen de primer plano alterada al codificador 1130 del primer plano. Por ejemplo, en el caso de que la imagen 170 del primer plano comprenda generalmente informacion textual en color negro, los pfxeles “no importantes” pueden tambien rellenarse en negro, de modo que toda la imagen del primer plano sea negra. El codificador 1130 del primer plano puede

5

10

15

20

25

30

35

40

45

50

55

utilizar una tecnica(s) de compresion efectiva(s) para compresion de imagen, tal como JPEG, ondfculas, o cualesquiera otros algoritmos de compresion de imagen. El codificador 1130 del primer plano produce la salida de un flujo de bits de primer plano.

El codificador 1140 de plano posterior esta adaptado para codificar la imagen 180 del plano posterior. El plano posterior es una imagen compuesta de los pfxeles del plano posterior, y pfxeles “no importantes” (por ejemplo, pfxeles que originalmente pertenedan al primer plano). El procesador 1180 de la imagen del plano posterior puede usarse para rellenar los pfxeles “no importantes” con valores que facilitan la compresion y proporciona la imagen del plano posterior alterada al codificador 1140 del plano posterior. Por ejemplo, en el caso de que la imagen 180 del plano posterior comprenda una pagina blanca lisa, los pfxeles “no importantes” que se localizan en donde estaba el texto pueden rellenarse con blanco, de modo que toda la imagen del plano posterior sea blanca. El codificador 1140 del plano posterior puede utilizar tecnicas de compresion efectiva para la compresion de imagen, tales como JPEG, ondfculas, o cualesquiera otros algoritmos de compresion de imagen. El codificador 1140 del plano posterior produce la salida de un flujo de bits de plano posterior.

Por ejemplo, un algoritmo simple para rellenar los pfxeles “no importantes” es procesar la imagen con un filtro paso bajo, y a continuacion restaurar los pfxeles importantes. Despues de unas pocas interacciones de estas dos etapas, los pfxeles “no importantes” acaban con valores que permiten transiciones suaves, y que se comprimiran bien. Un simple refinamiento de este algoritmo es comenzar con un filtro de paso muy bajo e incrementar la frecuencia de corte del filtro paso bajo en cada iteracion.

Ademas, el codificador 1130 del primer plano y/o el codificador 1140 del plano posterior pueden utilizar la mascara 120 para mejorar la compresion del primer plano y/o el plano posterior. Se ha de apreciar que se contemplan numerosos codificadores y/o decodificadores que utilizan una mascara que se basa, al menos en parte, en una particion de una imagen del documento basandose, al menos en parte, en la minimizacion de las varianzas de energfa de pixel de al menos uno de entre un primer plano y un plano posterior en conexion con la invencion sujeto. Cualquier codificador y/o decodificador de ese tipo adecuado para su empleo en conexion con la presente invencion se pretende que caiga dentro del alcance de las reivindicaciones adjuntas.

El flujo de bits de la mascara, el flujo de bits del primer plano y/o el flujo de bits del plano posterior pueden combinarse en un unico flujo de bits y/o enviarse individualmente a, por ejemplo, un sistema de decodificacion (no mostrado). El sistema de decodificacion puede decodificar el flujo de bits de la mascara para obtener la mascara 120. Alternativamente, el sistema de decodificacion puede recibir la mascara 120. El sistema de decodificacion puede utilizar la mascara 120 para recombinar el flujo de bits del primer plano y/o el flujo de bits del plano posterior en una imagen del documento.

Se ha de apreciar que el sistema y/o procedimiento de la presente invencion pueden utilizarse en un sistema de imagen en capas segmentado global que facilita la identificacion y/o compresion de texto, escritura manual, dibujos y similares. Ademas, los expertos en la materia reconoceran que el sistema y/o procedimiento de la presente invencion puede emplearse en una amplia variedad de aplicaciones de imagenes de documentos, incluyendo, pero sin limitarse a, fotocopiadoras, escaneres de documentos, sistemas de reconocimiento optico de caracteres, PDA, maquinas de fax, camaras digitales, camaras de video digital y/o sistemas de videojuegos.

Pasando a la Fig. 13, se ilustra un sistema 1300 de imagen segmentada en capas. El sistema 1300 incluye un componente 130 de energfa de pixel y un componente 150 de almacenamiento de mascara.

El componente 130 de energfa de pixel esta adaptado para calcular las varianzas de energfa de pixel para una region de una imagen del documento. Ademas, el componente 130 de energfa de pixel esta adaptado ademas para calcular una particion de la region basandose al menos en parte, en la minimizacion de la energfa de pixel (por ejemplo, varianzas) de al menos uno de entre un primer plano y un plano posterior.

El componente 150 de almacenamiento de mascara esta adaptado para almacenar informacion asociada con la particion en una mascara. Por ejemplo, el sistema 1300 puede emplearse en una amplia variedad de aplicaciones de imagenes de documentos, que incluyen, pero sin limitarse a, fotocopiadoras, escaneres de documentos, sistemas de reconocimiento optico de caracteres, PDA, maquinas de fax, camaras digitales, camaras de video digital y/o sistemas de videojuegos.

Para proporcionar un contexto adicional para varios aspectos de la presente invencion, la Fig. 14 y la explicacion a continuacion se pretende que proporcionen una descripcion breve, general de un posible entorno 1410 informatico adecuado en el que pueden implementarse varios aspectos de la presente invencion. Se ha de apreciar que el entorno 1410 informatico no es mas que un posible entorno informatico y no se pretende que lfmite los entornos informaticos en los que puede emplearse la presente invencion. Aunque la invencion se ha descrito anteriormente en el contexto general de instrucciones ejecutables por ordenador que pueden ejecutarse sobre uno o mas ordenadores, se ha de reconocer que la invencion tambien puede implementarse en combinacion con otros modulos de programa y/o como una combinacion de hardware y software. Generalmente, los modulos de programa incluyen rutinas, programas, componentes, estructuras de datos, etc., que realizan tareas particulares o implementan tipos de datos abstractos particulares. Mas aun, se apreciara que los procedimientos inventivos pueden ponerse en practica

5

10

15

20

25

30

35

40

45

50

55

60

con otras configuraciones de sistemas de ordenador, incluyendo sistemas de ordenador de procesador unico o multiprocesador, miniordenadores, ordenadores centrales, as^ como ordenadores personales, y dispositivos de calculo portatiles, electronica de consumo basada en microprocesador o programable y similares, cada uno de los cuales puede acoplarse operativamente a uno o mas dispositivos asociados. Los aspectos ilustrados de la invencion pueden tambien ponerse en practica en entornos de calculo distribuido en donde ciertas tareas se realizan mediante dispositivos de procesamiento remoto que se enlazan a traves de una red de comunicaciones. En un entorno de calculo distribuido, los modulos de programa pueden localizarse en dispositivos de almacenamiento de memoria tanto locales como remotos.

La Fig. 14 ilustra una posible configuracion de hardware para soportar los sistemas y procedimientos descritos en la presente memoria. Se ha de apreciar lo que se ilustra una estructura independiente, que puede emplearse en cualquier entorno informatico adecuado de acuerdo con la presente invencion. Por ejemplo, pueden emplearse de acuerdo con la presente invencion arquitecturas de calculo que incluyen, pero sin limitarse a, independiente, multiprocesador, distribuida, cliente/servidor, miniordenador, ordenador central, superordenador, digitales y analogicas.

Con referencia a la Fig. 14, un entorno 1410 de ejemplo para la implementacion de diversos aspectos de la invencion incluye un ordenador 1412, que incluye una unidad 1414 de procesamiento, una memoria 1416 del sistema y un bus 1418 del sistema que conecta diversos componentes del sistema incluyendo la memoria del sistema a la unidad 1414 de procesamiento. La unidad 1414 de procesamiento puede ser cualquiera de diversos procesadores comercialmente disponibles. Tambien pueden usarse microprocesadores dobles y otras arquitecturas multiprocesador como la unidad 1414 de procesamiento.

El bus 1418 del sistema puede ser cualquiera de diversos tipos de estructuras de bus que incluyen un bus de memoria o controlador de memoria, un bus periferico, y un bus local que usan cualquiera de una variedad de arquitecturas de bus comercialmente disponibles. La memoria 1416 del ordenador incluye memoria 1420 solo de lectura (ROM), y memoria 1422 de acceso aleatorio (RAM). Se almacena en la rOm 1420 un sistema de entrada/salida basico (BIOS), que contiene las rutinas basicas que ayudan a transferir informacion entre elementos dentro del ordenador 1412, tal como durante el arranque.

El ordenador 1412 puede incluir ademas una unidad 1424 de disco duro, una unidad 1426 de disco magnetico, por ejemplo, para leer desde o escribir a un disco 1428 extrafble, y una unidad 1430 de disco optico, por ejemplo, para lectura de un disco 1432 CD ROM o para ver desde o escribir en otros medios opticos. La unidad 1424 de disco duro, la unidad 1426 de disco magnetico y la unidad 1430 de disco optico se conectan al bus 1418 del sistema mediante una interfaz 1434 de unidad de disco duro, una interfaz 1436 de unidad de disco magnetico y una interfaz 1438 de unidad optica, respectivamente. El ordenador 1412 incluye tfpicamente al menos alguna forma de medio legible por ordenador. Un medio legible por ordenador puede ser cualquier medio disponible al que pueda accederse por parte del ordenador 1412. A modo de ejemplo, y no de limitacion, un medio legible por ordenador pueden comprender medios de almacenamiento informatico y medios de comunicacion. El medio de almacenamiento informativo incluye medios volatiles y no volatiles, extrafbles y no extrafbles implementados en cualquier procedimiento o tecnologfa para almacenamiento de informacion tales como instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos. Los medios de almacenamiento informatico incluyen, pero sin limitarse a, RAM, ROM, EEPROM, memoria flash u otra tecnologfa de memoria, CD ROM, discos versatiles digitales (DVD) u otros dispositivos de almacenamiento magnetico, o cualquier otro medio que pueda usarse para almacenar la informacion deseada y a la que pueda accederse por parte del ordenador 1412. El medio de comunicacion incluye tfpicamente instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos en una senal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de informacion. La expresion “senal de datos modulada” significa una senal que tiene una o mas de sus caractensticas ajustadas o cambiadas de tal manera que codifique informaciones de la senal. A modo de ejemplo, y no de limitacion, los medios de comunicacion incluyen medios cableados tales como una red cableada o conexion directa por cable, y medios inalambricos tal como acusticos, de RF, infrarrojos y otros medios inalambricos. Las combinaciones de cualquiera de los anteriores debenan tambien incluirse dentro del alcance de los medios legibles por ordenador.

Un cierto numero de modulos de programa puede almacenarse en las unidades y en RAM 1422, incluyendo un sistema operativo 1440, uno o mas programas 1442 de aplicacion, otros modulos 1444 de programas, y datos 1446 no de interrupcion de programas. El sistema operativo 1440 en el ordenador 1412 puede ser cualquiera de un cierto numero de sistemas operativos disponibles comercialmente.

Un usuario puede introducir ordenes e informacion dentro del ordenador 1412 a traves de un teclado 1448 y dispositivo de puntero tal como un raton 1450. Otros dispositivos de entrada (no mostrados) pueden incluir un microfono, un control remoto por IR, una palanca de juegos, una alfombrilla de juegos, una antena de satelite, un escaner o similares. Estos y otros dispositivos de entrada se acoplan frecuentemente a la unidad 1414 de procesamiento a traves de una interfaz 1452 de puerto serie que se acopla al bus 1418 del sistema, pero que puede conectarse mediante otras interfaces, tales como un puerto paralelo, un puerto de juegos, un bus serie universal (“USB”), una interfaz de IR, etc. Un monitor 1454, u otro tipo de dispositivo de visualizacion, se conectan tambien al bus 1418 del sistema mediante una interfaz, tal como un adaptador 1456 de video. Ademas del monitor, un

5

10

15

20

25

30

35

40

ordenador incluye tipicamente otros dispositivos de salida perifericos (no mostrados), tales como altavoces, impresoras, etc.

El ordenador 1412 puede operar en un entorno de red usando conexiones logicas y/o ffsicas a uno o mas ordenadores remotos, tal como un ordenador 1458 remoto. El ordenador 1458 remoto puede ser una estacion de trabajo, un ordenador servidor, un enrutador, un ordenador personal, una aplicacion de diversion basada en microprocesador, un dispositivo parejo u otro nodo de red comun, e incluye tipicamente muchos o todos los elementos descritos con relacion al ordenador 1412, aunque, por razones de brevedad, solo se ilustra un dispositivo 1460 de almacenamiento de memoria. Las conexiones logicas representadas incluyen una red 1462 de area local (LAN) y una red 1464 de area grande (WAN). Dichos entornos de red son comunes en oficinas, redes de ordenadores de ambito de empresa, intranets y la Internet.

Cuando se usa en un entorno de red LAN, el ordenador 1412 se conecta a la red 1462 local a traves de una interfaz o adaptador 1466 de red. Cuando se usa en un entorno de red WAN, el ordenador 1412 incluye tfpicamente un modem 1468, o se conecta a un servidor de comunicaciones sobre la LAN, o tiene otros medios para el establecimiento de comunicaciones sobre la WAN 1464, tal como la Internet. El modo en 1468, que puede ser interno o externo, se conecta al bus 1418 del sistema a traves de la interfaz 1452 de puerto serie. En un entorno en red, los modulos de programas representados con relacion al ordenador 1412, o partes de los mismos, pueden almacenarse en el dispositivo 1460 de almacenamiento de memoria remoto. Se apreciara que las conexiones de red mostradas son ejemplares y que pueden usarse otros medios de establecimiento de un enlace de comunicaciones entre los ordenadores.

La Fig. 15 es un diagrama de bloques esquematico de un entorno 1500 informatico de muestra con el que puede interactuar la presente invencion. El sistema 1500 incluye uno o mas cliente(s) 1510. El (los) cliente(s) 1510 pueden ser hardware y/o software (por ejemplo, hilos, procesos, dispositivos de calculo). El sistema 1500 incluye tambien uno o mas servidor(es) 1530. El (los) servidor(es) 1530 pueden ser hardware y/o software (por ejemplo, hilos, procesos, dispositivos de calculo). El (los) servidor(es) 1530 pueden alojar hilos para realizar transformaciones mediante el empleo de la presente invencion, por ejemplo. Una comunicacion posible entre un cliente 1510 y servidor 1530 puede estar en la forma de un paquete de datos adaptado para ser transmitido entre dos o mas procesos de ordenador. El sistema 1500 incluye una estructura 1550 de comunicacion que puede emplearse para facilitar las comunicaciones entre el (los) cliente(s) 1510 y el (los) servidor(es) 1530. El (los) cliente(s) 1510 se conecta(n) operativamente a uno o mas almacen(es) 1560 de datos de cliente que pueden emplearse para almacenar informacion local para el (los) cliente(s) 1510. De modo similar, el (los) servidor(es) 1530 se conecta(n) operativamente a uno o mas almacen(es) 1540 de datos de servidor(es) que pueden emplearse para almacenar informacion local para los servidores 1530.

Lo que se ha descrito anteriormente incluye ejemplos de la presente invencion. No es posible, naturalmente, describir cada combinacion de componentes o metodologfas concebible para las finalidades de descripcion de la presente invencion, pero un experto en la materia reconocera que son posibles muchas combinaciones y permutaciones adicionales de la presente invencion. Ademas, en el grado en el que se usa el termino “incluye” en cualquier de entre la descripcion detallada o en las reivindicaciones, dicho termino se pretende que sea inclusivo en una manera similar al termino “comprendiendo” dado que “comprendiendo” se interpreta cuando se emplea como una palabra transitoria en una reivindicacion.

Claims

5

10

15

20

25

30

35

40

45

REIVINDICACIONES

1. Un componente (100) separador de mascara, que comprende:

un componente (130) de energfa de p^xel adaptado para calcular la energfa de pixel para una region de una imagen (110) de un documento, adaptado ademas el componente de energfa de p^xel para calcular una particion de la region basandose al menos en parte en la energfa de pixel de al menos uno de entre un primer plano y un plano posterior;

caracterizado porque comprende ademas:

un componente (140) de fusion de regiones adaptado para fusionar pares de regiones adyacentes de la imagen del documento basandose al menos en parte en la determinacion de si las energfas de un primer plano y/o un plano posterior de las regiones fusionadas potenciales son menores que una primera energfa de umbral, estando adaptado ademas el componente de fusion para dividir la region fusionada en un nuevo primer plano y nuevo plano posterior; y,

un componente (150) de almacenamiento de mascara adaptado para almacenar informacion asociada con la particion en una mascara (120).
2. El componente (100) separador de mascara de la reivindicacion 1, adaptado ademas el componente de energfa de pixel para calcular una particion de la region basandose al menos en parte en la minimizacion de la energfa de pixel de al menos uno de entre un primer plano y un plano posterior; y/o

comprendiendo la imagen (110) del documento al menos una de entre una representacion YUV, RGB y binaria de un documento.
3. El componente (100) separador de mascara de la reivindicacion 1, siendo la mascara (120) una representacion binaria de informacion asociada con la particion del primer plano y el plano posterior.
4. El componente (100) separador de mascara de la reivindicacion 1, calculando el componente (130) de energfa de pixel varianzas de energfa de pixel para una region utilizando al menos en parte un algoritmo de agrupamiento de K medias, en el que K=2.
5. El componente (100) separador de mascara de la reivindicacion 1, calculando el componente (130) de energfa de pixel varianzas de energfa utilizando las ecuaciones:

vp = 2 f (x) - Vp )2

xeP

Vf = 2(f(x) - Vf )2

xeF

en las que P es el primer plano,

F es el plano posterior, f(x) es el valor del pixel,

1

Vp =----2f(x) es el valor de pixel medio del primer plano,

NP xeP 1

Vf =----2f(x) es el valor de pixel medio del plano posterior,

Np es el numero de pfxeles en el primer plano, y Nf es el numero de pfxeles en el plano posterior para el calculo de las varianzas de energfa de pixel de la region.
6. El componente (100) separador de mascara de la reivindicacion 1, almacenando el componente (130) de energfa de pixel, al menos temporalmente, al menos algo de la informacion asociada con el calculo de la energfa de pixel.
7. El componente (100) separador de mascara de la reivindicacion 1, calculando el componente (130) de energfa de pixel la energfa de pixel para la region basandose al menos en parte en una regresion polinomica de la region.
8. El componente (100) separador de mascara de la reivindicacion 1, basandose la particion del componente (140) de fusion de regiones al menos en parte en una media de los valores de pixel de la region fusionada.
9. El componente (100) separador de mascara de la reivindicacion 8, siendo asignado un valor de pixel mayor que la media al primer plano.
10. El componente (100) separador de mascara de la reivindicacion 8, siendo asignado un valor de pixel mayor que la media al plano posterior.
11. El componente (100) separador de mascara de la reivindicacion 1, siendo la imagen (110) del documento una

5

10

15

20

25

30

35

40

45

50

representacion YUV y utilizando el componente de ene^a de p^xel al menos el componente Y en el calculo de la ene^a de p^xel.
12. Un procedimiento de generacion de una mascara (120) que divide una imagen (110) del documento en un plano posterior y un primer plano, que comprende:

calcular la energfa de pixel para una region (810) de la imagen (110) del documento;

dividir la region basandose al menos en parte en la energfa de pixel calculado de al menos uno de entre un primer plano y un plano posterior de la region; caracterizado porque comprende:

fusionar pares adyacentes de regiones (870) tras una determinacion de si las energfas de un primer plano y/o un plano posterior de las regiones fusionadas potenciales son menores que una primera energfa de umbral; dividir (880) la region fusionada en un nuevo primer plano y un nuevo plano posterior; y almacenar la informacion de particion en una mascara.
13. El procedimiento de la reivindicacion 12, comprendiendo ademas el calculo de la energfa de pixel para una region:

calcular una suma de valores de pixel para un primer plano; calcular una suma de valores de pixel para un plano posterior; y

calcular la suma de cuadrados de distancias para sustancialmente todos los pfxeles en la region.
14. El procedimiento de la reivindicacion 12, basandose el calculo de la energfa de pixel para una region, al menos en parte, en una regresion polinomica de la region.
15. El procedimiento de la reivindicacion 12, comprendiendo la particion de la region ademas minimizar la energfa de pixel de al menos uno de entre un primer plano y un plano posterior.
16. Procedimiento de la reivindicacion 12, comprendiendo ademas la particion de la region fusionada el calculo de una media de valores de pixel de la region fusionada.
17. Procedimiento de la reivindicacion 12, comprendiendo ademas la particion de la region fusionada las siguientes actuaciones:

calcular un valor de pixel medio del primer plano de la region fusionada; calcular un valor de pixel medio del plano posterior de la region fusionada;

asignar pfxeles a uno de entre un primer plano y un plano posterior si la diferencia entre el valor de pixel medio del primer plano y el valor de pixel medio del plano posterior es mayor que un tercer umbral.
18. El procedimiento de la reivindicacion 12, comprendiendo ademas la particion de la region las siguientes actuaciones:

calcular la energfa para la region; y

asignar pfxeles de la region a uno de entre el primer plano y el plano posterior si la energfa es menor que una segunda energfa de umbral;
19. Un sistema (1000) de compresion de imagenes de documento, que comprende:

un componente de transformacion del documento adaptado para recibir una imagen (110) del documento y producir la salida de una representacion transformada de la imagen del documento; y el componente (100) de separador de mascara de la reivindicacion 1.
20. El sistema (1000) de compresion de imagenes de documento de la reivindicacion 19, que comprende ademas un componente (160) segmentador de primer plano/plano posterior adaptado para separar la representacion transformada en una imagen (170) del primer plano y una imagen (180) del plano posterior basandose, al menos en parte, en informacion almacenada en la mascara (120).
21. El sistema (1000) de compresion de imagenes de documento de la reivindicacion 19 que comprende ademas al menos uno de entre un codificador del primer plano, un codificador del plano posterior y un codificador de la mascara.
22. El sistema (1000) de compresion de imagenes de documento de la reivindicacion 19, estando adaptado el componente de transformacion del documento para recibir una imagen (110) del documento en RGB y producir la salida de una representacion YUV de la imagen del documento RGB.
23. Un medio legible por ordenador que tiene componentes utilizables por ordenador adaptados para implementar el componente (100) separador de mascara de la reivindicacion 1.

5

10

15

20

25

30

35
24. El componente (100) separador de mascara de la reivindicacion 1 que comprende ademas:

medios para calcular una particion de la region basandose, al menos en parte, en la minimizacion de la ene^a de al menos uno de dos planos; y

medios para la particion de pfxeles de las regiones en un primer plano y un plano posterior basandose, al menos en parte, en la que minimizar la energfa de los pfxeles que comprende al menos uno de entre el primer plano y el plano posterior.
25. Una fotocopiadora que emplea uno o mas de lo siguiente:

un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
26. Un escaner de documentos que emplea uno o mas de lo siguiente:

un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
27. Un sistema de reconocimiento optico de caracteres que emplea uno o mas de lo siguiente:

un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
28. Un asistente digital personal uno o mas de lo siguiente:

un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
29. Una maquina de fax que emplea uno o mas de lo siguiente:

un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
30. Una camara digital que emplea uno o mas de lo siguiente:

un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
31. Una camara de video digital que emplea uno o mas de lo siguiente:

un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.
32. Un sistema de video juegos que emplea uno o mas de lo siguiente:

un componente (100) de separador de mascara de cualquiera de las reivindicaciones 1-11 o 24, el procedimiento de cualquiera de las reivindicaciones 12-18, el sistema (1000) de compresion de imagenes de documento de cualquiera de las reivindicaciones 19-22 y el medio legible por ordenador de la reivindicacion 23.