ES2829269T3

ES2829269T3 - Procedimiento de incrustación y extracción de marca de agua para proteger documentos

Info

Publication number: ES2829269T3
Application number: ES17382720T
Authority: ES
Inventors: Freire Luis Perez; Vieites Diego Perez; Garcia Pedro Pablo Perez
Original assignee: Telefonica Cybersecurity and Cloud Tech SL
Current assignee: Telefonica Cybersecurity and Cloud Tech SL
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2021-05-31
Anticipated expiration: 2037-10-27
Also published as: BR102018072097A2; US10949509B2; US20210165860A1; EP3477578B1; US20190130080A1; EP3477578A1

Abstract

Un procedimiento (11) para marcar documentos con marca de agua, recibiendo un documento original (10) que incluye un texto y un mensaje (30) para obtener un documento con marca de agua (20) incrustando una marca de agua que codifica el mensaje recibido (30), comprendiendo el procedimiento: - identificar y localizar los espacios en el documento original (10) mediante un módulo de análisis de localización (110), distinguiendo el análisis de localización (110) entre espacios intra-palabras y espacios inter- palabras, y en el que el análisis de localización (110) comprende: - comprobar (401) si el documento original recibido (10) es un documento con formato de mapa de bits y si el documento original (10) está en un formato no de mapa de bits, convertir (402) el documento original (10) en un documento con formato de mapa de bits; - aplicar una segmentación basada en imágenes (403) al documento con formato de mapa de bits para obtener un conjunto de longitudes y un conjunto de ubicaciones de los espacios en el documento con formato de mapa de bits; - clasificar (405) los espacios identificados y localizados en espacios intra e inter-palabras para obtener conjuntos (406) de longitudes de los espacios intra e inter-palabras, SS y SB respectivamente, y conjuntos de localizaciones de los espacios intra e inter-palabras, LS y LB, del documento original (10). - reducir al mínimo la probabilidad de error que corresponde a una interferencia entre espacios intra-palabras y espacios inter-palabras en el documento con marca de agua (20) mediante un módulo de optimización (111), en el que el módulo de optimización (111) determina una distancia entre las longitudes de los espacios intra- e inter-palabras, y en el que el módulo de optimización (111) minimiza la probabilidad de error mediante: - obtención de un conjunto modificado de espacios intra-palabra,S*S = { S*Si } donde i denota un número de línea del documento original (10) y S*Si es igual a: μ(i) + ε si SSi > μ(i) + ε, y SSI lo contrario; donde μ(i) es un valor promedio de los espacios intra-palabras SSI en la línea iésima y ε es un parámetro de rechazo de huéspedes que es un parámetro ajustable para aumentar la distancia entre las longitudes de los espacios intra e inter palabas, - obtener un conjunto modificado de espacios inter-palabras,S*B = { S*Bi } donde i denota un número de línea del documento original (10), donde S*Bi = { S*Bi (k)}, siendo S*Bi(k) la longitud modificada del k-ésimo espacio inter-palabras de la línea i-ésima y SBi(k) la longitud original del k-ésimo espacio inter-palabras de la línea i-ésima del documento original (10), S*S = { S*Si (k)}, siendo S*Si(k) la longitud modificada del k-ésimo espacio intra-palabras de la línea i-ésima y SSi(k) la longitud original del k-ésimo espacio intra-palabras de la línea i-ésima del documento original (10), y S*Bi(k) = SBi(k) + (ΣkSSi(k)- ΣkS*Si(k))/Nb(i) siendo Nb(i) el número de espacios inter-palabras en la línea i-ésima del documento original (10). - codificar (113) el mensaje (30) en palabras clave y codificar (114) las palabras clave en la marca de agua; - incrustar la marca de agua en el documento original (110) para generar (115) el documento con la marca de agua (20) modificando los espacios intra e inter-palabras del documento original (10) de acuerdo con la codificación (113) del mensaje recibido(30), en el que generar (115) el documento con marca de agua (20) comprende: - seleccionar un subconjunto del conjunto de espacios inter-palabras,S*B, mapeado al conjunto de espacios inter-palabras de la línea t-ésima,St B, a través de una clave secreta; - seleccionar una palabra clave wt del mensaje codificado (30) - incrustar la palabra clave seleccionada wt en el subconjunto seleccionado de espacios inter-palabras calculando un espacio inter-palabras modificado SBW del documento con marca de agua (20) utilizando la expresiónSt BW(k) = St B(k) + wt(k)-ct(k)-St B(k) = St B(k) (1 + wt(k)-ct(k)) donde wt(k) es la palabra clave seleccionada, para el k-ésimo espacio inter-palabras en la línea tésima; St B(k) es el k-ésimo espacio inter-palabras en la línea t-ésima del espacio inter-palabras SB del documento original (10), St BW(k) es el k-ésimo espacio inter-palabras en la línea t-ésima del espacio inter-palabras SBW del documento con marca de agua (20) y ct(k) es un factor de ponderación; - modificar los espacios intra e inter-palabras en del documento original (10) sustituyendo el espacio intra-palabras, SS, y el espacio inter-palabras, SB, respectivamente por el conjunto modificado de espacios intra-palabras,S*S, y el espacio inter-palabras modificado, SBW, en el documento con marca de agua (20).

Description

DESCRIPCIÓN

Procedimiento de incrustación y extracción de marca de agua para proteger documentos

Campo de la invención

La presente invención tiene su aplicación en el sector de las telecomunicaciones, en el ámbito de la seguridad de la información digital y el procesamiento de contenidos digitales, y se relaciona con la tecnología de marcas de agua digitales.

Más concretamente, la presente invención se refiere a un procedimiento para incrustar una marca de agua digital en un documento, que puede estar en un formato digital o digitalizado, que incluye texto; y un procedimiento para extraer la marca de agua del documento incrustado con la marca de agua incluso en caso de distorsión en el documento.

Antecedentes de la invención

La inclusión de información oculta en un archivo de texto es una característica deseada en muchos campos y para muchas aplicaciones diferentes. Por un lado, la información oculta incrustada en un documento de texto puede ser decodificada por máquinas para permitir la clasificación automática de los documentos. Al mismo tiempo, esa información puede permitir la validación automática de la autenticidad, la integridad y la propiedad de un documento. Además, esa información -incluida en los documentos confidenciales- puede permitir su seguimiento, disuadir de la fuga de información o ayudar a la identificación del responsable en un caso de fuga.

La información que se incluye en los documentos con este fin suele estar destinada a ser imperceptible para los seres humanos, mientras que es apreciable para los sistemas informáticos, que pueden leerla y decodificarla. Esa inclusión de información se denomina habitualmente marca de agua. Una marca de agua es una alteración de un documento que puede incluir una imagen o patrón de identificación, como el espaciado entre caracteres o la deformación de los mismos en el caso del texto, o el desplazamiento de los píxeles en frecuencia o espacio en el caso de las imágenes. La marca de agua puede representar un código o un signo o firma únicos. La marca de agua puede reproducirse en diferentes partes/secciones del propio documento, permitiendo que se extraiga también de una parte del documento original (en el caso de documentos dañados/sucios/arrugados). Por último, la marca de agua no puede ser apreciada por una inspección humana, mientras que puede ser identificada en una inspección digital, recuperando el código representado.

Existen muchos procedimientos diferentes para incluir las marcas de agua en los datos multimedia, a saber, audio, vídeo e imágenes, para los que existe una amplia literatura científica que describe los procedimientos de incrustación y extracción. Sin embargo, la inclusión y extracción de marcas de agua de los datos multimedios suele implicar técnicas no aplicables a los documentos de texto.

Se utilizan diferentes procedimientos para incluir información en los documentos de texto, lo que suele implicar la adición o el cambio de la apariencia de un documento. Los procedimientos más fáciles incluyen marcas visibles en el documento, como los códigos de barras. Sin embargo, la adición de marcas visibles en el documento puede no ser aceptable para diversas aplicaciones, ya sea por razones estéticas o porque la marca de agua debe pasar desapercibida para el usuario. Por ello, las marcas de agua imperceptibles son de gran interés para los documentos de texto, en los que suele haber pocas zonas en las que ocultar una marca que en los datos multimedia.

En lo que respecta a las marcas de agua imperceptibles en los documentos de texto, se dispone de diferentes técnicas que se basan principalmente en una de las tres metodologías de codificación siguientes: i) se pueden implicar elementos especiales para incrustar la marca de agua, que no forman parte del proceso estándar de impresión (por ejemplo, tintas o papeles especiales), ii) se puede codificar la información en la parte de texto del documento, mediante reglas semánticas o sintácticas, es decir, alterando el contenido del texto mediante sinónimos o diferentes juegos de letras mayúsculas y minúsculas, etc., o iii) se puede codificar la información en la modificación del aspecto del documento, incluidas las variaciones de color, las transposiciones de partes del contenido, etc.

Algunas de las técnicas disponibles para integrar las marcas de agua en los documentos son válidas para los documentos en papel, otras para los documentos digitales (un documento digital es un documento original creado en un formato digital, por ejemplo, normalmente PDF), algunas para ambos formatos, pero todas ellas presentan limitaciones, como la dependencia del proceso de impresión y digitalización, o la falta de resistencia a la impresión, la distorsión o la cantidad limitada de información que puede incorporarse al documento.

El documento US2005/039021 divulga un procedimiento de marca de agua en un texto que incorpora un mensaje auxiliar en un documento de texto electrónico original para formar un documento de texto con marca de agua. El procedimiento aplica una función de difusión en símbolos de mensaje para difundir los símbolos sobre un portador modulado y elementos de mapas del portador para hacer corresponder espacios inter-palabras en el documento de texto electrónico. A continuación una función de incrustación modifica los espacios inter-palabras para ocultar el portador modulado en el documento de texto con marca de agua. Un decodificador compatible extrae el mensaje auxiliar de un documento de texto impreso o electrónico con marca de agua. El decodificador estima elementos de una señal portadora modulada incrustada en los espacios inter-palabras y aplica una función de difusión a la señal portadora modulada estimada para extraer los símbolos del mensaje.

El documento US2011/016388 divulga un procedimiento que incorpora datos encubiertos en un documento de texto utilizando codificación de espacios que cambia el espacio inter-palabras y/o inter-caracteres en una línea de texto a un formato particular. El procedimiento determina un espacio horizontal entre caracteres alterándolos, de modo que el espacio alterado representa los datos encubiertos incorporados. El documento formateado se basa en el espacio alterado de modo que el dato queda esencialmente oculto visualmente en el documento de texto.

Por consiguiente, es muy conveniente desarrollar un procedimiento para incrustar marcas de agua en los documentos de texto en papel y en los documentos digitales que resulten resistentes a las distorsiones del documento, sin necesitar el documento original para la extracción de la marca de agua y sin requerir ningún equipo especial para imprimir o escanear el documento.

Sumario de la invención

La presente invención resuelve los problemas mencionados y supera las limitaciones de trabajo anteriormente explicadas por el estado de la técnica al proporcionar un procedimiento para incrustar/extraer marcas de agua digitales para proteger los documentos. Más particularmente, se proporciona un procedimiento para incrustar una marca de agua digital que codifica un mensaje en un documento original. El documento original puede ser un documento digital o digitalizado (un documento digitalizado es un escaneado/imagen de un documento digital previamente impreso en papel, o la conversión a un formato digital diferente de un documento digital), incluidos los documentos de texto, tanto en formato vectorial como en objetos de mapeo de píxeles. También se proporciona el procedimiento inverso, es decir, el procedimiento para extraer el mensaje de la marca de agua incrustada en un documento, sin requerir el documento original.

Un aspecto de la presente invención se refiere a un procedimiento para incrustar marcas de agua en los documentos, que recibe como entrada un documento original y un mensaje para obtener como salida un documento con marca de agua que tiene una marca de agua incrustada, la cual codifica el mensaje recibido. El procedimiento de la marca de agua comprende los siguientes pasos:

- identificar y localizar los espacios en el documento original mediante un módulo de análisis de localización, distinguiendo el análisis de localización entre espacios intra e inter-palabras;

- minimizar la probabilidad de error de interferencia entre los espacios intra-palabras y los espacios inter palabras en el documento con marca de agua mediante un módulo de optimización;

- codificar el mensaje en palabras clave y codificar las palabras clave en la marca de agua;

- incrustar la marca de agua para generar el documento con marca de agua modificando los espacios intra- e inter-palabras del documento original.

Otro aspecto de la presente invención se refiere a un procedimiento para extraer marcas de agua de los documentos, el procedimiento que recibe como entrada un documento recibido que resulta de eventuales deformaciones de un documento con marca de agua y el procedimiento que comprende los pasos siguientes:

- identificar y localizar los espacios en el documento recibido mediante un módulo de análisis de localización que distingue entre espacios intra e inter-palabras y obtiene un vector S'^bwcorrespondiente a los espacios inter-palabras del documento con marca de agua;

- mapear los espacios inter-palabras del vector S'^bwa símbolos según un alfabeto de palabras clave w = { w i}, i= 1, 2,...Q; Q es el número de símbolos del mensaje codificado por la marca de agua del documento con marca de agua y los símbolos están mapeados unívocamente a las palabras clave w;

- desempaquetar los símbolos mapeados para obtener bloques de sincronización y bloques de símbolos de carga útil;

- decodificar el canal de los bloques de carga útil para extraer el mensaje que fue codificado por la marca de agua, la marca de agua incrustada en el documento con la marca de agua.

Otro aspecto más de la presente invención se refiere a un programa informático y un medio no transitorio legible por computadora, que contiene instrucciones o código informático (almacenado en el medio no transitorio legible por computadora) para hacer que los medios de procesamiento (de un procesador informático) realicen los pasos de los procedimientos de incrustación y/o extracción de marcas de agua descritos anteriormente.

La presente invención tiene varias ventajas con respecto al estado de la técnica, que pueden resumirse como sigue: - La recuperación ciega de la marca de agua incrustada, es decir, la recuperación del mensaje incrustado no requiere la presencia del mensaje original.

- Resiliencia a la distorsión de los documentos, como la interrupción parcial, las distorsiones de impresión/escaneado, el cambio de color en el proceso de impresión/escaneado, etc.

- Independencia del procedimiento de marca de agua respecto al formato del documento (digital, digitalizado o impreso).

- Independencia del procedimiento de marca de agua respecto a la tecnología de impresión y escaneo, no requiriendo ningún dispositivo ni tecnología específicos.

- La solución resultante es inapreciable en la inspección humana, pero identificable en la inspección digital. - No se requiere edición de texto.

Éstas y otras ventajas serán aparentes a la luz de la descripción detallada de la invención.

Descripción de los dibujos

Con el fin de ayudar a la comprensión de las características de la invención, de acuerdo con una realización práctica preferente de la misma y con el fin de complementar esta descripción, se adjuntan las siguientes figuras como parte integrante de la misma, teniendo un carácter ilustrativo y no limitativo:

La figura 1 muestra un diagrama de bloques genérico del procedimiento de incrustación de la marca de agua.

La figura 2 muestra un diagrama de bloques genérico del procedimiento inverso para la extracción de marcas de agua. La figura 3 muestra un detallado diagrama de bloques del procedimiento de incrustación de la marca de agua, de acuerdo con la realización preferente de la invención.

La figura 4 muestra un diagrama de bloques del módulo de análisis de localización incluido en el procedimiento de incrustación de la marca de agua que se muestra en la figura 3 anterior, según una posible realización de la invención. La figura 5 muestra un empaquetamiento de mensajes para el procedimiento de incrustación de la marca de agua de la figura 3, de acuerdo con una posible incorporación de la invención.

La figura 6 muestra un detallado diagrama de bloques del procedimiento para la extracción de marcas de agua, según otra posible realización de la invención.

Realización preferente de la invención

Por supuesto, las realizaciones de la invención pueden implementarse en una variedad de plataformas arquitectónicas, sistemas operativos y de servidores, dispositivos, sistemas o aplicaciones. Cualquier disposición o implementación arquitectónica particular que se presente aquí se proporciona únicamente con fines de ilustración y comprensión y no pretende limitar los aspectos de la invención.

La figura 1 muestra que el procedimiento de incrustación de la marca de agua (11) propuesto aquí toma como entrada un documento original (10) y un mensaje (30) para ser codificado en la marca de agua. El documento original (10) puede ser un documento digital o un documento digitalizado, incluyendo, por ejemplo, un documento escaneado de un papel impreso. El procedimiento de incrustación de la marca de agua (11) devuelve como salida una nueva versión del documento, el documento con la marca de agua (20), que no se distingue en la observación humana del documento original (10) pero que incluye la marca de agua que codifica el mensaje de entrada (30).

El procedimiento de extracción de la marca de agua (12), que se muestra en la figura 2, es el proceso inverso al procedimiento de incrustación de la marca de agua antes mencionado (11) y toma como entrada una copia de un documento recibido (60), que puede estar en formato digital o digitalizado, incluyendo eventualmente la distorsión, y extrae el mensaje incrustado (30). El elemento de entrada en el procedimiento de extracción (12) no suele ser el documento con marca de agua (20), ya que el documento recibido (60) puede ser diferente del enviado debido a la distorsión, el ruido, etc.

El procedimiento de incrustación de la marca de agua (11) se divide en subprocesos más detallados en la figura 3. El documento original (10) se somete en primer lugar a un análisis de localización (110), que tiene por objeto encontrar y analizar los espacios presentes en el texto del documento original (10). Una vez localizados y analizados los espacios, el documento original (10) se somete a un módulo de optimización (111) para minimizar la probabilidad de error en un futuro proceso de extracción de marcas de agua teniendo en cuenta determinadas limitaciones de distorsión (112). Paralelamente, el mensaje (30) que ha de incorporarse al documento debe codificarse (113) en palabras clave y las palabras clave codificadas (114) en una marca de agua. Por último, la marca de agua se incrusta en un documento para generar (115) un documento con marca de agua (20).

El análisis de localización (110) consta de diferentes pasos que se muestran con más detalle en la figura 4. En primer lugar, se comprueba (401) si el documento original de entrada (10) se proporciona en formato de mapa de bits o no. Si el documento original (10) se proporciona en un formato que no sea de mapa de bits, se convierte (402) en un formato de mapa de bits para tener una referencia común para el posicionamiento del espacio en el documento, en píxeles, independientemente del documento original (10). Como segundo paso, se realiza una segmentación basada en imágenes (403) para encontrar los espacios en el texto del documento. La segmentación basada en imágenes (403) puede realizarse mediante diferentes técnicas, entre ellas la proyección y la agrupación. Las proyecciones representan un procedimiento más fácil, mientras que la agrupación o el reconocimiento óptico de caracteres, OCR, pueden representar soluciones válidas en caso de fondo de texto no homogéneo. Suponiendo una distribución horizontal estándar del texto en un documento de fondo homogéneo, se realizan primero proyecciones horizontales del texto para detectar las líneas del mismo.

Binarizando el documento en formato de mapa de bits y sumando los píxeles en dirección horizontal, se obtiene la proyección horizontal Ph(r) como:

Ph(r) = IcI(r,c)

donde r es la fila r-ésima, c es la columna c-ésima, e I(r,c) es la imagen binarizada del documento.

Estableciendo un valor umbral adecuado, el documento en formato de mapa de bits puede ser segmentado en líneas de texto, encontrando umbrales de binarización óptimos a partir del histograma de la imagen. Una vez que se calculan las proyecciones, y se identifican las líneas de texto, cada línea de texto se segmenta. A cada línea corresponde su proyección vertical Pvi(c):

Pvi(c) = ZrI¡(r,c)

donde, Ii(r,c) es la imagen binarizada del documento recortada en la línea i-ésima.Aplicando la misma técnica utilizada para aislar la línea de texto utilizando la proyección horizontal Ph(r), los espacios en cada línea pueden ser identificados y medidos aplicando un umbral adecuado a la proyección vertical Pvi(c).

El resultado (404) de la segmentación (403) es un conjunto de longitudes espaciales y un conjunto de sus correspondientes ubicaciones en el documento, denotadas como conjunto S y conjunto L respectivamente. Los espacios identificados se clasifican entonces (405) en espacios intra e inter-palabras. Como el proceso se trata de un documento bitmap, esta clasificación espacial (405) puede basarse en técnicas de OCR - Reconocimiento Óptico de Caracteres - o en un algoritmo de agrupación mediante el análisis del histograma de las longitudes espaciales, S. Como resultado de esta clasificación (405), los conjuntos originales de longitudes espaciales S y de ubicaciones L se dividen respectivamente en conjuntos (406), Ssy Sb, y Ls y Lb, siendo los conjuntos de la longitud y ubicación de los espacios intra e interpalabras, respectivamente.

Como paso siguiente, los conjuntos de salida (406) de la clasificación espacial (405) se alimentan a un proceso de optimización, con el fin de reducir la probabilidad de error del futuro proceso de extracción de la marca de agua. En particular, a fin de reducir al mínimo la posible interferencia entre los espacios inter-palabras e intra-palabras en el proceso de extracción de la marca de agua (es decir, la interpretación de un espacio de un tipo por otro tipo), puede aumentarse la distancia entre las longitudes de los dos tipos de espacios. Esta operación se denomina "rechazo del huésped". Esta operación introduce una distorsión en el documento (10), denominada Dr, que está regulada por un parámetro de restricción adecuado recibido como entrada, denominado Dr_max. En particular, una posible solución para minimizar la probabilidad de error manteniendo la distorsión por debajo de Dr_max consiste en tomar un espacio de palabras interno modificado S*s¡, para la línea i-ésima, igual a:

j( i) £ si Ss¡ > j( i) S

Ss¡ de otro modo

donde |j(¡) es el valor medio de la longitud de los espacios intra-palabra Ss¡ en la línea i-ésima, y £ es el parámetro de rechazo de huéspedes, que debe ajustarse para obtener Dr = Dr_max.

Dr es un valor indicativo del cambio en las longitudes de los espacios intra-palabra para todas las líneas del documento (10), es decir, Dr = £i |S*s¡ - Ss¡|

Por lo tanto, Dr = £i (Ss¡ -( j( i) s)) para Ss¡ > j(¡) s

Como se conocen Ss¡ y j(¡), se extrae el valor del rechazo del huésped £ y se utiliza para determinar Dr = Dr_max.

El efecto de la solicitud de rechazo del huésped mencionada anteriormente es reducir los mayores espacios intrapalabras en cada línea, lo que resulta en mayores espacios intra-palabra. En general, el objetivo es mantener la longitud total de cada línea sin cambios. Como tal, debe cumplirse la siguiente condición:

IkS*s¡(k) I kS*Bi(k) = IkS s (k) XkSBi(k)

siendo Ssi(k) la longitud del k-ésimo espacio inter-palabras de la línea i-ésima, S*si(k) la longitud modificada del mismo espacio, y, correspondientemente, SBi(k)y S*Bi(k) la longitud original y modificada del k-ésimo espacio inter-palabras de la línea i-ésima.

Siendo Nb(i) el número de espacios inter-palabras en la línea i-ésima, la ecuación anterior puede ser resuelta usando espacios modificados iguales a:

S*Bi(k) = SBi(k) dkSsi(k)- IkS *s (k))/Nb(i)

lo que resulta en una redistribución homogénea del espacio extra entre los espacios inter-palabras, lo que a su vez resulta de la reducción de los espacios intra-palabras.

El mensaje (30) que se codificará en la marca de agua es una secuencia de bits de longitud K. El mensaje (30) se codifica mediante un módulo de codificación (113). Como primer paso, el módulo de codificación (113) agrega una codificación de canal al mensaje (30) para hacerlo robusto a los errores de decodificación. Esto se logra mediante códigos estándar de corrección de errores de avance, lo que da como resultado un mensaje modificado (m') de longitud L > K, que se muestra en la figura 5. En una segunda etapa, el mensaje modificado (m') se divide como una secuencia de símbolos (500, 500') en bloques de carga útil (510, 510') de longitud N. Además, antes de cada bloque de carga útil (510, 510'), se añade un bloque de sincronización (520, 520') de longitud T para permitir que el decodificador de marca de agua se recupere de los errores de sincronización resultantes de las malas interpretaciones de los espacios intra- e inter-palabras, que se derivan de las distorsiones de los documentos. La secuencia resultante (m") tiene una longitud L(1+T/N).

Una vez generado el mensaje codificado, se genera el documento con marca de agua (20) (115) mediante un proceso de dos pasos:

1. Un módulo de codificación de marcas de agua codifica cada símbolo del mensaje codificado en una secuencia de longitudes espaciales. Como resultado, los espacios inter-palabras del documento SB*se modifican a los espacios inter-palabras con marca de agua Sbw.

2. El documento final con marca de agua (20) se genera modificando los espacios del documento anterior, según los vectores de espacio intra-palabra Ss*y espacio inter-palabra Sbw.

La incrustación de la marca de agua se realiza por paquetes de acuerdo con una clave secreta, lo que resulta en una secuencia de palabras clave {w-i, ... wq}, siendo Wi = [wi(1), ... Wi(P)], i= 1, 2,...Q, y Wi(k) = ±1. Siendo el número de palabras clave Q igual al número de diferentes símbolos en el mensaje codificado y empaquetado, cada símbolo puede ser asignado unívocamente a una palabra clave. Luego, para cada símbolo del paquete p(i), se realizan las siguientes operaciones:

1. Seleccionar un subconjunto de elementos P en Sb* de longitud N I , mapeado a S ^a través de una clave secreta. El subconjunto puede incluir elementos pertenecientes a diferentes líneas de texto.

2. Incrustar la palabra clave seleccionada wt en el subconjunto seleccionado usando la siguiente fórmula:

SW (k) = S*B(k) Wt(k) ct(k) S‘B(k) = Sfe(k) (1 wt(k) ct(k))

donde el ct(k) es un factor de ponderación. Según el signo de la palabra clave seleccionada wt(k), para el espacio inter palabras k-ésimo en la línea t-ésimo, el espacio inter-palabras SW (k) del documento con marca de agua (20) puede ser más largo o más corto que el espacio original S^(k).

La función del factor de ponderación ct(k) es asegurar que la primera y la última letra de cada línea permanezcan en la misma posición (realmente importante, por ejemplo, en los textos justificados y para evitar modificaciones de la disposición en el documento resultante). El factor de ponderación ct(k) es necesario cuando el número de espacios inter-palabras grandes y cortos en una línea determinada no es igual. En general, esto es así cuando

Ik SW (k) = Ik S‘B(k)

o, de forma equivalente,

IkWi(k)ci(k)SBi(k) = 0

siendo ci(k) y Wi(k) el factor de ponderación y el componente de la palabra clave respectivamente para el espacio inter palabras k-ésimo en la línea i-ésimo, según la cartografía definida anteriormente.

Como tal, la condición anterior puede ser reescrita como:

Ik3 wi(k) = ¹ci(k)SBi(k) = Ik3 wi(k) = ^-1ci(k) SBi(k)

siendo el primer término la suma de los espacios para los cuales los elementos de codificación es 1, ponderado con el correspondiente factor de ponderación, mientras que el segundo término la suma de los espacios para los cuales los elementos de codificación es -1, ponderado con el correspondiente factor de ponderación. Esto equivale a:

c-i/c^.1- Xk3 wi(k) = -1 SBi(k) / Xk3 wi(k) = 1 SBi(k)

Además, si los espacios inter-palabras en cada línea son uniformes, que es el caso común, entonces SBi(k) - Sb y la condición se convierte en: c¹/c ^.1- N^-1/N¹, siendo N^-1el número de elementos de codificación "-1" y N¹el número de elementos de codificación "1", en Wi(k) para la línea i-ésima.

La generación del documento con marca de agua (20) concluye, por lo tanto, modificando los espacios del documento original según los conjuntos Ss*y Sbw.

El procedimiento inverso (12) para extraer el mensaje incrustado del documento con marca de agua (20) se muestra en la figura 6. Una vez que se recibe un documento (60), se deben realizar ciertas operaciones para recuperar la marca de agua incrustada. El documento recibido (60) puede haber sufrido una serie de transformaciones desde su creación como documento con marca de agua (20), entre ellas la impresión y/o el escaneado, introduciendo eventualmente distorsiones en él, que deben tenerse en cuenta en el proceso de descodificación. Así pues, el primer paso del procedimiento de extracción de la marca de agua (12) consiste en la reducción del ruido (610) y la corrección geométrica (620), por ejemplo, la rotación, el escalado y la transformación de la perspectiva. Las distorsiones generales incluyen la suciedad, la borrosidad y el sombreado no uniforme, que pueden eliminarse aplicando procedimientos de binarización y operaciones morfológicas sobre el documento recibido (60). El objetivo principal del proceso de reducción de ruido (610) es limpiar los espacios entre las palabras y las letras. Por otra parte, el objetivo principal del proceso de corrección geométrica (620) es aplicar la rotación apropiada al documento recibido de manera que las líneas resulten aproximadamente horizontales para permitir la detección de líneas y espacios. Para lograr este objetivo pueden aplicarse procedimientos estándar de desestabilización, normalmente basados en la detección de bordes o transformaciones para detectar las líneas del documento y calcular el ángulo de rotación a aplicar. El siguiente paso del procedimiento de extracción de la marca de agua (12) consiste en un análisis de la ubicación (630) similar al análisis de la ubicación (110) descrito en la figura 3 para el procedimiento de la marca de agua (11), a fin de detectar la ubicación y el tamaño de los espacios del documento en los que se ha insertado la marca de agua. Los espacios deben clasificarse entonces en espacios intra e inter-palabras. Si se utilizan procedimientos de agrupación para esta clasificación, debe tenerse en cuenta que los espacios inter-palabras en el documento recibido (60) presentan dos longitudes diferentes, distintas de las del documento original (10), debido a la incrustación de la marca de agua. Por último, como los espacios intra-palabras no contienen información de marca de agua, no son pertinentes como resultado de este proceso de clasificación, mientras que los espacios inter-palabras se registran en el correspondiente vector S W Como paso adicional, los espacios en S'bw tienen que ser mapeados (640) a símbolos de acuerdo con el alfabeto w previamente definido y como sigue:

- Como primer paso del mapeo de símbolos (640), los espacios se agrupan en subconjuntos de tamaño P. El subconjunto t-ésimo de espacios S W codificará por lo tanto un símbolo Wi, con i e {1, ... , Q}. La estimación del símbolo más probable puede expresarse como:

c - arg maxc e {¹, ..., q> f(SW|Wc)

siendo f(SW|Wc) la función de densidad de probabilidad de las condiciones SW en Wc. En la práctica, una estimación estadística es difícilmente aplicable, ya que implica el conocimiento de la distribución estadística del S W y sus parámetros, que varía en gran medida según el tipo de documento y la fuente, y requiere una gran P para tener una muestra estadísticamente significativa. Por ello, la cartografía (640) de los espacios en los símbolos se realiza basándose únicamente en los medios de la muestra observada. De hecho, después de incrustar la palabra clave Wc en SB, la media de la muestra S W tiene la forma |Jk(1+AWc(k)), siendo |Jk la media de S W ). Por lo tanto, los espacios de las marcas de agua se distribuyen alrededor de los centros de Q, de modo que el símbolo incrustado puede estimarse mediante técnicas de cuantificación vectorial, basándose en diversos procedimientos existentes para tal operación, incluida la manera escalar. Obsérvese que, si se ha utilizado un procedimiento de agrupación en el análisis de localización (630), esa clasificación puede proporcionarse naturalmente como un resultado secundario de ese proceso.

- Como siguiente paso, se realiza el mapeo entre SBwi(k) y Wi(k) asignando a Wi(k) los valores de 1 o -1 dependiendo de la correspondiente clasificación espacial como grande o corto, respectivamente. Las estimaciones de Wi(k) se ordenan de acuerdo con el subconjunto definido en la fase de incrustación y las secuencias resultantes se comparan con las palabras clave del alfabeto. Si Wc es la palabra clave más similar, se selecciona el símbolo c e {1, ..., Q}.

Los símbolos estimados resultantes del mapeo (640) se dan finalmente como entrada a un paso de desempacado (650), que busca los símbolos de sincronización y extrae los símbolos de la carga útil. Por último, la descodificación del canal (650) se aplica a los símbolos de la carga útil para extraer el mensaje original (30) que se incorporó al documento con marca de agua recibido (60).

Obsérvese que en este texto, el término "comprende" y sus derivaciones (como "comprender", etc.) no deben entenderse en sentido excluyente, es decir, no debe interpretarse que estos términos excluyen la posibilidad de que lo que se describe y define pueda incluir otros elementos, pasos, etc.

Claims

REIVINDICACIONES

Un procedimiento (11) para marcar documentos con marca de agua, recibiendo un documento original (10) que incluye un texto y un mensaje (30) para obtener un documento con marca de agua (20) incrustando una marca de agua que codifica el mensaje recibido (30), comprendiendo el procedimiento:

- identificar y localizar los espacios en el documento original (10) mediante un módulo de análisis de localización (110), distinguiendo el análisis de localización (110) entre espacios intra-palabras y espacios inter- palabras, y en el que el análisis de localización (110) comprende:

- comprobar (401) si el documento original recibido (10) es un documento con formato de mapa de bits y si el documento original (10) está en un formato no de mapa de bits, convertir (402) el documento original (10) en un documento con formato de mapa de bits;

- aplicar una segmentación basada en imágenes (403) al documento con formato de mapa de bits para obtener un conjunto de longitudes y un conjunto de ubicaciones de los espacios en el documento con formato de mapa de bits;

- clasificar (405) los espacios identificados y localizados en espacios intra e inter-palabras para obtener conjuntos (406) de longitudes de los espacios intra e inter-palabras, Ss y Sb respectivamente, y conjuntos de localizaciones de los espacios intra e inter-palabras, Ls y Lb, del documento original (10).

- reducir al mínimo la probabilidad de error que corresponde a una interferencia entre espacios intra-palabras y espacios inter-palabras en el documento con marca de agua (20) mediante un módulo de optimización (111), en el que el módulo de optimización (111) determina una distancia entre las longitudes de los espacios intra- e inter-palabras, y en el que el módulo de optimización (111) minimiza la probabilidad de error mediante:

- obtención de un conjunto modificado de espacios intra-palabra,S*s = { S*sí } donde i denota un número de línea del documento original (10) y S*sí es igual a:

M(i) £ si Ssí > M(i) £,

y Ssi lo contrario; donde p(¡) es un valor promedio de los espacios intra-palabras Ssi en la línea iésima y £ es un parámetro de rechazo de huéspedes que es un parámetro ajustable para aumentar la distancia entre las longitudes de los espacios intra e inter palabas,

- obtener un conjunto modificado de espacios inter-palabras,S*B = { S*b¡ } donde i denota un número de línea del documento original (10), donde

S*b¡ = { S*b¡ (k)}, siendo S*Bi(k) la longitud modificada del k-ésimo espacio inter-palabras de la línea i-ésima y SBi(k) la longitud original del k-ésimo espacio inter-palabras de la línea i-ésima del documento original (10),

S*s = { S*s¡ (k)}, siendo S*si(k) la longitud modificada del k-ésimo espacio intra-palabras de la línea i-ésima y Ss¡(k) la longitud original del k-ésimo espacio intra-palabras de la línea i-ésima del documento original (10), y

S*B¡(k) = SBi(k) dkSsi(k)- IkS*s¡(k))/Nb(i)

siendo Nb(i) el número de espacios inter-palabras en la línea i-ésima del documento original (10).

codificar (113) el mensaje (30) en palabras clave y codificar (114) las palabras clave en la marca de agua;

incrustar la marca de agua en el documento original (110) para generar (115) el documento con la marca de agua (20) modificando los espacios intra e inter-palabras del documento original (10) de acuerdo con la codificación (113) del mensaje recibido(30), en el que generar (115) el documento con marca de agua (20) comprende:

seleccionar un subconjunto del conjunto de espacios inter-palabras,S*B, mapeado al conjunto de espacios inter-palabras de la línea t-ésima,StB, a través de una clave secreta;

seleccionar una palabra clave wt del mensaje codificado (30)

incrustar la palabra clave seleccionada wt en el subconjunto seleccionado de espacios inter-palabras calculando un espacio inter-palabras modificado Sbw del documento con marca de agua (20) utilizando la expresión

SW (k) = Styk) wt(k)-ct(k)-S‘B(k) = Styk) (1 wt(k)ct(k))

donde wt(k) es la palabra clave seleccionada, para el k-ésimo espacio inter-palabras en la línea tésima; StB(k) es el k-ésimo espacio inter-palabras en la línea t-ésima del espacio inter-palabras S^bdel documento original (10), SW (k) es el k-ésimo espacio inter-palabras en la línea t-ésima del espacio inter-palabras S^bwdel documento con marca de agua (20) y ct(k) es un factor de ponderación;

modificar los espacios intra e inter-palabras en del documento original (10) sustituyendo el espacio intra-palabras, S^s, y el espacio inter-palabras, S^b, respectivamente por el conjunto modificado de espacios intra-palabras,S*s, y el espacio inter-palabras modificado, S^bw, en el documento con marca de agua (20).
2. El procedimiento según la reivindicación 1, en el que la segmentación basada en la imagen (403) aplica la agrupación o el reconocimiento óptico de caracteres si el documento original recibido (10) tiene un fondo de texto no homogéneo.
3. El procedimiento según la reivindicación 1, en el que la segmentación basada en la imagen (403) aplica proyecciones si el documento original recibido (10) tiene un fondo de texto homogéneo.
4. El procedimiento según cualquier reivindicación anterior, en el que la codificación (113) del mensaje (30) de longitud K comprende la adición de una codificación de canal al mensaje (30) para obtener un mensaje modificado (m') de longitud L > K, la división del mensaje modificado (m') en bloques de carga útil (510, 510') de longitud N y la adición de un bloque de sincronización (520, 520') de longitud T antes de cada bloque de carga útil (510, 510') respectivamente para obtener una secuencia de símbolos (m") de longitud L(1+T/N).
5. El procedimiento según cualquier reivindicación anterior, en el que se selecciona el documento original (10) de un documento digital y un documento digitalizado.
6. Un procedimiento (12) para recibir un documento (60) del procedimiento de la reivindicación 1 y extraer marcas de agua del documento recibido (60) resultante de un documento con marca de agua (20) que tiene una marca de agua incrustada que codifica un mensaje (30) de un número Q de símbolos, comprendiendo el procedimiento:

- identificar y localizar los espacios en el documento recibido (60) mediante un módulo de análisis de localización (630), distinguiendo el análisis de localización (630) entre espacios intra e inter-palabras y obteniendo un vector S'^bwcorrespondiente a los espacios inter-palabras del documento con marca de agua (20);

- mapear (640) los espacios inter-palabras del vector S'^bwa símbolos según un alfabeto de palabras clave w = { wi }, i= 1, 2,...Q; siendo Q el número de símbolos del mensaje (30) y siendo los símbolos mapeados unívocamente a las palabras clave w;

- desempacar (650) los símbolos mapeados para obtener bloques de sincronización y bloques de símbolos de carga útil;

- decodificación del canal (660) de bloques de carga útil para extraer el mensaje (30).
7. El procedimiento según la reivindicación 6, en el que el documento recibido (60) es una copia distorsionada del documento con marca de agua (20).
8. El procedimiento según cualquiera de las reivindicaciones 6-7, que comprende además la aplicación de la reducción de ruido (610) y la corrección geométrica (620) al documento recibido (60) antes del análisis de localización (630).
9. Un medio no transitorio legible por ordenador que contiene instrucciones informáticas almacenadas en él para hacer que un procesador de ordenador realice el procedimiento de acuerdo con cualquiera de las reivindicaciones 1-5.
10. Un medio no transitorio legible por ordenador que contiene instrucciones informáticas almacenadas en él para hacer que un procesador de ordenador realice el procedimiento de acuerdo con cualquiera de las afirmaciones 6-8.