ES2555180B1 - Método implementado por ordenador para sincronizar anotaciones entre un documento impreso y un documento electrónico, soporte legible por ordenador y sistema correspondientes - Google Patents

Método implementado por ordenador para sincronizar anotaciones entre un documento impreso y un documento electrónico, soporte legible por ordenador y sistema correspondientes Download PDF

Info

Publication number
ES2555180B1
ES2555180B1 ES201590093A ES201590093A ES2555180B1 ES 2555180 B1 ES2555180 B1 ES 2555180B1 ES 201590093 A ES201590093 A ES 201590093A ES 201590093 A ES201590093 A ES 201590093A ES 2555180 B1 ES2555180 B1 ES 2555180B1
Authority
ES
Spain
Prior art keywords
annotation
document
electronic
text
printed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES201590093A
Other languages
English (en)
Other versions
ES2555180R1 (es
ES2555180A2 (es
Inventor
Aaron Cooper
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Enterprise Centre GmbH
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of ES2555180A2 publication Critical patent/ES2555180A2/es
Publication of ES2555180R1 publication Critical patent/ES2555180R1/es
Application granted granted Critical
Publication of ES2555180B1 publication Critical patent/ES2555180B1/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/171Editing, e.g. inserting or deleting by use of digital ink

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Facsimiles In General (AREA)

Abstract

Método implementado por ordenador para sincronizar anotaciones entre un documento impreso y un documento electrónico, soporte legible por ordenador y sistema correspondientes. Está prevista una imagen de una parte de documento impreso para un sincronizador. El sincronizador recupera una versión electrónica del documento impreso e identifica una parte de texto electrónico que es textualmente similar a una parte de texto impreso. El sincronizador detecta una anotación en la parte de documento impreso e inserta una anotación digital correspondiente en el documento electrónico.

Description

Breve descripcion de los dibujos
La figura 1 es un diagrama de bloques que ilustra un entorno de funcionamiento (y, en algunas 5 formas de realization, aspectos de la presente invention) de acuerdo con formas de realization de la presente invencion;
la figura 2 es un diagrama esquematico que representa un funcionamiento ilustrativo de un sincronizador de acuerdo con formas de realizacion de la presente invencion;
10
la figura 3 es un diagrama esquematico que representa una operation de poda ilustrativa de acuerdo con formas de realizacion de la presente invencion;
la figura 4 es un diagrama de flujo que representa un metodo ilustrativo de sincronizacion de 15 anotaciones entre un documento impreso y un documento electronico, de acuerdo con formas de realizacion de la presente invencion; y
la figura 5 es un diagrama de flujo que representa un metodo ilustrativo de detection de anotaciones en una parte de documento impreso de acuerdo con formas de realizacion de la 20 presente invencion.
Aunque la presente invencion esta abierta a varias modificaciones y formas alternativas, en los dibujos se han mostrado a tltulo de ejemplo formas de realizacion especlficas y las mismas se describen de forma detallada posteriormente. Sin embargo, la presente invencion no se limita a 25 las formas de realizacion particulares descritas. Por el contrario, la presente invencion esta destinada a abarcar todas las modificaciones, equivalentes, y alternativas que se situen dentro del ambito de la presente invencion segun queda definido por las reivindicaciones adjuntas.
Aunque el termino "bloque” se puede usar en la presente para connotar diferentes elementos 30 de metodos ilustrativos utilizados, el termino no debe interpretarse de manera que implique ninguna exigencia de diversas etapas, u orden particular entre ellas, dadas a conocer en la presente, a no ser que se haga referencia expllcitamente al orden de etapas individuales y solamente en ese caso.
5
10
15
20
25
30
35
Description detallada
En formas de realization, un lector tal como un estudiante, un doctor o un abogado, puede que desee mantener al mismo tiempo una version impresa de un documento y una version electronica del mismo, o puede que desee comenzar a usar solamente una version electronica de un documento despues de haber utilizado la version impresa. El documento impreso puede incluir un numero ilimitado de anotaciones, tales como, por ejemplo, partes resaltadas, subrayadas, notas escritas a mano, marcapaginas, y similares, que el lector puede desear tener a su disposition en la version electronica del documento. Formas de realization de la presente invention incluyen un sincronizador que facilita la sincronizacion de anotaciones, tales como las mencionadas, entre el documento impreso y la version electronica, de manera que las anotaciones pueden estar disponibles para el lector en la version electronica del documento. Por ejemplo, el lector puede crear imagenes de partes anotadas del documento impreso (por ejemplo, usando una camara o escaner) y proporcionar dichas imagenes al sincronizador, o el lector puede proporcionar el documento impreso a un servicio de escaneado (el cual, en formas de realization, puede estar asociado al sincronizador). El servicio de escaneado puede usar un dispositivo de escaneado para crear imagenes de las partes anotadas del documento impreso y proporcionar las imagenes resultantes al sincronizador. Adicionalmente, en formas de realization, el sincronizador puede facilitar la navegacion de una version electronica de un documento impreso tal como, por ejemplo, para facilitar la insertion directa, por parte del lector, de anotaciones digitales en la version electronica. Por ejemplo, un lector puede proporcionar una imagen de una parte del documento impreso al sincronizador, el cual usa la imagen para localizar y visualizar una parte correspondiente del documento electronico, en la cual el lector puede insertar directamente una anotacion digital.
La figura 1 representa un entorno de funcionamiento ilustrativo 100 (y, en algunas formas de realization, aspectos de la presente invention) de acuerdo con formas de realization de la presente invention segun se ilustra a tltulo de ejemplo. Tal como se muestra en la figura 1, formas de realization del entorno de funcionamiento 100 incluyen un servidor 102 que proporciona una copia 104 (etiquetada como "copia de documento electronico”) de un documento electronico 106 (etiquetado como "documento electronico”) a un dispositivo de lectura 108 y que aloja un sincronizador 126, segun se describe de forma mas detallada posteriormente. En formas de realization, el sincronizador 126 puede ser alojado por el dispositivo de lectura 108 u otro dispositivo informatico, y el servidor 102 puede actuar simplemente como un repositorio para el documento electronico 106.
5
10
15
20
25
30
35
Como su nombre implica, el dispositivo de lectura 108 es, en formas de realization, lo que usa el lector para leer documentos electronicos, e incluye un modulo de visualization 110 en el cual se puede visualizar la copia 104 del documento electronico 106. En formas de realizacion, el documento electronico 106 y la copia 104 son versiones electronicas de un documento impreso (no mostrado) y pueden estar en su forma original, sin anotaciones, o en una forma con anotaciones. Una version electronica de un documento impreso puede incluir el mismo contenido que el documento impreso o un contenido sustancialmente similar, aunque tambien puede incluir contenido diferente. Por ejemplo, una version electronica de un documento impreso puede incluir una publication (por ejemplo, edition) actualizada del documento impreso, una version con anotaciones del documento impreso, y similares. Los ejemplos de documentos (tanto impresos como electronicos) incluyen libros, artlculos, resoluciones judiciales, recopilaciones de leyes, tratados, notas a pie de pagina, notas de referencia, notas de traducciones, y similares.
En formas de realizacion, un usuario (no mostrado) descarga la copia 104 del documento electronico 106 utilizando el dispositivo de lectura 108, para acceder al servidor 102 a traves de una red de comunicaciones 112 tal como, por ejemplo, una red de area local, una red empresarial, Internet, o similares. La copia 104 del documento electronico 106 tambien se puede proporcionar al dispositivo de lectura 108 por medio de un dispositivo de memoria extralble tal como, por ejemplo, un disco compacto, una unidad de almacenamiento flash, o similares. De acuerdo con formas de realizacion, el documento electronico 106 (y la copia 104 del mismo) se puede materializar en uno o mas archivos usando un numero ilimitado de diversos formatos tales como, por ejemplo, DjVu, EPUB®, FictionBook Kindle®, Reader de Microsoft ®, eReader®, Plucker, texto plano en ASCII, UNICODE, lenguajes de marcado, un formato de documento independiente de la plataforma, tal como el formato de documento portatil (PDF), y similares. El documento electronico 106 (y/o la copia 104 del mismo) tambien se puede materializar en el formato Thomson Reuters ProView®, disponible en Thomson Reuters de Nueva York, Nueva York. Los ejemplos de lenguajes de marcado, y archivos de lenguaje de marcado correspondientes, incluyen Lenguaje de Marcado de Hipertexto (HTML), Lenguaje de Marcado Extensible (XML), Lenguaje de Marcado de Hipertexto Extensible (XHTML), y similares.
Tal como se muestra en la figura 1, el dispositivo de lectura 108 incluye un procesador 114 y una memoria 116. De acuerdo con formas de realizacion, el dispositivo de lectura 108 es un dispositivo informatico y puede adoptar, por ejemplo, la forma de un dispositivo informatico especializado o un dispositivo informatico de proposito general, tal como un ordenador
5
10
15
20
25
30
35
personal, una estacion de trabajo, un asistente personal digital (PDA), un telefono movil, un telefono inteligente, una tableta, un ordenador portatil tipo notebook, o similares. En la memoria 116 hay almacenado un componente de lector de libros electronicos 118. En formas de realization, el procesador 114 ejecuta el componente de lector de libros electronicos 118, lo cual puede provocar que por lo menos una parte de la copia 104 del documento electronico 106 se visualice en el modulo de visualization 110. El componente de lector de libros electronicos 118 tambien puede facilitar otras operaciones e interacciones asociadas a la copia 104, tales como, por ejemplo, insertion de anotaciones digitales, busqueda, marcas en libros, y similares, segun se explica de forma mas detallada posteriormente. En formas de realizacion, el componente de lector de libros electronicos 118 puede acceder al servidor 102 para provocar que por lo menos una parte del documento electronico 106 se visualice en el modulo de visualizacion 110.
Tal como se muestra en la figura 1, el servidor 102 incluye un procesador 122 y una memoria 124. El sincronizador 126 puede estar almacenado en la memoria 124. En formas de realizacion, el procesador 122 ejecuta el sincronizador 126, el cual puede facilitar la navegacion de un documento electronico (o una copia 104 del mismo, por ejemplo, interaccionando con un dispositivo de lectura 108) y la sincronizacion de anotaciones entre un documento impreso y un documento electronico 106 (y/o una copia 104 del mismo). El documento electronico 106 se puede almacenar en unos medios de almacenamiento de contenido 128 en la memoria 124. En formas de realizacion, para facilitar la sincronizacion de anotaciones, se proporciona una imagen 107 de una parte de un documento impreso (a la que se hace referencia en la presente como "parte de documento impreso”) al servidor 102, el cual tambien puede almacenar la imagen 107 en los medios de almacenamiento de contenido 128.
De acuerdo con formas de realizacion, una parte de documento impreso puede incluir una o mas anotaciones en las proximidades de una parte de texto impreso (a la que se hace referencia en la presente como "parte de texto impreso”) y puede estar contenida en una o mas paginas de uno o mas documentos impresos. Las anotaciones pueden incluir, por ejemplo, partes resaltadas, subrayadas, notas escritas a mano en un margen o entre llneas de texto impreso, marcadores para libros, marcapaginas adhesivos, y similares. Una parte de texto impreso puede incluir, por ejemplo, uno o mas capltulos; uno o mas parrafos; una o mas llneas; una o mas palabras; uno o mas caracteres; una o mas partes de un capltulo, parrafo, llnea, palabra, o caracter; o similares. Adicionalmente, una parte de texto impreso puede incluir un pasaje de texto y una o mas notas a pie de pagina, notas al final, figuras, tablas, o similares, correspondientes.
5
10
15
20
25
30
35
De acuerdo con formas de realization, la imagen 107 de la parte de documento impreso se puede crear, por ejemplo, usando una camara 120 integrada con el dispositivo de lectura 108 (por ejemplo, cuando el dispositivo de lectura sea un telefono inteligente u ordenador de tipo tableta) y se puede proporcionar al servidor 102 por medio de la red de comunicaciones 112. Por ejemplo, un lector puede usar la camara 120 para fotografiar (es decir, crear una imagen 107 de) una parte con anotaciones de un documento impreso y comunicar la imagen 107 al servidor 102, junto con una solicitud de que una version electronica 106 del documento impreso se modifique para incluir anotaciones digitales correspondientes a las anotaciones que aparecen en la imagen 107. El servidor 102 puede responder a la solicitud insertando las anotaciones digitales y proporcionando una copia 104 del documento electronico 106, que tiene las anotaciones digitales correspondientes, al dispositivo de lectura 108, o dando ordenes al componente de lector de libros electronicos 118 en el dispositivo de lectura 108 para insertar las anotaciones.
En formas de realization, la imagen 107 tambien se puede crear usando un dispositivo de escaneado 130, tal como un escaner industrial, o cualquier otro tipo de dispositivo de formation de imagenes (no mostrado). Por ejemplo, un individuo o una entidad (por ejemplo, una biblioteca, una escuela, un despacho de abogados, o similares) puede proporcionar documentos impresos con anotaciones a un proveedor de servicios asociado al servidor 102. El proveedor de servicios puede utilizar un escaner industrial 130, por ejemplo, para escanear grandes cantidades de documentos, libros completos, o similares, y proporcionar las imagenes 107 creadas a partir del proceso de escaneado directamente al servidor 102. En formas de realization, un servicio de escaneado puede utilizar un dispositivo de escaneado 130 y proporcionar las imagenes resultantes 107 al servidor 102 por medio de la red de comunicaciones 112.
De acuerdo con formas de realization, para facilitar la sincronizacion de anotaciones, el sincronizador 126 recupera, o alternativamente accede a, por lo menos una parte de la imagen 107 de los medios de almacenamiento de contenido 128, y recupera, o alternativamente accede a, por lo menos una parte de una version electronica (por ejemplo, documento electronico 106) del documento impreso. El sincronizador 126 identifica una parte de texto electronico (a la que se hace referencia en la presente como "parte de texto electronico”) del documento electronico 106, que se corresponde con la parte de texto impreso capturada en la imagen 107. De acuerdo con formas de realization, una parte de texto electronico se corresponde con una parte de texto impreso si las dos partes de texto son textualmente
5
10
15
20
25
30
35
similares. La expresion similitud textual puede referirse, por ejemplo, a un grado de similitud entre dos partes de texto y se puede definir, por ejemplo, en el contexto de medidas estadlsticas, relaciones, o similares. Por ejemplo, dos partes de texto pueden ser textualmente similares si las mismas presentan un cierto numero (por ejemplo, por comparacion con otras partes de texto adyacentes) de caracteres coincidentes, n-gramas de caracteres, o similares.
Adicionalmente, en formas de realization, el sincronizador 126 se puede configurar para analizar la imagen 107 con el fin de detectar anotaciones en la parte de documento impreso y tambien se puede configurar para interpretar anotaciones detectadas. Por ejemplo, el sincronizador 126 puede detectar una anotacion dentro de una imagen 107 de una parte de documento impreso y puede determinar un tipo de anotacion (por ejemplo, resaltado, subrayado, y similares) de la anotacion detectada. De acuerdo con formas de realizacion, se pueden utilizar uno o mas revisores (por ejemplo, por medio de un modelo de crowd-sourcing) para facilitar la detection y/o interpretation de anotaciones, asl como la creation, modification, y/o verification de anotaciones digitales. Por ejemplo, el servidor 102 puede proporcionar una imagen de una anotacion escrita a mano, a un dispositivo de revision 132 (por ejemplo, por medio de la red de comunicaciones 112), de manera que un revisor pueda ayudar a la creacion de la anotacion digital detectando, interpretando y/o transcribiendo la anotacion escrita a mano, en texto digital, en el cual se pueden realizar busquedas utilizando el dispositivo de lectura 108. En formas de realizacion, revisores adicionales pueden verificar las interpretaciones, del primer revisor, correspondientes a la anotacion escrita a mano. Se pueden usar plataformas de crowdsourcing para interaccionar con revisores y las mismas pueden incluir plataformas de crowdsourcing integradas con el servidor 102 o plataformas independientes tales como, por ejemplo, Amazon Mechanical Turk®, proporcionado por Amazon.com® Inc. de Seattle, Washington, Estados Unidos. Tambien se pueden utilizar algoritmos de inteligencia artificial para interpretar, modificar y/o verificar anotaciones digitales.
El sincronizador 126 puede insertar una anotacion digital correspondiente a la anotacion detectada, en el documento electronico 106, y, en formas de realizacion, el componente de lector de libros electronicos 118 puede insertar la anotacion digital en la copia 104 del documento electronico 106. Por ejemplo, el sincronizador 126 puede proporcionar una instruction al componente de lector de libros electronicos 118, que provoque que el componente de lector de libros electronicos 118 inserte la anotacion digital en la copia 104 del documento electronico 106. Los ejemplos de anotacion digital incluyen, aunque sin caracter limitativo, una imagen de una anotacion detectada, texto electronico, un objeto formateador (por ejemplo, codigo que provoque que una parte de texto electronico reproducido incluya una
5
10
15
20
25
30
35
parte resaltada, una parte subrayada, o similares), un marcador de libro electronico, un marcapaginas digital, un hiperenlace, un conjunto de instrucciones para modificar una parte del documento electronico 106 (o copia 104 del mismo), y similares.
Formas de realization de la presente invention pueden facilitar tambien diversas operaciones para gestionar anotaciones digitales. Por ejemplo, el sincronizador 126, y/o el componente de lector de libros electronicos 118, se pueden configurar para eliminar una anotacion digital de un documento electronico 106 (o copia 104 del mismo) que habla sido insertada previamente durante un proceso de sincronizacion, y que ya no se encuentra en el documento impreso correspondiente. Adicionalmente, el sincronizador 126, y/o componente de lector de libros electronicos 118, se puede configurar para distinguir entre anotaciones digitales que se insertaron durante un proceso de sincronizacion (a las que se hace referencia en la presente como anotaciones digitales migradas) y anotaciones digitales que se anadieron directamente en el documento electronico 106 (o copia 104 del mismo) (a las que se hace referencia en la presente como anotaciones digitales directas). En formas de realizacion, una anotacion digital puede incluir un atributo que indica especlficamente si la anotacion digital se inserto durante un proceso de sincronizacion o fue anadida directamente por un lector. El atributo se puede representar mediante un valor de una etiqueta que esta asociada al documento electronico 106 y el sincronizador puede determinar si la anotacion es una anotacion digital migrada o una anotacion digital directa determinando el valor de la etiqueta. De esta manera, formas de realizacion de la presente invencion pueden facilitar la elimination de anotaciones digitales migradas, al mismo tiempo que reduciendo al mlnimo la eliminacion no intencionada de anotaciones digitales directas.
Los valores de etiquetas tambien se pueden asociar a migraciones de anotaciones particulares. Por ejemplo, un lector puede colocar un primer posit relacionado con un primer contenido (por ejemplo, un primer caso jurldico) en un documento impreso. Cuando en una version electronica del documento impreso se inserta una primera anotacion digital, correspondiente al primer posit, un valor de etiqueta asociado a la anotacion digital puede proporcionar information sobre la instancia de la migration. El valor de etiqueta puede indicar, por ejemplo, que la primera anotacion digital esta relacionada con el primer caso (por ejemplo, cuando el lector pueda especificar el valor de etiqueta), que se creo en un momento particular, o similares. Posteriormente, el lector podrla eliminar el primer posit del documento impreso y sustituirlo por un segundo posit relacionado con un segundo contenido (por ejemplo, un segundo caso jurldico). En formas de realizacion, en el documento electronico tambien se puede insertar una segunda anotacion digital, correspondiente al segundo posit, y la misma puede tener un valor
5
10
15
20
25
30
35
de etiqueta asociado que indique, por ejemplo, que esta relacionada con el segundo caso jurldico. Al lector se le puede presentar una opcion de mantener o eliminar la primera anotacion digital, personalizar valores de etiqueta asociados a la primera y/o la segunda anotaciones digitales, o similares.
Formas de realization de la invention facilitan tambien la manipulation de anotaciones digitales. Por ejemplo, las anotaciones digitales se pueden almacenar como elementos independientes adjuntos al documento electronico, que se pueden manipular, o las anotaciones digitales se pueden integrar dentro del documento electronico, el cual se puede manipular. Adicionalmente, el sincronizador 126, y/o el componente de lector de libros electronicos 118, se puede configurar para ajustar las posiciones de anotaciones digitales, de tal manera que anotaciones digitales nuevas no oculten anotaciones digitales existentes. En formas de realizacion, el sincronizador 126, y/o el componente de lector de libros electronicos 118 pueden permitir que un lector busque, manipule, cambie de position, edite, borre, o gestione de otra manera anotaciones digitales.
Formas de realizacion de la presente invencion tambien pueden facilitar la visualization selectiva de anotaciones digitales. Por ejemplo, si la copia 104 del documento electronico con anotaciones 106 se usa durante una sesion de un tribunal, podrla resultar deseable presentar una section de la copia 104 al abonado contrario, al juez, y/o al jurado sin visualizar una o mas anotaciones digitales contenidas en ella. Asl, el componente de lector de libros electronicos 118 puede incluir una opcion para ocultar una o mas anotaciones digitales cuando se visualice la copia 104. Para facilitar esto, una anotacion digital puede incluir una etiqueta que permita mostrar u ocultar la anotacion digital, sobre la base del valor de la etiqueta. Por ejemplo, un lector puede especificar que anotaciones digitales que presenten un cierto valor de etiqueta (por ejemplo, anotaciones digitales relacionadas con un primer caso jurldico, segun se ha descrito en el ejemplo anterior) sean ocultadas. El valor de la etiqueta tambien puede posibilitar el formateo condicional de una anotacion digital. Por ejemplo, el tamano, la forma, el formato de archivo, y/o la disposition de una anotacion digital se pueden ajustar sobre la base de un valor de la etiqueta, el cual puede ser estatico o dinamico y se puede asignar basandose en caracterlsticas de anotaciones digitales cercanas, limitaciones de memoria, area de pantalla disponible, capacidades del dispositivo de lectura, o similares. Adicionalmente, se pueden generar valores de etiqueta de manera manual o automatica. Por ejemplo, el componente de lector de libros electronicos 118 puede asignar un valor particular a una etiqueta, basandose en un acontecimiento o condition, y el componente de lector de libros electronicos 118 puede hacer que una opcion seleccionable (por ejemplo, un boton o icono) sea presentado en el
5
10
15
20
25
30
35
modulo de visualization 110 de manera que, al producirse la reception de una selection de la option, una o mas anotaciones, que de otro modo pueden visualizarse, entonces no lo sean.
De acuerdo con formas de realization, varios componentes del entorno de funcionamiento 100, ilustrado en la figura 1, se pueden implementar en uno o mas dispositivos informaticos. Por ejemplo, cada uno del servidor 102, el dispositivo de lectura 108, el dispositivo de escaneado 130, y el dispositivo de revision 132 puede ser, o incluir, uno o mas dispositivos informaticos. Un dispositivo informatico puede incluir cualquier tipo de dispositivo informatico adecuado para implementar formas de realization de la invention. Los ejemplos de dispositivos informaticos incluyen “estaciones de trabajo”, “servidores”, “ordenadores portatiles”, “ordenadores de sobremesa”, “ordenadores de tipo tableta”, “dispositivos de mano”, “lectores de libros electronicos”, y similares, contemplandose todos ellos dentro del alcance de la figura 1 y haciendo referencia a varios componentes del entorno de funcionamiento 100.
En formas de realization, un dispositivo informatico incluye un bus, de manera directa y/o indirecta, acopla los siguientes dispositivos: un procesador, una memoria, un puerto de entrada/salida (I/O), un componente de I/O, y una fuente de alimentation. En el dispositivo informatico se puede incluir tambien un numero ilimitado de componentes adicionales, componentes diferentes, y/o combinaciones de componentes. El bus representa lo que puede ser uno o mas buses (tal como, por ejemplo, un bus de direcciones, un bus de datos, o una combination de los mismos). De manera similar, en formas de realization, el dispositivo informatico puede incluir varios procesadores, varios componentes de memoria, varios puertos de I/O, varios componentes de I/O, y/o varias fuentes de alimentation. Adicionalmente, un numero ilimitado de estos componentes o sus combinaciones se pueden distribuir y/o duplicar sobre un numero de dispositivos informaticos.
En formas de realization, las memorias 116 y 124 incluyen soportes legibles por ordenador, en forma de memoria volatil y/o no volatil y pueden ser extralbles, no extralbles, o una combination de los mismos. Los ejemplos de soportes incluyen Memoria de Acceso Aleatorio (RAM); Memoria de Solo Lectura (ROM); Memoria de Solo Lectura, Programable y Borrable Electronicamente (EEPROM); memoria flash; soportes opticos u holograficos; casetes magneticos, cinta magnetica, dispositivos de almacenamiento de disco magnetico u otros dispositivos de almacenamiento magnetico; transmisiones de datos; o cualquier otro medios que se pueda usar para codificar information y al que se pueda acceder por medio de un dispositivo informatico tal como, por ejemplo, memoria de estado cuantico, y similares. En formas de realization, las memorias 116 y 124 almacenan instrucciones ejecutables por
5
10
15
20
25
30
35
ordenador para provocar que los procesadores 114 y 122, respectivamente, ejecuten aspectos de formas de realization de metodos y procedimientos que se describen en la presente. Las instrucciones ejecutables por ordenador pueden incluir, por ejemplo, codigo de ordenador, instrucciones utilizables en maquinas, y similares, tales como, por ejemplo, componentes de programa con capacidad de ser ejecutados por uno o mas procesadores asociados a un dispositivo informatico. Los ejemplos de dichos componentes de programa incluyen el componente de lector de libros electronicos 118 y el sincronizador 126. Parte o la totalidad de la funcionalidad que se contempla en la presente tambien se puede implementar en hardware y/o microprogramas.
El entorno de funcionamiento 100 ilustrativo que se muestra en la figura 1 no esta destinado a sugerir ninguna limitation en cuanto al alcance de uso o funcionalidad de formas de realizacion de la presente invention. Tampoco debe interpretarse el entorno de funcionamiento 100 ilustrativo de manera que presente dependencia o exigencia alguna en relation con cualquier componente individual o combination de componentes ilustrados en la presente.
La figura 2 es un diagrama esquematico que representa un funcionamiento ilustrativo del sincronizador 126 de acuerdo con formas de realizacion de la presente invencion. Tal como se muestra en la figura 2, el sincronizador 126 puede incluir un componente de detection 202, un componente de comparacion 204, y un componente de anotacion digital 206. De acuerdo con formas de realizacion, uno cualquiera o mas de los componentes 202, 204, y 206 del sincronizador 126 representado en la figura 2 pueden compartir recursos, o estar integrados, con diversos de los otros componentes representados en el mismo lugar (y/o componentes no ilustrados). Adicionalmente, en formas de realizacion, operaciones de los componentes 202 y 204 se pueden llevar a cabo en cualquier orden, ciclo, combinacion, o similar. Por ejemplo, el componente de comparacion 204 se puede utilizar para identificar una parte de documento electronico que se corresponde con una parte de documento impreso antes de la utilization del componente de deteccion 202 para detectar una anotacion en la parte de documento impreso. Adicionalmente, el componente de deteccion 202 se puede utilizar para detectar una anotacion en una parte de documento impreso antes de la utilizacion del componente de comparacion 204 para identificar la parte de documento electronico correspondiente en la cual se va a insertar una anotacion digital correspondiente. Adicionalmente, uno cualquiera o mas de los componentes 202, 204, y 206 pueden residir en el servidor 102 o el dispositivo de lectura 108, o pueden estar distribuidos entre el servidor 102 y el dispositivo de lectura 108.
De acuerdo con formas de realizacion, el componente de deteccion 202 detecta una anotacion
5
10
15
20
25
30
35
218 en una parte de documento impreso 210. Por ejemplo, el componente de detection 202 puede recibir una imagen 107 de la parte de documento impreso 210 (por ejemplo, de la memoria 124) y puede ejecutar uno o mas procedimientos para detectar la anotacion 218. En formas de realization, el componente de deteccion 202 tambien puede identificar un tipo de anotacion correspondiente a la anotacion 218. Los ejemplos de tipos de anotacion incluyen texto, resaltados, subrayados, marcapaginas, marcadores para libros, y similares. Se puede usar un numero ilimitado de tipos diferentes de procedimientos para detectar anotaciones y/o identificar tipos de anotacion. Los ejemplos de dichos procedimientos pueden incluir procedimientos de reconocimiento de escritura manual, procedimientos de reconocimiento optico de caracteres (OCR), procedimientos de comparacion de mapas de bits, modelos de idioma estadlsticos, clasificadores estadlsticos, redes neuronales, crowd-sourcing, y similares.
Por ejemplo, el componente de deteccion 202 puede analizar la imagen 107 (por ejemplo, examinando plxeles o bloques de plxeles) para establecer patrones asociados a la parte de texto impreso 216 y para detectar una caracterlstica, o caracterlsticas, anomalas que pueden representar la anotacion 218. Los ejemplos de dichas caracterlsticas anomalas pueden incluir instancias de colores diferentes (por ejemplo, asociados a un resaltado), instancias de formas y bordes irregulares (por ejemplo, asociados a notas escritas a mano o subrayados, instancias de texto oculto o formas geometricas que presentan diferentes tonos de color (por ejemplo, asociadas a posits, marcapaginas, o marcadores de libros), y similares. Por ejemplo, una parte de texto impreso se puede haber resaltado con un marcador de texto amarillo, el cual se puede detectar como una caracterlstica de color amarillo que se solapa parcialmente con una parte de texto impreso. En formas de realizacion, el componente de deteccion 202 puede usar tecnicas estadlsticas para determinar una probabilidad de que una anomalla detectada represente una anotacion 218.
De acuerdo con formas de realizacion, el componente de deteccion 202 puede detectar la anotacion 218 en la parte de documento impreso 210 comparando la imagen 107 de la portion de documento impreso 210 con por lo menos una porcion del documento electronico 106. Por ejemplo, cuando el componente de comparacion 204 se utiliza antes del componente de deteccion 202, el componente de comparacion 204 puede proporcionar una indication, al componente de deteccion 202, sobre una parte de texto electronico 214 que se corresponde con la parte de texto impreso 216. El componente de deteccion 202 puede, por ejemplo, acceder, o crear, un mapa de bits de una parte correspondiente del documento electronico 106 y comparar ese mapa de bits con un mapa de bits (por ejemplo, la imagen 107) de la parte de documento impreso 210 para identificar diferencias entre los dos mapas de bits. Una diferencia
5
10
15
20
25
30
35
en los mapas de bits puede representar, por ejemplo, la presencia de la anotacion 218 que no esta presente en el documento electronico 106. Una diferencia en los mapas de bits tambien puede representar la presencia de una anotacion digital (no mostrada) en el documento electronico 106 que no esta presente en la parte de documento impreso 210.
En formas de realization, el componente de detection 202 puede utilizar un procedimiento de zonificacion de imagenes para fraccionar la imagen 107 en zonas. Un procedimiento de zonificacion de imagenes puede definir una o mas zonas de texto correspondientes a texto impreso, y una o mas zonas candidatas correspondientes a areas que pueden incluir anotaciones tales, por ejemplo, partes de un margen. El procedimiento de zonificacion de imagenes puede definir un margen como una region que se encuentra a la izquierda o derecha, respectivamente, de una zona de texto situada mas a la izquierda, o mas a la derecha. En formas de realizacion, una zona de texto tambien puede ser una zona candidata. Se puede aplicar un proceso de reconocimiento de escritura manual a una zona en un intento de reconocer un escrito a mano. Si el proceso de reconocimiento de escritura manual tiene exito en el reconocimiento del escrito a mano dentro de la zona, el componente de deteccion 202 puede identificar la escritura manual reconocida como una anotacion. El reconocimiento de la escritura manual puede incluir la conversion de la escritura manual en texto electronico en el cual se pueden realizar busquedas, y el cual se puede insertar en el documento electronico como una anotacion digital directa.
En formas de realizacion, puede que una parte de escritura manual no sea reconocible por el procedimiento de reconocimiento de escritura manual o puede que la zona no incluya un escrito a mano, y, como consecuencia, el procedimiento de reconocimiento de escritura manual puede no tener exito con el reconocimiento de la escritura manual. Adicionalmente, puede que no haya disponible un procedimiento de reconocimiento de escritura manual o que el mismo resulte poco practico (por ejemplo, debido a limitaciones de memoria). En tales casos, se pueden llevar a cabo otros tipos de analisis sobre la zona para determinar si la misma contiene escritura manual no reconocible u otros tipos de anotaciones. Por ejemplo, se puede aplicar un procedimiento OCR para intentar identificar anotaciones dentro de la zona (por ejemplo, etiquetando caracterlsticas detectadas dentro de la zona de las cuales no se puede establecer una correspondencia con un caracter textual por medio del procedimiento OCR), segun se describe de forma mas detallada posteriormente en referencia a la figura 5. En formas de realizacion, se puede usar un procedimiento de deteccion de regiones para identificar regiones de color homogeneo superpuestas sobre, o adyacentes a, texto impreso detectado, lo cual puede facilitar la identification de partes resaltadas, subrayadas, y similares. Se puede utilizar
5
10
15
20
25
30
35
un numero ilimitado de clasificadores estadlsticos, heurlstica, redes neuronales, y similares, para detectar anotaciones, y herramientas tales como las mencionadas se pueden mejorar de forma periodica o continua utilizando tecnicas de aprendizaje por maquina. Tal como se ha indicado anteriormente, el componente de detection 202 tambien puede determinar el tipo de anotacion 218 que detecta. Por ejemplo, el componente de deteccion 202 puede determinar que una anotacion detectada 218 en la parte de documento impreso 210 es de un tipo de anotacion particular basandose, por lo menos parcialmente, en tablas de consulta, caracterlsticas de anotacion 218, retroalimentacion proveniente de un revisor, salidas de clasificadores, y similares.
Tal como se ha indicado anteriormente, el componente de comparacion 204 esta configurado para acceder a por lo menos una parte de una imagen 107 de una parte de documento impreso 210 de una memoria (por ejemplo, la memoria 124 mostrada en la figura 1) y para acceder a por lo menos una parte de un documento electronico 106 de una memoria. El componente de comparacion 204 identifica una parte de texto electronico 214 en el documento electronico 106, que se corresponde con (por ejemplo, que es textualmente similar a) una parte de texto impreso 216 de la parte de documento impreso 210. El componente de comparacion 204 puede utilizar algoritmos que incorporan tecnicas de OCR, tecnicas de analisis sintactico, y/o similares, para identificar una parte de texto electronico 214 que es textualmente similar a una parte de texto impreso 216.
En formas de realization, una version electronica 106 de un documento impreso puede no incluir texto identico al del documento impreso. Por ejemplo, una parte de texto impreso 216 puede incluir un pasaje de texto y tres notas correspondientes a pie de pagina, mientras que la parte de texto electronico 214 correspondiente puede incluir el pasaje de texto y cuatro notas correspondientes a pie de pagina (por ejemplo, la cuarta nota a pie de pagina puede exponer un caso decidido recientemente) donde, por ejemplo, la version electronica es una edition mas reciente del documento. Para facilitar la identification de partes de texto correspondientes de una manera que tenga en cuenta variaciones textuales tales como las mencionadas, se pueden configurar algoritmos utilizados por el componente de comparacion 204 para evaluar similitudes textuales entre las partes de texto 214 y 216. Tal como se ha mencionado previamente, una similitud textual se puede referir a un grado de solapamiento entre caracteres reconocidos (por ejemplo, por medio de OCR) en la parte de texto impreso 216 y caracteres en la parte de texto electronico 214. Por ejemplo, el componente de comparacion 204 puede usar tecnicas de busqueda de n-gramas para identificar un conjunto de llneas de un documento electronico 106 que incluye el numero mayor de n-gramas que coinciden con n-gramas del texto reconocido de
5
10
15
20
25
30
35
la parte de texto impreso 216. En formas de realization, el componente de comparacion 204 puede utilizar un numero ilimitado de tecnicas de comparacion estadlstica para evaluar la similitud textual.
En algunos casos, la parte de texto impreso 216 puede incluir unicamente partes de palabras y/o caracteres. Por ejemplo, la imagen 107 se puede capturar de tal manera que la parte de documento impreso 210 completa no quede capturada dentro de la imagen 107, o un posit u otro objeto puede ocultar parte de la parte de texto impreso 216 cuando se capture la imagen 107. En formas de realizacion, la comparacion identica de texto se puede complicar debido a un reconocimiento impreciso de caracteres durante procedimientos de OCR. De acuerdo con formas de realizacion, el componente de comparacion 204 puede utilizar tecnicas de poda de caracteres para facilitar la evaluation de similitudes textuales entre las partes de texto 214 y 216. Volviendo brevemente a la figura 3, se ilustra una parte 302 de un documento impreso que tiene una parte de texto impreso 304. Cuando un usuario captura una region 306 de la parte de documento impreso 302 usando un dispositivo de formation de imagenes, la region capturada 306 puede incluir solamente una fraction de la parte de texto impreso 304, tal como se ilustra. Cuando la region capturada 306 se digitaliza 308 para crear una imagen 310, la imagen 310 puede incluir llneas de texto, palabras, o caracteres incompletos. Por ejemplo, tal como se muestra en la figura 3, la imagen ilustrada 310 incluye palabras parciales 312, algunas de las cuales incluyen caracteres parciales. Cuando la imagen 310 se procesa 314 usando un procedimiento OCR, el texto electronico reconocido resultante 316 puede incluir errores de reconocimiento 318 (ilustrados como caracteres subrayados). Las secuencias de caracteres (por ejemplo, palabras parciales) que incluyen los errores de reconocimiento 318 es posible que no se puedan emparejar de manera precisa con entradas de un diccionario de OCR, y pueden reducir potencialmente la eficiencia y/o eficacia del procedimiento de comparacion. En formas de realizacion, se pueden utilizar matrices de sufijos, comparacion de expresiones regulares (por ejemplo, utilizando caracteres de comodln) y/o metodos de comparacion de cadenas aproximadas (por ejemplo, algoritmos de Distancia de Edition) para interpretar las secuencias de caracteres que contienen los errores de reconocimiento 318.
Adicionalmente, formas de realizacion de la invention incluyen eliminar 320 las secuencias de caracteres que contienen los errores de reconocimiento 318 para crear texto electronico reconocido y podado 322. El texto electronico reconocido y podado 322, el cual incluye el texto electronico reconocido 316 sin los errores de reconocimiento 318, se puede usar para facilitar un procedimiento de comparacion. El procedimiento de comparacion puede implicar la evaluacion de una similitud textual (en lugar de una identidad) y, por lo tanto, una parte de texto
5
10
15
20
25
30
35
reconocido que ha sido podada puede seguir siendo util en la identification de una parte de texto electronico correspondiente. Por ejemplo, se pueden usar una o mas consultas de busqueda para buscar en el documento electronico porciones de texto electronico correspondientes, y las mismas pueden dar como resultado la recuperation de partes de texto electronico que esten clasificadas de manera que permitan que una o mas de ellas se identifique como partes de texto electronico correspondientes. La identificacion de partes de texto electronico correspondientes se puede facilitar adicionalmente, con el uso de modelos de crowd-sourcing, presentando a un lector o revisor una o mas partes de texto electronico recuperadas (por ejemplo, las partes de texto electronico recuperadas con la mejor clasificacion, partes de texto electronico con clasificacion similar, o similares), y solicitando una entrada proveniente del lector o revisor, que se puede utilizar para identificar o confirmar la parte de texto electronico correspondiente. El crowd-sourcing tambien se puede usar para la correction de errores de reconocimiento de OCR. Por ejemplo, las secuencias de caracteres que contienen los errores de reconocimiento 318 (y, en formas de realization, que rodean secuencias de caracteres) se pueden proporcionar a revisores, los cuales pueden verificar la interpretation de OCR o proporcionar sugerencias para una interpretation correcta de las cadenas de caracteres.
De acuerdo con formas de realizacion de la invention, el componente de comparacion 204 puede utilizar varios procedimientos, clasificadores, y similares, para determinar que fracciones podar de una parte de texto reconocida. Por ejemplo, los errores de reconocimiento pueden aparecer cerca de los llmites de una parte de texto reconocido, y las palabras reconocidas cerca de uno o mas de los llmites que no se encuentran en el diccionario de OCR se pueden podar. Adicionalmente, la imagen de la parte de documento impreso se puede analizar para determinar que regiones de la imagen incluyen texto impreso, lo cual tambien puede resultar util para facilitar procedimientos de poda.
Volviendo a la figura 2, el sincronizador 126 puede incluir un componente de anotacion digital 206 que facilite la insertion de una anotacion digital 220 en el documento electronico 106 (o en una copia 104 del mismo). La insercion de una anotacion digital 220 en un documento electronico 106 o copia 104 puede incluir, por ejemplo, la insercion de texto electronico (por ejemplo, como una anotacion digital directa proporcionada por un lector, como una anotacion digital migrada, o similares), la adicion de codigo correspondiente a la anotacion digital 220 a un lenguaje de marcado extensible, la asociacion de un archivo de anotaciones a un archivo de documentos electronicos, la incorporation de la anotacion digital 220 dentro de un archivo de documentos electronicos, o similares. El componente de anotacion digital 206 puede facilitar la
5
10
15
20
25
30
35
insertion de la anotacion digital 220 insertando la anotacion digital 220 en el documento electronico 106 (y/o una copia 104 del mismo), el cual a continuation se puede proporcionar al dispositivo de lectura 108.
De acuerdo con formas de realization, el componente de anotacion digital 206 inserta la anotacion digital 220 accediendo al texto electronico del documento electronico con el uso de una interfaz de programacion de aplicaciones (API). Por ejemplo, el componente de anotacion digital 206 puede insertar una anotacion digital en un documento PDF usando la API de Desarrollador (Developer) de Adobe®, disponible en Adobe Systems, Inc., de San Jose, California. La anotacion digital 220 se puede insertar en un documento electronico basado en HTML proporcionando una superposition de HTML o proporcionando un esquema o archivo de metadatos e insertando, en el archivo de HTML, un puntero al esquema o archivo de metadatos. La anotacion digital 220 se puede generar usando un procedimiento de reconocimiento de escritura manual y la misma se puede insertar en el documento electronico como texto electronico en el cual se pueden realizar busquedas. Adicionalmente, el componente de anotacion digital 206 puede facilitar la insercion de la anotacion digital 220 proporcionando la anotacion digital 220 al componente de lector de libros electronicos 118, el cual inserta la anotacion digital 220 en la copia 104 del documento electronico 106. El componente de anotacion digital 206 puede proporcionar una instruction que se comunica al componente de lector de libros electronicos 118 y que provoca que el componente de lector de libros electronicos 118 inserte la anotacion digital 220 en la copia 104 del documento electronico 106.
Tal como se ha descrito anteriormente, un sincronizador puede facilitar la navegacion de un documento electronico y/o la sincronizacion de anotaciones entre un documento impreso y un documento electronico. La figura 4 es un diagrama de flujo que representa un metodo ilustrativo 400 de sincronizacion de anotaciones entre un documento impreso y un documento electronico, de acuerdo con formas de realizacion de la presente invention. Formas de realizacion del metodo 400 incluyen la reception de una imagen de una parte de documento impreso (bloque 410). La parte de documento impreso puede incluir una anotacion en las proximidades de una parte de texto impreso. Un sincronizador (por ejemplo, el sincronizador 126 mostrado en la figura 1) puede recibir la imagen de un dispositivo de lectura (por ejemplo, el dispositivo de lectura 108 mostrado en la figura 1), un dispositivo de escaneado (por ejemplo, el dispositivo de escaneado 130 mostrado en la figura 1), o similares, y puede almacenar la imagen en una memoria (por ejemplo, la memoria 124 mostrado en la figura 1).
5
10
15
20
25
30
35
El sincronizador puede recuperar la imagen y un documento electronico de la memoria (bloque 420). El sincronizador puede usar tecnicas de modelado de lenguaje, OCR, o similares para identificar el documento electronico que se corresponde con la parte de texto impreso. Esto puede incluir el uso de un clasificador de idiomas para determinar el idioma en el que esta escrito el libro. En formas de realization del metodo 400, el sincronizador identifica una parte de texto electronico dentro del documento electronico, que se corresponde con la parte de texto impreso (bloque 430). Por ejemplo, el sincronizador puede incluir un componente de comparacion (por ejemplo, componente de comparacion 202 mostrado en la figura 2) que identifica una parte de texto electronico que es textualmente similar a la parte de texto impreso. El componente de comparacion puede llevar a cabo una busqueda dentro del documento electronico, en la cual llneas de la parte de texto impreso son consultas de expresiones que se aplican con respecto a una forma indexada del documento electronico. El documento electronico indexado puede incluir, por ejemplo, matrices de sufijos. Multiples consultas de expresiones que conducen a resultados de recopilacion con la mejor clasificacion se pueden usar para identificar la parte de texto electronico correspondiente.
Formas de realizacion del metodo 400 incluyen tambien la detection de una anotacion en la parte de documento impreso (bloque 440). Por ejemplo, un componente de deteccion (por ejemplo, el componente de deteccion 204 mostrado en la figura 2) puede detectar la anotacion analizando una imagen de la parte de documento impreso. Se pueden detectar anotaciones usando procedimientos de OCR, procedimientos de reconocimiento de escritura manual, clasificadores, o una combination de los mismos, tal como se describe de forma mas detallada posteriormente, en referencia a la figura 5. Tal como se muestra en la figura 4, en el documento electronico y/o en una copia del documento electronico (bloque 450) se inserta una anotacion digital, correspondiente a la anotacion detectada. Tal como se ha descrito anteriormente, la anotacion digital se puede insertar en el documento electronico por medio del sincronizador, o se puede insertar en una copia del documento electronico por medio de un componente de lector de libros electronicos (por ejemplo, el componente de lector de libros electronicos 118 mostrado en la figura 1). La anotacion digital se puede insertar en las proximidades de la parte de texto electronico correspondiente, en una position que se corresponda por lo menos sustancialmente con la posicion de la anotacion detectada en la parte de documento impreso.
La figura 5 es un diagrama de flujo que representa un metodo ilustrativo 500 de deteccion de una anotacion en una parte de documento impreso analizando una imagen de la parte de documento impreso, de acuerdo con formas de realizacion de la presente invention. Formas de realizacion del metodo ilustrativo 500 incluyen la definition de una zona candidata (bloque
5
10
15
20
25
30
35
510), por ejemplo, fraccionando la imagen en varias zonas, las cuales pueden incluir zonas de texto, zonas candidatas, y similares. En algunos casos, las zonas de texto tambien pueden ser zonas candidatas (por ejemplo, en los casos en los que las anotaciones pueden estar presentes en o entre llneas de texto impreso). Un componente de detection (por ejemplo, el componente de deteccion 204 mostrado en la figura 2) puede fraccionar la imagen en zonas basandose en un patron geometrico (por ejemplo, rectangular), en regiones de la imagen que contengan caracterlsticas homogeneas, o similares. Se pueden aplicar uno o mas clasificadores estadlsticos para distinguir entre regiones de la imagen que es mas probable que incluyan texto impreso y regiones que es mas probable que contenga anotaciones. Formas de realization de la invention incluyen entonces la ejecucion de una o mas de las siguientes etapas (520 a 580) para cada zona definida.
Formas de realizacion del metodo 500 incluyen la ejecucion de un procedimiento de reconocimiento de escritura manual (bloque 520) sobre una zona candidata, que se puede utilizar, por ejemplo, para detectar anotaciones escritas a mano en la zona candidata. Adicionalmente, el texto escrito a mano en zonas de texto (por ejemplo, entre llneas de texto impreso) se puede identificar usando clasificadores que distinguen entre escritura a mano y texto impreso. Los ejemplos de dichos clasificadores incluyen clasificadores de maquinas de soporte vectorial (SVM), clasificadores de k vecinos mas cercanos (K-NN), discriminadores de Fischer, redes neuronales, clasificadores de distancia minima, y similares.
Sobre la zona candidata se puede ejecutar un procedimiento OCR (530). El procedimiento OCR se puede usar para extraer caracterlsticas de la zona candidata, y para determinar si las caracterlsticas extraldas estan asociadas a texto impreso. Si el procedimiento OCR no da como resultado la deteccion de ningun texto impreso, se puede deducir que la zona candidata puede que contenga anotaciones. De manera similar, si el procedimiento OCR detecta texto impreso en solamente una fraction de la zona candidata, se puede deducir que otras fracciones de la zona candidata puede que contengan anotaciones. El procedimiento OCR puede incluir, por ejemplo, extraction de caracterlsticas, comparacion matricial, o una combinacion de las mismas.
Formas de realizacion del metodo 500 incluyen la aplicacion de un modelo de lenguaje estadlstico a nivel de caracteres (bloque 540) sobre caracterlsticas extraldas por el procedimiento OCR. El modelo de lenguaje estadlstico a nivel de caracteres se puede usar para calcular una probabilidad de que una caracterlstica extralda incluya una cadena de caracteres que sea tlpica de un lenguaje particular, por ejemplo, P(sc), donde sc es una
5
10
15
20
25
30
35
secuencia de caracteres. Adicionalmente, se puede aplicar un modelo de lenguaje estadlstico a nivel de palabras (bloque 550) sobre caracterlsticas extraldas y el mismo se puede usar, por ejemplo, para calcular una probabilidad de que una caracterlstica extralda incluya una secuencia de palabras tlpica de un lenguaje particular, por ejemplo, P(sw), donde sw es una secuencia de palabras. Los modelos de lenguaje se pueden aplicar para facilitar la determination de si las caracterlsticas extraldas estan asociadas probablemente a texto impreso.
Formas de realization del metodo 500 incluyen ademas la determinacion de information de color asociada a la zona candidata (bloque 560). Por ejemplo, la imagen de la parte del documento impreso puede ser una fotografla de color y el componente de detection puede analizar la fotografla para identificar cada pixel que incluye un color (por ejemplo, diferente de negro o blanco), el color de cada pixel, caracterlsticas de colores de los plxeles (por ejemplo, tono, saturation, intensidad), y similares. De esta manera, por ejemplo, regiones de color en una zona candidata se pueden detectar y usar para facilitar la deteccion de una anotacion y/o identification de un tipo de anotacion correspondiente a una anotacion detectada. Por ejemplo, una region relativamente cuadrada de plxeles amarillos en una zona candidata definida en un margen se pueden identificar como un posit amarillo, mientras que una region rectangular mas estrecha de plxeles rosas en una zona de texto se puede identificar como un resaltado. Se pueden usar metodos supervisados de aprendizaje de maquinas para distinguir entre tipos diferentes de anotaciones (por ejemplo, posits con respecto a notas marginales escritas a mano con respecto a un resaltado verde con un marcador de texto).
Formas de realizacion del metodo 500 incluyen ademas la comparacion de la imagen con una parte de documento electronico correspondiente (bloque 570). Un mapa de bits de la imagen se puede comparar con un mapa de bits de la parte de documento electronico correspondiente para evaluar diferencias entre los plxeles de los dos mapas de bits. Por ejemplo, un componente de deteccion puede superponer el mapa de bits de la imagen sobre el mapa de bits de la parte de documento electronico y reorientar los mapas de bits superpuestos hasta que se obtenga un numero mlnimo de diferencias de plxeles en superposition. Las diferencias de plxeles que queden (por ejemplo, plxeles que aparecen en el mapa de bits de la imagen y que no aparecen en el mapa de bits del documento electronico o viceversa) pueden representar anotaciones. Adicionalmente, se pueden utilizar umbrales de ruido para ignorar diferencias pequenas (por ejemplo, 1 o 2 plxeles desconectados) que pueden representar, por ejemplo, partlculas de polvo, defectos en la lente de la camara, o similares. Igual que con cualquiera de los otros procedimientos descritos en la presente, el procedimiento de
comparacion de mapas de bits se puede mejorar usando tecnicas de aprendizaje de maquinas.
Formas de realization del metodo 500 incluyen la clasificacion de la zona candidata (bloque 580). Por ejemplo, se puede utilizar un clasificador estadlstico binario para clasificar la zona 5 candidata como poseedora o no de una anotacion. El clasificador puede considerar
caracterlsticas de entrada, tales como information generada a partir de una o mas de las etapas de formas de realizacion del metodo 500 antes descritas, tales como, por ejemplo, P(sc), P(sw), informacion de color, diferencias de plxeles en superposition de mapas de bits, las dimensiones de la zona candidata, y la position de la zona candidata con respecto a un 10 margen de la pagina impresa. Por ejemplo, el clasificador puede tomar, como entradas, x, y, w,
y h, donde x es la distancia horizontal de la zona candidata con respecto al margen de la
pagina, y es la distancia vertical de la zona candidata con respecto al margen de la pagina, w es la anchura de la zona candidata, y h es la altura de la zona, pudiendose determinar todas ellas durante el fraccionamiento. En formas de realizacion, el clasificador puede adoptar, como 15 entrada, un numero ilimitado de tipos diferentes de informacion ademas de los
correspondientes antes descritos, o en lugar de estos ultimos. Adicionalmente, el clasificador se puede entrenar, usando un numero ilimitado de tecnicas de aprendizaje de maquinas, con el fin de mejorar su capacidad de clasificar zonas. Los ejemplos de caracterlsticas que se pueden usar para entrenar el clasificador incluyen color, tono, saturation, subrayado, escritura manual, 20 fuentes, posiciones de los margenes, ruido de plxeles, y similares.
Aunque formas de realizacion de la presente invencion se han descrito con especificidad, la propia description no esta destinada a limitar el alcance de esta patente. Por el contrario, los inventores han contemplado que la invention reivindicada tambien se podrla materializar de 25 otras maneras, para incluir diferentes etapas o caracterlsticas, o combinaciones de etapas o caracterlsticas similares a las descritas en este documento, conjuntamente con otras tecnologlas.
5
10
15
20
25
30
35
REIVINDICACIONES
1. Metodo implementado por ordenador para sincronizar anotaciones entre un documento impreso y un documento electronico, caracterizado por que comprende:
recibir, en un servidor, una imagen de una parte de documento impreso que tiene una parte de texto impreso, incluyendo la parte de documento impreso una anotacion en la proximidad de la parte de texto impreso;
acceder a por lo menos una parte del documento electronico desde un dispositivo de memoria, comprendiendo el documento electronico una version electronica del documento impreso;
identificar una parte de texto electronico dentro del documento electronico, que se corresponde con la parte de texto impreso;
detectar la anotacion en la parte de documento impreso;
facilitar la insercion de una anotacion digital en por lo menos uno de entre el documento electronico y una copia del documento electronico, correspondiendose la anotacion digital con la anotacion detectada, siendo la anotacion digital insertada en la proximidad de la parte de texto electronico, identificada, en una posicion que se corresponde por lo menos sustancialmente con una posicion de la anotacion detectada de la parte de documento impreso;
identificar una anotacion digital adicional en el documento electronico;
determinar que la parte de documento impreso no incluye una anotacion adicional correspondiente a la anotacion digital adicional;
determinar si la anotacion digital adicional es una anotacion migrada; y
eliminar la anotacion digital adicional del documento electronico si la anotacion digital adicional es una anotacion migrada.
2. Metodo segun la reivindicacion 1, en el que la determination de si la anotacion digital

Claims (14)

  1. 5
    10
    15
    20
    25
    30
    35
    adicional es una anotacion migrada comprende determinar un valor de una etiqueta asociada a la anotacion digital adicional.
  2. 3. Metodo segun la reivindicacion 1, que comprende asimismo:
    identificar un tipo de anotacion correspondiente a la anotacion detectada, comprendiendo el tipo de anotacion por lo menos uno de entre una parte resaltada, un texto escrito a mano, una parte subrayada, y un marcapaginas, y comprendiendo la facilitation de la insertion de la anotacion digital en el documento electronico la creation de una anotacion digital del tipo de anotacion identificado.
  3. 4. Metodo segun la reivindicacion 1, en el que la facilitacion de la insercion de la anotacion digital en el documento electronico comprende insertar texto electronico en un margen del documento electronico.
  4. 5. Metodo segun la reivindicacion 1, en el que el documento electronico comprende un formato de documento independiente de la plataforma.
  5. 6. Metodo segun la reivindicacion 1, en el que la identification de la parte de texto electronico correspondiente comprende identificar una similitud textual entre la parte de texto impreso y la parte de texto electronico correspondiente.
  6. 7. Metodo segun la reivindicacion 6, en el que la identificacion de la similitud textual comprende:
    reconocer una fraction de la parte de texto impreso llevando a cabo un procedimiento de reconocimiento optico de caracteres (OCR) sobre la imagen de la parte de documento impreso;
    convertir la fraccion reconocida de la parte de texto impreso en texto electronico reconocido usando el procedimiento OCR;
    identificar por lo menos una secuencia de caracteres en el texto electronico reconocido, que incluye un error de reconocimiento;
    crear un texto electronico reconocido podado, comprendiendo el texto electronico
    5
    10
    15
    20
    25
    30
    35
    reconocido podado el texto electronico reconocido del cual se ha eliminado dicha por lo menos una secuencia de caracteres; y
    buscar en el documento electronico usando por lo menos una consulta de busqueda que comprende el texto electronico reconocido podado.
  7. 8. Uno o mas soportes legibles por ordenador, caracterizados por que comprenden instrucciones ejecutables por ordenador materializadas en los mismos, para facilitar la sincronizacion de anotaciones entre un documento impreso y un documento electronico, incluyendo las instrucciones una pluralidad de componentes de programa, comprendiendo la pluralidad de componentes de programa:
    un componente de comparacion que (1) recibe una imagen de una parte de documento impreso que tiene una parte de texto impreso y (2) identifica una parte de texto electronico dentro del documento electronico, que se corresponde con la parte de texto impreso; y
    un componente de anotacion digital que facilita la insercion de una anotacion digital en el documento electronico en la proximidad de la parte de texto electronico correspondiente identificada;
    un componente de deteccion que detecta una anotacion en la parte de documento impreso analizando por lo menos la imagen de la parte de documento impreso, incluyendo la parte de documento impreso la anotacion en la proximidad de la parte de texto impreso;
    en el que el componente de deteccion fracciona la imagen de la parte de documento impreso en una pluralidad de zonas, comprendiendo la pluralidad de zonas por lo menos una zona de texto y por lo menos una zona candidata.
  8. 9. Soporte segun la reivindicacion 8, en el que el componente de comparacion utiliza un procedimiento de reconocimiento optico de caracteres (OCR) para reconocer la parte de texto impreso dentro de la parte de documento impreso, y utilizando el componente de comparacion una o mas consultas de busqueda para identificar la parte de texto electronico correspondiente.
  9. 10. Soporte segun la reivindicacion 9, en el que el componente de comparacion utiliza un procedimiento de poda para eliminar errores de reconocimiento de la parte de texto impreso reconocida.
    5
    10
    15
    20
    25
    30
    35
  10. 11. Soporte segun la reivindicacion 8, en el que la anotacion digital comprende por lo menos una de entre una anotacion digital directa y una anotacion digital migrada.
  11. 12. Soporte segun la reivindicacion 8, en el que el componente de deteccion analiza dicha por lo menos una zona candidata usando por lo menos uno de entre un procedimiento de reconocimiento de escritura manual, un procedimiento OCR, un modelo de lenguaje estadistico, una comparacion por superposicion de mapas de bits, y un clasificador estadistico.
  12. 13. Soporte de la reivindicacion 8, en el que el componente de deteccion detecta la anotacion basandose, por lo menos en parte, en retroalimentacion recibida desde por lo menos un revisor por medio de una plataforma de crowd-sourcing.
  13. 14. Sistema que facilita la sincronizacion de anotaciones entre un documento impreso y un documento electronico, caracterizado por que comprende:
    un servidor configurado para recibir, desde un dispositivo de formacion de imagenes, una imagen de una parte de documento impreso que tiene una anotacion en la proximidad de una parte de texto impreso, comprendiendo el servidor un procesador que instancia un sincronizador configurado para:
    (a) identificar una parte de texto electronico correspondiente en el documento electronico, siendo la parte de texto electronico correspondiente textualmente similar a la parte de texto impreso,
    (b) detectar la anotacion en la parte de documento impreso, y
    (c) facilitar la insercion de una anotacion digital en el documento electronico, correspondiendo la anotacion digital a la anotacion detectada;
    en el que el sincronizador esta configurado para facilitar la insercion de la anotacion digital en el documento electronico (1) asociando al documento electronico un archivo de metadatos que contiene la anotacion, y (2) insertando en el documento electronico un puntero al archivo de metadatos.
  14. 15. Sistema segun la reivindicacion 14, en el que el sincronizador esta configurado para
    detectar la anotacion utilizando por lo menos uno de entre un procedimiento de reconocimiento de escritura manual, un procedimiento OCR, un modelo de lenguaje estadistico, una comparacion por superposicion de mapas de bits, y un clasificador estadistico.
    5 16. Sistema segun la reivindicacion 14, en el que el dispositivo de formacion de imagenes
    comprende por lo menos uno de entre una camara dispuesta en un dispositivo de lectura y un dispositivo de escaneado industrial.
    imagen1
    DISPOSITIVO
    ESCANEADO
    DISPOSITIVO
    DE REVISION
    SERVIDOR
    PROCESADOR
    122
    MEMORIA
    SINCRONIZADOR
    MEDIOS DE
    ALMACENAM ENTO
    DE CONTENIDO
    DOCUMENTO
    128^
    ELECTRONICO
    IMAGEN
    DISPOSITIVO DE LECTURA
    CAMARA
    120
    MODULO DE
    110
    vISUALIZACION
    114^- PROCESADOR
    108
    MEMORIA
    COMPONENTE DE
    11 SE
    LECTOR DE L BROS
    ELECTRONICOS
    COPIADE
    DOCUMENTO
    104
    ELECTRONICO
    FIG. 1
ES201590093A 2013-02-28 2014-02-27 Método implementado por ordenador para sincronizar anotaciones entre un documento impreso y un documento electrónico, soporte legible por ordenador y sistema correspondientes Active ES2555180B1 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/781446 2013-02-28
US13/781,446 US9436665B2 (en) 2013-02-28 2013-02-28 Synchronizing annotations between printed documents and electronic documents

Publications (3)

Publication Number Publication Date
ES2555180A2 ES2555180A2 (es) 2015-12-29
ES2555180R1 ES2555180R1 (es) 2016-02-05
ES2555180B1 true ES2555180B1 (es) 2016-10-19

Family

ID=51389545

Family Applications (1)

Application Number Title Priority Date Filing Date
ES201590093A Active ES2555180B1 (es) 2013-02-28 2014-02-27 Método implementado por ordenador para sincronizar anotaciones entre un documento impreso y un documento electrónico, soporte legible por ordenador y sistema correspondientes

Country Status (5)

Country Link
US (1) US9436665B2 (es)
AU (1) AU2014223441B2 (es)
ES (1) ES2555180B1 (es)
GB (1) GB2525787B (es)
WO (1) WO2014134264A1 (es)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140023227A1 (en) * 2012-07-17 2014-01-23 Cubic Corporation Broken mag ticket authenticator
US20140115436A1 (en) * 2012-10-22 2014-04-24 Apple Inc. Annotation migration
US10175845B2 (en) * 2013-10-16 2019-01-08 3M Innovative Properties Company Organizing digital notes on a user interface
JP6123631B2 (ja) * 2013-10-28 2017-05-10 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
KR20160071144A (ko) * 2014-12-11 2016-06-21 엘지전자 주식회사 이동단말기 및 그 제어 방법
WO2016099500A1 (en) * 2014-12-18 2016-06-23 Hewlett-Packard Development Company, L.P. Identifying a resource based on a handwritten annotation
US9626594B2 (en) * 2015-01-21 2017-04-18 Xerox Corporation Method and system to perform text-to-image queries with wildcards
US11550993B2 (en) * 2015-03-08 2023-01-10 Microsoft Technology Licensing, Llc Ink experience for images
US10079952B2 (en) * 2015-12-01 2018-09-18 Ricoh Company, Ltd. System, apparatus and method for processing and combining notes or comments of document reviewers
US10572751B2 (en) * 2017-03-01 2020-02-25 Adobe Inc. Conversion of mechanical markings on a hardcopy document into machine-encoded annotations
US20180260376A1 (en) * 2017-03-08 2018-09-13 Platinum Intelligent Data Solutions, LLC System and method to create searchable electronic documents
US10223607B2 (en) * 2017-04-14 2019-03-05 International Business Machines Corporation Physical and digital bookmark syncing
US10895954B2 (en) * 2017-06-02 2021-01-19 Apple Inc. Providing a graphical canvas for handwritten input
CN108255386B (zh) * 2018-02-12 2019-07-05 掌阅科技股份有限公司 电子书手写笔记的显示方法、计算设备及计算机存储介质
US10353997B1 (en) * 2018-04-09 2019-07-16 Amazon Technologies, Inc. Freeform annotation transcription
JP7043955B2 (ja) * 2018-04-20 2022-03-30 京セラドキュメントソリューションズ株式会社 画像形成装置及び画像形成プログラム
US11227111B2 (en) * 2019-05-01 2022-01-18 Sap Se Graphical user interface providing priority-based markup of documents
US11568623B2 (en) * 2019-08-22 2023-01-31 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
US12086551B2 (en) * 2021-06-23 2024-09-10 Microsoft Technology Licensing, Llc Semantic difference characterization for documents
FR3138225A1 (fr) * 2022-07-21 2024-01-26 Orange Procédé d’annotation, dispositif électronique et produit programme d’ordinateur correspondant

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7111230B2 (en) * 2003-12-22 2006-09-19 Pitney Bowes Inc. System and method for annotating documents
US7299407B2 (en) * 2004-08-24 2007-11-20 International Business Machines Corporation Marking and annotating electronic documents
US8230326B2 (en) * 2004-12-17 2012-07-24 International Business Machines Corporation Method for associating annotations with document families
US7865734B2 (en) * 2005-05-12 2011-01-04 The Invention Science Fund I, Llc Write accessibility for electronic paper
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper
KR101443404B1 (ko) * 2006-09-15 2014-10-02 구글 인코포레이티드 페이퍼 및 전자 문서내의 주석의 캡처 및 디스플레이
US7796309B2 (en) * 2006-11-14 2010-09-14 Microsoft Corporation Integrating analog markups with electronic documents
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US8121618B2 (en) * 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems

Also Published As

Publication number Publication date
WO2014134264A1 (en) 2014-09-04
AU2014223441B2 (en) 2017-04-06
AU2014223441A1 (en) 2015-08-20
GB2525787B (en) 2021-04-21
US9436665B2 (en) 2016-09-06
GB201513239D0 (en) 2015-09-09
GB2525787A (en) 2015-11-04
ES2555180R1 (es) 2016-02-05
ES2555180A2 (es) 2015-12-29
US20140245123A1 (en) 2014-08-28

Similar Documents

Publication Publication Date Title
ES2555180B1 (es) Método implementado por ordenador para sincronizar anotaciones entre un documento impreso y un documento electrónico, soporte legible por ordenador y sistema correspondientes
KR100989011B1 (ko) 전자 잉크를 분석하기 위한 애플리케이션 프로그래밍 인터페이스를 포함하는 컴퓨터 판독가능 기록 매체, 전자 잉크 분석 방법 및 분석 콘텍스트 대상 생성 방법
Brunessaux et al. The maurdor project: Improving automatic processing of digital documents
US20030004991A1 (en) Correlating handwritten annotations to a document
US9256798B2 (en) Document alteration based on native text analysis and OCR
RU2760471C1 (ru) Способы и системы идентификации полей в документе
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
US11551146B2 (en) Automated non-native table representation annotation for machine-learning models
KR101724398B1 (ko) 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법
Tkaczyk et al. GROTOAP2-the methodology of creating a large ground truth dataset of scientific articles
Au et al. Finsbd-2021: the 3rd shared task on structure boundary detection in unstructured text in the financial domain
KR101046101B1 (ko) 제1 데이터 구조를 제2 데이터 구조로 조정하는 방법
Proske et al. Reference Management Systems
Coüasnon et al. Access by content to handwritten archive documents: generic document recognition method and platform for annotations
US12086551B2 (en) Semantic difference characterization for documents
Madan et al. Parsing and summarizing infographics with synthetically trained icon detection
CN116324910A (zh) 用于执行设备上图像到文本转换的方法和系统
Gruber et al. An automated pipeline for robust image processing and optical character recognition of historical documents
Seuret et al. A semi-automatized modular annotation tool for ancient manuscript annotation
US20160034569A1 (en) Search device
Rodriguez et al. Extracting, Assimilating, and Sharing the Results of Image Analysis on the FSA/OWI Photography Collection
Bos et al. Automatically Interpreting Dutch Tombstone Inscriptions
US20240233430A9 (en) System to extract checkbox symbol and checkbox option pertaining to checkbox question from a document
JP5162622B2 (ja) 電子インク処理
Kesh et al. Text Recognition and Medicine Identification by Visually Impaired People

Legal Events

Date Code Title Description
FG2A Definitive protection

Ref document number: 2555180

Country of ref document: ES

Kind code of ref document: B1

Effective date: 20161019

PC2A Transfer of patent

Effective date: 20180524

Owner name: THOMSON REUTERS GLOBAL RESOURCES UNLIMITED COMPANY

Effective date: 20180524

PC2A Transfer of patent

Owner name: THOMSON REUTERS ENTERPRISE CENTRE GMBH

Effective date: 20200325