ES2202151T3

ES2202151T3 - Instalacion y metodo para actualizar una base de datos de direcciones con registros dedirecciones grabadas.

Info

Publication number: ES2202151T3
Application number: ES00946529T
Authority: ES
Inventors: Peter Christoffel Bezuijen; Dick Brandt; Erik Wilhelmus Gilles Van Westbroek; Marco Gerardus Van Der Veer; Frank Auke Nauta; Helanus Elisabeth Rudolph Frings; Petrus Adrianus Bruijs
Original assignee: PTT Post Holdings BV
Current assignee: PTT Post Holdings BV
Priority date: 1999-07-05
Filing date: 2000-07-05
Publication date: 2004-04-01
Anticipated expiration: 2020-07-05
Also published as: NO323220B1; AU6027000A; ATE246550T1; NO20020034D0; DE60004370D1; NO20020034L; WO2001002104A1; DE60004370T2; CN1158146C; CN1360524A; US7219095B1; EP1196252A1; EP1196252B1; PT1196252E; DK1196252T3

Abstract

Instalación para la actualización de una base de datos de direcciones con registros de direcciones almacenados, que consta de: al menos un procesador (14, 15, 42) para recibir y procesar los datos de las direcciones tal y como se muestran en las unidades de correo; una memoria (22), conectada al menos a un procesador (14, 15, 42), para el almacenamiento de los datos de las direcciones; una memoria de la base de datos (44), conectada al menos a un procesador (14, 15, 42), que contiene la base de datos de las direcciones almacenadas en la misma; caracterizada por el hecho de que el al menos un procesador (14, 15, 42) está equipado para determinar una valoración de la calidad de los datos de las direcciones basándose en criterios predefinidos, para comparar los datos de las direcciones con los registros de las direcciones almacenadas en la memoria de la base de datos (44) y para actualizar el contenido de la memoria de la base de datos (44) basándose en la valoración de la calidad y en la comparación de los datos de las direcciones con los registros de las direcciones almacenadas.

Description

Instalación y método para actualizar una base de datos de direcciones con registros de direcciones grabadas.

La presente invención se refiere a una instalación para actualizar una base de datos de direcciones con registros de direcciones almacenados, que consta de:

\bullet al menos un procesador para recibir y procesar los datos de las direcciones tal y como se muestran en las unidades de correo;

\bullet una memoria, conectada al menos a un procesador, para el almacenamiento de los datos de las direcciones;

\bullet una memoria de bases de datos, conectada al menos a un procesador, conteniendo la base de datos de direcciones almacenada en su interior.

En JP-A 9/57204 se describe una instalación de este tipo.

JP-A 8/323299 se refiere a un sistema de gestión de bases de datos de direcciones que está equipado para actualizar una base de datos de direcciones basándose en el correo devuelto en el que se realizan correcciones. Un lector lee el correo devuelto y los datos corregidos son almacenados en una memoria. El sistema de gestión actualiza automáticamente la base de datos basándose en los datos proporcionados por el correo devuelto. Un dispositivo de clasificación del correo, que es capaz de clasificar el correo de acuerdo con la dirección corregida, está acoplado al sistema de gestión de bases de datos. Este documento no hace referencia a la actualización de las bases de datos existentes sin hacer uso del correo devuelto en el que se han realizado correcciones.

JP-A 9/314067 describe un método y un dispositivo de clasificación del correo. Muestra un sistema que comprende medios para la lectura de la información de las direcciones del correo y para generar un código de la dirección basándose en esta información de las direcciones. Como alternativa, la información de las direcciones puede ser introducida manualmente. El código de dirección se compara con el contenido de una base de datos con la información de la direcciones. Si el código de la dirección no se corresponde precisamente con una dirección en la base de datos, el código de la dirección y las posibles direcciones correctas se visualizan ante el operador. Entonces el operador puede, comparando por ejemplo el nombre del destinatario en el correo con los nombres de los destinatarios de las posibles direcciones correctas, decidir cual de estas últimas es la correcta. Esta dirección correcta se imprime entonces en la unidad de correo para una posterior clasificación automatizada. Este documento se basa en la suposición de que la base de datos de direcciones es correcta.

JP-A 9/75862 describe un dispositivo de clasificación del correo. Éste consta de un terminal de codificación de video. El operador de la máquina introduce un código de usuario. El dispositivo valora la corrección del código de usuario comparándolo en una base de datos. Este documento no menciona la actualización de una base de datos de direcciones.

La patente JP-A 9/57204, a partir de la cual se delimitan las presentes reivindicaciones, se refiere al problema de actualización de una base de datos de direcciones aplicado a una instalación de clasificación automática del correo. En una instalación de clasificación del correo de este tipo, existe una unidad de codificación de video que lee las unidades de correo y convierte los datos de las direcciones en un código de dirección, usando por ejemplo una unidad de reconocimiento óptico de caracteres. El código de dirección queda almacenado en una memoria. Durante el proceso de clasificación el código de dirección se compara con los datos de las direcciones almacenados en una base de datos de direcciones. Si la comparación muestra que el código de dirección se corresponde con una dirección almacenada en la base de datos, entonces ésta es aceptada como correcta para una clasificación posterior.

Algunos códigos de direcciones no se corresponden con ninguna de las direcciones de la base de datos. Entonces es posible visualizar en una pantalla la unidad de correo grabada por la unidad de codificación de video. El operador de la instalación de clasificación de correo estudia entonces la información introducida en la pantalla e introduce a mano, por medio de un teclado por ejemplo, la dirección que debe ser usada para el proceso de clasificación posterior. No obstante, la mencionada patente JP-A 9/57204 también propone la actualización de la propia base de datos, de modo que los errores y/o los casos en los que los códigos de dirección no se corresponden con una dirección de la base de datos ocurren cada vez con menos frecuencia.

Con este fin, JP-A9/57204 propone esencialmente lo siguiente: los códigos de dirección de las unidades de correo que no se corresponden con una dirección de la base de datos se almacenan en una memoria. Las unidades de correo asociadas rechazadas son eliminadas a través de una línea separada. En el momento adecuado, las unidades de correo rechazadas son nuevamente introducidas en el dispositivo con el objetivo de actualizar la base de datos basándose en una nueva lectura. En principio, puede haber dos causas diferentes para el rechazo de las unidades de correo. En primer lugar, el sistema de reconocimiento óptico de caracteres puede no haber reconocido uno o varios caracteres. En segundo lugar, puede ocurrir que todos los caracteres hayan sido reconocidos pero que el código de la dirección establecido de esta manera no se corresponda con una dirección de la base de datos. En el primer caso, la imagen grabada por la unidad de codificación de video es visualizada ante el operador del sistema. Ante en esta imagen el operador decide cómo deben ser corregidos los caracteres incorrectos. La base de datos es opcionalmente corregida o completada por medio del modelo de reconocimiento de direcciones ya corregidas a mano. En el segundo caso la base de datos es completada con la nueva información de las direcciones, que se suponen correctas.

El problema resuelto mediante la presente invención se refiere a la actualización de una base de datos de direcciones lo más automatizada posible. Los problemas que surgen ante tal operación son, por ejemplo, los siguientes: la base de datos de direcciones siempre contendrá algunos datos de direcciones de los cuales puede mejorarse la fiabilidad o que pueden contener pequeños errores. Además, mucha gente tiene a menudo una dirección temporal que no es la dirección de su casa, por ejemplo cuando están de vacaciones o si han ingresado en el hospital durante algún tiempo. Durante ese período el correo para ellos es enviado a una dirección distinta de la dirección de su casa. No obstante, la dirección del correo es correcta y su clasificación no debería ser rechazada. De la misma manera, la base de datos de direcciones no debería ser modificada en este caso. Además, mucha gente se muda sin informar de la dirección de su nuevo hogar a tiempo o de la manera correcta a los servicios de entrega postal. En este caso se requiere una modificación de la base de datos de direcciones. Mucha gente también recibe correo dirigido a direcciones diferentes, por ejemplo porque tienen una dirección para su domicilio y una dirección para el trabajo. Y por último, en los servicios de entrega postal no consta en absoluto ninguna dirección de algunas personas (por ejemplo de los niños), aunque sería de gran utilidad para el control del proceso de clasificación.

El objetivo de la solicitud es, ante todo, evitar este tipo de problemas en la medida de lo posible al actualizar bases de datos de direcciones y obtener datos que sean lo más fiable posible.

Con este fin la instalación del tipo mencionado en el preámbulo se caracteriza porque al menos un procesador está equipado para determinar una valoración de la calidad de los datos de las direcciones basándose en criterios predefinidos, comparar los datos de las direcciones con los registros de las direcciones almacenadas en la memoria de la base de datos y actualizar el contenido de la memoria de la base de datos basándose en la valoración de la calidad y en la comparación de los datos de las direcciones con los registros de las direcciones almacenadas.

En la instalación de la invención, una base de datos de direcciones, que contiene registros de direcciones almacenados, se actualiza de manera continua basándose en los datos de las direcciones impresas en las unidades de correo y recibidas en la instalación. Para esta operación estos datos mostrados en las unidades de correo pueden ser opcionalmente leídos por personas que posteriormente introducen estos datos a mano. No obstante, es preferible que la lectura de estos datos de las direcciones se desarrolle automáticamente. La lectura automática puede llevarse a cabo usando cualquier tecnología conocida para esta finalidad. La actualización de la base de datos de direcciones se lleva a cabo de forma completamente automática y no se basa, como en la técnica anterior, en una mejora manual de la base de datos de direcciones basándose en las unidades de correo en las que los datos de las direcciones leídas no se corresponden con registros de direcciones almacenados y que han sido rechazadas por la instalación. Con este fin, la instalación según la invención hace uso de una valoración de la calidad que indica la buena calidad de los datos de las direcciones y que se determina según criterios predefinidos. La instalación determina de forma completamente automática si la calidad permite que la base de datos de direcciones sea actualizada basándose en los datos de las direcciones.

Al actualizar la base de datos de direcciones puede hacerse uso de los datos de las direcciones leídos automáticamente en todas las unidades de correo. Por supuesto, no obstante, también es posible usar una selección de las mismas. Por ejemplo, pueden tenerse en cuenta muestras aleatorias o puede evitarse la actualización de la base de datos de direcciones durante un período específico en el que mucha cantidad de correo se envía a direcciones poco usuales, por ejemplo durante el período de Navidad. También es posible, por ejemplo, no procesar los datos de las direcciones escritas a mano o descartar los datos de las direcciones de las tarjetas postales.

La presente invención también se refiere a un método de actualización de una base de datos de direcciones en una memoria de bases de datos que contiene registros de direcciones almacenados, que consiste en:

\bullet recibir y procesar los datos de las direcciones tal y como se muestran en las unidades de correo;

\bullet almacenar los datos de las direcciones;

caracterizado por

la determinación de una valoración de la calidad de los datos de las direcciones basándose en unos criterios predefinidos, la comparación de los datos de las direcciones con los registros de las direcciones almacenadas en la memoria de la base de datos, y la actualización del contenido de la memoria de la base de datos basándose en la valoración de la calidad y en la comparación de los datos de las direcciones con los registros de las direcciones almacenadas.

La presente invención también se refiere a un soporte de datos provisto de un programa informático que puede ser leído por una instalación informática y que, una vez instalado, proporciona a la instalación informática la funcionalidad para actualizar bases de datos de direcciones en una memoria de bases de datos que contiene registros de direcciones almacenados, haciendo uso de las siguientes fases:

\bullet almacenar los datos de las direcciones;

caracterizado por

la determinación de una valoración de la calidad de los datos de las direcciones basándose en criterios predefinidos, la comparación de los datos de las direcciones con los registros de las direcciones almacenadas en la memoria de la base de datos y la actualización del contenido de la memoria de la base de datos basándose en la valoración de la calidad y en la comparación de los datos de las direcciones con los registros de las direcciones almacenadas.

La presente invención también se refiere a un programa informático que puede ser leído por una instalación informática y, una vez instalado, proporciona a la instalación informática la funcionalidad para actualizar una base de datos de direcciones en una memoria de bases de datos que contiene registros de direcciones almacenados, haciendo uso de las siguientes fases:

\bullet almacenar los datos de las direcciones;

caracterizado por

La invención se explicará a continuación haciendo referencia a unas figuras que están destinadas únicamente a ilustrar la invención y no a restringir el objetivo de la misma.

La Figura 1 es un ejemplo de una unidad de correo provista con los datos de la dirección de un destinatario y los datos de la dirección de un remitente;

La Figura 2 es un ejemplo de una instalación que puede ser usada para la actualización de una base de datos con registros de direcciones;

La Figura 3 es un diagrama de flujo que muestra algunas fases durante el proceso de actualización de los registros de direcciones en una base de datos;

Las Figuras 4, 5 y 6 dan más detalles de algunas de las fases mostradas en la figura 3.

La Figura 1 muestra un ejemplo de una carta que incluye los datos de la dirección del destinatario 2 y los datos de la dirección del remitente 7. La carta 1 puede llevar un sello 8. En lugar de sello 8 también es posible que la unidad haya sido franqueada por una máquina o similar. Como otra alternativa, los datos de la dirección pueden haber sido incorporados a la unidad de correo en forma de un suplemento o en forma de código exclusivamente. Tal código puede ser un código de barras unidimensional o bidimensional. El valor del franqueo también puede haber sido incorporado en dicho código. En este caso el código puede denominarse "sello electrónico".

Los datos de la dirección del destinatario comprenden, por ejemplo, una línea con el nombre 3, el nombre de una empresa 4, la dirección de una calle y la ciudad y el código postal 6. Los datos de la dirección del remitente pueden ser compilados de una manera similar.

Dicha carta 1 puede ser clasificada usando un dispositivo de clasificación automático. Un ejemplo del mismo se muestra en la figura 2. La carta 1 se coloca, por ejemplo, en una cinta transportadora 10. La cinta transportadora 10 guía la carta 1 para que pase por un escáner de imagen 12, el cual toma una imagen del lado de la unidad de correo sobre el que se muestran los datos del destinatario 2 y, opcionalmente, los datos del remitente 7. El escáner de imagen 12 envía la imagen registrada al procesador 14. Una vez escaneada por el escáner de imagen 12, la carta 1 es introducida por la cinta transportadora 10 en una impresora de códigos de barras 26 que imprime un código de barras en la carta 1. Este código de barras contiene otros detalles que serán usados para la clasificación posterior. Después de haber sido introducida a través de la impresora de códigos de barras 26, la carta 1 es introducida por la cinta transportadora 10 en una máquina clasificadora 28, que lee el código de barras impreso y de acuerdo con éste introduce la carta 1 en un itinerario específico 30, 32, 34, 36...

El escáner de imagen 12, la impresora de códigos de barras 26 y el dispositivo de clasificación 28 están conectados a un procesador 14. El procesador 14 también está conectado a medios por los cuales el operador puede introducir datos, como un ratón 18 y un teclado 16. El procesador 14 también está conectado a memorias adecuadas, que incluyen, por ejemplo, un disco duro 20 y una memoria de imagen 22, en la que el procesador 14 almacena la imagen que contiene los datos de la dirección, tanto relativos al destinatario y como al remitente (si se da el caso), y que son leídos por el escáner de imagen 12.

El procesador 14 también está conectado a un medio de visualización 24, por ejemplo en forma de un monitor.

El procesador 14 controla automáticamente el escáner de imagen 12, la impresora de códigos de barras 26 y el dispositivo de clasificación 28 en el proceso de clasificación. La manera en la que esto se desarrolla es conocida per se y no requiere más explicación aquí.

En el sistema según la figura 2 el procesador 14 está conectado a una red telefónica, por ejemplo PSTN 40 (Red pública de telefonía conmutada).

Como un suplemento, se puede instalar un procesador adicional 15 entre el procesador 14 y la PSTN 40, dicho procesador adicional 15 es capaz de aliviar la carga en el procesador 14 mediante, por ejemplo, la realización de actividades relativas a la transmisión y a la recepción de datos de la PSTN. Estas pueden incluir el almacenamiento temporal de los datos, el establecimiento de la comunicación con otros procesadores por medio de la PSTN 40 y, en particular, la realización de una o más operaciones que son necesarias en la estructura de la presente invención y que no se requieren per se en el propio proceso de clasificación. Por ejemplo, en el proceso de clasificación no será necesario obtener el nombre del destinatario (nombre de la empresa y/o individuo particular) o los datos del remitente 7 a partir de la imagen proporcionada por el escáner de imagen.

Un procesador central 42 está también conectado a la PSTN 40. El procesador central 42 está también conectado a una memoria central de la base de datos 44.

En la figura 2 se indica que el procesador 14 está conectado (opcionalmente a través del procesador 15) a la PSTN 40 por medio de un cable 38 (1) y que existen varias conexiones de ese tipo 38 (2), 38 (3), 38(4),... Estas otras conexiones indican que diversos sistemas de este tipo con medios de clasificación locales y con procesadores locales pueden estar conectados a la PSTN 40. Todos pueden comunicarse con el procesador central 42 por medio de la PSTN 40.

No obstante, también cabe la posibilidad de que la invención se utilice en un sistema local y que el procesador 14, opcionalmente junto con el procesador 15, esté directamente conectado a la memoria central de la base de datos 44.

La memoria central de la base de datos 44 consta de una base de datos que contiene registros de direcciones. En el contexto de esta invención un registro de direcciones contiene al menos una línea con el nombre 3, la dirección de una calle, la ciudad y el código postal 6. El nombre que aparece en la línea con el nombre puede ser el nombre de un individuo aunque también puede tratarse del nombre de una empresa, o de ambas cosas. A veces existen dos (o más) líneas para el nombre en las que, por ejemplo, se expone tanto el nombre del individuo como el nombre de la empresa. Por supuesto, también es posible incorporar otros datos en el registro de la dirección.

La Figura 3 muestra en líneas generales los pasos que se dan durante la actualización de los registros de direcciones en la memoria central de la base de datos 44. En términos generales se siguen los pasos siguientes para esta operación.

Los datos de la unidad de correo son sometidos a un proceso de reconocimiento humano y/o mecánico con el objetivo de obtener los datos relacionados con el servicio postal.

La imagen, que se almacena en la memoria de imagen 22, es analizada por un procesador 14, opcionalmente en combinación con el procesador 15, para establecer la posición de uno o más bloques de direcciones relativos al destinatario y opcionalmente al remitente. Cada bloque de dirección es sometido a un análisis en el que se estudia la naturaleza de las líneas del bloque de dirección. Cada línea del bloque de dirección es segmentada, es decir se hace una valoración de los elementos lógicamente coherentes de los que se compone la línea, por ejemplo "iniciales", o "dirección de la calle". Opcionalmente se estandariza el contenido de los elementos encontrados, exponiendo varios casos en un formato estándar.

Cada valoración que se hace en el proceso de reconocimiento produce una puntuación de valoración en la que se muestra el grado de certeza o incertidumbre con respecto al resultado del reconocimiento. Un resultado del reconocimiento pobre puede originar el rechazo del resultado detectado por ser inservible. En el proceso de reconocimiento puede hacerse uso de datos de referencia verificados disponibles, en cuyo contexto pueden considerarse archivos que contienen apellidos, códigos postales, direcciones de calles, ciudades y centros de recogida existentes en un país determinado, por ejemplo en Los Países Bajos. Tales datos de referencia son almacenados en una memoria y pueden ser usados para una valoración más exacta del reconocimiento y posiblemente incluso para la corrección de los resultados del reconocimiento previo. Por ejemplo, un código postal reconocido pero que no existe puede posiblemente ser mejorado tras la comprobación con los archivos verificados de códigos postales existentes.

La Figura 3 será ahora explicada con más detalle.

Actualmente se procesan de forma automática unos 24 millones de unidades de correo al día en Los Países Bajos mediante un sistema automático de clasificación del correo (APSS) en seis centros de clasificación diferentes. En cuanto a la funcionalidad, uno de esos centros de clasificación se corresponde con la sección media de la figura 2. El escáner de imagen 12 toma una imagen digital por el lado de la dirección de cada unidad de correo 1, dicha imagen es enviada al procesador 14 que almacena la imagen en la memoria de imagen 22. La dirección en la imagen digital es localizada por el procesador 14 y luego la dirección es leída automáticamente.

En una primera fase del diagrama de flujo de la figura 3, "la recopilación del APSS" 46, los datos de las direcciones de las unidades de correo son almacenados localmente de forma temporal en una memoria de imagen 22. Los caracteres presentes en los datos de las direcciones en las imágenes se establecen con la ayuda de técnicas de reconocimiento óptico de caracteres (OCR), que son conocidas per se. Se puede determinar una valoración de la fiabilidad del reconocimiento de caracteres para la conversión de los caracteres presentes en las unidades de correo a caracteres digitales, dicha valoración de la fiabilidad del reconocimiento de caracteres depende de la exactitud del carácter en la unidad de correo, del proceso de lectura del escáner de imagen 12 y de la calidad del proceso OCR. Los caracteres escritos a mano tendrán una mayor probabilidad de dar un resultado incorrecto que los caracteres impresos.

Preferiblemente, sólo aquellos datos de direcciones que han sido escritas a máquina en la unidad de correo 1 y en las que se ha leído correctamente la combinación del número del código postal/número de la casa 6 son usados para actualizar los datos de las direcciones de la base de datos central 44. En cuanto al propio proceso de clasificación del correo, en la medida de lo posible, todos los datos que son resultado del proceso OCR, incluyendo las direcciones escritas a mano, por supuesto, serán tenidos en cuenta. Preferiblemente, los datos de las direcciones de correo con direcciones escritas a mano se consideran insuficientemente fiables para la actualización de la base de datos de direcciones en la memoria central de la base de datos 44.

Para complementar los datos de las direcciones que se derivan de las imágenes grabadas con la ayuda de las técnicas OCR, se puede hacer uso de la entrada de datos realizada manualmente por personas. Los datos a los que se hace referencia son, por ejemplo, los datos de las unidades de correo que el procesador 14 ha establecido que es imposible derivar automáticamente de los datos de la dirección existentes, con respecto a la dirección de la calle, el código postal y la ciudad, a partir de los caracteres de la imagen. Tales unidades de correo son rechazadas durante el proceso de clasificación y se dejan a un lado para su procesamiento manual. Un empleado procesa estas unidades de correo a mano en la medida en que éste lee la dirección en la imagen a través del monitor 24 y, mediante los medios de entrada 16, 18, introduce manualmente la dirección que ha determinado, después de lo cual el procesador 14 todavía puede enviar las instrucciones correctas a la impresora de códigos de barras 26 y al dispositivo de clasificación. Además cabe la posibilidad de que el propio empleado lea los datos de las direcciones en la unidad de correo 1 original.

También cabe la posibilidad de que los datos de las direcciones para actualizar la base de datos central 44, los cuales se originan a partir de las unidades de correo, sean introducidos manualmente en otro lugar, originando un archivo de datos conteniendo los datos de direcciones, por ejemplo, en un disco flexible o por Internet, y que se envían al procesador central 42 una vez leídos.

El procesador central 42 es capaz de comunicarse por medio de la conexión en red PSTN 40 (o por medio de cualquier otro enlace de comunicación adecuado) con el procesador 14 (o 15) con el objetivo de solicitar las imágenes almacenadas en la memoria de imagen 22. Después de la recepción, el procesador central 42 puede añadir cualquier dato administrativo requerido para los datos de las direcciones escaneadas. Los datos administrativos consisten en, por ejemplo, el centro de clasificación dónde fueron escaneados los datos de las direcciones, la fecha en que los datos de direcciones fueron escaneados y un número de serie. Entonces el procesador central 42 puede almacenar los datos de las direcciones escaneadas recibidas en cualquier memoria central adecuada. Ésta puede ser, por ejemplo, una memoria separada de la memoria central de la base de datos 44.

Después del "paso de la recopilación del APSS" 46 se realiza una fase de segmentación/ estandarización 48. Tal y como se muestra en la figura 4, en esta fase los datos de las direcciones escaneadas y recopiladas (fase 482) son divididos en elementos relevantes para cada unidad de correo. Se seleccionan las líneas del nombre 3 a partir de los datos de la dirección del destinatario 2, fase 483, y se separan en elementos, fase 484. Se asignan significados, como prefijo, nombre, título, etc., a los elementos individuales. Los elementos individuales pueden entonces ser estandarizados, exponiéndose varios casos en un formato estándar. En caso de estar presente, el nombre de la empresa 4 también se analiza. Así se producen registros de direcciones que contienen apellidos y/o nombres de empresas y elementos asociados, como iniciales, infijos, sufijos, etc.

De acuerdo con un algoritmo predefinido, se determina una valoración de la fiabilidad del reconocimiento global a partir de los datos del registro de direcciones, fase 485. La valoración de la fiabilidad del reconocimiento de caracteres se incorpora como elemento de esta valoración de la fiabilidad del reconocimiento global. La valoración de la fiabilidad del reconocimiento global también tiene en cuenta cualquier error de escritura y/o erratas de tipografía en los datos de las direcciones en la propia unidad de correo.

Una valoración de la calidad de la segmentación (separación en elementos individuales) dentro del proceso de segmentación también se determina, fase 486. Tanto la valoración de la fiabilidad del reconocimiento global como la calidad de la segmentación se incorporan en el registro de direcciones. Ambos valoraciones, es decir, la valoración de la fiabilidad del reconocimiento global y la calidad de la segmentación, son usadas posteriormente cuando realmente se actualizan los registros de las direcciones en la memoria de la base de datos central 44.

La frecuencia 50 se lleva a cabo por el procesador central 42 (ver Figura 5). Con este fin el procesador central 42 tiene un archivo con los apellidos que aparecen en Los Países Bajos. Este archivo está almacenado en una memoria (no mostrada) conectada al procesador central 42. Cada apellido que ha sido separado de los datos de las direcciones con la ayuda de la fase 48 es comparado con los apellidos existentes en la fase 501 y se evalúa por su conformidad con las reglas de sintaxis en la fase 502. Se realiza la misma operación con los nombres y con cualquiera de los nombres de empresas presentes. Con la ayuda de un algoritmo predefinido, se determina una valoración de la frecuencia para cada apellido, nombre y cualquier nombre de empresa y se añade al registro de direcciones, fase 503.

Los datos de las direcciones de la calle 5 (o número de apartado de correos) y la combinación de código postal y ciudad 6 son comprobados por el procesador 14 tan pronto como son expuestos con la ayuda del escáner de imagen 12 para determinar su existencia, ya que estos datos son necesarios para el proceso de clasificación del correo. En la práctica habitual los sufijos del número de casa, como "piso superior", "parte trasera", "segundo piso", "II", etc., no son comprobados. En la fase 52 de "direccionamiento" estos sufijos del número de casa son estandarizados con la ayuda de una lista de las abreviaturas que aparecen frecuentemente. Por ejemplo, "TO" ("op") es sinónimo de " tegenover" ("opuesto"). "1-hoog" ("primer piso") es, por ejemplo, sinónimo de (1^{e}) ("1°") y de "I".

En la fase 52, el procesador central 42 comprueba si existen datos correspondientes en la base de datos almacenada en la memoria de la base de datos central 44 para cada combinación de nombre de calle o carretera, número, código postal y ciudad. Si éste no es el caso, la dirección expuesta es "nueva". Este hecho se añade al registro de direcciones escaneado (fase 522).

Entonces el procesador central 42 lee en la base de datos central en la memoria de la base de datos central 44 todos los nombres registrados en la dirección (incluyendo sufijos) en un registro de direcciones escaneado. Los nombres 3, 4 escaneados son comparados con los nombres registrados en la base de datos central. Si es posible las iniciales, los nombres, los prefijos, los apellidos y los sufijos son comparados unos con otros. A cada nombre 3, 4 escaneado para un destinatario se le asigna una puntuación de comparación en la que se incorpora la calidad y los resultados de las comparaciones a los distintos componentes del nombre registrado, es decir las iniciales, prefijos, nombres, apellidos, sufijos, etc.

Basándose en las puntuaciones de la comparación, la calidad de la segmentación, la valoración de la frecuencia y la valoración de la fiabilidad del reconocimiento global de los datos de las direcciones escaneadas, el procesador central 42 decide si un registro de direcciones escaneado es nuevo, conocido o desconocido. Para esta operación se hace uso de una valoración de la calidad que se basa preferiblemente en al menos uno de los siguientes criterios: calidad de la segmentación, valoración de la frecuencia y valoración de la fiabilidad del reconocimiento global. La valoración de la calidad puede ser, por ejemplo, la media aritmética de estos tres criterios juntos. La atribución del estado "nuevo", "conocido" o "desconocido" puede, por ejemplo, darse de acuerdo con las siguientes reglas:

- los datos de las direcciones escaneadas son nuevos si las puntuaciones de la comparación son relativamente bajas y la valoración de la calidad es relativamente alta;

- los datos de las direcciones escaneadas son conocidos si las puntuaciones de la comparación son relativamente altas y la valoración de la calidad es relativamente alta;

- los datos de las direcciones escaneadas son desconocidos si las puntuaciones de la comparación son relativamente bajas y la valoración de la calidad es relativamente baja.

La asignación de este estado tiene lugar en la fase 56 de "decisión".

Las estadísticas para los registros de direcciones conocidas se actualizan en la misma fase. Este hecho se comentará con más detalle abajo.

El procesador central 42 puede crear un nuevo registro de direcciones en la memoria de la base de datos central 44 para un registro de una dirección nueva y/o desconocida.

Las fases siguientes pueden utilizarse, por ejemplo, para actualizar los datos estadísticos relativos a registros de direcciones ya conocidas.

La frecuencia con la que aparece un elemento de los datos puede ser registrada en el centro de clasificación, de modo que se puede determinar la dispersión de un elemento de las direcciones. También es posible registrar la fecha en la que un registro de direcciones fue leído por última vez en cualquiera de los centros de clasificación. De esta manera es posible registrar en la base de datos central las fechas, por ejemplo, del año anterior, en las que se realizó un registro de la dirección particular de una unidad de correo en algún lugar. Se puede determinar el intervalo entre dos veces consecutivas en que se usó el registro de la dirección de una unidad de correo. Con el objetivo de determinar este intervalo es posible, por ejemplo, controlar un período reciente o un período más alejado en el tiempo. Es también posible determinar la duración media de tiempo entre dos veces consecutivas en que el registro de la dirección fue leído en uno de los centros de clasificación. Si el período medio cambia sustancialmente con el paso del tiempo, puede tratarse de una indicación de que el registro de la dirección debe ser corregido.

También es posible que los datos de las direcciones del remitente 7 sean registrados y almacenados en una memoria. Los datos del remitente 7 pueden usarse en la determinación del valor de la valoración de la calidad. Después de todo, se puede suponer que las unidades de correo que tienen su origen, por ejemplo, en una oficina de registro de la autoridad local contienen datos de direcciones de destinatario muy fiables 2. Preferiblemente, las direcciones de destino que tienen su origen en la propia base de datos 44 no se utilizan para determinar el grado de fiabilidad de las direcciones de la base de datos 44.

Si los datos de la dirección del remitente son almacenados también es posible registrar si un elemento de la dirección es enviado frecuentemente desde la misma dirección. Si una dirección de destino se usa frecuentemente desde una única dirección remitente, la fiabilidad no tiene que ser alta. Cuantas más direcciones de remitentes usen la misma dirección de destino mayor será la fiabilidad.

Según los datos, a cada registro de dirección se le puede asignar un estado, por ejemplo nuevo, común, fiable o antiguo. Para este objetivo pueden aplicarse, por ejemplo, las siguientes reglas. Cuando un registro de una dirección es recopilado por primera vez se le da el estado de nuevo. Un registro de una dirección se convierte en común cuando es recibido varias veces desde distintos remitentes y/o desde distintos centros de clasificación. Un registro de una dirección común puede ser fiable si el registro de la dirección aparece con regularidad en las unidades de correo. La regularidad se determina basándose en el intervalo medio entre dos veces consecutivas en que el registro de la dirección es leído en una unidad de correo. Se puede determinar que un registro de dirección fiable se convierte en común si la duración media de dicho intervalo se vuelve superior a la de un período predefinido. Si un registro de dirección deja de aparecer, éste adquiere el estado de antiguo.

Si el intervalo entre las últimas veces en que aparece un registro de dirección en una unidad de correo se hace cada vez más largo, es una indicación de que, por ejemplo, el destinatario se ha mudado y puede tomarse la decisión de que el registro de dirección ha caído en desuso.

Ejemplo

A continuación se explicará un ejemplo de un proceso de reconocimiento. Se presupone que sólo se envían datos en los que se haya leído un código postal válido.

El bloque de la dirección leída es, por ejemplo:

BTT Port Redapersice

Pohtnus 5838

5858GJ Riksdijk

\hskip1cm

NL

al tiempo que aparece lo siguiente en la unidad de correo 1 que ha sido leída:

PTT Post Mediaservice

Postbus 5858

5858GJ Rijswijk

\hskip1cm

NL

Cada carácter ha sido leído con una fiabilidad de reconocimiento determinada y por tanto se puede determinar una valoración de la fiabilidad de reconocimiento media para cada línea. Así, por ejemplo, el 60% para la primera línea, el 75% para la segunda línea y, por ejemplo, el 65% para la última línea. La valoración de la fiabilidad del reconocimiento global podría ser la media del 60%, 75% y 65% = 66.6%. Como alternativa podría decirse que la primera línea es decisiva para determinar la fiabilidad de reconocimiento.

En este caso la segmentación conduce a tres líneas. En la primera línea se diferencian tres palabras, dos palabras en la segunda línea y de nuevo dos palabras más un elemento separado en la tercera línea. Suponiendo que hay un código postal y una ciudad en la tercera línea de la dirección, se le da a la tercera línea una puntuación de segmentación baja, de por ejemplo del 40%, aunque solo sea a causa del gran espacio que hay entre dos de los elementos (Riksdijk y NL). La segunda línea debería contener el nombre de la calle o de la carretera y el número (y opcionalmente un sufijo) y se le da una puntuación de segmentación alta ya que la estructura se corresponde con lo esperado; por ejemplo del 90%. La primera línea contiene tres elementos de tres, cuatro y once caracteres y, por lo tanto, tiene una buena estructura para un apellido o un nombre de empresa. La puntuación de segmentación es, por ejemplo, del 80%. La puntuación de segmentación media es del 70%.

No se han encontrado prefijos, infijos o sufijos conocidos en la línea del nombre, ni hay ningún título ni nada parecido. Esto indica que está implícito el nombre de una empresa. En la segunda línea se hace una comprobación para establecer si hay un sufijo para el número de la casa y si es así cuál es. En este ejemplo no hay ningún sufijo y se reconoce que lo que aparece aquí es un apartado de correos. Por lo tanto queda poco que estandarizar.

La prueba de frecuencia podría consistir en la comparación con nombres de personas o de empresas ya existentes. La concordancia producirá una puntuación determinada. La puntuación es del 100% en caso de una correspondencia completa y la puntuación es el 0% si es completamente diferente. La comparación con el nombre "PTT Post Mediaservice" podría, por ejemplo, producir una puntuación del 65%, mientras los resultados de la comparación de "PTT Post Brieven" son del 25% y con Sijthof Pers del 0%.

La puntuación de la comparación puede ser calculada por medio de un algoritmo de concordancia, pero luego mediante la comparación con nombres de individuos y/o empresas registradas en la dirección leída (Postbus 5858). Estas últimas podrían ser, por ejemplo, las empresas siguientes: PTT Post Mediaservice, DMdata y Dataprofs. La concordancia con PTT Post Mediaservice es del 65% y con DMdata y Dataprofs es del 0%. La puntuación de comparación con PTT Post Mediaservice es obviamente la más alta.

Un sistema basado en reglas determinará ahora si en el caso presente (66.6% de fiabilidad, 70% de segmentación, 65% de frecuencia, 65% de puntuación de comparación) el elemento de los datos debe ser calificado como conocido, desconocido o nuevo. El requisito para un elemento de datos nuevo puede ser, por ejemplo, que una valoración de la calidad (por ejemplo la media de la valoración de la fiabilidad del reconocimiento global, la segmentación y la frecuencia) sea superior al 80% y que la puntuación de comparación sea inferior al 80%. El requisito para un elemento de datos conocido puede ser, por ejemplo, que la valoración de la calidad y la puntuación de comparación sean superiores al 95%. Todo lo que quede fuera de este porcentaje se puede calificar como desconocido.

Otras formas de realización

La figura 2 muestra la situación en la que la memoria de la base de datos central tiene una base de datos. No obstante, también es posible, partiendo de la base de datos de la memoria de bases de datos central hacer otra base de datos que contenga una selección de los registros de direcciones de la base de datos central completa. Esta selección se lleva a cabo basándose en reglas de decisión específicas. Por ejemplo, sólo aquellos registros de direcciones para los que la fiabilidad es superior a un valor umbral específico serán incorporados a esta selección de registros de direcciones. Estos registros de direcciones fiables pueden, por ejemplo, estar disponibles para su uso por terceras partes.

En el caso en el que se proporciona una base de datos adicional que contiene una selección de los datos de la memoria de la base de datos central, puede existir la condición de que, como regla adicional en la decisión de la inclusión en la memoria de la base de datos adicional, la selección debe estar de acuerdo con las reglamentaciones relevantes según la legislación de privacidad. Con el objetivo de almacenar datos según la legislación de privacidad, la propia base de datos central puede estar incorporada en una caja negra. Sólo se puede acceder a los datos almacenados en ella por medio de programas de salida seguros, por ejemplo igual que los incorporados en una caja negra. En este contexto es posible, por ejemplo, proporcionar el uso de una clave electrónica, opcionalmente pública.

Por lo tanto, en el proceso de la toma de decisiones con respecto al grado de utilidad de un elemento de datos de las direcciones escaneadas, preferiblemente se hace uso de (1) la frecuencia de la incidencia del mismo, (2) la variación del mismo y (3) la dispersión con respecto a los remitentes. En principio, se puede elaborar un sistema basado en reglas con este fin. Como alternativa, el procesador central 42 puede estar provisto de una red neural o similar. En general se da el caso de que un elemento de datos de direcciones es más útil cuanto más reciente sea su lectura en una unidad de correo, si se produce con suficiente frecuencia (es común), cuanto mayor sea el número de remitentes diferentes del que es recibido (común) y cuanto más alta sea la calidad del mismo, por ejemplo indicada mediante la calidad de segmentación y la valoración de la fiabilidad del reconocimiento.

Una forma de realización en la que las fases de actualización de la base de datos central es llevada a cabo por el procesador central 42 se ha descrito anteriormente. Como se ha mencionado anteriormente, estas fases pueden, no obstante, ser llevadas a cabo también por el procesador 14 (u, opcionalmente, de forma parcial por el procesador 15), específicamente cuando la base de datos que debe ser actualizada es una base de datos de direcciones que existe solamente en el ámbito local y que está almacenada en una memoria conectada al procesador 14 (o 15).

Otras posibilidades para la instalación y el método descritos son las siguientes.

Los datos de la dirección del remitente 7 pueden ser escaneados cuando el escáner de imagen 12 se usa como visualizador. El procesador 14 puede establecer, por ejemplo, que los datos de la dirección del remitente 7 se corresponden con los de la propia oficina de PTT POST (o la oficina de clasificación). Los datos que se originan desde esta última se corresponderán con los datos en la memoria de la base de datos central 44. Tales datos preferiblemente no se incorporan en la memoria de imagen 22 con el objetivo de evitar posibles errores en la memoria de la base de datos central 44 al confirmarlos cada vez.

Los títulos profesionales de personas a veces están especificados en las unidades de correo además de títulos y similares de los nombres en las líneas para el nombre 3. Estos datos también pueden ser almacenados en la memoria de base de datos central 44. Estos cargos profesionales pueden ser importantes para recopilar dicha base de datos adicional.

Por supuesto, la base de datos central 44 también puede ser utilizada durante el proceso de clasificación que se ha explicado antes.

Claims

1. Instalación para la actualización de una base de datos de direcciones con registros de direcciones almacenados, que consta de:

\bullet al menos un procesador (14, 15, 42) para recibir y procesar los datos de las direcciones tal y como se muestran en las unidades de correo;

\bullet una memoria (22), conectada al menos a un procesador (14, 15, 42), para el almacenamiento de los datos de las direcciones;

\bullet una memoria de la base de datos (44), conectada al menos a un procesador (14, 15,42), que contiene la base de datos de las direcciones almacenadas en la misma;

caracterizada por el hecho de que

el al menos un procesador (14, 15, 42) está equipado para determinar una valoración de la calidad de los datos de las direcciones basándose en criterios predefinidos, para comparar los datos de las direcciones con los registros de las direcciones almacenadas en la memoria de la base de datos (44) y para actualizar el contenido de la memoria de la base de datos (44) basándose en la valoración de la calidad y en la comparación de los datos de las direcciones con los registros de las direcciones almacenadas.

2. Instalación según la reivindicación 1, en la que el al menos un procesador está equipado para determinar una valoración de la fiabilidad del reconocimiento de los datos de las direcciones y para basar parcialmente la valoración de la calidad en la valoración de la fiabilidad del reconocimiento.

3. Instalación según la reivindicación 1 ó 2, en la que el al menos un procesador está equipado para seleccionar las líneas con el nombre de los datos de las direcciones, para dividir las líneas con el nombre en elementos individuales según unas reglas predefinidas y para basar parcialmente la valoración de la calidad en la selección de las líneas del nombre y en la separación de las mismas.

4. Instalación según la reivindicación 3, que además comprende nombres comunes almacenados, en la que el al menos un procesador está equipado para comparar los elementos individuales de las líneas con el nombre con los nombres comunes, para establecer una valoración de la frecuencia sobre esta base y para basar parcialmente la valoración de la calidad en la valoración de la frecuencia.

5. Instalación según la reivindicación 3 ó 4, en la que el al menos un procesador está equipado para derivar un nombre de un destinatario de las líneas del nombre, para derivar una dirección del destinatario de los datos de la dirección, para leer los nombres registrados de las personas que residen en esa dirección en la base de datos de direcciones y para comparar éstos con el nombre del destinatario y, basándose en esa comparación, determinar una puntuación de comparación para cada nombre registrado, una puntuación de comparación que tiene un valor más alto cuanto mayor es el grado de correspondencia entre el nombre del destinatario y un nombre registrado respectivo.

6. Instalación según la reivindicación 5, en la que el al menos un procesador está equipado para determinar que los datos de las direcciones son nuevos si las puntuaciones de la comparación son relativamente bajas y la valoración de la calidad es relativamente alta.

7. Instalación según las reivindicaciones 5 ó 6, en la que el al menos un procesador está equipado para determinar que los datos de las direcciones son conocidos si las puntuaciones de la comparación son relativamente altas y la valoración de la calidad es relativamente alta.

8. Instalación según las reivindicaciones 5, 6 ó 7, en la que el al menos un procesador está equipado para determinar que los datos de las direcciones son desconocidos si las puntuaciones de la comparación son relativamente bajas y la valoración de la calidad es relativamente baja.

9. Instalación según cualquiera de las reivindicaciones 6 a 8, en la que el al menos un procesador está equipado para generar un registro de direcciones adicional, conteniendo los datos de la dirección, en la base de datos de direcciones si los datos de la dirección son nuevos.

10. Instalación según la reivindicación 9, en la que el al menos un procesador está equipado para registrar uno de los cuatro siguientes estados para cada registro de dirección:

\bullet estado nuevo, si se genera el registro de dirección;

\bullet estado común, si los datos de la dirección asociada son recibidos desde distintos remitentes;

\bullet estado fiable, si los datos de la dirección asociada son leídos de nuevo regularmente;

\bullet estado antiguo, si el registro de la dirección está en desuso.

11. Instalación según cualquiera de las reivindicaciones precedentes, en la que la base de datos de direcciones está almacenada con seguridad, de manera que o bien los datos almacenados en la base de datos central pueden ser procesados sólo por medio de unas reglas predefinidas, o puede accederse a algunos de los datos almacenados en la base de datos central por medio de un programa de salida predefinido.

12. Instalación según cualquiera de las reivindicaciones precedentes, que comprende adicionalmente unidades de clasificación del correo (26,28) para una clasificación automática de las unidades de correo (1) haciendo uso de la base de datos de direcciones.

13. Método de actualización de una base de datos de direcciones en una memoria de bases de datos (44) que contiene los registros de direcciones almacenados, el cual consiste en:

\bullet almacenar los datos de las direcciones;

caracterizado por

la determinación de una valoración de la calidad para los datos de las direcciones basándose en criterios predefinidos, la comparación de los datos de las direcciones con los registros de las direcciones almacenadas en la memoria de la base de datos (44) y la actualización del contenido de la memoria de la base de datos (44) basándose en la valoración de la calidad y en la comparación de los datos de las direcciones con los registros de las direcciones almacenadas.

14. Método según la reivindicación 13, que comprende la fase de determinación de una valoración de la fiabilidad del reconocimiento de los datos de las direcciones y que basa parcialmente la valoración de la calidad en la valoración de la fiabilidad del reconocimiento.

15. Método según la reivindicación 13 ó 14, que comprende las etapas de selección de las líneas del nombre de los datos de las direcciones, división de las líneas del nombre en elementos individuales según reglas predefinidas y establecimiento en parte de la valoración de la calidad basándose en la selección de las líneas del nombre y en la división de las mismas.

16. Método según la reivindicación 15, que comprende las etapas de comparación de los elementos individuales de las líneas del nombre con los nombres comunes, establecimiento de una valoración de la frecuencia sobre esta base y establecimiento en parte de la valoración de la calidad basándose en la valoración de la frecuencia.

17. Método según la reivindicación 15 ó 16, que comprende las etapas de derivación de un nombre de un destinatario a partir de las líneas del nombre, derivación de una dirección del destinatario a partir de los datos de la dirección, lectura de los nombres registrados de personas que residen en esa dirección en la base de datos de direcciones y comparación de éstos con el nombre del destinatario y, basándose en esa comparación, determinación de una puntuación de comparación para cada nombre registrado, una puntuación de comparación que tiene un valor más alto cuanto mayor sea el grado de correspondencia entre el nombre del destinatario y un nombre registrado respectivo.

18. Método según la reivindicación 17, que comprende una fase para determinar que los datos de las direcciones son nuevos si las puntuaciones de la comparación son relativamente bajas y la valoración de la calidad es relativamente alta.

19. Método según la reivindicación 17 ó 18, que comprende una fase para determinar que los datos de las direcciones son conocidos si las puntuaciones de la comparación son relativamente altas y la valoración de la calidad es relativamente alta.

20. Método según las reivindicaciones 17,18 ó 19, que comprende una fase para determinar que los datos de las direcciones son desconocidos si las puntuaciones de la comparación son relativamente bajas y la valoración de la calidad es relativamente baja.

21. Método según las reivindicaciones 18, 19 ó 20, que comprende la fase de generación de un registro de direcciones adicional, conteniendo los datos de la dirección, en la base de datos de direcciones si los datos de la dirección son nuevos.

22. Método según la reivindicación 21, que comprende la fase de registro de uno de los siguientes cuatro estados para cada registro de dirección:

\bullet estado nuevo, si se genera el registro de dirección;

\bullet estado antiguo, si el registro de dirección está en desuso.

23. Método según cualquiera de las reivindicaciones 13-22, en el que la base de datos de direcciones está almacenada con seguridad, de manera que o bien los datos almacenados en la base de datos central pueden ser procesados sólo por medio de reglas predefinidas, o se puede acceder a algunos datos almacenados en la base de datos central por medio de un programa de salida predefinido.

24. Método según cualquiera de las reivindicaciones 13-23, que comprende la fase de clasificación de las unidades de correo (1) haciendo uso de la base de datos de direcciones.

25. Soporte de datos provisto de un programa informático que puede ser leído por una instalación informática y, una vez instalado, proporciona a la instalación informática la funcionalidad para actualizar una base de datos de direcciones en una memoria de bases de datos (44) que contiene registros de direcciones almacenados, haciendo uso de las siguientes fases:

\bullet recibir y almacenar los datos de las direcciones tal y como se muestran en las unidades de correo;

\bullet almacenar los datos de las direcciones;

caracterizado por

la determinación de una valoración de la calidad para los datos de las direcciones basándose en criterios predefinidos, la comparación de los datos de las direcciones con los registros de las dirección almacenadas en la memoria de la base de datos (44) y la actualización del contenido de la memoria de la base de datos (44) basándose en la valoración de la calidad y en la comparación de los datos de las direcciones con los registros de direcciones almacenados.

26. Programa informático que puede ser leído por una instalación informática y, una vez instalado, proporciona a la instalación informática la funcionalidad para actualizar una base de datos de direcciones en una memoria de bases de datos (44) que contiene registros de direcciones almacenados, haciendo uso de las siguientes fases:

\bullet almacenar los datos de las direcciones;

caracterizado por

la determinación de una valoración de la calidad para los datos de las direcciones basándose en criterios predefinidos, la comparación de los datos de las direcciones con los registros de las direcciones almacenadas en la memoria de la base de datos (44) y la actualización del contenido de la memoria de la base de datos (44) basándose en la valoración de la calidad y en la comparación de los datos de las direcciones con los registros de direcciones almacenados.