-
Die vorliegende Erfindung betrifft
eine Anlage zur Aktualisierung einer Adressendatenbank mit gespeicherten
Adressenaufzeichnungen, wobei die Anlage folgendes aufweist:
- • mindestens
einen Prozessor zum Empfangen und Verarbeiten von Adressendaten,
die auf Poststücken
ersichtlich sind;
- • einen
Speicher, der mit dem mindestens einen Prozessor verbunden ist,
um die Adressendaten zu speichern;
- • einen
Datenbankspeicher, der mit dem mindestens einen Prozessor verbunden
ist und die darin gespeicherte Adressendatenbank enthält.
-
Eine Anlage dieses Typs ist in JP-A-9/57204 angegeben.
-
JP-A-8/323299 betrifft ein Adressendatenbank-Verwaltungssystem,
das zur Aktualisierung einer Adressendatenbank auf der Basis von
Rückpost, auf
der Berichtigungen angebracht wurden, ausgestattet ist. Die Rückpost wird
von einer Leseeinheit gelesen, und berichtigte Daten werden in einem Speicher
gespeichert. Das Verwaltungssystem aktualisiert die Datenbank automatisch
auf der Basis der auf der Rückpost
angegebenen Daten. Eine Postsortiermaschine, die imstande ist, Post
nach Maßgabe der
berichtigten Adresse zu sortieren, ist mit dem Datenbank-Verwaltungssystem
verbunden. Dieses Dokument bezieht sich nicht auf die Aktualisierung
von vorhandenen Datenbanken ohne Nutzung von Rückpost, auf der Berichtigungen
vorgenommen wurden.
-
JP-A-9/314067 beschreibt eine Postsortiervorrichtung
und ein entsprechendes Verfahren. Eine Einrichtung ist gezeigt,
die Mittel zum Lesen von Adresseninformation von der Post und zum
Erzeugen eines Adressencodes auf der Basis dieser Adresseninformation
aufweist. Als Alternative kann die Adresseninformation manuell eingegeben
werden. Der Adressencode wird mit dem Inhalt einer Adresseninformations-Datenbank
verglichen. Wenn der Adressencode nicht exakt mit einer Adresse
in der Datenbank übereinstimmt,
werden der Adressencode und mögliche
richtige Adressen für
den Bediener angezeigt. Der Bediener kann dann beispielsweise durch
Vergleichen des Namens des Adressaten auf dem Poststück mit den
Namen der Adressaten in den möglichen
richtigen Adressen entscheiden, welche der letzteren richtig ist.
Diese richtige Adresse wird dann auf das Poststück gedruckt zum Zweck der weiteren
automatischen Sortierung. Dieses Dokument arbeitet mit der Annahme,
daß die
Adressendatenbank richtig ist.
-
JP-A-9/75862 beschreibt eine Postsortiermaschine.
Diese weist ein Videocodier-Endgerät auf. Der
Maschinenbediener gibt einen Benutzercode ein. Die Maschine bewertet
die Richtigkeit des Benutzercodes durch Vergleich mit einer Datenbank.
Dieses Dokument enthält
nichts über
die Aktualisierung einer Adressendatenbank.
-
JP-A-9/57204, gegen die die vorliegenden Ansprüche abgegrenzt
sind, betrifft das Problem der Aktualisierung einer Adressendatenbank,
die in einer automatischen Postsortieranlage verwendet wird.
-
In einer solchen Postsortieranlage
gibt es eine Videocodiereinheit, die Poststücke liest und die Adressendaten
in einen Adressencode umwandelt, wobei z. B. eine optische Zeichenerkennungseinheit verwendet
wird. Der Adressencode wird in einem Speicher gespeichert. Während des
Sortiervorgangs wird der Adressencode mit in einer Adressendatenbank
gespeicherten Adressendaten verglichen. Wenn der Vergleich zeigt,
daß der
Adressencode einer in der Datenbank gespeicherten Adresse entspricht,
wird diese dann für
den weiteren Sortiervorgang als richtig akzeptiert.
-
Manche Adressencodes entsprechen
keiner Adresse in der Datenbank. Es ist dann möglich, die Abbildung des Poststücks, das
von der Videocodiereinheit aufgezeichnet wurde, auf einem Bildschirm anzuzeigen.
Der Bediener der Postsortieranlage prüft dann die auf dem Bildschirm
erschienene Information und gibt von Hand, beispielsweise über eine Tastatur,
die Adresse ein, die für
den weiteren Sortiervorgang zu verwenden ist. Die genannte JP-A-9/57204
schlägt
auch eine Aktualisierung der Datenbank selber vor, so daß Fehler und/oder
Fälle, in
denen Adressencodes einer Adresse in der Datenbank nicht entsprechen,
immer seltener auftreten.
-
Dazu schlägt JP-A-9/57204 im wesentlichen das
Folgende vor: Die Adressencodes der Poststücke, die keiner Adresse in
der Datenbank entsprechen, werden in einem Speicher gespeichert.
Die zugehörigen
zurückgewiesenen
Poststücke
werden auf einer separaten Förderstraße entfernt.
-
Zu einem geeigneten Zeitpunkt werden
die zurückgewiesenen
Poststücke
erneut in die Maschine eingespeist, um die Datenbank auf der Basis
des erneuten Ablesens zu aktualisieren. Im Prinzip kann es zwei
verschiedene Gründe
für die
Zurückweisung der
Poststücke
geben. Erstens hat das optische Zeichenerkennungssystem eventuell
ein oder mehr Zeichen nicht erkannt. Zweitens kann es sein, daß zwar sämtliche
Zeichen erkannt wurden, aber der so gebildete Adressencode keiner
Adresse in der Datenbank entspricht.
-
Im ersten Fall wird die von der Videocodiereinheit
aufgezeichnete Abbildung für
den Systembediener angezeigt. Auf der Grundlage dieser Abbildung
entscheidet der Bediener, wie die unrichtigen Zeichen korrigiert
werden müssen.
Die Datenbank wird fakultativ über
die Zeichenerkennung der so von Hand korrigierten Adresse korrigiert
oder ergänzt.
Im zweiten Fall wird die Datenbank mit der neuen Adresseninformation
ergänzt,
von der angenommen wird, daß sie
richtig ist.
-
Das von der vorliegenden Erfindung
zu lösende
Problem betrifft die Aktualisierung einer Datenbank auf möglichst
automatische Weise. Probleme, die bei einem solchen Betrieb auftreten,
sind beispielsweise die folgenden: Die Adressendatenbank enthält immer
irgendwelche Adressendaten, deren Zuverlässigkeit verbessert werden
kann oder die geringfügige
Fehler enthalten. Außerdem
leben viele Menschen häufig
an einer Kurzzeitadresse, die nicht ihre Heimatadresse ist, wenn
sie beispielsweise in Urlaub sind oder für einige Zeit im Krankenhaus
sind. Während
dieses Zeitraums wird die für
sie bestimmte Post an eine von ihrer Heimatadresse verschiedene Adresse
verschickt. Trotzdem ist die Adresse auf der für sie bestimmten Post richtig,
und das Sortieren sollte nicht zurückgewiesen werden. Ebenso sollte eine
Adressendatenbank in einem solchen Fall nicht modifiziert werden.
Ferner ziehen manche Leute um, ohne die Postzustelldienste rechtzeitig
oder auf die richtige Weise über
ihre neue Heimatadresse zu informieren. In diesem Fall ist eine
Modifikation der Adressendatenbank erforderlich. Viele Leute erhalten
ferner an verschiedene Adressen gerichtete Post, weil sie beispielsweise
eine Heimatadresse und eine Geschäftsadresse haben. Schließlich sind
den Postzustelldiensten für
manche Menschen (beispielsweise Kinder) überhaupt keine Adressen bekannt,
obwohl dies für
die Überwachung
des Sortierablaufs nützlich
wäre.
-
Die Aufgabe der Erfindung ist hauptsächlich die
möglichst
weitgehende Vermeidung dieser Art von Problemen bei der Aktualisierung
der Adressendatenbank und das Erhalten von Daten, die so zuverlässig wie
möglich
sind.
-
Zur Lösung dieser Aufgabe ist die
Anlage des im Oberbegriff angegebenen Typs dadurch gekennzeichnet,
daß der
mindestens eine Prozessor dazu ausgebildet ist, eine Qualitätsbewertung
für die Adressendaten
auf der Basis von vordefinierten Kriterien zu bestimmen, die Adressendaten
mit den in dem Datenbankspeicher gespeicherten Adressenaufzeichnungen
zu vergleichen und den Inhalt des Datenbankspeichers auf der Basis
der Qualitätsbewertung
und des Vergleichs der Adressendaten mit den gespeicherten Adressenaufzeichnungen
zu aktualisieren.
-
In der Anlage gemäß der Erfindung wird somit
eine Adressendatenbank, die aufgezeichnete Adressenaufzeichnungen
enthält,
kontinuierlich auf der Basis von Adressendaten aktualisiert, die
auf Poststücke
gedruckt sind und von der Anlage empfangen werden. Für diesen
Vorgang können
diese auf Poststücken
gezeigten Daten fakultativ von Menschen gelesen werden, die diese
Daten dann von Hand eingeben. Bevorzugt erfolgt jedoch das Lesen dieser
Adressendaten automatisch. Ein automatisches Lesen kann unter Anwendung
jeder für
diesen Zweck bekannten Technologie durchgeführt werden. Die Aktualisierung
der Adressendatenbank erfolgt vollständig automatisch und basiert
nicht, wie im Stand der Technik auf einer manuellen Verbesserung der
Adressendatenbank auf der Grundlage von Poststücken, deren gelesene Adressendaten
nicht mit gespeicherten Adressenaufzeichnungen übereinstimmen und die von der
Anlage zurückgewiesen
wurden. Dazu nutzt die Anlage gemäß der Erfindung eine Qualitätsbewertung,
die anzeigt, wie gut die Adressendaten sind, und die auf der Basis
von vordefinierten Kriterien bestimmt wird. Die Anlage entscheidet
vollautomatisch, ob die Qualität
derart ist, daß die
Adressendatenbank auf der Basis der Adressendaten aktualisiert werden
kann.
-
Bei der Aktualisierung der Adressendatenbank
können
Adressendaten genutzt werden, die automatisch für alle Poststücke gelesen
werden. Es ist natürlich
auch möglich,
eine Auswahl davon zu verwenden. Beispielsweise können Zufallsproben
mit einbezogen werden oder die Vermeidung einer Aktualisierung der
Adressendatenbank während
eines bestimmten Zeitraums, in dem eine große Postmenge für unbrauchbare
Adressen vorgelegt wird, beispielsweise während der Weihnachtszeit. Es
ist beispielsweise auch möglich,
handgeschriebene Adressendaten nicht zu verarbeiten oder Adressendaten auf
Postkarten zu ignorieren.
-
Die vorliegende Erfindung betrifft
ferner ein Verfahren zum Aktualisieren einer Adressendatenbank in
einem Datenbankspeicher, der aufgezeichnete Adressenaufzeichnungen
enthält,
wobei das Verfahren folgendes aufweist:
- • Empfangen
und Verarbeiten von Adressendaten, wie sie auf Poststücken ersichtlich
sind;
- • Speichern
der Adressendaten;
gekennzeichnet durch Bestimmen einer
Qualitätsbewertung
für die
Adressendaten auf der Basis von vordefinierten Kriterien, Vergleichen
der Adressendaten mit den in dem Datenbankspeicher gespeicherten Adressenaufzeichnungen
und Aktualisieren des Inhalts des Datenbankspeichers auf der Basis
der Qualitätsbewertung
und des Vergleichs der Adressendaten mit den gespeicherten Adressenaufzeichnungen.
-
Die vorliegende Erfindung betrifft
außerdem einen
Datenträger,
der mit einem Computerprogramm versehen ist, das von einer Rechneranlage gelesen
werden kann und nach dem Laden der Rechneranlage die Funktionalität zur Aktualisierung einer
Adressendatenbank in einem Datenbankspeicher, der aufgezeichnete
Adressenaufzeichnungen enthält,
ermöglicht,
wobei die folgenden Schritte angewandt werden:
- • Empfangen
und Verarbeiten von Adressendaten, wie sie auf Poststücken erscheinen;
- • Speichern
der Adressendaten;
gekennzeichnet durch Bestimmen einer
Qualitätsbewertung
für die
Adressendaten auf der Basis von vordefinierten Kriterien, Vergleichen
der Adressendaten mit den in dem Datenbankspeicher gespeicherten Adressenaufzeichnungen
und Aktualisieren des Inhalts des Datenbankspeichers auf der Basis
der Qualitätsbewertung
und des Vergleichs der Adressendaten mit den gespeicherten Adressenaufzeichnungen.
-
Ferner betrifft die vorliegende Erfindung auch
ein Computerprogramm, das von einer Rechneranlage gelesen werden
kann und nach dem Laden der Rechneranlage die Funktionalität zur Aktualisierung
einer Adressendatenbank in einem Datenbankspeicher, der die aufgezeichneten
Adressenaufzeichnungen enthält,
ermöglicht,
wobei die folgenden Schritte angewandt werden:
- • Empfangen
und Verarbeiten von Adressendaten, wie sie auf Poststücken erscheinen;
- • Speichern
der Adressendaten;
gekennzeichnet durch Bestimmen einer
Qualitätsbewertung
für die
Adressendaten auf der Basis von vordefinierten Kriterien, Vergleichen
der Adressendaten mit den in dem Datenbankspeicher gespeicherten Adressenaufzeichnungen
und Aktualisieren des Inhalts des Datenbankspeichers auf der Basis
der Qualitätsbewertung
und des Vergleichs der Adressendaten mit den gespeicherten Adressenaufzeichnungen.
-
Nachstehend wird die Erfindung unter
Bezugnahme auf einige Zeichnungen erläutert, die die Erfindung ausschließlich erläutern und
ihren Umfang nicht einschränken
sollen.
-
1 ist
ein Beispiel eines Poststücks,
das mit Adressendaten für
einen Adressaten und Adressendaten für einen Absender versehen ist;
-
2 ist
ein Beispiel einer Anlage, die verwendet werden kann, wenn eine
Datenbank mit Adressenaufzeichnungen aktualisiert wird;
-
3 ist
ein Ablaufdiagramm, das einige Schritte des Verfahrens zum Aktualisieren
von Adressenaufzeichnungen in einer Datenbank zeigt;
-
4, 5 und 6 geben weitere Einzelheiten einiger
der in 3 gezeigten Schritte
an.
-
1 ist
ein Beispiel eines Briefs, der mit Adressendaten 2 eines
Adressaten und Adressendaten 7 eines Absenders versehen
ist. Der Brief 1 kann mit einer Briefmarke 8 versehen
sein. Anstelle einer Briefmarke 8 kann das Poststück auch
mit einer Maschine oder dergleichen frankiert worden sein. Als weitere
Alternative können
die Adressendaten auf dem Poststück
als Zusatz oder ausschließlich
in Form eines Codes vorgesehen sein. Ein solcher Code kann ein eindimensionaler
oder zweidimensionaler Strichcode sein. Der Frankierwert kann ebenfalls
in einen solchen Code eingefügt
worden sein. In diesem Fall kann der Code als "elektronische Briefmarke" bezeichnet werden.
-
Die Adressendaten des Adressaten
umfassen beispielsweise eine Namenszeile 3, einen Firmennamen 4,
eine Straße 5 und
eine Stadt mit Postleitzahl 6. Die Adressendaten des Absenders
können auf ähnliche
Weise zusammengesetzt sein.
-
Ein solcher Brief 1 kann
unter Verwendung eines Sortierautomaten sortiert werden. Ein Beispiel hierfür ist in 2 gezeigt. Der Brief 1 wird
beispielsweise auf ein Förderband 10 gelegt.
Das Förderband 10 leitet
den Brief 1 an einem Bildabtaster 12 vorbei, der
eine Abbildung der Seite des Poststücks erzeugt, auf der die Daten 2 des
Adressaten und fakultativ die Absenderdaten 7 zu sehen
sind. Der Bildabtaster 12 sendet das aufgezeichnete Bild
an den Prozessor 14.
-
Nach dem Scannen durch den Bildabtaster 12 wird
der Brief 1 von dem Förderband 10 einem Strichcodedrucker 26 zugeführt, der
einen Strichcode auf den Brief 1 drucken kann. Dieser Strichcode enthält weitere
Einzelheiten, die für
die Endsortierung genutzt werden. Nach Durchlauf durch den Strichcodedrucker 26 wird
der Brief 1 von dem Förderband 10 einer
Sortiermaschine 28 zugeführt, die den aufgedruckten
Strichcode liest und auf der Basis desselben den Brief 1 in
einen bestimmten Laufweg 30, 32, 34, 36,
... einspeist.
-
Der Bildabtaster 12, der
Strichcodedrucker 26 und die Sortiermaschine 28 sind
mit einem Prozessor 14 verbunden. Der Prozessor 14 ist
ferner mit Einrichtungen verbunden, mit deren Hilfe der Bediener
Daten eingeben kann, beispielsweise mit einer Maus 18 und
einer Tastatur 16. Ferner ist der Prozessor mit geeigneten
Speichereinrichtungen verbunden, die beispielsweise eine Festplatte 20 und
einen Bildspeicher 22 umfassen, in denen der Prozessor 14 die
von dem Bildabtaster 12 gelesenen, die Abbildung enthaltenden
Adressendaten sowohl in bezug auf den Adressaten als auch in bezug
auf den Absender (falls zutreffend) speichert.
-
Der Prozessor 14 ist ferner
mit einem Display 24 beispielsweise in Form eines Monitors
verbunden.
-
Der Prozessor 14 führt die
automatische Steuerung des Bildabtasters 12, des Strichcodedruckers 26 und
der Sortiermaschine 28 für den Sortiervorgang durch.
Wie dies abläuft,
ist bekannt und braucht hier nicht weiter erläutert zu werden.
-
In der in 2 gezeigten Konfiguration ist der Prozessor 14 mit
einem Telefonnetz, beispielsweise einem öffentlichen Fernsprechwählnetz bzw. PSTN 40 verbunden.
-
Zusätzlich kann ein weiterer Prozessor 15 zwischen
dem Prozessor 14 und dem PSTN 40 angeordnet sein,
wobei der weitere Prozessor 15 imstande ist, die Belastung
des Prozessors 14 dadurch zu verringern, daß er beispielsweise
die Handlungen hinsichtlich der Übermittlung
und des Empfangs der Daten über
das PSTN durchführt.
Dies kann das Puffern von Daten, die Herstellung von Verbindungen
mit anderen Prozessoren über
das PSTN 40 und speziell die Durchführung von ein oder mehr Operationen umfassen,
die innerhalb des Rahmens der vorliegenden Erfindung notwendig sind
und die nicht bereits für
den Sortiervorgang selber erforderlich sind. Beispielsweise ist
es für
den Sortiervorgang nicht erforderlich, den Namen des Adressaten
(Firmenname und/oder Privatperson) oder die Absenderdaten 7 aus
dem von dem Bildabtaster gelieferten Bild abzuleiten.
-
Ein zentraler Prozessor 42 ist
ebenfalls mit dem PSTN 40 verbunden. Der zentrale Prozessor 42 ist
auch mit einem zentralen Datenbankspeicher 44 verbunden.
-
2 zeigt,
daß der
Prozessor 14 (fakultativ über den Prozessor 15)
mit dem PSTN 40 über
ein Kabel 38(1) verbunden ist und daß es mehrere derartige Verbindungen 38(2), 38(3), 38(4),
... gibt. Diese anderen Verbindungen sollen zeigen, daß eine Mehrzahl
von solchen Anlagen mit lokalen Prozessoren und lokalen Sortiereinrichtungen
mit dem PSTN 40 verbindbar sind. Sie sind sämtlich imstande, über das PSTN 40 mit
dem zentralen Prozessor 42 in Verbindung zu treten.
-
Es ist jedoch auch denkbar, daß die Erfindung
an einer lokalen Anlage verwendet wird und daß der Prozessor 14,
fakultativ gemeinsam mit dem Prozessor 15, direkt mit dem
zentralen Datenbankspeicher 44 verbunden ist.
-
Der zentrale Datenbankspeicher 44 weist eine
Adressenaufzeichnung enthaltende Datenbank auf. Im Kontext der vorliegenden
Erfindung enthält eine
Adressenaufzeichnung mindestens eine Namenszeile 3, eine
Straßenanschrift 5 und
eine Stadt mit Postleitzahl 6. Der Name auf der Namenszeile kann
der Name einer Person sein, kann jedoch auch ein Firmenname oder
beides sein. Manchmal gibt es zwei (oder mehr) Namenszeilen, in
denen beispielsweise sowohl der Name einer Person als auch der einer
Firma erscheinen. Selbstverständlich
ist es auch möglich,
in die Adressenaufzeichnung weitere relevante Daten aufzunehmen.
-
3 zeigt
in Umrissen die Schritte, die während
der Aktualisierung von Adressenaufzeichnungen in dem zentralen Datenbankspeicher 44 durchgeführt werden.
Bei diesem Vorgang werden grob die folgenden Schritte ausgeführt.
-
Die Daten auf dem Poststück werden
einem Erkennungsvorgang durch Menschen und/oder einen mechanischen
Erkennungsvorgang mit dem Ziel unterzogen, Daten über diejenigen
zu gewinnen, die mit der Postzustellung befaßt sind.
-
Die in dem Bildspeicher 22 gespeicherte
Abbildung wird von dem Prozessor 14 fakultativ in Kombination
mit dem Prozessor 15 analysiert, um die Position von einem
oder mehreren Adressenblöcken
zu etablieren, die sich auf den Adressaten und fakultativ den Absender
beziehen. Jeder Adressenblock wird Analysen unterzogen, wobei die
Beschaffenheit der Zeilen in dem Adressenblock bewertet wird. Jede Zeile
in dem Adressenblock wird segmentiert, d. h. es erfolgt eine Bewertung
der logisch zusammenhängenden
Elemente, aus denen die Zeile besteht, beispielsweise "Vor- und Zuname" oder "Straßenanschrift". Fakultativ wird
der Inhalt der festgestellten Elemente standardisiert, wobei verschiedene
Erscheinungsbilder in einem Standardformat angezeigt werden.
-
Jede Bewertung, die in dem Erkennungsvorgang
durchgeführt
wird, resultiert in einer Bewertungseinstufung, die den Grad der
(Un)Sicherheit in bezug auf das Erkennungsresultat zeigt. Ein schlechtes
Erkennungsresultat kann zu einer Zurückweisung des detektierten
Resultats als unbrauchbar führen.
In dem Erkennungsprozeß können verfügbare gesicherte
Referenzdaten genutzt werden, wobei Dateien im Kontext betrachtet
werden, die Nachnamen, Postleitzahlen, Straßenanschriften, Städte und
Sammelpunkte enthalten, die es in einem bestimmten Land wie beispielsweise
in den Niederlanden gibt. Diese Referenzdaten werden in einem Speicher
gespeichert und können
für eine
feinere Bewertung der Erkennung und eventuell sogar für die Korrektur
von vorhergehenden Erkennungsergebnissen genutzt werden. Beispielsweise
kann eine Postleitzahl, die erkannt wird, jedoch nicht existiert,
eventuell nach Abgleich mit der geprüften Datei von Postleitzahlen, die
tatsächlich
existieren, verbessert werden.
-
Nachstehend wird 3 im einzelnen erläutert.
-
In den Niederlanden werden derzeit
täglich ungefähr 24 Millionen
Poststücke
automatisch mit Hilfe eines automatischen Postsortiersystems (APSS)
in sechs verschiedenen Sortierzentren verarbeitet. In bezug auf
die Funktionalität
entspricht ein solches Sortierzentrum dem Mittelabschnitt in 2. Der Bildabtaster 12 produziert
ein digitales Bild der Adressenseite jedes Poststücks 1,
dieses Bild wird zu dem Prozessor 14 übertragen, der das Bild in
dem Bildspeicher 22 speichert. Die Adresse in dem Digitalbild
wird von dem Prozessor 14 lokalisiert, und dann wird die
Adresse automatisch gelesen. In einem ersten Schritt in dem Flußdiagramm
von 3, "APSS-Sammlung" 46, werden
die Adressendaten auf den Poststücken
vorübergehend
lokal in einem Bildspeicher 22 gespeichert. Die in den
Adressendaten in dem Bild vorhandenen Zeichen werden mit Hilfe von
an sich bekannten optischen Zeichenlese- bzw. OCR-Verfahren ermittelt.
Eine Zeichenerkennungs-Zuverlässigkeitseinstufung
kann für
die Umwandlung der auf den Poststücken vorhandenen Zeichen in
digitale Zeichen bestimmt werden, wobei diese Zeichenerkennungs-Zuverlässigkeitseinstufung von
der Genauigkeit des Zeichens auf dem Poststück, dem Leseprozeß durch
den Bildabtaster 12 und der Güte des OCR-Verfahrens abhängig ist. Handschriftliche
Zeichen erhalten eine größere Wahrscheinlichkeit
eines fehlerhaften Ergebnisses als druckschriftliche Zeichen.
-
Bevorzugt werden nur diejenigen Adressendaten,
die auf dem Poststück 1 maschinengeschrieben
sind und für
welche die Postleitzahl-/Hausnummer-Kombination 6 korrekt gelesen
wurde, zur Aktualisierung der Adressendaten in der zentralen Datenbank 44 genutzt.
Für den
Postsortiervorgang selber werden natürlich so weit wie möglich alle
Daten, die aus dem OCR-Vorgang resultieren, einschließlich derjenigen
für handschriftliche
Adressen berücksichtigt.
Die Adressendaten auf Post mit handschriftlichen Adressen werden
bevorzugt als nicht ausreichend zuverlässig zur Aktualisierung der
Adressendatenbank in dem zentralen Datenbankspeicher 44 angesehen.
-
Zur Ergänzung von Adressendaten, die
von aufgezeichneten Bildern mit Hilfe von OCR-Techniken gewonnen
wurden, können
von Menschen manuell eingegebene Daten genutzt werden. Die hier betroffenen
Daten sind beispielsweise Daten auf Poststücken, für die der Prozessor festgestellt
hat, daß es
unmöglich
ist, vorhandene Adressendaten in bezug auf Straßenanschrift, Postleitzahl
und Stadt aus den Zeichen in dem Bild automatisch zu gewinnen. Solche
Poststücke
werden während
des Sortiervorgangs ausgeschieden und zur manuellen Verarbeitung
zur Seite gelegt. Ein Angestellter verarbeitet diese Poststücke insofern
von Hand, als er die Adresse auf dem Bild über den Monitor 24 liest
und über
die Eingabeeinrichtungen 16, 18 manuell die Adresse eingibt,
die er festgestellt hat, wonach der Prozessor 14 immer
noch imstande ist, die richtigen Anweisungen an den Strichcodedrucker 26 und
die Sortiermaschine zu senden. Ferner ist es denkbar, daß der Angestellte
die Adressendaten auf dem Originalpoststück 1 selber abliest.
-
Es ist außerdem denkbar, daß Adressendaten
zur Aktualisierung der zentralen Datenbank 44, die von
Poststücken
stammen, anderswo manuell eingegeben wurden, was in einer Adressendaten enthaltenden
Datei resultiert, die beispielsweise durch Diskette oder über das
Internet übermittelt
und dem zentralen Prozessor 42 nach dem Lesen zugeführt wird.
-
Der zentrale Prozessor 42 kann über die Netzverbindung
PSTN 40 (oder über
jede andere geeignete Nachrichtenübertragungsstrecke) mit dem Prozessor 14 (oder 15)
kommunizieren, um die in dem Bildspeicher 22 gespeicherten
Bilder anzufordern. Nach dem Empfang kann der zentrale Prozessor 42 alle
notwendigen administrativen Daten zu den gescannten Adressendaten
hinzufügen.
Administrative Daten bestehen beispielsweise aus dem Sortierzentrum,
in dem die Adressendaten gescannt wurden, dem Datum, zu dem die
Adressendaten gescannt wurden, und einer Seriennummer. Der zentrale
Prozessor 42 kann dann die gescannten Adressendaten, die
empfangen wurden, zentral in jedem geeigneten Speicher ablegen.
Das kann beispielsweise ein Speicher sein, der von dem zentralen
Datenbankspeicher 44 getrennt ist.
-
Nach dem "APSS-Sammelschritt" 46 wird ein Segmentierungs-/Standardisierungsschritt 48 ausgeführt. Wie 4 zeigt, werden in diesem
Schritt die Adressendaten, die gescannt und aufgerufen wurden (Schritt 482),
in relevante Elemente für
jedes Poststück
aufgeteilt. Namenszeilen 3 werden aus den Adressatendaten 2 des
Adressaten ausgewählt (Schritt 483)
und in Elemente unterteilt, Schritt 484. Bedeutungen wie
etwa ein Namensvorsatz, Vorname, Titel usw. werden den Einzelelementen
zugeordnet. Die Einzelelemente können
dann standardisiert werden, wobei unterschiedliches Vorkommen in
einem Standardformat angezeigt wird. Falls vorhanden, wird auch
der Firmenname 4 analysiert. Daraus resultiert dann eine
Adressenaufzeichnung, die Familiennamen und/oder Firmennamen und
zugehörige Attribute
wie Initialen, Einfügungen,
Zusätze
usw. enthält.
-
Gemäß einem vordefinierten Algorithmus wird
aus den Daten in der Adressenaufzeichnung in Schritt 485 eine
Erkennungszuverlässigkeits-Gesamtbewertung bestimmt.
Die Zeichenerkennungs-Zuverlässigkeitsbewertung
wird als ein Element in diese Erkennungszuverlässigkeits-Gesamtbewertung eingeführt. Die
Erkennungszuverlässigkeits-Gesamtbewertung
berücksichtigt
außerdem alle
Schreib- und/oder Druckfehler in den Adressendaten auf dem Poststück selber.
-
Eine Bewertung der Güte der Segmentierung
(Aufteilung in Einzelelemente) innerhalb des Segmentierungsvorgangs
wird ebenfalls in Schritt 486 festgelegt. Sowohl die Erkennungszuverlässigkeits-Gesamtbewertung
als auch die Segmentierungsgüte
werden in die Adressenaufzeichnung eingefügt. Beide Bewertungen, also
die Erkennungszuverlässigkeits-Gesamtbewertung
und die Segmentierungsgüte,
werden anschließend
genutzt, wenn die Adressenaufzeichnungen in dem zentralen Datenbankspeicher 44 tatsächlich aktualisiert
werden.
-
Die Häufigkeit 50 wird dann
von dem zentralen Prozessor 42 durchgeführt (siehe 5). Dazu hat der zentrale Prozessor 42 eine
Datei von in den Niederlanden auftretenden Familiennamen. Diese Datei
ist in einem (nicht gezeigten) Speicher enthalten, der mit dem zentralen
Prozessor 42 verbunden ist. Jeder Familienname, der von
den Adressendaten mit Hilfe von Schritt 48 abgeteilt wurde,
wird mit existierenden Familiennamen in Schritt 501 verglichen und
auf Übereinstimmung
mit Syntaxregeln in Schritt 502 geprüft. Der gleiche Vorgang wird
mit Vornamen und allen vorhandenen Firmennamen durchgeführt. Mit
Hilfe eines vordefinierten Algorithmus wird eine Häufigkeitsbewertung
für jeden
Familiennamen, Vornamen und jeden Firmennamen festgelegt und der Adressenaufzeichnung
hinzugefügt,
Schritt 503.
-
Die Straßenanschriftdaten 5 (oder
Postfachnummern) und die Kombination von Postleitzahl und Ort werden
von dem Prozessor 14 geprüft, sobald sie mit Hilfe des
Bildabtasters 12 angezeigt wurden, um festzustellen, ob
sie existieren, weil diese Daten für den Postsortiervorgang benötigt werden.
Derzeit werden Zusätze
zu Hausnummern wie "oben", "Rückgebäude", "2.
Stockwerk", "II" usw. nicht geprüft. In Schritt 52 ("Adressieren") werden diese Hausnummernzusätze mit
Hilfe einer Liste von häufig
auftretenden Abkürzungen
standardisiert. Beispielsweise ist "TO" ("opp") synonym mit "tegenover" ("gegenüber"). "1-hoog" ("erster Stock") ist beispielsweise
synonym mit "1e" ("1.") und mit "i".
-
In Schritt 52 prüft der zentrale
Prozessor 42, ob es entsprechende Daten in der Datenbank,
die in dem zentralen Datenbankspeicher 44 gespeichert ist,
für jede
Kombination von Straßenname,
Hausnummer, Postleitzahl und Ort gibt. Wenn das nicht der Fall ist,
ist die angezeigte Adresse "neu". Diese Tatsache
wird der gescannten Adressenaufzeichnung hinzugefügt (Schritt 522).
-
Der zentrale Prozessor 42 liest
dann aus der zentralen Datenbank in dem zentralen Datenbankspeicher 44 alle
Namen aus, die in der Adresse in einer abgetasteten Adressenaufzeichnung
aufgezeichnet sind (einschließlich
der Zusätze).
Die gescannten Namen 3, 4 werden mit den in der
zentralen Datenbank aufgezeichneten Namen verglichen. Wenn möglich, werden
Initialen, Vornamen, Vorsätze,
Familiennamen und Zusätze
miteinander verglichen. Jedem für
einen Adressaten gescannten Namen 3, 4 wird eine
Vergleichseinstufung zugeordnet, in die die Qualität und die
Ergebnisse von Vergleichen mit den verschiedenen Komponenten des
aufgezeichneten Namens, also Initialen, Vorsätzen, Vorname, Familienname,
Zusätze
usw. eingefügt
sind.
-
Auf der Grundlage der Vergleichseinstufungen,
der Segmentierungsgüte,
der Häufigkeitsbewertung
und der Erkennungszuverlässigkeits-Gesamtbewertung
für die
gescannten Adressendaten entscheidet der zentrale Prozessor 42,
ob eine gescannte Adressenaufzeichnung neu, bekannt oder unbekannt
ist. Für
diesen Vorgang wird eine Qualitätsbewertung
genutzt, die bevorzugt auf mindestens einem der folgenden Kriterien
basiert: Segmentierungsgüte,
Häufigkeitsbewertung
und Erkennungszuverlässigkeits-Gesamtbewertung.
Die Qualitätsbewertung
kann beispielsweise das arithmetische Mittel dieser drei Kriterien
in Kombination sein. Die Zuordnung des Status "neu", "bekannt" oder "unbekannt" kann beispielsweise
nach Maßgabe
der nachstehenden Regeln erfolgen:
- – Die abgetasteten
Adressendaten sind neu, wenn die Vergleichseinstufungen relativ
niedrig sind und die Qualitätsbewertung
relativ hoch ist;
- – die
abgetasteten Adressendaten sind bekannt, wenn die Vergleichseinstufungen
relativ hoch sind und die Qualitätsbewertung
relativ hoch ist;
- – die
abgetasteten Adressendaten sind unbekannt, wenn die Vergleichseinstufungen
relativ niedrig sind und die Qualitätsbewertung relativ niedrig
ist.
-
Die Zuordnung dieses Status erfolgt
in Schritt 56 "Entscheidung".
-
Die statistischen Daten für bekannte
Adressenaufzeichnungen werden im gleichen Schritt aktualisiert.
Dies wird nachstehend im einzelnen erläutert.
-
Der zentrale Prozessor 42 kann
eine neue Adressenaufzeichnung in dem zentralen Datenbankspeicher 44 für eine neue
und/oder eine unbekannte Adressenaufzeichnung generieren.
-
Die nachstehenden Schritte können beispielsweise
unternommen werden, um statistische Daten zu aktualisieren, die
sich auf bereits bekannte Adressenaufzeichnungen beziehen.
-
Die Häufigkeit, mit der ein Datenelement
auftritt, kann nach Sortierzentrum aufgezeichnet werden, so daß die Verteilung
eines Adressenelements bestimmt werden kann. Es ist auch möglich, das
Datum aufzuzeichnen, an dem eine Adressenaufzeichnung zuletzt in
einem der Sortierzentren gelesen wurde. Auf diese Weise ist es möglich, in
der zentralen Datenbank die Daten beispielsweise im letzten Jahr aufzuzeichnen,
zu denen eine bestimmte Adressenaufzeichnung irgendwo auf einem
Poststück
vorkam. Das Intervall zwischen zwei aufeinanderfolgenden Zeitpunkten,
zu denen die Adressenaufzeichnung auf einem Poststück verwendet
wurde, kann dann bestimmt werden. Zur Bestimmung dieses Intervalls ist
es beispielsweise möglich,
einen kurz zurückliegenden
Zeitraum oder einen länger
zurückliegenden Zeitraum
zu prüfen.
Es ist auch möglich,
die durchschnittliche Zeitdauer zwischen zwei aufeinanderfolgenden
Zeitpunkten zu bestimmen, zu denen die Adressenaufzeichnung in einem
der Sortierzentren gelesen wurde. Wenn sich die Durchschnittsperiode im
Lauf der Zeit erheblich ändert,
kann das ein Anzeichen dafür
sein, daß die
Adressenaufzeichnung geändert
werden muß.
-
Es ist ferner möglich, daß die Absenderadressendaten 7 aufgezeichnet
und in einem Speicher gespeichert werden. Die Absenderdaten 7 können dann
genutzt werden, wenn der Wert der Qualitätsbewertung festgestellt wird.
Schließlich
kann man davon ausgehen, daß Poststücke, die
beispielsweise von einem Melderegister einer lokalen Behörde stammen,
sehr zuverlässige
Adressaten- Adressendaten 2 enthalten.
Bevorzugt werden Zieladressen, die von der Datenbank 44 selber
stammen, nicht dazu genutzt, den Grad der Zuverlässigkeit von Adressen in der
Datenbank 44 zu bestimmen.
-
Wenn die Absenderadressendaten gespeichert
werden, ist es auch möglich
aufzuzeichnen, ob ein Adressenelement häufig von derselben Adresse abgesandt
wird. Wenn eine Zieladresse häufig
von nur einer Absenderadresse genutzt wird, braucht die Zuverlässigkeit
nicht hoch zu sein. Je mehr Absenderadressen die gleiche Zieladresse
benutzen, um so größer ist
die Zuverlässigkeit.
-
Auf der Grundlage der Daten kann
jeder Adressenaufzeichnung ein Status zugeordnet werden wie beispielsweise
neu, häufig,
zuverlässig
oder alt. Zu diesem Zweck können
beispielsweise die folgenden Regeln angewandt werden. Wenn eine Adressenaufzeichnung
erstmals zusammengestellt wird, erhält sie den Status 'neu'. Eine Adressenaufzeichnung
wird häufig,
wenn sie mehrfach von verschiedenen Absendern und/oder verschiedenen
Sortierzentren empfangen wird. Eine häufige Adressenaufzeichnung
kann zuverlässig
sein, wenn die Adressenaufzeichnung regelmäßig auf Poststücken erscheint.
Die Regelmäßigkeit
wird auf der Grundlage des Durchschnittsintervalls zwischen zwei
aufeinanderfolgenden Zeitpunkten bestimmt, zu denen die Adressenaufzeichnung
auf einem Poststück
gelesen wird. Es kann festgestellt werden, daß sich eine zuverlässige Adressenaufzeichnung
in eine häufige umkehrt,
wenn die durchschnittliche Dauer des genannten Intervalls länger als
eine vordefinierte Periode wird. Wenn eine Adressenaufzeichnung
nicht mehr angetroffen wird, nimmt sie den Status "alt" an.
-
Wenn das Intervall zwischen kurz
zurückliegenden
Zeitpunkten, zu denen eine Adressenaufzeichnung auf einem Poststück angetroffen
wird, immer länger
wird, bedeutet dies beispielsweise, daß der Adressat umgezogen ist,
und es kann entschieden werden, daß die Adressenaufzeichnung
ablaufen sollte.
-
Beispiel
-
Ein Beispiel eines Erkennungsprozesses wird
nachstehend erläutert.
Dabei wird davon ausgegangen, daß nur Daten, bei denen eine
gültige
Postleitzahl gelesen wurde, vorgelegt werden. Der gelesene Adressenblock
ist beispielsweise:
BTT Port Redapersice
Pohtnus
5838
5858GJ Riksdijk NL
wogegen folgendes auf dem
gelesenen Poststück 1 erscheint:
PTT
Post Mediaservice
Postbus 5858
5858GJ Rijswijk NL
-
Jedes Zeichen ist mit einer bestimmten
Erkennungszuverlässigkeit
gelesen worden, und somit kann für
jede Zeile eine durchschnittliche Erkennungszuverlässigkeitsbewertung
festgelegt werden. Diese ist beispielsweise 60% für die erste
Zeile, 75% für
die zweite Zeile und beispielsweise 65% für die letzte Zeile. Erkennungszuverlässigkeits-Gesamtbewertung
könnte
dann der Mittelwert von 60%, 75% und 65% = 66,6% sein. Als Alternative
könnte
man auch sagen, daß die
erste Zeile entscheidend für
die Bestimmung der Erkennungszuverlässigkeit ist.
-
In diesem Fall führt die Segmentierung zu drei
Zeilen. Drei Wörter
werden in der ersten Zeile differenziert, zwei Wörter in der zweiten Zeile und
nochmals zwei Wörter
plus ein separates Attribut in der dritten Zeile. Wenn man von einer
Postleitzahl und einem Ort in der dritten Adressenzeile ausgeht,
erhält die
dritte Zeile eine niedrige Segmentierungseinstufung, selbst wenn
der Grund hierfür
nur der große Zwischenraum
zwischen zwei Elementen ist (Riksdijk und NL), von beispielsweise
40%. Die zweite Zeile sollte einen Straßennamen und eine Hausnummer (und
fakultativ einen Zusatz) enthalten und erhält eine hohe Segmentierungseinstufung,
weil die Struktur dem entspricht, was zu erwarten ist; also beispielsweise
90%. Die erste Zeile enthält
drei Elemente mit drei, vier und elf Zeichen und hat daher eine gute
Struktur für
einen Familiennamen oder einen Firmennamen. Die Segmentierungseinstufung
ist beispielsweise 80%. Eine durchschnittliche Segmentierungseinstufung
ist 70%.
-
In der Namenszeile werden keine bekannten Vorsätze, Einfügungen oder
Zusätze
angetroffen, auch keine Titel oder irgend etwas ähnliches. Das weist darauf
hin, daß es
sich hier um einen Firmennamen handelt. In der zweiten Zeile wird
eine Prüfung
durchgeführt,
um zu ermitteln, ob es einen Zusatz zu der Hausnummer gibt, und
wenn ja, was für ein
Zusatz das ist. Bei diesem Beispiel gibt es keinen Zusatz, und es
wird erkannt, daß hier
ein Postfach betroffen ist. Es gibt daher wenig zu standardisieren.
-
Eine Häufigkeitsprüfung könnte in einem Abgleich mit
vorhandenen Personen- oder
Firmennamen bestehen. Der Abgleich ergibt eine bestimmte Einstufung.
Die Einstufung ist 100% im Fall einer vollständigen Übereinstimmung, und die Einstufung
ist 0%, wenn die Namen vollständig
verschieden sind. Ein Vergleich mit dem Namen "PTT" Post
Mediaservice" könnte beispielsweise
eine Einstufung von 65% ergeben, während die Vergleichsergebnisse
mit "PTT Post Brieven" 25% und mit Sijthof
Pers 0% ist.
-
Die Vergleichseinstufung kann mit
einem Übereinstimmungsalgorithmus
errechnet werden, aber dann durch Vergleich mit Namen von Personen und/oder
Firmen, die an der gelesenen Adresse (Postbus 5858) registriert
sind. Letzteres könnten beispielsweise
die folgenden Firmen sein: PTT Post Mediaservice, DMdata und Dataprofs.
Die Übereinstimmung
mit PTT Post Mediaservice ist 65% und diejenige mit DMdata und Dataprofs
ist 0%. Die Vergleichseinstufung mit PTT Post Mediaservice ist offensichtlich
am höchsten.
-
Ein auf Regeln basierendes System
bestimmt nunmehr, ob im vorliegenden Fall (66,6% Zuverlässigkeit,
70% Segmentierung, 65% Häufigkeit, 65%
Vergleichseinstufung) das Datenelement als bekannt, unbekannt oder
neu zu bezeichnen ist. Die Anforderung an ein neues Datenelement
kann beispielsweise sein, daß eine
Qualitätseinstufung
(wie beispielsweise der Mittelwert der Erkennungszuverlässigkeits-Gesamteinstufung,
der Segmentierung und der Häufigkeit)
größer als
80% ist und daß die Vergleichseinstufung
kleiner als 80% ist. Die Anforderung an ein bekanntes Datenelement
kann beispielsweise sein, daß die
Qualitätsbewertung
und die Vergleichseinstufung höher
als 95% sind. Alles, was außerhalb
davon liegt, kann als unbekannt bezeichnet werden.
-
Weitere Ausführungsformen
-
2 zeigt
den Fall, daß der
zentrale Datenbankspeicher eine Datenbank hat. Es ist aber auch auf
der Grundlage der Datenbank in dem zentralen Datenbankspeicher möglich, eine
zusätzliche
Datenbank aufzubauen, die eine Auswahl der Adressenaufzeichnungen
von der kompletten zentralen Datenbank enthält. Diese Auswahl erfolgt auf
der Grundlage von bestimmten Entscheidungsregeln. Beispielsweise
werden in diese Auswahl von Adressenaufzeichnungen nur diejenigen
Adressenaufzeichnungen aufgenommen, deren Zuverlässigkeit einen bestimmten Grenzwert überschreitet.
Diese zuverlässigen
Adressenaufzeichnungen können
dann beispielsweise zum Gebrauch durch Dritte verfügbar gemacht
werden.
-
In dem Fall, daß eine zusätzliche Datenbank, die eine
Auswahl der Daten von dem zentralen Datenbankspeicher enthält, vorgesehen
ist, kann vorgesehen sein, daß als
zusätzliche
Entscheidungsregel zur Aufnahme in dem zusätzlichen Datenbankspeicher
die Auswahl nach Maßgabe
der relevanten Regeln entsprechend der Datenschutz-Gesetzgebung erfolgt.
Um Daten gemäß der Datenschutz-Gesetzgebung
zu speichern, kann die zentrale Datenbank selbst in einem schwarzen
Kasten vorgesehen sein. Auf die darin gespeicherten Daten kann Zugriff
nur über
sichere Ausgaberoutinen erfolgen, die beispielsweise ebenfalls in
dem schwarzen Kasten untergebracht sind. In diesem Zusammenhang
ist es beispielsweise möglich,
die Nutzung eines fakultativ öffentlichen
elektronischen Schlüssels
vorzusehen.
-
Bei dem Entscheidungsprozeß in bezug
auf die Brauchbarkeit eines Adressendatenelements, das gescannt
worden ist, wird bevorzugt Gebrauch gemacht von (1) der Häufigkeit
seines Auftretens, (2) der darin enthaltenen Änderung und (3) der Verbreitung
in bezug auf Absender. Prinzipiell kann für diesen Zweck ein auf Regeln
basierendes System eingerichtet werden. Als Alternative kann der
zentrale Prozessor 42 mit einem Neuronennetz oder dergleichen
versehen sein. Im allgemeinen liegt der Fall so, daß ein Adressendatenelement
um so besser nutzbar ist, je kürzer
der Zeitraum ist, seit es auf einem Poststück gelesen wurde, wenn es hinreichend
häufig
auftritt (also häufig
ist), je größer die
Zahl verschiedener Absender ist, von denen es empfangen wird (häufig), und
je höher
seine Qualität
ist, beispielsweise durch die Segmentierungsqualität und die
Erkennungszuverlässigkeitsbewertung
angezeigt.
-
Vorstehend ist eine Ausführungsform
beschrieben worden, bei der die Schritte zur Aktualisierung der
zentralen Datenbank von dem zentralen Prozessor 42 durchgeführt werden.
Wie bereits erwähnt,
können
diese Schritte aber auch von dem Prozessor 14 (oder fakultativ
teilweise dem Prozessor 15) durchgeführt werden, und zwar speziell
dann, wenn die zu aktualisierende Datenbank eine Adressendatenbank
ist, die ausschließlich
lokal vorhanden ist und die in einem Speicher gespeichert ist, der
mit dem Prozessor 14 (oder 15) verbunden ist.
-
Weitere Möglichkeiten für die beschriebene Anlage
und das Verfahren sind wie folgt.
-
Die Absenderadressendaten 7 können gescannt
werden, wenn der Bildabtaster 12 für die Anzeige verwendet wird.
Der Prozessor 14 kann beispielsweise feststellen, daß die Absenderadressendaten 7 denen
für PTT
POST (oder die Sortierstelle) selbst entsprechen. Die von letzterem
stammenden Daten entsprechen den Daten in dem zentralen Datenbankspeicher 44.
Diese Daten werden bevorzugt nicht in den Bildspeicher 22 eingefügt, um mögliche Fehler
in dem zentralen Datenbankspeicher 44 zu vermeiden, die
sich jedesmal selbst bestätigen.
-
Berufsbezeichnungen von Leuten werden manchmal
auf Poststücken
zusätzlich
zu Titeln und dergleichen für
die Namen in den Namenszeilen 3 angegeben. Diese Daten
können
ebenfalls in dem zentralen Datenbankspeicher 44 gespeichert
werden. Diese Berufsbezeichnungen können wichtig sein, wenn die
zusätzliche
Datenbank kompiliert wird.
-
Selbstverständlich kann die zentrale Datenbank 44 auch
während
der Sortierprozesses genutzt werden, der vorstehend erläutert wurde.