-
Die
Erfindung betrifft ein Verfahren zum Ermitteln von Fehlern in Adressdatenbanken
für Adresslesesysteme
von Sendungssortieranlagen mit OCR-Einheiten und Videokodiersystemen.
-
Die
heute eingesetzten Anlagen zur automatischen Sortierung von Sendungen
enthalten Lesesysteme, mit deren Hilfe die Adresse der jeweiligen
Sendung automatisch gelesen und daraus die zur Sortierung notwendige
Verteilinformation abgeleitet wird.
-
Adressen,
die von der OCR-Einheit nicht mit der erforderlichen Sicherheit
erkannt werden können, werden
anschließend
in einem Videokodiersystem weiterbearbeitet. Hierbei werden die
elektronischen Abbilder der Sendungen an Bildschirmen der Videokodierplätze angezeigt.
Die Operateure dieser Videokodierplätze haben die Aufgabe, die
für die
Verteilung der Sendungen notwendige Information manuell zu ermitteln.
Dabei handelt es sich nicht um ein Abschreiben der Adresse. Ein
solches Vorgehen ist viel zu aufwändig und würde zu einer völlig unbefriedigenden
Kostensituation führen.
Es werden vielmehr unter genauer Beachtung der jeweiligen Adress-Strukturen
bestimmte Kodierregeln aufgestellt, nach denen nur bestimmte Teile
der Adresse eingegeben werden müssen.
Dieser Informationsextrakt wird so definiert, dass daraus die notwendige
Verteilinformation in den meisten Fällen in eindeutiger Weise gewonnen
werden kann und nur in wenigen Fällen
weitere Entscheidungen des Operateurs notwendig sind. Dieses Verfahren
ist als Extraktionskodierverfahren bekannt (
DE 102 12 085 A1 ).
-
Sendungen,
bei denen auch durch Anwendung der Videokodierung keine Verteilinformation
ermittelt werden kann, müssen
in ein getrenntes Fach der Sortiermaschine aussortiert und anschlie ßend im
Rahmen einer Handsortierung weiterbearbeitet werden. Diese manuelle
Arbeit verursacht hohe Kosten und sollte daher soweit wie möglich vermieden
werden.
-
Die
Gründe
für das
Versagen der Lesesysteme mit OCR-Lese- und Videokodierprozessen
sind vielfältig:
- 1. Die Sendung wurde falsch eingelegt:
Die
Sendung wurde beim Einlegen in die Stoffeingabe der Sortiermaschine
versehentlich mit der Rückseite zum
Scanner eingelegt, sodass die Empfängeradresse nicht erfasst werden
konnte.
Fehler dieser Art sind leicht erkennbar und durch anschließendes richtiges
Einlegen ohne große
Mehrkosten behebbar.
- 2. Die Adresse ist unleserlich:
Im elektronischen Bild
ist die Adresse auch für
einen Menschen nicht zu erkennen. Dies kann durch eine objektiv
schlechte Schreib- oder Druckqualität begründet sein. In vielen Fällen liegt
der Grund jedoch im Bildaufnahme-System. Bei sehr ungünstigen
Kontrastverhältnissen,
z.B. silberfarbene Schrift auf dunklem Hintergrund, sind auch die
heute in Sortiermaschinen verwendeten Hochgeschwindigkeits-Scanner
nicht in der Lage, ein lesbares Bild der Adresse aufzuzeichnen.
Die
Adressen von Sendungen dieser Art können nur auf dem Original gelesen
werden und müssen
deshalb in der Handverteilung bearbeitet werden.
- 3. Die Adresse ist unrichtig:
Die Adressangabe auf der
Sendung entspricht keiner realen postalischen Adresse. In vielen
Fällen
handelt es sich dabei um Schreibfehler, die von einer Person mit
guter Kenntnis der lokalen Verteilgeographie identifi ziert werden
können.
In manchen Fällen
müssen
jedoch weitere Untersuchungen angestellt werden, die häufig auch
eine postalische Öffnung
der Sendung erfordern. In DE
102 12 085 A1 sind verschiedene Gründe für die Nichtübereinstimmung der ermittelten
Adresse mit den Wörterbucheinträgen angegeben.
- 4. Die Adresse ist zwar korrekt, sie kann jedoch in der verwendeten
Adressdatenbank nicht identifiziert werden:
Zur Durchführung des
OCR-Lese- und Videokodierprozesses muss eine Datenbank zur Verfügung stehen, die
alle Adressen auf landesweiter Basis enthält und dabei jeder Adresse
die Verteilinformation zuordnet, die zum Sortieren der jeweiligen
Sendung benötigt
wird. Diese Datenbank wird Adress-Datenbank oder Adress-Wörterbuch
genannt.
Fehlen nun bestimmte Adressen in dieser Datenbank
oder weisen Fehler auf, so können
sie auch bei optimaler Druck- oder Schreibqualität weder von der OCR-Leseeinheit gelesen
noch mittels Videokodiersystem kodiert werden. Sie müssen dann
von Personen mit guter Kenntnis der lokalen Verteilgeographie manuell sortiert
werden.
Einen weiteren Grund für die obige Situation stellen
die auch bei gut trainierten Mitarbeitern unvermeidlichen Tippfehler
bei der Eingabe der Videokodier-Sequenzen dar (siehe ebenfalls DE 102 12 085 A1 ).
-
Im
operationellen Betrieb eines Sortierzentrums stellen Mängel der
Adressdatenbank den häufigsten Grund
für eine
Bearbeitung in der Handsortierung dar.
-
Bei
den bislang eingesetzten Verfahren sind jedoch diese Mängel schwer
zu erkennen: Alle in der Handsortierung bearbeiteten Sendungen müssen einzeln
mit dem Inhalt der Adressdatenbank verglichen werden, um die Mängel der
Adressdatenbank von den übrigen
oben erwähnten
Gründen
unterscheiden zu können.
Diese Entscheidung kann nur von Personen mit guter Kenntnis der
lokalen Verteilgeographie vorgenommen werden und ist entsprechend
aufwändig.
-
Darüber hinaus
ist es aus
DE 600
04 370 T2 bekannt, eine Adressdatenbank anhand gescannter Adressdaten
zu aktualisieren und dabei die Häufigkeit
des Auftretens gescannter Adressdatenelemente zu berücksichtigen.
-
Weiterhin
ist es aus US 2003/085 162 A1 bekannt, statistische Daten über die
im Laufe des Lesebetriebes zurückgewiesenen
Sendungen zu ermitteln.
-
Der
Erfindung liegt die Aufgabe zugrunde, ein aufwandsarmes Verfahren
zum Ermitteln von Fehlern in Adressdatenbanken zu schaffen.
-
Erfindungsgemäß wird die
Aufgabe durch die Merkmale des Anspruches 1 gelöst.
-
Im
Laufe des Lesebetriebes werden die Videokodiersequenzen der nach
dem Videokodieren zurückgewiesenen
Abbilder der die Adressangaben aufweisenden Sendungsoberflächen oder
die im Laufe des Sortier- und Verteilbetriebes der im Adresslesesystem
gelesenen Sendungen ermittelten Verteilkodes der fehlverteilten
Sendungen gespeichert. Weiterhin werden die Zurückweisungen, bezogen auf die
jeweilige Videokodiersequenz, oder die Fehlverteilungen bezogen
auf die ermittelten Verteilkodes gezählt. Bei Überschreiten einer festgelegten
Anzahl, die signifikant über
einem geeignet gewählten
unteren Grenzwert liegt, werden Abbilder von Zurückweisungen mit den jeweiligen
Kodiersequenzen oder die nach der Fehlverteilung beim nochmaligen
Verarbeiten der Sendungen in einer Sendungssortieranlage aufgenommenen
Abbilder als Adressdatenbankfehler gespeichert und anschließend zur
Fehlerkorrektur dargestellt.
-
Durch
die automatische Ermittlung der Datenbankfehler, was sowohl fehlende
als auch falsche Eintragungen betrifft, und die Darstellung der
zurückgewiesenen
Videokodiersequenzen oder der Verteilkodes der Fehlleitungen mit
den Bildern zur anschließenden
Korrektur kann die Adressdatenbank ohne Mühe auf dem aktuellen Stand
gehalten und der Umfang der Handsortierung stark reduziert werden.
-
Vorteilhafte
Ausgestaltungen der Erfindung sind in den Unteransprüchen dargelegt.
-
Um
die Korrektur der Adressdatenbank rationell durchzuführen, ist
es vorteilhaft, wenn die Darstellung der die Adressdatenbankfehler
kennzeichnenden Videokodiersequenzen oder Verteilkodes mit den zugehörenden Abbildern
in einer den Adressdatenbankeinträgen entsprechenden Reihenfolge
erfolgt.
-
Vorteilhaft
ist es auch, nur eine festgelegte Anzahl von Abbildern für jede Videokodiersequenz
oder für jeden
Verteilkode eines Adressdatenbankfehlers aufzuzeichnen und darzustellen.
Dadurch kann der Speicher- und Auswerteaufwand gering gehalten werden.
-
Weiterhin
ist es vorteilhaft, die die Aufzeichnung von Abbildern steuernden
Grenzwerte dynamisch im Verlauf einer Messung anzupassen, wodurch
die Messdauer entsprechend der vorhandenen Gegebenheiten nahezu
beliebig gewählt
werden kann.
-
Anschließend wird
die Erfindung in einem Ausführungsbeispiel
anhand der Zeichnung erläutert.
-
Dabei
zeigen
-
1 eine
Häufigkeitsverteilung
verschiedener zurückgewiesener
Videokodiersequenzen mit den Aufzeichnungsgrenzwerten,
-
2 eine
Häufigkeitsverteilung
der zurückgewiesenen
Videokodiersequenzen nach Liste 1 mit den Aufzeichnungsgrenzwerten.
-
Fehlende
oder inkorrekte, d.h. nicht zu den verwendeten Adressen passende
Einträge
in der Adressdatenbank machen sich in gleicher Weise beim Lesen
wie beim Videokodieren bemerkbar. Wenn z. B. ein Straßenname
in der Adressdatenbank fehlt oder falsch geschrieben ist, so führt das
sowohl beim Lesen als auch beim Videokodieren zu einer Rückweisung
(oder im Ex tremfall zu einem Fehler).
-
Durch
Analyse der Rückweisungen
des Videokodiersystems können
also die Mängel
der Adressdatenbank ermittelt werden.
-
Hierfür wird das
folgende automatische Verfahren verwendet:
Im operationellen
Betrieb wird bei jeder Rückweisung
des Videokodiersystems die zur Rückweisung
führende Kodiersequenz
gespeichert und gezählt.
-
Trägt man die
Häufigkeit
der Rückweisungen
der verschiedenen Videokodiersequenzen auf, so ergibt sich eine
in 1 angegebene Verteilung:
Über einem über alle Sequenzen annähernd gleichförmig verteilten
Kontinuum erheben sich Häufungspunkte für bestimmte
Kodiersequenzen.
-
Der
Grund für
diese Verteilung ist folgender:
Tipp- und Schreibfehler sind
i.a. statistisch gleichmäßig über alle
möglichen
Videokodiersequenzen verteilt. Es gibt keine besondere Bevorzugung
bestimmter Sequenzen, während
bei Fehlen eines Eintrags in der Adressdatenbank jede an diese Adresse
gerichtete Sendung immer eine Rückweisung
der jeweiligen Kodiersequenz verursacht. Die Häufungspunkte sind also durch
Mängel
der Adressdatenbank verursacht. Die absolute Höhe des Häufungspunktes deutet auf die
Häufigkeit
solcher Adressen im operationellen Betrieb der Sortieranlage hin.
-
Da
aus den Kodiersequenzen allein kein Rückschluss auf die verursachenden
Adressen möglich
ist, müssen
zusätzlich
Bilder der betreffenden Sendungen gespeichert werden. Dabei ist
es notwendig, die betreffenden Sendungen gezielt aufzuzeichnen,
um eine ungeordnete Datenflut zu vermeiden.
-
Zu
diesem Zweck wird die Bildaufzeichnung durch zwei Grenzwerte gesteuert.
-
Der
untere Grenzwert wird so gelegt, dass er deutlich über dem
von Tipp- und Schreibfehlern verursachten Kontinuum liegt. Er steuert
den Beginn der Aufzeichnung. Zunächst
findet nämlich
keine Aufzeichnung statt.
-
Erst
wenn der Zähler
einer bestimmten Kodiersequenz den unteren Grenzwert überschreitet,
wird das elektronische Bild der die Rückweisung verursachenden Sendung
gespeichert. Dadurch wird die Aufzeichnung von Rückweisungen von Tipp- und Schreibfehlern
unterdrückt
und es werden nur Beispiele von echten Adressdatenbankmängeln aufgezeichnet.
-
Umgekehrt
ist es unnötig,
für alle
durch einen Mangel in der Adressdatenbank verursachten Rückweisungen
Bilder aufzuzeichnen. Einige Beispiele genügen vollauf. Zu diesem Zweck
wird ein zweiter, oberer Grenzwert eingeführt, nach dessen Überschreitung
die Aufzeichnung wieder unterdrückt
wird. Die Differenz zwischen dem unteren und oberen Grenzwert gibt
die Zahl der zu speichernden Beispielsendungen an. Es dürfte i.a.
ausreichen, 5-10 Beispiele jeweils aufzuzeichnen.
-
Die
geplante Dauer der Messung ist bei der Wahl des unteren und oberen
Grenzwertes zu berücksichtigen.
Die Messung ist spätestens
dann zu beenden, wenn im Verlauf der Messung die Häufigkeit
des zufällig verteilten
Kontinuums den unteren Grenzwert erreicht. Andernfalls würden die
Tipp- und Schreibfehler den unteren Grenzwert überschreiten und zu einer unerwünschten
Speicherbelastung führen.
-
Die
Größe der Grenzwerte
bestimmt weiterhin die Empfindlichkeit der Messung:
Gemäß den Regeln
der Statistik heben sich bei Wahl eines kleinen unteren Grenzwertes
nur die sehr häufig auftretenden
Mängel
der Adresse vom Kontinuum deutlich ab, während die weniger häufig auftretenden
Mängel
sich noch nicht deutlich genug vom Kontinuum abzeichnen.
-
Um
auch sie sichtbar zu machen, muss die Dauer der Messung und damit
auch der untere Grenzwert erhöht
werden.
-
Es
ist auch möglich,
die Grenzwerte automatisch nach oben zu verschieben, wenn das zufällig verteilte Kontinuum
in die Nähe
des anfangs gewählten
unteren Grenzwertes kommt. Auf diese Weise ist es möglich, die
Messdauer nahezu beliebig zu gestalten und in einer einzigen Messung
häufig
und weniger häufig
auftretende Mängel
gleichzeitig festzustellen.
-
Die
aufgezeichneten Beispiele können
an Hand der sie auslösenden
Videokodiersequenzen geordnet werden. Damit ergibt sich automatisch
eine natürliche
Ordnung des aufgezeichneten Daten-Materials. Jeder von der Messung
erfasste Mangel in der Adressdatenbank wird durch seine Häufigkeit
und durch eine vorgegebene Menge von Beispielen belegt und kann
nach der Postleitzahl und der alphabetischen Ordnung der kodierten
Namen geordnet werden. Die für
die Wartung der Adressdaten zuständigen
Personen erhalten somit ein wohlgeordnet aufbereitetes Daten-Material,
das sie in die Lage versetzt, die fehlenden oder falschen Einträge schnell
zu erkennen und zu ergänzen.
-
Diese
Sachverhalte werden nun an zwei konkreten Fällen erläutert.
-
Fall 1:
-
Angenommen,
die Aufgabe der Videokodierung besteht darin, zunächst die
5-stellige Postleitzahl und dann die ersten 3 Buchstaben des Straßennamens
anzugeben.
-
Bei
der Postleitzahl 78315 mögen
in der Adressdatenbank der Eintrag „Rosenstraße" und der Eintrag „Lilienstraße" fehlen. Adressen
der Art
Herrn
X.Y | Frau
Y.X |
Rosenstr.l5 | Lilienstr.l2 |
78315
Radolfzell oder | 78315
Radolfzell |
die durch die Sequenzen
videokodiert werden, führen dann zu einer Rückweisung
des Videokodiersystems und damit zu einer Erhöhung der betreffenden Zähler. Bei Überschreitung
des unteren Grenzwerts 50 wird zusätzlich das Bild der Sendung
gespeichert. Überschreitet
der Zähler
den oberen Grenzwert von 53, so wird die Speicherung von Bildern wieder
unterdrückt.
-
Vertippte
Kodiersequenzen z.B. 78315 RLS oder RPS werden auch gezählt, treten
jedoch in dieser Form nicht gehäuft
auf, sodass der Grenzwert nicht überschritten
wird und eine Speicherung des Bildes unterbleibt. Ähnliches
gilt für
die Sequenz 78315 RAS, die sich aus dem Schreibfehler „Rasenstr" ergibt Nach einer bestimmten
Zeit ergibt sich dann beispielhaft die folgende Belegung der Liste
der Rückweisungen
für die
Postleitzahl 78315:
-
-
Für die den
unteren Grenzwert klar überschreitenden
Kodiersequenzen LIL und ROS wurden die Bilder von jeweils 3 Beispielsendungen
aufgezeichnet, aus denen dann die in der Ad ressdatenbank fehlenden Adressen
ermittelt und in diese eingetragen wurden.
-
Die
graphische Darstellung der Belegung von Liste 1 zeigt den in 2 gezeigten
Verlauf.
-
Das
Verfahren eignet sich zur Ermittlung aller in Adressen enthaltener,
jedoch in der Adressdatenbank fehlender oder falscher Informationen,
sofern diese Informationen auch Gegenstand der Videokodierung sind, z.
B.
- • Postleitzahlen
- • Ortsnamen
- • Straßennamen
- • Hausnummern
- • Postfachnummern
- • Empfängernamen
-
Fall 2:
-
Angenommen,
die Aufgabe bei der Videocodierung besteht aus der Eingabe der Postleitzahl,
der ersten 3 Buchstaben des Straßennamens und der Hausnummer.
Im Adresswörterbuch
sei zwar die „Rosenstraße" enthalten, jedoch
nur mit den Nummern 1-13, die Nummern 15-19 fehlen.
-
Dann
ergibt sich die folgende Listenbelegung:
-
-
-
Die
fehlenden Hausnummern werden deutlich, während die existierenden Hausnummern
zu keinem Eintrag in die Rückweisungsliste
führen.
-
Das
Verfahren ist auch geeignet, in der Adressdatenbank fehlende, von
der Öffentlichkeit
jedoch häufig
benutzte Alternativschreibweisen von Namen zu ermitteln.
-
Es
ist nicht an die Existenz von Postleitzahlen gebunden. Falls es
keine Postleitzahlen gibt, dient der Ortsname als Ordnungskriterium.
-
Das
Verfahren kann auch bei der Auswertung von Fehlverteilungen vorteilhaft
eingesetzt werden.
-
Fehlverteilungen
werden bei der Feinverteilung und Zustellung der Sendungen erkannt.
-
Sie
werden dann an das nächste
Verteilzentrum zur Neuverteilung zurückgegeben.
-
Bei
dieser Gelegenheit können
die Sendungen beim Lauf in einer Sortieranlage verarbeitet und dabei Bilder
und die bisherigen (falschen) Verteilergebnisse aufgezeichnet werden.
-
Trägt man die
Häufigkeit
der Fehlverteilungen in Abhängigkeit
vom Verteilkode auf, so ergibt sich wieder die charakteristische
Verteilung nach 1.
-
Systematische
Fehler, die auf einen Fehler in der Adressdatenbank hindeuten, bilden
Häufungspunkte,
während
die auf Erkennungsfehler und Tippfehler zurückzuführenden Fehlverteilungen eher
gleichmäßig verteilt
sind. Durch geeignete Wahl des unteren und oberen Grenzwertes können wiederum
Belegex emplare aufgezeichnet werden, die zu einer gezielten Verbesserung
der Adressdatenbank verwendet werden können.