DE102004040600B3

DE102004040600B3 - Verfahren zum Ermitteln von Fehlern in Adressdatenbanken

Info

Publication number: DE102004040600B3
Application number: DE102004040600A
Authority: DE
Inventors: Werner Dr. Hautsch
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2004-08-21
Filing date: 2004-08-21
Publication date: 2005-12-08
Anticipated expiration: 2024-08-22
Also published as: WO2006021247A1

Abstract

In dem Verfahren zum Ermitteln von Fehlern in Adressdatenbanken für Adresslesesysteme von Sendungssortieranlagen mit OCR-Einheiten und Videokodiersystemen werden im Laufe des Lesebetriebes die Videokodiersequenzen der nach dem Videokodieren zurückgewiesenen Abbilder der Sendungen oder die im Laufe des Sortier- und Verteilbetriebes der im Adresslesesystems gelesenen Sendungen ermittelten Verteilkodes der fehlverteilten Sendungen gespeichert und die Zurückweisungen, bezogen auf die jeweilige Videokodiersequenz, oder die Fehlverteilungen, bezogen auf die ermittelten Verteilkodes, gezählt. Bei Überschreiten einer festgelegten Anzahl, die signifikant über einem geeignet gewählten unteren Grenzwert liegt, werden Abbilder von Zurückweisungen mit den jeweiligen Kodiersequenzen oder die nach der Fehlverteilung beim nochmaligen Verarbeiten der Sendungen in einer Sendungssortieranlage aufgenommenen Abbilder als Adressdatenbankfehler gespeichert und anschließend zur Fehlerkorrektur dargestellt.

Description

Die Erfindung betrifft ein Verfahren zum Ermitteln von Fehlern in Adressdatenbanken für Adresslesesysteme von Sendungssortieranlagen mit OCR-Einheiten und Videokodiersystemen.

Die heute eingesetzten Anlagen zur automatischen Sortierung von Sendungen enthalten Lesesysteme, mit deren Hilfe die Adresse der jeweiligen Sendung automatisch gelesen und daraus die zur Sortierung notwendige Verteilinformation abgeleitet wird.

Adressen, die von der OCR-Einheit nicht mit der erforderlichen Sicherheit erkannt werden können, werden anschließend in einem Videokodiersystem weiterbearbeitet. Hierbei werden die elektronischen Abbilder der Sendungen an Bildschirmen der Videokodierplätze angezeigt. Die Operateure dieser Videokodierplätze haben die Aufgabe, die für die Verteilung der Sendungen notwendige Information manuell zu ermitteln. Dabei handelt es sich nicht um ein Abschreiben der Adresse. Ein solches Vorgehen ist viel zu aufwändig und würde zu einer völlig unbefriedigenden Kostensituation führen. Es werden vielmehr unter genauer Beachtung der jeweiligen Adress-Strukturen bestimmte Kodierregeln aufgestellt, nach denen nur bestimmte Teile der Adresse eingegeben werden müssen. Dieser Informationsextrakt wird so definiert, dass daraus die notwendige Verteilinformation in den meisten Fällen in eindeutiger Weise gewonnen werden kann und nur in wenigen Fällen weitere Entscheidungen des Operateurs notwendig sind. Dieses Verfahren ist als Extraktionskodierverfahren bekannt ( DE 102 12 085 A1 ).

Sendungen, bei denen auch durch Anwendung der Videokodierung keine Verteilinformation ermittelt werden kann, müssen in ein getrenntes Fach der Sortiermaschine aussortiert und anschlie ßend im Rahmen einer Handsortierung weiterbearbeitet werden. Diese manuelle Arbeit verursacht hohe Kosten und sollte daher soweit wie möglich vermieden werden.

Die Gründe für das Versagen der Lesesysteme mit OCR-Lese- und Videokodierprozessen sind vielfältig:

1. Die Sendung wurde falsch eingelegt: Die Sendung wurde beim Einlegen in die Stoffeingabe der Sortiermaschine versehentlich mit der Rückseite zum Scanner eingelegt, sodass die Empfängeradresse nicht erfasst werden konnte. Fehler dieser Art sind leicht erkennbar und durch anschließendes richtiges Einlegen ohne große Mehrkosten behebbar.
2. Die Adresse ist unleserlich: Im elektronischen Bild ist die Adresse auch für einen Menschen nicht zu erkennen. Dies kann durch eine objektiv schlechte Schreib- oder Druckqualität begründet sein. In vielen Fällen liegt der Grund jedoch im Bildaufnahme-System. Bei sehr ungünstigen Kontrastverhältnissen, z.B. silberfarbene Schrift auf dunklem Hintergrund, sind auch die heute in Sortiermaschinen verwendeten Hochgeschwindigkeits-Scanner nicht in der Lage, ein lesbares Bild der Adresse aufzuzeichnen. Die Adressen von Sendungen dieser Art können nur auf dem Original gelesen werden und müssen deshalb in der Handverteilung bearbeitet werden.
3. Die Adresse ist unrichtig: Die Adressangabe auf der Sendung entspricht keiner realen postalischen Adresse. In vielen Fällen handelt es sich dabei um Schreibfehler, die von einer Person mit guter Kenntnis der lokalen Verteilgeographie identifi ziert werden können. In manchen Fällen müssen jedoch weitere Untersuchungen angestellt werden, die häufig auch eine postalische Öffnung der Sendung erfordern. In DE 102 12 085 A1 sind verschiedene Gründe für die Nichtübereinstimmung der ermittelten Adresse mit den Wörterbucheinträgen angegeben.
4. Die Adresse ist zwar korrekt, sie kann jedoch in der verwendeten Adressdatenbank nicht identifiziert werden: Zur Durchführung des OCR-Lese- und Videokodierprozesses muss eine Datenbank zur Verfügung stehen, die alle Adressen auf landesweiter Basis enthält und dabei jeder Adresse die Verteilinformation zuordnet, die zum Sortieren der jeweiligen Sendung benötigt wird. Diese Datenbank wird Adress-Datenbank oder Adress-Wörterbuch genannt. Fehlen nun bestimmte Adressen in dieser Datenbank oder weisen Fehler auf, so können sie auch bei optimaler Druck- oder Schreibqualität weder von der OCR-Leseeinheit gelesen noch mittels Videokodiersystem kodiert werden. Sie müssen dann von Personen mit guter Kenntnis der lokalen Verteilgeographie manuell sortiert werden. Einen weiteren Grund für die obige Situation stellen die auch bei gut trainierten Mitarbeitern unvermeidlichen Tippfehler bei der Eingabe der Videokodier-Sequenzen dar (siehe ebenfalls DE 102 12 085 A1 ).

Im operationellen Betrieb eines Sortierzentrums stellen Mängel der Adressdatenbank den häufigsten Grund für eine Bearbeitung in der Handsortierung dar.

Bei den bislang eingesetzten Verfahren sind jedoch diese Mängel schwer zu erkennen: Alle in der Handsortierung bearbeiteten Sendungen müssen einzeln mit dem Inhalt der Adressdatenbank verglichen werden, um die Mängel der Adressdatenbank von den übrigen oben erwähnten Gründen unterscheiden zu können. Diese Entscheidung kann nur von Personen mit guter Kenntnis der lokalen Verteilgeographie vorgenommen werden und ist entsprechend aufwändig.

Darüber hinaus ist es aus DE 600 04 370 T2 bekannt, eine Adressdatenbank anhand gescannter Adressdaten zu aktualisieren und dabei die Häufigkeit des Auftretens gescannter Adressdatenelemente zu berücksichtigen.

Weiterhin ist es aus US 2003/085 162 A1 bekannt, statistische Daten über die im Laufe des Lesebetriebes zurückgewiesenen Sendungen zu ermitteln.

Der Erfindung liegt die Aufgabe zugrunde, ein aufwandsarmes Verfahren zum Ermitteln von Fehlern in Adressdatenbanken zu schaffen.

Erfindungsgemäß wird die Aufgabe durch die Merkmale des Anspruches 1 gelöst.

Im Laufe des Lesebetriebes werden die Videokodiersequenzen der nach dem Videokodieren zurückgewiesenen Abbilder der die Adressangaben aufweisenden Sendungsoberflächen oder die im Laufe des Sortier- und Verteilbetriebes der im Adresslesesystem gelesenen Sendungen ermittelten Verteilkodes der fehlverteilten Sendungen gespeichert. Weiterhin werden die Zurückweisungen, bezogen auf die jeweilige Videokodiersequenz, oder die Fehlverteilungen bezogen auf die ermittelten Verteilkodes gezählt. Bei Überschreiten einer festgelegten Anzahl, die signifikant über einem geeignet gewählten unteren Grenzwert liegt, werden Abbilder von Zurückweisungen mit den jeweiligen Kodiersequenzen oder die nach der Fehlverteilung beim nochmaligen Verarbeiten der Sendungen in einer Sendungssortieranlage aufgenommenen Abbilder als Adressdatenbankfehler gespeichert und anschließend zur Fehlerkorrektur dargestellt.

Durch die automatische Ermittlung der Datenbankfehler, was sowohl fehlende als auch falsche Eintragungen betrifft, und die Darstellung der zurückgewiesenen Videokodiersequenzen oder der Verteilkodes der Fehlleitungen mit den Bildern zur anschließenden Korrektur kann die Adressdatenbank ohne Mühe auf dem aktuellen Stand gehalten und der Umfang der Handsortierung stark reduziert werden.

Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen dargelegt.

Um die Korrektur der Adressdatenbank rationell durchzuführen, ist es vorteilhaft, wenn die Darstellung der die Adressdatenbankfehler kennzeichnenden Videokodiersequenzen oder Verteilkodes mit den zugehörenden Abbildern in einer den Adressdatenbankeinträgen entsprechenden Reihenfolge erfolgt.

Vorteilhaft ist es auch, nur eine festgelegte Anzahl von Abbildern für jede Videokodiersequenz oder für jeden Verteilkode eines Adressdatenbankfehlers aufzuzeichnen und darzustellen. Dadurch kann der Speicher- und Auswerteaufwand gering gehalten werden.

Weiterhin ist es vorteilhaft, die die Aufzeichnung von Abbildern steuernden Grenzwerte dynamisch im Verlauf einer Messung anzupassen, wodurch die Messdauer entsprechend der vorhandenen Gegebenheiten nahezu beliebig gewählt werden kann.

Anschließend wird die Erfindung in einem Ausführungsbeispiel anhand der Zeichnung erläutert.
Dabei zeigen
1 eine Häufigkeitsverteilung verschiedener zurückgewiesener Videokodiersequenzen mit den Aufzeichnungsgrenzwerten,
2 eine Häufigkeitsverteilung der zurückgewiesenen Videokodiersequenzen nach Liste 1 mit den Aufzeichnungsgrenzwerten.
Fehlende oder inkorrekte, d.h. nicht zu den verwendeten Adressen passende Einträge in der Adressdatenbank machen sich in gleicher Weise beim Lesen wie beim Videokodieren bemerkbar. Wenn z. B. ein Straßenname in der Adressdatenbank fehlt oder falsch geschrieben ist, so führt das sowohl beim Lesen als auch beim Videokodieren zu einer Rückweisung (oder im Ex tremfall zu einem Fehler).
Durch Analyse der Rückweisungen des Videokodiersystems können also die Mängel der Adressdatenbank ermittelt werden.
Hierfür wird das folgende automatische Verfahren verwendet:
Im operationellen Betrieb wird bei jeder Rückweisung des Videokodiersystems die zur Rückweisung führende Kodiersequenz gespeichert und gezählt.
Trägt man die Häufigkeit der Rückweisungen der verschiedenen Videokodiersequenzen auf, so ergibt sich eine in 1 angegebene Verteilung:
Über einem über alle Sequenzen annähernd gleichförmig verteilten Kontinuum erheben sich Häufungspunkte für bestimmte Kodiersequenzen.
Der Grund für diese Verteilung ist folgender:
Tipp- und Schreibfehler sind i.a. statistisch gleichmäßig über alle möglichen Videokodiersequenzen verteilt. Es gibt keine besondere Bevorzugung bestimmter Sequenzen, während bei Fehlen eines Eintrags in der Adressdatenbank jede an diese Adresse gerichtete Sendung immer eine Rückweisung der jeweiligen Kodiersequenz verursacht. Die Häufungspunkte sind also durch Mängel der Adressdatenbank verursacht. Die absolute Höhe des Häufungspunktes deutet auf die Häufigkeit solcher Adressen im operationellen Betrieb der Sortieranlage hin.
Da aus den Kodiersequenzen allein kein Rückschluss auf die verursachenden Adressen möglich ist, müssen zusätzlich Bilder der betreffenden Sendungen gespeichert werden. Dabei ist es notwendig, die betreffenden Sendungen gezielt aufzuzeichnen, um eine ungeordnete Datenflut zu vermeiden.
Zu diesem Zweck wird die Bildaufzeichnung durch zwei Grenzwerte gesteuert.
Der untere Grenzwert wird so gelegt, dass er deutlich über dem von Tipp- und Schreibfehlern verursachten Kontinuum liegt. Er steuert den Beginn der Aufzeichnung. Zunächst findet nämlich keine Aufzeichnung statt.
Erst wenn der Zähler einer bestimmten Kodiersequenz den unteren Grenzwert überschreitet, wird das elektronische Bild der die Rückweisung verursachenden Sendung gespeichert. Dadurch wird die Aufzeichnung von Rückweisungen von Tipp- und Schreibfehlern unterdrückt und es werden nur Beispiele von echten Adressdatenbankmängeln aufgezeichnet.
Umgekehrt ist es unnötig, für alle durch einen Mangel in der Adressdatenbank verursachten Rückweisungen Bilder aufzuzeichnen. Einige Beispiele genügen vollauf. Zu diesem Zweck wird ein zweiter, oberer Grenzwert eingeführt, nach dessen Überschreitung die Aufzeichnung wieder unterdrückt wird. Die Differenz zwischen dem unteren und oberen Grenzwert gibt die Zahl der zu speichernden Beispielsendungen an. Es dürfte i.a. ausreichen, 5-10 Beispiele jeweils aufzuzeichnen.
Die geplante Dauer der Messung ist bei der Wahl des unteren und oberen Grenzwertes zu berücksichtigen. Die Messung ist spätestens dann zu beenden, wenn im Verlauf der Messung die Häufigkeit des zufällig verteilten Kontinuums den unteren Grenzwert erreicht. Andernfalls würden die Tipp- und Schreibfehler den unteren Grenzwert überschreiten und zu einer unerwünschten Speicherbelastung führen.
Die Größe der Grenzwerte bestimmt weiterhin die Empfindlichkeit der Messung:
Gemäß den Regeln der Statistik heben sich bei Wahl eines kleinen unteren Grenzwertes nur die sehr häufig auftretenden Mängel der Adresse vom Kontinuum deutlich ab, während die weniger häufig auftretenden Mängel sich noch nicht deutlich genug vom Kontinuum abzeichnen.
Um auch sie sichtbar zu machen, muss die Dauer der Messung und damit auch der untere Grenzwert erhöht werden.
Es ist auch möglich, die Grenzwerte automatisch nach oben zu verschieben, wenn das zufällig verteilte Kontinuum in die Nähe des anfangs gewählten unteren Grenzwertes kommt. Auf diese Weise ist es möglich, die Messdauer nahezu beliebig zu gestalten und in einer einzigen Messung häufig und weniger häufig auftretende Mängel gleichzeitig festzustellen.
Die aufgezeichneten Beispiele können an Hand der sie auslösenden Videokodiersequenzen geordnet werden. Damit ergibt sich automatisch eine natürliche Ordnung des aufgezeichneten Daten-Materials. Jeder von der Messung erfasste Mangel in der Adressdatenbank wird durch seine Häufigkeit und durch eine vorgegebene Menge von Beispielen belegt und kann nach der Postleitzahl und der alphabetischen Ordnung der kodierten Namen geordnet werden. Die für die Wartung der Adressdaten zuständigen Personen erhalten somit ein wohlgeordnet aufbereitetes Daten-Material, das sie in die Lage versetzt, die fehlenden oder falschen Einträge schnell zu erkennen und zu ergänzen.
Diese Sachverhalte werden nun an zwei konkreten Fällen erläutert.
Fall 1:
Angenommen, die Aufgabe der Videokodierung besteht darin, zunächst die 5-stellige Postleitzahl und dann die ersten 3 Buchstaben des Straßennamens anzugeben.
Bei der Postleitzahl 78315 mögen in der Adressdatenbank der Eintrag „Rosenstraße" und der Eintrag „Lilienstraße" fehlen. Adressen der Art

Herrn X.Y Frau Y.X

Rosenstr.l5 Lilienstr.l2

78315 Radolfzell oder 78315 Radolfzell

die durch die Sequenzen

78315 ROS bzw. 78315 LIL

videokodiert werden, führen dann zu einer Rückweisung des Videokodiersystems und damit zu einer Erhöhung der betreffenden Zähler. Bei Überschreitung des unteren Grenzwerts 50 wird zusätzlich das Bild der Sendung gespeichert. Überschreitet der Zähler den oberen Grenzwert von 53, so wird die Speicherung von Bildern wieder unterdrückt.
Vertippte Kodiersequenzen z.B. 78315 RLS oder RPS werden auch gezählt, treten jedoch in dieser Form nicht gehäuft auf, sodass der Grenzwert nicht überschritten wird und eine Speicherung des Bildes unterbleibt. Ähnliches gilt für die Sequenz 78315 RAS, die sich aus dem Schreibfehler „Rasenstr" ergibt Nach einer bestimmten Zeit ergibt sich dann beispielhaft die folgende Belegung der Liste der Rückweisungen für die Postleitzahl 78315:
Liste 1:
Für die den unteren Grenzwert klar überschreitenden Kodiersequenzen LIL und ROS wurden die Bilder von jeweils 3 Beispielsendungen aufgezeichnet, aus denen dann die in der Ad ressdatenbank fehlenden Adressen ermittelt und in diese eingetragen wurden.
Die graphische Darstellung der Belegung von Liste 1 zeigt den in 2 gezeigten Verlauf.
Das Verfahren eignet sich zur Ermittlung aller in Adressen enthaltener, jedoch in der Adressdatenbank fehlender oder falscher Informationen, sofern diese Informationen auch Gegenstand der Videokodierung sind, z. B.

• Postleitzahlen
• Ortsnamen
• Straßennamen
• Hausnummern
• Postfachnummern
• Empfängernamen

Fall 2:
Angenommen, die Aufgabe bei der Videocodierung besteht aus der Eingabe der Postleitzahl, der ersten 3 Buchstaben des Straßennamens und der Hausnummer. Im Adresswörterbuch sei zwar die „Rosenstraße" enthalten, jedoch nur mit den Nummern 1-13, die Nummern 15-19 fehlen.
Dann ergibt sich die folgende Listenbelegung:
Liste 2:
Die fehlenden Hausnummern werden deutlich, während die existierenden Hausnummern zu keinem Eintrag in die Rückweisungsliste führen.
Das Verfahren ist auch geeignet, in der Adressdatenbank fehlende, von der Öffentlichkeit jedoch häufig benutzte Alternativschreibweisen von Namen zu ermitteln.
Es ist nicht an die Existenz von Postleitzahlen gebunden. Falls es keine Postleitzahlen gibt, dient der Ortsname als Ordnungskriterium.
Das Verfahren kann auch bei der Auswertung von Fehlverteilungen vorteilhaft eingesetzt werden.
Fehlverteilungen werden bei der Feinverteilung und Zustellung der Sendungen erkannt.
Sie werden dann an das nächste Verteilzentrum zur Neuverteilung zurückgegeben.
Bei dieser Gelegenheit können die Sendungen beim Lauf in einer Sortieranlage verarbeitet und dabei Bilder und die bisherigen (falschen) Verteilergebnisse aufgezeichnet werden.
Trägt man die Häufigkeit der Fehlverteilungen in Abhängigkeit vom Verteilkode auf, so ergibt sich wieder die charakteristische Verteilung nach 1.
Systematische Fehler, die auf einen Fehler in der Adressdatenbank hindeuten, bilden Häufungspunkte, während die auf Erkennungsfehler und Tippfehler zurückzuführenden Fehlverteilungen eher gleichmäßig verteilt sind. Durch geeignete Wahl des unteren und oberen Grenzwertes können wiederum Belegex emplare aufgezeichnet werden, die zu einer gezielten Verbesserung der Adressdatenbank verwendet werden können.

Claims

Verfahren zum Ermitteln von Fehlern in Adressdatenbanken für Adresslesesysteme von Sendungssortieranlagen mit OCR-Einheiten und Videokodiersystemen, dadurch gekennzeichnet, dass im Laufe des Lesebetriebes die Videokodiersequenzen der nach dem Videokodieren zurückgewiesenen Abbilder der die Adressangaben aufweisenden Sendungsoberflächen oder die im Laufe des Sortier- und Verteilbetriebes der im Adresslesesystem gelesenen Sendungen ermittelten Verteilkodes der fehlverteilten Sendungen gespeichert werden und die Zurückweisungen bezogen auf die jeweilige Videokodiersequenz oder die Fehlverteilungen bezogen auf die ermittelten Verteilkodes gezählt werden, dass bei Überschreiten einer festgelegten Anzahl, die signifikant über einem geeignet gewählten unteren Grenzwert liegt, Abbilder von Zurückweisungen mit den jeweiligen Kodiersequenzen oder die nach der Fehlverteilung beim nochmaligen Verarbeiten der Sendungen in einer Sendungssortieranlage aufgenommenen Abbilder als Adressdatenbankfehler gespeichert und anschließend zur Fehlerkorrektur dargestellt werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Darstellung der die Adressdatenbankfehler kennzeichnenden Videokodiersequenzen oder Verteilkodes mit den zugehörenden Abbildern in einer den Adressdatenbankeinträgen entsprechenden Reihenfolge erfolgt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass durch Wahl eines oberen Grenzwertes nur eine festgelegte Anzahl von Abbildern für jede Videokodiersequenz oder für jeden Verteilkode eines Adressdatenbankfehlers aufgezeichnet und dargestellt wird.
Verfahren nach Anspruch 1 oder 3,dadurch gekennzeichnet, dass die die Aufzeichnung von Abbildern steuernden Grenzwerte dynamisch im Verlauf einer Messung angepasst werden.