DE19726592C2

DE19726592C2 - Informationserkennungs-Vorrichtung

Info

Publication number: DE19726592C2
Application number: DE19726592A
Authority: DE
Inventors: Hideki Shimomura
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-06-21
Filing date: 1997-06-23
Publication date: 2000-05-31
Anticipated expiration: 2017-06-24
Also published as: JPH1011434A; DE19726592A1; US5995664A

Description

Die Erfindung betrifft eine Informationserkennung-Vorrichtung zur Erkennung einer Reihe von Einzelinformationen wie einer Adresse oder Kundentransaktionsdaten, die aus einer Mehrzahl von Informationselementen besteht, für jedes von denen eine vorbestimmte Anzahl von Worten, von denen jedes ein Informationselement bilden oder mitbilden kann, bestimmt sind, unter Verwendung einer Schriftzeichenerkennungstechnik oder einer Spracherkennungs technik.

Eine Adresse, Kundentransaktionsdaten oder ähnliches besteht aus einer Mehrzahl von Informationselementen. Eine Adresse beispielsweise besteht aus Elementen wie Stadt- oder Landpräfektur, Stadtteilname, Straßenname, Häuserblock (Block, Teilblock und Hausnummer), Gebäudename, Zimmernummer usw., und Kundentransaktionsdaten bestehen aus einer Kundennummer, einem individuellen Namen usw. Darüber hinaus wird bezüglich einer Adresse, Kundentransaktionsdaten und ähnlichem für jedes Element eine vorgegebene Anzahl von Elementworten festgelegt, die solche Elemente bilden können. Die Elementworte beispielsweise, die möglicherweise einen japanischen Stadt- oder Landpräfekturnamen bilden können, belaufen sich auf insgesamt 47 Worte, beispielsweise Tokyo-to, Hokkai-do, Osaka-fu und Akita-ken.

Wenn versucht wird, eine Adresse, Kundentransaktionsdaten oder ähnliches unter Verwendung einer Schriftzeichenerkennungstechnik oder einer Spracherkennungstechnik zu erkennen, und zwar mit irgendeiner beliebigen, derzeit zur Verfügung stehenden Technik, ist es unmöglich, alle Worte richtig und eindeutig zu erkennen. Darüber hinaus werden möglicherweise einige Elementworte bei der Dateneingabe weggelassen. Dementsprechend kann, wenn lediglich Worte, die als Erkennungsergebnis erhalten wurden, ausgegeben werden, möglicherweise ein Erkennungsfehler oder das Fehlen eines Elements auftreten.

Es ist daher gängige Praxis, ein Erkennungsergebnis mit im voraus gespeicherten Daten zu vergleichen, um die Erkennungsgenauigkeit zu erhöhen. Ein solches System ist beispielsweise in der Veröffentlichung der japanischen Patentanmeldung Heisei 1-113865 offenbart, in der für alle Kunden bei einer Kundentransaktion Kundentransaktionsdaten einschließlich einer Kontonummer und eines Kundennamens im voraus in einer Informationsspeichereinheit an vorgegebenen Stellen eines Einzelformulars gespeichert werden, und um Kundentransaktionsdaten zu erkennen, die von diesem Kunden zu einem späteren Zeitpunkt auf ein anderes Einzelformular geschrieben werden, wird die Kontonummer und der Kundenname unter Verwendung einer Handschriften- Schriftzeichenerkennungstechnik erkannt und das Erkennungsergebnis anschließend mit den Kundentransaktionsdaten aller in der Kundeninformations- Speichereinheit gespeicherter Kunden verglichen, um die Wahrscheinlichkeiten sämtlicher Kundentransaktionsdaten zu ermitteln. Anschließend werden die Kundentransaktionsdaten, die zum Erkennungsergebnis bestimmt werden sollen, auf der Basis der Wahrscheinlichkeiten der Kundentransaktionsdaten ermittelt.

Ein weiteres System ist in der Veröffentlichung der japanischen Patentanmeldung Heisei 4-328692 offenbart, in der Elemente, die einander paarweise zugeordnet sind, z. B. der individuelle Name und "kana"-Zeichen, die an die Chinesischen Schriftzeichen des individuellen Namens angehängt werden, in einer Wörterbucheinheit gespeichert, und um den individuellen Namen mit den daran angehängten, an eine vorgegebene Stelle bzw. vorgegebene Stellen (Umrandung oder Umrandungen bzw. bestimmter Bereich) geschriebenen "kana"- Zeichen zu erkennen, wird eine Vielzahl von Kandidaten-Schriftzeichen mit allen in der Wörterbucheinheit gespeicherten Paaren miteinander verglichen, um Wahrscheinlichkeiten für die in der Wörterbucheinheit gespeicherten Paare zu ermitteln. Anschließend werden die Kandidaten-Schriftzeichen in absteigender Wahrscheinlichkeitsreihenfolge in einer Kandidaten-Worttabelle gespeichert.

In den oben beschriebenen Systemen werden Informationen aller tatsächlich existierenden Erkennungsobjekte, von denen jedes durch eine Kombination von Elementworten dargestellt werden kann, im voraus in einer Speichereinheit gespeichert, und wenn Informationen eines Erkennungsobjekts erkannt werden sollen, wird ein Erkennungsergebnis einer Schriftzeichenerkennungstechnik mit all den im voraus in der Speichereinheit gespeicherten Erkennungsobjekt-Informationen verglichen, um die Wahrscheinlichkeiten der Erkennungsobjekt-Informationen zu berechnen. Darüber hinaus setzen die beiden oben beschriebenen Systeme voraus, daß Elemente von Erkennungsobjekt-Informationen in eine vorgegebene Spalte oder eine vorgegebene Umrandung (Bereich) geschrieben werden.

Die oben beschriebenen Systeme weisen die folgenden Probleme auf.

Zunächst können die oben beschriebenen Systeme nicht bei Anwendungen eingesetzt werden, bei denen Arten von Elementworten nicht im voraus durch eine Spalte oder einen Bereich (Frame) gekennzeichnet sind. Wenn beispielsweise versucht wird, einen frei (z. B. von Hand) geschriebenen Schriftzeichenzug wie beispielsweise eine Adresse auf einer Postsache zu erkennen, oder eine Adresse oder ähnliches auf der Basis einer Spracherkennungstechnik zu erkennen, so sind weder die Arten von Elementworten noch die Schriftzeichen-Interpunktion/Trennungen noch die Wort- Interpunktion/Trennungen bei der Adresse o. dgl. geklärt. Wenn versucht wird, diese Systeme bei solchen Anwendungen einzusetzen, ist es daher notwendig, alle Schriftzeichen-Trennungen, Wort-Trennungen und Arten von Elementworten anzunehmen und die Vergleichsverarbeitung aller ihrer möglichen Kombinationen mit sämtlichen in der Speichereinheit gespeicherten Informationen durchzuführen. Dies erfordert einen großen Verarbeitungsaufwand und ist daher nicht effektiv bzw. unpraktisch.

Zweitens wird, da ein Erkennungsergebnis eines Elementwortes direkt mit Elementworten in der Speichereinheit verglichen wird, wobei dasselbe Wort in der Speichereinheit mehrmals erscheint, bei den oben beschriebenen Systemen dieselbe Wahrscheinlichkeitsberechnungs-Verarbeitung dementsprechend mehrere Male durchgeführt. Der Nachteil dieser Systeme besteht daher in ihrer geringen Effizienz.

Drittens weisen mehrere Elemente unterschiedliche Darstellungen auf. Beispielsweise sind hinsichtlich einer Adresse so unterschiedliche Darstellungen wie "" (Tsukuba-shi) und "" (Tsukuba-shi) zur Darstellung eines Ortsnamens mittels Schriftzeichen möglich, und zur Darstellung eines Häuserblocks, z. B. einer Blocknummer, einer Teilblocknummer und einer Hausnummer, werden "kanji"-Ziffern und/oder arabische Ziffern verwendet. Um bei den oben beschriebenen Systemen die Verwendung solcher unterschiedlichen Darstellungsarten zu ermöglichen, ist es notwendig, sämtliche möglichen Darstellungen in der Speichereinheit zu speichern. Hierfür benötigt die Speichereinheit eine große Speicherkapazität, und die Effizienz der Wahrscheinlichkeitsberechnungs-Verarbeitung wird drastisch herabgesetzt.

Aus "Seong-Whan-Lee und Eun-Soon-Kim: Efficient post-processing algorithms for error correction in handwritten Hangul address and human name recognition. In: Pattern Recognition, Band 27, (1994) Heft 12, Seiten 1631-1640" ist es bekannt, handschriftlich geschriebene Adressen auf Poststücken automatisch zu erkennen, wobei die Anschriften im Koreanischen wie im Japanischen eine bestimmte hierarchische Struktur aufweisen. Es werden Kandidaten, die in der Adresse auftreten können, erzeugt, mit deren Hilfe Elementworte erkannt werden. Diese werden nach ihrer Wahrscheinlichkeit in einer Wahrscheinlichkeitstabelle abgelegt.

Aus US-5,050,218 ist eine Vorrichtung zum Erkennen von Adressen auf Poststücken bekannt, bei der zunächst eine Schlüsselworterkennung oder Postleitzahlenerkennung durchgeführt wird, um die Anzahl der Adreßwörterbücher zu begrenzen, die zur endgültigen Adreßerkennung benötigt werden.

Ausgehend vom Stand der Technik liegt eine Aufgabe der Erfindung in der Schaffung einer effizienten Informationserkennungs-Vorrichtung zur Erkennung von Erkennungsobjektinformationen.

Die Aufgabe der Erfindung wird im wesentlichen gelöst durch die Schaffung einer Informationserkennungs-Vorrichtung gemäß Anspruch 1. Die Ansprüche 2 bis 8 definieren bevorzugte Ausführungsbeispiele der Erfindung.

In der Informationserkennungs-Vorrichtung erkennt die Elementwort- Erkennungseinrichtung Worte in Erkennungsobjekt-Informationen und ermittelt für jedes Informationselement in den Erkennungsobjekt-Informationen Elementwort- Kandidaten basierend auf dem Ergebnis der Erkennung, dem gespeicherten Inhalt des Wort-Speicherbereichs und dem gespeicherten Inhalt des Regel- Speicherbereichs und ermittelt anschließend Wahrscheinlichkeiten der Elementwort-Kandidaten. Anschließend frägt die Datensatznummer- Erfassungseinrichtung den Datensatz-Speicherbereich ab, wobei die von der Elementwort-Erkennungseinrichtung ermittelten Elementwort-Kandidaten aufeinanderfolgend bzw. sukzessive als Schlüssel verwendet werden, um für jeden Elementwort-Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, die den Elementwort-Kandidaten aufweist. Danach stellt die Wahrscheinlichkeitsberechnungs-Einrichtung Wahrscheinlichkeitszähler in einer entsprechenden Beziehung zu den individuellen, durch die Datensatznummer- Erfassungseinrichtung erhaltenen Datensatznummern zur Verfügung und addiert die Wahrscheinlichkeiten der von der Elementwort-Erkennungseinrichtung ermittelten Elementwort-Kandidaten zu denjenigen Wahrscheinlichkeitszählern, die den Datensatznummern der Datensätze entsprechen, die die Elementwort- Kandidaten aufweisen. Die Ergebnis-Unterscheidungseinrichtung unterscheidet bzw. bestimmt einen Datensatz, der als Erkennungsergebnis festgelegt werden soll, auf der Basis der Zählwerte der Wahrscheinlichkeitszähler, und die Ergebnis- Extraktioneinrichtung extrahiert einen Datensatz, der als Erkennungsergebnis festgelegt werden soll, auf der Basis eines Ergebnisses der Unterscheidung bzw. der Festlegung der Ergebnis-Unterscheidungseinrichtung aus dem Datensatz- Speicherbereich.

Da bei der Erkennung von Erkennungsobjekt-Informationen die Elementwort-Erkennungseinrichtung für jedes Informationselement in den Erkennungsobjekt-Informationen Elementwort-Kandidaten sowie ihre Wahrscheinlichkeiten auf der Basis eines Ergebnisses der Erkennung des Wortes der Erkennungsobjekt-Informationen, des gespeicherten Inhalts des Wort- Speicherbereichs und des gespeicherten Inhalts des Regel-Speicherbereichs detektiert und anschließend die Wahrscheinlichkeitsberechnungs-Einrichtung Wahrscheinlichkeiten von Datensätzen, die die Elementwort-Kandidaten aufweisen, auf der Basis der Elementwort-Kandidaten und den Wahrscheinlichkeiten der Elementwort-Kandidaten, die von der Elementwort- Erkennungseinrichtung ermittelt wurden, berechnet, können bei der Informationserkennungs-Vorrichtung, die Erkennungsobjekt-Informationen, die in einer Form eingegeben wurden, welche keine Wort-Trennungen oder Element- Kennzeichnungen bzw. -Bestimmungen aufweist, wie oben beschrieben mit hoher Geschwindigkeit und mit einem hohen Grad an Genauigkeit erkannt werden. Kurz gesagt ist der Aufwand der Verarbeitung durch die Elementwort- Erkennungseinrichtung bei der Berechnung von Wahrscheinlichkeiten der Elementwort-Kandidaten viel geringer ist als derjenige der herkömmlichen Verarbeitung, bei der alle im Datensatz-Speicherbereich gespeicherten Datensätze und die Elementwort-Kandidaten direkt miteinander verglichen werden, um Wahrscheinlichkeiten der Datensätze zu erkennen, da die Anzahl von im Wort- Speicherbereich gespeicherten Elementworten viel geringer ist als die Anzahl von im Datensatz-Speicherbereich gespeicherten Datensätzen. Da die Verarbeitung zur Ermittlung von Wahrscheinlichkeiten der Datensätze einschließlich der Elementwort-Kandidaten aus der reinen Addition der Wahrscheinlichkeiten der Elementwort-Kandidaten zu den Wahrscheinlichkeitszählern besteht, ist darüber hinaus der erforderliche Verarbeitungsaufwand viel geringer als derjenige der Systeme gemäß dem Stand der Technik. Demzufolge kann mit der Informationserkennungs-Vorrichtung eine Hochgeschwindigkeits-Verarbeitung erreicht werden.

Da die Informationserkennungs-Vorrichtung zusätzlich die Ergebnis- Unterscheidungseinrichtung zum Unterscheiden eines Datensatzes, der als Erkennungsergebnis festgelegt werden soll, auf der Basis der Zählwerte der Wahrscheinlichkeitszähler sowie die Ergebnis-Extraktionseinrichtung zum Extrahieren eines Datensatzes, der als Erkennungsergebnis festgelegt werden soll, aus dem Datensatz-Speicherbereich auf der Basis eines Ergebnisses der Unterscheidung der Ergebnis-Unterscheidungseinrichtung aufweist, kann darüber hinaus auch dann ein richtiges Erkennungsergebnis erhalten werden, wenn bei den Erkennungsobjekt-Informationen ein Elementwort fehlt.

Vorzugsweise ist die Informationserkennungs-Vorrichtung so aufgebaut, daß sie darüber hinaus einen begrenzten Datensatz-Speicherbereich sowie eine Datensatz-Begrenzungseinrichtung aufweist, um nur dann, wenn die von der Elementwort-Erkennungseinrichtung detektierten Elementwort-Kandidaten einen Elementwort-Kandidaten aufweisen, der eine große Wahrscheinlichkeit aufweist und einem Datensatz-Bestandteil entspricht, in dem ein gleiches Wort nicht häufig in unterschiedlichen Elementwort-Kandidaten vorkommt, den Datensatz- Speicherbereich abfragt, wobei der Elementwort-Kandidat als Schlüssel verwendet wird und Datensätze in den begrenzten Datensatz-Speicherbereich gespeichert werden, die den Elementwort-Kandidaten aufweisen, und sie ist ferner so aufgebaut, daß die Datensatznummer-Erfassungseinrichtung in dem Fall, in dem ein Datensatz oder Datensätze im begrenzten Datensatz-Speicherbereich gespeichert sind, den begrenzten Datensatz-Speicherbereich unter Verwendung der von der Element-Erkennungseinrichtung detektierten Elementwort-Kandidaten abfragt, wobei die von der Elementwort-Erkennungseinrichtung detektierten Elementwort-Kandidaten aufeinanderfolgend als Schlüssel verwendet, um für jeden Elementwort-Kandidaten Datensatznummern für Datensätze zu erhalten, die den Elementwort-Kandidaten aufweisen, die jedoch in dem Fall, in dem kein Datensatz im begrenzten Datensatz-Speicherbereich gespeichert ist, den Datensatz- Speicherbereich abfragt, wobei sie die von der Elementwort- Erkennungseinrichtung detektierten Elementwort-Kandidaten nacheinander als Schlüssel verwendet, um für jeden Elementwort-Kandidaten Datensatznummern von Datensätzen zu erhalten, die den Elementwort-Kandidaten aufweisen, und die Ergebnis-Extraktionseinrichtung extrahiert auf der Basis eines Ergebnisses der Unterscheidung der Ergebnis-Unterscheidungsvorrichtung einen Datensatz, der als Erkennungsergebnis festgelegt werden soll, aus dem Datensatz-Speicherbereich oder dem begrenzten Datensatz-Speicherbereich.

Bei der Informationserkennungs-Vorrichtung frägt die Datensatz- Begrenzungseinrichtung den Datensatz-Speicherbereich nur in dem Fall ab, in dem die von der Elementwort-Erkennungseinrichtung detektierten Elementwort- Kandidaten einen Elementwort-Kandidaten aufweisen, der eine große Wahrscheinlichkeit aufweist und einem Datensatz-Bestandteil entspricht, in dem ein gleiches Wort nicht häufig in unterschiedlichen Elementwort-Kandidaten vorkommt, wobei der Datensatz-Speicherbereich den Elementwort-Kandidaten als Schlüssel verwendet, und sie speichert Datensätze, die den Elementwort- Kandidaten enthalten, in den begrenzten Datensatz-Speicherbereich. Wenn in dem begrenzten Datensatz-Speicherbereich ein Datensatz oder Datensätze gespeichert sind, frägt die Datensatznummer-Erfassungseinrichtung den begrenzten Datensatz-Speicherbereich ab, wobei sie die von der Elementwort- Erkennungseinrichtung detektierten Elementwort-Kandidaten aufeinanderfolgend als Schlüssel verwendet, um für jeden Elementwort-Kandidaten Datensatznummern von Datensätzen zu erhalten, die den Elementwort-Kandidaten aufweisen. Folglich kann die Erkennungsverarbeitung schneller durchgeführt werden.

Vorzugsweise ist die Informationserkennungs-Vorrichtung so aufgebaut, daß sie weiterhin einen Elementvereinheitlichungs-Tabellenbereich, in dem repräsentative Darstellungen und Deformationsdarstellungen der Elementworte in einer entsprechenden Beziehung gespeichert sind, sowie eine Elementwort- Vereinheitlichungseinrichtung umfaßt, um diejenigen von der Elementwort- Erkennungseinrichtung detektierten Elementwort-Kandidaten, die in den repräsentativen Darstellungen dargestellt sind, so auszugeben, wie sie sind, jedoch diejenigen von der Elementwort-Erkennungseinrichtung detektierten Elementwort- Kandidaten, die in den Deformationsdarstellungen dargestellt sind, erst auszugeben, nachdem sie auf der Basis des gespeicherten Inhalts des Elementvereinheitlichungs-Tabellenbereichs in Elementwort-Kandidaten der repräsentativen Darstellungen konvertiert worden sind, und die so aufgebaut ist, daß die Datensatznummer-Erfassungseinrichtung den Datensatz-Speicherbereich abfragt, wobei sie die von der Elementwort-Vereinheitlichungseinrichtung ausgegebenen Elementwort-Kandidaten aufeinanderfolgend als Schlüssel verwendet, um für jeden Elementwort-Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, der den Elementwort-Kandidaten aufweist.

Bei der Informationserkennungs-Vorrichtung gibt die Elementwort- Vereinheitlichungseinrichtung diejenigen von der Elementwort- Erkennungseinrichtung ermittelten Elementworte aus, die in den repräsentativen Darstellungen dargestellt sind, und zwar so, wie sie sind, sie gibt aber diejenigen von der Elementwort-Erkennungseinrichtung detektierten Wortkandidaten, die in den Deformationsdarstellungen dargestellt sind, aus, nachdem sie in Elementwort- Kandidaten der repräsentativen Darstellungen basierend auf den gespeicherten Inhalten des Elementvereinheitlichungs-Tabellenbereichs umgewandelt wurden. Demgemäß kann, selbst wenn verschiedene Darstellungen bei der Erkennungsobjektinformation vorliegen, die Erkennungsobjektinformation mit hoher Geschwindigkeit und mit einem hohen Grad von Genauigkeit ohne eine signifikante Vergrößerung der Speicherkapazität erkannt werden.

Vorzugsweise ist die Informationserkennungs-Vorrichtung so aufgebaut, daß sie ferner einen hochrangigen Kandidatenspeicherbereich aufweist, sowie ein hochrangiges Kandidatenregistrierungs-Durchführungsflag, das für jeden der Wahrscheinlichkeitszähler vorgesehen ist, und so, daß die Wahrscheinlichkeits- Berechnungseinrichtung, wenn eine Wahrscheinlichkeit zu irgendeinem der Wahrscheinlichkeitszähler addiert wird, ein entsprechendes hochrangiges Kandidatenregistrierungs-Durchführungsflag ändert, so daß es einen Wert aufweist, der die vollständige Durchführung der Registrierung repräsentiert, wenn der Wahrscheinlichkeitszähler einen Zählerwert aufweist, der größer als ein im voraus festgelegter Grenzwert ist und das hochrangige Kandidatenregistrierungs- Durchführungsflag die unvollständige Durchführung der Registrierung repräsentiert, und daß sie eine Datensatznummer, die dem Wahrscheinlichkeitszähler entspricht, dessen Zählerwert größer als der Grenzwert ist, in den hochrangigen Kandidatenspeicherbereich speichert, und daß ferner die Ergebnis- Unterscheidungseinrichtung einen als Erkennungsresultat der Erkennungsobjektinformation zu bestimmenden Datensatz unterscheidet bzw. auswählt oder festlegt, und zwar basierend auf den Zählerwerten der Wahrscheinlichkeitszähler, die den Datensatznummern entsprechen, die in dem hochrangigen Kandidatenspeicherbereich abgespeichert sind.

Bei der Informationserkennungs-Vorrichtung ändert die Wahrscheinlichkeits-Berechnungseinrichtung, wenn eine Wahrscheinlichkeit zu einem der Wahrscheinlichkeitszähler addiert wird, ein entsprechendes der hochrangigen Kandidatenregistrierungs-Durchführungsflags, so daß es einen Wert aufweist, der die vollständige Durchführung der Registrierung repräsentiert, wenn der Wahrscheinlichkeitszähler einen Zählerwert aufweist, der größer ist als ein im voraus bestimmter Grenzwert und das hochrangige Kandidatenregistrierungs- Durchführungsflag die unvollständige Durchführung der Registrierung repräsentiert, und speichert eine Datensatznummer, die dem Wahrscheinlichkeitszähler entspricht, in den hochrangigen Kandidatenspeicherbereich. Danach unterscheidet bzw. selektiert die Ergebnis-Unterscheidungseinrichtung einen als Erkennungsresultat der Erkennungsobjektinformation festzulegenden Datensatz basierend auf den Zählerwerten der Wahrscheinlichkeitszähler, die den Datensatznummern entsprechen, die in dem hochrangigen Kandidatenspeicherbereich gespeichert sind. Da die Ergebnis- Unterscheidungseinrichtung ihre Verarbeitung lediglich für die Wahrscheinlichkeiten der Datensätze der Datensatznummern durchführt, die in dem hochrangigen Kandidatenspeicherbereich abgespeichert sind, kann die Verarbeitungsgeschwindigkeit weiter erhöht werden.

Die obigen und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden durch die nachfolgende Beschreibung, die angefügten Ansprüche und die beiligenden Zeichnungen, bei denen gleiche Teile oder Elemente durch gleiche Bezugszeichen bezeichnet sind, klarer werden.

Es zeigen:

Fig. 1 ein Blockdiagramm einer Informationserkennungs-Vorrichtung gemäß einem ersten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;

Fig. 2 ein Flußdiagramm, das ein Beispiel der Verarbeitung einer Elementwort-Erkennungseinheit der Informationserkennungs-Vorrichtung aus Fig. 1 darstellt;

Fig. 3 ein Flußdiagramm, das ein Beispiel der Verarbeitung einer Datensatznummer-Erfassungseinheit der Informationserkennungs-Vorrichtung aus Fig. 1 darstellt;

Fig. 4 ein Flußdiagramm, das ein Beispiel der Verarbeitung einer Wahrscheinlichkeits-Berechnungseinheit der Informationserkennungs-Vorrichtung aus Fig. 1 darstellt;

Fig. 5 ein Flußdiagramm, das ein Beispiel der Verarbeitung einer Ergebnis-Unterscheidungseinheit der Informationserkennungs-Vorrichtung aus Fig. 1 darstellt;

Fig. 6 ein Flußdiagramm, das ein Beispiel einer Ergebnis- Extraktionseinheit der Informationserkennungs-Vorrichtung aus Fig. 1 darstellt;

Fig. 7 eine schematische Darstellung, die ein Beispiel für Erkennungsobjektinformation zeigt;

Fig. 8 eine schematische Darstellung, die ein Beispiel der Ausgabe Elementwort-Erkennungseinheit aus Fig. 1 darstellt;

Fig. 9 eine schematische Darstellung, die ein Beispiel der Inhalte einer Datensatz-Speichereinheit der Informationserkennungs-Vorrichtung aus Fig. 1 darstellt;

Fig. 10 eine schematische Darstellung, die ein Beispiel der Ausgabe der Datensatznummer-Erfassungseinheit aus Fig. 1 darstellt;

Fig. 11 eine schematische Darstellung, die den Aufbau eines Beispiels eines Wahrscheinlichkeitszählers der Informationserkennungs-Vorrichtung aus Fig. 1 darstellt;

Fig. 12 und 13 schematische Darstellungen, die die Verarbeitung der Wahrscheinlichkeits-Berechnungseinheit aus Fig. 1 darstellen;

Fig. 14 ein Blockdiagramm einer anderen Informationserkennungs- Vorrichtung gemäß einem zweiten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;

Fig. 15 ein Flußdiagramm, das ein Beispiel des Betriebs einer Datensatz-Begrenzungseinheit der Informationserkennungs-Vorrichtung aus Fig. 14 darstellt;

Fig. 16 ein Blockdiagramm einer weiteren Informationserkennungs- Vorrichtung gemäß einem dritten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung; und

Fig. 17 eine schematische Darstellung, die ein Beispiel der Inhalte einer Element-Vereinheitlichungstabelleneinheit der Informationserkennungs-Vorrichtung aus Fig. 16 darstellt.

Bezugnehmend auf Fig. 1 wird in dem Blockdiagramm eine Informationserkennungs-Vorrichtung gemäß der vorliegenden Erfindung gezeigt. Die gezeigte Vorrichtung umfaßt eine Elementwort-Erkennungseinheit (Elementwort-Erkennungseinrichtung) 1a, eine Regel-Speichereinheit (Regel-Speicherbereich) 1b, eine Wort-Speichereinheit (Wort-Speicherbereich) 1c, eine Datensatznummer-Erfassungseinheit (Datensatznummer-Erfassungseinrichtung) 1d, eine Datensatz-Speichereinheit Datensatz-Speicherbereich 1e, eine Wahrscheinlichkeits-Berechnungseinheit (Wahrscheinlichkeits-Berechnungseinrichtung) 1f, eine Wahrscheinlichkeits- Speichereinheit 1g, eine Ergebnis-Unterscheidungseinheit (Ergebnis-Unterscheidungseinrichtung) 1h und eine Ergebnis- Extraktionseinheit (Ergebnis-Extraktionseinrichtung) 1i.

Die Elementwort-Erkennungseinheit 1a erkennt jedes von Elementworten, die ein Dokument oder eine Adresse oder ein sonstiges beliebiges Eingabemuster bilden, und gibt eine Vielzahl von Kandidaten zusammen mit Wahrscheinlichkeiten aus. Die Elementwort-Erkennungseinheit 1a wird durch eine Vielzahl von Erkennungselementen gebildet, die Arten von Elementen entsprechen. Wenn Schriftzeichenerkennung für einen frei (mit der Hand) geschriebenen Schriftzeichenzug oder Spracherkennung involviert sind, dann wird auch die Verarbeitung des Ausschneidens eines Elementwortes aus einem Eingabemuster von der Elementwort-Erkennungseinheit 1a durchgeführt. Die Regel-Speichereinheit 1b und die Wort-Speichereinheit 1c speichern Wortinformationen und Regeln, die jeweils für die Erkennungsverarbeitung für jedes Element verwendet werden.

Die Datensatznummer-Erfassungseinheit 1d fragt die Datensatz- Speichereinheit 1b ab, um Datensatznummern zur eindeutigen Identifizierung von Datensätzen zu erhalten, die Elementwort-Kandidaten einschließen, die von der Elementwort-Erkennungseinheit 1a ausgegeben wurden. Die Wahrscheinlichkeits- Berechnungseinheit 1f addiert Wahrscheinlichkeiten von Elementwort-Kandidaten, die durch die Elementwort-Erkennungseinheit 1a detektiert wurden, zu Wahrscheinlichkeitszählern, die Datensatznummern entsprechen, die durch die Datensatznummer-Erfassungseinheit 1d erhalten wurden. Die Wahrscheinlichkeitszähler werden von der Wahrscheinlichkeits-Speichereinheit 1g umfaßt. Die Ergebnis-Unterscheidungseinheit 1h bestimmt basierend auf Werten der Wahrscheinlichkeitszähler in der Wort-Speichereinheit 1g eine Datensatznummer eines zu bestimmenden Datensatzes als Erkennungsresultat aus denjenigen Datensätzen, die vergleichsweise hohe Wahrscheinlichkeit aufweisen. Die Ergebnis-Extraktionseinheit 1e extrahiert einen Datensatz, der einer Datensatznummer eines Erkennungsresultats der Ergebnis-Unterscheidungseinheit 1h entspricht, von der Datensatz-Speichereinheit 1e.

Die Wort-Speichereinheit 1c speichert alle Elementworte, die möglicherweise Elemente der Erkennungsobjektinformation bilden können. Wenn z. B. eine Adresse in einem bestimmten städtischen Distrikt die Erkennungsobjektinformation ist, so sind die Elemente der Erkennungsobjektinformation der städtische Distriktname, der Straßenname, die Blocknummer, die Unterblocknummer, die Hausnummer, der Gebäudename, die Zimmernummer, der Personenname usw., und die Wort-Speichereinheit 1c speichert alle Elementworte, die möglicherweise solche Elemente wie beschrieben bilden können. Es ist festzuhalten, daß, wo eine Vielzahl von Gebäuden denselben Gebäudenamen aufweisen, oder eine Vielzahl von Individuen, die denselben individuellen Namen haben, in dem städtischen Distrikt wohnen, natürlich lediglich einer von Ihnen in der Wort-Speichereinheit 1c abgespeichert ist.

Die Regel-Speichereinheit 1b speichert Regeln, die für die Erkennung von Elementworten in der Erkennungsobjektinformation angewendet werden. Wenn z. B. die Erkennungsobjektinformation eine Adresse ist, so wird z. B. Verbindungsinformation, die eine hierarchische Beziehung von Ortsnamen darstellt oder ähnliches, in der Regel-Speichereinheit 1b abgespeichert, und zwar beispielsweise so, daß der Name von entweder der Stadt oder der Präfektur von einem städtischen Distriktnamen gefolgt wird, welchem wiederum ein Straßenname folgt, eine Regel zur Erzeugung eines (Stadt-)Viertels so, daß eine Blocknummer von einem Trennungszeichen (etwa einem Bindestrich) gefolgt wird, welchem wiederum eine Unterblocknummer folgt. Bei einer deutschen, im Gegensatz zur oben beschriebenen japanischen, Adresse wäre z. B. die Verbindungsinformation, die eine hierarchische Beziehung repräsentiert, so aufgebaut, daß der Postleitzahl der Name einer Stadt folgt, welchem wiederum ein Straßenname folgt, dem eine Hausnummer folgt usw.

Die Elementwort-Erkennungseinheit 1a weist folgende Funktionen auf: Erkennen jedes Worts in Erkennungsobjektinformation, die in sie eingegeben wird, Detektieren von Elementwort-Kandidaten für jedes Element in der Erkennungsobjektinformation basierend auf dem Resultat der jeweiligen bzw. gegenseitigen Erkennung, den gespeicherten Inhalten der Regel-Speichereinheit 1b und den gespeicherten Inhalten der Wort-Speichereinheit 1c, und Ermitteln einer Wahrscheinlichkeit jedes Elementwort-Kandidaten.

Die Datensatz-Speichereinheit 1e speichert tatsächlich existierende Erkennungsobjektinformationen, die durch eine Kombination von Elementworten, die in der Wort-Speichereinheit 1c gespeichert sind, dargestellt werden können, in der Form eines Datensatzes. Der Datensatz wird von Datensatzbestandteilen gebildet, die individuellen Elementen der Erkennungsobjektinformation entsprechen.

Die Datensatznummer-Erfassungseinheit 1d weist folgende Funktionen auf: Abfragen der Datensatz-Speichereinheit 1e unter Verwendung jedes Elementwort-Kandidaten, der durch die Elementwort-Erkennungseinheit 1a detektiert wurde, als ein Schlüssel, um für jeden Elementwort-Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, der den Elementwort- Kandidaten enthält.

Die Wahrscheinlichkeits-Berechnungseinheit 1f weist folgende Funktionen auf: Vorsehen von Wahrscheinlichkeitszählern in der Wahrscheinlichkeits-Speichereinrichtung 1g, die individuellen Datensatznummern entsprechen, die durch die Datensatznummer-Erfassungseinheit erhalten wurden, und Addieren von Wahrscheinlichkeiten von Elementwort-Kandidaten, die durch die Elementwort-Erkennungseinheit 1a detektiert wurden, zu denen der Wahrscheinlichkeitszähler, die den Datensatznummern von Datensätzen entsprechen, die die Elementwort-Kandidaten enthalten.

Die Elementwort-Erkennungseinheit 1a weist folgende Funktionen auf: Unterscheiden bzw. Selektieren einer Datensatznummer eines Datensatzes, der als Erkennungsresultat von Erkennungsobjektinformationen bestimmt werden soll, basierend auf Zählerwerten von individuellen Wahrscheinlichkeitszählern, die in der Wahrscheinlichkeits-Speichereinheit 1g vorgesehen sind.

Die Ergebnis-Extraktionseinheit 1i weist folgende Funktionen auf: Extrahieren eines Datensatzes, der als Erkennungsresultat bestimmt werden soll, von der Datensatz-Speichereinheit 1e basierend auf einer Datensatznummer, die ein Ergebnis der Bestimmung der Ergebnis-Unterscheidungseinheit 1h ist.

Fig. 2, 3, 4, 5 und 6 stellen jeweils die Verarbeitung der Elementwort- Erkennungseinheit 1a, der Datensatznummer-Erfassungseinheit 1d, der Wahrscheinlichkeits-Berechnungseinheit 1f, der Ergebnis-Unterscheidungseinheit 1h und der Ergebnis-Extraktionseinheit 1e dar.

Nachfolgend wird der Betrieb der Vorrichtung anhand eines Beispiels beschrieben, wobei als Erkennungsinformation eine Adresse in

dient.

Es wird nun beispielsweise versucht, solch eine Adresse, die, wie in Fig. 7 gezeigt, auf Papier geschrieben ist, zu erkennen. Es wird somit ein Eingabemuster, das der Adresse (Erkennungsobjektinformation) aus Fig. 7 entspricht, von beispielsweise einer optischen Mustereingabevorrichtung (nicht gezeigt) in die Elementwort-Erkennungseinheit 1a eingegeben.

Bezugnehmend auf Fig. 2 führt, wenn das Eingabemuster als Erkennungsobjektinformation in die Elementwort-Erkennungseinheit 1a eingegeben wird, die Elementwort-Erkennungseinheit 1a zunächst eine Wort- Ausschneideverarbeitung durch und führt dann die Erkennungsverarbeitung für die so ausgeschnittenen Worte durch (Schritte S1 und S2). Bei einer solchen Erkennungsverarbeitung bestimmt die Elementwort-Erkennungseinheit 1a die Wahrscheinlichkeiten von Ergebnissen der Erkennung der Worte.

Daraufhin ermittelt die Elementwort-Erkennungseinheit 1a Elementwort- Kandidaten für jedes der Elemente basierend auf dem Ergebnis der Erkennung für jedes Wort, den gespeicherten Inhalten der Regel-Speichereinheit 1b und den gespeicherten Inhalten der Wort-Speichereinheit 1c, und gibt dann die Elementwort-Kandidaten an die Datensatznummer-Erfassungseinheit 1d (Schritt S3) aus. Dabei berechnet die Elementwort-Erkennungseinheit 1a gleichzeitig Adaptionen bzw. Anpassungen oder Entsprechungen zwischen den ermittelten Elementwort-Kandidaten und den in der Wort-Speichereinheit 1c gespeicherten Elementworten und Adaptionen bzw. Anpassungen oder Entsprechungen zwischen den detektierten Elementwort-Kandidaten und den in der Regel-Speichereinheit 1b gespeicherten Regeln, und berechnet ferner Wahrscheinlichkeiten der Elementwort-Kandidaten basierend auf den bereits berechneten Erkennungsresultaten für Worte. Die Elementwort-Erkennungseinheit 1a gibt auch die so berechneten Adaptionen bzw. Angleichungen und Wahrscheinlichkeiten an die Datensatznummer-Erfassungseinheit 1d aus. Es ist festzuhalten, daß als eine Technik zur Erkennung von Adreßelementen eine praktische Technik verwendet wird, wie sie beispielsweise in "Automatic mail matter address reading and sorting machine for the Ministery of Post and Telecommunications", NEC Engineering Report, Bd. 44, Nr. 3, S. 25-30, oder in ""Automatic mail matter address reading and sorting machine", Toshiba Review, Bd. 45, Nr. 2, S. 149-152, beschrieben ist.

Fig. 8 ist ein Beispiel der Ausgabe der Elementwort-Erkennungseinheit 1a bezüglich der in Fig. 7 gezeigten Adresse. Bezogen auf Fig. 8 erkennt man aus dem gezeigten Beispiel, daß für den Ortsnamen Elementwort-Kandidaten

und

deren Wahrscheinlichkeiten jeweils zehn, acht und vier sind, ausgegeben werden; für die Blocknummer wird ein Elementwort-Kandidat "4", dessen Wahrscheinlichkeit "10" ist, ausgegeben; für die Unterblocknummer werden Elementwort-Kandidaten "7" und "17", deren Wahrscheinlichkeiten "10" und "7" sind, ausgegeben; für die Hausnummer und den Gebäudenamen wird das Symbol "?" ausgegeben, was repräsentiert, daß es keinen Elementwort-Kandidaten gibt, und die Wahrscheinlichkeit "0" wird ausgegeben; für die Zimmernummer werden Elementwort-Kandidaten "207" und "201" ausgegeben, deren Wahrscheinlichkeiten jeweils "10" und "5" sind; und für den individuellen Namen (Personennamen) werden Elementwort-Kandidaten

und

ausgegeben, deren Wahrscheinlichkeiten beide "10" sind. Hier wird für den Gebäudenamen das Symbol "?" ausgegeben, was repräsentiert, daß es keinen Elementwort-Kandidaten gibt, da der Gebäudename weggelassen wurde, als die in Fig. 7 gezeigte Adresse geschrieben wurde. Auch für die Hausnummer wird das Symbol "?" ausgegeben, was repräsentiert, daß kein Elementwort-Kandidat ausgegeben wird, da, obwohl die Hausnummer geschrieben wurde, es unmöglich war, sie zu erkennen. Ferner werden in dem in Fig. 8 gezeigten Beispiel nur Elementwort-Kandidaten für Elemente in denjenigen Ebenen ausgegeben, die dem Distriktnamen entsprechen oder rangniedriger sind. Dies liegt daran, daß das Erkennungsobjekt eine Adresse in

ist.

Wenn die in Fig. 8 dargestellte Information von der Elementwort- Erkennungseinheit 1a ausgegeben wird, dann führt die Datensatznummer- Erfassungseinheit 1d eine Verarbeitung durch, wie sie in dem Flußdiagramm von Fig. 3 dargestellt ist.

Bezugnehmend auf Fig. 3 wählt die Datensatznummer- Erfassungseinheit 1d zunächst eines der Elemente Ortsname, Blocknummer, Unterblocknummer, Hausnummer, Gebäudename, Zimmernummer und Personenname als Verarbeitungsobjekt aus (Schritt S11). Hier wird angenommen, daß der Distriktname als Verarbeitungsobjekt bestimmt wird.

Dann wählt Datensatznummer-Erfassungseinheit 1d eines der Elementwort-Kandidatenworte

und

für den Ortsnamen als ein Verarbeitungsobjekt aus (Schritt S13). Hier wird angenommen, daß z. B. "" (Miyazaki) als Verarbeitungsobjekt ausgewählt wird.

Daraufhin fragt die Datensatznummer-Erfassungseinheit die Datensatz- Speichereinheit 1e ab, wobei der Elementwort-Kandidat "

" (Miyazaki), der als Verarbeitungsobjekt ausgewählt wurde, als Schlüssel verwendet wird, und erhält alle Datensatznummern von Datensätzen, die "

" (Miyazaki) in dem Datensatzbestandteil des Ortsnamens enthalten (Schritt S15). Es wird angenommen, daß als Ergebnis des Aufrufens bzw. Abfragens beispielsweise "2014 bis 3500" als Datensatznummern von Datensätzen erhalten werden, die "

" (Miyazaki) in dem Datensatzbestandteil des Ortsnamens enthalten.

Fig. 9 ist eine schematische Darstellung, die ein Beispiel der Inhalte der Datensatz-Speichereinheit 1e zeigt. Bezugnehmend auf Fig. 9 bestehen die Datensätze, die in der Datensatz-Speichereinheit 1e gespeichert sind, aus den Datensatzbestandteilen "Datensatznummer", "Ortsname", "Blockname", "Unterblockname", "Hausname", "Gebäudename", "Zimmernummer" und "Personenname". Es ist festzuhalten, daß jeder Datensatzbestandteil, der in Fig. 9 leer ist, angibt, daß kein zugehöriges Element existiert.

Daraufhin führt die Datensatznummer-Erfassungseinheit 1d eine Verarbeitung durch, die ähnlich der oben beschriebenen ist, wobei sukzessive die Elementwort-Kandidaten "" (Miyamaedaira) und "" (Arima) für den "Ortsnamen" als Verarbeitungsobjekt bestimmt werden (Schritte S13 bis S15).

Nachdem die Verarbeitung für alle Elementwort-Kandidaten für den "Distriktnamen" vollständig durchgeführt wurde (JA in Schritt S14), bestimmt die Datensatznummer-Erfassungseinheit 1d dann nun eines der verbleibenden Elemente, die noch nicht verarbeitet wurden, als ein Verarbeitungsobjekt (Schritt S11), und führt eine ähnliche Verarbeitung wie die oben beschriebene für das neue Verarbeitungsobjekt durch (Schritt S13 bis S15).

Nachdem die oben beschriebene Verarbeitung für alle zugehörigen Elemente vollständig durchgeführt wurde (JA in Schritt S12), überträgt die Datensatznummer-Erfassungseinheit 1d für jeden der Elementwort-Kandidaten die Wahrscheinlichkeit und die in Schritt S15 erhaltene Datensatznummer paarweise an die Wahrscheinlichkeits-Berechnungseinheit 1f (Schritt S16).

Fig. 10 zeigt ein Beispiel einer Ausgabe der Datensatznummer- Erfassungseinheit 1d. Wie aus Fig. 10 ersichtlich ist, werden von der Datensatznummer-Erfassungseinheit 1d die Paare von Datensatznummern "001-0523" der Datensätze ausgegeben, welche "

" (Arima) für den Datensatzbestandteil des "Ortsnamens" und die Wahrscheinlichkeit "4" enthalten, die Paare von Datensatznummern "2014-3500" der Datensätze ausgegeben, die "

" (Miyazaki) für den Datensatzbestandteil "Ortsname" und die Wahrscheinlichkeit "10" enthalten, usw.

Es ist festzuhalten, daß, um eine Abfrageverarbeitung der Datensatznummer-Erfassungseinheit 1d mit hoher Geschwindigkeit zu gewährleisten, eine Datenstruktur für die Abfrage, wie beispielsweise eine Hash- Tabelle separat vorbereitet werden kann, wie sie z. B. bei herkömmlichen Datenbanken verwendet wird. Oder es kann beispielsweise für alle Elementwort- Kandidaten, die möglicherweise von der Elementwort-Erkennungseinheit 1a ausgegeben werden, eine Datensatznummer-Liste von Datensätzen vorbereitet werden, die die Elemente von ihnen einschließt. Wenn eine Datensatznummer- Liste des vorgenannten Typs vorbereitet wird, so wird, obwohl die Erfassungsverarbeitungszeit für eine Datensatznummer signifikant reduziert wird, ein Speicherbereich zum Speichern einer entsprechenden Beziehung zwischen den Elementworten und den Datensatznummern erforderlich. Demgemäß wird vorzugsweise eine Datensatz-Liste für alle Elementworte vorgesehen, oder eine Datensatz-Liste wird nur für einige Elementworte vorgesehen, wobei die Anzahl von Datensätzen, die in der Datensatz-Speichereinheit 1e gespeichert sind, die Anzahl der Arten von Elementworten und die hardwaremäßige Beschränkungen berücksichtigt werden.

Wenn ein Vielzahl von Datensatznummer-Wahrscheinlichkeitspaaren wie aus Fig. 10 ersichtlich von der Datensatznummer-Erfassungseinheit 1d ausgegeben wird, dann wählt die Wahrscheinlichkeits-Berechnungseinheit 1f, wie aus dem Flußdiagramm von Fig. 4 ersichtlich, eines der Paare, die noch nicht von der Wahrscheinlichkeits-Berechnungseinheit 1f verarbeitet wurden, als ein Verarbeitungsobjekt aus (Schritt S21). Es wird nun beispielsweise angenommen, daß das Paar von Datensatznummern "0001 bis 0523" und die Wahrscheinlichkeit "4" aus den Paaren von Datensatznummern und Wahrscheinlichkeiten, die in Fig. 10 dargestellt sind, als Verarbeitungsobjekt ausgewählt wird.

Dann wählt die Datensatznummer-Erfassungseinheit 1d eine der Datensatznummern "0001 bis 0523", die in dem Verarbeitungsobjektpaar enthalten sind, als ein Verarbeitungsobjekt aus (Schritt S23). Es wird nun beispielsweise angenommen, daß die Datensatznummer "0001" als ein Verarbeitungsobjekt ausgewählt wird.

Daraufhin bestimmt die Datensatznummer-Erfassungseinheit 1d, ob ein Wahrscheinlichkeitszähler, der der Datensatznummer "0001" entspricht, die als Verarbeitungsobjekt ausgewählt wurde, bereits in der Wahrscheinlichkeits- Speichereinheit 1g erzeugt wurde (Schritt S25).

Wenn dann festgestellt wurde, daß ein solcher Wahrscheinlichkeitszähler noch nicht erzeugt wurde (NEIN in Schritt S25), erzeugt die Datensatznummer-Erfassungseinheit 1d einen solchen Wahrscheinlichkeits zähler 11a wie in Fig. 11 dargestellt in der Wahrscheinlichkeits-Speichereinheit 1g (Schritt S26). Der Wahrscheinlichkeitszähler 11a wird von einem Datensatznummerteil 11b und einem Wahrscheinlichkeitsteil 11c gebildet. Der Datensatznummerteil 11b speichert die Datensatznummer "0001", die als momentanes Verarbeitungsobjekt bestimmt wurde, und der Wahrscheinlichkeitsteil 11c speichert einen anfänglichen Wert "0".

Nachdem der Wahrscheinlichkeitszähler 11a, der der Datensatznummer "0001" entspricht, in der Wahrscheinlichkeits-Speichereinheit 1g erzeugt wurde, addiert die Wahrscheinlichkeits-Berechnungseinheit 1f die Wahrscheinlichkeit "4", die in dem momentanen Verarbeitungsobjektpaar enthalten ist, zu dem Wahrscheinlichkeitsteil 11c des Wahrscheinlichkeitszähler 11a (Schritt S27). Es ist festzuhalten, daß, wenn in Schritt S25 bestimmt wurde, daß ein Wahrscheinlichkeitszähler, der der Datensatznummer des momentanen Verarbeitungsobjekts entspricht, bereits erzeugt wurde, die Verarbeitung in Schritt S27 sofort durchgeführt wird, ohne die Verarbeitung in Schritt S26 durchzuführen.

Daraufhin führt die Wahrscheinlichkeits-Berechnungseinheit 1f eine ähnliche Verarbeitung wie die oben beschriebene für diejenigen Datensatznummern durch, die in dem momentanen Verarbeitungsobjektpaar enthalten sind, für welche die Verarbeitung noch nicht durchgeführt wurde (Schritte S22 bis S27).

Nachdem dann die oben beschriebene Verarbeitung für alle Datensatznummern, die in dem momentanen Verarbeitungsobjektpaar enthalten sind, durchgeführt wurde (JA in Schritt S24), wird dann eine ähnliche Verarbeitung wie die oben beschriebene für eines der verbleibenden Paare durchgeführt (Schritte S21 bis S27).

Nachdem die oben beschriebene Verarbeitung für alle der Datensatznummer-Wahrscheinlichkeitspaare, die von der Datensatznummer- Erfassungseinheit 1d übertragen wurden, durchgeführt wurde (JA in Schritt S22), sortiert die Wahrscheinlichkeits-Berechnungseinheit 1f die Wahrscheinlichkeits zähler 11a, die in der Wahrscheinlichkeits-Speichereinheit 1g vorliegen, in absteigender Reihenfolge der Wahrscheinlichkeit, die in dem Wahrscheinlichkeits teil 11c wie in Fig. 12 zu sehen gesetzt ist, und übermittelt dann den Abschluß der Verarbeitung an die Ergebnis-Unterscheidungseinheit 1h (Schritte S28 und S29). Es ist festzuhalten, daß, während auch Inhalte der Addition von Wahrscheinlichkeiten in Fig. 12 dargestellt sind, diese Darstellung zur Erleichterung des Verständnisses dient, und diese nicht tatsächlich in der Wahrscheinlichkeits- Speichereinheit 1g gespeichert sind.

Wenn der Abschluß der Verarbeitung von der Wahrscheinlichkeits- Berechnungseinheit 1f übermittelt wurde, wählt die Ergebnis- Unterscheidungseinheit 1h wie aus dem Flußdiagramm von Fig. 5 ersichtlich einen der Wahrscheinlichkeitszähler 11a, die in der Wahrscheinlichkeits-Speichereinheit 1g vorliegen, aus, bei dem die höchste Wahrscheinlichkeit in dem Wahrscheinlichkeitsteil 11c gespeichert ist (Schritt S31) und gibt die Datensatznummer, die in dem Datensatznummerteil 11b des ausgewählten Wahrscheinlichkeitszählers 11a gespeichert ist, als Datensatznummer eines Datensatzes aus, der als Erkennungsresultat bestimmt wird (Schritt S32). Während bei dem vorliegenden Ausführungsbeispiel eine Datensatznummer wie oben beschrieben ohne Bedingung ausgegeben wird, die dem Wahrscheinlichkeitszähler 11a entspricht, der den höchsten Wahrscheinlichkeitswert in dem Wahrscheinlichkeitsteil 11c aufweist, kann andererseits eine Datensatznummer unter Bedingungen ausgegeben werden. In einem solchen Fall kann der folgende Aufbau verwendet werden. Insbesondere werden erste und zweite Grenzwerte Th1 und Th2 im voraus bestimmt, und nur wenn die Differenz der Wahrscheinlichkeit, die im Datensatznummerteil 11b eines Wahrscheinlichkeitszählers (erster Kandidaten-Wahrscheinlichkeitszähler), in dessen Datensatznummerteil 11b die höchste Wahrscheinlichkeit gesetzt ist und der Wahrscheinlichkeit, die in dem Datensatznummerteil 11b eines anderen Wahrscheinlichkeitszählers (zweiter Kandidaten-Wahrscheinlichkeitszähler), in dessen Datensatznummerteil 11b die zweithöchste Wahrscheinlichkeit gesetzt ist, größer ist als der erste Grenzwert Th1 und die Wahrscheinlichkeit, die in dem Datensatznummerteil 11b des ersten Kandidaten-Wahrscheinlichkeitszählers größer ist als der zweite Grenzwert Th2, wird die Datensatznummer, die in dem Datensatznummerteil 11b des ersten Kandidaten-Wahrscheinlichkeitszählers gesetzt ist, an die Ergebnis- Unterscheidungseinheit 1h ausgegeben, aber in jedem anderen Fall wird ein Erkennungsfehler an die Ergebnis-Unterscheidungseinheit 1h übermittelt. Dieser Aufbau kann die Möglichkeit, daß ein fehlerhaftes Erkennungsresultat ausgegeben wird, reduzieren.

Wenn eine Datensatznummer von der Ergebnis-Unterscheidungseinheit 1h ausgegeben wird, so extrahiert die Ergebnis-Extraktionseinheit 1i wie aus dem Flußdiagramm von Fig. 6 ersichtlich den Datensatz der Datensatznummer von der Datensatz-Speichereinheit 1e und gibt die Inhalte des extrahierten Datensatzes als ein Erkennungsresultat aus (Schritte S41 und S42).

Während bei der Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels der Bereich der Erkennung der Adresse auf den Bereich innerhalb von Kawasaki-shi, Miyamae-ku beschränkt ist, kann der Bereich leicht vergrößert werden. Insbesondere kann eine Verarbeitung auch bezüglich der Namen von Präfekturen und eines städtischen Distrikts, die von der Elementwort- Erkennungseinheit als Adreßelemente erkannt werden, durchgeführt werden, während bei der Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels die Auswahl der Adreßelemente als Objekt in den Ebenen des Distriktnamens und in niedrigeren Ebenen erfolgt, wobei die Datensatznummer-Erfassungseinheit 1e Datensatznummern erfaßt bzw. ermittelt, und die Wahrscheinlichkeits-Berechnungseinheit die Addition von Wahrscheinlich keiten durchführt. Die Verarbeitung muß nicht modifiziert werden, selbst wenn derselbe Straßenname in verschiedenen städtischen Distrikten enthalten ist. Es ist jedoch selbstverständlich erforderlich, daß die Namen von Präfekturen, Distrikten usw. als Objekt der Erkennung der Wort-Speichereinheit 1c und der Datensatz- Speichereinheit 1e hinzugefügt werden.

Während es mit der Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels möglich ist, einen wahrscheinlichsten Datensatz aus einer Vielzahl von Kombinationen von Elementwort-Kandidaten effizient auszuwählen, besteht ein Problem darin, daß, wenn die Anzahl von Datensätzen von Adressen, die ein Objekt bilden, zunimmt, die Belastung durch Wahrscheinlichkeitsvergleichsverarbeitung nach der Additionsverarbeitung zunimmt. Während bei dem in Fig. 12 dargestellten Ausführungsbeispiel die Wahrscheinlichkeitszähler basierend auf den Wahrscheinlichkeiten in ihren Wahrscheinlichkeitsteilen sortiert werden, ist im Maximalfall die erforderliche Anzahl von Wahrscheinlichkeitszählern gleich der Anzahl von Datensätzen der Datensatz-Speichereinheit 1e, und viel Zeit ist erforderlich zum Sortieren der Wahrscheinlichkeitszähler und zum Extrahieren von Kandidaten mit vergleichsweise hohen Wahrscheinlichkeiten. Üblicherweise ist die Anzahl von denjenigen Wahrscheinlichkeitszählern, deren Wahrscheinlichkeitsteil einen Wert größer als ein bestimmter Wert aufweist, klein, und die Werte der Wahrscheinlichkeitsteile von fast allen der Wahrscheinlichkeitszähler sind Null oder geringe Werte. Bei Berücksichtigung dieses Punktes kann die Verarbeitungsgeschwindigkeit erhöht werden, wenn, wie in Fig. 13 zu sehen ist, ein hochrangiger Kandidatenspeicherbereich 13a in der Wahrscheinlichkeits- Speichereinheit 1g vorgesehen ist und ferner hochrangige Kandidaten registrierungs-Durchführungsflags 11d, die den Wahrscheinlichkeitszählern 11a entsprechen, vorgesehen sind.

In diesem Fall vergleicht jedes Mal, wenn die Wahrscheinlichkeits- Berechnungseinheit 1f eine Wahrscheinlichkeit zu dem Wahrscheinlichkeitsteil 11c eines bestimmten Wahrscheinlichkeitszählers 11a addiert, sie den Wert des Wahrscheinlichkeitsteils 11c nach der Addition mit einem Registrierungsgrenzwert Th. Wenn der Wert des Wahrscheinlichkeitsteils 11c größer als der Registrierungsgrenzwert Th ist und das entsprechende hochrangige Kandidatenregistrierungs-Durchführungsflag 11d "0" ist, was repräsentiert, daß der entsprechende Wahrscheinlichkeitszähler 11a nicht in dem hochrangigen Kandidatenspeicherbereich 13a registriert ist, dann registriert die Wahrscheinlichkeits-Berechnungseinheit 1f die Datensatznummer, die in dem Datensatznummerteil 11b des Wahrscheinlichkeitszählers 11a gespeichert ist, in dem hochrangigen Kandidatenspeicherbereich 13a und ändert das entsprechende hochrangige Kandidatenregistrierungs-Durchführungsflag 11d von "0", was angibt, daß der entsprechende Wahrscheinlichkeitszähler 11a nicht registriert ist, in "1", was angibt, daß der entsprechende Wahrscheinlichkeitszähler 11a registriert ist. Der Grund, warum die hochrangigen Kandidatenregistrierungs-Durchführungsflags 11d vorgesehen sind, ist hier, daß beabsichtigt ist, einander überlappende Registrierungen derselben Datensatznummer zu verhindern. Wenn die oben beschriebene Vearbeitung durchgeführt wird, dann werden nur diejenigen Datensatznummern, die den Wahrscheinlichkeitszählern 11a entsprechen, bei denen der Wert des Wahrscheinlichkeitsteils 11c größer ist als der Registrierungsgrenzwert Th, in dem hochrangigen Kandidatenspeicherbereich 13a gespeichert, und infolgedessen wird die Verarbeitung zum Extrahieren hochrangiger Kandidaten wesentlich beschränkt. Während in Fig. 13 das Beispiel dargestellt ist, bei dem der Registrierungsgrenzwert Th "10" ist, kann ein Ausbalancieren oder Ausgleich (trade-off) zwischen Verarbeitungsgeschwindigkeit und Genauigkeit leicht durchgeführt werden, indem das Setzen des Registrierungsgrenzwerts Th entsprechend der Situation geändert wird. Es ist festzuhalten, daß, wenn der Registrierungsgrenzwert größer wird, Bestimmungen von Ergebnissen, bei denen keine Erkennung vorliegt, zunehmen, aber wenn der Registrierungsgrenzwert kleiner wird, die Verarbeitungszeit zunimmt.

Wie oben beschrieben kann mit der Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels ein korrektes Erkennungsresultat einer frei (von Hand) geschriebenen Adresse effizient ausgegeben werden, selbst unter der Bedingung, daß einige Elementworte weggelassen werden, wenn die Adresse geschrieben wird, daß die geschriebene Adresse ein Element enthält, das nicht erkannt werden kann, oder daß einige Elementworte fehlerhaft gelesen werden.

Fig. 14 zeigt ein Blockdiagramm einer anderen Informationserkennungs- Vorrichtung gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung. Die Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels ist eine Modifikation und weist einige gemeinsame Bestandteile mit der Informationserkennungs-Vorrichtung des ersten Ausführungsbeispiels, das unter Bezugnahme auf Fig. 1 beschrieben wurde, auf. Die Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels unterscheidet sich von der des ersten Ausführungsbeispiels darin, daß sie zusätzlich eine Datensatz-Begrenzungseinheit (Datensatz-Begrenzungseinrichtung) 14a und eine begrenzte Datensatz- Speichereinheit (Datensatz-Speicherbereich) 14c aufweist, und sie enthält jeweils eine Datensatznummer- Erfassungseinheit 14b und eine Ergebnis-Extraktionseinheit 14d anstelle der Datensatznummer-Erfassungseinheit 1d und der Ergebnis-Extraktionseinheit 1e.

Die Datensatz-Begrenzungseinheit 14a weist die folgenden Funktionen auf. Insbesondere, wenn Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinheit 1a detektiert wurden, einen Elementwort-Kandidaten enthalten, der einem Datensatzbestandteil entspricht, welcher eine hohe Wahrscheinlichkeit aufweist und ein Wort enthält, das nicht häufig in Elementworten enthalten ist, so speichert die Datensatz-Begrenzungseinheit 14a einen Datensatz, der durch Abfrage bzw. Aufruf der Datensatz-Speichereinheit 1e unter Verwendung des Elementwort-Kandidaten als Schlüssel erhalten wurde, der den Elementwort- Kandidaten enthält, in den begrenzten Datensatz-Speicherbereich 14c und weist die Datensatznummer-Erfassungseinheit 14e an, den begrenzten Datensatz- Speicherbereich 14c als Objekt der Abfrage zu bestimmen. Wenn jedoch ein Elementwort-Kandidat, der die oben beschriebene Bedingung nicht erfüllt, detektiert wird, so weist die Datensatz-Begrenzungseinheit 14a die Datensatznummer-Erfassungseinheit 14b an, die Datensatz-Speichereinheit 1e als Objekt der Abfrage zu bestimmen.

Die Datensatznummer-Erfassungseinheit 14b weist die folgenden Funktionen auf. Insbesondere, wenn die Datensatznummer-Erfassungseinheit 14b angewiesen wird, die Datensatz-Speichereinheit 1e als Objekt der Abfrage zu bestimmen, frägt sie die Datensatz-Speichereinheit 1e unter sukzessiver Verwendung der durch die Elementwort-Erkennungseinheit detektierten Elementwort-Kandidaten als Schlüssel ab, um für jeden der Elementwort- Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, der den Elementwort-Kandidaten enthält. Wenn jedoch die Datensatznummer- Erfassungseinheit 14b angewiesen wird, die begrenzte Datensatz-Speichereinheit 14c als Abfrageobjekt zu bestimmen, frägt sie die begrenzte Datensatz- Speichereinheit 14c unter sukzessiver Verwendung der durch die Elementwort- Erkennungseinheit 1a detektierten Elementwort-Kandidaten als Schlüssel ab, um für jeden der Elementwort-Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, der den Elementwort-Kandidaten enthält.

Die Ergebnis-Extraktionseinheit 14d weist folgende Funktion auf: Extrahieren eines Datensatzes, der als Erkennungsresultat bestimmt werden soll, von der begrenzten Datensatz-Speichereinheit 14c basierend auf einer Datensatznummer als einem Erkennungsresultat der Ergebnis- Unterscheidungseinheit 1h.

Fig. 15 zeigt in einem Flußdiagramm ein Beispiel der Verarbeitung der Datensatz-Begrenzungseinheit 14a. Der Betrieb der Informationserkennungs- Vorrichtung des vorliegenden Ausführungsbeispiels wird nachfolgend unter Bezugnahme auf Fig. 14 und 15 beschrieben.

Elemente, die eine Adresse oder Transaktionsdaten bilden, haben die Fähigkeit, zugehörige Datensätze, die häufig in unterschiedlichen Arten von Elementen unterschiedlich sind, zu beschränken bzw. zu begrenzen. Wenn beispielsweise eine Adresse als Beispiel verwendet wird, so können Datensätze mit dem städtischen Distriktnamen, der Blocknummer, der Zimmernummer oder ähnlichem nicht signifikant eingeschränkt oder begrenzt werden, der Personenname oder der Gebäudename hat jedoch eine große Wirkung bei der Beschränkung oder Eingrenzung von Datensätzen, wenn er korrekt erkannt wird. Demgemäß kann, wenn ein Element mit einer hohen Datensatzbegrenzungsfähigkeit korrekt erkannt wird, dann durch Beschränkung oder Eingrenzung des Bereichs von zu verarbeitenden Datensätzen mit dem erkannten Element und Durchführung der Verarbeitung basierend auf den verbleibenden Worten für den Bereich das Verarbeitungsausmaß wesentlich verringert werden. Die Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels ist unter Berücksichtigung dieses Punktes aufgebaut.

Bezugnehmend auf das Flußdiagramm von Fig. 15 prüft die Datensatz- Begrenzungseinheit 14a, wenn Elementwort-Kandidaten von der Elementwort- Erkennungseinheit 1a ausgegeben werden, ob die Elementwort-Kandidaten einen Elementwort-Kandidaten mit hoher Wahrscheinlichkeit und hoher Datensatzbegrenzungsfähigkeit enthalten oder nicht (Schritt S51).

Wenn ein Elementwort-Kandidat, der die oben beschriebenen Bedingungen erfüllt, nicht detektiert wird (NEIN in Schritt S51), dann weist die Datensatz-Begrenzungseinheit 14a die Datensatznummer-Erfassungseinheit 14b an, die Datensatz-Speichereinheit 1e als Objekt der Abfrage zu bestimmen (Schritt S55). Die Datensatznummer-Erfassungseinheit 14b führt, wenn sie angewiesen wird, die Datensatz-Speichereinheit 1e als Objekt der Abfrage zu bestimmen, eine Verarbeitung ähnlich der der Datensatznummer-Erfassungseinheit 1d aus Fig. 1 durch.

Wenn andererseits ein Elementwort-Kandidat, der die oben beschriebenen Bedingungen erfüllt, detektiert wird (JA in Schritt S52), so extrahiert die Datensatz-Begrenzungseinheit 14a alle Datensätze, die die oben beschriebenen hochrangigen Elementwort-Kandidaten enthalten, von der Datensatz-Speichereinheit 1e und speichert die extrahierten Datensätze in dem begrenzten Datensatz-Speicherbereich 14c (Schritt S53). Daraufhin weist die Datensatz-Begrenzungseinheit 14a die Datensatznummer-Erfassungseinheit 14b an, die begrenzte Datensatz-Speichereinheit 14c als Objekt der Abfrage zu bestimmen bzw. festzulegen (Schritt S54). Infolgedessen frägt die Datensatznummer-Erfassungseinheit 14b die begrenzte Datensatz-Speichereinheit 14c unter sukzessiver Verwendung der durch die Elementwort-Erkennungseinheit 1a detektierten Elementwort-Kandidaten als Schlüssel ab und erhält Datensatznummern von Datensätzen, die die Elementwort-Kandidaten enthalten.

Die Wahrscheinlichkeits-Berechnungseinheit 1f und die Ergebnis- Unterscheidungseinheit 1h führen eine Verarbeitung ähnlich der vorher beschriebenen durch, und die Datensatznummer-Erfassungseinheit 1d extrahiert einen Datensatz, der einer Datensatznummer entspricht, die von der Ergebnis- Unterscheidungseinheit 1h ausgegeben wurde, von der begrenzten Datensatz- Speichereinheit 14c und gibt den extrahierten Datensatz als Erkennungsresultat aus. Es ist festzuhalten, daß, obwohl Datensätze, die Datensatznummern entsprechen, die von der Ergebnis-Unterscheidungseinheit 1h ausgegeben werden, alternativ von der Datensatz-Speichereinheit 1e extrahiert werden können, die Verarbeitung mit einer größeren Geschwindigkeit durchgeführt werden kann, wenn Datensätze von der begrenzten Datensatz-Speichereinheit 14c extrahiert werden, da die begrenzte Datensatz-Speichereinheit 14c eine kleinere Anzahl von gespeicherten Datensätzen als die Datensatz-Speichereinheit 1e enthält.

Da bei der Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels Datensätze, die als Verarbeitungsobjekt dienen, abhängig von einem bestimmten Elementwort beschränkt sind, besteht übrigens das Problem, daß die Genauigkeit bei der Erkennung eines Elementworts, das für die Beschränkung bzw. Eingrenzung verwendet wird, einen wesentlichen Einfluß auf die Genauigkeit der Erkennung der gesamten Vorrichtung ausübt. Um dieses Problem zu lösen, kann eine Gegenmaßnahme ergriffen werden, die darin besteht, daß der erste und der zweite Grenzwert Th1 und Th2 der Ergebnis- Unterscheidungseinheit 1h so hoch gesetzt werden, daß, wenn die Wahrscheinlichkeit nicht ausreichend groß ist, oder die Differenz zwischen den Wahrscheinlichkeiten in dem ersten Kandidaten-Wahrscheinlichkeitszähler und der Wahrscheinlichkeit in dem zweiten Kandidaten-Wahrscheinlichkeitszähler nicht ausreichend groß ist, die Bestimmung der Zurückweisung durchgeführt wird. Um die Balance zwischen der Durchschnittsgeschwindigkeit und der Genauigkeit des gesamten Systems aufrechtzuerhalten, kann darüber hinaus, falls aufgrund einer solch strengen Festlegung die Zurückweisung auftritt, eine solche Gegenmaßnahme ergriffen werden, daß dann die Durchführung der Verarbeitung unter Verwendung der Datensatz-Speichereinheit 1e auf eine ähnliche Weise wie in der Informationserkennungs-Vorrichtung des ersten Ausführungsbeispiels durchgeführt wird, ohne daß die begrenzte Datensatz-Speichereinheit 14c verwendet wird.

Fig. 16 zeigt in einem Blockdiagramm eine Informationserkennungs- Vorrichtung gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung. Die Vorrichtung des vorliegenden Ausführungsbeispiels ist ebenfalls eine Modifikation und weist einige gemeinsame Komponenten mit der des ersten Ausführungsbeispiels, das unter Bezugnahme auf Fig. 1 beschrieben wurde, auf. Die Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels unterscheidet sich jedoch von der des ersten Ausführungsbeispiels darin, daß sie zusätzlich eine Elementwort-Vereinheitlichungseinheit (Elementwort-Vereinheitlichungseinrichtung) 16a und eine Elementvereinheitlichungs-Tabelleneinheit (Elementvereinheitlichungstabellenbereich) 16b aufweist.

Die Elementvereinheitlichungs-Tabelleneinheit 16b speichert repräsentative Darstellungen und Deformationsdarstellungen von Elementworten in einer einander entsprechenden Beziehung.

Die Elementwort-Vereinheitlichungseinheit 16a weist folgende Funktionen auf: Festlegen bzw. Unterscheiden für jeden von der Elementwort- Erkennungseinheit 1a detektierten Elementwort-Kandidaten, ob er eine repräsentative Darstellung oder eine Deformationsdarstellung ist, basierend auf den Inhalten der Element-Vereinheitlichungstabelleneinheit 16b, und, falls der Elementwort-Kandidat eine repräsentative Darstellung ist, Ausgeben des Elementwort-Kandidaten so, wie er ist, aber, falls der Elementwort-Kandidat eine Deformationsdarstellung wie etwa eine unterschiedliche Schreibweise ist, Ausgeben des Elementwort-Kandidaten, nachdem er in einen Elementwort- Kandidaten einer repräsentativen Darstellung umgewandelt wurde.

Bei einer Adresse oder ähnlichem weisen Elementworte mit der gleichen Bedeutung manchmal unterschiedliche Darstellungen auf. Z. B. wird "" (Hinode-cho oder Hinode-machi) manchmal dargestellt als "" (Hinode-cho oder Hinode-machi), oder "" (Hinode-cho oder Hinode-machi) oder ähnliches. Ferner werden eine Adresse und ein Personenname manchmal in "katakana" geschrieben. Ferner kann, wenn ein Block (Häuserblock) in einem Schriftzug dargestellt ist, eine Ziffer in arabischen Ziffern oder in Ziffern chinesischer Schriftzeichen (kanji) dargestellt werden. Die Elementwort- Vereinheitlichungseinrichtung 16a vereinheitlicht eine Vielzahl solcher Darstellungen in eine repräsentative Darstellung, die von der Datensatz- Speichereinheit 1e verwendet wird. Infolgedessen besteht keine Notwendigkeit, einen Datensatz, der eine unterschiedliche Schreibweise enthält, in der Datensatz- Speichereinheit 1e abzuspeichern, und dies erlaubt das Einsparen von Speicherkapazität und Verarbeitungszeit. Es ist festzuhalten, daß die restliche Verarbeitung der Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels die gleiche ist wie die der Informationserkennungs- Vorrichtung des ersten Ausführungsbeispiels.

Fig. 17 zeigt ein Beispiel von Inhalten der Element- Vereinheitlichungstabelleneinheit 16b. Wenn die Element- Vereinheitlichungstabelleneinheit 16b die Inhalte wie in Fig. 10 zu sehen aufweist, so wird, ganz gleich, welches der Elemente

oder

oder;

von der Elementwort-Erkennungseinheit 1a ausgegeben wird, es in

vereinheitlicht. Infolgedessen ist es lediglich notwendig, diejenigen Datensätze, die

verwenden, in der Datensatz-Speichereinheit 1e abzuspeichern. Darüber hinaus muß die Elementwort-Vereinheitlichungseinheit 16a nicht notwendigerweise Schriftzeichenzüge eines Elementwortes, das die in der Wort-Speichereinheit 1c gespeichert ist, in ein einziges vereinheitlichen, sondern sie kann alternativ dazu diese in einen bestimmten Identifikationscode vereinheitlichen. In diesem Fall ist es jedoch erforderlich, nicht das Elementwort, sondern den Identifikationscode in der Datensatz-Speichereinheit abzuspeichern. Wenn ein Identifikationscode nicht als Schriftzeichenzug sondern als numerischer Datenwert in der Datensatz- Speichereinheit 1e abgespeichert ist, dann kann die Speichergröße der Datensatz- Speichereinheit 1e weiter reduziert werden.

Wenn versucht wird, Schriftzeichenzüge eines Ortsnamens zu vereinheitlichen, so wird vorzugsweise ein System verwendet, das die Element- Vereinheitlichungstabelleneinheit 16b wie oben beschrieben verwendet. Für einen Ziffernzug zur Darstellung eines Blocks (Häuserblocks) ist es jedoch praktischer, eine Konversionseinheit vorzusehen, um eine Ziffer aus chinesischen Schriftzeichen (kanji) in eine arabische Ziffer zu konvertieren, oder um eine arabische Ziffer in eine kanji-Ziffer in der Elementwort-Vereinheitlichungseinheit 16a zu konvertieren, als das System, das die Element- Vereinheitlichungstabelleneinheit 16b verwendet.

Aufgrund der oben beschriebenen Verarbeitung kann die Erkennungsobjektinformation effizient und mit einem hohen Grad von Erkennungsgenauigkeit erkannt werden, selbst wenn ein Elementwort in einer Darstellung auftritt, die sich von einer repräsentativen Darstellung unterscheidet.

Es ist festzuhalten, daß, während bei den oben beschriebenen Ausführungsbeispielen jedes Wort eines Eingabemusters unter Verwendung einer Schriftzeichenerkennungstechnik erkannt wurde, es möglich ist, wenn das Eingabemuster ein Sprachmuster ist, jedes Wort in dem Eingabemuster unter Verwendung einer Spracherkennungstechnik zu erkennen.

Die Erfindung wurde anhand verschiedener Ausführungsbeispiele im Detail beschrieben. Für den Fachmann ist es ersichtlich, daß Modifikationen und Veränderungen im Rahmen der hier beschriebenen Erfindung vorgenommen werden können. Zwar wurde die Erfindung bezugnehmend auf Adreßdarstellungen mittels chinesischer Schriftzeichen beschrieben, sie läßt sich jedoch auch auf in lateinischen Buchstaben geschriebene Adressen oder gesprochene Eingabemuster anwenden. Die im voraus bestimmten möglichen Elementworte wären dann beispielsweise "Straße", "Weg", "Berg", "Platz", verschiedene Ortsteile wie "Schwabing", "Haidhausen", Städtenamen etc. Unterschiedliche Darstellungen (repräsentative oder Deformationsdarstellungen) ergeben sich z. B. aus der Verwendung von Groß- und Kleinbuchstaben. Eine entsprechende Anwendung der Erfindung ist für den Fachmann leicht durchführbar.

Claims

1. Informationserkennungs-Vorrichtung zur Erkennung von Erkennungsobjektinformation in der Form einer Serie von Informationselementen zusammengesetzt ist, für jedes von denen eine vorbestimmte Anzahl von Elementworten, von denen jedes das Informationselement bilden kann, festgelegt sind, wobei die Vorrichtung umfaßt:
einen Wort-Speicherbereich (1c), in dem alle Elementworte, die die Informationselemente bilden können, gespeichert werden;
einen Regel-Speicherbereich (1b), in dem Regeln gespeichert werden, die eine hierarchische Beziehung der Informationselemente repräsentieren;
eine Elementwort-Erkennungseinrichtung (1a) zur Erkennung von Worten in der Erkennungsobjektinformation, zur Ermittlung von Elementwort- Kandidaten für jedes der Informationselemente in der Erkennungsobjektinformation basierend auf einem Ergebnis der Erkennung, den gespeicherten Inhalten des Wort-Speicherbereichs (1c) und den gespeicherten Inhalten des Regel- Speicherbereichs (1b), und zur Ermittlung von Wahrscheinlichkeiten der Elementwort-Kandidaten;
einen Datensatz-Speicherbereich (1e), in dem tatsächlich existierende Erkennungsobjektinformationen, die als Kombinationen von Elementworten dargestellt werden können, in der Form von Datensätzen gespeichert sind, von denen jeder Datensatzbestandteile umfaßt, die von den Informationselementen der Erkennungsobjektinformation geliefert werden oder diesen entsprechen;
eine Datensatznummer-Erfassungseinrichtung (1d) zum Aufrufen bzw. Abfragen des Datensatz-Speicherbereichs (1e) unter Verwendung der Elementwort-Kandidaten, die durch die Elementwort-Erkennungseinrichtung (1a) ermittelt wurden, sukzessive als Schlüssel, um für jeden der Elementwort- Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, der den Elementwort-Kandidaten umfaßt;
eine Wahrscheinlichkeits-Berechnungseinrichtung (1f) zum Liefern von Wahrscheinlichkeitszählern, die den individuellen Datensatznummern entsprechen, die durch die Datensatznummer-Erfassungseinrichtung (1d) erhalten wurden, und zum Addieren der Wahrscheinlichkeiten der Elementwort-Kandidaten, die durch die Elementwort-Erkennungseinrichtung (1a) ermittelt wurden, zu denen der Wahrscheinlichkeitszähler, die den Datensatznummern der Datensätze entsprechen, welche die Elementwort-Kandidaten enthalten;
eine Ergebnis-Unterscheidungseinrichtung (1h) zum Unterscheiden bzw. Festlegen eines Datensatzes, der als Erkennungsresultat bestimmt wird, basierend auf den Zählerwerten der Wahrscheinlichkeitszähler; und
eine Ergebnis-Extraktionseinrichtung (1i) zum Extrahieren eines Datensatzes, der als Erkennungsresultat bestimmt wird, von dem Datensatz- Speicherbereich (1e) basierend auf einem Ergebnis der Festlegung der Ergebnis- Unterscheidungseinrichtung (1h).

2. Informationserkennungs-Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß sie ferner aufweist:
einen begrenzten Datensatz-Speicherbereich (14c);
eine Datensatz-Begrenzungseinrichtung (14a) zum Aufrufen bzw. Abfragen des Datensatz-Speicherbereichs (1e) nur dann, wenn die durch die Elementwort-Erkennungseinrichtung (1a) ermittelten Elementwort-Kandidaten einen Elementwort-Kandidaten enthalten, welcher eine hohe Wahrscheinlichkeit aufweist und einem Datensatzbestandteil entspricht, in dem ein identisches Wort nicht häufig in unterschiedlichen Elementwort-Kandidaten enthalten ist, unter Verwendung des Elementwort-Kandidaten als ein Schlüssel, und zum Speichern von Datensätzen, welche den Elementwort-Kandidaten enthalten, in den begrenzten Datensatz-Speicherbereich (14c), wobei
die Datensatznummer-Erfassungseinrichtung (1d), wenn ein Datensatz oder Datensätze in dem begrenzten Datensatz-Speicherbereich (14c) gespeichert sind, den begrenzten Datensatz-Speicherbereich (14c) unter Verwendung der durch die Elementwort-Erkennungseinrichtung (1a) ermittelten Elementwort- Kandidaten als Schlüssel sukzessive abfragt, um für jeden der Elementwort- Kandidaten Datensatznummern von Datensätzen zu erhalten, die den Elementwort- Kandidaten enthalten, jedoch, wenn kein Datensatz in dem begrenzten Datensatz- Speicherbereich (14c) gespeichert ist, der Datensatz-Speicherbereich (1e) unter Verwendung der Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinrichtung (1a) ermittelt wurden, als ein Schlüssel sukzessive abgefragt wird, um für jeden der Elementwort-Kandidaten Datensatznummern von Datensätzen zu erhalten, welche den Elementwort-Kandidaten enthalten, und daß
die Ergebnis-Extraktionseinrichtung (1i) einen Datensatz, der als Erkennungsresultat bestimmt wird, von dem Datensatz-Speicherbereich (1e) oder dem begrenzten Datensatz-Speicherbereich (14c) extrahiert, basierend auf einem Ergebnis der Unterscheidung bzw. Festlegung der Ergebnis- Unterscheidungseinrichtung (1h).

3. Informationserkennungs-Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß sie ferner aufweist:
einen Element-Vereinheitlichungstabellenbereich (16b), in dem repräsentative Darstellungen und Deformationsdarstellungen der Elementworte in einer einander entsprechenden Beziehung gespeichert sind, und
eine Elementwort-Vereinheitlichungseinrichtung (16a) zum Ausgeben derjenigen Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinrichtung (1a) ermittelt wurden, welche in den repräsentativen Darstellungen dargestellt wurden, so wie sie sind, jedoch
zum Ausgeben der Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinrichtung (1a) ermittelt wurden, und die in den Deformationsdar stellungen dargestellt sind, nachdem sie in Elementwort-Kandidaten der repräsentativen Darstellungen umgewandelt wurden, basierend auf den gespeicherten Inhalten des Element-Vereinheitlichungstabellenbereichs (16b), und daß
die Datensatznummer-Erfassungseinrichtung (1d) den Datensatz- Speicherbereich (1e) unter Verwendung der von der Elementwort- Vereinheitlichungseinrichtung (16a) ausgegebenen Elementwort-Kandidaten als Schlüssel sukzessive abfragt, um für jeden der Elementwort-Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, welcher den Elementwort- Kandidaten enthält.

4. Informationserkennungs-Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß sie ferner aufweist:
einen hochrangigen Kandidatenspeicherbereich (13a) sowie ein hochrangiges Kandidatenregistrierungs-Durchführungsflag (11d), welches für jeden der Wahrscheinlichkeitszähler vorgesehen ist, und daß
die Wahrscheinlichkeits-Berechnungseinrichtung (1f), wenn eine Wahrscheinlichkeit zu einem der Wahrscheinlichkeitszähler addiert wird, ein entsprechendes der hochrangigen Kandidatenregistrierungs-Durchführungsflags (11d) ändert, so daß es einen Wert aufweist, welcher die vollständige Durchführung der Registrierung repräsentiert, wenn der Wahrscheinlichkeitszähler einen Zählerwert aufweist, der größer als ein im voraus bestimmter Grenzwert ist und das hochrangige Kandidatenregistrierungs-Durchführungsflag (11d) andernfalls die unvollständige Durchführung der Registrierung anzeigt, und daß sie ferner im Falle der vollständigen Durchführung der Registrierung eine Datensatznummer in dem hochrangigen Kandidatenspeicherbereich (13a) speichert, die dem Wahrscheinlichkeitszähler entspricht, dessen Wert höher ist als der Grenzwert, und daß
die Ergebnis-Unterscheidungseinrichtung (1h) einen als ein Erkennungsresultat der Erkennungsobjektinformation festzulegenden Datensatz festlegt basierend auf den Zählerwerten der Wahrscheinlichkeitszähler, die den Datensatznummern entsprechen, welche in den hochrangigen Kandidatenspeicherbereich (13a) abgespeichert sind.

5. Informationserkennungs-Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Elementwort-Erkennungseinrichtung (1a) jedes Wort in der Erkennungsobjektinformation durch Schriftzeichenerkennung erkennt.

6. Informationserkennungs-Vorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Elementwort-Erkennungseinrichtung (1a) jedes Wort in der Erkennungsobjektinformation durch Spracherkennung erkennt.

7. Informationserkennungs-Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß
die Elementworte, welche Elemente der in dem Wortspeicherbereich (1c) abgespeicherten Erkennungsobjektinformationen bilden können, eine Postleitzahl (ZIP-Code), einen Ortsnamen, einen (Häuser-)Block, einen Namen einer Organisation, einen Gebäudenamen und einen Personennamen umfassen, und daß
die in dem Datensatz-Speicherbereich (1e) abgespeicherte Erkennungsobjektinformation aus tatsächlich existierenden Adressen besteht, von denen jede durch eine Kombination von Elementworten dargestellt werden kann.

8. Informationserkennungs-Vorrichtung nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Elementworte, welche Elemente der Erkennungsobjektinformation bilden können und in der Wort-Speichereinrichtung (1c) abgespeichert sind, einen Kundennamen und einen individuellen Namen umfassen, und daß die Erkennungsobjektinformation, die in der Datensatz-Speichereinrichtung (1e) abgespeichert ist, aus tatsächlich existierenden Kundentransaktionsdaten besteht, von denen jede als eine Kombination von Elementworten dargestellt werden kann.