DE19726592C2 - Informationserkennungs-Vorrichtung - Google Patents
Informationserkennungs-VorrichtungInfo
- Publication number
- DE19726592C2 DE19726592C2 DE19726592A DE19726592A DE19726592C2 DE 19726592 C2 DE19726592 C2 DE 19726592C2 DE 19726592 A DE19726592 A DE 19726592A DE 19726592 A DE19726592 A DE 19726592A DE 19726592 C2 DE19726592 C2 DE 19726592C2
- Authority
- DE
- Germany
- Prior art keywords
- data record
- recognition
- element word
- word
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Description
Die Erfindung betrifft eine Informationserkennung-Vorrichtung zur
Erkennung einer Reihe von Einzelinformationen wie einer Adresse oder
Kundentransaktionsdaten, die aus einer Mehrzahl von Informationselementen
besteht, für jedes von denen eine vorbestimmte Anzahl von Worten, von denen
jedes ein Informationselement bilden oder mitbilden kann, bestimmt sind, unter
Verwendung einer Schriftzeichenerkennungstechnik oder einer Spracherkennungs
technik.
Eine Adresse, Kundentransaktionsdaten oder ähnliches besteht aus
einer Mehrzahl von Informationselementen. Eine Adresse beispielsweise besteht
aus Elementen wie Stadt- oder Landpräfektur, Stadtteilname, Straßenname,
Häuserblock (Block, Teilblock und Hausnummer), Gebäudename, Zimmernummer
usw., und Kundentransaktionsdaten bestehen aus einer Kundennummer, einem
individuellen Namen usw. Darüber hinaus wird bezüglich einer Adresse,
Kundentransaktionsdaten und ähnlichem für jedes Element eine vorgegebene
Anzahl von Elementworten festgelegt, die solche Elemente bilden können. Die
Elementworte beispielsweise, die möglicherweise einen japanischen Stadt- oder
Landpräfekturnamen bilden können, belaufen sich auf insgesamt 47 Worte,
beispielsweise Tokyo-to, Hokkai-do, Osaka-fu und Akita-ken.
Wenn versucht wird, eine Adresse, Kundentransaktionsdaten oder
ähnliches unter Verwendung einer Schriftzeichenerkennungstechnik oder einer
Spracherkennungstechnik zu erkennen, und zwar mit irgendeiner beliebigen,
derzeit zur Verfügung stehenden Technik, ist es unmöglich, alle Worte richtig und
eindeutig zu erkennen. Darüber hinaus werden möglicherweise einige
Elementworte bei der Dateneingabe weggelassen. Dementsprechend kann, wenn
lediglich Worte, die als Erkennungsergebnis erhalten wurden, ausgegeben werden,
möglicherweise ein Erkennungsfehler oder das Fehlen eines Elements auftreten.
Es ist daher gängige Praxis, ein Erkennungsergebnis mit im voraus
gespeicherten Daten zu vergleichen, um die Erkennungsgenauigkeit zu erhöhen.
Ein solches System ist beispielsweise in der Veröffentlichung der japanischen
Patentanmeldung Heisei 1-113865 offenbart, in der für alle Kunden bei einer
Kundentransaktion Kundentransaktionsdaten einschließlich einer Kontonummer
und eines Kundennamens im voraus in einer Informationsspeichereinheit an
vorgegebenen Stellen eines Einzelformulars gespeichert werden, und um
Kundentransaktionsdaten zu erkennen, die von diesem Kunden zu einem späteren
Zeitpunkt auf ein anderes Einzelformular geschrieben werden, wird die
Kontonummer und der Kundenname unter Verwendung einer Handschriften-
Schriftzeichenerkennungstechnik erkannt und das Erkennungsergebnis
anschließend mit den Kundentransaktionsdaten aller in der Kundeninformations-
Speichereinheit gespeicherter Kunden verglichen, um die Wahrscheinlichkeiten
sämtlicher Kundentransaktionsdaten zu ermitteln. Anschließend werden die
Kundentransaktionsdaten, die zum Erkennungsergebnis bestimmt werden sollen,
auf der Basis der Wahrscheinlichkeiten der Kundentransaktionsdaten ermittelt.
Ein weiteres System ist in der Veröffentlichung der japanischen
Patentanmeldung Heisei 4-328692 offenbart, in der Elemente, die einander
paarweise zugeordnet sind, z. B. der individuelle Name und "kana"-Zeichen, die an
die Chinesischen Schriftzeichen des individuellen Namens angehängt werden, in
einer Wörterbucheinheit gespeichert, und um den individuellen Namen mit den
daran angehängten, an eine vorgegebene Stelle bzw. vorgegebene Stellen
(Umrandung oder Umrandungen bzw. bestimmter Bereich) geschriebenen "kana"-
Zeichen zu erkennen, wird eine Vielzahl von Kandidaten-Schriftzeichen mit allen in
der Wörterbucheinheit gespeicherten Paaren miteinander verglichen, um
Wahrscheinlichkeiten für die in der Wörterbucheinheit gespeicherten Paare zu
ermitteln. Anschließend werden die Kandidaten-Schriftzeichen in absteigender
Wahrscheinlichkeitsreihenfolge in einer Kandidaten-Worttabelle gespeichert.
In den oben beschriebenen Systemen werden Informationen aller
tatsächlich existierenden Erkennungsobjekte, von denen jedes durch eine
Kombination von Elementworten dargestellt werden kann, im voraus in einer
Speichereinheit gespeichert, und wenn Informationen eines Erkennungsobjekts
erkannt werden sollen, wird ein Erkennungsergebnis einer
Schriftzeichenerkennungstechnik mit all den im voraus in der Speichereinheit
gespeicherten Erkennungsobjekt-Informationen verglichen, um die
Wahrscheinlichkeiten der Erkennungsobjekt-Informationen zu berechnen. Darüber
hinaus setzen die beiden oben beschriebenen Systeme voraus, daß Elemente von
Erkennungsobjekt-Informationen in eine vorgegebene Spalte oder eine
vorgegebene Umrandung (Bereich) geschrieben werden.
Die oben beschriebenen Systeme weisen die folgenden Probleme auf.
Zunächst können die oben beschriebenen Systeme nicht bei
Anwendungen eingesetzt werden, bei denen Arten von Elementworten nicht im
voraus durch eine Spalte oder einen Bereich (Frame) gekennzeichnet sind. Wenn
beispielsweise versucht wird, einen frei (z. B. von Hand) geschriebenen
Schriftzeichenzug wie beispielsweise eine Adresse auf einer Postsache zu
erkennen, oder eine Adresse oder ähnliches auf der Basis einer
Spracherkennungstechnik zu erkennen, so sind weder die Arten von
Elementworten noch die Schriftzeichen-Interpunktion/Trennungen noch die Wort-
Interpunktion/Trennungen bei der Adresse o. dgl. geklärt. Wenn versucht wird,
diese Systeme bei solchen Anwendungen einzusetzen, ist es daher notwendig, alle
Schriftzeichen-Trennungen, Wort-Trennungen und Arten von Elementworten
anzunehmen und die Vergleichsverarbeitung aller ihrer möglichen Kombinationen
mit sämtlichen in der Speichereinheit gespeicherten Informationen durchzuführen.
Dies erfordert einen großen Verarbeitungsaufwand und ist daher nicht effektiv bzw.
unpraktisch.
Zweitens wird, da ein Erkennungsergebnis eines Elementwortes direkt
mit Elementworten in der Speichereinheit verglichen wird, wobei dasselbe Wort in
der Speichereinheit mehrmals erscheint, bei den oben beschriebenen Systemen
dieselbe Wahrscheinlichkeitsberechnungs-Verarbeitung dementsprechend mehrere
Male durchgeführt. Der Nachteil dieser Systeme besteht daher in ihrer geringen
Effizienz.
Drittens weisen mehrere Elemente unterschiedliche Darstellungen auf.
Beispielsweise sind hinsichtlich einer Adresse so unterschiedliche Darstellungen
wie "" (Tsukuba-shi) und "" (Tsukuba-shi) zur
Darstellung eines Ortsnamens mittels Schriftzeichen möglich, und zur Darstellung
eines Häuserblocks, z. B. einer Blocknummer, einer Teilblocknummer und einer
Hausnummer, werden "kanji"-Ziffern und/oder arabische Ziffern verwendet. Um bei
den oben beschriebenen Systemen die Verwendung solcher unterschiedlichen
Darstellungsarten zu ermöglichen, ist es notwendig, sämtliche möglichen
Darstellungen in der Speichereinheit zu speichern. Hierfür benötigt die
Speichereinheit eine große Speicherkapazität, und die Effizienz der
Wahrscheinlichkeitsberechnungs-Verarbeitung wird drastisch herabgesetzt.
Aus "Seong-Whan-Lee und Eun-Soon-Kim: Efficient post-processing
algorithms for error correction in handwritten Hangul address and human name
recognition. In: Pattern Recognition, Band 27, (1994) Heft 12, Seiten 1631-1640" ist
es bekannt, handschriftlich geschriebene Adressen auf Poststücken automatisch zu
erkennen, wobei die Anschriften im Koreanischen wie im Japanischen eine
bestimmte hierarchische Struktur aufweisen. Es werden Kandidaten, die in der
Adresse auftreten können, erzeugt, mit deren Hilfe Elementworte erkannt werden.
Diese werden nach ihrer Wahrscheinlichkeit in einer Wahrscheinlichkeitstabelle
abgelegt.
Aus US-5,050,218 ist eine Vorrichtung zum Erkennen von Adressen auf
Poststücken bekannt, bei der zunächst eine Schlüsselworterkennung oder
Postleitzahlenerkennung durchgeführt wird, um die Anzahl der Adreßwörterbücher
zu begrenzen, die zur endgültigen Adreßerkennung benötigt werden.
Ausgehend vom Stand der Technik liegt eine Aufgabe der Erfindung in
der Schaffung einer effizienten Informationserkennungs-Vorrichtung zur Erkennung
von Erkennungsobjektinformationen.
Die Aufgabe der Erfindung wird im wesentlichen gelöst durch die
Schaffung einer Informationserkennungs-Vorrichtung gemäß Anspruch 1. Die
Ansprüche 2 bis 8 definieren bevorzugte Ausführungsbeispiele der Erfindung.
In der Informationserkennungs-Vorrichtung erkennt die Elementwort-
Erkennungseinrichtung Worte in Erkennungsobjekt-Informationen und ermittelt für
jedes Informationselement in den Erkennungsobjekt-Informationen Elementwort-
Kandidaten basierend auf dem Ergebnis der Erkennung, dem gespeicherten Inhalt
des Wort-Speicherbereichs und dem gespeicherten Inhalt des Regel-
Speicherbereichs und ermittelt anschließend Wahrscheinlichkeiten der
Elementwort-Kandidaten. Anschließend frägt die Datensatznummer-
Erfassungseinrichtung den Datensatz-Speicherbereich ab, wobei die von der
Elementwort-Erkennungseinrichtung ermittelten Elementwort-Kandidaten
aufeinanderfolgend bzw. sukzessive als Schlüssel verwendet werden, um für jeden
Elementwort-Kandidaten eine Datensatznummer eines Datensatzes zu erhalten,
die den Elementwort-Kandidaten aufweist. Danach stellt die
Wahrscheinlichkeitsberechnungs-Einrichtung Wahrscheinlichkeitszähler in einer
entsprechenden Beziehung zu den individuellen, durch die Datensatznummer-
Erfassungseinrichtung erhaltenen Datensatznummern zur Verfügung und addiert
die Wahrscheinlichkeiten der von der Elementwort-Erkennungseinrichtung
ermittelten Elementwort-Kandidaten zu denjenigen Wahrscheinlichkeitszählern, die
den Datensatznummern der Datensätze entsprechen, die die Elementwort-
Kandidaten aufweisen. Die Ergebnis-Unterscheidungseinrichtung unterscheidet
bzw. bestimmt einen Datensatz, der als Erkennungsergebnis festgelegt werden
soll, auf der Basis der Zählwerte der Wahrscheinlichkeitszähler, und die Ergebnis-
Extraktioneinrichtung extrahiert einen Datensatz, der als Erkennungsergebnis
festgelegt werden soll, auf der Basis eines Ergebnisses der Unterscheidung bzw.
der Festlegung der Ergebnis-Unterscheidungseinrichtung aus dem Datensatz-
Speicherbereich.
Da bei der Erkennung von Erkennungsobjekt-Informationen die
Elementwort-Erkennungseinrichtung für jedes Informationselement in den
Erkennungsobjekt-Informationen Elementwort-Kandidaten sowie ihre
Wahrscheinlichkeiten auf der Basis eines Ergebnisses der Erkennung des Wortes
der Erkennungsobjekt-Informationen, des gespeicherten Inhalts des Wort-
Speicherbereichs und des gespeicherten Inhalts des Regel-Speicherbereichs
detektiert und anschließend die Wahrscheinlichkeitsberechnungs-Einrichtung
Wahrscheinlichkeiten von Datensätzen, die die Elementwort-Kandidaten
aufweisen, auf der Basis der Elementwort-Kandidaten und den
Wahrscheinlichkeiten der Elementwort-Kandidaten, die von der Elementwort-
Erkennungseinrichtung ermittelt wurden, berechnet, können bei der
Informationserkennungs-Vorrichtung, die Erkennungsobjekt-Informationen, die in
einer Form eingegeben wurden, welche keine Wort-Trennungen oder Element-
Kennzeichnungen bzw. -Bestimmungen aufweist, wie oben beschrieben mit hoher
Geschwindigkeit und mit einem hohen Grad an Genauigkeit erkannt werden. Kurz
gesagt ist der Aufwand der Verarbeitung durch die Elementwort-
Erkennungseinrichtung bei der Berechnung von Wahrscheinlichkeiten der
Elementwort-Kandidaten viel geringer ist als derjenige der herkömmlichen
Verarbeitung, bei der alle im Datensatz-Speicherbereich gespeicherten Datensätze
und die Elementwort-Kandidaten direkt miteinander verglichen werden, um
Wahrscheinlichkeiten der Datensätze zu erkennen, da die Anzahl von im Wort-
Speicherbereich gespeicherten Elementworten viel geringer ist als die Anzahl von
im Datensatz-Speicherbereich gespeicherten Datensätzen. Da die Verarbeitung
zur Ermittlung von Wahrscheinlichkeiten der Datensätze einschließlich der
Elementwort-Kandidaten aus der reinen Addition der Wahrscheinlichkeiten der
Elementwort-Kandidaten zu den Wahrscheinlichkeitszählern besteht, ist darüber
hinaus der erforderliche Verarbeitungsaufwand viel geringer als derjenige der
Systeme gemäß dem Stand der Technik. Demzufolge kann mit der
Informationserkennungs-Vorrichtung eine Hochgeschwindigkeits-Verarbeitung
erreicht werden.
Da die Informationserkennungs-Vorrichtung zusätzlich die Ergebnis-
Unterscheidungseinrichtung zum Unterscheiden eines Datensatzes, der als
Erkennungsergebnis festgelegt werden soll, auf der Basis der Zählwerte der
Wahrscheinlichkeitszähler sowie die Ergebnis-Extraktionseinrichtung zum
Extrahieren eines Datensatzes, der als Erkennungsergebnis festgelegt werden soll,
aus dem Datensatz-Speicherbereich auf der Basis eines Ergebnisses der
Unterscheidung der Ergebnis-Unterscheidungseinrichtung aufweist, kann darüber
hinaus auch dann ein richtiges Erkennungsergebnis erhalten werden, wenn bei den
Erkennungsobjekt-Informationen ein Elementwort fehlt.
Vorzugsweise ist die Informationserkennungs-Vorrichtung so aufgebaut,
daß sie darüber hinaus einen begrenzten Datensatz-Speicherbereich sowie eine
Datensatz-Begrenzungseinrichtung aufweist, um nur dann, wenn die von der
Elementwort-Erkennungseinrichtung detektierten Elementwort-Kandidaten einen
Elementwort-Kandidaten aufweisen, der eine große Wahrscheinlichkeit aufweist
und einem Datensatz-Bestandteil entspricht, in dem ein gleiches Wort nicht häufig
in unterschiedlichen Elementwort-Kandidaten vorkommt, den Datensatz-
Speicherbereich abfragt, wobei der Elementwort-Kandidat als Schlüssel verwendet
wird und Datensätze in den begrenzten Datensatz-Speicherbereich gespeichert
werden, die den Elementwort-Kandidaten aufweisen, und sie ist ferner so
aufgebaut, daß die Datensatznummer-Erfassungseinrichtung in dem Fall, in dem
ein Datensatz oder Datensätze im begrenzten Datensatz-Speicherbereich
gespeichert sind, den begrenzten Datensatz-Speicherbereich unter Verwendung
der von der Element-Erkennungseinrichtung detektierten Elementwort-Kandidaten
abfragt, wobei die von der Elementwort-Erkennungseinrichtung detektierten
Elementwort-Kandidaten aufeinanderfolgend als Schlüssel verwendet, um für jeden
Elementwort-Kandidaten Datensatznummern für Datensätze zu erhalten, die den
Elementwort-Kandidaten aufweisen, die jedoch in dem Fall, in dem kein Datensatz
im begrenzten Datensatz-Speicherbereich gespeichert ist, den Datensatz-
Speicherbereich abfragt, wobei sie die von der Elementwort-
Erkennungseinrichtung detektierten Elementwort-Kandidaten nacheinander als
Schlüssel verwendet, um für jeden Elementwort-Kandidaten Datensatznummern
von Datensätzen zu erhalten, die den Elementwort-Kandidaten aufweisen, und die
Ergebnis-Extraktionseinrichtung extrahiert auf der Basis eines Ergebnisses der
Unterscheidung der Ergebnis-Unterscheidungsvorrichtung einen Datensatz, der als
Erkennungsergebnis festgelegt werden soll, aus dem Datensatz-Speicherbereich
oder dem begrenzten Datensatz-Speicherbereich.
Bei der Informationserkennungs-Vorrichtung frägt die Datensatz-
Begrenzungseinrichtung den Datensatz-Speicherbereich nur in dem Fall ab, in dem
die von der Elementwort-Erkennungseinrichtung detektierten Elementwort-
Kandidaten einen Elementwort-Kandidaten aufweisen, der eine große
Wahrscheinlichkeit aufweist und einem Datensatz-Bestandteil entspricht, in dem
ein gleiches Wort nicht häufig in unterschiedlichen Elementwort-Kandidaten
vorkommt, wobei der Datensatz-Speicherbereich den Elementwort-Kandidaten als
Schlüssel verwendet, und sie speichert Datensätze, die den Elementwort-
Kandidaten enthalten, in den begrenzten Datensatz-Speicherbereich. Wenn in dem
begrenzten Datensatz-Speicherbereich ein Datensatz oder Datensätze gespeichert
sind, frägt die Datensatznummer-Erfassungseinrichtung den begrenzten
Datensatz-Speicherbereich ab, wobei sie die von der Elementwort-
Erkennungseinrichtung detektierten Elementwort-Kandidaten aufeinanderfolgend
als Schlüssel verwendet, um für jeden Elementwort-Kandidaten
Datensatznummern von Datensätzen zu erhalten, die den Elementwort-Kandidaten
aufweisen. Folglich kann die Erkennungsverarbeitung schneller durchgeführt
werden.
Vorzugsweise ist die Informationserkennungs-Vorrichtung so aufgebaut,
daß sie weiterhin einen Elementvereinheitlichungs-Tabellenbereich, in dem
repräsentative Darstellungen und Deformationsdarstellungen der Elementworte in
einer entsprechenden Beziehung gespeichert sind, sowie eine Elementwort-
Vereinheitlichungseinrichtung umfaßt, um diejenigen von der Elementwort-
Erkennungseinrichtung detektierten Elementwort-Kandidaten, die in den
repräsentativen Darstellungen dargestellt sind, so auszugeben, wie sie sind, jedoch
diejenigen von der Elementwort-Erkennungseinrichtung detektierten Elementwort-
Kandidaten, die in den Deformationsdarstellungen dargestellt sind, erst
auszugeben, nachdem sie auf der Basis des gespeicherten Inhalts des
Elementvereinheitlichungs-Tabellenbereichs in Elementwort-Kandidaten der
repräsentativen Darstellungen konvertiert worden sind, und die so aufgebaut ist,
daß die Datensatznummer-Erfassungseinrichtung den Datensatz-Speicherbereich
abfragt, wobei sie die von der Elementwort-Vereinheitlichungseinrichtung
ausgegebenen Elementwort-Kandidaten aufeinanderfolgend als Schlüssel
verwendet, um für jeden Elementwort-Kandidaten eine Datensatznummer eines
Datensatzes zu erhalten, der den Elementwort-Kandidaten aufweist.
Bei der Informationserkennungs-Vorrichtung gibt die Elementwort-
Vereinheitlichungseinrichtung diejenigen von der Elementwort-
Erkennungseinrichtung ermittelten Elementworte aus, die in den repräsentativen
Darstellungen dargestellt sind, und zwar so, wie sie sind, sie gibt aber diejenigen
von der Elementwort-Erkennungseinrichtung detektierten Wortkandidaten, die in
den Deformationsdarstellungen dargestellt sind, aus, nachdem sie in Elementwort-
Kandidaten der repräsentativen Darstellungen basierend auf den gespeicherten
Inhalten des Elementvereinheitlichungs-Tabellenbereichs umgewandelt wurden.
Demgemäß kann, selbst wenn verschiedene Darstellungen bei der
Erkennungsobjektinformation vorliegen, die Erkennungsobjektinformation mit hoher
Geschwindigkeit und mit einem hohen Grad von Genauigkeit ohne eine signifikante
Vergrößerung der Speicherkapazität erkannt werden.
Vorzugsweise ist die Informationserkennungs-Vorrichtung so aufgebaut,
daß sie ferner einen hochrangigen Kandidatenspeicherbereich aufweist, sowie ein
hochrangiges Kandidatenregistrierungs-Durchführungsflag, das für jeden der
Wahrscheinlichkeitszähler vorgesehen ist, und so, daß die Wahrscheinlichkeits-
Berechnungseinrichtung, wenn eine Wahrscheinlichkeit zu irgendeinem der
Wahrscheinlichkeitszähler addiert wird, ein entsprechendes hochrangiges
Kandidatenregistrierungs-Durchführungsflag ändert, so daß es einen Wert
aufweist, der die vollständige Durchführung der Registrierung repräsentiert, wenn
der Wahrscheinlichkeitszähler einen Zählerwert aufweist, der größer als ein im
voraus festgelegter Grenzwert ist und das hochrangige Kandidatenregistrierungs-
Durchführungsflag die unvollständige Durchführung der Registrierung repräsentiert,
und daß sie eine Datensatznummer, die dem Wahrscheinlichkeitszähler entspricht,
dessen Zählerwert größer als der Grenzwert ist, in den hochrangigen
Kandidatenspeicherbereich speichert, und daß ferner die Ergebnis-
Unterscheidungseinrichtung einen als Erkennungsresultat der
Erkennungsobjektinformation zu bestimmenden Datensatz unterscheidet bzw.
auswählt oder festlegt, und zwar basierend auf den Zählerwerten der
Wahrscheinlichkeitszähler, die den Datensatznummern entsprechen, die in dem
hochrangigen Kandidatenspeicherbereich abgespeichert sind.
Bei der Informationserkennungs-Vorrichtung ändert die
Wahrscheinlichkeits-Berechnungseinrichtung, wenn eine Wahrscheinlichkeit zu
einem der Wahrscheinlichkeitszähler addiert wird, ein entsprechendes der
hochrangigen Kandidatenregistrierungs-Durchführungsflags, so daß es einen Wert
aufweist, der die vollständige Durchführung der Registrierung repräsentiert, wenn
der Wahrscheinlichkeitszähler einen Zählerwert aufweist, der größer ist als ein im
voraus bestimmter Grenzwert und das hochrangige Kandidatenregistrierungs-
Durchführungsflag die unvollständige Durchführung der Registrierung repräsentiert,
und speichert eine Datensatznummer, die dem Wahrscheinlichkeitszähler
entspricht, in den hochrangigen Kandidatenspeicherbereich. Danach unterscheidet
bzw. selektiert die Ergebnis-Unterscheidungseinrichtung einen als
Erkennungsresultat der Erkennungsobjektinformation festzulegenden Datensatz
basierend auf den Zählerwerten der Wahrscheinlichkeitszähler, die den
Datensatznummern entsprechen, die in dem hochrangigen
Kandidatenspeicherbereich gespeichert sind. Da die Ergebnis-
Unterscheidungseinrichtung ihre Verarbeitung lediglich für die
Wahrscheinlichkeiten der Datensätze der Datensatznummern durchführt, die in
dem hochrangigen Kandidatenspeicherbereich abgespeichert sind, kann die
Verarbeitungsgeschwindigkeit weiter erhöht werden.
Die obigen und andere Aufgaben, Merkmale und Vorteile der
vorliegenden Erfindung werden durch die nachfolgende Beschreibung, die
angefügten Ansprüche und die beiligenden Zeichnungen, bei denen gleiche Teile
oder Elemente durch gleiche Bezugszeichen bezeichnet sind, klarer werden.
Es zeigen:
Fig. 1 ein Blockdiagramm einer Informationserkennungs-Vorrichtung
gemäß einem ersten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 2 ein Flußdiagramm, das ein Beispiel der Verarbeitung einer
Elementwort-Erkennungseinheit der Informationserkennungs-Vorrichtung aus Fig.
1 darstellt;
Fig. 3 ein Flußdiagramm, das ein Beispiel der Verarbeitung einer
Datensatznummer-Erfassungseinheit der Informationserkennungs-Vorrichtung aus
Fig. 1 darstellt;
Fig. 4 ein Flußdiagramm, das ein Beispiel der Verarbeitung einer
Wahrscheinlichkeits-Berechnungseinheit der Informationserkennungs-Vorrichtung
aus Fig. 1 darstellt;
Fig. 5 ein Flußdiagramm, das ein Beispiel der Verarbeitung einer
Ergebnis-Unterscheidungseinheit der Informationserkennungs-Vorrichtung aus Fig.
1 darstellt;
Fig. 6 ein Flußdiagramm, das ein Beispiel einer Ergebnis-
Extraktionseinheit der Informationserkennungs-Vorrichtung aus Fig. 1 darstellt;
Fig. 7 eine schematische Darstellung, die ein Beispiel für
Erkennungsobjektinformation zeigt;
Fig. 8 eine schematische Darstellung, die ein Beispiel der Ausgabe
Elementwort-Erkennungseinheit aus Fig. 1 darstellt;
Fig. 9 eine schematische Darstellung, die ein Beispiel der Inhalte einer
Datensatz-Speichereinheit der Informationserkennungs-Vorrichtung aus Fig. 1
darstellt;
Fig. 10 eine schematische Darstellung, die ein Beispiel der Ausgabe
der Datensatznummer-Erfassungseinheit aus Fig. 1 darstellt;
Fig. 11 eine schematische Darstellung, die den Aufbau eines Beispiels
eines Wahrscheinlichkeitszählers der Informationserkennungs-Vorrichtung aus Fig.
1 darstellt;
Fig. 12 und 13 schematische Darstellungen, die die Verarbeitung der
Wahrscheinlichkeits-Berechnungseinheit aus Fig. 1 darstellen;
Fig. 14 ein Blockdiagramm einer anderen Informationserkennungs-
Vorrichtung gemäß einem zweiten bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung;
Fig. 15 ein Flußdiagramm, das ein Beispiel des Betriebs einer
Datensatz-Begrenzungseinheit der Informationserkennungs-Vorrichtung aus Fig.
14 darstellt;
Fig. 16 ein Blockdiagramm einer weiteren Informationserkennungs-
Vorrichtung gemäß einem dritten bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung; und
Fig. 17 eine schematische Darstellung, die ein Beispiel der Inhalte einer
Element-Vereinheitlichungstabelleneinheit der Informationserkennungs-Vorrichtung
aus Fig. 16 darstellt.
Bezugnehmend auf Fig. 1 wird in dem Blockdiagramm eine
Informationserkennungs-Vorrichtung gemäß der vorliegenden Erfindung gezeigt.
Die gezeigte Vorrichtung umfaßt eine Elementwort-Erkennungseinheit (Elementwort-Erkennungseinrichtung) 1a, eine
Regel-Speichereinheit (Regel-Speicherbereich) 1b, eine Wort-Speichereinheit (Wort-Speicherbereich) 1c, eine
Datensatznummer-Erfassungseinheit (Datensatznummer-Erfassungseinrichtung) 1d, eine Datensatz-Speichereinheit Datensatz-Speicherbereich 1e, eine
Wahrscheinlichkeits-Berechnungseinheit (Wahrscheinlichkeits-Berechnungseinrichtung) 1f, eine Wahrscheinlichkeits-
Speichereinheit 1g, eine Ergebnis-Unterscheidungseinheit (Ergebnis-Unterscheidungseinrichtung) 1h und eine Ergebnis-
Extraktionseinheit (Ergebnis-Extraktionseinrichtung) 1i.
Die Elementwort-Erkennungseinheit 1a erkennt jedes von
Elementworten, die ein Dokument oder eine Adresse oder ein sonstiges beliebiges
Eingabemuster bilden, und gibt eine Vielzahl von Kandidaten zusammen mit
Wahrscheinlichkeiten aus. Die Elementwort-Erkennungseinheit 1a wird durch eine
Vielzahl von Erkennungselementen gebildet, die Arten von Elementen
entsprechen. Wenn Schriftzeichenerkennung für einen frei (mit der Hand)
geschriebenen Schriftzeichenzug oder Spracherkennung involviert sind, dann wird
auch die Verarbeitung des Ausschneidens eines Elementwortes aus einem
Eingabemuster von der Elementwort-Erkennungseinheit 1a durchgeführt. Die
Regel-Speichereinheit 1b und die Wort-Speichereinheit 1c speichern
Wortinformationen und Regeln, die jeweils für die Erkennungsverarbeitung für
jedes Element verwendet werden.
Die Datensatznummer-Erfassungseinheit 1d fragt die Datensatz-
Speichereinheit 1b ab, um Datensatznummern zur eindeutigen Identifizierung von
Datensätzen zu erhalten, die Elementwort-Kandidaten einschließen, die von der
Elementwort-Erkennungseinheit 1a ausgegeben wurden. Die Wahrscheinlichkeits-
Berechnungseinheit 1f addiert Wahrscheinlichkeiten von Elementwort-Kandidaten,
die durch die Elementwort-Erkennungseinheit 1a detektiert wurden, zu
Wahrscheinlichkeitszählern, die Datensatznummern entsprechen, die durch die
Datensatznummer-Erfassungseinheit 1d erhalten wurden. Die
Wahrscheinlichkeitszähler werden von der Wahrscheinlichkeits-Speichereinheit 1g
umfaßt. Die Ergebnis-Unterscheidungseinheit 1h bestimmt basierend auf Werten
der Wahrscheinlichkeitszähler in der Wort-Speichereinheit 1g eine
Datensatznummer eines zu bestimmenden Datensatzes als Erkennungsresultat
aus denjenigen Datensätzen, die vergleichsweise hohe Wahrscheinlichkeit
aufweisen. Die Ergebnis-Extraktionseinheit 1e extrahiert einen Datensatz, der einer
Datensatznummer eines Erkennungsresultats der Ergebnis-Unterscheidungseinheit
1h entspricht, von der Datensatz-Speichereinheit 1e.
Die Wort-Speichereinheit 1c speichert alle Elementworte, die
möglicherweise Elemente der Erkennungsobjektinformation bilden können. Wenn
z. B. eine Adresse in einem bestimmten städtischen Distrikt die
Erkennungsobjektinformation ist, so sind die Elemente der
Erkennungsobjektinformation der städtische Distriktname, der Straßenname, die
Blocknummer, die Unterblocknummer, die Hausnummer, der Gebäudename, die
Zimmernummer, der Personenname usw., und die Wort-Speichereinheit 1c
speichert alle Elementworte, die möglicherweise solche Elemente wie beschrieben
bilden können. Es ist festzuhalten, daß, wo eine Vielzahl von Gebäuden denselben
Gebäudenamen aufweisen, oder eine Vielzahl von Individuen, die denselben
individuellen Namen haben, in dem städtischen Distrikt wohnen, natürlich lediglich
einer von Ihnen in der Wort-Speichereinheit 1c abgespeichert ist.
Die Regel-Speichereinheit 1b speichert Regeln, die für die Erkennung
von Elementworten in der Erkennungsobjektinformation angewendet werden.
Wenn z. B. die Erkennungsobjektinformation eine Adresse ist, so wird z. B.
Verbindungsinformation, die eine hierarchische Beziehung von Ortsnamen darstellt
oder ähnliches, in der Regel-Speichereinheit 1b abgespeichert, und zwar
beispielsweise so, daß der Name von entweder der Stadt oder der Präfektur von
einem städtischen Distriktnamen gefolgt wird, welchem wiederum ein Straßenname
folgt, eine Regel zur Erzeugung eines (Stadt-)Viertels so, daß eine Blocknummer
von einem Trennungszeichen (etwa einem Bindestrich) gefolgt wird, welchem
wiederum eine Unterblocknummer folgt. Bei einer deutschen, im Gegensatz zur
oben beschriebenen japanischen, Adresse wäre z. B. die Verbindungsinformation,
die eine hierarchische Beziehung repräsentiert, so aufgebaut, daß der Postleitzahl
der Name einer Stadt folgt, welchem wiederum ein Straßenname folgt, dem eine
Hausnummer folgt usw.
Die Elementwort-Erkennungseinheit 1a weist folgende Funktionen auf:
Erkennen jedes Worts in Erkennungsobjektinformation, die in sie eingegeben wird,
Detektieren von Elementwort-Kandidaten für jedes Element in der
Erkennungsobjektinformation basierend auf dem Resultat der jeweiligen bzw.
gegenseitigen Erkennung, den gespeicherten Inhalten der Regel-Speichereinheit
1b und den gespeicherten Inhalten der Wort-Speichereinheit 1c, und Ermitteln
einer Wahrscheinlichkeit jedes Elementwort-Kandidaten.
Die Datensatz-Speichereinheit 1e speichert tatsächlich existierende
Erkennungsobjektinformationen, die durch eine Kombination von Elementworten,
die in der Wort-Speichereinheit 1c gespeichert sind, dargestellt werden können, in
der Form eines Datensatzes. Der Datensatz wird von Datensatzbestandteilen
gebildet, die individuellen Elementen der Erkennungsobjektinformation
entsprechen.
Die Datensatznummer-Erfassungseinheit 1d weist folgende Funktionen
auf: Abfragen der Datensatz-Speichereinheit 1e unter Verwendung jedes
Elementwort-Kandidaten, der durch die Elementwort-Erkennungseinheit 1a
detektiert wurde, als ein Schlüssel, um für jeden Elementwort-Kandidaten eine
Datensatznummer eines Datensatzes zu erhalten, der den Elementwort-
Kandidaten enthält.
Die Wahrscheinlichkeits-Berechnungseinheit 1f weist folgende
Funktionen auf: Vorsehen von Wahrscheinlichkeitszählern in der
Wahrscheinlichkeits-Speichereinrichtung 1g, die individuellen Datensatznummern
entsprechen, die durch die Datensatznummer-Erfassungseinheit erhalten wurden,
und Addieren von Wahrscheinlichkeiten von Elementwort-Kandidaten, die durch
die Elementwort-Erkennungseinheit 1a detektiert wurden, zu denen der
Wahrscheinlichkeitszähler, die den Datensatznummern von Datensätzen
entsprechen, die die Elementwort-Kandidaten enthalten.
Die Elementwort-Erkennungseinheit 1a weist folgende Funktionen auf:
Unterscheiden bzw. Selektieren einer Datensatznummer eines Datensatzes, der
als Erkennungsresultat von Erkennungsobjektinformationen bestimmt werden soll,
basierend auf Zählerwerten von individuellen Wahrscheinlichkeitszählern, die in der
Wahrscheinlichkeits-Speichereinheit 1g vorgesehen sind.
Die Ergebnis-Extraktionseinheit 1i weist folgende Funktionen auf:
Extrahieren eines Datensatzes, der als Erkennungsresultat bestimmt werden soll,
von der Datensatz-Speichereinheit 1e basierend auf einer Datensatznummer, die
ein Ergebnis der Bestimmung der Ergebnis-Unterscheidungseinheit 1h ist.
Fig. 2, 3, 4, 5 und 6 stellen jeweils die Verarbeitung der Elementwort-
Erkennungseinheit 1a, der Datensatznummer-Erfassungseinheit 1d, der
Wahrscheinlichkeits-Berechnungseinheit 1f, der Ergebnis-Unterscheidungseinheit
1h und der Ergebnis-Extraktionseinheit 1e dar.
Nachfolgend wird der Betrieb der Vorrichtung anhand eines Beispiels
beschrieben, wobei als Erkennungsinformation eine Adresse in
dient.
Es wird nun beispielsweise versucht, solch eine Adresse, die, wie in Fig.
7 gezeigt, auf Papier geschrieben ist, zu erkennen. Es wird somit ein
Eingabemuster, das der Adresse (Erkennungsobjektinformation) aus Fig. 7
entspricht, von beispielsweise einer optischen Mustereingabevorrichtung (nicht
gezeigt) in die Elementwort-Erkennungseinheit 1a eingegeben.
Bezugnehmend auf Fig. 2 führt, wenn das Eingabemuster als
Erkennungsobjektinformation in die Elementwort-Erkennungseinheit 1a
eingegeben wird, die Elementwort-Erkennungseinheit 1a zunächst eine Wort-
Ausschneideverarbeitung durch und führt dann die Erkennungsverarbeitung für die
so ausgeschnittenen Worte durch (Schritte S1 und S2). Bei einer solchen
Erkennungsverarbeitung bestimmt die Elementwort-Erkennungseinheit 1a die
Wahrscheinlichkeiten von Ergebnissen der Erkennung der Worte.
Daraufhin ermittelt die Elementwort-Erkennungseinheit 1a Elementwort-
Kandidaten für jedes der Elemente basierend auf dem Ergebnis der Erkennung für
jedes Wort, den gespeicherten Inhalten der Regel-Speichereinheit 1b und den
gespeicherten Inhalten der Wort-Speichereinheit 1c, und gibt dann die
Elementwort-Kandidaten an die Datensatznummer-Erfassungseinheit 1d (Schritt
S3) aus. Dabei berechnet die Elementwort-Erkennungseinheit 1a gleichzeitig
Adaptionen bzw. Anpassungen oder Entsprechungen zwischen den ermittelten
Elementwort-Kandidaten und den in der Wort-Speichereinheit 1c gespeicherten
Elementworten und Adaptionen bzw. Anpassungen oder Entsprechungen zwischen
den detektierten Elementwort-Kandidaten und den in der Regel-Speichereinheit 1b
gespeicherten Regeln, und berechnet ferner Wahrscheinlichkeiten der
Elementwort-Kandidaten basierend auf den bereits berechneten
Erkennungsresultaten für Worte. Die Elementwort-Erkennungseinheit 1a gibt auch
die so berechneten Adaptionen bzw. Angleichungen und Wahrscheinlichkeiten an
die Datensatznummer-Erfassungseinheit 1d aus. Es ist festzuhalten, daß als eine
Technik zur Erkennung von Adreßelementen eine praktische Technik verwendet
wird, wie sie beispielsweise in "Automatic mail matter address reading and sorting
machine for the Ministery of Post and Telecommunications", NEC Engineering
Report, Bd. 44, Nr. 3, S. 25-30, oder in ""Automatic mail matter address reading
and sorting machine", Toshiba Review, Bd. 45, Nr. 2, S. 149-152, beschrieben ist.
Fig. 8 ist ein Beispiel der Ausgabe der Elementwort-Erkennungseinheit
1a bezüglich der in Fig. 7 gezeigten Adresse. Bezogen auf Fig. 8 erkennt man aus
dem gezeigten Beispiel, daß für den Ortsnamen Elementwort-Kandidaten
und
deren Wahrscheinlichkeiten jeweils zehn, acht und vier sind, ausgegeben werden;
für die Blocknummer wird ein Elementwort-Kandidat "4", dessen Wahrscheinlichkeit
"10" ist, ausgegeben; für die Unterblocknummer werden Elementwort-Kandidaten
"7" und "17", deren Wahrscheinlichkeiten "10" und "7" sind, ausgegeben; für die
Hausnummer und den Gebäudenamen wird das Symbol "?" ausgegeben, was
repräsentiert, daß es keinen Elementwort-Kandidaten gibt, und die
Wahrscheinlichkeit "0" wird ausgegeben; für die Zimmernummer werden
Elementwort-Kandidaten "207" und "201" ausgegeben, deren Wahrscheinlichkeiten
jeweils "10" und "5" sind; und für den individuellen Namen (Personennamen)
werden Elementwort-Kandidaten
und
ausgegeben, deren Wahrscheinlichkeiten beide "10" sind. Hier wird für den
Gebäudenamen das Symbol "?" ausgegeben, was repräsentiert, daß es keinen
Elementwort-Kandidaten gibt, da der Gebäudename weggelassen wurde, als die in
Fig. 7 gezeigte Adresse geschrieben wurde. Auch für die Hausnummer wird das
Symbol "?" ausgegeben, was repräsentiert, daß kein Elementwort-Kandidat
ausgegeben wird, da, obwohl die Hausnummer geschrieben wurde, es unmöglich
war, sie zu erkennen. Ferner werden in dem in Fig. 8 gezeigten Beispiel nur
Elementwort-Kandidaten für Elemente in denjenigen Ebenen ausgegeben, die dem
Distriktnamen entsprechen oder rangniedriger sind. Dies liegt daran, daß das
Erkennungsobjekt eine Adresse in
ist.
Wenn die in Fig. 8 dargestellte Information von der Elementwort-
Erkennungseinheit 1a ausgegeben wird, dann führt die Datensatznummer-
Erfassungseinheit 1d eine Verarbeitung durch, wie sie in dem Flußdiagramm von
Fig. 3 dargestellt ist.
Bezugnehmend auf Fig. 3 wählt die Datensatznummer-
Erfassungseinheit 1d zunächst eines der Elemente Ortsname, Blocknummer,
Unterblocknummer, Hausnummer, Gebäudename, Zimmernummer und
Personenname als Verarbeitungsobjekt aus (Schritt S11). Hier wird angenommen,
daß der Distriktname als Verarbeitungsobjekt bestimmt wird.
Dann wählt Datensatznummer-Erfassungseinheit 1d eines der
Elementwort-Kandidatenworte
und
für
den Ortsnamen als ein Verarbeitungsobjekt aus (Schritt S13). Hier wird
angenommen, daß z. B. "" (Miyazaki) als Verarbeitungsobjekt
ausgewählt wird.
Daraufhin fragt die Datensatznummer-Erfassungseinheit die Datensatz-
Speichereinheit 1e ab, wobei der Elementwort-Kandidat "
" (Miyazaki),
der als Verarbeitungsobjekt ausgewählt wurde, als Schlüssel verwendet wird, und
erhält alle Datensatznummern von Datensätzen, die "
" (Miyazaki) in
dem Datensatzbestandteil des Ortsnamens enthalten (Schritt S15). Es wird
angenommen, daß als Ergebnis des Aufrufens bzw. Abfragens beispielsweise
"2014 bis 3500" als Datensatznummern von Datensätzen erhalten werden, die
"
" (Miyazaki) in dem Datensatzbestandteil des Ortsnamens enthalten.
Fig. 9 ist eine schematische Darstellung, die ein Beispiel der Inhalte der
Datensatz-Speichereinheit 1e zeigt. Bezugnehmend auf Fig. 9 bestehen die
Datensätze, die in der Datensatz-Speichereinheit 1e gespeichert sind, aus den
Datensatzbestandteilen "Datensatznummer", "Ortsname", "Blockname",
"Unterblockname", "Hausname", "Gebäudename", "Zimmernummer" und
"Personenname". Es ist festzuhalten, daß jeder Datensatzbestandteil, der in Fig. 9
leer ist, angibt, daß kein zugehöriges Element existiert.
Daraufhin führt die Datensatznummer-Erfassungseinheit 1d eine
Verarbeitung durch, die ähnlich der oben beschriebenen ist, wobei sukzessive die
Elementwort-Kandidaten "" (Miyamaedaira) und
"" (Arima) für den "Ortsnamen" als Verarbeitungsobjekt bestimmt
werden (Schritte S13 bis S15).
Nachdem die Verarbeitung für alle Elementwort-Kandidaten für den
"Distriktnamen" vollständig durchgeführt wurde (JA in Schritt S14), bestimmt die
Datensatznummer-Erfassungseinheit 1d dann nun eines der verbleibenden
Elemente, die noch nicht verarbeitet wurden, als ein Verarbeitungsobjekt (Schritt
S11), und führt eine ähnliche Verarbeitung wie die oben beschriebene für das neue
Verarbeitungsobjekt durch (Schritt S13 bis S15).
Nachdem die oben beschriebene Verarbeitung für alle zugehörigen
Elemente vollständig durchgeführt wurde (JA in Schritt S12), überträgt die
Datensatznummer-Erfassungseinheit 1d für jeden der Elementwort-Kandidaten die
Wahrscheinlichkeit und die in Schritt S15 erhaltene Datensatznummer paarweise
an die Wahrscheinlichkeits-Berechnungseinheit 1f (Schritt S16).
Fig. 10 zeigt ein Beispiel einer Ausgabe der Datensatznummer-
Erfassungseinheit 1d. Wie aus Fig. 10 ersichtlich ist, werden von der
Datensatznummer-Erfassungseinheit 1d die Paare von Datensatznummern
"001-0523" der Datensätze ausgegeben, welche "
" (Arima) für den
Datensatzbestandteil des "Ortsnamens" und die Wahrscheinlichkeit "4" enthalten,
die Paare von Datensatznummern "2014-3500" der Datensätze ausgegeben, die
"
" (Miyazaki) für den Datensatzbestandteil "Ortsname" und die
Wahrscheinlichkeit "10" enthalten, usw.
Es ist festzuhalten, daß, um eine Abfrageverarbeitung der
Datensatznummer-Erfassungseinheit 1d mit hoher Geschwindigkeit zu
gewährleisten, eine Datenstruktur für die Abfrage, wie beispielsweise eine Hash-
Tabelle separat vorbereitet werden kann, wie sie z. B. bei herkömmlichen
Datenbanken verwendet wird. Oder es kann beispielsweise für alle Elementwort-
Kandidaten, die möglicherweise von der Elementwort-Erkennungseinheit 1a
ausgegeben werden, eine Datensatznummer-Liste von Datensätzen vorbereitet
werden, die die Elemente von ihnen einschließt. Wenn eine Datensatznummer-
Liste des vorgenannten Typs vorbereitet wird, so wird, obwohl die
Erfassungsverarbeitungszeit für eine Datensatznummer signifikant reduziert wird,
ein Speicherbereich zum Speichern einer entsprechenden Beziehung zwischen
den Elementworten und den Datensatznummern erforderlich. Demgemäß wird
vorzugsweise eine Datensatz-Liste für alle Elementworte vorgesehen, oder eine
Datensatz-Liste wird nur für einige Elementworte vorgesehen, wobei die Anzahl
von Datensätzen, die in der Datensatz-Speichereinheit 1e gespeichert sind, die
Anzahl der Arten von Elementworten und die hardwaremäßige Beschränkungen
berücksichtigt werden.
Wenn ein Vielzahl von Datensatznummer-Wahrscheinlichkeitspaaren
wie aus Fig. 10 ersichtlich von der Datensatznummer-Erfassungseinheit 1d
ausgegeben wird, dann wählt die Wahrscheinlichkeits-Berechnungseinheit 1f, wie
aus dem Flußdiagramm von Fig. 4 ersichtlich, eines der Paare, die noch nicht von
der Wahrscheinlichkeits-Berechnungseinheit 1f verarbeitet wurden, als ein
Verarbeitungsobjekt aus (Schritt S21). Es wird nun beispielsweise angenommen,
daß das Paar von Datensatznummern "0001 bis 0523" und die Wahrscheinlichkeit
"4" aus den Paaren von Datensatznummern und Wahrscheinlichkeiten, die in Fig.
10 dargestellt sind, als Verarbeitungsobjekt ausgewählt wird.
Dann wählt die Datensatznummer-Erfassungseinheit 1d eine der
Datensatznummern "0001 bis 0523", die in dem Verarbeitungsobjektpaar enthalten
sind, als ein Verarbeitungsobjekt aus (Schritt S23). Es wird nun beispielsweise
angenommen, daß die Datensatznummer "0001" als ein Verarbeitungsobjekt
ausgewählt wird.
Daraufhin bestimmt die Datensatznummer-Erfassungseinheit 1d, ob ein
Wahrscheinlichkeitszähler, der der Datensatznummer "0001" entspricht, die als
Verarbeitungsobjekt ausgewählt wurde, bereits in der Wahrscheinlichkeits-
Speichereinheit 1g erzeugt wurde (Schritt S25).
Wenn dann festgestellt wurde, daß ein solcher
Wahrscheinlichkeitszähler noch nicht erzeugt wurde (NEIN in Schritt S25), erzeugt
die Datensatznummer-Erfassungseinheit 1d einen solchen Wahrscheinlichkeits
zähler 11a wie in Fig. 11 dargestellt in der Wahrscheinlichkeits-Speichereinheit 1g
(Schritt S26). Der Wahrscheinlichkeitszähler 11a wird von einem
Datensatznummerteil 11b und einem Wahrscheinlichkeitsteil 11c gebildet. Der
Datensatznummerteil 11b speichert die Datensatznummer "0001", die als
momentanes Verarbeitungsobjekt bestimmt wurde, und der Wahrscheinlichkeitsteil
11c speichert einen anfänglichen Wert "0".
Nachdem der Wahrscheinlichkeitszähler 11a, der der Datensatznummer
"0001" entspricht, in der Wahrscheinlichkeits-Speichereinheit 1g erzeugt wurde,
addiert die Wahrscheinlichkeits-Berechnungseinheit 1f die Wahrscheinlichkeit "4",
die in dem momentanen Verarbeitungsobjektpaar enthalten ist, zu dem
Wahrscheinlichkeitsteil 11c des Wahrscheinlichkeitszähler 11a (Schritt S27). Es ist
festzuhalten, daß, wenn in Schritt S25 bestimmt wurde, daß ein
Wahrscheinlichkeitszähler, der der Datensatznummer des momentanen
Verarbeitungsobjekts entspricht, bereits erzeugt wurde, die Verarbeitung in Schritt
S27 sofort durchgeführt wird, ohne die Verarbeitung in Schritt S26 durchzuführen.
Daraufhin führt die Wahrscheinlichkeits-Berechnungseinheit 1f eine
ähnliche Verarbeitung wie die oben beschriebene für diejenigen
Datensatznummern durch, die in dem momentanen Verarbeitungsobjektpaar
enthalten sind, für welche die Verarbeitung noch nicht durchgeführt wurde (Schritte
S22 bis S27).
Nachdem dann die oben beschriebene Verarbeitung für alle
Datensatznummern, die in dem momentanen Verarbeitungsobjektpaar enthalten
sind, durchgeführt wurde (JA in Schritt S24), wird dann eine ähnliche Verarbeitung
wie die oben beschriebene für eines der verbleibenden Paare durchgeführt
(Schritte S21 bis S27).
Nachdem die oben beschriebene Verarbeitung für alle der
Datensatznummer-Wahrscheinlichkeitspaare, die von der Datensatznummer-
Erfassungseinheit 1d übertragen wurden, durchgeführt wurde (JA in Schritt S22),
sortiert die Wahrscheinlichkeits-Berechnungseinheit 1f die Wahrscheinlichkeits
zähler 11a, die in der Wahrscheinlichkeits-Speichereinheit 1g vorliegen, in
absteigender Reihenfolge der Wahrscheinlichkeit, die in dem Wahrscheinlichkeits
teil 11c wie in Fig. 12 zu sehen gesetzt ist, und übermittelt dann den Abschluß der
Verarbeitung an die Ergebnis-Unterscheidungseinheit 1h (Schritte S28 und S29).
Es ist festzuhalten, daß, während auch Inhalte der Addition von
Wahrscheinlichkeiten in Fig. 12 dargestellt sind, diese Darstellung zur Erleichterung
des Verständnisses dient, und diese nicht tatsächlich in der Wahrscheinlichkeits-
Speichereinheit 1g gespeichert sind.
Wenn der Abschluß der Verarbeitung von der Wahrscheinlichkeits-
Berechnungseinheit 1f übermittelt wurde, wählt die Ergebnis-
Unterscheidungseinheit 1h wie aus dem Flußdiagramm von Fig. 5 ersichtlich einen
der Wahrscheinlichkeitszähler 11a, die in der Wahrscheinlichkeits-Speichereinheit
1g vorliegen, aus, bei dem die höchste Wahrscheinlichkeit in dem
Wahrscheinlichkeitsteil 11c gespeichert ist (Schritt S31) und gibt die
Datensatznummer, die in dem Datensatznummerteil 11b des ausgewählten
Wahrscheinlichkeitszählers 11a gespeichert ist, als Datensatznummer eines
Datensatzes aus, der als Erkennungsresultat bestimmt wird (Schritt S32). Während
bei dem vorliegenden Ausführungsbeispiel eine Datensatznummer wie oben
beschrieben ohne Bedingung ausgegeben wird, die dem Wahrscheinlichkeitszähler
11a entspricht, der den höchsten Wahrscheinlichkeitswert in dem
Wahrscheinlichkeitsteil 11c aufweist, kann andererseits eine Datensatznummer
unter Bedingungen ausgegeben werden. In einem solchen Fall kann der folgende
Aufbau verwendet werden. Insbesondere werden erste und zweite Grenzwerte Th1
und Th2 im voraus bestimmt, und nur wenn die Differenz der Wahrscheinlichkeit,
die im Datensatznummerteil 11b eines Wahrscheinlichkeitszählers (erster
Kandidaten-Wahrscheinlichkeitszähler), in dessen Datensatznummerteil 11b die
höchste Wahrscheinlichkeit gesetzt ist und der Wahrscheinlichkeit, die in dem
Datensatznummerteil 11b eines anderen Wahrscheinlichkeitszählers (zweiter
Kandidaten-Wahrscheinlichkeitszähler), in dessen Datensatznummerteil 11b die
zweithöchste Wahrscheinlichkeit gesetzt ist, größer ist als der erste Grenzwert Th1
und die Wahrscheinlichkeit, die in dem Datensatznummerteil 11b des ersten
Kandidaten-Wahrscheinlichkeitszählers größer ist als der zweite Grenzwert Th2,
wird die Datensatznummer, die in dem Datensatznummerteil 11b des ersten
Kandidaten-Wahrscheinlichkeitszählers gesetzt ist, an die Ergebnis-
Unterscheidungseinheit 1h ausgegeben, aber in jedem anderen Fall wird ein
Erkennungsfehler an die Ergebnis-Unterscheidungseinheit 1h übermittelt. Dieser
Aufbau kann die Möglichkeit, daß ein fehlerhaftes Erkennungsresultat ausgegeben
wird, reduzieren.
Wenn eine Datensatznummer von der Ergebnis-Unterscheidungseinheit
1h ausgegeben wird, so extrahiert die Ergebnis-Extraktionseinheit 1i wie aus dem
Flußdiagramm von Fig. 6 ersichtlich den Datensatz der Datensatznummer von der
Datensatz-Speichereinheit 1e und gibt die Inhalte des extrahierten Datensatzes als
ein Erkennungsresultat aus (Schritte S41 und S42).
Während bei der Informationserkennungs-Vorrichtung des vorliegenden
Ausführungsbeispiels der Bereich der Erkennung der Adresse auf den Bereich
innerhalb von Kawasaki-shi, Miyamae-ku beschränkt ist, kann der Bereich leicht
vergrößert werden. Insbesondere kann eine Verarbeitung auch bezüglich der
Namen von Präfekturen und eines städtischen Distrikts, die von der Elementwort-
Erkennungseinheit als Adreßelemente erkannt werden, durchgeführt werden,
während bei der Informationserkennungs-Vorrichtung des vorliegenden
Ausführungsbeispiels die Auswahl der Adreßelemente als Objekt in den Ebenen
des Distriktnamens und in niedrigeren Ebenen erfolgt, wobei die
Datensatznummer-Erfassungseinheit 1e Datensatznummern erfaßt bzw. ermittelt,
und die Wahrscheinlichkeits-Berechnungseinheit die Addition von Wahrscheinlich
keiten durchführt. Die Verarbeitung muß nicht modifiziert werden, selbst wenn
derselbe Straßenname in verschiedenen städtischen Distrikten enthalten ist. Es ist
jedoch selbstverständlich erforderlich, daß die Namen von Präfekturen, Distrikten
usw. als Objekt der Erkennung der Wort-Speichereinheit 1c und der Datensatz-
Speichereinheit 1e hinzugefügt werden.
Während es mit der Informationserkennungs-Vorrichtung des
vorliegenden Ausführungsbeispiels möglich ist, einen wahrscheinlichsten
Datensatz aus einer Vielzahl von Kombinationen von Elementwort-Kandidaten
effizient auszuwählen, besteht ein Problem darin, daß, wenn die Anzahl von
Datensätzen von Adressen, die ein Objekt bilden, zunimmt, die Belastung durch
Wahrscheinlichkeitsvergleichsverarbeitung nach der Additionsverarbeitung
zunimmt. Während bei dem in Fig. 12 dargestellten Ausführungsbeispiel die
Wahrscheinlichkeitszähler basierend auf den Wahrscheinlichkeiten in ihren
Wahrscheinlichkeitsteilen sortiert werden, ist im Maximalfall die erforderliche
Anzahl von Wahrscheinlichkeitszählern gleich der Anzahl von Datensätzen der
Datensatz-Speichereinheit 1e, und viel Zeit ist erforderlich zum Sortieren der
Wahrscheinlichkeitszähler und zum Extrahieren von Kandidaten mit
vergleichsweise hohen Wahrscheinlichkeiten. Üblicherweise ist die Anzahl von
denjenigen Wahrscheinlichkeitszählern, deren Wahrscheinlichkeitsteil einen Wert
größer als ein bestimmter Wert aufweist, klein, und die Werte der
Wahrscheinlichkeitsteile von fast allen der Wahrscheinlichkeitszähler sind Null oder
geringe Werte. Bei Berücksichtigung dieses Punktes kann die
Verarbeitungsgeschwindigkeit erhöht werden, wenn, wie in Fig. 13 zu sehen ist, ein
hochrangiger Kandidatenspeicherbereich 13a in der Wahrscheinlichkeits-
Speichereinheit 1g vorgesehen ist und ferner hochrangige Kandidaten
registrierungs-Durchführungsflags 11d, die den Wahrscheinlichkeitszählern 11a
entsprechen, vorgesehen sind.
In diesem Fall vergleicht jedes Mal, wenn die Wahrscheinlichkeits-
Berechnungseinheit 1f eine Wahrscheinlichkeit zu dem Wahrscheinlichkeitsteil 11c
eines bestimmten Wahrscheinlichkeitszählers 11a addiert, sie den Wert des
Wahrscheinlichkeitsteils 11c nach der Addition mit einem Registrierungsgrenzwert
Th. Wenn der Wert des Wahrscheinlichkeitsteils 11c größer als der
Registrierungsgrenzwert Th ist und das entsprechende hochrangige
Kandidatenregistrierungs-Durchführungsflag 11d "0" ist, was repräsentiert, daß der
entsprechende Wahrscheinlichkeitszähler 11a nicht in dem hochrangigen
Kandidatenspeicherbereich 13a registriert ist, dann registriert die
Wahrscheinlichkeits-Berechnungseinheit 1f die Datensatznummer, die in dem
Datensatznummerteil 11b des Wahrscheinlichkeitszählers 11a gespeichert ist, in
dem hochrangigen Kandidatenspeicherbereich 13a und ändert das entsprechende
hochrangige Kandidatenregistrierungs-Durchführungsflag 11d von "0", was angibt,
daß der entsprechende Wahrscheinlichkeitszähler 11a nicht registriert ist, in "1",
was angibt, daß der entsprechende Wahrscheinlichkeitszähler 11a registriert ist.
Der Grund, warum die hochrangigen Kandidatenregistrierungs-Durchführungsflags
11d vorgesehen sind, ist hier, daß beabsichtigt ist, einander überlappende
Registrierungen derselben Datensatznummer zu verhindern. Wenn die oben
beschriebene Vearbeitung durchgeführt wird, dann werden nur diejenigen
Datensatznummern, die den Wahrscheinlichkeitszählern 11a entsprechen, bei
denen der Wert des Wahrscheinlichkeitsteils 11c größer ist als der
Registrierungsgrenzwert Th, in dem hochrangigen Kandidatenspeicherbereich 13a
gespeichert, und infolgedessen wird die Verarbeitung zum Extrahieren
hochrangiger Kandidaten wesentlich beschränkt. Während in Fig. 13 das Beispiel
dargestellt ist, bei dem der Registrierungsgrenzwert Th "10" ist, kann ein
Ausbalancieren oder Ausgleich (trade-off) zwischen Verarbeitungsgeschwindigkeit
und Genauigkeit leicht durchgeführt werden, indem das Setzen des
Registrierungsgrenzwerts Th entsprechend der Situation geändert wird. Es ist
festzuhalten, daß, wenn der Registrierungsgrenzwert größer wird, Bestimmungen
von Ergebnissen, bei denen keine Erkennung vorliegt, zunehmen, aber wenn der
Registrierungsgrenzwert kleiner wird, die Verarbeitungszeit zunimmt.
Wie oben beschrieben kann mit der Informationserkennungs-Vorrichtung
des vorliegenden Ausführungsbeispiels ein korrektes Erkennungsresultat einer frei
(von Hand) geschriebenen Adresse effizient ausgegeben werden, selbst unter der
Bedingung, daß einige Elementworte weggelassen werden, wenn die Adresse
geschrieben wird, daß die geschriebene Adresse ein Element enthält, das nicht
erkannt werden kann, oder daß einige Elementworte fehlerhaft gelesen werden.
Fig. 14 zeigt ein Blockdiagramm einer anderen Informationserkennungs-
Vorrichtung gemäß einem weiteren Ausführungsbeispiel der vorliegenden
Erfindung. Die Informationserkennungs-Vorrichtung des vorliegenden
Ausführungsbeispiels ist eine Modifikation und weist einige gemeinsame
Bestandteile mit der Informationserkennungs-Vorrichtung des ersten
Ausführungsbeispiels, das unter Bezugnahme auf Fig. 1 beschrieben wurde, auf.
Die Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels
unterscheidet sich von der des ersten Ausführungsbeispiels darin, daß sie
zusätzlich eine Datensatz-Begrenzungseinheit (Datensatz-Begrenzungseinrichtung) 14a und eine begrenzte Datensatz-
Speichereinheit (Datensatz-Speicherbereich) 14c aufweist, und sie enthält jeweils eine Datensatznummer-
Erfassungseinheit 14b und eine Ergebnis-Extraktionseinheit 14d anstelle der
Datensatznummer-Erfassungseinheit 1d und der Ergebnis-Extraktionseinheit 1e.
Die Datensatz-Begrenzungseinheit 14a weist die folgenden Funktionen
auf. Insbesondere, wenn Elementwort-Kandidaten, die durch die Elementwort-
Erkennungseinheit 1a detektiert wurden, einen Elementwort-Kandidaten enthalten,
der einem Datensatzbestandteil entspricht, welcher eine hohe Wahrscheinlichkeit
aufweist und ein Wort enthält, das nicht häufig in Elementworten enthalten ist, so
speichert die Datensatz-Begrenzungseinheit 14a einen Datensatz, der durch
Abfrage bzw. Aufruf der Datensatz-Speichereinheit 1e unter Verwendung des
Elementwort-Kandidaten als Schlüssel erhalten wurde, der den Elementwort-
Kandidaten enthält, in den begrenzten Datensatz-Speicherbereich 14c und weist
die Datensatznummer-Erfassungseinheit 14e an, den begrenzten Datensatz-
Speicherbereich 14c als Objekt der Abfrage zu bestimmen. Wenn jedoch ein
Elementwort-Kandidat, der die oben beschriebene Bedingung nicht erfüllt,
detektiert wird, so weist die Datensatz-Begrenzungseinheit 14a die
Datensatznummer-Erfassungseinheit 14b an, die Datensatz-Speichereinheit 1e als
Objekt der Abfrage zu bestimmen.
Die Datensatznummer-Erfassungseinheit 14b weist die folgenden
Funktionen auf. Insbesondere, wenn die Datensatznummer-Erfassungseinheit 14b
angewiesen wird, die Datensatz-Speichereinheit 1e als Objekt der Abfrage zu
bestimmen, frägt sie die Datensatz-Speichereinheit 1e unter sukzessiver
Verwendung der durch die Elementwort-Erkennungseinheit detektierten
Elementwort-Kandidaten als Schlüssel ab, um für jeden der Elementwort-
Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, der den
Elementwort-Kandidaten enthält. Wenn jedoch die Datensatznummer-
Erfassungseinheit 14b angewiesen wird, die begrenzte Datensatz-Speichereinheit
14c als Abfrageobjekt zu bestimmen, frägt sie die begrenzte Datensatz-
Speichereinheit 14c unter sukzessiver Verwendung der durch die Elementwort-
Erkennungseinheit 1a detektierten Elementwort-Kandidaten als Schlüssel ab, um
für jeden der Elementwort-Kandidaten eine Datensatznummer eines Datensatzes
zu erhalten, der den Elementwort-Kandidaten enthält.
Die Ergebnis-Extraktionseinheit 14d weist folgende Funktion auf:
Extrahieren eines Datensatzes, der als Erkennungsresultat bestimmt werden soll,
von der begrenzten Datensatz-Speichereinheit 14c basierend auf einer
Datensatznummer als einem Erkennungsresultat der Ergebnis-
Unterscheidungseinheit 1h.
Fig. 15 zeigt in einem Flußdiagramm ein Beispiel der Verarbeitung der
Datensatz-Begrenzungseinheit 14a. Der Betrieb der Informationserkennungs-
Vorrichtung des vorliegenden Ausführungsbeispiels wird nachfolgend unter
Bezugnahme auf Fig. 14 und 15 beschrieben.
Elemente, die eine Adresse oder Transaktionsdaten bilden, haben die
Fähigkeit, zugehörige Datensätze, die häufig in unterschiedlichen Arten von
Elementen unterschiedlich sind, zu beschränken bzw. zu begrenzen. Wenn
beispielsweise eine Adresse als Beispiel verwendet wird, so können Datensätze
mit dem städtischen Distriktnamen, der Blocknummer, der Zimmernummer oder
ähnlichem nicht signifikant eingeschränkt oder begrenzt werden, der
Personenname oder der Gebäudename hat jedoch eine große Wirkung bei der
Beschränkung oder Eingrenzung von Datensätzen, wenn er korrekt erkannt wird.
Demgemäß kann, wenn ein Element mit einer hohen
Datensatzbegrenzungsfähigkeit korrekt erkannt wird, dann durch Beschränkung
oder Eingrenzung des Bereichs von zu verarbeitenden Datensätzen mit dem
erkannten Element und Durchführung der Verarbeitung basierend auf den
verbleibenden Worten für den Bereich das Verarbeitungsausmaß wesentlich
verringert werden. Die Informationserkennungs-Vorrichtung des vorliegenden
Ausführungsbeispiels ist unter Berücksichtigung dieses Punktes aufgebaut.
Bezugnehmend auf das Flußdiagramm von Fig. 15 prüft die Datensatz-
Begrenzungseinheit 14a, wenn Elementwort-Kandidaten von der Elementwort-
Erkennungseinheit 1a ausgegeben werden, ob die Elementwort-Kandidaten einen
Elementwort-Kandidaten mit hoher Wahrscheinlichkeit und hoher
Datensatzbegrenzungsfähigkeit enthalten oder nicht (Schritt S51).
Wenn ein Elementwort-Kandidat, der die oben beschriebenen
Bedingungen erfüllt, nicht detektiert wird (NEIN in Schritt S51), dann weist die
Datensatz-Begrenzungseinheit 14a die Datensatznummer-Erfassungseinheit 14b
an, die Datensatz-Speichereinheit 1e als Objekt der Abfrage zu bestimmen (Schritt
S55). Die Datensatznummer-Erfassungseinheit 14b führt, wenn sie angewiesen
wird, die Datensatz-Speichereinheit 1e als Objekt der Abfrage zu bestimmen, eine
Verarbeitung ähnlich der der Datensatznummer-Erfassungseinheit 1d aus Fig. 1
durch.
Wenn andererseits ein Elementwort-Kandidat, der die oben
beschriebenen Bedingungen erfüllt, detektiert wird (JA in Schritt S52), so extrahiert
die Datensatz-Begrenzungseinheit 14a alle Datensätze, die die oben
beschriebenen hochrangigen Elementwort-Kandidaten enthalten, von der
Datensatz-Speichereinheit 1e und speichert die extrahierten Datensätze in dem
begrenzten Datensatz-Speicherbereich 14c (Schritt S53). Daraufhin weist die
Datensatz-Begrenzungseinheit 14a die Datensatznummer-Erfassungseinheit 14b
an, die begrenzte Datensatz-Speichereinheit 14c als Objekt der Abfrage zu
bestimmen bzw. festzulegen (Schritt S54). Infolgedessen frägt die
Datensatznummer-Erfassungseinheit 14b die begrenzte Datensatz-Speichereinheit
14c unter sukzessiver Verwendung der durch die Elementwort-Erkennungseinheit
1a detektierten Elementwort-Kandidaten als Schlüssel ab und erhält
Datensatznummern von Datensätzen, die die Elementwort-Kandidaten enthalten.
Die Wahrscheinlichkeits-Berechnungseinheit 1f und die Ergebnis-
Unterscheidungseinheit 1h führen eine Verarbeitung ähnlich der vorher
beschriebenen durch, und die Datensatznummer-Erfassungseinheit 1d extrahiert
einen Datensatz, der einer Datensatznummer entspricht, die von der Ergebnis-
Unterscheidungseinheit 1h ausgegeben wurde, von der begrenzten Datensatz-
Speichereinheit 14c und gibt den extrahierten Datensatz als Erkennungsresultat
aus. Es ist festzuhalten, daß, obwohl Datensätze, die Datensatznummern
entsprechen, die von der Ergebnis-Unterscheidungseinheit 1h ausgegeben
werden, alternativ von der Datensatz-Speichereinheit 1e extrahiert werden können,
die Verarbeitung mit einer größeren Geschwindigkeit durchgeführt werden kann,
wenn Datensätze von der begrenzten Datensatz-Speichereinheit 14c extrahiert
werden, da die begrenzte Datensatz-Speichereinheit 14c eine kleinere Anzahl von
gespeicherten Datensätzen als die Datensatz-Speichereinheit 1e enthält.
Da bei der Informationserkennungs-Vorrichtung des vorliegenden
Ausführungsbeispiels Datensätze, die als Verarbeitungsobjekt dienen, abhängig
von einem bestimmten Elementwort beschränkt sind, besteht übrigens das
Problem, daß die Genauigkeit bei der Erkennung eines Elementworts, das für die
Beschränkung bzw. Eingrenzung verwendet wird, einen wesentlichen Einfluß auf
die Genauigkeit der Erkennung der gesamten Vorrichtung ausübt. Um dieses
Problem zu lösen, kann eine Gegenmaßnahme ergriffen werden, die darin besteht,
daß der erste und der zweite Grenzwert Th1 und Th2 der Ergebnis-
Unterscheidungseinheit 1h so hoch gesetzt werden, daß, wenn die
Wahrscheinlichkeit nicht ausreichend groß ist, oder die Differenz zwischen den
Wahrscheinlichkeiten in dem ersten Kandidaten-Wahrscheinlichkeitszähler und der
Wahrscheinlichkeit in dem zweiten Kandidaten-Wahrscheinlichkeitszähler nicht
ausreichend groß ist, die Bestimmung der Zurückweisung durchgeführt wird. Um
die Balance zwischen der Durchschnittsgeschwindigkeit und der Genauigkeit des
gesamten Systems aufrechtzuerhalten, kann darüber hinaus, falls aufgrund einer
solch strengen Festlegung die Zurückweisung auftritt, eine solche
Gegenmaßnahme ergriffen werden, daß dann die Durchführung der Verarbeitung
unter Verwendung der Datensatz-Speichereinheit 1e auf eine ähnliche Weise wie
in der Informationserkennungs-Vorrichtung des ersten Ausführungsbeispiels
durchgeführt wird, ohne daß die begrenzte Datensatz-Speichereinheit 14c
verwendet wird.
Fig. 16 zeigt in einem Blockdiagramm eine Informationserkennungs-
Vorrichtung gemäß einem weiteren Ausführungsbeispiel der vorliegenden
Erfindung. Die Vorrichtung des vorliegenden Ausführungsbeispiels ist ebenfalls
eine Modifikation und weist einige gemeinsame Komponenten mit der des ersten
Ausführungsbeispiels, das unter Bezugnahme auf Fig. 1 beschrieben wurde, auf.
Die Informationserkennungs-Vorrichtung des vorliegenden Ausführungsbeispiels
unterscheidet sich jedoch von der des ersten Ausführungsbeispiels darin, daß sie
zusätzlich eine Elementwort-Vereinheitlichungseinheit (Elementwort-Vereinheitlichungseinrichtung) 16a und eine
Elementvereinheitlichungs-Tabelleneinheit (Elementvereinheitlichungstabellenbereich) 16b aufweist.
Die Elementvereinheitlichungs-Tabelleneinheit 16b speichert
repräsentative Darstellungen und Deformationsdarstellungen von Elementworten in
einer einander entsprechenden Beziehung.
Die Elementwort-Vereinheitlichungseinheit 16a weist folgende Funktionen
auf: Festlegen bzw. Unterscheiden für jeden von der Elementwort-
Erkennungseinheit 1a detektierten Elementwort-Kandidaten, ob er eine
repräsentative Darstellung oder eine Deformationsdarstellung ist, basierend auf
den Inhalten der Element-Vereinheitlichungstabelleneinheit 16b, und, falls der
Elementwort-Kandidat eine repräsentative Darstellung ist, Ausgeben des
Elementwort-Kandidaten so, wie er ist, aber, falls der Elementwort-Kandidat eine
Deformationsdarstellung wie etwa eine unterschiedliche Schreibweise ist,
Ausgeben des Elementwort-Kandidaten, nachdem er in einen Elementwort-
Kandidaten einer repräsentativen Darstellung umgewandelt wurde.
Bei einer Adresse oder ähnlichem weisen Elementworte mit der gleichen
Bedeutung manchmal unterschiedliche Darstellungen auf. Z. B. wird
"" (Hinode-cho oder Hinode-machi)
manchmal dargestellt als "" (Hinode-cho oder Hinode-machi),
oder "" (Hinode-cho oder Hinode-machi)
oder ähnliches. Ferner werden eine Adresse und ein Personenname manchmal in
"katakana" geschrieben. Ferner kann, wenn ein Block (Häuserblock) in einem
Schriftzug dargestellt ist, eine Ziffer in arabischen Ziffern oder in Ziffern
chinesischer Schriftzeichen (kanji) dargestellt werden. Die Elementwort-
Vereinheitlichungseinrichtung 16a vereinheitlicht eine Vielzahl solcher
Darstellungen in eine repräsentative Darstellung, die von der Datensatz-
Speichereinheit 1e verwendet wird. Infolgedessen besteht keine Notwendigkeit,
einen Datensatz, der eine unterschiedliche Schreibweise enthält, in der Datensatz-
Speichereinheit 1e abzuspeichern, und dies erlaubt das Einsparen von
Speicherkapazität und Verarbeitungszeit. Es ist festzuhalten, daß die restliche
Verarbeitung der Informationserkennungs-Vorrichtung des vorliegenden
Ausführungsbeispiels die gleiche ist wie die der Informationserkennungs-
Vorrichtung des ersten Ausführungsbeispiels.
Fig. 17 zeigt ein Beispiel von Inhalten der Element-
Vereinheitlichungstabelleneinheit 16b. Wenn die Element-
Vereinheitlichungstabelleneinheit 16b die Inhalte wie in Fig. 10 zu sehen aufweist,
so wird, ganz gleich, welches der Elemente
oder
oder
oder;
von der Elementwort-Erkennungseinheit 1a ausgegeben wird, es in
vereinheitlicht. Infolgedessen ist es lediglich notwendig, diejenigen Datensätze, die
verwenden, in der Datensatz-Speichereinheit 1e abzuspeichern. Darüber hinaus
muß die Elementwort-Vereinheitlichungseinheit 16a nicht notwendigerweise
Schriftzeichenzüge eines Elementwortes, das die in der Wort-Speichereinheit 1c
gespeichert ist, in ein einziges vereinheitlichen, sondern sie kann alternativ dazu
diese in einen bestimmten Identifikationscode vereinheitlichen. In diesem Fall ist es
jedoch erforderlich, nicht das Elementwort, sondern den Identifikationscode in der
Datensatz-Speichereinheit abzuspeichern. Wenn ein Identifikationscode nicht als
Schriftzeichenzug sondern als numerischer Datenwert in der Datensatz-
Speichereinheit 1e abgespeichert ist, dann kann die Speichergröße der Datensatz-
Speichereinheit 1e weiter reduziert werden.
Wenn versucht wird, Schriftzeichenzüge eines Ortsnamens zu
vereinheitlichen, so wird vorzugsweise ein System verwendet, das die Element-
Vereinheitlichungstabelleneinheit 16b wie oben beschrieben verwendet. Für einen
Ziffernzug zur Darstellung eines Blocks (Häuserblocks) ist es jedoch praktischer,
eine Konversionseinheit vorzusehen, um eine Ziffer aus chinesischen
Schriftzeichen (kanji) in eine arabische Ziffer zu konvertieren, oder um eine
arabische Ziffer in eine kanji-Ziffer in der Elementwort-Vereinheitlichungseinheit
16a zu konvertieren, als das System, das die Element-
Vereinheitlichungstabelleneinheit 16b verwendet.
Aufgrund der oben beschriebenen Verarbeitung kann die
Erkennungsobjektinformation effizient und mit einem hohen Grad von
Erkennungsgenauigkeit erkannt werden, selbst wenn ein Elementwort in einer
Darstellung auftritt, die sich von einer repräsentativen Darstellung unterscheidet.
Es ist festzuhalten, daß, während bei den oben beschriebenen
Ausführungsbeispielen jedes Wort eines Eingabemusters unter Verwendung einer
Schriftzeichenerkennungstechnik erkannt wurde, es möglich ist, wenn das
Eingabemuster ein Sprachmuster ist, jedes Wort in dem Eingabemuster unter
Verwendung einer Spracherkennungstechnik zu erkennen.
Die Erfindung wurde anhand verschiedener Ausführungsbeispiele im
Detail beschrieben. Für den Fachmann ist es ersichtlich, daß Modifikationen und
Veränderungen im Rahmen der hier beschriebenen Erfindung vorgenommen
werden können. Zwar wurde die Erfindung bezugnehmend auf Adreßdarstellungen
mittels chinesischer Schriftzeichen beschrieben, sie läßt sich jedoch auch auf in
lateinischen Buchstaben geschriebene Adressen oder gesprochene
Eingabemuster anwenden. Die im voraus bestimmten möglichen Elementworte
wären dann beispielsweise "Straße", "Weg", "Berg", "Platz", verschiedene Ortsteile
wie "Schwabing", "Haidhausen", Städtenamen etc. Unterschiedliche Darstellungen
(repräsentative oder Deformationsdarstellungen) ergeben sich z. B. aus der
Verwendung von Groß- und Kleinbuchstaben. Eine entsprechende Anwendung der
Erfindung ist für den Fachmann leicht durchführbar.
Claims (8)
1. Informationserkennungs-Vorrichtung zur Erkennung von
Erkennungsobjektinformation in der Form einer Serie von Informationselementen
zusammengesetzt ist, für jedes von denen eine vorbestimmte Anzahl von
Elementworten, von denen jedes das Informationselement bilden kann, festgelegt
sind, wobei die Vorrichtung umfaßt:
einen Wort-Speicherbereich (1c), in dem alle Elementworte, die die Informationselemente bilden können, gespeichert werden;
einen Regel-Speicherbereich (1b), in dem Regeln gespeichert werden, die eine hierarchische Beziehung der Informationselemente repräsentieren;
eine Elementwort-Erkennungseinrichtung (1a) zur Erkennung von Worten in der Erkennungsobjektinformation, zur Ermittlung von Elementwort- Kandidaten für jedes der Informationselemente in der Erkennungsobjektinformation basierend auf einem Ergebnis der Erkennung, den gespeicherten Inhalten des Wort-Speicherbereichs (1c) und den gespeicherten Inhalten des Regel- Speicherbereichs (1b), und zur Ermittlung von Wahrscheinlichkeiten der Elementwort-Kandidaten;
einen Datensatz-Speicherbereich (1e), in dem tatsächlich existierende Erkennungsobjektinformationen, die als Kombinationen von Elementworten dargestellt werden können, in der Form von Datensätzen gespeichert sind, von denen jeder Datensatzbestandteile umfaßt, die von den Informationselementen der Erkennungsobjektinformation geliefert werden oder diesen entsprechen;
eine Datensatznummer-Erfassungseinrichtung (1d) zum Aufrufen bzw. Abfragen des Datensatz-Speicherbereichs (1e) unter Verwendung der Elementwort-Kandidaten, die durch die Elementwort-Erkennungseinrichtung (1a) ermittelt wurden, sukzessive als Schlüssel, um für jeden der Elementwort- Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, der den Elementwort-Kandidaten umfaßt;
eine Wahrscheinlichkeits-Berechnungseinrichtung (1f) zum Liefern von Wahrscheinlichkeitszählern, die den individuellen Datensatznummern entsprechen, die durch die Datensatznummer-Erfassungseinrichtung (1d) erhalten wurden, und zum Addieren der Wahrscheinlichkeiten der Elementwort-Kandidaten, die durch die Elementwort-Erkennungseinrichtung (1a) ermittelt wurden, zu denen der Wahrscheinlichkeitszähler, die den Datensatznummern der Datensätze entsprechen, welche die Elementwort-Kandidaten enthalten;
eine Ergebnis-Unterscheidungseinrichtung (1h) zum Unterscheiden bzw. Festlegen eines Datensatzes, der als Erkennungsresultat bestimmt wird, basierend auf den Zählerwerten der Wahrscheinlichkeitszähler; und
eine Ergebnis-Extraktionseinrichtung (1i) zum Extrahieren eines Datensatzes, der als Erkennungsresultat bestimmt wird, von dem Datensatz- Speicherbereich (1e) basierend auf einem Ergebnis der Festlegung der Ergebnis- Unterscheidungseinrichtung (1h).
einen Wort-Speicherbereich (1c), in dem alle Elementworte, die die Informationselemente bilden können, gespeichert werden;
einen Regel-Speicherbereich (1b), in dem Regeln gespeichert werden, die eine hierarchische Beziehung der Informationselemente repräsentieren;
eine Elementwort-Erkennungseinrichtung (1a) zur Erkennung von Worten in der Erkennungsobjektinformation, zur Ermittlung von Elementwort- Kandidaten für jedes der Informationselemente in der Erkennungsobjektinformation basierend auf einem Ergebnis der Erkennung, den gespeicherten Inhalten des Wort-Speicherbereichs (1c) und den gespeicherten Inhalten des Regel- Speicherbereichs (1b), und zur Ermittlung von Wahrscheinlichkeiten der Elementwort-Kandidaten;
einen Datensatz-Speicherbereich (1e), in dem tatsächlich existierende Erkennungsobjektinformationen, die als Kombinationen von Elementworten dargestellt werden können, in der Form von Datensätzen gespeichert sind, von denen jeder Datensatzbestandteile umfaßt, die von den Informationselementen der Erkennungsobjektinformation geliefert werden oder diesen entsprechen;
eine Datensatznummer-Erfassungseinrichtung (1d) zum Aufrufen bzw. Abfragen des Datensatz-Speicherbereichs (1e) unter Verwendung der Elementwort-Kandidaten, die durch die Elementwort-Erkennungseinrichtung (1a) ermittelt wurden, sukzessive als Schlüssel, um für jeden der Elementwort- Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, der den Elementwort-Kandidaten umfaßt;
eine Wahrscheinlichkeits-Berechnungseinrichtung (1f) zum Liefern von Wahrscheinlichkeitszählern, die den individuellen Datensatznummern entsprechen, die durch die Datensatznummer-Erfassungseinrichtung (1d) erhalten wurden, und zum Addieren der Wahrscheinlichkeiten der Elementwort-Kandidaten, die durch die Elementwort-Erkennungseinrichtung (1a) ermittelt wurden, zu denen der Wahrscheinlichkeitszähler, die den Datensatznummern der Datensätze entsprechen, welche die Elementwort-Kandidaten enthalten;
eine Ergebnis-Unterscheidungseinrichtung (1h) zum Unterscheiden bzw. Festlegen eines Datensatzes, der als Erkennungsresultat bestimmt wird, basierend auf den Zählerwerten der Wahrscheinlichkeitszähler; und
eine Ergebnis-Extraktionseinrichtung (1i) zum Extrahieren eines Datensatzes, der als Erkennungsresultat bestimmt wird, von dem Datensatz- Speicherbereich (1e) basierend auf einem Ergebnis der Festlegung der Ergebnis- Unterscheidungseinrichtung (1h).
2. Informationserkennungs-Vorrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß sie ferner aufweist:
einen begrenzten Datensatz-Speicherbereich (14c);
eine Datensatz-Begrenzungseinrichtung (14a) zum Aufrufen bzw. Abfragen des Datensatz-Speicherbereichs (1e) nur dann, wenn die durch die Elementwort-Erkennungseinrichtung (1a) ermittelten Elementwort-Kandidaten einen Elementwort-Kandidaten enthalten, welcher eine hohe Wahrscheinlichkeit aufweist und einem Datensatzbestandteil entspricht, in dem ein identisches Wort nicht häufig in unterschiedlichen Elementwort-Kandidaten enthalten ist, unter Verwendung des Elementwort-Kandidaten als ein Schlüssel, und zum Speichern von Datensätzen, welche den Elementwort-Kandidaten enthalten, in den begrenzten Datensatz-Speicherbereich (14c), wobei
die Datensatznummer-Erfassungseinrichtung (1d), wenn ein Datensatz oder Datensätze in dem begrenzten Datensatz-Speicherbereich (14c) gespeichert sind, den begrenzten Datensatz-Speicherbereich (14c) unter Verwendung der durch die Elementwort-Erkennungseinrichtung (1a) ermittelten Elementwort- Kandidaten als Schlüssel sukzessive abfragt, um für jeden der Elementwort- Kandidaten Datensatznummern von Datensätzen zu erhalten, die den Elementwort- Kandidaten enthalten, jedoch, wenn kein Datensatz in dem begrenzten Datensatz- Speicherbereich (14c) gespeichert ist, der Datensatz-Speicherbereich (1e) unter Verwendung der Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinrichtung (1a) ermittelt wurden, als ein Schlüssel sukzessive abgefragt wird, um für jeden der Elementwort-Kandidaten Datensatznummern von Datensätzen zu erhalten, welche den Elementwort-Kandidaten enthalten, und daß
die Ergebnis-Extraktionseinrichtung (1i) einen Datensatz, der als Erkennungsresultat bestimmt wird, von dem Datensatz-Speicherbereich (1e) oder dem begrenzten Datensatz-Speicherbereich (14c) extrahiert, basierend auf einem Ergebnis der Unterscheidung bzw. Festlegung der Ergebnis- Unterscheidungseinrichtung (1h).
einen begrenzten Datensatz-Speicherbereich (14c);
eine Datensatz-Begrenzungseinrichtung (14a) zum Aufrufen bzw. Abfragen des Datensatz-Speicherbereichs (1e) nur dann, wenn die durch die Elementwort-Erkennungseinrichtung (1a) ermittelten Elementwort-Kandidaten einen Elementwort-Kandidaten enthalten, welcher eine hohe Wahrscheinlichkeit aufweist und einem Datensatzbestandteil entspricht, in dem ein identisches Wort nicht häufig in unterschiedlichen Elementwort-Kandidaten enthalten ist, unter Verwendung des Elementwort-Kandidaten als ein Schlüssel, und zum Speichern von Datensätzen, welche den Elementwort-Kandidaten enthalten, in den begrenzten Datensatz-Speicherbereich (14c), wobei
die Datensatznummer-Erfassungseinrichtung (1d), wenn ein Datensatz oder Datensätze in dem begrenzten Datensatz-Speicherbereich (14c) gespeichert sind, den begrenzten Datensatz-Speicherbereich (14c) unter Verwendung der durch die Elementwort-Erkennungseinrichtung (1a) ermittelten Elementwort- Kandidaten als Schlüssel sukzessive abfragt, um für jeden der Elementwort- Kandidaten Datensatznummern von Datensätzen zu erhalten, die den Elementwort- Kandidaten enthalten, jedoch, wenn kein Datensatz in dem begrenzten Datensatz- Speicherbereich (14c) gespeichert ist, der Datensatz-Speicherbereich (1e) unter Verwendung der Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinrichtung (1a) ermittelt wurden, als ein Schlüssel sukzessive abgefragt wird, um für jeden der Elementwort-Kandidaten Datensatznummern von Datensätzen zu erhalten, welche den Elementwort-Kandidaten enthalten, und daß
die Ergebnis-Extraktionseinrichtung (1i) einen Datensatz, der als Erkennungsresultat bestimmt wird, von dem Datensatz-Speicherbereich (1e) oder dem begrenzten Datensatz-Speicherbereich (14c) extrahiert, basierend auf einem Ergebnis der Unterscheidung bzw. Festlegung der Ergebnis- Unterscheidungseinrichtung (1h).
3. Informationserkennungs-Vorrichtung nach Anspruch 1 oder 2,
dadurch gekennzeichnet, daß sie ferner aufweist:
einen Element-Vereinheitlichungstabellenbereich (16b), in dem repräsentative Darstellungen und Deformationsdarstellungen der Elementworte in einer einander entsprechenden Beziehung gespeichert sind, und
eine Elementwort-Vereinheitlichungseinrichtung (16a) zum Ausgeben derjenigen Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinrichtung (1a) ermittelt wurden, welche in den repräsentativen Darstellungen dargestellt wurden, so wie sie sind, jedoch
zum Ausgeben der Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinrichtung (1a) ermittelt wurden, und die in den Deformationsdar stellungen dargestellt sind, nachdem sie in Elementwort-Kandidaten der repräsentativen Darstellungen umgewandelt wurden, basierend auf den gespeicherten Inhalten des Element-Vereinheitlichungstabellenbereichs (16b), und daß
die Datensatznummer-Erfassungseinrichtung (1d) den Datensatz- Speicherbereich (1e) unter Verwendung der von der Elementwort- Vereinheitlichungseinrichtung (16a) ausgegebenen Elementwort-Kandidaten als Schlüssel sukzessive abfragt, um für jeden der Elementwort-Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, welcher den Elementwort- Kandidaten enthält.
einen Element-Vereinheitlichungstabellenbereich (16b), in dem repräsentative Darstellungen und Deformationsdarstellungen der Elementworte in einer einander entsprechenden Beziehung gespeichert sind, und
eine Elementwort-Vereinheitlichungseinrichtung (16a) zum Ausgeben derjenigen Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinrichtung (1a) ermittelt wurden, welche in den repräsentativen Darstellungen dargestellt wurden, so wie sie sind, jedoch
zum Ausgeben der Elementwort-Kandidaten, die durch die Elementwort- Erkennungseinrichtung (1a) ermittelt wurden, und die in den Deformationsdar stellungen dargestellt sind, nachdem sie in Elementwort-Kandidaten der repräsentativen Darstellungen umgewandelt wurden, basierend auf den gespeicherten Inhalten des Element-Vereinheitlichungstabellenbereichs (16b), und daß
die Datensatznummer-Erfassungseinrichtung (1d) den Datensatz- Speicherbereich (1e) unter Verwendung der von der Elementwort- Vereinheitlichungseinrichtung (16a) ausgegebenen Elementwort-Kandidaten als Schlüssel sukzessive abfragt, um für jeden der Elementwort-Kandidaten eine Datensatznummer eines Datensatzes zu erhalten, welcher den Elementwort- Kandidaten enthält.
4. Informationserkennungs-Vorrichtung nach einem der
vorhergehenden Ansprüche, dadurch gekennzeichnet, daß sie ferner aufweist:
einen hochrangigen Kandidatenspeicherbereich (13a) sowie ein hochrangiges Kandidatenregistrierungs-Durchführungsflag (11d), welches für jeden der Wahrscheinlichkeitszähler vorgesehen ist, und daß
die Wahrscheinlichkeits-Berechnungseinrichtung (1f), wenn eine Wahrscheinlichkeit zu einem der Wahrscheinlichkeitszähler addiert wird, ein entsprechendes der hochrangigen Kandidatenregistrierungs-Durchführungsflags (11d) ändert, so daß es einen Wert aufweist, welcher die vollständige Durchführung der Registrierung repräsentiert, wenn der Wahrscheinlichkeitszähler einen Zählerwert aufweist, der größer als ein im voraus bestimmter Grenzwert ist und das hochrangige Kandidatenregistrierungs-Durchführungsflag (11d) andernfalls die unvollständige Durchführung der Registrierung anzeigt, und daß sie ferner im Falle der vollständigen Durchführung der Registrierung eine Datensatznummer in dem hochrangigen Kandidatenspeicherbereich (13a) speichert, die dem Wahrscheinlichkeitszähler entspricht, dessen Wert höher ist als der Grenzwert, und daß
die Ergebnis-Unterscheidungseinrichtung (1h) einen als ein Erkennungsresultat der Erkennungsobjektinformation festzulegenden Datensatz festlegt basierend auf den Zählerwerten der Wahrscheinlichkeitszähler, die den Datensatznummern entsprechen, welche in den hochrangigen Kandidatenspeicherbereich (13a) abgespeichert sind.
einen hochrangigen Kandidatenspeicherbereich (13a) sowie ein hochrangiges Kandidatenregistrierungs-Durchführungsflag (11d), welches für jeden der Wahrscheinlichkeitszähler vorgesehen ist, und daß
die Wahrscheinlichkeits-Berechnungseinrichtung (1f), wenn eine Wahrscheinlichkeit zu einem der Wahrscheinlichkeitszähler addiert wird, ein entsprechendes der hochrangigen Kandidatenregistrierungs-Durchführungsflags (11d) ändert, so daß es einen Wert aufweist, welcher die vollständige Durchführung der Registrierung repräsentiert, wenn der Wahrscheinlichkeitszähler einen Zählerwert aufweist, der größer als ein im voraus bestimmter Grenzwert ist und das hochrangige Kandidatenregistrierungs-Durchführungsflag (11d) andernfalls die unvollständige Durchführung der Registrierung anzeigt, und daß sie ferner im Falle der vollständigen Durchführung der Registrierung eine Datensatznummer in dem hochrangigen Kandidatenspeicherbereich (13a) speichert, die dem Wahrscheinlichkeitszähler entspricht, dessen Wert höher ist als der Grenzwert, und daß
die Ergebnis-Unterscheidungseinrichtung (1h) einen als ein Erkennungsresultat der Erkennungsobjektinformation festzulegenden Datensatz festlegt basierend auf den Zählerwerten der Wahrscheinlichkeitszähler, die den Datensatznummern entsprechen, welche in den hochrangigen Kandidatenspeicherbereich (13a) abgespeichert sind.
5. Informationserkennungs-Vorrichtung nach einem der
vorhergehenden Ansprüche, dadurch gekennzeichnet, daß
die Elementwort-Erkennungseinrichtung (1a) jedes Wort in der
Erkennungsobjektinformation durch Schriftzeichenerkennung erkennt.
6. Informationserkennungs-Vorrichtung nach einem der Ansprüche 1
bis 4, dadurch gekennzeichnet, daß die Elementwort-Erkennungseinrichtung (1a)
jedes Wort in der Erkennungsobjektinformation durch Spracherkennung erkennt.
7. Informationserkennungs-Vorrichtung nach einem der
vorhergehenden Ansprüche, dadurch gekennzeichnet, daß
die Elementworte, welche Elemente der in dem Wortspeicherbereich (1c) abgespeicherten Erkennungsobjektinformationen bilden können, eine Postleitzahl (ZIP-Code), einen Ortsnamen, einen (Häuser-)Block, einen Namen einer Organisation, einen Gebäudenamen und einen Personennamen umfassen, und daß
die in dem Datensatz-Speicherbereich (1e) abgespeicherte Erkennungsobjektinformation aus tatsächlich existierenden Adressen besteht, von denen jede durch eine Kombination von Elementworten dargestellt werden kann.
die Elementworte, welche Elemente der in dem Wortspeicherbereich (1c) abgespeicherten Erkennungsobjektinformationen bilden können, eine Postleitzahl (ZIP-Code), einen Ortsnamen, einen (Häuser-)Block, einen Namen einer Organisation, einen Gebäudenamen und einen Personennamen umfassen, und daß
die in dem Datensatz-Speicherbereich (1e) abgespeicherte Erkennungsobjektinformation aus tatsächlich existierenden Adressen besteht, von denen jede durch eine Kombination von Elementworten dargestellt werden kann.
8. Informationserkennungs-Vorrichtung nach einem der Ansprüche 1
bis 6, dadurch gekennzeichnet, daß
die Elementworte, welche Elemente der Erkennungsobjektinformation
bilden können und in der Wort-Speichereinrichtung (1c) abgespeichert sind, einen
Kundennamen und einen individuellen Namen umfassen, und daß
die Erkennungsobjektinformation, die in der Datensatz-Speichereinrichtung (1e)
abgespeichert ist, aus tatsächlich existierenden Kundentransaktionsdaten besteht,
von denen jede als eine Kombination von Elementworten dargestellt werden kann.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8181423A JPH1011434A (ja) | 1996-06-21 | 1996-06-21 | 情報認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19726592A1 DE19726592A1 (de) | 1998-01-02 |
DE19726592C2 true DE19726592C2 (de) | 2000-05-31 |
Family
ID=16100522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19726592A Expired - Fee Related DE19726592C2 (de) | 1996-06-21 | 1997-06-23 | Informationserkennungs-Vorrichtung |
Country Status (3)
Country | Link |
---|---|
US (1) | US5995664A (de) |
JP (1) | JPH1011434A (de) |
DE (1) | DE19726592C2 (de) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6836759B1 (en) | 2000-08-22 | 2004-12-28 | Microsoft Corporation | Method and system of handling the selection of alternates for recognized words |
US6801660B1 (en) | 2000-08-22 | 2004-10-05 | Microsoft Corporation | Method and system for maintaining alternates in association with recognized words |
US6771817B1 (en) * | 2000-08-22 | 2004-08-03 | Microsoft Corporation | Method and system for extending ink word data structures while maintaining version compatibility |
US6785417B1 (en) | 2000-08-22 | 2004-08-31 | Microsoft Corp | Method and system for searching for words in ink word documents |
US6754386B1 (en) | 2000-08-22 | 2004-06-22 | Microsft Corporation | Method and system of matching ink processor and recognizer word breaks |
US7158935B1 (en) * | 2000-11-15 | 2007-01-02 | At&T Corp. | Method and system for predicting problematic situations in a automated dialog |
US20060253784A1 (en) * | 2001-05-03 | 2006-11-09 | Bower James M | Multi-tiered safety control system and methods for online communities |
US7095875B2 (en) * | 2001-05-15 | 2006-08-22 | Lockheed Martin Corporation | Method and system for address result arbitration |
CN104809325B (zh) | 2014-01-26 | 2018-06-01 | 国际商业机器公司 | 用于检测事件日志和过程模型之间的区别的方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5050218A (en) * | 1986-08-26 | 1991-09-17 | Nec Corporation | Apparatus for recognizing address appearing on mail article |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0682403B2 (ja) * | 1986-03-24 | 1994-10-19 | 沖電気工業株式会社 | 光学式文字読取装置 |
JPS647276A (en) * | 1987-06-30 | 1989-01-11 | Toshiba Corp | Character recognition method |
JPH01113865A (ja) * | 1987-10-28 | 1989-05-02 | Hitachi Ltd | 伝票文字認識・検証方式 |
JPH02173886A (ja) * | 1988-12-27 | 1990-07-05 | Toshiba Corp | 単語認識方式 |
JP2942375B2 (ja) * | 1991-04-30 | 1999-08-30 | 株式会社日立製作所 | 文字読取装置 |
US5161245A (en) * | 1991-05-01 | 1992-11-03 | Apple Computer, Inc. | Pattern recognition system having inter-pattern spacing correction |
US5287415A (en) * | 1991-10-24 | 1994-02-15 | International Business Machines Corporation | Elastic prototype averaging in online handwriting recognition |
JP3289304B2 (ja) * | 1992-03-10 | 2002-06-04 | 株式会社日立製作所 | 手話変換装置および方法 |
JPH0689302A (ja) * | 1992-09-08 | 1994-03-29 | Hitachi Ltd | 辞書メモリ |
US5392363A (en) * | 1992-11-13 | 1995-02-21 | International Business Machines Corporation | On-line connected handwritten word recognition by a probabilistic method |
JPH0766423A (ja) * | 1993-08-31 | 1995-03-10 | Toshiba Corp | 液晶表示装置用アレイ基板 |
JP2991594B2 (ja) * | 1993-08-31 | 1999-12-20 | 株式会社東芝 | 郵便物の宛名読取装置 |
JP3162552B2 (ja) * | 1993-09-22 | 2001-05-08 | 株式会社東芝 | 郵便物あて名認識装置及びあて名認識方法 |
JPH07262320A (ja) * | 1994-03-18 | 1995-10-13 | Matsushita Electric Ind Co Ltd | 住所認識装置 |
EP0694862A3 (de) * | 1994-07-22 | 1996-07-24 | At & T Corp | Erkennung von degradierten, graustufenförmigen Dokumenten mittels zweidimensionalen versteckten Pseudo-Markovmodellen und N-best-Hypothesen |
US5675665A (en) * | 1994-09-30 | 1997-10-07 | Apple Computer, Inc. | System and method for word recognition using size and placement models |
US5812698A (en) * | 1995-05-12 | 1998-09-22 | Synaptics, Inc. | Handwriting recognition system and method |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
-
1996
- 1996-06-21 JP JP8181423A patent/JPH1011434A/ja active Pending
-
1997
- 1997-06-23 US US08/880,769 patent/US5995664A/en not_active Expired - Fee Related
- 1997-06-23 DE DE19726592A patent/DE19726592C2/de not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5050218A (en) * | 1986-08-26 | 1991-09-17 | Nec Corporation | Apparatus for recognizing address appearing on mail article |
Non-Patent Citations (1)
Title |
---|
Seong-Whan-Lee und Eun-Soon-Kim: Efficient Postprocessing Algorithms for Error Correction in Handwritten Hangul Address and Human Name Reco- gnition, In: Pattern Recognition, Bd.27, 1994, H. 12, S. 1631-1640 * |
Also Published As
Publication number | Publication date |
---|---|
DE19726592A1 (de) | 1998-01-02 |
US5995664A (en) | 1999-11-30 |
JPH1011434A (ja) | 1998-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1665132B1 (de) | Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten | |
DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE2541204C3 (de) | Einrichtung zur Fehlerkorrektur | |
DE69637073T2 (de) | Prozessor und verarbeitungsverfahren für dokumente | |
DE69302003T2 (de) | Dateneingabeanlage | |
DE69722971T2 (de) | Automatisches sprachenerkennungssystem für die mehrsprachige optische zeichenerkennung | |
DE69613433T2 (de) | Dokumentklassifizierungseinheit und Dokumentwiederauffindungseinheit | |
DE69229468T2 (de) | Verfahren und Gerät zur Bestimmung der Wortfrequenz in einem Dokument ohne Dokumentbilddekodierung | |
DE4232507A1 (de) | Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten | |
DE69428590T2 (de) | Auf kombiniertem lexikon und zeichenreihenwahrscheinlichkeit basierte handschrifterkennung | |
DE2640537A1 (de) | Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen | |
DE19547812C2 (de) | Lesegerät für Schriftzeichenketten | |
DE19705757A1 (de) | Verfahren und Gerät für das Design eines hoch-zuverlässigen Mustererkennungs-Systems | |
DE102007052622A1 (de) | Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät | |
DE19726592C2 (de) | Informationserkennungs-Vorrichtung | |
DE60031502T2 (de) | Verfahren und Vorrichtung zur Typbestimmung eines Formblatts | |
DE2435889B2 (de) | Verfahren und einrichtung zur unterscheidung von zeichengruppen | |
DE3786816T2 (de) | Optische Zeichenerkennungsvorrichtung und optisches Zeichenerkennungsverfahren. | |
DE19839793B4 (de) | Datenwiedergewinnungs- und -anzeigesystem | |
EP0107083B1 (de) | Belegverarbeitungseinrichtung mit Korrekturschaltung und Datensichtgerät | |
DE19933984C2 (de) | Verfahren zur Bildung und/oder Aktualisierung von Wörterbüchern zum automatischen Adreßlesen | |
WO2007022880A1 (de) | Verfahren zur identifizierung von zu sortierenden sendungen | |
DE10034629A1 (de) | Verfahren und System zum Verzahnen von OCR und ABL zur automatischen Postsortierung | |
EP2259210A2 (de) | Verfahren und Vorrichtung zur Analyse einer Datenbank | |
EP0572749A1 (de) | Datenbank in einer EDV-Anlage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |