-
Die
vorliegende Erfindung bezieht sich auf ein/e Informationsverarbeitungsverfahren
und -vorrichtung, die zum Suchen von Bild- oder Textinformationen
in der Lage sind, die ein ausgewiesenes Suchwort enthalten.
-
Eine
Vorrichtung, die zum Suchen eines Bildes und zum Erstellen einer
Datenbank unter Verwendung eines durch eine OCR oder dergleichen
erkannten Eingabebildes in der Lage ist, steht herkömmlich zur
Verfügung.
-
In
dieser Vorrichtung zum Suchen des Bildes und zum Erstellen der Datenbank
wird der Schritt des Veranlassens eines Benutzers zum Bestätigen eines Erkennungsergebnisses
herkömmlicherweise
vor einer Registrierung ausgebildet, um eine Suchunvollständigkeit
zu bewältigen,
die durch eine fehlerhafte Erkennung bei einer Erkennungsverarbeitung
unter Verwendung einer OCR verursacht ist. In diesem Bestätigungsschritt
werden dem Benutzer Kandidatenzeichen dargestellt, die Zeichen bis
zu jenen hin enthalten, die niedrigere Ähnlichkeiten bei den Bestimmungsergebnissen
aufweisen. Der Benutzer wählt ein
korrektes Zeichen aus oder gibt ein korrektes Zeichen ein, falls
kein korrektes Zeichen in den Kandidatenzeichen enthalten ist. Ein
durch den Benutzer zu registrierender Text wird somit durch den
Benutzer manuell korrigiert, und der korrigierte Text wird dann registriert.
-
Eine
Technik zum mechanischen Korrigieren eines Textes unter Verwendung
eines Wortnachschlagewerks oder einer Wissensdatenbank steht anstelle
des Veranlassens des Benutzers zu einem manuellen Durchführen dieses
Korrekturvorgangs zur Verfügung.
-
Bei
dem Stand der Technik, der den manuellen Korrekturvorgang des Benutzers
erfordert, ist die Last des Benutzers schwer und ist ein mühsamer Vorgang
für eine
lange Zeitspanne bei jedem Registrierungsvorgang erforderlich. Dieser
Korrekturvorgang interferiert mit einer vollautomatischen Korrektur.
-
In
der Technik zum mechanischen Korrigieren des Textes unter Verwendung
des Wortnachschlagewerks oder der Wissensdatenbank können praktische
Anwendungen für
eine vollautomatische Korrektur nicht realisiert werden, ohne einen
Computer zu verwenden, der eine große Berechnungskapazität aufweist.
Außerdem
ist die Verlässlichkeit
bezüglich
der automatischen Korrektur noch immer problematisch.
-
Wird
eine fehlerhafte Korrektur bei dem Korrekturschritt des Begrenzens
eines einem Eingabezeichenbild entsprechenden Erkennungsergebnisses
bei einem Zeichen begangen, dann kann das korrigierte Zeichen nicht
auf das Eingabezeichenbild wiederhergestellt werden.
-
„Proceedings
of the Annual Symposium on Foundations of Computer Science", St. Louis, 22.
bis 24. Oktober 1990, Ausgabe 1, 22. Oktober 1990, "Institute of Electrical
and Electronis Engineers",
Seiten 116 bis 124, Chang W. I. u. a.: "Approximate String Matching in Sublinear
Expected Time" offenbart
ein Verfahren des Lokalisierens eines Musterwortes P in einem langen
Text-String T. Es ist insbesondere ein Algorithmus offenbart, in
welchem der Text-String, der Muster-String und die Anzahl von in
einer Übereinstimmung
erlaubten Unterschieden dort spezifiziert sind, wo die Anzahl von
Unterschieden kleiner als eine Funktion der Länge des Text-String ist.
-
„Pattern
Recognition", Ausgabe
23, Nr. 3/04, 1. Januar 1990, Seiten 363 bis 377, Takahashi H. u. a.: „A Spelling
Correction Method and Its Application to an OCR System" offenbart ein Verfahren
der Buchstabierkorrektur für
einen Benutzer, der Text und Daten in ein Computersystem eingibt,
in welchem Kandidatenworte ausgewählt werden und eine angenäherte String-Übereinstimmung
zwischen dem Eingabewort und jedem Kandidatenwort vorliegt.
-
„Algorithms
in C" von Robert
Sedgewick, Addison-Wesley Publishing Company, ISBN 0-201-51425-7,
1990, Seiten 277 bis 303, offenbart ein Verfahren der Musterübereinstimmung,
in welchem das erste Auftreten eines Muster-String in einem Text-String suchbar
ist.
-
Gemäß einer
ersten Ausgestaltung der Erfindung ist ein Informationsverarbeitungsverfahren
in einer Informationsverarbeitungsvorrichtung bereitgestellt, die
eine Zeichenerkennungseinrichtung, eine Speichereinrichtung und
eine Ausweisungseinrichtung enthält,
mit den Schritten des Suchens nach einer ausgewiesenen Kennzeichenkette,
die durch die Ausweisungseinrichtung ausgewiesen ist, in Textinformationen,
die von einem Dokumentenbild durch die Zeichenerkennungseinrichtung
erkannt sind, und des Bereitstellens von Suchergebnisinformationen, die
die ausgewiesene Zeichenkette enthalten, wobei das Verfahren gekennzeichnet
ist durch: einen ersten Bestimmungsschritt des Bestimmens, ob ein
spezifisches in der Speichereinrichtung gespeichertes Zeichen in
der ausgewiesenen Zeichenkette enthalten ist, oder nicht, einen
Suchschlüs selerzeugungsschritt des
Erzeugens, wenn bestimmt ist, dass das spezifische Zeichen der ausgewiesenen
Zeichenkette enthalten ist, eines Suchschlüssels, der aus einer Kombination
aus benachbarten Zeichen in einer Zeichenkette besteht, die durch
Löschen
des spezifischen Zeichens aus der ausgewiesenen Zeichenkette gebildet
ist, einen zweiten Bestimmungsschritt des Bestimmens, ob der Suchschlüssel in
einem Index enthalten ist, oder nicht, der die gleiche Anzahl von
Zeichen wie die Anzahl von Zeichen des Suchschlüssels aufweist, einen dritten
Bestimmungsschritt des Bestimmens, wenn in dem zweiten Bestimmungsschritt bestimmt
ist, dass ein Suchschlüssel
in dem Index enthalten ist, ob ein Zeichenkettenmuster, das durch Ersetzen
des spezifischen in der ausgewiesenen Zeichenkette enthaltenen Zeichens
durch eine weitere Zeichenkette erhalten ist, in den Textinformationen enthalten
ist, wobei die weitere Zeichenkette eine Anzahl von Zeichen innerhalb
einer vorbestimmten Anzahl aufweist, und einen Anzeigeschritt des
Veranlassens der Anzeige der Textinformationen, die in dem dritten
Bestimmungsschritt bestimmt sind, dass das Zeichenkettenmuster enthalten
ist, oder eines Dokumentenbildes, das den Textinformationen entspricht.
-
Gemäß einer
zweiten Ausgestaltung der Erfindung ist eine Informationsverarbeitungsvorrichtung
mit einer Zeichenerkennungseinrichtung, einer Speichereinrichtung
und einer Ausweisungseinrichtung bereitgestellt, wobei die Vorrichtung
zum Suchen nach einer ausgewiesenen Zeichenkette, die durch die
Ausweisungseinrichtung ausgewiesen ist, in Textinformationen, die
aus einem Dokumentenbild durch die Zeichenerkennungseinrichtung
erkannt sind, und zum Bereitstellen von Suchergebnisinformationen,
die die ausgewiesene Zeichenkette enthalten, eingerichtet ist, wobei
die Vorrichtung dadurch gekennzeichnet ist, dass sie umfasst: eine
erste Bestimmungseinrichtung zum Bestimmen, ob ein spezifisches
in der Speichereinrichtung gespeichertes Zeichen in der ausgewiesenen
Zeichenkette enthalten ist, oder nicht, eine Suchschlüsselerzeugungseinrichtung
zum Erzeugen, wenn bestimmt ist, dass das spezifische Zeichen in
der ausgewiesenen Zeichenkette enthalten ist, eines Suchschlüssels, der aus
einer Kombination von benachbarten Zeichen in einer Zeichenkette
besteht, die durch Löschen
des spezifischen Zeichens aus der ausgewiesenen Zeichenkette gebildet
ist, eine zweite Bestimmungseinrichtung zum Bestimmen, ob der Suchschlüssel in
einem Index enthalten ist, oder nicht, der die gleiche Anzahl von
Zeichen wie die Anzahl von Zeichen des Suchschlüssels aufweist, und eine dritte
Bestimmungseinrichtung zum Bestimmen, wenn in der zweiten Bestimmungseinrichtung
bestimmt ist, dass ein Suchschlüssel
in dem Index enthalten ist, ob ein Zeichenmuster, das durch Ersetzen
des spezifischen in der ausgewiesenen Zeichenkette enthaltenen Zeichens
durch eine weitere Zeichenkette erhalten ist, in den Textinformationen
enthalten ist, oder nicht, wobei die weitere Zeichenkette eine Anzahl
von Zeichen innerhalb einer vorbestimmten Anzahl aufweist, und eine
Anzeigeeinrichtung, die zum Veranlassen der Anzeige von Textinformationen,
die in dem dritten Bestimmungsschritt bestimmt sind, dass das Zeichenkettenmuster
enthalten ist, oder eines den Textinformationen entsprechenden Dokumentenbildes
eingerichtet ist.
-
Ausführungsbeispiele
der Erfindung sind nachstehend unter Bezugnahme auf die beiliegenden
Zeichnungen beschrieben. Es zeigen:
-
1 ein
Ablaufdiagramm einer OCR-Verarbeitung,
-
2 ein
Ablaufdiagramm einer Verarbeitung zum Erstellen eines Suchindex,
der Bildinformationen hinzugefügt
ist,
-
3 ein
Ablaufdiagramm einer Verarbeitung zum Suchen eines Dokuments unter
Verwendung eines Suchindex,
-
4 eine
Blockdarstellung der Anordnung einer Informationsverarbeitungsvorrichtung
gemäß einem
Ausführungsbeispiel,
-
5,
die 5A bis 5C umfasst,
ein Ablaufdiagramm einer ersten Suchverarbeitung für ein gesamtes
Dokument,
-
6,
die 6A bis 6C umfasst,
ein Ablaufdiagramm einer zweiten Suchverarbeitung für ein gesamtes
Dokument,
-
7 ein
Ablaufdiagramm einer ersten Lösungsverarbeitung
für ein
Zeichen,
-
8 ein
Ablaufdiagramm einer zweiten Lösungsverarbeitung
für ein
Zeichen,
-
9 ein
Ablaufdiagramm einer dritten Löschungsverarbeitung
für ein
Zeichen, und
-
10 eine
Ansicht eines ein erfindungsgemäßes Steuerprogramm
speichernden Speichermediums.
-
Die
Anordnung einer Informationsverarbeitungsvorrichtung eines Ausführungsbeispiels
der Erfindung ist gemäß 4 gezeigt
und ist nachstehend beschrieben.
-
Unter
Bezugnahme auf 4 ist eine Bildabtasteinrichtung 1 mit
einem Computer 10 direkt oder durch eine Kommunikationseinrichtung
verbunden. Die Bildabtasteinrichtung 1 tastet ein (Original)-Dokumentenbild
ab und liest optisch das Bild. Eine OCR-(optische Zeichenleseeinrichtung, „Optical Character
Reader")-Verarbeitungssoftware 2 ist
in dem Computer 10 installiert, um die Zeichen von von der
Bildabtasteinrichtung 1 oder dergleichen eingegebenen Bildinformationen
zu erkennen, um Textinformationen zu gewinnen. Eine Dokumentensuchsoftware 3 ist
in dem Computer 10 installiert, um eine Suchdatei aus den
in der OCR-Verarbeitung gewonnenen Textinformationen zur Verarbeitung
der von der Bildabtasteinrichtung 1 oder dergleichen eingegebenen
Bildinformationen zu erstellen. Die Dokumentensuchsoftware 3 führt ebenso
eine Suchverarbeitung durch.
-
Die
OCR-Verarbeitungssoftware 2 und die Dokumentensuchsoftware 3 sind
unter der Steuerung der CPU des Computers 10 gemäß einem
in dem Speicher des Computers 10 gespeicherten Steuerprogramms
ausgeführt.
Durch (nachstehend beschriebene) Ablaufdiagramme dargestellte Verarbeitungsvorgänge sind
ebenso unter der Steuerung der CPU des Computers 10 gemäß dem in
dem Speicher des Computers 10 gespeicherten Steuerprogramms
ausgeführt.
-
Ein
externer Speicher 4 weist einen Bildinformations-Speicherabschnitt 4-1 zum
Speichern von von der Bildabtasteinrichtung 1 oder dergleichen
eingegebenen Bildinformationen, einen Textinformations-Speicherabschnitt 4-2 und einen
Suchdatei-Speicherabschnitt 4-3 auf. Der Suchdatei-Speicherabschnitt 4-3 speichert
Indices, Dokumentenverwaltungsinformationen (DB) und dergleichen.
Eine Tastatur 5 gibt ein Suchwort und eine Suchbedingung ein.
Eine Anzeigeeinrichtung 6 zeigt Eingabeaufforderungen für ein Suchwort
und eine Suchbedingung an und zeigt ebenso Bildinformationen und
dergleichen an. Wie vorste hend beschrieben, umfasst der Computer 10 den
Speicher, der das Steuerprogramm zur Durchführung von verschiedenen Verarbeitungsvorgängen, die
nachstehend in diesem Ausführungsbeispiel
beschrieben sind, speichert, die CPU zum Ausführen einer Verarbeitung gemäß dem Steuerprogramm,
und dergleichen.
-
Eine
Akkumulationsverarbeitung in der gemäß 4 gezeigten
Bildverarbeitungsvorrichtung enthält die Schritte des Speicherns
von von der Bildabtasteinrichtung 1 eingegebenen Bildinformationen
in dem externen Speicher 4, des Umwandelns der in dem externen
Speicher 4 gespeicherten Bildinformationen in Textinformationen
unter Verwendung der OCR-Verarbeitungssoftware 2 und des
Speicherns der Textinformationen in dem externen Speicher 4,
und des Speicherns einer Suchdatei, die aus den Textinformationen
durch die Dokumentensuchsoftware 3 erstellt ist, in dem
externen Speicher 4.
-
Eine
Suchverarbeitung enthält
die Schritte des Vergleichens eines von der Tastatur 5 eingegebenen
Suchwortes mit einer Suchdatei durch die Dokumentensuchsoftware 3 zum
Suchen eines Dokuments, das mit einer Suchbedingung übereinstimmt, des
Entnehmens von Dokumentenadressinformationen aus diesem Dokument,
und des Anzeigens von Bilddaten dieses Dokuments auf der Anzeigeeinrichtung 6.
-
In
dem Suchsystem, das durch die Akkumulierungsverarbeitung und die
Suchverarbeitung realisiert ist, die vorstehend beschrieben sind,
ist ein Hauptverfahren zum Verhindern von Suchauslassungen nachstehend
beschrieben, die durch eine fehlerhafte Erkennung bei einer OCR-Erkennung
verursacht sind.
-
Es
liegen hauptsächlich
drei Verfahren zum Verhindern von Suchauslassungen vor.
- 1. Unter der Annahme, dass ein Zeichenbild erfolgreich entnommen
ist, werden eine Vielzahl von Kandidatenzeichen und Suchindices
unter Verwendung der Erkennungswahrscheinlichkeiten der Vielzahl
von Kandidatenzeichen erstellt, und wird eine Suche unter Verwendung
der Vielzahl von Kandidatenzeichen und der Suchindices durchgeführt.
- 2. Es wird betrachtet, ob ein Fehler in dem entnommenen Zeichenbild
enthalten ist, oder ob keine korrekte Lösung in einer Vielzahl von
Kandidatenzeichen enthalten ist, die einem Zeicheneingabebild entspricht.
Es wird eine Suche, die eine Hinzufügung eines Sonderzeichens zu
einem ausgewiesenen Suchwort gestattet, vergleichend mit dem ausgewiesenen
Suchwort und einer Suchdatei durchgeführt.
- 3. Es wird betrachtet, ob ein Fehler in dem entnommenen Zeichenbild
enthalten ist, oder ob keine korrekte Lösung in einer Vielzahl von
Kandidatenzeichen enthalten ist, die einem Zeicheneingabebild entspricht.
Eine Zeichenkettenmustergruppe ist durch Löschen eines Zeichens oder von Zeichen
aus einem ausgewiesenen Suchwort gewonnen, und es wird eine Suche
durchgeführt,
die eine Hinzufügung
eines Sonderzeichens zu der Zeichenkettenmustergruppe gestattet.
-
Verfahren
1 ist nachstehend ausführlich
unter Bezugnahme auf ein Ablaufdiagramm gemäß 2 beschrieben,
und Verfahren 2 und 3 sind nachstehend ausführlich unter Bezugnahme auf
Ablaufdiagramme gemäß 3 und 5 bis 7 beschrieben.
Vor einer Beschreibung dieser Ablaufdiagramme ist eine bei einer
Registrierung eines Bildes ausgeführte OCR-Verarbeitung unter
Bezugnahme auf ein Ablaufdiagramm gemäß 1 beschrieben.
-
(OCR-Verarbeitung)
-
Es
werden zu registrierende Bildinformationen von der Bildabtasteinrichtung 1 eingegeben (S101).
Die eingegebenen Bildinformationen werden in dem Bildinformations-Speicherabschnitt 4-1 des externen
Speichers 4 gespeichert. Obwohl die Bildinformationen direkt
von der Bildabtasteinrichtung 1 eingegeben sind, können sie
durch einen anderen Computer oder ein Fax-System durch eine Kommunikationseinrichtung
eingegeben werden.
-
Die
eingegebenen Bildinformationen werden analysiert, um zu bestimmen,
ob Zeichendaten vorhanden sind (S102). Falls NEIN in Schritt S102,
dann geht der Ablauf nicht zu der OCR-Verarbeitung über, sondern
es wird eine normale Bildinformations-Registrierungsverarbeitung
durchgeführt.
-
Falls
JA in Schritt S102, dann werden Ein-Zeichen-Bilddaten entnommen (S103), und dieses
entnommene Zeichen wird erkannt (S104). Eine Verarbeitung zum Entscheiden
der Form der als Textinformationen gespeicherten Zeicheninformationen in
Schritten S105 bis S111 wird auf der Grundlage dieses Erkennungsergebnisses
(einschließlich
Erkennungswahrscheinlichkeits-Informationen) ausgeführt.
-
Die
Verarbeitung zum Entscheiden der Form der als die Textinformationen
gespeicherten Zeicheninformationen ist wie nachstehend beschrieben
ausgeführt.
Weist ein Erkennungskandidatenzeichen eine Erkennungswahrscheinlichkeit
auf, die zum Erreichen eines vorbestimmten, signifikanten Wahrscheinlichkeitsbestimmungs-Schwellenwertes
Th1 bestimmt (S105) ist, dann wird sein Kandidatenzeichen als ein
Erkennungsergebnis ausgegeben (S106). Weist jedoch ein Erkennungszielzeichen
eine Erkennungswahrscheinlichkeit auf, die zum Nicht-Erreichen des
signifikanten Wahrscheinlichkeitsbestimmungs-Schwellenwertes Th1
bestimmt (S105) ist, dann wird ein Begrenzer ausgegeben, der die
Startposition einer Vielzahl von Kandidatenzeichen darstellt, um
die Vielzahl von Kandidatenzeichen zu identifizieren (S107). Der
Ablauf verzweigt sich in einen Fall a (S109) und einen Fall b (S110)
durch adaptives Betrachten (S108) der Erkennungswahrscheinlichkeit
eines jeden der Vielzahl von Erkennungskandidatenzeichen.
- a. Es werden Kandidatenzeichen, von denen ein jedes
einen vorbestimmten, niedrigen Erkennungswahrscheinlichkeitsbestimmungs-Schwellenwert
Th2 (Th1 > Th2) oder
mehr aufweist, und die Anzahl dieser Kandidatenzeichen ausgegeben.
- b. Es werden Erkennungskandidatenzeichen in einer Anzahl Nmax,
die von jenem die höchste Wahrscheinlichkeit
aufweisenden vorbestimmt ist, und die Anzahl dieser Erkennungskandidatenzeichen
werden ausgegeben.
-
Die
Form einer Ergebnisausgabe in Schritten S107 bis S111 ist definiert
als „@
[Anzahl von Kandidatenzeichen] [Kandidatenzeichen 1] [Kandidatenzeichen
2] [Kandidatenzeichen 3]... @".
-
Bei
einer Bestimmung zum Verzweigen in Schritt S108, wenn alle Erkennungswahrscheinlichkeiten
der Vielzahl von Erkennungskandidatenzeichen Th2 oder weniger betragen
und miteinander beinahe identisch sind, geht der Ablauf zu Schritt S110 über; anderenfalls
geht der Ablauf zu Schritt S109 über.
-
Der
bei diesen Verarbeitungsvorgängen
verwendete Parameter Th1 ist ein Schwellenwert zum Bestimmen, ob
ein Erkennungsergebnis höchstwahrscheinlich
ist, und ob die Kandidatenzeichen auf ein Zeichen begrenzt sind.
Der Parameter Th2 ist ein Schwellenwert zum Bestimmen, ob ein Kandidatenzeichen,
das einen kleineren Erkennungswahrscheinlichkeitswert als Th2 aufweist,
ein unwahrscheinliches Erkennungsergebnis aufweist. Die Parameter
Th1 und Th2 und die Maximalanzahl Nmax von Erkennungskandidatenzeichen
sind in dem Speicher des Computers 10 zuvor gespeichert.
-
Werden
die Kandidatenzeichen in Schritt S109 oder S110 ausgegeben, dann
wird ein Begrenzer ausgegeben, der die Endposition der Vielzahl
von Kandidatenzeichen darstellt (S111).
-
Ist
das Erkennungsergebnis eines Zeichens vollendet ausgegeben, dann
kehrt der Ablauf zu Schritt S102 zurück, und eine Erkennungsverarbeitung
für das
nächste
Zeichen wird durchgeführt.
Die Verarbeitung in Schritten S102 bis S111 wird wiederholt, bis
in Schritt S102 das Fehlen eines zu erkennenden Zeichens bestimmt
wird.
-
Die
gemäß 1 gezeigte
OCR-Verarbeitung ist nachstehend ausführlich in einem Fall beschrieben,
in welchem das Wort „parent" auf einem Original
vorhanden ist.
-
In
Schritt S103 wird ein Zeichenbild von „p" entnommen. Es sei angenommen, dass
in Schritt S104 ein erstes Kandidatenzeichen „p" dahingehend gewonnen wird, einen Wert
der Erkennungswahrscheinlichkeit Th1 oder mehr als ein Ergebnis
der Erkennung aufzuweisen. In diesem Fall wird in Schritt S106 ein
Erkennungsergebnis von „p" ausgegeben.
-
Auf
die gleiche wie vorstehend beschriebene Weise wird „a" ausgegeben.
-
In
Schritt S103 wird ein Zeichenbild von "r" entnommen.
Es sei angenommen, dass alle Erkennungsergebnisse dieses Zeichens
einen Wert von kleiner als Th1 aufweisen (S105) als ein Erkennungsergebnis
in Schritt S104, und dass alle Erkennungskandidatenzeichen beinahe
gleiche Wahrscheinlichkeiten aufweisen, die kleiner als Th2 sind
(S108). In Schritt S107 wird ein Begrenzer ausgegeben. In Schritt
S110 werden die Kandidatenzeichen in der Anzahl Nmax von jenem an
ausgegeben, das eine höhere
Wahrscheinlichkeit aufweist. In Schritt S111 wird dann ein Begrenzer
ausgegeben.
-
Es
sei angenommen, dass die in Schritt S110 ausgegebenen Kandidatenzeichen
drei Kandidatenzeichen sind, d. h. „t", „i" und „f", und dass der Begrenzer
z. B. „@" ist. In diesem Fall
wird das Ausgabeergebnis der Verarbeitung in Schritten S107 bis S111
als „@3tif@" angegeben.
-
Die
Erkennung setzt sich fort, und in Schritt S103 wird ein Zeichenbild
von „e" entnommen. Das erste
Kandidatenzeichen von „e" wird als ein Zeichen gewonnen,
das die Erkennungswahrscheinlichkeit Th1 oder mehr als ein Ergebnis
der Erkennung in Schritt S104 aufweist. In diesem Fall wird in Schritt S106
ein Erkennungsergebnis von „e" ausgegeben.
-
In
Schritt S103 wird ein Zeichenbild von „n" entnommen. Das erste Kandidatenzeichen
von „n" wird als ein Zeichen
gewonnen, das eine Erkennungswahrscheinlichkeit Th1 oder mehr als
ein Ergebnis der Erkennung in Schritt S104 aufweist. In diesem Fall
wird in Schritt S106 ein Erken nungsergebnis von „n" ausgegeben.
-
Außerdem wird „t" ausgegeben.
-
Das
Erkennungsergebnis der vorstehend beschriebenen Verarbeitung lautet „pa@3tif@ent" und wird in dem
Textinformations-Speicherabschnitt 4-2 gespeichert.
-
Die
Ausgabeform des Erkennungsergebnisses besteht in einem Verwenden
eines Begrenzers, der Zeichenschlüssel trennt, und dies ist lediglich
ein Beispiel. Ein anderes Verfahren des Bestimmens des Speicherortes
in dem Textinformations-Speicherabschnitt in Einheiten von Kandidatenzeichen,
die von einem Zeicheneingabebild gewonnen sind, um die Speicheradressen
für ein
Zeicheneingabebild zu verwalten, kann eingesetzt werden, falls das
Verfahren Zeichenschlüssel
trennen kann.
-
Eine
Verarbeitung zum Erstellen eines den Bildinformationen hinzugefügten Suchindex
auf der Grundlage der Textinformationen, die in der gemäß dem Ablaufdiagramm
von 1 gezeigten OCR-Verarbeitung erstellt sind, ist
nachstehend ausführlich unter
Bezugnahme auf das Ablaufdiagramm gemäß 2 gezeigt.
-
(Erstellung des Suchindex)
-
Informationen
zum Ausweisen einer Zeichenschlüsselart
für einen
Index werden von der Tastatur 5 eingegeben (S201). Dann
wird ein Index aus einem Zeichen erstellt, das der ausgewiesenen
Zeichenschlüsselart
entspricht.
-
Es
werden Textinformationen geladen, die in dem Textinformations-Speicherabschnitt 4-2 gespeichert
sind und den Bildinformationen als ein Indexerstellungsziel entsprechen
(S202).
-
Es
wird ein Zeichen, das der in Schritt S201 eingegebenen Art entspricht,
aus den geladenen Textinformationen gelesen (S204). Es wird bestimmt, ob
das gelesene Zeichen ein Begrenzer ist (S205). Ist das gelesene
Zeichen kein Begrenzer, dann wird dieses Zeichen dem Ende des Index
hinzugefügt,
der in Erstellung befindlich ist (S206). Wird das gelesene Zeichen
jedoch als ein Begrenzer bestimmt, dann werden Kandidatenzeichen
zwischen dem Begrenzer und dem nächsten
Begrenzer zu dem Ende des Index hinzugefügt, der in Erstellung befindlich
ist, wodurch eine Vielzahl von Indices gebildet wird (S207).
-
Es
wird gemäß der Anzahl
von Zeichen des Index, der in Schritt S206 oder S207 erstellt wurde, bestimmt,
ob der Index vollendet ist (S208). Falls JA in Schritt S208, dann
wird der vollendete Index in dem Suchdatei-Speicherabschnitt 4-3 gespeichert. Falls
NEIN in Schritt S208, dann kehrt der Ablauf zu Schritt S204 zurück, und
das nächste
Zeichen wird gelesen, um fortlaufend einen Index zu erstellen.
-
Es
wird zuvor in dem Speicher des Computers ein Parameter gespeichert,
der die Anzahl von Zeichen darstellt, die als ein Kriterium zur
Bestimmung in Schritt S208 dienen, ob der Index vollendet ist.
-
Ist
die Erstellung eines Index vollendet, dann kehrt der Ablauf zu Schritt
S203 zurück.
Sind übrig bleibende
Zeichendaten vorhanden, dann werden fortlaufend Indices erstellt.
-
Bei
der vorstehend beschriebenen Verarbeitung werden Erkennungskandidatenzeichen
mit vorangegangenen und nachfolgenden Zeichen aus den OCR-verarbeiteten
Textinformationen kombiniert, und es werden Zeichenketten gemäß den ausgewiesenen
Zeichenschlüsselarten
entwickelt, wodurch Indices erstellt werden, die zu einer Minimierung
von Suchauslassungen in der Lage sind.
-
Werden
Indices aus den Textinformationen von „pa@3tif@ent", die gemäß 1 beschrieben sind,
gemäß der Verarbeitung
des Ablaufdiagramms gemäß 1 erstellt,
dann werden insgesamt neun Schlüssel
erstellt, d. h. „pa", „at", „ai", „af", „te", „ie", „fe", „en" und „nt", und werden bei
den Indices berücksichtigt.
Diese Schlüssel
werden in dem Suchdatei-Speicherabschnitt 4-3 gespeichert.
Eine Dokumentensuchverarbeitung unter Verwendung eines Suchindex,
der bei der Verarbeitung des Ablaufdiagramms gemäß 2 erstellt
ist, ist nachstehend ausführlich
unter Bezugnahme auf das Ablaufdiagramm gemäß 3 beschrieben.
-
(Dokumentensuche unter Verwendung des
Index)
-
Ein
zu suchendes Wort wird von der Tastatur 5 eingegeben, und
eine Suchausführung
wird ausgewiesen (S301). Es wird gemäß einer Suchebene oder Spezifikationen,
die über
einer Ausweisung der Suchausführung
gesetzt werden, bestimmt, ob eine Suchverarbeitung mit Korrektur
eines Zeichenentnahmefehlers bei der OCR-Verarbeitung ausgewiesen
ist (S302). Falls NEIN in Schritt S302, dann wird das in Schritt
S301 eingegebene Wort in Suchschlüssel unterteilt. Die Suchschlüssel werden
mit den in dem Suchdatei-Speicherabschnitt gespeicherten Indices
verglichen (S304). Die Adressen von in dieser Vergleichsverarbeitung
als übereinstimmende
Dokumente bestimmten Dokumenten werden als das Suchergebnis ausgegeben
(S307).
-
Wird
in Schritt S302 bestimmt, dass eine Zeichenentnahme-Fehlerkorrektur ausgewiesen
ist, dann werden Zeichen aus dem in Schritt S301 eingegebenen Wort
gelöscht,
um Muster zu erstellen, und die Muster, d. h. die Reste des Wortes,
werden in Suchschlüssel
unterteilt (S305). Diese Suchschlüssel werden mit den in dem
Suchdatei-Speicherabschnitt gespeicherten Indices verglichen (S306).
Teile der Indexinformationen, die den Suchschlüsseln für die erstellten Muster entsprechen,
werden aus der Suchdatei entnommen, und die Teile der Indexinformationen,
die den Suchschlüsseln
entsprechen, werden in Einheiten von Mustern logisch UND- verknüpft. Die
logischen UND-Ergebnisse
werden dann für
alle Muster logisch ODER-verknüpft. Diese
Zeichenentnahme-Fehlerkorrektur wird durchgeführt, und selbst einen Zeichenentnahmefehler
aufweisende Bildinformationen können
gesucht werden, obwohl Rauschen mehr oder weniger überlagert
ist.
-
Die
Adressen von in dieser Vergleichsverarbeitung als übereinstimmende
Dokumente bestimmten Dokumenten werden als das Suchergebnis ausgegeben
(S307).
-
Jeder
in Schritten S303 und S305 unterteilte Suchschlüssel weist die gleiche Anzahl
von Zeichen wie jene eines Index auf. Die Suchschlüssel werden in
dem gleichen Verfahren wie bei der Indexerstellung unterteilt, die
in dem Ablaufdiagramm gemäß 2 beschrieben
ist.
-
Dokumentenbildinformationen
werden von dem Bildinformations-Speicherabschnitt 4-1 gemäß jeder
in Schritt S307 ausgegebenen Dokumentenadresse gelesen und werden
auf der Anzeigeeinrichtung 6 angezeigt. In diesem Fall
kann, falls eine Vielzahl von Dokumenten anzuzeigen ist, die Liste
von Titeln von gesuchten Dokumenten angezeigt werden, und kann ein
Bild gemäß einer
darauf folgenden Anweisung zum Anzeigen von Bildinformationen angezeigt
werden.
-
Ein
Dokumentensuchvorgang unter Verwendung eines Index bei Eingabe eines
Suchwortes „temple" von der Tastatur 5 in
Schritt S301 ist nachstehend beschrieben.
-
Das
in Schritt S301 eingegebene Suchwort „temple" wird in Schritt S303 in Suchschlüssel „te", „em", „mp", „pl" und „le" unterteilt. In Schritt
S304 werden alle diese Suchschlüssel
mit den in dem Suchdatei-Speicherabschnitt gespeicherten Indices
verglichen. Dokumente, denen alle Indices „te", „em", „mp", „pl" und „le" hinzugefügt sind,
werden gesucht und in Schritt S307 ausgegeben.
-
Es
sei angenommen, dass beispielsweise bei der OCR-Verarbeitung, die bei der Registrierung eines
Bildes ausgeführt
wird, ein Zeichenbildentnahmefehler bei einem Zeichen von „m" auftritt, und dass „m" als zwei Muster
entnommen wird, ein Erkennungsergebnis „te@2rm@ple" aus der Zeichenkette von „temple" gewonnen ist, und
dass dieses Ergebnis als Textinformationen gespeichert wird. Aus
diesem Suchergebnis werden lediglich die Indices „te", „er", „en", „rp", „np", „pl", und „le" erstellt. Deshalb kann
dieses Dokument nicht von den Suchschlüsseln „te", „em", „mp", „pl" und „le" gesucht werden,
die aus dem Suchwort in Schritt S303 erstellt sind.
-
Eine
Suchverarbeitung, die zum Suchen des Dokuments in der Lage ist,
das „temple" in einem Bild enthält, ist
eine Verarbeitung (S305 und S306) zum Durchführen einer Zeichenentnahmefehlerkorrektur.
-
In
Schritt S305 werden sechs Muster „emple", „tmple", „teple", „temle", „tempe" und „templ" erstellt, von denen jedes
durch Löschen
eines Zeichens aus „temple" erstellt ist, und
diese sechs Muster werden in Suchschlüssel unterteilt.
-
Schließlich werden
die Suchschlüssel
von den vorstehend beschriebenen sechs Mustern gewonnen:
-
Die
resultierenden Suchschlüssel
werden mit in dem Suchdatei-Speicherabschnitt 4-3 gespeicherten
Indices verglichen.
-
Wird
ein Suchvorgang in Anbetracht eines Zeichenentnahmefehlers von einer
Anwendungssoftware bei einer Dokumentensuchverarbeitung mit einem
Index des Ablaufdiagramms gemäß 3 ausgewiesen,
dann wird in Schritt S305 eine Zeichenlöschungsverarbeitung durch ein
Verfahren durchgeführt,
das in den Ablaufdiagrammen gemäß 7 bis 9 gezeigt
ist. Die in den Ablaufdiagrammen gemäß 7 bis 9 gezeigte
Verarbeitung stellt ein Lösungsverfahren
in Anbetracht verschiedener Zeichenentnahmefehler dar und ist nachstehend
beschrieben.
-
Bei
der in dem Ablaufdiagramm gemäß 7 gezeigten
Verarbeitung wird die Anzahl von zu löschenden Zeichen durch einen
Operator ausgewiesen (S701), und werden alle möglichen Muster gemäß der ausgewiesenen
Anzahl von zu löschenden Zeichen
erstellt (S702).
-
In
der in dem Ablaufdiagramm gemäß 8 gezeigten
Verarbeitung wird die Anzahl von zu löschenden Zeichen bestimmt (S802)
abhängig
von der Länge
eines in Schritt S801 ausgewiesenen Suchwortes, und alle möglichen
Muster werden gemäß der bestimmten
Anzahl von zu löschenden
Zeichen erstellt (S803). Die Anzahl von zu löschenden Zeichen wird durch
eine vorab gespeicherte Berechnungsformel gemäß der Anzahl von Zeichen des ausgewiesenen
Suchwortes bestimmt. Die Berechnungsformel ist in dem Speicher des
Computers 10 gespeichert.
-
Bei
der in dem Ablaufdiagramm gemäß 9 gezeigten
Verarbeitung wird in Schritten S901 bestimmt, ob ein in Schritt
S901 ausgewiesenes Suchwort ein Zeichen oder Zeichen enthält, bei
denen eine unangemessene Erkennung durch die OCR wahrscheinlich
ist (S902). Falls JA in Schritt S902, dann wird ein derartiges Zeichen
gelöscht
(S903). Falls NEIN in Schritt S902, dann wird keine Verarbeitung
zum Löschen
eines Zeichens oder von Zeichen aus dem Suchwort durchgeführt, und
die Zeichenkette des ausgewiesenen Suchwortes wird als ein Suchmuster
definiert. Die Zeichen, bei denen eine unangemessene Erkennung durch
die OCR wahrscheinlich ist, werden in Form z. B. einer Tabelle gespeichert.
Diese Zeichen werden mit einem Suchwort verglichen, um in Schritt
S902 eine Bestimmung durchzuführen.
Da die zu löschenden
Zeichen begrenzt sind, kann die Anzahl von gelöschten Mustern verringert werden.
In dem vorstehend ausführlich
beschriebenen Beispiel tendiert beispielsweise „r" in dem Suchwort von „parent" zu einem Erzeugen
eines Entnahmefehlers. Wird dieses Zeichen als ein Kandidatenzeichen
registriert, das wahrscheinlich einen Entnahmefehler erzeugt, dann
wird der Suchvorgang auf ein Muster „paent" beschränkt, aus dem „r" gelöscht ist.
Deshalb kann die Suchverarbeitung effizient durchgeführt werden.
-
In
der Verarbeitung von Schritten S902 und S903 muss ein Zeichen, bei
welchem eine unangemessene Erkennung durch die OCR wahrscheinlich ist,
nicht gelöscht
werden. Im Gegensatz dazu können
Zeichen, bei welchen eine unangemessene Erkennung durch die OCR
wahrscheinlich ist, in Form z. B. einer Tabelle in dem Speicher
des Computers 10 gespeichert werden, und nicht in diesen
Zeichen enthaltene Zeichen können
gelöscht
werden.
-
Bei
dieser Verarbeitung müssen
die Zeichen nicht gelöscht
werden, bei denen eine unangemessene Erkennung wahrscheinlich ist.
Bei der in den Ablaufdiagrammen gemäß 7 und 8 gezeigten
Verarbeitung sind die Zeichen, bei welchen eine unangemessene Erkennung
wahrscheinlich ist, als die ersten Prioritätszeichen der zu löschenden
Zeichen definiert, wodurch die Suchverarbeitung effizient durchgeführt wird.
-
Bei
der Verarbeitung der Ablaufdiagramme gemäß 7 bis 9 kann
ein Grenzwert für
die Anzahl von zu erzeugenden Mustern für eine exzessive Anzahl von
Erzeugungsmustern erstellt werden.
-
Nach
der in den Ablaufdiagrammen gemäß 7 bis 9 gezeigten
Verarbeitung wird in Schritt S305 das Wort in Suchschlüssel unterteilt.
In Schritt S306 werden die Suchschlüssel mit der Suchdatei verglichen,
wodurch eine Suche mit minimalen Suchauslassungen in Anbetracht
von Zeichenentnahmefehlern durchgeführt wird.
-
Nachstehend
ist die Suchverarbeitung für
ein gesamtes Dokument beschrieben.
-
Diese
Verarbeitung kann Dokumente beseitigen, die Such schlüssel enthalten,
nicht aber ein Suchwort selbst enthalten, im Gegensatz zu der Dokumentensuchverarbeitung
mit einem Index des Ablaufdiagramms gemäß 3, in welcher
ein Suchwort in Suchschlüssel
unterteilt wird, und die Suchschlüssel werden zum Suchen von
Dokumenten und zum Minimieren von Suchauslassungen verwendet, obwohl
nicht die Zeichenketten des ausgewiesenen Suchwortes enthaltende
Dokumente in den gesuchten Dokumenten enthalten sind.
-
Um
eine Verarbeitung zum Suchen eines gesamten Dokuments durchzuführen, wird
ein Abgleich zwischen einem Suchwort und dem gesamten Dokument durchgeführt. In
diesem Fall wird die Verarbeitung in Anbetracht der Zeichenentnahmefehler
bei der OCR-Verarbeitung durchgeführt. Die Einzelheiten sind
nachstehend unter Bezugnahme auf das Ablaufdiagramm gemäß 5A bis 5C beschrieben.
-
Diese
Verarbeitung kann für
alle in dem Textinformations-Speicherabschnitt 4-2 gespeicherten Textinformationen
durchgeführt
werden, wird aber lediglich für
Textinformationen durchgeführt,
die einem durch die Suchverarbeitung gemäß 3 eingeschränkten Dokument
entsprechen, wodurch die Verarbeitungseffizienz verbessert wird.
-
(Suchverarbeitung für ein gesamtes Dokument)
-
Bei
dieser Verarbeitung wird, um einen Zeichenentnahmefehler bei der
OCR-Verarbeitung zu betrachten, eine Suchverarbeitung für ein gesamtes Dokument
derart durchgeführt,
dass eine redundante Zeichenkette in einem Kandidatensuchwort enthalten ist,
das durch Löschen
eines Zeichens aus einem Suchwort erstellt ist.
-
Ein
Suchwort und eine Sonderanzahl X von Zeichen werden eingegeben.
Das Suchwort wird durch den Benutzer von der Tastatur 5 eingegeben. Die
Sonderanzahl X von Zeichen ist die Anzahl von Zeichen, die dem jeden
Suchwort hinzuzufügen
sind. Dieser Wert wird durch eine vorab gespeicherte Berechnungsformel
gemäß der Anzahl
von Zeichen des Suchwortes bestimmt. Diese Berechnungsformel ist in
dem Speicher des Computers 10 gespeichert. Außerdem kann
eine Holebene durch den Benutzer ausgewiesen werden, wird die bestimmte
Ebene bei der Berechnung zur Gewinnung von X berücksichtigt, und kann die Suchverarbeitung
auf der durch den Benutzer erwünschten
Ebene durchgeführt
werden.
-
Werden
das Suchwort und die Sonderanzahl X von Zeichen eingegeben, dann
wird gemäß der bestimmten
Ebene bestimmt, ob die Ebene mit einer Zeichenlöschungsverarbeitung ausgewiesen
ist (S502). Falls JA in Schritt S502, dann wird ein Zeichen oder
werden Zeichen aus dem in Schritt S501 eingegebenen Suchwort gelöscht, und
wird die Position oder werden die Positionen der Zeichenlöschung in
dem Suchwort gespeichert (S503). Die durch die Zeichenlöschung erstellte
Zeichenkette wird als ein Kandidatensuchwort bezeichnet. Falls NEIN
in Schritt S502, dann dient das in Schritt S502 eingegebene Suchwort
als ein Kandidatensuchwort.
-
Eine
Vergleichszeichenkette wird in der ersten Position des Kandidatensuchwortes
gesetzt, ein Vergleichszeichen wird in dem ersten Zeichen der Vergleichszeichenkette
gesetzt, und ein Zählwert
C wird auf Null gesetzt. Die Vergleichszeichenkette ist als ein
Suchwort definiert, das mit Textinformationen in diesem Moment zu
vergleichen ist. Die Vergleichszeichenkette aktualisiert sequenziell
ein Ziel in dem Kandidatensuchwort (S520). Das Vergleichszeichen ist
als ein Zeichen in der Vergleichszeichenkette definiert, das als
ein Vergleichsziel in diesem Moment dient und aktualisiert sequenziell
ein Ziel in der Vergleichszeichenkette (S515). Der Zählwert C
ist ein Zählwert
zum Verwalten einer Sonderzeichenkette, um X zu überschreiten. Der Zählwert C
wird jedes Mal dann inkrementiert, wenn eine Zeichenkette als eine
Sonderzeichenkette bestimmt wird (S517).
-
In
Schritt S505 wird ein gesamter Text, der mit einem Suchwort zu vergleichen
ist, von dem Textinformations-Speicherabschnitt 4-2 geladen.
In Schritt S507 wird ein zu vergleichendes Zeichen aus dem geladenen
Text gelesen. In Schritt S508 wird bestimmt, ob das gelesene Zeichen
ein Begrenzer ist. Falls NEIN in Schritt S508, dann wird das gelesene Zeichen
mit dem Vergleichszeichen verglichen (S509). Ist jedoch das in Schritt
S508 gelesene Zeichen als ein Begrenzer bestimmt, dann werden Zeichen
von diesem Begrenzer bis hin zu dem nächsten Begrenzer aus dem in
Schritt S505 geladenen Text gelesen. Die gelesenen Zeichen werden
mit dem Vergleichszeichen verglichen (S510). Als ein Ergebnis des
Vergleichs in Schritt S509 oder S510 wird, falls die zwei Zeichen
miteinander identisch sind (S511), der Zählwert C auf Null rückgesetzt
(S512). Befindet sich das Vergleichszeichen in der Letzten der Vergleichszeichenkette
(S513), dann wird eine mit der Vergleichszeichenkette übereinstimmende Zeichenkette
bestimmt, in dem in Schritt S505 geladenen Text vorhanden zu sein.
Eine Dokumentenadresse dieses Textes in dem Bildinformations-Speicherabschnitt 4-1 wird
ausgegeben (S514).
-
Wird
in Schritt S513 bestimmt, dass das Vergleichszeichen nicht an der
Letzten der Vergleichszeichenkette steht, dann geht der Ablauf zu
Schritt S515 über,
um das Vergleichszeichen zu dem nächsten Zeichen zu verschieben.
Der Ablauf geht dann zu der Verarbeitung in Schritt S523 über.
-
Wird
in Schritt S511 bestimmt, dass die zwei in Schritt S509 oder S510
verglichenen Zeichen nicht miteinander identisch sind, dann wird
bestimmt, ob die Position des Vergleichszeichens sich bei der Position
der Zeichenlöschung
befindet, die in Schritt S503 gespeichert ist, und zur selben Zeit
wird eine Bedingung C ≤ (X
bis 1) eingerichtet (S516). Wird in Schritt S516 die bestätigende
Antwort gewonnen, dann wird der Zählwert C inkrementiert (S517),
und der Ablauf geht zu der Verarbeitung in Schritt S523 über. Wird
jedoch in Schritt S516 die negative Antwort gewonnen, dann wird
das Vergleichszeichen an den Kopf der Vergleichszeichenkette gesetzt,
und wird der Zählwert
C auf Null gesetzt (C518). Der Ablauf geht dann zu der Verarbeitung
in Schritt S523 über.
-
In
Schritt S506 wird bestimmt, wenn keine Zeichen in dem in Schritt
S505 geladenen Text übrig sind,
ob ein weiteres Kandidatensuchwort übrig ist (S519). Falls NEIN
in Schritt S519, dann wird bestimmt, dass das Dokument keine Zeichenkette
aufweist, die mit dem Suchwort übereinstimmt,
und die Dokumentenvergleichsverarbeitung ist vollendet (S522). Wird
jedoch in Schritt S519 bestimmt, dass ein weiteres Kandidatensuchwort übrig ist,
dann wird das nächste
Kandidatensuchwort in der Vergleichszeichenkette gesetzt, und wird
der Zählwert
C auf Null gesetzt (S520). In Schritt S521 wird die gelesene Position
der Zeichendaten auf den Kopf der in Schritt S505 gelesenen Textinformationen
gesetzt. Der Ablauf geht zu der Verarbeitung in Schritt S523 über.
-
In
Schritt S523 wird ein Zeichen gelesen. Dann wird in Schritt S524
bestimmt, ob das gelesene Zeichen ein leeres Zeichen ist. Falls
NEIN in Schritt S524, dann kehrt der Ablauf zu Schritt S506 zurück, um den
Vergleich fortzusetzen. Wird bestimmt, dass die in Schritt S524
gelesenen Daten ein leeres Zeichen sind, dann wird in Schritt S525
das Vergleichszeichen auf den Kopf der Vergleichszeichenkette gesetzt,
und wird der Zählwert
C auf Null gesetzt. Dann wird ein Zeichen gelesen, und der Ablauf
kehrt zu Schritt S506 zurück,
um den Vergleich fortzusetzen.
-
Der
Vergleich zwischen einer Textinformation und einem Suchwort ist
vorstehend in dem Ablaufdiagramm gemäß 5A bis 5C beschrieben. Es
werden jedoch in Schritt S505 eine Vielzahl von Teilen von Textinformationen
sequenziell geladen, und die Verarbeitung in Schritten S505 bis
S522 wird wiederholt. Deshalb kann die Erfindung eine Vielzahl von
Dokumenten als Vergleichsziele bewältigen.
-
Eine
Zeichenkette, der mit dem ausgewiesenen Suchwort übereinstimmen
soll, wird in dem gesamten Dokument in Anbetracht einer Erzeugung
eines Zeichenentnahmefehlers bei der OCR-Verarbeitung gesucht. Selbst
wenn eine andere Zeichenkette bei der Position der Zeichenlöschung vorhanden
ist, kann eine Übereinstimmung
mit dem Suchwort bestimmt werden. Wie bei dem vorstehend beschriebenen
Beispiel kann, selbst wenn eine Zeichenkette von „rn", die aufgrund eines
Zeichenentnahmefehlers fehlerhaft erkannt wurde, bei der Position
eines gelöschten
Zeichens „m" in einem Muster „teple" vorhanden ist, das
aus dem Suchwort „temple" erstellt ist, dann
eine Zeichenkette in dem Text „termple" bestimmt werden,
mit dem Suchwort übereinzustimmen.
Deshalb kann der genaue Suchvorgang selbst dann durchgeführt werden,
wenn ein Zeichenentnahmefehler auftrat.
-
Bei
der Suchverarbeitung für
das gesamte Dokument wird, wie in dem Ablaufdiagramm gemäß 5A bis 5C gezeigt,
eine Verarbeitung zum Gestatten einer Hinzufügung einer Zeichenkette in ein
Suchwort durchgeführt.
Die Position, bei der der Zeichen-String hinzugefügt ist,
wird auf die Position der Zeichenlöschung begrenzt.
-
Die
Position, bei der der Zeichen-String hinzugefügt ist, ist nicht auf die Position
der Zeichenlöschung
begrenzt. Ein gesamtes Dokument kann dem Suchvorgang unterzogen
werden, während
Sonderzeichen zwischen die jeweiligen Zeichen des Suchwortes hinzugefügt werden
können,
wodurch eine unscharfe Suchverarbeitung durchgeführt wird. Diese Verarbeitung
ist in dem Ablaufdiagramm gemäß 6A bis 6C gezeigt.
-
Die
gleichen Schrittsymbole wie bei der Verarbeitung des Ablaufdiagramms
gemäß 5A bis 5C bezeichnen
die gleichen Schritte in 6A bis 6C,
und eine ausführliche
Beschreibung derer ist ausgelassen.
-
Die
kennzeichnenden Verarbeitungsschritte gemäß 6A bis 6C sind
Schritt S603, in welchem eine Position der Zeichenlöschung nicht
gespeichert wird, und Schritt S616, in welchem lediglich die Bedingung
C ≤ (X bis
1) gegeben ist. Deshalb kann ein Sonderzeichen bei jedweder Position
eingefügt
werden.
-
Wie
vorstehend beschrieben, wird ein ausgewiesenes Suchwort in eine
Vielzahl von Mustern entwickelt, und wird ein Suchvorgang unter
Verwendung der Vielzahl von Mustern durchgeführt, oder wird ein Suchvorgang
durchgeführt,
während
ein Sonderzeichen bei der Position der Zeichenlöschung oder einer anderen Position
hinzugefügt
wird. Dokumente, in welchen die gewünschte Suchzeichenkette nicht
vorhanden ist, können
ebenso gesucht werden.
-
Dies
stellt jedoch eine wichtige Wirkung bei der Suchverarbeitung dar,
die frei von Suchauslassungen ist. Wird beispielsweise „pray" gemäß dem erfindungsgemäßen Verfahren
gesucht, dann kann ein Dokument, das eine Zeichenkette wie „play" enthält, der
dazu tendiert, mit „pray" verwechselt zu werden,
ebenso gesucht werden, wodurch die unscharfe Suchverarbeitung ermöglicht wird.
-
Ein
japanischer Benutzer tendiert zu einem Verwechseln von „r", „s" bzw. „v" mit „l", „c", bzw. „b". Selbst in diesem
Fall können
Treffer ohne Suchauslassungen erzielt werden.
-
Auf
die gleiche Weise wie in der in den vorstehenden Ausführungsbeispielen
beschriebenen Verarbeitung kann eine Vielzahl von Einträgen erstellt
werden, und kann eine Suchverarbeitung für eine Datenbank mit minimalen
Suchauslassungen durchgeführt
werden.
-
Ein
Dokumentenschlüsselwort,
ein Seitenschlüsselwort
oder dergleichen können
mit einer OCR in diesem Ausführungsbeispiel
entnommen werden.
-
Auf
die gleiche Weise wie in der vorstehend beschriebenen Technik kann
dieses Ausführungsbeispiel
ebenso bei einem Fall angewendet sein, in welchem Informationen,
die unter Verwendung einer OMR oder einer optischen Barcode-Leseeinrichtung gewonnen
sind, eine niedrige Erkennungswahrscheinlichkeit aufweisen.
-
Die
doppelten 2-Zeichenschlüssel
werden als die Indices einer Suchdatei in diesem Ausführungsbeispiel
verwendet. Ein Index kann jedoch unter Verwendung eines Wortschlüssels erstellt
sein.
-
In
diesem Ausführungsbeispiel
werden den gesuchten Textinformationen entsprechende Bildinformationen
ausgegeben. Es können
jedoch anstelle der Bildinformationen Textinformationen aus dem Textinformations-Speicherabschnitt 4-2 gelesen
werden und können
als ein Suchergebnis ausgegeben werden.
-
In
diesem Ausführungsbeispiel
wird ein Begrenzer (@) als eine Trennung zwischen Zeichenschlüsseln verwendet.
Können
die Zeichenschlüssel voneinander
getrennt werden, dann kann ein Algorithmus, der eine andere Zeichenschlüssel-Trennungseinrichtung
verwendet, ohne ein Verlieren der Wirkung der Erfindung verwendet
werden.
-
Dieses
Ausführungsbeispiel
weist beispielhafte Zeichenschlüssel
auf. Es kann jedoch ein Wortschlüssel
anstelle eines Zeichenschlüssels
verwendet sein.
-
Wie
vorstehend beschrieben, kann ein Speichermedium (10),
in welchem ein Softwareprogramm zum Realisieren der Funktionen des
vorstehend beschriebenen Ausführungsbeispiels
gespeichert ist, einem System oder einer Vorrichtung zugeführt sein,
und der Computer (CPU oder MPU) dieses Systems oder dieser Vorrichtung
kann das in dem Speichermedium gespeicherte Programm auslesen.
-
In
diesem Fall realisieren die aus dem Speichermedium ausgelesenen
Programmcodes selbst eine neue Funktion, und das die Programmcodes speichernde
Speichermedium bildet die Erfindung.
-
Beispiele
des Speichermediums zum Zuführen
der Programmcodes sind eine Diskette, eine Festplatte, eine optische
Platte, eine magnetooptische Platte, eine CD-ROM, eine CD-R, ein
Magnetband, eine nicht-flüchtige
Speicher karte und ein ROM.
-
Eine
Realisierung der Funktionen des vorstehend beschriebenen Ausführungsbeispiels
ist nicht durch eine Ausführung
der durch den Computer ausgelesenen Programmcodes beschränkt. Ein
BS (Betriebssystem) oder dergleichen, das auf dem Computer läuft, führt einen
Teil oder die Gesamtheit der tatsächlichen Verarbeitung auf der
Grundlage von Anweisungen der Programmcodes aus, und eine Realisierung
der Funktionen des vorstehend beschriebenen Ausführungsbeispiels durch diese
Verarbeitung ist ebenso in der Erfindung umfasst.
-
Die
von dem Speichermedium ausgelesenen Programmcodes werden in einen
Speicher in einer Funktionserweiterungs-Platine, die in den Computer eingefügt ist,
oder in eine Funktionserweiterungs-Einheit, die mit dem Computer
verbunden ist, geschrieben. Die auf der Funktionserweiterungs-Platine
oder -Einheit angeordnete CPU oder dergleichen führt einen Teil oder die Gesamtheit
der tatsächlichen Verarbeitung
auf der Grundlage von Anweisungen der Programmcodes aus. Eine Realisierung
der Funktionen des vorstehend beschriebenen Ausführungsbeispiels durch diese
Verarbeitung ist ebenso in der Erfindung umfasst.
-
Wie
vorstehend beschrieben ist, wenn ein Schlüssel eine niedrige OCR-Erkennungswahrscheinlichkeit
aufweist und sein Erkennen unwahrscheinlich ist, die Anzahl von
Kandidaten nicht auf Eins beschränkt.
Durch das vorstehend beschriebene Verfahren wird eine Vielzahl von
optimalen Erkennungskandidaten ausgewählt, die Erkennungswahrscheinlichkeiten
entsprechen, und wirksame Erkennungskandidateninformationen werden
nicht verworfen, sondern werden akkumuliert und verwendet. Deshalb
werden wirksame Informationen bei der Zeichenerkennung nicht verworfen.
-
Wie
vorstehend beschrieben, kann ein manueller Korrekturvorgang beseitigt
werden, und kann ein System zum automatischen Durchführen von Vorgängen angeordnet
werden, die von der Bildeingabe bis hin zu einer Daten-/Textdatenakkumulierung
durch die OCR-Verarbeitung reichen. Zur selben Zeit kann ein vergleichsweise
preisgünstiges System
realisiert werden, in welchem ein Computer nicht überlastet
wird, und kann eine Verringerung bei der Verarbeitungsgeschwindigkeit
beseitigt werden.
-
Wie
vorstehend beschrieben ist, wenn ein Schlüssel eine niedrige OCR-Erkennungswahrscheinlichkeit
aufweist und seine Erkennung unwahrscheinlich ist, die Anzahl von
Kandidaten nicht auf Eins beschränkt.
Es wird eine Vielzahl von optimalen Erkennungskandidaten ausgewählt, die
Erkennungswahrscheinlichkeiten entsprechen, und wirksame Erkennungskandidateninformationen
werden nicht verworfen, sondern werden akkumuliert und verwendet. Deshalb
kann ein manueller Korrekturvorgang beseitigt werden, wird ein Computer
nicht überlastet,
und kann eine Verarbeitungsgeschwindigkeit erhöht werden.
-
Wie
vorstehend beschrieben, ist ein Zeichen, das aus einer ausgewiesenen
Zeichenkette gelöscht ist,
als ein Zeichen definiert, das einem vorbestimmten Zeichen entspricht,
wodurch ein Muster effizient erstellt wird.
-
Wie
vorstehend beschrieben, wird ein Zeichen, das aus einer ausgewiesenen
Zeichenkette gelöscht
ist, als ein Zeichen definiert, das nicht einem vorbestimmten Zeichen
entspricht, wodurch ein Muster effizient erstellt wird.
-
Die
Erfindung kann bei einem Verfahren für optische Zeichenerkennung
angewendet werden, wobei das Dokument abgetastet wird, um ein Bild
zu erzeugen, das zu erkennende Zeichen enthält. Die Erkennung wird ausgeführt und
eine Korrektur für
inkorrekt erkannte Zeichen findet unter Verwendung der vorstehend
beschriebenen Suchtechnik statt, um korrekt erkannte Textinformationen
zu erzeugen. Die Textinformationen können dann als Daten an eine Ausgabevorrichtung,
wie einen Drucker, zur Anzeige ausgegeben werden. Die erkannten
Textinformationen können
ebenso in einem Speichermedium gespeichert werden, wie eine Computerplatte.
-
Wie
vorstehend beschrieben, wird ein Zeichen, das aus einer ausgewiesenen
Zeichenkette gelöscht
ist, gemäß einer
vorab gespeicherten Tabelle bestimmt, und kann ein Muster bei hoher
Geschwindigkeit effizient erstellt werden.