DE69637025T2 - Informationsverarbeitungsverfahren und -vorrichtung zum Suchen von Bild- oder Textinformation - Google Patents

Informationsverarbeitungsverfahren und -vorrichtung zum Suchen von Bild- oder Textinformation Download PDF

Info

Publication number
DE69637025T2
DE69637025T2 DE69637025T DE69637025T DE69637025T2 DE 69637025 T2 DE69637025 T2 DE 69637025T2 DE 69637025 T DE69637025 T DE 69637025T DE 69637025 T DE69637025 T DE 69637025T DE 69637025 T2 DE69637025 T2 DE 69637025T2
Authority
DE
Germany
Prior art keywords
character
search
character string
characters
designated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69637025T
Other languages
English (en)
Other versions
DE69637025D1 (de
Inventor
Hirotaka Ohta-ku Shiiyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE69637025D1 publication Critical patent/DE69637025D1/de
Application granted granted Critical
Publication of DE69637025T2 publication Critical patent/DE69637025T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein/e Informationsverarbeitungsverfahren und -vorrichtung, die zum Suchen von Bild- oder Textinformationen in der Lage sind, die ein ausgewiesenes Suchwort enthalten.
  • Eine Vorrichtung, die zum Suchen eines Bildes und zum Erstellen einer Datenbank unter Verwendung eines durch eine OCR oder dergleichen erkannten Eingabebildes in der Lage ist, steht herkömmlich zur Verfügung.
  • In dieser Vorrichtung zum Suchen des Bildes und zum Erstellen der Datenbank wird der Schritt des Veranlassens eines Benutzers zum Bestätigen eines Erkennungsergebnisses herkömmlicherweise vor einer Registrierung ausgebildet, um eine Suchunvollständigkeit zu bewältigen, die durch eine fehlerhafte Erkennung bei einer Erkennungsverarbeitung unter Verwendung einer OCR verursacht ist. In diesem Bestätigungsschritt werden dem Benutzer Kandidatenzeichen dargestellt, die Zeichen bis zu jenen hin enthalten, die niedrigere Ähnlichkeiten bei den Bestimmungsergebnissen aufweisen. Der Benutzer wählt ein korrektes Zeichen aus oder gibt ein korrektes Zeichen ein, falls kein korrektes Zeichen in den Kandidatenzeichen enthalten ist. Ein durch den Benutzer zu registrierender Text wird somit durch den Benutzer manuell korrigiert, und der korrigierte Text wird dann registriert.
  • Eine Technik zum mechanischen Korrigieren eines Textes unter Verwendung eines Wortnachschlagewerks oder einer Wissensdatenbank steht anstelle des Veranlassens des Benutzers zu einem manuellen Durchführen dieses Korrekturvorgangs zur Verfügung.
  • Bei dem Stand der Technik, der den manuellen Korrekturvorgang des Benutzers erfordert, ist die Last des Benutzers schwer und ist ein mühsamer Vorgang für eine lange Zeitspanne bei jedem Registrierungsvorgang erforderlich. Dieser Korrekturvorgang interferiert mit einer vollautomatischen Korrektur.
  • In der Technik zum mechanischen Korrigieren des Textes unter Verwendung des Wortnachschlagewerks oder der Wissensdatenbank können praktische Anwendungen für eine vollautomatische Korrektur nicht realisiert werden, ohne einen Computer zu verwenden, der eine große Berechnungskapazität aufweist. Außerdem ist die Verlässlichkeit bezüglich der automatischen Korrektur noch immer problematisch.
  • Wird eine fehlerhafte Korrektur bei dem Korrekturschritt des Begrenzens eines einem Eingabezeichenbild entsprechenden Erkennungsergebnisses bei einem Zeichen begangen, dann kann das korrigierte Zeichen nicht auf das Eingabezeichenbild wiederhergestellt werden.
  • „Proceedings of the Annual Symposium on Foundations of Computer Science", St. Louis, 22. bis 24. Oktober 1990, Ausgabe 1, 22. Oktober 1990, "Institute of Electrical and Electronis Engineers", Seiten 116 bis 124, Chang W. I. u. a.: "Approximate String Matching in Sublinear Expected Time" offenbart ein Verfahren des Lokalisierens eines Musterwortes P in einem langen Text-String T. Es ist insbesondere ein Algorithmus offenbart, in welchem der Text-String, der Muster-String und die Anzahl von in einer Übereinstimmung erlaubten Unterschieden dort spezifiziert sind, wo die Anzahl von Unterschieden kleiner als eine Funktion der Länge des Text-String ist.
  • „Pattern Recognition", Ausgabe 23, Nr. 3/04, 1. Januar 1990, Seiten 363 bis 377, Takahashi H. u. a.: „A Spelling Correction Method and Its Application to an OCR System" offenbart ein Verfahren der Buchstabierkorrektur für einen Benutzer, der Text und Daten in ein Computersystem eingibt, in welchem Kandidatenworte ausgewählt werden und eine angenäherte String-Übereinstimmung zwischen dem Eingabewort und jedem Kandidatenwort vorliegt.
  • „Algorithms in C" von Robert Sedgewick, Addison-Wesley Publishing Company, ISBN 0-201-51425-7, 1990, Seiten 277 bis 303, offenbart ein Verfahren der Musterübereinstimmung, in welchem das erste Auftreten eines Muster-String in einem Text-String suchbar ist.
  • Gemäß einer ersten Ausgestaltung der Erfindung ist ein Informationsverarbeitungsverfahren in einer Informationsverarbeitungsvorrichtung bereitgestellt, die eine Zeichenerkennungseinrichtung, eine Speichereinrichtung und eine Ausweisungseinrichtung enthält, mit den Schritten des Suchens nach einer ausgewiesenen Kennzeichenkette, die durch die Ausweisungseinrichtung ausgewiesen ist, in Textinformationen, die von einem Dokumentenbild durch die Zeichenerkennungseinrichtung erkannt sind, und des Bereitstellens von Suchergebnisinformationen, die die ausgewiesene Zeichenkette enthalten, wobei das Verfahren gekennzeichnet ist durch: einen ersten Bestimmungsschritt des Bestimmens, ob ein spezifisches in der Speichereinrichtung gespeichertes Zeichen in der ausgewiesenen Zeichenkette enthalten ist, oder nicht, einen Suchschlüs selerzeugungsschritt des Erzeugens, wenn bestimmt ist, dass das spezifische Zeichen der ausgewiesenen Zeichenkette enthalten ist, eines Suchschlüssels, der aus einer Kombination aus benachbarten Zeichen in einer Zeichenkette besteht, die durch Löschen des spezifischen Zeichens aus der ausgewiesenen Zeichenkette gebildet ist, einen zweiten Bestimmungsschritt des Bestimmens, ob der Suchschlüssel in einem Index enthalten ist, oder nicht, der die gleiche Anzahl von Zeichen wie die Anzahl von Zeichen des Suchschlüssels aufweist, einen dritten Bestimmungsschritt des Bestimmens, wenn in dem zweiten Bestimmungsschritt bestimmt ist, dass ein Suchschlüssel in dem Index enthalten ist, ob ein Zeichenkettenmuster, das durch Ersetzen des spezifischen in der ausgewiesenen Zeichenkette enthaltenen Zeichens durch eine weitere Zeichenkette erhalten ist, in den Textinformationen enthalten ist, wobei die weitere Zeichenkette eine Anzahl von Zeichen innerhalb einer vorbestimmten Anzahl aufweist, und einen Anzeigeschritt des Veranlassens der Anzeige der Textinformationen, die in dem dritten Bestimmungsschritt bestimmt sind, dass das Zeichenkettenmuster enthalten ist, oder eines Dokumentenbildes, das den Textinformationen entspricht.
  • Gemäß einer zweiten Ausgestaltung der Erfindung ist eine Informationsverarbeitungsvorrichtung mit einer Zeichenerkennungseinrichtung, einer Speichereinrichtung und einer Ausweisungseinrichtung bereitgestellt, wobei die Vorrichtung zum Suchen nach einer ausgewiesenen Zeichenkette, die durch die Ausweisungseinrichtung ausgewiesen ist, in Textinformationen, die aus einem Dokumentenbild durch die Zeichenerkennungseinrichtung erkannt sind, und zum Bereitstellen von Suchergebnisinformationen, die die ausgewiesene Zeichenkette enthalten, eingerichtet ist, wobei die Vorrichtung dadurch gekennzeichnet ist, dass sie umfasst: eine erste Bestimmungseinrichtung zum Bestimmen, ob ein spezifisches in der Speichereinrichtung gespeichertes Zeichen in der ausgewiesenen Zeichenkette enthalten ist, oder nicht, eine Suchschlüsselerzeugungseinrichtung zum Erzeugen, wenn bestimmt ist, dass das spezifische Zeichen in der ausgewiesenen Zeichenkette enthalten ist, eines Suchschlüssels, der aus einer Kombination von benachbarten Zeichen in einer Zeichenkette besteht, die durch Löschen des spezifischen Zeichens aus der ausgewiesenen Zeichenkette gebildet ist, eine zweite Bestimmungseinrichtung zum Bestimmen, ob der Suchschlüssel in einem Index enthalten ist, oder nicht, der die gleiche Anzahl von Zeichen wie die Anzahl von Zeichen des Suchschlüssels aufweist, und eine dritte Bestimmungseinrichtung zum Bestimmen, wenn in der zweiten Bestimmungseinrichtung bestimmt ist, dass ein Suchschlüssel in dem Index enthalten ist, ob ein Zeichenmuster, das durch Ersetzen des spezifischen in der ausgewiesenen Zeichenkette enthaltenen Zeichens durch eine weitere Zeichenkette erhalten ist, in den Textinformationen enthalten ist, oder nicht, wobei die weitere Zeichenkette eine Anzahl von Zeichen innerhalb einer vorbestimmten Anzahl aufweist, und eine Anzeigeeinrichtung, die zum Veranlassen der Anzeige von Textinformationen, die in dem dritten Bestimmungsschritt bestimmt sind, dass das Zeichenkettenmuster enthalten ist, oder eines den Textinformationen entsprechenden Dokumentenbildes eingerichtet ist.
  • Ausführungsbeispiele der Erfindung sind nachstehend unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben. Es zeigen:
  • 1 ein Ablaufdiagramm einer OCR-Verarbeitung,
  • 2 ein Ablaufdiagramm einer Verarbeitung zum Erstellen eines Suchindex, der Bildinformationen hinzugefügt ist,
  • 3 ein Ablaufdiagramm einer Verarbeitung zum Suchen eines Dokuments unter Verwendung eines Suchindex,
  • 4 eine Blockdarstellung der Anordnung einer Informationsverarbeitungsvorrichtung gemäß einem Ausführungsbeispiel,
  • 5, die 5A bis 5C umfasst, ein Ablaufdiagramm einer ersten Suchverarbeitung für ein gesamtes Dokument,
  • 6, die 6A bis 6C umfasst, ein Ablaufdiagramm einer zweiten Suchverarbeitung für ein gesamtes Dokument,
  • 7 ein Ablaufdiagramm einer ersten Lösungsverarbeitung für ein Zeichen,
  • 8 ein Ablaufdiagramm einer zweiten Lösungsverarbeitung für ein Zeichen,
  • 9 ein Ablaufdiagramm einer dritten Löschungsverarbeitung für ein Zeichen, und
  • 10 eine Ansicht eines ein erfindungsgemäßes Steuerprogramm speichernden Speichermediums.
  • Die Anordnung einer Informationsverarbeitungsvorrichtung eines Ausführungsbeispiels der Erfindung ist gemäß 4 gezeigt und ist nachstehend beschrieben.
  • Unter Bezugnahme auf 4 ist eine Bildabtasteinrichtung 1 mit einem Computer 10 direkt oder durch eine Kommunikationseinrichtung verbunden. Die Bildabtasteinrichtung 1 tastet ein (Original)-Dokumentenbild ab und liest optisch das Bild. Eine OCR-(optische Zeichenleseeinrichtung, „Optical Character Reader")-Verarbeitungssoftware 2 ist in dem Computer 10 installiert, um die Zeichen von von der Bildabtasteinrichtung 1 oder dergleichen eingegebenen Bildinformationen zu erkennen, um Textinformationen zu gewinnen. Eine Dokumentensuchsoftware 3 ist in dem Computer 10 installiert, um eine Suchdatei aus den in der OCR-Verarbeitung gewonnenen Textinformationen zur Verarbeitung der von der Bildabtasteinrichtung 1 oder dergleichen eingegebenen Bildinformationen zu erstellen. Die Dokumentensuchsoftware 3 führt ebenso eine Suchverarbeitung durch.
  • Die OCR-Verarbeitungssoftware 2 und die Dokumentensuchsoftware 3 sind unter der Steuerung der CPU des Computers 10 gemäß einem in dem Speicher des Computers 10 gespeicherten Steuerprogramms ausgeführt. Durch (nachstehend beschriebene) Ablaufdiagramme dargestellte Verarbeitungsvorgänge sind ebenso unter der Steuerung der CPU des Computers 10 gemäß dem in dem Speicher des Computers 10 gespeicherten Steuerprogramms ausgeführt.
  • Ein externer Speicher 4 weist einen Bildinformations-Speicherabschnitt 4-1 zum Speichern von von der Bildabtasteinrichtung 1 oder dergleichen eingegebenen Bildinformationen, einen Textinformations-Speicherabschnitt 4-2 und einen Suchdatei-Speicherabschnitt 4-3 auf. Der Suchdatei-Speicherabschnitt 4-3 speichert Indices, Dokumentenverwaltungsinformationen (DB) und dergleichen. Eine Tastatur 5 gibt ein Suchwort und eine Suchbedingung ein. Eine Anzeigeeinrichtung 6 zeigt Eingabeaufforderungen für ein Suchwort und eine Suchbedingung an und zeigt ebenso Bildinformationen und dergleichen an. Wie vorste hend beschrieben, umfasst der Computer 10 den Speicher, der das Steuerprogramm zur Durchführung von verschiedenen Verarbeitungsvorgängen, die nachstehend in diesem Ausführungsbeispiel beschrieben sind, speichert, die CPU zum Ausführen einer Verarbeitung gemäß dem Steuerprogramm, und dergleichen.
  • Eine Akkumulationsverarbeitung in der gemäß 4 gezeigten Bildverarbeitungsvorrichtung enthält die Schritte des Speicherns von von der Bildabtasteinrichtung 1 eingegebenen Bildinformationen in dem externen Speicher 4, des Umwandelns der in dem externen Speicher 4 gespeicherten Bildinformationen in Textinformationen unter Verwendung der OCR-Verarbeitungssoftware 2 und des Speicherns der Textinformationen in dem externen Speicher 4, und des Speicherns einer Suchdatei, die aus den Textinformationen durch die Dokumentensuchsoftware 3 erstellt ist, in dem externen Speicher 4.
  • Eine Suchverarbeitung enthält die Schritte des Vergleichens eines von der Tastatur 5 eingegebenen Suchwortes mit einer Suchdatei durch die Dokumentensuchsoftware 3 zum Suchen eines Dokuments, das mit einer Suchbedingung übereinstimmt, des Entnehmens von Dokumentenadressinformationen aus diesem Dokument, und des Anzeigens von Bilddaten dieses Dokuments auf der Anzeigeeinrichtung 6.
  • In dem Suchsystem, das durch die Akkumulierungsverarbeitung und die Suchverarbeitung realisiert ist, die vorstehend beschrieben sind, ist ein Hauptverfahren zum Verhindern von Suchauslassungen nachstehend beschrieben, die durch eine fehlerhafte Erkennung bei einer OCR-Erkennung verursacht sind.
  • Es liegen hauptsächlich drei Verfahren zum Verhindern von Suchauslassungen vor.
    • 1. Unter der Annahme, dass ein Zeichenbild erfolgreich entnommen ist, werden eine Vielzahl von Kandidatenzeichen und Suchindices unter Verwendung der Erkennungswahrscheinlichkeiten der Vielzahl von Kandidatenzeichen erstellt, und wird eine Suche unter Verwendung der Vielzahl von Kandidatenzeichen und der Suchindices durchgeführt.
    • 2. Es wird betrachtet, ob ein Fehler in dem entnommenen Zeichenbild enthalten ist, oder ob keine korrekte Lösung in einer Vielzahl von Kandidatenzeichen enthalten ist, die einem Zeicheneingabebild entspricht. Es wird eine Suche, die eine Hinzufügung eines Sonderzeichens zu einem ausgewiesenen Suchwort gestattet, vergleichend mit dem ausgewiesenen Suchwort und einer Suchdatei durchgeführt.
    • 3. Es wird betrachtet, ob ein Fehler in dem entnommenen Zeichenbild enthalten ist, oder ob keine korrekte Lösung in einer Vielzahl von Kandidatenzeichen enthalten ist, die einem Zeicheneingabebild entspricht. Eine Zeichenkettenmustergruppe ist durch Löschen eines Zeichens oder von Zeichen aus einem ausgewiesenen Suchwort gewonnen, und es wird eine Suche durchgeführt, die eine Hinzufügung eines Sonderzeichens zu der Zeichenkettenmustergruppe gestattet.
  • Verfahren 1 ist nachstehend ausführlich unter Bezugnahme auf ein Ablaufdiagramm gemäß 2 beschrieben, und Verfahren 2 und 3 sind nachstehend ausführlich unter Bezugnahme auf Ablaufdiagramme gemäß 3 und 5 bis 7 beschrieben. Vor einer Beschreibung dieser Ablaufdiagramme ist eine bei einer Registrierung eines Bildes ausgeführte OCR-Verarbeitung unter Bezugnahme auf ein Ablaufdiagramm gemäß 1 beschrieben.
  • (OCR-Verarbeitung)
  • Es werden zu registrierende Bildinformationen von der Bildabtasteinrichtung 1 eingegeben (S101). Die eingegebenen Bildinformationen werden in dem Bildinformations-Speicherabschnitt 4-1 des externen Speichers 4 gespeichert. Obwohl die Bildinformationen direkt von der Bildabtasteinrichtung 1 eingegeben sind, können sie durch einen anderen Computer oder ein Fax-System durch eine Kommunikationseinrichtung eingegeben werden.
  • Die eingegebenen Bildinformationen werden analysiert, um zu bestimmen, ob Zeichendaten vorhanden sind (S102). Falls NEIN in Schritt S102, dann geht der Ablauf nicht zu der OCR-Verarbeitung über, sondern es wird eine normale Bildinformations-Registrierungsverarbeitung durchgeführt.
  • Falls JA in Schritt S102, dann werden Ein-Zeichen-Bilddaten entnommen (S103), und dieses entnommene Zeichen wird erkannt (S104). Eine Verarbeitung zum Entscheiden der Form der als Textinformationen gespeicherten Zeicheninformationen in Schritten S105 bis S111 wird auf der Grundlage dieses Erkennungsergebnisses (einschließlich Erkennungswahrscheinlichkeits-Informationen) ausgeführt.
  • Die Verarbeitung zum Entscheiden der Form der als die Textinformationen gespeicherten Zeicheninformationen ist wie nachstehend beschrieben ausgeführt. Weist ein Erkennungskandidatenzeichen eine Erkennungswahrscheinlichkeit auf, die zum Erreichen eines vorbestimmten, signifikanten Wahrscheinlichkeitsbestimmungs-Schwellenwertes Th1 bestimmt (S105) ist, dann wird sein Kandidatenzeichen als ein Erkennungsergebnis ausgegeben (S106). Weist jedoch ein Erkennungszielzeichen eine Erkennungswahrscheinlichkeit auf, die zum Nicht-Erreichen des signifikanten Wahrscheinlichkeitsbestimmungs-Schwellenwertes Th1 bestimmt (S105) ist, dann wird ein Begrenzer ausgegeben, der die Startposition einer Vielzahl von Kandidatenzeichen darstellt, um die Vielzahl von Kandidatenzeichen zu identifizieren (S107). Der Ablauf verzweigt sich in einen Fall a (S109) und einen Fall b (S110) durch adaptives Betrachten (S108) der Erkennungswahrscheinlichkeit eines jeden der Vielzahl von Erkennungskandidatenzeichen.
    • a. Es werden Kandidatenzeichen, von denen ein jedes einen vorbestimmten, niedrigen Erkennungswahrscheinlichkeitsbestimmungs-Schwellenwert Th2 (Th1 > Th2) oder mehr aufweist, und die Anzahl dieser Kandidatenzeichen ausgegeben.
    • b. Es werden Erkennungskandidatenzeichen in einer Anzahl Nmax, die von jenem die höchste Wahrscheinlichkeit aufweisenden vorbestimmt ist, und die Anzahl dieser Erkennungskandidatenzeichen werden ausgegeben.
  • Die Form einer Ergebnisausgabe in Schritten S107 bis S111 ist definiert als „@ [Anzahl von Kandidatenzeichen] [Kandidatenzeichen 1] [Kandidatenzeichen 2] [Kandidatenzeichen 3]... @".
  • Bei einer Bestimmung zum Verzweigen in Schritt S108, wenn alle Erkennungswahrscheinlichkeiten der Vielzahl von Erkennungskandidatenzeichen Th2 oder weniger betragen und miteinander beinahe identisch sind, geht der Ablauf zu Schritt S110 über; anderenfalls geht der Ablauf zu Schritt S109 über.
  • Der bei diesen Verarbeitungsvorgängen verwendete Parameter Th1 ist ein Schwellenwert zum Bestimmen, ob ein Erkennungsergebnis höchstwahrscheinlich ist, und ob die Kandidatenzeichen auf ein Zeichen begrenzt sind. Der Parameter Th2 ist ein Schwellenwert zum Bestimmen, ob ein Kandidatenzeichen, das einen kleineren Erkennungswahrscheinlichkeitswert als Th2 aufweist, ein unwahrscheinliches Erkennungsergebnis aufweist. Die Parameter Th1 und Th2 und die Maximalanzahl Nmax von Erkennungskandidatenzeichen sind in dem Speicher des Computers 10 zuvor gespeichert.
  • Werden die Kandidatenzeichen in Schritt S109 oder S110 ausgegeben, dann wird ein Begrenzer ausgegeben, der die Endposition der Vielzahl von Kandidatenzeichen darstellt (S111).
  • Ist das Erkennungsergebnis eines Zeichens vollendet ausgegeben, dann kehrt der Ablauf zu Schritt S102 zurück, und eine Erkennungsverarbeitung für das nächste Zeichen wird durchgeführt. Die Verarbeitung in Schritten S102 bis S111 wird wiederholt, bis in Schritt S102 das Fehlen eines zu erkennenden Zeichens bestimmt wird.
  • Die gemäß 1 gezeigte OCR-Verarbeitung ist nachstehend ausführlich in einem Fall beschrieben, in welchem das Wort „parent" auf einem Original vorhanden ist.
  • In Schritt S103 wird ein Zeichenbild von „p" entnommen. Es sei angenommen, dass in Schritt S104 ein erstes Kandidatenzeichen „p" dahingehend gewonnen wird, einen Wert der Erkennungswahrscheinlichkeit Th1 oder mehr als ein Ergebnis der Erkennung aufzuweisen. In diesem Fall wird in Schritt S106 ein Erkennungsergebnis von „p" ausgegeben.
  • Auf die gleiche wie vorstehend beschriebene Weise wird „a" ausgegeben.
  • In Schritt S103 wird ein Zeichenbild von "r" entnommen. Es sei angenommen, dass alle Erkennungsergebnisse dieses Zeichens einen Wert von kleiner als Th1 aufweisen (S105) als ein Erkennungsergebnis in Schritt S104, und dass alle Erkennungskandidatenzeichen beinahe gleiche Wahrscheinlichkeiten aufweisen, die kleiner als Th2 sind (S108). In Schritt S107 wird ein Begrenzer ausgegeben. In Schritt S110 werden die Kandidatenzeichen in der Anzahl Nmax von jenem an ausgegeben, das eine höhere Wahrscheinlichkeit aufweist. In Schritt S111 wird dann ein Begrenzer ausgegeben.
  • Es sei angenommen, dass die in Schritt S110 ausgegebenen Kandidatenzeichen drei Kandidatenzeichen sind, d. h. „t", „i" und „f", und dass der Begrenzer z. B. „@" ist. In diesem Fall wird das Ausgabeergebnis der Verarbeitung in Schritten S107 bis S111 als „@3tif@" angegeben.
  • Die Erkennung setzt sich fort, und in Schritt S103 wird ein Zeichenbild von „e" entnommen. Das erste Kandidatenzeichen von „e" wird als ein Zeichen gewonnen, das die Erkennungswahrscheinlichkeit Th1 oder mehr als ein Ergebnis der Erkennung in Schritt S104 aufweist. In diesem Fall wird in Schritt S106 ein Erkennungsergebnis von „e" ausgegeben.
  • In Schritt S103 wird ein Zeichenbild von „n" entnommen. Das erste Kandidatenzeichen von „n" wird als ein Zeichen gewonnen, das eine Erkennungswahrscheinlichkeit Th1 oder mehr als ein Ergebnis der Erkennung in Schritt S104 aufweist. In diesem Fall wird in Schritt S106 ein Erken nungsergebnis von „n" ausgegeben.
  • Außerdem wird „t" ausgegeben.
  • Das Erkennungsergebnis der vorstehend beschriebenen Verarbeitung lautet „pa@3tif@ent" und wird in dem Textinformations-Speicherabschnitt 4-2 gespeichert.
  • Die Ausgabeform des Erkennungsergebnisses besteht in einem Verwenden eines Begrenzers, der Zeichenschlüssel trennt, und dies ist lediglich ein Beispiel. Ein anderes Verfahren des Bestimmens des Speicherortes in dem Textinformations-Speicherabschnitt in Einheiten von Kandidatenzeichen, die von einem Zeicheneingabebild gewonnen sind, um die Speicheradressen für ein Zeicheneingabebild zu verwalten, kann eingesetzt werden, falls das Verfahren Zeichenschlüssel trennen kann.
  • Eine Verarbeitung zum Erstellen eines den Bildinformationen hinzugefügten Suchindex auf der Grundlage der Textinformationen, die in der gemäß dem Ablaufdiagramm von 1 gezeigten OCR-Verarbeitung erstellt sind, ist nachstehend ausführlich unter Bezugnahme auf das Ablaufdiagramm gemäß 2 gezeigt.
  • (Erstellung des Suchindex)
  • Informationen zum Ausweisen einer Zeichenschlüsselart für einen Index werden von der Tastatur 5 eingegeben (S201). Dann wird ein Index aus einem Zeichen erstellt, das der ausgewiesenen Zeichenschlüsselart entspricht.
  • Es werden Textinformationen geladen, die in dem Textinformations-Speicherabschnitt 4-2 gespeichert sind und den Bildinformationen als ein Indexerstellungsziel entsprechen (S202).
  • Es wird ein Zeichen, das der in Schritt S201 eingegebenen Art entspricht, aus den geladenen Textinformationen gelesen (S204). Es wird bestimmt, ob das gelesene Zeichen ein Begrenzer ist (S205). Ist das gelesene Zeichen kein Begrenzer, dann wird dieses Zeichen dem Ende des Index hinzugefügt, der in Erstellung befindlich ist (S206). Wird das gelesene Zeichen jedoch als ein Begrenzer bestimmt, dann werden Kandidatenzeichen zwischen dem Begrenzer und dem nächsten Begrenzer zu dem Ende des Index hinzugefügt, der in Erstellung befindlich ist, wodurch eine Vielzahl von Indices gebildet wird (S207).
  • Es wird gemäß der Anzahl von Zeichen des Index, der in Schritt S206 oder S207 erstellt wurde, bestimmt, ob der Index vollendet ist (S208). Falls JA in Schritt S208, dann wird der vollendete Index in dem Suchdatei-Speicherabschnitt 4-3 gespeichert. Falls NEIN in Schritt S208, dann kehrt der Ablauf zu Schritt S204 zurück, und das nächste Zeichen wird gelesen, um fortlaufend einen Index zu erstellen.
  • Es wird zuvor in dem Speicher des Computers ein Parameter gespeichert, der die Anzahl von Zeichen darstellt, die als ein Kriterium zur Bestimmung in Schritt S208 dienen, ob der Index vollendet ist.
  • Ist die Erstellung eines Index vollendet, dann kehrt der Ablauf zu Schritt S203 zurück. Sind übrig bleibende Zeichendaten vorhanden, dann werden fortlaufend Indices erstellt.
  • Bei der vorstehend beschriebenen Verarbeitung werden Erkennungskandidatenzeichen mit vorangegangenen und nachfolgenden Zeichen aus den OCR-verarbeiteten Textinformationen kombiniert, und es werden Zeichenketten gemäß den ausgewiesenen Zeichenschlüsselarten entwickelt, wodurch Indices erstellt werden, die zu einer Minimierung von Suchauslassungen in der Lage sind.
  • Werden Indices aus den Textinformationen von „pa@3tif@ent", die gemäß 1 beschrieben sind, gemäß der Verarbeitung des Ablaufdiagramms gemäß 1 erstellt, dann werden insgesamt neun Schlüssel erstellt, d. h. „pa", „at", „ai", „af", „te", „ie", „fe", „en" und „nt", und werden bei den Indices berücksichtigt. Diese Schlüssel werden in dem Suchdatei-Speicherabschnitt 4-3 gespeichert. Eine Dokumentensuchverarbeitung unter Verwendung eines Suchindex, der bei der Verarbeitung des Ablaufdiagramms gemäß 2 erstellt ist, ist nachstehend ausführlich unter Bezugnahme auf das Ablaufdiagramm gemäß 3 beschrieben.
  • (Dokumentensuche unter Verwendung des Index)
  • Ein zu suchendes Wort wird von der Tastatur 5 eingegeben, und eine Suchausführung wird ausgewiesen (S301). Es wird gemäß einer Suchebene oder Spezifikationen, die über einer Ausweisung der Suchausführung gesetzt werden, bestimmt, ob eine Suchverarbeitung mit Korrektur eines Zeichenentnahmefehlers bei der OCR-Verarbeitung ausgewiesen ist (S302). Falls NEIN in Schritt S302, dann wird das in Schritt S301 eingegebene Wort in Suchschlüssel unterteilt. Die Suchschlüssel werden mit den in dem Suchdatei-Speicherabschnitt gespeicherten Indices verglichen (S304). Die Adressen von in dieser Vergleichsverarbeitung als übereinstimmende Dokumente bestimmten Dokumenten werden als das Suchergebnis ausgegeben (S307).
  • Wird in Schritt S302 bestimmt, dass eine Zeichenentnahme-Fehlerkorrektur ausgewiesen ist, dann werden Zeichen aus dem in Schritt S301 eingegebenen Wort gelöscht, um Muster zu erstellen, und die Muster, d. h. die Reste des Wortes, werden in Suchschlüssel unterteilt (S305). Diese Suchschlüssel werden mit den in dem Suchdatei-Speicherabschnitt gespeicherten Indices verglichen (S306). Teile der Indexinformationen, die den Suchschlüsseln für die erstellten Muster entsprechen, werden aus der Suchdatei entnommen, und die Teile der Indexinformationen, die den Suchschlüsseln entsprechen, werden in Einheiten von Mustern logisch UND- verknüpft. Die logischen UND-Ergebnisse werden dann für alle Muster logisch ODER-verknüpft. Diese Zeichenentnahme-Fehlerkorrektur wird durchgeführt, und selbst einen Zeichenentnahmefehler aufweisende Bildinformationen können gesucht werden, obwohl Rauschen mehr oder weniger überlagert ist.
  • Die Adressen von in dieser Vergleichsverarbeitung als übereinstimmende Dokumente bestimmten Dokumenten werden als das Suchergebnis ausgegeben (S307).
  • Jeder in Schritten S303 und S305 unterteilte Suchschlüssel weist die gleiche Anzahl von Zeichen wie jene eines Index auf. Die Suchschlüssel werden in dem gleichen Verfahren wie bei der Indexerstellung unterteilt, die in dem Ablaufdiagramm gemäß 2 beschrieben ist.
  • Dokumentenbildinformationen werden von dem Bildinformations-Speicherabschnitt 4-1 gemäß jeder in Schritt S307 ausgegebenen Dokumentenadresse gelesen und werden auf der Anzeigeeinrichtung 6 angezeigt. In diesem Fall kann, falls eine Vielzahl von Dokumenten anzuzeigen ist, die Liste von Titeln von gesuchten Dokumenten angezeigt werden, und kann ein Bild gemäß einer darauf folgenden Anweisung zum Anzeigen von Bildinformationen angezeigt werden.
  • Ein Dokumentensuchvorgang unter Verwendung eines Index bei Eingabe eines Suchwortes „temple" von der Tastatur 5 in Schritt S301 ist nachstehend beschrieben.
  • Das in Schritt S301 eingegebene Suchwort „temple" wird in Schritt S303 in Suchschlüssel „te", „em", „mp", „pl" und „le" unterteilt. In Schritt S304 werden alle diese Suchschlüssel mit den in dem Suchdatei-Speicherabschnitt gespeicherten Indices verglichen. Dokumente, denen alle Indices „te", „em", „mp", „pl" und „le" hinzugefügt sind, werden gesucht und in Schritt S307 ausgegeben.
  • Es sei angenommen, dass beispielsweise bei der OCR-Verarbeitung, die bei der Registrierung eines Bildes ausgeführt wird, ein Zeichenbildentnahmefehler bei einem Zeichen von „m" auftritt, und dass „m" als zwei Muster entnommen wird, ein Erkennungsergebnis „te@2rm@ple" aus der Zeichenkette von „temple" gewonnen ist, und dass dieses Ergebnis als Textinformationen gespeichert wird. Aus diesem Suchergebnis werden lediglich die Indices „te", „er", „en", „rp", „np", „pl", und „le" erstellt. Deshalb kann dieses Dokument nicht von den Suchschlüsseln „te", „em", „mp", „pl" und „le" gesucht werden, die aus dem Suchwort in Schritt S303 erstellt sind.
  • Eine Suchverarbeitung, die zum Suchen des Dokuments in der Lage ist, das „temple" in einem Bild enthält, ist eine Verarbeitung (S305 und S306) zum Durchführen einer Zeichenentnahmefehlerkorrektur.
  • In Schritt S305 werden sechs Muster „emple", „tmple", „teple", „temle", „tempe" und „templ" erstellt, von denen jedes durch Löschen eines Zeichens aus „temple" erstellt ist, und diese sechs Muster werden in Suchschlüssel unterteilt.
  • Schließlich werden die Suchschlüssel von den vorstehend beschriebenen sechs Mustern gewonnen:
    Figure 00190001
  • Die resultierenden Suchschlüssel werden mit in dem Suchdatei-Speicherabschnitt 4-3 gespeicherten Indices verglichen.
  • Wird ein Suchvorgang in Anbetracht eines Zeichenentnahmefehlers von einer Anwendungssoftware bei einer Dokumentensuchverarbeitung mit einem Index des Ablaufdiagramms gemäß 3 ausgewiesen, dann wird in Schritt S305 eine Zeichenlöschungsverarbeitung durch ein Verfahren durchgeführt, das in den Ablaufdiagrammen gemäß 7 bis 9 gezeigt ist. Die in den Ablaufdiagrammen gemäß 7 bis 9 gezeigte Verarbeitung stellt ein Lösungsverfahren in Anbetracht verschiedener Zeichenentnahmefehler dar und ist nachstehend beschrieben.
  • Bei der in dem Ablaufdiagramm gemäß 7 gezeigten Verarbeitung wird die Anzahl von zu löschenden Zeichen durch einen Operator ausgewiesen (S701), und werden alle möglichen Muster gemäß der ausgewiesenen Anzahl von zu löschenden Zeichen erstellt (S702).
  • In der in dem Ablaufdiagramm gemäß 8 gezeigten Verarbeitung wird die Anzahl von zu löschenden Zeichen bestimmt (S802) abhängig von der Länge eines in Schritt S801 ausgewiesenen Suchwortes, und alle möglichen Muster werden gemäß der bestimmten Anzahl von zu löschenden Zeichen erstellt (S803). Die Anzahl von zu löschenden Zeichen wird durch eine vorab gespeicherte Berechnungsformel gemäß der Anzahl von Zeichen des ausgewiesenen Suchwortes bestimmt. Die Berechnungsformel ist in dem Speicher des Computers 10 gespeichert.
  • Bei der in dem Ablaufdiagramm gemäß 9 gezeigten Verarbeitung wird in Schritten S901 bestimmt, ob ein in Schritt S901 ausgewiesenes Suchwort ein Zeichen oder Zeichen enthält, bei denen eine unangemessene Erkennung durch die OCR wahrscheinlich ist (S902). Falls JA in Schritt S902, dann wird ein derartiges Zeichen gelöscht (S903). Falls NEIN in Schritt S902, dann wird keine Verarbeitung zum Löschen eines Zeichens oder von Zeichen aus dem Suchwort durchgeführt, und die Zeichenkette des ausgewiesenen Suchwortes wird als ein Suchmuster definiert. Die Zeichen, bei denen eine unangemessene Erkennung durch die OCR wahrscheinlich ist, werden in Form z. B. einer Tabelle gespeichert. Diese Zeichen werden mit einem Suchwort verglichen, um in Schritt S902 eine Bestimmung durchzuführen. Da die zu löschenden Zeichen begrenzt sind, kann die Anzahl von gelöschten Mustern verringert werden. In dem vorstehend ausführlich beschriebenen Beispiel tendiert beispielsweise „r" in dem Suchwort von „parent" zu einem Erzeugen eines Entnahmefehlers. Wird dieses Zeichen als ein Kandidatenzeichen registriert, das wahrscheinlich einen Entnahmefehler erzeugt, dann wird der Suchvorgang auf ein Muster „paent" beschränkt, aus dem „r" gelöscht ist. Deshalb kann die Suchverarbeitung effizient durchgeführt werden.
  • In der Verarbeitung von Schritten S902 und S903 muss ein Zeichen, bei welchem eine unangemessene Erkennung durch die OCR wahrscheinlich ist, nicht gelöscht werden. Im Gegensatz dazu können Zeichen, bei welchen eine unangemessene Erkennung durch die OCR wahrscheinlich ist, in Form z. B. einer Tabelle in dem Speicher des Computers 10 gespeichert werden, und nicht in diesen Zeichen enthaltene Zeichen können gelöscht werden.
  • Bei dieser Verarbeitung müssen die Zeichen nicht gelöscht werden, bei denen eine unangemessene Erkennung wahrscheinlich ist. Bei der in den Ablaufdiagrammen gemäß 7 und 8 gezeigten Verarbeitung sind die Zeichen, bei welchen eine unangemessene Erkennung wahrscheinlich ist, als die ersten Prioritätszeichen der zu löschenden Zeichen definiert, wodurch die Suchverarbeitung effizient durchgeführt wird.
  • Bei der Verarbeitung der Ablaufdiagramme gemäß 7 bis 9 kann ein Grenzwert für die Anzahl von zu erzeugenden Mustern für eine exzessive Anzahl von Erzeugungsmustern erstellt werden.
  • Nach der in den Ablaufdiagrammen gemäß 7 bis 9 gezeigten Verarbeitung wird in Schritt S305 das Wort in Suchschlüssel unterteilt. In Schritt S306 werden die Suchschlüssel mit der Suchdatei verglichen, wodurch eine Suche mit minimalen Suchauslassungen in Anbetracht von Zeichenentnahmefehlern durchgeführt wird.
  • Nachstehend ist die Suchverarbeitung für ein gesamtes Dokument beschrieben.
  • Diese Verarbeitung kann Dokumente beseitigen, die Such schlüssel enthalten, nicht aber ein Suchwort selbst enthalten, im Gegensatz zu der Dokumentensuchverarbeitung mit einem Index des Ablaufdiagramms gemäß 3, in welcher ein Suchwort in Suchschlüssel unterteilt wird, und die Suchschlüssel werden zum Suchen von Dokumenten und zum Minimieren von Suchauslassungen verwendet, obwohl nicht die Zeichenketten des ausgewiesenen Suchwortes enthaltende Dokumente in den gesuchten Dokumenten enthalten sind.
  • Um eine Verarbeitung zum Suchen eines gesamten Dokuments durchzuführen, wird ein Abgleich zwischen einem Suchwort und dem gesamten Dokument durchgeführt. In diesem Fall wird die Verarbeitung in Anbetracht der Zeichenentnahmefehler bei der OCR-Verarbeitung durchgeführt. Die Einzelheiten sind nachstehend unter Bezugnahme auf das Ablaufdiagramm gemäß 5A bis 5C beschrieben.
  • Diese Verarbeitung kann für alle in dem Textinformations-Speicherabschnitt 4-2 gespeicherten Textinformationen durchgeführt werden, wird aber lediglich für Textinformationen durchgeführt, die einem durch die Suchverarbeitung gemäß 3 eingeschränkten Dokument entsprechen, wodurch die Verarbeitungseffizienz verbessert wird.
  • (Suchverarbeitung für ein gesamtes Dokument)
  • Bei dieser Verarbeitung wird, um einen Zeichenentnahmefehler bei der OCR-Verarbeitung zu betrachten, eine Suchverarbeitung für ein gesamtes Dokument derart durchgeführt, dass eine redundante Zeichenkette in einem Kandidatensuchwort enthalten ist, das durch Löschen eines Zeichens aus einem Suchwort erstellt ist.
  • Ein Suchwort und eine Sonderanzahl X von Zeichen werden eingegeben. Das Suchwort wird durch den Benutzer von der Tastatur 5 eingegeben. Die Sonderanzahl X von Zeichen ist die Anzahl von Zeichen, die dem jeden Suchwort hinzuzufügen sind. Dieser Wert wird durch eine vorab gespeicherte Berechnungsformel gemäß der Anzahl von Zeichen des Suchwortes bestimmt. Diese Berechnungsformel ist in dem Speicher des Computers 10 gespeichert. Außerdem kann eine Holebene durch den Benutzer ausgewiesen werden, wird die bestimmte Ebene bei der Berechnung zur Gewinnung von X berücksichtigt, und kann die Suchverarbeitung auf der durch den Benutzer erwünschten Ebene durchgeführt werden.
  • Werden das Suchwort und die Sonderanzahl X von Zeichen eingegeben, dann wird gemäß der bestimmten Ebene bestimmt, ob die Ebene mit einer Zeichenlöschungsverarbeitung ausgewiesen ist (S502). Falls JA in Schritt S502, dann wird ein Zeichen oder werden Zeichen aus dem in Schritt S501 eingegebenen Suchwort gelöscht, und wird die Position oder werden die Positionen der Zeichenlöschung in dem Suchwort gespeichert (S503). Die durch die Zeichenlöschung erstellte Zeichenkette wird als ein Kandidatensuchwort bezeichnet. Falls NEIN in Schritt S502, dann dient das in Schritt S502 eingegebene Suchwort als ein Kandidatensuchwort.
  • Eine Vergleichszeichenkette wird in der ersten Position des Kandidatensuchwortes gesetzt, ein Vergleichszeichen wird in dem ersten Zeichen der Vergleichszeichenkette gesetzt, und ein Zählwert C wird auf Null gesetzt. Die Vergleichszeichenkette ist als ein Suchwort definiert, das mit Textinformationen in diesem Moment zu vergleichen ist. Die Vergleichszeichenkette aktualisiert sequenziell ein Ziel in dem Kandidatensuchwort (S520). Das Vergleichszeichen ist als ein Zeichen in der Vergleichszeichenkette definiert, das als ein Vergleichsziel in diesem Moment dient und aktualisiert sequenziell ein Ziel in der Vergleichszeichenkette (S515). Der Zählwert C ist ein Zählwert zum Verwalten einer Sonderzeichenkette, um X zu überschreiten. Der Zählwert C wird jedes Mal dann inkrementiert, wenn eine Zeichenkette als eine Sonderzeichenkette bestimmt wird (S517).
  • In Schritt S505 wird ein gesamter Text, der mit einem Suchwort zu vergleichen ist, von dem Textinformations-Speicherabschnitt 4-2 geladen. In Schritt S507 wird ein zu vergleichendes Zeichen aus dem geladenen Text gelesen. In Schritt S508 wird bestimmt, ob das gelesene Zeichen ein Begrenzer ist. Falls NEIN in Schritt S508, dann wird das gelesene Zeichen mit dem Vergleichszeichen verglichen (S509). Ist jedoch das in Schritt S508 gelesene Zeichen als ein Begrenzer bestimmt, dann werden Zeichen von diesem Begrenzer bis hin zu dem nächsten Begrenzer aus dem in Schritt S505 geladenen Text gelesen. Die gelesenen Zeichen werden mit dem Vergleichszeichen verglichen (S510). Als ein Ergebnis des Vergleichs in Schritt S509 oder S510 wird, falls die zwei Zeichen miteinander identisch sind (S511), der Zählwert C auf Null rückgesetzt (S512). Befindet sich das Vergleichszeichen in der Letzten der Vergleichszeichenkette (S513), dann wird eine mit der Vergleichszeichenkette übereinstimmende Zeichenkette bestimmt, in dem in Schritt S505 geladenen Text vorhanden zu sein. Eine Dokumentenadresse dieses Textes in dem Bildinformations-Speicherabschnitt 4-1 wird ausgegeben (S514).
  • Wird in Schritt S513 bestimmt, dass das Vergleichszeichen nicht an der Letzten der Vergleichszeichenkette steht, dann geht der Ablauf zu Schritt S515 über, um das Vergleichszeichen zu dem nächsten Zeichen zu verschieben. Der Ablauf geht dann zu der Verarbeitung in Schritt S523 über.
  • Wird in Schritt S511 bestimmt, dass die zwei in Schritt S509 oder S510 verglichenen Zeichen nicht miteinander identisch sind, dann wird bestimmt, ob die Position des Vergleichszeichens sich bei der Position der Zeichenlöschung befindet, die in Schritt S503 gespeichert ist, und zur selben Zeit wird eine Bedingung C ≤ (X bis 1) eingerichtet (S516). Wird in Schritt S516 die bestätigende Antwort gewonnen, dann wird der Zählwert C inkrementiert (S517), und der Ablauf geht zu der Verarbeitung in Schritt S523 über. Wird jedoch in Schritt S516 die negative Antwort gewonnen, dann wird das Vergleichszeichen an den Kopf der Vergleichszeichenkette gesetzt, und wird der Zählwert C auf Null gesetzt (C518). Der Ablauf geht dann zu der Verarbeitung in Schritt S523 über.
  • In Schritt S506 wird bestimmt, wenn keine Zeichen in dem in Schritt S505 geladenen Text übrig sind, ob ein weiteres Kandidatensuchwort übrig ist (S519). Falls NEIN in Schritt S519, dann wird bestimmt, dass das Dokument keine Zeichenkette aufweist, die mit dem Suchwort übereinstimmt, und die Dokumentenvergleichsverarbeitung ist vollendet (S522). Wird jedoch in Schritt S519 bestimmt, dass ein weiteres Kandidatensuchwort übrig ist, dann wird das nächste Kandidatensuchwort in der Vergleichszeichenkette gesetzt, und wird der Zählwert C auf Null gesetzt (S520). In Schritt S521 wird die gelesene Position der Zeichendaten auf den Kopf der in Schritt S505 gelesenen Textinformationen gesetzt. Der Ablauf geht zu der Verarbeitung in Schritt S523 über.
  • In Schritt S523 wird ein Zeichen gelesen. Dann wird in Schritt S524 bestimmt, ob das gelesene Zeichen ein leeres Zeichen ist. Falls NEIN in Schritt S524, dann kehrt der Ablauf zu Schritt S506 zurück, um den Vergleich fortzusetzen. Wird bestimmt, dass die in Schritt S524 gelesenen Daten ein leeres Zeichen sind, dann wird in Schritt S525 das Vergleichszeichen auf den Kopf der Vergleichszeichenkette gesetzt, und wird der Zählwert C auf Null gesetzt. Dann wird ein Zeichen gelesen, und der Ablauf kehrt zu Schritt S506 zurück, um den Vergleich fortzusetzen.
  • Der Vergleich zwischen einer Textinformation und einem Suchwort ist vorstehend in dem Ablaufdiagramm gemäß 5A bis 5C beschrieben. Es werden jedoch in Schritt S505 eine Vielzahl von Teilen von Textinformationen sequenziell geladen, und die Verarbeitung in Schritten S505 bis S522 wird wiederholt. Deshalb kann die Erfindung eine Vielzahl von Dokumenten als Vergleichsziele bewältigen.
  • Eine Zeichenkette, der mit dem ausgewiesenen Suchwort übereinstimmen soll, wird in dem gesamten Dokument in Anbetracht einer Erzeugung eines Zeichenentnahmefehlers bei der OCR-Verarbeitung gesucht. Selbst wenn eine andere Zeichenkette bei der Position der Zeichenlöschung vorhanden ist, kann eine Übereinstimmung mit dem Suchwort bestimmt werden. Wie bei dem vorstehend beschriebenen Beispiel kann, selbst wenn eine Zeichenkette von „rn", die aufgrund eines Zeichenentnahmefehlers fehlerhaft erkannt wurde, bei der Position eines gelöschten Zeichens „m" in einem Muster „teple" vorhanden ist, das aus dem Suchwort „temple" erstellt ist, dann eine Zeichenkette in dem Text „termple" bestimmt werden, mit dem Suchwort übereinzustimmen. Deshalb kann der genaue Suchvorgang selbst dann durchgeführt werden, wenn ein Zeichenentnahmefehler auftrat.
  • Bei der Suchverarbeitung für das gesamte Dokument wird, wie in dem Ablaufdiagramm gemäß 5A bis 5C gezeigt, eine Verarbeitung zum Gestatten einer Hinzufügung einer Zeichenkette in ein Suchwort durchgeführt. Die Position, bei der der Zeichen-String hinzugefügt ist, wird auf die Position der Zeichenlöschung begrenzt.
  • Die Position, bei der der Zeichen-String hinzugefügt ist, ist nicht auf die Position der Zeichenlöschung begrenzt. Ein gesamtes Dokument kann dem Suchvorgang unterzogen werden, während Sonderzeichen zwischen die jeweiligen Zeichen des Suchwortes hinzugefügt werden können, wodurch eine unscharfe Suchverarbeitung durchgeführt wird. Diese Verarbeitung ist in dem Ablaufdiagramm gemäß 6A bis 6C gezeigt.
  • Die gleichen Schrittsymbole wie bei der Verarbeitung des Ablaufdiagramms gemäß 5A bis 5C bezeichnen die gleichen Schritte in 6A bis 6C, und eine ausführliche Beschreibung derer ist ausgelassen.
  • Die kennzeichnenden Verarbeitungsschritte gemäß 6A bis 6C sind Schritt S603, in welchem eine Position der Zeichenlöschung nicht gespeichert wird, und Schritt S616, in welchem lediglich die Bedingung C ≤ (X bis 1) gegeben ist. Deshalb kann ein Sonderzeichen bei jedweder Position eingefügt werden.
  • Wie vorstehend beschrieben, wird ein ausgewiesenes Suchwort in eine Vielzahl von Mustern entwickelt, und wird ein Suchvorgang unter Verwendung der Vielzahl von Mustern durchgeführt, oder wird ein Suchvorgang durchgeführt, während ein Sonderzeichen bei der Position der Zeichenlöschung oder einer anderen Position hinzugefügt wird. Dokumente, in welchen die gewünschte Suchzeichenkette nicht vorhanden ist, können ebenso gesucht werden.
  • Dies stellt jedoch eine wichtige Wirkung bei der Suchverarbeitung dar, die frei von Suchauslassungen ist. Wird beispielsweise „pray" gemäß dem erfindungsgemäßen Verfahren gesucht, dann kann ein Dokument, das eine Zeichenkette wie „play" enthält, der dazu tendiert, mit „pray" verwechselt zu werden, ebenso gesucht werden, wodurch die unscharfe Suchverarbeitung ermöglicht wird.
  • Ein japanischer Benutzer tendiert zu einem Verwechseln von „r", „s" bzw. „v" mit „l", „c", bzw. „b". Selbst in diesem Fall können Treffer ohne Suchauslassungen erzielt werden.
  • Auf die gleiche Weise wie in der in den vorstehenden Ausführungsbeispielen beschriebenen Verarbeitung kann eine Vielzahl von Einträgen erstellt werden, und kann eine Suchverarbeitung für eine Datenbank mit minimalen Suchauslassungen durchgeführt werden.
  • Ein Dokumentenschlüsselwort, ein Seitenschlüsselwort oder dergleichen können mit einer OCR in diesem Ausführungsbeispiel entnommen werden.
  • Auf die gleiche Weise wie in der vorstehend beschriebenen Technik kann dieses Ausführungsbeispiel ebenso bei einem Fall angewendet sein, in welchem Informationen, die unter Verwendung einer OMR oder einer optischen Barcode-Leseeinrichtung gewonnen sind, eine niedrige Erkennungswahrscheinlichkeit aufweisen.
  • Die doppelten 2-Zeichenschlüssel werden als die Indices einer Suchdatei in diesem Ausführungsbeispiel verwendet. Ein Index kann jedoch unter Verwendung eines Wortschlüssels erstellt sein.
  • In diesem Ausführungsbeispiel werden den gesuchten Textinformationen entsprechende Bildinformationen ausgegeben. Es können jedoch anstelle der Bildinformationen Textinformationen aus dem Textinformations-Speicherabschnitt 4-2 gelesen werden und können als ein Suchergebnis ausgegeben werden.
  • In diesem Ausführungsbeispiel wird ein Begrenzer (@) als eine Trennung zwischen Zeichenschlüsseln verwendet. Können die Zeichenschlüssel voneinander getrennt werden, dann kann ein Algorithmus, der eine andere Zeichenschlüssel-Trennungseinrichtung verwendet, ohne ein Verlieren der Wirkung der Erfindung verwendet werden.
  • Dieses Ausführungsbeispiel weist beispielhafte Zeichenschlüssel auf. Es kann jedoch ein Wortschlüssel anstelle eines Zeichenschlüssels verwendet sein.
  • Wie vorstehend beschrieben, kann ein Speichermedium (10), in welchem ein Softwareprogramm zum Realisieren der Funktionen des vorstehend beschriebenen Ausführungsbeispiels gespeichert ist, einem System oder einer Vorrichtung zugeführt sein, und der Computer (CPU oder MPU) dieses Systems oder dieser Vorrichtung kann das in dem Speichermedium gespeicherte Programm auslesen.
  • In diesem Fall realisieren die aus dem Speichermedium ausgelesenen Programmcodes selbst eine neue Funktion, und das die Programmcodes speichernde Speichermedium bildet die Erfindung.
  • Beispiele des Speichermediums zum Zuführen der Programmcodes sind eine Diskette, eine Festplatte, eine optische Platte, eine magnetooptische Platte, eine CD-ROM, eine CD-R, ein Magnetband, eine nicht-flüchtige Speicher karte und ein ROM.
  • Eine Realisierung der Funktionen des vorstehend beschriebenen Ausführungsbeispiels ist nicht durch eine Ausführung der durch den Computer ausgelesenen Programmcodes beschränkt. Ein BS (Betriebssystem) oder dergleichen, das auf dem Computer läuft, führt einen Teil oder die Gesamtheit der tatsächlichen Verarbeitung auf der Grundlage von Anweisungen der Programmcodes aus, und eine Realisierung der Funktionen des vorstehend beschriebenen Ausführungsbeispiels durch diese Verarbeitung ist ebenso in der Erfindung umfasst.
  • Die von dem Speichermedium ausgelesenen Programmcodes werden in einen Speicher in einer Funktionserweiterungs-Platine, die in den Computer eingefügt ist, oder in eine Funktionserweiterungs-Einheit, die mit dem Computer verbunden ist, geschrieben. Die auf der Funktionserweiterungs-Platine oder -Einheit angeordnete CPU oder dergleichen führt einen Teil oder die Gesamtheit der tatsächlichen Verarbeitung auf der Grundlage von Anweisungen der Programmcodes aus. Eine Realisierung der Funktionen des vorstehend beschriebenen Ausführungsbeispiels durch diese Verarbeitung ist ebenso in der Erfindung umfasst.
  • Wie vorstehend beschrieben ist, wenn ein Schlüssel eine niedrige OCR-Erkennungswahrscheinlichkeit aufweist und sein Erkennen unwahrscheinlich ist, die Anzahl von Kandidaten nicht auf Eins beschränkt. Durch das vorstehend beschriebene Verfahren wird eine Vielzahl von optimalen Erkennungskandidaten ausgewählt, die Erkennungswahrscheinlichkeiten entsprechen, und wirksame Erkennungskandidateninformationen werden nicht verworfen, sondern werden akkumuliert und verwendet. Deshalb werden wirksame Informationen bei der Zeichenerkennung nicht verworfen.
  • Wie vorstehend beschrieben, kann ein manueller Korrekturvorgang beseitigt werden, und kann ein System zum automatischen Durchführen von Vorgängen angeordnet werden, die von der Bildeingabe bis hin zu einer Daten-/Textdatenakkumulierung durch die OCR-Verarbeitung reichen. Zur selben Zeit kann ein vergleichsweise preisgünstiges System realisiert werden, in welchem ein Computer nicht überlastet wird, und kann eine Verringerung bei der Verarbeitungsgeschwindigkeit beseitigt werden.
  • Wie vorstehend beschrieben ist, wenn ein Schlüssel eine niedrige OCR-Erkennungswahrscheinlichkeit aufweist und seine Erkennung unwahrscheinlich ist, die Anzahl von Kandidaten nicht auf Eins beschränkt. Es wird eine Vielzahl von optimalen Erkennungskandidaten ausgewählt, die Erkennungswahrscheinlichkeiten entsprechen, und wirksame Erkennungskandidateninformationen werden nicht verworfen, sondern werden akkumuliert und verwendet. Deshalb kann ein manueller Korrekturvorgang beseitigt werden, wird ein Computer nicht überlastet, und kann eine Verarbeitungsgeschwindigkeit erhöht werden.
  • Wie vorstehend beschrieben, ist ein Zeichen, das aus einer ausgewiesenen Zeichenkette gelöscht ist, als ein Zeichen definiert, das einem vorbestimmten Zeichen entspricht, wodurch ein Muster effizient erstellt wird.
  • Wie vorstehend beschrieben, wird ein Zeichen, das aus einer ausgewiesenen Zeichenkette gelöscht ist, als ein Zeichen definiert, das nicht einem vorbestimmten Zeichen entspricht, wodurch ein Muster effizient erstellt wird.
  • Die Erfindung kann bei einem Verfahren für optische Zeichenerkennung angewendet werden, wobei das Dokument abgetastet wird, um ein Bild zu erzeugen, das zu erkennende Zeichen enthält. Die Erkennung wird ausgeführt und eine Korrektur für inkorrekt erkannte Zeichen findet unter Verwendung der vorstehend beschriebenen Suchtechnik statt, um korrekt erkannte Textinformationen zu erzeugen. Die Textinformationen können dann als Daten an eine Ausgabevorrichtung, wie einen Drucker, zur Anzeige ausgegeben werden. Die erkannten Textinformationen können ebenso in einem Speichermedium gespeichert werden, wie eine Computerplatte.
  • Wie vorstehend beschrieben, wird ein Zeichen, das aus einer ausgewiesenen Zeichenkette gelöscht ist, gemäß einer vorab gespeicherten Tabelle bestimmt, und kann ein Muster bei hoher Geschwindigkeit effizient erstellt werden.

Claims (4)

  1. Informationsverarbeitungsverfahren in einer Informationsverarbeitungsvorrichtung, die eine Zeichenerkennungseinrichtung (2), eine Speichereinrichtung (4) und eine Ausweisungseinrichtung enthält, mit den Schritten des Suchens nach einer ausgewiesenen Kennzeichenkette, die durch die Ausweisungseinrichtung ausgewiesen ist, in Textinformationen, die von einem Dokumentenbild durch die Zeichenerkennungseinrichtung erkannt sind, und des Bereitstellens von Suchergebnisinformationen, die die ausgewiesene Zeichenkette enthalten, wobei das Verfahren gekennzeichnet ist durch: einen ersten Bestimmungsschritt des Bestimmens, ob ein spezifisches in der Speichereinrichtung (4) gespeichertes Zeichen in der ausgewiesenen Zeichenkette enthalten ist, oder nicht, einen Suchschlüsselerzeugungsschritt (S303, S305) des Erzeugens, wenn bestimmt ist, dass das spezifische Zeichen der ausgewiesenen Zeichenkette enthalten ist, eines Suchschlüssels, der aus einer Kombination aus benachbarten Zeichen in einer Zeichenkette besteht, die durch Löschen des spezifischen Zeichens aus der ausgewiesenen Zeichenkette gebildet ist, einen zweiten Bestimmungsschritt (S304, S306) des Bestimmens, ob der Suchschlüssel in einem Index enthalten ist, oder nicht, der die gleiche Anzahl von Zeichen wie die Anzahl von Zeichen des Suchschlüssels aufweist, einen dritten Bestimmungsschritt des Bestimmens, wenn in dem zweiten Bestimmungsschritt bestimmt ist, dass ein Suchschlüssel in dem Index enthalten ist, ob ein Zeichenkettenmuster, das durch Ersetzen des spezifischen in der ausgewiesenen Zeichenkette enthaltenen Zeichens durch eine weitere Zeichenkette erhalten ist, in den Textinformationen enthalten ist, wobei die weitere Zeichenkette eine Anzahl von Zeichen innerhalb einer vorbestimmten Anzahl aufweist, und einen Anzeigeschritt des Veranlassens der Anzeige der Textinformationen, die in dem dritten Bestimmungsschritt bestimmt sind, dass das Zeichenkettenmuster enthalten ist, oder eines Dokumentenbildes, das den Textinformationen entspricht.
  2. Informationsverarbeitungsvorrichtung mit einer Zeichenerkennungseinrichtung (2), einer Speichereinrichtung (4) und einer Ausweisungseinrichtung, wobei die Vorrichtung zum Suchen nach einer ausgewiesenen Zeichenkette, die durch die Ausweisungseinrichtung ausgewiesen ist, in Textinformationen, die aus einem Dokumentenbild durch die Zeichenerkennungseinrichtung (2) erkannt sind, und zum Bereitstellen von Suchergebnisinformationen, die die ausgewiesene Zeichenkette enthalten, eingerichtet ist, wobei die Vorrichtung dadurch gekennzeichnet ist, dass sie umfasst: eine erste Bestimmungseinrichtung zum Bestimmen, ob ein spezifisches in der Speichereinrichtung (4) gespeichertes Zeichen in der ausgewiesenen Zeichenkette enthalten ist, oder nicht, eine Suchschlüsselerzeugungseinrichtung (3) zum Erzeugen, wenn bestimmt ist, dass das spezifische Zeichen in der ausgewiesenen Zeichenkette enthalten ist, eines Suchschlüssels, der aus einer Kombination von benachbarten Zeichen in einer Zeichenkette besteht, die durch Löschen des spezifischen Zeichens aus der ausgewiesenen Zeichenkette gebildet ist, eine zweite Bestimmungseinrichtung zum Bestimmen, ob der Suchschlüssel in einem Index enthalten ist, oder nicht, der die gleiche Anzahl von Zeichen wie die Anzahl von Zeichen des Suchschlüssels aufweist, und eine dritte Bestimmungseinrichtung zum Bestimmen, wenn in der zweiten Bestimmungseinrichtung bestimmt ist, dass ein Suchschlüssel in dem Index enthalten ist, ob ein Zeichenmuster, das durch Ersetzen des spezifischen in der ausgewiesenen Zeichenkette enthaltenen Zeichens durch eine weitere Zeichenkette erhalten ist, in den Textinformationen enthalten ist, oder nicht, wobei die weitere Zeichenkette eine Anzahl von Zeichen innerhalb einer vorbestimmten Anzahl aufweist, und eine Anzeigeeinrichtung, die zum Veranlassen der Anzeige von Textinformationen, die in dem dritten Bestimmungsschritt bestimmt sind, dass das Zeichenkettenmuster enthalten ist, oder eines den Textinformationen entsprechenden Dokumentenbildes eingerichtet ist.
  3. Computerprogramm, das die Schritte gemäß Anspruch 1 in einem Computer in einer Informationsverarbeitungsvorrichtung ausführt.
  4. Speichermedium, das ein Computerprogramm gemäß Anspruch 3 speichert.
DE69637025T 1995-07-03 1996-06-28 Informationsverarbeitungsverfahren und -vorrichtung zum Suchen von Bild- oder Textinformation Expired - Fee Related DE69637025T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP16737895 1995-07-03
JP16737895A JP3689455B2 (ja) 1995-07-03 1995-07-03 情報処理方法及び装置

Publications (2)

Publication Number Publication Date
DE69637025D1 DE69637025D1 (de) 2007-05-31
DE69637025T2 true DE69637025T2 (de) 2008-01-03

Family

ID=15848612

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69637025T Expired - Fee Related DE69637025T2 (de) 1995-07-03 1996-06-28 Informationsverarbeitungsverfahren und -vorrichtung zum Suchen von Bild- oder Textinformation

Country Status (5)

Country Link
US (1) US6310971B1 (de)
EP (1) EP0752673B1 (de)
JP (1) JP3689455B2 (de)
CN (1) CN1139884C (de)
DE (1) DE69637025T2 (de)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
JP4054398B2 (ja) * 1997-03-24 2008-02-27 キヤノン株式会社 情報処理装置及びその方法
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
JP3913985B2 (ja) * 1999-04-14 2007-05-09 富士通株式会社 文書画像中の基本成分に基づく文字列抽出装置および方法
US6556841B2 (en) * 1999-05-03 2003-04-29 Openwave Systems Inc. Spelling correction for two-way mobile communication devices
US6999636B1 (en) * 1999-11-09 2006-02-14 Canon Kabushiki Kaisha Image search method and apparatus
US6944344B2 (en) 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
US7151864B2 (en) * 2002-09-18 2006-12-19 Hewlett-Packard Development Company, L.P. Information research initiated from a scanned image media
US20060167935A1 (en) * 2002-10-15 2006-07-27 Yoshitaka Atarashi Input support method and apparatus in communication-type navigation system
JP2004171316A (ja) * 2002-11-21 2004-06-17 Hitachi Ltd Ocr装置及び文書検索システム及び文書検索プログラム
US20040223648A1 (en) * 2003-05-05 2004-11-11 Keith Hoene Determining differences between documents
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
JP4645498B2 (ja) * 2006-03-27 2011-03-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
DE102006050347A1 (de) 2006-10-25 2008-04-30 Siemens Ag Verfahren zum Prüfen eines Aufdrucks und Aufdruckprüfvorrichtung
US20090144327A1 (en) * 2007-11-29 2009-06-04 At&T Delaware Intellectual Property, Inc. Methods, systems, and computer program products for extracting data from a visual image
CN102369724B (zh) 2009-02-18 2016-05-04 谷歌公司 自动捕获信息,例如使用文档感知设备捕获信息
CN102349087B (zh) 2009-03-12 2015-05-06 谷歌公司 自动提供与捕获的信息例如实时捕获的信息关联的内容
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
EP2363702B1 (de) 2010-03-05 2016-09-28 Nordson Corporation Verbundfestigkeitstestvorrichtung mit schaltbarer Rückschlagkontrolle
JP5716328B2 (ja) * 2010-09-14 2015-05-13 株式会社リコー 情報処理装置、情報処理方法、および情報処理プログラム
JP5906843B2 (ja) * 2012-03-14 2016-04-20 オムロン株式会社 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
CN103377199B (zh) * 2012-04-16 2016-06-29 富士通株式会社 信息处理装置和信息处理方法
US10073884B2 (en) * 2014-12-18 2018-09-11 Excalibur Ip, Llc Method and system for enhanced search term suggestion
GB201620548D0 (en) 2016-12-02 2017-01-18 Nordson Corp Bond test apparatus and method
GB201702162D0 (en) 2017-02-09 2017-03-29 Nordson Corp Bond test apparatus and bond test cartridge with integrated illumination system
US10970481B2 (en) * 2017-06-28 2021-04-06 Apple Inc. Intelligently deleting back to a typographical error
WO2019021600A1 (ja) * 2017-07-24 2019-01-31 京セラドキュメントソリューションズ株式会社 画像処理装置
GB201713169D0 (en) 2017-08-16 2017-09-27 Nordson Corp Bond test apparatus and method
WO2020076949A1 (en) 2018-10-10 2020-04-16 Nordson Corporation Vacuum clamping apparatus and method
GB202406591D0 (en) 2024-05-10 2024-06-26 Nordson Corp Bond test apparatus and method

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3213420A (en) * 1960-12-29 1965-10-19 Jr Alton B Eckert Missing character detection
US4556951A (en) * 1982-06-06 1985-12-03 Digital Equipment Corporation Central processor with instructions for processing sequences of characters
JPS6435627A (en) * 1987-07-31 1989-02-06 Fujitsu Ltd Data retrieving system
JP2662035B2 (ja) * 1989-07-05 1997-10-08 キヤノン株式会社 文字処理装置
EP0424803B1 (de) * 1989-10-24 1997-07-16 FROESSL, Horst Verfahren zur mindestens teilweisen Umsetzung von Bilddaten in Text mit Vorbereitung für nachfolgende Speicherung oder Weiterverarbeitung
JP2865210B2 (ja) * 1989-12-04 1999-03-08 ソニー株式会社 文字認識装置
JP2829937B2 (ja) * 1990-08-06 1998-12-02 キヤノン株式会社 画像検索方法及び装置
JP2932667B2 (ja) * 1990-10-22 1999-08-09 松下電器産業株式会社 情報の検索方法および情報蓄積装置
US5276741A (en) * 1991-05-16 1994-01-04 Trw Financial Systems & Services, Inc. Fuzzy string matcher
JP2925359B2 (ja) * 1991-06-19 1999-07-28 キヤノン株式会社 文字処理方法及び装置
US5319721A (en) * 1992-04-14 1994-06-07 International Business Machines Corporation Methods and apparatus for evolving a starter set of handwriting prototypes into a user-specific set
US5329598A (en) * 1992-07-10 1994-07-12 The United States Of America As Represented By The Secretary Of Commerce Method and apparatus for analyzing character strings
JP2837047B2 (ja) * 1992-11-06 1998-12-14 シャープ株式会社 文書データ検索機能付き文書処理装置
JP3026397B2 (ja) * 1992-12-22 2000-03-27 松下電器産業株式会社 文書検索装置
JP3220886B2 (ja) * 1993-06-23 2001-10-22 株式会社日立製作所 文書検索方法および装置
JPH07121547A (ja) * 1993-10-21 1995-05-12 Matsushita Electric Ind Co Ltd 情報検索装置
JPH07152774A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 文書検索方法および装置
JPH07160730A (ja) * 1993-12-07 1995-06-23 Toshiba Corp 全文検索装置
JPH0863487A (ja) * 1994-08-25 1996-03-08 Toshiba Corp 文書検索方法及び文書検索装置

Also Published As

Publication number Publication date
CN1139884C (zh) 2004-02-25
EP0752673B1 (de) 2007-04-18
JPH0916619A (ja) 1997-01-17
DE69637025D1 (de) 2007-05-31
JP3689455B2 (ja) 2005-08-31
CN1149737A (zh) 1997-05-14
EP0752673A1 (de) 1997-01-08
US6310971B1 (en) 2001-10-30

Similar Documents

Publication Publication Date Title
DE69637025T2 (de) Informationsverarbeitungsverfahren und -vorrichtung zum Suchen von Bild- oder Textinformation
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE69730930T2 (de) Verfahren und Gerät zur Zeichenerkennung
DE3650554T2 (de) Speicherungs- und Wiederauffindungsverfahren für Bilddaten
DE4216893C2 (de) Dateneingabeverfahren
DE69631457T2 (de) Vorrichtung und verfahren zum übertragbaren indexieren von dokumenten gemäss einer n-gram-wortzerlegung
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69634459T2 (de) Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten
DE10162156B4 (de) Die Benutzernavigation durch Multimedia-Dateiinhalte unterstützendes System und Verfahren
DE69434620T2 (de) Verfahren und Gerät zum Herstellen, Indexieren und Anschauen von zusammengefassten Dokumenten
DE3926327C2 (de) Verfahren und System zum Erkennen von Zeichen auf einem Medium
DE69434364T2 (de) Bildabrufverfahren und-vorrichtung
EP0439951B1 (de) Datenverarbeitung
US5721940A (en) Form identification and processing system using hierarchical form profiles
DE102005032734B4 (de) Indexextraktion von Dokumenten
DE69721951T2 (de) Verfahren und Gerät zum Fingerabdruckvergleich mit auf lokaler Merkmalübereinstimmung basierter Transformationsparametergruppenbildung
DE102011005579A1 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und Speichermedium
US10762377B2 (en) Floating form processing based on topological structures of documents
DE112013002731T5 (de) Formerkennung unter Nutzung von Kettenkode-Statuszuständen
JP2003524258A (ja) 電子ドキュメントを処理する方法および装置
DE60123730T2 (de) Gerät und Verfahren zur Bestimmung des Formats von Dokumenten
DE102012025349B4 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
Huang et al. Associating text and graphics for scientific chart understanding
WO2007070010A1 (en) Improvements in electronic document analysis

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee