-
Gebiet der
Erfindung
-
Die
vorliegende Erfindung betrifft ein System und ein Verfahren zur
automatischen Erstellung und Durchsuchung von eingescannten Dokumenten,
wie etwa Mikrofilm oder Papier, und im Besonderen ein System und
ein Verfahren, wobei die Wahrscheinlichkeit, dass während der
Erstellung der eingescannten Dokumente Fehler auftreten, in das
Suchverfahren einbezogen wird.
-
Hintergrund
der Erfindung
-
Im
Zuge des Wachstums des Internets, werden viele verschiedene Arten
von Web-Sites angeschlossen
und stehen daher Benutzern zur Verfügung. Diese Web-Sites können Informationen
enthalten, die für
Benutzer von Interesse sind, wie z.B. Nachrichten. Tatsächlich beziehen
heutzutage viele Internet-Benutzer zumindest einen Teil ihrer Nachrichteninformationen
aus Web-Sites, die solche Informationen veröffentlichen.
-
Traditionelle
Zeitungen und andere Nachrichtenquellen waren daher gezwungen, die
neuen Medien anzunehmen, die durch Web-Seiten repräsentiert
sind. Derzeit haben viele traditionelle (Druck-) Zeitungen Web-Sites,
die zumindest einen Teil der Nachrichten und Informationen enthalten,
die durch die Druckversion der Zeitung erhältlich sind. Die Verwaltung
solcher Web-Sites kann jedoch mühsam
sein, da es derzeit keinen einfachen Mechanismus zum Umwandeln von
Daten gibt, die in Form der gedruckten Zeitung verfügbar sind, in
Daten, die über
die Web-Site bereitgestellt werden können.
-
Das
Problem ist bei der Veröffentlichung
von archiviertem Material, das derzeit auf Mikrofilm gespeichert
wird, besonders akut. Zeitungsverlage, Büchereien und andere Aufbewahrungsorte
besitzen ernorme Mengen an Informationen, die auf Mikrofilm gespeichert
sind. Derartige Mikrofilmdokumente stellen einen enormen Wert dar,
der derzeit nicht richtig genutzt werden kann. Der Vorteil von Mikrofilmen
besteht darin, dass sie sowohl das Erscheinungsbild der Zeitung
oder eines anderen Papierdokuments als auch die darin enthaltenen
Daten erhalten. Der Nachteil besteht natürlich darin, dass eine Durchsuchung
von Mikrofilmarchiven nach den interessierenden Informationen langwierig
und schwierig ist. Darüber
hinaus kann der Mikrofilm nur an einer physischen Stelle gelesen
werden, da die Daten nicht beispielsweise über ein Netzwerk gesendet werden
können.
Daher hat der Mikrofilm eine Reihe erheblicher Probleme.
-
Die
Versuche, die unternommen wurden, um eine Lösung bereitzustellen, haben
leider mehrere Nachteile. Das Einscannen der Mikrofilmdokumente
beispielsweise, um die Daten über
einen Computer bereitstellen zu können, führt während des Verfahrens der optischen
Zeichenerkennung (OCR – Optical
Character Recognition) zu zahlreichen Fehlern. Dieses Verfahren
ist notwendig, um die Textdaten elektronisch durchsuchbar zu machen,
die daraus resultierenden Fehler bewirken jedoch, dass der endgültige Text
nur schwer, genau durchsucht werden kann. Ein manuelles Korrigieren
dieser Fehler ist ein mühsamer
und kostenintensiver Vorgang, dennoch kann der resultierende Text
derzeit, wenn diese Fehler nicht korrigiert werden, nicht durchsuchbar
sein.
-
Ein
weiterer Versuch, eine Durchsuchung von Texten mit Fehlern vorzusehen,
besteht in dem Verfahren der "Fuzzy-Suche" ("unscharfe" Suche), wobei nach
einem abgefragten Schlüsselwort
und Variationen dieses Schlüsselworts
gleichzeitig gesucht wird. Leider ist dieses Suchverfahren bei großen Datenbanken
wirkungslos, da zu viele irrelevante Treffer erzielt werden.
-
Eine
sinnvollere Lösung
würde die
erwünschten
Aspekte der Mikrofilmdaten erhalten, einschließlich der Erhaltung des Erscheinungsbildes
der Zeitung oder eines anderen Papierdokuments, während diese
Daten in eine digitale Form umgesetzt werden. Dieses Umsetzungsverfahren
sollte hochgenau sein und gleichzeitig eine Korrektur oder Kompensation
der Fehler während
des Verfahrens, insbesondere des Verfahrens der optischen Zeichenerkennung
(OCR), ermöglichen.
Die umgesetzte digitale Form wäre
dann über
ein Netzwerk, wie z.B. das Internet, zugänglich, wodurch Benutzer die
Daten von einem entfernten Ort aus einsehen könnten. Darüber hinaus sollte eine solche
Lösung
leicht automatisch durchzuführen
sein, ohne dass ein ausgedehnter manueller Eingriff notwendig ist.
Leider steht eine solche Lösung
derzeit nicht zur Verfügung.
-
Das
US-Patent Nr. 5,265,242 lehrt ein Dokumentspeicher- und -zugriffssystem
zum Speichern eines Dokumentkörpers
in Form eines Bildes, Einrichtungen zum Speichern von Textinformationen
in Form einer Zeichencodefolge zur Wiederauffindung, eine Vorrichtung
zum Durchführen
einer Suche unter Bezugnahme auf die Textinformati onen und eine
Vorrichtung zum Anzeigen eines damit in Zusammenhang stehenden Dokumentbildes
auf einem Suchbildschirm in Übereinstimmung
mit dem Suchergebnis. Eine solche Form des Systems steht zur Auffindung
des gesamten Inhalts eines Dokuments und auch zum Anzeigen des Dokumentkörpers zur
Verfügung,
der in einem Format gedruckt ist, das leicht unmittelbar in Bildform
zu lesen ist. Die Benutzer können
mittels beliebiger Worte Dokumente wieder finden und sogar ein Dokument,
das aufgrund von mathematischen Ausdrücken und Diagrammen kompliziert
ist, über
einen Bildschirm in Bildform genau wie auf Papier lesen. Es wird
ein System bereitgestellt, bei dem die gesuchten Textinformationen
automatisch aus dem Dokumentbild durch die Zeichenerkennung extrahiert
werden. Da die Genauigkeit der Zeichenerkennung bislang nicht zufrieden
stellend war, wurden die visuelle Suche und Korrektur unweigerlich
durch Bediener durchgeführt.
Es ist jedoch nicht notwendig, dass Bediener dies erledigen.
-
FR 2,768,825 betrifft ein
Dokumentdigitalisierungs- und -speichersystem, das eine geringere
Benutzerbeteiligung erfordert und insbesondere eine Speicherung
der Dokumente in einem Format ermöglicht, in dem sie abgefragt
werden können.
-
WO
99 50763 lehrt die Bearbeitung von Suchanfragen, zur Kompensation
von Zeichen und Zeichenfolgen, die während einer OCR-Abtastung falsch
gelesen wurden. Nachdem eine alphanumerische Suche eingegeben wurde
(50), bestimmt das System Wortvarianten, die mit der eingegebenen
alphanumerischen Suchanfrage gemäß einer
vordefinierten Tabelle möglicher
OCR-Fehler, der Fehlerauftrittswahrscheinlichkeit bei OCR und einem
vordefinierten Schwellenwert der Auftrittswahrscheinlichkeit (52)
in Verbindung gebracht werden. Wenn die Bearbeitung abgeschlossen
ist, verwendet eine Suchmaschine die Wortvarianten, um eine Datenbank
zu durchsuchen, die mittels OCR eingescannte Dokumente enthält (54).
-
Zusammenfassung
der Erfindung
-
Der
Stand der Technik lehrt oder empfiehlt kein System und kein Verfahren
zum automatischen und exakten Umsetzen von Mikrofilmdaten in ein
digitales Format, so dass bei dem Verfahren der optischen Zeichenerkennung
(OCR) auftretende Fehler in einer späteren Phase des Verfahrens
zur Veröffentlichung
der Mikrofilmdaten berücksichtigt
werden. Der Stand der Technik lehrt oder empfiehlt auch kein System
und kein Verfahren zum Einbeziehen der Auftrittswahrscheinlichkeit
solcher Fehler, um eine Durchsuchung des umgesetzten Materials zu
unterstützen.
Der Stand der Technik lehrt und empfiehlt ebenfalls kein System
und kein Verfahren, um es Benutzern zu ermöglichen, auf die umgesetzten
digitalen Daten über
ein Netzwerk, wie etwa das Internet, zuzugreifen.
-
Die
vorliegende Erfindung überwindet
diese Mängel
des Standes der Technik durch Bereitstellen eines Systems und eines
Verfahrens zum Umsetzen von Mikrofilmdaten in ein digitales Format
zur Veröffentlichung über ein
Netzwerk, wie etwa das Internet. Zunächst wird ein Bild des Mikrofilms
erzeugt, bevorzugt im TIFF-Format. Als Nächstes werden die Worte des
Bildes durch ein optisches Zeichenerkennungsverfahren (OCR-Verfahren)
mit einer zugeordneten Fehlerwahrscheinlichkeit erkannt. Die Bilddaten
können
dann zur Veröffentlichung
in ein digitales Format umgesetzt werden, z.B. als XML-Daten. Der
Benutzer kann bevorzugt eine Schlüsselwortsuche an den im digitalen
Format befindlichen Daten durchführen.
Besonders bevorzugt ist die Schlüsselwortsuche
eine adaptive Suche.
-
Zur
Erleichterung der Durchführung
einer solchen Suche, werden die erkannten Worte aus dem OCR-Verfahren
mit der zugeordneten Fehlerwahrscheinlichkeit indiziert. Als Nächstes gibt
der Benutzer ein Schlüsselwort
ein. Das Schlüsselwort
wird in Übereinstimmung
mit der Fehlerwahrscheinlichkeit mit den indizierten Wörtern verglichen.
Wenn die Differenz zwischen dem Schlüsselwort und einem indizierten
Wort geringer als die Fehlerwahrscheinlichkeit ist, dann wird das
indizierte Wort als mit dem Schlüsselwort übereinstimmend
angesehen.
-
Erfindungsgemäß wird ein
Verfahren zum Durchführen
einer Suche bereitgestellt, wobei das Verfahren umfasst: das Durchführen einer
optischen Zeichenerkennung (OCR – Optical Character Recognition)
an einem Bild, um wenigstens ein erkanntes Wort und einen probabilistischen
Fehlergrad für
die Erkennung des erkannten Wortes zu erhalten, das Indizieren des
wenigstens einen erkannten Wortes mit dem probabilistischen Fehlergrad,
um ein indiziertes Wort zu bilden, das Eingeben einer Suchanfrage,
wobei die Suchanfrage wenigstens ein Schlüsselwort enthält, und
das Vergleichen des Schlüsselwortes
mit jedem indizierten Wort gemäß dem probabilistischen
Fehlergrad, so dass, wenn eine Differenz zwischen dem Schlüsselwort
und dem indizierten Wort geringer als der probabilistische Fehlergrad
ist, das indizierte Wort als mit dem Schlüsselwort übereinstimmend angesehen wird.
-
Gemäß einer
anderen Ausführungsform
der vorliegenden Erfindung ist ein Verfahren zum Durchsuchen von
in einem digitalen Format befindlichen Mikrofilmdaten bereitgestellt,
wobei das Verfahren umfasst: das Erzeugen eines digitalen Bildes
der Mikrofilmdaten, das Durchführen
einer optischen Zeichenerkennung (OCR) an dem digitalen Bild, um
wenigstens ein erkanntes Wort und eine Fehlerwahrscheinlichkeit
für die
Erkennung des erkannten Wortes zu erhalten, das Indizieren des wenigstens
einen erkannten Wortes mit der Fehlerwahrscheinlichkeit, um ein
indiziertes Wort zu bilden, das Eingeben einer Suchanfrage, wobei
die Suchanfrage wenigstens ein Schlüsselwort enthält, und
das Vergleichen des Schlüsselwortes
mit jedem indizierten Wort in Übereinstimmung
mit der Fehlerwahrscheinlichkeit, so dass, wenn eine Differenz zwischen
dem Schlüsselwort
und dem indizierten Wort geringer als die Fehlerwahrscheinlichkeit
ist, das indizierte Wort als mit dem Schlüsselwort übereinstimmend angesehen wird.
-
Im
Folgenden bezieht sich der Begriff "Netzwerk" auf eine Verbindung zwischen zwei oder
mehreren beliebigen Computereinrichtungen, die eine Übertragung
von Daten ermöglicht.
-
Im
Folgenden umfasst der Begriff "Computereinrichtung" jede Art von Computer,
der in Übereinstimmung
mit einer beliebigen Art von Hardware und/oder Betriebssystem arbeitet,
ohne jedoch nicht darauf beschränkt
zu sein, oder eine beliebige Einrichtung, die Laptops, Handheld-Computer
(Computer, die in der Hand gehalten werden können), PDA- (Personal Data
Assistant – Taschencomputer
mit Bildschirm) Einrichtungen, zellulare Telefone, jede Art von
durch WAP (Wireless Application Protocol) aktivierter Einrichtung,
tragbare Computer jeder Art, die über ein Betriebssystem verfügen, umfasst,
ohne jedoch darauf beschränkt
zu sein.
-
Bei
der vorliegenden Erfindung könnte
eine Software-Anwendung in im Wesentlichen jeder geeigneten Programmiersprache
geschrieben werden, die von einem Fachmann auf dem Gebiet leicht
ausgewählt werden
kann. Die gewählte
Programmiersprache sollte mit der Computereinrichtung kompatibel
sein, gemäß der die
Software-Anwendung ausgeführt
wird. Beispiele für
geeignete Programmiersprachen umfassen C, C++ und Java, sind jedoch
nicht darauf beschränkt.
-
Darüber hinaus
könnte
die vorliegende Erfindung in Form von Software, Firmware oder Hardware
oder einer Kombination daraus implementiert werden. Bei jeder dieser
Implementierungen könnten
die durch das Verfahren ausgeführten
Funktionsschritte als Mehrzahl an Instruktionen beschrieben werden,
die durch einen Datenprozessor ausgeführt werden.
-
Im
Folgenden bezieht sich der Begriff "Web-Browser" auf ein beliebiges Software-Programm, das Text, Graphiken
oder beides aus Web-Seiten von World-Wide-Web- Sites anzeigen kann. Im Folgenden bezieht
sich der Begriff "Web-Server" auf einen Server,
der dazu in der Lage ist, auf Anfrage eine Web-Seite an den Web-Browser
zu senden.
-
Im
Folgenden bezieht sich der Begriff "Web-Seite" auf ein beliebiges Dokument, das in
einer Auszeichnungssprache (mark-up language) geschrieben ist, die
HTML (hypertext mark-up language) oder VRML (virtual reality modeling
language), Dynamik-HTML,
XML (extensible mark-up language) oder XSL (XML styling language)
oder verwandte Computersprachen derselben umfasst, ohne jedoch darauf
beschränkt
zu sein, sowie auf eine beliebige Kollektion von Dokumenten, die über eine
spezifische Internet-Adresse erreichbar oder auf einer spezifischen
World-Wide-Web-Site zu finden sind, oder auf ein beliebiges Dokument,
das durch einen bestimmten vereinheitlichten Ressourcen-Platzanweiser
(URL – Uniform
Resource Locator) erhalten werden kann. Im Folgenden bezieht sich
der Begriff "Web-Site" auf wenigstens eine
Web-Seite und bevorzugt mehrere Web-Seiten, die virtuell miteinander
verbunden sind, um eine kohärente
Gruppe zu bilden.
-
Im
Folgenden umfasst der Ausdruck "Web-Seite
anzeigen" alle Tätigkeiten,
die notwendig sind, um wenigstens einen Teil der Informationen auf
der Web-Seite dem Computerbenutzer zur Verfügung zu stellen. Der Ausdruck
als solcher umfasst die statische visuelle Anzeige von statischen
graphischen Informationen, die akustische Erzeugung von Audioinformationen,
die animierte, visuelle Anzeige von Animationen und die visuelle
Anzeige von Video-Datenstromdaten, ohne jedoch darauf beschränkt zu sein.
-
Kurzbeschreibung
der Zeichnungen
-
Die
Erfindung ist hierin rein beispielhaft unter Bezugnahme auf die
begleitenden Zeichnungen beschrieben. Es zeigt:
-
1 ein
schematisches Blockdiagramm eines beispielhaften erfindungsgemäßen Systems,
-
2 ein
Flussdiagramm eines veranschaulichenden erfindungsgemäßen Verfahrens,
und
-
3 zwei beispielhafte Momentaufnahmen von
Bildschirminhalten (Screenshots) zum Durchsuchen einer Zeitungsseite,
und zwar sowohl gemäß dem Stand
der Technik (3A) als auch gemäß der vorliegenden
Erfindung (3B).
-
Beschreibung
der bevorzugten Ausführungsformen
-
Die
vorliegende Erfindung betrifft ein System und ein Verfahren zum
Umsetzen von Mikrofilmdaten in ein digitales Format zur Veröffentlichung über ein
Netzwerk, wie etwa das Internet. Zunächst wird ein Bild des Mikrofilms
erzeugt, bevorzugt im TIFF-Format.
Als Nächstes
werden die Worte des Bildes durch ein optisches Zeichenerkennungsverfahren
(OCR-Verfahren) mit einer zugeordneten Fehlerwahrscheinlichkeit
erkannt. Die Bilddaten können
dann zur Veröffentlichung
in ein digitales Format umgesetzt werden, z.B. als XML-Daten. Der Benutzer
kann bevorzugt eine Schlüsselwortsuche
an den in einem digitalen Format befindlichen Daten durchführen. Besonders
bevorzugt ist die Schlüsselwortsuche
eine adaptive Suche. Wahlweise und besonders bevorzugt wird die
Suche über
Worte durchgeführt,
die mit XML-Tags versehen sind, die besonders bevorzugt als XML-Daten
bereitgestellt werden. Die XML-Tags zeigen solche Informationen
besonders bevorzugt als die jedem Wort zugeordnete Fehlerwahrscheinlichkeit
an.
-
Zur
Erleichterung der Durchführung
einer solchen Suche, werden die erkannten Worte aus dem OCR-Verfahren
bevorzugt mit der zugeordneten Fehlerwahrscheinlichkeit indiziert,
z.B. durch die vorstehend beschriebenen XML-Tags. Als Nächstes gibt
der Benutzer ein Schlüsselwort
ein. Das Schlüsselwort
wird in Übereinstimmung
mit der Fehlerwahrscheinlichkeit mit den indizierten Worten verglichen.
Wenn die Differenz zwischen dem Schlüsselwort und einem indizierten
Wort geringer als die Fehlerwahrscheinlichkeit ist, dann wird das
indizierte Wort als mit dem Schlüsselwort übereinstimmend
angesehen.
-
Die
Grundlagen und der Betrieb der vorliegenden Erfindung gehen unter
Bezugnahme auf die Zeichnungen und die begleitende Beschreibung
genauer hervor.
-
Bezug
nehmend nun auf die Zeichnungen, ist 1 ein schematisches
Blockdiagramm eines erfindungsgemäßen Systems zum automatischen
Umsetzen von Mikrofilmdaten in ein digitales Format. Obgleich die
vorliegende Erfindung in Bezug auf die Veröffentlichung von Zeitungsdaten
beschrieben ist, versteht es sich, dass dies nur der Erläuterung
dient und dadurch keine Einschränkung
beabsichtigt ist.
-
Wie
gezeigt, umfasst ein System 10 eine Mikrofilmdatenquelle 14,
die archivierte Mikrofilmdaten enthält. Eine zugeordnete Mikrofilmpublikationseinrichtung 16 setzt
die Mikrofilmdaten erfindungsgemäß in ein
digitales Format um, indem sie die Mikrofilmdaten in digitale Bilder
umwandelt. Wahlweise und bevorzugt werden die im digitalen Format
befindlichen Daten durch die Mikrofilmpublikationseinrichtung 16 vorverarbeitet, um
die Daten zu säubern,
z.B. um die Bildqualität
zu verbessern, Sprichwörter
(black adages) zu kürzen
und die Bilder zu begradigen. Die im digitalen Format befindlichen
Daten befinden sich bevorzugt im TIF-Format.
-
In
einem digitalen Format befindliche Daten können dann wahlweise und besonders
bevorzugt in ein internes Basisformat umgesetzt werden. Das interne
Basisformat kann dann zur Veröffentlichung
besonders bevorzugt in eine Vielzahl unterschiedliche endgültige Formate
umgesetzt werden. Daher werden die in einem digitalen Format befindlichen
Daten, vor der Veröffentlichung
in einer Vielzahl von Formaten, bevorzugt nur in ein einzelnes Format
umgesetzt, um die Effizienz des Umsetzungsverfahrens zu erhöhen.
-
Wie
gezeigt, ist das interne Format wahlweise und bevorzugt XML, obgleich
im Wesentlichen auch jede andere Art von Auszeichnungssprache verwendet
werden könnte.
Das Umsetzungsverfahren wird bevorzugt durch ein XML-Destiller-Modul 18 durchgeführt. Das
XML-Destiller-Modul 18 führt zunächst eine optische Zeichenerkennung
(OCR) an den Daten durch, um den Text in den Bildern erkennen zu
können.
Die Texterkennung ist wichtig, um eine freie Textsuche und Indizierung
der Zeitungsdaten zu ermöglichen.
Das Verfahren zur Durchführung
von OCR umfasst bevorzugt den Schritt des Bestimmens einer Fehlerwahrscheinlichkeit
bei der Erkennung eines Wortes des Textes, wie nachfolgend unter
Bezugnahme auf 2 genauer beschrieben.
-
Als
Nächstes
führt das
XML-Destiller-Modul 18 bevorzugt eine intelligente Strukturanalyse
durch, um die in den Zeitungsdaten enthaltenen Strukturen und Objekte,
insbesondere in Bezug auf jede Seite der Zeitung, erkennen und definieren
zu können.
Beispiele für
solche Strukturen und Objekte umfassen Artikel, Werbeanzeigen, Titel
und so weiter, sind jedoch nicht darauf beschränkt. Das Verfahren der intelligenten
Strukturanalyse ermöglicht
die Umsetzung der Zeitungsdaten in eine Reihe von Objekten für eine effizientere
Suche und Auffindung über
das Internet oder ein anderes Netzwerk.
-
Nachdem
das Verfahren der intelligenten Strukturanalyse abgeschlossen worden
ist, führt
das XML-Destiller-Modul 18 bevorzugt eine XML-Codierung
der Objektdaten durch. Dieses Verfahren führt zu einem Satz erweiterter,
strukturierter Dateien, die das Originalbild der Daten, die sich
wie vorstehend beschrieben bevorzugt im TIF-Format befinden, mit den Text- und XML-Informationen
kombinieren. Eine jede derartige Datei erhält somit bevorzugt die visuellen
Aspekte des Zeitungslayouts und ermöglicht gleichzeitig die Bereitstellung
einer weit größeren Funktionalität durch
die Web-Seitenversion der Zeitung.
-
Sobald
die Daten fertig in das interne Veröffentlichungsformat umgesetzt
worden sind, werden die Daten erfindungsgemäß bevorzugt in einem Repositorium 20 gespeichert.
Das Repositorium 20 ist bevorzugt eine strukturierte Datenbank,
die die im internen Format befindlichen Daten zur Veröffentlichung
in einem endgültigen
Format enthält.
Wahlweise und besonders bevorzugt werden die im internen Format
befindlichen Daten in mehreren unterschiedlichen endgültigen Formaten
durch einen Publikationsserver 22 veröffentlicht. Diese unterschiedlichen
Formate können
wahlweise ein oder mehrere beliebige in einer Auszeichnungssprache befindliche
Dokumente, wie z.B. ein in XML oder HTML befindliches Dokument,
ein drahtlos aktiviertes (wireless enabled) Dokument, wie z.B. ein
WML-Dokument, das ASCII-Textformat und ein Format umfassen, das zur
Veröffentlichung
durch eine Technologie, wie z.B. Web TV, geeignet ist, ohne jedoch
darauf beschränkt
zu sein.
-
Wahlweise
und besonders bevorzugt kann ein Director-Modul 24 den
Inhalt der im Repositorium 20 gespeicherten Daten, z.B.
durch Redigieren der Daten, bearbeiten. Darüber hinaus kann das Director-Modul 24 bevorzugt
die Druckformatvorlagen und andere Layoutinformationen für die unterschiedlichen
Formate definieren, die durch den Publikationsserver 22 veröffentlicht
werden. Somit ermöglicht
es das Director-Modul 24 besonders
bevorzugt, die im internen Format befindlichen Daten automatisch
für die
Veröffentlichung
in jedem endgültigen
Veröffentlichungsformat
anzupassen, um die Daten in jeder Art von Format in besonders vorteilhafter
Weise anzuzeigen.
-
Ein
Benutzer-Client 26 kann dann dazu verwendet werden, die
im digitalen Format befindlichen Daten dem Benutzer anzuzeigen,
beispielsweise damit der Benutzer eine Seite der Zeitung als angezeigtes
Bild lesen kann. Der Benutzer kann auch eine Anfrage für eine Suche
durch den Benutzer-Client 26 eingegeben, die wenigstens
ein Schlüsselwort
enthält.
Die Suchanfrage wird dann an eine Suchmaschine 28 gesendet,
die die adaptive Suche durchführt,
wie nachfolgend genauer beschrieben.
-
2 ist
ein Flussdiagramm eines beispielhaften erfindungsgemäßen Verfahrens
zum Erhalten der Fehlerwahrscheinlichkeit bei der Erkennung eines
Worts während
der OCR und zur Verwendung dieser Wahrscheinlichkeit zur Durchführung einer
adaptiven Schlüsselwortsuche
an den umgewandelten XML-Daten.
-
Im
ersten Schritt wird das OCR-Verfahren an den Bilddaten durchgeführt, um
einzelne Worte des Textes aus der Originalzeitung zu erkennen. Das
OCR-Verfahren ermittelt drei Arten von Daten: den ASCII-Text der
erkannten Worte, Koordinaten für
jedes Zeichen und somit für
jedes Wort und die Wahrscheinlichkeit, dass bei der Erkennung jedes
Zeichens ein Fehler auftritt. Das OCR-Verfahren selbst ist wohlbekannt
und kann wahlweise mit einem im Handel erhältlichen Software-Produkt (siehe
z.B. FireReader
TM von ABBYY, Russland oder
TextBridge
TM von Xerox Corp., USA) durchgeführt werden.
Die Wahrscheinlichkeit, dass bei der Erkennung von jedem Zeichen
ein Fehler auftritt, wird dazu verwendet, die Wahrscheinlichkeit
der bei der Erkennung des Worts insgesamt auftretenden Fehler zu
bestimmen. In Schritt
2 wird diese Wahrscheinlichkeit in
einen Tag umgewandelt, der den XML-Daten für dieses Wort zugeordnet werden
kann. Besonders bevorzugt wird die Fehlerwahrscheinlichkeit in Übereinstimmung
mit der Anzahl der vermutlich falsch identifizierten Zeichen, der
Wahrscheinlichkeit eines solchen Fehlers und der Gesamtwortlänge in einen
Fehlergrad umgewandelt. Die Algorithmen zur Berechnung des Fehlergrads
können
variieren. Die durchschnittliche Wortfehlerwahrscheinlichkeit kann
wahlweise z.B. wie folgt berechnet werden:
wobei p
i die
Fehlerwahrscheinlichkeit des i
ten Zeichens
des Wortes ist, die zwischen 0 und 1 variiert, und n die Anzahl
an Zeichen im Wort ist. Die durchschnittlicheFehlerwahrscheinlichkeit
kann zwischen 0 und 1 variieren, wobei ein Wert von Null bedeutet,
dass das Wort keine fehlerhaften Zeichen aufweist.
-
Nehmen
wir an, dass die Fehlergrad-Variable 4 Fuzzy- oder kategorische
Werte haben kann: KeinFehler, KleinerFehler, MittlererFehler, GroßerFehler.
Dann kann der folgende Pseudo-Code zur Berechnung des Fehlergrades
verwendet werden:
-
Die
Schritte 1 und 2 stützen sich auf die OCR-Ergebnisse,
um die Fehlerwahrscheinlichkeit zu definieren. Wahlweise und besonders
bevorzugt wird ein internes OCR-Wörterbuch
verwendet, um jedes durch das OCR-Verfahren erhaltene Wort zu prüfen, bei
dem ermittelt wurde, dass es ohne Fehler ist oder zumindest einen
Fehler unter einer gewissen Wahrscheinlichkeit hat. Wenn sich dieses
Wort nicht in diesem Wörterbuch findet,
dann wird die Fehlerwahrscheinlichkeit für dieses Wort in Übereinstimmung
mit der Anzahl an vorgeschlagenen Wörtern aus dem Wörterbuch
und der Wortlänge
definiert, was ähnlich
dem vorstehend beschriebenen Verfahren durchgeführt wird. Die Erfinder der
vorliegenden Anmeldung haben herausgefunden, dass diese Fehlerart,
bei der die OCR die Fehlerwahrscheinlichkeit für ein bestimmtes Wort nicht
korrekt bewertet, nach dem OCR-Verfahren in zumindest einem Teil
des Textes vorkommt. Eine weitere Beschreibung einer bevorzugten
Ausführungsform
dieses Verfahrens folgt nachstehend.
-
In
Schritt 3 werden die durch die Umsetzung der Zeitungsdaten
erhaltenen Worte durch eine Suchmaschine indiziert, damit diese
Worte während
einer Schlüsselwortsuche
lokalisiert werden können.
Bevorzugt werden alle Worte derart indiziert. In Schritt 4 wird
jedes indizierte Wort der Fehlerwahrscheinlichkeit zugeordnet, die
zuvor bei der Erkennung erhalten wurde, bevorzugt durch Verwendung
des XML- Tags. Die
Umwandlung der Fehlerwahrscheinlichkeit in einen Wert eines begrenzten
Wertesatzes ermöglicht
es, dass die adaptive Suche die Fehlerinformationen leichter verwenden
kann, wie nachfolgend genauer beschrieben.
-
In
Schritt 5 gibt der Benutzer eine Suche nach mindestens
einem Schlüsselwort
in die Suchmaschine ein. In Schritt 6 wandelt die Suchmaschine
bevorzugt jedes Schlüsselwort
in einen Satz adaptiver Suchworte um, welche Worte sind, die sich
von dem Schlüsselwort
durch wenigstens einen Buchstaben unterscheiden. Im folgenden Beispiel
werden vier derartige unterschiedliche Sätze nur zu Erläuterungszwecken
erzeugt, wobei keine Einschränkung
beabsichtigt ist. Diese vier Sätze
lauten wie folgt: suche nur Worte, die keine Fehler haben, ohne
Fuzzy-Suche (Fuzzy-Bereich 0), suche nur Worte mit kleinen Fehlern
mit Fuzzy-Bereich 1, suche nur Worte mit mittleren Fehlern mit Fuzzy-Bereich
2 und suche nur Worte mit großen
Fehlern mit Fuzzy-Bereich 3.
-
In
Schritt 7 werden diese unterschiedlichen Sätze adaptiver
Schlüsselworte
in Übereinstimmung
mit der Fehlerwahrscheinlichkeit durchsucht. In Schritt 8 werden
die Ergebnisse dem Benutzer durch den Client präsentiert, wie in Bezug auf 1 beschrieben.
Wahlweise wird das erkannte Wort auf dem Bild angezeigt, es kann
jedoch auch getrennt vom Bild angezeigt werden. In jedem Fall wird
das erkannte Wort wahlweise und besonders bevorzugt entweder als
durch die OCR erhaltener Text und/oder alternativ als Teil des Bildes
selbst angezeigt.
-
Der
Vorteil der vorliegenden Erfindung besteht darin, dass sie die "Fuzziness" (Vagheit) der Suche spezifisch
mit der Fehlermenge verknüpft,
die während
des OCR-Verfahrens
auftritt. Andere Fuzzy-Suchverfahren, die im Stand der Technik bekannt
sind, haben den Nachteil, dass sie zu viele irrelevante Ergebnisse erzielen,
da diese Verfahren einfach jedes indizierte Wort akzeptieren, das
sich von dem Schlüsselwort
um bis zu einer bestimmten Anzahl an Buchstaben unterscheidet, auch
wenn das OCR-Verfahren für
dieses indizierte Wort exakt durchgeführt worden ist. Im Gegensatz
dazu, würde
die vorliegende Erfindung ein solches indiziertes Wort nur akzeptieren,
wenn der Differenzgrad vom Schlüsselwort
in die während
des OCR-Verfahrens ermittelte Fehlerwahrscheinlichkeit fällt. Somit
werden nur relevante Suchergebnisse erzielt und dem Benutzer präsentiert.
-
3A zeigt
beispielhafte Momentaufnahmen von Bildschirminhalten bekannter Software,
ohne das fortgeschrittene Suchvermögen der vorliegenden Erfindung. 3B zeigt
beispielhafte Momentaufnahmen von Bildschirminhalten der erfindungsge mäßen Software.
Kurz gesagt, zeigt 3A, dass die bekannte Software
Irrtümer
oder Fehler im eingescannten Dokument nicht handhaben kann, da Fehler,
wie etwa eine falsche Schreibweise von "Henry" in Form von "Hehry", verhindern können, dass die Software das
gewünschte
Suchwort "Henry" lokalisiert. Im
Gegensatz dazu, kann die erfindungsgemäße Software, in 3B,
das Wort "Henry" auch dann lokalisieren,
wenn es in Form von "Hehry" falsch geschrieben
ist, wie durch die unterstrichenen lokalisierten Suchworte gezeigt.
-
Das
zuvor beschriebene Verfahren zum Bestimmen der Fehlerwahrscheinlichkeit
für durch
das OCR-Verfahren abgeleitete Worte wird wahlweise und bevorzugt
für die
Verity-Suchmaschine, Verity Inc., USA, implementiert.
-
Worte,
die nach dem OCR-Verfahren als "verdächtig" angesehen werden
oder eine Fehlerwahrscheinlichkeit haben, können mindestens eines, typischerweise
jedoch beide, der folgenden Merkmale aufweisen: das OCR-Verfahren
hat wenigstens ein verdächtiges
Zeichen in diesem Wort ermittelt und/oder das Wort lässt sich
nicht im Wörterbuch
finden. Bei beiden der zuvor beschriebenen Implementierungen der
vorliegenden Erfindung und der aktuellen Implementierung kann das
OCR-Wörterbuch
wahlweise als Nachschlagetabelle, Hash-Tabelle oder beliebige geeignete
Implementierung ausgeführt
werden.
-
Diese
verdächtigen
Wörter
werden bevorzugt im XML-Ausgang mit speziellen Tags versehen, wie
vorstehend beschrieben. Leider kann die Suchmaschine von Verity
während
der Suche nicht zahlreiche Fehler-Tags handhaben, beispielsweise
mehr als einige hundert bei einem Dokument. Um diese Beschränkung zu überwinden,
wird bevorzugt ein bestimmter Buchstabe vor einem solchen verdächtigen
Wort platziert, um anzuzeigen, dass dieses Wort verdächtig ist.
Es könnte
beispielsweise eine Unterstreichung für diesen Zweck verwendet werden,
wie etwa "_schutzen" für "schützen".
-
Der
Befehl <typo> (Schreibfehler) der
Verity-Suchmaschine kann wahlweise dazu verwendet werden, alle Worte
zu durchsuchen, besonders bevorzugt wird er jedoch nur dazu verwendet,
die zuvor mit Tags versehenen, verdächtigen Worte zu durchsuchen,
um eine größere Genauigkeit
zu erzielen. Dieser Befehl ermöglicht
es Worte zu lokalisieren, die sich um ein oder zwei Zeichen von
dem gesuchten Wort unterscheiden.
-
Wortsuchen
können
wahlweise dazu verwendet werden, entweder nach dem genauen Wort
oder einer verwandten grammatikalischen Form, wie z.B. der Zeitform
eines Verbs, durch die Verity-Suchmaschine zu suchen. Diese Suchmaschine
unterstützt
jedoch keine Suchen nach verwandten grammatikalischen Formen von verdächtigen
Worten. Daher umfasst das erfindungsgemäße Verfahren wahlweise auch
die Erzeugung verwandter grammatikalischer Formen dieser verdächtigen
Worte.
-
Eine
Suche kann wahlweise auch durch eine Kombination von Durchsuchungen
regulärer
(nicht verdächtiger)
Worte und <typo>-Befehlsdurchsuchungen
verdächtiger
Worte durchgeführt
werden. Bei dem Wort "Präsident" beispielsweise würde die
Suchanfrage wie folgt konstruiert werden: <TYPO>_Präsident <ODER> <STAMM> Präsident.
-
Diese
Suche würde
Worte wie Präsident,
präsidial,
Präsidenten,
etc. unter "normalen" Worten und Worte
wie Prosident unter verdächtigen
Worten lokalisieren. Es sei darauf hingewiesen, dass das Vorhandensein
der Unterstreichung vor dem Wort '_Präsident' im Suchausdruck
bevorzugt verhindert, dass die Verity-Suchmaschine den <typo>-Befehl verwendet,
um unter "normalen" Worten zu suchen.
-
Der <STAMM>-Operator kann wahlweise
ebenfalls hinzugefügt
werden, wenn diese Worte durchsucht werden. Der <Stamm>-Operator
unterstützt
die Durchsuchung in Übereinstimmung
mit unterschiedlichen grammatikalischen Formen des gesuchten Wortes
in Übereinstimmung
mit der Sprache der Suche. Beispielsweise würde eine Suche nach "<STAMM>-Zufall" in der deutschen
Sprache Worte wie "zufällig", "Zufälle", "zufälligerweise" und so weiter ergeben,
zusammen mit dem ursprünglichen
Wort "Zufall". Diese Befehle können wahlweise
mit Modifikatoren und/oder dem Joker-Operator kombiniert werden.
Der <STAMM>-Operator kann wahlweise
mit dem <FALL>-Befehl kombiniert
werden, der eine Suche nach Worten unterstützt, die in unterschiedlichen
Fällen
angegeben sind. Beispielsweise würde
jedes der Worte Zufall, ZUFALL, ZuFall mit dem Befehl "Suche<FALL>Zufall" gefunden werden.
In ähnlicher
Weise kann der <TYPO>-Operator wahlweise
mit dem <FALL>-Befehl kombiniert
werden, wenn <FALL> im Operanden zuerst
platziert wird.
-
Darüber hinaus
kann der Benutzer es wünschen,
mehrere Suchbefehle im Suchausdruck mit <UND> <ODER> und Nähe-Operatoren <NAHE> <NAHE/N>, <ABSATZ>, <REDEWENDUNG>, <SATZ> zu kombinieren. Die
vorliegende Erfindung ermöglicht
es wahlweise und bevorzugt, diese Befehle nur für verdächtige Worte und/oder für reguläre und verdächtige Worte
zusammen bei einer einzelnen Suche zu verwenden, so dass der Benutzer
besonders bevorzugt nicht die Wortart bei der Suche angeben muss.
Beispiele für
bevorzugte Umformungen dieser Suchausdrücke sind in der nachfolgenden
Tabelle angegeben.
-
-
Obgleich
die Erfindung in Bezug auf eine begrenzte Anzahl von Ausführungsformen
beschrieben worden ist, versteht es sich, dass viele Variationen,
Modifikationen und andere Anwendungen der Erfindung möglich sind.