DE60118399T2

DE60118399T2 - System und verfahren zur automatischen aufbereitung und suche von abgetasteten dokumenten

Info

Publication number: DE60118399T2
Application number: DE60118399T
Authority: DE
Inventors: Pesach Yonatan STERN; Emil Shteinvil
Original assignee: Olive Software Inc
Current assignee: Ignite Olive Software Solutions Inc
Priority date: 2000-08-24
Filing date: 2001-08-24
Publication date: 2006-12-07
Anticipated expiration: 2021-08-25
Also published as: IL154586A0; AU2001284369A1; ATE322051T1; DE60118399D1; EP1312039B1; EP1312039A2; WO2002017166A3; WO2002017166A2

Description

Gebiet der Erfindung
Die vorliegende Erfindung betrifft ein System und ein Verfahren zur automatischen Erstellung und Durchsuchung von eingescannten Dokumenten, wie etwa Mikrofilm oder Papier, und im Besonderen ein System und ein Verfahren, wobei die Wahrscheinlichkeit, dass während der Erstellung der eingescannten Dokumente Fehler auftreten, in das Suchverfahren einbezogen wird.
Hintergrund der Erfindung
Im Zuge des Wachstums des Internets, werden viele verschiedene Arten von Web-Sites angeschlossen und stehen daher Benutzern zur Verfügung. Diese Web-Sites können Informationen enthalten, die für Benutzer von Interesse sind, wie z.B. Nachrichten. Tatsächlich beziehen heutzutage viele Internet-Benutzer zumindest einen Teil ihrer Nachrichteninformationen aus Web-Sites, die solche Informationen veröffentlichen.
Traditionelle Zeitungen und andere Nachrichtenquellen waren daher gezwungen, die neuen Medien anzunehmen, die durch Web-Seiten repräsentiert sind. Derzeit haben viele traditionelle (Druck-) Zeitungen Web-Sites, die zumindest einen Teil der Nachrichten und Informationen enthalten, die durch die Druckversion der Zeitung erhältlich sind. Die Verwaltung solcher Web-Sites kann jedoch mühsam sein, da es derzeit keinen einfachen Mechanismus zum Umwandeln von Daten gibt, die in Form der gedruckten Zeitung verfügbar sind, in Daten, die über die Web-Site bereitgestellt werden können.
Das Problem ist bei der Veröffentlichung von archiviertem Material, das derzeit auf Mikrofilm gespeichert wird, besonders akut. Zeitungsverlage, Büchereien und andere Aufbewahrungsorte besitzen ernorme Mengen an Informationen, die auf Mikrofilm gespeichert sind. Derartige Mikrofilmdokumente stellen einen enormen Wert dar, der derzeit nicht richtig genutzt werden kann. Der Vorteil von Mikrofilmen besteht darin, dass sie sowohl das Erscheinungsbild der Zeitung oder eines anderen Papierdokuments als auch die darin enthaltenen Daten erhalten. Der Nachteil besteht natürlich darin, dass eine Durchsuchung von Mikrofilmarchiven nach den interessierenden Informationen langwierig und schwierig ist. Darüber hinaus kann der Mikrofilm nur an einer physischen Stelle gelesen werden, da die Daten nicht beispielsweise über ein Netzwerk gesendet werden können. Daher hat der Mikrofilm eine Reihe erheblicher Probleme.
Die Versuche, die unternommen wurden, um eine Lösung bereitzustellen, haben leider mehrere Nachteile. Das Einscannen der Mikrofilmdokumente beispielsweise, um die Daten über einen Computer bereitstellen zu können, führt während des Verfahrens der optischen Zeichenerkennung (OCR – Optical Character Recognition) zu zahlreichen Fehlern. Dieses Verfahren ist notwendig, um die Textdaten elektronisch durchsuchbar zu machen, die daraus resultierenden Fehler bewirken jedoch, dass der endgültige Text nur schwer, genau durchsucht werden kann. Ein manuelles Korrigieren dieser Fehler ist ein mühsamer und kostenintensiver Vorgang, dennoch kann der resultierende Text derzeit, wenn diese Fehler nicht korrigiert werden, nicht durchsuchbar sein.
Ein weiterer Versuch, eine Durchsuchung von Texten mit Fehlern vorzusehen, besteht in dem Verfahren der "Fuzzy-Suche" ("unscharfe" Suche), wobei nach einem abgefragten Schlüsselwort und Variationen dieses Schlüsselworts gleichzeitig gesucht wird. Leider ist dieses Suchverfahren bei großen Datenbanken wirkungslos, da zu viele irrelevante Treffer erzielt werden.
Eine sinnvollere Lösung würde die erwünschten Aspekte der Mikrofilmdaten erhalten, einschließlich der Erhaltung des Erscheinungsbildes der Zeitung oder eines anderen Papierdokuments, während diese Daten in eine digitale Form umgesetzt werden. Dieses Umsetzungsverfahren sollte hochgenau sein und gleichzeitig eine Korrektur oder Kompensation der Fehler während des Verfahrens, insbesondere des Verfahrens der optischen Zeichenerkennung (OCR), ermöglichen. Die umgesetzte digitale Form wäre dann über ein Netzwerk, wie z.B. das Internet, zugänglich, wodurch Benutzer die Daten von einem entfernten Ort aus einsehen könnten. Darüber hinaus sollte eine solche Lösung leicht automatisch durchzuführen sein, ohne dass ein ausgedehnter manueller Eingriff notwendig ist. Leider steht eine solche Lösung derzeit nicht zur Verfügung.
Das US-Patent Nr. 5,265,242 lehrt ein Dokumentspeicher- und -zugriffssystem zum Speichern eines Dokumentkörpers in Form eines Bildes, Einrichtungen zum Speichern von Textinformationen in Form einer Zeichencodefolge zur Wiederauffindung, eine Vorrichtung zum Durchführen einer Suche unter Bezugnahme auf die Textinformati onen und eine Vorrichtung zum Anzeigen eines damit in Zusammenhang stehenden Dokumentbildes auf einem Suchbildschirm in Übereinstimmung mit dem Suchergebnis. Eine solche Form des Systems steht zur Auffindung des gesamten Inhalts eines Dokuments und auch zum Anzeigen des Dokumentkörpers zur Verfügung, der in einem Format gedruckt ist, das leicht unmittelbar in Bildform zu lesen ist. Die Benutzer können mittels beliebiger Worte Dokumente wieder finden und sogar ein Dokument, das aufgrund von mathematischen Ausdrücken und Diagrammen kompliziert ist, über einen Bildschirm in Bildform genau wie auf Papier lesen. Es wird ein System bereitgestellt, bei dem die gesuchten Textinformationen automatisch aus dem Dokumentbild durch die Zeichenerkennung extrahiert werden. Da die Genauigkeit der Zeichenerkennung bislang nicht zufrieden stellend war, wurden die visuelle Suche und Korrektur unweigerlich durch Bediener durchgeführt. Es ist jedoch nicht notwendig, dass Bediener dies erledigen.
FR 2,768,825 betrifft ein Dokumentdigitalisierungs- und -speichersystem, das eine geringere Benutzerbeteiligung erfordert und insbesondere eine Speicherung der Dokumente in einem Format ermöglicht, in dem sie abgefragt werden können.
WO 99 50763 lehrt die Bearbeitung von Suchanfragen, zur Kompensation von Zeichen und Zeichenfolgen, die während einer OCR-Abtastung falsch gelesen wurden. Nachdem eine alphanumerische Suche eingegeben wurde (50), bestimmt das System Wortvarianten, die mit der eingegebenen alphanumerischen Suchanfrage gemäß einer vordefinierten Tabelle möglicher OCR-Fehler, der Fehlerauftrittswahrscheinlichkeit bei OCR und einem vordefinierten Schwellenwert der Auftrittswahrscheinlichkeit (52) in Verbindung gebracht werden. Wenn die Bearbeitung abgeschlossen ist, verwendet eine Suchmaschine die Wortvarianten, um eine Datenbank zu durchsuchen, die mittels OCR eingescannte Dokumente enthält (54).
Zusammenfassung der Erfindung
Der Stand der Technik lehrt oder empfiehlt kein System und kein Verfahren zum automatischen und exakten Umsetzen von Mikrofilmdaten in ein digitales Format, so dass bei dem Verfahren der optischen Zeichenerkennung (OCR) auftretende Fehler in einer späteren Phase des Verfahrens zur Veröffentlichung der Mikrofilmdaten berücksichtigt werden. Der Stand der Technik lehrt oder empfiehlt auch kein System und kein Verfahren zum Einbeziehen der Auftrittswahrscheinlichkeit solcher Fehler, um eine Durchsuchung des umgesetzten Materials zu unterstützen. Der Stand der Technik lehrt und empfiehlt ebenfalls kein System und kein Verfahren, um es Benutzern zu ermöglichen, auf die umgesetzten digitalen Daten über ein Netzwerk, wie etwa das Internet, zuzugreifen.
Die vorliegende Erfindung überwindet diese Mängel des Standes der Technik durch Bereitstellen eines Systems und eines Verfahrens zum Umsetzen von Mikrofilmdaten in ein digitales Format zur Veröffentlichung über ein Netzwerk, wie etwa das Internet. Zunächst wird ein Bild des Mikrofilms erzeugt, bevorzugt im TIFF-Format. Als Nächstes werden die Worte des Bildes durch ein optisches Zeichenerkennungsverfahren (OCR-Verfahren) mit einer zugeordneten Fehlerwahrscheinlichkeit erkannt. Die Bilddaten können dann zur Veröffentlichung in ein digitales Format umgesetzt werden, z.B. als XML-Daten. Der Benutzer kann bevorzugt eine Schlüsselwortsuche an den im digitalen Format befindlichen Daten durchführen. Besonders bevorzugt ist die Schlüsselwortsuche eine adaptive Suche.
Zur Erleichterung der Durchführung einer solchen Suche, werden die erkannten Worte aus dem OCR-Verfahren mit der zugeordneten Fehlerwahrscheinlichkeit indiziert. Als Nächstes gibt der Benutzer ein Schlüsselwort ein. Das Schlüsselwort wird in Übereinstimmung mit der Fehlerwahrscheinlichkeit mit den indizierten Wörtern verglichen. Wenn die Differenz zwischen dem Schlüsselwort und einem indizierten Wort geringer als die Fehlerwahrscheinlichkeit ist, dann wird das indizierte Wort als mit dem Schlüsselwort übereinstimmend angesehen.
Erfindungsgemäß wird ein Verfahren zum Durchführen einer Suche bereitgestellt, wobei das Verfahren umfasst: das Durchführen einer optischen Zeichenerkennung (OCR – Optical Character Recognition) an einem Bild, um wenigstens ein erkanntes Wort und einen probabilistischen Fehlergrad für die Erkennung des erkannten Wortes zu erhalten, das Indizieren des wenigstens einen erkannten Wortes mit dem probabilistischen Fehlergrad, um ein indiziertes Wort zu bilden, das Eingeben einer Suchanfrage, wobei die Suchanfrage wenigstens ein Schlüsselwort enthält, und das Vergleichen des Schlüsselwortes mit jedem indizierten Wort gemäß dem probabilistischen Fehlergrad, so dass, wenn eine Differenz zwischen dem Schlüsselwort und dem indizierten Wort geringer als der probabilistische Fehlergrad ist, das indizierte Wort als mit dem Schlüsselwort übereinstimmend angesehen wird.
Gemäß einer anderen Ausführungsform der vorliegenden Erfindung ist ein Verfahren zum Durchsuchen von in einem digitalen Format befindlichen Mikrofilmdaten bereitgestellt, wobei das Verfahren umfasst: das Erzeugen eines digitalen Bildes der Mikrofilmdaten, das Durchführen einer optischen Zeichenerkennung (OCR) an dem digitalen Bild, um wenigstens ein erkanntes Wort und eine Fehlerwahrscheinlichkeit für die Erkennung des erkannten Wortes zu erhalten, das Indizieren des wenigstens einen erkannten Wortes mit der Fehlerwahrscheinlichkeit, um ein indiziertes Wort zu bilden, das Eingeben einer Suchanfrage, wobei die Suchanfrage wenigstens ein Schlüsselwort enthält, und das Vergleichen des Schlüsselwortes mit jedem indizierten Wort in Übereinstimmung mit der Fehlerwahrscheinlichkeit, so dass, wenn eine Differenz zwischen dem Schlüsselwort und dem indizierten Wort geringer als die Fehlerwahrscheinlichkeit ist, das indizierte Wort als mit dem Schlüsselwort übereinstimmend angesehen wird.
Im Folgenden bezieht sich der Begriff "Netzwerk" auf eine Verbindung zwischen zwei oder mehreren beliebigen Computereinrichtungen, die eine Übertragung von Daten ermöglicht.
Im Folgenden umfasst der Begriff "Computereinrichtung" jede Art von Computer, der in Übereinstimmung mit einer beliebigen Art von Hardware und/oder Betriebssystem arbeitet, ohne jedoch nicht darauf beschränkt zu sein, oder eine beliebige Einrichtung, die Laptops, Handheld-Computer (Computer, die in der Hand gehalten werden können), PDA- (Personal Data Assistant – Taschencomputer mit Bildschirm) Einrichtungen, zellulare Telefone, jede Art von durch WAP (Wireless Application Protocol) aktivierter Einrichtung, tragbare Computer jeder Art, die über ein Betriebssystem verfügen, umfasst, ohne jedoch darauf beschränkt zu sein.
Bei der vorliegenden Erfindung könnte eine Software-Anwendung in im Wesentlichen jeder geeigneten Programmiersprache geschrieben werden, die von einem Fachmann auf dem Gebiet leicht ausgewählt werden kann. Die gewählte Programmiersprache sollte mit der Computereinrichtung kompatibel sein, gemäß der die Software-Anwendung ausgeführt wird. Beispiele für geeignete Programmiersprachen umfassen C, C++ und Java, sind jedoch nicht darauf beschränkt.
Darüber hinaus könnte die vorliegende Erfindung in Form von Software, Firmware oder Hardware oder einer Kombination daraus implementiert werden. Bei jeder dieser Implementierungen könnten die durch das Verfahren ausgeführten Funktionsschritte als Mehrzahl an Instruktionen beschrieben werden, die durch einen Datenprozessor ausgeführt werden.
Im Folgenden bezieht sich der Begriff "Web-Browser" auf ein beliebiges Software-Programm, das Text, Graphiken oder beides aus Web-Seiten von World-Wide-Web- Sites anzeigen kann. Im Folgenden bezieht sich der Begriff "Web-Server" auf einen Server, der dazu in der Lage ist, auf Anfrage eine Web-Seite an den Web-Browser zu senden.
Im Folgenden bezieht sich der Begriff "Web-Seite" auf ein beliebiges Dokument, das in einer Auszeichnungssprache (mark-up language) geschrieben ist, die HTML (hypertext mark-up language) oder VRML (virtual reality modeling language), Dynamik-HTML, XML (extensible mark-up language) oder XSL (XML styling language) oder verwandte Computersprachen derselben umfasst, ohne jedoch darauf beschränkt zu sein, sowie auf eine beliebige Kollektion von Dokumenten, die über eine spezifische Internet-Adresse erreichbar oder auf einer spezifischen World-Wide-Web-Site zu finden sind, oder auf ein beliebiges Dokument, das durch einen bestimmten vereinheitlichten Ressourcen-Platzanweiser (URL – Uniform Resource Locator) erhalten werden kann. Im Folgenden bezieht sich der Begriff "Web-Site" auf wenigstens eine Web-Seite und bevorzugt mehrere Web-Seiten, die virtuell miteinander verbunden sind, um eine kohärente Gruppe zu bilden.
Im Folgenden umfasst der Ausdruck "Web-Seite anzeigen" alle Tätigkeiten, die notwendig sind, um wenigstens einen Teil der Informationen auf der Web-Seite dem Computerbenutzer zur Verfügung zu stellen. Der Ausdruck als solcher umfasst die statische visuelle Anzeige von statischen graphischen Informationen, die akustische Erzeugung von Audioinformationen, die animierte, visuelle Anzeige von Animationen und die visuelle Anzeige von Video-Datenstromdaten, ohne jedoch darauf beschränkt zu sein.
Kurzbeschreibung der Zeichnungen
Die Erfindung ist hierin rein beispielhaft unter Bezugnahme auf die begleitenden Zeichnungen beschrieben. Es zeigt:
1 ein schematisches Blockdiagramm eines beispielhaften erfindungsgemäßen Systems,
2 ein Flussdiagramm eines veranschaulichenden erfindungsgemäßen Verfahrens, und
3 zwei beispielhafte Momentaufnahmen von Bildschirminhalten (Screenshots) zum Durchsuchen einer Zeitungsseite, und zwar sowohl gemäß dem Stand der Technik (3A) als auch gemäß der vorliegenden Erfindung (3B).
Beschreibung der bevorzugten Ausführungsformen
Die vorliegende Erfindung betrifft ein System und ein Verfahren zum Umsetzen von Mikrofilmdaten in ein digitales Format zur Veröffentlichung über ein Netzwerk, wie etwa das Internet. Zunächst wird ein Bild des Mikrofilms erzeugt, bevorzugt im TIFF-Format. Als Nächstes werden die Worte des Bildes durch ein optisches Zeichenerkennungsverfahren (OCR-Verfahren) mit einer zugeordneten Fehlerwahrscheinlichkeit erkannt. Die Bilddaten können dann zur Veröffentlichung in ein digitales Format umgesetzt werden, z.B. als XML-Daten. Der Benutzer kann bevorzugt eine Schlüsselwortsuche an den in einem digitalen Format befindlichen Daten durchführen. Besonders bevorzugt ist die Schlüsselwortsuche eine adaptive Suche. Wahlweise und besonders bevorzugt wird die Suche über Worte durchgeführt, die mit XML-Tags versehen sind, die besonders bevorzugt als XML-Daten bereitgestellt werden. Die XML-Tags zeigen solche Informationen besonders bevorzugt als die jedem Wort zugeordnete Fehlerwahrscheinlichkeit an.
Zur Erleichterung der Durchführung einer solchen Suche, werden die erkannten Worte aus dem OCR-Verfahren bevorzugt mit der zugeordneten Fehlerwahrscheinlichkeit indiziert, z.B. durch die vorstehend beschriebenen XML-Tags. Als Nächstes gibt der Benutzer ein Schlüsselwort ein. Das Schlüsselwort wird in Übereinstimmung mit der Fehlerwahrscheinlichkeit mit den indizierten Worten verglichen. Wenn die Differenz zwischen dem Schlüsselwort und einem indizierten Wort geringer als die Fehlerwahrscheinlichkeit ist, dann wird das indizierte Wort als mit dem Schlüsselwort übereinstimmend angesehen.
Die Grundlagen und der Betrieb der vorliegenden Erfindung gehen unter Bezugnahme auf die Zeichnungen und die begleitende Beschreibung genauer hervor.
Bezug nehmend nun auf die Zeichnungen, ist 1 ein schematisches Blockdiagramm eines erfindungsgemäßen Systems zum automatischen Umsetzen von Mikrofilmdaten in ein digitales Format. Obgleich die vorliegende Erfindung in Bezug auf die Veröffentlichung von Zeitungsdaten beschrieben ist, versteht es sich, dass dies nur der Erläuterung dient und dadurch keine Einschränkung beabsichtigt ist.
Wie gezeigt, umfasst ein System 10 eine Mikrofilmdatenquelle 14, die archivierte Mikrofilmdaten enthält. Eine zugeordnete Mikrofilmpublikationseinrichtung 16 setzt die Mikrofilmdaten erfindungsgemäß in ein digitales Format um, indem sie die Mikrofilmdaten in digitale Bilder umwandelt. Wahlweise und bevorzugt werden die im digitalen Format befindlichen Daten durch die Mikrofilmpublikationseinrichtung 16 vorverarbeitet, um die Daten zu säubern, z.B. um die Bildqualität zu verbessern, Sprichwörter (black adages) zu kürzen und die Bilder zu begradigen. Die im digitalen Format befindlichen Daten befinden sich bevorzugt im TIF-Format.
In einem digitalen Format befindliche Daten können dann wahlweise und besonders bevorzugt in ein internes Basisformat umgesetzt werden. Das interne Basisformat kann dann zur Veröffentlichung besonders bevorzugt in eine Vielzahl unterschiedliche endgültige Formate umgesetzt werden. Daher werden die in einem digitalen Format befindlichen Daten, vor der Veröffentlichung in einer Vielzahl von Formaten, bevorzugt nur in ein einzelnes Format umgesetzt, um die Effizienz des Umsetzungsverfahrens zu erhöhen.
Wie gezeigt, ist das interne Format wahlweise und bevorzugt XML, obgleich im Wesentlichen auch jede andere Art von Auszeichnungssprache verwendet werden könnte. Das Umsetzungsverfahren wird bevorzugt durch ein XML-Destiller-Modul 18 durchgeführt. Das XML-Destiller-Modul 18 führt zunächst eine optische Zeichenerkennung (OCR) an den Daten durch, um den Text in den Bildern erkennen zu können. Die Texterkennung ist wichtig, um eine freie Textsuche und Indizierung der Zeitungsdaten zu ermöglichen. Das Verfahren zur Durchführung von OCR umfasst bevorzugt den Schritt des Bestimmens einer Fehlerwahrscheinlichkeit bei der Erkennung eines Wortes des Textes, wie nachfolgend unter Bezugnahme auf 2 genauer beschrieben.
Als Nächstes führt das XML-Destiller-Modul 18 bevorzugt eine intelligente Strukturanalyse durch, um die in den Zeitungsdaten enthaltenen Strukturen und Objekte, insbesondere in Bezug auf jede Seite der Zeitung, erkennen und definieren zu können. Beispiele für solche Strukturen und Objekte umfassen Artikel, Werbeanzeigen, Titel und so weiter, sind jedoch nicht darauf beschränkt. Das Verfahren der intelligenten Strukturanalyse ermöglicht die Umsetzung der Zeitungsdaten in eine Reihe von Objekten für eine effizientere Suche und Auffindung über das Internet oder ein anderes Netzwerk.
Nachdem das Verfahren der intelligenten Strukturanalyse abgeschlossen worden ist, führt das XML-Destiller-Modul 18 bevorzugt eine XML-Codierung der Objektdaten durch. Dieses Verfahren führt zu einem Satz erweiterter, strukturierter Dateien, die das Originalbild der Daten, die sich wie vorstehend beschrieben bevorzugt im TIF-Format befinden, mit den Text- und XML-Informationen kombinieren. Eine jede derartige Datei erhält somit bevorzugt die visuellen Aspekte des Zeitungslayouts und ermöglicht gleichzeitig die Bereitstellung einer weit größeren Funktionalität durch die Web-Seitenversion der Zeitung.
Sobald die Daten fertig in das interne Veröffentlichungsformat umgesetzt worden sind, werden die Daten erfindungsgemäß bevorzugt in einem Repositorium 20 gespeichert. Das Repositorium 20 ist bevorzugt eine strukturierte Datenbank, die die im internen Format befindlichen Daten zur Veröffentlichung in einem endgültigen Format enthält. Wahlweise und besonders bevorzugt werden die im internen Format befindlichen Daten in mehreren unterschiedlichen endgültigen Formaten durch einen Publikationsserver 22 veröffentlicht. Diese unterschiedlichen Formate können wahlweise ein oder mehrere beliebige in einer Auszeichnungssprache befindliche Dokumente, wie z.B. ein in XML oder HTML befindliches Dokument, ein drahtlos aktiviertes (wireless enabled) Dokument, wie z.B. ein WML-Dokument, das ASCII-Textformat und ein Format umfassen, das zur Veröffentlichung durch eine Technologie, wie z.B. Web TV, geeignet ist, ohne jedoch darauf beschränkt zu sein.
Wahlweise und besonders bevorzugt kann ein Director-Modul 24 den Inhalt der im Repositorium 20 gespeicherten Daten, z.B. durch Redigieren der Daten, bearbeiten. Darüber hinaus kann das Director-Modul 24 bevorzugt die Druckformatvorlagen und andere Layoutinformationen für die unterschiedlichen Formate definieren, die durch den Publikationsserver 22 veröffentlicht werden. Somit ermöglicht es das Director-Modul 24 besonders bevorzugt, die im internen Format befindlichen Daten automatisch für die Veröffentlichung in jedem endgültigen Veröffentlichungsformat anzupassen, um die Daten in jeder Art von Format in besonders vorteilhafter Weise anzuzeigen.
Ein Benutzer-Client 26 kann dann dazu verwendet werden, die im digitalen Format befindlichen Daten dem Benutzer anzuzeigen, beispielsweise damit der Benutzer eine Seite der Zeitung als angezeigtes Bild lesen kann. Der Benutzer kann auch eine Anfrage für eine Suche durch den Benutzer-Client 26 eingegeben, die wenigstens ein Schlüsselwort enthält. Die Suchanfrage wird dann an eine Suchmaschine 28 gesendet, die die adaptive Suche durchführt, wie nachfolgend genauer beschrieben.
2 ist ein Flussdiagramm eines beispielhaften erfindungsgemäßen Verfahrens zum Erhalten der Fehlerwahrscheinlichkeit bei der Erkennung eines Worts während der OCR und zur Verwendung dieser Wahrscheinlichkeit zur Durchführung einer adaptiven Schlüsselwortsuche an den umgewandelten XML-Daten.
Im ersten Schritt wird das OCR-Verfahren an den Bilddaten durchgeführt, um einzelne Worte des Textes aus der Originalzeitung zu erkennen. Das OCR-Verfahren ermittelt drei Arten von Daten: den ASCII-Text der erkannten Worte, Koordinaten für jedes Zeichen und somit für jedes Wort und die Wahrscheinlichkeit, dass bei der Erkennung jedes Zeichens ein Fehler auftritt. Das OCR-Verfahren selbst ist wohlbekannt und kann wahlweise mit einem im Handel erhältlichen Software-Produkt (siehe z.B. FireReader^TM von ABBYY, Russland oder TextBridge^TM von Xerox Corp., USA) durchgeführt werden. Die Wahrscheinlichkeit, dass bei der Erkennung von jedem Zeichen ein Fehler auftritt, wird dazu verwendet, die Wahrscheinlichkeit der bei der Erkennung des Worts insgesamt auftretenden Fehler zu bestimmen. In Schritt 2 wird diese Wahrscheinlichkeit in einen Tag umgewandelt, der den XML-Daten für dieses Wort zugeordnet werden kann. Besonders bevorzugt wird die Fehlerwahrscheinlichkeit in Übereinstimmung mit der Anzahl der vermutlich falsch identifizierten Zeichen, der Wahrscheinlichkeit eines solchen Fehlers und der Gesamtwortlänge in einen Fehlergrad umgewandelt. Die Algorithmen zur Berechnung des Fehlergrads können variieren. Die durchschnittliche Wortfehlerwahrscheinlichkeit kann wahlweise z.B. wie folgt berechnet werden:
wobei p_i die Fehlerwahrscheinlichkeit des i^ten Zeichens des Wortes ist, die zwischen 0 und 1 variiert, und n die Anzahl an Zeichen im Wort ist. Die durchschnittlicheFehlerwahrscheinlichkeit kann zwischen 0 und 1 variieren, wobei ein Wert von Null bedeutet, dass das Wort keine fehlerhaften Zeichen aufweist.
Nehmen wir an, dass die Fehlergrad-Variable 4 Fuzzy- oder kategorische Werte haben kann: KeinFehler, KleinerFehler, MittlererFehler, GroßerFehler. Dann kann der folgende Pseudo-Code zur Berechnung des Fehlergrades verwendet werden:
Die Schritte 1 und 2 stützen sich auf die OCR-Ergebnisse, um die Fehlerwahrscheinlichkeit zu definieren. Wahlweise und besonders bevorzugt wird ein internes OCR-Wörterbuch verwendet, um jedes durch das OCR-Verfahren erhaltene Wort zu prüfen, bei dem ermittelt wurde, dass es ohne Fehler ist oder zumindest einen Fehler unter einer gewissen Wahrscheinlichkeit hat. Wenn sich dieses Wort nicht in diesem Wörterbuch findet, dann wird die Fehlerwahrscheinlichkeit für dieses Wort in Übereinstimmung mit der Anzahl an vorgeschlagenen Wörtern aus dem Wörterbuch und der Wortlänge definiert, was ähnlich dem vorstehend beschriebenen Verfahren durchgeführt wird. Die Erfinder der vorliegenden Anmeldung haben herausgefunden, dass diese Fehlerart, bei der die OCR die Fehlerwahrscheinlichkeit für ein bestimmtes Wort nicht korrekt bewertet, nach dem OCR-Verfahren in zumindest einem Teil des Textes vorkommt. Eine weitere Beschreibung einer bevorzugten Ausführungsform dieses Verfahrens folgt nachstehend.
In Schritt 3 werden die durch die Umsetzung der Zeitungsdaten erhaltenen Worte durch eine Suchmaschine indiziert, damit diese Worte während einer Schlüsselwortsuche lokalisiert werden können. Bevorzugt werden alle Worte derart indiziert. In Schritt 4 wird jedes indizierte Wort der Fehlerwahrscheinlichkeit zugeordnet, die zuvor bei der Erkennung erhalten wurde, bevorzugt durch Verwendung des XML- Tags. Die Umwandlung der Fehlerwahrscheinlichkeit in einen Wert eines begrenzten Wertesatzes ermöglicht es, dass die adaptive Suche die Fehlerinformationen leichter verwenden kann, wie nachfolgend genauer beschrieben.
In Schritt 5 gibt der Benutzer eine Suche nach mindestens einem Schlüsselwort in die Suchmaschine ein. In Schritt 6 wandelt die Suchmaschine bevorzugt jedes Schlüsselwort in einen Satz adaptiver Suchworte um, welche Worte sind, die sich von dem Schlüsselwort durch wenigstens einen Buchstaben unterscheiden. Im folgenden Beispiel werden vier derartige unterschiedliche Sätze nur zu Erläuterungszwecken erzeugt, wobei keine Einschränkung beabsichtigt ist. Diese vier Sätze lauten wie folgt: suche nur Worte, die keine Fehler haben, ohne Fuzzy-Suche (Fuzzy-Bereich 0), suche nur Worte mit kleinen Fehlern mit Fuzzy-Bereich 1, suche nur Worte mit mittleren Fehlern mit Fuzzy-Bereich 2 und suche nur Worte mit großen Fehlern mit Fuzzy-Bereich 3.
In Schritt 7 werden diese unterschiedlichen Sätze adaptiver Schlüsselworte in Übereinstimmung mit der Fehlerwahrscheinlichkeit durchsucht. In Schritt 8 werden die Ergebnisse dem Benutzer durch den Client präsentiert, wie in Bezug auf 1 beschrieben. Wahlweise wird das erkannte Wort auf dem Bild angezeigt, es kann jedoch auch getrennt vom Bild angezeigt werden. In jedem Fall wird das erkannte Wort wahlweise und besonders bevorzugt entweder als durch die OCR erhaltener Text und/oder alternativ als Teil des Bildes selbst angezeigt.
Der Vorteil der vorliegenden Erfindung besteht darin, dass sie die "Fuzziness" (Vagheit) der Suche spezifisch mit der Fehlermenge verknüpft, die während des OCR-Verfahrens auftritt. Andere Fuzzy-Suchverfahren, die im Stand der Technik bekannt sind, haben den Nachteil, dass sie zu viele irrelevante Ergebnisse erzielen, da diese Verfahren einfach jedes indizierte Wort akzeptieren, das sich von dem Schlüsselwort um bis zu einer bestimmten Anzahl an Buchstaben unterscheidet, auch wenn das OCR-Verfahren für dieses indizierte Wort exakt durchgeführt worden ist. Im Gegensatz dazu, würde die vorliegende Erfindung ein solches indiziertes Wort nur akzeptieren, wenn der Differenzgrad vom Schlüsselwort in die während des OCR-Verfahrens ermittelte Fehlerwahrscheinlichkeit fällt. Somit werden nur relevante Suchergebnisse erzielt und dem Benutzer präsentiert.
3A zeigt beispielhafte Momentaufnahmen von Bildschirminhalten bekannter Software, ohne das fortgeschrittene Suchvermögen der vorliegenden Erfindung. 3B zeigt beispielhafte Momentaufnahmen von Bildschirminhalten der erfindungsge mäßen Software. Kurz gesagt, zeigt 3A, dass die bekannte Software Irrtümer oder Fehler im eingescannten Dokument nicht handhaben kann, da Fehler, wie etwa eine falsche Schreibweise von "Henry" in Form von "Hehry", verhindern können, dass die Software das gewünschte Suchwort "Henry" lokalisiert. Im Gegensatz dazu, kann die erfindungsgemäße Software, in 3B, das Wort "Henry" auch dann lokalisieren, wenn es in Form von "Hehry" falsch geschrieben ist, wie durch die unterstrichenen lokalisierten Suchworte gezeigt.
Das zuvor beschriebene Verfahren zum Bestimmen der Fehlerwahrscheinlichkeit für durch das OCR-Verfahren abgeleitete Worte wird wahlweise und bevorzugt für die Verity-Suchmaschine, Verity Inc., USA, implementiert.
Worte, die nach dem OCR-Verfahren als "verdächtig" angesehen werden oder eine Fehlerwahrscheinlichkeit haben, können mindestens eines, typischerweise jedoch beide, der folgenden Merkmale aufweisen: das OCR-Verfahren hat wenigstens ein verdächtiges Zeichen in diesem Wort ermittelt und/oder das Wort lässt sich nicht im Wörterbuch finden. Bei beiden der zuvor beschriebenen Implementierungen der vorliegenden Erfindung und der aktuellen Implementierung kann das OCR-Wörterbuch wahlweise als Nachschlagetabelle, Hash-Tabelle oder beliebige geeignete Implementierung ausgeführt werden.
Diese verdächtigen Wörter werden bevorzugt im XML-Ausgang mit speziellen Tags versehen, wie vorstehend beschrieben. Leider kann die Suchmaschine von Verity während der Suche nicht zahlreiche Fehler-Tags handhaben, beispielsweise mehr als einige hundert bei einem Dokument. Um diese Beschränkung zu überwinden, wird bevorzugt ein bestimmter Buchstabe vor einem solchen verdächtigen Wort platziert, um anzuzeigen, dass dieses Wort verdächtig ist. Es könnte beispielsweise eine Unterstreichung für diesen Zweck verwendet werden, wie etwa "_schutzen" für "schützen".
Der Befehl <typo> (Schreibfehler) der Verity-Suchmaschine kann wahlweise dazu verwendet werden, alle Worte zu durchsuchen, besonders bevorzugt wird er jedoch nur dazu verwendet, die zuvor mit Tags versehenen, verdächtigen Worte zu durchsuchen, um eine größere Genauigkeit zu erzielen. Dieser Befehl ermöglicht es Worte zu lokalisieren, die sich um ein oder zwei Zeichen von dem gesuchten Wort unterscheiden.
Wortsuchen können wahlweise dazu verwendet werden, entweder nach dem genauen Wort oder einer verwandten grammatikalischen Form, wie z.B. der Zeitform eines Verbs, durch die Verity-Suchmaschine zu suchen. Diese Suchmaschine unterstützt jedoch keine Suchen nach verwandten grammatikalischen Formen von verdächtigen Worten. Daher umfasst das erfindungsgemäße Verfahren wahlweise auch die Erzeugung verwandter grammatikalischer Formen dieser verdächtigen Worte.
Eine Suche kann wahlweise auch durch eine Kombination von Durchsuchungen regulärer (nicht verdächtiger) Worte und <typo>-Befehlsdurchsuchungen verdächtiger Worte durchgeführt werden. Bei dem Wort "Präsident" beispielsweise würde die Suchanfrage wie folgt konstruiert werden: <TYPO>_Präsident <ODER> <STAMM> Präsident.
Diese Suche würde Worte wie Präsident, präsidial, Präsidenten, etc. unter "normalen" Worten und Worte wie Prosident unter verdächtigen Worten lokalisieren. Es sei darauf hingewiesen, dass das Vorhandensein der Unterstreichung vor dem Wort '_Präsident' im Suchausdruck bevorzugt verhindert, dass die Verity-Suchmaschine den <typo>-Befehl verwendet, um unter "normalen" Worten zu suchen.
Der <STAMM>-Operator kann wahlweise ebenfalls hinzugefügt werden, wenn diese Worte durchsucht werden. Der <Stamm>-Operator unterstützt die Durchsuchung in Übereinstimmung mit unterschiedlichen grammatikalischen Formen des gesuchten Wortes in Übereinstimmung mit der Sprache der Suche. Beispielsweise würde eine Suche nach "<STAMM>-Zufall" in der deutschen Sprache Worte wie "zufällig", "Zufälle", "zufälligerweise" und so weiter ergeben, zusammen mit dem ursprünglichen Wort "Zufall". Diese Befehle können wahlweise mit Modifikatoren und/oder dem Joker-Operator kombiniert werden. Der <STAMM>-Operator kann wahlweise mit dem <FALL>-Befehl kombiniert werden, der eine Suche nach Worten unterstützt, die in unterschiedlichen Fällen angegeben sind. Beispielsweise würde jedes der Worte Zufall, ZUFALL, ZuFall mit dem Befehl "Suche<FALL>Zufall" gefunden werden. In ähnlicher Weise kann der <TYPO>-Operator wahlweise mit dem <FALL>-Befehl kombiniert werden, wenn <FALL> im Operanden zuerst platziert wird.
Darüber hinaus kann der Benutzer es wünschen, mehrere Suchbefehle im Suchausdruck mit <UND> <ODER> und Nähe-Operatoren <NAHE> <NAHE/N>, <ABSATZ>, <REDEWENDUNG>, <SATZ> zu kombinieren. Die vorliegende Erfindung ermöglicht es wahlweise und bevorzugt, diese Befehle nur für verdächtige Worte und/oder für reguläre und verdächtige Worte zusammen bei einer einzelnen Suche zu verwenden, so dass der Benutzer besonders bevorzugt nicht die Wortart bei der Suche angeben muss. Beispiele für bevorzugte Umformungen dieser Suchausdrücke sind in der nachfolgenden Tabelle angegeben.
Obgleich die Erfindung in Bezug auf eine begrenzte Anzahl von Ausführungsformen beschrieben worden ist, versteht es sich, dass viele Variationen, Modifikationen und andere Anwendungen der Erfindung möglich sind.

Claims

Verfahren zum Durchführen einer Suche, wobei das Verfahren umfasst: das Durchführen einer optischen Zeichenerkennung (OCR – Optical Character Recognition) an einem Bild, um wenigstens ein erkanntes Wort und einen probabilistischen Fehlergrad für die Erkennung des erkannten Wortes zu erhalten, wobei der probabilistische Fehlergrad eine Schätzung der möglichen Anzahl an fehlerhaften Zeichen in dem indizierten Wort angibt, das Indizieren des wenigstens einen erkannten Wortes mit dem probabilistischen Fehlergrad, um ein indiziertes Wort zu bilden, das Eingeben einer Suchanfrage, wobei die Suchanfrage wenigstens ein Schlüsselwort enthält, und das Vergleichen des Schlüsselwortes mit jedem indizierten Wort gemäß dem probabilistischen Fehlergrad, so dass, wenn ein Differenzgrad zwischen dem Schlüsselwort und dem indizierten Wort geringer als der probabilistische Fehlergrad ist, das indizierte Wort als mit dem Schlüsselwort übereinstimmend angesehen wird.
Verfahren nach Anspruch 1, wobei das Indizieren des wenigstens einen erkannten Worts das Umwandeln des probabilistischen Fehlergrades in einen Fehlergrad umfasst, wobei der Fehlergrad aus einem begrenzten Wertesatz ausgewählt wird, so dass der Fehlergrad beim Vergleichen des Schlüsselworts mit jedem indizierten Wort gemäß dem probabilistischen Fehlergrad mit der Differenz verglichen wird.
Verfahren nach Anspruch 2, wobei das Vergleichen des Schlüsselwortes mit jedem indizierten Wort gemäß dem probabilistischen Fehlergrad ferner umfasst: das Suchen des indizierten Wortes gemäß dem Fehlergrad.
Verfahren nach Anspruch 3, wobei der Fehlergrad wenigstens zum Teil gemäß einer Anzahl vermutlich falsch identifizierter Zeichen und der Wahrscheinlichkeit eines daraus resultierenden Fehlers berechnet wird.
Verfahren nach Anspruch 4, wobei der Fehlergrad auch gemäß der Länge des erkannten Wortes berechnet wird.
Verfahren nach Anspruch 5, wobei der Fehlergrad in einen von mehreren kategorischen Werten umgewandelt wird.
Verfahren nach Anspruch 6, wobei das Suchen der indizierten Worte gemäß dem Fehlergrad das Suchen eines jeden indizierten Wortes gemäß dem kategorischen Wert des Fehlergrads umfasst.
Verfahren nach einem der Ansprüche 1–7, wobei der probabilistische Fehlergrad wenigstens zum Teil durch Vergleichen des erkannten Worts mit einem Wörterbuch bestimmt wird, so dass der probabilistische Fehlergrad wenigstens danach festgelegt wird, ob sich das erkannte Wort in dem Wörterbuch findet.
Verfahren nach Anspruch 8, wobei, wenn sich das erkannte Wort nicht in dem Wörterbuch findet, der probabilistische Fehlergrad wenigstens zum Teil gemäß mehreren ähnlichen Worten berechnet wird, die in dem Wörterbuch ermittelt wurden.
Verfahren nach einem der Ansprüche 1–9, wobei die OCR außerdem Koordinaten für das erkannte Wort im Bild erzeugt.
Verfahren nach Anspruch 10, das ferner umfasst: das Anzeigen des erkannten Wortes in dem Bild gemäß den Koordinaten.
Verfahren nach Anspruch 10, das ferner umfasst: das Anzeigen des erkannten Wortes separat vom Bild.
Verfahren nach Anspruch 11 oder 12, wobei das erkannte Wort gemäß der OCR angezeigt wird.
Verfahren nach einem der Ansprüche 1–13, wobei nur das erkannte Wort als Teil des Bildes angezeigt wird.
Verfahren nach einem der Ansprüche 1–14, wobei jedes indizierte Wort mit einem XML-Tag zur Angabe des probabilistischen Fehlergrades versehen wird.
Verfahren nach Anspruch 1, wobei dem Durchführen der OCR das Erzeugen eines digitalen Bildes der Mikrofilmdaten vorausgeht.
Verfahren nach Anspruch 16, wobei die Mikrofilmdaten aus einer Zeitung stammen.
Verfahren nach Anspruch 1, wobei das Eingeben einer Suchanfrage umfasst: das Eingeben einer Suchanfrage, die mehrere Schlüsselworte umfasst, wobei die mehreren Schlüsselworte zueinander in einem Verhältnis stehen, und das Vergleichen der mehreren Schlüsselworte mit mehreren indizierten Worten gemäß dem probabilistischen Fehlergrad und gemäß dem Verhältnis, so dass, wenn ein Differenzgrad zwischen den Schlüsselworten und den indizierten Worten geringer als der probabilistische Fehlergrad ist und die mehreren indizierten Worte mit dem Verhältnis übereinstimmen, die indizierten Worte als mit den Schlüsselworten übereinstimmend angesehen werden.
Verfahren nach Anspruch 18, wobei das Verhältnis gemäß wenigstens einem booleschen Operator bestimmt wird.
Verfahren nach Anspruch 18, wobei das Verhältnis gemäß einer präzisen Redewendung oder einem feststehenden Ausdruck bestimmt wird.
Verfahren nach Anspruch 1, wobei der probabilistische Fehlergrad wenigstens zum Teil durch Vergleichen des erkannten Wortes mit einem Wörterbuch bestimmt wird, so dass der probabilistische Fehlergrad wenigstens danach festgelegt wird, ob sich das erkannte Wort in dem Wörterbuch findet.