DE69637073T2

DE69637073T2 - Prozessor und verarbeitungsverfahren für dokumente

Info

Publication number: DE69637073T2
Application number: DE69637073T
Authority: DE
Inventors: Shinichi Fujitsu Limited EGUCHI; Yutaka Fujitsu Limited KATSUMATA; Koichi Fujitsu Limited CHIBA; Hideki Fujitsu Limited MATSUNO; Yoshihiro Fujitsu Limited NAGANO; Kazuhide Fujitsu Limited USHITA; Hideo Fujitsu Limited KAMATA; Tomohiro Fujitsu Limited MATSUHASHI; Hideyuki Fujitsu Limited INAOKA; Eiichi Fujitsu Limited WATANABE; Satoshi Fujitsu Limited NAOI; Shunji Fujitsu Limited SAKANE; Katsutoshi Fujitsu Limited KOBARA; Kazunori Fujitsu Terminal Systems YAMAMOTO; Kazuhito Fujitsu Terminal Systems WATANABE; Yoshiyuki Fujitsu Terminal Systems KIJIMA; Yoshinori Fujitsu Terminal Systems YAMAZAKI; Yasutaka Fujitsu Terminal Systems MACHIDA
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-07-31
Filing date: 1996-07-30
Publication date: 2007-08-30
Anticipated expiration: 2016-07-31
Also published as: US6501864B1; US6360011B1; EP1814062A1; CN1282937C; US6567546B1; EP1818857B1; DE69637073D1; EP1818857A3; EP0790573A4; CN1287322C; JP3088019B2; EP0790573B1; EP1818857A2; EP0790573A1; CN1540578A; CN1164902A; DE69638207D1; WO1997005561A1

Description

GEBIET DER ERFINDUNG
Diese Erfindung bezieht sich auf eine Datenmedium-(d.h. Dokumentenmedium-)Handhabungsvorrichtung und ein Datenmedium-(d.h. Dokumentenmedium-)Handhabungsverfahren, die beispielsweise zur Verwendung für eine Dokumentenhandhabung bei einer Finanzinstitution geeignet sind, und insbesondere auf eine Datenmedium-Handhabungsvorrichtung und ein Datenmedium-Handhabungsverfahren zum Vornehmen der Handhabung von Dokumenten mit verschiedensten Formaten wie privaten Dokumenten.
HINTERGRUND DER ERFINDUNG
In den letzten Jahren wurden, als Vorrichtungen, die Zeicheninformationen als Bilddaten (ein Bild) lesen und dann Zeichen erkennen, Bilddaten-Lesevorrichtungen wie optische Zeichenlesevorrichtungen (OCR-Vorrichtungen) entwickelt, und in verschiedensten Industriezweigen werden die Bilddaten-Lesevorrichtungen verbreitet verwendet, um eine Steigerung der Geschäftseffizienz, usw., zu erzielen.
Ein Bediener, der am Schalter einer Finanzinstitution oder dgl. arbeitet, erzielt beispielsweise eine Geschäftssteigerung durch die effiziente Handhabung von Dokumentenmedien (Dokumenten) unter Verwendung einer wie oben beschriebenen Bilddaten-Lesevorrichtung.
Insbesondere um eine Steigerung der Geschäftseffizienz zu erzielen, wobei eine solche Dokumentenhandhabung wie oben beschrieben vorgenommen wird, ist es erforderlich, nicht nur Dokumentenmedien desselben Typs handzuhaben (Medien zur exklusiven Verwendung für eine Erkennungsverarbeitung), sondern auch Dokumentenmedien mit verschiedensten Formaten automatisch handzuhaben.
So kann die Handhabung eines Dokumentenmediums unter Verwendung einer Bilddaten-Lesevorrichtung für eine Vielzahl von Arten von Dokumentenmedien beispielsweise unter Verwendung einer solchen Dokumentenhandhabungsvorrichtung 1000 wie in 115 gezeigt vorgenommen werden.
Insbesondere bezeichnet mit Bezugnahme auf 115 die Bezugszahl 1001 eine Bilddaten-Lesevorrichtung zum Lesen von Bilddaten eines Dokuments. Die Bilddaten-Lesevorrichtung 1001 ist mit einem Computer 1002 so verbunden, dass sie einen Lesebetrieb von Bilddaten unter der Steuerung des Computers 1002 vornehmen kann. Es ist zu beachten, dass beispielsweise ein Bildscanner oder ein Telefaxgerät als Bilddaten-Lesevorrichtung 1001 verwendet wird.
Der Computer 1002 als Steuervorrichtung zum Steuern der Bilddaten-Lesevorrichtung 1001 besteht dabei aus einer Eingabeeinheit 1002-1, wie einer Tastatur oder einer Maus (in 115 ist nur eine Tastatur gezeigt), zum Eingeben von Instruktionen, Daten, usw., durch einen Bediener, einem Computer-Mainframe 1002-2 und einer Anzeigeeinheit 1002-3 zum Anzeigen von Daten, Steuerinformationen oder dgl. Es ist zu beachten, dass eine Zeichenerkennungsverarbeitung von Bilddaten, die von der Bilddaten-Lesevorrichtung 1001 gelesen werden, vom Computer-Mainframe 1002-2 vorgenommen wird.
Ferner bezeichnet eine Bezugszahl 1003 eine Festplatte. Die Festplatte 1003 ist mit dem Computer 1002 verbunden und speichert im Voraus Informationen (die hier im Nachstehenden als "Definitionsobjektinformationen" bezeichnet werden) 1003A bis 1003C, ..., die, für jede Art eines Dokuments, beispielsweise wie in 116 ersichtlich, Positionsinformationen zu erkennender Zeichendaten und einen Typ, eine Anzahl, usw., von Zeichen bezeichnen.
Es ist zu beachten, dass eine solche Bilddaten-Lese- und -Erkennungsvorrichtung 1005 wie in 116 oder 117 gezeigt anstelle der oben beschriebenen Bilddaten-Lesevorrichtung 1001 verwendet werden kann. Die Bilddaten-Lese- und -Erkennungsvorrichtung 1005 kann einen Lesebetrieb von Bilddaten ähnlich jenem der Bilddaten-Lesevorrichtung 1001 sowie eine Zeichenerkennung vornehmen.
Um Zeichendaten, die auf einer wie beispielsweise in 116 gezeigten Stromrechnungs-Zahlungsbestätigung 1004 aufscheinen, unter Verwendung der Bilddaten-Lese- und -Erkennungsvorrichtung 1005 zu erkennen, wird eine Dokumentenart (in diesem Fall die Definitionsobjektinformationen 1003B, die der Stromrechnungs-Zahlungsbestätigung 1004 (Dokument B) entsprechen) vom Bediener durch die Bedienung der Tastatur 1002-1 bezeichnet.
Dann greift der Computer 1002 auf die Festplatte 1003 zu, um die Definitionsobjektinformationen 1003B des bezeichneten Dokuments zu extrahieren, und meldet die Definitionsobjektinformationen 1003B an die Bilddaten-Lese- und -Erkennungsvorrichtung 1005.
Dementsprechend kann die Bilddaten-Lese- und -Erkennungsvorrichtung 1005 das Lesen von Bilddaten und eine Zeichenerkennungsverarbeitung auf der Basis der Definitionsobjektinformationen 1003B als Steuerinformationen vom Computer 1002 bewirken.
Da jedoch, in dem Vorgang der Handhabung eines solchen Dokuments, wie hier im Vorstehenden mit Bezugnahme auf 116 beschrieben, Definitionsobjektinformationen für jedes Dokument bezeichnet werden, das durch die Bezeichnung des Bedieners zu lesen ist, entsteht eine Belastung für den Bediener, und außerdem kann mit zunehmender Anzahl von Definitionsobjekten ein Bezeichnungsfehler auftreten. Wenn es erforderlich ist, einige tausend Arten von Dokumenten handzuhaben, ist es tatsächlich für den Bediener schwierig, ein Definitionsobjekt zu bezeichnen.
Daher wurde auch ein anderes Verfahren vorgeschlagen, bei dem, wie in 117 gezeigt, eine ID-Nummer (in diesem Fall "0102") zur Identifikation eines Dokuments gegenüber einem beliebigen anderen Dokument an einer vorgeschriebenen Position 1004a des Dokuments 1004 aufgezeichnet wird, so dass die Leseverarbeitung des Dokuments automatisch vorgenommen werden kann, ohne eine solche Notwendigkeit zur Bezeichnung einer Dokumentenart durch den Bediener, wie oben beschrieben.
Wenn Bilddaten eines Dokuments von der Bilddaten-Lese- und -Erkennungsvorrichtung 1005 zu lesen sind, kann mit dem eben beschriebenen Verfahren eine Zeichenerkennung bewirkt werden, indem zuerst die an der vorherbestimmten Position 1004a aufgezeichnete ID-Nummer erkannt wird, und dann die der erkannten ID-Nummer entsprechenden Definitionsobjektinformationen (in diesem Fall 1003B) verwendet werden.
Wenn jedoch Bilddaten zu lesen sind, wenn die Position verschoben ist, an der ein Dokument oder dgl. in einer optischen Lesevorrichtung (beispielsweise einer Dokumentenhandhabungsvorrichtung), wie der Bilddaten-Lesevorrichtung 1001 oder der Bilddaten-Lese- und -Erkennungsvorrichtung 1005, eingestellt ist, dann wird, auch wenn ein Dokument gelesen wird, das beispielsweise gleich ist wie ein Dokument, dessen Definitionsobjektinformationen im Voraus in der Festplatte 1003 gespeichert sind, da Koordinaten eines Bilds einer Region von Zeichendaten, eine Region einer Figur oder dgl. von einem Referenzpunkt (physischer Ursprung) nicht dieselben Koordinaten zeigen wie jene der Definitionsobjektinformationen, in einer Dokumentenhandhabungsvorrichtung oder dgl. bestimmt, dass die Layouts nicht gleich sind.
In einer Dokumentenhandhabungsvorrichtung oder dgl. wird manchmal eine Zeichenerkennungsverarbeitung nicht regulär vorgenommen, außer eine Zeichenerkennung von Bilddaten wird vorgenommen, nachdem das Layout gelesener Bilddaten und das Layout von Definitionsobjektinformationen aneinander an gepasst werden. Daher werden Referenzpunkte einzelner Bilder extrahiert, und Koordinaten der einzelnen Bilder von den Referenzpunkten werden miteinander verglichen, um eine Koinzidenzdiskriminierung zwischen den Layouts zu bewirken.
Hier werden vorwiegend die folgenden beiden Verfahren zur Extraktion eines Referenzpunkts von Bilddaten verwendet. Es ist zu beachten, dass, als Voraussetzung, ein Objektdokument zum Lesen ein Dokument ist, das im Voraus gedruckt wurde, und die Druckposition des Dokuments auf einem Formular mit einem hohen Genauigkeitsgrad verwaltet wird.
Wenn Bilddaten eines Dokuments durch eine Bilddaten-Lesevorrichtung zu lesen sind, durch die, wie in 118(a) gezeigt, ein Formularendrand 1006 des zu lesenden Dokuments und ein Lesehintergrund 1007 voneinander identifiziert werden können, wird gemäß dem ersten Verfahren die linke obere Eckposition P des Formularendrands 1006 als Referenzpunkt bestimmt.
Wenn Bilddaten eines Dokuments durch einen Bildscanner oder ein Telefaxgerät zu lesen sind, wird gemäß dem zweiten Verfahren, da ein Lesehintergrund 1009 und ein Formularendrand 1008, die gelesen werden, nicht voneinander identifiziert werden können, wie in 118(b) gezeigt, eine Referenzmarke R auf ein Objektdokumentformular zum Lesen im Voraus aufgedruckt, und diese Referenzmarke R wird aus Bilddaten extrahiert und als Referenzpunkt bestimmt.
Das zweite Verfahren ist dadurch vorteilhaft, dass, da eine Referenzpunktposition als Referenzmarke R im Voraus aufgedruckt wird, der Referenzpunkt stabil extrahiert werden kann, auch wenn die Position verschoben wird, in der das Dokument in einer Lesevorrichtung eingestellt wird.
Auch wenn in einer Dokumentenhandhabungsvorrichtung oder dgl. ein Referenzpunkt durch das oben beschriebene Verfahren genau extrahiert wird, dann ist jedoch, wenn die Le serichtung von Bilddaten nicht die richtige Richtung ist, die Zeichenbeschreibungsrichtung der Bilddaten nicht die richtige Richtung, und dementsprechend kann keine Zeichenerkennungsverarbeitung vorgenommen werden.
Wenn, beispielsweise wie in 119 gezeigt, ein Überweisungsbeleg (Dokument C) 1010, auf dem Informationen in einer horizontalen Richtung beschrieben sind, in einer falschen Richtung (in einer vertikalen Richtung in 119) gelesen wird, werden Bilddaten des so gelesenen Überweisungsbelegs 1010 in einer falschen Orientierung, wie durch das Bezugszeichen 1010A bezeichnet, auf der Anzeigeeinheit 1002-3 angezeigt.
Daher muss, bei der Zeichenerkennungsverarbeitung durch eine Dokumentenhandhabungsvorrichtung oder dgl., der Bediener visuell die Anzeigeeinheit 1002-3 beobachten, um zu diskriminieren, ob die Leserichtung des Dokuments richtig ist oder nicht, und wenn die Leserichtung des Dokuments nicht richtig ist, über die Tastatur 1002-1 eine Instruktion eingeben, die gelesenen Bilddaten des Dokuments um 90 Grad oder 180 Grad zu drehen, um so eine Drehkorrekturverarbeitung der Bilddaten zu bewirken, so dass die Bilddaten des Dokuments in der richtigen Richtung, wie durch das Bezugszeichen 1010B bezeichnet, auf der Anzeigeeinheit 1002-3 angezeigt werden können.
Außerdem gibt, bei einem herkömmlichen Überweisungsauftrag auf ein Konto bei einer Bank, ein Bediener Informationen einer Kontonummer, eines Namens, eines Geldbetrags, usw., die auf einem Dokument beschrieben sind, das ein Überweisungsanforderungsbeleg ist, über die Tastatur 1002-1 oder dgl. der Dokumentenhandhabungsvorrichtung 1000 ein. In diesem Fall beobachtet der Bediener visuell abwechselnd das Dokument und die Anzeigeeinheit 1002-3, um eine Eingabeoperation vorzunehmen.
Wenn das Dokument und die Anzeigeeinheit 1002-3 abwechselnd visuell beobachtet werden, um auf diese Weise eine Eingabeoperation vorzunehmen, wird dies jedoch insofern ein Problem, da viele Augenbewegungen des Bedieners involviert sind, als die visuelle Wahrnehmbarkeit verschlechtert wird, und es besteht die Möglichkeit, dass der Abgleich zwischen einem Element des Dokuments und einem Element auf dem Bildschirm falsch beurteilt wird.
So wurde eine weitere Dokumentenhandhabungsvorrichtung vorgeschlagen, bei der ein Dokument von der Bilddaten-Lesevorrichtung 1001 oder dgl. gelesen wird, und gelesene Bilddaten selbst auf der Anzeigeeinheit 1002-3 zusammen mit einem Zeichenerkennungsergebnis der Bilddaten angezeigt werden.
Da mit der Dokumentenhandhabungsvorrichtung auf einem Dokument beschriebene Informationen visuell direkt auf der Anzeigeeinheit 1002-3 beobachtet werden können, werden Augenbewegungen reduziert, und Fehler beim Abgleich zwischen einem Zeichenerkennungsergebnis und Bilddaten bei der Bestätigung und Abänderung des Zeichenerkennungsergebnisses können reduziert werden.
In den letzten Jahren wird daher dabei in Finanzinstitutionen oder dgl. vorwiegend ein Verfahren eingesetzt, bei dem eine Datenverarbeitung auf konzentrierte Weise mit einer hohen Geschwindigkeit durch einen Server unter Verwendung eines Client-Server-Systems vorgenommen wird.
Beispielsweise wird vorgeschlagen, einen Client, der für jede Zweigstelle (Geschäftsbüro) einer Finanzinstitution installiert ist, und einen Server, der in einer Bezirkszentrale installiert ist, durch eine Standleitung oder eine Amtsleitung miteinander zu verbinden, um ein Client-Server-System zu konstruieren, und eine Dokumentenhandhabung kollektiv durch den Server vorzunehmen, um eine Steigerung der Geschäftseffizienz zu erzielen.
Wenn eine Dokumentenhandhabung auf diese Weise kollektiv durch einen Server vorgenommen wird, ist es für einen Bediener unmöglich, da die auf den Server konzentrierte Datenmenge eine sehr große Menge wird, eine Dokumentenhandhabung durch den Server vorzunehmen. Dementsprechend muss ein System ausgebildet werden, in dem ein Server automatisch eine Dokumentenhandhabung ohne Intervention eines Bedieners vornimmt.
Wenn eine Dokumentenidentifikationsverarbeitung mit einem solchen Dokument, auf dem eine ID-Nummer beschrieben ist, wie hier im Vorstehenden mit Bezugnahme auf 117 beschrieben, bei dem eben beschriebenen Client-Server-System angewendet wird, dann kann so der Server automatisch die Art eines Dokuments identifizieren, und eine Leseverarbeitung des Dokuments vornehmen.
Wenn durch die Bilddaten-Lesevorrichtung gelesene Bilddaten selbst auf der Anzeigeeinheit zusammen mit einem Zeichenerkennungsergebnis der Bilddaten angezeigt werden, können ferner, auch mit dem Client des Client-Server-Systems, auf einem Dokument beschriebene Informationen visuell direkt auf der Anzeigeeinheit beobachtet werden, um Fehler beim Abgleich zwischen dem Zeichenerkennungsergebnis und den Bilddaten bei der Bestätigung und Abänderung des Ergebnisses der Zeichenerkennung zu reduzieren.
Bei der Technik, die ein solches Dokument handhabt wie hier im Vorstehenden mit Bezugnahme auf 117 beschrieben, sind jedoch Dokumentenmedien, die gelesen werden können, nur Dokumentenmedien, die zur exklusiven Verwendung für die Dokumentenhandhabungsvorrichtung erzeugt wurden, und da herkömmlich verwendete, gewöhnliche Dokumente nicht verwendet werden können, ist es in diesem Fall ein Problem, dass Dokumente zur exklusiven Verwendung neu erzeugt werden müssen.
Obwohl dabei, bei einem solchen ersten Referenzpunkt-Extraktionsverfahren wie hier im Vorstehenden mit Bezugnahme auf 118(a) beschrieben, die Druckposition eines Dokuments auf einem Formular mit einem hohen Genauigkeitsgrad verwaltet werden muss, variiert dann, wenn beispielsweise ein durch einen Wortprozessor oder dgl. gedrucktes Dokument involviert ist, wenn das Formular manuell eingestellt wird, die Druckposition in vielen Fällen, jedesmal wenn ein Druck vorgenommen wird. Daher ist es in einem solchen Fall ein Problem, dass es ungeeignet ist, die linke obere Eckposition P des Formularendrands 1006 als Referenzpunkt einzustellen.
Ferner sind, in einem solchen zweiten Referenzpunkt-Extraktionsverfahren wie hier im Vorstehenden mit Bezugnahme auf 118(b) beschrieben, Objektdokumente zum Lesen Dokumente zur exklusiven Verwendung, auf denen die Referenzmarke R aufgedruckt ist, und es ist ein Problem, dass, wenn gewöhnliche Dokumente involviert sind, auf denen die Referenzmarke R nicht aufgedruckt ist, der Referenzpunkt nicht extrahiert werden kann.
Ferner ist es, auch bei der Technik, die in einer Erkennungstechnik für einen Dokumentenleser oder dgl. angewendet wird, wobei ein bestimmter Punkt einer Tabelle in einem Dokument als Referenzpunkt verwendet wird, insofern ein Problem, als, wenn das Layout eines Objektdokuments zur Erkennung bis zu einem gewissen Grad nicht spezifiziert werden kann, die Technik nicht effektiv funktioniert.
Es ist zu beachten, dass, auch wenn dasselbe Dokument wie das Dokument, dessen Bild vorher gelesen wurde, erneut gelesen wird, aufgrund von Staub, einer Unschärfe oder dgl. das gelesene Bild nicht als gleich wie das vorherige beurteilt werden kann, und in einem solchen Fall kann derselbe Referenzpunkt manchmal nicht extrahiert werden.
Damit ein Server eine solche Drehkorrekturverarbeitung von Bilddaten wie hier im Vorstehenden mit Bezugnahme auf 119 beschrieben automatisch vornehmen kann, ist es ferner notwendig, eine Zeichenerkennung tatsächlich gelesener Bilddaten vorzunehmen, und dann eine Diskriminierung vorzunehmen, ob die Leserichtung des Dokuments richtig oder falsch ist, in Abhängigkeit davon, ob die Zeichenerkennung möglich ist oder nicht, und es ist insofern ein Problem, als dies eine Steigerung der Auftragseffizienz sehr stark stört.
Da in einem solchen Verfahren wie hier im Vorstehenden beschrieben, bei dem ein Zeichenerkennungsergebnis von Bilddaten und die Bilddaten selbst auf einer Anzeigeeinheit angezeigt werden, um eine Bestätigung und Abänderung des Zeichenerkennungsergebnisses vorzunehmen, ein Abgleich zwischen den Bilddaten und einem Bestätigungselement durch visuelle Beobachtung vorgenommen wird, ist es dabei insofern ein Problem, als, wenn die Bilddaten eine große Anzahl zu bestätigender Elemente einschließen, eine falsche Erkennung weiterhin nicht vermieden werden kann.
Wenn die Bilddaten nicht zu einer Zeit auf der Anzeigeeinheit angezeigt werden können, muss der Anzeigebildschirm ferner gerollt werden, um auf rückwärts liegende Daten Bezug zu nehmen, und in diesem Fall muss eine erforderliche Taste gedrückt werden, um eine Bildlauf-Operation vorzunehmen.
Demgemäß besteht insofern ein Problem, als die Operation kompliziert ist.
Die vorliegende Erfindung wurde angesichts solcher Probleme wie oben beschrieben gemacht, und es ist eine Aufgabe der vorliegenden Erfindung, eine Datenmedium-Handhabungsvorrichtung und ein Datenmedium-Handhabungsverfahren vorzusehen, durch welche die Handhabung von Dokumenten, die herkömmlich verwendete, gewöhnliche Dokumente mit verschiedensten Formaten sind, wie private Belege oder dgl., vorge nommen werden kann.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Datenmedium-Handhabungsverfahren vorzusehen, bei dem, auch für ein auf Normalpapier durch einen Wortprozessor oder dgl. gedrucktes Dokument, eine Extraktionsverarbeitung eines Referenzpunkts aus Bilddaten des gedruckten Dokuments normal stabil und automatisch vorgenommen werden kann, ohne dass ein solcher Formularendrand, eine Referenzmarke oder dgl. wie bei den herkömmlichen Techniken verwendet wird.
Es ist noch eine weitere Aufgabe der vorliegenden Erfindung, ein Datenmedium-Handhabungsverfahren vorzusehen, durch das eine Drehkorrekturverarbeitung von Bilddaten, die von einer Bilddaten-Lesevorrichtung gelesen werden, automatisch vorgenommen werden kann.
Es ist noch eine weitere Aufgabe der vorliegenden Erfindung, eine Datenmedium-Handhabungsvorrichtung und ein Datenmedium-Handhabungsverfahren vorzusehen, bei denen ein Teil der Bilddaten auf der Basis von im Voraus definierten Informationen hervorgehoben angezeigt wird, um die Erkennbarkeit zu erhöhen, und eine problemlose Bestätigung und Abänderungsverarbeitung zu gestatten.
Es ist noch eine weitere Aufgabe der vorliegenden Erfindung, eine Datenmedium-Handhabungsvorrichtung und ein Datenmedium-Handhabungsverfahren vorzusehen, bei denen ein Zeichenbild in Einheiten eines Zeichens aus Bilddaten in Einheiten eines Dokuments oder in Einheiten eines Elements extrahiert wird, und das Zeichenbild editiert wird, um die Tippbewegungen und die Vergleichsobjekte zu reduzieren, und außerdem eine Bestätigung mit einem hohen Genauigkeitsgrad zu gestatten, so dass die für eine Richtig/Falsch-Bestätigungsoperation erforderliche Arbeit und Zeit deutlich reduziert werden können.
Die Artikel "A Business Form Recognition System" von A. Pizano et al., Proc. 15^th Ann. Int. Computer Software & Applications Conference COMPSAC 91, S. 626–632, und "Layout Recognition of Multi-Kinds of Table-Form Documents" von T. Watanabe et al., IEEE Transact. on Pattern Analysis and Machine Intelligence, 17 (1995) April, Nr. 4, S. 432–445-offenbaren Systeme für eine Dokumenten-Layout-Erkennung aus einer Layout-Vorlagendatenbank.
OFFENBARUNG DER ERFINDUNG
Gemäß der vorliegenden Erfindung sind eine Dokumentenmedium-Handhabungsvorrichtung nach Anspruch 1 und ein Dokumentenmedium-Handhabungsverfahren nach Anspruch 11 vorgesehen.
Vorteilhafte Formen der Erfindung sind in den abhängigen Ansprüchen 2 bis 10 und 12 bis 20 ausgeführt.
Wenn das Layout eine aus gezogenen Linien gebildete Tabellenstruktur aufweist, schließt die Layout-Charakteristikaextraktionssektion eine Extraktionssektion für gezogene Linien ein, um die gezogenen Linien des Layouts zu extrahieren, während die Layout-Analysesektion eine Tabellen-Strukturanalysesektion einschließt, um die aus den gezogenen Linien gebildete Tabellenstruktur auf der Basis der von der Layout-Charakteristikaextraktionssektion extrahierten gezogenen Linien des Layouts zu analysieren. Wenn das Layout hingegen eine Tabellenstruktur ohne gezogene Linien aufweist, die keine gezogenen Linien einschließt, schließt die Layout-Charakteristikaextraktionssektion eine Element-Datenextraktionssektion ein, um Elementdaten des Layouts zu extrahieren, während die Layout-Analysesektion eine Tabellen-Strukturanalysesektion einschließt, um die Tabellenstruktur ohne gezogene Linien auf der Basis der von der Layout-Charakteristikaextraktionssektion extrahierten Elementdaten zu analysieren.
Ferner kann die Layout-Analyseverarbeitungssektion so konstruiert sein, dass sie eine Überschriftregion in dem Bild bestimmt, Überschriftelementinformationen in der Überschriftregion erkennt und entsprechende Elementdaten bestimmt.
Oder die Datenmedium-Handhabungsvorrichtung kann so konstruiert sein, dass die Kandidaten-Layout-Speichersektion so konstruiert ist, dass sie Informationen komprimierter Kandidaten-Layouts speichert, und die Layout-Kollationsverarbeitungssektion die von der Layout-Analyseverarbeitungssektion extrahierten Charakteristika des Layouts einer Kompressionsverarbeitung unterzieht, und die komprimierten Kandidaten-Layouts aus der Kandidaten-Layout-Speichersektion unter Verwendung der komprimierten Charakteristika des Layouts als einschränkende Abfragebedingungen abfragt, um zu kollationieren, ob ein Koinzidenz-Kandidaten-Layout vorhanden ist oder nicht.
Oder die Kandidaten-Layout-Speichersektion kann auch so konstruiert sein, dass die Kandidaten-Layoutinformationen durch Lernen aktualisiert werden.
In der Dokumentenmedium-, d.h. Datenmedium-, Handhabungsvorrichtung der vorliegenden Erfindung mit der oben beschriebenen Konstruktion werden, in dem Schritt des Spezifizierens von Informationen der aktuellen Position, für ein Datenmedium einzigartige Charakteristika, die ein Format einschließen, aus gelesenen Bilddaten extrahiert, und aus den Charakteristika wird eine Position, an der zu erkennende Informationen vorliegen, spezifiziert, und, in dem Bilderkennungsschritt, wird das Bild an der im vorhergehenden Schritt spezifizierten Position erkannt, um die Informationen dadurch zu diskriminieren, um eine Erkennung der Informationen auf der Basis des Bilds zu bewirken, das aus dem Datenmedium gelesen wird, auf dem die Informationen in einem willkürlichen Format beschrieben sind.
Insbesondere werden, in der Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung, in dem Layout-Analyseverarbeitungsschritt, Charakteristika eines Layouts eines gelesenen Bilds extrahiert, um eine Struktur des Layouts zu analysieren, und das Layout wird auf der Basis der extrahierten Charakteristika logisch dargestellt, und, in dem Layout-Kollationsverarbeitungsschritt, werden in der Kandidaten-Layout-Speichersektion gespeicherte Kandidaten-Layouts unter Verwendung der in dem Layout-Analyseverarbeitungsschritt extrahierten Charakteristika des Layouts als einschränkende Abfragebedingungen abgefragt, um zu kollationieren, ob ein Koinzidenz-Kandidaten-Layout vorhanden ist oder nicht, um dadurch eine Erkennung der Informationen auf der Basis des Bilds zu bewirken, das aus dem Datenmedium gelesen wird, auf dem die Informationen in einem willkürlichen Format beschrieben sind.
In dem Layout-Analyseverarbeitungsschritt können Charakteristika des Layouts zuerst extrahiert werden, und dann kann ein logischer Ursprung des Layouts extrahiert werden, und in dem Layout-Kollationsverarbeitungsschritt können die Informationen unter Bezugnahme auf den in dem Layout-Analyseverarbeitungsschritt extrahierten logischen Ursprung diskriminiert werden.
Ferner kann in dem Layout-Analyseverarbeitungsschritt diskriminiert werden, ob das Layout des gelesenen Bilds in einer vorherbestimmten Richtung ist oder nicht, und die gelesenen Bilddaten können auf der Basis des Ergebnisses der Diskriminierung so konvertiert werden, dass das Layout in der vorherbestimmten Richtung sein kann. Die Konvertierungsverarbeitung der gelesenen Bilddaten kann eine solche Verarbeitung sein, dass das Layout gedreht wird.
Wenn das Layout eine aus gezogenen Linien gebildete Ta bellenstruktur aufweist, werden hier, in dem Layout-Analyseverarbeitungsschritt, die gezogenen Linien des Layouts extrahiert, und die aus den gezogenen Linien gebildete Tabellenstruktur wird auf der Basis der extrahierten gezogenen Linien des Layouts analysiert. Wenn das Layout eine Tabellenstruktur ohne gezogene Linien aufweist, die keine gezogenen Linien einschließt, werden dabei, in dem Layout-Analyseverarbeitungsschritt, Elementdaten des Layouts extrahiert, und die Tabellenstruktur ohne gezogene Linien wird auf der Basis der extrahierten Elementdaten des Layouts analysiert.
Ferner kann in dem Layout-Analyseverarbeitungsschritt eine Überschriftregion in dem Bild bestimmt werden, und Überschriftelementinformationen in der Überschriftregion können bestätigt werden, und entsprechende Elementdaten können bestimmt werden.
Wenn Informationen komprimierter Kandidaten-Layouts in der Kandidaten-Layout-Speichersektion gespeichert werden, werden, in dem Layout-Kollationsverarbeitungsschritt, die in dem Layout-Analyseverarbeitungsschritt extrahierten Charakteristika des Layouts einer Kompressionsverarbeitung unterzogen, und die komprimierten Kandidaten-Layouts werden aus der Kandidaten-Layout-Speichersektion unter Verwendung der in dem vorhergehenden Schritt komprimierten Charakteristika des Layouts als einschränkende Abfragebedingungen abgefragt, und dann wird, auf der Basis eines Ergebnisses der Abfrage, kollationiert, ob ein Koinzidenz-Kandidaten-Layout vorhanden ist oder nicht.
Ferner werden in dem Kandidaten-Layout Informationen von der Kandidaten-Layout-Speichersektion durch Lernen aktualisiert.
Die Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung ist dadurch vorteilhaft, dass, da verschiedenste Dokumente oder Dokumentenbilder, die täglich erzeugt werden, automatisch elektronisch analysiert werden, die Effizienz von Eintragungsaufgaben, die herkömmliche Eintragungssysteme verwenden (OCR-Eintragungssysteme, Dateneintragungssysteme, usw.), deutlich erhöht werden kann.
Da Layout-Protokollinformationen, die auf der Basis eines Ergebnisses einer Layout-Erkennung eines willkürlichen Dokuments einer beliebigen Art erzeugt werden, durch Lernen in der Kandidaten-Layout-Speichersektion registriert werden können, kann ferner danach eine Diskriminierung eines Dokuments mit demselben Layout automatisch vorgenommen werden, und dementsprechend können die zur Erzeugung von Dokumenten zur exklusiven Verwendung erforderliche Arbeit und Kosten reduziert werden. Da ein Eintrag unmittelbar nach einem solchen Lernen freigegeben wird, kann außerdem eine Verringerung der Periode erzielt werden, in der ein System auf der Basis der vorliegenden Vorrichtung installiert wird.
Da Bilddaten eines Dokuments einer normalen Analyseverarbeitung unterzogen werden, ist darüber hinaus die automatische Erkennungsverarbeitung für andere Dokumente als teure OCR-Dokumente zur exklusiven Verwendung möglich, mit denen ein Schnittfehler oder Druckfehler gering ist.
In einem Dokumentenmedium-, d.h. Datenmedium-, Handhabungsverfahren mit einem Schritt des Extrahierens des logischen Ursprungs kann nicht nur der logische Ursprung des Formats extrahiert werden, sondern es können auch Hilfskoordinateninformationen für den logischen Ursprung extrahiert werden, die Hilfsinformationen für den logischen Ursprung liefern, und in dem Bilderkennungsschritt können die Informationen unter Bezugnahme auf den logischen Ursprung und die Hilfskoordinateninformationen für den logischen Ursprung diskriminiert werden.
Wenn das Layout eine aus gezogenen Linien gebildete Tabellenstruktur aufweist, werden Koordinateninformationen in Bezug auf eine der Ecken, die die Tabellenstruktur definieren, als logischer Ursprung des Formats extrahiert.
In diesem Fall können Koordinateninformationen in Bezug auf die übrigen Ecken als Hilfskoordinateninformationen für den logischen Ursprung extrahiert werden.
Insbesondere wenn das Layout eine aus gezogenen Linien gebildete Tabellenstruktur hat, werden Koordinateninformationen einer der die Tabellenstruktur definierenden Ecken, die eine minimale X-Koordinate und eine minimale Y-Koordinate aufweist, als logischer Ursprung des Formats extrahiert.
In diesem Fall können Koordinateninformationen einer anderen der Ecken, die eine maximale X-Koordinate und die minimale Y-Koordinate aufweist, einer weiteren der Ecken, die die minimale X-Koordinate und eine maximale Y-Koordinate aufweist, und noch einer weiteren der Ecken, die die maximale X-Koordinate und die maximale Y-Koordinate aufweist, als Hilfskoordinateninformationen für den logischen Ursprung extrahiert werden.
Wenn das Layout hingegen eine Tabellenstruktur ohne gezogene Linien hat, die keine gezogenen Linien einschließt, werden Koordinateninformationen in Bezug auf eine der Ecken eines umschriebenen Rechtecks von Elementdaten in dem Layout als logischer Ursprung des Formats extrahiert.
In diesem Fall können Koordinateninformationen in Bezug auf die übrigen Winkel des umschriebenen Rechtecks als Hilfskoordinateninformationen für den logischen Ursprung extrahiert werden.
Insbesondere wenn das Layout eine Tabellenstruktur ohne gezogene Linien hat, die keine gezogenen Linien einschließt, werden Koordinateninformationen einer der Ecken des umschriebenen Rechtecks, die eine minimale X-Koordinate und eine minimale Y-Koordinate aufweist, als logischer Ursprung des Formats extrahiert.
In diesem Fall können Koordinateninformationen einer anderen der Ecken des umschriebenen Rechtecks, die eine maximale X-Koordinate und die minimale Y-Koordinate aufweist, einer weiteren der Ecken, die die minimale X-Koordinate und eine maximale Y-Koordinate aufweist, und noch einer weiteren der Ecken, die die maximale X-Koordinate und die maximale Y-Koordinate aufweist, als Hilfskoordinateninformationen für den logischen Ursprung extrahiert werden.
Ein solches Datenmedium-Handhabungsverfahren der vorliegenden Erfindung ist dadurch vorteilhaft, dass, da eine Layout-Analyse eines Dokuments eines Verarbeitungsobjekts auf der Basis von gezogenen Linienelementen oder Elementdaten, die aus Bilddaten extrahiert werden, vorgenommen wird, und vorherbestimmte Koordinaten unter Koordinaten von Ecken einer Region, die durch die Layout-Analyse erhalten werden, als logische Ursprungskoordinaten und Korrekturkoordinaten bestimmt werden, logische Ursprungskoordinaten und Korrekturkoordinaten sogar aus Bilddaten gewöhnlicher Dokumente extrahiert werden können, die von Dokumenten zur exklusiven Verwendung verschieden sind, auf denen eine Referenzmarke oder dgl. aufgedruckt ist.
Da Korrekturkoordinaten extrahiert werden, kann ferner bei der Extraktion eines logischen Ursprungs, gleichzeitig mit zusätzlichen Informationen für den logischen Ursprung, eine Koinzidenz mit Sicherheit bei der Kollation logischer Ursprünge in der Layout-Kollationsverarbeitung detektiert werden.
Insbesondere da eine Kollation logischer Ursprünge durch die Kollation relativer Koordinaten von Korrekturkoordinaten mit berücksichtigten logischen Ursprungskoordinaten vorgenommen wird, kann, auch wenn eine Positionsverschiebung beim Lesen des Bilds auftritt, eine Kollationsverarbeitung im Layout mit Sicherheit vorgenommen werden.
Ferner kann, gemäß der vorliegenden Erfindung, ein Datenmedium-Handhabungsverfahren zum Erkennen von Informationen auf der Basis eines Bilds, das von einem Datenmedium gelesen wird, auf dem Informationen in einem willkürlichen Format beschrieben sind, so sein, dass für das Datenmedium einzigartige Charakteristika, die das Format einschließen, aus den gelesenen Bilddaten extrahiert und dann einer Kompressionsverarbeitung unterzogen werden, und in einer Speichersektion gespeicherte Referenzkompressionsinformationen unter Verwendung der der Kompressionsverarbeitung unterzogenen Charakteristika als einschränkende Abfragebedingungen abgefragt werden, um zu kollationieren, ob Koinzidenz-Referenzkompressionsinformationen vorliegen oder nicht, wonach das Bild an einer spezifizierten Position auf der Basis eines Ergebnisses der Kollation erkannt wird, um die Informationen zu diskriminieren.
Hier können, vor der Kompressionsverarbeitung für die Charakteristika, eine Schräglagekorrektur- und eine Verzerrungskorrekturverarbeitung für die gelesenen Bilddaten vorgenommen werden.
Ferner wird, bei der Kompressionsverarbeitung für die Charakteristika, auf horizontale gezogene Linien Bezug genommen, die gezogene Linienelemente der gelesenen Bilddaten konstruieren, um eine Y-Koordinaten-Vereinheitlichungsverarbeitung für jene der gezogenen Linienelemente vorzunehmen, deren gezogene Linien auf der Oberseite dieselbe gezogene Linie gemeinsam haben, und es wird auf vertikale gezogene Linien Bezug genommen, die die gezogenen Linienelemente der gelesenen Bilddaten konstruieren, um eine X-Koordinaten-Vereinheitlichungsverarbeitung für jene der gezogenen Linienelemente vorzunehmen, deren gezogene Linien auf der linken Seite dieselbe gezogenen Linie gemeinsam haben.
Oder es werden, bei der Kompressionsverarbeitung für die Charakteristika, die Charakteristika in einen entsprechenden Bitstrom konvertiert, und der Bitstrom wird einer Kompressionsverarbeitung unterzogen und als Matrixtabelle eingestellt.
Demgemäß kann das Datenmedium-Verarbeitungsverfahren der vorliegenden Erfindung dadurch vorteilhaft sein, dass, wenn ein Layout eines gezogenen Linienelements, das eine der Komponenten eines Layouts ist, einer Kompressionsverarbeitung unterzogen und als Matrixtabelle dargestellt wird, und, bei der Kollation von Layouts, solche Matrixtabellen miteinander kollationiert werden, die Layout-Kollationsverarbeitungsgeschwindigkeit nur linear proportional zur Anzahl von Layouts eines Kollationsobjekts zunimmt, ohne auf die Anzahl gezogener Linienelemente zurückzugreifen, und die Kollationsverarbeitung von Layouts einer groben Anzahl von Dokumenten mit einer hohen Geschwindigkeit vorgenommen werden kann.
Da vor der Kompressionsverarbeitung einer Bittabelle, in der ein Layout gezogener Linienelemente reflektiert wird, eine Schräglagekorrektur und Verzerrungskorrekturverarbeitung für die gelesenen Bilddaten vorgenommen werden, und eine Y-Koordinatenvereinheitlichungsverarbeitung und X-Koordinatenvereinheitlichungsverarbeitung für die gezogenen Linienelemente vorgenommen werden, kann ferner eine Variation des Layouts absorbiert werden, die beim Lesen von Bilddaten auftritt.
Ferner kann, gemäß der vorliegenden Erfindung, ein Datenmedium-Handhabungsverfahren zum Erkennen von Informationen, auf der Basis eines Bilds, das aus einem Datenmedium gelesen wird, auf dem Informationen in einem willkürlichen Format beschrieben sind, so sein, dass es umfasst: den Registrierungsschritt des Extrahierens von Charakteristika eines Layouts des gelesenen Bilds, des Analysierens einer Struktur des Layouts, des Anzeigens der analysierten Layout-Struktur auf einer Anzeigeeinheit, des Einstellens einer vorherbestimmten Charakteristikadaten-Erkennungsregion für die angezeigte Layout-Struktur, des Eingebens von Codedaten, die Embleminformationen in der Region entsprechen, durch eine externe Eingabevorrichtung, des Erzeugens von Regionencharakteristikadaten aus der Charakteristikadaten-Erkennungsregion und der Codedaten, und des Registrierens der Regionencharakteristikadaten in einer verknüpften Beziehung mit der analysierten Layout-Struktur, und den Kollationsschritt des Extrahierens von Charakteristika eines getrennt gelesenen Bilds, des Analysierens einer Struktur des Layouts, des Abfragens der in dem Registrierungsschritt registrierten Regionencharakteristikadaten und der Layout-Struktur als Referenzdaten und des Kollationierens, ob koinzidente Regionencharakteristikadaten vorliegen oder nicht.
Wenn den Embleminformationen in der Region entsprechende Codedaten in dem Registrierungsschritt eingegeben werden, werden hier den Embleminformationen entsprechende Codedaten mit einer Signifikanz eingegeben.
Da Funktionen eines Regionenbild-Charakteristikaextraktionsmechanismus und eines Charakteristikakollationsmechanismus ähnlich jenen einer Zeichenerkennungsvorrichtung erweitert und mit einem Layout-Erkennungssystem kombiniert werden, kann demgemäß mit einem solchen Datenmedium-Verarbeitungsverfahren der vorliegenden Erfindung eine Erkennungsverarbeitung eines willkürlichen Grafikbilds in einer bezeichneten Region in einer Verflechtungsbeziehung mit einer Layout-Erkennungsverarbeitung vorgenommen werden.
Da Regionencharakteristikadaten eines Kollationsobjekts in einer verknüpften Beziehung mit Layoutinformationen aufgezeichnet werden, kann ferner das Kollationsobjekt in Einheiten eines Layouts eingeschränkt werden, und dementspre chend muss eine solche Kollationsverarbeitung einer großen Menge, wie durch eine gewöhnliche Zeichenerkennungsverarbeitung erforderlich, nicht vorgenommen werden, und eine hohe Erkennungsrate kann erzielt werden.
Wenn ein Element eines Gummisiegels, einer Unterschrift oder dgl. als Charakteristikadaten-Erkennungselement bezeichnet wird, dann kann ferner ein solches Element wie ein Gummisiegel, eine Unterschrift oder dgl. erkannt werden, das durch eine gewöhnliche Zeichenerkennung nicht erkannt werden kann, und entsprechende Codedaten können als Erkennungsergebnis einer Charakteristikaregion eines Elements eines Gummisiegels, einer Unterschrift oder dgl. erfasst werden.
Ferner kann, gemäß der vorliegenden Erfindung, ein Datenmedium-Handhabungsverfahren zum Erkennen von Informationen, auf der Basis eines Bilds, das aus einem Datenmedium gelesen wird, auf dem Informationen in einem willkürlichen Format beschrieben sind, so sein, dass es umfasst: den Layout-Analyseverarbeitungsschritt des Extrahierens von Charakteristika eines Layouts des gelesenen Bilds, des Analysierens einer Struktur des Layouts, des Bestimmens einer Überschriftregion in dem Bild auf der Basis der extrahierten Charakteristika, des Erkennens von Überschriftelementinformationen in der Überschriftregion, des Bestimmens entsprechender Elementdaten und des logischen Darstellens des Layouts, und den Layout-Kollationsverarbeitungsschritt des Abfragens von Kandidaten-Layouts, die in einer Kandidaten-Layout-Speichersektion gespeichert sind, unter Verwendung der in dem Layout-Analyseverarbeitungsschritt extrahierten Charakteristika des Layouts als einschränkende Abfragebedingungen, um zu kollationieren, ob ein Koinzidenz-Kandidaten-Layout vorhanden ist oder nicht.
Das Datenmedium-Handhabungsverfahren kann ferner so sein, dass der Layout-Analyseverarbeitungsschritt ein schließt: den Überschriftpositionskandidaten-Bestimmungsschritt des Bestimmens von Überschriftpositionskandidaten auf der Basis eines Ergebnisses der Analyse der Struktur des Layouts, und den Überschriftelement-Kollationsschritt des Kollationierens der Überschriftelementinformationen in der Überschriftregion mit den in dem vorhergehenden Schritt bestimmten Überschriftpositionskandidaten.
Bei der Kollation des Überschriftelements in dem Überschriftelement-Kollationsschritt wird die Kollationsverarbeitung des Überschriftelements nach der Normalisierungsverarbeitung für die zu kollationierenden Bilddaten vorgenommen.
Demgemäß kann das Datenmedium-Handhabungsverfahren der vorliegenden Erfindung dadurch vorteilhaft sein, dass, da ein Überschriftelement und Elementdaten, die dem Überschriftelement entsprechen, durch die Layout-Erkennungsverarbeitung identifiziert werden können, indem die Überschriftanalyseverarbeitung des Abfragens und Kollationierens einer Überschriftposition aus einer gezogenen Linienelementstruktur eines Dokumentenbilds eines Analyseobjekts vorgenommen wird, um automatisch Elementinformationen zu analysieren, die einer auf einem Dokument beschriebenen Überschrift entsprechen, die Zeichenerkennung von Elementdaten sofort vorgenommen werden kann, ohne eine Zeichenerkennungsverarbeitung eines Überschriftelements vorzunehmen.
Außerdem kann eine Datenmedium-Handhabungsvorrichtung gemäß der vorliegenden Erfindung so sein, dass sie umfasst: eine Bilddaten-Lesevorrichtung zum Lesen von Bilddaten eines Dokuments als Datenmedium mit in einem Format davon beschriebenen erforderlichen Informationen, einen Bilddaten-Sicherungsspeicher zum Speichern der Bilddaten des Dokuments, die von der Bilddaten-Lesevorrichtung gelesen werden, eine Extraktionseinrichtung für Dokumentenidentifikations informationen zum Extrahieren auf dem Dokument beschriebener erforderlicher Dokumentenidentifikationsinformationen aus den Bilddaten des in dem Bilddaten-Sicherungsspeicher gespeicherten Dokuments, ein Dokumentenidentifikationswörterbuch zum Registrieren der von der Extraktionseinrichtung für Dokumentenidentifikationsinformationen extrahierten Dokumentenidentifikationsinformationen als Dokumentenidentifikationsinformationen für ein bestimmtes Dokument, eine Referenzeinrichtung zum Bezugnehmen auf Bilddaten eines willkürlichen Dokuments, das von der Bilddaten-Lesevorrichtung gelesen wurde und in dem Bilddaten-Sicherungsspeicher gespeichert ist, um zu detektieren, ob die Bilddaten des willkürlichen Dokuments die in dem Dokumentenidentifikationswörterbuch registrierten Dokumentenidentifikationsinformationen einschließen oder nicht, und eine Dokumentenidentifikationseinrichtung zum Identifizieren, auf der Basis eines Ergebnisses der Bezugnahme durch die Referenzeinrichtung, ob das willkürliche Dokument das bestimmte Dokument ist oder nicht.
Ferner kann eine Datenmedium-Handhabungsvorrichtung gemäß der vorliegenden Erfindung so sein, dass sie umfasst: eine Bilddaten-Lesevorrichtung zum Lesen von Bilddaten eines Dokuments als Datenmedium mit in einem Format davon beschriebenen erforderlichen Informationen, einen Bilddaten-Sicherungsspeicher und einen Dateispeicher zum Speichern der Bilddaten des Dokuments, die von der Bilddaten-Lesevorrichtung gelesen werden, eine Extraktionseinrichtung für Dokumentenidentifikationsinformationen zum Extrahieren auf dem Dokument beschriebener erforderlicher Dokumentenidentifikationsinformationen aus den Bilddaten des in dem Bilddaten-Sicherungsspeicher gespeicherten Dokuments, ein Dokumentenidentifikationswörterbuch zum Registrieren der von der Extraktionseinrichtung für Dokumentenidentifikationsinforma tionen extrahierten Dokumentenidentifikationsinformationen als Dokumentenidentifikationsinformationen für ein bestimmtes Dokument, eine Verifikationseinrichtung zum Auslesen der Bilddaten des in dem Dateispeicher gespeicherten bestimmten Dokuments und zum Verifizieren, ob die Bilddaten des bestimmten Dokuments die in dem Dokumentenidentifikationswörterbuch registrierten Dokumentenidentifikationsinformationen einschließen oder nicht, eine Diskriminierungseinrichtung zum Diskriminieren, auf der Basis eines Ergebnisses der Verifikation durch die Verifikationseinrichtung, ob eine Erkennung des bestimmten Dokuments möglich ist oder nicht, eine Referenzeinrichtung zum Bezugnehmen auf Bilddaten eines willkürlichen Dokuments, das von der Bilddaten-Lesevorrichtung gelesen wurde und in dem Bilddaten-Sicherungsspeicher gespeichert ist, um zu detektieren, ob die Bilddaten des willkürlichen Dokuments die in dem Dokumentenidentifikationswörterbuch registrierten Dokumentenidentifikationsinformationen einschließen oder nicht, und eine Dokumentenidentifikationseinrichtung zum Identifizieren, auf der Basis eines Ergebnisses der Bezugnahme durch die Referenzeinrichtung, ob das willkürliche Dokument das bestimmte Dokument ist oder nicht.
Hier kann die Referenzeinrichtung auch als Verifikationseinrichtung dienen, und die Dokumentenidentifikationseinrichtung kann auch als Diskriminierungseinrichtung dienen.
In der Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung mit der oben beschriebenen Konstruktion werden, aus Bilddaten eines bestimmten Dokuments als Datenmedium, das von der Bilddaten-Lesevorrichtung gelesen wird und in einem Format beschriebene erforderliche Informationen darauf aufweist, auf dem bestimmten Dokument beschriebene Dokumentenidentifikationsinformationen extrahiert, und die Dokumentenidentifikationsinformationen werden in dem Dokumentenidentifikationswörterbuch registriert, und dann werden Bilddaten eines willkürlichen Dokument mittels der Bilddaten-Lesevorrichtung gelesen, wonach auf die Bilddaten des willkürlichen Dokuments Bezug genommen wird, um zu detektieren, ob die Bilddaten des willkürlichen Dokuments die in dem Dokumentenidentifikationswörterbuch registrierten Dokumentenidentifikationsinformationen einschließen oder nicht, um zu identifizieren, ob das willkürliche Dokument das bestimmte Dokument ist oder nicht.
Ferner können, in der Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung, aus Bilddaten eines bestimmten Dokuments als Datenmedium, das von der Bilddaten-Lesevorrichtung gelesen wird und in einem Format beschriebene erforderliche Informationen darauf aufweist, auf dem bestimmten Dokument beschriebene Dokumentenidentifikationsinformationen extrahiert werden, und die Dokumentenidentifikationsinformationen können in dem Dokumentenidentifikationswörterbuch registriert werden, und dann werden Bilddaten des bestimmten Dokuments erneut eingegeben, und es wird verifiziert, ob die eingegebenen Bilddaten des bestimmten Dokuments die in dem Dokumentenidentifikationswörterbuch registrierten Dokumentenidentifikationsinformationen einschließen oder nicht, um zu diskriminieren, ob eine Erkennung des bestimmten Dokuments möglich ist oder nicht, wonach, wenn die Erkennung des bestimmten Dokuments möglich ist, Bilddaten eines willkürlichen Dokuments mittels der Bilddaten-Lesevorrichtung gelesen werden, und auf die Bilddaten des willkürlichen Dokuments Bezug genommen wird, um zu detektieren, ob die Bilddaten des willkürlichen Dokuments die in dem Dokumentenidentifikationswörterbuch registrierten Dokumentenidentifikationsinformationen einschließen oder nicht, um zu identifizieren, ob das willkürliche Dokument das bestimmte Dokument ist oder nicht.
Wenn die Dokumentenidentifikationsinformationen in dem Dokumentenidentifikationswörterbuch zu registrieren sind, können hier die von der Bilddaten-Lesevorrichtung gelesenen Bilddaten des bestimmten Dokuments auf der Anzeigeeinheit angezeigt werden, und eine Region, die ein Bild der auf dem bestimmten Dokument beschriebenen Dokumentenidentifikationsinformationen einschließt, kann innerhalb der Bilddaten des angezeigten bestimmten Dokuments bezeichnet werden, um die Dokumentenidentifikationsinformationen zu extrahieren.
Oder es können, wenn die Dokumentenidentifikationsinformationen in dem Dokumentenidentifikationswörterbuch zu registrieren sind, auf dem bestimmten Dokument beschriebene bestimmte Dokumentenidentifikationsinformationen automatisch aus den von der Bilddaten-Lesevorrichtung gelesenen Bilddaten des bestimmten Dokuments extrahiert werden.
Oder es können auch, wenn die Dokumentenidentifikationsinformationen in dem Dokumentenidentifikationswörterbuch zu registrieren sind, bei der Registrierung der Dokumentenidentifikationsinformationen in dem Dokumentenidentifikationswörterbuch, die bei der Registrierung gelesenen Bilddaten des bestimmten Dokuments gespeichert werden, und, wenn die Dokumentenidentifikationsinformationen in dem Dokumentenidentifikationswörterbuch zu registrieren sind, können die gespeicherten Bilddaten des bestimmten Dokuments als Bilddaten des bestimmten Dokuments erneut eingegeben werden, und es kann verifiziert werden, ob die eingegebenen Bilddaten des bestimmten Dokuments die in dem Dokumentenidentifikationswörterbuch registrierten Dokumentenidentifikationsinformationen einschließen oder nicht, um zu diskriminieren, ob die Erkennung des bestimmten Dokuments möglich ist oder nicht.
Demgemäß kann eine Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung dadurch vorteilhaft sein, dass, da eine Art eines Dokuments, dessen Bilddaten von der Bilddaten-Lesevorrichtung gelesen wurden, automatisch identifiziert werden kann, auch wenn eine Vielzahl von Arten von Dokumenten, die von der Bilddaten-Lesevorrichtung zu lesen sind, in einem gemischten Zustand vorliegt, ein Bediener das Dokument handhaben kann, ohne die Definition jedes Dokuments zu kennen, und eine Verbesserung der Auftragseffizienz antizipiert werden kann. Die Datenmedium-Handhabungsvorrichtung ist auch dadurch vorteilhaft, dass eine ID-Nummer oder dgl. zur Identifikation eines Dokuments selbst nicht auf dem Dokument beschrieben sein muss, und gewöhnliche Dokumente verwendet werden können, und dementsprechend die Datenmedium-Handhabungsvorrichtung leicht bei einem bestehenden System angewendet werden kann.
Da verifiziert werden kann, ob vom Bediener bezeichnete Dokumentenidentifikationsinformationen richtig sind oder nicht, ist die Datenmedium-Handhabungsvorrichtung ferner dadurch vorteilhaft, dass die fehlerhafte Diskriminierung eines Dokuments überhaupt eliminiert wird, und die Zuverlässigkeit der Vorrichtung verbessert wird.
Da die Referenzeinrichtung auch als Verifikationseinrichtung dient, und die Dokumentenidentifikationseinrichtung auch als Diskriminierungseinrichtung dient, ist die Datenmedium-Handhabungsvorrichtung ferner dadurch vorteilhaft, dass die Vorrichtungskonstruktion vereinfacht werden kann.
Eine Datenmedium-Handhabungsvorrichtung gemäß der vorliegenden Erfindung kann ferner umfassen: eine Bildlesesektion zum Lesen eines Bilds eines Datenmediums mit Embleminformationen, eine Emblem-Erkennungssektion zum Erkennen der Emblembildinformationen in dem von der Bildlesesektion gelesenen Bild, und zum Konvertieren der Emblembildinformationen in entsprechende Codeinformationen, eine Anzeigeeinheit zum Anzeigen der Emblembildinformationen in einem Zustand eines gelesenen Bilds, und eine Leseemblembild-Anzeigesteuersektion, um zu bewirken, wenn die Emblembildinformationen nicht erfolgreich in entsprechende Codeinformationen konvertiert wurden, dass die nicht erkennbaren Emblembildinformationen, deren Konvertierung nicht erfolgreich vorgenommen wurde, in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit zusammen mit Emblembildinformationen angezeigt werden, die mit den nicht erkennbaren Emblembildinformationen assoziiert sind, wobei die Leseemblembild-Anzeigesteuersektion eine Hervorhebungsanzeigeeinrichtung für eine hervorgehobene Anzeige der nicht erkennbaren Emblembildinformationen einschließt.
Hier umfasst die Datenmedium-Handhabungsvorrichtung ferner eine Dateneingabevorrichtung zum Eingeben richtiger Antwortdaten, die den nicht erkennbaren Emblembildinformationen entsprechen, und eine Anzeigeeinrichtung für richtige Antwortdaten, um zu bewirken, wenn die richtigen Antwortdaten durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, dass die richtigen Antwortdaten auf der Anzeigeeinheit in einem Anzeigebereich für richtige Antwortdaten angezeigt werden, der von einem Anzeigebereich für nicht erkennbare Emblembildinformationen verschieden ist.
Die Datenmedium-Handhabungsvorrichtung kann ferner eine Hervorhebungsanzeige-Änderungseinrichtung umfassen, um zu bewirken, wenn richtige Antwortdaten durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, dass die nicht erkennbaren Emblembildinformationen, die hervorgehoben angezeigt wurden, in einer anderen Weise der Hervorhebung angezeigt werden, die signifiziert, dass die nicht erkennbaren Emblembildinformationen modifiziert wurden.
Oder die Datenmedium-Handhabungsvorrichtung kann ferner eine Hervorhebungsanzeige-Änderungseinrichtung umfassen, um zu bewirken, wenn durch die Anzeigeeinrichtung für richtige Antwortdaten die richtigen Antwortdaten auf der Anzeigeeinheit in dem Anzeigebereich für richtige Antwortdaten angezeigt werden, der von dem Anzeigebereich für nicht erkennbare Emblembildinformationen verschieden ist, dass die nicht erkennbaren Emblembildinformationen, die hervorgehoben angezeigt wurden, in einer anderen Weise der Hervorhebung angezeigt werden, die signifiziert, dass die nicht erkennbaren Emblembildinformationen modifiziert wurden.
Insbesondere kann eine Datenmedium-Handhabungsvorrichtung gemäß der vorliegenden Erfindung, bei der ein Bild eines Datenmediums mit Embleminformationen gelesen wird, und Emblembildinformationen in dem gelesenen Bild erkannt und in entsprechende Codeinformationen konvertiert werden, so sein, dass, wenn die Emblembildinformationen nicht erfolgreich in entsprechende Codeinformationen konvertiert wurden, die nicht erkennbaren Emblembildinformationen, die nicht erfolgreich konvertiert wurden, in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit zusammen mit Emblembildinformationen angezeigt werden, die mit den nicht erkennbaren Emblembildinformationen assoziiert sind, und die nicht erkennbaren Emblembildinformationen hervorgehoben angezeigt werden, und danach, wenn richtige Antwortdaten, die den nicht erkennbaren Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, die nicht erkennbaren Emblembildinformationen, die hervorgehoben angezeigt wurden, in einer anderen Weise der Hervorhebung angezeigt werden, die signifiziert, dass die nicht erkennbaren Emblembildinformationen modifiziert wurden.
Kurz gefasst, eine Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung kann so sein, dass sie umfasst: eine Bildlesesektion zum Lesen eines Bilds eines Datenmedi ums mit Embleminformationen, eine Emblem-Erkennungssektion zum Erkennen der Emblembildinformationen in dem von der Bildlesesektion gelesenen Bild, und zum Konvertieren der Emblembildinformationen in entsprechende Codeinformationen, eine Anzeigeeinheit zum Anzeigen der Emblembildinformationen in einem Zustand eines gelesenen Bilds, und eine Leseemblembild-Anzeigesteuersektion, um zu bewirken, wenn die Emblembildinformationen nicht erfolgreich in entsprechende Codeinformationen konvertiert wurden, dass die nicht erkennbaren Emblembildinformationen, deren Konvertierung nicht erfolgreich vorgenommen wurde, in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit zusammen mit Emblembildinformationen angezeigt werden, die mit den nicht erkennbaren Emblembildinformationen assoziiert sind, eine Hervorhebungsanzeigeeinrichtung, um zu bewirken, dass die nicht erkennbaren Emblembildinformationen hervorgehoben angezeigt werden, eine Dateneingabevorrichtung zum Eingeben richtiger Antwortdaten, die den nicht erkennbaren Emblembildinformationen entsprechen, eine Hervorhebungsanzeige-Änderungseinrichtung, um zu bewirken, wenn die richtigen Antwortdaten durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, dass die nicht erkennbaren Emblembildinformationen, die bisher hervorgehoben angezeigt wurden, in einer anderen Weise der Hervorhebung angezeigt werden, die eine Vollendung der Modifikation signifiziert, und eine Erkennungsinformations-Modifikationseinrichtung, um, wenn die richtigen Antwortdaten durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, die nicht erkennbaren Emblembildinformationen auf der Basis der richtigen Antwortdaten zu modifizieren.
Wenn ein Bild eines Datenmediums mit Embleminformationen gelesen wird, und Emblembildinformationen in dem gelesenen Bild erkannt und in entsprechende Codeinformationen kon vertiert werden, werden in der Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung mit der oben beschriebenen Konstruktion, wenn die Emblembildinformationen nicht erfolgreich in entsprechende Codeinformationen konvertiert wurden, dann die nicht erkennbaren Emblembildinformationen, die nicht erfolgreich konvertiert wurden, in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit zusammen mit Emblembildinformationen angezeigt, die mit den nicht erkennbaren Emblembildinformationen assoziiert sind, und die nicht erkennbaren Emblembildinformationen werden hervorgehoben angezeigt.
Wenn richtige Antwortdaten, die den nicht erkennbaren Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, werden ferner die richtigen Antwortdaten auf der Anzeigeeinheit in dem Anzeigebereich für richtige Antwortdaten angezeigt, der von dem Anzeigebereich für nicht erkennbare Emblembildinformationen verschieden ist.
Oder es werden, wenn richtige Antwortdaten, die den nicht erkennbaren Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, die nicht erkennbaren Emblembildinformationen, die hervorgehoben angezeigt wurden, in einer anderen Weise der Hervorhebung angezeigt, die signifiziert, dass die nicht erkennbaren Emblembildinformationen modifiziert wurden.
Oder es werden auch, wenn richtige Antwortdaten, die den nicht erkennbaren Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, die richtigen Antwortdaten auf der Anzeigeeinheit in dem Anzeigebereich für richtige Antwortdaten angezeigt, der von dem Anzeigebereich für nicht erkennbare Emblembildinformationen verschieden ist, wohingegen die nicht erkennbaren Emblembildinformationen, die hervorgehoben angezeigt wurden, in einer anderen Weise der Hervorhebung angezeigt werden, die signifiziert, dass die nicht erkennbaren Emblembildinformationen modifiziert wurden.
Demgemäß werden, mit einer solchen Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung, wenn die Emblembildinformationen nicht erfolgreich in entsprechende Codeinformationen konvertiert wurden, die nicht erkennbaren Emblembildinformationen, die nicht erfolgreich konvertiert wurden, in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit zusammen mit Emblembildinformationen angezeigt, die mit den nicht erkennbaren Emblembildinformationen assoziiert sind, und die nicht erkennbaren Emblembildinformationen werden hervorgehoben angezeigt. Dementsprechend ist die Datenmedium-Handhabungsvorrichtung dadurch vorteilhaft, dass, auch wenn die Emblembildinformationen nicht erkennbar sind, da es sich beispielsweise um ein stark verformtes Zeichen handelt, eine Bestätigungsoperation mit einem hohen Genauigkeitsgrad durch Bezugnahme auf Bildinformationen vorhergehender und nachfolgender Zeichen in einer Zeichensequenz oder dgl. vorgenommen werden kann, und die für eine Bestätigungsoperation zwischen richtig und falsch erforderliche Arbeit und Zeit reduziert werden können.
Wenn richtige Antwortdaten, die den nicht erkennbaren Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, werden ferner die richtigen Antwortdaten auf der Anzeigeeinheit in dem Anzeigebereich für richtige Antwortdaten angezeigt, der von dem Anzeigebereich für nicht erkennbare Emblembildinformationen verschieden ist, und dementsprechend können die Emblembildinformationen und die eingegebenen richtigen Antwortdaten durch visuelle Beobachtung rückbestätigt werden. Dementsprechend ist die Datenmedium-Handhabungsvorrichtung dadurch vorteilhaft, dass die für eine Bestätigungsoperation zwischen richtig und falsch erforderliche Arbeit und Zeit reduziert werden können, und eine Bestätigungsoperation mit einem hohen Genauigkeitsgrad vorgenommen werden kann.
Wenn richtige Antwortdaten, die den nicht erkennbaren Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, werden darüber hinaus die richtigen Antwortdaten auf der Anzeigeeinheit in dem Anzeigebereich für richtige Antwortdaten angezeigt, der von dem Anzeigebereich für nicht erkennbare Emblembildinformationen verschieden ist, wohingegen die nicht erkennbaren Emblembildinformationen, die hervorgehoben angezeigt wurden, in einer anderen Weise einer Hervorhebung angezeigt werden, die signifiziert, dass die nicht erkennbaren Emblembildinformationen modifiziert wurden. Dementsprechend können die Emblembildinformationen und die eingegebenen richtigen Antwortdaten durch visuelle Beobachtung rückbestätigt werden. Dementsprechend ist die Datenmedium-Handhabungsvorrichtung dadurch vorteilhaft, dass die Bestätigungsoperation mit einem hohen Genauigkeitsgrad vorgenommen werden kann, und eine Identifikation kann leicht vorgenommen werden, ob eine Eingabe für ein nicht erkennbares Emblem oder eine Modifikation eines fehlerhaft erkannten Emblems vorgenommen wurde oder nicht, was zu einer Verbesserung der visuellen Wahrnehmbarkeit führt, um doppelte Modifikationen des Bedieners, usw., zu verhindern, und außerdem können die für eine Bestätigungsoperation zwischen richtig und falsch erforderliche Arbeit und Zeit reduziert werden.
Ferner kann eine Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung so sein, dass sie umfasst: eine Bildlesesektion zum Lesen eines Bilds eines Datenmediums mit Embleminformationen, eine Emblem-Erkennungssektion zum Erkennen der Emblembildinformationen in dem von der Bildlesesektion gelesenen Bild, und zum Konvertieren der Emblembild informationen in entsprechende Codeinformationen, eine Anzeigeeinheit zum Anzeigen der Emblembildinformationen in einem Zustand eines gelesenen Bilds, und eine Extraktionssektion für Emblembildinformationen einer Minimalzusammensetzungseinheit zum Extrahieren von Emblembildinformationen einer Minimalzusammensetzungseinheit, die in Codeinformationen zu konvertieren sind, in dem Bild für jedes Stück der Emblembildinformationen der Minimalzusammensetzungseinheit, und eine Anzeigesteuersektion für Emblembilder einer Minimalzusammensetzungseinheit, um zu bewirken, dass die Emblembildinformationen der Minimalzusammensetzungseinheit, die von der Extraktionssektion für Emblembildinformationen einer Minimalzusammensetzungseinheit extrahiert wurden, in einer entsprechenden Beziehung zu Emblembildinformationen angezeigt werden, welche durch Codeinformationen signifiziert werden, die durch die Konvertierung der Emblembildinformationen erhalten werden.
Hier kann die Anzeigesteuersektion für Emblembilder einer Minimalzusammensetzungseinheit eine Funktion haben zu bewirken, dass eine Vielzahl von Stücken der Emblembildinformationen der Minimalzusammensetzungseinheit einer gleichen Art in einer entsprechenden Beziehung zu Embleminformationen angezeigt wird, welche durch Codeinformationen signifiziert werden, die durch die Konvertierung der Emblembildinformationen erhalten werden, und sie kann eine Hervorhebungsanzeigeeinrichtung enthalten, um zu bewirken, dass nur ein gewünschtes der Stücke von Emblembildinformationen hervorgehoben angezeigt wird.
Oder die Datenmedium-Handhabungsvorrichtung kann ferner eine Anzeigeeinrichtung für assoziierte Emblembilder umfassen, zum Anzeigen des einen Stücks von Emblembildinformationen, die in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit anzuzeigen sind, zusammen mit Emblembildinfor mationen, die mit dem einen Stück von Emblembildinformationen assoziiert sind, und die Anzeigeeinrichtung für assoziierte Emblembilder kann eine Hervorhebungsanzeigeeinrichtung einschließen, um zu bewirken, dass das eine Stück von Emblembildinformationen hervorgehoben angezeigt wird.
Oder die Datenmedium-Handhabungsvorrichtung kann auch ferner umfassen: eine Dateneingabevorrichtung zum Eingeben richtiger Antwortdaten, die dem einen Stück von Emblembildinformationen entsprechen, und eine Anzeigeeinrichtung für richtige Antwortdaten, um zu bewirken, wenn die richtigen Antwortdaten durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, dass die richtigen Antwortdaten in einem Anzeigebereich für richtige Antwortdaten angezeigt werden, der von einem Bereich verschieden ist, in dem das eine Stück von Emblembildinformationen und Emblembildinformationen, die mit dem einen Stück von Emblembildinformationen assoziiert sind, angezeigt werden.
Ansonsten kann die Datenmedium-Handhabungsvorrichtung ferner umfassen: eine Dateneingabevorrichtung zum Eingeben richtiger Antwortdaten, die dem einen Stück von Emblembildinformationen entsprechen, und eine Hervorhebungsanzeige-Änderungseinrichtung, um zu bewirken, wenn richtige Antwortdaten durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, dass das eine Stück von Emblembildinformationen, das hervorgehoben angezeigt wurde, in einer anderen Weise der Hervorhebung angezeigt wird, die signifiziert, dass das eine Stück von Emblembildinformationen modifiziert wurde.
Oder die Datenmedium-Handhabungsvorrichtung kann ansonsten ferner umfassen: eine Dateneingabevorrichtung zum Eingeben richtiger Antwortdaten, die dem einen Stück von Emblembildinformationen entsprechen, eine Anzeigeeinrichtung für richtige Antwortdaten, um zu bewirken, wenn die richti gen Antwortdaten durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, dass die richtigen Antwortdaten in einem Anzeigebereich für richtige Antwortdaten angezeigt werden, der von einem Bereich verschieden ist, in dem das eine Stück von Emblembildinformationen und Emblembildinformationen, die mit dem einen Stück von Emblembildinformationen assoziiert sind, angezeigt werden, und eine Hervorhebungsanzeige-Änderungseinrichtung, um zu bewirken, wenn richtige Antwortdaten durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, dass das eine Stück von Emblembildinformationen, das hervorgehoben angezeigt wurde, in einer anderen Weise der Hervorhebung angezeigt wird, die signifiziert, dass das eine Stück von Emblembildinformationen modifiziert wurde.
Insbesondere kann, gemäß der vorliegenden Erfindung, ein Datenmedium-Handhabungsverfahren, bei dem ein Bild eines Datenmediums mit Embleminformationen gelesen wird, und Emblembildinformationen in dem gelesenen Bild erkannt und in entsprechende Codeinformationen konvertiert werden, so sein, dass eine Vielzahl von Stücken von Emblembildinformationen einer Minimalzusammensetzungseinheit einer gleichen Art, die in Codeinformationen zu konvertieren sind, in dem Bild in einer entsprechenden Beziehung zu Emblembildinformationen angezeigt werden, welche durch Codeinformationen signifiziert werden, die durch die Konvertierung der Emblembildinformationen erhalten werden, wohingegen nur ein gewünschtes der Stücke von Emblembildinformationen hervorgehoben angezeigt wird, und dann, wenn richtige Antwortdaten, die dem einen Stück von Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, das eine Stück von Emblembildinformationen, das hervorgehoben angezeigt wurde, in einer anderen Weise der Hervorhebung angezeigt wird, die signifiziert, dass das eine Stück von Emblembildinformationen modifiziert wurde, und fehlerhaft erkannte Informationen, die dem einen Stück von Embleminformationen entsprechen, auf der Basis der richtigen Antwortdaten modifiziert werden.
Kurz gefasst, eine Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung kann so sein, dass sie umfasst: eine Bildlesesektion zum Lesen eines Bilds eines Datenmediums mit Embleminformationen, eine Emblem-Erkennungssektion zum Erkennen der Emblembildinformationen in dem von der Bildlesesektion gelesenen Bild, und zum Konvertieren der Emblembildinformationen in entsprechende Codeinformationen, eine Anzeigeeinheit zum Anzeigen der Emblembildinformationen in einem Zustand eines gelesenen Bilds, und eine Extraktionssektion für Emblembildinformationen einer Minimalzusammensetzungseinheit zum Extrahieren von Emblembildinformationen einer Minimalzusammensetzungseinheit, die in Codeinformationen zu konvertieren sind, in dem Bild für jedes Stück der Emblembildinformationen der Minimalzusammensetzungseinheit, eine Anzeigesteuersektion für Emblembilder einer Minimalzusammensetzungseinheit, um zu bewirken, dass eine Vielzahl von Stücken der Emblembildinformationen der Minimalzusammensetzungseinheit, die von der Extraktionssektion für Emblembildinformationen einer Minimalzusammensetzungseinheit extrahiert wurden, in einer entsprechenden Beziehung zu Embleminformationen angezeigt wird, welche durch Codeinformationen signifiziert werden, die durch die Konvertierung der Emblembildinformationen erhalten werden, eine Hervorhebungsanzeigeeinrichtung, um zu bewirken, dass nur ein gewünschtes der Stücke von Emblembildinformationen hervorgehoben angezeigt wird, eine Dateneingabevorrichtung zum Eingeben richtiger Antwortdaten, die dem einen Stück von Emblembildinformationen entsprechen, eine Hervorhebungsanzeige-Änderungseinrichtung, um zu bewirken, wenn die richtigen Antwortdaten durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, dass das eine Stück von Emblembildinformationen, das bisher hervorgehoben angezeigt wurde, in einer anderen Weise der Hervorhebung angezeigt wird, die eine Vollendung der Modifikation signifiziert, und eine Erkennungsinformations-Modifikationseinrichtung, um, wenn die richtigen Antwortdaten durch die Bedienung der Dateneingabevorrichtung eingegeben werden, fehlerhaft erkannte Informationen, die dem einen Stück von Emblembildinformationen entsprechen, auf der Basis der richtigen Antwortdaten zu modifizieren.
Wenn in der Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung mit der oben beschriebenen Konstruktion ein Bild eines Datenmediums mit Embleminformationen gelesen wird, und Emblembildinformationen in dem gelesenen Bild erkannt und in entsprechende Codeinformationen konvertiert werden, werden Emblembildinformationen einer Minimalzusammensetzungseinheit, die in Codeinformationen zu konvertieren sind, in dem Bild auf der Anzeigeeinheit in einer entsprechenden Beziehung zu Embleminformationen angezeigt, welche durch Codeinformationen signifiziert werden, die durch die Konvertierung der Emblembildinformationen erhalten werden.
Wenn eine Vielzahl von Stücken von Emblembildinformationen von Minimalzusammensetzungseinheiten einer gleichen Art in einer entsprechenden Beziehung zu Embleminformationen angezeigt werden, welche durch Codeinformationen signifiziert werden, die durch die Konvertierung der Emblembildinformationen erhalten werden, wird nur ein gewünschtes der Stücke von Emblembildinformationen hervorgehoben angezeigt.
Oder es wird ein gewünschtes Stück von Emblembildinformationen in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit zusammen mit Emblembildinformationen angezeigt, die mit dem Stück von Emblembildinformationen assoziiert sind, und das eine Stück von Emblembildinformationen wird hervorgehoben angezeigt.
Wenn richtige Antwortdaten, die dem einen Stück von Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, werden ferner die richtigen Antwortdaten in dem Anzeigebereich für richtige Antwortdaten angezeigt, der von dem Bereich verschieden ist, in dem das eine Stück von Emblembildinformationen und Emblembildinformationen, die mit dem einen Stück von Emblembildinformationen assoziiert sind, angezeigt werden.
Oder es wird, wenn richtige Antwortdaten, die dem einen Stück von Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, das eine Stück von Emblembildinformationen, das hervorgehoben angezeigt wurde, in einer anderen Weise der Hervorhebung angezeigt, die signifiziert, dass das eine Stück von Emblembildinformationen modifiziert wurde.
Oder es werden auch, wenn richtige Antwortdaten, die dem einen Stück von Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, die richtigen Antwortdaten in dem Anzeigebereich für richtige Antwortdaten angezeigt, der von dem Bereich verschieden ist, in dem das eine Stück von Emblembildinformationen und Emblembildinformationen, die mit dem einen Stück von Emblembildinformationen assoziiert sind, angezeigt werden, und das eine Stück von Emblembildinformationen, das hervorgehoben angezeigt wurde, wird in einer anderen Weise der Hervorhebung angezeigt, die signifiziert, dass das eine Stück von Emblembildinformationen modifiziert wurde.
Da Embleme in einer Einheit angezeigt werden, die es ihnen ermöglicht, visuell leicht so beobachtet zu werden, dass nur gleiche Embleme in einem gleichen Bereich der Anzeigeeinheit angezeigt werden, und nur ein gewünschtes der Stücke von Emblembildinformationen hervorgehoben angezeigt wird, kann demgemäß, mit einer solchen Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung, ein Bediener bestätigen, ob ein Erkennungsergebnis richtig oder falsch ist, nur durch eine Bezugnahme auf Bildinformationen, ohne Bezugnahme auf assoziierte Bildinformationen, wodurch die Augenbewegungen des Bedieners verringert werden. Ferner werden nur Emblembildinformationen, die verarbeitet werden, hervorgehoben angezeigt, um die Anzahl von Vergleichsobjekten zu senken. Dementsprechend ist die Datenmedium-Handhabungsvorrichtung dadurch vorteilhaft, dass die für eine Bestätigungsoperation zwischen richtig und falsch erforderliche Arbeit und Zeit deutlich reduziert werden können.
Da ein gewünschtes Stück von Emblembildinformationen in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit zusammen mit Emblembildinformationen angezeigt wird, die mit dem Stück von Emblembildinformationen assoziiert sind, und das eine Stück von Emblembildinformationen hervorgehoben angezeigt wird, ist die Datenmedium-Handhabungsvorrichtung ferner dadurch vorteilhaft, dass, auch wenn die Emblembildinformationen nicht erkennbar sind, da es sich beispielsweise um ein stark verformtes Zeichen handelt, eine Bestätigungsoperation mit einem hohen Genauigkeitsgrad durch Bezugnahme auf Bildinformationen vorhergehender und nachfolgender Zeichen in einer Zeichensequenz oder dgl. vorgenommen werden kann, und die für eine Bestätigungsoperation zwischen richtig und falsch erforderliche Arbeit und Zeit reduziert werden können.
Wenn richtige Antwortdaten, die dem einen Stück von Emblembildinformationen entsprechen, durch eine Bedienung der Dateneingabevorrichtung eingegeben werden, werden ferner die richtigen Antwortdaten in dem Anzeigebereich für richtige Antwortdaten angezeigt, der von dem Anzeigebereich verschieden ist, in dem das eine Stück von Emblembildinformationen und Emblembildinformationen, die mit dem einen Stück von Emblembildinformationen assoziiert sind, angezeigt werden, und das eine Stück von Emblembildinformationen, das hervorgehoben angezeigt wurde, wird in einer anderen weise der Hervorhebung angezeigt, die signifiziert, dass das eine Stück von Emblembildinformationen modifiziert wurde. Dementsprechend können die Emblembildinformationen und die eingegebenen richtigen Antwortdaten durch visuelle Beobachtung rückbestätigt werden. Dementsprechend ist die Datenmedium-Handhabungsvorrichtung dadurch vorteilhaft, dass eine Bestätigungsoperation mit einem hohen Genauigkeitsgrad vorgenommen werden kann, und eine Identifikation, ob eine Eingabe für ein nicht erkennbares Emblem oder eine Modifikation an einem fehlerhaft erkannten Emblem vorgenommen wurde oder nicht, leicht durchgeführt werden kann, was zu einer Verbesserung der visuellen Wahrnehmbarkeit führt, um doppelte Modifikation des Bedieners, usw., zu verhindern, und außerdem die für eine Bestätigungsoperation zwischen richtig und falsch erforderliche Arbeit und Zeit reduziert werden können.
Eine Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung kann ferner so sein, dass sie umfasst: eine Bilddaten-Eingabevorrichtung zum Eingeben von Bilddaten eines Datenmediums, die Informationen einer Vielzahl von Elementen einschließen, eine Anzeigeeinheit mit einem Bilddaten-Anzeigebereich und einem Element-Anzeigebereich, der eine Vielzahl von Elementdateneingabe-Anzeigebereichsabschnitten aufweist, eine Anzeigesteuervorrichtung, um zu bewirken, dass die von der Bilddaten-Eingabevorrichtung erhaltenen Bilddaten in dem Bilddaten-Anzeigebereich angezeigt werden, und um zu bewirken, wenn einem Bilddatenabschnitt eines gewünschten der Elemente entsprechende Daten von einer Dateneingabeeinrichtung einzugeben sind, dass eine Schreib markenanzeige an einem gewünschten der Elementdateneingabe-Anzeigebereichsabschnitte in dem Element-Anzeigebereich angezeigt wird, und eine Bilddaten-Teilhervorhebungs-Anzeigeeinrichtung, um zu bewirken, wenn die Schreibmarkenanzeige an dem gewünschten einen der Elementdateneingabe-Anzeigebereichsabschnitte in dem Element-Anzeigebereich durch die Anzeigesteuervorrichtung in einem Zustand angezeigt wird, in dem die die Informationen der Vielzahl von Elementen einschließenden Bilddaten in dem Bilddaten-Anzeigebereich der Anzeigeeinheit angezeigt werden, dass nur der entsprechende Bilddatenabschnitt des gewünschten Elements hervorgehoben angezeigt wird.
Hier kann die Anzeigesteuervorrichtung, zusätzlich zu der Bilddatenteil-Hervorhebungsanzeigeeinrichtung, umfassen eine Bilddaten-Hervorhebungsanzeige-Aufhebungseinrichtung zum Aufheben, wenn die Schreibmarkenanzeige zu einem anderen der Elementdateneingabe-Anzeigebereichsabschnitte, der von dem gewünschten Elementdateneingabe-Anzeigebereichsabschnitt verschieden ist, durch eine Schreibmarken-Bewegungsoperationseinrichtung bewegt wird, der Hervorhebungsanzeige des dem Element entsprechenden Bilddatenabschnitts, und eine Hervorhebungsanzeige-Übergangssteuereinrichtung zum Steuern der Bilddatenteil-Hervorhebungsanzeigeeinrichtung, so dass nur der Bilddatenabschnitt des anderen Elements, das dem anderen Elementdateneingabe-Anzeigebereichsabschnitt entspricht, ansprechend auf die Bilddaten-Hervorhebungsanzeige-Aufhebungseinrichtung hervorgehoben angezeigt werden kann.
Oder die Anzeigesteuervorrichtung kann, zusätzlich zu der Bilddatenteil-Hervorhebungsanzeigeeinrichtung, der Bilddaten-Hervorhebungsanzeige-Aufhebungseinrichtung und Hervorhebungsanzeige-Übergangssteuereinrichtung, umfassen: eine Anzeigebildschirm-Rolleinrichtung, um zu bewirken, dass ein Abschnitt der Bilddaten, der nicht auf der Anzeigeeinheit angezeigt wird, auf der Anzeigeeinheit angezeigt wird. Ferner kann die Bilddatenteil-Hervorhebungsanzeigeeinrichtung eine Änderungseinrichtung einschließen, die den hervorgehoben angezeigten Abschnitt ansprechend auf eine Instruktion von der Außenseite ändern kann.
Wenn Bilddaten eines Datenmediums, das Informationen einer Vielzahl von Elementen einschließt, auf der Anzeigeeinheit angezeigt werden, wird, in der Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung mit der oben beschriebenen Konstruktion, nur ein Abschnitt der Bilddaten, der einem bestimmten der Elemente entspricht, hervorgehoben angezeigt.
Wenn Daten, die einem Bilddatenabschnitt eines gewünschten der Elemente entsprechen, in einem Zustand einzugeben sind, in dem Bilddaten eines Datenmediums, die Informationen einer Vielzahl von Elementen einschließen, in dem Bilddaten-Anzeigebereich auf der Anzeigeeinheit angezeigt werden, dann wird, wenn die Schreibmarkenanzeige an einem gewünschten der Elementdateneingabe-Anzeigebereichsabschnitte des Elementanzeigebereichs angezeigt wird, der getrennt von dem Bilddaten-Anzeigebereich auf der Anzeigeeinheit eingestellt ist, nur der Bilddatenabschnitt des entsprechenden gewünschten Elements hervorgehoben angezeigt, und, wenn Daten, die einem Bilddatenabschnitt eines anderen der Elemente entsprechen, danach einzugeben sind, dann wird, wenn die Schreibmarkenanzeige von dem gewünschten Elementdateneingabe-Anzeigebereichsabschnitt zu einem anderen der Elementdateneingabe-Anzeigebereichsabschnitte bewegt wird, die Hervorhebungsanzeige des entsprechenden Bilddatenabschnitts des gewünschten Elements aufgehoben, und der entsprechende Bilddatenabschnitt des anderen Elements wird hervorgehoben angezeigt.
Oder, wenn Daten, die einem Bilddatenabschnitt eines gewünschten der auf der Anzeigeeinheit angezeigten Elemente entsprechen, in einem Zustand einzugeben sind, in dem ein Teil der Bilddaten eines Datenmediums, die Informationen einer Vielzahl von Elementen einschließen, in dem Bilddaten-Anzeigebereich auf der Anzeigeeinheit angezeigt wird, dann wird, wenn die Schreibmarkenanzeige an einem gewünschten der Elementdateneingabe-Anzeigebereichsabschnitte des Elementanzeigebereichs angezeigt wird, der getrennt von dem Bilddaten-Anzeigebereich auf der Anzeigeeinheit eingestellt wird, nur der Bilddatenabschnitt des entsprechenden gewünschten Elements hervorgehoben angezeigt, und, wenn Daten, die einem Bilddatenabschnitt eines anderen der Elemente entsprechen, das nicht auf der Anzeigeeinheit angezeigt wird, danach einzugeben sind, dann wird, wenn die Schreibmarkenanzeige von dem gewünschten Elementdateneingabe-Anzeigebereichsabschnitt zu einem anderen der Elementdateneingabe-Anzeigebereichsabschnitte bewegt wird, die Hervorhebungsanzeige des entsprechenden Bilddatenabschnitts des gewünschten Elements aufgehoben, während ein Rollen vorgenommen wird, so dass der Bilddatenabschnitt des anderen Elements in dem Bilddaten-Anzeigebereich der Anzeigeeinheit angezeigt werden kann, um den Bilddatenabschnitt des anderen Elements in dem Bilddaten-Anzeigebereich der Anzeigeeinheit anzuzeigen, und der entsprechende Bilddatenabschnitt des anderen Elements wird hervorgehoben angezeigt.
Wenn die Schreibmarkenanzeige an einem der Elementdateneingabe-Anzeigebereichsabschnitte angezeigt wird, in den Daten einzugeben sind, dann wird demgemäß, mit einer solchen Datenmedium-Handhabungsvorrichtung der vorliegenden Erfindung, der Bilddatenabschnitt eines Elements, auf das Bezug zu nehmen ist, gleichzeitig hervorgehoben angezeigt. Auch wenn ein Bediener zuerst seine Augen von der Anzeigeeinheit wegbewegt, und dann die Anzeigeeinheit erneut be trachtet, wird dementsprechend verhindert, das der Bediener ein falsches Element beobachtet. Dementsprechend ist die Datenmedium-Handhabungsvorrichtung dadurch vorteilhaft, dass eine fehlerhafte Erkennung beim Abgleich verhindert wird, wenn auf Bilddaten Bezug genommen wird, um dadurch die visuelle Beobachtbarkeit zu erhöhen, und die für eine Eingabeoperation erforderliche Arbeit und Zeit kann verhindert werden, wobei eine fehlerhafte Eingabe verhindert wird.
Wenn Bilddaten eines Elements, auf das Bezug zu nehmen ist, nicht auf der Anzeigeeinheit angezeigt werden, kann ferner ein automatischer Bildlauf ansprechend auf die Bewegung des Hervorhebungsanzeigeabschnitts vorgenommen werden. Dementsprechend ist die Datenmedium-Handhabungsvorrichtung dadurch vorteilhaft, dass unnötige Operationen wie beispielsweise ein Tastendruck reduziert werden können.
Ferner ist es auch für den Bediener möglich, die Art oder die Region des Hervorhebungsanzeigeabschnitts zu ändern. Dementsprechend ist die Datenmedium-Handhabungsvorrichtung dadurch vorteilhaft, dass sie in Übereinstimmung mit einer Applikation verwendet werden kann.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Funktionsblockbild, das eine allgemeine Konstruktion einer Datenmedium-Handhabungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
2 bis 4 sind Ansichten, die eine Verarbeitung der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
5 ist ein Funktionsblockbild, das eine allgemeine Konstruktion einer Layout-Analyseverarbeitungssektion der Datenmedium-Handhabungsvorrichtung der Ausführungsform der vorliegenden Erfindung zeigt;
6 ist eine Ansicht, die eine Dokumentenverarbei tung der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
7 ist eine schematische perspektivische Ansicht, die einen Bildleser der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung zeigt;
8 und 9 sind Funktionsblockbilder, wobei eine Drehkorrekturverarbeitung von Bilddaten durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung beschrieben wird;
10 und 11 sind Ansichten, die Beispiele eines von der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung handzuhabenden Dokuments zeigen;
12 und 13 sind Flussdiagramme, welche die Bilddaten-Drehkorrekturverarbeitung der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
14 ist eine Diagrammansicht einer Verarbeitung, die eine Anwendung der Ursprungsextraktion und Kollationsverarbeitung der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
15(a) und 15(b), 16 und 17 sind Ansichten, die Beispiele eines von der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung handzuhabenden Dokuments zeigen;
18 ist ein Flussdiagramm, das eine Verarbeitung zur Extraktion eines logischen Ursprungs durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
19 ist eine Ansicht, die eine Koinzidenzdiskriminierung der Korrekturkoordinaten für einen logischen Ursprung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
20(a) und 20(b) sind Ansichten, die Beispiele eines von der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung zu verarbeitenden Dokuments zeigen;
21 ist ein Flussdiagramm, das eine Verarbeitung zur Kollation eines logischen Ursprungs durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
22 ist eine Diagrammansicht einer Verarbeitung, wobei eine Matrixkollationsverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung beschrieben wird;
23 ist eine Ansicht, die eine Matrixtabellen-Erzeugungsverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
24(a) und 24(b) sind Ansichten, die eine Normalisierungsverarbeitung für Koordinaten von Bilddaten bei der Matrixtabellen-Erzeugungsverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
25 bis 27 sind Ansichten, die eine Bittabellen-Erzeugungsverarbeitung bei der Matrixtabellen-Erzeugungsverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
28 ist eine Ansicht, die eine von der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung erzeugte Matrixtabelle veranschaulicht;
29 und 30 sind Flussdiagramme, die eine Matrixtabellen-Kollationsverarbeitung durch die Datenmedium-Handha bungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
31(a) und 31(b) sind Ansichten, die Matrixinformationen bei der Matrixtabellen-Kollationsverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
32 ist eine Diagrammansicht einer Verarbeitung, wobei eine Charakteristikadaten-Erkennungsverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung beschrieben wird;
33 und 34 sind Ansichten, welche die Charakteristikadaten-Erkennungsverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
35 und 36 sind Ansichten, die ein von der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung handgehabtes allgemeines Austauschtransferdokument veranschaulichen;
37 ist eine Diagrammansicht einer Verarbeitung, wobei eine Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung beschrieben wird;
38 ist eine Ansicht, welche Strukturinformationen für gezogene Linienelemente veranschaulicht, die in der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung verwendet werden;
39 ist eine Ansicht, welche ein gezogenes Linienattribut der Strukturinformationen für gezogene Linienelemente veranschaulicht, die in der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung verwendet werden;
40 und 41(a) bis 41(d) sind Ansichten, die eine Strukturinformationstabelle für gezogene Linienelemente veranschaulichen, die in der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung verwendet wird;
42, 43(a) und 43(b) sind Ansichten, welche Überschriftpositions-Suchregeln veranschaulichen, die in der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung zu verwenden sind;
44 ist ein Flussdiagramm, das die Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
45 ist eine Ansicht, die ein Beispiel eines Ergebnisses der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
46(a) bis 46(c), 47(a) bis 47(c) und 48(a) bis 48(c) sind Ansichten, die Beispiele einer Überschrift bei der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
49 ist eine Ansicht, die ein Beispiel einer Normalisierungsverarbeitung bei der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
50 ist eine Ansicht, die ein Elementüberschriftwörterbuch veranschaulicht, das in der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung zu verwenden ist;
51(a) und 51(b) sind Ansichten, die ein Beispiel eines Kollationsergebnisses von Überschriftelementdaten bei der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
52(a) bis 52(c) sind Ansichten, die eine Korrektur eines Kollationsergebnisses auf der Basis von Überschriftkorrekturregeln bei der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
53 ist ein Flussdiagramm, das die Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
54(a) bis 54(h) und 55(a) bis 55(f) sind Ansichten, welche Verbindungsregeln zwischen gezogenen Linienelementen von Überschriftteilen und gezogenen Linienelementen von Datenteilen veranschaulichen, die bei der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung zu verwenden sind;
56 ist eine Ansicht, welche eine Analyse eines Bestimmungsergebnisses einer Elementdatenposition, die einem Überschriftelement entspricht, bei der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
57 und 58 sind Ansichten, die verknüpfte Beziehungen verschiedener Informationen bei der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
59(a) und 59(b) sind Ansichten, die mit einem Funktionselement zu verknüpfende Elementdaten bei der Über schrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
60(a) bis 60(f) sind Ansichten, die eine Geldbetragselement-Verknüpfungsverarbeitung bei der Überschrift-Analyseverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
61 ist eine schematische Ansicht, die eine Konstruktion einer Bilddaten-Anzeigevorrichtung gemäß der Ausführungsform der vorliegenden Erfindung zeigt;
62 und 63 sind Funktionsblockbilder der Bilddaten-Anzeigevorrichtung gemäß der Ausführungsform der vorliegenden Erfindung;
64 bis 66 sind Flussdiagramme, die einen Betrieb der Bilddaten-Anzeigevorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
67 ist eine Ansicht, die ein Beispiel einer Anzeige einer Anzeigeeinheit der Bilddaten-Anzeigevorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht;
68 ist eine Ansicht, die von der Bilddaten-Anzeigevorrichtung gemäß der Ausführungsform der vorliegenden Erfindung erzeugte Beziehungsinformationen veranschaulicht;
69 ist eine Ansicht, die von der Bilddaten-Anzeigevorrichtung gemäß der Ausführungsform der vorliegenden Erfindung erzeugte Hervorhebungsinformationen veranschaulicht;
70 bis 78 sind Ansichten, die Beispiele einer Anzeige der Anzeigeeinheit der Bilddaten-Anzeigevorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
79 ist eine Ansicht, die von der Bilddaten-Anzeigevorrichtung gemäß der Ausführungsform der vorliegenden Er findung erzeugte Hervorhebungsinformationen veranschaulicht;
80 bis 85 sind Ansichten, die Beispiele einer Anzeige der Anzeigeeinheit der Bilddaten-Anzeigevorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
86 ist eine schematische Ansicht, die eine Konstruktion einer Modifikationsvorrichtung für Leseemblemanzeige-Erkennungsinformationen gemäß der Ausführungsform der vorliegenden Erfindung zeigt;
87 bis 89 sind Funktionsblockbilder der Modifikationsvorrichtung für Leseemblemanzeige-Erkennungsinformationen gemäß der Ausführungsform der vorliegenden Erfindung;
90 bis 97 sind Flussdiagramme, die einen Betrieb der Modifikationsvorrichtung für Leseemblemanzeige-Erkennungsinformationen gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
98 ist eine Ansicht, die ein gesamtes Flächenbild veranschaulicht, das von der Modifikationsvorrichtung für Leseemblemanzeige-Erkennungsinformationen gemäß der Ausführungsform der vorliegenden Erfindung erzeugt wird;
99 ist eine Ansicht, die von der Modifikationsvorrichtung für Leseemblemanzeige-Erkennungsinformationen gemäß der Ausführungsform der vorliegenden Erfindung erzeugte Erkennungszeicheninformationen veranschaulicht;
100 ist eine Ansicht, die von der Modifikationsvorrichtung für Leseemblemanzeige-Erkennungsinformationen gemäß der Ausführungsform der vorliegenden Erfindung erzeugte Beziehungsinformationen veranschaulicht;
101 bis 104 sind Ansichten, die Beispiele einer Anzeige der Modifikationsvorrichtung für Leseemblemanzeige-Erkennungsinformationen gemäß der Ausführungsform der vorliegenden Erfindung veranschaulichen;
105 ist ein Blockbild, das eine Dokumentenidenti fikationsvorrichtung gemäß einer ersten Modifikation der Ausführungsform der vorliegenden Erfindung zeigt;
106 ist ein Steuerblockbild, wobei ein Betrieb der Dokumentenidentifikationsvorrichtung gemäß der ersten Modifikation der Ausführungsform der vorliegenden Erfindung bei der Registrierungsschrittoperation beschrieben wird;
107 ist ein Flussdiagramm, das den Betrieb der Dokumentenidentifikationsvorrichtung gemäß der ersten Modifikation der Ausführungsform der vorliegenden Erfindung bei der Registrierungsschrittoperation veranschaulicht;
108 ist eine Ansicht, die einen Betrieb der Dokumentenidentifikationsvorrichtung gemäß der ersten Modifikation der Ausführungsform der vorliegenden Erfindung bei der Registrierungsschrittoperation veranschaulicht;
109 ist ein Steuerblockbild, wobei ein Betrieb der Dokumentenidentifikationsvorrichtung gemäß der ersten Modifikation der Ausführungsform der vorliegenden Erfindung bei der Verifikationsschrittoperation beschrieben wird;
110 ist ein Flussdiagramm, das einen Betrieb der Dokumentenidentifikationsvorrichtung gemäß der ersten Modifikation der Ausführungsform der vorliegenden Erfindung bei der Registrierungsschrittoperation veranschaulicht;
111 ist ein Steuerblockbild, wobei ein Betrieb der Dokumentenidentifikationsvorrichtung gemäß der ersten Modifikation der Ausführungsform der vorliegenden Erfindung bei einer Applikationsschrittoperation beschrieben wird;
112 ist ein Flussdiagramm, das einen Betrieb der Dokumentenidentifikationsvorrichtung gemäß der ersten Modifikation der Ausführungsform der vorliegenden Erfindung bei der Applikationsschrittoperation beschrieben wird;
113 ist ein Steuerblockbild einer Dokumentenidentifikationsvorrichtung gemäß einer zweiten Modifikation der Ausführungsform der vorliegenden Erfindung;
114 ist ein Flussdiagramm, das einen Betrieb der Dokumentenidentifikationsvorrichtung gemäß einer zweiten Modifikation der Ausführungsform der vorliegenden Erfindung veranschaulicht;
115 ist eine schematische Ansicht, die eine Konstruktion einer Dokumentenidentifikationsvorrichtung zeigt;
116 ist eine Ansicht, die einen Betrieb der Dokumentenidentifikationsvorrichtung veranschaulicht;
117 ist eine Ansicht, die eine Modifikation des Betriebs der Dokumentenidentifikationsvorrichtung veranschaulicht;
118(a) und 118(b) sind Ansichten, die ein Extraktionsverfahren eines Referenzpunkts von Bilddaten veranschaulichen; und
119 ist eine Ansicht, die eine Drehkorrekturverarbeitung von Bilddaten veranschaulicht.
BESTE AUSFÜHRUNGSWEISEN DER ERFINDUNG
(a) Beschreibung einer Ausführungsform der Erfindung
(a1) Beschreibung einer Datenmedium-Handhabungsvorrichtung
1 ist ein Funktionsblockbild, das eine allgemeine Konstruktion einer Datenmedium-Handhabungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
Hier bewirkt die in 1 gezeigte Datenmedium-Handhabungsvorrichtung 30 eine Erkennung von Informationen auf der Basis von Bilddaten (Bildern), die aus Dokumentenmedien (Dokumenten) mit verschiedensten Formaten, wie privaten Belegen oder dgl., gelesen werden.
Die Datenmedium-Handhabungsvorrichtung 30 besteht, wie in 6 gezeigt, insbesondere aus einem Client (CL) 35, der beispielsweise in jeder Zweigstelle (Geschäftsbüro) einer Finanzinstitution installiert ist, und einem Server (SV) 39, der in einer Bezirkszentrale installiert und mit dem Client 35 über eine Amtsleitung 36 oder dgl. verbunden ist, und die Dokumentenhandhabung der einzelnen Geschäftsbüros wird kollektiv vom Server 39 der Bezirkszentrale vorgenommen.
Insbesondere kann die Datenmedium-Handhabungsvorrichtung 30 eine Erkennungsverarbeitung nicht nur von Dokumenten, die zur exklusiven Verwendung für die Dokumentenhandhabungsvorrichtung erzeugt wurden, sondern auch von Dokumenten, auf denen Informationen in willkürlichen Formaten eingetragen sind, vornehmen, indem ein Layout von Bilddaten eines Dokuments analysiert wird, um das Format des Objektdokuments zu erkennen, zur Verarbeitung und zum Bewirken einer Zeichenerkennung des Dokuments auf der Basis eines Ergebnisses der Erkennung des Formats des Dokuments.
Die Datenmedium-Handhabungsvorrichtung 30 enthält funktionell, wie in 1 gezeigt, einen Layout-Erkennungsverarbeitungsblock 16, einen Zeichenerkennungs-Verarbeitungsblock 17 und einen Bediener-Bestätigungs/Korrekturverarbeitungsblock 18.
Der Layout-Erkennungsverarbeitungsblock 16 bewirkt eine Layout-Erkennungsverarbeitung von Bilddaten 19, die von einer Bilddaten-Lesevorrichtung gelesen werden, und schließt ein: eine Analysevorverarbeitungssektion 1, eine Layout-Analyseverarbeitungssektion 2, eine Layout-Kollationsverarbeitungssektion 3 und eine Layout-Editierverarbeitungssektion 4.
Die Analysevorverarbeitungssektion 1 erzeugt ein Bild mit niedriger Dichte für eine Analyseverarbeitung nach der Formatkonvertierung der Bilddaten 19 eines Erkennungsobjekts, damit Variationsfaktoren eines Layouts reduziert werden, um die Analysegenauigkeit zu erhöhen, und entfernt Staub, usw., auf den Bilddaten, der zu Faktoren einer Verschlechterung der Genauigkeit bei der Analyseverarbeitung gehört.
Die Layout-Analyseverarbeitungssektion 2 nimmt auf ein Analysewörterbuch 13 Bezug, um gezogene Linienelemente und Elementdaten, die Charakteristika eines Layouts sind, aus gelesenen Bilddaten zu extrahieren, analysiert die Struktur des Layouts und stellt das Layout auf der Basis der so extrahierten gezogenen Linienelemente und Elementdaten logisch dar.
Kurz gefasst, die Layout-Analyseverarbeitungssektion 2 funktioniert als Einrichtung zum Extrahieren von Charakteristika, die einem Dokumentenmedium eigen sind, aus gelesenen Bilddaten und zum Spezifizieren, auf der Basis der Charakteristika, einer Position, an der zu erkennende Informationen vorliegen.
Mehr im Einzelnen analysiert die Layout-Analyseverarbeitungssektion 2 das Layout eines Erkennungsobjektbilds, um verschiedenste Komponenten (gezogene Linienelemente und Elementdaten) zu extrahieren, die das Layout konstruieren, als Layout-Charakteristika, und erzeugt Schlüsselinformationen für das Layout, die grobe einschränkende Bedingungen für das Layout sind, aus den so extrahierten Layout-Charakteristika, um registrierte Layoutinformationen bei der Layout-Kollationsverarbeitung durch die Layout-Kollationsverarbeitungssektion 3 in der folgenden Stufe abzufragen.
Die Layout-Analyseverarbeitungssektion 2 schließt zumindest ein, wie in 5 gezeigt: eine Layout-Charakteristikaextraktionssektion 2A zum Extrahieren von Charakteristika des Layouts eines Bilds, und eine Layout-Analysesektion 2B zum Analysieren der Struktur des Layouts auf der Basis der von der Layout-Charakteristikaextraktionssektion 2A extrahierten Charakteristika des Layouts.
Die Layout-Charakteristikaextraktionssektion 2A schließt eine Extraktionssektion 2C für gezogene Linien und eine Element-Datenextraktionssektion 2D ein, und die Layout-Analysesektion 2B schließt eine Tabellen-Strukturanalysesektion 2E ein.
Wenn das Layout eine aus gezogenen Linien gebildete Tabellenstruktur aufweist, wird ein gezogenes Linienelement, das ein aus den gezogenen Linien des Layouts gebildetes minimales Rechteck ist, von der Extraktionssektion 2C für gezogene Linien extrahiert, und die aus den gezogenen Linienelementen gebildete Tabellenstruktur wird von der Tabellen-Strukturanalysesektion 2E auf der Basis des extrahierten gezogenen Linienelements analysiert.
Wenn das Layout hingegen eine Tabellenstruktur ohne gezogene Linien hat, die keine gezogene Linie aufweist, werden Elementdaten des Layouts von der Element-Datenextraktionssektion 2D extrahiert, und die Tabellenstruktur ohne gezogene Linien wird von der Tabellen-Strukturanalysesektion 2E auf der Basis der so extrahierten Elementdaten des Layouts analysiert.
Ferner extrahiert die Layout-Analyseverarbeitungssektion 2 einen logischen Ursprung (Logikursprung) des Layouts, nachdem ein gezogenes Linienelement und Elementdaten extrahiert werden.
Insbesondere bewirkt die Layout-Analyseverarbeitungssektion 2 (2-1) eine Erzeugung eines Kennzeichenbilds durch eine Kennzeichnungsverarbeitung, (2-2) eine Extraktion des logischen Ursprungs und Schräglagegradinformationen eines Dokumentenbilds zur Layout-Kollation, (2-3) eine Extraktion eines gezogenen Linienelements, und eine Analyse einer aus dem gezogenen Linienelement gebildeten Tabellenstruktur (hier im Vorstehenden beschrieben), (2-4) eine Extraktion von Elementdaten, und eine Analyse einer Elementtabellenstruktur, in der keine gezogene Linie vorliegt (hier im Vorstehenden beschrieben), und (2-5) eine Bestimmung einer Überschriftregion, und eine Erkennung eines Überschriftelements sowie eine Bestimmung entsprechender Elementdaten (Überschriftanalyseverarbeitung).
Es ist zu beachten, dass die Erzeugungsverarbeitung eines Kennzeichenbilds durch eine Kennzeichnungsverarbeitung in (2-1) eine Verarbeitung zur Berechnung von Verbindungskomponenten (Komponenten eines binären Bilds, die miteinander verbunden sind) aus eingegebenen Bilddaten (binäre Bilddaten) ist, um ein Kennzeichenbild mit Kennzeichen zu erzeugen, die an die einzelnen Verbindungskomponenten angelegt werden. Diese Kennzeichnungsverarbeitung ist beispielsweise bekannt aus "Connection Region Extraction Apparatus and Method" (Japanische offengelegte Patentanmeldung Nr. Heisei 08-55219).
Die Extraktionsverarbeitung eines gezogenen Linienelements in (2-3) ist dabei eine Verarbeitung zur Extraktion eines gezogenen Linienteils aus Daten eines Zeichens, einer grafischen Form oder dgl., die von gezogenen Linien umgeben ist, und zur Trennung des gezogenen Linienteils und des Datenteils voneinander. Die Extraktionsverarbeitung eines gezogenen Linienelements ist beispielsweise bekannt aus "Image Extraction System" (Japanische offengelegte Patentanmeldung Nr. Heisei 06-309498).
Ferner bestimmt die Überschriftanalyseverarbeitung in (2-5) eine Überschriftregion (Überschriftelement) in einem Bild, erkennt Überschriftelementinformationen in der Überschriftregion und bestimmt entsprechende Elementdaten.
Insbesondere identifiziert, in der vorliegenden Ausführungsform, die Layout-Analyseverarbeitungssektion 2 ein Überschriftelement und Elementdaten, die dem Überschriftelement entsprechen, so dass die Zeichenerkennung der Elementdaten unmittelbar vorgenommen werden kann, ohne die Zeichenerkennungsverarbeitung des Überschriftelements durch den Zeichenerkennungs-Verarbeitungsblock 17 vorzunehmen.
Die oben beschriebene Verarbeitung (2-2) wird in (a2) Beschreibung der Ursprungsextraktion und Kollationsverarbeitung detailliert beschrieben, und die Verarbeitung (2-5) wird in (a6) Beschreibung der Überschriftanalyseverarbeitung detailliert beschrieben.
Darüber hinaus funktioniert die Layout-Analyseverarbeitungssektion 2 als Bilderkennungseinrichtung zum Abfragen, unter Verwendung von Zeichen eines Layouts (gezogene Linienelemente und Elementdaten), die von der Layout-Analyseverarbeitungssektion 2 extrahiert werden, als einschränkende Abfragebedingungen, von Kandidaten-Layouts aus einer Layout-Datenbank (Layout-DB) 14, und sie kollationiert diese, ob ein Koinzidenz-Kandidaten-Layout vorhanden ist oder nicht, um ein Bild an einer von der Layout-Analyseverarbeitungssektion 2 spezifizierten Position zu erkennen, um Informationen an der spezifizierten Position zu diskriminieren.
Die Layout-DB 14 ist eine Kandidaten-Layout-Speichersektion, in der Kandidaten-Layoutinformationen gespeichert werden, und speichert, in der vorliegenden Ausführungsform, komprimierte Kandidaten-Layoutinformationen als Kandidaten-Layoutinformationen. Es ist zu beachten, dass die Kompressionsverarbeitung von Layoutinformationen in diesem Fall hier im Nachstehenden detailliert beschrieben wird.
Die Layout-DB 14 hat ferner Layout-Krrekturinformationen zur Korrektur eines darin gespeicherten Ergebnisses einer Layout-Analyse durch die Layout-Analyseverarbeitungssektion 2, und, in der vorliegenden Ausführungsform, wird ein Ergebnis einer Layout-Analyse unter Verwendung der Layout-Korrekturinformationen von der Layout-Editierverarbeitungssektion 4 korrigiert, die hier im Nachstehenden beschrieben wird, so dass die folgende Verarbeitung mit einem hohen Genauigkeitsgrad vorgenommen werden kann.
Ferner werden Inhalte der Layout-DB 14 durch Lernen der Kandidaten-Layoutinformationen auf der Basis eines Ergebnisses der Verarbeitung durch den Layout-Erkennungsverarbeitungsblock 16 oder den Bediener-Bestätigungs/Korrekturverarbeitungsblock 18 aktualisiert, um dadurch die Notwendigkeit einer Registrierungsoperation der Kandidaten-Layoutinformationen durch einen Bediener oder dgl. in der Layout-DB 14 zu eliminieren, um eine Vereinfachung des Betriebs zu erzielen.
Die Layout-Kollationsverarbeitungssektion 3 bewirkt eine Kollation mit Bezugnahme auf einen logischen Ursprung, der von der Layout-Analyseverarbeitungssektion 2 extrahiert wird, um zu detektieren, ob ein Koinzidenz-Kandidaten-Layout vorhanden ist oder nicht.
Insbesondere fragt die Layout-Kollationsverarbeitungssektion 3 in der Layout-DB 14 gespeicherte Layoutinformationen unter Verwendung von Layoutschlüsselinformationen ab und kollationiert diese, die von der Layout-Analyseverarbeitungssektion 2 erzeugt werden, um Koinzidenz-Layoutinformationen zu erfassen.
Wenn die oben beschriebene Layout-Kollationsverarbeitungssektion 3 die Abfrage und Kollation eines Layouts bewirkt, fragt sie ferner zuerst die Layout-DB 14 unter Verwendung von Layoutschlüsselinformationen ab, die eine grobe einschränkende Bedingung sind, und nimmt dann eine detaillierte Kollation für eine Vielzahl von Kandidaten-Layouts vor, die als Ergebnis der Abfrage erhalten werden, um ein koinzidentes Layout zu bestimmen.
Mehr im Einzelnen nimmt die Layout-Kollationsverarbeitungssektion 3, bei der detaillierten Kollationsverarbeitung mit Kandidaten-Layouts, in einer aufsteigenden Reihenfolge hinsichtlich des Detailgrads einschränkender Bedingungen, vor: (3-1) eine Kollation einer Bitmatrix mit gezogenen Linienelementen, (3-2) eine detaillierte Kollation einer gezo genen Linienelementposition und eines gezogenen Linienelementattributs, (3-3) eine Kollation einer Elementdatenposition, (3-4) eine Kollation einer Überschriftposition und von Inhalten der Überschrift, und (3-5) eine Kollation von Charakteristikadaten eines Regionenbilds (einzigartiges Bild).
Die Kollationsverarbeitung (3-1) einer Bitmatrix mit gezogenen Linienelementen ist hier eine Kollation, ob ein koinzidentes Kandidaten-Layout vorhanden ist oder nicht, durch von der Layout-Analyseverarbeitungssektion 2 extrahierte Kompressionsverarbeitungscharakteristika eines Layouts, und Abfragen der komprimierten Kandidaten-Layouts aus der Layout-DB 14 unter Verwendung der komprimierten Charakteristika des Layouts als einschränkende Abfragebedingungen.
Insbesondere hat, in der vorliegenden Ausführungsform, die Layout-DB 14 darin gespeicherte komprimierte Kandidaten-Layoutinformationen, und die Layout-Kollationsverarbeitungssektion 3 erzeugt kompressionsverarbeitete Layoutinformationen, und kollationiert die komprimierten Layoutinformationen miteinander, um eine Layout-Kollationsverarbeitung mit hoher Geschwindigkeit zu erzielen.
Es ist zu beachten, dass die Verarbeitung (3-1) in (a4) Beschreibung der Matrixkollationsverarbeitung detailliert beschrieben wird, die Verarbeitung (3-2) bis (3-4) in (a6) Beschreibung der Überschriftanalyseverarbeitung detailliert beschrieben wird, und die Verarbeitung (3-5) in (b) Beschreibung einer Modifikation der Ausführungsform der Erfindung detailliert beschrieben wird.
Ferner korrigiert die Layout-Editierverarbeitungssektion 4, wenn ein Koinzidenz-Layout in der Layout-DB 14 als Ergebnis der Abfrage und Kollation der Layout-DB 14 durch die Layout-Kollationsverarbeitungssektion 3 vorhanden ist, ein Ergebnis einer Layout-Analyse auf der Basis von Layout-Korrekturinformationen, die von der Layout-DB 14 wie oben beschrieben erfasst werden, und gibt dann die korrigierten Layoutinformationen als Layout-Erkennungsergebnis 20 aus.
Es ist zu beachten, dass Inhalte der Korrektur, in denen Layout-Korrekturinformationen verwendet werden, eine Korrektur einer Überschriftposition und von Inhalten der Überschrift, und die Korrektur einer Elementdatenposition und eines Elementdatenattributs, die mit der Überschrift verknüpft sind, darstellen.
Wenn hingegen kein koinzidentes Layout in der Layout-DB 14 als Ergebnis der Abfrage und Kollation der Layout-DB 14 durch die Layout-Kollationsverarbeitungssektion 3 vorhanden ist, bestimmt die Layout-Editierverarbeitungssektion 4 das Ergebnis der Layout-Analyse als neues Layout und gibt es wie es ist als Layoutinformationen (Layout-Erkennungsergebnis 20) aus.
Darüber hinaus nimmt der Zeichenerkennungs-Verarbeitungsblock 17 eine Zeichenerkennungsverarbeitung des Layout-Erkennungsergebnisses 20 vom Layout-Erkennungsverarbeitungsblock 16 vor, und schließt eine Zeichenerkennungsdefinitions-Erzeugungssektion 5, eine Zeichenerkennungs-Verarbeitungssektion 6 und eine Wissensverarbeitungssektion 7 ein.
Die Zeichenerkennungsdefinitions-Erzeugungssektion 5 erzeugt, auf der Basis von als Layout-Erkennungsergebnis 20 ausgegebenen Layoutinformationen, eine Zeichenerkennungsdefinition (temporäre Definition) 21, die eine Elementdatenposition und ein Elementdatenattribut eines Zeichenerkennungsobjekts definiert, um von der Zeichenerkennungs-Verarbeitungssektion 6 verwendet zu werden.
Obwohl die Elementdateninformationen des Layout-Erkennungsergebnisses 20 in der Form absoluter Koordinaten von der linken oberen Ecke eines Analyseobjektbilds ausgegeben werden, koinzidiert die linke obere Ecke des Analyseobjekt bilds nicht unbedingt mit einer festgelegten Position aufgrund einer Variation der Position eines Formulars beim Lesen des Bilds.
Daher erzeugt die Zeichenerkennungsdefinitions-Erzeugungssektion 5 dynamisch die Zeichenerkennungsdefinition 21 jedesmal konform mit dem Analyseobjektbild.
Die Zeichenerkennungs-Verarbeitungssektion 6 nimmt eine Zeichenerkennungsverarbeitung für Bilddaten eines Zeichenerkennungsobjekts unter Verwendung der von der Zeichenerkennungsdefinitions-Erzeugungssektion 5 aus Layoutinformationen erzeugten Zeichenerkennungsdefinition 21 vor und erfasst Codedaten eines Ergebnisses der Erkennung.
Die Wissensverarbeitungssektion 7 korrigiert die Erkennungsergebnis-Codedaten der Zeichenerkennungs-Verarbeitungssektion 6 unter Bezugnahme auf eine Wissensdatenbank (Wissens-DB) 15, in der Korrekturinformationen für ein Erkennungsergebnis aufgezeichnet sind, und gibt die korrigierten Codedaten als Zeichenerkennungsergebnis 22 aus.
Der Bediener-Bestätigungs/Korrekturverarbeitungsblock 18 ist ein Block, in dem das Layout-Erkennungsergebnis 20 und das Zeichenerkennungsergebnis 22 auf einer Terminaleinheit (beispielsweise ein Client 10 in 1) angezeigt werden, und eine Bestätigungs- und Abänderungsverarbeitung eines Verarbeitungsergebnisses von Bilddaten werden von einem Bediener vorgenommen, und der Block enthält eine Layout-Bildschirmanzeige-Verarbeitungssektion 8 und eine Zeichenerkennungsergebnis-Bildschirmanzeige-Verarbeitungssektion 9.
Die Layout-Bildschirmanzeige-Verarbeitungssektion 8 zeigt an: ein Erkennungsobjektbild und ein Ergebnis einer Analyse wie eine Überschriftposition und Überschriftinhalte, eine entsprechende Elementposition, usw., auf der Basis der Layoutinformationen des Layout-Erkennungsergebnisses 20, um eine Abänderung und Bestätigung des Layout-Erkennungsergebnisses 20 und des Zeichenerkennungsergebnisses 22 durch einen Bediener zu gestatten.
In der vorliegenden Ausführungsform, wie hier im Nachstehenden in (a7) Beschreibung der Bestätigungs- und Modifikationsverarbeitung von Erkennungszeichen detailliert beschrieben, wird eine herkömmliche Modifikations- und Bestätigungsverarbeitung so erweitert, dass Codedaten eines Erkennungsergebnisses und Überschriftinhalte und/oder Elementdaten auf einem entsprechenden Dokumentenbild in einer verknüpften Form auf einer Anzeigeeinheit des Client 10 angezeigt werden, so dass die Modifikations- und Bestätigungsverarbeitung von Layoutinformationen vorgenommen werden können.
Die Zeichenerkennungsergebnis-Bildschirmanzeige-Verarbeitungssektion 9 zeigt Codedaten eines Zeichenerkennungsergebnisses, die einem Erkennungselement eines Zeichenerkennungsobjektbilds entsprechen, konform mit einer Anzeige der Layout-Bildschirmanzeige-Verarbeitungssektion 8 auf dem Bildschirm an.
Ferner werden, in dem Client 10, das Layout-Erkennungsergebnis 20 und/oder das Zeichenerkennungsergebnis 22, die dem auf der Anzeigeeinheit angezeigten Erkennungsobjektbild entsprechen, von einem Bediener bestätigt, und eine Modifikation des Layout-Erkennungsergebnisses 20 und des Zeichenerkennungsergebnisses 22 wird nach Notwendigkeit vorgenommen.
Es ist zu beachten, dass die in 1 gezeigte Datenmedium-Handhabungsvorrichtung 30, zusätzlich zum Layout-Erkennungsverarbeitungsblock 16, Zeichenerkennungs-Verarbeitungsblock 17 und Bediener-Bestätigungs/Korrekturverarbeitungsblock 18, die hier im Vorstehenden beschrieben sind, eine Layout-Protokollinformationserzeugungs-Verarbeitungs sektion 11 und eine Wissens-Protokollinformationserzeugungs-Verarbeitungssektion 12 einschließt.
Die Layout-Protokollinformationserzeugungs-Verarbeitungssektion 11 fügt Modifikationsinhalte von einem Bediener als Korrekturdaten zu Layoutinformationen des Layout-Erkennungsergebnisses 20 hinzu, um Layout-DB-Lerninformationen 25 zu erzeugen (dies wird mit Lern-Layoutinformationen 28 in 4 bezeichnet, die hier im Nachstehenden beschrieben wird), um Layout-Korrekturinformationen zu erzeugen, die in der Layout-DB 14 zu speichern sind. Es ist zu beachten, dass die so erzeugten Layout-Korrekturinformationen von der Layout-DB 14 gelernt und in dieser gespeichert werden, nachdem Korrekturinhalte davon diskriminiert werden.
Ferner fügt die Layout-Protokollinformationserzeugungs-Verarbeitungssektion 11 Modifikationsinhalte von einem Bediener als Korrekturdaten zu Layoutinformationen des Layout-Erkennungsergebnisses 20 hinzu, um Analysewörterbuch-Lerninformationen 24 zu erzeugen (dies wird mit Registrierungs-Layoutinformationen 29 in 4 bezeichnet, die hier im Nachstehenden beschrieben wird). Die so erzeugten Analysewörterbuch-Lerninformationen 24 werden von dem Analysewörterbuch 13 gelernt und in diesem gespeichert, nachdem Korrekturinhalte davon diskriminiert werden.
Die Wissens-Protokollinformationserzeugungs-Verarbeitungssektion 12 fügt Modifikationsinhalte von einem Bediener als Korrekturdaten zu Codedaten des Zeichenerkennungsergebnisses 22 hinzu, um Wissens-Lerninformationen 23 für die Wissens-DB 15 zu erzeugen, und die so erzeugten Lerndaten werden von der Wissens-DB 15 gelernt und in dieser registriert.
Wenn Bilddaten 19 eines Dokuments mit einem willkürlichen Format gelesen werden, wird, in der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegen den Erfindung mit der oben beschriebenen Konstruktion, das Layout der Bilddaten 19 analysiert, um das Form des Objektdokuments zur Verarbeitung zu erkennen, und eine Zeichenerkennung des Dokuments wird auf der Basis eines Ergebnisses der Erkennung des Formats des Dokuments vorgenommen.
Dann werden das Layout-Erkennungsergebnis 20 und das Zeichenerkennungsergebnis 22 durch einen Bediener bestätigt und nach Notwendigkeit modifiziert.
Die Verarbeitung der Datenmedium-Handhabungsvorrichtung 30 wird dann mit Bezugnahme auf 2 bis 4 beschrieben.
Zuerst wird die Verarbeitung, wenn das Layout des anderen Dokuments zur Verarbeitung ein Layout ist, das neu auftritt, mit Bezugnahme auf 2 beschrieben.
Zuerst wird, in der Analysevorverarbeitungssektion 1 des Layout-Erkennungsverarbeitungsblocks 16, eine Analysevorverarbeitung der Bilddaten 19 des Objektdokuments zur Verarbeitung vorgenommen (Schritt A1).
Dann extrahiert die Layout-Analyseverarbeitungssektion 2 gezogene Linienelemente und Elementdaten, die Komponenten des Layouts sind, aus einem Objektbild zur Erkennung und nimmt auf das Analysewörterbuch 13 Bezug, so dass eine Überschriftelementposition in dem Layout und eine Elementdatenposition, die Inhalten davon entsprechen, als Analyseergebnis ausgegeben werden (Schritt A2).
Hier ist der Layout-Analyseverarbeitungsschritt von Schritt A2 ein Schritt des Spezifizierens von Informationen einer aktuellen Position, in dem dem Dokumentenmedium eigene Charakteristika aus den gelesenen Bilddaten und eine Position, in der zu erkennende Informationen auf der Basis der Charakteristika spezifiziert werden, extrahiert werden, und er extrahiert Charakteristika des Layouts des gelesenen Bilds, analysiert die Struktur des Layouts und stellt das Layout mit den extrahierten Charakteristika logisch dar.
Ferner schließt der Layout-Analyseverarbeitungsschritt A2 den Schritt des Extrahierens des logischen Ursprungs des Layouts ein, nachdem gezogene Linienelemente und Elementdaten des Layouts extrahiert werden, und er schließt ferner den Schritt des Diskriminierens, ob das Layout des gelesenen Bilds eine vorherbestimmte Richtung aufweist oder nicht, und den Schritt des Konvertierens der gelesenen Bilddaten auf der Basis eines Ergebnisses der Diskriminierung in dem Schritt ein, so dass das Layout die vorherbestimmte Richtung haben kann. Es ist zu beachten, dass die Konvertierungsverarbeitung für die gelesenen Bilddaten eine solche Verarbeitung ist, dass das Layout gedreht wird, und dieser Prozess wird hier im Nachstehenden in (a3) Beschreibung der Drehkorrekturverarbeitung für Bilddaten detailliert beschrieben, der hier im Nachstehenden aufscheint.
Wenn das Layout eine aus gezogenen Linien gebildete Tabellenstruktur aufweist, schließt hier der Layout-Analyseverarbeitungsschritt A2 den Schritt des Extrahierens gezogener Linienelemente aus den Bilddaten und den Schritt des Analysierens der aus gezogenen Linien gebildeten Tabellenstruktur auf der Basis der in dem Schritt extrahierten gezogenen Linienelemente ein.
Wenn das Layout hingegen eine Tabellenstruktur ohne gezogene Linien aufweist, die keine gezogene Linie hat, schließt der Layout-Analyseverarbeitungsschritt A2 den Schritt des Extrahierens von Elementdaten aus den Bilddaten und den Schritt des Analysierens der Tabellenstruktur ohne gezogene Linien auf der Basis der in dem Schritt extrahierten Elementdaten ein.
Ferner schließt der Layout-Analyseverarbeitungsschritt A2 den Schritt des Bestimmens einer Überschriftregion in dem Bild, des Erkennens von Überschriftelementinformationen in der Überschriftregion und des Bestimmens entsprechender Ele mentdaten ein.
Dann fragt die Layout-Kollationsverarbeitungssektion 3 die Layout-DB 14 unter Verwendung der extrahierten Layoutkomponenten (gezogene Linienelemente und Elementdaten) als Abfragebedingungen ab. Da jedoch das Objektdokument zur Verarbeitung ein neues Dokument ist, ist das entsprechende Layout in der Layout-DB 14 nicht vorhanden, und Kandidaten-Layoutinformationen und Layout-Korrekturinformationen sind nicht erfasst (Schritt A3).
Hier ist der Layout-Kollationsverarbeitungsschritt 3 in dem Schritt A3 ein Bilderkennungsschritt, in dem Bilddaten an der in Schritt A2 spezifizierten Position erkannt werden, um Informationen an der spezifizierten Position zu diskriminieren, und er fragt die in der Layout-DB 14 gespeicherten Kandidaten-Layouts unter Verwendung der in dem Schritt A2 extrahierten Charakteristika des Layouts als einschränkende Abfragebedingungen ab, um eine Kollation zu bewirken, ob ein koinzidentes Kandidaten-Layout vorhanden ist oder nicht.
Der Layout-Kollationsverarbeitungsschritt 3 schließt den Schritt des Diskriminierens von Informationen unter Bezugnahme auf den in Schritt A2 extrahierten logischen Ursprung ein, und schließt ferner ein: den Kompressionsverarbeitungsschritt der Kompressionsverarbeitung der in Schritt A2 extrahierten Charakteristika des Layouts, den Schritt des Abfragens komprimierter Kandidaten-Layouts aus der Layout-DB 14 unter Verwendung der in dem Schritt komprimierten Charakteristika des Layouts als einschränkende Abfragebedingungen, und den Schritt des Kollationierens auf der Basis eines Ergebnisses der Abfrage in dem Schritt, um zu detektieren, ob ein koinzidentes Kandidaten-Layout vorhanden ist oder nicht.
Ferner erzeugt die Layout-Editierverarbeitungssektion 4 ein Layout-Erkennungsergebnis 20 in einem Zustand, in dem Korrekturinformationen fehlen (Schritt A4), da Kandidaten-Layoutinformationen und Layout-Korrekturinformationen in Schritt A3 als Ergebnis der Layout-Kollation nicht erfasst werden.
Die Zeichenerkennungsdefinitions-Erzeugungssektion 5 des Zeichenerkennungs-Verarbeitungsblocks 17 erzeugt eine Zeichenerkennungsdefinition 21 auf der Basis der Layoutinformationen des in Schritt A4 erzeugten Layout-Erkennungsergebnisses 20 (Schritt A14 von 4).
Danach nimmt die Zeichenerkennungs-Verarbeitungssektion 6 eine Zeichenerkennung der Elementdaten des Zeichenerkennungsobjekts unter Verwendung der in Schritt A14 erzeugten Zeichenerkennungsdefinition 21 vor, um Codedaten eines Ergebnisses der Erkennung zu erfassen (Schritt A15 von 4).
Ferner korrigiert die Wissensverarbeitungssektion 7 die in Schritt A15 erfassten Erkennungsergebnis-Codedaten unter Bezugnahme auf die Wissens-DB 15, in der die Korrekturinformationen für das Erkennungsergebnis aufgezeichnet sind, um ein Zeichenerkennungsergebnis 22 zu erzeugen (Schritt A16 von 4).
Hier nimmt die Layout-Bildschirmanzeige-Verarbeitungssektion 8 des Bediener-Bestätigungs/Korrekturverarbeitungsblocks 18 auf das in Schritt A4 erzeugte Layout-Erkennungsergebnis 20 Bezug, und gibt die Überschriftelementinhalte und die Elementdatenposition, die der Position derselben entsprechen (Layout-Analyseinformationen 26, die in 4 veranschaulicht sind), an die Anzeigeeinheit des Client 10 aus. Ferner gibt die Layout-Bildschirmanzeige-Verarbeitungssektion 8 die gelesenen Bilddaten (Bildschirmanzeigebild 27, das in 4 gezeigt ist) an die Anzeigeeinheit des Client 10 aus (Schritt A5).
Ferner gibt die Zeichenerkennungsergebnis-Bildschirm anzeige-Verarbeitungssektion 9 die Codedaten des Zeichenerkennungsergebnisses 22 (dieses Zeichenerkennungsergebnis 22 wird in Schritt A16 erzeugt), die dem Erkennungselement des Zeichenerkennungs-Objektbilds entsprechen, konform mit der Anzeige durch die Layout-Bildschirmanzeige-Verarbeitungssektion 8 an die Anzeigeeinheit des Client 10 aus.
Hier werden die Bestätigungs- und Modifikationsoperationen des Layout-Erkennungsergebnisses 20 und des Zeichenerkennungsergebnisses 22, die auf der Anzeigeeinheit des Client 10 angezeigt werden, von dem Bediener vorgenommen (Schritt A6).
Ferner erzeugt die Layout-Protokollinformationserzeugungs-Verarbeitungssektion 11 Korrekturinformationen für das Layout (Layout-Protokollinformationen) aus einem Ergebnis der Bestätigungs- und Modifikationsoperationen des Layouts durch den Bediener (Schritt A7).
Es ist zu beachten, dass die in Schritt A7 erzeugten Layout-Protokollinformationen als Korrekturinformationen für das Layout [Layout-DB-Lerninformationen 25 (Lern-Layoutinformationen 28) und Analysewörterbuch-Lerninformationen 24 (Registrierungs-Layoutinformationen 29)] in der Layout-DB 14 und in dem Analysewörterbuch 13 reflektiert werden, um dadurch die Layout-Lernverarbeitung zu bewirken (Schritt A8).
Insbesondere werden, in Schritt A8, die Kandidaten-Layoutinformationen durch Lernen in der Layout-DB 14 aktualisiert.
Anschließend wird mit Bezugnahme auf 2 die Verarbeitung beschrieben, wenn das Layout des Objektdokuments zur Verarbeitung ein Layout ist, das erneut auftritt.
Zuerst nimmt die Analysevorverarbeitungssektion 1 des Layout-Erkennungsverarbeitungsblocks 16 eine Analysevorverarbeitung der Bilddaten 10 des Objektdokuments zur Verarbeitung vor, wie hier im Vorstehenden beschrieben (Schritt A1).
Dann analysiert die Layout-Analyseverarbeitungssektion 2 das Layout auf ähnliche Weise wie in dem oben beschriebenen Schritt A2 und gibt ein Ergebnis der Analyse des Layouts aus (Schritt A9).
Ferner fragt die Layout-Kollationsverarbeitungssektion 3 die Layout-DB 14 unter Verwendung der extrahierten Layoutkomponenten (gezogene Linienelemente und Elementdaten) als Abfragebedingungen ab, um detaillierte Informationen und Layout-Korrekturinformationen eines koinzidenten Layouts zu erfassen (Schritt A10).
Da in diesem Fall das Objektdokument zur Verarbeitung erneut auftritt, werden die entsprechenden Kandidaten-Layoutinformationen als Ergebnis der Abfrage der Layout-DB 14 gemeldet, und detaillierte Informationen des Layouts werden mit dem so gemeldeten Kandidaten-Layout kollationiert, um eine Koinzidenz zwischen den Layouts zu diskriminieren.
Es ist zu beachten, dass, wenn diskriminiert wird, dass die Layouts miteinander koinzidieren, die Layout-Editierverarbeitungssektion 4 die Verarbeitung in Schritt A11 bis A13 bewirkt, wobei das Layout als existierendes Layout bestimmt wird. Wenn hingegen eine Inkoinzidenz als Ergebnis der Kollation bestimmt wird, bewirkt die Layout-Editierverarbeitungssektion 4 die Verarbeitung in den Schritten A4 bis A8, wobei das Layout als neues Layout bestimmt wird.
Hier korrigiert die Layout-Editierverarbeitungssektion 4 die Überschriftelementinhalte des Ergebnisses der Layout-Analyse und die Datenposition, die der Position derselben entspricht, auf der Basis der Layout-Korrekturinformationen, die als Ergebnis der Abfrage der Layout-DB 14 erfasst werden, um ein Layout-Erkennungsergebnis 20 zu erzeugen (Schritt A11).
Die Verarbeitung des Zeichenerkennungs-Verarbeitungsblocks 17 ist ähnlich der hier im Vorstehenden in Verbindung mit den Schritten A14 bis A15 von 4 beschriebenen. Hier nimmt die Layout-Bildschirmanzeige-Verarbeitungssektion 8 des Bediener-Bestätigungs/Korrekturverarbeitungsblocks 18 auf das in Schritt A11 erzeugte Layout-Erkennungsergebnis 20 Bezug und gibt die Überschriftelementinhalte und die Elementdatenposition (Layout-Analyseinformationen 26, die in 4 veranschaulicht sind), die der Position derselben entspricht, an die Anzeige des Client 10 aus. Ferner gibt die Layout-Bildschirmanzeige-Verarbeitungssektion 8 die gelesenen Bilddaten (Bildschirmanzeigebild 27, das in 4 gezeigt ist) an die Anzeigeeinheit des Client 10 aus (Schritt A12).
Die Zeichenerkennungsergebnis-Bildschirmanzeige-Verarbeitungssektion 9 gibt dabei Codedaten des Zeichenerkennungsergebnisses 22 (dieses Zeichenerkennungsergebnis 22 wird in Schritt A16 erzeugt), die dem Erkennungselement des Zeichenerkennungs-Objektbilds entsprechen, konform mit der Anzeige durch die Layout-Bildschirmanzeige-Verarbeitungssektion 8 an die Anzeigeeinheit des Client 10 aus.
Hier werden eine Bestätigungsoperation des Layout-Erkennungsergebnisses 20, das auf der Anzeigeeinheit des Client 10 angezeigt wird, und/oder Bestätigungs- und Modifikationen des Zeichenerkennungsergebnisses 22 vom Bediener vorgenommen (Schritt A13).
Es ist zu beachten, dass, wenn das Layout des Objektdokuments zur Verarbeitung ein existierendes Layout ist, die Erzeugung von Layout-Protokollinformationen durch die Layout-Protokollinformationserzeugungs-Verarbeitungssektion 11 nicht vorgenommen wird, da die Verarbeitung für das Analyseobjektbild zu einem Zeitpunkt vollendet ist, wenn die Bestätigungsoperation des Layouts in Schritt A13 vollendet ist.
Schließlich wird die Dokumentenhandhabung durch die in 6 gezeigte Datenmedium-Handhabungsvorrichtung 30 be schrieben.
Hier werden, in jedem Geschäftsbüro, Bilddaten eines Dokuments von einer Bilddaten-Lesevorrichtung (beispielsweise einem Telefaxgerät 31, einem Bildscanner 32 oder einem Datenauge 33, die in 6 gezeigt sind, oder einem in 6 und 7 gezeigten Bildleser 34) gelesen.
Hier werden die von dem Bildscanner 32, dem Datenauge 33 oder dem Bildleser 34 gelesenen Bilddaten zum Client 35 gesendet.
Dann werden die Bilddaten vom Telefaxgerät 31 zum Server 39 der Bezirkszentrale über die Amtsleitung (ISDN, öffentliches Netz) 36 und einen Telefaxadapter 37 gesendet, während die Bilddaten vom Client 35 zum Server 39 der Bezirkszentrale über die Amtsleitung (ISDN, öffentliches Netz) 36 und einen Kommunikationsadapter 38 gesendet werden.
Der Server 39 nimmt automatisch und kollektiv eine Analyseverarbeitung von Bilddaten von Dokumenten vor, die von den einzelnen Geschäftsbüros gesendet werden, und speichert eine Software-Komponente 40 für die Erkennung privater Belege, und schließt die Wissensdatenbank (Wissens-DB) 15, die Layout-Datenbank (Layout-DB) 14 und die konzentrierte Zeichenerkennungsvorrichtung 6 ein.
Der Server 39 hat Funktionen, welche dem Layout-Erkennungsverarbeitungsblock 16 und dem Zeichenerkennungs-Verarbeitungsblock 17 entsprechen, die in der hier im Vorstehenden beschriebenen 1 gezeigt sind, und die Software-Komponente 40 für die Erkennung privater Belege, welche eine Software ist, die diese Funktionen vorsieht, ist auf einer Festplatte oder irgendeinem anderen Speicher, die nicht gezeigt sind, installiert, so dass eine entsprechende Verarbeitung vorgenommen wird.
Ferner schließt die Bezirkszentrale auch den Client (CL) 10 ein, um ein Analyseverarbeitungsergebnis der Bildda ten durch den Server 39 zu bestätigen und zu modifizieren. Insbesondere hat der Client 10 eine Funktion, die dem Bediener-Bestätigungs/Korrekturverarbeitungsblock 18 entsprechen, der in der hier im Vorstehenden beschriebenen 1 gezeigt ist. In dem Client 10 ist eine geeignete Software, die eine solche Funktion wie oben beschrieben vorsieht, auf der Festplatte oder irgendeinem anderen Speicher, die nicht gezeigt sind, installiert, so dass die entsprechende Verarbeitung vorgenommen wird.
Dann werden das Layout der Bilddaten und ein Zeichenerkennungsergebnis auf der Anzeigeeinheit des Client 10 angezeigt, und der Bediener kann auf die Anzeigeeinheit Bezug nehmen, um eine Bestätigung und Modifikation des Analyseverarbeitungsergebisses der Bilddaten zu bewirken.
Es ist zu beachten, dass, um eine Verarbeitung von Dokumenten zu ermöglichen, wie Belegen, die in die Bezirkszentrale gebracht werden, der Bildleser 34 und das Datenauge 33 als Bilddaten-Lesevorrichtungen mit dem Client 10 so verbunden sind, dass Bilddaten von Dokumenten, die von diesen Bilddaten-Lesevorrichtungen gelesen werden, zum Server 39 gesendet werden können.
Ferner wird ein Ergebnis einer Analyse von Dokumenten, die von dem Server 39 analysiert wurden, zu einem Host-Computer (nicht gezeigt), der eine Host-Vorrichtung ist, über einen Zweigstellenserver (BS) 41 gesendet.
Auf diese Weise kann, mit der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung, ein Eintragungsauftrag, der ein herkömmliches Eintragungssystem (OCR-Eintragungssystem, Dateneintragungssystem oder dgl.) verwendet, in der Effizienz sehr stark gesteigert werden, indem verschiedenste Dokumente oder Dokumentenbilder, die jeden Tag auftreten, automatisch und elektronisch analysiert werden.
Insbesondere kann mit der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung ein Eintragungssystem konstruiert werden, das nicht nur Dokumente zur exklusiven Verwendung für herkömmliche Eintragungsssteme handhabt, sondern auch verschiedenste existierende willkürliche Dokumente wie sie sind handhabt.
Mehr im Einzelnen können, durch das automatische Analysieren des Layouts eines allgemeinen privaten Transferbelegs (von einem Endbenutzer erzeugter allgemeiner Transferbeleg), der ein Objekt eines Eintragungsauftrags einer Finanzinstitution oder dgl. ist, eine Zeichenerkennungsverarbeitung und Eintragungsverarbeitung direkt vorgenommen werden, und es kann eine vollautomatische Erkennungsverarbeitung eines allgemeinen privaten Transferbelegs vorgenommen werden.
Ferner kann, durch das Erzeugen von Layout-Protokollinformationen auf der Basis des Layout-Erkennungsergebnisses 20 eines beliebigen von verschiedensten Typen willkürlicher Belege und durch das Lernen und Registrieren desselben in der Layout-DB 14, eine Diskriminierung eines Dokuments mit dem gleichen Layout danach automatisch vorgenommen werden, und dementsprechend können die Arbeit und die Kosten, die für die Erzeugung eines Dokuments zur exklusiven Verwendung erforderlich sind, reduziert werden, und eine Eintragung nach dem Lernen wird unmittelbar gestattet. Demgemäß kann eine Verringerung der Periode der Einführung eines Systems erzielt werden, das die vorliegende Vorrichtung 30 einschließt.
Da Bilddaten eines Dokuments immer analysiert werden, kann ferner die automatische Erkennungsverarbeitung von anderen Dokumenten als teuren OCR-Dokumenten zur exklusiven Verwendung erzielt werden, wodurch ein Schnittfehler oder ein Druckfehler reduziert wird.
(a2) Beschreibung der Ursprungsextraktion und Kollationsverarbeitung
14 ist eine Diagrammansicht einer Verarbeitung, die eine Anwendung der Ursprungsextraktion und Kollationsverarbeitung durch die Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung veranschaulicht.
Auch wenn Bilder mit dem gleichen Layout unter Verwendung einer optischen Lesevorrichtung (Scanner, Telefaxgerät oder dgl.) gelesen werden, zeigen allgemein Koordinaten von Komponenten (gezogene Linienelemente und Elementdaten) der einzelnen Layouts von den physischen Ursprüngen der Bilder nicht gleiche Werte wegen einer Positionsverschiebung beim Lesen.
Wenn Komponenten von Layouts verglichen werden, um eine Koinzidenz der Layouts zu diskriminieren, ist es demgemäß notwendig, die Positionen der logischen Ursprünge abzugleichen, die aus den einzelnen Layouts extrahiert werden, relative Koordinaten der Komponenten der Layouts aus den logischen Ursprüngen zu berechnen, und die Layouts unter Verwendung der relativen Koordinaten zu kollationieren.
Da dieser logische Ursprung stabil gegenüber einem beliebigen Variationsfaktor eines Bilds, wie Staub oder eine Unschärfe, beim Lesen des Bilds extrahiert werden muss, muss eine Koordinatenposition, die stabil mit einem ausreichend hohen Genauigkeitsgrad extrahiert werden kann, als logischer Ursprung ausgewählt werden.
Daher wird, in der vorliegenden Ausführungsform, eine Vielzahl von Extraktionsverfahren parallel verwendet, um einen logischen Ursprung zu extrahieren, so dass ein normalerweise stabilisierter logischer Ursprung extrahiert wird, auch wenn ein Dokument mit einem willkürlichen Layout handgehabt wird.
In der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung schließt hier der Layout-Analyseverarbeitungsschritt A2 (und A9) durch die Layout-Analyseverarbeitungssektion 2, wie in 14 ersichtlich, ein: den Extraktionsschritt M1 für einen logischen Ursprung des Extrahierens des logischen Ursprungs eines Formats, und den Spezifikationsschritt für aktuelle Positionsinformationen des Extrahierens von Charakteristika, die einem das Format einschließenden Medium eigen sind, mit Bezugnahme auf den in diesem Schritt M1 extrahierten logischen Ursprung, und des Spezifizierens, aus den extrahierten Charakteristika, einer Position, an der zu erkennende Informationen vorliegen.
Der Layout-Kollationsverarbeitungsschritt A3 (und A10) durch die Layout-Kollationsverarbeitungssektion 3 schließt dabei ein: den Bilderkennungsschritt des Vornehmens, bei der Erkennung eines Bilds an der Position, die in dem Spezifikationsschritt für aktuelle Positionsinformationen spezifiziert wird, einer Layout-Kollationsverarbeitung mit Bezugnahme auf den logischen Ursprung, der in dem Extraktionsschritt M1 für einen logischen Ursprung (Schritt M2) extrahiert wird, um Informationen der extrahierten Zeichen zu diskriminieren.
Ferner werden, in dem Extraktionsschritt M1 für einen logischen Ursprung durch die Layout-Analyseverarbeitungssektion 2, zusätzlich zur Extraktion des logischen Ursprungs eines Formats, Hilfskoordinateninformationen für einen logischen Ursprung extrahiert, die Hilfsinformationen für den logischen Ursprung liefern, und, in dem Bilderkennungsschritt durch die Layout-Kollationsverarbeitungssektion 3, wird eine Layout-Kollationsverarbeitung unter Bezugnahme auf einen logischen Ursprung und die Hilfskoordinateninformationen für den logischen Ursprung (Schritt M2) vorgenommen, um Informationen der extrahierten Charakteristika zu diskriminieren.
Wenn das Layout eine Tabellenstruktur aufweist, die aus gezogenen Linien gebildet ist, werden hier in der vorliegenden Ausführungsform Koordinateninformationen [in
15(a) gezeigte Koordinaten A] einer Ecke mit einer minimalen X-Koordinate und einer minimalen Y-Koordinate unter Ecken, die die Tabellenstruktur definieren, als logischer Ursprung des Formats extrahiert, und, als Hilfskoordinateninformationen für den logischen Ursprung, werden eine andere Ecke mit einer maximalen X-Koordinate und der minimalen Y-Koordinate, eine weitere Ecke mit der minimalen X-Koordinate und der maximalen Y-Koordinate, und noch eine weitere Ecke mit der maximalen X-Koordinate und der maximalen Y-Koordinate [in 15(a) gezeigte Koordinaten Aa, Ab bzw. Ac] extrahiert.
Wenn das Layout eine Tabellenstruktur ohne gezogene Linien aufweist, die keine gezogene Linie hat, beispielsweise wie in 17 gezeigt, werden Koordinateninformationen (in 17 gezeigte Koordinaten D) einer Ecke mit einer minimalen X-Koordinate und einer minimalen Y-Koordinate unter Ecken eines umschriebenen Rechtecks als logischer Ursprung des Formats extrahiert, und, als Hilfskoordinateninformationen für den logischen Ursprung, werden Koordinateninformationen einer anderen Ecke mit einer maximalen X-Koordinate und der minimalen Y-Koordinate des umschriebenen Rechtecks, einer weiteren Ecke mit der minimalen X-Koordinate und der maximalen Y-Koordinate, und noch einer weiteren Ecke mit der maximalen X-Koordinate und der maximalen Y-Koordinate (in 17 gezeigte Koordinaten Da, Db bzw. Dc) extrahiert.
Zuerst wird hier die Extraktionsverarbeitung für einen logischen Ursprung beschrieben.
Die Extraktionsverarbeitung für einen logischen Ur sprung wird insbesondere von der Tabellen-Strukturanalysesektion 2E der Layout-Analysesektion 2B vorgenommen, die in 5 gezeigt sind.
Die Tabellen-Strukturanalysesektion 2E analysiert insbesondere ein umschriebenes Rechteck gezogener Linienelemente, ein maximales umschriebenes Rechteck einer Tabellenstruktur, die aus den gezogenen Linienelementen gebildet ist, und ein umschriebenes Rechteck von Elementdaten auf der Basis gezogener Elemente, die von der Extraktionssektion 2C für gezogene Linien der Layout-Charakteristikaextraktionssektion 2A extrahiert werden, und Elementdaten, die von der Element-Datenextraktionssektion 2D der Layout-Charakteristikaextraktionssektion 2A extrahiert werden, extrahiert Koordinaten von Ecken dieser Rechtecke und stellt vorherbestimmte Koordinaten als logische Ursprungskoordinaten und Korrekturkoordinaten ein.
Mit Bezugnahme auf das in 18 gezeigte Flussdiagramm wird der Betrieb der Layout-Analyseverarbeitungssektion 2 in diesem Fall beschrieben.
Zuerst, wenn das Verarbeitungsobjekt-Layout gezogene Linien aufweist, extrahiert die Extraktionssektion 2C für gezogene Linien der Layout-Charakteristikaextraktionssektion 2A, als Vorverarbeitung der Extraktionsverarbeitung für den logischen Ursprung, gezogene Linien aus Bilddaten als Extraktionsobjekt (Schritt B1), und dann wird ein minimales Rechteck, das aus den extrahierten gezogenen Linien gebildet ist, als gezogenes Linienelement extrahiert (Schritt B2).
Dann diskriminiert die Tabellen-Strukturanalysesektion 2E der Layout-Analysesektion 2B, ob gezogene Linienelemente extrahiert wurden oder nicht (Schritt B3), und, wenn gezogene Linienelemente extrahiert wurden, und die so extrahierten gezogenen Linienelemente mit einer gleichen Breite oder Höhe in der Nähe voneinander positioniert sind, werden jene gezo genen Linienelemente als gezogene Linienelementgruppe mit einer logischen Beziehung betrachtet und in eine solche gruppiert (Schritt B4).
Ferner diskriminiert die Tabellen-Strukturanalysesektion 2E, ob eine Tabellenstruktur (hier signifiziert die Tabellenstruktur eine Region, die aus einer gezogenen Liniengruppe mit 2 Reihen × 2 Spalten oder mehr gebildet ist) in der Gruppe vorliegt oder nicht (Schritt B5).
Wenn eine Tabellenstruktur vorliegt, extrahiert hier die Tabellen-Strukturanalysesektion 2E eine solche maximale rechtwinklige Region in der Tabellenstruktur wie als schraffierter Linienabschnitt I in 15(a) angezeigt, und erfasst Koordinaten der vier Ecken der rechtwinkligen Region (Schritt B6).
Dann werden die linken oberen Eckkoordinaten A (Xo, Yo) des Rechtecks als logischer Ursprung eingestellt, und die drei Orte der übrigen rechten oberen Eckkoordinaten Aa, linken unteren Eckkoordinaten Ab und rechten unteren Eckkoordinaten Ac werden als Korrekturkoordinaten für den logischen Ursprung eingestellt (Schritt B7 und B8).
Wenn hingegen eine Vielzahl von Tabellenstrukturen in dem Layout vorliegt, wie in 15(b) ersichtlich, extrahiert die Tabellen-Strukturanalysesektion 2E die einzelnen Tabellenstrukturen (siehe schraffierte Linienabschnitte I), und erfasst Koordinaten der vier Ecken jeder der rechtwinkligen Regionen (Schritt B6).
Dann werden die Koordinaten B (minimale X-Koordinate, minimale Y-Koordinate) [das heißt (Xo, Yo)], wenn der logische Ursprung jeder der Tabellenstrukturen in der horizontalen Richtung und der vertikalen Richtung projiziert wird, als logischer Ursprung eingestellt, und die drei Orte der Koordinaten Ba (maximale X-Koordinate, minimale Y-Koordinate), Koordinaten Bb (minimale X-Koordinate, maximale Y-Koor dinate) und Koordinaten Bc (maximale X-Koordinate, maximale Y-Koordinate) werden als Korrekturkoordinaten für den logischen Ursprung eingestellt (Schritte B7 und B8).
Wenn keine Tabellenstruktur in irgendeiner Gruppe gezogener Linienelemente vorliegt, extrahiert ferner die Tabellen-Strukturanalysesektion 2E diese eine der rechtwinkligen Regionen gezogener Linienelemente, die ganz außen positioniert ist, wie als schraffierter Linienabschnitt I in 16 angezeigt, und erfasst Koordinaten der vier Ecken jeder rechtwinkligen Region (Schritt B12).
Dann werden Koordinaten C (minimale X-Koordinate, minimale Y-Koordinate) [das heißt (Xo, Yo)], wenn der logische Ursprung jedes Rechtecks in der horizontalen Richtung und der vertikalen Richtung projiziert wird, als logischer Ursprung eingestellt, und die drei Orte der Koordinaten Ca (maximale X-Koordinate, minimale Y-Koordinate), Koordinaten Cb (minimale X-Koordinate, maximale Y-Koordinate) und Koordinaten Cc (maximale X-Koordinate, maximale Y-Koordinate) werden als Korrekturkoordinaten für den logischen Ursprung eingestellt (Schritte B13 und B14).
Wenn das Layout überhaupt keine gezogenen Linienelemente einschließt, extrahiert darüber hinaus die Element-Datenextraktionssektion 2D der Layout-Charakteristikextraktionssektion 2A Elementdaten in dem Layout, und die Tabellen-Strukturanalysesektion 2E extrahiert rechtwinklige Regionen jener Elementdaten, die ganz außen positioniert sind, wie durch schraffierte Linien I in 17 angezeigt, und erfasst Koordinaten der vier Ecken jeder der rechtwinkligen Regionen (Schritt B9).
Dann werden Koordinaten D [(minimale X-Koordinate, minimale Y-Koordinate), das heißt (Xo, Yo)], wenn der logische Ursprung jedes der Rechtecke in der horizontalen Richtung und der vertikalen Richtung projiziert wird, als logischer Ursprung eingestellt, und die drei Orte der Koordinaten Da (maximale X-Koordinate, minimale Y-Koordinate), Koordinaten Db (minimale X-Koordinate, maximale Y-Koordinate) und Koordinaten Dc (maximale X-Koordinate, maximale Y-Koordinate) werden als Korrekturkoordinaten für den logischen Ursprung eingestellt (Schritte B10 und B11).
Ferner erfasst die Tabellen-Strukturanalysesektion 2E nicht nur logische Ursprungskoordinaten und Korrekturkoordinaten für die logischen Ursprünge, die in der wie oben beschriebenen Weise extrahiert werden, sondern auch ein Verfahren zum Extrahieren eines logischen Ursprungs, das aufgezeichnete Informationen des Verfahrens ist, das bei der Extraktion der logischen Ursprünge angewendet wird (das heißt, Informationen, die repräsentieren, aus welchem einen von einer Tabellenstruktur, einem gezogenen Linienelement und Elementdaten jeder logische Ursprung extrahiert wurde).
Es ist zu beachten, dass, in der folgenden Beschreibung, ein logischer Ursprung, der ein solches Verfahren zum Extrahieren eines logischen Ursprungs wie oben beschrieben anzeigt, logischer Tabellenursprung, logischer Ursprung eines gezogenen Linienelements oder logischer Elementdatenursprung genannt werden kann.
Dann sendet die Layout-Analyseverarbeitungssektion 2 das Verfahren zum Extrahieren eines logischen Ursprungs, die logischen Ursprungskoordinaten und die Korrekturkoordinaten für den logischen Ursprung als logische Ursprungsinformationen zur Layout-Kollationsverarbeitungssektion 3 aus.
Anschließend wird die Kollationsverarbeitung für den logischen Ursprung beschrieben.
Diese Kollationsverarbeitung für den logischen Ursprung wird von der Layout-Kollationsverarbeitungssektion 3 vorgenommen, die in der wie hier im Vorstehenden beschriebenen 1 gezeigt ist.
Bei der Kollation zwischen Layouts werden Koordinaten der Layoutkomponenten der Layouts in relative Koordinaten von den logischen Ursprüngen konvertiert, und die relativen Koordinaten werden miteinander verglichen, um einen Vergleich der logischen Ursprünge zu bewirken, die aus den Layouts extrahiert werden.
Auch wenn die Layouts gleich sind, kann jedoch tatsächlich manchmal keine Koinzidenz der logischen Ursprünge aufgrund von Variationsfaktoren beim Lesen, wie einer Unschärfe oder Verschmutzung eines Bilds, detektiert werden.
In diesem Fall wird, auf der Basis der Informationen eines der logischen Ursprünge, der andere logische Ursprung dynamisch erneut detektiert, und dann wird eine Koinzidenz zwischen den logischen Ursprüngen diskriminiert.
Der Betrieb der Layout-Kollationsverarbeitungssektion 3 in diesem Fall wird mit Bezugnahme auf das in 21 gezeigte Flussdiagramm beschrieben.
Da eine Vielzahl von Verfahren zur Extraktion eines logischen Ursprungs durch die Layout-Analyseverarbeitungssektion 2 verwendet wird, wie oben beschrieben, wird zuerst, in der vorliegenden Ausführungsform, eine Diskriminierung einer Koinzidenz zwischen Extraktionsverfahren für einen logischen Ursprung vor der Kollation zwischen logischen Ursprüngen vorgenommen (Schritte C1 und C2).
Wenn die Extraktionsverfahren für einen logischen Ursprung miteinander koinzident sind, dann werden Korrekturkoordinaten für den logischen Ursprung eines Layouts L1 und eines anderen Layouts L2 miteinander verglichen, wie in 19 ersichtlich, um eine Koinzidenz zwischen den Korrekturkoordinaten der logischen Ursprünge zu diskriminieren (Schritte C3 bis C5).
Wenn die Diskriminierung eine Koinzidenz zwischen den Korrekturkoordinaten ergibt, werden hier relative Koordina ten (Ea' bis Ec' und Fa' bis Fc') der Korrekturkoordinaten Ea bis Ec des Layouts L1 und der Korrekturkoordinaten Fa bis Fc des Layouts L2 auf der Basis der logischen Ursprungskoordinaten E (minimale X-Koordinate, minimale Y-Koordinate) des Layouts L1 und der logischen Ursprungskoordinaten F (minimale X-Koordinate, minimale Y-Koordinate) des Layouts L2 berechnet, und eine Koinzidenzdiskriminierung zwischen den Korrekturkoordinaten wird durch eine Koinzidenzdiskriminierung zwischen diesen relativen Koordinaten vorgenommen.
Insbesondere wird eine Koinzidenz zwischen den logischen Koordinaten diskriminiert, um die Layouts zu kollationieren, indem eine Koinzidenzdiskriminierung zwischen den Korrekturkoordinaten durchgeführt wird, in denen die Koordinateninformationen der logischen Ursprünge enthalten sind (Schritt C6).
Ausdrücke zur Berechnung der relativen Koordinaten sind nachstehend als Ausdrücke (1) bis (6) angegeben: (relative Koordinaten Ea') = (Korrekturkoordinaten Ea) – (logische Ursprungskoordinaten E) (1) (relative Koordinaten Eb') = (Korrekturkoordinaten Eb) – (logische Ursprungskoordinaten E) (2) (relative Koordinaten Ec') = (Korrekturkoordinaten Ec) – (logische Ursprungskoordinaten E) (3) (relative Koordinaten Fa') = (Korrekturkoordinaten Fa) – (logische Ursprungskoordinaten F) (4) (relative Koordinaten Fb') = (Korrekturkoordinaten Fb) – (logische Ursprungskoordinaten F) (5) (relative Koordinaten Fc') = (Korrekturkoordinaten Fc) – (logische Ursprungskoordinaten F) (6)
Ferner werden nachstehend Voraussetzungen für eine Koinzidenz zwischen den relativen Koordinaten als Ausdrücke (7) bis (9) angegeben: |(relative Koordinaten Ea') – (relative Koordinaten Fa')| ≤ ε (ε: Koinzidenzbereich) (7) |(relative Koordinaten Eb') – (relative Koordinaten Fb')| ≤ ε (ε: Koinzidenzbereich) (8) |(relative Koordinaten Ec') – (relative Koordinaten Fc')| ≤ ε (ε: Koinzidenzbereich) (9)
Wenn hingegen die Extraktionsverfahren für einen logischen Ursprung miteinander inkoinzident sind (siehe Schritt C2), oder wenn die Korrekturkoordinaten miteinander inkoinzident sind (siehe Schritt C4), wird eine Reextraktion der logischen Koordinate eines der Layouts auf der Basis der logischen Ursprungsinformationen des anderen Layouts vorgenommen.
Wenn das Layout L1 aufgrund einer Unschärfe gezogener Linien teilweise nicht detektiert werden kann, wie in 20(a) ersichtlich, werden neue logische Ursprungskoordinaten H' und neue Korrekturkoordinaten H'a, Hb und Hc des Layouts L2 extrahiert, wie in 20(b) ersichtlich, wobei die logischen Ursprungsinformationen des Layouts L1 (Extraktionsverfahren für einen logischen Ursprung, logische Ursprungskoordinaten G und Korrekturkoordinaten Ga bis Gc) verwendet werden (Schritte C7 und C8).
Bei der Reextraktion logischer Ursprungsinformationen in diesem Fall werden zuerst Differenzen Xa, Xb, X'a und X'b zwischen den X-Koordinaten und Differenzen Ya, Yb, Y'a und Y'b zwischen den Y-Koordinaten, wie in 20(a) bzw. 20(b) ersichtlich, aus den logischen Ursprungskoordinaten und den Korrekturkoordinaten des Layouts L1 und des Layouts L2 berechnet.
Ausdrücke zur Berechnung der Differenzen werden nach stehend als Ausdrücke (10) bis (17) angegeben:
(Layout L1)

Differenz Xa = |(X-Koordinate von Korrekturkoordinaten Ca) – (X-Koordinate von logischen Ursprungskoordinaten G)| (10) Differenz Xb = |(X-Koordinate von Korrekturkoordinaten Gc) – (X-Koordinate von logischen Ursprungskoordinaten Gb)| (11) Differenz Ya = |(Y-Koordinate von Korrekturkoordinaten Gb) – (Y-Koordinate von logischen Ursprungskoordinaten G)| (12) Differenz Yb = |(Y-Koordinate von Korrekturkoordinaten Gc) – (Y-Koordinate von logischen Ursprungskoordinaten Ga)| (13)

(Layout L2)

Differenz X'a = |(X-Koordinate von Korrekturkoordinaten Ha) – (X-Koordinate von logischen Ursprungskoordinaten H)| (14) Differenz X'b = |(X-Koordinate von Korrekturkoordinaten Hc) – (X-Koordinate von Korrekturkoordinaten Hb)| (15) Differenz Y'a = |(Y-Koordinate von Korrekturkoordinaten Hb) – (Y-Koordinate von logischen Ursprungskoordinaten H)| (16) Differenz Y'b = |(Y-Koordinate von Korrekturkoordinaten Hc) – (Y-Koordinate von logischen Ursprungskoordinaten Ha)| (17)

Danach werden die berechneten Differenzen miteinander verglichen, um zu diskriminieren, ob einige Differenzen inkoinzident sind oder nicht.
Da, bei dem Layout L1 und dem Layout L2, die Differenzen Ya und Y'a nicht koinzident sind, und die Differenz Yb und Y'b nicht koinzident sind, werden hier Differenzen, die mit den Differenzen Ya und Yb des Layouts L1 koinzidieren, unter Koordinaten des Layouts L2 gesucht.
Mit anderen Worten, der logische Ursprung und Korrekturkoordinaten werden innerhalb des Layouts L2 in Übereinstimmung mit dem Extraktionsverfahren für einen logischen Ursprung für das Layout L1 gesucht (siehe Schritte C7 und C8).
Wenn koinzidente Koordinaten als Ergebnis der Suche erfolgreich detektiert werden, werden die Koordinaten als logischer Ursprung H' und Korrekturkoordinaten H'a verwendet, wie in 20(a) ersichtlich.
Wenn hingegen koinzidente Koordinaten als Ergebnis der Suche nicht erfolgreich detektiert werden, dann werden der logische Ursprung und Korrekturkoordinaten innerhalb des Layouts L1 auf ähnliche Weise wie oben beschrieben in Übereinstimmung mit dem Extraktionsverfahren für einen logischen Ursprung für das Layout L2 gesucht (Schritte C9 und C10).
Es ist zu beachten, dass, wenn auch durch dieses Verfahren keine koinzidenten Koordinaten erfolgreich detektiert werden, keine Kollation zwischen Layouts vorgenommen wird (Schritt C11).
Da eine Layout-Analyse eines Objektdokuments zur Verarbeitung auf der Basis von gezogenen Linienelementen und Ele mentdaten vorgenommen wird, die aus Bilddaten extrahiert werden, und vorherbestimmten Koordinaten unter Koordinaten der Ecken einer Region, die durch die Layout-Analyse erhalten werden, als logische Ursprungskoordinaten und Korrekturkoordinaten bestimmt werden, können auf diese Weise, mit der Ursprungsextraktion und Kollationsverarbeitung der Datenmedium-Handhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung, logische Ursprungskoordinaten und Korrekturkoordinaten auch aus Bilddaten eines gewöhnlichen Dokuments extrahiert werden, das von einem Dokument zur exklusiven Verwendung verschieden ist, auf dem eine Referenzmarke oder dgl. aufgedruckt ist.
Da ein optimales Verfahren dynamisch unter einer Vielzahl von Extraktionsverfahren für einen logischen Ursprung ausgewählt wird, kann ferner eine logische Ursprungsextraktion vorgenommen werden, die für das Layout eines Objektdokuments zur Verarbeitung geeignet ist.
Da, bei der logischen Ursprungsextraktion, Korrekturkoordinaten gleichzeitig wie zusätzliche Informationen für den logischen Ursprung extrahiert werden, kann darüber hinaus eine Koinzidenz mit Sicherheit bei der Kollation zwischen logischen Ursprüngen in der Layout-Kollationsverarbeitung detektiert werden.
Insbesondere da eine Kollation zwischen logischen Ursprüngen durch eine Kollation zwischen relativen Koordinaten von Korrekturkoordinaten vorgenommen wird, in denen logische Ursprungskoordinaten enthalten sind, kann, auch wenn eine Positionsverschiebung beim Lesen des Bilds auftritt, eine Kollationsverarbeitung zwischen Layouts mit Sicherheit vorgenommen werden.
Auch wenn ein logischer Ursprung wegen des Vorliegens von Staub, einer Unschärfe oder dgl. nicht richtig extrahiert werden kann, kann ferner, da eine Reextraktion eines logischen Ursprungs unter Verwendung von Korrekturkoordinaten in Übereinstimmung mit einem Extraktionsverfahren für einen logischen Ursprung für das andere Layout vorgenommen wird, ein anderer Punkt, der mit Sicherheit extrahiert werden kann, als logischer Ursprung bestimmt werden.
Es ist zu beachten, dass, obwohl in der vorliegenden Ausführungsform der Punkt an der linken oberen Ecke eines Layouts als logischer Ursprung bestimmt wird, der logische Ursprung nicht darauf beschränkt ist, und es kann der Punkt an der rechten oberen Ecke, der linken unteren Ecke oder der rechten unteren Ecke als logischer Ursprung bestimmt werden.
(a3) Beschreibung der Drehkorrekturverarbeitung von Bilddaten
Wenn die Leserichtung eines Objektdokuments zum Lesen nicht die richtige Richtung ist, dann kann im Allgemeinen in einer Dokumentenhandhabungsvorrichtung oder ähnlichen Vorrichtung keine Zeichenerkennungsverarbeitung vorgenommen werden, da die Zeichenbeschreibungsrichtung der Bilddaten (Bild) nicht die richtige Richtung ist.
Daher wird, in der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung, beispielsweise bei der oben beschriebenen Ursprungsextraktionsverarbeitung, die Richtung eines gelesenen Bilds diskriminiert, und, wenn die Richtung des Bilds falsch ist, dann wird eine Drehkorrekturverarbeitung für das Bild so vorgenommen, dass die Richtung des Bilds die richtige Richtung werden kann. Auch wenn die Leserichtung eines Objektdokuments zum Lesen falsch ist, kann dementsprechend eine Layout-Analyseverarbeitung und/oder Zeichenerkennungsverarbeitung eines Bilds vorgenommen werden, die hier im Nachstehenden beschrieben wird.
Hier wird die Drehkorrekturverarbeitung von Bilddaten von der Layout-Analyseverarbeitungssektion 2 vorgenommen, die wie hier im Vorstehenden beschrieben in 1 und 5 gezeigt ist. Um die Drehkorrekturverarbeitung von Bilddaten zu realisieren, schließt die Layout-Analyseverarbeitungssektion 2 ein: den Schritt des Diskriminierens, ob das Layout eines gelesenen Bilds in eine vorherbestimmte Richtung gerichtet ist oder nicht, und den Schritt des Drehens des Layouts der gelesenen Bilddaten auf der Basis eines Ergebnisses der Diskriminierung in dem ersteren Schritt, so dass das Layout in die vorherbestimmte Richtung gerichtet werden kann.
Hier sind in 8 und 9 Funktionsblockbilder gezeigt, in denen die Drehkorrekturverarbeitung von Bilddaten durch die Datenmedium-Handhabungsvorrichtung 30 in der vorliegenden Ausführungsform beschrieben wird. 8 ist ein Funktionsblockbild, wo ein Dokument mit gezogenen Linienelementen zu verarbeiten ist, wohingegen 9 ein Funktionsblockbild ist, wo ein anderes Dokument ohne gezogene Linienelemente zu verarbeiten ist.
Wenn ein Dokument mit gezogenen Linienelementen zu verarbeiten ist, arbeiten, in der Datenmedium-Handhabungsvorrichtung 30, wie in 8 gezeigt, eine Bildeingabesektion 301, ein Bilddaten-Sicherungsspeicher 302, ein Sicherungsspeicher 303 für gedrehte Bilddaten, die Extraktionssektion für gezogene Linienelemente (Extraktionssektion für gezogene Linien) 2C, eine Informationsspeichersektion 304 für gezogene Linienelemente, die Analysesektion für gezogene Linienelemente (Tabellen-Strukturanalysesektion) 2E, eine Vertikal/Horizontal-Diskriminierungseinstellsektion 305, eine Speichersektion 306 für horizontal längliche gezogene Linienelemente, eine Bild-90-Grad-Drehsektion 307, eine Bild-180-Grad-Drehsektion 308 und der Zeichenfolgen-Erkennungsblock (Zeichenerkennungs-Verarbeitungsblock) 17.
Die Bildeingabesektion 301 liest Bilddaten eines Dokuments oder dgl. Der Bilddaten-Sicherungsspeicher 302 ist ein Speicher zum temporären Speichern der gelesenen Bilddaten. Der Sicherungsspeicher 303 für gedrehte Bilddaten ist ein Speicher zum Speichern von Bilddaten, an denen eine Drehkorrekturverarbeitung vorgenommen wurde. Später werden eine Layout-Erkennungsverarbeitung, eine Zeichenerkennungsverarbeitung, usw., unter Verwendung der Bilddaten, die in dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert sind, vorgenommen.
Die Extraktionssektion für gezogene Linienelemente (Extraktionssektion für gezogene Linien) 2C durchsucht gelesene Bilddaten, um automatisch gezogene Linienelemente zu extrahieren, die ein aus gezogenen Linien gebildetes minimales Rechteck bilden. Die Informationsspeichersektion 304 für gezogene Linienelemente ist ein Speicher zum Speichern der gezogenen Linienelementinformationen, die von der Extraktionssektion 2C für gezogene Linien extrahiert werden.
Die Analysesektion für gezogene Linienelemente (Tabellen-Strukturanalysesektion) 2E analysiert, ob die Form gezogener Linienelemente, die in der Informationsspeichersektion 304 für gezogene Linienelemente gespeichert sind, eine vertikal längliche Form oder eine horizontal längliche Form ist, um zu diskriminieren, ob die Leserichtung von Bilddaten eine vertikale Leserichtung oder eine horizontale Leserichtung ist.
Die meisten Belege, Dokumente, usw., die in Banken, Unternehmen, usw., handgehabt werden, sind üblicherweise in einer horizontalen Richtung beschrieben. Dementsprechend sind auch gezogene Linienelemente in den meisten Fällen horizontal länglich, und die Bedingung, dass horizontal längliche gezogene Linienelemente häufiger sind als vertikal längliche gezogene Linienelemente, wird als Kriterium in der Vertikal/Horizontal-Diskriminierungseinstellsektion 305 eingestellt, und auf der Basis des so eingestellten Kriteriums wird die Leserichtung von Bilddaten diskriminiert.
Die Speichersektion 306 für horizontal längliche gezogene Linienelemente speichert gezogene Linienelemente, die von der Tabellen-Strukturanalysesektion 2E als horizontal längliche gezogene Linienelemente bestimmt wurden.
Die Bild-90-Grad-Drehsektion 307 dreht, wenn von der Tabellen-Strukturanalysesektion 2E bestimmt wird, dass gezogene Linienelemente vertikal längliche gezogene Linienelemente sind, die Bilddaten um 90 Grad, um eine Drehkorrektur für die Bilddaten zu bewirken.
Die Zeichenfolgen-Erkennungssektion 17 erkennt Zeichen in gezogenen Linienelementen, und, wenn die Zeichenerkennung von der Zeichenfolgen-Erkennungssektion 17 nicht erfolgreich vorgenommen werden kann, dreht die Bild-180-Grad-Drehsektion 308 die Bilddaten um 180 Grad, um eine Drehkorrektur für die Bilddaten zu bewirken.
Es ist zu beachten, dass einer Drehkorrektur unterzogene Bilddaten in dem Bilddaten-Sicherungsspeicher 302 und dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert werden, und von der Extraktionssektion 2C für gezogene Linienelemente, Analysesektion 2E für gezogene Linienelemente und Zeichenfolgen-Erkennungssektion 17 ähnlich den oben beschriebenen verarbeitet werden.
Wenn hingegen ein anderes Dokument ohne gezogene Linienelemente zu verarbeiten ist, arbeiten, in der Datenmedium-Handhabungsvorrichtung 30, wie in 9 ersichtlich, die Bildeingabesektion 301, der Bilddaten-Sicherungsspeicher 302, der Sicherungsspeicher 303 für gedrehte Bilddaten, eine Kennzeichnungssektion 309, eine Kennzeichnungsinformations-Speichersektion 310, eine Zeichenregionen-Integrationssektion 311, eine Zeichenregionen-Integrationsregelsektion 312, eine Integrationsergebnis-Speichersektion 313, eine Zeichenfolgen-Vertikal/Horizontal-Diskriminierungssektion 314, die Bild-90-Grad-Drehsektion 307, die Bild-180-Grad-Drehsektion 308 und die Zeichenfolgen-Erkennungssektion (Zeichenerkennungs-Verarbeitungsblock) 17.
Die Bildeingabesektion 301, der Bilddaten-Sicherungsspeicher 302 und der Sicherungsspeicher 303 für gedrehte Bilddaten haben ähnliche Funktionen und Konstruktionen wie die hier im Vorstehenden beschriebenen.
Die Kennzeichnungssektion 309 nimmt eine Kennzeichnungsverarbeitung zum Extrahieren aufeinanderfolgender Bildpunktinformationen aus Pixelinformationen vor. Die Kennzeichnungsinformations-Speichersektion 310 ist ein Speicher zum Speichern der aufeinanderfolgenden Bildpunktinformationen, die von der Kennzeichnungssektion 309 extrahiert werden.
Die Zeichenregionen-Integrationssektion 311 integriert aufeinanderfolgende Zeichen auf der Basis von Bildpunktinformationen, die von der Kennzeichnungssektion 309 extrahiert werden, in eine Zeichenfolge in Übereinstimmung mit einer Integrationsregel, die von der Zeichenregionen-Integrationsregelsektion 312 eingestellt wird, um Elementdaten zu extrahieren. Die Integrationsergebnis-Speichersektion 313 speichert die von der Zeichenregionen-Integrationssektion 311 extrahierten Elementdaten.
Insbesondere konstruieren die Kennzeichnungssektion 309, die Kennzeichnungsinformations-Speichersektion 310, die Zeichenregionen-Integrationssektion 311, die Zeichenregionen-Integrationsregelsektion 312 und die Integrationsergebnis-Speichersektion 313 im Zusammenwirken die Element-Datenextraktionssektion 2D.
Die Zeichenfolgen-Vertikal/Horizontal-Diskriminierungssektion 314 analysiert, ob die Form von Elementdaten, die von der Zeichenregionen-Integrationssektion 311 extrahiert werden, eine vertikal längliche Form oder eine horizontal längliche Form ist, um zu diskriminieren, ob die Leserichtung von Bilddaten eine vertikale Leserichtung oder eine horizontale Leserichtung ist.
Die Bild-90-Grad-Drehsektion 307 dreht, wenn von der Zeichenfolgen-Vertikal/Horizontal-Diskriminierungssektion 314 bestimmt wird, dass die Zeichenfolge von Elementdaten eine vertikal längliche Zeichenfolge ist, die Bilddaten um 90 Grad, um eine Drehkorrektur der Bilddaten zu bewirken.
Die Zeichenfolgen-Erkennungssektion 17 erkennt Zeichen in Elementdaten. Die Bild-180-Grad-Drehsektion 308 dreht, wenn von der Zeichenfolgen-Erkennungssektion 17 eine Zeichenerkennung nicht erfolgreich vorgenommen werden kann, die Bilddaten um 180 Grad, um eine Drehkorrektur der Bilddaten zu bewirken.
Es ist zu beachten, dass einer Drehkorrektur unterzogene Bilddaten in dem Bilddaten-Sicherungsspeicher 302 und dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert werden, und von der Kennzeichnungsssektion 309, der Zeichenregionen-Integrationssektion 311, der Zeichenfolgen-Vertikal/Horizontal-Diskriminierungssektion 314 und der Zeichenfolgen-Erkennungssektion 17 auf eine ähnliche Weise wie hier im Vorstehenden beschrieben verarbeitet werden.
Wenn Bilddaten von der Bilddaten-Eingabesektion 301 eingegeben werden, dann werden, in der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung mit der oben beschriebenen Konstruktion, gezogene Linienelemente oder Elementdaten aus den Bilddaten extrahiert.
Wenn die Bilddaten gezogene Linienelemente einschließen, werden die gezogenen Linienelemente hier von der Extraktionssektion 2C für gezogene Linien extrahiert, und von der Tabellen-Strukturanalysesektion 2E wird analysiert, welche eine von einer vertikal länglichen Form und einer ho rizontalen länglichen Form die Form der von der Tabellen-Strukturanalysesektion 2E gezogenen Linienelemente ist.
Wenn analysiert wird, dass die Form der gezogenen Linienelemente eine vertikal längliche Form ist, werden dann die Bilddaten von der Bild-90-Grad-Drehsektion 307 einer Drehkorrektur um 90 Grad unterworfen.
Wenn hingegen analysiert wird, dass die Form der gezogenen Linienelemente eine horizontal längliche Form ist, wird eine Zeichenerkennung der gezogenen Linienelemente von der Zeichenfolgen-Erkennungssektion 17 vorgenommen, wenn jedoch die Zeichenerkennung nicht erfolgreich vorgenommen werden kann, werden die Bilddaten von der Bild-180-Grad-Drehsektion 108 einer Drehkorrektur um 180 Grad unterworfen.
Wenn die Bilddaten keine gezogenen Linienelemente einschließen, werden darüber hinaus Elementdaten von der Zeichenregionen-Integrationssektion 311 extrahiert, und von der Zeichenregionen-Integrationssektion 311 wird analysiert, welche eine von einer vertikal länglichen Form und einer horizontal länglichen Form die Form der von der Zeichenregionen-Integrationssektion 311 extrahierten Elementdaten ist.
Wenn analysiert wird, dass die Form der Elementdaten eine horizontal längliche Form ist, wird hier eine Zeichenerkennung der gezogenen Linienelemente von der Zeichenfolgen-Erkennungssektion 17 vorgenommen, wenn jedoch die Zeichenerkennung nicht erfolgreich vorgenommen werden kann, werden die Bilddaten von der Bild-180-Grad-Drehsektion 108 einer Drehkorrektur um 180 Grad unterworfen.
Die Bilddaten-Drehkorrekturvearbeitung der Datenmedium-Handhabungsvorrichtung 30 wird dann mit Bezugnahme auf die in 12 und 13 gezeigten Flussdiagramme weiter beschrieben.
Zuerst wird ein Lesen von Bilddaten einer Bestätigung, eines Dokuments oder dgl., die für eine Bilderkennung zu verarbeiten sind, vorgenommen (Schritt G1). Es ist zu beachten, dass die Form einer Bestätigung, eines Dokuments oder dgl. von einer beliebigen Richtung gelesen werden kann.
Wenn beispielsweise ein Dokument 320 mit solchen gezogenen Linienelementen wie in 10 gezeigt gelesen wird, werden die gelesenen Bilddaten einmal in dem Bilddaten-Sicherungsspeicher 302 gespeichert (Schritt G2). Es ist zu beachten, dass nur beim ersten Lesen dieselben Bilddaten auch in dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert werden (Schritt G3).
Dann werden gezogene Linienelemente in den Bilddaten extrahiert (in 10 ist beispielsweise ein gezogenes Linienelement M gezeigt) (Schritt G4).
Wenn gezogene Linienelemente erfolgreich extrahiert werden, werden hier die gezogenen Linienelementinformationen in der Speichersektion 304 für gezogene Linienelementinformationen gespeichert (Schritt G5 und G6).
Die Tabellen-Strukturanalysesektion 2E analysiert die Form jedes der gezogenen Linienelemente auf der Basis der gezogenen Linienelementinformationen, die in der Speichersektion 304 für gezogene Linienelementinformationen gespeichert sind, und diskriminiert und klassifiziert, ob das gezogene Linienelement ein vertikal längliches gezogenes Linienelement oder ein horizontal längliches gezogenes Linienelement ist oder nicht (Schritte G7 und G8). Wenn das gezogene Linienelement der gezogenen Linieninformationen ein horizontal längliches gezogenes Linienelement ist, wird es dann in der Speichersektion 306 für horizontal längliche gezogene Linienelemente gespeichert (Schritt G9).
Ferner diskriminiert die Tabellen-Strukturanalysesektion 2E, auf der Basis eines von der Vertikal/Horizontal-Diskriminierungseinstellsektion 305 eingestellten Kriteri ums, ob die Anzahl horizontal länglicher gezogener Linienelemente größer ist als die Anzahl vertikal länglicher gezogener Linienelemente oder nicht, um zu diskriminieren, ob die Leserichtung der Bilddaten richtig oder falsch ist (Schritt G10).
Wenn die Tabellen-Strukturanalysesektion 2E diskriminiert, dass die Anzahl horizontal länglicher gezogener Linienelemente größer ist, dann wird hier die Zeichenerkennung von der Zeichenfolgen-Erkennungssektion 17 vorgenommen (vom JA-Weg von Schritt G10 zu Schritt G11).
Wenn die Zeichenerkennung von der Zeichenfolgen-Erkennungssektion 17 erfolgreich vorgenommen wird, dann wird diskriminiert, dass die Leserichtung der Bilddaten normal ist (JA-Weg von Schritt G12).
Wenn im Gegensatz dazu die Zeichenerkennung durch die Zeichenfolgen-Erkennungssektion 17 nicht erfolgreich vorgenommen wird, unterwirft die Bild-180-Grad-Drehsektion 308, da die Möglichkeit besteht, dass das Bild um 180 Grad gedreht wurde (das heißt das Bild ist vertikal invertiert), die Bilddaten des Sicherungsspeichers 303 für gedrehte Bilddaten einer Drehkorrektur um 180 Grad, nachdem die Bilddaten einmal in dem Bilddaten-Sicherungsspeicher 302 gespeichert werden (Schritt G14). Dementsprechend werden die Bilddaten nach der Drehung um 180 Grad danach in dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert und einer Verarbeitung ähnlich der hier im Vorstehenden beschriebenen Verarbeitung unterzogen (Schritte G4 bis G12).
Wenn hingegen von der Tabellen-Strukturanalysesektion 2E diskriminiert wird, dass die Anzahl vertikal länglicher gezogener Linienelemente größer ist, dann werden die in dem Bilddaten-Sicherungsspeicher 302 zu speichernden Bilddaten von der Bild-90-Grad-Drehsektion 308 einer Drehkorrektur um 90 Grad unterworfen (Schritt G13). Dementsprechend werden die Bilddaten nach der Drehung danach in dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert und einer Verarbeitung ähnlich der hier im Vorstehenden beschriebenen Verarbeitung unterzogen (Schritte G4 bis G12).
Dann, wenn die Zeichenerkennung durch die Zeichenfolgen-Erkennungssektion 17 auch mit den Bilddaten nicht erfolgreich vorgenommen wird, nachdem die 90-Grad-Drehkorrekturverarbeitung vorgenommen wurde, dann werden die Bilddaten des Sicherungsspeichers 303 für gedrehte Bilddaten, da die Möglichkeit besteht, dass das Bild in einem um 180 gedrehten Zustand sein kann, von der Bild-180-Grad-Drehsektion 308 einer Drehkorrektur um 180 Grad unterworfen, nachdem sie einmal in dem Bilddaten-Sicherungsspeicher 302 gespeichert werden (Schritt G14). Dementsprechend werden die Bilddaten nach der Drehung um 180 Grad danach in dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert und einer Verarbeitung ähnlich der hier im Vorstehenden beschriebenen Verarbeitung unterzogen (Schritte G4 bis G12).
Wenn hingegen kein gezogenes Linienelement in dem oben beschriebenen Schritt G5 erfolgreich extrahiert wird, dann wird, da dies der Fall ist, in dem beispielsweise ein solches Dokument 321 gelesen wird, das kein gezogenes Linienelement aufweist, wie in 11 gezeigt, die folgende Verarbeitung vorgenommen, um Elementdaten zu extrahieren.
Zuerst extrahiert die Kennzeichnungssektion 309 Kennzeichnungsinformationen (in 11 sind beispielsweise Kennzeichnungsinformationen N veranschaulicht) aus den in dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeicherten Bilddaten (vom NEIN-Weg von Schritt G5 bis Schritt G15 von 13). Die extrahierten Kennzeichnungsinformationen werden in der Kennzeichnungsinformations-Speichersektion 310 gespeichert (Schritt G16).
Dann integriert die Zeichenregionen-Integrationssektion 311 einzelne Stücke der in der Kennzeichnungsinformations-Speichersektion 310 gespeicherten Kennzeichnungsinformationen in eine Zeichenfolge auf der Basis der Regel der Zeichenregionen-Integrationsregelsektion 312. Dementsprechend werden Elementdaten (in 11 ist beispielsweise ein Zeichenregionen-Integrationsergebnis
in dem sieben Stücke von Kennzeichnungsinformationen
in eine Zeichenfolge integriert werden, als Elementdaten veranschaulicht) extrahiert (Schritt G17), und das Integrationsergebnis wird in der Integrationsergebnis-Speichersektion 313 gespeichert (Schritt G18).
Ferner diskriminiert die Zeichenfolgen-Vertikal/Horizontal-Diskriminierungssektion 314, ob die Anzahl horizontal länglicher Elementdaten größer ist als die Anzahl vertikal länglicher Elementdaten oder nicht, um zu diskriminieren, ob die Leserichtung der Bilddaten richtig oder falsch ist (Schritt G19).
Wenn von der Zeichenfolgen-Vertikal/Horizontal-Diskriminierungssektion 314 diskriminiert wird, dass die Anzahl horizontal länglicher Elementdaten größer ist, dann wird hier die Zeichenerkennung von der Zeichenfolgen-Erkennungssektion 17 vorgenommen (Schritt G20).
Wenn die Zeichenerkennung von der Zeichenfolgen-Erkennungssektion 17 erfolgreich vorgenommen wird, wird bestimmt, dass die Leserichtung der Bilddaten normal ist (Schritt G21).
Wenn hingegen die Zeichenerkennung von der Zeichenfolgen-Erkennungssektion 17 nicht erfolgreich vorgenommen wird, dann werden die Bilddaten des Sicherungsspeichers 303 für gedrehte Bilddaten, da die Möglichkeit besteht, dass das Bild in einem um 180 Grad gedrehten Zustand ist, einer Drehkorrektur um 180 Grad unterworfen, nachdem sie einmal in dem Bilddaten-Sicherungsspeicher 302 gespeichert werden (Schritt G23). Dementsprechend werden die Bilddaten nach der Drehung um 180 Grad danach in dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert und einer Verarbeitung ähnlich der hier im Vorstehenden beschriebenen Verarbeitung unterzogen (Schritte G15 bis G21).
Wenn hingegen von der Zeichenfolgen-Vertikal/Horizontal-Diskriminierungssektion 314 diskriminiert wird, dass die Anzahl vertikal länglicher Elementdaten größer ist, dann werden die in dem Bilddaten-Sicherungsspeicher 302 gespeicherten Bilddaten von der Bild-90-Grad-Drehsektion 308 um 90 Grad einer Drehkorrektur unterworfen (Schritt G22). Dementsprechend werden die Bilddaten nach der Drehung danach in den Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert und einer Verarbeitung ähnlich der hier im Vorstehenden beschriebenen Verarbeitung unterzogen (Schritte G15 bis G21).
Dann, wenn die Zeichenerkennung durch die Zeichenfolgen-Erkennungssektion 17 auch mit den Bilddaten unmöglich ist, nachdem die 90-Grad-Drehkorrekturverarbeitung vorgenommen wurde, dann werden die Bilddaten des Sicherungsspeichers 303 für gedrehte Bilddaten, da die Möglichkeit besteht, dass das Bild in einem um 180 gedrehten Zustand ist, von der Bild-180-Grad-Drehsektion 308 einer Drehkorrektur um 180 Grad unterworfen, nachdem sie einmal in dem Bilddaten-Sicherungsspeicher 302 gespeichert werden (Schritt G23). Dementsprechend werden die Bilddaten nach der Drehung um 180 Grad danach in dem Sicherungsspeicher 303 für gedrehte Bilddaten gespeichert und einer Verarbeitung ähnlich der hier im Vorstehenden beschriebenen Verarbeitung unterzogen (Schritte G15 bis G21).
Auf diese Weise werden, mit der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorlie genden Erfindung, ein gezogenes Linienelement oder Elementdaten aus gelesenen Bilddaten extrahiert, und es wird diskriminiert, ob die Form des extrahierten gezogenen Linienelements oder der extrahierten Elementdaten eine horizontal längliche Form oder eine vertikal längliche Form ist. Wenn die Form des gezogenen Linienelements oder der Elementdaten eine vertikal längliche Form ist, wird eine Drehkorrektur der Bilddaten um 90 Grad vorgenommen. Wenn die Zeichenerkennung nicht erfolgreich vorgenommen werden kann, auch wenn die Form des gezogenen Linienelements oder der Elementdaten eine horizontal längliche Form ist, dann wird eine Drehkorrektur der Bilddaten um 180 Grad vorgenommen. Dementsprechend kann, aus welcher Richtung die Bilddaten auch immer gelesen werden, die Leserichtung der Bilddaten automatisch diskriminiert werden, und wenn die Leserichtung der Bilddaten falsch ist, werden die Bilddaten automatisch einer Drehkorrektur unterworfen. Als Ergebnis ist die Datenmedium-Handhabungsvorrichtung 30 dadurch vorteilhaft, dass Bestätigungs- und Drehkorrekturoperationen durch einen Bediener eliminiert werden können, und eine automatische Verarbeitung von Dokumenten durch ein Client-Server-System effizient vorgenommen werden kann.
(a4) Beschreibung der Matrixkollationsverarbeitung
Da in einer Dokumentenhandhabungsvorrichtung oder einer ähnlichen Vorrichtung bei der Kollationsverarbeitung zwischen dem Layout eines Objektdokuments zur Verarbeitung und in einer Layout-DB oder dgl. gespeicherten Layouts Komponenten der einzelnen Layouts (gezogene Linienelemente, Elementdaten, usw.) erfolgreich kollationiert werden, um einen Vergleich zwischen Koordinaten, Größen oder dgl. zu bewirken, steigt allgemein mit zunehmender Komponentenanzahl (N) der Layouts die Anzahl von Kollationsoperationen sehr stark an, und die Kollationsverarbeitung im Layout einer größeren Anzahl von Dokumenten kann nicht mit einer hohen Geschwindigkeit vorgenommen werden.
Daher werden, in der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung, Layouts gezogener Linienelemente, die zu Komponenten eines Layouts gehören, einer Kompressionsverarbeitung unterzogen und als Matrixtabellen dargestellt, und bei der Kollation zwischen Layouts werden die Matrixtabellen von ihnen miteinander kollationiert, so dass eine Kollationsverarbeitung der Layouts einer großen Anzahl von Dokumenten mit einer hohen Geschwindigkeit vorgenommen werden kann.
Hier ist die Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung so konstruiert, dass die Layout-Kollationsverarbeitungssektion 3 ein Layout eines gezogenen Linienelements, das von der Layout-Analyseverarbeitungssektion 2 extrahiert wird, einer Kompressionsverarbeitung unterzieht, um es als Matrixtabelle darzustellen, und in der Layout-DB 14 gespeicherte Referenzmatrixtabellen unter Verwendung der Matrixtabelle als einschränkende Abfragebedingung abfragt, um zu kollationieren, ob eine koinzidente Matrixtabelle vorliegt oder nicht. Auf der Basis eines Ergebnisses der Kollation diskriminiert der Zeichenerkennungs-Verarbeitungsblock 17 Informationen des Bilds an einer spezifizierten Position.
Hier ist in 22 eine Verarbeitungsdiagrammansicht gezeigt, in der die Matrixkollationsverarbeitung der Datenmedium-Handhabungsvorrichtung 30 gemäß der vorliegenden Ausführungsform beschrieben wird.
Wenn ein Objektdokument zur Verarbeitung gelesen wird, und Bilddaten 19 eines Analyseobjekts zuerst eingegeben werden, dann analysiert, in der Datenmedium-Handhabungsvorrichtung 30, wie in 22 ersichtlich, die Layout-Analyseverarbeitungssektion 2 die eingegebenen Bilddaten, um gezo genen Liniensegmente zu extrahieren, und extrahiert aus den gezogenen Liniensegmenten gebildete Rechtecke als gezogene Linienelemente.
In diesem Fall wird ein Schräglagegrad des Bilds aus den gezogenen Liniensegmenten berechnet, usw., und eine Schräglagekorrektur für Koordinatenpositionen der extrahierten einzelnen gezogenen Linienelemente wird vorgenommen. Ferner werden die logischen Ursprünge und Korrekturkoordinaten des Layouts extrahiert, und die Koordinatenpositionen, die logischen Ursprünge und die Korrekturkoordinaten der korrigierten gezogenen Linienelemente werden als Layoutinformationen eingestellt (F1).
Dann erzeugt die Layout-Kollationsverarbeitungssektion 3 eine Bittabelle für 10 DPI (Bildpunkte pro Zoll), die den eingegebenen Bilddaten entspricht, und trägt die linken oberen Koordinaten der einzelnen gezogenen Linienelemente und die rechten unteren Koordinaten des gezogenen Linienelements in der untersten Reihe der Layoutinformationen an entsprechenden Positionen auf der Bittabelle auf.
Ferner wird die erzeugte Bittabelle in Abhängigkeit vom Vorliegen oder Fehlen von Daten in einer Reihe einer Kompressionsverarbeitung unterzogen, und wird in einer Richtung einer Reihe in Abhängigkeit von der Regelmäßigkeit der Konstruktionen von Reihen einer Kompressionsverarbeitung unterzogen, um eine Matrixtabelle zu erzeugen (Schritt F2).
Die auf diese Weise komprimierte Matrixtabelle wird in der Layout-DB 14 zusammen mit den anderen Layoutinformationen gespeichert (Schritt F3).
Es ist zu beachten, dass der oben beschriebene Schritt F1 dem in 2 veranschaulichten Schritt A2 entspricht, und die oben beschriebenen Schritte F2 und F3 entsprechen dem in 2 veranschaulichten Schritt A3.
Wenn ein Objektdokument zur Kollation gelesen wird, und Bilddaten 19 eines Analyseobjekts eingegeben werden, dann nimmt ferner, in der Datenmedium-Handhabungsvorrichtung 30, die Layout-Analyseverarbeitungssektion 2 eine Verarbeitung ähnlich jener in dem oben beschriebenen Schritt F1 für die eingegebenen Bilddaten vor, und stellt Koordinatenpositionen, logische Ursprünge und Korrekturkoordinaten gezogener Linienelemente als Layoutinformationen ein (Schritt F4).
Dann nimmt die Layout-Kollationsverarbeitungssektion 3 eine Verarbeitung ähnlich jener in dem oben beschriebenen Schritt F2 für die eingegebenen Bilddaten vor, um eine Matrixtabelle zu erzeugen (Schritt F5).
Hier liest die Layout-Kollationsverarbeitungssektion 3 die Matrixtabelle eines Kollationsobjekts aus der Layout-DB 14 aus, und kollationiert Bitpositionen mit Bezugnahme auf die einzelnen logischen Ursprünge des Layouts in Einheiten einer Reihe, um eine Kollation zwischen der Matrixtabelle des ausgelesenen Kollationsobjekts und der in dem oben beschriebenen Schritt F5 erzeugten Matrixtabelle zu bewirken.
Ferner wird die Anzahl koinzidenter Bits in Bezug auf die Anzahl aller Kollationsbits aus einem Ergebnis der Kollation der Bitpositionen der Matrixtabelle berechnet, und ein Kollationsergebnis 200 wird als Koinzidenzverhältnis der Matrixtabelle ausgegeben (Schritt F6).
Es ist zu beachten, dass der oben beschriebene Schritt F4 dem in 2 veranschaulichten Schritt A9 entspricht, und die oben beschriebenen Schritte F5 und F6 entsprechen dem in 2 veranschaulichten Schritt A10.
Hier wird die Matrixtabellen-Erzeugungsverarbeitung in den oben beschriebenen Schritten F2 und F5 mit Bezugnahme auf 23 beschrieben.
Zuerst werden gezogene Linien aus einem Bild extrahiert, das ein Objekt der Erzeugung einer Matrixtabelle ist, und gezogene Linienelemente (aus gezogenen Linien gebildete minimale rechtwinklige Regionen) werden aus den extrahierten gezogenen Linien extrahiert. In diesem Fall wird die Schräglagekorrektur für die einzelnen Koordinaten der extrahierten gezogenen Linienelemente auf der Basis von Schräglagegradinformationen des Layouts vorgenommen (Schritt F21).
Dann wird die Linearität jeder gezogenen Linie am Layout geprüft, um eine Verformungsrate der gezogenen Linie zu erfassen, und eine Verformungskorrektur für die Koordinaten der gezogenen Linienelemente wird vorgenommen, deren Schräglage in Schritt F21 korrigiert wurde (Schritt F22).
Ferner wird auf horizontale gezogene Linien Bezug genommen, die die gezogenen Linienelemente bilden, um die Werte der Y-Koordinaten der linken oberen Ecke jener gezogenen Linienelemente einzustellen, deren gezogene Linien auf der Oberseite dieselben gezogenen Linien gemeinsam haben, so dass alle von ihnen dieselben Werte aufweisen, um eine Normalisierung der Y-Koordinaten zu bewirken, wie in 24(a) ersichtlich (Schritt F23), und es wird auf vertikale gezogene Linien Bezug genommen, die die gezogenen Linienelemente bilden, um die Werte der X-Koordinaten der linken oberen Ecke jener gezogenen Linienelemente einzustellen, deren gezogene Linien auf der linken Seite dieselben gezogenen Linien gemeinsam haben, so dass alle von ihnen dieselben Werte aufweisen, um eine Normalisierung der X-Koordinaten zu bewirken, wie in 24(b) gezeigt (Schritt F24).
Insbesondere werden, in der vorliegenden Ausführungsform, vor der Kompressionsverarbeitung einer Bittabelle, in der das Layout gezogener Linienelemente reflektiert wird, eine Schräglagekorrektur- und Verformungskorrekturverarbeitung für die gelesenen Bilddaten vorgenommen (siehe Schritte F21 und F22), und dann wird auf horizontale gezogene Linien Bezug genommen, die die gezogenen Linienelemente bilden, um eine Y-Koordinaten-Vereinheitlichungsverarbeitung für jene gezogenen Linienelemente vorzunehmen, deren gezogene Linien auf der Oberseite dieselben gezogenen Linien gemeinsam haben (siehe Schritt F23), wonach auf vertikale gezogene Linien Bezug genommen wird, die die gezogenen Linienelemente bilden, um eine X-Koordinaten-Vereinheitlichungsverarbeitung für jene gezogenen Linienelemente vorzunehmen, deren gezogene Linien auf der linken Seite dieselben gezogenen Linien gemeinsam haben (siehe Schritt F24), um eine Variation im Layout zu absorbieren, die beim Lesen von Bilddaten erzeugt wird.
Ferner werden, für alle gezogenen Linienelemente am Layout, die linken oberen Eckkoordinaten der gezogenen Linienelemente einer Koordinatenkonvertierung (Bitsequenzkonvertierung) in Übereinstimmung mit einer bezeichneten Auflösung der Bittabelle in Einheiten gezogener Linienelemente mit derselben Y-Koordinate unterzogen, und Bits werden an entsprechenden Positionen der Tabelle eingestellt, wie in 25 ersichtlich.
In diesem Fall werden Distanzen zwischen den Y-Koordinaten der konvertierten gezogenen Linienelemente in den Reihenverwaltungsinformationen J eingestellt, wie in 26 ersichtlich (Schritt F25).
Hier wird die durch die Konvertierung in Schritt F25 erzeugte Bittabelle für einen nachfolgenden Vergleich von Reihen verarbeitet, beginnend mit der obersten Reihe, wie in 27 ersichtlich, und aufeinanderfolgende Reihen mit derselben Bitkonstruktion werden in einer Reihenrichtung in eine Reihe komprimiert, um komprimierte Reihenbitinformationen K zu erzeugen, und eine Kompressionsvollendungsflagge Q wird als Reihenkompressionsinformationen in den Reihenverwaltungsinformationen J gesetzt (Schritt F26).
Dann werden Matrixtabelleninformationen S, die die so erzeugten komprimierten Reihenbitinformationen K und Reihen verwaltungsinformationen J einschließen, als Matrixtabelle eingestellt, wie in 28 ersichtlich (Schritt F27).
Insbesondere werden, in der vorliegenden Ausführungsform, bei der Kollationsverarbeitung der Layouts gezogener Linienelemente, die Layouts der gezogenen Linienelemente in entsprechende Bitsequenzen konvertiert, und die Bitsequenzen werden einer Kompressionsverarbeitung unterzogen. Dann wird die so einer Kompressionsverarbeitung unterzogene Bittabelle als Matrixtabelle eingestellt. Dementsprechend steigt die Anzahl von Kollationsoperationen bei der Layout-Kollation nur linear proportional zur Anzahl von Layouts eines Kollationsobjekts, ohne auf die Komponentenanzahl (N) des Layouts zurückzugreifen, und eine Kollationsverarbeitung der Layouts einer großen Anzahl von Dokumenten kann mit einer hohen Geschwindigkeit vorgenommen werden.
Ferner wird die oben in Schritt F6 beschriebene Matrixtabellen-Kollationsverarbeitung mit Bezugnahme auf die in 29 und 30 gezeigten Flussdiagramme beschrieben.
Zuerst erzeugt und erfasst die Layout-Kollationsverarbeitungssektion 3 solche Kollationsquellen-Matrixinformationen wie beispielsweise in 31(a) ersichtlich, und stellt komprimierte Reihenbitinformationen (K1) der Kollationsquellen-Matrixinformationen in einer Kollationsquellen-Arbeitsregion ein (Schritt D1).
Ferner werden beispielsweise solche Kollationsziel-Matrixinformationen wie in 31(b) veranschaulicht aus der Layout-DB 14 erfasst, und komprimierte Reihenbitinformationen (K'1) der Kollationsziel-Matrixinformationen werden in einer Kollationsziel-Arbeitsregion eingestellt (Schritt D2).
Dann vergleicht und kollationiert die Layout-Kollationsverarbeitungssektion 3 aufeinanderfolgend die komprimierten Reihenbitinformationen (K1) und (K'1), beginnend mit den obersten Bits, um eine Kollation für eine Reihe zu bewirken (Schritt D3).
Wenn die komprimierten Reihenbitinformationen (K1) und (K'1) keine Koinzidenz zeigen, dann wird hier eine Inkoinzidenz als Kollationsergebnis 200 eingestellt (siehe 22) (Schritte D4 und D10). Da jedoch die komprimierten Reihenbitinformationen (K1) und (K'1) hier koinzident sind, werden die komprimierten Kollationsquellen-Reihenbitinformationen K in der Kollationsquellen-Arbeitsregion auf der Basis der Reihenverwaltungsinformationen J eingestellt (Schritte D4 und D5).
In diesem Schritt D5 wird auf die Reihenverwaltungsinformationen J Bezug genommen (Schritt E1), und wenn die Kompressionsvollendungsflagge Q für die entsprechende Reihe der Reihenverwaltungsinformationen J gesetzt ist, dann wird diskriminiert, dass die Reihe eine komprimierte Reihe ist, und die komprimierten Reihenbitinformationen K der zuletzt kollationierten Reihe werden in der Kollationsquellen-Arbeitsregion eingestellt (Schritte E2 und E4). Wenn jedoch die Kompressionsvollendungsflagge Q für die entsprechende Reihe der Reihenverwaltungsinformationen J nicht gesetzt ist, wird diskriminiert, dass die Reihe eine nicht-komprimierte Reihe ist, und komprimierte Reihenbitinformationen K der neu entsprechenden Reihe werden in der Kollationsquellen-Arbeitsregion eingestellt (Schritte E2 und E3).
Ferner werden auch die komprimierten Kollationsziel-Reihenbitinformationen K' in der Kollationsziel-Arbeitsregion auf der Basis der Reihenverwaltungsinformationen J' eingestellt (Schritt D6).
Auch in diesem Schritt D6, ähnlich wie in dem oben beschriebenen Schritt D5, wird auf die Reihenverwaltungsinformationen J' Bezug genommen (Schritt E1), und wenn die Kompressionsvollendungsflagge Q' für die entsprechende Reihe der Reihenverwaltungsinformationen J' gesetzt ist, wird dis kriminiert, dass die Reihe eine komprimierte Reihe ist, und die komprimierten Reihenbitinformationen K' der zuletzt kollationierten Reihe werden in der Kollationsquellen-Arbeitsregion eingestellt (Schritte E2 und E4). Wenn jedoch die Kompressionsvollendungsflagge Q' für die entsprechende Reihe der Reihenverwaltungsinformationen J' nicht gesetzt ist, wird diskriminiert, dass die Reihe eine nicht-komprimierte Reihe ist, und komprimierte Reihenbitinformationen K' der neu entsprechenden Reihe werden in der Kollationsquellen-Arbeitsregion eingestellt (Schritte E2 und E3).
Wenn ein Vergleichsergebnis der komprimierten Reihenbitinformationen K und K' für alle Reihen zeigt, dass alle Reihen innerhalb eines festgelegten Bereichs miteinander koinzidieren, dann wird eine Koinzidenz als Kollationsergebnis 200 eingestellt (Schritte D7 bis D9).
Wenn im Gegensatz dazu in der Vergleichsverarbeitung eine Inkoinzidenz gefunden wird, oder Reihenbitinformationen eines der Vergleichsobjekte enden, bevor der Vergleich vollendet ist, dann wird eine Inkoinzidenz als Kollationsergebnis 200 eingestellt (Schritte D7, D8 und D10).
Da Layouts gezogener Linienelemente, die zu den Komponenten eines Layouts gehören, einer Kompressionsverarbeitung unterzogen werden, um so als Matrixtabellen dargestellt zu werden, und, beim Layout-Vergleich, die Matrixtabellen miteinander kollationiert werden, steigt auf diese Weise, mit der Matrixkollationsverarbeitung der Mediumhandhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung, die Layout-Kollationsverarbeitungsgeschwindigkeit nur linear proportional zur Anzahl von Kollationsobjekt-Layouts, ohne auf die Anzahl gezogener Linienelemente zurückzugreifen. Dementsprechend kann eine Kollationsverarbeitung von Layouts einer großen Anzahl von Dokumenten mit einer hohen Geschwindigkeit vorgenommen werden.
Da die Kollationsobjekt-Layouts in gezogenen Linienelementen dargestellt werden, die die Layouts konstruieren, können in diesem Fall die Layouts stabil dargestellt werden.
Da, vor der Kompressionsverarbeitung einer Bittabelle, in der das Layout gezogener Linienelemente reflektiert wird, eine Schräglagekorrektur- und Verformungskorrekturverarbeitung für gelesenen Bilddaten vorgenommen werden, und eine Y-Koordinaten-Vereinheitlichungsverarbeitung und X-Koordinaten-Vereinheitlichungsverarbeitung für die einzelnen gezogenen Linienelemente vorgenommen werden, um eine einer Subabtastung unterzogene Bittabelle zu erzeugen, kann ferner eine Variation im Layout absorbiert werden, die beim Lesen der Bilddaten erzeugt wird.
Da eine Bittabelle in Übereinstimmung mit einer Charakteristik eines Dokuments erster Ordnung komprimiert wird, kann darüber hinaus die Anzahl von Layoutkomponenten in dem Dokument effizient durch Kompression dargestellt werden.
(a5) Beschreibung der Charakteristikadaten-Erkennungsverarbeitung
Da allgemein, in einer Zeichenerkennungsvorrichtung, gewöhnliche Zeichen ein Erkennungsobjekt ausmachen, muss ein Wörterbuch verwendet werden, das für ein Erkennungsobjekt unter Berücksichtigung eines Erkennungsverhältnisses erzeugt wird, und eine willkürliche grafische Form, die dynamisch bezeichnet wird, kann nicht erkannt werden.
Da im Voraus angenommen wird, dass das Erkennungsobjekt Zeichen sind, bestehen ferner Einschränkungen, wie Einschränkungen hinsichtlich der Region eines Erkennungsobjekts und Einschränkungen beim Einstellen von Definitionsobjekten zur Erkennung, und eine willkürliche Region kann nicht als Erkennungsobjekt eingestellt werden.
Daher ist die Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung so kon struiert, dass ein Regionenbild (Layout), das Zeichen, grafische Formen, usw., einschließt, die bei der Zeichenerkennungsverarbeitung nicht erkannt werden können, als Charakteristikadaten aufgezeichnet wird, während Codedaten, die den Charakteristikadaten entsprechen, als zusätzliche Informationen für das Layout aufgezeichnet werden, und bei der Layout-Kollationsverarbeitung wird eine Kollation zwischen den Charakteristikadaten der Layouts vorgenommen, und wenn koinzidente Charakteristikadaten gefunden werden, werden den Charakteristikadaten entsprechende Codedaten erfasst und als Ergebnis der Erkennung auf der Anzeigeeinheit angezeigt, so dass Zeichen, grafische Formen, usw., die bei der Zeichenerkennungsverarbeitung nicht erkannt werden können.
Eine Verarbeitungsdiagrammansicht, in der die Charakteristikadaten-Erkennungsverarbeitung der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung beschrieben wird, ist in 32 gezeigt.
In der Datenmedium-Handhabungsvorrichtung 30 gemäß der vorliegenden Ausführungsform wird die Charakteristikadaten-Erkennungsverarbeitung vorgenommen, wie in 32 ersichtlich, durch den Registrierungsschritt (Schritte H1, A6 und H2) des Registrierens von Charakteristikadaten in die Layout-DB 14 durch eine Lernverarbeitung, und den Kollationsschritt (Schritt H3) des Kollationierens, ob registrierte Charakteristikadaten mit einem getrennt gelesenen Bild koinzidente Charakteristikadaten einschließen oder nicht.
In dem Registrierungsschritt werden Charakteristika im Layout eines gelesenen Bilds extrahiert, um die Struktur des Layouts zu analysieren (Schritt H1), und die analysierte Layout-Struktur wird auf einer Anzeigeeinheit 403 angezeigt (Schritt A6). Dann, wie in 33 ersichtlich, wird eine Layout-Lernverarbeitung (Schritt H2) so vorgenommen, dass eine vorherbestimmte Charakteristikadaten-Erkennungsregion T (in 33 durch schraffierte Linien angezeigt) für die angezeigte Layout-Struktur eingestellt wird, und Codedaten U [in 33 "Fujitsu (Ltd)"], die Embleminformationen entsprechen (in 33
) in der Region T werden mittels einer externen Eingabevorrichtung 404 eingegeben, wonach Regionencharakteristikadaten aus der Charakteristikadaten-Erkennungsregion T und den Codedaten U erzeugt werden, und in einem verknüpften Zustand mit der wie oben beschrieben analysierten Layout-Struktur registriert werden.
In der Datenmedium-Handhabungsvorrichtung 30 gemäß der vorliegenden Ausführungsform kann, durch das Vornehmen, bei der Registrierung von Regionencharakteristikadaten, einer Normalisierungsverarbeitung für die Charakteristikadaten-Erkennungsregion T, eine Kollation der Regionencharakteristikadaten mit Sicherheit im Kollationsschritt vorgenommen werden, der hier im Nachstehenden beschrieben wird.
Da, in diesem Registrierungsschritt, Codedaten mit einer Signifikanz, die Embleminformationen entsprechen, bei der Eingabe von Codedaten U, die Embleminformationen entsprechen, in die oben angegebene Region T eingegeben werden, kann die Datenmedium-Handhabungsvorrichtung 30, wenn sie die Charakteristikadaten-Erkennungsregion T erkennt, entsprechende Codedaten als Ergebnis der Erkennung auf dem Bildschirm anzeigen.
In dem Kollationsschritt, nach dem oben beschriebenen Registrierungsschritt, werden hingegen Charakteristika eines getrennt gelesenen Bilds extrahiert, und die Struktur im Layout wird analysiert, und dann wird die Layout-DB 14 unter Verwendung der Regionencharakteristikadaten und der Layout-Struktur, die in dem Registrierungsschritt registriert werden, als Referenzdaten abgefragt, um zu kollationieren, ob ein koinzidentes Layout vorhanden ist oder nicht.
Wenn die Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung mit der oben beschriebenen Konstruktion eine Charakteristikadaten-Erkennungsverarbeitung bewirkt, werden Charakteristikadaten in die Layout-DB 14 durch eine Lernverarbeitung registriert, und es wird kollationiert, ob einige registrierte Charakteristikadaten mit einem getrennt gelesenen Bild koinzidieren oder nicht. Wenn Koinzidenzcharakteristikadaten gefunden werden, dann werden den Charakteristikadaten entsprechende Codedaten erfasst und als Ergebnis der Erkennung auf der Anzeigeeinheit 403 angezeigt.
Der Betrieb der Datenmedium-Handhabungsvorrichtung 30 in diesem Fall wird mit Bezugnahme auf 32 bis 34 detaillierter beschrieben.
Insbesondere wenn, wie in 32 ersichtlich, ein Dokumentenbild 19 eines Layout-Analyseobjekts neu gelesen wird, dann analysiert die Layout-Analyseverarbeitungssektion 2 das Layout des Objektdokuments, um Layoutinformationen zu erzeugen (Schritt H1).
Hier werden, in dem Bediener-Bestätigungs/Korrekturverarbeitungsblock 18 (siehe 1), ein Bild des Dokuments und die analysierten Layoutinformationen auf der Anzeigeeinheit 403 angezeigt, und, wie in 33 ersichtlich, eine Charakteristikadaten-Erkennungsregion T (
) wird von einem Bediener eingestellt, und entsprechende Codedaten U ["Fujitsu (Ltd)"] werden von einer externen Eingabevorrichtung 404 eingegeben (Schritt H6).
Ferner erzeugt die Layout-Protokollinformationserzeugungs-Verarbeitungssektion 11 Regionencharakteristikadaten aus der Region T, die von dem Bediener bezeichnet wird, und den eingegebenen Codedaten U, und lernt und registriert die Regionencharakteristikadaten als Layout-Korrekturinformationen in der Layout-DB 14 zusammen mit den von dem Layout-Erkennungsverarbeitungsblock 16 erfassten Layoutinformatio nen (Schritt H2).
Demgemäß werden die Operationen in dem Registrierungsschritt von dem Bediener-Bestätigungs/Korrekturverarbeitungsblock 18 und der Layout-Protokollinformationserzeugungs-Verarbeitungssektion 11 vorgenommen, die oben beschrieben sind.
Nachdem die Regionencharakteristikadaten auf diese Weise in der Layout-DB 14 registriert sind, dann analysiert, wenn das Dokumentenbild 19 gleich wie das wie oben beschrieben verarbeitete erneut gelesen wird, die Layout-Analyseverarbeitungssektion 2 das Objektdokument und erzeugt Layoutinformationen.
Ferner fragt die Layout-Kollationsverarbeitungssektion 3 die Layout-DB 14 unter Verwendung der analysierten Layoutinformationen als Abfragebedingung ab, so dass die Layout-Korrekturinformationen für das Dokument erfasst werden, die in Schritt E2 gelernt und registriert wurden.
Hier wird kollationiert, ob die Regionencharakteristikadaten der erfassten Layout-Korrekturinformationen Regionencharakteristikadaten einschließen, die dem Bild des Dokuments entsprechen, das gerade analysiert wird, oder nicht. Wenn ein Ergebnis der Kollation aufzeigt, dass einige Regionencharakteristikadaten die Koinzidenzbedingungen mit dem Bild des Dokuments, das gerade analysiert wird, erfüllen, werden Codedaten U, die den Regionencharakteristikadaten entsprechen, als Layout-Erkennungsergebnis 20 eingestellt (Schritt H3).
Dann werden, in dem Bediener-Bestätigungs/Korrekturverarbeitungsblock 18, das gelesene Dokumentenbild und das Layout-Erkennungsergebnis 20 auf der Anzeigeeinheit 403 angezeigt, und die Charakteristikadaten-Erkennungsregion T und die entsprechenden Codedaten U werden als Erkennungsergebnis der Charakteristikadaten auf der Anzeigeeinheit 403 auf eine Weise ähnlich jener eines gewöhnlichen Zeichenerkennungsergebnisses 22 angezeigt, wie in 34 ersichtlich (Schritt A13).
Auf diese Weise werden, mit der Charakteristikadaten-Erkennungsverarbeitung der Mediumhandhabungsvorrichtung gemäß der Ausführungsform der vorliegenden Erfindung, ein Regionenbildcharakteristika-Extraktionsmechanismus und ein Charakteristika-Kollationsmechanismus ähnlichen jenen einer Zeichenerkennungsvorrichtung funktionell erweitert und mit einem Layout-Erkennungssystem so kombiniert, dass eine von einem Bediener in dem Registrierungsschritt bezeichnete Charakteristikadaten-Erkennungsregion T und entsprechende Codedaten U (Erkennungsergebniscode) dynamisch gelernt und in der Layout-DB 14 zusammen mit einem Ergebnis einer Layout-Analyse registriert werden, und wenn die Erkennung eines Dokuments mit demselben Layout wie einem bereits gelernten Layout vorzunehmen ist, werden Regionencharakteristikadaten aus der Layout-DB 14 zusammen mit den Layoutinformationen in dem Kollationsschritt erfasst, und eine Kollation der Regionencharakteristikadaten mit der Region eines Dokumentenbilds eines Erkennungsobjekts wird vorgenommen, wonach entsprechende Codedaten U als Ergebnis der Kollation erfasst werden, und als Erkennungsergebnis eingestellt und ausgegeben werden, um dadurch eine vorzunehmende Erkennungsverarbeitung eines Bilds einer grafischen Form in der bezeichneten Region in einer Verflechtungsbeziehung mit der Layout-Erkennungsverarbeitung zu gestatten.
Insbesondere durch das Registrieren eines willkürlichen bezeichneten Regionenbilds als Erkennungsobjektregion kann die willkürliche Region erkannt werden, um entsprechende Codedaten zu erfassen, ohne auf Zeichen beschränkt zu sein, und durch dynamisches Lernen der Erkennungsobjektregion in die Layout-DB 14 zusammen mit Layoutinformationen, wenn das Layout erneut auftritt, kann die Erkennungsverarbeitung der Erkennungsobjektregion in einer Verflechtungsbeziehung mit der Layout-Erkennungsverarbeitung vorgenommen werden.
Da Regionencharakteristikadaten eines Kollationsobjekts in einer verknüpften Beziehung mit Layoutinformationen aufgezeichnet werden, kann ferner in der vorliegenden Ausführungsform das Kollationsobjekt in Einheiten eines Layouts begrenzt werden, und dementsprechend muss kein großer Kollationsverarbeitungsumfang, wie er mit einer gewöhnlichen Zeichenerkennungsvorrichtung erforderlich ist, vorgenommen werden, und eine hohe Erkennungsrate kann erzielt werden.
Da eine Vielzahl von Erkennungsobjektregionen in demselben Dokument so eingestellt werden kann, dass Daten davon eine verknüpfte Beziehung haben, können ferner Positionsinformationen einer Erkennungsobjektregion in dem Layout und eine Datenstruktur in einer übereinstimmenden Beziehung miteinander registriert werden.
Es ist zu beachten, dass eine solche Charakteristikadaten-Erkennungsverarbeitung wie oben beschrieben auch bei einer 'Kana'-Erkennungsverarbeitung von 'Kanji'-Elementen oder einer Erkennungsverarbeitung eines Auftraggebers/Empfängers eines allgemeinen Austauschtransferdokuments angewendet werden kann.
Insbesondere wenn ein 'Kanji'-Element auf einem Dokument als Charakteristikadaten zu erkennen ist, wird eine Region des in 'Kanji' eingetragenen Elements als Charakteristikaregion bezeichnet, und entsprechende Codedaten werden in 'Kana' eingegeben, und die Charakteristikadaten und die Codedaten werden gelernt und zusammen mit Layoutinformationen des Dokuments registriert.
Wenn diese Gegenmaßnahme eingesetzt wird, dann können, wenn die Layout-Erkennung eines Dokuments mit einem Layout gleich wie dem Layout eines anderen gelernten und regis trierten Dokuments vorgenommen wird, Codedaten von 'Kana' als Ergebnis der Erkennung der Charakteristikaregion des 'Kanji'-Elements erfasst werden.
Ferner kann, ähnlich wie in dem Fall der Charakteristikadaten-Erkennungsverarbeitung des 'Kanji'-Elements, wenn ein Element eines Gummistempels, einer Unterschrift oder dgl. als Charakteristikadaten-Erkennungselement bezeichnet wird, dann ein Element eines Gummistempels, einer Unterschrift oder dgl. erkannt werden, die durch eine gewöhnliche Zeichenerkennung nicht erkannt werden können, und entsprechende Codedaten können als Erkennungsergebnis der Charakteristikaregion des Gummistempels, der Unterschrift oder dgl. erfasst werden.
Ferner hat, in einem allgemeinen Austauschtransferdokument, das Element des vollständigen Namens eines Auftraggebers oder des vollen Namens eines Empfängers, das einzutragen ist, keine willkürliche Kombination, sondern hat eine Beziehung, die von dem Dokument abhängig ist (siehe 35 und 36).
Durch Lernen und Registrieren, wenn die vollständigen Namen eines Auftraggebers und eines Empfängers zu lernen und als Charakteristikadaten-Erkennungselemente zu registrieren sind, wobei Beziehungen von diesen in einer verknüpften Beziehung stehen, kann demgemäß eine Erkennung mit einem höheren Genauigkeitsgrad bei der Charakteristikadatenkollation vorgenommen werden.
(a6) Beschreibung der Überschriftanalyseverarbeitung
In der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung wird eine Überschriftanalyseverarbeitung vorgenommen, bei der eine Überschriftposition aus einer gezogenen Linienelementstrukut eines Dokumentenbilds eines Analyseobjekts gesucht und kollationiert wird, und Elementinformationen, die einer auf einem Dokument eingetragenen Überschrift entsprechen, werden automatisch analysiert.
Hier schließt die Datenmedium-Handhabungsvorrichtung 30 gemäß der vorliegenden Ausführungsform ein: den Layout-Analyseverarbeitungsschritt A2 (oder A9) des logischen Darstellens eines Layouts eines gelesenen Bilds, und den Layout-Kollationsverarbeitungsschritt A3 (oder A10) des Kollationierens, ob ein mit dem Layout des gelesenen Bilds koinzidentes Layout in der Layout-DB 14 vorhanden ist oder nicht.
Der Layout-Analyseverarbeitungsschritt A2 (oder A9) extrahiert gezogene Linienelemente des Layouts des gelesenen Bilds, analysiert die Struktur des Layouts, bestimmt eine Überschriftregion in dem Bild aus den extrahierten gezogenen Linienelementen, erkennt Überschriftelementinformationen in der Überschriftregion, um entsprechende Elementdaten zu bestimmen, und stellt das Layout logisch dar, und wird von der Layout-Analysesektion 2B der Layout-Analyseverarbeitungssektion 2 bewirkt.
Dieser Layout-Analyseverarbeitungsschritt A2 (oder A9) schließt ein: den Überschriftpositionskandidaten-Bestimmungsschritt des Bestimmens von Überschriftpositionskandidaten auf der Basis eines Strukturanalyseergebnisses eines Layouts, und den Überschriftelement-Kollationsschritt des Kollationierens von Überschriftelementinformationen in der Überschriftregion mit den in dem Überschriftpositionskandidaten-Bestimmungsschritt bestimmten Überschriftpositionskandidaten.
Es ist zu beachten, dass die Kollationsverarbeitung von Überschriftelementen in dem Überschriftelement-Kollationsschritt bewirkt wird, nachdem die Normalisierungsverarbeitung in dem Überschriftelement-Kollationsschritt vorgenommen wird, damit die Bilddaten in der wie oben mit Bezugnahme auf 49 beschriebenen Weise kollationiert werden.
Andererseits fragt der Layout-Kollationsverarbeitungsschritt A3 (oder A10) die in der Layout-DB 14 gespeicherten Kandidaten-Layouts unter Verwendung der gezogenen Linienelemente des Layouts, die in dem Layout-Analyseverarbeitungsschritt extrahiert werden, als einschränkende Abfragebedingung ab, um zu kollationieren, ob ein koinzidentes Kandidaten-Layout vorhanden ist oder nicht, und der Schritt wird von der Layout-Kollationsverarbeitungssektion 3 bewirkt.
Hier ist in 37 eine Verarbeitungsdiagrammansicht gezeigt, in der die Überschriftanalyseverarbeitung der Layout-Analysesektion 2B der Layout-Analyseverarbeitungssektion 2 der Datenmedium-Handhabungsvorrichtung 30 gemäß der vorliegenden Ausführungsform beschrieben wird.
Die Layout-Analysesektion 2B, wie in 37 ersichtlich, nimmt eine Verarbeitung als Überschriftpositionskandidaten-Bestimmungsschritt K9 vor, der eine Strukturanalyseverarbeitung für gezogene Linienelemente (Schritt K1) und Elementüberschriftpositions-Suchverarbeitung (Schritt K2) einschließt, und nimmt dann eine Verarbeitung als Überschriftelement-Kollationsschritt K10 vor, der einschließt: eine Elementüberschrift-Kollationsverarbeitung (K3), eine Extraktionskollationsverarbeitung für hyperkomplexe Charakteristikadaten (Schritt K4), eine Überschriftkollationsergebnis-Korrekturverarbeitung (Schritt K5), eine Elementdatenpositions-Suchverarbeitung (Schritt K6), eine Elementdatenteil-Verknüpfungsverarbeitung (Schritt K7) und eine Geldbetragselement-Verknüpfungsverarbeitung (Schritt K8).
Das Analysewörterbuch 13 speichert Überschriftsuchregeln 505, ein Elementüberschriftwörterbuch 507, eine Überschriftkorrekturregel 508 und Datensuchregeln 509.
In der Strukturanalyseverarbeitung für gezogene Linienelemente (Schritt K1) wird auf gezogene Linienelementinfor mationen 502 und Tabellenstrukturinformationen (nicht gezeigt) Bezug genommen, die durch eine Analyse eines Layouts erhalten werden, um eine Strukturinformationstabelle gezogener Linienelemente (Strukturinformations-TBL gezogener Linienelemente) 503 als Regelschlüsselinformationen zu erzeugen, die mit Überschriftpositions-Suchregeln zu evaluieren sind, die hier im Nachstehenden beschrieben werden.
Als Ergebnis der Tabellen-Strukturanalyse durch die Tabellen-Strukturanalysesektion 2E der Layout-Analysesektion 2B werden solche Strukturinformationen wie in 38 veranschaulicht zu einzelnen gezogenen Linienelementen hinzugefügt.
Die gezogenen Linienelementinformationen 502 werden mit Bezugnahme auf 38 beschrieben. Die gezogene Linienelement-ID bedeutet ID-Informationen zur Identifikation eines einzelnen gezogenen Linienelements und wird bei der Extraktion gezogener Linienelemente einzigartig numeriert. Die Gruppen-ID ist eine Identifikations-ID, die zu einer gleichen Gruppe hinzugefügt wird, wenn gezogene Linienelemente gruppiert werden. Die Block-ID ist eine ID zur Identifikation zwischen einzelnen Einheiten, in die eine gleiche Gruppe geteilt wird, um so eine gleiche gezogene Linienelementstruktur zu haben.
Die Tabellenstruktur zeigt an, ob durch eine Gruppen-ID identifizierte gezogene Linienelemente eine Tabellenstruktur aufweisen oder nicht, und, um zu verhindern, dass die Diskriminierung zwischen dem Vorliegen und Fehlen einer Tabellenstruktur festgelegt wird, wird die Diskriminierung zwischen dem Vorliegen und Fehlen einer Tabellenstruktur mit einer Elementreihennummer/Elementspaltennummer vorgenommen. Es ist zu beachten, dass die Elementreihennummer eine Reihenstruktur einer gezogenen Linienelementtabelle anzeigt, die in einem Tabellenrechteck in einer Gruppe vorhanden ist, und die Elementspaltennummer eine Spaltenstruktur einer gezogenen Linienelementtabelle anzeigt, die in einem Tabellenrechteck in einer Gruppe vorhanden ist.
Ferner bedeutet das gezogene Linienattribut Attributinformationen einzelner gezogener Linienelemente als Komponenten eines Layouts, und eine entsprechende Beziehung von diesem mit einem Layout eines Dokuments ist in 39 veranschaulicht.
Die folgenden Elemente sind als andere gezogene Linienelemente als jene der Tabellenstruktur verfügbar, wie in 39 ersichtlich.

(a) gezogenes einfaches Linienelement [1]
(a) gezogenes zweifaches Linienelement [2]
(c) gezogenes Blocklinienelement [B]
(d) eingebettetes gezogenes Linienelement [I] Außerdem, wie in 39 ersichtlich, sind die folgenden Elemente als gezogene Linienelemente der Tabellenstruktur verfügbar.
(e) gezogenes Linienelement, das zu einer Überschriftreihe gehört [H]
(f) gezogenes Linienelement, das zu einer Fußzeilenreihe gehört [F]
(g) gezogenes Linienelement, das zu einer Körperreihe gehört [D]
(h) gezogenes Linienelement, das zu einem aufwärts konvexen Teil gehört [U]
(i) gezogenes Linienelement, das zu einem abwärts konvexen Teil gehört [L]

Es ist zu beachten, dass, da das in 39 gezeigte Dokumenten-Layout keine Fußzeilenreihe einschließt, auch das zu einer Fußzeile gehörende gezogene Linienelement (f) nicht vorhanden ist.
Außerdem sind 1, 2, B, I, H, F, D, U und L, die in [] von (a) bis (i) auftreten, Codes einzelner gezogener Linienattribute.
Die Reiheninformationen zeigen dabei eine Reihennummer eines gezogenen Linienelements in einer gezogenen Linienelementtabelle an, und die Spalteninformationen zeigen eine Spaltennummer eines gezogenen Linienelements in der gezogenen Linienelementtabelle an.
Außerdem zeigen, wie durch (d) in 39 gezeigt, die Hierarchieinformationen eine hierarchische Beziehung gezogener Linienelemente an, die eine Einbettungsstruktur als gezogenes Linienelementattribut aufweisen.
Ferner zeigt oben/unten Positionsinformationen eines gezogenen Linienelements in derselben Gruppe an.
Dann wird auf solche gezogenen Linienelementinformationen 502 und Tabellenstrukturinformationen Bezug genommen, die durch die Analyse des Layouts erhalten werden, wie oben beschrieben, um eine Strukturinformationstabelle (TBL) 503 gezogener Linienelemente zu erzeugen [siehe 40 und 41(a) bis 41(d)].
Andererseits werden, in der Elementüberschriftpositions-Suchverarbeitung (Schritt K2), die gezogenen Linienelemente der Strukturinformationstabelle (TBL) 503 gezogener Linienelemente, die in Schritt K1 erzeugt wird, mit Überschriftpositions-Suchregeln evaluiert [siehe 42, 43(a) und 43(b)], um Überschriftpositionskandidaten zu bestimmen.
Die Überschriftsuchregeln 505 werden, beginnend mit einer höherer Ordnung von ihnen, konform mit einem Objektdokument zur Analyse bezeichnet, und ein Beispiel der Überschriftsuchregeln 505 wird nachstehend angegeben, wo das Objektdokument ein allgemeines Austauschtransferdokument (Tabelle erster Ordnung) ist.
Zuerst werden die anderen Überschriftpositions-Suchregeln als jene für eine Tabellenstruktur beschrieben.
Die anderen gezogenen Linienelemente als jene einer Tabellenstruktur können einschließen: ein aufwärts konvexes gezogenes Linienelement, ein abwärts konvexes gezogenes Linienelement und ein gezogenes Linienelement mit einer Fußzeile, die zu derselben Gruppe gehören wie die Tabellenstruktur, und gezogene Linienelemente, die zu einer anderen Gruppe gehören als einer Gruppe der Tabellenstruktur und keine Tabelle bilden, und Überschriftpositions-Suchregeln für diese gezogenen Linienelemente werden nachstehend beschrieben.

(a) Wenn ein einfaches gezogenes Linienelement involviert ist, ist ein Überschriftteil in dem gezogenen Linienelement vorhanden (*Datenteil ist koexistent).
(b) Wenn gezogene Linienelemente einer Einbettung involviert sind, ist ein Überschriftteil am gezogenen Linienelement auf der linken Seite der Einbettung vorhanden.
(c) wenn gezogene Linienelemente einer Einbettung involviert sind, ist ein Überschriftteil am gezogenen Linienelement auf der oberen Seite der Einbettung vorhanden.
(d) Wenn zwei oder mehrere gezogene Linienelemente involviert sind, ist ein Überschriftteil an dem obersten gezogenen Linienelement vorhanden.
(e) Wenn zwei oder mehrere gezogene Linienelemente involviert sind, ist ein Überschriftteil am obersten gezogenen Linienelement und dem folgenden gezogenen Linienelement vorhanden.

Ferner werden die Überschriftsuchregeln 505 für einen Tabellenstrukturteil beschrieben.
Die gezogenen Linienelemente einer Tabellenstruktur liegen an einem maximalen rechtwinkligen Teil vor, der ein Tabellenrechteck oder 2 Reihen × 2 Spalten oder mehr in gezogenen Linienelementen in einer gleichen Gruppe einschließt, und ein Kopfteil liegt an der obersten Reihe des maximalen rechtwinkligen Teils vor, während ein Körperteil an den folgenden Reihenteilen vorliegt.
Die Überschriftpositions-Suchregeln für solche gezogenen Linienelemente wie oben beschrieben werden nachstehend beschrieben.

(f) Ein Überschriftelement mit einer Vielzahl von Datenteilen liegt in einer Kopfzeile eines Tabellenkonstruktionsteils vor.
(g) Wenn gezogene Einbettungslinienelemente in der Kopfzeile des Tabellenkonstruktionsteils vorliegen, liegt eine komplexe Überschrift an der oberen Seite der gezogenen Linienelemente vor.
(h) Wenn gezogene Einbettungslinienelemente in der Kopfzeile des Tabellenkonstruktionsteils vorliegen, liegt eine Kind-Überschrift auf der unteren Seite der gezogenen Linienelemente vor.

Wenn die Layout-Analysesektion 2B die Elementüberschriftpositions-Suchverarbeitung in Schritt K2 bewirkt, wird eine Bestimmung von Überschriftpositionskandidaten, die ein Überschriftkollationsobjekt bilden, beispielsweise auf der Basis solcher Überschriftsuchregeln 505 wie oben beschrieben vorgenommen, und die Verarbeitung in diesem Fall wird mit Bezugnahme auf das Flussdiagramm von 44 beschrieben.
Zuerst werden gezogene Linienelementinformationen aus der in Schritt K1 erzeugten Strukturinformationstabelle (TBL) 503 gezogener Linienelemente extrahiert.
Dann wird eine Evaluierung einer Überschriftposition auf der Basis der Überschriftsuchregeln 505 vorgenommen (Schritt J2), und ein Ergebnis der Evaluierung wird in der Strukturinformationstabelle (TBL) 503 gezogener Linienelemente aufgezeichnet.
Hier wird diskriminiert, ob die Evaluierung einer Über schriftposition auf der Basis aller Überschriftsuchregeln 505 vorgenommen wurde oder nicht, und wenn eine Regel übrig bleibt, die nicht für die Evaluierung einer Überschriftposition verwendet wurde, dann wird die Evaluierung einer Überschriftposition auf der Basis dieser Regel vorgenommen (Schritt J4 zu den Schritten J2 und J3).
Ferner wird diskriminiert, ob eine Evaluierung einer Überschriftposition für alle gezogenen Linienelementinformationen vorgenommen wurde oder nicht, und wenn irgendwelche gezogenen Linienelementinformationen übrig bleiben, die noch nicht für die Evaluierung verwendet wurden, dann wird die Evaluierung für die übrigen gezogenen Linienelementinformationen vorgenommen (Schritt J5 zu den Schritten J1 bis J4).
Dann, nachdem die Evaluierung einer Überschriftposition für alle gezogenen Linienelementinformationen vollendet wurde, wird auf einen Evaluierungsreferenzwert in den Operationsparameterinformationen 501 Bezug genommen, um Überschriftpositionskandidaten zu bestimmen (Schritt J6).
Für das in 39 gezeigte Dokument werden beispielsweise mit Hinterlegungen in 45 angezeigte gezogene Linienelemente (hinterlegte Abschnitte V) als Überschriftpositionskandidaten bestimmt.
Ferner wird, in dem Elementüberschrift-Kollationsverarbeitungsschritt (Schritt K3), eine Extraktionskollationsverarbeitung für hyperkomplexe Charakteristikadaten für die Überschriftpositionskandidaten vorgenommen, die auf der Basis der Überschriftsuchregeln 505 bestimmt werden, um in den gezogenen Linienelementen vorhandene Elementdaten mit dem Elementüberschriftwörterbuch 507 zu kollationieren (Schritt K4). Dann werden die Positionen der gezogenen Linienelemente der Überschriftpositionskandidaten und Funktionselemente, die den Überschriften entsprechen, auf der Basis eines Ergebnisses der Kollation bestimmt.
Hier werden Überschriftelementdaten (Elementdaten in einem gezogenen Überschriftlinienelement) beschrieben, die ein Kollationsobjekt bilden. Ein gezogenes Linienelement eines Überschriftpositionskandidaten kann möglicherweise eine Vielzahl von Überschriftelementdaten einschließen.
In diesem Fall werden Überschriftelementdaten, um ein Kollationsobjekt zu bilden, durch das folgende Verfahren bestimmt.
Zuerst wird angenommen, dass die Überschriftelementdaten, um ein Kollationsobjekt zu bilden, maximale Elementdaten in einem gezogenen Linienelement eines Überschriftpositionskandidaten sind, wie beispielsweise in 46(a) ersichtlich.
Wenn die Überschrift eine einfache Funktionsüberschrift ist, dann wird hier angenommen, da nur ein Überschriftelementdatenwert bei der Kollation effektiv sein muss, dass die übrigen Elementdaten Staub oder irgendeine historisierte Initiale sind, wie eine Einheit, wie beispielsweise in 46(b) ersichtlich. Auch wenn jedoch die Überschrift eine komplexe Funktionsüberschrift ist, wird angenommen, dass Überschriftelementdaten normalerweise kontinuierlich vorliegen, wie beispielsweise in 46(c) ersichtlich.
Außerdem wird in dem Fall einer solchen vertikal geschriebenen Überschrift wie in 47(a) ersichtlich, oder einer solchen Überschrift, die aus einer Vielzahl von Reihen besteht, wie in 47(b) oder 47(c) ersichtlich, angenommen, dass Überschriftelementdaten eines Kollationsobjekts in einer Region vorliegen, in der aufeinanderfolgende Elementdaten eingeschlossen sind.
Insbesondere unter der Annahme, dass vertikal geschriebene Elementdaten mit einem Ort in der Nähe einer X-Koordinate beginnen, die gleich ist wie jene von Elementdaten der obersten Reihe, liegen die vertikalen geschriebenen Element daten in einer Region der Elementdaten der obersten Reihe, integriert mit folgenden Elementdaten, vor.
In dem Fall einer solchen komplexen Überschrift wie in 48(a) oder 48(b) gezeigt, oder in dem Fall einer solchen Überschrift mit mehrfachen Reihen wie in 48(c) gezeigt, können Überschriftelemente nicht korrekt bestimmt werden.
Demgemäß wird, in der vorliegenden Verarbeitung, nur eine unter den oben beschriebenen Bedingungen integrierte Region verarbeitet, wobei sie als Elementdaten betrachtet wird.
In der hyperkomplexen Charakteristikadaten-Extraktionskollationsverarbeitung (Schritt K4) in dem Überschriftelement-Kollationsschritt K10 wird dabei eine Normalisierungsverarbeitung für das Überschriftelement vorgenommen. Auch wenn eine Differenz der Inschrift oder Druckschriftart/Druckweite zwischen verschiedenen Dokumenten besteht, können dementsprechend alle Bilder von Überschriftelementdaten, die bei der Überschriftkollation abzugleichen sind, in dem Elementüberschriftwörterbuch 507 gespeichert werden.
Gegen die Differenz in der Druckschriftart wird eine Gegenmaßnahme getroffen, um eine Kollation von Überschriftelementen durch eine Kollation auf der Basis hyperkomplexer Zeichen nach der Normalisierungsverarbeitung durch eine Schwerpunktteilung in vier Sektionen (Technik zur Erkennung handschriftlicher Zeichen) zu bewirken.
Außerdem wird gegen die Differenz in der Druckweite eine Gegenmaßnahme getroffen, um Leerstellen zwischen Zeichen zu kollationierender Überschriftelementdaten zu normalisieren, so dass sie einen festgelegten Wert haben können (beispielsweise ein Bildpunkt), wie in 49 ersichtlich.
Ferner wird gegen die Differenz der Inschrift einer Elementüberschrift eine Gegenmaßnahme getroffen, um eine Vielzahl von Arten von Inschriften repräsentativer Überschriftausdrücke im Voraus in dem Elementüberschriftwörterbuch 507 zu haben.
Das Elementüberschriftwörterbuch 507 speichert Bilder von Überschriftelementdaten, die aus Musterdokumenten erfasst werden, im Voraus als hyperkomplexe Charakteristikainformationen, nachdem sie einer Normalisierungsverarbeitung unterzogen werden. Um eine Differenz der Inschrift zwischen Überschriften zu absorbieren, werden ferner Elementüberschriften, die eine gleiche Funktion anzeigen, in eine gleiche Kategorie klassifiziert und in einer solchen gespeichert, wie in 50 ersichtlich.
Dann, wenn Überschriftelementdaten durch die Zeichenkollations-Extraktionsverarbeitung in Schritt K4 kollationiert werden, werden Kategorie-IDs, Überschriftbild-IDs und Differenzgrade der einzelnen Kandidatenüberschriften in der Reihenfolge der Kandidaten als Ergebnis der Kollation gemeldet, wie in 51(a) und 51(b) ersichtlich.
Ferner werden Überschriftinhalte an der Überschriftelementposition mit Bezugnahme auf Überschriftkollationsparameter (Th1 und Th2) der Operationsparameterinformationen 501 bestimmt.
Insbesondere jene Inhalte, die eine Differenzgradanforderung erfüllen, dass der Differenzgrad der ersten Kandidatenüberschrift des Kollationsergebnisses kleiner oder gleich dem Kollationsparameter (Th1) ist, und eine Differenzgraddifferenzanforderung, dass die Differenzgraddifferenz zwischen dem ersten Kandidaten des Kollationsergebnisses und einem anderen Kandidaten mit einer anderen Kategorie-ID (anderes Funktionselement) größer oder gleich dem Kollationsparameter (Th2) ist, werden als Überschriftinhalte an der Überschriftelementposition bestimmt.
Wenn beispielsweise in einem in 51 gezeigten Bei spiel eine Evaluierung unter der Annahme vorgenommen wird, dass Th1 = 1.000 und Th2 = 2.000, dann werden die folgenden Ergebnisse erhalten, und dementsprechend ist ersichtlich, dass das Ergebnis der Kollation die beiden oben beschriebenen Anforderungen (Differenzgradanforderung und Differenzgraddifferenzanforderung) erfüllt.
Differenzgradanforderung:

(350) ≤ (Th1 = 1.000) → OK

Differenzgraddifferenzanforderung:

|(2.700 – 350) ≥ (Th2 = 2.000) → OK

Wenn eine Kollation von Überschriftelementdaten auf diese Weise vorgenommen wird, sind mögliche resultierende Fälle ein Fall (Fall 1), in dem alle Kollationsergebnisse OK sind, und die Analyse des Überschriftelements vollständig erfolgreich vorgenommen wurde, und ein anderer Fall (Fall 2), in dem die Analyse mit einigen Überschriftelementen fehlgeschlagen ist, und ein weiterer Fall (Fall 3), in dem die Analyse mit nahezu allen Überschriftelementen fehlgeschlagen ist.
Hier werden bei Fall 1 die Kollationsergebnisse wie sie sind als Überschriftanalyseergebnis gemeldet, bei Fall 3 wird jedoch bestimmt, dass die Überschriftanalyse zu einem Fehlschlag geführt hat, und das Erkennungsergebnis des Dokuments wird als Ablehnung an den Ursprung der Anforderung gemeldet.
Bei dem Fall 2 wird hingegen die Überschriftkollationsergebnis-Korrekturverarbeitung (Schritt K5) vorgenommen. Dementsprechend kann in einem bestimmten Fall ein Überschriftelement, das nicht analysiert wurde, analysiert werden.
Für ein essentielles Überschriftelement, das durch eine Überschriftreihe eines Tabellenstrukturteils als Ergebnis der Kollation des Überschriftelements definiert wird, wird in dem folgenden Fall eine Korrektur in Übereinstimmung mit den Überschriftkorrekturregeln 508 vorgenommen (Überschriftkollationsergebnis-Korrekturverarbeitung mit den Überschriftkorrekturregeln 508, Schritt K5). Es ist zu beachten, dass die Überschriftkorrekturregeln 508 nur angewendet werden, wenn ein Kollationsergebnis undefiniert ist, jedoch nicht so verwendet werden können, dass sie das Kollationsergebnis negieren.
Wenn eine Korrektur mit den Überschriftkorrekturregeln 508 vorgenommen wird, wo eines von zusammengesetzten Überschriftelementen mit einer Einbettungsstruktur undefiniert ist, wie in 52(a) ersichtlich, dann können hier die übrigen Funktionselemente einzigartige aus Funktionselementinhalten der zusammengesetzten Überschriftelemente bestimmt werden (dies ist darauf zurückzuführen, dass in dem Fall von "NAME DER FINANZINSTITUTION" der zusammengesetzten Überschriftelemente die Überschriften "NAME DER BANK" und "NAME DER ZWEIGSTELLE" zweifellos den Überschriftelementen der Einbettung entsprechen), und das Überschriftelement (hinterlegter Abschnitt W), das nicht erfolgreich analysiert wurde, kann analysiert werden.
Wenn eine Korrektur mit den Überschriftkorrekturregeln 508 vorgenommen wird, wo beispielsweise nur eine der Überschriften essentieller Elemente in einer Überschriftreihe eines allgemeinen Transferdokuments undefiniert ist, wie in 52(b) ersichtlich, dann kann ferner, da in die Überschriftreihe einzuschließende Funktionselemente einzigartig aus der Funktionsnamen-Informationstabelle bestimmt werden, das Überschriftelement (hinterlegter Abschnitt W), das nicht erfolgreich analysiert wurde, analysiert werden.
Wenn eine Korrektur mit den Überschriftkorrekturregeln 508 vorgenommen wird, wo nur eines essentieller Überschriftelemente undefiniert ist, das einzuschließen ist, und von der Überschriftreihe verschieden ist, wie in 52(c) ersichtlich, und nur eine undefinierte Überschriftkandidatenposition vorliegt, dann kann darüber hinaus, wo die Anzahlen von Überschriftpositionskandidaten und essentiellen Überschriftelementen miteinander koinzidieren, das Überschriftelement (hinterlegter Abschnitt W), das nicht erfolgreich analysiert wurde, analysiert werden, da es durch ein Verfahren zum Eliminieren einer beliebigen definierten Überschrift bestimmt werden kann.
Es ist zu beachten, dass, in 52(a) bis 52(c), ein beliebiges Überschriftelement, das nicht erfolgreich analysiert wurde, durch den hinterlegten Teil W angezeigt wird, und ein beliebiges anderes Überschriftelement, das durch die Überschrift-Kollationskorrekturverarbeitung analysiert wurde, durch einen anderen hinterlegten Teil W' angezeigt wird.
Dabei werden, in der Elementdatenpositions-Suchverarbeitung (Schritt K6), die gezogenen Linienelementpositionen von Elementdaten gesucht, die schließlich als Ergebnis der Überschriftelementkollation definierten Überschriftelementen entsprechen.
Zuerst wird die Suche nach den gezogenen Linienelementpositionen von Elementdaten vorgenommen, die Überschriftteilen entsprechen, ähnlich der Suche nach Überschriftelement-(gezogenen Überschriftlinienelement-)positionen, durch die Evaluierung einzelner gezogener Linienelemente der Strukturinformationstabelle (TBL) 503 gezogener Linienelemente mit den Datensuchregeln 508.
Hier unterscheiden sich die Elementdaten-Positionssuche und die Überschriftelement-Positionssuche dadurch, dass, da in dem Fall der Elementdaten-Positionssuche Überschriftelemente bereits bestimmt sind, die Überschriften zuerst evaluiert werden, um eine Suchregel auszuwählen, und dann die Regel an die einzelnen gezogenen Linienelemente angewendet wird, und dagegen im Fall der Überschriftelement-Positionssuche Überschriftpositionskandidaten zuerst bestimmt werden, weil eine Kollationsverarbeitung von Überschriftelementen involviert ist, in dem Fall der Elementdaten-Positionssuche Elementdatenpositionen als Ergebnis der Suchverarbeitung bestimmt werden müssen.
Dann werden, bei der Suche nach Elementdatenpositionen, Elementdatenpositionen (gezogene Linienelementepositionen von Elementdaten), die den bestimmten Überschriftelementen entsprechen, auf der Basis der Strukturinformationstabelle (TBL) 503 gezogener Linienelemente und der Datensuchregeln 509 bestimmt.
Die Operation wird dann mit Bezugnahme auf das Flussdiagramm von 53 beschrieben. Zuerst werden durch die Überschriftanalyse bestimmte Überschriftelementinformationen extrahiert (Schritt L1), und die Datensuchregeln 509, die den so extrahierten Überschriftelementen entsprechen, werden bestimmt (Schritt L2).
Danach werden die gezogenen Linienelementinformationen aus der Strukturinformationstabelle (TBL) 503 gezogener Linienelemente extrahiert (Schritt L3), und die Evaluierung mit den Datensuchregeln 509 wird vorgenommen (Schritt L4).
Dann werden Elementdatenpositionen durch ein Ergebnis der Evaluierung bestimmt, und die gezogenen Linien-IDs der bestimmten Elementdatenpositionen werden als Funktionsnameninformationen eingestellt (Schritt L5).
Ferner wird diskriminiert, ob die Evaluierung für alle gezogenen Linienelementinformationen vollendet wurde oder nicht, und, wenn die Evaluierung nicht vollendet wurde, dann wird die Evaluierung für die nächsten gezogenen Linienelementinformationen anschließend vorgenommen (Schritte L6 und L3 bis L5).
Ferner wird diskriminiert, ob Elementdatenpositionen, die allen Überschriftelementinformationen entsprechen, bestimmt wurden oder nicht, und, wenn ein Überschriftelement zurückbleibt, dessen Elementdatenposition nicht bestimmt wurde, dann wird eine Verarbeitung für die nächsten Überschriftelementinformationen vorgenommen (Schritte L7 und L2 bis L6).
Hier werden Verbindungsregeln zwischen gezogenen Linienelementen von Überschriftteilen und gezogenen Linienelementen von Datenteilen auf folgende Weise definiert, außer es ist eine Tabellenstruktur betroffen.

(a) Gezogene Linienelemente des Datenteils sind gezogene Linienelemente, die dem Überschriftteil folgen [siehe 54(a) und 54(b)].
(b) Wenn es kein gezogenes Linienelement gibt, das dem Überschriftteil folgt, liegt der Datenteil in demselben gezogenen Linienelement wie jenem des Überschriftteils vor [siehe 54(c)].
(c) Wenn eine Vielzahl gezogener Linienelemente dem Überschriftteil folgt, liegt der Datenteil in den gezogenen Linienelementen bis zu einer Position vor, an der eine weitere unabhängige Überschrift auftritt [siehe 54(d) und 54(e)].
(d) Wenn der Überschriftteil in dem Eltern-Element von eingebetteten gezogenen Linienelementen vorliegt, liegt der Datenteil in einem gezogenen Kind-Linienelement vor [siehe 54(f) und 54(g)].
(e) Wenn zwei gezogene Linienelemente vorliegen, besteht die Möglichkeit, dass die Überschrift und der Datenteil in demselben gezogenen Linienelement vorliegen können [siehe 54(h)].

Verbindungsregeln zwischen gezogenen Linienelementen eines Überschriftteils und gezogenen Linienelementen eines Datenteils werden dabei auf folgende Weise definiert, wenn eine Tabellenstruktur involviert ist.

(f) Wenn die Tabelle eine vertikale eindimensionale Tabelle ist, folgt der Datenteil einem gezogenen Linienelement einer Spaltenrichtung eines gezogenen Überschrift-Linienelements [siehe 55(a)].
(g) Wenn die Tabelle eine vertikale eindimensionale Tabelle ist, und die Überschrift zwei Reihen einschließt, folgt der Datenteil einem gezogenen Linienelement einer Spaltenrichtung eines gezogenen Überschrift-Linienelements [siehe 55(b)].
(h) Wenn die Tabelle eine vertikale eindimensionale Tabelle ist, und die Überschrift Einbettungselemente einschließt, folgt der Datenteil einem gezogenen Linienelement einer Richtung eines gezogenen Eltern-Überschrift-Linienelements [siehe 55(c)].
(i) Wenn die Tabelle eine vertikale eindimensionale Tabelle ist, und die Überschrift eine zusammengesetzte Überschrift ist, folgt der Datenteil einem gezogenen Linienelement einer Spaltenrichtung eines zusammengesetzten gezogenen Überschrift-Linienelements [siehe 55(d)].
(j) Wenn die Tabelle eine horizontale eindimensionale Tabelle ist, folgt der Datenteil einem gezogenen Linienelement einer Reihenrichtung eines gezogenen Überschrift-Linienelements [siehe 55(e)].
(k) Wenn die Tabelle eine zweidimensionale Tabelle ist, folgt der Datenteil einem gezogenen Linienelement einer Spalten/Reihenrichtung eines gezogenen Überschrift-Linienelements [siehe 55(f)].

Hier ist ein Beispiel der Bestimmung von Elementdatenpositionen, die Überschriftelementen entsprechen, in 56 gezeigt. Es ist zu beachten, dass in 56 jede Überschriftelement-Bestimmungsposition durch einen hinterlegten Abschnitt X angezeigt wird, wohingegen eine Elementdatenposition durch X' angezeigt wird, und eine verknüpfte Beziehung zwischen einer Überschriftelement-Bestimmungsposition und Elementdatenpositionen ist durch eine Pfeilmarkierung angezeigt.
Ferner wird, in der Elementdatenteil-Verknüpfungsverarbeitung (Schritt K7) auf gezogene Linienelementpositionen eines Datenteils Bezug genommen, die gezogenen Überschrift-Linienelementen entsprechen, um Elementdatenpositionen in gezogenen Linienelementpositionen eines Datenteils zu bestimmen, und verknüpfte Beziehungen zwischen diesen einzustellen.
Verknüpfte Beziehungen vom Überschriftteil zum entsprechenden Elementdatenteil sind in 57 und 58 veranschaulicht.
Wenn mehr als ein Elementdatenwert in einem gezogenen Linienelement oder einer rechtwinkligen Region vorhanden ist, wo der Elementdatenteil vorliegt, werden hier mit Funktionselementen zu verknüpfende Elementdaten in Übereinstimmung mit den Operationsparameterinformationen 501 bestimmt.
Wenn sie von einem einfachen Funktionselement zu verknüpfen sind, werden Elementdaten einer bezeichneten Reihenanzahl und einer bezeichneten Spaltenanzahl von bezeichneten Reihen- und Spaltenpositionen in Übereinstimmung mit den Operationsparameterinformationen 501 verknüpft [siehe 59(a)].
Wenn sie von einem einfachen Funktionselement zu verknüpfen sind, schließen hier die Operationsparameterinformationen 501 einer Elementdatenverknüpfung die folgenden Informationen ein.

(a) Eine bezeichnete Anzahl von Reihen, beginnend mit einer bezeichneten Reihe, wird verknüpft (*Vorgabe: bezeichnete Reihe = erste Reihe, bezeichnete Reihenanzahl = eine Reihe).

Wenn die Anzahl von Elementdatenreihen jedoch kleiner ist als die bezeichnete Reihenanzahl, werden alle Elementdatenreihen in der Region verknüpft.

(b) Eine bezeichnete Anzahl von Spalten, beginnend mit einer bezeichneten Spalte, wird verknüpft (*Vorgabe: bezeichnete Spalte = erste Spalte, bezeichnete Spaltenanzahl = Gesamtanzahl der Spalten). Wenn die Anzahl von Elementdatenspalten jedoch kleiner ist als die bezeichnete Spaltenanzahl, werden alle Elementdatenspalten in der Region verknüpft.

Wenn sie hingegen von zusammengesetzten Funktionselementen zu verknüpfen sind, werden Elementdaten einer bezeichneten Reihenanzahl und einer bezeichneten Spaltenanzahl von bezeichneten Reihen- und Spaltenpositionen in der Reihenfolge der Definition von Funktionselementen in Übereinstimmung mit den Operationsparameterinformationen 501 verknüpft, und folgende Elementdaten werden ähnlich für folgende Funktionselemente verknüpft [siehe 50(b)].
Wenn sie von zusammengesetzten Funktionselementen zu verknüpfen sind, schließen hier die Operationsparameterinformationen 501 einer Elementdatenverknüpfung die folgenden Informationen ein.

(c) Wenn N ≥ K, und M < K, werden Elementdatenreihen in der Reihenfolge von Funktionselementverknüpfungen zugeordnet.
(d) Wenn N < K, und M ≥ K, werden Elementdatenspalten in der Reihenfolge von Funktionselementverknüpfungen zugeordnet.
(e) Wenn N ≥ K, und M ≥ K, werden Elementdatenreihen in der Reihenfolge von Funktionselementverknüpfungen zugeordnet.
(f) Wenn N ≥ K, und M < K, werden Elementdatenspalten in der Reihenfolge von Funktionselementverknüpfungen zugeordnet.
(g) Wenn N < K, und M < K, ist eine Zuordnung nicht möglich, und Elementdaten werden nicht verknüpft.

Es ist zu beachten, dass in der obigen Beschreibung N eine Elementreihenanzahl ist, M eine Elementspaltenanzahl ist, und K eine Funktionselementanzahl ist.
Wenn das Funktionselement eines analysierten Überschriftelements ein Geldbetrag, eine Bearbeitungsgebühr oder dgl. ist, wird dann, in der Geldbetrags-Verknüpfungsverarbeitung (Schritt K8), eine Struktur eines gezogenen Linienelements geprüft, zu dem die entsprechenden Elementdaten gehören, und, wenn die Struktur ein einspaltiges abgegrenztes gezogenes Linienelement ist, dann werden die einzelnen einspaltigen gezogenen Linienelemente miteinander verbunden, um Informationen von Daten eines einfachen Elements zu bilden, und die Elementdaten werden mit dem Funktionselement verknüpft.
Wenn der dem Überschriftteil entsprechende Elementdatenteil in drei oder mehrere (gemäß einem Operationsparameter-Bezeichnungswert) gezogene Linienelemente geteilt wird, und die Größen der einzelnen gezogenen Linienelemente kleiner sind als ein Operationsparameter-Einstellwert, und außerdem bestimmt wird, dass die Überschriftfunktion ein Geldbetrag ist, wird hier diskriminiert, dass das gezogene Linienelement ein einspaltiges abgegrenztes gezogenes Linienelement ist [siehe 60(a) und 60(b)].
Wenn dann diskriminiert wird, dass das gezogene Linienelement des Elementdatenteils aus einspaltigen abgegrenzten gezogenen Linienelementen gebildet ist, dann werden Beziehungen zwischen Verknüpfungen der einzelnen gezogenen Linienelemente aufeinanderfolgend eingestellt, beginnend mit einem gezogenen Linienelement für die oberste Spalte, und die gezogenen Linienelemente werden als aufeinanderfolgende gezogene Linienelemente handgehabt, um die gezogenen Linienelemente zu verbinden [siehe 60(c)].
Wenn gezogene Linienelemente des Elementdatenteils aus gezogenen Linienelementen für eine einspaltige Abgrenzung gebildet sind, werden ferner, da auch Elementdaten in den einzelnen gezogenen Linienelementen in einem geteilten Zustand sind, die einzelnen Elementdaten einer Integrationsverarbeitung unterzogen, um sie als einfache Elementdaten einzustellen, um diese Elementdaten miteinander zu verbinden [siehe 60(d)].
Es ist zu beachten, dass, während im Obigen eine Beschreibung eines Falls angegeben ist, in dem gezogene Linienelemente einspaltige abgegrenzte gezogene Linienelemente sind, auch dreispaltige abgegrenzte gezogene Linienelemente auf ähnliche Weise verarbeitet werden.
Auch für eine dreispaltige abgegrenzte Geldbetragssektion wird eine Verbindung von gezogenen Linienelementen und Elementdaten auf ähnliche Weise vorgenommen wie in dem Fall einer einspaltigen abgegrenzten Geldbetragssektion. Da jedoch eine dreispaltige abgegrenzte Geldbetragssektion eine geringere Spaltenbreite und eine kleinere Anzahl gezogener Linienelemente aufweist, werden andere Anforderungen als jene für eine einspaltige abgegrenzte Geldbetragssektion eingestellt [siehe 60(e) und 60(f)].
Wenn die Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung mit der oben beschriebenen Konstruktion eine Überschriftanalyseverarbeitung vornimmt, werden in dem Layout-Analyseverarbeitungsschritt A2 (oder A9) Charakteristika eines Layouts eines gelesenen Bilds extrahiert, um die Struktur des Layouts zu analysieren, und eine Überschriftregion in dem Bild wird auf der Basis der extrahierten Charakteristika bestimmt. Dann werden Überschriftelementinformationen in der Überschriftregion erkannt, und entsprechende Elementdaten werden bestimmt, und das Layout wird logisch dargestellt.
Dann werden, in dem Layout-Kollationsverarbeitungsschritt A3 (oder A10), die in der Layout-DB 14 gespeicherten Kandidaten-Layouts unter Verwendung der in dem Layout-Analy severarbeitungsschritt A2 (oder A9) extrahierten Charakteristika des Layouts als einschränkende Abfragebedingung abgefragt, um zu kollationieren, ob ein koinzidentes Kandidaten-Layout vorhanden ist oder nicht.
Da ein auf einem Objektdokument zur Analyse beschriebenes Überschriftelement und Elementdaten, die dem Überschriftelement entsprechen, durch eine Layout-Erkennungsverarbeitung identifiziert werden können, nachdem eine Überschrift-Analyseverarbeitung vorgenommen wird, bei der eine Überschriftposition gesucht und von einer Struktur eines gezogenen Linienelements eines Bilds des Dokuments kollationiert wird, und Elementinformationen, die einer auf dem Dokument beschriebenen Überschrift entsprechen, automatisch analysiert werden, kann auf diese Weise, mit der Datenmedium-Handhabungsvorrichtung 30 gemäß der Ausführungsform der vorliegenden Erfindung, eine Zeichenerkennung von Elementdaten sofort vorgenommen werden, ohne eine Zeichenerkennungsverarbeitung des Überschriftelements vorzunehmen.
(a7) Beschreibung der Bestätigungs- und Modifikationsverarbeitung eines Erkennungsergebnisses
(1) Beschreibung der Bilddaten-Anzeigevorrichtung
61 ist eine schematische Ansicht, die eine Konstruktion einer Bilddaten-Anzeigevorrichtung 640 in der Ausführungsform der vorliegenden Erfindung zeigt. Die Bilddaten-Anzeigevorrichtung 640 nimmt eine Überweisungsanforderungsverarbeitung durch die Anzeige, als Bilddaten, eines Dokuments vor, auf dem eine Person, die Geld zu überweisen hat (diese Person wird durch ihren Namen spezifiziert), eine Kontonummer (Kontonr.), ein Überweisungsbetrag, usw., beschrieben sind, und durch die Eingabe von Überweisungsdaten, wie der Kontonummer, des Namens und des Überweisungsbetrags durch einen Bediener, der eine Tastatur oder eine ähnliche Vorrichtung bedient, oder sie nimmt eine Überweisungsanfor derungsverarbeitung durch die Vornahme einer Bestätigung vor, ob ein Zeichenerkennungsergebnis von Bilddaten (Überweisungsdaten) durch irgendeine andere Vorrichtung oder dgl. richtig oder falsch ist, durch visuelle Beobachtung eines Bedieners, und durch die Vornahme einer Abänderung des Zeichenerkennungsergebnisses, wenn notwendig. Die Bilddaten-Anzeigevorrichtung 640 entspricht dem Client 10 der in 6 gezeigten Datenmedium-Handhabungsvorrichtung 30.
Insbesondere ist die Bilddaten-Anzeigevorrichtung 640 so konstruiert, dass, obwohl ein Bediener visuell auf einer Anzeigeeinheit angezeigte Bilddaten beobachten und eine Eingabeoperation vornehmen kann, eine Zeichenerkennung automatisch vorgenommen werden kann, wenn beispielsweise ein Dokument von einer Bilddaten-Eingabevorrichtung, wie einer OCR-Vorrichtung, gelesen wird, und der Bediener kann eine Eingabeoperation nur in Bezug auf ein Zeichen vornehmen, das fehlerhaft erkannt oder nicht erfolgreich erkannt wurde.
Die in 61 gezeigte Bilddaten-Anzeigevorrichtung 640 schließt ein: einen Bildscanner 621A und eine optische Zeichenlesevorrichtung (OCR-Vorrichtung) 621B, die als Bilddaten-Eingabevorrichtungen dienen, eine Tastatur 631, die als Dateneingabeeinrichtung dient, einen Computer-Mainframe 629, der als Anzeigesteuervorrichtung dient, eine Anzeigeeinheit 630 und eine Festplatte 622.
Es ist zu beachten, dass die Bilddaten-Anzeigevorrichtung 640 mit dem in 6 gezeigten Server 39 verbunden ist, und als Arbeitsstation funktioniert, die Bilddaten (Überweisungsdaten) von dem Bildscanner 621A zum Server 39 ausgibt, ein Zeichenerkennungsergebnis des von dem Server 39 erkannten Bilddatenzeichens empfängt, und das empfangene Zeichenerkennungsergebnis auf der Anzeigeeinheit 630 anzeigt, und die von einem Bediener bestätigten oder modifizierten Überweisungsdaten zum Server 39 ausgibt.
Der Bildscanner 621A liest Bilddaten eines Dokuments wie eines Überweisungsanforderungsbelegs einer Bank oder dgl., der Informationen einer Vielzahl von Elementen einschließt, und gibt die Bilddaten an die Bilddaten-Anzeigevorrichtung 640 aus.
Die OCR-Vorrichtung 621B liest Bilddaten und nimmt eine Zeichenerkennung der gelesenen Bilddaten ähnlich dem Bildscanner 621A vor.
In der vorliegenden Ausführungsform sind beide von dem Bildscanner 621A und der OCR-Vorrichtung 621B für die Bilddaten-Anzeigevorrichtung 640 so vorgesehen, dass Bilddaten verschiedenster Formate handgehabt werden können.
Es ist zu beachten, dass, wenn Bilddaten von der OCR-Vorrichtung 621B gelesen werden, ein Zeichenerkennungsergebnis der Bilddaten auf der Anzeigeeinheit 630 der Bilddaten-Anzeigevorrichtung 640 angezeigt wird.
Die Anzeigeeinheit 630 hat einen Bilddaten-Anzeigebereich 611 und einen Elementdaten-Anzeigebereich 614, und zeigt eingegebene Bilddaten eines Dokuments beispielsweise so an wie in 70 gezeigt.
Hier ist der Bilddaten-Anzeigebereich 611 ein Bereichsabschnitt, in dem von dem Bildscanner 621A oder der OCR-Vorrichtung 621B eingegebene Bilddaten eines Dokuments anzuzeigen sind.
Der Bilddaten-Anzeigebereich 611 zeigt Bilddaten an, die Informationen einer Vielzahl von Elementen einschließen, und zeigt in 70 Bilddaten an, die Informationen von vier Elementen 612, "Kontonummer (Kontonr.)", "Name", Entsprechung (Transaktion)" und "Geldbetrag", einschließen.
Der Elementdaten-Anzeigebereich 614 ist vorgesehen, um Überweisungsdaten, die einem Bilddatenabschnitt eines gewünschten der Elemente 612 des Bilddaten-Anzeigebereichs 611 entsprechen, unter Verwendung der Tastatur 631 einzugeben.
Der Elementdaten-Anzeigebereich 614 hat eine Vielzahl von Dateneingabe-Anzeigebereichsabschnitten 615. In 70 hat der Elementdaten-Anzeigebereich 614 vier Dateneingabe-Anzeigebereichsabschnitte 615, "Element 1 bis Element 4", wobei das "Element 1" "Kontonummer" entspricht; das "Element 2" "Name" entspricht; das "Element 3" "Transaktion" entspricht; und das "Element 4" "Geldbetrag" entspricht.
Ein gewünschter der Dateneingabe-Anzeigebereichsabschnitte 615 wird durch einen Schreibmarkenindikator 616 angezeigt, und Überweisungsdaten, die an einem Bilddatenabschnitt eines gewünschten der diesem entsprechenden Elemente 612 angezeigt werden, können eingegeben werden. Es ist zu beachten, dass die Dateneingabe unter Verwendung der Tastatur 631 vorgenommen werden kann, die als Dateneingabeeinrichtung dient.
Ferner schließt die in 61 gezeigte Bilddaten-Anzeigevorrichtung 640 die Festplatte 622 ein, wie hier im Vorstehenden beschrieben. Die Festplatte 622 dient als Definitionsspeichersektion zum Speichern von Bilddaten-Teilungsinformationen als Definitionsinformationen. Es ist zu beachten, dass die Bilddaten-Teilungsinformationen Informationen zum Teilen von Bilddaten eines Dokuments, die von dem Bildscanner 621A oder der OCR-Vorrichtung 621B eingegeben werden, in Bilddatenabschnitte der Vielzahl von Elementen 612 signifizieren.
Der in 61 gezeigte Computer-Mainframe 629 funktioniert als Anzeigesteuervorrichtung (der Computer-Mainframe 629 kann hier im Nachstehenden als Anzeigesteuervorrichtung 629 bezeichnet werden), und zeigt, in dem Bilddaten-Anzeigebereich 611, Bilddaten an, die durch das Eingeben derselben von dem Bildscanner 621A oder der OCR-Vorrichtung 621B erhalten werden. Wenn Daten, die einem Bilddatenabschnitt eines gewünschten der Elemente 612 entsprechen, über die Tastatur 631 einzugeben sind, zeigt der Computer-Mainframe 629 ferner den Schreibmarkenindikator 616 in dem Dateneingabe-Anzeigebereichsabschnitt 615 für das gewünschte Element 612 in dem Elementdaten-Anzeigebereich 614 an.
Der Computer-Mainframe 629 erkennt gezogene Linien von Bilddaten eines Dokuments, die von dem Bildscanner 621A oder der OCR-Vorrichtung 621B eingegeben werden, unter Verwendung der in der Festplatte 622 gespeicherten Bilddaten-Teilungsinformationen, konvertiert die gezogenen Linien in eine Tabelle, die Bilddatenabschnitte einer Vielzahl von Elementen 612 einschließt, und zeigt die durch die Konvertierung erhaltenen Bilddaten in dem Bilddaten-Anzeigebereich 611 an.
Ferner schließt der Computer-Mainframe 629, der in 61 und 62 gezeigt ist und als Anzeigesteuervorrichtung dient, ein: eine Hervorhebungsinformationserzeugungs-Verarbeitungssektion 623, eine Hervorhebungsanzeigesektion 624, die als Bilddaten-Teilhervorhebungsanzeigeeinrichtung dient, eine Hervorhebungsanzeige-Aufhebungssektion 625, die als Bilddaten-Hervorhebungsanzeige-Aufhebungseinrichtung dient, eine Hervorhebungsanzeige-Übergangssteuersektion 626, die als Hervorhebungsanzeige-Übergangssteuereinrichtung dient, und eine Bildschirm-Rollsektion 627, die als Anzeigebildschirm-Rolleinrichtung dient.
Die Hervorhebungsinformationserzeugungs-Verarbeitungssektion 623 nimmt auf Bilddaten Bezug, die von einer als Bilddaten-Eingabevorrichtung dienenden Bilddaten-Teilungsvorrichtung 621 eingegeben werden, oder auf Bilddaten-Teilungsinformationen (Definitionsinformationen), die auf der Festplatte 622 gespeichert sind, um Assoziationsinformationen P und Hervorhebungsinformationen Q zu erzeugen.
Die Assoziationsinformationen P sind Informationen zum Assoziieren von "Element 1 bis Element 4" in einer entsprechenden Beziehung mit "Kontonummer", "Name", "Transaktion" bzw. "Geldbetrag", wie in 68 ersichtlich.
Die Hervorhebungsinformationen Q sind Informationen zum Vornehmen einer Hervorhebungsanzeige in dem Bilddaten-Anzeigebereich 611, und haben Hervorhebungsanzeige-Attributinformationen, welche Hervorhebungsanzeigearten, die Titeln der Elemente 612 entsprechende "Titel 1 bis Titel 4" anzeigen, und eine Hervorhebungsanzeigeregion einschließen. Es ist zu beachten, dass "Titel 1 bis Titel 4" "Kontonummer", "Name", "Transaktion" bzw. "Geldbetrag" entsprechen.
Ferner schließen die Hervorhebungsanzeigearten eine Hinterlegung, eine gezogene Ornamentlinie, usw., ein, und, als Hervorhebungsanzeigen, ist in der vorliegenden Ausführungsform eine dicke Rahmenanzeige für jene Elemente 612 eingestellt, die dem "Titel 1" und "Titel 3" entsprechen, und eine hinterlegte Anzeige ist für jene Elemente 612 eingestellt, die dem "Titel 2" und "Titel 4" entsprechen, so dass, wenn "Titel 1 bis Titel 4" aufeinanderfolgend hervorgehoben angezeigt werden, verschiedene Hervorhebungsanzeigen vorgesehen werden können, um eine höhere visuelle Beobachtbarkeit zu erzielen.
Die Hervorhebungsanzeigeregion zeigt dabei Start- und Endpositionen eines Hervorhebungsanzeigeabschnitts 613 eines beliebigen Elements 612 unter Verwendung von Koordinaten (in Einheiten eines Bildpunkts) an, die eine X-Koordinate und eine Y-Koordinate einschließen, und die Größe des Hervorhebungsanzeigeabschnitts 613 kann willkürlich für jedes der Elemente 612 eingestellt werden.
Die Assoziationsinformationen P und die Hervorhebungsinformationen Q werden in den Schritten A1 und A2 des in 64 gezeigten Flussdiagramms erzeugt.
Die Hervorhebungsanzeigesektion 624 zeigt hervorgehoben, wenn der Schreibmarkenindikator 616 angezeigt wird, unter der Steuerung des Computer-Mainframe 629, an einem von den Dateneingabe-Anzeigebereichsabschnitten 615 für ein gewünschtes der Elemente 612 innerhalb der Dateneingabe-Anzeigebereichsabschnitte 615 für die Elemente 612 in dem Elementdaten-Anzeigebereich 614 in einem Zustand, in dem eine Vielzahl von Elementen einschließende Bilddaten in dem Bilddaten-Anzeigebereich 611 angezeigt werden, nur den Bilddatenabschnitt des gewünschten einen der Elemente 612 an, der dem Dateneingabe-Anzeigebereichsabschnitt 615 entspricht, wie durch die Bezugszahl 613 bezeichnet.
Insbesondere wenn der Schreibmarkenindikator 616 in einem der Dateneingabe-Anzeigebereichsabschnitte 615 für ein gewünschtes der Elemente 612 angezeigt wird, zeigt die Hervorhebungsanzeigesektion 624 hervorgehoben nur den Bilddatenabschnitt des gewünschten Elements 612, der dem Dateneingabe-Anzeigebereichsabschnitt 615 für das Element 612 entspricht, mit einer Hinterlegung, einer gezogenen Ornamentlinie oder dgl. an, um die visuelle Beobachtbarkeit zu erhöhen, wenn ein Abgleich zwischen Bilddaten und einem Eingabeelement durch visuelle Beobachtung vorzunehmen ist, um eine problemlose Eingabeoperation zu gestatten.
Ferner hebt die Hervorhebungsanzeige-Aufhebungssektion 625 den Hervorhebungsanzeigeabschnitt 613 eines Bilddatenabschnitts eines gewünschten der Elemente 612 auf, der von der Hervorhebungsanzeigesektion 624 hervorgehoben wird, um die Anzeige des Elements 612 in einen Zustand vor jenem der Hervorhebungsanzeige zurückzuführen. Insbesondere wenn der Schreibmarkenindikator 616 zu einem Dateneingabe-Anzeigebereichsabschnitt 615 für ein anderes der Elemente 612, das von dem Dateneingabe-Anzeigebereichsabschnitt 615 für das gewünschte der Elemente 612 verschieden ist, durch eine Schreibmarken-Bewegungsoperation bewegt wird, dann hebt die Hervorhebungsanzeige-Aufhebungssektion 625 den Hervorhebungsanzeigeabschnitt 613 des dem Element entsprechenden Bilddatenabschnitts auf.
Die Hervorhebungsanzeige-Übergangssteuersektion 626 funktioniert in einer Verflechtungsbeziehung mit der Hervorhebungsanzeige-Aufhebungssektion 625 und nimmt eine solche Steuerung vor, dass, nachdem die Hervorhebungsanzeige-Aufhebungssektion 625 den Hervorhebungsanzeigeabschnitt 613 eines Bilddatenabschnitts eines entsprechenden bestimmten der Elemente 612 aufhebt, sie den Schreibmarkenindikator 616 zu den Dateneingabe-Anzeigebereichsabschnitten 615 für ein anderes der Elemente 612 bewegt, und nur der Bilddatenabschnitt des Elements 612, der dem Dateneingabe-Anzeigebereichsabschnitt 615 für das Element 612 entspricht, das durch den Schreibmarkenindikator 616 angezeigt wird, von der Hervorhebungsanzeigesektion 624 hervorgehoben angezeigt wird.
Ferner zeigt die Bildschirm-Rollsektion 627, aus einem Zustand, in dem ein Teil der Bilddaten auf der Anzeigeeinheit 630 angezeigt wird, jene Bilddaten an, die nicht auf der Anzeigeeinheit 630 angezeigt werden.
Die Hervorhebungsanzeigesektion 624 hat eine Änderungssektion 628, die als Änderungseinrichtung dient. Die Änderungssektion 628 ändert eine Hervorhebungsanzeigeart oder -region ansprechend auf eine Instruktion von der Außenseite, beispielsweise unter Verwendung einer Tastatur, und schließt eine Änderungsinformations-Erfassungssektion 628A und eine Hervorhebungsinformations-Änderungssektion 628B ein.
Die Änderungsinformations-Erfassungssektion 628A erfasst Änderungsinformationen R, die hier im Nachstehenden beschrieben werden. Die Hervorhebungsinformations-Änderungssektion 628B aktualisiert Hervorhebungsinformationen Q, die hier im Nachstehenden beschrieben werden, unter Verwendung der Änderungsinformationen R, um Hervorhebungsinformationen Q' zu erzeugen.
Tatsächlich ist eine geeignete Software, die die Funktionen als oben beschriebene Hervorhebungsanzeigesektion 624, Hervorhebungsanzeige-Aufhebungssektion 625, Hervorhebungsanzeige-Übergangssteuersektion 626 und Bildschirm-Rollsektion 627 für den Computer-Mainframe 629 vorsehen kann, in der Festplatte 622 oder irgendeinem anderen Speicher installiert, um die Bilddaten-Anzeigevorrichtung 640 zu konstruieren.
Die Bilddaten-Anzeigevorrichtung 640 gemäß der vorliegenden Ausführungsform mit der oben beschriebenen Konstruktion arbeitet auf folgende Weise.
Ein Initialbildschirm, wenn Bilddaten eines Dokuments von der in 62 gezeigten Bilddaten-Teilungsvorrichtung 621 (Bildscanner 621A oder OCR-Vorrichtung 621B) eingegeben und auf der Anzeigeeinheit (in 62 nicht gezeigt) angezeigt werden, ist wie in 67 gezeigt.
In diesem Fall, wie in 67 gezeigt, werden Bilddaten, die Informationen einer Vielzahl von Elementen einschließen, das heißt Bilddaten, die Informationen der vier Elemente "Kontonummer", "Name", "Transaktion" und "Geldbetrag" einschließen, in dem Bilddaten-Anzeigebereich 611 auf der Anzeigeeinheit 630 angezeigt.
Wenn hingegen Eingabeüberweisungsdaten einzugeben sind, wird der Schreibmarkenindikator 616 zu einem gewünschten der Dateneingabe-Anzeigebereichsabschnitte 615 bewegt, um Überweisungsdaten einzugeben, die einem Bilddatenabschnitt eines gewünschten Elements 612 entsprechen. In diesem Fall, wie in 70 ersichtlich, wird der Bilddatenabschnitt des gewünschten Elements 612 hervorgehoben mit dem Hervorhebungsanzeigeabschnitt 613 durch die Hervorhebungsanzeigesektion 624 angezeigt, und, wie aus 71 bis 76 ersichtlich, wird auch der Hervorhebungsanzeigeabschnitt 613 in dem Bilddaten-Anzeigebereich 611 bewegt, wenn sich der Schreibmarkenindi kator 616 bewegt.
Es ist zu beachten, dass, obwohl ein Zeichenerkennungsergebnis von Bilddaten nicht in den Dateneingabe-Anzeigebereichsabschnitten 615 angezeigt wird, die in 67 und 70 bis 76 gezeigt sind, dieses natürlich alternativ angezeigt werden kann.
Hier ist, in 70, die Anzeigeeinheit 630 gezeigt, wenn das Element 612 "Kontonummer (0001)" hervorgehoben angezeigt wird.
Wenn ein Bediener, in einem solchen Zustand wie in 70 ersichtlich, "0001" über die Tastatur 631 eingibt, und dann manuell die Tastatur bedient, um den Schreibmarkenindikator 616 von dem "Element 1" zum "Element 2" in dem Elementdaten-Anzeigebereich 614 zu bewegen, dann wird der Hervorhebungsanzeigeabschnitt 613 von "Kontonummer (0001)" zu "Name (Taro Fuji)" in dem Bilddaten-Anzeigebereich 611 bewegt, wie in 71 ersichtlich, ansprechend auf die Operation durch die Hervorhebungsanzeige-Übergangssteuersektion 626. In diesem Zustand gibt der Bediener "Taro Fuji" unter Verwendung der Tastatur 631 ein.
Wenn der Bediener "Taro Fuji" über die Tastatur 631 eingibt, und manuell die Tastatur 631 bedient, um den Schreibmarkenindikator 616 ähnlich vom "Element 2" zum "Element 3" zu bewegen, dann wird der Hervorhebungsanzeigeabschnitt 613 von der Hervorhebungsanzeige-Übergangssteuersektion 626 von "Name (Taro Fuji)" zu "Transaktion (010)", wie in 72 ersichtlich, bewegt. Dann, wenn der Bediener weiter "010" eingibt, und den Schreibmarkenindikator 616 vom "Element 3" zum "Element 4" bewegt, dann bewegt sich der Hervorhebungsanzeigeabschnitt 613 durch die Hervorhebungsanzeige-Übergangssteuersektion 626 von "Transaktion (010)" zu "Geldbetrag (¥12.000)", wie in 73 ersichtlich. Auch in diesem Fall gibt der Bediener natürlich "010" und "¥12.000" unter Verwendung der Tastatur ein.
Wenn beispielsweise die Eingabetaste der Tastatur 631 gedrückt wird, nachdem die Geldbetragsdaten "¥12.000", die dem "Element 4" entsprechende Überweisungsdaten sind, auf diese Weise eingegeben werden, dann werden die Überweisungsdaten (Daten von Kontonummer, Name, Transaktion und Geldbetrag), die dem "Element 1 bis Element 4" entsprechen, zum in 6 gezeigten Server 39 ausgesendet.
Dann, ansprechend auf das Drücken der Eingabetaste, bewegt sich der Schreibmarkenindikator 616 wieder vom "Element 4" zum "Element 1", und der Hervorhebungsanzeigeabschnitt 613 bewegt sich durch die Hervorhebungsanzeige-Übergangssteuersektion 626 vom "Geldbetrag (¥12.000)" zur "Kontonummer (0010)" in der zweiten Zeile, wie in 74 ersichtlich. Danach können, jedesmal wenn die oben beschriebene Operation wiederholt wird, die Elemente 612 in dem Bilddaten-Anzeigebereich 611 eines nach dem anderen hervorgehoben angezeigt werden.
Mit anderen Worten, eines der Elemente 612, das einem der Dateneingabe-Anzeigebereichsabschnitte 615 entspricht, an dem der Schreibmarkenindikator 616 derzeit ist, wird hervorgehoben angezeigt, und wenn sich der Schreibmarkenindikator 616 bewegt, bewegt sich auch der Hervorhebungsanzeigeabschnitt 613 zwischen verschiedenen der Elemente 612.
Die Eingabe von Überweisungsdaten wird dabei an einem der Dateneingabe-Anzeigebereichsabschnitte 615 vorgenommen, der den Schreibmarkenindikator 616 aufweist, und wenn die Schreibmarkenanzeige zu einem der Dateneingabe-Anzeigebereichsabschnitte 615 bewegt wird, in den Daten einzugeben sind, dann wird ein Bilddatenabschnitt des Elements 612, auf das gleichzeitig Bezug zu nehmen ist, hervorgehoben angezeigt. Dementsprechend kann eine fehlerhafte Erkennung beim Abgleich verhindert werden, wenn auf Daten Bezug genommen wird, um die visuelle Wahrnehmbarkeit zu verstärken, wodurch die für Eingabeoperationen erforderliche Arbeit reduziert werden kann, und eine fehlerhafte Eingabe von Überweisungsdaten verhindert werden kann.
Wenn angenommen wird, dass die oben beschriebene Überweisungsdaten-Eingabeverarbeitung in einen Zustand weitergeführt wird, in dem "Geldbetrag (¥1.765)" in der untersten Zeile des Bilddaten-Anzeigebereichs 611 der Anzeigeeinheit 630 hervorgehoben angezeigt wird, wie in 75 ersichtlich, wenn dann einige der Elemente 612, die nicht auf der Anzeigeeinheit 630 angezeigt werden, unter dem "Geldbetrag (¥1.765)" bleiben, dann wird, wenn der Schreibmarkenindikator 616 in dem Elementdaten-Anzeigebereich 614 vom "Element 4" zum "Element 1" bewegt wird, der Anzeigebildschirm automatisch von der Bildschirm-Rollsektion 627 gerollt, und der Hervorhebungsanzeigeabschnitt 613 wird in einer entsprechenden Beziehung von der Hervorhebungsanzeige-Übergangssteuersektion 626 vom "Geldbetrag (¥1.765)" zur "Kontonummer (2148)" in dem Bilddaten-Anzeigebereich 611, wie in 76 gezeigt, bewegt.
Mit anderen Worten, wenn eines der Elemente 612, das an dem untersten Ort in dem Bilddaten-Anzeigebereich 611 ist, hervorgehoben angezeigt wird, und einige der Elemente 612, die nicht auf der Anzeigeeinheit 630 angezeigt werden, unter dem Element 612 bleiben, kann der Anzeigebildschirm automatisch durch die Bewegung des Schreibmarkenindikators 616 zwischen den Dateneingabe-Anzeigebereichsabschnitten 615 gerollt werden.
Es ist zu beachten, dass, obwohl der Bildlauf des Anzeigebildschirms für ein Element nach dem anderen vorgenommen wird, und das Element "Kontonummer (2148)" in 76 angezeigt wird, die Weise des Anzeigebildlaufs nicht darauf beschränkt ist, und der Anzeigebildschirm kann alternativ dazu für alle Elemente für einen Bildschirm (für sieben Elemente) gerollt werden, indem das Element der "Kontonummer (2148)" zur obersten Zeile bewegt wird, so dass andere Elemente für einen Bildschirm unter diesen angezeigt werden können.
Hier wird eine solche Bewegungssteuerung einer Hervorhebungsanzeige wie in 70 bis 76 gezeigt von der Hervorhebungsanzeigesektion 624, Hervorhebungsanzeige-Aufhebungssektion 625, Hervorhebungsanzeige-Übergangssteuersektion 626 und Bildschirm-Rollsektion 627 vorgenommen, und ein Operationsfluss in diesem Fall wird detaillierter mit Bezugnahme auf 65 beschrieben.
Wenn der Schreibmarkenindikator 616 beispielsweise vom "Element 1" zum "Element 2" in dem Elementdaten-Anzeigebereich 614 bewegt wird, wie in 70 und 71 ersichtlich, das heißt, wenn eines der Elemente 612, das ein Eingabeobjekt in dem Bilddaten-Anzeigebereich 611 bildet, von jenem der Elemente 612 verschieden wird, welches das letzte Eingabeobjekt war, dann wird diskriminiert, ob eine Änderung des Hervorhebungsanzeigeattributs (Hervorhebungsanzeigeart oder Hervorhebungsanzeigeregion) bei der letzten Eingabe vorgenommen wurde oder nicht (Schritt B1').
Dann, wenn eine Änderung des Hervorhebungsanzeigeattributs vorgenommen wurde, dann führt die Hervorhebungsanzeige-Aufhebungssektion 626 das Hervorhebungsanzeigeattribut des Bilddatenabschnitts des Elements 612 in der vorhergehenden Anzeige zu einem gewöhnlichen Anzeigeattribut (Attribut vor der Änderung) zurück, um die Hervorhebungsanzeige aufzuheben (Schritt B2'), und erfasst Assoziationsinformationen P für ein nächstes der Elemente 612 (Schritt B3').
Danach nimmt die Hervorhebungsanzeigesektion 624 auf die Assoziationsinformationen P Bezug, um zu diskriminieren, ob Assoziationsinformationen P in Bezug auf jenes Element 612, das ein Eingabeobjekt bildet, vorliegen oder nicht (Schritt B4'), und wenn Assoziationsinformationen P in Bezug auf das Element 612 vorliegen, das ein Eingabeobjekt bildet, erfasst die Hervorhebungsanzeigesektion 624 Hervorhebungsinformationen Q, und die Änderungsinformations-Erfassungssektion 628A nimmt auf die Hervorhebungsinformationen Q Bezug, um Änderungsinformationen des Hervorhebungsanzeigeattributs zu erfassen (Schritt B5').
Ferner wird diskriminiert, ob der Bilddatenabschnitt, der dem Element 612 entspricht, das ein Eingabeobjekt bildet, auf der Anzeigeeinheit 630 angezeigt wird oder nicht, um zu diskriminieren, ob ein automatischer Bildlauf des Bildschirms erforderlich ist oder nicht (Schritt B6'). Wenn kein automatischer Bildlauf des Bildschirms erforderlich ist, ändert die Hervorhebungsinformations-Änderungssektion 628B das Hervorhebungsanzeigeattribut des Bilddatenabschnitts mit den in Schritt B5' erfassten Änderungsinformationen, und der Hervorhebungsanzeigeabschnitt 613 wird von "Kontonummer (0001)" zu "Name (Taro Fuji)" bewegt, wie in 70 und 71 ersichtlich.
Wenn hingegen in Schritt B6' diskriminiert wird, dass ein automatischer Bildlauf des Bildschirms erforderlich ist, nimmt die Bildschirm-Rollsektion 627 eine automatische Bildschirm-Rollverarbeitung ansprechend auf die Bewegung des Hervorhebungsanzeigeabschnitts 613 vor, wie in 75 und 76 ersichtlich (Schritt B7'), und die Hervorhebungsinformations-Änderungssektion 628B ändert das Hervorhebungsanzeigeattribut des Bilddatenabschnitts mit den in Schritt B5' erfassten Änderungsinformationen (Schritt B8').
Auf diese Weise wird die Bewegungssteuerung der Hervorhebungsanzeige so vorgenommen, dass diskriminiert wird, ob eine Änderung des Hervorhebungsanzeigeattributs vorgenommen wurde oder nicht, und wenn eine Änderung des Hervorhebungs anzeigeattributs vorgenommen wurde, dann wird die letzte Hervorhebungsanzeige eines beliebigen der Elemente 612 aufgehoben, und es wird diskriminiert, ob Assoziationsinformationen P in Bezug auf eines der Elemente 612, das ein Eingabeobjekt bildet, vorliegen oder nicht, und dann, wenn Assoziationsinformationen P in Bezug auf das Element 612, das ein Eingabeobjekt bildet, vorliegen, dann werden Änderungsinformationen des Hervorhebungsanzeigeattributs erfasst.
Ferner wird diskriminiert, ob ein automatischer Bildlauf des Bildschirms erforderlich ist oder nicht, und wenn kein automatischer Bildlauf des Bildschirms erforderlich ist, dann wird das Hervorhebungsanzeigeattribut geändert, wenn jedoch ein automatischer Bildlauf des Bildschirms erforderlich ist, dann wird eine automatische Bildschirm-Rollverarbeitung vorgenommen, und dann wird das Hervorhebungsanzeigeattribut geändert.
Die Anzeigeart und die Anzeigeregion des Hervorhebungsanzeigeabschnitts 613 können dabei willkürlich geändert werden, indem die Hervorhebungsinformationen Q geändert werden.
Dies wird anhand eines Beispiels beschrieben, bei dem, beispielsweise auf der in 77 gezeigten Anzeigeeinheit 630, der "Geldbetrag (¥4.321)" hervorgehoben angezeigt wird, der das Element 612 in der untersten Stufe des Bilddaten-Anzeigebereichs 611 ist.
In diesem Fall kann der Hervorhebungsanzeigeabschnitt 613 des Elements 612 "Geldbetrag (¥4.321)" einzigartige bestimmt werden, indem Startpositionskoordinaten (320, 180) und Endpositionskoordinaten (420, 200) definiert werden, wie aus den Hervorhebungsinformationen Q von 69 und 79 ersichtlich. Es ist zu beachten, dass die Startpositionskoordinaten (320, 180) Koordinaten sind, die bei "Nr. 7 Start" angezeigt sind, was dem "Titel 4 (Geldbetrag)" entspricht, und die Endpositionskoordinaten (420, 200) Koordinaten sind, die bei "Nr. 7 Ende" angezeigt sind, was dem "Titel 4 (Geldbetrag)" entspricht.
Dann, wenn die Startpositionskoordinaten (320, 180) des Hervorhebungsanzeigeabschnitts 613 auf (360, 180) geändert werden, wie in 78 ersichtlich, dann wird die Region des Hervorhebungsanzeigeabschnitts 613 von "Geldbetrag (4.321)", das ein in 77 gezeigtes Element ist, schmal, wie in 78 ersichtlich.
Durch die Änderung der Startpositionskoordinaten oder der Endpositionskoordinaten der Hervorhebungsinformationen Q kann die Größenordnung der Region des Hervorhebungsanzeigeabschnitts 613 willkürlich eingestellt werden.
Eine solche Änderung der Hervorhebungsinformationen Q kann von der in 62 und 63 gezeigten Änderungssektion 628 vorgenommen werden, indem eine Instruktion zur Änderung des Hervorhebungsanzeigeattributs in die Bilddaten-Anzeigevorrichtung 640 unter Verwendung einer Tastatur oder irgendeiner anderen als Dateneingabeeinrichtung dienenden Vorrichtung eingegeben wird.
Insbesondere wenn, in der Änderungssektion 628, die Änderungsinformations-Erfassungssektion 628A Änderungsinformationen R erfasst, dann aktualisiert die Hervorhebungsinformations-Änderungssektion 628B die Hervorhebungsinformationen Q, um Hervorhebungsinformationen Q' zu erzeugen, und ein Operationsfluss in diesem Fall wird mit Bezugnahme auf 66 beschrieben.
Wenn Änderungsinformationen R eingegeben werden, dann nimmt die Änderungsinformations-Erfassungssektion 628A zuerst eine Hervorhebungsinformations-Änderungsstart-Erkennungsverarbeitung (Schritt C1') und Hervorhebungsinformations-Änderungsende-Erkennungsverarbeitung (Schritt C2') vor, und nimmt dann eine Änderungsinformations-Erfassungsverarbeitung (Schritt C3') vor, um zu erkennen, in welcher Weise die Hervorhebungsinformationen Q geändert wurden.
Dann, in Übereinstimmung mit einem Ergebnis der Erkennung, nimmt die Hervorhebungsinformations-Änderungssektion 628B eine Hervorhebungsinformations-Aktualisierungsverarbeitung (Schritt C4') und eine Hervorhebungsinformations-Änderungsverarbeitung (Schritt C5') vor, um die Hervorhebungsinformationen Q zu aktualisieren, um Hervorhebungsinformationen Q' zu erzeugen, wie beispielsweise in 79 ersichtlich.
Da die Anzeigeart und die Anzeigeregion des Hervorhebungsanzeigeabschnitts 613 auf diese Weise willkürlich geändert werden können, kann eine Hervorhebungsanzeige in Übereinstimmung mit einer Applikation frei vorgenommen werden.
Es ist zu beachten, dass, obwohl ein Zeichenerkennungsergebnis von Bilddaten in den in 77 oder 78 gezeigten Dateneingabe-Anzeigebereichsabschnitten 615 nicht angezeigt wird, dieses natürlich alternativ angezeigt werden kann.
Wenn die Schreibmarkenanzeige zu einem Dateneingabe-Anzeigebereichsabschnitt 615 bewegt wird, in den Daten einzugeben sind, dann wird demgemäß, mit der Bilddaten-Anzeigevorrichtung 640 gemäß der vorliegenden Ausführungsform, ein Bilddatenabschnitt eines Elements 612, auf das gleichzeitig Bezug zu nehmen ist, hervorgehoben angezeigt. Auch wenn ein Bediener seine Augen einmal von der Anzeigeeinheit 630 abwendet, und dann erneut auf die Anzeigeeinheit 630 sieht, kann demgemäß verhindert werden, dass der Bediener ein falsches Element 612 ansieht. Dementsprechend ist die Bilddaten-Anzeigevorrichtung 640 dadurch vorteilhaft, dass eine fehlerhafte Erkennung beim Abgleich, wenn auf Daten Bezug zu nehmen ist, verhindert wird, und die visuelle Beobachtbarkeit verbessert wird, und außerdem wird die Arbeit für Eingabeoperationen reduziert, und eine fehlerhafte Eingabe kann verhindert werden.
Wenn Bilddaten eines Elements 612, auf das Bezug zu nehmen ist, nicht auf der Anzeigeeinheit 630 angezeigt werden, ist ferner, da der Bildschirm automatisch ansprechend auf eine Bewegung des Hervorhebungsanzeigeabschnitts 613 gerollt werden kann, die Bilddaten-Anzeigevorrichtung 640 auch dadurch vorteilhaft, dass solche unnötigen Operationen wie beispielsweise ein Tastendruck reduziert werden können.
Darüber hinaus ist die Bilddaten-Anzeigevorrichtung 640 dadurch vorteilhaft, dass die Art oder die Region des Hervorhebungsanzeigeabschnitts 613 durch einen Bediener geändert werden kann und in Übereinstimmung mit einer Applikation verwendet werden kann.
Es ist zu beachten, dass, obwohl in der vorliegenden Ausführungsform, wenn eine Hervorhebungsanzeige für Bilddaten eines auf einer Anzeigeeinheit angezeigten Dokuments vorzunehmen ist, ein vorherbestimmtes Element 612 automatisch zur Gänze angezeigt wird, wie beispielsweise in 70 ersichtlich, die Weise der Hervorhebungsanzeige nicht darauf beschränkt ist, und beispielsweise ein Teil eines vorherbestimmten Elements 612 auf andere Weise hervorgehoben angezeigt werden kann, wie in 80 ersichtlich.
Hier werden, in dem Bilddaten-Anzeigebereich 611 der in 80 gezeigten Anzeigeeinheit 630, Bilddaten angezeigt, die Informationen von fünf Elementen "Kontonummer", "Titel", "Bankname/Name der Zweigstelle", "Empfänger" und "Geldbetrag" einschließen.
Wenn Überweisungsdaten einzugeben sind, wird der Schreibmarkenindikator 616 zu einem gewünschten der Dateneingabe-Anzeigebereichsabschnitte 615 bewegt, und entsprechende Überweisungsdaten werden in einen Bilddatenabschnitt eines gewünschten der Elemente 612 eingegeben. In diesem Fall wird der Bilddatenabschnitt des gewünschten Elements 612 mit dem Hervorhebungsanzeigeabschnitt 613 (an dem Ort von "Bankname/Name der Zweigstelle (Fujitsu Bank)") hervorgehoben angezeigt, wie in 80 ersichtlich, und wenn sich der Schreibmarkenindikator 616 bewegt, bewegt sich auch der Hervorhebungsanzeigeabschnitt 613 in dem Bilddaten-Anzeigebereich 611, wie in 81 und 82 ersichtlich.
Es ist zu beachten, dass, obwohl in 82 die Zeichen von "Empfänger (Ichiro Yamada)" des Elements 612 hervorgehoben angezeigt sind, das gesamte Element 612 auf andere Weise hervorgehoben angezeigt werden kann, wie in 83 ersichtlich.
Ferner können Bilddaten eines Dokuments auf andere Weise für einzelne Informationen auf der Anzeigeeinheit 630 angezeigt werden, wie beispielsweise in 84 ersichtlich.
Hier werden, in dem Bilddaten-Anzeigebereich 611 der in 84 gezeigten Anzeigeeinheit 630, Bilddaten angezeigt, die Informationen von sieben Elementen "Bankname", "Name der Zweigstelle", "Kontonummer", "Titel", Geldbetrag", "Empfänger" und "Auftraggeber" einschließen.
Wenn Überweisungsdaten einzugeben sind, wird ähnlich der Schreibmarkenindikator 616 zu einem gewünschten Dateneingabe-Anzeigebereichsabschnitt 615 bewegt, und entsprechende Überweisungsdaten werden in einen Bilddatenabschnitt eines gewünschten Elements 612' eingegeben. In diesem Fall wird der Bilddatenabschnitt des gewünschten Elements 612' mit dem Hervorhebungsanzeigeabschnitt 613 (dem Ort von "Titel (1)") hervorgehoben angezeigt, wie in 84 ersichtlich, und wenn sich der Schreibmarkenindikator 616 bewegt, bewegt sich auch der Hervorhebungsanzeigeabschnitt 613 in dem Bilddaten-Anzeigebereich 611, wie in 85 ersichtlich.
Auch wenn Bilddaten eines Dokuments auf diese Weise angezeigt werden, können Vorteile ähnlich jenen der vorliegenden Ausführungsform erzielt werden.
Es ist zu beachten, dass, obwohl ein Zeichenerkennungsergebnis von Bilddaten nicht in den in 80 bis 85 gezeigten Dateneingabe-Anzeigebereichsabschnitten 615 angezeigt wird, dieses natürlich auf andere Weise dort angezeigt werden kann.
Obwohl, in der vorliegenden Ausführungsform, ein in einer Bank oder dgl. verwendetes Dokument von einer Bilddaten-Eingabevorrichtung gelesen wird und als Bilddaten auf einem Bildschirm einer Anzeigeeinheit oder dgl. angezeigt wird, ist ferner das Datenmedium nicht darauf beschränkt, und irgendeine andere Art von Daten (beispielsweise eine Namensliste) kann von einer Bilddaten-Eingabevorrichtung gelesen und als Bilddaten auf einem Bildschirm einer Anzeigeeinheit oder dgl. angezeigt werden. Auch in diesem Fall können Vorteile ähnlich jenen der vorliegenden Ausführungsform erzielt werden.
Obwohl, in der vorliegenden Ausführungsform, ein Bediener gelesene Bilddaten visuell beobachtet, und eine Eingabeoperation vornimmt, kann darüber hinaus, beispielsweise wenn ein Dokument von einer Bilddaten-Eingabevorrichtung gelesen wird, eine Zeichenerkennung auf andere Weise automatisch vorgenommen werden, wobei der Bediener eine Eingabeoperation nur für ein Element vornimmt, das ein Zeichen einschließt, das fehlerhaft erkannt wurde oder nicht erfolgreich erkannt werden kann.
Wenn die soeben angegebene Konstruktion eingesetzt wird, können Vorteile ähnlich jenen der vorliegenden Ausführungsform erzielt werden, und außerdem können die Arbeit und die Zeit, die für eine Eingabeoperation erforderlich sind, deutlich reduziert werden.
(2) Beschreibung einer Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung
Da in der im obigen Absatz (1) detailliert beschriebenen Bilddaten-Anzeigevorrichtung 640 das Editieren und Anzeigen von Bilddaten in Einheiten eines eine Vielzahl von Zeichen einschließenden Elements vorgenommen werden, wird, wenn eine Bestätigung vorzunehmen ist, ob ein Ergebnis einer automatischen Zeichenerkennung richtig oder falsch ist, eine Auswahl von Zeichen, die erkannten Zeichen eines Bestätigungsobjekts entsprechen, durch visuelle Beobachtung unter verschiedenen Zeichen vorgenommen, die erfolgreich in den Bilddaten auftreten. Daher sind viele Augenbewegungen und viele Vergleichsobjekte involviert, und viel Arbeit und Zeit kann für eine Bestätigungsoperation zwischen richtig und falsch erforderlich sein.
Daher kann in einem solchen Fall eine Einzahlungsanforderungsverarbeitung unter Verwendung einer solchen Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 vorgenommen werden wie in 86 gezeigt.
Die Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 ruft ein Dokument als Bild ab, auf dem Einzahlungsdaten, wie beispielsweise eine Gebührenart und ein einzuzahlender Geldbetrag beschrieben sind, und konvertiert das Bild der Einzahlungsdaten in Codeinformationen durch eine automatische Zeichenerkennung, um eine Einzahlungsanforderungsverarbeitung vorzunehmen. Es ist jedoch eine Modifikation an einem Zeichen vorzunehmen, das nicht erkannt werden kann, oder das fehlerhaft erkannt wird (das Zeichen schließt eine Zahl ein). Dies gilt ähnlich für die folgende Beschreibung, wenn eine Konvertierung von einem Bediener unter Verwendung einer Tastatur oder dgl. vorgenommen wird.
Hier entspricht die Leseemblemanzeige-Erkennungsinfor mations-Modifikationsvorrichtung 740 dem Client 10 der in 6 gezeigten Datenmedium-Handhabungsvorrichtung 30, und wenn sie mit dem in 6 gezeigten Server 39 verbunden ist, funktioniert sie als Arbeitsstation, die eine Modifikationsverarbeitung an einem nicht erkennbaren Zeichen oder an einem fehlerhaft erkannten Zeichen vornimmt, ähnlich auch für ein Zeichenerkennungsergebnis eines Bilds durch die konzentrierte Zeichenerkennungs-Verarbeitungssektion 6, die mit dem Server 39 verbunden ist, und gibt ein Ergebnis der Modifikation an den Server 39 aus.
Zu diesem Zweck schließt die Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740, wie in 86 gezeigt, ein: einen Bildleser 721, der als Bildlesesektion dient, eine Tastatur 722, die als Dateneingabevorrichtung dient, eine Festplatte 723, einen Computer-Mainframe 724, der als Emblem-Erkennungsvorrichtung dient, und eine Anzeigeeinheit 725.
Der Bildleser 721 liest ein Bereichsvollbild P, das ein Bild ist mit Embleminformationen wie Zahlen oder Zeichen auf einem Dokument, auf dem beispielsweise in 98 gezeigte Einzahlungsdaten beschrieben sind, und gibt das Bereichsvollbild P als Emblembildinformationen, die Bildinformationen der Zahlen, Zeichen, usw., sind, in den Computer-Mainframe 724 ein.
Es ist zu beachten, dass, obwohl die Emblembildinformationen in Einheiten einer Zahl oder eines Zeichens zusammengesetzt sind, was eine minimale Zusammensetzungseinheit darstellt, diese nicht darauf beschränkt sind, und ein Aggregat von Zahlen und/oder Zeichen als Zusammensetzungseinheit verwendet werden kann. Ferner kann eine Vielzahl solcher Bereichsvollbilder P kollektiv gehalten werden.
Die Tastatur 722 wird von einem Bediener manuell bedient, um geeignete Codedaten als richtige Antwortdaten ein zugeben, um Codedaten zu modifizieren, welche Emblembildinformationen entsprechen, die nicht automatisch erfolgreich erkannt wurden, oder die fehlerhaft erkannt wurden.
Ferner zeigt die Anzeigeeinheit 725 vom Bildleser 721 eingegebene Emblembildinformationen in einem Zustand eines gelesenen Bilds an, und schließt ein: einen Anzeigebereich 732A für nicht erkennbare Emblembildinformationen, einen Anzeigebereich 733A für Emblembildinformationen, einen Anzeigebereich 733B für assoziierte Emblembildinformationen und einen Anzeigebereich 733C für richtige Antwortdaten.
Der Anzeigebereich 732A für nicht erkennbare Emblembildinformationen zeigt Emblembildinformationen an, die nicht automatisch erfolgreich erkannt wurden, zusammen mit umliegenden Emblembildinformationen, und wendet eine Hervorhebungsanzeige für solche nicht erkennbare Emblembildinformationen an, dass sie aus den umliegenden Emblembildinformationen identifiziert werden können. Beispielsweise ist, in einem Bildschirm A von 101, "3" von "2034", gezeigt in "1. '?' (abgelehntes Zeichen)" die nicht erkennbare Emblembildinformation, und "2", "0" und "4" entsprechen den umliegenden Emblembildinformationen.
Der Anzeigebereich 733A für Emblembildinformationen zeigt Emblembildinformationen einer minimalen Zusammensetzungseinheit in einem in Codeinformationen zu konvertierenden Bild in einer entsprechenden Beziehung zu Embleminformationen an, welche durch Codeinformationen signifiziert werden, die durch die Konvertierung der Emblembildinformationen erhalten werden.
Insbesondere sind, als Emblembildinformationen einer durch das Teilen eines Bilds erhaltenen minimalen Zusammensetzungseinheit, beispielsweise für Zahlen, "0" bis "9" entsprechende Bereiche vorgesehen, wie aus dem Bildschirm A von 101 ersichtlich, und gleiche Embleme werden in den gleichen Bereichen so angezeigt, dass "1" repräsentierende Emblembildinformationen alle in "1" entsprechenden Bereichen angezeigt werden, so dass Augenbewegungen reduziert werden können.
Die Anzeigebereich 733B für assoziierte Emblembildinformationen ist so konstruiert, dass beispielsweise, wenn eine Bestätigung zwischen richtig und falsch und eine Modifikation eines Ergebnisses einer automatischen Zeichenerkennung leicht durch Bezugnahme auf vorhergehende und folgende Zeichen in einer Zeichenreihe vorgenommen werden kann, Bildinformationen rund um hervorgehoben angezeigte Emblembildinformationen als Referenz ansprechend auf den Druck beispielsweise einer Referenztaste der Tastatur 722 angezeigt werden. In einem Bildschirm F von 103 ist beispielsweise "7" von "1175" eine hervorgehoben angezeigte Emblembildinformation, und "1", "1" und "5" sind umliegende Bildinformationen.
Der Anzeigebereich 733C für richtige Antwortdaten zeigt geeignete Codedaten, die über die Tastatur 722 eingegeben werden, als richtige Antwortdaten an. In dem Bildschirm F von 103 ist beispielsweise gezeigt, dass "7" eingegeben wird.
Ferner schließt die in 86 gezeigte Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 die Festplatte 723 ein, wie hier im Vorstehenden beschrieben. Die Festplatte 723 dient als Definitionsinformations-Speichersektion zum Speichern gelesener Bezeichnungsinformationen als Definitionsinformationen. Es ist zu beachten, dass die gelesenen Bezeichnungsinformationen Informationen in Bezug auf eine Teilung eines Bereichsvollbilds P und die Erkennung als Codedaten signifizieren.
Der in 86 gezeigte Computer-Mainframe 724 funktioniert als Emblem-Erkennungsvorrichtung (der Computer- Mainframe 724 kann hier im Nachstehenden als Emblem-Erkennungsvorrichtung 724 bezeichnet werden), und erkennt Bildinformationen eines Emblems eines vom Bildleser 721 eingegebenen Bilds, konvertiert die Bildinformationen des Emblems in Codedaten, nimmt eine vorherbestimmte Verarbeitung an dem Bild des Emblems vor, und zeigt es auf der Anzeigeeinheit 725 an.
Der Computer-Mainframe 724, der in 86 und 87 gezeigt ist und als Emblem-Erkennungsvorrichtung dient, schließt ein: eine Zeichenerkennungssektion 726, die als Emblem-Erkennungssektion dient, eine Leseemblembild-Anzeigesteuersektion 727, eine Anzeigesektion 728 für richtige Antwortdaten, die als Anzeigeeinrichtung für richtige Antwortdaten dient, eine Zeichenbild-Extraktionsverarbeitungssektion 729, die als Extraktionssektion für Emblembildinformationen einer minimalen Zusammensetzungseinheit dient, eine Zeichenbild-Anzeigeverarbeitungssektion 730, die als Anzeigesteuersektion für Emblembilder einer minimalen Zusammensetzungseinheit dient, eine assoziierte Emblembild-Anzeigesektion 731, die als assoziierte Emblembild-Anzeigeeinrichtung dient, eine Erkennungsinformations-Modifikationssektion 752, die als Erkennungsinformations-Modifikationseinrichtung dient, und eine assoziierte Informationserzeugungssektion 741.
Die Zeichenerkennungssektion 726 erkennt Emblembildinformationen in einem vom Bildleser 721 gelesenen Bild und konvertiert diese in entsprechende Codeinformationen. Die Zeichenerkennungssektion 726 hat Funktionen beispielsweise ähnlich jenen einer Zeichenerkennungsvorrichtung oder dgl.
Die Zeichenerkennungssektion 726 nimmt auf ein von der Bildlesevorrichtung 721 gelesenes Bereichsvollbild P oder auf gelesene Bezeichnungsinformationen (Definitionsinformationen) Bezug, die auf der Festplatte 723 gespeichert sind, um Erkennungszeicheninformationen S zu erzeugen.
Die Erkennungszeicheninformationen S repräsentieren Codedaten von Zeichen, die von der Zeichenerkennungssektion 726 erkannt werden, und werden durch "Elementname", "Elementspaltenanzahl" und "Erkennungsergebnis" repräsentiert, wie in 99 ersichtlich.
Der "Elementname" entspricht einer "Wassergebühr" und einer "Stromrechnung" in dem Bereichsvollbild P von 98 und hat Elemente "SUI-1 bis SUI 4" und "DEN-1 bis DEN-4".
Die "Elementspaltenanzahl" ist eine Anzahl von Spalten eines Elements und wird in diesem Fall so eingestellt, dass sechs Zeichen und/oder Zahlen eingegeben werden können. Das "Erkennungsergebnis" repräsentiert Codeinformationen als Codedaten, die als Zeichen erkannt werden. Es ist zu beachten, dass, wie aus dem Vergleich mit zusätzlich gezeigten richtigen Antwortdaten ersichtlich ist, die Erkennungsergebnisse von "SUI-2" und "SUI-4" sind, dass eine Erkennung unmöglich ist, bzw. dass die Erkennung fehlerhaft ist.
Wenn Emblembildinformationen nicht erfolgreich in entsprechende Codeinformationen konvertiert wurden, zeigt die Leseemblembild-Anzeigesteuersektion 727 diese nicht erkennbaren Emblembildinformationen, die nicht erfolgreich konvertiert wurden, zusammen mit Emblembildinformationen, die mit den nicht erkennbaren Emblembildinformationen assoziiert sind, in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit 725 an.
Insbesondere zeigt die Leseemblembild-Anzeigesteuersektion 727 Emblembildinformationen, die von der Zeichenerkennungssektion 726 weder erkannt wurden, noch erfolgreich in entsprechende Codeinformationen konvertiert wurden, als nicht erkennbare Emblembildinformationen zusammen mit assoziierten Emblembildinformationen, die rund um die nicht erkennbaren Emblembildinformationen positioniert sind, in einem Zustand eines gelesenen Bilds in dem Anzeigebereich 732A für nicht erkennbare Emblembildinformationen auf der Anzeigeeinheit 725 an.
Ferner schließt die Leseemblembild-Anzeigesteuersektion 727 eine Hervorhebungsanzeigesektion 727A ein, die als Hervorhebungsanzeigeeinrichtung dient, um eine Hervorhebungsanzeige an nicht erkennbare Emblembildinformationen anzulegen, damit die Erkennung der nicht erkennbaren Emblembildinformationen durch einen Bediener erleichtert wird.
Die Leseemblembild-Anzeigesteuersektion 727 schließt auch eine Hervorhebungsanzeige-Änderungssektion 727B ein, die als Hervorhebungsanzeige-Änderungseinrichtung dient, um, wenn richtige Antwortdaten in dem Anzeigebereich 733C für richtige Antwortdaten, der von dem Anzeigebereich 732A für nicht erkennbare Emblembildinformationen verschieden ist, auf der Anzeigeeinheit 725 durch die Anzeigesektion 728 für richtige Antwortdaten angezeigt werden, eine Anzeige nicht erkennbarer Emblembildinformationen, die hervorgehoben angezeigt wurde, in eine andere Hervorhebungsanzeige zu ändern, die eine Vollendung der Modifikation signifiziert.
Die Zeichenbild-Extraktionsverarbeitungssektion 729 extrahiert Emblembildinformationen einer minimalen Zusammensetzungseinheit in einem in Codeinformationen zu konvertierenden Bild für jedes Stück von Emblembildinformationen der minimalen Zusammensetzungseinheit.
Insbesondere teilt und extrahiert die Zeichenbild-Extraktionsverarbeitungssektion 729 Emblembildinformationen, deren minimale Zusammensetzungseinheit beispielsweise eine Zahl oder ein Zeichen ist, in und als Bildinformationen in Einheiten einer Zahl oder eines Zeichens, und nimmt auf ein Bereichsvollbild P oder gelesene Bezeichnungsinformationen (Definitionsinformationen) Bezug, die auf der Festplatte 727 gespeichert sind, um Assoziationsinformationen R zu er zeugen.
Die Zeichenbildinformationen und die Assoziationsinformationen R werden durch das Vornehmen der Verarbeitung in den Schritten B1'' bis B8'' des in 91 gezeigten Flussdiagramms erzeugt.
Insbesondere wird das Bereichsvollbild P in Einheiten eines Zeichens geteilt, um Zeichenbildinformationen zu erzeugen (Schritt B1''), und Positionsinformationen (Positionen auf einem Dokument) der Zeichenbildinformationen auf dem Bereichsvollbild P werden erfasst (Schritt B2'').
Dann wird diskriminiert, ob die Zeichenbildinformationen einem vorherbestimmten Element (Wassergebühr, Stromrechnung oder dgl.) zugeordnet sind oder nicht (Schritt B3''), und wenn die Zeichenbildinformationen einem vorherbestimmten Element zugeordnet sind, dann werden die Zeichenbildinformationen für die einzelnen Elemente klassifiziert (Schritt B4''), und Positionsinformationen der einzelnen Bildinformationen in den einzelnen Elementen werden eingestellt (Schritt B5'').
Wenn die Zeichenbildinformationen nicht einem vorherbestimmten Element zugeordnet sind, werden sie für einzelne Elemente in Bezug auf Reihen als Elemente klassifiziert (Schritt B6''), und Positionsinformationen der Zeichenbildinformationen in den einzelnen Elementen werden eingestellt (Schritt B7'').
Assoziationsinformationen R werden unter Verwendung der auf diese Weise eingestellten Positionsinformationen der Zeichenbildinformationen in den einzelnen Elementen erzeugt (Schritt B8''). Es ist zu beachten, dass die Assoziationsinformationen R Erkennungszeicheninformationen in Bezug auf erkannte Zeichen aufweisen.
Die Zeichenbild-Anzeigeverarbeitungssektion 730 hat Funktionen, um zu bewirken, dass die Emblembildinformationen einer minimalen Zusammensetzungseinheit (Bildinformationen beispielsweise in Einheiten einer Zahl oder eines Zeichens), die von der Zeichenbild-Extraktionsverarbeitungssektion 729 extrahiert werden, in einer entsprechenden Beziehung zu Embleminformationen angezeigt werden, welche durch Codeinformationen signifiziert werden, die durch die Konvertierung der Emblembildinformationen erhalten werden, und um zu bewirken, dass eine Vielzahl von Stücken von Emblembildinformationen minimaler Zusammensetzungseinheiten derselben Typen in einer entsprechenden Beziehung zu Embleminformationen angezeigt werden, welche durch Codeinformationen signifiziert werden, die durch die Konvertierung der Emblembildinformationen erhalten werden.
Insbesondere bewirkt die Zeichenbild-Anzeigeverarbeitungssektion 730, dass Codeinformationen, welche beispielsweise durch die Konvertierung von Bildinformationen "1" erhalten werden, die von der Zeichenbild-Extraktionsverarbeitungssektion 729 extrahiert werden, an einem Abschnitt angezeigt werden, in dem ein Emblem "1" von innerhalb eines Abschnitts des Anzeigebereichs 733A für Emblembildinformationen auf der Anzeigeeinheit 725 anzuzeigen ist, in der eine Vielzahl von Emblemen "0" bis "9", usw., anzuzeigen ist.
Die Zeichenbild-Anzeigeverarbeitungssektion 730 schließt eine Hervorhebungsanzeigesektion 730A ein, die als Hervorhebungsanzeigeeinrichtung dient, um eine Hervorhebungsanzeige nur für Informationen eines gewünschten Emblembilds vorzunehmen, um so die Identifikation von derzeit verarbeiteten Bildinformationen zu erleichtern.
Ferner nimmt eine Hervorhebungsanzeige-Änderungssektion 730B, die als Hervorhebungsanzeige-Änderungseinrichtung dient, wenn richtige Antwortdaten durch eine Bedienung der als Dateneingabevorrichtung dienenden Tastatur 722 eingegeben werden, eine weitere Hervorhebungsanzeige vor, die eine Vollendung der Modifikation für die Informationen eines Emblems signifiziert, das hervorgehoben angezeigt wurde, um eine Identifikation zwischen den Emblembildinformationen vor der Modifikation und den Emblembildinformationen nach der Modifikation zu erleichtern.
Die assoziierte Emblembild-Anzeigesektion 731 zeigt Informationen eines Emblembilds zusammen mit Embleminformationen, die mit den Emblembildinformationen assoziiert sind, in einem Zustand eines gelesenen Bilds auf der Anzeigeeinheit 725 an.
Insbesondere zeigt die assoziierte Emblembild-Anzeigesektion 731 Informationen eines Emblembilds zusammen mit assoziierten Emblembildinformationen, die rund um die Emblembildinformationen positioniert sind, in einem Zustand eines gelesenen Bilds in dem Anzeigebereich 733B für assoziierte Emblembildinformationen auf der Anzeigeeinheit 725 an, und wenn eine Bestätigung zwischen falsch und richtig und die Modifikation eines Ergebnisses einer automatischen Zeichenerkennung leicht beispielsweise durch Bezugnahme auf vorhergehende und folgende Zeichen in einer Zeichenreihe vorgenommen werden können, zeigt sie Bildinformationen rund um die hervorgehoben angezeigten Bildinformationen zur Referenz an.
Ferner schließt die assoziierte Emblembild-Anzeigesektion 731 eine Hervorhebungsanzeigesektion 731A ein, die als Hervorhebungsanzeigeeinrichtung dient, um eine Hervorhebungsanzeige für Informationen eines Emblembilds vorzunehmen, und erleichtert die Identifikation aus assoziierten Emblembildinformationen.
Wenn richtige Antwortdaten durch eine Bedienung der Tastatur 722 eingegeben werden, dann bewirkt die Anzeigesektion 728 für richtige Antwortdaten, dass die richtigen Antwortdaten in dem Anzeigebereich 733C für richtige Ant wortdaten auf der Anzeigeeinheit 725 angezeigt werden, der ein anderer Bereich ist als der Anzeigebereich 733A für Emblembildinformationen und der Anzeigebereich 733B für assoziierte Emblembildinformationen.
Wenn richtige Antwortdaten für nicht erkennbare Emblembildinformationen oder Emblembildinformationen einer fehlerhaften Erkennung über die Tastatur 722 eingegeben werden, dann registriert ferner die Erkennungsinformations-Modifikationssektion 752 die richtigen Antwortdaten als richtige Antwortcodedaten, um eine Modifikation der nicht erkennbaren Emblembildinformationen oder der Emblembildinformationen einer fehlerhaften Erkennung zu bewirken, und sie schließt eine Modifikationsinformationserfassungs-Verarbeitungssektion 742 und eine Modifikationsergebnisreflexions-Verarbeitungssektion 743 ein, wie in 88 ersichtlich.
Die assoziierte Informationserzeugungssektion 741 nimmt auf die Assoziationsinformationen R und die Erkennungszeicheninformationen S Bezug, um Assoziationsinformationen R' mit Erkennungszeicheninformationen zu erzeugen.
Die Assoziationsinformationen R' repräsentieren, wie in 100 ersichtlich, "Position und Größe auf dem Bereichsvollbild", "entsprechender Zeichenelementname", "entsprechender Elementbildname", "Spaltenposition im Element", "Erkennungszeichen", "Informationsversetzung im Erkennungszeichen" und "Modifikationsvollendungsflaggen" von Informationen einer Vielzahl von Zeichen.
Hier repräsentiert "Position und Größe auf dem Bereichsvollbild" Positionsinformationen von Zeichenbildinformationen auf dem Bereichsvollbild P, und diese werden in Einheiten eines Bits repräsentiert.
"Entsprechender Zeichenelementname" repräsentiert ein Element (wie "SUI-1 bis SUI-4"), zu dem die Zeichenbildinformationen gehören. "Entsprechender Zeichenelementname" re präsentiert ein Bild, zu dem Zeichenbildinformationen gehören, und entspricht "entsprechender Elementbildname" (wie "ISUI-1 bis ISUI-4").
Wenn beispielsweise das in 99 gezeigte Element "SUI-1" Erkennungszeicheninformationen "1050" entspricht, schließt es Informationen von Zeichenbildern 1 bis 4 ein, wie in 100 ersichtlich, und hat einen Bildnamen "ISUI-1".
Ferner repräsentiert "Spaltenposition im Element" eine Position von Zeichenbildinformationen in einem Element. "Erkennungszeichen" repräsentiert Erkennungszeicheninformationen S, und repräsentiert, dass die Erkennungsposition "1" an der dritten Spaltenposition in dem Element ist, "0" an der vierten Spaltenposition ist, "5" an der fünften Spaltenposition ist, und "0" an der sechsten Spaltenposition ist.
Obwohl die "Modifikationsvollendungsflaggen" in 100 alle "AUS" sind, wird ferner, wenn eine Modifikation an einem nicht erkennbaren Zeichen oder an einem fehlerhaft erkannten Zeichen vorgenommen wird, die "Modifikationsvollendungsflagge", die den Informationen des Zeichenbilds entspricht, auf "EIN" geändert, so dass angezeigt wird, dass Modifikationen dafür vorgenommen wurden.
Es ist zu beachten, dass Zeichenbildinformationen auch durch die Informationen "Informationsversetzung im Erkennungszeichen" definiert werden.
Die Assoziationsinformationen R' werden durch eine solche Verarbeitung wie in 92 veranschaulicht erzeugt.
Zuerst werden die Erkennungszeicheninformationen S für einzelne durch ein Element und/oder eine Reihe repräsentierte Positionsinformationen klassifiziert (Schritt C1''), und die so klassifizierten Erkennungszeicheninformationen S werden zu den entsprechenden Assoziationsinformationen R hinzugefügt (Schritt C2''). Dann wird diskriminiert, ob die Anzahlen von Elementen und/oder Zeichen in einer Reihe der Erkennungszeicheninformationen S innerhalb der Anzahl von Elementen oder Zeichen in einer Reihe der Assoziationsinformationen R liegen oder nicht (Schritt C3''). Ferner wird diskriminiert, ob die Anzahl von Elementen und/oder Reihen der Erkennungszeicheninformationen S innerhalb der Anzahl von Elementen oder Reihen der Assoziationsinformationen R liegt oder nicht (Schritt C4''). Dann werden, auf der Basis der Diskriminierung, die Assoziationsinformationen R aktualisiert, um Assoziationsinformationen R' zu erzeugen.
Tatsächlich wird die Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 durch die Installation von geeigneter Hardware, die die Funktionen als oben beschriebene Zeichenerkennungssektion 726, Leseemblembild-Anzeigesteuersektion 727, Zeichenbild-Extraktionsverarbeitungssektion 729, Zeichenbild-Anzeigeverarbeitungssektion 730, assoziierte Emblembild-Anzeigesektion 731, Anzeigesektion 728 für richtige Antwortdaten und assoziierte Informationserzeugungssektion 741 für den Computer-Mainframe 724 vorsehen kann, in der Festplatte 723 oder irgendeinem anderen Speicher konstruiert.
Die Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 gemäß der vorliegenden Ausführungsform mit der oben beschriebenen Konstruktion arbeitet auf folgende Weise.
Ein Bereichsvollbild P eines Objektdokument zum Lesen wird von der in 87 gezeigten Bildlesevorrichtung 721 erzeugt, und das Bereichsvollbild P wird in Zeichenbildinformationen konvertiert, und Assoziationsinformationen R' werden unter Verwendung der von der Emblem-Erkennungsvorrichtung 724 gelesenen Bezeichnungsinformationen (Definitionsinformationen) erzeugt.
Ein Initialbildschirm auf der Anzeigeeinheit 725, wenn die Zeichenbildinformationen auf der Anzeigeeinheit (in 87 nicht gezeigt) angezeigt werden, unter Verwendung der Assoziationsinformationen R' ist so wie der Bildschirm A von 101.
In diesem Fall werden "2034" und "1201", die ein abgelehntes Zeichen und rund um das abgelehnte Zeichen positionierte Zeichen sind, in dem Anzeigebereich 732A für nicht erkennbare Emblembildinformationen angezeigt, und "0" bis "9" repräsentierende Zeichenbilder werden in den Bereichen "0" bis "9" in dem Anzeigebereich 733A für Emblembildinformationen angezeigt.
Es ist zu beachten, dass die in dem Anzeigebereich 732A für nicht erkennbare Emblembildinformationen angezeigten Zeichen "2034" mit einem dicken Rahmen hervorgehoben angezeigt werden, um anzuzeigen, dass die Zeichen ein Modifikationsobjekt sind, und das abgelehnte Zeichen "3", das ein nicht erkennbares Zeichen ist, wird hervorgehoben mit schraffierten Linien angezeigt. Ähnlich wird in den Zeichen "1201", die in dem Anzeigebereich 732A für nicht erkennbare Emblembildinformationen angezeigt werden, das abgelehnte Zeichen "2", das ein nicht erkennbares Zeichen ist, mit schraffierten Linien hervorgehoben angezeigt.
Hier werden solche Anzeigen von Zeichenbildinformationen wie in 101 bis 104 gezeigt von der in 87 gezeigten Emblem-Erkennungsvorrichtung 724 vorgenommen, und ein Operationsfluss in diesem Fall wird mit Bezugnahme auf 93 beschrieben.
Zuerst erfasst die Emblem-Erkennungsvorrichtung 724 ein Bereichsvollbild P (Schritt D1''), und kopiert Assoziationsinformationen R' und klassifiziert diese in der Reihenfolge der Erkennungszeicheninformationen S (Schritt D2'').
Es wird diskriminiert, ob das Erkennungszeichen ein abgelehntes Zeichen ist, das nicht erkannt werden kann, oder nicht (Schritt D3''), und wenn es ein abgelehntes Zeichen ist, dann erfasst die Emblem-Erkennungsvorrichtung 724 Zeichenbildinformationen rund um dieses und/oder eines Elements, und zeigt diese in dem Anzeigebereich 732A für nicht erkennbare Emblembildinformationen an (Schritt D4''). Es ist zu beachten, dass die Operationen in den Schritten D1'' bis D4'' so oft wie die Anzahl solcher abgelehnter Zeichen wiederholt werden (Schritt D5'').
Wenn hingegen das Erkennungszeichen kein abgelehntes Zeichen ist, zeigt die Emblem-Erkennungsvorrichtung 724 die Zeichenbildinformationen in einem entsprechenden Bereich des Anzeigebereichs 733A für Emblembildinformationen an (Schritt D6''), und die Operation in Schritt D6" wird so oft wie die Anzahl von Erkennungszeichen wiederholt (Schritt D7'').
Wenn ein Bediener unter Verwendung der Tastatur 722 "3" als richtige Antwortdaten in einem solchen Zustand des in 101 gezeigten Initialbildschirms A eingibt, dann wird "3" in dem Anzeigebereich 733C für richtige Antwortdaten angezeigt, und dann, wenn beispielsweise eine Abschlusstaste gedrückt wird, dann wird die Hervorhebungsanzeige an dem Ort von "3", das ein in dem Anzeigebereich 732A für nicht erkennbare Emblembildinformationen angezeigtes abgelehntes Zeichen von "2034" ist, wie auf dem Bildschirm B gezeigt, von der Anzeige mit schraffierten Linien zu einer hinterlegten Hervorhebungsanzeige geändert, die anzeigt, dass das abgelehnte Zeichen modifiziert wurde. Zusammen damit werden die Erkennungszeicheninformationen S modifiziert, und die Assoziationsinformationen R' werden aktualisiert.
Ferner wird, auf dem Bildschirm B, ansprechend auf die Änderung zur hinterlegten Hervorhebungsanzeige, die anzeigt, dass das abgelehnte Zeichen "3" in "2034" modifiziert wurde, wird automatisch eine Hervorhebungsanzeige eines dicken Rahmens an "1201" angelegt, das ein nächstes Modifikations- Objekt ist.
Wenn, in einem solchen Zustand des Bildschirms B wie oben beschrieben, der Bediener unter Verwendung der Tastatur 722 "2" als richtige Antwortdaten eingibt, dann wird ferner "2" in dem Anzeigebereich 733C für richtige Antwortdaten angezeigt. Dann, wenn danach die Abschlusstaste gedrückt wird, wird dann die Hervorhebungsanzeige an dem Ort von "2", das ein in dem Anzeigebereich 732A für nicht erkennbare Emblembildinformationen angezeigtes abgelehntes Zeichen von "1201" ist, von der Anzeige mit schraffierten Linien zur hinterlegten Hervorhebungsanzeige geändert, die anzeigt, dass das abgelehnte Zeichen modifiziert wurde, wie aus dem Bildschirm C von 102 ersichtlich. Ansprechend darauf werden die Erkennungszeicheninformationen S modifiziert, und die Assoziationsinformationen R' werden aktualisiert.
Wenn ein beliebiges von Zeichenbildern verschieden ist, welche "0" bis "9" repräsentieren, die in den Bereichen "0" bis "9" des Anzeigebereichs 733A für Emblembildinformationen angezeigt werden, das heißt, wenn Zeichenbildinformationen fehlerhaft erkannt werden, dann bewegt sich darüber hinaus, wenn der Bediener beispielsweise eine Tabulatortaste der Tastatur 722 drückt, die Hervorhebungsanzeige des dicken Rahmens von dem Bereich "1. '?' (abgelehntes Zeichen)" zu dem Bereich "2. '0'" der Anzeigeeinheit 725, wie in 102 ersichtlich.
Wenn das Drücken der Tabulatortaste wiederholt wird, dann bewegt sich die Hervorhebungsanzeige des dicken Rahmens weiter zu dem Bereich "3. '1'", wie in dem Bildschirm E von 103 ersichtlich. Durch die Wiederholung davon wird die Hervorhebungsanzeige des dicken Rahmens, die ein Modifikationsobjekt anzeigt, aufeinanderfolgend in der Anzeigeeinheit 725 bewegt.
Insbesondere wenn die Hervorhebungsanzeige des dicken Rahmens zwischen den Bereichen "0" bis "9" zu bewegen ist, wird die Tabulatortaste gedrückt, um Informationen eines gewünschten Zeichenbilds auszuwählen, und auf dem Bildschirm E von 103 werden Zeichenbildinformationen "7", die als Ergebnis der fehlerhaften Erkennung angezeigt werden (das heißt das Bild von "7" wurde in Codeinformationen von "1" konvertiert), hervorgehoben mit einem dicken Rahmen angezeigt.
Wenn nicht leicht von selbst identifiziert werden kann, ob die Zeichenbildinformationen "7" richtig oder falsch sind, dann nimmt hier, wenn der Bediener die Referenztaste der Tastatur 722 drückt, wie in 89 ersichtlich, die assoziierte Emblembild-Anzeigesektion 731, die als assoziierte Emblembild-Anzeigeeinrichtung dient, auf die Assoziationsinformationen R' Bezug, um ein Referenzbild in dem Anzeigebereich 733B für assoziierte Emblembildinformationen anzuzeigen, wie aus dem Bildschirm F in 103 ersichtlich.
Wenn in einem solchen Zustand des Bildschirms F wie oben beschrieben der Bediener unter Verwendung der Tastatur 722 "7" als richtige Antwortdaten eingibt, und die Abschlusstaste drückt, dann wird "7" in dem Anzeigebereich 733C für richtige Antwortdaten angezeigt, und Codeinformationen der Zeichenbildinformationen "7" werden von "1" der fehlerhaften Erkennung auf "7" modifiziert, wie in 104 ersichtlich. Dann wird eine hinterlegte Hervorhebungsanzeige, die anzeigt, dass eine Modifikation vorgenommen wurde, an die Zeichenbildinformationen "7" angelegt.
Insbesondere werden die Erkennungszeicheninformationen S und die Assoziationsinformationen R' aktualisiert, und eine Hervorhebungsanzeige, die anzeigt, dass eine Modifikation vorgenommen wurde, wird an die modifizierten Zeichenbildinformationen "7" angelegt.
Hier wird eine solche Referenzbild-Anzeigeverarbeitung wie in 89 veranschaulicht von der assoziierten Emblembild-Anzeigesektion 731 wie hier im Vorstehenden beschrieben vorgenommen, und ein Operationsfluss in diesem Fall wird mit Bezugnahme auf 97 beschrieben.
Zuerst wird diskriminiert, ob ein Referenzbild angezeigt wird oder nicht (Schritt H1''). Wenn kein Referenzbild angezeigt wird, dann fragt die assoziierte Emblembild-Anzeigesektion 731 die Assoziationsinformationen R' der Zeichenbildinformationen eines hervorgehoben angezeigten Modifikationsobjekts ab (Schritt H2'').
Dann werden Bildinformationen rund um die Zeichenbildinformationen des Modifikationsobjekts und/oder eines Elements erfasst (Schritt H3''), und die Position, an der ein Referenzbild anzuzeigen ist, wird auf eine Position eingestellt, an der das Referenzbild nicht die Zeichenbildinformationen des hervorgehoben angezeigten Modifikationsobjekts abdeckt (Schritt H4''). Dann wird das Referenzbild angezeigt (Schritt H5'').
Es ist zu beachten, dass, wenn die Referenztaste erneut gedrückt wird, während das Referenzbild angezeigt wird, das Referenzbild dann gelöscht wird (Schritt H6'').
Hier wird eine solche Modifikation der Zeichenbildinformationen wie in 101 bis 104 ersichtlich von der Modifikationsinformationserfassungs-Verarbeitungssektion 742 und der Modifikationsergebnisreflexions-Verarbeitungssektion 743 der Zeichenerkennungssektion 726, die in 87 und 88 gezeigt sind, und der Hervorhebungsanzeige-Änderungssektion 727B, die als Hervorhebungsanzeige-Änderungseinrichtung dient, vorgenommen, und ein Operationsfluss in diesem Fall wird mit Bezugnahme auf 94 bis 96 beschrieben.
Wenn der Bediener über die Tastatur 722 richtige Antwortdaten eingibt, wie in 88 ersichtlich, dann werden die richtigen Antwortdaten als Modifikationsinformationen in die Modifikationsinformationserfassungs-Verarbeitungssektion 742 eingegeben, und die Modifikationsergebnisreflexions-Verarbeitungssektion 743 erzeugt Erkennungszeicheninformationen S unter Verwendung der Modifikationsinformationen und Assoziationsinformationen R', und modifiziert und aktualisiert die Assoziationsinformationen R'. Die Hervorhebungsanzeige-Änderungssektion 727B nimmt dabei auf die Modifikationsinformationen Bezug, um, an ein Element, dessen Abänderung vorgenommen wurde, eine Hervorhebungsanzeige anzulegen, die eine solche Abänderung anzeigt.
Wenn ein Eingabebildschirm wie in 94 ersichtlich angezeigt wird (Schritt E1''), diskriminiert in diesem Fall die Modifikationsinformationserfassungs-Verarbeitungssektion 742, ob das Erkennungszeichen ein abgelehntes Zeichen, das ein nicht erkennbares Zeichen ist, darstellt oder nicht (Schritt E2''). Wenn das Erkennungszeichen ein abgelehntes Zeichen ist, dann legt die Modifikationsinformationserfassungs-Verarbeitungssektion 742, an periphere und/oder Elementbildinformationen, eine Hervorhebungsanzeige eines dicken Rahmens an, die anzeigt, dass die peripheren und/oder Elementbildinformationen ein Objektelement zur Modifikation sind (Schritt E3''), und legt, an das abgelehnte Zeichen, das das Erkennungszeichen ist, eine andere Hervorhebungsanzeige schraffierter Linien an, die von dem dicken Rahmen verschieden sind (Schritt E4'').
Wenn das Erkennungszeichen hingegen kein abgelehntes Zeichen ist, dann wird eine Hervorhebungsanzeige eines dicken Rahmens an die Zeichenbildinformationen angelegt (Schritt E5'').
Wenn beispielsweise die Tabulatortaste oder eine Rücktabulatortaste (Taste zum Bewegen der Schreibmarke in einer Richtung entgegengesetzt zu jener einer Bewegung durch die Tabulatortaste) durch eine Bedienung der Tastatur 722 vom Bediener gedrückt wird (Schritt E6''), dann wird hier die Hervorhebungsanzeige des dicken Rahmens, der ein Modifikationsobjekt anzeigt, so bewegt, dass die nächsten Zeichenbildinformationen als Modifikationsobjekt angezeigt werden können (Schritt E7''). Wenn sich die Hervorhebungsanzeige des dicken Rahmens zu den letzten Zeichenbildinformationen bewegt, wird diese Operation danach vorgenommen, beginnend mit den ersten Zeichenbildinformationen (Schritt E8'').
Es ist zu beachten, dass, wenn irgendeine andere Taste gedrückt wird, dann die Modifikationsinformationen an die assoziierte Informationserzeugungssektion 741 gemeldet werden (Schritt E9'').
Andererseits fragt die in 88 gezeigte Modifikationsergebnisreflexions-Verarbeitungssektion 743, wie in 95 ersichtlich, die Assoziationsinformationen R' der hervorgehoben angezeigten Zeichenbildinformationen ab (Schritt F1''), modifiziert die Erkennungszeichen (nicht erkennbares Zeichen oder fehlerhaft erkanntes Zeichen) (Schritt F2''), modifiziert die Erkennungszeichen der Assoziationsinformationen R' (Schritt F3''), und zeigt das Referenzbild an oder löscht dieses (Schritt F4'').
Ferner erfasst die in 88 gezeigte Hervorhebungsanzeige-Änderungssektion 727B, wie in 96 ersichtlich, die Modifikationsinformationen (Schritt G1''), und legt eine Hervorhebungsanzeige an, die anzeigt, dass eine Modifikation vorgenommen wurde (Schritt G2'').
Wie oben beschrieben, werden die Anzeige und Abänderung von Zeichenbildinformationen und die Anzeige eines Referenzbilds durch die Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 vorgenommen, wie in 90 ersichtlich, durch das Erfassen von Bilddaten, die ein Bereichsvollbild P sind (Schritt A1''), Extrahieren von Zei chenbildinformationen (Schritt A2''), Erfassen von Erkennungszeichen-Bildinformationen (Schritt A3''), Erzeugen von Assoziationsinformationen R' (Schritt A4''), Anzeigen der Zeichenbildinformationen (Schritt A5''), Erfassen von Modifikationsinformationen (Schritt A6''), Drücken der Datentaste oder der Referenztaste (Schritt A7''), Reflektieren eines Ergebnisses der Modifikation ansprechend auf das Drücken der Datentaste (Schritt A8''), hervorgehobenes Anzeigen der modifizierten Zeichenbildinformationen (Schritt A9''), und Anzeigen eines Referenzbilds ansprechend auf das Drücken der Referenztaste (Schritt A10'') durch den Computer-Mainframe 724, und diese Verarbeitung wird für alle Zeichenbildinformationen, die angezeigt werden, vorgenommen (Schritt A11'').
Auf diese Weise werden, mit der Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 gemäß der vorliegenden Ausführungsform, Bildinformationen eines nicht erkennbaren Zeichens, das von dem Computer-Mainframe 724 nicht erfolgreich erkannt wurde, in einem Zustand eines gelesenen Bilds zusammen mit Bildinformationen von Zeichen rund um das nicht erkennbare Zeichen auf der Anzeigeeinheit 725 angezeigt, und eine Hervorhebungsanzeige wird an die Bildinformationen des nicht erkennbaren Zeichens angelegt. Dementsprechend ist die Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 dadurch vorteilhaft, dass, durch das Bezugnehmen auf Bildinformationen der vorhergehenden und folgenden Zeichen in der Zeichenreihe, eine Bestätigungsoperation mit einem hohen Genauigkeitsgrad vorgenommen werden kann, und die Arbeit und die Zeit, die für eine Bestätigungsoperation zwischen richtig und falsch erforderlich sind, reduziert werden können.
Wenn richtige Antwortdaten, die Bildinformationen eines nicht erkennbaren Zeichens oder eines fehlerhaft erkannten Zeichens entsprechen, durch eine Bedienung der Tastatur 722 eingegeben werden, dann werden ferner, mit der Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 gemäß der vorliegenden Ausführungsform, die richtigen Antwortdaten auf der Anzeigeeinheit 725 angezeigt, und die Bildinformationen des nicht erkennbaren Zeichens oder des fehlerhaft erkannten Zeichens, die bisher hervorgehoben angezeigt wurden, werden mit einer anderen Hervorhebungsanzeige angezeigt, die eine Vollendung der Abänderung signifiziert. Dementsprechend ist die Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 dadurch vorteilhaft, dass ein Zeichen, für das die Eingabe eines nicht erkennbaren Zeichens oder eine Modifikation eines fehlerhaft erkannten Zeichens vorgenommen wurde, und ein anderes Zeichen, für das eine solche Operation nicht vorgenommen wurde, leicht identifiziert werden können, und demgemäß die visuelle Wahrnehmbarkeit erhöht wird, um doppelte Modifikationen durch einen Bediener, usw., zu verhindern, und die Arbeit und die Zeit, die für eine Bestätigungsoperation zwischen richtig und falsch erforderlich sind, deutlich reduziert werden können.
Ferner werden, mit der Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 gemäß der vorliegenden Ausführungsform, Embleme in solchen Einheiten angezeigt, mit denen eine visuelle Beobachtung erleichtert wird, so dass nur die gleichen Embleme in einem gleichen Bereich auf einer Anzeigeeinheit angezeigt werden, und eine Hervorhebungsanzeige wird nur an Informationen eines gewünschten Zeichenbilds angelegt. Dementsprechend ist die Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 dadurch vorteilhaft, dass ein Bediener bestätigen kann, ob ein Erkennungsergebnis richtig oder falsch ist nur durch Bezugnahme auf die Bildinformationen, ohne Bezugnahme auf Informationen assoziierter peripherer Zeichenbilder, so dass Augenbewegungen des Bedieners deutlich reduziert werden können, und auch dadurch, dass eine Hervorhebungsanzeige nur an Zeichenbildinformationen angelegt werden kann, die verarbeitet werden, um Vergleichsobjekte zu reduzieren, und die Arbeit und die Zeit, die für eine Bestätigungsoperation zwischen richtig und falsch erforderlich sind, deutlich reduziert werden können.
Ferner werden, mit der Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 gemäß der vorliegenden Ausführungsform, richtige Antwortdaten in einem Anzeigebereich für richtige Antwortdaten angezeigt, der von einem Bereich verschieden ist, in dem solche Informationen eines Zeichenbilds wie oben angegeben und periphere Zeichenbildinformationen, die mit den Zeichenbildinformationen assoziiert sind, angezeigt werden. Dementsprechend ist die Leseemblemanzeige-Erkennungsinformations-Modifikationsvorrichtung 740 dadurch vorteilhaft, dass die Zeichenbildinformationen und die eingegebenen richtigen Antwortdaten durch visuelle Beobachtung rückbestätigt werden können, und die Arbeit und die Zeit, die für eine Bestätigungsoperation zwischen richtig und falsch erforderlich sind, reduziert werden können, und darüber hinaus die Bestätigungsoperation mit einem hohen Genauigkeitsgrad vorgenommen werden kann.
Es ist zu beachten, dass, obwohl in der vorliegenden Ausführungsform, wenn ein nicht erkennbares Zeichen oder ein fehlerhaft erkanntes Zeichen zu modifizieren ist, richtige Antwortdaten für das nicht erkennbare Zeichen oder fehlerhaft erkannte Zeichen in dem Anzeigebereich 733C für richtige Antwortdaten der Anzeigeeinheit 725 angezeigt werden, ein nicht erkennbares Zeichen oder ein fehlerhaft erkanntes Zeichen auf andere Weise modifiziert werden kann, ohne die richtige Antwort auf das nicht erkennbare Zeichen oder feh lerhaft erkannte Zeichen anzuzeigen, oder auch nur richtige Antwortdaten für eines von einem nicht erkennbaren Zeichen oder fehlerhaft erkannten Zeichen angezeigt werden können, um das nicht erkennbare Zeichen oder fehlerhaft erkannte Zeichen zu modifizieren.
Obwohl in der vorliegenden Ausführungsform ein Dokument mit einem solchen Tabellenformat wie in 98 ersichtlich als Dokument verwendet wird, auf dem Einzahlungsdaten beschrieben sind, ist ferner das Dokument, auf dem Einzahlungsdaten beschrieben sind, nicht darauf beschränkt, und statt dessen kann ein Dokument mit einem beliebigen anderen Format verwendet werden.
(b) Beschreibung von Modifikationen der Ausführungsform der Erfindung
(b1) Beschreibung einer Dokumentenidentifikationsvorrichtung gemäß einer ersten Modifikation der Ausführungsform
105 ist ein Blockbild, das eine Dokumentenidentifikationsvorrichtung gemäß einer ersten Modifikation der Ausführungsform der vorliegenden Erfindung zeigt. Die in 105 gezeigte Dokumentenidentifikationsvorrichtung kann auch bestehen aus: einer Bilddaten-Lesevorrichtung 811, einem Computer 812 (dieser Computer 812 schließt eine Eingabesektion 812-1, eine Anzeigeeinheit 812-2 und eine Steuersektion 812-3 ein, wie hier im Nachstehenden beschrieben), und einer Festplatte 813 ähnlich jenen von 115, die hier im Vorstehenden beschrieben sind (siehe Bezugszahlen 1001, 1002 und 1003).
Die Bilddaten-Lesevorrichtung 811 liest Bilddaten eines Dokuments, und für diese Bilddaten-Lesevorrichtung 811 können eine optische Zeichenlesevorrichtung (OCR-Vorrichtung), ein Bildscanner oder dgl. ähnlich den hier im Vorstehenden mit Bezugnahme auf 115 beschriebenen verwendet werden.
Die Steuersektion 812-3 nimmt, auf der Basis von Bilddaten eines von der Bilddaten-Lesevorrichtung 811 gelesenen Bilds, die Verarbeitung als Dokumentendaten vor, und kann aus funktionellen Abschnitten des Computers 812 als CPU und als Speicher gebildet sein.
Ferner ist die Steuersektion 812-3, ähnlich der hier im Vorstehenden mit Bezugnahme auf 115 beschriebenen, verbunden mit einer Eingabesektion (siehe Bezugszahl 812-1 von 106, die hier im Nachstehenden beschrieben wird) wie einer Tastatur oder einer Maus zum Eingeben von Daten, einer Instruktion, usw., in die Steuersektion 812-3 durch einen Bediener, und auch mit einer Anzeigeeinheit (siehe Bezugszahl 812-2 von 106, die hier im Nachstehenden beschrieben wird) zum Anzeigen von Daten, usw., die von der Bilddaten-Lesevorrichtung 811 gelesen werden.
Die Festplatte (Dateispeicher) 813 speichert alle Bilddaten eines von der Bilddaten-Lesevorrichtung gelesenen Dokuments.
Darüber hinaus schließt die Steuersektion 812-3 funktionell ein, wie in 105 gezeigt: einen Bilddaten-Sicherungsspeicher 814, eine Bilddaten-Ausschnittsektion 815, eine Dokumentenidentifikations-Wörterbuchsektion 816, eine Datenvergleichssektion 817, eine Schwelleneinstellsektion 818, eine Dokumentendiskriminierungssektion 819, eine Definitionsspeichersektion 820, eine Definitionsspeichertabelle 821, eine Zeichenerkennungssektion 822 und eine Zeichenerkennungsergebnis-Speichersektion 823.
Der Bilddaten-Sicherungsspeicher 814 speichert einmal Bilddaten eines von der Bilddaten-Lesevorrichtung 811 gelesenen Dokuments. Die Bilddaten-Ausschnittsektion 815 hat eine Funktion als Dokumentenidentifikationsinformations-Extraktionseinrichtung zum Extrahieren erforderlicher Dokumentenidentifikationsinformationen, die auf einem Dokument beschrieben sind, aus in dem Bilddaten-Sicherungsspeicher 814 gespeicherten Bilddaten des Dokuments ansprechend auf eine Instruktion von Informationen (Identifikationsinformationen), die auf einer Bedienung der Eingabesektion 812-1 durch einen Bediener basieren und ein Extraktionsobjekt bilden.
Wenn die oben beschriebene Bilddaten-Ausschnittsektion 815 erforderliche Dokumentenidentifikationsinformationen aus Identifikationsinformationen extrahiert, werden Bilddaten eines von der Bilddaten-Lesevorrichtung 811 gelesenen Dokuments auf der Anzeigeeinheit 812-2 angezeigt (projiziert), und der Bediener kann Identifikationsinformationen auf der Basis der auf der Anzeigeeinheit 812-2 angezeigten Bilddaten anweisen.
Es ist zu beachten, dass der Bediener, als Informationen, die ein Extraktionsobjekt durch die Bilddaten-Ausschnittsektion 815 bilden, beispielsweise beliebige beschriebene Informationen wie Zeicheninformationen, eine Marke, ein Siegel oder eine gezogene Linie, die auf einem Dokument beschrieben sind, anweisen kann, und die Bilddaten-Ausschnittsektion 815 extrahiert automatisch Koordinatenpositionsinformationen angewiesener Informationen, Größenordnungsinformationen beschriebener Informationen und Dateninformationen als Dokumentenidentifikationsinformationen, beispielsweise durch eine Software- oder Firmware-Verarbeitung.
Ferner registriert die Dokumentenidentifikations-Wörterbuchsektion (Dokumentenidentifikationswörterbuch) 816 Dokumentenidentifikationsinformationen, die von der Bilddaten-Ausschnittsektion 815 extrahiert werden, als Dokumentenidentifikation eines bestimmten Dokuments.
Mehr im Einzelnen, wie in 108 ersichtlich, werden Dokumentenidentifikationsinformationen einer Dokumentenart A, an die eine ID-Nummer '0101' angelegt wird, in einer Region 816a gespeichert, und Dokumentenidentifikationsinformationen einer anderen Dokumentenart B, an die eine andere ID-Nummer '0102' angelegt wird, werden in einer anderen Region 816b gespeichert.
Demgemäß wird eine Operation als Registrierungsschritt des Extrahierens von auf einem bestimmten Dokument beschriebenen Dokumentenidentifikationsinformationen aus Bilddaten des bestimmten Dokuments, das von der Bilddaten-Lesevorrichtung 811 gelesen wird, und des Registrierens der Dokumentenidentifikationsinformationen in der Dokumentenidentifikations-Wörterbuchsektion 816 von dem Bilddaten-Sicherungsspeicher 814, der Bilddaten-Ausschnittsektion 815 und der Dokumentenidentifikations-Wörterbuchsektion 816 vorgenommen, die oben beschrieben sind.
Es ist zu beachten, dass, obwohl Bilddaten eines Dokuments, das von der oben beschriebenen Bilddaten-Lesevorrichtung 811 gelesen wird, einmal in dem Bilddaten-Sicherungsspeicher 814 gespeichert werden, wenn Dokumentenidentifikationsinformationen in der Dokumentenidentifikations-Wörterbuchsektion 816 zu registrieren sind, Bilddaten aller von der Bilddaten-Lesevorrichtung 811 gelesenen Dokumente in der Festplatte 813 gespeichert werden.
Die Datenvergleichssektion 817 hat eine Funktion als Verifikationseinrichtung zum Auslesen von in dem Bilddaten-Sicherungsspeicher 814 gespeicherten Bilddaten der bestimmten Dokumente, und zum Verifizieren, ob die Bilddaten der bestimmten Dokumente Dokumentenidentifikationsinformationen einschließen, die in der Dokumentenidentifikations-Wörterbuchsektion 816 registriert sind, oder nicht, und hat auch eine andere Funktion als Referenzeinrichtung zum Detektieren, ob Bilddaten eines willkürlichen von der Bilddaten-Lesevorrichtung 811 gelesenen und in dem Sicherungsspeicher 814 gespeicherten Dokuments Dokumentenidentifikationsinformationen einschließen, die in der Dokumentenidentifikations-Wörterbuchsektion 816 gespeichert sind, oder nicht, wodurch die Vorrichtungskonstruktion vereinfacht wird.
Ferner hat die Dokumentendiskriminierungssektion 819 eine Funktion als Diskriminierungseinrichtung zum Diskriminieren, ob eine Erkennung eines bestimmten Dokuments möglich ist oder nicht, auf der Basis eines Verifikationsergebnisses durch die Datenvergleichssektion 817, die als Verifikationseinrichtung dient, um zu diskriminieren, ob das bestimmte Dokument voll zu einem Dokument mit Sicherheit spezifiziert wurde oder nicht, und hat eine weitere Funktion als Dokumentenidentifikationseinrichtung zum Identifizieren, ob ein willkürliches Dokument ein bestimmtes Dokument ist oder nicht, auf der Basis eines Referenzergebnisses durch die Datenvergleichssektion 817, die als Referenzeinrichtung dient, wodurch die Vorrichtungskonstruktion vereinfacht wird.
Mehr im Einzelnen extrahiert die Datenvergleichssektion 817, die als Verifikationseinrichtung dient, aufeinanderfolgend Informationen, die in Einheiten von Bilddaten eines Dokuments von der Bilddaten-Ausschnittsektion 815 extrahiert werden, und entsprechende Dokumentenidentifikationsinformationen aus der Dokumentenidentifikations-Wörterbuchsektion 816, ein Bild nach dem anderen, aus Bilddaten in Bezug auf alle auf der Festplatte 813 gespeicherten Dokumente und kollationiert diese. Die Dokumentendiskriminierungssektion 819, die als Diskriminierungseinrichtung dient, diskriminiert auf der Basis eines Kollationsergebnisses der Dokumentenidentifikationsinformationen von der Datenvergleichssektion 817, ob das Dokument zweifellos einzigartig spezifiziert werden kann.
Ferner kollationiert die Datenvergleichssektion 817, die als Referenzeinrichtung dient, Informationen, welche von der Bilddaten-Ausschnittsektion 815 aus Bilddaten extrahiert werden, die von der Bilddaten-Lesevorrichtung 811 eingegeben werden, mit entsprechenden Dokumentenidentifikationsinformationen von der Dokumentenidentifikations-Wörterbuchsektion 816, um einen Koinzidenzgrad zu berechnen. Die Dokumentendiskriminierungssektion 819, die als Dokumentenidentifikationseinrichtung dient, vergleicht den Koinzidenzgrad von Dokumentenidentifikationsinformationen von der Datenvergleichssektion 817 mit einem Schwellenwert von der Schwelleneinstellsektion 818, um zu diskriminieren, ob das Dokument der von der Bilddaten-Lesevorrichtung 811 eingegebenen Bilddaten identifiziert werden kann oder nicht.
Demgemäß wird eine Operation vorgenommen, als Verifikationsschritt des Diskriminierens, ob eine Erkennung eines bestimmten Dokuments möglich ist oder nicht, und auch eine Operation, als Operationsschritt des Diskriminierens, ob ein willkürliches Dokument ein bestimmtes Dokument ist oder nicht, wird von der Dokumentenidentifikations-Wörterbuchsektion 816, Datenvergleichssektion 817, Schwelleneinstellsektion 818 und Dokumentendiskriminierungssektion 819 vorgenommen, die oben beschrieben sind.
Mit anderen Worten, der oben beschriebene Registrierungsschritt entspricht der Verarbeitung <wenn ein Layout das erste Mal auftritt> von 3 (Layout-Analyseverarbeitung A2, Bedienerverarbeitung A6 und Layout-Lernverarbeitung A8), und der oben beschriebene Verifikationsschritt und Operationsschritt entsprechen der Verarbeitung <wenn ein Layout erneut auftritt> von 3 (Layout-Analyseverarbeitung A9, Layout-Kollationsverarbeitung A10 und Bedienerverarbeitung A13).
Es ist zu beachten, dass, bei der Diskriminierung eines Koinzidenzgrads durch die Dokumentendiskriminierungssektion 819 auf der Basis von Schwellenwertinformationen von der oben beschriebenen Schwelleneinstellsektion 818, die Schwellenwertinformationen von der Schwelleneinstellsektion 818 auf einen solchen Grad eingestellt werden, dass die Diskriminierung vorgenommen werden kann, wobei ein Fehler bei der Leseoperation der Bilddaten-Lesevorrichtung 811, ein Druckfehler des Dokuments selbst, usw., absorbiert wird.
Wenn die Dokumentendiskriminierungssektion 819 diskriminiert, dass ein willkürliches Dokument ein bestimmtes Dokument ist, das heißt, wenn die Dokumentendiskriminierungssektion 819, beim Betrieb des Systems, erfolgreich erkennt, dass ein Dokument, dessen Bilddaten von der Bilddaten-Lesevorrichtung 811 gelesen wurden, ein bestimmtes Dokument ist, das den in der Dokumentenidentifikations-Wörterbuchsektion 816 registrierten Dokumentenidentifikationsinformationen entspricht, liest die Definitionsspeichersektion 820 Definitionsinformationen zur Erkennung von auf dem Dokument beschriebenen Daten aus der Definitionsspeichertabelle 821 aus, und speichert die Definitionsinformationen darin einmal.
Die Definitionsspeichertabelle 821 speichert Definitionsinformationen (beispielsweise Lesepositionsinformationen, Zeichenattributinformationen, Lesespaltenanzahl, usw.), welche zur Zeichenerkennung von Inhalten zu verwenden sind, die auf einem bestimmten Dokument beschrieben sind, das in der Dokumentenidentifikations-Wörterbuchsektion 816 registrierten Dokumentenidentifikationsinformationen entspricht.
Die Zeichenerkennungssektion 822 empfängt Bilddaten, die in dem hier im Vorstehenden beschriebenen Bilddaten-Sicherungsspeicher 814 gespeichert sind und ein Dokument betreffen, welches erfolgreich als bestimmtes Dokument identifiziert wurde, das in der Dokumentenidentifikations-Wör terbuchsektion 816 registriert ist, und Definitionsinformationen, die Bilddaten von der Definitionsspeichersektion 820 entsprechen, und nimmt eine Zeichenerkennungsverarbeitung der Bilddaten in Übereinstimmung mit den Definitionsinformationen vor.
Ferner speichert die Zeichenerkennungsergebnis-Speichersektion 823 Zeicheninformationen, die von der Zeichenerkennungssektion 822 erkannt werden.
Im Nachstehenden wird der Betrieb der Dokumentenidentifikationsvorrichtung gemäß der ersten Modifikation der Ausführungsform der vorliegenden Erfindung mit der oben beschriebenen Konstruktion in Bezug auf den oben beschriebenen Registrierungsschritt, Verifikationsschritt und Operationsschritt beschrieben.
• Beschreibung der Verarbeitung in dem Registrierungsschritt
Zuerst wird der Betrieb der Dokumentenidentifikationsvorrichtung gemäß der vorliegenden Ausführungsform in dem Registrierungsschritt im Nachstehenden mit Bezugnahme auf das in 106 gezeigte Steuerblockbild beschrieben, in dem eine Operation in dem Registrierungsschritt beschrieben wird, wobei ein Flussdiagramm, das die Operation in dem Registrierungsschritt veranschaulicht, in 107 und 108 gezeigt ist.
Insbesondere wenn, wie in 108 ersichtlich, Bilddaten eines Dokuments 824B einer Zahlungsbestätigung einer Stromrechnung von der Bilddaten-Lesevorrichtung 811 ansprechend auf eine Operation eines Bedieners gelesen werden (Schritt B1''' von 107), dann werden die gelesenen Bilddaten einmal in dem Bilddaten-Sicherungsspeicher 814 gespeichert (Schritt B2''' von 107), und die Bilddaten werden auch auf der Festplatte 813 gespeichert, so dass alle von der Bilddaten-Lesevorrichtung 811 gelesenen Bilddaten gespeichert sind (Schritt B3''' von 107). Es ist zu be achten, dass die von der Bilddaten-Lesevorrichtung 811 gelesenen Bilddaten auf der Anzeigeeinheit 812-2 angezeigt werden, wie in 108 ersichtlich (Schritt B4''' von 107).
Wenn die in dem Bilddaten-Sicherungsspeicher 814 und der Festplatte 813 gespeicherten Bilddaten Bilddaten in Bezug auf ein zum ersten Mal gelesenes Dokument sind, werden hier Dokumentenidentifikationsinformationen in der Dokumentenidentifikations-Wörterbuchsektion 816 gespeichert, wie im Nachstehenden beschrieben.
Insbesondere wenn der Bediener auf die Anzeigeeinheit 812-2 Bezug nimmt und die Eingabesektion 812-1 bedient, wird eine Vielzahl von Stücken von Informationen, die ein Extraktionsobjekt bilden, an die Bilddaten-Ausschnittsektion 815 angewiesen (Schritt B5''' von 107).
Die Bilddaten-Ausschnittsektion 815 extrahiert automatisch Positionsinformationen, Größenordnungsinformationen und Dateninformationen in den auf dem Dokument beschriebenen Informationen aus den Bilddaten der in dem Bilddaten-Sicherungsspeicher 814 gespeicherten Dokumente (Schritt B6''' von 107) und registriert diese als Dokumentenidentifikationsinformationen in der Dokumentenidentifikations-Wörterbuchsektion 816 (Schritt B7''' von 107).
Der Bediener bedient die Eingabesektion 812-1, wie beispielsweise in 108 ersichtlich, um als erste Informationen die "Stromrechnung" zu bezeichnen, die Inhalte des bezahlten Geldes der Zahlungsbestätigung anzeigt, und als zweite Informationen "Ichiro Fuji" zu bezeichnen, die den Namen der zahlenden Person anzeigen. Dementsprechend speichert die Bilddaten-Ausschnittsektion 815 Positionsinformationen, Größenordnungsinformationen und Dateninformationen der oben beschriebenen ersten Informationen, und extrahiert Positionsinformationen, Größenordnungsinformationen und Dateninformationen der zweiten Informationen.
Dementsprechend werden die extrahierten Dokumentenidentifikationsinformationen des Dokuments 824B in der Region 816b der Dokumentenidentifikations-Wörterbuchsektion 816 als Dokumentenidentifikationsinformationen der Dokumentenart B gespeichert, deren ID-Nummer "0102" ist.
Es ist zu beachten, dass, in der Dokumentenidentifikationsvorrichtung gemäß der vorliegenden Modifikation, von der Bilddaten-Ausschnittsektion 815 ausgeschnittene Bilddaten nur zur Identifikation des Dokuments verwendet werden.
Ferner kann, in der Dokumentenidentifikationsvorrichtung gemäß der vorliegenden Modifikation, durch das Registrieren einer Vielzahl von Stücken von Dokumentenidentifikationsinformationen in Bezug auf ein Dokument, ein Dokument in dem im Nachstehenden beschriebenen Verifikationsschritt und Operationsschritt identifiziert werden, ohne eine solche Normalisierungsverarbeitung von Bilddaten wie in (a5) Charakteristikadaten-Erkennungsverarbeitung oben beschrieben vorzunehmen.
• Beschreibung der Verarbeitung im Verifikationsschritt
Anschließend wird die Operation der Dokumentenidentifikationsvorrichtung gemäß der vorliegenden Ausführungsform in dem Verifikationsschritt im Nachstehenden mit Bezugnahme auf das in 109 gezeigte Steuerblockbild, das einen Betrieb in dem Verifikationsschritt beschreibt, und das in 110 gezeigte Flussdiagramm, das einen Betrieb in dem Verifikationsschritt veranschaulicht, beschrieben.
In dem Registrierungsschritt werden, wie hier im Vorstehenden beschrieben, Dokumentenidentifikationsinformationen in der Dokumentenidentifikations-Wörterbuchsektion 816 registriert. Danach wird eine Operation als Verifikationsschritt des Verifizierens, ob die Bilder aller auf der Festplatte 813 gespeicherten Dokumente mit Sicherheit identifi ziert werden können oder nicht, unter Verwendung der in der Dokumentenidentifikations-Wörterbuchsektion 816 registrierten Dokumentenidentifikationsinformationen vorgenommen.
Insbesondere unter Verwendung aller Bilder der Dokumente (Bilder der gesamten Dokumente), die beim Betrieb der Festplatte 813 in dem Registrierungsschritt gespeichert und in der Dokumentenidentifikations-Wörterbuchsektion 816 registriert werden, wird eine Kollation mit den in der Dokumentenidentifikations-Wörterbuchsektion 816 registrierten Dokumentenidentifikationsinformationen für jedes Bild eines Dokuments vorgenommen.
Insbesondere wird ein Bild eines Dokuments von der Festplatte 813 an die Bilddaten-Ausschnittsektion 815 über den Bilddaten-Sicherungsspeicher 814 ausgegeben (Schritt C1''' von 110), und die Bilddaten-Ausschnittsektion 815 extrahiert Daten zur Kollation auf der Basis von Positionsinformationen und Größenordnungsinformationen von Dokumentenidentifikationsinformationen des entsprechenden Dokuments in der Dokumentenidentifikations-Wörterbuchsektion 816.
Die Datenvergleichssektion 817 empfängt die Kollationsdaten von der Bilddaten-Ausschnittsektion 815 und Dateninformationen als Dokumentenidentifikationsinformationen von der Dokumentenidentifikations-Wörterbuchsektion 816 (Schritte C2''' und C3''' von 110), und nimmt auf einen Datenkoinzidenzgrad zwischen ihnen Bezug, um einen Vergleich und eine Kollation vorzunehmen (Schritt C4''' von 110).
Die Dokumentendiskriminierungssektion 819 empfängt ein Ergebnis des Vergleichs und der Kollation von der Datenvergleichssektion 817 und Schwellendaten von der Schwelleneinstellsektion 818, und wenn die Koinzidenzgrade aller Dokumentenidentifikationsinformationen innerhalb des Schwellenwerts liegen, diskriminiert die Dokumentendiskriminierungs sektion 819, da die Daten miteinander koinzident sind, dass die Art des aus der Festplatte 813 extrahierten Dokuments einzigartig spezifiziert werden kann, und zeichnet die spezifizierte Dokumentenart auf (vom JA-Weg von Schritt C5''' zum Schritt C6''').
Wenn hingegen einige Koinzidenzgrade der Dokumentenidentifikationsinformationen von der Datenvergleichssektion 817 nicht innerhalb des Umfangs des Schwellenwerts fallen, sind die Daten nicht miteinander koinzident, und es wird diskriminiert, dass die Art des Dokuments nicht spezifiziert werden kann (vom NEIN-Weg von Schritt C5''' zum Schritt C7'''). Dann, wenn die oben beschriebene Verarbeitung nicht für alle Dokumentenarten der Dokumentenidentifikations-Wörterbuchsektion 816 vollendet ist, dann wird eine ähnliche Verarbeitung für die Dokumentenidentifikationsinformationen der nächsten Dokumentenart vorgenommen, die in der Dokumentenidentifikations-Wörterbuchsektion 816 registriert ist (vom NEIN-Weg von Schritt C7''' zu Schritt C2'''). Demgemäß wird die Verarbeitung in Schritt C6''' nicht vorgenommen, außer das Dokument ist für alle Dokumententypen spezifiziert.
Danach wird die Diskriminierung des Koinzidenzgrads von Dokumentenidentifikationsinformationen auf ähnliche Weise wie oben beschrieben für die Dokumentenbilder aller Arten vorgenommen, die in der Festplatte 813 gespeichert sind (Schritt C8''').
Wenn die Dokumentenbilder aller Arten, die auf der Festplatte 813 gespeichert sind, erfolgreich für einzelne verschiedene Dokumente spezifiziert wurden, wird bestimmt, dass die Verifikation OK ist, und die Operation als Verifikationsschritt kommt zu einem Ende (vom JA-Weg von Schritt C9''' zu Schritt C10'''). In jedem anderen Fall wird jedoch bestimmt, dass die in der Dokumentenidentifikations-Wörter buchsektion 816 gespeicherten Dokumentenidentifikationsinformationen defekt sind, und das defekte Dokument wird dem Bediener gemeldet, um eine erneute Bezeichnung von Dokumentenidentifikationsinformationen für das Dokument anzufordern (vom NEIN-Weg von Schritt C9''' zum Schritt C11''').
Wenn Bilddaten eines bestimmten Dokuments, nach dem Registrierungsschritt, von der Festplatte 813 erneut eingegeben werden, und von der Datenvergleichssektion 817 verifiziert wird, ob die eingegebenen Bilddaten des bestimmten Dokuments Dokumentenidentifikationsinformationen einschließen, die in der Dokumentenidentifikations-Wörterbuchsektion 816 registriert sind, kann demgemäß von der Bilddaten-Ausschnittsektion 815 diskriminiert werden, ob die Erkennung des bestimmten Dokuments möglich ist oder nicht.
• Beschreibung des Betriebs in dem Operationsschritt
Anschließend wird ein Betrieb der Dokumentenidentifikationsvorrichtung gemäß der vorliegenden Ausführungsform in dem Operationsschritt mit Bezugnahme auf das in 111 gezeigte Steuerblockbild, das einen Betrieb in dem Operationsschritt beschreibt, und das in 112 gezeigte Flussdiagramm, das einen Betrieb im Operationsschritt veranschaulicht, beschrieben.
In dem Verifikationsschritt wird verifiziert, wie hier im Vorstehenden beschrieben, ob Bilder aller auf der Festplatte 813 gespeicherten Dokumente unter Verwendung der Dokumentenidentifikationsinformationen spezifiziert werden können, die in der Dokumentenidentifikations-Wörterbuchsektion 816 registriert sind oder nicht. Nachdem die Verifikation zu einem Ende kommt, wird, beim tatsächlichen Betrieb der Vorrichtung, eine solcher Betrieb wie der Operationsschritt des Spezifizierens einer Dokumentenart wie nachstehend beschrieben für Bilddaten eines willkürlichen Dokuments vorgenommen.
Insbesondere wenn Bilddaten eines bestimmten Dokuments durch eine Bedienung der Bilddaten-Lesevorrichtung 811 durch einen Bediener gelesen werden (Schritt D1''' von 112), dann werden die gelesenen Bilddaten einmal in dem Bilddaten-Sicherungsspeicher 814 gespeichert (Schritt D2''' von 112).
Dann extrahiert die Bilddaten-Ausschnittsektion 815 die einmal in dem Bilddaten-Sicherungsspeicher 814 gespeicherten Bilddaten (Identifikationsinformationen) und schneidet diese aus einer Vielzahl von Orten auf der Basis von Positionsinformationen und Größenordnungsinformationen aus, die Dokumentenidentifikationsinformationen der Art des bestimmten Dokuments konstruieren (Schritte D3''' und D4''').
Dann berechnet die Datenvergleichssektion 817 Koinzidenzgrade zwischen Dateninformationen aller Bilddaten, die von der Bilddaten-Ausschnittsektion 815 ausgeschnitten werden, und Dateninformationen, die die Dokumentenidentifikationsinformationen konstruieren, um einen Vergleich und eine Diskriminierung zu bewirken (Schritt D5''').
Ferner vergleicht die Dokumentendiskriminierungssektion 819 den Koinzidenzgrad, der als Vergleichs- und Diskriminierungsergebnis von der Datenvergleichssektion 817 berechnet wird, mit dem Kriterium für einen Koinzidenzgrad, das in der Schwelleneinstellsektion 818 eingestellt ist, um zu diskriminieren, ob die Art des Dokuments aus den von der Bilddaten-Lesevorrichtung 811 gelesenen Bilddaten mit den Dokumentenidentifikationsinformationen von der Dokumentenidentifikations-Wörterbuchsektion 816 spezifiziert werden kann oder nicht (Schritt D6''').
Insbesondere wenn Bilddaten der ersten Dokumentenart A von der Bilddaten-Lesevorrichtung 811 gelesen werden, wird, wenn Dokumentenidentifikationsinformationen der zweiten Dokumentenart B als Dokumentenidentifikationsinformationen von der Dokumentenidentifikations-Wörterbuchsektion 816 verwendet werden, die ein Vergleichsobjekt darstellen, eine Inkoinzidenz diskriminiert, und eine Diskriminierung des Koinzidenzgrads wird unter Verwendung von Dokumentenidentifikationsinformationen in Bezug auf einen anderen Dokumententyp von der Dokumentenidentifikations-Wörterbuchsektion 816 vorgenommen (vom NEIN-Weg von Schritt D6''' zu Schritt D3''' über den NEIN-Weg von Schritt D8''').
Wenn hingegen beispielsweise Bilddaten der ersten Dokumentenart A von der Bilddaten-Lesevorrichtung 811 eingelesen werden, wird, wenn die Dokumentenidentifikationsinformationen von der Dokumentenidentifikations-Wörterbuchsektion 816, die ein Vergleichsobjekt bilden, Informationen in Bezug auf die erste Dokumentenart sind, eine Koinzidenz in Bezug auf die Dokumentenidentifikationsinformationen diskriminiert, und die eingelesenen Bilddaten werden als relevante Dokumentenart spezifiziert. Die in diesem Fall spezifizierte Dokumentenart wird in einem nicht gezeigten Speicher in der Steuersektion 812-3 gespeichert (vom JA-Weg von Schritt D6''' zu Schritt D7''').
Es ist zu beachten, dass, bei der Diskriminierung durch die oben beschriebene Dokumentendiskriminierungssektion 819, wenn ein beliebiger der Bilddatenwerte an der Vielzahl von Orten, die von der Bilddaten-Ausschnittsektion 815 ausgeschnitten werden, nicht mit den Dokumentenidentifikationsinformationen von der Dokumentenidentifikations-Wörterbuchsektion 816 koinzident ist, dieses als Dokument einer anderen Art diskriminiert wird.
Danach wird eine Diskriminierung eines Koinzidenzgrads von Dokumentenidentifikationsinformationen von den Bilddaten, die von der oben beschriebenen Bilddaten-Lesevorrichtung 811 gelesen werden, ähnlich der hier im Vorstehenden beschriebenen Diskriminierung auf der Basis der Dokumenten identifikationsinformationen aller einzelnen Arten von Dokumenten vorgenommen, die in der Dokumentenidentifikations-Wörterbuchsektion 816 gespeichert sind (Schritt D8''').
Wenn die von der Bilddaten-Lesevorrichtung 811 gelesenen Bilddaten erfolgreich als Daten einer Dokumentenart durch die oben beschriebene Diskriminierung eines Koinzidenzsgrads spezifiziert wurden, dann wird hier die spezifizierte Dokumentenart zur Definitionsspeichersektion 820 ausgegeben (siehe 105) (vom JA-Weg von Schritt D9''' zum Schritt D10'''). Wenn die Bilddaten jedoch nicht als Daten einer Dokumentenart spezifiziert wurden, wird ein Fehlschlag der Dokumentenspezifizierung an den Bediener gemeldet, beispielsweise mittels der Anzeigeeinheit 812-2 (vom NEIN-Weg von Schritt D9''' zum Schritt D11''').
Es ist zu beachten, dass, wenn eine als eine Art spezifizierte Dokumentenart in die Definitionsspeichersektion 820 eingegeben wird, die Definitionsspeichersektion 820 dann Definitionsinformationen (Lesepositionsinformationen, Zeichenattributinformationen, Lesespaltenanzahl, usw.), die der spezifizierten Dokumentenart entsprechen, aus der Definitionsspeichertabelle 821 ausliest.
Dementsprechend erkennt die Zeichenerkennungssektion 822 die Definitionsinformationen und die Zeicheninformationen, die auf dem Dokument beschrieben sind, dessen Bilddaten von der Bilddaten-Lesevorrichtung 811 gelesen und in dem Bilddaten-Sicherungsspeicher 814 gespeichert wurden, und speichert die Zeicheninformationen als Ergebnis der Erkennung in der Zeichenerkennungsergebnis-Speichersektion 823.
Wenn ein bestimmtes Dokument in dem Verifikationsschritt erfolgreich erkannt wurde, kann demgemäß, durch das Lesen von Bilddaten eines willkürlichen Dokuments mittels der Bilddaten-Lesevorrichtung 811 und Bezugnehmen auf die Bilddaten des willkürlichen Dokuments, um zu detektieren, ob die Bilddaten in der Dokumentenidentifikations-Wörterbuchsektion 816 registrierte Dokumentenidentifikationsinformationen einschließen oder nicht, identifiziert werden, ob das willkürliche Dokument ein bestimmtes Dokument ist oder nicht, und eine Zeichenerkennung kann vorgenommen werden.
Mit der Dokumentenidentifikationsvorrichtung gemäß der ersten Modifikation der Ausführungsform der vorliegenden Erfindung kann auf diese Weise, im Betrieb der Vorrichtung, da sie die Bilddaten-Lesevorrichtung 811, den Bilddaten-Sicherungsspeicher 814, die Festplatte 813, die Bilddaten-Ausschnittsektion 815, die Dokumentenidentifikations-Wörterbuchsektion 816, die Datenvergleichssektion 817 und die Dokumentendiskriminierungssektion 819 einschließt, die Art eines Dokuments, dessen Bilddaten von der Bilddaten-Lesevorrichtung 811 gelesen wurden, automatisch identifiziert werden. Auch wenn eine Vielzahl von Arten von Dokumenten, die von der Bilddaten-Lesevorrichtung 811 zu lesen sind, in einem gemischten Zustand vorliegt, kann dementsprechend der Bediener die Dokumente handhaben, ohne eine Definition für jedes Dokument zu kennen. Demgemäß ist die Dokumentenidentifikationsvorrichtung dadurch vorteilhaft, dass eine hohe Auftragseffizienz erzielt werden kann. Die Dokumentenidentifikationsvorrichtung ist auch dadurch vorteilhaft, dass eine ID-Nummer oder dgl. zur Identifikation eines Dokuments selbst nicht auf dem Dokument beschrieben sein muss, und ein gewöhnliches Dokument verwendet werden kann, und die Dokumentenidentifikationsvorrichtung leicht bei einem bestehenden System angewendet werden kann.
Bei der Registrierung von Dokumentenidentifikationsinformationen in der Dokumentenidentifikations-Wörterbuchsektion 816 können ferner notwendige Dokumentenidentifikationsinformationen automatisch abgerufen werden, nur wenn der Bediener diese bezeichnet, während er die Bilddaten eines Objektdokuments zur Registrierung visuell beobachtet, die auf die Anzeigeeinheit 812-2 projiziert werden. Dementsprechend wird die Erzeugung eines Wörterbuchs zur Identifikation von Dokumenten erleichtert, und es kann eine Verbesserung der Auftragseffizienz erzielt werden.
Da die Dokumentenidentifikationsvorrichtung die Datenvergleichssektion 817, die als Verifikationseinrichtung dient, und die Dokumentendiskriminierungssektion 819, die als Diskriminierungseinrichtung dient, einschließt, kann ferner verifiziert werden, ob die von dem Bediener bezeichneten Dokumentenidentifikationsinformationen richtig sind oder nicht. Dementsprechend ist die Dokumentenidentifikationsvorrichtung dadurch vorteilhaft, dass ein Fehler bei der Diskriminierung eines Dokuments überhaupt eliminiert wird, und die Zuverlässigkeit der Vorrichtung verbessert wird.
Wenn der Bediener eine Vielzahl von Orten in einem Dokument als Identifikationsinformationen anweist, kann ferner das Dokument mit einem höheren Genauigkeitsgrad aus extrahierten Dokumentenidentifikationsinformationen auf der Basis der Identifikationsinformationen identifiziert werden, als aus Dokumentenidentifikationsinformationen, die auf andere Weise auf der Basis von Identifikationsinformationen, wenn ein einzelner Ort bezeichnet wird, extrahiert werden.
(b2) Beschreibung einer Dokumentenidentifikationsvorrichtung gemäß einer zweiten Modifikation der Ausführungsform
113 ist ein Blockbild, das eine Dokumentenidentifikationsvorrichtung gemäß einer zweiten Modifikation der Ausführungsform der vorliegenden Erfindung zeigt, und sie zeigt insbesondere ein Steuerblockbild, in dem ein Betrieb im Registrierungsschritt beschrieben wird.
Die in 113 gezeigte Dokumentenidentifikationsvorrichtung hat eine Konstruktion grundsätzlich ähnlich jener der hier im Vorstehenden mit Bezugnahme auf 105 beschriebenen Dokumentenidentifikationsvorrichtung, außer dass die Dokumentenidentifikationsinformations-Extraktionseinrichtung eine automatische Titelteil-Extraktionssektion 815a, eine automatische Elementüberschriftteil-Extraktionssektion 815b und eine Dokumentenidentifikationsinformations-Ausschnittsektion 815c aufweist.
Die automatische Titelteil-Extraktionssektion 815a extrahiert automatisch Positionsinformationen jenes Abschnitts von Bilddaten in Bezug auf ein in dem Bilddaten-Sicherungsspeicher 814 gespeichertes Dokument, der als Titelteil angesehen wird (siehe beispielsweise die "Stromrechnung" als oben beschriebene erste Dokumentenidentifikationsinformationen, die in 108 veranschaulicht ist).
Die Elementüberschriftteil-Extraktionssektion 815b extrahiert automatisch Positionsinformationen eines Elementteils aus Bilddaten in Bezug auf ein in dem Bilddaten-Sicherungsspeicher 814 gespeichertes Dokument.
Die Dokumentenidentifikationsinformations-Ausschnittsektion 815c schneidet, aus in dem Bilddaten-Sicherungsspeicher 814 gespeicherten Bilddaten, Größenordnungsinformationen des Titelteils und den Titelteil und Dateninformationen als Dokumentenidentifikationsinformationen auf der Basis von Positionsinformationen von der automatischen Titelteil-Extraktionssektion 815a und der Elementüberschriftteil-Extraktionssektion 815b aus.
Bei der Dokumentenidentifikationsvorrichtung gemäß der zweiten Modifikation der Ausführungsform der vorliegenden Erfindung mit der oben beschriebenen Konstruktion, als Betrieb in dem Registrierungsschritt, ähnlich wie in der hier im Vorstehenden beschriebenen Ausführungsform, speichert der Bilddaten-Sicherungsspeicher 814, wenn die Bilddaten-Lesevorrichtung 811 Bilddaten eines Dokuments ansprechend auf eine Bedienung eines Bedieners liest (Schritt E1''' von 114), dann die gelesenen Bilddaten einmal (Schritt E2''' von 114), und die Bilddaten werden auch auf der Festplatte 813 gespeichert, so dass alle von der Bilddaten-Lesevorrichtung 811 gelesenen Bilddaten gespeichert werden (Schritt E3''' von 114).
Dann extrahiert die automatische Titelteil-Extraktionssektion 815a automatisch Positionsinformationen eines Abschnitts, welcher der Titel des Dokuments zu sein scheint (Schritt E4''' von 114), und die automatische Elementüberschriftteil-Extraktionssektion 815b extrahiert automatisch Positionsinformationen einer in einem gezogenen Linienelement beschriebenen Elementüberschrift (Schritt E5''' von 114).
Die Dokumentenidentifikationsinformations-Ausschnittsektion 815c extrahiert Größenordnungsinformationen und Dateninformationen auf der Basis der Positionsinformationen von der automatischen Titelteil-Extraktionssektion 815a und der automatischen Elementüberschriftteil-Extraktionssektion 815b, die oben beschrieben sind (Schritt E6''' von 114), und registriert die Positionsinformationen und Größenordnungsinformationen und Dateninformationen, die den Positionsinformationen entsprechen, als Dokumentenidentifikationsinformationen in der Dokumentenidentifikations-Wörterbuchsektion 816 (Schritt E7''' von 114).
Es ist zu beachten, dass der Betrieb in dem Verifikationsschritt oder dem Operationsschritt grundsätzlich ähnlich jenem der hier im Vorstehenden beschriebenen Ausführungsform ist.
Obwohl, mit der hier im Vorstehenden mit Bezugnahme auf 105 beschriebenen Dokumentenidentifikationsvorrichtung, der Bediener auf die Anzeigeeinheit 812-2 Bezug nimmt, und die Eingabesektion 812-1 bedient, um Identifikationsinforma tionen zur Extraktion von Dokumentenidentifikationsinformationen zu bezeichnen, können gemäß der vorliegenden Ausführungsform daher bestimmte Dokumentenidentifikationsinformationen, die auf einem bestimmten Dokument beschrieben sind, automatisch aus Bilddaten des von der Bilddaten-Lesevorrichtung 811 gelesenen bestimmten Dokuments extrahiert und in der Dokumentenidentifikations-Wörterbuchsektion 816 registriert werden. Dementsprechend besteht ein Vorteil, dass die Operationseffizienz des Bedieners deutlich verbessert wird.
Es ist zu beachten, dass, obwohl in der hier im Vorstehenden mit Bezugnahme auf 113 beschriebenen Ausführungsform ein Titelteil und ein Elementteil als Identifikationsinformationen zur Extraktion von Dokumentenidentifikationsinformationen verwendet werden, ein beliebiger anderer Abschnitt (festgelegter Informationsabschnitt) eines Dokuments als diese Teile statt dessen verwendet werden kann.
(b3) Sonstiges
In den oben beschriebenen Modifikationen der Ausführungsform der vorliegenden Erfindung nehmen die Datenvergleichssektion 817, die als Verifikationseinrichtung dient, und die Dokumentendiskriminierungssektion 819, die als Diskriminierungseinrichtung dient, Operationen des Verifikationsschritts vor, durch das Verifizieren, wenn Bilddaten eines bestimmten Dokuments nach dem Registrierungsschritt erneut eingegeben werden, ob die Bilddaten des eingegebenen bestimmten Dokuments in der Dokumentenidentifikations-Wörterbuchsektion 816 registrierte Dokumentenidentifikationsinformationen einschließen oder nicht, um zu diskriminieren, ob die Erkennung des bestimmten Dokuments möglich ist oder nicht. Auch wenn die Operationen des Verifikationsschritts weggelassen werden, zumindest im Betrieb der Vorrichtung, da ein Typ eines Dokuments, dessen Bilddaten von der Bilddaten- Lesevorrichtung 811 gelesen werden, automatisch identifiziert werden kann, auch wenn eine Vielzahl von Arten von Dokumenten, die von der Bilddaten-Lesevorrichtung 811 zu lesen sind, in einem gemischten Zustand vorliegt, kann der Bediener die Dokumente handhaben, ohne die Definition jedes Dokuments zu kennen. Dementsprechend besteht ein Vorteil, dass die Auftragseffizienz verbessert werden kann. Ferner muss eine ID-Nummer oder dgl. zur Identifikation eines Dokuments selbst nicht auf dem Dokument beschrieben sein, und gewöhnliche Dokumente können verwendet werden. Dementsprechend ist ein weiterer Vorteil, dass die Anwendung bei einem bestehenden System einfach ist.
Ferner können, bei der Registrierung von Dokumentenidentifikationsinformationen in der Dokumentenidentifikations-Wörterbuchsektion 816, notwendige Dokumentenidentifikationsinformationen automatisch nur abgerufen werden, wenn der Bediener, während er sie beobachtet, Bilddaten eines Objektdokuments zur Registrierung bezeichnet, die auf die Anzeigeeinheit 812-2 projiziert werden. Dementsprechend wird die Erzeugung eines Wörterbuchs zur Identifikation zwischen Dokumenten erleichtert, und eine Verbesserung der Auftragseffizienz kann erzielt werden.
INDUSTRIELLE ANWENDBARKEIT DER ERFINDUNG
Eine Datenmedium-Handhabungsvorrichtung und ein Datenmedium-Handhabungsverfahren gemäß der vorliegenden Erfindung, wie oben beschrieben, sind zur Verwendung bei der Handhabung von Dokumenten, beispielsweise in Finanzinstitutionen, geeignet, und insbesondere wird davon ausgegangen, da Dokumente mit verschiedensten Formaten, wie private Dokumente, automatisch handgehabt werden können, dass die Datenmedium-Handhabungsvorrichtung und das Datenmedium-Handhabungsverfahren einen hohen Nutzen aufweisen.

1: Vorverarbeitungssektion
2: Layout-Analysesektion
2A: Layout-Charakteristikaextraktionssektion
2B: Layout-Strukturanalysesektion
2C: Extraktionssektion für gezogene Linien
2D: Element-Datenextraktionssektion
2E: Tabellen-Strukturanalysesektion
3: Layout-Abfragesektion
3, 4: Layout-Erkennungssektion
11: Layout-Aktualisierungssektion
13: Analysewörterbuch
14: Layout-Datenbank
19: Bild
30: Dokumentenmedium-Handhabungsvorrichtung

Kandidaten-Layout
Kandidaten-Layoutinformationen
Koinzidenz-Kandidaten-Layout
Layout-Erkennung
Layout-Protokollinformationen

Claims

Dokumentenmedium-Handhabungsvorrichtung (30), zum Erkennen zumindest einer Gruppe von Datenstücken, die auf einem gegebenen Dokumentenmedium in einem willkürlichen Layout aufgezeichnet sind, auf der Basis eines Bilds (19) des gegebenen Dokumentenmediums, mit: einer Layout-Analysesektion (2) zum Analysieren eines Layouts der Datenstückgruppe in dem Bild (19) des gegebenen Dokumentenmediums durch das Extrahieren von Charakteristika des Layouts und logisches Darstellen der Struktur des Layouts auf der Basis der extrahierten Charakteristika; einer Layout-Datenbank (14), in der Kandidaten-Layoutinformationen gespeichert sind; einer Layout-Abfragesektion (3) zum Abfragen eines möglichen Kandidaten-Layouts durch das Bezugnehmen auf die Layout-Datenbank (14) unter Verwendung der Charakteristika der Layout-Analysesektion (2) als einschränkende Abfragebedingungen, um zu kollationieren, ob ein Koinzidenz-Kandidaten-Layout vorhanden ist oder nicht; dadurch gekennzeichnet, dass die Layout-Datenbank (14) so konstruiert ist, dass die Kandidaten-Layoutinformationen aktualisiert werden durch Lernen mittels Layout-Erkennung, auf der Basis des Analyseergebnisses der Layout-Analysesektion (2) und des Abfrageergebnisses der Layout-Abfragesektion (3).
Dokumentenmedium-Handhabungsvorrichtung (30) nach Anspruch 1, dadurch gekennzeichnet, dass sie ferner umfasst: ein Analysewörterbuch (13), das Charakteristika distinktiver Datenstücke enthält und von der Layout-Ana lysesektion (2) bei der Analyse des Layouts konsultiert wird; eine Layout-Erkennungssektion (3, 4) zum Erkennen der Datenstückgruppe in dem Bild (19) unter Verwendung der logischen Struktur des von der Layout-Analysesektion (2) dargestellen Layouts und, wenn ein beliebiges Kandidaten-Layout von der Layout-Abfragesektion (3) abgefragt wird, unter Verwendung der Charakteristika des abgefragten Kandidaten-Layouts; und eine Layout-Aktualisierungssektion (11) zum Aktualisieren des Analysewörterbuchs (13) auf der Basis des Erkennungsergebnisses der Layout-Erkennungssektion (3, 4) und, wenn kein Kandidaten-Layout vorhanden ist, auch zum Aktualisieren der Layout-Datenbank (14) durch das zusätzliche Speichern, in der Layout-Datenbank (14), der Charakteristika des analysierten Layouts auf der Basis sowohl des Analyseergebnisses der Layout-Analysesektion (2) als auch des Erkennungsergebnisses der Layout-Erkennungssektion (3, 4), so dass das aktualisierte Analysewörterbuch (13) und die aktualisierte Layout-Datenbank (14) von der Layout-Analysesektion (2), der Layout-Abfragesektion (3) und der Layout-Erkennungssektion (3, 4) bei der Handhabung eines anschließend gegebenen Dokumentenmediums verwendet werden.
Dokumentenmedium-Handhabungsvorrichtung (30) nach Anspruch 2, ferner mit einer Vorverarbeitungssektion (1) zur Vorverarbeitung des Bilds (19) des gegebenen Dokumentenmediums vor der Analyse durch die Layout-Analysesektion (2).
Dokumentenmedium-Handhabungsvorrichtung (30) nach Anspruch 2, bei welcher die Layout-Analysesektion (2) einschließt: eine Layout-Charakteristikaextraktionssektion (2A) zum Extrahieren der Charakteristika des Layouts der Datenstückgruppe des gegebenen Layouts; und eine Layout-Strukturanalysesektion (2B) zum Analysieren einer Struktur des Layouts der Datenstückgruppe auf der Basis der von der Layout-Charakteristikaextraktionssektion (2A) extrahierten Charakteristika des Layouts.
Dokumentenmedium-Handhabungsvorrichtung (30) nach Anspruch 4, bei welcher die Layout-Charakteristikaextraktionssektion (2A) betreibbar ist, einen logischen Ursprung des Layouts als eines der Charakteristika des Layouts zu extrahieren, und die Layout-Abfragesektion (3) betreibbar ist, das Kandidaten-Layout auf der Basis des logischen Ursprungs abzufragen, der von der Layout-Charakteristikaextraktionssektion (2A) extrahiert wird.
Dokumentenmedium-Handhabungsvorrichtung (30) nach Anspruch 4, bei welcher die Layout-Charakteristikaextraktionssektion (2A) eine Extraktionssektion (2C) für gezogene Linien einschliebt, um, wenn das Layout der Datenstückgruppe eine Tabelle einschließt, die aus Elementen besteht, von denen jedes von gezogenen Linien umgeben ist, die gezogenen Linien in der Tabelle als Charakteristika des Layouts zu extrahieren, und die Layout-Strukturanalysesektion (2B) eine Tabellen-Strukturanalysesektion (2E) zum Analysieren einer Struktur der Tabelle auf der Basis der gezogenen Linien einschließt, die von der Layout-Charakteristikaextrak tionssektion (2A) extrahiert werden.
Dokumentenmedium-Handhabungsvorrichtung (30) nach Anspruch 4, bei welcher die Layout-Charakteristikaextraktionssektion (2A) eine Element-Datenextraktionssektion (2D) einschließt, um, wenn das Layout der Datenstückgruppe eine Tabelle einschließt, die aus Elementen besteht, von denen jedes nicht von gezogenen Linien umgeben ist, den Elementen der Tabelle entsprechende Datenstücke als Charakteristika des Layouts zu extrahieren, und die Layout-Strukturanalysesektion (2B) betreibbar ist, eine Struktur der Tabelle auf der Basis der von der Element-Datenextraktionssektion (2D) extrahierten Datenstücke zu analysieren, die den Tabellenelementen entsprechen.
Dokumentenmedium-Handhabungsvorrichtung (30) nach Anspruch 2, bei welcher, wenn die Datenstückgruppe eine Gruppe von Elementen einschließt, die unter einer Vielzahl von Klassen klassifiziert sind, die Layout-Analysesektion (2) betreibbar ist, ein Datenstück zu bestimmen, das einer Überschrift jeder der mehrfachen Klassen entspricht, um die Überschrift jeder Klasse zu erkennen, und mit jeder Klasse klassifizierte Elemente auf der Basis der erkannten Überschrift jeder Klasse zu bestimmen.
Dokumentenmedium-Handhabungsvorrichtung (30) nach Anspruch 4, bei welcher die Layout-Datenbank (14) betreibbar ist, komprimierte Charakteristika der distinktiven Layouts zu speichern, und die Layout-Abfragesektion (3) betreibbar ist, die von der Layout-Charakteristikaextraktionssektion (2A) extrahierten Charakteristika des Layouts zu komprimieren, und die Kandidaten-Layouts aus der Layout-Datenbank (14) durch die komprimierten Charakteristika des Layouts abzufragen.
Dokumentenmedium-Handhabungsvorrichtung (30) nach Anspruch 4, bei welcher die Layout-Analysesektion (2) ferner betreibbar ist zu diskriminieren, ob das Bild (19) in einer vorherbestimmten Richtung ist, die für die Erkennung durch die Layout-Erkennungssektion (4) geeignet ist, auf der Basis der von der Layout-Charakteristikaextraktionssektion extrahierten Charakteristika des Layouts, und, wenn beurteilt wird, dass das Bild (19) nicht in der vorherbestimmten Richtung ist, das Bild (19) in die vorherbestimmte Richtung zu konvertieren.
Dokumentenmedium-Handhabungsverfahren, zum Erkennen zumindest einer Gruppe von Datenstücken, die auf einem gegebenen Dokumentenmedium in einem willkürlichen Layout aufgezeichnet sind, auf der Basis eines Bilds (19) des gegebenen Dokumentenmediums, welches die Schritte umfasst: (i) Analysieren des Layouts der Datenstückgruppe in dem Bild (19) des gegebenen Dokumentenmediums durch das Extrahieren von Charakteristika des Layouts und logisches Darstellen der Struktur des analysierten Layouts; (ii) Abfragen eines möglichen Kandidaten-Layouts durch das Bezugnehmen auf eine Layout-Datenbank (14) unter Verwendung der in der Analyse von Schritt (i) extrahierten Charakteristika des Layouts als einschränkende Abfragebedingungen, um zu kollationieren, ob ein Koinzidenz-Kandidaten-Layout vorhanden ist oder nicht; dadurch gekennzeichnet, dass die Kandidaten-Layoutinformationen in der Layout-Datenbank (14) aktualisiert werden durch Lernen mittels Layout-Erkennung, auf der Basis des Analyseergebnisses von Schritt (i) und des Abfrageergebnisses von Schritt (ii).
Dokumentenmedium-Handhabungsverfahren nach Anspruch 11, dadurch gekennzeichnet, dass: das Analysieren des Layouts in dem Schritt (i) mit Bezugnahme auf ein Analysewörterbuch (13) durchgeführt wird, das Charakteristika distinktiver Datenstücke enthält; und dass es ferner die Schritt umfasst: wenn ein beliebiges Kandidaten-Layout in dem Schritt (ii) abgefragt wird, (iii) Erkennen der Datenstückgruppe in dem Bild (19) unter Verwendung sowohl der logischen Struktur des in dem Analyseschritt (i) dargestellen Layouts als auch der Charakteristika des in dem Schritt (ii) abgefragten Kandidaten-Layouts; (iv) Aktualisieren des Analysewörterbuchs (13) auf der Basis sowohl des Ergebnisses der Analyse in dem Schritt (i) als auch des Ergebnisses der Erkennung in dem Schritt (iii); wenn kein Kandidaten-Layout in dem Schritt (ii) abgefragt wird, (v) Erkennen der Datenstückgruppe in dem Bild (19) unter Verwendung der logischen Struktur des in dem Analyseschritt (i) dargestellen Layouts; und (vi) Aktualisieren der Layout-Datenbank (14) durch das zusätzliche Speichern, in der Layout-Datenbank (14), der Charakteristika des analysierten Layouts, und auch Aktualisieren des Analysewörterbuchs (13) auf der Basis sowohl des Analyseergebnisses in dem Schritt (i) als auch des Erkennungsergebnisses in dem Schritt (v), so dass das aktualisierte Analysewörterbuch (13) und die Layout-Datenbank (14) in dem Analyseschritt (i) und dem Erkennungsschritt (ii) bei der Handhabung eines anschließend gegebenen Dokumentenmediums verwendet werden.
Dokumentenmedium-Handhabungsverfahren nach Anspruch 12, welches ferner den Schritt der Vorverarbeitung des Bilds (19) des gegebenen Dokumentenmediums für die Analyse in dem Schritt (i) umfasst.
Dokumentenmedium-Handhabungsverfahren nach Anspruch 12, bei welchem die Analyse in dem Schritt (i) einschließt: (i-1) Extrahieren der Charakteristika des Layouts der Datenstückgruppe des gegebenen Dokumentenmediums; und (i-2) Analysieren einer Struktur des Layouts der Datenstückgruppe auf der Basis der in dem Schritt (i-1) extrahierten Charakteristika des Layouts.
Dokumentenmedium-Handhabungsverfahren nach Anspruch 14, bei welchem die Analyse in dem Schritt (i) ferner einschließt: (i-3) Beurteilen, ob das Bild (19) in einer vorherbestimmten Richtung ist, die für die Erkennung in dem Schritt (iii) oder dem Schritt (v) geeignet ist, auf der Basis der in dem Schritt (i-1) extrahierten Charakteristika des Layouts; und wenn in dem Schritt (i-3) beurteilt wird, dass das Bild (19) nicht in der vorherbestimmten Richtung ist, (i-4) Konvertieren des Bilds (19) in die vorherbestimmte Richtung.
Dokumentenmedium-Handhabungsverfahren nach Anspruch 14, bei welchem die Extraktion in dem Schritt (i-1) das Extrahieren eines logischen Ursprungs des Layouts als ein Charakteristikum des Layouts einschließt, und die Abfrage in dem Schritt (ii) auf der Basis des in dem Schritt (i-1) extrahierten logischen Ursprungs durchgeführt wird.
Dokumentenmedium-Handhabungsverfahren nach Anspruch 14, bei welchem, wenn das Layout der Datenstückgruppe eine Tabelle einschließt, die aus Elementen besteht, von denen jedes von gezogenen Linien umgeben ist, die Extraktion in dem Schritt (i-1) das Extrahieren der gezogenen Linien in der Tabelle als Charakteristika des Layouts einschließt, und die Analyse in dem Schritt (i-2) das Analysieren einer Struktur der Tabelle auf der Basis der gezogenen Linien einschließt, die in dem Schritt (i-1) extrahiert werden.
Dokumentenmedium-Handhabungsverfahren nach Anspruch 14, bei welchem, wenn das Layout der Datenstückgruppe eine Tabelle einschließt, die aus Elementen besteht, von denen jedes nicht von gezogenen Linien umgeben ist, die Extraktion in dem Schritt (i-1) das Extrahieren von den Elementen der Tabelle entsprechenden Datenstücken als Charakteristika des Layouts ein schließt, und die Analyse in dem Schritt (i-2) das Analysieren einer Struktur der Tabelle auf der Basis der in dem Schritt (i-1) extrahierten Datenstücke einschließt, die den Tabellenelementen entsprechen.
Dokumentenmedium-Handhabungsverfahren nach Anspruch 12, bei welchem, wenn die Datenstückgruppe Elemente einschließt, die unter einer Vielzahl von Klassen klassifiziert sind, die Analyse in dem Schritt (i) durchgeführt wird, indem ein Datenstück, das einer Überschrift jeder der mehrfachen Klassen entspricht, bestimmt wird, die Überschrift jeder Klasse erkannt wird, und mit jeder Klasse klassifizierte Elemente auf der Basis der erkannten Überschrift jeder Klasse bestimmt werden.
Dokumentenmedium-Handhabungsverfahren nach Anspruch 14, bei welchem die Layout-Datenbank (14) komprimierte Charakteristika der distinktiven Layouts enthält, und die Abfrage in dem Schritt (ii) das Komprimieren der in dem Schritt (i-1) extrahierten Charakteristika des Layouts und das Abfragen der Kandidaten-Layouts aus der Layout-Datenbank (14) durch die komprimierten Charakteristika des Layouts einschließt.