DE60031502T2 - Verfahren und Vorrichtung zur Typbestimmung eines Formblatts - Google Patents

Verfahren und Vorrichtung zur Typbestimmung eines Formblatts Download PDF

Info

Publication number
DE60031502T2
DE60031502T2 DE60031502T DE60031502T DE60031502T2 DE 60031502 T2 DE60031502 T2 DE 60031502T2 DE 60031502 T DE60031502 T DE 60031502T DE 60031502 T DE60031502 T DE 60031502T DE 60031502 T2 DE60031502 T2 DE 60031502T2
Authority
DE
Germany
Prior art keywords
keyword
form sheet
letter
type
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60031502T
Other languages
English (en)
Other versions
DE60031502D1 (de
Inventor
Hitachi Ltd. Intell Prop. Gr. Atsuhiro Chiyoda-ku Imaizumi
Hitachi Ltd. Intell Prop. Gr. Masato Chiyoda-ku Teramoto
Hitachi Ltd. Intell Prop. Gr. Tsukasa Chiyoda-ku Yasue
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Omron Terminal Solutions Corp
Original Assignee
Hitachi Omron Terminal Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Omron Terminal Solutions Corp filed Critical Hitachi Omron Terminal Solutions Corp
Application granted granted Critical
Publication of DE60031502D1 publication Critical patent/DE60031502D1/de
Publication of DE60031502T2 publication Critical patent/DE60031502T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F19/00Complete banking systems; Coded card-freed arrangements adapted for dispensing or receiving monies or the like and posting such transactions to existing accounts, e.g. automatic teller machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft eine Vorrichtung zur Bestimmung des Typs eines Formularblattes, die in einer Vorrichtung zur automatischen Bargeldtransaktion oder dergleichen verwendet wird, und insbesondere ein Verfahren zum Bestimmen des Typs eines Formularblattes und eine Vorrichtung zur Bestimmung des Typs eines Formularblattes durch Lesen von Bilddaten eines Formularblattes und Extrahieren von Buchstabenfolgen aus den gelesenen Bilddaten.
  • Automatische Maschinen, wie zum Beispiel eine Vorrichtung zur automatischen Bargeldtransaktion und dergleichen, verarbeiten automatisch verschiedene Arten von Prozessen, wie zum Beispiel eine automatische Zahlung unter Verwendung eines Antragsvordrucks auf Verwendung einer automatischen Zahlung, eine Überweisung einer öffentlichen Gebühr unter Verwendung eines Kontoüberweisungsvordrucks oder eine Einzahlungstransaktion unter Verwendung eines herkömmlichen Guthabeneinzahlungsvordrucks. Zu diesem Zeitpunkt ist es notwendig, dass die oben erwähnten automatischen Maschinen den Typ von Formularblättern, wie zum Beispiel einen Antragsvordruck auf Verwendung einer automatischen Zahlung oder dergleichen, der von dem Benutzer eingegeben wird, automatisch bestimmen. Als Bestimmungsverfahren für den Typ eines Formularblattes ist das allgemeinste Verfahren ein Verfahren, bei dem identifizierbare Information, wie zum Beispiel eine ID-Nummer, eine Bar-Code-Information, eine Markierung etc., die den Typ des Formularblattes angibt, an einer Stelle hinzugefügt ist, die jedem Formularblatt gemeinsam ist, und der Typ eines Formularblattes durch Lesen der Information bestimmt wird.
  • Weiterhin ist als Bestimmungsverfahren, das die oben erwähnte hinzugefügte Information nicht erfordert, ein Verfahren zum Bestimmen des Typs eines Formularblattes durch Lesen einer Buchstabenfolge oder einer Markierung, die sich an einer spezifischen Position auf dem Formularblatt befindet, oder ein Verfahren zum Bestimmen des Typs eines Formularblattes durch Lesen einer Position oder einer Form einer gezogenen Linie auf dem Formularblatt bekannt.
  • Der Aufsatz "An Intelligent Chinese Official Document Processing System" von Pai et al., in IEEE 1995, Seite 974 ff., lehrt, eingegebene Dokumente durch Extrahieren von Datenfeldern und Verarbeiten von diesen durch Ausführung von Buchstabensegmentierungstechniken zu analysieren, welche die getrennten blockverbundenen Komponenten vor einer optischen Buchstabenerkennung miteinander verbinden. Nur Druckbuchstaben werden durch OCR verarbeitet, Handschrift wird wie Bilddaten behandelt.
  • Der Aufsatz "Evaluating OCR and Non-OCR Text Representations ..." von Junker et al., in IEEE 1997, Seite 1060 ff., beschreibt einen durch einen Indexierungsprozess verstärkten Text, nämlich morphologische Analyse, Eliminierung von Stoppwörtern, Häufigkeitsanalyse und Indexbegriffabwägung.
  • Der Aufsatz "Retrieval of Document Images Using Layout Knowledge" von Herrmann et al., in IEEE 1993, S. 537 ff., beschreibt ein Dokumentwiedergewinnungssystem, das nicht nur textlichen Inhalt (wie zum Beispiel Schlüsselwörter) indexiert, sondern auch Textpositionen und verschiedene Parameter von Diagrammen und Bildern.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist die Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung zur Bestimmung des Typs eines Formularblattes bereitzustellen, die zu zuverlässigeren Bestimmungen fähig sind.
  • Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Ansprüche erreicht.
  • Bei einem Verfahren zum Bestimmen des Typs eines Formularblattes werden mehrere Sätze von Schlüsselwörtern entsprechend mehreren Typen von Formularblättern vorab gespeichert. Bilddaten aus einem eingegebenen Formularblatt werden dann gelesen, Buchstabenfolgen werden extrahiert und eine COR wird an ihnen durchgeführt. Buchstabenfolgen werden als Schlüsselwort extrahiert, zu jedem von welchen eine Gewichtung hinzugefügt wird auf der Grundlage, ob der Buchstabe ein Druckbuchstabe oder ein handgeschriebener Buchstabe ist. Ein derartiges Schlüsselwort wird für jeden Typ von Formularblättern den Schlüsselwortsätzen zum Bestimmen des Typs eines eingegebenen Formularblattes zugeordnet.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Flussdiagramm eines Verfahrens zum automatischen Bestimmen des Typs eines Formularblattes in einer Ausführungsform der vorliegenden Erfindung.
  • 2A2C sind Diagramme, die nützlich sind, um die Inhalte einer Formularblatt-Typ-Datei zu erläutern.
  • 3 ist ein Diagramm, das nützlich ist, um die Inhalte einer Buchstabenmuster-Datenbank zu erläutern.
  • 4 ist ein Diagramm zur Erläuterung von Gewichtungswerten, die Schlüsselwörtern gegeben werden.
  • 5 ist ein Diagramm, das ein Beispiel für die Berechnung der Wahrscheinlichkeitswerte von Formularblättern zeigt.
  • 6 ist ein Diagramm, das nützlich ist, um eine Prozedur zum Erzeugen eines neuen Schlüsselwortes durch Kombinieren extrahierter Schlüsselwörter zu erläutern.
  • 7 ist ein Diagramm, das ein konkretes Beispiel für das Erzeugen neuer Schlüsselwörter zeigt.
  • 8 ist ein Diagramm, das einen Aufbau einer Vorrichtung zur automatischen Bestimmung des Typs eines Formularblattes in einer weiteren Ausführungsform der vorliegenden Erfindung zeigt.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Im Folgenden werden Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf 1 bis 5 beschrieben.
  • 1 ist ein Diagramm, das eine Verarbeitung in einer Vorrichtung zur automatischen Bestimmung des Typs eines Formularblattes gemäß der vorliegenden Erfindung erläutert. Als Erstes werden in Schritt S1 die Schlüsselwörter zum Bestimmen des Typs eines Formularblattes, die aus jedem von vorbestimmten Formularblättern extrahiert worden sind, welche das Bestimmungsobjekt der Vorrichtung zur Bestimmung des Typs eines Formularblattes sind, in einer Datei gespeichert, die für jeden Typ von Formularblättern vorgesehen ist.
  • 2A2C sind Diagramme, welche die Inhalte von Formularblättern, die das Bestimmungsobjekt der Vorrichtung zur Bestimmung des Typs eines Formularblattes sind, und die Inhalte von Formularblatt-Typ-Dateien zeigen, in denen die Schlüsselwörter gespeichert sind, die aus den Formularblättern extrahiert worden sind und zur Bestimmung des Typs eines Formularblattes verwendet werden. In 2A2C zeigen Bezugszeichen 1 bis 3 die Formularblätter und das Formularblatt 1 ist "ein Vordruck zur automatischen Zahlung (Bankkopie)", das Formularblatt 2 ist "ein herkömmlicher Guthabeneinzahlungszettel", und das Formularblatt 3 ist ein Zahlungsvordruck für eine "Stromgebühr". Ferner zeigen Bezugszeichen 11 bis 13 Formularblatt-Typ-Dateien, die jeweils den Formularblättern 1 bis 3 entsprechen, und jede der Formularblatt-Typ-Dateien umfasst in dieser gespeichert mehrere aus den Formularblättern 1 bis 3 ausgewählte Schlüsselwörter, so dass die Typen dieser Formularblätter eindeutig entschieden werden können, und umfasst in dieser gespeichert Gewichtungen, die jeweils den Schlüsselwörtern gemäß ihrem Wichtigkeitsgrad gegeben worden sind. Die Gewichtungen sind, mit anderen Worten, welche, die abhängig von den Schlüsselwörtern selbst sind, oder schlüsselwortspezifische Gewichtungen.
  • Beispielsweise stellt Formularblatt 1 einen "Antragsvordruck auf Verwendung einer automatischen Zahlung (Bankkopie)" dar, und als Schlüsselwörter werden "Antragsvordruck auf Verwendung einer automatischen Zahlung", "Bankkopie", "Kontonummer" und der Name der Bank "OΔ Bank" extrahiert, und für die jeweiligen extrahierten Schlüsselwörter werden die Gewichtungswerte "5", "1" und "3" gegeben, und die Datei, die diese gegebenen Gewichtungswerte zusammen mit den Schlüsselwörtern enthält, wird als Formularblatt-Typ-Datei 11 gespeichert. Das heißt, da das Schlüsselwort "Antragsvordruck auf Verwendung einer automatischen Zahlung" beim Bestim men des Formularblatt-Typs am wichtigsten ist, wird der Gewichtungswert "5" gegeben.
  • Als Nächstes wird in Schritt S2 eine Bilddarstellung eines Formularblattes 1a, welches das Bestimmungsobjekt des Formularblatt-Typs ist, gelesen. Vorzugsweise ist die Bilddarstellung eine binärkodierte Darstellung, sie kann jedoch eine multiwertkodierte Darstellung oder eine Farbdarstellung sein. Auch kann als photoelektrisches Umwandlungsmittel, das zum Lesen der Darstellung verwendet wird, ein Lesemittel, wie zum Beispiel eine Kamera, ein CCD-Sensor etc., verwendet werden.
  • Als Nächstes werden in Schritt S3 alle Buchstabenfolgen in der gelesenen Bilddarstellung extrahiert. Beim Extrahieren der Buchstabenfolgen kann die Information, wie zum Beispiel eine Größe und eine Form, von verketteten Pixeln verwendet werden.
  • Als Nächstes wird in Schritt S4 eine Buchstabenerkennung an jeder von allen aus der Bilddarstellung extrahierten Buchstabenfolgen durchgeführt.
  • Als Nächstes werden in Schritt S5 die Schlüsselwörter, die als Schlüsselwörter zum Bestimmen des Typs eines Formularblattes verwendet werden, durch Verwendung einer Buchstabenfolgenmuster-Datenbank 31 aus den Buchstabenfolgen extrahiert, die als Ergebnis der Buchstabenerkennung erhalten worden sind. Die Formularblatt-Typ-Dateien 11 bis 13 können in dieser Datenbank 31 gespeichert sein.
  • 3 zeigt die Inhalte der Buchstabenfolgenmuster-Datenbank 31. Wie in 3 gezeigt, werden Buchstabenfolgenmuster, wie zum Beispiel "*Antragsvordruck", "*Gebühr", "*Bank", "*Steuer", "Name", "Be stätigungsstempel", "Kontonummer", "Bankkopie" etc., als Referenzbuchstabenfolgenmuster gespeichert. Jede der Buchstabenfolgen, die als Ergebnis der oben erwähnten Buchstabenerkennung erhalten worden ist, wird zugeordnet oder überprüft, um eine Abgleichung mit den Buchstabenfolgenmustern zu bestimmen, die in der Buchstabenfolgenmuster-Datenbank 31 gespeichert sind, und eine Buchstabenfolge, von der wenigstens ein Teil mit irgendeinem der Buchstabenfolgenmuster übereinstimmt, wird als Schlüsselwort extrahiert. Wenn beispielsweise der "Antragsvordruck auf Verwendung einer automatischen Zahlung (Bankkopie)", der das Ergebnis der Buchstabenerkennung ist, zur Abgleichung mit dem Buchstabenfolgenmuster "*Antragsvordruck", der in der Buchstabenfolgenmuster-Datenbank 31 gespeichert ist, zugeordnet oder überprüft wird, ist es möglich, den "Antragsvordruck auf Verwendung einer automatischen Zahlung" als Schlüsselwort zu extrahieren. In dieser Hinsicht gibt die Markierung *, die dem "*Antragsvordruck" etc. hinzugefügt worden ist, an, dass alle Buchstabenfolgen, die den "Antragsvordruck" als einen Teil von sich beinhalten, als Schlüsselwörter extrahiert werden.
  • Als Nächstes werden beim Abgleichungsverarbeitungsschritt S6 in Bezug auf die extrahierten Schlüsselwörter ein Gewichtungswert für den Buchstabentyp und ein Gewichtungswert für den Ort hinzugefügt, und die Schlüsselwörter, denen diese Gewichtungswerte hinzugefügt worden sind, werden zur Abgleichung mit den Schlüsselwörtern, die diese Gewichtungswerte haben und in Schritt S1 in den Formularblatt-Typ-Dateien gespeichert worden sind, zugeordnet oder überprüft, und die Bestimmung des Formularblatt-Typs wird ausgeführt, nachdem ein Wahrscheinlichkeitswert ermittelt worden ist.
  • Bei diesem Schritt S6 werden als Erstes den extrahierten Schlüsselwörtern die Gewichtungswerte hinzugefügt. 4 ist ein Diagramm zur Erläuterung der Gewichtungswerte, die den Schlüsselwörtern hinzugefügt worden sind. In Bezug auf die extrahierten Schlüsselwörter werden die Gewichtungswerte gemäß dem Buchstabentyp hinzugefügt. Der Buchstabentyp eines Schlüsselwortes wird durch eine Entscheidung bestimmt, ob das Schlüsselwort ein gedruckter Typ oder ein handgeschriebener Typ ist, indem die Merkmale, wie zum Beispiel eine Linearität der wohlbekannten Buchstabenfolge und ein Zwischenraum der Buchstaben, erfasst werden, und die Abwägung wird gemäß dem bestimmten Buchstabentyp ausgeführt. Da es bei dieser Ausführungsform zur Regel gemacht wird, nur den Drucktyp für die Bestimmung des Formularblatt-Typs zu verwenden, und nicht den handgeschriebenen Typ zu verwenden, wird ein Gewichtungswert von 1 gegeben, wenn es der Drucktyp ist, und wird ein Gewichtungswert von 0 gegeben, wenn es der handgeschriebene Typ ist.
  • Weiterhin wird die Abwägung gemäß dem beschriebenen Ort des extrahierten Schlüsselwortes innerhalb des Formularblattes ausgeführt. Bei dieser Ausführungsform ist, wie in 4 gezeigt, das Formularblatt in 10 Bereiche im gleichen Abstand in der vertikalen Richtung aufgeteilt, und die Buchstabenfolgen, die in dem oberen Abschnitt des Formularblattes beschrieben sind, werden als Buchstabenfolgen betrachtet, die das Formularblatt mehr charakterisieren als andere Buchstabenfolgen. Somit wird dem obersten Bereich ein Gewichtungswert von 10 gegeben und darauf folgend werden Gewichtungswerte 9 bis 1 abhängig von dem beschriebenen Bereich des Schlüsselwortes gegeben. In dieser Hinsicht ist es selbstverständlich, dass die Gewichtungen. an willkürliche Stellen abhängig von dem Objektformularblatt gegeben werden.
  • Als Nächstes wird die Bestimmung des Formularblatt-Typs ausgeführt. Beim Bestimmen des Formularblatt-Typs werden die oben erwähnten Schlüsselwörter, denen die Gewichtungswerte des Buchstabentyps und die Gewichtungswerte des Ortes hinzugefügt worden sind, zugeordnet oder überprüft, um eine Abgleichung mit den Schlüsselwörtern, denen die Gewichtungswerte hinzugefügt worden und die in den Formularblatt-Typ-Dateien gespeichert worden sind, zu sehen, und die Bestimmung des Formularblatt-Typs wird durch Ermitteln des Wahrscheinlichkeitswertes ausgeführt.
  • Bei der vorliegenden Ausführungsform wird der Wahrscheinlichkeitswert des Formularblattes durch Verwendung der folgenden Berechnungsformeln ermittelt.
  • K
    = die Gewichtung gemäß dem Buchstabentyp des extrahierten Schlüsselwortes
    P
    = die Gewichtung gemäß dem beschriebenen Ort des extrahierten Schlüsselwortes
    J
    = die in der Formularblatt-Typ-Datei gespeicherte Gewichtung
    der Wahrscheinlichkeitswert = K × P × J
  • Bei der Berechnung des Wahrscheinlichkeitswertes des Formularblattes wird der Wahrscheinlichkeitswert durch die oben erwähnten Formeln bezüglich aller Schlüsselwörter, die zuzuordnen sind, ermittelt und die Gesamtheit der ermittelten Werte wird als der Wahrscheinlichkeitswert des Formularblattes betrachtet, und das Formularblatt, das den höchsten Wahrscheinlichkeitswert hat, wird als der Formularblatt-Typ des eingegebenen Bildes bestimmt.
  • 5 zeigt ein Berechnungsbeispiel für die Wahrscheinlichkeitswerte von Formularblättern. In 5 wird bestimmt, dass der Wahrscheinlichkeitswert, dass der Typ des eingegebenen Formularblattes das Formularblatt 1 ist, der Wahrscheinlichkeitswert, dass der Typ des eingegebenen Formularblattes das Formularblatt 2 ist, und der Wahrscheinlichkeitswert, dass der Typ des eingegebenen Formularblattes das Formularblatt 3 ist, 72 bzw. 9 bzw. 12 betragen, und der Wert 72 des Formularblattes 1 ist der größte Wert. Somit wird bestimmt, dass der Formularblatt-Typ der eingegebenen Darstellung das Formularblatt 1 ist.
  • Bei der oben erwähnten Ausführungsform können, obwohl die Schlüsselwörter zum Bestimmen des Typs eines Formularblattes, die in der Formularblatt-Typ-Datei in Schritt S1 gespeichert worden sind, zur Abgleichung mit den Schlüsselwörtern, die in Schritt S5 extrahiert worden sind, zugeordnet oder überprüft werden, an Stelle von oder zusätzlich zu den in Schritt S5 extrahierten Schlüsselwörtern neue Schlüsselwörter zum Zuordnen oder Abgleichen verwendet werden, die durch Kombinieren mehrerer Sätze von in Schritt S5 extrahierten Schlüsselwörtern erzeugt werden.
  • 6 zeigt eine Prozedur zur Bildung neuer Schlüsselwörter durch gegenseitiges Kombinieren von Schlüsselwörtern. In 6 bezeichnet Bezugszeichen 1b ein Formularblatt, welches das Bestimmungsobjekt ist, und 11a bezeichnet eine Formularblatt-Typ-Datei. Beim Erzeugen eines neuen Schlüsselwortes werden als Erstes die Schlüsselwörter "Heisei Jahr OO", "Mitteilung über Steuerzahlung", ..., "OX Stadt" und "Bürgermeister" aus dem Formularblatt 1b extrahiert, welches das Bestimmungsobjekt ist (Schritt S5). Dann werden die extrahierten Schlüsselwörter "Heisei Jahr OO", "Mitteilung über Steuerzahlung", ..., "OX Stadt" und "Bürgermeister" kombiniert und beispielsweise ein neues Schlüsselwort "OX Stadt Mitteilung über Zahlung einer Steuer" 60 erzeugt (Schritt S10). Dann wird dieses neue Schlüsselwort zur Abgleichung mit dem Schlüsselwort zum Bestimmen des Typs eines Formularblattes, das in der Formularblatt-Typ-Datei 11a gespeichert worden ist (Schritt S6), zugeordnet oder überprüft, um dadurch den Formularblatt-Typ des Formularblattes 1b zu bestimmen. In dieser Hinsicht kann der Schritt S10 zwischen Schritt S5 und Schritt S6 in 1 ausgeführt werden oder kann in Schritt S5 eingeschlossen sein.
  • 7 veranschaulicht ein Verfahren zur Bildung neuer Schlüsselwörter. In 7 bezeichnet das Bezugszeichen 71 eine Gruppe von Schlüsselwörtern, von denen jedes in Schritt S5 extrahiert worden ist. Ein neues Schlüsselwort wird durch Kombinieren von zwei oder mehreren Schlüsselwörtern aus der Gruppe von Schlüsselwörtern 71 gebildet. In diesem Fall wird jedes Schlüsselwort der Gruppe von Schlüsselwörtern 71 mit einem anderen auf alle Kombinationsarten kombiniert, um ein neues Schlüsselwort zu bilden, und als Ergebnis wird eine Gruppe von neuen Schlüsselwörtern 72 erzeugt.
  • 8 ist ein Blockdiagramm, das einen Aufbau einer Vorrichtung zur Bestimmung des Typs eines Formularblattes in einer weiteren Ausführungsform der vorliegenden Erfindung zeigt.
  • In 8 liest ein Bildeingabebereich 81 eine Bilddarstellung eines Formularblattes, welches das Bestimmungsobjekt der Vorrichtung zur Bestimmung des Typs eines Formularblattes ist. Als photoelektrisches Umwandlungsmittel, das für das Lesen der Darstellung verwendet wird, können eine Kamera, ein CCD-Sensor und dergleichen verwendet werden.
  • Eine Buchstabenerkennungseinheit 82 extrahiert Buchstabenfolgen aus der eingegebenen Bilddarstellung und führt Buchstabenerkennung der extrahierten Buchstabenfolgen durch.
  • Eine Schlüsselwortextrahierungseinheit 83 extrahiert Schlüsselwörter, die zum Bestimmen des Typs eines Formularblattes nützlich sind, aus den Buchstabenfolgen, die als Ergebnis der Buchstabenerkennung erhalten worden sind.
  • Eine Formularblatt-Typ-Bestimmungseinheit (Zuordner) 85 ordnet für jede Formularblatt-Typ-Datei die extrahierten Schlüsselwörter jedem Schlüsselwort zu, das vorab in den Formularblatt-Typ-Dateien 11 bis 13 (2) gespeichert worden ist, die in einem Formularblatt-Typ-Schlüsselwortregister 86 gespeichert sind, um dadurch den Typ des Formularblattes zu bestimmen.
  • Da die Arbeitsweise der Vorrichtung zur Bestimmung des Typs eines Formularblattes der vorliegenden Erfindung so ist wie vorhergehend beschrieben, wird auf die detaillierte Erläuterung hier verzichtet.
  • Es wird nicht notwendig zu erwähnen, dass die vorliegende Erfindung als ein computer-verwendbares Aufzeichnungsmedium implementiert werden kann, das ein computer-lesbares Programm-Code-Mittel oder Anweisungssequenzen verwirklicht, um das vorhergehend beschriebene Verfahren zum Bestimmen des Typs eines Formularblattes auszuführen.
  • Wie oben beschrieben, können gemäß der oben beschriebenen Ausführungsformen, da die Formularblätter durch automatisches Extrahieren von Buchstabenfolgen, die sich jeweils an willkürlichen Positionen befinden, und durch nachfolgendes Durchführen einer Buchstabenerkennung, um den Typ des Formularblattes zu bestimmen, und durch Zuordnen oder Überprüfen für eine Abgleichung mit einer Gruppe von Schlüsselwörtern, die in der Formularblatt-Typ-Information beschrieben sind, identifiziert werden, wenigstens die folgenden vorteilhaften Wirkungen erzielt werden.
  • Es ist möglich, den Typ eines Formularblattes zu bestimmen, ohne dem Formularblatt eine neue Information, wie zum Beispiel einen Bar-Code, eine ID-Nummer etc., hinzuzufügen.
  • Es ist möglich, den Typ eines Formularblattes zu bestimmen, sogar wenn das Layout des Formularblattes verändert wird oder die Schriftart des Formularblattes geändert wird.
  • Es ist möglich, den Typ eines Formularblattes zu bestimmen, sogar wenn eine Druckabweichung auf dem Formularblatt verursacht wird.
  • Es ist möglich, die Merkmalinformation, die zur Bestimmung des Formularblattes verwendet wird, einfach zu speichern.
  • Außerdem ist es möglich, den Speicherbereich zum Speichern der Merkmalinformation zum Zeitpunkt der Formularblattbestimmung zu reduzieren.
  • Da die Buchstabenfolgen an willkürlichen Positionen innerhalb des Formularblattes verwendet werden, wird der Grad an Freiheit zum Durchführen der Bestimmung des Typs eines Formularblattes hoch und es ist gleichzeitig möglich, die Typen der Formularblätter, die bestimmt werden können, zu steigern.
  • Es ist möglich, eine Vorrichtung zur automatischen Bestimmung des Typs eines Formularblattes bereitzustellen, die an eine Veränderung des physischen Layouts der Formularblätter angepasst werden kann.
  • Angesichts der oben beschriebenen Ausführungen ist es offensichtlich, dass die vorliegende Erfindung auf verschiedene Arten modifiziert und verändert werden kann. Deshalb gehören derartige Modifizierungen und Veränderungen zu der vorliegenden Erfindung, ohne dass sie von dem Bereich der vorliegenden Erfindung abweicht. Beispielsweise kann das Formularblatt-Typ-Schlüsselwortregister 86 als Teil der Datenbank 31 ausgebildet sein.

Claims (7)

  1. Verfahren zum Bestimmen des Typs eines Formularblattes zur Bestimmung, welchem von mehreren vorbestimmten Typen von Formularblättern ein eingegebenes Formularblatt entspricht, mit den Schritten: Speichern mehrerer Sätze von Schlüsselwörtern vorab in einem Schlüsselwortregister mit einem Satz von Schlüsselwörtern für jeden vorbestimmten Typ von Formularblättern; Lesen von Bilddaten des eingegebenen Formularblattes, Extrahieren von Buchstabenfolgen aus den gelesenen Bilddaten und Durchführen einer Buchstabenerkennung für jede extrahierte Buchstabenfolge; Extrahieren jeder buchstabenerkannten Buchstabenfolge als ein Schlüsselwort; Zuordnen einer Gewichtung zu jedem extrahierten Schlüsselwort des eingegebenen Formularblattes auf der Grundlage des Ortes des Schlüsselwortes auf dem eingegebenen Formularblatt; Zuordnen des extrahierten Schlüsselwortes auf der Grundlage der zugeordneten Gewichtung für jeden Typ von Formularblättern zu den mehreren Sätzen von im Register gespeicherten Schlüsselworten, um dadurch den Typ des eingegebenen Formularblattes zu bestimmen.
  2. Verfahren nach Anspruch 1, bei dem die jedem extrahierten Schlüsselwort des eingegebenen Formularblattes zugeordnete Gewichtung eine Gewichtung ist auf der Grundlage, ob der Buchstabe ein Druckbuchstabe oder ein handgeschriebener Buchstabe zur Bildung des Schlüsselwortes ist.
  3. Verfahren nach Anspruch 1, bei dem die Gewichtung umso größer ist, je näher sich das Schlüsselwort auf dem eingegebenen Formularblatt an der obersten Stelle befindet.
  4. Vorrichtung zur Bestimmung des Typs eines Formularblattes zur Bestimmung, welchem von vorbestimmten Typen von Formularblättern ein eingegebenes Formularblatt entspricht, mit: einem Schlüsselwortregister (1113, 86), das mehrere Schlüsselwortsätze speichert, und zwar einen Satz für jeden vorbestimmten Typ von Formularblättern (1, 2, 3); einer Buchstabenerkennungseinheit (82), die Bilddaten eines eingegebenen Formularblattes liest, von den gelesenen Bilddaten Buchstabenfolgen extrahiert und für jede extrahierte Buchstabenfolge eine Buchstabenerkennung vornimmt; einer Schlüsselwortextrahierungseinheit (83), die jede der von der Buchstabenerkennungseinheit buchstabenerkannten Buchstabenfolge als Schlüsselwort extrahiert; einem Zuordner (85), der auf der Grundlage der Anordnung des Schlüsselwortes auf dem eingegebenen Formularblatt jedem extrahierten Schlüsselwort eine Gewichtung hinzufügt und auf der Grundlage der hinzugefügten Gewichtung das extrahierte Schlüsselwort für jeden vorbestimmten Typ für Formularblättern mit jedem Schlüsselwortsatz der mehreren Sätze von Schlüsselwörtern, die im Schlüsselwortregister gespeichert sind, zuordnet, um so den Typ des eingegebenen Formularblattes zu bestimmen.
  5. Vorrichtung nach Anspruch 4, wobei im Zuordner (85) jedem extrahierten Schlüsselwort eine Gewichtung auf der Grundlage mitgegeben wird, ob der Buchstabe ein Druckbuchstabe oder ein handgeschriebener Buchstabe zur Bildung des extrahierten Schlüsselwortes ist.
  6. Vorrichtung nach Anspruch 5, bei der jedem extrahierten Schlüsselwort eine Gewichtung größer als Null mitgegeben wird, wenn das Schlüsselwort maschinengeschrieben ist, und eine Gewichtung von Null gegeben wird, wenn das Schlüsselwort handgeschrieben ist, so dass aus den extrahierten Schlüsselwörtern des eingegebenen Formularblattes ein oder mehrere handgeschriebene Schlüsselwörter von der Bestimmung des Typs des Formularblattes ausgeschlossen werden.
  7. Vorrichtung nach Anspruch 4, bei der die dem jeweiligen extrahierten Schlüsselwort des eingegebenen Formularblattes zugeordnete Gewichtung um so größer ist, je näher sich der Ort des Schlüsselwortes auf dem eingegebenen Formularblatt an der obersten Stelle befindet.
DE60031502T 2000-01-18 2000-08-30 Verfahren und Vorrichtung zur Typbestimmung eines Formblatts Expired - Lifetime DE60031502T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000009165A JP2001202466A (ja) 2000-01-18 2000-01-18 帳票種別判別装置
JP2000009165 2000-01-18

Publications (2)

Publication Number Publication Date
DE60031502D1 DE60031502D1 (de) 2006-12-07
DE60031502T2 true DE60031502T2 (de) 2007-06-21

Family

ID=18537349

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60031502T Expired - Lifetime DE60031502T2 (de) 2000-01-18 2000-08-30 Verfahren und Vorrichtung zur Typbestimmung eines Formblatts

Country Status (6)

Country Link
US (1) US6963665B1 (de)
EP (1) EP1118959B1 (de)
JP (1) JP2001202466A (de)
KR (1) KR100351171B1 (de)
DE (1) DE60031502T2 (de)
TW (1) TW511028B (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7236653B2 (en) * 2003-03-27 2007-06-26 Sharp Laboratories Of America, Inc. System and method for locating document areas using markup symbols
US8050512B2 (en) * 2004-11-16 2011-11-01 Sharp Laboratories Of America, Inc. High dynamic range images from low dynamic range images
US8050511B2 (en) * 2004-11-16 2011-11-01 Sharp Laboratories Of America, Inc. High dynamic range images from low dynamic range images
CA2928051C (en) * 2005-07-15 2018-07-24 Indxit Systems, Inc. Systems and methods for data indexing and processing
EP1927936B1 (de) * 2006-11-29 2016-08-17 Brother Kogyo Kabushiki Kaisha Bildabtastvorrichtung
CN101622632B (zh) * 2007-03-08 2011-12-21 富士通株式会社 账票种类识别程序、账票种类识别方法以及账票种类识别装置
CN102054171A (zh) * 2009-10-30 2011-05-11 株式会社东芝 文档文件种类识别装置以及文档文件种类识别方法
JP5894064B2 (ja) * 2012-12-13 2016-03-23 日立オムロンターミナルソリューションズ株式会社 帳票表示システム、帳票表示装置、及び帳票表示方法
JP6123597B2 (ja) * 2013-09-12 2017-05-10 ブラザー工業株式会社 筆記データ処理装置
CN108932692B (zh) * 2017-05-26 2021-12-31 杭州海康机器人技术有限公司 面单信息的获取方法及装置
JP6938228B2 (ja) * 2017-05-31 2021-09-22 株式会社日立製作所 計算機、文書識別方法、及びシステム
KR102127985B1 (ko) * 2018-11-28 2020-06-29 삼성생명보험주식회사 문서 이미지로부터 항목을 추출하는 컴퓨팅 장치
JP2021043775A (ja) 2019-09-12 2021-03-18 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7379987B2 (ja) 2019-09-20 2023-11-15 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7439435B2 (ja) 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235653A (en) * 1984-08-31 1993-08-10 Hitachi, Ltd. Document analysis system
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
JPH0484366A (ja) * 1990-07-27 1992-03-17 Toshiba Corp 文書種別判別装置
JP3515586B2 (ja) * 1992-10-16 2004-04-05 株式会社ジャストシステム 文書処理方法及び装置
GB9305554D0 (en) 1993-03-18 1993-05-05 Ncr Int Inc Method and apparatus for processing decuments
JPH07273922A (ja) * 1994-03-30 1995-10-20 Matsushita Electric Ind Co Ltd Fax情報転送装置
US5821929A (en) * 1994-11-30 1998-10-13 Canon Kabushiki Kaisha Image processing method and apparatus
US5937084A (en) 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
JPH09330363A (ja) * 1996-06-10 1997-12-22 Toshiba Corp 帳票読取装置
JP3090070B2 (ja) * 1996-11-26 2000-09-18 日本電気株式会社 帳票識別方法及び装置
US5987448A (en) * 1997-07-25 1999-11-16 Claritech Corporation Methodology for displaying search results using character recognition
US6263121B1 (en) * 1998-09-16 2001-07-17 Canon Kabushiki Kaisha Archival and retrieval of similar documents
JP2000348041A (ja) * 1999-06-03 2000-12-15 Nec Corp 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体

Also Published As

Publication number Publication date
TW511028B (en) 2002-11-21
JP2001202466A (ja) 2001-07-27
KR100351171B1 (ko) 2002-09-05
KR20010076183A (ko) 2001-08-11
EP1118959B1 (de) 2006-10-25
EP1118959A2 (de) 2001-07-25
DE60031502D1 (de) 2006-12-07
US6963665B1 (en) 2005-11-08
EP1118959A3 (de) 2004-06-09

Similar Documents

Publication Publication Date Title
DE60031502T2 (de) Verfahren und Vorrichtung zur Typbestimmung eines Formblatts
DE10342594B4 (de) Verfahren und System zum Erfassen von Daten aus mehreren maschinell lesbaren Dokumenten
DE69817171T2 (de) Verfahren und anordnung zur automatischen formulardaten-erfassung
DE69724755T2 (de) Auffinden von Titeln und Photos in abgetasteten Dokumentbildern
DE19547812C2 (de) Lesegerät für Schriftzeichenketten
DE69730930T2 (de) Verfahren und Gerät zur Zeichenerkennung
DE60116442T2 (de) System zur Zuordnung von Schlüsselwörtern zu Dokumenten
DE69838763T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE3926327C2 (de) Verfahren und System zum Erkennen von Zeichen auf einem Medium
DE60120810T2 (de) Verfahren zur Dokumenterkennung und -indexierung
DE19705757C2 (de) Verfahren zum Erkennen eines Eingabemusters und zum Erzeugen einer Datenbank sowie Zeichenerkennungssystem
DE60204005T2 (de) Verfahren und einrichtung zur erkennung eines handschriftlichen musters
DE69920296T2 (de) Verfahren und Vorrichtung zum Registrieren und Vergleichen von Handflächenabdrücken
DE2640537A1 (de) Verfahren und vorrichtung zum unterscheiden zwischen n groesser als 2 alphabeten angehoerenden zeichen
DE102011079443A1 (de) Lerngewichtungen von Schriftarten für getippte Proben bei der Handschriftenschlüsselwortauffindung
DE19718805A1 (de) Verfahren und Anordnung zum Erkennen von Verteilinformationen
DE102007052622A1 (de) Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät
EP1402462B1 (de) Verfahren und vorrichtung zum automatischen lesen von adressen in mehr als einer sprache
EP2082357B1 (de) Vorrichtung, verfahren und computerprogramm zur erkennung von schriftzeichen in einem bild
DE102008041944A1 (de) Datenverarbeitungsverfahren zur Generierung eines Klassifikators und zur Überprüfung der Echtheit eines Dokuments, Vorrichtung zur Überprüfung der Echtheit eines Dokuments und Computerprogrammprodukt
WO2005119580A1 (de) Verfahren und einrichtung zur strukturanalyse eines dokuments
DE3246631C2 (de) Zeichenerkennungsvorrichtung
DE19726592C2 (de) Informationserkennungs-Vorrichtung
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
DE102023107278B3 (de) Verfahren zum Authentifizieren einer auf ihrem Substrat mindestens eine bedruckte Fläche aufweisenden Banknote

Legal Events

Date Code Title Description
8364 No opposition during term of opposition