DE112020003002T5

DE112020003002T5 - Skalierbares strukturlernen durch ein kontextfreies rekursives zerlegen von dokumenten

Info

Publication number: DE112020003002T5
Application number: DE112020003002.4T
Authority: DE
Inventors: Munish Goyal; Avinash Arya
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-09-16
Filing date: 2020-09-15
Publication date: 2022-03-10
Also published as: WO2021053510A1; GB202203443D0; JP2022547962A; US20210081662A1; GB2602229B; US11188748B2; CN114365202A; CN114365202B; GB2602229A

Abstract

Es wird ein Ansatz bereitgestellt, bei dem ein Dokument in ein Bitmapbild umgewandelt wird und ein Satz von Pixelwerten aus dem Bitmapbild durch das Verarbeitungsverfahren zu einem Satz von Zeilensummenwerten und einem Satz von Spaltensummenwerten zusammengefasst wird. Bei dem Bitmapbild handelt es sich um eine gepixelte Darstellung des Dokuments. Bei diesem Ansatz wird eine lokalisierte Fourier-Transformation auf den Satz von Zeilensummenwerten und den Satz von Spaltensummenwerten angewendet, um Frequenzdarstellungen für den Satz von Zeilensummenwerten und den Satz von Frequenzsummenwerten zu erzeugen. Bei diesem Ansatz wird das Bitmapbild in einen Satz von Bildsegmenten auf der Grundlage von mindestens einer in dem Satz von Frequenzdarstellungen identifizierten Trennstelle zerlegt, und der Satz von Bildsegmenten wird dann an ein Texterkennungssystem gesendet.

Description

HINTERGRUND
Moderne Dokumentenverarbeitungssysteme rationalisieren das Erfassen, Erkennen und Klassifizieren von Unternehmensdokumenten, um wichtige Informationen zu extrahieren. Dokumentenverarbeitungssysteme verwenden optische Zeichenerkennung (OCR, optical character recognition), Verarbeitung natürlicher Sprache, Textanalyse und maschinelle Lerntechnologien, um Inhalte automatisch zu identifizieren, zu klassifizieren und aus unstrukturierten oder variablen Dokumenten zu extrahieren.
Einige Dokumentenverarbeitungssysteme verwenden überwachte oder teilüberwachte maschinelle Lernverfahren, um aus gescannten Dateien oder PDF-Dateien Text und Dokumentenstruktur zu extrahieren. Andere Dokumentenverarbeitungssysteme erfordern, dass ein Mensch ein Dokument mit einem Fingerabdruck versieht, der dann zur Extraktion von Informationen aus gleichartigen Dokumenten verwendet wird. Wieder andere Dokumentenverarbeitungssysteme verwenden eine Kombination aus menschlicher Aufsicht und Deep Learning, um Mining durchzuführen, Textgrenzen zu erlernen, Ontologien zu erstellen und die Informationen zu nutzen, um Informationen aus Dokumenten ähnlicher Art zu extrahieren. Alle diese Dokumentenverarbeitungssysteme beruhen darauf, dass sie zuverlässig Texte extrahieren, den Textinhalt verstehen und den Kontext des Dokuments erfassen.
KURZDARSTELLUNG
Gemäß einer Ausführungsform der vorliegenden Offenbarung wird ein Ansatz bereitgestellt, bei dem ein Satz von Pixelwerten aus einem Bitmapbild zu einem Satz von Zeilensummenwerten und einem Satz von Spaltensummenwerten zusammengefasst wird. Bei dem Bitmapbild handelt es sich um eine gepixelte Darstellung eines Dokuments. Bei diesem Ansatz wird eine lokalisierte Fourier-Transformation auf den Satz von Zeilensummenwerten und den Satz von Spaltensummenwerten angewendet, um Frequenzdarstellungen für den Satz von Zeilensummenwerten und den Satz von Frequenzsummenwerten zu erzeugen. Bei diesem Ansatz wird das Bitmapbild in einen Satz von Bildsegmenten auf der Grundlage von mindestens einer in dem Satz von Frequenzdarstellungen identifizierten Trennstelle zerlegt, und der Satz von Bildsegmenten wird dann an ein Texterkennungssystem gesendet.
Das Vorstehende ist eine Zusammenfassung und weist daher zwangsläufig Vereinfachungen, Verallgemeinerungen und Auslassungen von Einzelheiten auf; daher wird der Fachmann verstehen, dass die Zusammenfassung nur der Veranschaulichung dient und in keiner Weise einschränkend sein soll. Weitere Aspekte, erfinderische Funktionen und Vorteile der vorliegenden Offenbarung, die ausschließlich durch die Ansprüche definiert sind, werden in der nachstehenden, nicht einschränkenden detaillierten Beschreibung deutlich.
Figurenliste
Die vorliegende Offenbarung kann besser verstanden werden, und ihre zahlreichen Objekte, Funktionen und Vorteile können für den Fachmann durch Bezugnahme auf die beigefügten Zeichnungen ersichtlich werden, wobei:

1 ein Blockschaltbild eines Datenverarbeitungssystems zeigt, in dem die hier beschriebenen Verfahren implementiert werden können;
2 eine Erweiterung der in 1 dargestellten Umgebung des Informationsverarbeitungssystems bereitstellt, um zu veranschaulichen, dass die hier beschriebenen Verfahren auf einer großen Vielfalt von Informationsverarbeitungssystemen durchgeführt werden können, die in einer vernetzten Umgebung betrieben werden;
3 eine beispielhafte Darstellung eines Computersystems zeigt, das ein Dokument zu einem Bitmapbild digitalisiert und das Bitmapbild rekursiv in Bildsegmente zerlegt, die in ein Texterkennungssystem eingegeben werden;
4 eine beispielhafte Darstellung eines Rechnungsdokuments zeigt, das zerlegt werden kann;
5 eine beispielhafte Darstellung eines Bitmapbildes zeigt, das in Bildsegmente zerlegt wurde;
6 einen beispielhaften Ablaufplan zeigt, der die Schritte zum Umwandeln eines Dokuments in ein Bitmapbild und zum rekursiven Zerlegen des Bitmapbildes in Bildsegmente darstellt;
7 einen beispielhaften Ablaufplan zeigt, der die Schritte für ein Auswerten darstellt, ob Bildsegmente rekursiv zerlegt werden sollen;
8 eine beispielhafte Darstellung von verschiedenen Darstellungen zeigt, die das Zerlegen von Bitmapbildern beschreiben;
9 eine beispielhafte Darstellung eines Bildsegments und zeitlicher Histogramme zeigt, die durch Anwenden einer Fourier-Transformation auf das Bildsegment erzeugt wurden; und
10 eine beispielhafte Darstellung einer spektralen Darstellung eines Bildsegments zeigt.

AUSFÜHRLICHE BESCHREIBUNG
Die hierin verwendete Terminologie dient lediglich der Beschreibung bestimmter Ausführungsformen und soll die Offenbarung nicht einschränken. Wie hierin verwendet, sollen die Singularformen „ein“, „eine“, „eines“ und „der“, „die“, „das“ auch die Pluralformen umfassen, wenn aus dem Kontext nicht eindeutig etwas anderes hervorgeht. Es wird ferner darauf hingewiesen, dass die Begriffe „aufweist“ und/oder „aufweisen, wenn sie in dieser Spezifikation verwendet werden, das Vorhandensein von angegebenen Funktionen, ganzen Zahlen, Schritten, Operationen, Elementen und/oder Komponenten spezifizieren, aber nicht das Vorhandensein oder Hinzufügen von einer/einem oder mehreren anderen Funktionen, ganzen Zahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen davon ausschließen.
Die jeweiligen Strukturen, Materialien, Handlungen und Entsprechungen aller Mittel oder Schritte sowie Funktionselemente in den nachfolgenden Ansprüchen sollen jede Struktur, jedes Material oder jede Handlung zum Ausführen der Funktion in Kombination mit anderen beanspruchten Elementen umfassen, wie ausdrücklich beansprucht. Die Beschreibung der vorliegenden Offenbarung wurde zur Veranschaulichung und Beschreibung vorgelegt, soll aber weder erschöpfend noch auf die offenbarte Offenbarung beschränkt sein. Für den Fachmann sind viele Modifikationen und Variationen erkennbar, ohne vom Umfang und Sinngehalt der Offenbarung abzuweichen. Die Ausführungsform wurde ausgewählt und beschrieben, um die Grundgedanken der Offenbarung und der praktischen Anwendung auf bestmögliche Weise zu erläutern und um anderen Fachleuten ein Verständnis der Offenbarung für verschiedene Ausführungsformen mit verschiedenen Modifikationen zu ermöglichen, wie sie für die jeweils in Betracht gezogene Verwendung geeignet sind.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailstufe der Integration handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) umfassen, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert ist/sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs/Verarbeitungs-Einheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs/Verarbeitungs-Einheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs/Verarbeitungs-Einheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Flussdiagramm-Darstellungen und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Flussdiagramm-Darstellungen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken des Flussdiagramms und/oder des Blockschaubilds festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in den Blöcken angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit in einem Schritt gleichzeitig, im Wesentlichen gleichzeitig, teilweise oder vollständig zeitlich überlappend ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen. Die folgende detaillierte Beschreibung folgt im Allgemeinen der Zusammenfassung der Offenbarung, wie sie oben dargelegt ist, wobei die Definitionen der verschiedenen Aspekte und Ausführungsformen der Offenbarung nach Bedarf weiter erläutert und erweitert werden.
1 zeigt das Informationsverarbeitungssystem 100, bei dem es sich um ein vereinfachtes Beispiel eines Computersystems handelt, das die hier beschriebenen Datenverarbeitungsoperationen durchführen kann. Das Informationsverarbeitungssystem 100 umfasst einen oder mehrere Prozessoren 110, die mit dem Prozessorschnittstellenbus 112 verbunden sind. Der Prozessorschnittstellenbus 112 verbindet die Prozessoren 110 mit der Northbridge 115, die auch als Memory Controller Hub (MCH) bezeichnet wird. Die Northbridge 115 ist mit dem Systemspeicher 120 verbunden und stellt ein Mittel für den/die Prozessor(en) 110 bereit, um auf den Systemspeicher zuzugreifen. Die Grafiksteuerung 125 ist ebenfalls mit der Northbridge 115 verbunden. In einer Ausführungsform verbindet der PCI-Express-Bus 118 (Peripheral Component Interconnect) die Northbridge 115 mit der Grafiksteuerung 125. Die Grafiksteuerung 125 ist mit einer Anzeigeeinheit 130 verbunden, zum Beispiel einem Computermonitor.
Die Northbridge 115 und die Southbridge 135 sind mittels Bus 119 miteinander verbunden. In einigen Ausführungsformen ist der Bus ein DMI-Bus (Direct Media Interface, Direkte Medienschnittstelle), der Daten mit hoher Geschwindigkeit in jeder Richtung zwischen der Northbridge 115 und der Southbridge 135 überträgt. In einigen Ausführungsformen werden die Northbridge und die Southbridge durch einen PCI-Bus verbunden. Die Southbridge 135, auch bekannt als I/O Controller Hub (ICH; Eingabe/Ausgabe-Controller-Hub), ist ein Chip, der im Allgemeinen Funktionen implementiert, die mit niedrigeren Geschwindigkeiten arbeiten als die von der Northbridge bereitgestellten Funktionen. Die Southbridge 135 stellt in der Regel verschiedene Busse bereit, die zum Anschließen verschiedener Komponenten dienen. Diese Busse umfassen zum Beispiel PCI- und PCI-Express-Busse, einen ISA-Bus, einen System Management Bus (SMBus oder SMB) und/oder einen Low Pin Count- (LPC-) Bus. Der LPC-Bus verbindet häufig Einheiten mit geringer Bandbreite, wie zum Beispiel Boot-ROM 196 und „herkömmliche“ E/A-Einheiten (mittels eines „Super-E/A“-Chips). Zu den „herkömmlichen“ E/A-Einheiten (198) können zum Beispiel serielle und parallele Schnittstellen, Tastatur, Maus und/oder eine Diskettensteuerung gehören. Zu den weiteren Komponenten, die häufig in der Southbridge 135 enthalten sind, gehören ein DMA-Controller (Direct Memory Access, Direkt-Speicherzugriff), ein PIC-Controller (Programmable Interrupt Controller) und ein Speichereinheiten-Controller, der die Southbridge 135 mittels Bus 184 mit einer nichtflüchtigen Speichereinheit 185 verbindet, zum Beispiel einem Festplattenlaufwerk.
ExpressCard 155 ist ein Steckplatz, über den Hot-Plug-fähige Einheiten an das Informationsverarbeitungssystem angeschlossen werden können. Die ExpressCard 155 unterstützt ein Verbinden via PCI Express und Universal Serial Bus (USB), da sie mittels USB und PCI-Express-Bus mit der Southbridge 135 verbunden ist. Die Southbridge 135 umfasst den USB-Controller 140, der USB-Anschlussmöglichkeiten für Einheiten bereitstellt, die über USB angeschlossen sind. Diese Einheiten umfassen eine Webcam (Kamera) 150, einen Infrarotempfänger (IR) 148, eine Tastatur und ein Trackpad 144 sowie eine Bluetooth-Einheit 146, die drahtlose persönliche Netzwerke (Personal Area Network, PAN) bereitstellt. Der USB-Controller 140 stellt auch USB-Anschlussmöglichkeiten für andere über USB angeschlossene Einheiten 142 bereit, zum Beispiel eine Maus, eine nichtflüchtige Speichereinheit 145, Modems, Netzwerkkarten, ISDN-Anschlüsse (Integrated Services Digital Network), Faxgeräte, Drucker, USB-Hubs und viele andere Arten von über USB angeschlossenen Einheiten. Die wechselbare nichtflüchtige Speichereinheit 145 ist zwar als eine über USB angeschlossene Einheit dargestellt, doch könnte die wechselbare nichtflüchtige Speichereinheit 145 auch mittels einer anderen Schnittstelle angeschlossen werden, zum Beispiel über eine Firewire-Schnittstelle usw.
Die WLAN-Einheit 175 (Wireless Local Area Network, drahtloses lokales Netzwerk) ist über den PCI- oder PCI-Express-Bus 172 mit der Southbridge 135 verbunden. Die WLAN-Einheit 175 implementiert in der Regel einen der 802.11-Standards des Institute of Electrical and Electronic Engineers (IEEE) für drahtlose Modulationstechniken, die alle dasselbe Protokoll verwenden, um Daten drahtlos zwischen dem Informationsverarbeitungssystem 100 und einem anderen Computersystem oder einer anderen Einheit auszutauschen. Die optische Speichereinheit 190 ist mittels Serial ATA-Bus 188 (Serial Analog Telephone Adapter, ATA) mit der Southbridge 135 verbunden. Serielle ATA-Adapter und -Einheiten tauschen Daten über eine serielle Hochgeschwindigkeitsverbindung aus. Der Serial ATA-Bus verbindet die Southbridge 135 auch mit anderen Speichereinheiten, zum Beispiel mit Festplattenlaufwerken. Der Audioschaltkreis 160, zum Beispiel eine Soundkarte, ist über den Bus 158 mit der Southbridge 135 verbunden. Der Audioschaltkreis 160 stellt auch Funktionen bereit, die der Audio-Hardware zugehörig sind, zum Beispiel den Audioeingang- und optischen digitalen Audioeingang-Anschluss 162, den optischen digitalen Ausgang und Kopfhöreranschluss 164, die internen Lautsprecher 166 und das interne Mikrofon 168. Der Ethernet-Controller 170 ist mittels eines Busses, zum Beispiel des PCI- oder PCI-Express-Busses, mit der Southbridge 135 verbunden. Der Ethernet-Controller 170 verbindet das Informationsverarbeitungssystem 100 mit einem Computernetzwerk, zum Beispiel einem lokalen Netzwerk (LAN), dem Internet und anderen öffentlichen und privaten Computernetzwerken.
1 zeigt zwar eine Form von Informationsverarbeitungssystem, aber ein Informationsverarbeitungssystem kann viele Formen annehmen. Zum Beispiel kann ein Informationsverarbeitungssystem die Form eines Desktop-Computers, eines Servers, eines tragbaren Computers, eines Laptops, eines Notebooks oder eines anderen Computers oder Datenverarbeitungssystems mit einem anderen Formfaktor haben. Darüber hinaus kann ein Informationsverarbeitungssystem auch in anderen Formen vorliegen, zum Beispiel als elektronischer Assistent (PDA, personal digital assistant), als Spieleinheit, als Geldautomat (ATM, automated teller machine), als tragbare Telefoneinheit, als Datenübertragungseinheit oder als andere Einheiten, die einen Prozessor und einen Hauptspeicher umfassen.
2 stellt eine Erweiterung der in 1 dargestellten Umgebung eines Informationsverarbeitungssystems bereit, um zu veranschaulichen, dass die hier beschriebenen Verfahren auf einer großen Vielfalt von Informationsverarbeitungssystemen durchgeführt werden können, die in einer vernetzten Umgebung betrieben werden. Arten von Informationsverarbeitungssystemen reichen von kleinen Handheld-Einheiten wie der Handheld-Computer/das Mobiltelefon 210 bis hin zu großen Großrechnersystemen wie der Großrechner 270. Zu Beispielen für Handheld-Computer 210 gehören elektronische Assistenten (PDAs), persönliche Unterhaltungseinheiten wie MP3-Abspielgeräte (Moving Picture Experts Group Layer-3 Audio player), tragbare Fernsehgeräte und Kompaktspeicherplatte-Abspielgeräte (compact disc player). Zu weiteren Beispielen für Informationsverarbeitungssysteme gehören ein Stift- oder Tablet-Computer 220, Laptop- oder Notebook-Computer 230, Workstation 240, Personal-Computer-System 250 und Server 260. Andere Arten von Informationsverarbeitungssystemen, die in 2 nicht einzeln dargestellt sind, werden durch das Informationsverarbeitungssystem 280 repräsentiert. Wie dargestellt, können die verschiedenen Informationsverarbeitungssysteme mittels Computernetzwerk 200 miteinander vernetzt werden. Zu Arten von Computernetzwerken, die zum Verbinden der verschiedenen Informationsverarbeitungssysteme verwendet werden können, gehören lokale Netzwerke (LAN), drahtlose lokale Netzwerke (WLAN), das Internet, das öffentliche Telefonnetz (PSTN, public switched telephone network), andere drahtlose Netzwerke und jede andere Netzwerktopologie, die zum Verbinden der Informationsverarbeitungssysteme verwendet werden kann. Viele der Informationsverarbeitungssysteme umfassen nichtflüchtige Datenspeicher, wie Festplatten und/oder nichtflüchtige Hauptspeicher. Die in 2 dargestellte Ausführungsform des Informationsverarbeitungssystems umfasst separate nichtflüchtige Datenspeicher (insbesondere nutzt der Server 260 den nichtflüchtigen Datenspeicher 265, der Großrechner 270 den nichtflüchtigen Datenspeicher 275 und das Informationsverarbeitungssystem 280 den nichtflüchtigen Datenspeicher 285). Bei dem nichtflüchtigen Datenspeicher kann es sich um eine Komponente handeln, die sich außerhalb der verschiedenen Informationsverarbeitungssysteme befindet, oder um eine interne Komponente eines der Informationsverarbeitungssysteme. Darüber hinaus kann die wechselbare nichtflüchtige Speichereinheit 145 mittels verschiedener Techniken von zwei oder mehr Informationsverarbeitungssystemen gemeinsam genutzt werden, zum Beispiel indem die wechselbare nichtflüchtige Speichereinheit 145 an einen USB-Anschluss oder einen anderen Anschluss der Informationsverarbeitungssysteme angeschlossen wird.
Wie bereits erläutert, beruhen bisherige Dokumentenverarbeitungssysteme darauf, dass sie zuverlässig Texte extrahieren, den Textinhalt verstehen und den Kontext des Dokuments erfassen. Wenn jedoch eine Unternehmensanforderung darin besteht, Millionen von Dokumenten aus verschiedenen Quellen zu skalieren, sogar innerhalb desselben Kontexts (z.B. Finanzdokumente), können die bisherigen Dokumentenverarbeitungssysteme keine angemessene Leistung erbringen, da die verschiedenen Dokumentenstrukturen im Kontext nicht konsistent sind (z.B. unterschiedliche Organisation, unterschiedliche Zeilen/Spalten-Felder usw.). Es besteht daher Bedarf an einem Dokumentenverarbeitungssystem, das kontextfrei ist (d.h. sich nicht auf den Kontext des Dokuments stützt) und zuverlässig über mehrere Dokumente/Dokumenttypen hinweg skaliert.
Handelsübliche OCR-Maschinen extrahieren Text aus Dokumenten oder Bildern in angemessener Auflösung. Bei den OCR-Maschinen geht jedoch die Dokumentenstruktur verloren (z.B. ist „5345“ eine Rechnungsnummer, eine Telefonnummer, ein Dollarbetrag usw.), so dass der extrahierte Text für eine Datenanalyse unbrauchbar ist. Viele Problemstellungen in Unternehmen erfordern ebenfalls ein Verständnis der Dokumentenstruktur, damit die Extraktion sinnvoll ist, zum Beispiel bei Rechnungen, Lebensläufen, Bestellungen, Tickets usw. Heutige Dokumentenverarbeitungssysteme erfordern einen Lern- oder Trainingsprozess, der wiederum ein Skalieren des Extraktionsprozesses erschwert. Außerdem sind jedes Dokument und seine Quelle in ihrer Struktur einzigartig (z.B. verschiedene Lieferantenrechnungen). Folglich ist der Lernprozess anhand eines Satzes von Beispieldokumenten bei einer großen Anzahl von Dokumenten mit unterschiedlicher Struktur oft nicht zuverlässig.
Die 3 bis 10 zeigen einen Ansatz, der ein Dokument in ein Bitmapbild digitalisiert und das Bitmapbild auf der Grundlage eines Identifizierens der Struktur des Dokuments durch Fourier-Transformationen rekursiv in Bildsegmente zerlegt. Der Ansatz beruht nicht auf einem Verstehen des Inhalts eines Dokuments, sondern behandelt ein Dokument als Bitmapbild und extrahiert die zugrunde liegende Struktur des Dokuments, um das Dokumentbild zu zerlegen. In diesem Ansatz werden die zerlegten Bildsegmente dann einem Texterkennungssystem bereitgestellt, das die Bildsegmente mittels Standard-OCR-Techniken für eine äußerst zuverlässige Extraktion analysiert. Der Ansatz erhöht die Zuverlässigkeit durch ein Entfernen von Hintergründen (homogene Hintergründe) und ein Setzen für jedes zerlegte Bildsegment, das dem Originaldokument entspricht. Wie hier beschrieben, handelt es sich bei einem Texterkennungssystem um ein System, das den in einem Bild enthaltenen Text erkennt.
Wie hier erläutert, weist der Ansatz (i) Folgendes auf: Messen von zusammengefassten Intensitätssignalen eines Dokument-Bitmapbildes und einer Dokumentstandardisierung; (ii) Verwenden einer lokalisierten Fourier-Transformation, um das Frequenzspektrums des Dokuments zu schätzen und Teile des Bildes mit niedriger Frequenz (geringe Änderung der Bitmapwerte zwischen Zeilen/Spalten) und hoher Frequenz (hohe Änderung der Bitmapwerte zwischen Zeilen/Spalten) zu analysieren; (iii) Verwenden eines auf dem Fourier-Spektrum beruhenden Entscheidungsbaum-Trennverfahrens, um Bilder in Bildsegmente mit unzusammenhängendem Informationsgehalt zu zerlegen; (iv) Verwenden eines auf einem Entscheidungsbaum beruhenden Verfahrens zum Beenden der Zerlegung, um eine Überzerlegung zu vermeiden; und (v) Abbilden des zerlegten Dokuments auf eine Matrix von Zellen (z.B. Tabellenkalkulation).
3 zeigt eine beispielhafte Darstellung eines Computersystems 320, das das Dokument 310 zu einem Bitmapbild 340 digitalisiert und das Bitmapbild 340 rekursiv in Bildsegmente 360 zerlegt, die in das Texterkennungssystem 370 eingegeben werden. Wie hier erläutert, verbessert das Computersystem 320 heutige kognitive Digitalisierungsprodukte durch Bereitstellen von (i) einem automatischen, skalierbaren, kontextfreien Extrahieren einer Dokumentstruktur; (ii) einem zuverlässigen Extrahieren von Text aus Dokument 310 mit variablen Hintergründen innerhalb desselben Dokuments (überwindet das Mittelwertverhalten bekannter Textextraktionsprogramme); und (iii) einem farblichen Abstufen und zuverlässigen Arbeiten mit Quelldokumenten von schlechter Qualität unabhängig von der Dokumentsprache.
Das Computersystem 320 ruft das Dokument 310 aus dem Dokumentenspeicher 300 ab. Bei dem Dokument 310 kann es sich zum Beispiel um eine Rechnung handeln, wie in 4 dargestellt. Das Computersystem 320 erzeugt mittels des Bitmapgenerators 330 ein schwarz-weißes Bitmapbild 340 des Dokuments 310. In einer Ausführungsform standardisiert der Bitmapgenerator 330 die Pixelintensitäten des Bitmapbildes vor der Verarbeitung durch die rekursive Zerlegung 350 (siehe 6 und den entsprechenden Text für weitere Ausführungen).
Die rekursive Zerlegung 350 fasst die standardisierten Pixelwerte pro Zeile/Spalte zu Zeilensummenwerten (RSVs, row sum values) und Spaltensummenwerten (CSVs, column sum values) zusammen. Die rekursive Zerlegung 350 gruppiert dann die Zeilensummenwerte zu einem Zeilensummensignal; gruppiert die Spaltensummenwerte zu einem Spaltensummensignal; und wendet eine lokalisierte Fourier-Transformation (z.B. eine Kurzzeit-Fourier-Transformation (STFT, Short-Time Fourier Transform)) auf das Zeilensummensignal und das Spaltensummensignal an, um Frequenzdarstellungen des Zeilensummensignals und des Spaltensummensignals zu erzeugen (siehe 6, 8 und den entsprechenden Text für weitere Ausführungen).
Die rekursive Zerlegung 350 beschneidet die Ränder (entfernt z.B. weiße Ränder) und schneidet das Bild auf der Grundlage von den Ergebnissen der lokalisierten Fourier-Transformation in zwei Bildsegmente 360. Die rekursive Zerlegung 350 zerlegt die Bildsegmente 360 rekursiv, bis die Bildsegmente 360 eine Größe erreichen, bei der sie nicht mehr weiter zerlegt werden können, woraufhin die Bildsegmente 360 zur weiteren Verarbeitung an das Texterkennungssystem 370 gesendet werden.
Zum Beispiel kann das Texterkennungssystem 370 auf jedes der Bildsegmente 360 eine individuelle optische Zeichenerkennung (OCR, optical character recognition) anwenden. Somit weist das Texterkennungssystem 370 einen Vorteil gegenüber herkömmlichen OCR-Maschinen auf, da das Texterkennungssystem 370 durch ein individuelles Anwenden von OCR auf jedes der Bildsegmente 360 Informationen zuverlässiger extrahiert, da jede Komponente des zerlegten Dokuments einen homogenen Hintergrund und Schriftsatz aufweist. Darüber hinaus unterstützt der hier erläuterte Ansatz das Texterkennungssystem 370 dabei, Assoziationsregeln zu ermitteln, ohne den einzelnen Attributen eine Bedeutung zuweisen zu müssen. Zum Beispiel kann das Texterkennungssystem 370 eine Assoziationsregel ermitteln, die besagt, dass eine Zahl, die einer Überschrift „Rechnungsnummer“ entspricht, immer in derselben Zelle wie die Überschrift oder in der Zelle rechts von der Zelle oder in der Zelle unter der betreffenden Zelle steht.
4 zeigt eine beispielhafte Darstellung eines Rechnungsdokuments, das mittels des hier erläuterten Ansatzes zerlegt werden kann. Dokument 310 ist eine Rechnung, die verschiedene Mengen an Informationen umfasst. Dokument 310 kann eine andere Dokumentstruktur aufweisen als zuvor ausgewertete Rechnungen, was für den hier erläuterten Ansatz irrelevant ist, da das Computersystem 320 jedes Dokument einzeln auf der Grundlage von dessen Dokumentstruktur und nicht dem Kontext im Dokument zerlegt (siehe 5 und den entsprechenden Text für weitere Ausführungen).
5 zeigt eine beispielhafte Darstellung eines Bitmapbildes, das in Bildsegmente zerlegt wurde. Wie in 3 dargestellt, erzeugt der Bitmapgenerator 330 aus dem Dokument 310 ein Bitmapbild 340. Die rekursive Zerlegung 350 erzeugt ihrerseits die Bildsegmente 360. 5 zeigt Details der Bildsegmente 360, die dem in 4 dargestellten Dokument 310 entsprechen, d.h. die Bildsegmente 500, 510, 520, 530, 540, 550 und 560.
Wie hier erläutert, führt die rekursive Zerlegung 350 Schritte zur weiteren Zerlegung des Bildsegments durch, wenn ein erster Durchgang einer Bildzerlegung ein Bildsegment erzeugt, das weiter zerlegt werden kann. So zerlegt die rekursive Zerlegung 350 das Bildsegment 560 bei nachfolgenden rekursiven Zerlegungen (eine oder mehrere) in separate Bildsegmente 565, 570, 575, 580 und 590 (siehe 6, 7 und den entsprechenden Text für weitere Ausführungen).
6 zeigt einen beispielhaften Ablaufplan, der die Schritte zum Umwandeln eines Dokuments in ein Bitmapbild und zum rekursiven Zerlegen des Bitmapbildes in Bildsegmente darstellt. Der Verarbeitungsprozess beginnt in Schritt 600, woraufhin in Schritt 610 ein Dokument abgerufen und in ein Schwarz/Weiß-Bitmapbild umgewandelt wird. In Schritt 620 standardisiert der Prozess die Pixelintensitäten des Schwarz/Weiß-Bitmapbildes. An diesem Punkt wird in einer Ausführungsform jedes Pixel entweder durch eine „1“ (schwarzes Pixel) oder eine „0“ (weißes Pixel) dargestellt.
In Schritt 625 fasst der Prozess die standardisierten Pixelwerte pro Zeile/Spalte zu Zeilensummenwerten (RSV) und Spaltensummenwerten (CSV) zusammen. Wenn eine Zeile zum Beispiel 1.000 Pixel umfasst, beträgt die Zeilensumme für eine schwarze Linie die Summe von 1.000 mal „1“ = 1.000 und die Zeilensumme für eine weiße Fläche die Summe von 1.000 mal „0“ = 0. In Schritt 635 gruppiert der Prozess die Zeilensummenwerte zu einem Zeilensummensignal und die Spaltensummenwerte zu einem Spaltensummensignal (siehe 8 und den entsprechenden Text für weitere Ausführungen).
In Schritt 635 wendet der Prozess eine lokalisierte Fourier-Transformation auf das Zeilensummensignal und das Spaltensummensignal an. In einer Ausführungsform verwendet der Prozess eine Kurzzeit-Fourier-Transformation (STFT) als lokalisierte Fourier-Transformation: $X_{m} (ω) = \sum_{n = - \infty}^{\infty} x (n) w (n - m R) e^{- j ω n}$
bei welcher:

x(n) = Eingangssignal zum Zeitpunkt n
w(n) = Länge M Fensterfunktion (z.B. Hamming-Fenster)
Xm(w) = DTFT (Discrete Time Fourier Transform, Fouriertransformation für zeitdiskrete Signale) der gefensterten Daten, zentriert um den Zeitpunkt mR
R = Sprungweite in Stichproben zwischen aufeinanderfolgenden DTFTs

In dieser Ausführungsform ist die Fensterlänge M im Allgemeinen für ein Dokument festgelegt und wird in der Regel auf ein Vielfaches des Zeilenabstands gesetzt. Der Zeilenabstand wird abgeleitet, indem die Fensterlänge langsam erhöht wird, bis ein Höchstwert eines reinen Nullfrequenzsignals erreicht wird. Eine große Fensterlänge stellt mehr DTFT-Punkte bereit und führt zu einer höheren Frequenzauflösung, aber auch zu einer geringeren zeitlichen Präzision. Eine geringe Fensterlänge stellt mehr Zeitabschnitte und eine höhere zeitliche Präzision bereit, führt aber auch zu einer schlechten Frequenzauflösung.
In Schritt 640 beschneidet der Prozess die Ränder (z.B. weiße Ränder), um Nullfrequenzsignale mit einer maximalen Spanne zu entfernen. Nullfrequenzsignale entsprechen einem zusammenhängenden Abschnitt von Zeilen mit denselben Zeilen/Spalten-Summenwerten (z.B. Zeile 1 RSV = 1.000, Zeile 2 RSV = 1.000...). In Schritt 650 schneidet der Prozess das Bild an einer Trennstelle von Nullfrequenzsignalen in zwei Bildsegmente, d.h. in Bereiche, deren benachbarte Zeilen/Spalten-Werte sich nicht ändern (z.B. Leerstellen). Bei mehreren Nullfrequenzsignalen wählt der Prozess in einer Ausführungsform die Trennstelle des Nullfrequenzsignals mit der längsten Spanne aus. In Schritt 660 stapelt (speichert) der Prozess die beiden Bildsegmente in den Stapelspeicher 665, registriert ihre relativen Positionen und löscht das übergeordnete Bild.
Im vordefinierten Prozess 670 werden die Bildsegmente analysiert, um zu ermitteln, ob eines der Bildsegmente oder beide für ein weiteres Zerlegen in Frage kommen (siehe 7 und den entsprechenden Text für Verarbeitungsdetails). In Schritt 675 entnimmt der Prozess die Bildsegmente, die nicht weiter zerlegt werden können, und markiert sie im Registerspeicher 680.
Der Prozess ermittelt auf der Grundlage von den Ergebnissen aus 670, ob es weitere Bildsegmente gibt, die weiter zerlegt werden können (Entscheidung 685). Wenn es Bildsegmente gibt, die für ein weiteres Zerlegen geeignet sind, zweigt die Entscheidung 685 in den „Ja“-Zweig ab, woraufhin der Prozess in Schritt 690 die Pixelwerte eines der für ein weiteres Zerlegen identifizierten Bildsegmente zu Zeilen/Spalten-Summenwerten zusammenfasst. Der Prozess verarbeitet dann die Zeilen/Spalten-Summenwerte gemäß den Schritten 630 bis 675, wie oben erläutert.
Diese Schleife wird so lange fortgesetzt, bis keines der Bildsegmente mehr für ein weiteres Zerlegen geeignet ist; dann zweigt die Entscheidung 685 in den „Nein“-Zweig ab und beendet die Schleife. Das Verarbeiten in 6 endet danach bei 695.
7 zeigt einen beispielhaften Ablaufplan, der die Schritte für ein Auswerten darstellt, ob Bildsegmente rekursiv zerlegt werden sollen. Die Prozessverarbeitung beginnt in Schritt 700, woraufhin in Schritt 710 das erste Bildsegment im Stapelspeicher 665 ausgewählt wird. Die im Folgenden erläuterten Schritte werten das Histogramm des Zeilensummensignals (RSS, row sum signal) des ausgewählten Bildsegments aus, um dessen Zeilenabstand und Schriftgröße zu identifizieren, was als Kriterium zum Beenden dient, damit die Bilder nicht zu „dünn“ zerlegt werden. Wenn ein Bild zu dünn zerlegt wird, erscheint zum Beispiel das Zeichen „I“ als schwarze Linie, wenn die Bildhöhe annähernd der Schriftgröße entspricht, was zu einer Aufspaltung des Bildes an dem Zeichen führt.
In Schritt 720 wertet der Prozess das Zeilensummensignal- (RSS-) Histogramm des ausgewählten Bildsegments aus und ermittelt die Spannweiten von Nullfrequenzsignalen. In einer Ausführungsform trennt der Prozess das in 6 erzeugte RSS-Histogramm an der Trennstelle in zwei Histogramme, um die beiden auszuwertenden Bildsegmente darzustellen. Zum Beispiel entspricht das RSS-Histogramm 900 in 9 dem Bildsegment 510 und zeigt mehrere Nullfrequenzsignal-Spannen (x-Achsenwert 25 bis 60, 145-155, 180-200 usw.). In Schritt 730 wertet der Prozess das RSS-Histogramm des ausgewählten Bildsegments aus und ermittelt die Spannweiten von Nicht-Nullfrequenzsignalen (z.B. Spannen zwischen Nullfrequenzsignalen). Zum Beispiel zeigt das RSS-Histogramm 900 in 9 mehrere Nicht-Nullfrequenz-Zeilensignalspannen (x-Achsenwert 60-80, 156-175 usw.).
Der Prozess ermittelt, ob die Höhe des ausgewählten Bildsegments einer minimalen linearen Verknüpfung von einer Nullfrequenzsignal-Spannweite und einer Nicht-Nullfrequenzsignal-Spannweite ähnlich ist (Entscheidung 740). Die minimale lineare Verknüpfung an einem bestimmten Punkt ist der Abstand zwischen den Textzeilen (Zeilenabstand) und der minimalen Nicht-Nullfrequenzsignal-Spannweite (Schriftgröße). In einer Ausführungsform fügt der Prozess einen „Höhenpuffer“ hinzu, um sicherzustellen, dass die Höhe des Bildsegments nicht auf eine Größe reduziert wird, die der Schriftgröße nahekommt. Zum Beispiel kann der Prozess die folgende Regel zum Beenden verwenden: „Bildaufspaltung beenden, wenn Bildhöhe < 1,5 * minimale Nullfrequenzsignal-Spannweite + 1 * minimale Spannweite zwischen zwei aufeinanderfolgenden Nullfrequenzsignal-Spannweiten (Nicht-Nullfrequenzsignal-Spannen)“.
Wenn die Höhe des ausgewählten Bildsegments eine ähnliche Größe aufweist wie eine lineare Verknüpfung von einer minimalen Nullfrequenzsignal-Spannweite und einer minimalen Nicht-Nullfrequenz-Zeilensignalspanne, dann zweigt die Entscheidung 740 in den „Ja“-Zweig ab, woraufhin der Prozess in Schritt 750 das ausgewählte Bildsegment als eine vollständige Bildsegmentzerlegung markiert.
Wenn die Höhe des ausgewählten Bildsegments hingegen keine ähnliche Größe aufweist wie eine lineare Verknüpfung von einer minimalen Nullfrequenzsignal-Spannweite und einer minimalen Nicht-Nullfrequenz-Zeilensignalspanne, dann zweigt die Entscheidung 750 in den „Nein“-Zweig ab.
Der Prozess ermittelt, ob es in der jeweiligen Analyserunde weitere Bildsegmente zu analysieren gibt (Entscheidung 760). Wenn weitere Bildsegmente zu analysieren sind, zweigt die Entscheidung 760 in den „Ja“-Zweig ab, der in einer Schleife zurückkehrt, um das nächste Bildsegment auszuwählen und zu verarbeiten. Diese Schleife wird so lange fortgesetzt, bis in der jeweiligen Analyserunde keine Bildsegmente mehr zu analysieren sind; dann zweigt die Entscheidung 760 in den „Nein“-Zweig ab und beendet die Schleife. Das Verarbeiten in 7 kehrt anschließend bei 795 zur aufrufenden Routine (siehe 6) zurück.
8 zeigt eine beispielhafte Darstellung von verschiedenen Zeichnungen, die das Zerlegen von Bitmapbildern beschreiben. Zeichnung 800 zeigt eine grafische Ansicht, wie die rekursive Zerlegung 350 Werte von Bitmapbildern zu Zeilensummenwerten 810 und Spaltensummenwerten 820 zusammenfasst. Bei jedem der Zeilensummenwerte 810 handelt es sich um eine Zusammenfassung der Pixelwerte in ihren entsprechenden Zeilen. Ebenso handelt es sich bei jedem der Spaltensummenwerte 820 um eine Zusammenfassung der Pixelwerte in ihrer entsprechenden Spalte. Die in Zeichnung 800 dargestellten Werte dienen der Erläuterung und stimmen nicht mit den tatsächlichen Werten des Bitmapbildes 340 überein.
Die rekursive Zerlegung 350 verknüpft dann die Zeilensummenwerte 810 zu einem Zeilensummensignal (RSS) 815, das wie hier erläutert in eine lokalisierte Fourier-Transformation eingegeben wird, um eine Frequenzdarstellung der Unterschiede zwischen den Zeilensummenwerten 810 zu erzeugen, die im RSS-Histogramm 830 dargestellt und unten erläutert wird. In ähnlicher Weise verknüpft die rekursive Zerlegung 350 die Spaltensummenwerte 820 zu einem Spaltensummensignal (CSS, column sum signal) 825, das in eine hier erläuterte lokalisierte Fourier-Transformation eingegeben wird, um eine Frequenzdarstellung der Unterschiede zwischen den Spaltensummenwerten 820 zu erzeugen, die im unten erläuterten CSS-Histogramm 855 gezeigt wird.
Das RSS-Histogramm 830 zeigt die Nullfrequenzbereiche 835 und 840, die den oberen und unteren Bitmap-Randbereichen (Rändern) im Dokument 310 entsprechen, die in Schritt 640 (6) beschnitten werden. Der Bereich 845 zeigt mehrere hohe Balken, die den horizontalen Linien im Dokument 310 entsprechen. Bereich 850 zeigt einen Nullfrequenzbereich, der einem Bereich zwischen der letzten horizontalen Linie nach der Zeile „Total“ (Gesamtsumme) und den Allgemeinen Geschäftsbedingungen am unteren Rand des Dokuments 310 entspricht (siehe 4).
Das CSS-Histogramm 855 zeigt die Nullfrequenzbereiche 860 und 870, die den linken und rechten Bitmap-Randbereichen (Rändern) im Dokument 310 entsprechen, die in Schritt 640 (6) beschnitten werden. Der Bereich 880 zeigt mehrere hohe Balken, die den vertikalen Linien im Dokument 310 entsprechen. Auf der Grundlage von den zeitlichen Histogrammen 800 und 850 zerlegt die rekursive Zerlegung 350 das Bitmapbild 340 entsprechend in die Bildsegmente 360. Zum Beispiel kann die rekursive Zerlegung 350 eine Trennstelle in der Mitte des Bereichs 850 auswählen, um das Bitmapbild zu zerteilen. 9 zeigt eine weitere Analyse eines der Bildsegmente 360.
9 zeigt eine beispielhafte Darstellung eines Bildsegments 510 und der zeitlichen Histogramme 900 und 950, die durch Anwenden einer Fourier-Transformation auf das Bildsegment 510 erzeugt werden. Das Bildsegment 510 ist, wie hier erläutert, durch Zerlegen des Bitmapbildes 340 entstanden. Die rekursive Zerlegung 350 wendet eine lokalisierte Fourier-Transformation auf das dem Bildsegment 510 entsprechende Zeilensummensignal und Spaltensummensignal an und erzeugt ein RSS-Histogramm 900 und ein CSS-Histogramm 950.
Das RSS-Histogramm 900 entspricht der Höhe des Bildes 510 und zeigt hohe Balken 910, 920 und 930, die den horizontalen Linien im Bildsegment 510 entsprechen. Auf der Grundlage von RSS-Histogramm 900 stellt die rekursive Zerlegung 350 fest, dass das Bildsegment 510 auf der Grundlage von den hohen Balken 910, 920 und 930 wie hier erläutert vertikal weiter zerlegbar ist.
Das CSS-Histogramm 950 bezieht sich auf die Breite des Bildes 510 und zeigt einen hohen Balken 960 und einen Nullfrequenzbereich 970, der einer vertikalen Linie an der Position 0 bzw. einem leeren Bereich zwischen den Positionen 375 und 500 entspricht. Auf der Grundlage von dem zeitlichen Histogramm 950 stellt die rekursive Zerlegung 350 fest, dass das Bildsegment 510 vertikal nicht weiter zerlegbar ist.
10 zeigt eine beispielhafte Darstellung einer zeitlichen Spektraldarstellung 1000 eines Bildsegments mit dem Dokumentenraum (dargestellt als Zeit) entlang der Breite (X-Achse), den Frequenzkomponenten entlang der Höhe (Y-Achse) und dem Ausmaß der Frequenz oder der Intensität entlang der Größe (Z-Achse). In einer Ausführungsform besteht die Spektraldarstellung 1000 aus einer Kurzzeit-Fourier-Transformation (STFT) von einer Verknüpfung von Signalen, zum Beispiel einem Zeilensummensignal (RSS) und einem Spaltensummensignal (CSS).
Zwar wurden bestimmte Ausführungsformen der vorliegenden Offenbarung dargestellt und beschrieben, doch wird es für den Fachmann offensichtlich sein, dass auf der Grundlage von hierin enthaltenen Lehren Änderungen und Modifikationen vorgenommen werden können, ohne von dieser Offenbarung und ihren allgemeineren Aspekten abzuweichen. Daher sollen die beigefügten Ansprüche in ihrem Umfang alle Änderungen und Modifikationen umfassen, die in den Umfang dieser Offenbarung fallen. Der Fachmann wird verstehen, dass, wenn eine bestimmte Anzahl eines eingeführten Anspruchselements beabsichtigt ist, diese Absicht ausdrücklich im Anspruch aufgeführt wird, und dass ohne eine solche Angabe keine solche Beschränkung vorliegt. Als nicht einschränkendes Beispiel und zum besseren Verständnis werden in den folgenden beigefügten Ansprüchen die einleitenden Ausdrücke „mindestens eins“ und „eins oder mehrere“ verwendet, um Anspruchselemente einzuführen. Die Verwendung solcher Ausdrücke sollte jedoch nicht dahingehend ausgelegt werden, dass die Einführung eines Anspruchselements durch die unbestimmten Artikel „ein“ oder „eine“ einen bestimmten Anspruch, der ein auf diese Weise eingeführtes Anspruchselement enthält, auf Offenbarungen beschränkt, die nur ein solches Element enthalten, selbst wenn derselbe Anspruch die einleitenden Ausdrücke „eins oder mehrere“ oder „mindestens eins“ und unbestimmte Artikel wie „ein“ oder „eine“ umfasst; dies gilt auch für die Verwendung von bestimmten Artikeln in den Ansprüchen.

Claims

Verfahren zum Verarbeiten eines Dokuments, wobei das Verfahren aufweist: Umwandeln eines Dokuments in ein Bitmapbild, das das Dokument als einen Satz von Pixelwerten darstellt; Zusammenfassen eines Satzes von Pixelwerten aus einem Bitmapbild zu einem Satz von Zeilensummenwerten und einem Satz von Spaltensummenwerten; Anwenden einer lokalisierten Fourier-Transformation auf den Satz von Zeilensummenwerten und den Satz von Spaltensummenwerten, um einen Satz von Frequenzdarstellungen für den Satz von Zeilensummenwerten und den Satz von Spaltensummenwerten zu erzeugen; Zerlegen des Bitmapbilds in einen Satz von Bildsegmenten auf der Grundlage von mindestens einer in dem Satz von Frequenzdarstellungen identifizierten Trennstelle; und Senden des Satzes von Bildsegmenten an ein Texterkennungssystem.
Verfahren nach Anspruch 1, das ferner aufweist: Verknüpfen des Satzes von Zeilensummenwerten zu einem Zeilensummensignal; Verknüpfen des Satzes von Spaltensummenwerten zu einem Spaltensummensignal; und Anwenden der lokalisierten Fourier-Transformation auf das Zeilensummensignal, um eine Zeilenfrequenzdarstellung zu erzeugen, und Anwenden der lokalisierten Fourier-Transformation auf das Spaltensummensignal, um eine Spaltenfrequenzdarstellung zu erzeugen.
Verfahren nach Anspruch 1 oder 2, das ferner aufweist: Identifizieren eines Nullfrequenzbereichs in der Zeilenfrequenzdarstellung, wobei der Nullfrequenzbereich keiner Änderung in einer Teilmenge des Satzes von Zeilensummenwerten zwischen benachbarten Zeilen in dem Bitmapbild entspricht; und Auswählen der Trennstelle innerhalb des Nullfrequenzbereichs.
Verfahren nach Anspruch 1, 2 oder 3, wobei das Verfahren vor dem Zerlegen ferner aufweist: Identifizieren eines ersten Satzes von Nullfrequenzbereichen in der Spaltenfrequenzdarstellung, die einem ersten Satz von Bitmap-Randbereichen des Bitmapbildes entsprechen; Identifizieren eines zweiten Satzes von Nullfrequenzbereichen in der Zeilenfrequenzdarstellung, die einem zweiten Satz von Bitmap-Randbereichen des Bitmapbildes entsprechen; und Entfernen des ersten Satzes von Bitmap-Randbereichen und des zweiten Satzes von Bitmap-Randbereichen aus dem Bitmapbild.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Satz von Bildsegmenten ein erstes Bildsegment und ein zweites Bildsegment aufweist, wobei das Verfahren ferner aufweist: Zusammenfassen einer Teilmenge von Pixelwerten aus dem ersten Bildsegment in eine Teilmenge von Zeilensummenwerten und eine Teilmenge von Spaltensummenwerten; Anwenden der lokalisierten Fourier-Transformation auf die Teilmenge von Zeilensummenwerten und die Teilmenge von Spaltensummenwerten, um eine Teilmenge von Frequenzdarstellungen zu erzeugen; und rekursives Zerlegen des ersten Bildsegments in ein drittes Bildsegment und ein viertes Bildsegment auf der Grundlage von mindestens einer anderen Trennstelle, die in der Teilmenge von Frequenzdarstellungen identifiziert wurde.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Satz von Frequenzdarstellungen eine Zeilenfrequenzdarstellung aufweist, die dem Satz von Zeilensummenwerten entspricht, und wobei der Satz von Bildsegmenten ein erstes Bildsegment und ein zweites Bildsegment aufweist, wobei das Verfahren ferner aufweist: Auswerten eines Teils der Zeilenfrequenzdarstellung, der dem ersten Bildsegment entspricht; Identifizieren, anhand des Auswertens, einer minimalen linearen Verknüpfung von einer Nullfrequenzsignal-Spannweite und einer Nicht-Nullfrequenzsignal-Spannweite; Ermitteln, ob die minimale lineare Verknüpfung nahe einer Höhe des ersten Bildsegments liegt; und Beenden des Zerlegens des ersten Bildsegments als Reaktion auf ein Feststellen, dass die minimale lineare Verknüpfung nahe einer Höhe des ersten Bildsegments liegt.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist: Anwenden einer optischen Zeichenerkennung durch das Texterkennungssystem auf jeden Satz von Bildsegmenten, um einen Satz von Textsegmenten zu erzeugen, wobei jedes Textsegment in dem Satz von Textsegmenten einem der Bildsegmente entspricht.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Umwandeln des Dokuments aufweist: Umwandeln des Dokuments in ein Schwarz/Weiß-Bild, das einen Satz von Pixelintensitäten aufweist; und Standardisieren des Satzes von Pixelintensitäten, um den Satz von Pixelwerten des Bitmapbildes zu erzeugen.
Informationsverarbeitungssystem, das aufweist: einen oder mehrere Prozessoren; einen Hauptspeicher, der mit mindestens einem der Prozessoren verbunden ist; einen Satz von Computerprogrammanweisungen, die im Hauptspeicher gespeichert sind und von mindestens einem der Prozessoren ausgeführt werden, um ein Dokument durch Ausführen folgender Aktionen zu verarbeiten: Umwandeln eines Dokuments in ein Bitmapbild, das das Dokument als einen Satz von Pixelwerten darstellt; Zusammenfassen eines Satzes von Pixelwerten aus einem Bitmapbild zu einem Satz von Zeilensummenwerten und einem Satz von Spaltensummenwerten, wobei es sich bei dem Bitmapbild um eine gepixelte Darstellung eines Dokuments handelt; Anwenden einer lokalisierten Fourier-Transformation auf den Satz von Zeilensummenwerten und den Satz von Spaltensummenwerten, um einen Satz von Frequenzdarstellungen für den Satz von Zeilensummenwerten und den Satz von Spaltensummenwerten zu erzeugen; Zerlegen des Bitmapbilds in einen Satz von Bildsegmenten auf der Grundlage von mindestens einer in dem Satz von Frequenzdarstellungen identifizierten Trennstelle; und Senden des Satzes von Bildsegmenten an ein Texterkennungssystem.
Informationsverarbeitungssystem nach Anspruch 9, wobei die Prozessoren zusätzliche Aktionen durchführen, die aufweisen: Verknüpfen des Satzes von Zeilensummenwerten zu einem Zeilensummensignal; Verknüpfen des Satzes von Spaltensummenwerten zu einem Spaltensummensignal; und Anwenden der lokalisierten Fourier-Transformation auf das Zeilensummensignal, um eine Zeilenfrequenzdarstellung zu erzeugen, und Anwenden der lokalisierten Fourier-Transformation auf das Spaltensummensignal, um eine Spaltenfrequenzdarstellung zu erzeugen.
Informationsverarbeitungssystem nach Anspruch 9 oder 10, wobei die Prozessoren zusätzliche Aktionen durchführen, die aufweisen: Identifizieren eines Nullfrequenzbereichs in der Zeilenfrequenzdarstellung, wobei der Nullfrequenzbereich keiner Änderung in einer Teilmenge des Satzes von Zeilensummenwerten zwischen benachbarten Zeilen in dem Bitmapbild entspricht; und Auswählen der Trennstelle innerhalb des Nullfrequenzbereichs.
Informationsverarbeitungssystem nach Anspruch 9, 10 oder 11, wobei die Prozessoren vor dem Zerlegen zusätzliche Aktionen durchführen, die aufweisen: Identifizieren eines ersten Satzes von Nullfrequenzbereichen in der Spaltenfrequenzdarstellung, die einem ersten Satz von Bitmap-Randbereichen des Bitmapbildes entsprechen; Identifizieren eines zweiten Satzes von Nullfrequenzbereichen in der Zeilenfrequenzdarstellung, die einem zweiten Satz von Bitmap-Randbereichen des Bitmapbildes entsprechen; und Entfernen des ersten Satzes von Bitmap-Randbereichen und des zweiten Satzes von Bitmap-Randbereichen aus dem Bitmapbild.
Informationsverarbeitungssystem nach einem der Ansprüche 9 bis 12, wobei der Satz von Bildsegmenten ein erstes Bildsegment und ein zweites Bildsegment aufweist, und wobei die Prozessoren zusätzliche Aktionen durchführen, die aufweisen: Zusammenfassen einer Teilmenge von Pixelwerten aus dem ersten Bildsegment in eine Teilmenge von Zeilensummenwerten und eine Teilmenge von Spaltensummenwerten; Anwenden der lokalisierten Fourier-Transformation auf die Teilmenge von Zeilensummenwerten und die Teilmenge von Spaltensummenwerten, um eine Teilmenge von Frequenzdarstellungen zu erzeugen; und rekursives Zerlegen des ersten Bildsegments in ein drittes Bildsegment und ein viertes Bildsegment auf der Grundlage von mindestens einer anderen Trennstelle, die in der Teilmenge von Frequenzdarstellungen identifiziert wurde.
Informationsverarbeitungssystem nach einem der Ansprüche 9 bis 13, wobei der Satz von Frequenzdarstellungen eine Zeilenfrequenzdarstellung aufweist, die dem Satz von Zeilensummenwerten entspricht, und wobei der Satz von Bildsegmenten ein erstes Bildsegment und ein zweites Bildsegment aufweist, wobei die Prozessoren zusätzliche Aktionen durchführen, die aufweisen: Auswerten eines Teils der Zeilenfrequenzdarstellung, der dem ersten Bildsegment entspricht; Identifizieren, anhand des Auswertens, einer minimalen linearen Verknüpfung von einer Nullfrequenzsignal-Spannweite und einer Nicht-Nullfrequenzsignal-Spannweite; Ermitteln, ob die minimale lineare Verknüpfung nahe einer Höhe des ersten Bildsegments liegt; und Beenden des Zerlegens des ersten Bildes als Reaktion auf ein Feststellen, dass die minimale lineare Verknüpfung nahe einer Höhe des ersten Bildsegments liegt.
Informationsverarbeitungssystem nach einem der Ansprüche 9 bis 14, wobei die Prozessoren zusätzliche Aktionen durchführen, die aufweisen: Anwenden einer optischen Zeichenerkennung durch das Texterkennungssystem auf jeden Satz von Bildsegmenten, um einen Satz von Textsegmenten zu erzeugen, wobei jedes Textsegment in dem Satz von Textsegmenten einem der Bildsegmente entspricht.
Computerprogrammprodukt, das in einem durch einen Computer lesbaren Speichermedium gespeichert ist und einen Computerprogrammcode aufweist, der, wenn er durch ein Informationsverarbeitungssystem ausgeführt wird, das Informationsverarbeitungssystem veranlasst, Aktionen durchzuführen, die aufweisen: Umwandeln eines Dokuments in ein Bitmapbild, das das Dokument als einen Satz von Pixelwerten darstellt; Zusammenfassen eines Satzes von Pixelwerten aus einem Bitmapbild zu einem Satz von Zeilensummenwerten und einem Satz von Spaltensummenwerten; Anwenden einer lokalisierten Fourier-Transformation auf den Satz von Zeilensummenwerten und den Satz von Spaltensummenwerten, um einen Satz von Frequenzdarstellungen für den Satz von Zeilensummenwerten und den Satz von Spaltensummenwerten zu erzeugen; Zerlegen des Bitmapbilds in einen Satz von Bildsegmenten auf der Grundlage von mindestens einer in dem Satz von Frequenzdarstellungen identifizierten Trennstelle; und Senden des Satzes von Bildsegmenten an ein Texterkennungssystem.
Computerprogrammprodukt nach Anspruch 16, wobei das Informationsverarbeitungssystem weitere Aktionen durchführt, die aufweisen: Verknüpfen des Satzes von Zeilensummenwerten zu einem Zeilensummensignal; Verknüpfen des Satzes von Spaltensummenwerten zu einem Spaltensummensignal; und Anwenden der lokalisierten Fourier-Transformation auf das Zeilensummensignal, um eine Zeilenfrequenzdarstellung zu erzeugen, und Anwenden der lokalisierten Fourier-Transformation auf das Spaltensummensignal, um eine Spaltenfrequenzdarstellung zu erzeugen.
Computerprogrammprodukt nach Anspruch 16 oder 17, wobei das Informationsverarbeitungssystem weitere Aktionen durchführt, die aufweisen: Identifizieren eines Nullfrequenzbereichs in der Zeilenfrequenzdarstellung, wobei der Nullfrequenzbereich keiner Änderung in einer Teilmenge des Satzes von Zeilensummenwerten zwischen benachbarten Zeilen in dem Bitmapbild entspricht; und Auswählen der Trennstelle innerhalb des Nullfrequenzbereichs.
Computerprogrammprodukt nach Anspruch 16, 17 oder 18, wobei das Informationsverarbeitungssystem vor dem Zerlegen weitere Aktionen durchführt, die aufweisen: Identifizieren eines ersten Satzes von Nullfrequenzbereichen in der Spaltenfrequenzdarstellung, die einem ersten Satz von Bitmap-Randbereichen des Bitmapbildes entsprechen; Identifizieren eines zweiten Satzes von Nullfrequenzbereichen in der Zeilenfrequenzdarstellung, die einem zweiten Satz von Bitmap-Randbereichen des Bitmapbildes entsprechen; und Entfernen des ersten Satzes von Bitmap-Randbereichen und des zweiten Satzes von Bitmap-Randbereichen aus dem Bitmapbild.
Computerprogrammprodukt nach einem der Ansprüche 16 bis 19, wobei der Satz von Bildsegmenten ein erstes Bildsegment und ein zweites Bildsegment aufweist, wobei das Informationsverarbeitungssystem weitere Aktionen durchführt, die aufweisen: Zusammenfassen einer Teilmenge von Pixelwerten aus dem ersten Bildsegment in eine Teilmenge von Zeilensummenwerten und eine Teilmenge von Spaltensummenwerten; Anwenden der lokalisierten Fourier-Transformation auf die Teilmenge von Zeilensummenwerten und die Teilmenge von Spaltensummenwerten, um eine Teilmenge von Frequenzdarstellungen zu erzeugen; und rekursives Zerlegen des ersten Bildsegments in ein drittes Bildsegment und ein viertes Bildsegment auf der Grundlage von mindestens einer anderen Trennstelle, die in der Teilmenge von Frequenzdarstellungen identifiziert wurde.
Ein Computerprogramm, das Befehle aufweist, die, wenn das Programm von einem Computer ausgeführt wird, den Computer veranlassen, das Verfahren nach einem der Ansprüche 1 bis 8 auszuführen.