DE112021000371T5 - Digitale bildbearbeitung - Google Patents

Digitale bildbearbeitung Download PDF

Info

Publication number
DE112021000371T5
DE112021000371T5 DE112021000371.2T DE112021000371T DE112021000371T5 DE 112021000371 T5 DE112021000371 T5 DE 112021000371T5 DE 112021000371 T DE112021000371 T DE 112021000371T DE 112021000371 T5 DE112021000371 T5 DE 112021000371T5
Authority
DE
Germany
Prior art keywords
format
digital image
text
procedure
text cells
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021000371.2T
Other languages
English (en)
Inventor
Peter Staar
Michele Dolfi
Christoph Auer
Leonidas Georgopoulos
Konstantinos Bekas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112021000371T5 publication Critical patent/DE112021000371T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Abstract

Computergestütztes Verfahren zum Bearbeiten eines digitalen Bildes. Das digitale Bild weist eine oder mehrere Textzellen auf, wobei jede der einen oder mehreren Textzellen eine Zeichenfolge und eine Umrahmung aufweist. Das Verfahren weist ein Empfangen des digitalen Bildes in einem ersten Format auf, wobei das erste Format einen Zugriff auf die Zeichenfolgen und die Umrahmungen der einen oder mehreren Textzellen bereitstellt. Ferner weisen die Verfahren ein Codieren der Zeichenfolgen der einen oder mehreren Textzellen als visuelles Muster gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema und ein Bereitstellen des digitalen Bildes in einem zweiten Format auf. Das zweite Format weist das visuelle Muster der Zeichenfolgen der einen oder mehreren Textzellen auf. Es werden ein entsprechendes System und ein zugehöriges Computerprogrammprodukt bereitgestellt.

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein computergestütztes Verfahren zum Bearbeiten eines digitalen Bildes.
  • Weiterhin betrifft die vorliegende Erfindung ein entsprechendes System und ein entsprechendes Computerprogrammprodukt.
  • In Zeiten der massenhaften Datenverarbeitung stehen für die Datenanalyse äußerst viele elektronische Dokumente zur Verfügung, darunter digitale Bilder. Textdarstellungen kommen oft als Teil eines digitalen Bildes vor, z.B. in einem Foto oder einem gescannten Bild. Zum Beispiel kommt Text „sporadisch“ in Dokumenten vor, z.B. ein STOP-Schild im Straßenverkehr oder Textelemente, die wie z.B. in Dokumenten im Bitmap-Format von einem Scanner vorkommen.
  • Es gibt viele Anwendungsfälle, in denen solche digitalen Bilder analysiert und/oder bearbeitet werden können. Beispielsweise können Algorithmen für maschinelles Lernen (ML) auf solche Bilder angewendet werden, um eine Mehrzahl Aufgaben auszuführen. Zu solchen Aufgaben gehören das Klassifizieren des Bildinhaltes, das Segmentieren des Bildes und das Erkennen von Objekten und viele weitere.
  • Daher besteht allgemein ein Bedarf an verbesserten Verfahren zur Bildbearbeitung und Bildanalyse, insbesondere bei Anwendungen für maschinelles Lernen.
  • KURZDARSTELLUNG
  • Gemäß einer Ausführungsform wird die Erfindung als computergestütztes Verfahren zum Bearbeiten eines digitalen Bildes realisiert. Das digitale Bild weist eine oder mehrere Textzellen auf, wobei jede der einen oder mehreren Textzellen eine Zeichenfolge und eine Umrahmung aufweist. Das Verfahren weist ein Empfangen des digitalen Bildes in einem ersten Format auf, wobei durch das erste Format ein Zugriff auf die Zeichenfolgen und die Umrahmungen der einen oder mehreren Textzellen bereitgestellt wird. Weiterhin weist das Verfahren ein Codieren der Zeichenfolgen der einen oder mehrerer Textzellen als visuelle Muster gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema und ein Bereitstellen des digitalen Bildes in einem zweiten Format auf. Das zweite Format weist die visuellen Muster der Zeichenfolgen der einen oder mehrerer Textzellen auf.
  • Durch ein solches realisiertes Verfahren kann das visuelle Muster der digitalen Bilder des zweiten Formats mit weiteren oder wertvolleren Merkmalen angereichert werden. Hierdurch können die Bearbeitungs-Anwendung oder der Bearbeitungs-Algorithmus des digitalen Bildes mit Zusatzinformationen versorgt und somit die Leistungsfähigkeit des Bearbeitungs-Algorithmus beziehungsweise der Bearbeitungs-Vorrichtung verbessert werden.
  • Gemäß einer Ausführungsform ist das Zeichenfolgen-Codierungsschema so gestaltet, dass Merkmale der Zeichenfolge in natürlicher Sprache codiert werden. Bei solchen Merkmalen in natürlicher Sprache kann es sich allgemein um beliebige Merkmale der Zeichenfolge in natürlicher Sprache handeln. Gemäß Ausführungsformen können dadurch auch die Bedeutung des Textes oder seine sprachlichen Eigenheiten erfasst werden.
  • Gemäß einer Ausführungsform führt das computergestützte Verfahren mit dem digitalen Bild im zweiten Format eine Bildbearbeitungs-Anwendung aus. Die Bildbearbeitungs-Anwendung verwendet die in dem visuellen Muster der Bilder im zweiten Format codierten Informationen zum Verbessern der Leistungsfähigkeit der Bildbearbeitungs-Anwendung.
  • Gemäß einer Ausführungsform führt das computergestützte Verfahren mit dem digitalen Bild im zweiten Format eine Anwendung für maschinelles Lernen aus. Mit anderen Worten, die Bildbearbeitungs-Anwendung kann als Anwendung für maschinelles Lernen realisiert werden. Die Anwendung für maschinelles Lernen kann die in dem visuellen Muster der Bilder im zweiten Format codierten Informationen zum Verbessern der Leistungsfähigkeit des ML-Algorithmus verwenden. Gemäß Ausführungsformen können die Bedeutung des Textes oder dessen sprachliche Eigenheiten zur Verbesserung der Leistungsfähigkeit des ML-Algorithmus beitragen. Die entsprechenden Leistungskriterien hängen von der jeweiligen Aufgabe des ML-Algorithmus ab. Im Fall eines Klassifizierungs-Algorithmus kann dessen Klassifizierungs-Leistung z.B. robuster gestaltet werden.
  • Gemäß einer Ausführungsform handelt es sich bei der ML-Anwendung um Anwendungen für tiefe neuronale Netzwerke. Solche Anwendungen für tiefe neuronale Netzwerke, z.B. Anwendungen für faltende neuronale Netzwerke, können den durch die visuellen Muster bereitgestellten zusätzlichen Kontext auf vorteilhafte Weise nutzen.
  • Gemäß einer Ausführungsform können das digitale Bild im ersten Format und das digitale Bild im zweiten Format Pfade aufweisen, die entsprechende Pfadinformationen enthalten, wobei die Pfadinformationen Pfadkoordinaten aufweisen.
  • Gemäß einer Ausführungsform weist das Codieren der Zeichenfolgen ein Erzeugen einer Worteinbettung der Zeichenfolge und ein Erzeugen des visuellen Musters aus der Worteinbettung der Zeichenfolge auf. Gemäß einer Ausführungsform werden durch eine solche Worteinbettung Wörter oder Phrasen der Zeichenfolge auf Vektoren von realen Zahlen abgebildet. Eine Worteinbettung kann eine mathematische Einbettung aus einem Raum mit vielen Dimensionen pro Wort in einen kontinuierlichen Vektorraum mit einer wesentlich niedrigeren Dimension einbeziehen.
  • Gemäß einer Ausführungsform ist das vorgegebene Zeichenfolgen-Codierungsschema zum Codieren der Zeichenfolgen in Abhängigkeit vom prozentualen Anteil von Ziffern in der Zeichenfolge gestaltet. Dadurch kann wertvoller Kontext und Informationen zur Bildbearbeitungs-Anwendung bereitgestellt werden, insbesondere bei ML-Anwendungen.
  • Gemäß einer Ausführungsform weist das Verfahren ein Einfügen eines ersten visuellen Musters in die Umrahmung der Textzelle auf, wenn es sich bei einem vorgegebenen prozentualen Anteil der Zeichen in der Zeichenfolge um Ziffern handelt. Ansonsten fügt das Verfahren ein zweites visuelles Muster in die Umrahmung der Textzellen ein. Das erste visuelle Muster kann z.B. vertikale Linien aufweisen oder daraus bestehen, und das zweite visuelle Muster kann horizontale Linien aufweisen oder daraus bestehen oder umgekehrt. Dies ist ein leistungsfähiges Codierungsschema.
  • Gemäß einer anderen Ausführungsform kann das Verfahren ein Einfärben der Umrahmung der Textzelle mit einer ersten Farbe, wenn es sich bei einem vorgegebenen prozentualen Anteil der Zeichen in der Zeichenfolge um Ziffern handelt, und andernfalls ein Einfärben der Umrahmung der Textzelle mit einer zweiten Farbe aufweisen. Dies ist ein weiteres leistungsfähiges Codierungsschema.
  • Gemäß einer anderen Ausführungsform wird ein System zum Durchführen eines computergestützten Verfahrens zum Bearbeiten eines digitalen Bildes bereitgestellt. Das digitale Bild weist eine oder mehrere Textzellen auf, wobei jede der einen oder mehreren Textzellen eine Zeichenfolge und eine Umrahmung aufweist. Das System weist einen Prozessor und einen durch einen Computer lesbaren Speicher auf. Das System ist zum Durchführen eines Verfahrens gestaltet, das ein Empfangen des digitalen Bildes in einem ersten Format aufweist, wobei durch das erste Format ein Zugriff auf die Zeichenfolgen und Umrahmungen der einen oder mehreren Textzellen bereitgestellt wird. Das System ist ferner zum Durchführen eines Verfahrens ausgelegt, das ein Codieren der Zeichenfolgen der einen oder mehreren Textzellen als visuelle Muster entsprechend einem vorgegebenen Zeichenfolgen-Codierungsschema und ein Bereitstellen des digitalen Bildes in einem zweiten Format aufweist. Das zweite Format weist die visuellen Muster der Zeichenfolgen der einen oder mehreren Textzellen auf.
  • Gemäß einer anderen Ausführungsform wird ein Computerprogrammprodukt zum Bearbeiten eines digitalen Bildes durch ein System bereitgestellt, das einen Prozessor und einen durch einen Computer lesbaren Speicher aufweist. Das digitale Bild weist eine oder mehrere Textzellen auf, wobei jede der einen oder mehreren Textzellen eine Zeichenfolge und eine Umrahmung aufweist. Das Computerprogrammprodukt weist ein durch einen Computer lesbares Speichermedium mit darauf dargestellten Programmanweisungen auf, wobei die Programmanweisungen durch das System ausführbar sind, um das System zum Durchführen eines Verfahrens zu veranlassen, das ein Empfangen des digitalen Bildes in einem ersten Format aufweist. Durch das erste Format wird ein Zugriff auf die Zeichenfolgen und die Umrahmungen der einen oder mehreren Textzellen bereitgestellt. Das Verfahren weist ferner ein Codieren der Zeichenfolgen der einen oder mehreren Textzellen als visuelle Muster entsprechend einem vorgegebenen Zeichenfolgen-Codierungsschema und ein Bereitstellen des digitalen Bildes in einem zweiten Format auf. Das zweite Format weist die visuellen Muster der Zeichenfolgen der einen oder mehreren Textzellen auf.
  • Weitere Ausführungsformen betreffen ein computergestütztes Verfahren zum Trainieren einer Anwendung für maschinelles Lernen, ein kognitives Modell für eine Anwendung für maschinelles Lernen und ein computergestütztes Verfahren zum Bearbeiten eines digitalen Bildes unter Verwendung des kognitiven Modells.
  • Im Folgenden werden Ausführungsformen der Erfindung ausführlich anhand anschaulicher und nicht als Einschränkung aufzufassender Beispiele und unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
  • Figurenliste
    • 1 veranschaulicht ein computergestütztes Verfahren zum Bearbeiten von digitalen Bildern gemäß einer Ausführungsform der Erfindung;
    • 2a zeigt einen entsprechenden Ablaufplan des in 1 veranschaulichten Verfahrens;
    • 2b zeigt einen Ablaufplan eines Verfahrens zum Trainieren eines kognitiven Modells gemäß einer Ausführungsform der Erfindung;
    • 2c zeigt einen Ablaufplan eines Verfahrens zum Ausführen einer Anwendung für maschinelles Lernen gemäß einer Ausführungsform der Erfindung;
    • 3 zeigt ein schematisches Blockschaubild eines Datenverarbeitungssystems, das zum Durchführen der in den 1, 2a, 2b und 2c veranschaulichten computergestützten Verfahren verwendet werden kann;
    • 4 zeigt ein digitales Bildbearbeitungssystem gemäß einer Ausführungsform der Erfindung; 5a veranschaulicht ein Beispiel eines digitalen Bildes in einem ersten Format;
    • 5b zeigt eine Datei einer Seite, die Programminformationen des digitalen Bildes von 5a aufweist;
    • 5c veranschaulicht ein Beispiel eines digitalen Bildes in einem zweiten Format;
    • 6a veranschaulicht ein Beispiel eines digitalen Bildes in einem ersten Format;
    • 6b veranschaulicht ein Beispiel eines digitalen Bildes in einem zweiten Format;
    • 7a veranschaulicht ein weiteres Beispiel eines digitalen Bildes in einem ersten Format;
    • 7b veranschaulicht ein weiteres Beispiel eines digitalen Bildes in einem zweiten Format;
    • 8a veranschaulicht ein weiteres Beispiel eines digitalen Bildes in einem ersten Format;
    • 8b veranschaulicht ein weiteres Beispiel eines digitalen Bildes in einem zweiten Format;
    • 8c zeigt ein digitales Bild, das eine Anwendung zum visuellen Codieren für das Auffinden von Tabellen veranschaulicht;
    • 8d zeigt ein digitales Bild, das auch eine Anwendung zum visuellen Codieren für das Auffinden von Tabellen veranschaulicht;
    • 9a veranschaulicht ein anderes Beispiel eines digitalen Bildes in einem ersten Format;
    • 9b veranschaulicht ein Beispiel eines entsprechenden digitalen Bildes in einem zweiten Format; und
    • 10 zeigt eine detailliertere Ausführungsform des Servers von 3.
  • DETAILLIERTE BESCHREIBUNG
  • Unter Bezugnahme auf die 1 bis 10 werden einige allgemeine Begriffe von Ausführungsformen der Erfindung beschrieben.
  • Ein Programmdokument kann als Dokument definiert werden, in dem die Hauptkomponenten durch Code dargestellt sind. Zu solchen Programmdokumenten gehören z.B. Dokumente im PDF-Format (Portable Document Format) oder im Microsoft Word-Format. Ein Programmdokument kann allgemein als Dokument definiert werden, das seinem Wesen nach einem Programm, einem Ablaufplan oder einem Verfahren entspricht.
  • Bitmap-Dokumente, z.B. gescannte Dokumente, sind Dokumente, bei denen die Hauptkomponenten durch farbige Pixel in einem Bild dargestellt sind. Dazu gehören z.B. Dokumente im PNG-Format (Portable Netzwerks Graphic), im JPEG-Format (Joint Photographics Export Group) oder im TIF-Format (Tagged Image File Format).
  • Der Begriff Grundwahrheit kann allgemein Informationen betreffen, die durch direkte Beobachtung (d.h. empirischen Nachweis), nicht aber durch Deduktion gewonnen wurden. Auf dem Gebiet der Bildsegmentierung und Bildanalyse kann sich der Begriff insbesondere auf die korrekte Identität, Position, Größe und die korrekten Koordinaten der einzelnen Symbole, z.B. der Zeichen, sowie von Textzellen beziehen, die Wörter, Absätze oder Titel oder andere Layout-Informationen wie Informationen über Pfade und Bitmap-Ressourcen aufweisen.
  • Die Position und das Layout von Textzellen können durch Umrahmungen dargestellt werden. Zwar kann es sich bei Umrahmungen im Allgemeinen um einzelne Zeichen umschließende Rahmen eines betreffenden elektronischen Bildes handeln, jedoch soll sich der Begriff Umrahmung gemäß Ausführungsformen der vorliegenden Erfindung insbesondere auf Umrahmungen im weiteren Sinne oder, mit anderen Worten, auf Layout-Umrahmungen des Layouts der zu bearbeitenden Dokumente beziehen. Hierzu gehören spezielle Umrahmungen, die Textzellen markieren, die Wörter, Absätze, Titel oder Fußnoten von digitalen Bildern aufweisen.
  • 1 veranschaulicht ein computergestütztes Verfahren zum Bearbeiten von digitalen Bildern gemäß einer Ausführungsform der Erfindung. 2a zeigt einen entsprechenden Ablaufplan des in 1 veranschaulichten Verfahrens, und 3 zeigt ein schematisches Blockschaubild eines Datenverarbeitungssystems, das zum Durchführen des in den 1 und 2a veranschaulichten computergestützten Verfahrens verwendet werden kann.
  • 3 zeigt ein Datenverarbeitungssystem 300, das einen Server 310 aufweist, der zum Ausführen eines Anwendungsprogramms für maschinelles Lernen (MLAP) 311 und eines Trainingsprogramms für maschinelles Lernen UMLTP) 312 zum Trainieren des Anwendungsprogramms für maschinelles Lernen gestaltet ist. Bei dem Anwendungsprogramm für maschinelles Lernen 311 kann es sich insbesondere um ein Programm zur Bildbearbeitung handeln.
  • Der Server 310 ist mit einer Datenbank 320 verbunden. Die Datenbank 320 kann einen Speicher 321 zum Speichern einer Mehrzahl Eingabedokumente aufweisen, insbesondere einer Mehrzahl digitaler Bilder im ersten Format.
  • Ferner dient der Server 310 zum Ausführen eines Codierungsprogramms für Merkmale in natürlicher Sprache (NLFEP) 313. Das Codierungsprogramm für Merkmale in natürlicher Sprache 313 dient zum Umwandeln oder Konvertieren der digitalen Bilder im ersten Format in digitale Bilder im zweiten Format. Hierzu werden die Zeichenfolgen einer oder mehrerer Textzellen der digitalen Bilder im ersten Format als visuelle Muster entsprechend einem vorgegebenen Zeichenfolgen-Codierungsschema codiert, was Im Folgenden ausführlich beschrieben wird.
  • Das System 300 weist außerdem eine Scan-Einheit 330 auf. Die Scan-Einheit kann sowohl eine Scan- als auch eine Druck-Funktionalität bereitstellen. Somit kann die Scan-Einheit 330 auch als Scan-/Druck-Einheit bezeichnet werden. Ferner weist das System 300 eine Benutzereinheit 340 auf. Die Benutzereinheit 340 weist einen Bildschirm und Benutzer-Eingabemittel wie beispielsweise eine Tastatur auf, um einem Benutzer des Systems 300 eine Benutzer-Oberfläche bereitzustellen. Die Benutzereinheit 340 kann insbesondere eine Anwendungs-Programmierschnittstelle (API) 341 aufweisen, die dazu dient, eine Schnittstelle für die auf dem Server 310 ausgeführten Programme 311, 312 und 313 bereitzustellen.
  • Der Server 310, die Scan-Einheit 330 und die Benutzereinheit 340 sind mit einem Netzwerk 350 verbunden und können über das Netzwerk 350 Daten untereinander austauschen. Das Netzwerk 350 kann als lokales Netzwerk (LAN), als allgemeines Weitverkehrs-Netzwerk (WAN) und/oder als öffentliches Netzwerk (z.B. das Internet) gestaltet sein.
  • Gemäß den 1 und 2a beginnt das Verfahren in Block 201. In Block 201 wird ein Satz Eingabedokumente 110 in einem ersten Format bereitgestellt. Der Satz Eingabedokumente 110 kann insbesondere als Satz digitaler Bilder in einem ersten Format vorliegen. Der Satz Eingabedokumente kann in dem Speicher 321 der Datenbank 320 gespeichert sein, und der Satz Eingabedokumente kann z.B. über das Netzwerk 350 empfangen werden.
  • In 1 ist zur vereinfachten Darstellung nur ein Eingabedokument 110 gezeigt. Das in 1 gezeigte Eingabedokument liegt zwar als mehrseitiges Dokument vor, jedoch kann es sich bei dem Eingabedokument im Allgemeinen auch um ein einseitiges Dokument, d.h. um ein einseitiges digitales Bild, handeln. Bei dem Beispiel von 1 weist das Eingabedokument 110 drei Dokumentseiten 110a, 110b und 110c, genauer gesagt, drei digitale Bilder 110a, 110b und 110c auf. Jedes der digitalen Bilder 110a, 110b und 110c weist eine oder mehrere Textzellen und jede der einen oder mehreren Textzellen eine Zeichenfolge und eine Umrahmung auf.
  • Das Eingabedokument 110 wird in einem ersten Format bereitgestellt. Gemäß Ausführungsformen kann es sich bei dem ersten Format um ein Programmdaten-Format handeln. Wie oben erwähnt, kann ein solches Programmdaten-Format als Datenformat definiert sein, das die Hauptkomponenten des Eingabedokuments 110, insbesondere vorgegebene Objekte des Eingabedokuments 110 wie die Textzellen und Pfade, darstellt oder definiert. Bei dem ersten Format handelt es sich um ein Format, das einen Zugriff auf die Zeichenfolgen und die Umrahmungen der einen oder mehreren Textzellen erlaubt, z.B. durch syntaktisches Gliedern der Dokumente im ersten Format.
  • Gemäß Ausführungsformen kann es sich insbesondere um ein Format nach dem PDF-Standard handeln, insbesondere nach einer Version des Standards ISO 32000-X der International Standard Association. Gemäß anderen Ausführungsformen kann es sich bei dem ersten Format um ein Format entsprechend dem Java Script Object Notification Data Interchange Format handeln, insbesondere nach einer der Spezifikationen von Douglas Crockford, z.B. RFC 8259, oder einer der Spezifikationen von ECMA, z.B. ECMA 404, oder einer der Spezifikationen von der International Standards Association, z.B. ISO/IEC 21778:2017. Gemäß noch anderen Ausführungsformen kann es sich bei dem ersten Format um ein Format entsprechend der durch das Worldwide Web Consortium entwickelten Hypertext Markup Language handeln, die insbesondere durch ISO/IEC 15445, W3C HTML 5, 3C HTML 4.0, W3C HTML 3.2 oder weitere Versionen standardisiert wurden. Gemäß noch anderen Ausführungsformen kann es sich bei dem ersten Format um ein Format entsprechend der YAML Ain't Markup Language handeln.
  • In Block 202 wird das Eingabedokument 110 z.B. durch das Anwendungsprogramm für maschinelles Lernen 311 oder ein Vorbearbeitungsprogramm in seine einzelnen Dokumentseiten 110a, 110b und 110c aufgeteilt.
  • In einem Block 203 nimmt das Anwendungsprogramm 311 eine syntaktische Gliederung der einzelnen Dokumentseiten 110a, 110b und 110c im ersten Format vor. Dazu gehört ein Erkennen eines vorgegebenen Satzes Objekte in jedem der einzelnen digitalen Bilder 110a, 110b und 110c, insbesondere ein Erkennen der einen oder mehreren Textzellen mit deren Umrahmungen und deren Zeichenfolgen. Das Ergebnis der syntaktischen Gliederung kann in den Dokumenten 130a, 130b und 130c bereitgestellt oder erfasst werden.
  • In einem Block 204 codiert das Codierungsprogramm 313 für Merkmale in natürlicher Sprache die Zeichenfolgen der einen oder mehreren Textzellen, die in dem Block 203 für syntaktische Gliederung gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema als visuelle Muster erkannt wurden. Dann können die visuellen Muster an den Positionen der entsprechenden Umrahmungen der betreffenden Textzellen in die digitalen Bilder eingefügt werden. Gemäß Ausführungsformen können die Umrahmungen der einen oder mehreren Textzellen mit den visuellen Mustern der entsprechenden Zeichenfolgen aufgewertet werden. Gemäß Ausführungsformen kann das Codierungsprogramm 313 für Merkmale in natürlicher Sprache über/die visuellen Muster den Umrahmungen der einen oder mehreren Textzellen überlagern/legen.
  • Die digitalen Bilder mit den visuellen Mustern erstellen oder bilden digitale Bilder 140a, 140b und 140c in einem zweiten Format, die in einem Block 205 (siehe 2a) zur weiteren Bearbeitung bereitgestellt werden.
  • Die digitalen Bilder 140a, 140b und 140c im zweiten Format können z.B. in dem Speicher 322 der Datenbank 320 gespeichert werden.
  • In 2b ist ein computergestütztes Verfahren zum Trainieren eines Anwendungsprogramms für maschinelles Lernen zur digitalen Bildbearbeitung gezeigt. Das in 2b gezeigte Verfahren wird z.B. durch das in 3 gezeigte Trainingsprogramm 312 für maschinelles Lernen durchgeführt.
  • In Block 211 wird z.B. durch das Trainingsprogramm 312 für maschinelles Lernen ein Satz Trainingsdaten empfangen. Der Satz Trainingsdaten weist digitale Bilder im zweiten Format auf.
  • In einem Block 212 trainiert das Trainingsprogramm 312 für maschinelles Lernen ein kognitives Modell des Anwendungsprogramms 311 für maschinelles Lernen mit dem Satz Trainingsdaten.
  • In einem Block 213 gibt das Trainingsprogramm 312 für maschinelles Lernen das trainierte kognitive Modell aus.
  • In 2c wird ein computergestütztes Verfahren 220 zum Ausführen einer Anwendung für maschinelles Lernen bereitgestellt. Das Verfahren kann z.B. durch das in 3 gezeigte Anwendungsprogramm 311 für maschinelles Lernen durchgeführt werden. Bei der Anwendung für maschinelles Lernen kann es sich insbesondere um eine Anwendung für tiefe neuronale Netzwerke handeln.
  • In Block 221 empfängt das Anwendungsprogramm 311 für maschinelles Lernen digitale Bilder im zweiten Format.
  • In einem Block 222 verwendet das Anwendungsprogramm 311 für maschinelles Lernen das trainierte kognitive Modell zum Ausführen der Anwendung für maschinelles Lernen, z.B. mit den 1 gezeigten digitalen Bildern 140a, 140b und 140c im zweiten Format.
  • In einem Block 223 gibt das Anwendungsprogramm 311 für maschinelles Lernen Ergebnisse der Anwendung für maschinelles Lernen aus, z.B. eine Klassifizierung der empfangenen digitalen Bilder oder der detektierten Objekte in den empfangenen Bildern 150a bis 150c.
  • Das in 2c gezeigte computergestützte Verfahren 220 richtet eine Deduktionsphase der Anwendung für maschinelles Lernen und dessen zugrundeliegenden Algorithmus ein.
  • In 4 ist ein digitales Bildbearbeitungssystem 400 gemäß einer Ausführungsform der Erfindung gezeigt. Das digitale Bildbearbeitungssystem 400 empfängt digitale Eingangsbilder, bearbeitet die digitalen Eingangsbilder und stellt digitale Ausgangsbilder als Ausgabe bereit. Bei den digitalen Eingangsbildern handelt es sich insbesondere um Bilder, die eine oder mehrere Textzellen aufweisen, wobei jede der einen oder mehreren Textzellen eine Zeichenfolge und eine Umrahmung umfasst. Die digitalen Eingangsbilder werden in einem ersten Format empfangen, insbesondere in einem Programmformat, das einen Zugriff auf die Textzellen und deren Zeichenfolgen und Umrahmungen bereitstellt.
  • Das digitale Bildbearbeitungssystem 400 weist einen Codierer 410 für Merkmale in natürlicher Sprache (NLF) auf, der zum Codieren der Zeichenfolgen der einen oder mehreren Textzellen gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema dient. Durch ein solches Codieren werden die digitalen Bilder im ersten Format in digitale Bilder in einem zweiten Format umgewandelt oder konvertiert.
  • Das digitale Bildbearbeitungssystem 400 weist ferner eine Anwendungseinheit 420 für maschinelles Lernen auf, die dazu dient, an oder mit den digitalen Bildern im zweiten Format ein Anwendungsprogramm für maschinelles Lernen (MLAP) auszuführen. Die Anwendungseinheit 420 für maschinelles Lernen stellt dann als Ausgabe die Ausgabebilder bereit.
  • Das digitale Bild im ersten Format und das digitale Bild im zweiten Format können Pfade aufweisen, die Informationen enthalten. Jede Pfadinformation kann Pfadkoordinaten umfassen.
  • 5a veranschaulicht ein Beispiel eines digitalen Bildes 500 im ersten Format, bei dem es sich insbesondere um ein Programmformat wie das PDF-Format handeln kann. Das digitale Bild 500 weist drei Textzellen 511, 512 und 513 auf. Die Textzelle 511 weist einen beispielhaften Text oder eine Zeichenfolge „Zeichenfolge 1“ sowie eine durch die Koordinaten (x0, y0) der linken unteren Ecke und die Koordinaten (x1, y1) der rechten oberen Ecke definierte Umrahmung auf. Die Koordinaten können z.B. in Bezug auf ein x-y-Koordinatensystem definiert sein, dessen Ursprung in der linken unteren Ecke des digitalen Bildes 500 liegt. Außerdem weist die Textzelle 512 den beispielhaften Text oder die Zeichenfolge „Zeichenfolge 2“ und die Textzelle 513 den beispielhaften Text oder die Zeichenfolge „Zeichenfolge3“ auf. Zusätzlich sind die beiden Textzellen 512 und 513 durch entsprechende Umrahmungen definiert, die wiederum durch die Koordinaten (x0, y0) der linken unteren Ecke und die Koordinaten (x1, y1) der rechten oberen Ecke definiert sind. Es wird darauf hingewiesen, dass die Koordinaten für die Umrahmungen zur einfacheren Veranschaulichung allgemein und einheitlich mit (x0, y0) für die linke untere Ecke und mit (x1, y1) für die rechte obere Ecke bezeichnet sind, wobei die Variablen x0, y0, x1 und y1 verschiedene reale Werte für die verschiedenen Umrahmungen darstellen.
  • Zusätzlich zu den Textzellen weist die Seite 500 einen Pfad 520 auf. Der Pfad 520 weist drei gerade Linien 521, 522 und 523 auf. Die gerade Linie 521 ist durch die Koordinaten (x0, y0) und x1, y1) definiert, die den Anfangspunkt und den Endpunkt der geraden Linie 521 bezeichnen, die gerade Linie 522 ist durch die Koordinaten (x1, y1) und (x2, y2) definiert, die den Anfangspunkt und den Endpunkt der geraden Linie 522 bezeichnen, und die gerade Linie 523 ist durch die Koordinaten (x2, y2) und (x3, x3) definiert, die den Anfangspunkt und den Endpunkt der geraden Linie 523 bezeichnen. Es wird darauf hingewiesen, dass die einzelne Dokumentseite 500 viele andere Elemente wie Bilder und Hintergründe aufweisen kann, die in 5 nicht gezeigt sind.
  • Gemäß Ausführungsformen kann das computergestützte Verfahren die inhaltlichen Informationen der Textzellen 511, 512 und 513 sowie des Pfades 520 in einer Seitendatei 550 gemäß 5b zusammenfassen. Eine solche Seitendatei 550 kann gemäß Ausführungsformen als erstes Format verwendet werden. Die Seitendatei 550 entspricht der syntaktisch gegliederten Version des digitalen Bildes 500 von 5a. In diesem Beispiel weist die einzelne Seitendatei 550 vier Linien 551 bis 554 auf, die jeweils Textinformationen über eines der vorgegebenen Objekte von 5a aufweisen.
  • Allgemein kann zum Definieren der Seitendatei jede geeignete Syntax verwendet werden. In diesem Beispiel wird durch die Zeichenfolge „Textzelle:“ definiert, dass Parameter einer Textzelle in nachfolgenden eckigen Klammern angegeben werden. Die rechteckigen Klammern weisen die Position der linken unteren und der rechten oberen Ecke der Umrahmung der Textzelle jeweils in runden Klammern auf, worauf nach der Zeichenfolge „Text=“ der Text in runden Klammern folgt. Entsprechende Beispiele für die Textzellen 511, 512 und 513 sind in den Linien 551, 552 beziehungsweise 553 bereitgestellt.
  • Außerdem wird durch die Zeichenfolge „Pfad:“ definiert, dass Parameter eines Pfades in nachfolgenden eckigen Klammern angegeben werden. Die eckigen Klammern weisen die Positionen der Verbindungspunkte oder Übergänge zwischen den Pfaden auf, anschließend folgen die Farbe nach der Zeichenfolge „Farbe =“ und die Breite des Pfades nach der Zeichenfolge „Breite =“.
  • Ein entsprechendes Beispiel für den Pfad 520 ist in der Linie 554 bereitgestellt.
  • Es wird darauf hingewiesen, dass das oben angegebene beispielhafte Format eine Mehrzahl weiterer oder anderer Syntaxelemente aufweisen kann, um die syntaktisch gegliederten und gekennzeichneten Objekte des digitalen Bildes im ersten Format zu definieren.
  • Gemäß Ausführungsformen kann als erstes Format das Java Script Object Notification Data Interchange-Format (JSON-Format) verwendet werden. Gemäß einer solchen Ausführungsform kann jede der Spezifikationen des JSON-Formats von Douglas Crockford, z.B. RFC 8259, oder jede der Spezifikationen des JSON-Formats von ECMA, z.B. ECMA 404 oder jede der Spezifikationen des JSON-Formats der International Standards Association, z.B. ISO/IEC 21778:2017, verwendet werden. Gemäß einer anderen Ausführungsform kann für das erste Format die Hypertext Markup Language verwendet werden, die vom Worldwide Web Consortium entwickelt und insbesondere durch ISO/IEC 15445, W3C HTML 5, 3C HTML 4.0, W3C HTML 3.2 oder weitere Versionen standardisiert wurde. Gemäß noch einer anderen Ausführungsform kann als erstes Format die YAML Ain't Markup Language verwendet werden.
  • 5c veranschaulicht ein Beispiel eines digitalen Bildes 570 in einem zweiten Format. Das Codierungsprogramm 313 für Merkmale in natürlicher Sprache hat die Zeichenfolgen der Textzellen 511, 512 und 513 entsprechend einem vorgegebenen Zeichenfolgen-Codierungsschema als visuelles Muster codiert. Das Zeichenfolgen-Codierungsschema gemäß dieser Ausführungsform verwendet in Abhängigkeit vom Inhalt der Zeichenfolge vertikale Linien als erstes visuelles Muster und horizontale Linien als zweites visuelles Muster. Beispielsweise kann das vertikale Muster verwendet werden, wenn es sich bei einem vorgegebenen prozentualen Anteil der Zeichen in der Zeichenfolge um Ziffern handelt, und das horizontale Muster kann für andere Fälle verwendet werden oder umgekehrt. In diesem Beispiel wird davon ausgegangen, dass die Zeichenfolgen „Zeichenfolge1“ und „Zeichenfolge3“ mehr als den vorgegebenen prozentualen Anteil an Ziffern aufweisen, z.B. mehr als 50 % Ziffern, und dass die Zeichenfolge „Zeichenfolge2“ weniger als den vorgegebenen prozentualen Anteil an Ziffern aufweist, z.B. weniger als 50 % Ziffern.
  • 6a veranschaulicht ein anderes Beispiel eines digitalen Bildes 610 in einem ersten Format. Das digitale Bild 610 weist eine Textzelle 611 auf, die eine Tabelle mit einer Mehrzahl Ziffern und einer entsprechenden Umrahmung aufweist, die durch die Koordinaten (x0, y0) der linken unteren Ecke und die Koordinaten (x1, y1) der rechten oberen Ecke definiert ist. Die Koordinaten können z.B. in Bezug auf ein x-y-Koordinatensystem definiert sein, dessen Ursprung in der linken unteren Ecke des digitalen Bildes 500 liegt. Weiterhin weist das digitale Bild 612 eine Textzelle 612 auf, die eine Zeichenfolge „Hallo Leute, wie geht's euch heute“ und eine entsprechend Umrahmung aufweist.
  • 6b veranschaulicht ein Beispiel eines entsprechenden digitalen Bildes 620 in einem zweiten Format. Das Codierungsprogramm 313 für Merkmale in natürlicher Sprache hat die Zeichenfolgen der Textzellen 611 und 612 gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema codiert. Das Zeichenfolgen-Codierungsschema gemäß dieser Ausführungsform verwendet in Abhängigkeit vom Inhalt der Zeichenfolge vertikale Linien als erstes visuelles Muster und horizontale Linien als zweites visuelles Muster. Genauer gesagt, ein vertikales Muster ist verwendet worden, wenn mehr als 50 % der Zeichen in den betreffenden Textfeldern aus Ziffern bestehen, und das horizontale Muster wird anderweitig verwendet. Demgemäß sind die Textzelle 611 mit einem Muster aus vertikalen Linien und die Textzelle 612 mit einem Muster aus horizontalen Linien ausgefüllt. Gemäß Ausführungsformen kann die Textzelle 611 in eine Mehrzahl Teilzellen aufgespaltet werden, die die einzelnen Zellen der Tabelle aufweisen, und das Zeichenfolgen-Codierungsschema kann einzeln und getrennt auf jede Teilzelle angewendet werden.
  • 7a veranschaulicht ein anderes Beispiel eines digitalen Bildes 710 in einem ersten Format. Das digitale Bild 710 weist eine Textzelle 11, die eine Tabelle mit einer Mehrzahl Ziffern aufweist, und eine entsprechende Umrahmung auf, die durch die Koordinaten (x0, y0) der linken unteren Ecke und die Koordinaten (x1, y1) der rechten oberen Ecke definiert ist. Außerdem weist das digitale Bild 710 eine Textzelle 12 auf, die eine Zeichenfolge „Hallo, Leute, wie geht's euch heute?“ und eine entsprechende Umrahmung aufweist.
  • 7b veranschaulicht ein Beispiel eines digitalen Bildes 720 in einem zweiten Format. Das Codierungsprogramm 313 für Merkmale in natürlicher Sprache hat die Zeichenfolgen der Textzellen 711 und 712 gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema codiert. Das Zeichenfolgen-Codierungsschema gemäß dieser Ausführungsform färbt die Umrahmung einer entsprechenden Textzelle mit einer ersten Farbe ein, wenn es sich bei einem vorgegebenen prozentualen Anteil der Zeichen in der Zeichenfolge um Ziffern handelt. Anderenfalls färbt sie die Umrahmung der Textzelle mit einer zweiten Farbe ein.
  • Bei diesem Beispiel hat das Codierungsprogramm 313 für Merkmale in natürlicher Sprache die Textzelle 711 mit einer roten Farbe als erste Farbe eingefärbt, was durch den breiten Rahmen der Textzelle 711 angezeigt wird, und die Textzelle 712 mit einer schwarzen Farbe eingefärbt, was durch einen relativ kleinen Rahmen der Textzelle 712 (der kleiner als der Rahmen der Textzelle 712 ist) angezeigt wird.
  • Gemäß Ausführungsformen kann das Zeichenfolgen-Codierungsschema anstelle verschiedener Farben verschiedene Rahmenbreiten der Umrahmungen verwenden, die der in 7b gezeigten Darstellung entsprechen.
  • 8a veranschaulicht ein anderes Beispiel eines entsprechenden digitalen Bildes 810 in einem ersten Format. Das digitale Bild 810 weist eine Textzelle 811 auf, die eine Tabelle mit einer Mehrzahl Teilzellen aufweist, wobei die Teilzellen verschiedene Zeichen aufweisen kann, darunter alphabetische Zeichen und Ziffern.
  • Außerdem weist das digitale Bild eine Textzelle 812 auf, die eine Zeichenfolge „Hallo, Leute, wie geht's euch heute?“ und eine entsprechende Umrahmung aufweist.
  • 8b veranschaulicht ein Beispiel eines digitalen Bildes 820 in einem zweiten Format. Das Codierungsprogramm 313 für Merkmale in natürlicher Sprache hat die Zeichenfolgen der Textzellen 811 und 812 gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema als visuelles Muster codiert. Gemäß dieser Ausführungsform wird das Zeichenfolgen-Codierungsschema getrennt auf jede einzelne Teilzelle der Tabelle 811 angewendet. Das Zeichenfolgen-Codierungsschema gemäß dieser Ausführungsform verwendet in Abhängigkeit vom Inhalt der Zeichenfolge in den Teilzellen vertikale Linien als erstes visuelles Muster und horizontale Linien als zweites visuelles Muster. Genauer gesagt, ein vertikales Muster ist verwendet worden, wenn es sich bei mehr als 50 % der Zeichen in der betreffenden Teilzelle um Ziffern handelte, und im Übrigen ist das horizontale Muster verwendet worden. Demgemäß weisen die Teilzellen der oberen Zeile und der linken Spalte, die alphabetische Zeichen aufweisen, ein horizontales Muster und die anderen Teilzellen, die Ziffern aufweisen, ein vertikales Muster auf.
  • 8c zeigt ein digitales Bild 830, das eine Anwendung des visuellen Codierens zum Erkennen von Tabellen z.B. durch eine Anwendung für maschinelles Lernen veranschaulicht. Genauer gesagt, das Anwendungsprogramm 311 für maschinelles Lernen von 3 kann das visuelle Codieren des digitalen Bildes 820 zum Erkennen von Tabellen verwenden. Tabellen können durch die Eigenschaft definiert sein, dass sie eine Mehrzahl Teilzellen haben, die durch das vertikale Muster visuell codierte Ziffern aufweisen, und wahlweise eine obere Zeile und eine linke Spalte mit alphabetischen Zeichen haben, die durch das horizontale Muster visuell codiert sind. Demgemäß kann das Anwendungsprogramm 311 für maschinelles Lernen die Tabelle visuell markieren, was in dem digitalen Bild 830 durch einen Stern 850 veranschaulicht ist.
  • 8d zeigt ein digitales Bild 840, das auch eine Anwendung des visuellen Codierens zum Erkennen von Tabellen z.B. durch eine Anwendung für maschinelles Lernen veranschaulicht. Gemäß diesem Beispiel hat das Anwendungsprogramm 311 für maschinelles Lernen die Tabelle 811 durch einen Rahmen 851 um die Tabelle 811 herum visuell markiert.
  • 9a veranschaulicht ein weiteres Beispiel eines digitalen Bildes 910 in einem ersten Format. Das digitale Bild 910 weist eine Textzelle 911, die eine Zeichenfolge „ABC112345“ aufweist, eine Textzelle 912, die eine Zeichenfolge „ABCDE13“ aufweist, und eine Textzelle 913 auf, die eine Zeichenfolge „ABCDE134kOMstuvnmm4789fg67XXX“ aufweist.
  • 9b veranschaulicht ein Beispiel eines entsprechenden digitalen Bildes 920 in einem zweiten Format. Das Codierungsprogramm 313 für Merkmale in natürlicher Sprache hat die Zeichenfolge der Textzellen 911, 912 und 913 gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema als visuelles Muster codiert. Das Zeichenfolgen-Codierungsschema gemäß dieser Ausführungsform verwendet ein vertikales Muster, wenn es sich bei mehr als 50 % der Zeichen in der betreffenden Teilzelle um Ziffern handelt, und im Übrigen ein horizontales Muster. Demgemäß sind die Textzelle 911 mit einem vertikalen Muster und die Textzellen 912 und 913 mit einem horizontalen Muster codiert.
  • In 10 ist eine detailliertere Ausführungsform des Servers 310 veranschaulicht. Der Server 310 kann mit anderen Datenverarbeitungssystemen, -Umgebungen oder -Konfigurationen zusammenarbeiten. Als Beispiel allgemein bekannter Datenverarbeitungssysteme, -Umgebungen und/oder Konfigurationen, die zur Verwendung mit dem Server 310 geeignet sein können, kommen infrage, ohne darauf beschränkt zu sein, Personal Computer-Systeme, Server Computer-Systeme, Thin Clients, Thick Clients, tragbare oder Laptop-Einheiten, Multiprozessorsysteme, Systeme auf der Grundlage von Mikroprozessoren, Set-Top-Boxen, programmierbare Heimelektronik, Netzwerk-PCs, Minicomputersysteme, Mainframe-Computersysteme und verteilte Cloud-Computing-Umgebungen, die eines der obigen Systeme oder Einheiten und dergleichen enthalten. Insbesondere arbeitet der Server 310 mit der Scan-Einheit 330 des Systems 300 und der Benutzereinheit 340 des Systems 300 gemäß 3 zusammen.
  • Der Server 310 kann im allgemeinen Zusammenhang mit durch ein Computersystem ausführbaren Anweisungen beschrieben werden, beispielsweise Programmmodulen, die durch ein Computersystem ausgeführt werden. Im Allgemeinen können Programmmodule Routinen, Programme, Objekte, Komponenten, Logik, Datenstrukturen und so weiter zum Ausführen bestimmter Aufgaben oder zum Verarbeiten bestimmter abstrakter Datentypen enthalten. Der Server 310 ist in Form einer Universal-Datenverarbeitungseinheit gezeigt. Als Komponenten des Servers 310 können infrage kommen, ohne darauf beschränkt zu sein, ein oder mehrere Prozessoren oder Verarbeitungseinheiten 1016, ein Systemspeicher 1028 und ein Bus 1018, der verschiedene Systemkomponenten miteinander verbindet, darunter den Systemspeicher 1028 mit einem Prozessor 1016.
  • Der Bus 1018 stellt einen oder mehrere beliebiger verschiedener Typen von Busstrukturen dar, darunter ein Speicherbus oder Speichercontroller, ein peripherer Bus, ein beschleunigter Grafikanschluss und ein Prozessor- oder lokaler Bus unter Verwendung einer aus einer Vielfalt an Busarchitekturen. Hierzu gehören beispielsweise, ohne darauf beschränkt zu sein, Architekturen wie der ISA-Bus (Industry Standard Architecture), der MCA-Bus (Micro Channel Architecture), der verbesserte ISA-Bus (EISA), der lokale VESA-Bus (Video Electronics Standards Association) und der PCI-Bus (Peripheral Component Interconnect).
  • Der Server 310 enthält üblicherweise eine Vielfalt an durch ein Computersystem lesbaren Medien. Bei solchen Medien kann es sich um beliebige verfügbare Medien handeln, auf die der Server 310 zugreifen kann, dazu gehören flüchtige sowie nichtflüchtige Medien, auswechselbare und nicht auswechselbare Medien.
  • Der Systemspeicher 1028 kann durch ein Computersystem lesbare Medien in Form eines flüchtigen Speichers wie beispielsweise eines Direktzugriffsspeichers (RAM) 1030 und/oder eines Cache 1032 enthalten. Ferner kann der Server 310 andere auswechselbare/nicht auswechselbare, flüchtige/nichtflüchtige Speichermedien eines Computersystems enthalten. Lediglich beispielhaft kann ein Speichersystem 1034 zum Lesen von einem nicht auswechselbaren, nichtflüchtigen magnetischen Medium (das nicht gezeigt ist und üblicherweise als „Festplattenlaufwerk“ bezeichnet wird) und zum Schreiben auf selbiges bereitgestellt werden. Nicht gezeigt ist, dass ein magnetisches Plattenlaufwerk zum Lesen von einer auswechselbaren, nichtflüchtigen magnetischen Platte (z.B. einer „Diskette“) und zum Schreiben auf selbige und ein optisches Plattenlaufwerk zum Lesen von einer austauschbaren, nichtflüchtigen optischen Platte wie einer CD-ROM, DVD-ROM oder anderen optischen Medien bereitgestellt werden können. In solchen Fällen kann jedes der Medien durch eine oder mehrere Daten-Medienschnittstellen mit dem Bus 1018 verbunden sein. Im Folgenden wird weiterhin gezeigt und beschrieben, dass der Speicher 1028 mindestens ein Programmprodukt mit einem Satz Programmmodule (z.B. mindestens einem) enthalten kann, die zum Ausführen der Funktionen der Ausführungsformen der Erfindung gestaltet sind.
  • Beispielsweise, ohne darauf beschränkt zu sein, können ein Programm/Dienstprogramm 1040 mit einem Satz Programmmodule 1042 (z.B. mindestens einem) sowie ein Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule und Programmdaten im Speicher 1028 gespeichert sein. Das Betriebssystem, ein oder mehrere Anwendungsprogramme, andere Programmmodule und Programmdaten oder einige deren Kombinationen können eine Ausführungsart einer Netzwerkumgebung enthalten. Die Programmmodule 1042 führen im Allgemeinen die Funktionen und/oder Verfahrensabläufe von hierin beschriebenen Ausführungsformen der Erfindung aus. Die Programmmodule 1042 können insbesondere einen oder mehrere Schritte von computergestützten Verfahren zum Bearbeiten digitaler Bilder gemäß Ausführungsformen der Erfindung ausführen, z.B. einen oder mehrere Schritte des unter Bezugnahme auf die entsprechenden Ablaufpläne in den 2a, 2b und/oder 2c beschriebenen Verfahrens. Die Programmmodule 1042 können insbesondere die unter Bezugnahme auf 3 beschriebenen Programme 311, 312 und 313 sowie die entsprechenden Ablaufpläne in den 2a, 2b und 2c umfassen.
  • Der Server 310 kann auch Daten mit einer oder mehreren externen Einheiten 1015 wie eine Tastatur, eine Zeigereinheit, ein Bildschirm 1024 usw.; eine oder mehreren Einheiten, die einem Benutzer ein Wechselwirken mit dem Server 310 ermöglichen; und/oder beliebige Einheiten (z.B. Netzwerkkarte, Modem usw.) austauschen, die es dem Server 310 ermöglichen, Daten mit einer oder anderen Datenverarbeitungseinheiten auszutauschen. Ein solches Austauschen von Daten kann über Eingabe-/Ausgabe- (E-/A-) Schnittstellen 1022 erfolgen. Weiterhin kann der Server 310 über einen Netzwerkadapter 1020 Daten mit einem oder mehreren Netzwerken wie einem lokalen Netzwerk (LAN) „einem allgemeinen Weitverkehrsnetzwerk (WAN) und/oder einem öffentlichen Netzwerk (z.B. dem Internet) austauschen. Der gezeigte Netzwerkadapter 1020 tauscht Daten über den Bus 1018 mit den anderen Komponenten des Servers 310 aus. Zwar ist dies nicht gezeigt, jedoch sollte klar sein, das in Verbindung mit dem Server 310 andere Hardware- und/oder Softwarekomponenten verwendet werden können. Als Beispiele kommen infrage, ohne darauf beschränkt zu sein: Mikrocode, Einheitentreiber, redundante Verarbeitungseinheiten, externe Plattenlaufwerk-Arrays, RAID-Systeme und Speichersysteme zur Datenarchivierung usw.
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine auswechselbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein auswechselbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Ausführungsformen der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor einer programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt umfasst, darunter Anweisungen, welche Ausführungsformen der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) umfassen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung sind zur Veranschaulichung vorgelegt worden, erheben jedoch nicht den Anspruch auf Vollständigkeit oder Einschränkung auf die offenbarten Ausführungsformen. Dem Fachmann sind viele Modifikationen und Varianten offensichtlich, ohne vom Schutzumfang und Wesensgehalt der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendeten Begriffe wurden gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber handelsüblichen Technologien bestmöglich zu erläutern oder anderen Fachleuten ein Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.

Claims (25)

  1. Verfahren, das aufweist: Empfangen eines digitalen Bildes in einem ersten Format, wobei das erste Format einen Zugriff auf Zeichenfolgen und Umrahmungen einer oder mehrerer Textzellen bereitstellt; Codieren der einen oder mehreren Textzellen gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema als visuelle Muster; und Bereitstellen des digitalen Bildes in einem zweiten Format, wobei das zweite Format die visuellen Muster der Zeichenfolgen der einen oder mehreren Textzellen aufweist.
  2. Verfahren nach Anspruch 1, wobei das Zeichenfolgen-Codierungsschema zum Codieren von Merkmalen in natürlicher Sprache der Zeichenfolge gestaltet ist.
  3. Verfahren nach Anspruch 1, wobei das Verfahren ferner ein Ausführen einer digitalen Bildbearbeitungsanwendung mit dem digitalen Bild im zweiten Format aufweist.
  4. Verfahren nach Anspruch 1, wobei das Verfahren ferner ein Ausführen einer Anwendung für maschinelles Lernen mit dem digitalen Bild im zweiten Format aufweist.
  5. Verfahren nach Anspruch 4, wobei es sich bei der Anwendung für maschinelles Lernen um eine Anwendung für tiefe neuronale Netzwerke handelt.
  6. Verfahren nach Anspruch 1, wobei das digitale Bild im ersten Format und das digitale Bild im zweiten Format Pfade mit entsprechenden darin enthaltenen Pfadinformationen aufweisen, wobei die Pfadinformationen Pfadkoordinaten aufweisen.
  7. Verfahren nach Anspruch 1, wobei das Verfahren ferner ein Aufwerten der Umrahmungen der einen oder mehreren Textzellen mit den visuellen Mustern der entsprechenden Zeichenfolgen aufweist.
  8. Verfahren nach Anspruch 1, wobei das Verfahren ferner ein Überlagern der visuellen Muster mit den Umrahmungen der einen oder mehreren Textzellen aufweist.
  9. Verfahren nach Anspruch 1, wobei das Codieren der Zeichenfolgen ein Erzeugen einer Worteinbettung der Zeichenfolge; und ein Erzeugen des visuellen Musters aus der Worteinbettung der Zeichenfolge aufweist.
  10. Verfahren nach Anspruch 1, wobei das vorgegebene Zeichenfolgen-Codierungsschema zum Codieren der Zeichenfolgen in Abhängigkeit vom prozentualen Anteil an Ziffern in der Zeichenfolge dient.
  11. Verfahren nach Anspruch 1, wobei das Verfahren ein Einfügen eines ersten visuellen Musters in die Umrahmung der Textzelle aufweist, wenn es sich bei einem vorgegebenen prozentualen Anteil der Zeichen in der Zeichenfolge um Ziffern handelt; und anderenfalls ein Einfügen eines zweiten visuellen Musters in die Umrahmung der Textzelle aufweist.
  12. Verfahren nach Anspruch 11, wobei das erste visuelle Muster vertikale Linien aufweist oder daraus besteht und das zweite visuelle Muster horizontale Linien aufweist oder daraus besteht; oder das erste visuelle Muster horizontale Linien aufweist oder daraus besteht und das zweite visuelle Muster vertikale Linien aufweist oder daraus besteht.
  13. Verfahren nach Anspruch 11, wobei das Verfahren ein Einfärben der Umrahmung der Textzelle mit einer ersten Farbe aufweist, wenn es sich bei einem vorgegebenen prozentualen Anteil der Zeichen in der Zeichenfolge um Ziffern handelt; und andernfalls ein Einfärben der Umrahmung der Textzelle mit einer zweiten Farbe aufweist.
  14. Verfahren nach Anspruch 1, wobei das digitale Bild im ersten Format Bitmap-Ressourcen und deren Umrahmungen aufweist.
  15. Verfahren nach Anspruch 14, wobei das Verfahren ferner ein Ausführen einer optischen Zeichenerkennung an den Bitmap-Ressourcen; ein Erkennen von Textzellen einschließlich ihrer Zeichenfolgen und ihrer Umrahmungen in den Bitmap-Ressourcen; und ein Codieren der Zeichenfolgen der Textzellen der Bitmap-Bilder gemäß dem vorgegebenen Zeichenfolgen-Codierungsschema als visuelle Muster aufweist.
  16. Verfahren nach Anspruch 1, wobei es sich bei dem ersten Format um ein Programmdaten-Format handelt.
  17. Verfahren nach Anspruch 1, wobei es sich bei dem ersten Format um ein Format nach einem PDF-Standard (Portable Document Format) handelt.
  18. Verfahren nach Anspruch 1, wobei das erste Format aus einer Gruppe ausgewählt wird, die aus: einem Java Script Object Notification Data Interchange-Format; einer Hypertext Markup Language; und einer YAML Ain't Markup Language besteht.
  19. Verfahren nach Anspruch 4, wobei die Anwendung für maschinelles Lernen zum Erkennen eines vorgegebenen Satzes Objekte innerhalb des digitalen Bildes gestaltet ist.
  20. Verfahren nach Anspruch 4, wobei die Anwendung für maschinelles Lernen zum Ausführen von Aufgaben gestaltet ist, die aus der Gruppe ausgewählt werden, die aus: einem Klassifizieren des digitalen Bildes und/oder von Elementen des digitalen Bildes auf der Grundlage der visuellen Muster der Textzellen; einem Erkennen von Tabellen in dem digitalen Bild; und einem Erkennen von Bildern in dem digitalen Bild besteht, die ein Seiten-Layout darstellen.
  21. System, das einen oder mehrere Prozessoren zum Ausführen durch einen Computer lesbarer Anweisungen aufweist, wobei die durch einen Computer lesbaren Anweisungen den einen oder mehrere Prozessoren steuern, um Operationen auszuführen, die: ein Empfangen eines digitalen Bildes in einem ersten Format, wobei das erste Format einen Zugriff auf Zeichenfolgen und Umrahmungen der einen oder mehreren Textzellen bereitstellt; ein Codieren der Zeichenfolge der einen oder mehreren Textzellen gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema als visuelle Muster; und ein Bereitstellen des digitalen Bildes in einem zweiten Format aufweisen, wobei das zweite Format die visuellen Muster der Zeichenfolgen der einen oder mehreren Textzellen aufweist.
  22. Computerprogrammprodukt, das ein durch einen Computer lesbares Speichermedium mit darin verkörperten Programmanweisungen aufweist, wobei die Programmanweisungen durch einen Prozessor ausführbar sind, um den Prozessor zum Ausführen von Operationen zu veranlassen, die: ein Empfangen eines digitalen Bildes in einem ersten Format, wobei das erste Format einen Zugriff auf Zeichenfolge und Umrahmungen der einen oder mehreren Textzellen bereitstellt; ein Codieren der Zeichenfolgen der einen oder mehreren Textzellen gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema als visuelle Muster; und ein Bereitstellen des digitalen Bildes in einem zweiten Format aufweisen, wobei das zweite Format die visuellen Muster der Zeichenfolgen der einen oder mehreren Textzellen aufweisen.
  23. Computerprogrammprodukt nach Anspruch 22, das ferner aufweist: Empfangen digitaler Bilder in einem zweiten Format, wobei das zweite Format visuelle Muster aufweist, die Zeichenfolgen einer oder mehrerer Textzellen gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema codieren; und Trainieren eines kognitiven Modells der Anwendung für maschinelles Lernen mit den digitalen Bildern im zweiten Format.
  24. Kognitives Modell für eine Anwendung für maschinelles Lernen, wobei das kognitive Modell auf einem durch einen Computer lesbaren permanenten Medium codiert ist, wobei die Anwendung für maschinelles Lernen zum Bearbeiten digitaler Bilder gestaltet ist, wobei die digitalen Bilder eine oder mehrere Textzellen aufweisen, wobei jede der einen oder mehreren Textzellen eine Zeichenfolge und eine Umrahmung aufweist, wobei das kognitive Modell zum Empfangen der digitalen Bilder in einem zweiten Format gestaltet ist, wobei das zweite Format visuelle Muster aufweist, die Zeichenfolgen einer oder mehrerer Textzellen gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema codieren.
  25. Verfahren zum Bearbeiten eines digitalen Bildes, wobei das Verfahren aufweist: Empfangen digitaler Bilder in einem zweiten Format durch ein kognitives Modell, wobei das zweite Format visuelle Muster aufweist, die Zeichenfolgen einer oder mehrerer Textzellen gemäß einem vorgegebenen Zeichenfolgen-Codierungsschema codieren.
DE112021000371.2T 2020-03-06 2021-01-27 Digitale bildbearbeitung Pending DE112021000371T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/811,490 2020-03-06
US16/811,490 US11495038B2 (en) 2020-03-06 2020-03-06 Digital image processing
PCT/IB2021/050612 WO2021176281A1 (en) 2020-03-06 2021-01-27 Digital image processing

Publications (1)

Publication Number Publication Date
DE112021000371T5 true DE112021000371T5 (de) 2022-11-03

Family

ID=77555780

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021000371.2T Pending DE112021000371T5 (de) 2020-03-06 2021-01-27 Digitale bildbearbeitung

Country Status (10)

Country Link
US (1) US11495038B2 (de)
JP (1) JP2023516119A (de)
KR (1) KR20220133913A (de)
CN (1) CN115210747B (de)
AU (1) AU2021229659B2 (de)
CA (1) CA3165086A1 (de)
DE (1) DE112021000371T5 (de)
GB (1) GB2608750A (de)
IL (1) IL294884A (de)
WO (1) WO2021176281A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
US11361146B2 (en) 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation
US11495038B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Digital image processing

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3714172A1 (de) 1986-04-28 1987-11-19 Hitachi Ltd Einrichtung zum durchsuchen von dokumenten in einem dokumentenablagesystem
JPH08227422A (ja) 1994-12-20 1996-09-03 Tamotsu Tonegawa 文字−図形パターン変換システム及び翻訳システム
US5818966A (en) 1995-01-23 1998-10-06 Ricoh Company, Ltd. Method and apparatus for encoding color information on a monochrome document
US5781785A (en) 1995-09-26 1998-07-14 Adobe Systems Inc Method and apparatus for providing an optimized document file of multiple pages
US6401097B1 (en) 1998-01-23 2002-06-04 Mccotter Thomas M. System and method for integrated document management and related transmission and access
US6981209B1 (en) 2000-09-26 2005-12-27 Microsoft Corporation Automatic layout of vertical flow oriented characters within a defined area
NZ536775A (en) 2002-05-20 2007-11-30 Tata Infotech Ltd Document structure identifier
US20040034455A1 (en) 2002-08-15 2004-02-19 Craig Simonds Vehicle system and method of communicating between host platform and human machine interface
US7502805B2 (en) 2003-08-21 2009-03-10 Microsoft Corporation Electronic ink processing
US7383500B2 (en) 2004-04-30 2008-06-03 Microsoft Corporation Methods and systems for building packages that contain pre-paginated documents
JP4466241B2 (ja) 2004-07-13 2010-05-26 株式会社日立製作所 文書処理手法及び文書処理装置
US7412647B2 (en) 2005-03-04 2008-08-12 Microsoft Corporation Method and system for laying out paginated content for viewing
US7543229B2 (en) 2005-04-14 2009-06-02 Hewlett-Packard Development Company, L.P. Analysis of graphic design material
US20070168382A1 (en) 2006-01-03 2007-07-19 Michael Tillberg Document analysis system for integration of paper records into a searchable electronic database
US8208725B2 (en) 2007-06-21 2012-06-26 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
JP4590433B2 (ja) 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
WO2009009757A1 (en) 2007-07-11 2009-01-15 Google Inc. Processing digitally hosted volumes
US9224041B2 (en) 2007-10-25 2015-12-29 Xerox Corporation Table of contents extraction based on textual similarity and formal aspects
US8135776B2 (en) 2008-11-24 2012-03-13 The Boeing Company System and method for scalable architecture for web-based collaborative annotation of page-based documents
CN102362274A (zh) 2009-03-24 2012-02-22 国际商业机器公司 方程的线性系统的处理
US10216708B2 (en) 2009-10-05 2019-02-26 Adobe Systems Incorporated Paginated viewport navigation over a fixed document layout
US8768067B2 (en) 2010-04-15 2014-07-01 Microsoft Corporation Accelerating bitmap remoting by identifying and extracting patterns from source bitmaps through parallel processing techniques
US20150199314A1 (en) 2010-10-26 2015-07-16 Google Inc. Editing Application For Synthesized eBooks
WO2014005609A1 (en) 2012-07-06 2014-01-09 Microsoft Corporation Paragraph alignment detection and region-based section reconstruction
CA2849560A1 (en) 2013-04-22 2014-10-22 Pierre Hamel Optical character recognition of text in an image according to a prioritized processing sequence
US9262380B2 (en) 2013-05-22 2016-02-16 International Business Machines Corporation Calculating node centralities in large networks and graphs
US10331976B2 (en) 2013-06-21 2019-06-25 Xerox Corporation Label-embedding view of attribute-based recognition
US11336648B2 (en) 2013-11-11 2022-05-17 Amazon Technologies, Inc. Document management and collaboration system
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9355313B2 (en) 2014-03-11 2016-05-31 Microsoft Technology Licensing, Llc Detecting and extracting image document components to create flow document
CN106294520B (zh) * 2015-06-12 2019-11-12 微软技术许可有限责任公司 使用从文档提取的信息来标识关系
AU2017200378A1 (en) * 2016-01-21 2017-08-10 Accenture Global Solutions Limited Processing data for use in a cognitive insights platform
US10824674B2 (en) 2016-06-03 2020-11-03 International Business Machines Corporation Label propagation in graphs
EP3267368B1 (de) 2016-07-06 2020-06-03 Accenture Global Solutions Limited Maschinenlern-bildverarbeitung
US20180075368A1 (en) 2016-09-12 2018-03-15 International Business Machines Corporation System and Method of Advising Human Verification of Often-Confused Class Predictions
US20180101726A1 (en) 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
US10089742B1 (en) 2017-03-14 2018-10-02 Adobe Systems Incorporated Automatically segmenting images based on natural language phrases
US20180300323A1 (en) 2017-04-17 2018-10-18 Lee & Hayes, PLLC Multi-Factor Document Analysis
CA3063738A1 (en) 2017-05-14 2018-11-22 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
US10726038B2 (en) * 2017-05-24 2020-07-28 MphasiS Limited System and method for optimizing aggregation and analysis of data across multiple data sources
US10482118B2 (en) 2017-06-14 2019-11-19 Sap Se Document representation for machine-learning document classification
US10628668B2 (en) * 2017-08-09 2020-04-21 Open Text Sa Ulc Systems and methods for generating and using semantic images in deep learning for classification and data extraction
US20190102674A1 (en) 2017-09-29 2019-04-04 Here Global B.V. Method, apparatus, and system for selecting training observations for machine learning models
CN110110258A (zh) 2018-02-01 2019-08-09 阿里巴巴集团控股有限公司 一种文字转换的方法、装置以及电子设备
GB201801627D0 (en) 2018-02-01 2018-03-21 Siemens Healthcare Ltd Image autoencoding for quantum machine learning
JP7013994B2 (ja) 2018-03-27 2022-02-01 コニカミノルタ株式会社 医用画像表示装置及びプログラム
CN108805258B (zh) 2018-05-23 2021-10-12 北京图森智途科技有限公司 一种神经网络训练方法及其装置、计算机服务器
CN108898137B (zh) 2018-05-25 2022-04-12 黄凯 一种基于深度神经网络的自然图像字符识别方法及系统
US10602207B2 (en) 2018-08-03 2020-03-24 Facebook, Inc. Neural network based content distribution in an online system
US11017498B2 (en) 2019-03-14 2021-05-25 International Business Machines Corporation Ground truth generation from scanned documents
CN110188189B (zh) 2019-05-21 2021-10-08 浙江工商大学 一种基于知识的自适应事件索引认知模型提取文档摘要的方法
US11361146B2 (en) 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation
US11495038B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Digital image processing
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation

Also Published As

Publication number Publication date
CA3165086A1 (en) 2021-09-10
GB2608750A (en) 2023-01-11
AU2021229659A1 (en) 2022-08-25
WO2021176281A1 (en) 2021-09-10
US20210279532A1 (en) 2021-09-09
CN115210747B (zh) 2023-07-11
US11495038B2 (en) 2022-11-08
IL294884A (en) 2022-09-01
KR20220133913A (ko) 2022-10-05
CN115210747A (zh) 2022-10-18
JP2023516119A (ja) 2023-04-18
AU2021229659B2 (en) 2023-12-14
GB202214680D0 (en) 2022-11-23

Similar Documents

Publication Publication Date Title
DE112021000371T5 (de) Digitale bildbearbeitung
DE2909153C2 (de) Einrichtung zur digitalen Analyse von Bild- oder Zeichenmustern
DE3716787C2 (de)
DE4311172C2 (de) Verfahren und Einrichtung zum Identifizieren eines Schrägenwinkels eines Vorlagenbildes
DE3926327C2 (de) Verfahren und System zum Erkennen von Zeichen auf einem Medium
DE60303202T2 (de) System und verfahren zum identifizieren und extrahieren von zeichenketten aus erfassten bilddaten
DE60305573T2 (de) Verfahren zur Darstellung von gemischten Bildrasterinhaltsebenen
DE69133362T2 (de) Dokumentenverarbeitungs-verfahren und -gerät, entsprechende Program und Speichereinheit
DE3419063C2 (de)
DE602005002473T2 (de) Verfahren zum Erkennen von semantischen Einheiten in einem elektronischen Dokument
DE69631009T2 (de) Bildverarbeitung mit angrenzenden Beziehungen zwischen Bildelementen
DE4427992C2 (de) Verfahren zum Erzeugen einer Dokumenten-Darstellung aus einem Bitmap-Bild eines Dokuments
DE69830383T2 (de) Kodierverfahren
DE3335162A1 (de) Vorrichtung und verfahren fuer graphische darstellungen mittels computern
DE602005002835T2 (de) Verfahren zur Identifizierung von redundantem Text in elektronischen Dokumenten
DE3632832A1 (de) Zeichenerkennungssystem
EP0067244A2 (de) Verfahren zum automatischen Erkennen von Weissblöcken sowie Text-, Graphik- und/oder Graubildbereichen auf Druckvorlagen
DE3107521A1 (de) Verfahren zum automatischen erkennen von bild- und text- oder graphikbereichen auf druckvorlagen
DE19956158A1 (de) Bild-Binärisierungsverfahren auf Bereichsbasis
DE102007052622A1 (de) Verfahren zur Bildanalyse, insbesondere für ein Mobilfunkgerät
DE102008013789A1 (de) Vorrichtung, Verfahren und Programm zum Eliminieren von Zeichenstörungen
DE19531392C1 (de) Verfahren zur Erzeugung einer Graphrepräsentation von Bildvorlagen
EP2082357B1 (de) Vorrichtung, verfahren und computerprogramm zur erkennung von schriftzeichen in einem bild
DE112021002453T5 (de) Iteratives trainieren eines modells für maschinelles lernen
DE202022002901U1 (de) Text-Bild-Layout Transformer (TILT)

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence