DE69937871T2 - Verfahren und Vorrichtung zur Bildsegmentierung - Google Patents

Verfahren und Vorrichtung zur Bildsegmentierung Download PDF

Info

Publication number
DE69937871T2
DE69937871T2 DE69937871T DE69937871T DE69937871T2 DE 69937871 T2 DE69937871 T2 DE 69937871T2 DE 69937871 T DE69937871 T DE 69937871T DE 69937871 T DE69937871 T DE 69937871T DE 69937871 T2 DE69937871 T2 DE 69937871T2
Authority
DE
Germany
Prior art keywords
block
threshold
level
pixels
selector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69937871T
Other languages
English (en)
Other versions
DE69937871D1 (de
Inventor
Ricardo L. Pittsford De Queiroz
Zhigang Webster Fan
Trac D. Columbia Tran
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/203,870 external-priority patent/US6400844B1/en
Priority claimed from US09/217,138 external-priority patent/US6373981B1/en
Application filed by Xerox Corp filed Critical Xerox Corp
Application granted granted Critical
Publication of DE69937871D1 publication Critical patent/DE69937871D1/de
Publication of DE69937871T2 publication Critical patent/DE69937871T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Description

  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf die Verarbeitung von Bildern und spezieller auf Techniken zur Komprimierung der Digitaldarstellung eines Dokuments.
  • Bei hohen Auflösungen gescannte Dokumente erfordern sehr große Mengen Speicherplatz. Anstelle sie so zu speichern, wie sie sind, werden Daten üblicherweise der einen oder anderen Art der Datenkomprimierung unterzogen, um den Umfang zu reduzieren und dabei die hohen Kosten, die mit der Speicherung verbunden sind, zu vermeiden. "Verlustlose" Komprimierungsverfahren wie beispielsweise die Lempel-Ziv Welch (LZW) Komprimierung führen zu keinen besonders guten Ergebnissen bei gescannten Bildpunktkarten. Während "verlustbehaftete" Verfahren wie beispielsweise JPEG bei Halbton-Bildpunktkarten ziemlich gut funktionieren, kommen sie mit den Teilen der Seite, die Text enthalten, nicht besonders gut zurecht. Um die Komprimierung von Bilddaten zu optimieren, werden Techniken benötigt, welche den zu komprimierenden Datentyp erkennen.
  • Die vorliegende Erfindung zielt auf die Segmentierung von Farbbilddaten unter Verwendung des MRC-Formats. Kanten sind im Allgemeinen als scharfe Diskontinuitäten zwischen Bereichen zweier konstanter Farben oder großen Sektionen von Lichtintensitätswerten definiert. Hier werden Kanten des Bildes in zwei Abschnitte geteilt. Die Vordergrundschicht enthält im Allgemeinen Informationen über die dunkleren Seiten, wogegen die Hintergrundschicht die Informationen über die glatten Bereiche des Bildes und die helleren Seiten der Kanten enthält. Die Segmentierung wird durchgeführt, indem das Bild in Streifen unterteilt wird und (an Stellen, an denen die Höhe jeden Streifens gleich der Größe des Blocks ist) jeder Streifen Block für Block vom oberen Ende des Bildes zum unteren verarbeitet wird.
  • In US-A-5767978 ist ein Bildsegmentierungssystem zum differentiellen Rendern von Schwarzweißbildern oder Farbbildern unter Verwendung verschiedener bildgebender Verfahren beschrieben. Die Bilder werden entsprechend den verschiedenen Bereichsklassen, die gerendert werden, segmentiert.
  • Gemäß der vorliegenden Erfindung umfasst ein Verfahren zur Segmentierung digitaler Bilddaten:
    • a) Erfassen eines Blockes der digitalen Bilddaten, wobei die digitalen Bilddaten eine Anordnung von Bildpunkten definieren, die aus Lichtintensitätssignalen an diskreten Stellen entsprechend den Bildpunkten bestehen;
    • b) Berechnen eines Schwellenwertes (ts) für diesen Block; und
    • c) Erzeugen eines Selektorblocks, der anzeigt, welches der Lichtintensitätssignale den Schwellenwert überschreitet und welches der Lichtintensitätssignale unterhalb des Schwellenwertes liegt; und
    • d) Segmentieren der Lichtintensitätssignale in dem Block zur Platzierung auf einer oberen Ebene und einer unteren Ebene basierend darauf, ob der Signalwert den Schwellenwert (ts) überschreitet, und dadurch gekennzeichnet, dass der Schritt des Berechnens des Schwellenwertes das Auswählen eines Wertes umfasst, welcher eine Bitrate minimiert, die erforderlich ist, um alle Blöcke in der oberen Ebene und der unteren Ebenen zu kodieren, und eine Größe der Verzerrung minimiert, die aus der Komprimierung der Blöcke unter Verwendung gemischter Rasterinhaltsverarbeitung resultiert, wobei dieser Schwellenwert die Funktion R + KD minimiert, in der R eine Rate zur Kodierung von Daten für alle Ebenen ist, und D ein Grad der Verzerrung ist, die durch Komprimieren des Blocks unter Verwendung des Schwellenwertes entsteht.
  • Einige Beispiele von Verfahren gemäß der vorliegenden Erfindung werden im Folgenden unter Bezug auf die begleitenden Zeichnungen beschrieben, wobei:
  • 1 ein zusammengesetztes Bild illustriert und ein Beispiel umfasst, wie ein solches Bild in drei MRC-Bildebenen zerlegt werden kann – eine obere Ebene, eine untere Ebene und eine Selektorebene;
  • 2 eine detaillierte Ansicht einer Bildpunktkarte enthält und die Art und Weise zeigt, in welcher Bildpunkte gruppiert werden, um Blöcke zu bilden;
  • 3 ein Flussdiagramm enthält, das allgemein die Schritte darstellt, die ausgeführt werden, um ein Beispiel der Erfindung umzusetzen;
  • 4 eine detaillierte Darstellung der Art und Weise enthält, in der Blöcke klassifiziert werden können, gemäß einem vergleichbaren Beispiel;
  • 5 eine detaillierte Darstellung der Art und Weise enthält, in der Blöcke segmentiert werden können, basierend auf ihrer Klassifizierung; und
  • 6 eine detaillierte Darstellung einer Art und Weise enthält, auf die eine Selektorebene erzeugt werden kann.
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum separaten Verarbeiten der verschiedenen Datentypen, die in einem zusammengesetzten Bild enthalten sind. Spezieller bezieht sich die vorliegende Erfindung auf das Erzeugen einer Selektorebene, einer von mehreren Ebenen, die bei der Verarbeitung von Bildern mit gemischtem Rasterinhalt (Mixed Raster Content, MRC-Bildverarbeitung) verwendet wird. Zwar wird die Erfindung anhand einer MRC-Technik (Mixed Raster Content) beschrieben, doch kann sie zur Verwendung in anderen Verfahren und Vorrichtungen zum Erzeugen einer Bitmap angepasst werden und ist daher nicht auf die MRC-Verarbeitung beschränkt. Die hier beschriebene Technik ist zur Anwendung in verschiedenen Einrichtungen geeignet, die zum Speichern oder Übertragen von Dokumenten benötigt werden, wie beispielsweise Faksimile-Einrichtungen, Bildspeichereinrichtungen und ähnliche, und das Verarbeiten von sowohl Farbbildern als auch Grauwert-Schwarzweißbildern ist möglich.
  • Eine Bildpunktkarte ist eine Karte, auf der jede diskrete Stelle auf der Seite ein Bildelement oder einen "Bildpunkt" enthält, der ein Lichtsignal mit einem Wert emittiert, der die Farbe an dieser Stelle anzeigt, oder im Falle von Grauwert-Dokumenten, wie hell oder dunkel das Bild an dieser Stelle ist. Wie Fachleute erkennen werden, weisen die meisten Bildpunktkarten Werte auf, die aus einem Satz von diskreten, nicht negativen ganzen Zahlen stammen.
  • So werden beispielsweise in einer Bildpunktkarte für ein Farbdokument die individuellen Separationen oft als digitale Werte in dem Bereich von 0 bis 255 repräsentiert, wobei 0 keine Farbe repräsentiert (d. h. wenn CMYK-Separationen verwendet werden) oder den niedrigsten Wert in dem Bereich, wenn Luminanz-Chrominanz-Separationen verwendet werden, und 255 den maximalen Wert des Farbstoffes oder den höchsten Wert in dem Bereich repräsentiert. Bei Grauwert-Bildpunktkarten wird dies in der Regel auf Bildpunktwerte in dem Bereich von 0, für schwarz, und 255, für den weißesten möglichen Ton, übertragen. Die Bildpunktkarten, die in der gegenwärtig bevorzugten Ausführung der vorliegenden Erfindung von Interesse sind, sind Repräsentationen "gescannter" Bilder. Das heißt Bilder, die durch Digitalisieren von Licht, das von einem physischen Medium reflektiert wird, unter Verwendung eines digitalen Scanners erzeugt werden. Mit dem Begriff Bitmap ist eine binäre Bildpunktkarte gemeint, in welcher Bildpunkte einen von zwei Werten, 1 oder 0 annehmen können.
  • Nun wird für eine detailliertere Beschreibung des MRC-Formats auf die Zeichnungen eingegangen, wobei die Bildpunktkarte 10, welche ein Farb- oder Grauwert-Dokument repräsentiert, vorzugsweise in ein Seitenformat mit drei Ebenen zerlegt wird, wie in 1 angezeigt. Die Bildpunkte auf der Bildpunktkarte 10 sind vorzugsweise in Blöcken 18 angeordnet (am besten in 2 zu sehen), um eine bessere Effizienz bei der Bildverarbeitung zu ermöglichen. Das Dokumentformat besteht üblicherweise aus einer oberen Ebene 12, einer unteren Ebene 14 und einer Selektorebene 16. Die obere Ebene 12 und die untere Ebene 14 enthalten Bildpunkte, welche die originalen Bilddaten beschreiben, wobei die Bildpunkte in jedem Block 18 basierend auf zuvor definierten Kriterien separiert wurden. So können beispielsweise Bildpunkte mit Werten über einem bestimmten Schwellenwert auf der einen Ebene platziert werden, wogegen Bildpunkte mit Werten gleich oder unter dem Schwellenwert auf der anderen Ebene platziert werden. Die Selektorebene 16 führt Buch über jeden Bildpunkt in der originalen Bildpunktkarte 10 und erfasst alle Bildpunkte an einem exakten Punkt entweder auf der oberen Ebene 12 oder der unteren Ebene 14.
  • Die untere und obere Ebene werden mit der gleichen Farb-Bit-Tiefe und der gleichen Farbanzahl wie die originale Bildpunktkarte 10 gespeichert, jedoch möglicherweise mit einer verringerten Auflösung. Die Selektorebene 16 wird als eine Bitmap erzeugt und gespeichert. Es ist wichtig, zur Kenntnis zu nehmen, dass zwar die Begriffe "obere" und "untere" verwendet werden, um die Ebenen zu beschreiben, auf welchen Daten liegen, doch ist damit nicht beabsichtigt, die Erfindung auf eine bestimmte Anordnung oder Konfiguration zu beschränken.
  • Nach der Verarbeitung werden alle drei Ebenen unter Verwendung eines Verfahrens komprimiert, das für den auf der Ebene liegenden Datentyp geeignet ist. So können beispielsweise die obere Ebene 12 und die untere Ebene 14 unter Verwendung einer verlustbehafteten Komprimierungstechnik wie JPEG komprimiert und gespeichert werden, während die Selektorebene 16 unter Verwendung eines verlustlosen Komprimierungsformats wie gzip oder CCITT-G4 komprimiert und gespeichert wird. Ein Fachmann wird erkennen, dass die Ebenen auch unter Verwendung anderer Formate, die für die beabsichtigte Verwendung des Ausgabe-Dokuments geeignet sind, komprimiert und gespeichert werden können. So würde beispielsweise im Bereich Farbfaksimile vorzugsweise Gruppe 4 für die Selektorebene 16 verwendet werden, da das spezielle verwendete Komprimierungsformat eines der für die Faksimile-Datenübertragung geeigneten Formate (MMR, MR, MH, JPEG, JBIG, etc.) sein muss.
  • In der vorliegenden Erfindung werden digitale Bilddaten vorzugsweise unter Verwendung einer MRC-Technik, wie beispielsweise oben beschrieben, verarbeitet. Die Bildpunktkarte 10 repräsentiert ein gescanntes Bild, das aus Lichtintensitätssignalen besteht, die an diskreten Stellen überall in der Separation verteilt sind. Wieder wird ein Lichtsignal von jeder dieser diskreten Stellen, die als "Bildelemente" "Bildpunkte" oder "Pixel" bezeichnet werden, auf einer Intensitätsstufe emittiert, welche die Stärke des Lichts anzeigt, das von dem originalen Bild an der entsprechenden Stelle in dieser Separation reflektiert wird.
  • In typischer MRC-Weise muss die Bildpunktkarte in zwei Ebenen 12 und 14 unterteilt werden. 3 enthält eine schematische Darstellung, die einen Prozess umreißt, der verwendet werden kann, um die Bildpunktkarte 10 in eine obere Ebene 12 und eine untere Ebene 14 gemäß der vorliegenden Erfindung zu segmentieren. Zwar wird die Erfindung im Folgenden unter Bezug auf diese Ausführung beschrieben, doch sollte angemerkt werden, dass die Erfindung auch in anderen Verfahrensweisen implementiert werden kann. Die vorliegende Erfindung kann bei jeder Bildverarbeitungstechnik angewendet werden, welche die Verwendung einer Bitmap erfordert, insbesondere einer Bitmap, die mit dem Originalbild verbunden ist.
  • Ein vergleichbares Beispiel der Erfindung wird hier beschrieben in Form eines Verfahrens und einer Vorrichtung zur Segmentierung von Bilddaten durch Klassifizieren eines Datenblocks unter Verwendung mehrerer Kriterien und zum anschließenden Aktualisieren der Klassifizierung unter Berücksichtung des Datenkontextes. Wie zu sehen ist, wird ein Block 18 wie in Schritt 210 angezeigt, erfasst und wie in Schritt 220 angezeigt, klassifiziert. In der bevorzugten Ausführung der Erfindung wird der Block 18 zu Beginn als entweder EINHEITLICH, GLATT, WEICHE_KANTE oder KANTE klassifiziert, und sein Kontext – entweder TEXT oder BILD – wird bereitgestellt. Anschließend wird der Block als entweder GLATT oder KANTE klassifiziert, abhängig von der anfänglichen Klassifizierung und dem Kontext. Als nächstes werden die Bildpunkte in Block 18 segmentiert – entweder auf der oberen Ebene 12 oder unteren Ebene 14 platziert, gemäß den Kriterien, die der Art am besten entsprechen, in welcher der Block klassifiziert wurde, wie in Schritt 230 angezeigt. Dieser Prozess wird für jeden Block 18 in der originalen Bildpunktkarte 10 wiederholt, bis die gesamte Bildpunktkarte 10 verarbeitet worden ist. Die obere Ebene 12, die untere Ebene 14 und die Selektorebene 16 werden anschließend separat komprimiert unter Verwendung einer Technik, die für den auf der jeweiligen Ebene vorhandenen Datentyp am besten geeignet ist, wie in Schritt 240 angezeigt.
  • Für eine fortgesetzte Erläuterung des vergleichbaren Beispiels wird nun auf 4 eingegangen, wobei die Klassifizierung der Blöcke 18 in eine der vier Kategorien, beschrieben in Schritt 220, vorzugsweise in drei Schritten ausgeführt wird. Zunächst wird die Variation der Bildpunktwerte innerhalb des Blocks bestimmt, wie in Schritt 310 angezeigt. Die Blockvariation wird am besten unter Verwendung statistischer Werte bestimmt, was werter unten unter Bezug auf 6 beschrieben wird. Blöcke mit großen Variationen liegen sehr wahrscheinlich tatsächlich an Kanten des Bildes, während Blöcke, die kleine Variationen enthalten, sehr wahrscheinlich in einheitlichen oder zumindest glatten Bereichen liegen. Durch Messen der Variationen in dem Block ist es möglich, dem Block eine anfängliche Klassifizierung zuzuweisen, wie in Schritt 320 angezeigt. Anschließend werden die Bilddaten in jedem Block 18 detailliert geprüft, um ein Aktualisieren der Kontextdaten (d. h. ob der Bereich in dem Text- oder Bildbereich des Bildes liegt) zu ermöglichen sowie das Durchführen einer eventuell nötigen Neu-Klassifizierung des Blocks, wie in Schritt 330 dargestellt. Die Blöcke EINHEITLICH werden als GLATT neu klassifiziert, und die Blöcke WEICHE KANTE werden zu KANTE in einem TEXT-Kontext aktualisiert oder als GLATT in einem BILD-Kontext neu klassifiziert. Eine geglättete Version 20 des Bildes wird auch durch Anwenden eines Tiefpassfilters auf die Bildpunktkarte 10 bereitgestellt. Das geglättete Bild 20 wird in Verbindung mit den originalen Bilddaten verwendet, um während der Klassifizierung zusätzliche Informationen zu bieten, und liefert zudem ungerasterte Daten für Halbtonbereiche.
  • 5 enthält Details der Art und Weise, auf die Block 18 in zwei Ebenen segmentiert wird, wie in Schritt 230 von 3 vorgesehen. Die Messung beginnt, indem zunächst bei Schritt 410 bestimmt wird, ob der zu verarbeitende Block zu Beginn als eine KANTE in Schritt 220 klassifiziert worden ist. Wenn ja, werden die Werte vp eines jeden Bildpunkts in dem Block zunächst mit einem Helligkeitsschwellenwert ts verglichen, wobei Bildpunkte mit Werten gleich oder oberhalb von ts als "helle" Bildpunkte angesehen werden, wogegen die mit Werten unter ts "dunkle" Bildpunkte sind. Das Segmentieren von KANTEN-Blöcken beinhaltet einfach das Platzieren dunkler Bildpunkte auf eine obere Ebene 12, wie in Schritt 440 angezeigt, und das Platzieren heller Bildpunkte auf einer unteren Ebene 14, wie in Schritt 450 angezeigt. Wenn bei Schritt 410 bestimmt wird, dass Block 18 keine KANTE ist, werden alle Bildpunkte in dem Block zusammen verarbeitet, anstatt auf einer Bildpunkt-für-Bildpunkt-Basis. Die Segmentierung GLATTER (nicht-KANTE) Bildpunkte geschieht wie folgt: wenn sich Block 18 in der Mitte einer kurzen Reihe von Blöcken befindet, die als GLATT klassifiziert wurden und weiterhin alle Blöcke in dieser kurzen Reihe dunkel (vp < t) sind – werden alle Daten in dem Block auf der obere Ebene 12 platziert. Wenn der gesamte Block 18 im Wesentlichen glatt ist (d. h. in einer langen Reihe) oder hell ist (in einer kurzen Reihe heller Bildpunkte) werden alle Daten in Block 18 auf der unteren Ebene 14 platziert.
  • Wie vorher angedeutet, wird die Selektorebene 16 erzeugt, während die Bildpunkte auf der unteren und oberen Ebene basierend auf der festgelegten Klassifizierung platziert werden, um Buch darüber zu führen, wo jeder Bildpunkt in dem originalen digitalen Bilddatensatz liegt. Bezogen auf 6 wird gemäß der Erfindung die Selektorebene 16 erzeugt, ohne dass eine Blockklassifzierung durchgeführt werden muss. Wie zu sehen ist, umfasst diese Ausführung der Erfindung einen Schwellenwertgeber 902 und einen Vorprozessor für jede Ebene außer der Selektorebene 16, die erzeugt wird. Wie bereits vorher angedeutet, wird die vorliegende Erfindung unter Bezug auf das Erzeugen zweier Ebenen zusätzlich zu der Selektorebene 16 beschrieben. Folglich sind zwei Vorprozessoren dargestellt – Vorprozessor 904 zum Erzeugen der oberen Ebene 12 und Vorprozessor 906 zum Erzeugen der unteren Ebene 14.
  • Ein Block, der die binären Einträge aufweist, die auf der Selektorebene 16 platziert werden, wird direkt aus Block 18 ermittelt, indem die originalen Bildpunktwerte mit dem Helligkeitsschwellenwert ts verglichen werden. Wie in der Zeichnung dargestellt, wird Block 18 in den Schwellenwert gebenden Block 902 eingegeben, der einen Selektorblock 916 für den Abschnitt der Selektorebene 16 erzeugt, der mit Block 18 korrespondiert. Der Schwellenwert gebende Block 902 umfasst einen Schwellenwert. Alle Bildpunkte in Block 18, die über diesem Schwellenwert liegen, werden dazu bestimmt, auf der einen Ebene platziert zu werden, wogegen Werte unterhalb des Schwellenwertes auf der anderen Ebene platziert werden. Eine Null wird in Selektorblock 916 an der Stelle platziert, für welche der Bildpunkt aus Block 18 auf der einen Ebene platziert wurde. Eine eins wird in Selektorblock 916 an der Stelle platziert, für welche der Bildpunkt aus Block 18 auf der anderen Ebene platziert wurde.
  • Sobald das Schwellenwertverfahren stattgefunden hat, werden Selektorblock 916 und Block 18 zusammen in den Vorprozessoren 904 und 906 verarbeitet. Bildpunkte in Block 18, die nicht durch den Selektorblock 916 zur Platzierung auf der oberen Ebene 12 ausgewählt worden sind, werden von dem Vorprozessor entfernt. Somit wird der Vorprozessor 904 für die obere Ebene 12 alle Bildpunkte in Block 18 entfernen, welche den Positionen in Selektorblock 916 entsprechen, die dafür bestimmt wurden, auf der unteren Ebene 14 platziert zu werden. Entsprechend entfernt der Vorprozessor 906 für die Ebene 14 alle Bildpunkte in Block 18, die gemäß Selektorblock 916 mit der oberen Ebene 12 verbunden sind. Das Entfernen der Bildpunkte wird im Allgemeinen ausgeführt, indem die Werte dieser Bildpunkte durch einen vorgegebenen Wert ersetzt werden, oder indem die Werte dieser Bildpunkte durch Werte ersetzt werden, welche aus den in Block 18 vorhandenen Bildpunkten errechnet werden. Immer noch unter Bezug auf 10 erfolgt die Selektion des Helligkeitsschwellenwerts ts gemäß einer weiteren Ausführung der vorliegenden Erfindung durch Analysieren der Inhalte der Blöcke, die bereits verarbeitet und auf der oberen Ebene 12, der Selektorebene 16 und der unteren Ebene 14 platziert worden sind. Spezieller umfasst die Analyse das Erfassen der Gesamt-Bitrate R und der Gesamt-Verzerrung D, entstanden durch Komprimieren des Blocks unter Verwendung des Mehr-Ebenen-Ansatzes. Die Bitrate R bezieht sich auf die Anzahl der Bits, die dafür verbraucht wurden, um die Blöcke für alle Ebenen zu kodieren, während die Verzerrung D die Verzerrung ist, die durch Komprimieren und Dekomprimieren aller Ebenen und das Rekonstruieren einer Näherung des originalen Blocks entstanden ist. Die Gesamtrate und -verzerrung für einen bestimmten Block kann entweder präzise gemessen oder einfach aus den Inhalten der entsprechenden Blöcke auf der oberen, unteren sowie der Selektorebene geschätzt werden. In der Erfindung wird ts so ausgewählt, dass die Kostenfunktion J = R + KD minimiert wird. Der Wert K kann entweder vorgeben sein oder aus allen mit Hilfe von ts erzeugten Werten von R und D berechnet werden. Wie Fachleute erkennen werden, ist es nicht unbedingt notwendig, J für alle Werte von ts zu berechnen, wenn die Optimierungs- und mathematischen Suchtechniken richtig angewandt werden, die darauf abzielen, das Minimum einer Funktion aufzuspüren, ohne die Funktion an allen Punkten zu berechnen. Es sei angemerkt, dass, wenn ts den Minimal- oder Maximalwert des Bereichs der Bildpunkte annimmt, die Selektorebene 16 einheitlich ist. In anderen Worten findet kein Schwellenwertverfahren (d. h. Verbinden aller Bildpunkte mit der oberen oder unteren Ebene) statt, wenn ts auf die Extremwerte (d. h. Maximum oder Minimum) gesetzt wird.
  • Gemäß einer Ausführung der Erfindung wird die Gesamt-Bitrate R als die Summe der Raten aller drei Ebenen definiert, wobei die durch Komprimieren der Selektorebene 16 erhaltene Bitrate anhand der Anzahl der horizontalen Übergänge Nt (von 1 bis 0 und umgekehrt) geschätzt wird, die in dem Block zu finden sind.
  • Gemäß einer weiteren Ausführung der vorliegenden Erfindung wird ta, der Mittelwert der Bildpunktintensitäten des Blocks, berechnet. Die Varianz V0 des originalen Blocks wird mit der folgenden Kostenfunktion verglichen: CF = aVu + bV1 + cNt wobei a, b, c zuvor definierte Konstanten sind, um das Verfahren fein abzustimmen, und Vu und V1 die Varianzen der korrespondierenden Blöcke (nach dem Schwellenwertverfahren und der Vorverarbeitung) in der oberen respektive der unteren Ebene sind. Wenn V0 > CF wird der Schwellenwert auf ts = ta gesetzt. Andernfalls wird der Schwellenwert auf einen Extremwert, z. B. ts = 0, ts = 225 gesetzt, so dass die Selektorebene einheitlich ist und alle Bildpunkte in dem Eingabeblock mit der unteren (oberen) Ebene verbunden werden.
  • Um es noch einmal zu sagen, zielt die vorliegende Erfindung darauf ab, Daten zu segmentieren, indem zunächst die Blöcke identifiziert werden, welche die Kanten des Bildes enthalten und indem die Blöcke anschließend solcherart separiert werden, dass diejenigen, welche die glatten Daten und hellen Seiten der Kanten enthalten, auf der unteren Ebene platziert werden und die dunklen Seiten der Kanten auf der oberen Ebene platziert werden. Sobald jede der jeweiligen Ebenen erzeugt worden ist, wird die gewöhnliche MRC-Verarbeitung fortgesetzt. Das heißt, jede Ebene wird unter Verwendung einer entsprechenden Komprimierungstechnik komprimiert. In der gegenwärtig bevorzugten Ausführung, werden die obere Ebene 12 und die untere Ebene 14 unter Verwendung von JPEG komprimiert, wogegen die Selektorebene 16 unter Verwendung einer symbolbasierten Mustervergleichs-Technik wie beispielsweise CCITT Group IV oder durch Klassifizieren gescannter Symbole zu Äquivalenzklassen komprimiert wird, wie beschrieben in US-A 5,778,095 von Davies, veröffentlicht am 7. Juli 1998. Die Ebenen werden anschließend zusammengefügt und an ein Ausgabegerät übertragen, wie beispielsweise ein Faxgerät oder einen Speicher.
  • In der bevorzugten Ausführung der Erfindung können ein oder alle Verfahren in einem Computer oder einer anderen Vorrichtung implementiert werden, die in der Lage ist, einen Befehlssatz zu speichern, der von einer Maschine ausgeführt werden kann. Der Programmspeicher wird diesen Befehlssatz (üblicherweise als Softwareprogramm bezeichnet) enthalten, um die oben zuvor angeführten Schritte zum Komprimieren eines Bilddokuments in der oben unter Bezug auf die angefügten Figuren detailliert beschriebenen Weise auszuführen.

Claims (2)

  1. Verfahren zur Segmentierung digitaler Bilddaten, wobei das Verfahren umfasst: a) Erfassen (210) eines Blockes der digitalen Bilddaten, wobei die digitalen Bilddaten eine Anordnung von Bildpunkten definieren, die aus Lichtintensitätssignalen an diskreten Stellen entsprechend den Bildpunkten bestehen; b) Berechnen eines Schwellenwertes (ts) für diesen Block (16); und c) Erzeugen eines Selektorblocks (16), der anzeigt, welches der Lichtintensitätssignale den Schwellenwert überschreitet und welches der Lichtintensitätssignale unterhalb des Schwellenwertes liegt; und d) Segmentieren der Lichtintensitätssignale in dem Block zur Platzierung auf einer oberen Ebene (12) und einer unteren Ebene (14) basierend darauf, ob der Signalwert den Schwellenwert (ts) überschreitet, dadurch gekennzeichnet, dass der Schritt des Berechnens des Schwellenwertes das Auswählen eines Wertes umfasst, welcher eine Bitrate minimiert, die erforderlich ist, um alle Blöcke in der oberen Ebene (12) und der unteren Ebene (14) zu kodieren, und eine Größe der Verzerrung minimiert, die aus der Komprimierung der Blöcke unter Verwendung gemischter Rasterinhaltsverarbeitung resultiert, wobei dieser Schwellenwert die Funktion R + KD minimiert, in der R eine Rate zur Kodierung von Daten für alle Ebenen ist, und D ein Grad der Verzerrung ist, die durch Komprimieren des Blocks unter Verwendung des Schwellenwertes erzeugt wird.
  2. Verfahren nach Anspruch 1, wobei K entweder ein vorgegebener oder ein berechneter Wert ist.
DE69937871T 1998-12-02 1999-11-29 Verfahren und Vorrichtung zur Bildsegmentierung Expired - Lifetime DE69937871T2 (de)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US217138 1994-03-22
US203870 1998-12-02
US09/203,870 US6400844B1 (en) 1998-12-02 1998-12-02 Method and apparatus for segmenting data to create mixed raster content planes
US20648798A 1998-12-07 1998-12-07
US20648898A 1998-12-07 1998-12-07
US206487 1998-12-07
US206488 1998-12-07
US09/217,138 US6373981B1 (en) 1998-12-21 1998-12-21 Method and apparatus for segmenting data to create mixed raster content planes

Publications (2)

Publication Number Publication Date
DE69937871D1 DE69937871D1 (de) 2008-02-14
DE69937871T2 true DE69937871T2 (de) 2008-12-24

Family

ID=27498516

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69937871T Expired - Lifetime DE69937871T2 (de) 1998-12-02 1999-11-29 Verfahren und Vorrichtung zur Bildsegmentierung

Country Status (2)

Country Link
EP (1) EP1006717B1 (de)
DE (1) DE69937871T2 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA04007916A (es) * 2002-01-16 2005-05-16 Cornerstone Group Ltd Sistema y metodo optimizados para la transmision de datos.
US7899247B2 (en) 2007-01-24 2011-03-01 Samsung Electronics Co., Ltd. Apparatus and method of segmenting an image according to a cost function and/or feature vector and/or receiving a signal representing the segmented image in an image coding and/or decoding system
JP5776419B2 (ja) 2011-07-29 2015-09-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5842441B2 (ja) 2011-07-29 2016-01-13 ブラザー工業株式会社 画像処理装置およびプログラム
JP5853470B2 (ja) 2011-07-29 2016-02-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5796392B2 (ja) 2011-07-29 2015-10-21 ブラザー工業株式会社 画像処理装置、および、コンピュータプラグラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1268547A (en) * 1986-03-31 1990-05-01 Ahmed Mostafa El-Sherbini Thresholding algorithm selection apparatus
JP2720924B2 (ja) * 1993-09-21 1998-03-04 富士ゼロックス株式会社 画像信号の符号化装置
US5778092A (en) * 1996-12-20 1998-07-07 Xerox Corporation Method and apparatus for compressing color or gray scale documents

Also Published As

Publication number Publication date
EP1006717A2 (de) 2000-06-07
EP1006717A3 (de) 2001-09-19
EP1006717B1 (de) 2008-01-02
DE69937871D1 (de) 2008-02-14

Similar Documents

Publication Publication Date Title
DE3446880C2 (de)
DE60132315T2 (de) Verbessertes verfahren zur bildbinarisierung
DE60118240T2 (de) Methode zur bildanalyse
DE69937785T2 (de) Verfahren zur Selektion von Farbblockpunkten für die Blockkodierung
DE69432585T2 (de) Verfahren und Gerät zur Auswahl von Text und/oder Non-Text-Blöcken in einem gespeicherten Dokument
DE4103229C2 (de)
US5781665A (en) Apparatus and method for cropping an image
DE60308739T2 (de) Automatisches Bildqualitäts-Bewertungsverfahren und Korrekturtechnik
JP4295882B2 (ja) デジタル画像データの区分方法並びにデータブロックの区分方法及び分類方法
JP4242532B2 (ja) デジタル画像データ区分方法
DE69533054T2 (de) Mehrfenstertechnik zur Schwellenwertverarbeitung eines Bildes unter Verwendung lokaler Bildeigenschaften
DE60111756T2 (de) Verfahren zum verbessern der kompressionsfähigkeit und der bildqualität von abgetasteten dokumenten
DE69728724T2 (de) Bildbereichs-Erkennungsverfahren und Bildverarbeitungsvorrichtung
DE2948341A1 (de) Verfahren zum verarbeiten von bildelementen und vorrichtung zum verarbeiten einer bilddatenreihe
DE69925354T2 (de) Bildverarbeitungssystem um vertikale Muster auf abgetasteten Bildern zu reduzieren
DE4001613A1 (de) Binaerumsetzungsverfahren
DE60302946T2 (de) Bildsegmentierungsverfahren und -vorrichtung zur MRC-basierten Darstellung von Dokumenten
EP1404113A1 (de) Verfahren zur automatischen Bearbeitung digitaler Bilddaten
DE4117038C2 (de) Zeilenbereich-Segmentierungsverfahren
DE10295968T5 (de) Verbunddokumentbildkompression unter Verwendung eines Mehrfachregion-Zweischichtformats
DE10303724B4 (de) Dynamisches Zweipegel-Schwellwertverfahren digitaler Bilder
DE69937871T2 (de) Verfahren und Vorrichtung zur Bildsegmentierung
EP1104916A1 (de) Verfahren zur Kompression von gescannten Farb- und/oder Graustufendokumenten
DE10027737A1 (de) Digitaler Bildverarbeitungsapparat
EP0042981A1 (de) Verfahren zur Codierung von elektrischen Signalen, die bei der Abtastung eines grafischen Musters mit aus Text und Bildern gemischtem Inhalt gewonnen werden

Legal Events

Date Code Title Description
8364 No opposition during term of opposition