DE69619887T2 - System und Methode für focusbasierte Bildsegmentation für Videosignale - Google Patents

System und Methode für focusbasierte Bildsegmentation für Videosignale

Info

Publication number
DE69619887T2
DE69619887T2 DE69619887T DE69619887T DE69619887T2 DE 69619887 T2 DE69619887 T2 DE 69619887T2 DE 69619887 T DE69619887 T DE 69619887T DE 69619887 T DE69619887 T DE 69619887T DE 69619887 T2 DE69619887 T2 DE 69619887T2
Authority
DE
Germany
Prior art keywords
focus
block
threshold
motion
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69619887T
Other languages
English (en)
Other versions
DE69619887D1 (de
Inventor
Tsuhan Chen
Cassandra Turner Swain
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
AT&T IPM Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp, AT&T IPM Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69619887D1 publication Critical patent/DE69619887D1/de
Publication of DE69619887T2 publication Critical patent/DE69619887T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

  • Die vorliegende Erfindung betrifft Verfahren zum Segmentieren eines ursprünglichen Einzelbildes mit Blöcken in einen relevanten Teil und einen weniger relevanten Teil und eine Vorrichtung zur Erzeugung eines Ausgangssignals, das einen Umriß relevanter Informationen in einem Videoeinzelbild darstellt, zur Verwendung bei der Komprimierung digitaler Signale.
  • Bewegungs-Video kann durch ein digitales Signal dargestellt werden, bei dem eine Reihe von Informationsbit jedes Videoeinzelbild darstellt. Wenn mehr Informationsbit zur Darstellung jedes Rahmens erforderlich sind, steigen die Kosten und die Komplexität der notwendigen Hardware zur Verarbeitung der Signale und die erforderliche Zeit zur Verarbeitung, Speicherung und Übertragung des Signals.
  • Die Bildkomprimierung ist ein Prozeß, der es gestattet, die Bilder, wie zum Beispiel Einzelbilder eines Bewegungs-Video, darstellenden digitalen Signale in einer codierten Form über einen Kommunikationskanal zu senden oder auf einem Medium, wie zum Beispiel einer CD-ROM, zu speichern, wobei weniger Datenbit verwendet werden, als für ein uncodiertes Bild erforderlich sind. Da die Speicherung und Übertragung digitaler Videosignale für viele Anwendungen zentral ist und Videosignale, die eine hohe Bitrate erfordern, mehr Zeit und Geräte zur Verarbeitung entweder bei der Speicherung oder Übertragung erfordern, sind Techniken zur Reduktion der Bitrate digitaler Videosignale für diese im Fortschritt befindliche Technik äußerst wichtig.
  • Um die Gesamt-Informationsmenge, die zum Reproduzieren einer Videobildfolge erforderlich ist, (und damit die Kosten des Zeitaufwands und der Geräte zur Reproduktion der Folge) zu reduzieren, können Einzelbilder in relevantere Teile und weniger relevante Teile segmentiert werden. Die Daten, die den relevanteren Teil betreffen, werden häufiger und/oder mit höherer Auflösung übertragen, als die Daten, die den weniger relevanten Teil betreffen. Dementsprechend müssen weniger Informationen übermittelt werden, als bei einer Übertragung aller Daten mit einer höheren Rate. Außerdem kann dadurch das Signal für das Video über eine kleinere Bandbreite übertragen werden, als bei einer Übertragung aller Daten.
  • Die primären Segmentierungstechniken sind Segmentierung auf der Grundlage von Bewegung (siehe S. Peleg & H. Rom, "Motion-Based Segmentation", Proc. IEEE Int'1 Conf. Computer Vision and Pattern Recognition 109-113 (1990)), Segmentierung auf der Grundlage von Intensität (siehe R. Haralick und L. Shapiro, "Image Segmentation Techniques", 2 Computer Graphics, Vision, and Image Processing 100-32 (1985)) und die Segmentierung auf der Grundlage der Disparität (siehe M. Waldowiski, "A New Segmentation Algorithm for Videophone Applications based on Stereo Image Pair", 39 IEEE Tran. Communication 1856-68 (1981)). Der auf Bewegung basierende Ansatz segmentiert Objekte in einem Einzelbild mit ähnlichen Geschwindigkeiten. Dieser Ansatz versagt bei Szenen, die sowohl Vordergrund- als auch Hintergrundbewegung enthalten, wodurch der weniger relevante Hintergrund als relevanter behandelt wird. Der auf Intensität basierende Ansatz segmentiert Bilder auf der Grundlage des Intensitätskontrasts und der räumlichen Position. Dieser Ansatz versagt für strukturierte Objekte, da ein einzelnes Objekt fälschlicherweise in mehrere Objekte segmentiert werden kann. Der auf Disparität basierende Ansatz mißt die Disparität zwischen Stereobildern, um Objekte zu segmentieren. Um die Disparität zu messen, ist eine Punktentsprechung zwischen den Bildern erforderlich, dies ist jedoch eine komplexe und fehleranfällige Aufgabe. Folglich ist keines dieser Segmentierungsverfahren völlig zufriedenstellend.
  • In einem typischen Videoeinzelbild enthält der Vordergrund wichtigere Informationen als der Hintergrund. Folglich ist es wünschenswert, Informationen, die dem Vordergrund entsprechen, mit einer höheren Auflösung oder häufiger als die Hintergrundinformationen zu senden. Jedes Videoeinzelbild ist aus Bildelementen oder "Pixeln" oder "Pels" zusammengesetzt. Die Bildfokussierung (oder umgekehrt die Bildentfokussierung) ist ein Maß der Schärfe des Bildes für einen Teil eines Einzelbildes, wie zum Beispiel ein Pel oder einen Block von Pels. Die Bildfokussierung kann leicht aus Komponenten mit hohen Frequenzen, wie zum Beispiel scharfen Rändern, gemessen werden: je weniger verschwommen ein Rand ist, desto höher ist die Fokussierung. Folglich kann der Teil des Einzelbildes, der fokussiert ist, durch Auffinden der weniger verschwommenen Ränder bestimmt werden. Unter der Annahme, daß die fokussierten Ränder den Vordergrund umreißen, kann das Einzelbild in einen Vordergrund (fokussiert) und einen Hintergrund (nicht fokussiert oder "entfokussiert") segmentiert werden. Der Vordergrund kann dann als relevanter und der Hintergrund als weniger relevant behandelt werden, wobei nur der Vordergrund mit einer höheren Auflösung oder einer höheren Frequenz gesendet oder codiert wird, wodurch bei der Bitrate gespart wird.
  • Sivan Z et al. "Change Detection and Texture Analysis for Image Sequence Coding" Signal Processing. Image Communication, Band 6, Nr. 4, 1.8.1994 (1994-08-01), Seiten 357-376, XP000458727 ISSN: 0923-5965, betrifft ein Verfahren zur Videocodierung. Als Verbesserung von Bildsequenzcodierern, die Blöcke auch dann auffrischen, wenn sie zu einem stationären Hintergrundbereich gehören, erkennt der Codierer solche Blöcke und ermöglicht, diese zu kopieren, statt aufzufrischen. Dieses Kopieren vermindert die Bitrate des Codierers.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren nach Anspruch 1 bereitgestellt.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung nach Anspruch 19 bereitgestellt.
  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erzeugung eines segmentierten Einzelbildes auf der Grundlage der Fokusmessung von Teilen eines ursprünglichen Einzelbildes. Ein Signal wird entsprechend einem ursprünglichen Einzelbild erfaßt. Das ursprüngliche Einzelbild ist aus Blöcken zusammengesetzt, und jeder Block weist ein Bildattribut auf. Das Bildattribut jedes Blocks wird mit dem Bildattribut eines anderen Blocks verglichen. Jedem Block wird auf der Grundlage des Vergleichs von Bildattributen ein Fokusmeßwert zugewiesen. Der Fokusmeßwert jedes Blocks wird dann mit einem Schwellen-Fokusmeßwert verglichen. Blöcke mit einem Fokusmeßwert über der Schwelle werden als fokussiert gekenzeichnet. Blöcke mit einem Fokusmeßwert unter der Schwelle werden als entfokussiert bezeichnet. Auf der Grundlage des ursprünglichen Einzelbildes und der Kennzeichnungen als fokussiert oder entfokussiert wird dann ein segmentiertes Einzelbild erzeugt. Es kann eine Bildsegmentierung auf der Grundlage von Bewegung in Verbindung mit einer Segmentierung auf der Grundlage der Fokussierung verwendet werden, um ein kombiniertes segmentiertes Bewegungs-/Fokus-Einzelbild bereitzustellen.
  • Die Erfindung kann in einem Verarbeitungsmittel verwendet werden, das wirkt, um ein digitales Signal zu verarbeiten, das einem ursprünglichen Einzelbild entspricht, um das Ausgangssignal zu erzeugen, das einem segmentierten Einzelbild entspricht. Ein wichtiger Aspekt jeder erfindungsgemäßen Vorrichtung besteht darin, daß sie ein Verarbeitungssystem sein kann, das auf Firmware oder Hardware basiert.
  • Eine Ausführungsform zur Benutzung und/oder Verteilung der vorliegenden Erfindung ist als Software. Die Softwareausführungsform enthält mehrere Verarbeitungssystembefehle, die in einem Speichermedium gespeichert werden. Zu bevorzugten Speichermedien gehören ohne Einschränkung magnetische, optische oder Halbleitermedien sowie geeignet angeordnete Kombinationen dieser. Die Verarbeitungssystembefehle sind durch ein Verarbeitungssystem lesbar und wirken bei Ausführung, um mindestens ein Verarbeitungssystem zur Segmentierung eines einem ursprünglichen Einzelbild entsprechenden Signals unter Verwendung von Verfahren gemäß den Prinzipien der vorliegenden Erfindung zu steuern.
  • Kurze Beschreibung der Zeichnungen
  • Für ein vollständigeres Verständnis der vorliegenden Erfindung und ihrer Vorteile wird nun auf die folgende ausführliche Beschreibung der Erfindung in Verbindung mit den beigefügten Zeichnungen, in denen gleiche Zahlen gleiche Teile bezeichnen, Bezug genommen. Es zeigen:
  • Fig. 1 ein Blockschaltbild einer Ausführungsform eines Bewegungsvideocodierungssystems 100 der Erfindung;
  • Fig. 2 eine isometrische Ansicht eines beispielhaften Verarbeitungssystems zur Komprimierung von Videodaten mit der vorliegenden Erfindung;
  • Fig. 3 ein Blockschaltbild eines beispielhaften Mikroverarbeitungssystems, das in Verbindung mit dem Verarbeitungssystem von Fig. 2 verwendet werden kann;
  • Fig. 4 eine schematische Ansicht eines einfachen Linsenmodells 300, auf dem die Fokusmeßtheorie basiert;
  • Fig. 5 ein Blockschaltbild der Gesamtfunktionsweise des Vorfilters 30;
  • Fig. 6 ein Blockschaltbild der ersten Glättungsoperation, die im Block 52 des Vorfilters 30 durchgeführt wird;
  • Fig. 7 ein erstes Zweipegel-Fokusmeßeinzelbild 70;
  • Fig. 8 ein Zweipegel-Fokusmeßeinzelbild 80, nachdem eine horizontale Füllung an dem ersten Zweipegel- Fokusmeßeinzelbild durchgeführt wurde;
  • Fig. 9 ein Zweipegel-Fokusmeßeinzelbild 90, nachdem eine vertikale Füllung an dem Zweipegel- Fokusmeßeinzelbild von Fig. 8 durchgeführt wurde;
  • Fig. 10 ein Zweipegel-Fokusmeßeinzelbild 110, nachdem sich die Fülloperationen stabilisiert haben;
  • Fig. 11 ein Zweipegel-Fokusmeßeinzelbild eines Umrisses 125 der Schablone 111 von Fig. 10 und
  • Fig. 12 ein Blockschaltbild der Schritte zur Erzeugung eines segmentierten Bewegungs-/Fokuseinzelbildes.
  • Ausführliche Beschreibung
  • Fig. 1 ist ein Blockschaltbild einer Ausführungsform des Bewegungsvideocodierungssystems 100 der Erfindung. In einer Videoquelle 10, wie zum Beispiel einer Videokamera oder einem Laserdisk-Abspielgerät wird ein analoges Videosignal für eine Reihe von n Bildern erzeugt. Das Analogsignal Pn wird aus der Quelle 10 einem Vorprozessor 20 zugeführt, der einen Analog/Digital-Umsetzer enthält, in dem das Analogsignal in ein Digitalsignal ("ursprüngliches Einzelbildsignal") transformiert wird, das eine Reihe von n Einzelbildern darstellt. Gegebenenfalls kann das Digitalsignal weiter durch den Vorprozessor 20 in ein Digitalsignal mit entsprechender Auflösung umgesetzt werden, was möglicherweise abhängig davon, ob das Signal über einen Kommunikationskanal gesendet wird oder in einem digitalen Medium, wie zum Beispiel einer CD-ROM gespeichert wird, erforderlich sein kann.
  • Jedes Videoeinzelbild des Bewegungsvideo umfaßt eine Matrix von Bildelementen oder "Pels" oder "Pixeln" f(x,y). Abhängig von der Anzahl von Pels pro Einzelbild und der Größe der Blöcke wird jedes Einzelbild in eine variable Anzahl von Blöcken unterteilt. Zur Zeit wird bevorzugt, daß jeder Block eine 4 · 4-Matrix von Pels umfaßt. Die Blöcke können natürlich eine andere Anzahl und Anordnung von Pels umfassen. Insbesondere kann jeder Block ein einziges Pel umfassen. Jedes Pel umfaßt ein Luminanz-Pel Y und zwei Chrominanz-Pels Cb und Cr. Wenn das Videosignal in digitaler Form vorliegt, wird jedes Attribut oder jede Komponente eines Blocks durch einen numerischen Wert dargestellt. Wenn Blöcke "verglichen" werden, wird der Wert der entsprechenden Blockkomponenten oder -attribute verglichen.
  • Ein Vorfilter 30, das einen Computerprozessor, wie zum Beispiel ein Video-Verarbeitungsboard 31 enthält, ist mit dem Vorprozessor 20 verbunden und empfängt das ursprüngliche Einzelbildsignal als ein Eingangssignal aus dem Vorprozessor. Das Vorfilter 30 wirkt gemäß der vorliegenden Erfindung, um das Einzelbildsignal in einen Vordergrund und einen Hintergrund zu segmentieren, wodurch ein Ausgangssignal ("segmentiertes Einzelbildsignal") erzeugt wird, das einem segmentierten Einzelbild entspricht. Das segmentierte Einzelbild kann zu einem Codierer 40, wie zum Beispiel einem H.261- oder MPEG-Codierer gesendet werden, der das Signal für das segmentierte Einzelbild in einen komprimierten Videobitstrom übersetzt. Das von dem Codierer 40 erzeugte komprimierte Videosignal wird dann in einem Speichermedium 50, wie zum Beispiel einer CD-ROM, gespeichert oder durch einen Kanal, wie zum Beispiel eine ISDN-Strecke, übertragen.
  • Ein Bewegungsdetektor 41, der Teil des Codierers 40 sein kann, kann benutzt werden, um zu bestimmten, wie sehr sich jeder Teil des Bildes bewegt. Als Alternative kann der Bewegungsdetektor 41 ein besonderes Gerät sein oder kann in das Vorfilter 30 integriert werden. Wie in bezug auf Fig. 12 ausführlicher erläutert wird, können die von dem Bewegungsdetektor 41 erzeugten Bewegungsinformationen zur Verwendung bei der weiteren Aufbereitung des segmentierten Einzelbildsignals zu dem Vorfilter 30 transferiert werden. Wie in Fig. 1 gezeigt, ist der Codierer 40 ein besonderes Gerät.
  • Es versteht sich jedoch, daß der Codierer 40 und ein (nicht gezeigter) Decodierer in der Regel zusammen, wie in der Technik bekannt, als ein Codec bezeichnet werden.
  • Der Codierer 40 erzeugt das komprimierte Signal unter Verwendung wohlbekannter Komprimierungsverfahren, wie zum Beispiel der CCITT-Empfehlung (Consultative Committee on International Telegraphy and Telephony) H.261, revidierter Entwurf der Empfehlung H.261 - Video Codec for Audiovisual Services at p · 64 kBit/s, Study Group XV - Bericht R95 (Mai 1992), und dem ISO/IEC- MPEG-Standard. H.261 von CCITT ist ein Codierungsstandard für audiovisuelle Dienste mit einer Übertragungsrate von p · 64 kBit/s. Er findet Anwendungen in Videofernsprech-, Videokonferenz- und anderen audiovisuellen Übertragungen über ISDN-Netze. Die MPEG-Algorithmen, zu denen MPEG1 und MPEG2 gehören, wurden von der Moving Picture Experts Group (MPEG) entwickelt, die Teil eines zusammengesetzten technischen Komitees der International Standards Organisation (ISO) und International Electrotechnical Commission (IEC) ist. Die MPEG1-Standards, die im Komitee-Normenentwurf ESO-IEC JTCISC2/WG11MPEG CD- 11172, 1991, dargelegt werden, sind als Teil von MPEG2 enthalten, das in dem Komitee-Normenentwurf ISO-IEC JTC1/SC29/WG11/602, 1993, dargelegt wird. Die MPEG- Standards sind für qualitativ hochwertige digitale Videospeicherung und qualitativ hochwertige digitale Videoübertragung über ein Breitbandnetz bestimmt.
  • Es wird zur Zeit beabsichtigt, die vorliegende Erfindung entweder mit einem H.261-Codec oder einem MPEG-Codec zu benutzen. Es sei jedoch bemerkt, daß die Erfindung auch auf Codecs angewandt werden kann, die andere Videocodierungsalgorithmen verwenden, die relevante Merkmale der H.261- oder MPEG-Algorithmen teilen, wie für Fachleute ersichtlich ist.
  • Fig. 2 ist eine isometrische Ansicht eines beispielhaften Verarbeitungssystems zum Komprimieren von Videodaten mit der vorliegenden Erfindung. Das Verarbeitungssystem 100 ist als ein PC gezeigt, und ist in einer bevorzugten Ausführungsform Modell Nr. System 3333 von AT&T GIS in Dayton, Ohio. Das Verarbeitungssystem 100 kann geeigneterweise mit einer Kamera 109 gekoppelt werden und enthält ein Hardware- Gehäuse 101 mit einem Diskettenlaufwerk 102 und einem Festplattenlaufwerk 103, einen Monitor 104 und eine Tastatur 105. Der Monitor 104 und die Tastatur 105 können durch andere herkömmliche Ausgabegeräte und Eingabegeräte ersetzt oder mit diesen kombiniert werden.
  • Das Diskettenlaufwerk 102 ist betreibbar, um externe Disketten zu empfangen, zu lesen, und zu beschreiben. Das Festplattenlaufwerk 103 ist betreibbar, um schnell speichern und abrufen zu können. Das Diskettenlaufwerk 102 kann durch eine beliebige herkömmliche geeignet angeordnete Struktur zum Empfangen und Senden von Daten und Befehlen ersetzt oder mit dieser kombiniert werden, darunter ohne Einschränkung Band- und CD-Laufwerke, Fernsprechsysteme und -geräte (darunter Videofernsprechtechnologie) und serielle und parallele Ports. Bei alternativen Ausführungsformen können Leiterplatten, wie zum Beispiel das Video- Verarbeitungsboard 31 von Fig. 1 hinzugefügt werden.
  • Die Videoquelle 10 von Fig. 1 kann die Kamera 109 enthalten, die durch einen der erwähnten Ports mit dem Verarbeitungssystem 100 gekoppelt ist. Bei alternativen Ausführungsformen können die Eingangsvideoeinzelbilder über eines oder mehrere separate Speichergeräte, wie zum Beispiel eine Diskette oder eine CD, empfangen werden. Ein wichtiger Aspekt der beispielhaften Ausführungsform besteht deshalb darin, daß die Daten- und/oder Befehlsansammlung und -segmentierung nicht koinzident auftreten muß.
  • Man beachte, daß das Hardware-Gehäuse 101 mit einem weggeschnittenen Teil dargestellt ist, der eines Verarbeitungseinheit 106 enthält, die geeigneterweise mit einem Speichergerät 107 gekoppelt ist. Das Speichergerät 107 kann ein Direktzugriffsspeicher ("RAM"), wie zum Beispiel ein DRAM- und/oder SRAM- Speichergerät oder ein Nur-Lese-Speicher ("ROM") oder andere herkömmliche, geeignet angeordnete Speichergeräte sein. Obwohl das Verarbeitungssystem 100 als eine einzige Verarbeitungseinheit, ein einziges Festplattenlaufwerk und eine einzige Speichereinheit aufweisend dargestellt ist, kann das Verarbeitungssystem 100 mit mehreren. Verarbeitungseinheiten und/oder geeignet angeordneten. Speichergeräten ausgestattet werden, die betrieben werden können, um zusammen die Prinzipien der vorliegenden Erfindung auszuführen.
  • Obwohl die vorliegende Erfindung besonders vorteilhaft für die Verwendung bei der Videokomprimierung ist, sollte beachtet werden, daß sich die vorliegende Erfindung auch sehr gut für die Verwendung mit anderen Systemen eignet, die Signalkomprimierung verwenden, darunter ohne Einschränkung Verarbeitungssystemnetze (darunter lokale und großflächige Netze), Fernsprechsysteme (darunter Videofernsprechtechnologien), Direkt-Fernsehsysteme, Satellitensysteme, Land-Mobil-Funksysteme, Rundfunksysteme, Informationsspeicherungs-/Abrufsysteme und dergleichen.
  • Obwohl zur Darstellung einer beispielhaften Verarbeitungssystemumgebung ein PC verwendet wird, können die Prinzipien der vorliegenden Erfindung in jedem beliebigen Verarbeitungssystem implementiert werden, das herkömmliche geeignet angeordnete Verarbeitungsmittel zur Durchführung einer Segmentierung mit der vorliegenden Erfindung aufweist, darunter ohne Einschränkung Kameras, Videofernsprecher, Fernsprecher, Fernsehgeräte, komplizierte Taschenrechner und tragbare, Laptop-/Notebook-, Mini-, Zentral- und Supercomputer, darunter RISC- und Parallelverarbeitungsarchitekturen, sowie in Verarbeitungssystemnetzkombinationen von obigen. Die herkömmliche Verarbeitungssystemarchitektur wird ausführlicher in William Stallings, Computer Organization and Architecture (MacMillan Publishing Co., 3. Auflage 1993) erörtert.
  • Andere bevorzugte Ausführungsformen der vorliegenden Erfindung umfassen ohne Einschränkung Implementierungen in Firmware oder Hardware. Zu solchen beispielhaften Ausführungsformen können geeignet angeordnete Schaltkreise, darunter programmierbare Logikbauelemente, wie zum Beispiel PALs (programmierbare Array- Logik), PLAs (programmierbare logische Arrays) und DSPs (digitale Signalprozessoren) gehören. Andere beispielhafte Ausführungsformen können außerdem FPGAs (am Einsatzort programmierbare Gate-Arrays) und ASICs (anwendungsspezifische integrierte Schaltungen) enthalten.
  • Fig. 3 zeigt ein Blockschaltbild eines beispielhaften Mikroverarbeitungssystems, das in Verbindung mit dem Verarbeitungssystem 100 verwendet werden kann. Das Mikroverarbeitungssystem kann so programmiert werden, daß es Einzelbildsignale mit den Techniken der vorliegenden Erfindung segmentiert. Das Mikroverarbeitungssystem enthält eine einzige Verarbeitungseinheit 106, die über einen Datenbus 203 mit einem einzigen Speichergerät 107 gekoppelt ist. Das Speichergerät 107 ist betreibbar, um einen oder mehrere Verarbeitungssystembefehle zu speichern, die die Verarbeitungseinheit 106 abrufen und ausführen kann. Die Verarbeitungseinheit 106 enthält eine Steuereinheit 200, eine Arithmetik-Logik-Einheit ("ALU") 201 und ein lokales Speichergerät 202, wie zum Beispiel einen stapelbaren Cache-Speicher oder mehrere Register. Die Steuereinheit 200 ist betreibbar, um Verarbeitungssystembefehle aus dem Speichergerät 107 zu holen. Die ALU 201 ist betreibbar, um mehrere Operationen durchzuführen, darunter Addition und boolische AND- Verknüpfung, die notwendig sind, um diese Befehle auszuführen. Das lokale Speichergerät 202 ist betreibbar, um lokale schnelle Speicherung bereitzustellen, die zum Speichern von temporären Ergebnissen und Steuerinformationen verwendet wird.
  • Das Verarbeitungssystem 100 kann zur Messung der Fokussierung jedes Blocks in dem ursprünglichen Einzelbild zur Verwendung bei der Segmentierung des Einzelbildsignals verwendet werden, wie unten ausführlicher erörtert wird. Es ist bekannt, eine "Fokus"-Messung eines Teils eines Videoeinzelbildes zu verwenden, die eine Funktion der Tiefe ist, um Objektdistanzen für monokulare Systeme wie zum Beispiel Camcorder zu bestimmen. Siehe A. Pentland, "A New Sense of Depth of Field", IEEE Trans. Pattern Analysis and Machine Intelligence, Band 9, Nr. 4, Seiten 523-531, Juli 1993; M. Subbarao und G. Surya, "Depth from Defocus: A Spatial Domain Approach", Technischer Bericht Nr. 92.12.03, Computer Vision Laboratory, Electrical Engineering Department, SUNY, Stony Brook, NY; und C. Swain, M. Bishay, A. Peters und K. Kawamura, "Accuracy Improvement of Depth from Defocus using Fuzzy Logic", Technischer Bericht Nr. CIS-94-02, Center of Intelligent Systems, Vanderbilt University, Nashville, TN 37235, Mai 1994.
  • Fig. 4 ist eine schematische Ansicht eines einfachen Linsenmodells 300, auf dem die Theorie der Fokusmessung basiert. Gemäß der Lenzschen Regel gilt:
  • 1/f = 1/u + 1/v (1)
  • wobei f die Brennweite, u die Distanz zwischen einem Objekt und der Linse und v die Distanz zwischen der Linse und der Fokalebene ist. Der Objektpunkt 303 ist nicht fokussiert, da die Bildebene I des Objektpunkts 303 von der Fokalebene I' verschoben ist. Auf der Bildebene erscheint der Objektpunkt 303 als ein entfokussiertes oder verschwommenes Bild 301, das als ein Verschwimmungskreis bezeichnet wird. Die Größe des Verschwimmungskreises 2r und daher der Grad der Fokussierung (oder umgekehrt der Entfokussierung) kann als Funktion der Tiefe u des Objektpunkts 303 gemäß Gleichung (2) ausgedrückt werden:
  • 1/u = 1/f - 1/s -2r/sD
  • wobei u die Distanz zwischen dem Objekt 303 und der Linse 302, f die Brennweite der Linse 302, s die Distanz zwischen der Linse 302 und der Bildebene I, r der Radius des Veschwimmungskreises 301 und D der Durchmesser der Linse 302 ist.
  • Das verschwommene Bild kann durch eine Faltung des fokussierten Bildes mit einer Punktspreizfunktion h(x,y) ["PSF"] beschrieben werden. Idealerweise ist die PSF eine zylindrische kreissymmetrische Funktion mit einem Volumen von eins, die als Pillbox bezeichnet wird. In der Pillbox ist die Helligkeit gleichförmig, so daß folgendes gilt:
  • Aufgrund der Linsenaberration und -diffraktion ist die Helligkeit jedoch nicht gleichförmig, sondern fällt in Richtung der Grenze allmählich ab. Somit wird die PSF durch eine zweidimensionale Gauß-Funktion definiert:
  • wobei σ eine räumliche Konstante ist, die der Entfokussierungsmessung entspricht. σ ist proportional zu dem Verschwimmungskreis r, so daß folgendes gilt:
  • σ = kr, (5)
  • wobei k eine Proportionalitätskonstante ist. Das Einheitsvolumen der PSF beträgt 1. Folgendes wurde experimentell bewiesen:
  • k = 1/ 2 (6)
  • Durch Einsetzen in Gleichung (2) erhält man:
  • 1/u = 1/f - 1/s - 2 2σ/sD (7)
  • Durch Umordnen kann die Distanz u als Funktion des Radius des verschwommenen Kreises r (oder der Entfokussierungsmessung σ) geschrieben werden:
  • Wenn ein Bild fokussiert ist, sind seine Ränder scharf und klar definiert. Dementsprechend ist der Wert von σ an einem fokussierten Rand kleiner. Ähnlich ist der Gradient der Fokussierung an einem fokussierten Rand ebenfalls größer, da die Bildattribute von Blöcken in der Nähe des Rands stark schwanken. In einem verschwommenen Rand ist die Änderung der Bildattribute über den Rand hinweg glatter, und der Gradient wird somit kleiner.
  • Gemäß einer Ausführungsform der vorliegenden Erfindung werden die Blöcke eines Einzelbildsignals auf der Grundlage der Tiefenmessung jedes Blocks in einen Vordergrund und einen Hintergrund segmentiert. Insbesondere werden fokussierte Ränder erkannt. Es wird angenommen, daß diese Ränder den Vordergrundteil des Einzelbildes abgrenzen. Aus den fokussierten Rändern wird ein Umriß erzeugt. Ein Signal mit Informationen bezüglich des Umrisses und des ursprünglichen Rahmensignals wird erzeugt und zu einem Codierer gesendet, in dem der Vordergrund als relevanter und der Hintergrund als weniger relevant behandelt werden kann.
  • Fig. 5 ist ein Blockschaltbild der Gesamtfunktionsweise des Vorfilters 30 der vorliegenden Erfindung. Im Block 50 wird ein ursprüngliches Einzelbildsignal erfaßt. Die Fokussierung jedes Blocks wird im Block 51 auf in der Technik bekannte Weise gemessen und dadurch ein Fokusgradient erzeugt. Das ursprüngliche Einzelbildsignal kann im Block 52 geglättet werden. Als Alternative könnte die im Block 52 durchgeführte Glättung vor der Messung der Fokussierung oder an anderen Punkten in der Segmentierung oder überhaupt nicht durchgeführt werden. Im Block 53 wird ein Schwellen-Fokuswert festgelegt. Der Fokuswert jedes Blocks wird im Block 54 mit dem Schwellen-Fokuswert verglichen, um die fokussierten Blöcke von den entfokussierten Blöcken zu unterscheiden. Blöcke mit einem Fokuswert über der Fokusschwelle werden als fokussiert gekennzeichnet; Blöcke mit einem Fokuswert unter der Fokusschwelle werden als entfokussiert gekennzeichnet. Im Block 55 wird auf der Grundlage der fokussierten Blöcke der Vordergrund bestimmt. Im Block 56 wird auf der Grundlage des Vordergrunds ein segmentiertes Einzelbildsignal erzeugt.
  • Fig. 6 ist ein Blockschaltbild der ersten Glättungsoperation im Block 52 durch das Vorfilter 3 der vorliegenden Erfindung. Das ursprüngliche Einzelbild wird in Blöcke unterteilt, die vorzugsweise eine 4 · 4-Matrix von Pels umfassen (Block 61). Jedes Pel kann mehr als einem Block zugewiesen werden, so daß eine Blocküberlappung vorliegt. Die Luminanzkomponente jedes Pels wird mit der Luminanzkomponente jedes anderen Pels in dem Block kombiniert (Block 62), wie es in der Technik bekannt ist. Der kombinierte Luminanzwert wird der Position eines der Pels in dem Block zugewiesen, wie in der Technik bekannt. Dieser Prozeß wird für jeden Block fortgesetzt, bis jedem Pel ein kombinierter Luminanzwert zugewiesen wurde, wodurch ein geglättetes Einzelbildsignal entsteht.
  • Die Fokussierung jedes Blocks in dem ursprünglichen Einzelbild wird im Block 51 gemessen. Die Fokusmessung jedes Blocks kann auf eine traditionelle Weise aus der Randstärke bestimmt werden, wie in E. Krotov, "Focusing", 1 Intl J. Comp. Vision 223-37 (1987) oder in W. Pratt, Digital Image Processing 491-508 (Wiley & Sons 2. Auflage 1991) beschrieben wird. Zur Zeit wird bevorzugterweise eine Sobel-Rand-Erkennung verwendet.
  • Ränder eines fokussierten Bildes in einem Einzelbild werden durch Änderungen oder Unstetigkeiten in einem Bildamplitudenattribut über angrenzende Blöcke hinweg angezeigt. Insbesondere wird ein Gradient des Attributs berechnet. Ein Spike oder hoher Wert in dem Gradient zeigt einen Rand an. Da Ränder den Vordergrund (der fokussiert ist) von dem Hintergrund (der entfokussiert ist) unterscheiden, ist der Attribut-Gradient ein Gradient der Fokussierung bzw. ein Fokussierungsgradient. Zur Zeit wird bevorzugt, daß die Vorrichtung und das Verfahren der vorliegenden Erfindung Ränder auf der Grundlage der Änderungen oder Unstetigkeiten der Luminanzkomponente der Blöcke erkennen. Natürlich könnten auch Änderungen oder Unstetigkeiten in anderen Bildattributen verwendet werden, um Ränder zu erkennen und die vorliegende Erfindung weiterhin auszuüben.
  • Der Fokusgradient entlang einer gewählten Linie über ein Einzelbild f(x,y) hinweg, das eine Matrix von X · Y- Pels umfaßt, wird folgendermaßen definiert:
  • wobei G(x,y) der Fokusgradient, f(x,y) das Einzelbildsignal und θ der Winkel der Linie in Bezug auf die horizontale Achse ist. Der Fokusgradient kann in Zeilen und Spalten aufgeteilt werden, so daß der Zeilengradient folgendermaßen definiert ist:
  • Gr(x,y) = f(x,y) - f(x,y-1) (10)
  • Der Spaltengradient ist folgendermaßen definiert:
  • Gc(x,y) = f(x,y) - f(x-1, Y) (11)
  • Vorzugsweise wird ein Prewitt-Quadratwurzel-Randgradient mit einem 3 · 3-Pel-Randgradientenoperator verwendet, so daß folgendes gilt:
  • G(x,y) = {[Gr(x,y)]² - [Gc(x,y)]²}1/2 (12)
  • wobei G(x,y) der Fokusgradient, Gr(x,y) ein Zeilengradient und Gc(x,y) ein Spaltengradient ist. Der Zeilengradient Gr ist folgendermaßen definiert:
  • Gr(x,y) = 1/K·2 [(A&sub2;+KA&sub3;+A&sub4;) - (A&sub0;+KA&sub7;+A&sub6;)] (13)
  • Der Spaltengradient Gc ist folgendermaßen definiert:
  • mit A&sub0; = a&sub0; f(x-1, y+1)
  • A&sub1; = a&sub1; f(x, y+1)
  • A&sub2; = a&sub2; f(x+1, y+1)
  • A&sub3; = a&sub3; f(x+1, y)
  • A&sub4; = a&sub4; f(x+1, y-1)
  • A&sub5; = a&sub5; f(x, y-1)
  • A&sub6; = a&sub6; f(x-1, y-1)
  • A&sub7; = a&sub7; f(x-1, y)
  • Der Gewichtungsfaktor an ist eine empirisch gewählte Konstante.
  • Allgemeiner kann der Luminanz-Fokusgradient G(x,y) über ein kontinuierliches Randsegment durch Falten der Luminanzwerte der Pels mit einem Impulsantwortarray auf die folgende Weise gewonnen werden:
  • G(c,y) = F(x,y) - H(x,y). (15)
  • wobei F(x,y) die Luminanzmatrix für das Einzelbild, f(x,y) und H(x,y) ein Impulsantwortarray ist. Wenn man dies in Spalten und Zeilen aufteilt, erhält man
  • Gr(x,y) = F(x,y) - Hr(x,y) (16)
  • und
  • Gc(x,y) = F(x,y) - Hc (x,y) (17)
  • Zur Verwendung mit der Punktspreizfunktion können zahlreiche Impulsantwortarrays gewählt werden, darunter Pel-Differenz, separierte Pel-Differenz, Roberts-, Prewitt- und Frei-Chen-Impulsantwortarrays. Vorzugsweise wird ein Sobel-Impulsantwortarray verwendet. Die Sobel-Impulsantwortarrays lauten folgendermaßen:
  • Zeilengradient:
  • Spaltengradient:
  • Bei Verwendung des Sobel-Impulsantwortarray kann der Fokusgradient G(x,y) durch S(x,y), einem Sobel- Gradienten, dargestellt werden. Der Wert des Sobel- Gradienten an jedem Pel wird bestimmt und eine X · Y- Matrix von Sobel-Gradientenfokusmeßwerten hergestellt. Um die Leistung des Randgradientenerzeugungsoperators insbesondere in stark rauschbehafteten Umgebungen zu verbessern, kann die Umgebung von einer 3 · 3-Matrix zu einer größeren Matrix erweitert werden.
  • Die Verwendung traditioneller Fokusmeß- oder Randerkennungstechniken, wie zum Beispiel des oben besprochenen Sobel-Gradienten, kann zu Fehlern bei der Randerkennung führen. Fokussierte Ränder mit kleinen Beträgen und entfokussierte Ränder mit großen Beträgen können ähnliche Fokusmeßwerte ergeben. Die entfokussierten Ränder sollten jedoch folgendermaßen niedrigere Entfokussierungsmeßwerte aufweisen. Diese Ergebnisse können verbessert werden, indem man die Fokusmessung modifiziert. Ein Unterscheidungsmerkmal zwischen fokussierten und entfokussierten Rändern ist die Randbreite. Fokussierte Ränder weisen steilere Intensitätsgradienten und kleinere Breiten als entfokussierte Ränder auf. Die Fokusmessung kann folgendermaßen modifiziert werden:
  • wobei d(x,y) der Fokusmeßwert, S(x,y) der Betrag der Sobel-Randerkennung auf einem Einzelbild f(x,y) und w die Randbreite in dem Einzelbild f(x,y) ist. Die Breite eines Randes wird durch Zählen der Anzahl von Pels in einem Rand in der vertikalen Richtung und in der horizontalen Richtung berechnet. Die horizontalen und vertikalen Median-Breiten werden bestimmt. Aus der vertikalen Median-Breite und der horizontalen Median- Breite wird eine mittlere Breite berechnet. Dieser Mittelwert wird als die Randbreite verwendet. Mit zunehmender Breite des Rands (Anzeige einer Entfokussierung) nimmt der Fokusmeßwert d(x,y) ab. Folglich wird ein Rand mit einem hohen Betrag nicht automatisch als ein fokussierter Rand gekennzeichnet. Stattdessen weist der Rand, wenn er breit ist, einen kleineren Fokusmeßwert auf. Wenn der Rand schmal ist, weist er einen höheren Fokusmeßwert auf.
  • Jedem Block wird auf der Grundlage des Werts der Sobel- Fokusmessung ein Wert von 0 bis 255 zugewiesen. Im Block 53 wird eine Fokusschwelle für den Fokusgradienten festgelegt. Diese Schwelle kann ein vorbestimmter Wert sein oder auf der Grundlage der gewünschten Informationsübertragungsrate festgelegt werden. Aufgrund von Bandbreitenbeschränkungen kann es zum Beispiel erforderlich sein, daß nur ein bestimmter Prozentsatz des Einzelbilds als relevant gekennzeichnet und mit der höheren Rate übertragen wird. Folglich kann die Schwelle so gewählt werden, daß die Vordergrundschablone (siehe die nachfolgende Besprechung) diesem Prozentsatz entspricht.
  • Im Block 54 von Fig. 5 werden Teile des Einzelbildes zwischen fokussiert und entfokussiert unterschieden. Fig. 7 ist ein erstes Zweipegel-Fokusmeßeinzelbild 75. An der Ausgabe des Sobel-Operators wird eine Zweipegeloperation durchgeführt. Jeder Block, der einen Fokusmeßwert über der Schwelle aufweist, wird als fokussiert definiert. Jeder Block, der einen Fokusmeßwert unter der Schwelle aufweist, wird als entfokussiert definiert. In Fig. 7 sind die fokussierten Blöcke als weiß abgebildet (z. B. Pel 71), und die entfokussierten Blöcke sind mit schwarzen Linien gezeigt (z. B. Pel 72). Folglich wird jeder Block entweder als fokussiert oder entfokussiert bestimmt. Zur Zeit wird bevorzugt, eine einzige Schwelle zu verwenden, und das Einzelbild wird zwischen fokussierten und entfokussierten Teilen unterschieden. Als Alternative könnte eine zweite Schwelle verwendet werden, so daß die entfokussierten, fokussierten und die dazwischenliegenden Teile festgelegt werden. Jeder Teiltyp könnte mit einer verschiedenen Bitrate oder verschiedenen Frequenz je nach Anforderung für die konkrete Anwendung übertragen werden. Selbstverständlich könnte jede beliebige Anzahl solcher Schwellen verwendet werden, wobei das Einzelbild zu verschiedenen Graden der Fokussierung segmentiert wird.
  • Der Teil des Einzelbildes, der als Vordergrund gekennzeichnet werden soll, wird im Block 55 von Fig. 5 bestimmt. Vorzugsweise werden Bereiche des Einzelbildes zwischen den fokussierten Blöcken von Fig. 7 ebenfalls als fokussiert gekennzeichnet, so daß eine zusammenhängende Schablone entsteht. Die Schablone überlappt den Teil des Einzelbildes, der als Vordergrund gekennzeichnet werden soll. Fig. 8 ist ein Zweipegel-Fokusmeßeinzelbild 80, nachdem eine horizontale Füllung an dem ersten Zweipegel- Fokusmeßeinzelbild durchgeführt wurde. Zwischen den fokussierten Blöcken, die sich auf demselben horizontalen Niveau befinden, werden horizontale Bänder eingefügt. Fig. 9 ist ein Zweipegel-Fokusmeßeinzelbild 90, nachdem eine vertikale Füllung an dem Zweipegel- Fokusmeßeinzelbild 80 von Fig. 8 durchgeführt wurde. Zwischen fokussierten Blöcken, die sich auf demselben vertikalen Niveau befinden, werden vertikale Bänder eingefügt. Die Schritte des horizontalen und vertikalen Füllens werden iteriert, bis sich das Bild stabilisiert. Fig. 10 ist ein Zweipegel- Fokusmeßeinzelbild 110, nachdem sich die Fülloperationen stabilisiert haben. Das stabilisierte Bild ist die Vordergrundschablone 111. Die Vordergrundschablone könnte natürlich auch auf andere Weise erzeugt werden. Zum Beispiel könnten feste Formen an die fokussierten Blöcke von Fig. 8 angepaßt werden, um eine Abschätzung des fokussierten Bereichs zu erzeugen. Dieses oder andere Schablonenerzeugungsverfahren können verwendet werden, um Rechenzeit zu sparen.
  • Danach wird ein Umriß der Vordergrundschablone 111 erzeugt. Die Blöcke an der Peripherie der Vordergrundschablone 111 in Fig. 11 werden als der Umriß 125 gekennzeichnet (siehe Fig. 12). Ein dem Umriß entsprechendes Umrißsignal wird durch den Computerprozessor erzeugt. Alle Blöcke des Umrisses und die Blöcke in dem Umriß werden als Vordergrund gekennzeichnet. Ein dem Umriß entsprechendes Signal wird durch die Verarbeitungseinheit 106 erzeugt.
  • Ein segmentiertes Einzelbildsignal fn wird im Block 56 von Fig. 5 durch die Verarbeitungseinheit 106 aus dem ursprünglichen Einzelbildsignal fn und dem Umrißsignal erzeugt. Das segmentierte Einzelbildsignal wird dann zu einem Codierer oder einem Aufzeichnungsmedium gesendet.
  • Gemäß einem anderen Aspekt der Erfindung kann die oben erörterte Segmentierung auf der Grundlage der Fokussierung mit einer Segmentierung auf der Grundlage von Bewegung kombiniert werden, um ein segmentiertes Bewegungs-/Fokus-Einzelbildsignal zu erzeugen. Fig. 12 ist ein Blockschaltbild der Schritte zur Erzeugung eines solchen segmentierten Bewegungs-/Fokus- Einzelbildes. Im Block 152 wird in dem ursprünglichen Einzelbild Bewegung erkannt. Bei einem akzeptablen Verfahren zur Segmentierung auf der Grundlage von Bewegung in der Videosequenz, das in B. G. Haskell, P. L. Gordon, R. L. Schmidt und J. V. Scattaglia, IEEE Trans. on Communications, Band Com-25, Nr. 11 1977, besprochen wird, wird ein Bewegungsdetektor 41 verwendet, um die stationären Blöcke in jedem Einzelbild einer Bewegungs-Videosequenz von den bewegten Blöcken in diesem Einzelbild zu unterscheiden. Im Block 153 wird eine Bewegungsschwelle festgelegt. Analog zu der oben erörterten Fokusschwelle kann die Bewegungsschwelle eine vorbestimmte Konstante sein. Als Alternative kann die Bewegungsschwelle im Hinblick auf die verfügbare Bandbreite festgelegt werden, so daß ein bestimmter Prozentsatz des Einzelbildes als bewegt (d. h. relevant) gekennzeichnet wird. Das Einzelbild wird im Hinblick auf die Bewegungsschwelle im Block 154 in bewegte und stationäre Blöcke unterschieden. Im Block 157 wird eine Reihe von horizontalen und vertikalen Fülloperationen durchgeführt, bis eine stabile Bewegungsschablone gebildet wird.
  • Die auf Bewegung basierende Schablone wird im Block 200 mit der auf Fokussierung basierenden Schablone geschnitten. Das heißt, es werden nur die Teile des Bildes, die in beiden Schablonen als relevant gekennzeichnet sind, in der kombinierten Bewegungs-/Fokusschablone als relevant gekennzeichnet. Im Block 201 wird ein Umriß für das geschnittene Segment bestimmt und ein Umrißsignal erzeugt. Das ursprüngliche Einzelbildsignal wird dann mit dem Umrißsignal kombiniert (Block 202), um ein segmentiertes Bewegungs-/Fokuseinzelbild zur Übertragung, Speicherung oder Reproduktion zu erzeugen.

Claims (24)

1. Verfahren zum Segmentieren eines ursprünglichen Einzelbildes (70) in einen relevanten Teil und einen weniger relevanten Teil, mit den folgenden Schritten:
Erfassen (50) eines Signals, das dem ursprünglichen Einzelbild (70) entspricht, wobei das Signal für jeden Block ein Bildattribut umfaßt;
Vergleichen des Bildattributs jedes Blocks mit dem Bildattribut eines anderen Blocks;
Bereitstellen (51) einer Fokusmessung (z. B. 8) für jeden Block, die mindestens zum Teil auf dem Attributvergleich basiert, wobei die Fokusmessung eine Funktion (d) ist, die ein Verhältnis einer Abschätzung einer Randbreite (w) und des Betrags (5) eines Randfokusgradienten umfaßt, und Zuordnen eines Fokuswerts zu jedem Block auf der Grundlage der Fokusmessung;
Vergleichen (54) des Fokuswerts jedes Blocks mit einer Fokusschwelle;
Kennzeichnen (54) der Blöcke mit einem Fokuswert über der Schwelle als fokussiert und Kennzeichnen (54) der Blöcke mit einem Fokuswert unter der Schwelle als nicht fokussiert; und
Erzeugen (56) eines segmentierten Einzelbildes (110), das mindestens zum Teil auf den Kennzeichnungen basiert.
2. Verfahren nach Anspruch 1, wobei das Bildattribut eine Luminanzkomponente ist.
3. Verfahren nach Anspruch 2, wobei jeder Block einen einzelnen Pel umfaßt.
4. Verfahren nach Anspruch 1, wobei das Bildattribut mit den Bildattribut eines angrenzenden Blocks verglichen wird.
5. Verfahren nach Anspruch 1, weiterhin mit dem Schritt des Glättens (52) des ursprünglichen Einzelbildsignals (70).
6. Verfahren nach Anspruch 5, wobei das Glätten des Einzelbildsignals ein Mitteln der Luminanzkomponente eines Blocks mit einer Luminanzkomponente eines angrenzenden Blocks umfaßt.
7. Verfahren nach Anspruch 1, wobei das Vergleichen des Bildattributs das Falten einer Matrix von Pels eines Blocks mit einem Impulsantwortarray umfaßt.
8. Verfahren nach Anspruch 7, wobei das Impulsantwortarray ein Sobel-Antwortarray ist.
9. Verfahren nach Anspruch 8, wobei die Fokusmessung umgekehrt proportional zu der Randbreite ist.
10. Verfahren nach Anspruch 1, weiterhin mit dem Schritt des Berechnens (53) der Schwelle.
11. Verfahren nach Anspruch 10, wobei die Schwellenberechnung auf einem gewählten Prozentsatz des Einzelbildes basiert.
12. Verfahren nach Anspruch 11, wobei der gewählte Prozentsatz auf einer für die Übertragung verfügbaren Bandbreite basiert.
13. Verfahren nach Anspruch 1, bei dem weiterhin auf der Grundlage der Kennzeichnungen ein Umriß (125) der fokussierten Teile erzeugt wird, wobei das segmentierte Einzelbild (56) mindestens zum Teil auf der Grundlage des Umrisses erzeugt wird.
14. Verfahren nach Anspruch 1, weiterhin mit den folgenden Schritten:
Messen (152) der Bewegung jedes Blocks auf der Grundlage mehrerer der ursprünglichen Einzelbilder;
Vergleichen des Bewegungsmaßes jedes Blocks mit einer Bewegungsschwelle; und
Kennzeichnen (154) der Blöcke mit einem Bewegungsmaß über der Bewegungsschwelle als bewegt und Kennzeichnen (154) der Blöcke mit einem Bewegungsmaß unter der Bewegungsschwelle als nicht bewegt;
wobei das segmentierte Einzelbild mindestens zum Teil auf der Grundlage der Bewegungskennzeichnung erzeugt (202) wird.
15. Verfahren nach Anspruch nach Anspruch 14, weiterhin mit den folgenden Schritten:
Erzeugen (57) einer Fokusschablone auf der Grundlage der Fokuskennzeichnungen;
Erzeugen (157) einer Bewegungsschablone auf der Grundlage der Bewegungskennzeichnungen; und
Erzeugen (200) einer kombinierten Schablone auf der Grundlage der Fokusschablone und der Bewegungsschablone;
wobei das segmentierte Einzelbild auf der Grundlage der kombinierten Schablone erzeugt (202) wird.
16. Verfahren nach Anspruch 15, wobei die kombinierte Schablone die Schnittmenge der Bewegungsschablone und der Fokusschablone ist.
17. Verfahren nach Anspruch 16, bei dem weiterhin die kombinierte Schablone umrissen (201) und ein Umrißsignal erzeugt wird, wobei das segmentierte Einzelbild auf der Grundlage des Umrißsignals erzeugt (202) wird.
18. Verfahren nach Anspruch 1, wobei die Fokusschwelle eine erste Fokusschwelle ist, und weiterhin mit den folgenden Schritten:
Vergleichen des Fokuswerts jedes Blocks mit einer zweiten Fokusschwelle; und
Kennzeichnen der Blöcke mit einem Fokuswert zwischen der ersten Fokusschwelle und der zweiten Fokusschwelle als dazwischenliegend;
wobei das segmentierte Einzelbild mindestens zum Teil auf der Grundlage der Kennzeichnungen als fokussiert, dazwischenliegend oder nicht fokussiert erzeugt wird.
19. Vorrichtung zum Erzeugen eines Ausgangssignals, das einen Umriß relevanter Informationen in einem Videoeinzelbild (70) darstellt, zur Verwendung bei der Komprimierung digitaler Signale, wobei die Vorrichtung folgendes umfaßt:
ein Empfangsmittel zum Empfangen eines digitalen Signals, wobei das empfangene digitale Signal mehrere Blöcke darstellt, die jeweils ein Bildattribut aufweisen;
ein Speichermittel zum Speichern des Bildattributs der Blöcke; und
ein Verarbeitungsmittel (106) zum Verarbeiten des empfangenen digitalen Signals, um das Ausgangssignal zu erzeugen, wobei das Verarbeitungsmittel betreibbar ist, um folgendes durchzuführen: Speichern mindestens einer Matrix von Attributen;
Berechnen eines Fokusgradienten, der mindestens zum Teil auf der gespeicherten Matrix basiert;
Abschätzen einer Randbreite;
Berechnen (51) einer Fokusmessung (z. B. 8), die eine Funktion ist, die ein Verhältnis des Randfokusgradienten und der Randbreite umfaßt;
Zuordnen eines Fokuswerts zu jedem Block auf der Grundlage der Fokusmessung;
Vergleichen (54) jedes Fokuswerts mit einer Fokusschwelle;
Kennzeichnen (54) jedes Blocks mit einem Fokuswert über der Fokusschwelle als fokussiert;
Kennzeichnen (54) jedes Blocks mit einem Fokuswert unter der Fokusschwelle als nicht fokussiert; und
Definieren eines Fokusumrisses (125), der mindestens zum Teil auf den fokussierten Blöcken basiert.
20. Vorrichtung nach Anspruch 19, wobei das Verarbeitungsmittel weiterhin betreibbar ist, um folgendes durchzuführen:
Definieren (57) einer Fokusschablone durch Kennzeichnen der Bereiche zwischen den fokussierten Blöcken als fokussiert;
Berechnen (152) eines Bewegungsgradienten, der auf mehreren der Einzelbilder und mindestens zum Teil auf der gespeicherten Matrix basiert;
Zuordnen (152) eines Bewegungswerts zu jedem Block auf der Grundlage des Bewegungsgradienten;
Vergleichen (154) jedes Bewegungswerts mit einer Bewegungsschwelle;
Kennzeichnen (154) jedes Blocks mit einem Bewegungswert über der Bewegungsschwelle als bewegt;
Kennzeichnen (154) jedes Blocks mit einem Bewegungswert unter der Bewegungsschwelle als unbewegt;
Definieren (157) einer Bewegungsschablone, die mindestens zum Teil auf den bewegten Blöcken basiert; und
Definieren (201) eines Bewegungs-/Fokusumrisses auf der Grundlage der Fokusschablone und der Bewegungsschablone.
21. Vorrichtung nach Anspruch 19, wobei das Attribut eine Luminanzkomponente ist.
22. Vorrichtung nach Anspruch 19, wobei das Verarbeitungsmittel weiterhin betreibbar ist, um die Fokusschwelle zu berechnen.
23. Vorrichtung nach Anspruch 19, wobei das Verarbeitungsmittel weiterhin betreibbar ist, um die Fokusschwelle auf der Grundlage eines gewählten Teils des Videoeinzelbildes zu berechnen.
24. Vorrichtung nach Anspruch 19, wobei das Verarbeitungsmittel weiterhin betreibbar ist, um die Fokusschwelle auf der Grundlage einer vorbestimmten Bandbreite zu berechnen.
DE69619887T 1995-04-25 1996-04-17 System und Methode für focusbasierte Bildsegmentation für Videosignale Expired - Lifetime DE69619887T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US42826595A 1995-04-25 1995-04-25

Publications (2)

Publication Number Publication Date
DE69619887D1 DE69619887D1 (de) 2002-04-25
DE69619887T2 true DE69619887T2 (de) 2002-09-26

Family

ID=23698178

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69619887T Expired - Lifetime DE69619887T2 (de) 1995-04-25 1996-04-17 System und Methode für focusbasierte Bildsegmentation für Videosignale

Country Status (4)

Country Link
EP (1) EP0741496B1 (de)
JP (1) JP3266501B2 (de)
CA (1) CA2173888C (de)
DE (1) DE69619887T2 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0891075A3 (de) * 1997-06-09 2002-03-06 Seiko Epson Corporation Bildverarbeitungsgerät und -verfahren sowie Bildauswertungsvorrichtung und -verfahren
US6404901B1 (en) 1998-01-29 2002-06-11 Canon Kabushiki Kaisha Image information processing apparatus and its method
KR101348596B1 (ko) 2008-01-22 2014-01-08 삼성전자주식회사 임장감 생성 장치 및 방법
US9064295B2 (en) * 2013-02-04 2015-06-23 Sony Corporation Enhanced video encoding using depth information
EP3021583B1 (de) * 2014-11-14 2019-10-23 Axis AB Verfahren zur Identifizierung relevanter Bereiche in Digitalbildern, Verfahren zur Codierung von Digitalbildern und Codierungssystem
CN115243017B (zh) * 2022-08-03 2024-06-07 上海研鼎信息技术有限公司 一种改善图像质量的方法及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8906587D0 (en) * 1989-03-22 1989-05-04 Philips Electronic Associated Region/texture coding systems
JP3028553B2 (ja) * 1990-04-09 2000-04-04 ソニー株式会社 画像処理装置及び画像処理方法
JP3175175B2 (ja) * 1991-03-01 2001-06-11 ミノルタ株式会社 合焦検出装置

Also Published As

Publication number Publication date
EP0741496B1 (de) 2002-03-20
JP3266501B2 (ja) 2002-03-18
DE69619887D1 (de) 2002-04-25
EP0741496A2 (de) 1996-11-06
CA2173888C (en) 2000-04-04
CA2173888A1 (en) 1996-10-26
EP0741496A3 (de) 1999-11-17
JPH08307867A (ja) 1996-11-22

Similar Documents

Publication Publication Date Title
US5710829A (en) System and method for focused-based image segmentation for video signals
DE69613949T2 (de) Vorrichtung zum Detektieren von Schnitten in einer Videosequenz
DE69811631T2 (de) Bewegungsvektorschätzung und detektion von bedeckten/unbedeckten bildteilen
DE69523135T2 (de) Bildverarbeitungsvorrichtung und Verfahren
DE69628083T2 (de) Bildverarbeitungsgerät und Methode
DE69734855T2 (de) Vorrichtung und Verfahren zur Extraktion eines Objektes in einem Bild
EP0259562B1 (de) Verfahren zur bewegungskompensierten Bild-zu-Bild-Prädiktionscodierung
DE69427801T2 (de) Verfahren und Gerät zur Bestimmung von Bewegungsvektorfelden durch die Unterdrückung lokaler Abweichungen
DE69623342T2 (de) Videokodierer und -dekodierer mit bewegungsbasierter bildsegmentierung und bildzusammenfügung
DE69634962T2 (de) Extrapolation von Pixelwerten eines in einem Block enthaltenen Videoobjektes
DE69922973T2 (de) Verfolgung semantischer objekte in vektorbildsequenzen
DE69523441T2 (de) Verfahren zur Segmentierung und Schätzung des Bewegungsfeldes eines sich bewegenden Objektes
DE69737141T2 (de) Bildsegmentierung
DE69717176T2 (de) Korrektur der Kamerabewegung zwischen zwei Bildern
DE69724906T2 (de) Numerisches Bildverarbeitungsverfahren zur automatischen Extraktion bandförmiger Objekte
DE60020019T2 (de) Prüfung der Dekodierung von Bitströmen
DE69226755T2 (de) Vorrichtung zur Fehlerverdeckung in einer Transformationskodierung von Bewegtbildern
EP0232417A1 (de) Verfahren zur korrektur von übertragungsfehlern.
DE19743202B4 (de) Verfahren zum Codieren eines Bewegungsvektors
DE69728757T2 (de) Verfahren und Vorrichtung zum Kodieren eines Objektes unter Verwendung einer Konturbewegungsschätztechnik
DE4224568C2 (de) Vorrichtung und Verfahren zur Bildung der Anzeige eines dreidimensionalen sequentiellen tomografischen Flächenschattierungsbildes
DE19739266A1 (de) Verfahren und Vorrichtung zum Kodieren binärer Formen
DE4023449C1 (de)
DE19738552A1 (de) Verfahren und Vorrichtung zum Abschätzen der Konturenbewegung eines binären Bildes unter Verwendung eines Vergleichsalgorithmus für gewichtete Blöcke
DE69515535T2 (de) Verfahren und Vorrichtung zum Bildvergleich

Legal Events

Date Code Title Description
8364 No opposition during term of opposition