DE69619887T2 - System und Methode für focusbasierte Bildsegmentation für Videosignale - Google Patents
System und Methode für focusbasierte Bildsegmentation für VideosignaleInfo
- Publication number
- DE69619887T2 DE69619887T2 DE69619887T DE69619887T DE69619887T2 DE 69619887 T2 DE69619887 T2 DE 69619887T2 DE 69619887 T DE69619887 T DE 69619887T DE 69619887 T DE69619887 T DE 69619887T DE 69619887 T2 DE69619887 T2 DE 69619887T2
- Authority
- DE
- Germany
- Prior art keywords
- focus
- block
- threshold
- motion
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000003709 image segmentation Methods 0.000 title description 3
- 230000033001 locomotion Effects 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 46
- 238000005259 measurement Methods 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims 1
- 230000011218 segmentation Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000011045 prefiltration Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000003491 array Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000003708 edge detection Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 2
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/115—Selection of the code volume for a coding unit prior to coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
- Die vorliegende Erfindung betrifft Verfahren zum Segmentieren eines ursprünglichen Einzelbildes mit Blöcken in einen relevanten Teil und einen weniger relevanten Teil und eine Vorrichtung zur Erzeugung eines Ausgangssignals, das einen Umriß relevanter Informationen in einem Videoeinzelbild darstellt, zur Verwendung bei der Komprimierung digitaler Signale.
- Bewegungs-Video kann durch ein digitales Signal dargestellt werden, bei dem eine Reihe von Informationsbit jedes Videoeinzelbild darstellt. Wenn mehr Informationsbit zur Darstellung jedes Rahmens erforderlich sind, steigen die Kosten und die Komplexität der notwendigen Hardware zur Verarbeitung der Signale und die erforderliche Zeit zur Verarbeitung, Speicherung und Übertragung des Signals.
- Die Bildkomprimierung ist ein Prozeß, der es gestattet, die Bilder, wie zum Beispiel Einzelbilder eines Bewegungs-Video, darstellenden digitalen Signale in einer codierten Form über einen Kommunikationskanal zu senden oder auf einem Medium, wie zum Beispiel einer CD-ROM, zu speichern, wobei weniger Datenbit verwendet werden, als für ein uncodiertes Bild erforderlich sind. Da die Speicherung und Übertragung digitaler Videosignale für viele Anwendungen zentral ist und Videosignale, die eine hohe Bitrate erfordern, mehr Zeit und Geräte zur Verarbeitung entweder bei der Speicherung oder Übertragung erfordern, sind Techniken zur Reduktion der Bitrate digitaler Videosignale für diese im Fortschritt befindliche Technik äußerst wichtig.
- Um die Gesamt-Informationsmenge, die zum Reproduzieren einer Videobildfolge erforderlich ist, (und damit die Kosten des Zeitaufwands und der Geräte zur Reproduktion der Folge) zu reduzieren, können Einzelbilder in relevantere Teile und weniger relevante Teile segmentiert werden. Die Daten, die den relevanteren Teil betreffen, werden häufiger und/oder mit höherer Auflösung übertragen, als die Daten, die den weniger relevanten Teil betreffen. Dementsprechend müssen weniger Informationen übermittelt werden, als bei einer Übertragung aller Daten mit einer höheren Rate. Außerdem kann dadurch das Signal für das Video über eine kleinere Bandbreite übertragen werden, als bei einer Übertragung aller Daten.
- Die primären Segmentierungstechniken sind Segmentierung auf der Grundlage von Bewegung (siehe S. Peleg & H. Rom, "Motion-Based Segmentation", Proc. IEEE Int'1 Conf. Computer Vision and Pattern Recognition 109-113 (1990)), Segmentierung auf der Grundlage von Intensität (siehe R. Haralick und L. Shapiro, "Image Segmentation Techniques", 2 Computer Graphics, Vision, and Image Processing 100-32 (1985)) und die Segmentierung auf der Grundlage der Disparität (siehe M. Waldowiski, "A New Segmentation Algorithm for Videophone Applications based on Stereo Image Pair", 39 IEEE Tran. Communication 1856-68 (1981)). Der auf Bewegung basierende Ansatz segmentiert Objekte in einem Einzelbild mit ähnlichen Geschwindigkeiten. Dieser Ansatz versagt bei Szenen, die sowohl Vordergrund- als auch Hintergrundbewegung enthalten, wodurch der weniger relevante Hintergrund als relevanter behandelt wird. Der auf Intensität basierende Ansatz segmentiert Bilder auf der Grundlage des Intensitätskontrasts und der räumlichen Position. Dieser Ansatz versagt für strukturierte Objekte, da ein einzelnes Objekt fälschlicherweise in mehrere Objekte segmentiert werden kann. Der auf Disparität basierende Ansatz mißt die Disparität zwischen Stereobildern, um Objekte zu segmentieren. Um die Disparität zu messen, ist eine Punktentsprechung zwischen den Bildern erforderlich, dies ist jedoch eine komplexe und fehleranfällige Aufgabe. Folglich ist keines dieser Segmentierungsverfahren völlig zufriedenstellend.
- In einem typischen Videoeinzelbild enthält der Vordergrund wichtigere Informationen als der Hintergrund. Folglich ist es wünschenswert, Informationen, die dem Vordergrund entsprechen, mit einer höheren Auflösung oder häufiger als die Hintergrundinformationen zu senden. Jedes Videoeinzelbild ist aus Bildelementen oder "Pixeln" oder "Pels" zusammengesetzt. Die Bildfokussierung (oder umgekehrt die Bildentfokussierung) ist ein Maß der Schärfe des Bildes für einen Teil eines Einzelbildes, wie zum Beispiel ein Pel oder einen Block von Pels. Die Bildfokussierung kann leicht aus Komponenten mit hohen Frequenzen, wie zum Beispiel scharfen Rändern, gemessen werden: je weniger verschwommen ein Rand ist, desto höher ist die Fokussierung. Folglich kann der Teil des Einzelbildes, der fokussiert ist, durch Auffinden der weniger verschwommenen Ränder bestimmt werden. Unter der Annahme, daß die fokussierten Ränder den Vordergrund umreißen, kann das Einzelbild in einen Vordergrund (fokussiert) und einen Hintergrund (nicht fokussiert oder "entfokussiert") segmentiert werden. Der Vordergrund kann dann als relevanter und der Hintergrund als weniger relevant behandelt werden, wobei nur der Vordergrund mit einer höheren Auflösung oder einer höheren Frequenz gesendet oder codiert wird, wodurch bei der Bitrate gespart wird.
- Sivan Z et al. "Change Detection and Texture Analysis for Image Sequence Coding" Signal Processing. Image Communication, Band 6, Nr. 4, 1.8.1994 (1994-08-01), Seiten 357-376, XP000458727 ISSN: 0923-5965, betrifft ein Verfahren zur Videocodierung. Als Verbesserung von Bildsequenzcodierern, die Blöcke auch dann auffrischen, wenn sie zu einem stationären Hintergrundbereich gehören, erkennt der Codierer solche Blöcke und ermöglicht, diese zu kopieren, statt aufzufrischen. Dieses Kopieren vermindert die Bitrate des Codierers.
- Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren nach Anspruch 1 bereitgestellt.
- Gemäß einem anderen Aspekt der vorliegenden Erfindung wird eine Vorrichtung nach Anspruch 19 bereitgestellt.
- Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erzeugung eines segmentierten Einzelbildes auf der Grundlage der Fokusmessung von Teilen eines ursprünglichen Einzelbildes. Ein Signal wird entsprechend einem ursprünglichen Einzelbild erfaßt. Das ursprüngliche Einzelbild ist aus Blöcken zusammengesetzt, und jeder Block weist ein Bildattribut auf. Das Bildattribut jedes Blocks wird mit dem Bildattribut eines anderen Blocks verglichen. Jedem Block wird auf der Grundlage des Vergleichs von Bildattributen ein Fokusmeßwert zugewiesen. Der Fokusmeßwert jedes Blocks wird dann mit einem Schwellen-Fokusmeßwert verglichen. Blöcke mit einem Fokusmeßwert über der Schwelle werden als fokussiert gekenzeichnet. Blöcke mit einem Fokusmeßwert unter der Schwelle werden als entfokussiert bezeichnet. Auf der Grundlage des ursprünglichen Einzelbildes und der Kennzeichnungen als fokussiert oder entfokussiert wird dann ein segmentiertes Einzelbild erzeugt. Es kann eine Bildsegmentierung auf der Grundlage von Bewegung in Verbindung mit einer Segmentierung auf der Grundlage der Fokussierung verwendet werden, um ein kombiniertes segmentiertes Bewegungs-/Fokus-Einzelbild bereitzustellen.
- Die Erfindung kann in einem Verarbeitungsmittel verwendet werden, das wirkt, um ein digitales Signal zu verarbeiten, das einem ursprünglichen Einzelbild entspricht, um das Ausgangssignal zu erzeugen, das einem segmentierten Einzelbild entspricht. Ein wichtiger Aspekt jeder erfindungsgemäßen Vorrichtung besteht darin, daß sie ein Verarbeitungssystem sein kann, das auf Firmware oder Hardware basiert.
- Eine Ausführungsform zur Benutzung und/oder Verteilung der vorliegenden Erfindung ist als Software. Die Softwareausführungsform enthält mehrere Verarbeitungssystembefehle, die in einem Speichermedium gespeichert werden. Zu bevorzugten Speichermedien gehören ohne Einschränkung magnetische, optische oder Halbleitermedien sowie geeignet angeordnete Kombinationen dieser. Die Verarbeitungssystembefehle sind durch ein Verarbeitungssystem lesbar und wirken bei Ausführung, um mindestens ein Verarbeitungssystem zur Segmentierung eines einem ursprünglichen Einzelbild entsprechenden Signals unter Verwendung von Verfahren gemäß den Prinzipien der vorliegenden Erfindung zu steuern.
- Für ein vollständigeres Verständnis der vorliegenden Erfindung und ihrer Vorteile wird nun auf die folgende ausführliche Beschreibung der Erfindung in Verbindung mit den beigefügten Zeichnungen, in denen gleiche Zahlen gleiche Teile bezeichnen, Bezug genommen. Es zeigen:
- Fig. 1 ein Blockschaltbild einer Ausführungsform eines Bewegungsvideocodierungssystems 100 der Erfindung;
- Fig. 2 eine isometrische Ansicht eines beispielhaften Verarbeitungssystems zur Komprimierung von Videodaten mit der vorliegenden Erfindung;
- Fig. 3 ein Blockschaltbild eines beispielhaften Mikroverarbeitungssystems, das in Verbindung mit dem Verarbeitungssystem von Fig. 2 verwendet werden kann;
- Fig. 4 eine schematische Ansicht eines einfachen Linsenmodells 300, auf dem die Fokusmeßtheorie basiert;
- Fig. 5 ein Blockschaltbild der Gesamtfunktionsweise des Vorfilters 30;
- Fig. 6 ein Blockschaltbild der ersten Glättungsoperation, die im Block 52 des Vorfilters 30 durchgeführt wird;
- Fig. 7 ein erstes Zweipegel-Fokusmeßeinzelbild 70;
- Fig. 8 ein Zweipegel-Fokusmeßeinzelbild 80, nachdem eine horizontale Füllung an dem ersten Zweipegel- Fokusmeßeinzelbild durchgeführt wurde;
- Fig. 9 ein Zweipegel-Fokusmeßeinzelbild 90, nachdem eine vertikale Füllung an dem Zweipegel- Fokusmeßeinzelbild von Fig. 8 durchgeführt wurde;
- Fig. 10 ein Zweipegel-Fokusmeßeinzelbild 110, nachdem sich die Fülloperationen stabilisiert haben;
- Fig. 11 ein Zweipegel-Fokusmeßeinzelbild eines Umrisses 125 der Schablone 111 von Fig. 10 und
- Fig. 12 ein Blockschaltbild der Schritte zur Erzeugung eines segmentierten Bewegungs-/Fokuseinzelbildes.
- Fig. 1 ist ein Blockschaltbild einer Ausführungsform des Bewegungsvideocodierungssystems 100 der Erfindung. In einer Videoquelle 10, wie zum Beispiel einer Videokamera oder einem Laserdisk-Abspielgerät wird ein analoges Videosignal für eine Reihe von n Bildern erzeugt. Das Analogsignal Pn wird aus der Quelle 10 einem Vorprozessor 20 zugeführt, der einen Analog/Digital-Umsetzer enthält, in dem das Analogsignal in ein Digitalsignal ("ursprüngliches Einzelbildsignal") transformiert wird, das eine Reihe von n Einzelbildern darstellt. Gegebenenfalls kann das Digitalsignal weiter durch den Vorprozessor 20 in ein Digitalsignal mit entsprechender Auflösung umgesetzt werden, was möglicherweise abhängig davon, ob das Signal über einen Kommunikationskanal gesendet wird oder in einem digitalen Medium, wie zum Beispiel einer CD-ROM gespeichert wird, erforderlich sein kann.
- Jedes Videoeinzelbild des Bewegungsvideo umfaßt eine Matrix von Bildelementen oder "Pels" oder "Pixeln" f(x,y). Abhängig von der Anzahl von Pels pro Einzelbild und der Größe der Blöcke wird jedes Einzelbild in eine variable Anzahl von Blöcken unterteilt. Zur Zeit wird bevorzugt, daß jeder Block eine 4 · 4-Matrix von Pels umfaßt. Die Blöcke können natürlich eine andere Anzahl und Anordnung von Pels umfassen. Insbesondere kann jeder Block ein einziges Pel umfassen. Jedes Pel umfaßt ein Luminanz-Pel Y und zwei Chrominanz-Pels Cb und Cr. Wenn das Videosignal in digitaler Form vorliegt, wird jedes Attribut oder jede Komponente eines Blocks durch einen numerischen Wert dargestellt. Wenn Blöcke "verglichen" werden, wird der Wert der entsprechenden Blockkomponenten oder -attribute verglichen.
- Ein Vorfilter 30, das einen Computerprozessor, wie zum Beispiel ein Video-Verarbeitungsboard 31 enthält, ist mit dem Vorprozessor 20 verbunden und empfängt das ursprüngliche Einzelbildsignal als ein Eingangssignal aus dem Vorprozessor. Das Vorfilter 30 wirkt gemäß der vorliegenden Erfindung, um das Einzelbildsignal in einen Vordergrund und einen Hintergrund zu segmentieren, wodurch ein Ausgangssignal ("segmentiertes Einzelbildsignal") erzeugt wird, das einem segmentierten Einzelbild entspricht. Das segmentierte Einzelbild kann zu einem Codierer 40, wie zum Beispiel einem H.261- oder MPEG-Codierer gesendet werden, der das Signal für das segmentierte Einzelbild in einen komprimierten Videobitstrom übersetzt. Das von dem Codierer 40 erzeugte komprimierte Videosignal wird dann in einem Speichermedium 50, wie zum Beispiel einer CD-ROM, gespeichert oder durch einen Kanal, wie zum Beispiel eine ISDN-Strecke, übertragen.
- Ein Bewegungsdetektor 41, der Teil des Codierers 40 sein kann, kann benutzt werden, um zu bestimmten, wie sehr sich jeder Teil des Bildes bewegt. Als Alternative kann der Bewegungsdetektor 41 ein besonderes Gerät sein oder kann in das Vorfilter 30 integriert werden. Wie in bezug auf Fig. 12 ausführlicher erläutert wird, können die von dem Bewegungsdetektor 41 erzeugten Bewegungsinformationen zur Verwendung bei der weiteren Aufbereitung des segmentierten Einzelbildsignals zu dem Vorfilter 30 transferiert werden. Wie in Fig. 1 gezeigt, ist der Codierer 40 ein besonderes Gerät.
- Es versteht sich jedoch, daß der Codierer 40 und ein (nicht gezeigter) Decodierer in der Regel zusammen, wie in der Technik bekannt, als ein Codec bezeichnet werden.
- Der Codierer 40 erzeugt das komprimierte Signal unter Verwendung wohlbekannter Komprimierungsverfahren, wie zum Beispiel der CCITT-Empfehlung (Consultative Committee on International Telegraphy and Telephony) H.261, revidierter Entwurf der Empfehlung H.261 - Video Codec for Audiovisual Services at p · 64 kBit/s, Study Group XV - Bericht R95 (Mai 1992), und dem ISO/IEC- MPEG-Standard. H.261 von CCITT ist ein Codierungsstandard für audiovisuelle Dienste mit einer Übertragungsrate von p · 64 kBit/s. Er findet Anwendungen in Videofernsprech-, Videokonferenz- und anderen audiovisuellen Übertragungen über ISDN-Netze. Die MPEG-Algorithmen, zu denen MPEG1 und MPEG2 gehören, wurden von der Moving Picture Experts Group (MPEG) entwickelt, die Teil eines zusammengesetzten technischen Komitees der International Standards Organisation (ISO) und International Electrotechnical Commission (IEC) ist. Die MPEG1-Standards, die im Komitee-Normenentwurf ESO-IEC JTCISC2/WG11MPEG CD- 11172, 1991, dargelegt werden, sind als Teil von MPEG2 enthalten, das in dem Komitee-Normenentwurf ISO-IEC JTC1/SC29/WG11/602, 1993, dargelegt wird. Die MPEG- Standards sind für qualitativ hochwertige digitale Videospeicherung und qualitativ hochwertige digitale Videoübertragung über ein Breitbandnetz bestimmt.
- Es wird zur Zeit beabsichtigt, die vorliegende Erfindung entweder mit einem H.261-Codec oder einem MPEG-Codec zu benutzen. Es sei jedoch bemerkt, daß die Erfindung auch auf Codecs angewandt werden kann, die andere Videocodierungsalgorithmen verwenden, die relevante Merkmale der H.261- oder MPEG-Algorithmen teilen, wie für Fachleute ersichtlich ist.
- Fig. 2 ist eine isometrische Ansicht eines beispielhaften Verarbeitungssystems zum Komprimieren von Videodaten mit der vorliegenden Erfindung. Das Verarbeitungssystem 100 ist als ein PC gezeigt, und ist in einer bevorzugten Ausführungsform Modell Nr. System 3333 von AT&T GIS in Dayton, Ohio. Das Verarbeitungssystem 100 kann geeigneterweise mit einer Kamera 109 gekoppelt werden und enthält ein Hardware- Gehäuse 101 mit einem Diskettenlaufwerk 102 und einem Festplattenlaufwerk 103, einen Monitor 104 und eine Tastatur 105. Der Monitor 104 und die Tastatur 105 können durch andere herkömmliche Ausgabegeräte und Eingabegeräte ersetzt oder mit diesen kombiniert werden.
- Das Diskettenlaufwerk 102 ist betreibbar, um externe Disketten zu empfangen, zu lesen, und zu beschreiben. Das Festplattenlaufwerk 103 ist betreibbar, um schnell speichern und abrufen zu können. Das Diskettenlaufwerk 102 kann durch eine beliebige herkömmliche geeignet angeordnete Struktur zum Empfangen und Senden von Daten und Befehlen ersetzt oder mit dieser kombiniert werden, darunter ohne Einschränkung Band- und CD-Laufwerke, Fernsprechsysteme und -geräte (darunter Videofernsprechtechnologie) und serielle und parallele Ports. Bei alternativen Ausführungsformen können Leiterplatten, wie zum Beispiel das Video- Verarbeitungsboard 31 von Fig. 1 hinzugefügt werden.
- Die Videoquelle 10 von Fig. 1 kann die Kamera 109 enthalten, die durch einen der erwähnten Ports mit dem Verarbeitungssystem 100 gekoppelt ist. Bei alternativen Ausführungsformen können die Eingangsvideoeinzelbilder über eines oder mehrere separate Speichergeräte, wie zum Beispiel eine Diskette oder eine CD, empfangen werden. Ein wichtiger Aspekt der beispielhaften Ausführungsform besteht deshalb darin, daß die Daten- und/oder Befehlsansammlung und -segmentierung nicht koinzident auftreten muß.
- Man beachte, daß das Hardware-Gehäuse 101 mit einem weggeschnittenen Teil dargestellt ist, der eines Verarbeitungseinheit 106 enthält, die geeigneterweise mit einem Speichergerät 107 gekoppelt ist. Das Speichergerät 107 kann ein Direktzugriffsspeicher ("RAM"), wie zum Beispiel ein DRAM- und/oder SRAM- Speichergerät oder ein Nur-Lese-Speicher ("ROM") oder andere herkömmliche, geeignet angeordnete Speichergeräte sein. Obwohl das Verarbeitungssystem 100 als eine einzige Verarbeitungseinheit, ein einziges Festplattenlaufwerk und eine einzige Speichereinheit aufweisend dargestellt ist, kann das Verarbeitungssystem 100 mit mehreren. Verarbeitungseinheiten und/oder geeignet angeordneten. Speichergeräten ausgestattet werden, die betrieben werden können, um zusammen die Prinzipien der vorliegenden Erfindung auszuführen.
- Obwohl die vorliegende Erfindung besonders vorteilhaft für die Verwendung bei der Videokomprimierung ist, sollte beachtet werden, daß sich die vorliegende Erfindung auch sehr gut für die Verwendung mit anderen Systemen eignet, die Signalkomprimierung verwenden, darunter ohne Einschränkung Verarbeitungssystemnetze (darunter lokale und großflächige Netze), Fernsprechsysteme (darunter Videofernsprechtechnologien), Direkt-Fernsehsysteme, Satellitensysteme, Land-Mobil-Funksysteme, Rundfunksysteme, Informationsspeicherungs-/Abrufsysteme und dergleichen.
- Obwohl zur Darstellung einer beispielhaften Verarbeitungssystemumgebung ein PC verwendet wird, können die Prinzipien der vorliegenden Erfindung in jedem beliebigen Verarbeitungssystem implementiert werden, das herkömmliche geeignet angeordnete Verarbeitungsmittel zur Durchführung einer Segmentierung mit der vorliegenden Erfindung aufweist, darunter ohne Einschränkung Kameras, Videofernsprecher, Fernsprecher, Fernsehgeräte, komplizierte Taschenrechner und tragbare, Laptop-/Notebook-, Mini-, Zentral- und Supercomputer, darunter RISC- und Parallelverarbeitungsarchitekturen, sowie in Verarbeitungssystemnetzkombinationen von obigen. Die herkömmliche Verarbeitungssystemarchitektur wird ausführlicher in William Stallings, Computer Organization and Architecture (MacMillan Publishing Co., 3. Auflage 1993) erörtert.
- Andere bevorzugte Ausführungsformen der vorliegenden Erfindung umfassen ohne Einschränkung Implementierungen in Firmware oder Hardware. Zu solchen beispielhaften Ausführungsformen können geeignet angeordnete Schaltkreise, darunter programmierbare Logikbauelemente, wie zum Beispiel PALs (programmierbare Array- Logik), PLAs (programmierbare logische Arrays) und DSPs (digitale Signalprozessoren) gehören. Andere beispielhafte Ausführungsformen können außerdem FPGAs (am Einsatzort programmierbare Gate-Arrays) und ASICs (anwendungsspezifische integrierte Schaltungen) enthalten.
- Fig. 3 zeigt ein Blockschaltbild eines beispielhaften Mikroverarbeitungssystems, das in Verbindung mit dem Verarbeitungssystem 100 verwendet werden kann. Das Mikroverarbeitungssystem kann so programmiert werden, daß es Einzelbildsignale mit den Techniken der vorliegenden Erfindung segmentiert. Das Mikroverarbeitungssystem enthält eine einzige Verarbeitungseinheit 106, die über einen Datenbus 203 mit einem einzigen Speichergerät 107 gekoppelt ist. Das Speichergerät 107 ist betreibbar, um einen oder mehrere Verarbeitungssystembefehle zu speichern, die die Verarbeitungseinheit 106 abrufen und ausführen kann. Die Verarbeitungseinheit 106 enthält eine Steuereinheit 200, eine Arithmetik-Logik-Einheit ("ALU") 201 und ein lokales Speichergerät 202, wie zum Beispiel einen stapelbaren Cache-Speicher oder mehrere Register. Die Steuereinheit 200 ist betreibbar, um Verarbeitungssystembefehle aus dem Speichergerät 107 zu holen. Die ALU 201 ist betreibbar, um mehrere Operationen durchzuführen, darunter Addition und boolische AND- Verknüpfung, die notwendig sind, um diese Befehle auszuführen. Das lokale Speichergerät 202 ist betreibbar, um lokale schnelle Speicherung bereitzustellen, die zum Speichern von temporären Ergebnissen und Steuerinformationen verwendet wird.
- Das Verarbeitungssystem 100 kann zur Messung der Fokussierung jedes Blocks in dem ursprünglichen Einzelbild zur Verwendung bei der Segmentierung des Einzelbildsignals verwendet werden, wie unten ausführlicher erörtert wird. Es ist bekannt, eine "Fokus"-Messung eines Teils eines Videoeinzelbildes zu verwenden, die eine Funktion der Tiefe ist, um Objektdistanzen für monokulare Systeme wie zum Beispiel Camcorder zu bestimmen. Siehe A. Pentland, "A New Sense of Depth of Field", IEEE Trans. Pattern Analysis and Machine Intelligence, Band 9, Nr. 4, Seiten 523-531, Juli 1993; M. Subbarao und G. Surya, "Depth from Defocus: A Spatial Domain Approach", Technischer Bericht Nr. 92.12.03, Computer Vision Laboratory, Electrical Engineering Department, SUNY, Stony Brook, NY; und C. Swain, M. Bishay, A. Peters und K. Kawamura, "Accuracy Improvement of Depth from Defocus using Fuzzy Logic", Technischer Bericht Nr. CIS-94-02, Center of Intelligent Systems, Vanderbilt University, Nashville, TN 37235, Mai 1994.
- Fig. 4 ist eine schematische Ansicht eines einfachen Linsenmodells 300, auf dem die Theorie der Fokusmessung basiert. Gemäß der Lenzschen Regel gilt:
- 1/f = 1/u + 1/v (1)
- wobei f die Brennweite, u die Distanz zwischen einem Objekt und der Linse und v die Distanz zwischen der Linse und der Fokalebene ist. Der Objektpunkt 303 ist nicht fokussiert, da die Bildebene I des Objektpunkts 303 von der Fokalebene I' verschoben ist. Auf der Bildebene erscheint der Objektpunkt 303 als ein entfokussiertes oder verschwommenes Bild 301, das als ein Verschwimmungskreis bezeichnet wird. Die Größe des Verschwimmungskreises 2r und daher der Grad der Fokussierung (oder umgekehrt der Entfokussierung) kann als Funktion der Tiefe u des Objektpunkts 303 gemäß Gleichung (2) ausgedrückt werden:
- 1/u = 1/f - 1/s -2r/sD
- wobei u die Distanz zwischen dem Objekt 303 und der Linse 302, f die Brennweite der Linse 302, s die Distanz zwischen der Linse 302 und der Bildebene I, r der Radius des Veschwimmungskreises 301 und D der Durchmesser der Linse 302 ist.
- Das verschwommene Bild kann durch eine Faltung des fokussierten Bildes mit einer Punktspreizfunktion h(x,y) ["PSF"] beschrieben werden. Idealerweise ist die PSF eine zylindrische kreissymmetrische Funktion mit einem Volumen von eins, die als Pillbox bezeichnet wird. In der Pillbox ist die Helligkeit gleichförmig, so daß folgendes gilt:
- Aufgrund der Linsenaberration und -diffraktion ist die Helligkeit jedoch nicht gleichförmig, sondern fällt in Richtung der Grenze allmählich ab. Somit wird die PSF durch eine zweidimensionale Gauß-Funktion definiert:
- wobei σ eine räumliche Konstante ist, die der Entfokussierungsmessung entspricht. σ ist proportional zu dem Verschwimmungskreis r, so daß folgendes gilt:
- σ = kr, (5)
- wobei k eine Proportionalitätskonstante ist. Das Einheitsvolumen der PSF beträgt 1. Folgendes wurde experimentell bewiesen:
- k = 1/ 2 (6)
- Durch Einsetzen in Gleichung (2) erhält man:
- 1/u = 1/f - 1/s - 2 2σ/sD (7)
- Durch Umordnen kann die Distanz u als Funktion des Radius des verschwommenen Kreises r (oder der Entfokussierungsmessung σ) geschrieben werden:
- Wenn ein Bild fokussiert ist, sind seine Ränder scharf und klar definiert. Dementsprechend ist der Wert von σ an einem fokussierten Rand kleiner. Ähnlich ist der Gradient der Fokussierung an einem fokussierten Rand ebenfalls größer, da die Bildattribute von Blöcken in der Nähe des Rands stark schwanken. In einem verschwommenen Rand ist die Änderung der Bildattribute über den Rand hinweg glatter, und der Gradient wird somit kleiner.
- Gemäß einer Ausführungsform der vorliegenden Erfindung werden die Blöcke eines Einzelbildsignals auf der Grundlage der Tiefenmessung jedes Blocks in einen Vordergrund und einen Hintergrund segmentiert. Insbesondere werden fokussierte Ränder erkannt. Es wird angenommen, daß diese Ränder den Vordergrundteil des Einzelbildes abgrenzen. Aus den fokussierten Rändern wird ein Umriß erzeugt. Ein Signal mit Informationen bezüglich des Umrisses und des ursprünglichen Rahmensignals wird erzeugt und zu einem Codierer gesendet, in dem der Vordergrund als relevanter und der Hintergrund als weniger relevant behandelt werden kann.
- Fig. 5 ist ein Blockschaltbild der Gesamtfunktionsweise des Vorfilters 30 der vorliegenden Erfindung. Im Block 50 wird ein ursprüngliches Einzelbildsignal erfaßt. Die Fokussierung jedes Blocks wird im Block 51 auf in der Technik bekannte Weise gemessen und dadurch ein Fokusgradient erzeugt. Das ursprüngliche Einzelbildsignal kann im Block 52 geglättet werden. Als Alternative könnte die im Block 52 durchgeführte Glättung vor der Messung der Fokussierung oder an anderen Punkten in der Segmentierung oder überhaupt nicht durchgeführt werden. Im Block 53 wird ein Schwellen-Fokuswert festgelegt. Der Fokuswert jedes Blocks wird im Block 54 mit dem Schwellen-Fokuswert verglichen, um die fokussierten Blöcke von den entfokussierten Blöcken zu unterscheiden. Blöcke mit einem Fokuswert über der Fokusschwelle werden als fokussiert gekennzeichnet; Blöcke mit einem Fokuswert unter der Fokusschwelle werden als entfokussiert gekennzeichnet. Im Block 55 wird auf der Grundlage der fokussierten Blöcke der Vordergrund bestimmt. Im Block 56 wird auf der Grundlage des Vordergrunds ein segmentiertes Einzelbildsignal erzeugt.
- Fig. 6 ist ein Blockschaltbild der ersten Glättungsoperation im Block 52 durch das Vorfilter 3 der vorliegenden Erfindung. Das ursprüngliche Einzelbild wird in Blöcke unterteilt, die vorzugsweise eine 4 · 4-Matrix von Pels umfassen (Block 61). Jedes Pel kann mehr als einem Block zugewiesen werden, so daß eine Blocküberlappung vorliegt. Die Luminanzkomponente jedes Pels wird mit der Luminanzkomponente jedes anderen Pels in dem Block kombiniert (Block 62), wie es in der Technik bekannt ist. Der kombinierte Luminanzwert wird der Position eines der Pels in dem Block zugewiesen, wie in der Technik bekannt. Dieser Prozeß wird für jeden Block fortgesetzt, bis jedem Pel ein kombinierter Luminanzwert zugewiesen wurde, wodurch ein geglättetes Einzelbildsignal entsteht.
- Die Fokussierung jedes Blocks in dem ursprünglichen Einzelbild wird im Block 51 gemessen. Die Fokusmessung jedes Blocks kann auf eine traditionelle Weise aus der Randstärke bestimmt werden, wie in E. Krotov, "Focusing", 1 Intl J. Comp. Vision 223-37 (1987) oder in W. Pratt, Digital Image Processing 491-508 (Wiley & Sons 2. Auflage 1991) beschrieben wird. Zur Zeit wird bevorzugterweise eine Sobel-Rand-Erkennung verwendet.
- Ränder eines fokussierten Bildes in einem Einzelbild werden durch Änderungen oder Unstetigkeiten in einem Bildamplitudenattribut über angrenzende Blöcke hinweg angezeigt. Insbesondere wird ein Gradient des Attributs berechnet. Ein Spike oder hoher Wert in dem Gradient zeigt einen Rand an. Da Ränder den Vordergrund (der fokussiert ist) von dem Hintergrund (der entfokussiert ist) unterscheiden, ist der Attribut-Gradient ein Gradient der Fokussierung bzw. ein Fokussierungsgradient. Zur Zeit wird bevorzugt, daß die Vorrichtung und das Verfahren der vorliegenden Erfindung Ränder auf der Grundlage der Änderungen oder Unstetigkeiten der Luminanzkomponente der Blöcke erkennen. Natürlich könnten auch Änderungen oder Unstetigkeiten in anderen Bildattributen verwendet werden, um Ränder zu erkennen und die vorliegende Erfindung weiterhin auszuüben.
- Der Fokusgradient entlang einer gewählten Linie über ein Einzelbild f(x,y) hinweg, das eine Matrix von X · Y- Pels umfaßt, wird folgendermaßen definiert:
- wobei G(x,y) der Fokusgradient, f(x,y) das Einzelbildsignal und θ der Winkel der Linie in Bezug auf die horizontale Achse ist. Der Fokusgradient kann in Zeilen und Spalten aufgeteilt werden, so daß der Zeilengradient folgendermaßen definiert ist:
- Gr(x,y) = f(x,y) - f(x,y-1) (10)
- Der Spaltengradient ist folgendermaßen definiert:
- Gc(x,y) = f(x,y) - f(x-1, Y) (11)
- Vorzugsweise wird ein Prewitt-Quadratwurzel-Randgradient mit einem 3 · 3-Pel-Randgradientenoperator verwendet, so daß folgendes gilt:
- G(x,y) = {[Gr(x,y)]² - [Gc(x,y)]²}1/2 (12)
- wobei G(x,y) der Fokusgradient, Gr(x,y) ein Zeilengradient und Gc(x,y) ein Spaltengradient ist. Der Zeilengradient Gr ist folgendermaßen definiert:
- Gr(x,y) = 1/K·2 [(A&sub2;+KA&sub3;+A&sub4;) - (A&sub0;+KA&sub7;+A&sub6;)] (13)
- Der Spaltengradient Gc ist folgendermaßen definiert:
- mit A&sub0; = a&sub0; f(x-1, y+1)
- A&sub1; = a&sub1; f(x, y+1)
- A&sub2; = a&sub2; f(x+1, y+1)
- A&sub3; = a&sub3; f(x+1, y)
- A&sub4; = a&sub4; f(x+1, y-1)
- A&sub5; = a&sub5; f(x, y-1)
- A&sub6; = a&sub6; f(x-1, y-1)
- A&sub7; = a&sub7; f(x-1, y)
- Der Gewichtungsfaktor an ist eine empirisch gewählte Konstante.
- Allgemeiner kann der Luminanz-Fokusgradient G(x,y) über ein kontinuierliches Randsegment durch Falten der Luminanzwerte der Pels mit einem Impulsantwortarray auf die folgende Weise gewonnen werden:
- G(c,y) = F(x,y) - H(x,y). (15)
- wobei F(x,y) die Luminanzmatrix für das Einzelbild, f(x,y) und H(x,y) ein Impulsantwortarray ist. Wenn man dies in Spalten und Zeilen aufteilt, erhält man
- Gr(x,y) = F(x,y) - Hr(x,y) (16)
- und
- Gc(x,y) = F(x,y) - Hc (x,y) (17)
- Zur Verwendung mit der Punktspreizfunktion können zahlreiche Impulsantwortarrays gewählt werden, darunter Pel-Differenz, separierte Pel-Differenz, Roberts-, Prewitt- und Frei-Chen-Impulsantwortarrays. Vorzugsweise wird ein Sobel-Impulsantwortarray verwendet. Die Sobel-Impulsantwortarrays lauten folgendermaßen:
- Zeilengradient:
- Spaltengradient:
- Bei Verwendung des Sobel-Impulsantwortarray kann der Fokusgradient G(x,y) durch S(x,y), einem Sobel- Gradienten, dargestellt werden. Der Wert des Sobel- Gradienten an jedem Pel wird bestimmt und eine X · Y- Matrix von Sobel-Gradientenfokusmeßwerten hergestellt. Um die Leistung des Randgradientenerzeugungsoperators insbesondere in stark rauschbehafteten Umgebungen zu verbessern, kann die Umgebung von einer 3 · 3-Matrix zu einer größeren Matrix erweitert werden.
- Die Verwendung traditioneller Fokusmeß- oder Randerkennungstechniken, wie zum Beispiel des oben besprochenen Sobel-Gradienten, kann zu Fehlern bei der Randerkennung führen. Fokussierte Ränder mit kleinen Beträgen und entfokussierte Ränder mit großen Beträgen können ähnliche Fokusmeßwerte ergeben. Die entfokussierten Ränder sollten jedoch folgendermaßen niedrigere Entfokussierungsmeßwerte aufweisen. Diese Ergebnisse können verbessert werden, indem man die Fokusmessung modifiziert. Ein Unterscheidungsmerkmal zwischen fokussierten und entfokussierten Rändern ist die Randbreite. Fokussierte Ränder weisen steilere Intensitätsgradienten und kleinere Breiten als entfokussierte Ränder auf. Die Fokusmessung kann folgendermaßen modifiziert werden:
- wobei d(x,y) der Fokusmeßwert, S(x,y) der Betrag der Sobel-Randerkennung auf einem Einzelbild f(x,y) und w die Randbreite in dem Einzelbild f(x,y) ist. Die Breite eines Randes wird durch Zählen der Anzahl von Pels in einem Rand in der vertikalen Richtung und in der horizontalen Richtung berechnet. Die horizontalen und vertikalen Median-Breiten werden bestimmt. Aus der vertikalen Median-Breite und der horizontalen Median- Breite wird eine mittlere Breite berechnet. Dieser Mittelwert wird als die Randbreite verwendet. Mit zunehmender Breite des Rands (Anzeige einer Entfokussierung) nimmt der Fokusmeßwert d(x,y) ab. Folglich wird ein Rand mit einem hohen Betrag nicht automatisch als ein fokussierter Rand gekennzeichnet. Stattdessen weist der Rand, wenn er breit ist, einen kleineren Fokusmeßwert auf. Wenn der Rand schmal ist, weist er einen höheren Fokusmeßwert auf.
- Jedem Block wird auf der Grundlage des Werts der Sobel- Fokusmessung ein Wert von 0 bis 255 zugewiesen. Im Block 53 wird eine Fokusschwelle für den Fokusgradienten festgelegt. Diese Schwelle kann ein vorbestimmter Wert sein oder auf der Grundlage der gewünschten Informationsübertragungsrate festgelegt werden. Aufgrund von Bandbreitenbeschränkungen kann es zum Beispiel erforderlich sein, daß nur ein bestimmter Prozentsatz des Einzelbilds als relevant gekennzeichnet und mit der höheren Rate übertragen wird. Folglich kann die Schwelle so gewählt werden, daß die Vordergrundschablone (siehe die nachfolgende Besprechung) diesem Prozentsatz entspricht.
- Im Block 54 von Fig. 5 werden Teile des Einzelbildes zwischen fokussiert und entfokussiert unterschieden. Fig. 7 ist ein erstes Zweipegel-Fokusmeßeinzelbild 75. An der Ausgabe des Sobel-Operators wird eine Zweipegeloperation durchgeführt. Jeder Block, der einen Fokusmeßwert über der Schwelle aufweist, wird als fokussiert definiert. Jeder Block, der einen Fokusmeßwert unter der Schwelle aufweist, wird als entfokussiert definiert. In Fig. 7 sind die fokussierten Blöcke als weiß abgebildet (z. B. Pel 71), und die entfokussierten Blöcke sind mit schwarzen Linien gezeigt (z. B. Pel 72). Folglich wird jeder Block entweder als fokussiert oder entfokussiert bestimmt. Zur Zeit wird bevorzugt, eine einzige Schwelle zu verwenden, und das Einzelbild wird zwischen fokussierten und entfokussierten Teilen unterschieden. Als Alternative könnte eine zweite Schwelle verwendet werden, so daß die entfokussierten, fokussierten und die dazwischenliegenden Teile festgelegt werden. Jeder Teiltyp könnte mit einer verschiedenen Bitrate oder verschiedenen Frequenz je nach Anforderung für die konkrete Anwendung übertragen werden. Selbstverständlich könnte jede beliebige Anzahl solcher Schwellen verwendet werden, wobei das Einzelbild zu verschiedenen Graden der Fokussierung segmentiert wird.
- Der Teil des Einzelbildes, der als Vordergrund gekennzeichnet werden soll, wird im Block 55 von Fig. 5 bestimmt. Vorzugsweise werden Bereiche des Einzelbildes zwischen den fokussierten Blöcken von Fig. 7 ebenfalls als fokussiert gekennzeichnet, so daß eine zusammenhängende Schablone entsteht. Die Schablone überlappt den Teil des Einzelbildes, der als Vordergrund gekennzeichnet werden soll. Fig. 8 ist ein Zweipegel-Fokusmeßeinzelbild 80, nachdem eine horizontale Füllung an dem ersten Zweipegel- Fokusmeßeinzelbild durchgeführt wurde. Zwischen den fokussierten Blöcken, die sich auf demselben horizontalen Niveau befinden, werden horizontale Bänder eingefügt. Fig. 9 ist ein Zweipegel-Fokusmeßeinzelbild 90, nachdem eine vertikale Füllung an dem Zweipegel- Fokusmeßeinzelbild 80 von Fig. 8 durchgeführt wurde. Zwischen fokussierten Blöcken, die sich auf demselben vertikalen Niveau befinden, werden vertikale Bänder eingefügt. Die Schritte des horizontalen und vertikalen Füllens werden iteriert, bis sich das Bild stabilisiert. Fig. 10 ist ein Zweipegel- Fokusmeßeinzelbild 110, nachdem sich die Fülloperationen stabilisiert haben. Das stabilisierte Bild ist die Vordergrundschablone 111. Die Vordergrundschablone könnte natürlich auch auf andere Weise erzeugt werden. Zum Beispiel könnten feste Formen an die fokussierten Blöcke von Fig. 8 angepaßt werden, um eine Abschätzung des fokussierten Bereichs zu erzeugen. Dieses oder andere Schablonenerzeugungsverfahren können verwendet werden, um Rechenzeit zu sparen.
- Danach wird ein Umriß der Vordergrundschablone 111 erzeugt. Die Blöcke an der Peripherie der Vordergrundschablone 111 in Fig. 11 werden als der Umriß 125 gekennzeichnet (siehe Fig. 12). Ein dem Umriß entsprechendes Umrißsignal wird durch den Computerprozessor erzeugt. Alle Blöcke des Umrisses und die Blöcke in dem Umriß werden als Vordergrund gekennzeichnet. Ein dem Umriß entsprechendes Signal wird durch die Verarbeitungseinheit 106 erzeugt.
- Ein segmentiertes Einzelbildsignal fn wird im Block 56 von Fig. 5 durch die Verarbeitungseinheit 106 aus dem ursprünglichen Einzelbildsignal fn und dem Umrißsignal erzeugt. Das segmentierte Einzelbildsignal wird dann zu einem Codierer oder einem Aufzeichnungsmedium gesendet.
- Gemäß einem anderen Aspekt der Erfindung kann die oben erörterte Segmentierung auf der Grundlage der Fokussierung mit einer Segmentierung auf der Grundlage von Bewegung kombiniert werden, um ein segmentiertes Bewegungs-/Fokus-Einzelbildsignal zu erzeugen. Fig. 12 ist ein Blockschaltbild der Schritte zur Erzeugung eines solchen segmentierten Bewegungs-/Fokus- Einzelbildes. Im Block 152 wird in dem ursprünglichen Einzelbild Bewegung erkannt. Bei einem akzeptablen Verfahren zur Segmentierung auf der Grundlage von Bewegung in der Videosequenz, das in B. G. Haskell, P. L. Gordon, R. L. Schmidt und J. V. Scattaglia, IEEE Trans. on Communications, Band Com-25, Nr. 11 1977, besprochen wird, wird ein Bewegungsdetektor 41 verwendet, um die stationären Blöcke in jedem Einzelbild einer Bewegungs-Videosequenz von den bewegten Blöcken in diesem Einzelbild zu unterscheiden. Im Block 153 wird eine Bewegungsschwelle festgelegt. Analog zu der oben erörterten Fokusschwelle kann die Bewegungsschwelle eine vorbestimmte Konstante sein. Als Alternative kann die Bewegungsschwelle im Hinblick auf die verfügbare Bandbreite festgelegt werden, so daß ein bestimmter Prozentsatz des Einzelbildes als bewegt (d. h. relevant) gekennzeichnet wird. Das Einzelbild wird im Hinblick auf die Bewegungsschwelle im Block 154 in bewegte und stationäre Blöcke unterschieden. Im Block 157 wird eine Reihe von horizontalen und vertikalen Fülloperationen durchgeführt, bis eine stabile Bewegungsschablone gebildet wird.
- Die auf Bewegung basierende Schablone wird im Block 200 mit der auf Fokussierung basierenden Schablone geschnitten. Das heißt, es werden nur die Teile des Bildes, die in beiden Schablonen als relevant gekennzeichnet sind, in der kombinierten Bewegungs-/Fokusschablone als relevant gekennzeichnet. Im Block 201 wird ein Umriß für das geschnittene Segment bestimmt und ein Umrißsignal erzeugt. Das ursprüngliche Einzelbildsignal wird dann mit dem Umrißsignal kombiniert (Block 202), um ein segmentiertes Bewegungs-/Fokuseinzelbild zur Übertragung, Speicherung oder Reproduktion zu erzeugen.
Claims (24)
1. Verfahren zum Segmentieren eines ursprünglichen
Einzelbildes (70) in einen relevanten Teil und einen
weniger relevanten Teil, mit den folgenden Schritten:
Erfassen (50) eines Signals, das dem ursprünglichen
Einzelbild (70) entspricht, wobei das Signal für jeden
Block ein Bildattribut umfaßt;
Vergleichen des Bildattributs jedes Blocks mit dem
Bildattribut eines anderen Blocks;
Bereitstellen (51) einer Fokusmessung (z. B. 8) für
jeden Block, die mindestens zum Teil auf dem
Attributvergleich basiert, wobei die Fokusmessung eine
Funktion (d) ist, die ein Verhältnis einer Abschätzung
einer Randbreite (w) und des Betrags (5) eines
Randfokusgradienten umfaßt, und Zuordnen eines
Fokuswerts zu jedem Block auf der Grundlage der
Fokusmessung;
Vergleichen (54) des Fokuswerts jedes Blocks mit einer
Fokusschwelle;
Kennzeichnen (54) der Blöcke mit einem Fokuswert über
der Schwelle als fokussiert und Kennzeichnen (54) der
Blöcke mit einem Fokuswert unter der Schwelle als nicht
fokussiert; und
Erzeugen (56) eines segmentierten Einzelbildes (110),
das mindestens zum Teil auf den Kennzeichnungen
basiert.
2. Verfahren nach Anspruch 1, wobei das Bildattribut
eine Luminanzkomponente ist.
3. Verfahren nach Anspruch 2, wobei jeder Block einen
einzelnen Pel umfaßt.
4. Verfahren nach Anspruch 1, wobei das Bildattribut
mit den Bildattribut eines angrenzenden Blocks
verglichen wird.
5. Verfahren nach Anspruch 1, weiterhin mit dem
Schritt des Glättens (52) des ursprünglichen
Einzelbildsignals (70).
6. Verfahren nach Anspruch 5, wobei das Glätten des
Einzelbildsignals ein Mitteln der Luminanzkomponente
eines Blocks mit einer Luminanzkomponente eines
angrenzenden Blocks umfaßt.
7. Verfahren nach Anspruch 1, wobei das Vergleichen
des Bildattributs das Falten einer Matrix von Pels
eines Blocks mit einem Impulsantwortarray umfaßt.
8. Verfahren nach Anspruch 7, wobei das
Impulsantwortarray ein Sobel-Antwortarray ist.
9. Verfahren nach Anspruch 8, wobei die Fokusmessung
umgekehrt proportional zu der Randbreite ist.
10. Verfahren nach Anspruch 1, weiterhin mit dem
Schritt des Berechnens (53) der Schwelle.
11. Verfahren nach Anspruch 10, wobei die
Schwellenberechnung auf einem gewählten Prozentsatz des
Einzelbildes basiert.
12. Verfahren nach Anspruch 11, wobei der gewählte
Prozentsatz auf einer für die Übertragung verfügbaren
Bandbreite basiert.
13. Verfahren nach Anspruch 1, bei dem weiterhin auf
der Grundlage der Kennzeichnungen ein Umriß (125) der
fokussierten Teile erzeugt wird, wobei das segmentierte
Einzelbild (56) mindestens zum Teil auf der Grundlage
des Umrisses erzeugt wird.
14. Verfahren nach Anspruch 1, weiterhin mit den
folgenden Schritten:
Messen (152) der Bewegung jedes Blocks auf der
Grundlage mehrerer der ursprünglichen Einzelbilder;
Vergleichen des Bewegungsmaßes jedes Blocks mit einer
Bewegungsschwelle; und
Kennzeichnen (154) der Blöcke mit einem Bewegungsmaß
über der Bewegungsschwelle als bewegt und Kennzeichnen
(154) der Blöcke mit einem Bewegungsmaß unter der
Bewegungsschwelle als nicht bewegt;
wobei das segmentierte Einzelbild mindestens zum Teil
auf der Grundlage der Bewegungskennzeichnung erzeugt
(202) wird.
15. Verfahren nach Anspruch nach Anspruch 14,
weiterhin mit den folgenden Schritten:
Erzeugen (57) einer Fokusschablone auf der Grundlage
der Fokuskennzeichnungen;
Erzeugen (157) einer Bewegungsschablone auf der
Grundlage der Bewegungskennzeichnungen; und
Erzeugen (200) einer kombinierten Schablone auf der
Grundlage der Fokusschablone und der
Bewegungsschablone;
wobei das segmentierte Einzelbild auf der Grundlage der
kombinierten Schablone erzeugt (202) wird.
16. Verfahren nach Anspruch 15, wobei die kombinierte
Schablone die Schnittmenge der Bewegungsschablone und
der Fokusschablone ist.
17. Verfahren nach Anspruch 16, bei dem weiterhin die
kombinierte Schablone umrissen (201) und ein
Umrißsignal erzeugt wird, wobei das segmentierte
Einzelbild auf der Grundlage des Umrißsignals erzeugt
(202) wird.
18. Verfahren nach Anspruch 1, wobei die Fokusschwelle
eine erste Fokusschwelle ist, und weiterhin mit den
folgenden Schritten:
Vergleichen des Fokuswerts jedes Blocks mit einer
zweiten Fokusschwelle; und
Kennzeichnen der Blöcke mit einem Fokuswert zwischen
der ersten Fokusschwelle und der zweiten Fokusschwelle
als dazwischenliegend;
wobei das segmentierte Einzelbild mindestens zum Teil
auf der Grundlage der Kennzeichnungen als fokussiert,
dazwischenliegend oder nicht fokussiert erzeugt wird.
19. Vorrichtung zum Erzeugen eines Ausgangssignals,
das einen Umriß relevanter Informationen in einem
Videoeinzelbild (70) darstellt, zur Verwendung bei der
Komprimierung digitaler Signale, wobei die Vorrichtung
folgendes umfaßt:
ein Empfangsmittel zum Empfangen eines digitalen
Signals, wobei das empfangene digitale Signal mehrere
Blöcke darstellt, die jeweils ein Bildattribut
aufweisen;
ein Speichermittel zum Speichern des Bildattributs der
Blöcke; und
ein Verarbeitungsmittel (106) zum Verarbeiten des
empfangenen digitalen Signals, um das Ausgangssignal zu
erzeugen, wobei das Verarbeitungsmittel betreibbar ist,
um folgendes durchzuführen:
Speichern mindestens einer Matrix von Attributen;
Berechnen eines Fokusgradienten, der mindestens zum
Teil auf der gespeicherten Matrix basiert;
Abschätzen einer Randbreite;
Berechnen (51) einer Fokusmessung (z. B. 8), die eine
Funktion ist, die ein Verhältnis des
Randfokusgradienten und der Randbreite umfaßt;
Zuordnen eines Fokuswerts zu jedem Block auf der
Grundlage der Fokusmessung;
Vergleichen (54) jedes Fokuswerts mit einer
Fokusschwelle;
Kennzeichnen (54) jedes Blocks mit einem Fokuswert über
der Fokusschwelle als fokussiert;
Kennzeichnen (54) jedes Blocks mit einem Fokuswert
unter der Fokusschwelle als nicht fokussiert; und
Definieren eines Fokusumrisses (125), der mindestens
zum Teil auf den fokussierten Blöcken basiert.
20. Vorrichtung nach Anspruch 19, wobei das
Verarbeitungsmittel weiterhin betreibbar ist, um
folgendes durchzuführen:
Definieren (57) einer Fokusschablone durch Kennzeichnen
der Bereiche zwischen den fokussierten Blöcken als
fokussiert;
Berechnen (152) eines Bewegungsgradienten, der auf
mehreren der Einzelbilder und mindestens zum Teil auf
der gespeicherten Matrix basiert;
Zuordnen (152) eines Bewegungswerts zu jedem Block auf
der Grundlage des Bewegungsgradienten;
Vergleichen (154) jedes Bewegungswerts mit einer
Bewegungsschwelle;
Kennzeichnen (154) jedes Blocks mit einem Bewegungswert
über der Bewegungsschwelle als bewegt;
Kennzeichnen (154) jedes Blocks mit einem Bewegungswert
unter der Bewegungsschwelle als unbewegt;
Definieren (157) einer Bewegungsschablone, die
mindestens zum Teil auf den bewegten Blöcken basiert;
und
Definieren (201) eines Bewegungs-/Fokusumrisses auf der
Grundlage der Fokusschablone und der
Bewegungsschablone.
21. Vorrichtung nach Anspruch 19, wobei das Attribut
eine Luminanzkomponente ist.
22. Vorrichtung nach Anspruch 19, wobei das
Verarbeitungsmittel weiterhin betreibbar ist, um die
Fokusschwelle zu berechnen.
23. Vorrichtung nach Anspruch 19, wobei das
Verarbeitungsmittel weiterhin betreibbar ist, um die
Fokusschwelle auf der Grundlage eines gewählten Teils
des Videoeinzelbildes zu berechnen.
24. Vorrichtung nach Anspruch 19, wobei das
Verarbeitungsmittel weiterhin betreibbar ist, um die
Fokusschwelle auf der Grundlage einer vorbestimmten
Bandbreite zu berechnen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US42826595A | 1995-04-25 | 1995-04-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69619887D1 DE69619887D1 (de) | 2002-04-25 |
DE69619887T2 true DE69619887T2 (de) | 2002-09-26 |
Family
ID=23698178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69619887T Expired - Lifetime DE69619887T2 (de) | 1995-04-25 | 1996-04-17 | System und Methode für focusbasierte Bildsegmentation für Videosignale |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP0741496B1 (de) |
JP (1) | JP3266501B2 (de) |
CA (1) | CA2173888C (de) |
DE (1) | DE69619887T2 (de) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0891075A3 (de) * | 1997-06-09 | 2002-03-06 | Seiko Epson Corporation | Bildverarbeitungsgerät und -verfahren sowie Bildauswertungsvorrichtung und -verfahren |
US6404901B1 (en) | 1998-01-29 | 2002-06-11 | Canon Kabushiki Kaisha | Image information processing apparatus and its method |
KR101348596B1 (ko) | 2008-01-22 | 2014-01-08 | 삼성전자주식회사 | 임장감 생성 장치 및 방법 |
US9064295B2 (en) * | 2013-02-04 | 2015-06-23 | Sony Corporation | Enhanced video encoding using depth information |
EP3021583B1 (de) * | 2014-11-14 | 2019-10-23 | Axis AB | Verfahren zur Identifizierung relevanter Bereiche in Digitalbildern, Verfahren zur Codierung von Digitalbildern und Codierungssystem |
CN115243017B (zh) * | 2022-08-03 | 2024-06-07 | 上海研鼎信息技术有限公司 | 一种改善图像质量的方法及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8906587D0 (en) * | 1989-03-22 | 1989-05-04 | Philips Electronic Associated | Region/texture coding systems |
JP3028553B2 (ja) * | 1990-04-09 | 2000-04-04 | ソニー株式会社 | 画像処理装置及び画像処理方法 |
JP3175175B2 (ja) * | 1991-03-01 | 2001-06-11 | ミノルタ株式会社 | 合焦検出装置 |
-
1996
- 1996-04-11 CA CA002173888A patent/CA2173888C/en not_active Expired - Fee Related
- 1996-04-17 EP EP96302703A patent/EP0741496B1/de not_active Expired - Lifetime
- 1996-04-17 DE DE69619887T patent/DE69619887T2/de not_active Expired - Lifetime
- 1996-04-23 JP JP10080596A patent/JP3266501B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0741496B1 (de) | 2002-03-20 |
JP3266501B2 (ja) | 2002-03-18 |
DE69619887D1 (de) | 2002-04-25 |
EP0741496A2 (de) | 1996-11-06 |
CA2173888C (en) | 2000-04-04 |
CA2173888A1 (en) | 1996-10-26 |
EP0741496A3 (de) | 1999-11-17 |
JPH08307867A (ja) | 1996-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5710829A (en) | System and method for focused-based image segmentation for video signals | |
DE69613949T2 (de) | Vorrichtung zum Detektieren von Schnitten in einer Videosequenz | |
DE69811631T2 (de) | Bewegungsvektorschätzung und detektion von bedeckten/unbedeckten bildteilen | |
DE69523135T2 (de) | Bildverarbeitungsvorrichtung und Verfahren | |
DE69628083T2 (de) | Bildverarbeitungsgerät und Methode | |
DE69734855T2 (de) | Vorrichtung und Verfahren zur Extraktion eines Objektes in einem Bild | |
EP0259562B1 (de) | Verfahren zur bewegungskompensierten Bild-zu-Bild-Prädiktionscodierung | |
DE69427801T2 (de) | Verfahren und Gerät zur Bestimmung von Bewegungsvektorfelden durch die Unterdrückung lokaler Abweichungen | |
DE69623342T2 (de) | Videokodierer und -dekodierer mit bewegungsbasierter bildsegmentierung und bildzusammenfügung | |
DE69634962T2 (de) | Extrapolation von Pixelwerten eines in einem Block enthaltenen Videoobjektes | |
DE69922973T2 (de) | Verfolgung semantischer objekte in vektorbildsequenzen | |
DE69523441T2 (de) | Verfahren zur Segmentierung und Schätzung des Bewegungsfeldes eines sich bewegenden Objektes | |
DE69737141T2 (de) | Bildsegmentierung | |
DE69717176T2 (de) | Korrektur der Kamerabewegung zwischen zwei Bildern | |
DE69724906T2 (de) | Numerisches Bildverarbeitungsverfahren zur automatischen Extraktion bandförmiger Objekte | |
DE60020019T2 (de) | Prüfung der Dekodierung von Bitströmen | |
DE69226755T2 (de) | Vorrichtung zur Fehlerverdeckung in einer Transformationskodierung von Bewegtbildern | |
EP0232417A1 (de) | Verfahren zur korrektur von übertragungsfehlern. | |
DE19743202B4 (de) | Verfahren zum Codieren eines Bewegungsvektors | |
DE69728757T2 (de) | Verfahren und Vorrichtung zum Kodieren eines Objektes unter Verwendung einer Konturbewegungsschätztechnik | |
DE4224568C2 (de) | Vorrichtung und Verfahren zur Bildung der Anzeige eines dreidimensionalen sequentiellen tomografischen Flächenschattierungsbildes | |
DE19739266A1 (de) | Verfahren und Vorrichtung zum Kodieren binärer Formen | |
DE4023449C1 (de) | ||
DE19738552A1 (de) | Verfahren und Vorrichtung zum Abschätzen der Konturenbewegung eines binären Bildes unter Verwendung eines Vergleichsalgorithmus für gewichtete Blöcke | |
DE69515535T2 (de) | Verfahren und Vorrichtung zum Bildvergleich |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |