DE3875583T2 - Videobildverarbeitung. - Google Patents
Videobildverarbeitung.Info
- Publication number
- DE3875583T2 DE3875583T2 DE8888903903T DE3875583T DE3875583T2 DE 3875583 T2 DE3875583 T2 DE 3875583T2 DE 8888903903 T DE8888903903 T DE 8888903903T DE 3875583 T DE3875583 T DE 3875583T DE 3875583 T2 DE3875583 T2 DE 3875583T2
- Authority
- DE
- Germany
- Prior art keywords
- codebook
- image
- vectors
- derived
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012545 processing Methods 0.000 title description 4
- 239000013598 vector Substances 0.000 claims description 74
- 238000000034 method Methods 0.000 claims description 21
- 239000002131 composite material Substances 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 230000033001 locomotion Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims 5
- 238000005054 agglomeration Methods 0.000 claims 1
- 238000001914 filtration Methods 0.000 claims 1
- 238000013139 quantization Methods 0.000 description 13
- PICXIOQBANWBIZ-UHFFFAOYSA-N zinc;1-oxidopyridine-2-thione Chemical class [Zn+2].[O-]N1C=CC=CC1=S.[O-]N1C=CC=CC1=S PICXIOQBANWBIZ-UHFFFAOYSA-N 0.000 description 5
- 238000003491 array Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/008—Vector quantisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/94—Vector quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
- Die Erfindung bezieht sich auf die Analyse und Verarbeitung von Videobilden
- Ein Videobild (worunter man auch festgehaltene Bilder, wie z. B. Faksimilebilder, zusätzlich zu bewegten Bildern versteht), enthält im allgemeinen zumindest einen Gegenstand, für den man sich interessiert, und einen "Hintergrund" von weniger Interesse (und daher weniger Wichtigkeit).
- Ein Analysieren des Bildes, d. h. Erfassen der Anwesenheit/Abwesenheit oder Lage eines besonderen interessierenden Gegenstands wird oftmals in einer Vielzahl von Anwendungen erwünscht.
- In einem Bildübertragungssystem kann eine verbesserte Bildqualität erzielt werden, falls Daten, die sich auf wichtige Teile der Szene, d. h. interessierende Gegenstände, beziehen, codiert werden unter Verwendung von relativ mehr Bits als Daten, die sich auf unwichtige (d. h. Hintergrund-) Teile beziehen. Zum Beispiel weist ein typisches Bild in einem Videophonsystem einen Kopf und Schultern vor einem Hintergrund auf, und die Gesichtsfläche des Kopfes ist visuell die wichtigste; daher ist es wünschenswert, die Kopffläche von den Schultern und dem Hintergrund zu identifizieren, damit man in der Lage ist, den Kopf mit einer höheren Erneuerungsrate als den Rest zu verarbeiten, so daß der Eindruck einer glatten Kopfbewegung vermittelt wird. Die Fähigkeit, einen Kopf innerhalb einer Kopf-und-Schulter-Szene zu orten, kann daher verwendet werden, um die räumliche Zuordnung von Videodaten zu modifizieren, wodurch ein Grad visueller Wichtigkeit ermöglicht wird, der Blöcken innerhalb der Daten zugeordnet werden soll.
- Ebenfalls ist es wichtig, falls die Lage eines Gegenstands zeitlich genau umrissen wird, seine Bewegung vorherzusagen, wodurch "bewegungs-kompensierte" DPCM ermöglicht wird.
- Eine Art, unterschiedliche Bereiche eines Bildes zu identifizieren, besteht darin, das von Nagao vorgeschlagene Verfahren zu verwenden (M. Nagao
- - "Picture recognition and data structure", Graphic I-anguages - ed Nake and Rossenfield, 1972). Dieses Verfahren wurde in einem System vom Videophontyp verwendet, und zwar an einem Bild eines Kopfes und Schultern gegen einen Hintergrund. Man war erfolgreich bei der Bestimmung der Seiten des Kopfes, wenn die Person glatt rasiert war, doch war man in anderen Fällen sehr wenig erfolgreich; somit wird dieses Verfahren nicht als ausreichend zuverlässig betrachtet für die Grundlage eines Flächenidentifizierungsverfahrens.
- Herkömmliche Codiergeräte, z. B. hybride Codiergeräte mit diskreter Kosinustransformation, verwenden keine "Szeneninhalt"-Information, um die Daten innerhalb der Szene zu codieren. Somit wird jeder Teil der Szene bearbeitet, als ob er die gleiche visuelle Wichtigkeit besitzt wie jeder andere Teil.
- Andere Bildanalyseanwendungen sind vielfältig (z. B. in automatisierten Herstellungssystemen).
- Es ist auch bekannt, Videobilder für die Übertragung unter Verwendung von Vektorquantisierung (VQ) zu codieren. Bei der VQ-Codierung wird das Bild anfänglich durch eine Matrix digitaler Daten dargestellt, welche dem Bilddatenblock entsprechen. Blöcke von Matrixpunkten ("Untermatrizen") werden verglichen mit Vektoren aus einem Codebuch, wobei der am besten übereinstimmende Vektor ausgewählt wird unter Verwendung eines Differenzen-Kriteriums der "kleinsten Quadrate". Ein diesen Vektor kennzeichnender Code wird dann übertragen, um die Untermatrix darzustellen. An dem Empfangsende wird der angedeutete Vektor aus einem identischen Codebuch ausgewählt und angezeigt.
- Ein Beispiel einer derartigen Codiertechnik ist offenbart in einem Artikel mit dem Titel "Image Coding using Vector Quantization" von A- Gersho und B. Ramamurthi, IEEE International Conference of Acoustics, Speech and Signal Processing, ICASSP 82, Proceedings; 3. bis 5. Mai 1982, Paris, FR, Band 1 von 3 IEEE (US) Seiten 428 bis 431.
- Ein Bild wird unterteilt in Zellen von p·p Bildelementen. Jede Zelle wird als ein Vektor der Dimension P² bezeichnet und wird codiert, indem man ein Codebuch durchsucht für einen am besten passenden repräsentativen Vektor. Ein den ausgewählten repräsentativen Vektor festlegendes Binärwort wird als Codewort zugeordnet, um die ursprüngliche Zelle zu beschreiben. Das Decodiergerät verwendet dieses Codewort, um ein Codebuch zu adressieren. Jede Eintragung des Codebuchs enthält eine digitale Darstellung mit voller Genauigkeit von einem der N repräsentativen Vektoren. Der Entwurf des Codebuchs basiert auf einer Zusammenballungstechnik für einen Vektorquantisierungsentwurf, dem eine Klassifizierung von Übungszellen in Kanten- oder Schattenzellen vorausgeht. Jeder Übungsvektor (Zelle) wird zuerst als eine Kanten- oder Schatten-(nicht-Kanten-)-Zelle klassifiziert, und ein gesonderter Codebuchentwurf wird für jeden der beiden Zellentypen durchgeführt. Das endgültige Codebuch ist eine Aneinanderkettung der beiden Codebücher.
- Das der Erfindung zugrunde liegende Prinzip besteht jedoch darin, die Vektorquantisierung (VQ) als ein Identifizierungsverfahren (z. B. Gegenstandsortung) zu verwenden.
- Gemäß eines ersten Gesichtspunkts der vorliegenden Erfindung gibt es ein Verfahren zum Analysieren eines Bildes, bei dem Untermatrizen des Bildes jeweils mit den Elementen eines zusammengesetzten Codebuchs von Vektoren verglichen werden, um zu bestimmen, welcher der Vektoren jeder Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch von Vektoren eine Aneinanderkettung von zumindest zwei Codebüchern aufweist, wobei jedes Codebuch sich von einem jeweiligen Übungssatz von Bilddaten ableitet; und zwar dadurch gekennzeichnet, daß: eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von einem Satz Bilddaten abgeleitet worden sind, die von Bildern eines ersten Gegenstands abgeleitet sind; jeder der Vektoren des ersten Codebuchs hat eine dazu zugeordnete Kennmarke, welche anzeigt, daß er ein Element des Codebuchs ist; und jede Untermatrix des Bildes, von dem man bestimmt, daß es einem Vektor des ersten Codebuchs am ähnlichsten ist, wird als dem ersten Gegenstand zugeordnet gekennzeichnet.
- Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung gibt es ein Verfahren zum Codieren einer Serie von Bildern, wobei Untermatrizen jedes Bildes jeweils mit den Elementen eines zusammengesetzten Codebuchs von Vektoren verglichen werden, um zu bestimmen, welcher der Vektoren jeder Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch von Vektoren eine Aneinanderkettung von zumindest zwei Codebüchern aufweist, wobei jedes Codebuch von einem jeweiligen Übungssatz von Bilddaten abgeleitet ist; und zwar dadurch gekennzeichnet, daß: eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von einem Satz Bilddaten abgeleitet worden sind, welche von Bildern eines ersten Gegenstands abgeleitet sind; wobei jeder der Vektoren des ersten Codebuchs dazu ein Kennzeichen zugeordnet hat, welches anzeigt, daß er ein Element des Codebuchs ist; wobei jede Untermatrix eines Bildes, von dem man bestimmt, daß es einem Vektor des ersten Codebuchs am ähnlichsten ist, als mit dem ersten Gegenstand verbunden gekennzeichnet wird; und die Bilder sind so codiert, daß Untermatrizen, welche einem Gegenstand zugeordnet sind, mit einer höheren Geschwindigkeit auf den neuesten Stand gebracht werden als die anderen Untermatrizen.
- Gemäß einem dritten Gesichtspunkt der vorliegenden Erfindung weist ein Codiergerät zum Codieren von Videobildern auf: eine Vektorquantisiereinrichtung zum Vergleichen von Untermatrizen des Bildes mit den Elementen eines zusammengesetzten Codebuchs von Vektoren, um zu bestimmen, welcher der Vektoren jeder Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch von Vektoren eine Aneinanderkettung von zumindest zwei Codebüchern aufweist, wobei jedes Codebuch von einem entsprechenden Übungssatz von Bilddaten abgeleitet ist; und zwar dadurch gekennzeichnet, daß: eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von einem Satz Bilddaten abgeleitet worden sind, welche von den Bildern eines ersten Gegenstands abgeleitet sind; wobei jeder der Vektoren des ersten Codebuchs ein ihm zugeordnetes Kennzeichen hat, welches anzeigt, daß er ein Element des Codebuchs ist, wobei das Codiergerät eine Kennzeichnungseinrichtung beinhaltet zum als dem ersten Gegenstand zugeordneten Kennzeichnen jeder Untermatrix des Bildes, von dem bestimmt wird, daß es einem Vektor des ersten Codebuchs am ähnlichsten ist, und eine Bildcodiereinrichtung, welche die einem Gegenstand zugeordneten Untermatrizen schneller auf den neuesten Stand bringt/codiert als die anderen Untermatrizen.
- Ein Ausführungsbeispiels der Erfindung wird nun beschrieben mittels eines nicht beschränkenden Beispiels, welches sich mit der Identifizierung eines Kopfes in einer Kopf-Schulter-Einheit gegen eine Hinteigrundszene befaßt, und zwar unter Bezugnahme auf die begleitenden Zeichnungen, wobei:
- Fig. 1 ein Blockdiagramm ist, welches die anfänglichen Betriebsstufen von Teilen eines die Erfindung verkörpernden Codiergeräts zeigt;
- Fig. 2a bis 2g schematisch verschiedene Stufen in einer Übungssequenz zeigen, die verwendet wird, um das Codebuch herzuleiten;
- Fig. 3 ein Blockdiagramm ist, das den Betrieb eines die Erfindung verkörpernden Codiergeräts zeigt;
- Fig. 4a schematisch einen zu analysierenden Datenblock zeigt;
- Fig. 4b die Untermatrizenblöcke zeigt, welche in der vektorquantisierenden Fig. 4a verwendet werden;
- Fig. 4c den Zustand von Kennzeichen zeigt, die dem vektorquantisierten Bild von Fig. 4b entsprechen;
- Fig. 4d schematisch das Ergebnis des Analysierens des Datenblocks von
- Fig. 4a gemäß der Erfindung zeigt; und
- Fig. 5 schematisch ein die Erfindung verkörperndes Codiergerät zeigt.
- Um ein Funktionieren der Erfindung zu ermöglichen, ist es notwendig, ein zusammengesetztes Codebuch bereitzustellen, welches Vektoren beinhaltet, die als "Kopf" gekennzeichnet sind. Vorzugsweise werden andere als "Hintergrund" gekennzeichnet. Es ist möglich, ein "Standard"-Codesbuch für entweder einen durchschnittlichen oder einen gegebenen Sprecher abzuleiten, doch wird, um Flexibilität und größere Identifiziergenauigkeit zu gestatten, dieses Codebuch zu Beginn in einer anfänglichen "Übungs"-Sequenz abgeleitet. Eine bevorzugte Art und Weise, eine derartige Sequenz zu implementieren, wird nun beschrieben.
- Um "Kopf"- und "Hintergrund"-Teile des Codebuchs zu erzeugen, ist es notwendig, auf unverwechselbare Art einige "Nur-Kopf"-Daten und "Nur- Hintergrund"-Daten zu erhalten; ein grober anfänglicher Algorithmus wird benötigt.
- In Fig. 1 und 2 werden, um den Kopf zu erfassen, digitale Daten, welche mehrere nebeneinanderliegende Datenblöcke des Kopf und Schulter-Bildes darstellen, eingefangen. Zum Beispiel in einem Speicher 1. Einer dieser Datenblöcke ist in Fig. 2a beschrieben. Diese Daten müssen nicht extrem genau sein, sondern vielmehr repräsentativ.
- Unter der Annahme, daß die primären sich bewegenden Flächen innerhalb der Datensequenz direkt der Kopffläche zugeordnet sind, wird eine Datenblockdifferenzierung 2 auf die Daten angewendet, welche jedes nebeneinanderliegende Paar von Datenblöcken darstellen. Dieser Prozeß liefert typischerweise einen Satz von Differenzendaten für jedes benachbarte sich bewegende flächendarstellende Paar zusammen mit zufälligem Rauschen über der gesamten Bildfläche.
- Für alle Bildelemente (Pels) welche durch dessen jeweiligen Satz von Differenzdaten dargestellt werden, wird jedes Pel über einen gegebenen Intensitätsschwellwert auf die maximale Intensität (255) eingestellt, und jedes Pel unterhalb der Schwelle wird auf die minimale Intensität (O) eingestellt. Diese "Schwellwertbehandlung" 3 entfernt eine große Menge des zufälligen Rauschens und einige der sich bewegenden Flächen.
- Eine Mittelungsfilterung 4 wird nachfolgend auf jeden Satz von Differenzdaten angewendet, welche sehr effektiv den Großteil des verbleibenden zufälligen Rauschens entfernt, aber nur kleine Mengen der sich bewegenden Flächen erodiert.
- Das von jedem Datensatz in dieser Stufe dargestellte Bild wird kaum einen klaren Umriß des Kopfes liefern, es sei denn, der Kopf/Hintergrund-Kontrast ist sehr hoch und die Bewegung des Kopfes zwischen benachbarten Datenblöcken ist mehr als ein Pel. Oft kann nur eine Seite und der Oberteil des Kopfes wie in Fig. 2b gezeigt beschrieben werden
- Im allgemeinen sind die sich bewegenden Flächen in Gebieten um die Kopffläche zusammengeballt, doch können auch einige isolierte Zusammenballungen auftreten aufgrund von Bewegung in anderen Bereichen des Bildes.
- Ein Zusammenballungsprozeß 5 wird verwendet, um einige der isolierten Zusammenballungen zu entfernen: zwei orthogonale Histogramme werden erzeugt, wobei das eine die Anzahl "sich bewegender" Pels in den Spalten des Bildes darstellt, welches durch die Daten dargestellt ist, und eines die Anzahl sich bewegender Pels in den Zeilen des Bildes darstellt, welches durch die Daten dargestellt ist. Die Momente erster Ordnung werden berechnet und der "Schwerpunkt" des Bildes wird bestimmt, wie in Fig. 2c gezeigt. Dann wird ein Rechteck erzeugt, welches auf diesen Koordinaten zentriert ist, und zwar von derartigen Abmessungen, daß ein gegebener Prozentsatz sich bewegender Fläche innerhalb von ihm eingeschlossen ist, siehe Fig. 2d. Die Pels, welche außerhalb dieses Rechtecks verbleiben, werden auf O-Intensität gesetzt, Fig. 2e. Durch eine passende Auswahl eines Rechtecks werden durch diesen Prozeß isolierte Zusammenballungen entfernt.
- Es werden Zwangsbedingungen der Auswahl der Rechtecke auferlegt, um das Auftreten von fehlerhaften Rechtecken zu verringern. Da eine sehr kleine Bewegung des Kopfes zwischen einem Datenblock und dem nächsten ein sehr kleines Rechteck erzeugen kann, ist die Änderungsrate der Größe des Rechtecks von einem Datensatz zu dem nächsten beschränkt: entweder ist jede der Grenzlinien des Rechtecks gezwungen, innerhalb einer kleinen Entfernung der entsprechenden Grenze in dem unmittelbar vorhergehenden Datensatz zu liegen; oder die maximale Änderungsrate der Größe des Rechtecks ist an die Datenblock-Differenzenergie gekoppelt (z. B. das Quadrat der Differenzdaten). Somit wird, falls die Differenzenergie klein ist, die Änderung klein gehalten, aber wenn die Differenzenergie groß ist, kann die Änderungsrate größer sec
- Das Rechteck - Rechtecke werden verwendet, da sie sehr wenige Bits an Daten für ihre Definition benötigen - wird dann, falls nötig, geschrumpft, bei 6 in Fig. 1, und wie in Fig. 2f gezeigt, um das kleinste Rechteck zu werden, welches um die Daten plaziert werden kann, um alle verbleibenden nicht-O-Pels zu umschließen. Von diesem Rechteck nimmt man an, daß es ein ungefähres Modell des Kopfes darstellt.
- Eine Grenze wird dann bei 7 in Fig. 1 um das endgültige Rechteck erzeugt, wie in Fig. 2g gezeigt. Diese Grenze bestimmt eine Ausschließungszone aus welcher später keine Daten genommen werden. Dies stellt sicher, daß, wenn die Grenze auf den jeweiligen Datenblöcke des ursprünglichen Bildes angewendet wird, die Daten innerhalb der Grenze ausschließlich Kopfdaten und die Daten außerhalb der Grenze ausschließlich Hintergrunddaten sind.
- Falls fünf Datenblöcke anfänglich in Speicher 1 eingefangen sind, werden vier benachbarte Paare von Datenblöcken analysiert, und es ergeben sich vier Sätze von Daten. Nachdem die vier Grenzen gesetzt worden sind 7, werden die Kopfflächendaten und die Hintergrundflächendaten aus den ersten vier Datenblöcken des ursprünglichen Bildes jeweils extrahiert, und der Unde-Buso-Grey-Algorithmus wird angewandt, um ein VQ-Codebuch für jede Fläche 8 zu erzeugen, z. B. ein 9-Bit-Hintergrund-Codebuch und 10-Bit-Kopf-Codebuch (d. h. Codebücher, welche jeweils 2&sup9; und 2¹&sup0; Eingaben) enthalten. Die beiden Codebücher werden dann kombiniert 9, um ein Codebuch zu bilden, bei dem jede Eintragung ein zugeordnetes Kennzeichen hat, welches ihren Ursprung andeutet.
- In Fig. 3 und 4a bis d, wird, nachdem diese Übungssequenz vollendet ist, das zusammengesetzte Codebuch verwendet, um den Kopf in aufeinanderfolgenden Bilddatenblöcken zu orten. Das VQ-Codiergerät funktioniert genauso wie es in einem System des Stands der Technik funktionieren würde, bei dem VQ als die Übertragungscodierung verwendet wird, doch wird für jeden Block codierter Pels 10 der erzeugte Code ein Kennzeichen enthalten (z. B. die erste Ziffer), das angibt, ob dieser Block "Kopf" oder "Hintergrund" ist, so daß die Lage des Kopfes für jeden Datenblock bekannt ist.
- Man wird natürlich einsehen, daß, wenn das Codebuch an dem Codiergerät wie oben angedeutet abgeleitet wird, eine Vektorquantisierung als der Übertragungscode nicht verwendet werden kann (es sei denn, dieses Codebuch wird dem Decodiergerät zuerst bekannt gemacht durch Überstragen eines Hinweises auf die Vektoren).
- Da der Quantisierungsprozeß von Natur aus approximativ ist, wird man verstehen, daß gelegentlich Blöcke von dem Kopfteil des Bildes am besten mit einem Vektor aus dem "Hintergrund"-Teil des Codebuchs übereinstimmen, oder umgekehrt. Die tatsächliche Identifizierung des Kopfes wird daher gewöhnlich mit sich bringen, daß isolierte "Kopf"- Blöcke ignoriert werden unter Verwendung von Erosion und Zusammenballung 11, 12 (z. B. wie oben beschrieben), oder indem man die Fläche mit der höchsten Konzentration an "Kopf"-Blöcken als den tatsächlichen Kopf bestimmt.
- Ein anderes Verfahren verlangt das Erfassen von isolierten "Kopf"-Blökken und dann ein Untersuchen des Fehlers zwischen dem Block und dem "Kopf"-Vektor und dem zwischen dem Block und dem am besten passenden "Hintergrund"-Vektor, und, falls die beiden Zählwerte ahnlich sind (d. h. wenn es eine Nichteindeutigkeit darüber gibt, ob der Block "Kopf" oder "Hintergrund" ist), ein neues Kennzeichnen des Blocks als "Hintergrund" statt dessen.
- Falls die Kopfblöcke zu sehr verstreut sind, kann es sein, daß das Codebuch nicht ausreicht, um den Kopf zu kennzeichnen. In diesem Fall kann eine erneute Übungssequenz verwendet werden, um das Codebuch zu regenerieren.
- Diese erneute Übungssequenz kann einfach eine weitere Sequenz der oben beschriebenen Art sein, oder sie kann versuchen, das Codebuch zu verbessern (anstatt es einfach neu zu definieren). Zum Beispiel kann man die Anzahl "inkorrekter" (d. h. verstreuter) im Gegensatz zu "korrekten" (d. h. in der Kopffläche konzentrierten) Auftritten jedes Vektors zählen, und die Zerstreuung kann so verringert werden, indem man von dem Codebuch Vektoren verwirft, welche zu oft inkorrekt auftreten.
- Oder man kann alternativ den näherungsweisen durch Orten der größten Konzentration von "Kopf"-Blöcken abgeleiteten Kopfort verwenden, und zwar auf die gleiche Art und Weise wie oben beschrieben, als eine Fläche zum Erzeugen eines neuen "Kopf"-Codebuchs.
- Diese letztgenannten Ansätze, bei denen das Vektorquantisierungscodiergerät durch jede erneute Übungssequenz "lernt", werden aus Gründen der Genauigkeit bevorzugt.
- Fig. 5 zeigt ein Blockdiagramm eines Videocodiergerätes (z. B. für ein Videotelefon), welches die Erfindung verkörpert. Videosignale werden von einer Eingabe 20 zu einem Datenblockspeicher 21 eingegeben, wo individuelle Bildelementwerte in jeweiligen Speicherorten aufgezeichnet werden, so daß gewünschte Untermatrizen an Pels für eine weitere Verarbeitung zugreifbar sind. Die Größen der Untermatrizen können typischerweise 8·8 sein. In einer anfänglichen Übungsphase des Geräts führt eine Übungssteuerungseinheit 22 - welche z. B. ein passend programmiertes Mikroprozessorsystem sein kann - das oben beschriebene Codebucherzeugungsverfahren aus, und gibt die Vektoren (und Kennzeichen) in einen Vektorquantisierungs-Codebuchspeicher 23 ein. Man wird verstehen, daß der Vektorquantisierungsprozeß das In-Übereinstimmung- Bringen von 8·8 Untermatrizen mit dem nächsten der gespeicherten Vektoren verlangt, d. h. eine Anzahl von 8·8 Mustern, die entscheidend geringer ist als die maximale mögliche Anzahl (2&sup6;&sup4;) solcher Muster.
- In der Codierphase des Geräts wird das In-Übereinstimmung-Bringen bzw. Anpassen durch eine Vektorquantisierungs-Steuerlogik 24 durchgeführt, welche aufeinanderfolgende Untermatrizen aus dem Datenblockspeicher 21 empfängt und jeden von ihnen mit all den Vektoren in dem Codebuchspeicher vergleicht. Die einfachste Form des Vergleichs wäre ein Berechnen der mittleren quadratischen Abweichung zwischen den beiden; wobei der Vektor, welcher das geringste Ergebnis liefert, als die beste Übereinstimmung betrachtet wird. Die Ausgabe von der Vektorquantisierungs-Steuerlogik ist die Sequenz von Kennzeichen, die den so gekennzeichneten Vektoren zugeordnet sind.
- Die tatsächliche Logik wird in diesem Beispiel durch ein differentielles Zwischendatenblock-Codiergerät 25 durchgeführt, in welchem eine Zwischendatenblock-Differenz (im Subtrahierer 26) zwischen den Pels von dem Datenblockspeicher 21 und einer vorhergehenden Datenblockvoraussagevorrichtung 27 (auf die herkömmliche Art und Weise) bestimmt wird. Wie es in solchen Systemen gewöhnlich ist, sind eine Quantisiervorrichtung 28 und ein Ausgabepuffer 29 gezeigt (um die unregelmäßige Datenerzeugungsrate mit einem Übertragungsglied in Übereinstimmung zu bringen, welches mit einer konstanten Rate arbeitet). Ein Empfänger (nicht gezeigt) verwendet die Differenzinformation, um ein wiederhergestelltes Bild in einem Datenblockspeicher auf den neuesten Stand zu bringen. Die Kennzeichenausgabe von der Vektorquantisierungs-Steuerlogik 24 ist an das differentielle Codiergerät 25 angeschlossen (falls benötigt), und zwar über Erodier-/Zusammenballungsschaltkreise 30. Wenn das Kennzeichen andeutet, daß gerade "Kopf"-Information verarbeitet wird, arbeitet das Codiergerät normal. Falls jedoch "Hintergrund" angedeutet wird, dann wird die Erzeugung von Differenzinformation weniger häufig durchgeführt (z. B. nur bei jedem zweiten Datenblock). Dieser Betrieb wird durch einen Schalter 31 veranschaulicht, welcher die Codierschleife bei jedem zweiten Datenblock unterbricht, wenn das Kennzeichen s"Hintergrund" andeutet.
- Aus dem Vorhergehenden ist offensichtlich, daß jeder visuell unterscheidbare Gegenstand oder Gegenstände genau erfaßt, erkannt oder geortet werden können unter Verwendung von Verfahren gemäß der Erfindung.
Claims (13)
1. Verfahren zum Analysieren eines Bildes, wobei Untermatrizen des
Bildes jeweils mit den Elementen eines zusammengesetzten
Codebuchs von Vektoren verglichen werden, um zu bestimmen, welcher
oder Vektoren jeder Untermatrix am ähnlichsten ist, wobei das
zusammengesetzte Codebuch (9) von Vektoren eine Aneinanderkettung
von zumindest zwei Codebüchern (8) aufweist, wobei jedes Codebuch
von einem jeweiligen Übungssatz von Bilddaten abgeleitet wird;
dadurch gekennzeichnet, daß
eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von
einem Satz Bilddaten abgeleitet sind, welche von Bildern eines
ersten Gegenstandes abgeleitet sind;
jeder der Vektoren des ersten Codebuchs eine dazu zugeordnete
Kennmarke hat, welche anzeigt, daß er ein Element des Codebuchs
ist; und
jede Untermatrix des Bildes, von dem man bestimmt, daß es einem
Vektor des ersten Codebuchs am ähnlichsten ist, als dem ersten
Gegenstand zugeordnet gekennzeichnet wird.
2. Verfahren nach Anspruch 1, wobei eines der Codebücher von einem
Satz Bilddaten (2a) abgeleitet ist, welche von Bildern menschlicher
Köpfe abgeleitet sind.
3. Verfahren zum Codieren einer Serie von Bildern, wobei
Untermatrizen jedes Bildes jeweils mit den Elementen eines zusammengesetzten
Codebuchs von Vektoren verglichen werden, um zu bestimmen,
welcher der Vektoren jeder Untermatrix am ähnlichsten ist, wobei
das zusammengesetzte Codebuch von Vektoren eine
Aneinanderkettung von zumindest zwei Codebüchern aufweist, wobei jedes
Codebuch von einem jeweiligen Übungssatz von Bilddaten abgeleitet ist;
dadurch gekennzeichnet, daß
eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von
einem Satz Bilddaten abgeleitet worden sind, welche von Bildern
eines ersten Gegenstands abgeleitet sind;
jeder der Vektoren des ersten Codebuches dazu ein Kennzeichen
zugeordnet hat, welches anzeigt, daß er ein Element des Codebuchs
ist;
jede Untermatrix eines Bildes, von dem man bestimmt, daß es
einem Vektor des ersten Codebuchs am ähnlichsten ist, als mit dem
ersten Gegenstand verbunden gekennzeichnet wird; und
die Bilder so codiert sind, daß Untermatrizen, welche einem
Gegenstand zugeordnet sind, mit einer höheren Geschwindigkeit auf den
neuesten Stand gebracht werden als die anderen Untermatrizen.
4. Codiergerät zum Codieren eines Videobildes, welches aufweist:
eine Vektorquantisiereinrichtung zum Vergleichen von Untermatrizen
des Bildes mit den Elementen eines zusammengesetzten Codebuchs
von Vektoren, um zu bestimmen, welcher der Vektoren jeder
Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch
von Vektoren eine Aneinanderkettung von zumindest zwei
Codebüchern aufweist, wobei jedes Codebuch von einem entsprechenden
Übungssatz von Bilddaten abgeleitet ist;
dadurch gekennzeichnet, daß
eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von
einem Satz Bilddaten abgeleitet worden sind, welche von Bildern
eines ersten Gegenstands abgeleitet sind;
jeder der Vektoren des ersten Codebuchs ein ihm zugeordnetes
Kennzeichen hat, welches anzeigt, daß er ein Element des
Codebuchs ist;
das Codiergerät eine Kennzeichnungseinrichtung beinhaltet zum als
dem ersten Gegenstand zugeordnete Kennzeichnen jeder Untermatrix
des Bildes, von dem bestimmt wird, daß es einem Vektor des ersten
Codebuchs am ähnlichsten ist; und
eine Bildcodiereinrichtung, welche die einem Gegenstand
zugeordneten Untermatrizen schneller auf den neuesten Stand bringt als die
anderen Untermatrizen.
5. Codiergerät nach Anspruch 4, wobei die Codiereinrichtung ein
diskretes Kosinustransformations-Codiergerät ist.
6. Codiergerät ach Anspruch 4, wobei die Codiereinrichtung ein
bewegungskompensiertes DPCM-Codiergerät ist
7. Codiergerät nach einem der Ansprüche 4, 5 und 6, welches
weiterhin zusammengesetzte Codebuch-Erzeugungseinrichtungen aufweist,
um das zusammengesetzte Codebuch von Vektoren zu erzeugen,
einschließlich: einer Identifizierungseinrichtung (1, 2, 3, 4, 5, 6, 7)
zum Identifizieren einer einem Gegenstand entsprechenden Fläche
des Bildes; einer Erzeugungseinrichtung zum Erzeugen eines ersten
Codebuchs aus Untermatrizen innerhalb der Fläche und zum
Erzeugen eines weiteren Codebuchs aus Untermatrizen außerhalb der
Fläche; und eine Kombinationseinrichtung zum Kombinieren des
ersten und weiteren Codebuchs (9), um eine zusammengesetztes
Codebuch (9) zu bilden.
8. Codiergerät nach Anspruch 7, wobei die Identifizierungseinrichtung
angeordnet ist, um den Unterschied zwischen einem Paar zeitlich
getrennter Bilddatenblöcke zu analysieren, um dem Gegenstand
entsprechende Flächen des Bildes zu identifizieren.
9. Codiergerät nach Anspruch 8, wobei die Identifizierungseinrichtung
(1, 2, 3, 4, 5, 6, 7) aufweist:
(a) eine Einrichtung (2, 3), mit der man aus einem Paar von
Datenblöcken (2a) der Bildmatrixelemente innerhalb eines konzeptionellen
zweidimensionalen Feldes den Wert jeder Position innerhalb des
Feldes erzeugt, welche anzeigt, ob der Unterschied zwischen den
Luminanzniveaus der Bildelemente bei entsprechenden Positionen in
den beiden Datenblöcken über oder unter einem Schwellwert liegt.
(b) Eine Zusammenballungseinrichtung (5) zum Bestimmen des
Schwerpunktes innerhalb des Feldes der Matrixelemente, wodurch ein
Unterschied über dem Schwellwert angezeigt wird; und
eine geradlinige Begrenzungseinrichtung (6, 7) zum Bestimmen der
Position einer Grenze um den Schwerpunkt, welche einen gegebenen
Anteil der Matrixelemente umschließt, wobei alle innerhalb einer so
bestimmten Grenze liegenden Bildelemente identifiziert werden als
zu einer Fläche des Bildes gehörend, welches dem Gegenstand
entspricht.
10. Codiergerät nach Anspruch 9, dessen Einrichtung weiterhin eine
Filtereinrichtung (4) aufweist zur Mittelungsfilterung der
Matrixelemente innerhalb des konzeptionellen zweidimensionalen Feldes, bevor
der Schwerpunkt bestimmt wird.
11. Codiergerät nach einem der Ansprüche 9 und 10, wobei die Grenze
um den Schwerpunkt in ihrer Dicke aus einer endlichen Anzahl von
Elementen besteht.
12. Codiergerät nach einem der Ansprüche 9, 10 und 11, wobei die
Grenze um den Schwerpunkt rechteckförmig ist
13. Codiergerät nach Anspruch 12, wobei die rechteckförmige Grenze
um den Schwerpunkt zentriert ist und jede Seite des Rechtecks nach
innen bewegt wird, wenn möglich, bis sie an zumindest eines der
Matrixelemente stößt, welches einen Unterschied oberhalb des
Schwellwertes anzeigt.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB878710737A GB8710737D0 (en) | 1987-05-06 | 1987-05-06 | Video image encoding |
PCT/GB1988/000357 WO1988009101A1 (en) | 1987-05-06 | 1988-05-06 | Video image processing |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3875583D1 DE3875583D1 (de) | 1992-12-03 |
DE3875583T2 true DE3875583T2 (de) | 1993-03-11 |
Family
ID=26292214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE8888903903T Expired - Lifetime DE3875583T2 (de) | 1987-05-06 | 1988-05-06 | Videobildverarbeitung. |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE3875583T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109186508A (zh) * | 2018-09-19 | 2019-01-11 | 晓智科技(成都)有限公司 | 一种厚度测量的中值滤波方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO346137B1 (en) * | 2020-06-17 | 2022-03-14 | Pexip AS | Method, computer program and system for detecting changes and moving objects in a video view |
-
1988
- 1988-05-06 DE DE8888903903T patent/DE3875583T2/de not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109186508A (zh) * | 2018-09-19 | 2019-01-11 | 晓智科技(成都)有限公司 | 一种厚度测量的中值滤波方法 |
Also Published As
Publication number | Publication date |
---|---|
DE3875583D1 (de) | 1992-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69125199T2 (de) | Geometrische Vektorquantifizierung | |
DE69418367T2 (de) | Verfahren zur Detektion einer Szenenänderung | |
DE69324743T2 (de) | Vorrichtung und Verfahren zur Bildsignalkodierung | |
DE69524235T2 (de) | Verfahren und vorrichtung zur global-zu-lokal-block-bewegungsschätzung | |
DE69421352T2 (de) | Reduzierung des Rauschens in Bildsignalen | |
DE69020564T2 (de) | Verfahren und vorrichtung zur behandlung von numerischen daten. | |
EP0368139B1 (de) | Verfahren zur Codierung von Restfehlerbildern | |
DE69324958T2 (de) | Kompression und Dekompression von Bildern | |
DE3871998T2 (de) | Fernsehsystem, in dem digitalisierte transformationskodierte bildsignale von einer kodierstation zu einer dekodierstation uebertragen werden. | |
DE68922610T2 (de) | Umfassendes System zur Codierung und Übertragung von Videosignalen mit Bewegungsvektoren. | |
DE69634962T2 (de) | Extrapolation von Pixelwerten eines in einem Block enthaltenen Videoobjektes | |
DE69422266T2 (de) | Verfahren, Vorrichtung und Schaltung zur Verbesserung von Bewegungskompensation bei digitaler Bildkodierung | |
DE69223560T2 (de) | Einrichtung zur Verminderung von Quantisierungsstörungen in einem Zwischenbild-Hybrid-Kodierungssystem mit Bewegungskompensation | |
DE69519980T2 (de) | Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen | |
DE69424825T2 (de) | Kodierungsverfahren und -vorrichtung mit Fuzzy-Kontrolle | |
DE69628083T2 (de) | Bildverarbeitungsgerät und Methode | |
EP0283715B1 (de) | Verfahren zur Codierung von Bildsignalen | |
DE60036288T2 (de) | Dynamisches bildsuch-informations-aufzeichnungsgerät und dynamische bildsuchvorrichtung | |
DE69519801T2 (de) | Videokompressionsverfahren | |
DE19609859C1 (de) | Verfahren zur Bildung einer Bild-Transformationsmatrix für ein beliebig geformtes Bildsegment eines digitalen Bildes, durch einen Rechner | |
DE69635836T2 (de) | Verfahren und Vorrichtung zur Kodierung eines Bildes mit einer Kontur in einem Videosignal | |
DE69515535T2 (de) | Verfahren und Vorrichtung zum Bildvergleich | |
DE69225649T2 (de) | Bewegungskompensation mit Verwendung einer minimalen Bitanzahl je bewegtem Block als Kriterium für Blockübereinstimmung | |
DE3751684T2 (de) | Musterverarbeitung | |
DE69026634T2 (de) | Verfahren und System zum Schreiben und Lesen von kodierten Daten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |