DE3875583T2 - Videobildverarbeitung. - Google Patents

Videobildverarbeitung.

Info

Publication number
DE3875583T2
DE3875583T2 DE8888903903T DE3875583T DE3875583T2 DE 3875583 T2 DE3875583 T2 DE 3875583T2 DE 8888903903 T DE8888903903 T DE 8888903903T DE 3875583 T DE3875583 T DE 3875583T DE 3875583 T2 DE3875583 T2 DE 3875583T2
Authority
DE
Germany
Prior art keywords
codebook
image
vectors
derived
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE8888903903T
Other languages
English (en)
Other versions
DE3875583D1 (de
Inventor
Grainger Sexton
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB878710737A external-priority patent/GB8710737D0/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of DE3875583D1 publication Critical patent/DE3875583D1/de
Application granted granted Critical
Publication of DE3875583T2 publication Critical patent/DE3875583T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/008Vector quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/94Vector quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

  • Die Erfindung bezieht sich auf die Analyse und Verarbeitung von Videobilden
  • Ein Videobild (worunter man auch festgehaltene Bilder, wie z. B. Faksimilebilder, zusätzlich zu bewegten Bildern versteht), enthält im allgemeinen zumindest einen Gegenstand, für den man sich interessiert, und einen "Hintergrund" von weniger Interesse (und daher weniger Wichtigkeit).
  • Ein Analysieren des Bildes, d. h. Erfassen der Anwesenheit/Abwesenheit oder Lage eines besonderen interessierenden Gegenstands wird oftmals in einer Vielzahl von Anwendungen erwünscht.
  • In einem Bildübertragungssystem kann eine verbesserte Bildqualität erzielt werden, falls Daten, die sich auf wichtige Teile der Szene, d. h. interessierende Gegenstände, beziehen, codiert werden unter Verwendung von relativ mehr Bits als Daten, die sich auf unwichtige (d. h. Hintergrund-) Teile beziehen. Zum Beispiel weist ein typisches Bild in einem Videophonsystem einen Kopf und Schultern vor einem Hintergrund auf, und die Gesichtsfläche des Kopfes ist visuell die wichtigste; daher ist es wünschenswert, die Kopffläche von den Schultern und dem Hintergrund zu identifizieren, damit man in der Lage ist, den Kopf mit einer höheren Erneuerungsrate als den Rest zu verarbeiten, so daß der Eindruck einer glatten Kopfbewegung vermittelt wird. Die Fähigkeit, einen Kopf innerhalb einer Kopf-und-Schulter-Szene zu orten, kann daher verwendet werden, um die räumliche Zuordnung von Videodaten zu modifizieren, wodurch ein Grad visueller Wichtigkeit ermöglicht wird, der Blöcken innerhalb der Daten zugeordnet werden soll.
  • Ebenfalls ist es wichtig, falls die Lage eines Gegenstands zeitlich genau umrissen wird, seine Bewegung vorherzusagen, wodurch "bewegungs-kompensierte" DPCM ermöglicht wird.
  • Eine Art, unterschiedliche Bereiche eines Bildes zu identifizieren, besteht darin, das von Nagao vorgeschlagene Verfahren zu verwenden (M. Nagao
  • - "Picture recognition and data structure", Graphic I-anguages - ed Nake and Rossenfield, 1972). Dieses Verfahren wurde in einem System vom Videophontyp verwendet, und zwar an einem Bild eines Kopfes und Schultern gegen einen Hintergrund. Man war erfolgreich bei der Bestimmung der Seiten des Kopfes, wenn die Person glatt rasiert war, doch war man in anderen Fällen sehr wenig erfolgreich; somit wird dieses Verfahren nicht als ausreichend zuverlässig betrachtet für die Grundlage eines Flächenidentifizierungsverfahrens.
  • Herkömmliche Codiergeräte, z. B. hybride Codiergeräte mit diskreter Kosinustransformation, verwenden keine "Szeneninhalt"-Information, um die Daten innerhalb der Szene zu codieren. Somit wird jeder Teil der Szene bearbeitet, als ob er die gleiche visuelle Wichtigkeit besitzt wie jeder andere Teil.
  • Andere Bildanalyseanwendungen sind vielfältig (z. B. in automatisierten Herstellungssystemen).
  • Es ist auch bekannt, Videobilder für die Übertragung unter Verwendung von Vektorquantisierung (VQ) zu codieren. Bei der VQ-Codierung wird das Bild anfänglich durch eine Matrix digitaler Daten dargestellt, welche dem Bilddatenblock entsprechen. Blöcke von Matrixpunkten ("Untermatrizen") werden verglichen mit Vektoren aus einem Codebuch, wobei der am besten übereinstimmende Vektor ausgewählt wird unter Verwendung eines Differenzen-Kriteriums der "kleinsten Quadrate". Ein diesen Vektor kennzeichnender Code wird dann übertragen, um die Untermatrix darzustellen. An dem Empfangsende wird der angedeutete Vektor aus einem identischen Codebuch ausgewählt und angezeigt.
  • Ein Beispiel einer derartigen Codiertechnik ist offenbart in einem Artikel mit dem Titel "Image Coding using Vector Quantization" von A- Gersho und B. Ramamurthi, IEEE International Conference of Acoustics, Speech and Signal Processing, ICASSP 82, Proceedings; 3. bis 5. Mai 1982, Paris, FR, Band 1 von 3 IEEE (US) Seiten 428 bis 431.
  • Ein Bild wird unterteilt in Zellen von p·p Bildelementen. Jede Zelle wird als ein Vektor der Dimension P² bezeichnet und wird codiert, indem man ein Codebuch durchsucht für einen am besten passenden repräsentativen Vektor. Ein den ausgewählten repräsentativen Vektor festlegendes Binärwort wird als Codewort zugeordnet, um die ursprüngliche Zelle zu beschreiben. Das Decodiergerät verwendet dieses Codewort, um ein Codebuch zu adressieren. Jede Eintragung des Codebuchs enthält eine digitale Darstellung mit voller Genauigkeit von einem der N repräsentativen Vektoren. Der Entwurf des Codebuchs basiert auf einer Zusammenballungstechnik für einen Vektorquantisierungsentwurf, dem eine Klassifizierung von Übungszellen in Kanten- oder Schattenzellen vorausgeht. Jeder Übungsvektor (Zelle) wird zuerst als eine Kanten- oder Schatten-(nicht-Kanten-)-Zelle klassifiziert, und ein gesonderter Codebuchentwurf wird für jeden der beiden Zellentypen durchgeführt. Das endgültige Codebuch ist eine Aneinanderkettung der beiden Codebücher.
  • Das der Erfindung zugrunde liegende Prinzip besteht jedoch darin, die Vektorquantisierung (VQ) als ein Identifizierungsverfahren (z. B. Gegenstandsortung) zu verwenden.
  • Gemäß eines ersten Gesichtspunkts der vorliegenden Erfindung gibt es ein Verfahren zum Analysieren eines Bildes, bei dem Untermatrizen des Bildes jeweils mit den Elementen eines zusammengesetzten Codebuchs von Vektoren verglichen werden, um zu bestimmen, welcher der Vektoren jeder Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch von Vektoren eine Aneinanderkettung von zumindest zwei Codebüchern aufweist, wobei jedes Codebuch sich von einem jeweiligen Übungssatz von Bilddaten ableitet; und zwar dadurch gekennzeichnet, daß: eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von einem Satz Bilddaten abgeleitet worden sind, die von Bildern eines ersten Gegenstands abgeleitet sind; jeder der Vektoren des ersten Codebuchs hat eine dazu zugeordnete Kennmarke, welche anzeigt, daß er ein Element des Codebuchs ist; und jede Untermatrix des Bildes, von dem man bestimmt, daß es einem Vektor des ersten Codebuchs am ähnlichsten ist, wird als dem ersten Gegenstand zugeordnet gekennzeichnet.
  • Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung gibt es ein Verfahren zum Codieren einer Serie von Bildern, wobei Untermatrizen jedes Bildes jeweils mit den Elementen eines zusammengesetzten Codebuchs von Vektoren verglichen werden, um zu bestimmen, welcher der Vektoren jeder Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch von Vektoren eine Aneinanderkettung von zumindest zwei Codebüchern aufweist, wobei jedes Codebuch von einem jeweiligen Übungssatz von Bilddaten abgeleitet ist; und zwar dadurch gekennzeichnet, daß: eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von einem Satz Bilddaten abgeleitet worden sind, welche von Bildern eines ersten Gegenstands abgeleitet sind; wobei jeder der Vektoren des ersten Codebuchs dazu ein Kennzeichen zugeordnet hat, welches anzeigt, daß er ein Element des Codebuchs ist; wobei jede Untermatrix eines Bildes, von dem man bestimmt, daß es einem Vektor des ersten Codebuchs am ähnlichsten ist, als mit dem ersten Gegenstand verbunden gekennzeichnet wird; und die Bilder sind so codiert, daß Untermatrizen, welche einem Gegenstand zugeordnet sind, mit einer höheren Geschwindigkeit auf den neuesten Stand gebracht werden als die anderen Untermatrizen.
  • Gemäß einem dritten Gesichtspunkt der vorliegenden Erfindung weist ein Codiergerät zum Codieren von Videobildern auf: eine Vektorquantisiereinrichtung zum Vergleichen von Untermatrizen des Bildes mit den Elementen eines zusammengesetzten Codebuchs von Vektoren, um zu bestimmen, welcher der Vektoren jeder Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch von Vektoren eine Aneinanderkettung von zumindest zwei Codebüchern aufweist, wobei jedes Codebuch von einem entsprechenden Übungssatz von Bilddaten abgeleitet ist; und zwar dadurch gekennzeichnet, daß: eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von einem Satz Bilddaten abgeleitet worden sind, welche von den Bildern eines ersten Gegenstands abgeleitet sind; wobei jeder der Vektoren des ersten Codebuchs ein ihm zugeordnetes Kennzeichen hat, welches anzeigt, daß er ein Element des Codebuchs ist, wobei das Codiergerät eine Kennzeichnungseinrichtung beinhaltet zum als dem ersten Gegenstand zugeordneten Kennzeichnen jeder Untermatrix des Bildes, von dem bestimmt wird, daß es einem Vektor des ersten Codebuchs am ähnlichsten ist, und eine Bildcodiereinrichtung, welche die einem Gegenstand zugeordneten Untermatrizen schneller auf den neuesten Stand bringt/codiert als die anderen Untermatrizen.
  • Ein Ausführungsbeispiels der Erfindung wird nun beschrieben mittels eines nicht beschränkenden Beispiels, welches sich mit der Identifizierung eines Kopfes in einer Kopf-Schulter-Einheit gegen eine Hinteigrundszene befaßt, und zwar unter Bezugnahme auf die begleitenden Zeichnungen, wobei:
  • Fig. 1 ein Blockdiagramm ist, welches die anfänglichen Betriebsstufen von Teilen eines die Erfindung verkörpernden Codiergeräts zeigt;
  • Fig. 2a bis 2g schematisch verschiedene Stufen in einer Übungssequenz zeigen, die verwendet wird, um das Codebuch herzuleiten;
  • Fig. 3 ein Blockdiagramm ist, das den Betrieb eines die Erfindung verkörpernden Codiergeräts zeigt;
  • Fig. 4a schematisch einen zu analysierenden Datenblock zeigt;
  • Fig. 4b die Untermatrizenblöcke zeigt, welche in der vektorquantisierenden Fig. 4a verwendet werden;
  • Fig. 4c den Zustand von Kennzeichen zeigt, die dem vektorquantisierten Bild von Fig. 4b entsprechen;
  • Fig. 4d schematisch das Ergebnis des Analysierens des Datenblocks von
  • Fig. 4a gemäß der Erfindung zeigt; und
  • Fig. 5 schematisch ein die Erfindung verkörperndes Codiergerät zeigt.
  • Um ein Funktionieren der Erfindung zu ermöglichen, ist es notwendig, ein zusammengesetztes Codebuch bereitzustellen, welches Vektoren beinhaltet, die als "Kopf" gekennzeichnet sind. Vorzugsweise werden andere als "Hintergrund" gekennzeichnet. Es ist möglich, ein "Standard"-Codesbuch für entweder einen durchschnittlichen oder einen gegebenen Sprecher abzuleiten, doch wird, um Flexibilität und größere Identifiziergenauigkeit zu gestatten, dieses Codebuch zu Beginn in einer anfänglichen "Übungs"-Sequenz abgeleitet. Eine bevorzugte Art und Weise, eine derartige Sequenz zu implementieren, wird nun beschrieben.
  • Um "Kopf"- und "Hintergrund"-Teile des Codebuchs zu erzeugen, ist es notwendig, auf unverwechselbare Art einige "Nur-Kopf"-Daten und "Nur- Hintergrund"-Daten zu erhalten; ein grober anfänglicher Algorithmus wird benötigt.
  • In Fig. 1 und 2 werden, um den Kopf zu erfassen, digitale Daten, welche mehrere nebeneinanderliegende Datenblöcke des Kopf und Schulter-Bildes darstellen, eingefangen. Zum Beispiel in einem Speicher 1. Einer dieser Datenblöcke ist in Fig. 2a beschrieben. Diese Daten müssen nicht extrem genau sein, sondern vielmehr repräsentativ.
  • Unter der Annahme, daß die primären sich bewegenden Flächen innerhalb der Datensequenz direkt der Kopffläche zugeordnet sind, wird eine Datenblockdifferenzierung 2 auf die Daten angewendet, welche jedes nebeneinanderliegende Paar von Datenblöcken darstellen. Dieser Prozeß liefert typischerweise einen Satz von Differenzendaten für jedes benachbarte sich bewegende flächendarstellende Paar zusammen mit zufälligem Rauschen über der gesamten Bildfläche.
  • Für alle Bildelemente (Pels) welche durch dessen jeweiligen Satz von Differenzdaten dargestellt werden, wird jedes Pel über einen gegebenen Intensitätsschwellwert auf die maximale Intensität (255) eingestellt, und jedes Pel unterhalb der Schwelle wird auf die minimale Intensität (O) eingestellt. Diese "Schwellwertbehandlung" 3 entfernt eine große Menge des zufälligen Rauschens und einige der sich bewegenden Flächen.
  • Eine Mittelungsfilterung 4 wird nachfolgend auf jeden Satz von Differenzdaten angewendet, welche sehr effektiv den Großteil des verbleibenden zufälligen Rauschens entfernt, aber nur kleine Mengen der sich bewegenden Flächen erodiert.
  • Das von jedem Datensatz in dieser Stufe dargestellte Bild wird kaum einen klaren Umriß des Kopfes liefern, es sei denn, der Kopf/Hintergrund-Kontrast ist sehr hoch und die Bewegung des Kopfes zwischen benachbarten Datenblöcken ist mehr als ein Pel. Oft kann nur eine Seite und der Oberteil des Kopfes wie in Fig. 2b gezeigt beschrieben werden
  • Im allgemeinen sind die sich bewegenden Flächen in Gebieten um die Kopffläche zusammengeballt, doch können auch einige isolierte Zusammenballungen auftreten aufgrund von Bewegung in anderen Bereichen des Bildes.
  • Ein Zusammenballungsprozeß 5 wird verwendet, um einige der isolierten Zusammenballungen zu entfernen: zwei orthogonale Histogramme werden erzeugt, wobei das eine die Anzahl "sich bewegender" Pels in den Spalten des Bildes darstellt, welches durch die Daten dargestellt ist, und eines die Anzahl sich bewegender Pels in den Zeilen des Bildes darstellt, welches durch die Daten dargestellt ist. Die Momente erster Ordnung werden berechnet und der "Schwerpunkt" des Bildes wird bestimmt, wie in Fig. 2c gezeigt. Dann wird ein Rechteck erzeugt, welches auf diesen Koordinaten zentriert ist, und zwar von derartigen Abmessungen, daß ein gegebener Prozentsatz sich bewegender Fläche innerhalb von ihm eingeschlossen ist, siehe Fig. 2d. Die Pels, welche außerhalb dieses Rechtecks verbleiben, werden auf O-Intensität gesetzt, Fig. 2e. Durch eine passende Auswahl eines Rechtecks werden durch diesen Prozeß isolierte Zusammenballungen entfernt.
  • Es werden Zwangsbedingungen der Auswahl der Rechtecke auferlegt, um das Auftreten von fehlerhaften Rechtecken zu verringern. Da eine sehr kleine Bewegung des Kopfes zwischen einem Datenblock und dem nächsten ein sehr kleines Rechteck erzeugen kann, ist die Änderungsrate der Größe des Rechtecks von einem Datensatz zu dem nächsten beschränkt: entweder ist jede der Grenzlinien des Rechtecks gezwungen, innerhalb einer kleinen Entfernung der entsprechenden Grenze in dem unmittelbar vorhergehenden Datensatz zu liegen; oder die maximale Änderungsrate der Größe des Rechtecks ist an die Datenblock-Differenzenergie gekoppelt (z. B. das Quadrat der Differenzdaten). Somit wird, falls die Differenzenergie klein ist, die Änderung klein gehalten, aber wenn die Differenzenergie groß ist, kann die Änderungsrate größer sec
  • Das Rechteck - Rechtecke werden verwendet, da sie sehr wenige Bits an Daten für ihre Definition benötigen - wird dann, falls nötig, geschrumpft, bei 6 in Fig. 1, und wie in Fig. 2f gezeigt, um das kleinste Rechteck zu werden, welches um die Daten plaziert werden kann, um alle verbleibenden nicht-O-Pels zu umschließen. Von diesem Rechteck nimmt man an, daß es ein ungefähres Modell des Kopfes darstellt.
  • Eine Grenze wird dann bei 7 in Fig. 1 um das endgültige Rechteck erzeugt, wie in Fig. 2g gezeigt. Diese Grenze bestimmt eine Ausschließungszone aus welcher später keine Daten genommen werden. Dies stellt sicher, daß, wenn die Grenze auf den jeweiligen Datenblöcke des ursprünglichen Bildes angewendet wird, die Daten innerhalb der Grenze ausschließlich Kopfdaten und die Daten außerhalb der Grenze ausschließlich Hintergrunddaten sind.
  • Falls fünf Datenblöcke anfänglich in Speicher 1 eingefangen sind, werden vier benachbarte Paare von Datenblöcken analysiert, und es ergeben sich vier Sätze von Daten. Nachdem die vier Grenzen gesetzt worden sind 7, werden die Kopfflächendaten und die Hintergrundflächendaten aus den ersten vier Datenblöcken des ursprünglichen Bildes jeweils extrahiert, und der Unde-Buso-Grey-Algorithmus wird angewandt, um ein VQ-Codebuch für jede Fläche 8 zu erzeugen, z. B. ein 9-Bit-Hintergrund-Codebuch und 10-Bit-Kopf-Codebuch (d. h. Codebücher, welche jeweils 2&sup9; und 2¹&sup0; Eingaben) enthalten. Die beiden Codebücher werden dann kombiniert 9, um ein Codebuch zu bilden, bei dem jede Eintragung ein zugeordnetes Kennzeichen hat, welches ihren Ursprung andeutet.
  • In Fig. 3 und 4a bis d, wird, nachdem diese Übungssequenz vollendet ist, das zusammengesetzte Codebuch verwendet, um den Kopf in aufeinanderfolgenden Bilddatenblöcken zu orten. Das VQ-Codiergerät funktioniert genauso wie es in einem System des Stands der Technik funktionieren würde, bei dem VQ als die Übertragungscodierung verwendet wird, doch wird für jeden Block codierter Pels 10 der erzeugte Code ein Kennzeichen enthalten (z. B. die erste Ziffer), das angibt, ob dieser Block "Kopf" oder "Hintergrund" ist, so daß die Lage des Kopfes für jeden Datenblock bekannt ist.
  • Man wird natürlich einsehen, daß, wenn das Codebuch an dem Codiergerät wie oben angedeutet abgeleitet wird, eine Vektorquantisierung als der Übertragungscode nicht verwendet werden kann (es sei denn, dieses Codebuch wird dem Decodiergerät zuerst bekannt gemacht durch Überstragen eines Hinweises auf die Vektoren).
  • Da der Quantisierungsprozeß von Natur aus approximativ ist, wird man verstehen, daß gelegentlich Blöcke von dem Kopfteil des Bildes am besten mit einem Vektor aus dem "Hintergrund"-Teil des Codebuchs übereinstimmen, oder umgekehrt. Die tatsächliche Identifizierung des Kopfes wird daher gewöhnlich mit sich bringen, daß isolierte "Kopf"- Blöcke ignoriert werden unter Verwendung von Erosion und Zusammenballung 11, 12 (z. B. wie oben beschrieben), oder indem man die Fläche mit der höchsten Konzentration an "Kopf"-Blöcken als den tatsächlichen Kopf bestimmt.
  • Ein anderes Verfahren verlangt das Erfassen von isolierten "Kopf"-Blökken und dann ein Untersuchen des Fehlers zwischen dem Block und dem "Kopf"-Vektor und dem zwischen dem Block und dem am besten passenden "Hintergrund"-Vektor, und, falls die beiden Zählwerte ahnlich sind (d. h. wenn es eine Nichteindeutigkeit darüber gibt, ob der Block "Kopf" oder "Hintergrund" ist), ein neues Kennzeichnen des Blocks als "Hintergrund" statt dessen.
  • Falls die Kopfblöcke zu sehr verstreut sind, kann es sein, daß das Codebuch nicht ausreicht, um den Kopf zu kennzeichnen. In diesem Fall kann eine erneute Übungssequenz verwendet werden, um das Codebuch zu regenerieren.
  • Diese erneute Übungssequenz kann einfach eine weitere Sequenz der oben beschriebenen Art sein, oder sie kann versuchen, das Codebuch zu verbessern (anstatt es einfach neu zu definieren). Zum Beispiel kann man die Anzahl "inkorrekter" (d. h. verstreuter) im Gegensatz zu "korrekten" (d. h. in der Kopffläche konzentrierten) Auftritten jedes Vektors zählen, und die Zerstreuung kann so verringert werden, indem man von dem Codebuch Vektoren verwirft, welche zu oft inkorrekt auftreten.
  • Oder man kann alternativ den näherungsweisen durch Orten der größten Konzentration von "Kopf"-Blöcken abgeleiteten Kopfort verwenden, und zwar auf die gleiche Art und Weise wie oben beschrieben, als eine Fläche zum Erzeugen eines neuen "Kopf"-Codebuchs.
  • Diese letztgenannten Ansätze, bei denen das Vektorquantisierungscodiergerät durch jede erneute Übungssequenz "lernt", werden aus Gründen der Genauigkeit bevorzugt.
  • Fig. 5 zeigt ein Blockdiagramm eines Videocodiergerätes (z. B. für ein Videotelefon), welches die Erfindung verkörpert. Videosignale werden von einer Eingabe 20 zu einem Datenblockspeicher 21 eingegeben, wo individuelle Bildelementwerte in jeweiligen Speicherorten aufgezeichnet werden, so daß gewünschte Untermatrizen an Pels für eine weitere Verarbeitung zugreifbar sind. Die Größen der Untermatrizen können typischerweise 8·8 sein. In einer anfänglichen Übungsphase des Geräts führt eine Übungssteuerungseinheit 22 - welche z. B. ein passend programmiertes Mikroprozessorsystem sein kann - das oben beschriebene Codebucherzeugungsverfahren aus, und gibt die Vektoren (und Kennzeichen) in einen Vektorquantisierungs-Codebuchspeicher 23 ein. Man wird verstehen, daß der Vektorquantisierungsprozeß das In-Übereinstimmung- Bringen von 8·8 Untermatrizen mit dem nächsten der gespeicherten Vektoren verlangt, d. h. eine Anzahl von 8·8 Mustern, die entscheidend geringer ist als die maximale mögliche Anzahl (2&sup6;&sup4;) solcher Muster.
  • In der Codierphase des Geräts wird das In-Übereinstimmung-Bringen bzw. Anpassen durch eine Vektorquantisierungs-Steuerlogik 24 durchgeführt, welche aufeinanderfolgende Untermatrizen aus dem Datenblockspeicher 21 empfängt und jeden von ihnen mit all den Vektoren in dem Codebuchspeicher vergleicht. Die einfachste Form des Vergleichs wäre ein Berechnen der mittleren quadratischen Abweichung zwischen den beiden; wobei der Vektor, welcher das geringste Ergebnis liefert, als die beste Übereinstimmung betrachtet wird. Die Ausgabe von der Vektorquantisierungs-Steuerlogik ist die Sequenz von Kennzeichen, die den so gekennzeichneten Vektoren zugeordnet sind.
  • Die tatsächliche Logik wird in diesem Beispiel durch ein differentielles Zwischendatenblock-Codiergerät 25 durchgeführt, in welchem eine Zwischendatenblock-Differenz (im Subtrahierer 26) zwischen den Pels von dem Datenblockspeicher 21 und einer vorhergehenden Datenblockvoraussagevorrichtung 27 (auf die herkömmliche Art und Weise) bestimmt wird. Wie es in solchen Systemen gewöhnlich ist, sind eine Quantisiervorrichtung 28 und ein Ausgabepuffer 29 gezeigt (um die unregelmäßige Datenerzeugungsrate mit einem Übertragungsglied in Übereinstimmung zu bringen, welches mit einer konstanten Rate arbeitet). Ein Empfänger (nicht gezeigt) verwendet die Differenzinformation, um ein wiederhergestelltes Bild in einem Datenblockspeicher auf den neuesten Stand zu bringen. Die Kennzeichenausgabe von der Vektorquantisierungs-Steuerlogik 24 ist an das differentielle Codiergerät 25 angeschlossen (falls benötigt), und zwar über Erodier-/Zusammenballungsschaltkreise 30. Wenn das Kennzeichen andeutet, daß gerade "Kopf"-Information verarbeitet wird, arbeitet das Codiergerät normal. Falls jedoch "Hintergrund" angedeutet wird, dann wird die Erzeugung von Differenzinformation weniger häufig durchgeführt (z. B. nur bei jedem zweiten Datenblock). Dieser Betrieb wird durch einen Schalter 31 veranschaulicht, welcher die Codierschleife bei jedem zweiten Datenblock unterbricht, wenn das Kennzeichen s"Hintergrund" andeutet.
  • Aus dem Vorhergehenden ist offensichtlich, daß jeder visuell unterscheidbare Gegenstand oder Gegenstände genau erfaßt, erkannt oder geortet werden können unter Verwendung von Verfahren gemäß der Erfindung.

Claims (13)

1. Verfahren zum Analysieren eines Bildes, wobei Untermatrizen des Bildes jeweils mit den Elementen eines zusammengesetzten Codebuchs von Vektoren verglichen werden, um zu bestimmen, welcher oder Vektoren jeder Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch (9) von Vektoren eine Aneinanderkettung von zumindest zwei Codebüchern (8) aufweist, wobei jedes Codebuch von einem jeweiligen Übungssatz von Bilddaten abgeleitet wird;
dadurch gekennzeichnet, daß
eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von einem Satz Bilddaten abgeleitet sind, welche von Bildern eines ersten Gegenstandes abgeleitet sind;
jeder der Vektoren des ersten Codebuchs eine dazu zugeordnete Kennmarke hat, welche anzeigt, daß er ein Element des Codebuchs ist; und
jede Untermatrix des Bildes, von dem man bestimmt, daß es einem Vektor des ersten Codebuchs am ähnlichsten ist, als dem ersten Gegenstand zugeordnet gekennzeichnet wird.
2. Verfahren nach Anspruch 1, wobei eines der Codebücher von einem Satz Bilddaten (2a) abgeleitet ist, welche von Bildern menschlicher Köpfe abgeleitet sind.
3. Verfahren zum Codieren einer Serie von Bildern, wobei Untermatrizen jedes Bildes jeweils mit den Elementen eines zusammengesetzten Codebuchs von Vektoren verglichen werden, um zu bestimmen, welcher der Vektoren jeder Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch von Vektoren eine Aneinanderkettung von zumindest zwei Codebüchern aufweist, wobei jedes Codebuch von einem jeweiligen Übungssatz von Bilddaten abgeleitet ist; dadurch gekennzeichnet, daß
eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von einem Satz Bilddaten abgeleitet worden sind, welche von Bildern eines ersten Gegenstands abgeleitet sind;
jeder der Vektoren des ersten Codebuches dazu ein Kennzeichen zugeordnet hat, welches anzeigt, daß er ein Element des Codebuchs ist;
jede Untermatrix eines Bildes, von dem man bestimmt, daß es einem Vektor des ersten Codebuchs am ähnlichsten ist, als mit dem ersten Gegenstand verbunden gekennzeichnet wird; und
die Bilder so codiert sind, daß Untermatrizen, welche einem Gegenstand zugeordnet sind, mit einer höheren Geschwindigkeit auf den neuesten Stand gebracht werden als die anderen Untermatrizen.
4. Codiergerät zum Codieren eines Videobildes, welches aufweist: eine Vektorquantisiereinrichtung zum Vergleichen von Untermatrizen des Bildes mit den Elementen eines zusammengesetzten Codebuchs von Vektoren, um zu bestimmen, welcher der Vektoren jeder Untermatrix am ähnlichsten ist, wobei das zusammengesetzte Codebuch von Vektoren eine Aneinanderkettung von zumindest zwei Codebüchern aufweist, wobei jedes Codebuch von einem entsprechenden Übungssatz von Bilddaten abgeleitet ist; dadurch gekennzeichnet, daß
eines der Codebücher ein erstes Codebuch ist, dessen Vektoren von einem Satz Bilddaten abgeleitet worden sind, welche von Bildern eines ersten Gegenstands abgeleitet sind;
jeder der Vektoren des ersten Codebuchs ein ihm zugeordnetes Kennzeichen hat, welches anzeigt, daß er ein Element des Codebuchs ist;
das Codiergerät eine Kennzeichnungseinrichtung beinhaltet zum als dem ersten Gegenstand zugeordnete Kennzeichnen jeder Untermatrix des Bildes, von dem bestimmt wird, daß es einem Vektor des ersten Codebuchs am ähnlichsten ist; und
eine Bildcodiereinrichtung, welche die einem Gegenstand zugeordneten Untermatrizen schneller auf den neuesten Stand bringt als die anderen Untermatrizen.
5. Codiergerät nach Anspruch 4, wobei die Codiereinrichtung ein diskretes Kosinustransformations-Codiergerät ist.
6. Codiergerät ach Anspruch 4, wobei die Codiereinrichtung ein bewegungskompensiertes DPCM-Codiergerät ist
7. Codiergerät nach einem der Ansprüche 4, 5 und 6, welches weiterhin zusammengesetzte Codebuch-Erzeugungseinrichtungen aufweist, um das zusammengesetzte Codebuch von Vektoren zu erzeugen, einschließlich: einer Identifizierungseinrichtung (1, 2, 3, 4, 5, 6, 7) zum Identifizieren einer einem Gegenstand entsprechenden Fläche des Bildes; einer Erzeugungseinrichtung zum Erzeugen eines ersten Codebuchs aus Untermatrizen innerhalb der Fläche und zum Erzeugen eines weiteren Codebuchs aus Untermatrizen außerhalb der
Fläche; und eine Kombinationseinrichtung zum Kombinieren des ersten und weiteren Codebuchs (9), um eine zusammengesetztes Codebuch (9) zu bilden.
8. Codiergerät nach Anspruch 7, wobei die Identifizierungseinrichtung angeordnet ist, um den Unterschied zwischen einem Paar zeitlich getrennter Bilddatenblöcke zu analysieren, um dem Gegenstand entsprechende Flächen des Bildes zu identifizieren.
9. Codiergerät nach Anspruch 8, wobei die Identifizierungseinrichtung (1, 2, 3, 4, 5, 6, 7) aufweist:
(a) eine Einrichtung (2, 3), mit der man aus einem Paar von Datenblöcken (2a) der Bildmatrixelemente innerhalb eines konzeptionellen zweidimensionalen Feldes den Wert jeder Position innerhalb des Feldes erzeugt, welche anzeigt, ob der Unterschied zwischen den Luminanzniveaus der Bildelemente bei entsprechenden Positionen in den beiden Datenblöcken über oder unter einem Schwellwert liegt.
(b) Eine Zusammenballungseinrichtung (5) zum Bestimmen des Schwerpunktes innerhalb des Feldes der Matrixelemente, wodurch ein Unterschied über dem Schwellwert angezeigt wird; und
eine geradlinige Begrenzungseinrichtung (6, 7) zum Bestimmen der Position einer Grenze um den Schwerpunkt, welche einen gegebenen Anteil der Matrixelemente umschließt, wobei alle innerhalb einer so bestimmten Grenze liegenden Bildelemente identifiziert werden als zu einer Fläche des Bildes gehörend, welches dem Gegenstand entspricht.
10. Codiergerät nach Anspruch 9, dessen Einrichtung weiterhin eine Filtereinrichtung (4) aufweist zur Mittelungsfilterung der Matrixelemente innerhalb des konzeptionellen zweidimensionalen Feldes, bevor der Schwerpunkt bestimmt wird.
11. Codiergerät nach einem der Ansprüche 9 und 10, wobei die Grenze um den Schwerpunkt in ihrer Dicke aus einer endlichen Anzahl von Elementen besteht.
12. Codiergerät nach einem der Ansprüche 9, 10 und 11, wobei die Grenze um den Schwerpunkt rechteckförmig ist
13. Codiergerät nach Anspruch 12, wobei die rechteckförmige Grenze um den Schwerpunkt zentriert ist und jede Seite des Rechtecks nach innen bewegt wird, wenn möglich, bis sie an zumindest eines der Matrixelemente stößt, welches einen Unterschied oberhalb des Schwellwertes anzeigt.
DE8888903903T 1987-05-06 1988-05-06 Videobildverarbeitung. Expired - Lifetime DE3875583T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB878710737A GB8710737D0 (en) 1987-05-06 1987-05-06 Video image encoding
PCT/GB1988/000357 WO1988009101A1 (en) 1987-05-06 1988-05-06 Video image processing

Publications (2)

Publication Number Publication Date
DE3875583D1 DE3875583D1 (de) 1992-12-03
DE3875583T2 true DE3875583T2 (de) 1993-03-11

Family

ID=26292214

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8888903903T Expired - Lifetime DE3875583T2 (de) 1987-05-06 1988-05-06 Videobildverarbeitung.

Country Status (1)

Country Link
DE (1) DE3875583T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109186508A (zh) * 2018-09-19 2019-01-11 晓智科技(成都)有限公司 一种厚度测量的中值滤波方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO346137B1 (en) * 2020-06-17 2022-03-14 Pexip AS Method, computer program and system for detecting changes and moving objects in a video view

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109186508A (zh) * 2018-09-19 2019-01-11 晓智科技(成都)有限公司 一种厚度测量的中值滤波方法

Also Published As

Publication number Publication date
DE3875583D1 (de) 1992-12-03

Similar Documents

Publication Publication Date Title
DE69125199T2 (de) Geometrische Vektorquantifizierung
DE69418367T2 (de) Verfahren zur Detektion einer Szenenänderung
DE69324743T2 (de) Vorrichtung und Verfahren zur Bildsignalkodierung
DE69524235T2 (de) Verfahren und vorrichtung zur global-zu-lokal-block-bewegungsschätzung
DE69421352T2 (de) Reduzierung des Rauschens in Bildsignalen
DE69020564T2 (de) Verfahren und vorrichtung zur behandlung von numerischen daten.
EP0368139B1 (de) Verfahren zur Codierung von Restfehlerbildern
DE69324958T2 (de) Kompression und Dekompression von Bildern
DE3871998T2 (de) Fernsehsystem, in dem digitalisierte transformationskodierte bildsignale von einer kodierstation zu einer dekodierstation uebertragen werden.
DE68922610T2 (de) Umfassendes System zur Codierung und Übertragung von Videosignalen mit Bewegungsvektoren.
DE69634962T2 (de) Extrapolation von Pixelwerten eines in einem Block enthaltenen Videoobjektes
DE69422266T2 (de) Verfahren, Vorrichtung und Schaltung zur Verbesserung von Bewegungskompensation bei digitaler Bildkodierung
DE69223560T2 (de) Einrichtung zur Verminderung von Quantisierungsstörungen in einem Zwischenbild-Hybrid-Kodierungssystem mit Bewegungskompensation
DE69519980T2 (de) Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
DE69424825T2 (de) Kodierungsverfahren und -vorrichtung mit Fuzzy-Kontrolle
DE69628083T2 (de) Bildverarbeitungsgerät und Methode
EP0283715B1 (de) Verfahren zur Codierung von Bildsignalen
DE60036288T2 (de) Dynamisches bildsuch-informations-aufzeichnungsgerät und dynamische bildsuchvorrichtung
DE69519801T2 (de) Videokompressionsverfahren
DE19609859C1 (de) Verfahren zur Bildung einer Bild-Transformationsmatrix für ein beliebig geformtes Bildsegment eines digitalen Bildes, durch einen Rechner
DE69635836T2 (de) Verfahren und Vorrichtung zur Kodierung eines Bildes mit einer Kontur in einem Videosignal
DE69515535T2 (de) Verfahren und Vorrichtung zum Bildvergleich
DE69225649T2 (de) Bewegungskompensation mit Verwendung einer minimalen Bitanzahl je bewegtem Block als Kriterium für Blockübereinstimmung
DE3751684T2 (de) Musterverarbeitung
DE69026634T2 (de) Verfahren und System zum Schreiben und Lesen von kodierten Daten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition