DE3787867T2

DE3787867T2 - Dreidimensionale Videoübertragung.

Info

Publication number: DE3787867T2
Application number: DE87309703T
Authority: DE
Inventors: David Hugh Morton
Original assignee: British Broadcasting Corp
Current assignee: British Broadcasting Corp
Priority date: 1986-11-06
Filing date: 1987-11-03
Publication date: 1994-03-24
Anticipated expiration: 2007-11-04
Also published as: GB8725717D0; GB8626527D0; EP0267000A2; GB2198310A; JPH06319157A; EP0267000A3; EP0267000B1; GB2198310B; US4905081A; DE3787867D1; JPS63198498A

Description

Die Erfindung betrifft die Übertragung von Videobildern, die Tiefeninformation enthalten, und befaßt sich insbesondere mit einem solchen System, das die Kompatibilität mit monoskopischen Empfängern bewahrt.
Trotz jüngster Fortschritte auf dem eine höhere Definition betreffenden Gebiet kann das Fernsehen so lange nicht das "Fenster der Welt" sein, bis es möglich ist, ein gewisses Maß an Tiefeninformation zu übermitteln. Es gab Versuche, rot/grüne Anaglyphenbilder zu übertragen, um eine stereoskopische Darstellung zu erzielen, jedoch führte dies zu Beanstandungen bei Betrachtern, die nicht über die notwendigen Brillen verfügten. Irgendeine Lösung für die Übertragung von dreidimensionalen Bildern muß aus praktischen gründen auch kompatible monoskopische Bilder übertragen.
Die Methode der dreidimensionalen oder 3D-Bildwiedergabe höchster Qualität ist durch das Hologramm verkörpert. Es ist jedoch von wenig Nutzen für den Rundsendungstechniker, da die Szene wenigstens teilweise mit kohärentem Licht beleuchtet werden muß oder, falls eine Bildskalierung erforderlich ist, mit Mikrowellen oder Röntgenstrahlen (in Abhängigkeit von der Richtung der Skalierung). Selbst wenn man die Probleme der Bildskalierung durch eine gewisse Form der Signalverarbeitung überwinden könnte, würde die phänomenale Bandbreite eines "Roh"-Holograms in der Größenordnung von 100 Gbit/s beträchtliche Probleme bei der Redundanzentfernung, Kanalcodierung und Übertragung aufwerfen. Dennoch ist das Hologramm als Darstellung unübertroffen, und es übermittelt einen gewissen Realismus, der weit über das hinausgeht, was andere Methoden zu leisten imstande sind.
Stereoskopie ist andererseits relativ einfach zu handhaben, und zwar unter Verwendung von verfügbarem Licht, und es ist lediglich das Zweifache der ursprünglichen Bandbreite erforderlich, selbst wenn man keinen Versuch zur Redundanzentfernung macht. Außerdem ist sie auch einer Bandbreitenverminderung zugänglich. Stereoskopie ist deshalb die beste Wahl sowohl für das Studio als auch für die Übertragung. Bezüglich der Darstellung kann man jedoch Stereokoskopie nicht bevorzugen, da die meisten Systeme polarisierende Augengläser benötigen und das Bild ohne sie nicht überwachbar ist.
Die US 3 674 921 beschreibt ein Verfahren zum Übertragen eines stereoskopischen Signals mit einer verminderten Bandbreite dadurch, daß ein monoskopisches Signal und ein Differenzsignal übertragen werden. Das Differenzsignal mit einer Bandbreite von 0,5 MHz wird abgeleitet von der Hochfrequenzdifferenz zwischen zwei Quellensignalen. Das meiste an stereoskopischer Information ist in dem Hochfrequenzbereich der Differenzsignale konzentriert, jedoch wird, selbst wenn man nur diesen Teil des Differenzsignals überträgt, Information übertragen, die für den stereoskopischen Empfang nicht erforderlich ist, so daß eine weitere Bandbreitenverminderung schwierig ist.
In der DE-A-3 225 859 ist ein 3D-System beschrieben, das die Differenz in den Luminanzsignalen zwischen entsprechenden Bildelementen oder Pixeln in zwei Darstellungen derselben Szene verwendet, um eine Rand- oder Kanteninformation abzuleiten und auf diese Weise eine grobe Form eines Tiefensignals zu erzeugen. Diese Form von Tiefensignal ist jedoch äußerst anfällig gegenüber Rausch-, Ausleucht-, Szenen- oder Aufnahmeänderungen. Die einzige Information, die zum Erzeugen einer Darstellung zur Verfügung steht, die Tiefeninformation enthält, wären die Kantensignale. Bei Anwendung auf eine stereoskopische Darstellung würden allerdings die Gegenstände wie flache kartenartige Ausschnitte erscheinen und nicht einen dreidimensionalen Eindruck auslösen. Es handelt sich deshalb um ein äußerst grobes 3D-System.
In der EP-A-0 204 006 ist ein System beschrieben, das ein Bild einer Szene in Blöcke unterteilt und dann für jeden Block ein Gesamtverschiebesignal berechnet. Dieses Verschiebesignal gibt die Differenz zwischen diesem Block und einem entsprechenden Block in einem anderen Bild derselben Szene an. Somit wird ein Signal zum Übertragen auf einer blockweisen Grundlage erzeugt. Dieses System hat Schwierigkeiten, wenn in einem Block mehr als eine Verschiebung auftritt, was beispielsweise durch Parallaxeneffekte hervorgerufen werden kann. Das eine oder das andere der Signale wird ausgewählt und diesem Block zugeordnet werden müssen. Dies führt zu einer Situation, bei der eine 3D-Darstellung eines Bildes auf einer stereoskopischen Darstellung so erscheint, als sei sie auf einer extrem unebenen Ziegelsteinwand aufgemalt.
Die WO 87/05 769, bei der es sich um ein Dokument nach Artikel 54(3) handelt, ist auf ein System zum Ableiten von Bewegungsvektoren aus einer Sequenz Videobilder, die die Bewegung von Gegenständen zwischen Einzelbildern der Sequenz darstellen, gerichtet. Das beschriebene System ist auf Anwendungen wie Fernsehumsetzung und Zeitlupensequenzerzeugung einsetzbar.
Die Erfindung ist durch die beigefügten Ansprüche definiert, auf die jetzt Bezug genommen wird.
Die im Anspruch 1 der vorliegenden Patentanmeldung definierte Erfindung ordnet Vektoren auf einer bildweisen Grundlage zu und ist daher besser in der Lage, in einer Darstellung, die Tiefeninformation enthält, glatte Tiefenänderungen zu repräsentieren.
Ein bevorzugtes Ausführungsbeispiel der Erfindung wird nachstehend beispielshalber unter Bezugnahme auf Zeichnungen beschrieben. Es zeigen:
Fig. 1 ein schematisches Blockschaltbild eines Senders und Empfängers, die die Erfindung verkörpern, und
Fig. 2 ein Blockschaltbild der "Bewegungs"-Detektorschaltung, die beim Ausführungsbeispiel der Erfindung verwendet wird.
Obgleich dieses Ausführungsbeispiel unter Bezugnahme auf das PAL-Fernsehsystem beschrieben wird, ist die Erfindung gleichermaßen anwendbar auf andere Systeme wie NTSC, MAC oder digitalgestützte Fernseh- oder TV-Systeme.
Der Sender 10 hat zwei Kameras zum Beobachten einer Szene 12, nämlich eine mit 14 gekennzeichnete Kamera 1 und eine mit 16 gekennzeichnete Kamera 2. Der Ausgang der Kamera 1 wird als das Haupt- oder monoskopische Bild genommen und einem PAL-Codierer 18 und nachfolgenden Senderschaltungen (TX) 20 zugeführt. Der Ausgang der Kamera 2 wird in einer Schaltung 22 mit dem Ausgang der Kamera 1 verglichen, um ein Signal vorzusehen, das Information bezüglich der Unterschiede zwischen den beiden Kameraausgängen trägt. Diese Differenzinformation wird in einem Modulator (MX) 24 auf einen Hilfsträger moduliert und dann den Senderschaltungen 20 zugeführt. Der Ausgang des Senders bildet den Eingang zu einer Übertragungsverbindung 28.
Einer von zahlreichen stereoskopischen Empfängern 30 empfängt das übertragene Signal in Empfängerschaltungen (RX) 32, die das PAL-codierte Hauptsignal einem PAL-Decoder 34 zuführen. Das Hilfsträgersignal wird einem Demodulator (DMX) 36 zugeführt, der somit die übertragene Differenzinformation an einen Modifikator 38 liefert. Der Modifikator empfängt den monoskopischen Videoausgang des PAL-Decoders 34 und verwendet das Differenzsignal, um daraus den Ausgang der Kamera 2 des Senders wiederzugewinnen. Die beiden jetzt zur Verfügung stehenden Videosignale werden einem ersten bzw. zweiten Videoeingang eines stereoskopischen Sichtgeräts 40 zugeführt, das von einem Betrachter 42 beobachtet wird, der stereoskopische Augengläser trägt.
Die Schaltung 22 des Senders ist als "Bewegungs"-Detektor einer Art ausgebildet, wie sie in der britischen Patentanmeldung GB-A-2 188 510 beschrieben ist.
Ein Blockdiagramm der Schaltung 22 ist in Fig. 2 gezeigt. Diese Schaltung arbeitet in zwei Stufen. In der ersten Stufe werden die Eingänge von der linken und rechten Kamera 1 und 2 nach Fig. 1 zwei parallelen Block-für-Block- FFT-Schaltungen 44 (FFT = schnelle Fouriertransformation) zugeführt. Diese berechnen die zweidimensionalen schnellen Fouriertransformierten der Luminanzkomponenten der beiden Eingangssignale. Eine Phasendifferenz-Berechnungsschaltung 46 empfängt die Ausgänge der beiden Block-für-Block-FFT- Schaltungen. Der Ausgang dieser Schaltung 46 ist eine Anordnung aus Einheitslängenvektoren, deren Phasenwinkel gleich den Differenzen in den Phasen in den beiden Bildern für jede räumliche Frequenzkomponente in den Transformierten ist.
Diese resultierende komplexe Anordnung aus Vektoren wird dann einer weiteren Block-für-Block-FFT-Schaltung 48 zugeführt, die an den Vektoren eine inverse oder Rück-FFT vornimmt. Der resultierende Ausgang 50 ist eine Anordnung aus reellen Zahlen, die der Korrelationsoberfläche zwischen den beiden Bildern entsprechen. Eine Suchschaltung 52 lokalisiert die Peaks oder Spitzen in der Korrelationsoberfläche und erzeugt einen Satz aus "Bewegungs"- oder "Tiefen"-Probevektoren V&sub1; bis Vn, die den Differenzen zwischen den beiden Bildern bezüglich der relativen Bewegung oder der relativen Tiefe der Szene im Ausgang der Kamera 2 verglichen mit demjenigen der Kamera 1 entsprechen.
Die zweite Stufe umfaßt das Ausprobieren jedes dieser möglichen Vektoren auf jedes Pixel (Bildelement) und die Zuordnung des Vektors, der am besten geeignet ist. Das linke und das rechte Bildsignal laufen durch ein Paar Kompensationsverzögerungen 54, um sie mit den Tiefenvektoren wieder zu synchronisieren. Das linke und rechte Signal treten dann in eine Bank identischer Schaltungen ein, die auch Eingänge zum Empfang der Tiefenvektoren V&sub1; bis Vn haben.
In jeder dieser Schaltungen bildet das rechte Bildsignal den Eingang zu einer Verschiebebildschaltung 56, die das Bild um einen Betrag verschiebt, der dem jeweiligen Tiefenvektor Vi proportional ist. Ein Subtrahierer 58 berechnet dann die Differenz zwischen dem verschobenen rechten Bildsignal und dem nichtverschobenen linken Bildsignal dadurch, daß das linke Bildsignal von dem verschobenen rechten Bildsignal subtrahiert wird.
Die Ausgänge der jeweiligen Subtrahierer werden in jeweiligen Modulatoren 60 moduliert und gelangen dann zu jeweiligen Tiefpaßfiltern 62, die einen Satz von Fehlern (E&sub1; bis En) erzeugen, die dem Ergebnis der Tiefenvektoren V&sub1; bis Vn entsprechen. Ein Mikroprozessor 64 sucht dann den kleinsten Fehler für jedes Bildelement und ordnet den Tiefenvektor, der diesen Fehler erzeugt hat, diesem Bildelement zu.
Diese Operationen müssen nicht an dem Bild in seiner Gesamtheit ausgeführt werden.
Diese Operationen müssen nicht an dem Bild in seiner Gesamtheit ausgeführt werden. Es ist möglich, das Bild in Blöcke aufzuteilen und jeden Block separat zu bearbeiten, wobei jeder Block typischerweise aus 64·64 Pixel besteht.
Um die Funktion der Schaltung 22 in weiteren Einzelheiten zum Ableiten eines Differenzsignals für stereoskopische Übertragungen zu erläutern, muß man zunächst die diskrete zweidimensionale Fouriertransformierten G&sub1; und G&sub2; betrachten, die aus den beiden Eingangssignalen der beiden Kamerabilder abgeleitet worden sind. Die komplexe Anordnung oder Matrix Z wird berechnet bei jeder räumlichen Frequenz (m,n) aus G&sub1; und G&sub2;, und zwar unter Verwendung von:
z(m,n) = G&sub1;(m,n)G&sub2;(m,n)*/G&sub1;(m,n)G&sub2;(m,n)*
Die Phasenkorrelation ist gegeben durch die Fourierrücktransformierte von z, die nur reelle Komponenten hat.
Die resultierende Phasenkorrelationsanordnung kann man sich als eine Oberfläche denken, deren Höhe bei einem besonderen Punkt (x,y) proportional dazu ist, wie gut die beiden Bilder korrelieren, wenn die relative Verschiebung zwischen ihnen (x,y) ist. Für den Fall einer einfachen Verschiebung zwischen den beiden Bildern, wie in dieser Anmeldung mit zwei nichtparallelen Kameraeingängen, wäre die Korrelationsoberfläche eine Deltafunktion, die auf dem Verschiebevektor zentriert wäre. Die Idee ist, daß in dieser Oberfläche für jeden dominanten Tiefenvektor in der Szene ein Peak oder eine Spitze ist. Das Herausfinden dieser Tiefenvektoren umfaßt die Suche nach großen Spitzen in der Oberfläche. Die relativen Höhen der Spitzen reflektieren die relativen Tiefen der Gegenstände. Das hauptsächliche neue Merkmal dieser Methode ist es, nach einigen Spitzen zu schauen anstatt gerade nach einer, so daß viele Tiefenvektoren mit einer Operation erfaßt werden können.
Um die Tiefenvektoren auf eine Subpixelgenauigkeit zu messen, ist es notwendig, eine gewisse Interpolation an der Korrelationsoberfläche auszuführen.
Um von den in einer Szene vorhandenen Tiefen so viele wie möglich zu messen, ist es hilfreich, das Bild in Blöcke zu unterteilen, anstatt Korrelationen an Gesamtbildern vorzunehmen. Die Anzahl der einzelnen Spitzen, die genau erfaßt werden können, ist nämlich durch Rauschen auf etwa drei Spitzen pro Block begrenzt. Darüber hinaus ist das Auflösen von Tiefenspitzen nur möglich, wenn sie um einen Verschiebevektor getrennt sind, der größer als etwa ein Pixel pro Teil- oder Halbbildperiode ist. Die Blockgröße würde groß sein im Vergleich zu den größten Verschiebungen, die erwartet werden, da die Technik Gegenstände, die in verschiedenen Blöcken in den beiden Bildern sind, nicht korrelieren kann. Eine Größe von 64·64 Pixel ist genehm. Wenn es andererseits lediglich notwendig ist, die wenigen am meisten signifikanten Tiefenvektoren zu messen, dann kann man auch Gesamtbilder transformieren oder wenigstens sehr große Blöcke. Es sei daran erinnert, daß diese Unterteilung in Blöcke lediglich für den Zweck der Messung der Tiefenvektoren gemacht wird. Die Vektoren sind immer noch auf einer pixelweisen Grundlage zugeordnet.
Die erste Stufe des Prozesses liefert einen Satz von Tiefenvektoren, die in der Szene vorhanden sind, sagt jedoch nichts darüber aus, welche Teile der Szene auf jeder Tiefe sind. Die zweite Stufe umfaßt das "Ausprobieren" jedes möglichen Vektors auf jedes Pixel und die Zuordnung desjenigen Vektors, der die beste "Passung" (fit) liefert. In Situationen, wo die Tiefeninformation auf einer blockweisen Grundlage erforderlich ist (beispielsweise bei einem Bandbreitenkompressionssystem auf Blockbasis), bestände keine Notwendigkeit, einen Vektor jedem Pixel zuzuordnen, und die Zuordnung würde auf einer Blockgrundlage erfolgen.
Für jeden erfaßten Vektor wird eine "Fehleroberfläche" dadurch gebildet, daß die Modulusdifferenz zwischen den beiden Eingangsbildern berechnet wird, wenn sie um den betrachteten Tiefenvektor verschoben sind. Bereiche der beiden Bilder, die gut zueinander passen, erzeugen geringe Fehler, und die Annahme ist vernünftig, daß diese Bereiche einem Gegenstand mit diesem besonderen Tiefenvektor entsprechen. Es wird bevorzugt, eine gewisse räumliche Filterung an der Fehleroberfläche vorzunehmen, um Rauscheffekte zu reduzieren.
Wenn die Tiefenvektoren auf Subpixelgenauigkeit gemessen werden, ist es notwendig, bei der Berechnung der Fehleroberfläche ein gewisses Ausmaß eines räumlichen Interpolators anzuwenden.
Sobald all die in der ersten Stufe gemessenen Tiefenvektoren ausprobiert sind, wird jedes Pixel demjenigen Tiefenvektor zugeordnet, der zum kleinsten Fehlerwert geführt hat. Man kann einen Schwellenwert-Fehlerpegel setzen, der den maximal annehmbaren Fehlerpegel definiert. Pixel, deren Fehler oberhalb dieses Pegels bei jedem Probevektor liegen, könnte man kennzeichnen mit "Tiefe nicht bekannt". Solche Pixel entsprechen wahrscheinlich Bereichen von Kanteninformation, die nur von einer der beiden Kameras gesehen wird.
Wenn die Tiefenvektoren dadurch gemessen werden, daß die Bilder in Blöcken anstatt in ihrer Gesamtheit transformiert werden, dann ist das Ausprobieren lediglich solcher Vektoren sinnvoll, die in der Nachbarschaft des betrachteten Pixels gemessen worden sind. Es ist wahrscheinlich, daß den meisten Pixeln der richtige Vektor dadurch zugeordnet werden kann, daß lediglich diejenigen Vektoren in Betracht gezogen werden, die in dem Block mit dem Pixel gemessen worden sind. Es ist allerdings vorbildlich, auch diejenigen Vektoren auszuprobieren, die in den unmittelbar angrenzenden Blöcken gemessen worden sind, und zwar insbesondere Pixel nahe des Randes der Blöcke. Dies ist in Situationen wichtig, wo ein kleiner Abschnitt eines Gegenstands in benachbarten Blöcken für die beiden Kamerabilder ist.
Somit wird das Hauptsignal als monoskopisches Videosignal übertragen. Die Differenzinformation enthält Tiefen- und Kanteninformation. Die beiden Bilder des stereoskopischen Signals werden korreliert, wie gerade beschrieben, und die Vektorzuordnungsfunktion des Verfahrens ist Tiefenzuordnung. Was der nicht aufgedeckte Hintergrund in dem Bewegungsdetektor der früheren Anmeldung war, ist jetzt Kanteninformation, die lediglich von einer der beiden Kameras gesehen wird.
Das Differenzsignal in der Form von Tiefen und Kanten ist zur Bandbreitenreduktion geeignet. Diese kann die Form von Filterung und Unter- oder Subabtastung als auch nichtlineare Quantisierung als Funktion von Tiefe und Luminanzwert annehmen, da die Genauigkeit des Auges beim Feststellen von Tiefe abnimmt, wenn die Tiefe zunimmt und der Luminanzpegel abfällt. Das Differenzsignal kann als ein Datenkanal codiert sein oder als ein Unterträger in mehr herkömmlichen Übertragungssystemen, wie des dargestellten.
In einer Idealwelt wäre das monoskopische Signal irgendeine Art von Summe, die das Differenzsignal komplementieren würde. Eine solche Betrachtung mag allerdings ungeeignet sein, da der Mono-Betrachter ein Signal dargeboten bekäme, das stets von den linken und rechten Signalen interpoliert wäre. Dies wäre sicherlich weniger annehmbar als die Übertragung des ursprünglichen linken oder rechten Signals als kompatibles monoskopisches Signal.
Das stereoskopische Signal ist für die Zwecke der Sichtdarstellung nicht gut. Durch Codierung des Stereosignals als Mono und als Tiefen und Kanten stehen allerdings alle Sichtdarstellungsoptionen offen. Die Sichtdarstellung kann stereoskopisch sein, möglicherweise Augengläser zur Betrachtung erfordern, jedoch ist sie mit der heutigen Technik durchführbar. Schließlich könnte ein Rechner im Sichtgerät die Phase und Amplituden berechnen, die erforderlich sind, um in Echtzeit ein Hologramm zu erzeugen. Ein derartiges Hologramm hätte lediglich seitliche Stereoskopie, es sei denn, daß mehr Kameras, Korrelatoren und Übertragungsbandbreite verwendet werden würde, aber normalerweise sollte es so genügen.
Falls eine Vertikalkomponente der Stereoskopie benötigt würde, wäre eine dritte Kamera und Extrakorrelation erforderlich.
Man erkennt somit, daß die für nachfolgende Bewegung entwickelten Phasenkorrelationsalgorithmen direkt auf das Problem der stereoskopischen Übertragung angewendet werden können. Die für solche Folgebewegung konstruierte Hardware ist deshalb gleichermaßen geeignet. Unter Verwendung dieser Technik kann man ein Signal senden, das mit monoskopischen Sichtgeräten kompatibel ist, und zwar durch Aussenden der Stereoinformation in einem Datenkanal oder auf einem Subträger. Die Stereoinformation kann jetzt in ein Stereogramm decodiert werden, und zwar mit der Option einer holographischen Sichtdarstellung für die Zukunft.
Das obige Verfahren könnte man auch in Verbindung mit Robotern als Fernfühltechnik einsetzen. In einer gefährlichen Umgebung benutzen Roboter sehr oft stereoskopisches Fernsehen, um eine Ansicht ihrer Umgebung dem Benutzer mitzuteilen. Die beschriebene Technik könnte man verwenden, um den Abstand eines Gegenstands von einem Roboter abzuleiten und darzustellen, und man würde auf diese Weise die Notwendigkeit eines separaten Radar- oder Ultraschallentfernungsmessers vermeiden. Die Bandbreite des Systems könnte ebenfalls reduziert werden.

Claims

1. Verfahren zum Übertragen von Videobildern, die Tiefeninformation enthalten, mit den Schritten: Bereitstellen von Videosignalen, die wenigstens von zwei Quellen stammen und von verschiedenen Darstellungen derselben Szene abgeleitet sind, gekennzeichnet durch Korrelieren des Videosignals einer ersten Quelle mit dem Videosignal von jeder anderen Quelle zum Bestimmen einer Vielzahl von Spitzenkorrelationswerten in Entsprechung zu Tiefeninformation darstellenden Translationsvektoren, Durchführen einer Überprüfung für jedes einer Vielzahl Pixel der Bilder dahingehend, welcher dieser Vektoren beim Ableiten eines Bildes aus dem anderen für dieses Pixel die beste Passung ergibt, Zuordnen jedes Pixels zu demjenigen Vektor, der die beste Passung ergibt, Übertragen des Videosignals von der ersten Quelle und Übertragen der abgeleiteten Vektoren für jeden Pixelbereich als Differenzinformation, die angibt, wie zum Bilden einer Darstellung mit Tiefe das erste Signal zu ändern ist.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Korrelation des Videosignals von der ersten Quelle mit dem Videosignal von jeder anderen Quelle die Schritte enthält: Berechnen der zweidimensionalen schnellen Fouriertransformierten der Luminanzkomponenten der beiden Signale, Berechnen der Phasendifferenz zwischen jeder Frequenzkomponente in dem ersten Signal und der entsprechenden Frequenzkomponente in einem parallelen Signal zum Erzeugen einer komplexen Anordnung von Einheitslängenvektoren und Berechnen der schnellen Fourierrücktransformierten dieser Anordnung zum Erzeugen einer Phasenkorrelationsanordnung für die beiden Signale.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Differenzinformation auf einem Hilfsträger übertragen wird.

4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Differenzinformation in einem Digitaldatenkanal übertragen wird.

5. Verfahren nach Anspruch 1, 2, 3 oder 4, dadurch gekennzeichnet, daß die Differenzinformation angibt, wie ein monoskopisches Bild zum Ausbilden von wenigstens einem zweiten Bild geändert werden muß, daß das zweite Bild eines stereoskopischen Paares entsteht.

6. Verfahren nach irgendeinem vorangegangenen Anspruch, bei dem die Differenzinformation Kanteninformation aufweist, die Information enthält, welche in einer der Darstellungen der Szene vorhanden ist.

7. Verfahren nach irgendeinem vorangegangenen Anspruch, bei dem die Differenzinformation durch Vermindern der in Abhängigkeit von Bildtiefe und/oder Luminanzpegel übertragenen Information bandbreitenmäßig vermindert wird.

8. Gerät zum Übertragen von Videobildern, die Tiefeninformation enthalten, mit einer Eingangseinrichtung zum Empfangen von Videosignalen von wenigstens zwei Quellen (2, 14), welche Signale von verschiedenen Darstellungen derselben Szene (12) abgeleitet sind, gekennzeichnet durch eine Einrichtung (44, 46, 48) zum Korrelieren des Videosignals von einer ersten Videoquelle mit dem Videosignal von jeder anderen Quelle zum Bestimmen einer Vielzahl von Spitzenkorrelationswerten in Entsprechung zu Tiefeninformation darstellenden Translationsvektoren, eine Einrichtung (64) zum Überprüfen für jedes einer Vielzahl Pixel des Bildes dahingehend, welcher der Vektoren beim Ableiten eines Bildes aus dem anderen für dieses Pixel die beste Passung ergibt, eine Einrichtung (64) zum Zuordnen zu jedem Pixel denjenigen Vektor, der die beste Passung ergibt, und eine Sendereinrichtung zum Übertragen des Videosignals von der ersten Quelle und zum Übertragen dieser Vektoren als Differenzinformation, die angibt, wie zum Ausbilden einer Darstellung mit Tiefe das erste Signal zu ändern ist.

9. Gerät nach Anspruch 8, dadurch gekennzeichnet, daß die Korrelationseinrichtung enthält: eine Einrichtung (44) zum Berechnen der zweidimensionalen schnellen Fouriertransformierten der Luminanzkomponenten der Eingangssignale, eine Einrichtung (46) zum Berechnen der Phasendifferenz zwischen jeder Frequenzkomponente in dem ersten Signal und der entsprechenden Frequenzkomponente in einem parallelen Signal zum Erzeugen einer komplexen Anordnung von Einheitslängenvektoren und eine Einrichtung (48) zum Berechnen der schnellen Fourierrücktransformierten der Anordnung zum Erzeugen einer Phasenkorrelationsanordnung für die beiden Signale.

10. Videoübertragungssystem für Bilder, die Tiefeninformation haben, enthaltend:

bei einem Sender eine Eingangseinrichtung zum Empfangen von Videosignalen von wenigstens zwei Quellen (2, 14), welche Signale von verschiedenen Darstellungen derselben Szene (12) abgeleitet sind, gekennzeichnet durch

eine Einrichtung (44, 46, 48) zum Korrelieren des Videosignals von einer ersten Videoquelle mit dem Videosignal von jeder anderen Quelle zum Bestimmen einer Vielzahl von Spitzenkorrelationswerten in Entsprechung zu Tiefeninformation darstellenden Translationsvektoren, eine Einrichtung (64) zum Überprüfen für jedes einer Vielzahl Pixel der Bilder dahingehend, welcher dieser Vektoren beim Ableiten eines Bildes aus dem anderen für dieses Pixel die beste Passung ergibt, eine Einrichtung (64) zum Zuordnen zu jedem Pixel denjenigen Vektor, der die beste Passung ergibt, und eine Sendereinrichtung (20) zum Übertragen des Videosignals von der ersten Quelle und zum Übertragen dieser Vektoren als Differenzinformation, die angibt, wie zum Ausbilden einer Darstellung mit Tiefe das erste Signal zu ändern ist; und bei einem Empfänger ein Sichtgerät, das in der Lage ist, eine Illusion von Tiefe zu vermitteln, eine Eingangseinrichtung zum Empfangen des übertragenen ersten Videosignals und zum Empfangen der übertragenen Differenzinformation, die angibt, wie das erste Videosignal zum Ausbilden einer Sichtdarstellung mit Tiefe zu ändern ist, eine Einrichtung zum Modifizieren des empfangenen ersten Videosignals mit der Differenzinformation zum Bilden eines zweiten Videosignals und eine Einrichtung zum Zuführen des ersten und des zweiten Videosignals zu dem Sichtgerät.

11. Empfänger nach Anspruch 10, dadurch gekennzeichnet, daß die Sichtdarstellung eine stereoskopische Sichtdarstellung ist.

12. Empfänger nach Anspruch 10, dadurch gekennzeichnet, daß die Sichtdarstellung eine holographische Sichtdarstellung ist.

13. Ferngesteuerter Roboter, der das Verfahren nach Anspruch 1 zum Ableiten von Tiefeninformation aus seiner Umgebung anwendet.