CH706886A2 - Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi. - Google Patents

Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi. Download PDF

Info

Publication number
CH706886A2
CH706886A2 CH01366/13A CH13662013A CH706886A2 CH 706886 A2 CH706886 A2 CH 706886A2 CH 01366/13 A CH01366/13 A CH 01366/13A CH 13662013 A CH13662013 A CH 13662013A CH 706886 A2 CH706886 A2 CH 706886A2
Authority
CH
Switzerland
Prior art keywords
image
depth
images
composite
pixels
Prior art date
Application number
CH01366/13A
Other languages
English (en)
Inventor
Paolo D Amato
Giovanni Ballocca
Fedor Bushlanov
Alexey Polyakov
Original Assignee
S I Sv El Soc It Per Lo Sviluppo Dell Elettronica S P A
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by S I Sv El Soc It Per Lo Sviluppo Dell Elettronica S P A filed Critical S I Sv El Soc It Per Lo Sviluppo Dell Elettronica S P A
Publication of CH706886A2 publication Critical patent/CH706886A2/it

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0077Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/005Aspects relating to the "3D+depth" image format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

La presente invenzione si riferisce ad un metodo per generare un flusso video stereoscopico (101) comprendente immagini composite (C) che contengono informazioni relative ad un’immagine destra (R) e ad un’immagine sinistra (L), nonché almeno una mappa di profondità (DM). Secondo il metodo si selezionano pixel dell’immagine destra (R) e pixel dell’immagine sinistra (L), quindi si inseriscono i pixel selezionati all’interno di un’immagine composita (C) del flusso video stereoscopico. Il metodo prevede di inserire tutti i pixel dell’immagine destra (R) e tutti i pixel dell’immagine sinistra (L) nell’immagine composita (C) lasciando inalterata una delle due immagini e scomponendo l’altra in regioni (R1, R2, R3) comprendenti una pluralità di pixel. Successivamente si inseriscono i pixel della o delle mappe di profondità (DM) nella regione dell’immagine composita non occupata dai pixel delle immagini destra e sinistra. L’invenzione si riferisce inoltre ad un metodo per ricostruire le immagini destra e sinistra da un’immagine composita, e ai dispositivi che permettono di implementare i suddetti metodi.

Description

CAMPO DI APPLICAZIONE DELL’INVENZIONE
[0001] La presente invenzione si riferisce alla generazione, memorizzazione, trasmissione, ricezione e riproduzione di flussi video stereoscopici, ossia flussi video che, elaborati in modo opportuno in un dispositivo di visualizzazione, producono sequenze di immagini del tipo che vengono percepite come tridimensionali da un osservatore.
STATO DELLA TECNICA
[0002] Come noto, la percezione della tridimensionalità può essere ottenuta riproducendo due immagini destinate rispettivamente all’occhio destro e all’occhio sinistro dell’osservatore.
[0003] Un flusso video stereoscopico trasporta quindi le informazioni di due sequenze di immagini corrispondenti alle prospettive destra e sinistra di un oggetto o una scena. Tale flusso può anche trasportare informazioni supplementari.
[0004] La domanda di brevetto intemazionale PCT/IB 2010/055 918 pubblicata il 30 Giugno 2011 come WO 2011/077 343 A1 presenta un metodo di multiplexing ed un metodo di demultiplexing (e relativi dispositivi) delle immagini destra e sinistra che permettano di preservare l’equilibrio (balance) fra la risoluzione orizzontale e verticale e pertanto presentano dei vantaggi rispetto alle tecniche note come «side by side» e «top and bottom».
[0005] Secondo tale metodo di multiplexing, i pixel della prima immagine (ad es. immagine sinistra) vengono inseriti all’interno dell’immagine composita senza alterazione, mentre la seconda immagine viene suddivisa in regioni i cui pixel vengono disposti in aree libere dell’immagine composita, secondo quanto indicato nella fig. 1 , che si riferisce al caso in cui due immagini cosiddette 720p vengono inserite in un frame contenitore 1080p.
[0006] In ricezione, l’immagine suddivisa in regioni viene ricomposta e quindi viene inviata al display. Ad esempio sono noti i display che funzionano secondo il principio cosiddetto «frame alternate», cioè che presentano in successione temporale le due immagini L ed R. Per la visione stereoscopica è necessario dotarsi di occhiali del tipo cosiddetto «attivo», cioè occhiali che, in sincronismo con la successione delle immagini L ed R, oscurano una lente mentre tengono aperta la lente dell’altro occhio, in modo che ciascun occhio possa vedere soltanto l’immagine ad esso destinata.
[0007] È noto che la visione stereoscopica con siffatti tipi di display può risultare fastidiosa per alcuni spettatori, ai quali sarebbe desiderabile offrire la possibilità di variare (in diminuzione) la profondità delle immagini per adattarla alla loro preferenza soggettiva ed alle dimensioni dello schermo. Per fare ciò occorre rendere possibile all’interno del display la sintesi di immagini intermedie fra quelle trasmesse, che possono essere visualizzate al posto di quelle trasmesse. Tale ricostruzione è possibile, con metodi noti, se si dispone di una o più mappe di profondità associate alle immagini trasmesse. Inoltre, da poco tempo cominciano ad apparire sul mercato display cosiddetti autostereoscopici, che non richiedono l’uso di occhiali. Tali display effettuano anch’essi la sintesi di immagini non trasmesse e quindi necessitano di almeno una mappa di profondità in grado di fornire le informazioni necessarie per tale sintesi. Si rende quindi necessaria l’introduzione di un nuovo formato di generazione, trasporto e ricostruzione di flussi stereoscopici che possa essere utilizzato allo stesso tempo vuoi per i tradizionali dispositivi di ricezione e riproduzione 2D, vuoi per gli attuali dispositivi di ricezione e riproduzione 3D stereoscopici a due viste (con o senza regolazione della profondità), vuoi per i futuri dispositivi autostereoscopici che utilizzano più di due viste, mantenendo al massimo livello possibile la compatibilità del formato con le infrastrutture e i dispositivi di produzione e distribuzione di flussi video attualmente in uso.
BREVE DESCRIZIONE DELL’INVENZIONE
[0008] Pertanto scopo della presente invenzione è quello di proporre un metodo per la generazione, trasmissione, e ricezione di immagini stereoscopiche, e relativi dispositivi, volto ad ovviare alle necessità su esposte.
[0009] L’invenzione si riferisce ad un metodo ed al relativo dispositivo per multiplexare le due immagini relative alla prospettiva destra e sinistra (di seguito indicate come immagine destra e immagine sinistra) nonché una o più mappe di profondità all’interno di un unico fotogramma composito.
[0010] L’invenzione si riferisce, inoltre, a un metodo ed un relativo dispositivo per demultiplexare tale immagine composita, ovvero per estrarre da questa le immagini destra e sinistra e la o le mappe di profondità inserite dal dispositivo di multiplexing. Come si può notare dalla fig. 1a , relativa alla domanda di brevetto internazionale precitata (il cosiddetto «tile format»), nell’immagine composita è presente una regione (C5) non utilizzata, le cui dimensioni sono pari alla metà, sia in senso orizzontale che verticale, delle due immagini L ed R. In tale regione non utilizzata, secondo una possibile forma di realizzazione dell’invenzione, è possibile inserire almeno una mappa di profondità (DM) come mostrato in fig. 1b .
[0011] Per mappa di profondità relativa ad una immagine x s’intende un’immagine in scala di grigi in cui ciascun pixel ha un valore di luminanza proporzionale alla profondità, cioè alla coordinata «z» del pixel stesso, ove per convenzione si assume che il valore z=0 corrisponde alla posizione sullo schermo, valori di z positivi corrispondendo a pixel posizionati dietro lo schermo, valori negativi corrispondendo, invece, a pixel posizionati davanti allo schermo. Poiché la regione inutilizzata nell’immagine composita ha dimensioni orizzontali e verticali pari alla metà delle dimensioni delle immagini L ed R, in una forma di realizzazione della presente invenzione in tale regione è possibile inserire una mappa di profondità (relativa ad una delle due immagini L ed R) con risoluzione orizzontale e verticale pari a metà dell’immagine corrispondente. È stato trovato che tale perdita di risoluzione non è dannosa, in quanto, data l’imprecisione con cui in genere è possibile calcolare o misurare le mappe di profondità, è preferibile effettuare sulle mappe a piena risoluzione delle operazioni di sottocampionamento effettuando interpolazioni fra i valori dei pixel, in quanto tali operazioni possono ridurre la componente di rumore, col conseguente effetto che le immagini ricostruite risultano di qualità migliore.
[0012] Secondo altre forme di realizzazione dell’invenzione, è possibile inserire, in detta regione non utilizzata (C5) due mappe di profondità.
[0013] Nella domanda di brevetto internazionale precitata vengono descritte anche altre forme di multiplexing e demultiplexing delle immagini stereoscopiche L ed R, alle quali può essere anche applicato il metodo relativo alla presente invenzione, ma con minore efficacia, in quanto lo spazio rimasto libero per l’inserzione della mappa di profondità è minore. Conseguentemente, si ha una ulteriore riduzione della risoluzione di tale mappa.
[0014] Tali implementazioni alternative non vengono qui descritte, fermo restando che rientrano nei principi generali della presente invenzione.
[0015] È particolare oggetto della presente invenzione un metodo per la generazione, trasmissione, e ricezione di immagini stereoscopiche, e relativi dispositivi, come meglio descritto nelle rivendicazioni, che formano parte integrante della presente descrizione.
BREVE DESCRIZIONE DELLE FIGURE
[0016] Ulteriori scopi e vantaggi della presente invenzione appariranno maggiormente chiari dalla descrizione che segue di alcuni esempi di realizzazione forniti a titolo esplicativo e non limitativo, con riferimento ai disegni allegati, in cui: <tb>La fig. 1a<SEP>mostra il fotogramma composito relativo al formato noto nello stato dell’arte (tile format); <tb>La fig. 1b<SEP>mostra un esempio di fotogramma composito secondo la presente invenzione; <tb>La fig. 2<SEP>mostra uno schema a blocchi di un dispositivo per multiplexare l’immagine destra, l’immagine sinistra e una mappa di profondità in un’immagine composita; <tb>La fig. 3<SEP>è un diagramma di flusso di un metodo eseguito dal dispositivo di fig. 2 ; <tb>La fig. 4<SEP>mostra una possibile forma di scomposizione di un’immagine da inserire in un’immagine composita. <tb>La fig. 5<SEP>mostra uno schema a blocchi di un dispositivo per estrarre l’immagine sinistra, l’immagine destra e una mappa di profondità dal fotogramma composito. <tb>La fig. 6<SEP>è un diagramma di flusso di un metodo eseguito dal dispositivo di fig. 5 .
DESCRIZIONE DETTAGLIATA DELL’INVENZIONE
[0017] In fig. 2 viene mostrato lo schema a blocchi di un dispositivo 100 per generare un flusso video stereoscopico 101 con almeno una mappa di profondità, in accordo con le varianti dell’invenzione.
[0018] In fig. 2 , il dispositivo 100 riceve in ingresso due sequenze d’immagini 102 e 103, ad esempio due flussi video, destinate rispettivamente all’occhio sinistro (L) ed all’occhio destro (R), ed una sequenza di mappe di profondità 106, relative al contenuto tridimensionale associato al flusso video stereoscopico.
[0019] La mappa di profondità della sequenza 106 può essere associata ad una delle due immagini destra e sinistra appartenenti rispettivamente alle sequenze 102 e 103 oppure può essere creata come interpolazione tra le mappe di profondità relative alle immagini destra e sinistra, quindi relativa ad un punto di vista della scena intermedio.
[0020] In questa prima forma di realizzazione qui di seguito descritta, la mappa di profondità viene generata mediante uno qualsiasi degli algoritmi già noti nella tecnica e che, ad esempio, si basano sul confronto di un’immagine destra ed un’immagine sinistra e restituiscono una matrice (la mappa di profondità appunto) di dimensioni pari ai pixel di una delle due immagini confrontate, ed i cui elementi hanno un valore proporzionale alla profondità di ogni singolo pixel della suddetta immagine. Un’altra tecnica per generare la mappa di profondità si basa sulla misurazione della distanza degli oggetti presenti sulla scena dalla coppia di telecamere che effettuano la ripresa: questa distanza può essere agevolmente misurata mediante laser. In caso di flussi video artificiali generati con l’ausilio di calcolatori elettronici le telecamere sono virtuali in quanto costituite da due punti di vista di una determinata scena creata artificialmente dal calcolatore. In tale caso le mappe di profondità vengono generate dal calcolatore e quindi la loro precisione è molto elevata.
[0021] In alternativa all’esempio di fig. 2 , le mappe di profondità della sequenza 106 possono essere generate internamente al dispositivo 100. In questo caso il dispositivo 100 invece di ricevere la sequenza delle mappe di profondità dall’esterno comprende un modulo apposito (non mostrato in figura) che riceve in ingresso le immagini L ed R delle sequenze 102 e 103 e calcola le corrispondenti mappe di profondità.
[0022] Il dispositivo 100 permette di realizzare un metodo di multiplexing di due immagini delle due sequenze 102 e 103 e della mappa di profondità della sequenza 106.
[0023] Al fine di eseguire il metodo di multiplexing delle immagini destra e sinistra e della mappa di profondità, il dispositivo 100 comprende un modulo di scomposizione 104 per scomporre un’immagine ricevuta in ingresso (nell’esempio di fig. 1b l’immagine destra) in una pluralità di sottoimmagini corrispondenti ognuna ad una regione dell’immagine ricevuta in ingresso, un modulo di sottocampionamento e filtraggio 107 per elaborare la mappa di profondità, ed un modulo di assemblaggio 105 in grado di inserire i pixel d’immagini ricevute in ingresso, compresa la mappa di profondità, in un’unica immagine composita che viene fornita in uscita. Nel caso non sia necessaria alcuna elaborazione della sequenza 106, il modulo 107 può essere omesso. Questo può accadere, ad es. nel caso in cui la mappa di profondità sia generata mediante laser ed abbia già in partenza una risoluzione ridotta rispetto a quella delle immagini L ed R. Un esempio di un metodo di multiplexing eseguito dal dispositivo 100 viene ora descritto con riferimento alla fig. 3 .
[0024] Il metodo inizia al passo 200, successivamente (passo 201) una delle due immagini (destra o sinistra) in ingresso viene scomposta in una pluralità di regioni come mostrato in fig. 4 . Nell’esempio di fig. 4 l’immagine scomposta è un fotogramma R di un flusso video 720p, ossia formato progressivo con risoluzione 1280 x 720 pixel.
[0025] Il fotogramma R di fig. 4 proviene dal flusso video 103 che trasporta le immagini destinate all’occhio destro e viene scomposto in tre regioni R1, R2 ed R3, preferibilmente di forma rettangolare.
[0026] La scomposizione dell’immagine R avviene dividendola in due porzioni di uguali dimensioni e successivamente dividendo una di queste due porzioni in due porzioni di uguali dimensioni.
[0027] La regione R1 ha dimensione 640x720 ed è ottenuta prendendo tutti i primi 640 pixel di ogni riga. La regione R2 ha dimensione 640x360 ed è ottenuta prendendo i pixel da 641 a 1280 delle prime 360 righe. La regione R3 ha dimensione 640x360 ed è ottenuta prendendo i rimanenti pixel dell’immagine R, ossia i pixel da 641 a 1280 delle ultime 360 righe.
[0028] Nell’esempio di fig. 2 l’operazione di scomposizione dell’immagine R viene eseguita dal modulo 104, che riceve in ingresso un’immagine R (in questo caso il fotogramma R) e fornisce in uscita tre sottoimmagini (ossia tre gruppi di pixel) corrispondenti alle tre regioni R1, R2 ed R3.
[0029] Successivamente (passi 202, 203 e 204) viene costruita l’immagine composita C comprendente le informazioni delle due immagini destra e sinistra e della mappa di profondità ricevute in ingresso; nell’esempio qui di seguito descritto, tale immagine composita C costituisce un fotogramma del flusso video stereoscopico in uscita, e pertanto viene anche detta fotogramma contenitore.
[0030] Innanzi tutto (passo 202) l’immagine ricevuta in ingresso dal dispositivo 100 e non scomposta dal dispositivo 105 (nell’esempio di fig. 2 l’immagine sinistra L) viene inserita senza alterazioni in un’area non divisa all’interno di un fotogramma contenitore di dimensioni tale da comprendere tutti i pixel delle due immagini ricevute in ingresso.
[0031] Ad esempio, se le immagini ricevute in ingresso hanno dimensione 1280x720 pixel, allora un fotogramma contenitore adatto a contenerle entrambe è un fotogramma con 1920x1080 pixel, ad esempio un fotogramma di un flusso video di tipo 1080p (formato progressivo 1920x1080 pixel).
[0032] Nell’esempio di fig. 1 , l’immagine sinistra L viene inserita nel fotogramma contenitore C posizionandola in alto a sinistra. Ciò è ottenuto copiando i 1280x720 pixel dell’immagine L in un’area C1 costituita dai primi 1280 pixel delle prime 720 righe del fotogramma contenitore C.
[0033] Successivamente, passo 203, l’immagine scomposta al passo 201 dal modulo 104 viene inserita nel fotogramma contenitore. Ciò viene ottenuto dal modulo 105 copiando i pixel dell’immagine scomposta all’interno del fotogramma contenitore C nelle aree non occupate dall’immagine L, ossia esterne all’area C1.
[0034] Al fine di garantire la miglior compressione possibile e ridurre la generazione di artefatti in fase di decompressione del flusso video, i pixel delle sottoimmagini in uscita dal modulo 104 vengono copiati mantenendo le rispettive relazioni spaziali. In altre parole le regioni R1, R2 ed R3 vengono copiate in rispettive aree del fotogramma C senza alcuna deformazione, prevedendo esclusivamente operazioni di traslazione. Un esempio del fotogramma contenitore C in uscita dal modulo 105 è mostrato in fig. 1b .
[0035] La regione R1 viene copiata negli ultimi 640 pixel delle prime 720 righe (area C2), affiancata cioè all’immagine L precedentemente copiata.
[0036] Le regioni R2 ed R3 vengono copiate al di sotto dell’area C1, rispettivamente nelle aree C3 e C4 comprendenti rispettivamente i primi 640 pixel ed i successivi 640 pixel delle ultime 360 righe.
[0037] Le operazioni d’inserimento delle immagini L ed R nel fotogramma contenitore non comportano alcuna alterazione del bilanciamento tra risoluzione orizzontale e verticale. La tecnica di inserimento delle immagini L e R nel fotogramma contenitore C su descritta viene nel seguito definita di tipo ti le-format.
[0038] Nei pixel liberi del fotogramma C, cioè nell’area C5, è inserita, sotto forma d’immagine, la mappa di profondità (DM) relativa alla coppia stereoscopica L ed R (passo 204), sempre ad opera del modulo 105. Prima del passo 204, è possibile che la mappa di profondità DM venga sotto campionata, filtrata o ulteriormente elaborata dal modulo 107.
[0039] La mappa di profondità è preferibilmente codificata come un’immagine in scala di grigi, il cui contenuto informativo può quindi essere trasportato dal solo segnale di luminanza, le crominanze essendo inutilizzate, per cui esse possono ad esempio essere nulle; ciò consente una compressione efficace del fotogramma contenitore C.
[0040] In una forma di realizzazione preferita la mappa di profondità DM ha una risoluzione pari a 640 x 360 pixel, corrispondente al sottocampionamento (o decimazione) 4 a 1 della mappa di profondità originale avente risoluzione pari a 1280 x 720 pixel, coincidente con quella delle immagini L ed R. Ad ogni pixel della mappa sotto campionata DM corrisponde una regione di 2 x 2 pixel della mappa originale. L’operazione di sottocampionamento viene tipicamente effettuata utilizzando procedure di per sé note nello stato della tecnica.
[0041] Il fotogramma C così ottenuto viene successivamente compresso e trasmesso o salvato su un supporto di memorizzazione (ad esempio un DVD). A questo fine vengono previsti mezzi di compressione atti a comprimere un’immagine o un segnale video e mezzi per registrare e/o trasmettere l’immagine o il segnale video così compresso.
[0042] In fig. 5 viene mostrato lo schema a blocchi di un ricevitore 1100 che decomprime il fotogramma contenitore, eventualmente compresso, ricevuto e ricostruisce le due immagini destra e sinistra rendendole disponibili ad un dispositivo di visualizzazione (ad esempio un televisore) che permette la fruizione di contenuti 3D. Il ricevitore 1100 può essere un set-top-box o un ricevitore integrato in un televisore.
[0043] Considerazioni analoghe a quelle che vengono ora qui fatte per il ricevitore 1100 si applicano ad un lettore di immagini memorizzate (ad es. un lettore DVD) che legge un fotogramma contenitore, eventualmente compresso, e lo elabora al fine di ottenere una coppia di fotogrammi corrispondenti alle immagini destra e sinistra inserite nel fotogramma contenitore, eventualmente compresso, letto dal lettore.
[0044] Tornando ora alla fig. 5 , il ricevitore riceve (via cavo o antenna) un flusso video stereoscopico compresso 1101, e lo decomprime mediante un modulo di decompressione 1102, ottenendo così un flusso video comprendente una sequenza di fotogrammi C corrispondenti ai fotogrammi C. Nel caso di canale ideale o in caso di lettura di fotogrammi contenitori da una memoria di massa o da un supporto di dati (Blu-ray, CD, DVD), a parte eventuali artefatti introdotti dalla compressione, i fotogrammi C corrispondono ai fotogrammi contenitore C che trasportano le informazioni relative alle due immagini destra e sinistra ed alla mappa di profondità.
[0045] Questi fotogrammi C vengono forniti ad un modulo di ricostruzione 1103 che esegue un metodo di ricostruzione delle immagini e di estrazione della mappa di profondità, qui di seguito descritto con riferimento alla fig. 6 .
[0046] Chiaramente se il flusso video non fosse compresso, il modulo di decompressione 1102 può essere omesso ed il segnale video può essere fornito direttamente al modulo di ricostruzione 1103.
[0047] Il processo di ricostruzione inizia al passo 1300 quando viene ricevuto il fotogramma contenitore C decompresso.
[0048] Il modulo di ricostruzione 1103 estrae (passo 1301) l’immagine sinistra L copiando i primi 720x 1080 pixel contigui del fotogramma decompresso all’interno di un nuovo fotogramma di dimensioni inferiori rispetto al fotogramma contenitore, ad esempio un fotogramma di un flusso 720p. L’immagine L così ricostruita viene fornita all’uscita del ricevitore 1100 (passo 1302).
[0049] Si intende con il termine «pixel contigui», pixel relativi ad un’immagine inalterata appartenente ad un’area non divisa del fotogramma.
[0050] Successivamente si passa all’estrazione dell’immagine destra R presente all’interno del fotogramma contenitore C.
[0051] La fase di estrazione dell’immagine destra (si veda anche la fig. 4 ) inizia copiando (passo 1303) l’area R1 presente nel fotogramma C In dettaglio, si prendono i pixel delle 640 colonne di R1 e li si copia nelle corrispondenti prime 640 colonne del nuovo fotogramma che rappresenta l’immagine Rout ricostruita. Successivamente si estrae R2 (passo 1304). Dal fotogramma C decompresso (che come abbiamo detto corrisponde al fotogramma C di fig. 1b ) si selezionano i pixel dell’area C3 (corrispondenti alla regione sorgente R2). A questo punto si copiano le 640 colonne di pixel nelle colonne libere adiacenti a quelle appena copiate da R1.
[0052] Per quanto riguarda R3 (passo 1305), si estraggono dal fotogramma C i pixel della regione C4 e si copiano nelle ultime colonne libere in basso a sinistra del fotogramma ricostruito.
[0053] A questo punto l’immagine destra Rout è stata completamente ricostruita e può essere fornita in uscita (passo 1306).
[0054] Infine, il modulo di ricostruzione 1103 estrae (passo 1307) la mappa di profondità copiando in un’area di memoria i valori di luminanza degli ultimi 640 x 320 pixel del fotogramma contenitore decompresso C, corrispondente all’area C5. Il contenuto di detta area di memoria viene fornito in uscita al ricevitore 1100 (passo 1302) e verrà utilizzato dal display per la generazione di immagini interpolate non trasmesse nel flusso video stereoscopico. Il processo di ricostruzione delle immagini destra e sinistra e della mappa di profondità presenti nel fotogramma contenitore C termina (passo 1309). Tale processo viene ripetuto per ogni fotogramma del flusso video ricevuto dal ricevitore 1100, cosicché in uscita si hanno due flussi video 1104 e 1105 rispettivamente per le due immagini destra e sinistra, ed un flusso video 1106 corrispondente alla mappa di profondità.
[0055] Il processo di ricostruzione delle immagini destra e sinistra e della mappa di profondità per la sintesi di immagini sopra descritto parte dal presupposto che il demultiplexer 1100 conosca il modo in cui viene costruito il fotogramma contenitore C e possa procedere ad estrarre le immagini destra e sinistra e la mappa di profondità per la sintesi.
[0056] Chiaramente ciò è possibile se il metodo di multiplexing è standardizzato.
[0057] Per tenere conto del fatto che il fotogramma contenitore può essere generato secondo uno qualsiasi dei metodi che utilizzano l’idea di soluzione oggetto delle rivendicazioni allegate, il demultiplexer utilizza preferibilmente un’informazione di segnalazione, presente in una regione predefìnita dell’immagine composita oppure nel flusso video sotto forma di metadati, identificativa del tipo di flusso video generato, per comprendere come spacchettare il contenuto dell’immagine composita e ricostruire le immagini destra e sinistra e la mappa di profondità per la sintesi di immagini stereoscopiche supplementari.
[0058] Decodificata la segnalazione, il demultiplexer conosce la posizione dell’immagine lasciata inalterata (ad esempio l’immagine sinistra negli esempi sopra descritti), la posizione delle regioni in cui è stata scomposta l’altra immagine (ad esempio l’immagine destra negli esempi sopra descritti) e la posizione della mappa di profondità. Con queste informazioni, il demultiplexer può quindi estrarre l’immagine inalterata (ad es. quella sinistra) e la mappa di profondità e ricostruire l’immagine scomposta (ad es. l’immagine destra).
[0059] Nonostante la presente invenzione sia stata illustrata con riferimento ad alcuni esempi di realizzazione preferiti e vantaggiosi, è chiaro che essa non è limitata a tali esempi di realizzazione e molte varianti possono essere apportate dal tecnico del settore che volesse combinare in un’immagine composita due immagini relative a due diverse prospettive (destra e sinistra) di un oggetto o una scena e la relativa mappa di profondità.
[0060] Ad esempio, in una possibile variante, invece di inserire nel fotogramma composito C la mappa di profondità relativa ad una delle due immagini, viene inserita la cosiddetta «mappa di disparità» o degli spostamenti. Sotto opportune ipotesi (ripresa effettuata con telecamere dotate di ottiche identiche), tale mappa è facilmente desumibile dalla mappa di profondità, con cui può essere messa facilmente in relazione. Se vengono visualizzate sullo stesso display le due immagini destra e sinistra sovrapposte e se non vengono usati gli occhiali per separarle, ci si rende facilmente conto che per ricavare una immagine dall’altra occorre spostare gli oggetti di una quantità determinata. Più precisamente, per ricavare l’immagine destra a partire dalla sinistra occorre spostare gli oggetti posti dietro lo schermo verso destra di una quantità crescente con la profondità a cui gli oggetti stessi sono collocati. Gli oggetti che si trovano esattamente sullo schermo non devono essere spostati, mentre gli oggetti posti davanti allo schermo devono essere spostati verso sinistra di una quantità crescente in funzione della distanza dallo schermo stesso.
[0061] Nelle condizioni a cui si è accennato in precedenza, tra la profondità P e la disparità D esiste una relazione di questo tipo: D = I · P/(P+P0) essendo I la distanza interoculare e P0 la distanza dell’osservatore dallo schermo. Si noti che per P tendente all’infinito D tende ad I e per P=0 (oggetti posti sullo schermo) D è uguale a 0.
[0062] Ovviamente, per ricostruire un’immagine intermedia fra la sinistra e la destra si può seguire lo stesso procedimento descritto qui sopra, ma i valori della disparità devono essere moltiplicati per un coefficiente c compreso fra 0 ed 1, che è funzione della distanza del punto di vista intermedio dal punto di vista dell’immagine di riferimento (in questo caso la sinistra).
[0063] Si noti che quando l’immagine destra viene ricostruita a partire dalla sinistra secondo quanto descritto qui sopra, oppure quando si ricostruisce un’immagine intermedia, restano scoperte alcune aree, corrispondenti ai pixel di oggetti presenti nell’immagine destra ma non in quella sinistra, in quanto coperti da altri oggetti antistanti (le cosiddette «occlusioni»).
[0064] Per effettuare una ricostruzione completa di un’immagine intermedia occorrerebbe pertanto avere a disposizione entrambe le immagini destra e sinistra, ed entrambe le mappe di profondità o disparità. Infatti, in questo modo, le zone vuote perché occluse possono essere riempite prendendo i pixel corrispondenti dall’altra immagine e spostandoli di una quantità pari alla disparità relativa moltiplicata per il coefficiente 1–c.
[0065] Da quanto detto sopra si comprende come un’altra possibile variante dell’invenzione possa prevedere l’inserimento di due mappe di profondità o di disparità, anziché una. Tali mappe, riferite rispettivamente all’immagine sinistra ed a quella destra, possono essere inserite nello stesso spazio in cui veniva precedentemente inserita una sola mappa utilizzando le note tecniche di tipo frame-packing, ad esempio di tipo side-by-side, oppure di tipo top-and-bottom. Nel primo caso si dimezza ulteriormente la risoluzione orizzontale delle due mappe, nel secondo si dimezza quella verticale. È anche possibile usare l’ulteriore variante di tecnica di tipo frame-packing sopra definita come «tile-format».
[0066] I procedimenti di inserimento delle due mappe dal Iato generazione ed estrazione delle due mappe dal lato ricezione possono facilmente essere desunti da quelli descritti per il caso di una sola mappa, adottando le ovvie varianti che un tecnico del ramo comprende benissimo.
[0067] Naturalmente, la segnalazione presente nel flusso video deve essere anche in grado di distinguere fra la presenza di una o due mappe. Conseguentemente, detta segnalazione deve contenere informazione atta a consentire di distinguere almeno fra almeno due tra i seguenti tipi di fotogrammi compositi: 1) fotogramma composito di tipo tile-format senza mappe di profondità o disparità (caso di fig. 1a ); 2) fotogramma composito di tipo tile-format con una mappa di profondità o disparità (caso di fig. 1b ); ed eventualmente anche: 3) fotogramma composito di tipo tile-format con due mappe di profondità o disparità in configurazione di tipo top-and-bottom; 4) fotogramma composito di tipo tile-format con due mappe di profondità o disparità in configurazione di tipo side-by-side; 5) fotogramma composito di tipo tile-format con due mappe di profondità o disparità in configurazione di tipo tile-format.
[0068] Il ricevitore comprende preferibilmente uno o più blocchi di elaborazione atti ad eseguire una o più delle seguenti operazioni, in base all’informazione di segnalazione: – riconoscere il tipo di fotogramma ricevuto, al fine di ricostruire correttamente le due immagini destra e sinistra del contenuto video tridimensionale, come su descritto; – riconoscere la presenza di una o due mappe di profondità o disparità ed il loro tipo di configurazione; – nel caso di due mappe di profondità o disparità, ricavare ognuna delle due mappe; – eseguire sulle mappe di profondità o disparità operazioni atte a portare le dimensioni delle mappe a valori uguali a quelli delle immagini del contenuto video. Queste operazioni possono essere ad esempio di tipo inverso al sottocampionamento, come di interpolazione.
[0069] Altre varianti possono riguardare la realizzazione fisica dell’invenzione. Ad esempio i moduli elettronici che realizzano i dispositivi sopra descritti, in particolare il dispositivo 100 ed il ricevitore 1100, possono essere in vario modo scomposti e distribuiti; inoltre essi possono essere realizzati come moduli hardware o essere degli algoritmi software implementati da un processore, in particolare un processore video provvisto di opportune aree di memoria per la memorizzazione temporanea dei fotogrammi ricevuti in ingresso. Questi moduli possono quindi eseguire in parallelo o in serie una o più delle elaborazioni video previste dai metodi di multiplexing e demultiplexing delle immagini secondo la presente invenzione. È poi chiaro che nonostante gli esempi di realizzazione preferiti si riferiscano al multiplexing di due flussi video 720p in un flusso video 1080p, è chiaro che altri formati possono essere utilizzati.
[0070] È ovvio che l’ordine con cui vengono eseguite le procedure di multiplexing e demultiplexing illustrate nelle fig. 3 e 6 è del tutto esemplificativo: esso può essere modificato per qualsiasi motivo, senza che cambi la sostanza del procedimento.
[0071] L’invenzione non è poi limitata al particolare modo di composizione dell’immagine composita, anche se differenti soluzioni di generazione dell’immagine composita possono presentare diversi vantaggi e/o svantaggi.
[0072] L’invenzione, con tutte le sue varianti, propone un formato universale per generare, trasportare e riprodurre contenuti 3D su tutti i tipi di display presenti e futuri.
[0073] In caso di dispositivo riproduttore 2D, il processore video del dispositivo riproduttore scarta semplicemente le immagini R e le mappe di profondità (DM oppure DM1 e DM2) eventualmente presenti all’uscita del ricevitore 1100 e visualizza, previa scalatura, la sola sequenza delle immagini L su un associato dispositivo di visualizzazione.
[0074] La stessa cosa avviene nel caso di un dispositivo riproduttore 3D in cui è stata attivata dall’utente la modalità di visualizzazione 2D.
[0075] In caso di dispositivo riproduttore 3D in cui è attivata la modalità di visualizzazione 3D, vi sono due comportamenti diversi a seconda che la possibilità di regolazione di profondità (in diminuzione) della scena sia assente o presente. Nel primo caso il processore video utilizza le due sequenze d’immagini L e R per generare l’effetto tridimensionale. Nel secondo caso il processore video utilizza le mappe di profondità (una o due) presenti nei frame compositi C associati a ogni coppia di immagini stereoscopiche R ed L, per generare viste intermedie fra L ed R, ottenendo così immagini tridimensionali aventi profondità variabile ed inferiore a quella ottenibile da L ed R.
[0076] L’ultimo caso di utilizzo è costituito dai riproduttori autostereoscopici che necessitano di un numero di viste molto elevato (alcune decine) per generare l’effetto di tridimensionalità per spettatori situati in punti diversi dello spazio antistante al display. In tal caso il processore video utilizza le mappe di profondità (una o due) presenti nei frame compositi C1 insieme alle immagini L ed R stesse, per sintetizzare una serie di altre immagini. Davanti al display è presente una serie di lenti o barriere, tali per cui in ciascun punto dello spazio in cui è possibile la visione stereoscopica lo spettatore percepisce una sola coppia di dette immagini.
[0077] Quindi il processore video del dispositivo riproduttore può comprendente mezzi atti ad inviare al display due sequenze di immagini, di cui almeno una è costituita da immagini sintetizzate a partire da almeno una delle viste trasmesse e da almeno una mappa di profondità. In questo caso preferibilmente esso comprende inoltre mezzi atti a consentire allo spettatore di scegliere sequenze di immagini relative a punti di vista più o meno ravvicinati, in modo tale da variare la percezione di profondità.
[0078] Il processore video del dispositivo riproduttore può inoltre comprendere mezzi atti a generare ulteriori immagini corrispondenti ad ulteriori viste, per fare in modo che spettatori situati in punti diversi dello spazio possano visualizzare sequenze di immagini diverse tramite un associato display di tipo auto-stereoscopico.
[0079] Nessuno dei formati finora proposti consente tale flessibilità e ampiezza d’uso, mantenendo al contempo una ottima qualità di riproduzione in termini di bilanciamento della risoluzione orizzontale e verticale e di appropriata assegnazione della risoluzione alle immagini stereoscopiche e alle associate mappe di profondità.
[0080] Le operazioni di ricostruzione sopra descritte possono essere eseguite in parte nel dispositivo ricevitore ed in parte nel dispositivo di visualizzazione.
[0081] Almeno parte della presente invenzione può essere vantaggiosamente realizzata tramite programmi per computer che comprendono mezzi di codifica per la realizzazione di uno o più passi dei metodi su descritti, quando questi programmi sono eseguiti su computer. Pertanto si intende che l’ambito di protezione si estende a detti programmi per computer ed inoltre a mezzi leggibili da computer che comprendono messaggi registrati, detti mezzi leggibili da computer comprendendo mezzi di codifica di programma per la realizzazione di uno o più passi dei metodi su descritti, quando detti programmi sono eseguiti su computer. Sono possibili varianti realizzative all’esempio non limitativo descritto, senza per altro uscire dall’ambito di protezione della presente invenzione, comprendendo tutte le realizzazioni equivalenti per un tecnico del ramo.
[0082] Gli elementi e le caratteristiche illustrate nelle diverse forme di realizzazione preferite possono essere combinati tra loro senza peraltro uscire dall’ambito di protezione della presente invenzione.
[0083] Dalla descrizione sopra riportata il tecnico del ramo è in grado di realizzare l’oggetto dell’invenzione senza introdurre ulteriori dettagli implementativi.

Claims (31)

1. Metodo per generare un flusso video stereoscopico (101) comprendente immagini composite (C), dette immagini composite (C) comprendendo informazioni relative ad un’immagine destra (R) e ad un’immagine sinistra (L) di un contenuto video tridimensionale, in cui si selezionano pixel di detta immagine destra (R) e pixel di detta immagine sinistra (L), e si inseriscono detti pixel selezionati all’interno di un’immagine composita (C) di detto flusso video stereoscopico, il metodo essendo caratterizzato dal fatto di inserire tutti i pixel di detta immagine destra (R) e tutti i pixel di detta immagine sinistra (L) in detta immagine composita (C) lasciando inalterata una tra dette due immagini e scomponendo l’altra in più regioni (R1, R2, R3), aventi area complessiva pari a quella di detta altra immagine (R), e inserendo dette regioni in detta immagine composita (C), in cui detta immagine composita (C) ha dimensioni superiori a quelle necessarie all’inserimento di tutti i pixel di dette immagini sinistra (L) e destra (R), e in cui nei pixel dell’immagine composita (C) rimanenti dopo detto inserimento viene inserita almeno una mappa di profondità o di disparità (DM) relativa alla profondità o disparità dei pixel di detto contenuto video tridimensionale, essendo tali mappe finalizzate alla ricostruzione in ricezione di immagini non trasmesse in detto flusso stereoscopico.
2. Metodo secondo la rivendicazione 1, in cui detta almeno una mappa di profondità o disparità (DM) è codificata come un’immagine in scala di grigi.
3. Metodo secondo la rivendicazione 2, in cui il contenuto informativo video di detta almeno una mappa di profondità o disparità è trasportato da un solo segnale di luminanza, i segnali di crominanza essendo inutilizzati.
4. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta almeno una mappa di profondità o disparità (DM) ha una risoluzione inferiore a quella di una sua versione originale avente risoluzione pari a quella di dette immagini sinistra (L) e destra (R).
5. Metodo secondo la rivendicazione 4, in cui detta almeno una mappa di profondità o disparità (DM) è ottenuta tramite sottocampionamento 4 a 1 di detta mappa di profondità originale.
6. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta almeno una mappa di profondità o disparità (DM) è una mappa di profondità o disparità associata ad una delle due immagini destra (R) o sinistra (L), oppure associata ad un punto di vista intermedio rispetto a quelli di L ed R.
7. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta almeno una mappa di profondità o disparità (DM) comprende una mappa di profondità o disparità associata ad una immagine destra (R) ed una mappa di profondità o disparità associata ad una immagine sinistra (L).
8. Metodo secondo la rivendicazione 7, in cui dette mappe di profondità o disparità associate ad una immagine destra (R) e ad una immagine sinistra (L) sono inserite in detti pixel rimanenti dell’immagine composita (C) mediante tecniche di tipo frame-packing.
9. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui, nel caso in cui dette più regioni siano tre, dette regioni sono ottenute mediante i passi di: – dividere detta altra immagine (R) in due porzioni aventi uguale dimensione orizzontale (R1, R2, R3); – dividere una di dette due porzioni (R2, R3) in due porzioni di aventi uguale dimensione verticale (R2, R3).
10. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui viene inserita un’informazione di segnalazione, identificativa del tipo di flusso video generato, in detta immagine composita (C) o detto flusso video stereoscopico sotto forma di metadati.
11. Metodo secondo la rivendicazione 10, in cui detta informazione di segnalazione è conformata in modo da consentire di distinguere tra almeno due dei seguenti tipi di fotogrammi compositi: – fotogramma composito di tipo tile-format senza mappe di profondità; – fotogramma composito di tipo tile-format con una mappa di profondità; – fotogramma composito di tipo tile-format con due mappe di profondità in configurazione di tipo side-by-side; – fotogramma composito di tipo tile-format con due mappe di profondità in configurazione di tipo top-and-bottom; – fotogramma composito di tipo tile-format con due mappe di profondità in configurazione di tipo tile-format.
12. Dispositivo per generare un flusso video stereoscopico (101) comprendente immagini composite (C), dette immagini composite (C) comprendendo informazioni relative ad un’immagine destra (R), un’immagine sinistra (L), caratterizzato da ciò che comprende mezzi per la realizzazione dei passi del metodo secondo una qualsiasi delle rivendicazioni precedenti.
13. Metodo per ricostruire almeno una coppia di immagini di un flusso video stereoscopico a partire da un’immagine composita (C), detta immagine composita (C) comprendendo informazioni relative ad un’immagine destra (R), un’immagine sinistra (L), il metodo comprendente i passi di: – generare una prima immagine di dette immagini destra (R) e sinistra (L) copiando un unico gruppo di pixel contigui da una prima regione (C1) di detta immagine composita, – generare la rimanente immagine di dette immagini destra (R) e sinistra (L) copiando altri gruppi di pixel contigui da più regioni distinte (C2, C3, C4) di detta immagine composita, dette più regioni distinte essendo diverse da detta prima regione (C1); – generare almeno una mappa di profondità o disparità (DM) copiando almeno un gruppo di pixel contigui da una ulteriore regione (C5) di detta immagine composita diversa da dette prima regione e più regioni distinte.
14. Metodo secondo la rivendicazione 13, in cui, nel caso in cui dette più regioni siano tre: – una (C2) di dette regioni dell’immagine composita (C) ha la stessa dimensione verticale di detta prima regione (C1) e la metà della sua dimensione orizzontale; – le rimanenti due (C3, C4) di dette regioni dell’immagine composita (C) hanno dimensioni orizzontali e verticali uguali, e metà della dimensione verticale di detta prima regione (C1).
15. Metodo secondo la rivendicazione 13, in cui detta almeno una mappa di profondità o disparità (DM) è generata partendo da un’immagine in scala di grigi derivante da un segnale di luminanza contenuto nei pixel contigui di detta ulteriore regione (C5).
16. Metodo secondo la rivendicazione 15, comprendente il passo di aumentare le dimensioni orizzontale e verticale di detta almeno una mappa di profondità o disparità (DM) fino ad una dimensione pari a quella di dette immagini destra (R) e sinistra (L).
17. Metodo secondo la rivendicazione 13, comprendente il passo di ricavare da detta immagine composita (C) o dal flusso video un’informazione di segnalazione atta a riconoscere il tipo di flusso video generato.
18. Metodo secondo la rivendicazione 17, in cui detta informazione di segnalazione è conformata in modo da consentire di distinguere tra almeno due dei seguenti tipi di fotogrammi compositi: – fotogramma composito di tipo tile-format senza mappe di profondità; – fotogramma composito di tipo tile-format con una mappa di profondità; – fotogramma composito di tipo tile-format con due mappe di profondità in configurazione di tipo side-by-side; – fotogramma composito di tipo tile-format con due mappe di profondità in configurazione di tipo top-and-bottom;- fotogramma composito di tipo tile-format con due mappe di profondità in configurazione di tipo tile-format.
19. Dispositivo per ricostruire almeno una coppia di immagini di un flusso video stereoscopico a partire da un’immagine composita (C), detta immagine composita (C) comprendendo informazioni relative ad un’immagine destra (R), un’immagine sinistra (L), il dispositivo comprendente: – mezzi per generare una prima immagine di dette immagini destra (R) e sinistra (L) copiando un unico gruppo di pixel contigui da una prima regione (C1) di detta immagine composita, – mezzi per generare la rimanente immagine di dette immagini destra (R) e sinistra (L) copiando altri gruppi di pixel contigui da più regioni distinte (C2, C3, C4) di detta immagine composita, dette più regioni distinte essendo diverse da detta prima regione (C1); – mezzi per generare almeno una mappa di profondità o disparità (DM) copiando almeno un gruppo di pixel contigui da una ulteriore regione (C5) di detta immagine composita diversa da dette prima regione e più regioni distinte.
20. Dispositivo secondo la rivendicazione 19, in cui, nel caso in cui dette più regioni siano tre: – una (C2) di dette regioni dell’immagine composita (C) ha la stessa dimensione verticale di detta prima regione (C1) e la metà della sua dimensione orizzontale; – le rimanenti due (C3, C4) di dette regioni dell’immagine composita (C) hanno dimensioni orizzontali e verticali uguali, e metà della dimensione verticale di detta prima regione (C1).
21. Dispositivo secondo la rivendicazione 19, in cui detti mezzi per generare almeno una mappa di profondità o disparità (DM) utilizzano un’immagine in scala di grigi derivante da un segnale di luminanza contenuto nei pixel contigui di detta ulteriore regione (C5).
22. Dispositivo secondo la rivendicazione 21, comprendente mezzi per aumentare le dimensioni orizzontale e verticale di detta almeno una mappa di profondità o disparità (DM) fino ad una dimensione pari a quella di dette immagini destra (R) e sinistra (L).
23. Dispositivo secondo la rivendicazione 19, comprendente mezzi atti a riconoscere il tipo di flusso video ricevuto da un’informazione di segnalazione identifìcativa di detto tipo di flusso contenuta in detta immagine composita (C) o in detto flusso video.
24. Dispositivo secondo la rivendicazione 23, in cui detta informazione di segnalazione consente di distinguere tra almeno due dei seguenti tipi di fotogrammi compositi: – fotogramma composito di tipo tile-format senza mappe di profondità; – fotogramma composito di tipo tile-format con una mappa di profondità; – fotogramma composito di tipo tile-format con due mappe di profondità in configurazione di tipo side-by-side; – fotogramma composito di tipo tile-format con due mappe di profondità in configurazione di tipo top-and-bottom; – fotogramma composito di tipo tile-format con due mappe di profondità in configurazione di tipo tile-format.
25. Dispositivo secondo la rivendicazione 24, comprendente mezzi che, in base a detta informazione che consente di distinguere un tipo di fotogramma composito, sono atti a fornire in uscita: – solamente detta prima immagine di dette immagini destra (R) e sinistra (L); oppure – detta prima e detta seconda di dette immagini destra (R) e sinistra (L); oppure – detta prima e detta seconda di dette immagini destra (R) e sinistra (L) e detta almeno una mappa di profondità o disparità (DM).
26. Dispositivo secondo la rivendicazione 23, comprendente mezzi atti ad eseguire una o più delle seguenti operazioni, in base a detta informazione di segnalazione: – riconoscere il tipo di fotogramma ricevuto, al fine di ricostruire correttamente le due immagini destra e sinistra del contenuto video tridimensionale; – riconoscere la presenza di una o due mappe di profondità o disparità ed il loro tipo di configurazione; – nel caso di due mappe di profondità o disparità, ricavare ognuna delle due mappe; – eseguire su dette mappe di profondità o disparità operazioni atte a portare le dimensioni delle mappe a valori uguali a quelli delle immagini del contenuto video.
27. Dispositivo secondo la rivendicazione 19, comprendente mezzi conformati in modo tale da generare ulteriori immagini corrispondenti ad ulteriori viste, a partire da dette immagini destra (R) e sinistra (L), utilizzando dette mappe di profondità.
28. Dispositivo secondo la rivendicazione 27, comprendente mezzi atti a visualizzare due sequenze di immagini, di cui almeno una è costituita da immagini sintetizzate a partire da almeno una delle viste trasmesse e da almeno una mappa di profondità.
29. Dispositivo secondo la rivendicazione 28, comprendente mezzi atti a dare allo spettatore la possibilità di scegliere sequenze di immagini relative a punti di vista più o meno ravvicinati fra loro, in modo tale da variare la percezione di profondità.
30. Dispositivo secondo la rivendicazione 27 comprendente un display auto stereoscopico, e comprendente mezzi atti ad utilizzare dette ulteriori immagini corrispondenti ad ulteriori viste, per fare in modo che spettatori situati in punti diversi dello spazio possano visualizzare sequenze di immagini diverse.
31. Flusso video stereoscopico (1101) caratterizzato dal fatto di comprendere almeno un’immagine composita (C) generata mediante il metodo secondo una qualsiasi delle rivendicazioni da 1 a 11.
CH01366/13A 2012-09-06 2013-08-08 Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi. CH706886A2 (it)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2012138174/08A RU2012138174A (ru) 2012-09-06 2012-09-06 Способ компоновки формата цифрового стереоскопического видеопотока 3dz tile format
PCT/IB2013/051782 WO2014037822A1 (en) 2012-09-06 2013-03-06 Method for generating, transmitting and receiving stereoscopic images and relating devices

Publications (1)

Publication Number Publication Date
CH706886A2 true CH706886A2 (it) 2014-03-14

Family

ID=48182965

Family Applications (1)

Application Number Title Priority Date Filing Date
CH01366/13A CH706886A2 (it) 2012-09-06 2013-08-08 Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi.

Country Status (16)

Country Link
US (1) US9723290B2 (it)
JP (1) JP2015534745A (it)
KR (1) KR20150053774A (it)
CN (1) CN104604222B (it)
AT (1) AT513369A3 (it)
CH (1) CH706886A2 (it)
DE (1) DE102013217826A1 (it)
ES (1) ES2446165B1 (it)
FR (2) FR2995165B1 (it)
GB (1) GB2507844B (it)
IT (1) ITTO20130679A1 (it)
NL (1) NL2011349C2 (it)
PL (1) PL405234A1 (it)
RU (1) RU2012138174A (it)
TW (1) TWI511525B (it)
WO (1) WO2014037822A1 (it)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11277598B2 (en) * 2009-07-14 2022-03-15 Cable Television Laboratories, Inc. Systems and methods for network-based media processing
US9978341B2 (en) * 2014-12-23 2018-05-22 Mediatek Inc. Visual data processing method and visual data processing system which can perform a process operation according to a gazing point
WO2017008125A1 (en) 2015-07-15 2017-01-19 Blinxel Pty Ltd "system and method for image processing"
CN108140259B (zh) * 2015-08-18 2022-06-14 奇跃公司 虚拟和增强现实系统和方法
CN112868224B (zh) 2019-04-01 2023-08-29 谷歌有限责任公司 捕获和编辑动态深度图像的方法、装置和存储介质
US11127115B2 (en) 2019-12-13 2021-09-21 NextVPU (Shanghai) Co., Ltd. Determination of disparity

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003235940A1 (en) * 2002-04-25 2003-11-10 Sharp Kabushiki Kaisha Image encodder, image decoder, record medium, and image recorder
WO2004093467A1 (ja) * 2003-04-17 2004-10-28 Sharp Kabushiki Kaisha 3次元画像作成装置、3次元画像再生装置、3次元画像処理装置、3次元画像処理プログラムおよびそのプログラムを記録した記録媒体
US8487982B2 (en) * 2007-06-07 2013-07-16 Reald Inc. Stereoplexing for film and video applications
EP3007440A1 (en) * 2007-12-20 2016-04-13 Koninklijke Philips N.V. Image encoding method for stereoscopic rendering
KR100950046B1 (ko) * 2008-04-10 2010-03-29 포항공과대학교 산학협력단 무안경식 3차원 입체 tv를 위한 고속 다시점 3차원 입체영상 합성 장치 및 방법
CN102017628B (zh) * 2008-04-25 2013-10-09 汤姆逊许可证公司 深度信号的编码
CN101668219B (zh) * 2008-09-02 2012-05-23 华为终端有限公司 3d视频通信方法、发送设备和系统
CN104768031B (zh) * 2009-01-26 2018-02-09 汤姆森特许公司 用于视频解码的装置
WO2011039990A1 (ja) * 2009-10-02 2011-04-07 パナソニック株式会社 立体視映像を再生することができる再生装置、集積回路、再生方法、プログラム
IT1397591B1 (it) * 2009-12-21 2013-01-16 Sisvel Technology Srl Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi.
US9571811B2 (en) * 2010-07-28 2017-02-14 S.I.Sv.El. Societa' Italiana Per Lo Sviluppo Dell'elettronica S.P.A. Method and device for multiplexing and demultiplexing composite images relating to a three-dimensional content
IT1401367B1 (it) * 2010-07-28 2013-07-18 Sisvel Technology Srl Metodo per combinare immagini riferentesi ad un contenuto tridimensionale.
CN103098478A (zh) * 2010-08-16 2013-05-08 富士胶片株式会社 图像处理设备、图像处理方法、图像处理程序、以及记录介质
EP2426635A1 (en) * 2010-09-01 2012-03-07 Thomson Licensing Method for watermarking free view video with blind watermark detection
IT1402995B1 (it) * 2010-11-12 2013-09-27 Sisvel Technology Srl Metodo di elaborazione di un contenuto video tridimensionale e relativo apparato
DE112011103496T5 (de) * 2010-11-15 2013-08-29 Lg Electronics Inc. Verfahren zum Umwandeln eines Einzelbildformats und Vorrichtung zur Benutzung dieses Verfahrens
IT1404059B1 (it) * 2011-02-14 2013-11-08 Sisvel Technology Srl Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi.

Also Published As

Publication number Publication date
AT513369A2 (de) 2014-03-15
NL2011349C2 (en) 2014-05-08
NL2011349A (en) 2014-03-10
KR20150053774A (ko) 2015-05-18
ES2446165A2 (es) 2014-03-06
GB201314206D0 (en) 2013-09-25
FR3002104B1 (fr) 2017-06-16
RU2012138174A (ru) 2014-03-27
US9723290B2 (en) 2017-08-01
TW201415864A (zh) 2014-04-16
PL405234A1 (pl) 2014-03-17
US20150215599A1 (en) 2015-07-30
GB2507844B (en) 2017-07-19
ES2446165R1 (es) 2014-07-11
TWI511525B (zh) 2015-12-01
ES2446165B1 (es) 2015-03-23
ITTO20130679A1 (it) 2014-03-07
FR2995165A1 (fr) 2014-03-07
JP2015534745A (ja) 2015-12-03
GB2507844A (en) 2014-05-14
FR2995165B1 (fr) 2017-12-29
CN104604222A (zh) 2015-05-06
AT513369A3 (de) 2018-08-15
FR3002104A1 (fr) 2014-08-15
CN104604222B (zh) 2017-03-29
DE102013217826A1 (de) 2014-03-06
WO2014037822A1 (en) 2014-03-13

Similar Documents

Publication Publication Date Title
US10341636B2 (en) Broadcast receiver and video data processing method thereof
US10567728B2 (en) Versatile 3-D picture format
US8422801B2 (en) Image encoding method for stereoscopic rendering
CN103202021B (zh) 编码装置、解码装置、再现装置、编码方法及解码方法
US9578305B2 (en) Digital receiver and method for processing caption data in the digital receiver
ITTO20100652A1 (it) Metodo per combinare immagini riferentesi ad un contenuto tridimensionale
KR20120013974A (ko) 방송 송신기, 방송 수신기 및 3d 비디오 데이터 처리 방법
US9596446B2 (en) Method of encoding a video data signal for use with a multi-view stereoscopic display device
CH706886A2 (it) Metodo per la generazione, trasmissione e ricezione di immagini stereoscopiche e relativi dispositivi.
ITTO20130503A1 (it) Metodo e dispositivo per la generazione, memorizzazione, trasmissione, ricezione e riproduzione di mappe di profondita¿ sfruttando le componenti di colore di un¿immagine facente parte di un flusso video tridimensionale
CN104838648A (zh) 用于创建和重建视频流的装置和方法
KR20110060763A (ko) 3차원 비디오 서비스 제공 장치 및 방법
ITTO20110439A1 (it) Method for generating, transmitting and receiving stereoscopic images, and related devices
KR20100060413A (ko) 수신 시스템 및 데이터 처리 방법
Vetro 3D in the Home: Mass Market or Niche?
KR20090093734A (ko) 다시점 영상을 위한 부가 정보를 포함하는 데이터스트림부호화 방법 및 그 장치, 그리고 이를 이용한 데이터스트림복호화 방법 및 장치

Legal Events

Date Code Title Description
AZW Rejection (application)