ITTO20100652A1

ITTO20100652A1 - Metodo per combinare immagini riferentesi ad un contenuto tridimensionale

Info

Publication number: ITTO20100652A1
Application number: IT000652A
Authority: IT
Inventors: Giovanni Ballocca; Amato Paolo D; Dario Pennisi
Original assignee: Sisvel Technology Srl; 3Dswitch S R L
Priority date: 2010-07-28
Filing date: 2010-07-28
Publication date: 2012-01-29
Also published as: EP2599319A1; KR20130052621A; KR101840308B1; JP2013539256A; EA201390178A1; US9549163B2; WO2012014171A9; IT1401367B1; PL2599319T3; TW201223248A; CN103329543B; WO2012014171A1; BR112013001910A2; US20130135435A1; CN103329543A; ES2564937T3; ZA201300610B; HUE027682T2; EP2599319B1

Description

â€œMETODO PER COMBINARE IMMAGINI RIFERENTESI AD UN CONTENUTO TRIDIMENSIONALEâ€

DESCRIZIONE

- CAMPO TECNICO -La presente invenzione si riferisce a metodi e dispositivi per combinare, in un dispositivo di visualizzazione stereoscopica, immagini generate localmente in sovraimpressione ad un contenuto tridimensionale ricevuto dal dispositivo stesso.

- ARTE NOTA -Eâ€™ noto che gli apparati televisivi (televisori e decoder) possono generare localmente ed inserire immagini contenenti (testi e grafica) in sovraimpressione sulle immagini ricevute; in questo modo Ã ̈ possibile fornire allâ€™utilizzatore informazioni utili di vario tipo mentre il video viene riprodotto sullo sfondo.

Queste immagini possono essere generate a partire da informazioni ricevute assieme al segnale video (ad es. Ã ̈ questo il caso dei sottotitoli e di alcune guide elettroniche dei programmi televisivi note come EPG) oppure possono fornire informazioni sulla configurazione e sulle regolazioni del decoder o del televisore (ad es. i menu oppure la barra che indica il valore del volume e di altri parametri).

Al giorno dâ€™oggi il numero di contenuti 3D disponibili al pubblico Ã ̈ in grande crescita e la possibilitÃ di fruire di questi contenuti non Ã ̈ piÃ¹ limitata ai cinema e gli utenti possono guardare video 3D anche a casa sul proprio televisore.

Anche per i flussi video 3D si pone quindi lâ€™esigenza di sovraimporre immagini generate localmente sulle immagini televisive ricevute.

A differenza dei video 2D, nel caso di un video 3D la sovraimpressione di immagini Ã ̈ piÃ¹ complicata, dato che si deve tenere conto della differente disposizione in profonditÃ degli oggetti presenti nelle singole immagini che compongono il flusso video.

La domanda di brevetto EP2157803A1 insegna a posizionare un testo in una posizione tale da risultare sempre davanti allâ€™immagine televisiva. In particolare, se il contenuto 3D Ã ̈ trasmesso come unâ€™immagine bidimensionale piÃ¹ una matrice di profonditÃ , questâ€™ultima puÃ² essere utilizzata anche per definire la posizione del testo.

Questa soluzione presenta lo svantaggio di utilizzare una mappa di profonditÃ che Ã ̈ di grandi dimensioni dato che serve a creare la coppia di immagini destra e sinistra (che combinate producono lâ€™effetto 3D) a partire dallâ€™immagine bidimensionale di base. Le dimensioni di questa mappa, oltre a richiedere un notevole sforzo computazionale nel momento in cui la si debba analizzare per definire la posizione del testo, comportano anche una grande occupazione di banda quando la mappa viene trasmessa ad un ricevitore.

- OBIETTIVI E BREVE DESCRIZIONE DELLâ€™INVENZIONE -Scopo della presente invenzione Ã ̈ di presentare un metodo ed un relativo sistema per combinare immagini ad un contenuto tridimensionale trasportato da un flusso video stereoscopico, che permetta di superare gli inconvenienti dellâ€™arte nota.

In particolare Ã ̈ scopo della presente invenzione quello di presentare un metodo per sovraimporre immagini ad un contenuto 3D che richieda un minor costo computazionale a livello di dispositivo di riproduzione del contenuto 3D.

Eâ€™ anche scopo della presente invenzione quello di presentare un metodo per trasmettere informazioni necessarie a sovraimporre immagini a quelle trasportate da un flusso video stereoscopico, che non richieda elevata occupazione di banda e che sia robusto alle operazioni di codifica e decodifica del flusso video stereoscopico.

Questi ed altri scopi della presente invenzione sono raggiunti mediante un metodo ed un sistema per sovraimporre immagini a quelle trasportate da un flusso video stereoscopico, incorporanti le caratteristiche delle rivendicazioni allegate, le quali formano parte integrante della presente descrizione.

Lâ€™idea generale alla base della presente invenzione Ã ̈ quella di visualizzare un elemento sovraimpresso ad un flusso stereoscopico utilizzando una mappa di profonditÃ per la sovraimpressione, che Ã ̈ codificata in unâ€™immagine contenuta in un fotogramma di un flusso stereoscopico. La mappa di profonditÃ utilizzata nella presente invenzione non Ã ̈ finalizzata alla codifica del flusso video stereoscopico, ma ha il solo scopo di fornire informazioni utili al decoder o al televisore per sovraimporre allâ€™immagine stereoscopica, in modo appropriato, immagini generate localmente. A questo scopo, la mappa di profonditÃ ha una risoluzione minore e quindi un numero di pixel minore rispetto a quella della coppia stereoscopica in modo da contenere lâ€™occupazione di banda. CiÃ² Ã ̈ possibile perchÃ© la mappa non Ã ̈ utilizzata per la generazione dellâ€™immagine tridimensionale, ma solo per il corretto posizionamento delle sovraimpressioni.

In una forma di realizzazione preferita, il fotogramma trasporta unâ€™immagine composita che comprende unâ€™immagine destra, unâ€™immagine sinistra e la mappa di profonditÃ opportunamente multiplexate.

In una forma di realizzazione, le immagini destra e sinistra sono affiancate in un formato di tipo tradizionale, ad esempio un formato side-by-side, topbottom o checkerboard, mentre la mappa di profonditÃ viene inserita in unâ€™area libera del fotogramma composito e destinata a non essere visualizzata.

In una forma di realizzazione alternativa, il fotogramma composito prevede unâ€™organizzazione delle immagini destra e sinistra di tipo innovativo. In questa forma di realizzazione il fotogramma comprende un numero di pixel superiore alla somma dei pixel del formato originale (ossia prima della codifica) delle due immagini destra e sinistra, che vengono cosÃ¬ inserite senza decimazione.

In questa forma di realizzazione, i pixel della prima immagine (ad es. immagine sinistra) vengono inseriti allâ€™interno dellâ€™immagine composita senza alterazione, mentre la seconda immagine viene suddivisa in regioni i cui pixel vengono disposti in aree libere dellâ€™immagine composita.

Questa soluzione offre il vantaggio che una delle due immagini viene lasciata inalterata, con conseguente miglioramento della qualitÃ dellâ€™immagine ricostruita.

Vantaggiosamente, poi, la seconda immagine viene scomposta nel numero minimo possibile di regioni, in modo tale da massimizzare la correlazione spaziale tra pixel e ridurre la generazione di artefatti in fase di compressione.

In una forma di realizzazione vantaggiosa, le regioni della seconda immagine vengono riportate allâ€™interno dellâ€™immagine composita utilizzando solamente delle operazioni di traslazione o rototraslazione, lasciando pertanto inalterato il rapporto tra risoluzione orizzontale e verticale.

In unâ€™ulteriore forma di realizzazione, almeno una delle regioni in cui Ã ̈ scomposta la seconda immagine subisce unâ€™inversione speculare, ossia viene ribaltata rispetto ad un asse (in particolare un lato) e viene disposta nellâ€™immagine composita in modo tale che uno dei suoi lati confini con un lato dellâ€™altra immagine che presenta sul lato di confine pixel identici o simili a causa della forte correlazione sussistente tra pixel omologhi delle due immagini destra e sinistra, ovvero di pixel delle due immagini posizionati nella stessa riga e colonna.

Questa soluzione offre il vantaggio di ridurre la generazione di artefatti nella zona di confine. In modo ulteriormente vantaggioso, le regioni in cui viene suddivisa la seconda immagine hanno forma rettangolare; rispetto a regioni di tipo triangolare, che vengono disposte con regioni di confine che attraversano lâ€™immagine composita secondo direzioni diagonali, questa scelta permette la riduzione degli artefatti prodotti da una successiva compressione, particolarmente se si tratta di una compressione che agisce su blocchi quadrati di pixel (ad es. 16x16 nel caso dello standard H.264).

Secondo una forma di realizzazione particolarmente vantaggiosa, la formazione di artefatti viene ulteriormente ridotta, fino ad escluderla completamente, introducendo della ridondanza nellâ€™immagine composita, ossia copiando piÃ¹ volte alcuni gruppi di pixel. In particolare, ciÃ² viene ottenuto scomponendo lâ€™immagine di base da inserire nellâ€™immagine composita in regioni di dimensioni tali che il numero di pixel complessivo di queste regioni superi il numero di pixel dellâ€™immagine da scomporre. In altre parole, lâ€™immagine viene scomposta in regioni di cui almeno due comprendono una porzione di immagine in comune. La porzione dâ€™immagine in comune Ã ̈ unâ€™area di confine tra le regioni che sono adiacenti nellâ€™immagine che viene scomposta. Questa porzione comune ha preferibilmente unâ€™ampiezza che dipende dal tipo di compressione successivamente applicata allâ€™immagine composita e permette di funzionare da area tampone che viene parzialmente o completamente rimossa in fase di ricomposizione dellâ€™immagine scomposta. PoichÃ© la compressione puÃ² introdurre degli artefatti nelle aree di confine delle suddette regioni, eliminando le aree tampone, o quantomeno la parte piÃ¹ esterna di queste, si eliminano gli artefatti e si riesce a ricostruire unâ€™immagine fedele a quella originaria.

Ulteriori scopi e vantaggi della presente invenzione appariranno maggiormente chiari dalla descrizione che segue di alcuni esempi di realizzazione forniti a titolo esplicativo e non limitativo.

- BREVE DESCRIZIONE DELLE FIGURE -Tali esempi di realizzazione vengono descritti con riferimento ai disegni allegati, in cui:

La figura 1 mostra uno schema a blocchi di un dispositivo per multiplexare lâ€™immagine destra e lâ€™immagine sinistra in unâ€™immagine composita;

La figura 2 Ã ̈ un diagramma di flusso di un metodo eseguito dal dispositivo di figura 1;

La figura 3 mostra una prima forma di scomposizione di unâ€™immagine da inserire in unâ€™immagine composita.

La figura 4 mostra una prima fase di costruzione di unâ€™immagine composita secondo una forma di realizzazione della presente invenzione.

La figura 5 mostra lâ€™immagine composita di figura 4 completa.

La figura 6 mostra una seconda forma di scomposizione di unâ€™immagine da inserire in unâ€™immagine composita.

La figura 7 mostra unâ€™immagine composita in cui Ã ̈ inserita lâ€™immagine di figura 6.

La figura 8 mostra una terza forma di scomposizione di unâ€™immagine da inserire in unâ€™immagine composita.

La figura 9 mostra unâ€™immagine composita in cui Ã ̈ inserita lâ€™immagine di figura 8.

La figura 10 mostra uno schema a blocchi di un ricevitore per ricevere unâ€™immagine composita generata secondo il metodo della presente invenzione.

La figura 11 mostra alcune fasi di ricostruzione dellâ€™immagine scomposta secondo il metodo di figura 8 ed inserita nellâ€™immagine composita ricevuta dal ricevitore di figura 10.

La figura 12 Ã ̈ un diagramma di flusso di un metodo di ricostruzione delle immagini destra e sinistra multiplexate in unâ€™immagine composita del tipo di figura 9.

La figura 13 mostra unâ€™immagine composita secondo una quarta forma di realizzazione della presente invenzione. Le figure da 14a a 14f mostrano unâ€™immagine destra ed una sinistra in diverse fasi di elaborazione per lâ€™inserimento nellâ€™immagine composita di figura 13.

Dove appropriato, strutture, componenti, materiali e/o elementi simili mostrati in figure differenti sono indicati da identificativi simili.

- DESCRIZIONE DETTAGLIATA DELLâ€™INVENZIONE -In figura 1 viene mostrato lo schema a blocchi di un dispositivo 100 per generare un flusso video stereoscopico 101 con mappa di profonditÃ per la sovraimpressione di immagini su di un contenuto video trasportato dal flusso video.

Ai fini della presente descrizione con contenuto tridimensionale (o 3D) sâ€™intendono unâ€™immagine o un video che vengono percepiti da chi li osserva come aventi una profonditÃ variabile con elementi che possono sporgere rispetto al piano dello schermo sui cui detta immagine o video sono visualizzati o proiettati.

Con lâ€™espressione â€œsovraimporre due immaginiâ€ sâ€™intende ricomprendere qualsiasi forma di combinazione di due immagini, ad esempio in trasparenza, semitrasparenza o opacitÃ completa.

La presente invenzione si applica egualmente su qualsiasi tipo di sovrimpressione, sia essa statica o dinamica, ovvero fissa o variabile nel tempo nelle proprie caratteristiche grafiche, e puÃ² essere a sua volta di tipo bi- o tridimensionale.

Con lâ€™espressione profonditÃ di un contenuto tridimensionale sâ€™intende fare riferimento alla dimensione del contenuto tridimensionale lungo un asse ortogonale allo schermo su cui Ã ̈ visualizzato il contenuto 3D ed entrante nello schermo. Ai fini della presente descrizione, lo schermo corrisponde quindi ad un punto di profonditÃ zero, mentre con il termine punto di â€œminima profonditÃ â€ sâ€™intende far riferimento al punto del contenuto 3D che lâ€™utente percepisce come massimamente vicino a sÃ©, ossia piÃ¹ esterno allo schermo. Conseguentemente, il punto di â€œmassima profonditÃ â€ risulta essere il punto che lâ€™osservatore percepisce come massimamente interno allo schermo, ossia il piÃ¹ lontano da sÃ©, addirittura oltre il piano dello schermo.

In figura 1, il dispositivo 100 riceve in ingresso due sequenze dâ€™immagini 102 e 103, ad esempio due flussi video, destinate rispettivamente allâ€™occhio sinistro (L) ed allâ€™occhio destro (R), ed una sequenza di mappe di profonditÃ 106. Ogni mappa di profonditÃ della sequenza 106 Ã ̈ associata ad una coppia di immagini destra e sinistra appartenenti rispettivamente alle sequenze 102 e 103. In questa forma di realizzazione, la mappa di profonditÃ viene generata mediante algoritmi di per sÃ© noti che confrontano unâ€™immagine destra ed unâ€™immagine sinistra e restituiscono una matrice (la mappa di profonditÃ appunto) di dimensioni pari ai pixel di una delle due immagini confrontate, ed i cui elementi hanno un valore proporzionale alla profonditÃ di ogni singolo pixel visualizzato. Unâ€™altra tecnica per generare la mappa di profonditÃ si basa sulla misurazione della distanza degli oggetti presenti sulla scena dalla coppia di telecamere che effettuano la ripresa: questa distanza puÃ² essere agevolmente misurata mediante laser. In caso di flussi video artificiali generati con lâ€™ausilio di calcolatori elettronici le telecamere sono virtuali in quanto costituiti da due punti di vista di una determinata scena creata artificialmente dal calcolatore. In unâ€™altra forma di realizzazione, una mappa di profonditÃ viene associata a piÃ¹ coppie di immagini destra e sinistra; in questo caso il valore di ogni elemento della mappa di profonditÃ Ã ̈ scelto essere il valore di minima profonditÃ del pixel nei differenti fotogrammi. Preferibilmente, in questa forma di realizzazione la mappa di profonditÃ viene inserita una volta per ogni gruppo di frame cui Ã ̈ associata, cosÃ¬ da ridurre il carico del dispositivo 100, il quale riceve in ingresso anche unâ€™informazione che permette di associare una mappa di profonditÃ a piÃ¹ coppie di immagini destra e sinistra.

In alternativa allâ€™esempio di figura 1, le mappe di profonditÃ della sequenza 106 possono essere generate internamente al dispositivo 100. In questo caso il dispositivo 100 comprende un modulo apposito che riceve in ingresso le immagini L ed R delle sequenze 102 e 103 e genera corrispondenti mappe di profonditÃ .

Il dispositivo 100 permette di realizzare un metodo di multiplexing di due immagini delle due sequenze 102 e 103 e della mappa di profonditÃ della sequenza 106.

Al fine di eseguire il metodo di multiplexing delle immagini destra e sinistra e della mappa di profonditÃ , il dispositivo 100 comprende un modulo di scomposizione 104 per scomporre unâ€™immagine ricevuta in ingresso (nellâ€™esempio di figura 1 lâ€™immagine destra) in una pluralitÃ di sottoimmagini corrispondenti ognuna ad una regione dellâ€™immagine ricevuta in ingresso, un modulo di sottocampionamento e filtraggio 107 per elaborare la mappa di profonditÃ , ed un modulo di assemblaggio 105 in grado di inserire i pixel dâ€™immagini ricevute in ingresso, compresa la mappa di profonditÃ , in unâ€™unica immagine composita che viene fornita in uscita. Nel caso non sia necessaria alcuna elaborazione della sequenza 106, il modulo 107 puÃ² essere omesso. Questo puÃ² accadere, ad es. nel caso in cui la mappa di profonditÃ sia generata mediante laser ed abbia giÃ in partenza una risoluzione ridotta rispetto a quella delle immagini L ed R.

Un esempio di un metodo di multiplexing eseguito dal dispositivo 100 viene ora descritto con riferimento alla figura 2.

Il metodo inizia al passo 200, successivamente (passo 201) una delle due immagini (destra o sinistra) in ingresso, viene scomposta in una pluralitÃ di regioni come mostrato in figura 3. Nellâ€™esempio di figura 3 lâ€™immagine scomposta Ã ̈ un fotogramma R di un flusso video 720p, ossia formato progressivo con risoluzione 1280 x 720 pixel, 25/30 fps (fotogrammi per secondo).

Il fotogramma R di figura 3 proviene dal flusso video 103 che trasporta le immagini destinate allâ€™occhio destro e viene scomposto in tre regioni R1, R2 ed R3.

La scomposizione dellâ€™immagine R avviene dividendola in due porzioni di uguali dimensioni e successivamente dividendo una di queste due porzioni in due porzioni di uguali dimensioni.

La regione R1 ha dimensione 640x720 ed Ã ̈ ottenuta prendendo tutti i primi 640 pixel di ogni riga. La regione R2 ha dimensione 640x360 ed Ã ̈ ottenuta prendendo i pixel da 641 a 720 delle prime 360 righe. La regione R3 ha dimensione 640x360 ed Ã ̈ ottenuta prendendo i rimanenti pixel dellâ€™immagine R, ossia i pixel da 641 a 720 delle ultime 360 righe.

Nellâ€™esempio di figura 1 lâ€™operazione di scomposizione dellâ€™immagine R viene eseguita dal modulo 104, che riceve in ingresso unâ€™immagine R (in questo caso il fotogramma R) e fornisce in uscita tre sottoimmagini (ossia tre gruppi di pixel) corrispondenti alle tre regioni R1, R2 ed R3.

Successivamente (passi 202, 203 e 205) viene costruita lâ€™immagine composita C comprendente le informazioni delle due immagini destra e sinistra e della mappa di profonditÃ ricevute in ingresso; nellâ€™esempio qui di seguito descritto, tale immagine composita C costituisce un fotogramma del flusso video stereoscopico in uscita, e pertanto viene anche detta fotogramma contenitore.

Innanzi tutto (passo 202) lâ€™immagine ricevuta in ingresso dal dispositivo 100 e non scomposta dal dispositivo 105 (nellâ€™esempio di figura 1 lâ€™immagine sinistra L) viene inserita senza alterazioni allâ€™interno di un fotogramma contenitore di dimensioni tale da comprendere tutti i pixel delle due immagini ricevute in ingresso. Ad esempio, se le immagini ricevute in ingresso hanno dimensione 1280x720 pixel, allora un fotogramma contenitore adatto a contenerle entrambe Ã ̈ un fotogramma con 1920x1080 pixel, ad esempio un fotogramma di un flusso video di tipo 1080p (formato progressivo 1920 x 1080 pixel, 25/30 fotogrammi al secondo).

Nellâ€™esempio di figura 4, lâ€™immagine sinistra L viene inserita nel fotogramma contenitore C posizionandola in alto a sinistra. CiÃ² Ã ̈ ottenuto copiando i 1280x720 pixel dellâ€™immagine L in unâ€™area C1 costituita dai primi 1280 pixel delle prime 720 righe del fotogramma contenitore C. Nel prosieguo della presente descrizione, quando si fa riferimento allâ€™inserimento di unâ€™immagine allâ€™interno di un fotogramma, o al trasferimento o copiatura di pixel da un fotogramma ad un altro, sâ€™intende fare riferimento ad una procedura per cui si genera (con mezzi hardware e/o software) un nuovo fotogramma comprendente dei pixel uguali a quelli dellâ€™immagine sorgente.

Ai fini della presente descrizione le tecniche (software e/o hardware) per riprodurre in unâ€™immagine destinazione unâ€™immagine sorgente (o un gruppo di pixel di unâ€™immagine sorgente) sono ritenute irrilevanti e non vengono qui approfondite in quanto di per sÃ© note ad un tecnico del settore.

Successivamente, passo 203, lâ€™immagine scomposta al passo 201 dal modulo 104 viene inserita nel fotogramma contenitore. CiÃ² viene ottenuto dal modulo 105 copiando i pixel dellâ€™immagine scomposta allâ€™interno del fotogramma contenitore C nelle aree non occupate dallâ€™immagine L, ossia esterne allâ€™area C1.

Al fine di garantire la miglior compressione possibile e ridurre la generazione di artefatti in fase di decompressione del flusso video, i pixel delle sottoimmagini in uscita dal modulo 104 vengono copiati mantenendo le rispettive relazioni spaziali. In altre parole le regioni R1, R2 ed R3 vengono copiate in rispettive aree del fotogramma C senza alcuna deformazione, prevedendo esclusivamente operazioni di traslazione e/o rotazione.

Un esempio del fotogramma contenitore C in uscita dal modulo 105 Ã ̈ mostrato in figura 5.

La regione R1 viene copiata negli ultimi 640 pixel delle prime 720 righe (area C2), affiancata cioÃ ̈ allâ€™immagine L precedentemente copiata.

Le regioni R2 ed R3 vengono copiate al di sotto dellâ€™area C1, rispettivamente nelle aree C3 e C4 comprendenti rispettivamente i primi 640 pixel ed i successivi 640 pixel delle ultime 360 righe.

In alternativa a quanto mostrato in figura 5, le regioni R2 ed R3 possono essere copiate nel fotogramma contenitore C in aree disgiunte (ossia non sovrapposte e non confinanti) separate da un gruppo di pixel, in modo tale da ridurre le regioni di confine.

Le operazioni dâ€™inserimento delle immagini L ed R nel fotogramma contenitore non comportano alcuna alterazione del bilanciamento tra risoluzione orizzontale e verticale. Nei pixel liberi del fotogramma C, cioÃ ̈ nellâ€™area C5, Ã ̈ inserita, sotto forma dâ€™immagine, la mappa di profonditÃ (DM) relativa alla coppia stereoscopica L ed R (passo 205), sempre ad opera del modulo 105. Prima del passo 205, Ã ̈ possibile che la mappa di profonditÃ DM venga sotto campionata, filtrata o ulteriormente elaborata dal modulo 107.

La mappa di profonditÃ Ã ̈ preferibilmente codificata come unâ€™immagine in scala di grigi, il cui contenuto informativo puÃ² quindi essere trasportato dal solo segnale di luminanza, le crominanze essendo nulle; ciÃ² consente una compressione efficace del fotogramma contenitore C.

Come mostrato nellâ€™esempio di figura 5, preferibilmente la mappa di profonditÃ inserita nel fotogramma C Ã ̈ una mappa di profonditÃ per la sovraimpressione di immagini, ed ha quindi una risoluzione minore rispetto a quella della coppia L ed R, poichÃ© essa Ã ̈ utilizzata per posizionare le sovraimpressioni e non per generare il flusso video stereoscopico. La scelta della risoluzione della mappa di profonditÃ Ã ̈ il risultato del compromesso tra bit rate necessario al trasferimento, che si desidera il piÃ¹ basso possibile, e la qualitÃ dellâ€™informazione necessaria a posizionare adeguatamente le sovraimpressioni.

In una forma di realizzazione preferita la mappa di profonditÃ per la sovraimpressione DM ha una risoluzione pari a 640 x 360 pixel, corrispondente al sottocampionamento (o decimazione) 4 a 1 della mappa di profonditÃ originale avente risoluzione pari a 1280 x 720 pixel, coincidente con quella delle immagini L ed R. Ad ogni pixel della mappa sotto campionata DM corrisponde una regione di 2 x 2 pixel della mappa originale. In particolare lâ€™operazione di sottocampionamento 4 a 1 puÃ² essere effettuata selezionando una riga ogni due ed una colonna ogni due della mappa originale.

In unâ€™altra forma di realizzazione, dopo la decimazione la mappa di profonditÃ per la sovraimpressione DM subisce unâ€™elaborazione che consiste nel dividerla in macroblocchi di 16 x 16 pixel ed assegnare ai pixel del medesimo macroblocco un unico valore di profonditÃ . Preferibilmente questo valore Ã ̈ pari alla minima profonditÃ allâ€™interno del macroblocco, poichÃ© Ã ̈ il valore piÃ¹ significativo ai fini del corretto posizionamento delle sovraimpressioni.

Alternativamente questo valore Ã ̈ pari al valor medio di profonditÃ allâ€™interno del macroblocco.

La scelta di utilizzare macroblocchi di dimensione 16 x 16 pixel Ã ̈ particolarmente vantaggiosa nel caso in cui lo standard di compressione sia H.264, poichÃ© questi macroblocchi coincidono con quelli usati nello standard H.264. Infatti con questa soluzione, la compressione genera meno artefatti e necessita di un bit rate minore.

Anche la suddivisione in blocchi di dimensioni 8 x 8 oppure 4 x 4 puÃ² considerarsi vantaggiosa, in quanto, per le particolari caratteristiche dellâ€™algoritmo di compressione H.264, si ottengono vantaggi nella compressione se allâ€™interno di questi blocchi i pixel sono tutti uguali. Alternativamente, rinunciando alla suddivisione in blocchi o macroblocchi al cui interno i pixel sono tutti uguali, si puÃ² filtrare la mappa di profonditÃ di dimensioni 640 x 360 con un filtro passa-basso bidimensionale. Anche in questo caso si ottengono vantaggi nella compressione, in quanto vengono eliminate o ridotte le frequenze spaziali piÃ¹ elevate.

Alternativamente la mappa di profonditÃ puÃ² avere una risoluzione di 160 x 90 pixel, risultato di un sottocampionamento 64 a 1, in cui ogni pixel della mappa di profonditÃ DM corrisponde ad una regione 8 x 8 della mappa originale.

In unâ€™ulteriore forma di realizzazione, la mappa di profonditÃ per la sovraimpressione DM inserita nel fotogramma contenitore C, puÃ² avere una risoluzione non uniforme, in particolare la metÃ o il terzo inferiore della mappa di profonditÃ per la sovraimpressione ha risoluzione maggiore della parte superiore. Questa soluzione risulta particolarmente vantaggiosa per il posizionamento dei sottotitoli o di informazioni quali il volume dellâ€™audio che vengono generalmente posti nella parte inferiore dellâ€™immagine. Il ricevitore ha quindi a disposizione unâ€™informazione piÃ¹ precisa sulla profonditÃ dei pixel in una regione dâ€™interesse, ad esempio il terzo inferiore dellâ€™immagine 3D, e puÃ² cosÃ¬ posizionare in modo corretto delle immagini (testo o grafica) in questa regione. Al limite, la mappa di profonditÃ per la sovraimpressione puÃ² contenere solo informazioni sulla profonditÃ di pixel (tutti o solo una parte) posti in una regione dâ€™interesse, in particolare nella metÃ inferiore, o nel terzo inferiore del contenuto tridimensionale.

In unâ€™ulteriore forma di realizzazione, una regione del fotogramma contenitore non occupata dalle immagini destra o sinistra, da loro parti o dalla mappa di profonditÃ per la sovraimpressione, viene destinata a ricevere una segnalazione necessaria alla ricostruzione delle immagini destra e sinistra a livello di demultiplexer. Ad esempio, tale segnalazione puÃ² essere relativa al modo con cui Ã ̈ stata formata lâ€™immagine composita. Preferibilmente la segnalazione puÃ² contenere informazioni utili al corretto utilizzo della mappa di profonditÃ .

I pixel di questa regione di segnalazione vengono, ad esempio, colorati con due colori (ad esempio bianco e nero) in modo tale da realizzare un codice a barre di qualsiasi tipo, per esempio lineare o bidimensionale che trasporta lâ€™informazione relativa alla segnalazione.

Completato il trasferimento delle due immagini e della mappa di profonditÃ per la sovraimpressione ricevute in ingresso (ed eventualmente della segnalazione) nel fotogramma contenitore, il metodo realizzato dal dispositivo 100 termina ed il fotogramma contenitore puÃ² essere compresso e trasmesso su un canale di comunicazione e/o registrato su un opportuno supporto (ad es. CD, DVD, Blu-ray, memorie di massa, eccâ€¦).

Dato che le operazioni di multiplexing sopra esposte non alterano le relazioni spaziali tra i pixel di una medesima regione o immagine, Ã ̈ possibile comprimere notevolmente il flusso video in uscita dal dispositivo 100 mantenendo alta la possibilitÃ di ricostruire lâ€™immagine in modo molto fedele rispetto a quella trasmessa senza creare artefatti significativi.

Prima di passare alla descrizione di ulteriori forme di realizzazione, si sottolinea che, nella forma di realizzazione preferita, la divisione del fotogramma R in tre regioni R1, R2 ed R3, corrisponde alla divisione del fotogramma nel numero minimo possibile di regioni tenuto conto dello spazio disponibile nellâ€™immagine composita e dello spazio occupato dallâ€™immagine sinistra inserita senza alterazioni nel fotogramma contenitore.

Tale numero minimo Ã ̈, in altre parole, il numero minimo di regioni necessario per occupare lo spazio lasciato libero dallâ€™immagine sinistra nel fotogramma contenitore C.

In generale, quindi, in funzione del formato delle immagini sorgenti (immagini destra e sinistra) e dellâ€™immagine composita (fotogramma contenitore C) di destinazione, sâ€™individua il numero minimo di regioni in cui dividere lâ€™immagine da scomporre.

Preferibilmente, la scomposizione dellâ€™immagine da inserire nel fotogramma contenitore viene effettuata tenendo conto della necessitÃ di scomporre lâ€™immagine (ad esempio R nellâ€™esempio sopra descritto) nel numero minimo di regioni rettangolari.

In unâ€™ulteriore forma di realizzazione, lâ€™immagine destra R viene scomposta come mostrato in figura 6.

La regione R1â€™ corrisponde alla regione R1 di figura 3 e comprende quindi i primi 640 pixel di tutte le 720 righe dellâ€™immagine.

La regione R2â€™ comprende le 320 colonne di pixel adiacenti alla regione R1â€™, mentre la regione R3â€™ comprende le ultime 320 colonne di pixel.

In questo modo il fotogramma contenitore C puÃ² essere costruito come mostrato in figura 7, con le regioni R2â€™ ed R3â€™ ruotate di 90° per essere disposte nelle aree C3â€™ e C4â€™ al di sotto dellâ€™immagine L e della regione R1â€™.

Le regioni R2â€™ ed R3â€™ cosÃ¬ ruotate occupano 720 pixel di 320 righe, pertanto le aree C3â€™ e C4â€™ sono separate dalle aree C1 e C2 che contengono i pixel copiati dallâ€™immagine L e dalla regione R1â€™.

Preferibilmente le aree C3â€™ e C4â€™ sono separate dalle altre aree C1 e C2 mediante almeno una riga di salvaguardia. In particolare risulta vantaggioso e preferito il copiare i pixel delle regioni R2â€™ ed R3â€™ nelle ultime righe del fotogramma contenitore C.

Essendo in questo caso il fotogramma contenitore composto da 1080 righe, nellâ€™esempio di realizzazione di figura 7 le regioni ruotate R2â€™ e R3â€™ sono separate dallâ€™immagine L e dalla regione R1â€™ soprastanti da una fascia di salvaguardia alta 40 pixel.

Nellâ€™esempio di figura 7 le regioni R2â€™ ed R3â€™ sono tra loro separate, cosicchÃ© risultano contornate da pixel di un colore predefinito (ad esempio bianco o nero) non provenienti dalle immagini destra e sinistra. In questo modo si riducono le zone di confine tra regioni contenenti pixel provenienti dalle immagini destra e sinistra e si riducono gli artefatti dovuti alla compressione dellâ€™immagine, massimizzando nel contempo il fattore di compressione.

In alternativa al posizionare R2â€™ ed R3â€™ nelle ultime righe del fotogramma contenitore C (come illustrato con riferimento alla figura 7), in una forma di realizzazione preferita R2â€™ ed R3â€™ vengono posizionate in modo tale da lasciare una fascia di salvaguardia alta 32 righe di pixel tra il bordo inferiore di L e quello superiore di R2â€™ ed R3â€™. In questo modo si ricava una seconda fascia di salvaguardia alta 8 righe di pixel tra il bordo inferiore di R2â€™ ed R3â€™ ed il bordo inferiore di C. Sfruttando ulteriormente la larghezza del fotogramma contenitore, Ã ̈ possibile posizionare R2â€™ ed R3â€™ in modo tale che esse risultano completamente contornate da pixel non provenienti nÃ© dallâ€™immagine destra nÃ© dallâ€™immagine sinistra.

Infine, nellâ€™area C5â€™ nellâ€™angolo in basso a destra del fotogramma C, Ã ̈ inserita la mappa di profonditÃ per la sovraimpressione (DMâ€™) con risoluzione pari a 160 x 90 pixel, ottenuta sottocampionando la mappa di profonditÃ originale come descritto in precedenza. In generale la mappa di profonditÃ per le sovraimpressioni puÃ² avere una qualsiasi risoluzione tale da essere contenuta in uno spazio libero del fotogramma C. Per sfruttare al meglio lo spazio libero, la mappa di profonditÃ per le sovraimpressioni puÃ² subire unâ€™operazione di rotazione e/o scomposizione prima di essere inserita nel fotogramma C. In unâ€™ulteriore forma di realizzazione, qui descritta con riferimento alle figure 8 e 9, il modulo 104 estrae tre sottoimmagini R1â€ , R2â€ ed R3â€ la cui somma complessiva dei pixel Ã ̈ superiore a quella dellâ€™immagine scomposta.

La regione R1â€ corrisponde alla regione R1â€™ di figura 6, mentre R2â€ ed R3â€ includono lâ€™area delle regioni R2â€™ ed R3â€™ oltre unâ€™area aggiuntiva (Ra2 e Ra3) che permette di minimizzare la creazione di artefatti in fase di compressione dellâ€™immagine.

Il segmento R1â€ Ã ̈ quindi una regione di dimensione 640 x 720 pixel che occupa le prime colonne del fotogramma R da scomporre.

Il segmento R3â€ occupa le ultime colonne del fotogramma R da scomporre e confina con la regione centrale R2â€ . R3â€ comprende sul lato sinistro (quello di confine con R2â€ ) una fascia tampone Ra3 contenente pixel in comune alla regione R2â€ . In altre parole, le ultime colonne di R2â€ e le prime di R3â€ (costituenti la fascia tampone Ra3) coincidono.

Preferibilmente la dimensione della fascia tampone Ra3 viene scelta in funzione del tipo di compressione che verrÃ successivamente applicato al fotogramma contenitore C ed in generale al flusso video che lo contiene. In particolare, tale fascia ha dimensione doppia rispetto allâ€™unitÃ elaborativa elementare utilizzata nel processo di compressione. Ad esempio, lo standard H.264 prevede la scomposizione dellâ€™immagine in macroblocchi di 16x16 pixel, ognuno dei quali costituisce lâ€™unitÃ elaborativa elementare di questo standard. In questa ipotesi, la fascia Ra3 ha una larghezza di 32 pixel. Il segmento R3â€ ha quindi dimensione 352 (320+32)x720 pixel e comprende i pixel delle ultime 352 colonne dellâ€™immagine R.

Il segmento R2â€ occupa invece la parte centrale dellâ€™immagine R da scomporre ed include, sul lato di sinistra, una fascia tampone Ra2 di dimensioni uguali a quelle della fascia Ra3. Nellâ€™esempio di compressione H.264 la fascia Ra2 Ã ̈ quindi larga 32 pixel e comprende pixel in comune con la regione R1â€ . Il segmento R2â€ ha quindi dimensione 352x720 e comprende i pixel delle colonne da 608 (640 di R1â€ -32) a 978 del fotogramma R.

Le tre sottoimmagini relative alle regioni R1â€ , R2â€ ed R3â€ in uscita dal modulo 104 (visibili in figura 8) vengono quindi inserite nel fotogramma contenitore C come mostrato in figura 9. Le regioni R2â€ ed R3â€ vengono ruotate di 90° ed i pixel copiati nelle ultime righe del fotogramma C (aree indicate dai riferimenti C3â€ e C4â€ ) prevedendo un certo numero di pixel di salvaguardia che separano le aree C3â€ e C4â€ dalle aree C1 e C2 che comprendono i pixel delle immagini L ed R1â€ . Nel caso di figura 9 questa fascia di salvaguardia Ã ̈ larga 8 pixel.

Anche in questa forma di realizzazione, nellâ€™area C5â€™ nellâ€™angolo in basso a destra del fotogramma C, Ã ̈ inserita la mappa di profonditÃ per la sovraimpressione (DMâ€™).

Il fotogramma C cosÃ¬ ottenuto viene successivamente compresso e trasmesso o salvato su un supporto (ad esempio un DVD). A questo fine vengono previsti mezzi di compressione atti a comprimere unâ€™immagine o un segnale video e mezzi per registrare e/o trasmettere lâ€™immagine o il segnale video cosÃ¬ compresso.

In figura 10 viene mostrato lo schema a blocchi di un ricevitore 1100 che decomprime il fotogramma contenitore, eventualmente compresso, ricevuto o letto dal supporto e ricostruisce le due immagini destra e sinistra rendendole disponibili, unitamente alla relativa mappa di profonditÃ per la sovraimpressione, ad un dispositivo di visualizzazione (ad esempio un televisore) che permette la fruizione di contenuti 3D con immagini sovrapposte ad un contenuto video. Il ricevitore 1100 puÃ² essere un set-topbox o un ricevitore integrato in un televisore. Eâ€™ da notare che, nel caso in cui il ricevitore 1100 sia un settop-box non integrato nel televisore, esso dovrÃ utilizzare al suo interno la mappa di profonditÃ per posizionare correttamente la grafica generata da lui stesso (ad es. i sottotitoli, lâ€™EPG ed i suoi menu). In aggiunta, il ricevitore 1100 dovrÃ inviare la mappa di profonditÃ (ad es. tramite lâ€™interfaccia HDMI) al televisore, in quanto il televisore ne ha bisogno per posizionare correttamente la grafica da lui generata (ad es. i suoi menu).

Considerazioni analoghe a quelle che vengono ora qui fatte per il ricevitore 1100 si applicano ad un lettore (ad es. un lettore DVD) che legge un fotogramma contenitore, eventualmente compresso, e lo elabora al fine di ottenere una coppia di fotogrammi corrispondenti alle immagini destra e sinistra inserite nel fotogramma contenitore, eventualmente compresso letto dal lettore.

Tornando ora alla figura 10, il ricevitore riceve (via cavo o antenna) un flusso video stereoscopico compresso 1101, e lo decomprime mediante un modulo di decompressione 1102, ottenendo cosÃ¬ un flusso video comprendente una sequenza di fotogrammi Câ€™ corrispondenti ai fotogrammi C. Nel caso di canale ideale o in caso di lettura di fotogrammi contenitori da una memoria di massa o da un supporto di dati (Blu-ray, CD, DVD), a parte eventuali artefatti introdotti dalla compressione, i fotogrammi Câ€™ corrispondono ai fotogrammi contenitore C che trasportano le informazioni relative alle due immagini destra e sinistra ed alla mappa di profonditÃ per la sovraimpressione.

Questi fotogrammi Câ€™ vengono forniti ad un modulo di ricostruzione 1103 che esegue un metodo di ricostruzione delle immagini e di estrazione della mappa di profonditÃ , qui di seguito descritto con riferimento alle figure 11 e 12.

Chiaramente se il flusso video non fosse compresso, il modulo di decompressione 1102 puÃ² essere omesso ed il segnale video essere fornito direttamente al modulo di ricostruzione 1103.

Il processo di ricostruzione inizia al passo 1300 quando viene ricevuto il fotogramma contenitore Câ€™ decompresso. Il modulo di ricostruzione 1103 estrae (passo 1301) lâ€™immagine sinistra L copiando i primi 720x 1080 pixel del fotogramma decompresso allâ€™interno di un nuovo fotogramma di dimensioni inferiori rispetto al fotogramma contenitore, ad esempio un fotogramma di un flusso 720p. Lâ€™immagine L cosÃ¬ ricostruita viene fornita in uscita al ricevitore 1100 (passo 1302).

Successivamente si passa allâ€™estrazione dellâ€™immagine destra R presente allâ€™interno del fotogramma contenitore Câ€™.

La fase di estrazione dellâ€™immagine destra inizia copiando (passo 1303) una porzione dellâ€™area R1â€ presente nel fotogramma Câ€™. In dettaglio, si prendono i pixel delle prime 624(640-16) colonne di R1â€ e li si copia nelle corrispondenti prime 624 colonne del nuovo fotogramma che rappresenta lâ€™immagine Rout ricostruita, come mostrato in figura 11. Con questa operazione, si vanno, di fatto, a rimuovere dalla fase di ricostruzione le 16 colonne di R1â€ piÃ¹ soggette alla creazione di artefatti, ad esempio per effetto della procedura di motion estimation prevista dallo standard di compressione H.264.

Successivamente si estrae una porzione centrale di R2â€ (passo 1304). Dal fotogramma Câ€™ decompresso (che come abbiamo detto corrisponde al fotogramma C di figura 9) si selezionano i pixel dellâ€™area C3â€ (corrispondenti alla regione sorgente R2â€ ) e si esegue una rotazione di 90° inversa a quella effettuata nel multiplexer 100, che li riporta nella condizione di righe e colonne originaria, ossia quella di figura 8. A questo punto si eliminano le prime e le ultime sedici (16) colonne di R2â€ e si copiano le rimanenti 352-32=320 colonne di pixel nelle colonne libere adiacenti a quelle appena copiate da R1â€ .

Tagliando le 16 colonne piÃ¹ esterne della regione R2â€ si eliminano quelle colonne dove Ã ̈ maggiormente probabile la formazione di artefatti. La larghezza dellâ€™area tagliata (in questo caso 16 colonne) dipende dal tipo di compressione utilizzata. Tale area Ã ̈ preferibilmente pari allâ€™unitÃ elementare di elaborazione utilizzata dal processo di compressione; nel caso qui descritto lo standard H.264 lavora su blocchi di dimensione 16x16 e quindi si tagliano 16 colonne.

Per quanto riguarda R3â€ (passo 1305), si estraggono dal fotogramma Câ€™ i pixel della regione C4â€ e si riporta la sottoimmagine R3â€ nel formato righe colonne originario (vedi figura 8). Successivamente si eliminano le prime 16 colonne di pixel (corrispondenti a metÃ dellâ€™area Ra3) e si copiano le rimanenti 352-16=336 colonne di pixel nelle ultime colonne libere a sinistra del fotogramma ricostruito. Come per R2â€ , anche per R3â€ lâ€™ area tagliata Ã ̈ pari allâ€™unitÃ elementare di elaborazione utilizzata dal processo di compressione.

Chiaramente, sia per la regione R2â€ che per quella R3â€ lâ€™operazione di rotazione puÃ² essere eseguita in modo virtuale, vale a dire che il medesimo risultato di estrazione dei pixel dâ€™interesse puÃ² essere ottenuto riportando nel fotogramma ricostruito i pixel di una riga dellâ€™area C3â€ (se R2â€ , C4â€ se R3â€ ) allâ€™interno di una colonna del nuovo fotogramma Rout, ad esclusione delle ultime 16 righe dellâ€™area C3â€ (se R2â€ , C4â€ se R3â€ ) che corrispondono alle sedici colonne da tagliare mostrate in figura 8.

A questo punto lâ€™immagine destra Rout Ã ̈ stata completamente ricostruita e puÃ² essere fornita in uscita (passo 1306). Infine, il modulo di ricostruzione 1103 estrae (passo 1308) la mappa di profonditÃ per la sovraimpressione DMâ€™ copiando in un registro i valori di luminanza degli ultimi 160 x 90 pixel del fotogramma contenitore decompresso Câ€™, corrispondente allâ€™area C5â€™. Il contenuto di detto registro viene fornito in uscita al ricevitore 1100 (passo 1309) e verrÃ utilizzato per definire la posizione di immagini (testo o grafica) da combinare al contenuto tridimensionale trasportato dal flusso video stereoscopico, in particolare esso verrÃ utilizzato per combinare immagini da sovraimporre al contenuto tridimensionale.

In alternativa o in aggiunta al fornire in uscita il contenuto della mappa di profonditÃ e le immagini L ed R estratte dai fotogrammi ricevuti in ingresso, il ricevitore 1100 comprende un generatore di caratteri e/o un generatore grafico e combina delle immagini alle immagini L ed R, ossia al contenuto tridimensionale. Le immagini da combinare vengono selezionate da unâ€™area di memoria del ricevitore e possono essere memorizzate in fase di produzione del ricevitore (ad esempio la grafica di alcuni menÃ¹ o dei numeri di canale) o essere estratte dal flusso video (ad esempio le informazioni sulla guida programmi ed i sottotitoli).

Queste immagini vengono combinate al contenuto tridimensionale in posizioni che dipendono dalle mappe di profonditÃ per la sovraimpressione estratte dal flusso video. In particolare per ogni immagine stereoscopica (prodotta dalla coppia di immagini L ed R) lâ€™immagine combinata viene posta nel punto di minima profonditÃ dellâ€™immagine stereoscopica.

A seguito della combinazione delle immagini con il contenuto 3D, in questa forma di realizzazione il ricevitore 1100 genera in uscita una coppia di immagini L* ed R* che, quando riprodotte, verranno percepite dallâ€™utente come un contenuto tridimensionale corrispondente a quello originario (prodotto dalle immagini L ed R) cui sono sovrapposte delle immagini, per es. sottotitoli, menÃ¹, grafiche, eccâ€¦

Il processo di ricostruzione delle immagini destra e sinistra e della mappa di profonditÃ presenti nel fotogramma contenitore Câ€™ termina (passo 1307). Tale processo viene ripetuto per ogni fotogramma del flusso video ricevuto dal ricevitore 1100, cosicchÃ© in uscita si hanno due flussi video 1104 e 1105 rispettivamente per le due immagini destra e sinistra, ed un segnale dati dedotto dalla mappa di profonditÃ per la sovraimpressione.

Il processo di ricostruzione delle immagini destra e sinistra e della mappa di profonditÃ per la sovraimpressione sopra descritto con riferimento alle figure 10, 11 e 12, parte dal presupposto che il demultiplexer 1100 conosca il modo in cui viene costruito il fotogramma contenitore C e possa procedere ad estrarre le immagini destra e sinistra e la mappa di profonditÃ per la sovraimpressione.

Chiaramente ciÃ² Ã ̈ possibile se il metodo di multiplexing Ã ̈ standardizzato.

Per tenere conto del fatto che il fotogramma contenitore puÃ² essere generato in uno qualsiasi dei metodi sopra descritti, o comunque secondo uno qualsiasi dei metodi che utilizzano lâ€™idea di soluzione oggetto delle rivendicazioni allegate, il demultiplexer utilizza lâ€™informazione di segnalazione presente in una regione predefinita dellâ€™immagine composita (ad es. un codice a barre come sopra descritto) per comprendere come spacchettare il contenuto dellâ€™immagine composita e ricostruire le immagini destra e sinistra e la mappa di profonditÃ per la sovraimpressione.

Decodificata la segnalazione, il demultiplexer conosce la posizione dellâ€™immagine lasciata inalterata (ad esempio lâ€™immagine sinistra negli esempi sopra descritti), la posizione e lâ€™eventuale trasformazione (rotazione, traslazione o altro) delle regioni in cui Ã ̈ stata scomposta lâ€™altra immagine (ad esempio lâ€™immagine destra negli esempi sopra descritti) e la posizione della mappa di profonditÃ per la sovraimpressione.

Con queste informazioni, il demultiplexer puÃ² quindi estrarre lâ€™immagine inalterata (ad es. quella sinistra) e la mappa di profonditÃ e ricostruire lâ€™immagine scomposta (ad es. lâ€™immagine destra).

Nonostante la presente invenzione si stata illustrata con riferimento ad alcuni esempi di realizzazione preferiti e vantaggiosi, Ã ̈ chiaro che essa non Ã ̈ limitata a tali esempi di realizzazione e molte varianti possono essere apportate dal tecnico del settore che volesse combinare in unâ€™immagine composita due immagini relative a due diverse prospettive (destra e sinistra) di un oggetto o una scena. Ad esempio i moduli elettronici che realizzano i dispositivi sopra descritti, in particolare il dispositivo 100 ed il ricevitore 1100, possono essere in vario modo scomposti e distribuiti; inoltre essi possono essere realizzati come moduli hardware o essere degli algoritmi software implementati da un processore, in particolare un processore video provvisto di opportune aree di memoria per la memorizzazione temporanea dei fotogrammi ricevuti in ingresso. Questi moduli possono quindi eseguire in parallelo o in serie una o piÃ¹ delle elaborazioni video previste dai metodi di multiplexing e demultiplexing delle immagini secondo la presente invenzione.

Eâ€™ poi chiaro che nonostante gli esempi di realizzazione preferiti si riferiscano al multiplexing di due flussi video 720p in un flusso video 1080p, Ã ̈ chiaro che altri formati possono essere utilizzati, quali per esempio due flussi video 640x480 in un flusso video 1280x720 oppure due flussi video 320x200 in un flusso video 640x480.

Lâ€™invenzione non Ã ̈ poi limitata al particolare modo di composizione dellâ€™immagine composita, anche se differenti soluzioni di generazione dellâ€™immagine composita possono presentare diversi vantaggi.

Ad esempio, le forme di realizzazione sopra descritte con riferimento alle figure da 1 a 12 presentano il vantaggio di prevedere solamente operazioni di traslazione o di rototraslazione e richiedono quindi una ridotta capacitÃ computazionale.

Alternativamente Ã ̈ possibile prevedere, in aggiunta a queste operazioni di rotazione e/o traslazione, delle operazioni di inversione speculare delle immagini per ottenere unâ€™immagine composita del tipo mostrato in figura 13.

Queste operazioni aggiuntive vengono eseguite per massimizzare i perimetri di confine tra regioni che contengono pixel omologhi, sfruttandone la forte correlazione sussistente per minimizzare gli artefatti introdotti dalla successiva compressione. Nellâ€™esempio di figure 13 e 14, per chiarezza di esposizione si Ã ̈ supposto che le due immagini destra e sinistra siano identiche anche se in generale esse differiscono, sia pure leggermente.

In questa figura, lâ€™immagine sinistra L (mostrata in figura 14a) viene posizionata in alto a destra del fotogramma contenitore C, cosÃ¬ da occupare gli ultimi 1280 pixel delle prime 720 righe. CosÃ¬ come per gli esempi prima descritti, lâ€™immagine L viene quindi copiata senza alterazioni nel fotogramma contenitore C.

Lâ€™immagine destra R viene invece scomposta secondo lâ€™esempio di figura 3; in figura 14b viene mostrata lâ€™immagine R scomposta nelle tre regioni R1, R2 ed R3.

Successivamente, alcune regioni (nellâ€™esempio di figura 14 le regioni R1 ed R3) subiscono unâ€™operazione di inversione speculare; lâ€™inversione puÃ² essere fatta rispetto ad un asse verticale (ossia parallelo ad una colonna dellâ€™immagine) o rispetto ad un asse orizzontale (ossia parallelo ad una riga dellâ€™immagine).

In caso di inversione rispetto ad un asse verticale, i pixel della colonna N (con N intero compreso tra 1 e 1080, dove 1080 Ã ̈ il numero di colonne dellâ€™immagine) vengono riportati nella colonna 1080+1-N.

In caso di inversione rispetto ad un asse orizzontale, i pixel della riga M (con M intero compreso tra 1 e 720, dove 720 Ã ̈ il numero di righe dellâ€™immagine) vengono riportati nella riga 720+1-N.

Le figure 14c e 14d mostrano la regione R1 estratta dallâ€™immagine R ed invertita (R1rot) rispetto ad un asse verticale ed in particolare rispetto ad un lato verticale. La regione invertita R1inv viene inserita nei primi 640 pixel delle prime 640 righe di pixel.

Come si puÃ² notare dallâ€™esempio di figura 13, la rotazione fa si che una volta che R1inv viene inserita nel fotogramma contenitore C, i pixel di R1inv che confinano con L sono molto simili ai pixel di L che confinano con R1inv. La correlazione spaziale tra questi pixel ha il vantaggio di ridurre la formazione di artefatti.

Le figure 14e e 14f mostrano la regione R3 estratta dallâ€™immagine R di figura 14b e successivamente invertita (R3inv) rispetto ad un asse orizzontale, in particolare rispetto ad un lato orizzontale.

La regione R3inv viene inserita negli ultimi 640 pixel delle ultime 360 righe. In questo modo si riduce la generazione di artefatti dato che i pixel delle regioni di confine tra R3inv ed L sono pixel ad elevata correlazione spaziale. I pixel di questa regione di confine riproducono, infatti, porzioni dâ€™immagine simili o identiche.

Il fotogramma contenitore C viene poi completato inserendo la regione R2.

In questo esempio R2 non viene invertita e/o ruotata perchÃ© anche invertendo e/o ruotando R2 non vi Ã ̈ modo di far combaciare una regione di confine di R2 con una regione di confine composta di pixel omologhi di unâ€™altra regione di R o di L.

Infine, Ã ̈ poi chiaro che lâ€™invenzione si riferisce inoltre a qualsiasi metodo di demultiplexing che permetta di estrarre unâ€™immagine destra ed unâ€™immagine sinistra a partire da unâ€™immagine composita invertendo uno dei processi di multiplexing sopra descritti e rientranti nellâ€™ambito di protezione della presente invenzione.

Lâ€™invenzione si riferisce quindi ad un metodo per generare una coppia dâ€™immagini a partire da unâ€™immagine composita, comprendente i passi di:

- generare una prima (ad esempio lâ€™immagine sinistra) di dette immagini destra e sinistra copiando un unico gruppo di pixel contigui da una regione di detta immagine composita,

- generare una seconda immagine (ad esempio lâ€™immagine destra) copiando altri gruppi di pixel contigui da regioni diverse di detta immagine composita.

Secondo una forma di realizzazione, si estrae lâ€™informazione per generare detta seconda immagine da unâ€™area di detta immagine composita. Detta informazione Ã ̈ preferibilmente codificata secondo un codice a barre.

In una forma di realizzazione del metodo di generazione delle immagini destra e sinistra, la generazione dellâ€™immagine che risulta scomposta allâ€™interno dellâ€™immagine composita, comprende almeno una fase di inversione speculare di gruppo di pixel di una di dette regioni diverse.

In una forma di realizzazione del metodo di generazione delle immagini destra e sinistra, la generazione dellâ€™immagine che risulta scomposta allâ€™interno dellâ€™immagine composita, comprende almeno una fase di rimozione di pixel da una delle regioni dellâ€™immagine composita che comprendono i pixel di questa immagine da ricostruire. In particolare, i pixel sono rimossi da unâ€™area di confine di questa regione.

In una forma di realizzazione, lâ€™immagine che Ã ̈ scomposta in regioni diverse dellâ€™immagine composita viene ricostruita eseguendo solamente operazioni di traslazione e/o rotazione delle regioni di pixel che comprendono i pixel dellâ€™immagine da decomporre.

Nonostante lâ€™esempio di realizzazione sopra riportato si riferisca allâ€™inserimento di una mappa di profonditÃ per le sovraimpressioni allâ€™interno di un fotogramma contenitore in cui una delle due immagini destra e sinistra Ã ̈ scomposta in piÃ¹ parti, Ã ̈ chiaro che lâ€™invenzione prescinde dal modo in cui sono formattate le due immagini destra e sinistra nel fotogramma contenitore. Ad esempio le due immagini possono entrambe essere sotto campionate e disposte affiancate (formato side-by-side) o sovrapposte (formato top-bottom) per lasciare uno spazio libero nel fotogramma ove disporre la mappa di profonditÃ per la sovraimpressione. Ancora, una tra lâ€™immagine destra e sinistra potrebbe essere lasciata inalterata e lâ€™altra essere sotto campionata per lasciare spazio alla mappa di profonditÃ .

Infine, va osservato che gli esempi di realizzazione sopra decritti con riferimento alle figure fanno riferimento ad una mappa di profonditÃ â€œinteraâ€ ossia calcolata decimando o filtrando una mappa di profonditÃ del contenuto 3D, ma senza suddividerla in parti, come ad es. puÃ² avvenire per una delle due immagini L ed R. CiÃ² non Ã ̈ comunque limitativo della presente invenzione, e la mappa di profonditÃ per la sovraimpressione, una volta generata (o ricevuta) puÃ² essere inserita nel fotogramma contenitore da un codificatore che la spezza in piÃ¹ parti che sono disposte in diverse regioni del fotogramma contenitore. Ad esempio, come noto, un codificatore H.264, per codificare un contenuto stereoscopico, deve inserire otto righe aggiuntive che saranno tagliate dal decodificatore; in una forma di realizzazione la mappa di profonditÃ per la sovraimpressione puÃ² essere inserita in queste otto righe aggiuntive dividendola ad esempio in 240 blocchi di dimensione 8x8 che riassemblati appropriatamente formano una immagine di dimensioni proporzionali al contenuto stereoscopico trasportato. Un esempio di arrangiamento dei blocchi puÃ² essere la scansione per righe di una mappa di profonditÃ decimata per 16 e quindi con una risoluzione di 120x72 nella quale strisce di 120x8 pixel vengono messe in fila per ottenere una immagine da 1080x8 pixel. In una altra forma la stessa mappa di profonditÃ decimata puÃ² essere suddivisa in un numero maggiore di strisce di altezza 8 ma ad esempio usando un offset di 6 pixel anzichÃ© 8 in modo che il contenuto sia ridondante favorendo la protezione del contenuto al confine con la immagine principale. CiÃ² appare particolarmente vantaggioso quando il contenuto stereoscopico comprende una coppia di immagini destra e sinistra multiplexate in un formato top-bottom, side-by-side o checkerboard, con risoluzione tale da occupare tutti i pixel del fotogramma potenzialmente visualizzabili, ad esempio i pixel di un formato 1920x1080. Preferibilmente, nel caso in cui il fotogramma comprenda una coppia dâ€™immagini decimate in modo asimmetrico (ad es. un formato side-by-side in cui si decimano maggiormente le colonne rispetto alle righe o un formato top-bottom in cui si decimano le righe e non le colonne), allora la mappa di profonditÃ per la sovraimpressione viene ottenuta decimando una mappa di profonditÃ con un rapporto di decimazione righe/colonne proporzionale a quello utilizzato per il campionamento delle immagini poste nel medesimo fotogramma. A titolo dâ€™esempio, si supponga di utilizzare un formato side-by-side per multiplexare le immagini destra e sinistra nel fotogramma, il rapporto di decimazione righe/colonne Ã ̈ di 1 a 2 dato che si mantengono tutte le righe e si decimano per due le colonne. In questo caso, la mappa di profonditÃ per le sovraimpressioni potrÃ essere ottenuta decimando una mappa di profonditÃ con un rapporto di decimazione righe colonne 1 a 2.

Eâ€™ chiaro poi che per segnalare al ricevitore lâ€™area occupata dalla mappa di profonditÃ Ã ̈ possibile prevedere diversi metodi oltre a quelli sopra descritti di inserire tale segnalazione nellâ€™immagine, Ã ̈ possibile inserire tale segnalazione allâ€™interno di un pacchetto dati del segnale che trasporta il flusso video.

**********

Claims

RIVENDICAZIONI 1. Metodo per sovraimporre immagini ad un contenuto tridimensionale, in cui si riceve un flusso video comprendente detto contenuto tridimensionale ed una mappa di profonditÃ per la sovraimpressione di immagini a detto contenuto tridimensionale, detta mappa di profonditÃ per la sovraimpressione contenendo informazioni relative alla profonditÃ di detto contenuto tridimensionale, si sovrappongono immagini a detto contenuto tridimensionale in una posizione che dipende da detta mappa di profonditÃ per la sovraimpressione (DM), il metodo essendo caratterizzato dal fatto che detta mappa di profonditÃ per la sovraimpressione (DM) Ã ̈ codificata in unâ€™immagine contenuta in un fotogramma (C) di detto flusso video e dal fatto che detta mappa di profonditÃ ha un numero di pixel inferiore ai pixel di unâ€™immagine bidimensionale associata a detto contenuto tridimensionale.
2. Metodo secondo la rivendicazione 1, in cui detta mappa di profonditÃ per la sovrapposizione contiene solo informazioni sulla profonditÃ di pixel posti nella metÃ inferiore, e preferibilmente nel terzo inferiore, di detto contenuto tridimensionale.
3. Metodo secondo la rivendicazione 1 o 2, in cui la mappa di profonditÃ per la sovraimpressione ha risoluzione non uniforme, in particolare la metÃ o il terzo inferiore di detta mappa di profonditÃ ha risoluzione maggiore della parte superiore.
4. Metodo secondo la rivendicazione 1 o 2 o 3, in cui detta mappa di profonditÃ per la sovraimpressione ha risoluzione inferiore ad unâ€™immagine bidimensionale associata a detto contenuto tridimensionale.
5. Metodo secondo la rivendicazione 4, in cui detto contenuto tridimensionale Ã ̈ unâ€™immagine costituita da una pluralitÃ di pixel, ed in cui detta mappa di profonditÃ Ã ̈ ottenuta sottocampionando una mappa di profonditÃ i cui elementi corrispondono alla profonditÃ dei pixel di detto contenuto tridimensionale.
6. Metodo secondo la rivendicazione 5, in cui dopo aver sottocampionato detta mappa di profonditÃ si divide la mappa sotto campionata in blocchi e si associa ad ogni pixel del blocco uno stesso valore pari alla minima profonditÃ dei pixel di detto blocco o al valor medio della profonditÃ dei pixel del blocco.
7. Metodo secondo la rivendicazione 5, in cui, prima di sottocampionare detta mappa di profonditÃ , si divide la mappa di profonditÃ in blocchi e si associa ad ogni pixel del blocco uno stesso valore pari alla minima profonditÃ dei pixel di detto blocco o al valor medio della profonditÃ dei pixel del blocco.
8. Metodo secondo la rivendicazione 6 o 7, in cui detti blocchi hanno dimensione pari ad un multiplo di un blocco elementare di 2x2 pixel.
9. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta mappa di profonditÃ per la sovraimpressione Ã ̈ inserita in una porzione di detto fotogramma destinata a non essere visualizzata.
10. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detta mappa di profonditÃ Ã ̈ scomposta in blocchi distribuiti in aree di detto fotogramma (C) non occupate da detto contenuto tridimensionale.
11. Metodo secondo una qualsiasi delle rivendicazioni precedenti, in cui detto fotogramma comprende unâ€™immagine destra, unâ€™immagine sinistra e detta mappa di profonditÃ , in cui detta mappa di profonditÃ Ã ̈ scomposta in blocchi distribuiti in regioni del fotogramma (C) non occupate da detto contenuto tridimensionale, ed in cui detto fotogramma (C) Ã ̈ codificato secondo la codifica H.264.
12. Metodo secondo una qualsiasi delle rivendicazioni da 1 a 9, in cui detto contenuto tridimensionale comprende unâ€™immagine bidimensionale ed informazioni che permettono di ricostruire lâ€™altra immagine di una coppia stereoscopica, ed in cui detta mappa di profonditÃ per la sovrimpressione Ã ̈ inserita in una porzione dellâ€™immagine bidimensionale.
13. Metodo secondo una qualsiasi delle rivendicazioni da 1 a 12, in cui detto fotogramma comprende una segnalazione atta ad indicare al ricevitore la posizione di detta mappa di profonditÃ per la sovraimpressione allâ€™interno di detto fotogramma.
14. Metodo secondo una qualsiasi delle rivendicazioni da 1 a 13, in cui detto flusso video comprende una segnalazione atta ad indicare al ricevitore la posizione di detta mappa di profonditÃ per la sovraimpressione allâ€™interno di detto fotogramma, detta segnalazione essendo esterna a detto fotogramma.
15. Dispositivo per la riproduzione di contenuti tridimensionali, comprendente mezzi atti a ricevere un flusso video contenente un contenuto tridimensionale, mezzi atti a combinare unâ€™immagine a detto contenuto tridimensionale, caratterizzato dal fatto che detti mezzi atti a combinare unâ€™immagine a detto contenuto tridimensionale sono atti ad implementare un metodo secondo una qualsiasi delle rivendicazioni da 1 a 14.
16. Flusso video stereoscopico (1101) comprendente una pluralitÃ di fotogrammi e caratterizzato dal fatto di comprendere almeno un contenuto tridimensionale ed almeno una mappa di profonditÃ per la sovraimpressione codificata come immagine allâ€™interno di un fotogramma di detta pluralitÃ di fotogrammi, detta mappa di profonditÃ per la sovraimpressione (DM) comprendendo un numero di pixel inferiore ai pixel di unâ€™immagine bidimensionale associata a detto contenuto tridimensionale. ***********