ITTO20120647A1

ITTO20120647A1 - Procedimenti e sistemi per il trattamento di immagini stereoscopiche, prodotti informatici e supporto relativi

Info

Publication number: ITTO20120647A1
Application number: IT000647A
Authority: IT
Inventors: Sebastiano Battiato; Giuseppe Digiore; Alessandro Ortis; Francesco Rundo
Original assignee: St Microelectronics Srl; Uni Degli Studi Di Catania Dipartimento Di
Priority date: 2012-07-24
Filing date: 2012-07-24
Publication date: 2014-01-25
Also published as: US20140029860A1; US9183644B2

Description

DESCRIZIONE dellâ€™invenzione industriale dal titolo:

â€œProcedimenti e sistemi per il trattamento di immagini stereoscopiche, prodotti informatici e supporto relativiâ€

TESTO DELLA DESCRIZIONE

Campo tecnico

La presente descrizione si riferisce al trattamento delle immagini stereoscopiche.

Varie forme di attuazione possono riferirsi al trattamento di immagini stereoscopiche in un contesto di formato MPO.

Varie forme di attuazione possono riferirsi al trattamento di immagini per applicazioni nel settore dellâ€™intrattenimento (entertainment).

Sfondo tecnologico

La stereoscopia Ã ̈ una tecnica di rappresentazione e proiezione di immagini (ad es. di filmati), che simula la visione binoculare dellâ€™apparato visivo umano per indurre nel cervello di chi osserva la percezione della tridimensionalitÃ .

La visione binoculare, infatti, Ã ̈ ciÃ² che permette ai nostri occhi di percepire la profonditÃ delle immagini e quindi la realtÃ in tre dimensioni.

Gli occhi umani sono posizionati ad una distanza (detta distanza interpupillare) tra i 6 e i 7 cm; la visione binoculare si basa sul fatto che gli occhi vedono la stessa scena da due posizioni differenti, il cervello â€œfondeâ€ queste due immagini e genera la profonditÃ .

Confrontando le due immagini, il cervello Ã ̈ in grado di percepire la distanza degli oggetti: piÃ¹ un oggetto risulta scostato nelle due immagini, piÃ¹ esso viene percepito come vicino o lontano. Infatti, nella proiezione stereoscopica, la percezione di profonditÃ deriva dalle differenti visioni che abbiamo tra lâ€™occhio sinistro e lâ€™occhio destro.

La visione umana utilizza spunti o segnali (cue) diversi per determinare le profonditÃ relative in una scena osservata.

Alcuni di questi segnali sono:

- la stereopsi;

- lâ€™adattamento del bulbo oculare (fuoco del bulbo oculare);

- l'occlusione di un oggetto da parte di un altro;

- lâ€™angolo di visione sotteso da un oggetto di dimensioni note;

- la prospettiva lineare (convergenza dei bordi paralleli);

- la posizione verticale (gli oggetti piÃ¹ in alto nella scena in generale tendono ad essere percepiti come piÃ¹ lontani);

- nebulositÃ (haze), desaturazione e viraggio al blu (bluishness);

- variazione della dimensione di dettaglio di una configurazione strutturata (textured).

La stereoscopia sfrutta la valorizzazione dell'illusione della profonditÃ in una fotografia, un filmato o altre immagini bidimensionali presentando un'immagine leggermente diversa per ciascun occhio aggiungendovi quindi il primo di questi segnali (stereopsi).

Vari sistemi di visualizzazione utilizzano per prospettare le immagini questo metodo inventato da Sir Charles Wheatstone nel 1838.

In varie soluzioni, le immagini stereoscopiche vengono realizzate effettuando due â€œscattiâ€ , sinistro e destro (left and right) con un dispositivo dotato di due obiettivi distanziati della distanza interpupillare media o con due dispositivi distanziati.

Le due immagini vengono proiettate facendo in modo che lâ€™immagine ripresa con lâ€™obiettivo sinistro sia vista solo dallâ€™occhio sinistro e quella ripresa con lâ€™obiettivo destro solo dallâ€™occhio destro. Nella configurazione piÃ¹ semplice si applicano due filtri polarizzati (occhiali polarizzati). Questi filtri modificano la polarizzazione della luce in modo che ogni occhio veda esclusivamente lo scatto catturato dal relativo dispositivo. Il cervello dello spettatore avrÃ quindi lâ€™illusione che lâ€™immagine sia posizionata nel punto di convergenza delle due immagini.

La stereoscopia trova applicazione in molti campi. La fotografia Ã ̈ la piÃ¹ antica applicazione della stereoscopia, dalla stampa fotografica fino alle immagini digitali. PiÃ¹ recentemente, la stereoscopia Ã ̈ stata applicata dallâ€™industria multimediale nei videogiochi e nella telefonia mobile. Oltre al campo dellâ€™intrattenimento, la stereoscopia ha trovato spazio anche nel campo scientifico. La stereoscopia Ã ̈ applicata nelle osservazioni astronomiche attraverso lâ€™utilizzo di due telescopi a opportuna distanza puntati sul medesimo oggetto. Ad esempio, questo Ã ̈ stato fatto nelle esplorazioni spaziali senza equipaggio in cui questa tecnica puÃ² essere utilizzata per consentire una visione tridimensionale dei luoghi visitati. Secondo gli stessi principi, la stereoscopia Ã ̈ applicata anche allâ€™osservazione microscopica ed in sistemi di riconoscimento degli ostacoli che equipaggiano alcuni autoveicoli.

Nel corso degli ultimi anni, le prestazioni e le potenzialitÃ delle macchine fotografiche digitali sono notevolmente migliorate e questo offre la possibilitÃ di rilevare e registrare non solo dati relativi ad immagini singole, ma anche dati relativi ad immagini multiple che vengono correlati per visualizzare ad es. su un monitor dati di immagine con numero di pixel specificato.

Questo possibile scenario di applicazione ha suscitato lâ€™interesse della Camera & Imaging Products Association (CIPA), istituita il 1 luglio 2002 allo scopo di facilitare lo sviluppo, produzione e la vendita di fotocamere standard a pellicola, fotocamere digitali e relativi dispositivi, strumenti e software.

La CIPA ha quindi definito uno standard, denominato Multiple Picture format of JPEG Objects, o brevemente MPO (Multi-Picture Object).

Il formato MPO Ã ̈ costituito da piÃ¹ immagini JPEG; il file MPO comprende estensioni di immagini multiple (Multiple Images o MP) che consentono di incorporare piÃ¹ immagini singole in un unico file, con la singola immagine che ha la stessa struttura dei dati Exif JPEG, ossia:

- un file Baseline MP costituito da unâ€™immagine primaria e un'ulteriore immagine duplicata, il tutto formattato per una visualizzazione ottimale su TV e altri dispositivi di visualizzazione. Il file Baseline MP utilizza estensioni Exif e specifica un formato di file comprendente estensioni MP che permettono di memorizzare l'immagine primaria ed una o piÃ¹ immagini addizionali;

- un file MP Extended che consiste in una raccolta di immagini corrispondenti ad uno dei tipi MP definiti in questa specifica; in particolare Ã ̈ definito un tipo di MP Multi-view che presenta tre sottotipi: Panorama, Disparity, e Multi Angle. Con questo formato di file Ã ̈ possibile registrare anche altre immagini.

Il formato denominato Exchangeable image file format (Exif) Ã ̈ uno standard che specifica i formati per le immagini, i suoni ed i tag accessori utilizzati da macchine fotografiche digitali (compresi gli smartphone), scanner e altri sistemi di manipolazione di file di immagini e suoni registrati da fotocamere digitali.

Quando si utilizza il formato Exif per i file JPEG, il dato Exif Ã ̈ memorizzato in uno degli utility Application Segments di JPEG, il segmento APP1 (segmento marcatore 0xFFE1), che contiene al suo interno un intero file TIFF.

I formati specificati nello standard Exif sono definiti come strutture di cartella (folder structure) che si basano su formati Exif-JPEG e formati di registrazione su memoria. Quando questi formati vengono utilizzati come file Exif/DCF insieme alla specifica DCF (per una migliore interoperabilitÃ tra dispositivi di tipo diverso), il loro ambito di applicazione abbraccia i dispositivi, i supporti di registrazione ed il software applicativo che li gestisce.

In breve, i file MPO identificano un formato per memorizzare immagini multiple in un solo file. Tale formato implementa una catena di file JPEG in un unico file corredato di opportuni tag che permettono di individuare le singole immagini e di conoscere la loro collocazione nellâ€™ambito dellâ€™immagine multidimensionale.

In varie soluzioni, i file MPO possono essere utilizzati per rappresentare immagini tridimensionali come ad esempio le immagini stereoscopiche. I tag MPO, quindi, contengono non solo le informazioni delle singole immagini come file JPEG a se stanti, ma anche una serie di parametri utili ai decoder per generare lâ€™immagine tridimensionale composta dalle singole immagini contenute nel file MPO.

Le immagini stereoscopiche sono ottenute combinando due immagini dello stesso oggetto visto da due punti posti ad una distanza proporzionale alla distanza interpupillare umana.

Tali immagini vengono memorizzate in un file MPO e corredate di opportuni tag.

Ogni file MPO stereoscopico, quindi, occupa uno spazio in memoria circa pari al doppio dello spazio occupato da una sola immagine JPEG.

Inoltre, le due immagini memorizzate riguardano lo stesso oggetto; risulta quindi evidente che il contenuto informativo di queste sarÃ molto simile, con la possibilitÃ di individuare molte informazioni ridondanti.

La visione stereoscopica, considerata nel contesto generale appena richiamato, forma oggetto di unâ€™ampia letteratura scientifica che affronta, ad esempio, temi quali:

- lâ€™uso dellâ€™algoritmo WTA (Winner Take All) di Kohonen per migliorare la qualitÃ delle singole immagini in un'immagine/video stereoscopici;

- il miglioramento della qualitÃ e della larghezza di banda del video stereoscopico;

- il miglioramento della ricostruzione di immagini video stereoscopiche per mezzo di una stima della disparitÃ fra singole immagini;

- la codifica di immagini stereoscopiche con metodi basati su wavelet e la teoria dei frattali.

Si apprezzerÃ altresÃ¬ che lo standard MPO non prevede di per sÃ© alcun livello di compressione.

Fra gli articoli in argomento si possono citare:

A.A.V.V.: â€œFast disparity estimation using geometric properties and selective sample decimation for stereoscopic image codingâ€ IEEE Transactions on Consumer Electronics, Vol. 45, n. 1, pp. 203 â€“ 209;

Coltekin, A.: â€œSpace variant image coding for stereoscopic mediaâ€ - Picture Coding Symposium, 2009, PCS 2009,pp. 1 â€“ 4;

Strintzis, M.G.; Malassiotis, S.: â€œObject-based coding of stereoscopic and 3D image sequencesâ€ â€“ IEEE Signal Processing Magazine, vol. 16, n. 3, pp. 14 â€“ 28;

Zhu Zhongjie; Jiang Gangyi; Yu Mei; Wu Xunwei: â€œFast disparity estimation algorithm for stereoscopic mage sequence codingâ€ - TENCON '02. Proceedings. 2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering, vol. 1, pp. 285 â€“ 288;

Bensalma, R.; Larabi, M.-C: â€œOptimizing the disparity map by the integration of HVS binocular properties for efficient coding of stereoscopic imagesâ€ â€“ 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video (3DTV-CON), 2010, pp. 1 â€“ 4;

Mi-Hyun Kim; Kwang-Hoon Sohn: â€œEdge-preserving directional regularization technique for disparity estimation of stereoscopic imagesâ€ - IEEE Transactions on Consumer Electronics, vol. 45, n. 3, pp. 804 â€“ 811;

Boulgouris, N.V.; Strintzis, M.G.: â€œEmbedded coding of stereo imagesâ€ - Proceedings 2000 International Conference on Image Processing, 2000, vol. 3, pp. 640 â€“ 643.

Scopo e sintesi

Sussiste quindi l'esigenza di trovare soluzioni in grado di portare ad ulteriori perfezionamenti delle soluzioni descritte in precedenza, ad esempio, ma non esclusivamente, in termini di efficienza di compressione ai fini della trasmissione e della memorizzazione, senza che ciÃ² vada a scapito del livello qualitativo.

Varie forme di attuazione si prefiggono lo scopo di dare una risposta a tale esigenza.

Varie forme di attuazione permettono di conseguire tale scopo grazie alle caratteristiche richiamate in modo specifico nelle rivendicazioni che seguono.

Varie forme di attuazione possono riguardare:

- un procedimento per codificare unâ€™immagine stereoscopica,

- un procedimento per decodificare unâ€™immagine stereoscopica,

- un codificatore configurato per codificare unâ€™immagine stereoscopica,

- un decodificatore configurato per decodificare unâ€™immagine stereoscopica,

- un prodotto informatico caricabile nella memoria di almeno un elaboratore elettronico e comprendente porzioni di codice software per attuare i passi di un procedimento di codifica,

- un prodotto informatico caricabile nella memoria di almeno un elaboratore elettronico e comprendente porzioni di codice software per attuare i passi di un procedimento di decodifica, e

- un supporto, quale ad esempio un supporto di memoria o un vettore di trasmissione, che veicola unâ€™immagine stereoscopica.

Il riferimento ad un prodotto informatico caricabile nella memoria di almeno un elaboratore e comprendente parti di codice software suscettibili di realizzare fasi di procedimento quando il prodotto Ã ̈ eseguito su almeno un elaboratore Ã ̈ qui inteso essere equivalente al riferimento ad un mezzo leggibile da elaboratore contenente istruzioni per il controllo del sistema di elaborazione per coordinare lâ€™attuazione del procedimento secondo l'invenzione. Il riferimento ad "almeno ad un elaboratore" Ã ̈ inteso a mettere in luce la possibilitÃ di realizzare varie forme di attuazione di tipo modulare e/o distribuito.

Le rivendicazioni formano parte integrante degli insegnamenti tecnici qui somministrati in relazione all'invenzione.

Varie forme di attuazione possono comportare soluzioni alternative per codificare e decodificare file MPO.

Varie forme di attuazione possono comportare la realizzazione di una libreria per gestire e manipolare i file MPO.

Varie forme di attuazione possono essere basate sullâ€™abbassamento della qualitÃ di una delle due immagini, il che comporta da subito un risparmio in termini di memoria.

In varie forme di attuazione, unâ€™immagine a qualitÃ â€œbassaâ€ puÃ² essere migliorata mediante un algoritmo di decodifica basato sulle informazioni contenute sullâ€™immagine ad alta qualitÃ .

Varie forme di attuazione possono comportare lo svolgimento di una procedura per il miglioramento di una immagine che sfrutta le informazioni contenute in unâ€™altra immagine fortemente correlata alla prima.

In varie forme di attuazione, una tale procedura puÃ² permettere di ottenere un risparmio in termini di memoria per lâ€™archiviazione di file MPO costituiti da una catena di immagini correlate e che implementano immagini stereoscopiche.

Varie forme di attuazione possono basarsi sul riconoscimento del fatto che una coppia di immagini (fotogrammi) catturate da due obiettivi distanziati in modo da simulare la visione binoculare umana possono presentare molte parti comuni, per cui in essi sono presenti dati ridondanti. In varie forme di attuazione, una procedura di ricostruzione puÃ² sfruttare questa ridondanza per ricostruire una delle due immagini precedentemente degradata.

In varie forme di attuazione, una tale procedura di ricostruzione puÃ² permettere di ottenere un notevole risparmio in termini di spazio di memorizzazione senza indurre una perdita di qualitÃ apprezzabile.

Breve descrizione delle figure

Varie forme di attuazione saranno ora descritte, a puro titolo di esempio non limitativo, con riferimento alle figure annesse, in cui:

- la figura 1 Ã ̈ uno schema a blocchi di massima di un dispositivo di codifica di immagini stereoscopiche,

- la figura 2 Ã ̈ uno schema a blocchi di massima di un dispositivo di codifica secondo forme di attuazione,

- la figura 3 Ã ̈ uno schema a blocchi di massima di un dispositivo di decodifica secondo forme di attuazione, e - le figure 4 a 8 sono schemi a blocchi funzionali relativi a forme di attuazione.

Descrizione particolareggiata

Nella seguente descrizione sono illustrati vari dettagli specifici finalizzati ad unâ€™approfondita comprensione di varie forme di attuazione. Le forme di attuazione possono essere realizzate senza uno o piÃ¹ dei dettagli specifici, o con altri metodi, componenti, materiali, etc. In altri casi, strutture, materiali o operazioni noti non sono mostrati o descritti in dettaglio per evitare di rendere oscuri i vari aspetti delle forme di attuazione.

Il riferimento ad â€œuna forma di attuazioneâ€ nellâ€™ambito di questa descrizione sta ad indicare che una particolare configurazione, struttura o caratteristica descritta in relazione alla forma di attuazione Ã ̈ compresa in almeno una forma di attuazione. Quindi, frasi come â€œin una forma di attuazioneâ€ , eventualmente presenti in diversi luoghi di questa descrizione non sono necessariamente riferite alla stessa forma di attuazione. Inoltre, particolari conformazioni, strutture o caratteristiche possono essere combinate in ogni modo adeguato in una o piÃ¹ forme di attuazione.

I riferimenti qui utilizzati sono soltanto per comoditÃ e non definiscono dunque lâ€™ambito di tutela o la portata delle forme di attuazione.

La panoramica sulla stereoscopia e lâ€™analisi del formato MPO condotte nella parte introduttiva di questa descrizione devono considerarsi a tutti gli effetti parte integrante della presente descrizione particolareggiata.

CosÃ¬ come giÃ osservato in precedenza, le prestazioni e le potenzialitÃ delle fotocamere digitali hanno conosciuto negli ultimi anni una rapida evoluzione. Lâ€™ambito della fotografia digitale si Ã ̈ esteso fino a includere prodotti come TV, dispositivi di telecomunicazione e altre applicazioni hardware e software. Questo fenomeno ha portato nuove applicazioni per la fotografia digitale, molte delle quali richiedono lâ€™uso di immagini multiple correlate per rappresentare una particolare esperienza fotografica. Il formato Multi-Picture Object (MPO) Ã ̈ stato appunto sviluppato per soddisfare questa necessitÃ , definendo un metodo per memorizzare immagini multiple e metadati associati in un singolo file.

Cosi come giÃ almeno in parte detto, MPO specifica un formato dati, utilizzato dalle fotocamere digitali, che implementa una catena di immagini memorizzate in un singolo file aggiungendo dei tag che successivamente permetteranno a queste immagini di essere associate e usate opportunamente.

I metadati del formato MPO sono memorizzati nellâ€™application segment APP2 di ogni immagine singola o individual image. In piÃ¹, la prima immagine contiene un campo chiamato MP index IFD che descrive la struttura di tutto il file MPO, la correlazione tra le singole immagini e la loro posizione allâ€™interno del file.

Ogni immagine singola ha la stessa struttura di un file ExifJPEG. Exif Ã ̈ una specifica per file di immagini che aggiunge ai formati esistenti (JPEG, TIFF e RIFF) specifiche etichette (tag) contenenti metadati.

Alcuni di questi metadati possono essere:

- informazioni di data ed ora;

- impostazioni della fotocamera;

- una miniatura per visualizzare unâ€™anteprima ad esempio sul display LCD;

- informazioni geografiche;

- descrizioni ed informazioni di copyright.

Il formato Exif presenta un certo numero di svantaggi, legati soprattutto alla struttura dei dati Exif.

Ad esempio, nelle specifiche dello standard Exif, la profonditÃ del colore Ã ̈ sempre 24 bit, mentre molte macchine fotografiche sono oggigiorno in grado di catturare molti piÃ¹ dati, ad es. 36 bit di colore per pixel.

La specifica Exif comprende anche una descrizione FPXR (FlashPix-Ready) che puÃ² essere registrata nellâ€™APP2 di unâ€™immagine JPEG. Questo aspetto puÃ² risultare in contraddizione con la definizione della struttura del formato MPO, che utilizza lâ€™APP2 per memorizzare i suoi metadati. Quindi, i programmi che manipolano i file MPO e si trovano a gestire questa eventualitÃ devono tenere in conto il fatto che lo standard di riferimento per i file MPO non specifica alcun Application Segment alternativo rispetto ad APP2 per memorizzare i suoi metadati.

Ogni MPO Ã ̈ costituito da almeno due immagini singole (individual image), ognuna delle quali Ã ̈ delimitata da due marker SOI (Start Of Image) e EOI (End Of Image). Tra questi due marker si trovano l'application segment APP1, contenente i dati Exif, l'application segment APP2, contenente i dati MPO, ed infine i campi relativi all'immagine vera e propria secondo la codifica JPEG. Inoltre, solo per la prima immagine singola, l'application segment APP2 include un campo chiamato MP Index IFD. Quest'ultimo contiene tutte le informazioni che descrivono la struttura sommaria delle immagini singole all'interno del file.

Allâ€™interno di APP2, oltre ad MP Index IFD, puÃ² trovarsi un ulteriore campo chiamato MP Attribute IFD. Il campo MP Attribute IFD, se presente, contiene una serie di metadati relativi alla immagine singola utili durante la fase di riproduzione dellâ€™immagine stessa. Il livello di funzionalitÃ (Tag Support Level) di questi tag dipende dal tipo di immagine singola utile. Il tipo di immagine singola (individaul image) Ã ̈ specificato da un sottoinsieme di bit del campo Individual image Attribute.

Per ogni immagine singola o individual image esiste un campo di 4 byte, chiamato Individual image Attribute, memorizzato allâ€™interno del campo MP Entry.

Tale campo Ã ̈ costituito da 6 parti:

- Dependent Parent Image Flag: questo flag vale 1 se lâ€™individual image Ã ̈ la parent image di unâ€™altra individual image. Altrimenti questo flag vale 0.

- Dependent Child Image Flag: questo flag vale 1 se lâ€™individual image Ã ̈ la child image di unâ€™altra individual image. Altrimenti questo flag vale 0.

- Representative Image Flag: questo flag vale 1 se lâ€™individual image Ã ̈ lâ€™immagine rappresentativa (representative image) del file MPO. Altrimenti questo flag vale 0. PuÃ² esserci solo una individual image con questo flag pari a 1 nello stesso file MPO.

- Un campo riservato di 3 bit.

- Image Data Format: questo codice di 3 bit specifica il formato di dati dellâ€™individual image, il formato JPEG corrisponde al valore 0.

- MP Type Code: questo codice specifica il tipo di individual image.

Allâ€™interno del campo MP Type Code sono presenti 4 parti:

- un campo riservato di 4 bit;

- un campo Type Info;

- un campo riservato di 12 bit; e

- un campo denominato Sub-Type.

Sula base di queste considerazioni Ã ̈ possibile individuare tre classi e cinque sottoclassi di individual image:

- Baseline MP Primary Image

- Large Thumbnail

- Class 1

- Class 2

- Multi-Frame Image

- Panorama

- Disparity

- Multi-Angle

Le immagini singole (individual image) che compongono un file MPO relativo ad una immagine stereoscopica hanno il campo MP Type uguale al valore esadecimale 020002, cioÃ ̈ sono di tipo Disparity Image. In questo caso, il tag MP Individual Image Number Ã ̈ obbligatorio, cioÃ ̈ il suo livello di funzionalitÃ (Tag Support Level) Ã ̈ Conditionally Mandatory.

Il valore di questo tag rappresenta il numero del viewpoint che identifica la posizione e la sequenza dellâ€™obiettivo (viewpoint) durante la ripresa. Il valore del tag MP Individual Image Number inizia con 1. I valori di questi tag nelle Disparity Images sono numerati a partire dal viewpoint piÃ¹ a sinistra, con valore 1, fino a quello piÃ¹ a destra. Per le immagini stereoscopiche si hanno quindi due immagini singole o individual image, la prima avrÃ il tag MP Individual Image Number pari ad 1, la seconda uguale a 2.

Un altro tag di MP Attribute IFD previsto per le Disparity Images Ã ̈ il tag Base Viewpoint Number. Questo tag puÃ² essere obbligatorio per le immagini di tipo Multi Frame, cioÃ ̈ per le individual image di tipo Disparity e Multi-Angle Image. Il significato di questo parametro dipende dal tipo di immagine. Per le immagini stereoscopiche (di tipo Disparity Image), il viewpoint number Ã ̈ il valore del MP Individual Image Number del viewpoint base. Il viewpoint base Ã ̈ il punto di riferimento dal quale vengono misurati gli angoli di convergenza, divergenza e gli altri parametri relativi alla posizione dei diversi viewpoint che compongono una immagine multidimensionale. Risulta quindi evidente la ragione per cui questo campo puÃ² essere obbligatorio: i parametri spaziali di ogni individual image sono delle misure che necessitano di un punto di riferimento unico e uguale per tutti.

Ad esempio, nel caso di Disparity Image con quattro viewpoints possono essere indicati corrispondenti valori di angolo di convergenza o Convergence Angle (ad es. -2°,2° e 4°) e di lunghezza di base o Baseline Length (ad es. 65, 65 e 130 mm). I valori di Convergence Angle possono essere misurati prendendo come riferimento lâ€™asse che congiunge il viewpoint base ed il target, mentre i valori di Baseline Length corrispondono alla distanza, in millimetri, dal punto di visuale (viewpoint) base. In questo esempio, tutte le individual image possono avere come Base Viewpoint Number il valore 2, cioÃ ̈ il valore di MP Individual Image Number del viewpoint base.

Quanto sopra riportato corrisponde ad informazioni note, il che rende superfluo fornire in questa sede una descrizione di maggior dettaglio.

Gli Inventori hanno osservato che le due immagini comprese in un file MPO stereoscopico possono essere molto simili, per cui, calcolando la differenza tra i valori delle due immagini, si ottengono di solito numeri molto piccoli con molti valori vicini a zero.

Gli Inventori hanno altresÃ¬ osservato che, implementando una codifica che rileva la differenza tra i valori delle due immagini, Ã ̈ possibile conseguire risultati molto soddisfacenti dal punto di vista del risparmio in memoria; tuttavia la perdita di qualitÃ causata principalmente dalla codifica JPEG dei dati elaborati puÃ² -almeno in alcuni casi â€“ risultare eccessiva.

Gli Inventori hanno notato che Ã ̈ possibile abbassare la qualitÃ di una delle due immagini al fine di ottenere un immediato risparmio in memoria: successivamente lâ€™immagine a qualitÃ â€œbassaâ€ puÃ² essere migliorata mediante una procedura di decodifica che sfrutta le informazioni contenute sullâ€™immagine a qualitÃ â€œaltaâ€ . Un metodo di ricostruzione di questo tipo puÃ² essere basato sul calcolo della media aritmetica tra i dati dellâ€™immagine ad alta qualitÃ e quelli dellâ€™immagine compressa.

Questo modo di procedere puÃ² portare a risultati migliori rispetto alla codifica differenziale, ma lâ€™immagine ricostruita a partire dai dati compressi puÃ² presentare difetti nelle regioni di maggiore differenza tra due immagini. Tali difetti possono essere eliminati utilizzando una media mobile esponenziale EWMA parametrizzata.

In varie forme di attuazione, Ã ̈ possibile utilizzare la ricostruzione di Kohonen (Kohonen Block Reconstruction o KBR) abbinata ad una ricerca del pattern mediante correlazione incrociata (cross correlation) normalizzata tra lâ€™immagine compressa e quella correlata.

In varie forme di attuazione, questâ€™ultimo metodo ha portato a risultati migliori rispetto ai precedenti.

Varie forme di attuazione possono quindi sfruttare la ridondanza tra le coppie di immagini di un file MPO per ricostruire una delle due immagini precedentemente degradata.

A livello di dispositivi di ripresa si puÃ² implementare una pipeline e nella fase di codifica del file MPO Ã ̈ possibile impostare il valore di MP Format Identifier a 0x4D504643 facendo sÃ¬ che la dimensione della seconda individual image sia quella dellâ€™immagine compressa a bassa qualitÃ .

In fase di visualizzazione, si puÃ² pensare di applicare un algoritmo di decodifica per ricostruire la seconda immagine ed ottenere quindi lâ€™immagine stereoscopica. Su questo aspetto va osservato che le due immagini componenti unâ€™immagine stereoscopica ottenute catturando due fotogrammi con due obiettivi distanziati differiscono per un certo angolo sullâ€™asse z. Pur essendo diverse, esse presentano molte parti comuni.

Si puÃ² poi considerare di definire lâ€™oggetto (o â€œtargetâ€ ) che interessa fotografare. In generale, gli obiettivi delle telecamere catturano, insieme al target, una serie di oggetti presenti nellâ€™ambiente circostante. Il target sarÃ sempre contenuto nelle due immagini mentre gli altri elementi in secondo piano e sullo sfondo potranno apparire o no in ciascuna delle due immagini; oppure, cosÃ¬ come spesso capita, nelle due immagini stereoscopiche compariranno parti diverse degli stessi oggetti.

Pur essendo diverse, le due immagini possono presentare parti comuni nelle zone centrali (target), mentre vicino ai bordi possono presentare differenze â€“ anche rilevanti â€“ dovute al fatto che uno dei due obiettivi di ripresa inquadra oggetti o parti di essi che non vengono inquadrati dallâ€™altro. Le differenze piÃ¹ grandi, quindi, riguardano lo sfondo e gli oggetti in secondo piano: entrambi gli obiettivi sono centrati sul target e la variazione del solo asse z puÃ² causare una forte rotazione degli oggetti lontani dal centro.

Si supponga, per fare un esempio, che il target sia un vaso di fiori collocato su un tavolo.

PotrÃ quindi avvenire che, ad esempio:

- lâ€™immagine destra contiene oggetti non inquadrati nellâ€™immagine sinistra, ad es.: una finestra e un albero allâ€™esterno, un lampadario, il bordo di un divanetto,

- nellâ€™immagine sinistra siano presenti, ad esempio, parti di mobile non visibili nellâ€™immagine destra mentre una parete di sfondo risulta essere meno illuminata che nellâ€™immagine destra di prima.

Ancora, accanto a parti ad es. del target inquadrate in entrambe le immagini, vari oggetti, ad esempio una sedia, possono presenti in entrambe le immagini ma in posizioni leggermente diverse.

Riassumendo, le due immagini che compongono una immagine stereoscopica possono avere molte parti comuni concentrate nella zona centrale ed alcune parti molto diverse vicino ai bordi. Gli oggetti di una immagine che sono presenti anche nellâ€™altra si trovano in una posizione leggermente diversa: lâ€™entitÃ di tale scostamento aumenta allontanandosi dal centro e, se lo scostamento Ã ̈ elevato, puÃ² capitare che certi oggetti presenti in una immagine non siano visualizzati nellâ€™altra. Trattandosi di una trasfigurazione complessa, risultato della combinazione di piÃ¹ trasformazioni e non di una semplice traslazione, tali oggetti non saranno esattamente uguali ma molto simili.

In una catena di trattamento (ad es. pipeline) standard di creazione di un file MPO, il dispositivo cattura due immagini successivamente compresse secondo lo standard JPEG e assemblate dallâ€™encoder che inserisce gli opportuni tag e genera il file MPO finale.

Una soluzione di questo tipo Ã ̈ schematicamente rappresentata nella figura 1, dove sono presenti due dispositivi di rilevazione delle immagini (ad esempio due fotocamere 1 e 2), che generano due rispettivi segnali di immagine (singola) 10A e 10B relativi ad un â€œtargetâ€ indicato con T. Questi segnali (che si assumeranno essere in forma digitale, ad esempio espressi sotto forma di matrici di pixel) sono inviati a rispettivi moduli di codifica 20A, 20B (JPEG o equivalenti) ed i segnali codificati sono inviati ad un modulo di codifica MPO, indicato con 30, che produce il file MPO mettendo insieme le due immagini codificate.

In varie soluzioni, questo schema puÃ² essere realizzato sotto forma di una pipeline implementata direttamente nel dispositivo che esegue la compressione JPEG e la codifica del file MPO subito dopo aver catturato le due immagini o fotogrammi.

Gli Inventori hanno notato che uno svantaggio di questa pipeline riguarda lo spazio in memoria necessario per memorizzare un file MPO, che risulta circa il doppio rispetto una singola immagine JPEG.

Varie forme di attuazione possono pertanto prevedere di utilizzare una struttura di trattamento (ad es. pipeline) diversa, in cui la compressione JPEG della seconda immagine singola 10B viene effettuata con un livello di qualitÃ piÃ¹ basso. Come risultato, il file MPO risultante, indicato in figura come MPOâ€“C, occuperÃ meno spazio in memoria.

Una possibile forma di attuazione Ã ̈ schematicamente rappresentata nella figura 2, dove ancora una volta sono presenti due dispositivi di rilevazione delle immagini (ad esempio due fotocamere 1 e 2), che generano due rispettivi segnali di immagine (singola) 10A e 10B relativi ad un â€œtargetâ€ indicato con T. In vista dellâ€™invio al modulo di codifica 30, mentre una immagine (destra o, rispettivamente, sinistra) Ã ̈ inviata, cosÃ¬ come nel caso della figura 1, al modulo di codifica 20A, lâ€™altra immagine (sinistra o, rispettivamente, destra) Ã ̈ inviata ad un modulo di codifica 200B qualitÃ piÃ¹ bassa operante secondo i criteri meglio descritti nel seguito.

Le espressioni â€œdestra o, rispettivamente, sinistraâ€ e â€œsinistra o, rispettivamente, destraâ€ stanno ad indicare il fatto che, in varie forme di attuazione, quale immagine (destra o sinistra) sia sottoposta a quale trattamento (qualitÃ normale o piÃ¹ bassa) puÃ² essere del tutto indifferente.

Il fatto che il file prodotto dal codificatore MPO sia qui indicato come MPO-C intende mettere in luce il fatto che, in varie forme di possibile attuazione dellâ€™esempio considerato nella figura 2, il file MPO risultante potrÃ avere il tag MP Format Identifier settato al valore esadecimale 0x4D504643, che corrisponde alla stringa di 4 byte ASCII â€œMPFCâ€ , mentre nellâ€™esempio considerato nella figura 1 il file MPO ha di solito il MP Format Identifier pari a 0x4D504600 (â€œMPFâ€ ).

Il tag in questione identifica infatti il formato del file e lâ€™aggiunta del carattere â€ ̃Câ€™ puÃ² indicare che si tratta di un file MPO compresso.

Il termine â€œbassaâ€ , riferito alla qualitÃ , Ã ̈ qui utilizzato in senso relativo per indicare che la codifica attuata nel blocco 200B presenta una qualitÃ inferiore rispetto alle codifica attuata nel blocco 20A. Tale qualitÃ inferiore Ã ̈ suscettibile di essere â€œricuperataâ€ in sede di decodifica secondo i criteri meglio esemplificati nel seguito.

Ad esempio, la tabella che segue mette a confronto diversi livelli di qualitÃ conseguibili in una codifica JPEG partendo da un livello massimo (Q = 100) e passando via via a livelli piÃ¹ bassi sino ad arrivare ad un livello minimo (Q = 1).

<Dimensioni>Rapporto di QualitÃ

(bytes)compressione Highest

<83,261 2.6:1>quality (Q = 100)

High quality

15,138 15:1

(Q = 50)

Medium

9,553 23:1 quality (Q = 25)

Low quality

4,787 46:1

(Q = 10)

Lowest

1,523 144:1 quality (Q = 1)

In varie forme di attuazione, in fase di decodifica del file MPO-C Ã ̈ possibile operare secondo i criteri schematicamente rappresentati nella figura 3.

Dal file MPO-C in ingresso si ottengono - ad esempio con un parser MPO di tipo noto, indicato con 35 - le componenti relativa alla prima immagine singola A (destra o sinistra) ed alla seconda immagine singola B (sinistra o destra). La prima immagine Ã ̈ sottoposta a decodifica (ad es. JPEG o equivalenti) â€œnormaleâ€ in un modulo di decodifica 40A. La seconda immagine Ã ̈ invece sottoposta a decodifica di qualitÃ â€œpiÃ¹ bassaâ€ in un modulo di decodifica 400B.

In entrambi i casi, il risultato sarÃ una immagine 50A, 50B (che anche qui si assumerÃ essere in forma digitale, ad esempio sotto forma di matrici di pixel) che puÃ² essere vista come suddivisa in blocchi di dimensioni piÃ¹ piccole.

CosÃ¬ come giÃ indicato, in varie forme di attuazione, in fase di decodifica si possono estrarre le due immagini singole 50A, 50B e lâ€™immagine a qualitÃ piÃ¹ bassa 50B puÃ² essere migliorata (con la funzione indicata nel complesso dal blocco 100 della figura 3) utilizzando le informazioni contenute nella immagine ad alta qualitÃ 50A.

In varie forme di attuazione, le parti comuni possono essere ricostruite e migliorate, e per quelle non comuni si puÃ² utilizzare lâ€™immagine a qualitÃ piÃ¹ bassa.

Questo modo di operare puÃ² essere visto come una possibile causa di perdita di informazione legata alâ€™impiego di forme di attuazione. Tuttavia, lâ€™analisi sulle immagini stereoscopiche dimostra che, in varie forme di attuazione, la perdita di qualitÃ puÃ² risultare trascurabile.

In varie forme di attuazione, lâ€™approccio di codifica e decodifica dei file MPO puÃ² sfruttare la ridondanza contenuta nelle immagini stereoscopiche: considerando lâ€™elevato contenuto informativo dellâ€™immagine ad alta qualitÃ (20A della figura 2), Ã ̈ possibile ridurre di molto la qualitÃ della seconda immagine 200B (riducendo quindi, ad esempio, lo spazio che questa occuperÃ in memoria) per poi, in fase di decodifica, migliorarne la qualitÃ sfruttando le informazioni comuni conservate nellâ€™immagine ad alta qualitÃ .

Passando ad esemplificare possibili specifiche modalitÃ e forme di attuazione, nel seguito si farÃ riferimento allâ€™immagine a qualitÃ piÃ¹ alta come immagine A, riferendosi invece allâ€™immagine a qualitÃ piÃ¹ bassa come immagine B.

Ad esempio, in varie forme di attuazione, cosÃ¬ come esemplificato nella figura 4, ogni immagine 50A, 50B puÃ² essere vista come suddivisa in blocchi di dimensioni piÃ¹ piccole, con ogni blocco costituito da tre matrici NxM, una per ogni canale (Y = luminanza, Cb e Cr = componenti di crominanza blue-difference e red-difference); gli elementi di queste matrici sono chiamati sample (ossia â€œcampioniâ€ ).

La procedura di decodifica qui descritta a titolo di esempio ricostruisce un blocco per volta e, per ogni blocco preso in considerazione, vengono elaborate le matrici di tutti e tre i canali una dopo lâ€™altra.

La descrizione che segue illustra in dettaglio la decodifica relativa ad un blocco NxM. In particolare, la figura 5 e successive fanno riferimento al trattamento di una matrice NxM relativa al canale della luminanza di un dato blocco dellâ€™immagine 50B che si desidera decodificare ricostruendo le informazioni inizialmente perse a causa della compressione a bassa qualitÃ .

Le stesse operazioni qui esemplificate per il blocco Y block relativo alla luminanza possono essere eseguite per la decodifica delle matrici degli altri canali dello stesso blocco (ossia Cb block e Cr block in figura 5) e tutta la procedura puÃ² essere viene ripetuta per ogni (sotto)blocco dellâ€™immagine 50B.

Per ricostruire, nellâ€™esempio qui considerato, il blocco Yblock si ricerca un blocco delle stesse dimensioni dellâ€™immagine 50A ottenuto mediante una funzione di similaritÃ Match Similar o MS.

La funzione MS ha il compito di ottenere una matrice quanto piÃ¹ simile possibile al blocco Yblock che si vuole ricostruire tentando di utilizzare le informazioni dellâ€™immagine 50A relative al canale considerato, ossia, nellâ€™esempio qui considerato, le informazioni della matrice della luminanza dellâ€™immagine 50A rappresentate nella figura 5 dalla matrice CY.

In varie forme di attuazione, la funzione di similaritÃ MS puÃ² considerare tipi di blocchi candidati diversi.

In varie forme di attuazione Ã ̈ possibile determinare non solo uno, ma piÃ¹ tipi di candidati ed il migliore tra i candidati viene restituito da MS alla funzione chiamante.

In pratica (vedere sempre la figura 5) la funzione MS puÃ² prendere in ingresso una matrice CY dellâ€™immagine 50A, restituendo una matrice Yâ€™ di dimensioni NxM.

In varie forme di attuazione, un (primo) tipo di candidato puÃ² essere ottenuto cercando allâ€™interno dellâ€™immagine 50A una matrice simile ad Yblock.

In varie forme di attuazione, questa ricerca puÃ² essere effettuata calcolando la correlazione incrociata (cross correlation) normalizzata tra il blocco da cercare e la matrice del canale considerato dellâ€™immagine 50A.

La cross correlazione normalizzata Ã ̈ data dalla seguente equazione:

dove:

- f Ã ̈ la matrice dellâ€™immagine 50A relativa al canale considerato (CY);

- t Ã ̈ il valore medio della matrice da cercare (blocco Yblock);

- Ã ̈ il valore medio di nella regione di Yblock.

CosÃ¬ come schematicamente rappresentato nella figura 6, nellâ€™esempio qui considerato (che Ã ̈ tale) il primo candidato allâ€™interno della funzione MS, indicato con Y1 nella figura 6, Ã ̈ ricercato calcolando la cross correlazione normalizzata XCORR tra Yblock (immagine 50B) il canale CY (immagine 50°).

La cross correlazione XCORR restituisce quindi quel sottoinsieme della matrice CY che meglio approssima Yblock.

Se la cross correlazione XCORR individua un blocco di dimensioni inferiori rispetto a quelle di Yblock, cioÃ ̈ individua solo una parte di questo, la procedura completa il blocco utilizzando per i valori mancanti quelli giÃ disponibili per Yblock.

In varie forme di attuazione, un (secondo) tipo di candidato della funzione MS Ã ̈ ottenuto da quel blocco N x M dellâ€™immagine 50A (ancora una volta questo esempio si riferisce alla componente di luminanza Y, ma in varie forme di attuazione lo stesso puÃ² valere anche per le componenti di croma Cb e Cr) che si trova nella stessa posizione del blocco dellâ€™immagine 50B considerato (cioÃ ̈ del blocco di cui il blocco Yblock fa parte).

Quindi, cosÃ¬ come rappresentato nella figura 7, in varie forme di attuazione si puÃ² determinare non solo uno, ma entrambi i due tipi di blocchi candidati Y1 ed Y2 e la funzione MS sceglie quello che tra i due minimizza una metrica stabilita (MET nella figura 7).

Ad esempio, in varie forme di attuazione, per stabilire quale dei due candidati Y1, Y2 utilizzare, la funzione MS puÃ² calcolare, per ogni blocco candidato, la media delle differenze dei suoi sample con quelli di Y block, cioÃ ̈ calcolare la media degli scarti tra il blocco candidato e il blocco che si sta cercando di ricostruire. Ad esempio, il blocco scelto Yâ€™ puÃ² essere quello con la media inferiore.

In varie forme di attuazione, la funzione MS puÃ² ripetere le stesse operazioni per le matrici relative agli altri due canali del blocco che ha ricevuto in input (Cb block e Cr block) e restituire alla funzione chiamante un blocco NxM contenente le tre matrici trovate.

In varie forme di attuazione, la matrice della luminanza del blocco scelto dalla funzione MS puÃ² essere utilizzata per migliorare Yblock.

In varie forme di attuazione, il metodo utilizzato puÃ² essere la ricostruzione di Kohonen, cosÃ¬ come descritta, ad esempio in

Kohonen T.: â€œThe self-organizing mapâ€ , Proceedings of the IEEE, Vol. 78, Issue 9, 1990, pp. 1464 - 1480;

Kohonen, T.; Oja, E.; Simula, O.; Visa, A.; Kangas, J.: â€œEngineering applications of the self-organizing mapâ€ , Proceedings of the IEEE, Vol. 84, Issue 10, 1996, pp. 1358 - 1384;

Nasrabadi, N.M.; Feng, Y.: â€œVector quantization of images based upon the Kohonen self-organizing feature mapsâ€ , IEEE Proceedings of International Conference on Neural Networks, 1988, vol. 1, pp. 101 - 108;

Ritter, H.; Schulten, K., â€œKohonen's self-organizing maps: exploring their computational capabilitiesâ€ , IEEE Proceedings of International Conference on Neural Networks, 1988, pp109-116.

In varie forme di attuazione, la ricostruzione di Kohonen (KBR) puÃ² utilizzare la seguente formula

Dove:

- Ã ̈ il sample (campione) ricostruito;

- Ã ̈ il sample del blocco candidato scelto dalla funzione MS (Yâ€™);

- Ã ̈ il sample del blocco da migliorare (Y block); - ;

- limit = 0,043.

Questa funzione lavora sample per sample e, dopo aver elaborato tutti i sample della matrice Yblock da ricostruire utilizzando i valori della matrice Yâ€™ restituisce una matrice risultante chiamata Yâ€™â€™: vedere al riguardo la figura 8, che rappresenta in forma schematica un esempio in cui il risultato della procedura di decodifica Ã ̈ la matrice Yâ€™â€™, ottenuta migliorando i samples di Y block mediante la ricostruzione di Kohonen KBR e la matrice Yâ€™.

In varie forme di attuazione, la procedura descritta puÃ² essere ripetuta per le altre matrici del blocco in esame (cioÃ ̈ per i restanti due canali) e la ricostruzione termina dopo aver ricostruito tutti i blocchi dellâ€™immagine 50B che comporranno lâ€™immagine ricostruita.

In varie forme di attuazione, per rendere piÃ¹ veloce e meno impegnativa in termini di tempo di esecuzione il calcolo della cross correlazione normalizzata XCORR, il calcolo della cross correlazione normalizzata tra Y block e CY puÃ² essere fatto utilizzando un sottoinsieme di CY ottenuto considerando un intorno centrato sulla posizione del blocco di cui Y block fa parte. In varie forme di attuazione, questa scelta puÃ² ridurre notevolmente i tempi di esecuzione senza compromettere lâ€™efficienza dei risultati.

In termini di valutazione della complessitÃ computazionale, lâ€™immagine da migliorare (immagine 50B) puÃ² essere vista come una schiera o array di n elementi, dove ogni elemento rappresenta un pixel. Per semplicitÃ di illustrazione, si puÃ² supporre che i sottoblocchi siano quadrati NxN con N<<n e che lâ€™immagine sia anchâ€™essa quadrata.

Indicando con H e W rispettivamente lâ€™altezza e la larghezza dellâ€™immagine, si avrÃ :

In ogni riga ci saranno

blocchi, ed in ogni colonna ce ne saranno

La funzione utilizzata per calcolare la cross correlazione normalizzata XCORR, chiamata normxcorr, calcola n coefficienti visitando tutta la matrice per ogni coefficiente calcolato, quindi:

- il numero di computazioni Ã ̈ n, cioÃ ̈ calcola n coefficienti;

- per ogni computazione si visita tutta la matrice del canale considerato (n samples).

La complessitÃ asintotica della sola funzione normxcorr Ã ̈

Applicando lâ€™ottimizzazione precedentemente illustrata, la procedura, invece di visitare tutta la matrice (di dimensione n) visita un intorno del blocco. Nel caso peggiore tale intorno ha un raggio pari a 2N, per cui nel caso peggiore avrÃ dimensione pari a samples.

PoichÃ© N Ã ̈ una costante arbitraria, si puÃ² scegliere N in modo tale che ) e la complessitÃ di normxcorr risultante da tale ottimizzazione puÃ² essere determinata nei termini seguenti:

- il numero di computazioni Ã ̈ , cioÃ ̈ si calcolano coefficienti;

- per ogni computazione si visita un sottoinsieme della matrice del canale considerato di dimensioni massime

quindi

poichÃ©

Aumentando N (dimensione del sottoblocco) aumenta il prodotto , cioÃ ̈ aumenta lâ€™intorno di raggio 2N, ed aumenta anche la complessitÃ .

Tuttavia, allâ€™aumentare di N diminuiscono il numero di chiamate a normxcorr che, cosÃ¬ come detto in precedenza, rappresenta la parte piÃ¹ onerosa della procedura. Inoltre il valore delle costanti moltiplicative Ã ̈ molto basso in quanto il caso peggiore si verifica solo per pochi blocchi centrali, cioÃ ̈ solo dove Ã ̈ possibile avere un raggio pari a 2N.

Gli Inventori hanno riscontrato che, in varie forme di attuazione, Ã ̈ possibile ridurre i tempi di esecuzione dellâ€™intera decodifica in media del 54%, senza perdita di qualitÃ .

In varie forme di attuazione, per calcolare la cross correlazione Ã ̈ anche possibile far ricorso al procedimento descritto in J. P. Lewis, â€œFast Normalized Cross-Correlationâ€ , Industrial Light & Magic, 1995.

CosÃ¬ come indicato in precedenza, varie forme di attuazione possono prevedere lâ€™impiego della funzione di similaritÃ MS e della ricostruzione di Kohonen KBR.

Negli esempi qui considerati, la funzione MS puÃ² prendere in ingresso un blocco NxN, costituito a sua volta da tre matrici NxN una per ogni canale, e lâ€™immagine 50A. Dopo una fase di inizializzazione dei parametri, allâ€™interno di una esecuzione della funzione MS viene calcolata la cross correlazione per ogni matrice (Y,Cb,Cr) del blocco passato come parametro. Quindi vengono effettuate tre chiamate alla funzione normxcorr.

La complessitÃ asintotica della funzione MS Ã ̈ allora:

Negli esempi qui considerati, la funzione che implementa la ricostruzione di Kohonen puÃ² prendere in ingresso due blocchi NxN, il primo Ã ̈ il blocco da ricostruire mentre il secondo Ã ̈ il blocco ottenuto dalla funzione MS. Ognuno di questi blocchi puÃ² essere costituito da tre matrici NxN e, cosÃ¬ come descritto in precedenza, tale funzione elabora un sample per volta. Lâ€™equazione utilizzata per la ricostruzione ha un costo costante, per cui si ha un numero di operazioni proporzionale a

In vari esempi di attuazione, lâ€™intera procedura di decodifica puÃ² suddividere lâ€™immagine 50B in sottoblocchi e, per ogni sottoblocco, invocare la funzione MS e la ricostruzione di Kohonen KBR.

Quindi il costo computazionale della decodifica Ã ̈ dato da

dove lâ€™ultimo passaggio Ã ̈ stato ottenuto considerando

Quindi la complessitÃ asintotica della procedura di decodifica (ottimizzata) Ã ̈

.

Gli Inventori hanno condotto varie verifiche tali da abbracciare 23 file MPO cosÃ¬ come disponibili on-line alla data di deposito della presente domanda allâ€™URL www.3dmedia.com/gallery.

Nelle verifiche effettuate, lâ€™immagine con qualitÃ superiore, dunque â€“ in termini relativi â€“ con qualitÃ â€œaltaâ€ , Ã ̈ stata codificata con qualitÃ di compressione non inferiore a JPEG 85. Lâ€™immagine con qualitÃ inferiore, dunque - in termini relativi - con qualitÃ â€œbassaâ€ , Ã ̈ stata codificata sia con qualitÃ 65, sia con qualitÃ 70 (vedere la tabella riportata in precedenza) per confrontare le prestazioni della procedura nei due casi.

Dalle verifiche effettuate si Ã ̈ visto che utilizzare, per lâ€™immagine di qualitÃ piÃ¹ bassa, una qualitÃ inferiore a 65 puÃ² in varie forme di attuazione comporta una perdita di informazione troppo marcata. Viceversa utilizzare una qualitÃ superiore a 70 puÃ² in varie forme di attuazione comportare un risparmio in memoria troppo basso.

In varie forme di attuazione, abbassando la qualitÃ di compressione, il vantaggio i termini di risparmio in memoria aumenta, ma in varie forme di attuazione questo puÃ² comportare un aumento della perdita media di qualitÃ .

Tale perdita puÃ² essere valutata in termini quantitativi confrontando il PSNR (Peak Signal-to-Noise Ratio) dellâ€™immagine ricostruita (rispetto allâ€™originale) e la stessa immagine ottenuta semplicemente utilizzando la compressione JPEG a qualitÃ 85.

Ad esempio, Ã ̈ possibile calcolare il PSNR considerando lâ€™immagine iniziale che si trova nel file MPO non compresso di partenza, come fosse lâ€™immagine-campione originale. Questâ€™ultima Ã ̈ infatti ottenuta decomprimendo lâ€™immagine JPEG del file MPO non compresso di partenza. In varie forme di attuazione, la procedura qui descritta permette di lavorare su questa immagine, procedendo ad una ricompressione JPEG di qualitÃ â€œbassaâ€ con successiva decompressione e ricostruzione per mezzo dei procedimenti descritti. Lâ€™immagine cosi ottenuta dopo la decodifica e successiva ricostruzione per mezzo delle soluzioni proposte puÃ² essere confrontata con quella originale che si trova nel file MPO originale non compresso e dalla quale si Ã ̈ partiti partiti per applicare la soluzione qui descritta.

Il PSNR cosÃ¬ calcolato permette di valutare la percentuale di perdita di qualitÃ che si ha applicando la procedura qui descritta al file MPO originale non compresso, permettendo cosÃ¬ da valutare le potenzialitÃ della soluzione qui descritta integrata ad es. in una pipeline di acquisizione dellâ€™immagine.

La formula per il calcolo del PSNR Ã ̈

dove

- bijÃ ̈ il valore del sample dellâ€™immagine di cui si vuole calcolare il PSNR (nella matrice del canale considerato);

- aijÃ ̈ il valore del sample dellâ€™immagine originale;

- sup Ã ̈ il valore massimo assumibile da un sample espresso con 1 byte, pari a 255.

La perdita media Ã ̈ data dalla media delle differenze tra i valori di PSNR dellâ€™immagine ricostruita e quella codificata con qualitÃ 85.

Valori medi del risparmio in memoria e della perdita di qualitÃ in funzione della qualitÃ di compressione sono mostrati dalla seguente tabella.

Low quality Risparmio medio Perdita (dB)

65 38,7% 2,39

70 32,8% 2,16

Anche se i valori medi calcolati su 23 immagini sono simili, le prestazioni possono variare per ogni immagine e la differenza tra i due casi risulta piÃ¹ evidente confrontando tale variabilitÃ .

Comprimendo con qualitÃ 65 si ottiene un risparmio in memoria dal 35% al 48,7% ed una perdita che varia tra 1,66 dB e 2,76 dB. Comprimendo con qualitÃ 70 si ottiene un risparmio in memoria dal 30% al 42% ed una perdita che varia tra 1,32 dB e 2,76 dB.

In varie forme di attuazione Ã ̈ possibile ottenere un risparmio che supera il 41% con una perdita di qualitÃ inferiore ai 2 dB; in situazioni particolarmente sfavorevoli si Ã ̈ ottenuto un risparmio pari a circa il 30% ed una perdita che non supera i 2,76 dB, ma anche in questi casi la procedura risulta efficiente.

Varie forme di attuazione si prestano allâ€™impiego di una libreria C per la gestione e la manipolazione dei file MPO chiamata.

In un possibile esempio di attuazione, Ã ̈ possibile istanziare una variabile di tipo MPO_data, associando ad essa un file MPO tramite una funzione definita in mposource.h ed eseguire un parsing del file per popolare la struttura MPO_data; la funzione che effettua il parsing di un file MPO, definita in mpo-parse.h, puÃ² essere implementata in un sorgente MPO_parse_data.c.

In varie forme di attuazione, Ã ̈ possibile (ad esempio istanziando una struct di tipo jpeg_decompress_struct) leggere il contenuto di un file MPO come se fosse una immagine JPEG. PoichÃ© la prima immagine singola si trova in testa al file, essa puÃ² essere considerata dal parser del JPEG (blocco 35 nella figura 3) come se fosse lâ€™immagine da analizzare, ed il parser JPEG puÃ² vedere solo una immagine che inizia con SOI e finisce con EOI, con quanto segue ignorato poichÃ© il parser si aspetta di ricevere un file JPEG quindi dopo aver incontrato il marker EOI semplicemente termina.

Varie forme di attuazione possono prestarsi ad essere utilizzate in sistemi embedded, ossia sistemi elettronici di elaborazione progettati per una determinata applicazione, spesso con una piattaforma hardware specializzata. Le risorse di un sistema embedded sono limitate e di solito non Ã ̈ possibile effettuare una normale compilazione in quanto su questi dispositivi non Ã ̈ possibile eseguire un compilatore o linker vero e proprio.

In varie forme di attuazione, per compilare applicazioni per sistemi embedded si puÃ² utilizzare la cross-compilazione, ossia una tecnica con cui si compila un codice sorgente ottenendo un file binario eseguibile su un'architettura diversa da quella della macchina su cui si Ã ̈ lanciato il cross-compilatore.

In varie forme di attuazione, Ã ̈ possibile utilizzare una piattaforma informatica costituita dalla distribuzione del sistema operativo Linux su un'architettura ST40 della Richiedente (STLinux). I sistemi ST40 sono basati su una struttura altamente modulare. Qualsiasi implementazione dellâ€™architettura ST40, come ad esempio il chip ST40RA, Ã ̈ costituita da un certo numero di moduli che comunicano tra loro usando una o piÃ¹ connessioni. Questo sistema di interconnessione, chiamato superHyway, fornisce un meccanismo di scambio di pacchetti tra i moduli ed Ã ̈ organizzato in modo da massimizzare le prestazioni del sistema minimizzando i costi. Lâ€™elevata connettivitÃ dellâ€™architettura rende i dispositivi ST40 molto versatili e ideali per applicazioni che richiedono alte prestazioni e lâ€™elaborazione di molti dati.

In varie forme di attuazione la perdita di qualitÃ Ã ̈ in ogni caso modesta e non risulta visibile nelle immagini riprodotte dai dispositivi video.

In varie forme Ã ̈ possibile mettere in atto misure di ottimizzazione elaborativa con un miglioramento significativo in termini di complessitÃ asintotica, riscontrato anche la misura dei tempi di esecuzione.

Varie forme di attuazione si prestano alla creazione di una libreria C per la gestione e la manipolazione dei file MPO per una piattaforma informatica suscettibile di essere costituita dal sistema operativo STLinux su unâ€™architettura ST40. Tale libreria permette di effettuare il parsing dei file MPO e fornisce una interfaccia (API) che comprende un completo set di funzioni per la loro manipolazione e per lâ€™estrazione delle singole immagini.

Naturalmente, fermo restando il principio dell'invenzione, i particolari di realizzazione e le forme di attuazione potranno variare, anche in modo significativo, rispetto a quanto qui illustrato a puro titolo di esempio non limitativo, senza per questo uscire dall'ambito di protezione; tale ambito di protezione Ã ̈ definito dalle rivendicazioni annesse.

Claims

RIVENDICAZIONI 1. Procedimento per codificare unâ€™immagine stereoscopica comprendente una prima immagine singola (10A) ed una seconda immagine singola (10B), il procedimento comprendendo: - codificare (20A, 200B) detta prima immagine singola (10A) e detta seconda immagine singola (10B) con rispettivi livelli di qualitÃ di codifica, - unire (30) in un file di immagine multipla (MPO) detta prima immagine singola (10A) e detta seconda immagine singola (10B) codificate con detti rispettivi livelli di qualitÃ di codifica, il procedimento comprendendo codificare detta prima immagine singola con un primo livello di qualitÃ di codifica (20A) e detta seconda immagine singola (10B) con un secondo livello di qualitÃ di codifica (200B), in cui detto secondo livello di qualitÃ di codifica (200B) Ã ̈ inferiore a detto primo livello di qualitÃ di codifica (20A).
2. Procedimento secondo la rivendicazione 1, in cui: - detta prima immagine singola (10A) e detta seconda immagine singola (10B) sono codificate con codifica JPEG; e/o - detto file di immagine multipla Ã ̈ un file MPO.
3. Procedimento secondo la rivendicazione 2, avente almeno una caratteristica scelta fra le seguenti: - detta prima immagine singola (10A) Ã ̈ codificata (20A) JPEG con qualitÃ di codifica non inferiore ad 85; - detta seconda immagine singola (10B) Ã ̈ codificata (200B) JPEG con qualitÃ di codifica non superiore a 70; e/o - detta seconda immagine singola (10B) Ã ̈ codificata (200B) JPEG con qualitÃ di codifica non inferiore a 65.
4. Procedimento per decodificare unâ€™immagine stereoscopica codificata con il procedimento secondo una qualsiasi delle rivendicazioni 1 a 3, il procedimento di decodifica comprendendo: - estrarre (35) da detto file di immagine multipla (MPO) detta prima immagine singola codificata con un primo livello di qualitÃ di codifica, - estrarre (35) da detto file di immagine multipla (MPO) detta seconda immagine singola codificata con un secondo livello di qualitÃ di codifica inferiore a detto primo livello di qualitÃ di codifica, e - utilizzare (100) informazioni di detta prima immagine singola estratta (50A) per migliorare la seconda immagine singola estratta (50B).
5. Procedimento secondo la rivendicazione 4, in cui utilizzare informazioni di detta prima immagine singola estratta (50A) per migliorare la seconda immagine singola estratta (50B) comprende: - identificare parti comuni (Yâ€™) di detta prima immagine singola estratta (50A) e di detta seconda immagine singola estratta (50B), e - ricostruire detta seconda immagine singola estratta (50B) a partire da detta prima immagine singola estratta (50A) in dette parti comuni (Yâ€™) identificate.
6. Procedimento secondo la rivendicazione 5, in cui detto ricostruire comprende almeno uno fra: - calcolare una media aritmetica tra detta seconda immagine singola estratta (50B) e detta prima immagine singola estratta (50A), - calcolare una media mobile esponenziale tra detta seconda immagine singola estratta (50B) e detta prima immagine singola estratta (50A), - una ricostruzione di Kohonen (KBR).
7. Procedimento secondo la rivendicazione 5 o la rivendicazione 6, in cui detta seconda immagine singola estratta (50B) Ã ̈ ricostruita a partire da detta prima immagine singola estratta (50A) elaborando detta prima immagine estratta (50A) e detta seconda immagine estratta (50B) suddivise in blocchi, con ciascun blocco costituito da un insieme di matrici relative a luminanza (Yblock) e crominanza (Cb block, Cr block), ricostruendo un detto blocco per volta elaborando in sequenza le matrici di detto insieme per ciascun blocco.
8. Procedimento secondo una qualsiasi delle rivendicazioni 5 a 7, in cui detto identificare parti comuni (Yâ€™) di detta prima immagine singola estratta (50A) e di detta seconda immagine singola estratta (50B) comprende ricercare in detta prima immagine singola estratta (50A) una parte comune (Yâ€™) simile alla parte di detta seconda immagine singola estratta (50B) da ricostruire, detta parte comune (Yâ€™) essendo identificata come almeno una fra: - una parte (Y1) di detta prima immagine singola estratta (50A) simile ad una parte di detta seconda immagine singola estratta (50B) identificata calcolando una correlazione incrociata (XCORR), di preferenza normalizzata, tra la parte di detta seconda immagine singola estratta (50B) da ricostruire (Y block) ed una parte omologa (CY) della prima immagine singola estratta (50A). - una parte (Y2) della prima immagine singola estratta (50A) che si trova nella stessa posizione della parte di detta seconda immagine singola estratta (50B) da ricostruire.
9. Procedimento secondo la rivendicazione 8, comprendente: - a) determinare come possibili candidati (Y1, Y2) di parte comune (Yâ€™) simile alla parte di detta seconda immagine singola estratta (50B) da ricostruire entrambe: - i) detta parte (Y1) di detta prima immagine singola estratta (50A) simile ad una parte di detta seconda immagine singola estratta (50B) identificata calcolando una correlazione incrociata (XCORR) tra la parte di detta seconda immagine singola estratta (50B) da ricostruire (Y block) ed una parte omologa (CY) della prima immagine singola estratta (50A), - ii) detta parte (Y2) della prima immagine singola estratta (50A) che si trova nella stessa posizione della parte di detta seconda immagine singola estratta (50B) da ricostruire, - b) ricostruire la parte di detta seconda immagine singola estratta (50B) da ricostruire con uno fra detti candidati (Y1, Y2) scelto come il candidato che minimizza una metrica stabilita (MET).
10. Procedimento secondo la rivendicazione 9, comprendente ricostruire la parte di detta seconda immagine singola estratta (50B) da ricostruire con uno fra detti candidati (Y1, Y2) scelto come il candidato che minimizza la media degli scarti tra il candidato e la parte di detta seconda immagine singola estratta (50B) da ricostruire.
11. Procedimento secondo una qualsiasi delle rivendicazioni 8 a 10, comprendente calcolare detta correlazione incrociata (XCORR) utilizzando un sottoinsieme di detta prima immagine singola estratta (50A) centrato sulla posizione della parte di detta seconda immagine singola estratta (50B) da ricostruire (Y block).
12. Codificatore (10A, 10B, 20A, 20, 30) configurato per codificare unâ€™immagine stereoscopica con il procedimento secondo una qualsiasi delle rivendicazioni 1 a 3.
13. Decodificatore (40A, 40B, 100, MS, MET, KBR) configurato per decodificare unâ€™immagine stereoscopica con il procedimento secondo una qualsiasi delle rivendicazioni 4 a 11.
14. Prodotto informatico caricabile nella memoria di almeno un elaboratore elettronico e comprendente porzioni di codice software per attuare i passi del procedimento di codifica secondo una qualsiasi delle rivendicazioni 1 a 3.
15. Prodotto informatico caricabile nella memoria di almeno un elaboratore elettronico e comprendente porzioni di codice software per attuare i passi del procedimento di decodifica secondo una qualsiasi delle rivendicazioni 4 a 11.
16. Supporto che veicola unâ€™immagine stereoscopica comprendente una prima immagine singola (10A) ed una seconda immagine singola (10B) codificata con il procedimento secondo una delle rivendicazioni 1 a 3.