ITTO20120985A1

ITTO20120985A1 - Procedimenti per la codifica e la decodifica di flussi di frame video digitali, relativi sistemi e prodotti informatici

Info

Publication number: ITTO20120985A1
Application number: IT000985A
Authority: IT
Inventors: Danilo Pietro Pau
Original assignee: St Microelectronics Srl
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2014-05-15
Also published as: US10445613B2; US20140133550A1

Description

DESCRIZIONE dell'invenzione industriale dal titolo:

"Procedimenti per la codifica e la decodifica di flussi di frame video digitali, relativi sistemi e prodotti informatici"

TESTO DELIA DESCRIZIONE

Campo tecnico

La presente descrizione si riferisce alla codifica/decodifica di flussi di frame (trame) video digitali.

Varie forme di attuazione possano applicarsi al trattamento di segnali video digitali.

Sfondo tecnologico

Documenti quali il documento ISO/IEC JTC1/SC29/WG11/W12929, July 2012, Stockholm, SE, Test Model 3: Compact Descriptors For Visual Search descrivono tecniche di elaborazione (ad esempio con architettura pipeline) basate sull'impiego di descrittori compatti utilizzabili per funzioni di matching e retrieval di immagini.

Scopo e sintesi

Varie forme di attuazione si prefiggono lo scopo di estendere il campo di applicazione di tali tecniche, in particolare alla codifica/decodifica di segnali video digitali contenenti oggetti e o scene in movimento rispetto all'osservatore o alla camera da ripresa.

Varie forme di attuazione permettono di conseguire tale scopo grazie a procedimenti aventi le caratteristiche richiamate nelle rivendicazioni che seguono.

Varie forme di attuazione possono riferirsi a corrispondenti sistemi di codifica/decodifica nonché a prodotti informatici caricabili nella memoria di almeno un elaboratore e comprendenti parti di codice software suscettibili di realizzare le fasi dei suddetti procedimenti quando il prodotto è eseguito su almeno un elaboratore. Così come qui utilizzato, il riferimento ad un tale prodotto informatico è inteso essere equivalente al riferimento ad un mezzo leggibile da elaboratore contenente istruzioni per il controllo del sistema di elaborazione per coordinare l'attuazione del procedimento secondo l'invenzione. Il riferimento ad "almeno ad un elaboratore" è evidentemente inteso a mettere in luce la possibilità che la presente invenzione sia attuata in forma modulare e/o distribuita su più unità di elaborazione.

Le rivendicazioni formano parte integrante dell'insegnamento tecnico qui somministrato in relazione all'invenzione .

Breve descrizione delle figure

Varie forme di attuazione saranno ora descritte, a puro titolo di esempio non limitativo, con riferimento alle figure annesse, in cui:

- le figure 1 e 2 sono schemi a blocchi funzionali che illustrano possibili funzioni di trattamento di immagini basate sulla estrazione di informazioni distintive (feature),

- la figura 3 è uno schema a blocchi funzionale che illustra possibili modalità di estrazione di feature, - la figura 4 è uno schema a blocchi genericamente illustrativo di un possibile contesto di applicazione di forme di attuazione,

- le figure 5 e 6, comprendente tre parti indicate rispettivamente con a), b) e c), nonché le figure 7 ed 8 illustrano esempi di operazioni di elaborazione secondo forme di attuazione,

- le figure 9 a il sono schemi a blocchi di un esempio di attuazione di un codificatore, e

le figure 12 e 13 illustrano un esempio di attuazione di un codificatore.

Descrizione particolareggiata

Nella seguente descrizione sono illustrati vari dettagli specifici finalizzati ad un'approfondita comprensione di vari esempi di forme di attuazione. Le forme di attuazione possono essere realizzate senza uno o più dei dettagli specifici, o con altri metodi componenti materiali, etc. In altri casi, strutture, materiali o operazioni noti non sono mostrati o descritti in dettaglio per evitare di rendere oscuri i vari aspetti delle forme di attuazione .

Il riferimento ad "una forma di attuazione" nell'ambito di questa descrizione sta ad indicare che una particolare configurazione, struttura o caratteristica descritta in relazione alla forma di attuazione è compresa in almeno una forma di attuazione. Quindi, frasi come "in una forma di attuazione", eventualmente presenti in diversi luoghi di questa descrizione non sono necessariamente riferite alla stessa forma di attuazione. Inoltre, particolari conformazioni, strutture o caratteristiche possono essere combinate in ogni modo adeguato in una o più forme di attuazione.

I riferimenti qui utilizzati sono soltanto per comodità del lettore e non definiscono dunque l'ambito di tutela o la portata delle forme di attuazione.

Le figure 1 a 3 sono desunte dal documento ISO/IEC JTC1/SC29/WG11/W12929, già in precedenza citato, ed in particolare dal capitolo 1. Introduction e dal capitolo 2. Compact descriptor extraction del documento in questione, che, al successivo capitolo 5. Software Architecture and implementation details, illustra esempi di implementazione di una architettura per la selezione dei informazioni distintive più significativi da comprimere in ciascuna frame video digitale considerata.

In particolare, gli schemi delle figure 1 e 2 illustrano a livello di schema a blocchi esempi di architetture funzionali utilizzabili per svolgere una funzione di calcolo degli abbinamenti o corrispondenza (matching) M o di reperimento o ricerca (search o retrieval) S di frame video, ossia di immagini, digitali.

Nel primo caso (azione di matching M della figura 1) è possibile verificare in modo automatizzato (ad esempio tramite un computer) se due immagini rappresentano gli stessi oggetti o la stessa scena. Ciò avviene operando su su una immagine di interrogazione (Query Image) QI e su una immagine di riferimento (Reference Image) RI.

A tal fine, entrambe le immagini possono essere sottoposte ad un'operazione di estrazione di descrittori (genericamente indicata con 10) e ad un operazione di confronto condotta in M operando appunto sui descrittori e le informazioni distintive in 10 e diretta a rilevare l'eventuale adattamento o matching. Il risultato dell'elaborazione, indicato con R, indica se l'immagine di interrogazione o Query Image QI rappresenta oppure no gli stessi oggetti o la stessa scena, ossia si adatta o corrisponde a ("matches") l'immagine di riferimento RI.

La funzione di retrieval cui fa schematicamente riferimento la figura 2 opera fondamentalmente secondo gli stessi criteri con la differenza data dal fatto che, nel caso della figura 2, il confronto in S è fatto con più immagini di riferimento RI±estratte da una base dati o database DB. In questo modo è possibile ricercare e reperire, nell'ambito del database DB, una o più immagini che riproducono gli stessi oggetti o la stessa scena dell'immagine di interrogazione QI.

Varie architetture e tecnologie di componenti suscettibili di realizzare le funzioni illustrate con riferimento alle figure 1 e 2 sono definite nel cosiddetto Test Model 3.0 (TM3) for Compact Descriptors for Visual Search (noto anche con 1'acronimo di CDVS): il modello TM3 implementa le funzionalità richieste per l'estrazione e il confronto di descrittori compatti limitati ad un insieme di lunghezze di descrittore (Descriptor Length) predeterminate .

Lo schema a blocchi della figura 3 illustra un possibile schema a blocchi di un sistema di elaborazione (ad esempio strutturata come pipeline) per l'estrazione di informazioni distintive o feature da frame video.

In varie forme di attuazione, un descrittore compatto di un'immagine I (che, in termini più generali, può essere vista sotto forma di trame o frame video digitali), può comprendere, oltre ad un certo numero di descrittori locali, anche un singolo descrittore globale suscettibile di rappresentare l'immagine nel suo insieme.

Lo schema della figura 3 illustra un esempio di architettura che permette di produrre un descrittore compatto di un'immagine/frame secondo il modello TM3 attraverso una sequenza di passi di elaborazione.

Nello schema della figura 3, il riferimento 12 illustra una funzione/modulo di identificazione di punti di interesse o punti chiave (interest points o keypoints) in un'immagine basata su una rappresentazione multiscala e suscettibile di essere realizzata, ad esempio, con una tecnica di differenze gaussiane (Differences-of-Gaussians o DoG).

Nello schema esemplificativo della figura 3, la funzione/modulo DoG 12 è seguita da una funzione/modulo 14 in cui i cosiddetti feature point sono descritti, ad esempio, con una trasformata invariante rispetto alla scala (Scale Invariant Feature Transform o SIFT).

Nello schema esemplificativo della figura 3, i risultati dell'azione di trasformata realizzata in 14 vengono alimentati ad una funzione/modulo 16 di selezione dei punti di interesse o keypoint, destinata a svolgere una funzione di selezione delle informazioni distintive o feature.

Ad esempio, in varie forme di attuazione, la funzione/modulo 16 può assegnare un valore positivo a ciascun tratto in funzione delle sue caratteristiche DOG, del relativo vettore SIFT e delle sue coordinate.

Ad esempio, nel caso in cui la n-esima feature di un'immagine sia indicata con sn(con una connotazione che incorpora le caratteristiche DoG, il vettore SIFT e le relative coordinate), è possibile indicare con r una grandezza indicativa della rilevanza del punto d'interesse (key point relevance); in questo modo, ad un determinato tratto o feature è possibile associare un valore r(sn), ed i suddetti valori di rilevanza possono essere ordinati in una scala decrescente facendo sì che, ad esempio, soltanto le prime L feature ni, ..., nLsiano mantenute, così da poter mantenere la lunghezza media della sequenza entro un certo limite di lunghezza.

Il risultato dell'elaborazione svolta in 16 (ossia la selezione di un numero limitato di punti chiave in grado di massimizzare una misura della qualità attesa in funzione dell'uso previsto - ad esempio per azioni di matching o search, così come esemplificate nelle figure 1 e 2) può essere sottoposto nell'ambito di una funzione/modulo 18 ad una compressione dei descrittori locali, ossia una quantizzazione scalare o vettoriale delle feature selezionate in 16.

Il risultato dell'elaborazione svolta in 18 è poi trasmesso ad una funzione/modulo 20 di compressione delle coordinate che comprime le coordinate dei punti di interesse selezionati così da generare in uscita i descrittori locali LD.

Il risultato della elaborazione svolta in 16 può poi essere inviato anche ad una funzione/modulo 22 che svolge una funzione di aggregazione delle feature SIFT così da formare un descrittore globale GD.

Possibili criteri di implementazione dello schema esemplificato nella figura 3 sono descritti in dettaglio nel documento ISO/IEC JTC1/SC29/WG11/W12929, già più volte citato, anche alla luce dell'articolo di D.G. Lowe: "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 60, 91-110 (2004). Per motivi di brevità, la relativa descrizione di dettaglio non viene quindi ripetuta in questa sede, anche perché di per sé non essenziale ai fini della comprensione delle forme di attuazione.

Rifacendosi a quanto detto in precedenza con riferimento alle fiqure 1 a 3 (ed alla illustrazione di dettaqlio fornita nei documenti ISO/IEC JTC1/SC29/WG11/W12929 e Lowe in precedenza citati), l'estrazione dei descrittori attuata nell'architettura descritta a titolo di esempio con riferimento alla fiqura 3 può essere ricondotta ad una qenerazione di rispettive sequenze (ad es. le sequenze utilizzate in M e S per confrontate le immaqini di "query" QI con le immaqini di riferimento RI e Rii) comprendenti un insieme di coppie [KP1i, D1i] [KP2i, D2i,], . , [KPmi, Dmi] in cui ai punti di interesse KP1i;ΚΡ2i, . KPmisono associati i relativi descrittori D1i, D2i, . , Dmi.

Una tale sequenza può essere compressa ad un numero limitato di bit limitando il numero delle coppie comprese nella sequenza. Ad esempio, il numero m delle coppie può essere limitato ad un valore di soqlia Ti per ciascuna frame, ossia m = 1, ..., Ti per la frame Fi con il numero di bit relativi limitato ad un valore num_bitsi, con la soqlia Ti che identifica in pratica il numero di coppie punti di interesse/descrittori raqqiunto il quale oqni ulteriore coppia, anche se rilevante, non contribuirebbe a qenerare bit in una sequenza corrispondente o, in alternativa, sarebbe compressa a 0 bit.

Varie forme di attuazione si basano sul riconoscimento del fatto che le tecniche di estrazione dei punti di interesse e dei descrittori cui si è fatto riferimento in precedenza possono essere utilizzate per la codifica/decodifica di frame (ossia di immaqini) video diqitali .

Nella figura 4, il riferimento Fcindica una frame video digitale "corrente" in un flusso di immagini video.

Nella stessa figura, Fpindica un'altra frame che può presentare in generale una distanza m/fps rispetto a Fc, dove fps è il numero di frame al secondo nel flusso video.

La rappresentazione della figura 4 mette in luce il fatto che m può essere un intero con segno (ossia positivo o negativo) , per cui la frame Fppuò essere sia successiva (ossia "futura"), sia precedente (ossia "passata") rispetto a Fc. Ancora, m può anche assumere il valore 0, nel qual caso le frame Fce Fppossono essere state acquisite da due fotocamere spazialmente adiacenti.

Per ciascuna delle frame Fc, Fpè possibile, utilizzando le tecniche già descritte in precedenza con riferimento alle figure 1 a 3, generare sequenze di punti di interesse e di relativi descrittori, ricavati ad esempio con le tecniche SIFT cui si è fatto riferimento in precedenza ed esprimibili in generale come:

- [KP1c, D1c], [KP2c, D2c], -, [KPic, Dic] con i=1,..., B per la frame Fce

- [KP1p, D1p], [KP2p, D2p], ..., [KPip, Dip] con i=1,..., C per la frame Fp.

Le suddette sequenze di punti di interesse (keypoint) e descrittori possono essere generate, ad esempio, adottando le soluzioni descritte nel lavoro di H. Lowe già citato in precedenza, segnatamente nei capitoli 3, 4, 5 e 6 dello stesso. Per brevità, la relativa descrizione non verrà quindi qui ripetuta. I tecnici esperti del settore noteranno peraltro che analoghe sequenze di punti di interesse e relativi descrittori possono essere generate, in varie forme di attuazione, con altre tecniche, parimenti note .

Per quanto qui interessa, si può osservare che ciascun descrittore Di può essere visto come un vettore comprendente un numero E di elementi scalari. Ad esempio, nel caso delle tecniche SIFT questo vettore può comprendere E = 128 elementi, ciascuno rappresentato con un byte (8 bit) . Ciascun descrittore Di può poi essere visto come comprendente un insieme di istoqrammi (ad esempio 16 istoqrammi) ciascuno comprendente un vettore (ad esempio ad otto componenti) in modo tale per cui: Dic= [h0,..., h15], con hj= [θ1,...,θ8], con j = 0,..., 15.

Facendo riferimento (per coerenza, ma senza intento limitativo) alla definizione dei descrittori SIFT esemplificata nell'articolo di Lowe qià più volte citato, hjpuò essere visto come un vettore deqli orientamenti dei qradienti in un cosiddetto sub-patch di pixel, ad esempio di 4x4 pixel, che formano conqiuntamente un patch di, ad esempio, 16x16 pixel centrato sul rispettivo punto di interesse KP . Una rappresentazione esemplificativa di quanto qui detto è riportata nella fiqura 5.

In varie forme di attuazione, fra i descrittori compresi nelle sequenze qenerate ("estratte") per le due frame Fc, Fpè possibile creare un abbinamento per coppie calcolando una distanza (distance ) per tutte le possibili combinazioni di descrittori, ad esempio secondo una relazione del tipo

dove la sommatoria si estende sui valori di k da 1 ad E.

La scelta della suddetta distanza "quadratica" non è peraltro imperativa. Ad esempio, in varie forme di attuazione è possibile utilizzare una definizione della suddetta distanza nei termini sequenti:

dove ancora una volta la sommatoria si estende sui valori di k da 1 ad E.

In varie forme di attuazione sono possibili scelte di definizioni di distanza ancora diverse, senza limitazioni a distanze di tipo essenzialmente euclideo.

In varie forme di attuazione, la definizione di distanza, quale che sia la scelta adottata, mira a stabilire una relazione spaziale, con l'intento di stabilire un abbinamento il meno errato possibile, fra un qualsiasi descrittore i-esimo di Fce un qualsiasi descrittore j-esimo di Fp.

Questo al fine di accoppiare, ovverosia abbinare o leqare (creando un "link") fra loro, le due coppie [KPic, Dic e [KPjP, DjP] per cui la distanza è quella minima rispetto alla distanze definibili per una qualsiasi altra coppia [KPic, Dic], [KPmp, Dmp] con m j.

Per completezza di trattazione si può notare che, in varie forme di attuazione, può esistere almeno un'altra coppia (sempre con m = j) tale da presentare una distanza molto vicina (a meno di una soqlia di vicinanza arbitraria) rispetto al caso per cui m = j . In varie forme di attuazione, senza perdita di qeneralità, è possibile codificare entrambe le coppie così identificate [KPic, Dic] e [KPmp, Dmp] come due distinte coppie codificate in base ai criteri esemplificati nel sequito.

La rappresentazione della fiqura 6, comprendente tre parti indicate rispettivamente con a) , b) e c), mette in luce che i due descrittore Dic, DjPpossono presentare rispettivi orientamenti principali, leqati alla natura vettoriale dell'istogramma, indicati ad esempio con R3 (per Dic)e R2 (per DjP)nelle parti a) e b) della figura 6.

In varie forme di attuazione, prima di attuare le ulteriori elaborazioni di cui meglio si dirà nel seguito, è possibile procedere a una trasformazione (ad esempio un riorientamento) mediante trasformazione degli istogrammi per proiettarli in unico sistema di riferimento RU, comune per entrambi gli istogrammi e che, così come esemplificato in termini generali nella parte c) della figura 6, può corrispondere ad un riferimento RI diverso (ad esempio ruotato) rispetto ai riferimenti R2 e R3 che gli istogrammi avevano inizialmente.

La rappresentazione della figura 7 illustra un'operazione di calcolo delle differenze delle componenti degli istogrammi proiettati secondo quanto detto sopra che presentano lo stesso indice nell'ambito del vettore, ossia attuata operando componente per componente.

Sulla base di queste differenze riscontrate fra i due descrittori è allora possibile esprimere uno dei descrittori (ad es. il descrittore DjPo, rispettivamente, il descrittore Dj_c)in funzione dell'altro (ad es. il descrittore Dico, rispettivamente, il descrittore DjP).

Detto altrimenti (con terminologia mutuata dalle tecniche di analisi e compensazione del moto correntemente impiegate, ad esempio, in standard quali gli standard MPEG) sulla base delle differenze è possibile "predire" uno dei descrittori (d'ora in poi si prenderà come esempio il descrittore DjP)in funzione dell'altro (ossia, nell'esempio considerato, il descrittore Dic), sostituendo la rappresentazione di DjPcon la differenza degli istogrammi; questo in quanto DjPpuò essere ricostruito a partire da Dj_ce dall'informazione relativa alla differenza fra gli istogrammi.

La figura 8 evidenzia come, in varie forme di attuazione, sia possibile leggere le rispettive componenti vettoriali a partire dai vettori differenziali seguendo i cammini indicati con le frecce.

Ad esempio, è possibile, calcolare la differenza

o, in termini generali,

dove, con riferimento alle dimensioni citate in precedenza in relazione alle tecniche di estrazione SIFT, j = 1, ..., 8 e i = 0, ..., 14.

In questo modo, per ciascun componente di orientamento di una differenza fra gli istogrammi è possibile calcolare una differenza o predizione a partire dalla componente letta in precedenza.

In varie forme di attuazione tale differenza può essere sottoposta a una funzione di sogliatura al fine di migliorare l'efficienza della successiva azione di compressione.

In varie forme di attuazione, la suddetta funzione di sogliatura può essere attuata ad esempio mettendo a zero tutti valori di un descrittore che ricadono al di sotto di una soglia adottata per tale operazione di sogliatura.

Il risultato della suddetta operazione di sogliatura può essere sottoposta a una quantizzazione scalare oppure vettoriale, ad uno o più stage gerarchici, in vista di una successiva codifica run-length nei termini meglio illustrati nel seguito.

Per immediato riferimento, la sequenza delle figure 9 e 10 fornisce una rappresentazione esemplificativa di un insieme di moduli di elaborazione (implementabili ad esempio tramite un computer quale un elaboratore o un processore, eventualmente a livello di software, ossia di prodotto informatico) suscettibili di attuare le operazioni di elaborazione descritte.

Ad esempio, i riferimenti 110a, 112a (relativi alla frame Fc) e 110b, 112b (relativi alla frame Fp) esemplificano l'operazione di estrazione dei punti di interesse o keypoint e la generazione dei relativi descrittori, suscettibile di essere condotta secondo i criteri illustrati nella parte introduttiva della presente descrizione .

Il riferimento 114 indica un modulo elaborativo che realizza la funzione di calcolo della distanza dei descrittori fornendo in uscita la (almeno una) coppia CP di descrittori accoppiati, abbinati o legati (linked) fra i quali, nel modulo indicato con 116 nella figura 10, si realizza l'azione di calcolo delle differenze degli istogrammi esemplificata nelle figure 7 e 8.

Il modulo 118 della figura 10 è dedicato allo svolgimento della funzione di sogliatura ed il modulo 120 indica un modulo utilizzabile per lo svolgimento dell'operazione di quantizzazione .

Tale operazione può essere svolta, secondo criteri noti, con l'impiego di un modulo di quantizzazione scalare (o vettoriale) inversa 20a destinato a fornire all'ingresso del modulo 116 la grandezza 0jdi dhi utilizzata per calcolare la differenza rispetto alla grandezza 0jdi dhi+i.

In varie forme di attuazione, la funzione di quantizzazione scalare (qui esemplificata dal modulo 120) può mirare a rappresentare ciascun singolo valore del descrittore tramite un numero di bit ridotto.

In varie forme di attuazione, la funzione di quantizzazione vettoriale (sempre esemplificata dal modulo 120) può mirare a rappresentare gruppi di valori del descrittore tramite un codice di lunghezza fisso, un indirizzo di uno o più dizionari, di varie dimensioni. In varie forme di attuazione (ad esempio per effetto dello svolgimento di un'operazione di normalizzazione non esplicitamente richiamata nei disegni), il descrittore può presentarsi sotto forma di un vettore normalizzato e presentare quindi tutti i suoi valori compresi fra 0 e 1. In varie forme di attuazione, risulta possibile quantizzare ciascun valore con un numero fisso di bit. Ad esempio, supponendo che b indichi un numero di bit utilizzati per ciascun valore e p rappresenti il valore i-esimo del descrittore originario, è possibile calcolare un valore corrispondente q di descrittore compresso utilizzando un'equazione del tipo, nel caso di quantizzazione scalare:

che, in modo duale, permette di ottenere una versione originale di p, denominata p±', con una relazione del tipo

L'operazione di quantizzazione genera all'uscita del quantizzatore 120 sequenze di valori diversi da 0 (non-zero values) fra cui possono essere presenti sequenze o burst di uno o più valori pari a 0.

Un tale segnale si presta ad una codifica run-length (suscettibile di essere attuata in un modulo 122 visibile nella figura 11) in cui, secondo criteri noti, si rileva il numero di valori pari a 0 compresi fra due valori diversi da 0 e si utilizza questo valore corrispondente al numero di zeri successivi come "LENGTH", mentre "RUN", è il valore di uno dei due valori non-zero posti all'estremità della sequenza di zero. Tale procedimento può essere ripetuto fino a quando non si trovano più valori diversi da zero. In varie forme di attuazione, il segnale sottoposto a codifica run-length nel modulo 122 può essere sottoposto ad un'ulteriore codifica destinata a generare descrittori complessi CD.

La rappresentazione della figura 11 illustra, a puro titolo esemplificativo, la possibilità di adottare, in varie forme di attuazione, varie tecniche di codifica 124a, 124b e 124c.

Il fatto che i blocchi o moduli 124a, 124b e 124c siano rappresentati come idealmente collocati in parallelo all'uscita del modulo di codifica run-length 122 non va peraltro interpretato nel senso di una necessaria ed imperativa contemporanea presenza di più moduli codificatori 124a, 124b e 124c.

In varie forme di attuazione può essere presente uno solo dei moduli 124a, 124b e 124c, la scelta essendo dettata a livello di progettazione dalle applicazioni previste.

Varie forme di attuazione possono prevedere la presenza di due o più moduli scelti fra i moduli 124a, 124b e 124c, con la conseguente possibilità di scegliere o l'uno o l'altro dei moduli in questione in funzione della specifica applicazione al momento implementata.

Ancora, varie forme di attuazione possono prevedere l'impiego in parallelo di due o più moduli 124a, 124b e 124c suscettibili di realizzare in modo contemporaneo o sostanzialmente contemporaneo codifiche di tipo diverso così da dare origine a ridondanza al fine di aumentare il grado di affidabilità dell'operazione di codifica (e della corrispondente operazione di decodifica destinata ad essere esemplificata nel seguito con riferimento alle figure 12 e In varie forme di attuazione, il modulo 124a può essere configurato per attuare una codifica di Huffman. La codifica di Huffman è una procedura di compressione senza perdite (lossless) con cui è possibile rappresentare i valori di segnale codificato che ricorrono più di frequente con un numero di bit più ridotto, letto da una memoria, ad esempio da una LUT (Look-Up-Table ), mentre il numero di bit utilizzati per la codifica cresce per i simboli meno frequenti. Le frequenze di occorrenza possono essere stimate tramite una fase di apprendimento, ad es. fuori linea, dove il codificatore apprende la distribuzione di probabilità associata ai simboli e riempie in modo corrispondente le locazioni della memoria (ad esempio LUT) utilizzata per la codifica.

In varie forme di attuazione, il modulo 124b può essere configurato per attuare una codifica aritmetica (arithmetic coding) . Alla base della codifica aritmetica sta ancora una volta il principio di rappresentare i valori più frequenti con un numero di bit più basso, mentre il numero di bit utilizzati per la codifica cresce per i simboli meno frequenti. Alla base della codifica aritmetica sta la considerazione del fatto che la probabilità di occorrenza di ciascun simbolo ricade nell'intervallo [0, 1) e che la somma di tutte le probabilità è pari ad 1. L'intervallo in questione contiene un numero infinito di numeri reali, per cui è possibile codificare qualunque sequenza tramite un numero compreso fra [0, 1). Ancora una volta, le frequenze di ricorrenza dei simboli possono essere stimate in una fase di apprendimento, ad es. fuori linea, ove si determina la distribuzione di probabilità associata ai simboli. In varie forme di codifica aritmetica è possibile fare a meno di una specifica fase di apprendimento, ricorrendo a una versione adattativa della procedura in cui la procedura comincia considerando tutti i simboli aventi la stessa frequenza e poi aggiorna la sua conoscenza relativa alle frequenze ogni volta che un simbolo viene codificato (o decodificato).

In varie forme di attuazione, il modulo 124c può essere configurato per attuare una codifica di tipo (Type Coding o TC), ovverosia una tecnica di quantizzazione vettoriale in cui ad un simbolo m-dimensionale s è possibile associare l'elemento vicino più prossimo q su un reticolo regolare m-dimensionale. In questo modo, invece di s si trasmette l'indice associato a q. Il principale beneficio sta nel fatto che la struttura del reticolo risulta indipendente dai dati, per cui la codifica di tipo non richiede di creare e di trasmettere alcun codice o codebook. La codifica di tipo TC si basa su due parametri: m, vale a dire il numero di elementi in ciascun simbolo, e n, utilizzato per controllare il numero di elementi costituenti il reticolo. Il parametro m é un divisore della lunghezza totale del descrittore.

Così come già indicato, la rappresentazione delle figure 12 e 13 rappresenta possibili esempi di attuazione di una procedura/sistema suscettibile di decodificare i descrittori compressi CD generati secondo le modalità esemplificate in precedenza.

Nello schema della figura 12, i riferimenti 124a', 124b' e 124c' identificano moduli suscettibili di realizzare sui descrittori compressi CD azioni di decodifica complementari alle azioni di codifica attuate nei moduli 124a, 124b e 124c della figura 11, ovverosia una decodifica di Huffman (modulo 124a'), una de-codifica aritmetica (ad esempio adattativa - modulo 124b') e/o una decodifica di tipo (modulo 124c').

In varie forme di attuazione, per i moduli 124a', 124b' e/o 124c' può valere quanto detto in precedenza in relazione ai moduli 124a, 124b e/o 124c

Il fatto che i blocchi o moduli 124a', 124b' e 124c' siano rappresentati come idealmente collocati in parallelo non va dunque interpretata nel senso di una necessaria ed imperativa contemporanea presenza di più moduli decodificatori 124a', 124b' e 124c'.

In varie forme di attuazione può essere presente uno solo dei moduli 124a', 124b' e 124c', la scelta essendo dettata a livello di proqettazione dalle applicazioni previste.

Varie forme di attuazione possono prevedere la presenza di due o più moduli scelti fra i moduli 124a', 124b' e 124c' con la consequente possibilità di sceqliere o l'uno o l'altro dei moduli in questione in funzione della specifica applicazione al momento implementata.

Ancora, varie forme di attuazione possono prevedere l'impieqo in parallelo di due o più moduli 124a', 124b' e 124c' suscettibili di realizzare in modo contemporaneo o sostanzialmente contemporaneo decodifiche di tipo diverso così da dare oriqine a ridondanza al fine di aumentare il qrado di affidabilità dell'operazione di decodifica.

Quale che sia la soluzione adottata, all'uscita del modulo o dei moduli in questione è presente un'informazione suscettibile di essere alimentata ad un modulo di (de)codifica run-lenqth 122' operante secondo modalità complementari a quelle del modulo 122 visto in precedenza.

Ad esempio, in varie forme di attuazione, la decodifica run-lenqth (o codifica run-lenqth inversa) può per espandere un vettore bicomponente in un numero pari a "run" che segue (o precede, eventualmente) un numero di zeri pari a "length".

Il segnale risultante dalla decodifica run-length è alimentato a un modulo 120 che realizza una quantizzazione scalare inversa secondo l'equazione

Pi' = 1/(2<b>-1).qi

già richiamata in precedenza.

Opzionalmente, il segnale risultante dalla decodifica run-length può essere alimentato a un modulo 120 che realizza una quantizzazione vettoriale che è usato per indirizzare uno o piu dizionario copia di quelli usati lato codificatore vettoriale. A detto indirizzo/i si leggerà dunque la parola/e da inviare al modulo successivo, eventualmente sommate nel caso di uso di più dizionari.

In varie forme di attuazione, un successivo modulo 118' può svolgere quindi una funzione di accumulo (in funzione di un ritardo definito in un blocco 18a) così da ricreare le grandezze θjdi dhi (ossia la differenza degli istogrammi rappresentativi di DjPe Dicsecondo le modalità schematicamente rappresentate nella figura 13.

In questo modo (ossia operando sostanzialmente in modo complementare a quanto fatto nel modulo 14 della figura 9) è possibile "ri-ottenere" valori dei descrittori di entrambe le frame, ossia Dice DjP(quest'ultimo ricostruito a partire da Dice dalle differenze degli istogrammi).

La disponibilità dei descrittori, con la conservazione dell'informazione relativa ai punti di interesse o keypoints cui gli stessi si riferiscono (attuabile ad esempio tramite le coordinate codificate dal blocco 20 della figura 3) permette di ricostruire (secondo una qualsiasi tecnica nota a tal fine) una versione o replica (approssimata) dei descrittori delle trame di partenza. Naturalmente, fermo restando il principio dell'invenzione, i particolari di realizzazione e le forme di attuazione potranno variare, anche in modo significativo, rispetto a quanto qui illustrato a puro titolo di esempio non limitativo, senza per questo uscire dall'ambito di protezione. Tale ambito di protezione é definito dalle rivendicazioni annesse.

Claims

RIVENDICAZIONI 1. Procedimento per codificare una prima (Fc) ed una seconda (Fp) frame video in un flusso di frame video digitali, il procedimento comprendendo: - estrarre (110a, 112a; 110b, 112b) per dette prima (Fc) e seconda (Fp) frame rispettivi insiemi di punti di interesse e descrittori ([KPic, Dic], [KP2c, D2c], -, [KPic, Did , [FP]_p, Dip], [KP2p, D2p], ..., [KPip, Dip]), in cui ciascun descrittore comprende una pluralità di istogrammi di orientamento relativi ad un patch di pixel (Pic) centrato sul rispettivo punto di interesse (KPic), - identificare (114) una coppia (CP) di descrittori (Dic, DjP)legati, uno (Dic)per la prima frame (Fc) e l'altro (DjP)per la seconda frame (Fp), aventi una distanza minima fra le distanze fra uno qualsiasi dei descrittori della prima frame (Fc) ed uno qualsiasi dei descrittori della seconda frame (Fp), calcolare (116) le differenze (dhi, dhi+1) degli istogrammi dei descrittori (Dic, DjP)legati in detta coppia (CP), e codificare (122; 124a, 124b, 124c) i descrittori (Dic, Djp) legati in detta coppia (CP) come l'insieme comprendente uno (Dic)dei descrittori (Dic, DjP)legati in detta coppia (CP) e le suddette differenze degli istogrammi (dhi, dhi+i), in cui dette differenze degli istogrammi (dhi, dhi+i) sono sottoposte, di preferenza dopo una sogliatura (118) attuata ponendo a zero tutte le differenze al di sotto di una certa soglia, a quantizzazione (120) ed a codifica run-length (122).
2. Procedimento secondo la rivendicazione 1, in cui detta codifica run-length (122) è seguita da un'ulteriore codifica scelta fra una codifica di Huffman (124a), una codifica aritmetica (124b) ed una codifica di tipo (124c).
3. Procedimento secondo la rivendicazione 1 o la rivendicazione 2 comprendente, prima di calcolare (116) le suddette le suddette differenze degli istogrammi (dhi, dhi+i), proiettare gli istogrammi dei descrittori (Dic, DjP)legati in detta coppia (CP) in un sistema di coordinate comune (RI).
4. Procedimento secondo una qualsiasi delle rivendicazioni 1 a 3, comprendente: - identificare (114), oltre a detta una coppia (CP) di descrittori (DiC, DjP)legati aventi una distanza minima fra le distanze fra uno qualsiasi dei descrittori della prima frame (Fc)ed uno qualsiasi dei descrittori della seconda frame (Fp), una seconda coppia di descrittori legati aventi una distanza che differisce per meno di una soglia di differenza da detta distanza minima, e codificare tanto detta una coppia (CP) di descrittori (Dic, DjP)legati quanto detta seconda coppia come coppia codificata.
5. Procedimento per decodificare una prima (Fc)ed un seconda (Fp)frame video codificate con il procedimento secondo una qualsiasi delle rivendicazioni 1 a 4, il procedimento di decodifica comprendendo: - ricuperare (124a', 124b', 124c') dette differenze di istogrammi (dhi, dhi+i)sottoposte a quantizzazione (120) e ad una codifica run-length (122), - sottoporre dette differenze di istogrammi ricuperate a codifica run-length inversa (122') per produrre grandezze comprendenti due componenti con un numero pari a RUN seguito o preceduto da numero di zeri pari a LENGTH, - sottoporre dette grandezze a due componenti ad una quantizzazione inversa (120'), generare, a partire da detto uno (Dic)dei descrittori (Dic, DjP)legati in detta coppia (CP) e da dette grandezze a due componenti sottoposte a quantizzazione inversa (120'), una replica dell'altro (DjP)dei descrittori (Dic, DjP)legati in detta coppia (CP).
6. Procedimento secondo la rivendicazione 5, in cui detto ricuperare dette differenze codificate run-length comprende un'operazione di decodifica scelta fra una decodifica di Huffman (124a'), una decodifica aritmetica (124b') ed una decodifica di tipo (124c').
7. Codificatore per codificare un flusso di frame video digitali, il codificatore essendo configurato (110a, 112a, 110b, 112b, 114, 116, 118, 120, 120a; 124a, 124b, 124c) per attuare il procedimento di codifica secondo una qualsiasi delle rivendicazioni 1 a 4.
8. Decodificatore per decodificare un flusso di frame digitali video codificato con il procedimento secondo una qualsiasi delle rivendicazioni 1 a 4, il decodificatore essendo configurato (124a', 124b', 124c', 122', 120', 118', 118a') per attuare il procedimento di decodifica secondo una qualsiasi delle rivendicazioni 5 o 6.
9. Prodotto informatico, caricabile nella memoria di almeno un elaboratore e comprendente porzioni di codice software per attuare il procedimento di codifica secondo una qualsiasi delle rivendicazioni 1 a 4.
10. Prodotto informatico, caricabile nella memoria di almeno un elaboratore e comprendente porzioni di codice software per attuare il procedimento di decodifica secondo una qualsiasi delle rivendicazioni 5 a 6.