ITVI20120041A1

ITVI20120041A1 - Rilevazione di caratteristiche di un'immagine

Info

Publication number: ITVI20120041A1
Application number: IT000041A
Authority: IT
Inventors: Arcangelo Ranieri Bruna; Danilo Pietro Pau
Original assignee: St Microelectronics Srl
Priority date: 2012-02-22
Filing date: 2012-02-22
Publication date: 2013-08-23
Also published as: US20130216097A1; US9158991B2

Description

DESCRIZIONE

DELLâ€™INVENZIONE DAL TITOLO â€œRivelazione di caratteristiche di unâ€™immagineâ€

CAMPO TECNICO DELLâ€™INVENZIONE

La presente invenzione riguarda il campo della rivelazione di dettagli caratteristici in unâ€™immagine e, in particolare, la rivelazione di dettagli caratteristici dâ€™immagini basata sulla localizzazione di punti chiave e sui descrittori di punti chiave.

STATO DELLâ€™ARTE NOTA

La rivelazione di dettagli caratteristici di immagini Ã ̈ un compito importante in una vasta gamma di applicazioni per la visione computerizzata. Per esempio, la rivelazione di dettagli Ã ̈ una fase essenziale nel confronto di immagini e nel riconoscimento di oggetti. Dettagli caratteristici di immagini comprendono tipicamente bordi, spigoli, angoli, linee e chiazze puntiformi.

Attualmente, la rivelazione di dettagli caratteristici Ã ̈ generalmente basata sullâ€™algoritmo SIFT (Scale Invariant Feature Transform); si veda, per esempio, â€œDistinctive image features from scale invariant keypointsâ€ , di David C. Lowe, in International Journal of Computer Vision, 60, 2 (2004), pagine 91- 110. Il descrittore di dettagli caratteristici di Lowe Ã ̈ particolarmente vantaggioso in quanto Ã ̈ invariante per riscalamento e rotazione dell' immagine come pure per cambiamenti di illuminazione. Lâ€™algoritmo SIFT comprende quattro fasi di calcolo (per dettagli confrontare lâ€™articolo citato di Lowe). La prima fase Ã ̈ una rivelazione di estremi nello spazio delle scale che impiega la funzione differenza di gaussiane (DoG). Lo spazio delle scale Ã ̈ definito dalla funzione L(x, y, Ïƒ) = G(x, y, Ïƒ) ® I(x, y) dove ® Ã ̈ lâ€™operatore di convoluzione, G(x, y, Ïƒ) Ã ̈ una gaussiana di scala variabile e I(x, y) Ã ̈ lâ€™immagine di input in considerazione.

La fase successiva Ã ̈ una localizzazione di punti chiave stabili ottenuta mediante il calcolo della differenza tra due immagini, una con scala k volte lâ€™altra: D(x, y, Ïƒ) = L(x, y, kÏƒ) - L(x, y, Ïƒ) e una rivelazione dei massimi e minimi locali di D(x, y, Ïƒ). La terza fase Ã ̈ lâ€™attribuzione di una orientazione al sito di ciascun punto chiave sulla base delle direzioni locali dei gradienti dellâ€™immagine. Attraverso lâ€™attribuzione di una orientazione sistematica a ciascun punto chiave sulla base delle proprietÃ locali dellâ€™immagine, un descrittore di punto chiave ottenuto nella quarta fase si puÃ² rappresentare relativamente alla propria orientazione. I descrittori di punto chiave generalmente impiegano un insieme di 16 istogrammi ottenuti dalle orientazioni dei gradienti dei punti di campionamento, allineati in una griglia 4x4, ciascuno con 8 intervalli di orientazione, un intervallo per ciascuna direzione corrispondente ai principali punti cardinali ed uno per ciascuno dei punti intermedi fra queste direzioni.

Tuttavia, le implementazioni attuali dellâ€™algoritmo SIFT richiedono processori di alta potenza e vasta disponibilitÃ di memoria. Dâ€™altra parte Ã ̈ altamente auspicabile la rivelazione di dettagli caratteristici in tempo reale in sistemi integrati, per esempio in dispositivi mobili di cattura di immagini quali fotocamere digitali. CosÃ¬, nonostante i recenti progressi in campo ingegneristico, Ã ̈ ancora sentita la necessitÃ di un metodo migliorato per la rivelazione di dettagli caratteristici, che permetta lâ€™implementazione in dispositivi mobili di cattura di immagini con risorse computazionali limitate.

DESCRIZIONE DELLâ€™INVENZIONE

La presente invenzione si rivolge ai bisogni suindicati e, di conseguenza, fornisce un metodo per la rivelazione di dettagli caratteristici di unâ€™immagine comprendente

estrazione di una striscia da unâ€™immagine digitale, comprendendo la striscia una pluralitÃ di blocchi; elaborazione della pluralitÃ di blocchi al fine di localizzare uno o piÃ¹ punti chiave; e

rivelazione di uno o piÃ¹ dettagli caratteristici dellâ€™immagine sulla base dellâ€™unico o dei molteplici punti chiave localizzati.

Lâ€™immagine puÃ² essere per esempio una foto digitale, oppure unâ€™immagine acquisita da un sensore di immagini prima di qualunque compressione come MJPEG o H264. La striscia comprende un sottoinsieme di pixel dellâ€™immagine digitale. La striscia puÃ² essere un estratto dellâ€™immagine digitale orientato orizzontalmente oppure verticalmente. La striscia puÃ² consistere di un numero di blocchi disposti soltanto orizzontalmente oppure di un numero di blocchi disposti soltanto verticalmente. Ogni blocco comprende un sottoinsieme di pixel della striscia. Dimensioni tipiche di un blocco sono, per esempio, dellâ€™ordine di 16x16, 32x32, 64x64 fino a 128x128 pixel, ma I blocchi possono essere rettangolari invece che quadrati, come per esempio 32x64. Secondo lâ€™invenzione, data una striscia estratta dallâ€™intera immagine in considerazione, lâ€™elaborazione per la rivelazione di dettagli caratteristici Ã ̈ eseguita in base ai blocchi. PerciÃ², tanto i requisiti di memoria, quanto i ritardi di elaborazione come pure i tempi di elaborazione possono essere ridotti rispetto allâ€™arte nota.

Secondo una forma di realizzazione, la fase dellâ€™elaborazione della pluralitÃ di blocchi comprende una trasformata dei dati dei blocchi verso il dominio della frequenza. Questo passo corrisponde alla trasformazione verso unâ€™immagine in toni di grigio acquisita da un sistema a catena di elaborazione di immagini che legge il pattern di Bayern grezzo e lo converte in RGB per pixel, tuttavia tale passo puÃ² anche essere lâ€™output di un post processore come un decoder video capace di eseguire un processo di riduzione del rumore e miglioramento della qualitÃ dell'immagine. La distribuzione in frequenza del blocco trasformato (dati) costituisce una prima indicazione, per via della distribuzione di frequenze spaziali, riguardo la presenza o assenza di uno o piÃ¹ punti chiave nel blocco. Per esempio, se soltanto una componente continua Ã ̈ disponibile, ciÃ² significa che non ci sono punti chiave disponibili, mentre una maggiore ricchezza di distribuzione di componenti in frequenza segnalerÃ la potenziale presenza di punti chiave. Prima di determinare se il blocco sia un possibile candidato per un punto chiave incluso nel blocco, i dati del blocco trasformati nel dominio della frequenza possono essere soggetti ad un filtraggio passa basso al fine di selezionare, per esempio, frequenze spaziali per una ulteriore elaborazione.

Secondo una forma di realizzazione del metodo inventivo lâ€™elaborazione della pluralitÃ di blocchi comprende ulteriormente un certo numero di filtraggi e sottocampionamenti dei dati del blocco trasformati verso il dominio della frequenza, al fine di generare un certo numero di ottave. Ciascuna ottava (compresa la prima ottenuta senza alcun sotto-campionamento dei blocchi della striscia estratta) comprende un numero di blocchi trasformati verso il dominio della frequenza. Ciascuna ottava viene elaborata per la localizzazione di punti chiave.

Prima della localizzazione di punti chiave vera e propria in un blocco che sia stato individuato come candidato a contenere un punto chiave, il metodo per la rivelazione di dettagli caratteristici puÃ² comprendere una trasformata in frequenza inversa dei dati dei blocchi dal dominio della frequenza al dominio spaziale. Successivamente, runico o la molteplicitÃ di punti chiave vengono localizzati nel dominio spaziale sulla base dei dati dei blocchi inversamente trasformati.

In alternativa, runico o i molteplici punti chiave possono essere localizzati nel dominio della frequenza sulla base dei dati dei blocchi filtrati nel dominio della frequenza prima della trasformata inversa dei dati dei blocchi. In entrambi i casi, la localizzazione di punti chiave Ã ̈ basata sullâ€™elaborazione nel dominio della frequenza invece di unâ€™elaborazione nel dominio dei pixel, come la differenza di gaussiane impiegata nellâ€™arte nota.

Tuttavia, come precedentemente accennato, il metodo puÃ² comprendere il passo di stabilire se un blocco comprende potenzialmente un punto chiave sulla base della distribuzione in frequenza dei dati dei blocchi cui si Ã ̈ applicato un filtraggio passa basso e in cui soltanto un blocco in cui si Ã ̈ stabilita la presenza potenziale di un punto chiave viene elaborato per la localizzazione dei punti chiave.

A seconda delle risorse computazionali, Ã ̈ inoltre previsto che un sotto-campionamento di un blocco della striscia al fine di generare ottave venga eseguito in parallelo allâ€™elaborazione del blocco per la localizzazione di punti chiave nella prima ottava (o in unâ€™ottava superiore) al fine di risparmiare tempo complessivo di calcolo sfruttando lâ€™intrinseco parallelismo dellâ€™algoritmo. Per la stessa ragione, lâ€™elaborazione per la rivelazione di dettagli caratteristici si puÃ² eseguire in parallelo per un certo numero di filtri passa-banda forniti per unâ€™ottava.

Dopo la localizzazione di un punto chiave, le forme di realizzazione descritte precedentemente del metodo per la rivelazione di dettagli caratteristici qui fornito possono inoltre comprendere lâ€™estrazione di una patch di NxM punti di campionamento attorno al punto chiave localizzato e lâ€™elaborazione della patch per la rivelazione di dettagli caratteristici. Lâ€™elaborazione della patch per la rivelazione di dettagli caratteristici puÃ², in particolare, comprendere il passo di generare un istogramma di gradienti di punti di campionamento, assegnare unâ€™orientazione a ciascun punto chiave localizzato sulla base dellâ€™istogramma e generare un descrittore di punto chiave per ciascun punto chiave localizzato sulla base dellâ€™orientazione assegnata.

In alternativa lâ€™elaborazione della patch intorno al punto di interesse per la rivelazione di dettagli caratteristici puÃ², in particolare, comprendere il passo di generare un vettore di componenti in frequenza in un blocco di dati intorno al punto di interesse senza richiedere alcuna ulteriore trasformata inversa. Tale vettore puÃ² inoltre essere soggetto ad un processo di sogliatura, quantizzazione e codificazione entropica. Per esempio si puÃ² applicare un processo di sogliatura a zero: la norma del vettore puÃ² essere elaborata cosÃ¬ da diventare uguale a 1 , cosicchÃ© ciascun componente del vettore prenormalizzazione venga diviso dal modulo dello stesso. Tramite questa operazione ciascun elemento del descrittore SIFT prende un valore compreso tra 0 e 1. Ciascun valore inferiore ad una soglia Ã ̈ posto uguale a 0. Secondo la quantizzazione, si stabilisce una corrispondenza tra ciascun valore ed un valore intero rappresentato per esempio da 6 o 4 bit.

Secondo lâ€™Adaptive Arithmetic Coding (AAC) il vettore quantizzato di valori interi viene compattato con un algoritmo di codifica aritmetica adattativa. In alternativa allâ€™AAC, si puÃ² impiegare la codificazione di Huffman, oppure una combinazione delle due. Inoltre si puÃ² impiegare la Type Coding, o qualunque alternativa della AAC, codificazione di Huffman e Type Coding.

Lâ€™elaborazione descritta precedentemente puÃ² venire ripetuta per un numero di strisce tali da costituire lâ€™immagine.

La presente invenzione inoltre fornisce un programma per computer che comprende uno o piÃ¹ mezzi leggibili da un computer aventi istruzioni eseguibili da parte di un computer al fine di eseguire i passi del metodo secondo una delle rivendicazioni precedenti.

Inoltre, si fornisce un mezzo di cattura di immagini o un mezzo di elaborazione di immagini comprendente un chipset in cui i passi del metodo secondo uno degli esempi descritti precedentemente vengano implementati.

Ulteriori vantaggi e caratteristiche della presente invenzione verranno descritte nel seguito con riferimento alle figure. Nella descrizione, si fa riferimento alle figure allegate che sono da intendersi come illustrazione delle forme di realizzazione dellâ€™invenzione. Resta inteso che tali forme di realizzazione non rappresentano lâ€™intero ambito dellâ€™invenzione.

Le figure 1 e 2 mostrano un esempio del metodo inventivo per la rivelazione di dettagli caratteristici di immagine comprendente una localizzazione di punti chiave basata su blocchi nel dominio trasformato.

La figura 3 mostra un esempio del metodo inventivo per la rivelazione di dettagli caratteristici di immagini comprendente una localizzazione di punti chiave basata su blocchi nel dominio spaziale o della frequenza con risorse inferiori.

Un esempio del metodo inventivo per la rivelazione di dettagli caratteristici in unâ€™immagine Ã ̈ mostrato in figura 1. Secondo lâ€™esempio mostrato, unâ€™immagine proveniente da un sensore dâ€™immagine di un dispositivo di cattura di immagini viene ricevuta come input. Lâ€™immagine, per esempio, puÃ² essere una foto digitale oppure un fotogramma di un video digitale. Una striscia orizzontale viene estratta dallâ€™immagine. La striscia ha un numero decisamente inferiore di pixel rispetto allâ€™intera immagine. La striscia puÃ² essere immagazzinata in un registro buffer oppure in una memoria. La striscia Ã ̈ costituita da blocchi della stessa dimensione o di dimensione variabile. Un blocco viene letto dal registro buffer e una trasformata viene applicata cosÃ¬ da fornire i dati del blocco nel dominio della frequenza, la trasformata puÃ² per esempio essere una Discrete Cosine Transform o una Fast Fourier Transform o qualunque altra trasformata matematica. Il blocco trasformato viene poi immagazzinato in un buffer/memoria (come parte di una prima ottava).

Come passo successivo, un filtro basato sui blocchi opera sul blocco trasformato. Il filtro basato sui blocchi puÃ² essere implementato in forma di moltiplicazione matriciale ed ha come risultato lâ€™eliminazione delle frequenze spaziali piÃ¹ alte. Dopo il filtraggio basato sui blocchi, si stabilisce se il blocco comprende potenzialmente uno o piÃ¹ punti chiave.

Questa identificazione si esegue sulla base della distribuzione in frequenza allâ€™interno del blocco trasformato e filtrato. Se si identifica nel blocco la possibile presenza di un punto chiave, il blocco si sottopone ad un filtraggio di scala, per esempio implementato in forma di moltiplicazione matriciale e, in seguito, ad una trasformata inversa in modo da ottenere i dati nel dominio spaziale. Il filtraggio di scala nel dominio della frequenza Ã ̈ uguale al filtraggio passa basso in termini di moltiplicazione matriciale, tuttavia i numeri delle matrici usati sono diversi. CosÃ¬, in questa implementazione, non Ã ̈ piÃ¹ necessario generare alcuna DoG.

Il blocco cosÃ¬ trasformato inversamente viene poi analizzato per una localizzazione dettagliata di punti chiave che fa uso della traccia del determinante della matrice hessiana. Lâ€™impiego della matrice hessiana Ã ̈ ben noto nello stato dellâ€™arte (si veda, per esempio, â€œDistinctive Image Features from Scale-Invariant Keypointsâ€ , di David G. Lowe, in International Journal of Computer Vision, 60, 2 (2004), pagine 91- 1 10). Uno o piÃ¹ punti chiave sono chiaramente localizzati e una patch di NxM pixel (punti di campionamento) viene rispettivamente estratta intorno a ciascun punto chiave localizzato per lâ€™elaborazione SIFT convenzionale eseguita successivamente, vale a dire creazione di un istogramma di orientazioni dalle orientazioni dei gradienti dei punti di campionamento intorno ai punti chiave rivelati, attribuzione di una orientazione e produzione di descrittori di punto chiave SIFT attraverso il campionamento dei moduli e delle orientazioni dei gradienti nelle vicinanze dei punti chiave localizzati.

Tuttavia il blocco puÃ² non essere trasformato inversamente, cosÃ¬ da costruire un vettore di componenti in frequenza e da eseguire la sogliatura, quantizzazione e codificazione entropica senza bisogno di alcuna ulteriore trasformata inversa.

Lâ€™elaborazione descritta precedentemente si puÃ² eseguire in parallelo per un una pluralitÃ di filtri passa banda della stessa ottava. Inoltre, altre ottave da 2 a N sono calcolate attraverso un sotto-campionamento del blocco trasformato della prima ottava. Il filtro di sotto-campionamento puÃ² essere implementato da una moltiplicazione matriciale nel dominio della frequenza. Il calcolo delle altre ottave da 2 a N si puÃ² eseguire in parallelo allâ€™elaborazione dei blocchi trasformati della prima ottava descritta precedentemente. Sia per lâ€™omogeneizzazione delle immagini che per il sottocampionamento si possono impiegare filtri con risposta finita allâ€™impulso con N tap.

Unâ€™altra forma di realizzazione dellâ€™invenzione Ã ̈ mostrata in figura 2. In modo simile allâ€™esempio descritto con riferimento alla figura 1 , una striscia orizzontale viene estratta da una immagine ricevuta in input e un blocco dellâ€™immagine viene trasformato verso il dominio della frequenza. Un filtraggio passa basso Ã ̈ eseguito per il blocco trasformato della prima ottava. Tuttavia, a differenza della forma di realizzazione mostrata in figura 2, in questo esempio la localizzazione di punti chiave Ã ̈ eseguita nel dominio della frequenza prima di trasformare inversamente il blocco verso il dominio spaziale per mezzo di una trasformata inversa. In questo esempio, un registro buffer deve immagazzinare soltanto una striscia mentre nellâ€™esempio mostrato in figura 1 un registro buffer deve immagazzinare tutte le strisce.

In una terza forma di realizzazione mostrata in figura 3, lâ€™intera elaborazione Ã ̈ eseguita in un singolo dominio, vale a dire o nel dominio spaziale, se la trasformata non Ã ̈ eseguita, oppure nel dominio trasformato (cioÃ ̈ dominio di Fourier oppure BCT). Il vantaggio, in questo caso, sta nel fatto che la trasformata inversa non Ã ̈ necessaria, il che permette di risparmiare una notevole quantitÃ di tempo e risorse. Come precedentemente detto, sogliatura, quantizzazione e codificazione entropica vengono eseguite per la rivelazione di dettagli caratteristici.

Tutte le forme di realizzazione discusse precedentemente non si devono intendere come limitazioni ma servono da esempi indicanti caratteristiche e vantaggi dellâ€™invenzione. Si deve intendere che alcune o tutte le caratteristiche precedentemente descritte si possono combinare in modi diversi.

Claims

Rivendicazioni 1. Metodo per la rivelazione di dettagli di immagini comprendente i seguenti passi: estrazione di una striscia da un'immagine digitale, comprendendo la striscia una pluralitÃ di blocchi; elaborazione della pluralitÃ di blocchi al fine di localizzare uno o piÃ¹ punti chiave; rivelazione di uno o piÃ¹ dettagli caratteristici dell'immagine sulla base dell'unico punto chiave o dei molteplici punti chiave localizzati.
2. Metodo secondo la rivendicazione 1 in cui l'elaborazione della pluralitÃ di blocchi comprende una trasformata dei dati dei blocchi verso il dominio della frequenza.
3. Metodo secondo la rivendicazione 2 comprendente inoltre un filtraggio passa-basso dei dati dei blocchi trasformati verso il dominio della frequenza.
4. Metodo secondo una delle rivendicazioni 2 e 3 in cui l'elaborazione della pluralitÃ di blocchi comprende inoltre un sotto-campionamento dei dati dei blocchi trasformati verso il dominio della frequenza effettuato un certo numero di volte cosÃ¬ da generare un certo numero di ottave.
5. Metodo secondo una delle rivendicazioni da 2 a 4 comprendente inoltre una trasformata inversa dei dati dei blocchi dal dominio della frequenza al dominio spaziale.
6. Metodo secondo la rivendicazione 5 in cui l'unico punto chiave o i molteplici punti chiave vengono localizzati nel dominio della frequenza prima della trasformata inversa dei dati dei blocchi.
7. Metodo secondo la rivendicazione 5 in cui l'unico punto chiave o i molteplici punti chiave vengono localizzati nel dominio spaziale sulla base dei dati dei blocchi a cui Ã ̈ stata applicata la trasformata inversa.
8. Metodo secondo una delle rivendicazioni 6 e 7 in cui l'unico punto chiave o i molteplici punti chiave vengono localizzati per mezzo di una matrice hessiana.
9. Metodo secondo una delle rivendicazioni da 2 a 7 comprendente inoltre il passo di stabilire se un blocco comprende potenzialmente un punto chiave sulla base della distribuzione in frequenza dei dati dei blocchi cui si Ã ̈ applicato un filtraggio passa basso e in cui soltanto un blocco in cui si Ã ̈ stabilita la presenza potenziale di un punto chiave viene elaborato per la localizzazione dei punti chiave.
10. Metodo secondo una delle rivendicazioni in cui il sottocampionamento di un blocco della striscia viene eseguito in parallelo all'elaborazione del blocco per la localizzazione dei punti chiave.
11. Metodo secondo una delle rivendicazioni, comprendente inoltre l'estrazione di una patch di NxM punti di campionamento attorno a un punto chiave localizzato e l'elaborazione della patch per la rivelazione di dettagli caratteristici.
12. Metodo secondo la rivendicazione 10 in cui l'elaborazione per la rivelazione di dettagli caratteristici Ã ̈ eseguita in parallelo per un numero di filtri passa basso forniti per un'ottava.
13. Metodo secondo una delle rivendicazioni 11 e 12 comprendente inoltre i passi di: generare un istogramma dei gradienti dei punti di campionamento, attribuire una orientazione a ciascun punto chiave localizzato sulla base deiristogramma e generare un descrittore di punto chiave per ciascun punto chiave localizzato sulla base dell'orientazione attribuita.
14. Programma per computer comprendente uno o piÃ¹ mezzi leggibili da un computer aventi istruzioni eseguibili da parte di un computer al fine di eseguire i passi del metodo secondo una delle rivendicazioni precedenti.
15. Mezzo per la cattura di immagini o mezzo per l'elaborazione di immagini comprendenti un chispet in cui sono implementati i passi del metodo secondo una delle rivendicazioni da 1 a 13.