ITTO20130971A1 - Sistema di codifica video per immagini e video da piattaforma aerea o satellitare assistita da sensori e da modello geometrico della scena - Google Patents
Sistema di codifica video per immagini e video da piattaforma aerea o satellitare assistita da sensori e da modello geometrico della scenaInfo
- Publication number
- ITTO20130971A1 ITTO20130971A1 IT000971A ITTO20130971A ITTO20130971A1 IT TO20130971 A1 ITTO20130971 A1 IT TO20130971A1 IT 000971 A IT000971 A IT 000971A IT TO20130971 A ITTO20130971 A IT TO20130971A IT TO20130971 A1 ITTO20130971 A1 IT TO20130971A1
- Authority
- IT
- Italy
- Prior art keywords
- video
- coding system
- scene
- video coding
- orientation
- Prior art date
Links
- 230000003287 optical effect Effects 0.000 claims description 31
- 230000033001 locomotion Effects 0.000 claims description 28
- 230000004907 flux Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 description 13
- 238000000034 method Methods 0.000 description 11
- 238000005259 measurement Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 8
- 238000005192 partition Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 235000015842 Hesperis Nutrition 0.000 description 2
- 235000012633 Iberis amara Nutrition 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Remote Sensing (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
- Radio Relay Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Navigation (AREA)
Description
”SISTEMA DI CODIFICA VIDEO PER IMMAGINI E VIDEO DA PIATTAFORMA AEREA O SATELLITARE ASSISTITA DA SENSORI E DA MODELLO GEOMETRICO DELLA SCENA”
DESCRIZIONE
L’invenzione, denominata in seguito sinteticamente“ sistema di codifica” (1 di fig. 1), ha per oggetto un sistema digitale di compressione di “sequenze di fotogrammi sovrapposti” da impiegarsi in scenari di acquisizione da “piattaforma aerea o spaziale” (palloni, aeromodelli, droni, velivoli con o senza equipaggio, razzi, satelliti, stazioni spaziali orbitanti abitate).Si intende che due fotogrammi siano “sovrapposti” qualora porzioni del piano immagine dell’uno e dell’altro risultano proiezioni di oggetti dalle medesime coordinate spaziali. Questa condizione è assai comune nelle sequenze di fotogrammi video.
Le sequenze di fotogrammi da codificare possono essere sia comuni sequenze video, cadenzate da uno specifico periodo di acquisizione, sia più genericamente sequenze di immagini di una stessa scena ottenute da punti di vista differenti, anche ad una distanza temporale variabile tra un fotogramma e il successivo.
Questo secondo caso è di interesse applicativo nel caso riprese aeree o satellitari per applicazioni di osservazione della terra, allo specifico scopo di produrre immagini ortografiche o ricostruzioni tridimensionali a partire da viste multiple.
L’invenzione utilizza una stima S della posizione e dell’orientamento del sensore di immagini, ottenuto dalle misure provenienti da altri sensori, ed un modello geometrico della scena per stimare le corrispondenze tra pixel omologhi nei diversi fotogrammi della sequenza F. Tale corrispondenza FO è comunemente denominata “flusso ottico” e rappresenta il moto bidimensionale degli oggetti nel piano immagine. Comunemente i codificatori video commerciali rappresentano il flusso ottico mediante vettori bidimensionali (detti “vettori di moto” negli standard di codifica video ISO MPEG ed ITU H.26X), ognuno dei quali è associato ad una specifica regione del piano immagine appartenente ad una partizione del fotogramma da codificare. La partizione ed i vettori di moto associati a ciascuna regione sono determinati attraverso l’analisi della successione dei fotogrammi. Negli standard ISO MPEG ed ITU H.26X, i fotogrammi sono suddivisi in blocchi di dimensione quadrata o rettangolare con dimensioni variabili tra i e i pixel. Riconducendo i fotogrammi da codificare a fotogrammi già codificati (quindi disponibili al decodificatore), è possibile codificare solo le differenze, con un conseguente notevole vantaggio in termini di efficienza di codifica (bit del dato originario / bit del dato codificato).
I vantaggi tecnici principali dell’invenzione, come rivendicata nella rivendicazione 1, rispetto a codificatori video già noti nella letteratura tecnico-scientifica di riferimento e/o già presenti sul mercato sono: (a) la facilitazione del procedimento di stima FO del flusso ottico, riducendo drasticamente la complessità computazionale dell’elaborazione di immagini (es: stima del campo di moto) eventualmente inizializzando la stima FO del flusso ottico con quella deducibile dalle misure di posizione ed orientamento camera; (b) la semplificazione della codifica della rappresentazione del moto dei punti nel piano immagine (es: vettori del campo di moto) eventualmente trasmettendo nel flusso di codifica i dati di posizione ed orientamento camera; (c) la possibilità, senza aumentare significativamente la complessità di calcolo e senza diminuire significativamente l’efficienza di codifica, di introdurre una più complessa rappresentazione del moto nel piano immagine (es: trasformazioni omografiche) eventualmente partizionando il piano immagine ed associando a ciascun insieme di pixel una specifica trasformazione; (d) la possibilità di una rappresentazione del moto dei punti nel piano immagine più robusta rispetto a fenomeni di perdita di informazione su canale digitale di telecomunicazioni (es: perdita o corruzione di pacchetti), utilizzando ad esempio la stima FO del flusso ottico ottenuta dalle misure di posizione ed orientamento lì dove la decodifica del modello di moto (es: vettori di moto) così come stima Sto dall’analisi della sequenza di fotogrammi F non sia possibile; (e) la facilitazione del processo di partizionamento del piano immagine (es: partizione in blocchi), eventualmente mediante l’inizializzazione della stessa in base alle caratteristiche del flusso ottico FO stimato dalle misure di movimento S del sensore di immagini e al modello della scena, senza dover analizzare i fotogrammi della sequenza F.
Le conseguenze attese dei suddetti vantaggi tecnici possono tradursi nei seguenti vantaggi prestazionali: (a) fissate le risorse computazionali, è possibile un miglioramento delle prestazioni del sistema di codifica in termini di efficienza di compressione (rapporto tra bit per fotogramma rispettivamente a monte e a valle della codifica/decodifica, a parità di qualità di ricostruzione); (b) fissata l’efficienza di compressione e la risoluzione digitale dell’immagine, è possibile ottenere la diminuzione del ritardo di codifica/decodifica e/o l’innalzamento della quantità massima di fotogrammi codificabili al secondo; (c) fissata l’efficienza di compressione, è possibile ottenere un miglior tasso di robustezza rispetto alla quantità di bit corrotti o non pervenuti a seguito della trasmissione su canale digitale; (d) senza dover accrescere le risorse computazionali, è possibile ottenere una codifica efficiente di sequenze di fotogrammi a più bassa sovrapposizione nel piano immagine e/o soggetti a trasformazioni più fortemente prospettiche.
Lo scenario applicativo attualmente più significativo è quello di codifica di fotogrammi sovrapposti da piattaforma aerea o satellitare (palloni, aeromodelli, droni, velivoli con o senza equipaggio, razzi, satelliti, stazioni spaziali orbitanti abitate) in quanto la geometria G della scena, nel caso di riprese di esterni ed oltre una certa altezza, è in buona approssimazione nota, essendo determinata principalmente dalla geometria superficiale del territorio sorvolato ed essendo trascurabile l’apporto di eventuali oggetti in movimento. Le piattaforme aeree o satellitari dispongono inoltre di stime S di posizione e assetto, provenienti da sensori o attuatori.
Di particolare interesse risultano le applicazioni rivolte all’osservazione della terra, nello specifico caso in cui l’obiettivo delle riprese sia quello di generare rappresentazioni del territorio mediante foto ortografiche oppure ricostruzioni tridimensionali. In questi casi l’obiettivo non è quello di avere sequenze di immagini ad alta risoluzione temporale (come nel caso delle acquisizioni video) ma di avere invece immagini ad alta risoluzione spaziale al suolo. La sovrapposizione si rende necessaria per la generazione di coperture senza discontinuità dell’area sorvolata (“mosaici”) o per ottenere viste dense di corrispondenze, cioè pixel afferenti allo stesso oggetto dello spazio, per la creazione di ricostruzioni 3D.
Di specifico interesse sono le piattaforme senza equipaggio (radiocomandi, droni, velivoli senza equipaggio o UAV – Unmanned Aerial Vehicle, satelliti), che necessitano di inviare a terra i dati catturati dai sensori di immagini. Il sistema proposto può essere di interesse sia per la codifica delle immagini ad alta risoluzione ed alta qualità di interesse della missione, sia a scopo di inviare a terra immagini a più bassa qualità, a scopo di Preview, per definire meglio a terra le acquisizioni da effettuare a qualità e risoluzione piena. Di notevole importanza sono anche le applicazioni di riprese video da piattaforme a bassa autonomia energetica, che risentono positivamente di una ridotta complessità di calcolo degli applicativi a bordo, quali ad esempio quelle effettuate da sistemi radiocomandati di piccole dimensioni, da piccoli UAV, da UAV operanti ad alta quota o da satelliti alimentati ad energia solare. Un’altra applicazione possibile è quella del controllo di mezzi aerei da remoto da parte di piloti di terra, come nel caso degli UAV, in cui di fondamentale importanza è il basso ritardo tra l’acquisizione del video a bordo e la visualizzazione a terra, soprattutto nelle fasi di decollo, atterraggio e per evitare ostacoli in aria. Inoltre, è di notevole importanza l’affidabilità del servizio di comunicazione video anche nel caso di canale disturbato.
Resta inteso che tutte le rivendicazioni allegate formano parte integrante della presente descrizione. Risulterà immediatamente ovvio che si potranno apportare a quanto descritto innumerevoli varianti e modifiche (per esempio relative a forma, dimensioni, disposizioni e parti con funzionalità equivalenti) senza discostarsi dal campo di protezione del trovato come appare dalle rivendicazioni allegate.
La presente invenzione verrà meglio descritta da alcune forme preferite di realizzazione, fornite a titolo esemplificativo e non limitativo, con riferimento ai disegni allegati, nei quali: - la figura 1 è un diagramma a blocchi schematico del sistema dell’invenzione; e - la figura 2 è un diagramma a blocchi schematico dei principali componenti del sistema dell’invenzione.
Con riferimento alle figure, il sistema di codifica funziona per grandi linee come segue. Esso preleva una sequenza F di fotogrammi, temporizzati rispetto ad un orologio comune ST, una sequenza S di dati di posizione ed orientamento del sensore di acquisizione di immagini anche essi temporizzati rispetto allo stesso orologio, una descrizione geometrica G dell’area sorvolata dalla piattaforma aerea, restituendo in uscita una sequenza di bit FB opportunamente codificata tale che sia possibile ricostruire da essa i fotogrammi elaborati a meno di un certo errore di ricostruzione e con un sicuro vantaggio in termini di costo della rappresentazione, misurata come numero di bit necessari a rappresentare in media ciascun fotogramma. L’invenzione utilizza i dati di posizione e di orientamento S del sensore di immagini ed il modello geometrico G della scena, opportunamente georiferito, per stimare con buona approssimazione le corrispondenze FO tra pixel omologhi nei diversi fotogrammi della sequenza video F. Tale stima FO può essere ulteriormente raffinata, se necessario, da un’elaborazione diretta dei fotogrammi F. In tal caso la stima del flusso ottico FO ottenuta a partire dalla stima S di posizione ed orientamento del sensore di immagini risulta un’inizializzazione della stima FO del flusso ottico ottenuta successivamente mediante l’analisi dei fotogrammi F, così come rivendicato nella rivendicazione 2. In questo modo la stima del flusso ottico può essere resa più accurata.
L’invenzione può essere implementata come un sistema digitale fisicamente indipendente o come un modulo di un sistema digitale più complesso che ne comprenda le funzionalità. In seguito si fornisce la descrizione di massima di una possibile implementazione. Il “sistema di acquisizione” (2 di fig. 1), che fornisce i fotogrammi F da codificare, può essere costituto da una videocamera o da una fotocamera ad alta frequenza di acquisizione, operante in una qualsiasi banda dello spettro elettromagnetico. Di particolare interesse sono i sensori operanti nelle bande dell’elettro-ottico e/o dell’infrarosso (ad esempio sensori CCD o CMOS) ed i sensori multi spettrali, così come rivendicato nella rivendicazione 4. Il corpo camera del sensore di immagini è rigidamente vincolato ad un supporto a sua volta fisso o mobile rispetto alla struttura del velivolo. Esso si suppone posizionato, durante il funzionamento, in modo tale che buona parte della scena ripresa afferisca all’ambiente esterno al velivolo. La stima S della posizione e dell’orientamento del sensore di immagini è elaborata dal “sistema di stima S di posizione ed orientamento” (3 di fig. 1) che raccoglie le misure provenienti dai sensori ausiliari, collocati sul velivolo o sul corpo camera, e da eventuali attuatori di movimentazione del corpo camera. I suddetti dati possono provenire da misure dirette di posizione e di orientamento, oppure possono essere ricavati da grandezze collegate, ad esempio accelerazioni, velocità lineari ed angolari. I sensori di misura possono essere: ricevitori di posizionamento satellitare, accelerometri, giroscopi, magnetometri, altimetri laser o a pressione, altri eventuali. I dati possono provenire anziché da sensori, esclusivamente o in maniera complementare da specifici attuatori di movimentazione, che possono essere o meno giro-stabilizzati. Il modulo che implementa suddetto sistema di stima S di posizione ed orientamento può essere fisicamente indipendente o può essere, completamente oppure anche solo parzialmente, integrato nel modulo hardware che implementa il sistema di codifica. Il sistema di navigazione della piattaforma aerea o spaziale, se presente, può essere preposto a svolgere parte o tutte le funzionalità del sistema di stima S di posizione ed orientamento, così come rivendicato nella rivendicazione 3. La posizione e l’orientamento relativo tra corpo camera e sistema di navigazione possono essere determinati una tantum, se il corpo camera è fisso, oppure dinamicamente se il corpo camera è movimentato con un attuatore di precisione. L’orientamento relativo tra corpo camera e sensore di immagini può essere determinato una volta per tutte mediante un procedimento di calibrazione geometrica effettuato a mano o automaticamente, eventualmente attraverso un sistema di autocalibrazione.
Più nel dettaglio, affinché possa essere determinata una corrispondenza tra i punti della scena 3D e il piano immagine, la camera di acquisizione deve essere opportunamente calibrata, nel senso che ne deve essere noto il modello proiettivo (calibrazione interna). Inoltre è necessario che siano noti posizione ed orientamento relativo tra i sistemi di riferimento camera ed il sistema di riferimento in cui sono calcolate le stime di posizione ed orientamento camera (calibrazione esterna). Pertanto il sistema di codifica avrà bisogno una tantum di essere istruito con i dati di calibrazione del setup, ottenuti mediante apposite procedure di misurazione. Allo scopo di rendere immediata la calibrazione il sistema di codifica può essere opzionalmente dotato di un sistema di autocalibrazione basato sul confronto dei fotogrammi acquisiti e dei dati corrispondenti di posizione e assetto.
La “base di dati geografici” (4 di fig. 1), da cui è possibile ricostruire la geometria G della scena, così come rivendicato nella rivendicazione 7, può essere costituita da un modello geometrico più o meno preciso e risoluto, che rappresenti con una certa approssimazione le superfici tridimensionali sorvolate dalla piattaforma aerea durante l’acquisizione; inoltre la scena può essere rappresentata solo in parte, considerando ad esempio l’orografia e trascurando invece gli edifici. Ulteriori approssimazioni possono essere effettuate dal sistema di codifica rispetto al modello originale, per consentire il raggiungimento di una maggiore efficienza computazionale, così come rivendicato nella rivendicazione 6. Il modello geometrico deve essere georiferito per consentire di mettere in corrispondenza i punti del piano immagine con i punti nello spazio tridimensionale. Ad esempio possono essere utilizzati DEM (Digital Elevation Model) o DSM (Digital Surface Model), ottenuti precedentemente o contestualmente attraverso il telerilevamento aereo o satellitare, o ancora attraverso misure sul campo (ad esempio mediante elaborazioni di Lidar o ricostruzioni di tipo Structure From Motion basate su tecniche di visione artificiale). Il suddetto sistema digitale per l’archiviazione e l’indicizzazione dei dati geografici può essere un sistema fisicamente indipendente oppure può essere un sistema integrato nel modulo hardware che implementa il sistema di codifica, secondo quanto rivendicato nella rivendicazione 5.
La sequenza di bit codificati è inoltrata ad un “sistema di utenza” che si occupa di memorizzare i fotogrammi F a bordo del velivolo o di inviarli a terra su canale trasmissivo. Il sistema di codifica oggetto dell’invenzione è strutturato nei seguenti moduli: 1) interfaccia di ingresso verso il sistema di acquisizione (1’ di fig. 2); 2) interfaccia di ingresso verso il sistema di stima S di posizione ed orientamento (2’ di fig. 2); 3) interfaccia di comunicazione con la base di dati geografici (3’ di fig. 2); 4 ) interfaccia di uscita verso il sistema di utenza (4’ di fig. 2); 5) interfaccia con l’orologio di sistema (5’ di fig.
2); 6) sottosistema di stima FO del flusso ottico (6’ di fig.2 ); 7) motore di codifica (7’ di fig. 2).
L’invenzione presenta come primo ingresso un’interfaccia, digitale o analogica (1’ di fig. 2) attraverso la quale, ad ogni ciclo di acquisizione, il generico fotogramma della sequenza video viene consegnato dal “sistema di acquisizione” (2 di fig. 1) al sistema di codifica (1 di fig. 1).
Un secondo ingresso del sistema è costituito da un’interfaccia digitale (2’ di fig. 2) alla quale pervengono le informazioni relative alla stima S della posizione e dell’orientamento del corpo camera rispetto ad un riferimento che sia inerziale, oppure che sia comunque approssimabile come tale. Tali informazioni vengono fornite dal già citato “sistema di stima S di posizione ed orientamento” (3 di fig. 1). Il terzo ingresso del sistema è costituito da un’interfaccia digitale (3’ di fig. 2), collegata ad una memoria che contiene una “base di dati geografici” (4 di fig.
1), in cui è archiviata ed indicizzata una rappresentazione della conformazione geometrica del terreno sorvolato.
L’uscita del sistema è un’interfaccia digitale (4’ di fig. 2) che espone il flusso di bit FB che codificano la sequenza video in formato compresso, ed è 2eventualmente diretta al “sistema di utenza” (5 di fig. 1), che può essere, ad esempio, un sistema di telecomunicazioni per l’invio dei dati a terra o ad un sistema di registrazione per la memorizzazione dei dati a bordo. Sia i fotogrammi F che i dati di posizione ed orientamento S devono essere opportunamente temporizzati rispetto ad un riferimento comune. Esso eventualmente può essere rappresentato da un segnale di sincronizzazione ST generato da un dispositivo esterno ed instradato sia ai dispositivi di acquisizione che al sistema di codifica mediante un’opportuna interfaccia analogica di ingresso (5’ di fig. 2). In alternativa, ciascun pacchetto dati rappresentante un’immagine o un vettore di misure, può essere corredato da un campo dati dedicato specificatamente alla rappresentazione digitale dell’istante di acquisizione, pur avvenendo l’acquisizione in maniera asincrona.
Per “flusso ottico FO” si intende in seguito qualsiasi corrispondenza iniettiva tra i pixel del fotogramma da codificare e quello di riferimento, in qualsiasi modo tale corrispondenza sia codificata (ed esempio, vettori di spostamento, collezione di omografie, deformazione di maglie triangolari).
Il sottosistema di stima FO del flusso ottico (6’ di fig. 2) ha lo scopo di effettuare l’elaborazione dei dati di posizione ed orientamento del corpo camera e della geometria G della scena per ottenere un elenco di corrispondenze tra i pixel del fotogramma attuale e quelli di un fotogramma di riferimento. L’elaborazione della geometria G della scena può comportare anche una semplificazione opportuna allo scopo di avvantaggiare le prestazioni di calcolo. I fotogrammi di riferimento possono essere anche diversi per ciascuna porzione del fotogramma da codificare.
Allo scopo di determinare in maniera più accurata suddette corrispondenze, a valle o in congiunzione con le elaborazioni dei dati geometrici georiferiti, possono essere previste anche elaborazioni dei fotogrammi F. In pratica il flusso ottico FO stimato a partire dai dati di posizione e di orientamento può essere considerato come una prima approssimazione di quello elaborato a partire dall’analisi dei fotogrammi F. Nello specifico il caso anzi descritto è quello più rilevante dal punto di vista applicativo.
Il sottosistema di stima FO del flusso ottico può essere implementato su un hardware specifico o può condividere le risorse con gli altri sottosistemi dell’invenzione. Tale sottosistema può essere implementato su schede a microprocessore per fini generici, “system on chip”, sistemi ad elettronica programmabile, processori di segnali digitali, processori grafici. I sistemi precedentemente citati devono essere tutti corredati da memorie per dati e programmi ed opportuni sistemi di trasmissione dati per l’interfacciamento con gli altri sottosistemi. Di particolare interesse è l’impiego di processori grafici.
Il motore di codifica video (7’ di fig. 2), cioè il completamento del codificatore rispetto al sottosistema di stima FO del flusso ottico, può essere costituito da un sistema appositamente progettato ma anche da un sistema di codifica commerciale. Il software che implementa il motore di codifica deve funzionare su uno specifico hardware di elaborazione (schede a microprocessore per fini generici, “system on chip”, sistemi ad elettronica programmabile, processori di segnali digitali, processori grafici), corredato di memorie e di sistemi di interfacciamento e trasmissione dati, che può essere o meno condiviso con gli altri sottosistemi.
Di particolare interesse commerciale sono le soluzioni compatibili con gli standard internazionali di codifica video. In particolare, utilizzando per la base di dati geografici il modello del geoide terrestre ed approssimando la scena con delle superfici piane, è possibile realizzare un sistema compatibile con lo standard ISO MPEG. In tal caso si può usufruire degli strumenti per la Global Motion Compensation e per lo Sprite Coding, dopo aver raggruppato i pixel del generico fotogramma in Video Object, uno per ciascun piano della scena. Per modelli geometrici più complessi si può ricorrere invece agli strumenti messi a disposizione dallo standard ITU H. in riferimento alle specifiche MVC (Multiview Video Coding).
La novità introdotta dall’invenzione, così come rivendicato dalla rivendicazione 1, è costituita principalmente dalla possibilità di poter stimare il flusso ottico FO a partire da informazioni sul punto di vista del sensore S (posizione ed orientamento nello spazio) e, cosa non meno importante, da un modello geometrico georiferito G della scena osservata. Il secondo tipo di informazione, estremamente importante dal punto di vista dei benefici ottenuti, è disponibile nel caso di sequenze di immagini acquisite da piattaforma aerea o satellitare, mentre, allo stato attuale della tecnologia, non è disponibile in altri contesti applicativi.
Le tecniche di stima del flusso ottico FO a partire da dati di posizione ed orientamento camera S e da un modello geometrico della scena G, possono essere molteplici e non costituiscono novità inventiva. Altrettanto si può dire per le modalità con cui la rappresentazione del flusso ottico FO può essere codificata in maniera efficiente.
Supposto di avere una stima S sufficientemente accurata della posizione e dell’orientamento del sensore di immagini, è possibile stimare il flusso ottico FO direttamente da considerazioni geometriche e senza analizzare i fotogrammi F. Ad esempio si può rappresentare la superficie sorvolata come un insieme di poligoni con lati adiacenti. Ciascun poligono è parte di un piano con equazioni note nello spazio. La proiezione di un poligono sul piano immagine è generalmente ancora un poligono. In base a queste considerazioni è possibile associare a ciascun pixel di un fotogramma una specifica trasformazione omografica che ne definisca la posizione in un altro fotogramma della sequenza.
Anziché ragionare per pixel si può ragionare per gruppi di pixel, qualora si ritenga di dover partizionare il piano immagine secondo una geometria definita (ad esempio in blocchi quadrati o rettangolari, così come previsto dallo standard ITU H.264 e dallo standard ITU H.265).
L’elaborazione delle immagini F può essere effettuata successivamente, se necessario, solo per raffinare la stima FO dei vettori di moto, con prevedibile alleggerimento computazionale. Essendo approssimativamente noti la posizione e l’orientamento S della camera ed essendo approssimativamente nota la geometria G della scena acquisita, è possibile ottimizzare il processo di partizionamento del piano immagine, associando a ciascuna partizione: (a) un certo fotogramma di riferimento, che per ragioni di similarità, sia più adatto a rappresentare il gruppo di pixel da codificare per differenze; (b) la specifica trasformazione da applicare per mappare i pixel del gruppo con quelli del fotogramma di riferimento; (c) la struttura della partizione e le dimensioni di ciascun gruppo di pixel in base alle specifiche coordinate nel piano immagine e alla sua corrispondenza con la scena tridimensionale osservata.
Per effettuare tali decisioni si possono utilizzare le tecniche attualmente implementate da specifici sistemi di codifica a codice sorgente aperto, sostituendo alle considerazioni effettuate in base all’analisi dei fotogrammi, considerazioni sulla regolarità della superficie osservate (valori del gradiente particolarmente bassi, suggeriscono ad esempio di selezionare regioni più ampie, valori più elevati, regioni più piccole).
La rappresentazione originaria dei dati geografici può essere manipolata in modo da alterarne le caratteristiche, apportando ad esempio eventuali approssimazioni, con l’obiettivo di raggiungere una più elevata efficienza computazionale nella stima FO del flusso ottico.
La determinazione della corrispondenza tra pixel omologhi appartenenti a fotogrammi diversi e la codifica delle sole differenze (strategia di stima e composizione del movimento) è alla base di tutte le più efficaci tecniche di codifica video, tra le quali gli standard internazionali ISO-MPEG ed ITU-H.26X. Nello specifico, nei citati standard, il singolo fotogramma viene partizionato in blocchi. Ciascun blocco è confrontato con i pixel di una o più immagini di riferimento, precedentemente codificate, allo scopo di massimizzare le corrispondenze. Solitamente l’area di ricerca è limitata (si parla di “finestra di ricerca”) e il blocco viene semplicemente traslato nel piano immagine del fotogramma di riferimento allo scopo di determinare il miglior valore di traslazione per il corrispondente “vettore di moto”. Ciascun vettore di moto viene inviato al decodificatore, mentre dei pixel del blocco viene codificata solo la differenza rispetto al fotogramma di riferimento, tutto questo con un notevole vantaggio in termini di efficienza di codifica.
La rappresentazione del flusso ottico FO può essere presentata dal sottosistema preposto nelle forme compatibili con i citati standard di codifica o con altri a venire. In particolare il flusso ottico FO può essere rappresentato con vettori di moto o con vettori di moto globale, così come previsto dallo standard ISO MPEG parte 2 e parte 10. Qualora la rappresentazione del flusso ottico FO debba sottostare a vincoli di compatibilità con gli standard di codifica video o con decodificatori preesistenti, l’implementazione dovrà essere tale che la sintassi di rappresentazione sia decodificabile dal decoder verso il quale si intende mantenere la compatibilità. In tal caso, le funzionalità e le prestazioni complessive potrebbero risultare ridotte rispetto alle piene potenzialità dell’invenzione proposta.
L’invenzione proposta consiste in un sistema innovativo di codifica video in scenari di acquisizione da piattaforma aerea o satellitare. Allo stato dell’arte i sistemi impiegati in queste applicazioni non differiscono dai sistemi utilizzati per applicazioni generiche per l’informatica e per l’elettronica di consumo (televisione, video-telefonia, streaming su rete dati, riproduzione su supporto digitale). Nel caso di sequenze di fotogrammi a bassa sovrapposizione, per cui spesso è anche richiesta alta qualità e risoluzione, le strategie di codifica generalmente si riconducono a quelle di immagini fisse e non sfruttano la stima e la compensazione del movimento, con forte perdita di efficienza. Del resto i sistemi di codifica che utilizzano la stima e la compensazione del movimento sono attualmente esclusivamente progettati per sequenze video (dunque ad alta sovrapposizione dei fotogrammi successivi) e non per sequenze di fotogrammi a bassa sovrapposizione.
Nelle sequenze video la rappresentazione del moto può essere efficacemente effettuata con una partizione in blocchi quadrati o rettangolari, e con vettori di movimento associati a semplici traslazioni (standard ISO MPEG e ITU H.26X). Il suddetto modello non è adatto nel caso di notevoli spostamenti del punto di vista, in cui si possono avere variazioni prospettiche rilevanti. Infine i sistemi di codifica digitali non sono pensati per sistemi di trasmissione a basso ritardo. Per tale tipo di trasmissioni, infatti, vengono attualmente utilizzati su canale di telecomunicazioni collegamenti analogici, che presentano generalmente più basso ritardo complessivo tra acquisizione a bordo e visualizzazione a terra.
Uno dei principali oneri computazionali di un sistema di codifica video, per quel che riguarda in particolare le soluzioni basate su standard (ISO MPEG, ITU H.26X), risiede nelle operazioni di stima del flusso ottico, che sono tanto più complesse quanto maggiore è il moto relativo tra sensore di immagini e scena. E’ questo il caso di sequenze di immagini a bassa sovrapposizione.
Nello scenario di acquisizione video da piattaforma aerea o satellitare, il moto e l’orientamento del sensore di acquisizione possono essere stimati grazie all’impiego della strumentazione di bordo; la geometria della scena d’altra parte è nota avendo a disposizione un modello digitale del terreno, in quanto se la ripresa avviene da altezza sufficiente è dominata dalla geometria superficiale del territorio sorvolato (ad esempio dall’orografia).
La stima del flusso ottico FO a partire da posizione ed orientamento camera S, utilizzando un modello geometrico della scena G, non richiede l’analisi della sequenza di fotogrammi F, se non eventualmente per correggere l’inaccuratezza residua dei sensori e del modello. In tal caso la complessità computazionale di analisi è presumibilmente drasticamente ridotta, in quanto la posizione dei pixel corrispondenti nel fotogramma di riferimento è approssimativamente nota. Con riferimento agli standard ISO MPEG ed ITU H.26X, ci si attende una riduzione delle dimensioni della “finestra di ricerca”.
Per quanto detto in precedenza, rispetto al caso in cui il flusso ottico FO sia stimato unicamente con tecniche di elaborazione di immagini, a parità di complessità computazionale, è atteso un miglioramento di prestazioni in termini di efficienza di codifica e di ritardo di elaborazione. Allo stesso modo, a parità di complessità di calcolo, è atteso un miglioramento dell’efficienza di codifica.
Qualora richiesto, la rappresentazione del flusso ottico FO può essere resa compatibile con le specifiche dello standard internazionale ISO MPEG parte 2 e parte 10, per cui il sistema di codifica completo che ne deriva risulta compatibile con lo standard. L’invio a terra dei dati di posizione e di orientamento (S), essendo disponibile al decoder il modello geometrico della scena (G) utilizzato in fase di codifica, può essere sfruttato per recuperare fotogrammi andati persi in trasmissione o per diminuire il ritardo di decodifica, così come rivendicato dalla rivendicazione 8.
L’invenzione può essere infatti impiegata allo scopo di migliorare la robustezza del sistema di decodifica nel caso della perdita di pacchetti su canale di comunicazione. Ammesso che i dati di posa (posizione e di orientamento camera) non vengano persi e che si abbia a disposizione il fotogramma di riferimento a partire dal quale si è effettuata la compensazione del movimento, è possibile approssimare il flusso ottico con quello stimabile a partire dalla posa, pur non avendo a disposizione il fotogramma corrente. Anche quando persino i dati di posizione e di orientamento risultano persi, è possibile utilizzare in loro vece una predizione degli stessi ottenuta mediante opportune tecniche di filtraggio predittivo (ad esempio il ben noto filtraggio di Kalman).
L’invenzione, d’altra parte, può essere sfruttata al fine di abbattere il ritardo della catena di codifica-decodifica nel seguente modo. Il decodificatore non attende la ricezione dei pacchetti video che codificano il fotogramma corrente, ma impiega i dati di posizione e di orientamento correnti oppure quelli ottenuti da filtraggio predittivo per stimare il fotogramma corrente a partire dai fotogrammi già decodificati. La codifica del fotogramma corrente viene dunque utilizzata dal decodificatore unicamente per la decodifica dei fotogrammi a seguire.
Claims (8)
- RIVENDICAZIONI 1. Sistema di codifica video (1) atto ad utilizzare contemporaneamente una stima (S) della posizione e dell’orientamento di un sensore di immagini, ottenuta mediante l’elaborazione (3) di dati provenienti da sensori o attuatori esterni, e un modello geometrico della scena (G), presente in un database geografico (4) o stimato contestualmente, per generare un flusso di bit di codifica (FB) a partire da una sequenza di immagini (F) catturate da un sistema di acquisizione (2) interconnesso, sfruttando dette stime di posizione ed orientamento (S) e detto modello geometrico della scena (G), per stimare il flusso ottico (FO) al fine di effettuare la compensazione del movimento, detto flusso ottico (FO) indicando una generica funzione iniettiva che associa ad un pixel dell’immagine da codificare il suo omologo in un’immagine di riferimento già codificata, in qualsiasi modo essa sia rappresentata.
- 2. Sistema di codifica video (1) secondo la rivendicazione 1, caratterizzato dal fatto che il flusso ottico (FO) stimato a partire dai dati di posizione ed orientamento (S) e dal modello geometrico della scena (G), può opzionalmente essere ulteriormente raffinato, in termini di accuratezza, analizzando la sequenza di immagini (F).
- 3. Sistema di codifica video (1) secondo la rivendicazione 1 o 2, caratterizzato dal fatto che detto sistema di stima di posizione ed orientamento (3) è implementato, totalmente o in parte, mediante un sistema di navigazione di un velivolo o satellite su cui è installato detto sistema (1), nel caso di videocamera orientabile, allo scopo di determinare la posizione e l’orientamento (S) del sensore di immagini, venendo impiegati i sistemi di posizionamento foto- o video-camera relativi o assoluti presenti a bordo.
- 4. Sistema di codifica video (1) secondo la 1 rivendicazione 1, caratterizzato dal fatto che detto sistema di acquisizione (2) di immagini digitali (F) è una fotocamera o una videocamera, detto sensore di acquisizione operando in qualsiasi banda elettromagnetica, in particolare il sensore operando nella banda dell’elettro-ottico e/o dell’infrarosso o essendo multispettrale.
- 5. Sistema di codifica video (1) secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta base di dati geografici (4) è collocata in un modulo esterno o anche internamente al modulo fisico in cui è alloggiato il sistema (1).
- 6. Sistema di codifica video (1) secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che la rappresentazione originaria del modello geometrico della scena, è atta ad essere manipolata dal sistema di codifica (1) in modo da alterarne le caratteristiche, apportando ad esempio eventuali approssimazioni, con ’obiettivo di raggiungere una più elevata efficienza computazionale.
- 7. Sistema di codifica video (1) secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta base di dati geografici (4) è preesistente oppure generata dinamicamente, eventualmente in tempo reale, da un sensore esterno diverso dal sensore di immagini che acquisisce il video da codificare, il modello geometrico (G) essendo approssimato oppure parziale rispetto all’interezza della scena.
- 8. Sistema di codifica video (1) secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che i dati di posizione ed orientamento (S), essendo disponibile sia all’encoder che al decoder lo stesso modello geometrico della scena (G), sono opzionalmente impiegati dal decoder per interpolare fotogrammi non disponibili, ad esempio allo scopo di ricostruire fotogrammi andati perduti o per visualizzare il video con più basso ritardo, in uno scenario di trasmissione video da piattaforma volante a stazione di terra.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT000971A ITTO20130971A1 (it) | 2013-11-29 | 2013-11-29 | Sistema di codifica video per immagini e video da piattaforma aerea o satellitare assistita da sensori e da modello geometrico della scena |
PCT/IT2014/000313 WO2015079470A2 (en) | 2013-11-29 | 2014-11-26 | Video coding system for images and video from air or satellite platform assisted by sensors and by a geometric model of the scene |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT000971A ITTO20130971A1 (it) | 2013-11-29 | 2013-11-29 | Sistema di codifica video per immagini e video da piattaforma aerea o satellitare assistita da sensori e da modello geometrico della scena |
Publications (1)
Publication Number | Publication Date |
---|---|
ITTO20130971A1 true ITTO20130971A1 (it) | 2015-05-30 |
Family
ID=50073363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
IT000971A ITTO20130971A1 (it) | 2013-11-29 | 2013-11-29 | Sistema di codifica video per immagini e video da piattaforma aerea o satellitare assistita da sensori e da modello geometrico della scena |
Country Status (2)
Country | Link |
---|---|
IT (1) | ITTO20130971A1 (it) |
WO (1) | WO2015079470A2 (it) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3225026A4 (en) | 2015-07-31 | 2017-12-13 | SZ DJI Technology Co., Ltd. | Method of sensor-assisted rate control |
CN107852508A (zh) * | 2015-07-31 | 2018-03-27 | 深圳市大疆创新科技有限公司 | 修改搜索区域的方法 |
CN108304755B (zh) * | 2017-03-08 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
CN113949926B (zh) * | 2020-07-17 | 2024-07-30 | 武汉Tcl集团工业研究院有限公司 | 一种视频插帧方法、存储介质及终端设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1921867A1 (en) * | 2006-10-17 | 2008-05-14 | Harman Becker Automotive Systems GmbH | Sensor assisted video compression |
US20100079605A1 (en) * | 2008-09-29 | 2010-04-01 | William Marsh Rice University | Sensor-Assisted Motion Estimation for Efficient Video Encoding |
WO2011104498A1 (en) * | 2010-02-25 | 2011-09-01 | Imagination Technologies Limited | Object tracking using graphics engine derived vectors in a motion estimation system |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9020038B2 (en) * | 2009-06-14 | 2015-04-28 | Rafael Advanced Defense Systems Ltd. | Systems and methods for streaming and archiving video with geographic anchoring of frame contents |
-
2013
- 2013-11-29 IT IT000971A patent/ITTO20130971A1/it unknown
-
2014
- 2014-11-26 WO PCT/IT2014/000313 patent/WO2015079470A2/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1921867A1 (en) * | 2006-10-17 | 2008-05-14 | Harman Becker Automotive Systems GmbH | Sensor assisted video compression |
US20100079605A1 (en) * | 2008-09-29 | 2010-04-01 | William Marsh Rice University | Sensor-Assisted Motion Estimation for Efficient Video Encoding |
WO2011104498A1 (en) * | 2010-02-25 | 2011-09-01 | Imagination Technologies Limited | Object tracking using graphics engine derived vectors in a motion estimation system |
Non-Patent Citations (4)
Title |
---|
DEEPAK S TURAGA ET AL: "Model-Based Error Concealment for Wireless Video", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 12, no. 6, 1 June 2002 (2002-06-01), XP011071841, ISSN: 1051-8215 * |
MADJIDI H ET AL: "Vision-based positioning and terrain mapping by global alignment for UAVs", ADVANCED VIDEO AND SIGNAL BASED SURVEILLANCE, 2003. PROCEEDINGS. IEEE CONFERENCE ON 21-22 JULY 2003, PISCATAWAY, NJ, USA,IEEE, 21 July 2003 (2003-07-21), pages 305 - 312, XP010648399, ISBN: 978-0-7695-1971-5 * |
PEARSON D E: "DEVELOPMENTS IN MODEL-BASED VIDEO CODING", PROCEEDINGS OF THE IEEE, IEEE. NEW YORK, US, vol. 83, no. 6, 1 June 1995 (1995-06-01), pages 892 - 906, XP000518742, ISSN: 0018-9219, DOI: 10.1109/5.387091 * |
ROSIEK M ET AL: "EXPLOITING GLOBAL POSITIONING SYSTEM, INERTIAL MEASUREMENT UNIT CONTROLLED IMAGE SENSORS", PROCEEDINGS OF SPIE, S P I E - INTERNATIONAL SOCIETY FOR OPTICAL ENGINEERING, US, vol. 3240, 15 October 1997 (1997-10-15), pages 330 - 340, XP008011394, ISSN: 0277-786X, DOI: 10.1117/12.300071 * |
Also Published As
Publication number | Publication date |
---|---|
WO2015079470A2 (en) | 2015-06-04 |
WO2015079470A3 (en) | 2015-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885328B2 (en) | Determination of position from images and associated camera positions | |
CN112037260B (zh) | 一种跟踪目标的位置估计方法、装置及无人飞行器 | |
CN108605098B (zh) | 用于卷帘快门校正的系统和方法 | |
CN110782496B (zh) | 标定方法、装置、航拍设备和存储介质 | |
CN105352509B (zh) | 地理信息时空约束下的无人机运动目标跟踪与定位方法 | |
WO2020253260A1 (zh) | 时间同步处理方法、电子设备及存储介质 | |
CN109917419B (zh) | 一种基于激光雷达与图像的深度填充密集系统及方法 | |
CN103914808B (zh) | 一种资源三号卫星三线阵影像和多光谱影像的拼接方法 | |
CN112461210B (zh) | 一种空地协同建筑测绘机器人系统及其测绘方法 | |
KR20090098847A (ko) | 가시선의 연속스캐닝에 의한 디지털 매핑장치 | |
KR20170067373A (ko) | 드론 촬영 이미지를 기반으로 3d 오브젝트를 자동으로 추출하는 시스템 및 방법 | |
CN111538032B (zh) | 基于相机和激光雷达独立制图轨迹的时间同步方法和装置 | |
KR101345554B1 (ko) | 지상기준점측량과 gps/ins가 연계된 고해상 선형방식 디지털 다중 밴드 영상을 gis와 수치지도와 3차원국토공간정보로 구축하기위해 면형방식영상으로 재배열하는 방법 | |
AU2017344761B2 (en) | An image synthesis system | |
ITTO20130971A1 (it) | Sistema di codifica video per immagini e video da piattaforma aerea o satellitare assistita da sensori e da modello geometrico della scena | |
US9135716B2 (en) | Method for estimating the movement of a traveling observation instrument flying over a celestial body | |
Caballero et al. | Improving vision-based planar motion estimation for unmanned aerial vehicles through online mosaicing | |
CN105721776A (zh) | 一种带数字稳像功能的运动摄像机装置及数字稳像方法 | |
CN109085915B (zh) | 一种增强现实方法、系统、设备及移动终端 | |
CN109341685B (zh) | 一种基于单应变换的固定翼飞机视觉辅助着陆导航方法 | |
CN113240597A (zh) | 基于视觉惯性信息融合的三维软件稳像方法 | |
CN110800023A (zh) | 图像处理方法和设备、摄像装置以及无人机 | |
CN117434294A (zh) | 一种用于无人机的多孔径纯视觉光流测速方法 | |
KR101249369B1 (ko) | 전방위 영상 광속 조정 장치 및 방법 | |
CN117073720A (zh) | 弱环境与弱动作控制下快速视觉惯性标定与初始化方法及设备 |