ITUB20154624A1 - Metodo di analisi della scena tramite metadati di geometria tridimensionale e sistema di analisi della scena che implementa tale metodo. - Google Patents

Metodo di analisi della scena tramite metadati di geometria tridimensionale e sistema di analisi della scena che implementa tale metodo. Download PDF

Info

Publication number
ITUB20154624A1
ITUB20154624A1 ITUB2015A004624A ITUB20154624A ITUB20154624A1 IT UB20154624 A1 ITUB20154624 A1 IT UB20154624A1 IT UB2015A004624 A ITUB2015A004624 A IT UB2015A004624A IT UB20154624 A ITUB20154624 A IT UB20154624A IT UB20154624 A1 ITUB20154624 A1 IT UB20154624A1
Authority
IT
Italy
Prior art keywords
scene
interest
pixel
depth maps
geometric
Prior art date
Application number
ITUB2015A004624A
Other languages
English (en)
Inventor
Enrico Cappelletto
Guido Maria Cortelazzo
Pietro Zanuttigh
Original Assignee
3D Everywhere
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3D Everywhere filed Critical 3D Everywhere
Priority to ITUB2015A004624A priority Critical patent/ITUB20154624A1/it
Publication of ITUB20154624A1 publication Critical patent/ITUB20154624A1/it

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B08CLEANING
    • B08BCLEANING IN GENERAL; PREVENTION OF FOULING IN GENERAL
    • B08B9/00Cleaning hollow articles by methods or apparatus specially adapted thereto 
    • B08B9/08Cleaning containers, e.g. tanks
    • B08B9/0861Cleaning crates, boxes or the like
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B08CLEANING
    • B08BCLEANING IN GENERAL; PREVENTION OF FOULING IN GENERAL
    • B08B9/00Cleaning hollow articles by methods or apparatus specially adapted thereto 
    • B08B9/08Cleaning containers, e.g. tanks
    • B08B9/20Cleaning containers, e.g. tanks by using apparatus into or on to which containers, e.g. bottles, jars, cans are brought
    • B08B9/28Cleaning containers, e.g. tanks by using apparatus into or on to which containers, e.g. bottles, jars, cans are brought the apparatus cleaning by splash, spray, or jet application, with or without soaking
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B08CLEANING
    • B08BCLEANING IN GENERAL; PREVENTION OF FOULING IN GENERAL
    • B08B9/00Cleaning hollow articles by methods or apparatus specially adapted thereto 
    • B08B9/08Cleaning containers, e.g. tanks
    • B08B9/20Cleaning containers, e.g. tanks by using apparatus into or on to which containers, e.g. bottles, jars, cans are brought
    • B08B9/28Cleaning containers, e.g. tanks by using apparatus into or on to which containers, e.g. bottles, jars, cans are brought the apparatus cleaning by splash, spray, or jet application, with or without soaking
    • B08B9/34Arrangements of conduits or nozzles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B08CLEANING
    • B08BCLEANING IN GENERAL; PREVENTION OF FOULING IN GENERAL
    • B08B9/00Cleaning hollow articles by methods or apparatus specially adapted thereto 
    • B08B9/08Cleaning containers, e.g. tanks
    • B08B9/20Cleaning containers, e.g. tanks by using apparatus into or on to which containers, e.g. bottles, jars, cans are brought
    • B08B9/36Cleaning containers, e.g. tanks by using apparatus into or on to which containers, e.g. bottles, jars, cans are brought the apparatus cleaning by using brushes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Description

Metodo di analisi della scena tramite metadati di geometria tridimensionale e sistema di analisi della scena che implementa tale metodo.
CAMPO TECNICO
La presente invenzione si riferisce a un metodo per l’analisi della scena tramite metadati di geometria tridimensionale, nonché a un sistema di analisi della scena che implementa tale metodo. La presente invenzione si colloca nel settore della “ environment intelligence” cioè attività di analisi di un ambiente esterno o interno effettuata tramite misure e rilevazione di dati dell’ambiente stesso.
STATO DELL’ARTE
Tra le applicazioni dell’ environment intelligence di particolare interesse sono le soluzioni per l’analisi di quanto avviene nell’ambiente tramite dati video, e i sistemi che implementano i concetti di smart environment e smart buildings.
Le attività di analisi di ambiente riguardano svariati settori, come la sicurezza negli edifici che ad esempio include le applicazioni anti-intrusione, il monitoraggio automatico di locali o oggetti di valore; la sicurezza in ambienti pubblici, che ad esempio include il controllo aree Bancomat (o ATM per “Automatic Teller Machine”), il controllo affollamento, il conteggio di persone, il controllo cadute (“uomo a terra”); l’analisi dei comportamenti che ad esempio include il monitoraggio dei percorsi dei consumatori, il monitoraggio dei prodotti presi negli scaffali, il controllo che i visitatori di un museo non si avvicinino troppo alle opere esposte, ecc. e molte altre attività.
Secondo la tecnica consolidata, tali attività si effettuano tramite apparati in cui l’elemento di acquisizione della scena neH’ambiente di interesse è una videocamera. Tali apparati offrono come output un flusso video che riprende le scene che si susseguono. Operatori o algoritmi automatici analizzano il flusso video e controllano se si verificano eventi di interesse o anomalie (ad esempio, in un supermercato la lunghezza di una coda di persone a una cassa supera un valore prefissato).
Il vantaggio delle tecniche note risiede nella facilità di installazione e neH’ampia diffusione sul mercato, per cui i costi di apparati di quel tipo sono molti competitivi.
Il principale svantaggio risiede nella natura del contenuto informativo intrinseco ai dati video costituiti da una sequenza temporale di immagini. Infatti un’immagine rappresenta oggetti tridimensionali in accordo alla modalità chiamata proiezione prospettica realizzata nella pratica tramite l’ottica di un dispositivo di acquisizione che convoglia i raggi di luce emessi o riflessi dai vari oggetti della scena ripresa su un sensore planare foto-sensibile in cui la luce viene impressionata tramite opportuni meccanismi che dipendono dalla natura del sensore. Le immagini per costruzione “schiacciano” su un piano gli oggetti tridimensionali, dunque con perdita delle informazioni di profondità, ossia si perdono le informazioni relative alle dimensioni e posizioni degli oggetti e anche la forma degli oggetti viene alterata per il meccanismo chiamato deformazione prospettica. Per la deformazione prospettica la forma e la dimensione di un oggetto rappresentato in una immagine subiscono caratteristiche alterazioni e dipendono dalla sua distanza dal dispositivo di acquisizione. Per queste ragioni le informazioni di luminosità (rappresentate dal contenuto dei pixel) memorizzate nel sensore non consentono di ricavare informazioni sulle misure dimensionali o metriche di larghezza, altezza, spessore e posizione degli oggetti della scena. Questi limiti hanno stimolato la ricerca a sviluppare strumenti di analisi della scena alternativi da utilizzare da soli o in combinazione con i dati video. In particolare sul mercato da tempo sono disponibili dispositivi chiamati camere tridimensionali (anche 3D camera, nel seguito). Il tipo di 3D camere storicamente apparso per primo riguarda i prodotti di stereo-visione, chiamati sistemi passivi perché, in quanto costituiti da una coppia di videocamere e da opportuni algoritmi di elaborazione congiunta della coppia di flussi video acquisiti dalle due videocamere, possono solo ricevere luce dalla scena. Al contrario i sistemi attivi, più recentemente diventati disponibili sul mercato, devono il loro nome al fatto che nella scena immettono anche luce, nel visibile o nell’ infrarosso. Le 3D camere attive al momento disponibili sul mercato appartengono principalmente (anche se non esclusivamente) a due tipologie distinte: a tempo di volo e a luce strutturata. La caratteristica delle 3D camere, passive o attive e comunque in maniera indipendente dalla specifica tecnologia in esse utilizzata, rilevante ai fini della presente invenzione è che sono dispositivi che generano sequenze di mappe di profondità a frequenza video, ossia al momento tipicamente da 5 a 50 mappe di profondità al secondo.
Come mostrato in figura 1A, un’immagine è di fatto una matrice i cui elementi o pixel (da “picture element”) rappresentano il colore dei punti di una scena ripresa. Come mostrato in figura 1B, una mappa di profondità è di fatto una matrice i cui elementi, che con accettabile abuso di linguaggio nel seguito verranno ancora denominati pixel, rappresentano distanze metriche di oggetti/soggetti rispetto al sensore della 3D camera. Nella figura 1B, i valori delle distanze contenuti in ciascun pixel sono codificati a valori di grigio (con la convenzione: nero distanza minima e bianco distanza massima). Le mappe di profondità conservano tutta l’informazione di geometria 3D della scena ripresa. In questo senso, come si nota in figura 1C, l’informazione geometrica delle mappe di profondità può essere elaborata e trasformata nella forma di “nuvola di punti 3D”, ossia in una pluralità di punti tridimensionali che rappresentano gli oggetti della scena, svincolati da un punto di fruizione obbligato. In figura 1D è evidenziato proprio questo vantaggio: il set di dati della nuvola di punti 3D offre una pluralità di “punti di vista”, tra i quali è possibile utilizzare quello più favorevole alla rilevazione tramite ispezione visiva o elaborazione algoritmica di una caratteristica di interesse della scena.
L’ informazione contenuta in una immagine riproduce solo il colore della scena 3D e solo dal punto di ripresa (caso di figura 1A). Invece, l’informazione delle mappe di profondità (caso di figura 1B) mantiene l’informazione di geometria 3D della scena e può essere tradotta in nuvola di punti 3D e visualizzata o algoritmicamente fruita da altri punti di vista più favorevoli rispetto agli obiettivi di analisi (come in figura 1C). Ad esempio, se fosse di interesse la misura della lunghezza della coscia destra della persona rappresentata, il punto di vista della figura 1D può essere più efficace di quello di figura 1C. Ancora a titolo di esempio si può dire che l’informazione delle immagini è analoga a quella fornita dai dipinti, mentre quelle delle mappe di profondità è analoga a quella dalle sculture (in scala 1 :1 con le misure della scena).
I dati delle mappe di profondità riportano direttamente, senza alcuna procedura di calibrazione, le dimensioni metriche, ossia misurate in [m] o unità di misura equivalenti di larghezza, altezza, spessore e posizione (= distanza dal sensore) di ogni oggetto rappresentato e oltre a questo sono, a differenza delle immagini, indipendenti dalle condizioni di illuminazione.
In un’immagine distinguere il contributo all’apparenza di un oggetto dovuto alle sue caratteristiche geometriche da quello dovuto all’illuminazione è un problema difficilissimo, che semplicemente non si presenta con le mappe di profondità.
Rilevare oggetti sulla base delle loro caratteristiche geometriche 3D dirette metricamente caratterizzate e non sulla base delle loro caratteristiche adimensionali di colore e apparenza 2D, come avviene nelle immagini, cambia totalmente lo scenario delle possibilità e modalità di analisi della scena rispetto all’ uso di soli dati video, potenzialmente con guadagno di affidabilità e accuratezza, estensione delle tipologie di eventi rilevabili e semplificazione delle procedure.
SOMMARIO
La Richiedente si è resa conto che i limiti dell'informazione associata al video su dimensioni e posizioni degli oggetti inquadrati comportano inevitabili approssimazioni a causa delle quali le tecniche note forniscono soluzioni di analisi accettabili per molte applicazioni, ma non sono in grado di rilevare automaticamente in modo robusto svariate tipologie di eventi e comunque le loro prestazioni possono essere migliorate sotto vari aspetti con l’uso di 3D camere. Infatti l’idea inventiva alla base della presente invenzione prevede l’impiego di 3D camere che come specificato acquisiscono sequenze temporali di mappe di profondità della scena inquadrata da cui tramite una nuova e originale elaborazione dei dati di geometria 3D contenuti nelle mappe di profondità è possibile superare in modo robusto ed efficace molti limiti dell’analisi della scena tramite video e affrontare con successo anche nuovi ambiti applicativi.
In generale un metodo di analisi della scena secondo la presente invenzione prevede almeno una camera tridimensionale che acquisisce una sequenza temporale di mappe di profondità di detta scena di interesse, ognuna di dette mappe costituite da una matrice di pixel contenenti dati di distanza della scena di interesse, comprende una fase di caratterizzazione geometrica dell’ambiente della scena di interesse dove è previsto di:
A - impostare un evento da rilevare in detta scena di interesse;
B - elaborare detta sequenza temporale di mappe di profondità per determinare prime informazioni geometriche di riferimento dell’ambiente di detta scena di interesse;
e una fase di analisi della scena di interesse dove è previsto di:
C - elaborare detta sequenza temporale di mappe di profondità per determinare seconde informazioni geometriche di almeno una entità in azione in detta scena di interesse;
D - elaborare dette seconde informazioni geometriche per determinare almeno una evoluzione temporale di detta entità in detta scena di interesse;
E - sulla base di dette prime informazioni geometriche, dette seconde informazioni geometriche e detta almeno una evoluzione temporale determinare se detto evento da rilevare è accaduto.
La presente invenzione riguarda inoltre un sistema di analisi della scena comprendente una o più camere tridimensionali configurato per eseguire il metodo descritto in precedenza.
Ulteriori caratteristiche tecniche vantaggiose della presente invenzione sono descritte nelle rivendicazioni dipendenti, che sono da considerare parte integrante della presente descrizione.
ELENCO DELLE FIGURE
Le caratteristiche tecniche della presente invenzione, nonché i suoi vantaggi, risulteranno chiari dalla descrizione a puro titolo di esempio non limitativo che segue, da considerare congiuntamente ai disegni qui annessi in cui:
- le figure 1A, 1B, 1C e 1D illustrano rispettivamente: l’esito a valle dell’ acquisizione di una immagine di un soggetto tramite un dispositivo noto, l’esito a valle dell’acquisizione di una mappa di profondità dello stesso soggetto di figura 1A tramite una 3D camera posta nella stessa posizione di ripresa del dispositivo noto, una prima elaborazione della mappa di profondità ottenuta in figura 1B, una seconda elaborazione della mappa di profondità ottenuta in figura 1B.
- la figura 2 illustra Γ ambiente di una scena di interesse da analizzare secondo gli insegnamenti della presente invenzione, in un primo istante temporale;
- la figura 3 illustra un diagramma a blocchi di alcune operazioni volte del metodo secondo la presente invenzione;
- la figura 4 illustra la scena di interesse di figura 2 in un secondo istante temporale;
- la figura 5 illustra un diagramma a blocchi esteso di ulteriori operazioni volte del metodo secondo la presente invenzione;
- la figura 6 illustra in modo schematico alcuni dati elaborati secondo la presente invenzione;
- la figura 7 illustra ulteriori dati elaborati secondo la presente invenzione;
- la figura 8 illustra alcuni dati ricavati dall'elaborazione secondo la presente invenzione della scena di figura 4;
- la figura 9 illustra una prima forma di realizzazione di un sistema di analisi configurato per eseguire il metodo secondo la presente invenzione;
- la figura 10 illustra una seconda forma di realizzazione di un sistema di analisi configurato per eseguire il metodo secondo la presente invenzione.
DESCRIZIONE DETTAGLIATA
La descrizione e i disegni sono da considerare solo a fini illustrativi, non limitativi; pertanto la presente invenzione potrà essere implementata secondo diverse forme realizzative; inoltre, le figure sono schematiche e semplificate.
Si fornisce una definizione, ai fini della presente invenzione, di alcuni termini impiegati nel seguito della descrizione.
Mappa di profondità: struttura dati avente come dominio spaziale una matrice planare e come codominio, ossia come contenuto relativo ad ogni posizione della matrice un dato con informazione di distanza tridimensionale, misurato in metri o unità di misura riconducibili al metro. I dati contenuti in una mappa di profondità possono essere generati o tutti simultaneamente nel medesimo istante o sequenzialmente nel tempo, un punto dopo l’altro.
Per semplicità di esposizione, gli elementi che compongono una mappa di profondità verranno indicati con il termine pixel, anche se il loro contenuto riguarda distanze misurate in metri e non grandezze riferibili al colore.
Camera tridimensione (anche 3D camera): dispositivo che produce in uscita una sequenza temporale di mappe di profondità, tramite un’ottica che mappa sul sensore i punti della scena inquadrati. Il generico pixel della mappa di profondità al tempo t contiene la distanza tra detto pixel ed il punto della scena mappato su di esso dall’ ottica.
Punti tridimensionali (anche punti 3D o nuvola di punti): struttura dati (lista o altro) contenente le coordinate (X, Y, Z) dei punti 3D di un’ambiente o scena, espressi rispetto ad un sistema di riferimento noto. I dati di una mappa di profondità possono essere convertiti in punti tridimensionali.
La figura 2 illustra un’ambiente 50 di interesse con due ingressi 30 e 31 che si intende analizzare in accordo a un metodo secondo la presente invenzione. Tale ambiente 50 può comprendere uno o più elementi 54 di interesse, in particolare un’opera 54 esposta. Attorno all’ opera si considera una superficie virtuale 53 di demarcazione nell’esempio in figura di forma cilindrica ma che in generale può assumere forma qualsiasi, che rappresenta il limite minimo di distanza dall'opera 54 che un visitatore deve rispettare. Nell’ ambiente 50 si trova anche un’elemento 57 che è una pianta la cui presenza può essere o meno di interesse.
Ai fini della presente invenzione con il termine “ambiente” si intende il luogo privo di persone, come in figura 2; mentre con il termine “scena” si intende tipicamente anche se non esclusivamente, l’azione che avviene nell’ambiente, oppure i mancanti accadimenti nell’ambiente (ad esempio, in applicazioni di sorveglianza e sicurezza).
In accordo al metodo secondo la presente invenzione è prevista una o più 3D camere 1, 2 e 3 ciascuna delle quali acquisisce una sequenza di mappe di profondità dell’ambiente 50. Le mappe di profondità acquisite ad ogni istante t dalla 3D camera 1 sono costituite da una matrice di pixel contenenti le relative distanze rispetto ai punti dell’ambiente 50 inquadrati, tra cui in particolare anche le distanze dal pavimento 51 e dall’opera 54. La mappa di profondità acquisita in un certo istante t del caso di figura 2 può essere convertita in una nuvola di punti 3D che identifica le tre coordinate (Χ,Υ,Ζ) dell’ ambiente 50.
La figura 3 permette di descrivere i passi del metodo di analisi secondo la presente invenzione.
Si nota in particolare che i blocchi 10 e 11 raggruppati con il riferimento 35 costituiscono una fase di caratterizzazione geometrica della scena di interesse. I blocchi 12, 13 e 14 raggruppati con il riferimento 40 costituiscono una fase di analisi della scena di interesse. In una forma di realizzazione, la fase 35 di caratterizzazione geometrica avviene in assenza di persone (e quindi di azioni compiute nella scena di interesse) e serve per definire le condizioni geometriche basilari deN’ambiente. Nella fase 40 di analisi della scena, si valuta la geometria della scena di interesse, più articolata rispetto alla geometria basilare deN’ambiente per via della presenza di soggetti in movimento.
Si precisa che la fase 35 di caratterizzazione geometrica avviene prima della fase 40 di analisi della scena. Tuttavia, la caratterizzazione geometrica può avvenire ciclicamente, cioè più volte durante una finestra temporale di osservazione per tenere conto di eventuali modifiche della geometria basilare dell’ambiente della scena di interesse.
Il primo passo indicato nel blocco 10 è relativo a impostare un evento da rilevare nella scena di interesse. Nel caso di figura 2 l’evento da rilevare nella scena 50 è il monitoraggio della distanza dei visitatori dalla superficie virtuale 53 di demarcazione al fine di segnalare con una opportuna notifica il suo superamento da parte di un visitatore. Sebbene siano illustrate tre camere, per questa attività sarebbe sufficiente l’utilizzo di anche una sola delle tre opportunamente posizionata e direzionata. Le 3D camere 2 e 3 verranno utilizzate per rilevare altri tipi di eventi come illustrato in seguito. In una forma di realizzazione, l’evento da rilevare tramite il blocco 10 può essere formalizzato nel seguente modo dalla logica di calcolo che implementa il metodo secondo la presente invenzione: impostare la pluralità dei punti 3D che costituiscono la superficie virtuale 53 come limite da non superare quando nella scena 50 viene rilevata un’entità assimilabile a un visitatore.
Il blocco 11 rappresenta un passo e indica l’azione di analizzare un flusso di mappe di profondità ripreso dalla 3D camera 1 dell’ambiente 50 in assenza di persone e quindi di azioni, al fine di definire delle condizioni geometriche basilari dell’ambiente, la cui geometria diventerà più articolata in presenza di persone. Per la caratterizzazione geometrica dell’ambiente in assenza di persone è sufficiente un flusso di mappe di profondità di breve durata, tipicamente di pochi secondi. In una forma di realizzazione, se la 3D camera acquisisce circa 15 mappe al secondo, un periodo di 20 secondi permette di collezionare circa 300 mappe di profondità, ed è adatte a eseguire la caratterizzazione geometrica dell’ambiente della scena di interesse.
Dunque nel blocco 11 si elabora la sequenza temporale delle mappe di profondità per determinare prime informazioni geometriche di riferimento della scena di interesse. Come mostrato nel blocco 12 si effettua l’analisi della scena 50 sulla scorta dell’evento da rilevare impostato al passo 10, della informazioni raccolte al passo 11 e del flusso di mappe di profondità ripreso dalla 3D camera 1 in presenza dei visitatori per il periodo di tempo in cui interessa Γ analisi (tipicamente dell’ ordine di ore o giorni). In particolare, si elabora la sequenza temporale di mappe di profondità per determinare seconde informazioni geometriche di almeno una entità in azione nella scena di interesse. Si valuta in altre parole la presenza di una o più entità nella scena 50 che si contraddistingue per una relativa informazione geometrica intrinseca.
Il blocco 13 rappresenta l’elaborazione delle seconde informazioni geometriche relative a entità presenti nella scena di interesse per determinare almeno una evoluzione temporale dell’entità in detta scena di interesse. In una forma di realizzazione, l’evoluzione temporale è l’analisi nel tempo delle seconde informazioni geometriche. Ad esempio, le seconde informazioni geometriche di una entità nella scena di interesse 50 possono essere rappresentate dal baricentro di tale entità, mentre l’evoluzione temporale è la traiettoria del baricentro stesso nella scena di interesse 50.
Il blocco finale 14 rappresenta l’operazione di analisi delle prime informazioni geometriche, delle seconde informazioni geometriche e dell’evoluzione temporale per determinare se l’evento da rilevare è accaduto.
La figura 4 rappresenta la 3D camera 1 che riprende l’ambiente 50 in cui si ipotizza la presenza di un gruppo di persone 60, oltre ad un oggetto di interesse 54 e la superficie virtuale 53 di demarcazione: il limite che il gruppo di persone 60 non deve superare. In questo senso, l’evento da rilevare nella scena di interesse 50 è l’attraversamento della superficie virtuale 53, da parte di almeno una persona del gruppo 60. La pianta 57 non è presente nel tempo in cui viene svolta l’analisi. L’esempio di figura 4 permette di descrivere in dettaglio le operazioni in accordo alla presente invenzione per effettuare l’attività di analisi tramite dati di profondità oggetto della presente invenzione.
La figura 5 mostra un diagramma a blocchi delle attività svolte per effettuare l’analisi dell’esempio di figura 4. Si precisa che il diagramma di figura 5 è una porzione di un diagramma più esteso in cui sono comprese operazioni ausiliarie e accessorie per effettuare l’analisi della scena.
Dopo aver impostato l’evento da rilevare in accordo a quanto già descritto, si procede con il blocco 101 che descrive le operazioni relative ad un flusso di mappe di profondità fornite dalla 3D camera 1 in assenza di persone neN’ambiente 50 per la caratterizzazione geometrica di base deN’ambiente. In una forma di realizzazione si imposta un intervallo temporale, si elabora la sequenza di mappe di profondità fornite in quell’intervallo temporale in assenza di persone per ricavare la caratterizzazione geometrica di base dell’ambiente. Errori e lacune di misura, anche importanti, affliggono tipicamente i dati di distanza acquisiti da una 3D camera. A questo scopo, le operazioni di filtraggio ed elaborazione dei flussi di mappe di profondità sono implementate per ottenere dati affidabili.
La figura 6 mostra una forma di realizzazione di prime operazioni di filtraggio ed elaborazione sulle sequenze di mappe di profondità utilizzate sia in preelaborazione che in analisi. Nell’esempio di figura 6 sono mostrate le mappe 15, 16 e 17, relative agli istanti temporali t, t+1 e t+2. Il numero di mappe utilizzato è tipicamente molto superiore a 3. Per ogni mappa di distanza dell’insieme, si considera la misura di distanza associata ad ogni pixel. Nell’esempio in figura si mostra l’operazione solo per un pixel: il pixel 151 della mappa 15; il pixel 161 della mappa 16 e il pixel 171 della mappa 17.
Successivamente si effettua un confronto sulla misura di distanza dello stesso pixel per le diverse mappe di profondità che compongono l’insieme e si stabilisce la pluralità di valori di distanza da associare alla posizione di ciascun pixel per la caratterizzazione geometrica basilare dell’ambiente senza persone. Nella forma di realizzazione di figura 6, si raccoglie il valore dello stesso pixel 151, 161 e 171 per le tre differenti mappe 15, 16 e 17. Il confronto prevede di costruire un istogramma dei valori di ogni pixel. In figura, si ha pertanto che il pixel 151 della prima mappa 15 ha valore a, il pixel 161 della seconda mappa 16 ha valore a e il pixel 171 della terza mappa 17 ha valore b.
DalTistogramma 200 dei valori dei pixel delle diverse mappe, si seleziona secondo un criterio predeterminato (ad esempio selezionando la moda del l’istogramma ) il valore del pixel 181 che costituisce la mappa 18 di profondità dell’ambiente in assenza di persone per semplicità nel seguito denominata anche mappa dell’ambiente.
In una forma di realizzazione, alla mappa dell’ambiente si associano una pluralità di valori di misure di distanza. Come mostrato in figura 6, al pixel 181 della mappa dell’ambiente 18 si associa un vettore 186 comprendente una pluralità di valori di misure di distanza 182, 183, 184, 185. Tale soluzione permette di popolare la caratterizzazione geometrica dell’ambiente in assenza di persone con misure di distanza affidabili e isolare misure di distanza non affidabili, cioè lacune di misura, come ad esempio mostrato con riferimento al pixel 187, per gestirle secondo modalità descritte più in dettaglio nel seguito.
In seguito si procede ancora trasformando in punti 3D i dati sulla geometria basilare dell’ambiente ricavati dalle mappe di profondità riprese in assenza di persone, in particolare si individua un sottoinsieme di pixel che costituisce il livello del pavimento di detto ambiente di analisi; e si individua un sistema di riferimento cartesiano 3D in cui il pavimento è associato al piano (X,Y). Con riferimento alla figura 4, si individuano i punti appartenenti al piano 51 per stabilire il sottoinsieme di pixel che costituisce il livello del pavimento della scena 50 e il punto 52 come origine del sistema di riferimento (l’asse Z viene preso in maniera ortogonale al pavimento e direzione positiva verso l’alto).
Con riferimento nuovamente alla figura 5, si procede quindi al blocco 102 e seguenti in cui si elabora il flusso di mappe di profondità ripreso in condizioni di analisi ossia con persone nella scena. In particolare si inizia con il blocco 102, in cui in una forma di realizzazione, si effettuano le seguenti operazioni:
Si acquisisce il valore dei pixel delle mappe di profondità ripreso in condizioni di analisi; si rimuovono innanzitutto gli artefatti di acquisizione eventualmente presenti, quindi si elaborano i valori dei pixel del flusso di analisi, con i dati della mappa dell’ambiente ottenuti in pre-elaborazione; sulla base di tale elaborazione, si catalogano i pixel delle mappe di profondità del flusso di analisi per stabilirne l’affidabilità. In una forma di realizzazione, la catalogazione dei pixel delle mappe di profondità del flusso di analisi è in accordo alle seguenti modalità:
i - pixel contenente una misura di distanza considerata attendibile e associato a un pixel di mappa di profondità della geometria basilare dell’ ambiente senza persone a sua volta contenente una misura di distanza considerata attendibile;
ii- pixel contenente una misura di distanza considerata attendibile e associato a un pixel di mappa di profondità della geometria basilare dell’ ambiente senza persone contenente una misura di distanza considerata non attendibile;
iii - pixel contenente una misura di distanza considerata non attendibile e associato a un pixel di mappa di profondità della geometria basilare dell’ ambiente senza persone contenente una misura di distanza considerata attendibile;
iv - pixel contenente una misura di distanza considerata non attendibile e associato a un pixel di mappa di profondità della geometria basilare dell’ ambiente senza persone a sua volta contenente una misura di distanza considerata non attendibile;
La figura 7 mostra un esempio di tale elaborazione tramite confronto diretto e della successiva catalogazione. Si ipotizza una mappa associata alle caratteristiche basilari deH’ambiente 18 composta da 9 pixel. Si ipotizza una mappa 25 ricavata in seguito all’acquisizione del flusso di analisi composta da 9 pixel.
Dal confronto tra i pixel della mappa 18 con la mappa 25 emerge dunque che: il pixel 25_1 (associato al pixel 18_1) appartiene alla categoria ii;
il pixel 25_2 (associato al pixel 18_2) appartiene alla categoria /;
il pixel 25_3 (associato al pixel 18_3) appartiene alla categoria /;
il pixel 25_4 (associato al pixel 18_4) appartiene alla categoria /;
il pixel 25_5 (associato al pixel 18_5) appartiene alla categoria iii;
il pixel 25_6 (associato al pixel 18_6) appartiene alla categoria /;
il pixel 25_7 (associato al pixel 18_7) appartiene alla categoria /;
il pixel 25_8 (associato al pixel 18_8) appartiene alla categoria /;
il pixel 25_9 (associato al pixel 18_9) appartiene alla categoria ii.
L’esito del passo 102 porta a ottenere la catalogazione dei pixel del flusso di analisi secondo le modalità precedentemente descritte e una lista di regioni, cioè gruppi di pixel associati a potenziali oggetti/istanze o in foreground, ossia davanti alle caratteristiche geometriche basilari dell’ ambiente senza persone, ad esempio si individua il sottoinsieme di pixel 25_6; 25_7; 25_8; 25_9 come associato al gruppo di persone 60 mostrate in figura 4 o in underground, ossia dietro alle caratteristiche geometriche basilari dell’ ambiente senza persone.
Infatti, secondo un aspetto della presente invenzione, è previsto di analizzare dati di distanza della scena di interesse contenuti nella matrici di pixel acquisite per stabilire livelli di giacitura di entità presenti in detta scena di interesse e relative variazioni di detti livelli di giacitura. In altre parole è possibile stabilire se un oggetto (cioè un’entità) si colloca su un certo piano e se da questo piano viene mosso. Ad esempio, nella scena di figura 2 si nota la presenza della pianta 57. I pixel delle relative mappe acquisite riportano la misura di distanza che il sensore della 3D camera rileva rispetto alla pianta, ad esempio i pixel che individuano la pianta riportano un valor medio di 4 metri. Nella scena di figura 4, si nota che la pianta 57 non è più presente, i pixel della stessa regione riportano un valor medio superiore, ad esempio 4,3 metri. Si capisce in questo modo che il livello di giacitura della pianta è cambiato, e si è in presenza di uno spazio “in più” causato dallo spostamento dell’entità pianta che di conseguenza lascia un “vuoto”, che viene rilevato. Questa regione corrisponde a quello che nella presente descrizione viene chiamato underground.
Ad esempio nella scena di figura 4 al momento dell’analisi si nota che le caratteristiche geometriche di base dall’ ambiente desunte da dati relativi alla situazione di figura 2 sono cambiate perché la pianta 57 non è più presente nella scena di analisi. Pertanto i valori dei pixel relativi alla posizione della pianta 57 nel flusso di analisi contengono valori di distanza superiori, ossia dietro, ai valori di distanza di detti pixel relativi alle caratteristiche geometriche basilari deH’ambiente senza persone. La possibilità di avere informazioni relative a potenziali oggetti/istanze di tipo underground come si vedrà in seguito è essenziale per alcuni tipi di applicazioni come la rilevazione di oggetti mancanti o rubati ed è alla base della resilienza del metodo rispetto a cambiamenti relativi alla geometria deH’ambiente ai quali i metodi si possono adattare. E’ utile notare che questo tipo di informazione non è disponibile con le immagini nelle quali l’informazione è data dal colore: infatti quando il colore cambia in una regione di una immagine non vi è alcun modo per sapere se il cambio è dovuto ad un oggetto davanti o dietro agli oggetti precedentemente visibili. Chiaramente la visibilità di un’oggetto dietro agli oggetti precedentemente visibili richiede lo spostamento di un’oggetto dalla sua precedente posizione.
Con riferimento nuovamente alla figura 5, si procede quindi al blocco 103 dove si elabora la pluralità di punti 3D corrispondenti ai pixel associati alle istanze di entità presenti nella scena di interesse (cioè i gruppi di pixel associati a potenziali oggetti/istanze in foreground precedentemente determinati) per individuare in modo univoco regioni in cui una o più entità geometriche sono presenti in detta scena di interesse.
In una forma di realizzazione, si procede nella seguente modalità:
- i contenuti dei pixel delle mappe di profondità del flusso di analisi dopo la classificazione del blocco 102 che appartengono alle categorie i) e ii) vengono trasformati in punti 3D;
- le nuvole di punti vengono regolarizzate rispetto a possibili artefatti
- per ogni insieme di punti 3D connesso associabile a istanze di entità, si calcola un istogramma delle coordinate Χ,Υ,Ζ lungo uno o più assi del sistema di riferimento;
- sulla base dei passi precedenti, si identificano nuclei di punti 3D relativi a una o più entità presenti nella scena di interesse;
- per tutte le entità presenti nella scena di interesse, si calcolano uno o più descrittori geometrici che dipendono dall’ evento di interesse impostato.
La figura 8 mostra una forma di realizzazione in cui si individua la nuvola di punti 3D che compongono il gruppo di persone. Si nota che il gruppo di persone 60 (figura 4) è costituito da una prima persona 61 e da una seconda persona 62, tra loro vicine. Come mostrato nella sezione 1, dall’analisi dei punti 3D secondo il piano A, cioè un piano parallelo al piano (X,Z), emergono una pluralità di valori 60, in cui le due persone 60 e 61 non riescono a essere distinte. Come mostrato nella sezione 2, il relativo istogramma dei valori delle coordinate X dei punti 3D della scena mostra un picco che riflette la concentrazione dei punti 3D dall’analisi secondo il piano A.
L’analisi dei pixel secondo il piano B, cioè un piano parallelo al piano (X,Y), permette di distinguere le due differenti insiemi di punti 3D relativi alle due persone 61 e 62. L’istogramma 600 dei valori delle coordinate Y dei punti 3D della scena riporta infatti due picchi 601 e 602 indicativi dei valori di profondità rilevati dalla 3D camera 1 delle due differenti persone.
Con riferimento nuovamente alla figura 5, si procede quindi al blocco 104 in cui una volta individuate le entità nella scena 50, ad esempio le persone 60 e 61 nel caso di figura 4 nel blocco 103, si elaborano gli insiemi di punti 3D ad esse associati per determinare un descrittore geometrico. Ad esempio, ancora con riferimento alla figura 4, dopo l’elaborazione in cui si determina l’esistenza delle due persone 61 e 62 nella scena 50, si calcolano come descrittori geometrici il baricentro della persona 61 e il baricentro della persona 62 e le dimensioni massime in Χ,Υ, Z dei rispettivi gusci convessi.
Con riferimento nuovamente alla figura 5, si procede quindi al blocco 105 in cui si confrontano i descrittori geometrici relativi a differenti istanti temporali del flusso di analisi della scena 50. In pratica, in questa fase del metodo si tracciano nel tempo le entità rilevate; nell’esempio di figura 4 si traccia nel tempo sia la traiettoria dei baricentri delle due persone 61 e 62 precedentemente calcolati che delle posizioni delle dimensioni massime in Χ,Υ, Z dei rispettivi gusci convessi eventualmente approssimati dal parallelepipedo di minor volume o bounding box 3D che li contiene.
Ai fini della presente invenzione, è necessario istituire continuità temporale tra le informazioni ricavate in istanti successivi; in altre parole è necessario elaborare i punti 3D relativi ad istanti successivi di modo che la persona 61 identificata al tempo t sia la stessa identificata al tempo t+1. In una forma di realizzazione, tale operazione si effettua correlando gli identificatori geometrici delle entità della prima nuvola di punti (quella all’istante t) e delle entità della seconda nuvola di punti (quella all’istante t+1). Dall’esito di tale correlazione, si riconosce l’entità presente nei diversi istanti. In una ulteriore forma di realizzazione, a ogni entità viene associata una pluralità di descrittori. Tali descrittori permettono di identificare in modo univoco le entità presenti nella scena di interesse a un primo istante di tempo. A un istante di tempo successivo, si calcolano gli stessi descrittori per le entità presenti nella scena di interesse e si correlano con i descrittori del primo istante di tempo. L’esito di tale correlazione permette di individuare i picchi di correlazione e dunque determinare la stessa entità nella scena di interesse al primo istante di tempo e al secondo istante di tempo.
Pertanto con riferimento alla figura 5, al blocco 105 vengono caratterizzate geometricamente e temporalmente le entità di interesse presenti nella scena tramite l’associazione di opportuni metadati sia geometrici che temporali che dipendono dallo specifico evento da rilevare che è stato impostato e che vengono forniti al blocco 106. Ad esempio con riferimento alla figura 4, in cui Γ evento da rilevare è se una delle persone 61, 62 oltrepassa la superficie virtuale 53, i metadati forniti al blocco 106 possono essere le traiettorie dei vertici del bounding box 3D della persona 61 e della persona 62. In una forma di realizzazione, con riferimento alla figura 5, l'evento da rilevare è determinato nel blocco 106 sulla base dell’elaborazione dei metadati geometrici e temporali opportunamente associati alle varie entità presenti nella scena. L’evento da rilevare nel caso di figura 4 può pertanto essere impostato come: le posizioni dei vertici del bounding box 3D della persona 61 e quelle dei vertici del bounding box 3D della persona 62 toccano o entrano dentro il volume circoscritto dalla superficie virtuale 53 di demarcazione. La rilevazione dell’evento può essere ottenuta tramite metodi di confronto logico o algebrico sui metadati geometrici e temporali utilizzati. La scelta dei metadati da usare dipende fortemente dall’ evento che interessa rilevare. Ad esempio con riferimento alla situazione di figura 4 se interessa rilevare la presenza di bambini nella stanza la connotazione geometrica del metadato diventa particolarmente efficace. In questo caso l’evento da rilevare può essere impostato come: le posizioni del baricentro della persona 61 o del baricentro della persona 62 rilevate nella stanza sono al di sotto di 1 m. In forme di realizzazione alternative, le caratteristiche temporali dei metadati possono assumere particolare rilievo per caratterizzare l’evento di interesse: come ad esempio nella situazione tipicamente indicata con il termine di loitering relativa alla permanenza per tempi di durata sospetta in particolari aree. Ad esempio, nella situazione della figura 4, se la permanenza media dei visitatori del museo nelle vicinanze della statua fosse di 5 minuti è lecito sospettare di periodi di permanenza superiori a questo termine. In questo caso l’evento di interesse da rilevare nel blocco 106 potrebbe essere definito come il tempo in cui i baricentri delle persone 60 sostano in un volume definito da una superficie massima e minima attorno all’ oggetto 54 che non deve mai superare un intervallo T.
In forme di realizzazione alternative, i metadati geometrici e temporali possono essere congegnati in altro modo per rilevare differenti eventi come ad esempio nel caso della rilevazione della velocità o dell’accelerazione degli spostamenti nella scena. Infatti potrebbe essere evento di interesse rilevare la velocità con cui le persone 60 si avvicinano alla porta 31 della scena rappresentata in figura 4 in quanto andamenti a passo di corsa sono da considerarsi sospetti. Utilizzando come metadati le posizioni dei baricentri o anche dei vertici dei bounding box delle persone 60 in ogni istante è immediato ricavare le relative velocità. In questo caso l’evento da rilevare potrebbe pertanto essere impostato come: la velocità del baricentro della persona 61 o quella del baricentro della persona 62 non devono superare il valore di V m/s.
In forme di realizzazione alternative, ad esempio il caso della rilevazione della situazione “uomo a terra” per cause di malore o aggressione può essere di interesse usare come metadati sia le posizioni che le accelerazioni dei baricentri delle persone 60. In questo caso l’evento da rilevare potrebbe pertanto essere impostato come: l’accelerazione del baricentro della persona 61 o quella del baricentro della persona 62 supera la soglia di A m/ s<2>e la posizioni del baricentro della persona la cui accelerazione ha superato detta soglia di A m/ s<2>diventa inferiore a 0,3 m.
In forme di realizzazione alternative, ad esempio il caso della rilevazione della situazione “oggetto mancante o rubato” possono essere efficaci anche metadati di solo carattere geometrico legati al bounding box delle entità che caratterizzano la geometria di base deH’ambiente di cui l’oggetto o gli oggetti di interesse fanno parte. In questo caso l’evento da rilevare potrebbe pertanto essere impostato come: verifica se nel flusso di analisi i bounding box degli oggetti W e O impostati come oggetti da monitorare, rilevati in pre-elaborazione, sono assenti. In questo caso si lavora sulla “non” presenza delle distanze relative ai bounding box degli oggetti, rilevata tramite l’informazione associata alle misure di tipo underground precedentemente indicate. In forme di realizzazione alternative, può essere di interesse monitorare simultaneamente Γ occorrenza di più eventi del tipo sopra indicato, ad esempio nel caso della scena di figure 3 potrebbe essere utile Γ evento multiplo costituito da “oggetto mancante” relativo all’ opera 54, dalla presenza di bambini, dal superamento della superficie virtuale 53, dalla notifica di andamento a passo di corsa verso la porta 31 e conseguentemente utilizzare metadati compositi ciascuno efficace con uno specifico tipo di evento.
In forme di realizzazione alternative può essere utile rilevare singoli o plurimi eventi di interesse tramite dati 3D provenienti da più 3D camere componendo livelli multipli di rilevazione eventi. Ad esempio nella situazione rappresentata in figura 4, se l’evento di interesse è il numero di persone presenti nella stanza ad ogni istante, si possono usare congiuntamente ed in modo cooperativo i dati 3D provenienti sia dalla 3D camera 2 posizionata sopra la porta 30 sia dalla 3D camera 3 posizionata sopra la porta 31 tramite la seguente doppia rilevazione di eventi. I dati di 3D camera 2 vengono usati per contare il numero di persone che attraversano la porta 30 per entrare o uscire dalla stanza. Questo evento si può impostare come rilevazione del baricentro di bounding box compatibili con le dimensioni di persone e non di animali che entrano o escono dalla superficie corrispondente alla porta 30. Ad ogni rilevazione un contatore viene incrementato 0 decrementato di una unità a seconda che la persona entri o esca. Analogamente 1 dati di 3D camera 3 vengono usati per contare il numero di persone che attraversano la porta 31 per entrare o uscire dalla stanza. Dal confronto istante per istante tra i contenuti del contatore relativo a porta 30 e quelli del contatore relativo a porta 31 si ricava il numero di persone presenti nella stanza.
Un ulteriore aspetto della presente invenzione riguarda un programma per elaboratore configurato per essere memorizzato nella memoria di un elaboratore e comprendente codice adatto a eseguire i passi del metodo descritto in precedenza.
Inoltre, come mostrato in figura 9 la presente invenzione riguarda un sistema di analisi comprendente almeno una 3D camera 1 in rete collegate a un modulo di elaborazione e interfaccia 70. Tale modulo comprende almeno una unità di interfaccia per ciascuna camera, tipicamente un driver configurato per pilotare una 0 più 3D camere 1; una unità di elaborazione e una unità di collegamento a una rete 80 di telecomunicazioni. L’unità di elaborazione può essere un micro-pc dedicato equipaggiato con il programma adatto a eseguire i passi del metodo secondo la presente invenzione. In questo senso, l’unità di collegamento a una rete di telecomunicazioni è l’interfaccia di rete del micro-pc. In un'altra forma di realizzazione, l’unità di elaborazione è una logica cablata opportunamente configurata per eseguire un programma che effettua i passi del metodo secondo la presente invenzione, mentre l’unità di collegamento è un’interfaccia di rete distinta. Sia nel caso di micro-pc che nel caso di logica cablata e interfaccia di rete, il modulo 70 riceve un flusso di mappe di profondità dalla 3D camera 1 che viene analizzato dalla sua unità di elaborazione e a seconda delle impostazioni e specifici eventi da rilevare trasmette segnali di vario tipo, come metadati di analisi, notifiche grafiche con mappe di profondità o altro sia verso la rete 80 che verso il generico dispositivo 91. L’ interfaccia 70 è infatti predisposta per ricevere e trasmettere dati con dispositivi 91 di varia natura, ad esempio apparecchiatura di video-analisi, di registrazione dati, di sicurezza, di controllo e altro. I dati ricevuti possono essere usati per impostare i parametri del sistema oggetto dell’invenzione o come informazione ausiliaria da usare per rilevare eventi tramite il blocco 106 della figura 5. Un server di gestione 90 permette di controllare in rete 1 dati ricevuti dal modulo 70 e impostare segnali di comando o controllo (ad esempio per operazioni di manutenzione o di prelievo o scrittura dati) verso il modulo 70 provenienti da altri dispositivi generici 92 o direttamente da utenti. Il server di gestione 90 è inoltre anche una interfaccia utente remota per il modulo 70.
La presente invenzione, come mostrato in figura 10 riguarda altresì una rete di 3D camere ciascuna collegate a un modulo di elaborazione e interfaccia di tipo 70 che tra di esse scambiano dati tramite la rete 80 e dialogano con un server 90 e altri dispositivi 91, 191 e 92 di video-analisi, di registrazione dati, sicurezza e altro. In questo contesto il server 90 funziona come orchestratore della rete di 3D camere.

Claims (14)

  1. RIVENDICAZIONI 1. Metodo di analisi della scena in cui è prevista almeno una camera tridimensionale che acquisisce una sequenza temporale di mappe di profondità di detta scena di interesse, ognuna di dette mappe costituite da una matrice di pixel contenenti dati di distanza della scena di interesse, il metodo comprendendo una fase di caratterizzazione geometrica dell’ ambiente della scena di interesse dove è previsto di: A - impostare un evento da rilevare in detta scena di interesse; B - elaborare detta sequenza temporale di mappe di profondità per determinare prime informazioni geometriche di riferimento deN’ambiente di detta scena di interesse; e una fase di analisi della scena di interesse dove è previsto di: C - elaborare detta sequenza temporale di mappe di profondità per determinare seconde informazioni geometriche di almeno una entità in azione in detta scena di interesse; D - elaborare dette seconde informazioni geometriche per determinare almeno una evoluzione temporale di detta entità in detta scena di interesse; E - sulla base di dette prime informazioni geometriche, dette seconde informazioni geometriche e detta almeno una evoluzione temporale determinare se detto evento da rilevare è accaduto.
  2. 2. Metodo secondo la rivendicazione 1 in cui: - dette prime informazioni geometriche rappresentano caratteristiche geometriche di elementi considerabili caratterizzanti la geometria di base deN’ambiente di detta scena di interesse; - dette seconde informazioni geometriche rappresentano caratteristiche geometriche di detta almeno una entità in azione in detta scena di interesse; e in cui è inoltre previsto di: - analizzare dette seconde informazioni geometriche relative ad almeno un primo istante di tempo e relative a un secondo istante di tempo successivo per determinare detta evoluzione temporale.
  3. 3. Metodo secondo la rivendicazione 1 oppure 2 in cui detto passo B comprende inoltre le fasi di: - rimuovere artefatti di acquisizione in detta sequenza temporale di mappe di profondità; - memorizzare una pluralità di mappe di profondità; - per ogni mappa di profondità di detta pluralità, rilevare la misura di distanza di ogni pixel; - effettuare un confronto sulla misura di distanza dello stesso pixel per le diverse mappe di profondità che compongono detta pluralità; - sulla base di detto confronto - stabilire una pluralità di pixel inaffidabili, dovuti a errori nel processo di acquisizione della camera tridimensionale; - stabilire una pluralità di pixel affidabili; - trasformare detti pixel affidabili in una struttura dati di punti tridimensionali.
  4. 4. Metodo secondo una qualsiasi delle rivendicazioni precedenti in cui l’elaborazione di detto passo B prevede inoltre di associare una pluralità di valori di misure di distanza per ogni pixel di dette mappe di profondità.
  5. 5. Metodo secondo una qualsiasi delle rivendicazioni precedenti in cui dette prime informazioni geometriche comprendono: informazioni indicative del livello del pavimento di detta scena di interesse, un sistema di riferimento di detta scena di interesse.
  6. 6. Metodo secondo una qualsiasi delle rivendicazioni precedenti in cui detto passo C prevede inoltre di: - confrontare il valore dei pixel delle mappe di profondità acquisite al passo C relative ad almeno una entità in azione in detta scena di interesse con il valore dei pixel delle mappe di profondità acquisite al passo B relative alla geometria di base deH’ambiente di detta scena di interesse; - sulla base di detto confronto, catalogare i pixel delle mappe di profondità acquisite al passo C in accordo alla seguente modalità: i - pixel contenente una misura di distanza considerata attendibile e associato a un pixel delle mappe di profondità acquisite al passo B a sua volta contenente una misura di distanza considerata attendibile. ii - pixel contenente una misura di distanza considerata attendibile e associato a un pixel delle mappe di profondità acquisite al passo B a sua volta contenente una misura di distanza considerata inaffidabile. iii - pixel contenente una misura di distanza considerata inaffidabile e associato a un pixel delle mappe di profondità acquisite al passo B a sua volta contenente una misura di distanza considerata attendibile. iv - pixel contenente una misura di distanza considerata inaffidabile e associato a un pixel delle mappe di profondità acquisite al passo B a sua volta contenente una misura di distanza considerata inaffidabile.
  7. 7. Metodo secondo la rivendicazione 6 in cui detti pixel catalogati secondo la modalità / oppure //vengono elaborati per essere trasformati in una struttura dati di punti tridimensionali.
  8. 8. Metodo secondo la rivendicazione 7 in cui si individuano punti tridimensionali associati a istanze di entità presenti in detta scena di interesse per individuare in modo univoco le relative entità presenti in detta scena di interesse.
  9. 9. Metodo secondo la rivendicazione 8 in cui si calcola un istogramma delle misure di distanza rappresentate da detti punti associati alle rispettive entità lungo uno o più assi di detto sistema di riferimento, e un descrittore geometrico indicativo di parametri caratteristici della geometria di ogni entità.
  10. 10. Metodo secondo la rivendicazione 9 in cui detta evoluzione temporale di una entità in detta scena di interesse viene valutata tramite analisi del relativo descrittore geometrico.
  11. 11. Metodo secondo una qualsiasi delle rivendicazioni precedenti in cui è previsto effettuare ciclicamente la caratterizzazione geometrica della scena di interesse per determinare variazioni nella posizione e/o presenza di detti elementi considerabili caratterizzanti la geometria di base dell’ambiente di detta scena di interesse.
  12. 12. Metodo secondo una qualsiasi delle rivendicazioni precedenti in cui è previsto di analizzare dati di distanza della scena di interesse contenuti nelle mappe di profondità acquisite per stabilire livelli di giacitura di entità presenti in detta scena di interesse e relative variazioni di detti livelli di giacitura.
  13. 13. Programma per elaboratore configurato per essere memorizzato nella memoria di un elaboratore e comprendente codice adatto a eseguire i passi del metodo secondo una qualsiasi delle rivendicazioni da 1 a 12 quando eseguito dall’unità a processore di detto elaboratore.
  14. 14. Sistema di analisi della scena comprendente una o più camere tridimensionali collegate ad almeno un modulo di elaborazione e interfaccia, detto modulo comprendendo almeno una unità di interfaccia per detta camera tridimensionale, una unità di elaborazione e una unità di collegamento a una rete di telecomunicazioni, in cui detta unità di elaborazione è equipaggiata con un programma per elaboratore secondo la rivendicazione 13.
ITUB2015A004624A 2015-07-20 2015-07-20 Metodo di analisi della scena tramite metadati di geometria tridimensionale e sistema di analisi della scena che implementa tale metodo. ITUB20154624A1 (it)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ITUB2015A004624A ITUB20154624A1 (it) 2015-07-20 2015-07-20 Metodo di analisi della scena tramite metadati di geometria tridimensionale e sistema di analisi della scena che implementa tale metodo.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ITUB2015A004624A ITUB20154624A1 (it) 2015-07-20 2015-07-20 Metodo di analisi della scena tramite metadati di geometria tridimensionale e sistema di analisi della scena che implementa tale metodo.

Publications (1)

Publication Number Publication Date
ITUB20154624A1 true ITUB20154624A1 (it) 2017-01-20

Family

ID=54601965

Family Applications (1)

Application Number Title Priority Date Filing Date
ITUB2015A004624A ITUB20154624A1 (it) 2015-07-20 2015-07-20 Metodo di analisi della scena tramite metadati di geometria tridimensionale e sistema di analisi della scena che implementa tale metodo.

Country Status (1)

Country Link
IT (1) ITUB20154624A1 (it)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003136B1 (en) * 2002-04-26 2006-02-21 Hewlett-Packard Development Company, L.P. Plan-view projections of depth image data for object tracking
WO2015055312A1 (de) * 2013-10-17 2015-04-23 Dräger Medical GmbH Verfahren für die überwachung eines patienten innerhalb eines medizinischen überwachungsbereichs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003136B1 (en) * 2002-04-26 2006-02-21 Hewlett-Packard Development Company, L.P. Plan-view projections of depth image data for object tracking
WO2015055312A1 (de) * 2013-10-17 2015-04-23 Dräger Medical GmbH Verfahren für die überwachung eines patienten innerhalb eines medizinischen überwachungsbereichs

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DIRACO G ET AL: "An active vision system for fall detection and posture recognition in elderly healthcare", 2010 DESIGN, AUTOMATION & TEST IN EUROPE CONFERENCE & EXHIBITION : DATE 2010 ; DRESDEN, GERMANY, 8 - 12 MARCH 2010, IEEE, PISCATAWAY, NJ, US, 8 March 2010 (2010-03-08), pages 1536 - 1541, XP032317911, ISBN: 978-1-4244-7054-9, DOI: 10.1109/DATE.2010.5457055 *
HARVILLE M ET AL: "Fast, integrated person tracking and activity recognition with plan-view templates from a single stereo camera", PROCEEDINGS OF THE 2004 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 27 JUNE-2 JULY 2004 WASHINGTON, DC, USA, IEEE, PROCEEDINGS OF THE 2004 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION IEE, vol. 2, 27 June 2004 (2004-06-27), pages 398 - 405, XP010708670, ISBN: 978-0-7695-2158-9, DOI: 10.1109/CVPR.2004.1315191 *

Similar Documents

Publication Publication Date Title
Zhang et al. A survey on vision-based fall detection
CN105894702B (zh) 一种基于多摄像机数据融合的入侵检测报警系统及其检测方法
US7397929B2 (en) Method and apparatus for monitoring a passageway using 3D images
US7400744B2 (en) Stereo door sensor
CN101552910B (zh) 基于全方位计算机视觉的遗留物检测装置
Zhang et al. Evaluating depth-based computer vision methods for fall detection under occlusions
CN103761748A (zh) 异常行为检测方法和装置
Cetin et al. Methods and techniques for fire detection: signal, image and video processing perspectives
KR101541272B1 (ko) 사람들의 움직임 불규칙성을 이용한 폭력 행위 검출 장치 및 방법
US8873804B2 (en) Traffic monitoring device
RU2713876C1 (ru) Способ и система выявления тревожных событий при взаимодействии с устройством самообслуживания
Lijun et al. Video-based crowd density estimation and prediction system for wide-area surveillance
CN106570471A (zh) 基于压缩跟踪算法的尺度自适应多姿态人脸跟踪方法
Carletti et al. An efficient and effective method for people detection from top-view depth cameras
CN109215150A (zh) 人脸点名与计数方法及其系统
TW202207226A (zh) 跨感測器之物體屬性分析方法與系統
ITUB20154624A1 (it) Metodo di analisi della scena tramite metadati di geometria tridimensionale e sistema di analisi della scena che implementa tale metodo.
Ankad et al. Object Size Measurement from CCTV footage using deep learning
CN110717466B (zh) 一种基于人脸检测框回归安全帽位置的方法
CN114488337A (zh) 一种高空抛物检测方法及装置
JP5361014B2 (ja) 通行監視システム
KR101355206B1 (ko) 영상분석을 이용한 출입 계수시스템 및 그 방법
KR102407202B1 (ko) 지능형 영상 분석 장치 및 방법
KR20100071222A (ko) 감시 카메라 시스템에서 카메라 영상의 사람 객체 움직임 양에 따른 가변 프레임 동영상 저장 방법과 감시 영상 인증방법
KR20210007672A (ko) 위험 감지 시스템 및 방법