ITBO980410A1

ITBO980410A1 - Procedimento ed apparato per la guida automatica di videocamere median te microfono .

Info

Publication number: ITBO980410A1
Application number: IT98BO000410A
Authority: IT
Inventors: Antonio Messina
Original assignee: Antonio Messina
Priority date: 1998-07-03
Filing date: 1998-07-03
Publication date: 2000-01-03
Also published as: IT1306261B1; DE69903171D1; EP1097581A1; DE69903171T2; WO2000002388A1; EP1097581B1; ATE225107T1; US7277116B1

Description

DESCRIZIONE

annessa a domanda di brevetto per INVENZIONE INDUSTRIALE dal titolo:

PROCEDIMENTO ED APPARATO PER LA GUIDA AUTOMATICA DI VIDEOCAMERE MEDIANTE MICROFONI

La presente invenzione concerne un procedimento ed un apparato per la guida automatica di videocamere mediante microfoni. Più in particolare l’invenzione riguarda un procedimento ed un apparato per la localizzazione di sorgenti sonore e per la loro osservazione mediante videocamere.

Apparati di questo tipo possono essere utilizzati in sistemi per la ripresa video in sale per conferenze o in teleconferenze oppure per la sorveglianza di spazi aperti o chiusi. La gestione di questi sistemi è infatti assai complessa, a causa della molteplicità di segnali generati neN’ambiente, del rumore e della estensione degli spazi, il che rende generalmente impossibile la discriminazione delle informazioni utili da parte di un operatore umano.

In un apparato automatico, la telecamera è guidata da un sistema di localizzazione della sorgente sonora che si basa sull’elaborazione dei segnali generati da microfoni. In particolare sono noti l'impiego di schiere (o array) di microfoni per l’acquisizione di segnali sonori e tecniche di elaborazione digitale dei segnali campionati, basate sulla stima del ritardo nel tempo di arrivo del fronte d’onda sonoro su coppie di microfoni (nel seguito anche “time delay”) [cfr. C.H. Knapp, G.C. Carter, The generalized correlation method far estimation oftime delay, IEEE Transaction on Acoustic Speech and Signal Processing, Boi. ASSP-24, n. 4, agosto 1976].

I sistemi di localizzazione noti consentono di stimare la posizione della sorgente nello spazio, ma non forniscono informazioni sulla sequenza temporale degli eventi sonori. Ciò costituisce un notevole limite per gli apparati in cui sia necessario ricostruire l’ordine temporale degli eventi (ad es., ma non solo, richieste di intervento da parte di partecipanti ad una conferenza).

Pertanto, scopo principale della presente invenzione è quello di fornire un procedimento ed un apparato che consenta di orientare automaticamente una o più telecamere verso una sorgente di eventi sonori, individuando con precisione sia la posizione spaziale della sorgente che la sequenza temporale degli eventi.

Ulteriore scopo della presente invenzione è quello di fornire un procedimento ed un apparato in cui la localizzazione della sorgente sonora avvenga mediante una tecnica di stima dei time delay particolarmente vantaggiosa dal punto di vista computazionale.

E' infine scopo della presente invenzione quello di fornire un sistema per la guida automatica di telecamere mediante microfoni, che sia facilmente ed economicamente realizzabile con i correnti dispositivi di elaborazione digitale.

I suddetti scopi sono conseguiti con un procedimento ed un apparato in conformità di quanto indicato nelle allegate rivendicazioni.

In una forma particolarmente vantaggiosa di attuazione, i segnali generati da una pluralità di microfoni, a seguito della rilevazione di un evento sonoro, sono elaborati in una prima unità, allo scopo di stimare il ritardo nel tempo di arrivo del fronte d’onda sonoro fra coppie predefinite di microfoni. Sono quindi determinate, in una seconda unità di elaborazione, le coordinate sia spaziali sia temporali dell'evento e, in funzione di queste, orientate una o più telecamere verso la sorgente.

In un suo primo aspetto l'invenzione fornisce una tecnica particolarmente vantaggiosa per la stima del time delay Δij = ti - 1j fra una coppia assegnata di microfoni (i,j). E’ noto infatti che, espresso il trasformato di Fourier del segnale s(t) come S(o) e nell'ipotesi di un segnale notevolmente più intenso del rumore a tutte le frequenze, la cross correlazione del segnale su due microfoni, si(t) e sj(t) ha un massimo per Δij Nelle ipotesi indicate, la tecnica migliore per calcolare Aij è.

- trasformare in Fourier la cross correlazione dei due segnali (i.e. calcolarne il cosiddetto cross spettro),

- estrarre la fase tramite la normalizzazione alla sua magnitudine e - antitrasformare.

Questa procedura determina un picco centrato in Δij ben descritto da una funzione delta di Dirac, se nel passaggio di estrazione della fase si normalizza opportunamente, per esempio

Nella realtà le ipotesi prima descritte sono approssimazioni ottimistiche, poiché la sorgente non è generalmente stazionaria ed il segnale non domina sul rumore a tutte le frequenze. Inoltre, l'automatizzazione di un processo che stimi il ritardo fra due microfoni si basa sulla digitalizzazione e sul campionamento del segnale, introducendo così una discretizzazione del segnale. L’espressione precedente è quindi modificata nel modo seguente

con N numero di campioni.

Questa espressione non soddisfa però il Teorema del campionamento, il quale garantisce che il valore della funzione s^t), in un qualunque punto all'interno di un intervallo, può essere ottenuto dai valori campionati sui punti di griglia se la funzione è band limited, ovvero se la sua trasformata di Fourier è non nulla solo su un intervallo limitato. Per ovviare a ciò, è stato proposto (cfr. Rabinkin et al., A DSP implementation of source location using microphone arrays, Proc.

Acoustical Society of America, Indianapolis, Indiana, USA, 15 Mayi 1996) di estrarre la fase, nel dominio delle frequenze, tramite la normalizzazione del trasformato di Fourier della cross correlazione con una potenza pe ]0,1[ del prodotto delle ampiezze dei segnali sui due microfoni. Quando p=0 la cross correlazione è non normalizzata, quando p=1 si ottiene la formula classica; il valore ottimale viene determinato sperimentalmente. Questa procedura presenta tuttavia l’inconveniente di non essere standardizzabile per un qualunque ambiente.

In conformità del presente procedimento, invece, si utilizza il prodotto della formula classica per la cross correlazione in Fourier con una funzione, normalizzata, tendente a zero regolarmente sul bordo. Detta funzione è preferibilmente costituita da una gaussiana. Agendo in questo modo si ottengono due vantaggi: l’eliminazione del rumore per ω elevati ed una maggiore accuratezza nella determinazione del picco della cross correlazione, dopo l’antitrasformata di Fourier, grazie alle proprietà di trasformazione della gaussiana.

Nel caso continuo, la procedura corrisponde ad avere un filtro sulla cross correlazione opportunamente normalizzata, del tipo

che, antitrasformata con Fourier, fornisce la convoluzione di una delta di Dirac con una gaussiana e quindi una gaussiana centrata in Δij conot« 1 /σω

Applicando la soluzione sopra indicata al caso discreto, si è verificato che la tabulazione della gaussiana nei punti di griglia (senza richiedere che il picco sia in un punto di campionamento) permette di ottenere, per interpolazione, una stima molto accurata della posizione del massimo della cross correlazione del segnale sulla coppia di microfoni (i j) e quindi del ritardo nel tèmpo di arrivo del fronte d'onda sonoro (errore circa 10<-6 >sec. con campionamento a 22KHz). Il procedimento proposto inoltre permette di ottenere, a parità di hardware utilizzato, tempi di calcolo più rapidi rispetto alle tecniche note.

In un suo secondo aspetto l'invenzione fornisce anche una tecnica particolarmente vantaggiosa per la localizzazione, nello spazio e nel tempo, dell’evento sonoro. Infatti la determinazione delle coordinate spazio-temporali di un evento sonoro, prodotto all'istante ts all’interno di un volume individuato da un sistema di coordinate ortonormali ( Ο,χ,γ,z ), può essere ricondotto, senza approssimazione di onda piana, alla soluzione di un sistema lineare di equazioni esprimibile vettorialmente nella forma

dove A è la matrice dei coefficienti, b è il termine noto che dipende dalle coordinate spaziali dei microfoni e dai ritardi Aj1 nel tempo di arrivo del fronte d'onda sonoro sui microfoni rispetto ad uno arbitrariamente scelto, m è il numero dei microfoni utilizzati e ξ≡ (x.y.z.ts) è il vettore delle quattro incognite del sistema.

Poiché sia A che b dipendono dalle posizioni dei microfoni e dai time delay, la presenza di possibili fluttuazioni nei valori di tutti i coefficienti del sistema, dovute all'incertezza nella misura delle posizioni relative dei microfoni, della velocità del suono e nella misura dei tempi, portano ad errori assoluti non stimabili con metodi tradizionali come quello LU.

Una tecnica a decomposizione in valori singolari (SVD) per la soluzione del problema dei minimi quadrati associato al problema lineare (problema LS - cfr. G.H. Golub, C.F. Van Loan, Matrix Computation, 2nd ed., Johns Hopkins University Press, baltimore, MD, 1989), con coefficienti opportunamente normalizzati, migliora notevolmente la dipendenza della soluzione da perturbazioni sui dati. Tuttavia anche in questo caso il massimo errore assoluto possibile (upper bound) nella determinazione della posizione della sorgente può raggiungere valori dell'ordine di grandezza della norma del vettore della sorgente (diverse decine di metri). Inoltre le fluttuazioni introducono zone nelle quali il problema diventa inconsistente. Le tecniche classiche per la trattazione delle perturbazioni sul metodo SVD (cfr. A.K. Louis, Inverse und schlecht gestente Probleme, TU berlin, Ed. G.B. Teuber, Stuttgart, 1989) come per esempio i filtri di banda e la regolarizzazione di Tikhonov-Phillips prevedono l'esatta conoscenza della matrice A e la possibilità di perturbazioni sul vettore noto b. Queste tecniche sono quindi inadeguate per il problema in esame.

In una forma particolarmente vantaggiosa dell'invenzione, la stima delle coordinate spazio-temporali dell’evento sonoro è vantaggiosamente ottenuta mediante la tecnica detta Total Least Squares (TLS) (cfr. S. Van Huffel, J. Vandewalle, The Total Least Squares Problem: Computational Aspects and Analysis, Frontiere in Applied Mathematics, Ed. SIAM, Philadelphia, 1991), la quale non risulta essere mai stata utilizzata in questo contesto. Nell’ipotesi che le righe della matrice di perturbazione siano stocasticamente indipendenti e distribuite in maniera identica con media zero (senza fare alcuna ipotesi sul particolare tipo di distribuzione dell'errore) e che la matrice di covarianza delle righe della matrice sia proporzionale alla matrice identità, si può dimostrare la migliore stabilità del metodo TLS rispetto al metodo LS e ad altri metodi di regressione lineare (nell’ulteriore ipotesi che le fluttuazioni dei coefficienti non superino certi valori critici). Inoltre è noto che l’errore massimo nel metodo TLS, essendo costituito da una 2-norma di vettori spazio-temporali, oscilla fra zero e detto valore massimo, assumendo tuttavia prevalentemente un valore intermedio. Altri metodi noti, come le tecniche di triangolazione per la stima delle posizioni, possono essere comunque impiegati, con differenti configurazioni dei microfoni, in combinazione con il procedimento sopra descritto per la stima dei time delay.

Ulteriori vantaggi e caratteristiche del presente trovato risulteranno maggiormente evidenti nella descrizione dettagliata che segue, fatta con riferimento ai disegni allegati, che ne rappresentano una forma di realizzazione puramente esemplificativa e non limitativa, in cui: la figura 1 illustra schematicamente un apparato secondo una preferita forma di attuazione dell’invenzione;

la figura 2 è un diagramma a blocchi di una sequenza operativa secondo il procedimento;

la figura 3 illustra una prima configurazione preferita dei microfoni; la figura 4 illustra una seconda preferita configurazione dei microni. Con riferimento alla figura 1 un apparato secondo l’invenzione comprende sostanzialmente:

una pluralità di microfoni stazionari 10 per la rilevazione di un evento sonoro prodotto da una sorgente S,

una unità 11 per la conversione analogico - digitale ed il campionamento dei segnali generati dai microfoni,

un modulo 12 per il calcolo del ritardo nel tempo di arrivo del fronte d’onda sonoro fra coppie assegnate di microfoni,

un modulo 13 per la localizzazione nello spazio e nel tempo dell’evento sonoro,

un modulo 14 per la guida di una o più videocamere mobili 15 e per la gestione e l’archiviazione delle immagini prodotte da esse ed eventualmente da una o più videocamere fisse 16.

Più in particolare il sistema microfonico utilizza m microfoni omnidirezionali posizionati in punti di frontiera del volume sotto osservazione, in modo tale da permettere la completa visibilità acustica di tutti i punti del volume.

Il numero dei microfoni dipende dalla precisione con cui si può determinare la posizione di essi ed il tempo di arrivo del segnale acustico e conseguentemente dalla precisione con la quale si desidera determinare le coordinate spazio-temporali dell’evento sonoro. In particolare, utilizzando la tecnica di localizzazione basata sul metodo TLS sopra richiamato, occorre che il sistema lineare (v) sia sovradimensionato. In relazione al caso in esame, ciò significa che il numero di microfoni deve essere m> 5.

Inoltre, considerando la matrice del sistema, si ottengono alcune condizioni sulla dislocazione spaziale dei microfoni necessarie affinché il sistema lineare sia consistente. In particolare occorre che la posizione della sorgente S non coincida con un microfono e che ogni tema di microfoni individui piani diversi. Una configurazione particolarmente vantaggiosa dei microfoni (illustrata in fig. 3, dove è schematicamente illustrato il volume V da controllare) prevede che sia massimo il numero di piani non paralleli.

La fig. 4 illustra invece una configurazione compatibile con tecniche di triangolazione per la determinazione della posizione della sorgente sonora all’interno di un volume V. Come schematicamente illustrato nella figura, la configurazione prevede due set (100,100’) di microfoni, ciascuno composto da quattro microfoni (10,10') non complanari. Inoltre una telecamera brandeggiabile (15) è posta nel baricentro dei set di microfoni.

I segnali rilevati dai microfoni 10 sono digitalizzati e campionati (ad es. a 22 KHz) dall’unità 11, la quale è collegata al modulo 12 per il calcolo dei time delay secondo la procedura sopra descritta. In particolare detto modulo 12, che può essere in pratica realizzato mediante un elaboratore digitale di segnali (DSP):

effettua la FFT dei segnali campionati,

calcola il cross spettro normalizzato (CSN) - e cioè la fase -relativo a ciascuna coppia di microfoni costituita da un microfono di riferimento e da ciascuno dei microfoni rimanenti,

procede al filtraggio di ciascun cross spettro normalizzato, ovvero di ciascuna fase estratta, mediante una gaussiana

con σω sufficientemente piccolo e preferibilmente minore o uguale ad 1/8 dell'intervallo di campionamento in Fourier, in modo da assicurare il soddisfacimento del Teorema del campionamento con una buona approssimazione,

opera l’antitrasformata FFT<'1 >della fase filtrata, generando una sequenza che corrisponde al campionamento, nel domino del tempo, della funzione (iv) più sopra riportata che si otterrebbe nel caso continuo, ovvero una gaussiana centrata in Δ^,

determina la posizione del massimo, in modo molto accurato, per interpolazione dei valori della gaussiana tabulati nei punti di griglia.

Con il procedimento proposto e con l’hardware comunemente disponibile è possibile effettuare più di due stime al secondo di time delay, su otto microfoni, con errori anche circa 50 volte inferiori a quelli ottenibili con tecniche standard a parità di frequenza di campionamento assegnata.

Vantaggiosamente, utilizzando un DSP, è possibile selezionare segnali al di sopra della soglia di rumore ambientale e, in generale, effettuare operazioni di prefiltraggio standard.

I time delay calcolati vengono quindi passati al modulo 13 il quale provvede alla determinazione delle coordinate spazio-temporali dell’evento sonoro applicando il metodo TLS come più sopra indicato.

Le prove effettuate, con hardware di commercio, hanno reso possibile l'individuazione della sorgente nel tempo e nello spazio, con 6 microfoni, in tempi inferiori al decimo di secondo e con un errore massimo di 1 m sulla posizione effettiva, in un volume di dimensioni 20x20x20 m3 e con errori di misura sulla posizione dei microfoni e sul tempo rispettivamente inferiori a 10-4 m e 10-6 s.

II modulo 14 elabora le coordinate spazio-temporali producendo comandi per i motori delle videocamere mobili 15, al fine di inquadrare in tempo reale la sorgente dell’evento sonoro. Il modulo 14 provvede inoltre alla gestione deile immagini rilevate, anche dalle eventuali videocamere fisse 16, ed in particolare alla compressione, archiviazione, analisi off-line di esse.

Vantaggiosamente il modulo 13 per la localizzazione spaziotemporale della sorgente sonora ed il modulo 14 sono implementati in un personal computer 17 dotato di microprocessore, ad es. di tipo Pentium ®.

Una tipica sequenza operativa per la guida di videocamere secondo il presente procedimento è schematizzata in figura 2.

Claims

RIVENDICAZIONI 1. Procedimento per la guida di videocamere mobili (15) comprendente le seguenti fasi di: predisporre una pluralità di microfoni (10) per la rilevazione di un evento sonoro; per ogni coppia di microfoni (j,1) costituita da un microfono prefissato e da ciascuno dei rimanenti microfoni, determinare in Fourier la cross correlazione normalizzata (cross spettro normalizzato) dei segnali, generati dai microfoni, campionati

con N numero di campioni. - filtrare detto cross spettro normalizzato mediante una funzione normalizzata tendente regolarmente a zero sul bordo; antitrasformare detto cross spettro normalizzato e filtrato; stimare, per ciascuna coppia di microfoni, il ritardo Aj1 nel tempo di arrivo del fronte, d'onda sonoro sui microfoni, mediante la determinazione nel tempo del massimo della funzione antitrasformata; determinare le coordinate spazio-temporali dell’evento sonoro risolvendo il sistema lineare di equazioni

- orientare le videocamere (15) verso il punto avente le coordinate spaziali determinate risolvendo deto sistema di equazioni (v).
2. Procedimento secondo la rivendicazione 1, caratterizzato dal fatto che deta funzione normalizzata tendente a zero regolarmente sul bordo è una gaussiana

con σω preferibilmente minore o uguale ad 1/8 dell’intervallo di campionamento in Fourier.
3. Procedimento secondo la rivendicazione 1 o 2, caratterizzato dai fatto che detto sistema lineare di equazioni (v) è risolto mediante la tecnica Total Least Squares (TLS), il numero di microfoni essendo maggiore di cinque.
4. Procedimento secondo la rivendicazione 1 o 2, caratterizzato dal fatto che le coordinate spaziali dell’evento sonoro sono determinate mediante tecniche di triangolazione, il numero di microfoni essendo non inferiore a oto.
5. Procedimento secondo una delle rivendicazioni da 1 a 4, caratterizzato dal fatto di prevedere una ulteriore fase di archiviazione delle immagini rilevate da dete videocamere (15).
6. Apparato per la guida di telecamere motorizzate (15) comprendente: una pluralità di microfoni (10) per la rilevazione di un evento sonoro; mezzi (11) per la conversione analogico - digitale ed il campionamento dei segnali generati da detti microfoni (10); mezzi (12) per stimare, per ciascuna coppia di microfoni (j, 1) costituita da un microfono prefissato e da ciascuno dei rimanenti microfoni, il ritardo nel tempo di arrivo del fronte d’onda sonoro sui microfoni, mediante: la determinazione in Fourier della cross correlazione normalizzata (ii) (cross spettro normalizzato) dei segnali campionati relativi ai microfoni (j,1); la moltiplicazione di detto cross spettro normalizzato per una funzione normalizzata tendente regolarmente a zero sul bordo; il calcolo dell'antitrasformata di Fourier del prodotto del cross spettro normalizzato per detta funzione normalizzata tendente a zero regolarmente sul bordo; la determinazione nel tempo del massimo della funzione antitrasformata; mezzi (13) per determinare le coordinate spazio - temporali dell’evento sonoro risolvendo il sistema lineare di equazioni (v); mezzi (14) per orientare le videocamere (15) verso il punto avente le coordinate spaziali determinate risolvendo detto sistema di equazioni (v).
7. Apparato secondo la rivendicazione 6, caratterizzato dal fatto che detta funzione normalizzata tendente a zero regolarmente sul bordo è una gaussiana (vi) con σω preferibilmente minore o uguale ad 1/8 dell'intervallo di campionamento in Fourier.
8. Apparato secondo la rivendicazione 6 o 7, caratterizzato dal fatto che detto sistema lineare di equazioni (v) è risolto mediante la tecnica Total Least Squares (TLS) e che il numero di microfoni è maggiore di cinque.
9. Apparato secondo la rivendicazione 8, caratterizzato dal fatto che detti mezzi microfoni sono in numero di sei, disposti in modo che ogni tema individui un piano ed in modo tale da rendere massimo il numero di piani non paralleli.
10. Apparato secondo la rivendicazione 6 o 7, caratterizzato dal fatto che detti mezzi (13) determinano le coordinate spaziali dell’evento sonoro mediante tecniche di triangolazione e che il numero di microfoni è non inferiore a otto.
11. Apparato secondo la rivendicazione 10, caratterizzato dal fatto che detti microfoni sono in numero di otto, suddivisi in due set (100, 100'), ciascuno composto da quattro microfoni (10, 10') non complanari e che una videocamera brandeggiabile (15) è posta nel baricentro dei set di microfoni.
12. Apparato secondo una rivendicazione da 6 a 11, caratterizzato dal fatto che detti mezzi (12) per la stima del ritardo sono costituiti da un elaboratore digitale di segnali (DSP) e che detti mezzi (13,14) per determinare le coordinate spazio - temporali dell’evento e per orientare le videocamere (15) sono costituiti da un personal computer (17).