ITBO980410A1 - Procedimento ed apparato per la guida automatica di videocamere median te microfono . - Google Patents
Procedimento ed apparato per la guida automatica di videocamere median te microfono . Download PDFInfo
- Publication number
- ITBO980410A1 ITBO980410A1 IT98BO000410A ITBO980410A ITBO980410A1 IT BO980410 A1 ITBO980410 A1 IT BO980410A1 IT 98BO000410 A IT98BO000410 A IT 98BO000410A IT BO980410 A ITBO980410 A IT BO980410A IT BO980410 A1 ITBO980410 A1 IT BO980410A1
- Authority
- IT
- Italy
- Prior art keywords
- microphones
- normalized
- equations
- fourier
- microphone
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005070 sampling Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 230000000417 anti-transforming effect Effects 0.000 claims 1
- 230000001934 delay Effects 0.000 abstract description 6
- 239000011159 matrix material Substances 0.000 description 8
- 230000004807 localization Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/181—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
- Devices For Checking Fares Or Tickets At Control Points (AREA)
- Burglar Alarm Systems (AREA)
Description
DESCRIZIONE
annessa a domanda di brevetto per INVENZIONE INDUSTRIALE dal titolo:
PROCEDIMENTO ED APPARATO PER LA GUIDA AUTOMATICA DI VIDEOCAMERE MEDIANTE MICROFONI
La presente invenzione concerne un procedimento ed un apparato per la guida automatica di videocamere mediante microfoni. Più in particolare l’invenzione riguarda un procedimento ed un apparato per la localizzazione di sorgenti sonore e per la loro osservazione mediante videocamere.
Apparati di questo tipo possono essere utilizzati in sistemi per la ripresa video in sale per conferenze o in teleconferenze oppure per la sorveglianza di spazi aperti o chiusi. La gestione di questi sistemi è infatti assai complessa, a causa della molteplicità di segnali generati neN’ambiente, del rumore e della estensione degli spazi, il che rende generalmente impossibile la discriminazione delle informazioni utili da parte di un operatore umano.
In un apparato automatico, la telecamera è guidata da un sistema di localizzazione della sorgente sonora che si basa sull’elaborazione dei segnali generati da microfoni. In particolare sono noti l'impiego di schiere (o array) di microfoni per l’acquisizione di segnali sonori e tecniche di elaborazione digitale dei segnali campionati, basate sulla stima del ritardo nel tempo di arrivo del fronte d’onda sonoro su coppie di microfoni (nel seguito anche “time delay”) [cfr. C.H. Knapp, G.C. Carter, The generalized correlation method far estimation oftime delay, IEEE Transaction on Acoustic Speech and Signal Processing, Boi. ASSP-24, n. 4, agosto 1976].
I sistemi di localizzazione noti consentono di stimare la posizione della sorgente nello spazio, ma non forniscono informazioni sulla sequenza temporale degli eventi sonori. Ciò costituisce un notevole limite per gli apparati in cui sia necessario ricostruire l’ordine temporale degli eventi (ad es., ma non solo, richieste di intervento da parte di partecipanti ad una conferenza).
Pertanto, scopo principale della presente invenzione è quello di fornire un procedimento ed un apparato che consenta di orientare automaticamente una o più telecamere verso una sorgente di eventi sonori, individuando con precisione sia la posizione spaziale della sorgente che la sequenza temporale degli eventi.
Ulteriore scopo della presente invenzione è quello di fornire un procedimento ed un apparato in cui la localizzazione della sorgente sonora avvenga mediante una tecnica di stima dei time delay particolarmente vantaggiosa dal punto di vista computazionale.
E' infine scopo della presente invenzione quello di fornire un sistema per la guida automatica di telecamere mediante microfoni, che sia facilmente ed economicamente realizzabile con i correnti dispositivi di elaborazione digitale.
I suddetti scopi sono conseguiti con un procedimento ed un apparato in conformità di quanto indicato nelle allegate rivendicazioni.
In una forma particolarmente vantaggiosa di attuazione, i segnali generati da una pluralità di microfoni, a seguito della rilevazione di un evento sonoro, sono elaborati in una prima unità, allo scopo di stimare il ritardo nel tempo di arrivo del fronte d’onda sonoro fra coppie predefinite di microfoni. Sono quindi determinate, in una seconda unità di elaborazione, le coordinate sia spaziali sia temporali dell'evento e, in funzione di queste, orientate una o più telecamere verso la sorgente.
In un suo primo aspetto l'invenzione fornisce una tecnica particolarmente vantaggiosa per la stima del time delay Δij = ti - 1j fra una coppia assegnata di microfoni (i,j). E’ noto infatti che, espresso il trasformato di Fourier del segnale s(t) come S(o) e nell'ipotesi di un segnale notevolmente più intenso del rumore a tutte le frequenze, la cross correlazione del segnale su due microfoni, si(t) e sj(t) ha un massimo per Δij Nelle ipotesi indicate, la tecnica migliore per calcolare Aij è.
- trasformare in Fourier la cross correlazione dei due segnali (i.e. calcolarne il cosiddetto cross spettro),
- estrarre la fase tramite la normalizzazione alla sua magnitudine e - antitrasformare.
Questa procedura determina un picco centrato in Δij ben descritto da una funzione delta di Dirac, se nel passaggio di estrazione della fase si normalizza opportunamente, per esempio
Nella realtà le ipotesi prima descritte sono approssimazioni ottimistiche, poiché la sorgente non è generalmente stazionaria ed il segnale non domina sul rumore a tutte le frequenze. Inoltre, l'automatizzazione di un processo che stimi il ritardo fra due microfoni si basa sulla digitalizzazione e sul campionamento del segnale, introducendo così una discretizzazione del segnale. L’espressione precedente è quindi modificata nel modo seguente
con N numero di campioni.
Questa espressione non soddisfa però il Teorema del campionamento, il quale garantisce che il valore della funzione s^t), in un qualunque punto all'interno di un intervallo, può essere ottenuto dai valori campionati sui punti di griglia se la funzione è band limited, ovvero se la sua trasformata di Fourier è non nulla solo su un intervallo limitato. Per ovviare a ciò, è stato proposto (cfr. Rabinkin et al., A DSP implementation of source location using microphone arrays, Proc.
Acoustical Society of America, Indianapolis, Indiana, USA, 15 Mayi 1996) di estrarre la fase, nel dominio delle frequenze, tramite la normalizzazione del trasformato di Fourier della cross correlazione con una potenza pe ]0,1[ del prodotto delle ampiezze dei segnali sui due microfoni. Quando p=0 la cross correlazione è non normalizzata, quando p=1 si ottiene la formula classica; il valore ottimale viene determinato sperimentalmente. Questa procedura presenta tuttavia l’inconveniente di non essere standardizzabile per un qualunque ambiente.
In conformità del presente procedimento, invece, si utilizza il prodotto della formula classica per la cross correlazione in Fourier con una funzione, normalizzata, tendente a zero regolarmente sul bordo. Detta funzione è preferibilmente costituita da una gaussiana. Agendo in questo modo si ottengono due vantaggi: l’eliminazione del rumore per ω elevati ed una maggiore accuratezza nella determinazione del picco della cross correlazione, dopo l’antitrasformata di Fourier, grazie alle proprietà di trasformazione della gaussiana.
Nel caso continuo, la procedura corrisponde ad avere un filtro sulla cross correlazione opportunamente normalizzata, del tipo
che, antitrasformata con Fourier, fornisce la convoluzione di una delta di Dirac con una gaussiana e quindi una gaussiana centrata in Δij conot« 1 /σω
Applicando la soluzione sopra indicata al caso discreto, si è verificato che la tabulazione della gaussiana nei punti di griglia (senza richiedere che il picco sia in un punto di campionamento) permette di ottenere, per interpolazione, una stima molto accurata della posizione del massimo della cross correlazione del segnale sulla coppia di microfoni (i j) e quindi del ritardo nel tèmpo di arrivo del fronte d'onda sonoro (errore circa 10<-6 >sec. con campionamento a 22KHz). Il procedimento proposto inoltre permette di ottenere, a parità di hardware utilizzato, tempi di calcolo più rapidi rispetto alle tecniche note.
In un suo secondo aspetto l'invenzione fornisce anche una tecnica particolarmente vantaggiosa per la localizzazione, nello spazio e nel tempo, dell’evento sonoro. Infatti la determinazione delle coordinate spazio-temporali di un evento sonoro, prodotto all'istante ts all’interno di un volume individuato da un sistema di coordinate ortonormali ( Ο,χ,γ,z ), può essere ricondotto, senza approssimazione di onda piana, alla soluzione di un sistema lineare di equazioni esprimibile vettorialmente nella forma
dove A è la matrice dei coefficienti, b è il termine noto che dipende dalle coordinate spaziali dei microfoni e dai ritardi Aj1 nel tempo di arrivo del fronte d'onda sonoro sui microfoni rispetto ad uno arbitrariamente scelto, m è il numero dei microfoni utilizzati e ξ≡ (x.y.z.ts) è il vettore delle quattro incognite del sistema.
Poiché sia A che b dipendono dalle posizioni dei microfoni e dai time delay, la presenza di possibili fluttuazioni nei valori di tutti i coefficienti del sistema, dovute all'incertezza nella misura delle posizioni relative dei microfoni, della velocità del suono e nella misura dei tempi, portano ad errori assoluti non stimabili con metodi tradizionali come quello LU.
Una tecnica a decomposizione in valori singolari (SVD) per la soluzione del problema dei minimi quadrati associato al problema lineare (problema LS - cfr. G.H. Golub, C.F. Van Loan, Matrix Computation, 2nd ed., Johns Hopkins University Press, baltimore, MD, 1989), con coefficienti opportunamente normalizzati, migliora notevolmente la dipendenza della soluzione da perturbazioni sui dati. Tuttavia anche in questo caso il massimo errore assoluto possibile (upper bound) nella determinazione della posizione della sorgente può raggiungere valori dell'ordine di grandezza della norma del vettore della sorgente (diverse decine di metri). Inoltre le fluttuazioni introducono zone nelle quali il problema diventa inconsistente. Le tecniche classiche per la trattazione delle perturbazioni sul metodo SVD (cfr. A.K. Louis, Inverse und schlecht gestente Probleme, TU berlin, Ed. G.B. Teuber, Stuttgart, 1989) come per esempio i filtri di banda e la regolarizzazione di Tikhonov-Phillips prevedono l'esatta conoscenza della matrice A e la possibilità di perturbazioni sul vettore noto b. Queste tecniche sono quindi inadeguate per il problema in esame.
In una forma particolarmente vantaggiosa dell'invenzione, la stima delle coordinate spazio-temporali dell’evento sonoro è vantaggiosamente ottenuta mediante la tecnica detta Total Least Squares (TLS) (cfr. S. Van Huffel, J. Vandewalle, The Total Least Squares Problem: Computational Aspects and Analysis, Frontiere in Applied Mathematics, Ed. SIAM, Philadelphia, 1991), la quale non risulta essere mai stata utilizzata in questo contesto. Nell’ipotesi che le righe della matrice di perturbazione siano stocasticamente indipendenti e distribuite in maniera identica con media zero (senza fare alcuna ipotesi sul particolare tipo di distribuzione dell'errore) e che la matrice di covarianza delle righe della matrice sia proporzionale alla matrice identità, si può dimostrare la migliore stabilità del metodo TLS rispetto al metodo LS e ad altri metodi di regressione lineare (nell’ulteriore ipotesi che le fluttuazioni dei coefficienti non superino certi valori critici). Inoltre è noto che l’errore massimo nel metodo TLS, essendo costituito da una 2-norma di vettori spazio-temporali, oscilla fra zero e detto valore massimo, assumendo tuttavia prevalentemente un valore intermedio. Altri metodi noti, come le tecniche di triangolazione per la stima delle posizioni, possono essere comunque impiegati, con differenti configurazioni dei microfoni, in combinazione con il procedimento sopra descritto per la stima dei time delay.
Ulteriori vantaggi e caratteristiche del presente trovato risulteranno maggiormente evidenti nella descrizione dettagliata che segue, fatta con riferimento ai disegni allegati, che ne rappresentano una forma di realizzazione puramente esemplificativa e non limitativa, in cui: la figura 1 illustra schematicamente un apparato secondo una preferita forma di attuazione dell’invenzione;
la figura 2 è un diagramma a blocchi di una sequenza operativa secondo il procedimento;
la figura 3 illustra una prima configurazione preferita dei microfoni; la figura 4 illustra una seconda preferita configurazione dei microni. Con riferimento alla figura 1 un apparato secondo l’invenzione comprende sostanzialmente:
una pluralità di microfoni stazionari 10 per la rilevazione di un evento sonoro prodotto da una sorgente S,
una unità 11 per la conversione analogico - digitale ed il campionamento dei segnali generati dai microfoni,
un modulo 12 per il calcolo del ritardo nel tempo di arrivo del fronte d’onda sonoro fra coppie assegnate di microfoni,
un modulo 13 per la localizzazione nello spazio e nel tempo dell’evento sonoro,
un modulo 14 per la guida di una o più videocamere mobili 15 e per la gestione e l’archiviazione delle immagini prodotte da esse ed eventualmente da una o più videocamere fisse 16.
Più in particolare il sistema microfonico utilizza m microfoni omnidirezionali posizionati in punti di frontiera del volume sotto osservazione, in modo tale da permettere la completa visibilità acustica di tutti i punti del volume.
Il numero dei microfoni dipende dalla precisione con cui si può determinare la posizione di essi ed il tempo di arrivo del segnale acustico e conseguentemente dalla precisione con la quale si desidera determinare le coordinate spazio-temporali dell’evento sonoro. In particolare, utilizzando la tecnica di localizzazione basata sul metodo TLS sopra richiamato, occorre che il sistema lineare (v) sia sovradimensionato. In relazione al caso in esame, ciò significa che il numero di microfoni deve essere m> 5.
Inoltre, considerando la matrice del sistema, si ottengono alcune condizioni sulla dislocazione spaziale dei microfoni necessarie affinché il sistema lineare sia consistente. In particolare occorre che la posizione della sorgente S non coincida con un microfono e che ogni tema di microfoni individui piani diversi. Una configurazione particolarmente vantaggiosa dei microfoni (illustrata in fig. 3, dove è schematicamente illustrato il volume V da controllare) prevede che sia massimo il numero di piani non paralleli.
La fig. 4 illustra invece una configurazione compatibile con tecniche di triangolazione per la determinazione della posizione della sorgente sonora all’interno di un volume V. Come schematicamente illustrato nella figura, la configurazione prevede due set (100,100’) di microfoni, ciascuno composto da quattro microfoni (10,10') non complanari. Inoltre una telecamera brandeggiabile (15) è posta nel baricentro dei set di microfoni.
I segnali rilevati dai microfoni 10 sono digitalizzati e campionati (ad es. a 22 KHz) dall’unità 11, la quale è collegata al modulo 12 per il calcolo dei time delay secondo la procedura sopra descritta. In particolare detto modulo 12, che può essere in pratica realizzato mediante un elaboratore digitale di segnali (DSP):
effettua la FFT dei segnali campionati,
calcola il cross spettro normalizzato (CSN) - e cioè la fase -relativo a ciascuna coppia di microfoni costituita da un microfono di riferimento e da ciascuno dei microfoni rimanenti,
procede al filtraggio di ciascun cross spettro normalizzato, ovvero di ciascuna fase estratta, mediante una gaussiana
con σω sufficientemente piccolo e preferibilmente minore o uguale ad 1/8 dell'intervallo di campionamento in Fourier, in modo da assicurare il soddisfacimento del Teorema del campionamento con una buona approssimazione,
opera l’antitrasformata FFT<'1 >della fase filtrata, generando una sequenza che corrisponde al campionamento, nel domino del tempo, della funzione (iv) più sopra riportata che si otterrebbe nel caso continuo, ovvero una gaussiana centrata in Δ^,
determina la posizione del massimo, in modo molto accurato, per interpolazione dei valori della gaussiana tabulati nei punti di griglia.
Con il procedimento proposto e con l’hardware comunemente disponibile è possibile effettuare più di due stime al secondo di time delay, su otto microfoni, con errori anche circa 50 volte inferiori a quelli ottenibili con tecniche standard a parità di frequenza di campionamento assegnata.
Vantaggiosamente, utilizzando un DSP, è possibile selezionare segnali al di sopra della soglia di rumore ambientale e, in generale, effettuare operazioni di prefiltraggio standard.
I time delay calcolati vengono quindi passati al modulo 13 il quale provvede alla determinazione delle coordinate spazio-temporali dell’evento sonoro applicando il metodo TLS come più sopra indicato.
Le prove effettuate, con hardware di commercio, hanno reso possibile l'individuazione della sorgente nel tempo e nello spazio, con 6 microfoni, in tempi inferiori al decimo di secondo e con un errore massimo di 1 m sulla posizione effettiva, in un volume di dimensioni 20x20x20 m3 e con errori di misura sulla posizione dei microfoni e sul tempo rispettivamente inferiori a 10-4 m e 10-6 s.
II modulo 14 elabora le coordinate spazio-temporali producendo comandi per i motori delle videocamere mobili 15, al fine di inquadrare in tempo reale la sorgente dell’evento sonoro. Il modulo 14 provvede inoltre alla gestione deile immagini rilevate, anche dalle eventuali videocamere fisse 16, ed in particolare alla compressione, archiviazione, analisi off-line di esse.
Vantaggiosamente il modulo 13 per la localizzazione spaziotemporale della sorgente sonora ed il modulo 14 sono implementati in un personal computer 17 dotato di microprocessore, ad es. di tipo Pentium ®.
Una tipica sequenza operativa per la guida di videocamere secondo il presente procedimento è schematizzata in figura 2.
Claims (12)
- RIVENDICAZIONI 1. Procedimento per la guida di videocamere mobili (15) comprendente le seguenti fasi di: predisporre una pluralità di microfoni (10) per la rilevazione di un evento sonoro; per ogni coppia di microfoni (j,1) costituita da un microfono prefissato e da ciascuno dei rimanenti microfoni, determinare in Fourier la cross correlazione normalizzata (cross spettro normalizzato) dei segnali, generati dai microfoni, campionaticon N numero di campioni. - filtrare detto cross spettro normalizzato mediante una funzione normalizzata tendente regolarmente a zero sul bordo; antitrasformare detto cross spettro normalizzato e filtrato; stimare, per ciascuna coppia di microfoni, il ritardo Aj1 nel tempo di arrivo del fronte, d'onda sonoro sui microfoni, mediante la determinazione nel tempo del massimo della funzione antitrasformata; determinare le coordinate spazio-temporali dell’evento sonoro risolvendo il sistema lineare di equazioni- orientare le videocamere (15) verso il punto avente le coordinate spaziali determinate risolvendo deto sistema di equazioni (v).
- 2. Procedimento secondo la rivendicazione 1, caratterizzato dal fatto che deta funzione normalizzata tendente a zero regolarmente sul bordo è una gaussianacon σω preferibilmente minore o uguale ad 1/8 dell’intervallo di campionamento in Fourier.
- 3. Procedimento secondo la rivendicazione 1 o 2, caratterizzato dai fatto che detto sistema lineare di equazioni (v) è risolto mediante la tecnica Total Least Squares (TLS), il numero di microfoni essendo maggiore di cinque.
- 4. Procedimento secondo la rivendicazione 1 o 2, caratterizzato dal fatto che le coordinate spaziali dell’evento sonoro sono determinate mediante tecniche di triangolazione, il numero di microfoni essendo non inferiore a oto.
- 5. Procedimento secondo una delle rivendicazioni da 1 a 4, caratterizzato dal fatto di prevedere una ulteriore fase di archiviazione delle immagini rilevate da dete videocamere (15).
- 6. Apparato per la guida di telecamere motorizzate (15) comprendente: una pluralità di microfoni (10) per la rilevazione di un evento sonoro; mezzi (11) per la conversione analogico - digitale ed il campionamento dei segnali generati da detti microfoni (10); mezzi (12) per stimare, per ciascuna coppia di microfoni (j, 1) costituita da un microfono prefissato e da ciascuno dei rimanenti microfoni, il ritardo nel tempo di arrivo del fronte d’onda sonoro sui microfoni, mediante: la determinazione in Fourier della cross correlazione normalizzata (ii) (cross spettro normalizzato) dei segnali campionati relativi ai microfoni (j,1); la moltiplicazione di detto cross spettro normalizzato per una funzione normalizzata tendente regolarmente a zero sul bordo; il calcolo dell'antitrasformata di Fourier del prodotto del cross spettro normalizzato per detta funzione normalizzata tendente a zero regolarmente sul bordo; la determinazione nel tempo del massimo della funzione antitrasformata; mezzi (13) per determinare le coordinate spazio - temporali dell’evento sonoro risolvendo il sistema lineare di equazioni (v); mezzi (14) per orientare le videocamere (15) verso il punto avente le coordinate spaziali determinate risolvendo detto sistema di equazioni (v).
- 7. Apparato secondo la rivendicazione 6, caratterizzato dal fatto che detta funzione normalizzata tendente a zero regolarmente sul bordo è una gaussiana (vi) con σω preferibilmente minore o uguale ad 1/8 dell'intervallo di campionamento in Fourier.
- 8. Apparato secondo la rivendicazione 6 o 7, caratterizzato dal fatto che detto sistema lineare di equazioni (v) è risolto mediante la tecnica Total Least Squares (TLS) e che il numero di microfoni è maggiore di cinque.
- 9. Apparato secondo la rivendicazione 8, caratterizzato dal fatto che detti mezzi microfoni sono in numero di sei, disposti in modo che ogni tema individui un piano ed in modo tale da rendere massimo il numero di piani non paralleli.
- 10. Apparato secondo la rivendicazione 6 o 7, caratterizzato dal fatto che detti mezzi (13) determinano le coordinate spaziali dell’evento sonoro mediante tecniche di triangolazione e che il numero di microfoni è non inferiore a otto.
- 11. Apparato secondo la rivendicazione 10, caratterizzato dal fatto che detti microfoni sono in numero di otto, suddivisi in due set (100, 100'), ciascuno composto da quattro microfoni (10, 10') non complanari e che una videocamera brandeggiabile (15) è posta nel baricentro dei set di microfoni.
- 12. Apparato secondo una rivendicazione da 6 a 11, caratterizzato dal fatto che detti mezzi (12) per la stima del ritardo sono costituiti da un elaboratore digitale di segnali (DSP) e che detti mezzi (13,14) per determinare le coordinate spazio - temporali dell’evento e per orientare le videocamere (15) sono costituiti da un personal computer (17).
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT1998BO000410A IT1306261B1 (it) | 1998-07-03 | 1998-07-03 | Procedimento ed apparato per la guida automatica di videocameremediante microfoni. |
EP99926685A EP1097581B1 (en) | 1998-07-03 | 1999-07-02 | A method and apparatus for automatically controlling video cameras using microphones |
PCT/IB1999/001233 WO2000002388A1 (en) | 1998-07-03 | 1999-07-02 | A method and apparatus for automatically controlling video cameras using microphones |
AT99926685T ATE225107T1 (de) | 1998-07-03 | 1999-07-02 | Vorrichtung und verfahren zur automatischen steuerung von videokameras mittels mikrophons |
US09/720,508 US7277116B1 (en) | 1998-07-03 | 1999-07-02 | Method and apparatus for automatically controlling video cameras using microphones |
DE69903171T DE69903171T2 (de) | 1998-07-03 | 1999-07-02 | Vorrichtung und verfahren zur automatischen steuerung von videokameras mittels mikrophons |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT1998BO000410A IT1306261B1 (it) | 1998-07-03 | 1998-07-03 | Procedimento ed apparato per la guida automatica di videocameremediante microfoni. |
Publications (2)
Publication Number | Publication Date |
---|---|
ITBO980410A1 true ITBO980410A1 (it) | 2000-01-03 |
IT1306261B1 IT1306261B1 (it) | 2001-06-04 |
Family
ID=11343282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
IT1998BO000410A IT1306261B1 (it) | 1998-07-03 | 1998-07-03 | Procedimento ed apparato per la guida automatica di videocameremediante microfoni. |
Country Status (6)
Country | Link |
---|---|
US (1) | US7277116B1 (it) |
EP (1) | EP1097581B1 (it) |
AT (1) | ATE225107T1 (it) |
DE (1) | DE69903171T2 (it) |
IT (1) | IT1306261B1 (it) |
WO (1) | WO2000002388A1 (it) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6766035B1 (en) | 2000-05-03 | 2004-07-20 | Koninklijke Philips Electronics N.V. | Method and apparatus for adaptive position determination video conferencing and other applications |
JP4722347B2 (ja) | 2000-10-02 | 2011-07-13 | 中部電力株式会社 | 音源探査システム |
DE60134335D1 (de) * | 2000-10-02 | 2008-07-17 | Chubu Electric Power | Sondierungssystem für schallquellen |
US6662137B2 (en) | 2000-12-19 | 2003-12-09 | Hewlett-Packard Development Company, L.P. | Device location discovery by sound |
US7092886B2 (en) | 2000-12-19 | 2006-08-15 | Hewlett-Packard Development Company, L.P. | Controlling the order of output of multiple devices |
JP3867057B2 (ja) * | 2003-02-20 | 2007-01-10 | 三井造船株式会社 | 音響センサアレイ、音響診断装置及び音響診断方法 |
JP4770178B2 (ja) * | 2005-01-17 | 2011-09-14 | ソニー株式会社 | カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法 |
US8461986B2 (en) * | 2007-12-14 | 2013-06-11 | Wayne Harvey Snyder | Audible event detector and analyzer for annunciating to the hearing impaired |
EP2311256B1 (en) * | 2008-08-04 | 2012-01-18 | Koninklijke Philips Electronics N.V. | Communication device with peripheral viewing means |
DE102011079707A1 (de) | 2011-07-25 | 2013-01-31 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur Erfassung von Objekten aus der Fahrzeugumgebung eines Fahrzeuges |
EP3084721A4 (en) * | 2013-12-17 | 2017-08-09 | Intel Corporation | Camera array analysis mechanism |
CN105933820A (zh) * | 2016-04-28 | 2016-09-07 | 冠捷显示科技(中国)有限公司 | 一种外置无线音箱自动定位方法 |
CN109151672B (zh) * | 2018-09-19 | 2022-08-05 | 西安交通大学 | 基于阵列麦克风的声源跟踪系统及其控制方法 |
CN109655816A (zh) * | 2018-11-30 | 2019-04-19 | 恩平市声动电子科技有限公司 | 获取声源位置的方法、装置及设备终端 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993023816A1 (en) * | 1992-05-18 | 1993-11-25 | Silicon Engines Inc. | System and method for cross correlation with application to video motion vector estimation |
CA2148631C (en) | 1994-06-20 | 2000-06-13 | John J. Hildin | Voice-following video system |
WO1997008896A1 (en) * | 1995-08-23 | 1997-03-06 | Scientific-Atlanta, Inc. | Open area security system |
AUPN988996A0 (en) * | 1996-05-16 | 1996-06-06 | Unisearch Limited | Compression and coding of audio-visual services |
US5778082A (en) * | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
US6469732B1 (en) * | 1998-11-06 | 2002-10-22 | Vtel Corporation | Acoustic source location using a microphone array |
US6826284B1 (en) | 2000-02-04 | 2004-11-30 | Agere Systems Inc. | Method and apparatus for passive acoustic source localization for video camera steering applications |
-
1998
- 1998-07-03 IT IT1998BO000410A patent/IT1306261B1/it active
-
1999
- 1999-07-02 US US09/720,508 patent/US7277116B1/en not_active Expired - Fee Related
- 1999-07-02 AT AT99926685T patent/ATE225107T1/de not_active IP Right Cessation
- 1999-07-02 EP EP99926685A patent/EP1097581B1/en not_active Expired - Lifetime
- 1999-07-02 DE DE69903171T patent/DE69903171T2/de not_active Expired - Fee Related
- 1999-07-02 WO PCT/IB1999/001233 patent/WO2000002388A1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
IT1306261B1 (it) | 2001-06-04 |
DE69903171D1 (de) | 2002-10-31 |
EP1097581A1 (en) | 2001-05-09 |
DE69903171T2 (de) | 2003-05-22 |
WO2000002388A1 (en) | 2000-01-13 |
EP1097581B1 (en) | 2002-09-25 |
ATE225107T1 (de) | 2002-10-15 |
US7277116B1 (en) | 2007-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11398235B2 (en) | Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array | |
Sturim et al. | Tracking multiple talkers using microphone-array measurements | |
JP5452158B2 (ja) | 音響監視システム、及び音声集音システム | |
ITBO980410A1 (it) | Procedimento ed apparato per la guida automatica di videocamere median te microfono . | |
Naqvi et al. | A multimodal approach to blind source separation of moving sources | |
Gatica-Perez et al. | Audiovisual probabilistic tracking of multiple speakers in meetings | |
US6792118B2 (en) | Computation of multi-sensor time delays | |
EP2380033B1 (en) | Estimating a sound source location using particle filtering | |
CN101567969B (zh) | 基于麦克风阵列声音制导的智能视频导播方法 | |
US20170353789A1 (en) | Sound source estimation using neural networks | |
CN107820037B (zh) | 音频信号、图像处理的方法、装置和系统 | |
Zou et al. | Tracking humans using multi-modal fusion | |
CN110545396A (zh) | 一种基于定位去噪的语音识别方法及装置 | |
KR20210070586A (ko) | Cnn을 이용한 음향 처리방법 | |
Ghidoni et al. | A distributed perception infrastructure for robot assisted living | |
Sewtz et al. | Robust MUSIC-based sound source localization in reverberant and echoic environments | |
Siriwardhana et al. | Classification of activities of daily living based on depth sequences and audio | |
Talantzis et al. | Real time audio-visual person tracking | |
Grondin et al. | A study of the complexity and accuracy of direction of arrival estimation methods based on GCC-PHAT for a pair of close microphones | |
Schymura et al. | Extending linear dynamical systems with dynamic stream weights for audiovisual speaker localization | |
Wang et al. | Real-time automated video and audio capture with multiple cameras and microphones | |
Zhong et al. | Time-frequency masking based multiple acoustic sources tracking applying rao-blackwellised monte carlo data association | |
Naqvi et al. | Multimodal blind source separation for moving sources | |
Katsarakis et al. | 3D audiovisual person tracking using Kalman filtering and information theory | |
Cattoni et al. | Video-radio fusion approach for target tracking in smart spaces |