ITBO980410A1 - Procedimento ed apparato per la guida automatica di videocamere median te microfono . - Google Patents

Procedimento ed apparato per la guida automatica di videocamere median te microfono . Download PDF

Info

Publication number
ITBO980410A1
ITBO980410A1 IT98BO000410A ITBO980410A ITBO980410A1 IT BO980410 A1 ITBO980410 A1 IT BO980410A1 IT 98BO000410 A IT98BO000410 A IT 98BO000410A IT BO980410 A ITBO980410 A IT BO980410A IT BO980410 A1 ITBO980410 A1 IT BO980410A1
Authority
IT
Italy
Prior art keywords
microphones
normalized
equations
fourier
microphone
Prior art date
Application number
IT98BO000410A
Other languages
English (en)
Inventor
Antonio Messina
Original Assignee
Antonio Messina
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Antonio Messina filed Critical Antonio Messina
Priority to IT1998BO000410A priority Critical patent/IT1306261B1/it
Priority to EP99926685A priority patent/EP1097581B1/en
Priority to PCT/IB1999/001233 priority patent/WO2000002388A1/en
Priority to AT99926685T priority patent/ATE225107T1/de
Priority to US09/720,508 priority patent/US7277116B1/en
Priority to DE69903171T priority patent/DE69903171T2/de
Publication of ITBO980410A1 publication Critical patent/ITBO980410A1/it
Application granted granted Critical
Publication of IT1306261B1 publication Critical patent/IT1306261B1/it

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)
  • Devices For Checking Fares Or Tickets At Control Points (AREA)
  • Burglar Alarm Systems (AREA)

Description

DESCRIZIONE
annessa a domanda di brevetto per INVENZIONE INDUSTRIALE dal titolo:
PROCEDIMENTO ED APPARATO PER LA GUIDA AUTOMATICA DI VIDEOCAMERE MEDIANTE MICROFONI
La presente invenzione concerne un procedimento ed un apparato per la guida automatica di videocamere mediante microfoni. Più in particolare l’invenzione riguarda un procedimento ed un apparato per la localizzazione di sorgenti sonore e per la loro osservazione mediante videocamere.
Apparati di questo tipo possono essere utilizzati in sistemi per la ripresa video in sale per conferenze o in teleconferenze oppure per la sorveglianza di spazi aperti o chiusi. La gestione di questi sistemi è infatti assai complessa, a causa della molteplicità di segnali generati neN’ambiente, del rumore e della estensione degli spazi, il che rende generalmente impossibile la discriminazione delle informazioni utili da parte di un operatore umano.
In un apparato automatico, la telecamera è guidata da un sistema di localizzazione della sorgente sonora che si basa sull’elaborazione dei segnali generati da microfoni. In particolare sono noti l'impiego di schiere (o array) di microfoni per l’acquisizione di segnali sonori e tecniche di elaborazione digitale dei segnali campionati, basate sulla stima del ritardo nel tempo di arrivo del fronte d’onda sonoro su coppie di microfoni (nel seguito anche “time delay”) [cfr. C.H. Knapp, G.C. Carter, The generalized correlation method far estimation oftime delay, IEEE Transaction on Acoustic Speech and Signal Processing, Boi. ASSP-24, n. 4, agosto 1976].
I sistemi di localizzazione noti consentono di stimare la posizione della sorgente nello spazio, ma non forniscono informazioni sulla sequenza temporale degli eventi sonori. Ciò costituisce un notevole limite per gli apparati in cui sia necessario ricostruire l’ordine temporale degli eventi (ad es., ma non solo, richieste di intervento da parte di partecipanti ad una conferenza).
Pertanto, scopo principale della presente invenzione è quello di fornire un procedimento ed un apparato che consenta di orientare automaticamente una o più telecamere verso una sorgente di eventi sonori, individuando con precisione sia la posizione spaziale della sorgente che la sequenza temporale degli eventi.
Ulteriore scopo della presente invenzione è quello di fornire un procedimento ed un apparato in cui la localizzazione della sorgente sonora avvenga mediante una tecnica di stima dei time delay particolarmente vantaggiosa dal punto di vista computazionale.
E' infine scopo della presente invenzione quello di fornire un sistema per la guida automatica di telecamere mediante microfoni, che sia facilmente ed economicamente realizzabile con i correnti dispositivi di elaborazione digitale.
I suddetti scopi sono conseguiti con un procedimento ed un apparato in conformità di quanto indicato nelle allegate rivendicazioni.
In una forma particolarmente vantaggiosa di attuazione, i segnali generati da una pluralità di microfoni, a seguito della rilevazione di un evento sonoro, sono elaborati in una prima unità, allo scopo di stimare il ritardo nel tempo di arrivo del fronte d’onda sonoro fra coppie predefinite di microfoni. Sono quindi determinate, in una seconda unità di elaborazione, le coordinate sia spaziali sia temporali dell'evento e, in funzione di queste, orientate una o più telecamere verso la sorgente.
In un suo primo aspetto l'invenzione fornisce una tecnica particolarmente vantaggiosa per la stima del time delay Δij = ti - 1j fra una coppia assegnata di microfoni (i,j). E’ noto infatti che, espresso il trasformato di Fourier del segnale s(t) come S(o) e nell'ipotesi di un segnale notevolmente più intenso del rumore a tutte le frequenze, la cross correlazione del segnale su due microfoni, si(t) e sj(t) ha un massimo per Δij Nelle ipotesi indicate, la tecnica migliore per calcolare Aij è.
- trasformare in Fourier la cross correlazione dei due segnali (i.e. calcolarne il cosiddetto cross spettro),
- estrarre la fase tramite la normalizzazione alla sua magnitudine e - antitrasformare.
Questa procedura determina un picco centrato in Δij ben descritto da una funzione delta di Dirac, se nel passaggio di estrazione della fase si normalizza opportunamente, per esempio
Nella realtà le ipotesi prima descritte sono approssimazioni ottimistiche, poiché la sorgente non è generalmente stazionaria ed il segnale non domina sul rumore a tutte le frequenze. Inoltre, l'automatizzazione di un processo che stimi il ritardo fra due microfoni si basa sulla digitalizzazione e sul campionamento del segnale, introducendo così una discretizzazione del segnale. L’espressione precedente è quindi modificata nel modo seguente
con N numero di campioni.
Questa espressione non soddisfa però il Teorema del campionamento, il quale garantisce che il valore della funzione s^t), in un qualunque punto all'interno di un intervallo, può essere ottenuto dai valori campionati sui punti di griglia se la funzione è band limited, ovvero se la sua trasformata di Fourier è non nulla solo su un intervallo limitato. Per ovviare a ciò, è stato proposto (cfr. Rabinkin et al., A DSP implementation of source location using microphone arrays, Proc.
Acoustical Society of America, Indianapolis, Indiana, USA, 15 Mayi 1996) di estrarre la fase, nel dominio delle frequenze, tramite la normalizzazione del trasformato di Fourier della cross correlazione con una potenza pe ]0,1[ del prodotto delle ampiezze dei segnali sui due microfoni. Quando p=0 la cross correlazione è non normalizzata, quando p=1 si ottiene la formula classica; il valore ottimale viene determinato sperimentalmente. Questa procedura presenta tuttavia l’inconveniente di non essere standardizzabile per un qualunque ambiente.
In conformità del presente procedimento, invece, si utilizza il prodotto della formula classica per la cross correlazione in Fourier con una funzione, normalizzata, tendente a zero regolarmente sul bordo. Detta funzione è preferibilmente costituita da una gaussiana. Agendo in questo modo si ottengono due vantaggi: l’eliminazione del rumore per ω elevati ed una maggiore accuratezza nella determinazione del picco della cross correlazione, dopo l’antitrasformata di Fourier, grazie alle proprietà di trasformazione della gaussiana.
Nel caso continuo, la procedura corrisponde ad avere un filtro sulla cross correlazione opportunamente normalizzata, del tipo
che, antitrasformata con Fourier, fornisce la convoluzione di una delta di Dirac con una gaussiana e quindi una gaussiana centrata in Δij conot« 1 /σω
Applicando la soluzione sopra indicata al caso discreto, si è verificato che la tabulazione della gaussiana nei punti di griglia (senza richiedere che il picco sia in un punto di campionamento) permette di ottenere, per interpolazione, una stima molto accurata della posizione del massimo della cross correlazione del segnale sulla coppia di microfoni (i j) e quindi del ritardo nel tèmpo di arrivo del fronte d'onda sonoro (errore circa 10<-6 >sec. con campionamento a 22KHz). Il procedimento proposto inoltre permette di ottenere, a parità di hardware utilizzato, tempi di calcolo più rapidi rispetto alle tecniche note.
In un suo secondo aspetto l'invenzione fornisce anche una tecnica particolarmente vantaggiosa per la localizzazione, nello spazio e nel tempo, dell’evento sonoro. Infatti la determinazione delle coordinate spazio-temporali di un evento sonoro, prodotto all'istante ts all’interno di un volume individuato da un sistema di coordinate ortonormali ( Ο,χ,γ,z ), può essere ricondotto, senza approssimazione di onda piana, alla soluzione di un sistema lineare di equazioni esprimibile vettorialmente nella forma
dove A è la matrice dei coefficienti, b è il termine noto che dipende dalle coordinate spaziali dei microfoni e dai ritardi Aj1 nel tempo di arrivo del fronte d'onda sonoro sui microfoni rispetto ad uno arbitrariamente scelto, m è il numero dei microfoni utilizzati e ξ≡ (x.y.z.ts) è il vettore delle quattro incognite del sistema.
Poiché sia A che b dipendono dalle posizioni dei microfoni e dai time delay, la presenza di possibili fluttuazioni nei valori di tutti i coefficienti del sistema, dovute all'incertezza nella misura delle posizioni relative dei microfoni, della velocità del suono e nella misura dei tempi, portano ad errori assoluti non stimabili con metodi tradizionali come quello LU.
Una tecnica a decomposizione in valori singolari (SVD) per la soluzione del problema dei minimi quadrati associato al problema lineare (problema LS - cfr. G.H. Golub, C.F. Van Loan, Matrix Computation, 2nd ed., Johns Hopkins University Press, baltimore, MD, 1989), con coefficienti opportunamente normalizzati, migliora notevolmente la dipendenza della soluzione da perturbazioni sui dati. Tuttavia anche in questo caso il massimo errore assoluto possibile (upper bound) nella determinazione della posizione della sorgente può raggiungere valori dell'ordine di grandezza della norma del vettore della sorgente (diverse decine di metri). Inoltre le fluttuazioni introducono zone nelle quali il problema diventa inconsistente. Le tecniche classiche per la trattazione delle perturbazioni sul metodo SVD (cfr. A.K. Louis, Inverse und schlecht gestente Probleme, TU berlin, Ed. G.B. Teuber, Stuttgart, 1989) come per esempio i filtri di banda e la regolarizzazione di Tikhonov-Phillips prevedono l'esatta conoscenza della matrice A e la possibilità di perturbazioni sul vettore noto b. Queste tecniche sono quindi inadeguate per il problema in esame.
In una forma particolarmente vantaggiosa dell'invenzione, la stima delle coordinate spazio-temporali dell’evento sonoro è vantaggiosamente ottenuta mediante la tecnica detta Total Least Squares (TLS) (cfr. S. Van Huffel, J. Vandewalle, The Total Least Squares Problem: Computational Aspects and Analysis, Frontiere in Applied Mathematics, Ed. SIAM, Philadelphia, 1991), la quale non risulta essere mai stata utilizzata in questo contesto. Nell’ipotesi che le righe della matrice di perturbazione siano stocasticamente indipendenti e distribuite in maniera identica con media zero (senza fare alcuna ipotesi sul particolare tipo di distribuzione dell'errore) e che la matrice di covarianza delle righe della matrice sia proporzionale alla matrice identità, si può dimostrare la migliore stabilità del metodo TLS rispetto al metodo LS e ad altri metodi di regressione lineare (nell’ulteriore ipotesi che le fluttuazioni dei coefficienti non superino certi valori critici). Inoltre è noto che l’errore massimo nel metodo TLS, essendo costituito da una 2-norma di vettori spazio-temporali, oscilla fra zero e detto valore massimo, assumendo tuttavia prevalentemente un valore intermedio. Altri metodi noti, come le tecniche di triangolazione per la stima delle posizioni, possono essere comunque impiegati, con differenti configurazioni dei microfoni, in combinazione con il procedimento sopra descritto per la stima dei time delay.
Ulteriori vantaggi e caratteristiche del presente trovato risulteranno maggiormente evidenti nella descrizione dettagliata che segue, fatta con riferimento ai disegni allegati, che ne rappresentano una forma di realizzazione puramente esemplificativa e non limitativa, in cui: la figura 1 illustra schematicamente un apparato secondo una preferita forma di attuazione dell’invenzione;
la figura 2 è un diagramma a blocchi di una sequenza operativa secondo il procedimento;
la figura 3 illustra una prima configurazione preferita dei microfoni; la figura 4 illustra una seconda preferita configurazione dei microni. Con riferimento alla figura 1 un apparato secondo l’invenzione comprende sostanzialmente:
una pluralità di microfoni stazionari 10 per la rilevazione di un evento sonoro prodotto da una sorgente S,
una unità 11 per la conversione analogico - digitale ed il campionamento dei segnali generati dai microfoni,
un modulo 12 per il calcolo del ritardo nel tempo di arrivo del fronte d’onda sonoro fra coppie assegnate di microfoni,
un modulo 13 per la localizzazione nello spazio e nel tempo dell’evento sonoro,
un modulo 14 per la guida di una o più videocamere mobili 15 e per la gestione e l’archiviazione delle immagini prodotte da esse ed eventualmente da una o più videocamere fisse 16.
Più in particolare il sistema microfonico utilizza m microfoni omnidirezionali posizionati in punti di frontiera del volume sotto osservazione, in modo tale da permettere la completa visibilità acustica di tutti i punti del volume.
Il numero dei microfoni dipende dalla precisione con cui si può determinare la posizione di essi ed il tempo di arrivo del segnale acustico e conseguentemente dalla precisione con la quale si desidera determinare le coordinate spazio-temporali dell’evento sonoro. In particolare, utilizzando la tecnica di localizzazione basata sul metodo TLS sopra richiamato, occorre che il sistema lineare (v) sia sovradimensionato. In relazione al caso in esame, ciò significa che il numero di microfoni deve essere m> 5.
Inoltre, considerando la matrice del sistema, si ottengono alcune condizioni sulla dislocazione spaziale dei microfoni necessarie affinché il sistema lineare sia consistente. In particolare occorre che la posizione della sorgente S non coincida con un microfono e che ogni tema di microfoni individui piani diversi. Una configurazione particolarmente vantaggiosa dei microfoni (illustrata in fig. 3, dove è schematicamente illustrato il volume V da controllare) prevede che sia massimo il numero di piani non paralleli.
La fig. 4 illustra invece una configurazione compatibile con tecniche di triangolazione per la determinazione della posizione della sorgente sonora all’interno di un volume V. Come schematicamente illustrato nella figura, la configurazione prevede due set (100,100’) di microfoni, ciascuno composto da quattro microfoni (10,10') non complanari. Inoltre una telecamera brandeggiabile (15) è posta nel baricentro dei set di microfoni.
I segnali rilevati dai microfoni 10 sono digitalizzati e campionati (ad es. a 22 KHz) dall’unità 11, la quale è collegata al modulo 12 per il calcolo dei time delay secondo la procedura sopra descritta. In particolare detto modulo 12, che può essere in pratica realizzato mediante un elaboratore digitale di segnali (DSP):
effettua la FFT dei segnali campionati,
calcola il cross spettro normalizzato (CSN) - e cioè la fase -relativo a ciascuna coppia di microfoni costituita da un microfono di riferimento e da ciascuno dei microfoni rimanenti,
procede al filtraggio di ciascun cross spettro normalizzato, ovvero di ciascuna fase estratta, mediante una gaussiana
con σω sufficientemente piccolo e preferibilmente minore o uguale ad 1/8 dell'intervallo di campionamento in Fourier, in modo da assicurare il soddisfacimento del Teorema del campionamento con una buona approssimazione,
opera l’antitrasformata FFT<'1 >della fase filtrata, generando una sequenza che corrisponde al campionamento, nel domino del tempo, della funzione (iv) più sopra riportata che si otterrebbe nel caso continuo, ovvero una gaussiana centrata in Δ^,
determina la posizione del massimo, in modo molto accurato, per interpolazione dei valori della gaussiana tabulati nei punti di griglia.
Con il procedimento proposto e con l’hardware comunemente disponibile è possibile effettuare più di due stime al secondo di time delay, su otto microfoni, con errori anche circa 50 volte inferiori a quelli ottenibili con tecniche standard a parità di frequenza di campionamento assegnata.
Vantaggiosamente, utilizzando un DSP, è possibile selezionare segnali al di sopra della soglia di rumore ambientale e, in generale, effettuare operazioni di prefiltraggio standard.
I time delay calcolati vengono quindi passati al modulo 13 il quale provvede alla determinazione delle coordinate spazio-temporali dell’evento sonoro applicando il metodo TLS come più sopra indicato.
Le prove effettuate, con hardware di commercio, hanno reso possibile l'individuazione della sorgente nel tempo e nello spazio, con 6 microfoni, in tempi inferiori al decimo di secondo e con un errore massimo di 1 m sulla posizione effettiva, in un volume di dimensioni 20x20x20 m3 e con errori di misura sulla posizione dei microfoni e sul tempo rispettivamente inferiori a 10-4 m e 10-6 s.
II modulo 14 elabora le coordinate spazio-temporali producendo comandi per i motori delle videocamere mobili 15, al fine di inquadrare in tempo reale la sorgente dell’evento sonoro. Il modulo 14 provvede inoltre alla gestione deile immagini rilevate, anche dalle eventuali videocamere fisse 16, ed in particolare alla compressione, archiviazione, analisi off-line di esse.
Vantaggiosamente il modulo 13 per la localizzazione spaziotemporale della sorgente sonora ed il modulo 14 sono implementati in un personal computer 17 dotato di microprocessore, ad es. di tipo Pentium ®.
Una tipica sequenza operativa per la guida di videocamere secondo il presente procedimento è schematizzata in figura 2.

Claims (12)

  1. RIVENDICAZIONI 1. Procedimento per la guida di videocamere mobili (15) comprendente le seguenti fasi di: predisporre una pluralità di microfoni (10) per la rilevazione di un evento sonoro; per ogni coppia di microfoni (j,1) costituita da un microfono prefissato e da ciascuno dei rimanenti microfoni, determinare in Fourier la cross correlazione normalizzata (cross spettro normalizzato) dei segnali, generati dai microfoni, campionati
    con N numero di campioni. - filtrare detto cross spettro normalizzato mediante una funzione normalizzata tendente regolarmente a zero sul bordo; antitrasformare detto cross spettro normalizzato e filtrato; stimare, per ciascuna coppia di microfoni, il ritardo Aj1 nel tempo di arrivo del fronte, d'onda sonoro sui microfoni, mediante la determinazione nel tempo del massimo della funzione antitrasformata; determinare le coordinate spazio-temporali dell’evento sonoro risolvendo il sistema lineare di equazioni
    - orientare le videocamere (15) verso il punto avente le coordinate spaziali determinate risolvendo deto sistema di equazioni (v).
  2. 2. Procedimento secondo la rivendicazione 1, caratterizzato dal fatto che deta funzione normalizzata tendente a zero regolarmente sul bordo è una gaussiana
    con σω preferibilmente minore o uguale ad 1/8 dell’intervallo di campionamento in Fourier.
  3. 3. Procedimento secondo la rivendicazione 1 o 2, caratterizzato dai fatto che detto sistema lineare di equazioni (v) è risolto mediante la tecnica Total Least Squares (TLS), il numero di microfoni essendo maggiore di cinque.
  4. 4. Procedimento secondo la rivendicazione 1 o 2, caratterizzato dal fatto che le coordinate spaziali dell’evento sonoro sono determinate mediante tecniche di triangolazione, il numero di microfoni essendo non inferiore a oto.
  5. 5. Procedimento secondo una delle rivendicazioni da 1 a 4, caratterizzato dal fatto di prevedere una ulteriore fase di archiviazione delle immagini rilevate da dete videocamere (15).
  6. 6. Apparato per la guida di telecamere motorizzate (15) comprendente: una pluralità di microfoni (10) per la rilevazione di un evento sonoro; mezzi (11) per la conversione analogico - digitale ed il campionamento dei segnali generati da detti microfoni (10); mezzi (12) per stimare, per ciascuna coppia di microfoni (j, 1) costituita da un microfono prefissato e da ciascuno dei rimanenti microfoni, il ritardo nel tempo di arrivo del fronte d’onda sonoro sui microfoni, mediante: la determinazione in Fourier della cross correlazione normalizzata (ii) (cross spettro normalizzato) dei segnali campionati relativi ai microfoni (j,1); la moltiplicazione di detto cross spettro normalizzato per una funzione normalizzata tendente regolarmente a zero sul bordo; il calcolo dell'antitrasformata di Fourier del prodotto del cross spettro normalizzato per detta funzione normalizzata tendente a zero regolarmente sul bordo; la determinazione nel tempo del massimo della funzione antitrasformata; mezzi (13) per determinare le coordinate spazio - temporali dell’evento sonoro risolvendo il sistema lineare di equazioni (v); mezzi (14) per orientare le videocamere (15) verso il punto avente le coordinate spaziali determinate risolvendo detto sistema di equazioni (v).
  7. 7. Apparato secondo la rivendicazione 6, caratterizzato dal fatto che detta funzione normalizzata tendente a zero regolarmente sul bordo è una gaussiana (vi) con σω preferibilmente minore o uguale ad 1/8 dell'intervallo di campionamento in Fourier.
  8. 8. Apparato secondo la rivendicazione 6 o 7, caratterizzato dal fatto che detto sistema lineare di equazioni (v) è risolto mediante la tecnica Total Least Squares (TLS) e che il numero di microfoni è maggiore di cinque.
  9. 9. Apparato secondo la rivendicazione 8, caratterizzato dal fatto che detti mezzi microfoni sono in numero di sei, disposti in modo che ogni tema individui un piano ed in modo tale da rendere massimo il numero di piani non paralleli.
  10. 10. Apparato secondo la rivendicazione 6 o 7, caratterizzato dal fatto che detti mezzi (13) determinano le coordinate spaziali dell’evento sonoro mediante tecniche di triangolazione e che il numero di microfoni è non inferiore a otto.
  11. 11. Apparato secondo la rivendicazione 10, caratterizzato dal fatto che detti microfoni sono in numero di otto, suddivisi in due set (100, 100'), ciascuno composto da quattro microfoni (10, 10') non complanari e che una videocamera brandeggiabile (15) è posta nel baricentro dei set di microfoni.
  12. 12. Apparato secondo una rivendicazione da 6 a 11, caratterizzato dal fatto che detti mezzi (12) per la stima del ritardo sono costituiti da un elaboratore digitale di segnali (DSP) e che detti mezzi (13,14) per determinare le coordinate spazio - temporali dell’evento e per orientare le videocamere (15) sono costituiti da un personal computer (17).
IT1998BO000410A 1998-07-03 1998-07-03 Procedimento ed apparato per la guida automatica di videocameremediante microfoni. IT1306261B1 (it)

Priority Applications (6)

Application Number Priority Date Filing Date Title
IT1998BO000410A IT1306261B1 (it) 1998-07-03 1998-07-03 Procedimento ed apparato per la guida automatica di videocameremediante microfoni.
EP99926685A EP1097581B1 (en) 1998-07-03 1999-07-02 A method and apparatus for automatically controlling video cameras using microphones
PCT/IB1999/001233 WO2000002388A1 (en) 1998-07-03 1999-07-02 A method and apparatus for automatically controlling video cameras using microphones
AT99926685T ATE225107T1 (de) 1998-07-03 1999-07-02 Vorrichtung und verfahren zur automatischen steuerung von videokameras mittels mikrophons
US09/720,508 US7277116B1 (en) 1998-07-03 1999-07-02 Method and apparatus for automatically controlling video cameras using microphones
DE69903171T DE69903171T2 (de) 1998-07-03 1999-07-02 Vorrichtung und verfahren zur automatischen steuerung von videokameras mittels mikrophons

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT1998BO000410A IT1306261B1 (it) 1998-07-03 1998-07-03 Procedimento ed apparato per la guida automatica di videocameremediante microfoni.

Publications (2)

Publication Number Publication Date
ITBO980410A1 true ITBO980410A1 (it) 2000-01-03
IT1306261B1 IT1306261B1 (it) 2001-06-04

Family

ID=11343282

Family Applications (1)

Application Number Title Priority Date Filing Date
IT1998BO000410A IT1306261B1 (it) 1998-07-03 1998-07-03 Procedimento ed apparato per la guida automatica di videocameremediante microfoni.

Country Status (6)

Country Link
US (1) US7277116B1 (it)
EP (1) EP1097581B1 (it)
AT (1) ATE225107T1 (it)
DE (1) DE69903171T2 (it)
IT (1) IT1306261B1 (it)
WO (1) WO2000002388A1 (it)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766035B1 (en) 2000-05-03 2004-07-20 Koninklijke Philips Electronics N.V. Method and apparatus for adaptive position determination video conferencing and other applications
JP4722347B2 (ja) 2000-10-02 2011-07-13 中部電力株式会社 音源探査システム
DE60134335D1 (de) * 2000-10-02 2008-07-17 Chubu Electric Power Sondierungssystem für schallquellen
US6662137B2 (en) 2000-12-19 2003-12-09 Hewlett-Packard Development Company, L.P. Device location discovery by sound
US7092886B2 (en) 2000-12-19 2006-08-15 Hewlett-Packard Development Company, L.P. Controlling the order of output of multiple devices
JP3867057B2 (ja) * 2003-02-20 2007-01-10 三井造船株式会社 音響センサアレイ、音響診断装置及び音響診断方法
JP4770178B2 (ja) * 2005-01-17 2011-09-14 ソニー株式会社 カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法
US8461986B2 (en) * 2007-12-14 2013-06-11 Wayne Harvey Snyder Audible event detector and analyzer for annunciating to the hearing impaired
EP2311256B1 (en) * 2008-08-04 2012-01-18 Koninklijke Philips Electronics N.V. Communication device with peripheral viewing means
DE102011079707A1 (de) 2011-07-25 2013-01-31 Robert Bosch Gmbh Verfahren und Vorrichtung zur Erfassung von Objekten aus der Fahrzeugumgebung eines Fahrzeuges
EP3084721A4 (en) * 2013-12-17 2017-08-09 Intel Corporation Camera array analysis mechanism
CN105933820A (zh) * 2016-04-28 2016-09-07 冠捷显示科技(中国)有限公司 一种外置无线音箱自动定位方法
CN109151672B (zh) * 2018-09-19 2022-08-05 西安交通大学 基于阵列麦克风的声源跟踪系统及其控制方法
CN109655816A (zh) * 2018-11-30 2019-04-19 恩平市声动电子科技有限公司 获取声源位置的方法、装置及设备终端

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993023816A1 (en) * 1992-05-18 1993-11-25 Silicon Engines Inc. System and method for cross correlation with application to video motion vector estimation
CA2148631C (en) 1994-06-20 2000-06-13 John J. Hildin Voice-following video system
WO1997008896A1 (en) * 1995-08-23 1997-03-06 Scientific-Atlanta, Inc. Open area security system
AUPN988996A0 (en) * 1996-05-16 1996-06-06 Unisearch Limited Compression and coding of audio-visual services
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
US6469732B1 (en) * 1998-11-06 2002-10-22 Vtel Corporation Acoustic source location using a microphone array
US6826284B1 (en) 2000-02-04 2004-11-30 Agere Systems Inc. Method and apparatus for passive acoustic source localization for video camera steering applications

Also Published As

Publication number Publication date
IT1306261B1 (it) 2001-06-04
DE69903171D1 (de) 2002-10-31
EP1097581A1 (en) 2001-05-09
DE69903171T2 (de) 2003-05-22
WO2000002388A1 (en) 2000-01-13
EP1097581B1 (en) 2002-09-25
ATE225107T1 (de) 2002-10-15
US7277116B1 (en) 2007-10-02

Similar Documents

Publication Publication Date Title
US11398235B2 (en) Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array
Sturim et al. Tracking multiple talkers using microphone-array measurements
JP5452158B2 (ja) 音響監視システム、及び音声集音システム
ITBO980410A1 (it) Procedimento ed apparato per la guida automatica di videocamere median te microfono .
Naqvi et al. A multimodal approach to blind source separation of moving sources
Gatica-Perez et al. Audiovisual probabilistic tracking of multiple speakers in meetings
US6792118B2 (en) Computation of multi-sensor time delays
EP2380033B1 (en) Estimating a sound source location using particle filtering
CN101567969B (zh) 基于麦克风阵列声音制导的智能视频导播方法
US20170353789A1 (en) Sound source estimation using neural networks
CN107820037B (zh) 音频信号、图像处理的方法、装置和系统
Zou et al. Tracking humans using multi-modal fusion
CN110545396A (zh) 一种基于定位去噪的语音识别方法及装置
KR20210070586A (ko) Cnn을 이용한 음향 처리방법
Ghidoni et al. A distributed perception infrastructure for robot assisted living
Sewtz et al. Robust MUSIC-based sound source localization in reverberant and echoic environments
Siriwardhana et al. Classification of activities of daily living based on depth sequences and audio
Talantzis et al. Real time audio-visual person tracking
Grondin et al. A study of the complexity and accuracy of direction of arrival estimation methods based on GCC-PHAT for a pair of close microphones
Schymura et al. Extending linear dynamical systems with dynamic stream weights for audiovisual speaker localization
Wang et al. Real-time automated video and audio capture with multiple cameras and microphones
Zhong et al. Time-frequency masking based multiple acoustic sources tracking applying rao-blackwellised monte carlo data association
Naqvi et al. Multimodal blind source separation for moving sources
Katsarakis et al. 3D audiovisual person tracking using Kalman filtering and information theory
Cattoni et al. Video-radio fusion approach for target tracking in smart spaces