DE69738195T2 - Verfahren und vorrichtung zur ortung einer akustischen quelle - Google Patents

Verfahren und vorrichtung zur ortung einer akustischen quelle Download PDF

Info

Publication number
DE69738195T2
DE69738195T2 DE69738195T DE69738195T DE69738195T2 DE 69738195 T2 DE69738195 T2 DE 69738195T2 DE 69738195 T DE69738195 T DE 69738195T DE 69738195 T DE69738195 T DE 69738195T DE 69738195 T2 DE69738195 T2 DE 69738195T2
Authority
DE
Germany
Prior art keywords
signals
source
determining
sequence
sound signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69738195T
Other languages
English (en)
Other versions
DE69738195D1 (de
Inventor
Peter L. Lexington CHU
Hong Westford WANG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Polycom Inc
Original Assignee
Polycom Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Polycom Inc filed Critical Polycom Inc
Publication of DE69738195D1 publication Critical patent/DE69738195D1/de
Application granted granted Critical
Publication of DE69738195T2 publication Critical patent/DE69738195T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

  • Die vorliegende Erfindung betrifft im Allgemeinen die Schallsignalverarbeitung und insbesondere ein Verfahren und eine Vorrichtung zum Identifizieren der Richtung und/oder des Orts einer Schallquelle.
  • Einige bekannte Audiokommunikationssysteme beinhalten ein oder mehrere Mikrophone zum Erfassen von Schallsignalen. In bestimmten Situationen ist jedoch die Richtung einer Schallquelle variabel oder unvorhersagbar. Bei Konferenzanordnungen, bei denen mehrere Sprecher in einem Raum einen Lauthörgerätesatz verwenden, kann beispielsweise die Richtung von Schall variabel sein, da verschiedene Personen von verschiedenen Orten im Konferenzraum sprechen können. Außerdem können sich die Sprecher herum bewegen, während sie sprechen. Trotzdem ist es in Umgebungen wie z. B. in einer Videokonferenz erwünscht, die Richtung oder Position des Sprechers zu identifizieren.
  • Die US-Anmeldung 5206721 beschreibt ein Fernsehkonferenzsystem mit mindestens einer der Funktionen des automatischen Ausrichtens einer Kamera auf einen Sprecher, des Übertragens von Videosignalen von Bildern von einer Vielzahl von Fernsehkameras und des Anzeigens eines Dokumentenbildes.
  • Die europäische Anmeldung 0689356 beschreibt ein Sprachfolgevideosystem zum dynamischen Aufnehmen der Ansicht eines aktiven Sprechers.
  • Die US-Anmeldung 4581758 beschreibt ein Schallrichtungsidentifikationssystem, das ein Paar von räumlich getrennten Mikrophonen verwendet, um die Richtung des Ursprungs von Sprachsignalen von einer gemeinsamen Schallquelle zu erhalten.
  • EP-A-625774 beschreibt ein Verfahren und eine Vorrichtung zur Spracherfassung.
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zur Verarbeitung einer Sequenz von Schallsignalen, die von einer Schallquelle ankommen, mit den folgenden Schritten bereitgestellt: Erfassen von jeweiligen Strömen von akustischen Daten an einer Vielzahl von Orten während einer Vielzahl von Zeitrahmen; Feststellen, ob die an irgendeinem der Orte während eines speziellen Zeitrahmens erfassten akustischen Daten den Beginn der Sequenz von Schallsignalen darstellen, wobei das Feststellen das Untersuchen der Größe einer Vielzahl von Frequenzkomponenten von Signalen, die während des speziellen Zeitrahmens erfasst werden, umfasst; Identifizieren von empfangenen Schallsignalen an mindestens zwei der Orte, die die Sequenz von Signalen darstellen, wenn die akustischen Daten an irgendeinem der Orte den Beginn der Sequenz darstellen; und Ermitteln einer Richtung der Quelle auf der Basis der identifizierten empfangenen Schallsignale.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird eine Vorrichtung zu Verarbeitung einer Sequenz von Schallsignalen, die von einer Schallquelle ankommen, bereitgestellt, mit: einer Vielzahl von Wandlern zum Erfassen eines Stroms von akustischen Daten während einer Vielzahl von Zeitrahmen; einem Mittel zum Feststellen, ob die an irgendeinem der Wandler während eines speziellen Zeitrahmens erfassten akustischen Daten den Beginn der Sequenz von Schallsignalen darstellen; einem Mittel zum Identifizieren von empfangenen Schallsignalen an mindestens zwei der Orte, die die Sequenz von Signalen darstellen, wenn die akustischen Daten an irgendeinem der Orte den Beginn der Sequenz darstellen; und einem Mittel zum Ermitteln einer Richtung der Quelle auf der Basis der identifizierten empfangenen Schallsignale; wobei das Mittel zum Feststellen, ob die erfassten akustischen Daten den Beginn der Sequenz von Schallsignalen darstellen, umfasst: eine Hintergrundrauschenergie-Abschätzeinrichtung; ein erstes Mittel, um für eine Vielzahl von Frequenzen festzustellen, ob die Größe von jeder solchen Frequenzkomponente von während des speziellen Zeitrahmens erfassten Signalen um mindestens einen ersten vorbestimmten Betrag größer ist als eine Hintergrundrauschenergie für diese Frequenz; und ein zweites Mittel, um für die Vielzahl von Frequenzen festzustellen, ob die Größe von jeder solchen Frequenzkomponente um mindestens einen zweiten vorbestimmten Betrag größer ist als die Größe von entsprechenden Frequenzkomponenten von während einer im Voraus festgelegten Anzahl von vorangehenden Zeitrahmen erfassten Signalen.
  • Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Betreiben eines Systems bereitgestellt, das mindestens eine erste und eine zweite Videokamera zur Verwendung bei einer Videokonferenz umfasst, wobei das Verfahren umfasst: Anzeigen von Bildern, die Videodaten entsprechen, die von der ersten Videokamera aufgenommen werden, auf einer Anzeige; Erfassen eines Stroms von akustischen Daten, einschließlich einer Sequenz von Schallsignalen von einer Quelle, während einer Vielzahl von Zeitrahmen; Feststellen, ob die während eines speziellen Zeitrahmens erfassten akustischen Daten den Beginn der Sequenz von Schallsignalen darstellen, wobei das Feststellen umfasst: Untersuchen der Größe einer Vielzahl von Frequenzkomponenten der während des speziellen Zeitrahmens erfassten Signale; Feststellen, ob die Größe von jeder solchen Frequenzkomponente von während des speziellen Zeitrahmens erfassten Signalen um mindestens einen ersten vorbestimmten Betrag größer ist als eine Hintergrundrauschenergie für diese Frequenz, für die Vielzahl von Frequenzen; Feststellen, ob die Größe von jeder solchen Frequenzkomponente um mindestens einen zweiten vorbestimmten Betrag größer ist als die Größe von entsprechenden Frequenzkomponenten von während einer im Voraus festgelegten Anzahl von vorangehenden Zeitrahmen erfassten Signalen, für die Vielzahl von Frequenzen; Identifizieren von empfangenen Schallsignalen, die die Sequenz von Signalen darstellen, wenn die Daten den Beginn der Sequenz darstellen; Ermitteln der Richtung der Quelle auf der Basis der empfangenen Schallsignale; automatisches Ausrichten der ersten Videokamera in Reaktion auf die Ermittlung der Richtung durch Neigen oder Schwenken der Videokamera; und Anzeigen von Bildern auf der Anzeige, die Videodaten entsprechen, die von der zweiten Videokamera während des Zeitraums aufgenommen werden, in dem die erste Videokamera sich neigt oder schwenkt.
  • Es wird ein Schallsignal-Verarbeitungsverfahren und -system unter Verwendung von Paaren von räumlich getrennten Mikrophonen zum Erhalten der Richtung von Sprache oder anderen Schallsignalen von einer gemeinsamen Schallquelle beschrieben. Dies umfasst ein Verfahren und eine Vorrichtung zum Verarbeiten der Schallsignale durch Feststellen, ob die während eines speziellen Zeitrahmens erfassten Signale den Anfang oder Beginn einer Sequenz von Schallsignalen von der Schallquelle darstellen, zum Identifizieren von empfangenen Schallsignalen, die die Sequenz von Signalen darstellen, wenn die Daten den Beginn der Sequenz darstellen, und zum Ermitteln der Richtung der Quelle auf der Basis der empfangenen Schallsignale.
  • Bei einem derzeit bevorzugten Ausführungsbeispiel wird der Anfang oder Beginn einer Sequenz von Schallsignalen von der Quelle vorzugsweise auf einer frequenzweisen Basis erfasst. Vorzugsweise werden Daten, die denjenigen Frequenzkomponenten von erfassten Signalen zugeordnet sind, die die folgenden zwei Bedingungen erfüllen, als Signale darstellend erachtet, die am Beginn einer Sequenz von Schallsignalen von der Quelle auftreten. Zuerst sollte die Größe der Frequenzkomponente vorzugsweise um mindestens einen vorbestimmten Betrag größer sein als die Hintergrundrauschenergie für diese Frequenz. Zweitens sollte die Größe der Frequenzkomponente vorzugsweise um mindestens einen vorbestimmten Betrag größer sein als die Größe von entsprechenden während einer vorbestimmten Anzahl von vorangehenden Zeitrahmen erfassten Frequenzkomponenten.
  • Wenn die zwei Bedingungen für eine spezielle Frequenz während eines speziellen Zeitrahmens erfüllt sind, dann wird angenommen, dass eine Anfangsbedingung in Bezug auf diese Frequenz erfüllt ist. Eine Kreuzkorrelation für die durch das Paar von Mikrophonen während des Zeitrahmens erfassten Schallsignale wird in Bezug auf jede solche Frequenzkomponente erzeugt und eine Kreuzkorrelation für das Rauschen bei jeder solchen Frequenz wird subtrahiert, um die empfangenen Schallsignale zu identifizieren, die die Sequenz von Signalen von der Schallquelle darstellen. Vorzugsweise werden die empfangenen Schallsignale während einer vorbestimmten Zeitlänge akkumuliert. Wenn am Ende des vorbestimmten Zeitraums von Null verschiedene Werte für mindestens eine festgelegte Anzahl von Frequenzen akkumuliert wurden, dann werden die akkumulierten Werte verwendet, um die Zeitverzögerung zwischen Signalen, die am Paar von Mikrophonen von der gemeinsamen Quelle ankommen, zu ermitteln. Diese Information kann dann verwendet werden, um die Richtung oder den Peilwinkel der Schallquelle in Bezug auf die Mikrophone zu ermitteln. Gruppen von Mikrophonen können vorteilhafterweise anstelle eines einzelnen Paars von Mikrophonen verwendet werden, um die Leistungsfähigkeit des Systems zu verbessern.
  • Das Verfahren und die Vorrichtung sind für die Verwendung in Anwendungen wie z. B. einer Videokonferenz, einer Videoaufzeichnung und beim Rundfunk besonders geeignet, wo es erwünscht sein kann, automatisch eine Videokamera innerhalb eines Satzes von Kameras wie z. B. durch Schwenken, Neigen oder Umschalten der aktiven Kamera in der Richtung einer Person oder Gruppe von Leuten, die zu sprechen begonnen hat, auszurichten.
  • Die Erfindung wird nun beispielhaft mit Bezug auf die zugehörigen Zeichnungen beschrieben, in denen gilt:
  • 1 ist ein funktionales Blockdiagramm, das ein beispielhaftes System zum Orten der Richtung einer Schallquelle gemäß der Erfindung darstellt.
  • 2A2B stellen einen Ablaufplan dar, der die Schritte des Verfahrens eines bevorzugten Ausführungsbeispiels der Erfindung zeigt.
  • 3 ist ein Ablaufplan eines Verfahrens zum Abschätzen von Hintergrundrauschen.
  • 4 stellt die Geometrie des Peilwinkels in Bezug auf ein Paar von Mikrophonen, die Schallsignale von einer Quelle empfangen, dar.
  • 5 stellt ein Videokonferenzsystem gemäß der Erfindung dar.
  • 6 stellt eine Anordnung von Mikrophonen für die Verwendung bei einem Videokonferenzsystem gemäß der Erfindung dar.
  • 7 ist ein Ablaufplan, der Schritte eines Verfahrens zum Ausrichten einer Videokamera bei dem Videokonferenzsystem zeigt.
  • Beschreibung der bevorzugten Ausführungsbeispiele
  • 1 ist ein funktionales Blockdiagramm, das ein beispielhaftes System 1 zum Orten der Richtung einer Schallquelle gemäß der Erfindung darstellt. Das System 1 kann beispielsweise verwendet werden, um die Richtung einer Schallquelle 2, wie z. B. einer Person, die in einer nachhallenden Umgebung spricht, zu ermitteln. Die Erfindung ist folglich für Anwendungen im Zusammenhang mit einer Videokonferenz besonders geeignet, wo es beispielsweise erwünscht sein kann, eine Videokamera in der Richtung der sprechenden Person auszurichten. Es sollte jedoch selbstverständlich sein, dass die Erfindung in anderen Umgebungen ebenso Anwendung finden kann, wie z. B. bei der allgemeinen Videoausrichtung bei der Aufzeichnung und beim Rundfunk.
  • Die verschiedenen Funktionsmodule von 1 können beispielsweise durch einen geeignet programmierten Prozessor wie z. B. einen Mikroprozessor mit geeigneten Speichern, wie z. B. einem Festwertspeicher (ROM), Direktzugriffsspeicher (RAM) und/oder anderen Speicherformen, implementiert werden. Alternative geeignete Prozessoren zum Durchführen der Funktionen der Module von 1 umfassen Minicomputer, Mikrocontroller, programmierbare Logikmatrizes und anwendungsspezifische integrierte Schaltungen. Die Programmierung und Verwendung solcher Prozessoren ist auf dem Fachgebiet gut bekannt und wird daher hierin nicht weiter beschrieben.
  • 1 kann am besten in Verbindung mit 2A2B verstanden werden, die ein Ablaufplan der Schritte gemäß dem Verfahren der vorliegenden Erfindung darstellen. Wie durch Schritt 100 angegeben, werden Ströme von akustischen Daten von zwei oder mehr Wandlern wie z. B. dem Paar von Mikrophonen 10, 11, die um einen Abstand D räumlich getrennt sind, erfasst. Die Ströme von akustischen Daten können eine Sequenz von Schallsignalen, die direkt von der Quelle 2 empfangen werden, sowie Rauschen und Hallsignale umfassen. Die in dem Paar von Mikrophonen 10, 11 empfangenen Signale werden zu jeweiligen Abtastmodulen 14, 15 über Analog-Digital-(A/D) Wandler 12, 13 geführt, die mit einer Abtastfrequenz von beispielsweise 16 kHz arbeiten. Die Abtastmodule 14, 15 wandeln die jeweiligen Ströme von Daten, die von den Mikrophonen 10, 11 empfangen werden, in numerische Abtastrahmen von N Abtastwerten um, wie jeweils durch die Schritte 101, 102 angegeben. Die Anzahl von Abtastwerten N kann beispielsweise 512 sein. Die Blöcke von N Abtastwerten können überlappen und überlappen typischerweise um N/2 Abtastwerte. Jeweilige Multiplizierer 18, 19 multiplizieren die Ausgangssignale von den Abtastmodulen 14, 15 mit Fensterfunktionen, die von Modulen 16, 17 erzeugt werden, wie durch die Schritte 103, 104 angegeben. Die Fensterfunktionsmodule 16, 17 erzeugen beispielsweise ein herkömmliches Hamming-Fenster. Bei einem derzeit bevorzugten Ausführungsbeispiel verwenden die Fensterfunktionsmodule 16, 17 jedoch eine Exponentialfensterfunktion, wie z. B. w(i) = √iexp[–(i2/80N)], i = 0, ..., N – 1 [1]
  • Andere Fensterfunktionen können auch verwendet werden. Die am Ausgang der Multiplizierer 18, 19 erscheinenden Signale weisen die Form x1m = w(i)S1m(i), i = 0, ..., N – 1 x2m = w(i)S2m(i), i = 0, ..., N – 1 [2]auf, wobei s1m(i) und s2m(i) die jeweils von den Mikrophonen 10, 11 während des Rahmens m empfangenen Signale darstellen.
  • Wie durch die Schritte 105, 106 in 2A angegeben, werden die Signale am Ausgang der Multiplizierer 18, 19 als nächstes durch jeweilige Module 20, 21 verarbeitet, die eine Integraltransformation wie z. B. die schnelle Fouriertransformation (FFT) für jeden Rahmen durchführen. Die Fourier-transformierten Signale f1m(k), f2m(k) stellen die Berechnungen dar, bei denen j die Quadratwurzel von –1 ist. Die Werte von k können beispielsweise im Bereich von 125 Hz bis 7,5 kHz liegen, obwohl andere Bereiche von k auch möglich sind.
    Figure 00070001
  • Die Fourier-transformierten Signale werden für die anschließende Verarbeitung in jeweiligen Speichern 22, 23 gespeichert, die jedem FFT-Modul 20, 21 zugeordnet sind. Die Fourier-transformierten Signale des aktuellen Rahmens können auch direkt zu anderen Modulen zur Weiterverarbeitung gesandt werden. Die Fourier-transformierten Signale können beispielsweise zu einem Tonhöhendetektor 90 gesandt werden, wie z. B. dem Tonhöhendetektor, der in der US-Anmeldung Seriennr. 08/434 798 beschrieben ist, die durch den Hinweis hierin aufgenommen wird.
  • Gemäß den Prinzipien der Erfindung wird eine stationäre Hintergrundrauschenergie für jede Frequenzkomponente der von einem der Mikrophone, beispielsweise vom Mikrophon 10, empfangenen Signale separat abgeschätzt. Wie durch Schritt 110 angegeben, wird die Hintergrundrauschenergie durch eine Hintergrundrausch-Abschätzeinrichtung 35 abgeschätzt. Die Rauschabschätzeinrichtung 35 verwendet die Fourier-transformierten Signale der vorherigen S Rahmen, um das Hintergrundrauschen abzuschätzen, wenn festgestellt wird, dass die Signale in den vorherigen S Rahmen nur Rauschen sind und dass ein ungefähr konstanter Rauschpegel vorliegt. Die Anzahl von Rahmen S kann geeigneterweise beispielsweise einhundert sein.
  • 3 ist ein Ablaufplan, der die Schritte eines Verfahrens zum Abschätzen des Hintergrundrauschens zeigt. Wie durch Schritt 200 in 3 angegeben, wird das relevante Frequenzspektrum in L vorzugsweise nicht-überlappende Frequenzbänder unterteilt. Acht Frequenzbänder mit jeweils einer Bandbreite von 1 kHz können beispielsweise geeigneterweise verwendet werden. Wie durch Schritt 202 angegeben, erzeugt die bandweise Energieabschätzeinrichtung 30 als nächstes ein Breitbandenergiesignal für jedes Frequenzband aus den Fourier-Komponenten für den aktuellen Rahmen. Unter der Annahme von beispielsweise zweiunddreißig Koeffizienten für jedes Band von 1 kHz wird folglich die mittlere Energie für jedes Band gemäß
    Figure 00080001
    berechnet, wobei bm(r) die Breitbandenergie für das Frequenzband r und die Rahmennummer m ist.
  • Als nächstes wird, wie durch Schritt 204 angegeben, ein mittleres Breitbandenergiesignal für jedes Frequenzband aus den Breitbandenergien der vorherigen M Rahmen erzeugt. Folglich wird die mittlere Energie für ein spezielles Frequenzband r vorzugsweise gemäß
    Figure 00090001
    berechnet, wobei M beispielsweise auf Vier gesetzt werden kann und wobei m' die aktuelle Rahmennummer ist. Eine Feststellung wird dann hinsichtlich dessen durchgeführt, ob die Energie in jedem Frequenzband in Bezug auf vorherige Rahmen relativ konstant geblieben ist. Insbesondere wird eine Feststellung hinsichtlich dessen durchgeführt, ob irgendein Frequenzband im aktuellen Rahmen um mindestens einen vorbestimmten Betrag größer ist als die mittlere Energie für dieses Frequenzband, wie durch 206 angegeben. Eine Feststellung wird auch hinsichtlich dessen durchgeführt, ob irgendein Frequenzband um mindestens einen vorbestimmten Betrag geringer ist als die mittlere Energie für dieses Frequenzband. Mit anderen Worten, die bandweise Energieabschätzeinrichtung 30 stellt fest, ob
    Figure 00090002
    wobei Tb beispielsweise auf Fünf gesetzt werden kann. Höhere oder niedrigere Werte von Tb können in Abhängigkeit von der speziellen Anwendung verwendet werden. Wenn eine Feststellung in den Gleichungen [6] in Bezug auf ein oder mehrere Frequenzbänder bejahend ist, dann erzeugt die Energieabschätzeinrichtung 30 ein Ausgangssignal, das angibt, dass keine Konstanz der Energie über die Zeit besteht, wie durch Schritt 208 angegeben. Ein Zähler 36 in der Hintergrundrausch-Abschätzeinrichtung 35, der die Anzahl von aufeinander folgenden Rahmen, für die die Breitbandenergiepegel ungefähr konstant waren, verfolgt, wird auf Null zurückgesetzt. Ansonsten wird ein Ausgangssignal geliefert, um anzugeben, dass die Breitbandenergiepegel im aktuellen Rahmen in Bezug auf vorherige Rahmen ungefähr konstant sind, wie durch Schritt 210 angegeben, und der Zähler 36 wird um Eins inkrementiert.
  • Alternative Messungen der Konstanz der Energie über die Zeit können anstelle der Schritte 204, 206 verwendet werden. Eine Alternative besteht beispielsweise darin, festzustellen, ob
    Figure 00100001
    wobei M wiederum beispielsweise Vier sein könnte.
  • In jedem Fall stellt die Hintergrundrausch-Abschätzeinrichtung 35 fest, ob die Breitbandenergiepegel für die vorherigen S Rahmen ungefähr konstant waren, wie durch 212 angegeben. Dies kann durch Prüfen, ob der Zähler 36 gleich mindestens S ist, durchgeführt werden. Wenn die Breitbandenergiepegel der vorherigen S Rahmen nicht ungefähr konstant waren, dann fährt das System 1 mit der Verarbeitung des nächsten Rahmens fort, wie durch Schritt 213 angegeben. Wenn jedoch die Feststellung 212 bejahend ist, dann berechnet die Hintergrundrausch-Abschätzeinrichtung 35 vorzugsweise das Hintergrundrauschen gemäß
    Figure 00100002
    wie durch Schritt 214 angegeben, wobei f1 ( m-i)* das konjugiert Komplexe von f1 ( m-i ) ist und wobei S beispielsweise gleich einhundert sein kann. Für diesen Zweck werden die Frequenzkomponenten der Fourier-transformierten Signale für die vorherigen Rahmen vom Speicher 22 zur Hintergrundrausch-Abschätzeinrichtung 35 gesandt. Ausgangssignale, die von der Rauschabschätzeinrichtung 35 erzeugt werden und das Hintergrundrauschen darstellen, werden verwendet, wie nachstehend weiter beschrieben, um zu entscheiden, welche Frequenzkomponenten des aktuellen Rahmens als nützliche Daten bei der Berechnung der Richtung und/oder des Orts der Quelle 2 betrachtet werden sollen.
  • Die von der Energieabschätzeinrichtung 30 erzeugten Signale werden auch zu einer Hintergrundrausch-Kreuzkorrelations-Abschätzeinrichtung 40 gesandt. Wenn festgestellt wird, dass die Breitbandenergiepegel der vorherigen S Rahmen ungefähr konstant waren, dann wird ein Kreuzkorrelationssignal für die Signale der vorherigen S Rahmen durch die Rauschkreuzkorrelations-Abschätzeinrichtung 40 erzeugt, wie durch Schritt 115 angegeben. Die Hintergrundrausch-Kreuzkorrelation wird vorzugsweise gemäß
    Figure 00110001
    berechnet, wobei f2 (m-i )* das konjugiert Komplexe von f2(m-i) ist und N(k) die Kreuzkorrelation für das Rauschen bei einer speziellen Frequenz k darstellt. Für diesen Zweck werden die Frequenzkomponenten der Fourier-transformierten Signale für die vorherigen S Rahmen von den jeweiligen Speichern 22, 23 zur Hintergrundrausch-Kreuzkorrelations-Abschätzeinrichtung 40 gesandt. Die Ausgangssignale, die von der Rauschkreuzkorrelations-Abschätzeinrichtung 40 erzeugt werden und die Kreuzkorrelation für das Rauschen darstellen, werden verwendet, wie nachstehend weiter beschrieben, um die Identifikation der Kreuzkorrelation für empfangene Schallsignale zu unterstützen, von denen das System 1 feststellt, dass sie von der Quelle 2 ausgegangen sind.
  • Bei dem derzeit bevorzugten Ausführungsbeispiel der Erfindung wird eine Frequenzkomponente von akustischen Daten, die an den Mikrophonen 10, 11 erfasst werden, als bei der Ermittlung der Richtung der Quelle 2 nützlich betrachtet, wenn zwei Bedingungen in Bezug auf die spezielle Frequenzkomponente des gegenwärtigen Rahmens erfüllt sind, wie nachstehend weiter erläutert. Wie durch 120 in 2A angegeben, stellt zuerst in Bezug auf die vom Mikrophon 10 empfangenen Signale ein Vergleicher 25 fest, welche Frequenzkomponenten des aktuellen Rahmens, falls vorhanden, eine Größe aufweisen, die um mindestens einen vorbestimmten Betrag größer ist als die Größe des Hintergrundrauschens b(k) für die entsprechende Frequenzkomponente. Wie durch 121 angegeben, stellt zweitens ein Vergleicher 24 fest, welche Frequenzkomponenten des aktuellen Rahmens, falls vorhanden, eine Größe aufweisen, die um mindestens einen vorbestimmten Betrag größer ist als die Größe der entsprechenden Frequenzkomponenten in den vorherigen p Rahmen, wobei p beispielsweise auf Vier gesetzt werden kann. Mathematisch kann die erste Bedingung ausgedrückt werden als
    Figure 00120001
    wobei TN beispielsweise auf Vier gesetzt werden kann. Die zweite Bedingung kann ausgedrückt werden als
    Figure 00120002
    wobei To beispielsweise auf Vier gesetzt werden kann. Höhere oder niedrigere Werte von TN und To können in Abhängigkeit von der speziellen Anwendung verwendet werden. Ebenso können andere im Voraus festgelegte Werte von p als Vier verwendet werden. Während die erste Bedingung zum Angeben, dass ein Signal von der Schallquelle 2 vorhanden ist, dient, dient die zweite Bedingung zum Angeben des Beginns einer Sequenz von Schallsignalen, die von der Quelle 2 empfangen werden. Wenn keine Frequenzkomponenten beide Bedingungen, die durch Gleichungen [10] und [11] ausgedrückt werden, erfüllen, dann fährt das System mit der Verarbeitung des nächsten Rahmens von akustischen Daten fort, wie durch Schritt 122 angegeben.
  • Wenn beide der vorstehend erwähnten Bedingungen, die durch Gleichungen [10] und [11] ausgedrückt sind, in Bezug auf eine spezielle Frequenz k erfüllt sind, erzeugt ein UND-Gatter 26 mit zwei Eingängen ein Signal, das angibt, dass beide Bedingungen für die Frequenz k des gegenwärtigen Rahmens erfüllt sind. Signale, die vom UND-Gatter 26 erzeugt werden, werden dann zu einer Anfangssignal-Kreuzkorrelations-Abschätzeinrichtung 45 gelenkt. In Reaktion auf das Signal vom UND-Gatter 26 berechnet und erzeugt die Kreuzkorrelations-Abschätzeinrichtung 45 ein Kreuzkorrelationssignal für die spezielle Frequenz k gemäß Cm(k) = f1m(k)f2m*(k) [12] wie durch Schritt 130 angegeben. Für diesen Zweck empfängt die Kreuzkorrelations-Abschätzeinrichtung 45 die jeweiligen Frequenzkomponentensignale von den FFT-Modulen 20, 21. Wie durch Schritt 135 angegeben, subtrahiert als nächstes ein Differenzierer 50 die Hintergrundrausch-Kreuzkorrelation N(k), die in Schritt 115 erzeugt wird, von der Kreuzkorrelation cm(k), die in Schritt 130 erzeugt wird. Folglich werden die Ausgangssignale am(k) für die Frequenz k im Rahmen m durch den Differenzierer 50 gemäß am(k) = cm(k) – N(k) [13]erzeugt. Die aus Schritt 135 erhaltenen Ausgangssignale stellen die empfangenen Schallsignale entsprechend dem Beginn oder Anfang der Sequenz von Schallsignalen, die von der Quelle 2 empfangen werden, dar.
  • Die vom Differenzierer 50 erzeugten Signale werden zu einem entsprechenden einer Vielzahl von Akkumulatoren 60, ..., 61 weitergeleitet, von denen jeder einer der Frequenzen k, 4 bis 240, entspricht. Wie durch Schritt 140 angegeben, addiert jeder jeweilige Akkumulator 60, ..., 61 die Ergebnisse, die vom Differenzierer 50 erhalten wurden und die seiner speziellen Frequenz entsprechen, zu vorherigen Ergebnissen, die im Akkumulator 60, ..., 61 für einen festgelegten Zeitraum gespeichert sind. Folglich gilt am,neu(k)= am,alt(k) + [cm(k) – N(k)] [14]wobei am,alt(k) den im Kreuzkorrelations-Akkumulator für die Frequenz k gespeicherten vorherigen Wert darstellt und am,neu(k) den im Kreuzkorrelations-Akkumulator für die Frequenz k gespeicherten neuen Wert darstellt.
  • Am Ende des festgelegten Zeitraums, beispielsweise zwei Sekunden, wird eine Feststellung hinsichtlich dessen durchgeführt, ob mehr als eine vorbestimmte Anzahl von Kreuzkorrelations-Akkumulatoren 60, ..., 61 von Null verschiedene Einträge aufweisen, wie durch 145 angegeben. Wenn mindestens die festgelegte Anzahl von Akkumulatoren 60, ..., 61 keine von Null verschiedenen Einträge aufweisen und daher aktualisiert wurden, dann werden die Werte der Akkumulatoren 60, ..., 61 auf Null zurückgesetzt, wie durch Schritt 147 angegeben. Wenn andererseits die Feststellung 145 bejahend ist, dann wird, wie durch Schritt 150 angegeben, ein Signal, das die Zeitverzögerung t(n) zwischen der Ankunftszeit der Schallsignale an den Mikrophonen 10, 11 darstellt, erzeugt. Die Zeitverzögerung wird aus den akkumulierten Kreuzkorrelationssignalen durch ein Zeitverzögerungs-Berechnungsmodul 70 erzeugt.
  • Bei einem derzeit bevorzugten Ausführungsbeispiel empfängt das Modul 70 auch ein Signal von der bandweisen Energieabschätzeinrichtung 30, um zu bestätigen, dass der aktuelle Rahmen eine Sequenz von Signalen von der Schallquelle 2 umfasst. Gemäß diesem Ausführungsbeispiel würde nur dann, wenn das von der bandweisen Energieabschätzeinrichtung 30 empfangene Signal auch angibt, dass der aktuelle Rahmen eine Sequenz von Signalen von der Quelle 2 umfasst, das Modul 70 das Zeitverzögerungssignal t(n) erzeugen.
  • Um die Zeitverzögerung t(n) zu erzeugen, normiert das Modul 70 vorzugsweise die Größen der Kreuzkorrelationswerte, die aktuell in den Akkumulatoren 60, ..., 61 gespeichert sind. Für jeden Frequenzakkumulator 60, ..., 61, dessen Eintrag von Null verschieden ist, wird folglich die Größe vorzugsweise auf Eins gesetzt. Für jeden Frequenzakkumulator 60, ..., 61, dessen Eintrag Null ist, oder mit anderen Worten, der nicht aktualisiert wurde, wird die Größe auf Null gesetzt. Mathematisch gilt
    Figure 00140001
  • Auf der Basis der normierten Werte der akkumulierten Kreuzkorrelationswerte erzeugt das Modul 70 dann ein Signal, das die Zeitverzögerung für die Schallsignale angibt, die an dem Paar von Mikrophonen 10, 11 während des Rahmens m ankommen.
  • Bei einem Ausführungsbeispiel berechnet und erzeugt das Modul 70 ein Signal, das die inverse Fourier-Transformation darstellt, gemäß
    Figure 00140002
    was einen Wert erzeugt, der dem Wert der Verzögerung für die Schallsignale entspricht, die an dem Paar von Mikrophonen 10, 11 während des Rahmens m ankommen. Somit wird der Maximalwert von t(n) beispielsweise als Verzögerung ausgewählt. Alternativ kann eine Interpolation verwendet werden, um die Verzögerungen von Bruchteilen eines Abtastwerts gemäß dem zu messen, wenn I eine ganze Zahl ist, um die die Zeitauflösung der Kreuzkorrelation erhöht ist.
  • Figure 00150001
  • Somit wird beispielsweise der Maximalwert von t(n') als Verzögerung ausgewählt. Bei noch einem weiteren Ausführungsbeispiel können Abtastwerte mit einem Wert von Null zwischen die aktuellen Abtastwerte der inversen Transformationssequenz eingefügt werden. Die resultierende Sequenz würde dann unter Verwendung eines Tiefpassfilters gefiltert werden, um den Wert der Zeitverzögerung zu erhalten.
  • Bei alternativen Ausführungsbeispielen kann die Zeitverzögerung zwischen den Signalen, die an dem Paar von Mikrophonen 10, 11 ankommen, durch das Modul 70 unter Verwendung einer Histogrammmethode wie z. B. derjenigen, die im US-Patent Nr. 5 058 419 beschrieben ist, das durch den Hinweis hierin aufgenommen wird, abgeschätzt werden. Phasendifferenzen zwischen den Signalen, die an den zwei Mikrophonen 10, 11 ankommen, werden somit beispielsweise für mehrere Frequenzen auf die vorstehend beschriebene Weise unter Verwendung der in den Akkumulatoren 60, ..., 61 gespeicherten Kreuzkorrelationswerte gemessen. Jede gemessene Phasendifferenz liefert eine potentielle Zeitverzögerung. Der Mittelwert der potentiellen Zeitverzögerungen, die in einen Zeitverzögerungsbereich fallen, der die größte Anzahl von Häufigkeiten besitzt, wird als tatsächliche Zeitverzögerung ausgewählt.
  • In Situationen, in denen ein reflektierter Weg der Schallsignale, die von der Quelle 2 ankommen, wahrscheinlich stärker ist als der direkte Weg, kann die vorstehend beschriebene Histogrammmethode modifiziert werden, indem großen positiven Spitzen mit Werten nahe einer Zeitverzögerung von Null Vorzug gegeben wird. Spitzen, die näher an einer Zeitverzögerung von Null liegen, entsprechen wahrscheinlicher dem direkten Weg. Folglich kann beispielsweise jedem Bereich von Zeitverzögerungen ein Gewicht zugewiesen werden, um die Auswahl der tatsächlichen Zeitverzögerung zugunsten der mittleren Zeitverzögerung, die sich aus dem Bereich ergibt, der eine große Anzahl von Häufigkeiten aufweist und der auch relativ nahe bei Null liegt, zu beeinflussen. Im Allgemeinen werden Bereichen von Zeitverzögerungen mit kleineren Größen höhere relative Gewichte zugewiesen als Bereichen von Zeitverzögerungen mit größeren Größen, obwohl die relativen Gewichte auf eine beliebige Weise zugewiesen werden können, die eine vorher bekannte Information berücksichtigt, um die Auswahl der Zeitverzögerung, wie gewünscht, zu beeinflussen.
  • Sobald das Zeitverzögerungssignal t erzeugt ist, kann der Peilwinkel der Quelle 2 relativ zu den Mikrophonen 10, 11 durch eine Richtungs- oder Positionsortungseinrichtung 80 gemäß
    Figure 00160001
    ermittelt werden, wobei v die Schallgeschwindigkeit ist, t die Zeitverzögerung ist und D der Abstand zwischen den Mikrophonen 10, 11 ist. Dieses Verfahren zum Abschätzen der Richtung der Schallquelle 2 basiert auf einer Fernfeldnäherung, wobei angenommen wird, dass die Schallsignale die Mikrophone 10, 11 in Form einer flachen oder ebenen Welle erreichen. 4 stellt die Geometrie des Peilwinkels θ in Bezug auf zwei Mikrophone A und B dar, die Schallsignale von einer Quelle C empfangen, wobei die Mikrophone A und B um einen Abstand D getrennt sind. Wenn die Annahme ebener Wellen für eine spezielle Anwendung nicht geeignet ist, dann können andere Verfahren zum Ermitteln der Richtung oder des Orts der Quelle 2 in Bezug auf die Mikrophone 10, 11 verwendet werden. Solche Verfahren können beispielsweise das Aufnehmen von zusätzlichen Mikrophonen in das System 1 und das Erzeugen von Verzögerungen, die der Differenz der Ankunftszeiten von Signalen an den zusätzlichen Paaren von Mikrophonen entsprechen, gemäß dem vorstehend beschriebenen Verfahren umfassen. Die mehreren Zeitverzögerungen können dann gemäß bekannten Verfahren verwendet werden, um die Richtung oder den Ort der Quelle 2 zu ermitteln.
  • Eine bevorzugte Anwendung der vorliegenden Erfindung liegt auf dem Gebiet eines Videokonferenzsystems, wie z. B. des in 5 dargestellten Systems 300. Das Videokonferenzsystem 300 weist zwei Stationen auf, die mit A und B bezeichnet sind und die entfernt voneinander angeordnet sind. Teilnehmer 320, 321 an der Station A stehen vorzugsweise mit den Teilnehmern 350, 351 an der Station B in Audio- und Videokommunikation. Ein jeweiliger Prozessor oder eine jeweilige Steuereinheit 301, 302 ist an jeder Station A und B vorgesehen, um die Verarbeitung und Übertragung der Audio- und Videodaten über ein Übertragungssystem 310 zu steuern. Das Übertragungssystem 310 kann beispielsweise ISDN- oder T1-Kommunikationsleitungen zur Übertragung der Audio- und Videosignale umfassen.
  • Um diese Kommunikation zu bewerkstelligen, ist ein Audiosystem zum Erfassen von Tönen an jeder Station vorgesehen, wobei Audiosignale, die diese Töne darstellen, zwischen den Stationen über das Übertragungssystem 310 übertragen werden und der an jeder Station erfasset Ton in der anderen Station wiedergegeben wird. Das Audiosystem umfasst ein Mikrophon 322 und Stereolautsprecher 331, 332 an der Station A und ein Mikrophon 352 und Lautsprecher 341, 342 an der Station B.
  • Das Videokonferenzsystem 300 umfasst auch vorzugsweise eine Zweiweg-Videokommunikation zwischen den Teilnehmern an den Stationen A und B. Für eine leichte Darstellung zeigt jedoch 5 nur die Videokommunikation von der Station A zur Station B. Um die Videokommunikation von der Station A zur Station B zu bewerkstelligen, umfasst die Station A ferner eine Videokamera 360, die durch eine Steuereinheit 301 gesteuert wird, wie nachstehend weiter erläutert. Die Videokamera 360 umfasst einen Kopfteil 362, der eine Kameralinse 363 enthält und Signale erzeugt, die Bilder an der Station A zur Übertragung zur Station B darstellen. Eine Mikrophongruppe 365, die mindestens zwei Mikrophone umfasst, ist der Videokamera 360 zugeordnet und überträgt erfasste akustische Daten zur Steuereinheit 301. Die Steuereinheit 301 umfasst vorzugsweise die Komponenten des Systems 1, die innerhalb der gestrichelten Linie von 1 gezeigt sind, zum Verarbeiten der von der Mikrophongruppe 365 empfangenen akustischen Daten. Die Station B umfasst eine Videoanzeige 361 zum Anzeigen von Videosignalen, die von der Station A empfangen werden.
  • Eine Anordnung der Mikrophongruppe 365 ist in 6 gezeigt, die vier Mikrophone 601, 602, 603, 604 umfasst. Insbesondere umfasst die Mikrophongruppe 365 vorzugsweise drei Mikrophone 601, 602, 603, die linear in der x-Richtung beispielsweise mit einem Abstand d1 zwischen den Mikrophonen 601, 602 und einem Abstand d2 zwischen den Mikrophonen 602, 603 angeordnet sind. Das vierte Mikrophon 604 ist vorzugsweise in einem Abstand d3 vom Mikrophon 602 in der y- Richtung angeordnet. Unter der Annahme, dass das Mikrophon 602 in (x', y', z') angeordnet ist, wäre das Mikrophon 601 folglich in (x' – d1, y', z') angeordnet, das Mikrophon 603 wäre in (x' + d2, y', z') angeordnet und das Mikrophon 604 wäre in (x', y' + d3, z') angeordnet. Die Steuereinheit 301 ist mit den bekannten Werten d1, d2 und d3 sowie mit der Position (x'', y'', z'') der Videokamera 360 relativ zur Position von einem der Mikrophone wie beispielsweise dem Mikrophon 602 vorprogrammiert.
  • Der Betrieb des Videokonferenzsystems 300 von 5 und 6 ist folgendermaßen. Wenn einer der Teilnehmer an der Station A zu sprechen beginnt, werden die von der Sprache des Teilnehmers erzeugten Schallsignale vom Mikrophon 322 erfasst, zur Steuereinheit 301 gesandt, wo sie auf bekannte Weise verarbeitet werden, und über das Übertragungssystem 310 zur Station B übertragen. An der Station B werden die empfangenen Schallsignale über die Lautsprecher 341, 342 wiedergegeben.
  • Die durch den sprechenden Teilnehmer erzeugten Schallsignale werden auch durch die Mikrophone 601604 in der Mikrophongruppe 365 erfasst. Die erfassten Signale werden zur Steuereinheit 301 gesandt, wo Signale von verschiedenen Paaren der Mikrophone 601604 vorzugsweise gemäß dem vorstehend mit Bezug auf 1-4 beschriebenen Verfahren verarbeitet werden. Durch Ermitteln der Peilwinkel entsprechend der Verzögerung der Ankunftszeiten von Schallsignalen an verschiedenen Paaren der Mikrophone 601604 wird die Richtung des sprechenden Teilnehmers ermittelt. Diese Information wird dann verwendet, um die Richtung der Kamera 360 automatisch auszurichten oder einzustellen.
  • Die an den Mikrophonen 601, 603 erfassten akustischen Daten können beispielsweise verwendet werden, um einen Peilwinkel in Bezug auf die x-Achse zu ermitteln. Sobald der Peilwinkel entlang der x-Achse ermittelt ist, schwenkt die Steuereinheit 301 automatisch den Kamerakopf 362 in der Richtung des sprechenden Teilnehmers unter Verwendung des Peilwinkels und der bekannten relativen Position der Kamera in Bezug auf die Mikrophone 601604. Ebenso können die an den Mikrophonen 602, 604 erfassten akustischen Daten verwendet werden, um den Peilwinkel in Bezug auf die y-Achse zu ermitteln. Sobald der Peilwinkel entlang der y-Achse ermittelt ist, neigt die Steuereinheit 301 automatisch den Kamerakopf 362 in der Richtung des sprechenden Teilnehmers unter Verwendung des Peilwinkels und der bekannten relativen Position der Kamera in Bezug auf die Mikrophone 601604. Durch geeignetes Schwenken und Neigen der Kamera 360 in Reaktion auf die berechneten Peilwinkel wird der sprechende Teilnehmer automatisch durch die Kamera eingerahmt.
  • Die Mikrophongruppenanordnung von 6 kann auch verwendet werden, wie nachstehend beschrieben, um die Position des sprechenden Teilnehmers entlang der z-Achse zu ermitteln. Die Steuereinheit 301 würde dann die Position des sprechenden Teilnehmers entlang der z-Achse verwenden, um die Kameralinse 363 automatisch zu zoomen, um beispielsweise den Kopf oder Oberkörper des sprechenden Teilnehmers einzurahmen.
  • Eine Ermittlung der Position des sprechenden Teilnehmers entlang der Z-Achse kann beispielsweise durch Ermitteln von zwei Peilwinkeln in Bezug auf eine der anderen Achsen wie z. B. die x-Achse durchgeführt werden. Wiederum werden die Peilwinkel vorzugsweise gemäß dem vorstehend in Bezug auf 1-4 beschriebenen Verfahren ermittelt. Ein erster Peilwinkel, der Daten entspricht, die am Paar von Mikrophonen 601, 602 erfasst werden, und ein zweiter Peilwinkel, der Daten entspricht, die am Paar von Mikrophonen 602, 603 erfasst werden, würden beispielsweise ermittelt werden. Sobald diese zwei Peilwinkel ermittelt sind, verwendet die Steuereinheit 301 diese Information zusammen mit den bekannten Positionen der Mikrophone 601, 602, 603, um den Schnittpunkt zwischen einer Linie, die ab dem Mittelpunkt der Mikrophone 601 und 602 beginnt, unter Verwendung des ersten Peilwinkels, und einer Linie, die ab dem Mittelpunkt der Mikrophone 602 und 603 beginnt, unter Verwendung des zweiten Peilwinkels zu ermitteln. Der Schnittpunkt stellt die Position des sprechenden Teilnehmers entlang der z-Achse dar. Die Steuereinheit 301 würde dann diese Information verwenden, um die Kameralinse 363 automatisch zu zoomen, um den sprechenden Teilnehmer einzurahmen.
  • Bei einer alternativen Anordnung umfasst die Mikrophongruppe 365 nur drei Mikrophone, wie z. B. die Mikrophone 601, 602 und 604. Bei dieser Implementierung würden akustische Daten, die an den Mikrophonen 601, 602 erfasst werden, verwendet werden, um einen Peilwinkel in Bezug auf die x-Achse zu ermitteln. Ebenso würden akustische Daten, die an den Mikrophonen 602, 604 erfasst werden, verwendet werden, um einen Peilwinkel in Bezug auf die y-Achse zu ermitteln. Die Peilwinkel können dann verwendet werden, um die Kamera zu schwenken, zu neigen oder zu zoomen, um den Sprecher geeignet einzurahmen. Während diese Implementierung nur drei Mikrophone verwendet, stellt die vorstehend beschriebene Implementierung unter Verwendung von vier Mikrophonen eine symmetrische Anordnung der Mikrophone bereit.
  • In einer bevorzugten Betriebsart wird das auf der Anzeige 361 angezeigte Bild während der Übergangsperiode, wenn die Videokamera 363 geschwenkt oder geneigt wird, eingefroren. Ein Vorteil des Einfrierens des angezeigten Bildes auf diese Weise besteht darin, dass es hilft, die verschwommenen Bilder, die typischerweise auf der Anzeige 361 an der Station B erscheinen, wenn die Kamera schwenkt oder sich neigt, zu beseitigen.
  • 7 zeigt die Schritte der Betriebsart, bei der das angezeigte Bild eingefroren wird, während die Kamera geschwenkt oder geneigt wird. Wenn die Videokamera 363 Videodaten erfasst, die zur Station B übertragen werden, werden den erfassten Videodaten entsprechende Bilder in im Wesentlichen Echtzeit auf der Anzeige 361 angezeigt, wie durch Schritt 701 angegeben. Wenn die Kamera 363 fortfährt, Videodaten zu erfassen, erfasst auch die Gruppe von Mikrophonen 365 einen Strom von akustischen Daten während mehrerer Zeitrahmen, wie durch Schritt 703 angegeben. Wie in Schritt 705 gezeigt, stellt die Steuereinheit 301 vorzugsweise gemäß dem vorstehend beschriebenen Verfahren fest, ob die während eines speziellen Zeitrahmens erfassten akustischen Daten den Beginn einer Sequenz von Schallsignalen von einem der Teilnehmer 320, 321 darstellen. Die Steuereinheit 301 würde dann die empfangenen Schallsignale, die die Sequenz von Signalen darstellen, identifizieren, wenn die Daten den Beginn der Sequenz darstellen, wie durch Schritt 707 angegeben. Wie durch Schritt 709 gezeigt, ermittelt die Steuereinheit 301 als nächstes die Richtung des Teilnehmers in Bezug auf die Videokamera 363 auf der Basis der empfangenen Schallsignale.
  • In Reaktion auf den Schritt 709 zum Ermitteln der Richtung des Teilnehmers wird die Videokamera 363 automatisch in Richtung des Teilnehmers ausgerichtet, indem die Kamera 363 dementsprechend geschwenkt und/oder geneigt wird, wie in Schritt 711 gezeigt. Gemäß diesem Ausführungsbeispiel wird jedoch, wenn die Videokamera 363 geschwenkt oder geneigt wird, ein Signal zur Steuereinheit 301 gesandt, um beispielsweise das Bild, das auf der Anzeige 361 in dem Vollbild, das direkt vor dem Schwenken oder Neigen der Kamera vorkommt, erscheint, einzufrieren. Wie durch Schritt 713 angegeben, wird das Bild vorzugsweise am angegebenen Vollbild eingefroren, bis die Videokamera die Bewegung stoppt. Um das Bild einzufrieren, kann ein Vollbildspeichervorgang, der in die Steuereinheit 301 integriert ist, verwendet werden. Alternativ kann eine anwendungsspezifische Hardware verwendet werden oder ein Videokompressionsdecodierer könnte das Vollbild einfrieren, um zusätzliche Hardwarekosten zu verringern. Wenn die Kamera 363 nicht mehr schwenkt oder sich neigt, werden die neuen Videodaten entsprechenden Bilder wieder auf der Anzeige 361 angezeigt, wie durch Schritt 715 angegeben.
  • Bei einer alternativen Betriebsart wird eine zweite Kamera 364 im System 300 von 5 bereitgestellt. Die Steuereinheit 301 würde auch die relative Position der Kamera 364 in Bezug auf die Mikrophone 601604 speichern. Die Kamera 360 könnte beispielsweise verwendet werden, um individuellen Sprechern zu folgen, indem sie geeignet geschwenkt und geneigt wird, wohingegen die Kamera 364 verwendet werden könnte, um eine Gruppe von Teilnehmern an der Station A einzurahmen. Wenn das System 300 bewirkt, dass die aktive Kamera 360 geschwenkt oder geneigt wird, würde das System 300 auf die Kamera 364 umschalten. Die Teilnehmer 350, 351 an der Station B würden folglich die Bilder von der Kamera 364 während des Zeitraums, in dem sich die Kamera 360 bewegt, sehen. Sobald die Kamera 360 die Bewegung stoppt, mit anderen Worten, sobald die Schwenk- und Neigungsfunktionen vollendet sind, würde das System 300 wieder auf die aktive Kamera 360 umschalten. In noch einer weiteren Betriebsart könnte die Kamera 364 auch verwendet werden, um durch geeignetes Schwenken und Neigen individuellen Sprechern zu folgen. Die Kameras 360, 364 würden so gesteuert werden, dass sich nur eine der Kameras 360, 364 zu irgendeiner gegebenen Zeit bewegt. Das System 300 würde dann kontinuierlich zwischen den Kameras 360, 364 umschalten, so dass das Videoausgangssignal der stationären Kamera zur Anzeige 361 an der Station B gesandt werden würde. Solche Betriebsarten, die mehr als eine Kamera verwenden, können scharfe, nicht verschwommene Übergänge ohne Vollbildeinfrieren erreichen.
  • Obwohl die Erfindung in Bezug auf spezielle Implementierungen beschrieben wurde, soll es selbstverständlich sein, dass Veränderungen und Modifikationen innerhalb des Gedankens und Schutzbereichs der Erfindung in Erwägung gezogen werden.

Claims (28)

  1. Verfahren zum Verarbeiten einer Sequenz von Schallsignalen, die von einer Schaltquelle ankommen, mit den Schritten: Erfassen von jeweiligen Strömen von akustischen Daten an einer Vielzahl von Orten während einer Vielzahl von Zeitrahmen (100); Feststellen, ob die akustischen Daten, die an irgendeinem der Orte während eines speziellen Zeitrahmens erfasst wurden, den Beginn der Sequenz von Schallsignalen darstellen, wobei das Feststellen das Untersuchen der Größe einer Vielzahl von Frequenzkomponenten von während des speziellen Zeitrahmens erfassten Signalen umfasst (120); Identifizieren von empfangenen Schallsignalen an mindestens zwei der Orte, die die Sequenz von Signalen darstellen, wenn die akustischen Daten an irgendeinem der Orte den Beginn der Sequenz darstellen; und Ermitteln einer Richtung der Quelle auf der Basis der identifizierten empfangenen Schallsignale (80).
  2. Verfahren nach Anspruch 1, wobei der Schritt des Untersuchens die Schritte umfasst: Feststellen für die Vielzahl von Frequenzen, ob die Größe jeder solchen Frequenzkomponente von Signalen, die während des speziellen Zeitrahmens erfasst werden, um mindestens einen ersten vorbestimmten Betrag größer ist als eine Hintergrundrauschenergie für diese Frequenz (120); und Feststellen für die Vielzahl von Frequenzen, ob die Größe jeder solchen Frequenzkomponente um mindestens einen zweiten vorbestimmten Betrag größer ist als die Größe von entsprechenden Frequenzkomponenten von Signalen, die während einer im Voraus festgelegten Anzahl von vorangehenden Zeitrahmen erfasst wurden (121).
  3. Verfahren nach Anspruch 2, wobei der Schritt des Identifizierens die Schritte umfasst: Identifizieren von Signalen, die Kreuzkorrelationen zwischen Signalen darstellen, die an der Vielzahl von Orten während des speziellen Zeitrahmens erfasst werden (130); und Subtrahieren eines entsprechenden Hintergrundrauschens von jedem der Signale, die die Kreuzkorrelationen darstellen (135).
  4. Verfahren nach Anspruch 2, wobei der Schritt des Identifizierens das Festellen für die Vielzahl von Frequenzen, ob die Größe von jeder solchen Frequenzkomponente der während des speziellen Zeitrahmens erfassten Signale mindestens eine erste vorbestimmte Anzahl von Malen größer ist als die Hintergrundrauschenergie für diese Frequenz (120), umfasst.
  5. Verfahren nach Anspruch 2, wobei der Schritt des Identifizierens das Feststellen für die Vielzahl von Frequenzen, ob die Größe von jeder solchen Frequenzkomponente der während des speziellen Zeitrahmens erfassten Signale zumindest eine zweite vorbestimmte Anzahl von Malen größer ist als die Größe der entsprechenden Frequenzkomponenten von Signalen, die während einer im Voraus festgelegten Anzahl von vorangehenden Zeitrahmen erfasst wurden (121), umfasst.
  6. Verfahren nach Anspruch 3, wobei der Schritt des Ermittelns der Richtung der Quelle den Schritt des Gewinnens einer Zeitverzögerung aus den erfassten Schallsignalen, die die Differenz von Ankunftszeiten der Sequenz von Schallsignalen an der Vielzahl von Mikrophonorten angibt, umfasst.
  7. Verfahren nach Anspruch 6, welches ferner die Schritte des Gewinnens einer Vielzahl von potentiellen Zeitverzögerungen aus den empfangenen Schallsignalen, von denen jede in einen von einer Vielzahl von Bereichen von Werten fällt, und des Auswählens einer tatsächlichen Zeitverzögerung auf der Basis der Anzahl von potentiellen Zeitverzögerungen, die in jeden Bereich fallen, und eines jedem Bereich zugewiesenen relativen Gewichts umfasst.
  8. Verfahren nach Anspruch 7, wobei Bereichen von potentiellen Zeitverzögerungen mit relativ kleinen Werten höhere relative Gewichte zugewiesen werden als Bereichen von potentiellen Zeitverzögerungen mit größeren Werten.
  9. Verfahren nach einem der Ansprüche 1 bis 8, welches ferner umfasst: automatisches Ausrichten einer Videokamera in Reaktion auf den Schritt des Ermittelns der Richtung der Quelle (711).
  10. Verfahren nach Anspruch 9, wobei der Schritt des Ausrichtens den Schritt des Schwenkens der Kamera in die Richtung der Quelle (711) umfasst.
  11. Verfahren nach Anspruch 9, wobei der Schritt des Zielens den Schritt des Neigens der Kamera in die Richtung der Quelle (711) umfasst.
  12. Verfahren nach Anspruch 9, welches ferner den Schritt des Feststellens des Orts der Quelle auf der Basis der empfangenen Schallsignale (160) umfasst.
  13. Verfahren nach Anspruch 12, welches ferner den Schritt des automatischen Zoomens einer Linse der Kamera, um die Quelle zu umrahmen, in Reaktion auf den Schritt des Ermittelns des Orts der Quelle umfasst.
  14. Vorrichtung zum Verarbeiten einer Sequenz von Schallsignalen, die von einer Schallquelle ankommen, mit: einer Vielzahl von Wandlern (10, 11, 601, 602, 603, 604) zum Erfassen eines Stroms von akustischen Daten während einer Vielzahl von Zeitrahmen; einem Mittel zum Feststellen, ob die an irgendeinem der Wandler während eines speziellen Zeitrahmens erfassten akustischen Daten den Beginn der Sequenz von Schallsignalen (50) darstellen; einem Mittel zum Identifizieren von an mindestens zwei der Orte empfangenen Schallsignalen, die die Sequenz von Signalen darstellen, wenn die akustischen Daten an irgendeinem der Orte den Beginn der Sequenz (50) darstellen; und einem Mittel (80) zum Ermitteln einer Richtung der Quelle auf der Basis der identifizierten empfangenen Schallsignale; wobei das Mittel zum Feststellen, ob die erfassten akustischen Daten den Beginn der Sequenz von Schallsignalen darstellen, aufweist: eine Hintergrundrauschenergie-Abschätzeinrichtung (35); ein erstes Mittel (25) zum Feststellen für eine Vielzahl von Frequenzen, ob die Größe jeder solchen Frequenzkomponente von während des speziellen Zeitrahmens erfassten Signalen um mindestens einen ersten vorbestimmten Betrag größer ist als eine Hintergrundrauschenergie für diese Frequenz; und ein zweites Mittel (24) zum Feststellen für die Vielzahl von Frequenzen, ob die Größe jeder solchen Frequenzkomponente um mindestens einen zweiten vorbestimmten Betrag größer ist als die Größe von entsprechenden Frequenzkomponenten von während einer im Voraus festgelegten Anzahl von vorangehenden Zeitrahmen erfassten Signalen.
  15. Vorrichtung nach Anspruch 14, wobei das Mittel zum Identifizieren ein Mittel (25) zum Feststellen für die Vielzahl von Frequenzen, ob die Größe jeder solchen Frequenzkomponente der während des speziellen Zeitrahmens erfassten Signale mindestens um eine erste vorbestimmte Anzahl von Malen größer ist als die Hintergrundrauschenergie für diese Frequenz, aufweist.
  16. Vorrichtung nach Anspruch 14, wobei das Mittel zum Identifizieren ein Mittel (24) zum Feststellen für die Vielzahl von Frequenzen, ob die Größe jeder solchen Frequenzkomponente der während des speziellen Zeitrahmens erfassten Signale mindestens eine zweite vorbestimmte Anzahl von Malen größer ist als die Größe von entsprechenden Frequenzkomponenten von während einer im Voraus festgelegten Anzahl von vorangehenden Zeitrahmen erfassten Signalen, aufweist.
  17. Vorrichtung nach Anspruch 14, wobei das Mittel zum Identifizieren aufweist: ein Mittel (40) zum Identifizieren von Signalen, die Kreuzkorrelationen zwischen an der Vielzahl von Wandlern während des speziellen Zeitrahmens erfassten Signalen darstellen; und einen Differenzierer (50) zum Subtrahieren eines entsprechenden Hintergrundrauschens von jedem der Signale, die die Kreuzkorrelationen darstellen.
  18. Vorrichtung nach Anspruch 17, wobei das Mittel zum Ermitteln der Richtung der Quelle ein Mittel (50) zum Gewinnen einer Zeitverzögerung aus den erfassten Schallsignalen, die die Differenz der Ankunftszeiten der Sequenz von Schallsignalen an der Vielzahl von Mikrophonstellen angibt, aufweist.
  19. Vorrichtung nach Anspruch 18, welche ferner ein Mittel zum Gewinnen einer Vielzahl von potentiellen Zeitverzögerungen aus den empfangenen Schallsignalen, von denen jede in einen von einer Vielzahl von Bereichen von Werten fällt, und ein Mittel zum Auswählen einer tatsächlichen Zeitverzögerung auf der Basis der Anzahl von potentiellen Zeitverzögerungen, die in jeden Bereich fallen, und eines jedem Bereich zugewiesenen relativen Gewichts aufweist.
  20. Vorrichtung nach Anspruch 19, wobei den Bereichen von potentiellen Zeitverzögerungen mit relativ kleinen Werten höhere relative Gewichte zugewiesen werden als Bereichen von potentiellen Zeitverzögerungen mit größeren Werten.
  21. Vorrichtung nach einem der Ansprüche 14 bis 20, welche ferner eine Videokamera aufweist, wobei die Videokamera in Reaktion auf Signale, die vom Mittel zum Ermitteln der Richtung der Quelle (360) empfangen werden, automatisch in die Richtung der Quelle gerichtet wird.
  22. Vorrichtung nach Anspruch 21, wobei die Kamera in Reaktion auf die Signale, die vom Mittel zum Ermitteln der Richtung der Quelle (711) empfangen werden, automatisch in die Richtung der Quelle geschwenkt wird.
  23. Vorrichtung nach Anspruch 21, wobei die Kamera in Reaktion auf die Signale, die vom Mittel zum Ermitteln der Richtung der Quelle (711) empfangen werden, automatisch in die Richtung der Quelle geneigt wird.
  24. Vorrichtung nach Anspruch 21, wobei die Vielzahl von Wandlern mindestens drei Wandler (10, 11, 601, 602, 603, 604) umfassen.
  25. Vorrichtung nach Anspruch 24, wobei der erste Wandler (601) vom zweiten Wandler (602) entlang einer ersten Achse (d1–d2) verschoben ist und der dritte Wandler (603) vom zweiten Wandler (602) entlang einer zur ersten Achse senkrechten zweiten Achse (d3) verschoben ist; akustische Daten, die vom ersten und vom zweiten Wandler erfasst werden, verwendet werden, um die Richtung der Quelle in Bezug auf die erste Achse zu ermitteln, und akustische Daten, die vom zweiten und vom dritten Wandler erfasst werden, verwendet werden, um die Richtung der Quelle in Bezug auf die zweite Achse zu ermitteln; und die Videokamera (360) in Reaktion auf die vom Mittel zum Ermitteln der Richtung der Quelle empfangenen Signale automatisch in die Richtung der Quelle geschwenkt und geneigt wird.
  26. Vorrichtung nach Anspruch 24, welche ferner einen vierten Wandler (604) zum Erfassen eines Stroms von akustischen Daten während der Vielzahl von Zeitrahmen aufweist, wobei der erste, der zweite und der dritte Wandler (601, 602, 603) entlang einer ersten Achse (d1–d2) angeordnet sind, wobei sich der zweite Wandler zwischen dem ersten und dem dritten Wandler befindet, und der vierte Wandler vom zweiten Wandler entlang einer zur ersten Achse senkrechten zweiten Achse (d3) verschoben ist; akustische Daten, die vom ersten und vom dritten Wandler erfasst werden, verwendet werden, um die Richtung der Quelle in Bezug auf die erste Achse zu ermitteln, und akustische Daten, die vom zweiten und vom vierten Wandler erfasst werden, verwendet werden, um die Richtung der Quelle in Bezug auf die zweite Achse zu ermitteln; und die Videokamera (360) in Reaktion auf die vom Mittel zum Ermitteln der Richtung der Quelle empfangenen Signale automatisch in die Richtung der Quelle geschwenkt und geneigt wird.
  27. Vorrichtung nach Anspruch 26, welche ferner aufweist: ein Mittel zum Ermitteln der Position der Quelle, wobei akustische Daten, die durch drei der vier Wandler erfasst werden, verwendet werden, um die Position der Quelle zu ermitteln; und wobei die Kamera (360) in Reaktion auf Signale, die vom Mittel zum Ermitteln der Position der Quelle empfangen werden, automatisch gezoomt wird, um die Quelle zu rahmen.
  28. Verfahren zum Betreiben eines Systems mit zumindest einer ersten und einer zweiten Videokamera zur Verwendung bei einer Videokonferenz, wobei das Verfahren umfasst: Anzeigen von Bildern auf einer Anzeige, die Videodaten entsprechen, die von der ersten Videokamera aufgenommen werden (701); Erfassen eines Stroms von akustischen Daten, einschließlich einer Sequenz von Schallsignalen, von einer Quelle während einer Vielzahl von Zeitrahmen (703); Feststellen, ob die während eines speziellen Zeitrahmens erfassten akustischen Daten den Beginn der Sequenz von Schallsignalen darstellen, wobei das Ermitteln (705) umfasst: Untersuchen der Größe einer Vielzahl von Frequenzkomponenten der während des speziellen Zeitrahmens erfassten Signale; Feststellen für die Vielzahl von Frequenzen, ob die Größe jeder solchen Frequenzkomponente von Signalen, die während des speziellen Zeitrahmens erfasst werden, mindestens um einen ersten vorbestimmten Betrag größer ist als eine Hintergrundrauschenergie für diese Frequenz (120); Feststellen für die Vielzahl von Frequenzen, ob die Größe jeder solchen Frequenzkomponente um mindestens einen zweiten vorbestimmten Betrag größer ist als die Größe von entsprechenden Frequenzkomponenten von während einer im Voraus festgelegten Anzahl von vorangehenden Zeitrahmen erfassten Signalen (121); Identifizieren von empfangenen Schallsignalen, die die Sequenz von Signalen darstellen, wenn die Daten den Beginn der Sequenz darstellen (707); Ermitteln der Richtung der Quelle auf der Basis der empfangenen Schallsignale (160, 709); automatisches Ausrichten der ersten Videokamera in Reaktion auf das Ermitteln der Richtung durch Neigen oder Schwenken der Videokamera (711); und Anzeigen von Bildern auf der Anzeige, die Videodaten entsprechen, die von der zweiten Videokamera während des Zeitraums aufgenommen werden, in dem die erste Videokamera sich neigt oder schwenkt (701).
DE69738195T 1996-06-14 1997-05-08 Verfahren und vorrichtung zur ortung einer akustischen quelle Expired - Lifetime DE69738195T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/663,670 US5778082A (en) 1996-06-14 1996-06-14 Method and apparatus for localization of an acoustic source
US663670 1996-06-14
PCT/US1997/007850 WO1997048252A1 (en) 1996-06-14 1997-05-08 Method and apparatus for localization of an acoustic source

Publications (2)

Publication Number Publication Date
DE69738195D1 DE69738195D1 (de) 2007-11-22
DE69738195T2 true DE69738195T2 (de) 2008-07-10

Family

ID=24662821

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69738195T Expired - Lifetime DE69738195T2 (de) 1996-06-14 1997-05-08 Verfahren und vorrichtung zur ortung einer akustischen quelle

Country Status (6)

Country Link
US (1) US5778082A (de)
EP (1) EP0903055B1 (de)
JP (1) JP3672320B2 (de)
CA (1) CA2257444C (de)
DE (1) DE69738195T2 (de)
WO (1) WO1997048252A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220146617A1 (en) * 2020-11-10 2022-05-12 Amazon Technologies, Inc. System to determine direction toward user

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5959667A (en) * 1996-05-09 1999-09-28 Vtel Corporation Voice activated camera preset selection system and method of operation
JP3541339B2 (ja) * 1997-06-26 2004-07-07 富士通株式会社 マイクロホンアレイ装置
US5900907A (en) * 1997-10-17 1999-05-04 Polycom, Inc. Integrated videoconferencing unit
JP3157769B2 (ja) * 1998-03-02 2001-04-16 静岡日本電気株式会社 Tv音声制御装置
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
IT1306261B1 (it) * 1998-07-03 2001-06-04 Antonio Messina Procedimento ed apparato per la guida automatica di videocameremediante microfoni.
GB2342802B (en) * 1998-10-14 2003-04-16 Picturetel Corp Method and apparatus for indexing conference content
US6618073B1 (en) * 1998-11-06 2003-09-09 Vtel Corporation Apparatus and method for avoiding invalid camera positioning in a video conference
US6469732B1 (en) 1998-11-06 2002-10-22 Vtel Corporation Acoustic source location using a microphone array
JP4467802B2 (ja) * 1998-11-11 2010-05-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改善された信号定位装置
DE19854373B4 (de) * 1998-11-25 2005-02-24 Robert Bosch Gmbh Verfahren zur Steuerung der Empfindlichkeit eines Mikrofons
US6504926B1 (en) 1998-12-15 2003-01-07 Mediaring.Com Ltd. User control system for internet phone quality
US6408327B1 (en) * 1998-12-22 2002-06-18 Nortel Networks Limited Synthetic stereo conferencing over LAN/WAN
US6185152B1 (en) 1998-12-23 2001-02-06 Intel Corporation Spatial sound steering system
US6321194B1 (en) 1999-04-27 2001-11-20 Brooktrout Technology, Inc. Voice detection in audio signals
US6405163B1 (en) * 1999-09-27 2002-06-11 Creative Technology Ltd. Process for removing voice from stereo recordings
US6243322B1 (en) 1999-11-05 2001-06-05 Wavemakers Research, Inc. Method for estimating the distance of an acoustic signal
DE19963102A1 (de) * 1999-12-24 2001-06-28 Thomson Brandt Gmbh Bildfernsprechvorrichtung
EP1226578A4 (de) * 1999-12-31 2005-09-21 Octiv Inc Techniken zur verbesserung der klarheit und verständlichkeit von mit verminderten bitraten übertragenden audiosignalen in einem digitalen netzwerk
US20020031234A1 (en) * 2000-06-28 2002-03-14 Wenger Matthew P. Microphone system for in-car audio pickup
US20020075965A1 (en) * 2000-12-20 2002-06-20 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
US7039198B2 (en) * 2000-11-10 2006-05-02 Quindi Acoustic source localization system and method
US20030023429A1 (en) * 2000-12-20 2003-01-30 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
GB2375698A (en) 2001-02-07 2002-11-20 Canon Kk Audio signal processing apparatus
US20020140804A1 (en) * 2001-03-30 2002-10-03 Koninklijke Philips Electronics N.V. Method and apparatus for audio/image speaker detection and locator
DE10119266A1 (de) * 2001-04-20 2002-10-31 Infineon Technologies Ag Programmgesteuerte Einheit
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
JP3771812B2 (ja) * 2001-05-28 2006-04-26 インターナショナル・ビジネス・マシーンズ・コーポレーション ロボットおよびその制御方法
US6937266B2 (en) * 2001-06-14 2005-08-30 Microsoft Corporation Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network
GB0120450D0 (en) * 2001-08-22 2001-10-17 Mitel Knowledge Corp Robust talker localization in reverberant environment
US6801632B2 (en) 2001-10-10 2004-10-05 Knowles Electronics, Llc Microphone assembly for vehicular installation
US20030072456A1 (en) * 2001-10-17 2003-04-17 David Graumann Acoustic source localization by phase signature
US6980485B2 (en) * 2001-10-25 2005-12-27 Polycom, Inc. Automatic camera tracking using beamforming
US6795794B2 (en) * 2002-03-01 2004-09-21 The Board Of Trustees Of The University Of Illinois Method for determination of spatial target probability using a model of multisensory processing by the brain
US20040114772A1 (en) * 2002-03-21 2004-06-17 David Zlotnick Method and system for transmitting and/or receiving audio signals with a desired direction
US6912178B2 (en) * 2002-04-15 2005-06-28 Polycom, Inc. System and method for computing a location of an acoustic source
US7146014B2 (en) * 2002-06-11 2006-12-05 Intel Corporation MEMS directional sensor system
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
US7444068B2 (en) * 2002-06-28 2008-10-28 Hewlett-Packard Development Company, L.P. System and method of manual indexing of image data
JP3910898B2 (ja) * 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
US7433462B2 (en) * 2002-10-31 2008-10-07 Plantronics, Inc Techniques for improving telephone audio quality
KR101014404B1 (ko) * 2002-11-15 2011-02-15 소니 주식회사 오디오신호의 처리방법 및 처리장치
US7606372B2 (en) * 2003-02-12 2009-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for determining a reproduction position
DE10305820B4 (de) * 2003-02-12 2006-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition
FI118247B (fi) * 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
NO318096B1 (no) 2003-05-08 2005-01-31 Tandberg Telecom As Arrangement og fremgangsmate for lokalisering av lydkilde
US7035757B2 (en) 2003-05-09 2006-04-25 Intel Corporation Three-dimensional position calibration of audio sensors and actuators on a distributed computing platform
JP4839838B2 (ja) * 2003-12-12 2011-12-21 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
GB0405455D0 (en) * 2004-03-11 2004-04-21 Mitel Networks Corp High precision beamsteerer based on fixed beamforming approach beampatterns
US7126816B2 (en) * 2004-03-12 2006-10-24 Apple Computer, Inc. Camera latch
WO2005109951A1 (en) * 2004-05-05 2005-11-17 Deka Products Limited Partnership Angular discrimination of acoustical or radio signals
US7522736B2 (en) * 2004-05-07 2009-04-21 Fuji Xerox Co., Ltd. Systems and methods for microphone localization
US20050285935A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Personal conferencing node
US20050286443A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Conferencing system
US7623156B2 (en) * 2004-07-16 2009-11-24 Polycom, Inc. Natural pan tilt zoom camera motion to preset camera positions
US7720232B2 (en) * 2004-10-15 2010-05-18 Lifesize Communications, Inc. Speakerphone
US7760887B2 (en) * 2004-10-15 2010-07-20 Lifesize Communications, Inc. Updating modeling information based on online data gathering
US7970151B2 (en) * 2004-10-15 2011-06-28 Lifesize Communications, Inc. Hybrid beamforming
US7720236B2 (en) * 2004-10-15 2010-05-18 Lifesize Communications, Inc. Updating modeling information based on offline calibration experiments
US7903137B2 (en) * 2004-10-15 2011-03-08 Lifesize Communications, Inc. Videoconferencing echo cancellers
US8116500B2 (en) * 2004-10-15 2012-02-14 Lifesize Communications, Inc. Microphone orientation and size in a speakerphone
US7826624B2 (en) * 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US20060132595A1 (en) * 2004-10-15 2006-06-22 Kenoyer Michael L Speakerphone supporting video and audio features
US7817805B1 (en) 2005-01-12 2010-10-19 Motion Computing, Inc. System and method for steering the directional response of a microphone to a moving acoustic source
US7995768B2 (en) * 2005-01-27 2011-08-09 Yamaha Corporation Sound reinforcement system
EP1705911A1 (de) * 2005-03-24 2006-09-27 Alcatel Videokonferenzsystem
US7646876B2 (en) * 2005-03-30 2010-01-12 Polycom, Inc. System and method for stereo operation of microphones for video conferencing system
US7970150B2 (en) * 2005-04-29 2011-06-28 Lifesize Communications, Inc. Tracking talkers using virtual broadside scan and directed beams
US7593539B2 (en) * 2005-04-29 2009-09-22 Lifesize Communications, Inc. Microphone and speaker arrangement in speakerphone
US7991167B2 (en) * 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
JP2007019907A (ja) 2005-07-08 2007-01-25 Yamaha Corp 音声伝達システム、および通信会議装置
WO2007058130A1 (ja) * 2005-11-15 2007-05-24 Yamaha Corporation 遠隔会議装置及び放収音装置
US7864210B2 (en) * 2005-11-18 2011-01-04 International Business Machines Corporation System and methods for video conferencing
US8130977B2 (en) * 2005-12-27 2012-03-06 Polycom, Inc. Cluster of first-order microphones and method of operation for stereo input of videoconferencing system
US8072481B1 (en) * 2006-03-18 2011-12-06 Videotronic Systems Telepresence communication system
JP4816221B2 (ja) * 2006-04-21 2011-11-16 ヤマハ株式会社 収音装置および音声会議装置
US8024189B2 (en) 2006-06-22 2011-09-20 Microsoft Corporation Identification of people using multiple types of input
AU2007221976B2 (en) * 2006-10-19 2009-12-24 Polycom, Inc. Ultrasonic camera tracking system and associated methods
US20080101624A1 (en) * 2006-10-24 2008-05-01 Motorola, Inc. Speaker directionality for user interface enhancement
WO2008056649A1 (fr) * 2006-11-09 2008-05-15 Panasonic Corporation Détecteur de position de source sonore
US8289363B2 (en) 2006-12-28 2012-10-16 Mark Buckler Video conferencing
NO328582B1 (no) * 2006-12-29 2010-03-22 Tandberg Telecom As Mikrofon for lydkildesporing
JP4403429B2 (ja) * 2007-03-08 2010-01-27 ソニー株式会社 信号処理装置、信号処理方法、プログラム
TWI327230B (en) * 2007-04-03 2010-07-11 Ind Tech Res Inst Sound source localization system and sound soure localization method
CN100505837C (zh) * 2007-05-10 2009-06-24 华为技术有限公司 一种控制图像采集装置进行目标定位的系统及方法
CN101690149B (zh) * 2007-05-22 2012-12-12 艾利森电话股份有限公司 用于群组声音远程通信的方法和装置
US8767975B2 (en) * 2007-06-21 2014-07-01 Bose Corporation Sound discrimination method and apparatus
NO327899B1 (no) * 2007-07-13 2009-10-19 Tandberg Telecom As Fremgangsmate og system for automatisk kamerakontroll
US8611554B2 (en) * 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
US20100008515A1 (en) * 2008-07-10 2010-01-14 David Robert Fulton Multiple acoustic threat assessment system
EP2159593B1 (de) * 2008-08-26 2012-05-02 Nuance Communications, Inc. Verfahren und Vorrichtung zum Lokalisieren einer Schallquelle
CN101350931B (zh) * 2008-08-27 2011-09-14 华为终端有限公司 音频信号的生成、播放方法及装置、处理系统
US20100123785A1 (en) * 2008-11-17 2010-05-20 Apple Inc. Graphic Control for Directional Audio Input
TWI402531B (zh) * 2009-06-29 2013-07-21 Univ Nat Cheng Kung 音源辨位方法與應用此音源辨位方法之音源辨位系統和電腦程式產品
TWI417563B (zh) * 2009-11-20 2013-12-01 Univ Nat Cheng Kung 遠距離音源定位晶片裝置及其方法
TWI396862B (zh) * 2009-12-04 2013-05-21 Teco Elec & Machinery Co Ltd 聲源定位系統、方法及電腦可讀取儲存媒體
US8248448B2 (en) 2010-05-18 2012-08-21 Polycom, Inc. Automatic camera framing for videoconferencing
US9723260B2 (en) 2010-05-18 2017-08-01 Polycom, Inc. Voice tracking camera with speaker identification
US8842161B2 (en) 2010-05-18 2014-09-23 Polycom, Inc. Videoconferencing system having adjunct camera for auto-framing and tracking
US8395653B2 (en) 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras
DE102010026381A1 (de) * 2010-07-07 2012-01-12 Siemens Medical Instruments Pte. Ltd. Verfahren zum Lokalisieren einer Audioquelle und mehrkanaliges Hörsystem
TW201208335A (en) * 2010-08-10 2012-02-16 Hon Hai Prec Ind Co Ltd Electronic device
US8938078B2 (en) * 2010-10-07 2015-01-20 Concertsonics, Llc Method and system for enhancing sound
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
EP2448265A1 (de) 2010-10-26 2012-05-02 Google, Inc. Lippensynchronisation in einer Videokonferenz
JP5516455B2 (ja) * 2011-02-23 2014-06-11 トヨタ自動車株式会社 接近車両検出装置及び接近車両検出方法
US9084036B2 (en) * 2011-05-17 2015-07-14 Alcatel Lucent Signal source localization using compressive measurements
US9030520B2 (en) * 2011-06-20 2015-05-12 Polycom, Inc. Automatic camera selection for videoconferencing
US9210302B1 (en) 2011-08-10 2015-12-08 Google Inc. System, method and apparatus for multipoint video transmission
JP6001248B2 (ja) * 2011-09-20 2016-10-05 トヨタ自動車株式会社 音源検出装置
JP5772447B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析装置
JP5867066B2 (ja) * 2011-12-26 2016-02-24 富士ゼロックス株式会社 音声解析装置
JP2013135325A (ja) * 2011-12-26 2013-07-08 Fuji Xerox Co Ltd 音声解析装置
JP6031761B2 (ja) * 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
JP6031767B2 (ja) * 2012-01-23 2016-11-24 富士ゼロックス株式会社 音声解析装置、音声解析システムおよびプログラム
CN102547209B (zh) * 2012-02-06 2015-07-22 华为技术有限公司 视讯设备控制方法、装置及视讯系统
US8917309B1 (en) 2012-03-08 2014-12-23 Google, Inc. Key frame distribution in video conferencing
US9282405B2 (en) 2012-04-24 2016-03-08 Polycom, Inc. Automatic microphone muting of undesired noises by microphone arrays
US8791982B1 (en) 2012-06-27 2014-07-29 Google Inc. Video multicast engine
CN102819009B (zh) * 2012-08-10 2014-10-01 香港生产力促进局 用于汽车的驾驶者声源定位系统及方法
JP2016502294A (ja) * 2012-10-01 2016-01-21 リボルブ ロボティクス インク ロボットスタンドならびにビデオ会議中にスタンドを制御するためのシステムおよび方法
US8957940B2 (en) 2013-03-11 2015-02-17 Cisco Technology, Inc. Utilizing a smart camera system for immersive telepresence
WO2014139152A1 (en) * 2013-03-15 2014-09-18 Intel Corporation Device and method for device-to-device angle detection with ultrasound and wireless signal
WO2015042897A1 (zh) * 2013-09-29 2015-04-02 中兴通讯股份有限公司 一种控制方法、控制装置及控制设备
US10009676B2 (en) 2014-11-03 2018-06-26 Storz Endoskop Produktions Gmbh Voice control system with multiple microphone arrays
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US9747367B2 (en) 2014-12-05 2017-08-29 Stages Llc Communication system for establishing and providing preferred audio
US9654868B2 (en) 2014-12-05 2017-05-16 Stages Llc Multi-channel multi-domain source identification and tracking
US9508335B2 (en) 2014-12-05 2016-11-29 Stages Pcs, Llc Active noise control and customized audio system
US10694304B2 (en) * 2015-06-26 2020-06-23 Intel Corporation Phase response mismatch correction for multiple microphones
US9609275B2 (en) 2015-07-08 2017-03-28 Google Inc. Single-stream transmission method for multi-user video conferencing
CN108140397A (zh) * 2015-09-29 2018-06-08 斯瓦恩技术有限公司 用于动物分娩操作的报警系统
US10735870B2 (en) 2016-04-07 2020-08-04 Sonova Ag Hearing assistance system
US10382929B2 (en) * 2016-04-17 2019-08-13 Sonular Ltd. Communication management and communicating between a mobile communication device and another device
US10063987B2 (en) 2016-05-31 2018-08-28 Nureva Inc. Method, apparatus, and computer-readable media for focussing sound signals in a shared 3D space
US9980075B1 (en) 2016-11-18 2018-05-22 Stages Llc Audio source spatialization relative to orientation sensor and output
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US9980042B1 (en) 2016-11-18 2018-05-22 Stages Llc Beamformer direction of arrival and orientation analysis system
US11627721B2 (en) * 2017-12-29 2023-04-18 Swinetech, Inc. Improving detection, prevention, and reaction in a warning system for animal farrowing operations
GB2572368A (en) * 2018-03-27 2019-10-02 Nokia Technologies Oy Spatial audio capture
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
CN112544089B (zh) 2018-06-07 2023-03-28 索诺瓦公司 提供具有空间背景的音频的麦克风设备
CN111213365A (zh) * 2018-08-17 2020-05-29 深圳市大疆创新科技有限公司 拍摄控制方法及控制器
US10447970B1 (en) 2018-11-26 2019-10-15 Polycom, Inc. Stereoscopic audio to visual sound stage matching in a teleconference
WO2020154802A1 (en) 2019-01-29 2020-08-06 Nureva Inc. Method, apparatus and computer-readable media to create audio focus regions dissociated from the microphone system for the purpose of optimizing audio processing at precise spatial locations in a 3d space.
US11019219B1 (en) * 2019-11-25 2021-05-25 Google Llc Detecting and flagging acoustic problems in video conferencing
CN116249914A (zh) 2020-09-11 2023-06-09 福禄克公司 利用累积时间视图进行声学成像的系统和方法
US11570558B2 (en) 2021-01-28 2023-01-31 Sonova Ag Stereo rendering systems and methods for a microphone assembly with dynamic tracking
TWI811685B (zh) * 2021-05-21 2023-08-11 瑞軒科技股份有限公司 會議室系統及音訊處理方法
US11681008B2 (en) 2021-07-19 2023-06-20 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for modifying signals to determine an incidence angle of an acoustic wave
CN115015939B (zh) * 2022-05-31 2024-06-21 湖南大学 一种声学感知系统及增大声学感知范围的方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3944736A (en) * 1974-06-05 1976-03-16 General Electric Company Voice-operated switching circuit for a video communications system
US4581758A (en) * 1983-11-04 1986-04-08 At&T Bell Laboratories Acoustic direction identification system
US4741038A (en) * 1986-09-26 1988-04-26 American Telephone And Telegraph Company, At&T Bell Laboratories Sound location arrangement
JPH0771279B2 (ja) * 1988-08-17 1995-07-31 富士通株式会社 テレビ会議用画像処理装置
US4965819A (en) * 1988-09-22 1990-10-23 Docu-Vision, Inc. Video conferencing system for courtroom and other applications
US5206721A (en) * 1990-03-08 1993-04-27 Fujitsu Limited Television conference system
US5058419A (en) * 1990-04-10 1991-10-22 Earl H. Ruble Method and apparatus for determining the location of a sound source
JP2630041B2 (ja) * 1990-08-29 1997-07-16 日本電気株式会社 テレビ会議画像表示制御方法
IT1257164B (it) * 1992-10-23 1996-01-05 Ist Trentino Di Cultura Procedimento per la localizzazione di un parlatore e l'acquisizione diun messaggio vocale, e relativo sistema.
US5335011A (en) * 1993-01-12 1994-08-02 Bell Communications Research, Inc. Sound localization system for teleconferencing using self-steering microphone arrays
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
WO1995002288A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation Reduction of background noise for speech enhancement
CA2148631C (en) * 1994-06-20 2000-06-13 John J. Hildin Voice-following video system
US5737431A (en) * 1995-03-07 1998-04-07 Brown University Research Foundation Methods and apparatus for source location estimation from microphone-array time-delay estimates

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220146617A1 (en) * 2020-11-10 2022-05-12 Amazon Technologies, Inc. System to determine direction toward user
US11714157B2 (en) * 2020-11-10 2023-08-01 Amazon Technologies, Inc. System to determine direction toward user

Also Published As

Publication number Publication date
DE69738195D1 (de) 2007-11-22
CA2257444C (en) 2004-03-23
WO1997048252A1 (en) 1997-12-18
CA2257444A1 (en) 1997-12-18
JP3672320B2 (ja) 2005-07-20
EP0903055B1 (de) 2007-10-10
JP2000512108A (ja) 2000-09-12
EP0903055A1 (de) 1999-03-24
EP0903055A4 (de) 2000-12-13
US5778082A (en) 1998-07-07

Similar Documents

Publication Publication Date Title
DE69738195T2 (de) Verfahren und vorrichtung zur ortung einer akustischen quelle
DE69920138T2 (de) Videokonferenzsystem mit tonquellelokalisierung
DE602005006331T2 (de) Schallquellensignal-Trennvorrichtung und-Trennverfahren
DE69732329T2 (de) Verfahren und Vorrichtung zur Trennung einer Schallquelle, Medium mit aufgezeichnetem Programm dafür, Verfahren und Vorrichtung einer Schallquellenzone und Medium mit aufgezeichnetem Programm dafür
DE69904822T2 (de) Verfahren und Anordnung zur Aufnahme von Schallsignalen
DE69434568T2 (de) Mikrofonsystem für telekonferenzsystem
DE19983806B4 (de) Ein die diskrete Wavelet-Transformation verwendender Autofokus-Algorithmus
DE69908463T2 (de) Verfahren und Einrichtung zur mehrkanaligen Kompensation eines akustischen Echos
EP1977626B1 (de) Verfahren zur aufnahme einer tonquelle mit zeitlich variabler richtcharakteristik und zur wiedergabe
DE60125553T2 (de) Verfahren zur interferenzunterdrückung
DE69605948T2 (de) Multimediakommunikation mit vom system abhängigen adaptiven verzögerungen
DE602004006967T2 (de) Telefonkonferenzverfahren und telefonkonferenzsystem
DE69326751T2 (de) Bewegtbildkodierer
DE69630121T2 (de) Bildkompressionssystem
DE69637203T2 (de) Mikrofonauswahlverfahren zur Anwendung in einem sprachgesteuerten Mehrmikrofonvermittlungssystem
DE69328602T2 (de) Schaltungen zur Rauschunterdrückung
DE69322423T2 (de) Vorrichtung zur Detektion von Bewegungsvektoren
DE2937282C2 (de)
EP1005250A2 (de) Verfahren zur Steuerung der Empfindlichkeit eines Mikrofons
DE60319796T2 (de) Rauschreduzierung und audiovisuelle Sprachaktivitätsdetektion
DE102012214611B4 (de) Verbesserte Tonqualität bei Telefonkonferenzen
DE69836152T2 (de) System und verfahren zur faktorisierung eines zusammengestellten wellenfelds in unabhängigen komponenten
DE69605229T2 (de) Verfahren und Vorrichtung zur Belichtung bei Videokonferenzen
EP1489842B1 (de) Verfahren und Vorrichtung zur bewegungsvektorgestützten Bildpunktinterpolation
DE69911964T2 (de) Leistungsmessung von fernmeldesystemen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition