DE10320209B4 - Audiosignal-Erkennungssystem - Google Patents

Audiosignal-Erkennungssystem Download PDF

Info

Publication number
DE10320209B4
DE10320209B4 DE2003120209 DE10320209A DE10320209B4 DE 10320209 B4 DE10320209 B4 DE 10320209B4 DE 2003120209 DE2003120209 DE 2003120209 DE 10320209 A DE10320209 A DE 10320209A DE 10320209 B4 DE10320209 B4 DE 10320209B4
Authority
DE
Germany
Prior art keywords
microphones
signals
signal
audio
location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE2003120209
Other languages
English (en)
Other versions
DE10320209A1 (de
Inventor
Günther Prof. Dr. Pfeifer
Rüdiger Prof. Dr. Hoffmann
Wolfgang Dr. Niehoff
Rolf Meyer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sennheiser Electronic GmbH and Co KG
Original Assignee
Sennheiser Electronic GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sennheiser Electronic GmbH and Co KG filed Critical Sennheiser Electronic GmbH and Co KG
Priority to DE2003120209 priority Critical patent/DE10320209B4/de
Publication of DE10320209A1 publication Critical patent/DE10320209A1/de
Application granted granted Critical
Publication of DE10320209B4 publication Critical patent/DE10320209B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

Audiosignal-Erkennungssystem, mit
– einer Vielzahl von Mikrofonen (2) zur Aufnahme von Audiosignalen (10),
– mindestens einer ortsensitiven Erfassungseinrichtung (3) zum Erfassen der Position einer Audioquelle (1), und
– einer Zentraleinheit (5) zum Korrelieren der Signale der Vielzahl von Mikrofonen (2) und von der zumindest einen Erfassungseinrichtung (3), um dasjenige von einem Mikrofon (2a) der Vielzahl von Mikrofonen aufgenommene Signal auszuwählen, welches für die Erkennung der Audiosignale am besten geeignet ist.

Description

  • Die Erfindung betrifft ein Audiosignal-Erkennungssystem sowie ein Verfahren zur Erkennung von Audiosignalen.
  • Spracherkennungssysteme sind hinlänglich bekannt und arbeiten in der Regel mit mundnahen Mikrofonen, so dass ein relativ guter Signal-/ Rauschabstand für das aufgenommene Sprachsignal erhalten werden kann. In Verbindung mit diesem aufgenommenen Sprachsignal lassen sich inhaltlich begrenzte Vokabularstrukturen bzw. Befehlsstrukturen verwirklichen. Neben dem Vorsehen von Mikrofonen zur Aufnahme des Sprachsignals im mundnahen Bereich, d.h. unmittelbar vor dem Mund aufgestellte Sprechermikrofone oder an einem Mikrofonbügel befestigte Mikrofone, sind ruhige Sprecherräume eine weitere Voraussetzung für eine gute Spracherkennung.
  • Diese Voraussetzungen werden durch die bekannten Systeme ausreichend gewährleistet, was jedoch nicht in Hinblick auf einen zukünftigen Einsatz der Spracherkennungssysteme im großen Umfang gilt. Wenn so z.B. im Heimbereich eine Kaffeemaschine aufgefordert werden soll, Kaffee bereitzustellen, so muss dieser Befehl von dem Spracherkennungssystem aus jeder Raumposition heraus erkannt und bestätigt werden können.
  • Da aber die Sprachverständlichkeit drastisch mit der Entfernung der Sprachquelle vom Mikrofon abnimmt, werden u.a. mehrere in einem Raum verteilte Mikrofone eingesetzt. Zur Auswertung der Signale sind die einzelnen Mikrofone an eine Zentraleinheit angeschlossen, welche dazu dient, aus den Signalen der einzelnen Mikrofone ein Auswertesignal zu ermitteln. Dabei kommt es aber durch die sehr unterschiedlichen akustischen Eigenschaften des Raumes, wie z.B. Reflektionen des Schalls, die Laufzeiten des Schalls sowie Nachhallzeiten zu Problemen bei der Berechnung des Signals, da die Berechnung sehr komplex und damit sehr zeitaufwendig ist. Des weiteren ist es oftmals notwendig, die Systeme an den jeweiligen Einsatzraum anzupassen. Somit ergeben sich Schwierigkeiten bei der in sito Spracherkennung.
  • DE 691 01 527 T2 zeigt eine Spracherkennungseinrichtung mit einer Vielzahl von Mikrofonen und Sitzdiskriminierungseinrichtung zum Erfassen der Position einer Audioquelle, um denjenigen Sitz zu bestimmen, in dem die Audioquelle ihren Ursprung hat. Hierbei werden die Signale aller Mikrofone aufgezeichnet, und anhand einer Phasenverschiebung zwischen den verschiedenen aufgezeichneten Signalen wird die Position der Audioquelle ermittelt.
  • Die US 2002/161577 A1 zeigt ein Verfahren zum Erstellen der Eigenschaften einer Audiovorrichtung, wobei Audiosignale eines Anwenders aufgezeichnet und die Position des Anwenders relativ zu der Vorrichtung bestimmt wird, um die Audiosignale eines Anwenders von einem Hintergrundgeräusch zu unterscheiden.
  • Somit ist es Aufgabe der Erfindung, ein System zur Erkennung von Audiosignalen vorzusehen, welches auch unter ungünstigen akustischen Ver hältnissen in unterschiedlichen Räumen ein für eine Spracherkennung benötigtes Signal zur Verfügung stellen kann.
  • Diese Aufgabe wird durch ein Audiosignal-Erkennungssystem nach dem Anspruch 1 sowie durch ein Verfahren zur Erkennung von Audiosignalen gemäß dem Anspruch 6 gelöst.
  • Die Erfindung beruht auf dem Gedanken, ein Erkennungssystem mit ortsensitiven Sensoren zu kombinieren.
  • Die Erfindung beruht ferner auf der Überlegung, dass der Mensch nach Abschluss eines Sprachbefehls eine Wirkung bei den angesprochenen Geräten oder Maschinen in einem Zeitraum von 100 bis 300ms erwartet. Bei größeren Reaktionszeiten sinkt die Akzeptanz des Spracherkennungssystems erheblich. Zusätzlich kommt es dabei zu Befehlswiederholungen bzw. zu Überreaktionen der Benutzer, welche sich störend für das Spracherkennungssystem auswirken. Diese Forderung ist in akustisch ungünstigen Räumen, d.h. in der Regel recht großen Räumen, schwierig zu erfüllen, da die durch den Raum bedingten Laufzeiten, Reflektionen und Nachhallzeit sowie eine dramatische Angabe des Signal-/Rauschverhältnisses bei einem sich vergrößernden Sprechabstand zu Mikrofonen sich negativ auswirken.
  • Daher wird ein System zur Erkennung von Audiosignalen mit mindestens einem Mikrofon zur Aufnahme von den Audiosignalen und mindestens einer ortsensitiven Erfassungseinrichtung zum Erfassen der Position der Audioquelle vorgesehen. Die Signale von den Mikrofonen und den ortsensitiven Erfassungseinrichtungen werden in einer Zentraleinheit korreliert und anhand der Korrelation wird dasjenige Signal von einem der Mikrofone auswählt, welches zur Erkennung der Audiosignale am besten geeignet ist.
  • Durch die Erfassung der orts- und laufzeitbezogenen Mikrofonsignale durch die ortsensitiven Erfassungsvorrichtungen ist eine deutlich schnellere Auswahl des akustisch günstigsten Mikrofons möglich.
  • Somit ist eine Optimierung der Erkennung der Audiosignale möglich und eine Auswertung der Audiosignale kann innerhalb von 300ms erfolgen, da anhand der Informationen der ortsensitiven Erfassungseinrichtungen bekannt ist, an welcher Position sich die Audioquelle befindet.
  • Bei einer Ausgestaltung der Erfindung erfolgt die Auswahl des entsprechenden Mikrofons anhand des besten Signal-/ Rauschverhältnisses des durch das Mikrofon aufgenommene Audiosignal.
  • Gemäß einer bevorzugten Ausgestaltung sind die Mikrofone und ortsensitiven Erfassungseinrichtungen räumlich verteilt angeordnet. Die räumliche Verteilung der Mikrofone und Erfassungseinrichtungen gewährleistet sowohl eine optimale Aufnahme des Audiosignals als auch eine optimale Erfassung der Position der Audioquelle.
  • Gemäß einer weiteren Ausgestaltung weist das System ferner eine Signal-Additionseinrichtung auf, welche zum Addieren oder Subtrahieren derjenigen Signale, die durch die anderen Mikrofone aufgenommen wurden, in Abhängigkeit von deren Position und der Laufzeit der aufgenommenen Audiosignale. Durch diese ortsabhängige Signaladdition bzw. Subtraktion kann das Signal-/Rauschverhältnis verbessert werden.
  • Die Erfindung wird ferner durch ein Verfahren zur Erkennung von Audiosignalen in einem Raum mit räumlich verteilten Mikrofonen und ortsensitiven Erfassungseinrichtungen gelöst. Die Signale aller Mikrofone und Erfassungseinrichtungen werden erfasst und miteinander korreliert, um dasjenige Mikrofon auszuwählen, welches hinsichtlich der Erkennung der Audiosignale das günstigste Signal aufweist.
  • Weitere Ausgestaltungen sind Gegenstand der Unteransprüche.
  • Nachfolgend wird die Erfindung detailliert anhand der Zeichnung beschrieben, in der:
  • 1 eine schematische Darstellung eines Raumes mit einem erfindungsgemäßen Spracherkennungssystem.
  • 1 zeigt eine schematische Darstellung eines Raumes mit einem erfindungsgemäßen Spracherkennungssystem. In dem Raum ist eine Sprachquelle 1, eine Vielzahl von Mikrofonen 2 und ortsensitiven Erfassungsvorrichtungen 3 sowie eine Zentraleinheit 5 vorgesehen. Die Sprachquelle 1 gibt dabei ein Audiosignal 10 ab, welches beispielsweise einen Sprachbefehl darstellen kann. Sämtliche Mikrofone 2 und Erfassungseinrichtungen 3 sind mit der Zentraleinheit 5 verbunden.
  • In dem in 1 gezeigten Beispiel treffen die Audiosignale der Audioquelle zuerst auf das Mikrofon 2a und die Erfassungseinrichtung 3a rechts in der Mitte. Mit anderen Worten, es ist also zu erwarten, dass die von diesem Mikrofon aufgenommenen Audiosignale das beste Signal-/ Rauschverhältnis aufweisen, d.h. dieses Mikrofon muss so schnell wie möglich von der Zentraleinheit ausgewählt werden. Dazu wertet die Zentraleinheit zunächst alle Signale der ortsensitiven Erfassungseinrichtungen 3 aus, um die Position der Audioquelle 1 in dem Raum festzustellen. Dieser Vorgang kann sowohl statisch als auch dynamisch vorgenommen werden. Durch die Auswertung der Position der Audioquelle 1 kann die Zentraleinheit 5 voraussagen, welches der im Raum verteilten Mikrofone 2 voraussichtlich das beste Signal, d.h. das Signal mit dem besten Signal-/Rauschabstand, bereitstellen kann. Somit werden die von den Mikrofonen aufgenommenen akustischen Signale sowie die von den ortsensitiven Erfassungseinrichtungen 3 kommende Signale in der Zentraleinheit 5 korreliert.
  • Die Signale der anderen Mikrofone 2 können ebenfalls zur Verbesserung der Spracherkennung genutzt werden, indem sie in Abhängigkeit von dem Ort des jeweiligen Mikrofons und der Laufzeit der Audiosignale 10 zu den Signalen des ausgewählten Mikrofons addiert oder subtrahiert werden, um ein Stützsignal zu bilden. Durch die vorausschauende Auswahl des günstigsten Mikrofons kann die geforderte Reaktionszeit der Spracherkennung von 300ms eingehalten werden.
  • Die Verbindung zwischen der Zentraleinheit und den jeweiligen Mikrofonen 2 und den ortsensitiven Erfassungseinrichtungen 3 kann entweder drahtlos oder leitungsgebunden erfolgen. Ferner muss die Anzahl der Mikrofone nicht der Anzahl der ortsensitiven Erfassungseinrichtungen 3 entsprechen, d.h. es können auch weniger ortsensitive Erfassungseinrichtungen vorhanden sein, solange gewährleistet ist, dass die Position der Sprachquelle 1 hinreichend gut erfasst werden kann.
  • Vorzugsweise wird die Sprachquelle 1 von einem Benutzer einer Maschine oder einem Gerät dargestellt, welches die Maschine oder das Gerät mittels Sprachbefehlen steuern möchte.
  • Die ortsensitiven Erfassungseinrichtungen 3 können beispielsweise Sensoren zur Abstands- oder Bewegungsmessung darstellen, welche auf der Basis von Ultraschall, Infrarot, Wärme, Induktion, Kapazität, Funkwellen, Radar oder dergleichen arbeiten können. Denkbar wäre auch, dass die Personen, deren Sprachbefehle aufgenommen werden sollen, mit einem kleinen Sender ausgestattet werden, um die Positionsbestimmung zu erleichtern.
  • Das erfindungsgemäße System bzw. die akustische Einrichtung kann auch dazu eingerichtet sein, Befehlssignale akustisch aufzunehmen und in entsprechende Maschinenbefehle umzusetzen. Hierzu ist es besonders vorteilhaft, wenn bestimmte Maschinenbefehle in einer Datenbank zu entsprechenden Begriffen zugeordnet sind, so dass in einem gewünschten Fall, beispielsweise zur Einstellung des gesamten Systems oder einzelner Parameter, z.B. Frequenzgang, Empfindlichkeit, Ein- und Ausschaltfunktion etc. eingestellt werden. Eine solche Sprachsteuerung erleichtert unter Umständen die Einstellung des gesamten Systems und ist daher besonders vorteilhaft.

Claims (9)

  1. Audiosignal-Erkennungssystem, mit – einer Vielzahl von Mikrofonen (2) zur Aufnahme von Audiosignalen (10), – mindestens einer ortsensitiven Erfassungseinrichtung (3) zum Erfassen der Position einer Audioquelle (1), und – einer Zentraleinheit (5) zum Korrelieren der Signale der Vielzahl von Mikrofonen (2) und von der zumindest einen Erfassungseinrichtung (3), um dasjenige von einem Mikrofon (2a) der Vielzahl von Mikrofonen aufgenommene Signal auszuwählen, welches für die Erkennung der Audiosignale am besten geeignet ist.
  2. System nach Anspruch 1, wobei – die Zentraleinheit (5) dasjenige von einem Mikrofon (2a) der Vielzahl von Mikrofonen aufgenommene Signal auswählt, welches das größte Signal-/ Rauschverhältnis aufweist.
  3. System nach Anspruch 1 oder 2, wobei – die Vielzahl der Mikrofone (2) und die ortsensitiven Erfassungseinrichtungen (3) räumlich verteilt angeordnet sind.
  4. System nach einem der Ansprüche 1 bis 3, ferner mit – einer Signal-Additionseinrichtung zum Addieren oder Subtrahieren der von den anderen Mikrofonen (2) der Vielzahl der Mikrofone aufgenommen Signale in Abhängigkeit der Position der jeweiligen Mikrofone (2) und der Laufzeiten der von den jeweiligen Mikrofonen (2) aufgenommenen Signalen.
  5. System nach einem der vorherigen Ansprüche, wobei das System als Spracherkennungssystem ausgestaltet ist.
  6. Verfahren zur Erkennung von Audiosignalen in einem Raum mit räumlich verteilten Mikrofonen (2) und ortsensitiven Erfassungseinrichtungen (3), mit den Schritten – Erfassen der Signale der Mikrofone (2) und der ortsensitiven Erfassungseinrichtungen (3), und – Korrelieren der erfassten Signale zum Auswählen eines der von den Mikrofonen (2) aufgenommenen Signales, welches für die Erkennung der Audiosignale am besten geeignet ist.
  7. Verfahren nach Anspruch 6, wobei – die Auswahl der von den Mikrofonen (2) aufgenommenen Signale in Abhängigkeit der Signal-/Rauschverhältnisse dieser Signale erfolgt.
  8. Verfahren nach Anspruch 6 oder 7, ferner mit dem Schritt – Addieren/Subtrahieren der von den anderen Mikrofonen (2) aufgenommenen Signalen entsprechend der Position der Mikrofone (2) und der Laufzeiten der von den Mikrofonen (2) aufgenommenen Signale.
  9. Verfahren nach einem der Ansprüche 1 bis 8, wobei das Verfahren zur Spracherkennung ausgestaltet ist.
DE2003120209 2003-05-07 2003-05-07 Audiosignal-Erkennungssystem Expired - Fee Related DE10320209B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2003120209 DE10320209B4 (de) 2003-05-07 2003-05-07 Audiosignal-Erkennungssystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2003120209 DE10320209B4 (de) 2003-05-07 2003-05-07 Audiosignal-Erkennungssystem

Publications (2)

Publication Number Publication Date
DE10320209A1 DE10320209A1 (de) 2004-12-16
DE10320209B4 true DE10320209B4 (de) 2005-12-01

Family

ID=33440642

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2003120209 Expired - Fee Related DE10320209B4 (de) 2003-05-07 2003-05-07 Audiosignal-Erkennungssystem

Country Status (1)

Country Link
DE (1) DE10320209B4 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007125449A1 (en) * 2006-04-28 2007-11-08 Koninklijke Philips Electronics N.V. Device for and method of estimating directivity of a microphone arrangement

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69101527T2 (de) * 1990-08-16 1994-07-14 Fujitsu Ten Ltd Spracherkennungseinrichtung für ein Fahrzeug mit einer Mikrophonanordnung zur Lokalisierung des Sitzes, von welchem ein Befehl kommt.
US20020161577A1 (en) * 2001-04-25 2002-10-31 International Business Mashines Corporation Audio source position detection and audio adjustment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69101527T2 (de) * 1990-08-16 1994-07-14 Fujitsu Ten Ltd Spracherkennungseinrichtung für ein Fahrzeug mit einer Mikrophonanordnung zur Lokalisierung des Sitzes, von welchem ein Befehl kommt.
US20020161577A1 (en) * 2001-04-25 2002-10-31 International Business Mashines Corporation Audio source position detection and audio adjustment

Also Published As

Publication number Publication date
DE10320209A1 (de) 2004-12-16

Similar Documents

Publication Publication Date Title
DE60022304T2 (de) Verfahren und Anordnung zur Ortung von Sprechern
DE60303338T2 (de) Orthogonales und kreisförmiges Gruppensystem von Mikrofonen und Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle mit diesem System
DE60212528T2 (de) Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung
DE10308414B4 (de) Verfahren zur Steuerung eines Akustiksystems im Fahrzeug
DE3612151C2 (de)
DE102005032292B3 (de) Hörgerät mit reduzierter Windempfindlichkeit und entsprechendes Verfahren
DE112011105267T5 (de) Zielton-Verstärkungsvorrichtung und Fahrzeug-Navigationssystem
DE102007034029A1 (de) Verfahren zur Information eines Beobachters über ein im Einsatz befindliches Einsatzfahrzeug und Anordnung dazu
DE102018107326A1 (de) Adaptives Insassengespräch-Frühwarnsystem
EP3576431A1 (de) Verfahren zum betreiben einer lautsprechereinheit sowie eine lautsprechereinheit
DE60213155T2 (de) Verfahren und System zur Schallbearbeitung
EP1808853B1 (de) Beschallungsanlage, Beschallungsverfahren und Computerprogramm zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen
DE10320209B4 (de) Audiosignal-Erkennungssystem
DE10060017A1 (de) Verfahren und Vorrichtung zur Bestimmung eines akustischen Signals einer Signalquelle
EP2425270A2 (de) Vorrichtung und verfahren zur binauralen wiedergabe von audio-sonarsignalen
EP2416593A1 (de) Verfahren zur Innenraumkommunikation
AT514412A1 (de) Verfahren zur Erhöhung der Sprachverständlichkeit
DE10035222A1 (de) Verfahren zur aktustischen Ortung von Personen in einem Detektionsraum
DE102019201879B3 (de) Verfahren zum Betrieb eines Hörsystems und Hörsystem
DE10142347C1 (de) Automatische Adaption von Hörgeräten an unterschiedliche Hörsituationen
WO2004100609A1 (de) System zur ortssensitiven wiedergabe von audiosignalen
DE102010006285A1 (de) KFZ-Audiosystem
DE102021103310B4 (de) Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum
EP1359437A1 (de) Verfahren zum Bestimmen einer Position eines Benutzers eines Kommunikationsendgerätes
DE19908194C1 (de) Hinter dem Ohr tragbares Hörhilfegerät

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee