DE10320209B4 - Audiosignal-Erkennungssystem - Google Patents
Audiosignal-Erkennungssystem Download PDFInfo
- Publication number
- DE10320209B4 DE10320209B4 DE2003120209 DE10320209A DE10320209B4 DE 10320209 B4 DE10320209 B4 DE 10320209B4 DE 2003120209 DE2003120209 DE 2003120209 DE 10320209 A DE10320209 A DE 10320209A DE 10320209 B4 DE10320209 B4 DE 10320209B4
- Authority
- DE
- Germany
- Prior art keywords
- microphones
- signals
- signal
- audio
- location
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
Audiosignal-Erkennungssystem,
mit
– einer Vielzahl von Mikrofonen (2) zur Aufnahme von Audiosignalen (10),
– mindestens einer ortsensitiven Erfassungseinrichtung (3) zum Erfassen der Position einer Audioquelle (1), und
– einer Zentraleinheit (5) zum Korrelieren der Signale der Vielzahl von Mikrofonen (2) und von der zumindest einen Erfassungseinrichtung (3), um dasjenige von einem Mikrofon (2a) der Vielzahl von Mikrofonen aufgenommene Signal auszuwählen, welches für die Erkennung der Audiosignale am besten geeignet ist.
– einer Vielzahl von Mikrofonen (2) zur Aufnahme von Audiosignalen (10),
– mindestens einer ortsensitiven Erfassungseinrichtung (3) zum Erfassen der Position einer Audioquelle (1), und
– einer Zentraleinheit (5) zum Korrelieren der Signale der Vielzahl von Mikrofonen (2) und von der zumindest einen Erfassungseinrichtung (3), um dasjenige von einem Mikrofon (2a) der Vielzahl von Mikrofonen aufgenommene Signal auszuwählen, welches für die Erkennung der Audiosignale am besten geeignet ist.
Description
- Die Erfindung betrifft ein Audiosignal-Erkennungssystem sowie ein Verfahren zur Erkennung von Audiosignalen.
- Spracherkennungssysteme sind hinlänglich bekannt und arbeiten in der Regel mit mundnahen Mikrofonen, so dass ein relativ guter Signal-/ Rauschabstand für das aufgenommene Sprachsignal erhalten werden kann. In Verbindung mit diesem aufgenommenen Sprachsignal lassen sich inhaltlich begrenzte Vokabularstrukturen bzw. Befehlsstrukturen verwirklichen. Neben dem Vorsehen von Mikrofonen zur Aufnahme des Sprachsignals im mundnahen Bereich, d.h. unmittelbar vor dem Mund aufgestellte Sprechermikrofone oder an einem Mikrofonbügel befestigte Mikrofone, sind ruhige Sprecherräume eine weitere Voraussetzung für eine gute Spracherkennung.
- Diese Voraussetzungen werden durch die bekannten Systeme ausreichend gewährleistet, was jedoch nicht in Hinblick auf einen zukünftigen Einsatz der Spracherkennungssysteme im großen Umfang gilt. Wenn so z.B. im Heimbereich eine Kaffeemaschine aufgefordert werden soll, Kaffee bereitzustellen, so muss dieser Befehl von dem Spracherkennungssystem aus jeder Raumposition heraus erkannt und bestätigt werden können.
- Da aber die Sprachverständlichkeit drastisch mit der Entfernung der Sprachquelle vom Mikrofon abnimmt, werden u.a. mehrere in einem Raum verteilte Mikrofone eingesetzt. Zur Auswertung der Signale sind die einzelnen Mikrofone an eine Zentraleinheit angeschlossen, welche dazu dient, aus den Signalen der einzelnen Mikrofone ein Auswertesignal zu ermitteln. Dabei kommt es aber durch die sehr unterschiedlichen akustischen Eigenschaften des Raumes, wie z.B. Reflektionen des Schalls, die Laufzeiten des Schalls sowie Nachhallzeiten zu Problemen bei der Berechnung des Signals, da die Berechnung sehr komplex und damit sehr zeitaufwendig ist. Des weiteren ist es oftmals notwendig, die Systeme an den jeweiligen Einsatzraum anzupassen. Somit ergeben sich Schwierigkeiten bei der in sito Spracherkennung.
-
DE 691 01 527 T2 zeigt eine Spracherkennungseinrichtung mit einer Vielzahl von Mikrofonen und Sitzdiskriminierungseinrichtung zum Erfassen der Position einer Audioquelle, um denjenigen Sitz zu bestimmen, in dem die Audioquelle ihren Ursprung hat. Hierbei werden die Signale aller Mikrofone aufgezeichnet, und anhand einer Phasenverschiebung zwischen den verschiedenen aufgezeichneten Signalen wird die Position der Audioquelle ermittelt. - Die US 2002/161577 A1 zeigt ein Verfahren zum Erstellen der Eigenschaften einer Audiovorrichtung, wobei Audiosignale eines Anwenders aufgezeichnet und die Position des Anwenders relativ zu der Vorrichtung bestimmt wird, um die Audiosignale eines Anwenders von einem Hintergrundgeräusch zu unterscheiden.
- Somit ist es Aufgabe der Erfindung, ein System zur Erkennung von Audiosignalen vorzusehen, welches auch unter ungünstigen akustischen Ver hältnissen in unterschiedlichen Räumen ein für eine Spracherkennung benötigtes Signal zur Verfügung stellen kann.
- Diese Aufgabe wird durch ein Audiosignal-Erkennungssystem nach dem Anspruch 1 sowie durch ein Verfahren zur Erkennung von Audiosignalen gemäß dem Anspruch 6 gelöst.
- Die Erfindung beruht auf dem Gedanken, ein Erkennungssystem mit ortsensitiven Sensoren zu kombinieren.
- Die Erfindung beruht ferner auf der Überlegung, dass der Mensch nach Abschluss eines Sprachbefehls eine Wirkung bei den angesprochenen Geräten oder Maschinen in einem Zeitraum von 100 bis 300ms erwartet. Bei größeren Reaktionszeiten sinkt die Akzeptanz des Spracherkennungssystems erheblich. Zusätzlich kommt es dabei zu Befehlswiederholungen bzw. zu Überreaktionen der Benutzer, welche sich störend für das Spracherkennungssystem auswirken. Diese Forderung ist in akustisch ungünstigen Räumen, d.h. in der Regel recht großen Räumen, schwierig zu erfüllen, da die durch den Raum bedingten Laufzeiten, Reflektionen und Nachhallzeit sowie eine dramatische Angabe des Signal-/Rauschverhältnisses bei einem sich vergrößernden Sprechabstand zu Mikrofonen sich negativ auswirken.
- Daher wird ein System zur Erkennung von Audiosignalen mit mindestens einem Mikrofon zur Aufnahme von den Audiosignalen und mindestens einer ortsensitiven Erfassungseinrichtung zum Erfassen der Position der Audioquelle vorgesehen. Die Signale von den Mikrofonen und den ortsensitiven Erfassungseinrichtungen werden in einer Zentraleinheit korreliert und anhand der Korrelation wird dasjenige Signal von einem der Mikrofone auswählt, welches zur Erkennung der Audiosignale am besten geeignet ist.
- Durch die Erfassung der orts- und laufzeitbezogenen Mikrofonsignale durch die ortsensitiven Erfassungsvorrichtungen ist eine deutlich schnellere Auswahl des akustisch günstigsten Mikrofons möglich.
- Somit ist eine Optimierung der Erkennung der Audiosignale möglich und eine Auswertung der Audiosignale kann innerhalb von 300ms erfolgen, da anhand der Informationen der ortsensitiven Erfassungseinrichtungen bekannt ist, an welcher Position sich die Audioquelle befindet.
- Bei einer Ausgestaltung der Erfindung erfolgt die Auswahl des entsprechenden Mikrofons anhand des besten Signal-/ Rauschverhältnisses des durch das Mikrofon aufgenommene Audiosignal.
- Gemäß einer bevorzugten Ausgestaltung sind die Mikrofone und ortsensitiven Erfassungseinrichtungen räumlich verteilt angeordnet. Die räumliche Verteilung der Mikrofone und Erfassungseinrichtungen gewährleistet sowohl eine optimale Aufnahme des Audiosignals als auch eine optimale Erfassung der Position der Audioquelle.
- Gemäß einer weiteren Ausgestaltung weist das System ferner eine Signal-Additionseinrichtung auf, welche zum Addieren oder Subtrahieren derjenigen Signale, die durch die anderen Mikrofone aufgenommen wurden, in Abhängigkeit von deren Position und der Laufzeit der aufgenommenen Audiosignale. Durch diese ortsabhängige Signaladdition bzw. Subtraktion kann das Signal-/Rauschverhältnis verbessert werden.
- Die Erfindung wird ferner durch ein Verfahren zur Erkennung von Audiosignalen in einem Raum mit räumlich verteilten Mikrofonen und ortsensitiven Erfassungseinrichtungen gelöst. Die Signale aller Mikrofone und Erfassungseinrichtungen werden erfasst und miteinander korreliert, um dasjenige Mikrofon auszuwählen, welches hinsichtlich der Erkennung der Audiosignale das günstigste Signal aufweist.
- Weitere Ausgestaltungen sind Gegenstand der Unteransprüche.
- Nachfolgend wird die Erfindung detailliert anhand der Zeichnung beschrieben, in der:
-
1 eine schematische Darstellung eines Raumes mit einem erfindungsgemäßen Spracherkennungssystem. -
1 zeigt eine schematische Darstellung eines Raumes mit einem erfindungsgemäßen Spracherkennungssystem. In dem Raum ist eine Sprachquelle1 , eine Vielzahl von Mikrofonen2 und ortsensitiven Erfassungsvorrichtungen3 sowie eine Zentraleinheit5 vorgesehen. Die Sprachquelle1 gibt dabei ein Audiosignal10 ab, welches beispielsweise einen Sprachbefehl darstellen kann. Sämtliche Mikrofone2 und Erfassungseinrichtungen3 sind mit der Zentraleinheit5 verbunden. - In dem in
1 gezeigten Beispiel treffen die Audiosignale der Audioquelle zuerst auf das Mikrofon2a und die Erfassungseinrichtung3a rechts in der Mitte. Mit anderen Worten, es ist also zu erwarten, dass die von diesem Mikrofon aufgenommenen Audiosignale das beste Signal-/ Rauschverhältnis aufweisen, d.h. dieses Mikrofon muss so schnell wie möglich von der Zentraleinheit ausgewählt werden. Dazu wertet die Zentraleinheit zunächst alle Signale der ortsensitiven Erfassungseinrichtungen3 aus, um die Position der Audioquelle1 in dem Raum festzustellen. Dieser Vorgang kann sowohl statisch als auch dynamisch vorgenommen werden. Durch die Auswertung der Position der Audioquelle1 kann die Zentraleinheit5 voraussagen, welches der im Raum verteilten Mikrofone2 voraussichtlich das beste Signal, d.h. das Signal mit dem besten Signal-/Rauschabstand, bereitstellen kann. Somit werden die von den Mikrofonen aufgenommenen akustischen Signale sowie die von den ortsensitiven Erfassungseinrichtungen3 kommende Signale in der Zentraleinheit5 korreliert. - Die Signale der anderen Mikrofone
2 können ebenfalls zur Verbesserung der Spracherkennung genutzt werden, indem sie in Abhängigkeit von dem Ort des jeweiligen Mikrofons und der Laufzeit der Audiosignale10 zu den Signalen des ausgewählten Mikrofons addiert oder subtrahiert werden, um ein Stützsignal zu bilden. Durch die vorausschauende Auswahl des günstigsten Mikrofons kann die geforderte Reaktionszeit der Spracherkennung von 300ms eingehalten werden. - Die Verbindung zwischen der Zentraleinheit und den jeweiligen Mikrofonen
2 und den ortsensitiven Erfassungseinrichtungen3 kann entweder drahtlos oder leitungsgebunden erfolgen. Ferner muss die Anzahl der Mikrofone nicht der Anzahl der ortsensitiven Erfassungseinrichtungen3 entsprechen, d.h. es können auch weniger ortsensitive Erfassungseinrichtungen vorhanden sein, solange gewährleistet ist, dass die Position der Sprachquelle1 hinreichend gut erfasst werden kann. - Vorzugsweise wird die Sprachquelle
1 von einem Benutzer einer Maschine oder einem Gerät dargestellt, welches die Maschine oder das Gerät mittels Sprachbefehlen steuern möchte. - Die ortsensitiven Erfassungseinrichtungen
3 können beispielsweise Sensoren zur Abstands- oder Bewegungsmessung darstellen, welche auf der Basis von Ultraschall, Infrarot, Wärme, Induktion, Kapazität, Funkwellen, Radar oder dergleichen arbeiten können. Denkbar wäre auch, dass die Personen, deren Sprachbefehle aufgenommen werden sollen, mit einem kleinen Sender ausgestattet werden, um die Positionsbestimmung zu erleichtern. - Das erfindungsgemäße System bzw. die akustische Einrichtung kann auch dazu eingerichtet sein, Befehlssignale akustisch aufzunehmen und in entsprechende Maschinenbefehle umzusetzen. Hierzu ist es besonders vorteilhaft, wenn bestimmte Maschinenbefehle in einer Datenbank zu entsprechenden Begriffen zugeordnet sind, so dass in einem gewünschten Fall, beispielsweise zur Einstellung des gesamten Systems oder einzelner Parameter, z.B. Frequenzgang, Empfindlichkeit, Ein- und Ausschaltfunktion etc. eingestellt werden. Eine solche Sprachsteuerung erleichtert unter Umständen die Einstellung des gesamten Systems und ist daher besonders vorteilhaft.
Claims (9)
- Audiosignal-Erkennungssystem, mit – einer Vielzahl von Mikrofonen (
2 ) zur Aufnahme von Audiosignalen (10 ), – mindestens einer ortsensitiven Erfassungseinrichtung (3 ) zum Erfassen der Position einer Audioquelle (1 ), und – einer Zentraleinheit (5 ) zum Korrelieren der Signale der Vielzahl von Mikrofonen (2 ) und von der zumindest einen Erfassungseinrichtung (3 ), um dasjenige von einem Mikrofon (2a ) der Vielzahl von Mikrofonen aufgenommene Signal auszuwählen, welches für die Erkennung der Audiosignale am besten geeignet ist. - System nach Anspruch 1, wobei – die Zentraleinheit (
5 ) dasjenige von einem Mikrofon (2a ) der Vielzahl von Mikrofonen aufgenommene Signal auswählt, welches das größte Signal-/ Rauschverhältnis aufweist. - System nach Anspruch 1 oder 2, wobei – die Vielzahl der Mikrofone (
2 ) und die ortsensitiven Erfassungseinrichtungen (3 ) räumlich verteilt angeordnet sind. - System nach einem der Ansprüche 1 bis 3, ferner mit – einer Signal-Additionseinrichtung zum Addieren oder Subtrahieren der von den anderen Mikrofonen (
2 ) der Vielzahl der Mikrofone aufgenommen Signale in Abhängigkeit der Position der jeweiligen Mikrofone (2 ) und der Laufzeiten der von den jeweiligen Mikrofonen (2 ) aufgenommenen Signalen. - System nach einem der vorherigen Ansprüche, wobei das System als Spracherkennungssystem ausgestaltet ist.
- Verfahren zur Erkennung von Audiosignalen in einem Raum mit räumlich verteilten Mikrofonen (
2 ) und ortsensitiven Erfassungseinrichtungen (3 ), mit den Schritten – Erfassen der Signale der Mikrofone (2 ) und der ortsensitiven Erfassungseinrichtungen (3 ), und – Korrelieren der erfassten Signale zum Auswählen eines der von den Mikrofonen (2 ) aufgenommenen Signales, welches für die Erkennung der Audiosignale am besten geeignet ist. - Verfahren nach Anspruch 6, wobei – die Auswahl der von den Mikrofonen (
2 ) aufgenommenen Signale in Abhängigkeit der Signal-/Rauschverhältnisse dieser Signale erfolgt. - Verfahren nach Anspruch 6 oder 7, ferner mit dem Schritt – Addieren/Subtrahieren der von den anderen Mikrofonen (
2 ) aufgenommenen Signalen entsprechend der Position der Mikrofone (2 ) und der Laufzeiten der von den Mikrofonen (2 ) aufgenommenen Signale. - Verfahren nach einem der Ansprüche 1 bis 8, wobei das Verfahren zur Spracherkennung ausgestaltet ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2003120209 DE10320209B4 (de) | 2003-05-07 | 2003-05-07 | Audiosignal-Erkennungssystem |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2003120209 DE10320209B4 (de) | 2003-05-07 | 2003-05-07 | Audiosignal-Erkennungssystem |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10320209A1 DE10320209A1 (de) | 2004-12-16 |
DE10320209B4 true DE10320209B4 (de) | 2005-12-01 |
Family
ID=33440642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2003120209 Expired - Fee Related DE10320209B4 (de) | 2003-05-07 | 2003-05-07 | Audiosignal-Erkennungssystem |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10320209B4 (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007125449A1 (en) * | 2006-04-28 | 2007-11-08 | Koninklijke Philips Electronics N.V. | Device for and method of estimating directivity of a microphone arrangement |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69101527T2 (de) * | 1990-08-16 | 1994-07-14 | Fujitsu Ten Ltd | Spracherkennungseinrichtung für ein Fahrzeug mit einer Mikrophonanordnung zur Lokalisierung des Sitzes, von welchem ein Befehl kommt. |
US20020161577A1 (en) * | 2001-04-25 | 2002-10-31 | International Business Mashines Corporation | Audio source position detection and audio adjustment |
-
2003
- 2003-05-07 DE DE2003120209 patent/DE10320209B4/de not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69101527T2 (de) * | 1990-08-16 | 1994-07-14 | Fujitsu Ten Ltd | Spracherkennungseinrichtung für ein Fahrzeug mit einer Mikrophonanordnung zur Lokalisierung des Sitzes, von welchem ein Befehl kommt. |
US20020161577A1 (en) * | 2001-04-25 | 2002-10-31 | International Business Mashines Corporation | Audio source position detection and audio adjustment |
Also Published As
Publication number | Publication date |
---|---|
DE10320209A1 (de) | 2004-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60022304T2 (de) | Verfahren und Anordnung zur Ortung von Sprechern | |
DE60303338T2 (de) | Orthogonales und kreisförmiges Gruppensystem von Mikrofonen und Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle mit diesem System | |
DE60212528T2 (de) | Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung | |
DE10308414B4 (de) | Verfahren zur Steuerung eines Akustiksystems im Fahrzeug | |
DE3612151C2 (de) | ||
DE102005032292B3 (de) | Hörgerät mit reduzierter Windempfindlichkeit und entsprechendes Verfahren | |
DE112011105267T5 (de) | Zielton-Verstärkungsvorrichtung und Fahrzeug-Navigationssystem | |
DE102007034029A1 (de) | Verfahren zur Information eines Beobachters über ein im Einsatz befindliches Einsatzfahrzeug und Anordnung dazu | |
DE102018107326A1 (de) | Adaptives Insassengespräch-Frühwarnsystem | |
EP3576431A1 (de) | Verfahren zum betreiben einer lautsprechereinheit sowie eine lautsprechereinheit | |
DE60213155T2 (de) | Verfahren und System zur Schallbearbeitung | |
EP1808853B1 (de) | Beschallungsanlage, Beschallungsverfahren und Computerprogramm zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen | |
DE10320209B4 (de) | Audiosignal-Erkennungssystem | |
DE10060017A1 (de) | Verfahren und Vorrichtung zur Bestimmung eines akustischen Signals einer Signalquelle | |
EP2425270A2 (de) | Vorrichtung und verfahren zur binauralen wiedergabe von audio-sonarsignalen | |
EP2416593A1 (de) | Verfahren zur Innenraumkommunikation | |
AT514412A1 (de) | Verfahren zur Erhöhung der Sprachverständlichkeit | |
DE10035222A1 (de) | Verfahren zur aktustischen Ortung von Personen in einem Detektionsraum | |
DE102019201879B3 (de) | Verfahren zum Betrieb eines Hörsystems und Hörsystem | |
DE10142347C1 (de) | Automatische Adaption von Hörgeräten an unterschiedliche Hörsituationen | |
WO2004100609A1 (de) | System zur ortssensitiven wiedergabe von audiosignalen | |
DE102010006285A1 (de) | KFZ-Audiosystem | |
DE102021103310B4 (de) | Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum | |
EP1359437A1 (de) | Verfahren zum Bestimmen einer Position eines Benutzers eines Kommunikationsendgerätes | |
DE19908194C1 (de) | Hinter dem Ohr tragbares Hörhilfegerät |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |