DE10320209B4

DE10320209B4 - Audiosignal-Erkennungssystem

Info

Publication number: DE10320209B4
Application number: DE2003120209
Authority: DE
Inventors: Günther Prof. Dr. Pfeifer; Rüdiger Prof. Dr. Hoffmann; Wolfgang Dr. Niehoff; Rolf Meyer
Original assignee: Sennheiser Electronic GmbH and Co KG
Current assignee: Sennheiser Electronic GmbH and Co KG
Priority date: 2003-05-07
Filing date: 2003-05-07
Publication date: 2005-12-01
Anticipated expiration: 2023-05-08
Also published as: DE10320209A1

Abstract

Audiosignal-Erkennungssystem, mit
– einer Vielzahl von Mikrofonen (2) zur Aufnahme von Audiosignalen (10),
– mindestens einer ortsensitiven Erfassungseinrichtung (3) zum Erfassen der Position einer Audioquelle (1), und
– einer Zentraleinheit (5) zum Korrelieren der Signale der Vielzahl von Mikrofonen (2) und von der zumindest einen Erfassungseinrichtung (3), um dasjenige von einem Mikrofon (2a) der Vielzahl von Mikrofonen aufgenommene Signal auszuwählen, welches für die Erkennung der Audiosignale am besten geeignet ist.

Description

Die Erfindung betrifft ein Audiosignal-Erkennungssystem sowie ein Verfahren zur Erkennung von Audiosignalen.
Spracherkennungssysteme sind hinlänglich bekannt und arbeiten in der Regel mit mundnahen Mikrofonen, so dass ein relativ guter Signal-/ Rauschabstand für das aufgenommene Sprachsignal erhalten werden kann. In Verbindung mit diesem aufgenommenen Sprachsignal lassen sich inhaltlich begrenzte Vokabularstrukturen bzw. Befehlsstrukturen verwirklichen. Neben dem Vorsehen von Mikrofonen zur Aufnahme des Sprachsignals im mundnahen Bereich, d.h. unmittelbar vor dem Mund aufgestellte Sprechermikrofone oder an einem Mikrofonbügel befestigte Mikrofone, sind ruhige Sprecherräume eine weitere Voraussetzung für eine gute Spracherkennung.
Diese Voraussetzungen werden durch die bekannten Systeme ausreichend gewährleistet, was jedoch nicht in Hinblick auf einen zukünftigen Einsatz der Spracherkennungssysteme im großen Umfang gilt. Wenn so z.B. im Heimbereich eine Kaffeemaschine aufgefordert werden soll, Kaffee bereitzustellen, so muss dieser Befehl von dem Spracherkennungssystem aus jeder Raumposition heraus erkannt und bestätigt werden können.
Da aber die Sprachverständlichkeit drastisch mit der Entfernung der Sprachquelle vom Mikrofon abnimmt, werden u.a. mehrere in einem Raum verteilte Mikrofone eingesetzt. Zur Auswertung der Signale sind die einzelnen Mikrofone an eine Zentraleinheit angeschlossen, welche dazu dient, aus den Signalen der einzelnen Mikrofone ein Auswertesignal zu ermitteln. Dabei kommt es aber durch die sehr unterschiedlichen akustischen Eigenschaften des Raumes, wie z.B. Reflektionen des Schalls, die Laufzeiten des Schalls sowie Nachhallzeiten zu Problemen bei der Berechnung des Signals, da die Berechnung sehr komplex und damit sehr zeitaufwendig ist. Des weiteren ist es oftmals notwendig, die Systeme an den jeweiligen Einsatzraum anzupassen. Somit ergeben sich Schwierigkeiten bei der in sito Spracherkennung.
DE 691 01 527 T2 zeigt eine Spracherkennungseinrichtung mit einer Vielzahl von Mikrofonen und Sitzdiskriminierungseinrichtung zum Erfassen der Position einer Audioquelle, um denjenigen Sitz zu bestimmen, in dem die Audioquelle ihren Ursprung hat. Hierbei werden die Signale aller Mikrofone aufgezeichnet, und anhand einer Phasenverschiebung zwischen den verschiedenen aufgezeichneten Signalen wird die Position der Audioquelle ermittelt.
Die US 2002/161577 A1 zeigt ein Verfahren zum Erstellen der Eigenschaften einer Audiovorrichtung, wobei Audiosignale eines Anwenders aufgezeichnet und die Position des Anwenders relativ zu der Vorrichtung bestimmt wird, um die Audiosignale eines Anwenders von einem Hintergrundgeräusch zu unterscheiden.

Somit ist es Aufgabe der Erfindung, ein System zur Erkennung von Audiosignalen vorzusehen, welches auch unter ungünstigen akustischen Ver hältnissen in unterschiedlichen Räumen ein für eine Spracherkennung benötigtes Signal zur Verfügung stellen kann.

Diese Aufgabe wird durch ein Audiosignal-Erkennungssystem nach dem Anspruch 1 sowie durch ein Verfahren zur Erkennung von Audiosignalen gemäß dem Anspruch 6 gelöst.

Die Erfindung beruht auf dem Gedanken, ein Erkennungssystem mit ortsensitiven Sensoren zu kombinieren.

Die Erfindung beruht ferner auf der Überlegung, dass der Mensch nach Abschluss eines Sprachbefehls eine Wirkung bei den angesprochenen Geräten oder Maschinen in einem Zeitraum von 100 bis 300ms erwartet. Bei größeren Reaktionszeiten sinkt die Akzeptanz des Spracherkennungssystems erheblich. Zusätzlich kommt es dabei zu Befehlswiederholungen bzw. zu Überreaktionen der Benutzer, welche sich störend für das Spracherkennungssystem auswirken. Diese Forderung ist in akustisch ungünstigen Räumen, d.h. in der Regel recht großen Räumen, schwierig zu erfüllen, da die durch den Raum bedingten Laufzeiten, Reflektionen und Nachhallzeit sowie eine dramatische Angabe des Signal-/Rauschverhältnisses bei einem sich vergrößernden Sprechabstand zu Mikrofonen sich negativ auswirken.

Daher wird ein System zur Erkennung von Audiosignalen mit mindestens einem Mikrofon zur Aufnahme von den Audiosignalen und mindestens einer ortsensitiven Erfassungseinrichtung zum Erfassen der Position der Audioquelle vorgesehen. Die Signale von den Mikrofonen und den ortsensitiven Erfassungseinrichtungen werden in einer Zentraleinheit korreliert und anhand der Korrelation wird dasjenige Signal von einem der Mikrofone auswählt, welches zur Erkennung der Audiosignale am besten geeignet ist.

Durch die Erfassung der orts- und laufzeitbezogenen Mikrofonsignale durch die ortsensitiven Erfassungsvorrichtungen ist eine deutlich schnellere Auswahl des akustisch günstigsten Mikrofons möglich.

Somit ist eine Optimierung der Erkennung der Audiosignale möglich und eine Auswertung der Audiosignale kann innerhalb von 300ms erfolgen, da anhand der Informationen der ortsensitiven Erfassungseinrichtungen bekannt ist, an welcher Position sich die Audioquelle befindet.

Bei einer Ausgestaltung der Erfindung erfolgt die Auswahl des entsprechenden Mikrofons anhand des besten Signal-/ Rauschverhältnisses des durch das Mikrofon aufgenommene Audiosignal.

Gemäß einer bevorzugten Ausgestaltung sind die Mikrofone und ortsensitiven Erfassungseinrichtungen räumlich verteilt angeordnet. Die räumliche Verteilung der Mikrofone und Erfassungseinrichtungen gewährleistet sowohl eine optimale Aufnahme des Audiosignals als auch eine optimale Erfassung der Position der Audioquelle.

Gemäß einer weiteren Ausgestaltung weist das System ferner eine Signal-Additionseinrichtung auf, welche zum Addieren oder Subtrahieren derjenigen Signale, die durch die anderen Mikrofone aufgenommen wurden, in Abhängigkeit von deren Position und der Laufzeit der aufgenommenen Audiosignale. Durch diese ortsabhängige Signaladdition bzw. Subtraktion kann das Signal-/Rauschverhältnis verbessert werden.

Die Erfindung wird ferner durch ein Verfahren zur Erkennung von Audiosignalen in einem Raum mit räumlich verteilten Mikrofonen und ortsensitiven Erfassungseinrichtungen gelöst. Die Signale aller Mikrofone und Erfassungseinrichtungen werden erfasst und miteinander korreliert, um dasjenige Mikrofon auszuwählen, welches hinsichtlich der Erkennung der Audiosignale das günstigste Signal aufweist.

Weitere Ausgestaltungen sind Gegenstand der Unteransprüche.

Nachfolgend wird die Erfindung detailliert anhand der Zeichnung beschrieben, in der:
1 eine schematische Darstellung eines Raumes mit einem erfindungsgemäßen Spracherkennungssystem.
1 zeigt eine schematische Darstellung eines Raumes mit einem erfindungsgemäßen Spracherkennungssystem. In dem Raum ist eine Sprachquelle 1, eine Vielzahl von Mikrofonen 2 und ortsensitiven Erfassungsvorrichtungen 3 sowie eine Zentraleinheit 5 vorgesehen. Die Sprachquelle 1 gibt dabei ein Audiosignal 10 ab, welches beispielsweise einen Sprachbefehl darstellen kann. Sämtliche Mikrofone 2 und Erfassungseinrichtungen 3 sind mit der Zentraleinheit 5 verbunden.
In dem in 1 gezeigten Beispiel treffen die Audiosignale der Audioquelle zuerst auf das Mikrofon 2a und die Erfassungseinrichtung 3a rechts in der Mitte. Mit anderen Worten, es ist also zu erwarten, dass die von diesem Mikrofon aufgenommenen Audiosignale das beste Signal-/ Rauschverhältnis aufweisen, d.h. dieses Mikrofon muss so schnell wie möglich von der Zentraleinheit ausgewählt werden. Dazu wertet die Zentraleinheit zunächst alle Signale der ortsensitiven Erfassungseinrichtungen 3 aus, um die Position der Audioquelle 1 in dem Raum festzustellen. Dieser Vorgang kann sowohl statisch als auch dynamisch vorgenommen werden. Durch die Auswertung der Position der Audioquelle 1 kann die Zentraleinheit 5 voraussagen, welches der im Raum verteilten Mikrofone 2 voraussichtlich das beste Signal, d.h. das Signal mit dem besten Signal-/Rauschabstand, bereitstellen kann. Somit werden die von den Mikrofonen aufgenommenen akustischen Signale sowie die von den ortsensitiven Erfassungseinrichtungen 3 kommende Signale in der Zentraleinheit 5 korreliert.
Die Signale der anderen Mikrofone 2 können ebenfalls zur Verbesserung der Spracherkennung genutzt werden, indem sie in Abhängigkeit von dem Ort des jeweiligen Mikrofons und der Laufzeit der Audiosignale 10 zu den Signalen des ausgewählten Mikrofons addiert oder subtrahiert werden, um ein Stützsignal zu bilden. Durch die vorausschauende Auswahl des günstigsten Mikrofons kann die geforderte Reaktionszeit der Spracherkennung von 300ms eingehalten werden.
Die Verbindung zwischen der Zentraleinheit und den jeweiligen Mikrofonen 2 und den ortsensitiven Erfassungseinrichtungen 3 kann entweder drahtlos oder leitungsgebunden erfolgen. Ferner muss die Anzahl der Mikrofone nicht der Anzahl der ortsensitiven Erfassungseinrichtungen 3 entsprechen, d.h. es können auch weniger ortsensitive Erfassungseinrichtungen vorhanden sein, solange gewährleistet ist, dass die Position der Sprachquelle 1 hinreichend gut erfasst werden kann.
Vorzugsweise wird die Sprachquelle 1 von einem Benutzer einer Maschine oder einem Gerät dargestellt, welches die Maschine oder das Gerät mittels Sprachbefehlen steuern möchte.
Die ortsensitiven Erfassungseinrichtungen 3 können beispielsweise Sensoren zur Abstands- oder Bewegungsmessung darstellen, welche auf der Basis von Ultraschall, Infrarot, Wärme, Induktion, Kapazität, Funkwellen, Radar oder dergleichen arbeiten können. Denkbar wäre auch, dass die Personen, deren Sprachbefehle aufgenommen werden sollen, mit einem kleinen Sender ausgestattet werden, um die Positionsbestimmung zu erleichtern.
Das erfindungsgemäße System bzw. die akustische Einrichtung kann auch dazu eingerichtet sein, Befehlssignale akustisch aufzunehmen und in entsprechende Maschinenbefehle umzusetzen. Hierzu ist es besonders vorteilhaft, wenn bestimmte Maschinenbefehle in einer Datenbank zu entsprechenden Begriffen zugeordnet sind, so dass in einem gewünschten Fall, beispielsweise zur Einstellung des gesamten Systems oder einzelner Parameter, z.B. Frequenzgang, Empfindlichkeit, Ein- und Ausschaltfunktion etc. eingestellt werden. Eine solche Sprachsteuerung erleichtert unter Umständen die Einstellung des gesamten Systems und ist daher besonders vorteilhaft.

Claims

Audiosignal-Erkennungssystem, mit – einer Vielzahl von Mikrofonen (2) zur Aufnahme von Audiosignalen (10), – mindestens einer ortsensitiven Erfassungseinrichtung (3) zum Erfassen der Position einer Audioquelle (1), und – einer Zentraleinheit (5) zum Korrelieren der Signale der Vielzahl von Mikrofonen (2) und von der zumindest einen Erfassungseinrichtung (3), um dasjenige von einem Mikrofon (2a) der Vielzahl von Mikrofonen aufgenommene Signal auszuwählen, welches für die Erkennung der Audiosignale am besten geeignet ist.
System nach Anspruch 1, wobei – die Zentraleinheit (5) dasjenige von einem Mikrofon (2a) der Vielzahl von Mikrofonen aufgenommene Signal auswählt, welches das größte Signal-/ Rauschverhältnis aufweist.
System nach Anspruch 1 oder 2, wobei – die Vielzahl der Mikrofone (2) und die ortsensitiven Erfassungseinrichtungen (3) räumlich verteilt angeordnet sind.
System nach einem der Ansprüche 1 bis 3, ferner mit – einer Signal-Additionseinrichtung zum Addieren oder Subtrahieren der von den anderen Mikrofonen (2) der Vielzahl der Mikrofone aufgenommen Signale in Abhängigkeit der Position der jeweiligen Mikrofone (2) und der Laufzeiten der von den jeweiligen Mikrofonen (2) aufgenommenen Signalen.
System nach einem der vorherigen Ansprüche, wobei das System als Spracherkennungssystem ausgestaltet ist.
Verfahren zur Erkennung von Audiosignalen in einem Raum mit räumlich verteilten Mikrofonen (2) und ortsensitiven Erfassungseinrichtungen (3), mit den Schritten – Erfassen der Signale der Mikrofone (2) und der ortsensitiven Erfassungseinrichtungen (3), und – Korrelieren der erfassten Signale zum Auswählen eines der von den Mikrofonen (2) aufgenommenen Signales, welches für die Erkennung der Audiosignale am besten geeignet ist.
Verfahren nach Anspruch 6, wobei – die Auswahl der von den Mikrofonen (2) aufgenommenen Signale in Abhängigkeit der Signal-/Rauschverhältnisse dieser Signale erfolgt.
Verfahren nach Anspruch 6 oder 7, ferner mit dem Schritt – Addieren/Subtrahieren der von den anderen Mikrofonen (2) aufgenommenen Signalen entsprechend der Position der Mikrofone (2) und der Laufzeiten der von den Mikrofonen (2) aufgenommenen Signale.
Verfahren nach einem der Ansprüche 1 bis 8, wobei das Verfahren zur Spracherkennung ausgestaltet ist.