DE10058786A1

DE10058786A1 - Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts

Info

Publication number: DE10058786A1
Application number: DE10058786A
Authority: DE
Inventors: Volker Stahl
Original assignee: Philips Corporate Intellectual Property GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 2000-11-27
Filing date: 2000-11-27
Publication date: 2002-06-13
Also published as: CN1216364C; JP2004514926A; KR20020071966A; CN1397063A; WO2002043049A1; EP1340224A1; US20030138118A1

Abstract

Die Erfindung betrifft ein Verfahren zur Steuerung eines eine akustische Ausgabeeinrichtung (2) aufweisenden Geräts (1) mittels akustischer Befehlssignale (BS). Die Erfindung schlägt vor, dass das Gerät (1) automatisch seine Lautstärke reduziert, wenn das Gerät (1) erkennt, dass ein akustisches Befehlssignal an das Gerät (1) übermittelt wird.

Description

Die Erfindung betrifft ein Verfahren zur Steuerung eines eine akustische Ausgabeein richtung aufweisenden Geräts mittels akustischer Befehlssignale. Darüber hinaus betrifft die Erfindung ein Gerät mit einer akustischen Ausgabeeinrichtung, mit einer Empfangsein richtung zum Empfang akustischer Befehlssignale, mit einer Erkennungseinrichtung zum Erkennen dieser Befehlssignale und mit einer Steuereinrichtung zum Steuern des Geräts in Abhängigkeit von einem erkannten Befehlssignal.

Um die Benutzerfreundlichkeit und die Einsatzmöglichkeiten von Geräten, insbesondere von Geräten im Bereich der Consumer-Elektronik, zu erhöhen und die Geräte damit attraktiver zu machen, werden immer mehr Geräte derart ausgestattet, dass eine Steuerung des Geräts mittels akustischer Befehlssignale möglich ist. So werden auf dem Markt bereits seit längerem schaltbare Geräte wie beispielsweise Wecker oder Leuchten angeboten, die mittels sehr einfacher akustischer Befehlssignale, beispielsweise Geräusche wie Klatschen oder Pfeifen, ein- bzw. ausgeschaltet oder zwischen verschiedenen Modi hin- und hergeschaltet werden können. Mit zunehmender Entwicklung von Spracherkennungs systemen gibt es darüber hinaus auch Geräte, die als Befehlssignale verschiedene Sprach befehle erkennen können und akzeptieren, so dass auch kompliziertere Steuerungen solcher Geräte möglich sind. Derartige sprachsteuerbare Geräte sind ausgesprochen komfortabel, da der Bediener das jeweilige Gerät freihändig bedienen kann. Große Vorteile hat dieses Steuerungsverfahren folglich überall dort, wo der Bediener seine Hände für andere Tätig keiten benötigt, etwa bei der Steuerung eines Autoradios, bei der der Bediener zur Ver änderung der Lautstärke oder zur Einstellung eines neuen Kanals nicht die Hände vom Lenkrad nehmen muss. Darüber hinaus ist dieses Verfahren aber auch allgemein zur Bedienung von Geräten deshalb sehr attraktiv, weil durch eine solche Sprachsteuerung die Schnittstelle zwischen Mensch und Maschine (MMI; Man-Machine-Interface) von der bisher üblichen Kommunikationsebene von Maschinen, nämlich einer Bedienung durch Knöpfe und Regler, auf die dem Menschen eigene Kommunikationsebene, nämlich eine Informationsübermittlung per Sprache, verlagert wird. Eine Schwierigkeit ergibt sich jedoch bei der Steuerung von Geräten, die eine akustische Ausgabeeinrichtung aufweisen und die funktionsgemäß selbst akustische Signale erzeugen, d. h. beispielsweise alle Audio- oder audiovisuellen Geräte wie Radio, CD-Player, Fernseher, Video-Abspielgeräte, Computer etc. Bei derartigen Geräten mit einer Audiofunktion empfängt die Erkennungs einrichtung, welche die Befehlssignale identifizieren soll, nicht nur das Befehlssignal allein, sondern auch das vom Gerät selbst erzeugte akustische Ausgangssignal (beispielsweise bei einem CD-Player die abgespielte Musik) als akustisches Echo. Das eigene Ausgangssignal liegt folglich wie ein Hintergrundgeräusch unter dem Befehlssignal. Je nach Lautstärke des Befehlssignals bzw. des eigenen Ausgangssignals führt dies zu erheblichen Problemen bei der Erkennung der Befehlssignale.

Üblicherweise wird zur Verbesserung der Erkennungsleistung bei solchen Geräten das sogenannte "AEC-Verfahren" (Acoustic Echo Cancellation) angewandt. Bei diesem Ansatz wird das vom Gerät selbst generierte Ausgangssignal genutzt, um ein Raumimpuls- Antwortsignal abzuschätzen, d. h. das Signal abzuschätzen, das durch eine Reflexion des Ausgangssignals innerhalb des Raums, in welchem sich das Gerät befindet, von der Auf nahmeeinrichtung wieder erfasst wird. Dies geschieht in einem sogenannten "adaptiven Filterverfahren", bei dem iterativ eine Transferfunktion ermittelt wird, mit der das ursprüngliche Ausgangssignal zunächst transformiert wird und dann das so transformierte Ausgangssignal in einem Filter von dem empfangenen Gesamteingangssignal abgezogen wird. Das Verfahren ist insoweit adaptiv, als das Iterationsverfahren permanent weiter geführt wird und somit Veränderungen im Raum, welche mit einer Veränderung der Transferfunktion einhergehen, erfasst werden. Beispielsweise könnten sich Veränderungen im akustischen Echo ergeben, wenn innerhalb des Raums eine Gardine auf oder zuge zogen wird, eine Tür geöffnet wird oder sich Personen innerhalb des Raums bewegen. Im Allgemeinen ist dieses Verfahren recht erfolgreich. Es ist jedoch beobachtet worden, dass die Genauigkeit von Spracherkennungssystemen signifikant nachlässt, wenn die Lautstärke des Ausgangssignals des Geräts selbst ansteigt. Der Grund hierfür liegt darin, dass der adaptive AEC-Filter die Raumcharakteristika nicht optimal modellieren kann und daher die Störung des Signals nach dem Ausfiltern des akustischen Echos in etwa proportional zur Lautstärke des Geräts selbst ist.

Es ist Aufgabe der vorliegenden Erfindung, ein einfaches und benutzerfreundliches Ver fahren zur akustischen Steuerung von Geräten, welche selbst ein akustisches Ausgangs signal erzeugen, sowie ein entsprechendes Gerät zu schaffen, bei dem die Erkennungs genauigkeit der Befehlssignale gegenüber dem bisherigen Stand der Technik verbessert ist.

Diese Aufgabe wird durch ein Verfahren gemäß Anspruch 1 und ein Gerät gemäß Anspruch 10 gelöst.

Erfindungsgemäß wird von dem Gerät selbst sofort die Lautstärke reduziert, sobald das Gerät erkennt, dass ein mögliches akustisches Befehlssignal an das Gerät übermittelt wird. Durch die automatische Reduzierung der Lautstärke des Geräts ist das Befehlssignal für das Gerät aufgrund des kleineren akustischen Echos leichter und sicherer erkennbar. Außer dem ist es für den Benutzer in der Regel angenehmer, ein Sprachkommando zu äußern, wenn das Audiogerät nicht so laut ist. Im übrigen wird durch die Verminderung der Laut stärke auch der sogenannte "Lombard-Effekt" vermindert, der bedeutet, dass ein Mensch automatisch anders, beispielsweise lauter und akzentuierter spricht, wenn er gegen Hinter grundgeräusche ansprechen muss, was zwangsläufig Auswirkungen auf die Erkennungs leistung eines Spracherkennungssystems hat.

Ein entsprechendes erfindungsgemäßes Gerät muss zunächst eine akustische Ausgabe einrichtung, eine Empfangseinrichtung zum Empfang der akustischen Befehlssignale, beispielsweise ein übliches Mikrofon, sowie eine Erkennungseinrichtung zum Erkennen dieser Befehlssignale und eine Steuereinrichtung zum Steuern des Geräts in Abhängigkeit von einem erkannten Befehlssignal aufweisen. Darüber hinaus muss das Gerät geeignete Mittel zur Erkennung, dass die Empfangseinrichtung ein mögliches Befehlssignal für das Gerät empfängt, sowie geeignete Mittel aufweisen, mit denen die Lautstärke des von der akustischen Ausgabeeinrichtung ausgegebenen Ausgangssignals reduziert wird, sobald der Empfang eines möglichen Befehlssignals für das Gerät erkannt wird.

Eine solche Erkennung, dass ein Befehlssignal an das Gerät gerichtet ist, ist auf ver schiedene Weise möglich. Beispielsweise kann das Gerät so ausgestattet bzw. eingestellt sein, dass ein von einem bestimmten Benutzer in einer definierten Lautstärke und/oder Tonlage und/oder Sprechrichtung gesprochenes Wort als mögliches Befehlssignal erkannt wird und daraufhin die Lautstärke reduziert wird.

Bei einer besonders einfachen, bevorzugten Ausführungsform wird dem eigentlichen Befehlssignal ein Schlüsselbefehlssignal vorausgeschickt, bei dessen Erkennung die Laut stärke reduziert wird. Bei diesem Schlüsselbefehlssignal handelt es sich sinnvollerweise um genau das Befehlssignal, welches das Gerät in einen Bereitschaftszustand zum Empfang von weiteren Befehlssignalen versetzt, d. h. welches die Steuereinrichtung des jeweiligen Geräts zunächst aktiviert. Derartige "Aktivierungssignale" sind in vielen Fällen ohnehin notwendig, da auf diese Weise verhindert werden kann, dass unbeabsichtigt vom Nutzer abgegebene Befehlssignale, beispielsweise bestimmte Wörter innerhalb eines Gesprächs oder andere Hintergrundgeräusche, vom Gerät identifiziert und akzeptiert werden und so eine Steuerungsaktion durchgeführt wird, die eigentlich nicht erwünscht ist. Insbesondere sind solche Schlüsselbefehlssignale sinnvoll, wenn in derselben Umgebung mehrere sprachsteuerbare Geräte vorhanden sind, die jeweils ähnliche oder gleiche Befehlssignale akzeptieren. In diesem Fall muss durch ein entsprechendes Schlüsselbefehlssignal das Gerät, für welches ein bestimmtes Befehlssignal gedacht ist, durch ein vorangestelltes Schlüsselbefehlssignal angesprochen werden. So könnten beispielsweise ein sprachge steuerter Computer und ein Fernsehgerät unmittelbar nebeneinander angeordnet sein, und den Befehlssignalen für die Geräte wird jeweils das Schlüsselbefehlssignal "Computer" oder "TV" vorangesetzt.

Die automatische Reduzierung der Lautstärke des Ausgangssignals des Geräts bei Erkennen des Schlüsselbefehlssignals hat außerdem den Vorteil, dass dem Benutzer auf diese Weise gleich mitgeteilt wird, dass das jeweilige Gerät sich im Bereitschaftszustand zum Empfang von weiteren Befehlssignalen befindet und sozusagen dem Benutzer "zuhört". Optional kann das Gerät auch noch zusätzlich eine visuelle oder akustische Bestätigung für den Empfang des Schlüsselbefehlssignals abgeben.

Das Heraufsetzen der Lautstärke erfolgt vorzugsweise automatisch dann wieder, nachdem ein - beispielsweise dem Schlüsselbefehl nachfolgendes - Befehlssignal erkannt wurde. Dies bedeutet z. B., dass nach jedem Schlüsselbefehlssignal genau ein Befehlssignal akzeptiert wird. Alternativ dazu ist es möglich, dass nach Ablauf einer bestimmten Zeitspanne nach Erkennung des Schlüsselbefehlssignals bzw. eines Befehlssignals die Lautstärke wieder automatisch auf den zuvor eingestellten Wert zurückgestellt wird. In diesem Fall würde das Gerät nach Erhalt eines Befehlssignals noch eine gewisse Zeit abwarten, ob ein weiteres Befehlssignal kommt. Erst dann würde das Gerät automatisch aus dem Bereitschaftszustand bzw. aktivierten Zustand zurückschalten.

Bei einem besonders bevorzugten Ausführungsbeispiel wird die Lautstärke des Ausgangs signals in Abhängigkeit von einer ermittelten Befehlssignalenergie reduziert. Unter Befehls signalenergie wird hierbei die Signalenergie der empfangenen Befehlssignale verstanden, wobei das Schlüsselbefehlssignal selbstverständlich auch als ein - besonderes - Befehlssignal in diesem Sinne zu verstehen ist. So könnte beispielsweise die Lautstärke des eigenen Ausgangssignals dieses Geräts nur dann reduziert werden, wenn das eigene Ausgangssignal tatsächlich im Verhältnis zu den Befehlssignalen so laut ist, dass eine zuverlässige Erken nung der Befehlssignale nicht mehr gewährleistet werden kann. Dies lässt sich auf einfache Weise dadurch steuern, dass das Verhältnis zwischen der Ausgangssignalenergie oder der Signalenergie des ermittelten bzw. abgeschätzten akustischen Echos des Ausgangssignals und der Befehlssignalenergie ermittelt wird. Nur wenn dieses Verhältnis innerhalb eines bestimmten Wertebereichs bezüglich eines vorgegebenen Schwellwerts liegt, wird die Lautstärke reduziert. Beispielsweise wird, wenn das Verhältnis von der Energie des Aus gangssignals bzw. des akustischen Echos zu der Befehlssignalenergie ermittelt wird, nur dann, wenn dieses Verhältnis oberhalb eines vorgegebenen Schwellwerts liegt, die Laut stärke reduziert. Andersherum wird, wenn das Verhältnis von der Befehlssignalenergie zu der Ausgangssignalenergie bzw. der Energie des akustischen Echos ermittelt wird, nur dann die Lautstärke reduziert, wenn dieses Verhältnis unterhalb eines vorgegebenen Schwellwerts liegt. Die Befehlssignalenergie kann beispielsweise am Eingang der Empfangseinrichtung bzw. des Mikrofons gemessen werden.

Bei einem besonders bevorzugten Verfahren wird dabei die Lautstärke des Ausgangssignals genau so weit reduziert, bis das Verhältnis der Signalenergien auf einem vorgegebenen Wert liegt. Für den Benutzer bedeutet dies, dass, wenn das vom Gerät selbst ausgegebene akustischen Signal, beispielsweise die Musik eines CD-Players, ohnehin leise ist oder wenn der Benutzer sich nah am Mikrofon des Geräts befindet, die Musiklautstärke nicht reduziert wird, sondern unverändert bleibt. Ansonsten wird die Lautstärke soweit reduziert, dass die Musikenergie und die Energie des Sprachbefehls am Mikrofoneingang ein vor bestimmtes Verhältnis haben. Dieses Verhältnis kann vom Benutzer zuvor definiert und eingestellt werden oder kann auch automatisch dadurch definiert sein, dass eine bestimmte Erkennungszuverlässigkeit der Erkennungseinrichtung erreicht wird.

Insbesondere in diesem Fall ist es sinnvoll, wenn das Gerät zusätzliche Mittel zur visuellen oder akustischen Anzeige aufweist, die anzeigen, dass das Schlüsselbefehlssignal erkannt wurde, da der Benutzer sich nicht immer darauf verlassen kann, dass die Lautstärke nach Erkennung des Schlüsselbefehlssignals reduziert wird.

Das Gerät weist vorzugsweise zusätzlich eine Filtereinrichtung zum Ausfiltern eines akustischen Echos des vom Gerät selbst ausgegebenen Ausgangssignals aus dem vom Gerät empfangenen Gesamtsignal auf. Das heißt, das neuartige Verfahren wird zusätzlich zu einem AEC-Verfahren verwendet, um so eine optimale Erkennungsleistung zu erzielen.

Typische Sprachkommandos, welche zur Steuerung von Audiogeräten oder audiovisuellen Geräten verwendet werden, sind Kommandoworte, um die Lautstärke des Geräts zu steuern. Bei derartigen "Lautstärke-Befehlssignalen" kann es sich beispielsweise um die Worte "lauter" oder "leiser" handeln. Da erfindungsgemäß vom Gerät sofort nach Erkennung des Schlüsselbefehlssignals die Lautstärke reduziert wird, kann der Benutzer nicht mehr erkennen, welchen Effekt sein Lautstärke-Befehlssignal selbst hat. Vorzugsweise wird für derartige Lautstärke-Befehlssignale daher vom Gerät selbst, nachdem ein solches Lautstärke-Befehlssignal erkannt wurde, die Lautstärke zunächst wieder auf den vor der Reduzierung eingestellten Wert zurückgestellt. Erst danach wird die Lautstärke auf einen dem Lautstärke-Befehlssignal entsprechenden Wert umgestellt. Das heißt, es wird beispielsweise bei Erkennung des Wortes "leiser" die Lautstärke um eine bestimmte Stufe herabgesetzt bzw. bei Erkennung des Wortes "lauter" um eine bestimmte Stufe herauf gesetzt.

Die Erfindung wird nachfolgend unter Bezugnahme auf die beigefügte Figur anhand eines Ausführungsbeispiels näher erläutert.

Die einzige Figur zeigt hierbei ein schematisches Blockschaltbild eines Audiogeräts 1, beispielsweise eines CD-Players, wobei nur die für die Erfindung wesentlichen Komponenten dargestellt sind.

Das Audiogerät 1 weist dabei zunächst eine Audiosignalquelle 6 auf. Bei dieser Audio signalquelle 6 handelt es sich bei einem CD-Player beispielsweise um das CD-Laufwerk, die Abtasteinrichtung und die Elektronik zur Umsetzung der erfassten optischen Daten in das Audiosignal. Das von der Audiosignalquelle 6 erzeugte Audiosignal wird dann an einen Verstärker 8, beispielsweise eine übliche Endstufe 8, weitergeleitet und von dort über eine akustische Ausgabeeinrichtung 2, hier einen üblichen Lautsprecher 2, ausgegeben.

Zur Steuerung weist das Gerät 1 eine Steuereinrichtung 5 auf, welche beispielsweise in Form eines Mikrocontrollers oder dergleichen realisiert sein kann. Mittels dieser Steuerein richtung 5 kann die Audiosignalquelle 6 angesteuert werden, beispielsweise ein spezieller Titel auf einer CD ausgewählt werden. Diese Steuerungsmöglichkeit ist in der Figur durch die dargestellte Steuerleitung 18 angedeutet. Ebenso kann über die Steuereinrichtung 5 die Lautstärke des Geräts 1 geregelt werden. Dies erfolgt durch Ansteuerung der Endstufe 8. Diese Steuerungsmöglichkeit ist in der Figur durch die Steuerleitung 19 dargestellt.

Die Befehle für die Steuerung erhält das Gerät 1 in Form von akustischen Befehlssignalen BS, hier Sprachbefehlen, die der Benutzer über eine Aufnahmeeinrichtung 3, hier ein Mikrofon 3, eingibt und die über die Leitungen 14, 15 an eine Erkennungseinrichtung 4, hier ein Spracherkennungssystem 4, weitergeleitet werden. Der erkannte Befehl wird dann über die Signalleitung 17 an die Steuereinrichtung 5 weitergeleitet, welche dann ent sprechend dem erhaltenen Befehl die einzelnen Komponenten des Geräts 1 steuert.

Wie in der Figur dargestellt, wird vom Mikrofon 3 nicht nur das Befehlssignal BS, sondern auch ein akustisches Echo AE erfasst, welches durch das vom Lautsprecher 2 des Geräts 1 selbst ausgegebene akustische Signal, hier die Musik von der CD, erzeugt wird. Das akustische Echo AE hängt dabei nicht nur vom ausgegebenen Signal, sondern auch von den akustischen Parametern des Raums ab. Um die Störungen durch dieses akustische Echo AE bei der Erkennung der Befehlssignale BS zu verringern, weist das Gerät eine Filtereinrichtung 9 (im folgenden AEC-Einheit genannt) auf, in dem aus dem am Mikrofon 3 empfangenen Gesamtsignal das akustische Echo AE ausgefiltert wird.

Hierzu wird aus dem Signalausgangszweig, welcher von der Audiosignalquelle 6 über die Endstufe 8 zum Lautsprecher 2 verläuft, vor der Endstufe 8 am Abgriffspunkt 21 das Ausgangssignal abgegriffen und über eine Signalleitung 11 der AEC-Einheit 9 zugeführt, welche das abgegriffene Ausgangssignal mit einer Transferfunktion transformiert. Diese Transferfunktion entspricht der geschätzten Raumimpulsantwort. Die jeweils aktuelle Raumimpulsantwort wird mit einem iterativen Verfahren ermittelt, wobei ständig eine Aktualisierung erfolgt und somit eine adaptive Filterung durchgeführt wird, welche Veränderungen im Raum, beispielsweise durch Bewegungen von Personen oder Gegen ständen, berücksichtigt. Das mittels der Transferfunktion transformierte Ausgangssignal wird in einem Addierer 10 der AEC-Einheit 9 von dem über die Signalleitung 14 vom Mikrofon 3 kommenden Gesamtsignal abgezogen. Über die Ausgangsleitung 15 wird von der AEC-Einheit 9 dann das Restsignal, welches idealerweise nur noch dem Befehlssignal BS entspricht, an das Spracherkennungssystem 4 weitergeleitet. Die AEC-Einrichtung 9 weist außerdem einen Eingang 12 auf, an dem das über die Steuerleitung 19 von der Steuereinrichtung 5 an die Endstufe 8 ausgegebene Steuersignal zur Regelung der Laut stärke anliegt. In der AEC-Einheit 9 können so die Koeffizienten für die Transferfunktion entsprechend der eingestellten Lautstärke skaliert werden.

Erfindungsgemäß weist das Gerät 1 zusätzlich Mittel 7 in Form eines Abschwächers 7 auf, mit dem die Lautstärke des Geräts 1 reduziert werden kann, wenn vom Spracherkennungs system 4 ein Schlüsselbefehlssignal SBS erkannt wird. Im vorliegenden Ausführungsbeispiel muss daher als erstes Befehlssignal dieses Schlüsselbefehlssignal SBS vom Benutzer ge sprochen werden. Das Spracherkennungssystem 4 ist so ausgelegt, dass es nur auf dieses spezielle Schlüsselbefehlssignal SBS, d. h. hier ein bestimmtes Kennwort wie zum Beispiel das Wort "CD", wartet. Nachdem dieses Kennwort akzeptiert wurde, wird erst das gesamte komplexe Befehlsvokabular des Spracherkennungssystems 4 aktiviert, und das Gerät 1 ist in einem Bereitschaftsmodus, in dem weitere Befehlssignale erkannt und akzeptiert werden, beispielsweise Befehle wie "lauter", "leiser", "nächster Titel", Titel 5" etc. Nachdem das jeweilige, dem Schlüsselbefehlssignal SBS nachfolgende Befehlssignal BS erkannt wurde, schaltet das Gerät 1 zurück in einen Zustand, wo es wieder auf das Schlüsselbefehlssignal SBS wartet.

Bei Erkennung des Schlüsselbefehlssignals SBS wird erfindungsgemäß automatisch von der Steuereinrichtung 5 über die Steuerleitung 20 der Abschwächer 7 aktiviert und somit die Lautstärke des eigenen Ausgangssignals des Geräts 1 herabgesetzt. Dadurch ist das nach folgende Befehlssignal BS, d. h. der eigentliche Befehl, für das Spracherkennungssystem 4 leichter zu identifizieren. Diese Herabsetzung der Lautstärke kann beispielsweise um einen bestimmten Wert, z. B. 10 dB, oder auf eine voreingestellte Lautstärkestufe erfolgen. Es ist auch möglich, die Lautstärke ganz auf Null herabzusetzen.

In dem in der Figur dargestellten Ausführungsbeispiel wird jedoch über die Signalleitungen 13, 16 der Steuereinrichtung 5 die am Signaleingangszweig vor und hinter dem Filter 10 anliegenden Signale zugeführt. Aus diesen Signalen vor und hinter dem Filter 10 kann die Steuereinrichtung 5 ermitteln, welche Signalenergie das akustische Echo AE am Mikrofon aufweist und welche Signalenergie das eigentlich gewünschte Befehlssignal BS aufweist. Die Steuereinrichtung 5 ist so ausgebildet, dass sie die Lautstärke des Ausgangssignals mittels des Abschwächers 7 soweit reduziert, dass ein bestimmtes Verhältnis zwischen Signalenergie des akustischen Echos AE und Signalenergie des Befehlssignals BS gegeben ist. Ist das Verhältnis der Signalenergien bereits unterhalb dieses Wertes, so wird die Lautstärke nicht weiter reduziert. Das heißt, dass die Musiklautstärke dann nicht mehr reduziert wird, wenn die Musik ohnehin leise ist oder wenn der Benutzer sich nah am Mikrofon befindet und die Befehlssignale BS gut zu erkennen sind. Ansonsten wird die Musiklautstärke genau soviel reduziert, dass die Energie der Musik und die Energie der Sprachbefehle am Mikrofoneingang ein vorbestimmtes Verhältnis haben.

Mittels eines einfachen Schalters 22 lässt sich bei dem dargestellten Ausführungsbeispiel der Abschwächer 7 im Signalausgangszweig überbrücken und so die erfindungsgemäße Funktion vom Benutzer auf Wunsch außer Kraft setzen.

Der separate Abschwächer 7 ist hier so im Signalausgangszweig angeordnet, dass das Signal bereits vor der Abzweigstelle 21 zum Abgriff des Ausgangssignals für die AEC-Einheit 9 abgeschwächt wird. Dadurch wird automatisch berücksichtigt, dass bei einer Reduzierung der Lautstärke die AEC-Einheit 9 diese Lautstärkereduzierung bei der Abschätzung der Raumimpulsantwort berücksichtigt. Eine Reduzierung der Lautstärke des Ausgangssignals des Geräts 1 ohne Berücksichtigung in der AEC-Einheit 9 würde zu einer zusätzlichen Störung durch die Filterung im Filter 10 führen und die Erkennung des Befehlssignals BS eher erschweren.

Anstelle des separaten Abschwächers 7 könnte die Lautstärke von der Steuereinrichtung 5 nach Erkennung des Schlüsselbefehlssignals SBS auch durch die Regelung der Endstufe 8 herabgesetzt werden.

Bei dem erfindungsgemäßen Gerät 1 bzw. durch das erfindungsgemäße Verfahren wird die Erkennungsgenauigkeit der Sprachsteuerung durch die Reduktion der Verzerrung des Eingangssignals des Spracherkenners erheblich verbessert. Es wird ein sehr benutzer freundliches Sprachinterface geschaffen, da der Benutzer durch die Reduzierung der Lautstärke eine Rückmeldung vom Gerät 1 erhält, dass dieses für ein Sprachkommando bereit ist. Optional kann eine zusätzliche Rückmeldung durch ein visuelles oder weiteres akustisches Signal, beispielsweise einen Signalton, folgen.

Claims

1. Verfahren zur Steuerung eines eine akustische Ausgabeeinrichtung (2) aufweisenden Geräts (1) mittels akustischer Befehlssignale (BS), dadurch gekennzeichnet, dass, sobald das Gerät (1) erkennt, dass ein akustisches Befehlssignal an das Gerät (1) übermittelt wird, automatisch die Lautstärke des von der akustischen Ausgabeeinrichtung (2) ausgegeben Ausgangssignals reduziert wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zunächst ein akustisches Schlüsselbefehlssignal (SBS) an das Gerät (1) übermittelt wird, durch das das Gerät (1) in einen Bereitschaftszustand zum Empfang von weiteren Befehlssignalen (BS) versetzt wird, und bei einer Erkennung dieses Schlüsselbefehlssignals (SBS) durch das Gerät (1) die Lautstärke des von der akustischen Ausgabeeinrichtung (2) ausgegebenen Ausgangssignals reduziert wird.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Lautstärke des Ausgangssignals in Abhängigkeit von einer ermittelten Befehlssignalenergie reduziert wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Lautstärke des Ausgangssignals nur reduziert wird, wenn das Verhältnis zwischen einer ermittelten Ausgangssignalenergie oder einer Signalenergie eines ermittelten akustischen Echos (AE) des Ausgangssignals und der Befehlssignalenergie in einem bestimmten Wertebereich bezüglich eines vorgegebenen Schwellwerts liegt.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Lautstärke des Ausgangssignals soweit reduziert wird, bis das Verhältnis zwischen der Ausgangssignalenergie oder der Signalenergie des akustischen Echos (AE) des Ausgangssignals und der Befehlssignalenergie einem vorgegebenen Wert entspricht.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass nach der Erkennung eines auf das Schlüsselbefehlssignal (SBS) folgenden Befehlssignals (BS) die Lautstärke wieder auf den vor der Reduzierung eingestellten Wert zurückgestellt wird.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass nach Ablauf einer bestimmten Zeitspanne nach der Erkennung eines Schlüsselbefehlssignals (SBS) oder eines Befehlssignals (BS) die Lautstärke wieder auf den vor der Reduzierung eingestellten Wert zurückgestellt wird.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass nach der Erkennung eines Lautstärke-Befehlssignals, welches zur Veränderung der Lautstärke übermittelt wird, die Lautstärke zunächst wieder auf den vor der Reduzierung eingestellten Wert zurückgestellt wird und dann auf einen dem Lautstärke-Befehlssignal entsprechenden Wert eingestellt wird.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die Erkennung des Schlüsselbefehlssignals einem Nutzer des Geräts visuell oder akustisch angezeigt wird.

10. Gerät (1) mit einer akustischen Ausgabeeinrichtung (2), mit einer Empfangseinrichtung (3) zum Empfang akustischer Befehlssignale (BS), mit einer Erkennungseinrichtung (4) zum Erkennen dieser Befehlssignale (BS) und mit einer Steuereinrichtung (5) zum Steuern des Geräts (1) in Abhängigkeit von einem erkannten Befehlssignal (BS),
gekennzeichnet durch Mittel zur Erkennung, dass die Empfangseinrichtung (3) ein Befehlssignal (BS) für das Gerät (1) empfängt,
und Mittel (7) zur Reduzierung der Lautstärke des von der akustischen Ausgabeeinrichtung (2) ausgegeben Ausgangssignals, sobald der Empfang eines möglichen Befehlssignals (BS) für das Gerät (1) erkannt wird.

11. Gerät nach Anspruch 10, dadurch gekennzeichnet, dass die Mittel zur Erkennung, dass die Empfangseinrichtung (3) ein Befehlssignal (BS) für das Gerät (1) empfängt, Mittel zur Erkennung eines Schlüsselbefehlssignals (SBS), durch welches das Gerät (1) in einen Bereitschaftszustand zum Empfang von weiteren Befehlssignalen (BS) versetzt wird, umfassen.

12. Gerät nach Anspruch 10 oder 11, gekennzeichnet durch eine Filtereinrichtung (9) zum Ausfiltern eines akustischen Echos (AE) des vom Gerät (1) selbst ausgegebenen Ausgangssignals aus einem von der Empfangseinrichtung (3) empfangenen Gesamtsignal.

13. Gerät nach Anspruch 12, dadurch gekennzeichnet, dass die Mittel (7) zur Reduzierung des Ausgangssignals einer Abzweigstelle des Geräts vor einer Abgriffsstelle (21) angeordnet sind, an welcher ein dem Ausgangssignal entsprechendes Signal für die Filtereinrichtung (9) abgegriffen wird.

14. Gerät nach Anspruch 12 oder 13, dadurch gekennzeichnet, dass die Filtereinrichtung (9) einen Eingang (12) zur Übermittlung eines Steuerbefehls zur Reduzierung der Lautstärke des Ausgangssignals des Geräts (1) aufweist.

15. Gerät nach einem der Ansprüche 10 bis 14, gekennzeichnet durch Mittel (5, 13, 16) zur Ermittlung des Verhältnisses zwischen einer Signalenergie des Ausgangssignals und/oder des akustischen Echos (AE) des Ausgangssignals und einer Signalenergie des Befehlssignals (BS).