DE19944325A1

DE19944325A1 - Verfahren und Vorrichtung zur Spracherkennung

Info

Publication number: DE19944325A1
Application number: DE19944325A
Authority: DE
Inventors: Ernst F Schroeder
Original assignee: Deutsche Thomson Brandt GmbH
Current assignee: Deutsche Thomson Brandt GmbH
Priority date: 1999-09-15
Filing date: 1999-09-15
Publication date: 2001-03-22
Also published as: JP2001134291A; CN1288224A; KR20010030122A; EP1091347A3; ZA200004442B; EP1091347A2

Abstract

Sprachsteuerungssysteme finden in einer Vielfalt von technischen Gebieten Anwendung. Die gesprochenen Worte werden hierbei durch ein oder mehrere Mikrofone detektiert und dann einem Spracherkennungssystem zugeführt. Von Nachteil bei den bekannten Spracherkennungssystemen ist, daß der Benutzer die Spracherkennung zunächst aktivieren muß, beispielsweise durch Drücken eines hierfür an der Fernbedienung vorgesehenen Knopfes. Erfindungsgemäß werden zunächst eine einfache Spracherkennung und anschließend ein oder mehrere komplizierte Spracherkennungen durchgeführt werden. Hierbei ist die einfache Spracherkennung weitgehend dialekt- und sprecherunabhängig, weist aber nur einen geringen Wortschatz auf und ermöglicht kein Erkennen einer Wortfolge, wogegen mindestens eine der komplizierteren Spracherkennungen weitgehend dialekt- und sprecherabhängig ist, aber einen umfangreichen Wortschaft aufweist und/oder ein Erkennen einer Wortfolge ermöglicht. Vorteilhafterweise wird die einfache Spracherkennung zum Einschalten einer der kompliziereren Spracherkennungen verwendet.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Sprachsteuerung, insbesondere zur Steuerung von Geräten der Unterhaltungselektronik.

Stand der Technik

Sprachsteuerungssysteme finden in einer Vielzahl von technischen Gebieten Anwendung. Die gesprochenen Worte werden hierbei zunächst als Schallsignale detektiert, üblicherweise durch ein oder mehrere Mikrofone, und dann einem Spracherkennungssystem zugeführt. Die Spracherkennung basiert hierbei üblicherweise auf einem Akustik- und einem Sprachmodell. Das akustische Modell nutzt eine große Anzahl von Sprachmustern, wobei mathematische Algorithmen dazu verwendet werden, die akustisch am besten passenden Worte zu einem gesprochenen Wort anzugeben. Das Sprachmodell wiederum basiert auf einer Analyse, bei der anhand von einer Vielzahl von Dokumentproben festgestellt wird, in welchem Kontext und wie häufig gewisse Wörter normalerweise verwendet werden. Mit solchen Spracherkennungssystemen ist nicht nur das Erkennen einzelner Wörter, sondern auch von fließend gesprochenen Sätzen mit hohen Erkennungsraten möglich. Die Erkennungsrate sinkt jedoch drastisch, wenn nicht vernachlässigbare Hintergrundgeräusche vorliegen.

Die Robustheit gegen solche akustische Störeinflüsse kann auf verschiedene Weisen erhöht werden. So wird bei Diktiersystemen für Computer ein Mikrofon an einem Kopfhörergestell direkt vor dem Mund des Sprechers befestigt. Bei diesen Systemen kann nur durch die unmittelbare Nähe zum Mund ein sehr konstantes Signal und damit eine zum Teil beachtliche Erkennungsrate erreicht werden. Ebenso ist es bekannt, ein Fernsehgerät zu steuern, indem die Bedienungsbefehle in das in einer Fernbedienung integrierte Mikrofon gesprochen werden. Auch hier muß jedoch die Fernbedienung unmittelbar vor den Mund des Benutzers gehalten werden.

Von Nachteil bei den bekannten Spracherkennungsystemen ist jedoch, daß der Benutzer die Spracherkennung zunächst aktivieren muß, beispielsweise durch Drücken eines hierfür an der Fernbedienung vorgesehenen Knopfes.

Erfindung

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Sprachsteuerung anzugeben, welches eine Spracheingabe aus größerer Ferne ohne vorherige Aktivierung durch den Benutzer ermöglicht. Diese Aufgabe wird durch das in Anspruch 1 angegebene Verfahren gelöst.

Der Erfindung liegt die weitere Aufgabe zugrunde, eine Vorrichtung zur Durchführung des erfindungsgemäßen Verfahrens anzugeben. Diese Aufgabe wird durch die in Anspruch 6 angegebene Vorrichtung gelöst.

Im Prinzip besteht das Verfahren zur Spracherkennung, bei dem Sprachbefehlen entsprechende Schallsignale in elektrische Signale umgewandelt werden, die durch eine Spracherkennung in Bedienungsbefehle umgewandelt werden, darin, daß zunächst eine einfache Spracherkennung und anschließend eine oder mehrere kompliziertere Spracherkennungen durchgeführt werden.

Vorzugsweise ist die einfache Spracherkennung weitgehend dialekt- und sprecherunabhängig, weist aber nur einen geringen Wortschatz auf und ermöglicht kein Erkennen einer Wortfolge, wogegen mindestens eine der komplizierteren Spracherkennungen weitgehend dialekt- und sprecherabhängig ist, aber einen umfangreichen Wortschatz aufweist und/oder ein Erkennen einer Wortfolge ermöglicht.

Vorteilhafterweise wird die einfache Spracherkennung zum Einschalten einer der komplizierteren Spracherkennungen verwendet.

Ebenso kann es von Vorteil sein, wenn die einfache Spracherkennung zur Sprecher-Identifizierung dient.

Schließlich kann die einfache Spracherkennung vorteilhafterweise zur Stummschaltung oder Reduzierung der Lautstärke einer Audiowiedergabe dienen.

Zeichnung

Anhand der Zeichnung wird ein Ausführungsbeispiel der Erfindung beschrieben.

Diese zeigt einen schematischen Ablauf des erfindungsgemäßen Verfahrens.

Ausführungsbeispiele

In Fig. 1 ist schematisch der Ablauf eines erfindungsgemäßen Verfahrens in Form eines Flußdiagramms dargestellt. Zunächst wird in einem ersten Verfahrensschritt 1 ein Schallsignal durch ein oder mehrere Mikrofone in elektrische Signale umgewandelt, so daß ein analoges Sprachsignal vorliegt. Dieses wird dann in einem zweiten Verfahrensschritt 2 durch einen Analog- Digital-Wandler in ein digitales Sprachsignal umgewandelt. Dann wird in einem weiteren Schritt 3 geprüft, ob vorher bereits eine Spracherkennung durch einen einfachen Spracherkenner erfolgt ist. Wenn dieses der Fall ist, werden die Verfahrensschritte 4b, 5b, 6 durchlaufen, anderenfalls die Verfahrensschritte 4a, 5a, 6. Durch eine Signalverarbeitung bzw. -analyse 4a, 4b werden aus dem digitalisierten akustischen Signal Merkmale gewonnen, die möglichst typisch für die einzelnen Laute der Sprache und robust gegenüber Störungen und Schwankungen in der Aussprache sind. Diese Merkmalsextraktion erfolgt in dem dargestellten Ausführungsbeispiel getrennt für die verschiedenen Spracherkenner, kann aber auch gemeinsam erfolgen. Die eigentliche Spracherkennung erfolgt dann in den Verfahrensschritten 5a bzw. 5b. Die durch die Signalverarbeitung bzw. -analyse 4a gewonnenen Signale werden einem primitiven Spracherkenner 5a zugeführt, der das Signal auf ein oder mehrere vorgegebene Kommandos hin untersucht. Dieser Spracherkenner benötigt damit nur einen geringen Wortschatz und ist weitestgehend dialekt- und sprecherunabhängig. Wird nun ein vorgegebener Sprachbefehl detektiert, wie z. B. "Hey, Telly!" oder "Anschalten!", so wird dieses vermerkt, sodaß die weitere Verarbeitung durch die Signalverarbeitung bzw. -analyse 4b und den Spracherkenner 5b erfolgt. Dieser weist einen umfangreichen Wortschatz auf und ist in der Lage, auch Wortfolgen zu erkennen, wird aber erst aktiv, nachdem ein Kommando durch den einfachen Spracherkenner 5a erkannt wurde. Zu den erkannten Kommandos bzw. Wortfolgen werden dann in dem Verfahrensschritt 6 die entsprechenden Befehle ermittelt und zur Steuerung des sprachgesteuerten Systems, z. B. zu einer Menüsteuerung bzw. -navigation, verwendet.

Die Anzahl der Spracherkenner ist nicht auf zwei beschränkt, vielmehr ist es ebenso denkbar, auch eine hierarchische Anordnung von mehr als zwei Spracherkennern zu verwenden. So kann etwa der erste Spracherkenner lediglich zum Aktivieren der Spracherkennung genutzt werden, wofür ein nur sehr geringer Wortschatz nötig ist. Ein zweiter Spracherkenner mit bereits größerem Wortschatz kann dann zum Ansteuern bzw. zur Auswahl verschiedener Menüpunkte verwendet werden. Ein weiterer Spracherkenner kann dann unter dem jeweiligen Menüpunkt aktiviert werden. Dieser dritte Spracherkenner kann dann einen sehr umfangreichen Wortschatz aufweisen, um so Eingaben beliebiger Art, zum Beispiel die Eingabe eines Titels einer gewünschten Sendung oder eine Internetadresse im Fall von WebTV, zu ermöglichen.

Ebenso kann der erste Spracherkenner zusätzlich oder ausschließlich dazu genutzt werden, die Wiedergabe eines Geräts, wie beispielsweise eines Fernsehgeräts, stummzuschalten oder die Lautstärke zu reduzieren. Weiterhin kann einer der hierarchisch angeordneten Spracherkenner zur Sprecher-Identifikation genutzt werden. Dieses ist beispielsweise für eine Zugriffskontrolle, insbesondere Kindersicherung, oder für die Auswahl von persönlichen Einstellparametern zum Beispiel für die Grundeinstellungen eines Elektronischen Programmführers, von Interesse. Schließlich ist es auch denkbar, daß der erste Spracherkenner lediglich auf ein vorgegebenes Anschaltkommando reagiert, dieses jedoch in den verschiedensten Sprachen. In Abhängigkeit von der detektierten Sprache werden dann verschiedene zweite oder weitere Spracherkenner aktiviert.

Die verschiedenen Spracherkenner bzw. verschiedenen Stufen der Spracherkennung können mit separaten Algorithmen oder separaten Hardwareeinheiten durchgeführt werden. Ebenso ist es jedoch auch möglich, dieses mit einer einzigen Spracherkennungsmaschine durch die Auswahl verschiedener Parametersätze durchzuführen.

Zur Detektion der Sprachsignale kann ein einzelnes Mikrofon, aber auch ein Mikrofonarray aus zwei oder mehreren Mikrofonen vorgesehen sein. Das Mikrofonarray kann beispielsweise in einem Fernsehempfänger integriert sein. Die Mikrofone setzen die detektierten Schallsignale in elektrische Signale um, die durch Verstärker verstärkt, durch AD-Wandler in digitale Signale umgewandelt und darin einer Signalverarbeitungseinheit zugeführt werden. Diese kann den jeweiligen Aufenthaltsort des Benutzers durch eine unterschiedliche Skalierung bzw. Verarbeitung der detektierten Schallsignale berücksichtigen. Weiterhin kann auch eine Korrektur der Mikrofonsignalen bezüglich der von den Lautsprechern abgegebenen Schallsignale erfolgen. Das so bearbeitete Signal wird dann der erfindungsgemäßen Spracherkennungseinheit zugeführt, die, wie oben beschrieben, die elektrischen Signale in Worte umwandelt.

Die diesen Worten entsprechenden Befehle werden dann schließlich einem Systemmanager zur Steuerung des Systems zugeführt.

Die Erfindung kann zur Sprachfernbedienung von verschiedensten Geräten der Unterhaltungselektronik, wie z. B. von TV-Geräten, Videorecordern, DVD-Spielern, Satellitenempfängern, TV-Video-Kombinationen, Audiogeräten oder kompletten Audiosystemen, aber ebenso von Personalcomputern oder von Haushaltsgeräten eingesetzt werden.

Claims

1. Verfahren zur mehrstufigen Spracherkennung, bei dem Sprachbefehlen entsprechende Schallsignale in elektrische Signale umgewandelt werden, die durch eine Spracherkennung in Bedienungsbefehle umgewandelt werden, dadurch gekennzeichnet, daß zunächst eine einfache Spracherkennung und anschließend eine oder mehrere kompliziertere Spracherkennungen durchgeführt werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die einfache Spracherkennung weitgehend dialekt- und sprecherunabhängig ist, aber nur einen geringen Wortschatz aufweist und kein Erkennen einer Wortfolge ermöglicht und mindestens eine der komplizierteren Spracherkennungen weitgehend dialekt- und sprecherabhängig ist, aber einen umfangreichen Wortschatz aufweist und/oder ein Erkennen einer Wortfolge ermöglicht.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die einfache Spracherkennung zum Einschalten einer der komplizierteren Spracherkennungen verwendet wird.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die einfache Spracherkennung zur Sprecher-Identifizierung dient.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die einfache Spracherkennung zur Stummschaltung oder Reduzierung der Lautstärke einer Audiowiedergabe dient.

6. Vorrichtung zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche.