DE60032982T2

DE60032982T2 - Spracherkennung zur Steuerung eines Geräts

Info

Publication number: DE60032982T2
Application number: DE2000632982
Authority: DE
Inventors: Hidemi Otsu-shi Henmi
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 1999-09-13
Filing date: 2000-09-12
Publication date: 2007-11-15
Anticipated expiration: 2020-09-13
Also published as: EP1085500B1; EP1085500A3; CN1173331C; CN1298173A; DE60032982D1; EP1085500A2

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf Spracherkennungsvorrichtungen und Verfahren zur Vorrichtungssteuerung durch Sprache und genauer auf eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren, welche gut geeignet sind, um eine Laute ausgebende Vorrichtung wie ein Fernsehgerät zu steuern.
Beschreibung des technischen Hintergrundes
Bis jetzt war Vorrichtungssteuerung mit Tasten, die auf Vorrichtungen und Fernbedienungen bereitgestellt sind, vorherrschend. Mit dem Fortschreiten von Spracherkennungstechnologie wurde Vorrichtungssteuerung durch Sprache populär z.B. für Mobiltelefone und Kraftfahrzeugnavigationssysteme.
Das Dokument WO 98/55992 offenbart ein Haushaltsgerät, das durch Sprachsignale gesteuert werden kann, worin eine Benutzereingabe eine Mehrzahl von Wörtern ist, die durch eine Sequenz eines Menübaums definiert ist, und ein Befehlssignal für das zu steuernde Gerät wird nur erzeugt, wenn beurteilt wird, dass die Eingabe eine korrekte Menübaumsequenz ist und die Worte innerhalb einer gesetzten Zeitperiode eingegeben werden.
Mit Bezug auf 11 für das Blockdiagramm wird unten die Konfiguration einer herkömmlichen Spracherkennungsvorrichtung beschrieben, die mit einer zu steuernden Zielvorrichtung verbunden ist.
Wie in 11 gezeigt enthält eine Spracherkennungsvorrichtung VRC einen Sprachempfänger 100 und eine Steuereinheit 200. Die Steuereinheit 200 ist mit einer Zielvorrichtung 800 verbunden und steuert deren Betrieb. Die Steuereinheit 200 enthält einen Befehlserkenner 210 und eine Vorrichtungssteuereinheit 220. Der Befehlserkenner 210 ist mit einem Mustervergleicher 211 und einem Befehlssprachenmusterspeicher 212 ausgestattet. Unten wird die Operation der Spracherkennungsvorrichtung VRC beschrieben.
Sobald ein Benutzer einen vorherbestimmten Befehl geäußert hat, um die Zielvorrichtung 800 zu steuern, wird die Befehlsstimme in ein Sprachsignal Sv durch den Sprachempfänger 100 gewandelt. Das Sprachsignal Sv wird dann auf den Befehlserkenner 210 angewandt, wo der Befehl in dem Sprachsignal Sv erkannt wird. Genauer ist der Befehlssprachenmusterspeicher 212 im Voraus mit einer Mehrzahl von Beispielsbefehlssprachmustern versehen zum Zwecke, die Zielvorrichtung 800 zu steuern. Der Mustervergleicher 211 vergleicht diese mit einem Lautmuster des Sprachsignals Sv für irgendeine Übereinstimmung, und wenn es eine gibt, wird ein Befehlssignal Scm, das dem erkannten Befehl entspricht, davon ausgegeben. Basierend auf dem Befehl, der durch das Befehlssignal Scm angezeigt wird, erzeugt die Vorrichtungssteuereinheit 220 ein Steuersignal Sc zum Steuern der Zielvorrichtung 800.
Eine solche herkömmliche Spracherkennungsvorrichtung ist jedoch immer in einem betriebsbereiten Zustand für Sprachbefehle. Sogar wenn der Benutzer keinen Befehl äußert, kann daher die Vorrichtung fehlerhafter Weise Geräusche in der Umgebung darum herum, versinnbildlicht durch Unterhaltungen, als Befehls des Benutzers erkennen und in unbeabsichtigter Fehlfunktion resultieren. Wenn angenommen wird, dass die zu steuernde Zielvorrichtung ein Fernsehgerät ist, welches konstant Laute ausgibt, wird die Spracherkennungsvorrichtung mit größerer Wahrscheinlichkeit die Laute davon mit einem Befehl des Benutzers verwechseln.
Um ein solches Problem zu umgehen ist in der japanischen Patentoffenlegungsschrift Nr. 61-225996 (36-225996) ein Verfahren zum Steuern von Spracherkennungsvorrichtungen mit dem Umlegen eines Schalters offenbart. Mit diesem Verfahren wird die Spracherkennungsverarbeitung nur ausgeführt, wenn der Benutzer seinen/ihren Befehl äußert, wenn der Schalter angeschaltet ist, und dementsprechend kann die Wahrscheinlichkeit für die fehlerhafte Erkennung vermindert werden.
Mit einem solchen Verfahren muss jedoch der Benutzer den Schalter umlegen, um seinen/ihren Befehl zu geben. Daher findet es der Benutzer unbequem, wenn er/sie den Schalter nicht zur Hand behalten kann oder mit den Händen beschäftigt ist, um den Schalter umzulegen. Zudem ist dieses Verfahren nicht gerade nützlich für einen Fall, wo die Zielvorrichtung z.B. ein Fernsehgerät ist, welches konstant Laute ausgibt. Dies aus dem Grund, dass wie oben beschrieben die Laute von dem Fernsehgerät zusammen mit einem Befehl des Benutzers eingegeben werden, während der Schalter angeschaltet ist, und daher zur fehlerhaften Erkennung führen.
ZUSAMMENFASSUNG DER ERFINDUNG
Daher ist es eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung und ein Verfahren zur Steuerung einer Vorrichtung durch Sprache durch eine einfache Operation bereitzustellen, welche fehlerhafte Erkennung vermeidet, die durch Umgebungsgeräusche und ähnliches um die Vorrichtung herum verursacht wird. Eine andere Aufgabe der vorliegenden Erfindung ist es, eine Spracherkennungsvorrichtung und ein Verfahren zum Steuern durch Sprache einer Laute ausgebenden Vorrichtung wie ein Fernsehgerät bereitzustellen, welche fehlerhafte Erkennung, die durch Laute von der Laut ausgebenden Vorrichtung verursacht sind, vermindern.
Gemäß der Erfindung wird eine Spracherkennungsvorrichtung nach Anspruch 1, ein Spracherkennungsverfahren nach Anspruch 7 und ein Computer lesbares Aufzeichnungsmedium nach Anspruch 8 bereitgestellt. Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen dargelegt.
Wie oben beschrieben, in dem oben beschriebenen Aspekt, wird Befehl nur für eine vorherbestimmte Zeitlänge akzeptiert nachdem ein Schlüsselwort eingegeben wurde. Daher kann fehlerhafte Erkennung vermieden werden. Da ein Benutzer das Schlüsselwort äußert, ist es nicht mehr notwendig, einen Taster oder Ähnliches zu betätigen, um die Vorrichtung zu steuern, wodurch eine Vorrichtungssteuerung erzielt wird, sogar wenn der Benutzer mit den Händen beschäftigt ist.
Diese und andere Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden ersichtlicher werden aus der folgenden detaillierten Beschreibung der vorliegenden Erfindung, wenn im Zusammenhang mit den beigefügten Zeichnungen genommen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt;
2 ist ein Flussdiagramm für den Betrieb eines Freigebers 300 der ersten Ausführungsform;
3 ist ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer zweiten Ausführungsform zeigt;
4 ist ein Flussdiagramm für den Betrieb eines Freigebers 301 der zweiten Ausführungsform;
5 ist ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer dritten Ausführungsform zeigt;
6 ist ein Flussdiagramm für den Betrieb des Freigebers 300 und eines Lautstärkestellers 400 in der dritten Ausführungsform;
7 ist ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer vierten Ausführungsform zeigt;
8 ist ein Flussdiagramm für den Betrieb des Freigebers 300 und eines Lautausgabekomponentenunterdrückers 500 in der vierten Ausführungsform;
9 ist ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer fünften Ausführungsform zeigt;
10 ist ein Flussdiagramm für den Betrieb des Freigebers 301, den Lautstärkesteller 400 und den Lautausgabekomponentenunterdrücker 500 in der fünften Ausführungsform; und
11 ist ein Blockdiagramm, welches die Konfiguration einer herkömmlichen Spracherkennungsvorrichtung zeigt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Mit Bezug auf die beigefügten Zeichnungen wird unten durch Ausführungsformen eine Spracherkennungsvorrichtung der vorliegenden Erfindung zur Steuerung einer Vorrichtung durch Sprache beschrieben, die geeignet ist, fehlerhafte Erkennung zu vermindern.
(Erste Ausführungsform)
In dem sich auf 1 für das Blockdiagramm bezogen wird, wird die Konfiguration einer Spracherkennungsvorrichtung einer ersten Ausführungsform unten beschrieben, welche mit einer zu steuernden Zielvorrichtung verbunden ist und welche fehlerhafte Erkennung verhindert, indem sie einen Befehl allein für eine vorherbestimmte Periode akzeptiert nachdem sie ein Schlüsselwort empfängt. Hierin ist jeglicher Bestandteil, der in 11 gefunden wird, durch dasselbe Bezugszeichen bezeichnet.
Wie in 1 gezeigt, enthält eine Spracherkennungsvorrichtung VR1 der ersten Ausführungsform den Sprachempfänger 100, die Steuereinheit 200 und einen Freigeber 300. Die Steuereinheit 200 ist sowohl mit dem Sprachempfänger 100 als auch dem Freigeber 300 verbunden und erzeugt ein Steuersignal Sc zum Steuern der Zielvorrichtung 800. Die Steuereinheit 200 beinhaltet den Befehlserkenner 210 und die Vorrichtungssteuereinheit 220. Die Befehlssteuereinheit 210 ist mit dem Mustervergleicher 211 und dem Befehlssprachmusterspeicher 212 versehen. Der Freigeber 300 enthält einen Schlüsselworterkenner 310, einen Timer 320 und einen Vergleichsfreigeber 330.
Als nächstes unten beschrieben wird die Operation der Spracherkennungsvorrichtung VR1.
Der Sprachempfänger 100 wandelt eine eingehende Sprache in ein Sprachsignal SV. Das Sprachsignal Sv wird auf die Steuereinheit 200 und den Freigeber 300 angewandt. In der Steuereinheit 200 erkennt der Befehlserkenner 210 den Befehl in dem Sprachsignal Sv. Um genauer zu sein ist der Befehlssprachmusterspeicher 212 im Voraus mit einer Mehrzahl von Musterbefehlssprachmustern zum Zwecke des Steuerns der Zielvorrichtung 800 versehen. Der Mustervergleicher 211 vergleicht diese mit einem Lautmuster des Sprachsignals Sv für irgendeine Übereinstimmung, und wenn es eine gibt, wird ein Befehlssignal Scm, das dem erkannten Befehl entspricht, davon ausgegeben. Basierend auf dem Befehlssignal Scm erzeugt die Vorrichtungssteuereinheit 220 ein Steuersignal Sc, um die Zielvorrichtung 800 zu steuern. Es sei hierin bemerkt, das die Steuereinheit 200 die Zielvorrichtung 800 nur für eine Befehlseingabeperiode steuern kann, die durch den Freigeber 300 bestimmt wird. Als nächstes wird der Betrieb des Freigebers 300 beschrieben.
Der Schlüsselworterkenner 310 erkennt ein Schlüsselwort aus dem Sprachsignal Sv, das durch den Spracherkenner 100 bereitgestellt wird, und gibt dann ein Startsignal Ss aus. Dieses Schlüsselwort ist vorherbestimmt als ein Hinweis zur Be fehlseingabe und wird vor einem Befehl geäußert. In Antwort auf das Startsignal Ss beginnt der Timer 320, eine vorherbestimmte Zeitlänge zu zählen. Der Timer 320 gibt dann ein Zeitsignal St aus, welches anzeigt, ob der Timer 320 in dessen Zählverarbeitung ist oder nicht. Basierend auf den Zeitsignal St fährt der Vergleichsfreigeber 330 fort, ein Freigabesignal Se für die Zähldauer des Timers 320 auszugeben, um den Betrieb des Mustervergleichers 211 freizugeben. Als solches ist die Zähldauer des Timer 320 die oben beschriebene Befehlseingabeperiode. In einem Beispiel, nicht in Übereinstimmung mit der Erfindung, mag der Schlüsselworterkenner 310 funktionsweise durch den Befehlserkenner 210 ersetzt sein. Im Detail kann der Befehlssprachmusterspeicher 212 im Voraus mit einem Sprachmuster des Schlüsselworts zusätzlich zu Beispielsbefehlssprachmustern versehen sein. Basierend auf diesen kann der Mustervergleicher 211 das Schlüsselwort aus dem Sprachsignal Sv erkennen und dann das Startsignal Ss an den Timer 320 ausgeben.
Indem sich auf 2 für das Flussdiagramm bezogen wird, wird der Freigeber 300 für dessen Operation beschrieben, was die Charakteristik der vorliegenden Erfindung ist. Obwohl die Komponenten in dieser Ausführungsform durch Hardware implementiert werden können, wird nun angenommen, dass diese beispielhaft durch Software implementiert sind. Dementsprechend wird in dem Flussdiagamm in 2 der Betrieb einer CPU gezeigt, die nicht gezeigt ist.
Sobald die Spracherkennungsverarbeitung gestartet wurde wandelt der Sprachempfänger 100 eine eingehende Sprache in ein Sprachsignal Sv um. In dem Freigeber 300 wird der Zähler 320 initialisiert (S11), um bereit zu sein für ein eingehendes Schlüsselwort (S12). Nachdem das Schlüsselwort in dem Sprachsignal Sv erkannt wurde, wird die Befehlseingabeperiode zu zählen gestartet und Befehlsvergleichsoperation in dem Mustervergleicher 211 wird freigegeben (S13). Während die Befehlseingabeperiode gezählt wird (S14), ist die Zielvorrichtung 800 unter der Steuerung der Steuereinheit 200. Sobald die Befehlseingabeperiode durch und durch gezählt wurde durch den Timer 320 wird die Befehlsvergleichs operation in dem Mustervergleich 211 gesperrt (S15) und der Timer 320 wird initialisiert (S11), um wieder für das Schlüsselwort bereit zu sein (S12).
Wie aus dem Öbigen bekannt ist, akzeptiert die Spracherkennungsvorrichtung der ersten Ausführungsform irgendeinen Befehl nicht, bis ein Schlüsselwort in dem Sprachsignal Sv erkannt wird. Daher muss zur Steuerung der Vorrichtung der Benutzer zuerst ein Schlüsselwort äußern und dann einen Befehl während der Befehlseingabeperiode. Wenn der Benutzer den Befehl nicht in der Befehlseingabeperiode äußert, wird der Befehl nicht akzeptiert, solange nicht das Schlüsselwort erneut geäußert wird.
Hierin, wenn das Schlüsselwort im täglichen Leben häufig ist, kann die Spracherkennungsvorrichtung das Schlüsselwort mit Unterhaltungen darum herum verwechseln und daher beginnt die Vorrichtung fälschlicherweise, Befehle zu akzeptieren. Indem dies in Betracht gezogen wird, ist das Schlüsselwort vorzugsweise ein magischer Spruch oder ein Kosename, der originell ist und im täglichen Leben nicht geläufig ist.
Wie im Vorhergehenden beschrieben muss, in der ersten Ausführungsform, ein Benutzer zuerst ein Schlüsselwort äußern und dann einen Befehl zur Steuerung der Vorrichtung. Auf diese Weise ist die Spracherkennungsvorrichtung davor bewahrt, fehlerhafter Weise Unterhaltungen darum zu erkennen, Laute von einer Zielvorrichtung, usw., als einen Befehl des Benutzers zu erkennen, selbst wenn der Benutzer keinen Befehl äußert.
(Zweite Ausführungsform)
In dem sich auf 3 für ein Blockdiagramm bezogen wird, wird unten die Konfiguration einer Spracherkennungsvorrichtung VR2 gemäß einer zweiten Ausführungsform beschrieben, welche mit einer zu steuernden Zielvorrichtung verbunden ist, und welche dem Benutzer die Mühen erspart, dasselbe Schlüsselwort je des Mal äußern zu müssen, wenn die Befehlseingabeperiode zu Ende ist. Die Spracherkennungsvorrichtung VR2 ist beinahe dieselbe wie diejenige in der ersten Ausführungsform, mit Ausnahme eines Übereinstimmungserkenners 340, der neu bereitgestellt ist. Daher sind jegliche identische Komponenten unter denselben Bezugszeichen und sind hierin nicht erneut beschrieben. Ein Freigeber 301 ist mit dem Schlüsselworterkenner 310, dem Timer 320 und dem Vergleichsfreigeber 330 versehen, wie in der ersten Ausführungsform, und ist neu mit dem Übereinstimmungserkenner 340 versehen. Der Übereinstimmungserkenner 340 ist sowohl mit dem Mustervergleicher 311 und dem Timer 320 verbunden.
Unten wird der Betrieb der Spracherkennungsvorrichtung VR2 beschrieben nur für jegliche Komponenten, die sich von der Vorrichtung in der ersten Ausführungsform unterscheiden.
In einer Weise, ähnlich zu der ersten Ausführungsform, sobald der Schlüsselworterkenner 310 ein Schlüsselwort erkennt, beginnt der Zähler 320, die Befehlseingabeperiode zu zählen, so dass die Operation des Mustervergleichers 211 freigegeben wird. Das Vergleichsergebnis wird durch dasselbe Befehlssignal Scm an die Vorrichtungssteuereinheit 220 und den Übereinstimmungserkenner 340 übertragen. Basierend auf dem Befehlssignal Scm steuert die Vorrichtungssteuereinheit die Zielvorrichtung 800. Der Übereinstimmungserkenner 340 gibt ein Rücksetzsignal Sr in Antwort auf das Befehlssignal Scm aus und setzt dann den Timer 320 zurück. Danach beginnt der Timer 320 das Zählen der Zeit von 0.
In dem sich auf 4 für ein Flussdiagramm bezogen wird, wird nun die Operation des Freigebers 301 beschrieben. Hierin ist jeglicher Schritt, der identisch in dem Flussdiagramm von 2 ist, mit derselben Schrittzahl versehen und ist hierin nicht erneut beschrieben.
Die Befehlseingabeperiode, die gleich der Zähldauer des Timers 320 ist, ist in der ersten Ausführungsform konstant. In der zweiten Ausführungsform jedoch akzep tiert die Spracherkennungsvorrichtung einen Befehl (S21) während der Timer 320 die Zeit zählt (S14) und wenn irgendein Befehl in der Zwischenzeit erkannt wird, wird der Timer 320 dazu gebracht, die Zeit erneut von 0 zu zählen durch das Rücksetzsignal Sr (S22). Mit anderen Worten, jedes mal wenn ein Befehl in der Befehlseingabeperiode erkannt wird, beginnt der Timer 320 die Zeit von 0 zu zählen. Mit der auf diese Weise verlängerten Befehlseingabeperiode braucht der Benutzer nicht länger dasselbe Schlüsselwort jedes Mal zu äußern, wenn die Befehlseingabeperiode vorbei ist.
Hierin ist der Übereinstimmungserkenner 340 so konfiguriert, das er das Befehlssignal Scm von dem Mustervergleicher 211 empfängt und das Rücksetzsignal Sr an den Timer 320 ausgibt. Eine solche Konfiguration ist nicht beschränkend, und der Mustervergleicher 211 kann funktionell dies ersetzten, indem er das Rücksetzsignal Sr an den Timer 320 ausgibt, wenn er irgendeinen Befehl erkennt.
Wie im Vorhergehenden beschrieben, in der zweiten Ausführungsform, wird die Befehlseingabeperiode automatisch verlängert für jeden Befehl. Daher wird die Befehlseingabeperiode niemals vorbei sein, bis der Benutzer aufhört, erfolgreich eine Mehrzahl von Befehlen zu äußern. Auf diese Weise kann der Benutzer sich den Aufwand ersparen, dasselbe Schlüsselwort jedes Mal zu äußern, wenn die Befehlseingabeperiode vorbei ist.
(Dritte Ausführungsform)
In dem sich auf 5 für ein Blockdiagramm bezogen wird, wird unten die Konfiguration einer Spracherkennungsvorrichtung VR3 gemäß einer dritten Ausführungsform beschrieben, welche mit einer Zielvorrichtung verbunden ist, die einen Lautausgabeteil hat, und welche effektiv fehlerhafte Erkennung reduziert, indem sie Lautausgabe davon für die Befehlseingabeperiode reduziert, nachdem sie ein Schlüsselwort erkennt. Die Spracherkennungsvorrichtung VR3 ist beinahe dieselbe wie diejenige in der ersten Ausführungsform, mit Ausnahme einer Lautstärke steuereinheit 400, die neu bereitgestellt ist. Und eine Zielvorrichtung 900, die dazu verbunden ist, ist zusätzlich mit einem Lautausgabeteil 910 versehen. Daher sind jegliche identische Komponenten unter denselben Bezugszeichen und nicht erneut beschrieben. Die Lautstärkesteuereinheit 400 ist sowohl mit dem Timer 320 als auch dem Lautausgabeteil 910 in der Zielvorrichtung 900 verbunden.
Unten wird der Betrieb der Spracherkennungsvorrichtung VR3 nur für jegliche Komponente beschrieben, die sich von der Vorrichtung in der ersten Ausführungsform unterscheidet.
Auf eine der ersten Ausführungsform ähnliche Weise, sobald der Schlüsselworterkenner 310 ein Schlüsselwort erkennt, beginnt der Timer 320, die Befehlseingabeperiode zu zählen, so dass die Operation des Mustervergleichers 211 freigegeben wird. Das Zeitsignal St, welches von dem Timer 320 ausgegeben wird, wird auch auf die Lautstärkesteuereinheit 400 angewandt. Basierend darauf gibt die Lautstärkesteuereinheit 400 ein Lautstärkesteuersignal Svc aus und setzt die Lautstärke des Lautausgabeteils 910 nur für die Befehlseingabeperiode herunter.
Indem sich auf 6 für ein Flussdiagramm bezogen wird werden der Freigeber 300 und die Lautstärkesteuereinheit 400 für ihre Operationen beschrieben. Hierin ist jeglicher Schritt, der identisch in dem Flussdiagramm von 2 ist, unter derselben Schrittnummer und nicht erneut beschrieben.
In der dritten Ausführungsform, sobald der Timer 320 zu zählen begonnen hat und die Befehlsvergleichsoperation freigegeben ist in dem Mustervergleicher 211 (S13), wird die Lautstärke des Lautausgabeteils 910 heruntergesetzt durch das Lautstärkesteuersignal Svc (S31). Die Lautstärke des Lautausgabeteils 910 wird zurückgesetzt, nachdem der Timer 320 aufgehört hat zu zählen (S32). Mit anderen Worten, die Lautstärke des Lautausgabeteils 910 wird heruntergesetzt allein für die Befehlseingabeperiode.
Hierin wird die Lautausgabe von dem Lautausgabeteil 910 heruntergesetzt allein für die Befehlseingabeperiode, kann aber auch abgeschaltet werden. Wenn sie heruntergesetzt wird, kann der Benutzer einen Befehl für die Befehlseingabeperiode äußern, während er oder sie den Laut von dem Lautausgabeteil 910 hört, und wenn er abgeschaltet ist, kann der Befehl des Benutzers mit höherer Genauigkeit erkannt werden und dementsprechend kann fehlerhafte Erkennung vermindert werden.
Wie im vorstehenden beschrieben wird die Lautstärke des Lautausgabeteils 910 nur für die Befehlseingabeperiode heruntergesetzt. Dementsprechend kann eine solche Lautausgabe davon für die Befehlseingabeperiode die Spracherkennungsvorrichtung nicht verwirren und daher kann die Befehlsvergleichsoperation in dem Mustervergleicher 211 mit höherer Genauigkeit ausgeführt werden. Dies ist effektiv für einen Fall, wo die Lautausgabe von dem Lautausgabeteil 910 Sprache enthält. Daher arbeitet die Spracherkennungsvorrichtung der zweiten Ausführungsform gut zum Steuern einer Lautausgabevorrichtung wie ein Fernsehgerät.
(Vierte Ausführungsform)
Indem sich auf 7 für ein Blockdiagramm bezogen wird, wird unten die Konfiguration einer Spracherkennungsvorrichtung VR4 gemäß einer vierten Ausführungsform beschrieben, welche mit einer Zielvorrichtung verbunden ist, die einen Lautausgabeteil hat, und welche effektiv fehlerhafte Erkennung zu einem größeren Ausmaß vermindert, indem sie eine Lautausgabekomponente von der Zielvorrichtung vermindert, welche sich in eine eingehende Sprache mischt. Die Spracherkennungsvorrichtung VR4 ist beinahe dieselbe wie diejenige in der ersten Ausführungsform, mit Ausnahme eines Lautausgabekomponentenunterdrückers 500, welcher neu bereitgestellt ist. Die Zielvorrichtung 900, die dazu verbunden ist, ist mit dem Lautausgabeteil 910 versehen, wie in der dritten Ausführungsform. Daher ist jegliche identische Komponente unter demselben Bezugszeichen und nicht erneut beschrieben. Der Lautausgabekomponentenunterdrücker 500 ist nachfol gend dem Sprachempfänger 100 bereitgestellt und ist mit der Zielvorrichtung 900 verbunden.
Unten beschrieben ist die Operation der Spracherkennungsvorrichtung VR4 nur für jegliche Komponente, die sich von der Vorrichtung in der ersten Ausführungsform unterscheidet.
Der Lautausgabekomponentenunterdrücker 500 reduziert die Lautausgabekomponente des Lautausgabeteils 910, die sich in ein Sprachsignal Sv mischt, das durch den Sprachempfänger 100 bereitgestellt wird. Dann wird ein Sprachsignal Sv' mit unterdrückter Lautausgabekomponente auf sowohl den Schlüsselworterkenner 310 als auch den Mustererkenner 211 angewandt. Um genauer zu sein empfängt der Lautausgabekomponentenunterdrücker 500 sowohl das Sprachsignal Sv von dem Sprachempfänger 100 und ein Lautausgabesignal Sa, das in den Lautausgabeteil 910 eingegeben wird und dann davon als die Lautausgabe ausgegeben wird. Der Lautausgabekomponentenunterdrücker 500 unterwirft diese Signale einer vorherbestimmten Operationsverarbeitung, um die Lautausgabekomponente, die in das Sprachsignal Sv eingemischt ist, zu reduzieren. Solche Operationsverarbeitung kann von einer einfachen Subtraktion des Lautausgabesignals Sa, in Prozent, von dem Sprachsignal Sv bis zu einer komplizierten Operation mit einem berücksichtigten Übertragungsverlust reichen. Welche Weise ist hier kein Thema.
Das Sprachsignal Sv' wird auf sowohl den Schlüsselworterkenner 310 als auch den Mustervergleicher 211 angewandt und basierend darauf wird Verarbeitung auf eine ähnliche Weise zu der ersten Ausführungsform ausgeführt.
Indem sich auf 8 für ein Flussdiagramm bezogen wird, werden der Lautausgabekomponentenunterdrücker 500 und der Freigeber 300 für deren Operationen beschrieben. Hierin ist jeglicher Schritt identisch in dem Flussdiagramm zu 2 mit derselben Schrittzahl versehen und ist nicht erneut beschrieben.
In der vierten Ausführungsform wird die Lautausgabekomponente, die in das Sprachsignal Sv eingemischt ist, reduziert (S41) und basierend auf dem Sprachsignal Sv' mit reduzierter Lautausgabekomponente wird die Verarbeitung auf eine ähnliche Weise zu der ersten Ausführungsform ausgeführt. Eine solche Verarbeitung zum Reduzieren der Lautausgabekomponente in dem Lautsignal Sv wird konstant ausgeführt, unabhängig von der Befehlseingabeperiode.
Als solche erkennen, in der vierten Ausführungsform, der Schlüsselworterkenner 310 und der Befehlserkenner 210 ein Schlüsselwort bzw. einen Befehl von dem Sprachsignal Sv'. Dementsprechend, sogar wenn die Lautausgabe von dem Lautausgabeteil 910 zu dem Sprachempfänger 100 geht, können der Schlüsselworterkenner 310 und der Mustervergleicher 211 ihre Genauigkeit zur Schlüsselworterkennung bzw. Befehlsvergleich beibehalten. Insbesondere für einen Fall, wo die Lautausgabe von dem Lautausgabeteil 910 Sprache beinhaltet, kann die Spracherkennungsvorrichtung solche Sprache nicht mit der Sprache des Benutzers verwechseln. Daher arbeitet die Spracherkennungsvorrichtung der vierten Ausführungsform gut zum Steuern einer Lautausgabevorrichtung wie ein Fernsehgerät. Zudem kann Befehlserkennung mit höherer Genauigkeit während der Befehlseingabeperiode gemacht werden, ohne die Lautausgabe von dem Lautausgabeteil 910 herunterzusetzen, wodurch der Benutzer seinen/ihren Befehl äußern kann, während er/sie der Lautausgabe von der Zielvorrichtung 900 zuhört. Dies ist insbesondere effektiv für einen Befehl, um die Lautstärke der Zielvorrichtung 900 zu Steuern, da der Benutzer die Lautstärke in Echtzeit überprüfen kann.
(Fünfte Ausführungsform)
In 9 ist die Konfiguration einer Spracherkennungsvorrichtung VR5 gemäß einer fünften Ausführungsform gezeigt, welche mit einer Zielvorrichtung verbunden ist, die den Lautausgabeteil enthält, und die mit jeder charakteristischen Komponente der ersten bis vierten Ausführungsformen versehen ist.
Wie in 9 gezeigt, ist die Spracherkennungsvorrichtung VR5 zusätzlich mit dem Übereinstimmungserkenner 340, der Lautstärkesteuereinheit 400 und dem Lautausgabekomponentenunterdrücker 500 versehen, verglichen mit der Vorrichtung in der ersten Ausführungsform. Unten wird die Operation der Spracherkennungsvorrichtung VR5 der fünften Ausführungsform beschrieben.
Hierin wird ein Sprachsignal Sv, bereitgestellt durch den Sprachempfänger 100, in ein Sprachsignal Sv' in dem Lautausgabekomponentenunterdrücker 500 gewandelt. Dies wird ausgeführt basierend auf einen Lautausgabesignal Sa von der Zielvorrichtung 900. Basierend auf dem Sprachsignal Sv' erkennen der Schlüsselworterkenner 310 und der Mustervergleicher 211 jeder ein Schlüsselwort bzw. einen Befehl. Sobald der Schlüsselworterkenner 310 das Schlüsselwort erkennt und daher ein Befehl begonnen wird, akzeptiert zu werden, setzt die Lautstärkesteuereinheit 400 die Lautstärke des Lautausgabeteils 910 mit dem Lautstärkesteuersignal Svc herunter. Der Übereinstimmungserkenner 340 empfängt ein Befehlssignal Scm von dem Mustervergleicher 211 und gibt dann ein Rücksetzsignal Sr an den Timer 320 aus. In Antwort darauf beginnt der Timer 320, die Befehlseingabeperiode wiederum von 0 zu zählen. Sobald der Timer 320 sein Zählen beendet, gibt die Lautstärkesteuereinheit 400 ein Lautstärkesteuersignal Svc aus, um die Lautstärke des Lautausgabeteils 910 zurück zu setzten.
In 10 ist ein Flussdiagramm für die Operationen des Freigebers 301, der Lautstärkesteuereinheit 400 und des Lautausgabekomponentenunterdrückers 500 gezeigt. Hierin ist jeglicher Schritt, der identisch in dem Flussdiagramm von 2, 4, 6 oder 8 ist, mit derselben Schrittzahl versehen. Die in dem Flussdiagramm von 10 gefundene Operation ist bereits im Vorhergehenden gut beschrieben und wird nicht wiederum beschrieben.
Wie aus dem obigen bekannt ist, in der fünften Ausführungsform, wird die Lautausgabe von dem Lautausgabeteil 910 weder heruntergesetzt noch ausgeschaltet während einer Schlüsselworteingabeperiode, d.h., eine Periode ausschließend die Befehlseingabeperiode, sondern nur die Lautausgabekomponente, die sich in das Sprachsignal Sv einmischt, wird reduziert. Auf diese Weise, selbst wenn der Laut von der Lautausgabevorrichtung 910 bei einer normalen Lautstärke ist, kann das Schlüsselwort mit höherer Genauigkeit erkannt werden. Für die Befehlseingabeperiode andererseits wird die Lautausgabe von dem Lautausgabeteil 910 heruntergesetzt oder ausgeschaltet und die Lautausgabekomponente, die sich in das Sprachsignal Sv einmischt, wird auch reduziert. Dementsprechend ist die Befehlserkennung während der Befehlseingabeperiode in Genauigkeit verbessert, wobei fehlerhafte Erkennung zu einem größeren Ausmaß reduziert wird, die von dem Laut von der Zielvorrichtung resultiert.
Hierin kann das Schlüsselwort ein magischer Spruch oder ein Kosename sein, der Originell und ungewöhnlich im Alltagsleben ist. Der Befehl jedoch wird oftmals als im Alltagsleben bekannt gefunden. Daher wird der Befehl mit höherer Wahrscheinlichkeit fehlerhaft erkannt, als das Schlüsselwort wegen z.B. dem Laut von einem Fernsehgerät. In Anbetracht dessen ist es, wie es in dieser Ausführungsform gemacht wird, bevorzugt, die Lautausgabe von dem Lautausgabeteil 910 herunter zu setzten oder auszuschalten, während das Sprachsignal Sv in der Lautausgabekomponente reduziert wird. Daher arbeitet die Spracherkennungsvorrichtung der fünften Ausführungsform gut zum Steuern einer Vorrichtung wie einem Fernsehgerät, das konstant Laute ausgibt, insbesondere menschliche Sprache, und zum sicheren Vermeiden fehlerhafter Erkennung.
Man bemerke hierin, dass die Spracherkennungsvorrichtung der fünften Ausführungsform diejenige ist, die jede charakteristische Komponente in den zweiten bis vierten Ausführungsformen enthält, als da sind der Übereinstimmungserkenner 340, Lautstärkesteuereinheit 400 und Lautausgabekomponentenunterdrücker 500. Wie aus dem obigen ersichtlich können jedoch beliebige zwei Komponenten, die daraus ausgewählt sind, zusätzlich zu der Struktur in der ersten Ausführungsform sicher die Spracherkennungsvorrichtung implementieren.
Während die Erfindung im Detail beschrieben wurde ist die vorstehende Beschreibung in allen Aspekten beschreibend und nicht beschränkend. Es wird verstanden, dass zahlreiche andere Modifikationen und Variationen erdacht werden können, ohne den Bereich der Erfindung zu verlassen, der durch die Ansprüche definiert ist.

Claims

Spracherkennungsvorrichtung (VR1) zum Steuern einer Zielvorrichtung (800) mit einem Befehl, der von einem Benutzer geäußert wird, aufweisend: Sprachempfangsmittel (100) zum Empfangen einer Sprache; und Steuermittel (200) zum Erkennen des Befehls in der Sprache (Sv), empfangen über die Sprachempfangsmittel (100), und Steuern der Zielvorrichtung (800) basierend auf dem erkannten Befehl; dadurch gekennzeichnet, dass sie ferner aufweist separate Freigabemittel (300) zum Erkennen eines vorherbestimmten Schlüsselworts in der Sprache (Sv), empfangen über die Sprachempfangsmittel (100), und Freigeben der Steuermittel (200), um Erkennung des Befehls auszuführen, allein für eine vorherbestimmte Befehlseingabeperiode, nachdem das Schlüsselwort erkannt wurde, worin das Schlüsselwort kein Teil des Befehls ist.
Spracherkennungsvorrichtung (VR1) nach Anspruch 1, worin das vorherbestimmte Schlüsselwort ein Zauberspruch oder ein Spitzname ist.
Spracherkennungsvorrichtung (VR1) nach Anspruch 1, worin das Freigabemittel (300) ferner aufweist: Schlüsselworterkennungsmittel (310) zum Erkennen des vorherbestimmten Schlüsselworts in der Sprache (Sv) über die Sprachempfangsmittel (100); Timermittel (320) zum Starten von Zählen der Befehlseingabeperiode, wenn das Schlüsselworterkennungsmittel (310) das Schlüsselwort erkennt; und Vergleichsfreigabemittel (330) zum Freigeben der Steuermittel (200), um den Befehl zu erkennen, allein für eine Periode, wenn das Timermittel (320) die Befehlseingabeperiode zählt.
Spracherkennungsvorrichtung (VR2) nach Anspruch 1, worin das Freigabemittel (301) ferner Entsprechungserkennungsmittel (340) aufweist, um die Befehlseingabeperiode zu verlängern jedes Mal, wenn das Steuermittel (200) den Befehl in der Befehlseingabeperiode erkennt.
Spracherkennungsvorrichtung (VR3) nach Anspruch 1, ferner aufweisend Lautstärkesteuermittel (400) zum Herunterdrehen oder Ausschalten eines Lauts, eingegeben von der Zielvorrichtung (900) für die Befehlseingabeperiode.
Spracherkennungsvorrichtung (VR4) nach Anspruch 1, ferner aufweisend Lauteingabekomponenten-Reduktionsmittel (500) zum Unterdrücken der Sprache (Sv) über die Sprachempfangsmittel (100) in einer Komponente, welche der Lautausgabe der Zielvorrichtung (900) entspricht.
Spracherkennungsverfahren zum Steuern einer Zielvorrichtung (800) mit einem Befehl, der von einem Benutzer geäußert wird, aufweisend: einen Schritt des Empfangens einer Sprache; und einen Schritt des Erkennens des Befehls in der empfangenen Sprache (Sv), ausgeführt durch Steuermittel (200); einen Schritt des Steuerns der Zielvorrichtung (800) basierend auf dem erkannten Befehl; dadurch gekennzeichnet, dass es ferner aufweist einen Schritt (S12, S13, S14 und S15) des Erkennens eines vorherbestimmten Schlüsselworts in der empfangenen Sprache, ausgeführt durch getrennte Freigabemittel (300), und Freigeben des Schritts des Erkennens des Befehls allein für eine vorherbestimmte Befehlseingabeperiode, nachdem das Schlüsselwort erkannt wurde, worin das Schlüsselwort kein Teil des Befehls ist.
Computer-lesbares Aufzeichnungsmedium, auf welchem ein auf einem Computer auszuführendes Programm aufgezeichnet ist, wobei das Programm Computerprogrammbefehlsmittel aufweist, welche, wenn sie ausgeführt werden, den Computer dazu veranlassen, all die Schritte des Verfahrens nach Anspruch 7 auszuführen.