-
HINTERGRUND
DER ERFINDUNG
-
Gebiet der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf Spracherkennungsvorrichtungen
und Verfahren zur Vorrichtungssteuerung durch Sprache und genauer auf
eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren,
welche gut geeignet sind, um eine Laute ausgebende Vorrichtung wie
ein Fernsehgerät
zu steuern.
-
Beschreibung
des technischen Hintergrundes
-
Bis
jetzt war Vorrichtungssteuerung mit Tasten, die auf Vorrichtungen
und Fernbedienungen bereitgestellt sind, vorherrschend. Mit dem
Fortschreiten von Spracherkennungstechnologie wurde Vorrichtungssteuerung
durch Sprache populär
z.B. für Mobiltelefone
und Kraftfahrzeugnavigationssysteme.
-
Das
Dokument WO 98/55992 offenbart ein Haushaltsgerät, das durch Sprachsignale
gesteuert werden kann, worin eine Benutzereingabe eine Mehrzahl
von Wörtern
ist, die durch eine Sequenz eines Menübaums definiert ist, und ein
Befehlssignal für
das zu steuernde Gerät
wird nur erzeugt, wenn beurteilt wird, dass die Eingabe eine korrekte
Menübaumsequenz
ist und die Worte innerhalb einer gesetzten Zeitperiode eingegeben
werden.
-
Mit
Bezug auf 11 für das Blockdiagramm wird unten
die Konfiguration einer herkömmlichen Spracherkennungsvorrichtung
beschrieben, die mit einer zu steuernden Zielvorrichtung verbunden
ist.
-
Wie
in 11 gezeigt enthält eine Spracherkennungsvorrichtung
VRC einen Sprachempfänger 100 und
eine Steuereinheit 200. Die Steuereinheit 200 ist
mit einer Zielvorrichtung 800 verbunden und steuert deren
Betrieb. Die Steuereinheit 200 enthält einen Befehlserkenner 210 und
eine Vorrichtungssteuereinheit 220. Der Befehlserkenner 210 ist
mit einem Mustervergleicher 211 und einem Befehlssprachenmusterspeicher 212 ausgestattet.
Unten wird die Operation der Spracherkennungsvorrichtung VRC beschrieben.
-
Sobald
ein Benutzer einen vorherbestimmten Befehl geäußert hat, um die Zielvorrichtung 800 zu
steuern, wird die Befehlsstimme in ein Sprachsignal Sv durch den
Sprachempfänger 100 gewandelt. Das
Sprachsignal Sv wird dann auf den Befehlserkenner 210 angewandt,
wo der Befehl in dem Sprachsignal Sv erkannt wird. Genauer ist der
Befehlssprachenmusterspeicher 212 im Voraus mit einer Mehrzahl
von Beispielsbefehlssprachmustern versehen zum Zwecke, die Zielvorrichtung 800 zu steuern.
Der Mustervergleicher 211 vergleicht diese mit einem Lautmuster
des Sprachsignals Sv für
irgendeine Übereinstimmung,
und wenn es eine gibt, wird ein Befehlssignal Scm, das dem erkannten
Befehl entspricht, davon ausgegeben. Basierend auf dem Befehl, der
durch das Befehlssignal Scm angezeigt wird, erzeugt die Vorrichtungssteuereinheit 220 ein
Steuersignal Sc zum Steuern der Zielvorrichtung 800.
-
Eine
solche herkömmliche
Spracherkennungsvorrichtung ist jedoch immer in einem betriebsbereiten
Zustand für
Sprachbefehle. Sogar wenn der Benutzer keinen Befehl äußert, kann
daher die Vorrichtung fehlerhafter Weise Geräusche in der Umgebung darum
herum, versinnbildlicht durch Unterhaltungen, als Befehls des Benutzers
erkennen und in unbeabsichtigter Fehlfunktion resultieren. Wenn
angenommen wird, dass die zu steuernde Zielvorrichtung ein Fernsehgerät ist, welches
konstant Laute ausgibt, wird die Spracherkennungsvorrichtung mit größerer Wahrscheinlichkeit
die Laute davon mit einem Befehl des Benutzers verwechseln.
-
Um
ein solches Problem zu umgehen ist in der japanischen Patentoffenlegungsschrift
Nr. 61-225996 (36-225996) ein Verfahren zum Steuern von Spracherkennungsvorrichtungen
mit dem Umlegen eines Schalters offenbart. Mit diesem Verfahren wird
die Spracherkennungsverarbeitung nur ausgeführt, wenn der Benutzer seinen/ihren
Befehl äußert, wenn
der Schalter angeschaltet ist, und dementsprechend kann die Wahrscheinlichkeit
für die
fehlerhafte Erkennung vermindert werden.
-
Mit
einem solchen Verfahren muss jedoch der Benutzer den Schalter umlegen,
um seinen/ihren Befehl zu geben. Daher findet es der Benutzer unbequem,
wenn er/sie den Schalter nicht zur Hand behalten kann oder mit den
Händen
beschäftigt
ist, um den Schalter umzulegen. Zudem ist dieses Verfahren nicht
gerade nützlich
für einen
Fall, wo die Zielvorrichtung z.B. ein Fernsehgerät ist, welches konstant Laute
ausgibt. Dies aus dem Grund, dass wie oben beschrieben die Laute
von dem Fernsehgerät
zusammen mit einem Befehl des Benutzers eingegeben werden, während der
Schalter angeschaltet ist, und daher zur fehlerhaften Erkennung
führen.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Daher
ist es eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung
und ein Verfahren zur Steuerung einer Vorrichtung durch Sprache
durch eine einfache Operation bereitzustellen, welche fehlerhafte
Erkennung vermeidet, die durch Umgebungsgeräusche und ähnliches um die Vorrichtung
herum verursacht wird. Eine andere Aufgabe der vorliegenden Erfindung
ist es, eine Spracherkennungsvorrichtung und ein Verfahren zum Steuern
durch Sprache einer Laute ausgebenden Vorrichtung wie ein Fernsehgerät bereitzustellen, welche
fehlerhafte Erkennung, die durch Laute von der Laut ausgebenden
Vorrichtung verursacht sind, vermindern.
-
Gemäß der Erfindung
wird eine Spracherkennungsvorrichtung nach Anspruch 1, ein Spracherkennungsverfahren
nach Anspruch 7 und ein Computer lesbares Aufzeichnungsmedium nach
Anspruch 8 bereitgestellt. Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen dargelegt.
-
Wie
oben beschrieben, in dem oben beschriebenen Aspekt, wird Befehl
nur für
eine vorherbestimmte Zeitlänge
akzeptiert nachdem ein Schlüsselwort
eingegeben wurde. Daher kann fehlerhafte Erkennung vermieden werden.
Da ein Benutzer das Schlüsselwort äußert, ist
es nicht mehr notwendig, einen Taster oder Ähnliches zu betätigen, um
die Vorrichtung zu steuern, wodurch eine Vorrichtungssteuerung erzielt
wird, sogar wenn der Benutzer mit den Händen beschäftigt ist.
-
Diese
und andere Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden
Erfindung werden ersichtlicher werden aus der folgenden detaillierten
Beschreibung der vorliegenden Erfindung, wenn im Zusammenhang mit
den beigefügten
Zeichnungen genommen.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer
ersten Ausführungsform
der vorliegenden Erfindung zeigt;
-
2 ist
ein Flussdiagramm für
den Betrieb eines Freigebers 300 der ersten Ausführungsform;
-
3 ist
ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer
zweiten Ausführungsform
zeigt;
-
4 ist
ein Flussdiagramm für
den Betrieb eines Freigebers 301 der zweiten Ausführungsform;
-
5 ist
ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer
dritten Ausführungsform
zeigt;
-
6 ist
ein Flussdiagramm für
den Betrieb des Freigebers 300 und eines Lautstärkestellers 400 in
der dritten Ausführungsform;
-
7 ist
ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer
vierten Ausführungsform
zeigt;
-
8 ist
ein Flussdiagramm für
den Betrieb des Freigebers 300 und eines Lautausgabekomponentenunterdrückers 500 in
der vierten Ausführungsform;
-
9 ist
ein Blockdiagramm, welches die Konfiguration einer Spracherkennungsvorrichtung gemäß einer
fünften
Ausführungsform
zeigt;
-
10 ist
ein Flussdiagramm für
den Betrieb des Freigebers 301, den Lautstärkesteller 400 und den
Lautausgabekomponentenunterdrücker 500 in der
fünften
Ausführungsform;
und
-
11 ist
ein Blockdiagramm, welches die Konfiguration einer herkömmlichen
Spracherkennungsvorrichtung zeigt.
-
BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
Mit
Bezug auf die beigefügten
Zeichnungen wird unten durch Ausführungsformen eine Spracherkennungsvorrichtung
der vorliegenden Erfindung zur Steuerung einer Vorrichtung durch
Sprache beschrieben, die geeignet ist, fehlerhafte Erkennung zu vermindern.
-
(Erste Ausführungsform)
-
In
dem sich auf 1 für das Blockdiagramm bezogen
wird, wird die Konfiguration einer Spracherkennungsvorrichtung einer
ersten Ausführungsform
unten beschrieben, welche mit einer zu steuernden Zielvorrichtung
verbunden ist und welche fehlerhafte Erkennung verhindert, indem
sie einen Befehl allein für
eine vorherbestimmte Periode akzeptiert nachdem sie ein Schlüsselwort
empfängt. Hierin
ist jeglicher Bestandteil, der in 11 gefunden
wird, durch dasselbe Bezugszeichen bezeichnet.
-
Wie
in 1 gezeigt, enthält eine Spracherkennungsvorrichtung
VR1 der ersten Ausführungsform
den Sprachempfänger 100,
die Steuereinheit 200 und einen Freigeber 300.
Die Steuereinheit 200 ist sowohl mit dem Sprachempfänger 100 als
auch dem Freigeber 300 verbunden und erzeugt ein Steuersignal
Sc zum Steuern der Zielvorrichtung 800. Die Steuereinheit 200 beinhaltet
den Befehlserkenner 210 und die Vorrichtungssteuereinheit 220.
Die Befehlssteuereinheit 210 ist mit dem Mustervergleicher 211 und
dem Befehlssprachmusterspeicher 212 versehen. Der Freigeber 300 enthält einen
Schlüsselworterkenner 310,
einen Timer 320 und einen Vergleichsfreigeber 330.
-
Als
nächstes
unten beschrieben wird die Operation der Spracherkennungsvorrichtung
VR1.
-
Der
Sprachempfänger 100 wandelt
eine eingehende Sprache in ein Sprachsignal SV. Das Sprachsignal
Sv wird auf die Steuereinheit 200 und den Freigeber 300 angewandt.
In der Steuereinheit 200 erkennt der Befehlserkenner 210 den
Befehl in dem Sprachsignal Sv. Um genauer zu sein ist der Befehlssprachmusterspeicher 212 im
Voraus mit einer Mehrzahl von Musterbefehlssprachmustern zum Zwecke
des Steuerns der Zielvorrichtung 800 versehen. Der Mustervergleicher 211 vergleicht
diese mit einem Lautmuster des Sprachsignals Sv für irgendeine Übereinstimmung,
und wenn es eine gibt, wird ein Befehlssignal Scm, das dem erkannten
Befehl entspricht, davon ausgegeben. Basierend auf dem Befehlssignal
Scm erzeugt die Vorrichtungssteuereinheit 220 ein Steuersignal
Sc, um die Zielvorrichtung 800 zu steuern. Es sei hierin
bemerkt, das die Steuereinheit 200 die Zielvorrichtung 800 nur
für eine
Befehlseingabeperiode steuern kann, die durch den Freigeber 300 bestimmt
wird. Als nächstes
wird der Betrieb des Freigebers 300 beschrieben.
-
Der
Schlüsselworterkenner 310 erkennt
ein Schlüsselwort
aus dem Sprachsignal Sv, das durch den Spracherkenner 100 bereitgestellt
wird, und gibt dann ein Startsignal Ss aus. Dieses Schlüsselwort
ist vorherbestimmt als ein Hinweis zur Be fehlseingabe und wird vor
einem Befehl geäußert. In
Antwort auf das Startsignal Ss beginnt der Timer 320, eine
vorherbestimmte Zeitlänge
zu zählen.
Der Timer 320 gibt dann ein Zeitsignal St aus, welches
anzeigt, ob der Timer 320 in dessen Zählverarbeitung ist oder nicht.
Basierend auf den Zeitsignal St fährt der Vergleichsfreigeber 330 fort,
ein Freigabesignal Se für die
Zähldauer
des Timers 320 auszugeben, um den Betrieb des Mustervergleichers 211 freizugeben.
Als solches ist die Zähldauer
des Timer 320 die oben beschriebene Befehlseingabeperiode.
In einem Beispiel, nicht in Übereinstimmung
mit der Erfindung, mag der Schlüsselworterkenner 310 funktionsweise durch
den Befehlserkenner 210 ersetzt sein. Im Detail kann der
Befehlssprachmusterspeicher 212 im Voraus mit einem Sprachmuster
des Schlüsselworts zusätzlich zu
Beispielsbefehlssprachmustern versehen sein. Basierend auf diesen
kann der Mustervergleicher 211 das Schlüsselwort aus dem Sprachsignal
Sv erkennen und dann das Startsignal Ss an den Timer 320 ausgeben.
-
Indem
sich auf 2 für das Flussdiagramm bezogen
wird, wird der Freigeber 300 für dessen Operation beschrieben,
was die Charakteristik der vorliegenden Erfindung ist. Obwohl die
Komponenten in dieser Ausführungsform
durch Hardware implementiert werden können, wird nun angenommen, dass
diese beispielhaft durch Software implementiert sind. Dementsprechend
wird in dem Flussdiagamm in 2 der Betrieb
einer CPU gezeigt, die nicht gezeigt ist.
-
Sobald
die Spracherkennungsverarbeitung gestartet wurde wandelt der Sprachempfänger 100 eine
eingehende Sprache in ein Sprachsignal Sv um. In dem Freigeber 300 wird
der Zähler 320 initialisiert (S11),
um bereit zu sein für
ein eingehendes Schlüsselwort
(S12). Nachdem das Schlüsselwort
in dem Sprachsignal Sv erkannt wurde, wird die Befehlseingabeperiode
zu zählen
gestartet und Befehlsvergleichsoperation in dem Mustervergleicher 211 wird freigegeben
(S13). Während
die Befehlseingabeperiode gezählt
wird (S14), ist die Zielvorrichtung 800 unter der Steuerung
der Steuereinheit 200. Sobald die Befehlseingabeperiode
durch und durch gezählt
wurde durch den Timer 320 wird die Befehlsvergleichs operation
in dem Mustervergleich 211 gesperrt (S15) und der Timer 320 wird
initialisiert (S11), um wieder für
das Schlüsselwort
bereit zu sein (S12).
-
Wie
aus dem Öbigen
bekannt ist, akzeptiert die Spracherkennungsvorrichtung der ersten
Ausführungsform
irgendeinen Befehl nicht, bis ein Schlüsselwort in dem Sprachsignal
Sv erkannt wird. Daher muss zur Steuerung der Vorrichtung der Benutzer
zuerst ein Schlüsselwort äußern und
dann einen Befehl während
der Befehlseingabeperiode. Wenn der Benutzer den Befehl nicht in
der Befehlseingabeperiode äußert, wird
der Befehl nicht akzeptiert, solange nicht das Schlüsselwort
erneut geäußert wird.
-
Hierin,
wenn das Schlüsselwort
im täglichen Leben
häufig
ist, kann die Spracherkennungsvorrichtung das Schlüsselwort
mit Unterhaltungen darum herum verwechseln und daher beginnt die
Vorrichtung fälschlicherweise,
Befehle zu akzeptieren. Indem dies in Betracht gezogen wird, ist
das Schlüsselwort
vorzugsweise ein magischer Spruch oder ein Kosename, der originell
ist und im täglichen
Leben nicht geläufig
ist.
-
Wie
im Vorhergehenden beschrieben muss, in der ersten Ausführungsform,
ein Benutzer zuerst ein Schlüsselwort äußern und
dann einen Befehl zur Steuerung der Vorrichtung. Auf diese Weise
ist die Spracherkennungsvorrichtung davor bewahrt, fehlerhafter
Weise Unterhaltungen darum zu erkennen, Laute von einer Zielvorrichtung,
usw., als einen Befehl des Benutzers zu erkennen, selbst wenn der
Benutzer keinen Befehl äußert.
-
(Zweite Ausführungsform)
-
In
dem sich auf 3 für ein Blockdiagramm bezogen
wird, wird unten die Konfiguration einer Spracherkennungsvorrichtung
VR2 gemäß einer zweiten
Ausführungsform
beschrieben, welche mit einer zu steuernden Zielvorrichtung verbunden
ist, und welche dem Benutzer die Mühen erspart, dasselbe Schlüsselwort
je des Mal äußern zu
müssen,
wenn die Befehlseingabeperiode zu Ende ist. Die Spracherkennungsvorrichtung
VR2 ist beinahe dieselbe wie diejenige in der ersten Ausführungsform,
mit Ausnahme eines Übereinstimmungserkenners 340,
der neu bereitgestellt ist. Daher sind jegliche identische Komponenten
unter denselben Bezugszeichen und sind hierin nicht erneut beschrieben.
Ein Freigeber 301 ist mit dem Schlüsselworterkenner 310,
dem Timer 320 und dem Vergleichsfreigeber 330 versehen, wie
in der ersten Ausführungsform,
und ist neu mit dem Übereinstimmungserkenner 340 versehen.
Der Übereinstimmungserkenner 340 ist
sowohl mit dem Mustervergleicher 311 und dem Timer 320 verbunden.
-
Unten
wird der Betrieb der Spracherkennungsvorrichtung VR2 beschrieben
nur für
jegliche Komponenten, die sich von der Vorrichtung in der ersten
Ausführungsform
unterscheiden.
-
In
einer Weise, ähnlich
zu der ersten Ausführungsform,
sobald der Schlüsselworterkenner 310 ein
Schlüsselwort
erkennt, beginnt der Zähler 320, die
Befehlseingabeperiode zu zählen,
so dass die Operation des Mustervergleichers 211 freigegeben wird.
Das Vergleichsergebnis wird durch dasselbe Befehlssignal Scm an
die Vorrichtungssteuereinheit 220 und den Übereinstimmungserkenner 340 übertragen.
Basierend auf dem Befehlssignal Scm steuert die Vorrichtungssteuereinheit
die Zielvorrichtung 800. Der Übereinstimmungserkenner 340 gibt
ein Rücksetzsignal
Sr in Antwort auf das Befehlssignal Scm aus und setzt dann den Timer 320 zurück. Danach
beginnt der Timer 320 das Zählen der Zeit von 0.
-
In
dem sich auf 4 für ein Flussdiagramm bezogen
wird, wird nun die Operation des Freigebers 301 beschrieben.
Hierin ist jeglicher Schritt, der identisch in dem Flussdiagramm
von 2 ist, mit derselben Schrittzahl versehen und
ist hierin nicht erneut beschrieben.
-
Die
Befehlseingabeperiode, die gleich der Zähldauer des Timers 320 ist,
ist in der ersten Ausführungsform
konstant. In der zweiten Ausführungsform
jedoch akzep tiert die Spracherkennungsvorrichtung einen Befehl (S21)
während
der Timer 320 die Zeit zählt (S14) und wenn irgendein
Befehl in der Zwischenzeit erkannt wird, wird der Timer 320 dazu
gebracht, die Zeit erneut von 0 zu zählen durch das Rücksetzsignal
Sr (S22). Mit anderen Worten, jedes mal wenn ein Befehl in der Befehlseingabeperiode erkannt
wird, beginnt der Timer 320 die Zeit von 0 zu zählen. Mit
der auf diese Weise verlängerten
Befehlseingabeperiode braucht der Benutzer nicht länger dasselbe
Schlüsselwort
jedes Mal zu äußern, wenn
die Befehlseingabeperiode vorbei ist.
-
Hierin
ist der Übereinstimmungserkenner 340 so
konfiguriert, das er das Befehlssignal Scm von dem Mustervergleicher 211 empfängt und
das Rücksetzsignal
Sr an den Timer 320 ausgibt. Eine solche Konfiguration
ist nicht beschränkend,
und der Mustervergleicher 211 kann funktionell dies ersetzten,
indem er das Rücksetzsignal
Sr an den Timer 320 ausgibt, wenn er irgendeinen Befehl
erkennt.
-
Wie
im Vorhergehenden beschrieben, in der zweiten Ausführungsform,
wird die Befehlseingabeperiode automatisch verlängert für jeden Befehl. Daher wird
die Befehlseingabeperiode niemals vorbei sein, bis der Benutzer
aufhört,
erfolgreich eine Mehrzahl von Befehlen zu äußern. Auf diese Weise kann der
Benutzer sich den Aufwand ersparen, dasselbe Schlüsselwort
jedes Mal zu äußern, wenn
die Befehlseingabeperiode vorbei ist.
-
(Dritte Ausführungsform)
-
In
dem sich auf 5 für ein Blockdiagramm bezogen
wird, wird unten die Konfiguration einer Spracherkennungsvorrichtung
VR3 gemäß einer
dritten Ausführungsform
beschrieben, welche mit einer Zielvorrichtung verbunden ist, die
einen Lautausgabeteil hat, und welche effektiv fehlerhafte Erkennung reduziert,
indem sie Lautausgabe davon für
die Befehlseingabeperiode reduziert, nachdem sie ein Schlüsselwort
erkennt. Die Spracherkennungsvorrichtung VR3 ist beinahe dieselbe
wie diejenige in der ersten Ausführungsform,
mit Ausnahme einer Lautstärke steuereinheit 400,
die neu bereitgestellt ist. Und eine Zielvorrichtung 900,
die dazu verbunden ist, ist zusätzlich
mit einem Lautausgabeteil 910 versehen. Daher sind jegliche
identische Komponenten unter denselben Bezugszeichen und nicht erneut
beschrieben. Die Lautstärkesteuereinheit 400 ist
sowohl mit dem Timer 320 als auch dem Lautausgabeteil 910 in
der Zielvorrichtung 900 verbunden.
-
Unten
wird der Betrieb der Spracherkennungsvorrichtung VR3 nur für jegliche
Komponente beschrieben, die sich von der Vorrichtung in der ersten
Ausführungsform
unterscheidet.
-
Auf
eine der ersten Ausführungsform ähnliche
Weise, sobald der Schlüsselworterkenner 310 ein
Schlüsselwort
erkennt, beginnt der Timer 320, die Befehlseingabeperiode
zu zählen,
so dass die Operation des Mustervergleichers 211 freigegeben
wird. Das Zeitsignal St, welches von dem Timer 320 ausgegeben
wird, wird auch auf die Lautstärkesteuereinheit 400 angewandt.
Basierend darauf gibt die Lautstärkesteuereinheit 400 ein
Lautstärkesteuersignal Svc
aus und setzt die Lautstärke
des Lautausgabeteils 910 nur für die Befehlseingabeperiode
herunter.
-
Indem
sich auf 6 für ein Flussdiagramm bezogen
wird werden der Freigeber 300 und die Lautstärkesteuereinheit 400 für ihre Operationen
beschrieben. Hierin ist jeglicher Schritt, der identisch in dem
Flussdiagramm von 2 ist, unter derselben Schrittnummer
und nicht erneut beschrieben.
-
In
der dritten Ausführungsform,
sobald der Timer 320 zu zählen begonnen hat und die Befehlsvergleichsoperation
freigegeben ist in dem Mustervergleicher 211 (S13), wird
die Lautstärke
des Lautausgabeteils 910 heruntergesetzt durch das Lautstärkesteuersignal
Svc (S31). Die Lautstärke
des Lautausgabeteils 910 wird zurückgesetzt, nachdem der Timer 320 aufgehört hat zu
zählen
(S32). Mit anderen Worten, die Lautstärke des Lautausgabeteils 910 wird
heruntergesetzt allein für
die Befehlseingabeperiode.
-
Hierin
wird die Lautausgabe von dem Lautausgabeteil 910 heruntergesetzt
allein für
die Befehlseingabeperiode, kann aber auch abgeschaltet werden. Wenn
sie heruntergesetzt wird, kann der Benutzer einen Befehl für die Befehlseingabeperiode äußern, während er
oder sie den Laut von dem Lautausgabeteil 910 hört, und
wenn er abgeschaltet ist, kann der Befehl des Benutzers mit höherer Genauigkeit
erkannt werden und dementsprechend kann fehlerhafte Erkennung vermindert
werden.
-
Wie
im vorstehenden beschrieben wird die Lautstärke des Lautausgabeteils 910 nur
für die
Befehlseingabeperiode heruntergesetzt. Dementsprechend kann eine
solche Lautausgabe davon für
die Befehlseingabeperiode die Spracherkennungsvorrichtung nicht
verwirren und daher kann die Befehlsvergleichsoperation in dem Mustervergleicher 211 mit
höherer
Genauigkeit ausgeführt
werden. Dies ist effektiv für
einen Fall, wo die Lautausgabe von dem Lautausgabeteil 910 Sprache
enthält.
Daher arbeitet die Spracherkennungsvorrichtung der zweiten Ausführungsform
gut zum Steuern einer Lautausgabevorrichtung wie ein Fernsehgerät.
-
(Vierte Ausführungsform)
-
Indem
sich auf 7 für ein Blockdiagramm bezogen
wird, wird unten die Konfiguration einer Spracherkennungsvorrichtung
VR4 gemäß einer vierten
Ausführungsform
beschrieben, welche mit einer Zielvorrichtung verbunden ist, die
einen Lautausgabeteil hat, und welche effektiv fehlerhafte Erkennung
zu einem größeren Ausmaß vermindert,
indem sie eine Lautausgabekomponente von der Zielvorrichtung vermindert,
welche sich in eine eingehende Sprache mischt. Die Spracherkennungsvorrichtung VR4
ist beinahe dieselbe wie diejenige in der ersten Ausführungsform,
mit Ausnahme eines Lautausgabekomponentenunterdrückers 500, welcher
neu bereitgestellt ist. Die Zielvorrichtung 900, die dazu
verbunden ist, ist mit dem Lautausgabeteil 910 versehen,
wie in der dritten Ausführungsform.
Daher ist jegliche identische Komponente unter demselben Bezugszeichen
und nicht erneut beschrieben. Der Lautausgabekomponentenunterdrücker 500 ist
nachfol gend dem Sprachempfänger 100 bereitgestellt
und ist mit der Zielvorrichtung 900 verbunden.
-
Unten
beschrieben ist die Operation der Spracherkennungsvorrichtung VR4
nur für
jegliche Komponente, die sich von der Vorrichtung in der ersten
Ausführungsform
unterscheidet.
-
Der
Lautausgabekomponentenunterdrücker 500 reduziert
die Lautausgabekomponente des Lautausgabeteils 910, die
sich in ein Sprachsignal Sv mischt, das durch den Sprachempfänger 100 bereitgestellt
wird. Dann wird ein Sprachsignal Sv' mit unterdrückter Lautausgabekomponente
auf sowohl den Schlüsselworterkenner 310 als
auch den Mustererkenner 211 angewandt. Um genauer zu sein
empfängt
der Lautausgabekomponentenunterdrücker 500 sowohl das
Sprachsignal Sv von dem Sprachempfänger 100 und ein Lautausgabesignal
Sa, das in den Lautausgabeteil 910 eingegeben wird und
dann davon als die Lautausgabe ausgegeben wird. Der Lautausgabekomponentenunterdrücker 500 unterwirft
diese Signale einer vorherbestimmten Operationsverarbeitung, um
die Lautausgabekomponente, die in das Sprachsignal Sv eingemischt
ist, zu reduzieren. Solche Operationsverarbeitung kann von einer
einfachen Subtraktion des Lautausgabesignals Sa, in Prozent, von
dem Sprachsignal Sv bis zu einer komplizierten Operation mit einem
berücksichtigten Übertragungsverlust
reichen. Welche Weise ist hier kein Thema.
-
Das
Sprachsignal Sv' wird
auf sowohl den Schlüsselworterkenner 310 als
auch den Mustervergleicher 211 angewandt und basierend
darauf wird Verarbeitung auf eine ähnliche Weise zu der ersten Ausführungsform
ausgeführt.
-
Indem
sich auf 8 für ein Flussdiagramm bezogen
wird, werden der Lautausgabekomponentenunterdrücker 500 und der Freigeber 300 für deren Operationen
beschrieben. Hierin ist jeglicher Schritt identisch in dem Flussdiagramm
zu 2 mit derselben Schrittzahl versehen und ist nicht
erneut beschrieben.
-
In
der vierten Ausführungsform
wird die Lautausgabekomponente, die in das Sprachsignal Sv eingemischt
ist, reduziert (S41) und basierend auf dem Sprachsignal Sv' mit reduzierter
Lautausgabekomponente wird die Verarbeitung auf eine ähnliche
Weise zu der ersten Ausführungsform
ausgeführt.
Eine solche Verarbeitung zum Reduzieren der Lautausgabekomponente
in dem Lautsignal Sv wird konstant ausgeführt, unabhängig von der Befehlseingabeperiode.
-
Als
solche erkennen, in der vierten Ausführungsform, der Schlüsselworterkenner 310 und
der Befehlserkenner 210 ein Schlüsselwort bzw. einen Befehl
von dem Sprachsignal Sv'.
Dementsprechend, sogar wenn die Lautausgabe von dem Lautausgabeteil 910 zu
dem Sprachempfänger 100 geht, können der
Schlüsselworterkenner 310 und
der Mustervergleicher 211 ihre Genauigkeit zur Schlüsselworterkennung
bzw. Befehlsvergleich beibehalten. Insbesondere für einen
Fall, wo die Lautausgabe von dem Lautausgabeteil 910 Sprache
beinhaltet, kann die Spracherkennungsvorrichtung solche Sprache nicht
mit der Sprache des Benutzers verwechseln. Daher arbeitet die Spracherkennungsvorrichtung
der vierten Ausführungsform
gut zum Steuern einer Lautausgabevorrichtung wie ein Fernsehgerät. Zudem kann
Befehlserkennung mit höherer
Genauigkeit während
der Befehlseingabeperiode gemacht werden, ohne die Lautausgabe von
dem Lautausgabeteil 910 herunterzusetzen, wodurch der Benutzer
seinen/ihren Befehl äußern kann,
während
er/sie der Lautausgabe von der Zielvorrichtung 900 zuhört. Dies
ist insbesondere effektiv für
einen Befehl, um die Lautstärke
der Zielvorrichtung 900 zu Steuern, da der Benutzer die
Lautstärke
in Echtzeit überprüfen kann.
-
(Fünfte Ausführungsform)
-
In 9 ist
die Konfiguration einer Spracherkennungsvorrichtung VR5 gemäß einer
fünften
Ausführungsform
gezeigt, welche mit einer Zielvorrichtung verbunden ist, die den
Lautausgabeteil enthält, und
die mit jeder charakteristischen Komponente der ersten bis vierten
Ausführungsformen
versehen ist.
-
Wie
in 9 gezeigt, ist die Spracherkennungsvorrichtung
VR5 zusätzlich
mit dem Übereinstimmungserkenner 340,
der Lautstärkesteuereinheit 400 und
dem Lautausgabekomponentenunterdrücker 500 versehen,
verglichen mit der Vorrichtung in der ersten Ausführungsform.
Unten wird die Operation der Spracherkennungsvorrichtung VR5 der
fünften
Ausführungsform
beschrieben.
-
Hierin
wird ein Sprachsignal Sv, bereitgestellt durch den Sprachempfänger 100,
in ein Sprachsignal Sv' in
dem Lautausgabekomponentenunterdrücker 500 gewandelt.
Dies wird ausgeführt
basierend auf einen Lautausgabesignal Sa von der Zielvorrichtung 900.
Basierend auf dem Sprachsignal Sv' erkennen der Schlüsselworterkenner 310 und
der Mustervergleicher 211 jeder ein Schlüsselwort
bzw. einen Befehl. Sobald der Schlüsselworterkenner 310 das Schlüsselwort
erkennt und daher ein Befehl begonnen wird, akzeptiert zu werden,
setzt die Lautstärkesteuereinheit 400 die
Lautstärke
des Lautausgabeteils 910 mit dem Lautstärkesteuersignal Svc herunter.
Der Übereinstimmungserkenner 340 empfängt ein
Befehlssignal Scm von dem Mustervergleicher 211 und gibt
dann ein Rücksetzsignal
Sr an den Timer 320 aus. In Antwort darauf beginnt der
Timer 320, die Befehlseingabeperiode wiederum von 0 zu zählen. Sobald
der Timer 320 sein Zählen
beendet, gibt die Lautstärkesteuereinheit 400 ein
Lautstärkesteuersignal
Svc aus, um die Lautstärke
des Lautausgabeteils 910 zurück zu setzten.
-
In 10 ist
ein Flussdiagramm für
die Operationen des Freigebers 301, der Lautstärkesteuereinheit 400 und
des Lautausgabekomponentenunterdrückers 500 gezeigt.
Hierin ist jeglicher Schritt, der identisch in dem Flussdiagramm
von 2, 4, 6 oder 8 ist,
mit derselben Schrittzahl versehen. Die in dem Flussdiagramm von 10 gefundene
Operation ist bereits im Vorhergehenden gut beschrieben und wird
nicht wiederum beschrieben.
-
Wie
aus dem obigen bekannt ist, in der fünften Ausführungsform, wird die Lautausgabe
von dem Lautausgabeteil 910 weder heruntergesetzt noch ausgeschaltet
während
einer Schlüsselworteingabeperiode,
d.h., eine Periode ausschließend
die Befehlseingabeperiode, sondern nur die Lautausgabekomponente,
die sich in das Sprachsignal Sv einmischt, wird reduziert. Auf diese
Weise, selbst wenn der Laut von der Lautausgabevorrichtung 910 bei
einer normalen Lautstärke
ist, kann das Schlüsselwort mit
höherer
Genauigkeit erkannt werden. Für
die Befehlseingabeperiode andererseits wird die Lautausgabe von
dem Lautausgabeteil 910 heruntergesetzt oder ausgeschaltet
und die Lautausgabekomponente, die sich in das Sprachsignal Sv einmischt,
wird auch reduziert. Dementsprechend ist die Befehlserkennung während der
Befehlseingabeperiode in Genauigkeit verbessert, wobei fehlerhafte
Erkennung zu einem größeren Ausmaß reduziert
wird, die von dem Laut von der Zielvorrichtung resultiert.
-
Hierin
kann das Schlüsselwort
ein magischer Spruch oder ein Kosename sein, der Originell und ungewöhnlich im
Alltagsleben ist. Der Befehl jedoch wird oftmals als im Alltagsleben
bekannt gefunden. Daher wird der Befehl mit höherer Wahrscheinlichkeit fehlerhaft
erkannt, als das Schlüsselwort
wegen z.B. dem Laut von einem Fernsehgerät. In Anbetracht dessen ist
es, wie es in dieser Ausführungsform
gemacht wird, bevorzugt, die Lautausgabe von dem Lautausgabeteil 910 herunter
zu setzten oder auszuschalten, während
das Sprachsignal Sv in der Lautausgabekomponente reduziert wird.
Daher arbeitet die Spracherkennungsvorrichtung der fünften Ausführungsform
gut zum Steuern einer Vorrichtung wie einem Fernsehgerät, das konstant
Laute ausgibt, insbesondere menschliche Sprache, und zum sicheren Vermeiden
fehlerhafter Erkennung.
-
Man
bemerke hierin, dass die Spracherkennungsvorrichtung der fünften Ausführungsform
diejenige ist, die jede charakteristische Komponente in den zweiten
bis vierten Ausführungsformen
enthält, als
da sind der Übereinstimmungserkenner 340, Lautstärkesteuereinheit 400 und
Lautausgabekomponentenunterdrücker 500.
Wie aus dem obigen ersichtlich können
jedoch beliebige zwei Komponenten, die daraus ausgewählt sind,
zusätzlich
zu der Struktur in der ersten Ausführungsform sicher die Spracherkennungsvorrichtung
implementieren.
-
Während die
Erfindung im Detail beschrieben wurde ist die vorstehende Beschreibung
in allen Aspekten beschreibend und nicht beschränkend. Es wird verstanden,
dass zahlreiche andere Modifikationen und Variationen erdacht werden
können,
ohne den Bereich der Erfindung zu verlassen, der durch die Ansprüche definiert
ist.