DE60022269T2 - Sprachbasiertes Manipulationsverfahren und -gerät - Google Patents

Sprachbasiertes Manipulationsverfahren und -gerät Download PDF

Info

Publication number
DE60022269T2
DE60022269T2 DE60022269T DE60022269T DE60022269T2 DE 60022269 T2 DE60022269 T2 DE 60022269T2 DE 60022269 T DE60022269 T DE 60022269T DE 60022269 T DE60022269 T DE 60022269T DE 60022269 T2 DE60022269 T2 DE 60022269T2
Authority
DE
Germany
Prior art keywords
voice
data
voice data
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60022269T
Other languages
English (en)
Other versions
DE60022269D1 (de
Inventor
Koji Kawagoe-shi Endo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Application granted granted Critical
Publication of DE60022269D1 publication Critical patent/DE60022269D1/de
Publication of DE60022269T2 publication Critical patent/DE60022269T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

  • HINTERGRUND DER ERFINDUNG
  • EINSATZFELD DER ERFINDUNG
  • Die vorliegende Erfindung betrifft eine sprachbasierte Bedientechnik, welche in der Lage ist, elektronische Geräte und dergleichen durch Spracheingabe anzusteuern und zu bedienen und im Besonderen eine sprachbasierte Bedienmethode und Vorrichtung, welche auch einem Anwender erlauben, der sich an aufgezeichnete Wörter nicht erinnert, die Zuordnung zwischen aufgezeichneten Wörtern und zu bedienenden Gegenständen zu überprüfen, wodurch sich die Bedienbarkeit verbessert.
  • STAND DER TECHNIK
  • Sprachbasierte Bedientechniken, die einem Anwender erlauben, elektronische Geräte oder Ähnliches durch Spracheingabe zu bedienen, sind bekannt. Indessen sind auch einige Verbesserungen im Bereich der Spracherkennungstechniken erreicht worden. Durch solchen verbesserten Spracherkennungstechniken gibt es aktive Entwicklungen von elektronischen Geräten oder dergleichen, welche sprachbasierte Bedientechniken verwenden.
  • Beispielsweise gibt es ein Onboard-Audiosystem für Fahrzeuge, das Stimmen folgendermaßen verarbeiten kann. Unter Verwendung dieses Audiosystems zeichnet der Anwender Sprachdaten für jede Kanalfrequenz von Radiostationen auf. Wenn der Anwender ein paar Wörter von sich gibt, die einem der aufgezeichneten Sprachdatensätze zugeordnet sind, erkennt das Audiosystem die geäußerten Wörter anhand einer Spracherkennungstechnik und stellt sich automatisch auf die gewünschte Kanalfrequenz ein.
  • Genauer gesagt, stellt der Anwender die Kanalfrequenz des gewünschten Senders ein und spricht Wörter aus, beispielsweise „Erster Sender", durch Bedienen eines Knopfes zur Sprachaufzeichnung am Onboard-Audiosystem können Sprachdaten für die Wörter „erster Sender" in einem Speicher zusammen mit der Kanalfrequenz gespeichert (aufgezeichnet) werden. In ähnlicher Form stellt der Anwender die Kanalfrequenzen anderer Sender ein und spricht Wörter aus wie beispielsweise „zweiter Sender" und „dritter Sender". – So können Sprachdaten für die Wörter „zweiter Sender", „dritter Sender" und so weiter in dem Speicher zusammen mit den eingestellten Kanalfrequenzen gespeichert werden. Wenn nach diesem Sprachaufzeichnungsvorgang der Anwender einen aus den aufgezeichneten Wortgruppen ausgewählten Wortstrang ausspricht, wie beispielsweise „erster Sender", „zweiter Sender" oder „dritter Sender", erkennt das Audiosystem die gesprochenen Wörter und stellt sich automatisch auf die vorgesehene Kanalfrequenz ein.
  • Wie oben erwähnt, erlaubt dieses Onboard-Audiosystem eine sprachbasierte Bedienung auf der Grundlage von Sprachdaten, die im Voraus zusammen mit zu bedienenden Gegenständen (im Folgenden: „Bedienungsziele") aufgezeichnet wurden. Allerdings neigen Anwender dazu, aufgezeichnete Wörter oder die Zuordnung zwischen den aufgezeichneten Wörtern und den Bedienungszielen zu vergessen. In diesem Fall müsste jeder Anwender beispielsweise die oben beschriebenen Sprachaufzeichnungsvorgänge wiederholen, um alte Sprachdaten im Sprecher durch neue Sprachdaten zu ersetzen.
  • Es ist bevorzugt, die Sprachaufzeichnung beliebiger und nicht bestimmter Wörter sicherzustellen und so die Bedienbarkeit für die Anwender zu verbessern. Bei einer solchen höchst allgemein ausgerichteten Ausführung würde das ausgeführte Audiosystem, auch wenn es in vielerlei Hinsicht effektiv arbeitet, unter einer geringeren Bedienbarkeit leiden, da die Anwender die aufgezeichneten Wörter vergessen können.
  • Während der Einstellvorgang für ein Onboard-Audiosystem speziell diskutiert worden ist, um das Problem der herkömmlichen sprachbasierten Bedientechniken zu verdeutlichen, ergibt sich dasselbe Problem in dem Fall, in dem ein Anwender, der dazu neigt, aufgezeichnete Wörter zu vergessen, ein Aufnahme-/Wiedergabemedium in einen MD (Minidisc)-Player, CD (Compact Disk)-Player oder dergleichen lädt, welcher Teil eines Onboard-Audiosystems ist, und über die Sprache ein Musikstück, einen Titel oder dergleichen auswählt, das auf diesem Medium gespeichert ist.
  • Der Umstand, dass Anwender aufgezeichnete Wörter vergessen können, ist das Problem das gelöst werden muss, nicht nur für Onboard-Audiosysteme in Fahrzeugen, sondern auch für sprachbasierte Bedientechniken.
  • US 5,267,323 behandelt ein durch Sprache bedientes Fernsteuerungssystem. Dieses System stellt eine Methode zur Verfügung, die Nebengeräusche aus dem Sprachsignal entfernt, bevor die Spracherkennung erfolgt. Eine Speichereinheit zeichnet die extrahierten Sprachdaten auf, eine Bedienungseinheit wird verwendet, um ein bestimmtes Ziel innerhalb des Systems zu bedienen, und eine Sucheinheit dient der Suche nach bestimmten Sprachdaten im Speicher. Es behandelt aber in keinster Weise eine Einheit, die eine sequentielle hörbare Wiedergabe der spezifischen Bedienungszielen zugeordneten Sprachdaten ermöglicht.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Dementsprechend hat die vorliegende Erfindung zum Ziel, eine sprachbasierte Bedientechnik und Vorrichtung zur Verfügung zu stellen, die es auch einem Anwender, der aufgezeichnete Wörter vergessen hat, erlauben, in einfacher Weise die Zuordnung zwischen aufgezeichneten Wörtern und Bedienungszielen zu überprüfen, wodurch eine verbesserte Bedienbarkeit sichergestellt wird.
  • Um das oben genannte Ziel zu erreichen, wird eine sprachbasierte Bedienungsvorrichtung bereitgestellt, welche eine Speichereinheit zur Aufzeichnung von Sprachdaten enthält, welche aus geäußerten Sprachinformationen extrahiert werden, sowie Steuerinformationen, welche aus einander zugeordneten Daten zur näheren Bestimmung von Bedienungszielen und Informationen für die Steuerung der Bedienungsziele zusammengesetzt sind.
  • Eine Bedienungseinheit, um bei Eingabe eines Sprachbefehls ein bestimmtes Bedienungsziel unter Verwendung der Steuerungsinformationen anzusteuern, die den Sprachdaten zugeordnet sind, die in der Speichereinheit abgelegt sind und dem Sprachbefehl entsprechen.
  • Eine Sucheinheit zur Suche in der Speichereinheit nach bestimmten Sprachdaten, die einem bestimmten Steuerungsvorgang für ein spezifisches Bedienungsziel zugeordnet sind sowie zur hörbaren Wiedergabe der Sprachdaten.
  • Wobei während einer Sprachaufzeichnungsphase die geäußerte Sprachinformation von einem Anwender nach eigenem Willen ausgewählt werden kann und die Sprachdaten automatisch der Steuerungsinformation für das aktuell spezifizierte Bedienungsziel zugeordnet werden.
  • Es werden ferner Hilfsmittel bereitgestellt, um eine aufeinander folgende hörbare Wiedergabe weiterer spezieller Sprachdaten zu steuern, die dem spezifischen Bedienungsziel zugeordnet sind.
  • Als Ausführungsbeispiel für das oben Gesagte: Wenn Sprachdaten, die einer laufenden Ausführung des spezifischen Bedienungsziels zugeordnet sind, in der Speichereinheit nicht gespeichert sind, können die Sucheinheit oder die Suchschritte nach anderen Sprachdaten suchen, die in der Speichereinheit zusammen mit den übrigen Bedienvorgängen für das spezifische Bedienungsziel abgelegt sind, und die gesuchten Sprachdaten darstellen.
  • Im Rahmen des oben Gesagten ist es ferner bevorzugt, dass in Reaktion auf eine Suchanweisung von außen die Sucheinheit oder der Suchschritt die in der Speichereinheit abgelegten Sprachdaten in einer vordefinierten Reihenfolge entsprechend dem Bedienungsziel durchsuchen und die gesuchten Sprachdaten darstellen sollte.
  • In diesem Fall kann es sich bei der vordefinierten Reihenfolge um eine alphabetische Reihenfolge, eine vorwärts gerichtete Sortierung oder eine rückwärts gerichtete Sortierung handeln. Es wird ferner eine sprachbasierte Bedienungsmethode zur Verfügung gestellt, wie in Patentanspruch 8 beschrieben.
  • Durch die sprachbasierte Bedienungsvorrichtung und die sprachbasierte Bedienungsmethode oder eine der oben beschriebenen bevorzugten Weisen kann die Speichereinheit die Sprachdaten erneut speichern und ein gesprochenes Sprachsignal als Sprachdaten in Zuordnung zu einem aktuellen Bedienungsziel bei der erneuten Aufzeichnung der Sprachdaten erneut speichern.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Andere Aspekte und Vorteile der Erfindung werden ohne weiteres aus der folgenden Beschreibung ersichtlich, die im Zusammenhang mit den beigefügten Zeichnungen, welche beispielhaft die Prinzipien der Erfindung verdeutlichen, angefertigt wurde.
  • 1 ist eine Draufsicht, welche das äußere Erscheinungsbild. einer sprachbasierten Bedienvorrichtung entsprechend einem Ausführungsbeispiel dieser Erfindung darstellt;
  • 2 ist ein Blockdiagramm, das die Struktur eines Signalprozessors innerhalb einer Sprachsteuerungseinheit darstellt;
  • 3A bis 3C sind Diagramme, die jeweils einzelne Speicherpläne einer Speichertabelle für Sprachdaten zur Bezeichnung von Titeln, einer Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten sowie eine Speichertabelle für angepasste Sprachdaten zeigen;
  • 4A und 4B sind erläuternde Diagramme, welche die Funktionen einer Taste zur normalen Aufzeichnung/Sprachsteuerung beschreiben;
  • 5A und 5B sind erläuternde Diagramme, welche die Funktionen einer Taste zur Aufzeichnung/Suche beschreiben;
  • 6A und 6B sind erläuternde Diagramme, welche die Funktionen einer Taste zur angepassten Sprachaufzeichnung/Suche beschreiben;
  • 7A und 7B sind erläuternde Diagramme, welche die Funktionen einer Taste zur Regelung der Lautstärke/der Sprache der Benutzerführung beschreiben;
  • 8A und 8B sind erläuternde Diagramme, welche die Funktionen einer Taste zur Suche/zum Vorwärts-Scannen beschreiben;
  • 9A und 9B sind erläuternde Diagramme, welche die Funktionen einer Taste zur Suche/zum Rückwärts-Scannen beschreiben;
  • 10 ist ein Ablaufdiagramm, das die Arbeitsweise der sprachbasierten Bedienungsvorrichtung gemäß diesem Ausführungsbeispiel im Standby-Modus darstellt;
  • 11 ist ein Ablaufdiagramm, das die Arbeitsweise der Vorrichtung im Sprachaufzeichnungsmodus zeigt;
  • 12 ist ein Ablaufdiagramm, das die Arbeitsweise der Vorrichtung im Modus zur Sprachaufzeichnung für die Bezeichnung von Einheiten zeigt;
  • 13 ist ein Ablaufdiagramm, das die Arbeitsweise der Vorrichtung im equalizerregulierten Sprachaufzeichnungsmodus zeigt;
  • 14 ist ein Ablaufdiagramm, das die Arbeitsweise der Vorrichtung im sprachbasierten Bedienungsmodus darstellt; und
  • 15A und 15B sind Ablaufdiagramme, welche die Arbeitsweise der Vorrichtung im Suchmodus für aufgezeichnete Sprachdaten beschreiben.
  • DETAILLIERTE BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
  • Unter Bezugnahme auf die beigefügten Zeichnungen wird nun eine Beschreibung eines bevorzugten Ausführungsbeispiels für die vorliegende Erfindung gegeben, angepasst an eine sprachbasierte Bedienungsvorrichtung, die es einem Anwender erlaubt, die sprachbasierte Bedienung eines Onboard-Audiosystems für ein Fahrzeug, das mit einem Empfangsgerät für Rundfunkwellen oder dergleichen, einem MD-Player zum Abspielen von Minidisks, einem CD-Player zum Abspielen von CDs, einem Equalizer zur Anpassung von Frequenzcharakteristiken, einem Verstärker zur Lautstärkeregelung und so weiter ausgerüstet ist, durchzuführen. (Diese Komponenten des Onboard-Audiosystems werden im Folgenden als „Audio-Einheiten" bezeichnet.)
  • 1 zeigt das äußere Erscheinungsbild. einer sprachbasierten Bedienungsvorrichtung 1, und 2 stellt die Struktur eines Signalprozessors dar, der Teil einer Sprachsteuerungseinheit 2 ist.
  • Unter Bezugnahme auf 1 beinhaltet die sprachbasierte Bedienungsvorrichtung 1 die Sprachsteuerungseinheit 2, welche die Haupteinheit für die Steuerung der bereits erwähnten jeweiligen Audio-Einheiten ist, ein Mikrofon 3, durch welches der Anwender per Sprache eine Instruktion an die Sprachsteuerungseinheit 2 weitergibt, sowie eine Fernsteuerungseinheit 4.
  • Die Fernsteuerungseinheit 4 verfügt über einen kleinen Lautsprecher 5 und drucktastenartige Steuerungsschalter 611.
  • Der Steuerungsschalter 6 wird bezeichnet als „Taste für normale Aufzeichnung/Stimmsteuerung", der Steuerungsschalter 7 als „Such-/Vorwärtsscan-Taste", der Steuerungsschalter 8 als „Such-/Rückwärtsscan-Taste", der Steuerungsschalter 9 als „Einheitenaufzeichnungs-/Suchtaste", der Steuerungsschalter 10 als „Taste für angepasste Sprachaufzeichnung/Suchen" und der Steuerungsschalter 11 als „Taste für Lautstärkeregelung/Sprache der Benutzerführung". Diese Tasten haben voreingestellte Funktionen, auf die weiter unten eingegangen wird.
  • Wie in 2 gezeigt, sind das Mikrofon 3 und die Fernsteuerungseinheit 4 mit einem Konnektor 14 der Sprachsteuerungseinheit 2 über die Verbindungskabel 12 bzw. 13 verbunden.
  • Unter Bezugnahme auf 2 enthält die Sprachsteuerungseinheit 2 einen Verstärker (Mikrofon-Verstärker) 15, eine Spracherkennungseinheit 18 und einen Sprachdatenspeicher 19. Wenn der Anwender Wörter spricht, wird ein Sprachsignal vom Mikrofon 3 zum Mikrofonverstärker 15 über das Verbindungskabel 12 weitergeleitet. Der Mikrofon-Verstärker 15 verstärkt das Sprachsignal und sendet es an die Spracherkennungseinheit 18. Die Spracherkennungseinheit 18 führt die Spracherkennung an dem empfangenen Sprachsignal durch. Der Sprachdatenspeicher 19, welcher ein nicht-flüchtiger Speicher ist, speichert die von der Spracherkennungseinheit 18 empfangenen Sprachdaten.
  • Der Sprachdatenspeicher 19 verfügt über eine Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a, eine Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b, eine Speichertabelle für angepasste Sprachdaten 19c und eine Speichertabelle für Führungsdaten 19d. Die ersten drei Tabellen 19a bis 19c speichern die Sprachdaten, die von der Spracherkennungseinheit 18 weitergeleitet werden. Die letzte Tabelle 19d speichert die einstweilen Sprachführungsdaten, um Sprachführungssignale zu generieren, auf die weiter unten eingegangen wird.
  • Wie exemplarisch in 3A gezeigt, ist die Speichertabelle des Sprachdatenspeichers für Bezeichnungen von Titeln 19a dazu da, Informationen zu speichern (aufzuzeichnen), wie z.B. ein Musikstück, das von einer aktiven oder im Betrieb befindlichen Audio-Einheit abgespielt wird, dessen Titel und die Kanalfrequenz eines Senders, in Verbindung mit Daten sprachlicher Äußerungen vom Anwender (Sprachdaten). Die Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b dient, wie exemplarisch in 3B gezeigt, dazu, den Namen einer in Betrieb befindlichen Audio-Einheit in Verbindung mit Daten sprachlicher Äußerungen vom Anwender (Sprachdaten) zu speichern (aufzuzeichnen). Wie in 3C exemplarisch gezeigt, dient die Speichertabelle für angepasste Sprachdaten 19c dazu, Informationen über die Einstellungen des Equalizers und die Positionierung in Verbindung mit Daten der Sprachsignale vom Anwender (Sprachdaten) zu speichern (aufzuzeichnen).
  • Die Sprachsteuerungseinheit 2 enthält weiterhin einen Verstärker (Lautsprecherverstärker) 16, einen Generator 17 für synthetische Töne, einen Sprachsynthesizer 20, eine Steuereinheit 21, eine Schnittstellen(I/F)-Schaltung 22 und einen Schnittstellen-Port 23.
  • Der Generator 17 für synthetische Töne erzeugt einen synthetischen Signalton wie z.B. „Piep" oder „Biep". Der Sprachsynthesizer 20 erzeugt ein Sprachführungssignal auf der Grundlage der Sprachdaten oder der Sprachführungsdaten, welche im Sprachdatenspeicher 19 gespeichert sind. Der Lautsprecherverstärker 16 verstärkt dieses Sprachführungssignal und den synthetischen Signalton und leitet die verstärkten Signale über das Verbindungskabel 13 an den Lautsprecher 5 in der Fernsteuerungseinheit 4 weiter.
  • Die Steuereinheit 21 empfängt Steuerungssignale von den jeweiligen Steuerschaltern 611 über das Verbindungskabel 13 und steuert die jeweiligen Audio-Einheiten. Die I/F-Schaltung 22 und der Interface-Port 23 erlauben eine bidirektionale Kommunikation zwischen der Steuereinheit 21 und jeder Audio-Einheit.
  • Die Steuereinheit 21 ist mit einem Mikroprozessor versehen, welcher ein voreingestelltes System Verfahren zur Steuerung des allgemeinen Betriebs der sprachbasierten Bedienungsvorrichtung 1 und des Betriebs der jeweiligen Audio-Einheiten ablaufen lässt.
  • Die Steuerung der sprachbasierten Bedienungsvorrichtung 1 mit der oben beschriebenen Struktur wird weiter unten unter Bezugnahme auf 3A bis 15 besprochen. Die 3A bis 3C zeigen jeweils die individuellen Speicherpläne der Speichertabelle für Sprachdaten zur Beschreibung von Titeln 19a, eine Speichertabelle mit Sprachdaten für Bezeichnungen von Einheiten 19b sowie eine Speichertabelle für angepasste Sprachdaten 19c. Die 4A bis 9B sind erläuternde Diagramme, welche die Funktionen der Steuerschalter 611 darstellen. Die 10 bis 15 sind Ablaufdiagramme zur Erläuterung von Steuerbeispielen für die sprachbasierte Bedienvorrichtung 1, wenn der Anwender die Steuerschalter 611 betätigt.
  • Wie in den 4A bis 9B veranschaulicht, wird, wenn der Anwender einen der Steuerschalter 611 kurz oder für mindestens 2 Sekunden drückt, der Modus aktiviert, der der Betätigung durch den Anwender entspricht.
  • Entsprechend diesem Ausführungsbeispiel werden die Modi in drei Arten von Modi eingeteilt: Ein Aufzeichnungsmodus, um Sprachdaten vorläufig aufzuzeichnen, welche für sprachbasierte Bedienungsvorgänge in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a, in der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b und in der Speichertabelle für angepasste Sprachdaten 19c erforderlich sind; ein Steuerungsmodus, um sprachbasierte Bedienvorgänge sicherzustellen, wenn der Anwender Wörter in Korrelation zu den in diesen Sprachdatenspeichertabellen 19a19c bespeicherten Sprachdaten spricht; und ein Suchmodus, der dem Anwender erlaubt, die in diesen Sprachdatenspeichertabellen 19a19c gespeicherten Sprachdaten zu überprüfen.
  • In 10 wird, wenn die Hauptstromquelle eines Onboard-Audiosystems eingeschaltet ist, die sprachbasierte Bedienungsvorrichtung 1 automatisch eingeschaltet, und die Steuereinheit 21 befindet sich im Standby-Modus, bis einer der Steuerschalter 611 betätigt wird (Schritte 100 bis 120). Wenn der Anwender während des Standby einen der Steuerschalter 611 kurz oder für mehr als 2 Sekunden betätigt, wird der Modus aktiviert, welcher der Betätigung durch den Anwender entspricht, wie in den 4A bis 9B gezeigt.
  • Wenn in Schritt 102 bestimmt wird, dass der Schalter 6 für normale Aufzeichnung/Stimmsteuerung ununterbrochen 2 Sekunden oder länger gedrückt gehalten wird, wird der Modus für die Sprachaufzeichnung aktiviert, und es wird das in 11 gezeigte Verfahren in Gang gesetzt. Im Sprachaufzeichnungsmodus setzt die Steuereinheit 21 zunächst einen Verfahrenschrittzähler auf „1", welcher im System Verfahren implementiert ist und eine Abfolge von Prozessen beginnend bei Schritt 200 ausführt.
  • In Schritt 200 liest der Sprachsynthesizer 20 die vordefinierten Sprachführungsdaten aus der Speichertabelle für Führungsdaten 19d und erzeugt ein Sprachführungssignal, und der Generator 17 für synthetische Töne erzeugt einen synthetischen Signalton („Piep").
  • Die Steuereinheit 21 leitet das Sprachführungssignal und den synthetischen Signalton an den Lautsprecherverstärker 16 weiter und gibt über den Lautsprecher 5 „Titel aufzeichnen... Piep", einen Signalton wieder, der aus einem Sprachführungssignal und einem synthetischen Ton besteht, und fordert so den Anwender auf, ein aufzuzeichnendes Sprachsignal von sich zu geben.
  • Im folgenden Schritt 202 initiiert die Spracherkennungseinheit 18 einen Spracherkennungsprozess. Wenn der Anwender die gewünschten Wörter als Antwort auf den Signalton äußert, identifiziert die Spracherkennungseinheit 18 den Beginn dieser Spracherzeugung, so dass nun ein Verfahrentimer in der Steuereinheit 21 aktiviert wird, so dass die Spracherkennungseinheit 18 so angesteuert wird, dass die Spracherkennung der geäußerten Sprachsignale innerhalb von 2,5 Sekunden erfolgt.
  • Genauer gesagt: Bevor der Signalton ausgegeben wird, misst die Spracherkennungseinheit Geräusche (Stärke der Nebengeräusche), die vom Mikrofon 3 aufgefangen und über den Mikrofonverstärker 15 eingegeben werden, und legt den Pegel der Nebengeräusche als Geräuschpegel fest. Das Ausgangssignal des Mikrofonverstärkers 15 wird alle 10 Millisekunden addiert, jeder addierte Wert wird als Geräuschpegel gemessen und setzt einen ersten Schwellenwert THD1, der höher liegt als der Pegel der Nebengeräusche, und zwar alle 10 Millisekunden.
  • Wenn der Anwender eine Äußerung von sich gibt, vergleicht die Spracherkennungseinheit 18 den Pegel der Äußerung (Stärke des Sprachsignals) mit dem letzten ersten Schwellenwert THD1 und bestimmt den Punkt, an dem der Pegel der Äußerung höher wird als der erste Schwellenwert THD1, als Beginn der Spracherzeugung. Der Verfahrentimer wird zu Beginn der Spracherzeugung aktiviert, und die Spracherkennungseinheit 18 erkennt die Äußerung innerhalb von 2,5 Sekunden und erzeugt Sprachdaten entsprechend dem Erkennungsergebnis.
  • An diesem Punkt vergleicht die Spracherkennungseinheit 18 ferner den Pegel der Äußerung (Stärke des Sprachsignals) mit einem zweiten Schwellenwert THD2 (Fixwert), der höher eingestellt ist als der erste Schwellenwert THD1, und legt fest, dass die Sprach erkennung korrekt erfolgt ist, wenn die Stärke des Sprachsignals höher liegt als der zweite Schwellenwert THD2. Dies bedeutet: Sobald der Pegel des Sprachsignals höher geworden ist als der letzte erste Schwellenwert THD1 und dann höher wird als der zweite Schwellenwert THD2, wird das Sprachsignal als zu erkennender Gegenstand bestimmt. Dies erlaubt, die Charakteristik der Äußerung, die weniger durch Geräusche beeinflusst ist, korrekt zu extrahieren, so dass sich die Genauigkeit der Spracherkennung verbessert.
  • Im nächsten Schritt 204 wird aufgrund der Aktion des Timers oder einer Pegelschwankung bestimmt, ob die Spracherkennung abgeschlossen ist oder nicht. Nun wird in Schritt 206 bestimmt, ob die Spracherkennung korrekt erfolgt ist.
  • Diese Entscheidung erfolgt, indem überprüft wird, ob der Pegel des Sprachsignals (Stärke des Sprachsignals), das als Erkennungsziel eingegeben wurde, höher war als der erste und der zweite Schwellenwert THD1 und THD2. Wenn entschieden wurde, dass die Spracherkennung korrekt erfolgt ist, wird mit Schritt 208 fortgesetzt.
  • In Schritt 208 empfängt die Steuereinheit 21 Informationen von einer in Betrieb befindlichen Audio-Einheit sowie Informationen, die aktuell von dieser Audio-Einheit über die I/F-Schaltung 22 wiedergegeben werden, und speichert die empfangenen Daten und die von der Spracherkennungseinheit 18 erzeugten Sprachdaten in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a in Verbindung (in Kombination) miteinander.
  • Gesetzt den Fall, es handelt sich bei der in Betrieb befindlichen Audio-Einheit um einen CD-Player, der gerade ein Musikstück oder dergleichen auf Track1 eines Aufnahme-/Wiedergabemediums (CD) abspielt. Wenn der Anwender in Schritt 202 das Wort „eins" äußert, werden die Daten „Disk1 Track1" empfangen, und die Sprachdaten enthalten die Wortinformation „eins". Diese empfangenen Daten und Sprachdaten werden als aufgezeichnete Sprachdaten in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a in Verbindung miteinander gespeichert (aufgezeichnet).
  • Als weiteres Beispiel nehmen wir einmal an, dass es sich bei der in Betrieb befindlichen Audio-Einheit um ein Radiogerät handelt, das auf einen Sender mit einer Kanalfrequenz von 76,1 MHz eingestellt ist. Wenn der Anwender in Schritt 202 das Wort „sieben" äußert, werden die Daten über die Kanalfrequenz von 76,1 MHz und die Sprachdaten „sieben" in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a in Verbindung miteinander gespeichert (aufgezeichnet).
  • Mit anderen Worten: Im Sprachaufzeichnungsmodus werden Sprachdaten in Entsprechung zu den Äußerungen des Anwenders in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a in Verbindung mit Informationen aufgezeichnet wie z.B. dem Musikstück, das gerade von einer in Betrieb befindlichen Audio-Einheit abgespielt wird und dem Titel des Musikstücks oder der empfangenen Kanalfrequenz, wie in 3A gezeigt.
  • Wenn die Aufzeichnung von Sprachdaten abgeschlossen ist, wird zu Schritt 210 übergegangen, wo der Sprachsynthesizer 20 voreingestellte Sprachführungsdaten aus der Führungsdaten-Speichertabelle 19d ausliest und ein Sprachführungssignal erzeugt. Die Steuereinheit 21 leitet das Sprachführungssignal an den Lautsprecherverstärker 16 weiter und gibt über den Lautsprecher 5 einen Signalton „Aufgezeichnet" wieder, welcher den Anwender über das Ende der Aufzeichnung informiert. Nach Beendigung des Sprachaufzeichnungsmodus wird wieder in den Standby-Modus gewechselt, und das in 10 gezeigte Verfahren beginnt wieder bei Schritt 100.
  • Wenn in Schritt 206 entschieden wurde, dass die Spracherkennung nicht korrekt erfolgt ist, wird zu Schritt 212 gesprungen. In Schritt 212 überprüft die Steuereinheit 21 den Wert des Verfahrenschrittzählers, um festzulegen, ob es sich um die zweite Überprüfung handelt. Wenn es das zweite Mal ist, wird zu Schritt 214 gesprungen.
  • In Schritt 214 erzeugt der Generator 17 für synthetische Töne einen synthetischen Signalton „Biep Biep".
  • Die Steuereinheit 21 sendet diesen synthetischen Signalton „Biep Biep" an den Lautsprecherverstärker 16 und gibt anschließend einen Signalton „Biep Biep" über den Lautsprecher 5 aus und zeigt auf diese Weise einen Fehler bei der Aufzeichnung an. Nach Beendigung des Sprachaufzeichnungsmodus wird wieder in den Standby-Modus gewechselt, und das in 10 gezeigte Verfahren beginnt wieder bei Schritt 100. Mit anderen Worten: Wenn die Charakteristik des Sprachsignals aufgrund von Nebengeräuschen oder Ähnlichem nicht korrekt extrahiert werden kann, sollte der Anwender mit der Aufzeichnung von vorn beginnen.
  • Wenn in Schritt 212 festgestellt wurde, dass der Wert des Verfahrenschrittzählers „1" ist, wird zu Schritt 216 gesprungen. In Schritt 216 wird der Zählwert des Verfahrenschrittzählers überprüft, um zu entscheiden, ob die Sprachaufzeichnung 2,5 Sekunden oder länger gedauert hat.
  • Wenn die Sprachaufzeichnung 2,5 Sekunden oder länger gedauert hat, liest der Sprachsynthesizer 20 die vordefinierten Sprachführungsdaten aus der Speichertabelle für Führungsdaten 19d und erzeugt ein Sprachführungssignal, und der Generator 17 für synthetische Töne erzeugt einen synthetischen Signalton („Piep"). Die Steuereinheit 21 leitet das Sprachführungssignal und das synthetische Tonsignal an den Lautsprecherverstärker 16 weiter und gibt über den Lautsprecher 5 „Biep... Zu lang" wieder, und warnt so den Anwender, das die Zeit für die Sprachaufzeichnung zu lang ist.
  • Wenn die Sprachaufzeichnung aufgrund anderer Faktoren nicht korrekt erfolgt ist, liest der Sprachsynthesizer 20 die vordefinierten Sprachführungsdaten aus der Speichertabelle für Führungsdaten 19d und erzeugt ein Sprachführungssignal, und der Generator 17 für synthetische Töne erzeugt einen synthetischen Signalton („Piep"). Die Steuereinheit 21 leitet nun das Sprachführungssignal und das synthetische Tonsignal an den Lautsprecherverstärker 16 weiter und gibt über den Lautsprecher 5 „Biep... erneut versuchen" wieder, und fordert so den Anwender auf, die Spracheingabe zu wiederholen.
  • Wenn diese Aufforderung erfolgt ist, wird der Verfahrenschrittzähler auf „2" gesetzt, und der Vorgang beginnt erneut bei Schritt 200, damit der Anwender die Äußerung der gewünschten Wörter wiederholen kann. Mit anderen Worten: Schritt 216 hat vor allem die Wirkung, den Anwender zu warnen, dass die Art, in der er eine Äußerung vornimmt, nicht korrekt ist. Wenn der Anwender die betreffenden Wörter als Antwort auf die Warnung nun korrekt äußert, werden in Schritt 208 die Sprachdaten aufgezeichnet.
  • So kann der Anwender adäquate Sprachdaten aufzeichnen, ohne die Taste für normale Aufzeichnung/Stimmsteuerung 6 nochmals zu betätigen, was zu einer verbesserten Bedienbarkeit führt.
  • Wenn der Anwender die Taste für normale Aufzeichnung/Stimmsteuerung 6 einmal für 2 Sekunden oder länger gedrückt hält, führt die einfache Äußerung von Wörtern, die einem Signalton entsprechen, dazu, dass die Wörter, die der Anwender äußert, in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a in Zuordnung zu Informationen gespeichert werden wie z.B. dem Musikstück, das gerade von einer in Betrieb befindlichen Audio-Einheit abgespielt wird sowie zu dem Titel des Musikstücks oder zu der Kanalfrequenz eines Senders.
  • Damit ist es also möglich, eine Sprachaufzeichnung der Information selbst vorzunehmen, wie sie der Anwender wünscht, nicht des Namens einer Audio-Einheit. Nach diesem Aufzeichnungsvorgang braucht der Anwender lediglich beliebigen aufgezeichneten Sprachdaten zugeordnete Wörter zu äußern, um die sprachbasierte Bedienung sicherzustellen (darüber wird weiter unten im Detail berichtet), um das Musikstück festzulegen, dessen Titel, den Sender und so weiter.
  • Es wird nun eine Beschreibung des Vorgangs für den Fallgegeben, dass in Schritt 104 bestimmt wurde, dass die Taste für die Einheitenaufzeichnung/Suche 9 für 2 Sekunden oder länger gedrückt gehalten wurde. Wenn diese Taste 9 für 2 Sekunden oder länger gedrückt gehalten wird, wird der Modus auf Sprachaufzeichnung für die Bezeichnung von Einheiten gesetzt, und das in 12 gezeigte Verfahren wird in Gang gesetzt.
  • Im Modus der Sprachaufzeichnung für die Bezeichnung von Einheiten setzt die Steuereinheit 21 zunächst den Verfahrenschrittzähler auf „1", welcher im Systemverfahren implementiert ist und eine Abfolge von Prozessen beginnend bei Schritt 300 ausführt.
  • In Schritt 300 wird, wie in Schritt 200 in 11, ein Signalton „Name der Einheit aufzeichnen ... Piep" wiedergegeben, der den Anwender auffordert, ein aufzuzeichnendes Sprachsignal zu äußern.
  • Im folgenden Schritt 302 initiiert die Spracherkennungseinheit 18, wie in Schritt 202, einen Spracherkennungsprozess. Wenn der Anwender die gewünschten Wörter als Antwort auf den Signalton äußert, identifiziert die Spracherkennungseinheit 18 den Beginn dieser Spracherzeugung, so dass nun der Verfahrentimer in der Steuereinheit 21 aktiviert wird, so dass die Spracherkennungseinheit 18 so angesteuert wird, dass die Spracherkennung der geäußerten Sprachsignale innerhalb von 2,5 Sekunden erfolgt.
  • Nach Bestätigung der Beendigung der Sprachaufzeichnung im folgenden Schritt 304 wird in Schritt 306 bestimmt, ob die Spracherkennung wie in Schritt 206 korrekt erfolgt ist. Wenn entschieden wurde, dass die Spracherkennung korrekt erfolgt ist, wird mit Schritt 308 fortgesetzt.
  • In Schritt 308 identifiziert die Steuereinheit 21 eine in Betrieb befindliche Audio-Einheit und speichert die identifizierten Daten und die von der Spracherkennungseinheit 18 erzeugten Sprachdaten in der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b in Verbindung (in Kombination) miteinander.
  • Angenommen, dass es sich bei der in Betrieb befindlichen Audio-Einheit um einen CD-Player handelt, so werden, wenn der Anwender in Schritt 302 das Wort „CD" (si:di:) ausspricht, als identifizierte Daten „cd" und als Sprachdaten-Wortinformation „si:di:" gespeichert. Diese identifizierten Daten und Sprachdaten werden als aufgezeichnete Sprachdaten in der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b in Verbindung miteinander gespeichert.
  • Als weiteres Beispiel nehmen wir an, dass es sich bei der in Betrieb befindlichen Audio-Einheit um ein Radiogerät handelt; wenn der Anwender in Schritt 302 das Wort „tuner" (t(j)u:ner) ausspricht, so werden als identifizierte Daten „t(j)u:ner" ermittelt und diese identifizierten Daten und die Sprachdaten-Wortinformation in Korrelation zueinander in der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b gespeichert.
  • Mit anderen Worten: Im Modus für die Stimmaufzeichnung von Bezeichnungen von Einheiten werden Sprachdaten in Entsprechung zu den Äußerungen des Anwenders in der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b in Zuordnung zu dem Namen der in Betrieb befindlichen Audio-Einheit, wie in 3B gezeigt, aufgezeichnet.
  • Nach Beendigung der Sprachdatenaufzeichnung wird zu Schritt 310 gesprungen, wo, wie in Schritt 210, ein Signalton „Aufgezeichnet" vom Lautsprecher 5 ausgegeben wird, um den Anwender über das Ende der Aufzeichnung zu informieren. Nach Beendigung des Sprachaufzeichnungsmodus wird wieder in den Standby-Modus gewechselt, und das in 10 gezeigte Verfahren beginnt wieder bei Schritt 100.
  • Wenn in Schritt 306 festgestellt wurde, dass die Spracherkennung nicht korrekt erfolgt ist, wird mit Schritt 312 fortgesetzt. In Schritt 312 überprüft die Steuereinheit 21, wie in Schritt 212, den Wert des Verfahrenschrittzählers, um festzustellen, ob die Überprüfung zum zweiten Mal stattfindet. Wenn es das zweite Mal ist, wird zu Schritt 314 gesprungen.
  • In Schritt 314 wird, wie in Schritt 214, ein Signalton „Biep Biep" vom Lautsprecher 5 ausgegeben, um den Fehler bei der Aufzeichnung anzuzeigen. Nach Beendigung des Sprachaufzeichnungsmodus wird wieder in den Standby-Modus gewechselt, und das in 10 gezeigte Verfahren beginnt wieder bei Schritt 100. Das bedeutet: Wenn die Charakteristik der Äußerung aufgrund von Nebengeräuschen oder dergleichen nicht korrekt extrahiert werden kann, sollte der Anwender mit dem Aufzeichnungsvorgang von vorn beginnen.
  • Wenn in Schritt 312 festgestellt wurde, dass der Wert des Verfahrenschrittzählers „1" beträgt, wird zu Schritt 316 gesprungen. In Schritt 316 wird, wie in Schritt 216, festgestellt, ob die Sprachaufzeichnung kürzer als 2,5 Sekunden gedauert hat.
  • Wenn die Sprachaufzeichnung 2,5 Sekunden oder länger gedauert hat, wird vom Lautsprecher 5 ein Signalton „Biep... Zu lang" wiedergegeben, der den Anwender warnt, dass die Zeit für die Sprachaufzeichnung zu lang ist. Wenn der Sprachaufzeichnungsmodus aufgrund anderer Faktoren nicht korrekt erfolgt ist, wird vom Lautsprecher 5 ein Signalton „Biep ... Erneut versuchen" ausgegeben, der den Anwender auffordert, seine Spracheingabe zu wiederholen.
  • Wenn diese Aufforderung erfolgt ist, wird der Verfahrenschrittzähler auf „2" gesetzt, und der Vorgang beginnt erneut bei Schritt 300, damit der Anwender die Äußerung der gewünschten Wörter wiederholen kann. Mit anderen Worten: Schritt 316 hat vor allem die Wirkung, den Anwender zu warnen, dass die Art, in der er eine Äußerung vornimmt, nicht korrekt ist. Wenn der Anwender die betreffenden Wörter als Antwort auf die Warnung nun korrekt äußert, werden in Schritt 308 die Sprachdaten aufgezeichnet. So kann der Anwender adäquate Sprachdaten aufzeichnen, ohne die Taste zur Einheitenaufzeichnung/Suche 9 nochmals zu betätigen, was zu einer verbesserten Bedienbarkeit führt.
  • Sobald der Anwender die Taste zur Einheitenaufzeichnung/Suche 9 für 2 Sekunden oder länger gedrückt hält, führt die einfache Äußerung von Wörtern, die einem Signalton entsprechen, dazu, dass die Wörter, die der Anwender äußert, in der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b in Verbindung mit dem Namen der in Betrieb befindlichen Audio-Einheit gespeichert werden. Nach diesem Aufzeichnungsvorgang braucht der Anwender lediglich Wörter entsprechend beliebigen aufgezeichneten Sprachdaten zu äußern, um die sprachbasierte Bedienung sicherzustellen (darüber wird weiter unten im Detail berichtet), um eine Audio-Einheit festzulegen.
  • Es wird nun eine Beschreibung des Vorgangs für den Fall gegeben, dass in Schritt 106 bestimmt wurde, dass die Taste für angepasste Sprachaufzeichnung/Suche 10 für 2 Sekunden oder länger gedrückt gehalten wurde. Wenn diese Taste 10 für 2 Sekunden oder länger gedrückt gehalten wird, wird der Modus auf equalizerregulierte Sprachaufzeichnung gesetzt, und das in 13 gezeigte Verfahren wird in Gang gesetzt.
  • Zunächst gibt der Sprachsynthesizer 20 einen Signalton „Equalizermodus aufzeichnen" in Schritt 400 wieder. Im nächsten Schritt 402 startet die Steuereinheit 21 den im Systemverfahren implementierten Verfahrenschrittzähler von vorn, um eine Sekunde lang die Zeit zu stoppen. In den Schritten 404 und 406 wird innerhalb dieser Sekunde bestimmt, ob die Taste für angepasste Sprachaufzeichnung/Suche 10 für kurze Zeit gedrückt gehalten wurde, oder ob eine der anderen Steuertasten 69 und 11 für kurze Zeit gedrückt gehalten wurde.
  • Wenn die Taste für angepasste Sprachaufzeichnung/Suche 10 für kurze Zeit gedrückt gehalten wurde, wird zu Schritt 408 gesprungen. Wenn eine der anderen Steuertasten 69 und 11 für kurze Zeit gedrückt gehalten wurde, wird zu Schritt 410 gesprungen. Wenn keine der Steuertasten 611 innerhalb einer Sekunde betätigt wurde, wird zu Schritt 420 gesprungen.
  • Wenn in Schritt 406 festgestellt wurde, dass eine andere Taste als die Taste für angepasste Sprachaufzeichnung/Suche 10, aber eine der übrigen Steuertasten 69 und 11 für kurze Zeit gedrückt wurde, und zu Schritt 410 gesprungen wird, so wird ein Prozess in Entsprechung zu der gedrückten Steuertaste <in Gang gesetzt, Erg.d.Ü.>, und es wird zu Schritt 100 (vgl. 10) gesprungen.
  • Wenn in Schritt 404 festgestellt wird, dass die Taste für angepasste Sprachaufzeichnung/Suche 10 für kurze Zeit gedrückt wurde, und auf Schritt 408 gesprungen wird, so gibt der Sprachsynthesizer 20 einen Signalton „Hörposition aufzeichnen", worauf zu Schritt 412 gesprungen wird. In Schritt 412 wird der Verfahrenschrittzähler erneut gestartet, um eine Sekunde lang die Zeit zu stoppen.
  • In den Schritten 414 und 416 wird während dieser einen Sekunde festgestellt, ob die Taste für angepasste Sprachaufzeichnung/Suche 10 oder eine der anderen Steuertasten 69 und 11 für kurze Zeit gedrückt wurde. Wenn die Taste für angepasste Sprachaufzeichnung/Suche 10 für kurze Zeit gedrückt gehalten wurde, wird zu Schritt 400 zurückgesprungen. Wenn eine der übrigen Steuertasten 69 und 11 für kurze Zeit gedrückt wurde, wird ein Prozess entsprechend der gedrückten Taste durchgeführt und dann wieder auf Schritt 100 (vgl. 10) zurückgesprungen.
  • In den Schritten 402418, wenn die Taste für angepasste Sprachaufzeichnung/Suche 10 einmal für kurze Zeit gedrückt wurde, wechselt der Modus zu einer Sprachaufzeichnung, um die Frequenzcharakteristik des Equalizers als Audio-Einheit einzustellen, und wenn die Taste für angepasste Sprachaufzeichnung/Suche 10 innerhalb einer Sekunde nochmals gedrückt wurde, wechselt der Modus zu einer Sprachaufzeichnung, um jeden Ausgabepegel (Hörposition) für jeden Kanal des Stereolautsprechers einzustellen, bevor zu Schritt 420 weiter gesprungen wird.
  • Wenn eine andere Taste als die Taste für angepasste Sprachaufzeichnung/Suche 10, und zwar eine der Steuertasten 69 oder 11 innerhalb der ersten Sekunde oder innerhalb der nächsten Sekunde für kurze Zeit gedrückt wurde, erfolgt ein Prozess entsprechend der gedrückten Taste.
  • Im folgenden Schritt 420 gibt der Sprachsynthesizer 20 einen Signalton „Piep" wieder, um den Anwender über den Beginn der Aufzeichnung zu informieren. In Schritt 422 führt die Spracherkennungseinheit 18 eine Spracherkennung der Äußerung des Anwenders entsprechend diesem Signalton durch. In diesem Fall wird die korrekte Spracherkennung durchgeführt, indem die Äußerung auf der Grundlage des ersten und des zweiten Schwellenwertes (THD1 und THD2) extrahiert wird wie in den 11 und 12 dargestellt.
  • Anschließend wird in Schritt 424 festgestellt, ob die Spracherkennung korrekt erfolgt ist. Sobald die Spracherkennung korrekt erfolgt ist, wird zu Schritt 426 gesprungen.
  • In Schritt 426 identifiziert die Steuereinheit 21 den aktuellen Status des Equalizers über die I/F-Schaltung 22 und den Interface-Port 23 und speichert die identifizierten Daten und die durch Spracherkennung gewonnene Äußerung in der Speichertabelle für angepasste Sprachdaten 19c in Verbindung (in Kombination) miteinander.
  • Wenn von Schritt 402 zu Schritt 420 gesprungen wird, d.h. wenn der Anwender den Sprachaufzeichnungsmodus angewiesen hat, die Frequenzcharakteristik des Equalizers zu setzen und wenn der Anwender den Equalizer für „super bass" angepasst hat und dann „super bass" (s(j)u:per) äußert, so werden der Status des „super bass" des Equalizers und die Sprachdaten „super bass" in der Speichertabelle für angepasste Sprachdaten 19c gespeichert.
  • Wenn von Schritt 412 zu Schritt 420 gesprungen wird, d.h. wenn der Anwender den Sprachaufzeichnungsmodus angewiesen hat, die Hörposition zu setzen und wenn der Anwender den Status des Lautsprecherausgangs auf „vorn rechts" gesetzt hast und das Wort „rechts" äußert, so werden der Status von „vorn rechts" und die Sprachdaten „rechts" in der Speichertabelle für angepasste Sprachdaten 19c gespeichert.
  • Anschließend wird ein Signalton „Aufgezeichnet" vom Lautsprecher 5 wiedergegeben, der dem Anwender das Ende der Aufzeichnung anzeigt. Nach Beendigung des Sprachaufzeichnungsmodus wird wieder in den Standby-Modus gewechselt, und das in 10 gezeigte Verfahren beginnt wieder bei Schritt 100.
  • Wenn in Schritt 424 festgestellt wurde, dass die Spracherkennung nicht korrekt erfolgt ist, wird zu Schritt 428 gesprungen; wenn es aber das zweite Mal ist, wird zu Schritt 430 gesprungen wie in Schritt 212 in 11.
  • In Schritt 430 wird, wie in Schritt 214, ein Signalton „Biep Biep" vom Lautsprecher 5 ausgegeben, um den Fehler bei der Aufzeichnung anzuzeigen. Nach Beendigung des Sprachaufzeichnungsmodus wird wieder in den Standby-Modus gewechselt, und das in 10 gezeigte Verfahren beginnt wieder bei Schritt 100. Das bedeutet: Wenn die Charakteristik der Äußerung aufgrund von Nebengeräuschen oder dergleichen nicht korrekt extrahiert werden kann, sollte der Anwender mit dem Aufzeichnungsvorgang von vorn beginnen.
  • Wenn in Schritt 428 festgestellt wurde, dass der Wert des Verfahrenschrittzählers „1" ist, wird zu Schritt 432 gesprungen, wo, wie in Schritt 216 festgestellt wird, ob die Sprachaufzeichnung weniger als 2,5 Sekunden gedauert hat. Wenn die Sprachaufzeichnung 2,5 Sekunden oder länger gedauert hat, wird vom Lautsprecher 5 ein Signalton „Biep... Zu lang" wiedergegeben, der den Anwender warnt, dass die Zeit für die Sprachaufzeichnung zu lang ist. Wenn der Sprachaufzeichnungsmodus aufgrund anderer Faktoren nicht korrekt erfolgt ist, wird vom Lautsprecher 5 ein Signalton „Biep ... Erneut versuchen" ausgegeben, der den Anwender auffordert, seine Spracheingabe zu wiederholen.
  • Wenn diese Mitteilung erfolgt ist, beginnt der Vorgang wieder mit Schritt 420, damit der Anwender die gewünschten Wörter erneut einsprechen kann. So kann der Anwender adäquate Sprachdaten aufzeichnen, ohne die Taste für angepasste Sprachaufzeichnung/Suche 10 erneut zu betätigen. Dies führt zu einer verbesserten Bedienbarkeit.
  • Sobald der Anwender die Taste für angepasste Sprachaufzeichnung/Suche 10 gedrückt hat, führt die einfache Äußerung von Wörtern, die einem Signalton entsprechen, dazu, dass die Wörter, die der Anwender äußert, in der Speichertabelle für angepasste Sprachdaten 19c in Verbindung mit der aktuellen Einstellung des Equalizers gespeichert werden. Nach diesem Aufzeichnungsvorgang braucht der Anwender lediglich Wörter entsprechend beliebigen aufgezeichneten Sprachdaten zu äußern, um die sprachbasierte Bedienung sicherzustellen (darüber wird weiter unten im Detail berichtet), um den Equalizer einzustellen.
  • Es folgt eine Beschreibung des Vorgangs für den Fall, dass in Schritt 108 in 10 bestimmt wurde, dass die Taste 11 für Lautstärkekontrolle/Benutzerführungs-Sprache für 2 Sekunden oder länger gedrückt gehalten wurde. Wenn diese Taste 11 für 2 Sekunden oder länger gedrückt gehalten wird, wird zum Spracheinstellmodus gewechselt, und die Steuereinheit 21 ändert die Sprachführungsdaten, die in der Führungsdaten-Speichertabelle 19d gespeichert sind, und führt einige Einstellungen durch, um die Erzeugung eines Signal-tones auszuschalten, wie in 7A gezeigt. Die Führungsdaten-Speichertabelle 19d speichert vorläufig Sprachführungsdaten in diversen Sprachen wie Englisch, Deutsch und Französisch, zusätzlich zu Sprachführungsdaten auf Japanisch. Jedes Mal, wenn die Taste für Lautstärkenkontrolle/Sprache der Benutzerführung 11 für 2 oder mehr Sekunden gedrückt gehalten wird, regelt die Steuereinheit 21 nacheinander die Änderung der Sprachführungsdaten in jedem Land und die Deaktivierung der Erzeugung von Führungstönen. So kann der Anwender für die Sprache der Sprachführungssignale die gewünschte Landessprache einstellen und Sprachführungssignale durch Betätigung der Taste für Lautstärkenkontrolle/Sprache der Benutzerführung 11 hervorheben.
  • Es folgt eine Beschreibung des Vorgangs für den Fall, dass in Schritt 110 in 10 bestimmt wurde, dass die Taste 11 für Lautstärkekontrolle/Benutzerführungs-Sprache für kurze Zeit gedrückt gehalten wurde. Wenn diese Taste 11 für eine kurze Zeit gedrückt wird, wechselt der Modus zur Lautstärkekontrolle, und die Steuereinheit 21 ändert nacheinander den Verstärkungsfaktor des Lautsprecherverstärkers 16 im hohen, mittleren und tiefen Bereich, wie in 7B gezeigt.
  • So kann der Anwender die Ausgangslautstärke des Lautsprechers 5 durch Betätigen der Taste 11 an eine hohe, mittlere oder geringe Lautstärke anpassen.
  • Es folgt eine Beschreibung des Vorgangs für den Fall, dass in Schritt 112 in 10 bestimmt wurde, dass die Taste für normale Aufzeichnung/Sprachsteuerung 6 für kurze Zeit gedrückt gehalten wurde.
  • Wenn die Taste für normale Aufzeichnung/Sprachsteuerung 6 für eine kurze Zeit gedrückt wird, wird in den sprachbasierten Bedienmodus gewechselt, und es läuft ein Verfahren ab, wie in 14 gezeigt. In 14 setzt die Steuereinheit 21 zunächst den Verfahrenschrittzähler auf „1" und führt eine Folge von Prozessen aus, beginnend bei Schritt 450.
  • In Schritt 450 liest der Sprachsynthesizer 20 die vordefinierten Sprachführungsdaten aus der Speichertabelle für Führungsdaten 19d, und der Generator 17 für synthetische Töne erzeugt einen synthetischen Signalton („Piep").
  • Die Steuereinheit 21 leitet das Sprachführungssignal und den synthetischen Signalton an den Lautsprecherverstärker 16 weiter und reproduziert über den Lautsprecher 5 einen Signalton „Bitte Anforderung stellen ... Piep", der aus einem Sprachführungssignal und einem synthetischen Ton vom Lautsprecher 5 besteht, und fordert so den Anwender auf, ein Sprachsignal für die sprachbasierte Bedienung zu äußern.
  • Im folgenden Schritt 452 startet die Spracherkennungseinheit 18 einen Spracherkennungsprozess.
  • Wenn der Anwender ein gewünschtes Sprachsignal (Wörter) spricht, das irgendwelchen Sprachdaten entspricht, die in der Tabelle des Sprachdatenspeichers für Bezeichnungen von Titeln 19a, der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b und der Speichertabelle für angepasste Sprachdaten 19c gespeichert sind, identifiziert die Spracherkennungseinheit 18 den Beginn der Spracherzeugung; nun wird der Verfahrenschrittzähler in der Steuereinheit 21 aktiviert, so dass die Spracherkennungseinheit 18 angewiesen wird, die Spracherkennung der eingesprochenen Wörter innerhalb von 2,5 Sekunden vorzunehmen. In diesem Fall erfolgt eine korrekte Spracherkennung, indem die gesprochene Äußerung auf der Grundlage des ersten und des zweiten Schwellenwertes THD1 und THD2 extrahiert wird; diese Schwellenwerte sind höher als die Nebengeräusche, wie im Fall des oben beschriebenen Spracherkennungsmodus.
  • Im folgenden Schritt 454 wird festgestellt, ob die Spracherkennung abgeschlossen ist oder nicht. Nun wird in Schritt 456 bestimmt, ob die Spracherkennung richtig erfolgt ist. Diese Entscheidung erfolgt, indem überprüft wird, ob der Pegel der Äußerung (Stärke des Sprachsignals), der als Erkennungsziel eingegeben wurde, höher war als der erste und der zweite Schwellenwert THD1 und THD2. Wenn entschieden wurde, dass die Spracherkennung korrekt erfolgt ist, wird mit Schritt 458 fortgesetzt.
  • In Schritt 458 liest der Sprachsynthesizer 20 voreingestellte Sprachführungsdaten aus der Führungsdaten-Speichertabelle 19d, und die Steuereinheit 21 leitet dieses Führungs-Stimmsignal an den Lautsprecherverstärker 16 weiter, der daraufhin ein Führungs-Tonsignal „OK" über den Lautsprecher 5 ausgibt und damit den Anwender über die Bestätigung informiert.
  • Ferner sucht die Steuereinheit 21 die aufgezeichneten Sprachdaten in der Tabelle des Sprachdatenspeichers für Bezeichnungen von Titeln 19a auf der Grundlage der durch die Spracherkennung erhaltenen Sprachdaten und verschafft sich Informationen über eine Audio-Einheit, die diesen Sprachdaten entspricht (die bereits erwähnten aufgezeichneten und empfangenen Daten). Anschließend erzeugt die Steuereinheit 21 ein Steuersignal auf der Grundlage der erlangten Information und sendet das Steuersignal über die I/f-Schaltung 22 und den Interface-Port 23 an die vom Anwender näher bezeichnete Audio- Einheit und aktiviert diese damit. Damit ist der Sprachaufzeichnungsmodus beendet, und es wird wieder in den Standby-Modus gewechselt, und das in 10 gezeigte Verfahren beginnt wieder bei Schritt 100.
  • Wenn der Anwender in Schritt 452 das Wort „eins" spricht, wird die Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a, wie in 3A gezeigt, nach Informationen zu „Disk1 Track1" durchsucht. Anschließend steuert die Steuereinheit 21 den dieser Information entsprechenden CD-Player auf der Grundlage des Steuersignals an, um ein Musikstück oder dergleichen auf Track1 des Aufzeichnungs-/Wiedergabemediums wiederzugeben.
  • Wenn der Anwender in Schritt 452 das Wort „sieben" spricht, wird die Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a nach Informationen zu „Band FM1 76,1 MHz" durchsucht. Anschließend steuert die Steuereinheit 21 den Receiver entsprechend dieser Information auf der Grundlage des Steuersignals an, um den Sender auf der Frequenz 76,1 MHz einzustellen.
  • Wenn der Anwender eine bestimmte Äußerung (Wörter) ausspricht, die beliebigen gespeicherten Sprachdaten in dem in 3B gezeigten <hier fehlt etwas, A.d.Ü.> und der Speichertabelle für angepasste Sprachdaten 19c entsprechen, wie in 3C gezeigt, ist es möglich, eine sprachbasierte Bedienung vorzunehmen, wie etwa die Aktivierung einer angeschlossenen Audio-Einheit oder die Regelung des Equalizers.
  • Wenn. in Schritt 456 entschieden wurde, dass die Spracherkennung nicht korrekt erfolgt ist, wird zu Schritt 460 gesprungen. In Schritt 460 überprüft die Steuereinheit 21 den Wert des Verfahrenschrittzählers, um festzulegen, ob es sich um die zweite Überprüfung handelt. Wenn es das zweite Mal ist, wird zu Schritt 462 gesprungen.
  • In Schritt 462 erzeugt der Generator 17 für synthetische Töne einen synthetischen Signalton „Biep Biep". Die Steuereinheit 21 sendet diesen synthetischen Signalton „Biep Biep" an den Lautsprecherverstärker 16 und gibt anschließend einen Signalton „Biep Biep" über den Lautsprecher 5 aus und zeigt so einen Fehler bei der Aufzeichnung an. Nach Beendigung des Sprachaufzeichnungsmodus wird wieder in den Standby-Modus gewechselt, und das in 10 gezeigte Verfahren beginnt wieder bei Schritt 100. Mit anderen Worten: Wenn die Charakteristik der Äußerung aufgrund von Nebengeräuschen oder Ähnlichem nicht korrekt extrahiert werden kann, sollte der Anwender mit der Aufzeichnung von vorn beginnen.
  • Wenn in Schritt 460 festgestellt wurde, dass der Wert des Verfahrenschrittzählers „1" beträgt, wird zu Schritt 464 gesprungen. In Schritt 464 wird der Zählwert des Verfahrenschrittzählers überprüft, um zu entscheiden, ob die Sprachaufzeichnung 2,5 Sekunden oder länger gedauert hat.
  • Wenn die Sprachaufzeichnung 2,5 Sekunden oder länger gedauert hat, liest der Sprachsynthesizer 20 die vordefinierten Sprachführungsdaten aus der Führungsdaten-Speichertabelle 19d und erzeugt ein Sprachführungssignal, und der Generator 17 für synthetische Töne erzeugt einen synthetischen Signalton („Piep"). Anschließend leitet die Steuereinheit 21 das Sprachführungssignal und das synthetische Tonsignal an den Lautsprecherverstärker 16 weiter und gibt über den Lautsprecher 5 „Biep... Zu lang" wieder, und warnt so den Anwender, das die Zeit für die Sprachaufzeichnung zu lang ist.
  • Wenn die Sprachaufzeichnung aufgrund anderer Faktoren nicht korrekt erfolgt ist, liest der Sprachsynthesizer 20 vordefinierte Sprachführungsdaten aus der Führungsdaten-Speichertabelle 19d und erzeugt ein Sprachführungssignal, und der Generator 17 für synthetische Töne erzeugt einen synthetischen Signalton („Piep"). Die Steuereinheit 21 leitet nun das Sprachführungssignal und das synthetische Tonsignal an den Lautsprecherverstärker 16 weiter und gibt über den Lautsprecher 5 „Biep... erneut versuchen" wieder, und fordert so den Anwender auf, die Sprachaufzeichnung zu wiederholen.
  • Wenn diese Aufforderung in Schritt 464 erfolgt ist, wird der Verfahrenschrittzähler auf „2" gesetzt, und der Vorgang beginnt erneut bei Schritt 450, damit der Anwender die Äußerung der gewünschten Wörter wiederholen kann. Mit anderen Worten: Wenn die Form, in welcher der Anwender eine Äußerung tut, nicht adäquat war, kann der Anwender eine sprachbasierte Bedienung vornehmen, indem er einfach nur korrekte Wörter äußert, ohne die Taste für normale Aufzeichnung/Stimmsteuerung 6 nochmals zu betätigen, wie im Sprachaufzeichnungsmodus geschehen.
  • Sobald der Anwender die Taste für normale Aufzeichnung/Stimmsteuerung 6 für kurze Zeit drückt, kann der Anwender die gewünschte Audio-Einheit bedienen, indem er einfach nur eine Äußerung (Wörter), die in irgendeiner der Sprachdaten-Speichertabellen 19a19c in Zuordnung zu einem Signalton gespeichert ist, äußert.
  • Es folgt eine Beschreibung der Steuerung in dem Fall, dass in Schritt 114 in 10 bestimmt wurde, dass <die Taste 7 oder 8, Erg. d.Ü.> für kurze Zeit gedrückt wurde. Wenn ein kurzer Druck der Tasten 7 oder 8 erfolgt ist, wird zum Suchmodus für aufgezeichnete Sprachdaten gewechselt, und die Steuerung geht über zu einem Verfahren wie in den 15A und 15B gezeigt.
  • In Schritt 500 durchsucht die Steuereinheit 21 die Tabelle des Sprachdatenspeichers für Bezeichnungen von Titeln 19a, um festzustellen, ob es aufgezeichnete Sprachdaten gibt. Wenn keine aufgezeichneten Sprachdaten vorliegen („Nein"), erfolgt ein Signalton „Keine Sprachdaten aufgezeichnet", und es wird zu Schritt 100 in 10 gesprungen.
  • Wenn in Schritt 500 aufgezeichnete Sprachdaten vorgefunden werden („Ja"), wird allerdings zu Schritt 502 gesprungen, um zu überprüfen, ob eine Audio-Einheit aktiv ist und ob in der in 3A gezeigten Tabelle des Sprachdatenspeichers für Bezeichnungen von Titeln 19a Sprachdaten für diese Audio-Einheit vorliegen. Wenn es sich bei der gerade aktiven Audio-Einheit um den Tuner handelt, der beispielsweise Radiowellen von dem Sender auf 81,1 MHz empfängt, wird festgestellt, ob aufgezeichnete Sprachdaten vorliegen, die dem Sender auf 81,1 MHz zugeordnet sind.
  • Angenommen, dass Sprachdaten für das Wort „acht" vorliegen, die dem Sender auf 81,1 MHz zugeordnet sind, wie in 3A gezeigt, so liest der Sprachsynthesizer 20 die Sprachdaten für „acht" und führt eine Spracherkennung durch und gibt über den Lautsprecher 5 die synthetische Äußerung „acht" aus.
  • Wenn keine Sprachdaten vorliegen, die einer gerade aktiven Audio-Einheit in Schritt 502 zugeordnet sind („Nein"), wird zu Schritt 506 gesprungen.
  • Sofern die Such-/Vorwärtsscan-Taste 7 für kurze Zeit gedrückt wurde, werden die einer aktiven Audio-Einheit zugeordneten und in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a gespeicherten Sprachdaten in vorwärts sortierter Reihenfolge gelesen und in synthetische Sprachsignale umgewandelt, welche über den Lautsprecher 5 nacheinander in Schritt 506 ausgegeben werden. Sofern die Such-/Rückwärtsscan-Taste 8 für kurze Zeit gedrückt wurde, werden die einer aktiven Audio-Einheit zugeordneten aufgezeichneten Sprachdaten in umgekehrter Reihenfolge gelesen und in synthetische Sprachsignale umgewandelt, welche über den Lautsprecher 5 nacheinander ausgegeben werden.
  • Entsprechend kann der Anwender in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a aufgezeichnete Sprachdaten bestätigen und die Sprachdaten erneut überprüfen, wenn der Anwender sie vergessen hat.
  • Im folgenden Schritt 508 misst die Steuereinheit 21 die Zeit 8 Sekunden lang mit Hilfe des Verfahrentimers. In den Schritten 508518 stellt die Steuereinheit 21 fest, ob irgendeine der übrigen Bedientasten 611 innerhalb der 8 Sekunden für kurze Zeit gedrückt wurde.
  • Wenn solch ein Tastendruck festgestellt wurde, führt die Steuereinheit 21 einen Vorgang entsprechend der gedrückten Taste durch und kehrt dann zu Schritt 100 in 10 zurück. Wenn keine der Bedientasten 611 gedrückt wurde (auch nicht nach Ablauf der 8 Sekunden), kehrt der Verfahrenablauf direkt von Schritt 508 zu Schritt 100 in 10 zurück.
  • Wird in Schritt 510 die Such-/Rückwärtsscan-Taste 8 für kurze Zeit gedrückt, wenn die Such-/Vorwärtsscan-Taste 7 für kurze Zeit gedrückt worden ist, wird zu Schritt 520 gesprungen. In Schritt 520 werden Sprachdaten, die um eine Adresse weiter abgelegt sind als die Adresse der letzten Sprachdaten, die als synthetische Sprachsignale in vorwärts sortierter Reihenfolge ausgegeben wurden, ausgelesen und in Form eines synthetischen Sprachsignals ausgegeben. Dann wird wieder zu Schritt 508 zurückgekehrt.
  • Wird in Schritt 512 die Such-/Vorwärtsscan-Taste 7 für kurze Zeit gedrückt, wenn die Such-/Rückwärtsscan-Taste 8 für kurze Zeit gedrückt worden ist, wird zu Schritt 522 gesprungen. In Schritt 522 werden Sprachdaten, die um eine Adresse weiter abgelegt sind als die Adresse der letzten Sprachdaten, die als synthetische Sprachsignale in rückwärts sortierter Reihenfolge ausgegeben wurden, ausgelesen und in Form eines synthetischen Sprachsignals ausgegeben. Dann wird wieder zu Schritt 508 zurückgekehrt.
  • Das heißt: Die Reihenfolge, in der in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a aufgezeichnete Sprachdaten präsentiert werden, ist in Schritt 520 umgekehrt wie in Schritt 522.
  • Wenn die Einheitenaufzeichnungs-/Suchtaste 9 in Schritt 514 für kurze Zeit gedrückt wird, wird zu Schritt 524 gesprungen. In Schritt 524 wird die in 3b gezeigte Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b durchsucht, um zu überprüfen, ob Sprachdaten vorliegen, die einer gerade aktiven Audio-Einheit zugeordnet sind. Wenn solche Sprachdaten vorliegen, werden diese Sprachdaten als synthetisches Sprachsignal ausgegeben. Wenn es sich bei der gerade aktiven Audio-Einheit beispielsweise um den Radiotuner handelt, wird das synthetische Sprachsignal „tuner" (t(j)u:ner) erzeugt. Dann wird wieder zu Schritt 508 zurückgekehrt. Wenn keine entsprechenden Sprachdaten vorliegen, werden die obersten Sprachdaten in der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b ausgelesen, und es wird zu Schritt 508 zurückgekehrt.
  • Wenn die Taste für angepasste Sprachaufzeichnung/Suche 10 in Schritt 516 für kurze Zeit gedrückt wird, wird zu Schritt 526 gesprungen. In Schritt 526 wird die in 3C gezeigte Speichertabelle für angepasste Sprachdaten 19c durchsucht, um zu überprüfen, ob aufgezeichnete Sprachdaten vorliegen, die dem Equalizer zugeordnet sind. Wenn solche Sprachdaten vorliegen, werden diese Sprachdaten als synthetisches Sprachsignal ausgegeben. Dann wird wieder zu Schritt 508 zurückgekehrt. Wenn keine entsprechenden Sprachdaten vorliegen, werden die obersten Sprachdaten in der Speichertabelle für angepasste Sprachdaten 19c ausgelesen, und es wird zu Schritt 508 zurückgekehrt.
  • Wenn eine der übrigen Tasten, 6 oder 10, in Schritt 518 gedrückt wird, so wird zu Schritt 528 gesprungen, um einen Vorgang entsprechend der jeweils gedrückten Taste 6 oder 10 durchzuführen. Dann wird zu Schritt 508 gesprungen.
  • Weil der Anwender in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a, der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b und der Speichertabelle für angepasste Sprachdaten 19c aufgezeichnete Sprachdaten durch Drücken irgendeiner der Steuertasten 7, 8, 9 und 10 für den Suchmodus für aufgezeichnete Sprachdaten bestätigen kann, wie sich aus dem vorher Gesagten ergibt, kann der Anwender Sprachdaten auch dann erneut überprüfen, wenn er oder sie diese vergessen hat.
  • Es folgt nun eine Beschreibung des Vorgangs für den Fall, dass in Schritt 116 in 10 bestimmt wurde, dass die Taste 7 für Suchen/Vorwärtsscan oder die Taste 8 für Suchen/Rückwärtsscan für 2 Sekunden oder länger gedrückt gehalten wurde. Wenn diese Tasten 7 oder 8 für 2 Sekunden oder länger gedrückt gehalten werden, wird in den Scanmodus für aufgezeichnete Sprachdaten gewechselt, und der in 8B oder 9B erläuterte Vorgang wird durchgeführt. Wenn die Taste 7 für Suchen/Vorwärtsscan für 2 Sekunden oder länger gedrückt gehalten wird, so werden Sprachdaten, die bereits in der in 3A gezeigten Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a in Vorwärtsrichtung gelesen (gescannt) und nacheinander als synthetische Sprachsignale wiedergegeben. Wenn die Taste für normale Aufzeichnung/Sprachsteuerung 6 während dieses Vorgangs gedrückt wird, so wird eine den letzten gesuchten oder gescannten Sprachdaten zugeordnete Audio-Einheit auf der Grundlage dieser Sprachdaten angesteuert.
  • Wenn die Taste 8 für Suchen/Rückwärtsscan für 2 Sekunden oder länger gedrückt gehalten wird, so werden Sprachdaten, die bereits in der in 3A gezeigten Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a in Rückwärtsrichtung gelesen (gescannt) und nacheinander als synthetische Sprachsignale wiedergegeben.
  • Wenn die Taste für normale Aufzeichnung/Sprachsteuerung 6 während dieses Vorgangs gedrückt wird, so wird die den letzten gesuchten oder gescannten Sprachdaten zugeordnete, gerade aktive Audio-Einheit auf der Grundlage dieser Sprachdaten angesteuert.
  • Es wird nun eine Beschreibung des Vorgangs für den Fall, dass in Schritt 118 in 10 bestimmt wurde, dass die Einheitenaufzeichnungs-/Suchtaste 9 für 2 Sekunden oder länger gedrückt gehalten wurde, gegeben. Wenn diese Taste 9 für 2 Sekunden oder länger gedrückt gehalten wird, wird der Modus auf Sprachdatensuche für Bezeichnungen von Einheiten gesetzt, und der in 5B gezeigte Vorgang wird in Gang gesetzt. Im besonderen: Sprachdaten, die dem Namen einer gerade aktiven Audio-Einheit zugeordnet sind und welche bereits in der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b aufgezeichnet sind, werden als synthetisches Sprachsignal ausgegeben. Wenn Sprachdaten, die dem Namen der gerade aktiven Audio-Einheit zugeordnet sind, nicht aufgezeichnet sind, wird zum Sprachdatenscanmodus für Bezeichnungen von Einheiten gewechselt, um nacheinander Sprachdaten zu erzeugen, die den Namen anderer Audio-Einheiten als synthetische Sprachsignale zugeordnet werden. Wenn die Taste 9 zur Einheitenaufzeichnung/Suche im Sprachdatenscanmodus für Bezeichnungen von Einheiten erneut gedrückt wird, wird in den Modus gewechselt, der die Sprachdaten erzeugt, die dem Namen der gerade aktiven Audio-Einheit zugeordnet und bereits in der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b als synthetische Sprachsignale aufgezeichnet sind.
  • Wenn die Taste 6 für die normale Aufzeichnung/Sprachbedienung im Modus zur Sprachdatensuche für Bezeichnungen von Einheiten oder im Modus für den Sprachdatenscan für Bezeichnungen von Einheiten gedrückt wird, so wird die gerade aktive Audio-Einheit, die den letzten gesuchten oder gescannten Sprachdaten zugeordnet ist, auf der Grundlage dieser Sprachdaten angesteuert.
  • Es folgt nun eine Beschreibung des Vorgangs für den Fall, dass in Schritt 120 in 10 bestimmt wurde, dass die Taste 10 für die angepasste Sprachaufzeichnung/Suche für kurze Zeit gedrückt gehalten wurde. Wenn ein kurzer Druck auf die Taste 10 erfolgt, wird in den Modus zur angepassten Sprachdatensuche gewechselt und die in 6C gezeigten Abläufe durchgeführt. Im besonderen: Sprachdaten, die dem gerade gesetzten Status oder der aktuellen Frequenzcharakteristik des Equalizers zugeordnet sind und welche in der in 3C gezeigten Speichertabelle für angepassten Sprachdaten 19c aufgezeichnet sind, werden als synthetisches Sprachsignal ausgegeben. Wenn die Taste 10 für die angepasste Sprachaufzeichnung/Suche im Modus für die angepasste Sprachdatensuche gedrückt wird, so werden sämtliche Sprachdatenteile, die in der Speichertabelle für angepasste Sprachdaten 19c aufgezeichnet sind, gescannt und nacheinander als synthetische Sprachsignale wiedergegeben. Wenn die Taste für normale Aufzeichnung/Sprachsteuerung 6 während dieses Vorgangs gedrückt wird, so wird die den letzten gesuchten oder gescannten Sprachdaten zugeordnete, gerade aktive Audio-Einheit auf der Grundlage dieser Sprachdaten angesteuert.
  • Um eine sprachbasierte Bedienung vorzunehmen (vgl. die vorhergehende Beschreibung), durchsucht oder scannt die sprachbasierte Bedienvorrichtung dieses Ausführungsbeispiels die Sprachdaten, welche in der Speichertabelle für Sprachdaten zur Bezeichnung von Titeln 19a, der Speichertabelle für Sprachdaten zur Bezeichnung von Einheiten 19b und der Speichertabelle für angepasste Sprachdaten 19c aufgezeichnet sind, und gibt die durchsuchten oder gescannten Sprachdaten als synthetisches Sprachsignal wieder. Auch wenn der Anwender sich an aufgezeichnete Sprachdaten nicht erinnert, kann der Anwender die Zuordnung zwischen aufgezeichneten Sprachsignalen und den jeweiligen Bedienungszielen leicht überprüfen. Anders als im herkömmlichen Sinn ist es also nicht erforderlich, Sprachdaten noch einmal von vorn aufzuzeichnen, so dass sich eine hervorragende Bedienbarkeit ergibt.
  • Da jeder der Steuertasten 611 eine Vielzahl von Steuerfunktionen zugeordnet ist, ist es möglich, die Anzahl der erforderlichen Tasten zu reduzieren, was dazu beitragen kann, die Fernsteuerungseinheit 4 kompakter zu gestalten.
  • Obgleich die vorhergehende Beschreibung dieser Erfindung durch das Ausführungsbeispiel definiert wird, welches die sprachbasierte Bedienung eines Audiosystems durchführen soll, ist diese Erfindung nicht auf eine sprachbasierte Bedienungsvorrichtung für Audiosysteme begrenzt. Diese Erfindung kann beispielsweise an eine Onboard-Einheit für ein Fahrzeug angepasst werden, welches zusätzlich zu einem Audiosystem über eine Klimaanlage verfügt, so dass dieses Audiosystem und die Klimaanlage durch Sprachsteuerung bedient werden können. Ferner ist diese Erfindung nicht auf Audiosysteme begrenzt, sondern kann für die Bedienung zahlreicher anderer Bedienungsziele durch Sprachsignale angepasst werden. Die Erfindung wird in den beigefügten Patentansprüchen beschrieben.
  • Kurz gesagt: Die sprachbasierte Bedienungsvorrichtung gemäß dieser Erfindung verfügt über eine Sucheinheit, welche Sprachinformationen durchsucht, welche in einer Speichereinheit gespeichert und Bedienungszielen zugeordnet sind und welche die gesuchte Sprachinformation erzeugt. Auch wenn beispielsweise ein Anwender beliebige aufgezeichnete Sprachinformationen vergessen hat, kann diese Vorrichtung dem Anwender die Zuordnung zwischen der Sprachinformation und den entsprechenden Bedienungszielen zur Verfügung stellen. Dies macht es für den Anwender unnötig, die Sprachinformationen infolge von Erinnerungsproblemen oder dergleichen nochmals in der Speichereinheit zu speichern, so dass sich eine hervorragende Bedienbarkeit ergibt.

Claims (14)

  1. Sprachbasierte Bedienungsvorrichtung (1), welche aufweist: eine Speichereinheit (19) zur Speicherung von aus sprachlichen Informationen extrahierten Sprachdaten und Steuerungsinformationen, welche sich aus einander zugeordneten Daten zur näheren Bestimmung von Bedienungszielen und Informationen zur Steuerung der Bedienungsziele zusammensetzen; eine Bedienungseinheit, um, wenn ein Sprachkommando eingegeben wird, ein bestimmtes Bedienungsziel anzusteuern, unter Verwendung der Steuerinformationen, welche den Sprachdaten zugeordnet sind, welche in der Speichereinheit (19) gespeichert sind und in Zuordnung zu dem Sprachkommando; eine Sucheinheit, um in der Speichereinheit (19) nach bestimmten Sprachdaten zu suchen, welche einem bestimmten Steuerungsvorgang des Bedienungsziels zugeordnet sind, und um die Sprachdaten in hörbarer Form wiederzugeben; wobei in einer Sprachspeicherungsphase die geäußerte Sprachinformation von einem Anwender nach eigenen Wünschen gewählt werden kann und die Sprachdaten automatisch den Steuerungsinformationen für das gerade näher bestimmte Bedienungsziel zugeordnet werden; und welche gekennzeichnet ist durch Mittel (7, 8) zur Steuerung einer aufeinander folgenden hörbaren Wiedergabe weiterer bestimmter Sprachdaten in Verbindung mit dem spezifizierten Bedienungsziel.
  2. Sprachbasierte Bedienungsvorrichtung nach Patentanspruch 1, wobei, wenn einem aktuellen Steuerungsvorgang des spezifizierten Bedienungsziels zugeordnete Sprachdaten nicht in der Speichereinheit gespeichert sind, die Sucheinheit nach anderen Sprachdaten sucht, die in der Speichereinheit gespeichert sind und den übrigen Steuerungsvorgängen des spezifizierten Bedienungsziels zugeordnet sind, und die gesuchten Sprachdaten präsentiert.
  3. Sprachbasierte Bedienungsvorrichtung nach Patentanspruch 1 oder 2, wobei als Antwort auf eine von außen eingegebene Suchanweisung die Sucheinheit die Sprachdaten, die in der Speichereinheit gespeichert sind, in einer zuvor bestimmten Reihenfolge in Zuordnung zu dem spezifizierten Bedienungsziel durchsucht und die gesuchten Sprachdaten präsentiert.
  4. Sprachbasierte Bedienungsvorrichtung nach Patentanspruch 3, wobei die, zuvor bestimmte Reihenfolge eine alphabetische Reihenfolge ist.
  5. Sprachbasierte Bedienungsvorrichtung nach Patentanspruch 3, wobei die, zuvor bestimmte Reihenfolge eine vorwärts sortierte Reihenfolge ist.
  6. Sprachbasierte Bedienungsvorrichtung nach Patentanspruch 3, wobei die, zuvor bestimmte Reihenfolge eine rückwärts sortierte Reihenfolge ist.
  7. Sprachbasierte Bedienungsvorrichtung nach einem der Patentansprüche 1 bis 6, wobei die Speichereinheit Sprachdaten erneut speichern kann und ein eingegebenes Sprachsignal als Sprachdaten in Verbindung mit einem aktiven Bedienungsziel speichert, während die Sprachdaten erneut gespeichert werden.
  8. Sprachbasierte Bedienungsmethode, enthaltend die Schritte: Speicherung von aus geäußerten Sprachinformationen extrahierten Sprachdaten sowie Steuerungsinformationen, welche aus Daten zur näheren Bestimmung von Bedienungszielen und Informationen zur Steuerung des Bedienungsziels in Verbindung miteinander bestehen, in einem Speicherabschnitt; Bedienung eines spezifizierten Bedienungsziels bei Eingabe eines Sprachkommandos unter Verwendung der Steuerungsinformationen, welche mit den Sprachdaten verbunden sind und dem Sprachkommando entsprechen; und Suche in dem Speicherabschnitt nach bestimmten Sprachdaten, die mit einem bestimmten Steuerungsvorgang des näher bestimmten Bedienungsziels verbunden sind, und hörbare Wiedergabe der bestimmten Sprachdaten; wobei während des Speicherungsschrittes die geäußerten Sprachinformationen von einem Anwender nach eigenem Willen ausgewählt werden können, und die Sprachdaten automatisch zu den Steuerungsinformationen für das aktuell spezifizierte Bedienungsziel in Zuordnung gebracht werden, dadurch gekennzeichnet, dass bei dem Suchschritt eine aufeinander folgende hörbare Wiedergabe weiterer bestimmter Sprachdaten in Verbindung mit dem spezifizierten Bedienungsziel gesteuert wird.
  9. Sprachbasierte Bedienungsmethode nach Patentanspruch 8, wobei, wenn Sprachdaten in Verbindung mit einem laufenden Bedienungsvorgang des näher bestimmten Bedienungsziels nicht in dem Speicherabschnitt gespeichert sind, der Suchschritt nach anderen Sprachdaten sucht, welche in der Speichereinzeit gespeichert und anderen Bedienvorgängen für das näher bestimmte Bedienungsziel zugeordnet sind, und die aufgesuchten Sprachdaten präsentiert.
  10. Sprachbasierte Bedienungsmethode nach Patentanspruch 9, wobei als Antwort auf eine von außen eingegebene Suchanweisung der Suchschritt die Sprachdaten, die in dem Speicherabschnitt in Zuordnung zu dem näher bestimmten Bedienungsziel gespeichert sind, in einer zuvor bestimmten Reihenfolge durchsucht und die aufgesuchten Sprachdaten präsentiert.
  11. Sprachbasierte Bedienungsmethode nach Patentanspruch 10, wobei die, zuvor bestimmte Reihenfolge eine alphabetische Reihenfolge ist.
  12. Sprachbasierte Bedienungsmethode nach Patentanspruch 10, wobei die, zuvor bestimmte Reihenfolge eine vorwärts sortierte Reihenfolge ist.
  13. Sprachbasierte Bedienungsmethode nach Patentanspruch 10, wobei die zuvor bestimmte Reihenfolge eine rückwärts sortierte Reihenfolge ist.
  14. Sprachbasierte Bedienungsmethode nach einem der Patentansprüche 8 bis 13, wobei die Speichereinheit Sprachdaten erneut speichern kann und ein eingegebenes Sprachsignal als Sprachdaten in Zuordnung zu einem aktiven Bedienungsziel speichert, während die Sprachdaten erneut gespeichert werden
DE60022269T 1999-06-30 2000-06-30 Sprachbasiertes Manipulationsverfahren und -gerät Expired - Fee Related DE60022269T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP18531199A JP3715469B2 (ja) 1999-06-30 1999-06-30 音声操作装置
JP18531199 1999-06-30

Publications (2)

Publication Number Publication Date
DE60022269D1 DE60022269D1 (de) 2005-10-06
DE60022269T2 true DE60022269T2 (de) 2006-06-08

Family

ID=16168640

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60022269T Expired - Fee Related DE60022269T2 (de) 1999-06-30 2000-06-30 Sprachbasiertes Manipulationsverfahren und -gerät

Country Status (4)

Country Link
US (1) US6801896B1 (de)
EP (1) EP1065652B1 (de)
JP (1) JP3715469B2 (de)
DE (1) DE60022269T2 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7324947B2 (en) * 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
JP2003216177A (ja) * 2002-01-18 2003-07-30 Altia Co Ltd 車両用音声認識装置
DE10208469A1 (de) * 2002-02-27 2003-09-04 Bsh Bosch Siemens Hausgeraete Elektrisches Gerät, insbesondere Dunstabzugshaube
US20060085199A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for controlling the behavior of a device capable of speech recognition
JP4722787B2 (ja) * 2006-07-28 2011-07-13 本田技研工業株式会社 データ呼出制御装置、データ呼出システム、データ呼出制御装置の音声認識語彙登録方法および車両
JP6155592B2 (ja) * 2012-10-02 2017-07-05 株式会社デンソー 音声認識システム
KR101579530B1 (ko) * 2014-10-16 2015-12-22 현대자동차주식회사 자동차, 자동차의 음성 인식 제어 장치 및 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3045510B2 (ja) * 1989-12-06 2000-05-29 富士通株式会社 音声認識処理装置
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
EP0810502A1 (de) * 1996-05-30 1997-12-03 DIEHL GMBH &amp; CO. Steuereinheit für eine Heizungsanlage
US5777571A (en) * 1996-10-02 1998-07-07 Holtek Microelectronics, Inc. Remote control device for voice recognition and user identification restrictions
JP4289715B2 (ja) * 1999-04-02 2009-07-01 キヤノン株式会社 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法

Also Published As

Publication number Publication date
JP3715469B2 (ja) 2005-11-09
US6801896B1 (en) 2004-10-05
EP1065652B1 (de) 2005-08-31
EP1065652A1 (de) 2001-01-03
JP2001013984A (ja) 2001-01-19
DE60022269D1 (de) 2005-10-06

Similar Documents

Publication Publication Date Title
DE60217444T2 (de) Sprachgesteuertes elektronisches Gerät
DE4029697A1 (de) Sprachgesteuertes fernbedienungssystem
DE69629873T2 (de) Verfahren und Vorrichtung zum Steuern eines Telephons mittels Sprachbefehle
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE3238855C2 (de) Spracherkennungseinrichtung
DE60320414T2 (de) Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
EP0852051B1 (de) Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
EP1256936A2 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
WO1999053742A2 (de) Hörgerät-anpasseinrichtung
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE69532026T2 (de) Schaltung zum automatischen Variieren des Pegels eines Empfangssprachsignals in einem Fernprechgerät
DE60022269T2 (de) Sprachbasiertes Manipulationsverfahren und -gerät
DE60020504T2 (de) Anpassung eines spracherkenners an korrigierte texte
DE102016217026A1 (de) Sprachsteuerung eines Kraftfahrzeugs
DE69828735T2 (de) Vorrichtung und System zur Stimmwiedergabe
DE102020112055A1 (de) Verfahren zur akustischen Fahrzeuginszenierung
DE112010005706B4 (de) Spracherkennungsvorrichtung
EP0467157B1 (de) Sprachgesteuertes Gerät der Unterhaltungselektronik, insbesondere Videorecorder
DE112014007288T5 (de) Spracherkennungssystem
EP0372639A2 (de) System zur Spracherkennung

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee