-
Hintergrund der Erfindung
-
I. Gebiet der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf das Gebiet der Kommunikation
im allgemeinen und betrifft insbesondere das Testen der Intaktheit
bzw. Integrität
der Nutzerschnittstelle von sprachsteuerbaren Geräten.
-
II. Stand der Technik
-
Stimmerkennung
bzw. Spracherkennung (VR = Voice Recognition) stellt eine der bedeutendsten
Technologien dar, um eine Maschine mit simulierter Intelligenz zum
Erkennen von Nutzerkommandos oder nutzergesprochener Kommandos und
zum Ermöglichen
einer Mensch-Maschine-Schnittstelle auszustatten. VR stellt außerdem eine
Schlüsseltechnologie
für das
Verstehen menschlicher Sprache dar. Systeme, die Verfahren zum Wiederherstellen
einer linguistischen Mitteilung aus einem akustischen Sprachsignal
nutzen, werden Stimm- bzw. Spracherkenner (Voice Recognizers) genannt.
Der Begriff "Spracherkenner" wird hierin als
allgemeine Form für jedes
Gerät verwendet,
das über
eine nutzersprachsteuerbare Schnittstelle verfügt. Ein Spracherkenner umfaßt typischerweise
einen akustischen Prozessor, welcher eine Sequenz informationstragender
Merkmale bzw. Vektoren extrahiert, welche notwendig sind, um eine
VR der eintreffenden Rohsprache zu erreichen, und einen Wort-Decoder,
welcher die Merkmals- oder Vektor-Sequenz dekodiert, um ein sinnvolles
und gewünschtes
Ausgabeformat, wie beispielsweise eine Sequenz linguistischer Wörter entsprechend
der eingegebenen Äußerungen,
zu erhalten. Um die Leistung eines gegebenen Systems zu verbessern
ist ein Training erforderlich, um das System mit gültigen Parametern
auszurüsten.
Mit anderen Worten, das System muß angelernt werden, bevor es
optimal funktionieren kann.
-
Der
akustische Prozessor stellt ein eingangsseitiges Sprachanalyse-Subsystem eines Spracherkenners
dar. Ansprechend auf ein Eingabe-Sprachsignal liefert der akustische
Prozessor eine geeignete Repräsentation
zum Charaktierisieren des zeitvarianten Sprachsignals. Der akustische Prozessor
sollte irrelevante Information wie beispielsweise Hintergrundgeräusche, Kanalverzerrungen,
Besonderheiten des Sprechers und der Sprechweise verwerfen. Eine
effiziente Akustik-Verarbeitung stattet Spracherkenner mit einer
erweiterten akustischen Unterscheidungsleistung aus. Um dies zu
erreichen, kann die Kurzzeit spektrale Umhüllende (short time spectral
envelope) als eine nützliche zu
analysierende Eigenschaft genutzt werden. Zwei häufig genutzte Spektralanalyse-Verfahren
für das Beschreiben
der Kurzzeit spektralen Umhüllenden sind
die lineare Vorhersagekodierung (LPC = Linear Predictive Coding)
und die filterbank-basierte spektrale Modellierung. Beispielhafte
LPC-Verfahren sind beschrieben in U.S. Patent No. 5,414,796, welches dem
Rechtsnachfolger der vorliegenden Erfindung zugewiesen ist, sowie
in L.B. Rabiner & R.W.
Schafer, Digital Processing of Speech Signals (1978), Seiten 396–453.
-
Die
Nutzung von VR (häufig
auch als Spracherkennung bezeichnet) wird aus Sicherheitsgründen immer
bedeutender. VR kann beispielsweise die manuelle Tätigkeit
des Drückens
einer Taste auf der Tastatur eines drahtlosen Telefons ersetzen.
Dies ist von besonderer Bedeutung, wenn der Nutzer eine Telefonverbindung
während
des Autofahrens initiiert. Bei Nutzung eines Telefons ohne VR muß der Fahrer eine
Hand vom Steuer nehmen und während
des Drückens
der Tasten zum Wählen
der Verbindung auf die Tastatur des Telefons schauen. Diese Handlungen
erhöhen
die Wahrscheinlichkeit eines Verkehrsunfalls. Ein sprachsteuerbares
Telefon (d.h. ein Telefon, welches für Spracherkennung ausgelegt
ist) würde
es dem Fahrer erlauben, die Telefonverbindung herzustellen, während er
kontinuierlich die Straße
im Blick behält.
Eine Auto-Freisprechanlage (hands-free car-kit system) würde es dem
Fahrer zusätzlich
erlauben, während
des Verbindungsaufbaus beide Hände
am Steuer zu belassen.
-
Spracherkennende
Geräte
werden klassifiziert als entweder sprecherabhängig oder sprecherunabhängig. Sprecherunabhängige Geräte sind
in der Lage, Sprachkommandos von einem beliebigen Nutzer entgegenzunehmen.
Sprecherabhängige
Geräte,
die weiter verbreitet sind, werden trainiert bzw. angelernt, um
Kommandos von bestimmten Nutzern zu erkennen. Ein sprecherabhängiges VR
Gerät arbeitet
typischerweise in zwei Phasen, einer Trainingsphase und einer Erkennungsphase.
Während der
Trainingsphase fordert das VR system den Nutzer auf, jedes Wort
aus dem Systemvokabular ein- oder zweimal zu sprechen, so daß das System
die Eigenschaften der Sprache des Nutzers für diese bestimmten Wörter oder
Phrasen erlernen kann. Für
ein phonetisches VR Gerät
wird das Training alternativ durchgeführt, indem einer oder mehrere
kurze Artikel vorgelesen werden, die speziell geschrieben wurden, um
alle Phoneme der Sprache abzudecken. Ein beispielhaftes Vokabular
für eine
Auto-Freisprecheinrichtung kann die Ziffern der Tastatur, die Schlüsselworte "anrufen", "senden", "wählen", "abbrechen", "freigeben", "hinzufügen", "löschen", "Historie", "Programm", "ja" und "nein", und die Namen einer
festgelegten Anzahl gewöhnlich
angerufener Mitarbeiter, Freunde oder Familienmitglieder enthalten.
Nach Abschluß des
Trainings, in der Erkennungsphase, kann der Nutzer Verbindungen
initiieren, indem er die angelernten Schlüsselworte spricht. Falls beispielsweise
der Name "John" einer der angelernten
Namen ist, könnte
der Nutzer eine Verbindung mit John initiieren, indem er die Phrase "John anrufen" spricht. Das VR
System würde
die Worte "John" und "anrufen" erkennen und diejenige
Nummer wählen,
die der Nutzer zuvor als Johns Telefonnummer eingegeben hat.
-
Sprachsteuerbare
Produkte müssen
während
des Produktentwicklungszyklus und während der Produktvalidierungsphase
mehrmals von Hunderten von Nutzern getestet werden, um die Intaktheit
bzw. Integrität
der Nutzerschnittstelle und der Anwendungslogik zu testen. Ein statistisch
signifikanter, wiederholbarer Test einer solchen Größenordnung
ist in der Durchführung
für den
Hersteller unerschwinglich teuer. Aus diesem Grund unterliegen viele
VR Produkte einem eingeschränkten
Testverfahren im Labor und einem umfassenden Test im Markt – d.h. beim
Konsumenten.
-
US
Patent No. 5,715,369 beschreibt ein Spracherkennungs-Testsystem,
welches einen Host-Prozessor und eine Speichereinrichtung mit mehreren
Audiodateien aufweist. Nach einem gegebenen Startkommando wird die
nächste
Audiodatei einer Audiodatei-Warteschlange für Lesezugriffe geöffnet. Die
Testanwendung leitet eine Eingabephrase an die Spracherkennungsanwendung,
welche die eingegebenen Audiodaten verarbeitet und die Ausgabe der
Spracherkennungsanwendung sammelt und die Ausgabe in einer Testergebnisdatei
vermerkt.
-
Es
wäre für Hersteller
wünschenswert,
Konsumenten mit vollständig
getesteten VR Produkten versorgen zu können. Daher besteht ein Bedarf
an einem Testparadigma zum Testen und Verbessern sprachsteuerbarer
Produkte und sprachsteuerbarer Dienste, welches niedrige Kosten
aufweist sowie wiederholbar und berührungslos/zerstörungslos (non-intrusive)
ist.
-
Zusammenfassung
der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf ein Testparadigma zum Testen
und Verbessern sprachsteuerbarer Produkte und sprachsteuerbarer Dienste,
welches niedrige Kosten aufweist sowie wiederholbar und berührungslos/zerstörungslos (non-intrusive)
ist. In einem Aspekt der Erfindung wird entsprechend eine Vorrichtung
zum Testen und Trainieren eines Stimm- bzw. Spracherkenners vorgesehen,
die folgendes aufweist: Mittel zum Speichern einer Vielzahl von
gesprochenen Äußerungen und
Mittel zum Testen des Spracherkenners, welche folgendes aufweisen:
Mittel zum Empfangen einer Aufforderung bzw. eines Prompt für einen
ersten Betrieb bzw. eine erste Operation vom Spracherkenner, Mittel
zum Ansprechen bzw. Reagieren auf den Prompt für die erste Operation mit einer
ersten Auswahl aus der Vielzahl von gesprochenen Äußerungen,
Mittel zum Liefern einer Audio-Eingabe an den Spracherkenner entsprechend
der ersten Auswahl, und Mittel zum Überwachen des Spracherkenners hinsichtlich
des Erfolgs der ersten Operation.
-
In
einem anderen Aspekt der Erfindung weist ein Verfahren zum Testen
und Trainieren eines Spracherkenners vorteilhaft folgende Schritte
auf: Speichern einer Vielzahl von gesprochenen Äußerungen und Testen des Spracherkenners,
und weist weiterhin Folgendes auf: Empfangen einer Aufforderung bzw.
eines Prompt für
einen ersten Betrieb bzw. eine erste Operation vom Spracherkenner,
Ansprechen bzw. Reagieren auf den Prompt für die erste Operation mit einer
ersten Auswahl aus der Vielzahl von gesprochenen Äußerungen,
Liefern einer Audioeingabe an den Spracherkenner entsprechend der
ersten Auswahl, und Überwachen
des Spracherkenners hinsichtlich des Erfolgs der ersten Operation.
-
Kurzbeschreibung
der Zeichnungen
-
1 ist
ein Blockdiagramm eines konventionellen Stimm- bzw. Spracherkennungssystems.
-
2 ist
ein Blockdiagramm eines Testssystems für Stimm- bzw. Spracherkennungssysteme
wie das in 1 dargestellte.
-
3 ist
ein Flußdiagramm,
welches die Verfahrensschritte darstellt, die durch ein Spracherkennungssystem
ausgeführt
werden, wenn das Testsystem der 2 einen
Spracheintrag in das Spracherkennungssystem einspeichert.
-
4 ist
ein Flußdiagramm,
welches die Verfahrensschritte darstellt, die durch ein Spracherkennungssystem
ausgeführt
werden, wenn das Testsystem aus 2 einen
Spracheintrag im Spracherkennungssystem anwählt.
-
Detaillierte
Beschreibung der bevorzugten Ausführungsbeispiele
-
Wie
in 1 dargestellt, weist ein konventionelles Spracherkennungssystem 10 einen
Analog-Digital-Umsetzer (A/D) 12, einen akustischen Prozessor 14,
eine VR Vorlagendatenbank 16, eine Mustervergleichslogik 18 und
eine Entscheidungslogik 20 auf. Das VR System 10 kann
beispielsweise in einem drahtlosen Telefon oder in einer Fahrzeug-Freisprecheinrichtung
untergebracht sein.
-
Wenn
sich das VR System 10 in der Spracherkennungsphase befindet,
spricht eine Person (nicht dargestellt) ein Wort oder eine Phase,
wobei ein Sprachsignal erzeugt wird. Das Sprachsignal wird mittels
eines konventionellen Wandlers (ebenfalls nicht dargestellt) in
ein elektrisches Sprachsignal s(t) konvertiert. Das Sprachsignal
s(t) wird an den A/D 12 geliefert, welcher das Sprachsignal
s(t) in digitalisierte Sprachabtastwerte s(n) umwandelt, und zwar
in Übereinstimmung
mit einem bekannten Abtastverfahren wie beispielsweise Pulscodemodulation (PCM).
-
Die
Sprachabtastwerte s(n) werden an den akustischen Prozessor 14 für die Bestimmung
von Parametern geliefert. Der akustische Prozessor 14 erzeugt
einen Satz von Parametern, welcher die Eigenschaften des eingegebenen
Sprachsignals s(t) modelliert. Die Parameter können in Übereinstimmung mit einem beliebigen
aus einer Vielzahl von bekannten Sprachparameter-Bestimmungsverfahren bestimmt
werden, einschließlich
beispielsweise Kodieren durch einen Sprachkodierer und Nutzen der schnellen
Fourier-Transformation (FFT) basierten Cepstrum-Koeffizienten, wie
in oben genanntem US Patent No. 5,414,796 beschrieben. Der akustische Prozessor 14 kann
als ein digitaler Signalprozessor (DSP) ausgeführt sein. Der DSP kann einen
Sprachkodierer aufweisen. Alternativ kann der akustische Prozessor
als Sprachkodierer (speech coder) implementiert sein.
-
Die
Parameterbestimmung wird ebenfalls während des Trainings des VR
Systems 10 durchgeführt,
wobei ein Satz von Vorlagen für
alle Worte des Vokabulars des VR Systems 10 für dauerhafte
Speicherung an die VR Vorlagendatenbank 16 geleitet wird.
Die VR Vorlagendatenbank 16 ist vorteilhaft als eine beliebige
konventionelle Form nicht-flüchtigen Speichermediums
implementiert, wie beispielsweise Flash-Speicher. Dies erlaubt den
Verbleib der Vorlagen in der VR Vorlagendatenbank 16, wenn
die Spannungszufuhr zum VR System 10 abgeschaltet wird.
-
Der
Parametersatz wird an die Mustervergleichslogik 18 geliefert.
Die Mustervergleichslogik 18 detektiert vorteilhaft den
Startpunkt und den Endpunkt einer Äußerung, berechnet die dynamischen akustischen
Merkmale (wie beispielsweise zeitliche Ableitungen, zweite zeitliche
Ableitungen etc.), komprimiert die akustischen Merkmale, indem relevante Rahmen
ausgewählt
werden, und quantisiert die statischen und die dynamischen akustischen
Merkmale. Verschiedene bekannte Verfahren für die Endpunktdetektierung,
die Ableitung der dynamischen akustischen Merkmale, die Musterkompression
und die Musterquantisierung sind beispielsweise in Lawrence Rabiner & Biing-Hwang Juang,
Fundamentals of Speech Recognition (1993) beschrieben. Die Mustervergleichslogik 18 vergleich
den Parametersatz mit allen in der VR Vorlagendatenbank 16 gespeicherten
Vorlagen. Die Vergleichsergebnisse bzw. Distanzen zwischen dem Parametersatz
und allen in der VR Vorlagendatenbank 16 gespeicherten
Vorlagen werden an die Entscheidungslogik 20 geliefert. Die
Entscheidungslogik 20 wählt
ais der VR Vorlagendatenbank 16 die Vorlage aus, die mit
dem Parametersatz am besten übereinstimmt.
In einer Alternative kann die Entscheidungslogik einen konventionellen "N-Best" Auswahlalgorithmus
verwenden, welcher die N besten Übereinstimmungen
innerhalb einer festgelegten Übereinstimmungsschwelle
auswählt.
Die Person wird dann befragt, welche Auswahl gewünscht war. Die Ausgabe der
Entscheidungslogik 20 ist die Entscheidung, welches Wort
des Vokabulars gesprochen worden war.
-
Die
Mustervergleichslogik 18 und die Entscheidungslogik 20 können vorteilhaft
als ein Mikroprozessor implementiert werden. Das VR System 10 kann
z.B. eine anwendungsspezifische integrierte Schaltung (ASIC = Application
Specific Integrated Circuit) sein. Die Erkennungsgenauigkeit bzw.
Erkennungsquote des VR Systems 10 ist ein Maß dafür, wie gut
das VR System 10 gesprochene Worte oder Phrasen des Vokabulars
korrekt erkennt. Eine Erkennungsgenauigkeit bzw. Erkennungsquote
von 95% gibt an, daß das
VR System 10 in fünfundneunzig von
100 Fällen
die Worte im Vokabular korrekt erkennt.
-
In Übereinstimmung
mit einem Ausführungsbeispiel,
wie in 2 dargestellt, weist ein Testsystem 100 für VR Produkte
einen Prozessor 102, ein Software-Modul 104 und ein Speichermedium 106 auf.
Der Prozessor 102 ist vorteilhaft ein Mikroprozessor, kann
jedoch eine beliebige andere konventionelle Form von Prozessor,
Controller oder Zustandsmaschine sein. Der Prozessor 102 ist
mit dem Software-Modul 104 gekoppelt, weiches vorteilhaft als
ein RAM Speicher, welcher Software-Anweisungen beinhaltet, implementiert
ist. Der RAM Speicher 104 kann on-board RAM sein, oder
der Prozessor 102 und der RAM Speicher können in
einem ASIC untergebracht sein. In einer Alternative können Firmware-Anweisungen
anstelle des Software-Moduls 104 genutzt werden. Das Speichermedium 106 ist
mit dem Prozessor 102 gekoppelt und ist vorteilhaft als ein
Scheibenspeicher bzw. Plattenspeicher implementiert, auf den durch
den Prozessor 102 zugegriffen werden kann. In einer Alternative
kann das Speichermedium 106 als eine beliebige Form konventionellen
nichtflüchtigen
Speichers implementiert sein. Eingabe- und Ausgabeverbindungen erlauben
es dem Prozessor, mit einem zu testenden VR Gerät (nicht dargestellt) zu kommunizieren.
Die Eingabe- und Ausgabeverbindungen weisen vorteilhaft ein Kabel
auf, welches das Testsystem 100 elektrisch mit dem VR Gerät koppelt.
Zusätzlich
zu einem Kabel können
die Eingabe- und Ausgabeverbindungen einen Digital-Analog-Umsetzer
(D/A) (nicht dargestellt) sowie einen Lautsprecher (ebenfalls nicht
dargestellt) aufweisen, um dem Testsystem 100 die hörbare Kommunikation
bzw. die Kommunikation mittels Schall mit dem VR Gerät zu ermöglichen.
-
Das
Testsystem 100 simuliert das Nutzen eines VR Geräts durch
Hunderte von Sprechern und liefert somit einen Test, welcher niedrige
Kosten aufweist sowie wiederholbar und berührungslos/zerstörungslos
(non-intrusive) ist. Das Speichermedium 106 enthält digitale
Abtastwerte eines Satzes von Äußerungen,
wobei jede Äußerung durch
viele verschiedene Sprecher wiederholt wurde. In einem Ausführungsbeispiel
werden 150 Wörter
durch jeden Sprecher gesprochen, 600 Sprecher sind gespeichert,
was 90.000 digitale Abtastwerde liefert, die im Speichermedium 106 gespeichert
sind. Die Software-Anweisun gen, die im Software-Modul 104 vorgehalten
werden, werden durch den Prozessor 102 ausgeführt, um
den Zustand des VR Geräts
(welcher an der Eingabeverbindung empfangen wird) zu erwarten, und
um eine geeignete Antwort bzw. Reaktion über die Ausgabeverbindung vorzusehen.
Die Software-Anweisungen
können
vorteilhaft in einer Script-Sprache geschrieben sein. Das Kabel
der Ausgabeverbindung kann vorteilhaft mit dem VR Gerät mittels
eines normalen seriellen Ports oder einem Diagnose/Überwachungsport
des VR Geräts und/oder über einen
PCM Port des VR Geräts
verbunden sein. In einem Ausführungsbeispiel,
in welchem das VR Gerät
ein drahtloses Telefon ist, wird der serielle Port genutzt, um das
VR Gerät
anzuweisen, das Drücken
von Tasten einer Tastatur des Telefons zu emulieren, und um die
auf der LCD Anzeige des Telefons angezeigten Zeichen auszulesen.
In einem anderen Ausführungsbeispiel,
in welchem das VR Gerät
eine Auto-Freisprecheinrichtung (und ein assoziiertes Telefon) ist,
wird er PCM Port der Freisprecheinrichtung genutzt, um Sprache in
die Freisprecheinrichtung einzugeben und um Sprachaufforderungen
und Sprachreaktionen von der Freisprecheinrichtung zu empfangen.
In einem anderen Ausführungsbeispiel
kann die Sprache hörbar
bzw. als Schall an das VR Gerät
mittels eines D/A und eines Lautsprechers geliefert werden. Somit übernimmt das
Testssystem 100 gegenüber
dem VR Gerät
die Rolle eines menschlichen Nutzers und erzeugt die Ergebnisse
in Echtzeit. Ferner weist das Software-Modul 104 Anweisungen
zum Überwachen
der Erkennungsgenauigkeit bzw. Erkennungsquote des VR Geräts sowie
Anweisungen zum Berichten der Erkennungsgenauigkeit bzw. Erkennungsquote
an den Anwender auf.
-
In
einem Ausführungsbeispiel
kann die Intaktheit bzw. Integrität eines VR Geräts gemäß der im Flußdiagramm
der 3 dargestellten Verfahrensschritte getestet werden.
Jene mit Fachkenntnissen auf dem Gebiet werden erkennen, daß die in 3 dargestellten
Schritte des Algorithmus, die durch ein Testsystem (nicht dargestellt)
ausgeführt
werden, auf eine bestimmte, angenommene VR Nutzerschnittstelle zugeschnitten
sind. Andere und verschiedene VR Nutzerschnittstellen können zu
verschiedenen Schritten des Algorithmus führen. Gemäß des Ausführungsbeispiels der 3 wird
ein Spracheintrag in einem VR Gerät (nicht dargestellt) durch
ein Testsystem einem VR Gerät
(nicht dargestellt) durch ein Testsystem gespeichert, welches aus
Sicht des VR Geräts
wie ein menschlicher Nutzer verhält.
-
Im
Schritt 200 wird die Aufforderung bzw. der Prompt "Spracheintrag hinzufügen?" auf dem LCD Schirm
eines VR Geräts
erzeugt. Dieses Merkmal, welches sich häufig in VR Geräten findet,
erlaubt es dem Nutzer, einen Spracheintrag (voice tag) zu einer zuvor
eingegebenen numerischen Telefonnummer hinzuzufügen, so daß der Nutzer den Wählvorgang durch
Ansagen des mit dieser Nummer korrespondierenden Namens initiieren
kann. Das Testsystem empfängt
die Aufforderung bzw. den Prompt und wählt mittels eines Kabels, welches
das Testsystem mit dem Diagnoseport oder dem seriellen Port des VR
Geräts
elektrisch koppelt, entweder "OK", um den Spracheintrag
hinzuzufügen,
oder "Nächster", um einen weiteren
Spracheintrag hinzuzufügen.
-
Im
Schritt 202 erscheint die Anweisung "Telefon an das Ohr halten und Anweisungen
folgen" auf dem
LCD Schirm des VR Geräts
und wird vom Testsystem empfangen. Im Schritt 204 wartet
das Testsystem zwei Sekunden, um die Reaktionszeit eines menschlichen
Nutzers zu simulieren. Im Schritt 206 erscheint die Anweisung "Bitte einen Namen
sprechen" auf dem
LCD Schirm des VR Geräts
und wird durch das Testsystem empfangen. Im Schritt 208 erzeugt
das VR Gerät
hörbar
bzw. als Schall die Worte "Name,
bitte", gefolgt
von einem akustischen Signal bzw. Beep.
-
In
Schritt 210 erzeugt das Testsystem hörbar bzw. als Schall einen
Namen, der einer gespeicherten Namens-Datenbank entnommen wird,
und das VR Gerät "erfaßt" die Äußerung.
Das VR Gerät
kann beim Erfassen der Äußerung scheitern,
d.h. ein Fehlerzustand kann auftreten. Fehlerzustände umfassen beispielsweise
eine Pause von mehr als zwei Sekunden, bevor ein Name gesprochen
wird; der gesprochene Name ist zu kurz, z.B. weist eine Dauer von weniger
als 280 ms auf; oder der gesprochene Name ist zu lang, z.B. weist
eine Dauer von mehr als zwei Sekunden auf. Falls das VR Gerät beim Erfassen
der Äußerung scheitert,
wiederholt das VR Gerät
den Prompt bzw. die Anweisung aus Schritt 208. Falls eine
festgelegte Anzahl N von Fehlversuchen in Folge auftritt, bricht
das VR Gerät
ab und kehrt zu Schritt 206 zurück.
-
Falls
das VR Gerät
die gegebene Äußerung in
Schritt 210 erfaßt,
erzeugt das VR Gerät
hörbar bzw.
als Schall die erfaßte Äußerung in
Schritt 212. In Schritt 214 erscheint die Anweisung "Bitte nochmals" auf dem LCD Schirm
des VR Geräts
und wird durch das Testsystem empfangen. Im Schritt 216 erzeugt das
VR Gerät
hörbar
bzw. als Schall das Word "Nochmals", gefolgt von einem
akustischen Signal bzw. Beep.
-
In
Schritt 218 wiederholt das Testsystem den Namen hörbar bzw.
als Schall. Falls das VR Gerät beim
Erfassen der Äußerung scheitert,
d.h., falls ein Fehlerzustand auftritt, wiederholt das VR Gerät die Aufforderung
bzw. den Prompt aus Schritt 216. Falls eine festgelegte
Anzahl N von Fehlversuchen in Folge auftritt, bricht das VR Gerät ab und
kehrt zu Schritt 206 zurück.
-
Falls
das VR Gerät
die gegebene Äußerung in
Schritt 218 erfaßt,
vergleicht das Testsystem die beiden in Schritten 210 und 218 erfaßten Äußerungen
oder ermittelt eine "Übereinstimmung". Falls die beiden
Antworten nicht übereinstimmen,
wird die zweite Antwort zurückgewiesen,
und das VR Gerät wiederholt
die Aufforderung bzw. den Prompt aus Schritt 216. Falls
eine festgelegte Anzahl M von Fehlversuchen, die beiden Äußerungen
in Übereinstimmung
zu bringen, auftritt, bricht das VR Gerät ab und kehrt zu Schritt 206 zurück. Das
Testsystem vermerkt die Zahl der Fehlversuche, um dem Nutzer ein
Maß für die Genauigkeit
bzw. die Quote des VR Geräts
zu liefern.
-
Falls
die Übereinstimmungsprobe
erfolgreich ist, wiederholt das VR Gerät die zweite erfaßte Äußerung hörbar bzw.
als Schall in Schritt 222. In Schritt 224 erscheinen
die Worte "Spracheintrag
erfolgreich gespeichert" auf
dem LCD Schirm des VR Geräts und
werden mittels des Kabels beim Testsystem empfangen. Im Schritt 226 zeigt
der LCD Schirm des VR Geräts
an, daß die
Nummer in einem bestimmten Speicherplatz abgelegt wurde. In Schritt 228 zeigt
der LCD Schirm des VR Geräts
die Zahl der bereits verwendeten Spei cherplätze und die Zahl der noch verfügbaren Speicherplätze an.
Das VR Gerät
verläßt anschließend den
VR Modus.
-
In
einem Ausführungsbeispiel
kann die Intaktheit bzw. Integrität der Nutzerschnittstelle eines VR
Geräts
entsprechend der im Flußdiagramm
der 4 dargestellten Verfahrensschritte getestet werden.
Jene mit Fachkenntnissen auf dem Gebiet werden erkennen, daß die in 4 dargestellten
Schritte des Algorithmus, die durch ein Testsystem (nicht dargestellt)
ausgeführt
werden, auf eine bestimmte, angenommene VR Nutzerschnittstelle zugeschnitten sind.
Andere und verschiedene VR Nutzerschnittstellen können zu
verschiedenen Schritten des Algorithmus führen. Gemäß des Ausführungsbeispiels der 4 wird
ein Spracheintrag in einem VR Gerät (nicht dargestellt) durch
ein Testsystem gewählt,
welches sich aus Sicht des VR Geräts wie ein menschlicher Nutzer
verhält.
-
In
Schritt 300 sendet das Testsystem ein Kommando über ein
Kabel, welches das Testsystem mit dem Diagnoseport oder dem seriellen
Port des VR Geräts
verbindet. Das Kommando simuliert einen menschlichen Nutzer, der
eine SENDEN Taste des VR Geräts
betätigt.
In Schritt 302 emittiert das VR Gerät zwei akustische Signale bzw.
Beeps hintereinander. In Schritt 302 erscheinen die Worte "VR kann gestartet
werden" und "Senden = Wahlwiederholung" auf dem LCD Schirm
des VR Geräts
und werden am Testsystem über
das Kabel empfangen. Das Testsystem kann über das Kabel entweder "Wahlwiederholung" wählen, um
eine frühere
Verbindung erneut zu wählen,
oder "VR", um in den VR Modus
einzutreten. Die SENDEN Taste wird genutzt, um den VR Modus zu initiieren,
was passiert, wenn der Nutzer keine Handlung innerhalb von zwei
Sekunden nach dem Drücken
von SENDEN vornimmt. Der Nutzer hat allerdings die Möglichkeit,
die zuvor gewählte
Nummer erneut zu wählen,
indem er die SENDEN Taste innerhalb von zwei Sekunden nach dem ersten
Betätigen erneut
betätigt.
Das VR Gerät
zeigt an, daß der
VR Modus gestartet werden kann, aber daß der Nutzer eine Wahlwiederholung
durchführen
kann, falls er oder sie SENDEN erneut betätigt. Im Schritt 306 wartet
das Testsys tem zwei Sekunden, um so die Reaktionszeit eines menschlichen
Nutzers zu simulieren.
-
In
Schritt 308 hat das Testsystem über das Kabel "VR" ausgewählt, und
das VR Gerät
tritt in dem VR Modus ein. Die Anweisung "Bitte Spracheintrag sprechen" wird auf dem LCD
Schirm des VR Geräts erzeugt
und vom Testsystem über
das Kabel empfangen. In Schritt 310 erzeugt das VR Gerät hörbar bzw. als
Schall die Worte "Name,
bitte", gefolgt
von einem akustischen Signal bzw. Beep.
-
In
Schritt 312 erzeugt das Testsystem hörbar bzw. als Schall einen
Namen, der einer gespeicherten Namens-Datenbank entnommen wird,
und das VR Gerät "erfaßt" die Äußerung.
Das VR Gerät
kann beim Erfassen der Äußerung scheitern,
d.h, ein Fehlerzustand kann auftreten. Fehlerzustände umfassen beispielsweise
eine Pause von mehr als zwei Sekunden, bevor ein Name gesprochen
wird; der gesprochene Name ist zu kurz, z.B. weist eine Dauer von weniger
als 280 ms auf; oder der gesprochene Name ist zu lang, z.B. weist
eine Dauer von mehr als zwei Sekunden auf. Falls das VR Gerät beim Erfassen
der Äußerung scheitert,
wiederholt das VR Gerät
den Prompt bzw. die Anweisung aus Schritt 310. Falls eine
festgelegte Anzahl N von Fehlversuchen in Folge auftritt, bricht
das VR Gerät
ab und kehrt zu Schritt 308 zurück.
-
In
Schritt 314 vergleicht das VR Gerät die erfaßte Äußerung mit jedem Namen aus
der Namensliste, die im Vokabular des VR Geräts gespeichert ist, oder ermittelt
eine Übereinstimmung.
Falls keine Übereinstimmung
gefunden wird, wiederholt das VR Gerät die Anweisung bzw. den Prompt
des Schrittes 310. Falls eine festgelegte Anzahl M von
Fehlversuchen, eine Übereinstimmung
aufzufinden, auftritt, bricht das VR Gerät ab und kehrt zu Schritt 308 zurück. Das
Testsystem vermerkt die Zahl der Fehlversuche, um dem Nutzer ein
Maß für die Genauigkeit bzw.
die Quote des VR Geräts
zu liefern.
-
Falls
mehr als eine Übereinstimmung
bzw. mehr als ein Treffer in Schritt 314 aufgefunden wurde,
fährt das
VR Gerät
mit Schritt 316 fort, in welchem ein aus dem Stand der
Technik bekannter n_best Algorithmus angewendet wird, um die Treffer aufzulösen. Mit
dem n_best Algorithmus erlaubt es das VR Gerät dem Testsystem, aus einer
vorbestimmten Anzahl n, vorteilhaft zwei, Übereinstimmungen/Treffer aus
dem Namens-Vokabular im VR Gerät auszuwählen. Beispielsweise
fragt das VR Gerät
das Testsystem hörbar
bzw. mittels Schall, ob das Testsystem die mit der besten Übereinstimmung
bzw. mit dem besten Treffer korrespondierende Sprache "gesprochen" hat. Das VR Gerät erzeugt
außerdem
die gleiche Frage auf seinem LCD Schirm, gemeinsam mit einer JA
oder NEIN Auswahl. Das Testsystem empfängt diese Information über das
Kabel und wählt entweder
JA oder NEIN über
das Kabel aus. Falls das Testsystem NEIN auswählt, wiederholt das VR Gerät die Fragen
bezüglich
des nächstbesten
Treffers. Der Prozeß wird
fortgesetzt, bis ein Treffer durch das Testsystem ausgewählt wurde,
oder bis kein Treffer ausgewählt
wurde und die Trefferliste erschöpft
ist, wobei das VR Gerät
an dieser Stelle abbrechen und den Schritt 308 wiederholen
würde.
-
Falls
die Übereinstimmungsprobe
in einem der Schritte 314 oder 316 erfolgreich
ist, geht das VR Gerät
zum Schritt 318 über.
In Schritt 318 zeigt der LCD Schirm des VR Geräts an, daß das VR
Gerät die mit
dem Namen assoziierte gespeicherte Telefonnummer anruft. Diese Anzeige
wird vom Testsystem über
das Kabel empfangen. In Schritt 320 zeigt das VR Gerät hörbar bzw.
mittels Schall an, daß es
den gewählten
Namen anruft.
-
Im
Schritt 322 erfaßt
das VR Gerät
beliebige Äußerungen
vom Testsystem, die üblicherweise
Stille sind. Das Testsystem könnte
auch hörbar
bzw. mittels Schall das Wort "Ja" mittels eines mit
dem Testsystem gekoppelten Lautsprechers erzeugen. Oder das Testsystem
könnte
das Wort "Nein" erzeugen. Falls
das VR Gerät
nichts erfaßt,
wird die Verbindung hergestellt (d.h. Stille wird angenommen). Falls
das VR Gerät
eine Äußerung erfaßt, die
es erfolgreich mit dem in der Vokabulardatenbank des VR Geräts gespeicherten
Wort "Ja" in Übereinstimmung
bringen kann, wird die Verbindung hergestellt. Falls anderenfalls
ein Fehlerzustand eintritt, wie das Erfassen einer zu langen oder
einer zu kurzen Äußerung,
fragt das VR Gerät
nach, ob das Testsystem die Verbin dung aufgebaut haben möchte. Falls
das VR Gerät
eine Äußerung erfaßt, die
erfolgreich mit einem anderen Wort als "Ja" in Übereinstimmung
gebracht werden kann, fragt das VR Gerät nach, ob das Testsystem die
Verbindung aufgebaut haben möchte.
Falls das Testsystem zustimmend reagiert, wird die Verbindung hergestellt.
Falls das Testsystem negativ reagiert, bricht das VR System ab und
kehrt zu Schritt 308 zurück. Das Testsystem könnte über das
Kabel reagieren. In einer Alternative oder zusätzlich könnte das Testsystem hörbar bzw,
mittels Schall durch den Lautsprecher reagieren, wobei in diesem
Fall die Reaktion erfaßt
und in einer den vorstehend beschriebenen Verfahren ähnlichen
Weise auf Übereinstimmungen
untersucht werden müßte.
-
In
den mit Bezug auf 3–4 beschriebenen
Ausführungsbeispielen
werden Kommandos vom Testsystem an das VR Gerät über ein Kabel gesendet, welches
das Testsystem mit dem Diagnoseport oder dem seriellen Port des
VR Geräts
elektrisch koppelt. Die Kommandos werden vom Testsystem gesendet.
In einem weiteren Ausführungsbeispiel kann
ein Computer-Bildschirm mit dem Testsystem verbunden werden, um
eine graphische Darstellung der Nutzerschnittstells des VR Geräts anzuzeigen, einschließlich der
aktuellen Anzeige auf dem LCD Schirm des VR Geräts. Simulierte Tasten werden
auf dem Bildschirm angezeigt, auf welche der Nutzer mittels Maus
klicken kann, um Tastendruck-Kommandos an das VR Gerät zu senden,
um das physikalische Drücken
der Tasten durch einen Nutzer zu simulieren. Mittels des Bildschirms
kann der Nutzer das VR Gerät
steuern, ohne es tatsächlich
zu berühren.
-
Somit
wurde ein neues und verbessertes Verfahren sowie eine neue und verbesserte
Vorrichtung zum Testen der Intaktheit bzw. Integrität der Nutzerschnittstelle
von sprachsteuerbaren Geräten
beschrieben. Jene mit Fachkenntnissen werden erkennen, daß viele
andere Aspekte einer VR Nutzerschnittstelle, wie beispielsweise
die Sprachnotiz-Funktion, mit dem vorstehend beschriebenen Testsystem
getestet werden können.
Der Fachmann auf dem Gebiet wird wissen, daß die verschiedenen veranschaulichenden
logischen Blöcke
und Algorithmusschritte, die im Zusammenhang mit den hierin offenbarten
Ausführungsbeispielen
beschrieben wurden, mittels digitalem Si- Signalprozessor (DSP), mittels anwendungsspezifischer
integrierter Schaltung (ASIC), mittels diskreter Gatter- oder Transistorlogik, mittels
diskreter Hardware-Komponenten wie Register und FIFO, mittels eines
Prozessors, der einen Satz von Firmware-Anweisungen ausführt, oder
mittels eines beliebigen konventionellen programmierbaren Software-Moduls
und eines Prozessors implementiert oder ausgeführt werden können. Der
Prozessor kann vorteilhaft ein Mikroprozessor sein, kann aber alternativ
ein beliebiger herkömmlicher
Prozessor, Controller, Microcontroller oder eine Zustandsmaschine
sein. Das Software-Modul kann in einem RAM Speicher, in Flash-Speicher,
Registern oder jeder anderen, in der Technik bekannten Form beschreibbaren
Speichermediums untergebracht sein. Der Fachmann auf dem Gebiet
wird ferner erkennen, daß die
Daten, Anweisungen, Kommandos, Informationen, Signale, Bits, Symbole
und Chips, die in der gesamten vorstehenden Beschreibung erwähnt sind, vorteilhaft
als Spannungen, Ströme,
elektromagnetische Wellen, magnetische Felder oder Teilchen, optische
Felder oder Teilchen, oder eine Kombination davon, repräsentiert
werden können.
-
Bevorzugte
Ausführungsbeispiele
der vorliegenden Erfindung wurden somit dargestellt und beschrieben.
Es ist dem Durchschnittsfachmann auf dem Gebiet allerdings ohne
weiteres ersichtlich, daß zahlreiche
Abänderungen
an den hierin offenbarten Ausführungsbeispielen
vorgenommen werden können,
ohne vom Gegenstand der Erfindung abzuweichen. Damit ist die vorliegende
Erfindung nicht eingeschränkt
mit Ausnahme dessen, was sich nach Maßgabe der Patentansprüche ergibt.