-
Die
vorliegende Erfindung bezieht sich auf ein Musterverarbeitungssystem
und insbesondere auf ein Sprachverarbeitungssystem. Musterverarbeitungssysteme
und insbesondere solche mit Spracherkennung werden an vielen Stellen
und für
viele Anwendungen eingesetzt. Beispiele sind die über Telefon
erreichbaren automatischen Auskunfts- und Transaktionssysteme, z. B. die
automatische Fahrplanauskunft der niederländischen Openbaar Vervoer Reisinformatie
(OVR) oder die Telefonbankingsysteme vieler Banken, sowie die in
der Stadt Wien aufgestellten Informationskioske der Firma Philips,
an denen ein Benutzer mit Hilfe von Tastatur- und Spracheingaben
z. B. Informationen über
die Wiener Sehenswürdigkeiten
und Hotels erhalten kann.
-
Sollen
Musterverarbeitungssysteme von vielen Benutzern verwendet werden,
werden in der Regel für
die Musterverarbeitung so genannte benutzerunabhängige Musterverarbeitungsdatensätze verwendet,
d. h., bei der Verarbeitung von Mustern unterschiedlicher Benutzer
wird kein Unterschied zwischen den Benutzern gemacht; im Falle der
Spracherkennung werden so z. B. für alle Sprecher dieselben akustischen
Referenzmodelle verwendet. Dem Fachmann ist jedoch bekannt, dass
die Qualität
der Musterverarbeitung durch die Verwendung benutzerspezifischer
Musterverarbeitungsdatensätze
verbessert wird. Z. B. steigt die Genauigkeit von Spracherkennungssystemen,
wenn man für
einen Sprecher eine speziell auf ihn abgestimmte Vokaltraktlängennormierung
seiner sprachlichen Äußerungen
durchführt.
-
Derartige
sprecherabhängigen
Spracherkennungssysteme werden auch bereits weitgehend in Anwendungen
mit kleinen Benutzerzahlen eingesetzt. Beispiele sind persönliche Diktiersysteme,
z. B. FreeSpeech von Philips, oder die professionellen Diktiersysteme
für geschlossene
Benutzergruppen, z. B. SpeechMagic von Philips für den Bereich der Röntgenologie.
Einer Übertragung
dieser Techniken auf Musterverarbeitungssysteme mit vielen Benutzern
stehen jedoch verschiedene Hemmnisse im Wege.
-
Zum
einen würde
die große
Zahl der Benutzer eines derartigen Systems zu einem hohen Speicherbedarf
für die
benutzerspezifischen Musterverarbeitungsdatensätze führen. Zum anderen muss davon
ausgegangen werden, dass eine größere Zahl der
Benut zer nicht bereit wäre,
den Trainingsaufwand für
die Erstellung ihrer benutzerspezifischen Musterverarbeitungsdatensätze auf
sich zu nehmen. Da sich nämlich
die Musterverarbeitungssysteme der einzelnen Hersteller und teilweise
auch die einzelnen Produkte eines Herstellers voneinander unterscheiden,
und daher die benutzerspezifischen Musterverarbeitungsdatensätze nicht
zwischen den Systemen austauschbar sind, wäre dieser Trainingsaufwand
für nahezu
jedes System nötig,
das ein Benutzer verwenden will.
-
Eine
Lösung
für dieses
Problem, die in dem Dokument
US
5.895.447 A vorgeschlagen wird, besteht darin, in Hinblick
auf die Spracherkennungsleistung für einen Benutzer Sprechergruppen
zu bilden und für
jede Gruppe ein einzelnes sprecherklassenabhängiges Modell zu trainieren.
Wenn die Sprechergruppen ausreichend verfeinert und gut trainiert
sind, kann man eine Spracherkennungsleistung erhalten, die mit der
von sprecherabhängigen
Systemen vergleichbar ist. Wenn jedoch ein Benutzer ein derartiges
System benutzen möchte,
muss das System zuerst herausfinden, welcher Sprechergruppe der
Benutzer zugewiesen werden sollte. Bevor der Benutzer also tatsächlich mit
der Benutzung des Systems mit dem ihm zugewiesenen sprecherklassenabhängigen Modell
beginnen kann, muss er dem System zunächst einige Trainingsäußerungen
liefern, die das System dann verwendet, um den Benutzer einer Sprecherklasse
zuzuweisen. Diese anfängliche
Trainingszeit wird für
jede neue Benutzung des Systems benötigt und ist daher sehr unpraktisch
für den
Benutzer.
-
Um
dieses Problem zu lösen,
wurde daher in der Veröffentlichung „Improving
Speech Recognition Accuracy With Multiple Phonetic Models. IBM Technical
Disclosure Bulletin, IBM Corp. New York, US, Band 38, Nr. 12, 1.
Dezember 1995 (1995-12-01), Seite
73, XP000588077, ISSN: 0018-8689" die
Bildung von phonetischen Modellen ausschließlich anhand von a priori Kriterien
vorgeschlagen, d. h. ohne Berücksichtigung
der Spracherkennungsleistung für einen
Benutzer, jedoch a priori jedem möglichen Benutzer des Systems
bekannt. Beispiele für
derartige phonetische a priori Modelle sind diejenigen, die auf Akzent
oder Dialekt (Sprecher aus verschiedenen Regionen der Vereinigten
Staaten oder der Welt mit leichten oder starken Akzenten), Alter
(Erwachsene, Jugendliche und Kinder) und Geschlecht (männlich und
weiblich) beruhen.
-
Das
Problem dieser Vorgehensweise besteht darin, dass phonetische a
priori Modelle nur in Hinblick auf die durchschnittliche Spracherkennungsleistung
der Mitglieder ausgewählt
werden können, die
zu einem derartigen phonetischen a priori Modell gehören, d.
h. für
einen „typischen" Benutzer eines derartigen
Modells. Es kann also der Fall eintre ten, dass ein spezifischer
Benutzer, obwohl a priori zu einem spezifischen phonetischen Modell
gehörend, weil
er z.B. männlich
ist, bei einem anderen phonetischen Modell wie z.B. dem weiblichen
phonetischen Modell eine bessere Erkennungsleistung haben wurde,
was in diesem Beispiel – männlich versus
weiblich – typischerweise
der Fall bei Männern
ist, die eine hohe Stimme haben. Je verfeinerter die phonetischen
a priori Modelle sind, desto markanter werden diese Probleme. Für das Beispiel
der auf dem Akzent basierenden phonetischen a priori Modelle wird
in der obigen Veröffentlichung
daher vorgeschlagen, nicht a priori einen Benutzer bezüglich seines
Akzentgrads (stark oder leicht) zu fragen, sondern auf Sprechergruppierungsverfahren
analog derjenigen zurückzugreifen,
die in dem Dokument
US
5.895.447 A für
die Bestimmung eines verfeinerten phonetischen Modells vorgeschlagen
wurden.
-
Als
Konsequenz müssen
derartige phonetischen a priori Modelle relativ grob sein und erreichen somit
bei isolierter Verwendung, d.h. ohne mit Sprechergruppierungsverfahren
kombiniert zu werden, neben dem Problem einer geringen Spracherkennungsleistung
für untypische
Benutzer, die a priori zu dem phonetischen Modell gehören, selbst
für typische
Benutzer, die zu diesem phonetischen Modell gehören, niemals eine Spracherkennungsleistung, die
mit der eines sprecherabhängigen
phonetischen Modells vergleichbar ist.
-
In
den Patent Abstracts of Japan, JP 08-123461 A wird daher vorgeschlagen,
dass ein Benutzer eine persönliche
Informationskarte (individual information card) bei sich trägt, welche
die für
ihn charakteristischen Daten (individual information data) aufnimmt.
Um dann die Sprachverarbeitung (speech processing) eines entsprechenden
Systems (speech interface system) auf sich zu spezialisieren (specializing
the system for the individual), schiebt er z. B. seine Informationskarte
in einen Schlitz des Systems. Dieses liest seine Daten von der Karte
und führt
mit ihnen eine benutzerabhängige
Verarbeitung seiner sprachlichen Äußerungen durch.
-
Die
Verwendung einer persönlichen
Informationskarte löst
also die Problematik des hohen Speicherbedarfs und des mehrfachen
Erstellens benutzerspezifischer Daten, vorausgesetzt die Hersteller
der Sprachverarbeitungssysteme unterstützen die Verwendung der Karte
in ihren Systemen. Sie schafft jedoch die Notwendigkeit, dass ein
Benutzer seine Karte zur Systemnutzung stets bei sich führen und
jedes System eine Eingabevorrichtung für die Karte vorsehen muss.
Beispielsweise ist sie für
die Nutzung eines telefonischen Auskunftssystems nicht einsetzbar.
-
Aufgabe
der Erfindung ist es daher, ein Musterverarbeitungssystem, insbe sondere
ein Sprachverarbeitungssystem, der eingangs genannten Art mit einer
den benutzerspezifischen Musterverarbeitungssystemen vergleichbaren
Qualität
zu schaffen, das die Problematik des hohen Speicherbedarfs und des
mehrfachen Erstellens benutzerspezifischer Daten löst, ohne
dass der Benutzer zur Systembenutzung zusätzlicher Ausrüstung wie
z. B. einer Informationskarte bedarf, und das auch mit bisherigen
Benutzerterminals wie z. B. dem Telefon benutzt werden kann.
-
Diese
Aufgabe wird gelöst
einerseits durch ein Verfahren zur Musterverarbeitung, insbesondere zur
Sprachverarbeitung mit den Verfahrensschritten:
- – Entgegennahme
einer eindeutigen Kennzeichnung einer für den Benutzer in Hinblick
auf die Mustererkennungsleistung für den Benutzer in einer Definitionsphase
festgelegten Benutzergruppe und
- – Verwendung
eines für
die genannte Benutzergruppe spezifischen Musterverarbei tungsdatensatzes
für die
Verarbeitung einer Mustereingabe des Benutzers, und andererseits
durch ein Musterverarbeitungssystem, insbesondere ein Sprachverarbeitungssystem,
das
- – zur
Entgegennahme einer eindeutigen Kennzeichnung einer für den Benutzer
in Hinblick auf die Musterverarbeitungsleistung für den Benutzer in
einer Definitionsphase festgelegten Benutzergruppe und
- – zur
Verwendung eines für
die genannte Benutzergruppe spezifischen Musterverarbeitungsdatensatzes
für die
Verarbeitung einer Mustereingabe des Benutzers vorgesehen ist.
-
Durch
die Einteilung der Benutzer in Benutzergruppen wird die Problematik
des hohen Speicherbedarfes vermieden. Darüber hinaus können die
benutzergruppenspezifischen Musterverarbeitungsdatensätze auch
auf zentralen Datenspeichern untergebracht und über ein Netzwerk den Musterverarbeitungsvorrichtungen
zur Verfügung
gestellt werden. Damit ergeben sich durch die Vermeidung mehrfacher
Datenhaltung weitere Möglichkeiten
der Speicherersparnis. Die Mehrfachverwendung der benutzergruppenspezifischen
Musterverarbeitungsdatensätze
in mehreren Systemen vermeidet die Problematik einer mehrfachen
Festlegung der Benutzergruppe für
den Benutzer.
-
Zur
Benutzung des benutzergruppenspezifischen Musterverarbeitungssystems
muss ein Benutzer dem System nur seine Benutzergruppe z. B. durch
eine Nummer oder einen symbolischen Namen mitteilen. Während die
Benutzergruppeninformation auch auf einer Chipkarte untergebracht
werden kann, genügt
es zur Benutzung z. B. eines telefo nischen Auskunftssystems auch,
dem System die Benutzergruppe verbal mitzuteilen oder z. B. bei
einer numerischen Codierung die Nummer über die Tastatur eines DTMF-fähigen Telefons
einzugeben. Damit lässt
sich ein solches benutzergruppenspezifisches Musterverarbeitungssystem
auch ohne zusätzliche
Ausrüstung wie
z. B. einer Informationskarte und auch mit bisherigen Benutzerterminals
wie z. B. einem Telefon benutzen.
-
Die
Festlegung der Benutzergruppe für
einen Benutzer kann, wie in Anspruch 2 beansprucht, in einer Trainingsphase
erfolgen, in welcher der Benutzer z. B. einen vorgegebenen Text
sprechen muss, den ein Trainingssystem aufnimmt und zur Bestimmung
der Benutzergruppe verwendet. Diese Trainingsphase kann unabhängig von
einer Benutzung eines benutzergruppenspezifischen Musterverarbeitungssystems
erfolgen. Sie kann jedoch einem „neuen" Benutzer, d. h. einem Benutzer, dem
noch keine Benutzergruppe zugewiesen wurde, auch bei Benutzung des
Systems angeboten werden. Weiter ist es denkbar, die während der
Systembenutzung anfallenden Mustereingaben des Benutzers, die vielleicht
zunächst
mit einer benutzerunabhängigen Musterverarbeitung
behandelt wurden, für
die erstmalige oder auch die Neufestlegung der Benutzergruppe zu
verwenden. Letzteres könnte
sich ergeben, wenn sich die Mustercharakteristik des Benutzers oder
die Benutzergruppen des Systems verändert haben.
-
Dem
Fachmann sind z. B. aus der Literatur zahlreiche Verfahren aus dem
Bereich der Benutzeradaption bekannt, um eine solche Festlegung
der Benutzergruppe vorzunehmen. Manche dieser Verfahren wie z. B.
die Sprechergruppierung (engl. „speaker clustering") aus der Spracherkennung
führen
dabei unmittelbar zu einer Benutzergruppe. Andere wie z. B. „adaptive
speaker clustering",
MLLR oder MAP aus der Spracherkennung oder auch die „eigenfaces" aus der Bilderkennung
werden üblicherweise
eingesetzt, um benutzerspezifische Musterverarbeitungsdatensätze zu erhalten.
Durch eine Quantelung, d. h. durch eine Beschränkung der benutzerspezifischen
Adaptionsparameter auf bestimmte Stufen, lässt sich jedoch die Auflösung der
Adaptionsverfahren so weit vergröbern,
dass sich die gewünschte
Anzahl an Benutzergruppen einstellt.
-
Im
Anspruch 3 wird definiert, wie die Festlegung der Benutzergruppe
für den
Benutzer durch den Benutzer beeinflussbar ist. Es ist dabei z. B.
denkbar, dass ein System Benutzergruppen unterschiedlicher Güte anbietet.
So kann ein System beispielsweise Benutzergruppen hoher Güte anbieten,
indem es für diese
Gruppen z. B. sehr fein aufgelöste
akustische Referenzmodelle anbietet und sich in einer solchen Benutzergruppe
nur Benutzer sehr ähnlicher
Sprech- und Verhaltensweisen befinden. Dadurch könnten einer sol chen Benutzergruppe
z. B. bei einer Spracherkennung annähernd gute Erkennungsgenauigkeiten geboten
werden, wie dies bei benutzerabhängigen Systemen
der Fall wäre.
Der dazu im System notwendige höhere
Aufwand könnte über eine
entsprechende Preistarifstruktur an die Benutzer weitergegeben werden.
-
Die
abhängigen
Ansprüche
4 und 5 beziehen sich auf zwei vorteilhafte Möglichkeiten der Benutzereingabe.
Zum einen können
Benutzereingaben an einem öffentlichen
Benutzerterminal wie z. B. einem eingangs erwähnten Informationskiosk oder
aber einem Bankautomaten gemacht werden. Zum anderen kann ein Benutzer
ein Telefon oder auch einen PC oder Laptop benutzen, wobei seine
Eingaben über ein
Netzwerk, z. B. das Telefonnetz oder das Internet, übermittelt
werden.
-
Der
abhängige
Anspruch 6 spezifiziert einige mögliche
Bestandteile eines benutzergruppenspezifischen Musterverarbeitungsdatensatzes:
- – eine
benutzergruppenspezifische Sprache und/oder Dialekt,
- – eine
benutzergruppenspezifische Merkmalsextraktion, insbesondere eine
benut zergruppenspezifische Vokaltraktlängennormierung,
- – ein
benutzergruppenspezifisches akustisches Referenzmodell,
- – ein
benutzergruppenspezifisches Vokabular,
- – ein
benutzergruppenspezifisches Sprachmodell und/oder
- – ein
benutzergruppenspezifisches Dialogmodell.
-
Dies
sind typische Bestandteile eines solchen Datensatzes, der beispielsweise
für eine
benutzergruppenspezifische Spracherkennung verwendet werden kann.
Dabei können
die akustischen Referenzmodelle z. B. in der Form so genannter Hidden-Markov-Modelle für die Laute
einer Sprache vorliegen. Benutzergruppenspezifische Vokabularien enthalten
z. B. die typischerweise von einer Benutzergruppe für eine Anwendung
verwendeten Wörter. Sprachmodelle
können
alle Beziehungen zur Bildung einer Wortfolge also beispielsweise
auch grammatische Regeln oder semantische Präferenzen der Benutzergruppe
umfassen, während
Dialogmodelle die kennzeichnenden Muster der Interaktion zwischen dem
System und Benutzern einer Benutzergruppe angeben.
-
Neben
der Spracherkennung umfasst die Erfindung auch andere Arten der
benutzergruppenspezifischen Musterverarbeitung wie beispielsweise
die benutzergruppenspezifische Sprachcodierung, z. B. durch Verwendung
benutzergruppenspezifischer Codebücher. Aber auch die benutzergruppenspezifische
Handschrifterkennung und Mimikverarbeitung, z. B. in Systemen zum „Online-Chatten" mit animierten Charakteren,
so genannten Avataren, fällt
in den Bereich der Erfindung.
-
In
Anspruch 7 wird beansprucht, das System zur Beschaffung von Informationen
wie z. B. Fahrplan- oder touristischen Auskünften zu benutzen. Weiter wird
beansprucht, das System zu verwenden für die Vergabe von Aufträgen wie
z. B. für
das Tätigen
von Einkäufen
an einem Automaten oder das Erledigen von Bankgeschäften über das
Internet.
-
Diese
und weitere Aspekte und Vorteile der Erfindung werden im Folgenden
unter Bezugnahme auf die Ausführungsbeispiele
und insbesondere unter Bezugnahme auf die beigefügten Zeichnungen näher erläutert. Es
zeigen:
-
die 1 und 2 Ausführungsformen
des erfindungsgemäßen benutzergruppenspezifischen Musterverarbeitungssystems,
-
3 eine
schematische Darstellung des Inhalts eines Datenspeichers für die benutzergruppenspezifischen
Musterverarbeitungsdatensätze,
-
4 den
Ablauf einer Benutzung eines erfindungsgemäßen benutzergruppenspezifischen Musterverarbeitungssystems
in Form eines Ablaufplans.
-
1 zeigt
eine Ausführungsform
des erfindungsgemäßen benutzergruppenspezifischen
Musterverarbeitungssystems, das für die Benutzereingaben ein öffentliches
Benutzerterminal 10 vorsieht. Typische Anwendungen einer
solcher Ausführungsform der
Erfindung sind die Erledigung von Bankgeschäften an Bankautomaten 10,
der Abruf von Informationen an den eingangs erwähnten Informationskiosken 10 oder
auch der Kauf von Fahrkarten an Fahrkartenautomaten 10.
-
Das öffentliche
Benutzerterminal 10 verfügt über eine graphische Ausgabeeinheit
(Display) 11, eine Eingabetastatur 12, ein Mikrofon 13 zur
Eingabe sprachlicher Äußerungen
eines Benutzers und einen Eingabeschlitz 14 für eine benutzereigene
Chipkarte 70, z. B. eine EC- oder Kundenkarte. Weiterhin
enthält
es eine lokale Spracherkennungsvorrichtung 42, die über einen
lokalen Datenspeicher 32 zur Speicherung von benutzergruppenspezifischen
Musterverarbeitungsdatensätzen
zur benutzergruppenspezifischen Sprachverarbeitung verfügt. Auf
der benutzereigenen Chipkarte 70, die zur Benutzung des
Systems in den Eingabeschlitz 14 eingeschoben wird, befindet
sich z. B. ein Chip 71 zur Speicherung für die Anwendung
typischer Daten, beispielsweise für eine Bankkarte die Kontonummer
des Girokontos, sowie ein weiterer Chip 72 zur Speicherung
einer eindeutigen Kennzeichnung der für die benutzergruppenspezifische
Sprachverarbeitung festgeleg ten Benutzergruppe des Benutzers.
-
Eine
derartige eindeutige Kennzeichnung kann z. B. aus einer Nummer bestehen,
denkbar ist aber auch ein symbolischer Name, beispielsweise der
Name einer öffentlich
bekannten Person, die ebenfalls zu dieser Benutzergruppe gehört, so dass ihre
Sprachverarbeitungscharakteristik typisch für die Benutzergruppe ist. Einen
derartigen symbolischen Name aber auch eine Nummer kann sich ein
Benutzer gut merken, so dass eine derartige eindeutige Kennzeichnung
dem Musterverarbeitungssystem auch ohne Hilfe einer Chipkarte z.
B. über
das Mikrofon 13 oder die Eingabetastatur 12 übermittelt
werden kann. In diesem Fall entfiele dann der Chip 72 auf
der Chipkarte 70. Weiter können alle Informationen auf
der Chipkarte 70 inklusive einer eventuellen Benutzergruppenkennzeichnung
auch auf einem einzigen Chip 71 untergebracht werden.
-
Speichert
man alle benutzergruppenspezifischen Musterverarbeitungsdatensätze auf
dem lokalen Datenspeicher 32, so kann die lokale Spracherkennungsvorrichtung 42 vollständig unabhängig lokal arbeiten.
Ein derartiger „Stand
alone"-Automat eignet sich
z. B. besonders gut für
den Verkauf von Zigaretten oder anderen direkt im Automaten verfügbaren Waren.
Das öffentliche
Benutzerterminal 10 kann aber auch über ein Netzwerk 20 mit
weiteren Datenspeichern 30 ... 31 zur Speicherung
von benutzergruppenspezifischen Musterverarbeitungsdatensätzen zur
benutzergruppenspezifischen Spracherkennung verbunden werden. Bei
dem Netzwerk 20 kann es sich dabei z. B. um ein privates
MAN (Metropolitan Area Network), beispielsweise das Netzwerk einer Bank,
handeln. Das Netzwerk 20 kann aber auch durch ein öffentliches
Netzwerk und insbesondere durch das Internet realisiert werden.
Als Mischform sind auch beispielsweise auf Basis des Internets verwirklichte
VPNs (Virtual Private Networks) möglich.
-
2 zeigt
eine weitere Ausführungsform des
erfindungsgemäßen benutzergruppenspezifischen
Musterverarbeitungssystems. Wie in 1 sind wieder
das Netzwerk 20 und die daran angeschlossenen Datenspeicher 30 ... 31 dargestellt.
Im Gegensatz zu 1 sind jedoch auch die Spracherkennungsvorrichtungen 40 ... 41 an
das Netzwerk 20 angeschlossen. Die Benutzereingaben erfolgen
hier an einem öffentlichen
Benutzerterminal 10, das jedoch im Gegensatz zu 1 über keine
lokale Spracherkennungsvorrichtung 42 mit lokalem Datenspeicher 32 verfügt, oder über ein
Telefon 60 oder auch über
einen PC, Laptop oder dergleichen 50, die alle dafür am Netzwerk 20 angeschlossen
sind bzw. dazu damit verbunden werden können. Diese und andere Eingabemöglichkeiten
wie z. B. das in 1 gezeigte öffentliche Benutzerterminal 10 mit
lokaler Spracherkennungs vorrichtung können in einem benutzergruppenspezifischen
Musterverarbeitungssystem alle oder auch nur teilweise verwirklicht
werden.
-
Die
in den 1 und 2 dargestellten Szenarien unterscheiden
sich also vor allem in der Anordnung der Spracherkennungsvorrichtung 42 bzw. 40 ... 41,
in der die Erkennung der sprachlichen Äußerungen eines Benutzers erfolgt.
Die in 1 lokal im öffentlichen
Benutzerterminal 10 untergebrachte Spracherkennungsvorrichtung 42 eignet
sich besonders für
den Fall, dass nur einfache Kommandos erkannt werden müssen und
das öffentliche
Benutzerterminal 10 hauptsächlich von immer denselben
Kunden benutzt wird. In diesem Fall genügt eine relativ einfache und
kostengünstige
Spracherkennungsvorrichtung 42 und zur benutzergruppenspezifischen
Spracherkennung können
die benutzergruppenspezifischen Musterverarbeitungsdatensätze der Hauptnutzer
auf dem lokalen Datenspeicher 32 der Spracherkennungsvorrichtung 42 gehalten
werden. Weitere benutzergruppenspezifischen Musterverarbeitungsdatensätze, die
z. B. von durchreisenden Benutzern benötigt werden und die nicht lokal
im Datenspeicher 32 vorhanden sind, werden von den über das
Netzwerk 20 angeschlossenen Datenspeichern 30 ... 31 geladen.
Dadurch ergibt sich insgesamt nur eine geringe Belastung des Netzwerkes 20.
-
In 2 erfolgt
die Spracherkennung der sprachlichen Äußerungen eines Benutzers in
den über
das Netzwerk angeschlossenen Spracherkennungsvorrichtungen 40 ... 41.
Dies ist sinnvoll bei komplexeren Sprachäußerungen, die eine hohe Erkennungsleistung
erfordern und/oder bei ständig wechselnden
Benutzern. Durch die Bündelung
der Spracherkennungsaufgaben und der Datenhaltung ergeben sich Vorteile
in der Maschinenauslastung, dem benötigten Speicherplatz und dem
nötigen
Datenverkehr über
das Netzwerk 20. So kann es z. B. sinnvoll sein, innerhalb
des Netzwerkes 20 die Spracherkennungsvorrichtungen 40 ... 41 untereinander und
mit den Datenspeichern 30 ... 31 mit einem breitbandigen
Subnetz zu verbinden. Auch kann es gegebenenfalls von Vorteil sein,
die Erkennung der sprachlichen Äußerungen
einzelner Benutzer möglichst
immer derselben Spracherkennungsvorrichtung 40 ... 41 zuzuweisen,
die dann die benutzergruppenspezifischen Musterverarbeitungsdatensätze dieser
Benutzer wieder in lokalen Datenspeichern halten kann.
-
Neben
den gerade erwähnten
Ausführungsbeispielen
des Systems sind für
den Fachmann je nach Einsatzgebiet auch viele weitere Varianten ohne
weiteres ausführbar.
Hier soll daher nur noch die Technik der gespiegelten Datenhaltung
erwähnt werden,
die hinreichend aus der Lehre der verteilten Datenbanken bekannt
ist. Dabei werden die Daten eines Benutzers, d. h. hier einer Benutzergruppe,
in mehreren, in der Regel räumlich
weit getrennten Datenspeichern, z. B. in 1 in den
Speichern 32 und 30 ... 31, gehalten,
um dem Benutzer auch bei hoher Belastung des Netzwerkes 20 schnellen
Zugriff auf seine Daten zu gestatten. Die Konsistenz der Datenhaltung
in den einzelnen Speichern wird dann durch geeignete Synchronisationsprozeduren
sichergestellt, die weniger zeitkritisch sind und ggf. zu Zeiten geringerer
Netzwerkbelastung abgearbeitet werden können.
-
Eine
nächste
Ausführungsform
der Erfindung ergibt sich, wenn die benutzergruppenspezifischen
Musterverarbeitungsdatensätze
zur benutzergruppenspezifischen Musterverarbeitung nicht in systemeigenen
Datenspeichern gehalten werden, sondern beispielsweise von einem
dritten Provider oder auch von einem Benutzer selbst (für seine
eigene Benutzergruppe) zur Verfügung
gestellt werden. Im ersten Fall können sich dritte Unternehmen
auf das Erstellen, Verwalten und/oder Aktualisieren der benutzergruppenspezifischen
Musterverarbeitungsdatensätze
spezialisieren, um diese dann z. B. gegen Lizenzgebühren den
Betreibern der benutzergruppenspezifischen Musterverarbeitungssysteme
zur Verfügung
zu stellen. Dritte Unternehmen können sich
aber auch um die Festlegung der Benutzergruppenzugehörigkeit
für die
Benutzer kümmern.
-
Im
zweiten Fall würde
ein Benutzer selbst die benutzergruppenspezifischen Musterverarbeitungsdatensätze seiner
Benutzergruppe z. B. aus einem der Datenspeicher 32, 30 ... 31 eines
benutzergruppenspezifischen Musterverarbeitungssystems herunterladen.
Bei Benutzung eines anderen benutzergruppenspezifischen Musterverarbeitungssystems, das
nicht selbst über
die benutzergruppenspezifischen Musterverarbeitungsdatensätze seiner
Benutzergruppe verfügt,
kann er diese Daten dann auf dem Laptop 50 dem System zur
Verfügung
stellen. Allgemein kann er sie jedoch auch über einen an das Netzwerk 20,
also insbesondere an das Internet angeschlossenen PC zur Verfügung stellen,
wobei er dann dem System die Adresse dieses PCs mitteilen würde. In
diesem Szenario übernimmt
damit die Mitteilung der Adresse des PCs oder Laptops 50 die Aufgabe
des Mitteilens der eindeutigen Kennzeichnung der Benutzergruppe.
-
Während in
den obigen Ausführungsbeispielen
als Benutzerendgeräte
zum Systemzugang öffentliche
Benutzerterminals 10 mittlerer Komplexität, Telefone 60 und
PCs oder Laptops 50 benutzt wurden, sind auch andere Lösungen möglich. Beispiele sind
Mobiltelefone und Informationskioske mit komplexen multimedialen
Interaktionsmöglichkeiten
wie Touchscreens, Kameras, Lautsprechern, etc.
-
3 zeigt
eine schematische Darstellung des Inhalts eines Datenspeichers 30 für die benutzergruppenspezifischen
Musterverarbeitungsdatensätze 80 ... 81.
Bei dem Datenspeicher 30, der hier stellvertretend steht
sowohl für
die lokalen Datenspeicher 32 wie auch für die am Netzwerk 20 angeschlossenen
weiteren Datenspeicher 30 ... 31, handelt es sich um
einen bekannten Computerdatenspeicher, z. B. eine Festplatte. Die
benutzergruppenspezifischen Musterverarbeitungsdatensätze 80 ... 81 können in Form
einzelner Dateien vorliegen, die in für das benutzergruppenspezifische
Musterverarbeitungssystem geeigneter Weise z. B. binär codiert
sind. Möglich
ist aber auch eine Organisation in Form einer Datenbank oder dergleichen.
-
4 zeigt
einen möglichen
Ablauf einer Benutzung eines erfindungsgemäßen benutzergruppenspezifischen
Musterverarbeitungssystems in Form eines Ablaufplans. Dabei wird
nur auf die Vorgänge
eingegangen, die für
die benutzergruppenspezifische Musterverarbeitung von Bedeutung
sind, während
anwendungsspezifische Aktionen wie z. B. das Mitteilen einer Kontonummer
und einer PIN für eine
Bankanwendung hier nicht dargestellt sind.
-
Nach
dem Startblock 101 fordert das benutzergruppenspezifische
Musterverarbeitungssystem einen Benutzer im Prozessblock 102 auf,
ihm seine Benutzergruppe bekannt zu geben, d. h. dem System eine
eindeutige Kennzeichnung der für
den Benutzer festgelegten Benutzergruppe für die benutzergruppenspezifische
Musterverarbeitung zu übergeben. Nach
dem Entscheidungsblock 103 verzweigt die weitere Bearbeitung,
je nachdem, ob dem Benutzer seine Benutzergruppe bekannt ist oder
nicht.
-
Kennt
der Benutzer seine Benutzergruppe, so teilt er diese im Block 104 dem
System mit, indem er z. B. in den Szenarien der 1 und 2 die Chipkarte 70 in
den Eingabeschlitz 14 eines öffentlichen Benutzerterminals 10 schiebt,
die Eingabetastatur 12 oder das Mikrofon 13 des öffentlichen
Benutzerterminals 10 benutzt oder die Benutzergruppe über ein
Telefon 60 oder einen Laptop 50 dem System bekannt
gibt. Das System sucht dann im Block 105 den zur Benutzergruppe
des Benutzers gehörigen
benutzergruppenspezifischen Musterverarbeitungsdatensatz in einem
Datenspeicher 32, 30 ... 31 auf und stellt
ihn einer Musterverarbeitungsvorrichtung 42, 40 ... 41 zur
Verfügung.
-
Kennt
dagegen der Benutzer seine Benutzergruppe nicht, so fragt ihn das
System im Block 106, ob er möchte, dass das System jetzt
eine Benutzergruppe für
ihn festlegen soll. Möchte
er dies, so sammelt das System im Block 107 Trainingsmustereingaben
des Benutzers und verarbeitet diese zur Festlegung einer Benutzergruppe
für den
Benutzer. Im Block 108 wird dem Benutzer die so festgelegte
Benutzergruppe mitgeteilt und die Kon trolle geht über an den
schon beschriebenen Block 105, in dem der zur Benutzergruppe
des Benutzers gehörige
benutzergruppenspezifische Musterverarbeitungsdatensatz in einem
Datenspeicher 32, 30 ... 31 aufgesucht
und einer Musterverarbeitungsvorrichtung 42, 40 ... 41 zur
Verfügung
gestellt wird.
-
Möchte der
Benutzer jetzt aber keine Benutzergruppe für sich festlegen lassen, z.
B. weil er dazu jetzt keine Zeit hat oder weil ihm bereits eine
Benutzergruppe zugewiesen wurde, deren eindeutige Kennzeichnung
er jedoch im Moment nicht zur Verfügung hat, so verzweigt die
Kontrolle nach Block 106 zu Block 109. Dort wird
ein benutzerunabhängiger
Musterverarbeitungsdatensatz in einem Datenspeicher 32, 30 ... 31 aufgesucht
und einer Musterverarbeitungsvorrichtung 42, 40 ... 41 zur
Verfügung
gestellt, so dass die nachfolgenden Musterverarbeitungsschritte
dann unabhängig
von den speziellen Charakteristika des Benutzers durchgeführt werden.
-
Der
der Musterverarbeitungsvorrichtung 42, 40 ... 41 in
einem der Blöcke 105 bzw. 109 zur
Verfügung
gestellte benutzergruppenspezifische bzw. benutzerunabhängige Musterverarbeitungsdatensatz kann
dabei noch von weiteren Bedingungen abhängen. So kann beispielsweise
für unterschiedliche
Anwendungen, unterschiedliche Umgebungsbedingungen, also z. B. unterschiedliche
Hintergrundgeräusche
bei Spracherkennung, oder unterschiedliche Terminals für die Benutzereingaben,
wie Mikrofontyp bei Spracheingabe oder Kameratyp bei Gestikerkennung,
ein jeweils daran angepasster Musterverarbeitungsdatensatz verwendet
werden.
-
Nach
den jeweiligen Blöcken 105 bzw. 109 erfolgt
im Block 110 die Verarbeitung einer Mustereingabe des Benutzers,
d. h. der Benutzer wird zu einer Mustereingabe aufgefordert und
die Mustereingabe wird aufgenommen und verarbeitet. Bei solchen
Mustereingaben kann es sich um über
ein Mikrofon 13 oder ein Telefon 60 eingegebene
sprachliche Äußerungen
handeln. Möglich
sind aber auch Eingaben von handschriftlichem Text und/oder Zeigeereignissen
zur Auswahl eines auf dem Display 11 angebotenen Menüpunktes.
Dazu ließe
sich beispielsweise das Display 11 des öffentlichen Benutzerterminals 10 als
Touchscreen ausführen
und/oder man könnte
das öffentliche
Benutzerterminal 10 mit einer Kamera ausrüsten.
-
Optional
können
die im Block 110 gemachten Mustereingaben des Benutzers
auch zwischengespeichert und z. B. zur Überprüfung der Benutzergruppenfestlegung
für den
Benutzer herangezogen werden. Sind ausreichend Benutzereingaben
für eine solche Überprüfung gesammelt
worden und wird festgestellt, dass die momentane Benutzergrup penfestlegung
für den
Benutzer unter Musterverarbeitungsgesichtspunkten nicht optimal
ist, so kann das System in Absprache mit dem Benutzer einen besser geeigneten
benutzergruppenspezifischen Musterverarbeitungsdatensatz in eine
Musterverarbeitungsvorrichtung 42, 40 ... 41 laden,
um damit die weiteren Musterverarbeitungsschritte durchzuführen. Ein
derartiges Vorgehen ist z. B. auch dann durchführbar, wenn die bisherige Musterverarbeitung
mit einem benutzerunabhängigen
Musterverarbeitungsdatensatz durchgeführt wurde.
-
Im
Block 111 werden die der Mustereingabe des Benutzers entsprechenden
Aktionen durchgeführt,
so z. B. bei einer Bankanwendung Kontostände auf dem Display 11 des öffentlichen
Benutzerterminals 10 dargestellt. Gegebenenfalls können aber auch
Rückfragen
an den Benutzer gestellt werden. Auch kann der Benutzer zu weiteren
Eingaben wie z. B. einer fehlenden Bankleitzahl aufgefordert werden.
-
Im
Block 112 wird entschieden, ob die Interaktion mit dem
Benutzer beendet ist. Ist dies nicht der Fall, so kehrt die Kontrolle
wieder zu Block 110 zurück,
um die nächste
Mustereingabe des Benutzers zu verarbeiten. Ist die Interaktion
mit dem Benutzer dagegen beendet, so wird jede neue bzw. veränderte Benutzergruppe
für den
Benutzer in den Datenspeichern 32, 30 ... 31 gespeichert,
sofern diese Daten bisher beispielsweise nur lokal in einer der
Spracherkennungsvorrichtungen 42, 40 ... 41 gehalten
wurden. Danach beendet das System im Block 114 die Bearbeitung
der Benutzereingaben.
-
Die
Beendigung der Interaktion mit dem Benutzer im Block 112 kann
z. B. durch die Erkennung einer bejahenden Antwort des Benutzers
im Block 110 auf eine entsprechende vorherige Systemfrage erfolgen.
Alternativ oder zusätzlich
kann man jedoch auch eine Abbruchtaste auf der Eingabetastatur 12 des öffentlichen
Benutzerterminals 10 vorsehen, die zu jedem Zeitpunkt der
Mensch-Maschine-Kommunikation betätigt werden kann. Weitere,
für den
Fachmann nahe liegende Abwandlungen sind denkbar.
-
In
den Blöcken 107 und 113 wurde
die Möglichkeit
vorgesehen, eine Benutzergruppenfestlegung für den Benutzer während einer
derartigen Mensch-Maschine-Kommunikation
neu zu erstellen, sowie in den Blöcken 110 und 113 eine
derartige Benutzergruppenfestlegung zu modifizieren. Die Erstellung
oder Modifikation der Benutzergruppenfestlegung muss aber nicht
im Rahmen einer Benutzung des Systems z. B. zur Erledigung von Bankgeschäften erfolgen,
sondern kann auch separat für
sich vorgenommen werden.
-
Diese
Möglichkeit
erscheint z. B. besonders interessant für eines der in 2 dargestellten
Szenarien, in dem ein Benutzer in Ruhe von zu Hause aus seine Benutzer gruppe
festlegen lassen kann. Dabei kann er dann beispielsweise von einem
Systembetreiber zur Verfügung
gestellte Software lokal auf seinem Laptop 50 einsetzen
und/oder die z. B. über
das Internet erreichbare Infrastruktur des Betreibers wie Prozessoren,
Programme und/oder Datenspeicher benutzen. Aber auch das in 4 beschriebene
Szenario der Benutzergruppenfestlegung direkt am öffentlichen
Benutzerterminal 10 hat seine Berechtigung, da diese Festlegung
besser an die Benutzungsverhältnisse
dieser Maschine wie z. B. Mikrofon- oder Kameraeigenschaften oder
Umgebungsgeräusche
angepasst ist.
-
Während in 4 wesentliche
Aspekte eines erfindungsgemäßen Verfahrens
zur benutzergruppenspezifischen Musterverarbeitung erläutert wurden,
ist es für
den Fachmann offensichtlich, dass ein derartiges Verfahren in der
Praxis noch weitere Mechanismen beispielsweise zur Behandlung von Fehlersituationen
enthalten muss. So kann es z. B. vorkommen, dass einem System die
von einem anderen System festgelegte Benutzergruppe eines Benutzers
nicht bekannt ist. Dann kann das System sich zur Fehlerbehandlung
beispielsweise genauso verhalten wie in dem ab Block 106 beschriebenen
Fall, dass dem Benutzer seine Benutzergruppe z. Z. nicht bekannt
ist.