DE19635754A1 - Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung - Google Patents
Sprachverarbeitungssystem und Verfahren zur SprachverarbeitungInfo
- Publication number
- DE19635754A1 DE19635754A1 DE19635754A DE19635754A DE19635754A1 DE 19635754 A1 DE19635754 A1 DE 19635754A1 DE 19635754 A DE19635754 A DE 19635754A DE 19635754 A DE19635754 A DE 19635754A DE 19635754 A1 DE19635754 A1 DE 19635754A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- recognition
- output
- module
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims description 50
- 230000008449 language Effects 0.000 claims description 36
- 238000001514 detection method Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 2
- 230000009471 action Effects 0.000 description 139
- 238000011161 development Methods 0.000 description 23
- 230000018109 developmental process Effects 0.000 description 23
- 235000013601 eggs Nutrition 0.000 description 18
- 238000005352 clarification Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000011835 investigation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000010006 flight Effects 0.000 description 3
- 238000004886 process control Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000000306 component Substances 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101150087426 Gnal gene Proteins 0.000 description 1
- 102000002067 Protein Subunits Human genes 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 235000013324 preserved food Nutrition 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
In üblichen Sprachverarbeitungssystemen beispielsweise für
telefonbasierte Anwendungen werden verschiedenste Möglichkei
ten der sprachlichen Eingabe und Ausgabe angeboten. Dies
reicht von der Erkennung von einzeln gesprochenen Ziffern und
einer meist begrenzten Anzahl von Kommandowörtern bis zur
Eingabemöglichkeit fließend gesprochener Äußerungen. Die Aus
gabemöglichkeiten reichen vom Ausgeben komplett aufgenommener
Äußerungen bis zu rein synthetisch erzeugter akustischer Aus
gabe von Texten aus beispielsweise abgespeicherten Phonemen.
Anwendungen von Sprachverarbeitungssystemen im industriellen,
öffentlichen sowie im privaten Bereich sind mit sehr unter
schiedlichen Anforderungen sowohl an die Spracheingabe als
auch an die Sprachausgabe konfrontiert. Dies ist bedingt
durch die Vielfalt der Anwendungsmöglichkeiten und der damit
von den Sprachverarbeitungssystemen zu lösenden sprachlichen
Aufgaben.
Dies gilt ebenso für Sprachdialogsysteme, bei denen das
Sprachverarbeitungssystem mit dem Benutzer des Sprachverar
beitungssystems in einem beliebig aus gestalteten Dialog
steht.
Bei einer Anwendung im Bereich von Sprachverarbeitungssyste
men kann es beispielsweise erforderlich sein, daß zu einem
Zeitpunkt vom Benutzer eine Ziffer einzeln abgefragt wird, zu
einem anderen Zeitpunkt innerhalb desselben Dialoges aber von
dem Benutzer ein Datum eingegeben werden kann und vom Sprach
verarbeitungssystem verarbeitet werden soll.
Ebenso kann bei der Ausgabe an einer Stelle die Ausgabe einer
Sprachkonserve ausreichend sein, während an anderer Stelle
eines Anwendungsszenarios durch die hohe Variabilität des
auszugebenden Textes eine Sprachsynthese geeigneter ist.
Desweiteren können zu verschiedenen Zeitpunkten verschiedene
Leistungsmerkmale von Spracherkennern vom Betreiber als er
forderlich erachtet werden, wie z. B. die Unterbrechbarkeit
der Systemausgabe wünschenswert sein kann, wohingegen an an
derer Stelle jedoch der Benutzer die Ausgabe vollständig an
hören sollte.
Um eine möglichst effiziente Verwendung der spezialisierten,
bekannten Algorithmen zur Spracherkennung und zur Sprachaus
gabe und auch Sprachdialogsysteme mit komplexeren Erken
nungseigenschaften und Ausgabeeigenschaften als beispielswei
se zur einfachen Ziffernerkennung oder nur zur isolierten Er
kennung von einer kleinen Anzahl von Kommandowörtern, war es
bisher üblich, die Systeme in einer Weise zu erstellen, daß
durch die besondere Auswahl von technischen Methoden und spe
zifischen softwaretechnischen Maßnahmen den spezifischen An
forderungen an die Spracherkennung bzw. an die Sprachausgabe
Rechnung getragen wurde.
Dies erfordert jedoch einen großen personellen Aufwand von
Experten, die für jede neue Anwendungssituation in der Regel
neu zu erbringen ist. Durch diese Vorgehensweise wird eine
effiziente wirtschaftliche Nutzung von Sprachverarbeitungssy
stemen erheblich behindert.
Im Telefonbereich existieren Dialogsysteme, bei denen eine
Auswahl beispielsweise über sog. DTMF-Töne und einfache Nen
nung von Ziffern oder einiger, weniger vorgegebener Kommando
worte erfolgt.
Jedoch ist der Aufwand für eine neue Entwicklung eines
Sprachverarbeitungssystems bzw. eines Sprachdialogsystems mit
den bisherigen Verfahren und Systemen sehr aufwendig.
Somit liegt der Erfindung das Problem zugrunde, ein Sprach
verarbeitungssystem sowie ein Verfahren zur Sprachverarbei
tung anzugeben, mit dem eine optimale, kontextangepaßte Nut
zung von Spracherkennungsmodulen und/oder Sprachausgabemodu
len unter Verminderung benötigter Rechenkapazität erreicht
wird.
Das Problem wird durch das Sprachverarbeitungssystem gemäß
Patentanspruch 1 sowie durch das Verfahren gemäß Patentan
spruch 8 gelöst.
Das Sprachverarbeitungssystem weist mehrere Spracherkennungs
module und/oder Sprachausgabemodule auf, die jeweils für eine
vorgebbare Art einer Spracherkennung bzw. einer Sprachausgabe
vorgesehen sind. Ferner weist das Sprachverarbeitungssystem
ein Mittel zur Auswahl eines Spracherkennungsmoduls und/oder
Sprachausgabemoduls auf. Durch das Mittel wird abhängig von
einem Eingabesignal, welches dem Mittel zugeführt wird, das
jeweilige Spracherkennungsmodul bzw. Sprachausgabemodul aus
gewählt, aktiviert und das entsprechende Sprachsignal bzw.
die erforderlichen Parameter werden dem jeweiligen Modul zu
geführt. Die Spracherkennung bzw. die Sprachausgabe wird dann
von dem jeweiligen Modul ausgeführt.
Bei dem Verfahren wird ein Eingabesignal analysiert mit dem
beschrieben wird, welche Art von Spracherkennung bzw. Sprach
ausgabe benötigt wird. Abhängig von dem Eingabesignal wird
mindestens ein Spracherkennungsmodul und/oder mindestens ein
Sprachausgabemodul für die jeweils durch das Eingabesignal
beschriebene Spracherkennung bzw. Sprachausgabe, aktiviert.
Mit dem jeweils ausgewählten bzw. aktivierten Modul wird die
jeweilige Art der Spracherkennung bzw. Sprachausgabe durchge
führt.
Sowohl das Sprachverarbeitungssystem als auch das Verfahren
weisen eine Vielzahl erheblicher Vorteile gegenüber dem Stand
der Technik auf.
Der Bedarf an Rechenkapazität bzw. an Verarbeitungsressourcen
für die Spracherkennung bzw. zur Sprachausgabe wird erheblich
reduziert, da abhängig von der jeweils benötigten Anwendungs
situation das für die Situation optimal angepaßte Modul zur
Spracherkennung bzw. zur Sprachausgabe verwendet wird.
Auch bei der Erstellung von Sprachdialogsystem ist das
Sprachverarbeitungssystem zur Entwicklungsunterstützung sehr
vorteilhaft einsetzbar. Besondere Vorteile bietet dieses
Sprachverarbeitungssystem in diesem Bereich, da eine schnelle
und einfache Anpassung der vorhandenen technischen Spracher
kennungsverfahren und Sprachausgabeverfahren an die jeweili
gen spezifischen Erfordernisse der Anwendungssituation mög
lich ist.
Weiterhin wird eine flexible, der spezifischen Dialogssitua
tion angepaßte Nutzung von deren unterschiedlichen Fähigkei
ten und Leistungsmerkmalen erreicht. Auch ist eine flexible
Anpassung der Spracherkennungsleistung und Sprachausgabelei
stung an die bei den Benutzern in der spezifischen Dialogsi
tuation verfügbaren Ressourcen, beispielsweise der verfügba
ren Rechnerkapazität möglich.
Somit stellt das Sprachverarbeitungssystem ein bedeutendes
Mittel dar zur bedarfsgerechten Konfiguration und Anpassung
von Spracheingabe und Sprachausgabe in verschiedensten Anwen
dungssituationen.
Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus
den abhängigen Ansprüchen.
Es ist in einer Weiterbildung des Sprachverarbeitungssystems
sehr vorteilhaft, bestimmte Algorithmen, also bestimmte Teile
der Module gemeinsam zu verwenden, wodurch eine redundante
Realisierung lediglich eigentlich nur einmal benötigter Algo
rithmen vermieden wird.
Auch ist eine vorteilhafte Weiterbildung darin zu sehen, daß
mehrere Spracherkennungsmodule gemeinsame Resourcen verwen
den, beispielsweise gemeinsame Lexika für die Spracherken
nung. Dies führt zu einer erheblichen Einsparung von Ressour
cen, z. B. von Speicherbedarf.
Weiterhin ist es vorteilhaft, eine Dialoglaufsteuerung vorzu
sehen, mit der ein Dialog des Sprachverarbeitungssystems mit
einem Benutzer realisiert werden kann.
Ein Ausführungsbeispiel der Erfindung ist in den Figuren dar
gestellt und wird im weiteren näher erläutert.
Es zeigen
Fig. 1 das Sprachverarbeitungssystem mit einigen Weiter
bildungen
Fig. 2 ein Blockdiagramm, in dem die Dialogablauf
steuerung dargestellt ist;
Fig. 3 ein Ablaufdiagramm, in dem ein mögliches Verfahren,
welches zur Dialogablaufsteuerung durchgeführt
wird, dargestellt ist;
Fig. 4 ein Ablaufdiagramm, in dem das erfindungsgemäße
Verfahren dargestellt ist.
In Fig. 1 ist das Sprachverarbeitungssystem dargestellt. Das
Sprachverarbeitungssystem weist mindestens ein Spracherken
nungsmodul E1, E2, Ei, . . . , En auf. Mit einem Index i, einer
beliebigen Zahl zwischen 1 und n, wird jeweils das Spracher
kennungsmodul Ei eindeutig gekennzeichnet. Mit n wird eine
Anzahl von Spracherkennungsmodulen in dem Sprachverarbei
tungssystem bezeichnet.
Ferner weist das Spracherkennungssystem zusätzlich oder al
ternativ mindestens ein Sprachausgabemodul A1, A2, Aj, . . . ,
Am auf. Mit einem zweiten Index j, einer beliebigen Zahl zwi
schen 1 und m, wird jedes Sprachausgabemodul Aj eindeutig ge
kennzeichnet. Mit m wird eine Anzahl von Sprachausgabemodulen
in dem Sprachverarbeitungssystem bezeichnet.
Ferner weist das Sprachverarbeitungssystem ein Mittel MA zur
Auswahl der Spracherkennungsmodule Ei bzw. der Sprachausgabe
module Aj auf. Das Mittel MA zur Auswahl der Module ist mit
den einzelnen Modulen Ei, Aj gekoppelt, so daß von dem Mittel
MA zur Auswahl der Module Ei, Aj an die einzelnen Module Ei,
Aj Signale gesendet werden können, beispielsweise zur Akti
vierung der einzelnen Module Ei, Aj oder auch zur Übergabe
von Parametern, die von den einzelnen Modulen zur Durchfüh
rung der Spracherkennung oder der Sprachausgabe benötigt wer
den.
Grundlagen über die Spracherkennung sind beispielsweise in
den Dokumenten [1] und [2] beschrieben.
Die einzelnen Spracherkennungsmodule E1, E2, . . . , En sind Mo
dule, die jeweils auf eine bestimmte Art der Spracherkennung
spezialisiert sind.
Die einzelnen Spracherkennungsmodule Ei können beispielsweise
durch Hardware oder auch durch einzelne Softwareprozeduren
realisiert sein.
Im folgenden wird eine keineswegs abschließend zu betrachten
de Übersicht über vorgesehene Spracherkennungsmodule Ei gege
ben, die im Rahmen des Sprachverarbeitungssystems verwendet
werden können.
Ist ein Spracherkennungsmodul Ei als ein Einzelziffererkenner
ausgebildet, so ist es derart ausgestaltet, als Eingabe ein
einzelnes, vom Benutzer B des Sprachverarbeitungssystems ein
gesprochenes Sprachsignal, welches eine einzige Ziffer reprä
sentiert, aus einer Auswahl von Ziffern, zu verarbeiten. Da
bei unterscheiden sich die Einzelziffernerkenner üblicherwei
se in der Modellierung der akustischen Muster. Es sind Syste
me bekannt, in denen von verschiedenen Sprechern die akusti
schen Muster für ein ganzes Wort gespeichert werden und mit
tels Vergleichsverfahren wie dem sog. Dynamic Programming
oder dem Dynamic Time Warping oder auch unter Verwendung neu
ronaler Netze beim Erkennungsvorgang das am besten passende
Wort ermittelt wird. Andere bekannte Module zur Einzelziffer
nerkennung basieren auf dem Prinzip der Hidden-Markov-
Modelle. Bei diesen Prinzip der Einzelziffernerkennung wird
die Laut folge der von mehreren Sprechern gesprochenen Wörter
als Zustandsfolge mit Variable und vorgegebener Länge abge
speichert. Bei der Erkennung der Wörter, in diesem Fall der
Ziffer, wird der geringste Abstand zu der abgespeicherten
Wortfolge ermittelt. Bei Varianten dieses Prinzips werden in
Hidden-Markov-Modellen die Folgen der einzelnen phonetischen
Einheiten abgespeichert, die aus den Daten mehrerer Sprecher
gewonnen werden, in der Regel Ziffern. Zur Verminderung benö
tigter Rechenkapazität kann bei einem Einzelziffernerkenner
ausgenutzt werden, daß auf keine der gespeicherten lautlichen
Folgen eine weitere Folge auftreten kann. Aus diesem Grund
ist in diesem Fall keine rechenaufwendige Detektion von Wort
grenzen erforderlich. Auch ist der zu untersuchende Wort
schatz relativ gering, da lediglich die Ziffern untersucht
werden müssen.
Ist ein Spracherkennungsmodul Ei als Ziffernkettenerkenner
ausgestaltet, so ist das Spracherkennungsmodul in der Regel
mit Erkennern für kontinuierliche Sprache gleichzusetzen. Ei
ne Anzahl von in einem digitalen Lexikon definierten, vorgeb
baren Wörtern, in diesem Spezialfall Ziffern, kann in belie
biger Reihenfolge hintereinander von einem Benutzer B des
Sprachverarbeitungssystems geäußert werden. Für diesen Fall
ist eine Detektion der Grenzen zwischen den einzelnen Worten
erforderlich. Dies kann entweder durch ein Verfahren zur ex
pliziten Detektion der Wortgrenzen erfolgen, oder die Wort
grenzen werden von dem Algorithmus der Wortsuche festgelegt.
Bei der Wortsuche werden parallel alle Ziffern im Eingabesi
gnal untersucht und verschiedene Enden hypothetisiert. An je
dem Ende kann im Signal eine weitere Ziffer gesucht werden.
Dazu wird ein Suchraum aufgebaut, der die verschiedenen Al
ternativen gleichzeitig verfolgt und sie nach vorgebbaren
Qualitätskriterien ordnet. In diesem Zusammenhang kann bei
spielsweise das Prinzip der Dynamischen Programmierung ver
wendet werden, wie es in dem Dokument [1] beschrieben ist.
Ein solches Kriterium kann der Abstand der beobachteten Teile
des Signals zu den Referenzmustern, den einzelnen gespeicher
ten Ziffern sein. Ziffernkettenerkenner zeichnen sich in der
Regel von kontinuierlichen Erkennern in der besonderen Art
der Modellierung der akustischen Referenzmuster aus, bei de
nen bei der Ziffer eine spezifische Artikulationsweise oder
typische Längen der einzelnen Ziffern ausgenutzt werden.
Durch eine Modellierung von Sprachpausen oder durch ein Ent
scheidungskriterium, z. B. die im Signal sichtbare Energie,
kann in unterschiedlichen Heuristiken das Ende einer solchen
Folge detektiert werden.
Ist ein Spracherkennungsmodul Ei als ein Spracherkenner für
bestimmte häufige Kommandoworte aus einem begrenzten Vokabu
lar, dem sog. Kernvokabular ausgestaltet, so werden algorith
misch die entsprechenden Verfahren angewendet wie auch zur
Einzelziffernerkennung, jedoch mit dem Unterschied, daß das
Vokabular um die entsprechenden Worte erweitert ist bzw. daß
sich das Vokabular, mit den entsprechenden gespeicherten Re
präsentanten der einzelnen Worte von den Ziffern unterschei
det. Das speziell erweiterte bzw. ersetzte Vokabular ist für
den Spracherkenner vorgegeben und in der Regel mit einer grö
ßeren Anzahl von Sprechern trainiert.
Zur Erkennung fließend gesprochener Sprache mit einem unbe
grenzten Vokabular ist ein Spracherkennungsmodul Ei derart
ausgestaltet, daß die Worte des Vokabulars dem Spracherken
nungsalgorithmus, der in dem Spracherkennungsmodul Ei reali
siert wird, nicht bekannt sind, sondern von einem Benutzer B
zuvor bestimmt werden. Der Algorithmus zur Spracherkennung
basiert üblicherweise auf der Erkennung einer Folge von laut
lichen Einheiten, den sog. Phonemen oder anderen Wortunter
einheiten, aus denen sich die Worte des zu erkennenden Voka
bulars zusammensetzen lassen. In dem Lexikon des Spracherken
nungsmoduls Ei werden in einem Speicher die das jeweilige
Wort kennzeichnenden lautlichen Folgen abgespeichert. Die
Laute können in ihrer Modellierung auch noch weitere Unter
einheiten, wie z. B. Beginn des Phonems, Mitte des Phonems,
Ende des Phonems, Übergang des Phonems, etc. aufweisen. Das
Spracherkennungsverfahren sucht aus dem beobachteten Sprach
signal wiederum die Folge mit dem geringsten Abstand zu den
Referenzdaten auf. Der Einzelworterkenner kann algorithmisch
den Umstand ausnutzen, daß auf keine der im Inventar abgeleg
ten lautlichen Folgen eine weitere Folge auftreten kann.
Ist ein Spracherkennungsmodul Ei zur Erkennung fließend ge
sprochener Äußerungen des Benutzers mit einem unbegrenzten
Vokabular ausgestaltet, so unterscheidet sich das Spracher
kennungsmodul Ei von einem Spracherkennungsmodul Ei zur Zif
fernkettenerkennung in der Regel in der Art der Modellierung
der lautlichen Einheiten. Ist das lexikalische Inventar, also
das Vokabular, unbegrenzt, was auch als ein offenes lexikali
sches Inventar bezeichnet wird, erfolgt die akustische Model
lierung meist auf lautlichen Einheiten, den Phonemen, oder
auf Wortuntereinheiten, aus denen sich das zu erkennende Vo
kabular zusammensetzen läßt. Ebenso wie bei dem Spracherken
nermodul Ei für kontinuierliche Ziffern werden bei dieser
Ausgestaltung des Spracherkennungsmoduls die Grenzen zwischen
den Wörtern durch eine geeignete Suche bestimmt. Dies erfolgt
beispielsweise durch eine Modellierung von Sprachpausen oder
durch ein Entscheidungskriterium, z. B. die im Signal sicht
bare Energie. Das Spracherkennungsmodul kann die wahrschein
lichste, oder mit Erweiterungen im Suchalgorithmus eine vor
gebbare Anzahl wahrscheinlichster Folgen von Wörtern aus ge
ben. Die Suche bei kontinuierlichen Spracherkennungsmodulen
wird meistens durch eine Modellierung der für einen bestimm
ten Sprachausschnitt typischen oder möglichen Wort folgen, den
sog. Language-Modellen unterstützt. Unter Language-Modellen
sind beispielsweise grammatische Modellierungen der Wortfol
gen oder Wortlisten oder statistische Modellierungen im Sinne
einer sog. N-Gram-Analyse zu verstehen.
Zur Erkennung von vorgegebenen Wortkombinationen ist ein
Spracherkennungsmodul Ei derart ausgestaltet, daß beispiels
weise Datumsangaben, Uhrzeitangaben, Maßangaben, Zahlenanga
ben, etc. als spezielles Vokabular verwendet werden. Bei die
sen Spracherkennungsmodulen Ei handelt es sich üblicherweise
um Spracherkennungsmodule Ei für kontinuierliche Sprache, de
ren lexikalisches Inventar aber auf die vorgegebenen Wortkom
binationen aus den jeweiligen Bereichen, wie beispielsweise
eine Datumsangabe oder eine Maßangabe zugeschnitten ist. Des
weiteren kann die Wortfolgensuche durch eine Modellierung der
möglichen Wortfolgen wie bei einem kontinuierlichen Spracher
kennungsmodul Ei unterstützt werden, wobei sich diese Model
lierung dadurch auszeichnet, daß sie im wesentlichen die zu
erwartenden Ausdrucksweisen in einem dieser sprachlichen Un
tergebiete, z. B. Datumsangabe, besonders berücksichtigt.
Bei einem Spracherkennungsmodul Ei zur Schlüsselworterkennung
können in einem Spracheingabesignal ein oder mehrere vorgege
bene Worte, die in einem Lexikon zuvor gespeichert wurden,
detektiert werden. Die verschiedenen Möglichkeiten zur Ausge
staltung der Spracherkennungsmodule zur Schlüsselworterken
nung sind beispielsweise in dem Dokument [4] beschrieben.
Zur Erkennung von Schlüsselwortkombinationen wird das gleiche
Prinzip wie zur Erkennung von Schlüsselworten verwendet, mit
dem Unterschied, daß vordefinierte Wortketten in einem belie
bigen Eingabesignal ES detektiert werden können. Die Wortket
ten können entweder explizit als Referenzdaten abgespeichert
werden oder durch andere Verfahren, beispielsweise Language
Modelle oder Grammatiken beschrieben werden.
Ist ein Spracherkennungsmodul Ei als eine Alphabeterkennungs
einrichtung ausgestaltet, so werden üblicherweise die Buch
staben mit besonderen akustisch phonetischen Modellen be
schrieben. Als lexikalische Einheiten, die in einem Speicher
des Sprachverarbeitungssystems vorgesehen sind, werden in
diesem Fall im wesentlichen die Buchstaben des Alphabets ver
wendet. Ein Alphabeterkenner kann beispielsweise als Einzel
worterkenner das isolierte Alphabet oder auch als kontinuier
licher Erkenner für eine fließende Buchstabierung realisiert
sein. Bei kontinuierlichen Alphabeterkennern kann durch Lan
guage-Modelle oder auch durch Grammatiken die Suche der tat
sächlichen Wortfolgen unterstützt werden.
Ein Spracherkennungsmodul Ei zur Lautfolgenerkennung zeichnet
sich dadurch aus, daß die akustischen Einheiten auf phoneti
sche Einheiten modelliert werden und die zu erkennenden Laut
folgen nicht durch ein Lexikon beschränkt sind. Lautfolgener
kenner bzw. Phonemerkenner beruhen auf akustisch-phonetischen
Modellierungen der Laute einer Sprache. Mit dem phonetischen
Inventar wird die Suche in dem akustischem Sprachsignal
durchgeführt. Hypothetisiert wird eine beliebige Kette von
Lauten. In der akustischen Analyse werden verschiedene Heuri
stiken verwendet, um ein zu schnelles Wechseln der hypotheti
sierten Laute, den Phonemen, in einer Äußerung zu verhindern.
Zusätzlich können als Einschränkungen der zu erkennenden
Lautfolgen im Sinne von Language-Modellen phonetische Gesetz
mäßigkeiten einer Sprache berücksichtigt werden.
Eine DTMF-Erkennung ist aus verschiedensten Bereichen der te
lefonischen Spracherkennung bekannt.
Als Sprachausgabemodule Aj können verschiedene bekannte Prin
zipien zur Realisierung verschiedener Sprachausgabeprinzipien
verwendet werden:
Ist ein Sprachausgabemodul Aj zur Ausgabe vorgegebener, ge
speicherter Sprachkonserven ausgestaltet, so werden Sprachäu
ßerungen, die vorher von einer beliebigen Person eingespro
chen, aufgenommen und digitalisiert abgespeichert wurden,
über einen beliebigen akustischen Kanal ausgegeben. Die auf
genommenen Äußerungen können hierbei die kompletten auszuge
benden Äußerungen sein, die jeweils für eine bestimmte Situa
tion vorgesehen sind, oder aber auch Bruchstücke davon, die
zur Laufzeit wieder zu kompletten Äußerungen zusammengesetzt
werden. Ein typisches Beispiel hierfür ist die Bildung von
Ziffernketten, deren Länge und Zusammensetzung in den meisten
Anwendungsfällen nicht vorhersehbar ist. Es können jedoch je
nach Kontext verschiedene intonatorische Varianten ein und
derselben Äußerung vorliegen und in einem Softwareprogramm
entsprechend dem aktuellen Kontext ausgewählt werden. Ferner
sind verschiedene Methoden anwendbar, die eine sog. akusti
sche Glättung der verwendeten Konserven an den Übergängen der
Konkatenation der einzelnen Sprachkonserven in verschieden
ster Form vornehmen können.
Mögliche Realisierungen zur Ausgestaltung von Sprachausgabe
modulen zur Synthese von gespeicherten Phonemen zu syntheti
sierten Worten sind in dem Dokument [5] beschrieben.
Das Mittel MA zur Auswahl der in einem Anwendungsszenario je
weils zu verwendenden Spracherkennungsmodule Ei bzw. Sprach
ausgabemodule Aj ist derart ausgestaltet, daß abhängig von
einem dem Mittel MA zugeführten Eingabesignal ES mindestens
eines der Spracherkennungsmodule bzw. der Sprachausgabemodule
aktiviert wird und, soweit es erforderlich ist, den einzelnen
Spracherkennungsmodulen Ei bzw. Sprachausgabemodulen Aj Para
meter, die im weiteren Verfahren zur Spracherkennung bzw. zur
Sprachausgabe erforderlich sind, zugeführt werden. Die ent
sprechenden Parameter können beispielsweise darin zu sehen
sein, daß den Spracherkennungsmodulen Ei bzw. den Sprachaus
gabemodulen Aj Ressourcen zugewiesen werden oder auch bei
spielsweise die Speicheradressen der verwendeten digitalen
Lexika zugeführt werden.
In diesem Ausführungsbeispiel werden die Ergebnisse, also die
aus gegebenen Sprachsignale aus den Sprachausgabemodulen Aj
dem Mittel MA zugeführt, und beispielsweise über einen Aus
gang AS des Sprachverarbeitungssystems dem Benutzer B aus ge
geben. Ein von einem Benutzer B gesprochenes Sprachsignal
wird über einen Eingang E, beispielsweise realisiert durch
einen Mikrophon, dem Mittel MA zugeführt, und über das Mittel
MA abhängig von den jeweils aktivierten Spracherkennungsmodu
len Ei, den jeweils aktivierten Spracherkennungsmodul Ei zu
geführt.
Die einzelnen Module Ei, Aj verwenden u. a. Wissensquellen,
beispielsweise digitale Lexika, allgemeine Daten, die in ei
nem Speicher des Sprachverarbeitungssystems gespeichert sind.
Unter den Wissensquellen sind beispielsweise auch auf die je
weilige Spracherkennungsaufgabe spezialisierte akustischer
Modelle, z. B. ein Einzelworterkenner mit Lautmodellen oder
Einzelworterkenner mit akustischen Modellen für beliebige
Wörter, zu verstehen. Die Wissensquellen können aber auch die
von den Erkennern für einen gegebenen Dialogschritt in einem
Dialogsystem zur Auswahl stehenden spezifischen Wortschätze
sein, oder für bestimmte, erwartete eingabespezifische sog.
Sprachmodelle.
Das von den Spracherkennungsmodulen Ei verwendete Vokabular
ist beliebig durch orthographische, d. h. sprecherunabhängi
ge, oder sprachliche, d. h. sprecherabhängige, Eingabe sowohl
bei der Erstellung als auch aktuell zur Laufzeit des Sprach
verarbeitungssystems erweiterbar und damit an wechselnde An
forderungen anpaßbar.
Durch geeignete Lernverfahren können die Wissensquellen wäh
rend des Betriebs des Sprachverarbeitungssystems durch eine
Auswertung der laufenden Eingabedaten modifiziert und der be
sonderen Nutzungs- und Anwendungssituation angepaßt werden.
Weiterhin kann ein Parameter, der den Spracherkennungsmodulen
Ei oder den Sprachausgabemodulen Aj zugeführt wird darin zu
sehen sein, daß mit dem Parameter angegeben wird, ob selbst
während einer Sprachausgabe von dem Benutzer B gesprochene
Sprachsignale bearbeitet und von dem Sprachverarbeitungssy
stem aufgenommen werden können.
Im folgenden wird anhand eines sehr einfachen Beispiels für
eine Dialogsituation eine Ausgestaltung des Sprachverarbei
tungssystems als Sprachdialogsystem dargestellt.
In der folgenden Darstellung in einem Pseudo-
Nachrichtenflußdiagramm wird jeweils zu Beginn einer Zeile
auf der linken Seite eines Pfeils der Sender eines bestimmten
Signals und auf der rechten Seite eines Pfeils der Empfänger
des Signals, das im weiteren in dieser Zeile angegeben ist,
beschrieben.
In diesem Beispiel wird ohne Einschränkung der Allgemeinheit
von einer Weiterbildung, welche im weiteren beschrieben wird,
ausgegangen, nämlich einer Dialogablaufsteuerung DA.
DA → MA: GebeAus("Bitte nennen Sie Ihre Nummer nach dem Piepton")
MA → A1: PlayPromptFile(Bitte_nennen_Sie_Ihre_Nummer_nach_ dem_Piepton)
A1 → MA: PlayPromptFinished
MA → DA: AusgabeComplete
DA → MA: ErkenneÄußerung(Domäne=Ziffern, Anzahl max.=5)
MA → E1: StarteErkennung(Modus=Einzelziffer, Lexikon=Digits)
MA → E2: StarteErkennung(Modus=kontinuierliche Ziffernerkennung, Lexikon= Digits)
E1 → MA: ErkenneAusgabe (Modus=Einzelziffer, Resultat=0)
E2 → MA: ErkenneAusgabe(Modus=kontinuierliche Ziffern, erkannte Ziffernfolge: 1 2 3 4 5)
MA → DA: EingabeZiffernfolge: (1 2 3 4 5)
DA → MA: GebeAus("Ihre Nummer ist 1 2 3 4 5")
DA → A1: PlayPromptFile(Ihre_Nummer_ist)
MA → A2: Synthesise(Ziffernfolge 1 2 3 4 5)
A1 → MA: PlayPromptFinished
A2 → MA: Synthesise Finished
MA → DA: AusgabeComplete
DA → MA: GebeAus("Möchten Sie Vertrieb oder Kundenservice sprechen?")
MA → A1: PlayPromptFile(Möchten_Sie_Vertrieb_oder_Kun denservice-sprechen)
A1 → MA: Prompt file not available
MA → A2: Synthesise(Möchten Sie Vertrieb oder Kundenservice sprechen?)
A2 → MA: Synthesis finished
MA → DA: Ausgabe complete
DA → DM: ErkenneSprache(Domäne=Vertrieb_oder_Kundenservice)
MA → E3: StarteErkennung(Modus=kontinuierlich, Lexi kon=Kernvokabular)
DM → E4: StarteErkennung(Modus=Schlüsselworterkennung, Lexi kon=Vertrieb und Kundenservice)
E3 → MA: ErkennerAusgabe(Modus=kontinuierlich, Resultat="den Vertrieb bitte")
E4 → MA: ErkennerAusgabe (Modus=Schlüsselworterkennung, Re sultat="Vertrieb")
MA → DA: Eingabezeichenfolge(Vertrieb)
DA → MA: GebeAus("Ihr Geburtsdatum bitte")
MA → A1: PlayPromptFile(Ihr_Geburtsdatum_bitte)
DA → MA: ErkenneÄußerung(Domäne=Datum)
DM → E5: StarteErkennung(Modus=kontinuierlich, Lexi kon=Datumsangabe)
E5 → MA: ErkenneAusgabe(Modus=kontinuierlich, Resultat 1="am ersten ersten neunzehnhundertfünfzig", Resultat 2="am ersten elften neunzehnhundertfünfzig")
MA → DA: Eingabezeichenfolge(am ersten ersten neunzehnhun dertfünfzig)
DA → MA: GebeAus("Sie sind am ersten ersten neunzehnhundert fünfzig geboren")
MA → A3: ConcatAusgabe(Sie_sind_am ersten, ersten, neunzehn hundertfünfzig, geboren)
A3 → MA: PlayPromptConcatComplete
MA → DA: AusgabeComplete
DA → MA: ErkenneSprache (Domäne=j/n-Frage)
MA → E6: StarteErkennung(Modus=Einzelwort, Lexikon=(ja, nein))
DA → MA: GebeAus("Bitte nennen Sie Ihre Nummer nach dem Piepton")
MA → A1: PlayPromptFile(Bitte_nennen_Sie_Ihre_Nummer_nach_ dem_Piepton)
A1 → MA: PlayPromptFinished
MA → DA: AusgabeComplete
DA → MA: ErkenneÄußerung(Domäne=Ziffern, Anzahl max.=5)
MA → E1: StarteErkennung(Modus=Einzelziffer, Lexikon=Digits)
MA → E2: StarteErkennung(Modus=kontinuierliche Ziffernerkennung, Lexikon= Digits)
E1 → MA: ErkenneAusgabe (Modus=Einzelziffer, Resultat=0)
E2 → MA: ErkenneAusgabe(Modus=kontinuierliche Ziffern, erkannte Ziffernfolge: 1 2 3 4 5)
MA → DA: EingabeZiffernfolge: (1 2 3 4 5)
DA → MA: GebeAus("Ihre Nummer ist 1 2 3 4 5")
DA → A1: PlayPromptFile(Ihre_Nummer_ist)
MA → A2: Synthesise(Ziffernfolge 1 2 3 4 5)
A1 → MA: PlayPromptFinished
A2 → MA: Synthesise Finished
MA → DA: AusgabeComplete
DA → MA: GebeAus("Möchten Sie Vertrieb oder Kundenservice sprechen?")
MA → A1: PlayPromptFile(Möchten_Sie_Vertrieb_oder_Kun denservice-sprechen)
A1 → MA: Prompt file not available
MA → A2: Synthesise(Möchten Sie Vertrieb oder Kundenservice sprechen?)
A2 → MA: Synthesis finished
MA → DA: Ausgabe complete
DA → DM: ErkenneSprache(Domäne=Vertrieb_oder_Kundenservice)
MA → E3: StarteErkennung(Modus=kontinuierlich, Lexi kon=Kernvokabular)
DM → E4: StarteErkennung(Modus=Schlüsselworterkennung, Lexi kon=Vertrieb und Kundenservice)
E3 → MA: ErkennerAusgabe(Modus=kontinuierlich, Resultat="den Vertrieb bitte")
E4 → MA: ErkennerAusgabe (Modus=Schlüsselworterkennung, Re sultat="Vertrieb")
MA → DA: Eingabezeichenfolge(Vertrieb)
DA → MA: GebeAus("Ihr Geburtsdatum bitte")
MA → A1: PlayPromptFile(Ihr_Geburtsdatum_bitte)
DA → MA: ErkenneÄußerung(Domäne=Datum)
DM → E5: StarteErkennung(Modus=kontinuierlich, Lexi kon=Datumsangabe)
E5 → MA: ErkenneAusgabe(Modus=kontinuierlich, Resultat 1="am ersten ersten neunzehnhundertfünfzig", Resultat 2="am ersten elften neunzehnhundertfünfzig")
MA → DA: Eingabezeichenfolge(am ersten ersten neunzehnhun dertfünfzig)
DA → MA: GebeAus("Sie sind am ersten ersten neunzehnhundert fünfzig geboren")
MA → A3: ConcatAusgabe(Sie_sind_am ersten, ersten, neunzehn hundertfünfzig, geboren)
A3 → MA: PlayPromptConcatComplete
MA → DA: AusgabeComplete
DA → MA: ErkenneSprache (Domäne=j/n-Frage)
MA → E6: StarteErkennung(Modus=Einzelwort, Lexikon=(ja, nein))
In diesem einfachen Beispiel weisen die Spracherkennungsmodu
le Ei die folgenden einfachen Spracherkennungscharakteristika
auf:
Das Spracherkennungsmodul E1 ist als Einzelziffernerkenner ausgestaltet, E2 als Spracherkennungsmodul zur Erkennung kon tinuierlicher Ziffern, also von Ziffernketten. Das Spracher kennungsmodul E3 ist als Spracherkennungsmodul zur Erkennung fließend gesprochener Sprache mit einem begrenzten Vokabular, dem Lexikon "Kernvokabular", ausgestaltet. Das Spracherken nungsmodul E4 ist als Schlüsselworterkenner mit dem Lexikon "Vertrieb und Kundenservice" ausgestaltet, das Spracherken nungsmodul E5 ist als ein Spracherkennungsmodul zur Erkennung von vorgegebenen Wortkombinationen, in diesem Spezialfall zur Erkennung von einer Datumsangabe ausgestaltet.
Das Spracherkennungsmodul E1 ist als Einzelziffernerkenner ausgestaltet, E2 als Spracherkennungsmodul zur Erkennung kon tinuierlicher Ziffern, also von Ziffernketten. Das Spracher kennungsmodul E3 ist als Spracherkennungsmodul zur Erkennung fließend gesprochener Sprache mit einem begrenzten Vokabular, dem Lexikon "Kernvokabular", ausgestaltet. Das Spracherken nungsmodul E4 ist als Schlüsselworterkenner mit dem Lexikon "Vertrieb und Kundenservice" ausgestaltet, das Spracherken nungsmodul E5 ist als ein Spracherkennungsmodul zur Erkennung von vorgegebenen Wortkombinationen, in diesem Spezialfall zur Erkennung von einer Datumsangabe ausgestaltet.
Die verwendeten Sprachausgabemodule Aj sind in diesem einfa
chen Beispiel als Modul zur Ausgabe vorgegebener, gespeicher
ter Sprachkonserven (A1), ein Modul zur Synthetisierung von
Sprache aus beispielsweise Phonemen (A2) sowie ein Modul zur
Ausgabe zusammengesetzter einzelner vorgegebener, gespeicher
ter Sprachkonserven (A3) ausgestaltet.
Wie aus diesem einfachen Beispiel ersichtlich wird, wird je
weils dem Mittel MA von den Spracherkennungsmodulen Ei die
Ergebnisse der Spracherkennung bzw. von den Sprachausgabemo
dulen Aj das auszugebende Sprachsignal zugeführt.
Andererseits wird von dem Mittel MA den einzelnen Modulen Ei,
Aj die jeweilige zur Erkennung benötigte Information zuge
führt, beispielsweise auch das in das Sprachverarbeitungssy
stem eingesprochene Sprachsignal.
Eine weitere Weiterbildung des Sprachverarbeitungssystem und
des Verfahrens zur Sprachverarbeitung ist darin zu sehen, daß
das Sprachsignal auch von mehreren Spracherkennungsmodulen Ei
oder Sprachausgabemodulen Aj gleichzeitig bearbeitet wird,
und daß jeweils das bezüglich eines beliebigen Ähnlichkeits
maßes beste Ergebnis verwendet wird oder auch nur ein Ver
gleichsergebnis zur Erhöhung der Erkennungssicherheit verwen
det wird.
Mit der Dialogablaufsteuerung DA wird ein vorgebbarer Dialog
mit dem Benutzer B des Sprachverarbeitungssystems je nach der
Anwendungssituation durchgeführt, und abhängig von der jewei
ligen Dialogssituation dem Mittel MA Steuerungsinformation,
beispielsweise noch benötigte Information zugeführt. Weiter
hin wird in dieser Weiterbildung beispielsweise das Ergebnis
der Spracherkennungsmodule in dem Mittel zur Dialogablauf
steuerung ausgewertet, was beispielsweise auf die folgende
Weise erfolgen kann:
Die Dialogablaufsteuerung DA weist mindestens folgende Kompo
nenten auf, die miteinander gekoppelt sind, beispielsweise
über einen Bus BU (vgl. Fig. 2):
- - ein Eingabemittel EM,
- - einen Eingabespeicher ESP,
- - eine Aktionsermittlungseinheit AE,
- - einen Parameterparser PP.
Die Arbeitsweise der einzelnen Komponenten der Dialogablauf
steuerung DA werden im Zusammenhang mit den Verfahren zur Ab
laufsteuerung eines Dialogs mit dem Benutzer B im weiteren
detailliert erläutert.
Die Aktionsermittlungseinheit AE dient zum einen zur Ermitt
lung von Aktionshinweisen und zum anderen zur Ermittlung min
destens einer vorgebbaren Aktion, auf die durch den Aktions
hinweis hingewiesen wird. Die Aktion wird aus einer beliebi
gen Anzahl vorgebbarer Aktionen ermittelt. Verschiedene Ver
fahrensweisen zur Ermittlung der gesuchten Aktion, auf die
durch den Aktionshinweis hingewiesen wird, sind dem Fachmann
bekannt. Einige beispielhaft dargelegte Möglichkeiten zu de
ren Realisierung werden jedoch im Zusammenhang mit dem Ver
fahren detailliert erläutert.
Der Parameterparser PP dient zur Ermittlung von Aktionspara
metern, die jeder Aktion jeweils eindeutig zugeordnet sind,
aus der in dem Eingabespeicher ESP gespeicherten digitalen
Aktionsinformation.
In Fig. 2 ist die Dialogablaufsteuerung DA mit einigen Wei
terbildungen der Dialogablaufsteuerung DA zur Aktionsermitt
lung dargestellt.
Eine in einer Ausgestaltung vorgesehene Informationsdatenbank
ID enthält jeweils anwendungsspezifisch gesuchte Information,
die anhand der bestimmten Aktion und den anschließend für die
Aktion ermittelten Aktionsparameter ermittelt wird.
Es ist in einer Weiterbildung eine Aktionsklärungseinheit AKE
vorgesehen zur Ermittlung weiterer Aktionshinweise von dem
Benutzer. Die Aktionsklärungseinheit AKE gewinnt vor allem in
Anwendungsgebieten eine erhöhte Bedeutung, wenn es gilt, un
ter verschiedenen Aktionen die gesuchte Aktion zu ermitteln.
Sind die Aktionshinweise, die von dem Benutzer B der Dialo
gablaufsteuerung DA übergeben werden, zur Bestimmung der Ak
tion nicht ausreichend, so wird die Aktionsklärungseinheit
AKE zur Ermittlung weiterer Aktionshinweise von dem Benutzer
B verwendet. Die Ausgestaltung der Aktionsklärungseinheit AKE
wird im Zusammenhang mit dem Verfahren näher erläutert. Es
ist jedoch nicht notwendig, daß die Aktionsklärungseinheit
AKE genau eine Aktion ermittelt. Es ist ebenso vorgesehen,
die Anzahl vorgegebener Aktionen in einer beliebigen Art zu
reduzieren, um somit nur noch eine geringere Anzahl von Ak
tionen weiter zu verarbeiten.
In einer Weiterbildung ist eine Parameterklärungseinheit PKE
vorgesehen zur Ermittlung weiterer Aktionsparameter von dem
Benutzer B. Die Parameterklärungseinheit PKE wird verwendet,
wenn für die mindestens eine ermittelte Aktion nicht alle Ak
tionsparameter, die den jeweiligen Aktionen zugeordnet sind,
bestimmt werden können. Für diesen Fall ist es vorteilhaft,
daß die Parameterklärungseinheit PKE verwendet wird, um feh
lende Aktionsparameter von dem Benutzer B zu ermitteln.
In einer Weiterbildung der Dialogablaufsteuerung DA ist es
ferner vorteilhaft, einen ersten Aktionsspeicher AS1 und/oder
einen zweiten Aktionsspeicher AS2 vorzusehen. In dem ersten
Aktionsspeicher AS1 werden Aktionen und deren Aktionsparame
ter gespeichert, bei denen der mindestens eine Aktionshinweis
vollständig mit mindestens einem Teil von Schlüsselbegriffen,
deren Bedeutung im weiteren beschrieben wird, übereinstimmt.
In dem zweiten Aktionsspeicher AS2 werden Aktionen und deren
Aktionsparameter gespeichert, bei denen mindestens einer der
Aktionshinweise mit mindestens einem Schlüsselbegriff über
einstimmt.
Ferner ist in einer Weiterbildung ein Mittel GF zur Generie
rung von Fragen (prompts) an den Benutzer B zur Ermittlung
weiterer Aktionshinweise und/oder weiterer Aktionsparameter
vorgesehen. Der Aufbau des Mittels GF zur Generierung von
Fragen ist beispielsweise aus dem Dokument [3] bekannt.
Ferner ist es in einer Weiterbildung der Dialogablaufsteue
rung DA vorgesehen, eine Steuerungseinheit STE zur Steuerung
einer Hintergrundanwendung HA unter Verwendung der ermittel
ten Information zu verwenden. Der Aufbau der Steuerungsein
heit STE ist völlig anwendungsspezifisch und dient lediglich
dazu, die ermittelte Aktion zur Steuerung der Hintergrundan
wendung HA zu verwenden. Die unterschiedlichen Verwendungs
möglichkeiten und somit auch die unterschiedlichen Ausgestal
tungen der Steuerungseinheit STE werden im weiteren detail
liert beschrieben.
Ferner ist in einer Weiterbildung ein Schlüsselbegriffeditor
SE vorgesehen, mit dem zum einen die im weiteren beschriebe
nen Schlüsselbegriffe und zum anderen neue Aktionen und/oder
Aktionsparameter verändert, entfernt oder hinzugefügt werden
können.
Die einzelnen Verfahrensschritte des Verfahrens sind in Fig.
3 dargestellt.
In einem ersten Schritt 301 wird von dem Benutzer B der Dia
logablaufsteuerung DA Aktionsinformation, die mindestens ei
nen Aktionshinweis aufweist, übergeben. Das Verfahren muß
nicht notwendigerweise mit der im vorigen beschriebenen An
wendung durchgeführt werden, es ist ebenso möglich, das Ver
fahren mit Hilfe eines Rechners durchzuführen.
Die Aktionsinformation wird von dem Benutzer B an die Dialo
gablaufsteuerung DA oder das Sprachverarbeitungssystem über
geben. Die Aktionsinformation wird digitalisiert und als di
gitalisierte Aktionsinformation gespeichert 302. Die digitale
Aktionsinformation kann beispielsweise in einer Phonemdar
stellung oder auch in Form eines üblichen Codes zur Darstel
lung von Schriftzeichen (beispielsweise ASCII-Code) gespei
chert werden.
In einem weiteren Schritt 303 wird aus der gespeicherten Ak
tionsinformation unter Verwendung des Parameterparses PP,
dessen Aufbau beispielsweise aus dem Dokument [4] bekannt
ist, mindestens ein Aktionshinweises ermittelt.
Unter Verwendung des Aktionshinweises und der Aktionsermitt
lungseinheit AE wird mindestens eine Aktion bestimmt 304.
Die Bestimmung der mindestens einen Aktion kann auf unter
schiedliche Weise erfolgen. Eine sehr einfach jedoch in kein
ster Weise ausschließlich verwendbare Methode liegt darin,
jeder Aktion eine vorgebbare Anzahl von Schlüsselbegriffen,
die jeweils die Aktion charakterisieren, zuzuordnen, und die
aus der Aktionsinformation ermittelten Aktionshinweise, die
durch den Parameterparser PP ermittelt werden, mit den
Schlüsselbegriffen zu vergleichen. Der Vergleich kann durch
einen direkten Wortvergleich oder auch durch einen beliebigen
Mustervergleich, deren Algorithmen jedem Fachmann geläufig
sind, erfolgen.
Ist die mindestens eine Aktion ermittelt worden 304, werden
für alle Aktionen die Aktionsparameter, die den Aktionen ein
deutig zugeordnet sind, aus der digitalen Aktionsinformations
mittels des Parameterparser PP ermittelt 305. Anhand der er
mittelten Aktion sowie der zugehörigen Aktionsparameter wird
nun in einem letzten Schritt 306 die Aktion durchgeführt.
In einer Weiterbildung des Verfahrens wird Information zu der
Aktion aus der Informationsdatenbank ID ermittelt und dem Be
nutzer B über die Ausgabeeinheit AUS dargestellt.
Reichen die in der digitalen Aktionsinformation enthaltenen
Aktionshinweise nicht für die Ermittlung mindestens einer Ak
tion aus 401, so ist es in einer Weiterbildung vorgesehen,
weitere Aktionshinweise beispielsweise durch einen Dialog mit
dem Benutzer B zu ermitteln 402.
Dies geschieht z. B. unter Verwendung der Aktionsklärungsein
heiten AKE, die vorzugsweise derart ausgestaltet ist, daß für
die vorgegebenen Aktionen jeweils mindestens ein Ermittlungs
prompt eindeutig zugeordnet ist. Unter dem Ermittlungsprompt
sind beispielsweise Fragen zu verstehen, die der jeweiligen
Aktion zugeordnet und fest gespeichert sind. Diese Ermitt
lungsprompts werden dem Benutzer B bei unzureichender Infor
mation zur Ermittlung der Aktionen dargestellt. Der Benutzer
B gibt auf diese Ermittlungsprompts, also die entsprechenden
Fragen, Antworten, die dann wiederum verarbeitet werden, wo
durch weitere Aktionshinweise ermittelt werden. Der Dialog
wird solange durchgeführt und wiederholt, bis die ermittelten
Aktionshinweise und weiteren Aktionshinweise ausreichend sind
zur Identifikation der vorgebbaren Anzahl von Aktionen.
Ist die mindestens eine Aktion ermittelt, werden für jede Ak
tion die Aktionsparameter, die der jeweiligen Aktion zugeord
net sind, ermittelt 305.
Sind jedoch nicht alle benötigten Aktionsparameter vollstän
dig aus der in dem Eingabespeicher ESP ermittelten digitalen
Aktionsinformation bekannt bzw. ermittelt worden, was in ei
nem zusätzlichen Verfahrensschritt 403 geprüft wird, werden
die restlichen Aktionsparameter beispielsweise von der Para
meterklärungseinheit PKE ermittelt 404.
Dies geschieht beispielsweise ebenfalls in einem Dialog mit
dem Benutzer B. Für diesen Dialog können wiederum den einzel
nen Parametern zugeordnete Prompts, im folgenden als Parame
ter-Prompts bezeichnet, verwendet werden, die bei notwendiger
Ermittlung der entsprechenden Aktionsparameter an den Benut
zer B ausgegeben werden und der Benutzer B antwortet auf die
entsprechenden Fragen.
Sowohl die Ermittlung weiterer Aktionshinweise 402 als auch
die Ermittlung der restlichen Aktionsparameter 404 kann je
doch auch auf andere Weise erfolgen.
Beispielsweise ist es nicht unbedingt notwendig, fest vorge
gebene Ermittlungs-Prompts oder Parameter-Prompts den einzel
nen Aktionen bzw. Parametern zuzuordnen, wodurch zum einen
zwar die Einfachheit in der Durchführung des Verfahrens und
in der Anpassung der jeweiligen Anwendung und die Erweiter
barkeit der Aktionen und Parameter erheblich vereinfacht
wird, jedoch immer nur fest vorgegebene Fragen an den Benut
zer B gestellt werden.
Es ist in einer Weiterbildung des Verfahrens und der Dialo
gablaufsteuerung DA vorgesehen, das Mittel GF zur Generierung
von Fragen an den Benutzer B zu verwenden. Eine Möglichkeit
zur Realisierung des Mittels GF ist beispielsweise in dem Do
kument [3] beschrieben.
In einer Weiterbildung des Verfahrens ist vorgesehen, zur Er
mittlung der Aktion in der Aktionsermittlungseinheit AE fol
gende Schritte durchzuführen. In der Aktionsermittlungsein
heit AE wird für jede Aktion der Vergleich der Schlüsselbe
griffe mit den Aktionshinweisen durchgeführt.
Es wird eine erste Menge von Aktionen ermittelt, bei denen
alle Aktionshinweise mit mindestens einem Teil der Schlüssel
begriffe übereinstimmen. Anschaulich beschrieben bedeutet
diese Vorgehensweise, daß die Schnittmenge aller Aktionen,
auf die durch die Aktionshinweise hingewiesen wurde, ermit
telt wird. Die erste Menge von Aktionen wird beispielsweise
in dem ersten Aktionsspeicher AS1 gespeichert.
Ferner wird eine zweite Menge von Aktionen gebildet, bei de
nen mindestens ein Teil der Aktionshinweise mit den Schlüs
selbegriffen übereinstimmt. Diese Vorgehensweise bedeutet an
schaulich eine Bildung der Vereinigungsmenge aller Aktionen,
auf die hingewiesen wurde. Die zweite Menge von Aktionen wird
beispielsweise in dem zweiten Aktionsspeicher AS2 gespei
chert.
Enthält die erste Menge genau ein Element, so ist die zu er
mittelnde Aktion eindeutig identifiziert. Für diesen Fall ist
kein weiterer Klärungsdialog notwendig. Enthält die erste
Menge jedoch mehr Elemente als die Anzahl von zu ermittelnden
Aktionen, so ist die Aktion durch die initiale Benutzereinga
be nicht genau genug beschrieben. In diesem Fall ist es vor
teilhaft, den im vorigen beschriebenen Klärungsdialog durch
zuführen.
Ist die erste Menge eine leere Menge, so enthält die initiale
Benutzeräußerung Hinweise auf disjunkte Aktionen. In diesem
Fall wird vorteilhafterweise der Klärungsdialog durch die in
der zweiten Menge enthaltenen Aktionen gesteuert.
Sind sowohl die erste Menge als auch die zweite Menge leere
Mengen, so wird beispielsweise ein Klärungsdialog zur Unter
scheidung aller in der Anwendung bekannten Aktionen durchge
führt.
Somit dienen die erste Menge und die zweite Menge in dieser
Weiterbildung als Grundlage für den Dialog mit dem Benutzer B
zur Ermittlung der mindestens einen Aktion.
Die ermittelte Aktion kann in einer Weiterbildung des Verfah
rens vorteilhaft zur Steuerung mindestens einer Hintergrund
anwendung HA eingesetzt werden.
Unter der Hintergrundanwendung HA sind unterschiedlichste
Einsatzmöglichkeiten des Verfahrens und der Dialogablauf
steuerung DA zu verstehen, die im weiteren erläutert werden.
Das Verfahren sowie die Dialogablaufsteuerung DA können bei
spielsweise in folgenden Gebieten vorteilhaft eingesetzt wer
den:
- - in einem Telefondienst,
- - in einem Telekauf-System und/oder Tele-Banking-System,
- - in einem sog. Voice Mail Handling System,
- - zur Steuerung einer beliebigen Maschine, beispielsweise einer Werkzeugmaschine oder eines Roboters,
- - zur Steuerung eines Rechners,
- - in einem Messaging-System einer Nebenstellenanlage eines Telekommunikationssystems.
Ferner ist es in einer Weiterbildung des Verfahrens vorteil
haft, daß die Auswertung der digitalen Aktionsinformation,
die in dem Eingabespeicher ESP gespeichert wird, von dem Pa
rameterparsel PP in bezüglich der Eingabe der Aktionsinforma
tion in umgekehrter Reihenfolge ermittelt werden.
Dies bedeutet, daß die Auswertung der Aktionsinformation am
Schluß der Aktionsinformation begonnen wird und bis zum An
fang der Aktionsinformation weitergeführt wird. Durch diese
Vorgehensweise wird eine Korrektur der Aktionsinformation
durch den Benutzer B in einem Satz möglich, was im folgenden
noch detailliert erläutert wird.
Zum einfacheren Verständnis der Dialogablaufsteuerung DA wird
im folgenden ein sehr einfaches Beispiel aus der Touristik
branche dargestellt. Beispielsweise können in diesem Anwen
dungsgebiet folgende Aktionen definiert sein:
- - Auskunft über Bahnverbindungen;
- - Auskunft über Flugverbindungen;
- - Auskunft über Schiffsverbindungen;
- - Auskunft über Hotelzimmer;
- - Restaurantinformation.
Die einzelnen Aktionen können beispielsweise durch folgende
Parameter gekennzeichnet sein;
- - Bahnauskunft: <Abfahrtsort<, <Ankunftsort<, <Datum<, <Uhrzeit<
- - Flugauskunft: <Abfahrtsort<, <Ankunftsort<, <Datum<, <Uhrzeit<
- - Schiffsauskunft: <Abfahrtsort<, <Ankunftsort<, <Datum<, <Uhrzeit<
- - Hotelauskunft: <Ort<, <Zimmer<, <Art<, <Anzahl der Personen<, <Check in Datum<, <Check out Datum<
- - Restaurantinformation: <Ort<, <Stil<, <Kategorie<.
In Form eines Pseudocodes werden im folgenden die einzelnen
Aktionen spezifiziert. Hierbei wird jeweils unter dem Punkt
2.1 der Aktion eindeutig eine Nummer zugewiesen, unter dem
Punkt 2.2 der jeweilige Ermittlungs-Prompt und unter der Num
mer 2.3 die einzelnen Parameterspezifikationen, die sich, je
weils abhängig von der definierten Grammatik in diesem Fall
für vorgegebene Parameter-Prompts in einer Weise darstellen,
daß jeweils unter dem Punkt 3.1 und dem Punkt 3.3 die jewei
lige Grammatik des jeweiligen Aktionsparameters gegeben ist
und unter dem Punkt 3.2 der jeweilige Parameter-Prompt darge
stellt ist.
In der folgenden Tabelle sind Schlüsselbegriffe für die ein
zelnen Aktionen, die durch die entsprechende Nummer in den
geschweiften Klammern eindeutig identifiziert sind, beispiel
haft aufgeführt.
von|{1, 2, 3} | |
nach | {1, 2, 3} |
fahren | {1, 2, 3} |
Zugauskunft | {1} |
Eisenbahn | {1} |
fliegen | {2} |
Flugauskunft | {2} |
Flugzeug | {2} |
Schiffsauskunft | {3} |
Schiff | {3} |
Hotel | {4} |
Unterkunft | {5} |
Einzelzimmer | {4} |
Doppelzimmer | {4} |
Restaurant | {5} |
Essen | {5} |
Ein Beispiel für einen Dialog des Benutzers B mit der Dialo
gablaufsteuerung DA wird im folgenden dargestellt.
Der Benutzer B äußert seinen Wunsch präzise und vollständig.
Der Benutzer B gibt folgende Informationen ein:
"Ich möchte am 1. Januar 1996 um 5.00 Uhr mit dem Zug von
München nach Hamburg fahren."
Der erste Aktionsspeicher AS1 enthält unter Verwendung der
oben beschriebenen Schlüsselbegriffe und Grammatiken die er
ste Menge von Aktionen {1}. Der zweite Aktionsspeicher AS2
enthält die zweite Menge von Aktionen {1, 2, 3}.
Da der erste Aktionsspeicher AS1 genau ein Element aufweist,
wird direkt von der Dialogablaufsteuerung DA aus der Informa
tionsdatenbank ID die gesuchte Information ermittelt und bei
spielsweise dem Benutzer B durch folgende Antwort darge
stellt:
"Sie erhalten Auskunft über die Flüge von München nach Ham
burg am 1. Januar 1996 um fünf Uhr: "1. Flug, 2. Flug, 3.
Flug usw.".
Bei einem weiteren Beispiel nennt der Benutzer B weder Uhr
zeit noch Verkehrsmittel:
Die Aktionsinformation ist beispielsweise folgende: "Ich möchte am 1. Januar 1996 von München nach Hamburg."
Die Aktionsinformation ist beispielsweise folgende: "Ich möchte am 1. Januar 1996 von München nach Hamburg."
Der erste Aktionsspeicher AS1 enthält in diesem Fall die er
ste Menge von Aktionen {1,2,3}. Der zweite Aktionsspeicher
AS2 enthält die zweite Menge von Aktionen {1,2,3}. In der
Dialogablaufsteuerung DA wird ein Klärungsdialog initiiert,
um zwischen den Aktionen {1,2,3} zu unterscheiden.
Hierzu wird beispielsweise der oben beschriebene Ermittlungs-
Prompt:
"Möchten Sie eine Bahnauskunft?" dem Benutzer B ausgegeben.
"Möchten Sie eine Bahnauskunft?" dem Benutzer B ausgegeben.
Der Benutzer B antwortet beispielsweise mit "Nein".
In diesem Fall wird von der Dialogablaufsteuerung DA bei
spielsweise folgender Ermittlungsprompt ausgegeben:
"Möchten Sie eine Flugauskunft?"
"Möchten Sie eine Flugauskunft?"
Beantwortet der Benutzer B diese Frage mit "Ja", so wird ein
weiterer Klärungsdialog zur Ermittlung der restlichen, noch
fehlenden Aktionsparameter für die Flugauskunft durchgeführt.
Hierbei wird beispielsweise zur Ermittlung des Aktionsparame
ters Uhrzeit der Parameter-Prompt:
"Um wieviel Uhr möchten Sie fliegen?" dem Benutzer B ausgegeben.
"Um wieviel Uhr möchten Sie fliegen?" dem Benutzer B ausgegeben.
Der Benutzer B antwortet beispielsweise:
"Um fünf Uhr."
"Um fünf Uhr."
Nun hat die Dialogablaufsteuerung DA ausreichend Information,
um die gesuchte Aktion zu ermitteln. Das Ergebnis wird dem
Benutzer B beispielsweise in folgender Weise dargestellt:
"Sie erhalten Auskunft über die Flüge von München nach Ham burg am 1. Januar 1996 um fünf Uhr".
"Sie erhalten Auskunft über die Flüge von München nach Ham burg am 1. Januar 1996 um fünf Uhr".
Weitere Details über eine mögliche Ausgestaltung der Dialo
gablaufsteuerung DA sind in der Deutschen Patentanmeldung mit
dem amtlichen Aktenzeichen 196 15 693.9 beschrieben.
In Fig. 4 ist in einem Ablaufdiagramm das Verfahren in seinen
Verfahrensschritten dargestellt. Das Eingabesignal ES wird
analysiert, wobei mit dem Eingabesignal ES beschrieben wird,
welche Art von Spracherkennung und/oder welche Art von
Sprachausgabe im weiteren Verfahren benötigt wird 401.
Ferner wird abhängig von dem Eingabesignal ES mindestens ein
Spracherkennungsmodul Ei und/oder ein Sprachausgabemodul Aj
aktiviert 402.
In einem letzten Schritt 403 wird in mindestens einen der
Spracherkennungsmodule und/oder der Sprachausgabemodule die
jeweilige Spracherkennung bzw. Sprachausgabe durchgeführt.
Ferner ist es in einer Weiterbildung vorgesehen, gemeinsame
Vorverarbeitungsschritte oder auch gemeinsame Teile von Algo
rithmen, die gemeinsam in verschiedenen Verfahren zur Spra
cherkennung gleichzeitig verwendet werden, in einem separaten
Vorverarbeitungsmodul VV durchzuführen.
In der gemeinsamen Vorverarbeitung z. B. in mindestens einem
Vorverarbeitungsmodul VV können beispielsweise eine akusti
sche Vorverarbeitung oder eine sog. Abstandsberechnung der
untersuchten Teile des Sprachsignals realisiert werden.
Ferner ist es in einer Weiterbildung vorteilhaft, Ressourcen
gemeinsam zu nutzen, beispielsweise in einer Weise, daß ein
Lexikon von mehreren Spracherkennungsmodulen Ei gemeinsam
verwendet wird. Dies ist beispielsweise möglich, indem ein
Lexikon zur Erkennung fließend gesprochener Sprache u. a. die
Worte "Ja" und "Nein" enthält, wodurch es möglich ist, daß
auch ein Schlüsselwort-Erkenner (Keyword-Spotter) auf die Be
griffe "Ja" und "Nein" zur Durchführung der Spracherkennung
in diesem Fall auf dasselbe Lexikon zugreifen kann.
Auch eine gemeinsame Nutzung von Ressourcen bei der Nachbear
beitung sind sowohl bei dem Verfahren als auch mit einem
Nachbearbeitungsmodul bei dem Sprachverarbeitungssystem als
eine Ausgestaltung vorgesehen.
Sowohl das Sprachverarbeitungssystem als auch das Verfahren
zur Sprachverarbeitung kann sehr vorteilhaft sowohl in der
Spracherkennung und in der Sprachausgabe sowie in der Durch
führung eines Dialogs mit einem Benutzer B als auch zur Er
stellung von Sprachdialogsystemen verwendet werden, da eine
sehr einfache Zusammenstellung der anwendungsspezifischen
Kombinationen von Spracherkennungsmodulen und/oder Sprachaus
gabemodulen möglich ist.
In diesem Dokument wurden folgende Veröffentlichungen zi
tiert:
[1] G. Ruske, Automatische Spracherkennung, Oldenbourg- Verlag, 1. Auflage, ISBN 3-486-20877-2, München, S. 106-171, 1988
[2] A. Zell, Simulation neuronaler Netze, Edison Wesley, 1. Auflage, ISBN 3-89319-554-8, S. 137-143, 1994
[3] Caspari, R., 1993, Bottom Up Generation from Flat Semantic Structures, Proc. Deklarative und prozedurale Aspekte der Sprachverarbeitung, Deutsche Gesellschaft für Sprachverarbeitung, Sektion Computerlinguistik, 4. Fachtagung, S. 1-6
[4] Naumann, Sven und Hagen Langer, 1994: Parsing, Stuttgart, Teubner, 1. Auflage, ISBN 3-519-02139-0, S. 155-166
[1] G. Ruske, Automatische Spracherkennung, Oldenbourg- Verlag, 1. Auflage, ISBN 3-486-20877-2, München, S. 106-171, 1988
[2] A. Zell, Simulation neuronaler Netze, Edison Wesley, 1. Auflage, ISBN 3-89319-554-8, S. 137-143, 1994
[3] Caspari, R., 1993, Bottom Up Generation from Flat Semantic Structures, Proc. Deklarative und prozedurale Aspekte der Sprachverarbeitung, Deutsche Gesellschaft für Sprachverarbeitung, Sektion Computerlinguistik, 4. Fachtagung, S. 1-6
[4] Naumann, Sven und Hagen Langer, 1994: Parsing, Stuttgart, Teubner, 1. Auflage, ISBN 3-519-02139-0, S. 155-166
Claims (11)
1. Sprachverarbeitungssystem,
- - mit mehreren Spracherkennungsmodulen (Ei, i=1 . . n) und/oder Sprachausgabemodulen (Aj, j=1 . . m), die jeweils für eine vor gebbare Art einer Spracherkennung und/oder einer Sprachausga be vorgesehen sind, und
- - mit einem Mittel (MA) zur Auswahl mindestens eines Spra cherkennungsmoduls (Ei) und/oder Sprachausgabemoduls (Aj) für eine im weiteren durchzuführende Spracherkennung und/oder Sprachausgabe, abhängig von einem Eingabesignal (ES), mit dem beschrieben wird, welche Art von Spracherkennung und/oder Sprachausgabe im weiteren benötigt wird.
2. Sprachverarbeitungssystem nach Anspruch 1,
bei dem das Mittel (MA) zur Auswahl des Spracherkennungsmo
duls (Ei) und/oder des Sprachausgabemoduls (Aj) derart ausge
staltet ist, daß das Spracherkennungsmodul (Ei) und/oder das
Sprachausgabemodul (Aj) von dem Mittel (MA) gesteuert wird.
3. Sprachverarbeitungssystem nach Anspruch 1 oder 2,
bei dem Teile von dem Spracherkennungsmodul (Ei) und/oder dem
Sprachausgabemodul (Aj), die gemeinsam verwendet werden, in
mindestens einem Vorverarbeitungsmodul (W) und/oder in min
destens einem Nachbearbeitungsmodul realisiert sind.
4. Sprachverarbeitungssystem nach Anspruch 3,
bei dem mehrere Spracherkennungsmodule (Ei) und/oder Sprach
ausgabemodule (Aj) gemeinsame Ressourcen verwenden.
5. Sprachverarbeitungssystem nach einem der Ansprüche 1 bis
4,
bei dem eine Dialogablaufsteuerung (DA) vorgesehen ist, mit
der ein Dialog des Sprachverarbeitungssystems mit einem Be
nutzer (B) des Sprachverarbeitungssystems realisiert wird.
6. Sprachverarbeitungssystem nach einem der Ansprüche 1 bis
5,
bei dem das Eingabesignal (ES) von der Dialogablaufsteuerung
(DA) erzeugt wird.
7. Sprachverarbeitungssystem nach einem der Ansprüche 1 bis
6,
- - bei dem das Spracherkennungsmodul (Ei) mindestens zur Durchführung einer der folgenden Arten der Spracherkennung ausgebildet ist:
- - Einzelziffererkennung,
- - Erkennung von Ziffernketten,
- - Erkennung von Wörtern aus einem begrenzten Vokabular,
- - Erkennung eines Einzelwortes mit einem unbegrenzten Voka bular,
- - Erkennung fließend gesprochener Sprache mit einem unbe grenzten Vokabular,
- - Erkennung von vorgegebenen Wortkombinationen,
- - Schlüsselwort-Erkennung,
- - Alphabeterkennung,
- - Lautfolgenerkennung,
- - Sprechererkennung,
- - DTMF-Erkennung,
und/oder
- - bei dem das Sprachausgabemodul (Aj), mindestens zur Durch führung einer der folgenden Arten der Sprachausgabe ausgebil det ist:
- - Ausgabe vorgegebener, gespeicherter Sprachkonserven,
- - Ausgabe zusammengesetzter einzelner vorgegebener, gespei cherter Sprachkonserven,
- - Ausgabe von aus gespeicherten Phonemen synthetisierten Worten,
- - Ausgabe von DTMF-Tönen.
8. Verfahren zur Sprachverarbeitung,
- - bei dem ein Eingabesignal (ES) analysiert wird (401), mit dem beschrieben wird, welche Art von Spracherkennung und/oder Sprachausgabe im weiteren benötigt wird,
- - bei dem abhängig von dem Eingabesignal (ES) mindestens ein Spracherkennungsmodul (Ei) und/oder mindestens ein Sprachaus gabemodul (Aj), die jeweils für eine vorgebbare Art einer Spracherkennung und/oder einer Sprachausgabe vorgesehen sind, aktiviert wird (402), und
- - bei dem mit dem ausgewählten Spracherkennungsmodul und/oder dem Sprachausgabemodul die jeweilige Art der Spracherkennung und/oder der Sprachausgabe durchgeführt wird (403).
9. Verfahren nach Anspruch 8,
bei dem vor der Spracherkennung eine Vorverarbeitung (VV) des zu erkennenden Sprachsignals erfolgt.
bei dem vor der Spracherkennung eine Vorverarbeitung (VV) des zu erkennenden Sprachsignals erfolgt.
10. Verfahren nach Anspruch 8 oder 9,
bei dem nach der Spracherkennung eine Nachbearbeitung des er
kannten Sprachsignals erfolgt.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19635754A DE19635754A1 (de) | 1996-09-03 | 1996-09-03 | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
CNB971976317A CN100401375C (zh) | 1996-09-03 | 1997-09-02 | 语音处理系统及方法 |
PCT/DE1997/001920 WO1998010413A1 (de) | 1996-09-03 | 1997-09-02 | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung |
EP97942774A EP0925578B1 (de) | 1996-09-03 | 1997-09-02 | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung |
DE59706789T DE59706789D1 (de) | 1996-09-03 | 1997-09-02 | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung |
US09/254,242 US7286989B1 (en) | 1996-09-03 | 1997-09-02 | Speech-processing system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19635754A DE19635754A1 (de) | 1996-09-03 | 1996-09-03 | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19635754A1 true DE19635754A1 (de) | 1998-03-05 |
Family
ID=7804519
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19635754A Withdrawn DE19635754A1 (de) | 1996-09-03 | 1996-09-03 | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
DE59706789T Expired - Lifetime DE59706789D1 (de) | 1996-09-03 | 1997-09-02 | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59706789T Expired - Lifetime DE59706789D1 (de) | 1996-09-03 | 1997-09-02 | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung |
Country Status (5)
Country | Link |
---|---|
US (1) | US7286989B1 (de) |
EP (1) | EP0925578B1 (de) |
CN (1) | CN100401375C (de) |
DE (2) | DE19635754A1 (de) |
WO (1) | WO1998010413A1 (de) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999046763A1 (en) * | 1998-03-09 | 1999-09-16 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for simultaneous multimode dictation |
WO2000058945A1 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Recognition engines with complementary language models |
WO2001001389A2 (de) * | 1999-06-24 | 2001-01-04 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur spracherkennung |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
EP1094445A2 (de) * | 1999-10-19 | 2001-04-25 | Microsoft Corporation | Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung |
DE10063148A1 (de) * | 2000-12-18 | 2002-06-20 | Deutsche Telekom Ag | Dialoganlage für eine Mensch-Maschine-Interaktion mit kooperierenden Dialogeinrichtungen |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
DE10063796B4 (de) * | 2000-12-21 | 2005-06-09 | Daimlerchrysler Ag | Verfahren zur Sprechererkennung für Sicherheitssysteme in Kombination mit Spracherkennung |
EP1604350A2 (de) * | 2002-09-06 | 2005-12-14 | Voice Signal Technologies Inc. | Verfahren, systeme und programmierung zur durchführung der spracherkennung |
DE102006036338A1 (de) * | 2006-08-03 | 2008-02-07 | Siemens Ag | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem |
EP2006835A1 (de) * | 2007-06-20 | 2008-12-24 | Siemens Aktiengesellschaft | Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems |
DE102008007698A1 (de) * | 2008-02-06 | 2009-08-13 | Siemens Aktiengesellschaft | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
DE102008025532A1 (de) * | 2008-05-28 | 2009-12-10 | Audi Ag | Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung |
DE102013001219A1 (de) * | 2013-01-25 | 2014-07-31 | Inodyn Newmedia Gmbh | Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6961700B2 (en) | 1996-09-24 | 2005-11-01 | Allvoice Computing Plc | Method and apparatus for processing the output of a speech recognition engine |
GB0004097D0 (en) | 2000-02-22 | 2000-04-12 | Ibm | Management of speech technology modules in an interactive voice response system |
US7809574B2 (en) | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
KR100778014B1 (ko) * | 2005-09-16 | 2007-11-21 | 한국건설기술연구원 | 영상을 이용한 액체 높이 측정 장치 및 방법 |
DE102005061365A1 (de) * | 2005-12-21 | 2007-06-28 | Siemens Ag | Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem |
US7881928B2 (en) * | 2006-09-01 | 2011-02-01 | International Business Machines Corporation | Enhanced linguistic transformation |
US8321218B2 (en) * | 2009-06-19 | 2012-11-27 | L.N.T.S. Linguistech Solutions Ltd | Searching in audio speech |
CN101923854B (zh) * | 2010-08-31 | 2012-03-28 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
US8812321B2 (en) * | 2010-09-30 | 2014-08-19 | At&T Intellectual Property I, L.P. | System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning |
CN104036774B (zh) * | 2014-06-20 | 2018-03-06 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
CN105182763A (zh) * | 2015-08-11 | 2015-12-23 | 中山大学 | 一种基于语音识别的智能遥控器及实现方法 |
CN108922450B (zh) * | 2018-05-30 | 2022-07-01 | 如你所视(北京)科技有限公司 | 在房屋虚拟三维空间中讲房内容自动播放控制方法及装置 |
EP4095853B1 (de) * | 2021-05-27 | 2023-11-15 | Honeywell International Inc. | Dynamische spracherkennungsverfahren und systeme mit benutzerkonfigurierbarer leistung |
US11688390B2 (en) | 2021-05-27 | 2023-06-27 | Honeywell International Inc. | Dynamic speech recognition methods and systems with user-configurable performance |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2119208A (en) * | 1982-04-28 | 1983-11-09 | Gen Electric Co Plc | Method of and apparatus for generating a plurality of electric signals |
DE4412309A1 (de) * | 1994-04-09 | 1995-10-12 | Telefonbau & Normalzeit Gmbh | Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2165969B (en) * | 1984-10-19 | 1988-07-06 | British Telecomm | Dialogue system |
DE3514286A1 (de) * | 1985-04-19 | 1986-10-23 | Siemens AG, 1000 Berlin und 8000 München | System zur erkennung einzeln gesprochener woerter |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
US5036539A (en) * | 1989-07-06 | 1991-07-30 | Itt Corporation | Real-time speech processing development system |
PL171980B1 (pl) * | 1992-06-15 | 1997-07-31 | British Telecomm | Interakcyjne urzadzenie telekomunikacyjne PL PL PL PL |
AU5803394A (en) * | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
US5632002A (en) | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
US5572624A (en) * | 1994-01-24 | 1996-11-05 | Kurzweil Applied Intelligence, Inc. | Speech recognition system accommodating different sources |
US5666400A (en) * | 1994-07-07 | 1997-09-09 | Bell Atlantic Network Services, Inc. | Intelligent recognition |
GB9424887D0 (en) * | 1994-12-09 | 1995-02-08 | Univ Oxford Brookes | Computer apparatus with dialogue-based input system |
US5832430A (en) * | 1994-12-29 | 1998-11-03 | Lucent Technologies, Inc. | Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification |
JP3254994B2 (ja) | 1995-03-01 | 2002-02-12 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US5684924A (en) * | 1995-05-19 | 1997-11-04 | Kurzweil Applied Intelligence, Inc. | User adaptable speech recognition system |
US5677991A (en) * | 1995-06-30 | 1997-10-14 | Kurzweil Applied Intelligence, Inc. | Speech recognition system using arbitration between continuous speech and isolated word modules |
US5794196A (en) * | 1995-06-30 | 1998-08-11 | Kurzweil Applied Intelligence, Inc. | Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules |
CA2180392C (en) * | 1995-07-31 | 2001-02-13 | Paul Wesley Cohrs | User selectable multiple threshold criteria for voice recognition |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
US6374219B1 (en) * | 1997-09-19 | 2002-04-16 | Microsoft Corporation | System for using silence in speech recognition |
US6075844A (en) * | 1997-11-18 | 2000-06-13 | At&T Corp. | Messaging system with remote messaging recording device where the message is routed based on the spoken name of the recipient |
-
1996
- 1996-09-03 DE DE19635754A patent/DE19635754A1/de not_active Withdrawn
-
1997
- 1997-09-02 DE DE59706789T patent/DE59706789D1/de not_active Expired - Lifetime
- 1997-09-02 WO PCT/DE1997/001920 patent/WO1998010413A1/de active IP Right Grant
- 1997-09-02 US US09/254,242 patent/US7286989B1/en not_active Expired - Fee Related
- 1997-09-02 EP EP97942774A patent/EP0925578B1/de not_active Expired - Lifetime
- 1997-09-02 CN CNB971976317A patent/CN100401375C/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2119208A (en) * | 1982-04-28 | 1983-11-09 | Gen Electric Co Plc | Method of and apparatus for generating a plurality of electric signals |
DE4412309A1 (de) * | 1994-04-09 | 1995-10-12 | Telefonbau & Normalzeit Gmbh | Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6292779B1 (en) | 1998-03-09 | 2001-09-18 | Lernout & Hauspie Speech Products N.V. | System and method for modeless large vocabulary speech recognition |
WO1999046763A1 (en) * | 1998-03-09 | 1999-09-16 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for simultaneous multimode dictation |
WO2000058945A1 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Recognition engines with complementary language models |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
WO2001001389A2 (de) * | 1999-06-24 | 2001-01-04 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur spracherkennung |
WO2001001389A3 (de) * | 1999-06-24 | 2001-03-29 | Siemens Ag | Verfahren und vorrichtung zur spracherkennung |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
EP1094445A3 (de) * | 1999-10-19 | 2001-09-12 | Microsoft Corporation | Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung |
US6581033B1 (en) | 1999-10-19 | 2003-06-17 | Microsoft Corporation | System and method for correction of speech recognition mode errors |
EP1094445A2 (de) * | 1999-10-19 | 2001-04-25 | Microsoft Corporation | Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung |
DE10063148A1 (de) * | 2000-12-18 | 2002-06-20 | Deutsche Telekom Ag | Dialoganlage für eine Mensch-Maschine-Interaktion mit kooperierenden Dialogeinrichtungen |
WO2002051108A2 (de) | 2000-12-18 | 2002-06-27 | Deutsche Telekom Ag | Dialoganlage für eine mensch-maschine-interaktion mit kooperierenden dialogeinrichtungen |
US7437292B2 (en) | 2000-12-18 | 2008-10-14 | Deutsche Telekom Ag | Dialog system for a man-machine interaction having cooperating dialog devices |
DE10063796B4 (de) * | 2000-12-21 | 2005-06-09 | Daimlerchrysler Ag | Verfahren zur Sprechererkennung für Sicherheitssysteme in Kombination mit Spracherkennung |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
EP1604350A2 (de) * | 2002-09-06 | 2005-12-14 | Voice Signal Technologies Inc. | Verfahren, systeme und programmierung zur durchführung der spracherkennung |
EP1604350A4 (de) * | 2002-09-06 | 2007-11-21 | Voice Signal Technologies Inc | Verfahren, systeme und programmierung zur durchführung der spracherkennung |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
US7630878B2 (en) | 2003-07-28 | 2009-12-08 | Svox Ag | Speech recognition with language-dependent model vectors |
DE102006036338A1 (de) * | 2006-08-03 | 2008-02-07 | Siemens Ag | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem |
EP2006835A1 (de) * | 2007-06-20 | 2008-12-24 | Siemens Aktiengesellschaft | Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems |
DE102008007698A1 (de) * | 2008-02-06 | 2009-08-13 | Siemens Aktiengesellschaft | Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem |
DE102008025532A1 (de) * | 2008-05-28 | 2009-12-10 | Audi Ag | Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung |
DE102008025532B4 (de) * | 2008-05-28 | 2014-01-09 | Audi Ag | Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung |
DE102013001219A1 (de) * | 2013-01-25 | 2014-07-31 | Inodyn Newmedia Gmbh | Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
Also Published As
Publication number | Publication date |
---|---|
EP0925578A1 (de) | 1999-06-30 |
CN100401375C (zh) | 2008-07-09 |
DE59706789D1 (de) | 2002-05-02 |
CN1228866A (zh) | 1999-09-15 |
US7286989B1 (en) | 2007-10-23 |
WO1998010413A1 (de) | 1998-03-12 |
EP0925578B1 (de) | 2002-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69625950T2 (de) | Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE69607601T2 (de) | System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax | |
EP0802522B1 (de) | Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens | |
DE69225173T2 (de) | Spracherkennungsgerät | |
DE60026637T2 (de) | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems | |
DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE69816676T2 (de) | System und verfahren zur bestimmung und minimalisierung eines endlichen transducers zur spracherkennung | |
DE69514382T2 (de) | Spracherkennung | |
DE60123952T2 (de) | Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE69518723T2 (de) | Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69327188T2 (de) | Einrichtung für automatische Spracherkennung | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE68928097T2 (de) | Spracherkennungssystem | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE60313706T2 (de) | Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium | |
DE69607913T2 (de) | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle | |
DE602004006641T2 (de) | Audio-dialogsystem und sprachgesteuertes browsing-verfahren | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8139 | Disposal/non-payment of the annual fee |