DE102005010285A1

DE102005010285A1 - Verfahren und System zur Spracherkennung

Info

Publication number: DE102005010285A1
Application number: DE200510010285
Authority: DE
Inventors: Felix Burkhardt; Marcus Van Ballegooy
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2005-03-01
Filing date: 2005-03-01
Publication date: 2006-09-07

Abstract

Mit der Erfindung soll eine Lösung für eine verbesserte Spracherkennung gegeben werden, welche insbesondere im Hinblick auf den Einsatz in sprachgesteuerten Systemen beziehungsweise Dialogsystemen eine flexible und komfortable Sprachsteuerung mit hoher Erkennungsrate ermöglicht. DOLLAR A Dies wird erfindungsgemäß dadurch erreicht, dass neben der sprachlichen Analyse des Sprachsignals in einem Emotionserkenner dessen Analyse im Hinblick auf die Ermittlung eines emotionalen Zustands einer sich sprachlich äußernden Person erfolgt. In Abhängigkeit des Ergebnisses der emotionalen Analyse, welches in Form eines diskreten Wertes den jeweiligen Erregungszustand der Person beschreibt, werden durch den Spracherkenner unterschiedliche Sprachmodelle für die sprachliche Analyse verwendet.

Description

Die Erfindung bezieht sich auf ein Verfahren und ein System zur Spracherkennung. Sie betrifft insbesondere die Erkennung von Sprachsignalen der Nutzer sprachgesteuerter Systeme, gegebenenfalls automatischer Dialogsysteme, vorzugsweise mit einer Client-Server-Struktur, wobei jedoch die Anwendung des Verfahrens hierauf nicht beschränkt ist.
Automatische Dialogsysteme sind bereits seit längerem bekannt und vielfach im Einsatz. Weit verbreitet ist beispielsweise die Dialogsteuerung bei Telefonaten, insbesondere beim Anruf von Callcentern oder Servicehotlines. Häufig wird dabei die Möglichkeit genutzt, den Dialog seitens des Nutzers über Tasten der Wähltastatur des Telefons zu steuern, wobei die jeweils gedrückte Taste bei Nutzung des Mehrfrequenzwahlverfahrens anhand der Frequenz des bei ihrer Betätigung jeweils erzeugten Wähltons feststellbar ist. Jedoch sind automatische Dialogsysteme nicht nur in der Telefonie bekannt, so dass die vorstehend genannte Möglichkeit für andere Dialogsysteme oftmals nicht in Betracht kommt. Aber auch bei der Telefonie wird unter anderem im Hinblick darauf, dass in der Vergangenheit das Mehrfrequenzwahlverfahren durch viele Telefonapparate nicht unterstützt wurde, seit längerem die Möglichkeit einer Dialogsteuerung mittels des vom Nutzer gesprochenen Worts genutzt. Zudem sind bei der Nutzung der Sprache wesentlich komplexere Steuerungsmöglichkeiten gegeben. In dem Maße, wie sich in den letzten Jahren die Zuverlässigkeit der Spracherkennung verbessert hat, hat sich der Umfang der Nutzung sprachgesteuerter Systeme, nicht nur unter dem Gesichtspunkt einer Anwendung in Dialogsystemen stark erhöht.
Für die auf semantischer und/oder grammatikalischer Grundlage beruhende Spracherkennung ist eine Vielzahl von Verfahren und Systemen bekannt. Auch wenn sich Zuverlässigkeit und Treffsicherheit derartiger Systeme deutlich erhöht haben, sind die mit ihnen realisierten sprachgesteuerten Systeme in ihren Abläufen und Verzweigungsmöglichkeiten bislang zumeist relativ starr. Das heißt, sie gehen abseits eines festgelegten grammatikalischen Wortschatzes beziehungsweise eines semantischen Wertevorrats kaum auf den Nutzer ein. Insbesondere werden Schwierigkeiten, auf die der Nutzer bei der Nutzung der Systeme stößt und welche ihn gegebenenfalls verunsichern und ihn dadurch emotional negativ beeinflussen, nicht berücksichtigt.
Andererseits sind zur Nutzung auf anderen Gebieten bereits Verfahren entwickelt worden, welche es ermöglichen, sprachliche Äußerungen durch eine prosodische Emotionsanalyse zu bewerten. Ein entsprechendes Verfahren wird beispielsweise durch die AU 0 770 410 B beschrieben.

Aufgabe der Erfindung ist es, eine Lösung für eine verbesserte Spracherkennung zu schaffen, welche insbesondere, im Hinblick auf den Einsatz in sprachgesteuerten Systemen beziehungsweise Dialogsystemen, eine flexible und komfortable Sprachsteuerung mit hoher Erkennungsrate ermöglicht.

Die Erfindung wird durch ein Verfahren mit den Merkmalen des Hauptanspruchs gelöst. Ein die Aufgabe lösendes System wird durch den ersten vorrichtungsbezogenen Patentanspruch charakterisiert. Vorteilhafte Ausbeziehungsweise Weiterbildungen der Erfindung sind durch die jeweiligen Unteransprüche gegeben.

Zur Spracherkennung, das heißt zur Erkennung des Bedeutungsinhalts sprachlicher Äußerungen einer Person wird das Sprachsignal dem Spracherkenner eines Spracherkennungssystems zugeführt und in bekannter Weise auf der Grundlage hinterlegter Sprachmodelle sprachlich analysiert. Erfindungsgemäß erfolgt jedoch neben der rein sprachlichen Analyse des Sprachsignals in einem Emotionserkenner dessen Analyse im Hinblick auf die Ermittlung eines emotionalen Zustands der betreffenden Person. In Abhängigkeit des Ergebnisses dieser emotionalen Analyse, welches in Form eines diskreten Wertes den jeweiligen Erregungszustand der Person beschreibt, werden erfindungsgemäß durch den Spracherkenner unterschiedliche Sprachmodelle für die sprachliche Analyse verwendet. An dieser Stelle sei bemerkt, dass die Sprachanalyse auf der Grundlage entsprechender Sprachmodelle als solches, ebenso wie die dazu eingesetzten soft- und hardwarebasierten Mittel bekannt und daher nicht Gegenstand der vorliegenden Erfindung ist. Gleiches gilt für die Möglichkeit, aus einem Sprachsignal Aussagen über den emotionalen Zustand einer jeweils sprechenden Person abzuleiten. Der Erfindung liegt vielmehr die Idee zugrunde, die beiden vorgenannten Möglichkeiten, also die Interpretation des Bedeutungsinhalts eines Sprachsignals auf der Grundlage sprachlicher Modelle mit der Erkennung von emotionalen Zuständen anhand des Sprachsignals, miteinander in Beziehung zu bringen. Und zwar in der Weise, dass je nach bei der emotionalen Analyse festgestelltem Erregungszustand einer Person unterschiedliche Sprachmodelle für die Erkennung von ihr getätigter sprachlicher Äußerungen zum Einsatz gelangen. Deren Auswahl erfolgt dadurch, dass als Abbild des jeweils festgestellten Erregungszustands von der oder den zur Emotionsanalyse eingesetzten Einheiten ein diskreter Wert (Emotionsindikator) als Element einer begrenzten Menge zur Abbildung von Emotionszuständen dienender Werte zurückgegeben und, bezogen den Ablauf der Spracherkennung in dem hierfür ausgebildeten System, quasi eine Verzweigung entsprechend dem jeweiligen Emotionsindikator erfolgt, in deren Ergebnis für die sprachliche Analyse ein in dem jeweiligen Ablaufzweig vorgesehenes Sprachmodell herangezogen wird, welches sich von den in anderen Ablaufzweigen zur Anwendung gelangenden Sprachmodellen unterscheidet. Auf diese Weise wird die Genauigkeit der Spracherkennung gegenüber einer Erkennung mittels nur eines, vom Erregungszustand völlig unabhängigen Sprachmodells deutlich verbessert.

Bei einer praxisgerechten Umsetzung des erfindungsgemäßen Verfahrens erfolgt die sprachliche Analyse durch den Spracherkenner, in wiederum bekannter Weise, auf der Grundlage einer Analyse des Sprechklangs der sprachlichen Äußerungen mit Hilfe im System abgebildeter akustischer Modelle und eines Vergleichs dieser Äußerungen mit einer im System hinterlegten Grammatik. Dabei definiert die Grammatik einen durch das System interpretierbaren Sprachraum, in Bezug auf welchen die sprachlichen Äußerungen auf Übereinstimmungen geprüft werden. Zur Verwirklichung des erfindungsgemäßen Verfahren sind jedoch mehrere akustische Modelle sowie mehrere Grammatiken in dem Spracherkenner hinterlegt. Sowohl das für die Sprachanalyse verwendete akustische Modell als auch die Grammatik werden dabei in Abhängigkeit des Ergebnisses der emotionalen Analyse eines Sprachsignals der selben Person ausgewählt.

Entsprechend einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens ist das Verfahrensregime so gestaltet, dass die emotionale Analyse des Sprachsignals seiner sprachlichen Analyse vorausgeht. Hierdurch ist gewährleistet, dass für die sprachliche Analyse durch den Spracherkenner ein Sprachmodell verwendet wird, welches unmittelbar mit dem, zur Beschreibung des Erregungszustands der Person, aus demselben Sprachsignal abgeleiteten diskreten Wert (Emotionsindikator) korrespondiert.

Zur Generierung beziehungsweise Implementierung der verschiedenen Sprachmodelle im System sind unterschiedliche Vorgehensweisen denkbar. So können diese beispielsweise auf bestimmte Personen zugeschnitten beziehungsweise an diese gebunden sein und im Zuge einer Anlernphase des Systems im Spracherkenner des Systems hinterlegt werden. Eine solche Vorgehensweise ist beispielsweise von Spracherkennungssoftware, welche im Office-Bereich eingesetzt wird, grundsätzlich bekannt. Allerdings setzt dies voraus, dass die betreffende Person dass System auch in unterschiedlichen Erregungszuständen, also beispielsweise auch, wenn sie verärgert ist, anlernt. Im Hinblick auf Sprachportale beziehungsweise Plattformen kommt aber vorzugsweise die Möglichkeit in Betracht, die akustischen Modelle aus transkribierten Mitschnitten von Sprachportalen abzuleiten. Hinsichtlich der Grammatik kann dabei auf einen allgemeinen Erfahrungsschatz zurückgegriffen werden, um beispielsweise eine Grammatik zu hinterlegen, welche ein für den Zustand der Verärgerung typisches Vokabular umfasst. Die emotionale Analyse erfolgt vorzugsweise durch eine prosodische Bewertung der sprachlichen Äußerungen.

Ein zur Umsetzung des Verfahrens geeignetes Spracherkennungssystem weist als wesentliche Bestandteile Mittel zur Spracheingabe sowie einen software- und hardwarebasierten Spracherkenner zur Analyse der über die Mittel zur Spracheingabe eingegebenen Sprachsignale auf. Erfindungsgemäß verfügt das System jedoch, abweichend vom Stand der Technik, nicht nur über einen Spracherkenner, sondern außerdem über einen auf prosodischer Grundlage arbeitenden Emotionserkenner, welcher mit dem Spracherkenner in einer Wirkverbindung steht. In dem Spracherkenner sind mehrere akustische Modelle und mehrere Grammatiken zur sprachlichen Analyse eingehender Sprachsignale hinterlegt. Die Wirkverbindung mit dem Emotionserkenner ist dergestalt, dass durch eine Steuereinheit, welche unmittelbarer Teil des Spracherkenners oder diesem zumindest zugeordnet ist, das zur Analyse eines Sprachsignal jeweils herangezogene akustische Modell sowie die hierzu verwendete Grammatik auf der Grundlage eines vom Emotionserkenner an die Steuereinheit übertragenen Emotionsindikators ausgewählt werden. Bei dem an die Steuereinheit übertragenen Emotionsindikator handelt es sich, wie bereits zum Verfahren ausgeführt, um einen den Erregungszustand der sprechenden Person beschreibenden diskreten Wert.

Entsprechend einer Ausgestaltung ist das erfindungsgemäße Spracherkennungssystem Teil einer Client-Server-Architektur, bei der Sprachkommandos, mittels des als Teil des Clients realisierten Spracherkenners in zeichenbasierte Kommandos umgesetzt und die Kommandos an einen Applikationsserver zur Steuerung darauf gehaltener Anwendungen übertragen werden. Der Client ist beispielsweise als ein VoiceXML-Browser ausgebildet. Um den VoiceXML-Standard nicht verändern zu müssen beziehungsweise eine Nutzung der Erfindung auch mit nach dem bestehenden Standard arbeitenden VoiceXML-Browsern zu ermöglichen, kann der Emotionserkenner auf dem Applikationsserver installiert sein. Er erhält dann die Sprachsignale vom Client via HTTP-multipart POST-request und gibt das Ergebnis der emotionalen Analyse in Form in einem VoiceXML-Dokument enthaltener Instruktionen an diesen zurück. Auf der Grundlage dieser Instruktionen wird das Sprachmodul für die sprachliche Analyse ausgewählt. Allerdings wirkt sich hierbei das Ergebnis der emotionalen Analyse erst auf den jeweils nachfolgenden Sprachanalysevorgang aus.

Entsprechend einer vorteilhaften Möglichkeit ist daher der Emotionserkenner als ein dem Spracherkenner vorgeschalteter Teil des Clients realisiert. Dies bedingt jedoch gegebenenfalls eine Anpassung des VoiceXML-Standards, zumindest aber des VoiceXML-Browsers.

Bei einer einfachen Ausbildungsform der Erfindung ist der Emotionserkenner als ein nur zwischen den beiden Zuständen „erregt" und „nicht erregt" unterscheidender Emotionsdetektor ausgebildet.

Die Erfindung soll nachfolgend anhand eines Ausführungsbeispiels nochmals näher erläutert werden. Dabei sollen die zugehörigen Zeichnungen sowohl der Erläuterung verfahrensbezogener als auch vorrichtungsbezogener Aspekte der Erfindung dienen. Im Einzelnen zeigen:

1: Eine erste Variante des erfindungsgemäßen Spracherkennungssystems als Teil einer Client-Server-Struktur.

2: Eine weitere Variante einer entsprechenden Client-Server-Struktur

Die 1 zeigt in einer groben schematischen Darstellung die wesentlichen, sich auf die Erfindung beziehenden Teile eines sprachgesteuerten Systems, welches eine Client-Server-Struktur aufweist. Hierbei kann es sich um ein System handeln, welches Sprachbefehle entgegennimmt und die entsprechenden Bearbeitungsschritte ausführt. Bei dem System kann es sich aber auch um ein Sprachdialogsystem handeln, wobei die Systemantworten auf sprachliche Eingaben eines Benutzers nicht notwendiger Weise ebenfalls in sprachlicher Form erfolgen müssen. Vielmehr können die Systemantworten in visueller, akustischer oder in einer sonstigen Form ausgegeben werden. In jedem Falle ermöglicht jedoch das System die Verarbeitung von Spracheingaben auf der Grundlage der Spracherkennung.

Die im Hinblick auf die Erfindung wesentlichen Komponenten des Systems sind durch Mittel zur Spracheingabe 6, eine Einheit zur Spracherkennung beziehungsweise den Spracherkenner 1, einen Emotionsdetektor 2 und Einheiten 8 zur Ausführung der durch die Spracherkennung erkannten Kommandos des Benutzers gegeben, wobei die diese Mittel darstellenden Symbole jeweils hard- und/oder softwarebasierte Komponenten versinnbildlichen.

Bei einem Sprachdialogsystem umfassen letztgenannte Einheiten auch Mittel 7 zur Ausgabe einer Systemantwort. Bei der in der 1 gezeigten Variante ist der Emotionserkenner 2 beziehungsweise -detektor auf dem Server 20 der dargestellten Client-Server-Struktur ausgebildet. Die von dem Client 10 empfangenen Spracheingabesignale werden dem Spracherkenner 1 und, via HTTP-multipart POST-request dem Emotionserkenner 2 auf dem Server 20 zugeführt. Dabei werden durch den Emotionserkenner 2 schwellwertbasiert, vorzugsweise auf der Grundlage einer prosodischen Analyse, verschiedene Emotionszustände des Systembenutzers unterschieden. In dem gezeigten Beispiel sei angenommen, dass der Emotionserkenner 2 als ein zwischen den Emotionszuständen "nicht erregt" und "ärgerlich" unterscheidender Emotionsdetektor arbeitet. Der Spracherkenner 1 arbeitet nach grundsätzlich bekannten Verfahren auf der Grundlage einer akustischen und grammatischen Analyse des Sprachsignals. In erfindungswesentlicher Weise werden jedoch zur Spracherkennung akustische Modelle 5, 5' und Grammatiken 4, 4' herangezogen, welche auch ein akustisches Modell 5' und eine Grammatik 4' für den Zustand emotionaler Erregung (verärgert) abbilden. Dabei wird der Tatsache Rechnung getragen, dass sich eine Person im Zustand emotionaler Erregung anders artikuliert, als im nicht erregten Zustand und dass sich bei Erregung auch das akustische Signal im Hinblick auf Merkmale wie beispielsweise Stimmlage und Intonation ändert. Demzufolge sind dem in der 1 gezeigten Spracherkenner 1 je ein akustisches Modell 5, 5' und je eine Grammatik 4, 4' zugeordnet, welche Sprachmodelle bezüglich eines emotional nicht erregten Zustands und eines emotional erregten Zustands, beispielsweise des Zustands der Verärgerung, abbilden. Die Auswahl des jeweils zur Anwendung kommenden aus akustischem Modell 5, 5' und Grammatik 4, 4' bestehenden Sprachmodells erfolgt aufgrund des von dem Emotionsdetektor 2 erkannten emotionalen Zustands des Systembenutzers. Das Ergebnis der emotionalen Analyse, welches vom Emotionsdetektor 2 zu einer Steuereinheit 3 des Spracherkenners 1 übermittelt wird, ist ein zwischen den beiden Zuständen „nicht erregt" und „ärgerlich" unterscheidender diskreter Wert. In Abhängigkeit dieses Wertes steuert die Steuereinheit den Spracherkenner 1 an und veranlasst diesen, durch ein entsprechendes Steuersignal, im Falle einer festgestellten emotionalen Erregung des Benutzers, die Spracherkennung nicht auf der Basis des sonst verwendeten Sprachmodells, sondern auf der Basis des Sprachmodells mit der speziell am Zustand der emotionalen Erregung orientierten Grammatik 4' und eines entsprechenden akustischen Modells 5' vorzunehmen. Durch die Berücksichtigung des emotionalen Erregungszustandes des Benutzers in Form der Anwendung des jeweils zutreffenden Sprachmodells mit der darin abgebildeten Grammatik 4, 4' wird die Spracherkennung verbessert und somit die Angemessenheit der Systemreaktion sichergestellt. Bei der in der 1 dargestellten Variante sind der Spracherkenner 1 auf dem Client 10 und der Emotionserkenner 2 beziehungsweise -detektor auf dem Server 20 realisiert. Die parallele Zuführung des Sprachsignals zu beiden Einheiten hat zur Folge, dass die Spracherkennung zum Zeitpunkt des Starts eines sprachgesteuerten Verfahrensablaufs oder eines Sprachdialogs zunächst ohne Berücksichtigung des Emotionszustandes erfolgen muss, da natürlich zu diesem Zeitpunkt noch kein Ausgangssignal des Emotionsdetektors 2 vorliegt. Erst mit der Fortführung des Verfahrens beziehungsweise des Dialogs fließen dann die Detektionsergebnisse des Emotionsdetektors 2 in die Spracherkennung ein.

Der Ablauf bei der Nutzung des in der 1 dargestellten Systems, beispielsweise eines Sprachdialogsystems, gestaltet sich in etwa wie folgt. Mittels seines in der 1 nicht dargestellten Telefons wählt der Benutzer über das PSTN (Public Switched Telephone Network) eine entsprechende Zugangsnummer eines Service Providers an. Zur Führung des Dialogs beziehungsweise zur Nutzung der Inhalte wird ihm von dem Service Provider auf dessen Zugangseinrichtungen, gegebenenfalls nach Durchführung einer Authentifikationsprozedur, ein Client 10 in Form eines VoiceXML-Browsers zur Verfügung gestellt. Mittels des VoiceXML-Browsers kann der Nutzer des Sprachdialogsystems, ähnlich wie mit einem gewöhnlichen zeichenbasierten Browser, navigieren, auf die Inhalte zugreifen und diese Inhalte nutzen. Die Navigation erfolgt mit entsprechenden Sprachkommandos, welche mit Hilfe des Spracherkenners 1 des VoiceXML-Browsers in zeichenbasierte Kommandos umgesetzt werden. Die Inhalte beziehungsweise der Content werden dem Benutzer in Form von Sprache beziehungsweise entsprechenden Audiodateien über das PSTN an seinem Telefon zur Verfügung gestellt. Das heißt, der VoiceXML-Browser „liest" ihm die jeweiligen Inhalte vor. Diese Inhalte liegen in Form netzbasierter Anwendungen beziehungsweise Applikationen 8 auf dem Applikationsserver 20 vor, auf welchen der Benutzer durch die sprachgesteuerte Navigation über den VoiceXML-Browser Zugriff hat. Entsprechend der von ihm gegebenen Navigationskommandos steuert der Benutzer die ihn jeweils interessierenden Inhalte beziehungsweise die ihn interessierenden Anwendungen 8. Die Nutzung der Inhalte beziehungsweise das Navigieren in den die Inhalte zur Verfügung stellenden Anwendungen 8 werden entsprechend der Erfindung zusätzlich zur sprachlichen Analyse der Sprachkommandos durch eine Analyse des jeweiligen emotionalen Zustands des Benutzers unterstützt. Dabei werden durch die Wahl unterschiedlicher Sprachmodelle 4, 5, 4', 5' für die sprachliche Analyse, in Abhängigkeit des emotionalen Zustands der das System nutzenden Person, die Spracherkennung verbessert und hierdurch dem Nutzer mit größerer Zuverlässigkeit die ihn tatsächlich interessierende Anwendung zur Verfügung gestellt.

Durch die 2 wird jedoch eine verbesserte Variante des Systems gezeigt, welche bereits auch zu Beginn eines sprachgesteuerten Verfahrensablaufs oder eines Dialogs die Berücksichtigung des Emotionszustandes des Bedieners bei der Erkennung seiner Spracheingaben ermöglicht. Dazu ist bei dieser Variante der Emotionserkenner 2, ebenso wie der Spracherkenner 1 auf dem Client 10 realisiert. Hierdurch ist es möglich, bei der sprachlichen Analyse eines Sprachsignals ein aus der entsprechenden Grammatik 4, 4' und einem akustischen Modell 5, 5' bestehendes Sprachmodell zu verwenden, welches unmittelbar mit dem, zur Beschreibung des Erregungszustands der Person, vom Emotionsdetektor 2 aus demselben Sprachsignal abgeleiteten diskreten Wert korrespondiert. Somit können bereits zu Beginn des Verfahrens oder des Dialogs die jeweils richtige Grammatik 4, 4' und das zutreffende akustische Modell 5, 5' in die Spracherkennung einbezogen werden.

1: Spracherkenner
2: Emotionserkenner bzw. Emotionsdetektor
3: Steuereinheit des Spracherkenners
4: Grammatik
4': Grammatik für emotionale Erregung
5: akustisches (Sprach-)Modell
5': akustisches (Sprach-)Modell für emotionale Erregung
6: Mittel zur Spracheingabe
7: Mittel zur Sprachausgabe
8: Anwendungen bzw. Applikationen
10: Client
20: Server

Claims

Verfahren zur Spracherkennung durch ein dazu ausgebildetes System, bei welchem das Sprachsignal zur Erkennung des Bedeutungsinhalts sprachlicher Äußerungen einer Person einem Spracherkenner (1) zugeführt und auf der Grundlage darin hinterlegter Sprachmodelle (4, 5, 4', 5') sprachlich analysiert wird, dadurch gekennzeichnet, dass neben der sprachlichen Analyse des Sprachsignals in einem Emotionserkenner (2) dessen Analyse im Hinblick auf die Ermittlung eines emotionalen Zustands der betreffenden Person erfolgt und in Abhängigkeit des Ergebnisses der emotionalen Analyse, welches in Form eines diskreten Wertes den jeweiligen Erregungszustand der Person beschreibt, durch den Spracherkenner (1) unterschiedliche Sprachmodelle (4, 5, 4', 5') für die sprachliche Analyse verwendet werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die sprachliche Analyse durch den Spracherkenner (1) auf der Grundlage einer Analyse des Sprechklangs der sprachlichen Äußerungen und ihres Vergleichs mit einer im System hinterlegten Grammatik (4, 4') erfolgt, wobei die Analyse des Sprechklangs mit Hilfe im System abgebildeter akustischer Modelle (5, 5') erfolgt und die Grammatik (4, 4') einen durch das System interpretierbaren Sprachraum definiert, in Bezug auf welchen die sprachlichen Äußerungen auf Übereinstimmungen geprüft werden und dass mehrere akustische Modelle (5, 5') sowie mehrere Grammatiken (4, 4') in dem Spracherkenner (1) hinterlegt sind und für die Analyse eines Sprachsignals jeweils sowohl das dafür verwendete akustische Modell (5, 5') als auch die Grammatik (4, 4') in Abhängigkeit des Ergebnisses der emotionalen Analyse eines Sprachsignals der selben Person ausgewählt werden.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die emotionale Analyse des Sprachsignals seiner sprachlichen Analyse vorausgeht, so dass für die sprachliche Analyse durch den Spracherkenner (1) ein Sprachmodell (4, 5, 4', 5') verwendet wird, welches unmittelbar mit dem, zur Beschreibung des Erregungszustands der Person, aus demselben Sprachsignal abgeleiteten diskreten Wert korrespondiert.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass personengebundene akustische Modelle (5, 5') im Zuge einer Anlernphase des Systems hinterlegt werden.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die akustischen Modelle (5, 5') aus transkribierten Mitschnitten von Sprachportalen abgeleitet werden.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die emotionale Analyse durch eine prosodische Bewertung einer sprachlichen Äußerung erfolgt.
Spracherkennungssystem mit Mitteln zur Spracheingabe (6) und einem Spracherkenner (1) zur Analyse über die Mittel zur Spracheingabe (6) eingegebener Sprachsignale, dadurch gekennzeichnet, dass dieses über einen auf prosodischer Grundlage arbeitenden Emotionserkenner (2) verfügt, wobei in dem Spracherkenner (1) mehrere akustische Modelle (5, 5') und mehrere Grammatiken (4, 4') zur sprachlichen Analyse eingehender Sprachsignale hinterlegt sind und durch eine in den Spracherkenner (1) integrierte oder diesem zugeordnete Steuereinheit (3) die Auswahl des zur Analyse eines Sprachsignals herangezogenen akustischen Modells (5, 5') sowie der hierzu verwendeten Grammatik (4, 4') jeweils auf der Grundlage eines vom Emotionserkenner (2) an die Steuereinheit (3) übertragenen, den Erregungszustand der sprechenden Person beschreibenden diskreten Wertes erfolgt.
Spracherkennungssystem nach Anspruch 7, als Teil einer Client-Server-Architektur, bei welcher Sprachkommandos, mittels des als Teil des Clients (10) realisierten Spracherkenners in zeichenbasierte Kommandos umgesetzt und die Kommandos an einen Applikationsserver (20) zur Steuerung darauf gehaltener Anwendungen übertragen werden, dadurch gekennzeichnet, dass der Emotionserkenner (2) als ein dem Spracherkenner (1) vorgeschalteter Teil des Clients (10) realisiert ist.
Spracherkennungssystem nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass der Client (10) als ein VoiceXML-Browser ausgebildet ist.
Spracherkennungssystem nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass der Emotionserkenner (2) als ein zwischen den beiden Zuständen „erregt" und „nicht erregt" unterscheidender Emotionsdetektor ausgebildet ist.