DE102005010285A1 - Verfahren und System zur Spracherkennung - Google Patents
Verfahren und System zur Spracherkennung Download PDFInfo
- Publication number
- DE102005010285A1 DE102005010285A1 DE200510010285 DE102005010285A DE102005010285A1 DE 102005010285 A1 DE102005010285 A1 DE 102005010285A1 DE 200510010285 DE200510010285 DE 200510010285 DE 102005010285 A DE102005010285 A DE 102005010285A DE 102005010285 A1 DE102005010285 A1 DE 102005010285A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- recognizer
- analysis
- emotion
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 36
- 230000002996 emotional effect Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000037007 arousal Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000005281 excited state Effects 0.000 claims description 2
- 238000011144 upstream manufacturing Methods 0.000 claims description 2
- 230000005284 excitation Effects 0.000 abstract description 2
- 230000004044 response Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013019 agitation Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
Mit der Erfindung soll eine Lösung für eine verbesserte Spracherkennung gegeben werden, welche insbesondere im Hinblick auf den Einsatz in sprachgesteuerten Systemen beziehungsweise Dialogsystemen eine flexible und komfortable Sprachsteuerung mit hoher Erkennungsrate ermöglicht. DOLLAR A Dies wird erfindungsgemäß dadurch erreicht, dass neben der sprachlichen Analyse des Sprachsignals in einem Emotionserkenner dessen Analyse im Hinblick auf die Ermittlung eines emotionalen Zustands einer sich sprachlich äußernden Person erfolgt. In Abhängigkeit des Ergebnisses der emotionalen Analyse, welches in Form eines diskreten Wertes den jeweiligen Erregungszustand der Person beschreibt, werden durch den Spracherkenner unterschiedliche Sprachmodelle für die sprachliche Analyse verwendet.
Description
- Die Erfindung bezieht sich auf ein Verfahren und ein System zur Spracherkennung. Sie betrifft insbesondere die Erkennung von Sprachsignalen der Nutzer sprachgesteuerter Systeme, gegebenenfalls automatischer Dialogsysteme, vorzugsweise mit einer Client-Server-Struktur, wobei jedoch die Anwendung des Verfahrens hierauf nicht beschränkt ist.
- Automatische Dialogsysteme sind bereits seit längerem bekannt und vielfach im Einsatz. Weit verbreitet ist beispielsweise die Dialogsteuerung bei Telefonaten, insbesondere beim Anruf von Callcentern oder Servicehotlines. Häufig wird dabei die Möglichkeit genutzt, den Dialog seitens des Nutzers über Tasten der Wähltastatur des Telefons zu steuern, wobei die jeweils gedrückte Taste bei Nutzung des Mehrfrequenzwahlverfahrens anhand der Frequenz des bei ihrer Betätigung jeweils erzeugten Wähltons feststellbar ist. Jedoch sind automatische Dialogsysteme nicht nur in der Telefonie bekannt, so dass die vorstehend genannte Möglichkeit für andere Dialogsysteme oftmals nicht in Betracht kommt. Aber auch bei der Telefonie wird unter anderem im Hinblick darauf, dass in der Vergangenheit das Mehrfrequenzwahlverfahren durch viele Telefonapparate nicht unterstützt wurde, seit längerem die Möglichkeit einer Dialogsteuerung mittels des vom Nutzer gesprochenen Worts genutzt. Zudem sind bei der Nutzung der Sprache wesentlich komplexere Steuerungsmöglichkeiten gegeben. In dem Maße, wie sich in den letzten Jahren die Zuverlässigkeit der Spracherkennung verbessert hat, hat sich der Umfang der Nutzung sprachgesteuerter Systeme, nicht nur unter dem Gesichtspunkt einer Anwendung in Dialogsystemen stark erhöht.
- Für die auf semantischer und/oder grammatikalischer Grundlage beruhende Spracherkennung ist eine Vielzahl von Verfahren und Systemen bekannt. Auch wenn sich Zuverlässigkeit und Treffsicherheit derartiger Systeme deutlich erhöht haben, sind die mit ihnen realisierten sprachgesteuerten Systeme in ihren Abläufen und Verzweigungsmöglichkeiten bislang zumeist relativ starr. Das heißt, sie gehen abseits eines festgelegten grammatikalischen Wortschatzes beziehungsweise eines semantischen Wertevorrats kaum auf den Nutzer ein. Insbesondere werden Schwierigkeiten, auf die der Nutzer bei der Nutzung der Systeme stößt und welche ihn gegebenenfalls verunsichern und ihn dadurch emotional negativ beeinflussen, nicht berücksichtigt.
- Andererseits sind zur Nutzung auf anderen Gebieten bereits Verfahren entwickelt worden, welche es ermöglichen, sprachliche Äußerungen durch eine prosodische Emotionsanalyse zu bewerten. Ein entsprechendes Verfahren wird beispielsweise durch die
AU 0 770 410 B - Aufgabe der Erfindung ist es, eine Lösung für eine verbesserte Spracherkennung zu schaffen, welche insbesondere, im Hinblick auf den Einsatz in sprachgesteuerten Systemen beziehungsweise Dialogsystemen, eine flexible und komfortable Sprachsteuerung mit hoher Erkennungsrate ermöglicht.
- Die Erfindung wird durch ein Verfahren mit den Merkmalen des Hauptanspruchs gelöst. Ein die Aufgabe lösendes System wird durch den ersten vorrichtungsbezogenen Patentanspruch charakterisiert. Vorteilhafte Ausbeziehungsweise Weiterbildungen der Erfindung sind durch die jeweiligen Unteransprüche gegeben.
- Zur Spracherkennung, das heißt zur Erkennung des Bedeutungsinhalts sprachlicher Äußerungen einer Person wird das Sprachsignal dem Spracherkenner eines Spracherkennungssystems zugeführt und in bekannter Weise auf der Grundlage hinterlegter Sprachmodelle sprachlich analysiert. Erfindungsgemäß erfolgt jedoch neben der rein sprachlichen Analyse des Sprachsignals in einem Emotionserkenner dessen Analyse im Hinblick auf die Ermittlung eines emotionalen Zustands der betreffenden Person. In Abhängigkeit des Ergebnisses dieser emotionalen Analyse, welches in Form eines diskreten Wertes den jeweiligen Erregungszustand der Person beschreibt, werden erfindungsgemäß durch den Spracherkenner unterschiedliche Sprachmodelle für die sprachliche Analyse verwendet. An dieser Stelle sei bemerkt, dass die Sprachanalyse auf der Grundlage entsprechender Sprachmodelle als solches, ebenso wie die dazu eingesetzten soft- und hardwarebasierten Mittel bekannt und daher nicht Gegenstand der vorliegenden Erfindung ist. Gleiches gilt für die Möglichkeit, aus einem Sprachsignal Aussagen über den emotionalen Zustand einer jeweils sprechenden Person abzuleiten. Der Erfindung liegt vielmehr die Idee zugrunde, die beiden vorgenannten Möglichkeiten, also die Interpretation des Bedeutungsinhalts eines Sprachsignals auf der Grundlage sprachlicher Modelle mit der Erkennung von emotionalen Zuständen anhand des Sprachsignals, miteinander in Beziehung zu bringen. Und zwar in der Weise, dass je nach bei der emotionalen Analyse festgestelltem Erregungszustand einer Person unterschiedliche Sprachmodelle für die Erkennung von ihr getätigter sprachlicher Äußerungen zum Einsatz gelangen. Deren Auswahl erfolgt dadurch, dass als Abbild des jeweils festgestellten Erregungszustands von der oder den zur Emotionsanalyse eingesetzten Einheiten ein diskreter Wert (Emotionsindikator) als Element einer begrenzten Menge zur Abbildung von Emotionszuständen dienender Werte zurückgegeben und, bezogen den Ablauf der Spracherkennung in dem hierfür ausgebildeten System, quasi eine Verzweigung entsprechend dem jeweiligen Emotionsindikator erfolgt, in deren Ergebnis für die sprachliche Analyse ein in dem jeweiligen Ablaufzweig vorgesehenes Sprachmodell herangezogen wird, welches sich von den in anderen Ablaufzweigen zur Anwendung gelangenden Sprachmodellen unterscheidet. Auf diese Weise wird die Genauigkeit der Spracherkennung gegenüber einer Erkennung mittels nur eines, vom Erregungszustand völlig unabhängigen Sprachmodells deutlich verbessert.
- Bei einer praxisgerechten Umsetzung des erfindungsgemäßen Verfahrens erfolgt die sprachliche Analyse durch den Spracherkenner, in wiederum bekannter Weise, auf der Grundlage einer Analyse des Sprechklangs der sprachlichen Äußerungen mit Hilfe im System abgebildeter akustischer Modelle und eines Vergleichs dieser Äußerungen mit einer im System hinterlegten Grammatik. Dabei definiert die Grammatik einen durch das System interpretierbaren Sprachraum, in Bezug auf welchen die sprachlichen Äußerungen auf Übereinstimmungen geprüft werden. Zur Verwirklichung des erfindungsgemäßen Verfahren sind jedoch mehrere akustische Modelle sowie mehrere Grammatiken in dem Spracherkenner hinterlegt. Sowohl das für die Sprachanalyse verwendete akustische Modell als auch die Grammatik werden dabei in Abhängigkeit des Ergebnisses der emotionalen Analyse eines Sprachsignals der selben Person ausgewählt.
- Entsprechend einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens ist das Verfahrensregime so gestaltet, dass die emotionale Analyse des Sprachsignals seiner sprachlichen Analyse vorausgeht. Hierdurch ist gewährleistet, dass für die sprachliche Analyse durch den Spracherkenner ein Sprachmodell verwendet wird, welches unmittelbar mit dem, zur Beschreibung des Erregungszustands der Person, aus demselben Sprachsignal abgeleiteten diskreten Wert (Emotionsindikator) korrespondiert.
- Zur Generierung beziehungsweise Implementierung der verschiedenen Sprachmodelle im System sind unterschiedliche Vorgehensweisen denkbar. So können diese beispielsweise auf bestimmte Personen zugeschnitten beziehungsweise an diese gebunden sein und im Zuge einer Anlernphase des Systems im Spracherkenner des Systems hinterlegt werden. Eine solche Vorgehensweise ist beispielsweise von Spracherkennungssoftware, welche im Office-Bereich eingesetzt wird, grundsätzlich bekannt. Allerdings setzt dies voraus, dass die betreffende Person dass System auch in unterschiedlichen Erregungszuständen, also beispielsweise auch, wenn sie verärgert ist, anlernt. Im Hinblick auf Sprachportale beziehungsweise Plattformen kommt aber vorzugsweise die Möglichkeit in Betracht, die akustischen Modelle aus transkribierten Mitschnitten von Sprachportalen abzuleiten. Hinsichtlich der Grammatik kann dabei auf einen allgemeinen Erfahrungsschatz zurückgegriffen werden, um beispielsweise eine Grammatik zu hinterlegen, welche ein für den Zustand der Verärgerung typisches Vokabular umfasst. Die emotionale Analyse erfolgt vorzugsweise durch eine prosodische Bewertung der sprachlichen Äußerungen.
- Ein zur Umsetzung des Verfahrens geeignetes Spracherkennungssystem weist als wesentliche Bestandteile Mittel zur Spracheingabe sowie einen software- und hardwarebasierten Spracherkenner zur Analyse der über die Mittel zur Spracheingabe eingegebenen Sprachsignale auf. Erfindungsgemäß verfügt das System jedoch, abweichend vom Stand der Technik, nicht nur über einen Spracherkenner, sondern außerdem über einen auf prosodischer Grundlage arbeitenden Emotionserkenner, welcher mit dem Spracherkenner in einer Wirkverbindung steht. In dem Spracherkenner sind mehrere akustische Modelle und mehrere Grammatiken zur sprachlichen Analyse eingehender Sprachsignale hinterlegt. Die Wirkverbindung mit dem Emotionserkenner ist dergestalt, dass durch eine Steuereinheit, welche unmittelbarer Teil des Spracherkenners oder diesem zumindest zugeordnet ist, das zur Analyse eines Sprachsignal jeweils herangezogene akustische Modell sowie die hierzu verwendete Grammatik auf der Grundlage eines vom Emotionserkenner an die Steuereinheit übertragenen Emotionsindikators ausgewählt werden. Bei dem an die Steuereinheit übertragenen Emotionsindikator handelt es sich, wie bereits zum Verfahren ausgeführt, um einen den Erregungszustand der sprechenden Person beschreibenden diskreten Wert.
- Entsprechend einer Ausgestaltung ist das erfindungsgemäße Spracherkennungssystem Teil einer Client-Server-Architektur, bei der Sprachkommandos, mittels des als Teil des Clients realisierten Spracherkenners in zeichenbasierte Kommandos umgesetzt und die Kommandos an einen Applikationsserver zur Steuerung darauf gehaltener Anwendungen übertragen werden. Der Client ist beispielsweise als ein VoiceXML-Browser ausgebildet. Um den VoiceXML-Standard nicht verändern zu müssen beziehungsweise eine Nutzung der Erfindung auch mit nach dem bestehenden Standard arbeitenden VoiceXML-Browsern zu ermöglichen, kann der Emotionserkenner auf dem Applikationsserver installiert sein. Er erhält dann die Sprachsignale vom Client via HTTP-multipart POST-request und gibt das Ergebnis der emotionalen Analyse in Form in einem VoiceXML-Dokument enthaltener Instruktionen an diesen zurück. Auf der Grundlage dieser Instruktionen wird das Sprachmodul für die sprachliche Analyse ausgewählt. Allerdings wirkt sich hierbei das Ergebnis der emotionalen Analyse erst auf den jeweils nachfolgenden Sprachanalysevorgang aus.
- Entsprechend einer vorteilhaften Möglichkeit ist daher der Emotionserkenner als ein dem Spracherkenner vorgeschalteter Teil des Clients realisiert. Dies bedingt jedoch gegebenenfalls eine Anpassung des VoiceXML-Standards, zumindest aber des VoiceXML-Browsers.
- Bei einer einfachen Ausbildungsform der Erfindung ist der Emotionserkenner als ein nur zwischen den beiden Zuständen „erregt" und „nicht erregt" unterscheidender Emotionsdetektor ausgebildet.
- Die Erfindung soll nachfolgend anhand eines Ausführungsbeispiels nochmals näher erläutert werden. Dabei sollen die zugehörigen Zeichnungen sowohl der Erläuterung verfahrensbezogener als auch vorrichtungsbezogener Aspekte der Erfindung dienen. Im Einzelnen zeigen:
-
1 : Eine erste Variante des erfindungsgemäßen Spracherkennungssystems als Teil einer Client-Server-Struktur. -
2 : Eine weitere Variante einer entsprechenden Client-Server-Struktur - Die
1 zeigt in einer groben schematischen Darstellung die wesentlichen, sich auf die Erfindung beziehenden Teile eines sprachgesteuerten Systems, welches eine Client-Server-Struktur aufweist. Hierbei kann es sich um ein System handeln, welches Sprachbefehle entgegennimmt und die entsprechenden Bearbeitungsschritte ausführt. Bei dem System kann es sich aber auch um ein Sprachdialogsystem handeln, wobei die Systemantworten auf sprachliche Eingaben eines Benutzers nicht notwendiger Weise ebenfalls in sprachlicher Form erfolgen müssen. Vielmehr können die Systemantworten in visueller, akustischer oder in einer sonstigen Form ausgegeben werden. In jedem Falle ermöglicht jedoch das System die Verarbeitung von Spracheingaben auf der Grundlage der Spracherkennung. - Die im Hinblick auf die Erfindung wesentlichen Komponenten des Systems sind durch Mittel zur Spracheingabe
6 , eine Einheit zur Spracherkennung beziehungsweise den Spracherkenner1 , einen Emotionsdetektor2 und Einheiten8 zur Ausführung der durch die Spracherkennung erkannten Kommandos des Benutzers gegeben, wobei die diese Mittel darstellenden Symbole jeweils hard- und/oder softwarebasierte Komponenten versinnbildlichen. - Bei einem Sprachdialogsystem umfassen letztgenannte Einheiten auch Mittel
7 zur Ausgabe einer Systemantwort. Bei der in der1 gezeigten Variante ist der Emotionserkenner2 beziehungsweise -detektor auf dem Server20 der dargestellten Client-Server-Struktur ausgebildet. Die von dem Client10 empfangenen Spracheingabesignale werden dem Spracherkenner1 und, via HTTP-multipart POST-request dem Emotionserkenner2 auf dem Server20 zugeführt. Dabei werden durch den Emotionserkenner2 schwellwertbasiert, vorzugsweise auf der Grundlage einer prosodischen Analyse, verschiedene Emotionszustände des Systembenutzers unterschieden. In dem gezeigten Beispiel sei angenommen, dass der Emotionserkenner2 als ein zwischen den Emotionszuständen "nicht erregt" und "ärgerlich" unterscheidender Emotionsdetektor arbeitet. Der Spracherkenner1 arbeitet nach grundsätzlich bekannten Verfahren auf der Grundlage einer akustischen und grammatischen Analyse des Sprachsignals. In erfindungswesentlicher Weise werden jedoch zur Spracherkennung akustische Modelle5 ,5' und Grammatiken4 ,4' herangezogen, welche auch ein akustisches Modell5' und eine Grammatik4' für den Zustand emotionaler Erregung (verärgert) abbilden. Dabei wird der Tatsache Rechnung getragen, dass sich eine Person im Zustand emotionaler Erregung anders artikuliert, als im nicht erregten Zustand und dass sich bei Erregung auch das akustische Signal im Hinblick auf Merkmale wie beispielsweise Stimmlage und Intonation ändert. Demzufolge sind dem in der1 gezeigten Spracherkenner1 je ein akustisches Modell5 ,5' und je eine Grammatik4 ,4' zugeordnet, welche Sprachmodelle bezüglich eines emotional nicht erregten Zustands und eines emotional erregten Zustands, beispielsweise des Zustands der Verärgerung, abbilden. Die Auswahl des jeweils zur Anwendung kommenden aus akustischem Modell5 ,5' und Grammatik4 ,4' bestehenden Sprachmodells erfolgt aufgrund des von dem Emotionsdetektor2 erkannten emotionalen Zustands des Systembenutzers. Das Ergebnis der emotionalen Analyse, welches vom Emotionsdetektor2 zu einer Steuereinheit3 des Spracherkenners1 übermittelt wird, ist ein zwischen den beiden Zuständen „nicht erregt" und „ärgerlich" unterscheidender diskreter Wert. In Abhängigkeit dieses Wertes steuert die Steuereinheit den Spracherkenner1 an und veranlasst diesen, durch ein entsprechendes Steuersignal, im Falle einer festgestellten emotionalen Erregung des Benutzers, die Spracherkennung nicht auf der Basis des sonst verwendeten Sprachmodells, sondern auf der Basis des Sprachmodells mit der speziell am Zustand der emotionalen Erregung orientierten Grammatik4' und eines entsprechenden akustischen Modells5' vorzunehmen. Durch die Berücksichtigung des emotionalen Erregungszustandes des Benutzers in Form der Anwendung des jeweils zutreffenden Sprachmodells mit der darin abgebildeten Grammatik4 ,4' wird die Spracherkennung verbessert und somit die Angemessenheit der Systemreaktion sichergestellt. Bei der in der1 dargestellten Variante sind der Spracherkenner1 auf dem Client10 und der Emotionserkenner2 beziehungsweise -detektor auf dem Server20 realisiert. Die parallele Zuführung des Sprachsignals zu beiden Einheiten hat zur Folge, dass die Spracherkennung zum Zeitpunkt des Starts eines sprachgesteuerten Verfahrensablaufs oder eines Sprachdialogs zunächst ohne Berücksichtigung des Emotionszustandes erfolgen muss, da natürlich zu diesem Zeitpunkt noch kein Ausgangssignal des Emotionsdetektors2 vorliegt. Erst mit der Fortführung des Verfahrens beziehungsweise des Dialogs fließen dann die Detektionsergebnisse des Emotionsdetektors2 in die Spracherkennung ein. - Der Ablauf bei der Nutzung des in der
1 dargestellten Systems, beispielsweise eines Sprachdialogsystems, gestaltet sich in etwa wie folgt. Mittels seines in der1 nicht dargestellten Telefons wählt der Benutzer über das PSTN (Public Switched Telephone Network) eine entsprechende Zugangsnummer eines Service Providers an. Zur Führung des Dialogs beziehungsweise zur Nutzung der Inhalte wird ihm von dem Service Provider auf dessen Zugangseinrichtungen, gegebenenfalls nach Durchführung einer Authentifikationsprozedur, ein Client10 in Form eines VoiceXML-Browsers zur Verfügung gestellt. Mittels des VoiceXML-Browsers kann der Nutzer des Sprachdialogsystems, ähnlich wie mit einem gewöhnlichen zeichenbasierten Browser, navigieren, auf die Inhalte zugreifen und diese Inhalte nutzen. Die Navigation erfolgt mit entsprechenden Sprachkommandos, welche mit Hilfe des Spracherkenners1 des VoiceXML-Browsers in zeichenbasierte Kommandos umgesetzt werden. Die Inhalte beziehungsweise der Content werden dem Benutzer in Form von Sprache beziehungsweise entsprechenden Audiodateien über das PSTN an seinem Telefon zur Verfügung gestellt. Das heißt, der VoiceXML-Browser „liest" ihm die jeweiligen Inhalte vor. Diese Inhalte liegen in Form netzbasierter Anwendungen beziehungsweise Applikationen8 auf dem Applikationsserver20 vor, auf welchen der Benutzer durch die sprachgesteuerte Navigation über den VoiceXML-Browser Zugriff hat. Entsprechend der von ihm gegebenen Navigationskommandos steuert der Benutzer die ihn jeweils interessierenden Inhalte beziehungsweise die ihn interessierenden Anwendungen8 . Die Nutzung der Inhalte beziehungsweise das Navigieren in den die Inhalte zur Verfügung stellenden Anwendungen8 werden entsprechend der Erfindung zusätzlich zur sprachlichen Analyse der Sprachkommandos durch eine Analyse des jeweiligen emotionalen Zustands des Benutzers unterstützt. Dabei werden durch die Wahl unterschiedlicher Sprachmodelle4 ,5 ,4' ,5' für die sprachliche Analyse, in Abhängigkeit des emotionalen Zustands der das System nutzenden Person, die Spracherkennung verbessert und hierdurch dem Nutzer mit größerer Zuverlässigkeit die ihn tatsächlich interessierende Anwendung zur Verfügung gestellt. - Durch die
2 wird jedoch eine verbesserte Variante des Systems gezeigt, welche bereits auch zu Beginn eines sprachgesteuerten Verfahrensablaufs oder eines Dialogs die Berücksichtigung des Emotionszustandes des Bedieners bei der Erkennung seiner Spracheingaben ermöglicht. Dazu ist bei dieser Variante der Emotionserkenner2 , ebenso wie der Spracherkenner1 auf dem Client10 realisiert. Hierdurch ist es möglich, bei der sprachlichen Analyse eines Sprachsignals ein aus der entsprechenden Grammatik4 ,4' und einem akustischen Modell5 ,5' bestehendes Sprachmodell zu verwenden, welches unmittelbar mit dem, zur Beschreibung des Erregungszustands der Person, vom Emotionsdetektor2 aus demselben Sprachsignal abgeleiteten diskreten Wert korrespondiert. Somit können bereits zu Beginn des Verfahrens oder des Dialogs die jeweils richtige Grammatik4 ,4' und das zutreffende akustische Modell5 ,5' in die Spracherkennung einbezogen werden. -
- 1
- Spracherkenner
- 2
- Emotionserkenner bzw. Emotionsdetektor
- 3
- Steuereinheit des Spracherkenners
- 4
- Grammatik
- 4'
- Grammatik für emotionale Erregung
- 5
- akustisches (Sprach-)Modell
- 5'
- akustisches (Sprach-)Modell für emotionale Erregung
- 6
- Mittel zur Spracheingabe
- 7
- Mittel zur Sprachausgabe
- 8
- Anwendungen bzw. Applikationen
- 10
- Client
- 20
- Server
Claims (10)
- Verfahren zur Spracherkennung durch ein dazu ausgebildetes System, bei welchem das Sprachsignal zur Erkennung des Bedeutungsinhalts sprachlicher Äußerungen einer Person einem Spracherkenner (
1 ) zugeführt und auf der Grundlage darin hinterlegter Sprachmodelle (4 ,5 ,4' ,5' ) sprachlich analysiert wird, dadurch gekennzeichnet, dass neben der sprachlichen Analyse des Sprachsignals in einem Emotionserkenner (2 ) dessen Analyse im Hinblick auf die Ermittlung eines emotionalen Zustands der betreffenden Person erfolgt und in Abhängigkeit des Ergebnisses der emotionalen Analyse, welches in Form eines diskreten Wertes den jeweiligen Erregungszustand der Person beschreibt, durch den Spracherkenner (1 ) unterschiedliche Sprachmodelle (4 ,5 ,4' ,5' ) für die sprachliche Analyse verwendet werden. - Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die sprachliche Analyse durch den Spracherkenner (
1 ) auf der Grundlage einer Analyse des Sprechklangs der sprachlichen Äußerungen und ihres Vergleichs mit einer im System hinterlegten Grammatik (4 ,4' ) erfolgt, wobei die Analyse des Sprechklangs mit Hilfe im System abgebildeter akustischer Modelle (5 ,5' ) erfolgt und die Grammatik (4 ,4' ) einen durch das System interpretierbaren Sprachraum definiert, in Bezug auf welchen die sprachlichen Äußerungen auf Übereinstimmungen geprüft werden und dass mehrere akustische Modelle (5 ,5' ) sowie mehrere Grammatiken (4 ,4' ) in dem Spracherkenner (1 ) hinterlegt sind und für die Analyse eines Sprachsignals jeweils sowohl das dafür verwendete akustische Modell (5 ,5' ) als auch die Grammatik (4 ,4' ) in Abhängigkeit des Ergebnisses der emotionalen Analyse eines Sprachsignals der selben Person ausgewählt werden. - Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die emotionale Analyse des Sprachsignals seiner sprachlichen Analyse vorausgeht, so dass für die sprachliche Analyse durch den Spracherkenner (
1 ) ein Sprachmodell (4 ,5 ,4' ,5' ) verwendet wird, welches unmittelbar mit dem, zur Beschreibung des Erregungszustands der Person, aus demselben Sprachsignal abgeleiteten diskreten Wert korrespondiert. - Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass personengebundene akustische Modelle (
5 ,5' ) im Zuge einer Anlernphase des Systems hinterlegt werden. - Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die akustischen Modelle (
5 ,5' ) aus transkribierten Mitschnitten von Sprachportalen abgeleitet werden. - Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die emotionale Analyse durch eine prosodische Bewertung einer sprachlichen Äußerung erfolgt.
- Spracherkennungssystem mit Mitteln zur Spracheingabe (
6 ) und einem Spracherkenner (1 ) zur Analyse über die Mittel zur Spracheingabe (6 ) eingegebener Sprachsignale, dadurch gekennzeichnet, dass dieses über einen auf prosodischer Grundlage arbeitenden Emotionserkenner (2 ) verfügt, wobei in dem Spracherkenner (1 ) mehrere akustische Modelle (5 ,5' ) und mehrere Grammatiken (4 ,4' ) zur sprachlichen Analyse eingehender Sprachsignale hinterlegt sind und durch eine in den Spracherkenner (1 ) integrierte oder diesem zugeordnete Steuereinheit (3 ) die Auswahl des zur Analyse eines Sprachsignals herangezogenen akustischen Modells (5 ,5' ) sowie der hierzu verwendeten Grammatik (4 ,4' ) jeweils auf der Grundlage eines vom Emotionserkenner (2 ) an die Steuereinheit (3 ) übertragenen, den Erregungszustand der sprechenden Person beschreibenden diskreten Wertes erfolgt. - Spracherkennungssystem nach Anspruch 7, als Teil einer Client-Server-Architektur, bei welcher Sprachkommandos, mittels des als Teil des Clients (
10 ) realisierten Spracherkenners in zeichenbasierte Kommandos umgesetzt und die Kommandos an einen Applikationsserver (20 ) zur Steuerung darauf gehaltener Anwendungen übertragen werden, dadurch gekennzeichnet, dass der Emotionserkenner (2 ) als ein dem Spracherkenner (1 ) vorgeschalteter Teil des Clients (10 ) realisiert ist. - Spracherkennungssystem nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass der Client (
10 ) als ein VoiceXML-Browser ausgebildet ist. - Spracherkennungssystem nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass der Emotionserkenner (
2 ) als ein zwischen den beiden Zuständen „erregt" und „nicht erregt" unterscheidender Emotionsdetektor ausgebildet ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200510010285 DE102005010285A1 (de) | 2005-03-01 | 2005-03-01 | Verfahren und System zur Spracherkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200510010285 DE102005010285A1 (de) | 2005-03-01 | 2005-03-01 | Verfahren und System zur Spracherkennung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102005010285A1 true DE102005010285A1 (de) | 2006-09-07 |
Family
ID=36848195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE200510010285 Withdrawn DE102005010285A1 (de) | 2005-03-01 | 2005-03-01 | Verfahren und System zur Spracherkennung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102005010285A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545905A (zh) * | 2017-08-21 | 2018-01-05 | 北京合光人工智能机器人技术有限公司 | 基于声音特性的情绪识别方法 |
US10803850B2 (en) | 2014-09-08 | 2020-10-13 | Microsoft Technology Licensing, Llc | Voice generation with predetermined emotion type |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69421598T2 (de) * | 1993-12-22 | 2000-07-06 | At & T Corp | Training eines Spracherkennungssystems unter Verwendung von Biosignalen |
EP1134726A1 (de) * | 2000-03-15 | 2001-09-19 | Siemens Aktiengesellschaft | Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem |
US20030154076A1 (en) * | 2002-02-13 | 2003-08-14 | Thomas Kemp | Method for recognizing speech/speaker using emotional change to govern unsupervised adaptation |
DE69822296T2 (de) * | 1997-10-20 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Mustererkennungsregistrierung in einem verteilten system |
EP1011094B1 (de) * | 1998-12-17 | 2005-03-02 | Sony International (Europe) GmbH | Halbüberwachte Sprecheradaptation |
EP0872827B1 (de) * | 1997-04-14 | 2005-04-06 | AT&T Corp. | System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz |
-
2005
- 2005-03-01 DE DE200510010285 patent/DE102005010285A1/de not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69421598T2 (de) * | 1993-12-22 | 2000-07-06 | At & T Corp | Training eines Spracherkennungssystems unter Verwendung von Biosignalen |
EP0872827B1 (de) * | 1997-04-14 | 2005-04-06 | AT&T Corp. | System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz |
DE69822296T2 (de) * | 1997-10-20 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Mustererkennungsregistrierung in einem verteilten system |
EP1011094B1 (de) * | 1998-12-17 | 2005-03-02 | Sony International (Europe) GmbH | Halbüberwachte Sprecheradaptation |
EP1134726A1 (de) * | 2000-03-15 | 2001-09-19 | Siemens Aktiengesellschaft | Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem |
US20030154076A1 (en) * | 2002-02-13 | 2003-08-14 | Thomas Kemp | Method for recognizing speech/speaker using emotional change to govern unsupervised adaptation |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803850B2 (en) | 2014-09-08 | 2020-10-13 | Microsoft Technology Licensing, Llc | Voice generation with predetermined emotion type |
CN107545905A (zh) * | 2017-08-21 | 2018-01-05 | 北京合光人工智能机器人技术有限公司 | 基于声音特性的情绪识别方法 |
CN107545905B (zh) * | 2017-08-21 | 2021-01-05 | 北京合光人工智能机器人技术有限公司 | 基于声音特性的情绪识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
EP1927980B1 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
DE69827667T2 (de) | Vokoder basierter spracherkenner | |
DE60015531T2 (de) | Client-server spracherkennungssystem | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE10220521B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen | |
DE19956747C1 (de) | Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem | |
DE102007052055A1 (de) | Kraftfahrzeug mit einer Sprachschnittstelle | |
DE10251112A1 (de) | Verfahren und System zur Spracherkennung | |
DE10251113A1 (de) | Verfahren zum Betrieb eines Spracherkennungssystems | |
DE102006036338A1 (de) | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem | |
EP2047668B1 (de) | Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe | |
EP3430615B1 (de) | Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe | |
EP1361740A1 (de) | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs | |
WO2001086634A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE10220522B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
DE102005010285A1 (de) | Verfahren und System zur Spracherkennung | |
DE10348408A1 (de) | Nutzeradaptive Dialogunterstützung für Sprachdialogsysteme | |
EP1659571A2 (de) | Sprachdialogsystem und Verfahren zum Betreiben | |
DE60217313T2 (de) | Verfahren zur durchführung der spracherkennung dynamischer äusserungen | |
WO2005069278A1 (de) | Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
R005 | Application deemed withdrawn due to failure to request examination |
Effective date: 20120302 |