DE60032776T2 - Verfahren zur Spracherkennung - Google Patents

Verfahren zur Spracherkennung Download PDF

Info

Publication number
DE60032776T2
DE60032776T2 DE60032776T DE60032776T DE60032776T2 DE 60032776 T2 DE60032776 T2 DE 60032776T2 DE 60032776 T DE60032776 T DE 60032776T DE 60032776 T DE60032776 T DE 60032776T DE 60032776 T2 DE60032776 T2 DE 60032776T2
Authority
DE
Germany
Prior art keywords
utterance
speech recognition
keywords
statement
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60032776T
Other languages
English (en)
Other versions
DE60032776D1 (de
Inventor
Krzysztof Marasek
Thomas Kemp
Silke Goronzy
Ralf Kompe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony Deutschland GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Deutschland GmbH filed Critical Sony Deutschland GmbH
Application granted granted Critical
Publication of DE60032776D1 publication Critical patent/DE60032776D1/de
Publication of DE60032776T2 publication Critical patent/DE60032776T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren zur Spracherkennung gemäß Anspruch 1 und insbesondere auf ein Verfahren zur Spracherkennung unter Verwendung von Vertraulichkeitsmaßen bzw. Konfidenzmaßen in einem Erkennungsprozess kontinuierlicher Sprache mit großem Vokabular (LVCSR).
  • In vielen herkömmlichen Vorrichtungen und Verfahren zur Spracherkennung wird nach einer Erkennung einer empfangenen Äußerung oder Sprachphrase eine Schätzung bezüglich der Zuverlässigkeit der erkannten Äußerung oder Sprachphrase gegeben, um insbesondere eine Entscheidung zu ermöglichen, ob die fragliche Äußerung oder Sprachphrase und ihre erkannte Form für eine Weiterverarbeitung akzeptiert werden kann oder verworfen und durch eine durch den Sprecher oder Benutzer neu einzugebende Äußerung oder Sprachphrase ausgetauscht werden muss.
  • Ein Hauptnachteil der Verfahren des Standes der Technik zur Spracherken nung besteht darin, dass die Gesamtrechenbelastung über die gesamte empfangene Äußerung verteilt wird, um eine genaue und vollständige Analyse sicherzustellen. Daher können viele Verfahren nicht in kleinen Systemen oder Vorrichtungen, z. B. in Handgeräten oder dergleichen, implementiert werden, da diese kleinen Systeme einen Leistungsgrad besitzen, der zum Erkennen kontinuierlicher Sprache und Schätzen der Zuverlässigkeit der erkannten Phrasen nicht ausreicht, wenn die gesamte empfangene Äußerung vollständig analysiert werden muss.
  • Ein bekanntes Verfahren zur Spracherkennung ist in "A dialog control strategy based on the reliability of speech recognition" von Y. Nimi u. a. in PROCEEDINGS OF ICSLP, 3.-6. Oktober 1996, Seite 534-537, offenbart. Damit wird ein Zuverlässigkeitsmaß für eine Äußerung eines Benutzers berechnet, wobei die Äußerung verworfen, direkt bestätigt oder indirekt bestätigt wird.
  • Es ist daher eine Aufgabe der Erfindung, ein Verfahren zur Spracherkennung zu schaffen, insbesondere auf dem Gebiet der Erkennung kontinuierlicher Sprache bei großem Vokabular, das leicht in kleinen Dialogsystemen implementiert werden kann und das außerdem eine robuste und zuverlässige Schätzung bezüglich der Erkennungsqualität liefert.
  • Die Aufgabe wird durch ein Verfahren zur Spracherkennung mit den kennzeichnenden Merkmalen aus Anspruch 1 gelöst. Bevorzugte Ausführungsformen des erfindungsgemäßen Verfahrens zur Spracherkennung liegen innerhalb des Umfangs der abhängigen Ansprüche.
  • In dem Verfahren zur Spracherkennung gemäß der Erfindung wird eine empfangene Äußerung als Ganzes einem Erkennungsprozess unterworfen. Ferner erfolgt eine lediglich grobe Schätzung, ob die empfangene und erkannte Äuße rung als Ganzes akzeptiert oder verworfen wird. Außerdem wird im Fall des Akzeptierens der Äußerung diese erneut vollständig analysiert, um ihre Bedeutung und/oder ihre Intention zu extrahieren. Außerdem werden anhand der erneuten Analyse und ihres Ergebnisses Schlüsselphrasen und/oder Schlüsselwörter aus der Äußerung extrahiert, die für ihre Bedeutung im Wesentlichen repräsentativ sind.
  • Im Gegensatz zu Verfahren des Standes der Technik zur Spracherkennung wird nach Erkennung der Äußerung als Ganzes in einem Erkennungsprozess eine lediglich grobe Schätzung ausgeführt, die die Zuverlässigkeit der erkannten Äußerung hinsichtlich erforderlicher Sprachphrasen beschreibt. Daher ist in einem ersten Schritt lediglich eine kleine Belastung hinsichtlich Schätzung und Berechnung auf die gesamte empfangene Äußerung zu konzentrieren. Der Hauptteil der Berechnung wird danach auf die erneute Analyse der Äußerung konzentriert, um ihre Bedeutung und Intention zu extrahieren und dadurch Schlüsselphrasen und/oder Schlüsselwörter der Äußerung zu erzeugen. Schlüsselwörter oder Schlüsselphrasen sind Teile oder Untereinheiten der Äußerungen, die die Hauptbedeutung der durch die Äußerung zu transportierenden Nachricht tragen. Folglich sichert das erfindungsgemäße Verfahren zur Spracherkennung die Berechnungs- und Schätzleistung durch eine Konzentra tion auf wichtige Teile einer Äußerung, d. h. die Schlüsselphrasen und Schlüsselwörter, sowie auf deren Erzeugung, Extraktion und/oder Konfidenzschätzung aus der Äußerung.
  • Für Dialogsysteme wird es bevorzugt, dass im Fall des Verwerfens der Äußerung als Ganzes ein Verwerfungssignal erzeugt wird. Insbesondere wird ein Neuaufforderungssignal und/oder eine Aufforderung zum Wiederholen oder Neubeginnen der letzten Äußerung erzeugt und/oder als das Verwerfungssignal ausgegeben. Dies ist in einem Dialogsystem von besonderem Vorteil, da der Benutzer oder momentane Sprecher informiert wird, dass seine letzte Äußerung oder Sprachphrase durch das Erkennungssystem oder -verfahren nicht richtig erkannt worden ist.
  • Zum Ausführen der oben erwähnten groben Schätzung nach dem Akzeptieren und/oder Verwerfen einer empfangenen und/oder erkannten Äußerung wird ein grobes oder einfaches Konfidenzmaß für die gesamte Äußerung bestimmt. Dies ist von besonderem Vorteil im Gegensatz zu Verfahren des Standes der Technik zur Spracherkennung, da diese Verfahren des Standes der Technik im Allgemeinen Konfidenzmaße berechnen, die auf jedem einzelnen Wort oder jeder einzelnen Teilworteinheit in der Äußerung basieren. Folglich müssen Verfahren des Standes der Technik eine relativ große Anzahl Einzelwort-Konfidenzmaße für die gesamte Äußerung berechnen und bestimmen.
  • Außerdem müssen Verfahren des Standes der Technik zur Spracherkennung ferner anschließend eine Gesamtschätzung ausführen, um eine Konfidenz für die ganze Äußerung in Bezug auf den Satz an Einzelwort-Konfidenzmaßen zu finden. Im Gegensatz zu diesen Verfahren des Standes der Technik berechnet das erfindungsgemäße Verfahren in der Anfangsphase der Erkennung ein Konfidenzmaß in einfacher und grober Weise für die ganze Äußerung in ihrer Gesamtheit. Nur wenn auf der Grundlage des Gesamtäußerungs-Konfidenzmaßes eine Annahme der Äußerung und ihrer erkannten Phrasen vorgeschlagen wird, wird eine Weiterverarbeitung ausgelöst.
  • Es wird bevorzugt, die erneute Analyse auf eine Satzanalyse und insbesondere auf eine grammatische, syntaktische und/oder semantische Analyse oder dergleichen zu gründen. Diese Maße sind nützlich, da sie sowohl auf das Extrahieren der Intention und der Bedeutung als auch auf das Extrahieren der Schlüs selphrasen oder Schlüsselwörter der Äußerung konzentriert sind. Insbesondere in Dialogsystemen ist es erforderlich, dass das in dem System implementierte Verfahren aus der mehr oder weniger komplexen empfangenen Äußerung die wichtigsten Teile hiervon extrahieren kann, um die mehr oder weniger komplexe Äußerung auf ihre Intention und Bedeutung zu reduzieren, insbesondere durch ein Sammeln der Schlüsselphrasen oder Schlüsselwörter.
  • Es ist somit ein weiterer Vorteil, eine relativ vollständige Schätzung, ob die extrahierten Schlüsselphrasen und/oder Schlüsselwörter der Äußerung akzeptiert werden können oder verworfen werden müssen, zu bilden, insbesondere durch das vorherige Konfidenzmaß.
  • Entsprechend dem erfindungsgemäßen Verfahren zur Spracherkennung wird ein genaues und/oder robustes Konfidenzmaß für jede einzelne Schlüsselphrase/jedes einzelne Schlüsselwort zur vollständigen Schätzung zum Akzeptieren/Verwerfen der Schlüsselphrasen und/oder Schlüsselwörter bestimmt.
  • Um die Rechenbelastung des erfindungsgemäßen Verfahrens zur Spracherkennung weiter zu verringern, wird das oben beschriebene genaue und/oder robuste Konfidenzmaß für die abgeleiteten Schlüsselphrasen/Schlüsselwörter der empfangenen und erkannten Äußerung nur abgeleitet, falls im Schritt des Ableitens der Schlüsselphrase/des Schlüsselworts ein Hinweis und/oder ein Bedarf hierfür erzeugt wird oder vorkommt.
  • Einige der Grundideen des erfindungsgemäßen Verfahrens zur Spracherkennung im Gegensatz zu Verfahren des Standes der Technik können wie folgt beschrieben und zusammengefasst werden:
    Konfidenzmaße (CM) versuchen darüber zu entscheiden, wie ein zuverlässiger und automatischer Spracherkennungsprozess in Bezug auf ein gegebenes Wort oder eine gegebene Äußerung ausgeführt wird. Das in Zusammenhang mit der Erfindung vorgeschlagene Konfidenzmaß ist insbesondere für Dialogsysteme vorgesehen, die eine kontinuierliche Spracheingabe behandeln müssen und die verschiedene Aktionen basierend auf Daten, die anhand der eingegebenen und erkannten Sprache extrahiert und gesammelt werden, ausführen müssen. Das erfindungsgemäße Verfahren zur Spracherkennung kombiniert verschiedene Informationsquellen, um zu entscheiden, ob eine eingegebene und erkannte Äußerung und/oder die einzelnen gewählten Wörter richtig erkannt werden.
  • Nach einem ersten Schritt zur Erkennung der Äußerung in ihrer Gesamtheit wird ein einfaches, grobes und sehr allgemeines Konfidenzmaß für das Ganze, d. h. die gesamte Äußerung, berechnet und erzeugt. Wenn die erkannte Äußerung als akzeptiert eingestuft wird, wendet sich das Verfahren einem weiteren Verarbeitungsschritt zu. Je nach den Erfordernissen des Verfahrens, das insbesondere in ein System implementiert ist, kann bei Bedarf eine genauere Kon fidenzenbeurteilung für die Wörter oder Teilworteinheiten, die von besonderer Bedeutung sind, erzeugt werden. Diese Wörter oder Teilworteinheiten besonderer Bedeutung werden als Schlüsselphrasen oder Schlüsselwörter bezeichnet. Die weiteren Verarbeitungsschritte, d. h. die erneute Analyse der Äußerung, können explizit die Berechnung der Zuverlässigkeit der Schlüsselphrasen und/oder Schlüsselwörter im Sinn eines genauen und robusteren, auf die entsprechenden einzelnen Schlüsselphrasen und Schlüsselwörter konzentrierten Konfidenzmaßes verlangen.
  • Für die Beurteilung der Erkennungsqualität in Dialogsystemen für kontinuier liche Sprache mit großem Vokabular wird deshalb ein Zweischrittsystem vorgeschlagen. Der erste Schritt der Erkennung der Äußerung als Ganzes sowie der Berechnung eines einfachen Konfidenzmaßes gibt einen Hinweis, ob der größte Teil der Äußerung richtig erkannt wurde. Für solch eine Einstufung ist jedoch nicht jedes einzelne Wort der Benutzereingabe gleichermaßen wichtig. Das Wissen über die Wichtigkeit befindet sich normalerweise nicht in den Informationen, die in dem Spracherkennungssystem gespeichert sind. Es wird daher vorgeschlagen, eine Schnittstelle zu dem Spracherkennungsuntersystem hinzuzufügen, die es einer nachfolgenden Komponente ermöglicht, speziell nach der Konfidenz eines einzelnen Wortes der erkannten Äußerung zu fragen.
  • Daher wird nach der Analyse der Bedeutung oder Intention der Äußerung in ihrer Gesamtheit, eines isolierten Wortes, ein komplizierteres und robusteres Konfidenzmaß auf die isolierten Wörter oder kurzen Phrasen von speziellem Interesse angewendet, d. h., es wird auf die Schlüsselphrasen oder Schlüssel wörter der Äußerung angewendet, insbesondere auf Anforderung von nachfolgenden Spracherkennungsuntersystemen zur vollständigen Spezifikation der Äußerung.
  • Falls auf dieser Stufe Standardverfahren für die Konfidenzmaßbeurteilung angewendet werden würden, würde dies die Rechenbelastung vergrößern. Der bis jetzt für isolierte Wörter entwickelte Lösungsweg könnte einfach auf die Erkennung kontinuierlicher Sprache erweitert werden, wobei ein sehr genaues Konfidenzmaß für jedes einzelne Wort in der Äußerung berechnet werden kann. Da dies sehr aufwändig wäre, würde die Systemreaktion verlangsamt werden. Für Dialogsysteme, die schnell auf die Eingabe einer Äußerung des Benutzers oder Sprechers reagieren müssen, ist dies nicht annehmbar. Daher wird das erfindungsgemäße Verfahren folgendermaßen vorgeschlagen.
  • Das Ziel des ersten Verarbeitungsschritts zur Berechnung eines eher einfachen Konfidenzmaßes für eine Äußerung ist es, das Finden der allgemeinen Struktur der Äußerung zu unterstützen. Wenn diese Einstufung mit einer genügend großen Konfidenz erfolgt ist, können nachfolgende Verarbeitungsschritte die empfangene und erkannte Äußerung weiterverarbeiten. In diesen weiteren Verarbeitungsschritten wird der Satz oder die Äußerung weiter analysiert, um die wichtigen Schlüsselwörter des Satzes oder der Äußerung zu erkennen. Bei Bedarf kann für diese Schlüsselwörter ein zweites genaueres und vollständiges Konfidenzmaß berechnet werden. Abgesehen davon können zusätzliche und anspruchsvollere Merkmale, die einen höheren Grad an Rechenaufwand benötigen, im zweiten Durchlauf zur Berechnung eines Konfidenzmaßes verwendet werden. Dadurch wird der aufwändige Rechenweg reduziert und auf die Orte der Äußerung konzentriert, wo er tatsächlich im Kontext der Anwendung benötigt wird. Dies verringert die Gesamtrechenlast und macht eine Konfidenzschätzung in kleinen Geräten möglich.
  • In einem Zugfahrplan-Informationssystem äußert der Benutzer z. B.: "Ich möchte von Hamburg nach Stuttgart fahren". Die Intention dieser Aussage ist, von einer Stadt zur anderen zu fahren. Zu diesen Informationen müssen lediglich die Ausgangsstadt und das Reiseziel geprüft werden, während der Rest des Satzes als Füllphrasen oder "Füller" betrachtet werden kann. Diese Füllphrasen müssen nicht mit hoher Genauigkeit erkannt werden, vorausgesetzt, dass die Intention des Reisens von einem Punkt zu einem anderen bekannt ist. Was wichtig ist, ist daher das Überprüfen der Ausgangsstadt und des Reiseziels. Gemäß der Erfindung wird folglich die Rechenlast auf diese Schlüsselwörter konzentriert, d. h. den Ausgangspunkt und das Reiseziel der beabsichtigten Reise. Somit wird das zweite Konfidenzmaß lediglich in Bezug auf den Ausgangspunkt und das Reiseziel berechnet, falls erforderlich.
  • In anderen Anwendungen gibt der Spracherkenner alternative Worthypothesen aus, die in einem Graphen angeordnet sind, um mit Unbestimmtheiten und Mehrdeutigkeiten fertig zu werden. Es bestehen viele mögliche Pfade in dem Wortgraphen, von denen jeder einer Satzhypothese entspricht. Der nachfolgende Sprachprozessor sucht nach dem optimalen Pfad entsprechend dem Sprachwissen und den zuvor in dem Spracherkenner berechneten Akustikauswertungen. Während der Suche, in der der Sprachprozessor mehrere Pfade parallel untersucht, kann er das Konfidenzmaß-Berechnungsmodul anfordern, um bestimmte Schlüsselwörter zu bekommen. Das heißt, dass bei jedem folgenden Schritt ein Konfidenzmaß abgefragt werden kann. Welche Wörter die Schlüsselörter sind, hängt von dem momentanen Stand der syntaktischen und semantischen Analyse innerhalb der zugrunde liegenden syntaktischen/semantischen Analyse ab.
  • Die Erfindung wird ausführlicher durch eine schematische Darstellung gezeigt, die eine bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung beschreibt.
  • 1 beschreibt mittels eines schematischen Blockdiagramms eine Ausführungsform des erfindungsgemäßen Verfahrens zur Spracherkennung.
  • In einem ersten Schritt 11 wird eine kontinuierliche Spracheingabe als eine Äußerung U empfangen und vorverarbeitet. In Schritt 12 wird ein Erkennungsprozess für kontinuierliche Sprache mit großem Vokabular LVCSR bezüglich der kontinuierlichen Spracheingabe, d. h. der empfangenen Äußerung U oder Sprachphrase, ausgeführt, um in Schritt 13 ein Erkennungsergebnis zu erzeu gen. Das Erkennungsergebnis aus Schritt 13 dient als eine Äußerungshypothese, die zum Schritt 14 geleitet wird, um ein einfaches und grobes Konfidenzmaß CMU für die gesamte Äußerungshypothese aus Schritt 13 zu berechnen. Im Fall eines durch das Konfidenzmaß CMU der ganzen Äußerungshypothese erfolgten Verwerfens wird in Schritt 20 eine Neuaufforderung oder Auf forderung zum Wiederholen der Äußerung ausgelöst.
  • Im Fall einer Akzeptierung der Äußerungshypothese wird in Schritt 15 eine vollständige Satzanalyse ausgeführt, um Schlüsselwörter zu extrahieren. In einem weiteren Schritt wird berechnet, ob ein Konfidenzmaß zum Auswerten der Schlüsselwörter erforderlich ist. Falls eine weitere Auswertung bezüglich der Zuverlässigkeit der extrahierten Schlüsselwörter notwendig ist, wird eine Berechnung des vollständigen Konfidenzmaßes CMK unter Verwendung der Zeitanpassungsinformationen angefordert, die von der Erkennungseinheit für kontinuierliche Sprache mit großem Vokabular aus Schritt 12 abgerufen werden. Falls kein Konfidenzmaß CMK erforderlich war oder das Konfidenzmaß CMK für die Schlüsselwörter ausreichend war, werden die erzeugten und ext rahierten Schlüsselwörter und Schlüsselphrasen akzeptiert. Wenn das genaue Konfidenzmaß CMK nicht ausreichend war, werden die Schlüsselwörter verworfen, wobei eine Neuaufforderung ausgelöst wird und der Prozess zu Schritt 20 verzweigt.

Claims (6)

  1. Verfahren zur Spracherkennung, – bei dem eine empfangene Äußerung (U) als Ganzes einem Spracher kennungsprozess (12) unterworfen wird, – bei dem anhand des Spracherkennungsprozesses eine grobe Schätzung (14) erfolgt, ob die empfangene Äußerung (U) als Ganzes akzeptiert oder verworfen wird, – bei dem im Fall des Akzeptierens der Äußerung (U) diese erneut voll ständig analysiert wird (15), um ihre Bedeutung und/oder ihre Intention zu extrahieren. – bei dem anhand der erneuten Analyse jene Schlüsselwörter und/oder Schlüsselphrasen aus der Äußerung (U) extrahiert werden (15), die für ihre Bedeutung im Wesentlichen repräsentativ sind, und – bei dem ein genaues und/oder robustes Vertraulichkeitsmaß (CMK) für jede einzelne Schlüsselphrase oder jedes einzelne Schlüsselwort bestimmt wird (16), um die extrahierten Schlüsselphrasen und/oder Schlüsselwörter zu akzeptieren/zu verwerfen.
  2. Verfahren nach Anspruch 1, bei dem im Fall des Verwerfens der Äußerung (U) ein Verwerfungssignal erzeugt wird.
  3. Verfahren nach Anspruch 2, bei dem als das Verwerfungssignal ein Neuaufforderungssignal und/oder im Fall eines Dialogsystems eine Aufforderung zum Wiederholen/Neubeginnen der letzten Äußerung (U) erzeugt und/oder ausgegeben wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem für die grobe Schätzung bezüglich der Annahme/des Verwerfens der Äußerung ein grobes und/oder einfaches Vertraulichkeitsmaß (CMU) für die gesamte Äußerung (U) bestimmt wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die erneute Analyse der empfangenen Äußerung (U) auf einer Satzanalyse basiert und insbesondere auf einer grammatischen, syntaktischen oder semantischen Analyse und/oder dergleichen basiert.
  6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem ein Vertraulichkeitsmaß (CMK) für die einzelne Schlüsselphrase/das einzelne Schlüsselwort nur bestimmt wird, falls im Schritt des Ableitens der Schlüsselphrase/des Schlüsselworts ein Hinweis hierfür auftritt, um so die Rechenbelastung zu verringern.
DE60032776T 2000-11-16 2000-11-16 Verfahren zur Spracherkennung Expired - Lifetime DE60032776T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP00125014A EP1207517B1 (de) 2000-11-16 2000-11-16 Verfahren zur Spracherkennung

Publications (2)

Publication Number Publication Date
DE60032776D1 DE60032776D1 (de) 2007-02-15
DE60032776T2 true DE60032776T2 (de) 2007-11-08

Family

ID=8170395

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60032776T Expired - Lifetime DE60032776T2 (de) 2000-11-16 2000-11-16 Verfahren zur Spracherkennung

Country Status (5)

Country Link
US (1) US20020082833A1 (de)
EP (1) EP1207517B1 (de)
JP (1) JP2002202797A (de)
KR (1) KR20020038545A (de)
DE (1) DE60032776T2 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100449912B1 (ko) * 2002-02-20 2004-09-22 대한민국 음성인식시스템의 핵심어 검출을 위한 후처리방법
TW559783B (en) * 2002-05-31 2003-11-01 Ind Tech Res Inst Error-tolerant natural language understanding system and method integrating with confidence measure
CA2433588A1 (en) * 2002-06-28 2003-12-28 Accenture Global Services Gmbh Decision support and work management for synchronizing learning services
CA2433536A1 (en) * 2002-06-28 2003-12-28 Accenture Global Services Gmbh Delivery module and related platforms for business driven learning solution
US7860736B2 (en) * 2002-06-28 2010-12-28 Accenture Global Services Gmbh Course content development method and computer readable medium for business driven learning solutions
US7702531B2 (en) * 2002-06-28 2010-04-20 Accenture Global Services Gmbh Business driven learning solution particularly suitable for sales-oriented organizations
US20040002888A1 (en) * 2002-06-28 2004-01-01 Accenture Global Services Gmbh Business driven learning solution
US8050918B2 (en) * 2003-12-11 2011-11-01 Nuance Communications, Inc. Quality evaluation tool for dynamic voice portals
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
JP4922377B2 (ja) * 2009-10-01 2012-04-25 日本電信電話株式会社 音声認識装置とその方法と、プログラム
JP5406797B2 (ja) * 2010-07-13 2014-02-05 日本電信電話株式会社 音声認識方法とその装置とプログラム
US9607616B2 (en) * 2015-08-17 2017-03-28 Mitsubishi Electric Research Laboratories, Inc. Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks
KR101934280B1 (ko) * 2016-10-05 2019-01-03 현대자동차주식회사 발화내용 분석 장치 및 방법
US10311876B2 (en) * 2017-02-14 2019-06-04 Google Llc Server side hotwording
US20230245649A1 (en) * 2022-02-03 2023-08-03 Soundhound, Inc. Token confidence scores for automatic speech recognition

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59121100A (ja) * 1982-12-28 1984-07-12 株式会社東芝 連続音声認識装置
JPH0643896A (ja) * 1991-11-18 1994-02-18 Clarion Co Ltd 音声起動制御方法
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
JPH1097276A (ja) * 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition

Also Published As

Publication number Publication date
EP1207517A1 (de) 2002-05-22
DE60032776D1 (de) 2007-02-15
US20020082833A1 (en) 2002-06-27
EP1207517B1 (de) 2007-01-03
KR20020038545A (ko) 2002-05-23
JP2002202797A (ja) 2002-07-19

Similar Documents

Publication Publication Date Title
DE60032776T2 (de) Verfahren zur Spracherkennung
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69615667T2 (de) Spracherkennung
DE69908254T2 (de) System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE102020205786A1 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60000134T2 (de) Unüberwachte Anpassung eines Spracherkenners unter Verwendung zuverlässiger Informationen aus den besten N Rechenhypothesen
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
WO1993006591A1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
WO2002045076A1 (de) Verfahren und system zur multilingualen spracherkennung
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
EP1191517A2 (de) Dialogsystem

Legal Events

Date Code Title Description
8381 Inventor (new situation)

Inventor name: MARASEK, KRZYSZTOF, 70327 STUTTGART, DE

Inventor name: KEMP, THOMAS, 70327 STUTTGART, DE

Inventor name: GORONZY, SILKE, 70327 STUTTGART, DE

Inventor name: KOMPE, RALF, 70327 STUTTGART, DE

8364 No opposition during term of opposition